CN108805258B - 一种神经网络训练方法及其装置、计算机服务器 - Google Patents

一种神经网络训练方法及其装置、计算机服务器 Download PDF

Info

Publication number
CN108805258B
CN108805258B CN201810498650.1A CN201810498650A CN108805258B CN 108805258 B CN108805258 B CN 108805258B CN 201810498650 A CN201810498650 A CN 201810498650A CN 108805258 B CN108805258 B CN 108805258B
Authority
CN
China
Prior art keywords
training
neural network
data set
period
labeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810498650.1A
Other languages
English (en)
Other versions
CN108805258A (zh
Inventor
黄泽昊
王乃岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tusimple Technology Co Ltd
Original Assignee
Beijing Tusimple Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tusimple Technology Co Ltd filed Critical Beijing Tusimple Technology Co Ltd
Priority to CN201810498650.1A priority Critical patent/CN108805258B/zh
Publication of CN108805258A publication Critical patent/CN108805258A/zh
Priority to US16/421,259 priority patent/US11755911B2/en
Application granted granted Critical
Publication of CN108805258B publication Critical patent/CN108805258B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开一种神经网络训练方法及其装置、计算机服务器,以解决现有技术无法自动化训练神经网络的问题。方法包括:自动筛选神经网络处理失败的输入数据,得到待标注数据集;对所述待标注数据集进行标注,得到新的标注数据集;获取包含所述新的标注数据集的新增标注数据集,并将该新增标注数据集与前一周期用于训练所述神经网络的训练样本数据集的并集确定为本周期的训练样本数据集;基于本周期的训练样本数据集对所述神经网络进行迭代训练,得到本周期训练得到的神经网络。本发明技术方案能够实现自动化训练神经网络,以不断提高神经网络的准确性。

Description

一种神经网络训练方法及其装置、计算机服务器
技术领域
本发明涉及深度学习领域,特别涉及一种神经网络训练方法、一种神经网络训练装置和一种计算机服务器。
背景技术
近几年来,深度神经网络在诸多领域中取得了巨大的成功,如计算机视觉、自然语言处理等。然而,为了将深度神经网络应用到实际应用当中,深度神经网络必须满足以下三个条件:1)符合实际应用速度需求;2)在大量的实际场景数据上进行训练;3)能够根据实际需求快速迭代更新。
当神经网络在实际投入使用时,研发人员发现神经网络处理不理想时,启动对该神经网络的重新训练,并手动获取用于重新训练该神经网络的样本数据集,基于该样本数据集对该神经网络进行重新训练。整个重新训练的过程均需要人工参与,如何能够实现神经网络的自动训练目前没有公开相关的技术方案。
发明内容
鉴于上述问题,本发明提供一种神经网络训练方法及其装置、计算机服务器,以实现自动化训练神经网络,以不断提高神经网络的准确性。
本发明实施例,第一方面,提供一种神经网络训练方法,该方法按照预置的时间周期执行以下步骤,包括:
自动筛选神经网络处理失败的输入数据,得到待标注数据集;
对所述待标注数据集进行标注,得到新的标注数据集;
获取包含所述新的标注数据集的新增标注数据集,并将该新增标注数据集与前一周期用于训练所述神经网络的训练样本数据集的并集确定为本周期的训练样本数据集;
基于本周期的训练样本数据集对所述神经网络进行迭代训练,得到本周期训练得到的神经网络。
本发明实施例,第二方面,提供一种神经网络训练装置,所述装置包括:
控制单元,用于按照预置的时间周期触发筛选单元、标注单元、获取单元和训练单元;
筛选单元,用于自动筛选神经网络处理失败的输入数据,得到待标注数据集;
标注单元,用于对所述待标注数据集进行标注,得到新的标注数据集;
获取单元,用于获取包含所述新的标注数据集的新增标注数据集,并将该新增标注数据集与前一周期用于训练所述神经网络的训练样本数据集的并集确定为本周期的训练样本数据集;
训练单元,用于基于本周期的训练样本数据集对所述神经网络进行迭代训练,得到本周期训练得到的神经网络。
本发明实施例,第三方面,还提供一种计算机服务器,该计算机服务器包括存储器,以及与所述存储器通信连接的一个或多个处理器;
所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行,以使所述一个或多个处理器实现第一方面提供的神经网络训练方法。
本发明技术方案,在神经网络实际投入使用之后,能够自动检测神经网络处理失败的输入数据,并对该处理失败的输入数据进行标注,得到新的标注数据集;获取包含该新的标注数据集的新增标注数据集,并将该新增标注数据集加入到前一周期用于训练该神经网络的训练样本数据集中,以不断丰富用于训练该神经网络的训练样本数据集,使得训练样本数据集中的训练样本数据越来越多;自动基于丰富后的训练样本数据集对神经网络进行迭代训练,以不断提高神经网络的准确性。采用本发明技术方案,在神经网络实际投入使用之后,能够打通自动筛选待标注数据、标注数据、自动更新训练样本数据集和自动训练神经网络等环节,实现全过程自动化,无需人工参与,能够自动化的丰富用于训练神经网络的训练样本数据集,并基于丰富后的训练样本数据集自动化的对神经网络进行训练,以不断提高神经网络的准确性。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明实施例中神经网络训练方法的流程图之一;
图2为本发明实施例中神经网络训练方法的流程图之二;
图3为本发明实施例中实现自动化训练神经网络的示意图之一;
图4为本发明实施例中实现自动化训练神经网络的示意图之二;
图5为本发明实施例中获取新增标注数据集的示意图;
图6为本发明实施例中神经网络训练方法的流程图之三;
图7为本发明实施例中特定结构为模块的示意图;
图8为本发明实施例中特定结构为残差网络中的残差模块的示意图;
图9为本发明实施例中特定结构为模组的示意图;
图10为本发明实施例中特定结构为神经元的示意图;
图11为本发明实施例中神经网络训练装置的结构示意图之一;
图12为本发明实施例中神经网络训练装置的结构示意图之二;
图13为本发明实施例中计算机服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明实施例提供的技术方案可以适用于任意结构、实现任意功能的神经网络,本申请对神经网络的具体结构、实现的具体功能没有严格限定。例如,本发明实施例中的神经网络可以是实现图像分割、物体检测、人脸识别或自然语言处理等功能的神经网络。
实施例一
参见图1,为本发明实施例中神经网络训练方法的流程图,该方法包括步骤101~步骤104,其中:
步骤101、自动筛选神经网络处理失败的输入数据,得到待标注数据集。
步骤102、对所述待标注数据集进行标注,得到新的标注数据集。
步骤103、获取包含所述新的标注数据集的新增标注数据集,并将该新增标注数据集与前一周期用于训练所述神经网络的训练样本数据集的并集确定为本周期的训练样本数据集。
步骤104、基于本周期的训练样本数据集对所述神经网络进行迭代训练,得到本周期训练得到的神经网络。
优选地,本发明实施例中,为了提高神经网络自动训练的可控性,本发明实施例中,前述图1所示的流程可以是在接收到自动训练开始指令时按照预置的时间周期周期性地执行前述步骤101~步骤104,以及在接收到自动训练停止指令时结束流程,如图2所示。本发明实施例中自动训练开始指令和自动训练停止指令可以由人工输入,也可以由预置的程序代码按照预设的触发条件(例如自动训练开始时间和自动训练结束时间等)自动生成,本申请不做严格限定。
在一个示例中,前述步骤102具体可通过但不仅限于以下方式实现:
方式A1、将所述待标注数据集发送给标注平台,通过所述标注平台对所述待标注数据集的数据进行标注,以得到新的标注数据集。
在该方式A1中,将所述待标注数据集发送给标注平台,具体可通过但不仅限于以下任意一种方式实现:
方式A11、直接将待标注数据集传输给标注平台;
方式A12、将待标注数据集存储至预置的存储空间(该存储空间专用于存储需要标注平台标注的待标注的数据集),由标注平台从该存储空间中获取所述待标注数据集。
方式A2、通过人工对所述待标注数据集进行标注,以得到新的标注数据集。
在一个示例中,步骤103中获取包含所述新的标注数据集的新增标注数据集,可以通过但不仅限于以下任意一种方式实现:
方式B1、从标注平台接收所述新增标注数据集。
在该方式B1中,可以通过向标注平台发送数据请求的方式从标注平台获取所述新增标注数据集,也可以由标注平台主动下发新增标注数据集,本申请不做严格限定。
方式B2、从标注数据库中获取新增标注数据集。
在该方式B2中,可以由人工或标注平台将所有已完成标注的标注数据集存储至预置的标注数据库中,由其他的应用软件/程序从该标注数据库中获取所需的标注数据集。
若采用方式B1,则可采用如图3所示的示意图实现神经网络的自动化训练;若采用方式B2,则可采用如图4所示的示意图实现神经网络的自动化训练。
本发明实施例中,新增标注数据集中可以仅包含所述新的标注数据集,也可以是既包含所述新的标注数据集也包含其他适用于对所述神经网络进行训练的其他标注数据集。本申请不做严格限定。
针对方式B2,在一个示例中,假设新增标注数据集中仅包含所述新的标注数据集。假设待标注数据集唯一对应一个ID号,该待标注数据集被标注平台标注后得到的新的标注数据集的ID号保持不变,标注平台将该新的标注数据集存储至标注数据库中,标注数据库中的每个标注数据集唯一对应一个ID号。从标注数据库中获取新增标注数据集,具体实现可如下:从标注数据库中选取ID号与待标注数据集的ID号一致的标注数据集,将选取的标注数据集添加至新增标注数据集中。
针对方式B2,在一个示例中,假设新增标注数据集中包含所述新的标注数据集以及其他适用于训练所述神经网络的标注数据集。假设标注数据库中每个标注数据集唯一对应一个标签和ID号,从标注数据库中获取新增标注数据集,具体实现可如下:从标注数据库中选取标签与所述神经网络的标签匹配的标注数据集;针对选取的每个标注数据集,将该标注数据集的ID号与前一周期用于训练该神经网络的训练样本数据集中的样本数据集的ID号进行比对,若比对不一致则将该标注数据集添加至新增标注数据集中。
如图5所示,假设前一周期用于训练所述神经网络的训练样本数据集包括4个样本数据集,该4个样本数据集对应的ID号依次为:A1、A2、A3、A4。标注数据库中包含6个标注数据集,该6个标注数据集对应的ID号依次为:A1、A3、A5、B1、B2和B3,其中ID号为A1、A3、A5的标注数据集的标签与所述神经网络的标签匹配;针对ID号为A1、A3、A5的每个标注数据集,将该标注数据集的ID号分别与前一周期的训练样本数据集包括的4个样本数据集的ID号进行一一比对,若均不一致,则将该标注数据集添加至新增标注数据集中,例如ID号为A5的标注数据集与前一周期的训练样本数据集中的4个样本数据集的ID号均不一致,则将该ID号为A5的标注数据集添加至新增标注数据集中;依此,得到新增标注数据集为包含ID号为A1、A3、A5的标注数据集的集合,得到本周期的训练样本数据集为ID号为A1、A2、A3、A4、A5的样本数据集的并集。
本发明实施例,每个周期自动获取新增标注数据集并存储至神经网络的训练样本数据集中,能够不断的扩充和丰富用于训练神经网络的训练样本数据集,根据数据量越来越大的训练样本数据集对神经网络进行训练使得训练得到的神经网络越精准,逐步提高神经网络的准确性。
前述图1和图2所示的神经网络所采用的基础神经网络模型(即第一周期开始时使用的神经网络),可以是从预置的神经网络模型集中选取一个与期望训练得到的神经网络所实现的功能(如图像分割、物体检测、人脸识别、自然语言处理等)对应的基础神经网络模型,也可以根据期望训练得到的神经网络所实现的功能构建一个基础神经网络模型。本申请对神经网络的具体结构不做严格的限定。
本申请对前述步骤104中基于本周期的训练样本数据集对所述神经网络进行迭代训练的方式不做严格限定,可以采用现有的迭代训练方式进行训练。
优选地,为进一步提高前述步骤104训练得到的神经网络的运行速率,一种方式是对每个周期训练得到的神经网络进行剪枝;另一种方式是在每个周期对神经网络进行迭代训练时进行剪枝。下面针对该两种方式进行详细的描述:
第一种方式,可以在前述图1、图2所示的步骤104之后还包括步骤105,如图6所示:
步骤105、对本周期训练得到的神经网络进行剪枝。
第二种方式,所述步骤104中基于本周期的训练样本数据集对所述神经网络进行迭代训练,具体实现如下:
基于本周期的训练样本数据集对所述神经网络进行迭代训练并剪枝。
本领域技术人员可以根据实际需求选择第一种方式或第二种方式,本申请不作严格限定。
优选地,基于前述第二种方式,为提高神经网络训练的效率和降低训练得到的神经网络的结构复杂度,本发明实施例中,设计人员可构建基础神经网络模型的结构,在构建基础神经网络模型时,为该基础神经网络模型中的每个特定结构设置对应的一个稀疏缩放算子,该稀疏缩放算子用于对相应特定结构的输出进行缩放。在每个周期中,当对设置有稀疏缩放算子的神经网络进行训练的过程中,通过本周期的训练样本数据集对神经网络中的权重和稀疏缩放算子一起训练,在训练结束后,将训练得到的神经网络中的稀疏缩放算子为零的特定结构删除,以得到本周期训练得到的神经网络。该种神经网络训练方式,一方面,引入稀疏缩放算子来缩放不同特定结构的输出,不需要在权重上加入新的约束,权重和稀疏缩放算子可进行独立优化,后续的优化过程更加简单,易于实现;另一方面,稀疏缩放算子为零的特定结构对神经网络的输出结果没有贡献,将稀疏缩放算子为零的特定结构删除,并不影响神经网络的精度,而且还能够精简神经网络以提高神经网络运行速度。
本发明实施例中,各特定结构的稀疏缩放算子的取值大于等于0。优选地,初始稀疏缩放算子的取值接近1,例如可以直接取值为1。
因此,本发明实施例中,所述神经网络的多个特定结构分别设置有对应的稀疏缩放算子,前述步骤104具体可通过但不仅限于以下方式实现,该方式包括步骤C1~步骤C2,其中:
步骤C1、基于本周期的训练样本数据集对所述神经网络的权重和特定结构的稀疏缩放算子进行迭代训练,在迭代训练结束时执行步骤C2;
步骤C2、将训练得到的神经网络中稀疏缩放算子为零的特定结构删除,得到本周期训练得到的神经网络。
步骤C1具体实现可如下:采用本周期的训练样本数据集中的样本数据对所述神经网络进行迭代训练;当迭代训练次数达到阈值或者所述神经网络对应的目标函数满足预置的收敛条件时,确定训练结束,其中,所述目标函数包含损失函数和稀疏正则函数。
优选地,前述步骤C1具体实现可通过对初始神经网络进行多次以下的迭代训练,以一次非首次迭代和非尾次迭代的迭代过程(以下称为本次迭代训练)为例进行描述,一次迭代训练包括以下步骤D1~步骤D3:
步骤D1、将前一次迭代训练得到的稀疏缩放算子作为所述目标函数的常量,将所述权重作为所述目标函数的变量,采用第一优化算法对所述目标函数进行优化,得到本次迭代训练的权重;
步骤D2、将本次迭代训练的权重作为所述目标函数的常量,将稀疏缩放算子作为所述目标函数的变量,采用第二优化算法对所述目标函数进行优化,得到本次迭代训练的稀疏缩放算子;
步骤D3、基于本次迭代训练的权重和稀疏缩放算子进行下一次迭代训练。
首次迭代训练过程如下:将初始稀疏缩放算子作为所述目标函数的常量,将所述权重作为所述目标函数的变量,采用第一优化算法对所述目标函数进行优化,得到本次迭代训练的权重;将本次迭代训练的权重作为所述目标函数的常量,将稀疏缩放算子作为所述目标函数的变量,采用第二优化算法对所述目标函数进行优化,得到本次迭代训练的稀疏缩放算子;基于本次迭代训练的权重和稀疏缩放算子进行第二次迭代训练。
尾次迭代训练过程如下:将前一次迭代训练得到的稀疏缩放算子作为所述目标函数的常量,将所述权重作为所述目标函数的变量,采用第一优化算法对所述目标函数进行优化,得到本次迭代训练的权重;将本次迭代训练的权重作为所述目标函数的常量,将稀疏缩放算子作为所述目标函数的变量,采用第二优化算法对所述目标函数进行优化,得到本次迭代训练的稀疏缩放算子;将包含本次迭代训练得到的稀疏缩放算子和权重的神经网络作为中间神经网络。
优选地,本发明实施例中,所述第一优化算法可以为但不仅限于为以下任意一种算法:随机梯度下降算法、引入动量的变种算法。
优选地,本发明实施例中,所述第二优化算法可以为但不仅限于为以下任意一种算法:加速近端梯度下降算法、近端梯度下降算法、交替方向乘子算法。
优选地,本发明实施例中,神经网络的目标函数包含损失函数、权重正则函数和稀疏正则函数,该目标函数如式(1)所示:
Figure BDA0001669743120000081
其中,
Figure BDA0001669743120000082
式(1)中,所述W为所述神经网络的权重,λ为所述神经网络的稀疏缩放算子向量,N为本周期的训练样本数据集中样本数据的数量,
Figure BDA0001669743120000083
为神经网络在样本数据xi上的损失,
Figure BDA0001669743120000084
为权重正则函数,
Figure BDA0001669743120000085
为稀疏正则函数,K为神经网络中特定结构的数量,λj为第j个特定结构的稀疏缩放算子,γj为第j个特定结构对应的稀疏惩罚权重,γj根据第j个特定结构的运算复杂度计算得到。
在实际情况中,神经网络中不同的特定结构其运算复杂度不同,若对所有的特定结构加入相同权重的稀疏约束,则可能会导致在后续进行特定结构的删除操作时,将运算复杂度较小的特定结构删除,而保留了运算复杂度较大的特定结构。因此,为降低训练得到的神经网络的运算复杂度,本发明实施例中为不同特定结构设置不同权重的稀疏约束,即对不同特定结构对应的稀疏缩放算子设置不同的稀疏惩罚权重。在一种实现方式中:预先设置一个基础稀疏惩罚权重;计算每个特定结构的运算复杂度;将每个特定结构的运算复杂度与基础稀疏惩罚权重的乘积作为该特定结构的稀疏惩罚权重。如以下式(2):
γj=γbase×flopj 式(2)
式(2)中,γj为第j个特定结构对应的稀疏惩罚权重,γbase为预置的基础稀疏惩罚权重,flopj为第j个特定结构对应的运算复杂度。
本发明实施例中,确定各特定结构的运算复杂度可以通过但不仅限于以下方式实现:
情况1、若特定结构包含全连接层,则计算全连接层的运算复杂度,并将该特定结构包含的所有全连接层的运算复杂度的和值确定为该特定结构对应的运算复杂度;
情况2、若特定结构包含卷积层,则计算卷积层的运算复杂度,并将该特定结构包含的所有卷积层的运算复杂度的和值确定为该特定结构对应的运算复杂度;
情况3、若特定结构包含全连接层和卷积层,则计算卷积层和全连接层的运算复杂度,并将该特定结构包含的所有卷积层和全连接层的运算复杂度的和值确定为该特定结构对应的运算复杂度。
在一个示例中,计算全连接层的运算复杂度flop=N1×N2,其中,N1为全连接层的输入通道数,N2为该全连接层的输出通道数。
在一个示例中,计算卷积层的运算复杂度flop=N1×N2×H1×W1×H2×W2,其中,N1为卷积层的输入通道数,N2为卷积层的输出通道数,H1为输入特征图的高,W1为输入特征图的宽,H2为卷积核的高,W2为卷积核的宽。
本发明实施例中,可由设计人员确定基础神经网络模型中的特定结构,例如:可将基础神经网络模型中的某一层或某些网络层的全部或部分神经元确定为特定结构。和/或,将基础神经网络中具有以下特性的一个或多个模组确定为特定结构:特性1、包含一个以上网络层(例如,该特定结构包含两个以上级联的网络层);特性2、与其他模组并联或者该模组前后端具有跨层连接。和/或,将基础神经网络模型中具有以下特性的一个或多个模块确定为特定结构:特性1、包含一个以上模组的模块(例如,该特定结构包含两个以上并联的模组);特性2、该模块的前后端具有跨层连接。
下面分别以特定结构为模块、模组和神经元进行详细描述。
如图7所示,假设神经网络包含N个模块,每个模块对应一个稀疏缩放算子,且每个模块的前后端具有跨层连接。
以一个具体为例,假设神经网络为残差网络,设置特定结构为残差模块,如上图8所示,该残差模块前后端具有跨层连接,第i个残差模块对应的稀疏缩放算子为λi,则:
Figure BDA0001669743120000101
若经过训练之后,得到第三个残差模块的稀疏缩放算子λ3=0时,则将残差网络中第3个残差模块
Figure BDA0001669743120000102
删除。
如图9所示,假设神经网络包含N个模块,每个模块包含M个模组,每个模组包含多个级联的网络层,每个模组对应一个稀疏缩放算子。
如图10所示,假设神经网络包含L个网络层,第l网络层包含k神经元,则该k个神经元分别对应一个稀疏缩放算子。
优选地,前述步骤101中,自动筛选神经网络处理失败的输入数据,可以是通过人工判断;也可以是通过预先设置的自动审核机制审核神经网络处理失败的输入数据;也可以通过精度特别高且与所述神经网络实现相同功能的教师网络对所述神经网络的相同输入数据进行处理,将教师网络的处理结果与所述神经网络的处理结果进行比对,筛选出所述神经网络处理失败的输入数据。
优选地,在一个应用场景中,本发明实施例中的神经网络为目标检测模型,输入给该目标检测模型为一个包含多个视频帧序列的视频,前述步骤101中,自动筛选神经网络处理失败的输入数据,具体可通过但不仅限于以下方式实现,该方式包括以下步骤:
步骤E1、将视频输入到目标检测模型中,得到每一帧图像的检测结果;
步骤E2、将所述视频的所有帧图像的检测结果输入到目标跟踪模型,得到每一帧图像的跟踪结果;
步骤E3、针对所述视频的每一帧图像执行以下步骤:匹配一帧图像的检测结果与跟踪结果;若匹配不一致,则确定所述一帧图像为所述目标检测模型处理失败的输入数据,并将该输入数据确定为待标注数据。
在一个示例中,前述步骤E3中,匹配一帧图像的检测结果与跟踪结果,具体包括:采用二分图匹配算法匹配一帧图像的检测结果与跟踪结果。二分图匹配算法可以为匈牙利匹配算法。
针对前述步骤E3中匹配一帧图像的检测结果与跟踪结果也可以按照以下方式实现:针对一帧图像,采用遍历方式一一匹配每一个检测目标和跟踪目标。例如,某一帧图像的检测结果包括A1、A2这两个检测目标,该一帧图像的跟踪结果包括B1、B2这两个跟踪目标,则分别匹配A1与B1、A1与B1、A2与B1、A2与B2这四组;若检测目标与跟踪目标一一对应匹配,则确定该一帧图像不是目标检测模型处理失败的输入数据,否则确定该一帧图像为目标检测模型处理失败的输入数据。
优选地,步骤E3中确定出的样本图像中可能会存在相邻多帧图像,而该相邻多帧图像基本是一样的,为避免冗余,降低标注工作量,本发明实施例中,在前述所有实施例中,前述步骤103匹配完所述视频中的所有帧图像之后,还包括步骤E4:
步骤E4、通过时序非极大值抑制算法对步骤E3确定出的样本图像进行采样。
当然,本领域技术人员,针对步骤E4也可以采用其他的方式对样本图像进行采用,例如采用简单的间隔采样算法。
实施例二
基于前述实施例一提供的一种神经网络训练方法的相同构思,本发明实施例二提供一种神经网络训练装置,该装置的结构如图11所示,包括控制单元1、筛选单元2、标注单元3、获取单元4和训练单元5,其中:
控制单元1,用于按照预置的时间周期触发筛选单元2、标注单元3、获取单元4和训练单元5;
筛选单元2,用于自动筛选神经网络处理失败的输入数据,得到待标注数据集;
标注单元3,用于对所述待标注数据集进行标注,得到新的标注数据集;
获取单元4,用于获取包含所述新的标注数据集的新增标注数据集,并将该新增标注数据集与前一周期用于训练所述神经网络的训练样本数据集的并集确定为本周期的训练样本数据集;
训练单元5,用于基于本周期的训练样本数据集对所述神经网络进行迭代训练,得到本周期训练得到的神经网络。
优选地,本发明实施例中,标注单元3具体实现可如下:将所述待标注数据集发送给标注平台,通过所述标注平台对所述待标注数据集的数据进行标注以得到新的标注数据集(对应前述方式A1,在此不再赘述)。或者,通过人工对所述待标注数据集进行标注,以得到新的标注数据集(对应前述方式A2)
优选地,所述获取单元4获取包含所述新的标注数据集的新增标注数据集,具体包括:从标注平台接收所述新增标注数据集(与实施例一中的方式B1对应,技术细节在此不再赘述);或者,从标注数据库中获取所述新增标注数据集(与实施例一中的方式B2对应,技术细节在此不再赘述)。
本发明实施例中,神经网络所采用的基础神经网络模型(即第一周期开始时使用的神经网络),可以是从预置的神经网络模型集中选取一个与期望训练得到的神经网络所实现的功能(如图像分割、物体检测、人脸识别、自然语言处理等)对应的基础神经网络模型,也可以根据期望训练得到的神经网络所实现的功能构建一个基础神经网络模型。本申请对神经网络的具体结构不做严格的限定。
本申请对前述训练单元5基于本周期的训练样本数据集对所述神经网络进行迭代训练的方式不做严格限定,可以采用现有的迭代训练方式进行训练。
优选地,为进一步提高训练单元5训练得到的神经网络的运行速率,一种方式是对每个周期训练得到的神经网络进行剪枝;另一种方式是在每个周期对神经网络进行迭代训练时进行剪枝。下面针对该两种方式进行详细的描述:
第一种方式,在前述图11所述的装置还可进一步包括剪枝单元6,如图12所示:
剪枝单元6,用于对本周期训练得到的神经网络进行剪枝.
第二种方式,所述训练单元5,具体用于:基于本周期的训练样本数据集对所述神经网络进行迭代训练并剪枝,得到本周期训练得到的神经网络。
本领域技术人员可以根据实际需求选择第一种方式或第二种方式,本申请不作严格限定。
优选地,基于前述第二种方式,为提高神经网络训练的效率和降低训练得到的神经网络的结构复杂度,本发明实施例中,设计人员可构建基础神经网络模型的结构,在构建基础神经网络模型时,为该基础神经网络模型中的每个特定结构设置对应的一个稀疏缩放算子,该稀疏缩放算子用于对相应特定结构的输出进行缩放。在每个周期中,当对设置有稀疏缩放算子的神经网络进行训练的过程中,通过本周期的训练样本数据集对神经网络中的权重和稀疏缩放算子一起训练,在训练结束后,将训练得到的神经网络中的稀疏缩放算子为零的特定结构删除,以得到本周期训练得到的神经网络。该种神经网络训练方式,一方面,引入稀疏缩放算子来缩放不同特定结构的输出,不需要在权重上加入新的约束,权重和稀疏缩放算子可进行独立优化,后续的优化过程更加简单,易于实现;另一方面,稀疏缩放算子为零的特定结构对神经网络的输出结果没有贡献,将稀疏缩放算子为零的特定结构删除,并不影响神经网络的精度,而且还能够精简神经网络以提高神经网络运行速度。
本发明实施例中,各特定结构的稀疏缩放算子的取值大于等于0。优选地,初始稀疏缩放算子的取值接近1,例如可以直接取值为1。
优选地,所述神经网络的多个特定结构分别设置有对应的稀疏缩放算子,其中稀疏缩放算子用于对相应特定结构的输出进行缩放;所述训练单元5具体包括:
训练子单元,用于基于本周期的训练样本数据集对所述神经网络的权重和特定结构的稀疏缩放算子进行迭代训练,在迭代训练结束时触发删除子单元;
删除子单元,用于将训练子单元训练得到的神经网络中稀疏缩放算子为零的特定结构删除,得到本周期训练得到的神经网络。
优选地,所述训练子单元具体用于:采用本周期的训练样本数据集中的样本数据对所述神经网络进行迭代训练;当迭代训练次数达到阈值或者所述神经网络对应的目标函数满足预置的收敛条件时,确定训练结束,其中,所述目标函数包含损失函数和稀疏正则函数。
所述训练子单元采用本周期的训练样本数据集中的样本数据对所述神经网络进行迭代训练,具体包括:
对所述神经网络进行多次以下迭代训练:
将前一次迭代训练得到的稀疏缩放算子作为所述目标函数的常量,将所述权重作为所述目标函数的变量,采用第一优化算法对所述目标函数进行优化,得到本次迭代训练的权重;将本次迭代训练的权重作为所述目标函数的常量,将稀疏缩放算子作为所述目标函数的变量,采用第二优化算法对所述目标函数进行优化,得到本次迭代训练的稀疏缩放算子;基于本次迭代训练的权重和稀疏缩放算子进行下一次迭代训练。
首次迭代训练过程如下:将初始稀疏缩放算子作为所述目标函数的常量,将所述权重作为所述目标函数的变量,采用第一优化算法对所述目标函数进行优化,得到本次迭代训练的权重;将本次迭代训练的权重作为所述目标函数的常量,将稀疏缩放算子作为所述目标函数的变量,采用第二优化算法对所述目标函数进行优化,得到本次迭代训练的稀疏缩放算子;基于本次迭代训练的权重和稀疏缩放算子进行第二次迭代训练。
尾次迭代训练过程如下:将前一次迭代训练得到的稀疏缩放算子作为所述目标函数的常量,将所述权重作为所述目标函数的变量,采用第一优化算法对所述目标函数进行优化,得到本次迭代训练的权重;将本次迭代训练的权重作为所述目标函数的常量,将稀疏缩放算子作为所述目标函数的变量,采用第二优化算法对所述目标函数进行优化,得到本次迭代训练的稀疏缩放算子;将包含本次迭代训练得到的稀疏缩放算子和权重的神经网络作为中间神经网络。
优选地,本发明实施例中,所述第一优化算法可以为但不仅限于为以下任意一种算法:随机梯度下降算法、引入动量的变种算法。
优选地,本发明实施例中,所述第二优化算法可以为但不仅限于为以下任意一种算法:加速近端梯度下降算法、近端梯度下降算法、交替方向乘子算法。
优选地,所述目标函数可以设置为如实施例一中的式(1),在此不再赘述。
在实际情况中,神经网络中不同的特定结构其运算复杂度不同,若对所有的特定结构加入相同权重的稀疏约束,则可能会导致在后续进行特定结构的删除操作时,将运算复杂度较小的特定结构删除,而保留了运算复杂度较大的特定结构。因此,为降低训练得到的神经网络的运算复杂度,本发明实施例中为不同特定结构设置不同权重的稀疏约束,即对不同特定结构对应的稀疏缩放算子设置不同的稀疏惩罚权重。在一种实现方式中:预先设置一个基础稀疏惩罚权重;计算每个特定结构的运算复杂度;将每个特定结构的运算复杂度与基础稀疏惩罚权重的乘积作为该特定结构的稀疏惩罚权重。具体可参见实施例一中的相关内容,在此不再赘述。
优选地,本发明实施例中,筛选单元2具体实现可参见实施例一中关于步骤101的相关内容,在此不再赘述。
实施例三
本发明实施例三还提供一种计算机服务器,如图13所示,该计算机服务器包括存储器,以及与所述存储器通信连接的一个或多个处理器;
所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行,以使所述一个或多个处理器实现前述实施例一中任意一种神经网络训练方法。
本发明实施例三中,该计算机服务器可以为PC机、笔记本、平板电脑、FPGA(Field-Programmable Gate Array,即现场可编程门阵列)、工业电脑或者智能手机等硬件设备。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件固件、软件或者他们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用它们的基本编程技能就能实现的。
本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的上述实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括上述实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (17)

1.一种应用神经网络训练方法的目标检测方法,其特征在于,所述神经网络为目标检测模型,输入给该目标检测模型为一个包含多个视频帧序列的视频;
所述目标检测方法包括:
将包含多个视频帧序列的视频输入到神经网络训练后的目标检测模型中进行处理;
将神经网络训练后的目标检测模型的输出作为目标检测结果;
该神经网络训练方法按照预置的时间周期执行以下步骤,包括:
自动筛选神经网络处理失败的输入数据,得到待标注数据集;
对所述待标注数据集进行标注,得到新的标注数据集,具体包括:将所述待标注数据集发送给标注平台,通过所述标注平台对所述待标注数据集的数据进行标注,以得到新的标注数据集;或者,通过人工对所述待标注数据集进行标注,以得到新的标注数据集;
获取包含所述新的标注数据集的新增标注数据集,并将该新增标注数据集与前一周期用于训练所述神经网络的训练样本数据集的并集确定为本周期的训练样本数据集;
基于本周期的训练样本数据集对所述神经网络进行迭代训练,得到本周期训练得到的神经网络,其中,所述神经网络中的多个特定结构分别设置有对应的稀疏缩放算子,其中稀疏缩放算子用于对相应特定结构的输出进行缩放,且不同的特定结构根据其运算复杂度设置有不同的稀疏惩罚权重。
2.根据权利要求1所述的目标检测方法,其特征在于,所述获取包含所述新的标注数据集的新增标注数据集,具体包括:
从标注平台接收所述新增标注数据集;
或者,从标注数据库中获取所述新增标注数据集。
3.根据权利要求1所述的目标检测方法,其特征在于,在得到本周期训练得到的神经网络之后,还包括:对本周期训练得到的神经网络进行剪枝。
4.根据权利要求1所述的目标检测方法,其特征在于,基于本周期的训练样本数据集对所述神经网络进行迭代训练,具体包括:
基于本周期的训练样本数据集对所述神经网络进行迭代训练并剪枝。
5.根据权利要求4所述的目标检测方法,其特征在于,基于本周期的训练样本数据集对所述神经网络进行迭代训练并剪枝,具体包括:
基于本周期的训练样本数据集对所述神经网络的权重和特定结构的稀疏缩放算子进行迭代训练,将训练得到的神经网络中稀疏缩放算子为零的特定结构删除。
6.根据权利要求5所述的目标检测方法,其特征在于,基于本周期的训练样本数据集对所述神经网络的权重和特定结构的稀疏缩放算子进行迭代训练,具体包括:
采用本周期的训练样本数据集中的样本数据对所述神经网络进行迭代训练;
当迭代训练次数达到阈值或者所述神经网络对应的目标函数满足预置的收敛条件时,确定训练结束,其中,所述目标函数包含损失函数和稀疏正则函数。
7.根据权利要求6所述的目标检测方法,其特征在于,采用本周期的训练样本数据集中的样本数据对所述神经网络进行迭代训练,具体包括:
对所述神经网络进行多次以下迭代训练:
将前一次迭代训练得到的稀疏缩放算子作为所述目标函数的常量,将所述权重作为所述目标函数的变量,采用第一优化算法对所述目标函数进行优化,得到本次迭代训练的权重;
将本次迭代训练的权重作为所述目标函数的常量,将稀疏缩放算子作为所述目标函数的变量,采用第二优化算法对所述目标函数进行优化,得到本次迭代训练的稀疏缩放算子;
基于本次迭代训练的权重和稀疏缩放算子进行下一次迭代训练。
8.根据权利要求7所述的目标检测方法,其特征在于,所述目标函数为:
Figure FDF0000012975880000021
其中,
Figure FDF0000012975880000022
所述W为所述神经网络的权重,λ为所述神经网络的稀疏缩放算子向量,N为本周期的训练样本数据集中样本数据的数量,
Figure FDF0000012975880000023
为神经网络在样本数据xi上的损失,
Figure FDF0000012975880000024
为权重正则函数,
Figure FDF0000012975880000025
为稀疏正则函数,K为神经网络中特定结构的数量,λj为第j个特定结构的稀疏缩放算子,γj为第j个特定结构对应的稀疏惩罚权重,γj根据第j个特定结构的运算复杂度计算得到。
9.一种应用神经网络训练装置的目标检测装置,其特征在于,所述神经网络为目标检测模型,输入给该目标检测模型为一个包含多个视频帧序列的视频;
所述目标检测装置,具体用于:将包含多个视频帧序列的视频输入到神经网络训练后的目标检测模型中进行处理;
将神经网络训练后的目标检测模型的输出作为目标检测结果;
所述神经网络训练装置包括:
控制单元,用于按照预置的时间周期触发筛选单元、标注单元、获取单元和训练单元;
筛选单元,用于自动筛选神经网络处理失败的输入数据,得到待标注数据集;
标注单元,用于对所述待标注数据集进行标注,得到新的标注数据集,具体包括:将所述待标注数据集发送给标注平台,通过所述标注平台对所述待标注数据集的数据进行标注,以得到新的标注数据集;或者,通过人工对所述待标注数据集进行标注,以得到新的标注数据集;
获取单元,用于获取包含所述新的标注数据集的新增标注数据集,并将该新增标注数据集与前一周期用于训练所述神经网络的训练样本数据集的并集确定为本周期的训练样本数据集;
训练单元,用于基于本周期的训练样本数据集对所述神经网络进行迭代训练,得到本周期训练得到的神经网络,其中,所述神经网络中的多个特定结构分别设置有对应的稀疏缩放算子,其中稀疏缩放算子用于对相应特定结构的输出进行缩放,且不同的特定结构根据其运算复杂度设置有不同的稀疏惩罚权重。
10.根据权利要求9所述的目标检测装置,其特征在于,所述获取单元获取包含所述新的标注数据集的新增标注数据集,具体包括:
从标注平台接收所述新增标注数据集;
或者,从标注数据库中获取所述新增标注数据集。
11.根据权利要求9所述的目标检测装置,其特征在于,所述装置还包括:
剪枝单元,用于对本周期训练得到的神经网络进行剪枝。
12.根据权利要求9所述的目标检测装置,其特征在于,所述训练单元,具体用于:
基于本周期的训练样本数据集对所述神经网络进行迭代训练并剪枝,得到本周期训练得到的神经网络。
13.根据权利要求9~10任一项所述的目标检测装置,其特征在于,所述训练单元具体包括:
训练子单元,用于基于本周期的训练样本数据集对所述神经网络的权重和特定结构的稀疏缩放算子进行迭代训练,在迭代训练结束时触发删除子单元;
删除子单元,用于将训练子单元训练得到的神经网络中稀疏缩放算子为零的特定结构删除,得到本周期训练得到的神经网络。
14.根据权利要求13所述的目标检测装置,其特征在于,所述训练子单元具体用于:
采用本周期的训练样本数据集中的样本数据对所述神经网络进行迭代训练;
当迭代训练次数达到阈值或者所述神经网络对应的目标函数满足预置的收敛条件时,确定训练结束,其中,所述目标函数包含损失函数和稀疏正则函数。
15.根据权利要求14所述的目标检测装置,其特征在于,所述训练子单元采用本周期的训练样本数据集中的样本数据对所述神经网络进行迭代训练,具体包括:
对所述神经网络进行多次以下迭代训练:
将前一次迭代训练得到的稀疏缩放算子作为所述目标函数的常量,将所述权重作为所述目标函数的变量,采用第一优化算法对所述目标函数进行优化,得到本次迭代训练的权重;
将本次迭代训练的权重作为所述目标函数的常量,将稀疏缩放算子作为所述目标函数的变量,采用第二优化算法对所述目标函数进行优化,得到本次迭代训练的稀疏缩放算子;
基于本次迭代训练的权重和稀疏缩放算子进行下一次迭代训练。
16.根据权利要求15所述的目标检测装置,其特征在于,所述目标函数为:
Figure FDF0000012975880000051
其中,
Figure FDF0000012975880000052
所述W为所述神经网络的权重,λ为所述神经网络的稀疏缩放算子向量,N为本周期的训练样本数据集中样本数据的数量,
Figure FDF0000012975880000053
为神经网络在样本数据xi上的损失,
Figure FDF0000012975880000054
为权重正则函数,
Figure FDF0000012975880000055
为稀疏正则函数,K为神经网络中特定结构的数量,λj为第j个特定结构的稀疏缩放算子,γj为第j个特定结构对应的稀疏惩罚权重,γj根据第j个特定结构的运算复杂度计算得到。
17.一种计算机服务器,其特征在于,包括存储器,以及与所述存储器通信连接的一个或多个处理器;
所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行,以使所述一个或多个处理器实现如权利要求1~8中任一项所述的应用神经网络训练方法的目标检测方法。
CN201810498650.1A 2018-05-23 2018-05-23 一种神经网络训练方法及其装置、计算机服务器 Active CN108805258B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810498650.1A CN108805258B (zh) 2018-05-23 2018-05-23 一种神经网络训练方法及其装置、计算机服务器
US16/421,259 US11755911B2 (en) 2018-05-23 2019-05-23 Method and apparatus for training neural network and computer server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810498650.1A CN108805258B (zh) 2018-05-23 2018-05-23 一种神经网络训练方法及其装置、计算机服务器

Publications (2)

Publication Number Publication Date
CN108805258A CN108805258A (zh) 2018-11-13
CN108805258B true CN108805258B (zh) 2021-10-12

Family

ID=64092863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810498650.1A Active CN108805258B (zh) 2018-05-23 2018-05-23 一种神经网络训练方法及其装置、计算机服务器

Country Status (2)

Country Link
US (1) US11755911B2 (zh)
CN (1) CN108805258B (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10936913B2 (en) * 2018-03-20 2021-03-02 The Regents Of The University Of Michigan Automatic filter pruning technique for convolutional neural networks
US11501135B2 (en) * 2018-05-29 2022-11-15 British Cayman Islands Intelligo Technology Inc. Smart engine with dynamic profiles
CN109711546B (zh) * 2018-12-21 2021-04-06 深圳市商汤科技有限公司 神经网络训练方法及装置、电子设备和存储介质
CN109697468B (zh) * 2018-12-24 2021-08-06 苏州科达科技股份有限公司 样本图像的标注方法、装置及存储介质
CN109871883B (zh) * 2019-01-24 2022-04-05 北京市商汤科技开发有限公司 神经网络训练方法及装置、电子设备和存储介质
CN109919302B (zh) * 2019-02-28 2021-11-02 新华三技术有限公司 一种用于图像的神经网络的训练方法及装置
CN110189254B (zh) * 2019-04-30 2020-12-08 华中科技大学 一种图像数据集的形变参数集束平差方法及图像拼接方法
CN110245721B (zh) * 2019-06-25 2023-09-05 深圳市腾讯计算机系统有限公司 神经网络模型的训练方法、装置和电子设备
CN110457687A (zh) * 2019-07-23 2019-11-15 福建奇点时空数字科技有限公司 一种基于复合神经网络建模的数据挖掘与标注方法
CN113033762A (zh) * 2019-12-09 2021-06-25 中科寒武纪科技股份有限公司 用于测试神经网络中算子精度的方法、装置和计算机可读存储介质
CN113033760A (zh) * 2019-12-09 2021-06-25 中科寒武纪科技股份有限公司 用于测试神经网络中算子精度的方法、测试装置及其系统
CN111178446B (zh) * 2019-12-31 2023-08-04 歌尔股份有限公司 一种基于神经网络的目标分类模型的优化方法、装置
CN111199282B (zh) * 2019-12-31 2024-04-19 的卢技术有限公司 提高硬件运算效率的卷积神经网络模型剪枝方法及装置
CN111368972B (zh) * 2020-02-21 2023-11-10 华为技术有限公司 一种卷积层量化方法及其装置
CN111291886B (zh) * 2020-02-28 2022-02-18 支付宝(杭州)信息技术有限公司 神经网络模型的融合训练方法及装置
CN111368997B (zh) * 2020-03-04 2022-09-06 支付宝(杭州)信息技术有限公司 神经网络模型的训练方法及装置
US11556852B2 (en) * 2020-03-06 2023-01-17 International Business Machines Corporation Efficient ground truth annotation
US11494588B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Ground truth generation for image segmentation
US11495038B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Digital image processing
US11361146B2 (en) 2020-03-06 2022-06-14 International Business Machines Corporation Memory-efficient document processing
CN113469351A (zh) * 2020-03-30 2021-10-01 嘉楠明芯(北京)科技有限公司 一种数据处理方法、装置及存储介质
CN111652327A (zh) * 2020-07-16 2020-09-11 北京思图场景数据科技服务有限公司 一种模型迭代方法、系统及计算机设备
CN111885146B (zh) * 2020-07-21 2022-06-24 合肥学院 一种工业数据云端服务平台数据传输方法
CN112037139B (zh) * 2020-08-03 2022-05-03 哈尔滨工业大学(威海) 基于RBW-CycleGAN网络的图像去雾方法
CN111814978A (zh) * 2020-09-11 2020-10-23 鹏城实验室 神经网络模型的训练计算量计算方法、设备及介质
CN116964594A (zh) * 2020-12-16 2023-10-27 华为技术有限公司 一种基于演化学习的神经网络结构搜索方法和系统
CN114757244A (zh) * 2020-12-25 2022-07-15 华为云计算技术有限公司 模型训练方法、装置、存储介质及设备
CN112990455A (zh) * 2021-02-23 2021-06-18 北京明略软件系统有限公司 网络模型的发布方法及装置、存储介质、电子设备
CN115114467A (zh) * 2021-03-17 2022-09-27 腾讯科技(深圳)有限公司 图片神经网络模型的训练方法以及装置
CN113554169B (zh) * 2021-07-28 2023-10-27 杭州海康威视数字技术股份有限公司 模型优化方法、装置、电子设备及可读存储介质
CN113792866A (zh) * 2021-10-29 2021-12-14 智腾科技股份有限公司 距离正则水平集与卷积神经网络的水平集掩膜优化方法
CN115272896A (zh) * 2022-08-04 2022-11-01 上海扩博智能技术有限公司 识别模型的自动迭代训练方法、系统、设备和存储介质
CN116468100A (zh) * 2023-03-06 2023-07-21 美的集团(上海)有限公司 残差剪枝方法、装置、电子设备和可读存储介质
CN115972216B (zh) * 2023-03-17 2023-06-30 中南大学 并联机器人正运动求解方法、控制方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955718A (zh) * 2014-05-15 2014-07-30 厦门美图之家科技有限公司 一种图像主体对象的识别方法
CN103971342A (zh) * 2014-05-21 2014-08-06 厦门美图之家科技有限公司 一种基于卷积神经网络的图像噪点检测方法
CN104091340A (zh) * 2014-07-18 2014-10-08 厦门美图之家科技有限公司 一种模糊图像的快速检测方法
CN104504376A (zh) * 2014-12-22 2015-04-08 厦门美图之家科技有限公司 一种人脸图像的年龄分类方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9342759B1 (en) * 2013-03-14 2016-05-17 Hrl Laboratories, Llc Object recognition consistency improvement using a pseudo-tracklet approach
CN106355248A (zh) * 2016-08-26 2017-01-25 深圳先进技术研究院 一种深度卷积神经网络训练方法及装置
US20180144241A1 (en) * 2016-11-22 2018-05-24 Mitsubishi Electric Research Laboratories, Inc. Active Learning Method for Training Artificial Neural Networks
CN107247991A (zh) * 2017-06-15 2017-10-13 北京图森未来科技有限公司 一种构建神经网络的方法及装置
CN107491790B (zh) * 2017-08-25 2021-04-02 北京图森智途科技有限公司 一种神经网络训练方法及装置
CN112836792A (zh) * 2017-12-29 2021-05-25 华为技术有限公司 一种神经网络模型的训练方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955718A (zh) * 2014-05-15 2014-07-30 厦门美图之家科技有限公司 一种图像主体对象的识别方法
CN103971342A (zh) * 2014-05-21 2014-08-06 厦门美图之家科技有限公司 一种基于卷积神经网络的图像噪点检测方法
CN104091340A (zh) * 2014-07-18 2014-10-08 厦门美图之家科技有限公司 一种模糊图像的快速检测方法
CN104504376A (zh) * 2014-12-22 2015-04-08 厦门美图之家科技有限公司 一种人脸图像的年龄分类方法和系统

Also Published As

Publication number Publication date
CN108805258A (zh) 2018-11-13
US11755911B2 (en) 2023-09-12
US20190385059A1 (en) 2019-12-19

Similar Documents

Publication Publication Date Title
CN108805258B (zh) 一种神经网络训练方法及其装置、计算机服务器
US11651259B2 (en) Neural architecture search for convolutional neural networks
WO2018227800A1 (zh) 一种神经网络训练方法及装置
CN105447498B (zh) 配置有神经网络的客户端设备、系统和服务器系统
CN110084271B (zh) 一种图片类别的识别方法和装置
CN104346629B (zh) 一种模型参数训练方法、装置及系统
CN108170529A (zh) 一种基于长短期记忆网络的云数据中心负载预测方法
EP3602419B1 (en) Neural network optimizer search
CN111507768B (zh) 一种潜在用户的确定方法及相关装置
CN111783713B (zh) 基于关系原型网络的弱监督时序行为定位方法及装置
CN110503074A (zh) 视频帧的信息标注方法、装置、设备及存储介质
CN111881926A (zh) 图像生成、图像生成模型的训练方法、装置、设备及介质
CN113128478B (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
US11625589B2 (en) Residual semi-recurrent neural networks
CN111178520A (zh) 一种低计算能力处理设备的数据处理方法及装置
CN111709493A (zh) 对象分类方法、训练方法、装置、设备及存储介质
CN115390164A (zh) 一种雷达回波外推预报方法及系统
CN114358197A (zh) 分类模型的训练方法及装置、电子设备、存储介质
CN114722182A (zh) 一种基于知识图谱的在线课推荐方法及系统
CN106407932B (zh) 基于分数阶微积分与广义逆神经网络的手写数字识别方法
CN110704668A (zh) 基于网格的协同注意力vqa方法和装置
CN112836820B (zh) 用于图像分类任务的深度卷积网络训练方法、装置及系统
CN114170446A (zh) 一种基于深层融合神经网络的温度、亮度特征提取方法
CN110659701B (zh) 信息处理方法、装置、电子设备及介质
CN110457155B (zh) 一种样本类别标签的修正方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200326

Address after: 101300, No. two, 1 road, Shunyi Park, Zhongguancun science and Technology Park, Beijing, Shunyi District

Applicant after: BEIJING TUSENZHITU TECHNOLOGY Co.,Ltd.

Address before: 101300, No. two, 1 road, Shunyi Park, Zhongguancun science and Technology Park, Beijing, Shunyi District

Applicant before: BEIJING TUSEN WEILAI TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant