CN107358293B - 一种神经网络训练方法及装置 - Google Patents

一种神经网络训练方法及装置 Download PDF

Info

Publication number
CN107358293B
CN107358293B CN201710450211.9A CN201710450211A CN107358293B CN 107358293 B CN107358293 B CN 107358293B CN 201710450211 A CN201710450211 A CN 201710450211A CN 107358293 B CN107358293 B CN 107358293B
Authority
CN
China
Prior art keywords
data
output data
network
similarity
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710450211.9A
Other languages
English (en)
Other versions
CN107358293A (zh
Inventor
王乃岩
陈韫韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tusimple Technology Co Ltd
Original Assignee
Beijing Tusimple Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tusimple Technology Co Ltd filed Critical Beijing Tusimple Technology Co Ltd
Priority to CN201710450211.9A priority Critical patent/CN107358293B/zh
Priority to CN201911166257.3A priority patent/CN110969250B/zh
Priority to PCT/CN2017/102032 priority patent/WO2018227800A1/zh
Publication of CN107358293A publication Critical patent/CN107358293A/zh
Application granted granted Critical
Publication of CN107358293B publication Critical patent/CN107358293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种神经网络训练方法及装置,以提升学生网络的性能。方法包括:选取一个与学生网络实现相同功能的教师网络;基于匹配同一训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到目标网络,以实现将所述教师网络的输出数据间相似性迁移到所述学生网络;其中:所述第一输出数据为所述训练样本数据输入教师网络后从教师网络的第一特定网络层输出的数据,所述第二输出数据为所述训练样本数据输入学生网络后从学生网络的第二特定网络层输出的数据。本发明技术方案根据教师网络的输出数据间相似性训练得到的学生网络性能更优。

Description

一种神经网络训练方法及装置
技术领域
本发明涉及计算机视觉领域,特别涉及一种神经网络训练方法及装置。
背景技术
近几年来,深度神经网络在计算机视觉领域的各类应用中取得了巨大的成功,如图像分类、目标检测、图像分割等。但深度神经网络的模型往往包含大量的模型参数,计算量大、处理速度慢,无法在一些低功耗、低计算能力的设备(如嵌入式设备、集成设备等)上进行实时计算。
目前,为解决该问题,提出一些解决方案,例如,通过知识迁移方式将教师网络的知识(即教师网络,教师网络一般具有复杂的网络结构、准确性高、计算速度慢)迁移到学生网络中(即学生网络,学生网络的网络结构相对简单、准确性低、速度快),以提高学生网络性能。此时的学生网络可应用到低功耗、地计算能力的设备中。
知识迁移是一种通用的对深度神经网络模型进行压缩以及加速的技术。目前知识迁移的方法主要包括三种,分别是2014年Hinton等人发表的论文“Distilling theknowledge in a neural network”中提出的Knowledge Distill(简称 KD)方法,2015年Romero等人发表的论文“Fitnets:Hints for thin deep nets”提出的FitNets,以及2016年Sergey发表的论文“Paying more attention to attention: Improving theperformance of convolutional neural networks via attention transfer”提出的Attention Transfer(简称AT)方法。
现有的知识迁移方式,利用教师网络中输出数据中的单个数据的信息来训练学生网络,训练得到的学生网络虽然在性能上有一定的提高,但仍然还有很大的提升空间。
相关术语解释:
知识迁移(Knowledge Transfer):在深度神经网络中,知识迁移是指利用训练样本数据在教师网络的中间网络层或最终网络层的输出数据,辅助训练速度较快但性能较差的学生网络,从而将性能优良的教师网络迁移到学生网络上。
知识提取(Knowledge Distill):在深度神经网络中,知识提取是指在分类问题中利用教师网络输出的平滑类别后验概率训练学生网络的技术。
教师网络(Teacher Network):知识迁移过程中用以为学生网络提供更加准确的监督信息的高性能神经网络。
学生网络(Student Network):计算速度快但性能较差的适合部署到对实时性要求较高的实际应用场景中的单个神经网络,学生网络相比于教师网络,具有更大的运算吞吐量和更少的模型参数。
发明内容
本发明实施例提供一种神经网络训练方法及装置,以更进一步提升学生网络的性能和准确性。
本发明实施例,一方面提供一种神经网络训练方法,该方法包括:
选取一个与学生网络实现相同功能的教师网络;
基于匹配同一训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到目标网络,以实现将所述教师网络的输出数据间相似性迁移到所述学生网络;
其中:所述第一输出数据为所述训练样本数据输入教师网络后从教师网络的第一特定网络层输出的数据,所述第二输出数据为所述训练样本数据输入学生网络后从学生网络的第二特定网络层输出的数据。
本发明实施例另一方面提供一种神经网络训练装置,该装置包括:
选取单元,用于选取一个与学生网络实现相同功能的教师网络;
训练单元,用于基于匹配同一训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到目标网络,以实现将所述教师网络的输出数据间相似性迁移到所述学生网络;
其中:所述第一输出数据为所述训练样本数据输入教师网络后从教师网络的第一特定网络层输出的数据,所述第二输出数据为所述训练样本数据输入学生网络后从学生网络的第二特定网络层输出的数据。
本发明实施例中,能够将样本训练数据在教师网络输出的输出数据的各数据间相似信息全面迁移到学生网络中,从而实现训练样本数据通过教师网络输出的结果与通过目标网络输出的结果基本一致。根据神经网络良好的泛化性能,训练得到的目标网络的输出与教师网络的输出在测试集上也基本相同,从而提高了学生网络的准确性。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明实施例中神经网络训练方法的流程图;
图2为本发明实施例中训练学生网络的流程图;
图3为本发明实施例中神经网络训练装置的结构示意图;
图4为本发明实施例中训练单元的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例一
参见图1,为本发明实施例中神经网络训练方法的流程图,该方法包括:
步骤101、选取一个与学生网络实现相同功能的教师网络。
实现的功能如图像分类、目标检测、图像分割等。教师网络性能优良、准确率高,但是相对学生网络其结构复杂、参数权重较多、计算速度较慢。学生网络计算速度快、性能一般或者较差、网络结构简单。可以在预先设置的神经网络模型的集合中选取一个与学生网络实现的功能相同且性能优良的网络作为教师网络。
步骤102、基于匹配同一训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到目标网络,以实现将所述教师网络的输出数据间相似性迁移到所述学生网络。
其中,所述第一输出数据为所述训练样本数据输入教师网络后从教师网络的第一特定网络层输出的数据,所述第二输出数据为所述训练样本数据输入学生网络后从学生网络的第二特定网络层输出的数据。
本发明实施例中,将训练样本数据输入教师网络后,从教师网络的第一特定网络层输出的数据统称为第一输出数据;将训练样本数据输入学生网络后,从学生网络的第二特定网络层输出的数据统称为第二输出数据。
优选地,本发明实施例中,所述第一特定网络层为教师网络中的一个中间网络层或最后一层网络层。
优选地,本发明实施例中,所述第二特定网络层为学生网络的一个中间网络层或最后一层网络层。
优选地,前述步骤102具体实现可如图2所示的方法流程,具体包括:
步骤102A、构建所述学生网络的目标函数,所述目标函数包含训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性的匹配函数。
步骤102B、采用所述训练样本数据对所述学生网络进行迭代训练。
步骤102C、当迭代训练次数达到阈值或者所述目标函数满足预置的收敛条件时,得到所述目标网络。
优选地,前述步骤102B,具体实现可如下:
对所述学生网络进行多次以下迭代训练(以下称为本次迭代训练,将用于本次迭代训练的训练样本数据称为当前训练样本数据,本次迭代训练包括以下步骤A、步骤B、步骤C、步骤D、步骤E和步骤F):
步骤A、将用于本次迭代训练的当前训练样本数据分别输入所述教师网络和学生网络,得到对应的第一输出数据和第二输出数据;
步骤B、计算第一输出数据中各数据间的相似度以及计算第二输出数据中各数据间的相似度;
步骤C、根据第一输出数据中各数据间的相似度计算第一输出数据中各数据的所有排列顺序的概率,并从所述第一输出数据中各数据的所有排列顺序中选取目标排列顺序;
步骤D、根据第二输出数据中各数据间的相似度计算第二输出数据中各数据的目标排列顺序的概率;
步骤E、根据第一输出数据中各数据的目标排列顺序的概率和第二输出数据中各数据的目标排列顺序的概率计算所述目标函数的取值,并根据所述目标函数的取值调整所述学生网络的权重;
步骤F、基于调整权重后的学生网络进行下一次迭代训练。
优选地,本发明实施例中,前述步骤C中从第一输出数据中各数据的所有排列顺序中选取目标排列顺序,实现方式包括但不仅限于以下两种:
方式1、从第一输出数据中各数据的所有排列顺序中选取概率取值大于预置阈值的排列顺序作为目标排列顺序。
方式2、从第一输出数据中各数据的所有排列顺序中选取概率取值排在前面的预置数量的排列顺序作为目标排列顺序。
本发明实施例中,选取的目标排列顺序可以是一个也可以是多个,本申请不作严格限定。
优选地,步骤B中,计算第一输出数据(第二输出数据)中各数据间的相似度,具体包括:计算第一输出数据(第二输出数据)中两两数据之间的空间距离,根据所述空间距离得到所述两两数据间的相似度。
本发明实施例中,所述空间距离可以是欧式距离、余弦距离、街区距离或马氏距离等,本申请不做严格限定。以计算两两数据之间的欧氏距离和余弦距离为例。
通过以下公式(1)计算第任意两个数据xi和xj之间的欧式距离:
Figure BDA0001322220750000051
式(1)中,α为预置的尺度变换因子,β为预置的对比伸缩因子,γ为偏移量,|·|2代表向量的l2范数。
通过以下公式(2)计算任意两个数据xi和xj之间的余弦距离:
Sij=α(xi·xj)β+γ 式(2)
式(2)中,α为预置的尺度变换因子,β为预置的对比伸缩因子,γ为偏移量,·代表向量间的点乘操作。
优选地,步骤C中,根据第一输出数据中各数据间的相似度计算第一输出数据中各数据的所有排列顺序的概率,具体实现下:针对每个排列顺序,将所述排列顺序的顺序信息以及第一输出数据的该排列顺序中所有相邻两个数据间的相似度输入预置的概率计算模型中,得到所述排列顺序的概率。
以一个训练样本数据y={y1,y2,y3}为例进行描述。将y输入教师网络得到对应的第一输出数据x={x1,x2,x3};计算x中两两数据之间的相似度为s12 (x1与x2的相似度)、s13(x1与x3的相似度)、s23(x2与x3的相似度)。x1、x2、 x3的所有排列顺序的数量为3!=6个,排列顺序分别为
Figure BDA0001322220750000063
π2=x1→x3→x2、π3=x2→x1→x3、π4=x2→x3→x1、π5=x3→x1→x2、π6=x3→x2→x1;根据各数据间的相似度计算得到前述六种排列顺序的概率分别为
Figure BDA0001322220750000061
Figure BDA0001322220750000062
各训练样本数据对应的各第一输出数据选取的对应的目标排列顺序可以相同也可以不相同,以前述x为例,假设第一样本训练数据对应的第一输出数据对应的目标排列顺序为π1=x1→x2→x3、π2=x1→x3→x2、π3=x2→x1→x3,第二样本训练数据对应的第一输出数据对应的目标排列顺序为
Figure BDA0001322220750000064
π4=x2→x3→x1、π5=x3→x1→x2
优选地,所述步骤D中根据第二输出数据中各数据间的相似度计算第二输出数据中各数据的目标排列顺序的概率,具体实现如下:针对每一个目标排列顺序,将所述目标排列顺序的顺序信息以及第二输出数据的该目标排列顺序中所有相邻两个数据间的相似度输入所述概率计算模型中,得到所述目标排列顺序的概率。
本发明实施例中,所述概率计算模型可以为一阶Plackett概率模型,也可以为高阶Plackett概率模型,还可以是其他能够计算概率的模型,本申请不做严格限定。
下面以采用一阶Plackett概率模型计算排列顺序的概率为例进行描述。
假设某一训练样本数据对应的第一输出数据为x={x1,x2,x3,x4},以计算排列顺序π1和π2的概率为例,假设π1=x1→x2→x3→x4、π2=x1→x3→x4→x2,通过一阶Plackett概率模型得到以下结果:
Figure BDA0001322220750000071
Figure BDA0001322220750000072
其中,f(·)为任意一种线性或非线性的映射函数,且所有排列顺序的概率的和值为1
本发明实施例中,所述目标排列顺序可以为一个,也可以为多个。
本发明实施例中,学生网络的目标函数可以仅包含一个匹配函数,该目标函数还可以是一个匹配函数与任务损失函数的和值,该任务损失函数的表达式与学生网络所要实现的任务相关,例如该任务损失函数可以与教师网络的目标函数相同。匹配函数的表达式可以但不仅限于以下的公式(3)和公式(4)。
实例1、当目标顺序为一个时,所述学生网络的目标函数可设置为如以下公式(3)所示:
L=-logP(πt|Xs) 式(3)
式(3)中,πt为当前训练样本数据对应的第一输出数据中各数据的目标排列顺序,Xs为当前训练样本数据对应的第二输出数据,P(πt|Xs)为第二输出数据中各数据的目标排列顺序的概率。
优选地,前述目标排列顺序πt为当前训练样本数据的第一输出数据中各数据所有排列顺序中概率取值最大的排列顺序。
当目标顺序为多个时,本发明实施例可以基于匹配多个目标排列顺序的概率分布的方式训练得到所述学生网络。本发明实施例中匹配多个目标排列顺序的概率分布的方法有多种,例如基于概率分布的全变分距离、Wesserstein距离、 Jensen-Shannon散度或Kullback-Leibler散度等。
以下以基于概率分布的Kullback-Leibler散度为例,所述学生网络的目标函数表达式可如以下如下式(4)所示:
Figure BDA0001322220750000081
式(4)中,π为一个目标排列顺序,Xs为当前训练样本数据对应的第二输出数据,Xt为当前训练样本数据对应的第一输出数据,P(π|Xs)为当前训练样本数据的第二传输数据中各数据的π的概率,P(π|xt)为当前训练样本数据的第一传输数据中各数据的π的概率,O为目标排列顺序的集合。
优选地,前述步骤E中根据所述目标函数的取值调整学生网络的权重,具体包括:采用预置的梯度下降优化算法,根据所述目标函数的取值调整所述学生网络的权重。
优选地,前述步骤A与步骤B之间还包括以下步骤:通过下采样算法与插值算法对所述第一输出数据和第二输出数据进行处理,使得所述第一输出数据的空间维度与第二输出数据的空间维度一致,且第一输出数据的数量和第二输出数据的数量均与所述当前训练样本数据的数量一致。当然,如果步骤A得到的第一输出数据与第二输出数据的空间维度相同,且第一输出数据与第二输出数据的数量均与所述当前训练样本数据的数量一致,则无需在步骤A与步骤 B之间增加该步骤,即在步骤A之后直接执行步骤B。前述空间维度一般是指输入数据的数量、频道数、特征图的高度和宽度。
需要说明的是,前述步骤A~步骤F没有严格的先后顺序,也可以用以下的步骤A’~步骤B’替代前述步骤A~步骤B。
步骤A’、将用于本次迭代训练的当前训练样本数据输入教师网络,得到对应的第一输出数据,并计算第一输出数据中各数据间的相似度;
步骤B’、将所述当前训练样本数据输入学生网络,得到对应的第二输出数据,并计算第二输出数据中各数据间的相似度。
假设用于训练学生网络(用S表示)的三个训练样本数据分别为
Figure BDA0001322220750000082
y2={y21,y22,y23},y3={y31,y32,y33};该三个训练样本数据输入到教师网络(用T表示)输出的第一输出数据依次为
Figure BDA0001322220750000083
Figure BDA0001322220750000084
该三个训练样本数据输入到学生网络输出的第二输出数据依次为
Figure BDA0001322220750000085
本发明实施例以第一输出数据中各数据的所有排列顺序作为目标排列顺序。第i个训练样本数据对应的第一输出数据的目标排列顺序的集合
Figure BDA0001322220750000091
其中
Figure BDA0001322220750000092
Figure BDA0001322220750000093
计算得到第i个训练数据对应的第一输出数据的目标排列顺序的概率为
Figure BDA0001322220750000094
第i个训练数据对应的第二输出数据的目标排列顺序的集合
Figure BDA0001322220750000095
其中
Figure BDA0001322220750000096
Figure BDA0001322220750000097
计算得到第i个训练样本数据对应的第二输出数据的目标排列顺序的概率为
Figure BDA0001322220750000098
由于同一个训练样本数据对应的第一输出数据和第二输出数据的数量一致,则将第一输出数据与第二输出数据中数据排列顺序相同的排列顺序作为同一个目标排列顺序。例如将第i个训练样本数据的第二输出数据的
Figure BDA0001322220750000099
与其第一输出数据的
Figure BDA00013222207500000910
作为同一个目标排列顺序,用πi1表示,则得到第i个训练样本数据的第一输出数据和第二输出数据的目标排列顺序集合Qi表示为Qi={πi1,πi2,πi3,πi4,πi5,πi6}
执行以下多次迭代训练:
第一次迭代训练:将y1输入教师网络和学生网络,得到对应的第一输出数据为
Figure BDA00013222207500000911
和第二输出数据为
Figure BDA00013222207500000912
计算
Figure BDA00013222207500000913
中各数据之间的相似度以及计算
Figure BDA00013222207500000914
中各数据之间的相似度;根据
Figure BDA00013222207500000915
中各数据间的相似度计算
Figure BDA00013222207500000916
中各数据的所有排列顺序的概率,将该所有排列顺序作为目标排列顺序;根据
Figure BDA00013222207500000917
中各数据间的相似度计算得到
Figure BDA00013222207500000918
中各数据的目标排列顺序的概率;将y1对应的第一输出数据中各数据的目标排列顺序的概率和第二输出数据中各数据的目标排列顺序的概率输入至目标函数中,计算得到目标函数的取值为L1,根据该 L1调整学生网络当前权重W0,得到调整后的权重W1
第二次迭代训练:将y2输入教师网络和学生网络,得到对应的第一输出数据为
Figure BDA00013222207500000919
和第二输出数据为
Figure BDA00013222207500000920
计算
Figure BDA00013222207500000921
中各数据之间的相似度以及计算
Figure BDA00013222207500000922
中各数据之间的相似度;根据
Figure BDA00013222207500000923
中各数据间的相似度计算
Figure BDA00013222207500000924
中各数据的所有排列顺序的概率,将该所有排列顺序作为目标排列顺序;根据
Figure BDA00013222207500000925
中各数据间的相似度计算得到
Figure BDA00013222207500000926
中各数据的目标排列顺序的概率;将y2对应的第一输出数据中各数据的目标排列顺序的概率和第二输出数据中各数据的目标排列顺序的概率输入至目标函数中,计算得到目标函数的取值为L2,根据该L2调整学生网络当前权重W1,得到调整后的权重为W2
第三次迭代训练:将y3输入教师网络和学生网络,得到对应的第一输出数据为
Figure BDA00013222207500000927
和第二输出数据为
Figure BDA00013222207500000928
计算
Figure BDA00013222207500000929
中各数据之间的相似度以及计算
Figure BDA00013222207500000930
中各数据之间的相似度;根据
Figure BDA00013222207500000931
中各数据间的相似度计算
Figure BDA00013222207500000932
中各数据的所有排列顺序的概率,将该所有排列顺序作为目标排列顺序;根据
Figure BDA0001322220750000101
中各数据间的相似度计算得到
Figure BDA0001322220750000102
中各数据的目标排列顺序的概率;将y3对应的第一输出数据中各数据的目标排列顺序的概率和第二输出数据中各数据的目标排列顺序的概率输入至目标函数中,计算得到目标函数的取值为L3,根据该L3调整学生网络当前权重W2,得到调整后的权重为W3
实施例二
基于与前述实施例一提供的神经网络训练方法的相同构思,本发明实施例二提供一种神经网络训练装置,该装置的结构如图3所示,包括:
选取单元31,用于选取一个与学生网络实现相同功能的教师网络;
训练单元32,用于基于匹配同一训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到目标网络,以实现将所述教师网络的输出数据间相似性迁移到所述学生网络;
其中:所述第一输出数据为所述训练样本数据输入教师网络后从教师网络的第一特定网络层输出的数据,所述第二输出数据为所述训练样本数据输入学生网络后从学生网络的第二特定网络层输出的数据。
本发明实施例中,教师网络和学生网络所实现的功能如图像分类、目标检测、图像分割等。教师网络性能优良、准确率高,但是相对学生网络其结构复杂、参数权重较多、计算速度较慢。学生网络计算速度快、性能一般或者较差、网络结构简单。选取单元31可以在预先设置的神经网络模型的集合中选取一个与学生网络实现的功能相同且性能优良的网络作为教师网络。
本发明实施例中,所述第一特定网络层为教师网络中的一个中间网络层或最后一层网络层;和/或,所述第二特定网络层为学生网络的一个中间网络层或最后一层网络层。
优选地,训练单元32的结构如图4所示,具体包括构建模块321、训练模块322和确定模块323,其中:
构建模块321,用于构建所述学生网络的目标函数,所述目标函数包含训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性的匹配函数;
训练模块322,用于采用所述训练样本数据对所述学生网络进行迭代训练;
确定模块323,用于当训练模块322迭代训练次数达到阈值或者所述目标函数满足预置的收敛条件时,得到所述目标网络。
优选地,训练模块322,具体用于:
对所述学生网络进行多次以下迭代训练(以下称为本次迭代训练,将用于本次迭代训练的训练样本数据称为当前训练样本数据,本次迭代训练包括以下步骤A、步骤B、步骤C、步骤D、步骤E和步骤F):
步骤A、将用于本次迭代训练的当前训练样本数据分别输入所述教师网络和学生网络,得到对应的第一输出数据和第二输出数据;
步骤B、计算第一输出数据中各数据间的相似度以及计算第二输出数据中各数据间的相似度;
步骤C、根据第一输出数据中各数据间的相似度计算第一输出数据中各数据的所有排列顺序的概率,并从所述第一输出数据中各数据的所有排列顺序中选取目标排列顺序;
步骤D、根据第二输出数据中各数据间的相似度计算第二输出数据中各数据的目标排列顺序的概率;
步骤E、根据第一输出数据中各数据的目标排列顺序的概率和第二输出数据中各数据的目标排列顺序的概率计算所述目标函数的取值,并根据所述目标函数的取值调整所述学生网络的权重;
步骤F、基于调整权重后的学生网络进行下一次迭代训练。
优选地,训练模块322从第一输出数据中各数据的所有排列顺序中选取目标排列顺序,具体包括:从第一输出数据中各数据的所有排列顺序中选取概率取值大于预置阈值的排列顺序作为目标排列顺序;或者,从第一输出数据中各数据的所有排列顺序中选取概率取值排在前面的预置数量的排列顺序作为目标排列顺序。
优选地,所述训练模块322计算第一输出数据中各数据间的相似度,具体包括:计算第一输出数据中两两数据之间的空间距离,根据所述空间距离得到所述两两数据间的相似度;
所述训练模块322计算第二输出数据中各数据间的相似度,具体包括:计算第二输出数据中两两数据之间的空间距离,根据所述空间距离得到所述两两数据间的相似度。
本发明实施例中,所述空间距离可以是欧式距离、余弦距离、街区距离或马氏距离等,本申请不做严格限定。以计算两两数据之间的欧氏距离和余弦距离为例。
优选地,所述训练模块322根据第一输出数据中各数据间的相似度计算第一输出数据中各数据的所有排列顺序的概率,具体包括:针对每个排列顺序,将所述排列顺序的顺序信息以及第一输出数据的该排列顺序中所有相邻两个数据间的相似度输入预置的概率计算模型中,得到所述排列顺序的概率;
所述训练模块322根据第二输出数据中各数据间的相似度计算第二输出数据中各数据的目标排列顺序概率,具体包括:针对每一个目标排列顺序,将所述目标排列顺序的顺序信息以及第二输出数据的该目标排列顺序中所有相邻两个数据间的相似度输入所述概率计算模型中,得到所述目标排列顺序的概率。
本发明实施例中,所述概率计算模型可以为一阶Plackett概率模型,也可以为高阶Plackett概率模型,还可以是其他能够计算概率的模型,本申请不做严格限定。
本发明实施例中,所述目标排列顺序可以为一个,也可以为多个。当目标顺序为多个时,本发明实施例可以基于匹配多个目标排列顺序的概率分布的方式训练得到所述学生网络。本发明实施例中匹配多个目标排列顺序的概率分布的方法有多种,例如基于概率分布的全变分距离、Wesserstein距离、 Jensen-Shannon散度或Kullback-Leibler散度等。
本发明实施例中,学生网络的目标函数可以仅包含一个匹配函数,该目标函数还可以是一个匹配函数与任务损失函数的和值,该任务损失函数的表达式与学生网络所要实现的任务相关,例如该任务损失函数可以与教师网络的目标函数相同。
优选地,所述训练模块322根据所述目标函数的取值调整所述学生网络的权重,具体包括:采用预置的梯度下降优化算法,根据所述目标函数的取值调整所述学生网络的权重。
优选地,所述训练模块322进一步用于:在计算第一输出数据中各数据间的相似度以及计算第二输出数据中各数据间的相似度之前,通过下采样算法与插值算法对所述第一输出数据和第二输出数据进行处理,使得所述第一输出数据的空间维度与第二输出数据的空间维度一致,且第一输出数据的数量和第二输出数据的数量均与所述当前训练样本数据的数量一致。
需要说明的是,前述步骤A~步骤F没有严格的先后顺序,也可以用以下的步骤A’~步骤B’替代前述步骤A~步骤B。
步骤A’、将用于本次迭代训练的当前训练样本数据输入教师网络,得到对应的第一输出数据,并计算第一输出数据中各数据间的相似度;
步骤B’、将所述当前训练样本数据输入学生网络,得到对应的第二输出数据,并计算第二输出数据中各数据间的相似度。
以上是本发明的核心思想,为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例中技术方案作进一步详细的说明。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (20)

1.一种神经网络训练方法,其特征在于,包括:
在实时的计算机视觉处理过程中,低计算能力的处理设备获取图像数据;
所述处理设备使用预先设置的目标网络对获取到的图像数据进行计算机视觉处理,得到计算机视觉处理结果;其中,所述目标网络是通过如下处理得到的:
选取一个与学生网络实现相同功能的教师网络;
基于匹配同一训练样本图像数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到所述目标网络,以实现将所述教师网络的输出数据间相似性迁移到所述学生网络,具体包括:
构建所述学生网络的目标函数,所述目标函数包含训练样本图像数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性的匹配函数;
采用所述训练样本图像数据对所述学生网络进行迭代训练;
当迭代训练次数达到阈值或者所述目标函数满足预置的收敛条件时,得到所述目标网络;
其中:所述第一输出数据为所述训练样本图像数据输入教师网络后从教师网络的第一特定网络层输出的数据,所述第二输出数据为所述训练样本图像数据输入学生网络后从学生网络的第二特定网络层输出的数据。
2.根据权利要求1所述的方法,其特征在于,采用所述训练样本图像数据对所述学生网络进行迭代训练,具体包括:
对所述学生网络进行多次以下迭代训练:
将用于本次迭代训练的当前训练样本图像数据分别输入所述教师网络和学生网络,得到对应的第一输出数据和第二输出数据;
计算第一输出数据中各数据间的相似度以及计算第二输出数据中各数据间的相似度;
根据第一输出数据中各数据间的相似度计算第一输出数据中各数据的所有排列顺序的概率,并从所述第一输出数据中各数据的所有排列顺序中选取目标排列顺序;
根据第二输出数据中各数据间的相似度计算第二输出数据中各数据的目标排列顺序的概率;
根据第一输出数据中各数据的目标排列顺序的概率和第二输出数据中各数据的目标排列顺序的概率计算所述目标函数的取值,并根据所述目标函数的取值调整所述学生网络的权重;
基于调整权重后的学生网络进行下一次迭代训练。
3.根据权利要求2所述的方法,其特征在于,从第一输出数据中各数据的所有排列顺序中选取目标排列顺序,具体包括:
从第一输出数据中各数据的所有排列顺序中选取概率取值大于预置阈值的排列顺序作为目标排列顺序;
或者,从第一输出数据中各数据的所有排列顺序中选取概率取值排在前面的预置数量的排列顺序作为目标排列顺序。
4.根据权利要求2所述的方法,其特征在于,计算第一输出数据中各数据间的相似度,具体包括:计算第一输出数据中两两数据之间的空间距离,根据所述空间距离得到所述两两数据间的相似度;
计算第二输出数据中各数据间的相似度,具体包括:计算第二输出数据中两两数据之间的空间距离,根据所述空间距离得到所述两两数据间的相似度。
5.根据权利要求2所述的方法,其特征在于,根据第一输出数据中各数据间的相似度计算第一输出数据中各数据的所有排列顺序的概率,具体包括:针对每个排列顺序,将所述排列顺序的顺序信息以及第一输出数据的该排列顺序中所有相邻两个数据间的相似度输入预置的概率计算模型中,得到所述排列顺序的概率;
根据第二输出数据中各数据间的相似度计算第二输出数据中各数据的目标排列顺序的概率,具体包括:针对每一个目标排列顺序,将所述目标排列顺序的顺序信息以及第二输出数据的该目标排列顺序中所有相邻两个数据间的相似度输入所述概率计算模型中,得到所述目标排列顺序的概率。
6.根据权利要求2所述的方法,其特征在于,当所述目标排列顺序为一个时,所述学生网络的目标函数如下:
L=-log P(πt|Xs)
式中,πt为当前训练样本图像数据对应的第一输出数据中各数据的目标排列顺序,Xs为当前训练样本图像数据对应的第二输出数据,P(πt|Xs)为第二输出数据中各数据的目标排列顺序的概率。
7.根据权利要求2所述的方法,其特征在于,当所述目标排列顺序为多个时,所述学生网络的目标函数如下:
Figure FDA0002823083330000031
式中,π为一个目标排列顺序,Xs为当前训练样本图像数据对应的第二输出数据,Xt为当前训练样本图像数据对应的第一输出数据,P(π|Xs)为当前训练样本图像数据的第二传输数据中各数据的排列顺序为π的概率,P(π|Xt)为当前训练样本图像数据的第一传输数据中各数据的排列顺序为π的概率,Q为目标排列顺序的集合。
8.根据权利要求2所述的方法,其特征在于,根据所述目标函数的取值调整所述学生网络的权重,具体包括:
采用预置的梯度下降优化算法,根据所述目标函数的取值调整所述学生网络的权重。
9.根据权利要求2所述的方法,其特征在于,在计算第一输出数据中各数据间的相似度以及计算第二输出数据中各数据间的相似度之前,还包括:通过下采样算法与插值算法对所述第一输出数据和第二输出数据进行处理,使得所述第一输出数据的空间维度与第二输出数据的空间维度一致,且第一输出数据的数量和第二输出数据的数量均与所述当前训练样本图像数据的数量一致。
10.根据权利要求1所述的方法,其特征在于,所述第一特定网络层为教师网络中的一个中间网络层或最后一层网络层;
所述第二特定网络层为学生网络的一个中间网络层或最后一层网络层。
11.一种神经网络训练装置,其特征在于,包括:
选取单元,用于选取一个与学生网络实现相同功能的教师网络;
训练单元,用于基于匹配同一训练样本图像数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到目标网络,以实现将所述教师网络的输出数据间相似性迁移到所述学生网络,并将所述目标网络设置低计算能力的处理设备中,所述处理设备在实时计算过程中获取图像数据,并使用所述目标网络对获取到的图像数据进行计算机视觉处理、得到计算机视觉处理结果;
其中:所述第一输出数据为所述训练样本图像数据输入教师网络后从教师网络的第一特定网络层输出的数据,所述第二输出数据为所述训练样本图像数据输入学生网络后从学生网络的第二特定网络层输出的数据;
所述训练单元,具体包括:
构建模块,用于构建所述学生网络的目标函数,所述目标函数包含训练样本图像数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性的匹配函数;
训练模块,用于采用所述训练样本图像数据对所述学生网络进行迭代训练;
确定模块,用于当训练模块迭代训练次数达到阈值或者所述目标函数满足预置的收敛条件时,得到所述目标网络。
12.根据权利要求11所述的装置,其特征在于,所述训练模块,具体用于:
对所述学生网络进行多次以下迭代训练:
将用于本次迭代训练的当前训练样本图像数据分别输入所述教师网络和学生网络,得到对应的第一输出数据和第二输出数据;
计算第一输出数据中各数据间的相似度以及计算第二输出数据中各数据间的相似度;
根据第一输出数据中各数据间的相似度计算第一输出数据中各数据的所有排列顺序的概率,并从所述第一输出数据中各数据的所有排列顺序中选取目标排列顺序;
根据第二输出数据中各数据间的相似度计算第二输出数据中各数据的目标排列顺序的概率;
根据第一输出数据中各数据的目标排列顺序的概率和第二输出数据中各数据的目标排列顺序的概率计算所述目标函数的取值,并根据所述目标函数的取值调整所述学生网络的权重;
基于调整权重后的学生网络进行下一次迭代训练。
13.根据权利要求12所述的装置,其特征在于,所述训练模块从第一输出数据中各数据的所有排列顺序中选取目标排列顺序,具体包括:
从第一输出数据中各数据的所有排列顺序中选取概率取值大于预置阈值的排列顺序作为目标排列顺序;
或者,从第一输出数据中各数据的所有排列顺序中选取概率取值排在前面的预置数量的排列顺序作为目标排列顺序。
14.根据权利要求12所述的装置,其特征在于,所述训练模块计算第一输出数据中各数据间的相似度,具体包括:计算第一输出数据中两两数据之间的空间距离,根据所述空间距离得到所述两两数据间的相似度;
所述训练模块计算第二输出数据中各数据间的相似度,具体包括:计算第二输出数据中两两数据之间的空间距离,根据所述空间距离得到所述两两数据间的相似度。
15.根据权利要求12所述的装置,其特征在于,所述训练模块根据第一输出数据中各数据间的相似度计算第一输出数据中各数据的所有排列顺序的概率,具体包括:针对每个排列顺序,将所述排列顺序的顺序信息以及第一输出数据的该排列顺序中所有相邻两个数据间的相似度输入预置的概率计算模型中,得到所述排列顺序的概率;
所述训练模块根据第二输出数据中各数据间的相似度计算第二输出数据中各数据的目标排列顺序概率,具体包括:针对每一个目标排列顺序,将所述目标排列顺序的顺序信息以及第二输出数据的该目标排列顺序中所有相邻两个数据间的相似度输入所述概率计算模型中,得到所述目标排列顺序的概率。
16.根据权利要求12所述的装置,其特征在于,
当所述目标排列顺序为一个时,所述学生网络的目标函数如下:
L=-logP(πt|Xs)
式中,πt为第二输出数据中各数据的目标排列顺序,Xs为当前训练样本图像数据对应的第二输出数据,P(πt|Xs)为πt的概率。
17.根据权利要求12所述的装置,其特征在于,
当所述目标排列顺序为多个时,所述学生网络的目标函数如下:
Figure FDA0002823083330000061
式中,π为一个目标排列顺序,Xs为当前训练样本图像数据对应的第二输出数据,Xt为当前训练样本图像数据对应的第一输出数据,P(π|Xs)为当前训练样本图像数据的第二传输数据中各数据的排列顺序为π的概率,P(π|Xt)为当前训练样本图像数据的第一传输数据中各数据的排列顺序为π的概率,Q为目标排列顺序的集合。
18.根据权利要求12所述的装置,其特征在于,所述训练模块根据所述目标函数的取值调整所述学生网络的权重,具体包括:
采用预置的梯度下降优化算法,根据所述目标函数的取值调整所述学生网络的权重。
19.根据权利要求12所述的装置,所述训练模块进一步用于:
在计算第一输出数据中各数据间的相似度以及计算第二输出数据中各数据间的相似度之前,通过下采样算法与插值算法对所述第一输出数据和第二输出数据进行处理,使得所述第一输出数据的空间维度与第二输出数据的空间维度一致,且第一输出数据的数量和第二输出数据的数量均与所述当前训练样本图像数据的数量一致。
20.根据权利要求11所述的装置,其特征在于,所述第一特定网络层为教师网络中的一个中间网络层或最后一层网络层;
所述第二特定网络层为学生网络的一个中间网络层或最后一层网络层。
CN201710450211.9A 2017-06-15 2017-06-15 一种神经网络训练方法及装置 Active CN107358293B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710450211.9A CN107358293B (zh) 2017-06-15 2017-06-15 一种神经网络训练方法及装置
CN201911166257.3A CN110969250B (zh) 2017-06-15 2017-06-15 一种神经网络训练方法及装置
PCT/CN2017/102032 WO2018227800A1 (zh) 2017-06-15 2017-09-18 一种神经网络训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710450211.9A CN107358293B (zh) 2017-06-15 2017-06-15 一种神经网络训练方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201911166257.3A Division CN110969250B (zh) 2017-06-15 2017-06-15 一种神经网络训练方法及装置

Publications (2)

Publication Number Publication Date
CN107358293A CN107358293A (zh) 2017-11-17
CN107358293B true CN107358293B (zh) 2021-04-02

Family

ID=60273856

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201710450211.9A Active CN107358293B (zh) 2017-06-15 2017-06-15 一种神经网络训练方法及装置
CN201911166257.3A Active CN110969250B (zh) 2017-06-15 2017-06-15 一种神经网络训练方法及装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201911166257.3A Active CN110969250B (zh) 2017-06-15 2017-06-15 一种神经网络训练方法及装置

Country Status (2)

Country Link
CN (2) CN107358293B (zh)
WO (1) WO2018227800A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304915B (zh) * 2018-01-05 2020-08-11 大国创新智能科技(东莞)有限公司 一种深度学习神经网络的分解与合成方法和系统
CN108830288A (zh) * 2018-04-25 2018-11-16 北京市商汤科技开发有限公司 图像处理方法、神经网络的训练方法、装置、设备及介质
CN108921282B (zh) * 2018-05-16 2022-05-31 深圳大学 一种深度神经网络模型的构建方法和装置
CN108764462A (zh) * 2018-05-29 2018-11-06 成都视观天下科技有限公司 一种基于知识蒸馏的卷积神经网络优化方法
CN110598504B (zh) * 2018-06-12 2023-07-21 北京市商汤科技开发有限公司 图像识别方法及装置、电子设备和存储介质
CN108830813B (zh) * 2018-06-12 2021-11-09 福建帝视信息科技有限公司 一种基于知识蒸馏的图像超分辨率增强方法
CN108898168B (zh) * 2018-06-19 2021-06-01 清华大学 用于目标检测的卷积神经网络模型的压缩方法和系统
CN108985920A (zh) * 2018-06-22 2018-12-11 阿里巴巴集团控股有限公司 套现识别方法和装置
CN109783824B (zh) * 2018-12-17 2023-04-18 北京百度网讯科技有限公司 基于翻译模型的翻译方法、装置及存储介质
CN109637546B (zh) * 2018-12-29 2021-02-12 苏州思必驰信息科技有限公司 知识蒸馏方法和装置
CN109840588B (zh) * 2019-01-04 2023-09-08 平安科技(深圳)有限公司 神经网络模型训练方法、装置、计算机设备及存储介质
CN111435424A (zh) * 2019-01-14 2020-07-21 北京京东尚科信息技术有限公司 一种图像处理方法和设备
CN109800821A (zh) * 2019-01-31 2019-05-24 北京市商汤科技开发有限公司 训练神经网络的方法、图像处理方法、装置、设备和介质
CN110009052B (zh) * 2019-04-11 2022-11-18 腾讯科技(深圳)有限公司 一种图像识别的方法、图像识别模型训练的方法及装置
CN110163344B (zh) * 2019-04-26 2021-07-09 北京迈格威科技有限公司 神经网络训练方法、装置、设备和存储介质
CN111401406B (zh) * 2020-02-21 2023-07-18 华为技术有限公司 一种神经网络训练方法、视频帧处理方法以及相关设备
CN111340221B (zh) * 2020-02-25 2023-09-12 北京百度网讯科技有限公司 神经网络结构的采样方法和装置
CN111444958B (zh) * 2020-03-25 2024-02-13 北京百度网讯科技有限公司 一种模型迁移训练方法、装置、设备及存储介质
CN111291836B (zh) * 2020-03-31 2023-09-08 中国科学院计算技术研究所 一种生成学生网络模型的方法
CN111598213B (zh) * 2020-04-01 2024-01-23 北京迈格威科技有限公司 网络训练方法、数据识别方法、装置、设备和介质
CN112116441B (zh) * 2020-10-13 2024-03-12 腾讯科技(深圳)有限公司 金融风险分类模型的训练方法、分类方法、装置及设备
CN112712052A (zh) * 2021-01-13 2021-04-27 安徽水天信息科技有限公司 一种机场全景视频中微弱目标的检测识别方法
CN112365886B (zh) * 2021-01-18 2021-05-07 深圳市友杰智新科技有限公司 语音识别模型的训练方法、装置和计算机设备
CN113378940B (zh) * 2021-06-15 2022-10-18 北京市商汤科技开发有限公司 神经网络训练方法、装置、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020711A (zh) * 2012-12-25 2013-04-03 中国科学院深圳先进技术研究院 分类器训练方法及其系统
CN105787513A (zh) * 2016-03-01 2016-07-20 南京邮电大学 多示例多标记框架下基于域适应迁移学习设计方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7062476B2 (en) * 2002-06-17 2006-06-13 The Boeing Company Student neural network
US20150046181A1 (en) * 2014-02-14 2015-02-12 Brighterion, Inc. Healthcare fraud protection and management
CN104090971A (zh) * 2014-07-17 2014-10-08 中国科学院自动化研究所 面向个性化应用的跨网络行为关联方法
CN105844331B (zh) * 2015-01-15 2018-05-25 富士通株式会社 神经网络系统及该神经网络系统的训练方法
CN104657596B (zh) * 2015-01-27 2017-08-29 中国矿业大学 一种基于模型迁移的大型新压缩机性能预测快速建模方法
US20160328644A1 (en) * 2015-05-08 2016-11-10 Qualcomm Incorporated Adaptive selection of artificial neural networks
US10878320B2 (en) * 2015-07-22 2020-12-29 Qualcomm Incorporated Transfer learning in neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020711A (zh) * 2012-12-25 2013-04-03 中国科学院深圳先进技术研究院 分类器训练方法及其系统
CN105787513A (zh) * 2016-03-01 2016-07-20 南京邮电大学 多示例多标记框架下基于域适应迁移学习设计方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Distilling the Knowledge in a Neural Network;Geoffrey Hinton等;《arXiv》;20150309;第1-9页 *
FitNets: Hints for Thin Deep Nets;Adriana Romero等;《ICLR》;20151231;第1-14页 *

Also Published As

Publication number Publication date
CN107358293A (zh) 2017-11-17
WO2018227800A1 (zh) 2018-12-20
CN110969250B (zh) 2023-11-10
CN110969250A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN107358293B (zh) 一种神经网络训练方法及装置
CN109118564B (zh) 一种基于融合体素的三维点云标记方法和装置
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
US11295208B2 (en) Robust gradient weight compression schemes for deep learning applications
CN109754078A (zh) 用于优化神经网络的方法
WO2019203231A1 (ja) 3次元点群ラベル学習装置、3次元点群ラベル推定装置、3次元点群ラベル学習方法、3次元点群ラベル推定方法、及びプログラム
WO2018095049A1 (zh) 生成推荐结果的方法和装置
CN110503192A (zh) 资源有效的神经架构
US9710697B2 (en) Method and system for exacting face features from data of face images
CN111553480A (zh) 神经网络搜索方法、装置、计算机可读介质及电子设备
Kong et al. Pixel-wise attentional gating for scene parsing
Kong et al. Pixel-wise attentional gating for parsimonious pixel labeling
CN109598732B (zh) 一种基于三维空间加权的医学图像分割方法
CN110765882B (zh) 一种视频标签确定方法、装置、服务器及存储介质
CN110309835B (zh) 一种图像局部特征提取方法及装置
CN108510013A (zh) 基于低秩核心矩阵的改进稳健张量主成分分析方法
CN111783779A (zh) 图像处理方法、装置和计算机可读存储介质
CN110809126A (zh) 一种基于自适应可变形卷积的视频帧插值方法及系统
CN111008631A (zh) 图像的关联方法及装置、存储介质和电子装置
CN112529068A (zh) 一种多视图图像分类方法、系统、计算机设备和存储介质
Mozejko et al. Superkernel neural architecture search for image denoising
CN109359542A (zh) 基于神经网络的车辆损伤级别的确定方法及终端设备
CN111814804B (zh) 基于ga-bp-mc神经网络的人体三维尺寸信息预测方法及装置
CN111814884A (zh) 一种基于可变形卷积的目标检测网络模型的升级方法
WO2023122896A1 (zh) 一种数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200326

Address after: 101300, No. two, 1 road, Shunyi Park, Zhongguancun science and Technology Park, Beijing, Shunyi District

Applicant after: BEIJING TUSENZHITU TECHNOLOGY Co.,Ltd.

Address before: 101300, No. two, 1 road, Shunyi Park, Zhongguancun science and Technology Park, Beijing, Shunyi District

Applicant before: TuSimple

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant