CN108229652B - 神经网络模型迁移方法和系统、电子设备、程序和介质 - Google Patents

神经网络模型迁移方法和系统、电子设备、程序和介质 Download PDF

Info

Publication number
CN108229652B
CN108229652B CN201711214166.3A CN201711214166A CN108229652B CN 108229652 B CN108229652 B CN 108229652B CN 201711214166 A CN201711214166 A CN 201711214166A CN 108229652 B CN108229652 B CN 108229652B
Authority
CN
China
Prior art keywords
neural network
network model
classification
processed
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711214166.3A
Other languages
English (en)
Other versions
CN108229652A (zh
Inventor
邵婧
闫俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201711214166.3A priority Critical patent/CN108229652B/zh
Publication of CN108229652A publication Critical patent/CN108229652A/zh
Application granted granted Critical
Publication of CN108229652B publication Critical patent/CN108229652B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种神经网络模型迁移方法和系统、电子设备、程序和介质,其中,方法包括:分别向训练好的至少两个第一神经网络模型和一待训练的第二神经网络模型输入相同的待处理对象;其中,所述第二神经网络模型的大小小于每个所述第一神经网络模型的大小;基于所述至少两个第一神经网络模型对所述待处理对象的处理结果,共同训练所述第二神经网络模型,直至满足预设训练完成条件。本发明实施例实现了基于多个大神经网络模型对小神经网络模型的共同训练,可将多个大神经网络的性能迁移到小神经网络模型。

Description

神经网络模型迁移方法和系统、电子设备、程序和介质
技术领域
本发明涉及人工智能技术,尤其是一种神经网络模型迁移方法和系统、电子设备、程序和介质。
背景技术
在当今的图像识别任务中的一个普遍共识是在样本数据足够、训练方法恰当、网络模型设计科学的条件下,所使用的网络模型越大、越复杂,往往能够得到越精确的识别结果。虽然网络模型越大、越复杂,识别结果越精确可靠,但是,由于体量庞大、计算复杂的问题,从而使得其在实际应用中会占用大量的存储和计算资源。
发明内容
本发明实施例提供一种用于进行神经网络模型迁移的技术方案。
根据本发明实施例的一个方面,提供一种神经网络模型迁移方法,包括:
分别向训练好的至少两个第一神经网络模型和一待训练的第二神经网络模型输入相同的待处理对象;其中,所述第二神经网络模型的大小小于每个所述第一神经网络模型的大小;
基于所述至少两个第一神经网络模型对所述待处理对象的处理结果,共同训练所述第二神经网络模型,直至满足预设训练完成条件。
可选地,在本发明上述各方法实施例中,所述第二神经网络模型的大小小于所述第一神经网络模型的大小,包括:
第二神经网络模型的参数量小于所述第一神经网络模型的参数量;和/或
第二神经网络模型的网络层数小于所述第一神经网络模型的网络层数。
可选地,在本发明上述各方法实施例中,所述基于所述至少两个第一神经网络模型对所述待处理对象的处理结果,共同训练所述第二神经网络模型,包括:
分别获取所述至少两个第一神经网络模型的分类层输出的分类结果、以及所述第二神经网络模型的分类层输出的分类结果;
分别获取每个第一神经网络模型的分类层输出的分类结果与所述第二神经网络模型的分类层输出的分类结果之间的第一差异,得到至少两个第一差异;
至少根据所述至少两个第一差异对所述第二神经网络模型进行网络训练。
可选地,在本发明上述各方法实施例中,还包括:获取所述第二神经网络模型的分类层输出的分类结果与所述待处理对象的标注分类结果之间的第二差异;
所述至少根据所述至少两个第一差异对所述第二神经网络模型进行网络训练,包括:根据所述第二差异和所述至少两个第一差异,对所述第二神经网络模型进行网络训练。
可选地,在本发明上述各方法实施例中,根据所述第二差异和所述至少两个第一差异,对所述第二神经网络模型进行网络训练,包括:
分别针对每个第一差异,获取第一差异与该第一差异对应的第一神经网络模型的权重系数的乘积,得到至少两个乘积;
以所述第二差异和所述至少两个乘积作为所述第二神经网络模型的分类代价函数值,对所述第二神经网络模型进行网络训练。
可选地,在本发明上述各方法实施例中,以所述第二差异和所述至少两个乘积作为所述第二神经网络模型的分类代价函数值,对所述第二神经网络模型进行网络训练,包括:
根据所述分类代价函数值调整所述第二神经网络模型中所述分类层及以下各网络层的权重参数值。
可选地,在本发明上述各方法实施例中,根据所述分类代价函数值调整所述第二神经网络模型中所述分类层及以下各网络层的权重参数值,包括:
将所述分类代价函数值反向回传至所述第二神经网络模型;
依次根据反向回传的分类代价函数值调整所述第二神经网络模型中所述分类层及以下各网络层的权重参数值。
可选地,在本发明上述各方法实施例中,所述满足预设训练完成条件,包括以下任意一项或多项:
所述至少两个第一差异分别小于第一预设阈值;
所述第二差异小于第二预设阈值;
所述分类代价函数值小于第三预设阈值;
所述第二神经网络模型的训练次数达到预设次数。
根据本发明实施例的另一个方面,提供一种神经网络模型迁移系统,包括:训练好的至少两个第一神经网络模型和一待训练的第二神经网络模型;其中,所述第二神经网络模型的大小小于每个所述第一神经网络模型的大小;
所述第一神经网络模型,用于接收待处理对象;并输出对所述待处理对象的处理结果;
所述第二神经网络模型,用于接收所述待处理对象;并输出对所述待处理对象的处理结果;
训练模块,用于基于所述至少两个第一神经网络模型对所述待处理对象的处理结果,共同训练所述第二神经网络模型,直至满足预设训练完成条件。
可选地,在本发明上述各系统实施例中,所述第二神经网络模型的大小小于所述第一神经网络模型的大小,包括:
第二神经网络模型的参数量小于所述第一神经网络模型的参数量;和/或
第二神经网络模型的网络层数小于所述第一神经网络模型的网络层数。
可选地,在本发明上述各系统实施例中,还包括:
获取模块,用于分别获取所述至少两个第一神经网络模型的分类层输出的分类结果、以及所述第二神经网络模型的分类层输出的分类结果;以及分别获取每个第一神经网络模型的分类层输出的分类结果与所述第二神经网络模型的分类层输出的分类结果之间的第一差异,得到至少两个第一差异;
所述训练模块具体用于:至少根据所述至少两个第一差异对所述第二神经网络模型进行网络训练。
可选地,在本发明上述各系统实施例中,所述获取模块还用于:获取所述第二神经网络模型的分类层输出的分类结果与所述待处理对象的标注分类结果之间的第二差异;
所述训练模块具体用于:根据所述第二差异和所述至少两个第一差异,对所述第二神经网络模型进行网络训练,直至满足预设训练完成条件。
可选地,在本发明上述各系统实施例中,所述获取模块还用于:分别针对每个第一差异,获取第一差异与该第一差异对应的第一神经网络模型的权重系数的乘积,得到至少两个乘积;
所述训练模块具体用于:以所述第二差异和所述至少两个乘积作为所述第二神经网络模型的分类代价函数值,对所述第二神经网络模型进行网络训练,直至满足预设训练完成条件。
可选地,在本发明上述各系统实施例中,所述训练模块具体用于:根据所述分类代价函数值调整所述第二神经网络模型中所述分类层及以下各网络层的权重参数值,直至满足预设训练完成条件。
可选地,在本发明上述各系统实施例中,所述训练模块根据所述分类代价函数值调整所述第二神经网络模型中所述分类层及以下各网络层的权重参数值时,具体用于:将所述分类代价函数值反向回传至所述第二神经网络模型;依次根据反向回传的分类代价函数值调整所述第二神经网络模型中所述分类层及以下各网络层的权重参数值。
可选地,在本发明上述各系统实施例中,所述满足预设训练完成条件,包括以下任意一项或多项:
所述至少两个第一差异分别小于第一预设阈值;
所述第二差异小于第二预设阈值;
所述分类代价函数值小于第三预设阈值;
所述第二神经网络模型的训练次数达到预设次数。
根据本发明实施例的又一个方面,提供一种电子设备,设置有本发明上述任一实施例所述的神经网络模型迁移系统。
根据本发明实施例的又一个方面,提供另一种电子设备,包括:
处理器和本发明上述任一实施例所述的神经网络模型迁移系统;
在处理器运行所述神经网络模型迁移系统时,本发明上述任一实施例所述的神经网络模型迁移系统中的单元被运行。
根据本发明实施例的又一个方面,提供一种电子设备,包括:一个或多个处理器、存储器、通信部件和通信总线,所述处理器、所述存储器和所述通信部件通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如本发明上述任一实施例所述的神经网络模型迁移方法对应的操作。
根据本发明实施例的又一个方面,提供一种计算机程序,包括计算机可读代码,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现本发明上述任一实施例所述的神经网络模型迁移方法中各步骤的指令。
根据本发明实施例的再一个方面,提供一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时实现本发明上述任一实施例所述的神经网络模型迁移方法中各步骤的操作。
基于本发明上述实施例提供的神经网络模型迁移方法和系统、电子设备、程序和介质,分别向训练好的至少两个第一神经网络模型和一待训练的第二神经网络模型输入相同的待处理对象;其中,第二神经网络模型的大小小于每个第一神经网络模型的大小;基于至少两个第一神经网络模型对待处理对象的处理结果,共同训练第二神经网络模型,直至满足预设训练完成条件,从而实现了基于多个大神经网络模型(即:第一神经网络模型)对小神经网络模型(即:第二神经网络模型)的共同训练,使得训练获得的小神经网络模型对待处理对象的处理结果能够具备多个大神经网络模型对待处理对象的处理结果上的综合优势,相对于大神经网络模型而言,小神经网络模型在设备上运行时所占用的存储和计算资源要节省很多,采用本发明实施例记载的技术方案训练得到的小神经网络模型,可将多个大神经网络的性能迁移到小神经网络模型中,可以使小神经网络模型在对待处理对象的处理结果上同时取得较好的性能表现,由此提升了小神经网络模型的处理性能。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为本发明神经网络模型迁移方法一个实施例的流程图。
图2为本发明神经网络模型迁移方法另一个实施例的流程图。
图3为本发明神经网络模型迁移系统一个实施例的结构示意图。
图4为本发明神经网络模型迁移系统另一个实施例的结构示意图。
图5为基于本发明实施例训练得到的一个第二神经网络模型的结构示意图。
图6为本发明电子设备一个应用实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
图1为本发明神经网络模型迁移方法一个实施例的流程图。如图1所示,该实施例的神经网络模型迁移方法包括:
102,分别向训练好的至少两个第一神经网络模型和一待训练的第二神经网络模型输入相同的待处理对象。
其中,第二神经网络模型的大小小于每个第一神经网络模型的大小。
示例性地,第二神经网络模型的大小小于第一神经网络模型的大小,例如可以是,第二神经网络模型的参数量小于第一神经网络模型的参数量;和/或,第二神经网络模型的网络层数(也称为:网络深度)小于第一神经网络模型的网络层数。因此,第一神经网络模型也可以称为大神经网络模型,可以选用高精度、高鲁棒性的神经网络模型作为本发明实施例的大神经网络模型,第二神经网络模型也可以称为小神经网络模型。
本发明各实施例中,神经网络模型例如可以是卷积神经网络(CNN)模型。
本发明各实施例中,待处理对象例如可以是需要进行处理(例如待分类、待识别等)的图像、语音、文本、音频、视频、音视频等任意对象。
104,基于上述至少两个第一神经网络模型对待处理对象的处理结果,共同训练第二神经网络模型,迭代执行操作102~204,直至满足预设训练完成条件。
在本发明各实施例中,对第二神经网络模型进行网络训练的训练方法可以有多种,例如,在其中一个具体示例中,可以采用梯度下降法对第二神经网络模型进行网络训练,调整第二神经网络模型的各网络层的权重参数值(即:网络参数值),该网络训练过程包括前向传播过程和反向传播过程。
基于本发明上述实施例提供的神经网络模型迁移方法,分别向训练好的至少两个第一神经网络模型和一待训练的第二神经网络模型输入相同的待处理对象;其中,第二神经网络模型的大小小于每个第一神经网络模型的大小;基于至少两个第一神经网络模型对待处理对象的处理结果,共同训练第二神经网络模型,直至满足预设训练完成条件,从而实现了基于多个大神经网络模型(即:第一神经网络模型)对小神经网络模型(即:第二神经网络模型)的共同训练,使得训练获得的小神经网络模型对待处理对象的处理结果能够具备多个大神经网络模型对待处理对象的处理结果上的综合优势,相对于大神经网络模型而言,小神经网络模型在设备上运行时所占用的存储和计算资源要节省很多,采用本发明实施例记载的技术方案训练得到的小神经网络模型,可将多个大神经网络的性能迁移到小神经网络模型中,可以使小神经网络模型在对待处理对象的处理结果上同时取得较好的性能表现,由此提升了小神经网络模型的处理性能。
在本发明各神经网络模型迁移方法实施例的一个可选实施方式中,操作104中基于至少两个第一神经网络模型对待处理对象的处理结果,共同训练第二神经网络模型,可以包括:
分别获取至少两个第一神经网络模型的分类层输出的分类结果、以及第二神经网络模型的分类层输出的分类结果;
分别获取每个第一神经网络模型的分类层输出的分类结果与第二神经网络模型的分类层输出的分类结果之间的第一差异,得到至少两个第一差异;
至少根据上述至少两个第一差异对第二神经网络模型进行网络训练。
由于用于对第二神经网络模型进行训练的第二神经网络模型的分类代价函数值包括了上述至少两个第一神经网络模型的分类层输出的分类结果与第二神经网络模型的分类层输出的分类结果之间的第一差异,由此,实现了通过多个分类结果精确度高的第一神经网络模型对第二神经网络模型分类结果的监督,从而可以将通过多个分类结果精确度高的第一神经网络模型的分类性能迁移到第二神经网络模型上。
其中,第一神经网络模型的数量,即选取多少个第一神经网络模型对第二神经网络模型进行网络训练,具体可以根据第一神经网络模型是什么、第一神经网络模型的性能、以及第二神经网络模型的应用场景和第二神经网络的训练目标等决定。
另外,在本发明各神经网络模型迁移方法的另一实施例中,还可以包括:获取第二神经网络模型的分类层输出的分类结果与待处理对象的标注分类结果之间的第二差异。相应地,在该实施例中,至少根据上述至少两个第一差异对第二神经网络模型进行网络训练,可以包括:根据上述第二差异和至少两个第一差异,对第二神经网络模型进行网络训练。
在其中一个示例中,根据第二差异和至少两个第一差异,对第二神经网络模型进行网络训练,可以包括:
分别针对上述至少两个第一差异中的每个第一差异,获取第一差异与该第一差异对应的第一神经网络模型的权重系数的乘积,得到至少两个乘积;
以上述第二差异和至少两个乘积作为第二神经网络模型的分类代价函数值,对该第二神经网络模型进行网络训练。
例如,可以通过公式:L=L0+∑αi*Li i=1,2...,n,获取第二神经网络模型的分类代价函数值,对第二神经网络模型进行网络训练。其中,n的取值为大于1的整数。
其中,L表示小神经网络模型的分类代价函数,L0表示第二神经网络模型的分类层输出的分类结果与待处理对象的标注分类结果之间的第二差异,Li表示第i个第一神经网络模型的分类层输出的分类结果与第二神经网络模型的分类层输出的分类结果之间的第一差异,αi表示第i个第一神经网络模型的权重系数。
示例性地,本发明各实施例中的分类代价函数例如可以是:softmax损失函数、交叉熵等各种熵函数、支持向量机(Support Vector Machine,SVM)代价函数。
根据分类代价函数的定义,分类损失函数值越小,说明第二神经网络模型的分类结果越接近于第一神经网络模型;否则,分类损失函数值越大,说明第二神经网络模型的分类结果越偏离于第一神经网络模型。
进一步示例性地,以上述第二差异和至少两个乘积作为第二神经网络模型的分类代价函数值,对第二神经网络模型进行网络训练,可以包括:
根据分类代价函数值调整第二神经网络模型中分类层及以下各网络层的权重参数值,以使第二神经网络模型的分类代价函数值最小化。
其中,分类层以下各网络层,即沿前向传播方向该分类层以前的各网络层,例如各特征层。本发明实施例中的特征层例如可以是卷积层、池化层、全连接层等。
在其中一个可选的实施方式中,根据分类代价函数值调整第二神经网络模型中分类层及以下各网络层的权重参数值,可以通过如下方式实现:
将分类代价函数值反向回传至上述第二神经网络模型;
依次根据反向回传的分类代价函数值调整该第二神经网络模型中分类层及以下各网络层的权重参数值。
在本发明各神经网络模型迁移方法实施例的一个可选实施方式中,满足预设训练完成条件,例如可以包括但不限于以下任意一项或多项:
至少两个第一差异分别小于第一预设阈值;
第二差异小于第二预设阈值;
分类代价函数值小于第三预设阈值;
第二神经网络模型的训练次数达到预设次数。
图2为本发明神经网络模型迁移方法另一个实施例的流程图。如图2所示,该实施例的神经网络模型迁移方法包括:
202,分别向训练好的至少两个第一神经网络模型和一待训练的第二神经网络模型输入相同的待处理对象。
其中,第二神经网络模型的大小小于每个第一神经网络模型的大小。
示例性地,第二神经网络模型的大小小于第一神经网络模型的大小,例如可以是,第二神经网络模型的参数量小于第一神经网络模型的参数量;和/或,第二神经网络模型的网络层数(也称为:网络深度)小于第一神经网络模型的网络层数。因此,第一神经网络模型也可以称为大神经网络模型,可以选用高精度、高鲁棒性的神经网络模型作为本发明实施例的大神经网络模型,第二神经网络模型也可以称为小神经网络模型。
本发明各实施例中,神经网络模型例如可以是卷积神经网络(CNN)模型。
本发明各实施例中,待处理对象例如可以是需要进行处理(例如待分类、待识别等)的图像、语音、文本、音频、视频、音视频等任意对象。
204,分别获取至少两个第一神经网络模型的分类层输出的分类结果、以及第二神经网络模型的分类层输出的分类结果。
206,分别获取每个第一神经网络模型的分类层输出的分类结果与第二神经网络模型的分类层输出的分类结果之间的第一差异,得到至少两个第一差异;以及获取第二神经网络模型的分类层输出的分类结果与待处理对象的标注分类结果之间的第二差异。
其中,待处理对象的标注分类结果为预先对待处理对象标注的正确的分类结果。
208,根据上述第二差异和至少两个第一差异,对第二神经网络模型进行网络训练,迭代执行操作202~208,直至满足预设训练完成条件。
图3为本发明神经网络模型迁移系统一个实施例的结构示意图。本发明各实施例的神经网络模型迁移系统可用于实现本发明上述各神经网络模型迁移方法实施例。如图3所示,该实施例的神经网络模型迁移系统包括:训练好的至少两个第一神经网络模型和一待训练的第二神经网络模型。其中,第二神经网络模型的大小小于每个第一神经网络模型的大小。示例性地,第二神经网络模型的大小小于第一神经网络模型的大小,例如可以是,第二神经网络模型的参数量小于第一神经网络模型的参数量;和/或,第二神经网络模型的网络层数(也称为:网络深度)小于第一神经网络模型的网络层数。因此,第一神经网络模型也可以称为大神经网络模型,可以选用高精度、高鲁棒性的神经网络模型作为本发明实施例的大神经网络模型,第二神经网络模型也可以称为小神经网络模型。本发明各实施例中,神经网络模型例如可以是卷积神经网络(CNN)模型。其中:
第一神经网络模型,用于接收待处理对象,并输出对待处理对象的处理结果。本发明各实施例中,待处理对象例如可以是需要进行处理(例如待分类、待识别等)的图像、语音、文本、音频、视频、音视频等任意对象。
第二神经网络模型,用于接收待处理对象,并输出对待处理对象的处理结果。
训练模块,用于基于上述至少两个第一神经网络模型对待处理对象的处理结果,共同训练第二神经网络模型,直至满足预设训练完成条件。
基于本发明上述实施例提供的神经网络模型迁移系统,分别向训练好的至少两个第一神经网络模型和一待训练的第二神经网络模型输入相同的待处理对象;其中,第二神经网络模型的大小小于每个第一神经网络模型的大小;基于至少两个第一神经网络模型对待处理对象的处理结果,共同训练第二神经网络模型,直至满足预设训练完成条件,从而实现了基于多个大神经网络模型(即:第一神经网络模型)对小神经网络模型(即:第二神经网络模型)的共同训练,使得训练获得的小神经网络模型对待处理对象的处理结果能够具备多个大神经网络模型对待处理对象的处理结果上的综合优势,相对于大神经网络模型而言,小神经网络模型在设备上运行时所占用的存储和计算资源要节省很多,采用本发明实施例记载的技术方案训练得到的小神经网络模型,可将多个大神经网络的性能迁移到小神经网络模型中,可以使小神经网络模型在对待处理对象的处理结果上同时取得较好的性能表现,由此提升了小神经网络模型的处理性能。
图4为本发明神经网络模型迁移系统另一个实施例的结构示意图。如图4所示,与图3所示的实施例相比,该实施例的神经网络模型迁移系统还包括:获取模块,用于分别获取上述至少两个第一神经网络模型的分类层输出的分类结果、以及第二神经网络模型的分类层输出的分类结果;以及分别获取每个第一神经网络模型的分类层输出的分类结果与第二神经网络模型的分类层输出的分类结果之间的第一差异,得到至少两个第一差异。相应地,该实施例中,训练模块具体用于至少根据上述至少两个第一差异对第二神经网络模型进行网络训练。
在本发明神经网络模型迁移系统又一个实施例中,获取模块还可用于:获取第二神经网络模型的分类层输出的分类结果与待处理对象的标注分类结果之间的第二差异。相应地,该实施例中,训练模块具体用于:根据该第二差异和上述至少两个第一差异,对第二神经网络模型进行网络训练,直至满足预设训练完成条件。
另外,在本发明神经网络模型迁移系统再一个实施例中,获取模块还可用于:分别针对上述至少两个第一差异中的每个第一差异,获取第一差异与该第一差异对应的第一神经网络模型的权重系数的乘积,得到至少两个乘积。相应地,该实施例中,训练模块具体用于:以上述第二差异和至少两个乘积作为第二神经网络模型的分类代价函数值,对第二神经网络模型进行网络训练,直至满足预设训练完成条件。
在其中一个可选实施方式中,训练模块具体用于:根据分类代价函数值调整第二神经网络模型中分类层及以下各网络层的权重参数值,直至满足预设训练完成条件。
示例性地,训练模块根据分类代价函数值调整第二神经网络模型中分类层及以下各网络层的权重参数值时,具体用于:将分类代价函数值反向回传至该第二神经网络模型;依次根据反向回传的分类代价函数值调整该第二神经网络模型中分类层及以下各网络层的权重参数值。
在本发明各神经网络模型迁移系统实施例的一个可选实施方式中,满足预设训练完成条件,包括以下任意一项或多项:
至少两个第一差异分别小于第一预设阈值;
第二差异小于第二预设阈值;
分类代价函数值小于第三预设阈值;
第二神经网络模型的训练次数达到预设次数。
如图5所示,为基于本发明实施例训练得到的一个第二神经网络网络模型的一个示例性结构示意图。该示例性实施例中,第二神经网络网络模型包括两个特征层和一个分类层,其中的特征层可以是卷积层、池化层等。另外,本领域技术人员知悉,第二神经网络网络模型可以包括其他多个特征层,还可以包括其他网络层,此处不再赘述。
另外,本发明实施例还提供了一种电子设备,设置有本发明上述任一实施例的神经网络模型迁移系统。
另外,本发明实施例还提供了另一种电子设备,包括:
处理器和本发明上述任一实施例的神经网络模型迁移系统;
在处理器运行上述神经网络模型迁移系统时,本发明上述任一实施例的神经网络模型迁移系统中的单元被运行。
另外,本发明实施例还提供了又一种电子设备,包括:处理器和存储器;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行本发明上述任一实施例的神经网络模型迁移方法对应的操作。
本发明实施例中的电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。
图6为本发明电子设备一个实施例的结构示意图。如图6所示,用于实现本发明实施例的电子设备包括中央处理单元(CPU)或者图形处理单元(GPU),其可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。中央处理单元或者图形处理单元可与只读存储器和/或随机访问存储器中通信以执行可执行指令从而完成本发明实施例提供的网络模型迁移方法对应的操作,例如:分别向训练好的至少两个第一神经网络模型和一待训练的第二神经网络模型输入相同的待处理对象;其中,所述第二神经网络模型的大小小于每个所述第一神经网络模型的大小;基于所述至少两个第一神经网络模型对所述待处理对象的处理结果,共同训练所述第二神经网络模型,直至满足预设训练完成条件。
此外,在RAM中,还可存储有系统操作所需的各种程序和数据。CPU、GPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,所述程序代码可包括对应执行本发明实施例提供的任一项网络模型迁移方法步骤对应的指令,例如,分别向训练好的至少两个第一神经网络模型和一待训练的第二神经网络模型输入相同的待处理对象的指令;其中,所述第二神经网络模型的大小小于每个所述第一神经网络模型的大小;基于所述至少两个第一神经网络模型对所述待处理对象的处理结果,共同训练所述第二神经网络模型的指令,直至满足预设训练完成条件。该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)或图形处理单元(GPU)执行时,执行本发明的方法中限定的上述功能。
另外,本发明实施例还提供了一种计算机程序,包括计算机可读代码,当该计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现本发明上述任一实施例的神经网络模型迁移方法中各步骤的指令。
另外,本发明实施例还提供了一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时实现本发明上述任一实施例的神经网络模型迁移方法中各步骤的操作。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统、设备实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法、系统和设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法、系统和设备。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (14)

1.一种神经网络模型迁移方法,其特征在于,包括:
分别向训练好的至少两个第一神经网络模型和一待训练的第二神经网络模型输入相同的待处理对象;其中,所述第二神经网络模型的大小小于每个所述第一神经网络模型的大小;所述待处理对象包括:图像;
分别通过所述至少两个第一神经网络模型对所述待处理对象进行处理,并通过所述至少两个第一神经网络模型的分类层输出对所述待处理对象的分类结果;通过所述第二神经网络模型对所述待处理对象进行处理,并通过所述第二神经网络模型的分类层输出对所述待处理对象的分类结果;
分别获取每个第一神经网络模型的分类层输出的分类结果与所述第二神经网络模型的分类层输出的分类结果之间的第一差异,得到至少两个第一差异;获取所述第二神经网络模型的分类层输出的分类结果与所述待处理对象的标注分类结果之间的第二差异;
分别针对所述至少两个第一差异中的每个第一差异,获取第一差异与该第一差异对应的第一神经网络模型的权重系数的乘积,得到至少两个乘积;
以所述第二差异和所述至少两个乘积作为所述第二神经网络模型的分类代价函数值,对所述第二神经网络模型进行网络训练,直至满足预设训练完成条件,训练好的第二神经网络模型用于进行图像分类。
2.根据权利要求1所述的方法,其特征在于,所述第二神经网络模型的大小小于所述第一神经网络模型的大小,包括:
第二神经网络模型的参数量小于所述第一神经网络模型的参数量;和/或
第二神经网络模型的网络层数小于所述第一神经网络模型的网络层数。
3.根据权利要求1所述的方法,其特征在于,以所述第二差异和所述至少两个乘积作为所述第二神经网络模型的分类代价函数值,对所述第二神经网络模型进行网络训练,包括:
根据所述分类代价函数值调整所述第二神经网络模型中所述分类层及以下各网络层的权重参数值。
4.根据权利要求3所述的方法,其特征在于,根据所述分类代价函数值调整所述第二神经网络模型中所述分类层及以下各网络层的权重参数值,包括:
将所述分类代价函数值反向回传至所述第二神经网络模型;
依次根据反向回传的分类代价函数值调整所述第二神经网络模型中所述分类层及以下各网络层的权重参数值。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述满足预设训练完成条件,包括以下任意一项或多项:
所述至少两个第一差异分别小于第一预设阈值;
所述第二差异小于第二预设阈值;
所述分类代价函数值小于第三预设阈值;
所述第二神经网络模型的训练次数达到预设次数。
6.一种神经网络模型迁移系统,其特征在于,包括:训练好的至少两个第一神经网络模型和一待训练的第二神经网络模型;其中,所述第二神经网络模型的大小小于每个所述第一神经网络模型的大小;
所述第一神经网络模型,用于接收待处理对象;对所述待处理对象进行处理,并通过分类层输出对所述待处理对象的分类结果;所述待处理对象包括:图像;
所述第二神经网络模型,用于接收所述待处理对象;所述待处理对象进行处理,并通过分类层输出对所述待处理对象的分类结果;
获取模块,用于分别获取所述至少两个第一神经网络模型的分类层输出的分类结果、以及所述第二神经网络模型的分类层输出的分类结果;以及分别获取每个第一神经网络模型的分类层输出的分类结果与所述第二神经网络模型的分类层输出的分类结果之间的第一差异,得到至少两个第一差异;分别针对所述至少两个第一差异中的每个第一差异,获取第一差异与该第一差异对应的第一神经网络模型的权重系数的乘积,得到至少两个乘积;获取所述第二神经网络模型的分类层输出的分类结果与所述待处理对象的标注分类结果之间的第二差异;
训练模块,用于以所述第二差异和所述至少两个乘积作为所述第二神经网络模型的分类代价函数值,对所述第二神经网络模型进行网络训练,直至满足预设训练完成条件,训练好的第二神经网络模型用于进行图像分类。
7.根据权利要求6所述的系统,其特征在于,所述第二神经网络模型的大小小于所述第一神经网络模型的大小,包括:
第二神经网络模型的参数量小于所述第一神经网络模型的参数量;和/或
第二神经网络模型的网络层数小于所述第一神经网络模型的网络层数。
8.根据权利要求6所述的系统,其特征在于,所述训练模块具体用于:根据所述分类代价函数值调整所述第二神经网络模型中所述分类层及以下各网络层的权重参数值,直至满足预设训练完成条件。
9.根据权利要求8所述的系统,其特征在于,所述训练模块根据所述分类代价函数值调整所述第二神经网络模型中所述分类层及以下各网络层的权重参数值时,具体用于:将所述分类代价函数值反向回传至所述第二神经网络模型;依次根据反向回传的分类代价函数值调整所述第二神经网络模型中所述分类层及以下各网络层的权重参数值。
10.根据权利要求6至9任意一项所述的系统,其特征在于,所述满足预设训练完成条件,包括以下任意一项或多项:
所述至少两个第一差异分别小于第一预设阈值;
所述第二差异小于第二预设阈值;
所述分类代价函数值小于第三预设阈值;
所述第二神经网络模型的训练次数达到预设次数。
11.一种电子设备,其特征在于,设置有权利要求6至10任意一项所述的神经网络模型迁移系统。
12.一种电子设备,其特征在于,包括:
处理器和权利要求6至10任意一项所述的神经网络模型迁移系统;
在处理器运行所述神经网络模型迁移系统时,权利要求6至10任意一项所述的神经网络模型迁移系统中的单元被运行。
13.一种电子设备,其特征在于,包括:处理器和存储器;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1至5任意一项所述的神经网络模型迁移方法对应的操作。
14.一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时实现权利要求1至5任意一项所述的神经网络模型迁移方法中各步骤的操作。
CN201711214166.3A 2017-11-28 2017-11-28 神经网络模型迁移方法和系统、电子设备、程序和介质 Active CN108229652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711214166.3A CN108229652B (zh) 2017-11-28 2017-11-28 神经网络模型迁移方法和系统、电子设备、程序和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711214166.3A CN108229652B (zh) 2017-11-28 2017-11-28 神经网络模型迁移方法和系统、电子设备、程序和介质

Publications (2)

Publication Number Publication Date
CN108229652A CN108229652A (zh) 2018-06-29
CN108229652B true CN108229652B (zh) 2021-05-04

Family

ID=62652913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711214166.3A Active CN108229652B (zh) 2017-11-28 2017-11-28 神经网络模型迁移方法和系统、电子设备、程序和介质

Country Status (1)

Country Link
CN (1) CN108229652B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241988A (zh) * 2018-07-16 2019-01-18 北京市商汤科技开发有限公司 特征提取方法和装置、电子设备、存储介质、程序产品
CN109711545A (zh) * 2018-12-13 2019-05-03 北京旷视科技有限公司 网络模型的创建方法、装置、系统和计算机可读介质
CN109871942B (zh) * 2019-02-19 2021-06-11 上海商汤智能科技有限公司 神经网络的训练方法和装置、系统、存储介质
CN111310823B (zh) * 2020-02-12 2024-03-29 北京迈格威科技有限公司 目标分类方法、装置和电子系统
CN113326913A (zh) * 2020-02-28 2021-08-31 上海商汤智能科技有限公司 神经网络模型的转换方法、模型精度定位方法及装置
US11468325B2 (en) * 2020-03-30 2022-10-11 Amazon Technologies, Inc. Multi-model training pipeline in distributed systems

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709565A (zh) * 2016-11-16 2017-05-24 广州视源电子科技股份有限公司 一种神经网络的优化方法及装置
CN107316061A (zh) * 2017-06-22 2017-11-03 华南理工大学 一种深度迁移学习的不平衡分类集成方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020122B (zh) * 2012-11-16 2015-09-30 哈尔滨工程大学 一种基于半监督聚类的迁移学习方法
CN104751842B (zh) * 2013-12-31 2019-11-15 科大讯飞股份有限公司 深度神经网络的优化方法及系统
JP6435581B2 (ja) * 2015-01-29 2018-12-12 パナソニックIpマネジメント株式会社 転移学習装置、転移学習システム、転移学習方法およびプログラム
CN105894013B (zh) * 2016-03-29 2019-04-23 西安电子科技大学 基于cnn和smm的极化sar图像分类方法
CN106405640B (zh) * 2016-08-26 2018-07-10 中国矿业大学(北京) 基于深度信念神经网络的微震信号到时自动拾取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709565A (zh) * 2016-11-16 2017-05-24 广州视源电子科技股份有限公司 一种神经网络的优化方法及装置
CN107316061A (zh) * 2017-06-22 2017-11-03 华南理工大学 一种深度迁移学习的不平衡分类集成方法

Also Published As

Publication number Publication date
CN108229652A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN108229652B (zh) 神经网络模型迁移方法和系统、电子设备、程序和介质
CN112561078B (zh) 分布式的模型训练方法及相关装置
US11301719B2 (en) Semantic segmentation model training methods and apparatuses, electronic devices, and storage media
US11270190B2 (en) Method and apparatus for generating target neural network structure, electronic device, and storage medium
US11615310B2 (en) Training machine learning models by determining update rules using recurrent neural networks
WO2018121737A1 (zh) 关键点预测、网络训练及图像处理方法和装置、电子设备
US11941527B2 (en) Population based training of neural networks
KR20200109230A (ko) 뉴럴 네트워크 생성 방법 및 장치
WO2018099473A1 (zh) 场景分析方法和系统、电子设备
CN108280451B (zh) 语义分割及网络训练方法和装置、设备、介质
US11669711B2 (en) System reinforcement learning method and apparatus, and computer storage medium
CN108230346B (zh) 用于分割图像语义特征的方法和装置、电子设备
CN110929839B (zh) 训练神经网络的方法和装置、电子设备和计算机存储介质
US11164004B2 (en) Keyframe scheduling method and apparatus, electronic device, program and medium
CN108228700B (zh) 图像描述模型的训练方法、装置、电子设备及存储介质
CN112650841A (zh) 信息处理方法、装置和电子设备
CN110659657A (zh) 训练模型的方法和装置
CN109961141A (zh) 用于生成量化神经网络的方法和装置
CN115331275A (zh) 图像处理的方法、计算机系统、电子设备和程序产品
CN110795235A (zh) 一种移动web深度学习协作的方法及系统
CN114398834A (zh) 粒子群优化算法模型的训练方法、粒子群优化方法及装置
CN114494747A (zh) 模型的训练方法、图像处理方法、装置、电子设备及介质
CN114240506A (zh) 多任务模型的建模方法、推广内容处理方法及相关装置
CN113870399A (zh) 表情驱动方法、装置、电子设备及存储介质
CN111858916B (zh) 用于聚类句子的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant