CN111105020B - 特征表示迁移学习方法及相关装置 - Google Patents

特征表示迁移学习方法及相关装置 Download PDF

Info

Publication number
CN111105020B
CN111105020B CN201811269655.3A CN201811269655A CN111105020B CN 111105020 B CN111105020 B CN 111105020B CN 201811269655 A CN201811269655 A CN 201811269655A CN 111105020 B CN111105020 B CN 111105020B
Authority
CN
China
Prior art keywords
network model
feature
layer
output
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811269655.3A
Other languages
English (en)
Other versions
CN111105020A (zh
Inventor
杨治昆
翟军治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Yu Vision Mdt Infotech Ltd
Original Assignee
Xi'an Yu Vision Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Yu Vision Mdt Infotech Ltd filed Critical Xi'an Yu Vision Mdt Infotech Ltd
Priority to CN201811269655.3A priority Critical patent/CN111105020B/zh
Publication of CN111105020A publication Critical patent/CN111105020A/zh
Application granted granted Critical
Publication of CN111105020B publication Critical patent/CN111105020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种特征表示迁移学习方法及相关装置,涉及深度学习技术领域。其中,所述方法包括:调整选定的第二网络模型的特征映射层,使第二网络模型的与第一网络模型的特征映射层输出的特征数据长度相同;分别采用第一网络模型与第二网络模型对预选的图像数据进行处理;依据第一网络模型处理得到的第一特征及第二网络模型处理得到的第二特征,调整第二网络模型的模型参数,从而使第二网络模型的特征表示能力与第一网络模型的特征表示能力之间满足预设要求。通过本方案可以节省训练时间及训练花销。即便结构简单的网络模型也可以快速获得优异的特征表达能力,从而在满足产品性能的同时有效减小网络模型的系统开销。

Description

特征表示迁移学习方法及相关装置
技术领域
本发明涉及深度学习技术领域,具体而言,涉及一种特征表示迁移学习方法及相关装置。
背景技术
近年来,深度学习技术已经在很多国际著名比赛上取得了突出的成绩,并在多个领域的工程应用上取得了突破。通常深度网络模型结构越复杂,在进行海量的数据训练后的特征表示能力越好,意即大量经过数据训练后的深度网络模型对图像数据的识别准确度高,结构越简单的深度学习模型很难通过数据训练得到较好的特征表示能力,意即结构越简单的深度学习模型对图像数据的识别准确度低。
然而,大量的数据处理,对计算机的要求特别高,对每个深度网络模型均进行大数据量的训练需要付出很多的时间成本。(另外,在进行产品落地时,太大的网络模型会带来过多的系统开销,包括单板的处理时间,存储空间等等。这些因素会导致产品成本升高,甚至产品开发的失败。同时,由于各种网络模型结构差异较大,相互间很难共享网络模型,如resnet与inception网络,或者与VGG网络间,都不可以直接使用对方的网络模型,进行调优。因此,如何在不经历大量数据训练的前提下,提高待训练深度学习网络模型对图像数据的识别准确度,是需要解决的问题。
发明内容
本发明的目的在于提供一种特征表示迁移学习方法及相关装置,用以改善上述问题。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种特征表示迁移学习方法,所述方法包括:依据预设的第一网络模型,调整选定的第二网络模型的特征映射层,以使所述第二网络模型中从所述特征映射层输出的特征数据长度与所述第一网络模型的所述特征映射层输出的特征数据长度相同;分别采用第一网络模型与所述第二网络模型对预选的图像数据进行处理;依据所述第一网络模型处理所述图像数据后由对应的特征映射层输出的第一特征及所述第二网络模型处理所述图像数据后由对应的所述特征映射层输出得到的第二特征,调整所述第二网络模型的模型参数,以使所述第二网络模型的特征表示能力与所述第一网络模型的特征表示能力之间满足预设要求。
第二方面,本发明实施例提供了一种特征表示迁移学习装置,所述装置包括:第一调整模块,用于依据预设的第一网络模型,调整选定的第二网络模型的特征映射层,以使所述第二网络模型中从所述特征映射层输出的特征数据长度与所述第一网络模型的所述特征映射层输出的特征数据长度相同;处理模块,用于分别采用第一网络模型与所述第二网络模型对预选的图像数据进行处理;第二调整模块,用于依据所述第一网络模型处理所述图像数据后由对应的特征映射层输出的第一特征及所述第二网络模型处理所述图像数据后由对应的所述特征映射层输出得到的第二特征,调整所述第二网络模型的模型参数,以使所述第二网络模型的特征表示能力与所述第一网络模型的特征表示能力之间满足预设要求。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机指令,该些计算机指令被处理器执行时实现前述方法的步骤。
与现有技术的区别在于,本发明实施例提供的一种特征表示迁移学习方法通过先依据预设的第一网络模型,调整选定的第二网络模型的特征映射层,使第二网络模型的特征映射层输出的特征数据长度与第一网络模型的特征映射层输出的特征数据长度相同,再分别采用第一网络模型与所述第二网络模型对预选的图像数据进行处理;依据所述第一网络模型处理后由对应的特征映射层输出的第一特征及第二网络模型处理后由对应的特征映射层输出的第二特征,调整第二网络模型的模型参数,从而使第二网络模型的特征表示能力与所述第一网络模型的特征表示能力之间满足预设要求。也就是,即使第一网络模型与第二网络模型结构之间差异较大,无需进行大量的数据训练即可使第二网络模型也具备与第一网络模型一样优异的特征表达能力。另外,即便第二网络模型的结构简单也不影响其获得优异的特征表达能力,从而可以在满足产品性能的同时有效减小网络模型的系统开销。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的一种电子设备的机构示意图。
图2示出了本发明实施例提供的一种特征表示迁移学习方法的步骤流程图。
图3示出了图2中步骤S103的一种子步骤流程图。
图4示出了本发明实施例提供的特征表示迁移学习装置的功能模块示意图。
图标:100-电子设备;111-存储器;112-处理器;113-通信单元;200-特征表示迁移学习装置;201-第一调整模块;202-处理模块;203-第二调整模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
通常深度网络模型结构越复杂,在进行海量的数据训练后的特征表示能力越好,结构越简单的深度学习模型很难通过数据训练得到较好的特征表示能力。
为了简化训练过程,也为了使被应用于最终产品的深度网络模型结构简单,避免造成过多的系统开销。相关技术中采用了一种特征表述迁移学习方法,具体为,将一特征表述能力优异的Teacher网络与一个结构不复杂的Student网络各自输出的特征数据映射到统一的feature map,以便进行比较,并依据比较结果对Student网络进行调整,从而实现特征表述能力的迁移。然而,这种方式一方面要求两个网络的feature mapping的尺寸大小相同,迁移的两个网络必须为同一类型的网络,不同类型的网络间不能迁移,另一方面,由于输出尺寸小的网络层而言,将映射到feature mapping会造成数据的丢失,进而使迁移效果不佳。另外使用Featuremap进行迁移,需要增加不同channel间的映射处理,增加额外的系统开销,实现复杂。
为了改善上述问题,本发明实施例提供了一种特征表示迁移学习方法及相关装置。
请参考图1,本发明实施例提供的一种电子设备100。上述电子设备100可以是服务器、台式计算机等。可选地,上述电子设备100包括特征表示迁移学习装置200、存储器111、处理器112及通信单元113。
所述存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器111用于固化在电子设备100的操作系统(Operating System,OS)中的软件功能模块。所述处理器112用于执行所述存储器111中存储的可执行模块,例如,存储器111内存储的特征表示迁移学习装置200的程序段,以实现本实施例中提供的特征表示迁移学习方法。
其中,所述存储器111可以是,但不限于,随机存取存储器111(Random AccessMemory,RAM),只读存储器111(Read Only Memory,ROM),可编程只读存储器111(Programmable Read-Only Memory,PROM),可擦除只读存储器111(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器111(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。可选地,该电子设备100的存储器111中可以预先存储至少一特征表示能力优异的深度学习网络模型。
所述通信单元113用于通过所述网络建立所述电子设备100与其它通信终端之间的通信连接,并用于通过所述网络收发数据。
第一实施例
请参考图2,图2示出本发明较佳实施例提供的特征表示迁移学习方法。所述方法可以应用于图1示出的电子设备100中。可选地,所述方法包括:
步骤S101,依据预设的第一网络模型,调整选定的第二网络模型的特征映射接层。
上述第一网络模型可以是从电子设备100中预先存储的多个通过大量数据训练后得到的特征表示能力优异的深度学习网络模型中选中的网络模型。可选地,将该被选中且已被训练好的网络模型作为第一网络模型之前需对其进行初始化处理,即向其导入训练得到的模型参数,使其可以正常被使用。上述第二网络模型为待训练网络模型,该第二网络模即可以是简单结构的网络模型,也可以复杂结构的网络模型。在本实施例中,允许第二网络模型与第一网络模型的结构之间存在差异,即可以是不同类型的网络模型。
在本发明实施例中,依据预设的第一网络模型,调整选定的第二网络模型的特征映射层可以是依据第一网络模型的特征映射层的输出尺寸调整第二网络模型的特征映射层的输出尺寸,以使第二网络模型的特征映射层输出的特征数据长度与所述第一网络模型的特征映射层输出的特征数据长度相同。
可选地,上述特征映射层可以是具备将网络模型的任意层级的输出数据进行映射处理,以得到指定长度的特征数据的层级。例如,特征映射层可以是全连接层、polling层或者pooling层与全连接层之间的组合等,当然此也仅为举例,其还可以是网络模型中具有类似功能的层,例如,回归层和二分类层等。
步骤S102,分别采用第一网络模型与所述第二网络模型对预选的图像数据进行处理。
在本发明实施例中,分别使用第一网络模型与第二网络模型对同一图像数据进行处理。上述第一网络模型包括多个第一数据处理层,上述第二网络模型包括多个第二数据处理层。需要说明的是,第一数据处理层之间互相连接,每一层第一数据处理层具备输入口及输出口,第一数据处理层的输出口与位于其后层级的数据处理层的输入口连接,用于向与该第一数据处理层连接的后层级传递本层的数据处理结果。也就是,在第一网络模型对图像数据进行处理的过程中,每一第一数据处理层的输出口均会向与其连接的后一层级的数据处理层输出,依据该第一数据处理层输入口获得的数据进行处理后得到的处理结果。对于第二网络模型依然,在次不再赘述。进一步地,第一网络模型的特征映射层通常与第一网络模型的多个第一数据处理层中的最后一层(即特征输出层)连接,特征映射层可以将最后一层第一数据处理层的输出口输出的处理结果进行映射处理,例如,特征映射层为全连接层时,可以是将最后一层第一数据处理层的输出口输出的处理结果进行分类处理,以得到第一网络模型的最终输出的特征数据。第二网络模型的特征映射层与第二网络模型的多个第二数据处理层中的最后一层(即特征输出层)连接,同样可以输出第二网络模型的最终输出的特征数据。需要说明的是,上述网络模型为神经网络模型,上述数据处理层可以是其内由多个神经元组成的层。例如,网络模型可以是卷积神经网络模型,上述数据处理层为该卷积神经网络模型中的卷积层。
步骤S103,依据第一网络模型处理图像数据后由对应的特征映射层输出的第一特征及第二网络模型处理所述图像数据由对应的特征映射层输出的第二特征,调整所述第二网络模型的模型参数。
在本发明实施例中,依据得到的第一特征及第二特征对第二网络模型的模型参数不断地调整,使第二网络模型重新对图像数据进行处理后由对应的特征映射层得到的第二特征向第一网络模型对图像数据进行处理后输出的第一特征逼近,直至新得到的第二特征与第一特征之间的欧式距离属于允许范围内。从而使第二网络模型的特征表示能力与所述第一网络模型的特征表示能力之间满足预设要求。需要说明的是,上述特征表示能力可以是网络模型在对图像数据识别过程中对图像数据的识别准确度,可以体现在网络模型输出的最终输出与期望从图像数据提取出的特征的相符程度。上述第二网络模型的特征表示能力与所述第一网络模型的特征表示能力之间满足预设要求可以体现在第二网络模型与第一网络模型在对同一图像数据进行处理时,得到的最终输出数据之间或者是对应的中间层输出的过程特征向量之间的差异在预设的允许范围内。例如,得到的最终输出数据之间的欧式距离之间的差值符合允许范围;得到的对应的中间层输出的过程特征向量之间的余弦相似度在允许范围内。
可选地,第一网络模型对应的特征映射层与第一数据处理层中的第一特征输出层连接,第二网络模型对应的特征映射层与第二数据处理层中的第二特征输出层。在本发明实施例中,上述第一特征可以包括第一特征输出层通过特征映射层输出的第一最终特征数据,上述第二特征可以包括第二特征输出层通过特征映射层输出的第二最终特征数据,上述步骤S103可以是:依据第一最终特征及第二最终特征,调整所述第二网络模型的模型参数。
上述调整第二网络模型的模型参数的方式可以是:根据第一最终特征及第二最终特征,利用BP算法,调整各个第二数据处理层对应的所述模型参数。
作为一种实施方式,上述根据第一最终特征及第二最终特征,利用BP算法,调整各个第二数据处理层对应的所述模型参数的步骤可以是:
(1)计算所述第一最终特征及第二最终特征之间的欧氏距离。
在本发明实施例中,可以根据第一最终特征与第二最终特征,利用公式:
featureA=A(x1,x2,x3,......,xn),
featureB=B(y1,y2,y3,......,yn),及
计算第一最终特征及第二最终特征之间的欧氏距离。其中,featureA为第一最终特征,featureB为第二最终特征。dab代表第一最终特征及第二最终特征之间的欧氏距离。
(2)基于所述欧氏距离,利用所述BP算法反向求导,以调整各个所述第二数据处理层对应的所述模型参数。
在本发明实施例中,将第一最终特征与第二最终特征之间的欧氏距离作为整个第一网络模型的Loss函数,再利用BP算法进行反向求导,使Loss最小化,从而逐步优化各个所述第二数据处理层对应的所述模型参数。
(3)获取调整后的所述第二网络模型处理所述图像数据得到的第二最终特征。
(4)重复计算所述第一最终特征与新获得的所述第二最终特征之间的所述欧氏距离,并利用所述BP算法调整各个所述第二数据处理层对应的所述模型参数,直至所述第一最终特征与所述第二最终特征之间的所述欧氏距离属于允许范围区间内。
可选地,还可以将第一网络数据的特征映射层与从第一网络数据的第一数据处理层中选中的至少一第一中间层连接,将第二网络数据的特征映射层与从第二网络数据的第二数据处理层中确定的至少一第二中间层连接。上述第一中间层与第二中间层是两个网络模型中对应的层级,具体地,与第一中间层对应的第二中间层可以是依据经验值从多个第二数据处理层中确定的与选定的第一中间层匹配的数据处理层。
以采用pooling层与全连接层配合作为特征输出层时,将第一网络数据的特征映射层与第一中间层连接的方式可以是:将第一中间层的输出口通过对应的pooling层与所述第一网络模型的全连接层连接。可选地,先将第一中间层的输出口与pooling层的输入口连接,再将pooling层的输出口与对应的全连接层连接,从而使第一中间层输出的处理结果可以经过pooling层进行降采样处理,再经过全连接层进行分类处理。需要说明的是,将第一中间层与pooling层连接并不影响该第一中间层与其他数据处理层之间原有的连接关系。也就是,第一中间层的输出口输出的数据处理结果会分别发送至pooling层及与该第一中间层的输出口存在连接的其他数据处理层。从而使得将第一中间层的输出数据依次通过对应的所述pooling层及全连接层进行处理,得到第一中间特征数据。需要说明的是,这样通过将中间层输出的数据先过降采样处理,再配合全连接层的分类处理,可以很好的保留该中间层输出数据的丰富性,从而,避免出现相关技术中,在输出尺寸太小时,将输出数据压缩映射到feature mapping造成大量的数据特征丢失,从而出现不精准的问题。
将第二网络数据的特征映射层与第二中间层连接的原理和效果与前述将第一网络数据的特征映射层与第一中间层连接相同,在此不再赘述。
当然,还可以单独采用pooling层、全连接层或者其他特征映射层作为特征映射层,在单独采用pooling层、全连接层或者其他特征映射层作为特征映射层时,仅需直接将其与中间层的输出口连接即可。
进一步地,上述第一特征也可以包括第一中间层通过对应的特征映射层输出的第一中间特征数据,上述第二特征也可以包括第二中间层通过对应的特征映射层输出的第二中间特征数据。
上述步骤S103还可以是:依据第一中间特征数据及第二中间特征数据,调整所述第二网络模型的模型参数。
需要说明的是,上述第一中间特征数据和第二中间特征数据可以是在第一网络模型与第二网络模型分别处理同一图像数据时,由选定的第一中间层通过特征映射层获取第一中间特征数据,由和第一中间层对应的第二中间层通过特征映射层获取第二中间特征数据。
在本发明实施例中,可以是根据所述第一中间特征数据及第二中间特征数据,利用BP算法,调整位于第二中间层以前的各第二数据处理层对应的所述模型参数。需要说明的是,依据第一中间特征数据及第二中间特征数据,调整所述第二网络模型的模型参数的原理与前述依据第一最终特征和第二最终特征调整第二网络模型的模型参数的原理相同,在此不再赘述。
当然可以理解的是,第一特征还可以既包括第一最终特征又包括第一中间特征数据,第二特征还可以既包括第二最终特征又包括第二中间特征数据。也就是上述步骤S103还可以如图3所示,包括子步骤:
子步骤S1031,依据第一最终特征及第二最终特征,调整所述第二网络模型的模型参数。
子步骤S1032,依据第一中间特征数据及第二中间特征数据,调整所述第二网络模型的模型参数。
上述子步骤S1031与子步骤S1032之间没有必然的先后顺序。
在本发明实施例提供的特征表示迁移学习方法,仅需调整第二网络模型的特征映射层输出的特征输出的长度与第一网络模型的特征映射层输出的特征输出的长度相同,即可执行使第二网络模型对第一网络模型的特征表示能力进行迁移学习,无需考虑二者是否属于同类型的网络模型,也无需考虑二者之间的结构差异,从而可以使不同网络模型均可在不经历大量数据训练的前提下,快速具备满足应用需求的特征表示能力。可以使小体积的网络模型得到很好地应用,解决网络模型应用时对系统资源的消耗大的问题。同时,在进行迁移学习的过程中,不仅依据第二网络模型输出的第二最终特征及第一网络模型输出的第一最终特征,对整个第二网络模型的模型参数进行调整,还依据第二网络模型中的第二中间层输出的第二中间特征数据与第一网络模型中的第一中间层输出的第一中间特征数据,对位于第二中间输出层之前的数据处理层的模型参数进行调整,确保调整的精准性。另外,在采用pooling层用于全连接层作为特征映射层,并与中间层连接时,可以实现对中间层输出的数据依次进行降采样处理和分类处理,克服了中间层输出尺寸的限制,避免得到的中间特征数据出现特征丢失。
第二实施例
请参照图4,本发明实施例提供的一种特征表示迁移学习装置200。该特征表示迁移学习装置200应用于电子设备100中。可选地,如图4所示,该特征表示迁移学习装置200包括:第一调整模块201、处理模块202及第二调整模块203。
可选地,上述第一调整模块201,用于依据预设的第一网络模型,调整选定的第二网络模型的特征映射层,以使所述第二网络模型中从所述特征映射层输出的特征数据长度与所述第一网络模型的所述特征映射层输出的特征数据长度相同。优选地,上述特征映射层包括全连接层和pooling层中之一或者之间的组合,当然也还可以是回归层和二分类层等。
可选地,上述处理模块202,用于分别采用第一网络模型与所述第二网络模型对预选的图像数据进行处理。
可选地,上述第二调整模块203,用于依据第一网络模型处理所述图像数据后由对应的特征映射层输出的第一特征及所述第二网络模型处理所述图像数据后由对应的所述特征映射层输出得到的第二特征,调整所述第二网络模型的模型参数,以使所述第二网络模型的特征表示能力与所述第一网络模型的特征表示能力之间满足预设要求。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的特征表示迁移学习装置200的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还揭示了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器112执行时实现本发明前述实施例揭示的特征表示迁移学习方法。
综上所述,本发明实施例提供了一种特征表示迁移学习方法及相关装置。其中,特征表示迁移学习方法包括:依据预设的第一网络模型,调整选定的第二网络模型的特征映射层,以使所述第二网络模型的特征映射层输出的特征数据长度与所述第一网络模型的特征映射层输出的特征数据长度相同;分别采用第一网络模型与所述第二网络模型对预选的图像数据进行处理;依据所述第一网络模型处理所述图像数据后由对应的特征映射层输出的第一特征及所述第二网络模型处理所述图像数据后由对应的所述特征映射层输出得到的第二特征,调整所述第二网络模型的模型参数,以使所述第二网络模型的特征表示能力与所述第一网络模型的特征表示能力之间满足预设要求。也就是,即使第一网络模型与第二网络模型结构之间差异较大,无需进行大量的数据训练即可使第二网络模型也具备与第一网络模型一样优异的特征表达能力。另外,即便第二网络模型的结构简单也不影响其获得优异的特征表达能力,从而可以在满足产品性能的同时有效减小网络模型的系统开销。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

Claims (10)

1.一种特征表示迁移学习方法,其特征在于,所述方法包括:
依据预设的第一网络模型,调整选定的第二网络模型的特征映射层,以使所述第二网络模型中从所述特征映射层输出的特征数据长度与所述第一网络模型的所述特征映射层输出的特征数据长度相同;所述第二网络模型是待训练网络模型;所述第一网络模型对图像数据的识别准确度高;
分别采用第一网络模型与所述第二网络模型对预选的图像数据进行处理;
依据所述第一网络模型处理所述图像数据后由对应的特征映射层输出的第一特征及所述第二网络模型处理所述图像数据后由对应的所述特征映射层输出得到的第二特征,调整所述第二网络模型的模型参数,以使所述第二网络模型的特征表示能力与所述第一网络模型的特征表示能力之间满足预设要求;
调整后的第二网络模型用于得到所述预选的图像数据对应的最终输出数据或者过程特征向量;其中,所述调整后的第二网络模型得到的最终输出数据或者过程特征向量和所述第一网络模型处理所述预选的图像数据得到的最终输出数据或者过程特征向量之间的差异在预设的允许范围内。
2.如权利要求1所述的方法,其特征在于,所述第一网络模型包括多个第一数据处理层,所述第二网络模型包括多个第二数据处理层;在所述第一网络模型对应的特征映射层与所述第一数据处理层中的第一特征输出层连接,所述第二网络模型对应的特征映射层与所述第二数据处理层中的第二特征输出层时,所述依据所述第一网络模型处理所述图像数据后由对应的特征映射层输出的第一特征及所述第二网络模型处理所述图像数据后由对应的所述特征映射层输出得到的第二特征,调整所述第二网络模型的模型参数包括:
依据所述第一特征输出层通过特征映射层输出的第一最终特征及所述第二特征输出层通过特征映射层输出的第二最终特征,调整所述第二网络模型的模型参数。
3.如权利要求2所述的方法,其特征在于,所述依据所述第一特征输出层通过特征映射层输出的第一最终特征及所述第二特征输出层通过特征映射层输出的第二最终特征,调整所述第二网络模型的模型参数的步骤包括:根据所述第一最终特征及第二最终特征,利用BP算法,调整各个所述第二数据处理层对应的所述模型参数。
4.如权利要求3所述的方法,其特征在于,所述根据所述第一最终特征及第二最终特征,利用BP算法,调整各个所述第二数据处理层对应的所述模型参数的步骤包括:
计算所述第一最终特征及第二最终特征之间的欧氏距离;
基于所述欧氏距离,利用所述BP算法反向求导,以调整各个所述第二数据处理层对应的所述模型参数;
获取调整后的所述第二网络模型处理所述图像数据得到的第二最终特征;
重复计算所述第一最终特征与新获得的所述第二最终特征之间的所述欧氏距离,并利用所述BP算法调整各个所述第二数据处理层对应的所述模型参数,直至所述第一最终特征与所述第二最终特征之间的所述欧氏距离属于允许范围区间内。
5.如权利要求1所述的方法,其特征在于,所述第一网络模型包括多个第一数据处理层,所述第二网络模型包括多个第二数据处理层;在所述第一网络模型对应的特征映射层与所述第一数据处理层中的第一中间层连接,所述第二网络模型对应的特征映射层与所述第二数据处理层中的第二中间层时,所述依据所述第一网络模型处理所述图像数据后由对应的特征映射层输出的第一特征及所述第二网络模型处理所述图像数据后由对应的所述特征映射层输出得到的第二特征,调整所述第二网络模型的模型参数包括:
依据所述第一中间层通过特征映射层输出的第一中间特征数据及所述第二中间层通过特征映射层输出的第二最终特征,调整所述第二网络模型的模型参数;
其中,所述第一中间层与第二中间层对应。
6.如权利要求5所述的方法,其特征在于,依据所述第一中间层通过特征映射层输出的第一中间特征数据及所述第二中间层通过特征映射层输出的第二最终特征,调整所述第二网络模型的模型参数的步骤包括:根据所述第一中间特征数据及第二中间特征数据,利用BP算法,调整位于所述第二中间层以前的各第二数据处理层对应的所述模型参数。
7.如权利要求1所述的方法,其特征在于,所述特征映射层包括全连接层和pooling层中之一或者之间的组合。
8.一种特征表示迁移学习装置,其特征在于,所述特征表示迁移学习装置包括:
第一调整模块,用于依据预设的第一网络模型,调整选定的第二网络模型的特征映射层,以使所述第二网络模型中从所述特征映射层输出的特征数据长度与所述第一网络模型的所述特征映射层输出的特征数据长度相同;所述第二网络模型是待训练网络模型;所述第一网络模型对图像数据的识别准确度高;
处理模块,用于分别采用第一网络模型与所述第二网络模型对预选的图像数据进行处理;
第二调整模块,用于依据所述第一网络模型处理所述图像数据后由对应的特征映射层输出的第一特征及所述第二网络模型处理所述图像数据后由对应的所述特征映射层输出得到的第二特征,调整所述第二网络模型的模型参数,以使所述第二网络模型的特征表示能力与所述第一网络模型的特征表示能力之间满足预设要求;
调整后的第二网络模型用于得到所述预选的图像数据对应的最终输出数据或者过程特征向量;其中,所述调整后的第二网络模型得到的最终输出数据或者过程特征向量和所述第一网络模型处理所述预选的图像数据得到的最终输出数据或者过程特征向量之间的差异在预设的允许范围内。
9.如权利要求8所述的装置,其特征在于,所述特征映射层包括全连接层和pooling层中之一或者之间的组合。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该些计算机指令被处理器执行时实现权利要求1至权利要求7中任意一项所述方法的步骤。
CN201811269655.3A 2018-10-29 2018-10-29 特征表示迁移学习方法及相关装置 Active CN111105020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811269655.3A CN111105020B (zh) 2018-10-29 2018-10-29 特征表示迁移学习方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811269655.3A CN111105020B (zh) 2018-10-29 2018-10-29 特征表示迁移学习方法及相关装置

Publications (2)

Publication Number Publication Date
CN111105020A CN111105020A (zh) 2020-05-05
CN111105020B true CN111105020B (zh) 2024-03-29

Family

ID=70420315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811269655.3A Active CN111105020B (zh) 2018-10-29 2018-10-29 特征表示迁移学习方法及相关装置

Country Status (1)

Country Link
CN (1) CN111105020B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017206936A1 (zh) * 2016-06-02 2017-12-07 腾讯科技(深圳)有限公司 基于机器学习的网络模型构造方法及装置
CN108229651A (zh) * 2017-11-28 2018-06-29 北京市商汤科技开发有限公司 神经网络模型迁移方法和系统、电子设备、程序和介质
CN108460455A (zh) * 2018-02-01 2018-08-28 成都小多科技有限公司 模型处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017206936A1 (zh) * 2016-06-02 2017-12-07 腾讯科技(深圳)有限公司 基于机器学习的网络模型构造方法及装置
CN108229651A (zh) * 2017-11-28 2018-06-29 北京市商汤科技开发有限公司 神经网络模型迁移方法和系统、电子设备、程序和介质
CN108460455A (zh) * 2018-02-01 2018-08-28 成都小多科技有限公司 模型处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度学习混合模型迁移学习的图像分类;石祥滨;房雪键;张德园;郭忠强;;系统仿真学报(01);全文 *
基于深度迁移学习的烟雾识别方法;王文朋;毛文涛;何建樑;窦智;;计算机应用(11);全文 *

Also Published As

Publication number Publication date
CN111105020A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111091199B (zh) 一种基于差分隐私的联邦学习方法、装置及存储介质
WO2022033072A1 (zh) 一种面向知识图谱表示学习训练的局部训练方法
CN108876796A (zh) 一种基于全卷积神经网络和条件随机场的道路分割系统及方法
CN113468227B (zh) 基于图神经网络的信息推荐方法、系统、设备和存储介质
WO2021089013A1 (zh) 空间图卷积网络的训练方法、电子设备及存储介质
WO2022105117A1 (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN111488985A (zh) 深度神经网络模型压缩训练方法、装置、设备、介质
CN109086753B (zh) 基于双通道卷积神经网络的交通标志识别方法、装置
EP3620982B1 (en) Sample processing method and device
CN114283350B (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
CN110956263A (zh) 一种二值化神经网络的构建方法、存储介质及终端设备
CN107239532B (zh) 数据挖掘方法及装置
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
CN112348079B (zh) 数据降维处理方法、装置、计算机设备及存储介质
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN110276283B (zh) 图片识别方法、目标识别模型训练方法及装置
CN111105020B (zh) 特征表示迁移学习方法及相关装置
CN116958626A (zh) 一种图像分类模型训练、图像分类方法、装置及电子设备
CN115344698A (zh) 标签处理方法、装置、计算机设备、存储介质和程序产品
CN111428741B (zh) 网络社区的发现方法、装置、电子设备及可读存储介质
CN113807370A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN110717359B (zh) 基于数理统计的反向传播优化方法、装置及电子设备
CN111382246B (zh) 文本的匹配方法、匹配装置、终端及计算机可读存储介质
CN110929118A (zh) 网络数据处理方法、设备、装置、介质
CN111400413A (zh) 一种确定知识库中知识点类目的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant