CN114548382B - 迁移训练方法、装置、设备、存储介质及程序产品 - Google Patents

迁移训练方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN114548382B
CN114548382B CN202210436862.3A CN202210436862A CN114548382B CN 114548382 B CN114548382 B CN 114548382B CN 202210436862 A CN202210436862 A CN 202210436862A CN 114548382 B CN114548382 B CN 114548382B
Authority
CN
China
Prior art keywords
target
data
extraction network
target data
source data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210436862.3A
Other languages
English (en)
Other versions
CN114548382A (zh
Inventor
徐列
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210436862.3A priority Critical patent/CN114548382B/zh
Publication of CN114548382A publication Critical patent/CN114548382A/zh
Application granted granted Critical
Publication of CN114548382B publication Critical patent/CN114548382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种迁移训练方法、装置、设备、存储介质及程序产品,涉及机器学习领域。该方法包括:获取源数据集和目标数据集;基于至少两个特征提取网络构建得到迁移模型,其中包括独立提取网络和共享提取网络,独立提取网络包括结构相同且并行的第一独立提取网络和第二独立提取网络;通过源数据与目标数据对迁移模型进行训练,得到目标模型,目标模型用于将源数据集对应的特征提取网络的学习模式进行调整后,迁移至目标数据的分析过程中。通过以上方式,能够更好地平衡源数据集和目标数据集之间的差异性,对目标数据进行更精准、更高效地分析。本申请可应用于云技术、人工智能、智慧交通等各种场景。

Description

迁移训练方法、装置、设备、存储介质及程序产品
技术领域
本申请实施例涉及机器学习领域,特别涉及一种迁移训练方法、装置、设备、存储介质及程序产品。
背景技术
为了降低对数据分析的复杂性,有时可以利用数据之间的关联性,借助较为完善的源数据集,对标签较少的目标数据集进行分析。
相关技术中,通常采用迁移训练方法,借助较为完善的源数据集,对大量缺少标签的目标数据集进行迁移学习,从而减少对目标数据集中标签进行标注所耗费的人力和时间。
然而,在有些情况下,待进行分析的目标数据集中的数据较少,例如:目标数据集为存储珍稀数据的集合(如:珍稀动物的影像数据集合等),目标数据集中的数据数量与较完善的源数据中的数据数量的比例严重不均衡,使得上述常规迁移学习方法较难进行,从而无法对目标数据集进行有效分析。
发明内容
本申请实施例提供了一种迁移训练方法、装置、设备、存储介质及程序产品,能够更好地平衡源数据集和目标数据集之间的差异性,通过目标模型对目标数据进行更精准、更高效地分析。所述技术方案如下。
一方面,提供了一种迁移训练方法,所述方法包括:
获取源数据集和目标数据集,所述源数据集中存储有源数据,所述目标数据集中存储有目标数据;
基于至少两个特征提取网络构建得到迁移模型,所述至少两个特征提取网络由所述源数据训练得到,所述迁移模型中包括独立提取网络和共享提取网络,所述独立提取网络包括结构相同且并行的第一独立提取网络和第二独立提取网络;其中,所述第一独立提取网络用于对所述源数据进行特征提取,所述第二独立提取网络用于对所述目标数据进行特征提取;所述共享提取网络用于对所述独立提取网络的特征提取结果进行综合分析;
通过所述源数据与所述目标数据对所述迁移模型进行训练,得到目标模型,所述目标模型用于将所述源数据集对应的至少两个特征提取网络的学习模式进行调整后,迁移至对所述目标数据的分析过程中。
另一方面,提供了一种迁移训练装置,所述装置包括:
获取模块,用于获取源数据集和目标数据集,所述源数据集中存储有源数据,所述目标数据集中存储有目标数据;
构建模块,用于基于至少两个特征提取网络构建得到迁移模型,所述至少两个特征提取网络由所述源数据训练得到,所述迁移模型中包括独立提取网络和共享提取网络,所述独立提取网络包括结构相同且并行的第一独立提取网络和第二独立提取网络;其中,所述第一独立提取网络用于对所述源数据进行特征提取,所述第二独立提取网络用于对所述目标数据进行特征提取;所述共享提取网络用于对所述独立提取网络的特征提取结果进行综合分析;
训练模块,用于通过所述源数据与所述目标数据对所述迁移模型进行训练,得到目标模型,所述目标模型用于将所述源数据集对应的至少两个特征提取网络的学习模式进行调整后,迁移至对所述目标数据的分析过程中。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述迁移训练方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的迁移训练方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的迁移训练方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
以源数据训练得到的至少两个特征提取网络构建得到迁移模型,迁移模型中包括分别对源数据和目标数据进行分析的独立提取网络,以及对源数据和目标数据进行综合分析的共享提取网络;通过源数据和目标数据对迁移模型进行训练,从而得到目标模型。通过上述方法,可以在考虑源数据和目标数据之间的相关性的基础上,确定对源数据和目标数据进行分别分析的独立提取网络,以及对源数据和目标数据进行综合分析的共享提取网络,从而平衡源数据集和目标数据集的差异性和迁移性,还可以通过对源数据以及目标数据进行分别分析和综合分析后,逐步将源数据训练得到的至少两个特征提取网络的学习模式迁移至针对目标数据集的目标模型上,从而利用目标模型,对目标数据进行更精准、更高效地分析,避免由于目标数据的数据量较少,而无法得到能够较好分析目标数据的目标模型的过程,还可以有效降低在开发目标数据集时的开发成本和周期。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的实施环境示意图;
图2是本申请一个示例性实施例提供的迁移训练方法的流程图;
图3是本申请一个示例性实施例提供的源数据训练的特征提取网络的示意图;
图4是本申请一个示例性实施例提供的迁移模型示意图;
图5是本申请另一个示例性实施例提供的迁移训练方法的流程图;
图6是本申请另一个示例性实施例提供的迁移训练方法的流程图;
图7是本申请另一个示例性实施例提供的迁移模型示意图;
图8是本申请另一个示例性实施例提供的迁移训练方法的流程图;
图9是本申请另一个示例性实施例提供的迁移模型示意图;
图10是本申请一个示例性实施例提供目标数据训练得到目标模型的示意图;
图11是本申请一个示例性实施例提供的迁移训练装置的结构框图;
图12是本申请另一个示例性实施例提供的迁移训练装置的结构框图;
图13是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,针对本申请实施例中涉及的名词进行简单介绍。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
相关技术中,通常采用迁移训练方法,借助较为完善的源数据集,对大量缺少标签的目标数据集进行迁移学习,从而减少对目标数据集中标签进行标注所耗费的人力和时间。然而,在有些情况下,待进行分析的目标数据集中的数据较少,例如:目标数据集为存储珍稀数据的集合(如:珍稀动物的影像数据集合等),目标数据集中的数据数量与较完善的源数据中的数据数量的比例严重不均衡,使得上述常规迁移学习方法较难进行,从而无法对目标数据集进行有效分析。
本申请实施例中,提供了一种迁移训练方法,能够更好地平衡源数据集和目标数据集之间的差异性,通过目标模型对目标数据进行更精准、更高效地分析。针对本申请训练得到的迁移训练方法,在应用时包括如下场景中的至少一种。
一、应用于图像分析场景下
示意性的,图像源数据集中存储有大量图像源数据,不同的图像源数据对应有源数据标签,通过源数据对应的特征提取网络,可以对图像源数据集中存储的图像源数据进行有效分析。图像目标数据集中存储有少量图像目标数据,图像目标数据集与图像源数据集存在一定的关联关系,如:图像源数据与图像目标数据均存储有动物领域的图像数据,但图像源数据所对应的动物图像较为常见(如:猫、狗等图像数据),图像目标数据所对应的动物图像较为罕见(如:珍稀动物的图像数据),当对图像目标数据集进行分析时,由于图像目标数据集中存储的图像目标数据数量较少,分析效果较差。采用上述迁移训练方法,基于源数据对应的特征提取网络,组成独立提取网络和共享提取网络,以独立提取网络对图像源数据和图像目标数据分别进行特征提取,并以共享提取网络对独立提取网络对应的特征提取结果进行深层次的综合特征分析(如:语义分析),进而基于分析结果得到能够对图像目标数据进行更精准分析的目标模型。经过对源数据对应的特征提取网络进行上述迁移训练过程,使得训练得到的目标模型拥有更好的迁移学习效果,从而可以对图像目标数据进行更准确地分析。
二、应用于医学数据分析场景下
示意性的,医学领域下可以细化出更多的子领域,如:药学领域、内科领域等,一个大范围领域下的多个子领域之间具有相关性,可以利用迁移学习方法,将不同领域之间的学习模式进行迁移,从而可以利用一个或者多个领域的知识,更高效地学习到其他相关领域的知识。然而,当待分析的子领域的知识标签较少,知识迁移的难度以及精度都会大幅下降。采用上述迁移训练方法,基于源数据(研究较为细化的子领域数据)对应的特征提取网络,考虑源数据与待分析的目标数据之间的相关性,组成独立提取网络和共享提取网络,以独立提取网络对源数据和目标数据分别进行特征提取,并以共享提取网络对独立提取网络对应的特征提取结果进行深层次的综合特征分析,进而基于分析结果得到能够对目标数据进行更精准分析的目标模型,从而实现将源数据对应的学习模式进行调整后,迁移至对目标数据进行分析的过程,得到可以目标数据进行更准确分析的目标模型。
值得注意的是,上述应用场景仅为示意性的举例,本实施例提供的迁移训练方法还可以应用于其他场景中,本申请实施例对此不加以限定。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的源数据、目标数据等都是在充分授权的情况下获取的。
其次,对本申请实施例中涉及的实施环境进行说明,示意性的,请参考图1,该实施环境中涉及终端110、服务器120,终端110和服务器120之间通过通信网络130连接。
在一些实施例中,终端110用于向服务器120发送源数据和目标数据。在一些实施例中,终端110中安装有具有数据获取功能的应用程序,以获取得到源数据和目标数据。
本申请实施例提供的迁移训练方法可以由终端110单独执行实现,也可以由服务器120执行实现,或者由终端110和服务器120通过数据交互实现,本申请实施例对此不加以限定。本实施例中,终端110通过具有数据获取功能的应用程序获取源数据和目标数据后,向服务器120发送获取得到的源数据和目标数据,示意性的,以服务器120对源数据和目标数据进行分析为例进行说明。
可选地,服务器120在接收到终端110发送的源数据和目标数据后,首先基于源数据训练得到的至少两个特征提取网络,构建得到迁移模型121。其中,迁移模型121包括独立提取网络122和共享提取网络123,独立提取网络122包括结构相同且并行的第一独立提取网络1221和第二独立提取网络1222,第一独立提取网络1221用于对源数据进行分析,第二独立提取网络1222用于对目标数据进行分析,共享提取网络123用于对独立提取网络的特征提取结果进行综合分析。示意性的,通过源数据与目标数据对迁移模型121进行训练,得到目标模型124,从而将源数据集对应的至少两个特征提取网络的学习模式进行调整后,迁移至对目标数据的分析过程中。
示意性的,基于目标模型124,可以对目标数据进行更精准地分析,从而得到对目标数据的分析结果。可选地,服务器120将目标数据的分析结果发送至终端110,由终端110对目标数据的分析结果进行显示。
值得注意的是,上述终端包括但不限于手机、平板电脑、便携式膝上笔记本电脑、智能语音交互设备、智能家电、车载终端等移动终端,也可以实现为台式电脑等;上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、应用程序、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,上述服务器还可以实现为区块链系统中的节点。
结合上述名词简介和应用场景,对本申请提供的迁移训练方法进行说明,以该方法应用于服务器为例,如图2所示,该方法包括如下步骤210至步骤230。
步骤210,获取源数据集和目标数据集。
其中,源数据集中存储有源数据,目标数据集中存储有目标数据。
可选地,源数据集中的源数据标注有源数据标签,且源数据集中源数据的数量充足。
示意性的,源数据集为动物图像数据集,该动物图像数据集中存储有大量动物图像,不同的动物图像对应标注有图像标签,用于指示动物图像所对应的动物种类。例如:狗的图像标注有图像标签“狗”;猫的图像标注有图像标签“猫”等。
可选地,目标数据集中的目标数据标注有目标数据标签。相较源数据集,目标数据集中的目标数据数量较少。例如,目标数据集为动物图像数据集,该动物图像数据集用于存储珍稀动物图像。
示意性的,在目标数据集中,至少一个目标数据标注有目标数据标签,也即,根据目标数据集中目标数据的标签标注情况,目标数据集包括如下至少两种类型:(1)目标数据集中的目标数据均标注有目标数据标签;(2)目标数据集中的目标数据部分标注有目标数据标签,部分未标注有目标数据标签。
例如:目标数据集中存储有珍稀动物图像,其中,珍稀动物A对应的图像数据标注有数据标签a;珍稀动物B对应的图像数据标注有数据标签b;珍稀动物C未标注有数据标签等。
可选地,源数据集和目标数据集存在一定的关联关系。示意性的,源数据集中的源数据与目标数据集中的目标数据属于相似类型的数据。例如:源数据集为上述动物图像数据集,目标数据集为上述珍稀动物图像数据集,动物图像数据集与珍稀动物图像数据集存储的图像均为动物图像,则源数据集和目标数据集存在一定的关联关系;或者,源数据集为大型图像数据集,其中存储的源数据为各种类型的图像(动物图像、植物图像、建筑图像等),目标数据集为上述珍稀动物图像数据集,动物图像数据集与珍稀动物图像数据集均存储有动物图像,则源数据集和目标数据集存在一定的关联关系等。
步骤220,基于至少两个特征提取网络构建得到迁移模型。
其中,至少两个特征提取网络由源数据训练得到。
在一个可选的实施例中,在获取源数据集和目标数据集之后,将源数据集中的源数据输入顺次连接的至少两个候选特征提取网络,确定源数据对应的源数据提取结果。
可选地,如图3所示,为采用源数据集训练得到至少两个特征提取网络的示意图。其中,至少两个候选特征提取网络对应至少两个基础模块,至少两个候选特征提取网络顺次连接,也即,至少两个基础模块顺次连接。
例如:基础模块代指常用的卷积结构,不具体指代某一固定类型的卷积结构。示意性的,基础模块对应有卷积层、激活层、批归一化层,卷积层用来提取图像的特征;激活层用于提供网络的非线性建模能力,从而增加特征提取网络的非线性分析能力;批归一化层用于加快模型的训练速度,防止模型过拟合。
示意性的,将源数据集中的源数据310输入第一个基础模块320中,经过第一个基础模块320对应的卷积层、激活层以及批归一化层后,将第一个基础模块320的输出作为第二个基础模块330的输入,并依次类推,使得源数据310经过N个基础模块。
示意性的,在将源数据310经过N个基础模块后,确定第N个基础模块的输出结果,将该输出结果作为源数据对应的源数据提取结果。
在一个可选的实施例中,以源数据提取结果和源数据对应的源数据标签之间的差异,对候选特征提取网络进行训练,得到顺次连接的至少两个特征提取网络。
示意性的,第N个基础模块输出的源数据提取结果为对源数据进行预测分析后的分析结果,将该源数据提取结果和源数据对应的源数据标签进行差异分析。例如,通过损失函数340,计算源数据提取结果与源数据对应的源数据标签之间的损失值,从而通过损失值,对候选特征提取网络进行训练。
可选地,在通过损失值对候选特征提取网络进行训练时,包括如下至少一种训练方式。
(1)直接通过损失值,对候选特征提取网络进行训练。
示意性的,在确定源数据提取结果与源数据标签之间的损失值后,以最小化损失值为目标,采用梯度下降的方法,逐渐调整损失函数对应的参数值,从而在损失值达到目标时,结束对候选特征提取网络的训练过程。例如:当损失值达到最小时(如:当前损失值与最近一次损失值相同),结束对候选特征提取网络的训练过程;或者,当损失值的计算次数达到计算次数阈值时,结束对候选特征提取网络的训练过程等。
(2)将损失值进行梯度回传后,以更新候选特征提取网络对应的网络权重的方式,对候选特征提取网络进行训练。
示意性的,如图3所示,将损失值进行梯度回传350。梯度回传350为反向传播,用于将损失值反向传播至每一个候选特征提取网络,使得每一个候选特征提取网络根据损失值反向调整权重。在反向传播的过程中,每一个候选特征对应的权重改变,会使得损失函数对应的速度发生改变,也即,每一个候选特征对应的权重改变,会使得多个顺次连接的候选特征提取网络的整体表现发生改变。
可选地,通过梯度回传方法,确定不同的候选特征提取网络在不同权重下,损失函数所对应的梯度结果,通过梯度结果可以更好地反馈最优化方法,从而对不同的候选特征提取网络的权重进行更新,以最小化损失函数,更快地实现对候选特征提取网络的训练过程。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。
示意性的,在得到源数据训练的至少两个特征提取网络后,基于至少两个特征提取网络,构建得到迁移模型。
在一个可选的实施例中,迁移模型中包括独立提取网络和共享提取网络。
其中,独立提取网络是指对源数据和目标数据分别进行分析的网络,共享提取网络是指对源数据和目标数据进行综合分析的网络。独立提取网络和共享提取网络,均是基于特征提取网络所得到的。
可选地,独立提取网络包括结构相同且并行的第一独立提取网络和第二独立提取网络,其中,第一独立提取网络用于对源数据进行特征提取;第二独立提取网络用于对目标数据进行特征提取。
示意性的,如图4所示,为迁移模型的一个示意性示意图。其中,独立提取网络410包括第一独立提取网络411和第二独立提取网络412,组成第一独立提取网络411和第二独立提取网络412的特征提取网络是相同的,且第一独立提取网络411和第二独立提取网络412在迁移模型的独立提取网络中,呈现为并行状态。示意性的,第一独立提取网络411用于对源数据420进行分析。例如:将源数据集中的源数据420输入(依次输入或者分批输入等)第一独立提取网络411中的基础模块1中,在基础模块1对源数据420进行分析后,将对源数据420的分析结果作为基础模块2的输入,并依次进行上述操作。
第二独立提取网络412用于对目标数据430进行分析。例如:将源数据集中的目标数据430输入(依次输入或者分批输入等)第二独立提取网络412中的基础模块1中,在基础模块1对目标数据进行分析后,将对目标数据的分析结果作为基础模块2的输入,并依次进行上述操作。
其中,第一独立提取网络411中的基础模块1与第二独立提取网络412中的基础模块1是相同的基础模块,且为源数据训练得到的至少两个特征提取网络中的一个特征提取网络。例如:在源数据训练得到的三个顺次连接的特征提取网络中,将顺次连接中第一个(顺序)特征提取网络作为基础模块1。可选地,将顺次连接中第一个特征提取网络作为第一独立提取网络411中的基础模块1,并对顺次连接中第一个特征提取网络进行复制操作,得到与第一个特征提取网络结构相同的另一个特征提取网络,并将该特征提取网络作为第二独立提取网络412中的基础模块1。
在一个可选的实施例中,迁移模型中的共享提取网络,用于对独立提取网络的特征提取结果进行综合分析。
示意性的,如图4所示,共享提取网络440接在独立提取网络410之后,也即,将第一独立提取网络411和第二独立提取网络412汇总后,接入共享提取网络440,由共享提取网络440对独立提取网络的特征提取结果进行综合分析,示意性的,源数据训练的特征提取网络为N个,共享提取网络440中包括n个特征提取网络,则第一独立提取网络411和第二独立提取网络412各自具有相同且并行的N-n个特征提取网络。
值得注意的是,以上仅为示意性的举例,本申请对此不加以限定。
步骤230,通过源数据与目标数据对迁移模型进行训练,得到目标模型。
示意性的,通过迁移模型对源数据和目标数据进行分析,确定源数据分析结果以及目标数据分析结果,以源数据分析结果以及目标数据分析结果对迁移模型进行训练,得到目标模型。
在一个可选的实施例中,源数据对应标注有源数据标签,目标数据对应标注有目标数据标签,根据源数据分析结果与源数据标签之间的差异,以及目标数据分析结果与目标数据标签之间的差异,对迁移模型进行训练,进而得到目标模型。
其中,目标模型是对迁移模型进行训练得到的模型结构。可选地,目标模型用于将源数据集对应的至少两个特征提取网络的学习模式进行调整后,迁移至对目标数据的分析过程中。
示意性的,经过源数据集训练得到的至少两个特征提取网络,可以对源数据集中的源数据进行较为精准的分析,例如:至少两个特征提取网络运用与源数据对应的学习模式,对源数据进行分析。
可选地,源数据集中的源数据与目标数据集中的目标数据存在一定的关联性,当目标数据集中存储的目标数据的数量较少时,对目标数据进行分析的分析结果较差,基于源数据集与目标数据集的关联关系,对源数据集对应的至少两个特征提取网络的学习模式进行调整,使得调整后的至少两个特征提取网络更适宜对目标数据进行分析。以上仅为示意性的举例,本申请对此不加以限定。
在一个可选的实施例中,目标模型用于对图像进行分类预测。
可选地,在得到目标模型之后,从目标数据集中获取目标图像数据;将目标图像数据输入目标模型中,由目标模型对目标图像数据进行分类预测,得到目标图像数据对应的预测类别;将预测类别作为目标图像数据对应的分类识别结果。
示意性的,目标数据集中包括目标图像数据,例如:目标图像数据为珍稀动物图像数据。在从目标数据集中获取目标图像数据后,将目标图像数据输入到经过上述迁移训练方法训练得到的目标模型中,由目标模型对目标图像数据进行分类预测,例如:将预测珍稀动物图像数据O输入上述目标模型后,由目标模型预测珍稀动物图像数据O属于“食蟹猴”图像或者“金丝猴”图像,并将对珍稀动物图像数据O进行预测后的预测类别,作为珍稀动物图像数据O对应的分类识别结果,例如:对珍稀动物图像数据O进行分类预测后,确定珍稀动物图像数据O属于“食蟹猴”图像,则将“食蟹猴”作为珍稀动物图像数据O对应的分类识别结果,也即,预测珍稀动物图像数据O所对应的动物为“食蟹猴”。
在一个可选的实施例中,在得到目标模型之后,从目标数据集中获取得到未标注有图像标签的目标图像数据。
示意性的,目标数据集中包括部分标注有数据标签的目标图像数据以及部分未标注有数据标签的目标图像数据,从目标数据集中获取得到未标注有数据标签的目标数据,并将目标图像数据输入目标模型中,由目标模型对目标图像数据进行分类识别,得到目标图像数据对应的预测类别。
可选地,在预测得到目标图像数据对应的预测类别后,将预测类别作为目标图像数据对应的图像标签。
例如:目标模型对珍稀动物图像数据P(目标图像数据)预测得到的预测类别为“食蟹猴”,则将“食蟹猴”作为未标注有数据标签的珍稀动物图像数据P的数据标签,从而为未标注有数据标签的目标图像数据赋予预测精准度较高的数据标签,实现赋标签过程。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。
综上所述,以源数据训练得到的至少两个特征提取网络构建得到迁移模型,迁移模型中包括分别对源数据和目标数据进行分析的独立提取网络,以及对源数据和目标数据进行综合分析的共享提取网络;通过源数据和目标数据对迁移模型进行训练,从而得到目标模型。通过上述方法,可以在考虑源数据和目标数据之间的相关性的基础上,确定对源数据和目标数据进行分别分析的独立提取网络,以及对源数据和目标数据进行综合分析的共享提取网络,从而平衡源数据集和目标数据集的差异性和迁移性,还可以通过对源数据以及目标数据进行分别分析和综合分析后,逐步将源数据训练得到的至少两个特征提取网络的网络信息学习模式迁移至针对目标数据集的目标模型上,从而利用目标模型,对目标数据进行更精准、更简单高效地分析,避免由于目标数据的数据量较少,而无法得到能够较好分析目标数据的目标模型的过程,还可以有效降低在开发目标数据集时的开发成本和周期。
在一个可选的实施例中,在通过至少两个特征提取网络构建迁移模型时,首先分析至少两个特征提取网络之间与目标数据之间的关系,进而确定迁移模型中独立提取网络以及共享提取网络中特征提取网络的构成情况。示意性的,如图5所示,上述图2所示出的实施例中的步骤220还可以实现为如下步骤510至步骤530。
步骤510,基于至少两个特征提取网络的排列次序,从最后一个特征提取网络开始,向前选取至少一个特征提取网络组成共享提取网络。
示意性的,至少两个特征提取网络是顺次排列的特征提取网络,在从至少两个特征提取网络中确定共享提取网络时,基于至少两个特征提取网络的排列次序,从排列次序为最后一个的特征提取网络开始,向前选取n个特征提取网络,并组成特征提取网络。
可选地,组成共享提取网络的特征提取网络的取值既包括随机选取的数值,也包括预先设定的数据,示意性的,当组成共享提取网络中特征提取网络的数值是预先设定的,确定特征提取网络的数值方法如下所示。
在一个可选的实施例中,基于至少两个特征提取网络的排列次序,固定至少两个特征提取网络中的后m个特征提取网络。
其中,m为正整数。示意性的,在得到顺次排列的至少两个特征提取网络后,为了判断在共享提取网络中包括多少特征提取网络时,迁移模型的预测效果更好,将至少两个特征提取网络中的后m个特征提取网络进行固定。
可选地,m的取值大于等于0,且小于等于特征提取网络的数量。例如:特征提取网络的数量为N个,则m的取值范围为m = 0,1,2,…,N。也即,对于m取不同值的情况分别进行分析。
示意性的,特征提取网络的数量为10个,当m取值为1时,则基于10个特征提取网络的排列次序,将最后一个特征提取网络进行固定,实现固定后1个特征提取网络的过程;或者,当m取值为4时,则基于10个特征提取网络的排列次序,将最后四个特征提取网络进行固定,实现固定的后4个特征提取网络的过程。
在一个可选的实施例中,以目标数据集中的目标数据,对至少两个特征提取网络中除后m个特征提取网络以外的特征提取网络进行训练,得到训练预测结果。
示意性的,在将至少两个特征提取网络中的后m个特征提取网络进行固定后,通过目标数据集中的目标数据,对除后m个特征提取网络以外的特征提取网络进行训练。
例如:特征提取网络的数量为N个,则在将至少两个特征提取网络中的后m个特征提取网络进行固定后,除后m个特征提取网络以外的特征提取网络的数量为N-m个,且N-m个特征提取网络的排列顺序为:从第一个特征提取网络开始,至第N-m个特征提取网络结束。
示意性的,采用目标数据集中的目标数据,对顺次排列的N个特征提取网络中前N-m个特征提取网络进行训练,并确定对前N-m个特征提取网络进行训练后的训练预测结果。例如:特征提取网络的数量为10个,当m取值为4时,则基于10个特征提取网络的排列次序,将最后四个特征提取网络进行固定,并以目标数据集中的目标数据,对前6(10-4)个特征提取网络进行训练,由此确定对前6个特征提取网络进行训练的训练预测结果。
在一个可选的实施例中,响应于训练预测结果与目标数据对应标注的目标数据标签之间的差异值符合训练条件,确定后m个特征提取网络组成的共享提取网络。
示意性的,在确定训练预测结果后,将训练预测结果与目标数据对应的目标数据标签进行差异值确定,并分别记录被固定的特征提取网络为不同数值时,不同数值所对应的差异值情况。例如:特征提取网络的数量为10个,当被固定的特征提取网络为最后1个特征提取网络时,确定目标数据对前9个特征提取网络进行训练后,训练预测结果与目标数据对应标注的目标数据标签之间差异值情况;当被固定的特征提取网络为最后4个特征提取网络时,确定目标数据对前6个特征提取网络进行训练后,训练预测结果与目标数据对应标注的目标数据标签之间差异值情况等。
可选地,对m取不同值的情况依次进行分析,例如:特征提取网络的数量为N个,则对m取N种不同值的情况依次进行分析。示意性的,当m为0时,用于指示被作为共享提取网络中特征提取网络的数量为0,即迁移模型中不存在共享提取网络;当m为10时,用于指示被作为共享提取网络中特征提取网络的数量为10,即迁移模型中仅存在共享提取网络,不存在独立提取网络等。
示意性的,差异值达到训练条件用于指示训练预测结果与目标数据对应标注的目标数据标签之间的差异值符合预先确定的条件。例如:训练条件为差异值最小,则将差异值最小时所对应的m的取值作为共享提取网络中特征提取网络的取值,即:确定被作为共享提取网络的特征提取网络的数量,为后m个特征提取网络。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。步骤520,将至少两个特征提取网络中除共享提取网络之外的特征提取网络作为候选独立提取网络。
示意性的,在确定被作为共享提取网络的特征提取网络的数量后,将至少两个特征提取网络中除共享提取网络之外的特征提取网络作为候选独立提取网络,通过候选独立提取网络,确定用于对源数据集中的源数据和目标数据集中的目标数据分别进行分析的独立提取网络。
在一个可选的实施例中,基于至少两个特征提取网络的排列次序,从第一个特征提取网络开始,将除共享提取网络之外的特征提取网络,作为对源数据和目标数据进行分析的候选独立提取网络。
示意性的,在将除共享提取网络之外的特征提取网络作为独立提取网络时,依据至少两个特征提取网络的排列次序,从第一个特征提取网络开始,对特征提取网络进行确定。可选地,将被选择得到的特征提取网络作为候选独立提取网络,并基于候选独立提取网络得到独立提取网络。
例如:特征提取网络的数量为10个,在确定将后4个特征提取网络作为共享提取网络后,依照10个特征提取网络的排列次序,将前6个特征提取网络作为对源数据和目标数据进行分析的候选独立提取网络。
步骤530,将候选独立提取网络作为第一独立提取网络或者第二独立提取网络,构建得到独立提取网络。
在一个可选的实施例中,当候选独立提取网络实现为第一独立提取网络时,第二独立提取网络由第一独立提取网络复制得到;或者,当候选独立提取网络实现为第二独立提取网络时,独立提取网络中的第一独立提取网络由第二独立提取网络复制得到。
示意性的,在得到候选独立提取网络后,对候选独立提取网络进行复制操作,也即,将候选独立提取网络所对应的特征提取网络进行复制操作,例如:在确定将前6个特征提取网络作为候选独立提取网络后,对前6个特征提取网络进行复制操作。
其中,对候选独立提取网络进行复制操作时,包括依据其中包含的特征提取网络的顺序进行复制操作,也即,在复制得到的另一个候选独立提取网络中,特征提取网络的顺序与原候选独立提取网络(被复制的候选独立提取网络)中特征提取网络的顺序相同。
例如:中包括3个特征提取网络,按照顺序排列依次为a,b,c。当将候选独立提取网络作为第一独立提取网络时,第一独立提取网络中包括3个特征提取网络,且3个特征提取网络的排序与候选独立提取网络A的排序相同,为a,b,c;在确定第一独立提取网络后,对第一独立提取网络进行复制操作,并得到与第一独立提取网络相同且并行的第二独立提取网络,在第二独立提取网络中,同样包括3个特征提取网络,且3个特征提取网络的排序与第一独立提取网络的排序相同,即为a,b,c。
或者,当将候选独立提取网络作为第二独立提取网络时,第二独立提取网络中包括3个特征提取网络,且3个特征提取网络的排序与候选独立提取网络A的排序相同,为a,b,c;在确定第二独立提取网络后,对第二独立提取网络进行复制操作,并得到与第二独立提取网络相同且并行的第一独立提取网络,在第一独立提取网络中,同样包括3个特征提取网络,且3个特征提取网络的排序与第二独立提取网络的排序相同,即为a,b,c。
在一个可选的实施例中,在得到候选独立提取网络后,对候选独立提取网络进行复制操作,得到包括候选独立提取网络在内的至少两个候选独立提取网络,从至少两个候选独立提取网络中,选择一个候选独立提取网络作为对源数据进行分析的第一独立提取网络,选择另一个候选独立提取网络(与上述候选独立提取网络中特征提取网络的结构相同)作为对目标数据进行分析的第二独立提取网络。
示意性的,对候选独立提取网络A进行复制操作后,得到另一个候选独立提取网络B,将候选独立提取网络A作为对源数据进行分析的第一独立提取网络,将候选独立提取网络B作为对目标数据进行分析的第二独立提取网络;或者,将候选独立提取网络B作为对源数据进行分析的第一独立提取网络,将候选独立提取网络A作为对目标数据进行分析的第二独立提取网络。
或者,对候选独立提取网络A进行复制操作后,得到候选独立提取网络B以及候选独立提取网络C,将候选独立提取网络A作为对源数据进行分析的第一独立提取网络,将候选独立提取网络C作为对目标数据进行分析的第二独立提取网络;或者,将候选独立提取网络C作为对源数据进行分析的第一独立提取网络,将候选独立提取网络B作为对目标数据进行分析的第二独立提取网络等。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。
综上所述,以源数据训练得到的至少两个特征提取网络构建得到迁移模型,迁移模型中包括分别对源数据和目标数据进行分析的独立提取网络,以及对源数据和目标数据进行综合分析的共享提取网络;通过源数据和目标数据对迁移模型进行训练,从而得到目标模型。通过上述方法,可以逐步将源数据训练得到的至少两个特征提取网络的学习模式迁移至针对目标数据集的目标模型上,从而利用目标模型,对目标数据进行更精准、更高效地分析。
在本申请实施例中,介绍了确定迁移模型中独立提取网络以及共享提取网络的特征提取网络构成情况。在确定源数据训练得到的至少两个特征提取网络后,根据特征提取网络的排列次序,从最后一个特征提取网络开始,向前选取组成共享提取网络;并将至少两个特征提取网络中除共享提取网络之外的特征提取网络,作为独立提取网络,从而确定迁移模型中特征提取网络的构成情况。通过上述方法,可以根据对源数据集和目标数据集之间的相关性分析,确定部分共享网络中作为共享网络以及作为独立网络的特征提取网络的数量,从而有利于更高效地对源数据以及目标数据进行分析,进而得到更精确的分析结果。
在一个可选的实施例中,在至少两个特征提取网络组成的迁移模型中,还包括对源数据和目标数据进行分类的分类模块。示意性的,如图6所示,上述图2所示出的实施例中的步骤230还可以实现为如下步骤610至步骤630。
步骤610,将源数据与目标数据通过迁移模型,确定源数据对应的源数据损失值以及目标数据对应的目标数据损失值。
示意性的,在将源数据和目标数据输入迁移模型后,确定源数据对应的源数据分析结果,以及目标数据对应的目标数据分析结果。
可选地,源数据分析结果是迁移模型对源数据进行分析后得到的、源数据对应的预测结果;目标数据分析结果是迁移模型对目标数据进行分析后得到的、目标数据对应的预测结果。
示意性的,将源数据分析结果与源数据对应标注的源数据标签进行差异分析,确定源数据对应的源数据损失值,源数据损失值用于指示源数据分析结果与源数据标签之间的差异情况;将目标数据分析结果与目标数据对应标注的目标数据标签进行差异分析,确定目标数据对应的目标数据损失值,目标数据损失值用于指示目标数据分析结果与目标数据标签之间的差异情况。
其中,源数据标签是源数据预先标注的标签,目标数据标签是目标数据预先标注的标签。
步骤620,以迁移模型中的分类模块,对源数据以及目标数据进行分类预测,确定分类损失值。
可选地,迁移模型中的分类模块,用于对源数据和目标数据的来源情况进行分类,例如:在将源数据集中的源数据和目标数据集中的目标数据一同输入迁移模型后,迁移模型通过其中的分类模块,确定某个数据来源于源数据集或者目标数据集。
示意性的,在通过分类模块对数据的来源进行预测后,确定数据对应的预测来源情况,根据数据的预测来源情况以及数据的标签来源情况,确定分类损失值。
示意性的,采用二分类标签法对数据的来源进行表示,将“0”作为数据来源于源数据集的表示情况,将“1”作为数据来源于目标数据集的表示情况。
例如:将多个源数据和多个目标数据输入迁移模型后,通过迁移模型中的分类模块,对其中的M数据进行来源分析,确定M数据来源的数据集,如:预测M数据来源于源数据集,则M数据的预测类别为“0”;M数据实际来源于目标数据集,则M数据的实际类别为“1”,基于M数据的预测类别“0”以及M数据的实际类别“1”,确定M数据对应的分类损失值,并依据上述方法,分别对其余数据进行判断。
在一个可选的实施例中,在基于预测类别以及实际类别确定数据对应的分类损失值时,首先确定对数值(logit值),其中,logit值的计算方法如下所示。
logit = log(odds)
其中,log用于指示对数函数;odds用于指示优势比。
优势比用于指示事件发生的概率与事件不发生的概率之比,也即,优势比的表示方式如下所示。
Figure 393856DEST_PATH_IMAGE001
其中,P event 用于指示事件发生的概率。示意性的,将上述计算的过程应用于上述实施例中,将P event 作为数据为目标数据的概率;或者,将P event 作为数据为源数据的概率。
可选地,在确定上述logit值后,通过交叉熵损失函数,计算分类损失值。
步骤630,基于源数据损失值、目标数据损失值以及分类损失值,对迁移模型进行训练,得到目标模型。
示意性的,在确定源数据损失值、目标数据损失值以及分类损失值后,以上述损失值对迁移模型进行调整。
在一个可选的实施例中,将分类损失值与预设负值参数相乘,得到用于进行反向传播操作的传播损失值。
示意性的,在通过交叉熵损失函数确定分类损失值后,将分类损失值经过梯度反转层,并由此确定用于进行反向传播操作的传播损失值。
其中,反向传播是将分类损失值逐层向后传递,每层网络(每个特征提取网络)根据传回来的分类损失值计算梯度,进而更新本层网络(该特征提取网络)的参数;将分类损失值经过梯度反转层后进行反向传播操作,用于指示在将分类损失值逐层向后传递的过程中,将分类损失值乘以预设负值参数,并将乘以预设负值参数后得到的传播损失值进行反向传播操作。
可选地,如图7所示,为一个迁移模型的一个示意性示意图。迁移模型710中包括N个特征提取网络,其中,独立提取网络对应N-n个特征提取网络,共享提取网络对应n个特征提取网络。在将源数据和目标数据输入迁移模型710后,由迁移模型710中的独立提取网络(包括N-n个特征提取网络的第一独立提取网络,以及包括N-n个特征提取网络的第二独立提取网络)分别对源数据和目标数据进行分析,并将独立提取网络的分析结果输入共享提取网络中,由共享提取网络对应的n个特征提取网络,对独立提取网络的分析结果进行分析。
此外,在迁移模型中,还包括一个梯度反转层720。示意性的,将梯度反转层720链接至共享提取网络之间,由于共享提取网络中的特征提取网络呈现为链式排列形式,故将梯度反转层720链接至共享提取网络之间,即可实现对共享提取网络中的每一个特征提取网络(每层网络)进行梯度反转操作的过程。
示意性的,将梯度反转层720链接至共享提取网络之间,由于梯度反转操作发生在反向传播过程中,故梯度反转操作发生在获取得到分类损失值后,将分类损失值经过梯度反转层(即:将分类损失值与预设负值参数相乘),从而进行反向传播操作。
在一个可选的实施例中,以反向传播操作对迁移模型对应的参数进行第一调整,确定参数调整结果。
示意性的,反向传播过程中,在根据传回来的分类损失值计算梯度后,对本层网络(该特征提取网络)的参数进行更新操作;将分类损失值经过梯度反转层后进行反向传播操作,用于指示在将分类损失值逐层向后传递的过程中,将分类损失值乘以预设负值参数,并根据乘以预设负值参数后的传播损失值计算梯度,进而更新本层网络(该特征提取网络)的参数,实现第一调整过程,从而确定迁移模型中不同特征提取网络对应的参数调整结果。
在一个可选的实施例中,基于源数据损失值、目标数据损失值以及参数调整结果,对迁移模型进行第二调整,得到目标模型。
示意性的,综合考虑源数据损失值、目标数据损失值以及参数调整结果,对迁移模型中涉及的每一个特征提取网络对应的参数进行调整,从而得到目标模型。
例如:综合考虑源数据损失值以及参数调整结果,对源数据对应的第一独立提取网络的参数(第一独立提取网络对应的特征提取网络的参数)进行更新;综合考虑目标数据损失值以及参数调整结果,对目标数据对应的第二独立提取网络的参数(第二独立提取网络对应的特征提取网络的参数)进行更新;综合考虑源数据损失值、目标数据损失值以及参数调整结果,对迁移模型中的共享提取网络的参数(共享提取网络对应的特征提取网络的参数)进行更新,从而实现对迁移模型的第二调整过程,得到目标模型。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。
在一个可选的实施例中,目标数据集中的部分目标数据标注有目标数据标签,部分目标数据未标注有数据标签,则在采用上述方法对目标数据进行分析时,对标注有目标数据标签的目标数据,进行上述步骤610至步骤630操作,确定目标数据对应的目标数据损失值以及分类损失值,并基于目标数据损失值以及分类损失值,参与目标模型的训练过程;对未标注有目标数据标签的目标数据,进行上述步骤620至步骤630操作,即:让未标注有目标数据标签的目标数据不参与目标数据损失值的计算过程,只进行分类预测过程,并根据确定的分类损失值进行反向传播操作,参与目标模型的训练过程。
在一个可选的实施例中,考虑到经过上述方法得到的目标模型,可能会在对目标数据进行分析时的分析精度较差,可以将基于源数据损失值、目标数据损失值以及参数调整结果,对迁移模型进行调整后的模型称为候选目标模型,为了使得候选目标模型能够更好地对目标数据进行分析,采用目标数据对候选目标模型的模型参数进行微调,使得得到的目标模型可以更加符合对目标数据进行分析的分析情况。
可选地,以目标数据集中的目标数据对候选目标模型的模型参数进行第二调整,得到目标模型。
示意性的,在得到候选目标模型后,为了使得候选目标模型能够更好地对目标数据进行分析,以目标数据对候选目标模型的模型参数进行微调,使得得到的目标模型更加符合对目标数据进行分析的分析情况。
在一个可选的实施例中,固定候选目标模型中共享提取网络对应的权重值。
示意性的,候选目标模型的模型结构与迁移模型的模型结构是相同的,也即:候选目标模型中同样对应有独立提取网络以及共享提取网络,其中,迁移模型中的独立提取网络与候选目标模型中的独立提取网络,由相同的特征提取网络组成,但不同特征提取网络之间的参数可能存在差异(基于上述的调整过程);同理,迁移模型中的共享提取网络与候选目标模型中的共享提取网络,由相同的特征提取网络组成,但不同特征提取网络之间的参数也可能存在差异。
可选地,基于上述独立提取网络与共享提取网络的划分标准,将候选目标模型中共享提取网络对应的权重值进行固定,也即,当对候选目标模型进行训练时,候选目标模型中共享提取网络对应的权重值不变(共享提取网络中的特征提取网络的网络参数不变),候选目标模型中独立提取网络对应的权重值可能发生变化(独立提取网络中的特征提取网络的网络参数可能发生变化)。
在一个可选的实施例中,以目标数据集中的目标数据,对候选目标模型中独立提取网络对应的权重值进行调整,确定调整后的独立提取网络。
示意性的,在对候选目标模型中共享提取网络对应的权重值进行固定后,以目标数据集中的目标数据,对候选目标模型中独立提取网络对应的权重值进行调整,基于对独立提取网络对应的权重值进行调整的调整结果,根据候选目标模型得到目标模型。
可选地,在对独立提取网络对应的权重值进行调整后,得到调整后的独立提取网络,调整后的独立提取网络中的特征提取网络的权重值可能存在变化。示意性的,将调整后的独立提取网络和共享提取网络组成目标模型,实现得到目标模型的过程。
综上所述,以源数据训练得到的至少两个特征提取网络构建得到迁移模型,迁移模型中包括分别对源数据和目标数据进行分析的独立提取网络,以及对源数据和目标数据进行综合分析的共享提取网络;通过源数据和目标数据对迁移模型进行训练,从而得到目标模型。通过上述方法,可以逐步将源数据训练得到的至少两个特征提取网络的学习模式迁移至针对目标数据集的目标模型上,从而利用目标模型,对目标数据进行更精准、更高效地分析。
在本申请实施例中,对迁移模型中还包括对源数据和目标数据进行分类的分类模块进行说明。在将源数据与目标数据输入迁移模型后,可以确定源数据对应的源数据损失值以及目标数据对应的目标数据损失值;此外,通过迁移模型中的分类模块对源数据以及目标数据进行分类预测,确定分类损失值;并综合分析源数据损失值、目标数据损失值以及分类损失值,从而对迁移模型进行训练,得到目标模型。通过上述方法,可以综合考虑源数据和目标数据对应的特征生成情况,以及源数据和目标数据的分类情况,并借助反向传播过程,在迁移学习的过程中形成对抗效果,在提高目标模型鲁棒性的基础上,得到可以对目标数据进行更高效分析的目标模型。
在一个可选的实施例中,将上述迁移训练方法应用于源数据集和目标数据集的迁移学习中。示意性的,基于当前的特征提取网络,以及已有标注(源数据对应标注有源数据标签)的源数据集的基础上,在短期时间内搜集少量目标数据进行标注(至少一个目标数据对应标注有目标数据标签),从而利用源数据集中的数据信息,对目标数据集进行迁移学习,从而能够快速地实现目标数据集的深度学习训练过程,并对新功能任务进行验证和迭代。也即,目标数据集中目标数据的数量较少,且至少一个目标数据标注有目标数据标签(目标数据集中可以存在未标注有目标数据标签的目标数据)。示意性的,如图8所示,上述迁移训练方法涉及部分共享网络以及多阶段训练过程,该迁移训练方法还可以实现为如下步骤810至步骤840。
步骤810,源数据集训练初始网络。
源数据集训练网络主要用于后续的模型初始化。由于源数据集和目标数据集存在一定的相关性,模型初始化更有利于对目标数据集进行的训练过程。
示意性的,如图3所示,为源数据所训练的卷积神经网络示意图,卷积神经网络由多个基础模块(特征提取网络)构成,其中,基础模块代指常用的卷积结构,且不具体表示某一类型。通过损失函数Ls进行梯度回传和下降更新网络权重,直到网络收敛得到N个基础模块的权重Ws1…WsN,其中,N个基础模块所对应的权重值有所差异。
步骤820,利用初始网络的权重对部分共享网络权重进行初始化。
如图4所示,部分共享网络(迁移模型)由两个输入分支组成,分别作为源数据的推理线路以及目标数据的推理线路。两个输入分支的结构是相同的,是由上述步骤810中源数据训练的基础网络中前N-n个基础模块组成。
其中,N用于指示N个基础模块;n的取值范围为[0,N]。可选地,n的最佳取值可以由下述的搜索实验得出。
示意性的,进行N次实验,x=0,1,2…N,每次将初始网络Net init 的后x个基础模块固定,利用目标数据源训练前N-x个基础模块,并记录初始网络Net init 在预先选取的校验集(用于检验初始网络Net init 的预测效果)上的最佳结果。确定N次实验中得到的最佳结果所对应的x,并取n=x作为后续部分共享网络的网络设定。也即,确定用于作为部分共享网络中共享网络中基础模块的数量为n个,确定用于作为部分共享网络中独立网络中基础模块的数量为N-n个。
可选地,在卷积神经网络中,卷积神经网络的浅层模块主要负责图像的像素级信息抽象,而卷积神经网络的深层模块主要负责图像的语义理解。在基于卷积神经网络对应的多个基础模块组成的部分共享网络中,部分共享网络中可共用的基础模块深度(基础模块的数量)和数据集之间的差异性(源数据集与目标数据集)相关。示意性的,对于外观相似的两种数据集(例如:真实照片和3D引擎渲染出的高精数字照片),可以共用更多的深层模块;而对于外观差异很大的两种数据源(例如:真实照片和手绘简笔画图像),浅层网络无法同时兼容两种像素分布差异很大的数据,BN层(数据归一化层,Batch Normalization)需要计算每个输入批次的通道值统计量,因此浅层BN也无法实现共用。因此差异较大的两种数据源各自需要更多的网络模块,从而抽象出图像信息,以用于后续模块对语义的信息理解。
也即:由于源数据集和目标数据集的差异性(相关性)未知,故分析部分共享网络中作为共享网络以及作为独立网络的基础模块的数量,有利于更精准地对源数据以及目标数据进行分析。
示意性的,当源数据集和目标数据集的相关性较高时,用于对源数据以及目标数据进行综合分析的共享网络所对应的基础模块的数量较多;或者,当源数据集和目标数据集的相关性较低时,用于对源数据以及目标数据进行综合分析的共享网络所对应的基础模块的数量较少。
可选地,当源数据集和目标数据集的相关性很高时,可能存在用于对源数据以及目标数据进行综合分析的共享网络所对应的基础模块为N个,即:存在可能将对源数据进行分析的N个基础模块直接对目标数据进行分析的情况;或者,当源数据集和目标数据集的相关性很低时,可能存在用于对源数据以及目标数据进行综合分析的共享网络所对应的基础模块为0个,即:存在可能不从对源数据进行分析的N个基础模块选择作为共享网络的情况。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。
示意性的,如图7所示,部分共享网络的双输入分支(独立网络)的初始化权重值(基础模块的权重值)由初始网络Net init 获得,并且彼此一致;同理,初始网络中的共享网络同样由初始网络Net init 对应的基础模块获得。
在一个可选的实施例中,在部分共享网络中,同时增加一个分类分支模块,权重随机初始化,并通过一个梯度反转层720链接至共享分支中间。梯度反转层720用于为后续步骤,提供域对抗训练的实现方式。
步骤830,通过源数据集和目标数据集有标签部分进行监督训练,同时进行域对抗训练。
示意性的,在真实业务场景中,数据的获取以及标注是循序进行的,因此在业务开发阶段,可能随着数据的增加需要多次训练,在迁移学习中上述步骤810至步骤820中源数据集对应的网络训练以及权重初始化无需重复操作,每次迭代主要是针对步骤830以及步骤840进行。
在一个可选的实施例中,网络的一次迭代训练流程如下所示。
(1)示意性的,如图9所示,在将源数据集中的源数据以及目标数据集中的目标数据输入部分共享网络时,通常将源数据和目标数据以一个批次的形式输入。例如:输入源数据集数量为M的一个批次(Batch),经过部分共享网络中的独立网络910和共享网络920后,计算对应任务的损失函数(源数据损失值),并进行梯度回传930;同时输入经过分类分支模块940,输出源数据对应的分类logit值。
(2)输入目标数据数量同为M的一个batch(即:在一次分析过程中,目标数据的数据量与源数据的数据量相同),经过部分共享网络中的独立网络910和共享网络920后,计算对应任务的损失函数(目标数据损失值),并进行梯度回传930;同时该输入也要经过分类分支模块940,输出目标数据对应的分类logit值。
(3)通过源数据对应的分类logit值和目标数据对应的分类logit值,计算分类损失函数。可选地,通常使用交叉熵损失函数,确定分类损失值。其中,分类方式采用二分类分类法,即:“0和1分类法”,例如:以0代表分类为源数据集,以1代表分类为目标数据集。
(4)示意性的,如图9所示,在完成损失函数计算过程后,进行梯度回传930。其中,梯度经过部分共享网络中的梯度反转层950时,将分类损失值乘以一个负值系数后进行梯度回传930,从而实现对抗训练效果。
其中,对抗训练效果用于指示:在部分共享网络中,除分类分支模块之外的网络部分用于生成领域共享的特征,使得通过对除分类分支模块之外的网络部分进行的优化过程后,从而难以区别两种数据集(源数据集和目标数据集),以实现在语义层面将两种数据集的信息进行融合的过程;而部分共享网络中的分类分支模块,用于根据生成的特征判断特征的来源,从而更好地区别两种数据集,从而实现对抗训练效果。
(5)通过优化器更新网络参数,包括独立分支、共享分支和分类分支,完成一次网络训练过程。
示意性的,源数据集和目标数据集中的数据数量差异巨大,但是在对部分共享网络进行训练时,需要保证源数据和目标数据在每次进入迭代训练网络的过程中,数据的输入数量一致。由于源数据集中存储的源数据的数量大于目标数据集中目标数据的数量,因此每随机循环一次完整的源数据集时,目标数据集可能需要被循环多次。
步骤840,利用目标数据源对最终的网络进行权重微调。
示意性的,如图10所示,待上述网络迭代优化收敛后,取目标数据源训练的独立网络以及共享网络部分,并去掉分类分支模块部分,对网络的参数进行微调。
可选地,将共享网络1010部分的权重进行固定,采用目标数据集中的目标数据,对其中的独立网络1020部分进行训练。由于共享网络1010部分的权重经过两种数据集的训练,本身具有较好的泛化性,如果整个网络(独立网络部分和共享网络部分)都通过目标数据进行微调,很容易导致网络过拟合情况的发生。由于对抗训练主要为了加强源数据到目标数据的迁移性,减少两种数据源分别经过独立网络之后,源数据和目标数据之间的域差异性,因此可以牺牲一定在特定任务上的训练精度。通过目标数据集中目标数据对网络中独立网络1020部分的微调过程,从而弥补对抗训练过程所可能造成的精度损失。可选地,在通过目标数据对独立网络1020部分进行训练时,为了提升训练速度,将损失函数计算得到的损失值进行梯度回传1030。
综上所述,以源数据训练得到的至少两个特征提取网络构建得到迁移模型,迁移模型中包括分别对源数据和目标数据进行分析的独立提取网络,以及对源数据和目标数据进行综合分析的共享提取网络;通过源数据和目标数据对迁移模型进行训练,从而得到目标模型。通过上述方法,可以逐步将源数据训练得到的至少两个特征提取网络的学习模式迁移至针对目标数据集的目标模型上,从而利用目标模型,对目标数据进行更精准、更高效地分析,还可以有效降低在开发目标数据集时的开发成本和开发周期。
图11是本申请一个示例性实施例提供的迁移训练装置的结构框图,如图11所示,该装置包括如下部分:
获取模块1110,用于获取源数据集和目标数据集,所述源数据集中存储有源数据,所述目标数据集中存储有目标数据;
构建模块1120,用于基于至少两个特征提取网络构建得到迁移模型,所述至少两个特征提取网络由所述源数据训练得到,所述迁移模型中包括独立提取网络和共享提取网络,所述独立提取网络包括结构相同且并行的第一独立提取网络和第二独立提取网络;其中,所述第一独立提取网络用于对所述源数据进行特征提取,所述第二独立提取网络用于对所述目标数据进行特征提取;所述共享提取网络用于对所述独立提取网络的特征提取结果进行综合分析;
训练模块1130,用于通过所述源数据与所述目标数据对所述迁移模型进行训练,得到目标模型,所述目标模型用于将所述源数据集对应的至少两个特征提取网络的学习模式进行调整后,迁移至对所述目标数据的分析过程中。
在一个可选的实施例中,所述构建模块1120还用于基于所述至少两个特征提取网络的排列次序,从最后一个特征提取网络开始,向前选取至少一个特征提取网络得到所述共享提取网络;将所述至少两个特征提取网络中除所述共享提取网络之外的特征提取网络作为候选独立提取网络;将所述候选独立提取网络作为所述第一独立提取网络或者所述第二独立提取网络,构建得到所述独立提取网络。
在一个可选的实施例中,所述构建模块1120还用于当所述候选独立提取网络实现为所述第一独立提取网络时,所述第二独立提取网络由所述第一独立提取网络复制得到;或者,当所述候选独立提取网络实现为所述第二独立提取网络时,所述独立提取网络中的第一独立提取网络由所述第二独立提取网络复制得到。
在一个可选的实施例中,所述构建模块1120还用于基于所述至少两个特征提取网络的排列次序,固定所述至少两个特征提取网络中的后m个特征提取网络的网络参数,其中,m为正整数;以所述目标数据集中的目标数据,对所述至少两个特征提取网络中除后m个特征提取网络以外的特征提取网络进行训练,确定训练预测结果;响应于所述训练预测结果与所述目标数据对应标注的目标数据标签之间的差异值符合训练条件,确定后m个特征提取网络组成的所述共享提取网络。
在一个可选的实施例中,如图12所示,所述装置还包括对所述源数据和所述目标数据进行分类的分类模块1140;
所述训练模块1130还用于将所述源数据与所述目标数据通过所述迁移模型,确定所述源数据对应的源数据损失值以及所述目标数据对应的目标数据损失值;以所述迁移模型中的分类模块1140,对所述源数据以及所述目标数据进行分类预测,确定分类损失值;所述训练模块1130还用于基于所述源数据损失值、所述目标数据损失值以及所述分类损失值,对所述迁移模型进行调整,得到所述目标模型。
在一个可选的实施例中,所述训练模块1130还用于将所述分类损失值与预设负值参数相乘,得到用于进行反向传播操作的传播损失值;基于所述传播损失值,对所述迁移模型对应的参数进行第一调整,确定参数调整结果;基于所述源数据损失值、所述目标数据损失值以及所述参数调整结果,对所述迁移模型进行第二调整,得到所述目标模型。
在一个可选的实施例中,所述训练模块1130还用于基于所述源数据损失值、所述目标数据损失值以及所述参数调整结果,对所述迁移模型进行调整,得到候选目标模型;以所述目标数据集中的目标数据对所述候选目标模型的模型参数进行第二调整,得到所述目标模型。
在一个可选的实施例中,所述训练模块1130还用于固定所述候选目标模型中所述共享提取网络对应的权重值;以所述目标数据集中的目标数据,对所述候选目标模型中独立提取网络对应的权重值进行调整,确定调整后的独立提取网络;将所述调整后的独立提取网络和所述共享提取网络组成所述目标模型。
在一个可选的实施例中,所述源数据对应标注有源数据标签,所述目标数据对应标注有目标数据标签;
所述训练模块1130还用于将所述源数据与所述目标数据输入所述迁移模型,确定所述源数据对应的源数据分析结果以及所述目标数据对应的目标数据分析结果;以所述源数据分析结果与所述源数据标签之间的差异情况,确定所述源数据对应的源数据损失值;以所述目标数据分析结果与所述目标数据标签之间的差异情况,确定所述目标数据对应的目标数据损失值。
在一个可选的实施例中,所述装置还用于将所述源数据集中的源数据输入顺次连接的至少两个候选特征提取网络,确定源数据对应的源数据提取结果;以所述源数据提取结果和源数据对应的源数据标签之间的差异,对所述候选特征提取网络进行训练,得到顺次连接的所述至少两个特征提取网络。
在一个可选的实施例中,所述目标模型用于对图像进行分类预测;
所述训练模块1130还用于从所述目标数据集中获取目标图像数据;将所述目标图像数据输入所述目标模型中,由所述目标模型对所述目标图像数据进行分类预测,得到所述目标图像数据对应的预测类别;将所述预测类别作为所述目标图像数据对应的分类识别结果。
综上所述,以源数据训练得到的至少两个特征提取网络构建得到迁移模型,迁移模型中包括分别对源数据和目标数据进行分析的独立提取网络,以及对源数据和目标数据进行综合分析的共享提取网络;通过源数据和目标数据对迁移模型进行训练,从而得到目标模型。通过上述装置,可以逐步将源数据训练得到的至少两个特征提取网络的学习模式迁移至针对目标数据集的目标模型上,从而利用目标模型,对目标数据进行更精准、更高效地分析,还可以有效降低在开发目标数据集时的开发成本和开发周期。
需要说明的是:上述实施例提供的迁移训练装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的迁移训练装置与迁移训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图13示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器1300包括中央处理单元(Central Processing Unit,CPU)1301、包括随机存取存储器(RandomAccess Memory,RAM)1302和只读存储器(Read Only Memory,ROM)1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。服务器1300还包括用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1306。
大容量存储设备1306通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。大容量存储设备1306及其相关联的计算机可读介质为服务器1300提供非易失性存储。也就是说,大容量存储设备1306可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1306可以统称为存储器。
根据本申请的各种实施例,服务器1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1300可以通过连接在系统总线1305上的网络接口单元1311连接到网络1312,或者说,也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的迁移训练方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的迁移训练方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的迁移训练方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种迁移训练方法,其特征在于,所述方法包括:
获取源数据集和目标数据集,所述源数据集中存储有源数据,所述目标数据集中存储有目标数据;
基于至少两个特征提取网络构建得到迁移模型,所述至少两个特征提取网络由所述源数据训练得到,所述迁移模型中包括独立提取网络和共享提取网络,所述独立提取网络包括结构相同且并行的第一独立提取网络和第二独立提取网络;其中,所述第一独立提取网络用于对所述源数据进行特征提取,所述第二独立提取网络用于对所述目标数据进行特征提取;所述共享提取网络用于对所述独立提取网络的特征提取结果进行综合分析;
通过所述源数据与所述目标数据对所述迁移模型进行训练,得到目标模型,所述目标模型用于将所述源数据集对应的至少两个特征提取网络的学习模式进行调整后,迁移至对所述目标数据的分析过程中。
2.根据权利要求1所述的方法,其特征在于,所述基于至少两个特征提取网络构建得到迁移模型,包括:
基于所述至少两个特征提取网络的排列次序,从最后一个特征提取网络开始,向前选取至少一个特征提取网络得到所述共享提取网络;
将所述至少两个特征提取网络中除所述共享提取网络之外的特征提取网络作为候选独立提取网络;
将所述候选独立提取网络作为所述第一独立提取网络或者所述第二独立提取网络,构建得到所述独立提取网络。
3.根据权利要求2所述的方法,其特征在于,
当所述候选独立提取网络实现为所述第一独立提取网络时,所述第二独立提取网络由所述第一独立提取网络复制得到;或者,
当所述候选独立提取网络实现为所述第二独立提取网络时,所述独立提取网络中的第一独立提取网络由所述第二独立提取网络复制得到。
4.根据权利要求2所述的方法,其特征在于,所述从最后一个特征提取网络开始,向前选取至少一个特征提取网络得到所述共享提取网络,包括:
基于所述至少两个特征提取网络的排列次序,固定所述至少两个特征提取网络中的后m个特征提取网络的网络参数,其中,m为正整数;
以所述目标数据集中的目标数据,对所述至少两个特征提取网络中除后m个特征提取网络以外的特征提取网络进行训练,得到训练预测结果;
响应于所述训练预测结果与所述目标数据对应标注的目标数据标签之间的差异值符合训练条件,确定后m个特征提取网络组成的所述共享提取网络。
5.根据权利要求1至4任一所述的方法,其特征在于,所述迁移模型还包括对所述源数据和所述目标数据进行分类的分类模块;
所述通过所述源数据与所述目标数据对所述迁移模型进行训练,得到目标模型,包括:
将所述源数据与所述目标数据通过所述迁移模型,确定所述源数据对应的源数据损失值以及所述目标数据对应的目标数据损失值;
以所述迁移模型中的分类模块,对所述源数据以及所述目标数据进行分类预测,确定分类损失值;
基于所述源数据损失值、所述目标数据损失值以及所述分类损失值,对所述迁移模型进行训练,得到所述目标模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述源数据损失值、所述目标数据损失值以及所述分类损失值,对所述迁移模型进行训练,得到所述目标模型,包括:
将所述分类损失值与预设负值参数相乘,得到用于进行反向传播操作的传播损失值;
基于所述传播损失值,对所述迁移模型对应的参数进行第一调整,确定参数调整结果;
基于所述源数据损失值、所述目标数据损失值以及所述参数调整结果,对所述迁移模型进行第二调整,得到所述目标模型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述源数据损失值、所述目标数据损失值以及所述参数调整结果,对所述迁移模型进行第二调整,得到所述目标模型,包括:
基于所述源数据损失值、所述目标数据损失值以及所述参数调整结果,对所述迁移模型进行调整,得到候选目标模型;
以所述目标数据集中的目标数据对所述候选目标模型的模型参数进行第二调整,得到所述目标模型。
8.根据权利要求7所述的方法,其特征在于,所述以所述目标数据集中的目标数据对所述候选目标模型的模型参数进行第二调整,得到所述目标模型,包括:
固定所述候选目标模型中共享提取网络对应的权重值;
以所述目标数据集中的目标数据,对所述候选目标模型中独立提取网络对应的权重值进行调整,确定调整后的独立提取网络;
将所述调整后的独立提取网络和所述共享提取网络组成所述目标模型。
9.根据权利要求5所述的方法,其特征在于,所述源数据对应标注有源数据标签,所述目标数据对应标注有目标数据标签;
所述将所述源数据与所述目标数据通过所述迁移模型,确定所述源数据对应的源数据损失值以及所述目标数据对应的目标数据损失值,包括:
将所述源数据与所述目标数据输入所述迁移模型,确定所述源数据对应的源数据分析结果以及所述目标数据对应的目标数据分析结果;
以所述源数据分析结果与所述源数据标签之间的差异情况,确定所述源数据对应的源数据损失值;
以所述目标数据分析结果与所述目标数据标签之间的差异情况,确定所述目标数据对应的目标数据损失值。
10.根据权利要求1至4任一所述的方法,其特征在于,所述获取源数据集和目标数据集之后,还包括:
将所述源数据集中的源数据输入顺次连接的至少两个候选特征提取网络,确定源数据对应的源数据提取结果;
以所述源数据提取结果和源数据对应的源数据标签之间的差异,对所述候选特征提取网络进行训练,得到顺次连接的所述至少两个特征提取网络。
11.根据权利要求1至4任一所述的方法,其特征在于,所述目标模型用于对图像进行分类预测;
所述得到目标模型之后,还包括:
从所述目标数据集中获取目标图像数据;
将所述目标图像数据输入所述目标模型中,由所述目标模型对所述目标图像数据进行分类预测,得到所述目标图像数据对应的预测类别;
将所述预测类别作为所述目标图像数据对应的分类识别结果。
12.一种迁移训练装置,其特征在于,所述装置包括:
获取模块,用于获取源数据集和目标数据集,所述源数据集中存储有源数据,所述目标数据集中存储有目标数据;
构建模块,用于基于至少两个特征提取网络构建得到迁移模型,所述至少两个特征提取网络由所述源数据训练得到,所述迁移模型中包括独立提取网络和共享提取网络,所述独立提取网络包括结构相同且并行的第一独立提取网络和第二独立提取网络;其中,所述第一独立提取网络用于对所述源数据进行特征提取,所述第二独立提取网络用于对所述目标数据进行特征提取;所述共享提取网络用于对所述独立提取网络的特征提取结果进行综合分析;
训练模块,用于通过所述源数据与所述目标数据对所述迁移模型进行训练,得到目标模型,所述目标模型用于将所述源数据集对应的至少两个特征提取网络的学习模式进行调整后,迁移至对所述目标数据的分析过程中。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的迁移训练方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至11任一所述的迁移训练方法。
CN202210436862.3A 2022-04-25 2022-04-25 迁移训练方法、装置、设备、存储介质及程序产品 Active CN114548382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210436862.3A CN114548382B (zh) 2022-04-25 2022-04-25 迁移训练方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210436862.3A CN114548382B (zh) 2022-04-25 2022-04-25 迁移训练方法、装置、设备、存储介质及程序产品

Publications (2)

Publication Number Publication Date
CN114548382A CN114548382A (zh) 2022-05-27
CN114548382B true CN114548382B (zh) 2022-07-15

Family

ID=81667489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210436862.3A Active CN114548382B (zh) 2022-04-25 2022-04-25 迁移训练方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN114548382B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117275220A (zh) * 2023-08-31 2023-12-22 云南云岭高速公路交通科技有限公司 基于非完备数据的山区高速公路实时事故风险预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801256A (zh) * 2018-12-15 2019-05-24 华南理工大学 一种基于感兴趣区域和全局特征的图像美学质量评估方法
CN110705406A (zh) * 2019-09-20 2020-01-17 五邑大学 基于对抗迁移学习的人脸美丽预测方法及装置
CN110907176A (zh) * 2019-09-30 2020-03-24 合肥工业大学 一种基于Wasserstein距离的深度对抗迁移网络的故障诊断方法
CN114118138A (zh) * 2021-10-22 2022-03-01 苏州大学 一种基于多标签领域自适应模型的轴承复合故障诊断方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200033515A (ko) * 2018-09-20 2020-03-30 한국전자통신연구원 다중특징 추출 및 전이학습 기반 기계학습 장치/방법 및 이를 이용한 누출 탐지 장치
US20200104710A1 (en) * 2018-09-27 2020-04-02 Google Llc Training machine learning models using adaptive transfer learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801256A (zh) * 2018-12-15 2019-05-24 华南理工大学 一种基于感兴趣区域和全局特征的图像美学质量评估方法
CN110705406A (zh) * 2019-09-20 2020-01-17 五邑大学 基于对抗迁移学习的人脸美丽预测方法及装置
CN110907176A (zh) * 2019-09-30 2020-03-24 合肥工业大学 一种基于Wasserstein距离的深度对抗迁移网络的故障诊断方法
CN114118138A (zh) * 2021-10-22 2022-03-01 苏州大学 一种基于多标签领域自适应模型的轴承复合故障诊断方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"On Automated Source Selection for Transfer Learning in Convolutional Neural Networks";Muhammad Jamal Afridi等;《Pattern Recognition》;20170731;全文 *
"基于特征重构和样本筛选的迁移学习算法研究";赵航;《中国优秀硕士学位论文全文数据库》;20200115;全文 *

Also Published As

Publication number Publication date
CN114548382A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
WO2021159776A1 (zh) 基于人工智能的推荐方法、装置、电子设备及存储介质
KR102302609B1 (ko) 신경망 아키텍처 최적화
US11790212B2 (en) Quantization-aware neural architecture search
US20230281448A1 (en) Method and apparatus for information recommendation, electronic device, computer readable storage medium and computer program product
CN110728317A (zh) 决策树模型的训练方法、系统、存储介质及预测方法
CN112364880B (zh) 基于图神经网络的组学数据处理方法、装置、设备及介质
CN110659678B (zh) 一种用户行为分类方法、系统及存储介质
CN111966914B (zh) 基于人工智能的内容推荐方法、装置和计算机设备
US11604960B2 (en) Differential bit width neural architecture search
CN111382190B (zh) 一种基于智能的对象推荐方法、装置和存储介质
US11423307B2 (en) Taxonomy construction via graph-based cross-domain knowledge transfer
CN111259647A (zh) 基于人工智能的问答文本匹配方法、装置、介质及电子设备
CN111506820A (zh) 推荐模型、方法、装置、设备及存储介质
CN114298122A (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN116664719A (zh) 一种图像重绘模型训练方法、图像重绘方法及装置
CN114548382B (zh) 迁移训练方法、装置、设备、存储介质及程序产品
CN114912030A (zh) 权益模型训练方法、推荐方法及电子终端和计算机介质
CN113609337A (zh) 图神经网络的预训练方法、训练方法、装置、设备及介质
Ortega-Zamorano et al. FPGA implementation of neurocomputational models: comparison between standard back-propagation and C-Mantec constructive algorithm
CN112989024B (zh) 文本内容的关系提取方法、装置、设备及存储介质
CN115423016A (zh) 多任务预测模型的训练方法、多任务预测方法及装置
CN111935259B (zh) 目标帐号集合的确定方法和装置、存储介质及电子设备
CN114741583A (zh) 基于人工智能的信息推荐方法、装置及电子设备
CN111897943A (zh) 会话记录搜索方法、装置、电子设备及存储介质
CN115115024A (zh) 一种多目标学习方法、系统及存储介质和终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40070921

Country of ref document: HK