CN114912540A - 迁移学习方法、装置、设备及存储介质 - Google Patents

迁移学习方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114912540A
CN114912540A CN202210600618.6A CN202210600618A CN114912540A CN 114912540 A CN114912540 A CN 114912540A CN 202210600618 A CN202210600618 A CN 202210600618A CN 114912540 A CN114912540 A CN 114912540A
Authority
CN
China
Prior art keywords
data set
network model
network
domain
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210600618.6A
Other languages
English (en)
Inventor
黄俊钦
高梦雅
王宇杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Priority to CN202210600618.6A priority Critical patent/CN114912540A/zh
Publication of CN114912540A publication Critical patent/CN114912540A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Manipulator (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种迁移学习方法、装置、设备及存储介质,其中,所述迁移学习方法包括:获取原始数据集和任务数据集;确定所述原始数据集在所述任务数据集所涉及的域上划分的目标子集;获取利用所述目标子集训练得到的第一网络模型;其中,所述第一网络模型为基于预训练模型和第一头部网络搭建的;所述预训练模型为利用所述原始数据集训练得到的;利用所述任务数据集,训练搭建的第二网络模型,得到完成训练的第二网络模型;其中,所述第二网络模型为基于所述第一网络模型和第二头部网络搭建的。

Description

迁移学习方法、装置、设备及存储介质
技术领域
本申请涉及但不限于计算机视觉技术领域,尤其涉及一种迁移学习方法、装置、设备及存储介质。
背景技术
大量实验证明,在大规模数据集上进行预训练的模型有很好的泛化能力。研究者尝试将具有强大表示能力的预训练模型迁移到下游任务上,从而提升下游任务指标。但实际在某些业务场景下,如下游数据量比较少的情况下,直接基于预训练模型微调会导致最终模型在某些类型的下游任务上表现比较差;或者在云端服务下,由于资源限制等原因,常常要求将预训练模型的骨干网络(backbone)层冻结,而只微调基于特定下游任务的头部网络(head),以降低内存和计算量,但这亦会导致最终模型的表现下降。
发明内容
有鉴于此,本申请实施例至少提供一种迁移学习方法、装置、设备及存储介质。
本申请实施例的技术方案是这样实现的:
一方面,本申请实施例提供一种迁移学习方法,所述方法包括:
获取原始数据集和任务数据集;确定所述原始数据集在所述任务数据集所涉及的域上划分的目标子集;获取利用所述目标子集训练得到的第一网络模型;其中,所述第一网络模型为基于预训练模型和第一头部网络搭建的;所述预训练模型为利用所述原始数据集训练得到的;利用所述任务数据集,训练搭建的第二网络模型,得到完成训练的第二网络模型;其中,所述第二网络模型为基于所述第一网络模型和第二头部网络搭建的。
上述实施例中,首先获取源域的原始数据集和目标域的任务数据集,然后判定任务数据集属于原始数据集划分的哪个域,并确定在该相应域上对原始数据集划分的目标子集,再获取预先利用目标子集训练得到的第一网络模型,最后基于第一网络模型和第二头部网络搭建第二网络模型,对任务数据集进行迁移学习。从而能够复用预训练模型参数,实现基于参数知识的迁移学习。同时,在传统预训练结束之后先基于第一网络模型中的第一头部网络分别学习源域中各子数据集的基于域的参数,这些基于域的参数能够在下游迁移时达到一个特征选择的作用,从而减缓上下游数据集域差异较大所造成的模型直接迁移困难的情况。
在一些可能的实施例中,所述确定所述原始数据集在所述任务数据集所涉及的域上划分的目标子集,包括:对所述原始数据集进行聚类,得到N个域对应的子数据集;N为大于或等于2的整数;从所述N个子数据集中确定出与所述任务数据集属于同一个域的目标子集。
上述实施例中,首先通过聚类对原始数据集进行细化,划分为属于各个域的子数据集,再将任务数据集判定为原始数据集中某一个域的数据子集,从而在迁移时可以利用该域对应的已训练第一网络模型进行特征选择,减小原始数据集与任务数据集之间域差异太大导致的迁移效果下降的问题。
在一些可能的实施例中,所述从所述N个子数据集中确定与所述任务数据集属于同一个域的目标子集,包括:从所述N个子数据集对应的N个域中,确定所述任务数据集中每帧图像所属的域;按照所述任务数据集中各帧图像所属的域在所述N个域中的占比,确定所述任务数据集对应的目标域;将所述N个子数据集中所述目标域对应的子数据集作为所述目标子集。
上述实施例中,首先确定任务数据集中每帧图像属于N个域中的某一个特定域,然后通过统计任务数据集中所有图像占比最多的域为目标域,从而确定出目标域对应的子数据集为与所述任务数据集属于同一个域的目标子集。这样,能够准确判定任务数据集所在域对应于原始数据集中划分的目标域以及对应目标子集。
在一些可能的实施例中,所述从所述N个子数据集对应的N个域中,确定所述任务数据集中每帧图像所属的域,包括:确定所述任务数据集中每帧图像与所述N个子数据集的类中心之间的第一距离;其中,所述类中心的取值为所述子数据集中所有数据在各维度上的平均值;在存在所述第一距离满足预设阈值的目标类中心的情况下,确定所述每帧图像属于所述目标类中心对应的域。
上述实施例中,通过计算任务数据集中每帧图像与N个子数据集的类中心之间的第一距离,确定每帧图像属于哪一个域,从而便于后续进一步判定整个任务数据集对应于原始数据集中划分的某个域,以实现迁移时准确选择该域已训练的第一网络模型。
在一些可能的实施例中,所述第一网络模型是通过以下步骤训练得到的:利用所述原始数据集对骨干网络进行预训练,得到所述预训练模型;针对所述每一个域对应的子数据集,在所述预训练模型的网络结构的基础上添加所述第一头部网络,得到搭建的相应域的第一网络模型;利用所述每一个域对应的子数据集训练所述第一头部网络,得到已训练的所述第一网络模型。
上述实施例中,在利用原始数据集训练得到预训练模型之后添加第一头部网络,并分别利用每个域对应的子数据集训练该第一头部网络,从而实现对原始数据集中各个域的子数据集进行基于域的参数学习,这样训练完成的第一网络模型中基于域的参数能够在下游迁移时起到特征选择的作用。
在一些可能的实施例中,所述利用所述每一个域对应的子数据集训练所述第一头部网络,得到相应域对应的所述第一网络模型,包括:通过所述第一网络模型对所述子数据集进行处理,输出所述子数据集的预测结果;基于所述子数据集的预测结果和所述子数据集携带的标签,确定所述子数据集通过所述第一网络模型的第一损失;基于所述第一损失,在固定所述第一网络模型中骨干网络的参数的情况下,更新所述第一网络模型中所述第一头部网络的参数,直至所述第一损失达到收敛条件,得到已训练的所述第一网络模型。
上述实施例中,在固定所述第一网络模型中骨干网络的参数的情况下,利用每一个域对应的子数据集对第一网络模型中的第一头部网络进行反向传播训练,在第一损失达到收敛条件时第一头部网络的基于域的参数达到最优,得到已训练的第一网络模型。从而通过对应域的子数据集学习基于域的参数,旨在后续迁移时通过已经学好的基于域的参数达到特征选择的作用。
在一些可能的实施例中,所述利用所述任务数据集,训练第二网络模型,得到完成训练的第二网络模型,包括:通过所述第二网络模型对所述任务数据集进行处理,输出所述任务数据集的预测结果;基于所述任务数据集的预测结果和所述任务数据集携带的标签,确定所述任务数据集通过所述第二网络模型的第二损失;基于所述第二损失,在固定所述第二网络模型中骨干网络的参数和所述第一头部网络的参数的情况下,更新所述第二网络模型中所述第二头部网络的参数,直至所述第二损失达到收敛条件。
上述实施例中,在固定所述第二网络模型中骨干网络的参数和第一头部网络的参数的情况下,利用任务数据集对第二网络模型中的第二头部网络进行反向传播训练,在第二损失达到收敛条件时第二头部网络的基于任务的参数达到最优,得到已训练的第二网络模型。从而实现在下游迁移时快速学习到特定预任务的参数,得到完成训练的第二网络模型。
在一些可能的实施例中,所述第二头部网络包括全连接层,所述方法还包括:在所述第一网络模型的输出层之后,基于所述任务数据集中数据的类别数添加所述全连接层,得到搭建的所述第二网络模型;所述全连接层的神经元数目符合所述任务数据集中数据的类别数。
上述实施例中,通过在第一网络模型的输出层之后添加匹配任务数据集中数据类别数的全连接层,能够有效学习到基于任务的参数并提升整体迁移效率。
在一些可能的实施例中,所述任务数据集为对人脸样本集,所述方法还包括:获取对目标对象采集的人脸图像;获取利用人脸数据集训练得到的第二网络模型;通过所述第二网络模型对所述人脸图像进行人脸识别,得到所述目标对象的人脸识别结果。
上述实施例中,由于第二网络模型是利用人脸样本集即大量人脸样本数据训练得到的,减少了对象特征本身限制以及不同对象实际外观特征相似率高等因素导致的对象检索精度降低等问题,能够应用于各自人脸识别场景。
再一方面,本申请实施例提供一种迁移学习装置,所述装置包括:
第一获取模块,用于获取原始数据集和任务数据集;
确定模块,用于确定所述原始数据集在所述任务数据集所涉及的域上划分的目标子集;
第二获取模块,用于获取利用所述目标子集训练得到的第一网络模型;其中,所述第一网络模型为基于预训练模型和第一头部网络搭建的;所述预训练模型为利用所述原始数据集训练得到的;
迁移训练模块,用于利用所述任务数据集,训练搭建的第二网络模型,得到完成训练的第二网络模型;其中,所述第二网络模型为基于所述第一网络模型和第二头部网络搭建的。
再一方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
又一方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开的技术方案。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1为本申请实施例提供的迁移学习方法的可选的流程示意图;
图2为本申请实施例提供的迁移学习方法的可选的流程示意图;
图3为本申请实施例提供的迁移学习方法的可选的流程示意图;
图4为本申请实施例提供的迁移学习方法的可选的流程示意图;
图5为本申请实施例提供的基于多适应头的迁移学习算法框架示意图;
图6为本申请实施例提供的一种迁移学习方法的逻辑流程图;
图7为本申请实施例提供的一种迁移学习装置的组成结构示意图;
图8为本申请实施例提供的一种计算机设备的硬件实体示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本申请的技术方案进一步详细阐述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
所涉及的术语“第一/第二/第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请的目的,不是旨在限制本申请。
在对本申请实施例进行进一步详细说明之前,先对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
迁移学习(Transfer Learning):在计算机视觉领域中是一种很流行的方法,因为它可以建立精确的模型,耗时更短。利用迁移学习,指的是从之前解决各种问题时学到的模式开始,省略了从零学习的过程。把已学训练好的模型参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务是存在相关性的,所以通过迁移学习,可以将已经学到的模型参数通过某种方式来分享给新模型,从而加快并优化模型的学习效率。
在计算机视觉领域中,迁移学习通常是通过使用预训练模型来表示的。预训练模型通常是在大型基准数据集上训练的模型,用于解决相似的问题。迁移学习可应用于计算机视觉、图像分类、文本分类、行为识别、自然语言处理、视频监控、舆情分析、人机交互等。
迁移学习按学习方法分类,可以分为四个大类:基于样本的迁移学习方法、基于特征的迁移学习方法、基于模型的迁移学习方法、基于关系的迁移学习方法。其中基于模型的迁移学习就是构建参数共享的模型,考虑到神经网络的结构可以直接进行迁移,因此该技术在神经网络上被广泛应用。比如神经网络最经典的微调就是模型参数迁移的很好的体现。
基于模型的迁移方法(Model-based Transfer Learning):也称基于参数知识的迁移方法,是指从源域和目标域中找到它们之间共享的参数信息,以实现迁移的方法。能够复用已训练好的模型参数,从而达到加快模型训练和节约训练成本的目的。这种迁移方式要求的假设条件是源域中的数据与目标域中的数据可以共享一些模型的参数。
域(Domain):是学习的主体,主要有两部分构成,即数据和生成这些数据的概率分布,可以表示为D={χ,P(X)},其中χ表示特征空间,P(X)表示边际概率分布。域可以理解为某个时刻的某个特定领域,比如书本评论和电视剧评论可以看作是两个不同的域。迁移学习包括源域(Source domain)即已有知识的域和目标域(Target domain)即要进行学习的域这两种。
任务(Task):是学习的结果,包括目标函数和学习结果,可以表示为T={y,f(·)},其中y表示标签空间,f(·)表示目标预测函数。
传统的基于计算机视觉的迁移方法主要包括基于适应头(adaptor)的方法、微调(finetune)以及线性探头(linear probe)等方法。但这些方法都旨在学习一个基于特定任务的参数,而在源域和目标域之间的域差异(domain gap)较大的情况下,模型迁移往往会变得异常困难。
本申请实施例提供一种迁移学习方法,该方法可以由计算机设备的处理器执行。其中,计算机设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备迁移学习能力的设备。
图1为本申请实施例提供的一种迁移学习方法的实现流程示意图,如图1所示,该方法包括如下步骤S101至步骤S104:
步骤S101,获取原始数据集和任务数据集。
所述原始数据集为大规模的基准数据集,也称上游数据集,通常在大型基准数据集上训练预训练模型以解决相似的问题。原始数据集可以包含多个领域如自然场景、视频分析场景、采集场景等。
任务数据集为迁移目的指向的数据集,就是下游执行某项具体任务过程中的业务场景数据,即特定任务特定领域的图像,例如检测任务中街道行人图像或采集任务中的实时人脸图像等。
步骤S102,确定所述原始数据集在所述任务数据集所涉及的域上划分的目标子集。
首先通过对原始数据集划分域的方式,将原始数据集分为多个相关性较高的、没有交集的子数据集,每个子数据集的内部数据较为相似称之为一个域;然后从多个子数据集中确定出任务数据集所涉及的域对应的目标子集。
在实施中,先通过聚类的方式判定任务数据集属于哪一个域,再从原始数据集划分的多个子数据集中选取与任务数据集属于同一个域的子数据集作为目标子集。示例性地,原始数据集划分为域A上的子数据集N1、域B上的子数据集N2和域C上的子数据集N3,假定任务数据集属于域C,则确定目标子集为子数据集N3。
步骤S103,获取利用所述目标子集训练得到的第一网络模型。
所述第一网络模型为基于预训练模型和第一头部网络搭建的;所述预训练模型为利用所述原始数据集训练得到的。
其中,所述第一头部网络为基于域的网络结构,通常包括一个多层感知机(Multilayer Perceptron,MLP),用来学习每个域的参数(domain-specific parameter)。
在实施中,先利用原始数据集在任一网络结构上进行训练得到预训练模型,或者直接获取已利用该原始数据集完成训练得到的预训练模型,然后在预训练模型的网络结构基础上添加基于域的第一头部网络,得到搭建的第一网络模型,并利用原始数据集划分到相应域的子数据集训练该第一头部网络。最后下游迁移时,在确定出任务数据集所在域对应的目标子集之后,直接获取利用该目标子集训练的第一网络模型,以用于后续进一步迁移学习。
需要说明的是,多层感知机是一种前馈人工神经网络模型,该模型将输入的多个数据集映射到单一的输出的数据集上。多层感知机即人工神经网络(Artificial NeuralNetwork,ANN),多层感知机的层与层之间是全连接的。通常,多层感知机最底层是输入层,中间是隐藏层,最后是输出层。除了输入输出层,多层感知机中间可以有多个隐层,最简单的多层感知机只含一个隐层即三层的结构。
本申请实施例中第一头部网络的输入层X其实就是原始数据集中划分的某个域的数据子集提取的特征,“输入层到隐含层”就是一个全连接的层,“隐含层到输出层”就是一个分类器(softmax)回归,从而利用相应域的子数据集训练该第一头部网络可以学习到不同域的参数。
步骤S104,利用所述任务数据集,训练搭建的第二网络模型,得到完成训练的第二网络模型。
所述第二网络模型为基于所述第一网络模型和第二头部网络搭建的。例如在第一网络模型的输出层之后,添加符合任务数据集所包含的类别个数的全连接层作为第二头部网络。在训练时,其他第一网络模型中经过预训练的层的权值不动,仅随机初始化新增加层的权值,从而使用新的任务数据集来训练第二网络模型中的第二头部网络。
在实施中,先获取第一网络模型的模型参数,包括预训练模型参数和第一头部网络中基于域的参数,再基于迁移学习将第一网络模型的模型参数作用于第二网络模型的初始化,最后输入任务数据集并反向调节第二头部网络的参数,以进行针对任务的迁移学习。
本申请实施例中,首先获取源域的原始数据集和目标域的任务数据集,然后判定任务数据集所在域对应于原始数据集划分的某个域以及对应目标子集,再获取预先利用目标子集训练得到的第一网络模型,最后基于第一网络模型和第二头部网络搭建第二网络模型,对任务数据集进行迁移学习。从而能够复用预训练模型参数,实现基于参数知识的迁移学习。同时,在传统预训练结束之后先基于第一网络模型中的第一头部网络分别学习源域中各子数据集的基于域的参数,这些基于域的参数能够在下游迁移时达到一个特征选择的作用,从而减缓上下游数据集域差异较大所造成的模型直接迁移困难的情况。
在一些实施例中,上述步骤S104可以通过以下步骤1041至步骤1043实现:
步骤1041,通过所述第二网络模型对所述任务数据集进行处理,输出所述任务数据集的预测结果。
由于第二网络模型是在第一网络模型的输出层后添加新的基于任务的第二头部网络而形成的,因此,可以直接载入已训练的第一网络模型中各参数的权重对第二网络模型进行初始化,仅利用任务数据集训练第二网络模型中的第二头部网络。
在实施中,将任务数据集输入到初始化的第二网络模型中,依次进行特征提取、池化、归一化等操作,通过最后的第二头部网络输出任务数据集中每一数据的预测结果。例如任务数据集为实时采集的待识别对象的图像,通过第二网络模型分别检测每一对象的类别、位置等。其中,对象可以为行人、人脸、移动物体等,本申请实施例对此不作限定。
步骤1042,基于所述任务数据集的预测结果和所述任务数据集携带的标签,确定所述任务数据集通过所述第二网络模型的第二损失。
任务数据集在训练之前会标注实例级标签,并作为训练样本集,其中每一样本图像包含若干实例yi={(b,c)},每一实例包括候选框位置b=(bcx,bcy,bw,bh)和独热(one-hot)类别标签c∈{0,1}|C||C|是所有类别的总数。
示例地,一张图像上包括猫、狗等不同动物的情况下,实例级标注的结果是猫所在位置的候选框1和类别“cat”,以及狗所在位置的候选框2和类别“dog”。一张图像上包括多只猫的情况下,每一只猫为一个实例,实例级标注的结果是每只猫所在位置的候选框和类别“cat”。
针对不同的具体任务,第二损失可以为交叉熵损失、聚焦损失、均方误差损失等分类损失,也可以为点回归损失、边框回归损失等回归损失。
步骤1043,基于所述第二损失,在固定所述第二网络模型中骨干网络的参数和所述第一头部网络的参数的情况下,更新所述第二网络模型中所述第二头部网络的参数,直至所述第二损失达到收敛条件。
需要说明的是,一方面,考虑到任务数据集包含的图像数量少,首要考虑的一点就是防止过拟合,所以就保持第一网络模型中网络层的权值不动。另一方面,由于任务数据集和目标子集之间是相似的,那么也就可以认为第一网络模型之前在目标子集上学得的高级特征(权重)也适用于任务数据集。
由于在网络低层次提取到的特征为例如图像中的边缘、线条和角等层级特征,与目标任务的数据集关系不大,而在高层次提取到的特征与目标任务紧密相关,所以第一网络模型和第二网络模型可以共享低层次参数,仅需重新训练高层权重。因此,在进行模型迁移时仅需要第二网络模型中的第二头部网络学习基于任务的参数,利用第二损失对第二头部网络进行反向传播训练,在预测结果接近任务数据集的标签的情况下第二损失收敛,得到训练好的第二网络模型。
上述实施例中,在固定所述第二网络模型中骨干网络的参数和第一头部网络的参数的情况下,利用任务数据集对第二网络模型中的第二头部网络进行反向传播训练,在第二损失达到收敛条件时第二头部网络中基于任务的参数达到最优,得到已训练的第二网络模型。从而实现在下游迁移时快速学习到基于任务的参数(task-specific parameter),得到完成训练的第二网络模型。
在一些实施例中,上述步骤S104之后还可以包括如下步骤S105至步骤S106:
步骤S105,获取对目标对象采集的人脸图像。
目标对象可以理解为商场或景区中需要识别身份的行人、游客、访客或者用户等,还可以理解为登录网站或论坛等需要验证身份的电子用户。
在一些实现方式中,该人脸图像可以为电子设备上设置的图像采集装置,如摄像头模组实时采集的图像;在一些实现方式中,该人脸图像可以为其他设备通过即时通信的方式传输给电子设备进行人脸识别的图像;在一些实现方式中,该人脸图像也可以是电子设备响应于任务处理指令,调用本地相册并从中获取的待处理图像;在一些实现方式中,上述人脸图像可以是视频流中的一个图像帧。对此本申请实施例不做限制。
步骤S106,通过所述第二网络模型对所述人脸图像进行人脸识别,得到所述目标对象的人脸识别结果。
所述第二网络模型为基于本申请实施例提供的迁移学习方法进行迁移训练得到的。需要说明的是,第二网络模型通过在大量人脸样本数据上训练,可以达到相似图像的特征向量在空间中距离接近;而不相似的一对图像其对应的特征向量对在空间中距离远的特点,从而通过特征比对实现快速识别人脸具体属于哪一个对象,或者在人员库中找到目标对象。
所述人脸识别结果可以包括目标对象的身份标识、人脸特征等,还可以包括用于后端服务平台进行处理的标记信息,例如通过、不通过、待复核,其中,待复核指的是需人工审核或二次验证。
上述实施例中,由于第二网络模型是利用人脸样本集即大量人脸样本数据训练得到的,减少了对象特征本身限制以及不同对象实际外观特征相似率高等因素导致的对象检索精度降低等问题,能够应用于各自人脸识别场景。
在一些实施例中,所述第二头部网络包括全连接层。如图2所示,该方法包括如下步骤S201至步骤S204:
步骤S201,获取原始数据集和任务数据集。
步骤S202,对所述原始数据集进行聚类,得到N个域对应的子数据集。
这里,N为大于或等于2的整数;域的数量N可以根据经验设置,并根据模型迁移的效果而被调整。
在实施中,通过聚类对原始数据集进行细化,聚类结果可用于指示原始数据集中每一图像数据所属的类别,或者每一图像数据属于某个类别的概率或可能性,从而基于聚类结果将原始数据集划分为属于各个域的子数据集。
对原始数据集进行划分进行聚类的方式有很多,例如可以采用K-means聚类,也可以采用均值漂移聚类,本申请实施例对此不作限定。以K-means为例的一些聚类算法,在聚类前,要求预先设定聚类簇的数量,即预先设定原始数据集需要划分至多少个聚类簇,每一个子数据集对应一个聚类簇。
步骤S203,从N个子数据集中确定出与所述任务数据集属于同一个域的目标子集。
这里,可以通过计算任务数据集与N个子数据集之间的相似度,确定出与任务数据集最相似的一个子数据集,将该最相似的子数据集作为与所述任务数据集属于同一个域的目标子集。即将任务数据集判定为原始数据集中某一个域的数据子集,从而在迁移时获取利用属于同一个域的目标子集训练的第一网络模型,可以直接复用预训练模型参数和基于域的参数。
步骤S204,获取利用所述目标子集训练得到的第一网络模型。
这里,所述第一网络模型为基于预训练模型和第一头部网络搭建的;所述预训练模型为利用所述原始数据集训练得到的。
由于利用所述目标子集训练得到的第一网络模型中的基于域的参数已经学习好,从而减缓上下游数据集域差异较大所造成的模型直接迁移困难的情况。
步骤S205,在所述第一网络模型的输出层之后,基于所述任务数据集添加所述全连接层,得到搭建的第二网络模型。
所述全连接层的神经元数目符合所述任务数据集中数据的类别数。在实施中,首先基于任务数据集中数据的类别数,确定全连接层的神经元数目,并随机初始化各神经元的权重后添加在第一网络模型的输出层之后,以得到搭建的第二网络模型。
所谓全连接层,就是把所有局部特征结合变成全局特征,用来计算最后每一类的得分。全连接层前面的卷积和池化相当于做特征提取,后面的全连接层相当于做特征加权。本申请实施例添加的全连接层在整个第一网络模型中起到“分类器”的作用,用于学习基于任务的参数。
这样,通过在第一网络模型的输出层之后添加匹配任务数据集中数据类别数的全连接层,能够有效学习到基于任务的参数并提升整体迁移效率。
步骤S206,利用所述任务数据集,训练搭建的第二网络模型,以得到完成训练的第二网络模型。
这里,所述第二网络模型为基于所述第一网络模型和第二头部网络搭建的。
上述步骤S206对应于实施例前述的步骤S104,在实施时可以参照前述步骤S104的具体实施方式。
本申请实施例中,首先通过聚类对原始数据集进行细化,划分为属于各个域的子数据集,再将任务数据集判定为原始数据集中某一个域的数据子集,从而在迁移时可以利用该域对应的已训练第一网络模型进行特征选择,缓解由于原始数据集与任务数据集之间域差异太大而导致的迁移效果下降的问题。
基于图2,图3为本申请实施例提供的迁移学习方法的可选的流程示意图,如图3所示,上述步骤S203“从所述N个子数据集中确定与所述任务数据集属于同一个域的目标子集”可以通过以下步骤S301至步骤S303实现:
步骤S301,从N个子数据集对应的N个域中,确定所述任务数据集中每帧图像所属的域。
通过分别计算任务数据集中每帧图像与N个域各自的类中心之间的第一距离,从而确定每帧图像所属的域。
在一些实施方式中,确定所述任务数据集中每帧图像与所述N个子数据集的类中心之间的第一距离;其中,所述类中心的取值为所述子数据集中所有数据在各维度上的平均值;在存在所述第一距离满足预设阈值的目标类中心的情况下,确定所述每帧图像属于所述目标类中心对应的域。
或者,在一些实施方式中,确定所述任务数据集中每帧图像与所述N个子数据集的类中心之间的第一距离;将所述第一距离最小的类中心对应的域作为相应帧图像所属的域。
这样,通过计算任务数据集中每帧图像与N个子数据集的类中心之间的第一距离,确定每帧图像属于哪一个域,从而便于后续进一步判定整个任务数据集对应于原始数据集中划分的某个域,以实现迁移时准确选择该域已训练的第一网络模型。
步骤S302,按照所述任务数据集中各帧图像所属的域在所述N个域中的占比,确定所述任务数据集对应的目标域;
示例地,原始数据集划分的N个域分别为{D1,D2,D3,…,DN},任务数据集中落入域D1的图像数量为S1个,落入域D2的图像数量为S2个,落入域D3的图像数量为S3个,在数值S2大于S1且大于S3的情况下,确定任务数据集对应的目标域为S2
步骤S303,将所述N个子数据集中所述目标域对应的子数据集作为所述目标子集。
本申请实施例中,首先确定任务数据集中每帧图像属于N个域中的某一个特定域,然后通过统计任务数据集中所有图像占比最多的域为目标域,从而确定出目标域对应的子数据集为与所述任务数据集属于同一个域的目标子集。这样,能够准确判定任务数据集所在域对应于原始数据集中划分的目标域以及对应目标子集。
图4为本申请实施例提供的迁移学习方法的可选的流程示意图,如图4所示,所述方法至少包括以下步骤S401至步骤S403:
步骤S401,利用所述原始数据集对骨干网络进行预训练,得到所述预训练模型。
最终的预训练模型能够提取泛化性强的通用特征,即对于任一图像数据,骨干网络部分可以输出通用的图像特征,从而使用该预训练模型可以解决相似的问题,因此以预训练模型作为基础模型进行模型迁移。
步骤S402,针对所述每一个域对应的子数据集,在所述预训练模型的网络结构的基础上添加所述第一头部网络,得到搭建的相应域的第一网络模型。
所述第一头部网络为基于域的网络结构,通常由一个多层感知机构成,用来学习每个域的参数。多层感知机的结构包括批归一化,全连接层,relu激活函数等。
假定第一头部网络即多层感知机的输入层用向量X表示,则与输入层连接的隐藏层的输出为f(W1*X+b1),其中,W1是权重,也可称为连接系数,b1是偏置,函数f可以是常用的激活函数如sigmoid函数或者tanh函数。
因此,第一头部网络的每一层每个神经元上面都有对于一个输入的权值、一个偏置,以及一个激活函数。迁移学习的任务就是找到权值和偏置这些参数的值,使得输出的结果达到下游具体任务的要求。
步骤S403,利用所述每一个域对应的子数据集训练所述第一头部网络,得到已训练的所述第一网络模型。
这里,对原始数据集划分的N个域中每一个域对应的子数据集均进行步骤S403的操作,可以得到N个基于域的第一网络模型。
本申请实施例中,在利用原始数据集训练得到预训练模型之后添加第一头部网络,并分别利用每个域对应的子数据集训练该第一头部网络,从而实现对原始数据集中各个域的子数据集进行基于域的参数学习,这样训练完成的第一网络模型中基于域的参数能够在下游迁移时起到特征选择的作用。
在一些实施例中,上述步骤S403可以包括以下步骤4031至步骤4033:
步骤4031,通过所述第一网络模型对所述子数据集进行处理,输出所述子数据集的预测结果。
首先第一网络模型中的骨干网络对子数据集进行特征提取,然后将子数据集对应的数据特征输入到第一头部网络中。在第一头部网络内部一个前向过程的流程就是:将数据特征经过第一层神经元运算,即乘上权值,加上偏置,激活函数运算一次,得到输出;再将第一层的输出作为第二层的输入,经过第二层神经元的运算,得到第二层的输出,直到输出层运算,然后得到预测结果。
步骤4032,基于所述子数据集的预测结果和所述子数据集携带的标签,确定所述子数据集通过所述第一网络模型的第一损失。
子数据集在训练之前会标注实例级标签,并作为训练样本集,其中每一样本图像包含若干实例,每一实例包括候选框位置和独热类别标签。针对不同的具体任务,第一损失可以为分类损失、回归损失等。
步骤4033,基于所述第一损失,在固定所述第一网络模型中骨干网络的参数的情况下,更新所述第一网络模型中所述第一头部网络的参数,直至所述第一损失达到收敛条件,得到已训练的所述第一网络模型。
针对每一个域对应的子数据集,在迁移时只需冻结第一网络模型中预训练部分的相关层,修改第一头部网络的参数,以使预测结果更接近真实标签。
上述实施例中,在固定所述第一网络模型中骨干网络的参数的情况下,利用每一个域对应的子数据集对第一网络模型中的第一头部网络进行反向传播训练,在第一损失达到收敛条件时第一头部网络的基于域的参数达到最优,得到已训练的第一网络模型。从而通过对应域的子数据集学习基于域的参数,旨在后续迁移时通过已经学好的基于域的参数达到特征选择的作用。
下面结合一个具体实施例对上述迁移学习方法进行说明,然而值得注意的是,该具体实施例仅是为了更好地说明本申请,并不构成对本申请的不当限定。
通常在下游迁移时,相关技术中只学习基于任务的参数,而由于有时候上下游数据差异较大,导致基于特定任务的参数难以学习。同时,大规模预训练模型能够提取泛化性强的通用特征,但有时由于下游任务数据量过小或者数据分布与上游数据分布不一致,导致简单微调模型的权重很难得到合适的针对下游任务的特征映射,无法将模型迁移到下游任务。
本申请实施例提供一种新的迁移学习方法,如图5所示,本申请实施例提出了基于多适应头的迁移学习算法框架,整体算法框架包括预训练部分、域参数学习部分和任务数据集微调部分三个阶段,在传统的上游预训练与下游迁移两个阶段之间引入基于域的参数的学习,从而使得预训练模型从原域迁移到目标域的过程更加平缓,防止域差异较大造成模型迁移困难的情况。
第一阶段为预训练部分,利用原始数据集51训练骨干网络52得到预训练模型。
第二阶段为域参数学习部分,对原始数据集51进行域的划分,得到每个域对应的子数据集,针对每一个域对应的子数据集,在第一阶段得到的预训练模型的骨干网络之后添加第一头部网络,得到每个域对应的第一网络模型501,并利用相应域的子数据集训练该域对应的第一头部网络。这一阶段旨在减小上游原始数据集与下游任务数据集之间域差异太大导致的迁移效果下降的问题。
本申请实施例以3个域为例,将原始数据集细化为子数据集511、子数据集512、子数据集513,依次对应第一头部网络531、第一头部网络532、第一头部网络533。应注意,在固定骨干网络52的参数的基础上进行训练,即骨干网络52部分为不可训练的,仅第一头部网络部分为可训练的;且针对具体的子数据集,每次仅选择第一头部网络531、第一头部网络532、第一头部网络533中之一进行训练。
第三阶段为基于任务数据集的迁移学习部分,以任务数据集54为例,将任务数据集54判定为第一阶段划分的某个域的数据集,并在基于该域的第一网络模型501的基础上添加第二头部网络55,得到第二网络模型502。利用任务数据集54微调第二网络模型502中的第二头部网络55部分的参数,完成迁移。
本申请实施例假定原始数据集在任务数据集54所涉及的域上划分的目标子集为子数据集512,因此在上一阶段得到的利用子数据集512训练得到的第一网络模型基础上添加第二头部网络55,即在第一头部网络532之后添加第二头部网络55。应注意,在固定骨干网络52的参数和第一头部网络532的参数的基础上进行训练,即骨干网络52部分和第一头部网络532部分为不可训练的,仅第二头部网络55部分为可训练的。
图6为本申请实施例提供的迁移学习方法的逻辑流程图,如图6所示,该方法包括以下步骤:
步骤S601,获取原始数据集和任务数据集。
所述原始数据集为大规模的上游数据集,可以包含多个领域自然场景、监测场景、采集场景等。任务数据集为最终希望迁移到的数据集,一般指在特定任务特定领域的图片,比如检测任务中街道行人图片。
步骤S602,基于原始数据集训练得到预训练模型。
在任一网络结构中使用大规模上游数据进行训练,得到预训练模型;该预训练模型对于任一帧图像数据,骨干网络部分可以输出一个通用表征。
步骤S603,对原始数据集划分域,得到属于各个域的子数据集。
将上游的大规模原始数据集进行细化,分为多个相关性较高的、没有交集的小数据集。在实施中,通过已有的聚类方法,将大规模的原始数据集划分为N个子数据集,每个子数据集由于其内部数据较为相似,称之为同一个域内的数据集。
上述步骤S602和步骤S603的执行顺序无先后顺序,也可以同时进行,本申请实施例对此不作限定。
步骤S604,利用子数据集对预训练模型进行域参数训练,得到基于域的第一网络模型。
这里,针对中每一个域的子数据集,在步骤S602中得到预训练模型的输出层后面添加上新的基于域的网络结构即第一头部网络。并用该子数据集对该第一头部网络进行训练。对步骤S603中每个域对应的子数据集均进行此操作,因此可以得到N个基于特定域的第一网络模型,N为域数量。
本申请实施例在传统的迁移学习基础之上,增加了基于域的参数学习部分,即在传统的预训练环节结束之后,在预训练模型的骨干网络之后添加新的基于域的网络结构,并通过对应域的数据集学习这些参数。旨在在下游迁移,学习基于任务的参数时,通过已经学好的域参数达到特征选择的作用,减小由于上下游数据差距太大,造成基于任务的参数难以学习的现象。
步骤S605,利用所述任务数据集对应域的第一网络模型进行微调,得到完成训练的第二网络模型。
这里,首先,针对任务数据集,通过步骤S603中的聚类过程将任务数据集判定为某一个域的数据集。由于每个域都可以视为一个类中心,对任务数据集的每帧图像计算其与各个域(类中心)之间的距离,从而确定每帧图像属于哪个域。取各帧图像中占比最多的域作为整个任务数据集的域。
然后,获取上一步骤S604中得到的基于任务数据集所在域的第一网络模型,在该第一网络模型的输出层后添加新的基于特定任务的网络结构即第二头部网络,并使用任务数据集训练该第二头部网络,完成迁移。
本申请实施例通过将上游的原始数据集划分为隶属于多个域的子数据集,并在预训练模型之后添加基于域的网络结构,以学习基于域的参数从而在下游迁移过程中达到特征选择的作用。这样可以在任务数据量较少且任务数据集只与原始数据集中部分子数据集相似的情况下提升下游任务指标。
本申请实施例在基于原始数据集训练得到预训练模型之后,通过用各个域的子数据集使模型学习基于域的参数,使这些基于域的参数能够在下游迁移时起到一个特征选择的作用,从而减缓上下游数据集域差异较大所造成的模型直接迁移困难的情况,同时解决在云端服务场景下,固定骨干网络参数导致的模型迁移效果较差的问题。
基于前述的实施例,本申请实施例提供一种迁移学习装置,该装置包括所包括的各模块以及各模块包括的子模块、单元等,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CentralProcessing Unit,CPU)、微处理器(Microprocessor Unit,MPU)、数字信号处理器(DigitalSignal Processor,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等。
图7为本申请实施例提供的一种迁移学习装置的组成结构示意图,如图7所示,迁移学习装置700包括:第一获取模块701、确定模块702、第二获取模块703、迁移训练模块704,其中:
所述第一获取模块701,用于获取原始数据集和任务数据集;
所述确定模块702,用于确定所述原始数据集在所述任务数据集所涉及的域上划分的目标子集;
所述第二获取模块703,用于获取利用所述目标子集训练得到的第一网络模型;其中,所述第一网络模型为基于预训练模型和第一头部网络搭建的;所述预训练模型为利用所述原始数据集训练得到的;
所述迁移训练模块704,用于利用所述任务数据集,训练搭建的第二网络模型,得到完成训练的第二网络模型;其中,所述第二网络模型为基于所述第一网络模型和第二头部网络搭建的。
在一些可能的实施例中,所述确定模块702包括聚类子模块和第一确定子模块,其中:所述聚类子模块,用于对所述原始数据集进行聚类,得到N个域对应的子数据集;N为大于或等于2的整数;所述第一确定子模块,用于从所述N个子数据集中确定出与所述任务数据集属于同一个域的目标子集。
在一些可能的实施例中,所述第一确定子模块包括第一确定单元、第二确定单元和第三确定单元,其中:所述第一确定单元,用于从所述N个子数据集对应的N个域中,确定所述任务数据集中每帧图像所属的域;所述第二确定单元,用于按照所述任务数据集中各帧图像所属的域在所述N个域中的占比,确定所述任务数据集对应的目标域;所述第三确定单元,用于将所述N个子数据集中所述目标域对应的子数据集作为所述目标子集。
在一些可能的实施例中,所述第一确定单元包括第一确定子单元和第二确定子单元,其中:所述第一确定子单元,用于确定所述任务数据集中每帧图像与所述N个子数据集的类中心之间的第一距离;其中,所述类中心的取值为所述子数据集中所有数据在各维度上的平均值;所述第二确定子单元,用于在存在所述第一距离满足预设阈值的目标类中心的情况下,确定所述每帧图像属于所述目标类中心对应的域。
在一些可能的实施例中,所述装置600还包括预训练模块、第一搭建模块、域参数训练模块,其中:所述预训练模块,用于利用所述原始数据集对骨干网络进行预训练,得到所述预训练模型;所述第一搭建模块,用于针对所述每一个域对应的子数据集,在所述预训练模型的网络结构的基础上添加所述第一头部网络,得到搭建的相应域的第一网络模型;所述域参数训练模块,用于利用所述每一个域对应的子数据集训练所述第一头部网络,得到已训练的所述第一网络模型。
在一些可能的实施例中,所述域参数训练模块包括第一预测子模块、第二确定子模块和第一更新子模块,其中:所述第一预测子模块,用于通过所述第一网络模型对所述子数据集进行处理,输出所述子数据集的预测结果;所述第二确定子模块,用于基于所述子数据集的预测结果和所述子数据集携带的标签,确定所述子数据集通过所述第一网络模型的第一损失;所述第一更新子模块,用于基于所述第一损失,在固定所述第一网络模型中骨干网络的参数的情况下,更新所述第一网络模型中所述第一头部网络的参数,直至所述第一损失达到收敛条件,得到已训练的所述第一网络模型。
在一些可能的实施例中,所述迁移训练模块704包括第二预测子模块、第三确定子模块和第二更新子模块,其中:所述第二预测子模块,用于通过所述第二网络模型对所述任务数据集进行处理,输出所述任务数据集的预测结果;所述第三确定子模块,用于基于所述任务数据集的预测结果和所述任务数据集携带的标签,确定所述任务数据集通过所述第二网络模型的第二损失;所述第二更新子模块,用于基于所述第二损失,在固定所述第二网络模型中骨干网络的参数和所述第一头部网络的参数的情况下,更新所述第二网络模型中所述第二头部网络的参数,直至所述第二损失达到收敛条件。
在一些可能的实施例中,所述第二头部网络包括全连接层,所述装置700还包括第二搭建模块,用于在所述第一网络模型的输出层之后,基于所述任务数据集添加所述全连接层,得到搭建的所述第二网络模型;所述全连接层的神经元数目符合所述任务数据集中数据的类别数。
在一些可能的实施例中,所述任务数据集为对人脸样本集,所述装置还包括第三获取模块和识别模块,其中:所述第三获取模块,用于获取对目标对象采集的人脸图像;获取利用人脸数据集训练得到的第二网络模型;所述识别模块,用于通过所述第二网络模型对所述人脸图像进行人脸识别,得到所述目标对象的人脸识别结果。
以上装置实施例的描述,与上述迁移学习方法实施例的描述是类似的,具有同迁移学习方法实施例相似的有益效果。在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法,对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的迁移学习方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件、软件或固件,或者硬件、软件、固件三者之间的任意结合。
本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的,也可以是非瞬时性的。
本申请实施例提供一种计算机程序,包括计算机可读代码,在所述计算机可读代码在计算机设备中运行的情况下,所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一些实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
这里需要指出的是:上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,图8为本申请实施例中计算机设备的一种硬件实体示意图,如图8所示,该计算机设备800的硬件实体包括:处理器801、通信接口802和存储器803,其中:
处理器801通常控制计算机设备800的总体操作。
通信接口802可以使计算机设备通过网络与其他终端或服务器通信。
存储器803配置为存储由处理器801可执行的指令和应用,还可以缓存待处理器801以及计算机设备800中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory,RAM)实现。处理器801、通信接口802和存储器803之间可以通过总线804进行数据传输。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各步骤/过程的序号的大小并不意味着执行顺序的先后,各步骤/过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (12)

1.一种迁移学习方法,其特征在于,所述方法包括:
获取原始数据集和任务数据集;
确定所述原始数据集在所述任务数据集所涉及的域上划分的目标子集;
获取利用所述目标子集训练得到的第一网络模型;其中,所述第一网络模型为基于预训练模型和第一头部网络搭建的;所述预训练模型为利用所述原始数据集训练得到的;
利用所述任务数据集,对搭建的第二网络模型进行训练,得到完成训练的第二网络模型;其中,所述第二网络模型为基于所述第一网络模型和第二头部网络搭建的。
2.如权利要求1所述的方法,其特征在于,所述确定所述原始数据集在所述任务数据集所涉及的域上划分的目标子集,包括:
对所述原始数据集进行聚类,得到N个域对应的子数据集;N为大于或等于2的整数;
从所述N个子数据集中确定出与所述任务数据集属于同一个域的目标子集。
3.如权利要求2所述的方法,其特征在于,所述从所述N个子数据集中确定与所述任务数据集属于同一个域的目标子集,包括:
从所述N个子数据集对应的N个域中,确定所述任务数据集中每帧图像所属的域;
按照所述任务数据集中各帧图像所属的域在所述N个域中的占比,确定所述任务数据集对应的目标域;
将所述N个子数据集中所述目标域对应的子数据集作为所述目标子集。
4.如权利要求3所述的方法,其特征在于,所述从所述N个子数据集对应的N个域中,确定所述任务数据集中每帧图像所属的域,包括:
确定所述任务数据集中每帧图像与所述N个子数据集的类中心之间的第一距离;其中,所述类中心的取值为所述子数据集中所有数据在各维度上的平均值;
在存在所述第一距离满足预设阈值的目标类中心的情况下,确定所述每帧图像属于所述目标类中心对应的域。
5.如权利要求2至4任一项所述的方法,其特征在于,所述第一网络模型是通过以下步骤训练得到的:
利用所述原始数据集对骨干网络进行预训练,得到所述预训练模型;
针对所述每一个域对应的子数据集,在所述预训练模型的网络结构的基础上添加所述第一头部网络,得到搭建的相应域的第一网络模型;
利用所述每一个域对应的子数据集训练所述第一头部网络,得到已训练的所述第一网络模型。
6.如权利要求5所述的方法,其特征在于,所述利用所述每一个域对应的子数据集训练所述第一头部网络,得到已训练的所述第一网络模型,包括:
通过所述第一网络模型对所述子数据集进行处理,输出所述子数据集的预测结果;
基于所述子数据集的预测结果和所述子数据集携带的标签,确定所述子数据集通过所述第一网络模型的第一损失;
基于所述第一损失,在固定所述第一网络模型中骨干网络的参数的情况下,更新所述第一网络模型中所述第一头部网络的参数,直至所述第一损失达到收敛条件,得到已训练的所述第一网络模型。
7.如权利要求1至6任一项所述的方法,其特征在于,所述利用所述任务数据集,训练搭建的第二网络模型,以得到完成训练的第二网络模型,包括:
通过所述第二网络模型对所述任务数据集进行处理,输出所述任务数据集的预测结果;
基于所述任务数据集的预测结果和所述任务数据集携带的标签,确定所述任务数据集通过所述第二网络模型的第二损失;
基于所述第二损失,在固定所述第二网络模型中骨干网络的参数和所述第一头部网络的参数的情况下,更新所述第二网络模型中所述第二头部网络的参数,直至所述第二损失达到收敛条件。
8.如权利要求1至7任一项所述的方法,其特征在于,所述第二头部网络包括全连接层,所述方法还包括:
在所述第一网络模型的输出层之后,基于所述任务数据集添加所述全连接层,得到搭建的所述第二网络模型;所述全连接层的神经元数目符合所述任务数据集中数据的类别数。
9.如权利要求1至8任一项所述的方法,其特征在于,所述任务数据集为对人脸样本集,所述方法还包括:
获取对目标对象采集的人脸图像;
通过所述第二网络模型对所述人脸图像进行人脸识别,得到所述目标对象的人脸识别结果。
10.一种迁移学习装置,其特征在于,所述装置包括第一获取模块、确定模块、第二获取模块、迁移训练模块,其中:
所述第一获取模块,用于获取原始数据集和任务数据集;
所述确定模块,用于确定所述原始数据集在所述任务数据集所涉及的域上划分的目标子集;
所述第二获取模块,用于获取利用所述目标子集训练得到的第一网络模型;其中,所述第一网络模型为基于预训练模型和第一头部网络搭建的;所述预训练模型为利用所述原始数据集训练得到的;
所述迁移训练模块,用于利用所述任务数据集,训练搭建的第二网络模型,得到完成训练的第二网络模型;其中,所述第二网络模型为基于所述第一网络模型和第二头部网络搭建的。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至9任一项所述方法中的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9任一项所述方法中的步骤。
CN202210600618.6A 2022-05-30 2022-05-30 迁移学习方法、装置、设备及存储介质 Pending CN114912540A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210600618.6A CN114912540A (zh) 2022-05-30 2022-05-30 迁移学习方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210600618.6A CN114912540A (zh) 2022-05-30 2022-05-30 迁移学习方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114912540A true CN114912540A (zh) 2022-08-16

Family

ID=82768117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210600618.6A Pending CN114912540A (zh) 2022-05-30 2022-05-30 迁移学习方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114912540A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117217288A (zh) * 2023-09-21 2023-12-12 摩尔线程智能科技(北京)有限责任公司 大模型的微调方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117217288A (zh) * 2023-09-21 2023-12-12 摩尔线程智能科技(北京)有限责任公司 大模型的微调方法、装置、电子设备和存储介质
CN117217288B (zh) * 2023-09-21 2024-04-05 摩尔线程智能科技(北京)有限责任公司 大模型的微调方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
Hao et al. HSME: Hypersphere manifold embedding for visible thermal person re-identification
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
Gao et al. Hierarchical LSTMs with adaptive attention for visual captioning
CN109117777B (zh) 生成信息的方法和装置
CN111523621B (zh) 图像识别方法、装置、计算机设备和存储介质
CN108132968B (zh) 网络文本与图像中关联语义基元的弱监督学习方法
US20180329892A1 (en) Captioning a region of an image
US11640518B2 (en) Method and apparatus for training a neural network using modality signals of different domains
WO2019100723A1 (zh) 训练多标签分类模型的方法和装置
WO2021057056A1 (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
CN112528780B (zh) 通过混合时域自适应的视频动作分割
Zhang A survey of unsupervised domain adaptation for visual recognition
JP2019527440A (ja) マルチ関連ラベルを生成する方法及びシステム
CN116171473A (zh) 用于视听事件定位的双模态关系网络
CN112016559A (zh) 实例分割模型的训练方法及装置,图像处理的方法及装置
CN112287170B (zh) 一种基于多模态联合学习的短视频分类方法及装置
CN114283351A (zh) 视频场景分割方法、装置、设备及计算机可读存储介质
Nida et al. Instructor activity recognition through deep spatiotemporal features and feedforward extreme learning machines
CN114298122A (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
WO2023088174A1 (zh) 目标检测方法及装置
CN114282055A (zh) 视频特征提取方法、装置、设备及计算机存储介质
Tsai et al. MobileNet-JDE: a lightweight multi-object tracking model for embedded systems
CN114912540A (zh) 迁移学习方法、装置、设备及存储介质
CN113870863A (zh) 声纹识别方法及装置、存储介质及电子设备
Ke et al. Spatial, structural and temporal feature learning for human interaction prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination