CN108009593A - 一种迁移学习最优算法选取方法及系统 - Google Patents

一种迁移学习最优算法选取方法及系统 Download PDF

Info

Publication number
CN108009593A
CN108009593A CN201711350974.2A CN201711350974A CN108009593A CN 108009593 A CN108009593 A CN 108009593A CN 201711350974 A CN201711350974 A CN 201711350974A CN 108009593 A CN108009593 A CN 108009593A
Authority
CN
China
Prior art keywords
data
algorithm
transfer learning
probability distributions
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711350974.2A
Other languages
English (en)
Other versions
CN108009593B (zh
Inventor
龙明盛
王建民
杜兴强
黄向东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201711350974.2A priority Critical patent/CN108009593B/zh
Publication of CN108009593A publication Critical patent/CN108009593A/zh
Application granted granted Critical
Publication of CN108009593B publication Critical patent/CN108009593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种迁移学习最优算法选取方法,包括:获取源数据集的数据概率分布和目标数据集的数据概率分布;基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重,将所述源数据集划分为第一集合和第二集合;将所述第一集合作为测试集、所述第二集合作为训练集,对预设算法库中每一算法分别进行同一学习任务的迁移学习,并计算每一算法对应的误差值;选取所述误差值最低对应的算法作为所述迁移学习的最优算法。本发明提供的一种迁移学习最优算法选取方法及系统,通过分析源数据集和目标数据集之间的数据重要性权重,从而选取出表现最好的算法作为迁移学习的最优算法。

Description

一种迁移学习最优算法选取方法及系统
技术领域
本发明属于计算机数据处理技术领域,更具体地,涉及一种迁移学习最优算法选取方法及系统。
背景技术
在机器学习的经典监督学习场景中,如果我们要针对一些任务和域训练一个模型,我们会假设被提供了针对同一个域和任务的标签数据。我们可以在这个数据集上训练一个模型,并期望它在同一个任务和域中的未知数据上表现良好。这些数据要属于同一个任务和域,这样我们才能预期能在这个数据集上表现良好。当我们没有足够的来自于我们关心的任务或域的标签数据来训练可靠的模型时,传统的监督学习范式支持不了。在目标数据集的标签非常少甚至于没有标签的时候,迁移学习允许我们通过借用已经存在的一些相关的任务或域的标签数据来处理这些场景。例如我们要训练一个模型来检测在夜间拍摄的照片上的行人,我们可以用一个在相似的域中训练的模型,例如白天拍摄的图片。
但在迁移学习中存在一个模型选择问题,对不同的任务,我们需要从不同的算法中选择最优的算法来进行学习,在传统的监督学习中,可以通过交叉验证的办法来选择最优的算法进行学习,但是在迁移学习中,由于目标数据集缺少标签,这一方法无法实现。
因此,现在亟须一种迁移学习最优算法选取方法及系统,从而针对迁移学习过程,选择一种最优的算法完成学习过程。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的一种迁移学习最优算法选取方法,包括:
步骤S1、获取源数据集的数据概率分布和目标数据集的数据概率分布,计算数据的重要性权重;
步骤S2、基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重,将所述源数据集划分为第一集合和第二集合,所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度;
步骤S3、将所述第一集合作为测试集、所述第二集合作为训练集,对预设算法库中每一算法分别进行同一学习任务的迁移学习,并计算每一算法对应的误差值;
步骤S4、选取所述误差值最低对应的算法作为所述迁移学习的最优算法。
其中,步骤S2具体包括:
基于核均值匹配算法KMM,计算源数据集中每个数据对应的数据重要性权重,所述重要性权重为每个数据在所述目标数据集中和所述源数据集中的概率分布之比;
将数据重要性权重大于预设阈值的数据添加进所述第一集合,将数据重要性权重小于所述预设阈值的数据添加进所述第二集合。
其中,步骤S3具体包括:
步骤S31、将所述第二集合作为训练集,分别对所述预设算法库中的每一算法分别进行同一学习任务的迁移学习,得到每一算法对应的第一预测模型;
步骤S32、基于所述每一算法对应的第一预测模型,对所述目标数据集中的数据进行预测,得到目标数据集的预测值集合,并将所述预测值集合和所述第二集合合并,得到第三集合;
步骤S33、将所述第三集合作为训练集,分别对所述预设算法库中的每一算法分别进行同一学习任务的迁移学习,得到每一算法对应的第二预测模型;
步骤S34、将所述第一集合作为测试集对所述每一算法对应的第二预测模型进行测试,并计算每一算法对应的误差值。
其中,步骤S32包括:
基于所述每一算法对应的第一预测模型,对所述目标数据集中的数据进行预测,得到所述目标数据集中每一数据对应的标签;
将所述目标数据集中每一数据和每一数据对应的标签作为一组预测值,获取所述目标数据集中所有数据构成的预测值集合;
将所述预测值集合和所述第二集合合并,得到第三集合。
其中,步骤S34包括:
基于所述每一算法对应的第二预测模型,对所述第一集合中每一数据对应的标签进行预测,得到所述第一集合中每一数据对应的标签预测值;
基于所述第一集合中每一数据对应的标签预测值、所述第一集合中每一数据对应的实际标签值以及所述数据重要性权重,计算每一算法对应的误差值。
其中,所述基于所述第一集合中每一数据对应的标签预测值、所述第一集合中每一数据对应的实际标签值以及所述数据重要性权重,计算每一算法对应的误差值,具体包括:
其中,Fi为预设算法库中的其中一个算法,R(Fi)为算法对应的误差值,β(xj)为所述数据重要性权重,yj为数据对应的实际标签值,为数据对应的标签预测值。
其中,所述源数据集中所有数据均包含标签且所述目标数据集中所有数据均没有标签。
根据本发明的第二方面,提供一种迁移学习最优算法选取系统,包括:
获取模块,用于获取源数据集的数据概率分布和目标数据集的数据概率分布,计算数据的重要性权重;
划分模块,用于基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重,将所述源数据集划分为第一集合和第二集合,所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度;
误差计算模块,用于将所述第一集合作为测试集、所述第二集合作为训练集,对预设算法库中每一算法分别进行同一学习任务的迁移学习,并计算每一算法对应的误差值;
选取模块,用于选取所述误差值最低对应的算法作为所述迁移学习的最优算法。
根据本发明的第三方面,提供一种计算机程序产品,包括程序代码,所述程序代码用于执行上述所述的一种迁移学习最优算法选取方法。
根据本发明的第四方面,提供一种非暂态计算机可读存储介质,用于存储如前所述的计算机程序。
本发明提供的一种迁移学习最优算法选取方法及系统,通过分析源数据集和目标数据集之间的数据重要性权重,从而在源数据集中筛选出与目标数据集更近似的数据集作为学习样本,使得迁移学习算法的学习结果更能表现真实效果,从而选取出表现最好的算法作为迁移学习的最优算法。
附图说明
图1是本发明实施例提供的一种迁移学习最优算法选取方法流程图;
图2是本发明实施例提供的一种迁移学习最优算法选取方法总体流程框图;
图3是本发明实施例提供的一种迁移学习最优算法选取系统结构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
在传统的监督学习中,选取最优的学习算法会通过交叉验证的方式来进行选取,但在迁移学习中,由于迁移学习的目标数据集缺少标签,故而无法直接进行交叉验证的方法来进行最优算法选取。
针对上述现有技术存在的问题,本发明实施例提供了一种迁移学习最优算法选取方法,通过分析源数据集和目标数据集之间的数据重要性权重,从而在源数据集中筛选出与目标数据集更近似的数据集作为学习样本,使得迁移学习算法的学习结果更能表现真实效果,从而选取出表现最好的算法作为迁移学习的最优算法。
图1是本发明实施例提供的一种迁移学习最优算法选取方法流程图,如图1所示,所述方法包括:
步骤S1、获取源数据集的数据概率分布和目标数据集的数据概率分布,计算数据的重要性权重;
步骤S2、基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重,将所述源数据集划分为第一集合和第二集合,所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度;
步骤S3、将所述第一集合作为测试集、所述第二集合作为训练集,对预设算法库中每一算法分别进行同一学习任务的迁移学习,并计算每一算法对应的误差值;
步骤S4、选取所述误差值最低对应的算法作为所述迁移学习的最优算法。
需要说明的是,本发明实施例针对的是同一任务的迁移学习中,如何选取最优算法的方案,所述最优算法可以是学习算法也可以是学习算法中具体的参数,从而根据最优算法构建出更好的模型完成迁移学习过程。
在本发明提供的所有实施例中,根据本发明实施例根据迁移学习的学习任务,将作为源数据集,T={Xu}作为目标数据集。那么,步骤S1中对于源数据集中的每一个数据,都可以计算数据在源数据集中和目标数据集中的概率分布情况。
步骤S2中,根据步骤S1中计算得到的源数据集中的数据概率分布情况和目标数据集中的概率分布情况,可以分析数据在源数据集和目标数据集中的重要性权重,通过所述重要性权重能够将源数据集中的数据进行分类为第一集合和第二集合,所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度。
步骤S3中,由于第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度,故而第一集合更能反应目标数据集的真实情形,故而将第一集合作为测试集能够准确进行测试,进一步的,通过对预设算法库中每一算法都进行同一学习任务的迁移学习,能够得到每一个算法测试的误差值。
可以理解的是,所述算法库是本发明实施例需要选取的所有算法的集合,例如在某个迁移学习的任务中,有Naive Bayes(NB),SVM,C4.5,K-NN和CNN这样5种分类学习算法可以使用,那么将上述5种分类学习算法的集合作为本发明实施例预设的算法库,再计算每一分类算法对应的测试误差值,若F={F1,F2,...,Fm}表示预设的算法库,F中每一项代表一个学习算法,对应于上述5种分类学习算法,即F={NB,SVM,C4.5,K-NN,CNN}。
本发明实施例不对算法库中包括的具体算法类型和数量做具体限定,针对于不同的迁移学习任务,选取相应的任务添加进预设的算法库即可。
步骤S4中,通过选择误差值最低对应的算法,即可从预设的算法库中选出最能反应真实情形的算法进行迁移学习。
例如:本发明实施例提供一种迁移学习的任务为对产品的品质好坏进行分类,将产品A作为源数据集,产品B作为目标数据集,每一个分类算法都利用产品A的数据作为训练集,并对产品B的数据进行分类。其中产品A的数据带有标签、产品B的数据不带有标签,预设的算法库中包括了Naive Bayes(NB)、SVM、C4.5、K-NN和CNN,那么通过本发明实施例提供的方法,能够将产品A的数据分为训练集和测试集,使用训练集对上述5种算法逐一学习,再利用测试集计算误差值,从而选择误差值最低的一种算法作为产品质量品质分类算法。
本发明提供的一种迁移学习最优算法选取方法及系统,通过分析源数据集和目标数据集之间的数据重要性权重,从而在源数据集中筛选出与目标数据集更近似的数据集作为学习样本,使得迁移学习算法的学习结果更能表现真实效果,从而选取出表现最好的算法作为迁移学习的最优算法。
在上述实施例的基础上,步骤S2具体包括:
基于核均值匹配算法KMM,计算源数据集中每个数据对应的数据重要性权重,所述重要性权重为每个数据在所述目标数据集中和所述源数据集中的概率分布之比;
将数据重要性权重大于预设阈值的数据添加进所述第一集合,将数重要性权重小于所述预设阈值的数据添加进所述第二集合。
需要说明的是,步骤S2实质上是数据在源数据集合和目标数据集中的分布情况对源数据集进行分组,本发明实施例中所述的重要性权重是每个数据在所述目标数据集中和所述源数据集中的概率分布之比,若数据表示为x,那么所述的重要性权重为其中,Pt(x)为数据在所述目标数据集中的概率分布,Ps(x)为数据在所述源数据集中的概率分布。
那么,通过β={β(x1),...,β(xn)}能够表示n个数据的重要性权重。
进一步的,本发明实施例中使用了核均值匹配算法KMM来计算上述β(X),可以理解的是,利用KMM算法的结果β(X)进行加权,可以让源数据集中更接近与目标数据集中的数据占比更大,从而能够弥补两个数据集之间的差异。
进一步的,通过将数据重要性权重大于预设阈值的数据添加进所述第一集合,将数据重要性权重小于所述预设阈值的数据添加进所述第二集合,例如:假设本发明实施例提供的阈值为t,若β(xi)>=t,则将xi对应的源数据集中元素(xi,yi)添加进第一集合,反之,若β(xi)<t,则将xi对应的源数据集中元素(xi,yi)添加进第二集合,其中yi代表数据xi对应的标签。
需要说明的是,预设阈值t可根据第一集合和第二集合的比例具体设置,本发明实施例对此不做具体限定。
在上述实施例的基础上,步骤S3具体包括:
步骤S31、将所述第二集合作为训练集,分别对所述预设算法库中的每一算法分别进行同一学习任务的迁移学习,得到每一算法对应的第一预测模型;
步骤S32、基于所述每一算法对应的第一预测模型,对所述目标数据集中的数据进行预测,得到目标数据集的预测值集合,并将所述预测值集合和所述第二集合合并,得到第三集合;
步骤S33、将所述第三集合作为训练集,分别对所述预设算法库中的每一算法分别进行同一学习任务的迁移学习,得到每一算法对应的第二预测模型;
步骤S34、将所述第一集合作为测试集对所述每一算法对应的第二预测模型进行测试,并计算每一算法对应的误差值。
可以理解的是,步骤S3实质上是对所有的算法学习后的模型进行交叉验证,判定不同算法学习后的模型对同一学习任务的有效程度。
在本发明实施例中,第一集合表示为Sk,第二集合表示为
具体的,步骤S31中,先利用第二集合作为训练集,分别对算法库F中每一算法Fi进行一次迁移学习,从而得到每一算法Fi对应的第一预测模型fi
步骤S32中,基于每一算法Fi对应的第一预测模型fi,对所述目标数据集T中的数据进行预测,得到目标数据集的预测值集合,并将所述预测值集合和所述第二集合合并,得到第三集合
步骤S33中,将所述第三集合作为训练集,分别对所述预设算法库F中的每一算法Fi分别进行同一学习任务的迁移学习,得到每一算法对应的第二预测模型
步骤S34中,将所述第一集合Sk作为测试集对所述每一算法对应的第二预测模型进行测试,并计算每一算法对应的误差值R(Fi)。
在上述实施例的基础上,步骤S32包括:
基于所述每一算法对应的第一预测模型,对所述目标数据集中的数据进行预测,得到所述目标数据集中每一数据对应的标签;
将所述目标数据集中每一数据和每一数据对应的标签作为一组预测值,获取所述目标数据集中所有数据构成的预测值集合;
将所述预测值集合和所述第二集合合并,得到第三集合。
可以理解的是,对所述目标数据集中的数据进行预测实质上是对于目标数据集中数据标签的预测,将目标数据集中每一数据和每一数据对应的标签表示为那么
在上述实施例的基础上,步骤S34包括:
基于所述每一算法对应的第二预测模型,对所述第一集合中每一数据对应的标签进行预测,得到所述第一集合中每一数据对应的标签预测值;
基于所述第一集合中每一数据对应的标签预测值、所述第一集合中每一数据对应的实际标签值以及所述数据重要性权重,计算每一算法对应的误差值。
可以理解的是,本发明实施例提供的第一集合实质上是验证算法学习后的第二预测模型的误差程度,通过使用第一集合Sk对第二预测模型进行验证。使用对Sk进行预测得到第一集合中每一数据对应的标签预测值
在上述实施例的基础上,所述基于所述第一集合中每一数据对应的标签预测值、所述第一集合中每一数据对应的实际标签值以及所述数据重要性权重,计算每一算法对应的误差值,具体包括:
其中,Fi为预设算法库中的其中一个算法,R(Fi)为算法对应的误差值,β(xj)为所述数据重要性权重,yj为数据对应的实际标签值,为数据对应的标签预测值。
通过上述计算式,可以计算每一个算法对应的误差值R={R(F1),...,R(Fm)},从而从所有R(Fi)中选取作为迁移学习的最优结果。
在上述实施例的基础上,所述源数据集中所有数据均包含标签且所述目标数据集中所有数据均没有标签。
图2是本发明实施例提供的一种迁移学习最优算法选取方法总体流程框图,如图2所示,在本发明实施例中,根据迁移学习需要执行的具体任务,确定源数据集合S、目标数据集T以及待选算法集合F,即上述实施例中的预设算法库;
进一步的,通过KMM算法将源数据集S分为第一集合Sk,第二集合同时将第一集合Sk作为验证集,即本发明上述实施例中的测试集,将第二集合作为训练集,对F中所有算法进行遍历,对于遍历过程,具体可参见上述实施例,本发明实施例在此不再赘述。
图3是本发明实施例提供的一种迁移学习最优算法选取系统结构图,如图3所示,一种迁移学习最优算法选取系统,包括:获取模块1、划分模块2、误差计算模块3以及选取模块4,其中:
获取模块1用于获取源数据集的数据概率分布和目标数据集的数据概率分布,计算数据的重要性权重;
划分模块2用于基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重,将所述源数据集划分为第一集合和第二集合,所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度;
误差计算模块3用于将所述第一集合作为测试集、所述第二集合作为训练集,对预设算法库中每一算法分别进行同一学习任务的迁移学习,并计算每一算法对应的误差值;
选取模块4用于选取所述误差值最低对应的算法作为所述迁移学习的最优算法。
具体的如何利用获取模块1、划分模块2、误差计算模块3以及选取模块4对迁移学习最优的算法进行选取可参见上述实施例,本发明实施例对此不再赘述。
本发明实施例提供一种迁移学习最优算法选取系统,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令以执行上述各方法实施例所提供的方法,例如包括:步骤S1、获取源数据集的数据概率分布和目标数据集的数据概率分布,计算数据的重要性权重;步骤S2、基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重,将所述源数据集划分为第一集合和第二集合,所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度;步骤S3、将所述第一集合作为测试集、所述第二集合作为训练集,对预设算法库中每一算法分别进行同一学习任务的迁移学习,并计算每一算法对应的误差值;步骤S4、选取所述误差值最低对应的算法作为所述迁移学习的最优算法。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:步骤S1、获取源数据集的数据概率分布和目标数据集的数据概率分布,计算数据的重要性权重;步骤S2、基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重,将所述源数据集划分为第一集合和第二集合,所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度;步骤S3、将所述第一集合作为测试集、所述第二集合作为训练集,对预设算法库中每一算法分别进行同一学习任务的迁移学习,并计算每一算法对应的误差值;步骤S4、选取所述误差值最低对应的算法作为所述迁移学习的最优算法。
实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:步骤S1、获取源数据集的数据概率分布和目标数据集的数据概率分布,计算数据的重要性权重;步骤S2、基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重,将所述源数据集划分为第一集合和第二集合,所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度;步骤S3、将所述第一集合作为测试集、所述第二集合作为训练集,对预设算法库中每一算法分别进行同一学习任务的迁移学习,并计算每一算法对应的误差值;步骤S4、选取所述误差值最低对应的算法作为所述迁移学习的最优算法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种迁移学习最优算法选取方法,其特征在于,包括:
步骤S1、获取源数据集的数据概率分布和目标数据集的数据概率分布,计算数据的重要性权重;
步骤S2、基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重,将所述源数据集划分为第一集合和第二集合,所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度;
步骤S3、将所述第一集合作为测试集、所述第二集合作为训练集,对预设算法库中每一算法分别进行同一学习任务的迁移学习,并计算每一算法对应的误差值;
步骤S4、选取所述误差值最低对应的算法作为所述迁移学习的最优算法。
2.根据权利要求1所述的方法,其特征在于,步骤S2具体包括:
基于核均值匹配算法KMM,计算源数据集中每个数据对应的数据重要性权重,所述重要性权重为每个数据在所述目标数据集中和所述源数据集中的概率分布之比;
将数据重要性权重大于预设阈值的数据添加进所述第一集合,将重要性权重小于所述预设阈值的数据添加进所述第二集合。
3.根据权利要求1所述的方法,其特征在于,步骤S3具体包括:
步骤S31、将所述第二集合作为训练集,分别对所述预设算法库中的每一算法分别进行同一学习任务的迁移学习,得到每一算法对应的第一预测模型;
步骤S32、基于所述每一算法对应的第一预测模型,对所述目标数据集中的数据进行预测,得到目标数据集的预测值集合,并将所述预测值集合和所述第二集合合并,得到第三集合;
步骤S33、将所述第三集合作为训练集,分别对所述预设算法库中的每一算法分别进行同一学习任务的迁移学习,得到每一算法对应的第二预测模型;
步骤S34、将所述第一集合作为测试集对所述每一算法对应的第二预测模型进行测试,并计算每一算法对应的误差值。
4.根据权利要求3所述的方法,其特征在于,步骤S32包括:
基于所述每一算法对应的第一预测模型,对所述目标数据集中的数据进行预测,得到所述目标数据集中每一数据对应的标签;
将所述目标数据集中每一数据和每一数据对应的标签作为一组预测值,获取所述目标数据集中所有数据构成的预测值集合;
将所述预测值集合和所述第二集合合并,得到第三集合。
5.根据权利要求3所述的方法,其特征在于,步骤S34包括:
基于所述每一算法对应的第二预测模型,对所述第一集合中每一数据对应的标签进行预测,得到所述第一集合中每一数据对应的标签预测值;
基于所述第一集合中每一数据对应的标签预测值、所述第一集合中每一数据对应的实际标签值以及所述数据重要性权重,计算每一算法对应的误差值。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一集合中每一数据对应的标签预测值、所述第一集合中每一数据对应的实际标签值以及所述数据重要性权重,计算每一算法对应的误差值,具体包括:
<mrow> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mi>j</mi> </munder> <msub> <mi>r</mi> <mi>j</mi> </msub> </mrow>
<mrow> <msub> <mi>r</mi> <mi>j</mi> </msub> <mo>=</mo> <mi>&amp;beta;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>-</mo> <mover> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>-</mo> </mover> <mo>|</mo> </mrow>
其中,Fi为预设算法库中的其中一个算法,R(Fi)为算法对应的误差值,β(xj)为所述数据重要性权重,yj为数据对应的实际标签值,为数据对应的标签预测值。
7.根据权利要求1-6任一所述的方法,其特征在于,所述源数据集中所有数据均包含标签且所述目标数据集中所有数据均没有标签。
8.一种迁移学习最优算法选取系统,其特征在于,包括:
获取模块,用于获取源数据集的数据概率分布和目标数据集的数据概率分布,计算数据的重要性权重;
划分模块,用于基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重,将所述源数据集划分为第一集合和第二集合,所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度;
误差计算模块,用于将所述第一集合作为测试集、所述第二集合作为训练集,对预设算法库中每一算法分别进行同一学习任务的迁移学习,并计算每一算法对应的误差值;
选取模块,用于选取所述误差值最低对应的算法作为所述迁移学习的最优算法。
9.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如权利要求1至7任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。
CN201711350974.2A 2017-12-15 2017-12-15 一种迁移学习最优算法选取方法及系统 Active CN108009593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711350974.2A CN108009593B (zh) 2017-12-15 2017-12-15 一种迁移学习最优算法选取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711350974.2A CN108009593B (zh) 2017-12-15 2017-12-15 一种迁移学习最优算法选取方法及系统

Publications (2)

Publication Number Publication Date
CN108009593A true CN108009593A (zh) 2018-05-08
CN108009593B CN108009593B (zh) 2018-12-11

Family

ID=62059264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711350974.2A Active CN108009593B (zh) 2017-12-15 2017-12-15 一种迁移学习最优算法选取方法及系统

Country Status (1)

Country Link
CN (1) CN108009593B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846444A (zh) * 2018-06-23 2018-11-20 重庆大学 面向多源数据挖掘的多阶段深度迁移学习方法
CN110457274A (zh) * 2019-08-14 2019-11-15 北京思图场景数据科技服务有限公司 一种基于迁移学习的数据文件处理方法、装置、设备以及计算机存储介质
CN110516514A (zh) * 2018-05-22 2019-11-29 杭州海康威视数字技术股份有限公司 一种目标检测模型的建模方法和装置
CN110610457A (zh) * 2018-06-14 2019-12-24 杭州海康威视数字技术股份有限公司 全景图像拼接方法、装置以及系统
CN111797870A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 算法模型的优化方法、装置、存储介质及电子设备
CN112069151A (zh) * 2020-09-04 2020-12-11 之江实验室 任务管理方案生成方法、系统及计算机可读存储介质、电子设备
WO2021022933A1 (zh) * 2019-08-06 2021-02-11 平安科技(深圳)有限公司 多任务预测方法、装置、电子设备及存储介质
CN113066479A (zh) * 2019-12-12 2021-07-02 北京沃东天骏信息技术有限公司 一种评测模型的方法和装置
CN114739313A (zh) * 2022-02-18 2022-07-12 西北大学 一种三维激光扫描仪的标定方法
US11934922B2 (en) 2020-10-09 2024-03-19 International Business Machines Corporation Predictive data and model selection for transfer learning in natural language processing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150235143A1 (en) * 2003-12-30 2015-08-20 Kantrack Llc Transfer Learning For Predictive Model Development
WO2016070034A1 (en) * 2014-10-31 2016-05-06 Linkedin Corporation Transfer learning for bilingual content classification
CN105844287A (zh) * 2016-03-15 2016-08-10 民政部国家减灾中心 一种遥感影像分类的域自适应方法及系统
CN106295697A (zh) * 2016-08-10 2017-01-04 广东工业大学 一种基于半监督的迁移学习分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150235143A1 (en) * 2003-12-30 2015-08-20 Kantrack Llc Transfer Learning For Predictive Model Development
WO2016070034A1 (en) * 2014-10-31 2016-05-06 Linkedin Corporation Transfer learning for bilingual content classification
CN105844287A (zh) * 2016-03-15 2016-08-10 民政部国家减灾中心 一种遥感影像分类的域自适应方法及系统
CN106295697A (zh) * 2016-08-10 2017-01-04 广东工业大学 一种基于半监督的迁移学习分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
龙明盛: "迁移学习问题与方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516514A (zh) * 2018-05-22 2019-11-29 杭州海康威视数字技术股份有限公司 一种目标检测模型的建模方法和装置
CN110516514B (zh) * 2018-05-22 2022-09-30 杭州海康威视数字技术股份有限公司 一种目标检测模型的建模方法和装置
CN110610457A (zh) * 2018-06-14 2019-12-24 杭州海康威视数字技术股份有限公司 全景图像拼接方法、装置以及系统
CN108846444A (zh) * 2018-06-23 2018-11-20 重庆大学 面向多源数据挖掘的多阶段深度迁移学习方法
CN111797870A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 算法模型的优化方法、装置、存储介质及电子设备
WO2021022933A1 (zh) * 2019-08-06 2021-02-11 平安科技(深圳)有限公司 多任务预测方法、装置、电子设备及存储介质
CN110457274A (zh) * 2019-08-14 2019-11-15 北京思图场景数据科技服务有限公司 一种基于迁移学习的数据文件处理方法、装置、设备以及计算机存储介质
CN113066479A (zh) * 2019-12-12 2021-07-02 北京沃东天骏信息技术有限公司 一种评测模型的方法和装置
CN112069151A (zh) * 2020-09-04 2020-12-11 之江实验室 任务管理方案生成方法、系统及计算机可读存储介质、电子设备
US11934922B2 (en) 2020-10-09 2024-03-19 International Business Machines Corporation Predictive data and model selection for transfer learning in natural language processing
CN114739313A (zh) * 2022-02-18 2022-07-12 西北大学 一种三维激光扫描仪的标定方法

Also Published As

Publication number Publication date
CN108009593B (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
CN108009593B (zh) 一种迁移学习最优算法选取方法及系统
Sun et al. Evolving deep convolutional neural networks for image classification
US10719301B1 (en) Development environment for machine learning media models
Subramanian Deep Learning with PyTorch: A practical approach to building neural network models using PyTorch
US11556746B1 (en) Fast annotation of samples for machine learning model development
Dobrescu et al. Doing more with less: a multitask deep learning approach in plant phenotyping
Schaul et al. Unit tests for stochastic optimization
Garcia et al. A task-and-technique centered survey on visual analytics for deep learning model engineering
CN110084374A (zh) 构建基于pu学习的模型的方法、装置及预测方法、装置
US11537506B1 (en) System for visually diagnosing machine learning models
CN110348580A (zh) 构建gbdt模型的方法、装置及预测方法、装置
CN107220217A (zh) 基于逻辑回归的特征系数训练方法和装置
CN111292195A (zh) 风险账户的识别方法及装置
CA3131688A1 (en) Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions
Khandelwal et al. Analysis of transfer and residual learning for detecting plant diseases using images of leaves
Johnston et al. Applied Unsupervised Learning with Python: Discover hidden patterns and relationships in unstructured data with Python
Agarwal et al. Efficient NetB3 for Automated Pest Detection in Agriculture
Jha et al. The neural process family: Survey, applications and perspectives
Asfaqur Rahman et al. Rice disease detection based on image processing technique
Turkeš et al. Noise robustness of persistent homology on greyscale images, across filtrations and signatures
Keh Semi-supervised noisy student pre-training on efficientnet architectures for plant pathology classification
CN109002853A (zh) 农作物种类与病虫害类型的联合识别方法及装置
CN113743572A (zh) 一种基于Fuzz的人工神经网络测试方法
Cao et al. Discovering intrinsic spatial-temporal logic rules to explain human actions
CN107291722B (zh) 一种描述词的分类方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant