CN108009593A

CN108009593A - 一种迁移学习最优算法选取方法及系统

Info

Publication number: CN108009593A
Application number: CN201711350974.2A
Authority: CN
Inventors: 龙明盛; 王建民; 杜兴强; 黄向东
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-05-08
Anticipated expiration: 2037-12-15
Also published as: CN108009593B

Abstract

本发明提供一种迁移学习最优算法选取方法，包括：获取源数据集的数据概率分布和目标数据集的数据概率分布；基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重，将所述源数据集划分为第一集合和第二集合；将所述第一集合作为测试集、所述第二集合作为训练集，对预设算法库中每一算法分别进行同一学习任务的迁移学习，并计算每一算法对应的误差值；选取所述误差值最低对应的算法作为所述迁移学习的最优算法。本发明提供的一种迁移学习最优算法选取方法及系统，通过分析源数据集和目标数据集之间的数据重要性权重，从而选取出表现最好的算法作为迁移学习的最优算法。

Description

一种迁移学习最优算法选取方法及系统

技术领域

本发明属于计算机数据处理技术领域，更具体地，涉及一种迁移学习最优算法选取方法及系统。

背景技术

在机器学习的经典监督学习场景中，如果我们要针对一些任务和域训练一个模型，我们会假设被提供了针对同一个域和任务的标签数据。我们可以在这个数据集上训练一个模型，并期望它在同一个任务和域中的未知数据上表现良好。这些数据要属于同一个任务和域，这样我们才能预期能在这个数据集上表现良好。当我们没有足够的来自于我们关心的任务或域的标签数据来训练可靠的模型时，传统的监督学习范式支持不了。在目标数据集的标签非常少甚至于没有标签的时候，迁移学习允许我们通过借用已经存在的一些相关的任务或域的标签数据来处理这些场景。例如我们要训练一个模型来检测在夜间拍摄的照片上的行人，我们可以用一个在相似的域中训练的模型，例如白天拍摄的图片。

但在迁移学习中存在一个模型选择问题，对不同的任务，我们需要从不同的算法中选择最优的算法来进行学习，在传统的监督学习中，可以通过交叉验证的办法来选择最优的算法进行学习，但是在迁移学习中，由于目标数据集缺少标签，这一方法无法实现。

因此，现在亟须一种迁移学习最优算法选取方法及系统，从而针对迁移学习过程，选择一种最优的算法完成学习过程。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的一种迁移学习最优算法选取方法，包括：

步骤S1、获取源数据集的数据概率分布和目标数据集的数据概率分布，计算数据的重要性权重；

步骤S2、基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重，将所述源数据集划分为第一集合和第二集合，所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度；

步骤S3、将所述第一集合作为测试集、所述第二集合作为训练集，对预设算法库中每一算法分别进行同一学习任务的迁移学习，并计算每一算法对应的误差值；

步骤S4、选取所述误差值最低对应的算法作为所述迁移学习的最优算法。

其中，步骤S2具体包括：

基于核均值匹配算法KMM，计算源数据集中每个数据对应的数据重要性权重，所述重要性权重为每个数据在所述目标数据集中和所述源数据集中的概率分布之比；

将数据重要性权重大于预设阈值的数据添加进所述第一集合，将数据重要性权重小于所述预设阈值的数据添加进所述第二集合。

其中，步骤S3具体包括：

步骤S31、将所述第二集合作为训练集，分别对所述预设算法库中的每一算法分别进行同一学习任务的迁移学习，得到每一算法对应的第一预测模型；

步骤S32、基于所述每一算法对应的第一预测模型，对所述目标数据集中的数据进行预测，得到目标数据集的预测值集合，并将所述预测值集合和所述第二集合合并，得到第三集合；

步骤S33、将所述第三集合作为训练集，分别对所述预设算法库中的每一算法分别进行同一学习任务的迁移学习，得到每一算法对应的第二预测模型；

步骤S34、将所述第一集合作为测试集对所述每一算法对应的第二预测模型进行测试，并计算每一算法对应的误差值。

其中，步骤S32包括：

基于所述每一算法对应的第一预测模型，对所述目标数据集中的数据进行预测，得到所述目标数据集中每一数据对应的标签；

将所述目标数据集中每一数据和每一数据对应的标签作为一组预测值，获取所述目标数据集中所有数据构成的预测值集合；

将所述预测值集合和所述第二集合合并，得到第三集合。

其中，步骤S34包括：

基于所述每一算法对应的第二预测模型，对所述第一集合中每一数据对应的标签进行预测，得到所述第一集合中每一数据对应的标签预测值；

基于所述第一集合中每一数据对应的标签预测值、所述第一集合中每一数据对应的实际标签值以及所述数据重要性权重，计算每一算法对应的误差值。

其中，所述基于所述第一集合中每一数据对应的标签预测值、所述第一集合中每一数据对应的实际标签值以及所述数据重要性权重，计算每一算法对应的误差值，具体包括：

其中，F_i为预设算法库中的其中一个算法，R(F_i)为算法对应的误差值，β(x_j)为所述数据重要性权重，y_j为数据对应的实际标签值，为数据对应的标签预测值。

其中，所述源数据集中所有数据均包含标签且所述目标数据集中所有数据均没有标签。

根据本发明的第二方面，提供一种迁移学习最优算法选取系统，包括：

获取模块，用于获取源数据集的数据概率分布和目标数据集的数据概率分布，计算数据的重要性权重；

划分模块，用于基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重，将所述源数据集划分为第一集合和第二集合，所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度；

误差计算模块，用于将所述第一集合作为测试集、所述第二集合作为训练集，对预设算法库中每一算法分别进行同一学习任务的迁移学习，并计算每一算法对应的误差值；

选取模块，用于选取所述误差值最低对应的算法作为所述迁移学习的最优算法。

根据本发明的第三方面，提供一种计算机程序产品，包括程序代码，所述程序代码用于执行上述所述的一种迁移学习最优算法选取方法。

根据本发明的第四方面，提供一种非暂态计算机可读存储介质，用于存储如前所述的计算机程序。

本发明提供的一种迁移学习最优算法选取方法及系统，通过分析源数据集和目标数据集之间的数据重要性权重，从而在源数据集中筛选出与目标数据集更近似的数据集作为学习样本，使得迁移学习算法的学习结果更能表现真实效果，从而选取出表现最好的算法作为迁移学习的最优算法。

附图说明

图1是本发明实施例提供的一种迁移学习最优算法选取方法流程图；

图2是本发明实施例提供的一种迁移学习最优算法选取方法总体流程框图；

图3是本发明实施例提供的一种迁移学习最优算法选取系统结构图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

在传统的监督学习中，选取最优的学习算法会通过交叉验证的方式来进行选取，但在迁移学习中，由于迁移学习的目标数据集缺少标签，故而无法直接进行交叉验证的方法来进行最优算法选取。

针对上述现有技术存在的问题，本发明实施例提供了一种迁移学习最优算法选取方法，通过分析源数据集和目标数据集之间的数据重要性权重，从而在源数据集中筛选出与目标数据集更近似的数据集作为学习样本，使得迁移学习算法的学习结果更能表现真实效果，从而选取出表现最好的算法作为迁移学习的最优算法。

图1是本发明实施例提供的一种迁移学习最优算法选取方法流程图，如图1所示，所述方法包括：

需要说明的是，本发明实施例针对的是同一任务的迁移学习中，如何选取最优算法的方案，所述最优算法可以是学习算法也可以是学习算法中具体的参数，从而根据最优算法构建出更好的模型完成迁移学习过程。

在本发明提供的所有实施例中，根据本发明实施例根据迁移学习的学习任务，将作为源数据集，T＝{X_u}作为目标数据集。那么，步骤S1中对于源数据集中的每一个数据，都可以计算数据在源数据集中和目标数据集中的概率分布情况。

步骤S2中，根据步骤S1中计算得到的源数据集中的数据概率分布情况和目标数据集中的概率分布情况，可以分析数据在源数据集和目标数据集中的重要性权重，通过所述重要性权重能够将源数据集中的数据进行分类为第一集合和第二集合，所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度。

步骤S3中，由于第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度，故而第一集合更能反应目标数据集的真实情形，故而将第一集合作为测试集能够准确进行测试，进一步的，通过对预设算法库中每一算法都进行同一学习任务的迁移学习，能够得到每一个算法测试的误差值。

可以理解的是，所述算法库是本发明实施例需要选取的所有算法的集合，例如在某个迁移学习的任务中，有Naive Bayes(NB),SVM,C4.5,K-NN和CNN这样5种分类学习算法可以使用，那么将上述5种分类学习算法的集合作为本发明实施例预设的算法库，再计算每一分类算法对应的测试误差值，若F＝{F₁,F₂,...,F_m}表示预设的算法库，F中每一项代表一个学习算法，对应于上述5种分类学习算法，即F＝{NB,SVM,C4.5,K-NN,CNN}。

本发明实施例不对算法库中包括的具体算法类型和数量做具体限定，针对于不同的迁移学习任务，选取相应的任务添加进预设的算法库即可。

步骤S4中，通过选择误差值最低对应的算法，即可从预设的算法库中选出最能反应真实情形的算法进行迁移学习。

例如：本发明实施例提供一种迁移学习的任务为对产品的品质好坏进行分类，将产品A作为源数据集，产品B作为目标数据集，每一个分类算法都利用产品A的数据作为训练集，并对产品B的数据进行分类。其中产品A的数据带有标签、产品B的数据不带有标签，预设的算法库中包括了Naive Bayes(NB)、SVM、C4.5、K-NN和CNN，那么通过本发明实施例提供的方法，能够将产品A的数据分为训练集和测试集，使用训练集对上述5种算法逐一学习，再利用测试集计算误差值，从而选择误差值最低的一种算法作为产品质量品质分类算法。

在上述实施例的基础上，步骤S2具体包括：

将数据重要性权重大于预设阈值的数据添加进所述第一集合，将数重要性权重小于所述预设阈值的数据添加进所述第二集合。

需要说明的是，步骤S2实质上是数据在源数据集合和目标数据集中的分布情况对源数据集进行分组，本发明实施例中所述的重要性权重是每个数据在所述目标数据集中和所述源数据集中的概率分布之比，若数据表示为x，那么所述的重要性权重为其中，P_t(x)为数据在所述目标数据集中的概率分布，P_s(x)为数据在所述源数据集中的概率分布。

那么，通过β＝{β(x₁),...,β(x_n)}能够表示n个数据的重要性权重。

进一步的，本发明实施例中使用了核均值匹配算法KMM来计算上述β(X)，可以理解的是，利用KMM算法的结果β(X)进行加权，可以让源数据集中更接近与目标数据集中的数据占比更大，从而能够弥补两个数据集之间的差异。

进一步的，通过将数据重要性权重大于预设阈值的数据添加进所述第一集合，将数据重要性权重小于所述预设阈值的数据添加进所述第二集合，例如：假设本发明实施例提供的阈值为t，若β(x_i)＞＝t，则将x_i对应的源数据集中元素(x_i,y_i)添加进第一集合，反之，若β(x_i)＜t，则将x_i对应的源数据集中元素(x_i,y_i)添加进第二集合，其中y_i代表数据x_i对应的标签。

需要说明的是，预设阈值t可根据第一集合和第二集合的比例具体设置，本发明实施例对此不做具体限定。

在上述实施例的基础上，步骤S3具体包括：

可以理解的是，步骤S3实质上是对所有的算法学习后的模型进行交叉验证，判定不同算法学习后的模型对同一学习任务的有效程度。

在本发明实施例中，第一集合表示为S_k，第二集合表示为

具体的，步骤S31中，先利用第二集合作为训练集，分别对算法库F中每一算法F_i进行一次迁移学习，从而得到每一算法F_i对应的第一预测模型f_i。

步骤S32中，基于每一算法F_i对应的第一预测模型f_i，对所述目标数据集T中的数据进行预测，得到目标数据集的预测值集合，并将所述预测值集合和所述第二集合合并，得到第三集合

步骤S33中，将所述第三集合作为训练集，分别对所述预设算法库F中的每一算法F_i分别进行同一学习任务的迁移学习，得到每一算法对应的第二预测模型

步骤S34中，将所述第一集合S_k作为测试集对所述每一算法对应的第二预测模型进行测试，并计算每一算法对应的误差值R(F_i)。

在上述实施例的基础上，步骤S32包括：

将所述预测值集合和所述第二集合合并，得到第三集合。

可以理解的是，对所述目标数据集中的数据进行预测实质上是对于目标数据集中数据标签的预测，将目标数据集中每一数据和每一数据对应的标签表示为那么

在上述实施例的基础上，步骤S34包括：

可以理解的是，本发明实施例提供的第一集合实质上是验证算法学习后的第二预测模型的误差程度，通过使用第一集合S_k对第二预测模型进行验证。使用对S_k进行预测得到第一集合中每一数据对应的标签预测值

在上述实施例的基础上，所述基于所述第一集合中每一数据对应的标签预测值、所述第一集合中每一数据对应的实际标签值以及所述数据重要性权重，计算每一算法对应的误差值，具体包括：

通过上述计算式，可以计算每一个算法对应的误差值R＝{R(F₁),...,R(F_m)}，从而从所有R(F_i)中选取作为迁移学习的最优结果。

在上述实施例的基础上，所述源数据集中所有数据均包含标签且所述目标数据集中所有数据均没有标签。

图2是本发明实施例提供的一种迁移学习最优算法选取方法总体流程框图，如图2所示，在本发明实施例中，根据迁移学习需要执行的具体任务，确定源数据集合S、目标数据集T以及待选算法集合F，即上述实施例中的预设算法库；

进一步的，通过KMM算法将源数据集S分为第一集合S_k，第二集合同时将第一集合S_k作为验证集，即本发明上述实施例中的测试集，将第二集合作为训练集，对F中所有算法进行遍历，对于遍历过程，具体可参见上述实施例，本发明实施例在此不再赘述。

图3是本发明实施例提供的一种迁移学习最优算法选取系统结构图，如图3所示，一种迁移学习最优算法选取系统，包括：获取模块1、划分模块2、误差计算模块3以及选取模块4，其中：

获取模块1用于获取源数据集的数据概率分布和目标数据集的数据概率分布，计算数据的重要性权重；

划分模块2用于基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重，将所述源数据集划分为第一集合和第二集合，所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度；

误差计算模块3用于将所述第一集合作为测试集、所述第二集合作为训练集，对预设算法库中每一算法分别进行同一学习任务的迁移学习，并计算每一算法对应的误差值；

选取模块4用于选取所述误差值最低对应的算法作为所述迁移学习的最优算法。

具体的如何利用获取模块1、划分模块2、误差计算模块3以及选取模块4对迁移学习最优的算法进行选取可参见上述实施例，本发明实施例对此不再赘述。

本发明实施例提供一种迁移学习最优算法选取系统，包括：至少一个处理器；以及与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令以执行上述各方法实施例所提供的方法，例如包括：步骤S1、获取源数据集的数据概率分布和目标数据集的数据概率分布，计算数据的重要性权重；步骤S2、基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重，将所述源数据集划分为第一集合和第二集合，所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度；步骤S3、将所述第一集合作为测试集、所述第二集合作为训练集，对预设算法库中每一算法分别进行同一学习任务的迁移学习，并计算每一算法对应的误差值；步骤S4、选取所述误差值最低对应的算法作为所述迁移学习的最优算法。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：步骤S1、获取源数据集的数据概率分布和目标数据集的数据概率分布，计算数据的重要性权重；步骤S2、基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重，将所述源数据集划分为第一集合和第二集合，所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度；步骤S3、将所述第一集合作为测试集、所述第二集合作为训练集，对预设算法库中每一算法分别进行同一学习任务的迁移学习，并计算每一算法对应的误差值；步骤S4、选取所述误差值最低对应的算法作为所述迁移学习的最优算法。

实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：步骤S1、获取源数据集的数据概率分布和目标数据集的数据概率分布，计算数据的重要性权重；步骤S2、基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重，将所述源数据集划分为第一集合和第二集合，所述第一集合与所述目标数据集的数据概率分布相似度大于所述第二集合与所述目标数据集之间的数据概率分布相似度；步骤S3、将所述第一集合作为测试集、所述第二集合作为训练集，对预设算法库中每一算法分别进行同一学习任务的迁移学习，并计算每一算法对应的误差值；步骤S4、选取所述误差值最低对应的算法作为所述迁移学习的最优算法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种迁移学习最优算法选取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤S2具体包括：

将数据重要性权重大于预设阈值的数据添加进所述第一集合，将重要性权重小于所述预设阈值的数据添加进所述第二集合。

3.根据权利要求1所述的方法，其特征在于，步骤S3具体包括：

4.根据权利要求3所述的方法，其特征在于，步骤S32包括：

将所述预测值集合和所述第二集合合并，得到第三集合。

5.根据权利要求3所述的方法，其特征在于，步骤S34包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一集合中每一数据对应的标签预测值、所述第一集合中每一数据对应的实际标签值以及所述数据重要性权重，计算每一算法对应的误差值，具体包括：

<mrow> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>j</mi> </munder> <msub> <mi>r</mi> <mi>j</mi> </msub> </mrow>

7.根据权利要求1-6任一所述的方法，其特征在于，所述源数据集中所有数据均包含标签且所述目标数据集中所有数据均没有标签。

8.一种迁移学习最优算法选取系统，其特征在于，包括：

9.一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。