CN109598292A

CN109598292A - 一种不同辅助样本正负比例的迁移学习方法

Info

Publication number: CN109598292A
Application number: CN201811403924.0A
Authority: CN
Inventors: 李远清; 汤佳易
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2019-04-09

Abstract

本发明公开了一种不同辅助样本正负比例的迁移学习方法，包括步骤：1)将目标训练集分为K份，采用K折交叉验证，得到原始分类准确率；2)从辅助样本集中随机抽取不同正负样本比例的辅助样本子集；3)将不同正负样本比例的辅助样本子集和目标训练集合并进行迁移学习，并采用K折交叉验证，得到迁移学习分类准确率；4)求得各类正负样本比例的辅助样本子集给目标训练集带来的准确率的提升程度；5)对于每种比例，多次迭代，求出其迁移学习平均提升程度，并以此为目标训练集选择最好的正负样本比例的辅助样本子集，从而进行迁移学习并对目标测试集进行预测。本发明为一种新的评价标准用于评价迁移学习给目标训练集带来的准确率的提升程度。

Description

一种不同辅助样本正负比例的迁移学习方法

技术领域

本发明涉及机器学习的技术领域，尤其是指一种不同辅助样本正负比例的迁移学习方法。

背景技术

在传统的机器学习中，为保证训练得到的分类模型具有准确性和高可靠性，都有两个基本假设：1、训练数据和未来要处理的数据都处在相同的特征空间，并且有着相同的分布规律；2、必须有足够可利用的训练样本才能学习一个好的分类模型。但是，在现实世界的很多应用中，这个假设很可能是不成立的。比如，我们经常面临需要在一个领域内完成一项分类任务，却只在另一个领域中有足够的训练数据的情况。两者的数据可能有着不同的特征空间或者遵从不同的数据分布规律。在这种情况下，进行一次成功的知识迁移能极大的提升学习效果，从而避免大量繁重的数据标记的劳动。迁移学习运用从源领域学习的知识，对不同但相关的目标领域学习问题进行求解，解决目标领域中仅有有标签训练样本数据甚至没有的学习问题。

迁移学习又被分为归纳迁移学习(Inductive Transfer Learning),直推式迁移学习(Transductive Transfer Learning)，无监督迁移学习(unsupervised transferlearning)。其中，归纳迁移学习是指目标任务与原任务不同，目标域和源域可能相同也可能不同。直推式迁移学习是指原任务和目标任务相同的，目标域和源域可能相同也可能不同。无监督迁移学习是指原任务和目标任务不相同，且目标域数据以及源域数据都没有标签。

目前，还没有一种在迁移学习的时候，通过一种评价标准来选择不同的辅助样本正负比例的方法。例如中国专利(非平衡样本分类的集成迁移学习方法，公开号CN201110452050)。该发明通过在初始化时，将目标样本的正负样本赋予不同权重，保证占比总样本比例小但信息量大的样本初始权重大，以此进行训练和分类。中国专利(一种基于迁移学习的绝对不平衡文本分类方法，公开号CN 201710675091)。该发明采用改进的Tradaboost算法，对于不同领域不同类别的样本采取不同的权重更新方式；最终分类结果由所有节点的分类器加权投票得出。以上所述发明，都没有从辅助样本的不同正负比例上考虑，不同的目标训练样本集需要的辅助样本的正负比例是不同的。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种不同辅助样本正负比例的迁移学习方法，为一种新的评价标准用于评价迁移学习给目标训练集带来的准确率的提升程度，并根据迁移学习带来的准确率的提升程度为目标训练集选择最好的正负样本比例的辅助样本子集，从而进行迁移学习并对目标测试集进行预测。

为实现上述目的，本发明所提供的技术方案为：一种不同辅助样本正负比例的迁移学习方法，包括以下步骤：

1)将目标训练集分为K份，采用K折交叉验证，得到原始分类准确率；

2)从辅助样本集中随机抽取不同正负样本比例的辅助样本子集；

3)将不同正负样本比例的辅助样本子集和目标训练集合并进行迁移学习，并采用K折交叉验证，得到迁移学习分类准确率；

4)求得各类正负样本比例的辅助样本子集给目标训练集带来的准确率的提升程度；

5)对于每种比例，多次迭代，求出其迁移学习平均提升程度，并以此为目标训练集选择最好的正负样本比例的辅助样本子集，从而进行迁移学习并对目标测试集进行预测。

在步骤1)中，训练过程如下：

1.1)对需要训练分类器的数据集做滤波、去噪声这些预处理操作；

1.2)利用主成分分析法等特征提取方法对预处理后的数据集特征提取，将原本难以分类的训练数据变换到易于分类的数据空间；

1.3)将目标训练集分为正负样本均衡的K份，其中一份作为测试集，其余作为训练集，在训练集上利用支持向量机算法训练分类器，在测试集上预测，再将整个过程重复K次，得到原始分类准确率。

在步骤2)中，从辅助样本集中随机抽取不同正负样本比例的辅助样本子集，是指在抽取的辅助样本总数相同的情况下，有放回的抽取多种正负样本比例的辅助样本子集。

在步骤3)中，将不同正负样本比例的辅助样本子集和目标训练集合并进行迁移学习，并采用K折交叉验证，得到迁移学习分类准确率，包括如下步骤：

3.1)将目标训练集分为正负样本均衡的K份，其中一份作为测试集，其余作为训练集；

3.2)对于每种正负样本比例的辅助样本子集，将其与训练集合并，在合并集上利用支持向量机算法训练分类器，在测试集上预测；

3.3)将整个过程重复K次，即迁移学习下的K折交叉验证，得到迁移学习分类准确率。

在步骤4)中，各类正负样本比例的辅助样本子集给目标训练集带来的准确率的提升程度，是指对于每一种正负样本比例的辅助样本子集，用其迁移学习分类准确率，减去原始分类准确率，就得到了迁移学习带来的提升程度。

在步骤5)中，多次迭代步骤2)、步骤3)和步骤4)，求出在多次试验中，每种正负样本比例的辅助样本子集的迁移学习平均提升程度，并根据迁移学习平均提升程度为目标训练集选择最好的正负样本比例的辅助样本子集，从而进行迁移学习并对目标测试集进行预测。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明提出了一种新的评价标准用于评价迁移学习给目标训练集带来的提升程度。

2、本发明通过在辅助样本集和目标训练集之间进行迁移学习并协同进行交叉验证，突破了传统迁移学习需要先判断辅助样本与目标样本相似度的缺点。

3、本发明可以有效的判断出辅助样本对于目标样本是否带来了负迁移的不良影响。

4、本发明通过评判不同正负样本比例的辅助样本集给目标训练集带来的分类准确率的提升程度，选择最优的正负样本比例的辅助样本集，构建出对目标测试集有着最好分类效果的分类器。

附图说明

图1为本发明逻辑流程示意图。

图2为本发明使用的迁移学习提升程度的计算流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1和图2所示，本实施例所提供的不同辅助样本正负比例的迁移学习方法，可以应用在脑机接口方面(脑机接口系统中，脑电信号的非平稳性导致同一受试者不同环节或者多个受试者之间的信号统计分布不相同，限制了大量训练数据的可复用性。而当目标有标签数据集比较小，不足以训练一个好的分类器时，以不同但相似分布的有标签数据集作为辅助数据集，在自训练学习的过程中，将辅助数据集的分类方法、技术，迁移到目标领域，扩大目标有标签数据集的规模，从而为目标无标签数据集进行分类)，包括以下步骤：

2)从辅助样本集中随机抽取不同正负样本比例的辅助样本子集，其中，所述从辅助样本集中随机抽取不同正负样本比例的辅助样本子集，是指在抽取的辅助样本总数相同的情况下，有放回的抽取多种正负样本比例的辅助样本子集。

3)将不同正负样本比例的辅助样本子集和目标训练集合并进行迁移学习，并采用K折交叉验证，得到迁移学习分类准确率，包括如下步骤：

4)求得各类正负样本比例的辅助样本子集给目标训练集带来的准确率的提升程度；其中，各类正负样本比例的辅助样本子集给目标训练集带来的准确率的提升程度，是指对于每一种正负样本比例的辅助样本子集，用其迁移学习分类准确率，减去原始分类准确率，就得到了迁移学习带来的提升程度。如图2所示，P_old指的是原始分类准确率，P_new指的是迁移学习分类准确率，最终的迁移学习带来的提升程度：P＝P_new-P_old。

5)对于每种比例，多次迭代步骤2)、步骤3)和步骤4)，求出其迁移学习平均提升程度，并以此为目标训练集选择最好的正负样本比例的辅助样本子集，从而进行迁移学习并对目标测试集进行预测。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种不同辅助样本正负比例的迁移学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种不同辅助样本正负比例的迁移学习方法，其特征在于，在步骤1)中，训练过程如下：

1.2)利用特征提取方法对预处理后的数据集特征提取，将原本难以分类的训练数据变换到易于分类的数据空间；

3.根据权利要求1所述的一种不同辅助样本正负比例的迁移学习方法，其特征在于：在步骤2)中，从辅助样本集中随机抽取不同正负样本比例的辅助样本子集，是指在抽取的辅助样本总数相同的情况下，有放回的抽取多种正负样本比例的辅助样本子集。

4.根据权利要求1所述的一种不同辅助样本正负比例的迁移学习方法，其特征在于：在步骤3)中，将不同正负样本比例的辅助样本子集和目标训练集合并进行迁移学习，并采用K折交叉验证，得到迁移学习分类准确率，包括如下步骤：

5.根据权利要求1所述的一种不同辅助样本正负比例的迁移学习方法，其特征在于：在步骤4)中，各类正负样本比例的辅助样本子集给目标训练集带来的准确率的提升程度，是指对于每一种正负样本比例的辅助样本子集，用其迁移学习分类准确率，减去原始分类准确率，就得到了迁移学习带来的提升程度。

6.根据权利要求1所述的一种不同辅助样本正负比例的迁移学习方法，其特征在于：在步骤5)中，多次迭代步骤2)、步骤3)和步骤4)，求出在多次试验中，每种正负样本比例的辅助样本子集的迁移学习平均提升程度，并根据迁移学习平均提升程度为目标训练集选择最好的正负样本比例的辅助样本子集，从而进行迁移学习并对目标测试集进行预测。