CN107316049A

CN107316049A - 一种基于半监督自训练的迁移学习分类方法

Info

Publication number: CN107316049A
Application number: CN201710312005.1A
Authority: CN
Inventors: 林程; 顾正晖
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-05-05
Filing date: 2017-05-05
Publication date: 2017-11-03

Abstract

本发明公开了一种基于半监督自训练的迁移学习分类方法，该方法是利用大量非目标有标签数据实现减少训练时间和资源，包括对目标有标签数据集训练初始分类器，对目标无标签数据集进行预分类；结合目标有标签数据集和多个辅助有标签数据集，采用自训练学习算法进行迭代训练。得到扩大的目标有标签数据集；对扩大的目标有标签数据集训练分类器，对目标无标签数据集分类，得到最终分类标签。本发明提高在少量训练数据情况下的分类精确度，减少训练时间，避免资源的浪费。

Description

一种基于半监督自训练的迁移学习分类方法

技术领域

本发明涉及机器学习的技术领域，尤其是指一种基于半监督自训练的迁移学习分类方法。

背景技术

在传统的机器学习中，为保证训练得到的分类模型具有准确性和高可靠性，都有两个基本假设：(1)学习的训练样本与新的测试样本满足独立同分布条件；(2)必须有足够可利用的训练样本才能学习一个好的分类模型。但在实际应用中由于训练数据过期或不同分布等情况都会导致假设不成立，限制了传统机器学习方法的使用，然而获得大量有标签样本费时费力。迁移学习运用从源领域学习的知识，对不同但相关的目标领域学习问题进行求解，解决目标领域中仅有有标签训练样本数据甚至没有的学习问题。

传统的机器学习方法分为监督学习和无监督学习。半监督学习是监督学习与无监督学习相结合的一种学习方法，是模式识别和机器学习领域研究的重点问题。它主要考虑如何利用有标签样本和大量无标签样本进行训练和分类的问题。半监督学习较有监督学习的最大区别就是它利用无标签样本和有标签样本共同训练分类器。自训练学习也是机器学习的一种的算法，首先利用有标签数据集训练出初始分类器，使用该分类器对一些无标签数据进行标记，将可信度最高的一些标签新示例放入到有标签数据集中，再在新的有标签数据集上进行下一次训练直到满足截止条件为止。

目前，还没有在自训练过程中利用辅助训练数据计算和判断无标签数据分类标签的置信度问题，例如中国专利(一种基于半监督聚类的迁移学习方法，公开号：CN201210464867)。该发明通过聚类方法计算目标数据所在簇中各类标签数据所占总数据比例来分类。中国专利(一种基于半监督的迁移学习分类方法，公开号：CN201610651405)。该发明利用多任务学习算法对目标数据的无标签数据和辅助数据集的特征分类器进行迁移迭代训练，得到目标分类器。以上所述发明，都没有从自训练学习的角度去考虑目标无标签样本及其分类标签的置信度问题。将迁移学习和自训练学习相结合的分类方法，能够综合两者的优势，更好的提高分类精确度，以实现减少训练资源。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供了一种基于半监督自训练的迁移学习分类方法，利用大量非目标有标签数据实现减少训练时间和资源，提高分类精确度。

为实现上述目的，本发明所提供的技术方案为：一种基于半监督自训练的迁移学习分类方法，包括以下步骤：

1)对目标有标签数据集进行训练得到初始分类器；

2)用初始分类器对目标无标签数据集的实例进行预测和分配标签，得到预分类标签；

3)结合目标有标签数据集和多个辅助有标签数据集，采用自训练学习算法对目标无标签数据集进行预测分类，并计算无标签数据集中每个实例的辅助分类标签置信度大小；

4)根据置信度大小对正确分类的无标签数据集实例按照降序进行排序，取置信度排在前面的N个实例及其辅助分类标签，加入到当前目标有标签数据集中，其中N＝1,2,3,4…；

5)多次迭代，逐渐扩大目标有标签数据集规模；

6)对于多次迭代后新的目标有标签数据集再次训练分类器，对目标无标签数据进行分类，得到最终分类标签。

在步骤1)中，训练过程如下：

1.1)对需要训练分类器的数据集做滤波、去噪声等预处理操作；

1.2)利用主成分分析法等特征提取方法对预处理后的数据集提取特征，将原本难以分类的训练数据变换到易于分类的数据空间；

1.3)利用支撑向量机算法等分类算法，根据变换后的训练数据及其已知的标签学习一个能准确分类的界线，即训练后的分类器。

在步骤3)中，所述采用自训练学习算法对目标无标签数据集进行预测分类，包括以下步骤：

3.1)对于多个辅助有标签数据集，目标有标签数据集分别和其中一个辅助有标签数据集组成新的有标签训练集，分别训练得到多个辅助分类器；

3.2)多个辅助分类器分别对目标无标签数据集进行预测分类，得到多个辅助预测结果和辅助分类标签；

3.3)根据目标无标签数据集每个实例的多个辅助预测结果，计算其分类标签的置信度；

3.4)将目标无标签数据集每个实例的多个辅助分类标签与预分类标签比较，分类标签相同的目标无标签实例判断为正确分类的实例，并将辅助分类标签赋予其作为标签。

在步骤5)中，多次迭代步骤3)和步骤4)，每次迭代会从目标无标签数据集中选取置信度排在前面的N个实例及其辅助分类标签加入当前的目标有标签数据集，多次迭代后得到新的目标有标签数据集，扩大了初始目标有标签数据集的规模。

本发明与现有技术相比，具有如下优点与有益效果：

1、改进机器学习领域中的传统分类方法，可以进行跨领域知识迁移。

2、在自训练过程中迁移非目标无标签数据的知识，结合目标有标签数据计算和判断目标无标签数据预测分类结果的置信度，提高在少量训练数据情况下的分类精确度，减少训练时间，避免资源的浪费。

3、本发明方法可以用于多种相似领域分类问题，如网页分类、文本分类、甚至本文到图片分类等。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例所提供的基于半监督自训练的迁移学习方法，可以应用在脑机接口方面(在脑机接口系统中，脑电信号的非平稳性导致同一受试者不同环节或者多个受试者之间的信号统计分布不相同，限制了大量训练数据的可复用性。而当目标有标签数据集比较小，不足以训练一个好的分类器时，以不同但相似分布的有标签数据集作为辅助数据集，在自训练学习的过程中，将辅助数据集的分类方法、技术，迁移到目标领域，扩大目标有标签数据集的规模，从而为目标无标签数据集进行分类)，包括以下步骤：

1)对目标有标签数据集进行训练得到初始分类器，其中训练过程如下：

3)结合目标有标签数据集和多个辅助有标签数据集，采用自训练学习算法对目标无标签数据集进行预测分类，并计算无标签数据集中每个实例的辅助分类标签置信度大小；其中采用自训练学习算法对目标无标签数据集进行预测分类，包括以下步骤：

4)根据置信度大小对正确分类的无标签数据集实例按照降序进行排序，取置信度排在前面的N个实例及其辅助分类标签，加入到当前目标有标签数据集中，其中N＝1,2,3,4…(通常取N为5)。

5)多次迭代，逐渐扩大目标有标签数据集规模，具体如下：

多次迭代步骤3)和步骤4)，每次迭代会从目标无标签数据集中选取置信度排在前面的N个实例及其辅助分类标签加入当前的目标有标签数据集，多次迭代后得到新的目标有标签数据集，扩大了初始目标有标签数据集的规模。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于半监督自训练的迁移学习分类方法，其特征在于，包括以下步骤：

1)对目标有标签数据集进行训练得到初始分类器；

5)多次迭代，逐渐扩大目标有标签数据集规模；

2.根据权利要求1所述的一种基于半监督自训练的迁移学习分类方法，其特征在于：在步骤1)中，训练过程如下：

1.1)对需要训练分类器的数据集做滤波、去噪声这些预处理操作；

1.2)利用主成分分析法对预处理后的数据集提取特征，将原本难以分类的训练数据变换到易于分类的数据空间；

1.3)利用支撑向量机算法，根据变换后的训练数据及其已知的标签学习一个能准确分类的界线，即训练后的分类器。

3.根据权利要求1所述的一种基于半监督自训练的迁移学习分类方法，其特征在于：在步骤3)中，所述采用自训练学习算法对目标无标签数据集进行预测分类，包括以下步骤：

4.根据权利要求1所述的一种基于半监督自训练的迁移学习分类方法，其特征在于：在步骤5)中，多次迭代步骤3)和步骤4)，每次迭代会从目标无标签数据集中选取置信度排在前面的N个实例及其辅助分类标签加入当前的目标有标签数据集，多次迭代后得到新的目标有标签数据集，扩大了初始目标有标签数据集的规模。