CN103020122B

CN103020122B - 一种基于半监督聚类的迁移学习方法

Info

Publication number: CN103020122B
Application number: CN201210464867.3A
Authority: CN
Inventors: 初妍; 陈曼; 沈洁; 夏琳琳; 王勇; 李丽洁; 高迪; 王兴梅
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2012-11-16
Filing date: 2012-11-16
Publication date: 2015-09-30
Anticipated expiration: 2032-11-16
Also published as: CN103020122A

Abstract

本发明提供的是一种基于半监督聚类的迁移学习方法。包括计算目标数据与辅助数据各类中数据的相似度、平均相似度；由平均相似度得到目标数据与类标签的一个相似度权重向量，取向量中权重最大的为目标数据的标签；以目标数据为质心，进行K-均值聚类，聚类成簇，每簇中以簇中数据占所属类中总数据比例最大者的标签为簇标签；将再分类结果与预分类结果做对比；在最终形成的目标数据相似度权重向量中，挑选权重最大的数据标签作为目标数据数据标签，从而形成最终分类器。本发明提供一种将分类方法、技术从一个领域迁移到另一个领域的提高分类结果精确度的一种基于半监督聚类的迁移学习方法。

Description

一种基于半监督聚类的迁移学习方法

技术领域

本发明涉及一种机器学习领域的方法，特别是涉及一种基于半监督聚类的迁移学习方法。

背景技术

机器学习中传统的分类器要求源数据与目标数据必须具备相同的分布，然而现代社会信息发展日新月异，这种假设在实际生活中很难实现。当出现不同分布的数据时，传统分类器就要重新收集大量数据，由专家对这些数据进行分析、标签。就要投入大量的人力、时间，这样做不仅效率不高，而且代价也是很昂贵的。而迁移学习就能克服从零开始收集数据的缺点。它能从不同但相似领域，迁移其有用的方法、技术到目标领域，帮助目标领域数据进行分类。

目前有一些对迁移学习方法的研究，但其主要是针对二分类的，即假设目标数据分类只分为两类：0或1。然而现实生活，数据复杂多样，分类不可能如此单一，这显然很不符合实际。对于多分类复杂分类器来说，该实验算法可能就会失效。还有一些方法，通过建立源领域到目标领域的桥梁，通过桥梁实现标签传递。标签传递过程中不断地修正由源领域训练得到的模型在目标领域数据集中的预测，最终并不能形成一个分类器。对于新来的数据，只能重新进行桥接精化的过程，这对于整个迁移学习过程效率很低。此外，目前对迁移学习方法的研究都面临着一个共同的问题：精确度不高。我们可以通过一些算法实现方法、技术的迁移，产生最终分类器。但是由于知识、能力的限制，使得最终分类器的分类精度不高，即分类误差比较大。

发明内容

本发明的目的在于提供一种将分类方法、技术从一个领域迁移到另一个领域的提高分类结果精确度的一种基于半监督聚类的迁移学习方法。

本发明的目的是这样实现的：

基于半监督聚类的迁移学习方法包括以下步骤：

（1）、计算目标数据与辅助数据各类中数据的相似度；

（2）、计算目标数据与辅助数据各类的平均相似度；

（3）、预分类：由平均相似度得到目标数据与类标签的一个相似度权重向量。取向量中权重最大的为目标数据的标签；

（4）、再分类：以目标数据为质心，进行K-均值聚类。聚类成簇，每簇中以簇中数据占所属类中总数据比例最大者的标签为簇标签；

（5）、将再分类结果与预分类结果做对比。若两者相同，则增大相似度权重向量中类标签权重；若不相同，则减小类标签权重；

（6）、在最终形成的目标数据相似度权重向量中，挑选权重最大的数据标签作为目标数据数据标签，从而形成最终分类器。

本发明的有益效果是：

1.改进机器学习中传统分类器，可以进行跨领域的知识、技术的迁移。

2.不只是停留在实验中二分类的情况，而是可以针对实际情况完成多分类的标签迁移，对目标数据进行分类任务。

3.最终可以产生分类器，该分类器可以是多类别分类器，符合实际，效率高，精确度也比较高。

4、可以用于相似领域的文本分类、网页分类、图像分类等，甚至可实现文本到图片或图片到文本分类方法、技术的迁移。

附图说明

图1为基于半监督聚类的迁移学习方法的流程图。

具体实施方式

本发明采用标准文本数据20Newsgroup作为实验数据。20Newsgroup是一个包含20000个新闻组的文档集，分为20个子类，7个顶层类。为使数据集满足迁移场景，本发明对数据集进行了重构。由于该数据集包含分属不同顶层类别的子类，可以将相同顶层类别的子类划分出来与不同顶层的子类构成不同领域的数据集。基于这种重构，源领域数据与目标数据来源于不同分布，但由于其子类又有相同的顶层类，因此两个领域数据又存在一定联系。源领域、目标领域数据如下：

下面结合附图举例对本发明做详细的描述：

本发明所提出的基于半监督聚类的迁移学习方法具体实现步骤如下：

把将要分类数据集称为目标数据。具体为当目标数据比较少，不足以形成一个分类器时，以不同但相似分布的带标签领域数据集作为辅助数据，利用半监督聚类的方法，将辅助数据的分类方法、技术，迁移到目标领域，形成一个分类器，从而为目标领域无标记数据进行分类。

1.分别将目标数据和辅助数据进行去停用词、词干化等预处理。提取出目标数据与辅助数据的共同特征，将目标数据和辅助数据用向量表示。然后分别计算辅助数据各类中数据与目标数据的相似度。

采用余弦距离函数来代表两个数据的相似度，即式中d_i，d_j是两个数据的向量表示，Sim(d_i,d_j)代表两个数据d_i,d_j的相似度。α代表两数据向量的夹角。该余弦值越大表示两个向量的夹角越小，两个数据就越相似。

2.整理1中计算结果，统计辅助数据各类中数据与目标数据的相似度。将目标数据与辅助数据中各类数据做平均相似度计算。计算方法如下：用C_i来代表类标签，t_j代表目标数据。假设C_i类中有n个数据，n个数据可表示为{s_i1,s_i2，...,s_in}。记某一目标数据t_j与C_i类平均相似度记为

\overset{&OverBar;}{Sim (i)} = \frac{Σ_{k = 1}^{n} Sim (t_{j}, s_{ik})}{n}

3.由平均相似度计算公式即可得到目标数据与每类的一个相似度，这样就可以得到目标数据与类标签的一个相似度权重向量。可以表示为m为类别数。取向量中权重最大的为该目标数据的标签。这样就可以得到每个目标数据的预分类标签。

4.将目标数据与辅助领域数据均匀混合，采用K均值方法对混合数据进行聚类。首先以目标数据为质心，进行聚类。聚类成簇，每簇中以该簇中数据占所属类中总数据比例最大者的标签为该簇标签。这样目标数据所在簇的标签即为其标签。

5.将聚类结果与预分类标签做比较，若两者相同，则增大其权重。具体方法为：该权重乘以系数λ；若不相同，则减小其权重。具体方法为：该权重除以系数λ。系数λ的得来如下：

6.在最终形成的目标数据相似度权重向量ST中，挑选权重最大的数据标签作为该数据标签，从而形成最终分类器。

Claims

1.一种基于半监督聚类的迁移学习方法，其特征在于包括以下步骤：

(1)、计算目标数据与辅助数据各类中数据的相似度；采用余弦距离函数来代表两个数据的相似度，即式中d_i、d_j是两个数据的向量表示，Sim(d_i,d_j)代表两个数据d_i、d_j的相似度，α代表两数据向量的夹角；

(2)、计算目标数据与辅助数据各类的平均相似度；用C_i来代表类标签，t_j代表目标数据，假设C_i类中有n个数据，n个数据可表示为{s_i1,s_i2,...,s_in}，记某一目标数据t_j与C_i类平均相似度记为

\overset{&OverBar;}{Sim (i)} = \frac{Σ_{k = 1}^{n} Sim (t_{j}, s_{ik})}{n};

(3)、预分类：由平均相似度得到目标数据与类标签的一个相似度权重向量，取向量中权重最大的为目标数据的标签；

(4)、再分类：以目标数据为质心，进行K-均值聚类，聚类成簇，每簇中以簇中数据占所属类中总数据比例最大者的标签为簇标签；

(5)、将再分类结果与预分类结果做对比，若两者相同，则增大相似度权重向量中类标签权重；若不相同，则减小类标签权重；该权重除以系数λ，系数λ的得来如下：

(6)、在最终形成的目标数据相似度权重向量中，挑选权重最大的数据标签作为目标数据数据标签，从而形成最终分类器。