CN103020122B - 一种基于半监督聚类的迁移学习方法 - Google Patents

一种基于半监督聚类的迁移学习方法 Download PDF

Info

Publication number
CN103020122B
CN103020122B CN201210464867.3A CN201210464867A CN103020122B CN 103020122 B CN103020122 B CN 103020122B CN 201210464867 A CN201210464867 A CN 201210464867A CN 103020122 B CN103020122 B CN 103020122B
Authority
CN
China
Prior art keywords
data
label
target data
similarity
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210464867.3A
Other languages
English (en)
Other versions
CN103020122A (zh
Inventor
初妍
陈曼
沈洁
夏琳琳
王勇
李丽洁
高迪
王兴梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201210464867.3A priority Critical patent/CN103020122B/zh
Publication of CN103020122A publication Critical patent/CN103020122A/zh
Application granted granted Critical
Publication of CN103020122B publication Critical patent/CN103020122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供的是一种基于半监督聚类的迁移学习方法。包括计算目标数据与辅助数据各类中数据的相似度、平均相似度;由平均相似度得到目标数据与类标签的一个相似度权重向量,取向量中权重最大的为目标数据的标签;以目标数据为质心,进行K-均值聚类,聚类成簇,每簇中以簇中数据占所属类中总数据比例最大者的标签为簇标签;将再分类结果与预分类结果做对比;在最终形成的目标数据相似度权重向量中,挑选权重最大的数据标签作为目标数据数据标签,从而形成最终分类器。本发明提供一种将分类方法、技术从一个领域迁移到另一个领域的提高分类结果精确度的一种基于半监督聚类的迁移学习方法。

Description

一种基于半监督聚类的迁移学习方法
技术领域
本发明涉及一种机器学习领域的方法,特别是涉及一种基于半监督聚类的迁移学习方法。
背景技术
机器学习中传统的分类器要求源数据与目标数据必须具备相同的分布,然而现代社会信息发展日新月异,这种假设在实际生活中很难实现。当出现不同分布的数据时,传统分类器就要重新收集大量数据,由专家对这些数据进行分析、标签。就要投入大量的人力、时间,这样做不仅效率不高,而且代价也是很昂贵的。而迁移学习就能克服从零开始收集数据的缺点。它能从不同但相似领域,迁移其有用的方法、技术到目标领域,帮助目标领域数据进行分类。
目前有一些对迁移学习方法的研究,但其主要是针对二分类的,即假设目标数据分类只分为两类:0或1。然而现实生活,数据复杂多样,分类不可能如此单一,这显然很不符合实际。对于多分类复杂分类器来说,该实验算法可能就会失效。还有一些方法,通过建立源领域到目标领域的桥梁,通过桥梁实现标签传递。标签传递过程中不断地修正由源领域训练得到的模型在目标领域数据集中的预测,最终并不能形成一个分类器。对于新来的数据,只能重新进行桥接精化的过程,这对于整个迁移学习过程效率很低。此外,目前对迁移学习方法的研究都面临着一个共同的问题:精确度不高。我们可以通过一些算法实现方法、技术的迁移,产生最终分类器。但是由于知识、能力的限制,使得最终分类器的分类精度不高,即分类误差比较大。
发明内容
本发明的目的在于提供一种将分类方法、技术从一个领域迁移到另一个领域的提高分类结果精确度的一种基于半监督聚类的迁移学习方法。
本发明的目的是这样实现的:
基于半监督聚类的迁移学习方法包括以下步骤:
(1)、计算目标数据与辅助数据各类中数据的相似度;
(2)、计算目标数据与辅助数据各类的平均相似度;
(3)、预分类:由平均相似度得到目标数据与类标签的一个相似度权重向量。取向量中权重最大的为目标数据的标签;
(4)、再分类:以目标数据为质心,进行K-均值聚类。聚类成簇,每簇中以簇中数据占所属类中总数据比例最大者的标签为簇标签;
(5)、将再分类结果与预分类结果做对比。若两者相同,则增大相似度权重向量中类标签权重;若不相同,则减小类标签权重;
(6)、在最终形成的目标数据相似度权重向量中,挑选权重最大的数据标签作为目标数据数据标签,从而形成最终分类器。
本发明的有益效果是:
1.改进机器学习中传统分类器,可以进行跨领域的知识、技术的迁移。
2.不只是停留在实验中二分类的情况,而是可以针对实际情况完成多分类的标签迁移,对目标数据进行分类任务。
3.最终可以产生分类器,该分类器可以是多类别分类器,符合实际,效率高,精确度也比较高。
4、可以用于相似领域的文本分类、网页分类、图像分类等,甚至可实现文本到图片或图片到文本分类方法、技术的迁移。
附图说明
图1为基于半监督聚类的迁移学习方法的流程图。
具体实施方式
本发明采用标准文本数据20Newsgroup作为实验数据。20Newsgroup是一个包含20000个新闻组的文档集,分为20个子类,7个顶层类。为使数据集满足迁移场景,本发明对数据集进行了重构。由于该数据集包含分属不同顶层类别的子类,可以将相同顶层类别的子类划分出来与不同顶层的子类构成不同领域的数据集。基于这种重构,源领域数据与目标数据来源于不同分布,但由于其子类又有相同的顶层类,因此两个领域数据又存在一定联系。源领域、目标领域数据如下:
下面结合附图举例对本发明做详细的描述:
本发明所提出的基于半监督聚类的迁移学习方法具体实现步骤如下:
把将要分类数据集称为目标数据。具体为当目标数据比较少,不足以形成一个分类器时,以不同但相似分布的带标签领域数据集作为辅助数据,利用半监督聚类的方法,将辅助数据的分类方法、技术,迁移到目标领域,形成一个分类器,从而为目标领域无标记数据进行分类。
1.分别将目标数据和辅助数据进行去停用词、词干化等预处理。提取出目标数据与辅助数据的共同特征,将目标数据和辅助数据用向量表示。然后分别计算辅助数据各类中数据与目标数据的相似度。
采用余弦距离函数来代表两个数据的相似度,即式中di,dj是两个数据的向量表示,Sim(di,dj)代表两个数据di,dj的相似度。α代表两数据向量的夹角。该余弦值越大表示两个向量的夹角越小,两个数据就越相似。
2.整理1中计算结果,统计辅助数据各类中数据与目标数据的相似度。将目标数据与辅助数据中各类数据做平均相似度计算。计算方法如下:用Ci来代表类标签,tj代表目标数据。假设Ci类中有n个数据,n个数据可表示为{si1,si2,...,sin}。记某一目标数据tj与Ci类平均相似度记为
Sim ( i ) ‾ = Σ k = 1 n Sim ( t j , s ik ) n
3.由平均相似度计算公式即可得到目标数据与每类的一个相似度,这样就可以得到目标数据与类标签的一个相似度权重向量。可以表示为m为类别数。取向量中权重最大的为该目标数据的标签。这样就可以得到每个目标数据的预分类标签。
4.将目标数据与辅助领域数据均匀混合,采用K均值方法对混合数据进行聚类。首先以目标数据为质心,进行聚类。聚类成簇,每簇中以该簇中数据占所属类中总数据比例最大者的标签为该簇标签。这样目标数据所在簇的标签即为其标签。
5.将聚类结果与预分类标签做比较,若两者相同,则增大其权重。具体方法为:该权重乘以系数λ;若不相同,则减小其权重。具体方法为:该权重除以系数λ。系数λ的得来如下:
6.在最终形成的目标数据相似度权重向量ST中,挑选权重最大的数据标签作为该数据标签,从而形成最终分类器。

Claims (1)

1.一种基于半监督聚类的迁移学习方法,其特征在于包括以下步骤:
(1)、计算目标数据与辅助数据各类中数据的相似度;采用余弦距离函数来代表两个数据的相似度,即式中di、dj是两个数据的向量表示,Sim(di,dj)代表两个数据di、dj的相似度,α代表两数据向量的夹角;
(2)、计算目标数据与辅助数据各类的平均相似度;用Ci来代表类标签,tj代表目标数据,假设Ci类中有n个数据,n个数据可表示为{si1,si2,...,sin},记某一目标数据tj与Ci类平均相似度记为
Sim ( i ) ‾ = Σ k = 1 n Sim ( t j , s ik ) n ;
(3)、预分类:由平均相似度得到目标数据与类标签的一个相似度权重向量,取向量中权重最大的为目标数据的标签;
(4)、再分类:以目标数据为质心,进行K-均值聚类,聚类成簇,每簇中以簇中数据占所属类中总数据比例最大者的标签为簇标签;
(5)、将再分类结果与预分类结果做对比,若两者相同,则增大相似度权重向量中类标签权重;若不相同,则减小类标签权重;该权重除以系数λ,系数λ的得来如下:
(6)、在最终形成的目标数据相似度权重向量中,挑选权重最大的数据标签作为目标数据数据标签,从而形成最终分类器。
CN201210464867.3A 2012-11-16 2012-11-16 一种基于半监督聚类的迁移学习方法 Active CN103020122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210464867.3A CN103020122B (zh) 2012-11-16 2012-11-16 一种基于半监督聚类的迁移学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210464867.3A CN103020122B (zh) 2012-11-16 2012-11-16 一种基于半监督聚类的迁移学习方法

Publications (2)

Publication Number Publication Date
CN103020122A CN103020122A (zh) 2013-04-03
CN103020122B true CN103020122B (zh) 2015-09-30

Family

ID=47968726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210464867.3A Active CN103020122B (zh) 2012-11-16 2012-11-16 一种基于半监督聚类的迁移学习方法

Country Status (1)

Country Link
CN (1) CN103020122B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469192A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324708B (zh) * 2013-06-18 2016-06-29 哈尔滨工程大学 一种长文本到短文本的迁移学习方法
CN103823868B (zh) * 2014-02-26 2017-05-03 中国科学院计算技术研究所 一种面向在线百科的事件识别方法和事件关系抽取方法
CN104615722B (zh) * 2015-02-06 2018-04-27 浙江工业大学 基于密度搜索与快速划分的混合数据聚类方法
CN105023026B (zh) * 2015-08-18 2018-08-17 苏州大学张家港工业技术研究院 一种基于非负矩阵分解的半监督聚类方法及系统
CN106557485B (zh) * 2015-09-25 2020-11-06 北京国双科技有限公司 一种选取文本分类训练集的方法及装置
CN105677856A (zh) * 2016-01-07 2016-06-15 中国农业大学 一种基于半监督的主题模型文本分类方法
CN107665221A (zh) * 2016-07-29 2018-02-06 北京国双科技有限公司 关键词的分类方法和装置
CN107122378B (zh) * 2017-01-13 2021-03-16 北京星选科技有限公司 对象处理方法、装置及移动终端
CN107515908A (zh) * 2017-08-11 2017-12-26 新智数通(北京)技术服务有限公司 一种数据处理方法及装置
CN107944479B (zh) * 2017-11-16 2020-10-30 哈尔滨工业大学 基于半监督学习的疾病预测模型建立方法及装置
CN108229652B (zh) * 2017-11-28 2021-05-04 北京市商汤科技开发有限公司 神经网络模型迁移方法和系统、电子设备、程序和介质
CN109993191B (zh) * 2018-01-02 2021-07-06 中国移动通信有限公司研究院 信息处理方法及装置、电子设备及存储介质
CN109711430B (zh) * 2018-11-23 2021-10-01 北京三快在线科技有限公司 一种迁移知识确定方法、装置、设备及可读存储介质
CN109919324B (zh) * 2019-03-07 2023-07-25 广东工业大学 基于标签比例学习的迁移学习分类方法、系统及设备
CN110222317B (zh) * 2019-03-29 2023-05-26 中国地质大学(武汉) 一种PowerPoint演示文稿向Word文档转换的方法及系统
CN110647904B (zh) * 2019-08-01 2022-09-23 中国科学院信息工程研究所 一种基于无标记数据迁移的跨模态检索方法及系统
CN112101184B (zh) * 2020-09-11 2022-03-15 电子科技大学 一种基于半监督学习的无线跨域动作识别方法
CN112214535A (zh) * 2020-10-22 2021-01-12 上海明略人工智能(集团)有限公司 一种相似度计算方法、系统、电子设备及存储介质
CN113052534B (zh) * 2021-03-30 2023-08-01 上海东普信息科技有限公司 基于半监督聚类的地址分配方法、装置、设备及存储介质
CN113239924B (zh) * 2021-05-21 2022-04-26 上海交通大学 一种基于迁移学习的弱监督目标检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN102129470A (zh) * 2011-03-28 2011-07-20 中国科学技术大学 标签聚类方法和系统
CN102591915A (zh) * 2011-12-15 2012-07-18 南京大学 一种基于标签迁移学习的推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN102129470A (zh) * 2011-03-28 2011-07-20 中国科学技术大学 标签聚类方法和系统
CN102591915A (zh) * 2011-12-15 2012-07-18 南京大学 一种基于标签迁移学习的推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Semi-supervised Metric Learning Using Composite Kernel;T.Zzre等;《Telecommunications (IST), 2012 Sixth International Symposium on》;20121108;第1151-1156页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469192A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置

Also Published As

Publication number Publication date
CN103020122A (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
CN103020122B (zh) 一种基于半监督聚类的迁移学习方法
CN104143079B (zh) 人脸属性识别的方法和系统
CN107644057B (zh) 一种基于迁移学习的绝对不平衡文本分类方法
CN101944174B (zh) 车牌字符的识别方法
CN101751438B (zh) 自适应语义驱动的主题网页过滤系统
CN108984745A (zh) 一种融合多知识图谱的神经网络文本分类方法
CN101763440B (zh) 对搜索图像的过滤方法
CN102129568B (zh) 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法
CN103984959A (zh) 一种基于数据与任务驱动的图像分类方法
CN102651073A (zh) 基于稀疏动态集成选择的sar图像地物分类方法
CN103617435A (zh) 一种主动学习图像分类方法和系统
CN102200981B (zh) 面向多层文本分类的特征选择方法和装置
Nowak et al. Overview of the CLEF 2009 large-scale visual concept detection and annotation task
CN105224937A (zh) 基于人体部件位置约束的细粒度语义色彩行人重识别方法
CN108564166A (zh) 基于带对称跨层连接的卷积神经网络半监督特征学习方法
CN104268507A (zh) 一种基于rgb-d图像的手语字母识别方法
CN105447492A (zh) 一种基于二维局部二值模式的图像描述方法
CN108256630A (zh) 一种基于低维流形正则化神经网络的过拟合解决方法
CN105354600A (zh) 一种砂岩显微薄片的自动分类方法
CN106971000A (zh) 一种搜索方法及装置
CN110210550A (zh) 基于集成学习策略的图像细粒度识别方法
CN106203296A (zh) 一种属性辅助的视频动作识别方法
CN117237559A (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN103336830B (zh) 基于结构语义直方图的图像检索方法
Li et al. Mix-up augmentation for oracle character recognition with imbalanced data distribution

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant