CN103218405A - 基于维数约简的集成迁移文本分类方法 - Google Patents

基于维数约简的集成迁移文本分类方法 Download PDF

Info

Publication number
CN103218405A
CN103218405A CN2013100900960A CN201310090096A CN103218405A CN 103218405 A CN103218405 A CN 103218405A CN 2013100900960 A CN2013100900960 A CN 2013100900960A CN 201310090096 A CN201310090096 A CN 201310090096A CN 103218405 A CN103218405 A CN 103218405A
Authority
CN
China
Prior art keywords
text
territory
sample
source
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100900960A
Other languages
English (en)
Inventor
王爽
焦李成
刘婷婷
李鹏
侯彪
刘芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Kunshan Innovation Institute of Xidian University
Original Assignee
Xidian University
Kunshan Innovation Institute of Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University, Kunshan Innovation Institute of Xidian University filed Critical Xidian University
Priority to CN2013100900960A priority Critical patent/CN103218405A/zh
Publication of CN103218405A publication Critical patent/CN103218405A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于维数约简的集成迁移文本分类方法,包括步骤:1.入源域文本数据和目标域文本数据,进行预处理,将文本数据转化为单词向量形式;2.标记的源域数据集进行Boostrap随机采样遍,获取相应的个源域子集,再别与目标域测试样本组合成新的数据子集;3.个新的数据子集进行SVD分解并降维,投影到低维空间;4.低维空间中,采用近邻分类器作为基本分类器,由降维后的源域样本预测目标域测试样本的标签,每个测试样本得到个预测标签;5.多数投票的集成方式,得到测试文本数据的最终预测标签。本发明利用过期的源域样本对目标域文本分类,经维数约简后集成,大大提高了分类的正确率,并减少分类时间,降低分类复杂度。

Description

基于维数约简的集成迁移文本分类方法
技术领域
本发明属于计算机文本处理技术;特别是涉及迁移学习的文本分类技术,为一种基于维数约简的集成迁移文本分类方法。
背景技术
机器学习已经广泛的应用到各个领域中,并取得了丰硕的成果,但它还具有训练数据与测试数据分布的局限性,即要求训练数据和测试数据服从相同分布的条件,根据已有的标记样本建立分类模型,对测试样本进行分类预测。随着科学技术的飞速发展,人们每天都会收集大量的数据,其中,web网页文本数据是其中重要的一种,数据信息的更新也越来越快,常常导致数据过期,传统的机器学习算法需要从零开始,重新标注大量的训练文本数据,但是标注新数据需要耗费大量的财力、人力及物力,若丢弃掉那些大量的不同分布下的过期的训练数据也造成了资源的浪费。
(1)   文本分类
文本分类是文本挖掘中的一个重要问题,是在给定的分类体系中,将大量的文本数据划分为两类或多类。文本分类的步骤主要包括获取训练文本,文本特征提取与表示,利用训练文本训练分类器,选择性能评价标准,为了保证文本分类的准确率,还包括测试文本的获取,测试问题的特征提取与表示,由训练分类器去预测测试文本的类别标签,并由性能评价标准评价分类器的性能。
(2)迁移学习
迁移学习是一种新的机器学习框架,旨在将一个环境中的知识应用到新环境的领域与任务中。因此,迁移学习不需要服从数据同分布假设的条件。迁移学习(Transfer Learning)是机器学习领域中崭新的分支,不再要求训练数据和测试数据服从同分布的假设,它强调的是在不同但相似领域、任务和分布间进行知识的迁移。 
 在许多实际应用值,文本信息不仅数量庞大,包含的内容也在快速的变化更新,例如,web网页的内容经常变化主题。
我们称目标任务的文本为目标域文本或新文本,称以往积累的大量的已分类的文本为源域文本或旧文本。如何最大限度地利用源域文本的分类信息,对目标域文本进行分类,成为一个急需解决的问题。迁移学习成为文本分类挖掘领域的热门研究方向。
在大量的过期的源域文本数据作为训练文本的情况下,对新的目标域文本进行分类, 往往不很很好的利用源域样本的信息,分类性能不理想。所以,通过文本数据重组后经维数约简并集成,可以充分利用降维后差异性变小源域样本,来对目标域文本分类。
发明内容
基于上述现有技术存在的问题,本发明提出了一种基于维数约简的集成迁移文本分类方法,针对训练文本中仅有大量旧的源域文本的情况,利用迁移学习思想解决文本二分类问题,能有效地提高分类的准确率。
具体实现步骤包括如下:
 (1) 输入源域文本数据和目标域文本数据,进行初步预处理,将文本数据转化为单词向量形式:
1a) 统计每个文本中不同单词出现的次数,并将出现次数小于2的词语对应的次数定为0;
1b) 使用TF-IDF作为特征选取度量的方式,得到文本中词语的权重;
1c)将权重作为样本特征值,得到每个文本样本的特征向量;
1d) 将每一个特征向量形式的样本归一化,使得该向量的模值为单位1。
 (2) 将提取到的特征输入到目标域测试样本集                                               和源域有标记的样本集,其中,
Figure 171185DEST_PATH_IMAGE002
中的样本数目分别为
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE008
(3) 对有标记的源域样本集
Figure 992696DEST_PATH_IMAGE004
进行Boostrap随机采样得到相应的源域子集,并与目标域测试文本数据集重新组合成新的数据子集:
3a) 设定采样次数为T次,并以K近邻算法作为基本分类算法,其中K值由参数分析后确定;
3b) 以概率p从所述源域文本集
Figure 387905DEST_PATH_IMAGE004
中有放回的随机选取源域样本子集
Figure DEST_PATH_IMAGE010
,样本数目为
Figure DEST_PATH_IMAGE012
3d) 将上步得到的源域子集分别与目标域样本集
Figure 264594DEST_PATH_IMAGE002
组合成新的数据子集
Figure DEST_PATH_IMAGE014
,其中矩阵
Figure DEST_PATH_IMAGE016
,每行表示一个样本向量,前
Figure DEST_PATH_IMAGE018
行表示源域样本,后
Figure 211691DEST_PATH_IMAGE008
行表示目标域测试样本,则
Figure DEST_PATH_IMAGE020
(4) 分别将数据子集
Figure DEST_PATH_IMAGE022
中的两领域样本进行SVD奇异值分解:
Figure DEST_PATH_IMAGE024
(5) 将数据集投影到低维空间
Figure DEST_PATH_IMAGE028
,得到降维后的数据集
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE032
(6)在低维空间
Figure 727992DEST_PATH_IMAGE028
中,分别利用降维后的各数据子集中的源域样本对测试样本分类;
(7)检查所述算法的采样次数是否达到T,若已达到,则执行步骤(8);否则,返回步骤3b);
(8)采用投票的集成方式判定当前测试样本的标签,得票数多的预测结果作为最终的预测标签。
有益效果
与现有技术相比,本发明在SVD的维数约简的基础上引入了源域文本与目标域文本重组集成的思想,与传统的分类方法相比,拉近了源域文本与目标域文本之间的差异性,并且充分利用文本重组集成带来多样性的优势,使得文本分类的效果更好。
附图说明
图1为本发明的框架图;
图2为本发明的基本流程图。
具体实施措施
如图2所示,本发明的具体实施步骤如下:
步骤1. 输入源域文本数据和目标域文本数据,进行初步预处理,将文本数据转化为单词向量形式:
1a) 统计文本中不同单词出现的次数,并将出现次数小于2的词语对应的次数定为0;
1b) 使用TF-IDF作为特征选取度量的方式,得到文本中词语的权重:
TF(Term Frequency)是指词语在某篇文本中出现的频率,频率越大,则该词语对于这篇文本的表示贡献越大,表示对文本中某一词语局部重要性的度量;IDF(Inverse Document Frequency)为倒排文本频率,表示某一词语在整个文本集中的分布情况,文本集中含有该词语的文本数量越少,则该词语越能区分文本的不同类别,IDF 的计算公式为:
Figure DEST_PATH_IMAGE034
其中,表示文本集中所包含的文本总量,
Figure DEST_PATH_IMAGE038
表示在文本集中含有词语的文本数量。
Figure DEST_PATH_IMAGE042
能够通过提高文本集中少见词语的重要性来增加文本分类的区分度。TF-IDF方法利用公式TF*IDF来衡量词语的权重,较为常见的有:
其中为词语
Figure DEST_PATH_IMAGE048
在文本
Figure DEST_PATH_IMAGE050
中出现的次数,
Figure DEST_PATH_IMAGE052
为经过文本预处理后文本
Figure 238476DEST_PATH_IMAGE050
的词语总数,
Figure DEST_PATH_IMAGE054
为文本集中含有词语
Figure 975531DEST_PATH_IMAGE048
 的文本数量。
1c)将权重作为样本特征值,得到每个文本样本的特征向量;
1d) 将每一个特征向量形式的样本归一化,使得该向量的模值为单位1;
步骤2.将提取到的特征输入到目标域测试样本集
Figure 968895DEST_PATH_IMAGE002
和源域有标记的样本集
Figure 723224DEST_PATH_IMAGE004
,其中,
Figure 522553DEST_PATH_IMAGE002
Figure 45938DEST_PATH_IMAGE004
中的样本数目分别为
Figure 538100DEST_PATH_IMAGE006
Figure 779725DEST_PATH_IMAGE008
步骤3.对有标记的源域样本集
Figure 117166DEST_PATH_IMAGE004
进行Boostrap随机采样得到相应的源域子集,并与目标域测试文本数据集重新组合成新的数据子集:
3a) 设定采样次数为T次,并以K近邻算法作为基本分类算法,其中K值由参数分析后确定;
3b) 以概率p从所述源域文本集
Figure 760637DEST_PATH_IMAGE004
中有放回的随机选取源域样本子集,样本数目为
Figure 887041DEST_PATH_IMAGE012
3d) 将上步得到的源域子集分别与目标域样本集
Figure 965856DEST_PATH_IMAGE002
组合成新的数据子集
Figure 526150DEST_PATH_IMAGE014
,其中矩阵,每行表示一个样本向量,前
Figure 310752DEST_PATH_IMAGE018
行表示源域样本,后
Figure 193258DEST_PATH_IMAGE008
行表示目标域测试样本,则
Figure 608059DEST_PATH_IMAGE020
步骤4.分别将数据子集
Figure 550607DEST_PATH_IMAGE022
中的两领域样本进行SVD奇异值分解:
Figure 50858DEST_PATH_IMAGE024
步骤5.将数据集
Figure 471475DEST_PATH_IMAGE026
投影到低维空间
Figure 944045DEST_PATH_IMAGE028
,得到降维后的数据集
Figure 119811DEST_PATH_IMAGE030
Figure 45042DEST_PATH_IMAGE032
步骤6.在低维空间
Figure 331667DEST_PATH_IMAGE028
中,分别利用降维后的各数据子集中的源域样本对测试样本分类:
6a) 对于低维空间
Figure 455481DEST_PATH_IMAGE028
中的每个目标域测试样本
Figure DEST_PATH_IMAGE056
,根据相似度衡量方法中的余弦相似度计算
Figure DEST_PATH_IMAGE058
与各个源域样本间的相似度值
Figure DEST_PATH_IMAGE062
,并将其作为对应源域样本的权重;
Figure DEST_PATH_IMAGE064
6b) 降相似度值降序排列,抽取相似度值最高的前
Figure DEST_PATH_IMAGE066
个源域样本;
6c) 用这
Figure 926782DEST_PATH_IMAGE066
个样本对
Figure DEST_PATH_IMAGE068
加权投票,得到预测的标签
Figure DEST_PATH_IMAGE070
Figure DEST_PATH_IMAGE072
步骤7.检查所述算法的采样次数是否达到T,若已达到,则执行步骤(8);否则,返回步骤3b);
步骤8.采用投票的集成方式判定当前测试样本的标签,得票数多的预测结果作为最终的预测标签。

Claims (2)

1.一种基于维数约简的集成迁移文本分类方法,其特征在于:包括以下步骤
(1) 输入源域文本数据和目标域文本数据,进行初步预处理,将文本数据转化为单词向量形式:
1a) 统计每个文本中不同单词出现的次数,并将出现次数小于2的词语对应的次数定为0;
1b) 使用TF-IDF作为特征选取度量的方式,得到文本中词语的权重;
1c)将权重作为样本特征值,得到每个文本样本的特征向量;
1d) 将每一个特征向量形式的样本归一化,使得该向量的模值为单位1;
(2) 将提取到的特征输入到目标域测试样本集 
Figure 403942DEST_PATH_IMAGE001
和源域有标记的样本集
Figure 261040DEST_PATH_IMAGE002
,其中,
Figure 893009DEST_PATH_IMAGE001
Figure 482254DEST_PATH_IMAGE002
中的样本数目分别为
(3) 对有标记的源域样本集
Figure 361587DEST_PATH_IMAGE002
进行Boostrap随机采样得到相应的源域子集,并与目标域测试文本数据集重新组合成新的数据子集:
3a) 设定采样次数为T次,并以K近邻算法作为基本分类算法,其中K值由参数分析后确定;
3b) 以概率p从所述源域文本集
Figure 387312DEST_PATH_IMAGE002
中有放回的随机选取源域样本子集
Figure 654345DEST_PATH_IMAGE006
,样本数目为
Figure 525349DEST_PATH_IMAGE007
3d) 将上步得到的源域子集分别与目标域样本集
Figure 194228DEST_PATH_IMAGE001
组合成新的数据子集
Figure 390854DEST_PATH_IMAGE008
,其中矩阵,每行表示一个样本向量,前
Figure 819878DEST_PATH_IMAGE010
行表示源域样本,后
Figure 280947DEST_PATH_IMAGE005
行表示目标域测试样本,则
Figure 445212DEST_PATH_IMAGE011
(4) 分别将数据子集
Figure 624520DEST_PATH_IMAGE012
中的两领域样本进行SVD奇异值分解:
Figure 165223DEST_PATH_IMAGE013
(5) 将数据集
Figure 480798DEST_PATH_IMAGE014
投影到低维空间
Figure 81544DEST_PATH_IMAGE015
,得到降维后的数据集
Figure 544886DEST_PATH_IMAGE016
Figure 824033DEST_PATH_IMAGE017
(6)在低维空间
Figure 322010DEST_PATH_IMAGE015
中,分别利用降维后的各数据子集
Figure 765761DEST_PATH_IMAGE016
中的源域样本对测试样本分类;
(7)检查所述算法的采样次数是否达到T,若已达到,则执行步骤(8);否则,返回步骤3b);
(8)采用投票的集成方式判定当前测试样本的标签,得票数多的预测结果作为最终的预测标签。
2.根据权利要求1所述的基于维数约简的集成迁移文本分类方法,其特征在于:步骤(6)中所述的利用降维后的各数据子集中的源域样本对测试样本分类,具体采取的分类方法如下
6a) 在低维空间
Figure 981979DEST_PATH_IMAGE015
中,对于每个目标域测试样本
Figure 802167DEST_PATH_IMAGE018
,根据相似度衡量方法中的余弦夹角计算
Figure 154651DEST_PATH_IMAGE019
与各个源域样本间的相似度值,并将其作为对应源域样本的权重:
6b) 降相似度值降序排列,抽取相似度值最高的前
Figure 207238DEST_PATH_IMAGE021
个源域样本;
6c) 用这
Figure 831117DEST_PATH_IMAGE021
个样本对
Figure 38108DEST_PATH_IMAGE022
加权投票,得到预测的标签
Figure 89240DEST_PATH_IMAGE023
CN2013100900960A 2013-03-20 2013-03-20 基于维数约简的集成迁移文本分类方法 Pending CN103218405A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100900960A CN103218405A (zh) 2013-03-20 2013-03-20 基于维数约简的集成迁移文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100900960A CN103218405A (zh) 2013-03-20 2013-03-20 基于维数约简的集成迁移文本分类方法

Publications (1)

Publication Number Publication Date
CN103218405A true CN103218405A (zh) 2013-07-24

Family

ID=48816192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100900960A Pending CN103218405A (zh) 2013-03-20 2013-03-20 基于维数约简的集成迁移文本分类方法

Country Status (1)

Country Link
CN (1) CN103218405A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678580A (zh) * 2013-12-07 2014-03-26 浙江大学 一种用于文本分类的多任务机器学习方法及其装置
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法
CN107967253A (zh) * 2017-10-27 2018-04-27 北京大学 一种基于迁移学习的低资源领域分词器训练方法及分词方法
CN108021941A (zh) * 2017-11-30 2018-05-11 四川大学 药物肝毒性预测方法及装置
CN108398266A (zh) * 2018-01-22 2018-08-14 武汉科技大学 一种基于集成迁移学习的轴承故障诊断方法
CN109034207A (zh) * 2018-06-29 2018-12-18 华南理工大学 数据分类方法、装置和计算机设备
CN109740634A (zh) * 2018-12-11 2019-05-10 中科恒运股份有限公司 分类模型训练方法和终端设备
CN109934248A (zh) * 2018-12-11 2019-06-25 广州中医药大学(广州中医药研究院) 一种针对迁移学习的多模型随机生成与动态自适应组合方法
CN110909161A (zh) * 2019-11-12 2020-03-24 西安电子科技大学 基于密度聚类和视觉相似度的英文单词分类方法
CN111488712A (zh) * 2020-04-13 2020-08-04 中国船舶重工集团海装风电股份有限公司 一种基于迁移学习的风力发电机功率曲线建模方法
CN114021459A (zh) * 2021-11-05 2022-02-08 西安晟昕科技发展有限公司 一种小样本雷达辐射源的识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120185415A1 (en) * 2011-01-13 2012-07-19 International Business Machines Corporation System and method for domain adaption with partial observation
CN102750338A (zh) * 2012-06-04 2012-10-24 天津大学 面向迁移学习的文本处理方法及其文本特征提取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120185415A1 (en) * 2011-01-13 2012-07-19 International Business Machines Corporation System and method for domain adaption with partial observation
CN102750338A (zh) * 2012-06-04 2012-10-24 天津大学 面向迁移学习的文本处理方法及其文本特征提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PU WANG等: "Transfer Learning beyond Text Classification", 《ACML》 *
张浩 等: "文本分类技术研究进展", 《计算机与信息技术》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678580B (zh) * 2013-12-07 2017-08-08 浙江大学 一种用于文本分类的多任务机器学习方法及其装置
CN103678580A (zh) * 2013-12-07 2014-03-26 浙江大学 一种用于文本分类的多任务机器学习方法及其装置
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法
CN104142918B (zh) * 2014-07-31 2017-04-05 天津大学 基于tf‑idf特征的短文本聚类以及热点主题提取方法
CN107967253A (zh) * 2017-10-27 2018-04-27 北京大学 一种基于迁移学习的低资源领域分词器训练方法及分词方法
CN108021941A (zh) * 2017-11-30 2018-05-11 四川大学 药物肝毒性预测方法及装置
CN108021941B (zh) * 2017-11-30 2020-08-28 四川大学 药物肝毒性预测方法及装置
CN108398266B (zh) * 2018-01-22 2020-06-23 武汉科技大学 一种基于集成迁移学习的轴承故障诊断方法
CN108398266A (zh) * 2018-01-22 2018-08-14 武汉科技大学 一种基于集成迁移学习的轴承故障诊断方法
CN109034207A (zh) * 2018-06-29 2018-12-18 华南理工大学 数据分类方法、装置和计算机设备
CN109034207B (zh) * 2018-06-29 2021-01-05 华南理工大学 数据分类方法、装置和计算机设备
CN109740634A (zh) * 2018-12-11 2019-05-10 中科恒运股份有限公司 分类模型训练方法和终端设备
CN109934248A (zh) * 2018-12-11 2019-06-25 广州中医药大学(广州中医药研究院) 一种针对迁移学习的多模型随机生成与动态自适应组合方法
CN109934248B (zh) * 2018-12-11 2023-05-19 广州中医药大学(广州中医药研究院) 一种针对迁移学习的多模型随机生成与动态自适应组合方法
CN110909161A (zh) * 2019-11-12 2020-03-24 西安电子科技大学 基于密度聚类和视觉相似度的英文单词分类方法
CN110909161B (zh) * 2019-11-12 2022-04-08 西安电子科技大学 基于密度聚类和视觉相似度的英文单词分类方法
CN111488712A (zh) * 2020-04-13 2020-08-04 中国船舶重工集团海装风电股份有限公司 一种基于迁移学习的风力发电机功率曲线建模方法
CN114021459A (zh) * 2021-11-05 2022-02-08 西安晟昕科技发展有限公司 一种小样本雷达辐射源的识别方法

Similar Documents

Publication Publication Date Title
CN103218405A (zh) 基于维数约简的集成迁移文本分类方法
CN101794311B (zh) 基于模糊数据挖掘的中文网页自动分类方法
CN103632168B (zh) 一种机器学习中的分类器集成方法
CN102930063B (zh) 一种基于特征项选择与权重计算的文本分类方法
Suresh An unsupervised fuzzy clustering method for twitter sentiment analysis
CN104572958A (zh) 一种基于事件抽取的敏感信息监控方法
CN107545038B (zh) 一种文本分类方法与设备
CN103678274A (zh) 一种基于改进互信息和熵的文本分类特征提取方法
CN104598535A (zh) 一种基于最大熵的事件抽取方法
CN103294817A (zh) 一种基于类别分布概率的文本特征抽取方法
CN106203492A (zh) 一种图像隐写分析的系统及方法
CN109165529B (zh) 一种暗链篡改检测方法、装置和计算机可读存储介质
CN101604322A (zh) 一种决策级文本自动分类融合方法
CN108388929A (zh) 基于代价敏感和半监督分类的客户分类方法及装置
CN104346459A (zh) 一种基于术语频率和卡方统计的文本分类特征选择方法
CN104933445A (zh) 一种基于分布式K-means的海量图像分类方法
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
CN103310235B (zh) 一种基于参数识别与估计的隐写分析方法
CN109472310A (zh) 确定两份简历为相同人才的识别方法及装置
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN110287409A (zh) 一种网页类型识别方法及装置
CN104462229A (zh) 一种事件分类方法及装置
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN102609715B (zh) 一种结合多个兴趣点检测子的物体类识别方法
CN106227802A (zh) 一种基于中文自然语言处理和多核分类器的多信源股价预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130724