CN103218405A - 基于维数约简的集成迁移文本分类方法 - Google Patents
基于维数约简的集成迁移文本分类方法 Download PDFInfo
- Publication number
- CN103218405A CN103218405A CN2013100900960A CN201310090096A CN103218405A CN 103218405 A CN103218405 A CN 103218405A CN 2013100900960 A CN2013100900960 A CN 2013100900960A CN 201310090096 A CN201310090096 A CN 201310090096A CN 103218405 A CN103218405 A CN 103218405A
- Authority
- CN
- China
- Prior art keywords
- text
- territory
- sample
- source
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于维数约简的集成迁移文本分类方法,包括步骤:1.入源域文本数据和目标域文本数据,进行预处理,将文本数据转化为单词向量形式;2.标记的源域数据集进行Boostrap随机采样遍,获取相应的个源域子集,再别与目标域测试样本组合成新的数据子集;3.个新的数据子集进行SVD分解并降维,投影到低维空间;4.低维空间中,采用近邻分类器作为基本分类器,由降维后的源域样本预测目标域测试样本的标签,每个测试样本得到个预测标签;5.多数投票的集成方式,得到测试文本数据的最终预测标签。本发明利用过期的源域样本对目标域文本分类,经维数约简后集成,大大提高了分类的正确率,并减少分类时间,降低分类复杂度。
Description
技术领域
本发明属于计算机文本处理技术;特别是涉及迁移学习的文本分类技术,为一种基于维数约简的集成迁移文本分类方法。
背景技术
机器学习已经广泛的应用到各个领域中,并取得了丰硕的成果,但它还具有训练数据与测试数据分布的局限性,即要求训练数据和测试数据服从相同分布的条件,根据已有的标记样本建立分类模型,对测试样本进行分类预测。随着科学技术的飞速发展,人们每天都会收集大量的数据,其中,web网页文本数据是其中重要的一种,数据信息的更新也越来越快,常常导致数据过期,传统的机器学习算法需要从零开始,重新标注大量的训练文本数据,但是标注新数据需要耗费大量的财力、人力及物力,若丢弃掉那些大量的不同分布下的过期的训练数据也造成了资源的浪费。
(1) 文本分类
文本分类是文本挖掘中的一个重要问题,是在给定的分类体系中,将大量的文本数据划分为两类或多类。文本分类的步骤主要包括获取训练文本,文本特征提取与表示,利用训练文本训练分类器,选择性能评价标准,为了保证文本分类的准确率,还包括测试文本的获取,测试问题的特征提取与表示,由训练分类器去预测测试文本的类别标签,并由性能评价标准评价分类器的性能。
(2)迁移学习
迁移学习是一种新的机器学习框架,旨在将一个环境中的知识应用到新环境的领域与任务中。因此,迁移学习不需要服从数据同分布假设的条件。迁移学习(Transfer Learning)是机器学习领域中崭新的分支,不再要求训练数据和测试数据服从同分布的假设,它强调的是在不同但相似领域、任务和分布间进行知识的迁移。
在许多实际应用值,文本信息不仅数量庞大,包含的内容也在快速的变化更新,例如,web网页的内容经常变化主题。
我们称目标任务的文本为目标域文本或新文本,称以往积累的大量的已分类的文本为源域文本或旧文本。如何最大限度地利用源域文本的分类信息,对目标域文本进行分类,成为一个急需解决的问题。迁移学习成为文本分类挖掘领域的热门研究方向。
在大量的过期的源域文本数据作为训练文本的情况下,对新的目标域文本进行分类, 往往不很很好的利用源域样本的信息,分类性能不理想。所以,通过文本数据重组后经维数约简并集成,可以充分利用降维后差异性变小源域样本,来对目标域文本分类。
发明内容
基于上述现有技术存在的问题,本发明提出了一种基于维数约简的集成迁移文本分类方法,针对训练文本中仅有大量旧的源域文本的情况,利用迁移学习思想解决文本二分类问题,能有效地提高分类的准确率。
具体实现步骤包括如下:
(1) 输入源域文本数据和目标域文本数据,进行初步预处理,将文本数据转化为单词向量形式:
1a) 统计每个文本中不同单词出现的次数,并将出现次数小于2的词语对应的次数定为0;
1b) 使用TF-IDF作为特征选取度量的方式,得到文本中词语的权重;
1c)将权重作为样本特征值,得到每个文本样本的特征向量;
1d) 将每一个特征向量形式的样本归一化,使得该向量的模值为单位1。
3a) 设定采样次数为T次,并以K近邻算法作为基本分类算法,其中K值由参数分析后确定;
(7)检查所述算法的采样次数是否达到T,若已达到,则执行步骤(8);否则,返回步骤3b);
(8)采用投票的集成方式判定当前测试样本的标签,得票数多的预测结果作为最终的预测标签。
有益效果
与现有技术相比,本发明在SVD的维数约简的基础上引入了源域文本与目标域文本重组集成的思想,与传统的分类方法相比,拉近了源域文本与目标域文本之间的差异性,并且充分利用文本重组集成带来多样性的优势,使得文本分类的效果更好。
附图说明
图1为本发明的框架图;
图2为本发明的基本流程图。
具体实施措施
如图2所示,本发明的具体实施步骤如下:
步骤1. 输入源域文本数据和目标域文本数据,进行初步预处理,将文本数据转化为单词向量形式:
1a) 统计文本中不同单词出现的次数,并将出现次数小于2的词语对应的次数定为0;
1b) 使用TF-IDF作为特征选取度量的方式,得到文本中词语的权重:
TF(Term Frequency)是指词语在某篇文本中出现的频率,频率越大,则该词语对于这篇文本的表示贡献越大,表示对文本中某一词语局部重要性的度量;IDF(Inverse Document Frequency)为倒排文本频率,表示某一词语在整个文本集中的分布情况,文本集中含有该词语的文本数量越少,则该词语越能区分文本的不同类别,IDF 的计算公式为:
1c)将权重作为样本特征值,得到每个文本样本的特征向量;
1d) 将每一个特征向量形式的样本归一化,使得该向量的模值为单位1;
3a) 设定采样次数为T次,并以K近邻算法作为基本分类算法,其中K值由参数分析后确定;
步骤7.检查所述算法的采样次数是否达到T,若已达到,则执行步骤(8);否则,返回步骤3b);
步骤8.采用投票的集成方式判定当前测试样本的标签,得票数多的预测结果作为最终的预测标签。
Claims (2)
1.一种基于维数约简的集成迁移文本分类方法,其特征在于:包括以下步骤
(1) 输入源域文本数据和目标域文本数据,进行初步预处理,将文本数据转化为单词向量形式:
1a) 统计每个文本中不同单词出现的次数,并将出现次数小于2的词语对应的次数定为0;
1b) 使用TF-IDF作为特征选取度量的方式,得到文本中词语的权重;
1c)将权重作为样本特征值,得到每个文本样本的特征向量;
1d) 将每一个特征向量形式的样本归一化,使得该向量的模值为单位1;
3a) 设定采样次数为T次,并以K近邻算法作为基本分类算法,其中K值由参数分析后确定;
(7)检查所述算法的采样次数是否达到T,若已达到,则执行步骤(8);否则,返回步骤3b);
(8)采用投票的集成方式判定当前测试样本的标签,得票数多的预测结果作为最终的预测标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013100900960A CN103218405A (zh) | 2013-03-20 | 2013-03-20 | 基于维数约简的集成迁移文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013100900960A CN103218405A (zh) | 2013-03-20 | 2013-03-20 | 基于维数约简的集成迁移文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103218405A true CN103218405A (zh) | 2013-07-24 |
Family
ID=48816192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013100900960A Pending CN103218405A (zh) | 2013-03-20 | 2013-03-20 | 基于维数约简的集成迁移文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103218405A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678580A (zh) * | 2013-12-07 | 2014-03-26 | 浙江大学 | 一种用于文本分类的多任务机器学习方法及其装置 |
CN104142918A (zh) * | 2014-07-31 | 2014-11-12 | 天津大学 | 基于tf-idf特征的短文本聚类以及热点主题提取方法 |
CN107967253A (zh) * | 2017-10-27 | 2018-04-27 | 北京大学 | 一种基于迁移学习的低资源领域分词器训练方法及分词方法 |
CN108021941A (zh) * | 2017-11-30 | 2018-05-11 | 四川大学 | 药物肝毒性预测方法及装置 |
CN108398266A (zh) * | 2018-01-22 | 2018-08-14 | 武汉科技大学 | 一种基于集成迁移学习的轴承故障诊断方法 |
CN109034207A (zh) * | 2018-06-29 | 2018-12-18 | 华南理工大学 | 数据分类方法、装置和计算机设备 |
CN109740634A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 分类模型训练方法和终端设备 |
CN109934248A (zh) * | 2018-12-11 | 2019-06-25 | 广州中医药大学(广州中医药研究院) | 一种针对迁移学习的多模型随机生成与动态自适应组合方法 |
CN110909161A (zh) * | 2019-11-12 | 2020-03-24 | 西安电子科技大学 | 基于密度聚类和视觉相似度的英文单词分类方法 |
CN111488712A (zh) * | 2020-04-13 | 2020-08-04 | 中国船舶重工集团海装风电股份有限公司 | 一种基于迁移学习的风力发电机功率曲线建模方法 |
CN114021459A (zh) * | 2021-11-05 | 2022-02-08 | 西安晟昕科技发展有限公司 | 一种小样本雷达辐射源的识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120185415A1 (en) * | 2011-01-13 | 2012-07-19 | International Business Machines Corporation | System and method for domain adaption with partial observation |
CN102750338A (zh) * | 2012-06-04 | 2012-10-24 | 天津大学 | 面向迁移学习的文本处理方法及其文本特征提取方法 |
-
2013
- 2013-03-20 CN CN2013100900960A patent/CN103218405A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120185415A1 (en) * | 2011-01-13 | 2012-07-19 | International Business Machines Corporation | System and method for domain adaption with partial observation |
CN102750338A (zh) * | 2012-06-04 | 2012-10-24 | 天津大学 | 面向迁移学习的文本处理方法及其文本特征提取方法 |
Non-Patent Citations (2)
Title |
---|
PU WANG等: "Transfer Learning beyond Text Classification", 《ACML》 * |
张浩 等: "文本分类技术研究进展", 《计算机与信息技术》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678580B (zh) * | 2013-12-07 | 2017-08-08 | 浙江大学 | 一种用于文本分类的多任务机器学习方法及其装置 |
CN103678580A (zh) * | 2013-12-07 | 2014-03-26 | 浙江大学 | 一种用于文本分类的多任务机器学习方法及其装置 |
CN104142918A (zh) * | 2014-07-31 | 2014-11-12 | 天津大学 | 基于tf-idf特征的短文本聚类以及热点主题提取方法 |
CN104142918B (zh) * | 2014-07-31 | 2017-04-05 | 天津大学 | 基于tf‑idf特征的短文本聚类以及热点主题提取方法 |
CN107967253A (zh) * | 2017-10-27 | 2018-04-27 | 北京大学 | 一种基于迁移学习的低资源领域分词器训练方法及分词方法 |
CN108021941A (zh) * | 2017-11-30 | 2018-05-11 | 四川大学 | 药物肝毒性预测方法及装置 |
CN108021941B (zh) * | 2017-11-30 | 2020-08-28 | 四川大学 | 药物肝毒性预测方法及装置 |
CN108398266B (zh) * | 2018-01-22 | 2020-06-23 | 武汉科技大学 | 一种基于集成迁移学习的轴承故障诊断方法 |
CN108398266A (zh) * | 2018-01-22 | 2018-08-14 | 武汉科技大学 | 一种基于集成迁移学习的轴承故障诊断方法 |
CN109034207A (zh) * | 2018-06-29 | 2018-12-18 | 华南理工大学 | 数据分类方法、装置和计算机设备 |
CN109034207B (zh) * | 2018-06-29 | 2021-01-05 | 华南理工大学 | 数据分类方法、装置和计算机设备 |
CN109740634A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 分类模型训练方法和终端设备 |
CN109934248A (zh) * | 2018-12-11 | 2019-06-25 | 广州中医药大学(广州中医药研究院) | 一种针对迁移学习的多模型随机生成与动态自适应组合方法 |
CN109934248B (zh) * | 2018-12-11 | 2023-05-19 | 广州中医药大学(广州中医药研究院) | 一种针对迁移学习的多模型随机生成与动态自适应组合方法 |
CN110909161A (zh) * | 2019-11-12 | 2020-03-24 | 西安电子科技大学 | 基于密度聚类和视觉相似度的英文单词分类方法 |
CN110909161B (zh) * | 2019-11-12 | 2022-04-08 | 西安电子科技大学 | 基于密度聚类和视觉相似度的英文单词分类方法 |
CN111488712A (zh) * | 2020-04-13 | 2020-08-04 | 中国船舶重工集团海装风电股份有限公司 | 一种基于迁移学习的风力发电机功率曲线建模方法 |
CN114021459A (zh) * | 2021-11-05 | 2022-02-08 | 西安晟昕科技发展有限公司 | 一种小样本雷达辐射源的识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103218405A (zh) | 基于维数约简的集成迁移文本分类方法 | |
CN101794311B (zh) | 基于模糊数据挖掘的中文网页自动分类方法 | |
CN103632168B (zh) | 一种机器学习中的分类器集成方法 | |
CN102930063B (zh) | 一种基于特征项选择与权重计算的文本分类方法 | |
Suresh | An unsupervised fuzzy clustering method for twitter sentiment analysis | |
CN104572958A (zh) | 一种基于事件抽取的敏感信息监控方法 | |
CN107545038B (zh) | 一种文本分类方法与设备 | |
CN103678274A (zh) | 一种基于改进互信息和熵的文本分类特征提取方法 | |
CN104598535A (zh) | 一种基于最大熵的事件抽取方法 | |
CN103294817A (zh) | 一种基于类别分布概率的文本特征抽取方法 | |
CN106203492A (zh) | 一种图像隐写分析的系统及方法 | |
CN109165529B (zh) | 一种暗链篡改检测方法、装置和计算机可读存储介质 | |
CN101604322A (zh) | 一种决策级文本自动分类融合方法 | |
CN108388929A (zh) | 基于代价敏感和半监督分类的客户分类方法及装置 | |
CN104346459A (zh) | 一种基于术语频率和卡方统计的文本分类特征选择方法 | |
CN104933445A (zh) | 一种基于分布式K-means的海量图像分类方法 | |
CN102880631A (zh) | 一种基于双层分类模型的中文作者识别方法及其装置 | |
CN103310235B (zh) | 一种基于参数识别与估计的隐写分析方法 | |
CN109472310A (zh) | 确定两份简历为相同人才的识别方法及装置 | |
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
CN110287409A (zh) | 一种网页类型识别方法及装置 | |
CN104462229A (zh) | 一种事件分类方法及装置 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN102609715B (zh) | 一种结合多个兴趣点检测子的物体类识别方法 | |
CN106227802A (zh) | 一种基于中文自然语言处理和多核分类器的多信源股价预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130724 |