CN107644057B - 一种基于迁移学习的绝对不平衡文本分类方法 - Google Patents

一种基于迁移学习的绝对不平衡文本分类方法 Download PDF

Info

Publication number
CN107644057B
CN107644057B CN201710675091.2A CN201710675091A CN107644057B CN 107644057 B CN107644057 B CN 107644057B CN 201710675091 A CN201710675091 A CN 201710675091A CN 107644057 B CN107644057 B CN 107644057B
Authority
CN
China
Prior art keywords
data
samples
auxiliary
weight
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710675091.2A
Other languages
English (en)
Other versions
CN107644057A (zh
Inventor
王宝亮
么素素
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201710675091.2A priority Critical patent/CN107644057B/zh
Publication of CN107644057A publication Critical patent/CN107644057A/zh
Application granted granted Critical
Publication of CN107644057B publication Critical patent/CN107644057B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于迁移学习的绝对不平衡文本分类方法,包括:文本数据预处理:划分目标领域数据与辅助领域数据,其中辅助领域数据与目标领域数据分布不同,但是相关;文本向量化;级联结构各节点分类模型训练:采用改进的Tradaboost算法,用辅助领域数据平衡训练集,并通过级联结构逐渐平衡领域间权重以及不同类别样本权重,对于不同领域不同类别的样本采取不同的权重更新方式;最终分类结果由所有节点的分类器加权投票得出。

Description

一种基于迁移学习的绝对不平衡文本分类方法
技术领域
本发明涉及一种文本分类方法。
背景技术
文本分类方面:
文本分类是自然语言处理中一个非常重要的应用领域。面对庞大的文本数据群,文本分类在文本信息的处理方面有着举足轻重的作用。同时文本分类时信息检索、信息过滤、搜索引擎等领域的基础。
随着web文本的海量增长,文本信息呈爆炸式增长趋势,已有的样本不足以训练一个可靠的模型,而新样本数据的标注费时费力。现实数据往往存在数据不平衡现象,目前针对不平衡问题研究,主要包含两种方法,一种是从数据层面平衡数据集,另一种是设计或改进学习算法,降低算法对类别不平衡度的敏感度,从而增强算法的鲁棒性。但是当训练数据绝对不平衡,少数类样本包含的信息不足以训练一个分类器,利用传统的不平衡学习方法,如直接训练分类器或者利用抽样方法平衡训练集都不能达到理想的分类效果。因此可以利用迁移学习在训练数据中引入辅助领域数据,帮助训练分类模型。
文本分类的整体流程如图(1)所示,主要包括:收集文本数据、分词、去停用词、特征选择,分类模型设计,分类模型性能评价。
迁移学习方面:
迁移学习是机器学习的一个重要分支,其打破了传统机器学习算法中训练数据与测试数据独立同分布的假设条件,使得可以有效利用过期数据进行学习。迁移学习主要包括实例迁移,特征迁移,参数迁移。TrAdaBoost算法是基于boosting技术的实例迁移算法,算法将辅助领域与目标领域数据直接组合作为训练集训练分类器模型。采用boosting技术可以将弱分类器算法通过组合提升为强学习算法,从而有效提升学习效果。但是该方法容易加重类别不平衡问题,目前针对上述问题提出了许多解决方案,但是这些方案没能同时考虑辅助领域类别不平衡条件下的样本选择问题和领域间类别不平衡度不一致问题。
发明内容
本发明针对目标领域样本绝对不平衡问题,提供一种同时考虑辅助领域类别不平衡条件下的样本选择问题和领域间类别不平衡度不一致问题的绝对不平衡文本分类方法。本发明融合级联模型与集成迁移学习思想,提出基于级联模型的集成迁移学习算法,可以有效提高分类模型对目标领域少数类样本的识别率,从而实现更准确的文本分类。技术方案如下:
一种基于迁移学习的绝对不平衡文本分类方法,包括下列步骤:
1)文本数据预处理
划分目标领域数据与辅助领域数据,其中辅助领域数据与目标领域数据分布不同,但是相关,辅助领域中存在更为适合训练目标领域分类模型的样本;经过数据清洗后在目标领域数据中随机选择80%的数据作为目标领域训练数据,剩余20%作为分类模型性能评估的测试数据,辅助领域全部数据均参与分类器训练;
2)文本向量化
3)采取词袋模型对目标领域数据进行分词,并生成文本词典;将每篇文献表示为字典长度的向量,每个特征的权重利用词频-反文档频率TF-IDF进行加权;
4)级联结构各节点分类模型训练
采用改进的Tradaboost算法,用辅助领域数据平衡训练集,并通过级联结构逐渐平衡领域间权重以及不同类别样本权重,对于不同领域不同类别的样本采取不同的权重更新方式,改进如下:
a.目标领域数据
对目标领域数据,采取Adaboost算法的权重更新方法,权重更新因子大于1,将错分样本视为对分类模型训练有益样本,增加权重;
b.辅助领域负类样本
对不平衡学习,目标领域数据中负类样本数量远多于正类样本数量,权重更新因子小于 1,错分样本权重降低;
c.辅助领域正类样本
对于辅助领域正类样本,引入权重恢复因子σ动态调整权重更新因子,σ与目标领域正负类样本分类准确率相关,当目标领域正负类分类准确率一致时,σ趋近于1,此时权重更新因子趋近于βsrc其中ns为辅助领域样本数量,m为迭代次数;当目标领域正类样本的准确率高于负类样本的准确率时,σ<1,此时权重更新因子降低,降低正类错分样本权重;当目标领域正类样本准确率低于负类样本准确率时,σ>1,此时权重更新因子增加,提高正类错分样本权重;
5)利用级联结构逐渐平衡数据集
除第一个节点外,每个节点都要利用上一节点训练的分类器和样本权重对辅助领域样本进行筛选,对于权重小于阈值的辅助领域数据,将其视为不相关样本进行删除;对于正确分类的辅助领域样本,将其视为冗余样本进行删除;
6)级联结构分类模型融合
最终分类结果由所有节点的分类器加权投票得出。
本发明的有益效果如下:
1.本发明提出了一种基于级联结构的集成迁移学习文本分类算法。解决了Tradaboost 算法中辅助领域样本权重不可恢复问题。同时利用级联结构逐步删除辅助领域中噪声样本与冗余样本,在保证目标领域主导作用的同时充分利用辅助领域数据。可以在一定程度上解决数据绝对不平衡问题,并预防负迁移的发生。
2.文本分类器的构造者在构造算法时,可以根据本发明提供的分类算法模型,根据实际应用场景合理选择辅助领域数据避免负迁移。同时调整算法参数,提升分类性能。
附图说明
图1本发明采用的程序流程图。
图2本发明采用的文本分类模型。
具体实施方式
本发明的基本思想:通过对TrAdaBoost算法引入权重恢复因子,动态调整辅助领域样本权重,解决了算法中辅助领域样本权重不可恢复问题。随后,将改进的算法作为级联结构各节点分类器基分类器,并利用级联结构对辅助领域数据进行样本选择。最终集成各节点分类器作为最终分类器。通过该模型,可以有效提高分类模型对目标领域少数类样本的识别率,从而实现更准确的文本分类。本发明的程序流程如图1所示。采用的文本分类模型如图2所示。下面对本发明进行详细说明。
1数据预处理
1)数据描述
在本发明中,划分目标领域数据与辅助领域数据。其中辅助领域数据与目标领域数据分布不同,但是相关。也就是说,辅助领域中存在一部分比较适合训练目标领域分类模型的样本。
2)构造训练数据和测试数据
经过数据清洗之后,在目标领域数据中随机选择80%的数据作为目标领域训练数据。剩余20%作为分类模型性能评估的测试数据。辅助领域全部数据均参与分类器训练。
2文本向量化
对目标领域数据进行分词,并生成文本词典。本发明采取词袋模型对词语进行统计。将每篇文献表示为字典长度的向量,每个特征的权重利用TF-IDF(词频-反文档频率)进行加权。
3基于迁移学习的绝对不平衡文本分类模型设计
本发明用辅助领域数据平衡训练集,并通过级联结构逐渐平衡领域间权重以及不同类别样本权重,并通过集成各节点分类器提升模型性能。算法框架如图2所示。
3.1级联结构中各节点分类器的设计
将目标领域训练集与辅助领域训练集混合作为训练集,并初始化样本权重。迭代训练弱分类器,并更新样本权重,直到达到指定迭代次数m:
1)样本权重归一化,训练弱分类器
2)引入辅助领域权重恢复因子
Figure BDA0001374078200000041
式中,
Figure BDA0001374078200000042
分别为目标领域负类样本与正类样本的分类准确率
3)针对辅助领域与目标领域数据采取不同的权重更新策略
辅助领域样本权重更新因子
Figure BDA0001374078200000043
其中ns为辅助领域样本数量,m为迭代次数。目标领域权重更新因子
Figure BDA0001374078200000044
其中εtar为目标领域训练样本加权错误率。
对于目标领域数据,对错分样本利用βtar更新权重,增加了权重,提高其对模型训练的影响。对于辅助领域负类(多数类)样本,对错分样本利用βsrc更新权重,减弱辅助领域错分样本对模型训练的影响。对于辅助领域正类(少数类)样本,利用σβsrc更新样本权重。当目标领域不同类别准确率一致度较高时,σ≈1;当少数类样本权重过高导致模型偏向少数,σ<1;当利用当目标领域中少数类样本错误率较高时,σ>1。利用目标领域中不同类别样本分类正确率之间的相对大小动态调节辅助领域权重更新因子,减弱了算法对样本不平衡度的敏感度。
4)得到弱分类器组:
Figure BDA0001374078200000045
3.2辅助领域数据筛选策略
Figure BDA0001374078200000046
其中,Ns代表辅助领域中的负类样本(即多数类样本),Hi-1代表级联结构中第i-1个节点训练的基分类器。
利用上一节点训练的分类器Hi-1及样本权重对进入下一节点的辅助领域样本进行筛选,从而实现更为有效的样本迁移。首先,对于权重小于阈值wmin的辅助领域数据,将其视为不相关样本进行删除。其次,对于正确分类的辅助领域样本,将其视为冗余样本进行删除,从而保证目标领域样本逐渐占优。同时将保留样本作为下一节点的辅助领域训练数据。
3.3级联模型融合
经过n个节点训练,得到一个分类器组{H1,H2,...,Hn},最终得到的分类器根据加权投票策略产生。采用集成学习思想,通过组合将模型提升为强学习算法,可以有效提升模型性能。组合方式如下所示:
Figure BDA0001374078200000051
其中,
Figure BDA0001374078200000052
代表节点i训练得到的分类器;
Figure BDA0001374078200000053
代表级联结构中第i个节点中第j个弱分类器的权重;hi,j代表级联结构中第i个节点第j次迭代训练的基分类器。
4模型性能评估
对于不平衡数据集而言,本发明利用F-measure、G-Mean作为算法性能评价指标。G-mean 用于评价分类器在两个类别上的平均性能。F-measure是查全率与召回率的调和平均值,其取值与二者较小者较为接近。

Claims (1)

1.一种基于迁移学习的绝对不平衡文本分类方法,包括下列步骤:
1)文本数据预处理
划分目标领域数据与辅助领域数据,其中辅助领域数据与目标领域数据分布不同,但是相关,辅助领域中存在更为适合训练目标领域分类模型的样本;经过数据清洗后在目标领域数据中随机选择80%的数据作为目标领域训练数据,剩余20%作为分类模型性能评估的测试数据,辅助领域全部数据均参与分类器训练;
2)文本向量化
3)采取词袋模型对目标领域数据进行分词,并生成文本词典;将每篇文献表示为字典长度的向量,每个特征的权重利用词频-反文档频率TF-IDF进行加权;
4)级联结构各节点分类模型训练
采用改进的Tradaboost算法,用辅助领域数据平衡训练集,并通过级联结构逐渐平衡领域间权重以及不同类别样本权重,对于不同领域不同类别的样本采取不同的权重更新方式,改进如下:
a.目标领域数据
对目标领域数据,采取Adaboost算法的权重更新方法,目标领域权重更新因子大于1,将错分样本视为对分类模型训练有益样本,增加权重;
b.辅助领域负类样本
对不平衡学习,目标领域数据中负类样本数量远多于正类样本数量,辅助领域权重更新因子小于1,错分样本权重降低;
c.辅助领域正类样本
对于辅助领域正类样本,引入辅助领域权重恢复因子σ动态调整辅助领域权重更新因子,σ与目标领域正负类样本分类准确率相关,当目标领域正负类分类准确率一致时,σ趋近于1,此时辅助领域权重更新因子趋近于βsrc其中ns为辅助领域样本数量,m为迭代次数;当目标领域正类样本的准确率高于负类样本的准确率时,σ<1,此时辅助领域权重更新因子降低,降低正类错分样本权重;当目标领域正类样本准确率低于负类样本准确率时,σ>1,此时辅助领域权重更新因子增加,提高正类错分样本权重;
5)利用级联结构逐渐平衡数据集
除第一个节点外,每个节点都要利用上一节点训练的分类器和样本权重对辅助领域样本进行筛选,对于权重小于阈值的辅助领域数据,将其视为不相关样本进行删除;对于正确分类的辅助领域样本,将其视为冗余样本进行删除;
6)级联结构分类模型融合
最终分类结果由所有节点的分类器加权投票得出。
CN201710675091.2A 2017-08-09 2017-08-09 一种基于迁移学习的绝对不平衡文本分类方法 Expired - Fee Related CN107644057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710675091.2A CN107644057B (zh) 2017-08-09 2017-08-09 一种基于迁移学习的绝对不平衡文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710675091.2A CN107644057B (zh) 2017-08-09 2017-08-09 一种基于迁移学习的绝对不平衡文本分类方法

Publications (2)

Publication Number Publication Date
CN107644057A CN107644057A (zh) 2018-01-30
CN107644057B true CN107644057B (zh) 2020-03-03

Family

ID=61111093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710675091.2A Expired - Fee Related CN107644057B (zh) 2017-08-09 2017-08-09 一种基于迁移学习的绝对不平衡文本分类方法

Country Status (1)

Country Link
CN (1) CN107644057B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520780B (zh) * 2018-03-07 2021-08-06 中国科学院计算技术研究所 一种基于迁移学习的医学数据处理和系统
CN108984613A (zh) * 2018-06-12 2018-12-11 北京航空航天大学 一种基于迁移学习的缺陷报告跨项目分类方法
CN108875072B (zh) * 2018-07-05 2022-01-14 第四范式(北京)技术有限公司 文本分类方法、装置、设备以及存储介质
SG11201811698UA (en) * 2018-08-09 2020-03-30 Beijing Didi Infinity Technology & Development Co Ltd Systems and methods for allocating orders
CN109711430B (zh) * 2018-11-23 2021-10-01 北京三快在线科技有限公司 一种迁移知识确定方法、装置、设备及可读存储介质
CN110245232B (zh) * 2019-06-03 2022-02-18 网易传媒科技(北京)有限公司 文本分类方法、装置、介质和计算设备
CN110532568B (zh) * 2019-09-05 2022-07-01 哈尔滨理工大学 基于树特征选择和迁移学习的汉语词义消歧方法
CN111400501B (zh) * 2020-03-26 2023-12-15 南京大学 一种基于迁移学习的具有隐私保护功能的文本分类方法
CN111639461B (zh) * 2020-05-26 2022-10-18 浙江大学 针对工业不均衡数据的刀具磨损状态检测方法
CN113205159B (zh) * 2021-05-31 2022-04-15 西南交通大学 一种知识迁移方法、无线网络设备个体识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521656A (zh) * 2011-12-29 2012-06-27 北京工商大学 非平衡样本分类的集成迁移学习方法
CN102750338A (zh) * 2012-06-04 2012-10-24 天津大学 面向迁移学习的文本处理方法及其文本特征提取方法
CN103761311A (zh) * 2014-01-23 2014-04-30 中国矿业大学 基于多源领域实例迁移的情感分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521656A (zh) * 2011-12-29 2012-06-27 北京工商大学 非平衡样本分类的集成迁移学习方法
CN102750338A (zh) * 2012-06-04 2012-10-24 天津大学 面向迁移学习的文本处理方法及其文本特征提取方法
CN103761311A (zh) * 2014-01-23 2014-04-30 中国矿业大学 基于多源领域实例迁移的情感分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Adaptive Boosting for Transfer Learning Using Dynamic Updates;Samir Al-Stouhi et al;《ECML PKDD"11 Proceedings of the 2011 European conference on Machine learning and knowledge discovery in databases》;20110905;第60-75页 *
一种基于级联模型的类别不平衡数据分类方法;刘胥影 等;《南京大学学报(自然科学版)》;20060330;第148-155页 *
迁移与集成学习在文本分类中的应用研究;汤莹;《万方数据知识服务平台》;20060504;第1-58页 *

Also Published As

Publication number Publication date
CN107644057A (zh) 2018-01-30

Similar Documents

Publication Publication Date Title
CN107644057B (zh) 一种基于迁移学习的绝对不平衡文本分类方法
CN106095928B (zh) 一种事件类型识别方法及装置
US7362892B2 (en) Self-optimizing classifier
CN109034194B (zh) 基于特征分化的交易欺诈行为深度检测方法
CN108984745A (zh) 一种融合多知识图谱的神经网络文本分类方法
CN102521656B (zh) 非平衡样本分类的集成迁移学习方法
CN102289522B (zh) 一种对于文本智能分类的方法
CN103020122B (zh) 一种基于半监督聚类的迁移学习方法
CN108388651A (zh) 一种基于图核和卷积神经网络的文本分类方法
CN109739986A (zh) 一种基于深度集成学习的投诉短文本分类方法
CN110851176B (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN112861984B (zh) 一种基于特征融合与集成学习的语音情感分类方法
CN108932950A (zh) 一种基于标签扩增与多频谱图融合的声音场景识别方法
CN106446230A (zh) 一种优化机器学习文本中词语分类的方法
CN107392241A (zh) 一种基于加权列抽样XGBoost的图像目标分类方法
CN109902202A (zh) 一种视频分类方法及装置
CN110019779B (zh) 一种文本分类方法、模型训练方法及装置
CN105975611A (zh) 自适应组合降采样增强学习机
CN107977670A (zh) 决策树和贝叶斯算法的突发事件分类分级方法、装置及系统
CN112949189A (zh) 一种基于深度学习的多因素诱发滑坡预测的建模方法
CN110222172A (zh) 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN109522544A (zh) 基于卡方检验的句向量计算方法、文本分类方法及系统
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN108875034A (zh) 一种基于层次化长短期记忆网络的中文文本分类方法
CN111539612B (zh) 一种风险分类模型的训练方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200303

Termination date: 20200809