CN105808718A - 一种基于不平衡数据集的文本特征选择方法 - Google Patents

一种基于不平衡数据集的文本特征选择方法 Download PDF

Info

Publication number
CN105808718A
CN105808718A CN201610128100.1A CN201610128100A CN105808718A CN 105808718 A CN105808718 A CN 105808718A CN 201610128100 A CN201610128100 A CN 201610128100A CN 105808718 A CN105808718 A CN 105808718A
Authority
CN
China
Prior art keywords
feature
class
data set
document
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610128100.1A
Other languages
English (en)
Other versions
CN105808718B (zh
Inventor
吴哲夫
肖鹰
宣琦
王中友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201610128100.1A priority Critical patent/CN105808718B/zh
Publication of CN105808718A publication Critical patent/CN105808718A/zh
Application granted granted Critical
Publication of CN105808718B publication Critical patent/CN105808718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于不平衡数据集的文本特征选择方法,在计算机上计算不平衡文档的特征集合,选择分类算法模型进行建模,具体包括以下步骤:步骤1将数据集分成多数类和少数类,并规定少数类为正类,用ci表示;多数类为负类,用表示;步骤2将数据集中的文本进行预处理,分词、去除停用词等操作,形成特征t的集合T;步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N;步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ2(t,ci);步骤5在不平衡类别文档中分别设置筛选特征的阈值,并根据每个特征计算出来的χ2(t,ci)按照大小顺序排列,按照类别取出指定特征数目的特征集合Tˊ;步骤6根据特征选择后的特征集合Tˊ,选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。

Description

一种基于不平衡数据集的文本特征选择方法
技术领域
本发明涉及数据挖掘不平衡数据集分类问题以及文本特征选择领域,是一种适用于不平衡文本分类的改进型CHI方法。
背景技术
随着互联网的飞速发展,电子文档的数目急剧增多,使文本分类成为处理大量文本数据的核心技术。由于文本中包含特征的维数数量庞大,数据降维中常常采用特征选择技术来进行处理。有效的特征选择算法不仅能够降低特征的维度,可以去除冗余特征,同时还能避免分类器过度拟合,从而提高模型的分类精度。
目前常用的特征选择算法主要有互信息(MutualInformation,MI)、信息增益(InformationGain,IG)、卡方统计量(Chi-squarestatistic,CHI)等。这些算法有各自优缺点,例如互信息(MI)倾向于选择低频特征、信息增益(IG)计算量较大,适合进行全局特征选择而非具体到某个类别上;CHI是一种稳定高效的特征选择算法,在实验中表现出较好的精准度。针对文本不平衡问题也有一些有效的算法,如:CTD,SCIW等,但这些算法的不足之处是没有充分考虑到所有隐藏在不平衡文本数据集中的影响特征选择的重要因素。
发明内容
本发明目的在于针对CHI模型的不足,通过结合特征在不平衡数据集中的分布特点,提出和设计出一种更适用于不平衡数据集的改进型IDA-CHI算法。CHI模型的不足之处在于它对低频特征的倚重较大,即对低频词过于敏感;而在实际的不平衡文本数据集中,正类文本中存在着相当数量的低频特征,并且这些特征对于正类有较强的相关性。
CHI模型中,当AD<BC时,特征与类别负相关,而对于仅在正类中出现的低频特征,其往往与负类负相关,如果单纯的剔除掉这些正类中负相关的特征,则会很大程度影响正类中的预测效果。
针对上述不足,在不平衡文本数据集中强特征应该具有以下特点:
a.特征只在某类的文本中出现,且在这类文本中出现次数较多;
b.特征在多个类别中出现,且在其中某类的文本中出现次数较多;
c.特征在某类的数量分布尽量均匀,具有分散性;
d.特征在负类出现负相关时,尽可能避免该低频特征被淘汰掉;
为了实现上述目的,本发明采取如下技术方案:
一种基于不平衡数据集的文本特征选择方法,该选择方法在计算机上计算不平衡文档的特征集合,选择分类算法模型进行建模,具体包括以下步骤:
步骤1将数据集分成多数类和少数类,并规定少数类为正类,用ci表示;多数类为负类,用表示;
步骤2将数据集中的文本进行预处理,分词、去除停用词等操作,形成特征集合T;
步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N;
其中,N表示数据集中文档的总数目;A表示正类中包含特征t的文档数;B表示负类中包含特征t的文档数;C表示正类中不包含特征t的文档数;D表示负类中不包含特征t的文档数;
步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ2(t,ci);
其中,新的χ2(t,ci)计算公式为:
&chi; 2 ( t , c i ) = ( A D - B C ) 2 ( A + B ) ( C + D ) &times; &alpha; &times; &beta; , A D - B C > 0 ( A D - B C ) 2 ( A + B ) ( C + D ) &times; &alpha; &times; &beta; &times; &gamma; , A D - B C < 0 &alpha; = A A + B - C C + D &beta; = f i ( t ) - f ( t ) &OverBar; f ( t ) &OverBar; &gamma; = A D
新的χ2(t,ci)计算公式中的表示特征代表能力,α越大表明正类中包含特征t的文档数越多而负类中包含特征t的文档越少,所以该特征的鉴别性越强,即越能代表少数类;
新的χ2(t,ci)计算公式中的表示特征t在特定类别文档中的分散度,fi(t)表示类别ci中包含特征t的文档数;表示每个类别里平均含有特征t的文档数;m表示数据集中文本类别总数;
新的χ2(t,ci)计算公式中的表示的是负相关特征的调节因子;当不平衡类别中出现负相关现象时,为了防止忽略正类中的某些低频特征现象可通过加大某些低频特征的权值,即通过γ参数来调节加大这些特征的权重。γ越大,表示t在特定类别出现的相对次数越多。
在不平衡类别文档中分别设置筛选特征的阈值,并根据每个特征计算出来的χ2(t,ci)按照大小顺序排列,按照类别取出指定特征数目的特征集合T';
根据特征选择后的特征集合T',选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。
本发明的优点是:
本发明可解决不平衡数据集中分类特征选择偏向多数类,从而造成少数类无法被正确识别的问题;
本发明有利于筛选出更具有实际代表性的特征集合,特别适合少数类中特征判别比多数类更具有价值的数据挖掘应用中,如医疗诊断、金融诈骗等领域。
附图说明
图1本发明的步骤流程图。
图2本发明的IDA-CHI特征选择算法流程图。
具体实施方式
为了检验本发明的优劣,可以通过如下几个评价指标来检验和验证。
参见表1,不平衡数据分类中常用查全率(recall)和查准率(precision)来衡量模型的分类质量,而F1值是综合考虑两个类的分类性能,兼顾正类和负类分类精度的平均。
表1
其中TP(TruePositive)是指被分类器正确分类的正类;TN(TrueNegative)是指被分类器正确分类的负类;FP(FalsePositive)是指被分类器错误分类的正类;FN(FalseNegative)是指被分类器错误分类的负类。
查全率
查准率
F1值:
实验中数据集来自复旦大学计算机信息与技术系国际数据库中心自然语言小组,该数据集有20多个文档类别,比较适合用于文本分类。
为了保证不平衡数据集,随机抽取6个不同类别的文档,每类文本随机抽取一定的数量,并且每类文档选取2/3作为训练集,1/3作为测试集,参见表2。
表2
实验中文本表示阶段采用TF-IDF权值,分类器采用支持向量机SVM来对训练集进行预测分类。通过比较传统CHI算法、和本发明IDA-CHI算法的评估指标来验证本发明的性能优劣,结果如表3:
表3
从表3可以看出而本发明在类别分布不均匀的文本上查全率、查准率、F1值都有一定程度的提高,特别是在少数类文本(体育类)中体现的更为明显。
在不同算法下,通过设定筛选不同数目的特征维度来比较六个文本类别的F1均值。由于所有文本分词处理之后的特征维度较大,所以设定区间在[18000,27000]之间来进行验证,结果如表4:
表4
从表4可以看出本发明对于总体均值F1也有一定的提高,能确保不平衡数据文本的总体分类效果。

Claims (3)

1.一种基于不平衡数据集的文本特征选择方法,其特征在于:该选择方法在计算机上计算不平衡文档的特征集合,选择分类算法模型进行建模,具体包括以下步骤:
步骤1将数据集分成多数类和少数类,并规定少数类为正类,用ci表示;多数类为负类,用表示;
步骤2将数据集中的文本进行预处理,分词、去除停用词等操作,形成特征t的集合T;
步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N;
步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ2(t,ci);
步骤5在不平衡类别文档中分别设置筛选特征的阈值,并根据每个特征计算出来的χ2(t,ci)按照大小顺序排列,按照类别取出指定特征数目的特征集合T';
步骤6根据特征选择后的特征集合T',选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。
2.根据权利要求1所述的方法,所述步骤3中的几个参数含义为:
N表示数据集中文档的总数目;A表示正类中包含特征t的文档数;B表示负类中包含特征t的文档数;C表示正类中不包含特征t的文档数;D表示负类中不包含特征t的文档数。
3.根据权利要求1所述的方法,所述步骤4中新的χ2(t,ci)计算公式为:
&chi; 2 ( t , c i ) = ( A D - B C ) 2 ( A + B ) ( C + D ) &times; &alpha; &times; &beta; , A D - B C > 0 ( A D - B C ) 2 ( A + B ) ( C + D ) &times; &alpha; &times; &beta; &times; &gamma; , A D - B C < 0 &alpha; = A A + B - C C + D &beta; = f i ( t ) - f ( t ) &OverBar; f ( t ) &OverBar; &gamma; = A D
公式中:χ2(t,ci)为度量特征t和文档类别ci之间相关度的卡方统计量;表示特征代表能力,α越大表明该特征的鉴别性越强,即越能代表少数类;表示特征t在特定类别文档中的分散度,其中fi(t)表示类别ci中包含特征t的文档数,表示每个类别里平均含有特征t的文档数,m表示数据集中文本类别总数;表示的是负相关特征的调节因子,当不平衡类别中出现负相关现象时,为了防止忽略正类中的某些低频特征现象可通过加大某些低频特征的权值,即通过γ参数来调节加大这些特征的权重。γ越大,表示特征t在特定类别出现的相对次数越多。
CN201610128100.1A 2016-03-07 2016-03-07 一种基于不平衡数据集的文本特征选择方法 Active CN105808718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610128100.1A CN105808718B (zh) 2016-03-07 2016-03-07 一种基于不平衡数据集的文本特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610128100.1A CN105808718B (zh) 2016-03-07 2016-03-07 一种基于不平衡数据集的文本特征选择方法

Publications (2)

Publication Number Publication Date
CN105808718A true CN105808718A (zh) 2016-07-27
CN105808718B CN105808718B (zh) 2019-02-01

Family

ID=56467700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610128100.1A Active CN105808718B (zh) 2016-03-07 2016-03-07 一种基于不平衡数据集的文本特征选择方法

Country Status (1)

Country Link
CN (1) CN105808718B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144106A (zh) * 2019-12-20 2020-05-12 山东科技大学 一种不平衡数据集下的两阶段文本特征选择方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886108A (zh) * 2014-04-13 2014-06-25 北京工业大学 一种不均衡文本集的特征选择和权重计算方法
CN104965867A (zh) * 2015-06-08 2015-10-07 南京师范大学 基于chi特征选取的文本事件分类方法
CN105373606A (zh) * 2015-11-11 2016-03-02 重庆邮电大学 一种改进c4.5决策树算法下的不平衡数据抽样方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886108A (zh) * 2014-04-13 2014-06-25 北京工业大学 一种不均衡文本集的特征选择和权重计算方法
CN104965867A (zh) * 2015-06-08 2015-10-07 南京师范大学 基于chi特征选取的文本事件分类方法
CN105373606A (zh) * 2015-11-11 2016-03-02 重庆邮电大学 一种改进c4.5决策树算法下的不平衡数据抽样方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
廖一星 等: "面向不平衡文本的特征选择方法", 《电子科技大学学报》 *
谢娜娜 等: "不均衡数据集上文本分类方法研究", 《计算机工程与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144106A (zh) * 2019-12-20 2020-05-12 山东科技大学 一种不平衡数据集下的两阶段文本特征选择方法
CN111144106B (zh) * 2019-12-20 2023-05-02 山东科技大学 一种不平衡数据集下的两阶段文本特征选择方法

Also Published As

Publication number Publication date
CN105808718B (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN106202518B (zh) 基于chi和分类别关联规则算法的短文本分类方法
CN105224695B (zh) 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN104391835B (zh) 文本中特征词选择方法及装置
CN102799647B (zh) 网页去重方法和设备
CN104142918B (zh) 基于tf‑idf特征的短文本聚类以及热点主题提取方法
CN102929937B (zh) 基于文本主题模型的商品分类的数据处理方法
CN102622373B (zh) 一种基于tf*idf算法的统计学文本分类系统及方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN106095996A (zh) 用于文本分类的方法
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN102298646B (zh) 一种主观文本和客观文本分类方法及装置
CN108491429A (zh) 一种基于类内类间文档频和词频统计的特征选择方法
CN103886108B (zh) 一种不均衡文本集的特征选择和权重计算方法
CN106021578B (zh) 一种基于聚类和隶属度融合的改进型文本分类算法
CN102567308A (zh) 一种信息处理特征提取方法
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
CN105183813A (zh) 基于互信息的用于文档分类的并行特征选择方法
CN105045913B (zh) 基于WordNet以及潜在语义分析的文本分类方法
CN104731772B (zh) 基于改进特征评估函数的贝叶斯垃圾邮件过滤方法
Xu et al. An improved information gain feature selection algorithm for SVM text classifier
CN108664633A (zh) 一种利用多样化文本特征进行文本分类的方法
CN107562928B (zh) 一种ccmi文本特征选择方法
CN109271517A (zh) Ig tf-idf文本特征向量生成及文本分类方法
CN106570076A (zh) 一种计算机文本分类系统
CN103268346B (zh) 半监督分类方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant