CN105808718A - 一种基于不平衡数据集的文本特征选择方法 - Google Patents
一种基于不平衡数据集的文本特征选择方法 Download PDFInfo
- Publication number
- CN105808718A CN105808718A CN201610128100.1A CN201610128100A CN105808718A CN 105808718 A CN105808718 A CN 105808718A CN 201610128100 A CN201610128100 A CN 201610128100A CN 105808718 A CN105808718 A CN 105808718A
- Authority
- CN
- China
- Prior art keywords
- feature
- class
- data set
- document
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 5
- 238000012216 screening Methods 0.000 claims abstract description 4
- 238000012706 support-vector machine Methods 0.000 claims abstract description 4
- 238000003066 decision tree Methods 0.000 claims abstract description 3
- 206010008190 Cerebrovascular accident Diseases 0.000 claims description 15
- 208000006011 Stroke Diseases 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 10
- 238000000034 method Methods 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 2
- 238000005728 strengthening Methods 0.000 claims description 2
- 238000007635 classification algorithm Methods 0.000 abstract 2
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000009333 weeding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于不平衡数据集的文本特征选择方法,在计算机上计算不平衡文档的特征集合,选择分类算法模型进行建模,具体包括以下步骤:步骤1将数据集分成多数类和少数类,并规定少数类为正类,用ci表示;多数类为负类,用表示;步骤2将数据集中的文本进行预处理,分词、去除停用词等操作,形成特征t的集合T;步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N;步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ2(t,ci);步骤5在不平衡类别文档中分别设置筛选特征的阈值,并根据每个特征计算出来的χ2(t,ci)按照大小顺序排列,按照类别取出指定特征数目的特征集合Tˊ;步骤6根据特征选择后的特征集合Tˊ,选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。
Description
技术领域
本发明涉及数据挖掘不平衡数据集分类问题以及文本特征选择领域,是一种适用于不平衡文本分类的改进型CHI方法。
背景技术
随着互联网的飞速发展,电子文档的数目急剧增多,使文本分类成为处理大量文本数据的核心技术。由于文本中包含特征的维数数量庞大,数据降维中常常采用特征选择技术来进行处理。有效的特征选择算法不仅能够降低特征的维度,可以去除冗余特征,同时还能避免分类器过度拟合,从而提高模型的分类精度。
目前常用的特征选择算法主要有互信息(MutualInformation,MI)、信息增益(InformationGain,IG)、卡方统计量(Chi-squarestatistic,CHI)等。这些算法有各自优缺点,例如互信息(MI)倾向于选择低频特征、信息增益(IG)计算量较大,适合进行全局特征选择而非具体到某个类别上;CHI是一种稳定高效的特征选择算法,在实验中表现出较好的精准度。针对文本不平衡问题也有一些有效的算法,如:CTD,SCIW等,但这些算法的不足之处是没有充分考虑到所有隐藏在不平衡文本数据集中的影响特征选择的重要因素。
发明内容
本发明目的在于针对CHI模型的不足,通过结合特征在不平衡数据集中的分布特点,提出和设计出一种更适用于不平衡数据集的改进型IDA-CHI算法。CHI模型的不足之处在于它对低频特征的倚重较大,即对低频词过于敏感;而在实际的不平衡文本数据集中,正类文本中存在着相当数量的低频特征,并且这些特征对于正类有较强的相关性。
CHI模型中,当AD<BC时,特征与类别负相关,而对于仅在正类中出现的低频特征,其往往与负类负相关,如果单纯的剔除掉这些正类中负相关的特征,则会很大程度影响正类中的预测效果。
针对上述不足,在不平衡文本数据集中强特征应该具有以下特点:
a.特征只在某类的文本中出现,且在这类文本中出现次数较多;
b.特征在多个类别中出现,且在其中某类的文本中出现次数较多;
c.特征在某类的数量分布尽量均匀,具有分散性;
d.特征在负类出现负相关时,尽可能避免该低频特征被淘汰掉;
为了实现上述目的,本发明采取如下技术方案:
一种基于不平衡数据集的文本特征选择方法,该选择方法在计算机上计算不平衡文档的特征集合,选择分类算法模型进行建模,具体包括以下步骤:
步骤1将数据集分成多数类和少数类,并规定少数类为正类,用ci表示;多数类为负类,用表示;
步骤2将数据集中的文本进行预处理,分词、去除停用词等操作,形成特征集合T;
步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N;
其中,N表示数据集中文档的总数目;A表示正类中包含特征t的文档数;B表示负类中包含特征t的文档数;C表示正类中不包含特征t的文档数;D表示负类中不包含特征t的文档数;
步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ2(t,ci);
其中,新的χ2(t,ci)计算公式为:
新的χ2(t,ci)计算公式中的表示特征代表能力,α越大表明正类中包含特征t的文档数越多而负类中包含特征t的文档越少,所以该特征的鉴别性越强,即越能代表少数类;
新的χ2(t,ci)计算公式中的表示特征t在特定类别文档中的分散度,fi(t)表示类别ci中包含特征t的文档数;表示每个类别里平均含有特征t的文档数;m表示数据集中文本类别总数;
新的χ2(t,ci)计算公式中的表示的是负相关特征的调节因子;当不平衡类别中出现负相关现象时,为了防止忽略正类中的某些低频特征现象可通过加大某些低频特征的权值,即通过γ参数来调节加大这些特征的权重。γ越大,表示t在特定类别出现的相对次数越多。
在不平衡类别文档中分别设置筛选特征的阈值,并根据每个特征计算出来的χ2(t,ci)按照大小顺序排列,按照类别取出指定特征数目的特征集合T';
根据特征选择后的特征集合T',选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。
本发明的优点是:
本发明可解决不平衡数据集中分类特征选择偏向多数类,从而造成少数类无法被正确识别的问题;
本发明有利于筛选出更具有实际代表性的特征集合,特别适合少数类中特征判别比多数类更具有价值的数据挖掘应用中,如医疗诊断、金融诈骗等领域。
附图说明
图1本发明的步骤流程图。
图2本发明的IDA-CHI特征选择算法流程图。
具体实施方式
为了检验本发明的优劣,可以通过如下几个评价指标来检验和验证。
参见表1,不平衡数据分类中常用查全率(recall)和查准率(precision)来衡量模型的分类质量,而F1值是综合考虑两个类的分类性能,兼顾正类和负类分类精度的平均。
表1
其中TP(TruePositive)是指被分类器正确分类的正类;TN(TrueNegative)是指被分类器正确分类的负类;FP(FalsePositive)是指被分类器错误分类的正类;FN(FalseNegative)是指被分类器错误分类的负类。
查全率
查准率
F1值:
实验中数据集来自复旦大学计算机信息与技术系国际数据库中心自然语言小组,该数据集有20多个文档类别,比较适合用于文本分类。
为了保证不平衡数据集,随机抽取6个不同类别的文档,每类文本随机抽取一定的数量,并且每类文档选取2/3作为训练集,1/3作为测试集,参见表2。
表2
实验中文本表示阶段采用TF-IDF权值,分类器采用支持向量机SVM来对训练集进行预测分类。通过比较传统CHI算法、和本发明IDA-CHI算法的评估指标来验证本发明的性能优劣,结果如表3:
表3
从表3可以看出而本发明在类别分布不均匀的文本上查全率、查准率、F1值都有一定程度的提高,特别是在少数类文本(体育类)中体现的更为明显。
在不同算法下,通过设定筛选不同数目的特征维度来比较六个文本类别的F1均值。由于所有文本分词处理之后的特征维度较大,所以设定区间在[18000,27000]之间来进行验证,结果如表4:
表4
从表4可以看出本发明对于总体均值F1也有一定的提高,能确保不平衡数据文本的总体分类效果。
Claims (3)
1.一种基于不平衡数据集的文本特征选择方法,其特征在于:该选择方法在计算机上计算不平衡文档的特征集合,选择分类算法模型进行建模,具体包括以下步骤:
步骤1将数据集分成多数类和少数类,并规定少数类为正类,用ci表示;多数类为负类,用表示;
步骤2将数据集中的文本进行预处理,分词、去除停用词等操作,形成特征t的集合T;
步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N;
步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ2(t,ci);
步骤5在不平衡类别文档中分别设置筛选特征的阈值,并根据每个特征计算出来的χ2(t,ci)按照大小顺序排列,按照类别取出指定特征数目的特征集合T';
步骤6根据特征选择后的特征集合T',选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。
2.根据权利要求1所述的方法,所述步骤3中的几个参数含义为:
N表示数据集中文档的总数目;A表示正类中包含特征t的文档数;B表示负类中包含特征t的文档数;C表示正类中不包含特征t的文档数;D表示负类中不包含特征t的文档数。
3.根据权利要求1所述的方法,所述步骤4中新的χ2(t,ci)计算公式为:
公式中:χ2(t,ci)为度量特征t和文档类别ci之间相关度的卡方统计量;表示特征代表能力,α越大表明该特征的鉴别性越强,即越能代表少数类;表示特征t在特定类别文档中的分散度,其中fi(t)表示类别ci中包含特征t的文档数,表示每个类别里平均含有特征t的文档数,m表示数据集中文本类别总数;表示的是负相关特征的调节因子,当不平衡类别中出现负相关现象时,为了防止忽略正类中的某些低频特征现象可通过加大某些低频特征的权值,即通过γ参数来调节加大这些特征的权重。γ越大,表示特征t在特定类别出现的相对次数越多。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610128100.1A CN105808718B (zh) | 2016-03-07 | 2016-03-07 | 一种基于不平衡数据集的文本特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610128100.1A CN105808718B (zh) | 2016-03-07 | 2016-03-07 | 一种基于不平衡数据集的文本特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105808718A true CN105808718A (zh) | 2016-07-27 |
CN105808718B CN105808718B (zh) | 2019-02-01 |
Family
ID=56467700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610128100.1A Active CN105808718B (zh) | 2016-03-07 | 2016-03-07 | 一种基于不平衡数据集的文本特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105808718B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144106A (zh) * | 2019-12-20 | 2020-05-12 | 山东科技大学 | 一种不平衡数据集下的两阶段文本特征选择方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886108A (zh) * | 2014-04-13 | 2014-06-25 | 北京工业大学 | 一种不均衡文本集的特征选择和权重计算方法 |
CN104965867A (zh) * | 2015-06-08 | 2015-10-07 | 南京师范大学 | 基于chi特征选取的文本事件分类方法 |
CN105373606A (zh) * | 2015-11-11 | 2016-03-02 | 重庆邮电大学 | 一种改进c4.5决策树算法下的不平衡数据抽样方法 |
-
2016
- 2016-03-07 CN CN201610128100.1A patent/CN105808718B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886108A (zh) * | 2014-04-13 | 2014-06-25 | 北京工业大学 | 一种不均衡文本集的特征选择和权重计算方法 |
CN104965867A (zh) * | 2015-06-08 | 2015-10-07 | 南京师范大学 | 基于chi特征选取的文本事件分类方法 |
CN105373606A (zh) * | 2015-11-11 | 2016-03-02 | 重庆邮电大学 | 一种改进c4.5决策树算法下的不平衡数据抽样方法 |
Non-Patent Citations (2)
Title |
---|
廖一星 等: "面向不平衡文本的特征选择方法", 《电子科技大学学报》 * |
谢娜娜 等: "不均衡数据集上文本分类方法研究", 《计算机工程与应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144106A (zh) * | 2019-12-20 | 2020-05-12 | 山东科技大学 | 一种不平衡数据集下的两阶段文本特征选择方法 |
CN111144106B (zh) * | 2019-12-20 | 2023-05-02 | 山东科技大学 | 一种不平衡数据集下的两阶段文本特征选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105808718B (zh) | 2019-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202518B (zh) | 基于chi和分类别关联规则算法的短文本分类方法 | |
CN105224695B (zh) | 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置 | |
CN104391835B (zh) | 文本中特征词选择方法及装置 | |
CN102799647B (zh) | 网页去重方法和设备 | |
CN104142918B (zh) | 基于tf‑idf特征的短文本聚类以及热点主题提取方法 | |
CN102929937B (zh) | 基于文本主题模型的商品分类的数据处理方法 | |
CN102622373B (zh) | 一种基于tf*idf算法的统计学文本分类系统及方法 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN106095996A (zh) | 用于文本分类的方法 | |
CN104750844A (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
CN102298646B (zh) | 一种主观文本和客观文本分类方法及装置 | |
CN108491429A (zh) | 一种基于类内类间文档频和词频统计的特征选择方法 | |
CN103886108B (zh) | 一种不均衡文本集的特征选择和权重计算方法 | |
CN106021578B (zh) | 一种基于聚类和隶属度融合的改进型文本分类算法 | |
CN102567308A (zh) | 一种信息处理特征提取方法 | |
CN101763431A (zh) | 基于海量网络舆情信息的pl聚类处理方法 | |
CN105183813A (zh) | 基于互信息的用于文档分类的并行特征选择方法 | |
CN105045913B (zh) | 基于WordNet以及潜在语义分析的文本分类方法 | |
CN104731772B (zh) | 基于改进特征评估函数的贝叶斯垃圾邮件过滤方法 | |
Xu et al. | An improved information gain feature selection algorithm for SVM text classifier | |
CN108664633A (zh) | 一种利用多样化文本特征进行文本分类的方法 | |
CN107562928B (zh) | 一种ccmi文本特征选择方法 | |
CN109271517A (zh) | Ig tf-idf文本特征向量生成及文本分类方法 | |
CN106570076A (zh) | 一种计算机文本分类系统 | |
CN103268346B (zh) | 半监督分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |