CN105808718A

CN105808718A - 一种基于不平衡数据集的文本特征选择方法

Info

Publication number: CN105808718A
Application number: CN201610128100.1A
Authority: CN
Inventors: 吴哲夫; 肖鹰; 宣琦; 王中友
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2016-03-07
Filing date: 2016-03-07
Publication date: 2016-07-27
Anticipated expiration: 2036-03-07
Also published as: CN105808718B

Abstract

一种基于不平衡数据集的文本特征选择方法，在计算机上计算不平衡文档的特征集合，选择分类算法模型进行建模，具体包括以下步骤：步骤1将数据集分成多数类和少数类，并规定少数类为正类，用c_i表示；多数类为负类，用表示；步骤2将数据集中的文本进行预处理，分词、去除停用词等操作，形成特征t的集合T；步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N；步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ²(t,c_i)；步骤5在不平衡类别文档中分别设置筛选特征的阈值，并根据每个特征计算出来的χ²(t,c_i)按照大小顺序排列，按照类别取出指定特征数目的特征集合Tˊ；步骤6根据特征选择后的特征集合Tˊ，选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。

Description

一种基于不平衡数据集的文本特征选择方法

技术领域

本发明涉及数据挖掘不平衡数据集分类问题以及文本特征选择领域，是一种适用于不平衡文本分类的改进型CHI方法。

背景技术

随着互联网的飞速发展，电子文档的数目急剧增多，使文本分类成为处理大量文本数据的核心技术。由于文本中包含特征的维数数量庞大，数据降维中常常采用特征选择技术来进行处理。有效的特征选择算法不仅能够降低特征的维度，可以去除冗余特征，同时还能避免分类器过度拟合，从而提高模型的分类精度。

目前常用的特征选择算法主要有互信息(MutualInformation,MI)、信息增益(InformationGain,IG)、卡方统计量(Chi-squarestatistic,CHI)等。这些算法有各自优缺点，例如互信息(MI)倾向于选择低频特征、信息增益(IG)计算量较大，适合进行全局特征选择而非具体到某个类别上；CHI是一种稳定高效的特征选择算法，在实验中表现出较好的精准度。针对文本不平衡问题也有一些有效的算法，如：CTD，SCIW等，但这些算法的不足之处是没有充分考虑到所有隐藏在不平衡文本数据集中的影响特征选择的重要因素。

发明内容

本发明目的在于针对CHI模型的不足，通过结合特征在不平衡数据集中的分布特点，提出和设计出一种更适用于不平衡数据集的改进型IDA-CHI算法。CHI模型的不足之处在于它对低频特征的倚重较大，即对低频词过于敏感；而在实际的不平衡文本数据集中，正类文本中存在着相当数量的低频特征，并且这些特征对于正类有较强的相关性。

CHI模型中，当AD<BC时，特征与类别负相关，而对于仅在正类中出现的低频特征，其往往与负类负相关，如果单纯的剔除掉这些正类中负相关的特征，则会很大程度影响正类中的预测效果。

针对上述不足，在不平衡文本数据集中强特征应该具有以下特点：

a.特征只在某类的文本中出现，且在这类文本中出现次数较多；

b.特征在多个类别中出现，且在其中某类的文本中出现次数较多；

c.特征在某类的数量分布尽量均匀，具有分散性；

d.特征在负类出现负相关时，尽可能避免该低频特征被淘汰掉；

为了实现上述目的，本发明采取如下技术方案：

一种基于不平衡数据集的文本特征选择方法，该选择方法在计算机上计算不平衡文档的特征集合，选择分类算法模型进行建模，具体包括以下步骤：

步骤1将数据集分成多数类和少数类，并规定少数类为正类，用c_i表示；多数类为负类，用表示；

步骤2将数据集中的文本进行预处理，分词、去除停用词等操作，形成特征集合T；

步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N；

其中，N表示数据集中文档的总数目；A表示正类中包含特征t的文档数；B表示负类中包含特征t的文档数；C表示正类中不包含特征t的文档数；D表示负类中不包含特征t的文档数；

步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ²(t,c_i)；

其中，新的χ²(t,c_i)计算公式为：

χ^{2} (t, c_{i}) = \{\begin{matrix} \frac{{(A D - B C)}^{2}}{(A + B) (C + D)} \times α \times β, A D - B C > 0 \\ \frac{{(A D - B C)}^{2}}{(A + B) (C + D)} \times α \times β \times γ, A D - B C < 0 \\ α = \frac{A}{A + B} - \frac{C}{C + D} \\ β = \frac{f_{i} (t) - \overset{&OverBar;}{f (t)}}{\overset{&OverBar;}{f (t)}} \\ γ = \frac{A}{D} \end{matrix}

新的χ²(t,c_i)计算公式中的表示特征代表能力，α越大表明正类中包含特征t的文档数越多而负类中包含特征t的文档越少，所以该特征的鉴别性越强，即越能代表少数类；

新的χ²(t,c_i)计算公式中的表示特征t在特定类别文档中的分散度，f_i(t)表示类别c_i中包含特征t的文档数；表示每个类别里平均含有特征t的文档数；m表示数据集中文本类别总数；

新的χ²(t,c_i)计算公式中的表示的是负相关特征的调节因子；当不平衡类别中出现负相关现象时，为了防止忽略正类中的某些低频特征现象可通过加大某些低频特征的权值，即通过γ参数来调节加大这些特征的权重。γ越大，表示t在特定类别出现的相对次数越多。

在不平衡类别文档中分别设置筛选特征的阈值，并根据每个特征计算出来的χ²(t,c_i)按照大小顺序排列，按照类别取出指定特征数目的特征集合T'；

根据特征选择后的特征集合T'，选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。

本发明的优点是：

本发明可解决不平衡数据集中分类特征选择偏向多数类，从而造成少数类无法被正确识别的问题；

本发明有利于筛选出更具有实际代表性的特征集合，特别适合少数类中特征判别比多数类更具有价值的数据挖掘应用中，如医疗诊断、金融诈骗等领域。

附图说明

图1本发明的步骤流程图。

图2本发明的IDA-CHI特征选择算法流程图。

具体实施方式

为了检验本发明的优劣，可以通过如下几个评价指标来检验和验证。

参见表1，不平衡数据分类中常用查全率(recall)和查准率(precision)来衡量模型的分类质量，而F1值是综合考虑两个类的分类性能，兼顾正类和负类分类精度的平均。

表1

其中TP(TruePositive)是指被分类器正确分类的正类；TN(TrueNegative)是指被分类器正确分类的负类；FP(FalsePositive)是指被分类器错误分类的正类；FN(FalseNegative)是指被分类器错误分类的负类。

查全率

查准率

F1值：

实验中数据集来自复旦大学计算机信息与技术系国际数据库中心自然语言小组，该数据集有20多个文档类别，比较适合用于文本分类。

为了保证不平衡数据集，随机抽取6个不同类别的文档，每类文本随机抽取一定的数量，并且每类文档选取2/3作为训练集，1/3作为测试集，参见表2。

表2

实验中文本表示阶段采用TF-IDF权值，分类器采用支持向量机SVM来对训练集进行预测分类。通过比较传统CHI算法、和本发明IDA-CHI算法的评估指标来验证本发明的性能优劣，结果如表3：

表3

从表3可以看出而本发明在类别分布不均匀的文本上查全率、查准率、F1值都有一定程度的提高，特别是在少数类文本(体育类)中体现的更为明显。

在不同算法下，通过设定筛选不同数目的特征维度来比较六个文本类别的F1均值。由于所有文本分词处理之后的特征维度较大，所以设定区间在[18000,27000]之间来进行验证，结果如表4：

表4

从表4可以看出本发明对于总体均值F1也有一定的提高，能确保不平衡数据文本的总体分类效果。

Claims

1.一种基于不平衡数据集的文本特征选择方法，其特征在于：该选择方法在计算机上计算不平衡文档的特征集合，选择分类算法模型进行建模，具体包括以下步骤：

步骤2将数据集中的文本进行预处理，分词、去除停用词等操作，形成特征t的集合T；

步骤5在不平衡类别文档中分别设置筛选特征的阈值，并根据每个特征计算出来的χ²(t,c_i)按照大小顺序排列，按照类别取出指定特征数目的特征集合T'；

步骤6根据特征选择后的特征集合T'，选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。

2.根据权利要求1所述的方法，所述步骤3中的几个参数含义为：

N表示数据集中文档的总数目；A表示正类中包含特征t的文档数；B表示负类中包含特征t的文档数；C表示正类中不包含特征t的文档数；D表示负类中不包含特征t的文档数。

3.根据权利要求1所述的方法，所述步骤4中新的χ²(t,c_i)计算公式为：

χ^{2} (t, c_{i}) = \{\begin{matrix} \frac{{(A D - B C)}^{2}}{(A + B) (C + D)} \times α \times β, A D - B C > 0 \\ \frac{{(A D - B C)}^{2}}{(A + B) (C + D)} \times α \times β \times γ, A D - B C < 0 \\ α = \frac{A}{A + B} - \frac{C}{C + D} \\ β = \frac{f_{i} (t) - \overset{&OverBar;}{f (t)}}{\overset{&OverBar;}{f (t)}} \\ γ = \frac{A}{D} \end{matrix}

公式中：χ²(t,c_i)为度量特征t和文档类别c_i之间相关度的卡方统计量；表示特征代表能力，α越大表明该特征的鉴别性越强，即越能代表少数类；表示特征t在特定类别文档中的分散度，其中f_i(t)表示类别c_i中包含特征t的文档数，表示每个类别里平均含有特征t的文档数，m表示数据集中文本类别总数；表示的是负相关特征的调节因子，当不平衡类别中出现负相关现象时，为了防止忽略正类中的某些低频特征现象可通过加大某些低频特征的权值，即通过γ参数来调节加大这些特征的权重。γ越大，表示特征t在特定类别出现的相对次数越多。