CN108763344B

CN108763344B - 基于信息增益与最大相关最小冗余二阶段特征选择方法

Info

Publication number: CN108763344B
Application number: CN201810458856.1A
Authority: CN
Inventors: 于舒娟; 张昀; 朱文峰; 何伟; 董茜茜; 金海红
Original assignee: Nanjing University Of Posts And Telecommunications Nantong Institute Co ltd; Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University Of Posts And Telecommunications Nantong Institute Co ltd; Nanjing University of Posts and Telecommunications
Priority date: 2018-05-15
Filing date: 2018-05-15
Publication date: 2021-12-14
Anticipated expiration: 2038-05-15
Also published as: CN108763344A

Abstract

本发明公开了一种基于信息增益与最大相关最小冗余二阶段特征选择方法，首先根据信息增益算法初步选取特征词，得到特征词子集；计算特征词与类别之间的互信息值；计算特征词之间的互信息值；计算特征词的类差分度；计算特征词的类差分度差值；将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征词选取；本发明通过信息增益选取一阶段特征集合，同时将类差分度思想引入最大相关最小冗余方法作为二阶段特征提取方法，进而提升特征集合选取的准确度，实现特征词的准确选取，解决现有特征提取分类效果差、计算量大以及特征冗余等技术问题。

Description

基于信息增益与最大相关最小冗余二阶段特征选择方法

技术领域

本发明属于机器学习及自然语言处理领域，尤其是涉及一种基于信息增益与最大相关最小冗余二阶段特征选择方法。

背景技术

随着信息化时代的来临，能够获取到的信息数据量越来越大，特征维度也越来越高，尽管高维度能够让信息更加完整，但同时也增加了对分类器的要求，并且容易产生维度灾难的问题。文本的特征选取是从预处理过的文本中选择最具代表性的特征词集合，通过选择的特征子集达到降维的效果。传统的特征词选取的方法有信息增益(informationgain，IG)，文本词频(document frequency，DF)，χ²统计量(chi squarestatistic，CHI)，词频-逆文本率(term frequency－inverse document frequency，TF-IDF)等。这些传统的特征选取方法仅仅考虑了特征词与文本类别之间以及文本与文本之间的关系，没有考虑特征词之间的关系，特征词之间可能存在冗余，即需要对特征词进行二次提取，去掉冗余。文献[姚海明，王娜，齐妙，李研，改进的最大相关最小冗余特征选择方法研究，计算机工程与应用，2014,50(9):116-122.]通过最大相关最小冗余算法(minimum redundancy maximumrelevancy，MRMR)选择特征子集，并且利用T检验(T-test)，χ²算法(chi squarestatistic)等作为特征子集的评价函数。文献[陈素萍，谢丽聪，一种文本特征选择方法的研究，计算机技术与发展，2009,19(2)：112-115.]比较了信息增益、期望交叉熵(expectedcross entropy，ECE)、互信息(mutual information，MI)、χ²统计量以及MRMR算法，最终提出最大相关最小冗余MRMR模型的特征选择方法。该文献直接使用最大相关最小冗余MRMR算法进行特征子集的选择，虽然保证了特征子集语义的完整，但生成特征子集的计算代价较大。为了减小计算代价，文献[李军怀，付静飞，费蓉，王怀军，基于MRMR的文本分类特征选择方法，计算机科学，2016,43(10)：225-228.]提出了提出了基于TF-IDF与MRMR的二阶段特征选择方法。但文献[LB Xu,J Liu,WL Zhou,Q Yan,Adaptive Na

ve Bayesian Classifierfor Automatic Classification of Webpage from Massive Network Data.SixthInternational Conference on Intelligent Human-machine Systems&Cybernetics,2014,1:127-130.]中实验表明信息增益算法分类效果优于词频-逆文本率TF-IDF算法。同时文献[任军，葛卫丽，陈家勇，一种基于类差分度的互信息特征选择方法，中国科技论文，2015(20)：2386-2389.]引入类差分度的概念，提出一种改进的互信息特征选择方法，其核心思想利用类差分度，解决互信息方法未考虑到的特征项与类别之间关系问题。

发明内容

本发明的目的在于为文本分类任务选取更加准确的特征集合，提出一种基于信息增益与最大相关最小冗余二阶段特征选择方法，实现特征词的准确选取，解决现有特征提取分类效果差、计算量大以及特征冗余等技术问题。

本发明是在传统信息增益算法的基础上增加第二阶段的最大相关最小冗余特征提取方法，并在其基础上增加类差分度思想，平衡传统的最大相关最小冗余方法在特征与类别以及特征与特征之间的比重，进而提升文本分类效果。本发明采用如下技术方案，一种基于信息增益与最大相关最小冗余二阶段特征选择方法，具体步骤如下：

1)利用信息增益算法初步选取特征词，得到特征词子集；

2)计算步骤1)得到的特征词与文本类别之间的互信息值；

3)计算特征词之间的互信息值；

4)计算特征词的类差分度；

5)计算特征词的类差分度差值；

6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征词选取。

优选地，所述步骤1)利用信息增益算法初步选取特征词具体为：

特征词w_i的信息增益IG(w_i)计算如下：

其中，m表示文本类别总数，C_t表示第t类文本，P(C_t)表示C_t类文本在总文本中出现的概率，P(w_i)表示包含特征词w_i的文本在总文本中出现的概率，P(C_t|w_i)表示文本包含特征词w_i并且属于C_t类的条件概率，

表示不包含特征词w_i的文本在总文本中的概率，

表示文本不包含特征词w_i但属于C_t类的条件概率，log(·)表示以2为底的对数，

表示对表达式求和；

按信息增益从大到小选取信息增益最大的部分特征词，得到特征词子集。

优选地，所述步骤2)中计算步骤1)得到的特征词w_i与文本类别集合C之间的互信息值，具体为：

特征词w_i与文本类别集合C之间的互信息值I(w_i；C)为

式中，m表示文本类别总数，C_t表示第t类文本，P(w_i,C_t)表示C_t类文本中包含特征词w_i的概率；

表示C_t类文本中不包含特征词w_i的概率；P(w_i)表示包含特征词w_i的文本在总文本中出现的概率；

表示不包含特征词w_i的文本在总文本中出现的概率；P(C_t)表示C_t类文本在总文本中出现的概率。

优选地，所述步骤3)计算特征词之间的互信息值具体为：

特征词w_i和特征词w_j之间的互信息值I(w_i；w_j)为：

式中，P(w_i,w_j)表示同时包含特征词w_i和特征词w_j的文本在总文本中出现的概率，其中i≠j；

表示包含特征词w_i且不包含特征词w_j的文本在总文本中出现的概率；

表示包含特征词w_j且不包含特征词w_i的文本在总文本中出现的概率；P(w_i)表示包含特征词w_i的文本在总文本中出现的概率；P(w_j)表示包含特征词w_j的文本在总文本中出现的概率；

表示不包含特征词w_i的文本在总文本中出现的概率；

表示不包含特征词w_j的文本在总文本中出现的概率；

表示既不包含特征词w_i又不包含特征词w_j的文本在总文本中出现的概率。

优选地，所述步骤4)计算特征词之间的类差分度具体为：

特征词w_i的类差分度为：

式中，β_t表示特征词w_i在C_t类中的类差分度；AC表示特征词w_i的类间离散度；DC_t表示特征词w_i在C_t类中的类内耦合度；f_t(w_i)表示在C_t类中包含特征词w_i的文本数；

表示包含特征词w_i的文本在每个类别中的平均数；n表示属于C_t类的文本总数；g_p(w_i)表示特征词w_i在C_t类第p篇文本中的词频数；

表示在C_t类所有文档中特征词w_i的平均词频数，m表示文本类别总数。

优选地，所述步骤5)计算类差分度差值具体为：

计算特征词w_i的类差分度差值α：

式中，β_max1,β_max2分别表示特征词w_i的类差分度最大值以及次大值，AC表示特征词w_i的类间离散度，DC_min1,DC_min2分别表示特征词w_i的类内耦合度最小值以及次小值，λ为常数。

优选地，所述步骤6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征选取具体为：

选取第k个特征词的公式为：

式中，α表示特征词w_i的类差分度差值；I(w_i；C)表示特征词w_i与文本类别集合C之间的互信息值；D₁表示通过信息增益初步选取的特征词子集；S_k-1表示二阶段特征已选择的特征词子集，其中k-1表示已选择的特征词个数；I(w_i；w_j)表示特征词w_i和特征词w_j之间的互信息值；

表示对表达式求最大值。

发明所达到的有益效果：本发明是一种基于信息增益与最大相关最小冗余二阶段特征选择方法，实现特征词的准确选取，解决现有特征提取分类效果差、计算量大以及特征冗余等技术问题。本发明通过信息增益选取一阶段特征集合，同时将类差分度思想引入最大相关最小冗余算法作为二阶段特征提取方法，进而提升特征集合选取的准确度；利用最大相关最小冗余算法对文本特征进行二阶段筛选，同时引入类差分度对最大相关最小冗余进行动态设置权重，继承了信息增益以及最大相关最小冗余算法的优点，提高了支持向量机分类器的性能；与仅使用信息增益以及未改进的最大相关最小冗余算法相比，本发明具有更好的鲁棒性，使其筛选的特征集合对类别集合中的类别都能保持良好的分类效果；在同等条件下，本发明筛选出的特征集合分类效果更好。

附图说明

图1是本发明实施例中分别采用信息增益、信息增益与传统最大相关最小冗余以及本发明的三种特征选择方法在10～100维特征集合分类准确率仿真图；

图2是本发明实施例中分别采用信息增益、信息增益与传统最大相关最小冗余以及本发明的三种特征选择方法在100～1000维特征集合分类F1值仿真图。

具体实施方式

下面根据附图并结合实施例对本发明的技术方案作进一步阐述。

一种基于信息增益与最大相关最小冗余二阶段特征选择方法，具体步骤如下：

1)利用信息增益算法初步选取特征词，得到特征词子集；

特征词w_i的信息增益IG(w_i)计算如下：

表示不包含特征词w_i的文本在总文本中的概率，

表示对表达式求和；

2)计算步骤1)得到的特征词与文本类别之间的互信息值；

特征词w_i与文本类别集合C之间的互信息值I(w_i；C)为

3)计算特征词之间的互信息值；

特征词w_i和特征词w_j之间的互信息值I(w_i；w_j)为：

表示不包含特征词w_i的文本在总文本中出现的概率；

表示不包含特征词w_j的文本在总文本中出现的概率；

4)计算特征词的类差分度；

特征词w_i的类差分度为：

5)计算特征词的类差分度差值；

计算特征词w_i的类差分度差值α：

6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征选取。

选取第k个特征词的公式为：

表示对表达式求最大值。

结合仿真结果：

图1中可以看出传统信息增益算法在分类准确率达到80％时需要58个特征项，信息增益与传统最大相关最小冗余二阶段特征选取方法分类准确率达到80％时需要43个特征项，而本发明的特征提取方法在达到相同准确率时只需要38个特征项。由此可见本发明的特征选取方法能够利用更少的特征项达到好的预测结果；同时在选取的特征子集数量一致时，本发明的特征选取方法准确率最高，说明本发明的特征选择方法选择的特征项表征能力要优于其他两种方法。

图2中可以看出，当特征子集的维度在超过400维时，三个特征提取算法的综合分类率宏平均F1(macro-averaging)呈现下降的趋势，特征子集达到400维度左右时，能够准确区分文本类别的特征已经被筛选出来，再增加筛选的特征子集的维度，极可能将不相干的特征词筛选进入特征子集，造成干扰，从而导致分类效果下降。由于特征维度的增加，干扰的特征词增多，三种特征选择方法的分类效果都有所下降。但本发明的综合分类率宏平均F1仍高于其他两种方法，这也间接说明了本发明能够更加准确的优先提取出合适的特征子集，最大限度减少了干扰词的混入。

综上所述，本发明提出的基于信息增益与最大相关最小冗余二阶段特征选择方法能够有限提取出表征能力强的特征项，较好的避免了干扰词的混入，从而提升了分类器的分类效果。