CN108763344B - 基于信息增益与最大相关最小冗余二阶段特征选择方法 - Google Patents
基于信息增益与最大相关最小冗余二阶段特征选择方法 Download PDFInfo
- Publication number
- CN108763344B CN108763344B CN201810458856.1A CN201810458856A CN108763344B CN 108763344 B CN108763344 B CN 108763344B CN 201810458856 A CN201810458856 A CN 201810458856A CN 108763344 B CN108763344 B CN 108763344B
- Authority
- CN
- China
- Prior art keywords
- text
- feature
- word
- class
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于信息增益与最大相关最小冗余二阶段特征选择方法,首先根据信息增益算法初步选取特征词,得到特征词子集;计算特征词与类别之间的互信息值;计算特征词之间的互信息值;计算特征词的类差分度;计算特征词的类差分度差值;将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征词选取;本发明通过信息增益选取一阶段特征集合,同时将类差分度思想引入最大相关最小冗余方法作为二阶段特征提取方法,进而提升特征集合选取的准确度,实现特征词的准确选取,解决现有特征提取分类效果差、计算量大以及特征冗余等技术问题。
Description
技术领域
本发明属于机器学习及自然语言处理领域,尤其是涉及一种基于信息增益与最大相关最小冗余二阶段特征选择方法。
背景技术
随着信息化时代的来临,能够获取到的信息数据量越来越大,特征维度也越来越高,尽管高维度能够让信息更加完整,但同时也增加了对分类器的要求,并且容易产生维度灾难的问题。文本的特征选取是从预处理过的文本中选择最具代表性的特征词集合,通过选择的特征子集达到降维的效果。传统的特征词选取的方法有信息增益(informationgain,IG),文本词频(document frequency,DF),χ2统计量(chi squarestatistic,CHI),词频-逆文本率(term frequency-inverse document frequency,TF-IDF)等。这些传统的特征选取方法仅仅考虑了特征词与文本类别之间以及文本与文本之间的关系,没有考虑特征词之间的关系,特征词之间可能存在冗余,即需要对特征词进行二次提取,去掉冗余。文献[姚海明,王娜,齐妙,李研,改进的最大相关最小冗余特征选择方法研究,计算机工程与应用,2014,50(9):116-122.]通过最大相关最小冗余算法(minimum redundancy maximumrelevancy,MRMR)选择特征子集,并且利用T检验(T-test),χ2算法(chi squarestatistic)等作为特征子集的评价函数。文献[陈素萍,谢丽聪,一种文本特征选择方法的研究,计算机技术与发展,2009,19(2):112-115.]比较了信息增益、期望交叉熵(expectedcross entropy,ECE)、互信息(mutual information,MI)、χ2统计量以及MRMR算法,最终提出最大相关最小冗余MRMR模型的特征选择方法。该文献直接使用最大相关最小冗余MRMR算法进行特征子集的选择,虽然保证了特征子集语义的完整,但生成特征子集的计算代价较大。为了减小计算代价,文献[李军怀,付静飞,费蓉,王怀军,基于MRMR的文本分类特征选择方法,计算机科学,2016,43(10):225-228.]提出了提出了基于TF-IDF与MRMR的二阶段特征选择方法。但文献[LB Xu,J Liu,WL Zhou,Q Yan,Adaptive Nave Bayesian Classifierfor Automatic Classification of Webpage from Massive Network Data.SixthInternational Conference on Intelligent Human-machine Systems&Cybernetics,2014,1:127-130.]中实验表明信息增益算法分类效果优于词频-逆文本率TF-IDF算法。同时文献[任军,葛卫丽,陈家勇,一种基于类差分度的互信息特征选择方法,中国科技论文,2015(20):2386-2389.]引入类差分度的概念,提出一种改进的互信息特征选择方法,其核心思想利用类差分度,解决互信息方法未考虑到的特征项与类别之间关系问题。
发明内容
本发明的目的在于为文本分类任务选取更加准确的特征集合,提出一种基于信息增益与最大相关最小冗余二阶段特征选择方法,实现特征词的准确选取,解决现有特征提取分类效果差、计算量大以及特征冗余等技术问题。
本发明是在传统信息增益算法的基础上增加第二阶段的最大相关最小冗余特征提取方法,并在其基础上增加类差分度思想,平衡传统的最大相关最小冗余方法在特征与类别以及特征与特征之间的比重,进而提升文本分类效果。本发明采用如下技术方案,一种基于信息增益与最大相关最小冗余二阶段特征选择方法,具体步骤如下:
1)利用信息增益算法初步选取特征词,得到特征词子集;
2)计算步骤1)得到的特征词与文本类别之间的互信息值;
3)计算特征词之间的互信息值;
4)计算特征词的类差分度;
5)计算特征词的类差分度差值;
6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征词选取。
优选地,所述步骤1)利用信息增益算法初步选取特征词具体为:
特征词wi的信息增益IG(wi)计算如下:
其中,m表示文本类别总数,Ct表示第t类文本,P(Ct)表示Ct类文本在总文本中出现的概率,P(wi)表示包含特征词wi的文本在总文本中出现的概率,P(Ct|wi)表示文本包含特征词wi并且属于Ct类的条件概率,表示不包含特征词wi的文本在总文本中的概率,表示文本不包含特征词wi但属于Ct类的条件概率,log(·)表示以2为底的对数,表示对表达式求和;
按信息增益从大到小选取信息增益最大的部分特征词,得到特征词子集。
优选地,所述步骤2)中计算步骤1)得到的特征词wi与文本类别集合C之间的互信息值,具体为:
特征词wi与文本类别集合C之间的互信息值I(wi;C)为
式中,m表示文本类别总数,Ct表示第t类文本,P(wi,Ct)表示Ct类文本中包含特征词wi的概率;表示Ct类文本中不包含特征词wi的概率;P(wi)表示包含特征词wi的文本在总文本中出现的概率;表示不包含特征词wi的文本在总文本中出现的概率;P(Ct)表示Ct类文本在总文本中出现的概率。
优选地,所述步骤3)计算特征词之间的互信息值具体为:
特征词wi和特征词wj之间的互信息值I(wi;wj)为:
式中,P(wi,wj)表示同时包含特征词wi和特征词wj的文本在总文本中出现的概率,其中i≠j;表示包含特征词wi且不包含特征词wj的文本在总文本中出现的概率;表示包含特征词wj且不包含特征词wi的文本在总文本中出现的概率;P(wi)表示包含特征词wi的文本在总文本中出现的概率;P(wj)表示包含特征词wj的文本在总文本中出现的概率;表示不包含特征词wi的文本在总文本中出现的概率;表示不包含特征词wj的文本在总文本中出现的概率;表示既不包含特征词wi又不包含特征词wj的文本在总文本中出现的概率。
优选地,所述步骤4)计算特征词之间的类差分度具体为:
特征词wi的类差分度为:
式中,βt表示特征词wi在Ct类中的类差分度;AC表示特征词wi的类间离散度;DCt表示特征词wi在Ct类中的类内耦合度;ft(wi)表示在Ct类中包含特征词wi的文本数;表示包含特征词wi的文本在每个类别中的平均数;n表示属于Ct类的文本总数;gp(wi)表示特征词wi在Ct类第p篇文本中的词频数;表示在Ct类所有文档中特征词wi的平均词频数,m表示文本类别总数。
优选地,所述步骤5)计算类差分度差值具体为:
计算特征词wi的类差分度差值α:
式中,βmax1,βmax2分别表示特征词wi的类差分度最大值以及次大值,AC表示特征词wi的类间离散度,DCmin1,DCmin2分别表示特征词wi的类内耦合度最小值以及次小值,λ为常数。
优选地,所述步骤6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征选取具体为:
选取第k个特征词的公式为:
式中,α表示特征词wi的类差分度差值;I(wi;C)表示特征词wi与文本类别集合C之间的互信息值;D1表示通过信息增益初步选取的特征词子集;Sk-1表示二阶段特征已选择的特征词子集,其中k-1表示已选择的特征词个数;I(wi;wj)表示特征词wi和特征词wj之间的互信息值;表示对表达式求最大值。
发明所达到的有益效果:本发明是一种基于信息增益与最大相关最小冗余二阶段特征选择方法,实现特征词的准确选取,解决现有特征提取分类效果差、计算量大以及特征冗余等技术问题。本发明通过信息增益选取一阶段特征集合,同时将类差分度思想引入最大相关最小冗余算法作为二阶段特征提取方法,进而提升特征集合选取的准确度;利用最大相关最小冗余算法对文本特征进行二阶段筛选,同时引入类差分度对最大相关最小冗余进行动态设置权重,继承了信息增益以及最大相关最小冗余算法的优点,提高了支持向量机分类器的性能;与仅使用信息增益以及未改进的最大相关最小冗余算法相比,本发明具有更好的鲁棒性,使其筛选的特征集合对类别集合中的类别都能保持良好的分类效果;在同等条件下,本发明筛选出的特征集合分类效果更好。
附图说明
图1是本发明实施例中分别采用信息增益、信息增益与传统最大相关最小冗余以及本发明的三种特征选择方法在10~100维特征集合分类准确率仿真图;
图2是本发明实施例中分别采用信息增益、信息增益与传统最大相关最小冗余以及本发明的三种特征选择方法在100~1000维特征集合分类F1值仿真图。
具体实施方式
下面根据附图并结合实施例对本发明的技术方案作进一步阐述。
一种基于信息增益与最大相关最小冗余二阶段特征选择方法,具体步骤如下:
1)利用信息增益算法初步选取特征词,得到特征词子集;
特征词wi的信息增益IG(wi)计算如下:
其中,m表示文本类别总数,Ct表示第t类文本,P(Ct)表示Ct类文本在总文本中出现的概率,P(wi)表示包含特征词wi的文本在总文本中出现的概率,P(Ct|wi)表示文本包含特征词wi并且属于Ct类的条件概率,表示不包含特征词wi的文本在总文本中的概率,表示文本不包含特征词wi但属于Ct类的条件概率,log(·)表示以2为底的对数,表示对表达式求和;
按信息增益从大到小选取信息增益最大的部分特征词,得到特征词子集。
2)计算步骤1)得到的特征词与文本类别之间的互信息值;
特征词wi与文本类别集合C之间的互信息值I(wi;C)为
式中,m表示文本类别总数,Ct表示第t类文本,P(wi,Ct)表示Ct类文本中包含特征词wi的概率;表示Ct类文本中不包含特征词wi的概率;P(wi)表示包含特征词wi的文本在总文本中出现的概率;表示不包含特征词wi的文本在总文本中出现的概率;P(Ct)表示Ct类文本在总文本中出现的概率。
3)计算特征词之间的互信息值;
特征词wi和特征词wj之间的互信息值I(wi;wj)为:
式中,P(wi,wj)表示同时包含特征词wi和特征词wj的文本在总文本中出现的概率,其中i≠j;表示包含特征词wi且不包含特征词wj的文本在总文本中出现的概率;表示包含特征词wj且不包含特征词wi的文本在总文本中出现的概率;P(wi)表示包含特征词wi的文本在总文本中出现的概率;P(wj)表示包含特征词wj的文本在总文本中出现的概率;表示不包含特征词wi的文本在总文本中出现的概率;表示不包含特征词wj的文本在总文本中出现的概率;表示既不包含特征词wi又不包含特征词wj的文本在总文本中出现的概率。
4)计算特征词的类差分度;
特征词wi的类差分度为:
式中,βt表示特征词wi在Ct类中的类差分度;AC表示特征词wi的类间离散度;DCt表示特征词wi在Ct类中的类内耦合度;ft(wi)表示在Ct类中包含特征词wi的文本数;表示包含特征词wi的文本在每个类别中的平均数;n表示属于Ct类的文本总数;gp(wi)表示特征词wi在Ct类第p篇文本中的词频数;表示在Ct类所有文档中特征词wi的平均词频数,m表示文本类别总数。
5)计算特征词的类差分度差值;
计算特征词wi的类差分度差值α:
式中,βmax1,βmax2分别表示特征词wi的类差分度最大值以及次大值,AC表示特征词wi的类间离散度,DCmin1,DCmin2分别表示特征词wi的类内耦合度最小值以及次小值,λ为常数。
6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征选取。
选取第k个特征词的公式为:
式中,α表示特征词wi的类差分度差值;I(wi;C)表示特征词wi与文本类别集合C之间的互信息值;D1表示通过信息增益初步选取的特征词子集;Sk-1表示二阶段特征已选择的特征词子集,其中k-1表示已选择的特征词个数;I(wi;wj)表示特征词wi和特征词wj之间的互信息值;表示对表达式求最大值。
结合仿真结果:
图1中可以看出传统信息增益算法在分类准确率达到80%时需要58个特征项,信息增益与传统最大相关最小冗余二阶段特征选取方法分类准确率达到80%时需要43个特征项,而本发明的特征提取方法在达到相同准确率时只需要38个特征项。由此可见本发明的特征选取方法能够利用更少的特征项达到好的预测结果;同时在选取的特征子集数量一致时,本发明的特征选取方法准确率最高,说明本发明的特征选择方法选择的特征项表征能力要优于其他两种方法。
图2中可以看出,当特征子集的维度在超过400维时,三个特征提取算法的综合分类率宏平均F1(macro-averaging)呈现下降的趋势,特征子集达到400维度左右时,能够准确区分文本类别的特征已经被筛选出来,再增加筛选的特征子集的维度,极可能将不相干的特征词筛选进入特征子集,造成干扰,从而导致分类效果下降。由于特征维度的增加,干扰的特征词增多,三种特征选择方法的分类效果都有所下降。但本发明的综合分类率宏平均F1仍高于其他两种方法,这也间接说明了本发明能够更加准确的优先提取出合适的特征子集,最大限度减少了干扰词的混入。
综上所述,本发明提出的基于信息增益与最大相关最小冗余二阶段特征选择方法能够有限提取出表征能力强的特征项,较好的避免了干扰词的混入,从而提升了分类器的分类效果。
Claims (1)
1.基于信息增益与最大相关最小冗余二阶段特征选择方法,其特征在于,包括以下步骤:
1)利用信息增益算法初步选取特征词,得到特征词子集,
其中,利用信息增益算法初步选取特征词具体为:
特征词wi的信息增益IG(wi)计算如下:
其中,m表示文本类别总数,Ct表示第t类文本,P(Ct)表示Ct类文本在总文本中出现的概率,P(wi)表示包含特征词wi的文本在总文本中出现的概率,P(Ct|wi)表示文本包含特征词wi并且属于Ct类的条件概率,表示不包含特征词wi的文本在总文本中的概率,表示文本不包含特征词wi但属于Ct类的条件概率,log(·)表示以2为底的对数,表示对表达式求和;
按信息增益从大到小选取信息增益最大的部分特征词,得到特征词子集;
2)计算步骤1)得到的特征词与文本类别之间的互信息值,
其中,计算步骤1)得到的特征词wi与文本类别集合C之间的互信息值,具体为:
特征词wi与文本类别集合C之间的互信息值I(wi;C)为
式中,m表示文本类别总数,Ct表示第t类文本,P(wi,Ct)表示Ct类文本中包含特征词wi的概率;表示Ct类文本中不包含特征词wi的概率;P(wi)表示包含特征词wi的文本在总文本中出现的概率;表示不包含特征词wi的文本在总文本中出现的概率;P(Ct)表示Ct类文本在总文本中出现的概率;
3)计算特征词之间的互信息值,具体为:
特征词wi和特征词wj之间的互信息值I(wi;wj)为:
式中,P(wi,wj)表示同时包含特征词wi和特征词wj的文本在总文本中出现的概率,其中i≠j;表示包含特征词wi且不包含特征词wj的文本在总文本中出现的概率;表示包含特征词wj且不包含特征词wi的文本在总文本中出现的概率;P(wi)表示包含特征词wi的文本在总文本中出现的概率;P(wj)表示包含特征词wj的文本在总文本中出现的概率;表示不包含特征词wi的文本在总文本中出现的概率;表示不包含特征词wj的文本在总文本中出现的概率;表示既不包含特征词wi又不包含特征词wj的文本在总文本中出现的概率;
4)计算特征词的类差分度,具体为:
特征词wi的类差分度为:
式中,βt表示特征词wi在Ct类中的类差分度;AC表示特征词wi的类间离散度;DCt表示特征词wi在Ct类中的类内耦合度;ft(wi)表示在Ct类中包含特征词wi的文本数;表示包含特征词wi的文本在每个类别中的平均数;n表示属于Ct类的文本总数;gp(wi)表示特征词wi在Ct类第p篇文本中的词频数;表示在Ct类所有文档中特征词wi的平均词频数,m表示文本类别总数;
5)计算特征词的类差分度差值,具体为:
计算特征词wi的类差分度差值α:
式中,βmax1,βmax2分别表示特征词wi的类差分度最大值以及次大值,AC表示特征词wi的类间离散度,DCmin1,DCmin2分别表示特征词wi的类内耦合度最小值以及次小值,λ为常数;
6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征词选取,具体为,
选取第k个特征词的公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810458856.1A CN108763344B (zh) | 2018-05-15 | 2018-05-15 | 基于信息增益与最大相关最小冗余二阶段特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810458856.1A CN108763344B (zh) | 2018-05-15 | 2018-05-15 | 基于信息增益与最大相关最小冗余二阶段特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763344A CN108763344A (zh) | 2018-11-06 |
CN108763344B true CN108763344B (zh) | 2021-12-14 |
Family
ID=64007020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810458856.1A Active CN108763344B (zh) | 2018-05-15 | 2018-05-15 | 基于信息增益与最大相关最小冗余二阶段特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763344B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860600B (zh) * | 2020-06-22 | 2024-06-18 | 国家电网有限公司 | 一种基于最大相关最小冗余判据的用户用电特征选择方法 |
CN112364629A (zh) * | 2020-11-27 | 2021-02-12 | 苏州大学 | 基于去冗余互信息特征选择的文本分类系统及方法 |
CN114266396A (zh) * | 2021-12-21 | 2022-04-01 | 国网天津市电力公司 | 一种基于电网特征智能筛选的暂态稳定判别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893388A (zh) * | 2015-01-01 | 2016-08-24 | 成都网安科技发展有限公司 | 一种基于类间区分度及类内高表征度的文本特征提取方法 |
-
2018
- 2018-05-15 CN CN201810458856.1A patent/CN108763344B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893388A (zh) * | 2015-01-01 | 2016-08-24 | 成都网安科技发展有限公司 | 一种基于类间区分度及类内高表征度的文本特征提取方法 |
Non-Patent Citations (2)
Title |
---|
《An Improved Minimum Redundancy Maximum Relevance Approach for》;Monalisa Mandal 等;《ScienceDirect》;20131231;全文 * |
一种基于类差分度的互信息特征选择方法;任军 等;《中国科技论文》;20151031;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108763344A (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kantor et al. | Coreference resolution with entity equalization | |
CN105512311B (zh) | 一种基于卡方统计的自适应特征选择方法 | |
CN104142918B (zh) | 基于tf‑idf特征的短文本聚类以及热点主题提取方法 | |
Berry et al. | Email surveillance using non-negative matrix factorization | |
CN106202518B (zh) | 基于chi和分类别关联规则算法的短文本分类方法 | |
CN108763344B (zh) | 基于信息增益与最大相关最小冗余二阶段特征选择方法 | |
US20180260484A1 (en) | Method, Apparatus, and Device for Generating Hot News | |
CN102346829B (zh) | 基于集成分类的病毒检测方法 | |
CN106407406B (zh) | 一种文本处理方法和系统 | |
CN110781332A (zh) | 基于复合聚类算法的电力居民用户日负荷曲线聚类方法 | |
CN107066555B (zh) | 面向专业领域的在线主题检测方法 | |
CN109145114B (zh) | 基于Kleinberg在线状态机的社交网络事件检测方法 | |
CN111309718B (zh) | 一种配网电压数据缺失填补方法及装置 | |
CN104346459A (zh) | 一种基于术语频率和卡方统计的文本分类特征选择方法 | |
CN103218368B (zh) | 一种挖掘热词的方法与装置 | |
CN106095747A (zh) | 一种垃圾短信的识别方法和系统 | |
CN105117466A (zh) | 一种互联网信息筛选系统及方法 | |
Wang et al. | Using artificial intelligence methods to classify different seismic events | |
Zhang et al. | A hot spot clustering method based on improved kmeans algorithm | |
JP5929532B2 (ja) | イベント検出装置、イベント検出方法およびイベント検出プログラム | |
CN116450827A (zh) | 一种基于大规模语言模型的事件模板归纳方法和系统 | |
CN110287973A (zh) | 一种基于低秩鲁棒线性鉴别分析的图像特征提取方法 | |
CN113657106B (zh) | 基于归一化词频权重的特征选择方法 | |
CN111143303B (zh) | 一种基于信息增益和改进knn算法的日志分类方法 | |
CN111444337B (zh) | 一种基于改进kl散度的话题跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 226000 No. 33 Xinjian Road, Gangzhao District, Nantong City, Jiangsu Province Applicant after: Nanjing Post & Telecommunication Univ. Applicant after: Nanjing University of Posts and Telecommunications Nantong Institute Limited Address before: 210046 No. 9 Wenyuan Road, Qixia District, Nanjing, Jiangsu Province Applicant before: Nanjing Post & Telecommunication Univ. Applicant before: Nanjing University of Posts and Telecommunications Nantong Institute Limited |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |