CN108763344B - 基于信息增益与最大相关最小冗余二阶段特征选择方法 - Google Patents

基于信息增益与最大相关最小冗余二阶段特征选择方法 Download PDF

Info

Publication number
CN108763344B
CN108763344B CN201810458856.1A CN201810458856A CN108763344B CN 108763344 B CN108763344 B CN 108763344B CN 201810458856 A CN201810458856 A CN 201810458856A CN 108763344 B CN108763344 B CN 108763344B
Authority
CN
China
Prior art keywords
text
feature
word
class
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810458856.1A
Other languages
English (en)
Other versions
CN108763344A (zh
Inventor
于舒娟
张昀
朱文峰
何伟
董茜茜
金海红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University Of Posts And Telecommunications Nantong Institute Co ltd
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University Of Posts And Telecommunications Nantong Institute Co ltd
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University Of Posts And Telecommunications Nantong Institute Co ltd, Nanjing University of Posts and Telecommunications filed Critical Nanjing University Of Posts And Telecommunications Nantong Institute Co ltd
Priority to CN201810458856.1A priority Critical patent/CN108763344B/zh
Publication of CN108763344A publication Critical patent/CN108763344A/zh
Application granted granted Critical
Publication of CN108763344B publication Critical patent/CN108763344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于信息增益与最大相关最小冗余二阶段特征选择方法,首先根据信息增益算法初步选取特征词,得到特征词子集;计算特征词与类别之间的互信息值;计算特征词之间的互信息值;计算特征词的类差分度;计算特征词的类差分度差值;将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征词选取;本发明通过信息增益选取一阶段特征集合,同时将类差分度思想引入最大相关最小冗余方法作为二阶段特征提取方法,进而提升特征集合选取的准确度,实现特征词的准确选取,解决现有特征提取分类效果差、计算量大以及特征冗余等技术问题。

Description

基于信息增益与最大相关最小冗余二阶段特征选择方法
技术领域
本发明属于机器学习及自然语言处理领域,尤其是涉及一种基于信息增益与最大相关最小冗余二阶段特征选择方法。
背景技术
随着信息化时代的来临,能够获取到的信息数据量越来越大,特征维度也越来越高,尽管高维度能够让信息更加完整,但同时也增加了对分类器的要求,并且容易产生维度灾难的问题。文本的特征选取是从预处理过的文本中选择最具代表性的特征词集合,通过选择的特征子集达到降维的效果。传统的特征词选取的方法有信息增益(informationgain,IG),文本词频(document frequency,DF),χ2统计量(chi squarestatistic,CHI),词频-逆文本率(term frequency-inverse document frequency,TF-IDF)等。这些传统的特征选取方法仅仅考虑了特征词与文本类别之间以及文本与文本之间的关系,没有考虑特征词之间的关系,特征词之间可能存在冗余,即需要对特征词进行二次提取,去掉冗余。文献[姚海明,王娜,齐妙,李研,改进的最大相关最小冗余特征选择方法研究,计算机工程与应用,2014,50(9):116-122.]通过最大相关最小冗余算法(minimum redundancy maximumrelevancy,MRMR)选择特征子集,并且利用T检验(T-test),χ2算法(chi squarestatistic)等作为特征子集的评价函数。文献[陈素萍,谢丽聪,一种文本特征选择方法的研究,计算机技术与发展,2009,19(2):112-115.]比较了信息增益、期望交叉熵(expectedcross entropy,ECE)、互信息(mutual information,MI)、χ2统计量以及MRMR算法,最终提出最大相关最小冗余MRMR模型的特征选择方法。该文献直接使用最大相关最小冗余MRMR算法进行特征子集的选择,虽然保证了特征子集语义的完整,但生成特征子集的计算代价较大。为了减小计算代价,文献[李军怀,付静飞,费蓉,王怀军,基于MRMR的文本分类特征选择方法,计算机科学,2016,43(10):225-228.]提出了提出了基于TF-IDF与MRMR的二阶段特征选择方法。但文献[LB Xu,J Liu,WL Zhou,Q Yan,Adaptive Na
Figure BDA0001660365760000011
ve Bayesian Classifierfor Automatic Classification of Webpage from Massive Network Data.SixthInternational Conference on Intelligent Human-machine Systems&Cybernetics,2014,1:127-130.]中实验表明信息增益算法分类效果优于词频-逆文本率TF-IDF算法。同时文献[任军,葛卫丽,陈家勇,一种基于类差分度的互信息特征选择方法,中国科技论文,2015(20):2386-2389.]引入类差分度的概念,提出一种改进的互信息特征选择方法,其核心思想利用类差分度,解决互信息方法未考虑到的特征项与类别之间关系问题。
发明内容
本发明的目的在于为文本分类任务选取更加准确的特征集合,提出一种基于信息增益与最大相关最小冗余二阶段特征选择方法,实现特征词的准确选取,解决现有特征提取分类效果差、计算量大以及特征冗余等技术问题。
本发明是在传统信息增益算法的基础上增加第二阶段的最大相关最小冗余特征提取方法,并在其基础上增加类差分度思想,平衡传统的最大相关最小冗余方法在特征与类别以及特征与特征之间的比重,进而提升文本分类效果。本发明采用如下技术方案,一种基于信息增益与最大相关最小冗余二阶段特征选择方法,具体步骤如下:
1)利用信息增益算法初步选取特征词,得到特征词子集;
2)计算步骤1)得到的特征词与文本类别之间的互信息值;
3)计算特征词之间的互信息值;
4)计算特征词的类差分度;
5)计算特征词的类差分度差值;
6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征词选取。
优选地,所述步骤1)利用信息增益算法初步选取特征词具体为:
特征词wi的信息增益IG(wi)计算如下:
Figure BDA0001660365760000021
其中,m表示文本类别总数,Ct表示第t类文本,P(Ct)表示Ct类文本在总文本中出现的概率,P(wi)表示包含特征词wi的文本在总文本中出现的概率,P(Ct|wi)表示文本包含特征词wi并且属于Ct类的条件概率,
Figure BDA0001660365760000031
表示不包含特征词wi的文本在总文本中的概率,
Figure BDA0001660365760000032
表示文本不包含特征词wi但属于Ct类的条件概率,log(·)表示以2为底的对数,
Figure BDA0001660365760000033
表示对表达式求和;
按信息增益从大到小选取信息增益最大的部分特征词,得到特征词子集。
优选地,所述步骤2)中计算步骤1)得到的特征词wi与文本类别集合C之间的互信息值,具体为:
特征词wi与文本类别集合C之间的互信息值I(wi;C)为
Figure BDA0001660365760000034
式中,m表示文本类别总数,Ct表示第t类文本,P(wi,Ct)表示Ct类文本中包含特征词wi的概率;
Figure BDA0001660365760000035
表示Ct类文本中不包含特征词wi的概率;P(wi)表示包含特征词wi的文本在总文本中出现的概率;
Figure BDA0001660365760000036
表示不包含特征词wi的文本在总文本中出现的概率;P(Ct)表示Ct类文本在总文本中出现的概率。
优选地,所述步骤3)计算特征词之间的互信息值具体为:
特征词wi和特征词wj之间的互信息值I(wi;wj)为:
Figure BDA0001660365760000037
式中,P(wi,wj)表示同时包含特征词wi和特征词wj的文本在总文本中出现的概率,其中i≠j;
Figure BDA0001660365760000038
表示包含特征词wi且不包含特征词wj的文本在总文本中出现的概率;
Figure BDA0001660365760000039
表示包含特征词wj且不包含特征词wi的文本在总文本中出现的概率;P(wi)表示包含特征词wi的文本在总文本中出现的概率;P(wj)表示包含特征词wj的文本在总文本中出现的概率;
Figure BDA00016603657600000310
表示不包含特征词wi的文本在总文本中出现的概率;
Figure BDA0001660365760000041
表示不包含特征词wj的文本在总文本中出现的概率;
Figure BDA0001660365760000042
表示既不包含特征词wi又不包含特征词wj的文本在总文本中出现的概率。
优选地,所述步骤4)计算特征词之间的类差分度具体为:
特征词wi的类差分度为:
Figure BDA0001660365760000043
式中,βt表示特征词wi在Ct类中的类差分度;AC表示特征词wi的类间离散度;DCt表示特征词wi在Ct类中的类内耦合度;ft(wi)表示在Ct类中包含特征词wi的文本数;
Figure BDA0001660365760000044
表示包含特征词wi的文本在每个类别中的平均数;n表示属于Ct类的文本总数;gp(wi)表示特征词wi在Ct类第p篇文本中的词频数;
Figure BDA0001660365760000045
表示在Ct类所有文档中特征词wi的平均词频数,m表示文本类别总数。
优选地,所述步骤5)计算类差分度差值具体为:
计算特征词wi的类差分度差值α:
Figure BDA0001660365760000046
式中,βmax1max2分别表示特征词wi的类差分度最大值以及次大值,AC表示特征词wi的类间离散度,DCmin1,DCmin2分别表示特征词wi的类内耦合度最小值以及次小值,λ为常数。
优选地,所述步骤6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征选取具体为:
选取第k个特征词的公式为:
Figure BDA0001660365760000047
式中,α表示特征词wi的类差分度差值;I(wi;C)表示特征词wi与文本类别集合C之间的互信息值;D1表示通过信息增益初步选取的特征词子集;Sk-1表示二阶段特征已选择的特征词子集,其中k-1表示已选择的特征词个数;I(wi;wj)表示特征词wi和特征词wj之间的互信息值;
Figure BDA0001660365760000051
表示对表达式求最大值。
发明所达到的有益效果:本发明是一种基于信息增益与最大相关最小冗余二阶段特征选择方法,实现特征词的准确选取,解决现有特征提取分类效果差、计算量大以及特征冗余等技术问题。本发明通过信息增益选取一阶段特征集合,同时将类差分度思想引入最大相关最小冗余算法作为二阶段特征提取方法,进而提升特征集合选取的准确度;利用最大相关最小冗余算法对文本特征进行二阶段筛选,同时引入类差分度对最大相关最小冗余进行动态设置权重,继承了信息增益以及最大相关最小冗余算法的优点,提高了支持向量机分类器的性能;与仅使用信息增益以及未改进的最大相关最小冗余算法相比,本发明具有更好的鲁棒性,使其筛选的特征集合对类别集合中的类别都能保持良好的分类效果;在同等条件下,本发明筛选出的特征集合分类效果更好。
附图说明
图1是本发明实施例中分别采用信息增益、信息增益与传统最大相关最小冗余以及本发明的三种特征选择方法在10~100维特征集合分类准确率仿真图;
图2是本发明实施例中分别采用信息增益、信息增益与传统最大相关最小冗余以及本发明的三种特征选择方法在100~1000维特征集合分类F1值仿真图。
具体实施方式
下面根据附图并结合实施例对本发明的技术方案作进一步阐述。
一种基于信息增益与最大相关最小冗余二阶段特征选择方法,具体步骤如下:
1)利用信息增益算法初步选取特征词,得到特征词子集;
特征词wi的信息增益IG(wi)计算如下:
Figure BDA0001660365760000052
其中,m表示文本类别总数,Ct表示第t类文本,P(Ct)表示Ct类文本在总文本中出现的概率,P(wi)表示包含特征词wi的文本在总文本中出现的概率,P(Ct|wi)表示文本包含特征词wi并且属于Ct类的条件概率,
Figure BDA0001660365760000061
表示不包含特征词wi的文本在总文本中的概率,
Figure BDA0001660365760000062
表示文本不包含特征词wi但属于Ct类的条件概率,log(·)表示以2为底的对数,
Figure BDA0001660365760000063
表示对表达式求和;
按信息增益从大到小选取信息增益最大的部分特征词,得到特征词子集。
2)计算步骤1)得到的特征词与文本类别之间的互信息值;
特征词wi与文本类别集合C之间的互信息值I(wi;C)为
Figure BDA0001660365760000064
式中,m表示文本类别总数,Ct表示第t类文本,P(wi,Ct)表示Ct类文本中包含特征词wi的概率;
Figure BDA0001660365760000065
表示Ct类文本中不包含特征词wi的概率;P(wi)表示包含特征词wi的文本在总文本中出现的概率;
Figure BDA0001660365760000066
表示不包含特征词wi的文本在总文本中出现的概率;P(Ct)表示Ct类文本在总文本中出现的概率。
3)计算特征词之间的互信息值;
特征词wi和特征词wj之间的互信息值I(wi;wj)为:
Figure BDA0001660365760000067
式中,P(wi,wj)表示同时包含特征词wi和特征词wj的文本在总文本中出现的概率,其中i≠j;
Figure BDA0001660365760000068
表示包含特征词wi且不包含特征词wj的文本在总文本中出现的概率;
Figure BDA0001660365760000069
表示包含特征词wj且不包含特征词wi的文本在总文本中出现的概率;P(wi)表示包含特征词wi的文本在总文本中出现的概率;P(wj)表示包含特征词wj的文本在总文本中出现的概率;
Figure BDA00016603657600000610
表示不包含特征词wi的文本在总文本中出现的概率;
Figure BDA0001660365760000071
表示不包含特征词wj的文本在总文本中出现的概率;
Figure BDA0001660365760000072
表示既不包含特征词wi又不包含特征词wj的文本在总文本中出现的概率。
4)计算特征词的类差分度;
特征词wi的类差分度为:
Figure BDA0001660365760000073
式中,βt表示特征词wi在Ct类中的类差分度;AC表示特征词wi的类间离散度;DCt表示特征词wi在Ct类中的类内耦合度;ft(wi)表示在Ct类中包含特征词wi的文本数;
Figure BDA0001660365760000074
表示包含特征词wi的文本在每个类别中的平均数;n表示属于Ct类的文本总数;gp(wi)表示特征词wi在Ct类第p篇文本中的词频数;
Figure BDA0001660365760000075
表示在Ct类所有文档中特征词wi的平均词频数,m表示文本类别总数。
5)计算特征词的类差分度差值;
计算特征词wi的类差分度差值α:
Figure BDA0001660365760000076
式中,βmax1max2分别表示特征词wi的类差分度最大值以及次大值,AC表示特征词wi的类间离散度,DCmin1,DCmin2分别表示特征词wi的类内耦合度最小值以及次小值,λ为常数。
6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征选取。
选取第k个特征词的公式为:
Figure BDA0001660365760000077
式中,α表示特征词wi的类差分度差值;I(wi;C)表示特征词wi与文本类别集合C之间的互信息值;D1表示通过信息增益初步选取的特征词子集;Sk-1表示二阶段特征已选择的特征词子集,其中k-1表示已选择的特征词个数;I(wi;wj)表示特征词wi和特征词wj之间的互信息值;
Figure BDA0001660365760000081
表示对表达式求最大值。
结合仿真结果:
图1中可以看出传统信息增益算法在分类准确率达到80%时需要58个特征项,信息增益与传统最大相关最小冗余二阶段特征选取方法分类准确率达到80%时需要43个特征项,而本发明的特征提取方法在达到相同准确率时只需要38个特征项。由此可见本发明的特征选取方法能够利用更少的特征项达到好的预测结果;同时在选取的特征子集数量一致时,本发明的特征选取方法准确率最高,说明本发明的特征选择方法选择的特征项表征能力要优于其他两种方法。
图2中可以看出,当特征子集的维度在超过400维时,三个特征提取算法的综合分类率宏平均F1(macro-averaging)呈现下降的趋势,特征子集达到400维度左右时,能够准确区分文本类别的特征已经被筛选出来,再增加筛选的特征子集的维度,极可能将不相干的特征词筛选进入特征子集,造成干扰,从而导致分类效果下降。由于特征维度的增加,干扰的特征词增多,三种特征选择方法的分类效果都有所下降。但本发明的综合分类率宏平均F1仍高于其他两种方法,这也间接说明了本发明能够更加准确的优先提取出合适的特征子集,最大限度减少了干扰词的混入。
综上所述,本发明提出的基于信息增益与最大相关最小冗余二阶段特征选择方法能够有限提取出表征能力强的特征项,较好的避免了干扰词的混入,从而提升了分类器的分类效果。

Claims (1)

1.基于信息增益与最大相关最小冗余二阶段特征选择方法,其特征在于,包括以下步骤:
1)利用信息增益算法初步选取特征词,得到特征词子集,
其中,利用信息增益算法初步选取特征词具体为:
特征词wi的信息增益IG(wi)计算如下:
Figure FDA0003215231880000011
其中,m表示文本类别总数,Ct表示第t类文本,P(Ct)表示Ct类文本在总文本中出现的概率,P(wi)表示包含特征词wi的文本在总文本中出现的概率,P(Ct|wi)表示文本包含特征词wi并且属于Ct类的条件概率,
Figure FDA0003215231880000012
表示不包含特征词wi的文本在总文本中的概率,
Figure FDA0003215231880000013
表示文本不包含特征词wi但属于Ct类的条件概率,log(·)表示以2为底的对数,
Figure FDA0003215231880000014
表示对表达式求和;
按信息增益从大到小选取信息增益最大的部分特征词,得到特征词子集;
2)计算步骤1)得到的特征词与文本类别之间的互信息值,
其中,计算步骤1)得到的特征词wi与文本类别集合C之间的互信息值,具体为:
特征词wi与文本类别集合C之间的互信息值I(wi;C)为
Figure FDA0003215231880000015
式中,m表示文本类别总数,Ct表示第t类文本,P(wi,Ct)表示Ct类文本中包含特征词wi的概率;
Figure FDA0003215231880000016
表示Ct类文本中不包含特征词wi的概率;P(wi)表示包含特征词wi的文本在总文本中出现的概率;
Figure FDA0003215231880000017
表示不包含特征词wi的文本在总文本中出现的概率;P(Ct)表示Ct类文本在总文本中出现的概率;
3)计算特征词之间的互信息值,具体为:
特征词wi和特征词wj之间的互信息值I(wi;wj)为:
Figure FDA0003215231880000021
式中,P(wi,wj)表示同时包含特征词wi和特征词wj的文本在总文本中出现的概率,其中i≠j;
Figure FDA0003215231880000022
表示包含特征词wi且不包含特征词wj的文本在总文本中出现的概率;
Figure FDA0003215231880000023
表示包含特征词wj且不包含特征词wi的文本在总文本中出现的概率;P(wi)表示包含特征词wi的文本在总文本中出现的概率;P(wj)表示包含特征词wj的文本在总文本中出现的概率;
Figure FDA0003215231880000024
表示不包含特征词wi的文本在总文本中出现的概率;
Figure FDA0003215231880000025
表示不包含特征词wj的文本在总文本中出现的概率;
Figure FDA0003215231880000026
表示既不包含特征词wi又不包含特征词wj的文本在总文本中出现的概率;
4)计算特征词的类差分度,具体为:
特征词wi的类差分度为:
Figure FDA0003215231880000027
式中,βt表示特征词wi在Ct类中的类差分度;AC表示特征词wi的类间离散度;DCt表示特征词wi在Ct类中的类内耦合度;ft(wi)表示在Ct类中包含特征词wi的文本数;
Figure FDA0003215231880000028
表示包含特征词wi的文本在每个类别中的平均数;n表示属于Ct类的文本总数;gp(wi)表示特征词wi在Ct类第p篇文本中的词频数;
Figure FDA0003215231880000029
表示在Ct类所有文档中特征词wi的平均词频数,m表示文本类别总数;
5)计算特征词的类差分度差值,具体为:
计算特征词wi的类差分度差值α:
Figure FDA00032152318800000210
式中,βmax1max2分别表示特征词wi的类差分度最大值以及次大值,AC表示特征词wi的类间离散度,DCmin1,DCmin2分别表示特征词wi的类内耦合度最小值以及次小值,λ为常数;
6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征词选取,具体为,
选取第k个特征词的公式为:
Figure FDA0003215231880000031
式中,α表示特征词wi的类差分度差值;I(wi;C)表示特征词wi与文本类别集合C之间的互信息值;D1表示通过信息增益初步选取的特征词子集;Sk-1表示二阶段特征已选择的特征词子集,其中k-1表示已选择的特征词个数;I(wi;wj)表示特征词wi和特征词wj之间的互信息值;
Figure FDA0003215231880000032
表示对表达式求最大值。
CN201810458856.1A 2018-05-15 2018-05-15 基于信息增益与最大相关最小冗余二阶段特征选择方法 Active CN108763344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810458856.1A CN108763344B (zh) 2018-05-15 2018-05-15 基于信息增益与最大相关最小冗余二阶段特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810458856.1A CN108763344B (zh) 2018-05-15 2018-05-15 基于信息增益与最大相关最小冗余二阶段特征选择方法

Publications (2)

Publication Number Publication Date
CN108763344A CN108763344A (zh) 2018-11-06
CN108763344B true CN108763344B (zh) 2021-12-14

Family

ID=64007020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810458856.1A Active CN108763344B (zh) 2018-05-15 2018-05-15 基于信息增益与最大相关最小冗余二阶段特征选择方法

Country Status (1)

Country Link
CN (1) CN108763344B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860600B (zh) * 2020-06-22 2024-06-18 国家电网有限公司 一种基于最大相关最小冗余判据的用户用电特征选择方法
CN112364629A (zh) * 2020-11-27 2021-02-12 苏州大学 基于去冗余互信息特征选择的文本分类系统及方法
CN114266396A (zh) * 2021-12-21 2022-04-01 国网天津市电力公司 一种基于电网特征智能筛选的暂态稳定判别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893388A (zh) * 2015-01-01 2016-08-24 成都网安科技发展有限公司 一种基于类间区分度及类内高表征度的文本特征提取方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893388A (zh) * 2015-01-01 2016-08-24 成都网安科技发展有限公司 一种基于类间区分度及类内高表征度的文本特征提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《An Improved Minimum Redundancy Maximum Relevance Approach for》;Monalisa Mandal 等;《ScienceDirect》;20131231;全文 *
一种基于类差分度的互信息特征选择方法;任军 等;《中国科技论文》;20151031;全文 *

Also Published As

Publication number Publication date
CN108763344A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
Kantor et al. Coreference resolution with entity equalization
CN105512311B (zh) 一种基于卡方统计的自适应特征选择方法
CN104142918B (zh) 基于tf‑idf特征的短文本聚类以及热点主题提取方法
Berry et al. Email surveillance using non-negative matrix factorization
CN106202518B (zh) 基于chi和分类别关联规则算法的短文本分类方法
CN108763344B (zh) 基于信息增益与最大相关最小冗余二阶段特征选择方法
US20180260484A1 (en) Method, Apparatus, and Device for Generating Hot News
CN102346829B (zh) 基于集成分类的病毒检测方法
CN106407406B (zh) 一种文本处理方法和系统
CN110781332A (zh) 基于复合聚类算法的电力居民用户日负荷曲线聚类方法
CN107066555B (zh) 面向专业领域的在线主题检测方法
CN109145114B (zh) 基于Kleinberg在线状态机的社交网络事件检测方法
CN111309718B (zh) 一种配网电压数据缺失填补方法及装置
CN104346459A (zh) 一种基于术语频率和卡方统计的文本分类特征选择方法
CN103218368B (zh) 一种挖掘热词的方法与装置
CN106095747A (zh) 一种垃圾短信的识别方法和系统
CN105117466A (zh) 一种互联网信息筛选系统及方法
Wang et al. Using artificial intelligence methods to classify different seismic events
Zhang et al. A hot spot clustering method based on improved kmeans algorithm
JP5929532B2 (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム
CN116450827A (zh) 一种基于大规模语言模型的事件模板归纳方法和系统
CN110287973A (zh) 一种基于低秩鲁棒线性鉴别分析的图像特征提取方法
CN113657106B (zh) 基于归一化词频权重的特征选择方法
CN111143303B (zh) 一种基于信息增益和改进knn算法的日志分类方法
CN111444337B (zh) 一种基于改进kl散度的话题跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 226000 No. 33 Xinjian Road, Gangzhao District, Nantong City, Jiangsu Province

Applicant after: Nanjing Post & Telecommunication Univ.

Applicant after: Nanjing University of Posts and Telecommunications Nantong Institute Limited

Address before: 210046 No. 9 Wenyuan Road, Qixia District, Nanjing, Jiangsu Province

Applicant before: Nanjing Post & Telecommunication Univ.

Applicant before: Nanjing University of Posts and Telecommunications Nantong Institute Limited

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant