CN109271517B - Ig tf-idf文本特征向量生成及文本分类方法 - Google Patents

Ig tf-idf文本特征向量生成及文本分类方法 Download PDF

Info

Publication number
CN109271517B
CN109271517B CN201811147525.2A CN201811147525A CN109271517B CN 109271517 B CN109271517 B CN 109271517B CN 201811147525 A CN201811147525 A CN 201811147525A CN 109271517 B CN109271517 B CN 109271517B
Authority
CN
China
Prior art keywords
text
entry
frequency
texts
idf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811147525.2A
Other languages
English (en)
Other versions
CN109271517A (zh
Inventor
朱志良
梁洁
李德洋
刘国奇
于海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201811147525.2A priority Critical patent/CN109271517B/zh
Publication of CN109271517A publication Critical patent/CN109271517A/zh
Application granted granted Critical
Publication of CN109271517B publication Critical patent/CN109271517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明具体涉及一种IG TF‑IDF文本特征向量生成及文本分类方法,属于文本挖掘和机器学习领域。所述方法包括:1)生成文本特征向量;2)训练分类器;3)评估分类性能;4)对目标文本集进行分类;本发明计算所得权重更能真实的反映不同词条对文本分类的重要程度,使得具有强类别区分能力的词条被分配更大的权重,使得权重计算更加合理,从而提高了文本分类的准确度;而且计算所得词条权重无需知道具体所述类别,克服了TFADF等有监督方法在多类别文本中分类的不足。

Description

IG TF-IDF文本特征向量生成及文本分类方法
技术领域
本发明属于文本挖掘和机器学习领域,具体涉及一种IG TF-IDF文本特征向量生成及文本分类方法。
背景技术
随着互联网时代的到来,文本都以电子文本的方式呈现,导致电子文档的数量急剧增加,因此,如何对海量数据文本进行有效的组织、挖掘变得越来越重要。自动分类就是其中应用最为广泛的技术手段之一。分类是将文本分到预定义的类中,是信息检索和数据挖掘领域的研究热点。一般情况下,将一些具有类别标志的文本作为训练数据,通过机器学习算法获得分类器,然后根据文本内容判断它的类别。在对文本进行分类前,需要将其表示成计算机能够处理的形式,向量空间模型(VSM)是常用的文本表示模型,它以特征项作为文本表示的基本单位,从而将文本表示成空间向量的形式。文本经分词得到的特征维数往往会非常高,可以达到上万,甚至几十万。大多数字词与分类任务无关,可以删除而不影响分类效果,删除不相关字词的过程称为特征选择,特征选择依据特征向量权重计算方法。在分类前进行特征降维,不但降低了计算复杂度,而且提高分类效果。因此,在生成文本特征向量时,词条权重计算方法是否科学决定了文本分类的性能。
常见的特征提取方法有,词频-反文档频率(TF-IDF)、互信息(MI)、信息增益(IG)等。这些评估策略从不同角度度量特征对分类所起的作用。其中,TF-IDF算法基于在信息论中由信息熵证明了其物理含义,因此被广泛运用于文本挖掘中。TF-IDF的主要思想是:如果某个词或者短语在一篇文章中出现的频率高,并且在其它文章中出现较少,则认为该词条有很好的类别区分能力,适合用来分类。而在实际应用中,TF-IDF算法依旧存在缺陷,特别是当运用于文本分类时,自动文本分类需要在余弦已分类的文本集上进行训练学习,然而TF-IDF算法并没有考虑词条出现的文本类别,不能充分反映词条在文本文本分类中的重要性。具体表现在IDF的计算上,比如一个词条集中出现在某一个类中,按照IDF的定义,它具有较小的类别区分能力,而事实并非如此。如果一个词条在一个类的文档中频繁出现,说明该词条能够很好的代表这个类的文本特征,应该给予较高的权重,并选来作为该类文本的词条以区别其它类文档。于是,人们提出了利用词条的类间分布信息和类内分部信息的差异来计算权重的一些新方法,其中典型代表就是TFATF,他利用词条的平均词频类间集中度和文档频类间集中度来计算词条的权重,进而提取合适的词条。然而,TFATF等有监督加权方法所计算的词条权重与具体文本的类别有关,而待分类的新闻本的所述类别是未知的,要么针对所有类别逐一用TFATF算法计算权重,要么采用TF-IDF等传统方法计算权重,前者需要在训练学习时增加额外的统计信息,后者则在分类或测试时增加了计算量。
发明内容
针对上述存在的技术问题,本发明提供一种IG TF-IDF文本特征向量生成及文本分类方法,包括以下步骤:
步骤1:生成文本特征向量:
输入文本集,每个文本集包括若干文本,若干文本按照其文本类别组成若干数据集;基于IG TF-IDF方法,调节选项参数,生成每个文本的特征向量F(Dj);所述IG TF-IDF为信息增益词频-反文档频率,即Information Gain,Term Frequency-Inverse DocumentFrequency;
步骤2:训练分类器:
步骤2.1:将文本集中的特征向量F(Dj)随机分成5等份,选取其中的4份数据组成训练集,剩下的1份作为测试集;
步骤2.2:将训练集输入分类器进行训练,得到训练后的分类器;
步骤3:评估分类性能:
利用训练后的分类器对测试集中的文本进行分类,并对测试集的分类结果进行评估,得到分类性能指标;根据分类性能指标,可以调节步骤1中的选项参数,直至用户满意为止;
步骤4:对目标文本集进行分类:
使用训练后的分类器对目标文本集进行分类,得到分类结果;所述目标文本集由用户选定。
所述步骤1具体包括:
步骤1.1:文本预处理;
对文本集中各个文本类型的编码进行统一,导入文本集中所有文本,对这些文本进行去燥和分词处理;
所述去燥包括标点符号、数字、停用词和其他无意义字符;
所述分词为使用NLPIR分词器对各个文本进行分词处理,提取出词条;
步骤1.2:统计文本特征;
由提取出的词条构建初始词汇表;
统计文本集中文本总数目;
统计各个词条的文本频率,即包含该词条的文本在文本总数目中的占比;
统计各个文本类别的文本数目;
统计各个词条的各个类别文本频率,即在任意一个文本类别中,包含该词条的文本在该文本类别的文本数目中的占比;
统计各个文本的各个词频,即该文本中每个词条的出现频次;
步骤1.3:去除低频词:
计算所有词条的文本频率DF,对初始词汇表中的所有词条进行初次评估,选择保留一些文本频率高于设定的最小文本频率,形成第二词汇表;
各个词条的文本频率df(Ti,C)计算方法为:
Figure BDA0001817143510000031
其中,count(Ti,C)是指在文本集C中,包含词条Ti的文本数量;NC代表文本集合C中包含的文本总数目;
取文本频率df(Ti,C)高于设定的最小文本频率min_df的词条,形成第二词汇表;
本实施例中,min_df=1e-3;
步骤1.4:词条权重计算:
用IG TF-IDF算法计算每个词条在文本中的权重,根据词条个数指标对词汇表进行过滤,选取每篇文本的前k个词条组合成为第三词汇表,并生成文本特征向量,具体实现步骤如下:
计算词条在总的数据集条件下对该文本的贡献度,即权值wC(Ti,Dj),利用如下公式:
wC(Ti,Dj)=tf*idf(Ti,C)
C代表文本集,由各文本类别的数据集Cm组成,即C={C1,C2,…,CM};其中反文本频率idf(Ti,C),其计算方法为:
Figure BDA0001817143510000032
这里,coumt(Ti,C)是指在文本集C中,包含词条Ti的文档数量;NC代表文本集C中包含的文档总数目;log是对数函数;
计算词条在各文本类别的数据集条件下对该文档的贡献度
Figure BDA0001817143510000034
利用如下公式:
Figure BDA0001817143510000035
其中类别反文档频率idf(Ti,Cm),利用如下公式:
Figure BDA0001817143510000033
其中,count(Ti,Cm)是指在第m类数据集Cm中,包含词条Ti的文档数量;
Figure BDA0001817143510000036
代表第m类数据集Cm中包含的文档总数目;
按如下公式计算词条的权重值:
Figure BDA0001817143510000041
其中pm是指第m类数据集Cm中的文档数目在总数据集C的文档数目的占比;
根据词条的权重值按从大到小的顺序排序,k由每篇文档的选前k个词条组合成为新的词汇表;
根据第三词汇表及词条在对应文档中的权重值表示文档Dj的特征向量如下:
F(Dj)=[w(T1,Dj),w(T2,Dj),…,w(Tn,Dj)]。
所述分类性能指标包括宏平均F1值和微平均F1值,分别定义为:
微平均F1值=2P*R/(P+R)
Figure BDA0001817143510000042
其中,P为整个测试集分类结果中各个类别的平均准确率;R是整个测试集的分类结果中各个类别的文本集合被正确分类的召回率;
Figure BDA0001817143510000043
是第m个文本类别(m=1,2,…,M)的分类性能指标,m为类别数,Pm为第m个类别的平均准确率;Rm是第m个类别的召回率,∑是求和函数。
所述文本集采用20Newsgroup中文语料库的精简版本。
本发明的有益效果:
本发明提出一种IG TF-IDF文本特征向量生成及文本分类方法,IG TF-IDF词条权重计算新方法考虑到文本中比其他词具有更强类别区分能力的词条在不同类别中分布不均衡,根据全部数据集下词条的贡献与各类别数据集下词条贡献的均值之差,建立了一种独特的IG TF-IDF模型来衡量一个词条在该篇文本中对其分类的贡献度,即该词条的权重。与现有技术相比,用上述IG TF-IDF方法计算所得权重更能真实的反映不同词条对文本分类的重要程度,使得具有强类别区分能力的词条被分配更大的权重,使得权重计算更加合理,从而提高了文本分类的准确度;而且计算所得词条权重无需知道具体所述类别,克服了TFADF等有监督方法在多类别文本中分类的不足;
另外,本发明所提供的特征向量生成方法及文本分类方法还具备多个不同的选项参数,根据分类性能测试结果进行优化调优,适应具有不同特点的文本数据集,从而获得最佳的文本分类效果。
本发明提出的IGTF-IDF方法比TF-IDF等现有方法更加优越,本发明提高的特征向量方法生成的特征向量应用于多种分类器,尤其适合多类别文本分类应用。
本发明设计合理,易于实现,具有很好的实用价值。
附图说明
图1为本发明具体实施方式中所述IG TF-IDF文本特征向量生成及文本分类方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明做出进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提出一种IG TF-IDF文本特征向量生成及文本分类方法,如图1所示,包括以下步骤:
步骤1:生成文本特征向量:
输入文本集,每个文本集包括若干文本,若干文本按照其文本类别组成若干数据集;基于IG TF-IDF方法按顺序执行如下步骤1.1至1.4,生成每个文本的特征向量;所述IGTF-IDF为信息增益词频-反文档频率,即Information Gain,Term Frequency-InverseDocument Frequency;
本实施例中,所述文本集采用20Newsgroup中文语料库的精简版本;
步骤1.1:文本预处理;
对文本集中各个文本类型的编码进行统一,导入文本集中所有文本,对这些文本进行去燥和分词处理;
所述去燥包括标点符号、数字、停用词和其他无意义字符;
所述分词为使用NLPIR分词器对各个文本进行分词处理,提取出词条;
本实施例中,共从文本集中提取出55898个词条;
步骤1.2:统计文本特征;
由提取出的词条构建初始词汇表;
统计文本集中文本总数目;
统计各个词条的文本频率,即包含该词条的文本在文本总数目中的占比;
统计各个文本类别的文本数目;
统计各个词条的各个类别文本频率,即在任意一个文本类别中,包含该词条的文本在该文本类别的文本数目中的占比;
统计各个文本的各个词频,即该文本中每个词条的出现频次;
步骤1.3:去除低频词:
计算所有词条的文本频率DF,对初始词汇表中的所有词条进行初次评估,选择保留一些文本频率高于设定的最小文本频率,形成第二词汇表。
各个词条的文本频率df(Ti,C)计算方法为:
Figure BDA0001817143510000061
其中,count(Ti,C)是指在文本集C中,包含词条Ti的文本数量;NC代表文本集合C中包含的文本总数目;
取文本频率df(Ti,C)高于设定的最小文本频率min_df的词条,形成第二词汇表;
本实施例中,min_df=1e-3;
步骤1.4:词条权重计算:
用IG TF-IDF算法计算每个词条在文本中的权重,根据词条个数指标对词汇表进行过滤,选取每篇文本的前k个词条组合成为第三词汇表,并生成文本特征向量,具体实现步骤如下:
计算词条在总的数据集条件下对该文本的贡献度,即权值wC(Ti,Dj),利用如下公式:
wC(Ti,Dj)=tf*idf(Ti,C)
C代表文本集,由各文本类别的数据集Cm组成,即C={C1,C2,…,CM};其中反文本频率idf(Ti,C),其计算方法为:
Figure BDA0001817143510000062
这里,count(Ti,C)是指在文本集C中,包含词条Ti的文档数量;NC代表文本集C中包含的文档总数目;log是对数函数;
计算词条在各文本类别的数据集条件下对该文档的贡献度
Figure BDA0001817143510000063
利用如下公式:
Figure BDA0001817143510000064
其中类别反文档频率idf(Ti,Cm),利用如下公式:
Figure BDA0001817143510000065
其中,count(Ti,Cm)是指在第m类数据集Cm中,包含词条Ti的文档数量;
Figure BDA0001817143510000066
代表第m类数据集Cm中包含的文档总数目;
按如下公式计算词条的权重值:
Figure BDA0001817143510000067
其中pm是指第m类数据集Cm中的文档数目在总数据集C的文档数目的占比;
根据词条的权重值按从大到小的顺序排序,k由每篇文档的选前k个词条组合成为新的词汇表;
根据第三词汇表及词条在对应文档中的权重值表示文档Dj的特征向量如下:
F(Dj)=[w(T1,Dj),w(T2,Dj),…,w(Tn,Dj)]
步骤2:训练分类器:
步骤2.1:将文本集中的特征向量F(Dj)随机分成5等份,选取其中的4份数据组成训练集,剩下的1份作为测试集;
步骤2.2:将训练集输入分类器进行训练,得到训练后的分类器;
本实施例的分类器采用随机森林分类器和逻辑回归分类器;随机森林分类器中设置树的棵数为100;
步骤3:评估分类性能:
利用训练后的分类器对测试集中的文本进行分类,并对测试集的分类结果进行评估,得到分类性能指标,包括宏平均F1值和微平均F1值,分别定义为:
微平均F1值=2P*R/(P+R)
Figure BDA0001817143510000071
其中,P为整个测试集分类结果中各个类别的平均准确率;R是整个测试集的分类结果中各个类别的文本集合被正确分类的召回率;
Figure BDA0001817143510000072
是第m个文本类别(m=1,2,…,M)的分类性能指标,m为类别数,Pm为第m个类别的平均准确率;Rm是第m个类别的召回率,∑是求和函数;
根据分类性能指标,调节步骤1.1至步骤1.4中的选项参数,直至用户满意为止;
步骤4:对目标文本集进行分类:
使用训练后的分类器对目标文本集进行分类,得到分类结果;所述目标文本集由用户选定。
对本实施例中所述IG TF-IDF文本特征向量生成及文本分类方法进行验证:
分别使用本发明训练的使用逻辑回归分类器和TF-IDF方法对20Newsgroups中文语料库中选取的10类文本集进行分类实验;结果表1所示:
Figure BDA0001817143510000081
表1
如表1所示,可见IG TF-IDF方法明显优于TF-IDF方法。
分别使用本发明训练的随机森林分类器和TF-IDF方法对20Newsgroups中文语料库中选取的10类文本集进行分类实验。结果如下:
Figure BDA0001817143510000082
表2
如表2所示,可见IG TF-IDF方法明显优于TF-IDF方法。

Claims (3)

1.一种IG TF-IDF文本特征向量生成及文本分类方法,其特征在于,包括以下步骤:
步骤1:生成文本特征向量:
输入文本集,每个文本集包括若干文本,若干文本按照其文本类别组成若干数据集;基于IG TF-IDF方法,调节选项参数,生成每个文本的特征向量F(Dj);所述IG TF-IDF为信息增益词频-反文档频率,即Information Gain,Term Frequency-Inverse DocumentFrequency;
步骤2:训练分类器:
步骤2.1:将文本集中的特征向量F(Dj)随机分成5等份,选取其中的4份数据组成训练集,剩下的1份作为测试集;
步骤2.2:将训练集输入分类器进行训练,得到训练后的分类器;
步骤3:评估分类性能:
利用训练后的分类器对测试集中的文本进行分类,并对测试集的分类结果进行评估,得到分类性能指标;根据分类性能指标,可以调节步骤1中的选项参数,直至用户满意为止;
步骤4:对目标文本集进行分类:
使用训练后的分类器对目标文本集进行分类,得到分类结果;所述目标文本集由用户选定;
所述步骤1具体包括:
步骤1.1:文本预处理;
对文本集中各个文本类型的编码进行统一,导入文本集中所有文本,对这些文本进行去燥和分词处理;
所述去燥包括标点符号、数字、停用词和其他无意义字符;
所述分词为使用NLPIR分词器对各个文本进行分词处理,提取出词条;
步骤1.2:统计文本特征;
由提取出的词条构建初始词汇表;
统计文本集中文本总数目;
统计各个词条的文本频率,即包含该词条的文本在文本总数目中的占比;
统计各个文本类别的文本数目;
统计各个词条的各个类别文本频率,即在任意一个文本类别中,包含该词条的文本在该文本类别的文本数目中的占比;
统计各个文本的各个词频,即该文本中每个词条的出现频次;
步骤1.3:去除低频词:
计算所有词条的文本频率DF,对初始词汇表中的所有词条进行初次评估,选择保留一些文本频率高于设定的最小文本频率,形成第二词汇表;
各个词条的文本频率df(Ti,C)计算方法为:
Figure FDA0003358348550000021
其中,count(Ti,C)是指在文本集C中,包含词条Ti的文本数量;NC代表文本集合C中包含的文本总数目;
取文本频率df(Ti,C)高于设定的最小文本频率min_df的词条,形成第二词汇表;
min_df=1e-3;
步骤1.4:词条权重计算:
用IG TF-IDF算法计算每个词条在文本中的权重,根据词条个数指标对词汇表进行过滤,选取每篇文本的前k个词条组合成为第三词汇表,并生成文本特征向量,具体实现步骤如下:
计算词条在总的数据集条件下对该文本的贡献度,即权值wC(Ti,Dj),利用如下公式:
wC(Ti,Dj)=tf*idf(Ti,C)
C代表文本集,由各文本类别的数据集Cm组成,即C={C1,C2,…,CM};其中反文本频率idf(Ti,C),其计算方法为:
Figure FDA0003358348550000022
这里,count(Ti,C)是指在文本集C中,包含词条Ti的文档数量;NC代表文本集C中包含的文档总数目;log是对数函数;
计算词条在各文本类别的数据集条件下对该文档的贡献度
Figure FDA0003358348550000023
利用如下公式:
Figure FDA0003358348550000024
其中类别反文档频率idf(Ti,Cm),利用如下公式:
Figure FDA0003358348550000025
其中,count(Ti,Cm)是指在第m类数据集Cm中,包含词条Ti的文档数量;
Figure FDA0003358348550000026
代表第m类数据集Cm中包含的文档总数目;
按如下公式计算词条的权重值:
Figure FDA0003358348550000027
其中pm是指第m类数据集Cm中的文档数目在总数据集C的文档数目的占比;
根据词条的权重值按从大到小的顺序排序,k由每篇文档的选前k个词条组合成为新的词汇表;
根据第三词汇表及词条在对应文档中的权重值表示文档Dj的特征向量如下:
F(Dj)=[w(T1,Dj),w(T2,Dj),…,w(Tn,Dj)]。
2.根据权利要求1所述的IG TF-IDF文本特征向量生成及文本分类方法,其特征在于,所述分类性能指标包括宏平均F1值和微平均F1值,分别定义为:
微平均F1值=2P*R/(P+R)
Figure FDA0003358348550000032
其中,P为整个测试集分类结果中各个类别的平均准确率;R是整个测试集的分类结果中各个类别的文本集合被正确分类的召回率;
Figure FDA0003358348550000031
是第m个文本类别(m=1,2,…,M)的分类性能指标,m为类别数,Pm为第m个类别的平均准确率;Rm是第m个类别的召回率,∑是求和函数。
3.根据权利要求1所述的IG TF-IDF文本特征向量生成及文本分类方法,其特征在于,所述文本集采用20Newsgroup中文语料库的精简版本。
CN201811147525.2A 2018-09-29 2018-09-29 Ig tf-idf文本特征向量生成及文本分类方法 Active CN109271517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811147525.2A CN109271517B (zh) 2018-09-29 2018-09-29 Ig tf-idf文本特征向量生成及文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811147525.2A CN109271517B (zh) 2018-09-29 2018-09-29 Ig tf-idf文本特征向量生成及文本分类方法

Publications (2)

Publication Number Publication Date
CN109271517A CN109271517A (zh) 2019-01-25
CN109271517B true CN109271517B (zh) 2021-12-31

Family

ID=65194751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811147525.2A Active CN109271517B (zh) 2018-09-29 2018-09-29 Ig tf-idf文本特征向量生成及文本分类方法

Country Status (1)

Country Link
CN (1) CN109271517B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222175B (zh) * 2019-05-20 2020-08-25 北京语言大学 一种基于词条作家热度构建分类分级词表的方法及系统
CN110348497B (zh) * 2019-06-28 2021-09-10 西安理工大学 一种基于WT-GloVe词向量构建的文本表示方法
CN110619363A (zh) * 2019-09-17 2019-12-27 陕西优百信息技术有限公司 物料数据长描述对应小类名称分类方法
CN110781303A (zh) * 2019-10-28 2020-02-11 佰聆数据股份有限公司 一种短文本分类方法及系统
CN113094713B (zh) * 2021-06-09 2021-08-13 四川大学 一种自适应的主机入侵检测序列特征提取方法及系统
CN113539272A (zh) * 2021-09-13 2021-10-22 腾讯科技(深圳)有限公司 一种语音识别方法、装置、存储介质和电子设备
CN114357996B (zh) * 2021-12-06 2024-07-02 北京网宿科技有限公司 时序文本特征提取方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015029241A1 (en) * 2013-08-27 2015-03-05 Nec Corporation Word translation acquisition method
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN105224695A (zh) * 2015-11-12 2016-01-06 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015029241A1 (en) * 2013-08-27 2015-03-05 Nec Corporation Word translation acquisition method
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN105224695A (zh) * 2015-11-12 2016-01-06 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于信息增益的特征词权重调整算法研究;张玉芳等;《计算机工程与应用》;20071231;第43卷(第35期);文章1-2节 *

Also Published As

Publication number Publication date
CN109271517A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN109271517B (zh) Ig tf-idf文本特征向量生成及文本分类方法
CN106202518B (zh) 基于chi和分类别关联规则算法的短文本分类方法
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN104391835B (zh) 文本中特征词选择方法及装置
CN105975518B (zh) 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN105183813B (zh) 基于互信息的用于文档分类的并行特征选择方法
CN105512311A (zh) 一种基于卡方统计的自适应特征选择方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN109547423A (zh) 一种基于机器学习的web恶意请求深度检测系统及方法
CN109670014B (zh) 一种基于规则匹配和机器学习的论文作者名消歧方法
CN103886108B (zh) 一种不均衡文本集的特征选择和权重计算方法
CN101587493A (zh) 文本分类方法
CN104361037B (zh) 微博分类方法及装置
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN107180084A (zh) 词库更新方法及装置
CN109376235B (zh) 基于文档层词频重排序的特征选择方法
WO2022121163A1 (zh) 用户行为倾向识别方法、装置、设备及存储介质
CN112437053B (zh) 入侵检测方法及装置
CN110069630A (zh) 一种改进的互信息特征选择方法
CN108153899B (zh) 一种智能化文本分类方法
CN111144106A (zh) 一种不平衡数据集下的两阶段文本特征选择方法
CN114896398A (zh) 一种基于特征选择的文本分类系统及方法
CN112200259A (zh) 一种基于分类与筛选的信息增益文本特征选择方法及分类装置
CN113626604A (zh) 基于最大间隔准则的网页文本分类系统
CN106815209B (zh) 一种维吾尔文农业技术术语识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant