CN109271517B

CN109271517B - Ig tf-idf文本特征向量生成及文本分类方法

Info

Publication number: CN109271517B
Application number: CN201811147525.2A
Authority: CN
Inventors: 朱志良; 梁洁; 李德洋; 刘国奇; 于海
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2021-12-31
Anticipated expiration: 2038-09-29
Also published as: CN109271517A

Abstract

本发明具体涉及一种IG TF‑IDF文本特征向量生成及文本分类方法，属于文本挖掘和机器学习领域。所述方法包括：1)生成文本特征向量；2)训练分类器；3)评估分类性能；4)对目标文本集进行分类；本发明计算所得权重更能真实的反映不同词条对文本分类的重要程度，使得具有强类别区分能力的词条被分配更大的权重，使得权重计算更加合理，从而提高了文本分类的准确度；而且计算所得词条权重无需知道具体所述类别，克服了TFADF等有监督方法在多类别文本中分类的不足。

Description

IG TF-IDF文本特征向量生成及文本分类方法

技术领域

本发明属于文本挖掘和机器学习领域，具体涉及一种IG TF-IDF文本特征向量生成及文本分类方法。

背景技术

随着互联网时代的到来，文本都以电子文本的方式呈现，导致电子文档的数量急剧增加，因此，如何对海量数据文本进行有效的组织、挖掘变得越来越重要。自动分类就是其中应用最为广泛的技术手段之一。分类是将文本分到预定义的类中，是信息检索和数据挖掘领域的研究热点。一般情况下，将一些具有类别标志的文本作为训练数据，通过机器学习算法获得分类器，然后根据文本内容判断它的类别。在对文本进行分类前，需要将其表示成计算机能够处理的形式，向量空间模型(VSM)是常用的文本表示模型，它以特征项作为文本表示的基本单位，从而将文本表示成空间向量的形式。文本经分词得到的特征维数往往会非常高，可以达到上万，甚至几十万。大多数字词与分类任务无关，可以删除而不影响分类效果，删除不相关字词的过程称为特征选择，特征选择依据特征向量权重计算方法。在分类前进行特征降维，不但降低了计算复杂度，而且提高分类效果。因此，在生成文本特征向量时，词条权重计算方法是否科学决定了文本分类的性能。

常见的特征提取方法有，词频-反文档频率(TF-IDF)、互信息(MI)、信息增益(IG)等。这些评估策略从不同角度度量特征对分类所起的作用。其中，TF-IDF算法基于在信息论中由信息熵证明了其物理含义，因此被广泛运用于文本挖掘中。TF-IDF的主要思想是：如果某个词或者短语在一篇文章中出现的频率高，并且在其它文章中出现较少，则认为该词条有很好的类别区分能力，适合用来分类。而在实际应用中，TF-IDF算法依旧存在缺陷，特别是当运用于文本分类时，自动文本分类需要在余弦已分类的文本集上进行训练学习，然而TF-IDF算法并没有考虑词条出现的文本类别，不能充分反映词条在文本文本分类中的重要性。具体表现在IDF的计算上，比如一个词条集中出现在某一个类中，按照IDF的定义，它具有较小的类别区分能力，而事实并非如此。如果一个词条在一个类的文档中频繁出现，说明该词条能够很好的代表这个类的文本特征，应该给予较高的权重，并选来作为该类文本的词条以区别其它类文档。于是，人们提出了利用词条的类间分布信息和类内分部信息的差异来计算权重的一些新方法，其中典型代表就是TFATF，他利用词条的平均词频类间集中度和文档频类间集中度来计算词条的权重，进而提取合适的词条。然而，TFATF等有监督加权方法所计算的词条权重与具体文本的类别有关，而待分类的新闻本的所述类别是未知的，要么针对所有类别逐一用TFATF算法计算权重，要么采用TF-IDF等传统方法计算权重，前者需要在训练学习时增加额外的统计信息，后者则在分类或测试时增加了计算量。

发明内容

针对上述存在的技术问题，本发明提供一种IG TF-IDF文本特征向量生成及文本分类方法，包括以下步骤：

步骤1：生成文本特征向量：

输入文本集，每个文本集包括若干文本，若干文本按照其文本类别组成若干数据集；基于IG TF-IDF方法，调节选项参数，生成每个文本的特征向量F(D_j)；所述IG TF-IDF为信息增益词频-反文档频率，即Information Gain，Term Frequency-Inverse DocumentFrequency；

步骤2：训练分类器：

步骤2.1：将文本集中的特征向量F(D_j)随机分成5等份，选取其中的4份数据组成训练集，剩下的1份作为测试集；

步骤2.2：将训练集输入分类器进行训练，得到训练后的分类器；

步骤3：评估分类性能：

利用训练后的分类器对测试集中的文本进行分类，并对测试集的分类结果进行评估，得到分类性能指标；根据分类性能指标，可以调节步骤1中的选项参数，直至用户满意为止；

步骤4：对目标文本集进行分类：

使用训练后的分类器对目标文本集进行分类，得到分类结果；所述目标文本集由用户选定。

所述步骤1具体包括：

步骤1.1：文本预处理；

对文本集中各个文本类型的编码进行统一，导入文本集中所有文本，对这些文本进行去燥和分词处理；

所述去燥包括标点符号、数字、停用词和其他无意义字符；

所述分词为使用NLPIR分词器对各个文本进行分词处理，提取出词条；

步骤1.2：统计文本特征；

由提取出的词条构建初始词汇表；

统计文本集中文本总数目；

统计各个词条的文本频率，即包含该词条的文本在文本总数目中的占比；

统计各个文本类别的文本数目；

统计各个词条的各个类别文本频率，即在任意一个文本类别中，包含该词条的文本在该文本类别的文本数目中的占比；

统计各个文本的各个词频，即该文本中每个词条的出现频次；

步骤1.3：去除低频词：

计算所有词条的文本频率DF，对初始词汇表中的所有词条进行初次评估，选择保留一些文本频率高于设定的最小文本频率，形成第二词汇表；

各个词条的文本频率df(T_i，C)计算方法为：

其中，count(T_i，C)是指在文本集C中，包含词条T_i的文本数量；N_C代表文本集合C中包含的文本总数目；

取文本频率df(T_i，C)高于设定的最小文本频率min_df的词条，形成第二词汇表；

本实施例中，min_df＝1e-3；

步骤1.4：词条权重计算：

用IG TF-IDF算法计算每个词条在文本中的权重，根据词条个数指标对词汇表进行过滤，选取每篇文本的前k个词条组合成为第三词汇表，并生成文本特征向量，具体实现步骤如下：

计算词条在总的数据集条件下对该文本的贡献度，即权值w_C(T_i，D_j)，利用如下公式：

w_C(T_i，D_j)＝tf*idf(T_i，C)

C代表文本集，由各文本类别的数据集C_m组成，即C＝{C₁，C₂，…，C_M}；其中反文本频率idf(T_i，C)，其计算方法为：

这里，coumt(T_i，C)是指在文本集C中，包含词条T_i的文档数量；N_C代表文本集C中包含的文档总数目；log是对数函数；

计算词条在各文本类别的数据集条件下对该文档的贡献度

利用如下公式：

其中类别反文档频率idf(T_i，C_m)，利用如下公式：

其中，count(T_i，C_m)是指在第m类数据集C_m中，包含词条T_i的文档数量；

代表第m类数据集C_m中包含的文档总数目；

按如下公式计算词条的权重值：

其中p_m是指第m类数据集C_m中的文档数目在总数据集C的文档数目的占比；

根据词条的权重值按从大到小的顺序排序，k由每篇文档的选前k个词条组合成为新的词汇表；

根据第三词汇表及词条在对应文档中的权重值表示文档D_j的特征向量如下：

F(D_j)＝[w(T₁，D_j)，w(T₂，D_j)，…，w(T_n，D_j)]。

所述分类性能指标包括宏平均F₁值和微平均F₁值，分别定义为：

微平均F₁值＝2P*R/(P+R)

其中，P为整个测试集分类结果中各个类别的平均准确率；R是整个测试集的分类结果中各个类别的文本集合被正确分类的召回率；

是第m个文本类别(m＝1，2，…，M)的分类性能指标，m为类别数，P_m为第m个类别的平均准确率；R_m是第m个类别的召回率，∑是求和函数。

所述文本集采用20Newsgroup中文语料库的精简版本。

本发明的有益效果：

本发明提出一种IG TF-IDF文本特征向量生成及文本分类方法，IG TF-IDF词条权重计算新方法考虑到文本中比其他词具有更强类别区分能力的词条在不同类别中分布不均衡，根据全部数据集下词条的贡献与各类别数据集下词条贡献的均值之差，建立了一种独特的IG TF-IDF模型来衡量一个词条在该篇文本中对其分类的贡献度，即该词条的权重。与现有技术相比，用上述IG TF-IDF方法计算所得权重更能真实的反映不同词条对文本分类的重要程度，使得具有强类别区分能力的词条被分配更大的权重，使得权重计算更加合理，从而提高了文本分类的准确度；而且计算所得词条权重无需知道具体所述类别，克服了TFADF等有监督方法在多类别文本中分类的不足；

另外，本发明所提供的特征向量生成方法及文本分类方法还具备多个不同的选项参数，根据分类性能测试结果进行优化调优，适应具有不同特点的文本数据集，从而获得最佳的文本分类效果。

本发明提出的IGTF-IDF方法比TF-IDF等现有方法更加优越，本发明提高的特征向量方法生成的特征向量应用于多种分类器，尤其适合多类别文本分类应用。

本发明设计合理，易于实现，具有很好的实用价值。

附图说明

图1为本发明具体实施方式中所述IG TF-IDF文本特征向量生成及文本分类方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明做出进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提出一种IG TF-IDF文本特征向量生成及文本分类方法，如图1所示，包括以下步骤：

步骤1：生成文本特征向量：

输入文本集，每个文本集包括若干文本，若干文本按照其文本类别组成若干数据集；基于IG TF-IDF方法按顺序执行如下步骤1.1至1.4，生成每个文本的特征向量；所述IGTF-IDF为信息增益词频-反文档频率，即Information Gain,Term Frequency-InverseDocument Frequency；

本实施例中，所述文本集采用20Newsgroup中文语料库的精简版本；

步骤1.1：文本预处理；

所述去燥包括标点符号、数字、停用词和其他无意义字符；

本实施例中，共从文本集中提取出55898个词条；

步骤1.2：统计文本特征；

由提取出的词条构建初始词汇表；

统计文本集中文本总数目；

统计各个文本类别的文本数目；

步骤1.3：去除低频词：

计算所有词条的文本频率DF，对初始词汇表中的所有词条进行初次评估，选择保留一些文本频率高于设定的最小文本频率，形成第二词汇表。

各个词条的文本频率df(T_i，C)计算方法为：

本实施例中，min_df＝1e-3；

步骤1.4：词条权重计算：

w_C(T_i，D_j)＝tf*idf(T_i，C)

这里，count(T_i，C)是指在文本集C中，包含词条T_i的文档数量；N_C代表文本集C中包含的文档总数目；log是对数函数；

计算词条在各文本类别的数据集条件下对该文档的贡献度

利用如下公式：

其中类别反文档频率idf(T_i，C_m)，利用如下公式：

代表第m类数据集C_m中包含的文档总数目；

按如下公式计算词条的权重值：

F(D_j)＝[w(T₁，D_j)，w(T₂，D_j)，…，w(T_n，D_j)]

步骤2：训练分类器：

本实施例的分类器采用随机森林分类器和逻辑回归分类器；随机森林分类器中设置树的棵数为100；

步骤3：评估分类性能：

利用训练后的分类器对测试集中的文本进行分类，并对测试集的分类结果进行评估，得到分类性能指标，包括宏平均F₁值和微平均F₁值，分别定义为：

微平均F₁值＝2P*R/(P+R)

是第m个文本类别(m＝1，2，…，M)的分类性能指标，m为类别数，P_m为第m个类别的平均准确率；R_m是第m个类别的召回率，∑是求和函数；

根据分类性能指标，调节步骤1.1至步骤1.4中的选项参数，直至用户满意为止；

步骤4：对目标文本集进行分类：

对本实施例中所述IG TF-IDF文本特征向量生成及文本分类方法进行验证：

分别使用本发明训练的使用逻辑回归分类器和TF-IDF方法对20Newsgroups中文语料库中选取的10类文本集进行分类实验；结果表1所示：

表1

如表1所示，可见IG TF-IDF方法明显优于TF-IDF方法。

分别使用本发明训练的随机森林分类器和TF-IDF方法对20Newsgroups中文语料库中选取的10类文本集进行分类实验。结果如下：

表2

如表2所示，可见IG TF-IDF方法明显优于TF-IDF方法。