CN110069630B

CN110069630B - 一种改进的互信息特征选择方法

Info

Publication number: CN110069630B
Application number: CN201910212325.9A
Authority: CN
Inventors: 文武; 李培强; 刘颖; 解如风; 范荣妹
Original assignee: Chongqing Institute Of Quality And Standardization; Chongqing Information Technology Designing Co ltd
Current assignee: Chongqing Institute Of Quality And Standardization; Chongqing Information Technology Designing Co ltd
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2023-07-21
Anticipated expiration: 2039-03-20
Also published as: CN110069630A

Abstract

本发明请求保护一种改进的互信息特征选择方法。包括步骤：首先，对文本数据分为测试集和训练集并分别做分词、去停用词处理，在特征选择时分别引入类内特征频度和特征词覆盖率，并结合特征词的词性系数，与改进的互信息模型相结合，构造出新的特征权重评估函数；其次，利用改进的互信息模型进行特征选择并设置最大最小互信息值，筛选出满足条件的特征词集合并使用空间向量模型对特征词集合向量化；最后，使用K近邻(KNN)分类算法对特征词集合进行分类，使用查准率，查全率和F1值评估分类结果。本发明减少了数据处理的时间消耗，提升了分类的准确率，通过对引入的参数调节来适应多样的分类模型，实现文本分类系统的最优设计。

Description

一种改进的互信息特征选择方法

技术领域

本发明属于机器学习领域，尤其涉及一种基于统计的文本分类方法。文本分类主要是通过提取未分类文本的一些信息，然后再根据提取到的信息，自动将其分到预先设定的一个或几个类别中，从而使得人们能够快速准确地寻找到所需的信息。

背景技术

目前在文本分类的过程中，首先需要利用分词系统对待分类文本进行分词，然后根据事先建立好的停用词表将分得的词进行去停用词处理，最后得到待分类文本的初始特征词集。若直接使用初始特征词集作为文本的特征向量，对文本进行分类，必定会因为特征向量空间的维数过大，导致分类的准确率和效率低下。因此，需要采用合适的方法对初始特征集进行筛选，选出一些最具有代表性的特征来表征文本，从而来降低特征维度。如何从文本的初始特征集中筛选出最具有代表性的特征来表征文本，这是文本特征选择技术需要解决的主要问题。文本特征选择技术作为主要的特征降维手段，与文本分类的准确率和效率密切相关。

传统的特征选择算法依然存在一定的不足，例如在文本分布不均匀的语料中采用传统算法对文本进行特征选择，分类的效率和准确率都会明显降低。文本分类效率和准确率的降低，使得人们难以在杂乱的文本中快速准确地找到自己所需的信息。因此，为了提高文本分类效率，就需要我们对传统特征选择算法做进一步的研究和改进。

目前传统的互信息特征选择方法在文本分类过程中没有考虑词频信息、类内的特征词的分布情况、特征词的词性导致文本分类的效率和准确率低下。通过引入特征词覆盖率、类内特征频度和词性系数，可以有效的解决这些问题。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种减少了数据处理的时间消耗，提升了分类的准确率的改进的互信息特征选择方法。本发明的技术方案如下：

一种改进的互信息特征选择方法，其包括以下步骤：

步骤1：将文本数据分为测试集和训练集，并采用包括分词、去停用词在内的预处理步骤，即从句子中划分出每个有独立意义的词，并将其中对分类结果没有贡献的特征词根据提前建立的停用词表进行剔除；

步骤2：构建互信息特征评估函数：对传统的互信息评估函数进行改进，在传统的互信息评估函数基础上分别引入类内特征频度、特征词覆盖率及词性系数进行特征提取；

步骤3：筛选特征集合，对已经通过改进的互信息模型提取的特征词,筛选出互信息值在指定区间内的特征词，筛选过程中通过设定特征词的最大最小互信息值来确定，并组成特征词集合；

步骤4：KNN分类，对已经选出的特征词集合利用K近邻分类模型对其进行分类，用查准率，查全率和F1值评估分类结果；

进一步的，所述步骤2的传统的互信息特征评估函数为：

其中，x,y分别指的是文本集合中的特征词与类别。MI(X,Y)指的是特征词的互信息值，P(x,y)表示特征词和类别的相关概率，p(x)表示特征词在其所属类别文档中出现的概率，即该特征词与其所属类别文档中出现的特征词频率之比。p(y)表示类别y的文档数量与文本集合中所有文档的数量之比。

在文本分类中，x,y分别对应特征词t和类别c，互信息计算公式近似为：

其中，p(t|c_i)表示特征词t在类别c_i中的概率，p(t)表示特征词在整个文本集合中的概率，MI(t,c_i)越大，表示特征词t对文本类别c_i具有越高的辨识度。

进一步的，所述步骤2对传统的互信息模型引入类内特征频度，计算公式为：

其中，m表示类别c_j中的文本总数，FR(t,c_j)表示的是特征词t在类别c_j中的特征频度，n表示文本集合中的总的类别数，tf_jk表示的是特征词t在第j个类别c_j中的第k篇文档中出现的频率，由公式可知FR(t,c_j)值越大，表明特征词t在类别c_j中出现的次数越多，特征词t越能代表类别c_j。

进一步的，所述步骤2对传统的互信息模型引入特征词覆盖率，计算公式为：

其中，m表示类别c_j中的文本总数，tf_jk表示特征词t在类别c_j中的文本d_jk(1≤k≤m)中出现的次数，从公式可以看出，ρ越大，说明特征词t对类别c_j的覆盖率越大，特征词挣在类别c_j中分布的越均匀。

进一步的，所述步骤2对传统的互信息模型引入词性系数，公式如下：

由公式可知，特征词不同的词性会影响其词性系数的取值，其中0＜η＜ξ＜1，η,ξ分别表示特征词t在不同词性下的取值，该取值的大小由多次试验确定。

改进的互信息特征函数为：

进一步的，所述步骤3利用空间向量模型对筛选的特征数据集进行向量化，空间向量模型计算公式如下所示：

其中，D＝＜t₁,w₁；t₂,w₂；t₃,w₃.......；t_i,w_i；t_n,w_n＞，w_n表示特征词集合中第n个特征词t_n的权重值。W_i表示在待测文本D中特征词t_i的权重值，特征词t_i在文档中出现的频率用tf_i表示，训练集中所有文档的数目用N表示，包含特征词t_i的文档出现的频率用df_ti表示。

进一步的，所述步骤4利用KNN分类模型对文本数据进行分类，KNN是分类算法中的一种，是基于空间向量模型VSM的分类算法之一，KNN通过计算待测样本数据与训练样本数据中不同类别数据点间的相似度，然后根据相似度大小对待测样本进行分类，相似度公式如下：

其中，x_j表示文本集合中已知类别文档中的特征词向量，x_ij表示未知类别文档D_i相比于已知文档x_j的特征词向量，n表示数据集的类别中文本的个数，利用该公式计算文本数据的相似度并选出与待测文本D相似度最大的K个文本组成样本集。

进一步的，所述KNN分类模型用空间向量模型对文本数据向量化，计算文本数据D属于每个每个类别c_m的权重W，计算公式如下：

其中，W(D,c_m)表示将待测文本D分到类别c_m中的权重值，类别属性函数δ(D_i,c_m)如公式所示；

进一步的，所述步骤4使用查准率、查全率、F1值对分类结果进行评估，具体包括：

查准率：

查全率：

F1值：

其中，TP表示分类时将正类预测为正类的数目，FN表示将正类预测为负类数，FP将负类预测为正类数，TN为将分类预测为负类数。精确率衡量的是类别的查准率，召回率衡量的是类别的查全率，F1值对查准率、召回率进行综合考察，以及对它们的偏向程度，且F1值综合了P和R的结果，所以当F1越高则越能说明试验方法比较有效，和分类器具有较强的分类能力。

本发明的优点及有益效果如下：

本发明通过一种改进的互信息特征选择方法，利用传统的互信息特征评估函数没有考虑特征词频率、特征词的分布均衡程度和特征词的词性信息，为提高文本分类的准确率提供了可行的方案，此外，改进的算法不仅考虑了传统算法存在的不足，同时也设置了最大最小互信息值，使互信息值在这个范围内的特征词才能继续进行分类处理，一定程度了减少了对无用特征词的处理分类，减少了数据处理的时间消耗。

附图说明

图1是本发明提供优选实施例在文本分类中的流程示意图。

图2为本发明的获取特征词集合互信息值的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1所示：本发明主要分为两个阶段，训练阶段和测试阶段，将数据集对应分为训练集和测试集，整体流程如下：

(1)采用中科院分词系统ICTCLAS对文本测试集数据进行预处理：分词、去停用词。然后利用本文提出的互信息特征选择方法对文本数据进行特征选择。

(2)基于图1的系统模型，经过预处理之后需要对文本数据进行特征选择。如图2所示，本文提出的互信息特征选择方法具体实施可以包含如下几个步骤：

输入：类别集合C＝{c₁,c₂,c₃,...,c_n}；类别中的文本集合c_i＝{d_i1,d_i2,d_i3,...,d_im}，每篇文本的特征词集合d_j＝{t₁,t₂,t₃,...,t_k}，用于存放初始特征词集合InitialFeatureSet和经过互信息模型处理过的特征词集合MutualInformationValueSet；

输出：前N个特征词组成的特征词集FinalMutualInformationCollection。算法的具体流程如下：

步骤一：对文本数据集预处理，即分词、去停用词，并将经过预处理后的特征词放入集合InitialFeatureSet中；

步骤二：遍历特征词集合InitialFeatureSet中每个特征词t_i；

步骤三：计算特征词在文本集合中每个类别的文档频率DF_Avg，并设定最小最大阈值min,max；

步骤四：判断InitialFeatureSet集合中每个特征词的文档频DF_Avg是否在min和max之间，如果在则继续下一步，如果不在则将该特征词从InitialFeatureSet集合中剔除；

步骤五：计算特征词t_i的特征频度FR(t_i,c_j)、特征词覆盖率ρ及词性系数u；

步骤六：根据改进的互信息特征评估函数计算特征词与各类别的互信息值，并把特征词t_i互信息值MI(t_i,c_j)放入MutualInformationValueSet中；

步骤七：判断特征集合InitialFeatureSet是否为空，不为空，则转步骤二，否则转步骤八；

步骤八：对数组MutualInformationValueSet中的互信息值进行大小排序，并选取前N项作为互信息选择的结果，放入最终的互信息集合FinalMutualInformationCollection中。

(3)利用空间向量模型对筛选出的特征词集合向量化。

其中，D＝＜t₁,w₁；t₂,w₂；t₃,w₃.......；t_i,w_i；t_n,w_n＞，W_i表示在待测文本D中，特征词t_i的权重值。特征词t_i在文档中出现的频率用tf_i表示，训练集中所有文档的数目用N表示，包含特征词t_i的文档出现的频率用df_ti表示。

(4)对经过向量化的特征词集合利用KNN分类模型分类。利用余弦相似度公式计算待测文本与训练文本的相似度。

选出与待测文本D相似度最大的K个文本组成样本集。根据得到的K个最近邻样本集，计算测试样本D属于每个类别c_m的权重W，并将待测样本D归入到权重最大的类别c_m中。计算过程如公式所示。

其中，W(D,c_m)表示将待测文本D分到类别c_m中。类别属性函数δ(D_i,c_m)如公式所示。

(5)结果评估。使用查准率、查全率、F1值对分类结果进行评估。

查准率：

查全率：

F1值：

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种改进的互信息特征选择方法，其特征在于，包括以下步骤：

步骤3：筛选特征集合，对已经通过改进的互信息模型提取的特征词，筛选出互信息值在指定区间内的特征词，筛选过程中通过设定特征词的最大最小互信息值来确定，并组成特征词集合；

所述步骤2的传统的互信息特征评估函数为：

其中，x、y分别指的是文本集合中的特征词与类别，MI(X,Y)指的是特征词的互信息值，P(x,y)表示特征词和类别的相关概率，p(x)表示特征词在其所属类别文档中出现的概率，即该特征词与其所属类别文档中出现的特征词频率之比，p(y)表示类别y的文档数量与文本集合中所有文档的数量之比；

其中，p(t|c_i)表示特征词t在类别c_i中的概率，p(t)表示特征词在整个文本集合中的概率，MI(t,c_i)越大，表示特征词t对文本类别c_i具有越高的辨识度；

所述步骤2对传统的互信息模型引入类内特征频度，计算公式为：

其中，m表示类别c_j中的文本总数，FR(t,c_j)表示的是特征词t在类别c_j中的特征频度，n表示文本集合中的总的类别数，tf_jk表示的是特征词t在第j个类别c_j中的第k篇文档中出现的频率，由公式可知FR(t,c_j)值越大，表明特征词t在类别c_j中出现的次数越多，特征词t越能代表类别c_j；

所述步骤2对传统的互信息模型引入特征词覆盖率，计算公式为：

其中，m表示类别c_j中的文本总数，tf_jk表示特征词t在类别c_j中的文本d_jk(1≤k≤m)中出现的次数；从公式可以看出，ρ越大，说明特征词t对类别c_j的覆盖率越大，特征词挣在类别c_j中分布的越均匀；

所述步骤2对传统的互信息模型引入词性系数，公式如下：

由公式可知，特征词不同的词性会影响其词性系数的取值，其中0＜η＜ξ＜1，η,ξ分别表示特征词t在不同词性下的取值，该取值的大小由多次试验确定，改进的互信息特征函数为：

2.根据权利要求1所述的一种改进的互信息特征选择方法，其特征在于，所述步骤3利用空间向量模型对筛选的特征数据集进行向量化，空间向量模型计算公式如下所示：

其中，D＝＜t₁,w₁；t₂,w₂；t₃,w₃.......；t_i,w_i；t_n,w_n＞，t_n表示特征词集合中第n个特征词，w_n表示特征词集合中第n个特征词t_n的权重值，W_i表示在待测文本D中特征词t_i的权重值，特征词t_i在文档中出现的频率用tf_i表示，训练集中所有文档的数目用N表示，包含特征词t_i的文档出现的频率用表示。

3.根据权利要求2所述的一种改进的互信息特征选择方法，其特征在于，所述步骤4利用KNN分类模型对文本数据进行分类，KNN是分类算法中的一种，是基于空间向量模型VSM的分类算法之一，KNN通过计算待测样本数据与训练样本数据中不同类别数据点间的相似度，然后根据相似度大小对待测样本进行分类，相似度公式如下：

4.根据权利要求3所述的一种改进的互信息特征选择方法，其特征在于，所述KNN分类模型用空间向量模型对文本数据向量化，计算文本数据D属于每个每个类别c_m的权重W，计算公式如下：

5.根据权利要求4所述的一种改进的互信息特征选择方法，其特征在于，所述步骤4使用查准率、查全率、F1值对分类结果进行评估，具体包括：

查准率：

查全率：

F1值：

其中，TP表示分类时将正类预测为正类的数目，FN表示将正类预测为负类数，FP将负类预测为正类数，TN为将分类预测为负类数；精确率衡量的是类别的查准率，召回率衡量的是类别的查全率，F1值对查准率、召回率进行综合考察，以及对它们的偏向程度，且F1值综合了P和R的结果，所以当F1越高则越能说明试验方法比较有效，和分类器具有较强的分类能力。