CN105975518B

CN105975518B - 基于信息熵的期望交叉熵特征选择文本分类系统及方法

Info

Publication number: CN105975518B
Application number: CN201610278141.9A
Authority: CN
Inventors: 吴国华; 王刘阳; 张祯; 王玉娟
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-04-28
Filing date: 2016-04-28
Publication date: 2019-01-29
Anticipated expiration: 2036-04-28
Also published as: CN105975518A

Abstract

本发明公开了一种基于信息熵的期望交叉熵特征选择文本分类系统及方法。本发明系统包括依次相联的数据收集及预处理单元、特征选择单元、特征权重计算单元、分类器单元、分类选优单元；数据收集及预处理单元，用于从互联网上收集不同类别语料，分为训练语料和测试语料，并对语料进行预处理，预处理包括文本分词和去停用词；特征选择单元，用于选择语料中的特征项，根据特征选择评估函数从特征项表中选择出不同数目的特征项，组成特征项集合；特征权重计算单元，用于计算特征项的权重值；分类单元，用于对语料文本进行分类；分类选优单元，用于对比不同分类结果，找到最佳分类效果时的特征项数目。本发明能够提高文本分类的精度，改善分类效果。

Description

基于信息熵的期望交叉熵特征选择文本分类系统及方法

技术领域

本发明属于计算机科学与技术领域，具体涉及一种基于信息熵的期望交叉熵特征选择文本分类系统及方法。

背景技术

随着计算机技术和互联网技术的发展，互联网上的信息呈爆炸式增长。文本自动分类已逐渐成为获取知识和信息的有效手段，因为它可以处理和组织大量的文本数据。目前，文本分类广泛应用于邮件分类、信息检索、网页查重、数字图书馆等。文本以向量空间模型形式进行结构化表示。在向量模型下，文本分类的主要问题是特征空间的高维性以及数据稀疏性问题。高维特征空间不仅会增加分类过程的开销，而且影响分类精度。因此，特征维度约减成为文本自动分类技术研究的核心问题，而特征选择是文本特征维度约减的一种主要模式。特征选择是从原始特征集中依据某种评估函数选择出对分类贡献较大的特征项，用这些特征项来组成文本特征子集，用于文本的表示。

目前，常用的特征选择方法有文档频率(DF)、信息增益(IG)、互信息(MI)、χ2统计、期望交叉熵(CEC)和文本证据权等过滤式特征选择算方法。该类算法不依赖具体的分类器，提供一个评估函数，通过比较特征项的函数值，将特征项按照函数值从高到低进行排序，从而选择出重要的特征项。在这些特征选择方法中，期望交叉熵具有较低复杂度和较好的降维效果，因此，该算法是目前应用比较广泛的特征选择算法。但是，该算法最明显的不足在于其只考虑了特征与类别之间的相关性，而忽略了特征项词频在类内和类别间分布情况。

发明内容

基于现有期望交叉熵方法只考虑了特征项的文档频率，并没有考虑特征项词频在类别中分布的差异性问题，本发明公开了一种基于信息熵的期望交叉熵文本分类特征选择方法，利用类间信息熵来修正现有期望交叉熵在特征选择时，特征项在类间分布的集中性考虑不足的缺陷；利用类内信息熵来修正现有期望交叉熵在特征选择时，特征项在类内分布的均匀性考虑不足的缺陷。

为了达到上述发明目的，本发明提供如下技术方案：

基于信息熵的期望交叉熵特征选择文本分类系统，包括依次相联的数据收集及预处理单元、特征选择单元、特征权重计算单元、分类器单元、分类选优单元；

数据收集及预处理单元，用于从互联网上收集不同类别语料，分为训练语料和测试语料，并对语料进行预处理，预处理包括文本分词和去停用词；

特征选择单元，用于选择语料中的特征项，根据特征选择评估函数从特征项表中选择出不同数目的特征项，组成特征项集合；

特征权重计算单元，用于计算特征项的权重值；

分类单元，用于对语料文本进行分类；

分类选优单元，用于对比不同分类结果，找到最佳分类效果时的特征项数目。

本发明还公开了一种基于信息熵的期望交叉熵特征选择文本分类方法，按如下步骤：

(1)、收集不同类别文本，分析整理后按类别归入语料训练集。

(2)、对训练集进行预处理，包括中文分词、去停用词等来过滤噪声数据、改善文本数据质量等。

(3)、利用基于信息熵的期望交叉熵方法计算特征向量空间中特征项评估函数值，基于信息熵的期望交叉熵函数公式为：

其中，表示特征项t_k在期望交叉熵评估函数中的得分值。p(t_k)表示出现特征项t_k的文档概率，p(c_i)表示属于c_i类的文本在整个文本集中出现的概率，p(c_i|t_k)表示文本包含特征项t_k时属于类别c_i的概率，n表示类别总数；

表示特征项t_k在类别c_j中的类内信息熵。f_j(t_k)表示特征项t_k在类c_j中出现的频率，m为类c_j中的文本数目，f_ji(t_k)表示特征项t_k在类c_j第i篇文本中出现的频率。

表示特征项t_k的类间信息熵。f_j(t_k)表示特征项t_k在类c_j中出现的频率，n为文本类别个数，表示特征项t_k在整个文本集中出现的频率。

计算特征向量空间每个特征项的评估函数值，并进行降序排列，选择出得分较大的前N个特征项。

(4)、使用特征向量权重TF-IDF算法来计算特征向量表中包含的特征向量词的权重。

特征权重计算

本发明采用最常用的TF-IDF权重计算方法，根据TF-IDF权重，候选特征项f_i在文本d中的权重通过以下公式来计算：

其中，TF(f_i,d_j)表示候选特征项f_i在文本d_j中出现的频率，N表示训练文本集合的总文本数，n_i表示候选特征项f_i在文本集中出现的文本频率，这样，语料库中的文本集合表示为一个矩阵。

(5)、构造相应的文本分类器，利用分类器对测试语料进行计算，得到分类结果。

分类器

采用KNN分类器，KNN是指给定一个测试文档，计算测试文档和训练文本集中文档的相似度，从中找到K个与测试文档最为相似的训练文本。相似度计算公式一般使用向量夹角余弦值等来进行计算。依据这K个训练文本的类别信息来判定测试文档应该属于哪个类别。KNN算法的决策规则为：

其中，KNN(d)表示K个最邻近训练文本的集合。当文档d_j属于c_i类时，y(d_j,c_i)的值等于1，当文档d_j不属于c_i类时，y(d_j,c_i)的值等于0。Sim(d,d_j)表示测试文档d与训练文本d_j的相似度值。

(6)、采用评价函数计算各种分类器的性能评价参数，依据分类器评价参数结果确定最优的特征向量集合。

评价函数

目前国际上比较流行的判别文本分类效果的评价函数主要包括查全率、查准率、F1测量值，其定义如下：

查准率：P＝TP/(TP+FP) 查全率：R＝TP/(TP+FN)

F1测量值：F₁＝2PR/(P+R)

TP表示属于某个类别且被判别为该类别的文本数；

FP表示实际不属于某个类别却被判别为该类别的文本数；

FN表示实际属于某个类别却被判别为其它类别的文本数。

对于不同数目的特征项向量，使得评价函数F1测度最优的那组数目，即是该分类方法在该语料下的最优的特征项数目。

与现有技术相比，本发明具有如下优点和有益效果：

本发明在现有的期望交叉熵方法中加入类内信息熵、类间信息熵，修正了现有期望交叉熵方法对特征项词频考虑不足的缺陷，使在文本集合中特征项类间分布集中性、类内分布均匀性的这一特性得到了充分体现。相对现有期望交叉熵方法，本发明能够提高文本分类的精度，改善分类效果。

本发明涉及一种基于信息熵的期望交叉熵特征选择文本分类方法(简称ECE_IE)，该方法在期望交叉熵方法基础上通过引入特征项词频的类间信息熵、类内信息熵因子，弥补了特征项词频对类别考虑不足的缺陷，其中，利用类间信息熵来修正现有期望交叉熵在特征选择时，特征项在类间分布的集中性考虑不足的缺陷；利用类内信息熵来修正现有期望交叉熵在特征选择时，特征项在类内分布的均匀性考虑不足的缺陷。本发明证明新方法的采用在文本分类的准确率有明显提高，充分证明了它的有效性。

附图说明

图1是本发明基于信息熵的期望交叉熵算法的文本分类方法的流程图。

图2是本发明基于信息熵的期望交叉熵算法的文本分类装置的单元构成图。

具体实施方式

下面结合附图和实施例，做进一步详细说明，应理解下述具体实施方法仅用于说明本发明而不用于限制本发明的范围。

如图1所示，该图为基于信息熵的期望交叉熵算法的文本分类方法的流程图，具体步骤如下：

步骤S101，从互联网上收集语料文本。例如：训练语料1812篇，测试语料906篇，训练语料与测试语料所占的比例为2:1。在训练语料中，包括政治(300)、经济(216)、体育(250)、军事(162)、艺术(168)、计算机(156)、教育(150)、环境(138)、医药(138)、交通(134)。测试语料各类别数量为训练语料的一半。

步骤S102，对训练语料进行预处理，对文本进行分词处理和停用词过滤。

步骤S103，根据基于信息熵的期望交叉熵特征选择方法(即ECE_IE)来计算每个特征向量的评估函数值，选定不同阈值，得到不同数目的特征向量表。

步骤S104，使用特征向量权重TF-IDF计算特征向量词权重。

步骤S105，构造相应的文本分类器。

步骤S106，对测试文本进行分类，得到不同数目特征向量下的分类结果。

步骤S107，计算分类器的性能评价参数。

步骤S108，根据评价函数的值判定该系统最优的特征向量数目。

如图2所示，该图为基于信息熵的期望交叉熵算法的文本分类装置的单元构成图，所述装置包含：

语料收集及预处理单元，用于从互联网上收集不同类别语料，分为训练语料和测试语料，并对语料进行预处理，预处理包括文本分词和去停用词；特征选择单元，用于选择语料中的特征项，根据特征选择评估函数从特征项表中选择出不同数目的特征项，组成特征项集合；特征权重计算单元，用于计算特征项的权重值；分类单元，用于对语料文本进行分类；分类选优单元，用于对比不同分类结果，找到最佳分类效果时的特征项数目。

下面详细说明本发明技术方案中所涉及到的各个细节问题：

1、特征选择：

期望交叉熵算法是信息增益的一种特例，与信息增益不同之处在于它仅仅考虑特征项在文档中发生的情况。它反映的是文档类别的概率分布与出现某个特征条件下文档类别的概率分布之间的距离，又称KL距。KL距离越大，说明了特征项在文本分类中的贡献程度越高，期望交叉熵记为ECE(t_k)可计算为：

p(t_k)代表特征项t_k在文档中发生的概率，p(c_j)代表在训练集中隶属于类别c_j的文档发生的概率，p(c_j|t_k)代表训练集中含有特征项t_k的文档隶属于类别c_j的概率，n为类别总数。若特征项t_k与类别关联性越大，则p(c_j|t_k)值越大。当p(c_j|t_k)越大且p(c_j)值越小时，则相应特征项t_k的ECE(t_k)值就越大，当特征集合中的特征项t_k的排名比较靠前时，特征项t_k对文本分类影响较大。

本发明对期望交叉熵方法的改进方法主要体现在引入类间信息熵、类内信息熵参数因子，有效地利用特征项表征类别信息进行计算，用来调整特征选择的评估函数值。这是由于：现有期望交叉熵方法只考虑了特征项的文档频率，并没有考虑特征项词频在类别中分布的差异性问题。利用类间信息熵来修正现有期望交叉熵在特征选择时，特征项在类间分布的集中性考虑不足的缺陷；利用类内信息熵来修正现有期望交叉熵在特征选择时，特征项在类内分布的均匀性考虑不足的缺陷。

本发明将类间信息熵描述为某个特征项词频在类间的概率分布情况。若存在特征项t_k集中地分布在一个或几个类别中，而在其它类中分布的较少，则说明特征项t_k所在类别可以很好的与其它类别进行区分，此时特征项t_k的类间信息熵较小。相反，特征项t_k的类间信息熵值较大。类内信息熵描述为某个特征项词频在类内的概率分布情况。若存在特征项t_k在类别c_j内所有文本中分布的比较均匀，则说明特征项t_k能够较好地表征类别c_j信息，可以有效地将该类别与其它类别进行区分，此时特征项t_k的类内信息熵值较大。特征项t_k的类内信息熵值较小。在进行特征选择时，我们将类内各文本中词频分布比较均匀的特征项进行保留，以提高文本分类效果。通过下式计算特征项的类间与类内信息熵：

其中，f_j(t_k)表示特征项t_k在类c_j中出现的频率，n为文本类别个数，表示特征项t_k在整个文本集中出现的频率，m为类c_j中的文本数目，f_ji(t_k)表示特征项t_k在类c_j第i篇文本中出现的频率。

因此，本专利将基于信息熵的期望交叉熵的特征选择评估函数表示为：

基于信息熵的期望交叉熵的特征选择方法，既考虑了特征项在类内分布的均匀性，又考虑了特征项在类间分布的集中性。

2、特征权重计算

3、分类器

本发明采用KNN分类器，KNN是指给定一个测试文档，计算测试文档和训练文本集中文档的相似度，从中找到K个与测试文档最为相似的训练文本。相似度计算公式一般使用向量夹角余弦值等来进行计算。依据这K个训练文本的类别信息来判定测试文档应该属于哪个类别。KNN算法的决策规则为：

4、评价函数

查准率：P＝TP/(TP+FP) 查全率：R＝TP/(TP+FN)

F1测量值：F₁＝2PR/(P+R)

TP表示属于某个类别且被判别为该类别的文本数；

FP表示实际不属于某个类别却被判别为该类别的文本数；

FN表示实际属于某个类别却被判别为其它类别的文本数。

5、实验结果

下表是本实验的结果：

从实验结果可以看出，在不同的特征数量情况下，基于信息熵的期望交叉熵方法优于现有期望交叉熵方法，证明了该方法的有效性。同时可以看出，采用基于信息熵的期望交叉熵特征选择方法时，在特征数目为3000时分类效果达到最佳。

以上所述仅为本发明的优选实施而已，并不用与限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于信息熵的期望交叉熵特征选择文本分类方法，其按如下步骤：

(1)、收集不同类别文本，分析整理后按类别归入语料训练集；

(2)、对语料训练集的文本进行预处理，包括分词和去停用词；

(3)、利用期望交叉熵特征评估函数进行特征值评估，基于信息熵的期望交叉熵函数公式为：

其中：

ECE_IE(t_k)表示特征项t_k评估函数值；

表示特征项t_k在期望交叉熵评估函数中的得分值，其中，所述p(t_k)表示出现特征项t_k的文档概率，所述p(c_i)表示属于c_i类的文本在整个文本集中出现的概率，所述p(c_j|t_k)表示文本包含特征项t_k时属于类别c_i的概率，所述|c|表示类别总数；

表示特征项t_k在类别c_j中的类内信息熵，其中，所述f_j(t_k)表示特征项t_k在类c_j中出现的频率，所述m为类c_j中的文本数目，所述f_ji(t_k)表示特征项t_k在类c_j第i篇文本中出现的频率；

表示特征项t_k的类间信息熵，其中，所述f_j(t_k)表示特征项t_k在类c_j中出现的频率，所述n为文本类别个数，所述表示特征项t_k在整个文本集中出现的频率；

计算特征向量空间每个特征项的评估函数值，并进行降序排列，选择出得分最大的前N个特征项；

(4)、使用特征向量权重算法TF-IDF计算特征向量表包含的特征向量词的权重；

(5)、构造相应的文本分类器，利用分类器对测试语料进行计算，得到分类结果；

(6)、采用评价函数计算各种分类器的性能评价参数，根据分类器评价参数结果确定最优的特征向量集合。

2.根据权利要求1所述的基于信息熵的期望交叉熵特征选择文本分类方法，其特征在于，步骤(4)中，TF-IDF权重，候选特征词f_i在文本d中的权重通过以下公式来计算：

其中，TF(f_i,d_j)表示候选特征词f_i在文本d_j中出现的频率，N表示训练文本集合的总文本数，n_i表示候选特征词f_i在文本集中出现的文本频率。

3.根据权利要求1所述的基于信息熵的期望交叉熵特征选择文本分类方法，其特征在于，步骤(5)中，分类器采用KNN最近邻算法构建分类器，计算待分类文本测试集所有文本的相似度，按相似度从高到低将训练集文本排序，选取前K篇训练集文本，按照这K篇文本的类别对待分类文本进行归类，其中K值根据实际情况设定。