CN105224695A

CN105224695A - 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置

Info

Publication number: CN105224695A
Application number: CN201510770947.5A
Authority: CN
Inventors: 陈科文; 张祖平; 龙军; 胡扬
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2015-11-12
Filing date: 2015-11-12
Publication date: 2016-01-06
Anticipated expiration: 2035-11-12
Also published as: CN105224695B

Abstract

本发明公开了一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置，根据特征词在文本文档内的词频和在不同文本类别上分布的信息熵来计算文档内各特征词的权重；同时可根据文本集各类别规模的非平衡性采用不同方式来计算特征词的类间分布熵，另外根据各特征词在文本集中的分布特点按需引入了反文档频率，而且适当缩减了局部词频因子，使得文档内各特征词的权重分配更合理，所生成的文档特征向量更充分地反映了不同类别文本的特征差异。所公开的文本特征量化装置和文本分类装置具备多个选项或参数，通过调节可获得最优的文本分类效果。所述文本特征量化方法不仅提高了文本分类的准确率，而且在不同文本集上的性能比较稳定。

Description

一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置

技术领域

本发明属于文本挖掘与机器学习技术领域，特别涉及一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置。

背景技术

大规模文本数据的组织和挖掘经常依赖于自动文本分类技术。自动文本分类技术一般在分类之前需要对文本的特征进行量化，以便于计算机用有监督的机器学习方法进行分类处理。文本的特征可用一些词汇来描述，文本特征的量化就是从文本中挑选一些词汇作为特征词，并为它们分配不同的权重，从而把每个文本文档都表示成由多个特征词的权重值所组成的向量(称为特征向量)。可见，文本特征的量化包含特征词的选择和权重计算两方面。特征选择有很多方法，其中常用的方法(或特征选择指标)有卡方统计量(Chi-squarestatistics，或简写为CHI或χ²)、信息增益(informationgain，IG)、互信息量(mutualinformation，MI)、奇异比值(oddsratio,OR)、等等。研究表明，卡方统计量(CHI)或信息增益(IG)的性能都比较好。特征词权重计算也有很多方法，其中，最著名的传统方法就是TF-IDF(termfrequency&inversedocumentfrequency，词频-反文档频率)方法，它最初被用于信息检索领域，后来也被用于文本分类领域。但是TF-IDF方法在计算特征词的权重时并没有考虑文本的类别，计算结果存在偏差，影响了文本分类准确率。于是研究人员提出了一系列利用了已知的文本类别信息的替代方法，统称为有监督的词加权(supervisedtermweighting,或简写为STW)方法。但是，很多STW方法都只利用了特征词在正反两类文本上的粗糙分布信息，对于多类别文本的分类并不是最优的。而基于信息熵的权重计算方法利用了特征词在多个文本类别上的精细分布信息，因此可以得到比传统的TF-IDF方法和其它STW方法更为精确的特征词权重值，从而有望进一步提高文本分类的性能。尽管现有的某些方法在特定的语料库上表现较好，但在其它语料库上却表现较差，其性能不稳定。

发明内容

本发明提供了一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置，根据特征词在文本集(或语料库)的所有不同文本类别上分布的信息熵来计算特征词的全局权重因子，并与基于词频的局部权重因子相结合来为各个特征词分配合适的权重，从而把每个文本文档都表示成特征向量，使得不同类别的文本特征差异更加突出，提高了文本分类的准确率，并且性能更加稳定。

一种用于文本分类的文本特征量化方法，包括以下步骤：

步骤1：将已分类的训练文本集和待分类的文本集进行预处理；

所述已分类的训练文本集简称为训练集，其中每个文档都带有类别标签；

所述待分类的文本集为无类别标签的文本集或带有类别标签的测试文本集；

所述文档是指被分类的文本数据单元；内容为文本数据的文档也称为文本文档；

所述文本集是指文本数据集，它是由很多相同或不同类别的文本文档组成的；

所述文本分类是指为文本文档分配与其内容相符的预定义的类别标签；

所述预处理是指对文本进行分词和去噪处理，所述去噪包括去除标点符号、数字及停用词，将英文字母转换为小写、提取英文单词的词根；

步骤2：从预处理后的训练集中提取不同的特征词，构建由不同的特征词组成的初始词表，并且统计训练集中的每个文本类别的文档数目、每个特征词的类别文档频率；

所述特征词是指文本中的各个单独的词汇(比如英语单词、汉语词组)或其它不包含空格或标点符号的连续字符串，每个特征词代表文本的一个特征或属性；

所述特征词的类别文档频率是指包含某特征词的属于某个文本类别的训练文档数目；

同时，统计训练集与待分类的文本集中每个文档包含的每个特征词的词频，所述每个文档包括训练文档和待分类文档，所述词频(termfrequency或简写为TF)是指某特征词在一篇文档中的出现频次；

步骤3：根据特征选择指标对初始词表进行筛选，保留指标计算值大的特征词作为文本的特征或属性，构建新的特征词表；

待分类的文本集和训练集使用相同的特征词表；

所述特征选择指标包括卡方统计量(Chi-squarestatistics)或信息增益(informationgain)；

所述筛选方法是先计算每个特征词的特征选择指标，将所有特征词的特征选择指标计算值按照从大到小排序，选择排列在前面的200～9000个特征词作为文本的特征或属性；

步骤4：用TF-ENT方法计算每个特征词在文档中的权重；

所述TF-ENT方法是指根据特征词在文档中的词频(TF)和在训练集的所有不同文本类别上分布的信息熵(entropy或简写为ENT)来计算特征词的权重；

根据所述TF-ENT方法，特征词t_k在文档d_i中的权重W(t_k,d_i)按照以下公式计算获得：

其中，k＝1,2,…,n，为各特征词的索引序号，n为经过步骤3筛选后保留的不同特征词的数量；tf_ki为特征词t_k在文档d_i中的词频；如果t_k没有d_i中出现，tf_ki＝0，则权重W(t_k,d_i)的值为0，否则以词频的平方根(即:开方词频)作为特征词t_k在文档d_i中的局部权重因子；G(t_k)为特征词t_k在整个文本集中的全局权重因子，是利用特征词在训练集的所有不同文本类别上分布的信息熵计算获得的；

步骤5：归一化处理特征词权重，生成文档特征向量并输出；

按照以下公式对每个特征词的权重进行归一化处理，用每个特征词的归一化权重值组成文档d_i的特征向量

其中，t_k和t_j均为在文档d_i出现的特征词；如果t_k没有在d_i中出现，则相应的归一化权重值为0。

【为了节省存储空间和提高分类速度，文档特征向量采用稀疏存储模式，就是只存储非零的特征权重值及对应特征词的索引序号。】

所述特征词权重计算方法TF-ENT中的全局权重因子G(t_k)利用特征词t_k在训练文本集中的类间分布熵E_oc(t_k)并按照以下公式计算获得：

其中，参数ε的取值为0.01～1.0；所有对数运算log()的底数与计算E_oc(t_k)时所使用的对数运算相同；m为文本类别数；

所述特征词在训练文本集中的类间分布熵E_oc(t_k)是根据特征词t_k在训练集的各个不同文本类别{c_j|j＝1,2,…,m}中出现的文档频率{df_kj|j＝1,2,…,m}来计算的信息熵，采用以下公式计算获得：

其中，df_kj是特征词的类别文档频率，表示包含特征词t_k的属于类别c_j的训练文档数目；df_k为特征词t_k在训练集中的总文档频率，即：对数运算log()的底数为2或10或自然对数的底e；通常用2作为底数；

在任何训练文档和待分类文档中，同一个特征词的所述全局权重因子的值是相同的。

当文本集中各特征词的平均文档频率不超过总文档数的1.5％时，所述全局权重因子G(t_k)也可利用特征词的类间分布熵E_oc(t_k)与反文档频率(IDF)来计算，具体计算公式如下：

当

其中，1/df_k就是特征词t_k的反文档频率，N为训练集中的总文档数，n为所有不同特征词的数目，其余各项的含义与前面所述相同。

附加因子能进一步提高文本分类性能，实际上保留了传统的TF-IDF方法的部分优点，但是只有当文本集中各特征词出现的文档频率普遍比较低，并且满足的条件时才引入这个附加因子，它与惯用的IDF因子也有所不同。

所述全局权重因子中特征词的类间分布熵E_oc(t_k)也可采用特征词t_k出现的类内文档比例df_kj/N_j或者特征词的类别总词频tf_k(c_j)或类别平均词频tf_k(c_j)/N_j(j＝1,2,…,m)代替特征词的类别文档频率df_kj来计算；其中，N_j为文本类别c_j内的文档数；所述特征词的类别总词频tf_k(c_j)是指特征词t_k在某个类别c_j的所有训练文档中的词频之和。

所述特征词权重计算方法TF-ENT也可采用特征词t_k在文档d_i中的对数词频log(tf_ki+1)代替开方词频作为局部权重因子来计算特征词的权重，对数运算log()的底数为2或10或自然对数的底e。

【根据前面所述，所述特征词权重计算方法TF-ENT中的全局权重因子有两种类型：只基于特征词的类间分布熵、基于特征词的类间分布熵与反文档频率；其中第二种类型只有当所有特征词的平均文档频率不超过训练集总文档数的1.5％时才选择；

所述特征词的类间分布熵E_oc(t_k)可以选择特征词的4种类间分布信息来计算,分别是：df_kj，df_kj/N_j，tf_k(c_j)和tf_k(c_j)/N_j(j＝1,2,…,m)，它们都可表示特征词t_k在训练集的不同类别c_j(j＝1,2,...,m)中出现的频繁度；一般选择df_kj即可，但对于各类别文档数相差悬殊的非平衡文本集，选择df_kj/N_j更合适。

所述特征词权重计算方法TF-ENT中的局部权重因子也有两种类型，分别为：开方词频和对数词频log(tf_ki+1)；一般可选择开方词频。】

一种基于TF-ENT权重计算的文本分类方法，基于前面所述的一种用于文本分类的文本特征量化方法，对文本数据集中每个文本文档的特征进行量化，输出相应的特征向量集；再将得到的训练文档特征向量集和待分类文档特征向量集输入预设的分类器，先后分别进行分类器训练和分类预测。

根据测试文本集的分类结果进行文本分类性能评估，得到分类性能指标，基于分类性能指标对初始特征词表筛选方法和保留的特征词数目进行更改、改变局部权重因子和全局权重因子的计算方法、调节全局权重因子的参数ε，或者优化设置分类器的参数，直到测试文本集分类结果的宏平均F1值和微平均F1值达到最优；

所述文本分类性能的评估是将每个测试文档在分类前后的类别进行比较，再计算分类性能指标；所述分类性能指标包括每个类别的精确率、召回率、综合性能F1值，以及所有类别的宏平均F1值和微平均F1值；

微平均F1值＝2P*R/(P+R)

宏平均F1值＝sum(F1_j)/m

其中，P为整个测试文本集分类结果的精确率，R为整个测试文本集被正确分类的召回率；F1_j＝2P_j*R_j/(P_j+R_j)为第j个文本类别(j＝1,2,…,m)的分类性能指标F1值，m为类别数，P_j和R_j为第j类文本分类的精确率和召回率，sum()是求和函数。

一种用于文本分类的文本特征量化装置，基于所述的一种用于文本分类的文本特征量化方法来实现文本特征的量化和表示，包括按顺序依次串接的文本预处理模块、训练集词表构建与统计模块、特征选择模块、特征词权重计算模块和文档特征向量生成模块；

其中，文本预处理模块包含分词单元和去噪单元，分词单元包含中文分词器和英文分词器，去噪单元包含字符筛选器、中英文停用词清除器、英文词根提取器；特征选择模块包含卡方统计量和信息增益特征评分计算单元；特征词权重计算模块包含特征词的类间分布熵计算单元、支持TF-ENT、TF-IDF的综合权重计算单元；文档特征向量生成模块包含特征词权重归一化单元和特征向量输出单元。

一种基于TF-ENT权重计算的文本分类装置，采用所述的文本特征量化装置与支持向量机(SVM)、k近邻分类器(kNN)或其它常用分类器以及相应的性能评估器组合成为文本分类装置；

所述文本特征量化装置对输入的文本集中的每个文本文档的特征进行量化，输出相应的特征向量集，再将得到的训练文档特征向量集和待分类文档特征向量集输入预设的分类器，先后分别进行分类器训练和分类预测；

所述文本特征量化装置具备多个可调节的选项或参数，根据性能评估器对文本分类性能的评估结果，反馈调节所述文本特征量化装置的各选项参数的设置值，从而获得最优的文本分类性能。

所述文本特征量化装置可调节的选项或参数主要有：初始特征词表筛选方法、保留的特征词数目、局部权重因子类型、全局权重因子中的参数ε、计算类间分布熵所采用的特征词类间分布信息类型、等等。

有益效果

本发明所公开的一种用于文本分类的文本特征量化方法和装置，在对文本文档的特征进行量化时，根据特征词在文档内出现的频率和在整个训练文本集的所有不同文本类别上分布的信息熵来计算特征词的权重；有益效果体现在以下几个方面：

(1)在计算特征词的权重时，利用开平方或对数运算对特征词的局部词频因子进行了适当缩减，不同于现有技术中惯用原始词频作为局部权重因子的方法，避免了过高地估计高频特征词在文本分类中的作用；

(2)基于信息熵的全局权重因子充分利用了特征词在文本集的所有不同文本类别上的精细分布信息，不同于现有技术中仅仅利用特征词在正反两类文本上的粗糙分布信息的方法，使得文本特征量化更加精确；

(3)全局权重因子的值取决于特征词的归一化类间分布熵的倒数，它比较真实地反映了特征词的类别区分力，不同于现有技术中没有对特征词分布信息熵进行归一化的方法和基于特征词类内分布熵计算权重的方法，所述TF-ENT方法计算所得权重更能突出那些类别区分力大的重要的文本特征，即使这些特征不具有类别代表性；

(4)根据文本集中各特征词的分布特点，在计算权重时有选择地适当引入了特征词的反文档频率(IDF)，这样既能避免导致某些文本集的分类性能降低，又能进一步提高另外一些文本集的分类性能；

(5)特征词的类间分布熵可以根据多种类型的类间分布信息来计算，使得在各类别规模相差悬殊的严重不平衡文本集上也能比较准确地度量特征词的类别区分能力；

(6)可调节参数和选项的引入使得特征词权重计算方法TF-ENT能够适应某些文本分类应用的特殊情况；

(7)以上措施使得本发明所述的TF-ENT方法既保留了现有方法的优点，同时又克服了现有方法的不足，用这种方法计算得到的特征词权重更加准确，通过量化生成的文档特征向量能够更充分地反映各个类别的文本的特征差异，从而更加容易辨别文本类别，提高了文本分类的准确率；

(8)所公开的文本特征量化装置和文本分类装置具备多个选项或参数，当对某个具体的文本数据集进行分类时，可以根据分类性能测试结果对其选项参数进行优化调节，从而获得最佳的文本分类效果，适用于不同的文本分类应用。

在测试语料库上的文本分类实验表明，跟现有的典型方法比较，所公开的文本特征量化方法不仅提高了文本分类的准确率，而且在不同的文本集上的性能表现更加稳定，如后面的具体实施案例所示。

附图说明

图1为本发明所述用于文本分类的文本特征量化方法的工作流程图；

图2为本发明所述用于文本分类的文本特征量化装置的组成结构图；

图3为用本发明所述文本特征量化方法和装置进行文本分类的实验流程图。

具体实施方式

下面结合附图和具体案例对本发明的具体实施方式进行详细描述，并提供有关实验结果。为了突出本发明的创新之处，将忽略本领域众所周知的一些技术的细节。

如图1所示，本发明所述基于信息熵的文本特征量化方法的具体实施步骤如下：

步骤s1：文本预处理；

准备一批预先已分类的文本集，并按一定比例分割为训练集和测试集；导入已分类和待分类的文本集，对所有文本进行分词和去噪；所述去噪就是去除文本中的一些噪声信息，包括标点符号、数字、停用词等，并把英文字母转换为小写，提取英文单词的词根。

步骤s2：训练集词表构建与统计处理；

从预处理后的训练集中提取不同的特征词，构建初始词表；并且统计每个文本类别的文档数目、每个特征词的类别文档频率，以及每个特征词在每个训练文档和待分类文档中出现的频次，即词频。

本实施案例包括3个具体案例，分别对3个具有不同特点的文本语料库进行分类，即：一个中文语料库TanCorp、两个英文语料库WebKB和20Newsgroups，它们是国内外研究人员常用的文本分类测试数据集。TanCorp语料库共有14150篇中文文档，分为12类，各类别规模严重不平衡，所有文本已用中文分词器ICTCLAS进行分词，并删除了数字与标点符号，从中提取出70000多个不同特征词构成初始词表，并把所有文档按2:1的比例分类别随机分割为训练集和测试集。WebKB语料库包含约8300个英文网页文档，分为7大类，但在本实施案例中只选择其中最常用的4大类：student,faculty,course和project，各类别规模轻微不平衡，共有4199个文档，按2:1的比例分割为训练集和测试集，删除所有文本中的数字、标点符号和停用词，并把英文字母转换为小写、提取英语单词的词根，最后从训练集文本中提取出7000多个不同特征词构成初始词表。20Newsgroups语料库的20News-bydate版本共有18846个英文消息文档，分为20类，各类别规模基本平衡，已按3:2的比例分割为训练集和测试集，采用与WebKB语料库类似的方法进行预处理，提取出30000多个特征词构成初始词表。

步骤s3：特征选择；

使用卡方统计量(Chi-squarestatistics或简写为CHI或χ²)、信息增益(informationgain或简写为IG)或其它方法，对初始词表中所有特征词进行评分，选择保留一定数量的评分较高的特征词，组成新的特征词表；待分类文本集和训练集使用相同的特征词表。

本实施案例所采用的特征选择方法是流行的卡方统计量方法，须计算特征词的类别相关的CHI评分，其计算公式为：

其中，A和B分别为特征词在训练文本集的正类和反类中的文档频率，C和D分别为正类和反类中没有包含该特征词的文档数，N＝A+B+C+D为总文档数。取各类别相关的CHI评分中的最大值(简称为CHI_max)作为该特征词的总评分，对所有特征词按总评分从高到低排序，选择保留一定数量的高分特征词。本实施案例采用上述CHI_max方法分别从TanCorp、WebKB和20Newsgroups语料库中各提取两组特征集(低维的和高维的)用于实验，低维特征集只有500个特征词，高维特征集包含4000个特征词。

步骤s4：特征词权重计算；

用前面所述基于信息熵的TF-ENT方法计算所有特征词在每个文档中的权重，具体实现步骤如下：

步骤s4.1：确定特征词权重的局部权重因子和全局权重因子的类型；

局部权重因子有两种类型：开方词频和对数词频log(tf_ki+1)；本实施案例采用开方词频；

全局权重因子也有两种类型：只基于特征词的类间分布熵、基于特征词的类间分布熵与反文档频率；其中第二种类型只有当所有特征词的平均文档频率不超过训练集总文档数的1.5％时才选择；在本实施案例中，对于TanCorp和WebKB语料库，采用第一种类型全局因子；而对于20Newsgroups语料库，采用第二种类型全局因子。

步骤s4.2：获取特征词(比如t_k)的类间分布信息，有4种选择：特征词类别文档频率df_kj(即：c_j类中包含特征词t_k的文档数)、特征词出现的类内文档比例df_kj/N_j、特征词类别总词频tf_k(c_j)(即：特征词t_k在c_j类的所有文档中的词频之和)和类别平均词频tf_k(c_j)/N_j；其中N_j为类别c_j内的文档数，j＝1,2,...,m，为文本类别序号。

在本实施案例中，对于WebKB和20Newsgroups语料库，选择特征词的类别文档频率来计算特征词的类间分布熵；而对于各类别规模严重不平衡的TanCorp语料库，则选择特征词出现的类内文档比例来计算类间分布熵。

步骤s4.3：计算特征词的类间分布熵；

利用步骤s4.2获得的特征词的类间分布信息，计算它的类间分布熵。

在本实施案例中，对于WebKB和20Newsgroups语料库，特征词t_k的类间分布熵E_oc(t_k)采用下面的公式计算：

其中，df_kj是特征词t_k在类别c_j中的文档频率，df_k为特征词t_k在训练集中的总文档频率，即：m为类别数，lb()表示以2为底的对数运算；

而对于TanCorp语料库，特征词t_k的类间分布熵E_oc(t_k)采用特征词出现的类内文档比例df_kj/N_j代替上述公式中的类别文档频率df_kj来计算获得。

步骤s4.4：计算特征词的全局权重因子；

(1)当全局权重因子的类型为只基于特征词的类间分布熵时，用如下公式计算特征词t_k

的全局权重因子G(t_k)：

(2)当全局权重因子的类型为基于特征词的类间分布熵与反文档频率时，用如下公式计算特征词t_k的全局权重因子G(t_k)：

上面两个公式中，参数ε的取值为0.01～1.0，可根据文本分类性能反馈进行调节。

在本实施案例中，对于TanCorp和WebKB语料库，采用第(1)种方式计算全局权重因子，参数ε的取值分别为0.1和0.5；而对于20Newsgroups语料库，采用第(2)种方式计算全局权重因子，参数ε的取值为0.01；lb()表示以2为底的对数运算；

所有特征词的全局权重因子在预先扫描分析训练集时计算获得，并保存备用。

步骤s4.5：用TF-ENT方法计算每个文档内所有特征词的权重；

特征词的权重值为特征词的局部权重因子和全局权重因子的乘积。

在本实施案例中，利用步骤s4.4所获得的全局权重因子G(t_k)的值，并按照以下公式计算特征词t_k在文档d_i中的权重W(t_k,d_i)：

其中，tf_ki为特征词t_k在文档d_i中的词频。

步骤s5：文档特征向量生成；

计算文档d_i内所有特征词{t_k∈d_i|k＝1,2,...,n}的权重{W(t_k,d_i)|k＝1,2,...,n}，再按如下公式对所有权重值进行归一化(即余弦归一化)处理：

上式中，t_k为在文档d_i中出现的特征词；如果t_k没有在d_i中出现，则相应的归一化权重值为0。

这样就把一个文本文档d_i转换成为归一化的特征向量D_i，如下：

为了节省存储空间和提高分类速度，文档特征向量采用稀疏存储模式，就是只存储非零的特征权重值及对应特征词的索引序号。

实验过程:

本实验的主要目的是测试本发明所公开的基于信息熵的文本特征量化方法与装置的性能好坏；所述文本特征量化方法与装置的关键技术是采用了基于信息熵的TF-ENT方法来计算特征词的权重。为了比较性能，实验中还采用了两种著名的方法TF-IDF和TF-RF以及文献中介绍的另外两种基于信息熵的特征词权重计算方法(简称为熵加权方法，分别表示为EW1和EW2)。本实验将上述5种特征词权重计算方法用于TanCorp、WebKB和20Newsgroups三个语料库的文本分类，以比较它们的性能。

参考附图3，所述文本分类实验的步骤如下：

步骤一：文本特征量化；

输入文本集(包括训练集和测试集)，用所述基于信息熵的文本特征量化方法对每个文本文档的特征进行量化处理，生成每个文档的特征向量。

在文本特征量化过程中，采用所述TF-ENT方法计算特征词的权重。另外还分别采用了TF-IDF、TF-RF和另外两种熵加权方法EW1和EW2来计算特征词的权重；其中TF-IDF和TF-RF权重计算公式分别为：

TF-IDF权重＝TF*lb(N/DF),对于训练集文档和测试集文档；

TF-RF权重＝TF*lb(2+DF_j/(DF-DF_j)),对于训练集中的第j类文档；

TF-RF权重＝TF*lb(2+max(DF_j/(DF-DF_j)))，对于测试集文档。

其中，lb()表示以2为底的对数运算，TF为某特征词在文档内的词频，N为训练集中总文档数，DF为特征词的总文档频率，DF_j为特征词在C_j类(j＝1,2,…,m)中的文档频率，C_j为训练集文档的第j个类别，max()表示从所有类别相关的值中取最大值。为避免分母为0，当(DF-DF_j)＝0时将其值设为1。关于TF-RF方法，可参考本说明书后面列出的文献[1]。关于熵加权方法EW1和EW2，可分别参考本说明书后面列出的文献[2]和[3]。

步骤二：分类器训练和文本分类；

将文档特征向量集(包括训练集、测试集或待分类集)输入分类器进行训练和分类，可用的分类器有支持向量机(SVM)、K近邻分类器(kNN)、等等。

本实施案例中采用带线性核的SVM分类器，并使用广泛流行的LibSVM软件包来实现，而且设置LibSVM分类器具有线性核和默认参数；虽然原始SVM只支持两类分类，但是LibSVM已被扩展成能够支持多类别分类。

步骤三：分类性能评估；

对预先已分类的测试文本集重新进行分类，并通过比较分类前后的文本类别进行性能评估，得到所有类别文本分类性能的两个综合指标，为微平均F1值(micro-F1)和宏平均F1值(macro-F1)，分别定义为：

微平均F1值：micro-F1＝2P*R/(P+R)

宏平均F1值：macro-F1＝sum(F1_j)/m

其中，P为整个测试集分类结果的准确率，R为整个测试集被正确分类的召回率；F1_j＝2P_j*R_j/(P_j+R_j)为第j类(j＝1,2,…,m)的性能指标F1值,m为类别数，P_j和R_j为第j类文本分类的准确率和召回率，sum()是求和函数。

实验结果：

在TanCorp中文语料库、WebKB和20Newsgroups英文语料库上分别使用5种特征词权重计算方法进行文本分类实验，实验结果分别如表1、表2和表3所示。

表1在TanCorp语料库上用SVM(线性核)分类的实验结果

表2在WebKB语料库上用SVM(线性核)分类的实验结果

表3在20Newsgroups语料库上用SVM(线性核)分类的实验结果

从表1、表2和表3中的实验结果可以看出来，TF-RF方法和另外两种熵加权方法EW1和EW2在不同语料库上的性能表现不同，有时表现得比传统的TF-IDF方法更好，有时表现得更差。但是，跟所有这些方法比较，本发明所提出的TF-ENT方法具有明显的优势，不仅提高了文本分类的准确率，而且在不同语料库上的性能表现更稳定。众所周知，支持向量机(SVM)的性能通常优越于k近邻(kNN)等其它分类器，而采用本发明所提出的TF-ENT方法后，SVM对文本分类的性能将得到进一步提高。事实上，已有实验表明，本发明所提出的文本特征量化新方法还能显著提高kNN的文本分类性能。总之，通过实验验证，本发明所提出的文本特征量化方法和装置能用于具有不同特点的文本集的自动分类，能适用于较广泛的文本分类应用，其性能表现不仅比现有的很多方法更好，而且在不同应用环境中具有一定的稳健性。

实验数据集：

[1]TanCorp中文语料库，可参考文献[4].

[2]WebKB英文语料库，可从如下网址下载(最近访问时间:2015-11-05)：

http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/

[3]20Newsgroups英文语料库，可从如下网址下载(最近访问时间:2015-11-05)：

http://qwone.com/～jason/20Newsgroups

参考文献：

[1]LanM,TanC,SuJ,etal.Supervisedandtraditionaltermweightingmethodsforautomatictextcategorization[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2009,vol.31,No.4,pp.721-735.(注：该文献介绍了本说明书中提到的TF-RF方法，并与TF-IDF等其它方法相比较)；

[2]周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007年,第43卷，第35期:第156-158页.(注：介绍了本说明书所述实验中的EW1方法)

[3]郭红钰.基于信息熵理论的特征权重算法研究[J].计算机工程与应用,2013年,第49卷，第10期:第140-146页.(注：介绍了本说明书所述实验中的EW2方法)

[4]TanS,ChengX,GhanemMM,etal.Anovelrefinementapproachfortextcategorization[C]//Proceedingsofthe14thACMInternationalConferenceonInformationandKnowledgeManagement.NewYork:ACM,2005，pp.469-476.(注：介绍了本说明书所述实验中的TanCorp语料库)。

Claims

1.一种用于文本分类的文本特征量化方法，其特征在于，包括以下步骤：

所述文档是指被分类的文本数据单元；内容为文本数据的文档称为文本文档；

所述文本集是指文本数据集，由相同或不同类别的文本文档组成的；所述文本分类是指为文本文档分配与其内容相符的预定义的类别标签；

所述特征词是指文本中的各个单独的词汇或其它不包含空格或标点符号的连续字符串，每个特征词代表文本的一个特征或属性；

所述特征词的类别文档频率是指包含该特征词且属于某个文本类别的训练文档数目；

同时，统计训练集与待分类的文本集中每个文档包含的每个特征词的词频；所述每个文档包括训练文档和待分类文档，所述词频是指某特征词在一篇文档中的出现频次；

待分类的文本集和训练集使用相同的特征词表；

所述特征选择指标包括卡方统计量或信息增益；

步骤4：用TF-ENT方法计算每个特征词在文档中的权重；

所述TF-ENT方法是指根据特征词在文档中的词频和在训练集的所有不同文本类别上分布的信息熵来计算特征词权重的方法；

W (t_{k}, d_{i}) = \{\begin{matrix} \sqrt{{tf}_{k i}} \times G (t_{k}), & {tf}_{k i} > 0 \\ 0, & {tf}_{k i} = 0 \end{matrix}

其中，k＝1,2,…,n，为各特征词的索引序号，n为经过步骤3筛选后保留的不同特征词的数量；tf_ki为特征词t_k在文档d_i中的词频；如果t_k没有d_i中出现，tf_ki＝0，则权重W(t_k,d_i)的值为0，否则以词频的平方根作为特征词t_k在文档d_i中的局部权重因子；G(t_k)为特征词t_k在整个文本集中的全局权重因子，是利用特征词在训练集的所有不同文本类别上分布的信息熵计算获得的；

步骤5：归一化处理特征词权重，生成文档特征向量并输出；

D_{i} = [\overset{&OverBar;}{w} (t_{1}, d_{i}), \overset{&OverBar;}{w} (t_{2}, d_{i}), ... ..., \overset{&OverBar;}{w} (t_{n}, d_{i})];

\overset{&OverBar;}{w} (t_{k}, d_{i}) = \frac{W (t_{k}, d_{i})}{\sqrt{\underset{t_{j} &Element; d_{i}}{Σ} W {(t_{j}, d_{i})}^{2}}}

其中，t_k和t_j均为在文档d_i中出现的特征词；如果t_k没有在d_i中出现，则相应的归一化权重值为0。

2.根据权利要求1所述的一种用于文本分类的文本特征量化方法，其特征在于，所述特征词权重计算方法TF-ENT中的全局权重因子G(t_k)利用特征词t_k在训练文本集中的类间分布熵E_oc(t_k)并按照以下公式计算获得：

G (t_{k}) = l o g (1 + \frac{1}{E_{o c} (t_{k}) / \log (m) + ϵ})

E_{o c} (t_{k}) = - Σ_{j = 1}^{m} (\frac{{df}_{k j}}{{df}_{k}}) \times \log (\frac{{df}_{k j}}{{df}_{k}})

其中，df_kj是特征词的类别文档频率，表示包含特征词t_k的属于类别c_j的训练文档数目；df_k为特征词t_k在训练集中的总文档频率，即：对数运算log()的底数为2或10或自然对数的底e。

3.根据权利要求2所述的一种用于文本分类的文本特征量化方法，其特征在于，当文本集中各特征词的平均文档频率不超过总文档数的1.5％时，所述全局权重因子利用特征词的类间分布熵E_oc(t_k)与反文档频率并按照以下公式计算获得：

G (t_{k}) = l o g (1 + \frac{1}{E_{o c} (t_{k}) / \log (m) + ϵ}) \times (1 + \log_{2} (\frac{N}{{df}_{k}})),

当

Σ_{k = 1}^{n} {df}_{k} / (n \times N) \leq 1.5 %

其中，1/df_k为特征词t_k的反文档频率，N为训练集中的总文档数，n为所有不同特征词的数目。

4.根据权利要求2或3所述的一种用于文本分类的文本特征量化方法，其特征在于，所述全局权重因子中特征词的类间分布熵E_oc(t_k)采用特征词t_k出现的类内文档比例df_kj/N_j或者特征词的类别总词频tf_k(c_j)或类别平均词频tf_k(c_j)/N_j(j＝1,2,…,m)代替特征词的类别文档频率df_kj来计算；

其中，N_j为文本类别c_j内的文档数；所述特征词的类别总词频tf_k(c_j)是指特征词t_k在某个类别c_j的所有训练文档中的词频之和。

5.根据权利要求1-4任一项所述的一种用于文本分类的文本特征量化方法，其特征在于，所述特征词权重计算方法TF-ENT采用特征词t_k在文档d_i中的对数词频log(tf_ki+1)代替开方词频作为局部权重因子来计算特征词的权重，对数运算log()的底数为2或10或自然对数的底e。

6.一种基于TF-ENT权重计算的文本分类方法，其特征在于，基于权利要求1‐5任一项所述的一种用于文本分类的文本特征量化方法，对文本数据集中每个文本文档的特征进行量化，输出相应的特征向量集；再将得到的训练文档特征向量集和待分类文档特征向量集输入预设的分类器，先后分别进行分类器训练和分类预测。

7.根据权利要求6所述的方法，其特征在于，根据测试文本集的分类结果进行文本分类性能评估，得到分类性能指标，基于分类性能指标对初始特征词表筛选方法和保留的特征词数目进行更改、改变局部权重因子和全局权重因子的计算方法、调节全局权重因子的参数ε，或者优化设置分类器的参数，直到测试文本集分类结果的宏平均F1值和微平均F1值达到最优；

所述文本分类性能的评估是通过将每个测试文档分类前后的类别进行比较，并计算分类性能指标；所述分类性能指标包括每个类别的精确率、召回率、综合性能F1值，以及所有类别的宏平均F1值和微平均F1值；

微平均F1值＝2P*R/(P+R)

宏平均F1值＝sum(F1_j)/m

8.一种用于文本分类的文本特征量化装置，其特征在于，基于权利要求1-5任一项所述的一种用于文本分类的文本特征量化方法来实现文本特征的量化和表示，包括按顺序依次串接的文本预处理模块、训练集词表构建与统计模块、特征选择模块、特征词权重计算模块和文档特征向量生成模块；

9.一种基于TF-ENT权重计算的文本分类装置，其特征在于，采用权利要求8所述的文本特征量化装置与支持向量机、k近邻分类器或其它常用分类器以及相应的性能评估器组合成为文本分类装置；