CN104346459B

CN104346459B - 一种基于术语频率和卡方统计的文本分类特征选择方法

Info

Publication number: CN104346459B
Application number: CN201410629761.3A
Authority: CN
Inventors: 马廷淮; 金传鑫; 侯荣涛; 田伟; 薛羽
Original assignee: Nanjing University of Information Science and Technology
Current assignee: BEIJING PHOENIX E-LEARNING TECHNOLOGY Co.,Ltd.
Priority date: 2014-11-10
Filing date: 2014-11-10
Publication date: 2017-10-27
Anticipated expiration: 2034-11-10
Also published as: CN104346459A

Abstract

本发明提供一种基于术语频率和卡方统计的文本分类特征选择方法，包括如下步骤：对数据集预处理；把每一个数据对象转换为特征空间的向量；分别计算每个术语在每个文本分类中的最大术语频率和平均术语频率；根据平均术语频率计算术语在每个类中的分布差异度；将每个术语的最大术语频率和分布差异度与传统的卡方统计公式相结合，计算每个术语在每个类中的权重，并取最大值为术语权重；将每个术语权重降序排序，选出权重值最大的前N个术语作为特征。本发明通过对传统的卡方统计进行改进，使在某类出现频率较高的或类内分布均匀的特征项对类别区分的贡献度得到体现，并修正了传统卡方统计方法偏向于低频词的不足。

Description

一种基于术语频率和卡方统计的文本分类特征选择方法

技术领域

本发明属于文本挖掘与信息检索领域，具体涉及的是一种基于术语频率和卡方统计的文本分类特征选择方法。

背景技术

文本分类(Text Classification或Text Categorization)是预先设定的类别集合，根据文本内容确定文本所属类型。在文本分类中，通常用向量空间模型作为文本的表示模型，该模型是应用效果最好的文本表示模型之一；文本中的词或词组作为特征，但是在大量的特征中，存在很多冗余特征和噪声特征，而庞大的特征空间维数会降低分类器的性能和泛化能力，产生“过学习”现象。同时，处理高维向量需要极高的时间复杂度，进而会产生“维数灾难”。因此，我们需要通过特征降维，来提高分类器的效率和精度，特征降维分为特征选择和特征提取。

特征选择是目前最常用的降维方法，其本质是从一个高维空间根据某种准则变换到一个较低维的空间，并且使得该低维空间有比较好的类别可分性，从而提高分类器的分类效率和精度。比较常用的特征选择方法主要有文档频率(document frequency，DF)、互信息(mutual information，MI)、期望交叉熵(expected cross entropy，ECE)、卡方统计(Chi-square statistic，CHI)、信息增益(information gain，IG)等；近年来国内外学者还提出了其他的特征选择方法，例如，张玉芳等人提出了综合比率(CR)方法，通过把数据集分成正类和负类，综合考虑特征项在正类和负类中的分布，结合四种衡量特征类别区分能力的指标，构造了CR特征选择方法来选择特征；冯霞等人提出了基于假设检验的选择方法，利用特征与文档类在term-category四格表中相互独立与互不相关等价的性质来选择特征。美国卡内基梅隆大学的Yang教授针对文本分类问题，在分析比较了DF、MI、IG、CHI等方法后，得出IG和CHI方法分类效果相对较好的结论，并且，CHI和IG在多次的实验中表现出了良好的准确性。但是上述这些特征选择方法都具有缺陷，比如卡方统计方法对低频词的倚重大，不能很好地过滤低频词中的噪音词。

发明内容

我们通过分析发现，现有卡方统计方法只考虑了特征词的文档频率，并没有考虑特征的术语词频，所以夸大了低频术语的作用。例如传统卡方统计方法只统计文档中是否出现术语t，并没有考虑术语t在文档中出现的次数，致使传统方法更倾向于选择文档频率高的特征，忽略了文档频率较低但是词频较高的词汇的贡献度，此外，传统卡方统计方法没有考虑术语的分布差异度的问题。基于上述问题，本发明公开了一种基于术语频率和卡方统计的文本分类特征选择方法，利用最大术语频率来修正传统卡方统计方法对术语频率低但文档频率高的术语的偏袒；同时利用平均术语频率和统计学上的标准方差的方法，来修正传统卡方统计方法未考虑分布差异度的缺陷。

为了达到上述目的，本发明提供如下技术方案：

一种基于术语频率和卡方统计的文本分类特征选择方法，包括如下步骤：

步骤(1)，对语料库数据集进行预处理；

步骤(2)，对经过步骤(1)处理得到的数据集中的对象根据向量空间模型均表示为向量形式，得到数据对象向量集合D＝{d₁,d₂,...d_N}，类标签集合C＝{c₁,c₂,...c_|C|}，d_j表示语料库数据集中的一个文档(1≤j≤N)，c_k表示语料库数据集中的一个类；

步骤(3)，计算术语t_i在文本分类c_k中的最大术语频率和平均术语频率

步骤(4)，通过下式计算术语t_i在c_k类中的分布差异度:

其中，α表示一个很小的实数；

步骤(5)，利用步骤(3)和步骤(4)得到的最大术语频率及分布差异度，通过下式计算该术语t_i在c_k类中的权重：

其中，

步骤(6)，计算得到该术语t_i在每个类中的权重，通过下式得到术语t_i在语料库数据集中的权重：

步骤(7)，计算得到每一个术语在语料库数据集中的权重，并降序排列，选出值最大的前N个术语作为特征。

进一步的，所述步骤(1)对语料库数据集进行预处理时包括去停用词、中文分词步骤。

进一步的，所述去停用词步骤采用由百度停用词列表、哈工大停用词表和四川大学机器智能实验室停用词库3个词库结合得到的停用表进行去停用词操作。

进一步的，所述中文分词步骤采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS进行中文分词操作。

进一步的，所述术语频率和平均术语频率通过下式计算：

其中，tf_ij为术语t_i在属于c_k类的各个文档d_j中的术语频率。

与现有技术相比，本发明具有如下优点和有益效果：

本发明在传统的卡方统计方法中加入术语频率，修正了传统卡方统计方法偏向于低频词的不足；并进一步引入分布差异度，使在文本集合中分布均匀的特征词对类别的表征能力和类别区分的贡献度较大这一特点得到体现，相对于传统卡方统计方法，本发明能够提高文本分类的精度，改善分类效果。

附图说明

图1为本发明步骤流程示意图；

图2为图1中步骤30的具体步骤流程示意图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本方法步骤流程图如图1所示，具体包括如下步骤：

步骤10，对语料库数据集进行预处理，预处理包括去停用词、中文分词等步骤。本例中首先采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS对中文文本进行分词；接着采用由百度停用词列表、哈工大停用词表和四川大学机器智能实验室停用词库3个词库结合得到的停用词表将没用的词语去掉。

步骤20，对于经过步骤10得到的数据集中的对象根据向量空间模型均表示为向量形式，得到数据文本对象向量集合D＝{d₁,d₂,...d_N}，d_j＝{w₁,w₂,...w_|T|}，类标签集合C＝{c₁,c₂,...c_|C|}，其中，d_j表示语料库数据集中的一个文档(1≤j≤N),W_i表示文档中一个术语的权重(1≤i≤|T|)，每个文档d_j包括有多个t_i，t_i表示语料库数据集中的一个术语(1≤i≤|T|)，C_k表示语料库数据集中的一个类(1≤k≤|C|)，N表示语料库数据集中文档的数量，|T|表示语料库数据集中术语的数量，|C|表示语料库数据集中类别的数量。

步骤30，计算集合D中一个术语t_i在某一文本分类c_k中的最大术语频率和平均术语频率其中，N_k表示c_k类中文档的数量，tf_ij表示术语t_i在文档d_j中的术语频率。如图2所示，具体的计算流程包括下述步骤：

步骤301，根据得到的数据对象向量集合D＝{d₁,d₂,...d_N}，判断包含术语t_i的文档d_j是否属于c_k类。

步骤302，若文档d_j属于c_k类，则计算术语t_i在文档d_j中的术语频率tf_ij

步骤303，遍历完属于c_k类的所有文档后，计算最大术语频率和平均术语频率计算公式如下：

步骤40，利用步骤30得到的平均术语频率计算术语t_i在c_k类中的分布差异度V(t_i，c_k)。步骤30中已得到c_k类中所有包含术语t_i的文档的术语频率，以及术语t_i在c_k类中的平均术语频率这里我们采用样本方差来计算术语t_i在c_k类中的分布差异度，计算公式如下：

其中，α表示一个很小的实数(本例中取α＝0.0001)

步骤50，利用步骤30和步骤40得到的最大术语频率及分布差异度V(t_i，c_k)，计算术语t_i在c_k类中的权重ICHI(t_i，c_k)，计算公式如下：

其中，可以对最大术语频率起平滑作用，可以在一定的程度上抑制一些特别高的高频词。x²(t_i，c_k)公式如下：

其中，N表示语料库数据集中文档的数量；A表示包含术语t_i并且属于C_k类的文档数量；B表示包含术语t_i但不属于c_k类的文档数量；C表示不包含术语t_i但属于c_k类的文档数量；D表示不包含术语t_i并且不属于c_k类的文档数量。

步骤60，判断类标签集合C＝{c₁,c₂,...c_|C|}是否为空，若不为空，则继续计算术语t_i在集合C中的剩下的类中的最大术语频率平均术语频率分布差异度V(t_i，c_k)以及权重ICHI(t_i，c_k)；若为空，则取权重最大值表示术语t_i在语料库数据集中的权重，计算公式如下：

步骤70，判断数据文本对象向量集合D＝{d₁,d₂,...d_N}是否为空，若不为空,则按步骤30到步骤60，继续计算集合D中剩下的每个术语的权重；若为空，则将集合D中所有术语按权重值由大到小降序排列，选出值最大的前N个术语作为特征，N值根据需求选取，如100,200,500,2000,3000,5000,10000等等，N越大，精度越高，但是效率越低。

我们将本发明提供的特征选择方法和现有的其他特征选择方法应用在同样的环境下进行比对，分类器是KNN，数据集是Reuters-21578，我们通常用F1值来综合衡量这些方法的精确度和召回率，F1值按照计算方法的不同又可以分为Micro-F1值和Macro-F1值。本例中我们以Micro-F1值作为各方法的评判标准，Micro-F1值是假设每个文本具有相同权重，求整个样本集的准确率和召回率，然后求平均，我们得到各方法的Micro-F1值结果如表1所示：

表1

其中，TFSV-CHI为本发明方法，X2是原始卡方方法，CE是期望交叉熵方法，DF是文档频率方法，IG是信息增益方法，MI是互信息方法，以能在N值越小的情况下达到Micro-F1值越高为最佳。很明显，在N≤3000时，与其他方法比较，经本发明方法得到的Micro-F1值最高，这表明采用本发明方法进行文本分类的精度最高，分类效果最好。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于术语频率和卡方统计的文本分类特征选择方法，其特征在于，包括如下步骤：

步骤(1)，对语料库数据集进行预处理；

步骤(2)，对经过步骤(1)处理得到的数据集中的对象根据向量空间模型均表示为向量形式，得到数据对象向量集合D＝{d₁,d₂,...d_N}，类标签集合C＝{c₁,c₂,...c_|C|}，d_j表示语料库数据集中的一个文档(1≤j≤N)，c_k表示语料库数据集中的一个类，1≤k≤|C|，N表示语料库数据集中文档的数量，|C|表示语料库数据集中类别的数量；

步骤(4)，通过下式计算术语t_i在c_k类中的分布差异度:

<mrow> <mi>V</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msub> <mi>N</mi> <mi>k</mi> </msub> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>k</mi> </msub> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mover> <mrow> <mi>t</mi> <mi>f</mi> </mrow> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <mi>&alpha;</mi> </mrow>

其中，N_k表示c_k类中文档的数量，tf_ij为术语频率，α表示一个很小的实数；

<mrow> <mi>I</mi> <mi>C</mi> <mi>H</mi> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>log</mi> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>+</mo> <msub> <mi>tf</mi> <msub> <mi>i</mi> <mi>max</mi> </msub> </msub> </mrow> <mo>)</mo> </mrow> <mo>&times;</mo> <msup> <mi>&chi;</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <mi>V</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>

其中，

<mrow> <msup> <mi>&chi;</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <mo>&times;</mo> <msup> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mi>D</mi> <mo>-</mo> <mi>C</mi> <mi>B</mi> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mo>(</mo> <mi>A</mi> <mo>+</mo> <mi>C</mi> <mo>)</mo> <mo>&times;</mo> <mo>(</mo> <mrow> <mi>B</mi> <mo>+</mo> <mi>D</mi> </mrow> <mo>)</mo> <mo>&times;</mo> <mo>(</mo> <mrow> <mi>A</mi> <mo>+</mo> <mi>B</mi> </mrow> <mo>)</mo> <mo>&times;</mo> <mo>(</mo> <mrow> <mi>C</mi> <mo>+</mo> <mi>D</mi> </mrow> <mo>)</mo> </mrow> </mfrac> <mo>;</mo> </mrow>

上式中，A表示包含术语t_i并且属于c_k类的文档数量；B表示包含术语t_i但不属于c_k类的文档数量；C表示不包含术语t_i但属于C_k类的文档数量；D表示不包含术语t_i并且不属于c_k类的文档数量；

步骤(6)，计算得到该术语t_i在每个类中的权重，通过下式取权重最大值为术语t_i在语料库数据集中的权重：

2.根据权利要求1所述的基于术语频率和卡方统计的文本分类特征选择方法，其特征在于：所述步骤(1)对语料库数据集进行预处理时包括去停用词、中文分词步骤。

3.根据权利要求2所述的基于术语频率和卡方统计的文本分类特征选择方法，其特征在于：所述去停用词步骤采用由百度停用词列表、哈工大停用词表和四川大学机器智能实验室停用词库3个词库结合得到的停用表进行去停用词操作。

4.根据权利要求2所述的基于术语频率和卡方统计的文本分类特征选择方法，其特征在于：所述中文分词步骤采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS进行中文分词操作。

5.根据权利要求1～3中任意一项所述的基于术语频率和卡方统计的文本分类特征选择方法，其特征在于，所述最大术语频率和平均术语频率通过下式计算：

<mrow> <msub> <mover> <mrow> <mi>t</mi> <mi>f</mi> </mrow> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mi>k</mi> </msub> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>k</mi> </msub> </munderover> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> </mrow>