CN105893380A

CN105893380A - 一种改良的文本分类特征选择方法

Info

Publication number: CN105893380A
Application number: CN201410795989.XA
Authority: CN
Inventors: 朱永强; 黄筱聪
Original assignee: CHENGDU WANGAN TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: CHENGDU WANGAN TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2014-12-11
Filing date: 2014-12-11
Publication date: 2016-08-24
Anticipated expiration: 2034-12-11
Also published as: CN105893380B

Abstract

本发明公开了一种改良的文本分类特征选择方法，其中，所述一种改良的文本分类特征选择方法包括：获取训练集文本；对获取的训练集文本分词、去除停用词；改良特征选择方法，使用特征词的文本频率对全体词集进行划分，使用信息增益值对低频词集进行特征选择，再通过改进的χ²统计法对高频词集进行特征选择；合并两部分特征词形成最终分类特征词集。采用本发明，可以通过两次特征选择过程，选择出更具类别代表性的特征词，提高分类效率和准确度。

Description

一种改良的文本分类特征选择方法

技术领域

本发明属于文本挖掘技术领域，特别涉及一种改良的文本分类特征选择方法。

背景技术

随着信息技术的发展，当今世界的信息量也在以惊人的速度不断增加。如何在较短的时间内迅速、有效地处理数量庞大的文本文档，已经成为当前研究的热点。传统的信息检索技术已经不能够满足人们日益增加的需求，此时，文本分类技术应运而生，文本分类技术能够很大程度上解决文本文档信息量大并且杂乱的问题，帮助人们检索、查询、过滤文档信息，提高信息的可用效率，同时，文本分类也是文本挖掘的重要手段。

文本分类即在给定分类体系的前提下，根据分类体系中相应的分类规则，将待分类文本分配到预定义的某个类别中。文本分类的过程实际上是对输入文本内容模式特征的识别与归类的过程。文本分类的整个过程可以分为文本预处理、特征选择、特征值计算、构造分类器、待分类文本的处理及归类这五个主要部分，其具体流程图见图1。

经过文本预处理之后，用于表示文本的特征向量的维数往往非常庞大，里面可能含有很多对文本分类无贡献的噪音词，导致分类效率降低，影响分类效果。特征选择能够通过一定的方法保留对文本分类有一定贡献的词汇，降低文本向量空间的维数，提高分类器的分类效率和分类精度。在中文文本分类中，常用的特征选择方法主要有以下几种：

(1)文档频率法(Document Frequency，DF)，是指在训练预料中出现该特征的文档数，其基本思想为文档频率较高的词在文本集中出现的次数较多，有可能携带较多的类别信息。但是采用DF的方法进行特征的选择会漏掉低频高信息量的词。

(2)信息增益法(Information Gain，IG)，定义为某一特征在文档中出现前后的信息熵之差，基本思想为通过计算某个词能为整个分类提供多少信息量来衡量它对于分类的重要程度，其中信息量的多少用熵来衡量。IG算法能够解决DF算法中出现的漏掉低频高信息量的词的问题，但是此算法可能导致特征词集稀疏。

(3)χ²统计法(Chi-square，CHI)，基本思想为某个词关于类j的χ²统计值越大，说明该词在类j中的分布情况与该词在总文档中的分布情况越不一致，该词携带的类别信息也就越多。CHI算法考虑了特征词对某一个分类的影响。但是如果出现特征词均匀的影响全部分类时，则无法取得很好的分类效果。

(4)互信息法(Mutual Information，MI)，其基本思想与CHI算法类似，互信息值的大小表征的是文档与类的相关程度。此法在试验环境下性能表现不稳定。

由上可见，有必要设计一种更有效的特征选择方法，以克服各特征选择算法的不足，选出更具类别代表性的特征词，进而提高文本分类的准确率和召回率。

发明内容

为解决现有文本分类特征选择方法准确度差，特征性不强等不足，本发明提出了一种基于改良特征选择的文本分类方法。所述方案包括以下步骤：

步骤1：获取不同类别的一定数量文本，将其赋予类别标签，作为文本分类的训练样本集；

步骤2：对训练集的文本进行预处理，包括中文分词，去停用词处理；

步骤3：使用改良的特征选择方法对文本进行特征选择。其特征在于，所述方法包括：

结合特征词的文档频率(DF)对全体词集进行划分，具体为：将预处理后各词按照文档频率进行排序，将词集T划分成两个集合：一个是文档频率小于某阈值的词集T_A，一个是文档频率大于或等于某阈值的词集T_B。

使用信息增益法(IG)对低文档频率词集T_A进行特征词选择，具体为：设定一个信息增益值阈值M，计算词集T_A中各词的信息增益值，将信息增益值小于M的词删掉，信息增益值大于等于M的词作为特征词保留。

使用改进的χ²统计法对高文档频率词集T_B进行特征词选择，具体为：计算T_B中每个词对于各类别CHI统计值的方差其中n为类别个数。计算得出的方差可以表征该词在全部类中分布的不平衡性，方差值越大，分布不平衡性越强，则该词的分类表征能力越强，携带的分类信息越大。

按照计算得出的各个词的CHI统计值方差从高到低的顺序对词进行排序，得到词方差降序队列。

整合两部分特征词，形成文本分类特征词集，具体为：指定特征词总个数，优先选取低文档频率词集T_A中的特征词，根据选取T_A后仍需要选取的特征词个数，对应在T_B的词方差降序队列中选取相应个数的词，与T_A中的特征词共同构成分类特征词集合。

本发明所提供的技术方案的有益效果是：

通过DF对全词集进行划分，在低文档频率词集中，利用IG选择出出现频率虽低，但是带有大量信息量的词，从而同时克服单纯使用IG导致特征词集稀疏以及DF容易丢失低频关键词的缺点；选择对每个词的各类的CHI统计值求方差的方式，来反映词对于不同类之间分布情况的“波动程度”，即反映词与类关联度的特异性，并在高文档频率词集中按此方差值进行筛选，以进一步在高文档频率词集中选出更具代表性的特征词，最后合并两部分特征词，得到更具表征性的特征词集，在避免维度灾难的同时，也可以有效的提升分类的准确性。

附图说明

图1是中文文本分类的一般流程。

图2是本发明改良后的特征选择过程的示意图。

具体实施方式

为使本发明之目的、技术方案和优点阐述更加清晰，下面将结合附图与实际用例，对本发明做进一步的详细描述。

利用网络爬虫或人工收集从互联网上获取一定数量的多个领域中有代表性的文章，对这些文章进行分析整理，按照类别归入语料训练集，作为文本分类系统的训练样本集。

为了从文本中抽取出能够代表该文本特征的词语，对其进行分词、去除停用词等处理。

假设训练集E中含有n个类别：C_1，C_2，C_3，...C_n，每个类别里含有若干个文本，训练集可表示为：

{E|{C₁|d₁₁，d₁₂，d₁₃，…}，{C₂|d₂₁，d₂₂，d₂₃，…}，…，{C_n|d_n1，d_n2，d_n3，…}}

那么进行了文本预处理之后，训练集变成了：

{E|{C₁|t₁₁，t₁₂，t₁₃，…}，{C₂|t₂₁，t₂₂，t₂₃，…}，…，{C_n|t_n1，t_n2，t_n3，…}}

其中的t_ij(i＝1，2，…，n；j＝1，2，…)表示文本d_ij(i＝1， 2，…，n；j＝1，2，…)经过分词和去停用词之后留下的词的集合。

图2为本发明所述的改良后特征选择过程的示意图，本发明所述的一种改良的特征选择方法具体如下：

步骤1：根据词的文档频率对词集进行划分。

令词集T＝∪t_ij(i＝1，2，...n，j＝1，2，...)，则T中某个词t的文档频率计算公式如下：

DF (t) = Σ_{i = 1}^{n} \underset{j = 1}{Σ} p (t, d_{ij}); (d_{ij} &Element; E)

其中E为训练集中的所有文本，d_ij为训练集中第i类第j个文本，p(t，d_ij)为词t和第i类中第j个文本共同出现的概率。

设定文档频率阈值为K，则可将词集T划分成两个集合：一个是文档频率小于K的词集T_A，一个是文档频率大于或等于K的词集T_B。

步骤2：依据信息增益值，对低文档频率词集T_A进行特征词选择。

词集T_A中某个词t的信息增益值的计算公式如下：

IG (t) = - Σ_{i = 1}^{n} p (C_{i}) \log_{2} p (C_{i}) + p (t) Σ_{i = 1}^{n} p (C_{i} | t) \log_{2} p (C_{i} | t) + p (\overset{&OverBar;}{t}) Σ_{i = 1}^{n} p (C_{i} | \overset{&OverBar;}{t}) \log_{2} p (C_{i} | \overset{&OverBar;}{t})

其中p(C_i)表示文本属于类别C_i(j＝1，2，...，n)的概率，p(t)表示包含词t的文本出现的概率，表示不包含词t的文本出现的概率，p(C_i|t)表示文本中包含词t时属于类别C_i的概率，表示文本中不包含词t时属于类别C_i的概率，n表示文本类别总数。

计算词集T_A中各词的信息增益值，将信息增益值小于预设阈值M的词过滤掉，信息增益值大于等于预设阈值M的词予以保留。

步骤3：基于改进的χ²统计法对词集T_B进行进一步的选择。

具体包括如下三个步骤：

步骤(1)，假设：词t^*(t^*∈T_B)与不同类别的文本之间符合一阶自由度的χ²分布，计算该词的CHI统计值，计算方法为：

χ_{C_{i}}^{2} = \frac{N \times {[p (t^{*}, C_{i}) \times p (\overset{&OverBar;}{t^{*}}, \overset{&OverBar;}{C_{i}}) - p (t^{*}, \overset{&OverBar;}{C_{i}}) \times p (\overset{&OverBar;}{t^{*}}, C_{i})]}^{2}}{p (t^{*}) \times (\overset{&OverBar;}{t^{*}}) \times p (C_{i}) \times p (\overset{&OverBar;}{C_{i}})}; (i = 1,2, . . ., n)

其中N为训练集中E的文本数量。

步骤(2)，计算该词各类别CHI统计值的方差将计算得出的方差作为该词在类中的分布情况与该词在其他类中的分布情况不一致的剧烈程度的一种衡量，其中方差越大，说明该词在各类的分布情况差异性越强，越有可能携带大量的分类信息。

步骤(3)，按照计算得出的各个词的CHI统计值方差从高到低的顺序对词进行排序，得到词方差降序队列。

步骤4：整合两部分特征词，形成文本分类特征词集。

指定特征词总个数，优先选取低文档频率词集T_A中的特征词，根据选取T_A后仍需要选取的特征词个数，对应在高文档频率词集T_B的词方差降序队列中选取相应个数的特征词，与T_A中选取的特征词共同构成分类特征词集合。

以下以上述过程确定参数为标准，对应用实例进行说明。

实施例1

步骤1：利用网络爬虫或人工收集从互联网上获取一定数量的多个领域中有代表性的文章，对这些文章进行分析整理，按照类别归入语料训练集，作为文本分类系统的训练样本集。

将获取的文本进行分词，并去除停用词。

假设训练集E中含有3个类别：C₁，C₂，C₃，训练集可表示为：

{E|{C₁|d₁₁，d₁₂，d₁₃，…}，{C₂|d₂₁，d₂₂，d₂₃，…}，{C₃|d₃₁，d₃₂，d₃₃，…}}

那么进行了文本预处理之后，训练集变成了：

{E|{C₁|t₁₁，t₁₂，t₁₃，…}，{C₂|t₂₁，t₂₂，t₂₃，…}，{C₃|t₃₁，t₃₂，t₃₃，…}}

其中的t_ij表示文本d_ij(i＝1，2，3；j＝1，2，...)经过分词和去停用词之后留下的词的集合。

步骤2：假设预处理后每个类别中只有三个词，类C₁中有词w₁₁，w₁₂，w₁₃，类C₂中有词w₂₁，w₂₂，w₂₃，类C₃中有词w₃₁，w₃₂，w₃₃。下表以阈值为参考值显示各词DF和IG的大小，其中各词的DF值与阈值K的大小关系如表一所示，各词的IG值与阈值M的大小关系如表二所示：

表1

w₁₁

w₁₂

w₁₃

w₂₁

w₂₂

w₂₃

w₃₁

w₃₂

w₃₃

DF

＞K

＜K

＝K

＞K

＜K

表2

w₁₁

w₁₂

w₁₃

w₂₁

w₂₂

w₂₃

w₃₁

w₃₂

w₃₃

IG

＜M

＝M

＜M

＞M

＜M

＝M

＜M

将预处理后的各词按照文档频率进行排序，将词集划分成两个集合：一个是文档频率小于某阈值K的词集T_A(w₁₃，w₂₁，w₂₂，w₃₃)，一个是文档频率大于或等于K的词集T_B(w₁₁，w₁₂，w₂₃，w₃₁，w₃₂)；

步骤3，计算词集T_A中各词的信息增益值，将信息增益值小于阈值M的词删除，信息增益值大于等于M的词保留，得到词集T′_A(w₂₁，w₂₂)；

步骤4：基于改进的χ²统计法对词集T_B进行进一步的特征词选择：

步骤(1)，计算词集T_B(w₁₁，w₁₂，w₂₃，w₃₁，w₃₂)中每个词的CHI统计值，以词w₁₂为例，计算后它的各类的CHI值分别为：

χ_{C_{1}, w_{12}}^{2} = \frac{N \times {[p (w_{12}, C_{1}) \times p (\overset{&OverBar;}{w_{12}}, \overset{&OverBar;}{C_{1}}) - p (w_{12}, \overset{&OverBar;}{C_{1}}) \times p (\overset{&OverBar;}{w_{12}}, C_{1})]}^{2}}{p (w_{12}) \times p (\overset{&OverBar;}{w_{12}}) \times p (C_{1}) \times p (\overset{&OverBar;}{C_{1}})}

χ_{C_{2}, w_{12}}^{2} = \frac{N \times {[p (w_{12}, C_{2}) \times p (\overset{&OverBar;}{w_{12}}, \overset{&OverBar;}{C_{2}}) - p (w_{12}, \overset{&OverBar;}{C_{2}}) \times p (\overset{&OverBar;}{w_{12}}, C_{2})]}^{2}}{p (w_{12}) \times p (\overset{&OverBar;}{w_{12}}) \times p (C_{2}) \times p (\overset{&OverBar;}{C_{2}})}

χ_{C_{3}, w_{12}}^{2} = \frac{N \times {[p (w_{12}, C_{3}) \times p (\overset{&OverBar;}{w_{12}}, \overset{&OverBar;}{C_{3}}) - p (w_{12}, \overset{&OverBar;}{C_{3}}) \times p (\overset{&OverBar;}{w_{12}}, C_{3})]}^{2}}{p (w_{12}) \times p (\overset{&OverBar;}{w_{12}}) \times p (C_{3}) \times p (\overset{&OverBar;}{C_{3}})}

其中N为训练集中E的文本数量。

步骤(2)，计算每个词各类别CHI统计值的方差。仍以词w₁₂为例，其CHI统计值的方差

σ_{w_{12}} = Σ_{i = 1}^{3} {(χ_{C_{i}, w_{12}}^{2} - \overset{&OverBar;}{χ^{2}})}^{2},

其中

\overset{&OverBar;}{χ^{2}} = \frac{χ_{C_{1}, w_{12}}^{2} + χ_{C_{2}, w_{12}}^{2} + χ_{C_{3}, w_{12}}^{2}}{3} .

将计算得出的方差作为该词在类中的分布情况与该词在其他类中的分布情况不一致的剧烈程度的一种衡量，得到五个词的CHI统计值方差分别为

设方差从高到低排列顺序为

σ_{w_{11}} > σ_{w_{12}} > σ_{w_{23}} > σ_{w_{31}} > σ_{w_{32}},

则基于改进的χ²统计法进一步选择后，词集T_B排列顺序为(w₁₁，w₁₂，w₂₃，w₃₁，w₃₂)。

步骤5：整合步骤3和步骤4得到的两部分特征词T′_A和T_B，形成文本分类特征词集。

设指定的特征词总个数为4，优先选取低频词集T′_A中的特征词w₂₁，w₂₂，由于词集T′_A中特征词个数为2，少于总个数4，所以对应在词集T_B中还需选取2个特征词，由于方差从高到低排列顺序为所以只需选取特征词w₁₁，w₁₂，最终选取的分类特征词集合为T”(w₁₁，w₁₂，w₂₁，w₂₂)。

本发明实施例所提供的技术方案，能够选择出更具类别代表性的特征词，在平衡召回率和准确率的同时，提高文本分类的速度与精度。

通过以上实施方式的描述，本领域的技术人员可以清楚本发明的实现方式，本发明可以通过软件编程实现，相应的软件程序可存储于可读取的存储介质中，如光盘、硬盘、移动存储介质等。

以上为本发明的具体实施例，但并不用以限制本发明，对于本技术领域的普通技术人员来说，凡在不脱离本发明原理的前提下，所做的任何修改、等同替换、改进等，均应包含在本发明的保护发明范围之内。

Claims

1.一种改良的分类文本特征选择方法，其特征在于，具体包括以下步骤：

步骤3：使用改良的特征选择方法对文本进行特征选择。

2.如权利要求1所述的一种基于改良特征选择的文本分类方法，其特征在于，步骤3所述的使用改良的特征选择方法对文本进行特征选择的方法，具体包括以下步骤：：

步骤1：结合特征词的文本频率(Document Frequency，DF)对全体词集进行划分；

步骤2：使用信息增益值(Information Gain，IG)对低频特征词集进行特征选择；

步骤3：使用基于改进的χ²统计法对高频特征词集进行特征选择。

步骤4：整合两部分特征词，形成文本分类特征词集。

3.如权利要求2所述的一种改良的特征选择方法，其特征在于，结合特征词的文本频率对全体词集进行划分，具体为：

将预处理后各词按照文档频率进行排序，将词集T划分成两个集合：一个是文档频率小于某阈值的词集T_A，一个是文档频率大于或等于某阈值的词集T_B。

4.如权利要求2所述的一种改良的特征选择方法，其特征在于，使用信息增益值对低频特征词集进行特征选择，具体为；

设定一个信息增益值阈值M，计算词集T_A中各词的信息增益值，将信息增益值小于M的词删掉，信息增益值大于等于M的词作为特征词保留。

5.如权利要求2所述的一种改良的特征选择方法，其特征在于，使用基于改进的χ²统计法对高频特征词集进行特征选择，具体为：

计算T_B中每个词对于各类别CHI统计值的方差其中n为分类个数。计算得出的方差可以表征该词在全部类中分布的不平衡性，方差值越大，分布不平衡性越强，则该词的表征能力越强，携带的分类信息越大。

将计算得出的各个词的分布方差值从高到低的顺序对特征词进行排序，得到词分布方差值降序队列。

6.如权利要求2所述的一种改良的特征选择方法，其特征在于，整合两部分特征词，形成文本分类特征词集，具体为：

指定特征词总个数，优先选取低频词集T_A中的特征词，根据选取T_A后仍需要选取的特征词个数，对应在T_B的词分布方差值降序队列中选取相应个数的特征词，与T_A中选取的特征词共同构成分类特征词集合。