CN100533441C

CN100533441C - 基于概率主题词的两级组合文本分类方法

Info

Publication number: CN100533441C
Application number: CNB2006100117472A
Authority: CN
Inventors: 宗成山; 李寿山
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2006-04-19
Filing date: 2006-04-19
Publication date: 2009-08-26
Anticipated expiration: 2026-04-19
Also published as: CN101059796A

Abstract

本发明涉及自然语言处理及模式识别领域，公开基于概率主题词的两级组合文本分类方法，一级分类：基于朴素贝叶斯分类方法，利用概率主题词特征和拒绝条件判断对测试文本分类；二级分类：再基于信息增益特征提取方法提取出特征词对被第一级拒绝分类的测试文本进行分类。本发明分级组合方法对文本进行分类，融和不同分类器的特点能够非常快的在一级分类中对很多文本进行正确分类，大大提高文本分类系统效率，为文本分类系统实用化提供很好的处理方式；考虑文本特点提出概率主题词，在适当的拒绝条件下，概率主题词以很高的正确率完成大量文本分类任务。实验证明本发明两级组合与传统单一分类相比，能够大大减少时间消耗并能提高系统分类正确率。

Description

基于概率主题词的两级组合文本分类方法

技术领域

本发明涉及模式识别和自然语言处理技术领域，是一种基于概率主题词的串行组合文本分类方法。

背景技术

文本分类(Text Categorization)是多种自然语言处理技术的综合应用之一，实现对文本的计算机自动分类能够更好的帮助我们去组织和利用目前的浩瀚文本信息。同时，文本分类方法涉及到模式识别中的很多基本问题，例如分类器设计问题，高维特征问题等等。因此，文本分类技术的研究具有重要的实用价值和理论意义。

衡量文本分类方法的好坏一般要考虑到两个因素。一个是分类结果的正确率，往往也是最主要的因素。另一个是利用这种方法实现的系统的效率，即系统完成分类任务所需要的时间消耗，这方面的要求主要是网上实时系统的需要。以往的研究中，多种分类方法已经应用到文本分类任务中，例如K近邻方法，支持向量机方法，贝页斯方法等等。值得注意的是，文本分类问题中的特征数非常庞大，在应用这些分类方法之前，一般都要有特征提取的过程。由于文本分类中的高维特征空间及各个分类器本身的缺陷，单一的分类器很难能够在正确率和效率两方面都有明显的优势，进而这些分类方法很难在实际应用中发挥作用。

发明内容

为了解决现有技术单一的分类器很难在正确率和效率两方面都有明显的优势的缺陷，本发明的目的在于弥补单一分类器的不足，提出组合的分类方法，实现一种基于概率主题词的两级组合文本分类方法。

本发明提供基于概率主题词的两级组合文本分类方法，基本思想是基于分级的组合分类方法的。在这种组合的方法里，我们把两个分类器应用到分类的不同阶段，本发明的分类步骤如下：

第一阶段文本分类步骤：首先提取概率主题词，基于朴素贝叶斯分类方法，利用概率主题词(PTW)特征对测试文本分类，通过两个拒绝条件判断测试文本的分类器是否属于朴素贝叶斯分类；

第二阶段文本分类步骤：对于被第一级文本分类方法拒绝分类的文本，基于信息增益特征词的提取方法提取出特征词，再利用提取出的特征词以及朴素贝叶斯、支持向量机或者K近邻分类方法对被拒绝的测试文本进行第二次文本分类。。

所述第一阶段文本分类的判断拒绝条件步骤：判断一篇文本是否可以用第一个分类方法分类，采用两个拒绝条件：利用计算文本属于各个类别的后验概率值的大小；利用计算提取出来的概率主题词的数目大小。

本发明的有益效果：本发明从研究文本中的主题词作用和规律入手，在语料库学习方法中，本发明定义统计意义的主题词，通过统计方法在语料库中提取统计主题词；利用这些统计主题词对文本进行分类。利用拒绝条件，对那些拒绝的文本进行第二次分类。第二级分类将利用更多的特征及不同的分类器。本发明采用“两级组合”的思想来进行文本的分类，与单一分类方法不同，在本发明方法中，充分考虑到了主题词在文本分类过程中的重要作用。并且用一种合理的方式将两个阶段的分类方法结合起来，从而又充分利用了两个分类方法各自的优点，使得应用本发明方法的分类系统能够获得更好的分类效果。另外，第一个阶段的分类方法所用的概率主题词数目非常有限，但能够分类的文本数目却很多，因此，本发明的组合分类方法实现的系统在正确率及效率方面整个系统的效率相对单一分类方法的系统有了很大的提高。

本发明的方法在两个不一样的测试语料中在效率和正确率两方面，与现有的单一分类方法相比较都具有较大的优势。

附图说明

通过以下结合附图的详细描述，本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中：

图1是本发明的基于概率主题词的两级组合文本分类系统框架图

图2是本发明第一级分类器在两个语料库训练文本中的正确率和召回率的示意图

图3是采用本发明宏平均F1值评测标准的实验结果

具体实施方式

下面结合附图对本发明作具体说明。应该指出，所描述的施例仅仅视为说明的目的，而不是对本发明的限制。

根据本发明，提出的基于概率主题词的两级组合文本分类方法，在人工进行分类的时候，人们如果判断一个文本属于哪一类，往往只是观察文本中某些关键的词就可以得到正确的判断。这些关键的词一般被叫做主题词，很多分类词典中就是包括了这些主题词。然而，给出一个严格的关于主题词的形式定义是不可能的。在语料库学习方法中，可以定义一种统计意义上的主题词，命名为“概率主题词”(Probabilistic TopicWord，PTW)。然后通过统计的方法在语料库中提取这种词。然后先利用这些“统计主题词”对文本进行分类。利用适当的拒绝条件，对那些拒绝的文本即不能用这种方法的进行分类的文本进行第二次分类。第二级分类将利用更多的特征及不同的分类器。也就是说，本发明实现了一种两级的组合方式分类方法。

下面参考附图来描述根据本发明的优选实施例。

图1是本发明的基于概率主题词的两级组合文本分类方法框架图，它的系统主要由四部分构成：

第一级的概率主题词特征提取；第一级的贝叶斯分类器；第二级的信息增益特征词提取；第二级的分类器。第二级的分类器可以选择贝叶斯分类器、K近邻分类器、支持向量机分类器等中的任一分类器。

具体步骤为：

提取概率主题词步骤1：从测试文本训练语料中抽取概率主题词(PTW)；

分类步骤2：利用概率主题词和朴素贝叶斯分类方法进行第一级分类提取特征词。

拒绝条件步骤3：如果第一级分类结果被拒绝条件拒绝，则进行下面的步骤4，否则，接受分类结果。接受文本应该具有下面两个特征，首先它属于具有最大后验概率的类别的概率值大于某个阈值；其次该文本中提取出来的概率主题词要达到一定数目。

信息增益特征词提取步骤4：利用信息增益特征提取方法提取训练语料库中的信息增益特征词(IG)。这些信息增益特征词的数目一般要远远多于上面提取出来的概率主题词。

获取分类步骤5：基于拒绝条件步骤3，对那些被拒绝分类的文本利用信息增益特征词进行第二级分类，得到第二级分类结果。

本发明基于概率主题词的两级组合文本分类方法，可以分为第一级分类过程和第二级分类过程两部分，具体步骤如下：

第一级分类步骤包括：

a)提取概率主题词；

b)以概率主题词为特征，利用朴素贝叶斯分类器对文本进行分类；

c)确定两个拒绝条件；

d)通过拒绝条件判断此文本是否可以用第一阶段里面的分类器进行分类；

第二级分类步骤包括：

aa)提取信息增益特征词；

bb)利用一种分类方法对被拒绝的文本进行分类；

所述第一级分类过程中步骤a)中利用词属于每个类别中的后验概率提取主题词；

所述第一级分类过程中步骤b)中通过这些概率主题词特征计算文本的后验概率，概率值最大的类别为分类的可能结果；

所述第一级分类过程中步骤c)中两个拒绝规则是通过分析文本属于每个类别的后验概率及概率主题词的数目决定的；

所述第一级分类过程中步骤d)中如果判断结果为可以分类，整个分类过程结束；如果判断结果为拒绝分类则进行第二级分类过程；

所述第二级分类过程中步骤aa)利用传统的特征提取方法，例如信息增益或者文本频率，提取特征词；

所述第二级分类过程中步骤bb)这个阶段的分类器可以是基于朴素贝叶斯、支持向量机或者K近邻方法的分类器。实际应用中，我们可以选择其中的任一个分类器；

根据本发明，基于概率主题词的的两级组合文本分类方法，系统的实现可以按照上述的装置依次顺序连接。

下面详细说明本发明方法所涉及的各个细节问题。

1.概率主题词的定义和提取

本发明仅仅利用少部分的概率主题词就可以对文本进行正确的分类。首先，我们给出概率主题词的定义。

定义：如果一个词t的类别后验概率满足条件p(c_i|t)>θ，θ∈(0.5，1)时，我们称这个词为置信度为θ的概率主题词。

给出了定义后，通过这个定义提取概率主题词，即通过统计训练语料得到每个词的类别后验概率值。在实现的系统中，θ取值为0.6。词t的类别后验概率可由下面两个公式计算得到：

P (c_{i} | t) = \frac{P (t | c_{i}) P (c_{i})}{P (t)}

P (t | c_{i}) = \frac{1 + Σ_{k = 1}^{d_{i}} tf (t_{k})}{| V | + Σ_{j = 1}^{| V |} Σ_{k = 1}^{d_{i}} tf (t_{jk})}

其中，tf(t_jk)为词t在属于类c_i的文本D_k中的频率，d_i是训练语料中类别c_i中的所有文本数目。|V|是训练语料词典V中的词数目。

2.第一级文本分类方法—朴素贝叶斯分类方法

本发明的基本思想是利用特征项和分类的联合概率来估计给定文本的分类概率。纯粹贝叶斯假设文本是基于词的unigram模型，即文本中词的出现依赖于文本类别，但不依赖于其他词及文本的长度，也就是说，词与词之间是独立的。

本发明采用文本采用TF向量表示法，即文本向量的分量为相应的单词在该文本中出现的频度，则文本Doc属于c_i类的概率为：

P (c_{i} | Doc) = \frac{P (c_{i}) ΠP {(t_{j} | c_{j})}^{TF (tj \cdot Doc)}}{Σ_{m} P (c_{m}) Π_{ti &Element; V} P {(t_{i} | C_{m})}^{TF (ti \cdot Doc)}}

P (t_{j} | c_{i}) = \frac{1 + TF (t_{j}, c_{i})}{| V | + Σ_{i} TF (t_{i}, c_{i})}

其中P(c_i)为一个文本属于c_i类的概率，P(t_j|c_i)是对在c_i类文本中特征t_j出现的条件概率的拉普拉斯概率估计，TF(t_j，c_i)是c_i类文本中特征t_j出现的频度，|V|为单词词典集的大小，等于文本表示中所包含的不同特征的总数目，TF(t_j，Doc)是在文本Doc中特征t_j出现的频度。

3.两个拒绝条件

本发明判断一个文本是否能够用第一级的分类方法进行分类需要相应的拒绝条件，本发明给出两个不同的拒绝条件：

第一个是判断由上面贝叶斯分类方法计算出来的文本的后验概率是否大于某个阈值。

第二个是判断从被分类文本中提取出来的概率主题词的数目是否满足一定的条件。

所述第一个拒绝条件：如果文本属于具有最大后验概率的类别的概率值小于某个阈值，则拒绝分类。阈值的大小由调节参数u_Threshold决定，此参数可以通过训练语料得到比较合适的值。

p (w_{\max} | x) < u_{Threshold} \cdot {p (w_{\max} | x)} + Σ_{i = 1, i &NotEqual; \max}^{m} p (w_{i} | x)

所述第二个拒绝条件：如果文本中提取出来的概率主题词的数目满足下面的不等式时，则拒绝分类。不等式中的参数μ_i和σ_i可由训练语料得到：

|n_T-n_D·μ_i|>n_D·2σ_i

下面详细说明一下这两个拒绝条件：

拒绝条件在多级组合分类方法中起着关键的作用：

第一个拒绝条件是一个很明显的条件，可以应用到所有基于概率的分类方法上面。通过调节参数u_Threshold的值，可以使得系统的拒绝率达到任何想要的值。

第二个拒绝条件是我们针对概率主题词这一特殊特征设计的特殊拒绝条件。本发明假设待测试文本(该文本属于c_i类)所包含的所有词n_D与实际包括的概率主题词n_T满足某种线性关系，即n_T＝k_i×n_D。通过观测语料不难发现，k_i值满足正态分布。于是n_T也是一个满足正态分布的变量。通过训练语料，我们不难获得k_i分布的两个参数均值μ_i和方差值σ_i。于是，第二个拒绝条件的含义就比较明显了，它要求提取出的待测文本中概率主题词的数目不能偏离实际包括的概率主题词数目太多。

利用上面两个条件，第一级分类方法在训练语料库中所取得的测试结果，如图2所示。

4.第二级特征提取

如果待测文本被第一级的分类方法拒绝后，本发明需要提取另外的词作为第二级里面分类方法的特征。通过比较研究，信息增益提取方法能够在中文文本分类中取得比较不错的效果，所以在第二阶段的特征词提取中应用特征增益提取方法。

依据某特征项t_i为整个分类所能提供的信息量，即不考虑任何特征的熵和考虑该特征后的熵的差值，来衡量该特征项的重要度。

Gain (t_{i}) = Entropy (S) - ExpectedEntropy (S_{t_{i}})

= {{- Σ}_{j = 1}^{M} P (c_{j}) \times \log P (c_{j})} - {P (t_{i}) \times [{- Σ}_{j = 1}^{M} P (c_{j} | t_{i}) \times \log P (c_{j} | t_{i})]}

+ P (\overset{&OverBar;}{t_{i}}) \times [- Σ_{j = 1}^{M} P (c_{j} | \overset{&OverBar;}{t}) \times \log P (c_{j} | \overset{&OverBar;}{t_{i}}))}

其中P(c_j)表示c_j类文本在语料中出现的概率，P(t_i)表示语料中包含词条t_i的文本的概率，P(c_j|t_i)表示文本包含词条t_i时属于c_j类的条件概率，

表示语料中不包含词条t_i的文本的概率，

表示文本不包含词条t_i时属于c_j的条件概率，M表示类别数。

5.第二级文本分类方法

第二级的分类方法可以选择任意一种以前应用到文本分类上面的分类方法。在实现的系统中，分别应用朴素贝叶斯(NB)、K近邻(KNN)及支持向量机(SVM)分类方法，作为本发明第二级里面的分类方法的实施例：

a.朴素贝叶斯分类方法已经在上面介绍。

b.K近邻(KNN)是著名的模式识别统计学方法，是比较好文本分类算法之一，其算法大概思想是：给定一个测试文本，系统在训练集中查找离它最近的K个邻居，并根据这些邻居的分类来给测试文本的候选分类评分。把邻居文本和测试文本的相似度作为邻居文本所在分类的权重，如果这K个邻居中的部分文本属于同一个分类，则K近邻(KNN)分类中的每个邻居的权重求和作为该候选类别和测试文本的相似度。通过对所有候选分类评分的排序，然后给出一个阈值，就可以判定测试文本的分类。

c.支持向量机(SVM)是在统计理论基础上发展起来的一种新的通用学习方法，它在结构风险最小化原理的近似实现，因为它同时是最小化经验风险和VC维的界。在文本分类任务中，这种分类方法得到了很大的应用，相关的研究工作非常多。

6.实验结果

为了将本文的两级组合分类方法和传统的单一分类方法相比较，我们使用一定的训练和测试语料分别对这两种分类方法进行训练和测试。为了验证这种组合方法的有效性，使用了两个不同的语料库。第一个语料库为人民日报新闻语料，总文本数目在3千篇左右。在这个语料库中，所有文本一共被分为经济、政治、电脑、体育、教育和法律六大类。另一个是从Internet收集的网页内容语料，这个语料库的规模较大，总文本数目在3万篇左右。在这个语料库中，所有文本一共被分为体育、科学、新闻、健康、金融和娱乐六大类。

图2所示，本发明实施例第一级分类器在两个语料库训练文本中的正确率和召回率示意图中：

Y轴代表：训练语料的正确率和回召率；

X轴代表：调节参数的值(u_Threshold)；

PdCorp代表：人民日报新闻语料；

IntCorp代表：Internet收集的网页内容语料；

-*-代表：PdCorp的正确率；

×代表：PdCorp的召回率；

-+-代表：IntCorp的正确率；

○代表：IntCorp的召回率。

图2中表示第一级分类器在两个语料库训练文本中的正确率和召回率。在这个分类过程中，采用的特征为概率主题词。概率主题词在人民日报新闻语料和Internet收集的网页内容语料的数目分别为789和6,753。语料提取出来概率主题词的数目相对于两个语料库中的词汇量还是要小很多。在应用两个拒绝条件后，仅仅利用一小部分的概率主题词就能获得这么高的正确率和召回率，足以说明我们的方法在效率方面有很大的优势。

如图3所示，采用本发明方法系统宏平均F₁值评测标准的实验结果，我们采用宏平均值MroF1标准对我们的方法性能进行评估以及同单一分类方法的比较。

KNN代表：仅利用K近邻分类方法实现的单一分类器，所用的特征就是用传统的信息增益特征提取方法提取的词特征；

NB(PTW)+KNN代表：两级分类器，第一级用的是朴素贝页斯分类器，第二级用的是K近邻分类器。其中第一级分类所用的特征就是我们定义的概率主题词(PTW)，第二级所用的特征是传统的信息增益特征提取方法提取的词特征；

NB代表：仅利用朴素贝页斯分类方法实现的单一分类器，所用的特征就是用传统的信息增益特征提取方法提取的词特征；

NB(PTW)+NB代表：两级分类器，第一级用的是朴素贝页斯分类器，第二级用的也是朴素贝页斯分类器。其中第一级分类所用的特征就是我们定义的概率主题词(PTW)，第二级所用的特征是传统的信息增益特征提取方法提取的词特征；

SVM代表：仅利用支持向量机分类方法实现的单一分类器，所用的特征就是用传统的信息增益特征提取方法提取的词特征；

NB(PTW)+SVM代表：两级分类器，第一级用的是朴素贝页斯分类器，第二级用的是支持向量机分类器。其中第一级分类所用的特征就是我们定义的概率主题词(PTW)，第二级所用的特征是传统的信息增益特征提取方法提取的词特征；

从图3所示的对比数据，可以看出，在两个不同的语料库中的实验数据表明：本发明的两级组合分类方法的正确率都高于相应的单一分类方法。此外，由于第一级里面所用的概率主题词(PTW)特征占所有语料库词表的一小部分，加上朴素贝叶斯方法相对于其他分类方法效率要高很多，所以系统的整体效率也有很大的提高。

上面描述是用于实现本发明及其实施例，各个步骤均为示例，本领域普通技术人员可以根据实际情况确定要使用的实际步骤，而且各个步骤有多种实现方法，均应属于本发明的范围之内。因此，本发明的范围不应由该描述来限定。本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换，均属于本发明权利要求来限定的范围。

Claims

1、一种基于概率主题词的两级组合文本分类方法，其特征在于，所述方法包括：

第一级文本分类：首先提取概率主题词，基于朴素贝叶斯分类方法，利用概率主题词特征对测试文本分类，通过两个拒绝条件判断测试文本的分类器是否属于朴素贝叶斯分类；

第二级文本分类：对于被第一级文本分类方法拒绝分类的文本，基于信息增益特征词的提取方法提取出特征词，再利用提取出的特征词以及朴素贝叶斯、支持向量机或者K近邻分类方法对被拒绝的测试文本进行第二次文本分类。

2、根据权利要求1所述基于概率主题词的两级组合文本分类方法，其特征在于，所述第一级文本分类的判断拒绝条件是：判断一篇文本是否可以用第一级文本分类方法分类，采用两个拒绝条件：利用计算文本属于各个类别的后验概率值的大小；利用计算提取出来的概率主题词的数目大小。

3、根据权利要求1所述基于概率主题词的两级组合文本分类方法，其特征在于，所述提取概率主题词是利用词属于每个类别中的后验概率提取主题词。

4、根据权利要求1所述基于概率主题词的两级组合文本分类方法，其特征在于，通过概率主题词特征计算文本的后验概率，概率值最大的类别为分类的可能结果。

5、根据权利要求1所述基于概率主题词的两级组合文本分类方法，其特征在于，所述两个拒绝条件是通过分析文本属于每个类别的后验概率及概率主题词的数目决定的。

6、根据权利要求1所述基于概率主题词的两级组合文本分类方法，其特征在于：所述拒绝条件判断，如果判断结果为可以分类，整个分类过程结束；如果判断结果为拒绝分类则进行第二级分类过程。

7、根据权利要求1所述基于概率主题词的两级组合文本分类方法，其特征在于，所述第二级文本分类的分类器是基于朴素贝叶斯、支持向量机或者K近邻方法的分类器，可以选择其中的任一个分类器。

8、根据权利要求2所述基于概率主题词的两级组合文本分类方法，其特征在于，所述拒绝条件是：

第一个是判断由贝叶斯分类方法计算出来的文本的后验概率是否大于某个阈值；如果文本属于具有最大后验概率的类别的概率值小于某个阈值，则拒绝分类；

第二个是判断从被分类文本中提取出来的概率主题词的数目是否满足一定的条件；如果文本中提取出来的概率主题词的数目满足给定的不等式|n_T-n_D·μ_i|>n_D·2σ_i时，则拒绝分类；其中：n_D是文本所包含的所有词；所有词n_D与概率主题词n_T满足线性关系n_T＝k_i×n_D，k_i值满足正态分布；n_T是一个满足正态分布的变量；通过训练语料，获得k_i分布的两个参数均值μ_i和方差值σ_i。