CN101587493A

CN101587493A - 文本分类方法

Info

Publication number: CN101587493A
Application number: CNA2009101422866A
Authority: CN
Inventors: 陈恩红; 林洋港; 马海平; 曹欢欢
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2009-06-29
Filing date: 2009-06-29
Publication date: 2009-11-25
Anticipated expiration: 2029-06-29
Also published as: CN101587493B

Abstract

一种文本分类方法，包括以下步骤：根据类别将初始训练文本集划分为多个分别包含相同类别文本的子集，并从每个子集中抽取出对应的概率主题模型；利用对应的概率主题模型生成新的文本来均衡所述多个子集的类别；根据所述多个子集对应的均衡训练文本集构造分类器；以及利用所述分类器进行文本分类。本发明能够提高文本分类方法在数据倾斜条件下的分类效果。

Description

文本分类方法

技术领域

本发明涉及数据预处理技术，尤其涉及一种文本分类方法。

背景技术

随着互联网的迅速发展，网络上的网页、电子邮件、数据库、数字图书馆等电子文本成几何级数不断增长，如何有效处理这些文本并进行分类是一个非常重要的课题。文本分类是指在已有数据的基础上构造一个分类模型，即，分类器。它按照预先定义的分类体系为测试文档集合中的每个文档确定一个类别，使得用户能够方便地浏览文档，也可以通过限制搜索范围来使文档的查找更为容易。文本自动分类就是用大量的带有类标志的文本，对分类准则或模型参数进行训练，然后用训练得到的结果对未知类别的文本进行识别。

然而在实际分类应用中，经常会遇到数据倾斜，又称作数据不平衡或者类别不平衡，这是影响分类性能的重要因素之一，对传统的分类方法构成了挑战。大多数分类算法都是面向均匀分布数据提出的，对于数据倾斜的情况，仅利用传统的分类方法并不能取得理想的文本分类效果。

发明内容

本发明的目的旨在至少解决现有技术中的上述问题之一。

为此，本发明的实施例提出一种提高存在数据倾斜的文本分类效果的文本分类方法。

本发明实施例提出了一种文本分类方法，所述分类方法包括以下步骤：a)根据类别将初始训练文本集划分为多个分别包含相同类别文本的子集，并从每个子集中抽取出对应的概率主题模型；b)利用对应的概率主题模型生成新的文本来均衡所述多个子集的类别；c)根据所述多个子集对应的均衡训练文本集构造分类器；以及d)利用所述分类器进行文本分类。

根据本发明进一步的实施例，所述概率主题模型为LDA概率主题模型。

根据本发明进一步的实施例，所述步骤b包括：确定包含最多文本数量的子集；每个概率主题模型根据所述最多文本数量生成对应的新文本，其中所述新文本数量为所述最多文本数量与每个子集包含的文本数量的差值；以及将所述新文本加入到对应的子集中。

根据本发明进一步的实施例，还包括利用所述概率主题模型生成新的文本代替所述初始文本训练集包含的文本。

根据本发明进一步的实施例，还包括对构造分类器的所述均衡训练文本集进行特征降维的步骤。

根据本发明进一步的实施例，所述分类器为支持向量机。

根据本发明进一步的实施例，还包括对所述初始训练文本集进行预处理的步骤，以过滤常用词以及进行词根还原。

本发明通过从文本训练集上抽取出对应的概率主题模型，并利用对应的概率主题模型生成稀有类别的样本，扩大稀有类别在整个文本集的比例，对文本集进行数据平衡，从而利用模型所反映的文本全局语义信息来提高数据倾斜下的文本分类效果。

此外，本发明通过概率主题模型重新生成该类别的所有样本，替代原来的样本作为新的训练样本，可以达到数据平滑的效果，削弱噪声对文本分类的影响。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的文本分类方法流程图；

图2为本发明实施例的概率主题模型示例；

图3为本发明实施例的利用概率主题模型生成新的文本的示例图；

图4为本发明实施例的LDA概率主题模型抽取步骤流程图；

图5为本发明实施例基于LDA概率主题模型的文本生成步骤流程图；

图6为本发明具体实施例的文本分类方法的流程图；以及

图7为本发明实施例的文本分类方法对应的总体结构框架图；

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

图1为本发明实施例的文本分类方法流程图，如图所示，首先根据类别将初始训练文本集划分为多个分别包含相同类别文本的子集，并从每个子集中抽取出对应的概率主题模型(步骤102)。当然，这里初始训练文本集可能存在数据倾斜，或者类别不平衡的问题。文本类别是指对应的文本属于新闻、体育、娱乐还是其他，这里不一一举例。

例如，设初始训练文本集中含有n个类别C＝{c₁，c₂，...，c_n}，则训练文本集可以根据类别划分为n个子集D＝{d₁，d₂，...，d_n}。当然，每个子集对应相同类型的文本，文本的数量为一个或多个。

概率主题模型的主要思想认为文档是若干主题的混合分布，而每个主题又是一个关于单词的概率分布。主题模型可以看作是文档的一种生成模型：文档的生成就是基于主题模型的一个简单概率过程。当生成一个新的文档时，首先得到一个关于主题的分布，对于该文档的每一个词符，先通过主题的分布随机得到某个主题，接着通过该主题的单词分布随机得到一个单词作为该词符的具体单词。

目前存在多种概率主题模型，例如隐迪列彻莱特分配(Latent DirichletAllocation，LDA)模型，弹球盘分配模型(Pachinko Allocation Model，PAM)，互相关主题模型(Correlated Topic Model，CTM)及概率隐语义分配(Probabilistic Latent Semantic Allocation，pLSA)模型等等。本发明以LDA模型作为实施示例，但本发明的应用范围并不局限于LDA模型，而是适用于绝大多数概率主题模型。

图2给出了从某篇文章抽取出的概率主题模型的一个示例，如图所示该文章有40个主题，每个主题底下有40个单词，需要注意的是一个单词可以同时出现在多个主题下面。每个主题在文章中出现的概率都不一样，例如主题1出现的概率是主题2的将近2倍，同时每个单词在同一主题下面出现的概率也是不一样的。可以看出，主题1主要谈论的是图形方面的话题，而主题40主要谈论的是概率统计方面的话题。

图3给出了利用概率主题模型生成新的文本的示例图。如图所示，主题1和主题2都与money和river相关。它们具有不同的词分布。可通过从主题中选择对该主题重要程度不同的词构成文档。文档1和文档3是由主题1和主题2分别随机抽样得到的，而文档2则是由主题1和主题2根据不同的主题分布混合得到的。注意，词的右上角标的数字是其所属的主题号，即该词是有所标主题随机抽样得到的。

在抽取得到每个子集的概率主题模型之后，在步骤104中可以利用对应的概率主题模型生成新的文本，扩充对应子集类别的规模，从而实现对多个子集类别的均衡。

在经典的LDA模型当中，每个文本都有自己独立的主题分布，而在文本分类任务中，假设同一类别的文本具有相同的主题分布。则可以把训练文本集的构造过程看成主题模型的一个生成过程：对于文本集中的每一个类别，都存在一个潜在的概率主题模型，该类别的所有文本都是由其对应的主题模型按照自己的生成过程产生的。也就是说，由某个概率主题模型生成的新文本一定还是属于这个模型对应的类别。

在均衡每个子集的类别时，首先确定包含最多文本数量的子集。例如对于n个类别C＝{c₁，c₂，...，c_n}，把含有最多文本的类别的文本数目记为MAX_SIZE。对于其他任何类别c_i，通过其对应的概率主题模型生成MAX_SIZE-|d_i|个新的文本，并加入到原来的文本集里面，其中|d_i|表示c_i原来的文本数目。这些新生成的文本与原来的旧文本一起构成新的训练集D′＝{d′₁，d′₂，...，d′_n}，满足|d′|₁＝|d′₂|＝...＝|d′_n|。

这样，通过从文本集上抽取出对应的概率主题模型，利用模型所反映的文本全局语义信息来提高数据倾斜下的文本分类效果。对于存在数据倾斜的文本集，本发明通过对应的概率主题模型生成稀有类别的样本，扩大稀有类别在整个文本集的比例训练文本集中各个类别进行扩充后，所有类别在整个数据集里的比例是一样的，使得分类器对各个类别同等对待，从而达到数据平衡的效果。

然后，把上述均衡训练文本集交付给分类器学习模块进行分类器的学习，实现分类器的构造(步骤106)。最后，利用该分类器进行文本分类(步骤108)，最终可以改善数据倾斜条件下文本分类的效果。

下面，以LDA概率主题模型为例来说明概率主题模型的抽取以及应用。LDA模型是目前应用最广泛的一种概率主题模型，它具有比其他模型更全面的文本生成假设。

设文本中的主题z的分布为P(z)，对于给定的某个主题z，该主题上面的单词概率分布为P(w|z)。我们用P(z_i＝j)表示生成第i个单词时第j个主题被选中的概率，P(w_i|z_i＝j)表示通过主题j选中单词w_i的概率。因此文本中单词的概率分布可以表示为：

P (w_{i}) = Σ_{j = 1}^{T} P (w_{i} | z_{i} = j) P (z_{i} = j)

其中T表示主题数目。为方便起见，令φ^(j)＝P(w|z＝j)表示单词在主题j上面的多项式分布，θ^(d)＝P(z)表示主题在文本d上面的多项式分布。

LDA模型采用Dirichlet(迪列彻莱特)分布作为多项式分布φ和θ的共轭先验，简化了模型的统计推导。

在本发明中，抽取LDA概率主题模型的方法有变分法、期望最大化(Expectation Maximization，EM)及吉布斯(Gibbs)抽样等算法。在一个实施例中，本发明采用但并不限于Gibbs抽样算法来抽取LDA概率主题模型。

Gibbs抽样算法并不直接计算每个文档的主题-单词分布φ和主题分布θ。根据文档中可见的单词序列，通过求出z的后验分布(即把文档中每个单词赋予某个主题)，间接地统计出主题-单词分布φ和主题分布θ。每个单词i对应的主题变量z_i被赋予[1，2，...，T]中的某个整数t，表示这个单词对应的是第t个主题。

对于文本集合里面的每一个词符i，用w_i和d_i分别表示它的词汇索引和文档索引。Gibbs抽样过程逐个处理文本集里的每个词符，在已知其他词符的主题分布的条件下，估算当前词符属于每个主题的可能性。基于这种条件分布，重新选择某个主题作为当前词符的主题。把该条件分布记为P(z_i＝j|z_-i，w_i，d_i，·)，其中z_i＝j表示把主题j赋给词符i作为其主题，z_-i表示除当前词符外的其他所有词符的主题赋值，·表示其他所有的已知或可见的信息，如其他所有词符的词汇索引w_-ii和文档索引d_-i，以及超参数α和β。这个条件分布的计算公式如下：

P (z_{i} = j | z_{- i}, w_{i}, d_{i}, \cdot) &Proportional; \frac{C_{w_{i} j}^{WT} + β}{Σ_{w = 1}^{W} C_{wj}^{WT} + Wβ} \frac{C_{d_{i} j}^{DT} + α}{Σ_{t = 1}^{T} C_{d_{i} t}^{DT} + Tα}

其中，C^WT、C^DT分别是W×T、D×T维的整数矩阵；C_wj ^WT为除当前词符i外单词w被赋予主题j的次数，C_dj ^DT表示除当前词符i外文档d中的词符被标注为主题j的次数。注意上式中的概率是为归一化的，一个词符被标注为主题j的实际概率是上式中的值除以对应所有主题的概率之和。

Gibbs抽样算法在刚开始时随机赋予每个词符[1，...，T]中的一个主题。对于每个词符，计数矩阵C^WT和C^DT中对应当前单词和赋予的主题的值减1。然后，根据公上式抽样一个新的主题，同时计数矩阵C^WT和C^DT中对应的值加1。在每一轮Gibbs抽样中，文本集中所有N个词符都被轮流重新赋予一个新的主题。在抽样过程的前期阶段，由于对后验概率的模拟不够充分，Gibbs抽样的结果还不是很精确。过了前期阶段以后，Gibbs抽样的结果开始逼近目标分布并最终处于一个与目标分布相近的稳定状态。

抽样过程直接给出了每个单词的z估计。通过对z的统计，可以得到φ和θ的近似值φ′和θ′：

{φ^{'}}_{i}^{(j)} = \frac{C_{ij}^{WT} + β}{Σ_{k = 1}^{W} C_{kj}^{WT} + Wβ}

{θ^{'}}_{j}^{(d)} = \frac{C_{dj}^{DT} + α}{Σ_{k = 1}^{T} C_{dk}^{DT} + Tα}

在文本分类问题中，假定同一类别的文档的主题概率分布是一样的。也就是说，假设同一个类别的文档都是由该类别的概率主题模型生成的。因此，把上式改成：

{φ^{'}}_{i}^{(j)} = \frac{C_{ij}^{WT} + β}{Σ_{k = 1}^{W} C_{kj}^{WT} + Wβ}

{θ^{'}}_{j} = \frac{Σ_{d = 1}^{D} C_{dj}^{DT} + α}{Σ_{k = 1}^{T} Σ_{d = 1}^{D} C_{dk}^{DT} + Tα}

图4显示了在单个类别文本集合上本发明实施例的LDA概率主题模型抽取步骤流程。

步骤S401：对集合里的所有词符进行统计，构成向量

\overset{&RightArrow;}{t} = (t_{1}, t_{2}, . . ., t_{N}),

N为词符的总数目；

步骤S402：建立每个词符的词汇索引

和文档索引

WS(i)表示第i个词符对应的词汇索引，DS(i)表示第i个词符对应的文档索引，即第i个词符来自第DS(i)个文档；

步骤S403：随机初始化词符的主题标注向量

z(i)表示把第i个词符标注为第z(i)个主题，同时更新C^WT和C^DT矩阵，并使用向量

来记录每个主题出现的次数；

步骤S404：判断是否已经满足迭代终止条件，若是，转到步骤S412，否则，转到步骤S405；

步骤S405：判断在当前迭代中是否已经处理完所有词符，若是，转到

步骤S404，否则，转到步骤S406；

步骤S406：选择下一个要进行主题标注的词符token(i)；

步骤S407：对于词符token(i)，令矩阵C^WT、C^DT及向量对应的值减1；

步骤S408：判断是否处理完所有的主题，若是，转到步骤S411，否则，转到步骤S409；

步骤S409：选择下一个未处理过的主题j；

步骤S410：根据上面的公式计算出当前上下文环境下token(i)属于该主题的概率P(z_i＝j|z_-i，w_i，d_i，·)；

步骤S411：根据P(z_i＝j|z_-i，w_i，d_i ，·)，使用轮盘赌算法选择一个主题j作为token(i)新的主题，同时更新矩阵C^WT、C^DT及向量

使对应的值加1；

步骤S412：计算文档的主题分布θ以及每个主题上面单词的分布φ的近似解θ′和φ′；

步骤S413：输出包括θ′和φ′在内的LDA模型，并对其持久化。

由于抽取出的LDA模型包含大量的数据，占用较多的内存空间，当训练文本集的类别较多的情况下，LDA模型不宜常驻内存。因此在步骤S413中对LDA模型进行持久化，把它存储在文件中，当需要该模型时再把其装载进内存，这样可以处理类别比较多的训练文本集，节省内存空间。

另外，LAD概率主题模型生成文本的过程如下：

1.对于每个主题j，根据Dirichlet分布Dir(β)得到该主题上面的一个单词多项式分布向量

2.根据泊松分布Poisson(ξ)得到文本的单词数目N

3.根据Dirichlet分布Dir(α)得到该文本的一个主题分布概率向量θ

4.对于该文本N个单词中的每一个单词w_n：

a)从θ的多项式分布Multinomial(θ)随机选择一个主题k

b)从主题k的多项式条件概率分布

选择一个单词作为w_n

关于LDA概率主题模型的概念可以参考文献“T.L.Griffiths and M.Steyvers.Finding scientific topics.The National Academy of Sciences，vol.101Suppl 1，pp.5228-5235，April 2004”和“David M.Blei，Andrew Y.Ng，Michael I.Jordan.Latent Dirichlet Allocation.Journal of Machine LearningResearch 3(2003)，pages：993-1022”。

下面，结合图5对利用LDA概率主题模型生成单个新文本的步骤进行详细描述。

在上述实施例将抽取的LDA概率主题模型进行存储的情况下，生成新文本需要两个输入参数：保存LDA概率主题模型的文件路径path和用于确定新文本长度的泊松分布参数ξ。具体步骤如下：

步骤S501：根据路径载入LDA概率主题模型，包括主题分布θ以及每个主题上面单词的分布φ；

步骤S502：一般的文本分类方法中都是以“词袋”模型(Bags of words)来处理文本，因此必须先确定新文本的长度即词符数目N。本发明根据泊松分布Poisson(ξ)确定新文本的词符数目N，其中ξ为输入参数；

步骤S503：新文本初始化，令词符列表wordlist为保存新文本词符的列表；

步骤S504：判断新文本的长度是否还未达到预定的长度N，若是，转到步骤S505，否则，返回wordlist；

步骤S505：根据LDA概率主题模型中的主题分布θ，通过概率选择算法，例如轮盘赌算法，随机选择一个主题T，作为当前词符的潜在主题；

步骤S506：在上一步确定主题T的基础上，根据主题T上面的单词概率分布φ^(j)，通过概率选择算法，例如轮盘赌算法，随机地从主题T包含的单词中选择一个单词w，作为当前词符对应的词汇；

步骤S507：把上一步得到的新词符加到wordlist列表当中，然后转到步骤S504进行分支判断；

该流程的输出结果为包含新文本所有词符的一个词符列表wordlist，对于训练文本集中的每一个类别子集，都通过使用该文本生成步骤生成对应数量新的文本，来实现对训练文本集的类别比例进行平衡处理，进而减弱数据倾斜对最终分类器性能的影响。

图6给出了本发明一个具体实施例的文本分类方法的流程图，在该流程图中对训练文本集中可能存在的其他问题进一步进行处理和优化。

步骤S601：统计训练文集中各个类别的样本数目，找出数目最多的类别，其规模MAX_SIZE作为后面类别平衡模块的参数；

步骤S602：由于需要对训练文本集中每个类别的数据分别进行处理，本步骤判断训练文本集中所有类别是否都处理完毕，如果已经都处理完毕，则转到步骤S610；否则，转到步骤S603；

步骤S603：从训练文本集中还未处理的类别里选择一个类别，作为下一个接受处理的类别，选择顺序可以根据类别名排序或者其他适当的方法；

步骤S604：在抽取概率主题模型之前，对训练文本集进行预处理，以过滤常用词。常用词(停用词)指的是使用过于频繁的单词，如：“is”、“i”、“what”、“it”等。这些词由于普遍存在于所有文章当中，对文本的分类没有帮助，浪费系统的空间资源和计算开销，因此可以过滤掉这些没有利用价值的停用词；

步骤S605：英文中的单词存在很多变形，比如“compute”存在“computes”、“computing”、“computed”等多种变形，这些变形在文本分类中起到的作用是一样的，所以可以在提取概率主题模型之前先进行词根还原；

步骤S606：从该类别对应的文本集合中抽取概率主题模型；

步骤S607：用户根据训练文本集的情况判断文本集当中是否含有噪声样本。如果训练文本集中含有噪声，则转到步骤S608；否则，直接转到步骤S609；

步骤S608：利用步骤606抽取出来的概率主题模型对该类别的训练文本进行数据平滑处理，减弱噪声样本对训练文本集质量的影响；

分类器的质量对文本分类的最终结果具有直接的影响，而分类器的质量很大程度上取决于训练文本集的质量。一般说来，训练文本集类别越准确、内容越全面，得到的分类器质量就越高。但是在实际应用中，这种全面准确的训练文本集是很难得到的，尤其是在数据规模很大的情况下，更是如此。在真实的文本分类应用中，训练数据一般都不可避免的含有噪声，这些噪声样本将对最终的分类结果产生重要影响。

一般情况下，在含有噪声样本的数据中，每一个类别的噪声样本数目相对于该类别正常的样本数目来说是占少数的。抽取得到的概率主题模型总体上能够反映该类别的正确语义信息的。虽然会受到噪声样本的影响，通过该主题模型生成的新文本基本上还是比较接近该类别。

但是为了进一步提高分类的效果，利用概率主题模型重新生成该类别对应的所有文本，替代原来的文本作为新的训练样本，可以达到数据平滑的效果，削弱噪声对最终分类器性能的影响。

步骤S609：利用步骤S606抽取出来的概率主题模型生成新的该类别的文本，扩充该类别的规模。

这里，概率主题模型生成类别平衡新文本的算法与上述步骤608进行数据平滑所生成新文本的方式相同。例如，这些新文本生成均可以采用图5实施例的步骤。

步骤S610：由于文本集里面的词汇规模非常大，不可能也没有必要把所有的词汇都作为特征项处理，因此本发明通过降维技术提取其中最有价值的一小部分词汇作为特征项。

在一个实施例中，特征降维步骤包括：计算均衡训练文本集中每个单词的信息增益，并将每个单词的信息增益与预定阈值进行比较。将信息增益小于预定阈值的单词除去，剩下的即为选中的特征。或者，按照信息增益的大小将每个单词进行排序，除去信息增益较小的单词部分，剩下的即为被选中的特征。

步骤S611：在上述处理过的训练样本集上构造分类器，分类器可根据需要自由选择。例如，使用支持向量机(Support Vector Machine，SVM)作为分类器。

SVM分类的基本原理是将向量空间划分成两个不相交的空间，通过构造一个超平面，使特征空间中的特征落在平面的两侧，平面两侧的特征点属于不同的类别，这样就将空间中的点分作了两个不同的类别。在实际分类问题中，训练文本一般会有超过两个的类别，而SVM是对两个类的划分，为了解决这个问题，一般有两种方法，一种是构建一对一的分类器，对任意两个类别之间构建一个分类器，判断文本属于其中哪一个类别，然后根据投票原则将文本划分到投票最多的一个或几个类别中，按照这种方法，对k个类别的分类问题来说，就需要构建(k-1)*k个小的分类器；另外一种思路是构建多个一对多的分类器，对任意一个类别，构建一个分类器，判断文本“是否”属于该类别，或者求出文本属于各个类别的可能性，然后根据各个分类器的结果综合判断该文本属于哪个类别，对k个类别的分类问题来说，这种方法需要构建k个分类器。本发明目前采用第一种方法来处理多类分类问题，但并不限于这些方法。

步骤S612：使用步骤S611构造的分类器对待分类的新文本进行分类。

需要注意的是，任何其他特征降维方法与分类器方法都适用于本发明。例如，适合本发明的特征降维方法包括但不限于：文档频率法(DocumentFrequency，DF)、互信息法(Mutual Information，MI)、χ2统计法(CHI)、特征词强度法(Term Strength，TS)潜在语义索引(Latent Semantic Indexing，LSI)、主成分分析(Primary Component Analysis)、因子分析(FactorAnalysis)、Projection Pursuit、独立组件分析(Independent ComponentAnalysis，ICA)、随机映射(Random Projection，RP)等等；适合本发明的分类器方法包括但不限于：简单向量距离分类法、贝叶斯分类法、K最近邻学习算法、元分类器方法、决策树方法、神经网络方法等等。

图7在上述实施例的基础上，给出了本发明实施例的文本分类方法对应的总体结构框架图。

系统总体上分为离线分类器构造子系统和在线实时分类子系统两个部分。其中离线分类器构造子系统负责对训练文本集进行数据平滑、类别平衡处理，然后构造分类器供在线实时分类子系统使用；在线实时分类子系统通过使用离线分类器构造子系统构造的文本分类器对新文本进行实时分类。下面分别对这两个子系统进行具体描述。

在离线分类器构造子系统中，首先根据文本分类系统的应用领域准备相应的原始训练文本集10。例如，如果系统将用来对医学文献分类，则应该准备医学文献方面的训练文本集。原始训练文本集中的文字未经过任何处理，因此需要使用停用词去除、词根还原等特征预处理技术把原始文本转换成“词袋”模式的文本形式。例如，原始文本“Can someone give me thetitle of a good VGA graphics programming book？”经过特征预处理后变成“someone give title good VGA graphic program book”，其中去掉了停用词“can”、“me”、“the”、“of”、“a”及问号，“graphics”、“programming”经词根还原变成“graphic”和“program”。经过特征预处理，从而得到训练文本集20。

通过对经过特征预处理的训练文本集中各个类别分别抽取，从而得到对应的概率主题模型，例如使用Gibbs抽样算法得到LDA概率主题模型30(训练文本集中不同的类型对应不同的主题模型1、主题模型2...主题模型n)。

利用LDA概率主题模型30可以进一步对训练文本集20进行数据平滑处理，从而文本集中噪声数据的影响被减弱了，得到了去噪训练文本集40。这时去噪训练文本集40中各个类别的比例还不平衡，使用LDA概率主题模型30对其进行类别平衡处理后，各个类别的规模都扩充到最大类别的规模，因此各个类别在文本集中的比例是一样的，这样就得到了均衡训练文本集50。

在对均衡训练文本集50进行特征降维之后，转化为向量矩阵形式，然后用来训练文本分类器，得到最终的分类器60，对其进行持久化保存，供在线实时分类子系统使用。

在离线分类器构造子系统中，LDA概率主题模型的抽取、数据平滑、类别平衡、特征降维、分类器训练都需要较高的时间开销，不过由于该子系统是离线处理的，对实时性要求较低，这些时间开销是可以接受的并且不会影响系统的正常工作。

在在线实时分类子系统中，首先从硬盘载入已经构造好的文本分类器60。当有新的文本需要进行分类时，先根据离线分类器构造子系统使用的特征降维技术，采用对应的特征空间映射方法，把新文本转化成文本分类器能够处理的特征向量形式。然后文本分类器60对这个特征向量进行实时分类，得到该文本的类别。在对新的文本进行实时分类时，特征空间映射的时间开销可以忽略不计。实时分类的时间开销取决于分类器处理单个特征向量的时间开销，目前多数分类器都能满足这种实时性要求。

本发明提供了一种针对文本分类领域的基于概率主题模型的数据倾斜分类方法，通过从文本集上抽取出对应的概率主题模型，利用模型所反映的文本全局语义信息来提高数据倾斜下的文本分类效果。本发明通过对应的概率主题模型生成稀有类别的样本，扩大稀有类别在整个文本集的比例，从而达到数据平衡的效果。

该方法利用文本所特有的语义特征来处理不平衡问题，概率主题模型实际上已经潜在地记录了对应类别的全局语义信息，通过概率主题模型生成的文本其谈论的话题仍然属于该类别的范畴。但是由于主题模型生成过程的特点，新生成的文本又与该类别已有文本具有相当的区别，保证了该类别文本内容的多样性。

此外，通过利用概率主题模型对训练数据进行平滑，避免了噪声数据对分类器性能的影响，提高了训练数据的质量。把处理过的训练数据交付给分类器学习模块进行分类器的学习，最终改善数据倾斜条件下文本分类的效果。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种文本分类方法，其特征在于，所述分类方法包括以下步骤：

a)根据类别将初始训练文本集划分为多个分别包含相同类别文本的子集，并从每个子集中抽取出对应的概率主题模型；

b)利用对应的概率主题模型生成新的文本来均衡所述多个子集的类别；

c)根据所述多个子集对应的均衡训练文本集构造分类器；以及

d)利用所述分类器进行文本分类。

2.如权利要求1所述的分类方法，其特征在于，所述概率主题模型为LDA概率主题模型。

3.如权利要求1所述的分类方法，其特征在于，所述步骤b包括：

确定包含最多文本数量的子集；

每个概率主题模型根据所述最多文本数量生成对应的新文本，其中所述新文本数量为所述最多文本数量与每个子集包含的文本数量的差值；以及

将所述新文本加入到对应的子集中。

4.如权利要求2所述的分类方法，其特征在于，所述概率主题模型生成新文本的步骤包括：

e1)根据泊松分布确定所述新文本的词符数目；

e2)根据所述概率主题模型的主题分布，随机选择一个主题作为当前词符的潜在主题；

e3)根据所述主题的单词分布，随机从所述主题包含的单词中选择一个单词作为当前词符对应的单词；

e4)将所述当前词符及对应的单词加入新文本中并处理下一个词符；

e5)重复上述步骤e2到步骤e4，直至所述新文本中的词符数目等于所述确定的词符数目。

5.如权利要求1或3所述的分类方法，其特征在于，还包括利用所述概率主题模型生成新的文本代替所述初始文本训练集包含的文本。

6.如权利要求1所述的分类方法，其特征在于，还包括对构造分类器的所述均衡训练文本集进行特征降维的步骤。

7.如权利要求6所述的分类方法，其特征在于，所述特征降维步骤包括：

计算所述均衡训练文本集中每个单词的信息增益；

将每个单词的信息增益与预定阈值进行比较；以及

将信息增益小于所述预定阈值的单词除去。

8.如权利要求6所述的分类方法，其特征在于，所述特征降维步骤包括：

计算所述均衡训练文本集中每个单词的信息增益；

按照信息增益的大小将每个单词进行排序；以及

除去信息增益较小的单词。

9.如权利要求1所述的分类方法，其特征在于，所述分类器为支持向量机。

10.如权利要求1所述的分类方法，其特征在于，还包括对所述初始训练文本集进行预处理的步骤，以过滤常用词以及进行词根还原。