CN101587493B - 文本分类方法 - Google Patents

文本分类方法 Download PDF

Info

Publication number
CN101587493B
CN101587493B CN2009101422866A CN200910142286A CN101587493B CN 101587493 B CN101587493 B CN 101587493B CN 2009101422866 A CN2009101422866 A CN 2009101422866A CN 200910142286 A CN200910142286 A CN 200910142286A CN 101587493 B CN101587493 B CN 101587493B
Authority
CN
China
Prior art keywords
text
classification
word
theme
topic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009101422866A
Other languages
English (en)
Other versions
CN101587493A (zh
Inventor
陈恩红
林洋港
马海平
曹欢欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN2009101422866A priority Critical patent/CN101587493B/zh
Publication of CN101587493A publication Critical patent/CN101587493A/zh
Application granted granted Critical
Publication of CN101587493B publication Critical patent/CN101587493B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种文本分类方法,包括以下步骤:根据类别将初始训练文本集划分为多个分别包含相同类别文本的子集,并从每个子集中抽取出对应的概率主题模型;利用对应的概率主题模型生成新的文本来均衡所述多个子集的类别;根据所述多个子集对应的均衡训练文本集构造分类器;以及利用所述分类器进行文本分类。本发明能够提高文本分类方法在数据倾斜条件下的分类效果。

Description

文本分类方法
技术领域
本发明涉及数据预处理技术,尤其涉及一种文本分类方法。 
背景技术
随着互联网的迅速发展,网络上的网页、电子邮件、数据库、数字图书馆等电子文本成几何级数不断增长,如何有效处理这些文本并进行分类是一个非常重要的课题。文本分类是指在已有数据的基础上构造一个分类模型,即,分类器。它按照预先定义的分类体系为测试文档集合中的每个文档确定一个类别,使得用户能够方便地浏览文档,也可以通过限制搜索范围来使文档的查找更为容易。文本自动分类就是用大量的带有类标志的文本,对分类准则或模型参数进行训练,然后用训练得到的结果对未知类别的文本进行识别。 
然而在实际分类应用中,经常会遇到数据倾斜,又称作数据不平衡或者类别不平衡,这是影响分类性能的重要因素之一,对传统的分类方法构成了挑战。大多数分类算法都是面向均匀分布数据提出的,对于数据倾斜的情况,仅利用传统的分类方法并不能取得理想的文本分类效果。 
发明内容
本发明的目的旨在至少解决现有技术中的上述问题之一。 
为此,本发明的实施例提出一种提高存在数据倾斜的文本分类效果的文本分类方法。 
本发明实施例提出了一种文本分类方法,所述分类方法包括以下步骤:a)根据类别将初始训练文本集划分为多个子集,并从每个子集中抽取出对应的概率主题模型,其中每个子集包含相同类别的文本;b)利用对应的概率主题模型生成新的文本来均衡所述多个子集的类别;c)根据所述多个子集对应的均衡训练文本集构造分类器;以及d)利用所述分类器进行文本分 类,其中所述步骤b包括:确定包含最多文本数量的子集;每个概率主题模型根据所述最多文本数量生成对应的新文本,其中所述新文本数量为所述最多文本数量与每个子集包含的文本数量的差值;以及将所述新文本加入到对应的子集中。 
根据本发明进一步的实施例,所述概率主题模型为隐迪列彻莱特分配LDA概率主题模型。 
根据本发明进一步的实施例,还包括利用所述概率主题模型生成新的文本代替所述初始文本训练集包含的文本。 
根据本发明进一步的实施例,还包括对构造分类器的所述均衡训练文本集进行特征降维的步骤。 
根据本发明进一步的实施例,所述分类器为支持向量机。 
根据本发明进一步的实施例,还包括对所述初始训练文本集进行预处理的步骤,以过滤常用词以及进行词根还原。 
本发明通过从文本训练集上抽取出对应的概率主题模型,并利用对应的概率主题模型生成稀有类别的样本,扩大稀有类别在整个文本集的比例,对文本集进行数据平衡,从而利用模型所反映的文本全局语义信息来提高数据倾斜下的文本分类效果。 
此外,本发明通过概率主题模型重新生成该类别的所有样本,替代原来的样本作为新的训练样本,可以达到数据平滑的效果,削弱噪声对文本分类的影响。 
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。 
本发明的上述和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中: 
附图说明
图1为本发明实施例的文本分类方法流程图; 
图2为本发明实施例的概率主题模型示例; 
图3为本发明实施例的利用概率主题模型生成新的文本的示例图; 
图4为本发明实施例的LDA概率主题模型抽取步骤流程图; 
图5为本发明实施例基于LDA概率主题模型的文本生成步骤流程图; 
图6为本发明具体实施例的文本分类方法的流程图;以及 
图7为本发明实施例的文本分类方法对应的总体结构框架图; 
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。 
图1为本发明实施例的文本分类方法流程图,如图所示,首先根据类别将初始训练文本集划分为多个分别包含相同类别文本的子集,并从每个子集中抽取出对应的概率主题模型(步骤102)。当然,这里初始训练文本集可能存在数据倾斜,或者类别不平衡的问题。文本类别是指对应的文本属于新闻、体育、娱乐还是其他,这里不一一举例。 
例如,设初始训练文本集中含有n个类别C={c1,c2,...,cn},则训练文本集可以根据类别划分为n个子集D={d1,d2,...,dn}。当然,每个子集对应相同类型的文本,文本的数量为一个或多个。 
概率主题模型的主要思想认为文档是若干主题的混合分布,而每个主题又是一个关于单词的概率分布。主题模型可以看作是文档的一种生成模型:文档的生成就是基于主题模型的一个简单概率过程。当生成一个新的文档时,首先得到一个关于主题的分布,对于该文档的每一个词符,先通过主题的分布随机得到某个主题,接着通过该主题的单词分布随机得到一个单词作为该词符的具体单词。 
目前存在多种概率主题模型,例如隐迪列彻莱特分配(Latent DirichletAllocation,LDA)模型,弹球盘分配模型(Pachinko Allocation Model,PAM),互相关主题模型(Correlated Topic Model,CTM)及概率隐语义分配(Probabilistic Latent Semantic Allocation,pLSA)模型等等。本发明以LDA 模型作为实施示例,但本发明的应用范围并不局限于LDA模型,而是适用于绝大多数概率主题模型。 
图2给出了从某篇文章抽取出的概率主题模型的一个示例,如图所示该文章有40个主题,每个主题底下有40个单词,需要注意的是一个单词可以同时出现在多个主题下面。每个主题在文章中出现的概率都不一样,例如主题1出现的概率是主题2的将近2倍,同时每个单词在同一主题下面出现的概率也是不一样的。可以看出,主题1主要谈论的是图形方面的话题,而主题40主要谈论的是概率统计方面的话题。 
图3给出了利用概率主题模型生成新的文本的示例图。如图所示,主题1和主题2都与money和river相关。它们具有不同的词分布。可通过从主题中选择对该主题重要程度不同的词构成文档。文档1和文档3是由主题1和主题2分别随机抽样得到的,而文档2则是由主题1和主题2根据不同的主题分布混合得到的。注意,词的右上角标的数字是其所属的主题号,即该词是有所标主题随机抽样得到的。 
在抽取得到每个子集的概率主题模型之后,在步骤104中可以利用对应的概率主题模型生成新的文本,扩充对应子集类别的规模,从而实现对多个子集类别的均衡。 
在经典的LDA模型当中,每个文本都有自己独立的主题分布,而在文本分类任务中,假设同一类别的文本具有相同的主题分布。则可以把训练文本集的构造过程看成主题模型的一个生成过程:对于文本集中的每一个类别,都存在一个潜在的概率主题模型,该类别的所有文本都是由其对应的主题模型按照自己的生成过程产生的。也就是说,由某个概率主题模型生成的新文本一定还是属于这个模型对应的类别。 
在均衡每个子集的类别时,首先确定包含最多文本数量的子集。例如对于n个类别C={c1,c2,...,cn},把含有最多文本的类别的文本数目记为MAX_SIZE。对于其他任何类别ci,通过其对应的概率主题模型生成MAX_SIZE-|di|个新的文本,并加入到原来的文本集里面,其中|di|表示ci原来的文本数目。这些新生成的文本与原来的旧文本一起构成新的训练集D′={d′1,d′2,...,d′n},满足|d′|1=|d′2|=...=|d′n|。 
这样,通过从文本集上抽取出对应的概率主题模型,利用模型所反映的文本全局语义信息来提高数据倾斜下的文本分类效果。对于存在数据倾斜的文本集,本发明通过对应的概率主题模型生成稀有类别的样本,扩大稀有类别在整个文本集的比例训练文本集中各个类别进行扩充后,所有类别在整个数据集里的比例是一样的,使得分类器对各个类别同等对待,从而达到数据平衡的效果。 
然后,把上述均衡训练文本集交付给分类器学习模块进行分类器的学习,实现分类器的构造(步骤106)。最后,利用该分类器进行文本分类(步骤108),最终可以改善数据倾斜条件下文本分类的效果。 
下面,以LDA概率主题模型为例来说明概率主题模型的抽取以及应用。LDA模型是目前应用最广泛的一种概率主题模型,它具有比其他模型更全面的文本生成假设。 
设文本中的主题z的分布为P(z),对于给定的某个主题z,该主题上面的单词概率分布为P(w|z)。我们用P(zi=j)表示生成第i个单词时第j个主题被选中的概率,P(wi|zi=j)表示通过主题j选中单词wi的概率。因此文本中单词的概率分布可以表示为: 
P ( w i ) = Σ j = 1 T P ( w i | z i = j ) P ( z i = j )
其中T表示主题数目。为方便起见,令φ(j)=P(w|z=j)表示单词在主题j上面的多项式分布,θ(d)=P(z)表示主题在文本d上面的多项式分布。 
LDA模型采用Dirichlet(迪列彻莱特)分布作为多项式分布φ和θ的共轭先验,简化了模型的统计推导。 
在本发明中,抽取LDA概率主题模型的方法有变分法、期望最大化(Expectation Maximization,EM)及吉布斯(Gibbs)抽样等算法。在一个实施例中,本发明采用但并不限于Gibbs抽样算法来抽取LDA概率主题模型。 
Gibbs抽样算法并不直接计算每个文档的主题-单词分布φ和主题分布θ。根据文档中可见的单词序列,通过求出z的后验分布(即把文档中每个单词赋予某个主题),间接地统计出主题-单词分布φ和主题分布θ。每个单词i对应的主题变量zi被赋予[1,2,...,T]中的某个整数t,表示这个单词 对应的是第t个主题。 
对于文本集合里面的每一个词符i,用wi和di分别表示它的词汇索引和文档索引。Gibbs抽样过程逐个处理文本集里的每个词符,在已知其他词符的主题分布的条件下,估算当前词符属于每个主题的可能性。基于这种条件分布,重新选择某个主题作为当前词符的主题。把该条件分布记为P(zi=j/z-i,wi,di,·),其中zi=j表示把主题j赋给词符i作为其主题,z-i表示除当前词符外的其他所有词符的主题赋值,·表示其他所有的已知或可见的信息,如其他所有词符的词汇索引w-i和文档索引d-i,以及超参数α和β。这个条件分布的计算公式如下: 
P ( z i = j | z - i , w i , d i , · ) ∝ C w i j WT + β Σ w = 1 W C wj WT + Wβ C d i j DT + α Σ t = 1 T C d i t DT + Tα
其中,CWT、CDT分别是W×T、D×T维的整数矩阵;Cwj WT为除当前词符i外单词w被赋予主题j的次数,Cdj DT表示除当前词符i外文档d中的词符被标注为主题j的次数。注意上式中的概率是为归一化的,一个词符被标注为主题j的实际概率是上式中的值除以对应所有主题的概率之和。 
Gibbs抽样算法在刚开始时随机赋予每个词符[1,...,T]中的一个主题。对于每个词符,计数矩阵CWT和CDT中对应当前单词和赋予的主题的值减1。然后,根据公上式抽样一个新的主题,同时计数矩阵CWT和CDT中对应的值加1。在每一轮Gibbs抽样中,文本集中所有N个词符都被轮流重新赋予一个新的主题。在抽样过程的前期阶段,由于对后验概率的模拟不够充分,Gibbs抽样的结果还不是很精确。过了前期阶段以后,Gibbs抽样的结果开始逼近目标分布并最终处于一个与目标分布相近的稳定状态。 
抽样过程直接给出了每个单词的z估计。通过对z的统计,可以得到φ和θ的近似值φ′和θ′: 
φ ′ i ( j ) = C ij WT + β Σ k = 1 W C kj WT + Wβ θ ′ j ( d ) = C dj DT + α Σ k = 1 T C dk DT + Tα
在文本分类问题中,假定同一类别的文档的主题概率分布是一样的。也就是说,假设同一个类别的文档都是由该类别的概率主题模型生成的。 因此,把上式改成: 
φ ′ i ( j ) = C ij WT + β Σ k = 1 W C kj WT + Wβ θ ′ j = Σ d = 1 D C dj DT + α Σ k = 1 T Σ d = 1 D C dk DT + Tα
图4显示了在单个类别文本集合上本发明实施例的LDA概率主题模型抽取步骤流程。 
步骤S401:对集合里的所有词符进行统计,构成向量 t → = ( t 1 , t 2 , . . . , t N ) , N为词符的总数目; 
步骤S402:建立每个词符的词汇索引 和文档索引 
Figure G2009101422866D00075
WS(i)表示第i个词符对应的词汇索引,DS(i)表示第i个词符对应的文档索引,即第i个词符来自第DS(i)个文档; 
步骤S403:随机初始化词符的主题标注向量 
Figure G2009101422866D00076
z(i)表示把第i个词符标注为第z(i)个主题,同时更新CWT和CDT矩阵,并使用向量 
Figure G2009101422866D00077
来记录每个主题出现的次数; 
步骤S404:判断是否已经满足迭代终止条件,若是,转到步骤S412,否则,转到步骤S405; 
步骤S405:判断在当前迭代中是否已经处理完所有词符,若是,转到步骤S404,否则,转到步骤S406; 
步骤S406:选择下一个要进行主题标注的词符token(i); 
步骤S407:对于词符token(i),令矩阵CWT、CDT及向量 
Figure G2009101422866D00078
对应的值减1; 
步骤S408:判断是否处理完所有的主题,若是,转到步骤S411,否则,转到步骤S409; 
步骤S409:选择下一个未处理过的主题j; 
步骤S410:根据上面的公式计算出当前上下文环境下token(i)属于该主题的概率P(zi=j|z-i,wi,di,·); 
步骤S411:根据P(zi=j|z-i,wi,di,·),使用轮盘赌算法选择一个主题j作为token(i)新的主题,同时更新矩阵CWT、CDT及向量 
Figure G2009101422866D00079
使对应的值加1; 
步骤S412:计算文档的主题分布θ以及每个主题上面单词的分布φ的近 似解θ′和φ′; 
步骤S413:输出包括θ′和φ′在内的LDA模型,并对其持久化。 
由于抽取出的LDA模型包含大量的数据,占用较多的内存空间,当训练文本集的类别较多的情况下,LDA模型不宜常驻内存。因此在步骤S413中对LDA模型进行持久化,把它存储在文件中,当需要该模型时再把其装载进内存,这样可以处理类别比较多的训练文本集,节省内存空间。 
另外,LAD概率主题模型生成文本的过程如下: 
1.对于每个主题j,根据Dirichlet分布Dir(β)得到该主题上面的一个单词多项式分布向量 
2.根据泊松分布Poisson(ξ)得到文本的单词数目N 
3.根据Dirichlet分布Dir(α)得到该文本的一个主题分布概率向量θ 
4.对于该文本N个单词中的每一个单词wn: 
a)从θ的多项式分布Multinomial(θ)随机选择一个主题k 
b)从主题k的多项式条件概率分布 选择一个单词作为wn
关于LDA概率主题模型的概念可以参考文献“T.L.Griffiths and M.Steyvers.Finding scientific topics.The National Academy of Sciences,vol.101 Suppl 1,pp.5228-5235,April 2004”和“David M.Blei,Andrew Y.Ng,Michael I.Jordan.Latent Dirichlet Allocation.Journal of Machine LearningResearch 3(2003),pages:993-1022”。 
下面,结合图5对利用LDA概率主题模型生成单个新文本的步骤进行详细描述。 
在上述实施例将抽取的LDA概率主题模型进行存储的情况下,生成新文本需要两个输入参数:保存LDA概率主题模型的文件路径path和用于确定新文本长度的泊松分布参数ξ。具体步骤如下: 
步骤S501:根据路径载入LDA概率主题模型,包括主题分布θ以及每个主题上面单词的分布φ; 
步骤S502:一般的文本分类方法中都是以“词袋”模型(Bags of words)来处理文本,因此必须先确定新文本的长度即词符数目N。本发明根据泊松分布Poisson(ξ)确定新文本的词符数目N,其中ξ为输入参数; 
步骤S503:新文本初始化,令词符列表 
Figure G2009101422866D00091
wordlist为保存新文本词符的列表; 
步骤S504:判断新文本的长度是否还未达到预定的长度N,若是,转到步骤S505,否则,返回wordlist; 
步骤S505:根据LDA概率主题模型中的主题分布θ,通过概率选择算法,例如轮盘赌算法,随机选择一个主题T,作为当前词符的潜在主题; 
步骤S506:在上一步确定主题T的基础上,根据主题T上面的单词概率分布φ(j),通过概率选择算法,例如轮盘赌算法,随机地从主题T包含的单词中选择一个单词w,作为当前词符对应的词汇; 
步骤S507:把上一步得到的新词符加到wordlist列表当中,然后转到步骤S504进行分支判断; 
该流程的输出结果为包含新文本所有词符的一个词符列表wordlist,对于训练文本集中的每一个类别子集,都通过使用该文本生成步骤生成对应数量新的文本,来实现对训练文本集的类别比例进行平衡处理,进而减弱数据倾斜对最终分类器性能的影响。 
图6给出了本发明一个具体实施例的文本分类方法的流程图,在该流程图中对训练文本集中可能存在的其他问题进一步进行处理和优化。 
步骤S601:统计训练文集中各个类别的样本数目,找出数目最多的类别,其规模MAX_SIZE作为后面类别平衡模块的参数; 
步骤S602:由于需要对训练文本集中每个类别的数据分别进行处理,本步骤判断训练文本集中所有类别是否都处理完毕,如果已经都处理完毕,则转到步骤S610;否则,转到步骤S603; 
步骤S603:从训练文本集中还未处理的类别里选择一个类别,作为下一个接受处理的类别,选择顺序可以根据类别名排序或者其他适当的方法; 
步骤S604:在抽取概率主题模型之前,对训练文本集进行预处理,以过滤常用词。常用词(停用词)指的是使用过于频繁的单词,如:“is”、“i”、“what”、“it”等。这些词由于普遍存在于所有文章当中,对文本的分类没有帮助,浪费系统的空间资源和计算开销,因此可以过滤掉这些没有利用价值的停用词; 
步骤S605:英文中的单词存在很多变形,比如“compute”存在“computes”、“computing”、“computed”等多种变形,这些变形在文本分类中起到的作用是一样的,所以可以在提取概率主题模型之前先进行词根还原; 
步骤S606:从该类别对应的文本集合中抽取概率主题模型; 
步骤S607:用户根据训练文本集的情况判断文本集当中是否含有噪声样本。如果训练文本集中含有噪声,则转到步骤S608;否则,直接转到步骤S609; 
步骤S608:利用步骤606抽取出来的概率主题模型对该类别的训练文本进行数据平滑处理,减弱噪声样本对训练文本集质量的影响; 
分类器的质量对文本分类的最终结果具有直接的影响,而分类器的质量很大程度上取决于训练文本集的质量。一般说来,训练文本集类别越准确、内容越全面,得到的分类器质量就越高。但是在实际应用中,这种全面准确的训练文本集是很难得到的,尤其是在数据规模很大的情况下,更是如此。在真实的文本分类应用中,训练数据一般都不可避免的含有噪声,这些噪声样本将对最终的分类结果产生重要影响。 
一般情况下,在含有噪声样本的数据中,每一个类别的噪声样本数目相对于该类别正常的样本数目来说是占少数的。抽取得到的概率主题模型总体上能够反映该类别的正确语义信息的。虽然会受到噪声样本的影响,通过该主题模型生成的新文本基本上还是比较接近该类别。 
但是为了进一步提高分类的效果,利用概率主题模型重新生成该类别对应的所有文本,替代原来的文本作为新的训练样本,可以达到数据平滑的效果,削弱噪声对最终分类器性能的影响。 
步骤S609:利用步骤S606抽取出来的概率主题模型生成新的该类别的文本,扩充该类别的规模。 
这里,概率主题模型生成类别平衡新文本的算法与上述步骤608进行数据平滑所生成新文本的方式相同。例如,这些新文本生成均可以采用图5实施例的步骤。 
步骤S610:由于文本集里面的词汇规模非常大,不可能也没有必要把 所有的词汇都作为特征项处理,因此本发明通过降维技术提取其中最有价值的一小部分词汇作为特征项。 
在一个实施例中,特征降维步骤包括:计算均衡训练文本集中每个单词的信息增益,并将每个单词的信息增益与预定阈值进行比较。将信息增益小于预定阈值的单词除去,剩下的即为选中的特征。或者,按照信息增益的大小将每个单词进行排序,除去信息增益较小的单词部分,剩下的即为被选中的特征。 
步骤S611:在上述处理过的训练样本集上构造分类器,分类器可根据需要自由选择。例如,使用支持向量机(Support Vector Machine,SVM)作为分类器。 
SVM分类的基本原理是将向量空间划分成两个不相交的空间,通过构造一个超平面,使特征空间中的特征落在平面的两侧,平面两侧的特征点属于不同的类别,这样就将空间中的点分作了两个不同的类别。在实际分类问题中,训练文本一般会有超过两个的类别,而SVM是对两个类的划分,为了解决这个问题,一般有两种方法,一种是构建一对一的分类器,对任意两个类别之间构建一个分类器,判断文本属于其中哪一个类别,然后根据投票原则将文本划分到投票最多的一个或几个类别中,按照这种方法,对k个类别的分类问题来说,就需要构建(k-1)*k个小的分类器;另外一种思路是构建多个一对多的分类器,对任意一个类别,构建一个分类器,判断文本“是否”属于该类别,或者求出文本属于各个类别的可能性,然后根据各个分类器的结果综合判断该文本属于哪个类别,对k个类别的分类问题来说,这种方法需要构建k个分类器。本发明目前采用第一种方法来处理多类分类问题,但并不限于这些方法。 
步骤S612:使用步骤S611构造的分类器对待分类的新文本进行分类。 
需要注意的是,任何其他特征降维方法与分类器方法都适用于本发明。例如,适合本发明的特征降维方法包括但不限于:文档频率法(DocumentFrequency,DF)、互信息法(Mutual Information,MI)、x2统计法(CHI)、特征词强度法(Term Strength,TS)潜在语义索引(Latent Semantic Indexing,LSI)、主成分分析(Primary Component Analysis)、因子分析(Factor Analysis)、Projection Pursuit、独立组件分析(Independent ComponentAnalysis,ICA)、随机映射(Random Projection,RP)等等;适合本发明的分类器方法包括但不限于:简单向量距离分类法、贝叶斯分类法、K最近邻学习算法、元分类器方法、决策树方法、神经网络方法等等。 
图7在上述实施例的基础上,给出了本发明实施例的文本分类方法对应的总体结构框架图。 
系统总体上分为离线分类器构造子系统和在线实时分类子系统两个部分。其中离线分类器构造子系统负责对训练文本集进行数据平滑、类别平衡处理,然后构造分类器供在线实时分类子系统使用;在线实时分类子系统通过使用离线分类器构造子系统构造的文本分类器对新文本进行实时分类。下面分别对这两个子系统进行具体描述。 
在离线分类器构造子系统中,首先根据文本分类系统的应用领域准备相应的原始训练文本集10。例如,如果系统将用来对医学文献分类,则应该准备医学文献方面的训练文本集。原始训练文本集中的文字未经过任何处理,因此需要使用停用词去除、词根还原等特征预处理技术把原始文本转换成“词袋”模式的文本形式。例如,原始文本“Can someone give me thetitle of a good VGA graphics programming book?”经过特征预处理后变成“someone give title good VGA graphic program book”,其中去掉了停用词“can”、“me”、“the”、“of”、“a”及问号,“graphics”、“programming”经词根还原变成“graphic”和“program”。经过特征预处理,从而得到训练文本集20。 
通过对经过特征预处理的训练文本集中各个类别分别抽取,从而得到对应的概率主题模型,例如使用Gibbs抽样算法得到LDA概率主题模型30(训练文本集中不同的类型对应不同的主题模型1、主题模型2...主题模型n)。 
利用LDA概率主题模型30可以进一步对训练文本集20进行数据平滑处理,从而文本集中噪声数据的影响被减弱了,得到了去噪训练文本集40。这时去噪训练文本集40中各个类别的比例还不平衡,使用LDA概率主题模型30对其进行类别平衡处理后,各个类别的规模都扩充到最大类别的规 模,因此各个类别在文本集中的比例是一样的,这样就得到了均衡训练文本集50。 
在对均衡训练文本集50进行特征降维之后,转化为向量矩阵形式,然后用来训练文本分类器,得到最终的分类器60,对其进行持久化保存,供在线实时分类子系统使用。 
在离线分类器构造子系统中,LDA概率主题模型的抽取、数据平滑、类别平衡、特征降维、分类器训练都需要较高的时间开销,不过由于该子系统是离线处理的,对实时性要求较低,这些时间开销是可以接受的并且不会影响系统的正常工作。 
在在线实时分类子系统中,首先从硬盘载入已经构造好的文本分类器60。当有新的文本需要进行分类时,先根据离线分类器构造子系统使用的特征降维技术,采用对应的特征空间映射方法,把新文本转化成文本分类器能够处理的特征向量形式。然后文本分类器60对这个特征向量进行实时分类,得到该文本的类别。在对新的文本进行实时分类时,特征空间映射的时间开销可以忽略不计。实时分类的时间开销取决于分类器处理单个特征向量的时间开销,目前多数分类器都能满足这种实时性要求。 
本发明提供了一种针对文本分类领域的基于概率主题模型的数据倾斜分类方法,通过从文本集上抽取出对应的概率主题模型,利用模型所反映的文本全局语义信息来提高数据倾斜下的文本分类效果。本发明通过对应的概率主题模型生成稀有类别的样本,扩大稀有类别在整个文本集的比例,从而达到数据平衡的效果。 
该方法利用文本所特有的语义特征来处理不平衡问题,概率主题模型实际上已经潜在地记录了对应类别的全局语义信息,通过概率主题模型生成的文本其谈论的话题仍然属于该类别的范畴。但是由于主题模型生成过程的特点,新生成的文本又与该类别已有文本具有相当的区别,保证了该类别文本内容的多样性。 
此外,通过利用概率主题模型对训练数据进行平滑,避免了噪声数据对分类器性能的影响,提高了训练数据的质量。把处理过的训练数据交付给分类器学习模块进行分类器的学习,最终改善数据倾斜条件下文本分类 的效果。 
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。 

Claims (9)

1.一种文本分类方法,其特征在于,所述分类方法包括以下步骤:
a)根据类别将初始训练文本集划分为多个子集,并从每个子集中抽取出对应的概率主题模型,其中每个子集包含相同类别的文本;
b)利用对应的概率主题模型生成新的文本来均衡所述多个子集的类别;
c)根据所述多个子集对应的均衡训练文本集构造分类器;以及
d)利用所述分类器进行文本分类,其中
所述步骤b包括:
确定包含最多文本数量的子集;
每个概率主题模型根据所述最多文本数量生成对应的新文本,其中所述新文本数量为所述最多文本数量与每个子集包含的文本数量的差值;以及
将所述新文本加入到对应的子集中。
2.如权利要求1所述的分类方法,其特征在于,所述概率主题模型为隐迪列彻莱特分配LDA概率主题模型。
3.如权利要求2所述的分类方法,其特征在于,所述概率主题模型生成新文本的步骤包括:
e1)根据泊松分布确定所述新文本的词符数目;
e2)根据所述概率主题模型的主题分布,随机选择一个主题作为当前词符的潜在主题;
e3)根据所述主题的单词分布,随机从所述主题包含的单词中选择一个单词作为当前词符对应的单词;
e4)将所述当前词符及对应的单词加入新文本中并处理下一个词符;
e5)重复上述步骤e2到步骤e4,直至所述新文本中的词符数目等于所述确定的词符数目。
4.如权利要求1所述的分类方法,其特征在于,还包括利用所述概率主题模型生成新的文本代替所述初始文本训练集包含的文本。
5.如权利要求1所述的分类方法,其特征在于,还包括对构造分类器的所述均衡训练文本集进行特征降维的步骤。
6.如权利要求5所述的分类方法,其特征在于,所述特征降维步骤包括:
计算所述均衡训练文本集中每个单词的信息增益;
将每个单词的信息增益与预定阈值进行比较;以及
将信息增益小于所述预定阈值的单词除去。
7.如权利要求5所述的分类方法,其特征在于,所述特征降维步骤包括:
计算所述均衡训练文本集中每个单词的信息增益;
按照信息增益的大小将每个单词进行排序;以及
除去信息增益较小的单词。
8.如权利要求1所述的分类方法,其特征在于,所述分类器为支持向量机。
9.如权利要求1所述的分类方法,其特征在于,还包括对所述初始训练文本集进行预处理的步骤,以过滤常用词以及进行词根还原。
CN2009101422866A 2009-06-29 2009-06-29 文本分类方法 Expired - Fee Related CN101587493B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101422866A CN101587493B (zh) 2009-06-29 2009-06-29 文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101422866A CN101587493B (zh) 2009-06-29 2009-06-29 文本分类方法

Publications (2)

Publication Number Publication Date
CN101587493A CN101587493A (zh) 2009-11-25
CN101587493B true CN101587493B (zh) 2012-07-04

Family

ID=41371741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101422866A Expired - Fee Related CN101587493B (zh) 2009-06-29 2009-06-29 文本分类方法

Country Status (1)

Country Link
CN (1) CN101587493B (zh)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150450A (ja) * 2010-01-20 2011-08-04 Sony Corp 情報処理装置、情報処理方法、およびプログラム
CN102163190B (zh) * 2010-02-20 2013-09-11 三星电子(中国)研发中心 文本特征提取策略制定方法及装置、文本分类方法及装置
US8521507B2 (en) 2010-02-22 2013-08-27 Yahoo! Inc. Bootstrapping text classifiers by language adaptation
CN101976270B (zh) * 2010-11-29 2012-04-25 南京师范大学 基于不确定推理的文本层次分类方法与装置
CN102541958A (zh) * 2010-12-30 2012-07-04 百度在线网络技术(北京)有限公司 一种用于识别短文本类别信息的方法、装置和计算机设备
CN102033964B (zh) * 2011-01-13 2012-05-09 北京邮电大学 基于块划分及位置权重的文本分类方法
WO2012106885A1 (zh) * 2011-07-13 2012-08-16 华为技术有限公司 基于潜在狄利克雷模型的参数推断方法、计算装置及系统
US9251250B2 (en) * 2012-03-28 2016-02-02 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for processing text with variations in vocabulary usage
CN103377262B (zh) * 2012-04-28 2017-09-12 国际商业机器公司 对用户进行分组的方法和装置
CN103106275B (zh) * 2013-02-08 2016-02-10 西北工业大学 基于特征分布信息的文本分类特征筛选方法
CN104348679B (zh) * 2013-08-08 2017-12-05 阿里巴巴集团控股有限公司 一种分桶测试的方法、装置和系统
EP3055786A4 (en) * 2013-10-09 2017-05-17 Google, Inc. Automatic definition of entity collections
CN103593470B (zh) * 2013-11-29 2016-05-18 河南大学 一种双度集成的不均衡数据流分类算法
CN103914445A (zh) * 2014-03-05 2014-07-09 中国人民解放军装甲兵工程学院 数据语义处理方法
CN105224557B (zh) * 2014-06-13 2019-06-11 华为技术有限公司 数据处理的方法及计算设备
CN104077417B (zh) * 2014-07-18 2018-05-22 中国科学院计算技术研究所 社交网络中的人物标签推荐方法和系统
CN104142998A (zh) * 2014-08-01 2014-11-12 中国传媒大学 一种文本分类方法
CN104468262B (zh) * 2014-11-17 2017-12-15 中国科学院信息工程研究所 一种基于语义敏感的网络协议识别方法及系统
CN106372052A (zh) * 2015-07-22 2017-02-01 北京国双科技有限公司 文本过滤处理方法及装置
CN105138508A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于偏好扩散的上下文推荐系统
CN105138665B (zh) * 2015-09-02 2017-06-20 东南大学 一种基于改进lda模型的互联网话题在线挖掘方法
CN106874291A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 文本分类的处理方法及装置
CN106326495A (zh) * 2016-09-27 2017-01-11 浪潮软件集团有限公司 一种基于话题模型的中文文本自动分类方法
CN106789895B (zh) * 2016-11-18 2020-03-27 东软集团股份有限公司 压缩文本检测方法和装置
CN106802940B (zh) * 2016-12-30 2019-06-07 东软集团股份有限公司 一种计算文本主题模型的方法及装置
CN107426177A (zh) * 2017-06-13 2017-12-01 努比亚技术有限公司 一种用户行为聚类分析方法及终端、计算机可读存储介质
CN107229614B (zh) * 2017-06-29 2020-11-10 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN107491417B (zh) * 2017-07-06 2021-06-22 复旦大学 一种基于特定划分的主题模型下的文档生成方法
CN109447937B (zh) * 2017-08-29 2021-07-06 中国移动通信有限公司研究院 一种图像处理模型的确定方法及其相关装置
WO2019071607A1 (zh) * 2017-10-09 2019-04-18 华为技术有限公司 一种语音信息处理方法、装置及终端
CN107943824A (zh) * 2017-10-17 2018-04-20 广东广业开元科技有限公司 一种基于lda的大数据新闻分类方法、系统及装置
CN107992824A (zh) * 2017-11-30 2018-05-04 努比亚技术有限公司 拍照处理方法、移动终端及计算机可读存储介质
CN108268632A (zh) * 2018-01-16 2018-07-10 中国人民解放军海军航空大学 异常情报数据识别机器学习方法
CN108416032B (zh) * 2018-03-12 2021-06-08 腾讯科技(深圳)有限公司 一种文本分类方法、装置及存储介质
CN109284486B (zh) * 2018-08-14 2023-08-22 重庆邂智科技有限公司 文本相似性度量方法、装置、终端及存储介质
CN109284385A (zh) * 2018-10-15 2019-01-29 平安科技(深圳)有限公司 基于机器学习的文本分类方法及终端设备
CN109726286B (zh) * 2018-12-24 2020-10-16 杭州东信北邮信息技术有限公司 一种基于lda主题模型的图书自动分类方法
CN112287667A (zh) * 2020-10-26 2021-01-29 北京明略昭辉科技有限公司 一种文本生成方法及设备
CN112241454B (zh) * 2020-12-14 2021-02-19 成都数联铭品科技有限公司 一种处理样本倾斜的文本分类方法
CN112667817B (zh) * 2020-12-31 2022-05-31 杭州电子科技大学 一种基于轮盘赌属性选择的文本情感分类集成系统
CN112463972B (zh) * 2021-01-28 2021-05-18 成都数联铭品科技有限公司 一种基于类别不均衡的文本样本分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1310825A (zh) * 1998-06-23 2001-08-29 微软公司 用于分类文本以及构造文本分类器的方法和装置
CN1936887A (zh) * 2005-09-22 2007-03-28 国家计算机网络与信息安全管理中心 基于类别概念空间的自动文本分类方法
CN101059796A (zh) * 2006-04-19 2007-10-24 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1310825A (zh) * 1998-06-23 2001-08-29 微软公司 用于分类文本以及构造文本分类器的方法和装置
CN1936887A (zh) * 2005-09-22 2007-03-28 国家计算机网络与信息安全管理中心 基于类别概念空间的自动文本分类方法
CN101059796A (zh) * 2006-04-19 2007-10-24 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法

Also Published As

Publication number Publication date
CN101587493A (zh) 2009-11-25

Similar Documents

Publication Publication Date Title
CN101587493B (zh) 文本分类方法
CN106815369B (zh) 一种基于Xgboost分类算法的文本分类方法
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN104331498B (zh) 一种对互联网用户访问的网页内容自动分类的方法
CN106202032A (zh) 一种面向微博短文本的情感分析方法及其系统
Sundus et al. A deep learning approach for arabic text classification
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
Ritu et al. Performance analysis of different word embedding models on bangla language
CN106021572A (zh) 二元特征词典的构建方法和装置
CN101604322A (zh) 一种决策级文本自动分类融合方法
CN101819583A (zh) 针对自动化本体生成领域语料库和字典
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN106339718A (zh) 一种基于神经网络的分类方法及装置
Rasheed et al. Urdu text classification: a comparative study using machine learning techniques
CN105045913A (zh) 基于WordNet以及潜在语义分析的文本分类方法
CN103020167A (zh) 一种计算机中文文本分类方法
CN101976270A (zh) 基于不确定推理的文本层次分类方法与装置
CN103268346A (zh) 半监督分类方法及系统
CN114896398A (zh) 一种基于特征选择的文本分类系统及方法
Singh et al. News classification system using machine learning approach
Imad et al. Automated Arabic News Classification using the Convolutional Neural Network.
Subhash et al. Fake News Detection Using Deep Learning and Transformer-Based Model
Chandana et al. BCC NEWS classification comparison between naive bayes, support vector machine, recurrent neural network
Salman Text classification based on weighted extreme learning machine

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120704

Termination date: 20180629