CN106844424B - 一种基于lda的文本分类方法 - Google Patents

一种基于lda的文本分类方法 Download PDF

Info

Publication number
CN106844424B
CN106844424B CN201611130300.7A CN201611130300A CN106844424B CN 106844424 B CN106844424 B CN 106844424B CN 201611130300 A CN201611130300 A CN 201611130300A CN 106844424 B CN106844424 B CN 106844424B
Authority
CN
China
Prior art keywords
text
topic
model
word
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611130300.7A
Other languages
English (en)
Other versions
CN106844424A (zh
Inventor
刘柏嵩
高元
王洋洋
尹丽玲
费晨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo University
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201611130300.7A priority Critical patent/CN106844424B/zh
Publication of CN106844424A publication Critical patent/CN106844424A/zh
Application granted granted Critical
Publication of CN106844424B publication Critical patent/CN106844424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Abstract

提供一种基于LDA的文本分类方法,提取特征词集输入文本分类模型计算文本归属预定A个类别中的每个类别的概率,取概率值最大的作为其所属类别;预先用训练语料按设定主题数K让LDA主题模型训练,获得K个主题关联词集合;还预先用类别明确的验证语料让文本分类模型进行验证,以获得其对A个类别中各类别的分类准确率;用文本分类模型分类时,如文本分类模型对该类别的分类准确率数值达到设定阈值的就直接输出结果;否则用LDA主题模型计算该篇文本对应K个主题的权重值,选取权重值最大的主题,并将该主题关联词中的前Y个词共同作为扩充后的特征词集,再次用文本分类模型分类;本发明场景适应性强,结果可用性高。

Description

一种基于LDA的文本分类方法
技术领域
本发明涉及一种基于LDA的文本分类方法。
背景技术
文本分类技术是信息检索与数据挖掘领域的核心技术,主要的算法包括贝叶斯、K最近邻、神经网络和SVM等。其中贝叶斯算法在进行文本分类时,假设特征之间是相互独立的,这样很大程度上简化了训练和分类过程,因此具有运行快速、易于实现等特点,目前已成为文本分类中广泛使用的一种方法,吸引了众多学者的关注。有人提出了一种基于期望最大化(EM)的朴素贝叶斯文本分类算法,提高了对未标注语料的利用率。还有人将朴素贝叶斯文本分类算法同SVM算法相结合,提高了分类的准确率。但面对复杂的应用场景及关系复杂的分类体系时分类器往往缺乏适应性,例如学科分类体系,类目数众多且关系复杂,很多学科与学科之间没有明显的界限,重叠现象较为严重。这样对于分类模型来说不确定性较大,加之没有辅助的额外信息,面对重叠的学科文本分类模型往往很难做出正确的判断。
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。主题是指某个定义好的专业领域或者兴趣领域,例如航天航空,生物医学,信息技术等,具体指一系列相关的词所组成的集合。文档到主题服从多项式分布,主题到词服从多项式分布。LDA是一种非监督机器学习技术,可以用来识别文档中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。LDA主题模型是自然语言处理中主题挖掘的典型模型,可以从文本语料中抽取潜在的主题,提供一个量化研究主题的方法,已经被广泛的应用到学术资源的主题发现中,如研究热点挖掘、研究主题演化、研究趋势预测等。
当然,专利文献是高度标准化的文献,其自身都具有明确的分类标志,大多数的学术论文自身都具有明确的分类标志,所以专利文献与大多数的学术论文的分类不成问题。但是,随着互联网的发现,互联网充塞着大量的各种新闻、博客、会议记要等各种方式的信息文本,这类信息文本或多或少包括学术相关的信息内容,而且往往包括最新的学术研究信息,为各类学科人士所关心,而这类信息文本杂乱无序,往往学科重叠,自身一般没有分类信息;现有技术对这类信息文本往往很难做出正确的自动分类。
本发明正是为了解决上述技术问题。
发明内容
本发明所要解决的技术问题是针对上述技术现状,提供一种文本分类优化方法。
本发明解决上述技术问题所采用的技术方案为:
一种基于LDA的文本分类方法,使用贝叶斯概率计算模型作为文本分类模型,提取最能体现该篇待分类文本特性的一组特征词作为用于输入文本分类模型的特征词集,原始特征词集就是将原始词集按特性权重排序后的前面部分,用所述文本分类模型计算所述特征词组合归属预定A个类别中的每个类别的概率,取概率值最大的类别作为其所属类别;其特征在于,使用LDA主题模型来辅助文本分类模型进行文本分类,所述LDA主题模型是一个“文档-主题-词”的三层贝叶斯生成模型;预先用训练语料按设定主题数K让LDA主题模型训练,利用LDA主题模型训练时的聚词功能在训练语料经LDA主题模型训练后获得按设定主题数K分别聚集成K个主题关联词集合;还预先用类别明确的验证语料按预定类别数A让所述文本分类模型进行分类验证,以获得文本分类模型对A个类别中的每个类别的分类准确率,作为文本分类模型对A个类别中的每个类别的归类可信度指标;该准确率为被文本分类模型分到某个类别的所有验证语料中属被正确分类的语料的比率,并预设分类准确率阈值;用所述文本分类模型对每一篇待分类文本进行文本分类时具体包括以下步骤:
步骤一、对每一篇待分类文本进行预处理,预处理包括分词、去停留词,并保留专有名词,分别计算该文本的经预处理后的所有词的特性权重,词的特性权重数值与在该文本中出现的次数成正比,与在所述训练语料中出现的次数成反比,将计算所得的词集按其特性权重数值大小降序排列,提取每一篇待分类文本原始词集的前面部分作为其特征词集;
步骤二、使用文本分类模型,选取每一篇待分类文本原始特征词集用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文本分类类别;
步骤三、对步骤二的文本分类结果进行判断,如果文本分类模型对该类别的分类准确率数值达到设定阈值就直接输出结果;如果文本分类模型对该类别的分类准确率数值未达到设定阈值,就进入步骤四;
步骤四、将每一篇经预处理的文本输入所述LDA主题模型,用LDA主题模型计算出该篇文本对应所设定的K个主题中的每个主题的权重值,选取权重值最大的主题,并将预先经LDA主题模型训练后所得到的该主题下的主题关联词中的前Y个词加入至该篇文本的原始特征词集之中共同作为扩充后的特征词集,再次使用文本分类模型,分别计算该篇文本可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文本最终分类类别。
以上所述方法的所述文本分类模型的主要计算公式为:
Figure GDA0002589624560000031
其中P(cj|x1,x2,…,xn)表示特征词(x1,x2,…,xn)同时出现时该文本属于类别cj的概率;其中P(cj)表示训练文本集中,属于类别cj的文本占总数的比率,P(x1,x2,…,xn|cj)表示如果待分类文本属于类别cj,则这篇文本的特征词集为(x1,x2,…,xn)的概率,p(x1,x2,…,xn)表示给定的特征词的联合概率。
按照通常将学科分类习惯,可将所有学科分为75个学科类别,即所述类别数A为75,所述文本分类模型进行分类验证时预设分类准确率阈值为80%。
利用LDA主题模型训练时设定主题数K为100至200个,所述步骤二使用文本分类模型,选取每一篇待分类文本原始词集中前20%至25%作为特征词用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值,所述步骤四主题关联词中的前Y个词中Y取值为10至20个词。
进一步的方案,利用LDA主题模型训练时设定主题数K为100个或150个,所述步骤二使用文本分类模型,选取每一篇待分类文本原始词集的前22%作为特征词用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值,所述步骤四主题关联词中的前Y个词中Y取值为15个词。
所述主题模型训练的关键是对隐含变量分布的推断,即获取目标文本的隐含文本-主题分布θ和主题-词分布φ,若给定模型参数α,β,则文本d的随机变量θ、z和w的联合分布为:
Figure GDA0002589624560000033
以上所述方法在训练过程中,算法只对主题变量zi进行抽样,其条件概率计算公式如下:
Figure GDA0002589624560000032
其中,等式左边含义为:当前词wi在已知其他词各自所属主题的条件下,该词属于主题k的概率;等式右边ni-1为第k个主题下第i个单词个数减去1;nk-1为该文档第k个主题的个数减去1;第一个乘子为wi这个词在k号主题下的概率;第二个乘子为第k个主题在该篇文档里的概率。
以上方法可采用Gibbs抽样算法来提取模型参数,抽样具体子步骤为:
a)初始化,为每个词wi随机分配主题,zi是词的主题,将zi初始化为1到K之间的一个随机整数,i从1到N,N为文本集的特征词记号,此为Markov链的初始态;
b)i从1循环到N,根据公式(2)计算当前词wi属于各个主题的概率,并依此概率对词wi重新抽样主题,获得Markov链的下一状态;
c)迭代子步骤(b)足够次数后,认为Markov链已达稳态,至此这篇文档的每个词都有一个特定的所属主题;对于每篇文档,文本-主题分布θ和主题-词分布φ的值可按下列公式估算:
Figure GDA0002589624560000041
其中,
Figure GDA0002589624560000042
表示特征词w分配给主题k的次数,
Figure GDA0002589624560000043
表示分配给主题k的特征词数,
Figure GDA0002589624560000044
表示文本d中分配给主题k的特征词数,
Figure GDA0002589624560000045
表示文本d中所有分配了主题的特征词数。
本发明该优化算法与传统的Bayes算法相比,无论是采用原始特征集还是无选择地使用扩展后的特征集,在性能上都有所提高和改进。这样面向复杂的应用场景,采用选择性特征扩展文本分类算法切实可行。
针对复杂的分类体系,例如学科分类体系,类目数众多且关系复杂,很多学科与学科之间没有明显的界限,重叠现象较为严重,这样对于分类模型来说不确定性较大,如果输入特征信息量较少,加之没有辅助的额外信息,面对重叠的学科贝叶斯模型很难做出正确的判断。本发明从扩充贝叶斯模型输入信息量的角度出发,利用训练好的LDA主题模型提取数据的主题信息,之后把最大主题下最能代表该主题的前若干个词扩充到原始特征词集中。实验中发现,若不加选择的对所有数据进行特征扩展,那么对于信息量充足的数据来说,扩展后特征存在噪音的可能性比较大的问题,进而影响到这类数据的分类效果;而对于信息量不足的数据来说对其扩展主题特征信息显得很有必要,能够提升分类效果。实验表明,这样有选择地扩展主题特征信息可以有效地提高当前应用场景中的分类模型的性能。
由于大数据时代的到来,资源分类面临的挑战越来越大,不同的应用场景需要采用不同的分类技术,不存在一项技术适合所有的分类任务。本发明提出的基于选择性特征扩展的方法适合复杂的应用场景,有选择的对信息量少的数据增加主题信息,同时避免对信息量充足的数据增加噪音,并且该方法具有普遍的适应性。本发明为文本分类模型的优化提供了一种思路,且具有场景适应性强,结果可用性高,模型易于更新和维护的特点。
附图说明
图1为本发明文本分类方法流程示意图;
图2为LDA模型示意图;
图3为某一文本预处理前的文本示意图;
图4为某一文本预处理后的文本示意图;
图5为训练语料经LDA主题模型训练后主题与主题文档示意图;
图6为三次实验在部分学科上的查全率示意图;
图7为三次实验在部分学科上的查准率示意图。
具体实施方式
以下详细说明本发明的具体实施方式。
一种基于LDA的文本分类方法,如图1所示,使用贝叶斯概率计算模型作为文本分类模型,提取最能体现该篇待分类文本特性的一组特征词作为用于输入文本分类模型的特征词集,原始特征词集就是将原始词集按特性权重排序后的前面部分,用文本分类模型计算所述特征词组合归属预定A个类别中的每个类别的概率,取概率值最大的类别作为其所属类别;按照通常将学科分类习惯,可将所有学科分为75个学科类别,即类别数A为75。使用LDA主题模型来辅助文本分类模型进行文本分类,LDA主题模型是一个“文档-主题-词”的三层贝叶斯生成模型,如图2所示;预先用训练语料按设定主题数K让LDA主题模型训练,当然训练前需对每一篇训练语料进行预处理,预处理包括分词、去停留词;利用LDA主题模型训练时的聚词功能在训练语料经LDA主题模型训练后获得按设定主题数K分别聚集成K个主题关联词集合,主题关联词集合也称作主题文档;利用LDA主题模型训练时可设定主题数K为100至200个,优选主题数K为100个或150个;可从网上随机爬取各个学科各种形式的文献,篇幅很长但有规范摘要的论文之类的文献可仅取其摘要,也可使用现成的数据库,作为训练语料,文献篇数应当达到相当数量规模,至少几万篇,多至几百万篇。如选取主题数K为100,LDA主题模型运算训练过程中就会将训练语料的所有单词分别聚集成100个主题关联词集合,即100个主题文档;我们可以根据各个集合词的含义人为的命名各个主题名称,也可以不命名各个主题名称,而仅以数字编号或代号以示分别,其中3个主题文档如图5所示。还预先用类别明确的验证语料按预定类别数A让文本分类模型进行分类验证,以获得文本分类模型对A个类别中的每个类别的分类准确率,作为文本分类模型对A个类别中的每个类别的归类可信度指标;该准确率为被文本分类模型分到某个类别的所有验证语料中属被正确分类的语料的比率,并预设分类准确率阈值;文本分类模型进行分类验证时预设分类准确率阈值为80%较为合适。用文本分类模型对每一篇待分类文本进行文本分类时具体包括以下步骤:
步骤一、对每一篇待分类文本进行预处理,预处理包括分词、去停留词,并保留专有名词,如某一文本预处理前如图3所示,预处理后如图3所示。再分别计算该文本的经预处理后的所有词的特性权重,词的特性权重数值与在该文本中出现的次数成正比,与在所述训练语料中出现的次数成反比,将计算所得的词集按其特性权重数值大小降序排列,提取每一篇待分类文本原始词集的前面部分作为其特征词集。
步骤二、使用文本分类模型,选取每一篇待分类文本原始特征词集用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文本分类类别;
步骤三、对步骤二的文本分类结果进行判断,如果文本分类模型对该类别的分类准确率数值达到设定阈值就直接输出结果;如果文本分类模型对该类别的分类准确率数值未达到设定阈值,就进入步骤四;
步骤四、将每一篇经预处理的文本输入所述LDA主题模型,用LDA主题模型计算出该篇文本对应所设定的K个主题中的每个主题的权重值,选取权重值最大的主题,并将预先经LDA主题模型训练后所得到的该主题下的主题关联词中的前Y个词加入至该篇文本的原始特征词集之中共同作为扩充后的特征词集,再次使用文本分类模型,分别计算该篇文本可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文本最终分类类别。具体可取10至20个词,如取主题关联词中的前15个词加入至该篇文本的原始特征词集之中共同作为扩充后的特征词集;即使新加入的词与原始特征词有重复也没关系。
文本分类模型的主要计算公式为:
Figure GDA0002589624560000061
其中P(cj|x1,x2,…,xn)表示特征词(x1,x2,…,xn)同时出现时该文本属于类别cj的概率;其中P(cj)表示训练文本集中,属于类别cj的文本占总数的比率,P(x1,x2,…,xn|cj)表示如果待分类文本属于类别cj,则这篇文本的特征词集为(x1,x2,…,xn)的概率,p(x1,x2,…,xn)表示给定的特征词的联合概率。
显然,对于给定的所有类别,分母P(c1,c2,…,cn)是一个常数,模型分类结果为(1)式中概率最大的类别,求解(6)式的最大值可转化为求解下式的最大值
Figure GDA0002589624560000062
又根据贝叶斯假设,文本特征向量属性x1,x2,…,xn独立同分布,其联合概率分布等于各个属性特征概率分布的乘积,即:
P(x1,x2,…,xn|cj)=∏iP(xi|cj) (8)
所以(7)式变为:
Figure GDA0002589624560000074
即为所求的用于分类的分类函数。
分类函数中的概率值P(cj)和P(xi|cj)还是未知的,因此,为了计算分类函数的最大值,(9)式中的先验概率值分别估计如下:
Figure GDA0002589624560000071
其中,N(C=cj)表示训练文本中属于cj类别的样本数量;N表示训练样本总数量。
Figure GDA0002589624560000072
其中,N(Xi=xi,C=cj)表示类别cj中包含属性xi的训练样本数量;N(C=cj)表示类别cj中的训练样本数量;M表示训练样本集合中经过去除无用词后关键词的数量。
LDA是Blei等人在2003年提出的一种对离散数据集建模的统计主题模型,是一个“文档-主题-词”的三层贝叶斯生成模型。最初的模型只对“文档-主题”概率分布引入一个超参数使其服从Dirichlet分布,随后Griffiths等人对“主题-词”概率分布也引入了一个超参数使其服从Dirichlet分布。LDA模型如图2所示。其中:N为这篇文档的单词数量,M为文档集中的文档数量,K为主题个数,φ为主题-词的概率分布,θ为文档-主题的概率分布,Z为隐含变量表示主题,W为词,α为θ的超参,β为φ的超参。
LDA主题模型把一篇文档看作是一组词的集合,词与词之间没有先后顺序,而且一篇文档可以包含多个主题,文档中每个词都是由某个主题生成,同一个词也可以属于不同的主题,因此LDA主题模型是一种典型的词袋模型。
训练LDA模型的关键是隐含变量分布的推断,即获取目标文本的隐含文本-主题分布θ和主题-词分布φ,若给定模型参数α,β,文本d的随机变量θ、z和w的联合分布为:
Figure GDA0002589624560000073
由于上式同时存在多个隐含变量,直接计算θ,φ是不可能的,所以需要对参数进行估计推断,目前常见的参数估计算法有期望最大化(Expectation Maximization,EM)、变分贝叶斯推理和Gibbs抽样。本文采用Gibbs抽样进行模型参数的推断,Griffiths指出Gibbs抽样在Perplexity值和训练速度等方面均优于变分贝叶斯推理和EM算法。EM算法由于其似然函数局部最大化问题往往导致模型找到的是局部最优解,而变分贝叶斯推理得到的模型与真实情况有所偏差,Gibbs抽样能快速有效的从大规模数据集中提取主题信息,成为目前最流行的LDA模型提取算法。
MCMC是一套从复杂概率分布中抽取样本值的近似迭代方法,Gibbs抽样作为MCMC的一种简单实现形式,目的是构造收敛于特定分布的Markov链,并从链中抽取接近目标概率分布值的样本。在训练过程中,算法只对主题变量zi进行抽样,其条件概率计算公式如下:
Figure GDA0002589624560000081
其中,等式左边含义为:当前词wi在已知其他词各自所属主题的条件下,该词属于主题k的概率;等式右边ni-1为第k个主题下第i个单词个数减去1;nk-1为该文档第k个主题的个数减去1;第一个乘子为wi这个词在k号主题下的概率;第二个乘子为第k个主题在该篇文档里的概率。
Gibbs抽样具体步骤为:
1)初始化,为每个词wi随机分配主题,zi是词的主题,将zi初始化为1到K之间的一个随机整数,i从1到N,N为文本集的特征词记号,此为Markov链的初始态;
2)i从1循环到N,根据公式(2)计算当前词wi属于各个主题的概率,并依此概率对词wi重新抽样主题,获得Markov链的下一状态;
迭代步骤2)足够次数后,认为Markov链已达稳态,至此这篇文档的每个词都有一个特定的所属主题;对于每篇文档,文本-主题分布θ和主题-词分布φ的值可按下列公式估算:
Figure GDA0002589624560000082
其中,
Figure GDA0002589624560000083
表示特征词w分配给主题k的次数,
Figure GDA0002589624560000084
表示分配给主题k的特征词数,
Figure GDA0002589624560000085
表示文本d中分配给主题k的特征词数,
Figure GDA0002589624560000087
表示文本d中所有分配了主题的特征词数。
作为文本分类模型可信度指标的分类准确率,是通过概率来计算的,具体公式如下:
Figure GDA0002589624560000086
其中,i表示类别,Ni表示分类器正确预测i类别的次数,Mi表示分类器预测i类别的总次数。
可采用查准率P,查全率R和两者的综合评价指标F1作为最终的评价指标,查准率P衡量的是正确判定该类别的测试样本占判定为该类别的测试样本的比例,查全率R衡量的是正确判定该类别测试样本占该类别所有测试样本的比例。以某类别Ci为例,n++表示正确判定样本属于类别Ci的数量,n+-表示不属于但却被判定为类别Ci的样本数,n-+表示属于但被判定为不属于类别Ci的样本数。对于类别Ci而言,查全率R、查准率P和综合指标F1值为:
Figure GDA0002589624560000091
在训练LDA模型阶段,由于训练样本较大,且类别较多,设置的主题数范围是70~200(间隔10),发明者经过多次实验,比较效果最终综合多方面因素确定模型参数如下:
表1 LDA模型相关参数
Figure GDA0002589624560000092
发明者在LDA和贝叶斯模型训练完成后,曾进行了三组实验:实验一,基于原始特征集进行分类器性能测试;实验二,基于扩充后的特征集进行分类器性能测试;实验三,基于选择性特征扩展后的特征集进行分类器性能测试,其中可信度阈值设置为0.8。表2为三次实验在部分学科上的查全率和查准率:
表2 部分学科的查全率和查准率
Figure GDA0002589624560000093
Figure GDA0002589624560000101
由表2可知,基于原始特征集进行实验时,历史学查全率较高,而查准率较低,说明有较多的不属于历史学学科的数据被分类器归为了历史学,同时发现科学技术史学科查全率较低,说明有很多本属于这个学科的数据被归为了其他学科,由于这两个学科主题十分类似,这很有可能是分类器把较多属于科学技术史的数据归类为历史学。类似的情况同样出现在了地质资源与地质工程学科和地质学学科上。基于扩展后特征集对上面的问题有所改善,但对之前识别度高的学科产生了影响。而进行选择性特征扩展一方面避免了对识别度高的学科产生影响,另一方面对本身由于信息量不足引起识别度低的学科有一定程度上的改善。
根据上面的实验结果可以计算出三次实验各自的平均查全率、平均查准率和平均F1值。结果如下:
表3 实验对比
Figure GDA0002589624560000102
由表3可以看出,面对复杂的分类场景,本发明基于选择性特征扩展的方法相比于基于原始特征集或基于扩展后的特征集的方法具有更好的适应性,平均查全率、平均查准率和平均F1值明显高于其它方案,能够达到较好的实用效果。
图6为三次实验在部分学科上的查全率示意图;图7为三次实验在部分学科上的查准率示意图。
由于大数据时代的到来,资源分类面临的挑战越来越大,不同的应用场景需要采用不同的分类技术,不存在一项技术适合所有的分类任务。本发明提出的基于选择性特征扩展的方法适合复杂的应用场景,有选择的对信息量少的数据增加主题信息,同时避免对信息量充足的数据增加噪音,并且本发明方法具有普遍的适应性。

Claims (8)

1.一种基于LDA的文本分类方法,使用贝叶斯概率计算模型作为文本分类模型,提取最能体现该篇待分类文本特性的一组特征词作为用于输入文本分类模型的特征词集,用所述文本分类模型计算所述特征词组合归属预定A个类别中的每个类别的概率,取概率值最大的类别作为其所属类别;其特征在于,使用LDA主题模型来辅助文本分类模型进行文本分类,所述LDA主题模型是一个“文档-主题-词”的三层贝叶斯生成模型;预先用训练语料按设定主题数K让LDA主题模型训练,利用LDA主题模型训练时的聚词功能在训练语料经LDA主题模型训练后获得按设定主题数K分别聚集成K个主题关联词集合;还预先用类别明确的验证语料按预定类别数A让所述文本分类模型进行分类验证,以获得文本分类模型对A个类别中的每个类别的分类准确率,作为文本分类模型对A个类别中的每个类别的归类可信度指标;该准确率为被文本分类模型分到某个类别的所有验证语料中属被正确分类的语料的比率,并预设分类准确率阈值;用所述文本分类模型对每一篇待分类文本进行文本分类时具体包括以下步骤:
步骤一、对每一篇待分类文本进行预处理,预处理包括分词、去停留词,并保留专有名词,分别计算该文本的经预处理后的所有词的特性权重,词的特性权重数值与在该文本中出现的次数成正比,与在所述训练语料中出现的次数成反比,将计算所得的词集按其特性权重数值大小降序排列,提取每一篇待分类文本原始词集的前面部分作为其特征词集;
步骤二、使用文本分类模型,选取每一篇待分类文本原始特征词集用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文本分类类别;
步骤三、对步骤二的文本分类结果进行判断,如果文本分类模型对该类别的分类准确率数值达到设定阈值就直接输出结果;如果文本分类模型对该类别的分类准确率数值未达到设定阈值,就进入步骤四;
步骤四、将每一篇经预处理的文本输入所述LDA主题模型,用LDA主题模型计算出该篇文本对应所设定的K个主题中的每个主题的权重值,选取权重值最大的主题,并将预先经LDA主题模型训练后所得到的该主题下的主题关联词中的前Y个词加入至该篇文本的原始特征词集之中共同作为扩充后的特征词集,再次使用文本分类模型,分别计算该篇文本可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文本最终分类类别。
2.如权利要求1所述的文本分类优化方法,其特征在于,所述文本分类模型的主要计算公式为:
Figure FDA0002589624550000011
其中P(cj|x1,x2,…,xn)表示特征词(x1,x2,…,xn)同时出现时该文本属于类别cj的概率;其中P(cj)表示训练文本集中,属于类别cj的文本占总数的比率,P(x1,x2,…,xn|cj)表示如果待分类文本属于类别cj,则这篇文本的特征词集为(x1,x2,…,xn)的概率,p(x1,x2,…,xn)表示给定的特征词的联合概率。
3.如权利要求1所述的文本分类优化方法,其特征在于,将所有学科分为75个学科类别,即所述类别数A为75,所述文本分类模型进行分类验证时预设分类准确率阈值为80%。
4.如权利要求1所述的文本分类优化方法,其特征在于,利用LDA主题模型训练时设定主题数K为100至200个,所述步骤二使用文本分类模型,选取每一篇待分类文本原始词集中前20%至25%作为特征词用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值,所述步骤四主题关联词中的前Y个词中Y取值为10至20个词。
5.如权利要求4所述的文本分类优化方法,其特征在于,利用LDA主题模型训练时设定主题数K为100个或150个,所述步骤二使用文本分类模型,选取每一篇待分类文本原始词集的前22%作为特征词用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值,所述步骤四主题关联词中的前Y个词中Y取值为15个词。
6.如权利要求1所述的文本分类方法,其特征在于,所述主题模型训练的关键是对隐含变量分布的推断,即获取目标文本的隐含文本-主题分布θ和主题-词分布φ,若给定模型参数α,β,则文本d的随机变量θ、z和w的联合分布为:
Figure FDA0002589624550000021
7.如权利要求6所述的文本分类方法,其特征在于,在训练过程中,算法只对主题变量zi进行抽样,其条件概率计算公式如下:
Figure FDA0002589624550000022
其中,等式左边含义为:当前词wi在已知其他词各自所属主题的条件下,该词属于主题k的概率;等式右边ni-1为第k个主题下第i个单词个数减去1;nk-1为该文档第k个主题的个数减去1;第一个乘子为wi这个词在k号主题下的概率;第二个乘子为第k个主题在该篇文档里的概率。
8.如权利要求7所述的文本分类方法,其特征在于,采用Gibbs抽样算法来提取模型参数,抽样具体子步骤为:
a)初始化,为每个词wi随机分配主题,zi是词的主题,将zi初始化为1到K之间的一个随机整数,i从1到N,N为文本集的特征词记号,此为Markov链的初始态;
b)i从1循环到N,根据公式(2)计算当前词wi属于各个主题的概率,并依此概率对词wi重新抽样主题,获得Markov链的下一状态;
c)迭代子步骤(b)足够次数后,认为Markov链已达稳态,至此这篇文档的每个词都有一个特定的所属主题;对于每篇文档,文本-主题分布θ和主题-词分布φ的值可按下列公式估算:
Figure FDA0002589624550000031
其中,
Figure FDA0002589624550000032
表示特征词w分配给主题k的次数,
Figure FDA0002589624550000033
表示分配给主题k的特征词数,
Figure FDA0002589624550000034
表示文本d中分配给主题k的特征词数,
Figure FDA0002589624550000035
表示文本d中所有分配了主题的特征词数。
CN201611130300.7A 2016-12-09 2016-12-09 一种基于lda的文本分类方法 Active CN106844424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611130300.7A CN106844424B (zh) 2016-12-09 2016-12-09 一种基于lda的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611130300.7A CN106844424B (zh) 2016-12-09 2016-12-09 一种基于lda的文本分类方法

Publications (2)

Publication Number Publication Date
CN106844424A CN106844424A (zh) 2017-06-13
CN106844424B true CN106844424B (zh) 2020-11-03

Family

ID=59140638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611130300.7A Active CN106844424B (zh) 2016-12-09 2016-12-09 一种基于lda的文本分类方法

Country Status (1)

Country Link
CN (1) CN106844424B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402994B (zh) * 2017-07-17 2021-01-19 云润大数据服务有限公司 一种多元组层次划分的分类方法及装置
CN107423398B (zh) * 2017-07-26 2023-04-18 腾讯科技(上海)有限公司 交互方法、装置、存储介质和计算机设备
CN107609121B (zh) * 2017-09-14 2021-03-30 暨南大学 基于LDA和word2vec算法的新闻文本分类方法
CN108052520A (zh) * 2017-11-01 2018-05-18 平安科技(深圳)有限公司 基于主题模型的关联词分析方法、电子装置及存储介质
CN108052556A (zh) * 2017-11-29 2018-05-18 成都东方盛行电子有限责任公司 一种基于大数据的分类方法
CN108376148A (zh) * 2018-01-24 2018-08-07 西安交通大学 一种基于数据隐结构分析的基站聚类检测方法
CN108416032B (zh) * 2018-03-12 2021-06-08 腾讯科技(深圳)有限公司 一种文本分类方法、装置及存储介质
CN108563722B (zh) * 2018-04-03 2021-04-02 有米科技股份有限公司 文本信息的行业分类方法、系统、计算机设备和存储介质
CN108595593B (zh) * 2018-04-19 2021-11-23 南京大学 基于主题模型的会议研究热点与发展趋势信息分析方法
CN109101518B (zh) * 2018-05-21 2022-03-22 全球能源互联网研究院有限公司 语音转录文本质量评估方法、装置、终端及可读存储介质
CN108920508A (zh) * 2018-05-29 2018-11-30 福建新大陆软件工程有限公司 基于lda算法的文本分类模型训练方法及系统
CN109145288A (zh) * 2018-07-11 2019-01-04 西安电子科技大学 基于变分自编码模型的文本深度特征提取方法
CN109389418A (zh) * 2018-08-17 2019-02-26 国家电网有限公司客户服务中心 基于lda模型的供电服务客户诉求识别方法
CN109189926B (zh) * 2018-08-28 2022-04-12 中山大学 一种科技论文语料库的构建方法
CN109446321B (zh) * 2018-10-11 2021-08-27 达闼机器人有限公司 一种文本分类方法、装置、终端及计算机可读存储介质
EP3867830A1 (en) * 2018-10-15 2021-08-25 Koninklijke Philips N.V. Adapting prediction models
CN111368534A (zh) * 2018-12-25 2020-07-03 中国移动通信集团浙江有限公司 一种应用日志降噪方法及装置
CN109873755B (zh) * 2019-03-02 2021-01-01 北京亚鸿世纪科技发展有限公司 一种基于变体词识别技术的垃圾短信分类引擎
CN110046664A (zh) * 2019-04-16 2019-07-23 中国石油大学(华东) 一种油田安全突出问题检测方法
CN110807314A (zh) * 2019-09-19 2020-02-18 平安科技(深圳)有限公司 文本情感分析模型训练方法、装置、设备及可读存储介质
CN110851592B (zh) * 2019-09-19 2022-04-05 昆明理工大学 一种基于聚类的新闻文本最优主题数计算方法
CN110825850B (zh) * 2019-11-07 2022-07-08 哈尔滨工业大学(深圳) 一种自然语言主题分类方法及装置
CN110853672B (zh) * 2019-11-08 2022-04-01 山东师范大学 一种用于音频场景分类的数据扩充方法及装置
CN111339287B (zh) * 2020-02-24 2023-04-21 成都网安科技发展有限公司 摘要生成方法及装置
CN113378556B (zh) * 2020-02-25 2023-07-14 华为技术有限公司 提取文本关键字的方法及装置
CN111506785B (zh) * 2020-03-06 2023-07-07 之江实验室 基于社交文本的网络舆情话题识别方法和系统
CN111625650A (zh) * 2020-06-01 2020-09-04 领猎网络科技(上海)有限公司 一种文本归类方法
CN111859979A (zh) * 2020-06-16 2020-10-30 中国科学院自动化研究所 讽刺文本协同识别方法、装置、设备及计算机可读介质
CN112667806A (zh) * 2020-10-20 2021-04-16 上海金桥信息股份有限公司 一种使用lda的文本分类筛选方法
CN113407713B (zh) * 2020-10-22 2024-04-05 腾讯科技(深圳)有限公司 基于主动学习的语料挖掘方法、装置及电子设备
CN112836507B (zh) * 2021-01-13 2022-12-09 哈尔滨工程大学 一种领域文本主题抽取方法
CN113704471B (zh) * 2021-08-26 2024-02-02 唯品会(广州)软件有限公司 语句的分类方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622373A (zh) * 2011-01-31 2012-08-01 中国科学院声学研究所 一种基于tf*idf算法的统计学文本分类系统及方法
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100583101C (zh) * 2008-06-12 2010-01-20 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
KR101448550B1 (ko) * 2012-11-21 2014-10-13 서울대학교산학협력단 트래픽 분류 장치 및 방법
CN103778207B (zh) * 2014-01-15 2017-03-01 杭州电子科技大学 基于lda的新闻评论的话题挖掘方法
JP6176730B2 (ja) * 2014-02-19 2017-08-09 Kddi株式会社 クラスタリング装置、方法及びプログラム
CN103914445A (zh) * 2014-03-05 2014-07-09 中国人民解放军装甲兵工程学院 数据语义处理方法
CN104850617B (zh) * 2015-05-15 2018-04-20 百度在线网络技术(北京)有限公司 短文本处理方法及装置
CN105005616B (zh) * 2015-07-20 2018-05-29 清华大学 基于文本图片特征交互扩充的文本图解方法及系统
CN106021388A (zh) * 2016-05-11 2016-10-12 华南理工大学 基于lda主题聚类的微信公众号的分类方法
CN106055596A (zh) * 2016-05-23 2016-10-26 南开大学 一种多标签在线新闻读者情绪预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622373A (zh) * 2011-01-31 2012-08-01 中国科学院声学研究所 一种基于tf*idf算法的统计学文本分类系统及方法
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法

Also Published As

Publication number Publication date
CN106844424A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106844424B (zh) 一种基于lda的文本分类方法
CN108595632B (zh) 一种融合摘要与主体特征的混合神经网络文本分类方法
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN107085581B (zh) 短文本分类方法和装置
CN108363816A (zh) 基于句义结构模型的开放式实体关系抽取方法
CN111027595B (zh) 双阶段语义词向量生成方法
CN105389379A (zh) 一种基于文本分布式特征表示的垃圾稿件分类方法
CN105354333A (zh) 一种基于新闻文本的话题提取方法
CN101021838A (zh) 文本处理方法和系统
CN107066555A (zh) 面向专业领域的在线主题检测方法
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
CN113139599B (zh) 一种融合词向量扩充和主题模型的服务分布式聚类方法
Bhutada et al. Semantic latent dirichlet allocation for automatic topic extraction
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Van et al. Vietnamese news classification based on BoW with keywords extraction and neural network
CN111259156A (zh) 一种面向时间序列的热点聚类方法
Parvathi et al. Identifying relevant text from text document using deep learning
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
CN113032573A (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
CN109284392B (zh) 一种文本分类方法、装置、终端及存储介质
CN117057349A (zh) 新闻文本关键词抽取方法、装置、计算机设备和存储介质
US20230259761A1 (en) Transfer learning system and method for deep neural network
Chen et al. Research on text categorization model based on LDA—KNN
CN115129890A (zh) 回馈数据图谱生成方法、生成设备、问答设备及冰箱

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant