CN106844424B

CN106844424B - 一种基于lda的文本分类方法

Info

Publication number: CN106844424B
Application number: CN201611130300.7A
Authority: CN
Inventors: 刘柏嵩; 高元; 王洋洋; 尹丽玲; 费晨杰
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2020-11-03
Anticipated expiration: 2036-12-09
Also published as: CN106844424A

Abstract

提供一种基于LDA的文本分类方法，提取特征词集输入文本分类模型计算文本归属预定A个类别中的每个类别的概率，取概率值最大的作为其所属类别；预先用训练语料按设定主题数K让LDA主题模型训练，获得K个主题关联词集合；还预先用类别明确的验证语料让文本分类模型进行验证，以获得其对A个类别中各类别的分类准确率；用文本分类模型分类时，如文本分类模型对该类别的分类准确率数值达到设定阈值的就直接输出结果；否则用LDA主题模型计算该篇文本对应K个主题的权重值，选取权重值最大的主题，并将该主题关联词中的前Y个词共同作为扩充后的特征词集，再次用文本分类模型分类；本发明场景适应性强，结果可用性高。

Description

一种基于LDA的文本分类方法

技术领域

本发明涉及一种基于LDA的文本分类方法。

背景技术

文本分类技术是信息检索与数据挖掘领域的核心技术，主要的算法包括贝叶斯、K最近邻、神经网络和SVM等。其中贝叶斯算法在进行文本分类时，假设特征之间是相互独立的，这样很大程度上简化了训练和分类过程，因此具有运行快速、易于实现等特点，目前已成为文本分类中广泛使用的一种方法，吸引了众多学者的关注。有人提出了一种基于期望最大化(EM)的朴素贝叶斯文本分类算法，提高了对未标注语料的利用率。还有人将朴素贝叶斯文本分类算法同SVM算法相结合，提高了分类的准确率。但面对复杂的应用场景及关系复杂的分类体系时分类器往往缺乏适应性，例如学科分类体系，类目数众多且关系复杂，很多学科与学科之间没有明显的界限，重叠现象较为严重。这样对于分类模型来说不确定性较大，加之没有辅助的额外信息，面对重叠的学科文本分类模型往往很难做出正确的判断。

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。主题是指某个定义好的专业领域或者兴趣领域，例如航天航空，生物医学，信息技术等，具体指一系列相关的词所组成的集合。文档到主题服从多项式分布，主题到词服从多项式分布。LDA是一种非监督机器学习技术，可以用来识别文档中潜藏的主题信息。它采用了词袋(bag of words)的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。LDA主题模型是自然语言处理中主题挖掘的典型模型，可以从文本语料中抽取潜在的主题，提供一个量化研究主题的方法，已经被广泛的应用到学术资源的主题发现中，如研究热点挖掘、研究主题演化、研究趋势预测等。

当然，专利文献是高度标准化的文献，其自身都具有明确的分类标志，大多数的学术论文自身都具有明确的分类标志，所以专利文献与大多数的学术论文的分类不成问题。但是，随着互联网的发现，互联网充塞着大量的各种新闻、博客、会议记要等各种方式的信息文本，这类信息文本或多或少包括学术相关的信息内容，而且往往包括最新的学术研究信息，为各类学科人士所关心，而这类信息文本杂乱无序，往往学科重叠，自身一般没有分类信息；现有技术对这类信息文本往往很难做出正确的自动分类。

本发明正是为了解决上述技术问题。

发明内容

本发明所要解决的技术问题是针对上述技术现状，提供一种文本分类优化方法。

本发明解决上述技术问题所采用的技术方案为：

一种基于LDA的文本分类方法，使用贝叶斯概率计算模型作为文本分类模型，提取最能体现该篇待分类文本特性的一组特征词作为用于输入文本分类模型的特征词集，原始特征词集就是将原始词集按特性权重排序后的前面部分，用所述文本分类模型计算所述特征词组合归属预定A个类别中的每个类别的概率，取概率值最大的类别作为其所属类别；其特征在于，使用LDA主题模型来辅助文本分类模型进行文本分类，所述LDA主题模型是一个“文档-主题-词”的三层贝叶斯生成模型；预先用训练语料按设定主题数K让LDA主题模型训练，利用LDA主题模型训练时的聚词功能在训练语料经LDA主题模型训练后获得按设定主题数K分别聚集成K个主题关联词集合；还预先用类别明确的验证语料按预定类别数A让所述文本分类模型进行分类验证，以获得文本分类模型对A个类别中的每个类别的分类准确率，作为文本分类模型对A个类别中的每个类别的归类可信度指标；该准确率为被文本分类模型分到某个类别的所有验证语料中属被正确分类的语料的比率，并预设分类准确率阈值；用所述文本分类模型对每一篇待分类文本进行文本分类时具体包括以下步骤：

步骤一、对每一篇待分类文本进行预处理，预处理包括分词、去停留词，并保留专有名词，分别计算该文本的经预处理后的所有词的特性权重，词的特性权重数值与在该文本中出现的次数成正比，与在所述训练语料中出现的次数成反比，将计算所得的词集按其特性权重数值大小降序排列，提取每一篇待分类文本原始词集的前面部分作为其特征词集；

步骤二、使用文本分类模型，选取每一篇待分类文本原始特征词集用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值，选取概率值最大的类别作为该篇文本分类类别；

步骤三、对步骤二的文本分类结果进行判断，如果文本分类模型对该类别的分类准确率数值达到设定阈值就直接输出结果；如果文本分类模型对该类别的分类准确率数值未达到设定阈值，就进入步骤四；

步骤四、将每一篇经预处理的文本输入所述LDA主题模型，用LDA主题模型计算出该篇文本对应所设定的K个主题中的每个主题的权重值，选取权重值最大的主题，并将预先经LDA主题模型训练后所得到的该主题下的主题关联词中的前Y个词加入至该篇文本的原始特征词集之中共同作为扩充后的特征词集，再次使用文本分类模型，分别计算该篇文本可能归属预定A个类别中各个类别的概率值，选取概率值最大的类别作为该篇文本最终分类类别。

以上所述方法的所述文本分类模型的主要计算公式为：

其中P(c_j|x₁,x₂,…,x_n)表示特征词(x1,x2,…,xn)同时出现时该文本属于类别cj的概率；其中P(c_j)表示训练文本集中，属于类别c_j的文本占总数的比率，P(x₁,x₂,…,x_n|c_j)表示如果待分类文本属于类别c_j，则这篇文本的特征词集为(x₁,x₂,…,x_n)的概率，p(x₁,x₂,…,x_n)表示给定的特征词的联合概率。

按照通常将学科分类习惯，可将所有学科分为75个学科类别，即所述类别数A为75，所述文本分类模型进行分类验证时预设分类准确率阈值为80％。

利用LDA主题模型训练时设定主题数K为100至200个，所述步骤二使用文本分类模型，选取每一篇待分类文本原始词集中前20％至25％作为特征词用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值，所述步骤四主题关联词中的前Y个词中Y取值为10至20个词。

进一步的方案，利用LDA主题模型训练时设定主题数K为100个或150个，所述步骤二使用文本分类模型，选取每一篇待分类文本原始词集的前22％作为特征词用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值，所述步骤四主题关联词中的前Y个词中Y取值为15个词。

所述主题模型训练的关键是对隐含变量分布的推断，即获取目标文本的隐含文本-主题分布θ和主题-词分布φ，若给定模型参数α,β,则文本d的随机变量θ、z和w的联合分布为:

以上所述方法在训练过程中，算法只对主题变量z_i进行抽样，其条件概率计算公式如下：

其中，等式左边含义为：当前词w_i在已知其他词各自所属主题的条件下，该词属于主题k的概率；等式右边n_i-1为第k个主题下第i个单词个数减去1；n_k-1为该文档第k个主题的个数减去1；第一个乘子为w_i这个词在k号主题下的概率；第二个乘子为第k个主题在该篇文档里的概率。

以上方法可采用Gibbs抽样算法来提取模型参数，抽样具体子步骤为：

a)初始化，为每个词w_i随机分配主题，z_i是词的主题，将z_i初始化为1到K之间的一个随机整数，i从1到N，N为文本集的特征词记号，此为Markov链的初始态；

b)i从1循环到N,根据公式(2)计算当前词w_i属于各个主题的概率，并依此概率对词w_i重新抽样主题，获得Markov链的下一状态；

c)迭代子步骤(b)足够次数后，认为Markov链已达稳态，至此这篇文档的每个词都有一个特定的所属主题；对于每篇文档，文本-主题分布θ和主题-词分布φ的值可按下列公式估算：

其中，

表示特征词w分配给主题k的次数，

表示分配给主题k的特征词数，

表示文本d中分配给主题k的特征词数，

表示文本d中所有分配了主题的特征词数。

本发明该优化算法与传统的Bayes算法相比，无论是采用原始特征集还是无选择地使用扩展后的特征集，在性能上都有所提高和改进。这样面向复杂的应用场景，采用选择性特征扩展文本分类算法切实可行。

针对复杂的分类体系，例如学科分类体系，类目数众多且关系复杂，很多学科与学科之间没有明显的界限，重叠现象较为严重，这样对于分类模型来说不确定性较大，如果输入特征信息量较少，加之没有辅助的额外信息，面对重叠的学科贝叶斯模型很难做出正确的判断。本发明从扩充贝叶斯模型输入信息量的角度出发，利用训练好的LDA主题模型提取数据的主题信息，之后把最大主题下最能代表该主题的前若干个词扩充到原始特征词集中。实验中发现，若不加选择的对所有数据进行特征扩展，那么对于信息量充足的数据来说，扩展后特征存在噪音的可能性比较大的问题，进而影响到这类数据的分类效果；而对于信息量不足的数据来说对其扩展主题特征信息显得很有必要，能够提升分类效果。实验表明，这样有选择地扩展主题特征信息可以有效地提高当前应用场景中的分类模型的性能。

由于大数据时代的到来，资源分类面临的挑战越来越大，不同的应用场景需要采用不同的分类技术，不存在一项技术适合所有的分类任务。本发明提出的基于选择性特征扩展的方法适合复杂的应用场景，有选择的对信息量少的数据增加主题信息，同时避免对信息量充足的数据增加噪音，并且该方法具有普遍的适应性。本发明为文本分类模型的优化提供了一种思路，且具有场景适应性强，结果可用性高，模型易于更新和维护的特点。

附图说明

图1为本发明文本分类方法流程示意图；

图2为LDA模型示意图；

图3为某一文本预处理前的文本示意图；

图4为某一文本预处理后的文本示意图；

图5为训练语料经LDA主题模型训练后主题与主题文档示意图；

图6为三次实验在部分学科上的查全率示意图；

图7为三次实验在部分学科上的查准率示意图。

具体实施方式

以下详细说明本发明的具体实施方式。

一种基于LDA的文本分类方法，如图1所示，使用贝叶斯概率计算模型作为文本分类模型，提取最能体现该篇待分类文本特性的一组特征词作为用于输入文本分类模型的特征词集，原始特征词集就是将原始词集按特性权重排序后的前面部分，用文本分类模型计算所述特征词组合归属预定A个类别中的每个类别的概率，取概率值最大的类别作为其所属类别；按照通常将学科分类习惯，可将所有学科分为75个学科类别，即类别数A为75。使用LDA主题模型来辅助文本分类模型进行文本分类，LDA主题模型是一个“文档-主题-词”的三层贝叶斯生成模型，如图2所示；预先用训练语料按设定主题数K让LDA主题模型训练，当然训练前需对每一篇训练语料进行预处理，预处理包括分词、去停留词；利用LDA主题模型训练时的聚词功能在训练语料经LDA主题模型训练后获得按设定主题数K分别聚集成K个主题关联词集合，主题关联词集合也称作主题文档；利用LDA主题模型训练时可设定主题数K为100至200个，优选主题数K为100个或150个；可从网上随机爬取各个学科各种形式的文献，篇幅很长但有规范摘要的论文之类的文献可仅取其摘要，也可使用现成的数据库，作为训练语料，文献篇数应当达到相当数量规模，至少几万篇，多至几百万篇。如选取主题数K为100，LDA主题模型运算训练过程中就会将训练语料的所有单词分别聚集成100个主题关联词集合，即100个主题文档；我们可以根据各个集合词的含义人为的命名各个主题名称，也可以不命名各个主题名称，而仅以数字编号或代号以示分别，其中3个主题文档如图5所示。还预先用类别明确的验证语料按预定类别数A让文本分类模型进行分类验证，以获得文本分类模型对A个类别中的每个类别的分类准确率，作为文本分类模型对A个类别中的每个类别的归类可信度指标；该准确率为被文本分类模型分到某个类别的所有验证语料中属被正确分类的语料的比率，并预设分类准确率阈值；文本分类模型进行分类验证时预设分类准确率阈值为80％较为合适。用文本分类模型对每一篇待分类文本进行文本分类时具体包括以下步骤：

步骤一、对每一篇待分类文本进行预处理，预处理包括分词、去停留词，并保留专有名词，如某一文本预处理前如图3所示，预处理后如图3所示。再分别计算该文本的经预处理后的所有词的特性权重，词的特性权重数值与在该文本中出现的次数成正比，与在所述训练语料中出现的次数成反比，将计算所得的词集按其特性权重数值大小降序排列，提取每一篇待分类文本原始词集的前面部分作为其特征词集。

步骤四、将每一篇经预处理的文本输入所述LDA主题模型，用LDA主题模型计算出该篇文本对应所设定的K个主题中的每个主题的权重值，选取权重值最大的主题，并将预先经LDA主题模型训练后所得到的该主题下的主题关联词中的前Y个词加入至该篇文本的原始特征词集之中共同作为扩充后的特征词集，再次使用文本分类模型，分别计算该篇文本可能归属预定A个类别中各个类别的概率值，选取概率值最大的类别作为该篇文本最终分类类别。具体可取10至20个词，如取主题关联词中的前15个词加入至该篇文本的原始特征词集之中共同作为扩充后的特征词集；即使新加入的词与原始特征词有重复也没关系。

文本分类模型的主要计算公式为：

显然，对于给定的所有类别，分母P(c₁,c₂,…,c_n)是一个常数，模型分类结果为(1)式中概率最大的类别，求解(6)式的最大值可转化为求解下式的最大值

又根据贝叶斯假设，文本特征向量属性x₁,x₂,…,x_n独立同分布，其联合概率分布等于各个属性特征概率分布的乘积，即：

P(x₁,x₂,…,x_n|c_j)＝∏_iP(x_i|c_j) (8)

所以(7)式变为：

即为所求的用于分类的分类函数。

分类函数中的概率值P(c_j)和P(x_i|c_j)还是未知的，因此，为了计算分类函数的最大值，(9)式中的先验概率值分别估计如下：

其中，N(C＝c_j)表示训练文本中属于c_j类别的样本数量；N表示训练样本总数量。

其中，N(X_i＝x_i,C＝c_j)表示类别c_j中包含属性x_i的训练样本数量；N(C＝c_j)表示类别c_j中的训练样本数量；M表示训练样本集合中经过去除无用词后关键词的数量。

LDA是Blei等人在2003年提出的一种对离散数据集建模的统计主题模型,是一个“文档-主题-词”的三层贝叶斯生成模型。最初的模型只对“文档-主题”概率分布引入一个超参数使其服从Dirichlet分布，随后Griffiths等人对“主题-词”概率分布也引入了一个超参数使其服从Dirichlet分布。LDA模型如图2所示。其中：N为这篇文档的单词数量，M为文档集中的文档数量，K为主题个数，φ为主题-词的概率分布，θ为文档-主题的概率分布，Z为隐含变量表示主题，W为词，α为θ的超参，β为φ的超参。

LDA主题模型把一篇文档看作是一组词的集合，词与词之间没有先后顺序，而且一篇文档可以包含多个主题，文档中每个词都是由某个主题生成，同一个词也可以属于不同的主题，因此LDA主题模型是一种典型的词袋模型。

训练LDA模型的关键是隐含变量分布的推断，即获取目标文本的隐含文本-主题分布θ和主题-词分布φ，若给定模型参数α,β,文本d的随机变量θ、z和w的联合分布为:

由于上式同时存在多个隐含变量，直接计算θ,φ是不可能的，所以需要对参数进行估计推断，目前常见的参数估计算法有期望最大化(Expectation Maximization,EM)、变分贝叶斯推理和Gibbs抽样。本文采用Gibbs抽样进行模型参数的推断，Griffiths指出Gibbs抽样在Perplexity值和训练速度等方面均优于变分贝叶斯推理和EM算法。EM算法由于其似然函数局部最大化问题往往导致模型找到的是局部最优解，而变分贝叶斯推理得到的模型与真实情况有所偏差，Gibbs抽样能快速有效的从大规模数据集中提取主题信息，成为目前最流行的LDA模型提取算法。

MCMC是一套从复杂概率分布中抽取样本值的近似迭代方法，Gibbs抽样作为MCMC的一种简单实现形式，目的是构造收敛于特定分布的Markov链，并从链中抽取接近目标概率分布值的样本。在训练过程中，算法只对主题变量z_i进行抽样，其条件概率计算公式如下：

Gibbs抽样具体步骤为：

1)初始化，为每个词w_i随机分配主题，z_i是词的主题，将z_i初始化为1到K之间的一个随机整数，i从1到N，N为文本集的特征词记号，此为Markov链的初始态；

2)i从1循环到N,根据公式(2)计算当前词w_i属于各个主题的概率，并依此概率对词w_i重新抽样主题，获得Markov链的下一状态；

迭代步骤2)足够次数后，认为Markov链已达稳态，至此这篇文档的每个词都有一个特定的所属主题；对于每篇文档，文本-主题分布θ和主题-词分布φ的值可按下列公式估算：

其中，

表示特征词w分配给主题k的次数，

表示分配给主题k的特征词数，

表示文本d中分配给主题k的特征词数，

表示文本d中所有分配了主题的特征词数。

作为文本分类模型可信度指标的分类准确率，是通过概率来计算的，具体公式如下：

其中，i表示类别，N_i表示分类器正确预测i类别的次数，M_i表示分类器预测i类别的总次数。

可采用查准率P，查全率R和两者的综合评价指标F₁作为最终的评价指标，查准率P衡量的是正确判定该类别的测试样本占判定为该类别的测试样本的比例，查全率R衡量的是正确判定该类别测试样本占该类别所有测试样本的比例。以某类别C_i为例，n⁺⁺表示正确判定样本属于类别C_i的数量，n^+-表示不属于但却被判定为类别C_i的样本数，n^-+表示属于但被判定为不属于类别C_i的样本数。对于类别C_i而言，查全率R、查准率P和综合指标F₁值为：

在训练LDA模型阶段，由于训练样本较大，且类别较多，设置的主题数范围是70～200(间隔10)，发明者经过多次实验，比较效果最终综合多方面因素确定模型参数如下：

表1 LDA模型相关参数

发明者在LDA和贝叶斯模型训练完成后，曾进行了三组实验：实验一，基于原始特征集进行分类器性能测试；实验二，基于扩充后的特征集进行分类器性能测试；实验三，基于选择性特征扩展后的特征集进行分类器性能测试，其中可信度阈值设置为0.8。表2为三次实验在部分学科上的查全率和查准率：

表2 部分学科的查全率和查准率

由表2可知，基于原始特征集进行实验时，历史学查全率较高，而查准率较低，说明有较多的不属于历史学学科的数据被分类器归为了历史学，同时发现科学技术史学科查全率较低，说明有很多本属于这个学科的数据被归为了其他学科，由于这两个学科主题十分类似，这很有可能是分类器把较多属于科学技术史的数据归类为历史学。类似的情况同样出现在了地质资源与地质工程学科和地质学学科上。基于扩展后特征集对上面的问题有所改善，但对之前识别度高的学科产生了影响。而进行选择性特征扩展一方面避免了对识别度高的学科产生影响，另一方面对本身由于信息量不足引起识别度低的学科有一定程度上的改善。

根据上面的实验结果可以计算出三次实验各自的平均查全率、平均查准率和平均F₁值。结果如下：

表3 实验对比

由表3可以看出，面对复杂的分类场景，本发明基于选择性特征扩展的方法相比于基于原始特征集或基于扩展后的特征集的方法具有更好的适应性，平均查全率、平均查准率和平均F₁值明显高于其它方案，能够达到较好的实用效果。

图6为三次实验在部分学科上的查全率示意图；图7为三次实验在部分学科上的查准率示意图。

由于大数据时代的到来，资源分类面临的挑战越来越大，不同的应用场景需要采用不同的分类技术，不存在一项技术适合所有的分类任务。本发明提出的基于选择性特征扩展的方法适合复杂的应用场景，有选择的对信息量少的数据增加主题信息，同时避免对信息量充足的数据增加噪音，并且本发明方法具有普遍的适应性。

Claims

1.一种基于LDA的文本分类方法，使用贝叶斯概率计算模型作为文本分类模型，提取最能体现该篇待分类文本特性的一组特征词作为用于输入文本分类模型的特征词集，用所述文本分类模型计算所述特征词组合归属预定A个类别中的每个类别的概率，取概率值最大的类别作为其所属类别；其特征在于，使用LDA主题模型来辅助文本分类模型进行文本分类，所述LDA主题模型是一个“文档-主题-词”的三层贝叶斯生成模型；预先用训练语料按设定主题数K让LDA主题模型训练，利用LDA主题模型训练时的聚词功能在训练语料经LDA主题模型训练后获得按设定主题数K分别聚集成K个主题关联词集合；还预先用类别明确的验证语料按预定类别数A让所述文本分类模型进行分类验证，以获得文本分类模型对A个类别中的每个类别的分类准确率，作为文本分类模型对A个类别中的每个类别的归类可信度指标；该准确率为被文本分类模型分到某个类别的所有验证语料中属被正确分类的语料的比率，并预设分类准确率阈值；用所述文本分类模型对每一篇待分类文本进行文本分类时具体包括以下步骤：

2.如权利要求1所述的文本分类优化方法，其特征在于，所述文本分类模型的主要计算公式为：

3.如权利要求1所述的文本分类优化方法，其特征在于，将所有学科分为75个学科类别，即所述类别数A为75，所述文本分类模型进行分类验证时预设分类准确率阈值为80％。

4.如权利要求1所述的文本分类优化方法，其特征在于，利用LDA主题模型训练时设定主题数K为100至200个，所述步骤二使用文本分类模型，选取每一篇待分类文本原始词集中前20％至25％作为特征词用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值，所述步骤四主题关联词中的前Y个词中Y取值为10至20个词。

5.如权利要求4所述的文本分类优化方法，其特征在于，利用LDA主题模型训练时设定主题数K为100个或150个，所述步骤二使用文本分类模型，选取每一篇待分类文本原始词集的前22％作为特征词用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值，所述步骤四主题关联词中的前Y个词中Y取值为15个词。

6.如权利要求1所述的文本分类方法，其特征在于，所述主题模型训练的关键是对隐含变量分布的推断，即获取目标文本的隐含文本-主题分布θ和主题-词分布φ，若给定模型参数α,β,则文本d的随机变量θ、z和w的联合分布为:

7.如权利要求6所述的文本分类方法，其特征在于，在训练过程中，算法只对主题变量z_i进行抽样，其条件概率计算公式如下：

8.如权利要求7所述的文本分类方法，其特征在于，采用Gibbs抽样算法来提取模型参数，抽样具体子步骤为：

其中，

表示特征词w分配给主题k的次数，

表示分配给主题k的特征词数，

表示文本d中分配给主题k的特征词数，

表示文本d中所有分配了主题的特征词数。