CN111241846A

CN111241846A - 一种主题挖掘模型中主题维度自适应确定方法

Info

Publication number: CN111241846A
Application number: CN202010040487.1A
Authority: CN
Inventors: 钟玲; 王建勋; 赵冉升; 肖博; 王昱; 李其泽
Original assignee: Shenyang University of Technology
Current assignee: Shenyang University of Technology
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-05
Anticipated expiration: 2040-01-15
Also published as: CN111241846B

Abstract

本发明涉及主题挖掘模型方法，特别是涉及一种主题挖掘模型中主题维度自适应确定的方法。该方法先获取文档，分词；然后基于潜在语义分析模型，进行主题信息挖掘；主题信息挖掘的具体步骤包括：预设参数，通过吉布斯采样更新参数，获取当前参数下待分析文档的主题分布信息；通过计算困惑度，判断主题信息获取的准确性，然后根据加速递增，缓步搜索，单步徘徊原则自适应确定主题维度，从而获得最准确的主题分布信息。本发明为解决采用主题挖掘模型进行文本主题信息挖掘过程中，对挖掘效果影响较大的主题维度目前主要靠经验确定的问题，本发明能够在较短时间内完成主题维度的确定，获得更快更好的主题信息挖掘效果。

Description

一种主题挖掘模型中主题维度自适应确定方法

技术领域：

本发明涉及主题挖掘模型方法，特别是涉及一种主题挖掘模型中主题维度自适应确定的方法。

背景技术：

文本分析领域中主题信息挖掘技术受到国内外研究者的广泛关注，文本主题是指文本消息中所涉及到的话题，是对文本消息的高度抽象，是离散的，无序的数据。主题信息挖掘从最初基于用户、标题等显式特征的方法，发展到基于概率的方法，以及目前的基于潜在语意的方法，研究不断深入，现阶段文本主题挖掘技术已然己经成为自然语言处理(Natural Language Processing，NLP)领域最重要最受研究者关注的技术之一，被广泛应用于智能问答、电子商务、知识库构建、邮件方面。然而，由于自然语言本身的复杂性，如何从丰富的非结构化文本数据中提取出精简且有价值的关键主题信息仍然是目前研究的一个难点。

传统主题挖掘算法立足于文本的显式特征，如采用词空间上的相似性度量指标等，基于显式特征的主题挖掘算法中使用最为广泛的是TF-IDF算法(TermFrequency–Inverse Document Frequency，词频-逆向文件频率)以词语的出现次数和词频权重来计算其排名，并选取最靠前的几个词语作为关键字，即只考虑了主题字面上的相似性，因此无法找到与当前话题最相似的其他话题。因此，基于潜在语意的文本信息挖掘技术逐渐受到重视。

首个基于潜在语意分析的方法是LSA(latent semantic analysis)，这是由DeerWester等人提出的，在此基础上，Hofman提出了PLSA(probabilistic latent semanticanalysis)方法。

目前，Blei等提出的LDA(Latent Dirichlet Allocation)模型是最重要的基于潜在语义的主题分析挖掘模型，基于该模型很多学者根据应用场景的不同做出不同改变。Griffiths使用LDA模型来分析《美国科学院院报》科技论文的摘要，挖掘出其中隐含的科学主题，并且进一步分析研究出其中＂热主题＂和＂冷主题＂随时间变化的演化情况，在LDA的基础上提出使用基于马尔科夫链的蒙特卡洛方法来近似逼近，后得到广泛使用。MichalRose-Zvi等提出作者主题模型(Author-Topic Model，ATM)，从作者产生文档的角度来考虑文档的生成，并且提出一个名为CiteSeerX的系统，用以研究科学主题与科技论文作者之间的关系。后续有大量研究者提出对不同情境之下的主题模型，如动态主题模型，高阶主题模型，多通路主题模型，分布式主题模型。随后，以微博中短文本为实验，陈等提出基于情感分类的主题模型SC-LDA。在各类主题模型中，准确、快速、高效的抽取主题成为新的研究方向。

大量研究证实主题挖掘模型中主题抽取效果与潜在主题维度K值有直接关系，主题抽取的结果对K值非常敏感。基于此，国内外不少学者对LDA模型展开了相关研究，比较常用方法有以下三种：

(1)Blei等采用困惑度(Perplexity)作为评价LDA模型好坏的标准，通过选取困惑度最小的LDA模型参数确定最优的主题。但是无法自动适应确定主题维度，仍需要通过人为的不断实验来确定主题维度。

(2)将主题维度进行非参数化处理，典型代表是层次狄利克雷过程(HierarchicalDirichlet Processes，HDP)。HDP与LDA主题模型不同的是：HDP是一种非参数贝叶斯模型，能够从文档集中自动训练最合适的主题维度K。HDP通过狄利克雷过程的非参数特性解决了LDA中主题维度选择问题，实验证实HDP所选的最优主题维度与基于困惑度选取的最优主题维度一致。但这种方法需要为同一个集合分别建立一个HDP模型和一个LDA模型，且算法时间复杂性较高。

(3)Griffiths等提出应用贝叶斯模型确定最优主题维度的方法。该方法计算复杂度较高，且只能用来确定主题维度，无法刻画模型的泛化能力。

主题信息准确、高效的挖掘可应用在多种场景，包括检测热点话题、捕捉网络舆情、或进行有针对性的商业营销。主题维度在主题挖掘中有很重要的作用，准确的主题维度可以提升主题挖掘的准确率，目前在主题挖掘过程中主要通过经验值来确定主题维度。因此设计一种基于主题挖掘的主题维度自适应的方法具有非常重要的现实意义。

发明内容：

发明目的：

本发明涉及一种主题信息挖掘中主题维度的自适应确定方法，其目的是设计出一种可以针对不同内容和数量的文档，应用主题挖掘模型来进行主题挖掘，在挖掘过程中自动快速确定主题维度的方法。通过对不同文本文档进行实验，采用困惑度验证主题信息挖掘的准确性，最终实现准确挖掘主题信息、避免过多的计算、减少训练时间的目的。

技术方案：

一种主题挖掘模型中主题维度自适应确定方法，该方法包括：

(1)获取文档，分词；

(2)基于潜在语义分析模型，进行主题信息挖掘；

主题信息挖掘的具体步骤包括：

预设参数，通过吉布斯采样更新参数，获取当前参数下待分析文档的主题分布信息；通过计算困惑度，判断主题信息获取的准确性，然后根据加速递增、缓步搜索、单步徘徊原则自适应确定主题维度，从而获得最准确的主题分布信息。

进一步的，获取文档是利用爬虫软件得到多类文档，将文档切分成用一系列词来表示的文档；然后使用停用词表，对分词后的文档对照停用词表进行去停用词。

进一步的，潜在语义分析模型为LDA模型，具体步骤包括：

通过Dirichlet先验分布来获取主题Z和文档中语意W的概率分布；

对任意文档d，得出其主题分布θ_d；拟定主题维度K，对其中任意一维主题k，得出其词分布β_k，然后获得文档d中的每个词W_d的主题分布的编号Z_dn，以及在该主题下的其他的词的分布编号W_dn；其联合概率如公式(1)所示；

其中α、β为狄利克雷分布的超参数，Z表示主题，其拟定主题维度为K，w表示单词，d表示文档，其维度为D，文档d的主题分布和主题k的词分布分别为θ_d和φ_k；

之后进行Gibbs采样，采用公式(2)确定对应文档的文档-主题及主题-词的具体分布：

其中，α_k是计算第d个文档的主题k的条件分布的超参数；α_s是计算第d个文档的主题从s到k的条件分布的超参数；β_t是计算第k个主题的词t的条件分布的超参数；β_f是计算第k个主题的词从f到v的条件分布的超参数。

进一步的，困惑度的具体步骤包括：

困惑度根据公式(3)计算；

其中分母是测试集中所有单词之和，即测试集的总长度；p(w)指的是测试集中每个单词出现的概率，计算公式如下p(w)＝p(z|d)*p(w|z)；p(z|d)表示的是一个文档中每个主题出现的概率，p(w|z)表示的是词典中的每一个单词在某个主题下出现的概率。

进一步的，关于自适应确定主题维度的具体步骤包括：

步骤一：加速递增；

首先设起始主题维度K₁＝1，根据公式(4)迭代更新主题维度值；

K_n+1＝|e²×K_n|+1 (4)

其中K_n为当前主题维度值，K_n+1为下一次迭代主题维度值，当主题维度设置不恰当时，困惑度值高；

步骤二：计算并记录当前主题维度值K_n下困惑度和下一迭代主题维度值K_n+1下的困惑度，K_n+1主题维度下的困惑度小于当前值，迭代继续；K_n+1主题维度下的困惑度大于当前值，则计算K_n+2主题维度值下的困惑度；K_n+2主题维度值下的困惑度最小，迭代继续，否则选取前述过程中困惑度最小值对应的K值，进入下一步；

步骤三：缓步递减搜索；

以步骤二中确定的困惑度最小值对应的K值作为公式(5)的迭代起始值；

K_n+1＝|e^-1×K_n|+1 (5)

通过公式(5)递减主题维度值搜索范围，计算并记录当前主题维度值K_n下困惑度和下一迭代主题维度值K_n+1下的困惑度，当K_n+1主题维度下的困惑度小于当前值，迭代继续，否则选取缓步搜索递减过程中的最小困惑度对应的K值，进入下一步；

步骤四：缓步递增搜索；

以步骤二中确定的困惑度最小值对应的K值作为公式(6)的迭代起始值；

K_n+1＝|e×K_n|+1 (6)

通过公式(6)递增主题维度值搜索范围，计算并记录当前主题维度值K_n下困惑度和下一迭代主题维度值K_n+1下的困惑度，当K_n+1主题维度下的困惑度小于当前值，迭代继续，否则选取缓步搜索递增过程中的最小困惑度对应的K'值，进入下一步；

步骤五：单步徘徊；

对比步骤三中最后选取的K值和步骤四中最后选取的K'值对应的困惑度，选取其中最小困惑度对应的K值作为公式(7)的迭代起始值；

K_n+1＝K_n+1 (7)

当K_n+1主题维度下的困惑度小于当前值，迭代继续；K_n+1主题维度下的困惑度大于当前值，则计算K_n+2主题维度值下的困惑度；K_n+2主题维度值下的困惑度最小，迭代继续，否则选取步骤五过程中困惑度最小值对应的K值，作为公式(8)的迭代起始值；

K_n+1＝K_n-1 (8)

当K_n+1主题维度下的困惑度小于当前值，迭代继续；当K_n+1主题维度下的困惑度大于当前值，则保存当前值作为最终确定的主题维度值；

步骤六：根据确定的主题维度进行主题挖掘，获得主题信息。

优点及效果：

本发明具有以下优点和有益效果：

本发明为解决采用主题挖掘模型进行文本主题信息挖掘过程中，对挖掘效果影响较大的主题维度目前主要靠经验确定的问题，提出了一种主题维度自适应确定方法，本发明提出“加速递增，缓步搜索，单步徘徊”的主题维度自适应策略，能够在较短时间内完成主题维度的确定，获得更快更好的主题信息挖掘效果。

附图说明：

图1文档A困惑度随主题维度变化曲线；

图2文档B困惑度随主题维度变化曲线；

图3文档C困惑度随主题维度变化曲线；

图4文档D困惑度随主题维度变化曲线；

图5文档E困惑度随主题维度变化曲线。

具体实施方式：

本发明提出了一种主题挖掘中主题维度自适应确定的方法，本发明的方法可以避免过多的计算，减少大量的训练时间，快速获得更高的主题挖掘准确性。该方法不仅可以应用于LDA主题模型，也可以有效应用于其他需要预先确定主题维度的主题挖掘模型，有较广泛的应用价值。

(1)获取文档，进行分词、去停用词。

关于获取文档。获取文档是利用爬虫软件得到多类文档，将文档切分成用一系列词来表示的文档；然后使用停用词表，对分词后的文档对照停用词表进行去停用词。

使用爬虫软件得到多类文档，包括：交通、教育、军事、体育、艺术、政治、经济、编程等，共49486篇文章。对文档进行分词，即将文档切分成用一系列词来表示的文档。然后使用停用词表，对分词后的文档对照停用词表进行去停用词。

(2)基于潜在语义分析模型，进行主题信息挖掘。

本发明是基于语义分析模型LDA进行的研究。

主题信息挖掘的具体步骤包括：

预设参数，通过吉布斯采样更新参数，获取当前参数下待分析文档的主题分布信息；通过计算困惑度，判断主题信息获取的准确性，然后根据加速递增，缓步搜索，单步徘徊原则自适应确定主题维度，从而获得困惑度最小值为最准确的主题分布信息。

关于主题信息挖掘的详细步骤包括：

一、潜在语义分析模型。

目前，Blei等提出的LDA(Latent Dirichlet Allocation)模型是最重要的基于潜在语义的主题分析挖掘模型。LDA是通过引入超参数，形成了一个“文档－主题－单词”三层的贝叶斯模型，然后通过运用概率方法对模型进行推导，来寻找文档的语义结构，挖掘文档的主题。LDA主题模型中文档主题的分布是多项分布，主题中词的分布也是多项分布，所以可以通过Dirichlet先验分布来获取主题Z和文档中语意W的概率分布。对任意文档d，得出其主题分布θ_d；拟定主题维度K，对其中任意一维主题k，得出其词分布β_k，然后获得文档d中的每个词W_d的主题分布的编号Z_dn，以及在该主题下的其他的词的分布编号W_dn，这样所有主题Z和文档中所有词语W的整体概率分布就被建立起来了。其联合概率如公式(1)所示。其中α、β为狄利克雷分布的超参数，Z表示主题，其维度为K，w表示单词，d表示文档，其维度为D，文档d的主题分布和主题k的词分布分别为θ_d和φ_k。

之后进行Gibbs采样，采用公式(2)确定对应文档的文档-主题及主题-词的具体分布。

上述基于语义的主题挖掘过程中，超参数α、β和主题维度K为预设的参数。不同的文档主题维度不同，基于潜在语义分析进行主题挖掘处理的对象包括长文档和文档集，其主题维度变化极大，而主题维度值对最终的挖掘效果有重要影响，目前该参数一般采用经验值。

二、主题维度K自适应确定依据。

目前，衡量主题挖掘效果的主要指标之一是困惑度，困惑度越小，说明挖掘效果越好。

设定α、β为狄利克雷分布的超参数，起始主题维度K₁为1，获取当前分布下的主题信息，计算困惑度。对任意文档d，对其进行分词，并获得其词向量表示得出其主题分布；由主题维度K，对其中任意一维主题k，得出其词分布，然后获得文档d中的每个词的主题分布的编号，以及在该主题下的其他的词的分布编号，这样所有主题Z和文档中所有词语W的整体概率分布就被建立起来了。之后迭代进行Gibbs采样，确定当前主题维度下对应文档的文档-主题及主题-词的具体分布，计算当前主题维度及分布下的困惑度。

困惑度可以理解为对于一篇文档d，所训练出来的模型对文档d属于哪个主题的不确定性，这个不确定程度就是困惑度。困惑度越低，说明聚类的效果越好，困惑度根据公式(3)计算。

其中分母是测试集中所有单词之和，即测试集的总长度。p(w)指的是测试集中每个单词出现的概率，计算公式如下p(w)＝p(z|d)*p(w|z)。p(z|d)表示的是一个文档中每个主题出现的概率，p(w|z)表示的是词典中的每一个单词在某个主题下出现的概率。

为了更快更准确地自适应确定主题维度，设计下述方法，快速自适应确定主题维度，以挖掘效果评价指标——困惑度作为维度确定是否合理的判别依据。

三、“加速递增，缓步搜索，单步徘徊”的主题维度自适应确定方法。

在主题维度自适应确定过程中，通过“加速递增，缓步搜索，单步徘徊”的思路，设计了几组主题维度自适应迭代公式。

步骤一：加速递增；首先设起始主题维度K₁＝1，根据公式(4)迭代更新主题维度值。

K_n+1＝|e²×K_n|+1 (4)

其中K_n为当前主题维度值，K_n+1为下一次迭代主题维度值，当主题维度设置不恰当时，困惑度值较高。

步骤二：计算并记录当前主题维度值K_n下困惑度和下一迭代主题维度值K_n+1下的困惑度，如果K_n+1维度下的困惑度小于当前值，迭代继续；如果K_n+1主题维度下的困惑度大于当前值，则计算K_n+2主题维度值下的困惑度；如果K_n+2主题维度值下的困惑度最小，迭代继续，否则选取前述过程中困惑度最小值对应的K值，进入下一步。

步骤三：缓步递减搜索；以步骤二中确定的困惑度最小值对应的K值作为公式(5)的迭代起始值。

K_n+1＝|e^-1×K_n|+1 (5)

通过公式(5)递减主题维度值搜索范围，计算并记录当前主题维度值K_n下困惑度和下一迭代主题维度值K_n+1下的困惑度，若K_n+1主题维度下的困惑度小于当前值，迭代继续，否则选取缓步搜索递减过程中的最小困惑度对应的K值，进入下一步。

步骤四：缓步递增搜索；以步骤二中确定的困惑度最小值对应的K值作为公式(6)的迭代起始值。

K_n+1＝|e×K_n|+1 (6)

通过公式(6)递增主题维度值搜索范围，计算并记录当前主题维度值K_n下困惑度和下一迭代主题维度值K_n+1下的困惑度，若K_n+1主题维度下的困惑度小于当前值，迭代继续，否则选取缓步搜索递增过程中的最小困惑度对应的K'值，进入下一步；

步骤五：单步徘徊；对比步骤三中最后选取的K值和步骤四中最后选取的K'值对应的困惑度，选取其中最小困惑度对应的K值作为公式(7)的迭代起始值。

K_n+1＝K_n+1 (7)

如果K_n+1主题维度下的困惑度小于当前值，迭代继续；如果K_n+1主题维度下的困惑度大于当前值，则计算K_n+2主题维度值下的困惑度；如果K_n+2主题维度值下的困惑度最小，迭代继续，否则选取步骤五过程中困惑度最小值对应的K值，作为公式(8)的迭代起始值；

K_n+1＝K_n-1 (8)

如果K_n+1主题维度下的困惑度小于当前值，迭代继续，如果K_n+1维度下的困惑度大于当前值，则保存当前值作为最终确定的主题维度值。

根据上述方案，即使主题维度需在较大范围内搜索，也能较快确定合适的主题维度。

下面通过具体的实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：

如图1～图5所示，一种主题挖掘模型中主题维度自适应确定方法，步骤如下：

(1)获取文档，建立词集。使用爬虫软件得到不同内容类型文档，包括：交通、教育、军事、体育、艺术、政治、经济、编程等，共49486篇文章。对文档进行分词，分词后的词集大小为6597796个词。

(2)选取7类不同内容文献各1篇，构成长文本A，基于于潜在语义分析模型LDA进行主题信息挖掘。

1)设定狄利克雷分布的超参数α＝5、β＝0.01，起始主题维度K₁为1，进行Gibbs采样，确定当前主题维度下对应文档的文档-主题及主题-词的具体分布，计算当前主题维度及分布下的困惑度。

2)根据上述“加速递增，缓步搜索，单步徘徊”原则自适应确定主题维度。迭代结果及对应的主题维度-困惑度变化如图1和表1所示。其中，主题维度运行顺序为：1、8、60、444、4、22、9、10、11。，选择最优的主题维度为9。

表1文本A主题维度确定过程

主题维度	困惑度
		1	1403.36
8	684.97
		60	832.41
444	1282.26
		4	729.63
23	705.41
		9	661.83
10	689.09
		11	725.75

(3)选取长文本B，基于于潜在语义分析模型LDA进行主题信息挖掘。

2)根据上述“加速递增，缓步搜索，单步徘徊”原则自适应确定主题维度。迭代结果及对应的主题维度-困惑度变化如图2和表2所示。其中，主题维度运行顺序：1、8、60、444、4、23、64、24、25、22，选择最优的主题维度为23。

表2文本B主题维度确定过程

(4)选取不同内容文献70篇，构成长文本C，基于于潜在语义分析模型LDA进行主题信息挖掘。

2)根据上述“加速递增，缓步搜索，单步徘徊”原则自适应确定主题维度。迭代结果及对应的主题维度-困惑度变化如图3和表3所示。其中，主题维度顺序为：1、8、60、444、3282、23、9、164、24、25、26。最优主题维度为24。

表3文本C主题维度确定过程

主题维度	困惑度
		1	3556.92
8	1589.12
		60	1552.65
444	2869.92
		3282	5235.26
23	1286.46
		9	1565.73
164	1939.15
		24	1234.94
25	1243.78
		26	1267.43

(5)选取不同内容文献25篇，构成长文本D，基于于潜在语义分析模型LDA进行主题信息挖掘。

2)根据上述“加速递增，缓步搜索，单步徘徊”原则自适应确定主题维度。迭代结果及对应的主题维度-困惑度变化如图4和表4所示。其中，主题维度顺序为：1、8、60、444、4、23、64、24、25、26。最优主题维度为24。

表4文本D主题维度确定过程

主题维度	困惑度
		1	2004.67
8	879.22
		60	942.13
444	1725.29
		4	972.58
23	789.59
		64	960.90
24	771.07
		25	780.94
26	797.22

(6)选取长文本E，基于于潜在语义分析模型LDA进行主题信息挖掘。

2)根据上述“加速递增，缓步搜索，单步徘徊”原则自适应确定主题维度。迭代结果及对应的主题维度-困惑度变化如图5和表5所示。其中，主题维度顺序为：1、8、60、444、4、23、9、10、7、6。最优主题维度为7。

表5文本E主题维度确定过程

主题维度	困惑度
		1	573.27
8	371.16
		60	470.14
444	655.35
		4	424.56
23	408.65
		9	378.10
10	392.23
		7	363.72
6	398.56

可见，根据上述方案，即使主题维度需在较大范围内搜索，也能较快确定合适的主题维度。

本发明涉及一种主题挖掘模型中主题维度自适应确定方法，以网络上获取的不同内容文本为分析对象，通过分词及向量化表示，采用潜在语义分析模型LDA进行主题信息挖掘，通过“加速递增，缓步搜索，单步徘徊”原则迭代变化主题维度，并计算当前模型参数下的困惑度作为主题挖掘效果的客观评价标准，从而根据文档自身特点自适应确定最佳的主题维度，从而快速、准确地获得文档主题信息。可见，根据上述方案，即使主题维度需在较大范围内搜索，也能较快确定合适的主题维度。

Claims

1.一种主题挖掘模型中主题维度自适应确定方法，其特征在于：该方法包括：

(1)获取文档，分词；

(2)基于潜在语义分析模型，进行主题信息挖掘；

主题信息挖掘的具体步骤包括：

2.根据权利要求1所述的一种主题挖掘模型中主题维度自适应确定方法，其特征在于：获取文档是利用爬虫软件得到多类文档，将文档切分成用一系列词来表示的文档；然后使用停用词表，对分词后的文档对照停用词表进行去停用词。

3.根据权利要求1所述的一种主题挖掘模型中主题维度自适应确定方法，其特征在于：潜在语义分析模型为LDA模型，具体步骤包括：

4.根据权利要求1所述的一种主题挖掘模型中主题维度自适应确定方法，其特征在于：困惑度的具体步骤包括：

困惑度根据公式(3)计算；

5.根据权利要求1所述的一种主题挖掘模型中主题维度自适应确定方法，其特征在于：关于自适应确定主题维度的具体步骤包括：

步骤一：加速递增；

K_n+1＝|e²×K_n|+1 (4)

步骤三：缓步递减搜索；

K_n+1＝|e^-1×K_n|+1 (5)

步骤四：缓步递增搜索；

K_n+1＝|e×K_n|+1 (6)

步骤五：单步徘徊；

K_n+1＝K_n+1 (7)

K_n+1＝K_n-1 (8)