CN110347824B

CN110347824B - 一种基于词汇相似性的lda主题模型最优主题数确定方法

Info

Publication number: CN110347824B
Application number: CN201910506360.1A
Authority: CN
Inventors: 王中元; 许强; 胡瑞敏; 朱荣
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2022-12-02
Anticipated expiration: 2039-06-12
Also published as: CN110347824A

Abstract

本发明公开了一种基于词汇相似性的LDA主题模型最优主题数确定方法，利用LDA模型抽取主题词，基于词向量间的相似性，寻找最优主题数目。首先对文本数据进行分词等预处理，应用LDA主题模型对文本进行主题建模，获得每个主题下对应的词分布；然后将词分布转化为词向量分布，利用向量间的相似性，基于LDA的语义关联，分析主题质量，确定最优主题数目。本发明提出的方法可以自动确定最优主题数目，避免人为设定的局限，更好地服务于微博文本数据的聚类分析。

Description

一种基于词汇相似性的LDA主题模型最优主题数确定方法

技术领域

本发明属于自然语言处理技术领域，涉及一种自然语言处理模型，具体涉及一种基于词汇相似性的LDA主题模型最优主题数确定方法。

背景技术

随着互联网的高速发展，微博作为开放的用户交流和信息传播平台，越来越受到人们的欢迎。挖掘用户兴趣偏好，分析用户偏好行为特征，对舆情监控和网络安全管理以及商业价值推广，具有十分重要作用。但每个用户每天浏览成千上百条微博，海量微博信息增加了用户获取自身需要信息的难度，影响了用户体验。精准获取用户偏好是微博平台主动推送用户感兴趣内容的关键。

在文本聚类方面，主题方法比传统方法更有效，这也使得隐含狄利克雷分布(LDA，Latent Dirichlet Allocation)在文本处理方面得到越来越多的应用。LDA主题模型是数据挖掘和文本信息处理方面不可或缺的模型。该主题模型是一种文本建模方法，能够以概率分布的形式表达出文本中隐藏的主题信息。LDA主题模型打破了传统文本表示的思维模式，提出“主题”的概念，用于在海量文本中抽取出重要信息。

基于LDA主题模型进行主题挖掘，最优主题数目直接影响用户兴趣偏好刻画精度。目前普遍认为Gibbs采样的LDA主题模型的最大问题是无法确定最优主题数目，在大多数情况下，都是通过经验人为设定主题数目，主题数目对迭代过程和结果非常重要，过多或者过少都会对模型产生很大的影响，导致最终的文档分布存在精度误差。

发明内容

为了解决上述技术问题，本发明提供了一种基于词汇相似性的LDA主题模型最优主题数确定方法。

本发明所采用的技术方案是：1.一种基于词汇相似性的LDA主题模型最优主题数确定方法，其特征在于，包括以下步骤：

步骤1：选取初始k值，作为LDA主题模型初始主题数目；

步骤2：进行文档主题分离，采样主题，直至收敛；

步骤3：生成主题-词分布，记为(T₁，w₁₁，w₁₂，...，w_1n)、(T₂，w₂₁，w₂₂，...，w_2n)、…、(T_n，w_n1，w_n2，...，w_nn)；其中，T₁、T₂、…、T_n为n个主题，w_ij为每个主题下的词分布；

步骤4：将主题-词分布转换为主题-词向量分布；

步骤5：计算主题质量，对每个主题下的词向量两两计算相似值，获取平均值；

步骤6：绘制

曲线，

为某个主题下的词语相似度平均值，Topic#为对应主题；平均相似度达到最小时，每个主题下的词分布倾向于表达一个主题，分类模型达到最优。

作为优选，步骤2中，根据Gibbs采样公式采样主题。

作为优选，步骤4中，基于维基百科通过word2vec训练词向量，将主题-词分布转换为主题-词向量分布。

作为优选，步骤5中，对每个主题下的词向量两两计算相似值，计算方法是，选取主题T，通过向量相加平均法得到每个主题下的主题词相似度之和的平均值，其公式如下所示：

其中，N_T为主题数，w为主题T下的主题词数目，e(w_i,w_j)为两词语间的相似度，相似度通过余弦值得到，即：

w_i和w_j分别为词语的向量表示；主题词i与主题词j计算相似度值，然后取得主题T下所有分布词的相似度之和，计算得到平均值。

作为优选，步骤6中所述绘制

曲线方法为：

为某个主题下的词语相似度平均值，通过计算不同Topic#下的

值，绘制出横坐标为Topic#数，纵坐标为

的折线图，基于连续的Topic#数，找到最小值点，最小值点对应的Topic#数，即为最优主题数目。

本发明提供的LDA主题数目确定方法，可以有效的避免根据经验人为设定主题数目的局限，提供最优的LDA初始主题数目，从而有效地解决了主题个数的选择问题，得到更好的模型聚类效果。

附图说明

图1本发明实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于词汇相似性的LDA主题模型最优主题数确定方法，包括以下步骤：

步骤1：选取初始k值，作为LDA主题模型初始主题数目；

步骤2：进行文档主题分离，采样主题，直至收敛；

本实施例中，首先对要分析的文本数据进行预处理，分词并去除停用词。然后应用LDA模型，根据Gibbs采样公式，采样至收敛，并生成主题-词分布。

步骤4：将主题-词分布转换为主题-词向量分布；

本实施例中，为了获得词语的向量表示，可通过爬取维基百科等海量文本数据并基于word2vec训练词向量，然后将生成的主题-词分布转化为主题-词向量分布。

本实施例中，对每个主题下对应的词向量分布相互计算相似值，通过向量相加平均法，得到每个主题下的主题词相似度之和的平均值，具体计算方法如下：

w_i和w_j分别为词语的向量表示。主题词i与主题词j计算相似度值，然后取得主题T下所有分布词的相似度之和，计算得到平均值。

步骤6：绘制

曲线，

本实施例中，通过进一步的绘制

曲线，

为某个主题下的词语相似度平均值，Topic#为对应主题，可以更直观的获取均值最小点，均值最小点对应的主题数目即为最优主题数目。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于词汇相似性的LDA主题模型最优主题数确定方法，其特征在于，包括以下步骤：

步骤1：选取初始k值，作为LDA主题模型初始主题数目；

步骤2：进行文档主题分离，采样主题，直至收敛；

步骤4：将主题-词分布转换为主题-词向量分布；

步骤6：绘制

曲线，

2.根据权利要求1所述的基于词汇相似性的LDA主题模型最优主题数确定方法，其特征在于：步骤2中，根据Gibbs采样公式采样主题。

3.根据权利要求1所述的基于词汇相似性的LDA主题模型最优主题数确定方法，其特征在于：步骤4中，基于维基百科通过word2vec训练词向量，将主题-词分布转换为主题-词向量分布。

4.根据权利要求1所述的基于词汇相似性的LDA主题模型最优主题数确定方法，其特征在于：步骤5中，对每个主题下的词向量两两计算相似值，计算方法是，选取主题T，通过向量相加平均法得到每个主题下的主题词相似度之和的平均值，其公式如下所示：

5.根据权利要求1-4任意一项所述的基于词汇相似性的LDA主题模型最优主题数确定方法，其特征在于，步骤6中所述绘制

曲线方法为：

为某个主题下的词语相似度平均值，通过计算不同Topic#下的

值，绘制出横坐标为Topic#数，纵坐标为