CN107122349A

CN107122349A - 一种基于word2vec‑LDA模型的文本主题词提取方法

Info

Publication number: CN107122349A
Application number: CN201710272622.3A
Authority: CN
Inventors: 王鸿泽; 崔超远; 王伟; 屠舒妍
Original assignee: Wuxi Zhongke Funong Internet Of Things Technology Co Ltd
Current assignee: Wuxi Zhongke Funong Internet Of Things Technology Co Ltd
Priority date: 2017-04-24
Filing date: 2017-04-24
Publication date: 2017-09-01

Abstract

本发明公开了一种基于word2vec‑LDA模型的文本主题词提取方法，涉及数据处理领域，所述方法包括如下步骤：利用语料库一训练LDA模型，同时利用语料库二训练word2vec模型；在线测试时对测试文本先进行预处理；将LDA模型和word2vec模型参数输入word2vec‑LDA模型，再将测试文本输入word2vec‑LDA模型，并计算文本主题中心向量；根据文本主题中心向量，在训练好的word2vec模型所构成的词向量空间中，寻找与测试文本最相关的一个或多个主题词即为测试文本提取出的主题词。本发明利用word2vec改进LDA，依据word2vec可以将单词进行向量化表示，可以通过向量间的距离来表示单词之间的关系等优点来弥补LDA模型的不足，提出了一个word2vec‑LDA模型。

Description

一种基于word2vec-LDA模型的文本主题词提取方法

技术领域

本发明涉及数据处理领域，具体涉及一种基于word2vec-LDA模型的文本主题词提取方法。

背景技术

主题词提取的主要工作是提取出能够代表文档主题内容的词或短语。现有的主题词提取方法两种：有监督方法和无监督方法。

有监督的主题词提取方法包括基于SVM、决策树、朴素贝叶斯等有监督机器学习方法，有监督的主题词提取方法的优点是正确率比较高，模型相对简单，但缺点是需要大规模的已标注语料作为训练数据，对训练数据的依赖较高，且需要耗费大量的资源进行人工标注；

无监督的主题词提取方法主要是基于统计的方法，常用的统计特征有词频、TF-IDF、词共现等，而无监督的主题词提取方法主要就是基于这些统计特征进行分析的，其中具有代表性的是以LDA模型为代表的主题模型。LDA是一个三级分层贝叶斯模型，它把文本集合中的每一项都看成是潜在主题集合上的一个随机混合，是一个典型的生成式主题模型。由于其把文档-主题-词汇三者联系在一起，所以经常会被用于文本主题词的自动提取。

但是LDA存在的不足是，LDA在建模时利用的是基于词频的词袋模型，词袋模型的问题是不计词序，也就是说忽略了单词之间的联系以及句式结构，忽略了上下文信息。

发明内容

本发明针对LDA存在忽略了单词之间的联系以及句式结构等的问题，提供了一种基于word2vec-LDA模型的文本主题词提取方法，该方法利用word2vec改进LDA，依据word2vec可以将单词进行向量化表示，可以通过向量间的距离来表示单词之间的关系等优点来弥补LDA模型的不足，提出了一个word2vec-LDA模型。

本发明采用如下技术方案：

一种基于word2vec-LDA模型的文本主题词提取方法，包括如下步骤：

S1、利用语料库一训练LDA模型；

S2、利用语料库二训练word2vec模型，对语料库二中出现的单词的处理转化为对K维向量空间中向量的运算，利用向量之间的相似度来表示单词的相似度，进而来表示文本语义的相似度；

S3、在线测试时对测试文本先进行预处理，包括文本切分、对测试文本内容进行分词并去停用词等操作；

S4、将LDA模型和word2vec模型参数输入word2vec-LDA模型，再将测试文本输入word2vec-LDA模型，并计算文本主题中心向量；

S5、根据文本主题中心向量，在训练好的word2vec模型所构成的词向量空间中，寻找与测试文本最相关的一个或多个主题词即为测试文本提取出的主题词。

本发明运用LDA模型和word2vec模型，下文对本发明进行具体描述：

模型输入：将语料库一的每篇文本表示成词袋模型，即由N个文本与M个唯一性词汇组成的N×M矩阵：

其中matrix_d-w矩阵的行表示文本d₁,d₂,…,d_n，matrix_d-w矩阵的列表示唯一性词汇w₁,w₂,…,w_M。

模型输出：输出两个矩阵，一个是由N个文本与K个主题组成的N×K矩阵(文本-潜在主题矩阵)，一个是由K个主题与M个唯一性词汇组成的K×M矩阵(潜在主题-词汇矩阵)：

其中matrix_d-t表示N个文本在K个潜在主题上的概率分布，matrix_t-w表示K个主题在M个唯一性词汇上的概率分布，测试时利用matrix_t-w矩阵进行测试文本的主题判断。

语料库二训练word2vec模型的数据包含LDA模型中的词表中的词，将LDA中的词表中的词向量化后，得到一组代表词表的向量如式(4)所示，

根据式(3)可以得到代表不同主题的向量如式(5)所示，

测试文本通过LDA模型的判断，文本主题分布为文本主题中心向量为式(6)。

如式(6)得到的该测试文本的主题中心向量后，在已训练的word2vec模型所构成的词向量空间中，对于文本主题中心向量计算该向量到已知词向量空间中所有点的距离并排序，找到距离最小的n个词向量所对应的词，即为该测试文本提取出来的主题词。

本发明由于采用了上述技术方案，具有以下有益效果：本发明针对LDA存在忽略了单词之间的联系以及句式结构等的问题，利用word2vec改进LDA，依据word2vec可以将单词进行向量化表示，可以通过向量间的距离来表示单词之间的关系等优点来弥补LDA模型的不足，提出了一个word2vec-LDA模型，从而更加准确地进行文本主题词的自动化提取。

附图说明

附图用来提供对本发明的优选的理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明的整体流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所述描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明运用LDA模型和word2vec模型，其中：

LDA模型：LDA实质上为一个三层贝叶斯框架；LDA相较于PLSA的一个优点是它采用了贝叶斯估计而不是最大似然估计，使得LDA更加适用于数据集规模不大的情况。

word2vec模型：word2vec是谷歌(Google)公司在2013年开源的一款高效工具，它能将自然语言中的单词表征为一个实数值的稠密向量。word2vec模型是能够进行词共现分析的一个三层神经网络，用大量语料库训练word2vec模型可以把对语料库中出现的单词的处理转化为对K维向量空间中向量的运算，可以利用向量之间的相似度来表示单词的相似度，进而来表示文本语义的相似度。因此，可以利用训练word2vec模型所得到的词向量来做很多自然语言处理相关的工作。

中文文本有着非常复杂的语义关系，语义相似的词汇也最可能同属于同一个主题。因此，本发明针对LDA存在忽略了单词之间的联系以及句式结构等的问题，利用word2vec改进LDA，依据word2vec可以将单词进行向量化表示，可以通过向量间的距离来表示单词之间的关系等优点来弥补LDA模型的不足，提出了一个word2vec-LDA模型，从而更加准确地进行文本主题词的自动化提取。

实施例：

本实施例利用中文维基百科数据训练word2vec模型，word2vec的实现利用python的第三方库gensim来完成的，其中窗口大小设置为5，向量维数设置为300，低频词过滤设置为10。

测试文本为搜狗新闻文本分类语料，分为财经、IT、健康、体育、旅游、教育、招聘、文化、军事九个类别，每个类别有1990个文本，通过人工判断从某个类别文本自动提取的主题词是否包含与该类别相关的词来判断主题提取是否正确，根据这个思想定义准确率：

其中n_correct指正确提取主题词的文本数量，n_total指测试文本的总数量。

本实施例设置两组实验，一组是本发明方法利用word2vec-LDA模型进行主题词提取，另一组是利用原始的LDA模型进行主题词提取，两个模型在九个类别文本中准确率的表现如表1所示。

表1主题词数为5的提取结果 (％)

本发明方法在九类文本上的表现均好于原始的LDA模型主题词提取方法，原因是本文将原始的LDA利用word2vec进行改进，把词向量化，从而寻找文本主题中心向量，并根据该向量在整个词空间寻找主题词，而并不局限于测试文本中的词汇，使得主题词的提取更具有概括性；另外word2vec模型可以改进LDA模型中忽略的上下文关系加入进来，使得主题词的提取更加准确。

在每一类文本中抽出一个典型文本进行测试，主题词提取示例如表2所示，由下表可从直观上看到word2vec-LDA模型相较于LDA模型提取出的关键词描述更加精确，概括性更强。

表2主题词提取示例

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于word2vec-LDA模型的文本主题词提取方法，包括如下步骤：

S1、利用语料库一训练LDA模型；

S2、利用语料库二训练word2vec模型，构成词向量空间；

S3、在线测试时对测试文本进行预处理，包括对测试文本内容进行分词并去停用词；

S5、根据步骤S4中获取的文本主题中心向量，在训练好的word2vec模型所构成的词向量空间中，寻找与测试文本最相关的一个或多个主题词即为测试文本提取出的主题词。

2.根据权利要求1所述的一种基于word2vec-LDA模型的文本主题词提取方法，其特征在于，所述步骤S1中训练LDA模型的具体步骤包括：

S11、模型输入：将语料库一的每篇文本表示成词袋模型，即由N个文本与M个唯一性词汇组成的N×M矩阵：

S12、模型输出：输出两个矩阵，分别为由N个文本与K个主题组成的N×K矩阵和由K个主题与M个唯一性词汇组成的K×M矩阵：

3.根据权利要求2所述的一种基于word2vec-LDA模型的文本主题词提取方法，其特征在于，所述步骤S4中计算文本主题中心向量的具体步骤包括：

根据式(3)得到代表不同主题的向量如式(5)所示，

。

4.根据权利要求3所述的一种基于word2vec-LDA模型的文本主题词提取方法，其特征在于，所述步骤S5的具体步骤为：

根据式(6)得到的该测试文本的主题中心向量后，在已训练的word2vec模型所构成的词向量空间中寻找距离向量最近的n个词，即为该测试文本提取出来的主题词。

5.根据权利要求4所述的一种基于word2vec-LDA模型的文本主题词提取方法，其特征在于，所述寻找的具体步骤为：

在已训练的word2vec模型所构成的词向量空间中，对于文本主题中心向量计算该向量到已知词向量空间中所有点的距离并排序，找到距离最小的n个词向量所对应的词，即为该测试文本提取出来的主题词。