CN107423282B

CN107423282B - 基于混合特征的文本中语义连贯性主题与词向量并发提取方法

Info

Publication number: CN107423282B
Application number: CN201710372958.7A
Authority: CN
Inventors: 吴骏; 张梓雄; 康宁; 谢俊元
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2020-07-28
Anticipated expiration: 2037-05-24
Also published as: CN107423282A

Abstract

本发明提供一种基于混合特征的文本中语义连贯性主题与词向量并发提取方法，从而能够同时解决LDA主题模型中忽略局部上下文信息与词向量中忽略文档与词的互信息的缺陷。包括以下步骤：1)上下文依赖的主题预分配阶段；2)基于主题的词向量重构阶段；3)混合文档生成阶段；本发明基于混合特征的文本中语义连贯性主题与词向量并发提取方法能够在现有的生成式概率主题模型与词嵌入等相关技术的基础上，混合利用文本中的全局文档与词的统计信息以及局部的上下文词序与依赖信息，在提取出语义连贯的主题词分布的同时，为不同文档中的词生成不同的主题相关的词向量，有效解决同一词在不同主题下的歧义问题。

Description

基于混合特征的文本中语义连贯性主题与词向量并发提取方法

技术领域

本发明涉及无监督文本数据挖掘以及文本主题模型领域，是一种基于混合特征的文本中语义连贯性主题与词向量并发提取方法，能够在提取出语义连贯的主题词分布的同时，为不同文档中的词生成不同的主题相关的词向量，有效解决同一词在不同主题下的歧义问题。此模型还能将LDA中低维的稀疏主题向量推广到分布式连续密集的主题向量，从而可以更方便地衡量主题与主题、主题与词之间的相似度。

背景技术

在这个信息爆炸的大数据时代，人们每天都会以新闻、博客、网页、科学文章、书籍、视频等各种各样的形式阅读浏览大量的内容；在这种鱼龙混杂的情况下，对于有价值的文本检索与关键信息提取变得愈发困难，我们需要依赖于外部的计算工具来组织、搜索以及理解这些繁杂的信息。现在人们对于在线信息的处理往往依赖于搜索引擎与链接，我们习惯于在搜索引擎内按照关键字搜索然后根据返回的文档列表提供的链接导航至不同的信息。而概率主题模型这一系列的算法工具能够从文档中提取出主题词，方便用户进行快速检索与文档分类等操作。同时，概率主题模型还可以看做将文档映射为低维的概率主题向量，从而为下游的文本聚类等自然语言处理任务提供帮助。

在无监督文本数据挖掘中，以LDA为代表的概率主题模型能够被用于提取语料集中文档共享的隐藏主题，为人们提供直观、易于理解的文档主题分布与主题包含的词分布。但是LDA仅依赖于文档与词的全局统计数据，忽略了局部上下文中的词序与共现信息，导致主题包含的多个词之间往往缺乏语义连贯性。另一方面，以Word2Vec为代表的词嵌入技术已经证明了分布式密集向量能够更好地捕获语义与语法规则，更方便地用于衡量词与词之间的相关性；但是其将语料集看做长字符串以致忽略了词与文档的关联信息，只能生成全局唯一的词向量，无法解决一词多义的问题。

鉴于现实工作中我们需要更频繁地在海量文本中进行无监督数据挖掘，快速提取出有效信息或者将本文转化为特征向量等形式以方便下游应用使用，因此急需合适的方法来提取出文本中语义连贯的主题的同时生成词对应的嵌入特征向量。

发明内容

发明目的：本发明在生成式概率主题模型与词嵌入等相关技术的基础上，提出了混合特征的文本中主题与词向量提取模型。此模型能够在提取出语义连贯的主题词分布的同时，为不同文档中的词生成不同的主题相关的词向量，有效解决同一词在不同主题下的歧义问题。此模型还能将LDA中低维的稀疏主题向量推广到分布式连续密集的主题向量，从而可以更方便地衡量主题与主题、主题与词之间的相似度。

技术方案：

基于混合特征的文本中语义连贯性主题与词向量并发提取方法，包括步骤：

步骤1：使用开源分词工具将语料库中的文档进行中文分词并且去除停用词；

步骤2：利用开源工具建立词表与词-文档矩阵；

步骤3：基于固定尺寸的与固定步长的滑动窗口进行文档切分，将步骤2得到的文档切分为多个局部上下文；并抽取出多元词组，每个多元词组包含多个局部上下文中共现的词；

步骤4：对步骤3中抽取出来的多元词组进行吉布斯采样，产生“多元词组-主题”分布与“主题-词”分布；并步骤3生成文档主题分布；

步骤5：进行外部语料集的抓取，并进行预处理；

步骤6：利用开源工具Genism对步骤5预处理之后的语料集进行通用词向量训练；

步骤7：根据步骤4得到的“主题-词”分布，计算每个主题对应的嵌入向量；具体为使用步骤6中生成的通用词向量，将通用词向量按照概率值按权相加得到每个主题对应的嵌入向量；

步骤8：将步骤7中得到的主题嵌入向量与步骤8得到的通用词向量按权相加，得到某个词在某个主题下的特征嵌入向量；将文档中所有主题词嵌入按权相加得到文档向量；

步骤9：根据预设的模型超参数从伯努利分布中采样出随机判别值，并根据判别值是否为零来决定当前词的生成源；如果等于零则从狄利克雷先验的多项式分布中生成，否则从词向量隐特征模块生成；

步骤10：利用吉布斯采样得到当前词的生成主题，然后根据确定的词生成方式采样出当前词；

步骤11：重复步骤10，更新全局词统计信息以及词嵌入值直到收敛；获得最终的“文档-主题”分布和“主题-词”分布以及更新后的词向量。

所述步骤1中使用开源工具Genism对英文语料集进行英文分词操作，使用开源中文分词工具Jieba对中文语料集进行中文分词，并去除停用词。

所述多元词组抽取具体过程如下：

i.预处理完成后，每个文档被表示为词序列V_i，V_i中使用词在词表中的下标表示该词；

ii.根据预设的固定长度的滑动窗口从文档中，即词序列中取出包含多个词的局部上下文词集合；然后将该词集合依照多元语言模型转化为多元词组，即譬如(w₁,w₂,w₃)＝>{(w₁,w₂),(w₂,w₃),(w₁,w₃)}

iii.根据预设的滑动步长将滑动窗口移动到下一个局部上下文中，重复上述步骤处理流程；

iv.迭代处理语料集中所有处理后文本，生成多元词组集合。

有益效果：本发明提出一种新的方法，能够在提取出语义连贯的主题词分布的同时，为不同文档中的词生成不同的主题相关的词向量，有效解决同一词在不同主题下的歧义问题。

附图说明

图1为本发明的上下文依赖的主题预分配阶段的流程图。

图2为本发明的基于主题的词向量重构阶段的流程图

图3为混合文档生成阶段的流程图。

图4为多元词组生成模型示意图。

图5为基于Skip-gram模型的主题嵌入向量生成示意图。

图6为混合文档生成模型示意图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示，本发明第一阶段是进行上下文依赖的主题预分配，图4为多元词组生成模型示意图。

步骤0是进行主题预分配的起始状态。

步骤1是使用开源分词工具将语料库中的文档进行中文分词并且去除停用词。由于停用词对于主题建模并无任何意义，因此在分词完成后，对照停用词词表去除词集合中的停用词。使用开源工具Genism对英文语料集进行英文分词操作，使用开源中文分词工具Jieba对中文语料集进行中文分词，并去除停用词；

步骤2是利用开源工具Scikit-learn建立词表与词-文档矩阵，此时语料集中的所有文档都可以表示为词在词表中对应的下标，并且我们使用稀疏矩阵存放语料集中的文档以保证空间利用率。

步骤3是基于固定尺寸的与固定步长的滑动窗口进行文档切分，将步骤2中经过数据预处理之后的文档切分为多个局部上下文。

步骤4是根据多元语言模型从每个滑动窗口切分而来的局部上下文中抽取出多元词组，每个多元词组包含多个局部上下文中共现的词。

多元词组抽取具体过程如下：

v.步骤1)-a)预处理完成后，每个文档被表示为词序列V_i，V_i中使用词在词表中的下标表示该词；

vi.根据预设的固定长度的滑动窗口从文档中，即词序列中取出包含多个词的局部上下文词集合；然后将该词集合依照多元语言模型转化为多元词组，即譬如(w₁,w₂,w₃)＝>{(w₁,w₂),(w₂,w₃),(w₁,w₃)}

vii.根据预设的滑动步长将滑动窗口移动到下一个局部上下文中，重复上述步骤2)的处理流程；

viii.迭代处理语料集中所有处理后文本，生成多元词组集合。

步骤5是对步骤4中抽取出来的多元词组进行吉布斯采样，采样之后可以产生“多元词组-主题”分布与“主题-词”分布。首先针对提取出的多元词组，假设每个多元词组由单一主题生成；然后利用吉布斯采样进行多轮迭代推导出每个词的主题分配，最后将隐主题分配矩阵重构为“主题-词”分布；

步骤6是对步骤4中抽取出来的多元词组的主题分配情况并且根据步骤3中多元词组与文档的对应情况，进行文档主题分布的生成。

步骤7是主题预分配阶段的结束。

如图2所示，对于语料集的主题预分配结束之后，我们需要进行基于主题的词向量重构，将原本词表中离散稀疏的词表示为分布式密集的嵌入向量。图5为基于Skip-gram模型的主题嵌入向量生成示意图。

步骤8是基于主题的词向量重构阶段的开始。

步骤9是进行外部语料集的抓取，可以选择Google News或者维基百科的中英文语料集；然后使用步骤1-2中使用的数据预处理技术对于外部语料集进行数据预处理。

步骤10是利用开源工具Genism进行通用词向量训练，这里可以使用Word2Vec中的Skip-gram三层神经网络模型。

步骤11将主题包含词的嵌入向量按权相加得到主题嵌入向量，这里根据步骤6中抽取出的主题词分布，然后使用步骤10中生成的通用词向量，将通用词向量按照概率值按权相加得到主题的嵌入向量。

步骤12是将主题向量与词向量按权相加得到主题词嵌入，这里使用步骤11中得到的主题嵌入向量与步骤10得到的通用词向量，将二者按权相加，得到某个词在某个主题下的特征嵌入向量。根据公式

计算得到某个词在所属主题下对应的主题词嵌入，其中

表示通用词向量，

表示主题嵌入向量；

步骤13是将文档中所有主题词嵌入按权相加得到文档向量，这里根据步骤2得到的文档词表将步骤12得到的主题词嵌入按权相加得到的向量作为文档的特征嵌入向量。

步骤14是基于主题的词向量重构阶段的结束。

如图3所示，获取到主题向量与主题词嵌入之后，我们就可以根据混合文档生成模型进行主题重分配，得到最终的“文档-主题”分布和“主题-词语”分布；图6为混合文档生成模型示意图。

步骤15是混合文档生成阶段的开始。

步骤16根据预设的模型超参数从伯努利分布中采样出随机判别值，其主要步骤是对于文档中的每个词w_i，从伯努利分布中采样出随机值s_i～Ber(λ)，s_i用于决定词w_i是由狄利克雷先验的多项分布生成还是由隐特征模块生成；其中λ是模型超参数；

步骤17-18根据判别值是否为零来决定当前词的生成源，即决定其生成主题与词概率分布；如果等于零则从狄利克雷先验的多项式分布中生成，否则从词向量隐特征模块生成。

主要是根据步骤3)-a)中得出的判别值s_i，利用如下公式：

采样生成当前词。其中：

步骤19是确定了词的生成方式后，从文档的主题分布中采样得到当前词的生成主题，然后根据确定的词生成方式采样出当前词。

步骤20是基于吉布斯采样重复当前生成步骤，更新全局词统计信息以及词嵌入值直到收敛；采样后获得最终的“文档-主题”分布和“主题-词”分布以及更新后的词向量；

步骤21为混合文档生成阶段的结束。

综上所述，本发明提出的是一种基于混合特征的文本中语义连贯性主题与词向量并发提取方法，能够在提取出语义连贯的主题词分布的同时，为不同文档中的词生成不同的主题相关的词向量，有效解决同一词在不同主题下的歧义问题。此模型还能将LDA中低维的稀疏主题向量推广到分布式连续密集的主题向量，从而可以更方便地衡量主题与主题、主题与词之间的相似度。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于混合特征的文本中语义连贯性主题与词向量并发提取方法，其特征在于：包括步骤：

步骤2：利用开源工具建立词表与词-文档矩阵；

步骤4：对步骤3中抽取出来的多元词组进行吉布斯采样，产生“多元词组-主题”分布与“主题-词”分布；并根据步骤3中多元词组与文档的对应情况生成文档主题分布；

步骤5：进行外部语料集的抓取，并进行预处理；

步骤7：根据步骤4得到的“主题-词”分布，计算每个主题对应的主题嵌入向量；具体为使用步骤6中生成的通用词向量，将通用词向量按照概率值按权相加得到每个主题对应的嵌入向量；

步骤8：将步骤7中得到的主题嵌入向量与步骤6得到的通用词向量按权相加，得到某个词在某个主题下的特征嵌入向量；将文档中所有主题词嵌入按权相加得到文档向量；

步骤11：重复步骤10，更新全局词统计信息以及词嵌入值直到收敛；获得最终的文档主题分布和“主题-词”分布以及更新后的通用词向量。

2.根据权利要求1所述的文本中语义连贯性主题与词向量并发提取方法，其特征在于：所述步骤1中使用开源工具Genism对英文语料集进行英文分词操作，使用开源中文分词工具Jieba对中文语料集进行中文分词，并去除停用词。

3.根据权利要求1所述的文本中语义连贯性主题与词向量并发提取方法，其特征在于：所述多元词组抽取具体过程如下：

ii.根据预设的固定长度的滑动窗口从文档中，即词序列中取出包含多个词的局部上下文词集合；然后将该词集合依照多元语言模型转化为多元词组，即(w₁,w₂,w₃)＝>{(w₁,w₂),(w₂,w₃),(w₁,w₃)}；

iii.根据预设的滑动步长将滑动窗口移动到下一个局部上下文中，重复上述步骤ii的处理流程；

iv.迭代处理语料集中所有处理后文本，生成多元词组集合。