CN106055604B

CN106055604B - 基于词网络进行特征扩展的短文本主题模型挖掘方法

Info

Publication number: CN106055604B
Application number: CN201610353388.2A
Authority: CN
Inventors: 张雷; 戴恒宇; 蔡洋; 王陆霞; 陆恒杨; 徐鸣; 王崇骏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2016-05-25
Filing date: 2016-05-25
Publication date: 2019-08-27
Anticipated expiration: 2036-05-25
Also published as: CN106055604A

Abstract

一种基于词网络进行特征扩展的短文本主题模型挖掘方法，1）带权词网络构建步骤：2）短文本特征扩展步骤：3）主题挖掘步骤：将步骤2短文本特征扩展后的语料库作为训练集进行LDA吉布斯采样；采样后获得“中文分词后的文档‑主题”分布和“主题‑带权词网络中的节点是词语词语”分布；结束；计算邻接点加入社团前后的模块度增量，模块度是衡量社团好坏的标准，指网络中连接社团内部节点的边所占的比例与另外一个随机网络中连接社团内部节点的边所占比例的期望值相减得到的差值。

Description

基于词网络进行特征扩展的短文本主题模型挖掘方法

技术领域

本发明涉及短文本文本主题模型及复杂网络分析领域，是一种利用带权词网络进行短文本特征扩展的方法，从而解决LDA主题模型应用于短文本中存在的特征稀疏性问题。

背景技术

短文本的特征非常稀疏，导致诸如LDA这样的基于词语共现关系进行主题建模的生成模型在短文本上表现不佳。而在当前的环境下，短文本相比于长文本具有不可比拟的优势，相比于长文本，短文本表达的语义简练，传递信息的速度快，人们越来越倾向于使用短文本来传递信息，短文本正在成为当今社会最重要的信息载体之一，比如在线广告、短信息和流行的社交媒体如微博、推特等，这些文本具有长度短、非正式并且常常含有噪声的特点。

解决短文本主题模型特征稀疏性的主要策略是寻找一些启发式方法将短文本聚合成长文本已解决短文本的数据稀疏性问题。目前对于微博等短文本的主题模型的研究使用了不同的策略来合并不同的微博，如基于作者信息、标签信息、时间信息，使用现有的主题模型方法来对聚合后的长文本进行主题挖掘，实验表明这种方法比直接在短文本上应用现有的主题模型方法效果要好。另一种短文本的扩展思路是利用搜索引擎或者wiki等资料库，在搜索引擎或wiki等资料库中寻找与当前文本相关的词或句子来对原文本进行扩展，这种方法能够一定程度上解决短文本的数据稀疏性问题，但是一方面外部资料库对扩展结果会产生很大的影响，另一方面，最终的模型质量依赖于扩展策略的好坏。

鉴于短文本在生产生活中出现越来越频繁的情况，急需采取一定的方法来解决短文本主题模型建模中的数据稀疏性问题。

发明内容

本发明所要解决的技术问题是在短文本语料库上建立带权词网络，在该网络上使用模块度增量来对社团进行扩充，以解决短文本特征稀疏性问题，从而使得LDA主题模型取得更理想的效果。

为解决上述问题，本发明的基于复杂基于词网络进行特征扩展的短文本主题模型挖掘方法，包括如下步骤：

1)带权词网络构建步骤：

a)文本预处理，对短文本语料库中的文本进行中文分词，并删除掉停用词；

b)从中文分词后的文档中建立带权词网络，带权词网络中的节点是词语，节点之间的边是两个词语在同一篇文档中的共现关系，边的权重是在整个语料库中两个词语共现的次数；

c)结束；

2)短文本特征扩展步骤：

a)将每条短文本的中文分词后包含的词语节点作为步骤1建立的带权词网络中的一个社团；

b)在带权词网络中寻找与当前社团中的词语节点有边相连且不在社团内部的节点集合，称为社团邻接点；

c)利用模块度函数计算社团邻接点加入当前社团后，词网络的模块度增量；

d)向当前社团中加入模块度增量大于一定阈值的邻接点；

e)结束；

3)主题挖掘步骤：

a)将步骤2短文本特征扩展后的语料库作为训练集进行LDA吉布斯采样；

b)采样后获得“中文分词后的文档-主题”分布和“主题-词语”分布；

c)结束；

其中步骤1)-a)中所述的文本预处理为使用开源中文分词工具HanLP对短文本语料库中的文本进行中文分词，并去除停用词。

其中步骤1)-b)中所述的建立带权词网络，具体过程如下：

1)步骤1)-a)预处理完成后，每条短文本被表示为词集合V_i，为V_i中的每个词语建立一个节点；

2)为V_i中表示的词节点两两之间赋予一条边，边代表这两个节点在同一个文档中出现过，为每条边赋予权值1；

3)当其它短文本中出现网络中已经存在的节点时，不建立新的节点；当其它短文本中出现网络中已经存在的边时，为该边的权值加1；

4)迭代处理语料库中所有短文本词集合，生成带权词网络图。

其中步骤2)-a)所述的将每条短文本分词后的词集合作为带权词网络中的一个社团，其意义在于社团代表具有某种联系的节点集合，而词集合中的词语本身同时出现在了一个短文本中，说明词语之间存在语义上的联系，可以作为一个社团对待。

步骤2)-b)在带权词网络中寻找社团的邻接点，具体过程如下：

1)当前短文本d_i对应的社团节点集合为V_i，将V_i中每个节点v的邻接点加入集合Adjacent_i中。

2)去除Adjacent_i中存在的原社团中的节点，使得Adjacent_i中的节点为与V_i中节点相连且不在V_i中的邻接节点集合。

步骤2)-c所述的计算邻接点加入社团前后的模块度增量，模块度是衡量社团好坏的标准，指网络中连接社团内部节点的边所占的比例与另外一个随机网络中连接社团内部节点的边所占比例的期望值相减得到的差值。一个网络中的社团模块度计算公式为：

其中C为算法划分出的社团，I_c为社团c内部所有边的度总和，m为整个网络图中所有边的度总和，D_c为社团c中所有节点的度总和。将词网络中社团C的邻接点w加入社团C之前，w是一个独立社团，w的模块度为：

原社团C的模块度为：

将邻接点w加入社团C后，总的模块度为：

模块度增量为：

步骤2)-d所述的向当前社团中加入模块度增量大于某一阈值的邻接点，具体过程如下：

1)设定模块度增量阈值ε。

2)计算Adjacent_i中每个词加入社团前后的模块度增量ΔQ。

3)将ΔQ大于阈值ε的词加入到当前社团中。

步骤3)-a为使用吉布斯采样来对LDA模型中的参数进行估计，该步骤所使用的语料库是经过步骤2完成短文本特征扩展后的语料库。

步骤3)-b所述的采样后获得“文档-主题”分布和“主题-词语”分布，是经过吉布斯采样后得到的“主题-词”分布和“文档-主题”分布θ，这两个分布就是主题模型得到的结果。

本发明的有益效果：提出一种新的方法，引入复杂网络分析领域中的“社团”概念，通过网络中的“词-文档”关系来扩充短文本特征。传统的文本扩充方式如通过词共现频率、搜索引擎等往往只考虑“词-词”之间的联系，而本方法通过将文档建模为社团，并借助社团模块度这一工具，进而能够考虑到词与整个文档之间的关系，能够有效地解决短文本特征稀疏性问题，进而解决LDA主题模型(一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构)在短文本上由于短文本特征稀疏造成的效果不佳的状况。

附图说明

图1为本发明的带权词网络构建的流程图。

图2为本发明的基于社团模块度进行短文本特征扩展的流程图

图3为使用LDA在特征扩展后的语料库上进行主题挖掘的流程图。

图4为LDA主题模型的图模型示意。

图5为本发明流程图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

如图1所示，本发明在实施之前先要根据训练语料库建立带权词网络图，

步骤0是建立带权词网络图的起始状态。

步骤1是使用开源分词工具将语料库中的文档进行中文分词，将每个文档转换为词的集合形式。

步骤2是对分词的去停用词操作，由于停用词对于主题建模并无任何意义，因此在分词完成后，对照停用词词表去除词集合中的停用词。

步骤3是建立带权词网络中节点，将步骤2去停用词处理后的每个词语在网络中建立一个词节点。

步骤4-5是对每篇文档中的任意两个词w₁w₂进行判断是否存在边相连。

步骤6-7当同一篇文档中的两个词w₁w₂不存在边时，新建一条权值为1的边连接w₁w₂，当w₁w₂已经存在一条边相连时，将该边的权值加1.

步骤8是建立带权词网络的结束。

如图2所示，构建完带权网络图后，在带权网络图上使用模块度增量来对短文本进行特征扩展。

步骤9是短文本特征扩展阶段的开始。

步骤10是将原始文档对应的词节点作为一个初始社团，作为社团扩充的目标。

步骤11是获取与该初始社团邻接的节点集合，获取的方法为遍历社团中的所有节点，将与该节点之间有边相连且不在初始社团中的节点加入邻接节点集合中。

步骤12是计算邻接节点集合中的节点加入到初始社团前后的模块度增量，计算公式为

步骤13是判断当前模块度增量是否大于实现设定的阈值。

步骤14-15是对判断结果进行处理，若不大于阈值，则放弃将该词加入初始社团中，继续计算下一个邻接词，若大于阈值，将该词加入初识社团中。

步骤16是将扩充后的社团对应的词集合取出，作为新的训练语料。

步骤17是短文本特征扩展阶段的结束。

如图3所示，对短文本进行特征扩展完成后，使用LDA主题模型对特征扩展后的文档集进行主题建模，得到“文档-主题”分布和“主题-词语”分布，图4是LDA主题模型的图模型。

步骤18是主题挖掘阶段的开始。

步骤19使用LDA的吉布斯采样方法对LDA模型中的和θ参数进行估计，直到吉布斯采样收敛。

步骤20当吉布斯采样收敛时，输出文档的“文档-主题”分布θ和“主题-词语”分布

步骤21为主题挖掘阶段的结束。

综上所述，本发明提出的基于带权词网络模块度进行短文本特征扩展方法，能够解决短文本中存在的特征稀疏性问题，进而能够解决LDA主题模型应用于短文本中由于特征稀疏带来的效果不佳的问题，最终能够有效地提高短文本主题模型的准确率。

本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于词网络进行特征扩展的短文本主题模型挖掘方法，其特征在于，包括如下步骤：

1)带权词网络构建步骤：

c)结束；

2)短文本特征扩展步骤：

d)向当前社团中加入模块度增量大于一定阈值的邻接点；

e)结束；

3)主题挖掘步骤：

b)采样后获得“中文分词后的文档-主题”分布和“主题-带权词网络中的节点是词语词语”分布；

c)结束；

步骤2)-c)所述的计算邻接点加入社团前后的模块度增量，模块度是衡量社团好坏的标准，指网络中连接社团内部节点的边所占的比例与另外一个随机网络中连接社团内部节点的边所占比例的期望值相减得到的差值；将邻接词w加入社团C之前，社团C的模块度为：

其中I_c为社团C内部所有边权重总和，D_c为社团内所有节点的度总和；m为整个网络中所有边的权重总和；w加入社团C之前，w是一个独立社团，w的模块度为：

其中k_w为节点w的模块度，记k_w,C为词节点w链接到社团C中边的权重总和；将w加入社团C后的模块度为：

词w加入社团C前后的模块度增量为：

2.根据权利要求1所述的基于词网络进行特征扩展的短文本主题模型挖掘方法，其特征在于，其中步骤1)-a)中所述的文本预处理为使用开源中文分词工具HanLP对短文本语料库中的文本进行中文分词，并去除停用词。

3.根据权利要求1所述的基于词网络进行特征扩展的短文本主题模型挖掘方法，其特征在于，其中步骤1)-b)中所述的建立带权词网络具体过程如下：

4.根据权利要求1所述的基于词网络进行特征扩展的短文本主题模型挖掘方法，其特征在于，其中步骤2)-a)所述的将每条短文本分词后的词集合作为带权词网络中的一个社团，其意义在于社团代表具有某种联系的节点集合，而词集合中的词语本身同时出现在了一个短文本中，说明词语之间存在语义上的联系，作为一个社团对待。

5.根据权利要求1所述的基于词网络进行特征扩展的短文本主题模型挖掘方法，其特征在于，其中步骤2)-b)所述的寻找社团邻接点的具体过程如下：

1)当前短文本d_i对应的社团节点集合为V_i，将V_i中每个节点v的邻接点加入集合Adjacent_i中；

6.根据权利要求1所述的基于词网络进行特征扩展的短文本主题模型挖掘方法，其特征在于，其中步骤2)-d)所述的向当前社团中加入模块度增量大于某一阈值的邻接点，具体过程如下：

1)设定模块度增量阈值ε；

2)计算Adjacent_i中每个词加入社团前后的模块度增量ΔQ；

3)将ΔQ大于阈值ε的词加入到当前社团中。

7.根据权利要求1所述的基于词网络进行特征扩展的短文本主题模型挖掘方法，其特征在于，其中步骤3)-a)为使用吉布斯采样来对LDA模型中的参数进行估计，该步骤所使用的语料库是经过步骤2)完成短文本特征扩展后的语料库。

8.根据权利要求1所述的基于词网络进行特征扩展的短文本主题模型挖掘方法，其特征在于，其中步骤3)-b)所述的采样后获得“文档-主题”分布和“主题-词语”分布，是经过吉布斯采样后得到的“主题-词”分布和“文档-主题”分布θ，这两个分布就是主题模型得到的结果。