CN108681557A

CN108681557A - 基于自扩充表示和相似双向约束的短文本主题发现方法及系统

Info

Publication number: CN108681557A
Application number: CN201810306013.XA
Authority: CN
Inventors: 姜波; 李宁; 卢志刚; 姜政伟
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-04-08
Filing date: 2018-04-08
Publication date: 2018-10-19
Anticipated expiration: 2038-04-08
Also published as: CN108681557B

Abstract

本分明提供一种基于自扩充表示和相似双向约束的短文本主题发现方法及系统，该方法的步骤包括：基于TF‑IWF词权重度量方法构建待挖掘主题的词‑文档矩阵；向量化短文本文档并度量两两文档间相似性，得到虚拟长文档集合；利用TF‑IWF词权重度量方法，在虚拟长文档集合上构建虚拟辅助的词‑文档矩阵；合并两个矩阵为混合矩阵；构建词‑词语义相似矩阵、文档‑文档语义相似矩阵，进而构建词‑词语义关系正则项、文档‑文档语义关系正则项；得到TRNMF模型，通过分解损失函数值，获得最优的词‑话题潜在特征矩阵、话题‑文档潜在特征矩阵，发现短文本主题分布情况。

Description

基于自扩充表示和相似双向约束的短文本主题发现方法及系统

技术领域

本发明涉及一种内部蕴含社交网络的社交型短文本数据主题挖掘的技术，具体涉及一种基于自扩充表示和相似双向约束的短文本主题发现方法及系统。

背景技术

随着互联网、移动应用及社交网络的迅猛发展，海量的短文本信息呈现爆炸式增长。分析和挖掘这些无结构的文本信息背后所蕴含的深层语义结构具有重要的理论价值和现实意义。例如，准确的语义理解可帮助企业根据用户的搜索请求偏好来完善产品功能，改善用户体验度；帮助政府检测出危害信息，防范危机，具有安定社会的重要作用；帮助用户避免信息过载问题，过滤无用信息，只关注有价值的信息。此外，大量网络应用服务，如产品评论、知识问答、查询推荐等，都需要理解大量短文本语义信息。可见，准确且高效的短文本理解技术对于改善网络应用平台的用户体验也至关重要。

目前已有大量研究工作试图从海量的短文本数据中挖掘其语义信息。然而，短文本的有限长度、书写不规范、语义多歧义等特性为文本理解工作带来了新的挑战。因此，为了更好地理解短文本的语义信息，大量研究者在短文本语义分析与处理方面做出了很多尝试性的研究。总结相关工作，短文本主题建模采用的技术主要包括以下几个方面：

(1)基于外部辅助数据源的方法。这类方法通过借用Wikipedia、WordNet、门户网站、搜索结果或者其他辅助数据来扩展每个短文本文档的表示，然后在内部特征和外部特征的共同作用下利用主题挖掘模型进行语义识别，以此来提高短文本主题挖掘的效果。但是，这种方式会带来外部噪音及引入维度灾难等问题，影响原始短文本文档的语义理解。另外，该方法对短文本主题挖掘的效果在很大程度上取决于原始短文本文档与扩展的外部数据的相关程度。事实上，由于短文本内容实时性较强，找到与之匹配的合适外部数据源有时候是非常困难的，而且二者在语言表达方式上也存在很大差异。

(2)基于文本内部数据扩充的方法。这类方法通过按照同一作者、词共现关系、伪相关反馈、重采样等策略，实现短文本的重新聚合，形成一个虚拟长文档，再利用主题模型对其进行语义分析。这种启发式聚合策略的优点是不会引入一些异质数据源中的噪音，因此在目前短文本相关的研究中使用较多且模型性能表现优异。但是，该类方法存在着一个关键问题是如何选择扩展规则以及扩展表示方式，目前并没有形成一个通用的准则。如果扩展的不好，同样也可能给原始短文本文档带来语义理解的偏差。

(3)基于文本标注信息表示短文本语义的方法。有别于上述两种方法，这类方法通过利用Hahstag、URL、表情符号、提及符号或回复符合等信息进行指定类型的主题模型学习，无法识别潜在主题。这种方式在本质上并没有解决短文本的内容稀疏性问题，而且文本标注信息通常非常少，所以这类方法的使用范围具有局限性。

综上所述，目前对短文本的语义分析与挖掘的方法仍存在很多不足之处。借助外部数据源，抑或是内部数据扩展的方法都没有作出实质性的改进。短文本文档通常仅包含几个或十几个词，无论是词频信息还是词共现信息都非常缺乏，要基于如此有限的信息来推断出文档内部的主题结构非常困难。因此，解决短文本数据稀疏性问题是分析与挖掘短文本文档主题结构的关键所在，同时也是一个新的挑战。

发明内容

本发明的目的是提出一种基于自扩充表示和相似双向约束的短文本主题发现方法，该方法基于非负矩阵分解的短文本主题挖掘模型(即TRNMF,Topic Model usingRegularized Non-negative Matrix Factorization)，可针对社交短文本数据集构建主题模型，即采用正则化非负矩阵分解算法为社交型短文本数据的主题挖掘提供解决方案。TRNMF模型从数据中内在蕴含的词共现关系的角度出发，以正则化非负矩阵分解算法为基础进行短文本的自扩展表示方式，解决了数据稀疏性问题，从而提升了短文本主题建模的精度和效率。

为达到上述目的，本发明所采用的技术方案如下：

一种基于自扩充表示和相似双向约束的短文本主题发现方法，其步骤包括：

基于TF-IWF词权重度量方法，在原始短文本文档数据集上构建待挖掘主题的词-文档矩阵；

向量化原始短文本文档数据集中的短文本文档，再度量两两文档间相似性，从原始短文本文档数据集中为每个短文本文档选取最相关的前若干个文档来扩充当前短文本文档的表示，得到虚拟长文档集合；

利用TF-IWF词权重度量方法，在虚拟长文档集合上构建虚拟辅助的词-文档矩阵；

合并待挖掘主题的词-文档矩阵和虚拟辅助的词-文档矩阵为混合矩阵；

构建词-词语义相似矩阵，基于该矩阵构建词-词语义关系正则项；

构建文档-文档语义相似矩阵，基于该矩阵构建文档-文档语义关系正则项；

基于混合矩阵、词-词语义关系正则项、文档-文档语义关系正则项，得到基于正则化非负矩阵分解的TRNMF模型，通过分解损失函数值，获得最优的词-话题潜在特征矩阵、话题-文档潜在特征矩阵，发现短文本主题分布情况。

进一步地，所述TF-IWF词权重度量方法是基于TF-IDF词权重度量方法针对短文本文档改进得到。

进一步地，基于余弦相似度方法度量两两文档间相似性。

进一步地，采用Doc2Vec算法对短文本文档进行向量化。

进一步地，虚拟长文档集合的大小与原始短文本文档数据集相同。

进一步地，虚拟辅助的词-文档矩阵和待挖掘主题的词-文档矩阵具有相同结构，共用同一关键词列表。

进一步地，利用基于词嵌入的GloVe算法向量化短文本文档数据集中每个词，再利用余弦相似度方法度量两个词之间的相似度，构建词-词语义相似矩阵。

进一步地，利用基于吉布斯采样的GSDMM算法对原始短文本文档集合和虚拟长文档集合进行聚类，根据短文本文档所属类别的不同，构建文档-文档语义相似矩阵。

进一步地，将词-词语义关系正则项和文档-文档语义关系正则项融合到TRNMF模型的目标函数中；通过随机梯度下降算法计算分解损失函数值，直至达到收敛的预设值或迭代最大次数，获得最优的词-话题潜在特征矩阵、话题-文档潜在特征矩阵。

一种基于自扩充表示和相似双向约束的短文本主题发现系统，包括存储器和处理器，所述存储器存储计算机程序，所述程序被配置为由所述处理器执行，所述程序包括用于执行上述方法中各步骤的指令。

本发明方法为短文本文档数据的主题挖掘提供了新的解决方案，具有以下有益效果：

1、该方法通过选取短文本文档数据内部的最相关文档作为扩展对象，在不引入外界辅助数据源的情况下，完成对短文本文档的自扩充表示，进而解决短文本文档主题挖掘中数据稀疏性的问题，为此类短文本文档数据集主题模型构建提供了解决方案。

2、该方法通过基于词语义相似性和文档语义相似性的双向约束策略，分别构建词语义正则项和文档语义正则项，解决了现有短文本主题建模解决方案中语义相关性信息缺失的问题或单方面词共现关系不足对主题挖掘模型的不利影响问题，从根本上提升了短文本主题挖掘模型语义识别的精度。

附图说明

图1为基于矩阵分解主题模型中文档-主题-词语之间的关系示意图。

图2为目标主题矩阵和辅助矩阵之间的合并示意图。

图3为基于自扩充表示和相似双向约束的短文本主题发现方法流程图。

图4为实施例中针对社交短文本数据集的主题模型构建方法的示意图。

图5为本发明与基准方法在News数据上前5个最相关主题词的主题一致性对比图。

图6为本发明与基准方法在News数据上前10个最相关主题词的主题一致性对比图。

图7为本发明与基准方法在News数据上前20个最相关主题词的主题一致性对比图。

图8为本发明与基准方法在Snippet数据上前5个最相关主题词的主题一致性对比图。

图9为本发明与基准方法在Snippet数据上前10个最相关主题词的主题一致性对比图。

图10为本发明与基准方法在Snippet数据上前20个最相关主题词的主题一致性对比图。

图11为本发明与基准方法在Twitter数据上前5个最相关主题词的主题一致性对比图。

图12为本发明与基准方法在Twitter数据上前10个最相关主题词的主题一致性对比图。

图13为本发明与基准方法在Twitter数据上前20个最相关主题词的主题一致性对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明中的技术方案进行清楚、完整地描述。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示为在矩阵分解框架下将短文本数据集转化为词项-文档的表示形式。短文本数据通过“文档-主题-词项”形成桥接关系。主题作为联系文档与词项的“桥梁"，通过相关数学模型可得到文档与主题之间的概率分布以及主题与词汇之间的概率分布。在获取主题与词关系时，词共现关系的多少会影响到观测结果的准确度，此准确度也会进一步影响最终主题模型的质量。对于长文本来说，在观测时有足够多的词共现关系作为支撑，而短文本则缺乏足够的词共现关系，也就是出现了数据的稀疏性问题。本发明提出的TRNMF模型构建方法正是针对此问题的解决而展开的。

如图2所示，实施例中TRNMF模型针对社交短文本数据，通过对数据集中的文档进行关键词抽取及词权重度量后得到词-文档矩阵的表示形式。这里的抽象是指把数据集中词表示为行和文档表示为列，该表示矩阵是十分稀疏的。另外，引入同结构和同表示的辅助矩阵，得到的辅助矩阵的一个重要特征就是词分布相对稠密。在合并的矩阵结果中，稠密的辅助矩阵能减弱目标主题挖掘矩阵的稀疏性，提升社交短文本主题模型挖掘的精度。

本实施例提供一种基于自扩充表示和相似双向约束的短文本主题发现方法，如图3所示，针对社交短文本数据集的主题，基于正则化非负矩阵分解进行模型构建，如图4所示，包括如下步骤：

步骤1：基于TF-IDF词权重度量方法，针对短文本文档提出改进的词权重度量方法TF-IWF。传统的TF-IDF词权重度量方法在短文本文档中存在未体现词分布的差异及词频对权重的影响过大等问题。TF-IWF算法则更加侧重于词的分布方差及是否出现等设计思路。TF-IWF的计算公式如下：

公式(1)中w表示一个关键词，d表示一个短文本文档，I(w,d)是指示函数，如果关键词w出现在短文本文档d中，则I(w,d)为1，否则为0。tf(w,d)表示关键词w在短文本文档d中出现的次数，N表示文档集合中短文本文档个数，WF(w)表示在整个短文本文档集合中关键词w出现的次数。

步骤2：基于TF-IWF词权重度量方法，在原始短文本文档数据集上构建待挖掘主题的词-文档矩阵其中M表示整个短文本文档集合中词的个数，N表示整个短文本文档集合中短文本文档的个数。

步骤3：向量化短文本文档，然后基于余弦相似度方法度量两两文档间相似性，从短文本文档数据集中为每个短文本文档选取最相关的前K个文档来扩充当前短文本文档的表示，记所得虚拟长文档集合为具体构建过程如下：

(1)采用Doc2Vec算法对每个短文本文档进行向量化，其向量化维度通常设定在100～300维；

(2)采用余弦相似度方法度量每个短文本文档与其它文档之间的相似度，并选取最相似的前L个文档，L通常取值范围在3～5，将这些相似文档聚合在一起，形成一个虚拟长文档。

(3)重复步骤(2)，最后得到一个基于内部数据表示的虚拟长文档集合

本发明中的短文本扩充方式不会引入一些异质数据源中的噪音，其关键词列表和文档总数保持不变。

步骤4：同样利用TF-IWF词权重度量方法，在虚拟长文档集合上构建虚拟辅助的词-文档矩阵由此可知，虚拟辅助的词-文档矩阵X_o和待挖掘主题的词-文档矩阵X_r具有相同的结构。

步骤5：合并步骤2和步骤4中的待挖掘主题的词-文档矩阵X_r和虚拟辅助的词-文档矩阵X_o为混合矩阵

步骤6：基于语义相同或相似的词具有相同或相似主题分布的观察结果，构建词-词语义相似矩阵。具体地，利用基于词嵌入的GloVe算法向量化短文本文档数据集中每个词，考虑到两个词语义相似性计算精度与运行成本，其短文本向量维度V一般选择在100～300维。然后，利用余弦相似度方法度量两个词之间的相似度，构建词-词语义相似矩阵词-词语义相似矩阵S第(i,j)个元素计算公式如下

公式(2)中w_i表示一个关键词，s(w_i,w_j)表示关键词w_i和w_j之间的余弦相似度，max(s(w_i,w_j),0)表示取二者较大值。

在此基础上，构建基于词-词语义相似矩阵的词-词语义关系正则项，其计算公式如下

步骤7：基于语义相同或相似的文档具有相同或相似主题分布的观察结果，构建文档-文档语义相似矩阵。具体地，利用基于吉布斯采样的GSDMM算法对原始短文本文档集合和虚拟长文档集合进行聚类。根据短文本文档所属类别的不同，构建文档-文档语义相似矩阵该矩阵元素计算方法如下：

公式(4)中表示文档d_i和d_j属于同一个簇类，则g_ij为1，否则为0。

在此基础上，构建基于文档-文档语义相似矩阵的文档-文档语义关系正则项，其计算公式如下

步骤8：在非负矩阵分解的框架下，联合混合矩阵、词-词语义关系正则项与文档-文档语义关系正则项，得到基于正则化非负矩阵分解的TRNMF主题挖掘模型，通过随机梯度下降算法计算分解损失函数值，直至达到收敛的预设值或迭代最大次数，获得最优的词-话题潜在特征矩阵话题-文档潜在特征矩阵其中话题-文档潜在特征矩阵V即是本发明所提出的短文本主题发现模型所要得到的主题在短文本上的分布情况。具体挖掘过程包含如下子过程：

(1)将词-词语义关系正则项L₁(U)和文档-文档语义关系正则项L₂(V)融合到目标函数，TRNMF模型的目标函数如下：

公式(6)中表示整个矩阵在主题挖掘分解过程中的损失函数模型，混合矩阵X表示特定词项在文档集合上权重。UV^T表示在主题挖掘模型上矩阵分解，和是防止分解过程中出现过拟合现象的正则化项，参数α>0用于控制词项向量相似性正则项在U_i上贡献度，参数β>0用于控制文档相似性正则项在V_i上贡献度，参数λ>0，γ>0是防止目标函数过拟合的修正参数。

(2)在训练过程中，为了能使优化模型尽决收敛，本实施例在对词潜在特征矩阵U和文档潜在特征矩阵V进行迭代更新的过程中采用随机梯度下降(Stochastic GradientDescent)算法，依次迭代更新公式如下：

如果迭代达到最大次数或收敛于设定的阈值，此时即完成X的协同分解，得到优化的U和V。其中文档潜在特征矩阵V表示不同主题在文档上的分布情况。

该TRNMF模型将直观的输出文档中包含的主题情况和对应关键词等信息，相较于直接把传统主题模型方法作用在短文本文档上，TRNMF模型利用基于内部数据扩充文档的表示方式消除短文本文档的稀疏性问题，同时采用词语义相似性和文档语义相似性的双向正则约束的限制，使得短文本有足够的词共现关系，从而大幅提高主题挖掘的结果的质量。

针对本发明方法进行如下实验论证，具体包括：

1)准备标准数据集

本发明使用News、Snippet和Twitter这三个公开的数据集作为标准数据集验证本发明提出的短文本主题发现方法的性能。News数据集是由可视为短文本的新闻标题组成，实验使用的News数据集共有32503个文档，覆盖7类话题(体育、商业、美国、健康、科技、世界和娱乐)，平均文档长度是4.9。Snippet数据集是由查询关键词或查询语句组成，实验使用的Snippet数据集包含12265个文档，覆盖8类话题(商业、电脑、艺术、教育、工程、健康、政治、体育)，平均文档长度是10.7。Twitter数据集是由社交网络上用户生成的短文本文档组成，实验使用的Twitter数据集包含2520个文档，覆盖4类话题(苹果、谷歌、微软、推特)，平均文档长度是5.0。从这三个数据集的统计结果可知，它们都属于短文本文档数据类型，词共现关系较稀疏。

2)评价指标

主题一致性(Topic coherence，C_V)是在一定滑动窗口内通过词共现模式来评估主题模型性能的一种方法。本发明中词共现是采用正则化点间互信息(NormalizedPointwise Mutual Information，NPMI)计算词语间的语义相似度，基本思想是统计两个词语在文本中同时出现的概率，如果概率越大，其相关性就越紧密，关联度越高。两个词w_i与w_j的NPMI值计算公式如下式所示为：

公式(9)中P(w_i)表示词w_i在文档集中出现的概率，P(w_i,w_j)表示词w_i与w_j在文档集中共现的概率，N表示语义最相关词的取值数量。

主题挖掘模型性能也可通过文本分类任务进行评估。本发明在模型收敛后得到的话题在文档上的分布作为特征，利用朴素贝叶斯分类器进行短文本分类实验。每个主题挖掘模型对应分类性能评价指标包含精确率(Precision)、召回率(Recall)、F值(F1-Measure)和准确率(Accuracy)。

3)在标准数据集上进行实验

为了验证本发明所提模型的有效性，将本发明提出的基于自扩充表示和相似双向约束的短文本主题发现模型(TRNMF)和5种基准方法进行比较，5种基准方法为：基于双词共现的短文本话题模型(BTM)、基于词共现网的短文本话题模型(WNTM)、基于狄利克雷多项式混合的潜在特征模型(LF-DMM)、基于罐子与狄利克雷混合的短文本话题模型(GPU-DMM)、基于虚拟文档的短文本话题模型(PTM)。在News数据集、Snippet数据集和Twitter数据集上用5种方法进行主题建模，并将主题发现结果进行比较。在主题一致性评价方面，针对上述三个数据集分别取每个短文本主题建模方法执行后所得到的前5个最相关主题词、前10个最相关主题词和前20个最相关主题词进行主题一致性值的度量，这三个数据集的实验结果如图5～图13所示。与5种基准方法相比，本发明提出的短文本主题发现方法在News、Snippet和Twitter数据集上都获得了更优的主题发现精度。且对于稀疏的短文本数据，本发明的性能优势更加明显。

为进一步验证本发明所提模型的性能，通过文本分类任务与5个基准方法进行对比验证。实验结果如表1所示。实验结果表明本发明提出的基于自扩充表示和相似双向约束的短文本主题发现模型(TRNMF)在上述三个短文本数据集上都具有较好的性能，且分类精度始终优于5种基准方法。证实了基于语义自扩充表示和词/文档相似双向约束的非负矩阵主题发现算法能够消除数据稀疏性问题，提高短文本文档集上主题发现的精度。

表1本发明方法与5个基准主题方法在三个数据集上的分类性能比较

综上所述，本方法通过对短文本文档数据集内部的文档对间进行相似性发现，并以此为基础进行短文本文档的自扩充形成虚拟长文档，解决了直接在短文本文档上进行主题挖掘所面临的数据稀疏性问题，同时利用不同词间和不同文档间的相似度正则项双向约束目标函数，提高了主题模型的质量，为短文本主题发现提供了解决方案。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于自扩充表示和相似双向约束的短文本主题发现方法，其步骤包括：

2.根据权利要求1所述的方法，其特征在于，所述TF-IWF词权重度量方法是基于TF-IDF词权重度量方法针对短文本文档改进得到。

3.根据权利要求1所述的方法，其特征在于，基于余弦相似度方法度量两两文档间相似性。

4.根据权利要求1所述的方法，其特征在于，采用Doc2Vec算法对短文本文档进行向量化。

5.根据权利要求1所述的方法，其特征在于，虚拟长文档集合的大小与原始短文本文档数据集相同。

6.根据权利要求1所述的方法，其特征在于，虚拟辅助的词-文档矩阵和待挖掘主题的词-文档矩阵具有相同结构，共用同一关键词列表。

7.根据权利要求1所述的方法，其特征在于，利用基于词嵌入的GloVe算法向量化短文本文档数据集中每个词，再利用余弦相似度方法度量两个词之间的相似度，构建词-词语义相似矩阵。

8.根据权利要求1所述的方法，其特征在于，利用基于吉布斯采样的GSDMM算法对原始短文本文档集合和虚拟长文档集合进行聚类，根据短文本文档所属类别的不同，构建文档-文档语义相似矩阵。

9.根据权利要求1所述的方法，其特征在于，将词-词语义关系正则项和文档-文档语义关系正则项融合到TRNMF模型的目标函数中；通过随机梯度下降算法计算分解损失函数值，直至达到收敛的预设值或迭代最大次数，获得最优的词-话题潜在特征矩阵、话题-文档潜在特征矩阵。

10.一种基于自扩充表示和相似双向约束的短文本主题发现系统，包括存储器和处理器，所述存储器存储计算机程序，所述程序被配置为由所述处理器执行，所述程序包括用于执行上述权利要求1-9任一所述方法中各步骤的指令。