CN106778880B

CN106778880B - 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法

Info

Publication number: CN106778880B
Application number: CN201611203288.8A
Authority: CN
Inventors: 刘杰; 翟羽佳; 王嫄
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2020-04-07
Anticipated expiration: 2036-12-23
Also published as: CN106778880A

Abstract

基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法。本发明通过对微博中话题标签进行分析，综合利用话题标签间共现信息及话题标签所在微博的向量空间表达这两种模态进行话题标签的表达建模。通过这两种信息得到的表达同时包含了话题标签本身相似性及所在微博的相似性。对话题标签的共现信息及微博的向量空间表达分别采用不同的深度玻尔兹曼机进行建模，最后将两个模态结果通过多模态的深度玻尔兹曼机进行联合学习，从而得到对联合两种模态的多模态表达。通过对得到的话题标签的多模态表达进行聚类，可将其中相似的话题标签聚到一起，从而提取出相应的微博主题。对于不含话题标签的微博，也可通过本模型生成话题标签，进而进行主题发现。

Description

基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法

技术领域

本发明属于计算机应用技术领域，涉及数据挖掘，社交网络，微博分析，特别是一种基于多模态深度玻尔兹曼机的微博话题表示及主题发现。

背景技术

微博中的主题发现日益成为一个热门的研究课题。然而由于微博自身的短小，不规范等原因导致了严重的稀疏和噪音问题，使得传统的主题模型(例如LDA)难以从微博中获得高质量的主题。针对以上问题，人们提出了两类解决方法。一种是将微博拼接成一个大文档，例如Hong等将同一用户，包含同一词语或同一话题标签的微博聚合在一起^[1]。Mehrotra等研究了不同的LDA过程的共享方法^[2]。Yan等在进行主题建模之前先基于非负矩阵分解将微博进行了聚类^[3]。由于微博自身的独立性，拼接方法在解决短小问题的同时会引入新的噪声。另一类方法是用辅助的长文本来扩展或链接段文本，从而达到丰富短文本的目的。例如Hu等利用维基百科和WordNet中的词组关系构建了一个语义结构树^[4]。这种方法会比较依赖构建的语义结构树的准确性和完备性。除了从内容着手，一些工作利用了半结构化的信息如话题标签来进行微博建模。例如带标签的LDA方法即是利用手工定义的监督标签来控制微博间的关系^[5]。该方法对手工定义的标签有较强的依赖性从而难以进行泛化和扩展。Wang等构建了一个话题标签的图来对话题标签的关系进行建模，进而将话题标签作为主题模型的弱监督信息，从而提出了基于话题标签图的主题模型^[6]。该方法对话题标签信息的利用仍是间接的，不能充分利用话题标签和微博之间的关系。

参考文献：

[1]L.Hong and B.D.Davison,“Empirical study of topic modeling intwitter,”in Proceedings of the First Workshop on Social Media Analytics,ser.SOMA’10.New York,NY,USA:ACM,2010,pp.80–88.

[2]R.Mehrotra,S.Sanner,W.Buntine,and L.Xie,“Improving lda topicmodels for microblogs via tweet pooling and automatic labeling,”inProceedings of the 36th International ACM SIGIR Conference on Research andDevelopment in Information Retrieval,ser.SIGIR’13.New York,NY,USA:ACM,2013,pp.889–892.

[3]X.Yan,J.Guo,S.Liu,X.-q.Cheng,and Y.Wang,“Clustering short textusing ncut-weighted non-negative matrix factorization,”in Proceedings of the21st ACM International Conference on Information and Knowledge Management,ser.CIKM’12.New York,NY,USA:ACM,2012,pp.2259–2262.

[4]X.Hu,L.Tang,and H.Liu,“Enhancing accessibility of microbloggingmessages using semantic knowledge,”in Proceedings of the 20th ACMInternational Conference on Information and Knowledge Management,ser.CIKM’11.New York,NY,USA:ACM,2011,pp.2465–2468.

[5]D.Ramage,D.Hall,R.Nallapati,and C.D.Manning,“Labeled lda:Asupervised topic model for credit attribution in multi-labeled corpora,”inProceedings of the 2009Conference on Empirical Methods in Natural LanguageProcessing,ser.EMNLP’09.Stroudsburg,PA,USA:ACL,2009,pp.248–256.

[6]Wang,Y.；Liu,J.；Qu,J.；Huang,Y.；Chen,J.；and Feng,X.2014.Hashtaggraph based topic model for tweet mining.In Data Mining(ICDM),2014IEEEInternational Conference on,1025–1030.

发明内容

本发明目的是解决现有微博主题发现技术面临的数据稀疏和噪音问题，提供一种基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法。

限制玻尔兹曼机可有效地用于对真值，稀疏向量，二值等数据的分布进行建模。深度玻尔兹曼机可以学习到数据中包含的更深层的信息。多模态的深度玻尔兹曼机通过联合多个模态的深度玻尔兹曼机，可以对输入数据学习到综合这些模态的联合表达。对于某些模态缺失的数据，该模型通过对条件分布进行采样等方法可以进行缺失模态的生成，同样可以得到它的多模态表达。

本发明提出的基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法从微博的话题标签入手，利用话题标签之间的共现关系及其包含该话题标签的微博的向量空间表示作为多模态深度玻尔兹曼机的输入，从而学习到话题标签的多模态表达，该表达同时包含了话题标签的关系及相关微博的内容信息。利用上述多模态表达对话题标签进行聚类，可有效发现微博中的主题信息。另外本方法学习到的多模态深度玻尔兹曼机模型可用于生成输入数据缺失的模态。因此对于没有话题标签的微博数据，可利用其向量空间表示生成话题标签的共现关系表示，进而得到其近似的话题标签，从而进行主题发现。

本发明的技术方案

1、基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法，包括如下步骤：

步骤1)通过微博数据构建话题标签的两种模态表示

步骤1.1)通过话题标签的共现关系构建话题标签的共现关系表示；

通过对微博数据进行统计，获得话题标签之间的共现关系矩阵，则话题标签可由该矩阵的行来表示；

步骤1.2)通过话题标签所在的微博构建向量空间表示

可用包含话题标签话题的微博来建立话题标签的向量空间表示。令语料中微博包含的所有词语集合为字典K，令话题标签i的向量空间表示为T，则T是一个|K|维的向量，该向量的每一维的值是包含有该话题标签的微博中这一维词语出现的总次数。

步骤2)对步骤1)中的两种模态表示分别训练深度玻尔兹曼机

采用深度玻尔兹曼机对两种模态分别进行建模；由于高斯玻尔兹曼机更适用于真值输入，因此对于话题标签的共现关系表示采用深度高斯玻尔兹曼机进行建模；而Replicated Softmax模型对稀疏的向量空间表示有更好的建模性能，因此对于向量空间表示采用深度的Replicated Softmax的玻尔兹曼机进行建模；

步骤3)以步骤2)中两种模态的训练结果作为输入进行多模态联合学习；

多模态的玻尔兹曼机模型由两个玻尔兹曼机构建，一个是以共现关系表示作为输入的高斯玻尔兹曼机，它由一层可见层和两层隐藏层组成；另一个是以向量空间表示为输入的Replicated Softmax玻尔兹曼机，同样由一层可见层和两层隐藏层组成；将两个玻尔兹曼机的第二个隐藏层作为另外一个隐藏层的输入，得到的输出就是最终的联合表达；

上述模型的最大似然学习是难以处理的，然而利用平常场推导来估计数据期望，及利用基于MCMC的随机估计过程来估计模型的期望统计能够做出对模型的近似学习；

通过对多模态的玻尔兹曼机模型进行学习，即可学习到参数拟合训练数据的模型，进而可得到话题标签的多模态表达。

步骤4)利用经典算法Kmeans对多模态联合学习出的话题标签表达进行聚类，将聚类得出的每个类别的簇心作为主题；

步骤5)对于一个带话题标签的微博输入，可利用步骤3)学习到的多模态玻尔兹曼机模型对它的话题标签生成多模态表达，通过计算话题标签的多模态表达与步骤4)中簇心的多模态表达的距离，找到距离最近的簇心即是该微博的主题；

步骤6)对于不带话题标签的微博，将微博的向量空间表达输入到步骤3)学习到的多模态玻尔兹曼机模型中，可通过吉布斯采样的方式从条件分布中对隐藏的模态进行采样，从而得到相应的共现关系表示，通过计算现有共现关系表示与采样出的共现关系表示的相似度，可将相似度最高的共现关系表示对应的话题标签作为该微博的话题标签；然后类似步骤5)通过求最近簇心的方式，得到该微博的主题。

本发明的优点和积极效果：

·微博主题发现：

本发明综合利用微博的话题标签的共现关系表达及相关微博的向量空间表达，从而学习出多模态的话题标签表达，进而通过聚类，可以发现微博的主题。

·微博话题标签生成：

本发明利用训练好的多模态模型可以为无话题标签的微博生成相应的话题标签，由于联合训练的模型特性，生成的话题标签可有效反应微博的主题。进而通过寻找距离生成的话题标签最近的聚类中心，从而得到微博的主题。

附图说明

图1是本发明的整体系统结构示意图。

图2是本发明多模态玻尔兹曼机模型的示意图。

具体实施方式

实施例1：

下面结合附图和具体实施例对本发明提供的基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法进行详细说明。

本发明主要采用机器学习理论和方法对微博数据进行主题发现，为了保证系统的正常运行，在具体实施中，要求所使用的计算机平台配备不低于8G的内存，CPU核心数不低于4个且主频不低2.6GHz、显存不低于1GB，Linux 14.04及以上版本的64位操作系统，并安装python、cuda5.0及以上版本等必备软件环境。

如图1所示，本发明提供的基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法包括下步骤：

步骤1)通过微博数据构建话题标签的两种模态表示

令MO为话题标签之间的共现矩阵，x为话题标签i和话题标签j的共现次数，则有

MO_ij＝x

则话题标签i可表示为MO_i,其中i∈{1,...,n},n为话题标签的数目；

例如，现有来自一些微博的话题标签共317个，部分示例如下：

['#amazon','#mobsterworld','#black','#politics','#parenting','#140conf','#ebc','#nowplaying','#aquarius','#mj','#google','#whatsthematterwithyou','#geek','#mets','#aries','#zodiacfacts','#snomg','#iloveitwhen','#lastfm','#seo','#gop','#web','#justbecause','#dontyouhate','#imgood','#tweetajob','#superbowl','#ps3',…]

通过统计可得这些话题标签之间的共现矩阵可表示为：

其中话题标签'#ps3'的共现关系表示为：

MO_i＝[0 0 2 0 0 1 ... 0 0 0 0 1]

步骤1.2)通过话题标签所在的微博构建向量空间表示

可用包含话题标签话题的微博来建立话题标签的向量空间表示。令语料中微博包含的所有词语集合为字典K，令话题标签i的向量空间表示为T，则T是一个|K|维的向量，该向量的每一维的值是包含有该话题标签的微博中这一维词语出现的总次数，即：

其中nt为语料中微博的个数，O_jr为第r条微博中第j个词语出现的次数；

例如话题标签'#ps3'的向量空间表示为：

T＝[0 0 1 0 4 ... 0 0 0 5 1]

步骤2)对步骤1)中的两种模态表示分别训练深度玻尔兹曼机

限制玻尔兹曼机是包含随机可视单元v∈{0,1}^D及随机隐藏单元h∈{0,1}^F的无向图模型，其中每个可视单元都连接到每个隐藏单元上；限制玻尔兹曼机定义了如下的能量函数E:{0，1}^D+F→R:

其中θ＝{a,b,W}是模型参数；可视单元及隐藏单元的联合分布可定义为：

其中，

是配分函数。

对于高斯玻尔兹曼机，令v∈R^D为模型的可见单元集合，令h∈{0,1}^F为隐藏单元的集合，则状态{v,h}的能量定义如下：

其中θ＝{a,b,W,σ}是模型参数；

对于Replicated Softmax玻尔兹曼机，令v∈N^K为模型的可见单元集合，其中v_k是第k个单词在文档中出现的次数，而K为词典的大小；令h∈{0,1}^F为隐藏单元的集合，则状态{v,h}的能量定义如下：

其中θ＝{a,b,W}是模型参数,

是文档中所有单词的数目；

深度玻尔兹曼机是由对称组合的随机二值单元组成的网络，它包括一层可视单元v∈{0,1}^D及数层隐藏单元

相邻层的隐藏单元之间有连接；首先考虑一个有两层隐藏单元的DBM，则能量函数可定义为：

E(v,h；θ)＝-v^TW⁽¹⁾h⁽¹⁾-h^(1)TW⁽²⁾h⁽²⁾

其中h＝{h⁽¹⁾,h⁽²⁾}代表隐藏单元集合，θ＝{W⁽¹⁾,W⁽²⁾}是模型参数，代表可视层-隐藏层1，隐藏层1-隐藏层2的对称交互参数；类似于限制玻尔兹曼机，二值的深度玻尔兹曼机也可以较为容易地扩展为可对稠密的真值数据或稀疏的数据建模的模型；

如图2所示，左下部分为以共现关系向量作为输入的玻尔兹曼机，它由一层可见层和两层隐藏层组成，分别表示为v_o,

右下部分为以向量空间表示为输入的玻尔兹曼机，同样由一层可见层和两层隐藏层组成，分别表示为v_s,

将两个玻尔兹曼机的第二个隐藏层作为上方第三个隐藏层的输入，则可以学习到最终的联合表达h⁽³⁾。在该层学习到的联合分布可表示为：

上述模型的最大似然学习是难以处理的，然而利用平常场推导来估计数据期望，及利用基于MCMC的随机估计过程来估计模型的期望统计能够做出对模型的近似学习；具体而言，用在五个隐藏单元集{h_o ⁽¹⁾,h_o ⁽²⁾,h_s ⁽¹⁾,h_s ⁽²⁾,h⁽³⁾}上的完全因数分解的分布来估计真实的先验概率P(h|v；θ),其中v＝{v_o,v_s}:

其中μ＝{μ_o ⁽¹⁾,μ_o ⁽²⁾,μ_s ⁽¹⁾,μ_s ⁽²⁾,μ⁽³⁾}为q(h_i ^(l)＝1)＝μ_i ^(l),l＝1,2,3时的平均场参数；

通过寻找最大化当前模型参数θ可变下界的μ，能够最终得到一系列平均场的定值方程；给定可变参数μ，模型参数θ可利用基于MCMC的随机估计过程来逐步迭代更新以最大化可变边界。

通过对多模态的玻尔兹曼机模型进行学习，即可学习到参数拟合训练数据的模型，进而可得到话题标签的多模态表达。例如话题标签'#ps3'的多模态表示为：

T＝[2.34 1.0 1.34 9.99 2.86 ... 0.02 0.9 0.5 1.2]

步骤4)利用经典算法Kmeans对多模态联合学习出的话题标签表达进行聚类，将聚类得出的每个类别的簇心作为主题；令聚出的类别数目为nc,则得到的聚类中心可表示为C_i,i＝1,...,nc。例如其中一部分类别的簇心为：'#socialmedia','#politics','#gaming','#music'等，代表这些类别的主题分别是“社交网络”，“政治”，“游戏”，“音乐”等。

步骤5)对于一个带话题标签的微博输入，将它的话题标签输入步骤4)的聚类结果中得到与之最近的一个簇心，即是该微博的主题；

可利用步骤3)学习到的多模态模型对一个话题标签生成多模态表达。对于一个输入的话题标签，通过步骤3)中的学习方法可估计出相应的前置概率Q(h⁽³⁾|v_o,v_s)，则隐藏层h⁽³⁾中隐藏单元的的激活概率就构成了输入话题标签的多模态表达。

令h为输入微博的话题标签，令多模态模型对h生成的多模态表达为R_h，令步骤4)得到的聚类中心C_i的多模态表达为

则话题标签h与C_i的距离表示为它们多模态表达的余弦距离：

距离h最近的聚类中心即为输入微博的主题,则输入微博的主题可表示为：

例如对于微博'#ps3#ps3 is released！'，根据其话题标签'#ps3'的多模态表达得到的聚类中心为'#gaming'，从而可知该微博的主题即是“游戏”。

步骤6)对于不带话题标签的微博，将微博的向量空间表达输入到步骤3)学习到的多模态模型中，从而生成该微博的话题标签，然后类似步骤5)通过求最近簇心的方式，得到该微博的主题；

输入微博的空间向量表达，可通过吉布斯采样的方式从条件分布中对隐藏的模态进行采样，从而得到相应的共现关系表示。通过计算现有共现关系表示与采样出的共现关系表示的相似度，可将相似度最高的共现关系表示对应的话题标签作为该微博的话题标签；

令采样出的共现关系表示为R，则与当前微博最相近的话题标签的序号为：

j＝Max_i cos(R,MO_i)

其中MO为话题标签之间的共现关系矩阵；则可以将第j个话题标签作为本输入微博的话题标签；进而通过与步骤5)同样的步骤，可找到该微博的主题。

例如，微博'Congratulations to Lady Gaga for the Grammy Awards！'本身是不带标签的，通过上述过程，可以为本微博生成'#grammy'这个标签，进而可以得到其主题为'music',即“音乐”。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法，包括如下步骤：

步骤1)通过微博数据构建话题标签的两种模态表示

通过对微博数据进行统计，获得话题标签之间的共现关系矩阵，话题标签由该矩阵的行来表示；

步骤1.2)通过话题标签所在的微博构建向量空间表示

用包含话题标签话题的微博来建立话题标签的向量空间表示；令语料中微博包含的所有词语集合为字典K，令话题标签i的向量空间表示为T，T是一个|K|维的向量，该向量的每一维的值是包含有该话题标签的微博中这一维词语出现的总次数；

步骤2)对步骤1)中的两种模态表示分别训练深度玻尔兹曼机

采用深度玻尔兹曼机对两种模态分别进行建模；由于高斯玻尔兹曼机更适用于真值输入，因此对于话题标签的共现关系表示采用深度高斯玻尔兹曼机进行建模；而ReplicatedSoftmax模型对稀疏的向量空间表示有更好的建模性能，因此对于向量空间表示采用深度的Replicated Softmax的玻尔兹曼机进行建模；

上述模型的最大似然学习是难以处理的，因此利用平常场推导来估计数据期望，及利用基于MCMC的随机估计过程来估计模型的期望统计以做出对模型的近似学习；

通过对多模态的玻尔兹曼机模型进行学习，学习到参数拟合训练数据的模型，进而得到话题标签的多模态表达；

步骤5)对于一个带话题标签的微博输入，利用步骤3)学习到的多模态玻尔兹曼机模型对它的话题标签生成多模态表达，通过计算话题标签的多模态表达与步骤4)中簇心的多模态表达的距离，找到距离最近的簇心即是该微博的主题；

步骤6)对于不带话题标签的微博，将微博的向量空间表达输入到步骤3)学习到的多模态玻尔兹曼机模型中，通过吉布斯采样的方式从条件分布中对隐藏的模态进行采样，从而得到相应的共现关系表示，通过计算现有共现关系表示与采样出的共现关系表示的相似度，将相似度最高的共现关系表示对应的话题标签作为该微博的话题标签；然后类似步骤5)通过求最近簇心的方式，得到该微博的主题。