CN106778880A - 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法 - Google Patents

基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法 Download PDF

Info

Publication number
CN106778880A
CN106778880A CN201611203288.8A CN201611203288A CN106778880A CN 106778880 A CN106778880 A CN 106778880A CN 201611203288 A CN201611203288 A CN 201611203288A CN 106778880 A CN106778880 A CN 106778880A
Authority
CN
China
Prior art keywords
topic label
microblogging
topic
modal
boltzmann machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611203288.8A
Other languages
English (en)
Other versions
CN106778880B (zh
Inventor
刘杰
翟羽佳
王嫄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN201611203288.8A priority Critical patent/CN106778880B/zh
Publication of CN106778880A publication Critical patent/CN106778880A/zh
Application granted granted Critical
Publication of CN106778880B publication Critical patent/CN106778880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Algebra (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法。本发明通过对微博中话题标签进行分析,综合利用话题标签间共现信息及话题标签所在微博的向量空间表达这两种模态进行话题标签的表达建模。通过这两种信息得到的表达同时包含了话题标签本身相似性及所在微博的相似性。对话题标签的共现信息及微博的向量空间表达分别采用不同的深度玻尔兹曼机进行建模,最后将两个模态结果通过多模态的深度玻尔兹曼机进行联合学习,从而得到对联合两种模态的多模态表达。通过对得到的话题标签的多模态表达进行聚类,可将其中相似的话题标签聚到一起,从而提取出相应的微博主题。对于不含话题标签的微博,也可通过本模型生成话题标签,进而进行主题发现。

Description

基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法
技术领域
本发明属于计算机应用技术领域,涉及数据挖掘,社交网络,微博分析,特别是一种基于多模态深度玻尔兹曼机的微博话题表示及主题发现。
背景技术
微博中的主题发现日益成为一个热门的研究课题。然而由于微博自身的短小,不规范等原因导致了严重的稀疏和噪音问题,使得传统的主题模型(例如LDA)难以从微博中获得高质量的主题。针对以上问题,人们提出了两类解决方法。一种是将微博拼接成一个大文档,例如Hong等将同一用户,包含同一词语或同一话题标签的微博聚合在一起[1]。Mehrotra等研究了不同的LDA过程的共享方法[2]。Yan等在进行主题建模之前先基于非负矩阵分解将微博进行了聚类[3]。由于微博自身的独立性,拼接方法在解决短小问题的同时会引入新的噪声。另一类方法是用辅助的长文本来扩展或链接段文本,从而达到丰富短文本的目的。例如Hu等利用维基百科和WordNet中的词组关系构建了一个语义结构树[4]。这种方法会比较依赖构建的语义结构树的准确性和完备性。除了从内容着手,一些工作利用了半结构化的信息如话题标签来进行微博建模。例如带标签的LDA方法即是利用手工定义的监督标签来控制微博间的关系[5]。该方法对手工定义的标签有较强的依赖性从而难以进行泛化和扩展。Wang等构建了一个话题标签的图来对话题标签的关系进行建模,进而将话题标签作为主题模型的弱监督信息,从而提出了基于话题标签图的主题模型[6]。该方法对话题标签信息的利用仍是间接的,不能充分利用话题标签和微博之间的关系。
参考文献:
[1]L.Hong and B.D.Davison,“Empirical study of topic modeling intwitter,”in Proceedings of the First Workshop on Social Media Analytics,ser.SOMA’10.New York,NY,USA:ACM,2010,pp.80–88.
[2]R.Mehrotra,S.Sanner,W.Buntine,and L.Xie,“Improving lda topicmodels for microblogs via tweet pooling and automatic labeling,”inProceedings of the 36th International ACM SIGIR Conference on Research andDevelopment in Information Retrieval,ser.SIGIR’13.New York,NY,USA:ACM,2013,pp.889–892.
[3]X.Yan,J.Guo,S.Liu,X.-q.Cheng,and Y.Wang,“Clustering short textusing ncut-weighted non-negative matrix factorization,”in Proceedings of the21st ACM International Conference on Information and Knowledge Management,ser.CIKM’12.New York,NY,USA:ACM,2012,pp.2259–2262.
[4]X.Hu,L.Tang,and H.Liu,“Enhancing accessibility of microbloggingmessages using semantic knowledge,”in Proceedings of the 20th ACMInternational Conference on Information and Knowledge Management,ser.CIKM’11.New York,NY,USA:ACM,2011,pp.2465–2468.
[5]D.Ramage,D.Hall,R.Nallapati,and C.D.Manning,“Labeled lda:Asupervised topicmodel for credit attribution in multi-labeled corpora,”inProceedings of the 2009Conference on Empirical Methods in Natural LanguageProcessing,ser.EMNLP’09.Stroudsburg,PA,USA:ACL,2009,pp.248–256.
[6]Wang,Y.;Liu,J.;Qu,J.;Huang,Y.;Chen,J.;and Feng,X.2014.Hashtaggraph based topicmodel for tweet mining.In Data Mining(ICDM),2014IEEEInternational Conference on,1025–1030.
发明内容
本发明目的是解决现有微博主题发现技术面临的数据稀疏和噪音问题,提供一种基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法。
限制玻尔兹曼机可有效地用于对真值,稀疏向量,二值等数据的分布进行建模。深度玻尔兹曼机可以学习到数据中包含的更深层的信息。多模态的深度玻尔兹曼机通过联合多个模态的深度玻尔兹曼机,可以对输入数据学习到综合这些模态的联合表达。对于某些模态缺失的数据,该模型通过对条件分布进行采样等方法可以进行缺失模态的生成,同样可以得到它的多模态表达。
本发明提出的基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法从微博的话题标签入手,利用话题标签之间的共现关系及其包含该话题标签的微博的向量空间表示作为多模态深度玻尔兹曼机的输入,从而学习到话题标签的多模态表达,该表达同时包含了话题标签的关系及相关微博的内容信息。利用上述多模态表达对话题标签进行聚类,可有效发现微博中的主题信息。另外本方法学习到的多模态深度玻尔兹曼机模型可用于生成输入数据缺失的模态。因此对于没有话题标签的微博数据,可利用其向量空间表示生成话题标签的共现关系表示,进而得到其近似的话题标签,从而进行主题发现。
本发明的技术方案
1、基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法,包括如下步骤:
步骤1)通过微博数据构建话题标签的两种模态表示
步骤1.1)通过话题标签的共现关系构建话题标签的共现关系表示;
通过对微博数据进行统计,获得话题标签之间的共现关系矩阵,则话题标签可由该矩阵的行来表示;
步骤1.2)通过话题标签所在的微博构建向量空间表示
可用包含话题标签话题的微博来建立话题标签的向量空间表示。令语料中微博包含的所有词语集合为字典K,令话题标签i的向量空间表示为T,则T是一个|K|维的向量,该向量的每一维的值是包含有该话题标签的微博中这一维词语出现的总次数。
步骤2)对步骤1)中的两种模态表示分别训练深度玻尔兹曼机
采用深度玻尔兹曼机对两种模态分别进行建模;由于高斯玻尔兹曼机更适用于真值输入,因此对于话题标签的共现关系表示采用深度高斯玻尔兹曼机进行建模;而Replicated Softmax模型对稀疏的向量空间表示有更好的建模性能,因此对于向量空间表示采用深度的Replicated Softmax的玻尔兹曼机进行建模;
步骤3)以步骤2)中两种模态的训练结果作为输入进行多模态联合学习;
多模态的玻尔兹曼机模型由两个玻尔兹曼机构建,一个是以共现关系表示作为输入的高斯玻尔兹曼机,它由一层可见层和两层隐藏层组成;另一个是以向量空间表示为输入的Replicated Softmax玻尔兹曼机,同样由一层可见层和两层隐藏层组成;将两个玻尔兹曼机的第二个隐藏层作为另外一个隐藏层的输入,得到的输出就是最终的联合表达;
上述模型的最大似然学习是难以处理的,然而利用平常场推导来估计数据期望,及利用基于MCMC的随机估计过程来估计模型的期望统计能够做出对模型的近似学习;
通过对多模态的玻尔兹曼机模型进行学习,即可学习到参数拟合训练数据的模型,进而可得到话题标签的多模态表达。
步骤4)利用经典算法Kmeans对多模态联合学习出的话题标签表达进行聚类,将聚类得出的每个类别的簇心作为主题;
步骤5)对于一个带话题标签的微博输入,可利用步骤3)学习到的多模态玻尔兹曼机模型对它的话题标签生成多模态表达,通过计算话题标签的多模态表达与步骤4)中簇心的多模态表达的距离,找到距离最近的簇心即是该微博的主题;
步骤6)对于不带话题标签的微博,将微博的向量空间表达输入到步骤3)学习到的多模态玻尔兹曼机模型中,可通过吉布斯采样的方式从条件分布中对隐藏的模态进行采样,从而得到相应的共现关系表示,通过计算现有共现关系表示与采样出的共现关系表示的相似度,可将相似度最高的共现关系表示对应的话题标签作为该微博的话题标签;然后类似步骤5)通过求最近簇心的方式,得到该微博的主题。
本发明的优点和积极效果:
●微博主题发现:
本发明综合利用微博的话题标签的共现关系表达及相关微博的向量空间表达,从而学习出多模态的话题标签表达,进而通过聚类,可以发现微博的主题。
●微博话题标签生成:
本发明利用训练好的多模态模型可以为无话题标签的微博生成相应的话题标签,由于联合训练的模型特性,生成的话题标签可有效反应微博的主题。进而通过寻找距离生成的话题标签最近的聚类中心,从而得到微博的主题。
附图说明
图1是本发明的整体系统结构示意图。
图2是本发明多模态玻尔兹曼机模型的示意图。
具体实施方式
实施例1:
下面结合附图和具体实施例对本发明提供的基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法进行详细说明。
本发明主要采用机器学习理论和方法对微博数据进行主题发现,为了保证系统的正常运行,在具体实施中,要求所使用的计算机平台配备不低于8G的内存,CPU核心数不低于4个且主频不低2.6GHz、显存不低于1GB,Linux 14.04及以上版本的64位操作系统,并安装python、cuda5.0及以上版本等必备软件环境。
如图1所示,本发明提供的基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法包括下步骤:
步骤1)通过微博数据构建话题标签的两种模态表示
步骤1.1)通过话题标签的共现关系构建话题标签的共现关系表示;
通过对微博数据进行统计,获得话题标签之间的共现关系矩阵,则话题标签可由该矩阵的行来表示;
令MO为话题标签之间的共现矩阵,x为话题标签i和话题标签j的共现次数,则有
MOij=x
则话题标签i可表示为MOi,其中i∈{1,...,n},n为话题标签的数目;
例如,现有来自一些微博的话题标签共317个,部分示例如下:
['#amazon','#mobsterworld','#black','#politics','#parenting','#140conf','#ebc',
'#nowplaying','#aquarius','#mj','#google','#whatsthematterwithyou','#geek','#mets','#aries',
'#zodiacfacts','#snomg','#iloveitwhen','#lastfm','#seo','#gop','#web','#justbecause',
'#dontyouhate','#imgood','#tweetajob','#superbowl','#ps3',…]
通过统计可得这些话题标签之间的共现矩阵可表示为:
其中话题标签'#ps3'的共现关系表示为:
MOi=[0 0 2 0 0 1...0 0 0 0 1]
步骤1.2)通过话题标签所在的微博构建向量空间表示
可用包含话题标签话题的微博来建立话题标签的向量空间表示。令语料中微博包含的所有词语集合为字典K,令话题标签i的向量空间表示为T,则T是一个|K|维的向量,该向量的每一维的值是包含有该话题标签的微博中这一维词语出现的总次数,即:
其中nt为语料中微博的个数,Ojr为第r条微博中第j个词语出现的次数;
例如话题标签'#ps3'的向量空间表示为:
T=[0 0 1 0 4...0 0 0 5 1]
步骤2)对步骤1)中的两种模态表示分别训练深度玻尔兹曼机
采用深度玻尔兹曼机对两种模态分别进行建模;由于高斯玻尔兹曼机更适用于真值输入,因此对于话题标签的共现关系表示采用深度高斯玻尔兹曼机进行建模;而Replicated Softmax模型对稀疏的向量空间表示有更好的建模性能,因此对于向量空间表示采用深度的Replicated Softmax的玻尔兹曼机进行建模;
限制玻尔兹曼机是包含随机可视单元v∈{0,1}D及随机隐藏单元h∈{0,1}F的无向图模型,其中每个可视单元都连接到每个隐藏单元上;限制玻尔兹曼机定义了如下的能量函数E:{0,1}D+F→R:
其中θ={a,b,W}是模型参数;可视单元及隐藏单元的联合分布可定义为:
其中,是配分函数。
对于高斯玻尔兹曼机,令v∈RD为模型的可见单元集合,令h∈{0,1}F为隐藏单元的集合,则状态{v,h}的能量定义如下:
其中θ={a,b,W,σ}是模型参数;
对于Replicated Softmax玻尔兹曼机,令v∈NK为模型的可见单元集合,其中vk是第k个单词在文档中出现的次数,而K为词典的大小;令h∈{0,1}F为隐藏单元的集合,则状态{v,h}的能量定义如下:
其中θ={a,b,W}是模型参数,是文档中所有单词的数目;
深度玻尔兹曼机是由对称组合的随机二值单元组成的网络,它包括一层可视单元v∈{0,1}D及数层隐藏单元相邻层的隐藏单元之间有连接;首先考虑一个有两层隐藏单元的DBM,则能量函数可定义为:
E(v,h;θ)=-vTW(1)h(1)-h(1)TW(2)h(2)
其中h={h(1),h(2)}代表隐藏单元集合,θ={W(1),W(2)}是模型参数,代表可视层-隐藏层1,隐藏层1-隐藏层2的对称交互参数;类似于限制玻尔兹曼机,二值的深度玻尔兹曼机也可以较为容易地扩展为可对稠密的真值数据或稀疏的数据建模的模型;
步骤3)以步骤2)中两种模态的训练结果作为输入进行多模态联合学习;
如图2所示,左下部分为以共现关系向量作为输入的玻尔兹曼机,它由一层可见层和两层隐藏层组成,分别表示为右下部分为以向量空间表示为输入的玻尔兹曼机,同样由一层可见层和两层隐藏层组成,分别表示为将两个玻尔兹曼机的第二个隐藏层作为上方第三个隐藏层的输入,则可以学习到最终的联合表达h(3)。在该层学习到的联合分布可表示为:
上述模型的最大似然学习是难以处理的,然而利用平常场推导来估计数据期望,及利用基于MCMC的随机估计过程来估计模型的期望统计能够做出对模型的近似学习;具体而言,用在五个隐藏单元集{ho (1),ho (2),hs (1),hs (2),h(3)}上的完全因数分解的分布来估计真实的先验概率P(h|v;θ),其中v={vo,vs}:
其中μ={μo (1)o (2)s (1)s (2)(3)}为q(hi (l)=1)=μi (l),l=1,2,3时的平均场参数;
通过寻找最大化当前模型参数θ可变下界的μ,能够最终得到一系列平均场的定值方程;给定可变参数μ,模型参数θ可利用基于MCMC的随机估计过程来逐步迭代更新以最大化可变边界。
通过对多模态的玻尔兹曼机模型进行学习,即可学习到参数拟合训练数据的模型,进而可得到话题标签的多模态表达。例如话题标签'#ps3'的多模态表示为:
T=[2.34 1.0 1.34 9.99 2.86...0.02 0.9 0.5 1.2]
步骤4)利用经典算法Kmeans对多模态联合学习出的话题标签表达进行聚类,将聚类得出的每个类别的簇心作为主题;令聚出的类别数目为nc,则得到的聚类中心可表示为Ci,i=1,...,nc。例如其中一部分类别的簇心为:'#socialmedia','#politics','#gaming','#music'等,代表这些类别的主题分别是“社交网络”,“政治”,“游戏”,“音乐”等。
步骤5)对于一个带话题标签的微博输入,将它的话题标签输入步骤4)的聚类结果中得到与之最近的一个簇心,即是该微博的主题;
可利用步骤3)学习到的多模态模型对一个话题标签生成多模态表达。对于一个输入的话题标签,通过步骤3)中的学习方法可估计出相应的前置概率Q(h(3)|vo,vs),则隐藏层h(3)中隐藏单元的的激活概率就构成了输入话题标签的多模态表达。
令h为输入微博的话题标签,令多模态模型对h生成的多模态表达为Rh,令步骤4)得到的聚类中心Ci的多模态表达为则话题标签h与Ci的距离表示为它们多模态表达的余弦距离:
距离h最近的聚类中心即为输入微博的主题,则输入微博的主题可表示为:
例如对于微博'#ps3#ps3is released!',根据其话题标签'#ps3'的多模态表达得到的聚类中心为'#gaming',从而可知该微博的主题即是“游戏”。
步骤6)对于不带话题标签的微博,将微博的向量空间表达输入到步骤3)学习到的多模态模型中,从而生成该微博的话题标签,然后类似步骤5)通过求最近簇心的方式,得到该微博的主题;
输入微博的空间向量表达,可通过吉布斯采样的方式从条件分布中对隐藏的模态进行采样,从而得到相应的共现关系表示。通过计算现有共现关系表示与采样出的共现关系表示的相似度,可将相似度最高的共现关系表示对应的话题标签作为该微博的话题标签;
令采样出的共现关系表示为R,则与当前微博最相近的话题标签的序号为:
j=Maxi cos(R,MOi)
其中MO为话题标签之间的共现关系矩阵;则可以将第j个话题标签作为本输入微博的话题标签;进而通过与步骤5)同样的步骤,可找到该微博的主题。
例如,微博'Congratulations to Lady Gaga for the Grammy Awards!'本身是不带标签的,通过上述过程,可以为本微博生成'#grammy'这个标签,进而可以得到其主题为'music',即“音乐”。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

Claims (1)

1.基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法,包括如下步骤:
步骤1)通过微博数据构建话题标签的两种模态表示
步骤1.1)通过话题标签的共现关系构建话题标签的共现关系表示;
通过对微博数据进行统计,获得话题标签之间的共现关系矩阵,则话题标签可由该矩阵的行来表示;
步骤1.2)通过话题标签所在的微博构建向量空间表示
可用包含话题标签话题的微博来建立话题标签的向量空间表示;令语料中微博包含的所有词语集合为字典K,令话题标签i的向量空间表示为T,则T是一个|K|维的向量,该向量的每一维的值是包含有该话题标签的微博中这一维词语出现的总次数;
步骤2)对步骤1)中的两种模态表示分别训练深度玻尔兹曼机
采用深度玻尔兹曼机对两种模态分别进行建模;由于高斯玻尔兹曼机更适用于真值输入,因此对于话题标签的共现关系表示采用深度高斯玻尔兹曼机进行建模;而ReplicatedSoftmax模型对稀疏的向量空间表示有更好的建模性能,因此对于向量空间表示采用深度的Replicated Softmax的玻尔兹曼机进行建模;
步骤3)以步骤2)中两种模态的训练结果作为输入进行多模态联合学习;
多模态的玻尔兹曼机模型由两个玻尔兹曼机构建,一个是以共现关系表示作为输入的高斯玻尔兹曼机,它由一层可见层和两层隐藏层组成;另一个是以向量空间表示为输入的Replicated Softmax玻尔兹曼机,同样由一层可见层和两层隐藏层组成;将两个玻尔兹曼机的第二个隐藏层作为另外一个隐藏层的输入,得到的输出就是最终的联合表达;
上述模型的最大似然学习是难以处理的,然而利用平常场推导来估计数据期望,及利用基于MCMC的随机估计过程来估计模型的期望统计能够做出对模型的近似学习;
通过对多模态的玻尔兹曼机模型进行学习,即能够学习到参数拟合训练数据的模型,进而得到话题标签的多模态表达;
步骤4)利用经典算法Kmeans对多模态联合学习出的话题标签表达进行聚类,将聚类得出的每个类别的簇心作为主题;
步骤5)对于一个带话题标签的微博输入,可利用步骤3)学习到的多模态玻尔兹曼机模型对它的话题标签生成多模态表达,通过计算话题标签的多模态表达与步骤4)中簇心的多模态表达的距离,找到距离最近的簇心即是该微博的主题;
步骤6)对于不带话题标签的微博,将微博的向量空间表达输入到步骤3)学习到的多模态玻尔兹曼机模型中,可通过吉布斯采样的方式从条件分布中对隐藏的模态进行采样,从而得到相应的共现关系表示,通过计算现有共现关系表示与采样出的共现关系表示的相似度,可将相似度最高的共现关系表示对应的话题标签作为该微博的话题标签;然后类似步骤5)通过求最近簇心的方式,得到该微博的主题。
CN201611203288.8A 2016-12-23 2016-12-23 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法 Active CN106778880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611203288.8A CN106778880B (zh) 2016-12-23 2016-12-23 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611203288.8A CN106778880B (zh) 2016-12-23 2016-12-23 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法

Publications (2)

Publication Number Publication Date
CN106778880A true CN106778880A (zh) 2017-05-31
CN106778880B CN106778880B (zh) 2020-04-07

Family

ID=58897595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611203288.8A Active CN106778880B (zh) 2016-12-23 2016-12-23 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法

Country Status (1)

Country Link
CN (1) CN106778880B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451187A (zh) * 2017-06-23 2017-12-08 天津科技大学 基于互约束主题模型的半结构短文本集中子话题发现方法
CN107515889A (zh) * 2017-07-03 2017-12-26 国家计算机网络与信息安全管理中心 一种微博话题实时监测方法与装置
CN107886061A (zh) * 2017-11-02 2018-04-06 华南理工大学 基于多模态深度玻尔兹曼机的人体行为识别方法及系统
CN107944049A (zh) * 2017-12-19 2018-04-20 北京工业大学 一种基于深度学习的电影推荐方法
CN108304879A (zh) * 2018-02-05 2018-07-20 济南浪潮高新科技投资发展有限公司 一种船舶轨迹聚类方法及装置
CN112364937A (zh) * 2020-11-30 2021-02-12 腾讯科技(深圳)有限公司 用户类别确定方法及装置、推荐内容确定方法、电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955857A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN103593474A (zh) * 2013-11-28 2014-02-19 中国科学院自动化研究所 基于深度学习的图像检索排序方法
CN103729459A (zh) * 2014-01-10 2014-04-16 北京邮电大学 一种构建情感分类模型的方法
CN103793507A (zh) * 2014-01-26 2014-05-14 北京邮电大学 一种使用深层结构获取双模态相似性测度的方法
CN104123336A (zh) * 2014-05-21 2014-10-29 深圳北航新兴产业技术研究院 深度玻尔兹曼机模型及短文本主题分类系统和方法
CN104281653A (zh) * 2014-09-16 2015-01-14 南京弘数信息科技有限公司 一种针对千万级规模微博文本的观点挖掘方法
CN104899253A (zh) * 2015-05-13 2015-09-09 复旦大学 面向社会图像的跨模态图像-标签相关度学习方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN106228977A (zh) * 2016-08-02 2016-12-14 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955857A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN103593474A (zh) * 2013-11-28 2014-02-19 中国科学院自动化研究所 基于深度学习的图像检索排序方法
CN103729459A (zh) * 2014-01-10 2014-04-16 北京邮电大学 一种构建情感分类模型的方法
CN103793507A (zh) * 2014-01-26 2014-05-14 北京邮电大学 一种使用深层结构获取双模态相似性测度的方法
CN104123336A (zh) * 2014-05-21 2014-10-29 深圳北航新兴产业技术研究院 深度玻尔兹曼机模型及短文本主题分类系统和方法
CN104281653A (zh) * 2014-09-16 2015-01-14 南京弘数信息科技有限公司 一种针对千万级规模微博文本的观点挖掘方法
CN104899253A (zh) * 2015-05-13 2015-09-09 复旦大学 面向社会图像的跨模态图像-标签相关度学习方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN106228977A (zh) * 2016-08-02 2016-12-14 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JIAN ZHANG: "《deep transfer learning via restricted boltzmann machine for document classification》", 《2011 10TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS AND WORKSHOPS》 *
李超等: "《基于限制性玻尔兹曼机的微博主题分类》", 《TELECOMMUNICATIONS NETWORK TECHNOLOGY》 *
杨展等: "《基于多模态学习的深度玻尔兹曼机分析微博用户的心理压力》", 《海南大学学报自然科学版》 *
翟羽佳: "《特定事件微博子话题特征提取研究》", 《情报科学》 *
陈季梦等: "《基于结构相似度的大规模社交网络聚类算法》", 《电子与信息学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451187A (zh) * 2017-06-23 2017-12-08 天津科技大学 基于互约束主题模型的半结构短文本集中子话题发现方法
CN107451187B (zh) * 2017-06-23 2020-05-19 天津科技大学 基于互约束主题模型的半结构短文本集中子话题发现方法
CN107515889A (zh) * 2017-07-03 2017-12-26 国家计算机网络与信息安全管理中心 一种微博话题实时监测方法与装置
CN107886061A (zh) * 2017-11-02 2018-04-06 华南理工大学 基于多模态深度玻尔兹曼机的人体行为识别方法及系统
CN107944049A (zh) * 2017-12-19 2018-04-20 北京工业大学 一种基于深度学习的电影推荐方法
CN108304879A (zh) * 2018-02-05 2018-07-20 济南浪潮高新科技投资发展有限公司 一种船舶轨迹聚类方法及装置
CN108304879B (zh) * 2018-02-05 2021-11-16 山东浪潮科学研究院有限公司 一种船舶轨迹聚类方法及装置
CN112364937A (zh) * 2020-11-30 2021-02-12 腾讯科技(深圳)有限公司 用户类别确定方法及装置、推荐内容确定方法、电子设备
CN112364937B (zh) * 2020-11-30 2021-12-14 腾讯科技(深圳)有限公司 用户类别确定方法及装置、推荐内容确定方法、电子设备

Also Published As

Publication number Publication date
CN106778880B (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN106778880A (zh) 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法
Zhang et al. Scientific evolutionary pathways: Identifying and visualizing relationships for scientific topics
Sussman et al. A consistent adjacency spectral embedding for stochastic blockmodel graphs
Xiaomei et al. Microblog sentiment analysis with weak dependency connections
CN108874783A (zh) 电力信息运维知识模型构建方法
Huang et al. Large-scale heterogeneous feature embedding
Zhang et al. Adaptively Unified Semi-supervised Learning for Cross-Modal Retrieval.
CN107563407A (zh) 一种面向网络空间多模态大数据的特征表示学习系统
WO2023155508A1 (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
Zhang et al. Image sentiment classification via multi-level sentiment region correlation analysis
Venkatraman et al. MapReduce neural network framework for efficient content based image retrieval from large datasets in the cloud
Liao et al. Coronavirus pandemic analysis through tripartite graph clustering in online social networks
Zou et al. Collaborative community-specific microblog sentiment analysis via multi-task learning
Miao et al. Research on visual question answering based on GAT relational reasoning
Asaithambi et al. Proposed big data architecture for facial recognition using machine learning
Yu et al. Knowledge reused outlier detection
Xu et al. Towards annotating media contents through social diffusion analysis
Xiao et al. Research and implementation of hybrid recommendation algorithm based on collaborative filtering and word2vec
Lu et al. Mining latent attributes from click-through logs for image recognition
Qiu et al. Tibetan Weibo user group division based on user behaviors for analyzing health problems
Wen et al. Graph Regularized and Feature Aware Matrix Factorization for Robust Incomplete Multi-view Clustering
Zhang et al. Deep neural networks for free-hand sketch recognition
Xue Development direction of machine learning in the Era of big data
Zhang et al. Inter-battery topic representation learning
Valem et al. Rank flow embedding for unsupervised and semi-supervised manifold learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant