CN106778880B - 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法 - Google Patents
基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法 Download PDFInfo
- Publication number
- CN106778880B CN106778880B CN201611203288.8A CN201611203288A CN106778880B CN 106778880 B CN106778880 B CN 106778880B CN 201611203288 A CN201611203288 A CN 201611203288A CN 106778880 B CN106778880 B CN 106778880B
- Authority
- CN
- China
- Prior art keywords
- topic
- microblog
- boltzmann machine
- expression
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 241001489705 Aquarius Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法。本发明通过对微博中话题标签进行分析,综合利用话题标签间共现信息及话题标签所在微博的向量空间表达这两种模态进行话题标签的表达建模。通过这两种信息得到的表达同时包含了话题标签本身相似性及所在微博的相似性。对话题标签的共现信息及微博的向量空间表达分别采用不同的深度玻尔兹曼机进行建模,最后将两个模态结果通过多模态的深度玻尔兹曼机进行联合学习,从而得到对联合两种模态的多模态表达。通过对得到的话题标签的多模态表达进行聚类,可将其中相似的话题标签聚到一起,从而提取出相应的微博主题。对于不含话题标签的微博,也可通过本模型生成话题标签,进而进行主题发现。
Description
技术领域
本发明属于计算机应用技术领域,涉及数据挖掘,社交网络,微博分析,特别是一种基于多模态深度玻尔兹曼机的微博话题表示及主题发现。
背景技术
微博中的主题发现日益成为一个热门的研究课题。然而由于微博自身的短小,不规范等原因导致了严重的稀疏和噪音问题,使得传统的主题模型(例如LDA)难以从微博中获得高质量的主题。针对以上问题,人们提出了两类解决方法。一种是将微博拼接成一个大文档,例如Hong等将同一用户,包含同一词语或同一话题标签的微博聚合在一起[1]。Mehrotra等研究了不同的LDA过程的共享方法[2]。Yan等在进行主题建模之前先基于非负矩阵分解将微博进行了聚类[3]。由于微博自身的独立性,拼接方法在解决短小问题的同时会引入新的噪声。另一类方法是用辅助的长文本来扩展或链接段文本,从而达到丰富短文本的目的。例如Hu等利用维基百科和WordNet中的词组关系构建了一个语义结构树[4]。这种方法会比较依赖构建的语义结构树的准确性和完备性。除了从内容着手,一些工作利用了半结构化的信息如话题标签来进行微博建模。例如带标签的LDA方法即是利用手工定义的监督标签来控制微博间的关系[5]。该方法对手工定义的标签有较强的依赖性从而难以进行泛化和扩展。Wang等构建了一个话题标签的图来对话题标签的关系进行建模,进而将话题标签作为主题模型的弱监督信息,从而提出了基于话题标签图的主题模型[6]。该方法对话题标签信息的利用仍是间接的,不能充分利用话题标签和微博之间的关系。
参考文献:
[1]L.Hong and B.D.Davison,“Empirical study of topic modeling intwitter,”in Proceedings of the First Workshop on Social Media Analytics,ser.SOMA’10.New York,NY,USA:ACM,2010,pp.80–88.
[2]R.Mehrotra,S.Sanner,W.Buntine,and L.Xie,“Improving lda topicmodels for microblogs via tweet pooling and automatic labeling,”inProceedings of the 36th International ACM SIGIR Conference on Research andDevelopment in Information Retrieval,ser.SIGIR’13.New York,NY,USA:ACM,2013,pp.889–892.
[3]X.Yan,J.Guo,S.Liu,X.-q.Cheng,and Y.Wang,“Clustering short textusing ncut-weighted non-negative matrix factorization,”in Proceedings of the21st ACM International Conference on Information and Knowledge Management,ser.CIKM’12.New York,NY,USA:ACM,2012,pp.2259–2262.
[4]X.Hu,L.Tang,and H.Liu,“Enhancing accessibility of microbloggingmessages using semantic knowledge,”in Proceedings of the 20th ACMInternational Conference on Information and Knowledge Management,ser.CIKM’11.New York,NY,USA:ACM,2011,pp.2465–2468.
[5]D.Ramage,D.Hall,R.Nallapati,and C.D.Manning,“Labeled lda:Asupervised topic model for credit attribution in multi-labeled corpora,”inProceedings of the 2009Conference on Empirical Methods in Natural LanguageProcessing,ser.EMNLP’09.Stroudsburg,PA,USA:ACL,2009,pp.248–256.
[6]Wang,Y.;Liu,J.;Qu,J.;Huang,Y.;Chen,J.;and Feng,X.2014.Hashtaggraph based topic model for tweet mining.In Data Mining(ICDM),2014IEEEInternational Conference on,1025–1030.
发明内容
本发明目的是解决现有微博主题发现技术面临的数据稀疏和噪音问题,提供一种基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法。
限制玻尔兹曼机可有效地用于对真值,稀疏向量,二值等数据的分布进行建模。深度玻尔兹曼机可以学习到数据中包含的更深层的信息。多模态的深度玻尔兹曼机通过联合多个模态的深度玻尔兹曼机,可以对输入数据学习到综合这些模态的联合表达。对于某些模态缺失的数据,该模型通过对条件分布进行采样等方法可以进行缺失模态的生成,同样可以得到它的多模态表达。
本发明提出的基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法从微博的话题标签入手,利用话题标签之间的共现关系及其包含该话题标签的微博的向量空间表示作为多模态深度玻尔兹曼机的输入,从而学习到话题标签的多模态表达,该表达同时包含了话题标签的关系及相关微博的内容信息。利用上述多模态表达对话题标签进行聚类,可有效发现微博中的主题信息。另外本方法学习到的多模态深度玻尔兹曼机模型可用于生成输入数据缺失的模态。因此对于没有话题标签的微博数据,可利用其向量空间表示生成话题标签的共现关系表示,进而得到其近似的话题标签,从而进行主题发现。
本发明的技术方案
1、基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法,包括如下步骤:
步骤1)通过微博数据构建话题标签的两种模态表示
步骤1.1)通过话题标签的共现关系构建话题标签的共现关系表示;
通过对微博数据进行统计,获得话题标签之间的共现关系矩阵,则话题标签可由该矩阵的行来表示;
步骤1.2)通过话题标签所在的微博构建向量空间表示
可用包含话题标签话题的微博来建立话题标签的向量空间表示。令语料中微博包含的所有词语集合为字典K,令话题标签i的向量空间表示为T,则T是一个|K|维的向量,该向量的每一维的值是包含有该话题标签的微博中这一维词语出现的总次数。
步骤2)对步骤1)中的两种模态表示分别训练深度玻尔兹曼机
采用深度玻尔兹曼机对两种模态分别进行建模;由于高斯玻尔兹曼机更适用于真值输入,因此对于话题标签的共现关系表示采用深度高斯玻尔兹曼机进行建模;而Replicated Softmax模型对稀疏的向量空间表示有更好的建模性能,因此对于向量空间表示采用深度的Replicated Softmax的玻尔兹曼机进行建模;
步骤3)以步骤2)中两种模态的训练结果作为输入进行多模态联合学习;
多模态的玻尔兹曼机模型由两个玻尔兹曼机构建,一个是以共现关系表示作为输入的高斯玻尔兹曼机,它由一层可见层和两层隐藏层组成;另一个是以向量空间表示为输入的Replicated Softmax玻尔兹曼机,同样由一层可见层和两层隐藏层组成;将两个玻尔兹曼机的第二个隐藏层作为另外一个隐藏层的输入,得到的输出就是最终的联合表达;
上述模型的最大似然学习是难以处理的,然而利用平常场推导来估计数据期望,及利用基于MCMC的随机估计过程来估计模型的期望统计能够做出对模型的近似学习;
通过对多模态的玻尔兹曼机模型进行学习,即可学习到参数拟合训练数据的模型,进而可得到话题标签的多模态表达。
步骤4)利用经典算法Kmeans对多模态联合学习出的话题标签表达进行聚类,将聚类得出的每个类别的簇心作为主题;
步骤5)对于一个带话题标签的微博输入,可利用步骤3)学习到的多模态玻尔兹曼机模型对它的话题标签生成多模态表达,通过计算话题标签的多模态表达与步骤4)中簇心的多模态表达的距离,找到距离最近的簇心即是该微博的主题;
步骤6)对于不带话题标签的微博,将微博的向量空间表达输入到步骤3)学习到的多模态玻尔兹曼机模型中,可通过吉布斯采样的方式从条件分布中对隐藏的模态进行采样,从而得到相应的共现关系表示,通过计算现有共现关系表示与采样出的共现关系表示的相似度,可将相似度最高的共现关系表示对应的话题标签作为该微博的话题标签;然后类似步骤5)通过求最近簇心的方式,得到该微博的主题。
本发明的优点和积极效果:
·微博主题发现:
本发明综合利用微博的话题标签的共现关系表达及相关微博的向量空间表达,从而学习出多模态的话题标签表达,进而通过聚类,可以发现微博的主题。
·微博话题标签生成:
本发明利用训练好的多模态模型可以为无话题标签的微博生成相应的话题标签,由于联合训练的模型特性,生成的话题标签可有效反应微博的主题。进而通过寻找距离生成的话题标签最近的聚类中心,从而得到微博的主题。
附图说明
图1是本发明的整体系统结构示意图。
图2是本发明多模态玻尔兹曼机模型的示意图。
具体实施方式
实施例1:
下面结合附图和具体实施例对本发明提供的基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法进行详细说明。
本发明主要采用机器学习理论和方法对微博数据进行主题发现,为了保证系统的正常运行,在具体实施中,要求所使用的计算机平台配备不低于8G的内存,CPU核心数不低于4个且主频不低2.6GHz、显存不低于1GB,Linux 14.04及以上版本的64位操作系统,并安装python、cuda5.0及以上版本等必备软件环境。
如图1所示,本发明提供的基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法包括下步骤:
步骤1)通过微博数据构建话题标签的两种模态表示
步骤1.1)通过话题标签的共现关系构建话题标签的共现关系表示;
通过对微博数据进行统计,获得话题标签之间的共现关系矩阵,则话题标签可由该矩阵的行来表示;
令MO为话题标签之间的共现矩阵,x为话题标签i和话题标签j的共现次数,则有
MOij=x
则话题标签i可表示为MOi,其中i∈{1,...,n},n为话题标签的数目;
例如,现有来自一些微博的话题标签共317个,部分示例如下:
['#amazon','#mobsterworld','#black','#politics','#parenting','#140conf','#ebc','#nowplaying','#aquarius','#mj','#google','#whatsthematterwithyou','#geek','#mets','#aries','#zodiacfacts','#snomg','#iloveitwhen','#lastfm','#seo','#gop','#web','#justbecause','#dontyouhate','#imgood','#tweetajob','#superbowl','#ps3',…]
通过统计可得这些话题标签之间的共现矩阵可表示为:
其中话题标签'#ps3'的共现关系表示为:
MOi=[0 0 2 0 0 1 ... 0 0 0 0 1]
步骤1.2)通过话题标签所在的微博构建向量空间表示
可用包含话题标签话题的微博来建立话题标签的向量空间表示。令语料中微博包含的所有词语集合为字典K,令话题标签i的向量空间表示为T,则T是一个|K|维的向量,该向量的每一维的值是包含有该话题标签的微博中这一维词语出现的总次数,即:
例如话题标签'#ps3'的向量空间表示为:
T=[0 0 1 0 4 ... 0 0 0 5 1]
步骤2)对步骤1)中的两种模态表示分别训练深度玻尔兹曼机
采用深度玻尔兹曼机对两种模态分别进行建模;由于高斯玻尔兹曼机更适用于真值输入,因此对于话题标签的共现关系表示采用深度高斯玻尔兹曼机进行建模;而Replicated Softmax模型对稀疏的向量空间表示有更好的建模性能,因此对于向量空间表示采用深度的Replicated Softmax的玻尔兹曼机进行建模;
限制玻尔兹曼机是包含随机可视单元v∈{0,1}D及随机隐藏单元h∈{0,1}F的无向图模型,其中每个可视单元都连接到每个隐藏单元上;限制玻尔兹曼机定义了如下的能量函数E:{0,1}D+F→R:
其中θ={a,b,W}是模型参数;可视单元及隐藏单元的联合分布可定义为:
对于高斯玻尔兹曼机,令v∈RD为模型的可见单元集合,令h∈{0,1}F为隐藏单元的集合,则状态{v,h}的能量定义如下:
其中θ={a,b,W,σ}是模型参数;
对于Replicated Softmax玻尔兹曼机,令v∈NK为模型的可见单元集合,其中vk是第k个单词在文档中出现的次数,而K为词典的大小;令h∈{0,1}F为隐藏单元的集合,则状态{v,h}的能量定义如下:
E(v,h;θ)=-vTW(1)h(1)-h(1)TW(2)h(2)
其中h={h(1),h(2)}代表隐藏单元集合,θ={W(1),W(2)}是模型参数,代表可视层-隐藏层1,隐藏层1-隐藏层2的对称交互参数;类似于限制玻尔兹曼机,二值的深度玻尔兹曼机也可以较为容易地扩展为可对稠密的真值数据或稀疏的数据建模的模型;
步骤3)以步骤2)中两种模态的训练结果作为输入进行多模态联合学习;
如图2所示,左下部分为以共现关系向量作为输入的玻尔兹曼机,它由一层可见层和两层隐藏层组成,分别表示为vo,右下部分为以向量空间表示为输入的玻尔兹曼机,同样由一层可见层和两层隐藏层组成,分别表示为vs,将两个玻尔兹曼机的第二个隐藏层作为上方第三个隐藏层的输入,则可以学习到最终的联合表达h(3)。在该层学习到的联合分布可表示为:
上述模型的最大似然学习是难以处理的,然而利用平常场推导来估计数据期望,及利用基于MCMC的随机估计过程来估计模型的期望统计能够做出对模型的近似学习;具体而言,用在五个隐藏单元集{ho (1),ho (2),hs (1),hs (2),h(3)}上的完全因数分解的分布来估计真实的先验概率P(h|v;θ),其中v={vo,vs}:
其中μ={μo (1),μo (2),μs (1),μs (2),μ(3)}为q(hi (l)=1)=μi (l),l=1,2,3时的平均场参数;
通过寻找最大化当前模型参数θ可变下界的μ,能够最终得到一系列平均场的定值方程;给定可变参数μ,模型参数θ可利用基于MCMC的随机估计过程来逐步迭代更新以最大化可变边界。
通过对多模态的玻尔兹曼机模型进行学习,即可学习到参数拟合训练数据的模型,进而可得到话题标签的多模态表达。例如话题标签'#ps3'的多模态表示为:
T=[2.34 1.0 1.34 9.99 2.86 ... 0.02 0.9 0.5 1.2]
步骤4)利用经典算法Kmeans对多模态联合学习出的话题标签表达进行聚类,将聚类得出的每个类别的簇心作为主题;令聚出的类别数目为nc,则得到的聚类中心可表示为Ci,i=1,...,nc。例如其中一部分类别的簇心为:'#socialmedia','#politics','#gaming','#music'等,代表这些类别的主题分别是“社交网络”,“政治”,“游戏”,“音乐”等。
步骤5)对于一个带话题标签的微博输入,将它的话题标签输入步骤4)的聚类结果中得到与之最近的一个簇心,即是该微博的主题;
可利用步骤3)学习到的多模态模型对一个话题标签生成多模态表达。对于一个输入的话题标签,通过步骤3)中的学习方法可估计出相应的前置概率Q(h(3)|vo,vs),则隐藏层h(3)中隐藏单元的的激活概率就构成了输入话题标签的多模态表达。
距离h最近的聚类中心即为输入微博的主题,则输入微博的主题可表示为:
例如对于微博'#ps3#ps3 is released!',根据其话题标签'#ps3'的多模态表达得到的聚类中心为'#gaming',从而可知该微博的主题即是“游戏”。
步骤6)对于不带话题标签的微博,将微博的向量空间表达输入到步骤3)学习到的多模态模型中,从而生成该微博的话题标签,然后类似步骤5)通过求最近簇心的方式,得到该微博的主题;
输入微博的空间向量表达,可通过吉布斯采样的方式从条件分布中对隐藏的模态进行采样,从而得到相应的共现关系表示。通过计算现有共现关系表示与采样出的共现关系表示的相似度,可将相似度最高的共现关系表示对应的话题标签作为该微博的话题标签;
令采样出的共现关系表示为R,则与当前微博最相近的话题标签的序号为:
j=Maxi cos(R,MOi)
其中MO为话题标签之间的共现关系矩阵;则可以将第j个话题标签作为本输入微博的话题标签;进而通过与步骤5)同样的步骤,可找到该微博的主题。
例如,微博'Congratulations to Lady Gaga for the Grammy Awards!'本身是不带标签的,通过上述过程,可以为本微博生成'#grammy'这个标签,进而可以得到其主题为'music',即“音乐”。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (1)
1.基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法,包括如下步骤:
步骤1)通过微博数据构建话题标签的两种模态表示
步骤1.1)通过话题标签的共现关系构建话题标签的共现关系表示;
通过对微博数据进行统计,获得话题标签之间的共现关系矩阵,话题标签由该矩阵的行来表示;
步骤1.2)通过话题标签所在的微博构建向量空间表示
用包含话题标签话题的微博来建立话题标签的向量空间表示;令语料中微博包含的所有词语集合为字典K,令话题标签i的向量空间表示为T,T是一个|K|维的向量,该向量的每一维的值是包含有该话题标签的微博中这一维词语出现的总次数;
步骤2)对步骤1)中的两种模态表示分别训练深度玻尔兹曼机
采用深度玻尔兹曼机对两种模态分别进行建模;由于高斯玻尔兹曼机更适用于真值输入,因此对于话题标签的共现关系表示采用深度高斯玻尔兹曼机进行建模;而ReplicatedSoftmax模型对稀疏的向量空间表示有更好的建模性能,因此对于向量空间表示采用深度的Replicated Softmax的玻尔兹曼机进行建模;
步骤3)以步骤2)中两种模态的训练结果作为输入进行多模态联合学习;
多模态的玻尔兹曼机模型由两个玻尔兹曼机构建,一个是以共现关系表示作为输入的高斯玻尔兹曼机,它由一层可见层和两层隐藏层组成;另一个是以向量空间表示为输入的Replicated Softmax玻尔兹曼机,同样由一层可见层和两层隐藏层组成;将两个玻尔兹曼机的第二个隐藏层作为另外一个隐藏层的输入,得到的输出就是最终的联合表达;
上述模型的最大似然学习是难以处理的,因此利用平常场推导来估计数据期望,及利用基于MCMC的随机估计过程来估计模型的期望统计以做出对模型的近似学习;
通过对多模态的玻尔兹曼机模型进行学习,学习到参数拟合训练数据的模型,进而得到话题标签的多模态表达;
步骤4)利用经典算法Kmeans对多模态联合学习出的话题标签表达进行聚类,将聚类得出的每个类别的簇心作为主题;
步骤5)对于一个带话题标签的微博输入,利用步骤3)学习到的多模态玻尔兹曼机模型对它的话题标签生成多模态表达,通过计算话题标签的多模态表达与步骤4)中簇心的多模态表达的距离,找到距离最近的簇心即是该微博的主题;
步骤6)对于不带话题标签的微博,将微博的向量空间表达输入到步骤3)学习到的多模态玻尔兹曼机模型中,通过吉布斯采样的方式从条件分布中对隐藏的模态进行采样,从而得到相应的共现关系表示,通过计算现有共现关系表示与采样出的共现关系表示的相似度,将相似度最高的共现关系表示对应的话题标签作为该微博的话题标签;然后类似步骤5)通过求最近簇心的方式,得到该微博的主题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611203288.8A CN106778880B (zh) | 2016-12-23 | 2016-12-23 | 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611203288.8A CN106778880B (zh) | 2016-12-23 | 2016-12-23 | 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106778880A CN106778880A (zh) | 2017-05-31 |
CN106778880B true CN106778880B (zh) | 2020-04-07 |
Family
ID=58897595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611203288.8A Active CN106778880B (zh) | 2016-12-23 | 2016-12-23 | 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106778880B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451187B (zh) * | 2017-06-23 | 2020-05-19 | 天津科技大学 | 基于互约束主题模型的半结构短文本集中子话题发现方法 |
CN107515889A (zh) * | 2017-07-03 | 2017-12-26 | 国家计算机网络与信息安全管理中心 | 一种微博话题实时监测方法与装置 |
CN107886061B (zh) * | 2017-11-02 | 2021-08-06 | 华南理工大学 | 基于多模态深度玻尔兹曼机的人体行为识别方法及系统 |
CN107944049A (zh) * | 2017-12-19 | 2018-04-20 | 北京工业大学 | 一种基于深度学习的电影推荐方法 |
CN108304879B (zh) * | 2018-02-05 | 2021-11-16 | 山东浪潮科学研究院有限公司 | 一种船舶轨迹聚类方法及装置 |
CN112364937B (zh) * | 2020-11-30 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 用户类别确定方法及装置、推荐内容确定方法、电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955857A (zh) * | 2012-11-09 | 2013-03-06 | 北京航空航天大学 | 一种搜索引擎中基于类中心压缩变换的文本聚类方法 |
CN103593474A (zh) * | 2013-11-28 | 2014-02-19 | 中国科学院自动化研究所 | 基于深度学习的图像检索排序方法 |
CN103729459A (zh) * | 2014-01-10 | 2014-04-16 | 北京邮电大学 | 一种构建情感分类模型的方法 |
CN103793507A (zh) * | 2014-01-26 | 2014-05-14 | 北京邮电大学 | 一种使用深层结构获取双模态相似性测度的方法 |
CN104123336A (zh) * | 2014-05-21 | 2014-10-29 | 深圳北航新兴产业技术研究院 | 深度玻尔兹曼机模型及短文本主题分类系统和方法 |
CN104281653A (zh) * | 2014-09-16 | 2015-01-14 | 南京弘数信息科技有限公司 | 一种针对千万级规模微博文本的观点挖掘方法 |
CN104899253A (zh) * | 2015-05-13 | 2015-09-09 | 复旦大学 | 面向社会图像的跨模态图像-标签相关度学习方法 |
CN105760507A (zh) * | 2016-02-23 | 2016-07-13 | 复旦大学 | 基于深度学习的跨模态主题相关性建模方法 |
CN106228977A (zh) * | 2016-08-02 | 2016-12-14 | 合肥工业大学 | 基于深度学习的多模态融合的歌曲情感识别方法 |
-
2016
- 2016-12-23 CN CN201611203288.8A patent/CN106778880B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955857A (zh) * | 2012-11-09 | 2013-03-06 | 北京航空航天大学 | 一种搜索引擎中基于类中心压缩变换的文本聚类方法 |
CN103593474A (zh) * | 2013-11-28 | 2014-02-19 | 中国科学院自动化研究所 | 基于深度学习的图像检索排序方法 |
CN103729459A (zh) * | 2014-01-10 | 2014-04-16 | 北京邮电大学 | 一种构建情感分类模型的方法 |
CN103793507A (zh) * | 2014-01-26 | 2014-05-14 | 北京邮电大学 | 一种使用深层结构获取双模态相似性测度的方法 |
CN104123336A (zh) * | 2014-05-21 | 2014-10-29 | 深圳北航新兴产业技术研究院 | 深度玻尔兹曼机模型及短文本主题分类系统和方法 |
CN104281653A (zh) * | 2014-09-16 | 2015-01-14 | 南京弘数信息科技有限公司 | 一种针对千万级规模微博文本的观点挖掘方法 |
CN104899253A (zh) * | 2015-05-13 | 2015-09-09 | 复旦大学 | 面向社会图像的跨模态图像-标签相关度学习方法 |
CN105760507A (zh) * | 2016-02-23 | 2016-07-13 | 复旦大学 | 基于深度学习的跨模态主题相关性建模方法 |
CN106228977A (zh) * | 2016-08-02 | 2016-12-14 | 合肥工业大学 | 基于深度学习的多模态融合的歌曲情感识别方法 |
Non-Patent Citations (5)
Title |
---|
《deep transfer learning via restricted boltzmann machine for document classification》;Jian Zhang;《2011 10th international conference on machine learning and applications and workshops》;20111221;全文 * |
《基于多模态学习的深度玻尔兹曼机分析微博用户的心理压力》;杨展等;《海南大学学报自然科学版》;20160630;全文 * |
《基于结构相似度的大规模社交网络聚类算法》;陈季梦等;《电子与信息学报》;20150228;全文 * |
《基于限制性玻尔兹曼机的微博主题分类》;李超等;《telecommunications network technology》;20140731;全文 * |
《特定事件微博子话题特征提取研究》;翟羽佳;《情报科学》;20160331;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN106778880A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106778880B (zh) | 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法 | |
Yu et al. | Beyond bilinear: Generalized multimodal factorized high-order pooling for visual question answering | |
Amancio | A complex network approach to stylometry | |
Sordoni et al. | A hierarchical recurrent encoder-decoder for generative context-aware query suggestion | |
Garreta et al. | Learning scikit-learn: machine learning in python | |
JP7076483B2 (ja) | データモデルを構築する方法、装置、デバイス及び媒体 | |
CN113593661B (zh) | 临床术语标准化方法、装置、电子设备及存储介质 | |
Huang et al. | Large-scale heterogeneous feature embedding | |
Yan et al. | Active learning from multiple knowledge sources | |
CN109284414B (zh) | 基于语义保持的跨模态内容检索方法和系统 | |
CN113849653B (zh) | 一种文本分类方法及装置 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN113761220A (zh) | 信息获取方法、装置、设备及存储介质 | |
CN115130538A (zh) | 文本分类模型的训练方法、文本处理的方法、设备及介质 | |
Ning et al. | Integration of image feature and word relevance: Toward automatic image annotation in cyber-physical-social systems | |
Xiao et al. | Research and implementation of hybrid recommendation algorithm based on collaborative filtering and word2vec | |
Perdana et al. | Instance-based deep transfer learning on cross-domain image captioning | |
Mithun et al. | Construction of diverse image datasets from web collections with limited labeling | |
Tang et al. | A Cross-Domain Multimodal Supervised Latent Topic Model for Item Tagging and Cold-Start Recommendation | |
Sun et al. | Computational modeling of hierarchically polarized groups by structured matrix factorization | |
CN111782964B (zh) | 一种社区帖子的推荐方法 | |
Lu et al. | Mining latent attributes from click-through logs for image recognition | |
Chen et al. | A fast multiscale clustering approach based on DBSCAN | |
Yao et al. | Learning global image representation with generalized‐mean pooling and smoothed average precision for large‐scale CBIR | |
Tian et al. | Source-free unsupervised domain adaptation via bi-classifier confidence score weighting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |