CN107203632A - 基于相似关系和共现关系的话题流行度预测方法 - Google Patents

基于相似关系和共现关系的话题流行度预测方法 Download PDF

Info

Publication number
CN107203632A
CN107203632A CN201710402801.4A CN201710402801A CN107203632A CN 107203632 A CN107203632 A CN 107203632A CN 201710402801 A CN201710402801 A CN 201710402801A CN 107203632 A CN107203632 A CN 107203632A
Authority
CN
China
Prior art keywords
topic
mrow
msub
popularity
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710402801.4A
Other languages
English (en)
Other versions
CN107203632B (zh
Inventor
邓璐
贾焰
周斌
李爱平
韩伟红
黄九鸣
江荣
全拥
刘强
张良
张涛
刘心
童咏之
胡玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201710402801.4A priority Critical patent/CN107203632B/zh
Publication of CN107203632A publication Critical patent/CN107203632A/zh
Application granted granted Critical
Publication of CN107203632B publication Critical patent/CN107203632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明属于社交网络大数据技术领域,具体涉及一种基于相似关系和共现关系的话题流行度预测方法,包括主要步骤:(S1)输入文档集合,通过LDA建模分析得到话题集合、每个话题的词汇分布和每个文档的话题分布;(S2)计算话题的相似向量;(S3)计算话题的共现向量;(S4)定义流行度,并计算话题流行度;(S5)计算话题基于相似关系的流行度;(S6)计算话题基于共现关系的流行度;(S7)根据步骤(S5)和步骤(S6)的计算结果,分别计算话题在四类流行度情况下的概率值,选择概率值最大的类别作为该话题的最终流行度。本发明方法将话题流行度预测应用到了社交网络大数据中,实现了话题流行程度的短期预测。

Description

基于相似关系和共现关系的话题流行度预测方法
技术领域
本发明属于社交网络大数据技术领域,具体涉及一种基于相似关系和共现关系的话题流行度预测方法。
背景技术
微博作为当今最为流行的在线社会网络形式之一,近几年得到了迅速发展,它是一种互动及传播性极快的平台,传播速度甚至比一般社会网络和媒体都要快。微博的出现,很多新闻事件和热点话题在微博网站得以快速、广泛地传播,成为网民获取信息、分享信息、交友的重要平台。用户发表话题根据其作者、内容的不同,将会受到不同程度的关注,为了更好地将有价值、流行度较高的话题推荐给用户,对话题流行度进行合理排序,有必要对用户发表的话题流行度进行合理预测。然而,话题流行度预测是一个具有挑战性的研究课题,涉及的方面很多,目前尚未有成熟的方案。参考文献[1]首先发现了在线内容在早期和晚期热度的对数值之间的强线性关系,基于此发现,他们提出了Szabo-Huberman模型来预测在线内容的热度。该方法虽然发现了流行度之间的数值关系,但仅针对具体数值,而在实际应用中,更关心的是内容的流行程度而不是具体数值。
参考文献[2]提出了适合长期预测的算法,基本思想是对待预测的话题,假设其历史热度曲线,根据与它历史热度曲线最相似的其他话题的热度曲线来预测话题未来的变化趋势,该方法的不足之处是无法应对短期预测的问题。
参考文献[3]提出了一种基于k近邻的预测帖子流行度方法,它以帖子的点击数作为流行度的衡量标准,根据与话题相似的k个话题的流行度情况预测话题的发展趋势。该方法采用的是向量空间模型表示,在找出最相似的k个话题上存在较大的误差。
参考文献[4]提出一种基于k近邻和LDA模型(Latent Dirichlet Allocation)的预测方法,该方法除了考虑了近邻方法还加入了对作者兴趣特征的考虑。该方法虽然采用LDA模型,弥补了向量空间模型的问题,但是没有加入话题之间的共现关系的考虑,共现话题存在一定的逻辑关联,对于话题流行度预测具有重要的作用。具体参考文献如下:
[1]Szabo G,Huberman B A.Predicting the popularity of onlinecontent.2010
[2]Gao H,Wang SS,Fu Y.Prediction model for long-term developmenttrend of web sentiment.2011
[3]Nie RL,Chen L,Wang YQ,et,al,algorithm for prediction of new topic’shotnessusing the k-nearest neighbors.2012.
[4]Wang WJ,Chen L,Wang YQ,et,al,Algorithm for prediction of post’shotness using k—nearest neighbors and latent dirichlet allocation.2014.
发明内容
为解决上述技术问题,本发明通过流行度定义、相似关系的分析、共现关系的分析和话题流行度预测,基于相似关系和共现关系对话题流行度进行了预测,提出了一种话题流行度预测方法。具体技术方案如下:
一种基于相似关系和共现关系的话题流行度预测方法,包括以下步骤:
(S1)输入文档集合,通过LDA建模分析得到话题集合、每个话题的词汇分布和每个文档的话题分布;
(S2)针对任一个话题za,根据话题za的词汇分布,通过KL散度法计算话题za与其他话题的相似关系,即话题za的相似向量;
(S3)针对任一个文档d,根据文档d的话题分布,将文档d中的话题按照分布概率值进行降序排列,取出概率最大的3个话题作为文档d的代表性话题,并计算话题za与其他话题的共现关系,即话题za的共现向量;
(S4)定义流行度,并计算话题的流行度;假设给定一个微博c,记微博c的发表时间为0时刻,则在t时刻的转发次数记为R(c,t),即微博c在时刻t的流行度;设话题za包含若干条微博,记话题za中第一条微博的发表时间为0时刻,则在t时刻的属于该话题za的所有微博转发次数之和记为R(za,t),即话题za在时刻t的流行度;定义R(za,t1)表示话题za在t1时刻的流行度,R(za,t2)表示话题za在预测时刻t2的流行度,t2>t1,则计算评价中间量q:
q=R(za,t1)/R(za,t2);
设定三个阈值p1、p2、p3,且p1<p2<p3,将流行度分为四个类别,具体为,
如果q<p1,则为L1类;
如果p1≤q<p2,则为L2类;
如果p2≤q<p3,则为L3类;
如果q≥p3,则为L4类;
(S5)计算话题za基于相似关系的流行度;
(S6)计算话题za基于共现关系的流行度;
(S7)根据步骤(S5)和步骤(S6)的计算结果,分别计算话题za在L1、L2、L3、L4四类情况下的概率值,选择概率值最大的类别作为该话题za的最终流行度。
优选地,所述步骤(S2)中通过KL散度法计算话题za与其他话题的相似关系具体为:
Similarity(za)={(z1,ws-a1),(z2,ws-a2),…,(zm,ws-am)}
其中,Similarity(za)表示话题za的相似向量,zi表示第i个话题,ws-ai为第i个话题对应的相似权重,i=1,2,…,m且i≠a,m表示话题总数,i取整数。
Ta表示话题za的词汇分布,Ti表示话题zi的词汇分布,n为词汇总数,log表示以10为底对数的简写,Ta(vh)表示词汇分布Ta在词汇vh时的概率值,Tp(vh)表示词汇分布Tp在词汇vh时的概率值,h=1,2,…,n。h取整数。
优选地,所述步骤(S3)中计算话题za与其他话题的共现关系具体为:
Cooccurrence(za)={(z1,wc-a1),(z2,wc-a2),…,(zm,wc-am)}
其中,Cooccurrence(za)表示话题za的共现向量,zi表示第i个话题,wc-ai为第i个话题对应的共现权重,i=1,2,…,m且i≠a,m表示话题总数;
F为文档集合,za和zb表示任意两个话题,d表示文档,S(d)表示文档的代表性话题集合;
优选地,所述步骤(S5)中计算话题za基于相似关系的流行度具体过程为:
从话题za的相似向量中选出k个相似权重最高的话题,记为Ssim(za),通过这k个话题的流行度类别和与话题za的相似关系,计算话题za在相似关系下属于四种流行度类别的情况,计算公式如下:
其中β的取值为1,2,3,4,zj表示话题,ws-aj为话题zj对应的相似权重,R(zj)表示话题zj所属流行度类别,δ()表示布尔函数,
优选地,所述步骤(S6)中计算话题za基于共现关系的流行度具体过程为:
从话题za的共现向量中选出k个共现权重最高的话题,记为Scor(za),通过这k个话题的流行度类别以及与话题za的共现情况,计算出话题za在共现关系下属于四种流行度类别的情况,计算公式如下:
其中β的取值为1,2,3,4,zl表示话题,wc-al为话题zl对应的相似权重,R(zl)表示话题zl所属流行度的类别,δ()表示布尔函数,
优选地,所述步骤(S7)中话题za的最终流行度计算过程为:分别计算话题za属于L1,L2,L3,L4四种类别的概率p(za,Lβ):
p(za,Lβ)=γ*psim(za,Lβ)+(1-γ)*pcor(za,Lβ)
其中γ表示线性参数,psim(za,Lβ)表示话题za基于相似关系属于类别Lβ的概率,pcor(za,Lβ)表示话题za基于共现关系属于类别Lβ的概率;选择最终概率最大值作为话题za的最终流行程度。
采用本发明获得的有益效果:本发明方法将话题流行度预测方法应用到了社交网络大数据中,实现了话题流行程度的短期预测,在考虑话题间相似关系的同时,融入话题间共现关系的考虑,简化了预测过程,在一定程度上提高了话题流行度预测的准确性。
附图说明
图1为本发明方法流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1所示为本发明流程图,一种基于相似关系和共现关系的话题流行度预测方法,包括以下步骤:
(S1)输入文档集合,通过LDA建模分析,得到话题集合、每个话题的词汇分布和每个文档的话题分布;
(S2)针对任一个话题za,根据话题za的词汇分布,通过KL散度法计算话题za与其他话题的相似关系,即话题za的相似向量;
(S3)针对任一个文档d,根据文档d的话题分布,将文档d中的话题按分布概率的降序排列,取出概率最大的3个话题作为文档d的代表性话题,并计算话题za与其他话题的共现关系,即话题za的共现向量;
(S4)定义流行度,并计算话题的流行度;假设给定一个微博c,记微博c的发表时间为0时刻,则在t时刻的转发次数记为R(c,t),即微博c在时刻t的流行度(本发明中一个微博与该微博评论集合放在一起,经过去停用词、分词等预处理操作后即得到一篇文档);设话题za包含若干条微博,记话题za中第一条微博的发表时间为0时刻,则在t时刻的属于该话题za的所有微博转发次数之和记为R(za,t),即话题z在时刻t的流行度,也可表示为定义R(za,t1)表示话题za在t1时刻的流行度,R(za,t2)表示话题za在预测时刻t2的流行度,t2>t1,则计算评价中间量q:
q=R(za,t1)/R(za,t2);
设定三个阈值p1,p2,p3,且p1<p2<p3,将流行度分为四个类别,具体为,
如果q<p1,则为L1类;表示此话题在t2时刻后仍会产生高规模数量的新博文和转发;实施例中设置p1,p2,p3分别设置为0.2,0.4和0.7。
如果p1≤q<p2,则为L2类;表示此话题在t2时刻后仍会产生中规模数量的新博文和转发;
如果p2≤q<p3,则为L3类;表示此话题在t2时刻后仍会产生低规模数量的新博文和转发;
如果q≥p3,则为L4类;表示此话题在t2时刻后无新博文和转发;
(S5)计算话题za基于相似关系的流行度;
(S6)计算话题za基于共现关系的流行度;
(S7)根据步骤(S5)和步骤(S6)的计算结果,分别计算话题za在L1、L2、L3、L4四类情况下的概率值,选择概率值最大的类别作为该话题za的最终流行度。
话题的相似关系分析的重点是如何判断两个话题是否是相似关系。实施例中采用KL散度的方法进行衡量。KL散度(Kullback–Leibler divergence),又称相对熵(relativeentropy),是描述两个概率分布P和Q差异的一种方法。它是非对称的,这意味着D(P||Q)≠D(Q||P)。特别的,在信息论中,D(P||Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布。具体如下面公式所示,其中表示概率分布P在变量取时的概率,表示概率分布Q在变量取时的概率。KL-divergence始终是大于等于0的。当且仅当两个分布相同时,KL-divergence等于0。
所述步骤(S2)中通过KL散度法计算话题za与其他话题的相似关系具体为:
Similarity(za)={(z1,ws-a1),(z2,ws-a2),…,(zm,ws-am)}
其中,Similarity(za)表示话题za的相似向量,zi表示第i个话题,ws-ai为第i个话题对应的相似权重,i=1,2,…,m且i≠a,m表示话题总数;
Ta表示话题za的词汇分布,Ti表示话题zi的词汇分布,n为词汇总数,log表示以10为底对数的简写,Ta(vh)表示词汇分布Ta在词汇vh时的概率值,Tp(vh)表示词汇分布Tp在词汇vh时的概率值,h=1,2,…,n。
实施例中,通过LDA模型可以得到文档集合中每个话题的词汇分布。对于两个话题za和zi,它们词汇分布分别为Ta和Ti。用KL散度衡量两个话题的词汇分布的相似程度,两个话题语义越接近,则它们的分布越相似,那么它们对应的KL-divergence值就越接近于0。即在两个话题相似性分析时,散度值越小越好。由于散度值越小,说明两个话题越相似,所以上述采用简单的取倒数方式来表示,为了防止计算过程中分母为零,一般情况下使用1+D(Ta||Ti)进行计算。
在话题模型中,每篇文档表示为话题的混合分布,其中那些分布概率高的话题则是该文档的代表性话题。如果两个话题同时出现在某篇文档的代表性话题中,则称这两个话题存在一次共现,即这两个话题是共现关系。共现次数越多的话题,可以认为它们的逻辑关系越强。
实施例中,计算两个话题的共现次数具体为,定义布尔函数来判断两个话题za和zb是否同时为某一文档d的代表性话题,F为总体的文档集合,Cor(za,zb)表示两个话题共现次数,S(d)表示文档的代表性话题集合;
则计算话题za与其他话题的共现关系具体为:
Cooccurrence(za)={(z1,wc-a1),(z2,wc-a2),…,(zm,wc-am)}
其中,Cooccurrence(za)表示话题za的共现向量,zi表示第i个话题,wc-ai为第i个话题对应的共现权重,i=1,2,…,m且i≠a,m表示话题总数;
基于KNN算法(又称k近邻分类算法)的思想,一个话题的流行度可以通过与其最相似的k个话题的流行情况进行预测,同样,也可以通过与共现信息比重最高的k个话题的流行度进行预测。基于以上考虑,这里提出了SCW(Similarity Co-occurrence Weighting)算法。根据相似情况和共现信息分别计算出话题属于定义四个类别的概率,然后最终预测出话题的流行类别。
(1)计算话题za基于相似关系的流行度具体过程为:
从话题za的相似向量中选出k个相似权重最高的话题,记为Ssim(za),通过这k个话题的流行度类别和与话题za的相似关系,计算话题za在相似关系下属于四种流行度类别的情况,计算公式如下:
其中β的取值为1,2,3,4,zj表示话题,ws-aj为话题zj对应的相似权重,R(zj)表示对于一个话题zj,根据其评价中间量q的情况判断话题zj所属流行度类别的函数,δ()表示布尔函数,
(2)计算话题za基于共现关系的流行度具体过程为:
从话题za的共现向量中选出k个共现权重最高的话题,记为Scor(za),通过这k个话题的流行度类别以及与话题za的共现情况,计算出话题za在共现关系下属于四种流行度类别的情况,计算公式如下:
其中β的取值为1,2,3,4,zl表示话题,wc-al为话题zl对应的相似权重,R(zl)表示对于一个话题zl,根据其评价中间量q的情况判断话题zl所属流行度类别的函数,δ()表示布尔函数,
(3)话题za的最终流行度计算过程为:分别计算话题za属于L1,L2,L3,L4四种类别的概率p(za,Lβ):
p(za,Lβ)=γ*psim(za,Lβ)+(1-γ)*pcor(za,Lβ)
其中γ表示线性参数,γ∈(0,1),psim(za,Lβ)表示话题za基于相似关系属于类别Lβ的概率,pcor(za,Lβ)表示话题za基于共现关系属于类别Lβ的概率;选择最终概率最大值对应的类别作为话题za的最终流行程度。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接应用在其他相关技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种基于相似关系和共现关系的话题流行度预测方法,其特征在于,包括以下步骤:
(S1)输入文档集合,通过LDA建模分析得到话题集合、每个话题的词汇分布和每个文档的话题分布;
(S2)针对任一个话题za,根据话题za的词汇分布,通过KL散度法计算话题za与其他话题的相似关系,即话题za的相似向量;
(S3)针对任一个文档d,根据文档d的话题分布,将文档d中的话题按照分布概率值进行降序排列,取出概率最大的3个话题作为文档d的代表性话题,并计算话题za与其他话题的共现关系,即话题za的共现向量;
(S4)定义流行度,并计算话题的流行度;假设给定一个微博c,记微博c的发表时间为0时刻,则在t时刻的转发次数记为R(c,t),即微博c在时刻t的流行度;设话题za包含若干条微博,记话题za中第一条微博的发表时间为0时刻,则在t时刻的属于该话题za的所有微博转发次数之和记为R(za,t),即话题za在时刻t的流行度;定义R(za,t1)表示话题za在t1时刻的流行度,R(za,t2)表示话题za在预测时刻t2的流行度,t2>t1,则计算评价中间量q:
q=R(za,t1)/R(za,t2);
设定三个阈值p1、p2、p3,且p1<p2<p3,将话题流行度分为四个类别,根据评价中间量q得到话题流行度类别,具体为,
如果q<p1,则为L1类;
如果p1≤q<p2,则为L2类;
如果p2≤q<p3,则为L3类;
如果q≥p3,则为L4类;
(S5)计算话题za基于相似关系的流行度;
(S6)计算话题za基于共现关系的流行度;
(S7)根据步骤(S5)和步骤(S6)的计算结果,分别计算话题za在L1、L2、L3、L4四类情况下的概率值,选择概率值最大的类别作为该话题za的最终流行度。
2.如权利要求1所述一种基于相似关系和共现关系的话题流行度预测方法,其特征在于,所述步骤(S2)中通过KL散度法计算话题za与其他话题的相似关系具体为:
Similarity(za)={(z1,ws-a1),(z2,ws-a2),…,(zm,ws-am)}
其中,Similarity(za)表示话题za的相似向量,zi表示第i个话题,ws-ai为第i个话题对应的相似权重,i=1,2,…,m且i≠a,m表示话题总数;
<mrow> <msub> <mi>w</mi> <mrow> <mi>s</mi> <mo>-</mo> <mi>a</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>a</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>a</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>T</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mfrac> </mrow>
<mrow> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>a</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>T</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>h</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>T</mi> <mi>a</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>h</mi> </msub> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>T</mi> <mi>a</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>h</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>T</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>h</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>
Ta表示话题za的词汇分布,Ti表示话题zi的词汇分布,n为词汇总数,log表示以10为底对数的简写,Ta(vh)表示词汇分布Ta在词汇vh时的概率值,Tp(vh)表示词汇分布Tp在词汇vh时的概率值,h=1,2,…,n。
3.如权利要求1所述一种基于相似关系和共现关系的话题流行度预测方法,其特征在于,所述步骤(S3)中计算话题za与其他话题的共现关系具体为:
Cooccurrence(za)={(z1,wc-a1),(z2,wc-a2),…,(zm,wc-am)}
其中,Cooccurrence(za)表示话题za的共现向量,zi表示第i个话题,wc-ai为第i个话题对应的共现权重,i=1,2,…,m且i≠a,m表示话题总数;
<mrow> <msub> <mi>w</mi> <mrow> <mi>c</mi> <mo>-</mo> <mi>a</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mi>C</mi> <mi>o</mi> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>z</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>/</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>C</mi> <mi>o</mi> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>z</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> </mrow>
Cor(za,zb)=∑d∈Fφ(za,zb,d),
<mrow> <mi>&amp;phi;</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>z</mi> <mi>b</mi> </msub> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>z</mi> <mi>a</mi> </msub> <mi>i</mi> <mi>n</mi> <mi> </mi> <mi>S</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> <mi>a</mi> <mi>n</mi> <mi>d</mi> <mi> </mi> <msub> <mi>z</mi> <mi>b</mi> </msub> <mi>i</mi> <mi>n</mi> <mi> </mi> <mi>S</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>z</mi> <mi>a</mi> </msub> <mi>o</mi> <mi>u</mi> <mi>t</mi> <mi>o</mi> <mi>f</mi> <mi> </mi> <mi>S</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> <mi>o</mi> <mi>r</mi> <mi> </mi> <msub> <mi>z</mi> <mi>b</mi> </msub> <mi>o</mi> <mi>u</mi> <mi>t</mi> <mi>o</mi> <mi>f</mi> <mi> </mi> <mi>S</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
F为文档集合,za和zb表示任意两个话题,d表示文档,S(d)表示文档的代表性话题集合。
4.如权利要求1所述一种基于相似关系和共现关系的话题流行度预测方法,其特征在于,所述步骤(S5)中计算话题za基于相似关系的流行度具体过程为:
从话题za的相似向量中选出k个相似权重最高的话题,记为Ssim(za),通过这k个话题的流行度类别和与话题za的相似关系,计算话题za在相似关系下属于四种流行度类别的情况,计算公式如下:
<mrow> <msub> <mi>p</mi> <mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>L</mi> <mi>&amp;beta;</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <msub> <mi>S</mi> <mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>a</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <msub> <mi>w</mi> <mrow> <mi>s</mi> <mo>-</mo> <mi>a</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <mi>R</mi> <mo>(</mo> <msub> <mi>z</mi> <mi>j</mi> </msub> <mo>)</mo> <mo>=</mo> <msub> <mi>L</mi> <mi>&amp;beta;</mi> </msub> <mo>)</mo> </mrow> </mrow>
其中β的取值为1,2,3,4,zj表示话题,ws-aj为话题zj对应的相似权重,R(zj)表示话题zj所属流行度类别,δ()表示布尔函数,
5.如权利要求1所述一种基于相似关系和共现关系的话题流行度预测方法,其特征在于,所述步骤(S6)中计算话题za基于共现关系的流行度具体过程为:
从话题za的共现向量中选出k个共现权重最高的话题,记为Scor(za),通过这k个话题的流行度类别以及与话题za的共现情况,计算话题za在共现关系下属于四种流行度类别的情况,计算公式如下:
<mrow> <msub> <mi>p</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>r</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>L</mi> <mi>&amp;beta;</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>z</mi> <mi>l</mi> </msub> <mo>&amp;Element;</mo> <msub> <mi>S</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>r</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>a</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <msub> <mi>w</mi> <mrow> <mi>c</mi> <mo>-</mo> <mi>a</mi> <mi>l</mi> </mrow> </msub> <mo>*</mo> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <mi>R</mi> <mo>(</mo> <msub> <mi>z</mi> <mi>l</mi> </msub> <mo>)</mo> <mo>=</mo> <msub> <mi>L</mi> <mi>&amp;beta;</mi> </msub> <mo>)</mo> </mrow> </mrow>
其中β的取值为1,2,3,4,zl表示话题,wc-al为话题zl对应的相似权重,R(zl)表示话题zl所属流行度类别,δ()表示布尔函数,
6.如权利要求1所述一种基于相似关系和共现关系的话题流行度预测方法,其特征在于,所述步骤(S7)中话题za的最终流行度计算过程为:分别计算话题za属于L1,L2,L3,L4四种类别的概率p(za,Lβ):
p(za,Lβ)=γ*psim(za,Lβ)+(1-γ)*pcor(za,Lβ)
其中γ表示线性参数,β的取值为1,2,3,4,psim(za,Lβ)表示话题za基于相似关系属于类别Lβ的概率,pcor(za,Lβ)表示话题za基于共现关系属于类别Lβ的概率;选择概率最大值对应的类别作为话题za的最终流行度。
CN201710402801.4A 2017-06-01 2017-06-01 基于相似关系和共现关系的话题流行度预测方法 Active CN107203632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710402801.4A CN107203632B (zh) 2017-06-01 2017-06-01 基于相似关系和共现关系的话题流行度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710402801.4A CN107203632B (zh) 2017-06-01 2017-06-01 基于相似关系和共现关系的话题流行度预测方法

Publications (2)

Publication Number Publication Date
CN107203632A true CN107203632A (zh) 2017-09-26
CN107203632B CN107203632B (zh) 2019-08-16

Family

ID=59906761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710402801.4A Active CN107203632B (zh) 2017-06-01 2017-06-01 基于相似关系和共现关系的话题流行度预测方法

Country Status (1)

Country Link
CN (1) CN107203632B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191465A (zh) * 2018-10-25 2020-05-22 中国移动通信有限公司研究院 一种问答匹配方法、装置、设备及存储介质
CN111241421A (zh) * 2020-01-14 2020-06-05 西安电子科技大学 基于社交上下文信息的用户转发行为预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123377A (zh) * 2014-07-30 2014-10-29 福州大学 一种微博话题热度预测系统及方法
CN104615685A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向网络话题的热度评价方法
CN104834632A (zh) * 2015-05-13 2015-08-12 北京工业大学 一种基于语义扩充的微博话题检测和热度评估方法
CN105224608A (zh) * 2015-09-06 2016-01-06 华南理工大学 基于微博数据分析的热点新闻预测方法及系统
CN106599181A (zh) * 2016-12-13 2017-04-26 浙江网新恒天软件有限公司 一种基于主题模型的新闻热点检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123377A (zh) * 2014-07-30 2014-10-29 福州大学 一种微博话题热度预测系统及方法
CN104615685A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向网络话题的热度评价方法
CN104834632A (zh) * 2015-05-13 2015-08-12 北京工业大学 一种基于语义扩充的微博话题检测和热度评估方法
CN105224608A (zh) * 2015-09-06 2016-01-06 华南理工大学 基于微博数据分析的热点新闻预测方法及系统
CN106599181A (zh) * 2016-12-13 2017-04-26 浙江网新恒天软件有限公司 一种基于主题模型的新闻热点检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王卫姣 等: "LDA和KNN相结合的帖子热度预测算法", 《四川大学学报(自然科学版)》 *
章建 等: "基于上下文的话题演化和话题关系抽取研究", 《中文信息学报》 *
聂恩伦 等: "基于K近邻的新话题热度预测算法", 《计算机科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191465A (zh) * 2018-10-25 2020-05-22 中国移动通信有限公司研究院 一种问答匹配方法、装置、设备及存储介质
CN111191465B (zh) * 2018-10-25 2023-05-09 中国移动通信有限公司研究院 一种问答匹配方法、装置、设备及存储介质
CN111241421A (zh) * 2020-01-14 2020-06-05 西安电子科技大学 基于社交上下文信息的用户转发行为预测方法
CN111241421B (zh) * 2020-01-14 2022-07-01 西安电子科技大学 基于社交上下文信息的用户转发行为预测方法

Also Published As

Publication number Publication date
CN107203632B (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
Wang et al. Deep learning for aspect-based sentiment analysis
Huang et al. Csan: Contextual self-attention network for user sequential recommendation
Preoţiuc-Pietro et al. Studying user income through language, behaviour and affect in social media
Yin et al. Deep fusion of multimodal features for social media retweet time prediction
Liji et al. Improved personalized recommendation based on user attributes clustering and score matrix filling
Wang et al. Diversified and scalable service recommendation with accuracy guarantee
Lin et al. Heterogeneous knowledge-based attentive neural networks for short-term music recommendations
Zhou et al. Attention-based BiLSTM models for personality recognition from user-generated content
CN105005589A (zh) 一种文本分类的方法和装置
Cataldi et al. The 10 million follower fallacy: audience size does not prove domain-influence on Twitter
CN104063481A (zh) 一种基于用户实时兴趣向量的电影个性化推荐方法
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
Sharma et al. An artificial neural network based approach for sentiment analysis of opinionated text
Kang et al. LA-CTR: A limited attention collaborative topic regression for social media
Okawa et al. Predicting opinion dynamics via sociologically-informed neural networks
CN104572915B (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN110110220A (zh) 融合社交网络和用户评价的推荐模型
Kanev et al. Sentiment analysis of multilingual texts using machine learning methods
CN107203632B (zh) 基于相似关系和共现关系的话题流行度预测方法
Wei et al. Using network flows to identify users sharing extremist content on social media
Hong et al. DSER: Deep-sequential embedding for single domain recommendation
Meijer et al. Document embedding for scientific articles: Efficacy of word embeddings vs TFIDF
Zheng et al. Personalized recommendations based on sentimental interest community detection
Do et al. Metadata-dependent infinite poisson factorization for efficiently modelling sparse and large matrices in recommendation
Wang et al. Park recommendation algorithm based on user reviews and ratings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant