CN112256756A - 一种基于三元关联图和知识表示的影响力发现方法 - Google Patents

一种基于三元关联图和知识表示的影响力发现方法 Download PDF

Info

Publication number
CN112256756A
CN112256756A CN202011135676.3A CN202011135676A CN112256756A CN 112256756 A CN112256756 A CN 112256756A CN 202011135676 A CN202011135676 A CN 202011135676A CN 112256756 A CN112256756 A CN 112256756A
Authority
CN
China
Prior art keywords
path
user
message
influence
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011135676.3A
Other languages
English (en)
Other versions
CN112256756B (zh
Inventor
肖云鹏
李美玲
卢星宇
李暾
李茜
刘红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011135676.3A priority Critical patent/CN112256756B/zh
Publication of CN112256756A publication Critical patent/CN112256756A/zh
Application granted granted Critical
Publication of CN112256756B publication Critical patent/CN112256756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据挖掘技术领域,具体涉及到一种基于三元关联图和知识表示的影响力发现方法,包括通过网络爬虫获取数据,并进行数据清洗;根据获取的数据源按照用户的转发行为提取热点话题下的消息传播路径和话题下的总消息以及话题下的总用户信息,构建消息‑路径‑用户三元关联图模型;根据交叉迭代策略,在构建的消息‑路径‑用户三元关联图模型上进行正反迭代打分机制来挖掘出热点话题传播的关键元素节点;得到的关键消息、关键路径和关键用户的影响力得分序列结果和相关信息存储到服务器,完成影响力发现;本发明可以帮助使用者在异构、多属性的社交网络中发现高影响力用户。

Description

一种基于三元关联图和知识表示的影响力发现方法
技术领域
本发明属于数据挖掘技术领域,涉及社交网络影响力挖掘与控制技术,具体涉及到一种基于三元关联图和知识表示的影响力发现方法。
背景技术
随着信息化时代的到来,越来越多的人也参与到在线社交网络中。社交网络中信息的种类丰富,内容复杂,其中充满着大量用户可能会关注的话题。话题网络已经成为信息传播的重要载体。基于这样的环境下,对于社交话题网络下关键元素的影响力分析也变得尤为重要。
社交话题网络下关键元素影响力分析技术在社会学、通信学、经济学、政治科学等多领域被广泛研究,在舆情引导和社会运作中起着重要的作用。在当前这个在线社交网络时代,社交网络已经对人们的日常生活和行为方式产生了巨大的影响,少部分恶意用户和意见领袖使用社交服务制造、传播舆论,意见领袖的观点往往会影响大批粉丝和舆论走向。
关键元素影响力分析在多个领域得到广泛的应用,比如推荐系统、社交网络信息传播、链路预测、公众健康、突发性事件监测和广告投放等。因此对社交网络话题影响力分析的研究更具有重要的理论价值和实际意义。
目前比较流行的影响力分析算法有PageRank、HITS、SIR模型等。 Giannoulakis S等人提出了一种基于HITS算法挖掘图像对应的关键标签的得分值(Giannoulakis S,Tsapatsoulis N.Filtering Instagram Hashtags through crowdtagging and the HITSalgorithm[J].IEEE Transactions on Computational Social Systems,2019.)。受到该篇论文的启发,本发明提出了一种基于三元关联图模型和知识表示的影响力分析算法,不仅可以简单有效地分析社交话题的关键元素影响力,而且由于通过建立参与元素的关联性,更真实的揭示一些“小”元素在热点话题传播过程中起到的“大”作用。、
目前的话题网络下关键元素影响力分析主要涉及四个方面:基于网络拓扑结构进行影响力度量和基于用户行为的影响力发现,基于用户交互信息的影响力发现以及通过时间因素、转移熵等其他因素进行影响力发现。虽然众多学者对话题网络下关键元素影响力分析模型进行了大量的研究,并取得了一定的成果,但仍存在一些挑战:
1.基于社交话题中多类型元素的关联性。当前关于社交话题影响力分析,不管在独立元素层面,还是在多类型元素层面,大多数都缺少基于元素关联性的隐性影响力计算。如话题网络下不能关联参与用户元素和传播路径元素等多类型的元素,使得影响力分析比较片面化,不能将它们紧密联系起来。
2.传统影响力计算中转移概率的简单性。当前的影响力计算主要是基于统计方式计算转移概率矩阵,忽略了各不同元素的潜在关联关系,导致部分隐性信息的损失,最终没有真正挖掘到话题中起关键作用的元素。
3.基于关联性的影响力量化复杂性。很多方法在影响力的计算方面较为复杂,时间复杂度和空间复杂度都较高。因此,既然引入了话题关键元素的关联性,如何在进行关联性的计算并且能够确保影响力计算简单高效也变得尤为重要。
发明内容
针对以上挑战,本发明提出一种基于三元关联图和知识表示的影响力发现方法,如图1,包括以下步骤:
通过网络爬虫获取数据,并进行数据清洗;
根据获取的数据源按照用户的转发行为提取热点话题下的消息传播路径和话题下的总消息以及话题下的总用户信息,构建消息-路径-用户三元关联图模型;
根据交叉迭代策略,在构建的消息-路径-用户三元关联图模型上进行正反迭代打分机制来挖掘出热点话题传播的关键元素节点;
得到的关键消息、关键路径和关键用户的影响力得分序列结果和相关信息存储到服务器,完成影响力发现。
进一步的,通过网络爬虫获取的数据包括热点话题数据和参与用户行为属性数据,热点话题数据包括该热点话题下的参与用户ID、参与用户转发及数目、参与用户评论内容及数目;参与用户行为属性数据包括参与用户兴趣爱好、参与用户擅长领域、参与用户标签信息、参与用户好友关系及数目、参与用户转发数、参与用户评论。
进一步的,构建消息-路径-用户三元关联图模型包括:
S21、按照用户的转发行为,将多消息传播网络分成多个单消息的扩散传播图,得到消息-路径二元关联图;
S22、根据每条传播路径的节点信息和话题下的总用户信息构建路径-用户二元关联图模型;
S23、在消息-路径二元关联图模型、路径-用户二元关联图模型基础之上,构建消息-路径-用户三元关联图模型。
进一步的,利用正反迭代打分机制来挖掘出热点话题传播的关键元素节点的过程包括:
计算三元关联图模型中各不同元素节点影响力值,包括对热点话题传播过程中消息的重要程度、传播路径的重要程度以及参与用户的驱动力进行计算;
进行正反迭代投票机制,得到最终得分向量X’、Y’和Z’,得分越高表示该节点越重要。
进一步的,进行正反迭代投票包括:
在第一次正向投票时令X=X0、Y=Y0、Z=Z0
在正向打分中,根据消息集合的打分向量X,以第一转移概率矩阵转化为路径的打分向量,得到新的路径打分向量Y’;根据新的路径的打分向量Y’,以第二转移概率矩阵转化为用户的打分向量,得到新的用户打分向量Z’,具体表示为:
Figure RE-GDA0002806022620000041
Figure RE-GDA0002806022620000042
同理,反向打分过程表示为:
Figure RE-GDA0002806022620000043
Figure RE-GDA0002806022620000044
其中,α为阻尼系数,X、Y、Z表示迭代前的得分值;
Figure RE-GDA0002806022620000045
表示消息i转移到路径j的概率转移矩阵,
Figure RE-GDA0002806022620000046
表示路径j转移到消息i的概率转移矩阵,
Figure RE-GDA0002806022620000047
表示路径j转移到用户k的概率转移矩阵,
Figure RE-GDA0002806022620000048
表示用户k转移到路径 j的概率转移矩阵。
本发明的有益效果:
本发明可以帮助使用者在异构、多属性的社交网络中发现高影响力用户,是快速变化的网络时代信息决策的一个关键点。由此可以帮助到社交网络中的多个领域,如推荐系统、社交网络信息传播分析、链路预测、病毒式营销、公共健康、突发事件检测和广告投放等等。
附图说明
图1为基于三元关联图和知识表示学习的影响力发现模型图;
图2为基于三元关联图和知识表示学习的影响力发现示例;
图3为三元关联图模型示例;
图4为知识表示学习transD算法思想示例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于三元关联图和知识表示的影响力发现方法,包括以下步骤:
通过网络爬虫获取数据,并进行数据清洗;
根据获取的数据源按照用户的转发行为提取热点话题下的消息传播路径和话题下的总消息以及话题下的总用户信息,构建消息-路径-用户三元关联图模型;
根据交叉迭代策略,在构建的消息-路径-用户三元关联图模型上进行正反迭代打分机制来挖掘出热点话题传播的关键元素节点;
得到的关键消息、关键路径和关键用户的影响力得分序列结果和相关信息存储到服务器,完成影响力发现。
实施例1
如图1所示为本发明整体框架图,表明本发明的输入是包含用户属性信息和用户行为关系信息以及热点话题信息数据的数据集,经过推荐模型后的输出是关键元素影响力序列排名集合。图2是本发明的一个关心信息发现实例,社交话题网络数据包括消息、用户以及用过之间交互关系构成的社交网络,通过本发明方法,即关键元素影响力发现模型可以从中发现的关键信息包括关键消息、关键用户以及关键路径。
本实施例对发明步骤进行说明,在本实施例中,主要包括:
第一步:获取数据源。
本实施例获取的数据为新浪微博数据,通过各社交网站开放API平台获取数据或者直接下载现有数据源都可以获取原始数据,获取的数据内容主要包括热点话题数据和参与用户行为属性数据两部分,所述热点话题数据包括该热点话题下的参与用户ID、参与用户转发及数目、参与用户评论内容及数目;参与用户行为属性数据包括参与用户兴趣爱好、参与用户擅长领域、参与用户标签信息、参与用户好友关系及数目、参与用户转发数、参与用户评论等。
针对采集获取的源数据,通过简单的数据清洗可以使大部分数据利于分析,例如,删除重复数据、删除关键信息缺失的数据,清理无效节点等。
第二步:根据获取的数据源按照用户的转发行为提取热点话题下的消息传播路径和话题下的总消息以及话题下的总用户信息,构建消息-路径-用户三元关联图模型。
本实施例此步骤主要包括构建消息-路径二元关联图模型、路径-用户二元关联图模型从而去综合构建消息-路径-用户三元关联图模型,具体包括:
S21、据获取的数据源提取热点话题下消息传播路径和话题下的总消息,按照用户的转发行为,将多消息传播网络分成多个单消息的扩散传播图,得到消息-路径二元关联图;
S22、根据每条传播路径的节点信息和话题下的总用户信息构建路径-用户二元关联图模型,同一个用户可能会同时参与到多条传播路径中,通常很难直观地去发现所有的用户和路径的关系,为此,需先对话题传播路径进行提取,并对路径与用户之间的关联关系进行分析后才能构建路径-用户二元关联图模型;
S23、在消息-路径二元关联图模型、路径-用户二元关联图模型基础之上,构建消息-路径-用户三元关联图模型,为了方便对消息、传播路径、参与用户这三个关键元素之间的关联关系进行识别与分析,本发明在消息-路径二元关联图模型、路径-用户二元关联图模型的基础上,借鉴图论中的三元关联图模型,将话题传播网络中所有关键元素节点划分为三个互不相交的子集M、P与U,相关联的两个元素节点属于不同子集,两组元素节点之间的连边关系看作是一组概率转移矩阵,如图3所示即为热点话题传播网络三元关联图模型,该三元关联图模型可用GT={M∪P∪U,A∪B}表示;
其中,M为话题传播网络中消息的集合,P为话题传播网络中传播路径的集合,U为话题传播网络中参与用户的集合,A为消息与传播路径之间的权重矩阵,B为传播路径与参与用户之间的权重矩阵。如果消息i与传播路径j之间有关联关系,则概率转移矩阵A中的转移概率aij>0或aji>0,否则,aij=0或aji=0。如果传播路径j与参与用户k之间有关联关系,则概率转移矩阵B中的转移概率 bjk>0或bkj>0,否则,bjk=0或bkj=0。概率转移矩阵A和B表示如下:
Ai,j=[aij]i×j 式(1)
Aj,i=[aji]j×i 式(2)
Bj,k=[bjk]j×k 式(3)
Bk,j=[bkj]k×j 式(4)
S24、计算转移概率矩阵,话题网络中,消息、路径、用户不同类型的元素都有自己的特征,他们互相关联,连接两个不同的路径之间存在不同的语义,像路径到路径的关系包括:路径到路径间的转发关系、路径到用户到路径的存在关系、路径到消息到路径的同一消息下的关联关系等等。这些关系包含着丰富的信息,可以帮助重构网络并且可以进行进一步的信息推导。借鉴知识表示学习transD算法将实体空间的元素映射到同一空间下,进行统一的向量表示,如图4所示。得到各不同类型的向量表示mi,pj,uk
S25、接下来计算得到消息向量mi和路径向量pi之间的相似度矩阵:
Figure RE-GDA0002806022620000071
消息-路径Gmp网络中,在消息传播中,路径的数量增长随着时间大致呈指数关系,可以看出关键路径一般出现在消息传播的较早时间,随着时间的增加,消息的热度也逐渐减弱。我们再利用时间对其进行加权处理:
w(mi,pj)=e-3(temp_time-start_time)·sim(mi,pj) 式(6)
其中,temp_time表示当前路径发生的时间,start_time表示该消息下第一次出现路径的时间,a是加权系数。
因此消息-路径Gmp网络的转移概率矩阵可以表示为:
Figure RE-GDA0002806022620000081
其中,N(mi)表示与mi有转移关系的路径类型节点的集合,
Figure RE-GDA0002806022620000082
表示消息到路径的转移概率矩阵,
Figure RE-GDA0002806022620000083
是一条消息到路径的边,Emp是所有消息到路径的边。
Figure RE-GDA0002806022620000084
表示消息mi与路径pj之间存在链接关系。
同理,计算
Figure RE-GDA0002806022620000085
路径到消息的转移概率矩阵。
Figure RE-GDA0002806022620000086
考虑路径与用户的相似度计算如下所示:
Figure RE-GDA0002806022620000087
同时在路径-用户Gpu网络中,用户在路径中的出现的位置构成了一部分路径到用户的影响力指标。往往一条路径的转发量受到当前最后一个用户的影响力最大。因为当前最后一个用户往往可以决定消息扩散的广度。
因此,用户uk在路径pj中的权重可由其位置表示为:
Figure RE-GDA0002806022620000088
其中t表示用户uk在路径pj中的倒数第几个位置,Num(pj)表示路径pj中所有用户的总数,
Figure RE-GDA0002806022620000089
表示用户参与的所有路径的用户总数。
因此路径-用户Gpu网络的转移概率矩阵可以表示为:
Figure RE-GDA0002806022620000091
其中,N(pj)表示与pj有转移关系的用户类型节点的集合,
Figure RE-GDA0002806022620000092
表示路径到用户的的转移概率矩阵,
Figure RE-GDA0002806022620000093
是一条消息到路径的边,Epu是所有消息到路径的边;
Figure RE-GDA0002806022620000094
表示路径pj与用户uk之间存在链接关系。
同理,计算
Figure RE-GDA0002806022620000095
的转移概率矩阵。
Figure RE-GDA0002806022620000096
第三步:使用迭代打分机制计算各元素影响力得分序列。
热点话题通过消息下路径的传播进而去影响到话题下的用户,反过来,用户也会通过传播路径参与到消息下进行热点话题的传播,可见热点话题三元关联图中各个元素节点之间有着很强的相互关联关系,任何节点的状态和值都会影响到其他的节点的状态和值。因此,本发明根据交叉迭代策略,在构建的消息- 路径-用户三元关联图模型上进行正反迭代打分机制来挖掘出热点话题传播的关键元素节点,主要包括以下步骤:
S31、三元关联图模型中各不同元素节点影响力值的初始化计算,其中包括对消息影响度、传播路径的重要程度以及参与用户的驱动力进行计算,具体包括:
S311、计算消息节点的影响度:
Figure RE-GDA0002806022620000097
其中βi表示消息i下参与的总人数(这里只针对于转发行为),I为话题传播网络中的消息总数。
S312、计算传播路径的重要程度,在话题的传播过程中,传播路径的重要程度一般受到该条传播路径的转发量的影响,传播路径的重要程度表示为:
Figure RE-GDA0002806022620000101
其中,Ret_numj表示路径j被转发的总数。J为话题传播网络中的路径总数。
S313、计算参与用户的驱动力。将用户影响力分成两个部分,分别为用户在话题传播下用户的驱动力和用户在用户关系网络下的用户驱动力。
在这里使用熵权去客观赋予权重,其思路是根据指标的混乱度来确定客观权重,熵最早由香农引入信息论,熵值反映了信息混乱度的程度;熵值越大,系统的混乱度越高,信息的效用值越小;反之,其值越小,系统的混乱度越低,信息的效用值越大。
用户在话题传播下的影响力计算公式为:
Figure RE-GDA0002806022620000102
其中,
Figure RE-GDA0002806022620000103
Div(upk)表示用户和路径的差异值,rk是用户参加的某条路径下的转发率,P 表示用户参加的路径的总量;
Figure RE-GDA0002806022620000104
是用户uk所在的路径中被转发数量,J 是路径p的总数量。
用户在用户关系网络下的影响力计算为:
Figure RE-GDA0002806022620000105
其中,
Figure RE-GDA0002806022620000106
Div(umk)表示用户和消息的差异值,sk表示用户参与的消息的用户占总消息下用户的数量,M表示用户参与的消息的总数;part(uk)表示用户uk在此消息中所有的参与消息的用户数,I是用户uk参与消息的集合,
Figure RE-GDA0002806022620000107
为用户uk参与的所有的消息下参与用户的总数。
各个用户在当前社交网络中的总话题驱动影响力计算为:
Div(uk)=Div(upk)+Div(umk) 式(17)
因此,用户的话题驱动影响力计算如下所示:
Figure RE-GDA0002806022620000111
S32、在三元关联图上进行正反迭代投票,识别出关键元素的最终得分向量:根据权重矩阵A、权重矩阵B、消息、传播路径与参与用户所对应的初始得分向量X0、Y0和Z0,采用正反迭代打分机制进行迭代,为了确保收敛,设置阈值ε,当||X’-X||≤ε时,就停止迭代,并返回迭代结果,并且在每次迭代后,都需要对 X、Y、Z的打分值进行归一化处理。
为了通过正反迭代投票机制来识别出热点话题传播过程中关键元素的最终得分向量,本发明用X、Y、Z分别表示迭代过程中消息、传播路径和参与用户的得分向量,再在消息-路径-用户三元关联图基础上,根据权重矩阵A和B,各类型元素的初始得分向量X0、Y0、Z0,进行正反迭代投票机制,得到最终得分向量 X’、Y’和Z’。
正反迭代打分机制的思想是如果一个节点为枢纽节点,由于它很容易被其他节点访问,那么它就有很高的权威值,如果一个节点权威值很高,那么它就很可能是重要节点。它分为正向迭代投票和反向迭代投票两个步骤。具体流程如下所示:
在正向打分中,根据消息集合的打分向量X,以转移概率矩阵A转化为路径的打分向量,得到新的路径打分向量Y’;
接下来根据新的路径的打分向量Y’,以转移概率矩阵B转化为用户的打分向量,得到新的用户打分向量Z’。计算公式如下所示:
Figure RE-GDA0002806022620000112
Figure RE-GDA0002806022620000121
同理,可以进行反向打分,原理和正向迭代打分相同,对X和Y的得分进行更新,计算公式如下所示:
Figure RE-GDA0002806022620000122
Figure RE-GDA0002806022620000123
其中,α为阻尼系数,X、Y、Z表示迭代前的得分值。X、Y、Z均表示上一次迭代后的得分向量(在第一次正向投票时令X=X0、Y=Y0、Z=Z0),;
Figure RE-GDA0002806022620000124
表示消息i转移到路径j的概率转移矩阵,
Figure RE-GDA0002806022620000125
表示路径j转移到消息i的概率转移矩阵,
Figure RE-GDA0002806022620000126
表示路径j转移到用户k的概率转移矩阵,
Figure RE-GDA0002806022620000127
表示用户k转移到路径j的概率转移矩阵。
第四步:将热点话题传播的过程中分析得到的关键消息、关键路径和关键用户的影响力得分序列结果和相关信息存储到话题管理服务器,通过话题管理服务器将这些信息传送给网络话题监管中心或网络话题监管部门,掌握所需 top-N类型不同类型所需元素序列信息从而达到进行舆情分析和控制的目的。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种基于三元关联图和知识表示的影响力发现方法,其特征在于,包括以下步骤:
通过网络爬虫获取数据,并进行数据清洗;
根据获取的数据源按照用户的转发行为提取热点话题下的消息传播路径和话题下的总消息以及话题下的总用户信息,构建消息-路径-用户三元关联图模型;
根据交叉迭代策略,在构建的消息-路径-用户三元关联图模型上进行正反迭代打分机制来挖掘出热点话题传播的关键元素节点;
得到的关键消息、关键路径和关键用户的影响力得分序列结果和相关信息存储到服务器,完成影响力发现。
2.根据权利要求1所述的一种基于三元关联图和知识表示的影响力发现方法,其特征在于,通过网络爬虫获取的数据包括热点话题数据和参与用户行为属性数据,热点话题数据包括该热点话题下的参与用户ID、参与用户转发及数目、参与用户评论内容及数目;参与用户行为属性数据包括参与用户兴趣爱好、参与用户擅长领域、参与用户标签信息、参与用户好友关系及数目、参与用户转发数、参与用户评论。
3.根据权利要求1所述的一种基于三元关联图和知识表示的影响力发现方法,其特征在于,构建消息-路径-用户三元关联图模型包括:
S21、按照用户的转发行为,将多消息传播网络分成多个单消息的扩散传播图,得到消息-路径二元关联图;
S22、根据每条传播路径的节点信息和话题下的总用户信息构建路径-用户二元关联图模型;
S23、在消息-路径二元关联图模型、路径-用户二元关联图模型基础之上,构建消息-路径-用户三元关联图模型。
4.根据权利要求1所述的一种基于三元关联图和知识表示的影响力发现方法,其特征在于,利用正反迭代打分机制来挖掘出热点话题传播的关键元素节点的过程包括:
计算三元关联图模型中各不同元素节点影响力值,包括对热点话题传播过程中消息的重要程度、传播路径的重要程度以及参与用户的驱动力进行计算;
进行正反迭代投票机制,得到最终得分向量X'、Y'和Z',得分越高表示该节点越重要。
5.根据权利要求4所述的一种基于三元关联图和知识表示的影响力发现方法,其特征在于,热点话题传播过程中消息的重要程度表示为:
Figure FDA0002736548960000021
其中,βi表示消息i下参与的总人数,I为话题传播网络中的消息总数,
Figure FDA0002736548960000022
为所有消息下传播用户的总数。
6.根据权利要求4所述的一种基于三元关联图和知识表示的影响力发现方法,其特征在于,传播路径的重要程度表示为:
Figure FDA0002736548960000023
其中,Ret_numj表示路径j被转发的总数量,J为话题传播网络中的路径总数,
Figure FDA0002736548960000024
表示话题传播过程中的所有传播路径的路径转发总数目。
7.根据权利要求4所述的一种基于三元关联图和知识表示的影响力发现方法,其特征在于,参与用户的驱动力表示为:
Figure FDA0002736548960000025
其中,
Figure FDA0002736548960000031
表示话题传播过程中的所有用户的驱动力总数,且Div(uk)=Div(upk)+Div(umk),参与用户的驱动力Div(uk)分为用户在话题传播下的影响力Div(upk),表示为
Figure FDA0002736548960000032
以及用户在用户关系网络下的影响力Div(umk),表示为
Figure FDA0002736548960000033
Figure FDA0002736548960000034
其中,K为话题传播网络中的用户总数;rk是用户参加的某条路径下的转发率,P表示用户参加的该路径的总量,ret_num(puk)是用户uk所在的路径中被转发数量,J是路径的总数量;sk表示用户参与的消息的用户占总消息下用户的数量,M表示用户参与的消息的总数;part(uk)表示用户uk在此消息中所有的参与消息的用户数,I是用户uk参与消息的集合,
Figure FDA0002736548960000035
为该消息下所有的消息下参与用户的总数。
8.根据权利要求4所述的一种基于三元关联图和知识表示的影响力发现方法,其特征在于,进行正反迭代投票包括:
在第一次正向投票时令X=X0、Y=Y0、Z=Z0
在正向打分中,根据消息集合的打分向量X,以第一转移概率矩阵转化为路径的打分向量,得到新的路径打分向量Y';根据新的路径的打分向量Y',以第二转移概率矩阵转化为用户的打分向量,得到新的用户打分向量Z',具体表示为:
Figure FDA0002736548960000036
Figure FDA0002736548960000037
同理,反向打分过程表示为:
Figure FDA0002736548960000041
Figure FDA0002736548960000042
其中,α为阻尼系数,X、Y、Z表示迭代前的得分值;
Figure FDA0002736548960000043
表示消息i转移到路径j的概率转移矩阵,
Figure FDA0002736548960000044
表示路径j转移到消息i的概率转移矩阵,
Figure FDA0002736548960000045
表示路径j转移到用户k的概率转移矩阵,
Figure FDA0002736548960000046
表示用户k转移到路径j的概率转移矩阵。
9.根据权利要求8所述的一种基于三元关联图和知识表示的影响力发现方法,其特征在于,消息i转移到路径j的概率转移矩阵
Figure FDA0002736548960000047
的转置矩阵为路径j转移到消息i的概率转移矩阵
Figure FDA0002736548960000048
消息i转移到路径j的概率转移矩阵表示为:
Figure FDA0002736548960000049
w(mi,pj)=e-a(temp_time-start_time)·sim(mi,pj);
路径j转移到用户k的概率转移矩阵
Figure FDA00027365489600000410
的转置矩阵为用户k到路径j的概率转移矩阵
Figure FDA00027365489600000411
路径j转移到用户k的概率转移矩阵
Figure FDA00027365489600000412
表示为:
Figure FDA00027365489600000413
Figure FDA00027365489600000414
其中,temp_time表示当前路径发生的时间,start_time表示该消息下第一次出现路径的时间,a是加权系数,sim(mi,pj)为消息向量mi和路径向量pj之间的相似度;N(mi)表示与mi有转移关系的路径类型节点的集合。temp_time表示当前路径发生的时间,start_time表示该消息下第一次出现路径的时间,a是加权系数,
Figure FDA0002736548960000051
是一条消息到路径的边,Emp是消息到路径的边的集合;
Figure FDA0002736548960000052
表示如果消息mi和路径pj之间有链接关系;c(pj,uk)表示用户uk在路径pj中的权重;t表示用户uk在路径pj中的倒数第几个位置;Num(pj)表示路径pj中所有用户的总数。N(pj)表示与pj有转移关系的用户类型节点的集合;Sim(pj,uk)表示路径向量pj和用户向量uk之间的相似度,
Figure FDA0002736548960000053
是一条路径到用户的边,Epu是路径到用户的边的集合;
Figure FDA0002736548960000054
表示用户uk和路径pj之间有链接关系。
10.根据权利要求9所述的一种基于三元关联图和知识表示的影响力发现方法,其特征在于,消息向量mi和路径向量pj之间的相似度为消息向量mi和路径向量pj之间的余弦夹角;路径向量pj和用户向量uk之间的相似度为路径向量pj和用户向量uk之间的余弦夹角。
CN202011135676.3A 2020-10-22 2020-10-22 一种基于三元关联图和知识表示的影响力发现方法 Active CN112256756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011135676.3A CN112256756B (zh) 2020-10-22 2020-10-22 一种基于三元关联图和知识表示的影响力发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011135676.3A CN112256756B (zh) 2020-10-22 2020-10-22 一种基于三元关联图和知识表示的影响力发现方法

Publications (2)

Publication Number Publication Date
CN112256756A true CN112256756A (zh) 2021-01-22
CN112256756B CN112256756B (zh) 2022-09-23

Family

ID=74263489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011135676.3A Active CN112256756B (zh) 2020-10-22 2020-10-22 一种基于三元关联图和知识表示的影响力发现方法

Country Status (1)

Country Link
CN (1) CN112256756B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139574A (zh) * 2021-03-15 2021-07-20 上海仙塔智能科技有限公司 识别车联网关键用户的方法、电子设备及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617289A (zh) * 2013-12-12 2014-03-05 北京交通大学长三角研究院 基于用户特征及网络关系的微博推荐方法
US20140189536A1 (en) * 2013-01-02 2014-07-03 Microsoft Corporation Social media impact assessment
US20140236953A1 (en) * 2009-02-11 2014-08-21 Jeffrey A. Rapaport Methods using social topical adaptive networking system
CN104537096A (zh) * 2015-01-09 2015-04-22 哈尔滨工程大学 一种基于微博消息传播树的微博消息影响力度量方法
CN106355506A (zh) * 2016-08-15 2017-01-25 中南大学 一种在线社会网络中影响力最大化初始节点选取方法
CN108170842A (zh) * 2018-01-16 2018-06-15 重庆邮电大学 基于三部图模型的微博热点话题溯源方法
CN110851684A (zh) * 2019-11-12 2020-02-28 重庆邮电大学 一种基于三元关联图的社交话题影响力识别方法及装置
CN110995485A (zh) * 2019-12-02 2020-04-10 黑龙江大学 一种无拓扑结构的社交消息传播范围预测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140236953A1 (en) * 2009-02-11 2014-08-21 Jeffrey A. Rapaport Methods using social topical adaptive networking system
US20140189536A1 (en) * 2013-01-02 2014-07-03 Microsoft Corporation Social media impact assessment
CN103617289A (zh) * 2013-12-12 2014-03-05 北京交通大学长三角研究院 基于用户特征及网络关系的微博推荐方法
CN104537096A (zh) * 2015-01-09 2015-04-22 哈尔滨工程大学 一种基于微博消息传播树的微博消息影响力度量方法
CN106355506A (zh) * 2016-08-15 2017-01-25 中南大学 一种在线社会网络中影响力最大化初始节点选取方法
CN108170842A (zh) * 2018-01-16 2018-06-15 重庆邮电大学 基于三部图模型的微博热点话题溯源方法
CN110851684A (zh) * 2019-11-12 2020-02-28 重庆邮电大学 一种基于三元关联图的社交话题影响力识别方法及装置
CN110995485A (zh) * 2019-12-02 2020-04-10 黑龙江大学 一种无拓扑结构的社交消息传播范围预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PENG WANG 等: "User behavior prediction: A combined model of topic level influence and contagion interaction", 《2014 20TH IEEE INTERNATIONAL CONFERENCE ON PARALLEL AND DISTRIBUTED SYSTEMS (ICPADS)》, 30 April 2015 (2015-04-30), pages 851 - 852 *
张玥 等: "识别网络论坛中有影响力用户", 《计算机研究与发展》, vol. 50, no. 10, 15 October 2013 (2013-10-15), pages 2195 - 2205 *
李美玲: "社交话题多类型关键元素关联性建模及影响力发现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》, no. 3, 15 March 2022 (2022-03-15), pages 138 - 3266 *
笱程成等: "tsk-shell:一种话题敏感的高影响力传播者发现算法", 《计算机研究与发展》, no. 02, 15 February 2017 (2017-02-15), pages 132 - 139 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139574A (zh) * 2021-03-15 2021-07-20 上海仙塔智能科技有限公司 识别车联网关键用户的方法、电子设备及可读存储介质
CN113139574B (zh) * 2021-03-15 2024-04-26 上海仙塔智能科技有限公司 识别车联网关键用户的方法、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN112256756B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
US11100411B2 (en) Predicting influence in social networks
Bliss et al. An evolutionary algorithm approach to link prediction in dynamic social networks
Nettleton Data mining of social networks represented as graphs
CN106682770B (zh) 一种基于好友圈子的动态微博转发行为预测系统及方法
Jiang et al. Social recommendation across multiple relational domains
CN103279512A (zh) 利用社会网络上最有影响力节点实现高效病毒营销的方法
Fu et al. Leveraging careful microblog users for spammer detection
Gadek et al. Topical cohesion of communities on Twitter
Bródka A method for group extraction and analysis in multilayer social networks
CN112256756B (zh) 一种基于三元关联图和知识表示的影响力发现方法
Lu et al. Collective human behavior in cascading system: discovery, modeling and applications
Liu et al. Ct lis: Learning influences and susceptibilities through temporal behaviors
Nguyen et al. A data-driven study of influences in Twitter communities
Zhou et al. Using coalitional games to detect communities in social networks
Zygmunt Role identification of social networkers
Lin et al. Analysis and comparison of interaction patterns in online social network and social media
Zhan et al. A computational framework for detecting malicious actors in communities
Yang et al. Information propagation dynamics model based on implicit cluster structure network
Stamatelatos et al. Deriving the political affinity of twitter users from their followers
Yu et al. Identifying interaction groups in social network using a game-theoretic approach
Li et al. Key node discovery algorithm based on multiple relationships and multiple features in social networks
Chen et al. Modeling opinion influence with user dual identity
Song et al. Evolutionary Game Propagation Model on Social Networks
Wang et al. Modeling Implicit User Relations with Information Propagation Graph for User Influence Prediction
Huang et al. FBF: A High-Efficient Query Mechanism for Keyword Search in Online Social Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant