CN112256756A

CN112256756A - 一种基于三元关联图和知识表示的影响力发现方法

Info

Publication number: CN112256756A
Application number: CN202011135676.3A
Authority: CN
Inventors: 肖云鹏; 李美玲; 卢星宇; 李暾; 李茜; 刘红
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-01-22
Anticipated expiration: 2040-10-22
Also published as: CN112256756B

Abstract

本发明属于数据挖掘技术领域，具体涉及到一种基于三元关联图和知识表示的影响力发现方法，包括通过网络爬虫获取数据，并进行数据清洗；根据获取的数据源按照用户的转发行为提取热点话题下的消息传播路径和话题下的总消息以及话题下的总用户信息，构建消息‑路径‑用户三元关联图模型；根据交叉迭代策略，在构建的消息‑路径‑用户三元关联图模型上进行正反迭代打分机制来挖掘出热点话题传播的关键元素节点；得到的关键消息、关键路径和关键用户的影响力得分序列结果和相关信息存储到服务器，完成影响力发现；本发明可以帮助使用者在异构、多属性的社交网络中发现高影响力用户。

Description

一种基于三元关联图和知识表示的影响力发现方法

技术领域

本发明属于数据挖掘技术领域，涉及社交网络影响力挖掘与控制技术，具体涉及到一种基于三元关联图和知识表示的影响力发现方法。

背景技术

随着信息化时代的到来，越来越多的人也参与到在线社交网络中。社交网络中信息的种类丰富，内容复杂，其中充满着大量用户可能会关注的话题。话题网络已经成为信息传播的重要载体。基于这样的环境下，对于社交话题网络下关键元素的影响力分析也变得尤为重要。

社交话题网络下关键元素影响力分析技术在社会学、通信学、经济学、政治科学等多领域被广泛研究，在舆情引导和社会运作中起着重要的作用。在当前这个在线社交网络时代，社交网络已经对人们的日常生活和行为方式产生了巨大的影响，少部分恶意用户和意见领袖使用社交服务制造、传播舆论，意见领袖的观点往往会影响大批粉丝和舆论走向。

关键元素影响力分析在多个领域得到广泛的应用，比如推荐系统、社交网络信息传播、链路预测、公众健康、突发性事件监测和广告投放等。因此对社交网络话题影响力分析的研究更具有重要的理论价值和实际意义。

目前比较流行的影响力分析算法有PageRank、HITS、SIR模型等。 Giannoulakis S等人提出了一种基于HITS算法挖掘图像对应的关键标签的得分值(Giannoulakis S,Tsapatsoulis N.Filtering Instagram Hashtags through crowdtagging and the HITSalgorithm[J].IEEE Transactions on Computational Social Systems,2019.)。受到该篇论文的启发，本发明提出了一种基于三元关联图模型和知识表示的影响力分析算法，不仅可以简单有效地分析社交话题的关键元素影响力，而且由于通过建立参与元素的关联性，更真实的揭示一些“小”元素在热点话题传播过程中起到的“大”作用。、

目前的话题网络下关键元素影响力分析主要涉及四个方面：基于网络拓扑结构进行影响力度量和基于用户行为的影响力发现，基于用户交互信息的影响力发现以及通过时间因素、转移熵等其他因素进行影响力发现。虽然众多学者对话题网络下关键元素影响力分析模型进行了大量的研究，并取得了一定的成果，但仍存在一些挑战：

1.基于社交话题中多类型元素的关联性。当前关于社交话题影响力分析，不管在独立元素层面，还是在多类型元素层面，大多数都缺少基于元素关联性的隐性影响力计算。如话题网络下不能关联参与用户元素和传播路径元素等多类型的元素，使得影响力分析比较片面化，不能将它们紧密联系起来。

2.传统影响力计算中转移概率的简单性。当前的影响力计算主要是基于统计方式计算转移概率矩阵，忽略了各不同元素的潜在关联关系，导致部分隐性信息的损失，最终没有真正挖掘到话题中起关键作用的元素。

3.基于关联性的影响力量化复杂性。很多方法在影响力的计算方面较为复杂，时间复杂度和空间复杂度都较高。因此，既然引入了话题关键元素的关联性，如何在进行关联性的计算并且能够确保影响力计算简单高效也变得尤为重要。

发明内容

针对以上挑战，本发明提出一种基于三元关联图和知识表示的影响力发现方法，如图1，包括以下步骤：

通过网络爬虫获取数据，并进行数据清洗；

根据获取的数据源按照用户的转发行为提取热点话题下的消息传播路径和话题下的总消息以及话题下的总用户信息，构建消息-路径-用户三元关联图模型；

根据交叉迭代策略，在构建的消息-路径-用户三元关联图模型上进行正反迭代打分机制来挖掘出热点话题传播的关键元素节点；

得到的关键消息、关键路径和关键用户的影响力得分序列结果和相关信息存储到服务器，完成影响力发现。

进一步的，通过网络爬虫获取的数据包括热点话题数据和参与用户行为属性数据，热点话题数据包括该热点话题下的参与用户ID、参与用户转发及数目、参与用户评论内容及数目；参与用户行为属性数据包括参与用户兴趣爱好、参与用户擅长领域、参与用户标签信息、参与用户好友关系及数目、参与用户转发数、参与用户评论。

进一步的，构建消息-路径-用户三元关联图模型包括：

S21、按照用户的转发行为，将多消息传播网络分成多个单消息的扩散传播图，得到消息-路径二元关联图；

S22、根据每条传播路径的节点信息和话题下的总用户信息构建路径-用户二元关联图模型；

S23、在消息-路径二元关联图模型、路径-用户二元关联图模型基础之上，构建消息-路径-用户三元关联图模型。

进一步的，利用正反迭代打分机制来挖掘出热点话题传播的关键元素节点的过程包括：

计算三元关联图模型中各不同元素节点影响力值，包括对热点话题传播过程中消息的重要程度、传播路径的重要程度以及参与用户的驱动力进行计算；

进行正反迭代投票机制，得到最终得分向量X’、Y’和Z’，得分越高表示该节点越重要。

进一步的，进行正反迭代投票包括：

在第一次正向投票时令X＝X₀、Y＝Y₀、Z＝Z₀；

在正向打分中，根据消息集合的打分向量X，以第一转移概率矩阵转化为路径的打分向量，得到新的路径打分向量Y’；根据新的路径的打分向量Y’，以第二转移概率矩阵转化为用户的打分向量，得到新的用户打分向量Z’，具体表示为：

同理，反向打分过程表示为：

其中，α为阻尼系数，X、Y、Z表示迭代前的得分值；

表示消息i转移到路径j的概率转移矩阵，

表示路径j转移到消息i的概率转移矩阵，

表示路径j转移到用户k的概率转移矩阵，

表示用户k转移到路径 j的概率转移矩阵。

本发明的有益效果：

本发明可以帮助使用者在异构、多属性的社交网络中发现高影响力用户，是快速变化的网络时代信息决策的一个关键点。由此可以帮助到社交网络中的多个领域，如推荐系统、社交网络信息传播分析、链路预测、病毒式营销、公共健康、突发事件检测和广告投放等等。

附图说明

图1为基于三元关联图和知识表示学习的影响力发现模型图；

图2为基于三元关联图和知识表示学习的影响力发现示例；

图3为三元关联图模型示例；

图4为知识表示学习transD算法思想示例。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于三元关联图和知识表示的影响力发现方法，包括以下步骤：

通过网络爬虫获取数据，并进行数据清洗；

实施例1

如图1所示为本发明整体框架图，表明本发明的输入是包含用户属性信息和用户行为关系信息以及热点话题信息数据的数据集，经过推荐模型后的输出是关键元素影响力序列排名集合。图2是本发明的一个关心信息发现实例，社交话题网络数据包括消息、用户以及用过之间交互关系构成的社交网络，通过本发明方法，即关键元素影响力发现模型可以从中发现的关键信息包括关键消息、关键用户以及关键路径。

本实施例对发明步骤进行说明，在本实施例中，主要包括：

第一步：获取数据源。

本实施例获取的数据为新浪微博数据，通过各社交网站开放API平台获取数据或者直接下载现有数据源都可以获取原始数据，获取的数据内容主要包括热点话题数据和参与用户行为属性数据两部分，所述热点话题数据包括该热点话题下的参与用户ID、参与用户转发及数目、参与用户评论内容及数目；参与用户行为属性数据包括参与用户兴趣爱好、参与用户擅长领域、参与用户标签信息、参与用户好友关系及数目、参与用户转发数、参与用户评论等。

针对采集获取的源数据，通过简单的数据清洗可以使大部分数据利于分析，例如，删除重复数据、删除关键信息缺失的数据，清理无效节点等。

第二步：根据获取的数据源按照用户的转发行为提取热点话题下的消息传播路径和话题下的总消息以及话题下的总用户信息，构建消息-路径-用户三元关联图模型。

本实施例此步骤主要包括构建消息-路径二元关联图模型、路径-用户二元关联图模型从而去综合构建消息-路径-用户三元关联图模型，具体包括：

S21、据获取的数据源提取热点话题下消息传播路径和话题下的总消息，按照用户的转发行为，将多消息传播网络分成多个单消息的扩散传播图，得到消息-路径二元关联图；

S22、根据每条传播路径的节点信息和话题下的总用户信息构建路径-用户二元关联图模型，同一个用户可能会同时参与到多条传播路径中，通常很难直观地去发现所有的用户和路径的关系，为此，需先对话题传播路径进行提取，并对路径与用户之间的关联关系进行分析后才能构建路径-用户二元关联图模型；

S23、在消息-路径二元关联图模型、路径-用户二元关联图模型基础之上，构建消息-路径-用户三元关联图模型，为了方便对消息、传播路径、参与用户这三个关键元素之间的关联关系进行识别与分析，本发明在消息-路径二元关联图模型、路径-用户二元关联图模型的基础上，借鉴图论中的三元关联图模型，将话题传播网络中所有关键元素节点划分为三个互不相交的子集M、P与U，相关联的两个元素节点属于不同子集，两组元素节点之间的连边关系看作是一组概率转移矩阵，如图3所示即为热点话题传播网络三元关联图模型，该三元关联图模型可用G_T＝{M∪P∪U,A∪B}表示；

其中，M为话题传播网络中消息的集合，P为话题传播网络中传播路径的集合，U为话题传播网络中参与用户的集合，A为消息与传播路径之间的权重矩阵，B为传播路径与参与用户之间的权重矩阵。如果消息i与传播路径j之间有关联关系，则概率转移矩阵A中的转移概率a_ij＞0或a_ji＞0，否则，a_ij＝0或a_ji＝0。如果传播路径j与参与用户k之间有关联关系，则概率转移矩阵B中的转移概率 b_jk＞0或b_kj＞0，否则，b_jk＝0或b_kj＝0。概率转移矩阵A和B表示如下：

A_i，j＝[a_ij]_i×j 式(1)

A_j，i＝[a_ji]_j×i 式(2)

B_j，k＝[b_jk]_j×k 式(3)

B_k，j＝[b_kj]_k×j 式(4)

S24、计算转移概率矩阵，话题网络中，消息、路径、用户不同类型的元素都有自己的特征，他们互相关联，连接两个不同的路径之间存在不同的语义，像路径到路径的关系包括：路径到路径间的转发关系、路径到用户到路径的存在关系、路径到消息到路径的同一消息下的关联关系等等。这些关系包含着丰富的信息，可以帮助重构网络并且可以进行进一步的信息推导。借鉴知识表示学习transD算法将实体空间的元素映射到同一空间下，进行统一的向量表示，如图4所示。得到各不同类型的向量表示m_i，p_j，u_k。

S25、接下来计算得到消息向量m_i和路径向量p_i之间的相似度矩阵：

消息-路径G_mp网络中，在消息传播中，路径的数量增长随着时间大致呈指数关系，可以看出关键路径一般出现在消息传播的较早时间，随着时间的增加，消息的热度也逐渐减弱。我们再利用时间对其进行加权处理：

w(m_i，p_j)＝e^{-3(temp_time-start_time)}·sim(m_i，p_j) 式(6)

其中，temp_time表示当前路径发生的时间，start_time表示该消息下第一次出现路径的时间，a是加权系数。

因此消息-路径G_mp网络的转移概率矩阵可以表示为：

其中，N(m_i)表示与m_i有转移关系的路径类型节点的集合，

表示消息到路径的转移概率矩阵，

是一条消息到路径的边，E_mp是所有消息到路径的边。

表示消息m_i与路径p_j之间存在链接关系。

同理，计算

路径到消息的转移概率矩阵。

考虑路径与用户的相似度计算如下所示：

同时在路径-用户G_pu网络中，用户在路径中的出现的位置构成了一部分路径到用户的影响力指标。往往一条路径的转发量受到当前最后一个用户的影响力最大。因为当前最后一个用户往往可以决定消息扩散的广度。

因此，用户u_k在路径p_j中的权重可由其位置表示为：

其中t表示用户u_k在路径p_j中的倒数第几个位置，Num(p_j)表示路径p_j中所有用户的总数，

表示用户参与的所有路径的用户总数。

因此路径-用户G_pu网络的转移概率矩阵可以表示为：

其中，N(p_j)表示与p_j有转移关系的用户类型节点的集合，

表示路径到用户的的转移概率矩阵，

是一条消息到路径的边，E_pu是所有消息到路径的边；

表示路径p_j与用户u_k之间存在链接关系。

同理，计算

的转移概率矩阵。

第三步：使用迭代打分机制计算各元素影响力得分序列。

热点话题通过消息下路径的传播进而去影响到话题下的用户，反过来，用户也会通过传播路径参与到消息下进行热点话题的传播，可见热点话题三元关联图中各个元素节点之间有着很强的相互关联关系，任何节点的状态和值都会影响到其他的节点的状态和值。因此，本发明根据交叉迭代策略，在构建的消息- 路径-用户三元关联图模型上进行正反迭代打分机制来挖掘出热点话题传播的关键元素节点，主要包括以下步骤：

S31、三元关联图模型中各不同元素节点影响力值的初始化计算，其中包括对消息影响度、传播路径的重要程度以及参与用户的驱动力进行计算，具体包括：

S311、计算消息节点的影响度：

其中β_i表示消息i下参与的总人数(这里只针对于转发行为)，I为话题传播网络中的消息总数。

S312、计算传播路径的重要程度，在话题的传播过程中，传播路径的重要程度一般受到该条传播路径的转发量的影响，传播路径的重要程度表示为：

其中，Ret_num_j表示路径j被转发的总数。J为话题传播网络中的路径总数。

S313、计算参与用户的驱动力。将用户影响力分成两个部分，分别为用户在话题传播下用户的驱动力和用户在用户关系网络下的用户驱动力。

在这里使用熵权去客观赋予权重，其思路是根据指标的混乱度来确定客观权重，熵最早由香农引入信息论，熵值反映了信息混乱度的程度；熵值越大，系统的混乱度越高，信息的效用值越小；反之,其值越小，系统的混乱度越低，信息的效用值越大。

用户在话题传播下的影响力计算公式为：

其中，

Div(up_k)表示用户和路径的差异值，r_k是用户参加的某条路径下的转发率，P 表示用户参加的路径的总量；

是用户u_k所在的路径中被转发数量，J 是路径p的总数量。

用户在用户关系网络下的影响力计算为：

其中，

Div(um_k)表示用户和消息的差异值，s_k表示用户参与的消息的用户占总消息下用户的数量，M表示用户参与的消息的总数；part(u_k)表示用户u_k在此消息中所有的参与消息的用户数，I是用户u_k参与消息的集合，

为用户u_k参与的所有的消息下参与用户的总数。

各个用户在当前社交网络中的总话题驱动影响力计算为：

Div(u_k)＝Div(up_k)+Div(um_k) 式(17)

因此，用户的话题驱动影响力计算如下所示：

S32、在三元关联图上进行正反迭代投票，识别出关键元素的最终得分向量：根据权重矩阵A、权重矩阵B、消息、传播路径与参与用户所对应的初始得分向量X₀、Y₀和Z₀，采用正反迭代打分机制进行迭代，为了确保收敛，设置阈值ε，当||X’-X||≤ε时，就停止迭代，并返回迭代结果，并且在每次迭代后，都需要对 X、Y、Z的打分值进行归一化处理。

为了通过正反迭代投票机制来识别出热点话题传播过程中关键元素的最终得分向量，本发明用X、Y、Z分别表示迭代过程中消息、传播路径和参与用户的得分向量，再在消息-路径-用户三元关联图基础上，根据权重矩阵A和B，各类型元素的初始得分向量X₀、Y₀、Z₀，进行正反迭代投票机制，得到最终得分向量 X’、Y’和Z’。

正反迭代打分机制的思想是如果一个节点为枢纽节点，由于它很容易被其他节点访问，那么它就有很高的权威值，如果一个节点权威值很高，那么它就很可能是重要节点。它分为正向迭代投票和反向迭代投票两个步骤。具体流程如下所示：

在正向打分中，根据消息集合的打分向量X，以转移概率矩阵A转化为路径的打分向量，得到新的路径打分向量Y’；

接下来根据新的路径的打分向量Y’，以转移概率矩阵B转化为用户的打分向量，得到新的用户打分向量Z’。计算公式如下所示：

同理，可以进行反向打分，原理和正向迭代打分相同，对X和Y的得分进行更新，计算公式如下所示：

其中，α为阻尼系数，X、Y、Z表示迭代前的得分值。X、Y、Z均表示上一次迭代后的得分向量(在第一次正向投票时令X＝X₀、Y＝Y₀、Z＝Z₀)，；

表示消息i转移到路径j的概率转移矩阵，

表示路径j转移到消息i的概率转移矩阵，

表示路径j转移到用户k的概率转移矩阵，

表示用户k转移到路径j的概率转移矩阵。

第四步：将热点话题传播的过程中分析得到的关键消息、关键路径和关键用户的影响力得分序列结果和相关信息存储到话题管理服务器，通过话题管理服务器将这些信息传送给网络话题监管中心或网络话题监管部门，掌握所需 top-N类型不同类型所需元素序列信息从而达到进行舆情分析和控制的目的。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于三元关联图和知识表示的影响力发现方法，其特征在于，包括以下步骤：

通过网络爬虫获取数据，并进行数据清洗；

2.根据权利要求1所述的一种基于三元关联图和知识表示的影响力发现方法，其特征在于，通过网络爬虫获取的数据包括热点话题数据和参与用户行为属性数据，热点话题数据包括该热点话题下的参与用户ID、参与用户转发及数目、参与用户评论内容及数目；参与用户行为属性数据包括参与用户兴趣爱好、参与用户擅长领域、参与用户标签信息、参与用户好友关系及数目、参与用户转发数、参与用户评论。

3.根据权利要求1所述的一种基于三元关联图和知识表示的影响力发现方法，其特征在于，构建消息-路径-用户三元关联图模型包括：

4.根据权利要求1所述的一种基于三元关联图和知识表示的影响力发现方法，其特征在于，利用正反迭代打分机制来挖掘出热点话题传播的关键元素节点的过程包括：

进行正反迭代投票机制，得到最终得分向量X'、Y'和Z'，得分越高表示该节点越重要。

5.根据权利要求4所述的一种基于三元关联图和知识表示的影响力发现方法，其特征在于，热点话题传播过程中消息的重要程度表示为：

其中，β_i表示消息i下参与的总人数，I为话题传播网络中的消息总数，

为所有消息下传播用户的总数。

6.根据权利要求4所述的一种基于三元关联图和知识表示的影响力发现方法，其特征在于，传播路径的重要程度表示为：

其中，Ret_num_j表示路径j被转发的总数量，J为话题传播网络中的路径总数，

表示话题传播过程中的所有传播路径的路径转发总数目。

7.根据权利要求4所述的一种基于三元关联图和知识表示的影响力发现方法，其特征在于，参与用户的驱动力表示为：

其中，

表示话题传播过程中的所有用户的驱动力总数，且Div(u_k)＝Div(up_k)+Div(um_k)，参与用户的驱动力Div(u_k)分为用户在话题传播下的影响力Div(up_k)，表示为

以及用户在用户关系网络下的影响力Div(um_k)，表示为

其中，K为话题传播网络中的用户总数；r_k是用户参加的某条路径下的转发率，P表示用户参加的该路径的总量，ret_num(p_uk)是用户u_k所在的路径中被转发数量，J是路径的总数量；s_k表示用户参与的消息的用户占总消息下用户的数量，M表示用户参与的消息的总数；part(u_k)表示用户u_k在此消息中所有的参与消息的用户数，I是用户u_k参与消息的集合，

为该消息下所有的消息下参与用户的总数。

8.根据权利要求4所述的一种基于三元关联图和知识表示的影响力发现方法，其特征在于，进行正反迭代投票包括：

在第一次正向投票时令X＝X₀、Y＝Y₀、Z＝Z₀；

在正向打分中，根据消息集合的打分向量X，以第一转移概率矩阵转化为路径的打分向量，得到新的路径打分向量Y'；根据新的路径的打分向量Y'，以第二转移概率矩阵转化为用户的打分向量，得到新的用户打分向量Z'，具体表示为：

同理，反向打分过程表示为：

其中，α为阻尼系数，X、Y、Z表示迭代前的得分值；

表示消息i转移到路径j的概率转移矩阵，

表示路径j转移到消息i的概率转移矩阵，

表示路径j转移到用户k的概率转移矩阵，

表示用户k转移到路径j的概率转移矩阵。

9.根据权利要求8所述的一种基于三元关联图和知识表示的影响力发现方法，其特征在于，消息i转移到路径j的概率转移矩阵

的转置矩阵为路径j转移到消息i的概率转移矩阵

消息i转移到路径j的概率转移矩阵表示为：

w(m_i,p_j)＝e^{-a(temp_time-start_time)}·sim(m_i,p_j)；

路径j转移到用户k的概率转移矩阵

的转置矩阵为用户k到路径j的概率转移矩阵

路径j转移到用户k的概率转移矩阵

表示为：

其中，temp_time表示当前路径发生的时间，start_time表示该消息下第一次出现路径的时间，a是加权系数，sim(m_i,p_j)为消息向量m_i和路径向量p_j之间的相似度；N(m_i)表示与m_i有转移关系的路径类型节点的集合。temp_time表示当前路径发生的时间，start_time表示该消息下第一次出现路径的时间，a是加权系数，

是一条消息到路径的边，E_mp是消息到路径的边的集合；

表示如果消息m_i和路径p_j之间有链接关系；c(p_j,u_k)表示用户u_k在路径p_j中的权重；t表示用户u_k在路径p_j中的倒数第几个位置；Num(p_j)表示路径p_j中所有用户的总数。N(p_j)表示与p_j有转移关系的用户类型节点的集合；Sim(p_j,u_k)表示路径向量p_j和用户向量u_k之间的相似度，

是一条路径到用户的边，E_pu是路径到用户的边的集合；

表示用户u_k和路径p_j之间有链接关系。

10.根据权利要求9所述的一种基于三元关联图和知识表示的影响力发现方法，其特征在于，消息向量m_i和路径向量p_j之间的相似度为消息向量m_i和路径向量p_j之间的余弦夹角；路径向量p_j和用户向量u_k之间的相似度为路径向量p_j和用户向量u_k之间的余弦夹角。