CN112487304A

CN112487304A - 基于观点向量化的影响力传播模型的建立方法

Info

Publication number: CN112487304A
Application number: CN202011350826.2A
Authority: CN
Inventors: 梁颖; 王然; 徐向华; 李平
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-12
Anticipated expiration: 2040-11-26
Also published as: CN112487304B

Abstract

本发明公开了基于观点向量化的影响力传播模型的建立方法。现有方法存在着局限性，模型无法有效的计算用户之间的影响力，通常只能在单一的社交网络或者群体环境中有着一定的效果。本发明方法首先爬取社交网络中用户原创内容的相关信息，并建立基于观点影响力的传播网络；利用随机游走，搜寻影响力传播网络中的与用户观点一致的局部影响用户集合；然后根据观点相似性，搜寻影响力传播网络中与用户观点相似的全局影响用户集合；搜寻影响力传播网络中与用户观点相反的用户集合；最后建立基于观点的影响力传播模型。本发明方法考虑了与用户观点相反的影响用户集合，能够建立更为准确反映基于观点下的影响力传播模型。

Description

基于观点向量化的影响力传播模型的建立方法

技术领域

本发明属于互联网技术领域，尤其是社交网络分析技术领域，具体涉及一种基于观点向量化的影响力传播模型的建立方法。

背景技术

社交网络影响力是个人在互联网平台中，通过发表或转发观点内容，从而影响到其他用户行为的一种体现，具体表现在点赞、转发等。近年来，随着计算机技术的快速发展和普及，越来越多的用户通过在推特(Twitter)、微博等社交网络平台上发表观点、传播内容，并影响到其他用户。围绕着用户之间的社交影响力这一方面，研究人员展开了大量的工作，并实现了多种应用，包括市场营销、广告投放和舆情控制等诸多领域。

信息、观点或情感的接受、融合及扩散是社交网络中的基本过程，可以通过社交行为，如转发等，进行广泛的传播，从而影响到更大规模的用户。在许多应用，诸如病毒式营销中，为了使影响力达到最大化，往往需要发现用户之间的影响力强度，建立相应的影响力传播模型。社交网络中的影响力传播取决于多种因素，包括用户之间的属性差异，用户之间的兴趣相似以及时间因素等。以往的研究方法中，为了建立影响力传播模型，研究人员通常将模型定义为预测用户之间的边的权重，该权重即表示用户之间的影响力。然而，这种方法存在许多局限性。首先，边的定义存在着局限性，只有当用户之间存在关注关系，或者说用户之间有着相应的交互，才能确定一条边的存在，因此，这种方法无法预测全体用户之间的影响力；其次，虽然在社交网络存在大量的边，但相较于全体用户数量来说，边的数据依旧是稀疏的，模型无法有效的计算用户之间的影响力；最后，许多通过边来计算影响力的方法，是通过挖掘社交网络中的强特征来实现的，这种方法没有普适性，通常只能在单一的社交网络或者群体环境中有着一定的效果。

发明内容

本发明的目的是针对现有方法中存在的问题，提供一种基于观点向量化的影响力传播模型的建立方法，利用随机游走，搜寻用户影响到的局部近邻用户集合，并考虑社交网络的全局性，搜寻与用户观点相似的全局性用户集合。另外，考虑到观点有着正反的相对性，本发明搜寻与用户观点相对的用户集合。最终，在词向量和节点向量化的思想下，利用搜寻到的用户集合作为观点影响力的上下文，并建立观点影响力传播计算模型。

本发明方法包括如下步骤：

步骤A.爬取社交网络中用户原创内容的相关信息，并建立基于观点影响力的传播网络；

步骤B.利用随机游走，搜寻影响力传播网络中的与用户观点一致的局部影响用户集合；

步骤C.根据观点相似性，搜寻影响力传播网络中与用户观点相似的全局影响用户集合；

步骤D.搜寻影响力传播网络中与用户观点相反的用户集合；

步骤E.建立基于观点的影响力传播模型。

进一步，步骤A首先利用scrapy模块创建爬虫，对社交网络进行数据爬取，包括用户的原创、转发、关注关系以及相应的操作时间；然后根据用户的转发关系，建立观点影响力传播网络；定义一个观点的影响力传播网络，该传播网络的所有用户对同一内容均进行了转发，并发表了自己的观点，这些观点有些是相同的，有些是相反的。根据关注关系网络、观点信息和转发时间，建立观点影响力的传播网络；具体如下：

A1.根据用户关系，建立用户之间的网络结构图G＝(V,E)，其中V属于全体用户集合，为节点集，E表示用户之间的关系，为有向边集；

A2.对原创内容d，利用主题提取工具提取主题内容，并用情感分析工具分析情感倾向，将主题和情感倾向结合，得到原创的观点；

A3.对所有转发该原创内容且带有评论内容的转发，利用情感分析工具分析评论内容的情感倾向，并结合原创内容的主题，得到评论内容的观点；

A4.在网络结构G中，选择转发d且观点一致的用户集合V_d，V_d∈V，并按照转发时间，选择影响关系集合E_d，E_d∈E；具体来说，假设用户v关注了用户u，以有向边(u,v)∈E表示，u和v都转发了d且观点一致，u的转发时间比v更早，那么将关系(u,v)放入影响关系集合E_d中，(u,v)∈E_d，否则

最终得到原创内容d的观点影响力传播网络G_d＝(V_d,E_d)。

进一步，步骤B是在观点影响力传播网络G_d＝(V_d,E_d)中，利用随机游走来查找与用户观点一致的局部近邻用户集合；定义搜索的参数：扩散概率p和回退概率q；假设当前用户位置处于节点u，扩散概率p是指下一步传播到节点u的邻接点的概率，回退概率q是指在传播到邻接点后回退到节点u的概率，综合深度遍历和广度遍历的优点；具体如下：

B1.定义需要搜集到的用户u的影响近邻集合为NL_d(u)，初始化为空，并设置集合数量最大值为nl，令当前位置处于节点u，设置回退概率q，取q＝0.3～0.6；

B2.设置扩散概率p为当前位置节点的邻接点数量之和的倒数，按照p随机选择一个当前位置节点的近邻节点v，且v没有被标记访问，将v添加到集合NL_d(u)中，标记v已被访问，并将当前位置移动到v上；

B3.根据回退概率q，如果达到了回退条件，则将当前位置回退，否则，进入步骤B4；

B4.如果集合NL_d(u)达到nl，则返回NL_d(u)并结束步骤B，否则，进入步骤B2。

进一步，步骤C是根据观点相似性，在观点影响力传播网络G_d＝(V_d,E_d)中搜寻全局性的影响用户集。定义用户u的影响全局集合为NG_d(u)，初始化为空，并设置集合数量最大值为ng；具体如下：

C1.从V_d中随机选择一个节点v，且v不在集合NL_d(u)和NG_d(u)中；

C2.将节点v添加到集合NG_d(u)中；

C3.如果集合NG_d(u)元素数量达到ng，则返回NG_d(u)并结束步骤C，否则，进入步骤C1。

进一步，步骤D是考虑观点具有正反性的特点，即用户即使转发了原创内容d，但如果是评论中带有相反的观点意见，那么该转发观点对用户的影响力趋近于无穷小。定义与用户u在原创内容d上观点相反的用户集合为NR_d(u)，初始化为空，并设置集合元素最大数量为nr；具体如下：

D1.提取原创内容d中的主题和情感倾向，组合成d的观点倾向；

D2.如果用户u是原创内容d的原创作者，则用户u的观点以d的观点倾向表示，并转到步骤D5，否则，进入步骤D3；

D3.如果用户u转发了原创内容d，且没有发表评论内容，则用户u的观点以d的观点倾向表示，并转到D5，否则，进入步骤D4；

D4.用户u转发了原创内容d，且发表评论内容，利用情感分析工具分析评论内容的情感倾向，并与提取的d中的主题组合，表示用户u的观点倾向；

D5.定义所有转发d的用户集合U_d；

D6.遍历集合U_d，对所遍历的用户u′提取情感倾向，并与d的主题内容结合，得到用户u′的观点倾向；

D7.如果u′的观点倾向和u的观点倾向不一致，则将u′添加至集合NR_d(u)中，否则进入步骤D8；

D8.如果集合NR_d(u)的数量达到nr,则结束遍历，否则，返回D6。

进一步，步骤E是根据步骤B、步骤C、步骤D所得到的三个用户集合，并根据节点向量化的思想所建立的。定义从所有原创内容中提取的观点集合为O＝{o₁,o₂,o₃,…,o_N}，o_n表示第n个观点，n＝1,2,…,N，N为观点数量；每个观点o都有一定数量的列表集合D(o)，而每个用户都有正向或负向的观点。对于原创内容d，根据步骤B、C、D可以从社交网络中搜寻到用户u的三个影响用户集合NL_d(u)、NG_d(u)和NR_d(u)，其中用户u对集合NL_d(u)和NG_d(u)的影响是正相关，对NR_d(u)用户集合的影响是负相关。定义概率Pr(NL_d(u)|u,o)，该概率越大，表示用户u在观点o下越容易影响到用户集合NL_d(u)，这是因为NL_d(u)中的用户和用户u的观点是一致的，用户u在该观点上更容易影响到NL_d(u)集合中的用户。其计算方法为：

其中，Pr(v|u,o)表示用户u在观点o下对用户v的影响力，概率越大，影响力越大，NG_d(u)同理。与NL_d(u)不同的是，NG_d(u)反映的是网络全局性的特征，而NL_d(u)只反映了局部性特点。

其次，NR_d(u)表示与用户u相反观点的用户集合，用户u在该观点上对这些用户的影响力应该微乎其微，因此，Pr(NR_d(u)|u,o)是趋近于0。

定义用户u在每个观点o下包含两个向量：S^o _u和T^o _u，分别表示影响他人能力的表征和受到他人影响的表征。因此，用户u在观点o下对用户v的影响力Pr(v|u,o)用两个向量的点积表示，具体定义为：Pr(v|u,o)＝exp(S^o _uT^o _v)。

综上所述，该模型的目标是使概率Pr(NL_d(u)∪NG_d(u)|u,o)最大化，同时使Pr(NR_d(u)|u,o)最小化，趋近于0。因此，定义目标函数为：

模型的训练目标即是使Obj最大化，并拟合得到每个用户u在每个观点o下包含两个向量：S^o _u和T^o _u。以此可以得到任意两个用户之间在不同观点下的相互影响力，并据此得到观点影响力在社交网络结构图中的传播模型。

模型训练方式是以随机梯度下降方法进行拟合，本发明对此不做叙述。

本发明基于观点向量化的影响力传播模型，采用了节点向量化的思想，运用以上的技术方案，与现有技术相比，具有以下优势：

在基于观点的影响力传播模型中，融入了情感倾向，对现实的社交网络特征进行了更深层次的模拟，采用节点向量化的思想，能够使模型不局限于特定的社交网络中，能够将模型运用于不同的环境中。另外，在模型中，综合考虑了局部和全局性的特征，使得模型更加的全面，此外，根据观点具有正反性的特点，本发明考虑了与用户观点相反的影响用户集合，能够建立更为准确反映基于观点下的影响力传播模型。

附图说明

图1为本发明方法的流程图；

图2为本发明方法中步骤B的流程图；

图3为本发明方法中步骤D的流程图。

具体实施方式

以下结合附图和实施实例对本发明加以详细说明。

如图1所示，基于观点向量化的影响力传播模型的建立方法，该方法包括如下步骤：

步骤A：爬取社交网络中用户博文的相关信息，并建立基于观点影响力的传播网络；

如针对微博社交网络平台，利用scrapy模块创建爬虫，对微博进行数据爬取，包括用户的原创博文、转发博文、关注关系以及相应的操作时间。之后，根据用户的转发关系，建立相应的观点影响力传播网络。具体来说包括以下步骤：

A1：根据用户关系，建立用户之间的网络结构图G＝(V,E)，其中V属于全体用户集合，为节点集，E表示用户之间的关系，为有向边集；

A2：对原创博文d，利用主题提取工具LDA提取主题内容t，并用情感分析工具SnowNLP分析情感倾向s，将主题和情感倾向结合，得到原创博文的观点o＝(s,t)；

A3：对所有转发该原创博文且带有评论内容的转发博文，利用情感分析工具分析评论内容的情感倾向，并结合原创博文的主题，得到评论内容的观点；

A4：在网络结构G中，选择转发过该篇博文d，且观点一致的用户集合V_d，V_d∈V，并按照转发时间，选择影响关系集合E_d，E_d∈E，具体来说，假设用户v关注了用户u，以有向边(u,v)∈E表示，如果u和v都转发了博文d并观点一致，且u的转发时间比v更早，那么将关系(u,v)放入影响关系集合E_d中，(u,v)∈E_d，否则

最终，得到该博文d的观点影响力传播网络G_d＝(V_d,E_d)。

步骤B：利用随机游走，搜寻影响力传播网络中的与用户观点一致的局部影响用户集合；

步骤B中是在步骤A中所得到的观点影响力传播网络G_d＝(V_d,E_d)，利用随机游走来查找。定义搜索的相关参数：扩散概率p和回退概率q。假设当前位置处于(用户)节点u，扩散概率是指下一步以概率p传播到节点u的邻接点，回退概率是指在传播到邻接点后，以概率q回退到节点u，综合深度遍历和广度遍历的优点。图2是步骤B的实现流程。如图2所示，步骤B包括以下步骤:

B1：定义回退概率q设置为0.5，定义需要搜集到的用户u的影响局部集合为NL_d(u)，初始化为空，并设置集合数量最大值为nl，令当前位置处于节点u；

B2：将概率p设置为当前位置节点的邻接点数量之和的倒数，按照概率p随机选择一个当前位置节点的近邻节点v，且v没有被标记访问，将v添加到集合NL_d(u)中，标记v已被访问，并将当前位置移动到v上；

B3：根据回退概率q，如果达到了回退条件，则将当前位置回退，否则，进入步骤B4；

B4：如果集合NL_d(u)大小已经等于nl，则返回NL_d(u)并结束步骤B，否则，进入步骤B2。

步骤C：根据观点相似性，搜寻影响力传播网络中与用户观点相似的全局影响用户集合；

定义用户u的影响全局集合为NG_d(u)，初始化为空，并设置集合数量最大值为ng。其包括以下步骤：

C1：从V_d中随机选择一个节点v，且v不在集合NL_d(u)和NG_d(u)中；

C2：将节点v添加到集合NG_d(u)中；

C3：如果集合NG_d(u)元素数量已经等于ng，则返回NG_d(u)并结束步骤C，否则，进入步骤C1。

步骤D：搜寻影响力传播网络中与用户观点相反的用户集合；

定义与用户u在博文d上观点相反的用户集合为NR_d(u)，初始化为空，并设置集合元素最大数量为nr。图3是步骤D的实现流程。如图3所示，步骤D包括以下步骤：

D1：提取博文d中的主题t和情感倾向s，组合成博文d的观点倾向o＝(t,s)；

D2：如果用户u是博文d的原创作者，则用户u的观点以博文d的观点倾向表示，并转到步骤D5，否则，进入步骤D3；

D3：如果用户u转发了博文d，且没有发表评论内容，则用户u的观点以博文d的观点倾向表示，并转到D5，否则，进入步骤D4；

D4：用户u转发了博文d，且发表评论内容，利用情感分析工具分析评论内容的情感倾向，并和博文d提取的主题组合，表示用户u的观点倾向；

D5：找出所有转发了博文d的用户集合，定义为U_d；

D6：遍历集合U_d，对所遍历的用户u′，提取该用户的情感倾向，并和博文d的主题内容结合，得到用户u′的观点倾向；

D7：如果u′的观点倾向和u的观点倾向不一致，则将u′添加至集合NR_d(u)中，否则进入步骤D8；

D8：如果集合NR_d(u)的数量等于nr,则结束遍历，否则，返回D6。

步骤E：建立基于观点的影响力传播模型。

建立基于观点的影响力传播模型，是根据步骤B、步骤C、步骤D所得到的三个用户集合，并根据节点向量化的思想所建立的。定义从所有博文中提取的观点集合为O＝{o₁,o₂,o₃,…,o_N}，N为观点数量，o_n表示第n个观点，n＝1,2,…,N；每个观点o都有一定数量的博文列表集合D(o)，而每个用户在这些博文上都有着正向或负向的观点。对于博文d∈D(o)，根据步骤B、C、D可以从社交网络中搜寻到用户u的三个影响用户集合NL_d(u)、NG_d(u)和NR_d(u)，其中用户u对集合NL_d(u)和NG_d(u)的影响应该是正相关的，对NR_d(u)用户集合的影响是负相关的。定义概率Pr(NL_d(u)|u,o)，该概率越大，表示，用户u在观点o下越容易影响到用户集合NL_d(u)，这是因为NL_d(u)中的用户和用户u的观点是一致的，用户u在该观点上更容易影响到NL_d(u)集合中的用户。其计算方法定义为：

其次，NR_d(u)表示与用户u相反观点的用户集合，用户u在该观点上对这些用户的影响力应该微乎其微，因此，Pr(NR_d(u)|u,o)应该是趋近于0的。

定义用户u在每个观点o下包含两个向量：S^o _u和T^o _u，分别表示影响他人能力的表征和受到他人影响的表征。因此，用户u在观点o下对用户v的影响力Pr(v|u,o)用两个向量的点积表示，具体定义为：

Pr(v|u,o)＝exp(S^o _uT^o _v)

模型训练方式是以随机梯度下降方法进行拟合，对此不做叙述。

该方法在基于节点向量化的思想上，提出一种新的社交网络中的影响力传播模型建立方法。社交网络中用户有着不同的兴趣主题，他们在这些主题上对其他用户也有着不同的影响力，如“政治”类博主在“娱乐”相关主题上的影响力显然低于“政治”相关的。作为主题和情感倾向的结合，用户在观点上也应有着不同的影响力。与主题不同的是，观点影响力传播模型有着更为复杂的场景。在基于主题的影响力传播模型中，用户B转发了用户A一条相关博文，便认为A对B在该主题上有着一定的影响力。然而，在基于观点的影响力传播模型中，即使用户B转发了用户A的一条博文，但是用户B不赞成A的观点，只是为了反驳A，那么用户A在该观点上的影响力对B来说，应该是趋近于无。由此可见，观点影响力的传播模型比一般的影响力传播模型，更为复杂。

该方法基于观点向量化的影响力传播模型，采用了节点向量化的思想，对社交网络中的观点影响力的传播模型问题，提出了一个更有效的方法。不同于传统的影响力传播模型，本发明针对的是用户在观点上的影响力，问题模型更为的复杂，结合主题信息和情感倾向，能够挖掘出社交网络中更为详细的影响力相关细节。模型采用了节点向量化的思想，没有考虑工程性的特征，比如点赞等，能够让模型不局限与特定的社交网络中，使其能够运用在不同的社交网络平台上。其次，该方法综合考虑了局部和全局性的特征，使得模型更加的全面，此外，根据观点具有正反性的特点，该方法考虑了与用户观点相反的影响用户集合，更能准确地反映基于观点下的影响力传播模型。

上面结合附图对本发明的实施方式做了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.基于观点向量化的影响力传播模型的建立方法，其特征在于，该方法包括以下步骤：

步骤D.搜寻影响力传播网络中与用户观点相反的用户集合；

步骤E.建立基于观点的影响力传播模型。

2.如权利要求1所述的基于观点向量化的影响力传播模型的建立方法，其特征在于，步骤A具体如下：

最终得到原创内容d的观点影响力传播网络G_d＝(V_d,E_d)。

3.如权利要求2所述的基于观点向量化的影响力传播模型的建立方法，其特征在于，步骤B具体如下：

B1.定义需要搜集到的用户u的影响近邻集合为NL_d(u)，初始化为空，并设置集合数量最大值为nl，令当前位置处于节点u，设置回退概率q，取q＝0.3～0.6；所述的回退概率q是指在传播到邻接点后回退到节点u的概率；

B2.设置扩散概率p为当前位置节点的邻接点数量之和的倒数，按照p随机选择一个当前位置节点的近邻节点v，且v没有被标记访问，将v添加到集合NL_d(u)中，标记v已被访问，并将当前位置移动到v上；所述的扩散概率p是指下一步传播到节点u的邻接点的概率；

4.如权利要求3所述的基于观点向量化的影响力传播模型的建立方法，其特征在于，步骤C首先定义用户u的影响全局集合为NG_d(u)，初始化为空，并设置集合数量最大值为ng，然后进行如下处理：

C1.从V_d中随机选择一个节点v，且v不在集合NL_d(u)和NG_d(u)中；

C2.将节点v添加到集合NG_d(u)中；

5.如权利要求4所述的基于观点向量化的影响力传播模型的建立方法，其特征在于，步骤D首先定义与用户u在原创内容d上观点相反的用户集合为NR_d(u)，初始化为空，并设置集合元素最大数量为nr，然后进行如下处理：

D5.定义所有转发d的用户集合U_d；

D8.如果集合NR_d(u)的数量达到nr,则结束遍历，否则，返回D6。

6.如权利要求5所述的基于观点向量化的影响力传播模型的建立方法，其特征在于，步骤E首先定义从所有原创内容中提取的观点集合为O＝{o₁,o₂,o₃,…,o_N}，o_n表示第n个观点，n＝1,2,…,N，N为观点数量；每个观点o都有一定数量的列表集合D(o)，而每个用户都有正向或负向的观点；对于原创内容d，从社交网络中搜寻到用户u的三个影响用户集合NL_d(u)、NG_d(u)和NR_d(u)，其中用户u对集合NL_d(u)和NG_d(u)的影响是正相关，对NR_d(u)用户集合的影响是负相关；定义概率Pr(NL_d(u)|u,o)，该概率越大，表示用户u在观点o下越容易影响到用户集合NL_d(u)：

其中，Pr(v|u,o)表示用户u在观点o下对用户v的影响力；

定义用户u在每个观点o下包含两个向量：S^o _u和T^o _u，分别表示影响他人能力的表征和受到他人影响的表征；用户u在观点o下对用户v的影响力Pr(v|u,o)用两个向量的点积表示，定义为：Pr(v|u,o)＝exp(S^o _uT^o _v)；定义目标函数为：

模型的训练目标即是使Obj最大化，并拟合得到每个用户u在每个观点o下包含两个向量：S^o _u和T^o _u，得到任意两个用户之间在不同观点下的相互影响力，据此获得观点影响力在社交网络结构图中的传播模型。