CN108182640A

CN108182640A - 一种基于用户行为传播模型求解影响力最大化问题的方法

Info

Publication number: CN108182640A
Application number: CN201711473788.8A
Authority: CN
Inventors: 张晓双
Original assignee: Shandong Inspur Cloud Service Information Technology Co Ltd
Current assignee: Shandong ICity Information Technology Co., Ltd.
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-19

Abstract

本发明公开了一种基于用户行为传播模型求解影响力最大化问题的方法，所述方法通过社交网络的用户行为计算用户个体影响力，并基于个体影响力计算影响传播概率，通过影响传播概率计算特定社交圈中被影响用户的最大化范围。本发明方法基于用户行为传播模型求解影响力最大化问题相比基于网络拓扑结构的传播模型在社交网络方面更能得到更为可观的影响节点集合，影响力越大的节点影响其相邻节点的能力理应越大，其成功的概率也相应更大，而基于时间分布用户活跃度的PageRank方法求解用户个体影响力能有效地淘汰“僵尸”节点，相比基于网络拓扑结构的PageRank方法求解的影响力更具有时效性和准确性，能更好地提高活跃用户的排名，降低非活跃用户的排名。

Description

一种基于用户行为传播模型求解影响力最大化问题的方法

技术领域

本发明涉及用户行为分析挖掘技术领域，具体涉及一种一种基于用户行为传播模型求解影响力最大化问题的方法。

背景技术

社交网络作为现在主流的在线交流平台，已经渗透到各行各业人的生活工作中，其由用户信息、用户行为、用户关系等产生的数据潜藏着不可估量的价值。随着社会网络的迅速发展，其规模越来越大，节点数目众多，节点间关系错综复杂，行为数据庞大社交网络作为现在主流的在线交流平台，已经渗透到各行各业人的生活工作中，其由用户信息、用户行为、用户关系等产生的数据潜藏着不可估量的价值。随着社会网络的迅速发展，其规模越来越大，节点数目众多，节点间关系错综复杂，行为数据庞大。

PageRank算法是Google网页排名的经典算法,主要将网页排名的过程比作投票的过程，一个网页链接到另一个网页就表示这个网页给另一个网页投票，一般票数越多，排名越靠前。而网页之间的关系和社交网络中用户之间的关系其实极为相似，从图论的角度看，社交关系网络和Web网络是有着相似的拓扑结构的，只是在社交网络中的用户是生活中的有意识个体，不同的用户会有自己不同的行为习惯，且会由此产生大量数据，而网页基本都是挂着，数据相对来说比较单一。若是直接应用PageRank算法计算社交网络用户影响力，便只考虑了用户之间的关注关系，忽略了用户自身行为的一些因素，并不能客观地体现用户的真实影响力。影响力最大化问题是基于给定的影响传播模型，找到k个初始活跃节点，使最终社会网络的影响力传播范围达到最大。而一般的传播模型是基于社交网络拓扑结构的传播模型，用户节点间连接的权重只是满足简单的概率函数，然而实际网络中，不同节点对信息传播的贡献是不同的，意见领袖或是类似权威用户相对于一般用户应具有较大影响概率，更能促进影响传播。

从广义上讲，社交网络是针对互联网网民群体的一种应用服务，其核心价值在于人和人的社交关系，通过研究用户间的关系，对现实网络加以定量分析和计算，可以识别有影响力的用户，支撑企业的市场经营决策管理。通过研究用户个体影响力，可以挖掘意见领袖，借以控制舆论或谣言的发展倾向等。一些典型的传播模型，比如独立级联模型、线性阈值模型、加权级联模型等一般都是基于社交网络拓扑结构的传播模型，用户节点间连接的权重只是满足简单的概率函数，如加权级联模型的影响权重满足节点入度的倒数关系，彼此间都被以相同的影响力对待。然而实际网络中，不同节点对信息传播的贡献是不同的，意见领袖或是类似权威用户相对于一般用户应具有较大影响概率，更能促进影响传播。

发明内容

本发明要解决的技术问题是：本发明针对以上问题，提供一种一种基于用户行为传播模型求解影响力最大化问题的方法。

本发明基于用户之间的关注关系及其活跃度，并由此通过PageRank方法计算用户个体影响力，以基于用户影响力的传播模型求解社交网络影响力最大化问题。通过基于时间分布用户活跃度计算用户影响力可提高排名的时效性和准确性，提高有活跃度高的用户排名，降低活跃度低的用户排名。由此求解影响力最大化问题可以得到更为可观的影响范围。

本发明所采用的技术方案为：

一种基于用户行为传播模型求解影响力最大化问题的方法，所述方法通过社交网络的用户行为计算用户个体影响力，并基于个体影响力计算影响传播概率，通过影响传播概率计算特定社交圈中被影响用户的最大化范围。

所述个体影响力根据时效权重因子确定。

所述时效权重因子根据固定区域大量用户的行为习惯，得到不同时间段的用户发布内容影响权重。

所述影响传播概率的计算过程如下：

将影响力大的用户的影响值与将被影响节点相邻的活跃节点的影响值之和的比例，作为将被影响节点的影响传播概率。

所述方法实现步骤包括：

1）调用社交网络的API，从一个种子节点出发，以广度优先搜索策略，获取一定量的用户节点及其关注关系拓扑结构，并调用相关API获取用户节点集合的推文发布情况；

2）根据用户的行为习惯，对不同时间分布的推文引入相应的时效权重因子；

3）对同一用户不同时间的推文分别加以相应的时效权重因子，以此计算用户基于时间分布的活跃度；

4）分别通过传统的PageRank方法计算用户个体影响力和基于时间分布活跃度的PageRank方法计算用户个体影响力。

所述方法内容还包括：

每个时间段发布的推文的时效权重因子，通过用户访问该社交网络的时间分布来计算，进而得到时效权重分布。

所述户访问该社交网络的时间分布，根据用户发布推文的时间分布近似地估算。

从数据集中，只能得到用户发布推文的时间分布，但是用户发布推文的时间分布可以用来近似地估算用户访问Twitter网站的时间分布，进而得到时效权重分布。

被影响用户的最大化范围确定过程如下：

1）构建社交网络图G(V,E)，其中V为节点的集合，E为边的集合；

2）选择集合S∈V作为种子集合初始化影响传播过程；

3）假设节点u处于活跃状态，节点v处于非活跃状态，定义节点u对节点v的影响概率Puv为节点u 的影响值占节点v所有邻接活跃节点影响值之合的比例；

这样便可使越具影响力的用户成功影响非活跃状态的邻接节点的概率相对越大；

4）经过R轮模拟，当V中的节点都不再具备影响能力，得到最大化范围S。

所述方法内容还包括：

通过将所述方法基于的用户行为传播模型与加权级联模型及线性阈值模型在同等关系网络中进行对比实验分析，验证所述方法的有效性。

本发明的有益效果为：

本发明方法基于用户行为传播模型求解影响力最大化问题相比基于网络拓扑结构的传播模型在社交网络方面更能得到更为可观的影响节点集合，影响力越大的节点影响其相邻节点的能力理应越大，其成功的概率也相应更大，而基于时间分布用户活跃度的PageRank方法求解用户个体影响力能有效地淘汰“僵尸”节点，相比基于网络拓扑结构的PageRank方法求解的影响力更具有时效性和准确性，能更好地提高活跃用户的排名，降低非活跃用户的排名。

具体实施方式

下面根据具体实施方式对本发明进一步说明：

（1）以Twitter为研究对象，调用其API，从一个种子节点出发，以广度优先搜索策略，获取一定量的用户节点及其关注关系拓扑结构，并调用相关API获取用户节点集合的推文发布情况。

（2）根据用户的行为习惯，对不同时间分布的推文引入相应的时效权重因子。要估算每个时间段发布的推文的时效权重，可以通过用户访问twitter网站的时间分布来计算，从数据集中，只能得到用户发布推文的时间分布，但是我们认为用户发布推文的时间分布可以用来近似地估算用户访问Twitter网站的时间分布，进而得到时效权重分布。

（3）由于用户访问社交网站的时间分高峰期和非高峰期，习惯在用户访问量高峰期活跃的用户，其间发布的推文更容易被关注，所以对同一用户不同时间的推文分别加以相应的时效权重因子，以此计算用户基于时间分布的活跃度。

（4）分别通过传统的PageRank方法计算用户个体影响力和基于时间分布活跃度的PageRank方法计算用户个体影响力；

（5）构建社交网络图G(V,E)，其中V为节点的集合，E为边的集合；

选择集合S∈V作为种子集合初始化影响传播过程；

假设节点u处于活跃状态，节点v处于非活跃状态，定义节点u对节点v的影响概率Puv为节点u 的影响值占节点v所有邻接活跃节点影响值之合的比例；

经过R轮模拟，当V中的节点都不再具备影响能力，得到最大化范围S；

（6）将上述传播模型与加权级联模型及线性阈值模型等在同等关系网络中进行对比实验分析，本发明基于用户行为传播模型求解影响力最大化问题相比基于网络拓扑结构的传播模型在社交网络方面更能得到更为可观的影响节点集合。

实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种基于用户行为传播模型求解影响力最大化问题的方法，其特征在于，所述方法通过社交网络的用户行为计算用户个体影响力，并基于个体影响力计算影响传播概率，通过影响传播概率计算特定社交圈中被影响用户的最大化范围。

2.根据权利要求1所述的一种基于用户行为传播模型求解影响力最大化问题的方法，其特征在于，所述个体影响力根据时效权重因子确定。

3.根据权利要求1或2所述的一种基于用户行为传播模型求解影响力最大化问题的方法，其特征在于，所述时效权重因子根据固定区域用户的行为习惯，得到不同时间段的用户发布内容影响权重。

4.根据权利要求3所述的一种基于用户行为传播模型求解影响力最大化问题的方法，其特征在于，所述影响传播概率的计算过程如下：

5.根据权利要求4所述的一种基于用户行为传播模型求解影响力最大化问题的方法，其特征在于，所述方法实现步骤包括：

6.根据权利要求5所述的一种基于用户行为传播模型求解影响力最大化问题的方法，其特征在于，所述方法内容还包括：

7.根据权利要求6所述的一种基于用户行为传播模型求解影响力最大化问题的方法，其特征在于，所述户访问该社交网络的时间分布，根据用户发布推文的时间分布近似地估算。

8.根据权利要求7所述的一种基于用户行为传播模型求解影响力最大化问题的方法，其特征在于，被影响用户的最大化范围确定过程如下：

2）选择集合S∈V作为种子集合初始化影响传播过程；

9.根据权利要求8所述的一种基于用户行为传播模型求解影响力最大化问题的方法，其特征在于，所述方法内容还包括：