CN109410078B

CN109410078B - 一种适用于面向文件共享的移动社交网络的信息传播预测方法

Info

Publication number: CN109410078B
Application number: CN201811059532.7A
Authority: CN
Inventors: 张霄宏; 钱凯; 史爱静
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2021-09-28
Anticipated expiration: 2038-09-12
Also published as: CN109410078A

Abstract

本发明提出了一种适用于面向文件共享的移动社交网络的信息传播预测方法，给出了如何有效确定种子节点的方法，使得种子节点的选取更加合理、有效；同时给出了一种简化网络结构的方法，在不影响整体传播的基础之上，剔除那些对信息传播没有影响的节点，提高传播的效率。并通过该模型构建节点影响力计算和经典节点权威值计算的桥梁，进而研究了大规模社交网络上的信息传播最大化策略，为大规模社交网络中的信息传播预测和计算提供了一种高效解决方法。

Description

一种适用于面向文件共享的移动社交网络的信息传播预测方法

技术领域

本发明涉及一种移动社交网络的信息传播预测方法，属于互联网应用领域。

背景技术

在社交网络中越是影响力大的人对信息的传播越是有大的贡献，所以对于信息的传播而言如何去确定最有影响力的人尤为重要，从社交网络选取一组较小的最有影响力的节点进行传播使得最终在网络中影响最大。这个问题也被称为影响力最大化问题(influence maximization),它在诸多领域如推荐系统的开发、病毒式市场营销、寻找有影响力的twitter用户等方面有着明显的应用。Kempe等人首次给出了作为离散优化问题的影响最大化系统性的研究。他们从社交网络分析，交互式粒子系统和市场营销的早期工作中提取出了两个非常经典的基础模型：线性阈值模型(Linear Threshold,LT)和独立级联模型(Independent Cascade,IC)。此后许多研究者基于这两中模型进行了不断的改进，各种不同的算法也被提了出来。

目前有关信息传播的经典模型主要包括传染病模型、线性阈值模型、独立级联模型、分类或回归模型及基于他们的各种改进模型等，但目前已有方法都是基于IC模型设计的，并不能很好的适用LT模型。且对种子节点的选取主要是从如何去选的角度出发，对于选取好的的种子节点其实并未进行处理。但是，通过某种算法选取的种子节点可能会存在这种可能：种子节点有聚集的现象，即种子节点之间不是较均匀分布在网络中，它们中一部分存在相连的边使得它们聚集在一起。

附图说明

图1为G₁拓扑结构。

图2为G_a的拓扑结构。

图3为第一轮传播结束后各节点的状态。

图4为第二轮传播结束后各节点的状态。

发明内容

为了解决现有技术存在的这些问题，本发明提出了一种适用于面向文件共享的移动社交网络的信息传播预测方法，包括以下步骤：

(1)信息收集：从社交网络中收集数据，分布式存储到由若干台服务器；

(2)信息预处理：从本地读取数据，从每条数据中抽取发消息用户和收消息用户；根据从所有数据中抽取出来的发消息用户和收消息用户，构建社交网络图G_a；其中，所有不重复的发消息用户和收消息用户在图中以顶点存在，每对发消息用户和收消息用户在图中以边的形式存在；

(3)种子节点选择：

步骤1：读取社交网络图G_a存储在服务器的节点信息和边信息，结合图信息，根据factor_degree(i)＝degree_out(i)/(degree_out(i)+degree_in(i))，为每个节点计算度因子，其中factor_degree为度因子，v_i为节点；

步骤2：计算每个节点的Pagerank值，该值可通过PageRank算法获得；

步骤3：根据Factor_seed(i)＝factor_degree(i)*rank(factor_degree(i))计算每个节点的种子因子，其中Factor_see为种子因子，rank(factor_degree(i))表示v_i的度因子在所有节点度因子的重要程度；

步骤4：对所有节点的种子因子进行降序排列，选择排名前n的节点作为种子节点

(4)非激活节点剔除：v_i邻居节点对v_i的影响力记作inf(i)，v_i的活跃性记作act(i),v_i和v_j之间的紧密性记作close(i,j)，且inf(i)＝∑_j∈N(i)(act(i)*close(i,j)),

步骤1:每台服务器对于存储在本地的节点，计算该节点参与信息传播的频率，将此频率作为该节点的活跃性；

步骤2:每台服务器对于存储在本地的边，计算每条边相关联的2个节点所代表的2个用户之间的紧密性；

步骤3:每台服务器计算存储在本地节点的影响力inf。

步骤4:每台服务器检查存储在本地的各个节点的影响力，如果影响力的值小于预定义值-θ，将该节点以及该节点对应的边从社交网络图G_a中剔除。

(5)文件传播规模预测:记(4)中剔除了相应节点后的图为G_a且G_a＝(V_a,E_a)，记种子节点存储在seeds中，文件传播规模预测的具体步骤如下：

步骤1.令newNodes

i←0，设置ξ的值；

步骤2.将种子节点存入curNodes；

步骤3.将种子节点加入activeNodes；

步骤4.由主服务器检查条件(|newNodes|/|va|>ξ)是否满足。如果满足，执行步骤6；否则执行步骤5；

步骤5.主服务器检查条件(newNodes＝＝Φ)是否满足。如果满足且i＝0，执行步骤6；否则，执行步骤10；

步骤6.将curNodes中的节点分发给从服务器，之后将curNodes清空；

步骤7.每个从服务器对收到的节点做如下计算：

步骤7-1.一次从收到的节点中选择一个节点；

步骤7-2.计算选出的这个节点的邻居节点；

步骤7-3.剔除邻居节点中处于非激活状态的节点；

步骤7-4.根据式(3)计算当前节点的影响力；

步骤7-5.如果当前节点的影响力大于预定义的阈值θ，将当前节点标记为激活状态，加入newNodes-slave；

步骤8.每个从服务器将newNode发给主服务器，之后置newNodes为Φ；

步骤9.主服务器收到每个节点发送的newNodes，将newNodes中的节点加入curNodes和activeNodes；令i＝i+1，执行步骤4。

步骤10.计算activeNodes中节点数，将其作为文件的传播规模。

进一步地，在(3)种子节点选择中，具体包括以下步骤：

步骤4：对所有节点的种子因子进行降序排列，选择排名前n的节点作为种子节点。

进一步地，在(4)非激活节点剔除中，具体包括以下步骤：

v_i邻居节点对v_i的影响力记作inf(i)，v_i的活跃性记作act(i),v_i和v_j之间的紧密性记作close(i,j)，且inf(i)＝∑_j∈N(i)(act(i)*close(i,j)),

步骤3:每台服务器计算存储在本地的节点的影响力inf。

进一步地，在(5)文件传播规模预测中，具体包括以下步骤：

记(4)中剔除了相应节点后的图为G_a且G_a＝(V_a,E_a)，记种子节点存储在seeds中，文件传播规模预测的具体步骤如下：

步骤1.令newNodes

i←0，设置ξ的值；

步骤2.将种子节点存入curNodes；

步骤3.将种子节点加入activeNodes；

步骤7.每个从服务器对收到的节点做如下计算：

步骤7-1.一次从收到的节点中选择一个节点；

步骤7-2.计算选出的这个节点的邻居节点；

步骤7-3.剔除邻居节点中处于非激活状态的节点；

步骤7-4.根据式(3)计算当前节点的影响力；

步骤7-5.如果当前节点的影响力大于预定义的阈值θ，将当前节点标记

为激活状态，加入newNodes；

步骤9.主服务器收到每个节点发送的newNodes，将newNodes中的节点加入curNodes和activeNodes，令i＝i+1,返回步骤4；

步骤10.计算activeNodes中节点数，将其作为文件的传播规模。

本发明给出了如何有效确定种子节点的方法，使得种子节点的选取更加合理、有效；同时给出了一种简化网络结构的方法，在不影响整体传播的基础之上，剔除那些对信息传播没有影响的节点，提高传播的效率。并通过该模型构建节点影响力计算和经典节点权威值计算的桥梁，进而研究了大规模社交网络上的信息传播最大化策略，为大规模社交网络中的信息传播预测和计算提供了一种高效解决方法。

具体实施方式

文件的传播规模决定文件是否会成为流行文件。本发明在线性阈值模型的基础上提出了一种文件传播规模预测方法。本发明与其它基于线性阈值模型的方法有以下不同：1，引入了种子因子，根据种子因子大小决定一个节点能否成为种子节点；2，引入了节点过滤机制，将传播过程中不会被激活的节点从后续的预测过程中剔除，以此提高预测效率；3，对选出的种子节点做进一步处理，将其中有互相连接的种子节点只取其一，避免了网络中种子节点选取出现聚集现象。

(1)信息收集

从社交网络中收集数据，分布式存储到由若干台服务器。这些服务器中，只有一台是主服务器，其它的为从服务器。

(2)信息预处理

分别从从服务器在主服务器的控制下从本地读取数据，从每条数据中抽取出发消息用户和收消息用户；根据从所有数据中抽取出来的发消息用户和收消息用户，构建社交网络图。其中，所有不重复的发消息用户和收消息用户在图中以顶点存在，每对发消息用户和收消息用户在图中以边的形式存在。生成的社交网络图分布式存储在前述的多台从服务器上。

(3)种子节点选择

在线性阈值模型中，选择合适的节点作为种子开始文件传播至关重要。选择精良的种子不仅能扩大文件的传播规模，而且可以加速文件的传播过程。为便于描述种子节点的选择过程，本发明引入了度因子和种子因子的概念。

定义1度因子描述节点的度属性对种子选择的影响。度因子记作factor_degree。以节点v_i为例，v_i的度因子记作factor_degree(v_i)，由下式计算：

factor_degree(i)＝degree_out(i)/(degree_out(i)+degree_in(i)) (1)

定义2种子因子描述一个节点适合作为种子的程度，记作factor_seed。以节点v_i为例，其种子因子记为factor_seed(i)，由下式计算：

Factor_seed(i)＝factor_degree(i)*rank(factor_degree(i)) (2)

在(2)式中，rank(factor_degree(i))表示v_i的度因子在所有节点度因子的重要程度。本发明将所有节点度因子的Pagerank值作为该节点的rank值。

基于以上两个定义，本发明通过如下五步选择种子节点：

步骤1：每台从服务器在主服务器的控制下读取社交网络图存储在该服务器的节点信息和边信息，结合在从服务器上存储的图信息，根据式(1)，为每个节点计算度因子

步骤2：在步骤1的基础上，在主服务器的控制下各个从服务器共同计算每个节点的PageRank值，该值可通过PageRank算法获得。

步骤3：根据步骤(1)和步骤(2)的结果，在主服务器的控制下所有从服务器同时按照式(2)计算每个节点的种子因子

步骤4：在主服务器的控制下所有从服务器对所有节点的种子因子进行降序排列，选择排名前n的节点作为种子节点

(4)非激活节点剔除

在线性阈值模型中，如果来自邻居节点的影响力超过了预先定义的阈值，该节点就会变为激活状态。此处，将影响力记作Inf.具体来讲，来自v_i的邻居节点的影响力记作inf(i)。为了计算影响力，本发明引入了活跃性和紧密性两个概念。

定义3活跃性描述节点参与文件传播的热情，记作act。v_i的活跃性记作act(i),其值由参与信息传播的频率决定,即vi参与文件传播的天数与本月总天数之比值，Act(i)＝x/d。举例：若vi在3月份有5天都向好友传播了文件，则act(i)＝5/31。

定义4紧密性描述节点间联系的紧密程度，记作close。close(i,j)表示v_i和v_j之间的紧密性，其值由v_i向v_j共享文件的频繁程度决定。如果vi在3月份共发起50次文件共享活动，其中向vj发起了20次文件共享活动，则close(i,j)＝20/50。如果vj在该月只发起了5次文件共享活动，且都是向vi发起的，则close(j,i)＝5/5。

在活跃性和紧密性的基础上，入边邻居节点对v_i的影响力inf(i)可由式(3)定义。N(i)表示由指向vi的邻居节点构成的集合。

Inf(i)＝∑_j∈N(i)(act(i)*close(i,j)) (3)

在线性阈值模型中，如果来自邻居节点的影响力没有达到预定义的阈值，那么该节点将不会变为激活状态。本发明认为，所有不可能变为激活状态的节点将不会参与文件的传播。为了提高效率，本发明将所有不会变为激活状态的节点从社交网络图中剔除。但这并不意味着图中保留的各个节点都会变为激活状态。这些节点仍然有可能处于非激活状态。

具体步骤如下：

步骤1.每台服务器对于存储在本地的节点，计算该节点参与信息传播的频率，将此频率作为该节点的活跃性。在计算过程中，本地服务器根据需要从其它相关联服务器上请求获取节点信息；同时，如果收到从本服务器获取节点信息的请求，应该向提出请求的服务器传送所需的数据。

步骤2.每台服务器对于存储在本地的边，计算每条边相关联的2个节点所代表的2个用户之间的紧密性。此紧密性由此2个用户之间信息共享的频率决定。在计算过程中，本地服务器根据需要从其它相关联服务器上请求获取边信息；同时，如果收到从本服务器获取边信息的请求，应该向提出请求的服务器传送所需的数据。

步骤3.每台服务器根据式(3)计算存储在本地的节点的影响力。

步骤4.每台服务器检查存储在本地的各个节点的影响力，如果影响力的值小于预定义的值-θ，将该节点以及该节点对应的边从社交网络图中剔除。

(5)文件传播规模预测

以(4)中剔除了部分节点之后的社交网络图G_a为基础，以(3)中选择出来的种子节点为基础进行文件传播规模预测。记(4)中剔除了相应节点后的图为G_a且G_a＝(V_a,E_a)，记种子节点存储在seeds中，文件传播规模预测的具体步骤如下：

步骤1.令newNodes

i←0，设置ξ的值；

步骤2.将种子节点存入curNodes；

步骤3.将种子节点加入activeNodes；

步骤7.每个从服务器对收到的节点做如下计算：

步骤7-1.一次从收到的节点中选择一个节点

步骤7-2.计算选出的这个节点的邻居节点

步骤7-3.剔除邻居节点中处于非激活状态的节点

步骤7-4.根据式(3)计算当前节点的影响力

步骤7-5.如果当前节点的影响力大于预定义的阈值θ，将当前节点标记为激活状态，加入newNodes；

步骤9.主服务器汇总每个节点发送的newNodes，将newNodes中的节点加入curNodes和activeNodes，令i＝i+，回到步骤4；

步骤10.计算activeNodes中节点数，将其作为文件的传播规模。

以图1所示包含11个节点的网络为例，说明信息传播规模的预测过程。此处，用有向图G₁表示该网络。G₁＝(V₁,E₁),V1是顶点集合且V₁＝{v₁,v₂,v₃,v₄,v₅,v₆,v₇,v₈,v₉,v₁₀},E₁是边集合且E₁＝{(v₁,v₂)，(v₂,v₃)，(v₃,v₄)，(v₅,v₂)，(v₅,v₈)，(v₅,v₉)，(v₆,v₁)，(v₆,v₅)，(v₇,v₆)，(v₈,v₇)，(v₁₀,v₇)}

第一步计算各节点的活跃度。

节点活跃度描述节点参与文件传播的热情。以v_i为例，v_i的活跃度记作act(i)，其值为v_i参与文件传播的天数与本月总天数的比值。此处，假设各节点在3月份参与文件共享活动的天数并以此为基础计算各节点的活跃度，结果如表1所示。

表1各节点活跃度

第二步计算各节点之间的紧密性。

假设各节点发起的共享文件的活动如矩阵A所示。在该矩阵中，a_i,j表示节点i向节点j发起的文件共享活动数，

按照这种方式，计算各节点间的紧密性，计算结果如矩阵C所示。矩阵的第i行，第j列元素表示close(i,j)。

第三步计算各节点的影响力

根据式(3)计算各个节点的影响力。

第四步节点剔除

设节点的激活阈值θ为0.25。如果节点的影响力小于θ，则认为该节点在信息传播过程中不会被激活。为了提高预测效率，将该节点从网络中剔除,记剔除节点后的网络为G_a,其拓扑结构如图2所示。

第五步种子节点选取

(1)根据式(1)计算G_a各节点的度因子，结果如下：

Factor_degree(1)＝2/3

Factor_degree(2)＝0

Factor_degree(5)＝2/3

Factor_degree(6)＝2/3

Factor_degree(7)＝1/3

Factor_degree(8)＝1

(2)计算各个节点的PageRank值分别为(迭代15次，阻尼因子0.15)：

rank(1)＝0.437

rank(2)＝0.521

rank(5)＝0.437

rank(6)＝0.677

rank(7)＝0.620

rank(8)＝0.336

(3)根据式(2)计算各节点的种子因子分别为：

Factorseed(1)＝0.291

Factorseed(2)＝0

Factorseed(5)＝0.291

Factorseed(6)＝0.451

Factorseed(7)＝0.207

Factorseed(8)＝0.336。

此处假设选取一个种子点，则取种子因子最大的作为种子节点，由上可知为节点6应作为种子节点。

第六步预测文件传播规模

(1)令newNodes

ξ←0.0002

(2)将v₆节点存入curNodes；

(3)将v₆节点加入activeNodes；

(4)主服务器在检查条件-(|newNodes|/|v_a|>ξ)。由于该条件不满足，应该执行(5)；

(5)主服务器检查条件(newNodes＝＝Φ)是否满足。由于该条件满足，执行步骤(6)，开始第一轮传播。

(6)将curNodes中的节点分发给从服务器，之后将curNodes清空。此时，v₆被分发给所有从服务器；

(7)收到v₆的从服务器做如下计算：

a)一次从收到的节点中选择一个节点。由于只收到了v₆，所以选择v₆

b)计算此节点的出边邻居节点，选定为非激活状态的出边邻居。此时，v₁和v₅为选定节点。

c)对于每个选定的节点，根据式(3)计算其所有激活的入边邻居对它的影响力并求和；如果此影响力之和大于预定义的阈值θ，将当前节点标记为激活状态，加入newNodes-slave。对于v₁，只有v₆是激活状态的入边邻居，其的影响力为Inf(1)＝0.52×0.5＝0.26；同理，对于v₅有，Inf(5)＝0.52×0.5＝0.26。由于Inf(1)和Inf(5)都大于激活阈值，故将v₁,v₅置为激活状态，加入newNodes。

(8)每个从服务器将newNodes发给主服务器，之后置newNodes为Φ；

(9)主服务器收到每个节点发送的newNodes进行汇总，即newNides＝{v₁,v₅}，则将newNodes中的节点加入curNodes和activeNodes，第一轮传播结束。图3展示了第一轮传播结束后各节点的状态。

(10)检查(|newNodes|/|v_a|>ξ)是否满足。由于条件满足，开始第二轮传播。

(11)第二轮传播：

curNodes＝{v₁,v₅}。v₁的出边邻居有v₂和v₇，v₅的出边邻居有v₂和v₈，且这三个节点都是非激活节点。根据式(3)求得：Inf(2)＝0.339，Inf(7)＝0.087，Inf(8)＝0.408，故v₂和v₈被激活，并作为newNodes发给主服务器。主服务器将newNodes中的节点加入curNodes和activeNodes，开始第三轮传播。图4展示了第二轮传播结束后各节点的状态。

(12)第三轮传播：

curNodes＝{v₂,v₈}。此时，只有v₈有未激活节点-v₇。根据式(3)计算v₇的影响力，有Inf(7)＝0.187。因此，本轮传播没有节点被激活，发送给主服务器的curNodes为空。结束传播。

第七步计算传播规模。

activeNodes中节点数，将其作为文件的传播规模。由于activeNodes＝{v₁,v₂,v₅,v₆,v₈}，传播规模为5。

Claims

1.一种适用于面向文件共享的移动社交网络的信息传播预测方法，其特征在于，包括以下步骤：

(3)种子节点选择：

步骤3：根据Factor_seed(i)＝factor_degree(i)*rank(factor_degree(i))计算每个节点的种子因子，其中Factor_seed为种子因子，rank(factor_degree(i))表示v_i的度因子在所有节点度因子的重要程度；

步骤4：对所有节点的种子因子进行降序排列，选择排名前n的节点作为种子节点；

步骤3:每台服务器计算存储在本地节点的影响力inf；

步骤4:每台服务器检查存储在本地的各个节点的影响力，如果影响力的值小于预定义值θ，将该节点以及该节点对应的边从社交网络图G_a中剔除；

步骤1.令

i←0，设置ξ的值；

步骤2.将种子节点存入curNodes；

步骤3.将种子节点加入activeNodes；

步骤4.由主服务器检查条件(|newNodes|/|V_a|>ξ)是否满足；如果满足，执行步骤6；否则执行步骤5；

步骤5.主服务器检查条件(newNodes＝＝Φ)是否满足；如果满足且i＝0，执行步骤6；否则，执行步骤10；

步骤7.每个从服务器对收到的节点做如下计算：

步骤7-1.一次从收到的节点中选择一个节点；

步骤7-2.计算选出的这个节点的邻居节点；

步骤7-3.剔除邻居节点中处于非激活状态的节点；

步骤7-4.根据式(3)计算当前节点的影响力；

步骤8.每个从服务器将newNodes发给主服务器，之后置newNodes为Φ；

步骤9.主服务器收到每个节点发送的newNodes，将newNodes中的节点加入curNodes和activeNodes；令i＝i+1，执行步骤4；

步骤10.计算activeNodes中节点数，将其作为文件的传播规模。