CN112214689A

CN112214689A - 基于社交网络中群体的影响力最大化方法及系统

Info

Publication number: CN112214689A
Application number: CN202011138757.9A
Authority: CN
Inventors: 潘理; 纪耀轩; 吴鹏
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-01-12

Abstract

本发明提供了一种基于社交网络中群体的影响力最大化方法及系统，包括：步骤1：在社交网络中，通过随机游走法，将节点映射到表征空间并且保留节点的影响力传播属性；步骤2：定义和计算节点之间的传播亲进度，依次合并相邻且传播亲近度最高的节点对，直到满足设定的压缩比例得到粗化网络，其中每个节点对应原始网络中的一个群体；步骤3：根据节点的影响力在群体内传播和在跨群体间传播的属性，构建候选种子集的影响力传播函数，根据贪心算法选取出包含预设个数的节点的最大影响力用户集。本发明在相近的影响力传播效果下具有更高的时间效率，在相近的时间效率下具有更好的影响力传播效果。

Description

基于社交网络中群体的影响力最大化方法及系统

技术领域

本发明涉及社交网络影响力最大化技术领域，具体地，涉及一种基于社交网络中群体的影响力最大化方法及系统。尤其地，涉及一种在大规模社交网络中通过节点表征和聚类实现群体划分并基于群体的影响力最大化方法。

背景技术

在线社交网络(Online Social Networks，OSNs)已成为广大用户群体间信息和影响力快速传播的重要平台，影响力最大化问题旨在挖掘一组种子用户，经过一系列传播之后，使得最终被影响的用户数最多，该研究在精准营销、意见领袖发现，舆情管控等方面有着重要的商业价值。

经检索国内外现有文献发现，针对传统贪心算法复杂度极高而启发式方法缺乏精度保证等不足，当前的研究者们提出了大量改进算法以实现算法精度和效率之间的平衡。其中，基于社区结构和网络粗化的启发式算法，考虑了社交网络内在的社区结构性质，将研究对象从整体网络转换为各个社区，即在特定情况下，节点影响力受社区范围限制只在社区内部传播，不同社区内的影响力传播相互独立。该类方法实现了对传播影响力的简化计算，其精度优于一般的启发式方法且算法复杂度较低，能够适用于大规模网络应用。例如，Purohit等人在《ACM SIGKDD International Conference on Knowledge Discovery andData Mining》上发表文章“Fast influence-based coarsening for large networks”，提出了用网络粗化思想对复杂的大规模网络进行简单表示同时保留原始网络的影响力传播属性，并设计了一种基于网络粗化的影响力最大化算法CSPIN。

上述CSPIN算法合理地压缩了网络规模并保持了网络的影响力传播属性，大幅降低了选点的复杂度，但算法的精度依赖于种子群体的选取算法，通常缺乏精度保证，并且种子节点的选取方式仅是简单地从每个种子群体中任意选择一个节点，缺少对节点影响力的近似估计方法。CoFIM算法能够快速估算节点的传播影响力，具有较低时间复杂度的同时又具有一定的精度保证，但基于连接疏密的社区发现没有考虑网络和节点在影响力传播方面的属性和性质，因此将节点在社区内的影响力近似看作一个常数值的做法缺乏理论支持，并且该方法用相同的常数值近似节点在将各个社区内的影响力，忽略了社区规模这一重要因素。

专利文献CN111428127A(申请号：CN202010069262.9)公开了一种融合主题匹配与双向偏好的个性化事件推荐方法及系统。首先，利用文档主题生成模型LDA提取事件和用户参与的历史事件的主题信息，计算用户与事件的主题匹配度；其次，对于基于事件的社交网络推荐从用户和事件的双向角度考虑，构建用户和事件的偏好模型，分别得到用户偏好评分和事件偏好评分，从用户和事件两个角度更完整地挖掘偏好关系；最后，将用户-事件对匹配度融合用户事件双向偏好线性加权组合得到最终的用户-事件对综合评分，将排序后的TOP-K个用户-事件对作为推荐结果。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于社交网络中群体的影响力最大化方法及系统。

根据本发明提供的基于社交网络中群体的影响力最大化方法，包括：

步骤1：在社交网络中，通过随机游走法，将节点映射到表征空间并且保留节点的影响力传播属性；

步骤2：定义和计算节点之间的传播亲进度，依次合并相邻且传播亲近度最高的节点对，直到满足设定的压缩比例得到粗化网络，其中每个节点对应原始网络中的一个群体；

步骤3：根据节点的影响力在群体内传播和在跨群体间传播的属性，构建候选种子集的影响力传播函数，根据贪心算法选取出包含预设个数的节点的最大影响力用户集。

优选的，所述的步骤1包括：

步骤1.1：根据节点之间的影响力传播偏好和影响力传播路径，生成符合传播语义的节点序列；

步骤1.2：将产生的节点序列作为语料库，通过Skip-Gram模型学习节点的向量表示。

优选的，所述步骤1.1包括：

采样从节点u出发经过t步随机游走产生序列

表示

中已被访问的节点集合，

表示节点u_t的未被访问邻居集，

表示节点u_t的已被访问邻居集，用边权重

表示节点u_t对节点u_t+1的传播偏好，|N(u_t)|表示节点u_t的邻节点集规模，参数p,q分别控制对两种类型节点的采样权重，α为平滑因子，采样过程按照如下的概率分布访问下一个节点u_t+1：

其中，u’_t+1表示第t+1步按照如上式概率分布采样下一个节点；

表示节点u_t的已被采样的邻节点集合。

优选的，所述步骤2包括：

步骤2.1：根据节点的向量表示，定义和计算所有相邻节点的传播亲近度；

步骤2.2：合并传播亲近度最大值对应的两个相邻节点；

步骤2.3：计算合并后节点的向量表示；

步骤2.4：更新合并后节点与邻居节点的传播亲近度；

步骤2.5：判断网络压缩比例是否达到设定要求，若否，则执行步骤2.2；若是，则将此时的粗化网络作为最终的粗化网络。

优选的，所述步骤2.1包括：

对于相邻的节点i,j和它们的向量表示y_i,y_j，定义它们的传播亲近度为：

proximity(i,j)＝1/||y_i-y_j||²

其中，||y_i-y_j||²表示节点i,j的向量表示的欧式距离。

优选的，所述步骤2.2包括：

当相邻节点a,b执行合并操作时，用Nⁱ(a)，N^o(a)分别表示节点a的入度和出度邻居集，

和

表示相应的边权重，节点a和b合并成一个新节点c，

表示节点a与其入度节点*的边权重，

表示节点a与其出度节点*的边权重；

则节点c邻居集的更新规则如下：

Nⁱ(c)＝Nⁱ(a)∪Nⁱ(b),N^o(c)＝N^o(a)∪N^o(b)

边权重

和

按如下公式更新：

y_a表示通过网络表示学习得到的节点a的表示向量，y_b表示通过网络表示学习得到的节点b的表示向量。

优选的，所述步骤2.3包括：

用n_a和n_b分别表示节点a和b执行合并操作前所包含原始网络中的节点数量，将所有已被合并节点的表示向量的平均值作为合并后节点向量的近似表示，计算公式如下：

优选的，所述步骤3包括：

影响力的传播分为种子扩张和群体内传播两个阶段；

种子扩张阶段：影响力从种子节点出发传播至这些种子节点的邻居节点，称为二阶种子节点；

群体内传播阶段：影响力从二阶种子节点传播至群体内其余节点，若二阶种子节点为边界节点，则影响力通过该节点传播至邻居群体；

按照如下影响力传播函数计算候选种子集的影响力：

其中，S表示种子集，N(S)表示S的邻居节点集，d_u为节点u的度数，α,ρ为系数常量，NC(S)表示S的邻居群体集，C_i表示第i个群体，V_b表示边界节点；

步简化为如下形式的目标函数：

其中，δ为常量参数，不同的网络对应不同的值，e为自然常数。

优选的，所述步骤3还包括：

初始种子集S＝φ，每次选取一个种子节点u，使得{g(S∪{u})-g(S)}的值最大化，并加入到当前的种子集，直到种子集的规模达到预设个数。

根据本发明提供的基于社交网络中群体的影响力最大化系统，包括：

模块M1：在社交网络中，通过随机游走法，将节点映射到表征空间并且保留节点的影响力传播属性；

模块M2：定义和计算节点之间的传播亲进度，依次合并相邻且传播亲近度最高的节点对，直到满足设定的压缩比例得到粗化网络，其中每个节点对应原始网络中的一个群体；

模块M3：根据节点的影响力在群体内传播和在跨群体间传播的属性，构建候选种子集的影响力传播函数，根据贪心算法选取出包含预设个数的节点的最大影响力用户集。

与现有技术相比，本发明具有如下的有益效果：

1、本发明通过一种新颖可扩展的传播感知的网络表示学习方法表征节点的影响力传播属性，有效地学习节点的传播偏好和传播语义关系，以低维实值向量的形式表示，并通过节点聚类算法将影响力传播特性相似的节点聚合到同一群体中；

2、本发明进一步地在两阶段传播模型下提出了一种更加准确合理的传播影响力近似计算方法，因为目标函数具有单调性和子模性，所以使得选点策略具有理论值精度保证；

3、本发明提出的方法在相近的运行时间下具有更好的影响力传播效果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明方法流程图；

图2为本发明方法与其他四个典型方法在NetHEPT网络上的影响力传播效果对比图；

图3为本发明方法与其他四个典型方法在NetPHY网络上的影响力传播效果对比图；

图4为本发明方法与其他四个典型方法在Epinions网络上的影响力传播效果对比图；

图5为本发明方法与其他四个典型方法在DBLP网络上的影响力传播效果对比图；

图6为本发明方法与其他四个典型方法在四种网络上的算法运行时间对比图；

图7为本发明方法与其他四个典型方法在四种网络上的内存占用量对比图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

如图1，本实施例为一个已知社交网络G和种子数K，目标为从网络中找到由K个传播源节点组成的种子集S，使得在给定的传播模型下最终被影响的节点数最多的问题，提供了一种基于群体的影响力最大化方法，该方法包括如下步骤：

步骤S1、根据社交网络G，通过一种基于随机游走的传播感知的网络表示学习方法，保留节点的影响力传播属性并将节点映射到表征空间。具体包括以下步骤：

步骤S11、根据设定的传播感知的随机游走采样策略，考虑节点之间的影响力传播偏好和可能的影响力传播路径，生成符合传播语义的节点序列。具体为：

假设从某个节点u出发经过t步随机游走产生一个序列

表示

中已被访问的节点集合，

表示节点u_t的未被访问的邻居节点集，

表示节点u_t的已被访问的邻节点集合，用边权重

表示节点u_t对节点u_t+1的传播偏好，|N(u_t)|表示节点u_t的邻节点集规模，参数p,q分别控制采样对两种类型节点的权重，α为平滑因子。那么采样过程将按照如下的概率分布P_s访问下一个节点u_t+1：

当p＞q时，每次更可能采样一个已被访问的节点，这使得游走的过程保持在靠近源节点u₁的局部范围内，有利于获取更多的局部信息。当p＜q时，每次更可能采样一个未被访问的节点，这将鼓励游走过程向外探索，有利于获取更多的全局信息。因此该策略可根据具体网络和后续应用，灵活地构建更多自定义语料库。

步骤S12、将随机游走产生的节点序列视为句子，利用语言建模技术Skip-Gram模型来学习节点的向量表示。对于大小为l的滑动窗口(u_i-l,···,u_i-1,u_i,u_i+1,···,u_i+l)内的节点关系进行建模。处于滑动窗口中心的节点u_i为中心节点，其余的节点

为上下文节点，通过表征映射函数g将节点映射到R^d，Skip-Gram模型通过下面的公式近似计算给定中心节点u_i时观察到上下文节点集合为

的似然概率：

采用softmax函数估计上式中的条件概率，再沿着语料库中的路径序列滑动窗口，通过最大化所有节点作为中心节点的平均对数似然率，得出以下目标函数：

采用随机梯度下降法对上述目标函数中的参数进行优化，最终得到所定义的表征映射函数g和节点的向量表示y_i＝g(u_i)。通过传播感知的网络表示学习，将网络与节点的结构信息与影响力传播属性等信息以向量的形式表示和呈现，便于后续任务的处理和分析。

步骤S2、定义和计算节点之间的传播亲进度，依次合并相邻且传播亲近度最高的节点对，直到满足设定的压缩比例得到粗化网络H，其中每个节点对应原始网络中的一个群体。具体包括以下步骤：

步骤S21、根据节点的向量表示，定义计算所有相邻节点的传播亲近度；

proximity(i,j)＝1/||y_i-y_j||²

其中，||y_i-y_j||²表示节点i,j的向量表示的欧式距离，度量了两个向量y_i和y_j的相异性。传播亲近度衡量了节点表示向量的相似性，同时也度量了节点在影响力传播属性上的相似度，其值越大则它们在表征空间中的距离也越相近并且将以更高的概率共同出现在传播路径上，从而它们越倾向于在传播过程中互相影响。因此可通过节点聚类的方式，将整体连通且相互之间传播亲近度高的节点划分到同一个群体内，使得群体内节点在传播过程中易于相互影响，而不易对群体外节点产生影响。

步骤S22、将传播亲近度最大值对应的两个相邻节点进行合并；

当相邻节点a,b执行合并操作时，用Nⁱ(a)(N^o(b))分别表示节点a的入度和出度邻居集，

和

表示相应的边权重(节点b同理)，假设节点a和b合并成一个新节点c。

则节点c邻居集的更新规则如下：

Nⁱ(c)＝Nⁱ(a)∪Nⁱ(b),N^o(c)＝N^o(a)∪N^o(b)

边权重

和

按如下公式更新(

同理)：

步骤S23、计算合并后节点的向量表示；

用n_a和n_b分别表示节点a和b执行合并操作前所包含原始网络中的节点数量(初始值为1)，用所有已被合并节点的向量平均值作为合并后节点向量的近似表示，具体计算公式如下：

步骤S24、更新合并后节点与其邻居节点的传播亲近度；

步骤S25、判断网络压缩比例是否达到设定要求，若否，则跳回步骤22)，若是，则将此时的粗化网络H作为最终的粗化网络。

假设该社交网络包含n个节点，所要挖掘的群体数为c个，则可设定网络压缩比例λ＝c/n，也可直接令聚类过程的迭代次数为(n-c)作为终止条件。

步骤S3、根据影响力在群体内易于传播而在跨群体间不易传播的性质，通过两阶段传播模型近似计算候选种子集的影响力，且目标函数具有单调性和子模性，所以可通过贪心策略选取包含K个节点的最大影响力用户集，具体包括以下步骤：

步骤S31、在两阶段传播模型下提出节点影响力的近似计算公式，作为求解影响力最大化问题的目标函数；

根据影响力在所挖掘的群体内易于传播而在跨群体间不易传播的性质，将影响力的传播分为种子扩张和群体内传播两个阶段。种子扩张阶段：初始状态下，影响力从种子节点出发传播至这些种子节点的邻居节点，也称作二阶种子节点；群体内传播阶段：影响力从二阶种子节点传播至群体内的其余节点，此外若二阶种子节点为边界节点，则影响力还可从该二阶种子节点传播至邻居群体。

具体地，在权重级联模型下，可证明一阶种子节点所能影响的二阶种子节点数的期望值为一个常数值；在群体内传播阶段，每个群体内除一阶与二阶种子节点外，其余节点的影响力传播概率可近似为一个常数值，因此二阶种子节点所能影响的节点数期望值与它们所在群体的节点数以及当它们为边界节点时邻居群体的节点数之和成正比。综上，候选种子节点在整个网络中的影响力可近似为：

其中，S表示种子集，N(S)表示S的邻居节点集，d_u为节点u的度数，α,ρ为系数常量，NC(S)表示S的邻居群体集，C_i表示第i个群体，V_b表示边界节点。

上式可进一步简化为如下形式的目标函数：

其中，δ为一个常量参数，不同的网络对应不同的值。该目标函数将候选种子集的影响力表示为一种简单可计算的形式，大幅提升了算法效率，同时它具有单调性和子模性，为贪心策略提供了1-1/e的近似保证比。

步骤S32、采用贪心策略，每次选择使得目标函数最大的节点加入种子集，直到种子集内的节点数量达到K个。

本实施例的有效性可以通过下面的仿真实验来进一步说明。需要说明的是，实验中应用的参数不影响本发明的一般性。

1)仿真条件：

CPU：

Xeon^TME5-2620 v4 2.10GHz，RAM 16.00GB，操作系统Windows 10，仿真软件Python 2.7。

2)仿真内容：

用于仿真实验的数据集包括四个真实网络：NetHEPT，NetPHY，Epinions和DBLP网络。表1显示了四个真实网络的一些基本统计数据。需要说明的是，这些原始数据中的边都为无向边，本文处理时将每一条边分为两条有向边。

表1网络相关数据统计量

网络	节点数	边数	平均节点度数
				NetHEPT	15.23K	58.89K	7.73
NetPHY	37.15K	231.51K	12.46
				Epinions	75.89K	508.84K	13.41
DBLP	654.63K	1.99M	6.08

对于传播感知的网络表示学习方法，设置表征向量的维度d＝128，每个节点的采样次数τ＝40，采样长度l＝80，窗口大小

参数p,q∈{0.25,0.50,1,2,4}，α∈{0.001,0.01,0.1}，通过网格搜索的方式在每个数据集上找到最合适的参数设置。

实验选取了四种典型的影响力最大化方法作为对比：1)经典贪心算法CELF，该方法由Kempe等人于在《ACM SIGKDD international conference on Knowledge discoveryand data mining》上发表的“Maximizing the spread of influence through a socialnetwork”中提出；2)基于社区的影响力最大化算法CoFIM，该方法由Shang等人在《Knowledge-Based Systems》上发表的“Cofim:A community-based framework forinfluence maximization on large-scale networks”中提出；3)启发式算法SingleDiscount，该方法由Chen等人在《ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining》上发表的“Efficient influence maximization in socialnetworks”中提出；4)最大度选点算法MaxDegree。

实验首先在四个真实世界的数据集上对本发明提出的基于群体的影响力最大化算法GroupIM与其他四种对比算法针对所选取种子节点集的影响力传播效果进行验证，传播模型为权重级联模型，种子节点的选取数量K从1到50个逐个递增，在每个网络上分别做500次实验取平均结果。图2、图3、图4、图5分别显示了五种算法在NetHEPT网络、NETPHY网络、Epinions网络和DBLP网络上的影响力传播效果。从仿真结果图中可看出，本发明提出的GroupIM算法在这四个真实数据集上选出的种子节点的影响力传播效果略低于CELF算法，并且均优于CoFIM算法。例如在NetPHY数据集中，GroupIM算法得到影响力传播范围要比CELF得到的影响力传播范围少3.7％，但相比CoFIM算法，GroupIM算法得到的影响力传播范围要多2.0％。这主要是因为CELF是原始的贪心算法，具有1-1/e的近似保证。而CoFIM和GroupIM都是基于社区或群体对节点的传播影响力进行近似计算，所以相比CELF影响力传播效果略低。GroupIM算法中的群体考虑了节点的影响力传播属性，在基于群体的传播影响力近似计算时考虑了群体规模和边界节点的影响，因而影响力传播效果相比CoFIM更佳。对比另外两个启发式算法SingleDiscount和MaxDegree，GroupIM算法的结果要明显优于这两个启发式算法。这主要是因为Single Discount和Degree都是简单地基于节点的度来选择种子节点，节点的度能在一定程度上反映节点局部位置的重要性，但传播影响力还受到网络整体的结构等因素的影响，因而这两种方法都在影响力传播效果较差。

算法的运行时间和内存占用量是衡量算法性能的另外两个常用的指标。图6描绘了在四个不同的数据集上，五种不同的算法选出50个种子节点所需要的运行时间。可以明显看出，CELF算法在运行时间上要远大于其他四个算法，这使得它无法应用于大规模的网络。本发明提出的GroupIM算法的运行时间与CoFIM算法基本相当，GroupIM算法在5个真实的数据集上均具有与CoFIM算法相接近的时间效率。图7描绘的是这五种算法在四个不同的数据集上，选择50个种子节点所需要的内存大小。综合图2、图3、图4、图5、图6和图7，GroupIM算法在影响力传播范围、运行时间和内存占用量上均有较好的表现，是这五种算法中综合性能最好的算法。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。