CN112214689A - 基于社交网络中群体的影响力最大化方法及系统 - Google Patents

基于社交网络中群体的影响力最大化方法及系统 Download PDF

Info

Publication number
CN112214689A
CN112214689A CN202011138757.9A CN202011138757A CN112214689A CN 112214689 A CN112214689 A CN 112214689A CN 202011138757 A CN202011138757 A CN 202011138757A CN 112214689 A CN112214689 A CN 112214689A
Authority
CN
China
Prior art keywords
nodes
node
influence
propagation
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011138757.9A
Other languages
English (en)
Inventor
潘理
纪耀轩
吴鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202011138757.9A priority Critical patent/CN112214689A/zh
Publication of CN112214689A publication Critical patent/CN112214689A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明提供了一种基于社交网络中群体的影响力最大化方法及系统,包括:步骤1:在社交网络中,通过随机游走法,将节点映射到表征空间并且保留节点的影响力传播属性;步骤2:定义和计算节点之间的传播亲进度,依次合并相邻且传播亲近度最高的节点对,直到满足设定的压缩比例得到粗化网络,其中每个节点对应原始网络中的一个群体;步骤3:根据节点的影响力在群体内传播和在跨群体间传播的属性,构建候选种子集的影响力传播函数,根据贪心算法选取出包含预设个数的节点的最大影响力用户集。本发明在相近的影响力传播效果下具有更高的时间效率,在相近的时间效率下具有更好的影响力传播效果。

Description

基于社交网络中群体的影响力最大化方法及系统
技术领域
本发明涉及社交网络影响力最大化技术领域,具体地,涉及一种基于社交网络中群体的影响力最大化方法及系统。尤其地,涉及一种在大规模社交网络中通过节点表征和聚类实现群体划分并基于群体的影响力最大化方法。
背景技术
在线社交网络(Online Social Networks,OSNs)已成为广大用户群体间信息和影响力快速传播的重要平台,影响力最大化问题旨在挖掘一组种子用户,经过一系列传播之后,使得最终被影响的用户数最多,该研究在精准营销、意见领袖发现,舆情管控等方面有着重要的商业价值。
经检索国内外现有文献发现,针对传统贪心算法复杂度极高而启发式方法缺乏精度保证等不足,当前的研究者们提出了大量改进算法以实现算法精度和效率之间的平衡。其中,基于社区结构和网络粗化的启发式算法,考虑了社交网络内在的社区结构性质,将研究对象从整体网络转换为各个社区,即在特定情况下,节点影响力受社区范围限制只在社区内部传播,不同社区内的影响力传播相互独立。该类方法实现了对传播影响力的简化计算,其精度优于一般的启发式方法且算法复杂度较低,能够适用于大规模网络应用。例如,Purohit等人在《ACM SIGKDD International Conference on Knowledge Discovery andData Mining》上发表文章“Fast influence-based coarsening for large networks”,提出了用网络粗化思想对复杂的大规模网络进行简单表示同时保留原始网络的影响力传播属性,并设计了一种基于网络粗化的影响力最大化算法CSPIN。
上述CSPIN算法合理地压缩了网络规模并保持了网络的影响力传播属性,大幅降低了选点的复杂度,但算法的精度依赖于种子群体的选取算法,通常缺乏精度保证,并且种子节点的选取方式仅是简单地从每个种子群体中任意选择一个节点,缺少对节点影响力的近似估计方法。CoFIM算法能够快速估算节点的传播影响力,具有较低时间复杂度的同时又具有一定的精度保证,但基于连接疏密的社区发现没有考虑网络和节点在影响力传播方面的属性和性质,因此将节点在社区内的影响力近似看作一个常数值的做法缺乏理论支持,并且该方法用相同的常数值近似节点在将各个社区内的影响力,忽略了社区规模这一重要因素。
专利文献CN111428127A(申请号:CN202010069262.9)公开了一种融合主题匹配与双向偏好的个性化事件推荐方法及系统。首先,利用文档主题生成模型LDA提取事件和用户参与的历史事件的主题信息,计算用户与事件的主题匹配度;其次,对于基于事件的社交网络推荐从用户和事件的双向角度考虑,构建用户和事件的偏好模型,分别得到用户偏好评分和事件偏好评分,从用户和事件两个角度更完整地挖掘偏好关系;最后,将用户-事件对匹配度融合用户事件双向偏好线性加权组合得到最终的用户-事件对综合评分,将排序后的TOP-K个用户-事件对作为推荐结果。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于社交网络中群体的影响力最大化方法及系统。
根据本发明提供的基于社交网络中群体的影响力最大化方法,包括:
步骤1:在社交网络中,通过随机游走法,将节点映射到表征空间并且保留节点的影响力传播属性;
步骤2:定义和计算节点之间的传播亲进度,依次合并相邻且传播亲近度最高的节点对,直到满足设定的压缩比例得到粗化网络,其中每个节点对应原始网络中的一个群体;
步骤3:根据节点的影响力在群体内传播和在跨群体间传播的属性,构建候选种子集的影响力传播函数,根据贪心算法选取出包含预设个数的节点的最大影响力用户集。
优选的,所述的步骤1包括:
步骤1.1:根据节点之间的影响力传播偏好和影响力传播路径,生成符合传播语义的节点序列;
步骤1.2:将产生的节点序列作为语料库,通过Skip-Gram模型学习节点的向量表示。
优选的,所述步骤1.1包括:
采样从节点u出发经过t步随机游走产生序列
Figure BDA0002737598160000021
表示
Figure BDA0002737598160000022
中已被访问的节点集合,
Figure BDA0002737598160000023
表示节点ut的未被访问邻居集,
Figure BDA0002737598160000024
表示节点ut的已被访问邻居集,用边权重
Figure BDA0002737598160000025
表示节点ut对节点ut+1的传播偏好,|N(ut)|表示节点ut的邻节点集规模,参数p,q分别控制对两种类型节点的采样权重,α为平滑因子,采样过程按照如下的概率分布访问下一个节点ut+1
Figure BDA0002737598160000031
其中,u’t+1表示第t+1步按照如上式概率分布采样下一个节点;
Figure BDA0002737598160000037
表示节点ut的已被采样的邻节点集合。
优选的,所述步骤2包括:
步骤2.1:根据节点的向量表示,定义和计算所有相邻节点的传播亲近度;
步骤2.2:合并传播亲近度最大值对应的两个相邻节点;
步骤2.3:计算合并后节点的向量表示;
步骤2.4:更新合并后节点与邻居节点的传播亲近度;
步骤2.5:判断网络压缩比例是否达到设定要求,若否,则执行步骤2.2;若是,则将此时的粗化网络作为最终的粗化网络。
优选的,所述步骤2.1包括:
对于相邻的节点i,j和它们的向量表示yi,yj,定义它们的传播亲近度为:
proximity(i,j)=1/||yi-yj||2
其中,||yi-yj||2表示节点i,j的向量表示的欧式距离。
优选的,所述步骤2.2包括:
当相邻节点a,b执行合并操作时,用Ni(a),No(a)分别表示节点a的入度和出度邻居集,
Figure BDA0002737598160000032
Figure BDA0002737598160000038
表示相应的边权重,节点a和b合并成一个新节点c,
Figure BDA0002737598160000033
表示节点a与其入度节点*的边权重,
Figure BDA0002737598160000034
表示节点a与其出度节点*的边权重;
则节点c邻居集的更新规则如下:
Ni(c)=Ni(a)∪Ni(b),No(c)=No(a)∪No(b)
边权重
Figure BDA0002737598160000035
Figure BDA0002737598160000036
按如下公式更新:
Figure BDA0002737598160000041
ya表示通过网络表示学习得到的节点a的表示向量,yb表示通过网络表示学习得到的节点b的表示向量。
优选的,所述步骤2.3包括:
用na和nb分别表示节点a和b执行合并操作前所包含原始网络中的节点数量,将所有已被合并节点的表示向量的平均值作为合并后节点向量的近似表示,计算公式如下:
Figure BDA0002737598160000042
优选的,所述步骤3包括:
影响力的传播分为种子扩张和群体内传播两个阶段;
种子扩张阶段:影响力从种子节点出发传播至这些种子节点的邻居节点,称为二阶种子节点;
群体内传播阶段:影响力从二阶种子节点传播至群体内其余节点,若二阶种子节点为边界节点,则影响力通过该节点传播至邻居群体;
按照如下影响力传播函数计算候选种子集的影响力:
Figure BDA0002737598160000043
其中,S表示种子集,N(S)表示S的邻居节点集,du为节点u的度数,α,ρ为系数常量,NC(S)表示S的邻居群体集,Ci表示第i个群体,Vb表示边界节点;
步简化为如下形式的目标函数:
Figure BDA0002737598160000044
其中,δ为常量参数,不同的网络对应不同的值,e为自然常数。
优选的,所述步骤3还包括:
初始种子集S=φ,每次选取一个种子节点u,使得{g(S∪{u})-g(S)}的值最大化,并加入到当前的种子集,直到种子集的规模达到预设个数。
根据本发明提供的基于社交网络中群体的影响力最大化系统,包括:
模块M1:在社交网络中,通过随机游走法,将节点映射到表征空间并且保留节点的影响力传播属性;
模块M2:定义和计算节点之间的传播亲进度,依次合并相邻且传播亲近度最高的节点对,直到满足设定的压缩比例得到粗化网络,其中每个节点对应原始网络中的一个群体;
模块M3:根据节点的影响力在群体内传播和在跨群体间传播的属性,构建候选种子集的影响力传播函数,根据贪心算法选取出包含预设个数的节点的最大影响力用户集。
与现有技术相比,本发明具有如下的有益效果:
1、本发明通过一种新颖可扩展的传播感知的网络表示学习方法表征节点的影响力传播属性,有效地学习节点的传播偏好和传播语义关系,以低维实值向量的形式表示,并通过节点聚类算法将影响力传播特性相似的节点聚合到同一群体中;
2、本发明进一步地在两阶段传播模型下提出了一种更加准确合理的传播影响力近似计算方法,因为目标函数具有单调性和子模性,所以使得选点策略具有理论值精度保证;
3、本发明提出的方法在相近的运行时间下具有更好的影响力传播效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明方法流程图;
图2为本发明方法与其他四个典型方法在NetHEPT网络上的影响力传播效果对比图;
图3为本发明方法与其他四个典型方法在NetPHY网络上的影响力传播效果对比图;
图4为本发明方法与其他四个典型方法在Epinions网络上的影响力传播效果对比图;
图5为本发明方法与其他四个典型方法在DBLP网络上的影响力传播效果对比图;
图6为本发明方法与其他四个典型方法在四种网络上的算法运行时间对比图;
图7为本发明方法与其他四个典型方法在四种网络上的内存占用量对比图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例:
如图1,本实施例为一个已知社交网络G和种子数K,目标为从网络中找到由K个传播源节点组成的种子集S,使得在给定的传播模型下最终被影响的节点数最多的问题,提供了一种基于群体的影响力最大化方法,该方法包括如下步骤:
步骤S1、根据社交网络G,通过一种基于随机游走的传播感知的网络表示学习方法,保留节点的影响力传播属性并将节点映射到表征空间。具体包括以下步骤:
步骤S11、根据设定的传播感知的随机游走采样策略,考虑节点之间的影响力传播偏好和可能的影响力传播路径,生成符合传播语义的节点序列。具体为:
假设从某个节点u出发经过t步随机游走产生一个序列
Figure BDA0002737598160000061
表示
Figure BDA0002737598160000062
中已被访问的节点集合,
Figure BDA0002737598160000063
表示节点ut的未被访问的邻居节点集,
Figure BDA0002737598160000064
表示节点ut的已被访问的邻节点集合,用边权重
Figure BDA0002737598160000065
表示节点ut对节点ut+1的传播偏好,|N(ut)|表示节点ut的邻节点集规模,参数p,q分别控制采样对两种类型节点的权重,α为平滑因子。那么采样过程将按照如下的概率分布Ps访问下一个节点ut+1
Figure BDA0002737598160000066
当p>q时,每次更可能采样一个已被访问的节点,这使得游走的过程保持在靠近源节点u1的局部范围内,有利于获取更多的局部信息。当p<q时,每次更可能采样一个未被访问的节点,这将鼓励游走过程向外探索,有利于获取更多的全局信息。因此该策略可根据具体网络和后续应用,灵活地构建更多自定义语料库。
步骤S12、将随机游走产生的节点序列视为句子,利用语言建模技术Skip-Gram模型来学习节点的向量表示。对于大小为l的滑动窗口(ui-l,···,ui-1,ui,ui+1,···,ui+l)内的节点关系进行建模。处于滑动窗口中心的节点ui为中心节点,其余的节点
Figure BDA0002737598160000067
为上下文节点,通过表征映射函数g将节点映射到Rd,Skip-Gram模型通过下面的公式近似计算给定中心节点ui时观察到上下文节点集合为
Figure BDA0002737598160000075
的似然概率:
Figure BDA0002737598160000071
采用softmax函数估计上式中的条件概率,再沿着语料库中的路径序列滑动窗口,通过最大化所有节点作为中心节点的平均对数似然率,得出以下目标函数:
Figure BDA0002737598160000072
采用随机梯度下降法对上述目标函数中的参数进行优化,最终得到所定义的表征映射函数g和节点的向量表示yi=g(ui)。通过传播感知的网络表示学习,将网络与节点的结构信息与影响力传播属性等信息以向量的形式表示和呈现,便于后续任务的处理和分析。
步骤S2、定义和计算节点之间的传播亲进度,依次合并相邻且传播亲近度最高的节点对,直到满足设定的压缩比例得到粗化网络H,其中每个节点对应原始网络中的一个群体。具体包括以下步骤:
步骤S21、根据节点的向量表示,定义计算所有相邻节点的传播亲近度;
对于相邻的节点i,j和它们的向量表示yi,yj,定义它们的传播亲近度为:
proximity(i,j)=1/||yi-yj||2
其中,||yi-yj||2表示节点i,j的向量表示的欧式距离,度量了两个向量yi和yj的相异性。传播亲近度衡量了节点表示向量的相似性,同时也度量了节点在影响力传播属性上的相似度,其值越大则它们在表征空间中的距离也越相近并且将以更高的概率共同出现在传播路径上,从而它们越倾向于在传播过程中互相影响。因此可通过节点聚类的方式,将整体连通且相互之间传播亲近度高的节点划分到同一个群体内,使得群体内节点在传播过程中易于相互影响,而不易对群体外节点产生影响。
步骤S22、将传播亲近度最大值对应的两个相邻节点进行合并;
当相邻节点a,b执行合并操作时,用Ni(a)(No(b))分别表示节点a的入度和出度邻居集,
Figure BDA0002737598160000073
Figure BDA0002737598160000074
表示相应的边权重(节点b同理),假设节点a和b合并成一个新节点c。
则节点c邻居集的更新规则如下:
Ni(c)=Ni(a)∪Ni(b),No(c)=No(a)∪No(b)
边权重
Figure BDA0002737598160000081
Figure BDA0002737598160000082
按如下公式更新(
Figure BDA0002737598160000083
同理):
Figure BDA0002737598160000084
步骤S23、计算合并后节点的向量表示;
用na和nb分别表示节点a和b执行合并操作前所包含原始网络中的节点数量(初始值为1),用所有已被合并节点的向量平均值作为合并后节点向量的近似表示,具体计算公式如下:
Figure BDA0002737598160000085
步骤S24、更新合并后节点与其邻居节点的传播亲近度;
步骤S25、判断网络压缩比例是否达到设定要求,若否,则跳回步骤22),若是,则将此时的粗化网络H作为最终的粗化网络。
假设该社交网络包含n个节点,所要挖掘的群体数为c个,则可设定网络压缩比例λ=c/n,也可直接令聚类过程的迭代次数为(n-c)作为终止条件。
步骤S3、根据影响力在群体内易于传播而在跨群体间不易传播的性质,通过两阶段传播模型近似计算候选种子集的影响力,且目标函数具有单调性和子模性,所以可通过贪心策略选取包含K个节点的最大影响力用户集,具体包括以下步骤:
步骤S31、在两阶段传播模型下提出节点影响力的近似计算公式,作为求解影响力最大化问题的目标函数;
根据影响力在所挖掘的群体内易于传播而在跨群体间不易传播的性质,将影响力的传播分为种子扩张和群体内传播两个阶段。种子扩张阶段:初始状态下,影响力从种子节点出发传播至这些种子节点的邻居节点,也称作二阶种子节点;群体内传播阶段:影响力从二阶种子节点传播至群体内的其余节点,此外若二阶种子节点为边界节点,则影响力还可从该二阶种子节点传播至邻居群体。
具体地,在权重级联模型下,可证明一阶种子节点所能影响的二阶种子节点数的期望值为一个常数值;在群体内传播阶段,每个群体内除一阶与二阶种子节点外,其余节点的影响力传播概率可近似为一个常数值,因此二阶种子节点所能影响的节点数期望值与它们所在群体的节点数以及当它们为边界节点时邻居群体的节点数之和成正比。综上,候选种子节点在整个网络中的影响力可近似为:
Figure BDA0002737598160000091
其中,S表示种子集,N(S)表示S的邻居节点集,du为节点u的度数,α,ρ为系数常量,NC(S)表示S的邻居群体集,Ci表示第i个群体,Vb表示边界节点。
上式可进一步简化为如下形式的目标函数:
Figure BDA0002737598160000092
其中,δ为一个常量参数,不同的网络对应不同的值。该目标函数将候选种子集的影响力表示为一种简单可计算的形式,大幅提升了算法效率,同时它具有单调性和子模性,为贪心策略提供了1-1/e的近似保证比。
步骤S32、采用贪心策略,每次选择使得目标函数最大的节点加入种子集,直到种子集内的节点数量达到K个。
本实施例的有效性可以通过下面的仿真实验来进一步说明。需要说明的是,实验中应用的参数不影响本发明的一般性。
1)仿真条件:
CPU:
Figure BDA0002737598160000093
XeonTME5-2620 v4 2.10GHz,RAM 16.00GB,操作系统Windows 10,仿真软件Python 2.7。
2)仿真内容:
用于仿真实验的数据集包括四个真实网络:NetHEPT,NetPHY,Epinions和DBLP网络。表1显示了四个真实网络的一些基本统计数据。需要说明的是,这些原始数据中的边都为无向边,本文处理时将每一条边分为两条有向边。
表1网络相关数据统计量
网络 节点数 边数 平均节点度数
NetHEPT 15.23K 58.89K 7.73
NetPHY 37.15K 231.51K 12.46
Epinions 75.89K 508.84K 13.41
DBLP 654.63K 1.99M 6.08
对于传播感知的网络表示学习方法,设置表征向量的维度d=128,每个节点的采样次数τ=40,采样长度l=80,窗口大小
Figure BDA0002737598160000101
参数p,q∈{0.25,0.50,1,2,4},α∈{0.001,0.01,0.1},通过网格搜索的方式在每个数据集上找到最合适的参数设置。
实验选取了四种典型的影响力最大化方法作为对比:1)经典贪心算法CELF,该方法由Kempe等人于在《ACM SIGKDD international conference on Knowledge discoveryand data mining》上发表的“Maximizing the spread of influence through a socialnetwork”中提出;2)基于社区的影响力最大化算法CoFIM,该方法由Shang等人在《Knowledge-Based Systems》上发表的“Cofim:A community-based framework forinfluence maximization on large-scale networks”中提出;3)启发式算法SingleDiscount,该方法由Chen等人在《ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining》上发表的“Efficient influence maximization in socialnetworks”中提出;4)最大度选点算法MaxDegree。
实验首先在四个真实世界的数据集上对本发明提出的基于群体的影响力最大化算法GroupIM与其他四种对比算法针对所选取种子节点集的影响力传播效果进行验证,传播模型为权重级联模型,种子节点的选取数量K从1到50个逐个递增,在每个网络上分别做500次实验取平均结果。图2、图3、图4、图5分别显示了五种算法在NetHEPT网络、NETPHY网络、Epinions网络和DBLP网络上的影响力传播效果。从仿真结果图中可看出,本发明提出的GroupIM算法在这四个真实数据集上选出的种子节点的影响力传播效果略低于CELF算法,并且均优于CoFIM算法。例如在NetPHY数据集中,GroupIM算法得到影响力传播范围要比CELF得到的影响力传播范围少3.7%,但相比CoFIM算法,GroupIM算法得到的影响力传播范围要多2.0%。这主要是因为CELF是原始的贪心算法,具有1-1/e的近似保证。而CoFIM和GroupIM都是基于社区或群体对节点的传播影响力进行近似计算,所以相比CELF影响力传播效果略低。GroupIM算法中的群体考虑了节点的影响力传播属性,在基于群体的传播影响力近似计算时考虑了群体规模和边界节点的影响,因而影响力传播效果相比CoFIM更佳。对比另外两个启发式算法SingleDiscount和MaxDegree,GroupIM算法的结果要明显优于这两个启发式算法。这主要是因为Single Discount和Degree都是简单地基于节点的度来选择种子节点,节点的度能在一定程度上反映节点局部位置的重要性,但传播影响力还受到网络整体的结构等因素的影响,因而这两种方法都在影响力传播效果较差。
算法的运行时间和内存占用量是衡量算法性能的另外两个常用的指标。图6描绘了在四个不同的数据集上,五种不同的算法选出50个种子节点所需要的运行时间。可以明显看出,CELF算法在运行时间上要远大于其他四个算法,这使得它无法应用于大规模的网络。本发明提出的GroupIM算法的运行时间与CoFIM算法基本相当,GroupIM算法在5个真实的数据集上均具有与CoFIM算法相接近的时间效率。图7描绘的是这五种算法在四个不同的数据集上,选择50个种子节点所需要的内存大小。综合图2、图3、图4、图5、图6和图7,GroupIM算法在影响力传播范围、运行时间和内存占用量上均有较好的表现,是这五种算法中综合性能最好的算法。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于社交网络中群体的影响力最大化方法,其特征在于,包括:
步骤1:在社交网络中,通过随机游走法,将节点映射到表征空间并且保留节点的影响力传播属性;
步骤2:定义和计算节点之间的传播亲进度,依次合并相邻且传播亲近度最高的节点对,直到满足设定的压缩比例得到粗化网络,其中每个节点对应原始网络中的一个群体;
步骤3:根据节点的影响力在群体内传播和在跨群体间传播的属性,构建候选种子集的影响力传播函数,根据贪心算法选取出包含预设个数的节点的最大影响力用户集。
2.根据权利要求1所述的基于社交网络中群体的影响力最大化方法,其特征在于,所述的步骤1包括:
步骤1.1:根据节点之间的影响力传播偏好和影响力传播路径,生成符合传播语义的节点序列;
步骤1.2:将产生的节点序列作为语料库,通过Skip-Gram模型学习节点的向量表示。
3.根据权利要求2所述的基于社交网络中群体的影响力最大化方法,其特征在于,所述步骤1.1包括:
采样从节点u出发经过t步随机游走产生序列
Figure FDA0002737598150000011
Figure FDA0002737598150000012
表示
Figure FDA0002737598150000013
中已被访问的节点集合,
Figure FDA0002737598150000014
表示节点ut的未被访问邻居集,
Figure FDA0002737598150000015
表示节点ut的已被访问邻居集,用边权重
Figure FDA0002737598150000016
表示节点ut对节点ut+1的传播偏好,|N(ut)|表示节点ut的邻节点集规模,参数p,q分别控制对两种类型节点的采样权重,α为平滑因子,采样过程按照如下的概率分布访问下一个节点ut+1
Figure FDA0002737598150000017
其中,u′t+1表示第t+1步按照如上式概率分布采样下一个节点;
Figure FDA0002737598150000018
表示节点ut的已被采样的邻节点集合。
4.根据权利要求2所述的基于社交网络中群体的影响力最大化方法,其特征在于,所述步骤2包括:
步骤2.1:根据节点的向量表示,定义和计算所有相邻节点的传播亲近度;
步骤2.2:合并传播亲近度最大值对应的两个相邻节点;
步骤2.3:计算合并后节点的向量表示;
步骤2.4:更新合并后节点与邻居节点的传播亲近度;
步骤2.5:判断网络压缩比例是否达到设定要求,若否,则执行步骤2.2;若是,则将此时的粗化网络作为最终的粗化网络。
5.根据权利要求4所述的基于社交网络中群体的影响力最大化方法,其特征在于,所述步骤2.1包括:
对于相邻的节点i,j和它们的向量表示yi,yj,定义它们的传播亲近度为:
proximity(i,j)=1/||yi-yj||2
其中,||yi-yj||2表示节点i,j的向量表示的欧式距离。
6.根据权利要求4所述的基于社交网络中群体的影响力最大化方法,其特征在于,所述步骤2.2包括:
当相邻节点a,b执行合并操作时,用Ni(a),No(a)分别表示节点a的入度和出度邻居集,
Figure FDA0002737598150000021
Figure FDA0002737598150000022
表示相应的边权重,节点a和b合并成一个新节点c,
Figure FDA0002737598150000023
表示节点a与其入度节点*的边权重,
Figure FDA0002737598150000024
表示节点a与其出度节点*的边权重;
则节点c邻居集的更新规则如下:
Ni(c)=Ni(a)∪Ni(b),No(c)=No(a)∪No(b)
边权重
Figure FDA0002737598150000025
Figure FDA0002737598150000026
按如下公式更新:
Figure FDA0002737598150000027
ya表示通过网络表示学习得到的节点a的表示向量,yb表示通过网络表示学习得到的节点b的表示向量。
7.根据权利要求6所述的基于社交网络中群体的影响力最大化方法,其特征在于,所述步骤2.3包括:
用na和nb分别表示节点a和b执行合并操作前所包含原始网络中的节点数量,将所有已被合并节点的表示向量的平均值作为合并后节点向量的近似表示,计算公式如下:
Figure FDA0002737598150000031
8.根据权利要求1所述的基于社交网络中群体的影响力最大化方法,其特征在于,所述步骤3包括:
影响力的传播分为种子扩张和群体内传播两个阶段;
种子扩张阶段:影响力从种子节点出发传播至这些种子节点的邻居节点,称为二阶种子节点;
群体内传播阶段:影响力从二阶种子节点传播至群体内其余节点,若二阶种子节点为边界节点,则影响力通过该节点传播至邻居群体;
按照如下影响力传播函数计算候选种子集的影响力:
Figure FDA0002737598150000032
其中,S表示种子集,N(S)表示S的邻居节点集,du为节点u的度数,α,ρ为系数常量,NC(S)表示S的邻居群体集,Ci表示第i个群体,Vb表示边界节点;
步简化为如下形式的目标函数:
Figure FDA0002737598150000033
其中,δ为常量参数,不同的网络对应不同的值,e为自然常数。
9.根据权利要求8所述的基于社交网络中群体的影响力最大化方法,其特征在于,所述步骤3还包括:
初始种子集S=φ,每次选取一个种子节点u,使得{g(S∪{u})-g(S)}的值最大化,并加入到当前的种子集,直到种子集的规模达到预设个数。
10.一种基于社交网络中群体的影响力最大化系统,其特征在于,包括:
模块M1:在社交网络中,通过随机游走法,将节点映射到表征空间并且保留节点的影响力传播属性;
模块M2:定义和计算节点之间的传播亲进度,依次合并相邻且传播亲近度最高的节点对,直到满足设定的压缩比例得到粗化网络,其中每个节点对应原始网络中的一个群体;
模块M3:根据节点的影响力在群体内传播和在跨群体间传播的属性,构建候选种子集的影响力传播函数,根据贪心算法选取出包含预设个数的节点的最大影响力用户集。
CN202011138757.9A 2020-10-22 2020-10-22 基于社交网络中群体的影响力最大化方法及系统 Pending CN112214689A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011138757.9A CN112214689A (zh) 2020-10-22 2020-10-22 基于社交网络中群体的影响力最大化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011138757.9A CN112214689A (zh) 2020-10-22 2020-10-22 基于社交网络中群体的影响力最大化方法及系统

Publications (1)

Publication Number Publication Date
CN112214689A true CN112214689A (zh) 2021-01-12

Family

ID=74056516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011138757.9A Pending CN112214689A (zh) 2020-10-22 2020-10-22 基于社交网络中群体的影响力最大化方法及系统

Country Status (1)

Country Link
CN (1) CN112214689A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818245A (zh) * 2021-02-25 2021-05-18 上海大学 一种基于高斯传播模型的社交网络影响力最大化方法
CN113378470A (zh) * 2021-06-22 2021-09-10 常熟理工学院 一种面向时序网络的影响力最大化方法及系统
CN114417184A (zh) * 2022-03-31 2022-04-29 苏州浪潮智能科技有限公司 一种种子节点筛选方法、装置、设备、存储介质
CN114553818A (zh) * 2022-02-23 2022-05-27 中国矿业大学 社交网络影响力最大化节点识别方法及系统
CN115659007A (zh) * 2022-09-21 2023-01-31 浙江大学 一种基于多样性的动态影响力传播种子最小化方法
CN115878908A (zh) * 2023-01-09 2023-03-31 华南理工大学 一种图注意力机制的社交网络影响力最大化方法及系统
CN117057943A (zh) * 2023-07-10 2023-11-14 齐齐哈尔大学 一种节点特征感知的时序社交网络影响力最大化方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160232161A1 (en) * 2015-01-09 2016-08-11 Research Foundation Of The City University Of New York Method to maximize message spreading in social networks and find the most influential people in social media
CN108492201A (zh) * 2018-03-29 2018-09-04 山东科技大学 一种基于社区结构的社交网络影响力最大化方法
CN108510115A (zh) * 2018-03-29 2018-09-07 山东科技大学 一种面向动态社交网络的影响力最大化分析方法
US20180315083A1 (en) * 2015-01-09 2018-11-01 Research Foundation Of The City University Of New York Method to maximize message spreading in social networks and find the most influential people in social media
CN110838072A (zh) * 2019-10-24 2020-02-25 华中科技大学 一种基于社区发现的社交网络影响力最大化方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160232161A1 (en) * 2015-01-09 2016-08-11 Research Foundation Of The City University Of New York Method to maximize message spreading in social networks and find the most influential people in social media
US20180315083A1 (en) * 2015-01-09 2018-11-01 Research Foundation Of The City University Of New York Method to maximize message spreading in social networks and find the most influential people in social media
CN108492201A (zh) * 2018-03-29 2018-09-04 山东科技大学 一种基于社区结构的社交网络影响力最大化方法
CN108510115A (zh) * 2018-03-29 2018-09-07 山东科技大学 一种面向动态社交网络的影响力最大化分析方法
CN110838072A (zh) * 2019-10-24 2020-02-25 华中科技大学 一种基于社区发现的社交网络影响力最大化方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YAOXUAN JI ET AL.: "Influence Maximization on Large-Scale Networks with a Group-Based Method via Network Embedding", 《2019 IEEE FOURTH INTERNATIONAL CONFERENCE ON DATA SCIENCE IN CYBERSPACE (DSC)》 *
黄丹华: "基于群体的影响力最大化分析", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818245A (zh) * 2021-02-25 2021-05-18 上海大学 一种基于高斯传播模型的社交网络影响力最大化方法
CN113378470A (zh) * 2021-06-22 2021-09-10 常熟理工学院 一种面向时序网络的影响力最大化方法及系统
CN114553818A (zh) * 2022-02-23 2022-05-27 中国矿业大学 社交网络影响力最大化节点识别方法及系统
CN114553818B (zh) * 2022-02-23 2022-11-18 中国矿业大学 社交网络影响力最大化节点识别方法及系统
CN114417184A (zh) * 2022-03-31 2022-04-29 苏州浪潮智能科技有限公司 一种种子节点筛选方法、装置、设备、存储介质
CN115659007A (zh) * 2022-09-21 2023-01-31 浙江大学 一种基于多样性的动态影响力传播种子最小化方法
CN115659007B (zh) * 2022-09-21 2023-11-14 浙江大学 一种基于多样性的动态影响力传播种子最小化方法
CN115878908A (zh) * 2023-01-09 2023-03-31 华南理工大学 一种图注意力机制的社交网络影响力最大化方法及系统
CN115878908B (zh) * 2023-01-09 2023-06-02 华南理工大学 一种图注意力机制的社交网络影响力最大化方法及系统
CN117057943A (zh) * 2023-07-10 2023-11-14 齐齐哈尔大学 一种节点特征感知的时序社交网络影响力最大化方法及系统
CN117057943B (zh) * 2023-07-10 2024-05-03 齐齐哈尔大学 一种节点特征感知的时序社交网络影响力最大化方法及系统

Similar Documents

Publication Publication Date Title
CN112214689A (zh) 基于社交网络中群体的影响力最大化方法及系统
Bou-Hamad et al. A review of survival trees
Boyen et al. Discovering the hidden structure of complex dynamic systems
US10438130B2 (en) Computer-implemented system and method for relational time series learning
Örkcü et al. Estimating the parameters of 3-p Weibull distribution using particle swarm optimization: A comprehensive experimental comparison
CN114048331A (zh) 一种基于改进型kgat模型的知识图谱推荐方法及系统
US20110029475A1 (en) Taxonomy-driven lumping for sequence mining
Bok et al. Social group recommendation based on dynamic profiles and collaborative filtering
CN106462620A (zh) 巨型网络上的距离查询
CN106708953A (zh) 基于离散粒子群优化的局部社区检测协同过滤推荐方法
Xiao et al. Memory-augmented monte carlo tree search
CN110990718A (zh) 一种公司形象提升系统的社会网络模型构建模块
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及系统
CN110659363B (zh) 基于膜计算的Web服务混合进化聚类方法
CN106599122B (zh) 一种基于垂直分解的并行频繁闭序列挖掘方法
JP6451735B2 (ja) エネルギー量推定装置、エネルギー量推定方法、及び、エネルギー量推定プログラム
Kattan et al. GP made faster with semantic surrogate modelling
Zamani et al. Stochastic retrieval-conditioned reranking
Keerthi Chandra et al. Collective embedding with feature importance: A unified approach for spatiotemporal network embedding
Wang et al. A new interactive model for improving the learning performance of back propagation neural network
Vasilev et al. Survival Analysis Algorithms based on Decision Trees with Weighted Log-rank Criteria.
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
CN113688424A (zh) 基于权重社会网络的个性化差分隐私保护方法
CN112885405A (zh) 疾病关联miRNA的预测方法和系统
Khatri et al. Influence Maximization in Social Networks using Discretized Harris Hawks Optimization Algorithm and Neighbour Scout Strategy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210112