CN111177529A - 基于节点属性稀疏性的网络影响力最大化方法 - Google Patents

基于节点属性稀疏性的网络影响力最大化方法 Download PDF

Info

Publication number
CN111177529A
CN111177529A CN201911152672.3A CN201911152672A CN111177529A CN 111177529 A CN111177529 A CN 111177529A CN 201911152672 A CN201911152672 A CN 201911152672A CN 111177529 A CN111177529 A CN 111177529A
Authority
CN
China
Prior art keywords
users
attribute
user
propagation
influence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911152672.3A
Other languages
English (en)
Inventor
李卫民
李亚琼
邓志斌
钟克欣
莫俊
戴东波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Transpacific Technology Development Ltd
University of Shanghai for Science and Technology
Original Assignee
Beijing Transpacific Technology Development Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Transpacific Technology Development Ltd filed Critical Beijing Transpacific Technology Development Ltd
Priority to CN201911152672.3A priority Critical patent/CN111177529A/zh
Publication of CN111177529A publication Critical patent/CN111177529A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开基于节点属性稀疏性的网络影响力最大化方法,包括以下步骤:选择基础算法、融合用户属性的传播模型、用户相似度、属性稀疏性、基于属性稀疏性的传播概率、影响力最大化、基于扩散关键用户的传播更新策略和算法详解;本发明通过分析重叠社区中有聚集特性的扩散关键用户,将其作为初始传播种子集合;对于用户的个性化特征,本发明在计算用户间属性相似度的基础上,引入了属性稀疏的概念,在模拟信息传播过程中讨论用户间相似度对信息传播的影响,在此基础上构建了融入用户属性相似度的改进的独立级联模型,最后在大量实验的基础上,证实了所提出要考虑的两个因素:用户属性和扩散关键用户对影响力最大化问题研究的重要意义。

Description

基于节点属性稀疏性的网络影响力最大化方法
技术领域
本发明涉及社交传播领域,尤其涉及基于节点属性稀疏性的网络 影响力最大化方法。
背景技术
近年来,互联网技术急速发展,网络用户数量庞大,网络中存在 的潜在价值也越来越丰富,值得我们去挖掘和研究,人们的生活与社 交网络的联系越来越密切,同时,网络对人们现实生活的影响也越来 越大,催生出网络营销等方法对产品进行推销,
社交网络中的影响力最大化问题研究有很重要的现实意义,如营 销广告和舆情监控等[1][2],比如,一些商家需要推出新产品,需要 在人群中找到有影响力的个体,给这些人提供免费试用的机会,让他 们将这种新产品的信息介绍给他们的朋友,以使得产品在人群中获得 最大范围的认可,简单来说,影响力最大化问题就是在一定的约束条 件下,选取一组用户,然后运用影响力扩散模型模拟信息传播过程, 使得以这组初始用户开始的信息扩散能够将影响力的范围扩散到最 大,对于社交网络中流言的传播,计算机病毒的扩散等,需要找出影 响力最大的传播种子用户,然后将这些用户去除或阻隔,达到管控的 目的,
在社交网络影响力最大化研究领域,最主体的算法是产生自问题 研究初期的贪心算法[3-6],贪心算法大多采用Monte-Carle模拟, 对信息传播的模拟比较精确,但是在大型网络上,需要有良好时间效 率的算法,于是很多学者对贪心算法做了改进,提出了一些启发式算 法[7-9],由于现实中问题的需求和推动,有研究学者提出了针对特 定问题的影响力最大化算法,如,在有预算限制条件下的影响力最大 化算法;在有时间限制下的影响力最大化算法;动态网络上的影响力 最大化算法研究等,还有一些方法借用经济学概念结合 Shapley-Value[10]和遗传算法[11]来解决问题,
传统的贪心算法是在整个研究的网络中,迭代寻找当前能使影响 力最大的用户加入种子集合,没有考虑到用户的个性化特征,也没有 考虑网络结构等因素,没有合理利用网络结构的优势来处理问题,网 络中的用户各有特点,每个用户的属性不尽相同,因此,本发明提出 基于节点属性稀疏性的网络影响力最大化方法以解决现有技术中存 在的问题。
发明内容
针对上述问题,本发明提出基于节点属性稀疏性的网络影响力最 大化方法,该方法通过分析重叠社区中有聚集特性的扩散关键用户, 将其作为初始传播种子集合;对于用户的个性化特征,本发明在计算 用户间属性相似度的基础上,引入了属性稀疏的概念,在模拟信息传 播过程中讨论用户间相似度对信息传播的影响,在此基础上构建了融 入用户属性相似度的改进的独立级联模型。
为了解决上述问题,本发明提出基于节点属性稀疏性的网络影响 力最大化方法,包括以下步骤:
步骤一:选择基础算法
选择有高准确度的贪心算法为基础,展开研究和实验;
步骤二:融合用户属性的传播模型
在独立级联模型思想的基础上,结合属性对传播的影响,建立一 种融合用户属性的传播模型,主要在级联概率的基础上,结合属性相 似度,建立属性对传播影响的建模;
步骤三:用户相似度
设定定义:用户相似度,设定用户u的属性向量lu(a1,a2,…,am),用 户v的属性向量lv(b1,b2,…,bm),是否有这个属性用1和0表示,用欧式 距离表示两用户之间的相似度,
Figure BDA0002283969810000031
duv(l)的值越小,表示用户u和v之间的属性越相似。
用户的属性向量的组成分为很多部分,若一个用户是一个学生, 那么其属性向量为姓名、年龄等固定的属性,还包括文学爱好、电影 偏好,以及所在地区的非固定的属性,在非固定的属性中有过经验的 用1表示,否则用0表示,从而构成用户u的属性向量(1,0,0,……, 0,1),在众多属性中,若某一种属性为共性属性,则此属性的研究 参考意义小,故将这个公共性属性特征略去;
步骤四:属性稀疏性
设定定义:属性稀疏性,基于步骤三的思想,分析用户属性值中 值1和值0的属性数量分布状况,定义属性稀疏如下:存在一个用户uj(uj∈V,0<j<N)其有属性串
Figure BDA0002283969810000041
Figure BDA0002283969810000042
则说第i列属性为稀疏的,这里θi是阈值,它描述的是第i列属性特 征中1和0的分布状况,θ默认值为
Figure BDA0002283969810000043
该式中L表示属性数据中第i 列属性的数量,
Figure BDA0002283969810000044
该式表达了,在属性列中,若大部分用户都有该属性特征,即1的数 量较多,那么该列属性在我们的算法中不列为参考信息,使duv(l)′=0;
步骤五:基于属性稀疏性的传播概率
在传播模型中,定义两用户间基于属性稀疏性的传播概率Puv′ 为:
Figure BDA0002283969810000045
另外,利用融合用户属性对独立级联模型进行了改进,使信息传 播时,一个用户u对用户v激活的概率变为Puv′,融合用户属性独 立级联模型的传播过程如下:
(1)在t=0时刻,从初始传播种子集合S开始;
(2)在每一个时间步t,活跃用户vi,vi∈St-1,会有一次 机会去激活它的不活跃状态的邻居用户vj,激活成功的概率是 Puv′。若vj被成功激活,则将vj加入集合St
(3)当St为空时,传播过程结束;
步骤六:影响力最大化
给定一个种子集合S,定义S的影响力为传播过程结束时,将活 跃用户数目的期望值记为σ(S),由于在IC模型下影响力最大化问 题是发现一个种子集合S(
Figure BDA0002283969810000051
|S|≤k)使得σ(S)最大,因此, 将影响力最大化问题定义为:
Figure BDA0002283969810000052
影响力最大化问题基本解决思路使用如下算法,
Algorithml:Greedy Algorithm of Kempe et al.[3].Greedy(G=(V,E),k):
1.设置
Figure BDA0002283969810000053
2.for i=1 to k
3.
Figure RE-GDA0002406839850000052
4.Sk=Sk∪{v}
5.end for
IC模型下的独立级联模型是NP-hard问题,函数σ(S)具有子模 性;假设
Figure BDA0002283969810000055
并且s∈V\B,加入用户属性后,信息扩散 依然遵循传播模型中独立随机的概念,从而得到:
σ(A∪{s})-σ(A)≥σ(B∪{s})-σ(B):
步骤七:基于扩散关键用户的传播更新策略
提出基于重叠社区中扩散关键用户的影响力最大化算法:设定定 义:基于扩散关键用户的边际效益:
Figure BDA0002283969810000061
这里,ρs(v)即是用户v在种子集合S上的基于扩散关键用户边 际效益,这里
Figure BDA0002283969810000062
是集合SOverlapping的影响力,集合
SOverlapping表示该种子集合是包含扩散关键用户的种子集合S,
选取扩散关键用户作为初始种子集合中的用户,再在此基础上, 选择top-k个边际收益最大的用户,在每次选择top-k个用户计算边 际效益时,对比的基础发生变化,每次计算的边际效益都优先考虑到 扩散关键用户的影响,目标函数为:
Figure BDA0002283969810000063
每两个重叠的社区之间,会有大于等于1个的扩散关键用户,在 选择扩散关键用户作为候选种子时,遵循以下规则,假设第i个社区 和第i+1个社区之间扩散关键用户个数为Oi,随机选择
Figure BDA0002283969810000065
个用户作为 候选种子,
Figure BDA0002283969810000064
在影响最大化研究中,算法的初始种子集合均为空,在n个扩散 关键用户组合初始种子集合的情况下,计算出k个种子用户,最后种 子集合中用户数为n+k个,在此基础上删除n个用户,然后构建用户 更新策略,使最后留下的用户影响力最大化:网络中的用户会出现聚 集的现象,利用重叠社区发现算法,计算出网络中的重叠社区和扩散 关键用户,在每两个重叠社区的扩散关键用户中,选择一个加入集 合
Figure BDA0002283969810000071
形成初始种子集合,在选择了k个候选种子用户后, 再在依次计算每个用户的边际效益,选择能够使边际效益最大的用户 留在集合S中;
步骤八:算法详解
融合扩散关键用户基于属性稀疏性的影响力最大化算法,算法的 伪代码详见如下:
Algorithm2:IMNPC(G=(V,E),SOverlapping,k,Puv′)
输入:图G(V,E),k,扩散关键用户集合
输出:初始传播集合
1.集合S0=Sn
2.for i=1 to k
3.根据公式(1)和(2)计算,
4.if 1+duv(l)′<1
5.Puv′←Puv(1+duv(l)′)
6.
Figure BDA0002283969810000072
7.endif
8.Sk=Sk∪{v}
9.endfor
10.for j=1 to n+k
11.
Figure BDA0002283969810000073
12.S=S\v
13.endfor
14.计算种子集合Sk影响力
15.输出inf(Sk)和Sk
16.结束。
进一步改进在于:所述步骤一中,选择贪心算法为基础的依据为: 贪心算法是由传播模型出发,寻找当前能够获得最大影响范围的用 户。
进一步改进在于:所述步骤三中,若某一种属性为共性属性,则 此属性的研究参考意义小,例如:在人际交流网络中,当大部分用户 都来自同一地区时,则用户的地区属性参考意义小。
进一步改进在于:所述步骤五中,对于任意两用户u,v(u,v∈V), 每个用户有L个属性,当用户u,v的第t(1<t<L)个属性列属性稀 疏时,该属性特征对研究用户u和v之间信息的传播具有重要意义, 当第t列属性特征为非稀疏属性时,那么第t列属性特征对用户间信 息的传播的影响会减少。
进一步改进在于:所述步骤六中,证明:当
Figure BDA0002283969810000081
时, σ(A∪{s})-σ(A)的值小于等于|V|-|A∪{s}|,而σ(B∪{s})-σ(B)的 值小于等于|V|-|B∪{s}|,因为
Figure BDA0002283969810000082
即|A|<|B|,所以 |V|-|A∪{s}|大于等于|V|-|A∪{s}|,所以 σ(A∪{s})-σ(A)≥σ(B∪{s})-σ(B)。
进一步改进在于:所述步骤七中,由于网络中社区的存在具有客 观性,社区之间的重叠现象也具有一定的普遍性,扩散关键用户是两 个社区之间连接的重要部分,不仅网络结构,而且在网络上信息传播 方面起着重要的作用,而影响力最大化问题,就是寻找一些有重要作 用的用户,使得以这些重要用户开始进行信息传播时,最后信息扩散 的范围能够尽可能大,因此提出基于重叠社区中扩散关键用户的影响 力最大化算法。
进一步改进在于:所述步骤八中,算法中第一行赋予初始种子集 合不为空,内容为扩散关键用户,第2行到第5行,在初始种子集合 基础上,计算top-k个候选种子用户,第6行到第9行,在n+k个候 选种子用户中,选择能使前k大的用户,其余用户舍弃。
本发明的有益效果为:本发明通过分析重叠社区中有聚集特性的 扩散关键用户,将其作为初始传播种子集合;对于用户的个性化特征, 本发明在计算用户间属性相似度的基础上,引入了属性稀疏的概念, 在模拟信息传播过程中讨论用户间相似度对信息传播的影响,在此基 础上构建了融入用户属性相似度的改进的独立级联模型,最后在大量 实验的基础上,得出本发明提出的算法效果要好于传统算法,证实了 本发明所提出要考虑的两个因素:用户属性和扩散关键用户对影响力 最大化问题研究的重要意义。
附图说明
图1为本发明的实验对比图;
图2为本发明的实验对比图;
图3为本发明的实验对比图;
图4为本发明的实验结果图。
具体实施方式
为了使发明实现的技术手段、达成目的与功效易于明白了解,下 面结合具体实施方式,进一步阐述本发明。
本实施例提供了基于节点属性稀疏性的网络影响力最大化方法, 具体步骤如下:
步骤一:选择基础算法
选择有高准确度的贪心算法为基础,由传播模型出发,寻找当前 能够获得最大影响范围的用户,展开研究和实验;
步骤二:融合用户属性的传播模型
在独立级联模型思想的基础上,结合属性对传播的影响,建立一 种融合用户属性的传播模型,主要在级联概率的基础上,结合属性相 似度,建立属性对传播影响的建模;
步骤三:用户相似度
设定定义:用户相似度,设定用户u的属性向量lu(a1,a2,…,am),用 户v的属性向量lv(b1,b2,…,bm),是否有这个属性用1和0表示,用欧式 距离表示两用户之间的相似度,
Figure BDA0002283969810000101
duv(l)的值越小,表示用户u和v之间的属性越相似。
用户的属性向量的组成分为很多部分,若一个用户是一个学生, 那么其属性向量为姓名、年龄等固定的属性,还包括文学爱好、电影 偏好,以及所在地区的非固定的属性,在非固定的属性中有过经验的 用1表示,否则用0表示,从而构成用户u的属性向量(1,0,0,……, 0,1),在众多属性中,若某一种属性为共性属性,则此属性的研究 参考意义小,例如:在人际交流网络中,当大部分用户都来自同一地 区时,则用户的地区属性参考意义小,故将这个公共性属性特征略去;
步骤四:属性稀疏性
设定定义:属性稀疏性,基于步骤三的思想,分析用户属性值中 值1和值0的属性数量分布状况,定义属性稀疏如下:
存在一个用户uj(uj∈V,0<j<N)其有属性串
Figure BDA0002283969810000111
Figure BDA0002283969810000112
则说第i列属性为稀疏的,这里θi是阈值,它描述的是第i列属性特 征中1和0的分布状况,θ默认值为
Figure BDA0002283969810000113
该式中L表示属性数据中第i 列属性的数量,
Figure BDA0002283969810000114
该式表达了,在属性列中,若大部分用户都有该属性特征,即1的数 量较多,那么该列属性在我们的算法中不列为参考信息,使duv(l)′=0;
步骤五:基于属性稀疏性的传播概率
对于任意两用户u,v(u,v∈V),每个用户有L个属性,当用 户u,v的第t(1<t<L)个属性列属性稀疏时,该属性特征对研究用户 u和v之间信息的传播具有重要意义,当第t列属性特征为非稀疏属 性时,那么第t列属性特征对用户间信息的传播的影响会减少,因此, 在传播模型中,定义两用户间基于属性稀疏性的传播概率Puv′为:
Figure BDA0002283969810000121
另外,利用融合用户属性对独立级联模型进行了改进,使信息传 播时,一个用户u对用户v激活的概率变为Puv′,融合用户属性独 立级联模型的传播过程如下:
(1)在t=0时刻,从初始传播种子集合S开始;
(2)在每一个时间步t,活跃用户vi,vi∈St-1,会有一次 机会去激活它的不活跃状态的邻居用户vj,激活成功的概率是
Puv′。若vj被成功激活,则将vj加入集合St
(3)当St为空时,传播过程结束;
步骤六:影响力最大化
给定一个种子集合S,定义S的影响力为传播过程结束时,将活 跃用户数目的期望值记为σ(S),由于在IC模型下影响力最大化问 题是发现一个种子集合S(
Figure BDA0002283969810000122
|S|≤k)使得σ(S)最大,因此, 将影响力最大化问题定义为:
Figure BDA0002283969810000123
影响力最大化问题基本解决思路使用如下算法,
Algorithm1:Greedy Algorithm of Kempe et al.[3].Greedy(G=(V,E),k):
1.设置
Figure BDA0002283969810000131
2.for i=1 to k
3.
Figure BDA0002283969810000132
4.Sk=Sk∪{v}
5.end for
IC模型下的独立级联模型是NP-hard问题,函数σ(S)具有子模 性;假设
Figure BDA0002283969810000133
并且s∈V\B,加入用户属性后,信息扩散 依然遵循传播模型中独立随机的概念,从而得到:
σ(A∪{s})-σ(A)≥σ(B∪{s})-σ(B)
证明:当
Figure BDA0002283969810000134
时,σ(A∪{s})-σ(A)的值小于等于 |V|-|A∪{S}|,而σ(B∪{s})-σ(B)的值小于等于|V|-|B∪{S}|,因 为
Figure BDA0002283969810000135
即|A|<|B|,所以|V|-|A∪{S}|大于等于 |V|-|A∪{s}|,所以σ(A∪{s})-σ(A)≥σ(B∪{s})-σ(B);
步骤七:基于扩散关键用户的传播更新策略
由于网络中社区的存在具有客观性,社区之间的重叠现象也具有 一定的普遍性,扩散关键用户是两个社区之间连接的重要部分,不仅 网络结构,而且在网络上信息传播方面起着重要的作用,而影响力最 大化问题,就是寻找一些有重要作用的用户,使得以这些重要用户开 始进行信息传播时,最后信息扩散的范围能够尽可能大,因此,提出 基于重叠社区中扩散关键用户的影响力最大化算法:设定定义:基于 扩散关键用户的边际效益:
Figure BDA0002283969810000141
这里,ρs(v)即是用户v在种子集合S上的基于扩散关键用户边 际效益,这里
Figure BDA0002283969810000142
是集合SOvsrlapping的影响力,集合 SOvsrlapping表示该种子集合是包含扩散关键用户的种子集合S, 选取扩散关键用户作为初始种子集合中的用户,再在此基础上, 选择top-k个边际收益最大的用户,在每次选择top-k个用户计算边 际效益时,对比的基础发生变化,每次计算的边际效益都优先考虑到 扩散关键用户的影响,目标函数为:
Figure BDA0002283969810000143
每两个重叠的社区之间,会有大于等于1个的扩散关键用户,在 选择扩散关键用户作为候选种子时,遵循以下规则,假设第i个社区 和第i+1个社区之间扩散关键用户个数为Oi,随机选择
Figure BDA0002283969810000145
个用户作为 候选种子,
Figure BDA0002283969810000144
在影响最大化研究中,算法的初始种子集合均为空,在n个扩散 关键用户组合初始种子集合的情况下,计算出k个种子用户,最后种 子集合中用户数为n+k个,在此基础上删除n个用户,然后构建用户 更新策略,使最后留下的用户影响力最大化:网络中的用户会出现聚 集的现象,利用重叠社区发现算法,计算出网络中的重叠社区和扩散 关键用户,在每两个重叠社区的扩散关键用户中,选择一个加入集 合
Figure BDA0002283969810000151
形成初始种子集合,在选择了k个候选种子用户后, 再在依次计算每个用户的边际效益,选择能够使边际效益最大的用户 留在集合S中;
步骤八:算法详解
融合扩散关键用户基于属性稀疏性的影响力最大化算法,算法的 伪代码详见如下:
Algorithm2:IMNPC(G=(V,E),SOverlapping,k,Puv′)
输入:图G(V,E),k,扩散关键用户集合
输出:初始传播集合
1.集合S0=Sn
2.for i=1 to k
3.根据公式(1)和(2)计算,
4.if 1+duv(l)′<1
5.Puv′←Puv(1+duv(l)′)
6.
Figure BDA0002283969810000152
7.endif
8.Sk=Sk∪{v}
9.endfor
10.for j=1 to n+k
11.
Figure BDA0002283969810000153
12.S=S\v
13.endfor
14.计算种子集合Sk影响力
15.输出inf(Sk)和Sk
16.结束。
算法中第一行赋予初始种子集合不为空,内容为扩散关键用户, 第2行到第5行,在初始种子集合基础上,计算top-k个候选种子用 户,第6行到第9行,在n+k个候选种子用户中,选择能使前k大的 用户,其余用户舍弃。
实验设计
选择真实的有向网络数据集WiKi数据集和推特数据集。两个数 据集均是有向网络。
使用提出的融合用户属性的独立级联模型,每条边的概率为 Puv′。实验中,借鉴了社区划分算法,将网络图数据输入到算法里, 找出其中的扩散关键用户,将扩散关键用户集合作为算法2的输入条 件。为了验证本文所提算法的有效性,实验选择了目前有代表性的算 法进行了比较。为了对比实验效果,在每一轮的种子选择时模拟 Monte-Carlo10000次,以便于达到最好的实验效果;
实验结果
社交网络中影响力最大化算法的评价指标是影响效果。在算法寻 找的初始传播种子集合下,使得传播最终结束时受到影响的用户数最 多。在下面的实验结果折线图中,X轴表示种子用户数,Y轴表示影 响范围。实验分别在三个数据集上设置不同的k值来比较算法的有效 性。结果显示如图1、图2,IMNPC线段是传统算法的实验数据结果, GreedyAlgorithm线段为我们算法的实验结果,可以看出,不论k 的值得大小,IMNPC可以达到Greedy Algorithm可算法差不多的效 果,但时间效率远远好于Greedy Algorithm,其中,图1和图2是 WiKi数据集,n=105边有441上的运算结果及时间效率的比较。
推特数据集是一个中等规模的网络数据集,本文实验尝试分割了 网络中的一部分数据集,就是在原有结构的网络中截取其中一部分。 本文尝试了截取485个用户,68401条边的网络,在此上实验的结果 如图3,图4所示。可以看出,本文提出的算法在结果方面可以达到 Greedy Algorithm差不多的效果,同样时间效率也是大大好于Greedy Algorithm,随着数据的完整和规模的扩大,实验效果明显。所以, 用户的个性特征对传播的影响和扩散关键用户的重要性是有效和正 确的。
本发明通过分析重叠社区中有聚集特性的扩散关键用户,将其作 为初始传播种子集合;对于用户的个性化特征,本发明在计算用户间 属性相似度的基础上,引入了属性稀疏的概念,在模拟信息传播过程 中讨论用户间相似度对信息传播的影响,在此基础上构建了融入用户 属性相似度的改进的独立级联模型,最后在大量实验的基础上,得出 本发明提出的算法效果要好于传统算法,证实了本发明所提出要考虑 的两个因素:用户属性和扩散关键用户对影响力最大化问题研究的重 要意义。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业 的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和 说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围 的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要 求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及 其等效物界定。

Claims (7)

1.基于节点属性稀疏性的网络影响力最大化方法,其特征在于:包括以下步骤:
步骤一:选择基础算法
选择有高准确度的贪心算法为基础,展开研究和实验;
步骤二:融合用户属性的传播模型
在独立级联模型思想的基础上,结合属性对传播的影响,建立一种融合用户属性的传播模型,主要在级联概率的基础上,结合属性相似度,建立属性对传播影响的建模;
步骤三:用户相似度
设定定义:用户相似度,设定用户u的属性向量lu(a1,a2,…,am),用户v的属性向量lv(b1,b2,…,bm),是否有这个属性用1和0表示,用欧式距离表示两用户之间的相似度,
Figure FDA0002283969800000011
duv(l)的值越小,表示用户u和v之间的属性越相似。
用户的属性向量的组成分为很多部分,若一个用户是一个学生,那么其属性向量为姓名、年龄等固定的属性,还包括文学爱好、电影偏好,以及所在地区的非固定的属性,在非固定的属性中有过经验的用1表示,否则用0表示,从而构成用户u的属性向量(1,0,0,……,0,1),在众多属性中,若某一种属性为共性属性,则此属性的研究参考意义小,故将这个公共性属性特征略去;
步骤四:属性稀疏性
设定定义:属性稀疏性,基于步骤三的思想,分析用户属性值中值1和值0的属性数量分布状况,定义属性稀疏如下:
存在一个用户uj(uj∈V,0<j<N)其有属性串
Figure FDA0002283969800000021
Figure FDA0002283969800000022
则说第i列属性为稀疏的,这里θi是阈值,它描述的是第i列属性特征中1和0的分布状况,θ默认值为
Figure FDA0002283969800000023
该式中L表示属性数据中第i列属性的数量,
Figure FDA0002283969800000024
该式表达了,在属性列中,若大部分用户都有该属性特征,即1的数量较多,那么该列属性在我们的算法中不列为参考信息,使duv(l)′=0;
步骤五:基于属性稀疏性的传播概率
在传播模型中,定义两用户间基于属性稀疏性的传播概率Puv′为:
Figure FDA0002283969800000025
另外,利用融合用户属性对独立级联模型进行了改进,使信息传播时,一个用户u对用户v激活的概率变为Puv′,融合用户属性独立级联模型的传播过程如下:
(1)在t=0时刻,从初始传播种子集合S开始;
(2)在每一个时间步t,活跃用户vi,vi∈St-1,会有一次机会去激活它的不活跃状态的邻居用户vj,激活成功的概率是Puv′。若vj被成功激活,则将vj加入集合St
(3)当St为空时,传播过程结束;
步骤六:影响力最大化
给定一个种子集合S,定义S的影响力为传播过程结束时,将活跃用户数目的期望值记为σ(S),由于在IC模型下影响力最大化问题是发现一个种子集合
Figure FDA0002283969800000031
使得σ(S)最大,因此,将影响力最大化问题定义为:
Figure FDA0002283969800000032
影响力最大化问题基本解决思路使用如下算法,
Algorithm1:Greedy Algorithm of Kempe et al.[3].Greedy(G=(V,E),k):
1.设置
Figure FDA0002283969800000033
2.for i=1 to k
3.
Figure FDA0002283969800000034
4.Sk=Sk∪{v}
5.end for
IC模型下的独立级联模型是NP-hard问题,函数σ(S)具有子模性;假设
Figure FDA0002283969800000035
并且s∈V\B,加入用户属性后,信息扩散依然遵循传播模型中独立随机的概念,从而得到:
σ(A∪{s})-σ(A)≥σ(B∪{s})-σ(B);
步骤七:基于扩散关键用户的传播更新策略
提出基于重叠社区中扩散关键用户的影响力最大化算法:设定定义:基于扩散关键用户的边际效益:
Figure FDA0002283969800000043
这里,ρs(v)即是用户v在种子集合S上的基于扩散关键用户边际效益,这里
Figure FDA0002283969800000044
是集合SOverlopping的影响力,集合SOvsrlapping表示该种子集合是包含扩散关键用户的种子集合S,
选取扩散关键用户作为初始种子集合中的用户,再在此基础上,选择top-k个边际收益最大的用户,在每次选择top-k个用户计算边际效益时,对比的基础发生变化,每次计算的边际效益都优先考虑到扩散关键用户的影响,目标函数为:
Figure FDA0002283969800000041
每两个重叠的社区之间,会有大于等于1个的扩散关键用户,在选择扩散关键用户作为候选种子时,遵循以下规则,假设第i个社区和第i+1个社区之间扩散关键用户个数为Oi,随机选择
Figure FDA0002283969800000045
个用户作为候选种子,
Figure FDA0002283969800000042
在影响最大化研究中,算法的初始种子集合均为空,在n个扩散关键用户组合初始种子集合的情况下,计算出k个种子用户,最后种子集合中用户数为n+k个,在此基础上删除n个用户,然后构建用户更新策略,使最后留下的用户影响力最大化:网络中的用户会出现聚集的现象,利用重叠社区发现算法,计算出网络中的重叠社区和扩散关键用户,在每两个重叠社区的扩散关键用户中,选择一个加入集合
Figure FDA0002283969800000051
形成初始种子集合,在选择了k个候选种子用户后,再在依次计算每个用户的边际效益,选择能够使边际效益最大的用户留在集合S中;
步骤八:算法详解
融合扩散关键用户基于属性稀疏性的影响力最大化算法,算法的伪代码详见如下:
Algorithm2:IMNPC(G=(V,E),SOverlapping,k,Puv′)
输入:图G(V,E),k,扩散关键用户集合
输出:初始传播集合
1.集合S0=Sn
2.for i=1 to k
3.根据公式(1)和(2)计算,
4.if 1+duv(l)<1
5.Puv′←Puv(1+duv(l)′)
6.
Figure FDA0002283969800000052
7.end if
8.Sk=Sk∪{v}
9.end for
10.for j=1 to n+k
11.
Figure FDA0002283969800000061
12.S=S\v
13.end for
14.计算种子集合Sk影响力
15.输出inf(Sk)和Sk
16.结束。
2.根据权利要求1所述的基于节点属性稀疏性的网络影响力最大化方法,其特征在于:所述步骤一中,选择贪心算法为基础的依据为:贪心算法是由传播模型出发,寻找当前能够获得最大影响范围的用户。
3.根据权利要求1所述的基于节点属性稀疏性的网络影响力最大化方法,其特征在于:所述步骤三中,若某一种属性为共性属性,则此属性的研究参考意义小,例如:在人际交流网络中,当大部分用户都来自同一地区时,则用户的地区属性参考意义小。
4.根据权利要求1所述的基于节点属性稀疏性的网络影响力最大化方法,其特征在于:所述步骤五中,对于任意两用户u,v(u,v∈V),每个用户有L个属性,当用户u,v的第t(1<t<L)个属性列属性稀疏时,该属性特征对研究用户u和v之间信息的传播具有重要意义,当第t列属性特征为非稀疏属性时,那么第t列属性特征对用户间信息的传播的影响会减少。
5.根据权利要求1所述的基于节点属性稀疏性的网络影响力最大化方法,其特征在于:所述步骤六中,证明:当
Figure FDA0002283969800000071
时,σ(A∪{s})-σ(A)的值小于等于|V|-|A∪{s}|,而σ(B∪{s})-σ(B)的值小于等于|V|-|B∪{s}|,因为
Figure FDA0002283969800000072
即|A|<|B|,所以|V|-|A∪{S}|大于等于|V|-|A∪{S}|,所以σ(A∪{s})-σ(A)≥σ(B∪{s})-σ(B)。
6.根据权利要求1所述的基于节点属性稀疏性的网络影响力最大化方法,其特征在于:所述步骤七中,由于网络中社区的存在具有客观性,社区之间的重叠现象也具有一定的普遍性,扩散关键用户是两个社区之间连接的重要部分,不仅网络结构,而且在网络上信息传播方面起着重要的作用,而影响力最大化问题,就是寻找一些有重要作用的用户,使得以这些重要用户开始进行信息传播时,最后信息扩散的范围能够尽可能大,因此提出基于重叠社区中扩散关键用户的影响力最大化算法。
7.根据权利要求1所述的基于节点属性稀疏性的网络影响力最大化方法,其特征在于:所述步骤八中,算法中第一行赋予初始种子集合不为空,内容为扩散关键用户,第2行到第5行,在初始种子集合基础上,计算top-k个候选种子用户,第6行到第9行,在n+k个候选种子用户中,选择能使前k大的用户,其余用户舍弃。
CN201911152672.3A 2019-11-22 2019-11-22 基于节点属性稀疏性的网络影响力最大化方法 Pending CN111177529A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911152672.3A CN111177529A (zh) 2019-11-22 2019-11-22 基于节点属性稀疏性的网络影响力最大化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911152672.3A CN111177529A (zh) 2019-11-22 2019-11-22 基于节点属性稀疏性的网络影响力最大化方法

Publications (1)

Publication Number Publication Date
CN111177529A true CN111177529A (zh) 2020-05-19

Family

ID=70653703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911152672.3A Pending CN111177529A (zh) 2019-11-22 2019-11-22 基于节点属性稀疏性的网络影响力最大化方法

Country Status (1)

Country Link
CN (1) CN111177529A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI746244B (zh) * 2020-11-03 2021-11-11 國立清華大學 社群網路中複數個目標節點之挑選方法及其系統
CN115659007A (zh) * 2022-09-21 2023-01-31 浙江大学 一种基于多样性的动态影响力传播种子最小化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAVID KEMPE: "Maximizing the spread of influence through a social network" *
WEIMIN LI: "The Influence Maximization Problem in the Network Under Node Personalized Characteristics" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI746244B (zh) * 2020-11-03 2021-11-11 國立清華大學 社群網路中複數個目標節點之挑選方法及其系統
CN115659007A (zh) * 2022-09-21 2023-01-31 浙江大学 一种基于多样性的动态影响力传播种子最小化方法
CN115659007B (zh) * 2022-09-21 2023-11-14 浙江大学 一种基于多样性的动态影响力传播种子最小化方法

Similar Documents

Publication Publication Date Title
Zhang et al. Shne: Representation learning for semantic-associated heterogeneous networks
Zhang et al. Event detection and popularity prediction in microblogging
US8484083B2 (en) Method and apparatus for targeting messages to users in a social network
Chaoji et al. Recommendations to boost content spread in social networks
US20160071162A1 (en) Systems and Methods for Continuous Analysis and Procurement of Advertisement Campaigns
Li et al. Labeled influence maximization in social networks for target marketing
Li et al. Polarity related influence maximization in signed social networks
CN103064917B (zh) 一种面向微博的特定倾向的高影响力用户群发现方法
CN106355506B (zh) 一种在线社会网络中影响力最大化初始节点选取方法
US20150081725A1 (en) System and method for actively obtaining social data
US20150235137A1 (en) Predicting influence in social networks
Singh et al. Influence maximization frameworks, performance, challenges and directions on social network: A theoretical study
Zhang et al. Your age is no secret: Inferring microbloggers' ages via content and interaction analysis
Li et al. Forecasting participants of information diffusion on social networks with its applications
Zhuang et al. Actively learning to infer social ties
US20160189218A1 (en) Systems and methods for sponsored search ad matching
CN105095419A (zh) 一种面向微博特定类型用户的信息影响力最大化方法
Zhang et al. Influence maximization in messenger-based social networks
CN111177529A (zh) 基于节点属性稀疏性的网络影响力最大化方法
Han et al. Time constraint influence maximization algorithm in the age of big data
Yu et al. Fast budgeted influence maximization over multi-action event logs
Liu et al. An algorithm for influence maximization in competitive social networks with unwanted users
Jiang et al. Discovery of really popular friends from social networks
Feng et al. Neighborhood matters: Influence maximization in social networks with limited access
Wickman et al. A Generic Graph Sparsification Framework using Deep Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519