CN111445291B - 一种为社交网络影响力最大化问题提供动态决策的方法 - Google Patents
一种为社交网络影响力最大化问题提供动态决策的方法 Download PDFInfo
- Publication number
- CN111445291B CN111445291B CN202010247904.XA CN202010247904A CN111445291B CN 111445291 B CN111445291 B CN 111445291B CN 202010247904 A CN202010247904 A CN 202010247904A CN 111445291 B CN111445291 B CN 111445291B
- Authority
- CN
- China
- Prior art keywords
- network
- state
- agent
- action
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 54
- 230000002787 reinforcement Effects 0.000 claims abstract description 42
- 239000003795 chemical substances by application Substances 0.000 claims description 137
- 230000009471 action Effects 0.000 claims description 105
- 230000006870 function Effects 0.000 claims description 81
- 230000008569 process Effects 0.000 claims description 25
- 230000003993 interaction Effects 0.000 claims description 17
- 230000007704 transition Effects 0.000 claims description 14
- 230000006399 behavior Effects 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 208000015181 infectious disease Diseases 0.000 claims description 7
- 230000008901 benefit Effects 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000003542 behavioural effect Effects 0.000 claims description 4
- 230000001143 conditioned effect Effects 0.000 claims description 4
- 230000011514 reflex Effects 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000005284 excitation Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 abstract description 2
- 238000004088 simulation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
- G06Q30/0244—Optimization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种为社交网络影响力最大化问题提供动态决策的方法,适用于商业推广和舆情控制等领域。本发明公布的方法实现了社交网络影响力最大化问题的动态建模。在动态时间层面上提供满足限制条件k的智能动态决策,同时降低陷入局部最优结果的可能。不仅适用于基本情境下的影响力最大化问题,还能够在有竞争者存在的社交网络中实现动态决策,最大化我方影响力。本发明公开的基于强化学习算法为社交网络影响力最大化问题提供动态决策的方法,分为以下两个情境:情境一不考虑社交网络上其他竞争对手的存在,即只需要对一种产品或信息进行推广以实现影响力最大化;情境二是当社交网络中存在竞争对手时,考虑竞争对手的影响,给出最大化我方影响力的动态决策。
Description
技术领域
本发明基于强化学习算法,能够为社交网络影响力最大化问题提供动态决策,适用于商业推广和舆情控制等领域。
背景技术
缩略词与关键术语定义:
马尔科夫决策过程:Markov Decision Processes(MDP)。
影响力最大化问题:给出仅能满足k个用户的预算费用,在社交网络中选取k个种子节点进行传播,从而使最终影响范围最大。
被感染:对于社交网络中某个节点转发某条信息或者购买某种产品的类似行为,称该节点被感染。
环境状态:对于影响力最大化问题而言,社交网络即策略行为的执行环境,因此社交网络状态即为环境状态。社交网络中所有节点的状态(是否被感染以及被哪个信息或者产品感染)共同构成了环境状态。状态用s表示。
策略行为:指对于当前环境状态,执行哪种行为。对于社交网络影响力最大化问题,即在当前社交网络状态下,选择哪个节点做完种子节点被感染。策略行为用a表示。
奖赏值:在执行某个策略行为后,环境会给出奖赏值作为反馈,以衡量策略的好坏。对于社交网络影响力最大化问题,奖赏值的定义与策略做出后社交网络状态的变化和执行策略行为的花销有关。奖赏值用r表示。
动态决策:信息在社交网络上的传播是一个时间序列上的动态过程。动态决策是指信息传播过程中在某时刻某种网络状态下所应该采取的策略。
完全级联:是社交网络的一种状态,指网络中所有节点都被感染。
社交网络是以网络为载体把人们连接起来的具有某一特点的团体。社交网络中的个体可以和与他关联的个体进行互动交流,分享和推荐信息等。正是社交网络中个体与个体之间的交互实现了信息的传播和扩散。随着互联网的快速发展,传统的社交关系逐渐从线下转移到线上,多样的社交网络为信息的传播提供了高效的传播方式。
社交网络上的影响力最大化问题一直以来是社交网络研究中的一个热点问题,在人工智能、计算机、经济学等诸多领域有着广泛的应用前景和价值。社交网络拥有巨大的用户量和信息量,并且具有范围广和速度快的信息传播特点,这使得社交网络成为新闻媒体和产品营销商的主要关注对象。如何在社交网络上实现影响力最大化和在有竞争者存在的情况下给出决策最大化我方影响力,都是当前亟待解决的热点问题。
目前解决影响力最大化问题的经典算法主要分为两类:基于贪心算法的改进算法与基于节点影响力排序的启发式算法。基于贪心算法的一系列改进算法虽然具有较好的影响范围,但很容易陷入局部最优,并且时间复杂度很高,当社交网络规模变大时并不能很好地适用。基于中心性的启发式算法,虽然能够拥有较低的时间复杂度,但传播精度却并不理想,其实验结果通常弱于贪心算法。无论是基于贪心算法的改进算法还是基于节点影响力排序的启发式算法,都没有考虑过社交网络影响力最大化问题的动态建模问题。这使得无法依据动态变化的社交网络状态给出影响力最大化动态决策,以及无法在有竞争者存在的社交网络中给出动态的最佳应对策略以最大化我方影响力。
发明内容
针对现有技术的不足,本发明提出了一种基于强化学习算法解决社交网络影响力最大化问题的方法。
本发明技术方案为一种为无竞争者社交网络影响力最大化问题提供动态决策的方法,该方法包括:
步骤1:建立社交网络模型,构建强化学校框架;
在社交网络中为强化学习算法的两个基本要素智能体和环境进行定义;智能体指的是希望在网络上实现自身影响力最大化的个体,环境指的是社交网络抽象成的有向图G=(V,E);智能体节点集合V构成社交网络,节点间连边的集合E表示社交网络中个体与个体之间的关系,网络中节点分为感染状态和未被感染状态,智能体选择网络中一部分节点作为种子节点并激活为感染态,种子节点对周边的邻居节点产生影响,邻居节点根据阈值模型判断是否转换为感染状态;对智能体而言,所谓影响力最大化即激活更少的种子节点,实现感染整个网络的最终目的;
步骤2:为智能体的动作空间和环境的状态空间进行定义;
强化学习方法的基本思想是交互和试错;因此为智能体选择能够实现影响力最大化的种子节点序列,需要智能体不断进行选点尝试,根据选点的影响效果不断调整策略;智能体执行动作的环境为社交网络;状态空间为网络状态的集合;网络的每个状态由网络中所有节点的状态共同构成;动作空间即智能体能够从中选择种子节点并激活的节点集合,该集合由网络中所有节点构成;因此强化学习框架下,智能体的学习过程如下:在网络状态s下,智能体执行动作a在动作空间中选择种子节点进行激活,种子节点作用于网络上的邻居节点;经过一段时间的传播,部分邻居节点将被感染,网络从状态s转移到状态s’;
步骤3:定义智能体每次执行动作a选择种子节点的奖赏值;
奖赏值定义为r=c-b,其中c=ns-ns',表示最近一次激活种子节点为社交网络上的影响力带来的增益值,即状态s下网络中所有处于被感染状态的节点总数ns与状态s'网络中所有处于被感染状态的节点总数ns'的差值;状态s为智能体执行动作a去激活种子节点前的网络状态,状态s'表示激活种子节点后经过一段时间的传播,网络转移到的稳定状态;b表示激活某个种子节点所需要付出的代价;例如某产品在微博上进行营销和推广时,营销商希望拥有大量粉丝的微博主能够为其做广告,就需要付给微博主报酬。那么在这个情境下,微博主发微博为产品做广告可以看作种子节点被激活,看到广告去购买产品的微博顾客就可以看作影响力的增益值c,营销商付给微博主的报酬就可以看作为激活种子节点付出的代价b。c和b的系数可以根据对影响效果和成本的侧重程度进行调整;本说明中为了叙述方便,系数均取1。
步骤4:智能体与环境进行交互;
从所有节点均未被感染的网络初始状态s0开始,智能体每次选择一个种子节点进行激活,这一选点过程被视为智能体执行动作a;智能体为每个状态动作对(s,a)都维持一个Q(s,a)函数值,最初所有的Q(s,a)函数值均为0;智能体根据输入的状态s和Q(s,a)函数的值,采用ε-greedy策略在动作空间中选取行为a;ε-greedy策略是指,智能体以ε的概率选择状态s下具有最大Q(s,a)函数值的动作a,以1-ε的概率进行随机选择;这一选点策略平衡了探索和利用的关系,能够对现有的学习成果进行重复利用,又能通过随机选择动作对状态空间和动作空间进行探索,避免选点策略陷入局部最优;智能体执行动作a后,动作a作用于环境即影响力最大化问题中的网络,被激活的种子节点在社交网络中产生一定的影响力,根据信息传播的阈值模型,判断网络中其他节点是否被感染;节点的影响力通过节点间的连边进行传播,传播过程中被智能体激活的种子节点的邻居节点及与邻居节点有路径连接的节点可能会被激活;待网络状态稳定后网络上的节点状态将不再发生变化,根据步骤3计算奖赏值r,确定社交网络的转移状态s';
步骤5:根据智能体与环境的交互记录更新Q函数以提升策略;
智能体执行动作a后将得到环境对动作执行效果的反馈,此时对强化学习算法的目标函数Q(s,a)进行更新;强化学习中智能体的学习过程与自然界生物的条件反射原理一致;如果环境对于智能体的某个动作行为给出正向激励的奖赏值,则动作在未来被再次执行的趋势会得到加强;反之智能体执行该动作的趋势会被减弱;智能体在与环境的交互过程中,根据环境反馈的收益信号不断调整并优化策略,习得在某一状态下选择动作空间中的哪个动作能够得到更大的期望收益;因此,强化学习的目标是学习一个行为策略,在该策略下执行动作,智能体将能够获得环境更大的奖赏值;在影响力最大化问题中,智能体每次选择种子节点后,都会得到一个环境反馈的奖赏值用于强化学习中Q函数的更新;
Q(s,a)函数为:Q(s,a)=r+γQ(s′,a′)
其中,γ为折扣因子;这代表每个Q(s,a)函数都可以表示为由奖赏值构成的立即收益r和转移状态s′下的Q(s′,a′)的贴现值计算;在使用Q Learning算法时,Q函数学习方式如下:
Qt+1(s,a)←Qt(s,a)+α[r+γmaxa′Qt(s′,a′)-Qt(s,a)]
其中,α为学习率,表示更新速率,取0.01到0.001之间;新的Q函数值Qt+1(s,α)等于旧的Q函数值Qt(s,α)加上由奖赏值计算得到的贝尔曼方程形式的Q函数r+γmaxα′Qt(s′,α′)与Qt(s,α)的差值;当智能体在状态s执行动作a时,若得到的奖赏值为大的正向激励值,则Q(s,a)函数增大,否则Q(s,a)函数减小;Q(s,a)函数值的大小将直接影响到步骤4按照ε-greedy策略执行动作a时选择不同种子节点的概率;
步骤6:重复步骤4和步骤5的过程,智能体与环境进行反复交互,不断选点,并在每次选点后根据环境反馈进行Q函数的更新;直到网络到达所有节点均被感染的终止状态,智能体的一个学习回合结束;
步骤7:恢复网络为所有节点均为被感染的初始状态s0,重复进行n个学习回合的学习直到Q函数收敛,此时将得到竞争中智能体的影响力最大化策略;通过不断更新Q函数,智能体在各个网络状态s下学到了既能控制成本又能实现影响力最大化的选点策略;此时输入任何网络状态s,智能体都能根据Q函数,计算出当然网络中具有最大期望收益的动作a;动作a即影响力最大化策略;若需要得到感染整个网络的种子节点序列,输入每次的转移状态s’,记录一系列动作a’的选择即可。
一种为有竞争者社交网络影响力最大化问题提供动态决策的方法,该方法包括:
步骤1:建立社交网络模型,构建强化学校框架;
在社交网络中为强化学习算法的两个基本要素智能体和环境进行定义;智能体指的是希望在网络上实现自身影响力最大化的个体,环境指的是社交网络抽象成的有向图G=(V,E);智能体节点集合V构成社交网络,节点间连边的集合E表示社交网络中个体与个体之间的关系,网络中节点状态分为3类:感染状态、被我方感染状态、被他方感染状态;在网络上竞争影响范围的每个竞争参与者都被视为一个智能体,因此有竞争者的社交网络影响力最大化问题可以被视为一个多智能体影响力最大化问题,求解该问题的动态决策最终目的是为参与竞争的智能体找到在竞争中实现自身影响力最大化的最少种子节点选点策略;
步骤2:为智能体的动作空间和环境的状态空间进行定义;
强化学习方法的基本思想是交互和试错;因此为智能体选择能够实现影响力最大化的种子节点序列,需要智能体不断进行选点尝试,根据选点的影响效果不断调整策略;智能体执行动作的环境为社交网络;状态空间为网络状态的集合;网络的每个状态由网络中所有节点的状态共同构成;动作空间即智能体能够从中选择种子节点并激活的节点集合,该集合由网络中所有节点构成;因此强化学习框架下,智能体的学习过程如下:在网络状态s下,智能体执行动作a在动作空间中选择种子节点进行激活,种子节点作用于网络上的邻居节点;经过一段时间的传播,部分邻居节点将被感染,网络从状态s转移到状态s’;
步骤3:定义智能体每次执行动作a选择种子节点的奖赏值;
奖赏值定义为r=c-b,其中c=ns-ns',表示最近一次激活种子节点为社交网络上的影响力带来的增益值,即状态s下网络中所有处于被感染状态的节点总数ns与状态s'网络中所有处于被感染状态的节点总数ns'的差值;状态s为智能体执行动作a去激活种子节点前的网络状态,状态s'表示激活种子节点后经过一段时间的传播,网络转移到的稳定状态;b表示激活某个种子节点所需要付出的代价;
步骤4:对网络中的智能体进行排序和标号,智能体按照顺序与环境进行交互;
从所有节点均未被感染的网络初始状态s0开始,智能体i按照ε-greedy策略执行动作ai,在动作空间中选择要激活的种子节点;被激活的种子节点在社交网络中产生一定的影响力,根据信息传播的阈值模型,判断网络中其他节点是否被感染;待网络状态稳定后网络上的节点状态将不再发生变化,根据步骤3计算奖赏值r,观察并确定社交网络的转移状态s';
步骤5:根据智能体i与环境的交互记录更新Q函数以提升策略;
智能体执行动作a后将得到环境对动作执行效果的反馈,此时对强化学习算法的目标函数Q(s,a)进行更新;强化学习中智能体的学习过程与自然界生物的条件反射原理一致;如果环境对于智能体的某个动作行为给出正向激励的奖赏值,则动作在未来被再次执行的趋势会得到加强;反之智能体执行该动作的趋势会被减弱;智能体在与环境的交互过程中,根据环境反馈的收益信号不断调整并优化策略,习得在某一状态下选择动作空间中的哪个动作能够得到更大的期望收益;因此,强化学习的目标是学习一个行为策略,在该策略下执行动作,智能体将能够获得环境更大的奖赏值;在影响力最大化问题中,智能体每次选择种子节点后,都会得到一个环境反馈的奖赏值用于强化学习中Q函数的更新;
Q(s,a)函数为:Q(s,α)=r+γQ(s′,α′)
其中,γ为折扣因子;这代表每个Q(s,a)函数都可以表示为由奖赏值构成的立即收益r和转移状态s′下的Q(s′,a′)的贴现值计算;在使用Q Learning算法时,Q函数学习方式如下:
Qt+1(s,a)←Qt(s,a)+α[r+γmaxa′Qt(s′,a′)-Qt(s,a)]
其中,α为学习率,表示更新速率,取0.01到0.001之间;新的Q函数值Qt+1(s,a)等于旧的Q函数值Qt(s,a)加上由奖赏值计算得到的贝尔曼方程形式的Q函数r+γmaxa′Qt(s′,a′)与Qt(s,a)的差值;
在用奖赏值更新Q函数时,当智能体i在状态s执行动作ai时,若得到的奖赏值为大的正向激励值,则Q(s,a)函数增大,否则Q(s,a)函数减小;Q(s,a)函数值的大小将直接影响到步骤4按照ε-greedy策略执行动作ai时选择不同种子节点的概率;
步骤6:基于Self-play思想的DQN算法求解有竞争者社交网络影响力最大化问题,采用步骤4和步骤5相同的方法,为竞争对手在网络上执行与环境的交互过程;在网络状态s’根据ε-greedy策略执行动作ai,计算奖赏值ri并观察网络转移状态s’,并对Q函数进行更新;重复进行所有智能体与环境的交互和Q函数更新过程,直到网络到达所有节点均被感染的终止状态,智能体的一个学习回合结束;在自我对局中无论是对哪个智能体的动作进行模拟,在使用DQN算法进行策略学习和优化时,更新的都是同一个用于指导智能体策略的目标函数。因此使用基于Self-play思想的DQN算法最终得到的策略是相对于不同对局状态的最佳执行动作,而非与智能体执行动作顺序相关的部分策略。换句话说,基于Self-play思想的DQN算法通过Self-play模拟出不同的竞争对手,并将每个竞争对手的学习经验归于一处,形成一个完整的知识体系;
步骤7:恢复网络为所有节点均为被感染的初始状态s0,重复进行n个学习回合的学习直到Q函数收敛,此时将得到竞争中智能体的影响力最大化策略;将网络上的竞争局面根据所有节点的状态表示为网络状态s来作为Q函数的输入,由Q函数计算出能够产生我方最大收益的选点策略。
本发明公布的方法实现了社交网络影响力最大化问题的动态建模。在动态时间层面上提供满足限制条件k的智能动态决策,同时降低陷入局部最优结果的可能。不仅适用于基本情境下的影响力最大化问题,还能够在有竞争者存在的社交网络中实现动态决策,最大化我方影响力。本发明公开的基于强化学习算法为社交网络影响力最大化问题提供动态决策的方法,分为以下两个情境:情境一不考虑社交网络上其他竞争对手的存在,即只需要对一种产品或信息进行推广以实现影响力最大化;情境二是当社交网络中存在竞争对手时,考虑竞争对手的影响,给出最大化我方影响力的动态决策。
附图说明
图1是无竞争社交网络影响力最大化问题动态决策流程图。
图2是Q-Learning算法更新流程图。
图3是存在竞争者的社交网络影响力最大化问题动态决策流程图。
图4是社交网络状态s转换示意图。
具体实施方案
为了使本发明的目的更加清楚,以下将结合附图对本发明进行详细介绍。
由于本发明使用了强化学习算法来解决社交网络上的影响力最大化问题,因此需要通过若干回合的学习对强化学习算法进行训练。学习离不开数据,这些数据可以是该社交网络上信息传播的历史数据,也可以是通过仿真实验模拟出的数据。图1可视化地表示出了本发明在处理两种不同数据来源时的不同技术路线。
首先,无论哪种数据来源,都需要明确社交网络的状态和每次执行策略选择种子节点后环境反馈的奖赏值的表达形式。根据前文的定义,社交网络的状态由网络中每个节点的状态共同构成,而奖赏值则与策略做出后网络状态的变化和策略执行代价有关。其中,网络状态变化指选定种子节点后网络中新增的被感染节点数,策略执行代价指选择该种子节点的花销。若节点花销已知,可以直接使用,若未知,可通过计算机模拟按需求生成一定范围内符合某个分布的数据或随机数。
无竞争者存在的社交网络影响力最大化问题;
在能够得到社交网络上信息传播的历史数据时,可以将经过处理的历史数据直接用于强化学习算法的学习更新。以Q Learning为例,强化学习算法更新流程图如图2所示。历史数据与模拟仿真数据不同,多以片段形式存在而非学习回合,例如,某时刻t时社交网络状态为s,接下来将节点x作为种子节点被感染(将其视为策略行为a),经过传播,网络在t+1时刻稳定于s'状态。那么可以根据网络状态s→s'的变化得到网络中新增被感染节点数n,结合节点x被感染需要的花销,能够得到该策略行为的奖赏值r。经过对历史数据的处理,可以将状态转移的相关数据用于强化学习算法中Q函数的更新。Q Learning算法的Q函数更新方式如下:
Qt+1(s,a)←Qt(s,a)+α[r+γmaxa'Qt(s',a')-Qt(s,a)]
值得注意的是,在Q函数更新中的Qt(s′,a′)是根据状态s'和策略行为空间给出的最大值,Q0(s′,a′)=0。
在无法得到社交网络上信息传播的历史数据时,对信息在社交网络上的传播进行模拟仿真实验,以此训练强化学习算法。首先,为每个节点根据正态分布生成阈值和被感染所需的花销。针对要研究的社交网络,通过多个回合不断从没有节点被感染的初始状态到完全级联状态的模拟仿真实验,训练强化学习算法,不断更新算法中的Q函数,以此指导策略行为a,使其不断提升。最终,在算法趋于收敛时,能够根据每个回合的策略行为序列,得到针对此社交网络影响力最大化问题的动态策略。
无论是哪一种数据来源,对于训练好的强化学习算法模型,输入该社交网络所处状态s,就可以输出实现影响力最大化的策略行为a。
有竞争者存在的社交网络影响力最大化问题;
本发明公布的方法使用Self-play思想的强化学习Deep Q Network(DQN)算法,不断模拟社交网络中存在竞争者的情景,类似围棋中分别依次执黑执白,通过不断与自己竞争,学习如何应对竞争情境,在存在竞争者的动态网络状态下给出动态决策。无论当前社交网络中存在多少个竞争者,要营销多少种产品或者传播多少种信息,认为当然网络中节点的状态只有三种:未被感染,被我方感染和被他方感染。如果用0表示未被感染,1表示被我方感染,-1表示被他方感染,那么存在竞争者的社交网络中节点有0、1和-1三种状态。此时,若用节点的状态序列表示网络的状态,那么网络状态s形如(0,-1,0,1,1,…,1)。由于情境的改变,奖赏值r也需要重新进行定义,原始定义中新增被感染节点数被替换为新增的被我方感染的节点数。
以Deep Q Network算法为例,图3可视化地表示出了当社交网络中有竞争者存在时,如何通过强化学习算法给出动态决策。假设某社交网络中有AB两方进行竞争。针对社交网络的状态s,由Deep Q Network算法经过计算,给出策略行为a,选择处于未被感染状态的某节点作为种子节点。执行a,观察该策略行为做出后的网络状态s'。令s=s'。此时,以A视角的策略学习结束,转换为B视角进行策略学习。此时需要按照如图4方式对社交网络状态s进行处理,将处于1状态和-1状态的节点进行状态对调,将处理过的s作为Deep Q Network算法的输入,以此进行下一步的学习。B视角的策略学习结束后,继续对社交网络状态s进行处理,进行A视角的策略学习,如此循环往复。根据此方法来对Deep Q Network算法进行训练,对于训练好的算法模型,将存在竞争的某一网络状态作为输入,算法可以输出相应竞争状态下的策略行为a以实现最大化传播范围。
Claims (2)
1.一种为无竞争者社交网络影响力最大化问题提供动态决策的方法,该方法包括:
步骤1:建立社交网络模型,构建强化学校框架;
在社交网络中为强化学习算法的两个基本要素智能体和环境进行定义;智能体指的是希望在网络上实现自身影响力最大化的个体,环境指的是社交网络抽象成的有向图G=(V,E);智能体节点集合V构成社交网络,节点间连边的集合E表示社交网络中个体与个体之间的关系,网络中节点分为感染状态和未被感染状态,智能体选择网络中一部分节点作为种子节点并激活为感染态,种子节点对周边的邻居节点产生影响,邻居节点根据阈值模型判断是否转换为感染状态;对智能体而言,所谓影响力最大化即激活更少的种子节点,实现感染整个网络的最终目的;
步骤2:为智能体的动作空间和环境的状态空间进行定义;
强化学习方法的基本思想是交互和试错;因此为智能体选择能够实现影响力最大化的种子节点序列,需要智能体不断进行选点尝试,根据选点的影响效果不断调整策略;智能体执行动作的环境为社交网络;状态空间为网络状态的集合;网络的每个状态由网络中所有节点的状态共同构成;动作空间即智能体能够从中选择种子节点并激活的节点集合,该集合由网络中所有节点构成;因此强化学习框架下,智能体的学习过程如下:在网络状态s下,智能体执行动作a在动作空间中选择种子节点进行激活,种子节点作用于网络上的邻居节点;经过一段时间的传播,部分邻居节点将被感染,网络从状态s转移到状态s’;
步骤3:定义智能体每次执行动作a选择种子节点的奖赏值;
奖赏值定义为r=c-b,其中c=ns-ns',表示最近一次激活种子节点为社交网络上的影响力带来的增益值,即状态s下网络中所有处于被感染状态的节点总数ns与状态s'网络中所有处于被感染状态的节点总数ns'的差值;状态s为智能体执行动作a去激活种子节点前的网络状态,状态s'表示激活种子节点后经过一段时间的传播,网络转移到的稳定状态;b表示激活某个种子节点所需要付出的代价;c和b的系数可以根据对影响效果和成本的侧重程度进行调整;微博主发微博为产品做广告可以看作种子节点被激活,看到广告去购买产品的微博顾客就可以看作影响力的增益值c,营销商付给微博主的报酬就可以看作为激活种子节点付出的代价b;
步骤4:智能体与环境进行交互;
从所有节点均未被感染的网络初始状态s0开始,智能体每次选择一个种子节点进行激活,这一选点过程被视为智能体执行动作a;智能体为每个状态动作对(s,a)都维持一个Q(s,a)函数值,最初所有的Q(s,a)函数值均为0;智能体根据输入的状态s和Q(s,a)函数的值,采用ε-greedy策略在动作空间中选取行为a;ε-greedy策略是指,智能体以ε的概率选择状态s下具有最大Q(s,a)函数值的动作a,以1-ε的概率进行随机选择;智能体执行动作a后,动作a作用于环境即影响力最大化问题中的网络,被激活的种子节点在社交网络中产生一定的影响力,根据信息传播的阈值模型,判断网络中其他节点是否被感染;节点的影响力通过节点间的连边进行传播,传播过程中被智能体激活的种子节点的邻居节点及与邻居节点有路径连接的节点可能会被激活;待网络状态稳定后网络上的节点状态将不再发生变化,根据步骤3计算奖赏值r,确定社交网络的转移状态s';
步骤5:根据智能体与环境的交互记录更新Q函数以提升策略;
智能体执行动作a后将得到环境对动作执行效果的反馈,此时对强化学习算法的目标函数Q(s,a)进行更新;强化学习中智能体的学习过程与自然界生物的条件反射原理一致;如果环境对于智能体的某个动作行为给出正向激励的奖赏值,则动作在未来被再次执行的趋势会得到加强;反之智能体执行该动作的趋势会被减弱;智能体在与环境的交互过程中,根据环境反馈的收益信号不断调整并优化策略,习得在某一状态下选择动作空间中的哪个动作能够得到更大的期望收益;因此,强化学习的目标是学习一个行为策略,在该策略下执行动作,智能体将能够获得环境更大的奖赏值;在影响力最大化问题中,智能体每次选择种子节点后,都会得到一个环境反馈的奖赏值用于强化学习中Q函数的更新;
Q(s,a)函数为:Q(s,a)=r+γQ(s′,a′)
其中,γ为折扣因子;这代表每个Q(s,a)函数都可以表示为由奖赏值构成的立即收益r和转移状态s′下的Q(s′,a′)的贴现值计算;在使用Q Learning算法时,Q函数学习方式如下:
Qt+1(s,a)←Qt(s,a)+α[r+γmaxa′Qt(s′,a′)-Qt(s,a)]
其中,α为学习率,表示更新速率,取0.01到0.001之间;新的Q函数值Qt+1(s,a)等于旧的Q函数值Qt(s,a)加上由奖赏值计算得到的贝尔曼方程形式的Q函数r+γmaxa′Qt(s′,a′)与Qt(s,a)的差值;当智能体在状态s执行动作a时,若得到的奖赏值为大的正向激励值,则Q(s,a)函数增大,否则Q(s,a)函数减小;Q(s,a)函数值的大小将直接影响到步骤4按照ε-greedy策略执行动作a时选择不同种子节点的概率;
步骤6:重复步骤4和步骤5的过程,智能体与环境进行反复交互,不断选点,并在每次选点后根据环境反馈进行Q函数的更新;直到网络到达所有节点均被感染的终止状态,智能体的一个学习回合结束;
步骤7:恢复网络为所有节点均为被感染的初始状态s0,重复进行n个学习回合的学习直到Q函数收敛,此时将得到竞争中智能体的影响力最大化策略;通过不断更新Q函数,智能体在各个网络状态s下学到了既能控制成本又能实现影响力最大化的选点策略;此时输入任何网络状态s,智能体都能根据Q函数,计算出当然网络中具有最大期望收益的动作a;动作a即影响力最大化策略;若需要得到感染整个网络的种子节点序列,输入每次的转移状态s’,记录一系列动作a’的选择即可。
2.一种为有竞争者社交网络影响力最大化问题提供动态决策的方法,该方法包括:
步骤1:建立社交网络模型,构建强化学校框架;
在社交网络中为强化学习算法的两个基本要素智能体和环境进行定义;智能体指的是希望在网络上实现自身影响力最大化的个体,环境指的是社交网络抽象成的有向图G=(V,E);智能体节点集合V构成社交网络,节点间连边的集合E表示社交网络中个体与个体之间的关系,网络中节点状态分为3类:感染状态、被我方感染状态、被他方感染状态;在网络上竞争影响范围的每个竞争参与者都被视为一个智能体,因此有竞争者的社交网络影响力最大化问题可以被视为一个多智能体影响力最大化问题,求解该问题的动态决策最终目的是为参与竞争的智能体找到在竞争中实现自身影响力最大化的最少种子节点选点策略;
步骤2:为智能体的动作空间和环境的状态空间进行定义;
强化学习方法的基本思想是交互和试错;因此为智能体选择能够实现影响力最大化的种子节点序列,需要智能体不断进行选点尝试,根据选点的影响效果不断调整策略;智能体执行动作的环境为社交网络;状态空间为网络状态的集合;网络的每个状态由网络中所有节点的状态共同构成;动作空间即智能体能够从中选择种子节点并激活的节点集合,该集合由网络中所有节点构成;因此强化学习框架下,智能体的学习过程如下:在网络状态s下,智能体执行动作a在动作空间中选择种子节点进行激活,种子节点作用于网络上的邻居节点;经过一段时间的传播,部分邻居节点将被感染,网络从状态s转移到状态s’;
步骤3:定义智能体每次执行动作a选择种子节点的奖赏值;
奖赏值定义为r=c-b,其中c=ns-ns',表示最近一次激活种子节点为社交网络上的影响力带来的增益值,即状态s下网络中所有处于被感染状态的节点总数ns与状态s'网络中所有处于被感染状态的节点总数ns'的差值;状态s为智能体执行动作a去激活种子节点前的网络状态,状态s'表示激活种子节点后经过一段时间的传播,网络转移到的稳定状态;b表示激活某个种子节点所需要付出的代价;微博主发微博为产品做广告可以看作种子节点被激活,看到广告去购买产品的微博顾客就可以看作影响力的增益值c,营销商付给微博主的报酬就可以看作为激活种子节点付出的代价b;
步骤4:对网络中的智能体进行排序和标号,智能体按照顺序与环境进行交互;
从所有节点均未被感染的网络初始状态s0开始,智能体i按照ε-greedy策略执行动作ai,在动作空间中选择要激活的种子节点;被激活的种子节点在社交网络中产生一定的影响力,根据信息传播的阈值模型,判断网络中其他节点是否被感染;待网络状态稳定后网络上的节点状态将不再发生变化,根据步骤3计算奖赏值r,观察并确定社交网络的转移状态s';
步骤5:根据智能体i与环境的交互记录更新Q函数以提升策略;
智能体执行动作a后将得到环境对动作执行效果的反馈,此时对强化学习算法的目标函数Q(s,a)进行更新;强化学习中智能体的学习过程与自然界生物的条件反射原理一致;如果环境对于智能体的某个动作行为给出正向激励的奖赏值,则动作在未来被再次执行的趋势会得到加强;反之智能体执行该动作的趋势会被减弱;智能体在与环境的交互过程中,根据环境反馈的收益信号不断调整并优化策略,习得在某一状态下选择动作空间中的哪个动作能够得到更大的期望收益;因此,强化学习的目标是学习一个行为策略,在该策略下执行动作,智能体将能够获得环境更大的奖赏值;在影响力最大化问题中,智能体每次选择种子节点后,都会得到一个环境反馈的奖赏值用于强化学习中Q函数的更新;
Q(s,a)函数为:Q(s,a)=r+γQ(s′,a′)
其中,γ为折扣因子;这代表每个Q(s,a)函数都可以表示为由奖赏值构成的立即收益r和转移状态s′下的Q(s′,a′)的贴现值计算;在使用Q Learning算法时,Q函数学习方式如下:
Qt+1(s,a)←Qt(s,a)+α[r+γmaxa′Qt(s′,a′)-Qt(s,a)]
其中,α为学习率,表示更新速率,取0.01到0.001之间;新的Q函数值Qt+1(s,a)等于旧的Q函数值Qt(s,a)加上由奖赏值计算得到的贝尔曼方程形式的Q函数r+γmaxa′Qt(s′,a′)与Qt(s,a)的差值;
在用奖赏值更新Q函数时,当智能体i在状态s执行动作ai时,若得到的奖赏值为大的正向激励值,则Q(s,a)函数增大,否则Q(s,a)函数减小;Q(s,a)函数值的大小将直接影响到步骤4按照ε-greedy策略执行动作ai时选择不同种子节点的概率;
步骤6:基于Self-play思想的DQN算法求解有竞争者社交网络影响力最大化问题,采用步骤4和步骤5相同的方法,为竞争对手在网络上执行与环境的交互过程;在网络状态s’根据ε-greedy策略执行动作ai,计算奖赏值ri并观察网络转移状态s’,并对Q函数进行更新;重复进行所有智能体与环境的交互和Q函数更新过程,直到网络到达所有节点均被感染的终止状态,智能体的一个学习回合结束;
步骤7:恢复网络为所有节点均为被感染的初始状态s0,重复进行n个学习回合的学习直到Q函数收敛,此时将得到竞争中智能体的影响力最大化策略;将网络上的竞争局面根据所有节点的状态表示为网络状态s来作为Q函数的输入,由Q函数计算出能够产生我方最大收益的选点策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010247904.XA CN111445291B (zh) | 2020-04-01 | 2020-04-01 | 一种为社交网络影响力最大化问题提供动态决策的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010247904.XA CN111445291B (zh) | 2020-04-01 | 2020-04-01 | 一种为社交网络影响力最大化问题提供动态决策的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111445291A CN111445291A (zh) | 2020-07-24 |
CN111445291B true CN111445291B (zh) | 2022-05-13 |
Family
ID=71649441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010247904.XA Expired - Fee Related CN111445291B (zh) | 2020-04-01 | 2020-04-01 | 一种为社交网络影响力最大化问题提供动态决策的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111445291B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035545B (zh) * | 2020-08-30 | 2023-12-19 | 哈尔滨工程大学 | 一种考虑非活跃节点和社区边界的竞争影响力最大化方法 |
CN113643144A (zh) * | 2021-08-20 | 2021-11-12 | 西安电子科技大学 | 一种在线社交网络环境下信息传播范围最大化方法 |
CN115766464A (zh) * | 2022-11-03 | 2023-03-07 | 上海交通大学 | 动态网络结构基于学习自动机的影响力最大化方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106097108A (zh) * | 2016-06-06 | 2016-11-09 | 江西理工大学 | 基于两阶段启发的社交网络影响最大化问题求解方法 |
CN106940801A (zh) * | 2016-01-04 | 2017-07-11 | 中国科学院声学研究所 | 一种用于广域网络的深度强化学习推荐系统及方法 |
CN108510115A (zh) * | 2018-03-29 | 2018-09-07 | 山东科技大学 | 一种面向动态社交网络的影响力最大化分析方法 |
CN109496305A (zh) * | 2018-08-01 | 2019-03-19 | 东莞理工学院 | 连续动作空间上的纳什均衡策略及社交网络舆论演变模型 |
CN109754085A (zh) * | 2019-01-09 | 2019-05-14 | 中国人民解放军国防科技大学 | 基于深度强化学习的大规模网络瓦解方法、存储装置以及存储介质 |
CN110362754A (zh) * | 2019-06-11 | 2019-10-22 | 浙江大学 | 基于强化学习的线上社交网络信息源头检测的方法 |
CN110737529A (zh) * | 2019-09-05 | 2020-01-31 | 北京理工大学 | 一种面向短时多变大数据作业集群调度自适应性配置方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9367879B2 (en) * | 2012-09-28 | 2016-06-14 | Microsoft Corporation | Determining influence in a network |
US9489699B2 (en) * | 2013-07-10 | 2016-11-08 | Excalibur Ip, Llc | Influence maximization with viral product design |
US10244060B2 (en) * | 2015-11-02 | 2019-03-26 | International Business Machines Corporation | Determining seeds for targeted notifications through online social networks in conjunction with user mobility data |
US20180349961A1 (en) * | 2017-06-01 | 2018-12-06 | Adobe Systems Incorporated | Influence Maximization Determination in a Social Network System |
-
2020
- 2020-04-01 CN CN202010247904.XA patent/CN111445291B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106940801A (zh) * | 2016-01-04 | 2017-07-11 | 中国科学院声学研究所 | 一种用于广域网络的深度强化学习推荐系统及方法 |
CN106097108A (zh) * | 2016-06-06 | 2016-11-09 | 江西理工大学 | 基于两阶段启发的社交网络影响最大化问题求解方法 |
CN108510115A (zh) * | 2018-03-29 | 2018-09-07 | 山东科技大学 | 一种面向动态社交网络的影响力最大化分析方法 |
CN109496305A (zh) * | 2018-08-01 | 2019-03-19 | 东莞理工学院 | 连续动作空间上的纳什均衡策略及社交网络舆论演变模型 |
CN109754085A (zh) * | 2019-01-09 | 2019-05-14 | 中国人民解放军国防科技大学 | 基于深度强化学习的大规模网络瓦解方法、存储装置以及存储介质 |
CN110362754A (zh) * | 2019-06-11 | 2019-10-22 | 浙江大学 | 基于强化学习的线上社交网络信息源头检测的方法 |
CN110737529A (zh) * | 2019-09-05 | 2020-01-31 | 北京理工大学 | 一种面向短时多变大数据作业集群调度自适应性配置方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111445291A (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111445291B (zh) | 一种为社交网络影响力最大化问题提供动态决策的方法 | |
CN111222054B (zh) | 一种基于上下文邻居关系建模的会话社交推荐方法 | |
Alkemade et al. | Strategies for the diffusion of innovations on social networks | |
CN113449183B (zh) | 基于离线用户环境和动态奖励的交互式推荐方法和系统 | |
Ahn et al. | Facilitating cross-selling in a mobile telecom market to develop customer classification model based on hybrid data mining techniques | |
De Maio et al. | A framework for context-aware heterogeneous group decision making in business processes | |
CN112685657B (zh) | 一种基于多模态交叉融合图网络的会话社交推荐方法 | |
CN115270001B (zh) | 基于云端协同学习的隐私保护推荐方法及系统 | |
Gosavi | A tutorial for reinforcement learning | |
He et al. | Multistage Competitive Opinion Maximization With Q-Learning-Based Method in Social Networks | |
Sánchez et al. | A priori-knowledge/actor-critic reinforcement learning architecture for computing the mean–variance customer portfolio: the case of bank marketing campaigns | |
Başçı | Learning by imitation | |
Lin et al. | Steering information diffusion dynamically against user attention limitation | |
Hayat et al. | A signaling game-based approach for Data-as-a-Service provisioning in IoT-Cloud | |
Han et al. | Optimizing ranking algorithm in recommender system via deep reinforcement learning | |
CN115599990A (zh) | 一种知识感知结合深度强化学习的跨域推荐方法及系统 | |
Yang et al. | Click-through rate prediction using transfer learning with fine-tuned parameters | |
CN112559904B (zh) | 一种基于门机制和多模态图网络的会话社交推荐方法 | |
CN117255226B (zh) | 一种直播电商信息跨平台传播范围预测的方法和系统 | |
CN113688306A (zh) | 一种基于强化学习的推荐策略生成方法及装置 | |
Noorul Haq et al. | Effect of forecasting on the multi-echelon distribution inventory supply chain cost using neural network, genetic algorithm and particle swarm optimisation | |
CN116304289A (zh) | 基于图神经网络的供应链的信息链推荐方法及装置 | |
Kebriaei et al. | Simultaneous state estimation and learning in repeated Cournot games | |
Verma et al. | Correlated learning for aggregation systems | |
Kermani et al. | Opinion-Aware influence maximization: How to maximize a favorite opinion in a social network? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220513 |