CN111967645B - 一种社交网络信息传播范围预测方法及系统 - Google Patents

一种社交网络信息传播范围预测方法及系统 Download PDF

Info

Publication number
CN111967645B
CN111967645B CN202010682101.7A CN202010682101A CN111967645B CN 111967645 B CN111967645 B CN 111967645B CN 202010682101 A CN202010682101 A CN 202010682101A CN 111967645 B CN111967645 B CN 111967645B
Authority
CN
China
Prior art keywords
social network
agent
action
user
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010682101.7A
Other languages
English (en)
Other versions
CN111967645A (zh
Inventor
赵虹
李�浩
李悦江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010682101.7A priority Critical patent/CN111967645B/zh
Publication of CN111967645A publication Critical patent/CN111967645A/zh
Application granted granted Critical
Publication of CN111967645B publication Critical patent/CN111967645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种社交网络信息传播范围预测方法及系统,该方法包括:社交网络中用户与周围邻居的交互作为目标问题,构建决策网络模型;基于多智能体强化学习训练好的决策网络模型,预测社交网络中的信息传播范围。本发明实施例提供的社交网络信息传播范围预测方法及系统,通过多智能体强化学习引入了未来的回报对用户的影响,更加贴近实际,同时使用深度神经网络表示用户的策略,通过调整神经网络的参数提高了泛化性。

Description

一种社交网络信息传播范围预测方法及系统
技术领域
本发明涉及社交网络信息处理技术领域,尤其涉及一种社交网络信息传播范围预测方法及系统。
背景技术
随着通信技术的发展和手机、电脑等终端的普及,社交网络的规模日益庞大。社交网络已经成为了信息传播的重要渠道,社交网络中的信息传播机制也逐渐成为研究热点。商业广告和政策宣传都需要尽可能扩大传播范围,而有害信息则需要尽可能缩小其传播范围。因此研究信息在社交网络中的传播机制、预测信息传播范围具有非常重要的现实意义。已经有研究从统计角度证明,社交网络中的用户会受到其它用户(特别是好友)的影响,从而决定是否选择转发一条消息。这表明信息传播过程中用户之间存在交互,每个用户会根据其他用户对信息的态度选择是否转发信息。
现有技术中,一些学者尝试用图演化博弈理论对社交网络上用户之间的交互进行建模,以此刻画信息在社交网络中的传播过程并预测信息传播范围。基于图演化博弈论的信息传播模型由以下基本要素组成:社交网络的拓扑结构、用户动作、适应度、更新规则和演化平衡状态。
但是,基于图演化博弈论的信息传播模型忽略了未来的回报。在实际社交网络中,用户选择是否转发某一个信息时会考虑未来的情况。基于图演化博弈论的信息传播模型根据更新规则使用适应度来选择动作,而适应度仅与当前的回报有关,与未来的回报无关。因此基于图演化博弈论的信息传播模型中用户只考虑现在而忽略了未来。并且基于图演化博弈论的信息传播模型的泛化能力较差。基于图演化博弈论的信息传播模型使用更新规则描述用户与邻居的交互。更新规则本质上是用户对邻居的动作以适应度为权重进行模仿和复制,同时为了便于分析,更新规则往往具有简明的数学表达式。这为图演化博弈理论带来了坚实的数学基础,同时也限制了图演化博弈理论的泛化性和表示复杂用户交互的能力。因此,现在亟需一种社交网络信息传播范围预测方法及系统来解决上述问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种社交网络信息传播范围预测方法及系统。
第一方面,本发明实施例提供了一种社交网络信息传播范围预测方法,包括:
社交网络中用户与周围邻居的交互作为目标问题,构建决策网络模型;
基于多智能体强化学习训练好的决策网络模型,预测社交网络中的信息传播范围。
进一步地,所述社交网络中用户与周围邻居的交互作为目标问题,构建决策网络模型,包括:
基于社交网络中用户与周围邻居的交互作为目标问题,构建双层的全连接神经网络,其中,输入是邻居中选择动作f的比例,输出是选择动作f的概率和选择动作n的概率。
进一步地,所述方法还包括:
对所述决策网络模型进行训练,得到训练好的决策网络模型。
进一步地,所述对所述决策网络模型进行训练,得到训练好的决策网络模型,包括:
对社交网络初始化,并获取观测值、动作对序列和回报序列;
基于策略梯度法更新中心节点的决策网络参数,并对非中心节点的决策网络参数进行软更新,在循环执行预设次数之后,得到训练好的网络模型参数。
进一步地,所述基于多智能体强化学习训练好的决策网络模型,预测社交网络中的信息传播范围,包括:
进行多次仿真传播,在每次仿真过程中,根据社交网络中的用户数、每个用户的邻居数、用户类型数和每种类型用户的比例随机生成无向图;
对仿真中同一时刻的采取目标动作的用户占据总用户的比例求均值;
将所述均值判定为对应时刻社交网络中的信息传播范围。
进一步地,所述方法还包括:
与基于图演化博弈的信息传播模型进行对比验证,检测预测性能。
第二方面,本发明实施例提供了一种社交网络信息传播范围预测系统,包括:
模型构建模块,用于社交网络中用户与周围邻居的交互作为目标问题,构建决策网络模型;
预测模块,用于基于多智能体强化学习训练好的决策网络模型,预测社交网络中的信息传播范围。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种社交网络信息传播范围预测方法及系统,通过多智能体强化学习引入了未来的回报对用户的影响,更加贴近实际,同时使用深度神经网络表示用户的策略,通过调整神经网络的参数提高了泛化性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的社交网络信息传播范围预测方法的流程示意图;
图2为本发明实施例提供的使用深度神经网络描述用户交互过程示意图;
图3为本发明实施例提供的强化学习基本概念图;
图4为本发明实施例提供的强化学习基本概念在信息传播中的定义示意图;
图5为本发明实施例提供的智能体的决策网络;
图6为本发明实施例提供的平均回报示意图;
图7为本发明实施例提供的基于图演化博弈的信息传播模型的平均回报示意图;
图8为本发明实施例提供的社交网络信息传播范围预测系统的结构示意图;
图9为本发明实施例提供的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,下列术语为本领域的专业术语,在此进行解释说明。
强化学习(reinforcement learning):它是在智能体与环境的交互过程中不断试错并改进智能体策略以使智能体获得的累计回报期望最大化的机器学习方法。
多智能体强化学习(multi-agent reinforcement learning):它是强化学习在多智能体系统中的拓展。
适应度(fitness):图演化博弈理论中,适应度是基准适应度和个体同时与每个邻居进行博弈获得的回报之和的线性组合。
DB规则(Death-Birth update rule):DB规则是图演化博弈的更新规则之一。该规则的具体实现是随机选择一个节点作为中心节点,该节点会模仿并复制其邻居节点之一的策略,这一行为的概率正比于被模仿节点的适应度。
BD规则(Birth-Death update rule):BD规则是图演化博弈的更新规则之一。该规则的具体实现是以正比于节点适应度的概率选择一个节点作为中心节点,然后从中心节点的邻居中随机选择模仿节点,模仿节点会模仿并复制中心节点的策略。
IM规则(Imitation update rule):IM规则是图演化博弈的更新规则之一。该规则的具体实现是随机选择一个节点作为中心节点,该节点会模仿并复制自身和邻居节点之一的策略,这一行为的概率正比于被模仿节点的适应度。
图1为本发明实施例提供的社交网络信息传播范围预测方法的流程示意图,如图1所示,本发明实施例提供了一种社交网络信息传播范围预测方法,包括:
步骤101,社交网络中用户与周围邻居的交互作为目标问题,构建决策网络模型;
步骤102,基于多智能体强化学习训练好的决策网络模型,预测社交网络中的信息传播范围。
在本发明实施例中,无向图被用来对社交网络的拓扑结构进行建模,其中的节点表示社交网络的用户,边表示用户间存在好友关系,节点的邻居表示社交网络中该用户的好友。对于每一条信息,用户有两种可以选择的动作,分别是转发该信息f和不转发该信息n。用户的适应度是个体的基准适应度以及此个体和相邻个体交互、博弈后获得回报的线性组合,数学表达式为:
π=(1-α)*B+α*U;
其中,B表示基准适应度,所有用户的基准适应度B被定义为一个相同的常数,一般被归一化到1。a表示选择系数,是一个远小于1的常数,U表示个体同时与每个邻居进行博弈获得的回报之和。基于图演化博弈论的信息传播模型中,用户与邻居的交互是一个矩阵博弈:当中心用户和邻居用户都转发消息时,他们共同的回报是uff;当中心用户和邻居用户中有一个转发消息,另一个不转发消息时,他们共同的回报是ufn;当中心用户和邻居用户都不转发消息时,他们共同的回报是unn。因此博弈的回报矩阵如下所示:
Figure BDA0002586230430000061
其中,uff,ufn,unn的数值大小直接对应于信息的流行程度,以及用户对信息的关注度,当uff>ufn>unn时,对应于流行度较高的信息,因为转发行为能够带来更大的回报;反之,当unn>ufn>uff时,不转发信息能够带来更高的回报,这种信息对应于无意义的广告。
在这样的回报定义下,个体同时与每个邻居进行博弈获得的回报之和U为:
Figure BDA0002586230430000062
其中,kf表示邻居中转发信息的个数,k表示邻居的总数,uff、ufn、unn表示描述回报的参数。
在社交网络的信息传播过程中,用户会受到邻居的影响而改变自己的动作。更新规则描述了这种影响。常用的更新规则有三种,分别是DB、BD和IM规则。在现实社交网络中,不同用户的兴趣存在较大差异,比如某个明星的粉丝会倾向于转发该明星的相关消息,而其他人则不会。为了表现用户兴趣的差异,在基于图演化博弈论的信息传播模型中,节点可以被划分为不同的类型,每个类型的用户所采用的回报矩阵U(即uff、ufn、unn)不同。无向图中存在多种节点,每个节点不知道其他节点的种类的情况下,邻居的适应度对节点不再有参考价值,因此更新规则会估计邻居的适应度为自身在采用相同动作下的适应度。假设某一节点邻居中转发信息的个数为kf,邻居总数为k,则更新规则认为所有采用动作f的该节点的邻居的适应度是uff*kf+ufn*(k-kf),认为所有采用动作n的该节点的邻居的适应度是ufn*kf+unn*(k-kf)。
进一步地,如果在特定的更新规则下,用户选择每种动作的比例保持恒定且发生微小波动后能回到该恒定比例,则称该恒定比例为演化平衡状态。演化平衡状态能够用于衡量信息最终的传播范围。
具体地,在步骤101中,本发明实施例将社交网络中用户与周围邻居的交互建模为一个决策过程。在这个决策过程中,用户根据周围邻居对消息的态度来决定是否转发该消息;然后,通过强化学习引入了未来回报对当前决策的影响,更加贴近于现实生活中用户的行为和决策过程。
在步骤102中,强化学习是在智能体与环境的交互过程中不断试错并改进智能体策略的机器学习方法。该强化学习针对马尔科夫决策过程,具体地,马尔科夫决策过程由五元组<S,A,P,r,γ>表示,S表示环境所有可能的状态的集合,A表示智能体所有可能的动作的集合,P表示状态转移概率;
Figure BDA0002586230430000071
表示在环境状态s下,智能体采用动作a后环境的下一个状态为s′的概率;r表示回报函数;r(s,a)表示在环境状态s下,智能体采用动作a后智能体获得的回报;γ表示衰减系数,累计回报定义为
Figure BDA0002586230430000072
智能体的策略π是智能体选择动作的规则;π(s,a)表示在环境状态s下,智能体采用动作a的概率。强化学习的目的是获得使累计回报期望最大的策略,即:
Figure BDA0002586230430000073
其中,rt表示t时刻的智能体获得的回报。
目前,强化学习已经被广泛用于各类控制、决策和博弈问题。与表示能力强大的深度神经网络相结合,强化学习能够解决雅达利游戏、围棋和高自由度机器人控制等难以建模的复杂问题,甚至能取得超越人类的效果。强化学习针对的是单智能体系统,而多智能体强化学习是强化学习在多智能体系统中的拓展。多智能体强化学习不仅和强化学习一样可以用于控制、博弈和电子游戏等环境中的学习策略,还可以用来研究智能体之间的交互和博弈。
与图演化博弈理论相比,多智能体强化学习同样可以用于分析多个智能体或者个体间的互相影响,但不同的是,图演化博弈理论中仅仅考虑当前的回报,而多智能体强化学习同时考虑了当前和未来的回报。同时,图演化博弈理论基于特定的更新规则,更新规则只能描述一种用户间的交互方式,其表示能力有限。而多智能体强化学习利用了深度神经网络表示智能体的策略,能够有效地表示复杂的甚至非线性的用户间交互方式。
本发明实施例提供的社交网络信息传播范围预测方法,通过多智能体强化学习引入了未来的回报对用户的影响,更加贴近实际,同时使用深度神经网络表示用户的策略,通过调整神经网络的参数提高了泛化性。
在上述实施例的基础上,所述社交网络中用户与周围邻居的交互作为目标问题,构建决策网络模型,包括:
基于社交网络中用户与周围邻居的交互作为目标问题,构建双层的全连接神经网络,其中,输入是邻居中选择动作f的比例,输出是选择动作f的概率和选择动作n的概率。
在本发明实施例中,使用无向图表示社交网络,其中的节点表示社交网络的用户,边表示用户间的好友关系,节点的邻居表示社交网络中该用户的好友。本发明实施例定义智能体为社交网络的用户,定义每个智能体对应的环境为除了该智能体外的剩余所有用户,定义智能体有两种动作,分别为转发信息f或不转发信息n。在选择某一个动作后,智能体会得到的回报r定义为:
Figure BDA0002586230430000081
其中,kf表示邻居中转发信息的个数,k表示邻居的总数,uff、ufn、unn表示描述回报的参数。与基于图演化博弈论的信息传播模型类似,在本发明实施例中,节点可以被划分为不同的类型,每个类型的用户所采用的回报矩阵U(即uff、ufn、unn)不同,而且每个节点不知道其他节点的种类。
进一步地,本发明实施例设计了一个双层的全连接神经网络,该神经网络的输入是邻居中选择动作f的比例,输出是选择动作f的概率和选择动作n的概率。因此,该神经网络的作用是表示用户选择动作的决策方式,称其为决策网络。将该全连接神经网络记作πθ,将其参数记作θ,考虑到智能体的同质性,本发明实施例假设同一种类的智能体采用同一种决策方式,即使用同一个决策网络。图2为本发明实施例提供的使用深度神经网络描述用户交互过程示意图,基于该深度神经网络来描述用户的交互过程可参考图2所示;图3为本发明实施例提供的强化学习基本概念图,用户与环境之间的交互过程可参考图3所示;图4为本发明实施例提供的强化学习基本概念在信息传播中的定义示意图,图5为本发明实施例提供的智能体的决策网络,如图4和图5所示,在实际社交网络中,所有用户并非同时选择自己的动作,因此,本发明实施例定义了惯性因子d。在每个时刻,每个智能体都有d概率保持上一时刻的动作,有(1-d)概率观测邻居中采用动作f的用户的比例,根据决策网络的输出选择自己的动作。πθ(o,a)表示智能体在决策网络参数为θ,观测到邻居中动作f的比例为o时,选择动作a的概率。决策网络的输入只包含邻居中采用动作f的用户的比例,而不包含邻居的类型,因此邻居节点的类型不会对决策网络的输出有影响。
在上述实施例的基础上,所述方法还包括:
对所述决策网络模型进行训练,得到训练好的决策网络模型。
在上述实施例的基础上,所述对所述决策网络模型进行训练,得到训练好的决策网络模型,包括:
对社交网络初始化,并获取观测值、动作对序列和回报序列;
基于策略梯度法更新中心节点的决策网络参数,并对非中心节点的决策网络参数进行软更新,在循环执行预设次数之后,得到训练好的网络模型参数。
在本发明实施例中,在预测信息传播范围之前,需要先获取用户的决策网络参数。假设用户会尽可能使累计回报最大,为了获得累计回报期望最大的决策网络参数,本发明实施例使用策略梯度法更新决策网络参数。具体地,策略梯度法记录观测值-动作对序列
Figure BDA0002586230430000091
和回报序列
Figure BDA0002586230430000092
其中,ot、at和rt分别为t时刻节点的观测值、选择的动作和回报;然后,估计累计回报的期望关于决策网络参数的梯度,利用梯度上升法更新决策网络参数。使用策略梯度法更新决策网络参数θ的过程可由下式表示:
Figure BDA0002586230430000101
Figure BDA0002586230430000102
其中,ε表示学习率。
本发明实施例采用双决策网络的训练方法,可提高训练过程的稳定性。在训练过程中,只更新中心节点的决策网络,在中心节点的决策网络参数更新一定次数后,非中心节点的决策网络参数才进行软更新。在中心节点决策网络参数的更新过程中,非中心节点的决策网络参数保持不变,因此对于中心节点来说,环境是稳定的。
进一步地,决策网络模型训练过程的具体步骤如下:
首先,对社交网络进行初始化处理。具体为,根据社交网络中的用户数、每个用户的邻居数、用户类型数和每种类型用户的比例,随机生成无向图,并随机选择一个节点作为中心节点,无向图中的每个节点会按照初始动作概率分布随机选择自己的初始动作。
然后,获得观测值-动作对序列和回报序列。具体为,在每个时刻,每个智能体都有d概率保持上一时刻的动作,有(1-d)概率观测邻居中采用动作f的用户的比例o,并有
Figure BDA0002586230430000103
概率选择传播消息动作f,有
Figure BDA0002586230430000104
概率选择不传播消息动作n;其中,i表示节点的类型,j用于区分该节点是否是中心节点,j为0表示该节点不是中心节点,j为1表示该节点是中心节点,
Figure BDA0002586230430000105
表示节点的决策网络参数。进一步地,记录T个时刻内中心节点的状态、动作和回报,得到长度为T的观测值-动作对序列和回报序列。
接着,使用策略梯度法更新中心节点的决策网络参数
Figure BDA0002586230430000106
其中i*表示中心节点的类型。
最后,将上述三个步骤重复执行10次后,将非中心节点的决策网络参数
Figure BDA0002586230430000107
更新为:
Figure BDA0002586230430000108
其中,β表示软更新系数,0<β<1。
在本发明实施例中,重复执行上述步骤,直至执行策略梯度法e次后训练过程终止,
Figure BDA0002586230430000111
即为训练所得到的第i种节点的决策网络参数θi
在上述实施例的基础上,所述基于多智能体强化学习训练好的决策网络模型,预测社交网络中的信息传播范围,包括:
进行多次仿真传播,在每次仿真过程中,根据社交网络中的用户数、每个用户的邻居数、用户类型数和每种类型用户的比例随机生成无向图;
对仿真中同一时刻的采取目标动作的用户占据总用户的比例求均值;
将所述均值判定为对应时刻社交网络中的信息传播范围。
在本发明实施例中,在信息传播范围预测阶段,需要与决策网络训练阶段保持一致的超参数有:1、用于定义回报的uff、ufn、unn;2、每个用户的邻居数、用户类型数和每种类型用户的比例;3、用户决策的惯性因子d、衰减系数γ、序列长度T以及用户初始动作概率分布。并且,在信息传播范围预测阶段中,社交网络用户数一般大于等于决策网络训练阶段的社交网络用户数。
进一步地,类似于基于图演化博弈论的信息传播模型,为了预测社交网络中的信息传播范围,本发明实施例需要进行多次仿真,并对仿真中同一时刻的采取动作f的用户占据总用户的比例求均值,设置该均值是对应时刻社交网络中的信息传播范围。在每次仿真中,首先根据社交网络中的用户数、每个用户的邻居数、用户类型数和每种类型用户的比例,随机生成无向图,其中每个节点会按照初始动作的概率分布,随机选择自己的初始动作。然后,在每个时刻,每个智能体都有d概率保持上一时刻的动作,有(1-d)概率观测邻居中采用动作f的用户的比例o,并有
Figure BDA0002586230430000112
概率选择传播消息动作f,有
Figure BDA0002586230430000113
概率选择不传播消息动作n,其中i表示节点的类型,θi是决策网络训练过程得到的、第i种节点的决策网络参数。记录T个时刻内每个时刻采取动作f的用户占据总用户的比例。
在上述实施例的基础上,所述方法还包括:
与基于图演化博弈的信息传播模型进行对比验证,检测预测性能。
在本发明实施例中,为了比较本发明实施例和基于图演化博弈的信息传播模型,设计了参数如下的对比试验。社交网络中共有两种用户,其(uff,ufn,unn)分别为(0.4,0.8,0.6)和(0.6,0.8,0.4),用户总数为500,每个用户的邻居数都为20,用户初始选择动作f和动作n的概率分布是0.1和0.9。
进一步地,基于图演化博弈的信息传播模型的参数中,选择系数α为0.15,基准适应度B为1,选择DB规则作为更新规则;基于多智能体强化学习的信息传播模型的参数中,训练时用户总数为100,软更新系数β为0.1,学习率ε为0.001,衰减系数γ为0.9,用户保持上一时刻动作的概率d为0.5,中心节点策略共更新10000次,序列长度T为50。
在本发明实施例中,为了比较本发明实施例与基于图演化博弈论的信息传播模型预测的不同,在不同的第二种用户占总用户的比例下,分别使用本发明实施例和基于图演化博弈论的信息传播模型,对信息传播范围进行预测,二者的预测结果和预测结果方差如表1所示:
表1
Figure BDA0002586230430000121
由表1可看出,本发明实施例的预测结果方差小于基于图演化博弈论的信息传播模型,同时,二者的预测结果存在不同。在该参数设计下,对于第一种用户,当邻居中选择f的比例小于1/3时,f的回报更高,当邻居中选择f的比例大于1/3时,n的回报更高。因此,如果用户完全理性地追求最高回报,那么第一种用户会尽可能使全部用户中f的比例保持在1/3;同理,第二种用户会尽可能使全部用户中f的比例保持在2/3。从表1可以看出,当第二种用户比例较低(低于1/3)时,本发明实施例的预测结果接近于1/3;当第二种用户比例较高(高于2/3)时,本发明实施例的预测结果接近于2/3;当第二种用户比例介于二者之间时,本发明实施例的预测结果接近于第二种用户的比例。因此,本发明实施例的预测结果与用户完全理性的结果比较接近,而基于图演化博弈的信息传播模型则与用户完全理性的结果有一定差别。
进一步地,为了比较本发明实施例和基于图演化博弈论的信息传播模型中用户每个时刻的平均回报,保持其他参数不变,将第二种用户占总用户的比例设置为0.25。在该参数下,图6为本发明实施例提供的平均回报示意图,图7为本发明实施例提供的基于图演化博弈的信息传播模型的平均回报示意图,可参考图6和图7所示,在本发明实施例中,全体用户、第一类用户和第二类用户的平均回报均高于基于图演化博弈的信息传播模型(可参考图6所示)。在基于图演化博弈论的信息传播模型中,节点忽略类型之间的差异,把每个邻居都作为模仿对象的候选,这导致了不同类型的用户之间的动作会有正相关的干扰,在当前参数下,两种用户的uff、ufn、unn相差较大,因此不同邻居类型的影响会使得回报降低;而在本发明实施例中,节点并非直接模仿邻居,而是通过学习来获得在环境中累计回报期望最大的策略,因此节点不会受到邻居类型不同所带来的影响,获得的平均回报比基于图演化博弈论的信息传播模型更高。
图8为本发明实施例提供的社交网络信息传播范围预测系统的结构示意图,如图8所示,本发明实施例提供了一种社交网络信息传播范围预测系统,包括模型构建模块801和预测模块802,其中,模型构建模块801用于社交网络中用户与周围邻居的交互作为目标问题,构建决策网络模型;预测模块802用于基于多智能体强化学习训练好的决策网络模型,预测社交网络中的信息传播范围。
本发明实施例提供的社交网络信息传播范围预测系统,通过多智能体强化学习引入了未来的回报对用户的影响,更加贴近实际,同时使用深度神经网络表示用户的策略,通过调整神经网络的参数提高了泛化性。
本发明实施例提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
图9为本发明实施例提供的电子设备结构示意图,参照图9,该电子设备可以包括:处理器(processor)901、通信接口(Communications Interface)902、存储器(memory)903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信。处理器901可以调用存储器903中的逻辑指令,以执行如下方法:社交网络中用户与周围邻居的交互作为目标问题,构建决策网络模型;基于多智能体强化学习训练好的决策网络模型,预测社交网络中的信息传播范围。
此外,上述的存储器903中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的社交网络信息传播范围预测方法,例如包括:社交网络中用户与周围邻居的交互作为目标问题,构建决策网络模型;基于多智能体强化学习训练好的决策网络模型,预测社交网络中的信息传播范围。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种社交网络信息传播范围预测方法,其特征在于,包括:
社交网络中用户与周围邻居的交互后获得回报最大作为目标问题,构建决策网络模型;
基于多智能体强化学习训练好的决策网络模型,预测社交网络中的信息传播范围;
所述基于多智能体强化学习训练好的决策网络模型,预测社交网络中的信息传播范围,包括:
进行多次仿真传播,在每次仿真过程中,根据社交网络中的用户数、每个用户的邻居数、用户类型数和每种类型用户的比例随机生成无向图;
对仿真中同一时刻的采取目标动作的用户占据总用户的比例求均值;
将所述均值判定为对应时刻社交网络中的信息传播范围;
其中,所述训练好的决策网络模型的多智能体强化学习为马尔科夫决策过程,所述马尔科夫决策过程由五元组<S,A,P,r,γ>表示,S表示环境所有可能的状态集合,A表示智能体所有可能的动作集合,P表示状态转移概率;
Figure FDA0003543071540000011
表示在环境状态s下,智能体采用动作a后环境的下一个状态为s’的概率;r表示回报函数;r(s,a)表示在环境状态s下,智能体采用动作a后,智能体获得的回报;γ表示衰减系数,累计回报定义为
Figure FDA0003543071540000012
智能体的策略π是智能体选择动作的规则;π(s,a)表示在环境状态s下,智能体采用动作a的概率;强化学习的目的是获得使累计回报期望最大的策略,公式为:
Figure FDA0003543071540000013
其中,rt表示t时刻的智能体获得的回报。
2.根据权利要求1所述的社交网络信息传播范围预测方法,其特征在于,所述社交网络中用户与周围邻居的交互后获得回报最大作为目标问题,构建决策网络模型,包括:
基于社交网络中用户与周围邻居的交互后获得回报最大作为目标问题,构建双层的全连接神经网络,其中,输入是邻居中所有用户选择动作f的比例,输出是邻居中每个用户选择动作f的概率和选择动作n的概率,所述动作f表示用户转发信息的动作,所述动作n表示用户不转发信息的动作。
3.根据权利要求1所述的社交网络信息传播范围预测方法,其特征在于,所述方法还包括:
对所述决策网络模型进行训练,得到训练好的决策网络模型。
4.根据权利要求3所述的社交网络信息传播范围预测方法,其特征在于,所述对所述决策网络模型进行训练,得到训练好的决策网络模型,包括:
对社交网络初始化,并获取观测值、动作对序列和回报序列;
基于策略梯度法更新中心节点的决策网络参数,并对非中心节点的决策网络参数进行软更新,在循环执行预设次数之后,得到训练好的网络模型参数。
5.根据权利要求1所述的社交网络信息传播范围预测方法,其特征在于,所述方法还包括:
与基于图演化博弈的信息传播模型进行对比验证,检测预测性能。
6.一种社交网络信息传播范围预测系统,其特征在于,包括:
模型构建模块,用于社交网络中用户与周围邻居的交互后获得回报最大作为目标问题,构建决策网络模型;
预测模块,用于基于多智能体强化学习训练好的决策网络模型,预测社交网络中的信息传播范围;
所述预测模块具体用于:
进行多次仿真传播,在每次仿真过程中,根据社交网络中的用户数、每个用户的邻居数、用户类型数和每种类型用户的比例随机生成无向图;
对仿真中同一时刻的采取目标动作的用户占据总用户的比例求均值;
将所述均值判定为对应时刻社交网络中的信息传播范围;
其中,所述训练好的决策网络模型的多智能体强化学习为马尔科夫决策过程,所述马尔科夫决策过程由五元组<S,A,P,r,γ>表示,S表示环境所有可能的状态集合,A表示智能体所有可能的动作集合,P表示状态转移概率;
Figure FDA0003543071540000031
表示在环境状态s下,智能体采用动作a后环境的下一个状态为s′的概率;r表示回报函数;r(s,a)表示在环境状态s下,智能体采用动作a后,智能体获得的回报;γ表示衰减系数,累计回报定义为
Figure FDA0003543071540000032
智能体的策略π是智能体选择动作的规则;π(s,a)表示在环境状态s下,智能体采用动作a的概率;强化学习的目的是获得使累计回报期望最大的策略,公式为:
Figure FDA0003543071540000033
其中,rt表示t时刻的智能体获得的回报。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述社交网络信息传播范围预测方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一项所述社交网络信息传播范围预测方法的步骤。
CN202010682101.7A 2020-07-15 2020-07-15 一种社交网络信息传播范围预测方法及系统 Active CN111967645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010682101.7A CN111967645B (zh) 2020-07-15 2020-07-15 一种社交网络信息传播范围预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010682101.7A CN111967645B (zh) 2020-07-15 2020-07-15 一种社交网络信息传播范围预测方法及系统

Publications (2)

Publication Number Publication Date
CN111967645A CN111967645A (zh) 2020-11-20
CN111967645B true CN111967645B (zh) 2022-04-29

Family

ID=73360660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010682101.7A Active CN111967645B (zh) 2020-07-15 2020-07-15 一种社交网络信息传播范围预测方法及系统

Country Status (1)

Country Link
CN (1) CN111967645B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11436501B1 (en) * 2019-08-09 2022-09-06 Bottomline Technologies, Inc. Personalization of a user interface using machine learning
CN114928548B (zh) * 2022-04-26 2023-07-28 苏州大学 一种社交网络信息传播规模预测方法及装置
CN117255226A (zh) * 2023-09-04 2023-12-19 北京工商大学 一种直播电商信息跨平台传播范围预测的方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103401838A (zh) * 2013-07-02 2013-11-20 中北大学 一种基于僵尸程序传播行为的僵尸网络预防方法
CN105654388A (zh) * 2015-12-29 2016-06-08 中国人民解放军国防科学技术大学 一种动态社会网络信息传播模型的建模方法
CN109408911A (zh) * 2018-10-08 2019-03-01 重庆邮电大学 一种在cpss下基于acp理论的群体演化方法
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、系统及电子设备
CN110399920A (zh) * 2019-07-25 2019-11-01 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11093829B2 (en) * 2017-10-12 2021-08-17 Honda Motor Co., Ltd. Interaction-aware decision making

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103401838A (zh) * 2013-07-02 2013-11-20 中北大学 一种基于僵尸程序传播行为的僵尸网络预防方法
CN105654388A (zh) * 2015-12-29 2016-06-08 中国人民解放军国防科学技术大学 一种动态社会网络信息传播模型的建模方法
CN109408911A (zh) * 2018-10-08 2019-03-01 重庆邮电大学 一种在cpss下基于acp理论的群体演化方法
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、系统及电子设备
CN110399920A (zh) * 2019-07-25 2019-11-01 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Deep Multi-agent Reinforcement Learning in a Common-Pool Resource System》;Zhu, HW 等;《IEEE Congress on Evolutionary Computation (IEEE CEC)》;20191231;142-149 *

Also Published As

Publication number Publication date
CN111967645A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN111967645B (zh) 一种社交网络信息传播范围预测方法及系统
Yu et al. Emotional multiagent reinforcement learning in spatial social dilemmas
CN111632379B (zh) 游戏角色行为控制方法、装置、存储介质及电子设备
CN112329948B (zh) 一种多智能体策略预测方法及装置
CN108962238A (zh) 基于结构化神经网络的对话方法、系统、设备及存储介质
CN112116090B (zh) 神经网络结构搜索方法、装置、计算机设备及存储介质
Taiji et al. Dynamics of internal models in game players
Pan Trust, influence, and convergence of behavior in social networks
CN111282267A (zh) 信息处理方法、装置、介质及电子设备
Toriumi et al. Why do people use social media? agent-based simulation and population dynamics analysis of the evolution of cooperation in social media
CN113505855B (zh) 一种对抗攻击模型的训练方法
Xu et al. Cooperation with bottom-up reputation dynamics
CN110619082A (zh) 一种基于重复搜索机制的项目推荐方法
CN111737439A (zh) 一种问题生成方法及装置
Zschache Producing public goods in networks: Some effects of social comparison and endogenous network change
CN112801299B (zh) 奖惩机制演化博弈模型构建方法、系统及应用
CN112905013A (zh) 智能体控制方法、装置、计算机设备和存储介质
JP2019079227A (ja) 状態遷移規則獲得装置、行動選択学習装置、行動選択装置、状態遷移規則獲得方法、行動選択方法、およびプログラム
CN116245009A (zh) 人机策略生成方法
CN113255231A (zh) 一种数据处理方法、装置、设备及存储介质
Kang et al. Self-organizing agents for reinforcement learning in virtual worlds
Grappiolo et al. Artificial evolution for the detection of group identities in complex artificial societies
CN116029370B (zh) 基于区块链的联邦学习的数据共享激励方法、装置及设备
Wilisowski et al. The application of co-evolutionary genetic programming and TD (1) reinforcement learning in large-scale strategy game VCMI
Fan et al. Likelihood category game model for knowledge consensus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant