CN111291890B - 一种博弈策略优化方法、系统及存储介质 - Google Patents

一种博弈策略优化方法、系统及存储介质 Download PDF

Info

Publication number
CN111291890B
CN111291890B CN202010399728.1A CN202010399728A CN111291890B CN 111291890 B CN111291890 B CN 111291890B CN 202010399728 A CN202010399728 A CN 202010399728A CN 111291890 B CN111291890 B CN 111291890B
Authority
CN
China
Prior art keywords
strategy
agent
game
network
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010399728.1A
Other languages
English (en)
Other versions
CN111291890A (zh
Inventor
王轩
漆舒汉
张加佳
胡书豪
黄旭忠
刘洋
蒋琳
廖清
夏文
李化乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202010399728.1A priority Critical patent/CN111291890B/zh
Publication of CN111291890A publication Critical patent/CN111291890A/zh
Application granted granted Critical
Publication of CN111291890B publication Critical patent/CN111291890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种博弈策略优化方法、系统及存储介质,该博弈策略优化方法包括建立基于最大熵的策略递度算法步骤和多智能体最优反应策略求解步骤。本发明的有益效果是:本发明采用中心化训练和分散式执行的方式,提高动作估值网络的准确性,同时引入了全局基线奖励来更准确地衡量智能体的动作收益,以此来解决人博弈中的信用分配问题。同时引入了最大熵方法来进行策略评估,平衡了策略优化过程中的探索与利用。

Description

一种博弈策略优化方法、系统及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及基于多智能体强化学习和虚拟自我对局的博弈策略优化方法、系统及存储介质。
背景技术
现实场景中的诸多决策问题都可以建模成非完备信息博弈中的策略求解问题,但目前的机器博弈算法需要对问题的状态空间进行抽象,在高维动作空间中表现不佳,且通常仅适用于二人博弈,而实际问题中的博弈大多数是多人博弈。
神经网络虚拟自我对局 (Neural Fictitious Self-Play,NFSP)是一种在机器博弈领域引发诸多关注的博弈策略求解方法,通过自我博弈来进行学习,分别利用深度强化学习和监督学习来实现机器博弈中最佳响应策略的计算和平均策略的更新。自博弈通过采样的方式来构造智能体的强化学习记忆,使其相当于近似对手采取平均策略的马尔可夫决策过程 (Markov Decision Process, MDP) 经验数据。因此通过强化学习算法对MDP(马尔可夫决策过程)进行求解可以求解近似最优反应策略,同样地,智能体的监督学习记忆可用来近似智能体自身的平均策略经验数据,然后通过有监督分类算法求解策略。NFSP(神经网络虚拟自我对局)智能体将其博弈的经验数据存储在一个有限的重放缓冲区中,进行蓄水池抽样来避免抽样误差。同时NFSP(神经网络虚拟自我对局)还可以使智能体使用预期动力学有效地跟踪其对手的策略变化。
但是在多智能体博弈中的策略学习本质上比单智能体博弈更复杂,多智能体博弈中往往具有非平稳性,智能体不光要与对手进行交互,而且会受到其他智能体策略的影响。NFSP(神经网络虚拟自我对局)中的预期动态可以感知二人博弈中的策略变化,但在多人博弈中作用有限。在 NFSP (神经网络虚拟自我对局)中每次生成的样本对应固定的对手策略,如果无法感知其他智能体带来的策略影响,那么学习到的最优反应策略和平均策略都是不准确的,将会导致 MDP (马尔可夫决策过程)的马尔可夫性失效。此外在多智能体博弈中还存在维度灾难、信用分配、全局探索等诸多问题。
发明内容
本发明提供了一种博弈策略优化方法,该博弈策略优化方法基于多智能体强化学习和虚拟自我对局进行实现,包括如下步骤:
建立基于最大熵的策略递度算法步骤:在最大熵强化学习中,除了要最大化累计期望收益这个基本目标,还要最大化策略熵:
Figure 842587DEST_PATH_IMAGE001
其中的
Figure 713722DEST_PATH_IMAGE002
表示策略
Figure 184804DEST_PATH_IMAGE003
在状态
Figure 173489DEST_PATH_IMAGE004
下的策略熵,
Figure 613960DEST_PATH_IMAGE005
表示决定策略熵项重 要程度的温度系数,相当于用来控制智能体策略的随机性,如果
Figure 826635DEST_PATH_IMAGE006
则退化为传统的强 化学习算法;
多智能体最优反应策略求解步骤:采用中心化训练分散式执行的方式来求解最优策略,通过基线奖励评估合作博弈中的智能体收益。
作为本发明的进一步改进,在所述建立基于最大熵的策略递度算法步骤中,温度系数a的损失函数如下:
Figure 44734DEST_PATH_IMAGE007
上述公式的意义就是保持策略熵大于
Figure 368268DEST_PATH_IMAGE008
的同时来优化策略,可以实现在博弈策 略优化的不同阶段温度系数 α 可变。
本发明还提供了一种博弈策略优化系统,该博弈策略优化系统基于多智能体强化学习和虚拟自我对局进行实现,包括:
建立基于最大熵的策略递度算法模块:在最大熵强化学习中,除了要最大化累计期望收益这个基本目标,还要最大化策略熵:
Figure 132086DEST_PATH_IMAGE001
其中的
Figure 515663DEST_PATH_IMAGE002
表示策略
Figure 238636DEST_PATH_IMAGE003
在状态
Figure 867326DEST_PATH_IMAGE004
下的策略熵,
Figure 718607DEST_PATH_IMAGE005
表示决定策略熵项重 要程度的温度系数,相当于用来控制智能体策略的随机性,如果
Figure 37199DEST_PATH_IMAGE006
则退化为传统的强 化学习算法;
多智能体最优反应策略求解模块:采用中心化训练分散式执行的方式来求解最优策略,通过基线奖励评估合作博弈中的智能体收益。
作为本发明的进一步改进,在所述建立基于最大熵的策略递度算法模块中,温度系数a的损失函数如下:
Figure 403459DEST_PATH_IMAGE009
上述公式的意义就是保持策略熵大于
Figure 632577DEST_PATH_IMAGE008
的同时来优化策略,可以实现在博弈策 略优化的不同阶段温度系数 α 可变。
本发明还提供了一种博弈策略优化装置,该博弈策略优化装置基于多智能体强化学习和虚拟自我对局进行实现,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的博弈策略优化方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的博弈策略优化方法的步骤。
本发明的有益效果是:本发明采用中心化训练和分散式执行的方式,提高动作估值网络的准确性,同时引入了全局基线奖励来更准确地衡量智能体的动作收益,以此来解决人博弈中的信用分配问题。同时引入了最大熵方法来进行策略评估,平衡了策略优化过程中的探索与利用。
附图说明
图1是背景技术的NFSP(神经网络虚拟自我对局)算法框架图;
图2是本发明的基于最大熵的策略梯度算法示意图;
图3是本发明的基于基线奖励的多智能体强化学习示意图;
图4是多智能体 NFSP (神经网络虚拟自我对局)网络结构示意图。
具体实施方式
针对虚拟自我对局算法(NFSP)无法有效扩展到多人复杂博弈中的问题,本发明公开了一种博弈策略优化方法,该博弈策略优化方法基于多智能体强化学习和虚拟自我对局进行实现,采用中心化训练和分散式执行的方式,提高动作估值网络的准确性,同时引入了全局基线奖励来更准确地衡量智能体的动作收益,以此来解决人博弈中的信用分配问题。同时引入了最大熵方法来进行策略评估,平衡了策略优化过程中的探索与利用。
假设与定义:
强化学习的定义是学习如何从某个状态映射到某个行为,来最大化某个数值的奖励信号。强化学习的过程可以看成是智能体与环境的不断交互,交互的过程可以理解为试错,试错便是强化学习的重要特征,智能体通过学习不断调整策略来最大化累计期望奖励。在每一次交互过程中,环境会返回智能体一个反馈,反馈可以看成是一种带标签样本,由于环境反馈的奖励通常是延迟稀疏的所以反馈数据具有延时性,延迟奖励是强化学习的另一个重要特征。强化学习问题通常是通过马尔可夫决策过程来进行建模,因为强化学习的假设就是满足马尔可夫性 (Markov property),即是下个状态的概率分布只与当前状态有关而与之前的历史状态无关。马尔可夫决策过程可以用一个五元组<S; A; R; P; γ;>来表示,其中S表示状态空间,A表示有限动作集合,P即是状态转移概率,γ表示折扣因子,因为未来状态具有不确定性因此收益值会随着时间衰减, 因此累计收益可以表示为:
Figure 666261DEST_PATH_IMAGE010
其中
Figure 630456DEST_PATH_IMAGE011
表示t时刻的立即收益。
在标准的强化学习问题中,算法学习目标就是要求解一个策略能够最大化累计期望收益:
Figure 687273DEST_PATH_IMAGE012
2.基于最大熵的策略梯度算法:
在最大熵强化学习中,除了要最大化累计期望收益这个基本目标,还要尽可能地最大化策略熵 (Policy Entropy):
Figure 657766DEST_PATH_IMAGE001
其中
Figure 106808DEST_PATH_IMAGE013
在状态
Figure 3089DEST_PATH_IMAGE004
下智能体选择动作
Figure 484886DEST_PATH_IMAGE014
获得的奖励,
Figure 993490DEST_PATH_IMAGE002
表示策略
Figure 1766DEST_PATH_IMAGE003
在状态
Figure 678735DEST_PATH_IMAGE004
下的策略熵,
Figure 406083DEST_PATH_IMAGE005
表示决定策略熵项重要程度的温度系数,相当于用来控制智 能体策略的随机性,如果
Figure 685755DEST_PATH_IMAGE006
则退化为传统的强化学习算法。通过公式可以很明显地看 出最大熵地学习目标有别于标准地强化学习,通过引入了最大熵来尽可能使得策略输出的 动作更分散,也就是策略更具随机性。简单概括最大熵强化学习方法的核心思想就是不舍 弃任何一个有用的动作,通过引入最大熵可以带来许多好处。
采用的基于最大熵的策略梯度算法实质也是一种 Actor-Critic 算法,采用参数 化的神经网络拟合估值网络
Figure 955062DEST_PATH_IMAGE015
和策略网络
Figure 802932DEST_PATH_IMAGE016
。Q 网络输入状态动作对
Figure 524900DEST_PATH_IMAGE017
可以输出一个估计收益 Q 值。策略网络则是输入一个状态,输出一个动作概率分布,具体 实现是输出一个高斯分布的均值和标准差,然后根据均值 µ 和标准差 σ 进行采样,采样 得到的动作即为返回的决策结果。其中 Q 网络的更新根据以下公式:
Figure 844149DEST_PATH_IMAGE018
该方法借鉴了 DQN 的经验回放思想,利用智能体交互的数据构建了一个回放缓 冲池。其中
Figure 967962DEST_PATH_IMAGE019
是从经验回放缓冲池中抽样获得的,而
Figure 986734DEST_PATH_IMAGE020
则是通过策略网络
Figure 992736DEST_PATH_IMAGE016
采样得到的。其中训练策略网络的损失函数为:
Figure 817473DEST_PATH_IMAGE021
其中在计算策略网络的损失时,引入了一个重新参数化的技巧
Figure 733476DEST_PATH_IMAGE022
,可 以去掉一些不影响梯度的常量便得到了上文化简后的损失函数。
在策略学习的不同阶段,往往需要不同程度的探索与利用,因此这个温度系数对最终策略的影响显而易见。如果采用固定的温度系数,那么策略是无法应对博弈场景发生奖励变化的。那么采用一个可学习的温度系数是至关重要的,具体实现可以构造一个带约束的优化问题,相当于在最大化智能体期望收益的同时保持策略熵大于一个设定的阈值。那么温度系数的损失函数如下:
Figure 218422DEST_PATH_IMAGE023
其中
Figure 977299DEST_PATH_IMAGE024
表示在状态
Figure 605727DEST_PATH_IMAGE004
下智能体选择动作
Figure 969712DEST_PATH_IMAGE014
的概率分布,该公式的意义就 是保持策略熵大于
Figure 799128DEST_PATH_IMAGE008
的同时来优化策略,可以实现在博弈策略优化的不同阶段温度系数 α 可变。
基于基线奖励的多智能体最优反应策略求解:
上述基于最大熵的强化学习算法可以用来求解 NFSP (神经网络虚拟自我对局)中的最优反应策略,但是在多智能体博弈中往往具有非平稳性,智能体不光要与对手进行交互,而且会受到其他智能体策略的影响。NFSP (神经网络虚拟自我对局)中的预期动态可以感知二人博弈中的策略变化,但在多人博弈中作用有限。针对多智能体博弈中非平稳性问题,采用中心化训练分散式执行的方式来求解最优策略。具体是在训练阶段允许利用其他智能体的可见信息,在智能体根据策略执行动作时则仅根据自身可见信息做出判断。
在该方法中,对于智能体i的估值网络Critic的损失函数如下:
Figure 484449DEST_PATH_IMAGE025
Figure 916568DEST_PATH_IMAGE026
其中
Figure 666218DEST_PATH_IMAGE027
为智能体i估值网络的输出,该网络的输入
Figure 260010DEST_PATH_IMAGE028
中 的
Figure 603267DEST_PATH_IMAGE029
表示智能体之间共享的全局信息,而
Figure 77891DEST_PATH_IMAGE030
表示第i个智能体的动作,y为估值网络
Figure 947627DEST_PATH_IMAGE031
输出 的拟合目标,y中的
Figure 712321DEST_PATH_IMAGE032
表示智能体i的奖励,
Figure 542874DEST_PATH_IMAGE033
表示智能体i延迟更新的目标策略网络输出。
对于智能体 i的策略网络 Actor 的梯度公式如下:
Figure 51215DEST_PATH_IMAGE034
其中
Figure 276923DEST_PATH_IMAGE035
表示策略组
Figure 212518DEST_PATH_IMAGE036
中的策略网络参数。而
Figure 530366DEST_PATH_IMAGE037
则是中心化训练的值网络 的输出。
除了通过解决多智能体博弈系统中的非平稳问题来优化NFSP(神经网络虚拟自我对局)中的策略优化,本发明还将针对信用分配问题引入一些解决办法,主要思想是引入一个基线奖励来更好地评估合作博弈中的智能体收益。
由图3可以看出为了在多智能体中更好地共享信息,在前面中心化训练分散式执 行的基础上做了一些改动,把评估网络Critic合并为一个,即利用一个集中的Critic来评 估所有智能体的行为,而不是原来的智能体单独训练自己的估值网络,这个改动不光可以 增强智能体的协作能力同时还能中心化地计算基线奖励。通过这样一个中心化的
Figure 576820DEST_PATH_IMAGE038
可 以对状态s下的联合动作u进行估值。对于每个智能体 a 我们都可以计算一个当前动作
Figure 421148DEST_PATH_IMAGE039
的优势函数,其中用到的基线则是由与
Figure 26179DEST_PATH_IMAGE039
无关的默认动作产生的,同时需要保持其他智能 体的动作
Figure 565745DEST_PATH_IMAGE040
固定。可得到以下优势函数:
Figure 478206DEST_PATH_IMAGE041
第一项表示选取动作
Figure 114724DEST_PATH_IMAGE042
得到的全局收益,该奖励可以通过中心化的 Critic 计 算得到。第二项中
Figure 657701DEST_PATH_IMAGE043
表示智能体a基于
Figure 418984DEST_PATH_IMAGE044
(即历史状态动作对)选择动作
Figure 636600DEST_PATH_IMAGE045
的概 率,第二项整项表示智能体a在所有可能选择动作下可以获得的全局奖励期望,以此来作为 基线奖励,以前后两项的差来衡量智能体当前选择的动作相对于期望全局收益的增益多 少。
本发明还公开了一种基于多智能体强化学习和虚拟自我对局的博弈策略优化系统,包括:
建立基于最大熵的策略递度算法模块:在最大熵强化学习中,除了要最大化累计期望收益这个基本目标,还要最大化策略熵:
Figure 127625DEST_PATH_IMAGE001
其中
Figure 513607DEST_PATH_IMAGE013
在状态
Figure 355661DEST_PATH_IMAGE004
下智能体选择动作
Figure 609925DEST_PATH_IMAGE014
获得的奖励,
Figure 471569DEST_PATH_IMAGE002
表示策略
Figure 294031DEST_PATH_IMAGE003
在状态
Figure 154540DEST_PATH_IMAGE004
下的策略熵,
Figure 150177DEST_PATH_IMAGE005
表示决定策略熵项重要程度的温度系数,相当于用来控制智 能体策略的随机性,如果
Figure 287898DEST_PATH_IMAGE006
则退化为传统的强化学习算法;
多智能体最优反应策略求解模块:采用中心化训练分散式执行的方式来求解最优策略,通过基线奖励评估合作博弈中的智能体收益。
在所述建立基于最大熵的策略递度算法模块中,温度系数a的损失函数如下:
Figure 343578DEST_PATH_IMAGE007
其中
Figure 458427DEST_PATH_IMAGE024
表示在状态
Figure 992177DEST_PATH_IMAGE004
下智能体选择动作
Figure 249983DEST_PATH_IMAGE014
的概率分布,上述公式的意义 就是保持策略熵大于
Figure 742144DEST_PATH_IMAGE008
的同时来优化策略,可以实现在博弈策略优化的不同阶段温度系 数 α 可变。
在所述多智能体最优反应策略求解模块中,采用中心化训练分散式执行的方式来求解最优策略的具体技术方案是:在训练阶段允许利用其他智能体的可见信息,在智能体根据策略执行动作时则仅根据自身可见信息做出判断,对于智能体i的估值网络Critic的损失函数如下:
Figure 311666DEST_PATH_IMAGE025
Figure 147641DEST_PATH_IMAGE026
其中
Figure 525533DEST_PATH_IMAGE027
为智能体i估值网络的输出,该网络的输入
Figure 657437DEST_PATH_IMAGE028
中 的
Figure 245413DEST_PATH_IMAGE029
表示智能体之间共享的全局信息,而
Figure 386544DEST_PATH_IMAGE030
表示第i个智能体的动作,y为估值网络
Figure 353363DEST_PATH_IMAGE031
输 出的拟合目标,y中的
Figure 157634DEST_PATH_IMAGE032
表示智能体i的奖励,
Figure 232906DEST_PATH_IMAGE033
表示智能体i延迟更新的目标策略网络输 出;
对于智能体 i的策略网络 Actor 的梯度公式如下:
Figure 912149DEST_PATH_IMAGE034
其中
Figure 999054DEST_PATH_IMAGE035
表示策略组
Figure 738340DEST_PATH_IMAGE036
中的策略网络参数,而
Figure 742986DEST_PATH_IMAGE037
则是中心化训练的值网络 的输出。
在所述多智能体最优反应策略求解模块中,通过基线奖励评估合作博弈中的智能 体收益的具体技术方案是:利用一个集中的评估网络Critic评估所有智能体的行为,通过 中心化的
Figure 22657DEST_PATH_IMAGE038
对状态s下的联合动作u进行估值,对于每个智能体 a都可以计算一个当前 动作
Figure 291964DEST_PATH_IMAGE039
的优势函数,其中用到的基线则是由与
Figure 874256DEST_PATH_IMAGE039
无关的默认动作产生的,同时需要保持 其他智能体的动作
Figure 596224DEST_PATH_IMAGE040
固定,可得到以下优势函数:
Figure 181051DEST_PATH_IMAGE046
第一项表示选取动作
Figure 304865DEST_PATH_IMAGE042
得到的全局收益,该奖励可以通过中心化的 Critic 计 算得到,第二项中
Figure 651533DEST_PATH_IMAGE043
表示智能体a基于
Figure 798480DEST_PATH_IMAGE044
选择动作
Figure 357638DEST_PATH_IMAGE045
的概率,第二项整项表示智 能体a在所有可能选择动作下可以获得的全局奖励期望,以此来作为基线奖励,以前后两项 的差来衡量智能体当前选择的动作相对于期望全局收益的增益多少。
本发明还公开了一种博弈策略优化装置,该博弈策略优化装置基于多智能体强化学习和虚拟自我对局进行实现,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的博弈策略优化方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的博弈策略优化方法的步骤。
本发明的有益效果将通过如下实验进行说明:
1.实验设置:
为了验证本发明的有效性,将本发明应用到NeurIPS-2018(人工智能顶会2018)官方赛事多人Pommerman游戏环境中,实现智能体博弈策略的优化。Pommerman是NeurIPS会议(人工智能顶会)上开设的多智能体竞赛,将多智能体协作、非完全信息博弈以及持续学习等关键问题浓缩到炸弹人竞赛中。赛事官方提供了基于图规则的专家智能体SimpleAgent,该智能体具有一定的博弈水平,适合用来作为基线进行对比试验。
具体实现是将Pommerman 环境中原始的状态表示矩阵编码为一个11*11*19的状态表征张量,作为网络的输入。状态表征矩阵中包括了地图信息、智能体炸弹威力、敌方智能体信息等,此外还加入了可以表征智能体存活时长的矩阵。最优反应策略求解部分是基于中心化训练分散式执行框架的,通过智能体共享的全局信息和动作训练了一个中心化的估值网络Critic,并在损失函数中添加了策略熵来平衡探索和利用,更新方式是最小化均方差,Critic的作用是对Actor输出的网络进行评估。而Actor网络是利用优势函数进行单独更新,优势函数是通过Critic网络估值和一个基线奖励计算得到,基线奖励是在其他智能体采取默认动作的情况下自身策略的期望,Actor网络用来拟合智能体的最优反应策略。平均策略则是采用行为克隆进行更新。平均策略的状态输入与最优反应策略一致,且共用一个卷积模块进行特征映射,输出都是一个6维的概率分布,表示智能体策略, 其网络结构如图4所示。
现有方法对比:
(1)HITSZ_SCUT:获得NeruaIPS-2018 Pommerman第九名的智能体,其主要方法是在本发明多智能体虚拟自我对局的基础上引入了更多手工设计的规则。
(2)MADDPG:中心化训练和分散化执行,允许使用一些额外的信息(全局信息)进行学习,只要在执行的时候仅使用局部信息。
(3)COMA:引入基线奖励,解决多智能体信用分配问题。
实验结果:
本发明做了NFSP相关算法的训练结果实验,表示智能体与SimpleAgent对战的胜率曲线变化。可以看出基于最大熵的NFSP(神经网络虚拟自我对局)算法相较于其余两种方法收敛更慢,这是由于最大熵考虑的是探索与利用的平衡,不会过度利用当前的最优策略,在策略探索上花费的学习成本更多,收敛目标是一个泛化性更强的策略。而基于基线奖励的NFSP(神经网络虚拟自我对局)方法相比于其余两种方法有一定优势,这是因为实验中采取的是Pommerman的团队模式,因此同一支队伍的智能体会共享一个全局奖励,而通过引入基线奖励则是可以更好地评估智能体动作对全局奖励的实际贡献,相当于优化了多智能体博弈中的信用分配。
本发明做了基于最大熵和基线奖励的多智能体NFSP(神经网络虚拟自我对局)智能体与其他算法的对比结果实验,纵轴表示奖励,游戏中只有获胜才可以得到+1奖励,平局和失败都只能获得-1奖励。在该实验中可以看出基于最大熵和基线奖励的多智能体NFSP(神经网络虚拟自我对局)收敛较快。COMA引入的基线奖励相较于MADDPG更适用于这种合作的博弈场景,而MADDPG虽有共享信息的训练过程但未能处理好这种合作场景中的共享奖励问题,图中显著优于MADDPG。而 HITSZ_SCUT由于利用先验知识手工设计规则会在实际场景中应用受限。除了NFSP (神经网络虚拟自我对局)的其余三种算法均是以SimpleAgent作为对手进行训练,而NFSP(神经网络虚拟自我对局)则是通过自博弈的方式进行策略优化,同时还引入了最大熵,虽然其他方法在对局SimpleAgent的对局更有优势,但最大熵和基线奖励的多智能体NFSP(神经网络虚拟自我对局)泛化性会更好。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (6)

1.一种博弈策略优化方法,该博弈策略优化方法基于多智能体强化学习和虚拟自我对局进行实现,其特征在于,包括如下步骤:
建立基于最大熵的策略递度算法步骤:在最大熵强化学习中,除了要最大化累计期望收益这个基本目标,还要最大化策略熵:
Figure DEST_PATH_IMAGE001
其中
Figure DEST_PATH_IMAGE002
在状态
Figure DEST_PATH_IMAGE003
下智能体选择动作
Figure DEST_PATH_IMAGE004
获得的奖励,
Figure DEST_PATH_IMAGE005
表示策略
Figure DEST_PATH_IMAGE006
在 状态
Figure 404812DEST_PATH_IMAGE003
下的策略熵,
Figure DEST_PATH_IMAGE007
表示决定策略熵项重要程度的温度系数,相当于用来控制智能体 策略的随机性,如果
Figure DEST_PATH_IMAGE008
则退化为传统的强化学习算法;
多智能体最优反应策略求解步骤:采用中心化训练分散式执行的方式来求解最优策略,通过基线奖励评估合作博弈中的智能体收益;
将该博弈策略优化方法应用于多人游戏中,实现多智能体博弈;
将该博弈策略优化方法应用于多人游戏中的实现方式是:根据博弈场景特点提取每个智能体所处环境的原始状态表示矩阵,编码为一个11*11*19的状态表征向量,作为网络输入;原始状态表示矩阵中需要包括地图信息、智能体炸弹威力、敌方智能体信息、存活时长;网络主体结构采用卷积神经网络结构;分为训练和测试2个步骤,训练时采用虚拟自我对局框架,其中最优反应策略求解采用中心化训练分散式执行框架,通过智能体共享的全局信息和动作训练了一个中心化的估值网络Critic,并在损失函数中添加了策略熵来平衡探索和利用,Actor网络用来拟合智能体的全局最优反应策略;训练时,平均策略则是采用对Actor进行行为克隆从而更新网络参数;在训练和测试时均通过平均策略决定每个智能体的动作,平均策略的状态输入与最优反应策略一致,且共用一个主体卷积模块进行特征映射,假设N是智能体的可选动作总数,平局策略输出是一个N维向量,表示每个智能体的动作概率分布,即智能体策略,智能体将采取N维向量中概率最大的动作;
在所述多智能体最优反应策略求解步骤中,采用中心化训练分散式执行的方式来求解最优策略的具体技术方案是:在训练阶段允许利用其他智能体的可见信息,在智能体根据策略执行动作时则仅根据自身可见信息做出判断,对于智能体i的估值网络Critic的损失函数如下:
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
其中
Figure DEST_PATH_IMAGE011
为智能体i估值网络的输出,该网络的输入
Figure DEST_PATH_IMAGE012
中的
Figure DEST_PATH_IMAGE013
表 示智能体之间共享的全局信息,而
Figure DEST_PATH_IMAGE014
表示第i个智能体的动作,y为估值网络
Figure DEST_PATH_IMAGE015
输出的拟 合目标,y中的
Figure DEST_PATH_IMAGE016
表示智能体i的奖励,
Figure DEST_PATH_IMAGE017
表示智能体i延迟更新的目标策略网络输出;
对于智能体 i的策略网络 Actor 的梯度公式如下:
Figure DEST_PATH_IMAGE018
其中
Figure DEST_PATH_IMAGE019
表示策略组
Figure DEST_PATH_IMAGE020
中的策略网络参数,而
Figure DEST_PATH_IMAGE021
则是中心化训练的值网络的输 出;
在所述多智能体最优反应策略求解步骤中,通过基线奖励评估合作博弈中的智能体收 益的具体技术方案是:利用一个集中的评估网络Critic评估所有智能体的行为,通过中心 化的
Figure DEST_PATH_IMAGE022
对状态s下的联合动作u进行估值,对于每个智能体 a都可以计算一个当前动作
Figure DEST_PATH_IMAGE023
的优势函数,其中用到的基线则是由与
Figure 529411DEST_PATH_IMAGE023
无关的默认动作产生的,同时需要保持其他智 能体的动作
Figure DEST_PATH_IMAGE024
固定,可得到以下优势函数:
Figure DEST_PATH_IMAGE025
第一项表示选取动作
Figure DEST_PATH_IMAGE026
得到的全局收益,该奖励可以通过中心化的 Critic 计算得 到,第二项中
Figure DEST_PATH_IMAGE027
表示智能体a基于
Figure DEST_PATH_IMAGE028
选择动作
Figure DEST_PATH_IMAGE029
的概率,第二项整项表示智能体a 在所有可能选择动作下可以获得的全局奖励期望,以此来作为基线奖励,以前后两项的差 来衡量智能体当前选择的动作相对于期望全局收益的增益多少。
2.根据权利要求1所述的博弈策略优化方法,其特征在于,在所述建立基于最大熵的策略递度算法步骤中,温度系数a的损失函数如下:
Figure DEST_PATH_IMAGE030
其中
Figure DEST_PATH_IMAGE031
表示在状态
Figure 870000DEST_PATH_IMAGE003
下智能体选择动作
Figure 202893DEST_PATH_IMAGE004
的概率分布,上述公式的意义就是 保持策略熵大于
Figure DEST_PATH_IMAGE032
的同时来优化策略,可以实现在博弈策略优化的不同阶段温度系数 α 可变。
3.一种博弈策略优化系统,该博弈策略优化系统基于多智能体强化学习和虚拟自我对局进行实现,其特征在于,包括:
建立基于最大熵的策略递度算法模块:在最大熵强化学习中,除了要最大化累计期望收益这个基本目标,还要最大化策略熵:
Figure 954948DEST_PATH_IMAGE001
其中
Figure 715093DEST_PATH_IMAGE002
在状态
Figure 418345DEST_PATH_IMAGE003
下智能体选择动作
Figure 554928DEST_PATH_IMAGE004
获得的奖励,
Figure 223807DEST_PATH_IMAGE005
表示策略
Figure 154854DEST_PATH_IMAGE006
在 状态
Figure 846866DEST_PATH_IMAGE003
下的策略熵,
Figure 25956DEST_PATH_IMAGE007
表示决定策略熵项重要程度的温度系数,相当于用来控制智能体 策略的随机性,如果
Figure 549341DEST_PATH_IMAGE008
则退化为传统的强化学习算法;
多智能体最优反应策略求解模块:采用中心化训练分散式执行的方式来求解最优策略,通过基线奖励评估合作博弈中的智能体收益;
将该博弈策略优化系统应用于多人游戏中,实现多智能体博弈;
将该博弈策略优化系统应用于多人游戏中的实现方式是:根据博弈场景特点提取每个智能体所处环境的原始状态表示矩阵,编码为一个11*11*19的状态表征向量,作为网络输入;原始状态表示矩阵中需要包括地图信息、智能体炸弹威力、敌方智能体信息、存活时长;网络主体结构采用卷积神经网络结构;分为训练和测试2个步骤,训练时采用虚拟自我对局框架,其中最优反应策略求解采用中心化训练分散式执行框架,通过智能体共享的全局信息和动作训练了一个中心化的估值网络Critic,并在损失函数中添加了策略熵来平衡探索和利用,Actor网络用来拟合智能体的全局最优反应策略;训练时,平均策略则是采用对Actor进行行为克隆从而更新网络参数;在训练和测试时均通过平均策略决定每个智能体的动作,平均策略的状态输入与最优反应策略一致,且共用一个主体卷积模块进行特征映射,假设N是智能体的可选动作总数,平局策略输出是一个N维向量,表示每个智能体的动作概率分布,即智能体策略,智能体将采取N维向量中概率最大的动作;
在所述多智能体最优反应策略求解模块中,采用中心化训练分散式执行的方式来求解最优策略的具体技术方案是:在训练阶段允许利用其他智能体的可见信息,在智能体根据策略执行动作时则仅根据自身可见信息做出判断,对于智能体i的估值网络Critic的损失函数如下:
Figure 916869DEST_PATH_IMAGE009
Figure 96177DEST_PATH_IMAGE010
其中
Figure 371301DEST_PATH_IMAGE011
为智能体i估值网络的输出,该网络的输入
Figure 952455DEST_PATH_IMAGE012
中的
Figure 723839DEST_PATH_IMAGE013
表 示智能体之间共享的全局信息,而
Figure 390444DEST_PATH_IMAGE014
表示第i个智能体的动作,y为估值网络
Figure 406942DEST_PATH_IMAGE015
输出的拟 合目标,y中的
Figure 904919DEST_PATH_IMAGE016
表示智能体i的奖励,
Figure 614249DEST_PATH_IMAGE017
表示智能体i延迟更新的目标策略网络输出;
对于智能体 i的策略网络 Actor 的梯度公式如下:
Figure 1106DEST_PATH_IMAGE018
其中
Figure 883611DEST_PATH_IMAGE019
表示策略组
Figure 173778DEST_PATH_IMAGE020
中的策略网络参数,而
Figure 54010DEST_PATH_IMAGE021
则是中心化训练的值网络的输 出;
在所述多智能体最优反应策略求解模块中,通过基线奖励评估合作博弈中的智能体收 益的具体技术方案是:利用一个集中的评估网络Critic评估所有智能体的行为,通过中心 化的
Figure 429627DEST_PATH_IMAGE022
对状态s下的联合动作u进行估值,对于每个智能体 a都可以计算一个当前动作
Figure 850244DEST_PATH_IMAGE023
的优势函数,其中用到的基线则是由与
Figure 759032DEST_PATH_IMAGE023
无关的默认动作产生的,同时需要保持其他智 能体的动作
Figure 810165DEST_PATH_IMAGE024
固定,可得到以下优势函数:
Figure 673079DEST_PATH_IMAGE025
第一项表示选取动作
Figure 897387DEST_PATH_IMAGE026
得到的全局收益,该奖励可以通过中心化的 Critic 计算得 到,第二项中
Figure 896567DEST_PATH_IMAGE027
表示智能体a基于
Figure 611276DEST_PATH_IMAGE028
选择动作
Figure 961486DEST_PATH_IMAGE029
的概率,第二项整项表示智能体a 在所有可能选择动作下可以获得的全局奖励期望,以此来作为基线奖励,以前后两项的差 来衡量智能体当前选择的动作相对于期望全局收益的增益多少。
4.根据权利要求3所述的博弈策略优化系统,其特征在于,在所述建立基于最大熵的策略递度算法模块中,温度系数a的损失函数如下:
Figure 989485DEST_PATH_IMAGE030
其中
Figure 108751DEST_PATH_IMAGE031
表示在状态
Figure 236107DEST_PATH_IMAGE003
下智能体选择动作
Figure 572148DEST_PATH_IMAGE004
的概率分布,上述公式的意义就是 保持策略熵大于
Figure 138258DEST_PATH_IMAGE032
的同时来优化策略,可以实现在博弈策略优化的不同阶段温度系数 α 可变。
5.一种博弈策略优化装置,该博弈策略优化装置基于多智能体强化学习和虚拟自我对局进行实现,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-2中任一项所述的博弈策略优化方法的步骤。
6.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-2中任一项所述的博弈策略优化方法的步骤。
CN202010399728.1A 2020-05-13 2020-05-13 一种博弈策略优化方法、系统及存储介质 Active CN111291890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010399728.1A CN111291890B (zh) 2020-05-13 2020-05-13 一种博弈策略优化方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010399728.1A CN111291890B (zh) 2020-05-13 2020-05-13 一种博弈策略优化方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN111291890A CN111291890A (zh) 2020-06-16
CN111291890B true CN111291890B (zh) 2021-01-01

Family

ID=71031217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010399728.1A Active CN111291890B (zh) 2020-05-13 2020-05-13 一种博弈策略优化方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN111291890B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112068549B (zh) * 2020-08-07 2022-12-16 哈尔滨工业大学 一种基于深度强化学习的无人系统集群控制方法
CN112182485B (zh) * 2020-09-22 2023-08-18 华中师范大学 一种基于演化博弈的在线知识共享动态奖励方法
CN112329348B (zh) * 2020-11-06 2023-09-15 东北大学 一种面向非完全信息条件下军事对抗博弈的智能决策方法
CN112418349A (zh) * 2020-12-12 2021-02-26 武汉第二船舶设计研究所(中国船舶重工集团公司第七一九研究所) 一种大型复杂系统分布式多智能体确定性策略控制方法
CN113011583B (zh) * 2021-03-12 2022-04-12 支付宝(杭州)信息技术有限公司 强化学习模型的训练方法及装置
CN113128705B (zh) * 2021-03-24 2024-02-09 北京科技大学顺德研究生院 一种智能体最优策略获取方法及装置
CN113221444B (zh) * 2021-04-20 2023-01-03 中国电子科技集团公司第五十二研究所 一种面向空中智能博弈的行为模仿训练方法
CN113240118B (zh) * 2021-05-18 2023-05-09 中国科学院自动化研究所 优势估计方法、装置、电子设备和存储介质
CN113435112B (zh) * 2021-06-10 2024-02-13 大连海事大学 基于邻居感知的多智能体强化学习的交通信号控制方法
CN113400307B (zh) * 2021-06-16 2022-10-18 清华大学 一种空间机器人机械臂的控制方法
CN113592101B (zh) * 2021-08-13 2023-10-17 大连大学 一种基于深度强化学习的多智能体协作模型
CN114089627B (zh) * 2021-10-08 2023-09-15 北京师范大学 基于双深度q网络学习的非完全信息博弈策略优化方法
CN114048834B (zh) * 2021-11-05 2023-01-17 哈尔滨工业大学(深圳) 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置
CN114048833B (zh) * 2021-11-05 2023-01-17 哈尔滨工业大学(深圳) 基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置
CN114372645A (zh) * 2022-03-22 2022-04-19 山东大学 基于多智能体强化学习的供能系统优化方法及系统
CN114727407B (zh) * 2022-05-12 2022-08-26 中国科学院自动化研究所 一种资源分配方法、装置及设备
CN115660110B (zh) * 2022-12-26 2023-04-14 中国科学院自动化研究所 多智能体信用分配方法、装置、可读存储介质和智能体
CN116028817A (zh) * 2023-01-13 2023-04-28 哈尔滨工业大学(深圳) 一种基于单估值网络的cfr策略求解方法及相关设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764453B (zh) * 2018-06-08 2021-10-01 中国科学技术大学 面向多智能体同步博弈的建模方法及动作预测系统
US11295174B2 (en) * 2018-11-05 2022-04-05 Royal Bank Of Canada Opponent modeling with asynchronous methods in deep RL
CN110404264B (zh) * 2019-07-25 2022-11-01 哈尔滨工业大学(深圳) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质
CN110404265B (zh) * 2019-07-25 2022-11-01 哈尔滨工业大学(深圳) 一种基于博弈残局在线解算的多人非完备信息机器博弈方法、装置、系统及存储介质

Also Published As

Publication number Publication date
CN111291890A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111291890B (zh) 一种博弈策略优化方法、系统及存储介质
CN110404264B (zh) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质
Stanescu et al. Evaluating real-time strategy game states using convolutional neural networks
Shantia et al. Connectionist reinforcement learning for intelligent unit micro management in starcraft
CN108499108A (zh) 视频游戏应用程序内玩游戏参数的实时动态修改和优化
Ponsen et al. Integrating opponent models with monte-carlo tree search in poker
CN105637540A (zh) 用于强化学习的方法和设备
WO2021159779A1 (zh) 信息处理方法、装置、计算机可读存储介质及电子设备
Goldwaser et al. Deep reinforcement learning for general game playing
CN113688977B (zh) 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质
CN112926744A (zh) 基于强化学习的非完全信息博弈方法、系统以及电子设备
CN112437690A (zh) 确定执行设备的动作选择方针
CN112274925A (zh) Ai模型训练方法、调用方法、服务器及存储介质
Mousavi et al. Applying q (λ)-learning in deep reinforcement learning to play atari games
CN112533681A (zh) 确定执行设备的动作选择方针
CN114404975A (zh) 决策模型的训练方法、装置、设备、存储介质及程序产品
CN110325965A (zh) 虚拟场景中的对象处理方法、设备及存储介质
CN113509726B (zh) 交互模型训练方法、装置、计算机设备和存储介质
CN112561032B (zh) 一种基于种群训练的多智能体强化学习方法及系统
CN112044076B (zh) 一种对象控制方法、装置及计算机可读存储介质
CN113230650A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
US20200364555A1 (en) Machine learning system
Kocsis et al. Universal parameter optimisation in games based on SPSA
PRICOPE A view on deep reinforcement learning in imperfect information games

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant