CN111291890B - 一种博弈策略优化方法、系统及存储介质 - Google Patents
一种博弈策略优化方法、系统及存储介质 Download PDFInfo
- Publication number
- CN111291890B CN111291890B CN202010399728.1A CN202010399728A CN111291890B CN 111291890 B CN111291890 B CN 111291890B CN 202010399728 A CN202010399728 A CN 202010399728A CN 111291890 B CN111291890 B CN 111291890B
- Authority
- CN
- China
- Prior art keywords
- strategy
- agent
- game
- network
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/042—Backward inferencing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明提供了一种博弈策略优化方法、系统及存储介质,该博弈策略优化方法包括建立基于最大熵的策略递度算法步骤和多智能体最优反应策略求解步骤。本发明的有益效果是:本发明采用中心化训练和分散式执行的方式,提高动作估值网络的准确性,同时引入了全局基线奖励来更准确地衡量智能体的动作收益,以此来解决人博弈中的信用分配问题。同时引入了最大熵方法来进行策略评估,平衡了策略优化过程中的探索与利用。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及基于多智能体强化学习和虚拟自我对局的博弈策略优化方法、系统及存储介质。
背景技术
现实场景中的诸多决策问题都可以建模成非完备信息博弈中的策略求解问题,但目前的机器博弈算法需要对问题的状态空间进行抽象,在高维动作空间中表现不佳,且通常仅适用于二人博弈,而实际问题中的博弈大多数是多人博弈。
神经网络虚拟自我对局 (Neural Fictitious Self-Play,NFSP)是一种在机器博弈领域引发诸多关注的博弈策略求解方法,通过自我博弈来进行学习,分别利用深度强化学习和监督学习来实现机器博弈中最佳响应策略的计算和平均策略的更新。自博弈通过采样的方式来构造智能体的强化学习记忆,使其相当于近似对手采取平均策略的马尔可夫决策过程 (Markov Decision Process, MDP) 经验数据。因此通过强化学习算法对MDP(马尔可夫决策过程)进行求解可以求解近似最优反应策略,同样地,智能体的监督学习记忆可用来近似智能体自身的平均策略经验数据,然后通过有监督分类算法求解策略。NFSP(神经网络虚拟自我对局)智能体将其博弈的经验数据存储在一个有限的重放缓冲区中,进行蓄水池抽样来避免抽样误差。同时NFSP(神经网络虚拟自我对局)还可以使智能体使用预期动力学有效地跟踪其对手的策略变化。
但是在多智能体博弈中的策略学习本质上比单智能体博弈更复杂,多智能体博弈中往往具有非平稳性,智能体不光要与对手进行交互,而且会受到其他智能体策略的影响。NFSP(神经网络虚拟自我对局)中的预期动态可以感知二人博弈中的策略变化,但在多人博弈中作用有限。在 NFSP (神经网络虚拟自我对局)中每次生成的样本对应固定的对手策略,如果无法感知其他智能体带来的策略影响,那么学习到的最优反应策略和平均策略都是不准确的,将会导致 MDP (马尔可夫决策过程)的马尔可夫性失效。此外在多智能体博弈中还存在维度灾难、信用分配、全局探索等诸多问题。
发明内容
本发明提供了一种博弈策略优化方法,该博弈策略优化方法基于多智能体强化学习和虚拟自我对局进行实现,包括如下步骤:
建立基于最大熵的策略递度算法步骤:在最大熵强化学习中,除了要最大化累计期望收益这个基本目标,还要最大化策略熵:
多智能体最优反应策略求解步骤:采用中心化训练分散式执行的方式来求解最优策略,通过基线奖励评估合作博弈中的智能体收益。
作为本发明的进一步改进,在所述建立基于最大熵的策略递度算法步骤中,温度系数a的损失函数如下:
本发明还提供了一种博弈策略优化系统,该博弈策略优化系统基于多智能体强化学习和虚拟自我对局进行实现,包括:
建立基于最大熵的策略递度算法模块:在最大熵强化学习中,除了要最大化累计期望收益这个基本目标,还要最大化策略熵:
多智能体最优反应策略求解模块:采用中心化训练分散式执行的方式来求解最优策略,通过基线奖励评估合作博弈中的智能体收益。
作为本发明的进一步改进,在所述建立基于最大熵的策略递度算法模块中,温度系数a的损失函数如下:
本发明还提供了一种博弈策略优化装置,该博弈策略优化装置基于多智能体强化学习和虚拟自我对局进行实现,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的博弈策略优化方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的博弈策略优化方法的步骤。
本发明的有益效果是:本发明采用中心化训练和分散式执行的方式,提高动作估值网络的准确性,同时引入了全局基线奖励来更准确地衡量智能体的动作收益,以此来解决人博弈中的信用分配问题。同时引入了最大熵方法来进行策略评估,平衡了策略优化过程中的探索与利用。
附图说明
图1是背景技术的NFSP(神经网络虚拟自我对局)算法框架图;
图2是本发明的基于最大熵的策略梯度算法示意图;
图3是本发明的基于基线奖励的多智能体强化学习示意图;
图4是多智能体 NFSP (神经网络虚拟自我对局)网络结构示意图。
具体实施方式
针对虚拟自我对局算法(NFSP)无法有效扩展到多人复杂博弈中的问题,本发明公开了一种博弈策略优化方法,该博弈策略优化方法基于多智能体强化学习和虚拟自我对局进行实现,采用中心化训练和分散式执行的方式,提高动作估值网络的准确性,同时引入了全局基线奖励来更准确地衡量智能体的动作收益,以此来解决人博弈中的信用分配问题。同时引入了最大熵方法来进行策略评估,平衡了策略优化过程中的探索与利用。
假设与定义:
强化学习的定义是学习如何从某个状态映射到某个行为,来最大化某个数值的奖励信号。强化学习的过程可以看成是智能体与环境的不断交互,交互的过程可以理解为试错,试错便是强化学习的重要特征,智能体通过学习不断调整策略来最大化累计期望奖励。在每一次交互过程中,环境会返回智能体一个反馈,反馈可以看成是一种带标签样本,由于环境反馈的奖励通常是延迟稀疏的所以反馈数据具有延时性,延迟奖励是强化学习的另一个重要特征。强化学习问题通常是通过马尔可夫决策过程来进行建模,因为强化学习的假设就是满足马尔可夫性 (Markov property),即是下个状态的概率分布只与当前状态有关而与之前的历史状态无关。马尔可夫决策过程可以用一个五元组<S; A; R; P; γ;>来表示,其中S表示状态空间,A表示有限动作集合,P即是状态转移概率,γ表示折扣因子,因为未来状态具有不确定性因此收益值会随着时间衰减, 因此累计收益可以表示为:
在标准的强化学习问题中,算法学习目标就是要求解一个策略能够最大化累计期望收益:
2.基于最大熵的策略梯度算法:
在最大熵强化学习中,除了要最大化累计期望收益这个基本目标,还要尽可能地最大化策略熵 (Policy Entropy):
其中 在状态 下智能体选择动作 获得的奖励,表示策略 在状态 下的策略熵, 表示决定策略熵项重要程度的温度系数,相当于用来控制智
能体策略的随机性,如果 则退化为传统的强化学习算法。通过公式可以很明显地看
出最大熵地学习目标有别于标准地强化学习,通过引入了最大熵来尽可能使得策略输出的
动作更分散,也就是策略更具随机性。简单概括最大熵强化学习方法的核心思想就是不舍
弃任何一个有用的动作,通过引入最大熵可以带来许多好处。
采用的基于最大熵的策略梯度算法实质也是一种 Actor-Critic 算法,采用参数
化的神经网络拟合估值网络和策略网络。Q 网络输入状态动作对
可以输出一个估计收益 Q 值。策略网络则是输入一个状态,输出一个动作概率分布,具体
实现是输出一个高斯分布的均值和标准差,然后根据均值 µ 和标准差 σ 进行采样,采样
得到的动作即为返回的决策结果。其中 Q 网络的更新根据以下公式:
在策略学习的不同阶段,往往需要不同程度的探索与利用,因此这个温度系数对最终策略的影响显而易见。如果采用固定的温度系数,那么策略是无法应对博弈场景发生奖励变化的。那么采用一个可学习的温度系数是至关重要的,具体实现可以构造一个带约束的优化问题,相当于在最大化智能体期望收益的同时保持策略熵大于一个设定的阈值。那么温度系数的损失函数如下:
基于基线奖励的多智能体最优反应策略求解:
上述基于最大熵的强化学习算法可以用来求解 NFSP (神经网络虚拟自我对局)中的最优反应策略,但是在多智能体博弈中往往具有非平稳性,智能体不光要与对手进行交互,而且会受到其他智能体策略的影响。NFSP (神经网络虚拟自我对局)中的预期动态可以感知二人博弈中的策略变化,但在多人博弈中作用有限。针对多智能体博弈中非平稳性问题,采用中心化训练分散式执行的方式来求解最优策略。具体是在训练阶段允许利用其他智能体的可见信息,在智能体根据策略执行动作时则仅根据自身可见信息做出判断。
在该方法中,对于智能体i的估值网络Critic的损失函数如下:
其中为智能体i估值网络的输出,该网络的输入 中
的表示智能体之间共享的全局信息,而 表示第i个智能体的动作,y为估值网络 输出
的拟合目标,y中的 表示智能体i的奖励,表示智能体i延迟更新的目标策略网络输出。
对于智能体 i的策略网络 Actor 的梯度公式如下:
除了通过解决多智能体博弈系统中的非平稳问题来优化NFSP(神经网络虚拟自我对局)中的策略优化,本发明还将针对信用分配问题引入一些解决办法,主要思想是引入一个基线奖励来更好地评估合作博弈中的智能体收益。
由图3可以看出为了在多智能体中更好地共享信息,在前面中心化训练分散式执
行的基础上做了一些改动,把评估网络Critic合并为一个,即利用一个集中的Critic来评
估所有智能体的行为,而不是原来的智能体单独训练自己的估值网络,这个改动不光可以
增强智能体的协作能力同时还能中心化地计算基线奖励。通过这样一个中心化的可
以对状态s下的联合动作u进行估值。对于每个智能体 a 我们都可以计算一个当前动作
的优势函数,其中用到的基线则是由与 无关的默认动作产生的,同时需要保持其他智能
体的动作 固定。可得到以下优势函数:
第一项表示选取动作 得到的全局收益,该奖励可以通过中心化的 Critic 计
算得到。第二项中 表示智能体a基于(即历史状态动作对)选择动作的概
率,第二项整项表示智能体a在所有可能选择动作下可以获得的全局奖励期望,以此来作为
基线奖励,以前后两项的差来衡量智能体当前选择的动作相对于期望全局收益的增益多
少。
本发明还公开了一种基于多智能体强化学习和虚拟自我对局的博弈策略优化系统,包括:
建立基于最大熵的策略递度算法模块:在最大熵强化学习中,除了要最大化累计期望收益这个基本目标,还要最大化策略熵:
多智能体最优反应策略求解模块:采用中心化训练分散式执行的方式来求解最优策略,通过基线奖励评估合作博弈中的智能体收益。
在所述建立基于最大熵的策略递度算法模块中,温度系数a的损失函数如下:
在所述多智能体最优反应策略求解模块中,采用中心化训练分散式执行的方式来求解最优策略的具体技术方案是:在训练阶段允许利用其他智能体的可见信息,在智能体根据策略执行动作时则仅根据自身可见信息做出判断,对于智能体i的估值网络Critic的损失函数如下:
其中为智能体i估值网络的输出,该网络的输入 中
的表示智能体之间共享的全局信息,而 表示第i个智能体的动作,y为估值网络 输
出的拟合目标,y中的 表示智能体i的奖励,表示智能体i延迟更新的目标策略网络输
出;
对于智能体 i的策略网络 Actor 的梯度公式如下:
在所述多智能体最优反应策略求解模块中,通过基线奖励评估合作博弈中的智能
体收益的具体技术方案是:利用一个集中的评估网络Critic评估所有智能体的行为,通过
中心化的对状态s下的联合动作u进行估值,对于每个智能体 a都可以计算一个当前
动作 的优势函数,其中用到的基线则是由与 无关的默认动作产生的,同时需要保持
其他智能体的动作 固定,可得到以下优势函数:
第一项表示选取动作 得到的全局收益,该奖励可以通过中心化的 Critic 计
算得到,第二项中 表示智能体a基于选择动作的概率,第二项整项表示智
能体a在所有可能选择动作下可以获得的全局奖励期望,以此来作为基线奖励,以前后两项
的差来衡量智能体当前选择的动作相对于期望全局收益的增益多少。
本发明还公开了一种博弈策略优化装置,该博弈策略优化装置基于多智能体强化学习和虚拟自我对局进行实现,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的博弈策略优化方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的博弈策略优化方法的步骤。
本发明的有益效果将通过如下实验进行说明:
1.实验设置:
为了验证本发明的有效性,将本发明应用到NeurIPS-2018(人工智能顶会2018)官方赛事多人Pommerman游戏环境中,实现智能体博弈策略的优化。Pommerman是NeurIPS会议(人工智能顶会)上开设的多智能体竞赛,将多智能体协作、非完全信息博弈以及持续学习等关键问题浓缩到炸弹人竞赛中。赛事官方提供了基于图规则的专家智能体SimpleAgent,该智能体具有一定的博弈水平,适合用来作为基线进行对比试验。
具体实现是将Pommerman 环境中原始的状态表示矩阵编码为一个11*11*19的状态表征张量,作为网络的输入。状态表征矩阵中包括了地图信息、智能体炸弹威力、敌方智能体信息等,此外还加入了可以表征智能体存活时长的矩阵。最优反应策略求解部分是基于中心化训练分散式执行框架的,通过智能体共享的全局信息和动作训练了一个中心化的估值网络Critic,并在损失函数中添加了策略熵来平衡探索和利用,更新方式是最小化均方差,Critic的作用是对Actor输出的网络进行评估。而Actor网络是利用优势函数进行单独更新,优势函数是通过Critic网络估值和一个基线奖励计算得到,基线奖励是在其他智能体采取默认动作的情况下自身策略的期望,Actor网络用来拟合智能体的最优反应策略。平均策略则是采用行为克隆进行更新。平均策略的状态输入与最优反应策略一致,且共用一个卷积模块进行特征映射,输出都是一个6维的概率分布,表示智能体策略, 其网络结构如图4所示。
现有方法对比:
(1)HITSZ_SCUT:获得NeruaIPS-2018 Pommerman第九名的智能体,其主要方法是在本发明多智能体虚拟自我对局的基础上引入了更多手工设计的规则。
(2)MADDPG:中心化训练和分散化执行,允许使用一些额外的信息(全局信息)进行学习,只要在执行的时候仅使用局部信息。
(3)COMA:引入基线奖励,解决多智能体信用分配问题。
实验结果:
本发明做了NFSP相关算法的训练结果实验,表示智能体与SimpleAgent对战的胜率曲线变化。可以看出基于最大熵的NFSP(神经网络虚拟自我对局)算法相较于其余两种方法收敛更慢,这是由于最大熵考虑的是探索与利用的平衡,不会过度利用当前的最优策略,在策略探索上花费的学习成本更多,收敛目标是一个泛化性更强的策略。而基于基线奖励的NFSP(神经网络虚拟自我对局)方法相比于其余两种方法有一定优势,这是因为实验中采取的是Pommerman的团队模式,因此同一支队伍的智能体会共享一个全局奖励,而通过引入基线奖励则是可以更好地评估智能体动作对全局奖励的实际贡献,相当于优化了多智能体博弈中的信用分配。
本发明做了基于最大熵和基线奖励的多智能体NFSP(神经网络虚拟自我对局)智能体与其他算法的对比结果实验,纵轴表示奖励,游戏中只有获胜才可以得到+1奖励,平局和失败都只能获得-1奖励。在该实验中可以看出基于最大熵和基线奖励的多智能体NFSP(神经网络虚拟自我对局)收敛较快。COMA引入的基线奖励相较于MADDPG更适用于这种合作的博弈场景,而MADDPG虽有共享信息的训练过程但未能处理好这种合作场景中的共享奖励问题,图中显著优于MADDPG。而 HITSZ_SCUT由于利用先验知识手工设计规则会在实际场景中应用受限。除了NFSP (神经网络虚拟自我对局)的其余三种算法均是以SimpleAgent作为对手进行训练,而NFSP(神经网络虚拟自我对局)则是通过自博弈的方式进行策略优化,同时还引入了最大熵,虽然其他方法在对局SimpleAgent的对局更有优势,但最大熵和基线奖励的多智能体NFSP(神经网络虚拟自我对局)泛化性会更好。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (6)
1.一种博弈策略优化方法,该博弈策略优化方法基于多智能体强化学习和虚拟自我对局进行实现,其特征在于,包括如下步骤:
建立基于最大熵的策略递度算法步骤:在最大熵强化学习中,除了要最大化累计期望收益这个基本目标,还要最大化策略熵:
多智能体最优反应策略求解步骤:采用中心化训练分散式执行的方式来求解最优策略,通过基线奖励评估合作博弈中的智能体收益;
将该博弈策略优化方法应用于多人游戏中,实现多智能体博弈;
将该博弈策略优化方法应用于多人游戏中的实现方式是:根据博弈场景特点提取每个智能体所处环境的原始状态表示矩阵,编码为一个11*11*19的状态表征向量,作为网络输入;原始状态表示矩阵中需要包括地图信息、智能体炸弹威力、敌方智能体信息、存活时长;网络主体结构采用卷积神经网络结构;分为训练和测试2个步骤,训练时采用虚拟自我对局框架,其中最优反应策略求解采用中心化训练分散式执行框架,通过智能体共享的全局信息和动作训练了一个中心化的估值网络Critic,并在损失函数中添加了策略熵来平衡探索和利用,Actor网络用来拟合智能体的全局最优反应策略;训练时,平均策略则是采用对Actor进行行为克隆从而更新网络参数;在训练和测试时均通过平均策略决定每个智能体的动作,平均策略的状态输入与最优反应策略一致,且共用一个主体卷积模块进行特征映射,假设N是智能体的可选动作总数,平局策略输出是一个N维向量,表示每个智能体的动作概率分布,即智能体策略,智能体将采取N维向量中概率最大的动作;
在所述多智能体最优反应策略求解步骤中,采用中心化训练分散式执行的方式来求解最优策略的具体技术方案是:在训练阶段允许利用其他智能体的可见信息,在智能体根据策略执行动作时则仅根据自身可见信息做出判断,对于智能体i的估值网络Critic的损失函数如下:
其中为智能体i估值网络的输出,该网络的输入 中的表
示智能体之间共享的全局信息,而 表示第i个智能体的动作,y为估值网络 输出的拟
合目标,y中的 表示智能体i的奖励,表示智能体i延迟更新的目标策略网络输出;
对于智能体 i的策略网络 Actor 的梯度公式如下:
在所述多智能体最优反应策略求解步骤中,通过基线奖励评估合作博弈中的智能体收
益的具体技术方案是:利用一个集中的评估网络Critic评估所有智能体的行为,通过中心
化的对状态s下的联合动作u进行估值,对于每个智能体 a都可以计算一个当前动作 的优势函数,其中用到的基线则是由与 无关的默认动作产生的,同时需要保持其他智
能体的动作 固定,可得到以下优势函数:
3.一种博弈策略优化系统,该博弈策略优化系统基于多智能体强化学习和虚拟自我对局进行实现,其特征在于,包括:
建立基于最大熵的策略递度算法模块:在最大熵强化学习中,除了要最大化累计期望收益这个基本目标,还要最大化策略熵:
多智能体最优反应策略求解模块:采用中心化训练分散式执行的方式来求解最优策略,通过基线奖励评估合作博弈中的智能体收益;
将该博弈策略优化系统应用于多人游戏中,实现多智能体博弈;
将该博弈策略优化系统应用于多人游戏中的实现方式是:根据博弈场景特点提取每个智能体所处环境的原始状态表示矩阵,编码为一个11*11*19的状态表征向量,作为网络输入;原始状态表示矩阵中需要包括地图信息、智能体炸弹威力、敌方智能体信息、存活时长;网络主体结构采用卷积神经网络结构;分为训练和测试2个步骤,训练时采用虚拟自我对局框架,其中最优反应策略求解采用中心化训练分散式执行框架,通过智能体共享的全局信息和动作训练了一个中心化的估值网络Critic,并在损失函数中添加了策略熵来平衡探索和利用,Actor网络用来拟合智能体的全局最优反应策略;训练时,平均策略则是采用对Actor进行行为克隆从而更新网络参数;在训练和测试时均通过平均策略决定每个智能体的动作,平均策略的状态输入与最优反应策略一致,且共用一个主体卷积模块进行特征映射,假设N是智能体的可选动作总数,平局策略输出是一个N维向量,表示每个智能体的动作概率分布,即智能体策略,智能体将采取N维向量中概率最大的动作;
在所述多智能体最优反应策略求解模块中,采用中心化训练分散式执行的方式来求解最优策略的具体技术方案是:在训练阶段允许利用其他智能体的可见信息,在智能体根据策略执行动作时则仅根据自身可见信息做出判断,对于智能体i的估值网络Critic的损失函数如下:
其中为智能体i估值网络的输出,该网络的输入 中的表
示智能体之间共享的全局信息,而 表示第i个智能体的动作,y为估值网络 输出的拟
合目标,y中的 表示智能体i的奖励,表示智能体i延迟更新的目标策略网络输出;
对于智能体 i的策略网络 Actor 的梯度公式如下:
在所述多智能体最优反应策略求解模块中,通过基线奖励评估合作博弈中的智能体收
益的具体技术方案是:利用一个集中的评估网络Critic评估所有智能体的行为,通过中心
化的对状态s下的联合动作u进行估值,对于每个智能体 a都可以计算一个当前动作 的优势函数,其中用到的基线则是由与 无关的默认动作产生的,同时需要保持其他智
能体的动作 固定,可得到以下优势函数:
5.一种博弈策略优化装置,该博弈策略优化装置基于多智能体强化学习和虚拟自我对局进行实现,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-2中任一项所述的博弈策略优化方法的步骤。
6.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-2中任一项所述的博弈策略优化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010399728.1A CN111291890B (zh) | 2020-05-13 | 2020-05-13 | 一种博弈策略优化方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010399728.1A CN111291890B (zh) | 2020-05-13 | 2020-05-13 | 一种博弈策略优化方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291890A CN111291890A (zh) | 2020-06-16 |
CN111291890B true CN111291890B (zh) | 2021-01-01 |
Family
ID=71031217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010399728.1A Active CN111291890B (zh) | 2020-05-13 | 2020-05-13 | 一种博弈策略优化方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291890B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112068549B (zh) * | 2020-08-07 | 2022-12-16 | 哈尔滨工业大学 | 一种基于深度强化学习的无人系统集群控制方法 |
CN112182485B (zh) * | 2020-09-22 | 2023-08-18 | 华中师范大学 | 一种基于演化博弈的在线知识共享动态奖励方法 |
CN112329348B (zh) * | 2020-11-06 | 2023-09-15 | 东北大学 | 一种面向非完全信息条件下军事对抗博弈的智能决策方法 |
CN112418349A (zh) * | 2020-12-12 | 2021-02-26 | 武汉第二船舶设计研究所(中国船舶重工集团公司第七一九研究所) | 一种大型复杂系统分布式多智能体确定性策略控制方法 |
CN113011583B (zh) * | 2021-03-12 | 2022-04-12 | 支付宝(杭州)信息技术有限公司 | 强化学习模型的训练方法及装置 |
CN113128705B (zh) * | 2021-03-24 | 2024-02-09 | 北京科技大学顺德研究生院 | 一种智能体最优策略获取方法及装置 |
CN113221444B (zh) * | 2021-04-20 | 2023-01-03 | 中国电子科技集团公司第五十二研究所 | 一种面向空中智能博弈的行为模仿训练方法 |
CN113240118B (zh) * | 2021-05-18 | 2023-05-09 | 中国科学院自动化研究所 | 优势估计方法、装置、电子设备和存储介质 |
CN113435112B (zh) * | 2021-06-10 | 2024-02-13 | 大连海事大学 | 基于邻居感知的多智能体强化学习的交通信号控制方法 |
CN113400307B (zh) * | 2021-06-16 | 2022-10-18 | 清华大学 | 一种空间机器人机械臂的控制方法 |
CN113592101B (zh) * | 2021-08-13 | 2023-10-17 | 大连大学 | 一种基于深度强化学习的多智能体协作模型 |
CN114089627B (zh) * | 2021-10-08 | 2023-09-15 | 北京师范大学 | 基于双深度q网络学习的非完全信息博弈策略优化方法 |
CN114048834B (zh) * | 2021-11-05 | 2023-01-17 | 哈尔滨工业大学(深圳) | 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置 |
CN114048833B (zh) * | 2021-11-05 | 2023-01-17 | 哈尔滨工业大学(深圳) | 基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置 |
CN114372645A (zh) * | 2022-03-22 | 2022-04-19 | 山东大学 | 基于多智能体强化学习的供能系统优化方法及系统 |
CN114727407B (zh) * | 2022-05-12 | 2022-08-26 | 中国科学院自动化研究所 | 一种资源分配方法、装置及设备 |
CN115660110B (zh) * | 2022-12-26 | 2023-04-14 | 中国科学院自动化研究所 | 多智能体信用分配方法、装置、可读存储介质和智能体 |
CN116028817A (zh) * | 2023-01-13 | 2023-04-28 | 哈尔滨工业大学(深圳) | 一种基于单估值网络的cfr策略求解方法及相关设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764453B (zh) * | 2018-06-08 | 2021-10-01 | 中国科学技术大学 | 面向多智能体同步博弈的建模方法及动作预测系统 |
US11295174B2 (en) * | 2018-11-05 | 2022-04-05 | Royal Bank Of Canada | Opponent modeling with asynchronous methods in deep RL |
CN110404264B (zh) * | 2019-07-25 | 2022-11-01 | 哈尔滨工业大学(深圳) | 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质 |
CN110404265B (zh) * | 2019-07-25 | 2022-11-01 | 哈尔滨工业大学(深圳) | 一种基于博弈残局在线解算的多人非完备信息机器博弈方法、装置、系统及存储介质 |
-
2020
- 2020-05-13 CN CN202010399728.1A patent/CN111291890B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111291890A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291890B (zh) | 一种博弈策略优化方法、系统及存储介质 | |
CN110404264B (zh) | 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质 | |
Stanescu et al. | Evaluating real-time strategy game states using convolutional neural networks | |
Shantia et al. | Connectionist reinforcement learning for intelligent unit micro management in starcraft | |
CN108499108A (zh) | 视频游戏应用程序内玩游戏参数的实时动态修改和优化 | |
Ponsen et al. | Integrating opponent models with monte-carlo tree search in poker | |
CN105637540A (zh) | 用于强化学习的方法和设备 | |
WO2021159779A1 (zh) | 信息处理方法、装置、计算机可读存储介质及电子设备 | |
Goldwaser et al. | Deep reinforcement learning for general game playing | |
CN113688977B (zh) | 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质 | |
CN112926744A (zh) | 基于强化学习的非完全信息博弈方法、系统以及电子设备 | |
CN112437690A (zh) | 确定执行设备的动作选择方针 | |
CN112274925A (zh) | Ai模型训练方法、调用方法、服务器及存储介质 | |
Mousavi et al. | Applying q (λ)-learning in deep reinforcement learning to play atari games | |
CN112533681A (zh) | 确定执行设备的动作选择方针 | |
CN114404975A (zh) | 决策模型的训练方法、装置、设备、存储介质及程序产品 | |
CN110325965A (zh) | 虚拟场景中的对象处理方法、设备及存储介质 | |
CN113509726B (zh) | 交互模型训练方法、装置、计算机设备和存储介质 | |
CN112561032B (zh) | 一种基于种群训练的多智能体强化学习方法及系统 | |
CN112044076B (zh) | 一种对象控制方法、装置及计算机可读存储介质 | |
CN113230650A (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
CN116090549A (zh) | 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质 | |
US20200364555A1 (en) | Machine learning system | |
Kocsis et al. | Universal parameter optimisation in games based on SPSA | |
PRICOPE | A view on deep reinforcement learning in imperfect information games |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |