CN113952733A - 一种多智能体自适应采样策略生成方法 - Google Patents
一种多智能体自适应采样策略生成方法 Download PDFInfo
- Publication number
- CN113952733A CN113952733A CN202110600360.5A CN202110600360A CN113952733A CN 113952733 A CN113952733 A CN 113952733A CN 202110600360 A CN202110600360 A CN 202110600360A CN 113952733 A CN113952733 A CN 113952733A
- Authority
- CN
- China
- Prior art keywords
- agent
- experience
- strategy
- network
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/60—Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
- A63F13/67—Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种多智能体自适应采样策略生成方法,本方法根据应用环境定义智能体及其策略网络、评估网络和经验,实现多智能体协作策略的自动生成,其采用的算法在MADDPG算法的基础上利用经验优先级对经验池经验进行按照优先级概率抽取:每进行M步,对每个智能体,计算当前智能体近M步经验的策略损失,并计算当前经验的优先级,并以优先级为概率抽取minibatch大小的经验,并通过目标评估网络计算期望回报的最小化损失,更新策略网络参数和评估网络参数;每执行一定步数,更新所有智能体的策略网络参数θπi和评估网络参数。本发明的方法能加速模型的收敛,以提升智能体学习效率,降低智能体探索时间,从而提高多智能体协作策略自动生成和评估效率。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种多智能体自适应采样策略生成方法。
背景技术
强化学习(Reinforcement Learning,RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
强化学习中很多场景涉及多个智能体的交互,比如多个机器人的控制,语言的交流,多玩家的游戏等等。
MADDPG为基于深度确定性策略梯度算法的多智能体强化学习框架,可用于多智能体协作策略的自动生成。
在多智能体系统中,每个智能体通过与环境进行交互获取奖励值(reward)来学习改善自己的策略,从而获得该环境下最优策略的过程就多智能体强化学习。
在单智能体强化学习中,智能体所在的环境是稳定不变的,但是在多智能体强化学习中,环境是复杂的、动态的,因此给学习过程带来很大的困难。
维度爆炸:在单体强化学习中,需要存储状态值函数或动作-状态值函数。在多体强化学习中,状态空间变大,联结动作空间(联结动作是指每个智能体当前动作组合而成的多智能体系统当前时刻的动作)随智能体数量指数增长,因此多智能体系统维度非常大,计算复杂。
目标奖励确定困难:多智能体系统中每个智能体的任务可能不同,但是彼此之间又相互耦合影响。奖励设计的优劣直接影响学习到的策略的好坏。
不稳定性:在多智能体系统中,多个智能体是同时学习的。当同伴的策略改变时,每个智能体自身的最优策略也可能会变化,这将对算法的收敛性带来影响。
探索-利用:探索不光要考虑自身对环境的探索,也要对同伴的策略变化进行探索,可能打破同伴策略的平衡状态。每个智能体的探索都可能对同伴智能体的策略产生影响,这将使算法很难稳定,学习速度慢。
发明内容
有鉴于现有技术的上述缺陷或不足,本发明的目的是提供一种多智能体自适应采样策略生成方法,能加速MADDPG模型的收敛,大大提升智能体学习效率,降低智能体探索时间,提高多智能体协作策略的自动生成效率。
为实现上述目的,本发明提供了一种多智能体自适应采样策略生成方法,包括以下步骤:
步骤S1:构建智能体的神经网络模型,并初始化多智能体协作的策略网络π、目标策略网络π'、评估网络Q、目标评估网络Q',及各自的网络参数θπ、θπ'、θQ、θQ';初始化智能体的经验缓存池和动作探索噪声;
步骤S2:执行设定次数的回合,每个回合包括以下步骤:
步骤S21:初始化环境和所有智能体状态集合;
步骤S22:对回合中的每一步,各智能体学习经验,并将各智能体学习的经验保存到各自的经验缓存池中;
步骤S23:每执行M步,M为不小于2的整数,对每个智能体,训练各自的神经网络,执行:
步骤S23-1:计算当前智能体近M步经验的策略损失Loss;
步骤S23-2:根据近M步经验的策略损失Loss计算当前M步经验的优先级Pr(i);
步骤S23-3:判断当前M步经验的优先级Pr(i)的概率是否满足阈值,满足则抽取minibatch大小的经验;
步骤S23-4:根据抽取的minibatch大小的经验,学习策略网络和评估网络;
步骤S24:循环执行步骤S22、S23,直至遍历所有经验,输出多智能体协作策略评估结果。
进一步的,所述步骤S22具体包括:
进一步的,所述步骤S23-1计算当前智能体近M步经验的策略损失Loss,包括以下公式:
y=r+γQπ'(s',a1',a'2^a'N)|ai'=πi'(oi)
Loss=(y-Qπ(s,a1,a2^aN))2
其中,y表示当前经验中当前动作的期望回报;γ表示奖励折扣系数;r表示目标评估网络的奖励值。
进一步的,所述步骤S23-2中:根据近M步经验的策略损失Loss计算当前M步经验的优先级Pr(i),包括以下公式:
p(i)=rank(rank(Loss(i))+rankreverse(T))
其中:p(i)表示当前经验发生的概率,β表示自适应采样的超参数,取值范围为0到1之间,α用于调节优先程度;rank表示对其传入元素进行排序的排位方法;rankreverse表示对其传入元素进行排序的倒排位方法;T是对应时间差分误差;Loss表示损失函数返回的值。
进一步的,所述步骤S23-4具体包括:
(4)每执行N步,通过加权因子τ更新所有智能体的目标策略网络和目标评估网络参数:θQ'=τθQ+(1-τ)θQ',θπ'=τθπ+(1-τ)θπ'。
进一步的,所述多智能体自适应采样策略生成方法用于多交通信号机的协作控制,其中,智能体表示为交通信号机;确定性行为策略为交通灯控制策略;策略网络表示为交通信号机每次对交通灯的控制策略,评估网络表示为交通信号机对交通灯的控制策略的评估,所述经验中,当前状态的观测值表示交通信号机观察到的交通环境的实时信息;下一个状态表示交通信号机对交通环境的预测值;动作表示交通信号机的交通控制的动作;奖励表示节省车辆的延误时间。
本发明实现了如下技术效果:
1.本发明提出的多智能体自适应采样策略生成方法,根据应用环境定义智能体及其策略网络、评估网络和经验,实现多智能体协作策略的自动生成,其采用的ET-MADDPG算法在MADDPG算法的基础上利用经验优先级对经验池经验进行按照优先级概率抽取,加速模型的收敛,大大提升智能体学习效率,降低智能体探索时间,提高多智能体协作的效果评估效率。
2.利用经验优先级对经验抽取优势,可获取到对于智能体可以更快学到获取最大奖励的策略,还能通过设定优先级概率阈值限制智能体探索空间,有效避免陷入局部最优。
附图说明
图1为本发明实施例给出的算法流程图。
图2为采用MADDPG算法的实验结果;
图3为采用ET-MADDPG算法的实验结果。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。
实施例1
本发明公开了一种多智能体自适应采样策略生成方法,涉及一种多智能体协作策略自动生成算法,以下简称ET-MADDPG算法,ET-MADDPG算法在传统的MADDPG算法上进行了优化,包括:首先初始化系统模型,初始化每个智能体的策略网络πi以及目标策略网络π'i和评估网络Qi以及目标评估网络Qi'以及其网络参数θπi、θπi'、θQi、θπi',初始化每个智能体的经验缓存池Ri和动作探索噪声Ra。之后对每个动作回合,初始化所有智能体状态集合S,对回合中每一步(step),对环境中的每个智能体agenti,执行以下步骤:根据当前智能体agenti的观察状态策略网络πi和动作探索噪声Ra选择当前动作之后将当前动作作为下一步的状态以及奖励将经验存入经验缓存池Ri;每进行M步,对每个智能体agenti,计算当前智能体agenti近M步经验的策略损失,并计算当前经验的优先级Pr,并以优先级Pr为概率抽取minibatch大小的经验,并通过目标评估网络计算期望回报yj最小化损失更新评估网络参数和策略网络参数;每执行一定步数,更新所有智能体的目标策略和评估网络参数。如图1所示。
首先定义系统所需要的输入输出字符的缩写,以便之后叙述:智能体的策略网络πi,目标策略网络πi',评估网络Qi,目标评估网络Qi',参数θπi和θQi,经验缓存池Ri和动作探索噪声Ra,所有智能体的状态集合S,经验缓存池Ri,经验优先级Pr,经验取样次数T,T为经验被取样后进行训练的次数。在本示例中,多智能体自适应采样策略生成方法具体包括:
步骤S1:构建智能体的神经网络模型;初始化每个智能体的策略网络πi(o,θπi)和评估网络Qi(s,a1,a2^aN,θQi)以及策略网络和评估网络的网络参数θπi和θQi;初始化每个智能体的目标策略网络πi'(o,θπi')和目标评估网络Qi'(s,a1,a2^aN,θQi')以及对应的目标策略网络和目标评估网络的网络参数θπi'和θQi'。策略网络和目标策略网络即为MADDPG算法中的actor网络和targetactor网络;评估网络和目标评估网络即为MADDPG算法中的Critic网络和targetcritic网络;初始化每个智能体agenti的经验缓存池Ri和动作探索噪声Ra。
步骤S2:执行设定次数的回合,对每个回合(episode),通过神经网络模型构建和模拟,存储所有智能体的经验,并各智能体的经验添加到各自的经验缓存池中。该算法具体步骤如下:
对每一回合(episode),循环操作以下步骤:
步骤S21:初始化环境和所有智能体状态集合S;
步骤S22:对回合中的每一步(step),对环境中的每个智能体agenti,执行以下步骤:
步骤S23:每执行M步(即经验池Ri已存储近M步的经验),对每个智能体,训练各自的神经网络:计算当前智能体的近M步经验的策略损失和当前经验优先级,并根据当前经验优先级抽取设定的样本数量(minibatch批大小)的经验作为最终选择的高质量经验;利用抽取的minibatch批大小的高质量经验,通过目标评估网络计算每个经验动作的期望回报,并更新评估网络参数和策略网络参数。在本示例中,步骤S23具体包括:
步骤S23-1:每执行M步,对每个智能体,执行以下步骤:
根据公式Loss=(y-Qπ(s,a1,a2^aN))2和y=r+γQπ'(s',a1',a'2^a'N)|ai'=πi'(oi)计算当前智能体近M步经验的策略损失Loss,其中y表示期望回报;γ表示奖励折扣系数;rj表示目标评估网络的奖励值。
步骤S23-2:根据公式计算当前M步经验的优先级。其中:p(i)表示当前经验发生的概率,β表示自适应采样的超参数,取值范围为0到1之间,α用于调节优先程度;p(i)的计算公式为:p(i)=rank(rank(Loss(i))+rankreverse(T)),其中rank表示对其传入元素进行排序的排位方法;rankreverse表示对其传入元素进行排序的倒排位方法;T是对应时间差分误差;Loss表示损失函数返回的值。
步骤S23-3:判断当前经验的优先级Pr(i)的概率是否满足阈值,满足则抽取设定的样本数量(即minibatch批大小)的经验。该阈值在训练时可通过随机函数rand(0,1)产生,并根据训练评估效果进行调整。参见图1中所示的判断式rand(0,1)>Pr(i)。
步骤S23-4:利用minibatch经验,学习策略网络和评估网络。
在本示例中,步骤S23-4步骤具体包括:
(4)每执行N步,通过加权因子τ更新所有智能体的目标策略网络和目标评估网络参数:θQ'=τθQ+(1-τ)θQ',θπ'=τθπ+(1-τ)θπ'。N为正整数,可根据环境变化的快慢更改N值,以调节加权因子τ的更新频率。
循环执行步骤S22、S23直至遍历所有智能体的经验,结束循环,然后输出多智能体协作策略协作策略和/或评估结果。
实施例2
本发明的多智能自适应采样策略生成方法,可适用于智能机器人、交通控制、柔性制造、制造系统的调度等多个领域。
在本实施例中,所述多智能体自适应采样策略生成方法用于多交通信号机的协作控制,其中,智能体表示为交通信号机;确定性行为策略为交通灯控制策略;策略网络表示为交通信号机每次对交通灯的控制策略,评估网络表示为交通信号机对交通灯的控制策略的评估,所述经验中,当前状态的观测值表示交通信号机观察到的交通环境的实时信息;下一个状态表示交通信号机对交通环境的预测值;动作表示交通信号机的交通控制的动作;奖励表示节省车辆的延误时间。
具体包括以下步骤:
步骤S1:定义交通信号机的神经网络模型,并初始化多交通信号机协作的策略网络、目标策略网络、评估网络、目标评估网络,及各自的网络参数;初始化智能体的经验缓存池和动作探索噪声;
步骤S2:执行设定次数的回合,每个回合包括以下步骤:
步骤S21:初始化环境和所有交通信号机的状态集合;
步骤S22:每执行一步,各交通信号机学习经验,并将各交通信号机学习的经验保存到各自的经验缓存池中;
步骤S23:每执行M步,对每个交通信号机,训练各自的神经网络,计算当前交通信号机近M步经验的策略损失,计算当前经验的优先级,并根据优先级是否满足阈值为条件抽取设定的样本数量的经验,通过目标评估网络计算期望回报的最小化损失,并更新策略网络参数和评估网络参数;每执行N步,通过加权因子更新目标策略网络和目标评估网络;
步骤S24:循环执行步骤S22、S23,直至遍历所有经验,输出多交通信号机协作策略和/或评估结果。
在如智能机器人、柔性制造、制造系统的调度等其他技术领域,针对相似的应用条件,可参照所述的多智能体自适应采样策略生成方法执行多智能体协作策略的自动生成。
实施例3
为验证多智能体自适应采样策略生成方法中的多智能体协作策略自动生成算法(以下用ET-MADDPG算法表示)的实现及其效果,进行了以下实现。
实验内容:
(1)环境:本实验是基于Starcraft2游戏进行的实验;
(2)游戏设置:具体游戏中,以4个人族智能体对战Starcraft2难度为7级难度(最高难度)游戏内置的4个人族;
(3)训练设置:本实验分别,使用MADDPG算法和ET-MADDPG算法进行实验,使用中训练的迭代次数epoch都设置170次,分别统计了训练的战斗胜率battle_won_mean(等于:胜利游戏局数/总游戏局数)和模型的损失值loss变化。
实验结果数据参见图2和图3。
其中图2给出的是采用MADDPG算法的实验结果;图3给出的是采用ET-MADDPG算法的实验结果。图中,曲线①为损失函数(LOSS);曲线②为战斗胜率(battle_WON_mean)。
根据实验结果可以看出,ET-MADDPG算法和MADDPG算法的随机抽取从经验池中抽取经验进行学习相比,ET-MADDPG算法大大提高了智能体的学习效率,ET-MADDPG在进行50次迭代(epoch)学习之后,基本处于稳定状态,并一直维持在较高的战斗胜率上,而MADDPG算法在170次迭代(epoch)之后,智能体还在学习,胜率上升过程中。
由此可见,本发明提出的多智能体自适应采样策略生成方法,根据应用环境定义智能体及其策略网络、评估网络和经验,实现多智能体协作策略的自动生成,其采用的ET-MADDPG算法在MADDPG算法的基础上利用经验优先级对经验池经验进行按照优先级概率抽取,加速模型的收敛,大大提升智能体学习效率,降低智能体探索时间。同时,利用经验优先级对经验抽取优势,可获取到对于智能体可以更快学到获取最大奖励的策略,还能通过设定优先级概率阈值限制智能体探索空间,有效避免陷入局部最优。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
Claims (7)
1.一种多智能体自适应采样策略生成方法,其特征在于,包括:
步骤S1:构建智能体的神经网络模型,并初始化多智能体协作的策略网络π、目标策略网络π'、评估网络Q、目标评估网络Q',及各自的网络参数θπ、θπ'、θQ、θQ';初始化智能体的经验缓存池和动作探索噪声Ra;
步骤S2:执行设定次数的回合,每个回合包括以下步骤:
步骤S21:初始化环境和所有智能体状态集合;
步骤S22:对回合中的每一步,各智能体学习经验,并将各智能体学习的经验保存到各自的经验缓存池中;
步骤S23:每执行M步,M为不小于2的整数,对每个智能体,训练各自的神经网络,执行:
步骤S23-1:计算当前智能体近M步经验的策略损失Loss;
步骤S23-2:根据近M步经验的策略损失Loss计算当前M步经验的优先级Pr(i);
步骤S23-3:判断当前M步经验的优先级Pr(i)的概率是否满足阈值,满足则抽取minibatch大小的经验;
步骤S23-4:根据抽取的minibatch大小的经验,学习策略网络和评估网络;
步骤S24:循环执行步骤S22、S23,直至遍历所有经验,输出多智能体协作策略评估结果。
4.如权利要求1所述的多智能体自适应采样策略生成方法,其特征在于,所述步骤S23-1计算当前智能体近M步经验的策略损失Loss,包括以下公式:
y=r+γQπ'(s',a1',a'2^a'N)|ai'=πi'(oi)
Loss=(y-Qπ(s,a1,a2^aN))2
其中,y表示当前经验中当前动作的期望回报;γ表示奖励折扣系数;r表示目标评估网络的奖励值。
6.如权利要求1所述的多智能体自适应采样策略生成方法,其特征在于,所述步骤S23-4具体包括:
(4)每执行N步,通过加权因子τ更新所有智能体的目标策略网络和目标评估网络参数:θQ'=τθQ+(1-τ)θQ',θπ'=τθπ+(1-τ)θπ'。
7.如权利要求1-6任一项所述的多智能体自适应采样策略生成方法,其特征在于,用于多交通信号机的协作控制,其中,智能体表示为交通信号机;确定性行为策略为交通灯控制策略;策略网络表示为交通信号机每次对交通灯的控制策略,评估网络表示为交通信号机对交通灯的控制策略的评估,所述经验中,当前状态的观测值表示交通信号机观察到的交通环境的实时信息;下一个状态表示交通信号机对交通环境的预测值;动作表示交通信号机的交通控制的动作;奖励表示节省车辆的延误时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110600360.5A CN113952733A (zh) | 2021-05-31 | 2021-05-31 | 一种多智能体自适应采样策略生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110600360.5A CN113952733A (zh) | 2021-05-31 | 2021-05-31 | 一种多智能体自适应采样策略生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113952733A true CN113952733A (zh) | 2022-01-21 |
Family
ID=79460294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110600360.5A Pending CN113952733A (zh) | 2021-05-31 | 2021-05-31 | 一种多智能体自适应采样策略生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113952733A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114449482A (zh) * | 2022-03-11 | 2022-05-06 | 南京理工大学 | 基于多智能体深度强化学习的异构车联网用户关联方法 |
CN114708527A (zh) * | 2022-03-09 | 2022-07-05 | 中国石油大学(华东) | 一种基于极坐标表示的数字冰壶策略价值提取方法 |
CN115300910A (zh) * | 2022-07-15 | 2022-11-08 | 浙江大学 | 基于多智能体强化学习的去混淆游戏策略模型生成方法 |
CN115495997A (zh) * | 2022-10-28 | 2022-12-20 | 东南大学 | 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法 |
CN114449482B (zh) * | 2022-03-11 | 2024-05-14 | 南京理工大学 | 基于多智能体深度强化学习的异构车联网用户关联方法 |
-
2021
- 2021-05-31 CN CN202110600360.5A patent/CN113952733A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114708527A (zh) * | 2022-03-09 | 2022-07-05 | 中国石油大学(华东) | 一种基于极坐标表示的数字冰壶策略价值提取方法 |
CN114449482A (zh) * | 2022-03-11 | 2022-05-06 | 南京理工大学 | 基于多智能体深度强化学习的异构车联网用户关联方法 |
CN114449482B (zh) * | 2022-03-11 | 2024-05-14 | 南京理工大学 | 基于多智能体深度强化学习的异构车联网用户关联方法 |
CN115300910A (zh) * | 2022-07-15 | 2022-11-08 | 浙江大学 | 基于多智能体强化学习的去混淆游戏策略模型生成方法 |
CN115495997A (zh) * | 2022-10-28 | 2022-12-20 | 东南大学 | 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法 |
CN115495997B (zh) * | 2022-10-28 | 2024-01-30 | 东南大学 | 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113952733A (zh) | 一种多智能体自适应采样策略生成方法 | |
CN110991545B (zh) | 一种面向多智能体对抗的强化学习训练优化方法及装置 | |
CN111291890B (zh) | 一种博弈策略优化方法、系统及存储介质 | |
CN108211362B (zh) | 一种基于深度q学习网络的非玩家角色战斗策略学习方法 | |
CN112052456A (zh) | 基于多智能体的深度强化学习策略优化防御方法 | |
CN110141867B (zh) | 一种游戏智能体训练方法及装置 | |
CN111282267B (zh) | 信息处理方法、装置、介质及电子设备 | |
Goldwaser et al. | Deep reinforcement learning for general game playing | |
CN112488310A (zh) | 一种多智能体群组协作策略自动生成方法 | |
Knegt et al. | Opponent modelling in the game of Tron using reinforcement learning | |
Oh et al. | Learning to sample with local and global contexts in experience replay buffer | |
CN113947022B (zh) | 一种基于模型的近端策略优化方法 | |
Tziortziotis et al. | Play ms. pac-man using an advanced reinforcement learning agent | |
CN113276852B (zh) | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 | |
Tong et al. | Enhancing rolling horizon evolution with policy and value networks | |
CN115964898A (zh) | 面向兵力博弈对抗的bc-qmix离在线多智能体行为决策建模方法 | |
CN116306979A (zh) | 一种基于ppo的多智能体深度强化学习训练方法 | |
Kim et al. | Evolving population method for real-time reinforcement learning | |
Somasundaram et al. | Double Q–learning Agent for Othello Board Game | |
CN114662655A (zh) | 一种基于注意力机制的兵棋推演ai分层决策方法及装置 | |
Wan et al. | Style Transfer in Playing Shogi Based on Generative Adversarial Networks | |
CN116842761B (zh) | 基于自博弈的蓝军智能体模型构建方法和装置 | |
CN117454966A (zh) | 一种面向大规模决策空间的多域协同强化学习解决方法 | |
Kim et al. | Deep q-network for ai soccer | |
CN116362349A (zh) | 一种基于环境动态模型的强化学习方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |