CN113952733A - 一种多智能体自适应采样策略生成方法 - Google Patents

一种多智能体自适应采样策略生成方法 Download PDF

Info

Publication number
CN113952733A
CN113952733A CN202110600360.5A CN202110600360A CN113952733A CN 113952733 A CN113952733 A CN 113952733A CN 202110600360 A CN202110600360 A CN 202110600360A CN 113952733 A CN113952733 A CN 113952733A
Authority
CN
China
Prior art keywords
agent
experience
strategy
network
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110600360.5A
Other languages
English (en)
Inventor
洪万福
钱智毅
黄在斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yuanting Information Technology Co ltd
Original Assignee
Xiamen Yuanting Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yuanting Information Technology Co ltd filed Critical Xiamen Yuanting Information Technology Co ltd
Priority to CN202110600360.5A priority Critical patent/CN113952733A/zh
Publication of CN113952733A publication Critical patent/CN113952733A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/67Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种多智能体自适应采样策略生成方法,本方法根据应用环境定义智能体及其策略网络、评估网络和经验,实现多智能体协作策略的自动生成,其采用的算法在MADDPG算法的基础上利用经验优先级对经验池经验进行按照优先级概率抽取:每进行M步,对每个智能体,计算当前智能体近M步经验的策略损失,并计算当前经验的优先级,并以优先级为概率抽取minibatch大小的经验,并通过目标评估网络计算期望回报的最小化损失,更新策略网络参数和评估网络参数;每执行一定步数,更新所有智能体的策略网络参数θπi和评估网络参数。本发明的方法能加速模型的收敛,以提升智能体学习效率,降低智能体探索时间,从而提高多智能体协作策略自动生成和评估效率。

Description

一种多智能体自适应采样策略生成方法
技术领域
本发明涉及人工智能领域,尤其涉及一种多智能体自适应采样策略生成方法。
背景技术
强化学习(Reinforcement Learning,RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
强化学习中很多场景涉及多个智能体的交互,比如多个机器人的控制,语言的交流,多玩家的游戏等等。
MADDPG为基于深度确定性策略梯度算法的多智能体强化学习框架,可用于多智能体协作策略的自动生成。
在多智能体系统中,每个智能体通过与环境进行交互获取奖励值(reward)来学习改善自己的策略,从而获得该环境下最优策略的过程就多智能体强化学习。
在单智能体强化学习中,智能体所在的环境是稳定不变的,但是在多智能体强化学习中,环境是复杂的、动态的,因此给学习过程带来很大的困难。
维度爆炸:在单体强化学习中,需要存储状态值函数或动作-状态值函数。在多体强化学习中,状态空间变大,联结动作空间(联结动作是指每个智能体当前动作组合而成的多智能体系统当前时刻的动作)随智能体数量指数增长,因此多智能体系统维度非常大,计算复杂。
目标奖励确定困难:多智能体系统中每个智能体的任务可能不同,但是彼此之间又相互耦合影响。奖励设计的优劣直接影响学习到的策略的好坏。
不稳定性:在多智能体系统中,多个智能体是同时学习的。当同伴的策略改变时,每个智能体自身的最优策略也可能会变化,这将对算法的收敛性带来影响。
探索-利用:探索不光要考虑自身对环境的探索,也要对同伴的策略变化进行探索,可能打破同伴策略的平衡状态。每个智能体的探索都可能对同伴智能体的策略产生影响,这将使算法很难稳定,学习速度慢。
发明内容
有鉴于现有技术的上述缺陷或不足,本发明的目的是提供一种多智能体自适应采样策略生成方法,能加速MADDPG模型的收敛,大大提升智能体学习效率,降低智能体探索时间,提高多智能体协作策略的自动生成效率。
为实现上述目的,本发明提供了一种多智能体自适应采样策略生成方法,包括以下步骤:
步骤S1:构建智能体的神经网络模型,并初始化多智能体协作的策略网络π、目标策略网络π'、评估网络Q、目标评估网络Q',及各自的网络参数θπ、θπ'、θQ、θQ';初始化智能体的经验缓存池和动作探索噪声;
步骤S2:执行设定次数的回合,每个回合包括以下步骤:
步骤S21:初始化环境和所有智能体状态集合;
步骤S22:对回合中的每一步,各智能体学习经验,并将各智能体学习的经验保存到各自的经验缓存池中;
步骤S23:每执行M步,M为不小于2的整数,对每个智能体,训练各自的神经网络,执行:
步骤S23-1:计算当前智能体近M步经验的策略损失Loss;
步骤S23-2:根据近M步经验的策略损失Loss计算当前M步经验的优先级Pr(i);
步骤S23-3:判断当前M步经验的优先级Pr(i)的概率是否满足阈值,满足则抽取minibatch大小的经验;
步骤S23-4:根据抽取的minibatch大小的经验,学习策略网络和评估网络;
步骤S24:循环执行步骤S22、S23,直至遍历所有经验,输出多智能体协作策略评估结果。
进一步的,所述步骤S22具体包括:
1)根据当前智能体agenti的观察状态
Figure BDA0003092506820000031
策略网络πi和探索噪声Ra选择当前动作
Figure BDA0003092506820000032
2)智能体agenti执行当前动作
Figure BDA0003092506820000033
得到下一个状态
Figure BDA0003092506820000034
和奖励
Figure BDA0003092506820000035
并将经验集合
Figure BDA0003092506820000036
存入经验缓存池Ri
进一步的,所述当前动作
Figure BDA0003092506820000037
的公式表示为:
Figure BDA0003092506820000038
其中,
Figure BDA0003092506820000039
表示智能体agenti的策略网络。
进一步的,所述步骤S23-1计算当前智能体近M步经验的策略损失Loss,包括以下公式:
y=r+γQπ'(s',a1',a'2^a'N)|ai'=πi'(oi)
Loss=(y-Qπ(s,a1,a2^aN))2
其中,y表示当前经验中当前动作的期望回报;γ表示奖励折扣系数;r表示目标评估网络的奖励值。
进一步的,所述步骤S23-2中:根据近M步经验的策略损失Loss计算当前M步经验的优先级Pr(i),包括以下公式:
p(i)=rank(rank(Loss(i))+rankreverse(T))
Figure BDA0003092506820000041
其中:p(i)表示当前经验发生的概率,β表示自适应采样的超参数,取值范围为0到1之间,α用于调节优先程度;rank表示对其传入元素进行排序的排位方法;rankreverse表示对其传入元素进行排序的倒排位方法;T是对应时间差分误差;Loss表示损失函数返回的值。
进一步的,所述步骤S23-4具体包括:
(1)计算每个经验动作
Figure BDA0003092506820000042
的期望回报yj:yj=rj+γQ'(sj+1,a1',a'2^a'NQ'),其中γ表示奖励折扣系数;rj表示目标评估网络的奖励值;
(2)计算最小化损失以更新评估网络参数:
Figure BDA0003092506820000043
其中L表示最小化损失,K表示智能体的数量;
(3)通过梯度公式计算策略网络参数的总奖励,更新当前智能体的策略网络参数:
Figure BDA0003092506820000044
其中
Figure BDA0003092506820000045
表示梯度;J表示总奖励;K表示智能体的数量;
(4)每执行N步,通过加权因子τ更新所有智能体的目标策略网络和目标评估网络参数:θQ'=τθQ+(1-τ)θQ'π'=τθπ+(1-τ)θπ'
进一步的,所述多智能体自适应采样策略生成方法用于多交通信号机的协作控制,其中,智能体表示为交通信号机;确定性行为策略为交通灯控制策略;策略网络表示为交通信号机每次对交通灯的控制策略,评估网络表示为交通信号机对交通灯的控制策略的评估,所述经验中,当前状态的观测值表示交通信号机观察到的交通环境的实时信息;下一个状态表示交通信号机对交通环境的预测值;动作表示交通信号机的交通控制的动作;奖励表示节省车辆的延误时间。
本发明实现了如下技术效果:
1.本发明提出的多智能体自适应采样策略生成方法,根据应用环境定义智能体及其策略网络、评估网络和经验,实现多智能体协作策略的自动生成,其采用的ET-MADDPG算法在MADDPG算法的基础上利用经验优先级对经验池经验进行按照优先级概率抽取,加速模型的收敛,大大提升智能体学习效率,降低智能体探索时间,提高多智能体协作的效果评估效率。
2.利用经验优先级对经验抽取优势,可获取到对于智能体可以更快学到获取最大奖励的策略,还能通过设定优先级概率阈值限制智能体探索空间,有效避免陷入局部最优。
附图说明
图1为本发明实施例给出的算法流程图。
图2为采用MADDPG算法的实验结果;
图3为采用ET-MADDPG算法的实验结果。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。
实施例1
本发明公开了一种多智能体自适应采样策略生成方法,涉及一种多智能体协作策略自动生成算法,以下简称ET-MADDPG算法,ET-MADDPG算法在传统的MADDPG算法上进行了优化,包括:首先初始化系统模型,初始化每个智能体的策略网络πi以及目标策略网络π'i和评估网络Qi以及目标评估网络Qi'以及其网络参数θπi、θπi'、θQi、θπi',初始化每个智能体的经验缓存池Ri和动作探索噪声Ra。之后对每个动作回合,初始化所有智能体状态集合S,对回合中每一步(step),对环境中的每个智能体agenti,执行以下步骤:根据当前智能体agenti的观察状态
Figure BDA0003092506820000061
策略网络πi和动作探索噪声Ra选择当前动作
Figure BDA0003092506820000062
之后将当前动作
Figure BDA0003092506820000063
作为下一步的状态
Figure BDA0003092506820000064
以及奖励
Figure BDA0003092506820000065
将经验
Figure BDA0003092506820000066
存入经验缓存池Ri;每进行M步,对每个智能体agenti,计算当前智能体agenti近M步经验的策略损失,并计算当前经验的优先级Pr,并以优先级Pr为概率抽取minibatch大小的经验,并通过目标评估网络计算期望回报yj最小化损失更新评估网络参数和策略网络参数;每执行一定步数,更新所有智能体的目标策略和评估网络参数。如图1所示。
首先定义系统所需要的输入输出字符的缩写,以便之后叙述:智能体的策略网络πi,目标策略网络πi',评估网络Qi,目标评估网络Qi',参数θπi和θQi,经验缓存池Ri和动作探索噪声Ra,所有智能体的状态集合S,经验缓存池Ri,经验
Figure BDA0003092506820000067
优先级Pr,经验取样次数T,T为经验被取样后进行训练的次数。在本示例中,多智能体自适应采样策略生成方法具体包括:
步骤S1:构建智能体的神经网络模型;初始化每个智能体的策略网络πi(o,θπi)和评估网络Qi(s,a1,a2^aNQi)以及策略网络和评估网络的网络参数θπi和θQi;初始化每个智能体的目标策略网络πi'(o,θπi')和目标评估网络Qi'(s,a1,a2^aNQi')以及对应的目标策略网络和目标评估网络的网络参数θπi'和θQi'。策略网络和目标策略网络即为MADDPG算法中的actor网络和targetactor网络;评估网络和目标评估网络即为MADDPG算法中的Critic网络和targetcritic网络;初始化每个智能体agenti的经验缓存池Ri和动作探索噪声Ra
步骤S2:执行设定次数的回合,对每个回合(episode),通过神经网络模型构建和模拟,存储所有智能体的经验,并各智能体的经验添加到各自的经验缓存池中。该算法具体步骤如下:
对每一回合(episode),循环操作以下步骤:
步骤S21:初始化环境和所有智能体状态集合S;
步骤S22:对回合中的每一步(step),对环境中的每个智能体agenti,执行以下步骤:
1)根据当前智能体的观察状态
Figure BDA0003092506820000071
策略网络πi和探索噪声Ra选择当前动作
Figure BDA0003092506820000072
2)智能体agenti执行当前动作
Figure BDA0003092506820000073
得到下一个状态
Figure BDA0003092506820000074
和奖励
Figure BDA0003092506820000075
并将由当前智能体的观察状态
Figure BDA0003092506820000076
当前动作
Figure BDA0003092506820000077
下一个状态
Figure BDA0003092506820000078
和奖励
Figure BDA0003092506820000079
组成的经验
Figure BDA00030925068200000710
存入经验缓存池Ri
步骤S23:每执行M步(即经验池Ri已存储近M步的经验),对每个智能体,训练各自的神经网络:计算当前智能体的近M步经验的策略损失和当前经验优先级,并根据当前经验优先级抽取设定的样本数量(minibatch批大小)的经验作为最终选择的高质量经验;利用抽取的minibatch批大小的高质量经验,通过目标评估网络计算每个经验动作的期望回报,并更新评估网络参数和策略网络参数。在本示例中,步骤S23具体包括:
步骤S23-1:每执行M步,对每个智能体,执行以下步骤:
根据公式Loss=(y-Qπ(s,a1,a2^aN))2和y=r+γQπ'(s',a1',a'2^a'N)|ai'=πi'(oi)计算当前智能体近M步经验的策略损失Loss,其中y表示期望回报;γ表示奖励折扣系数;rj表示目标评估网络的奖励值。
步骤S23-2:根据公式
Figure BDA0003092506820000081
计算当前M步经验的优先级。其中:p(i)表示当前经验发生的概率,β表示自适应采样的超参数,取值范围为0到1之间,α用于调节优先程度;p(i)的计算公式为:p(i)=rank(rank(Loss(i))+rankreverse(T)),其中rank表示对其传入元素进行排序的排位方法;rankreverse表示对其传入元素进行排序的倒排位方法;T是对应时间差分误差;Loss表示损失函数返回的值。
步骤S23-3:判断当前经验的优先级Pr(i)的概率是否满足阈值,满足则抽取设定的样本数量(即minibatch批大小)的经验。该阈值在训练时可通过随机函数rand(0,1)产生,并根据训练评估效果进行调整。参见图1中所示的判断式rand(0,1)>Pr(i)。
步骤S23-4:利用minibatch经验,学习策略网络和评估网络。
在本示例中,步骤S23-4步骤具体包括:
(1)计算每个经验动作
Figure BDA0003092506820000082
的期望回报yj:yj=rj+γQ'(sj+1,a1',a'2^a'NQ'),其中γ表示奖励折扣系数;rj表示目标评估网络的奖励值;
(2)计算最小化损失以更新评估网络参数:
Figure BDA0003092506820000083
其中L表示最小化损失,K表示智能体的数量;
(3)通过梯度公式计算策略网络参数的总奖励,更新当前智能体的策略网络参数:
Figure BDA0003092506820000091
其中
Figure BDA0003092506820000092
表示梯度;J表示总奖励;K表示智能体的数量;
(4)每执行N步,通过加权因子τ更新所有智能体的目标策略网络和目标评估网络参数:θQ'=τθQ+(1-τ)θQ'π'=τθπ+(1-τ)θπ'。N为正整数,可根据环境变化的快慢更改N值,以调节加权因子τ的更新频率。
循环执行步骤S22、S23直至遍历所有智能体的经验,结束循环,然后输出多智能体协作策略协作策略和/或评估结果。
实施例2
本发明的多智能自适应采样策略生成方法,可适用于智能机器人、交通控制、柔性制造、制造系统的调度等多个领域。
在本实施例中,所述多智能体自适应采样策略生成方法用于多交通信号机的协作控制,其中,智能体表示为交通信号机;确定性行为策略为交通灯控制策略;策略网络表示为交通信号机每次对交通灯的控制策略,评估网络表示为交通信号机对交通灯的控制策略的评估,所述经验中,当前状态的观测值表示交通信号机观察到的交通环境的实时信息;下一个状态表示交通信号机对交通环境的预测值;动作表示交通信号机的交通控制的动作;奖励表示节省车辆的延误时间。
具体包括以下步骤:
步骤S1:定义交通信号机的神经网络模型,并初始化多交通信号机协作的策略网络、目标策略网络、评估网络、目标评估网络,及各自的网络参数;初始化智能体的经验缓存池和动作探索噪声;
步骤S2:执行设定次数的回合,每个回合包括以下步骤:
步骤S21:初始化环境和所有交通信号机的状态集合;
步骤S22:每执行一步,各交通信号机学习经验,并将各交通信号机学习的经验保存到各自的经验缓存池中;
步骤S23:每执行M步,对每个交通信号机,训练各自的神经网络,计算当前交通信号机近M步经验的策略损失,计算当前经验的优先级,并根据优先级是否满足阈值为条件抽取设定的样本数量的经验,通过目标评估网络计算期望回报的最小化损失,并更新策略网络参数和评估网络参数;每执行N步,通过加权因子更新目标策略网络和目标评估网络;
步骤S24:循环执行步骤S22、S23,直至遍历所有经验,输出多交通信号机协作策略和/或评估结果。
在如智能机器人、柔性制造、制造系统的调度等其他技术领域,针对相似的应用条件,可参照所述的多智能体自适应采样策略生成方法执行多智能体协作策略的自动生成。
实施例3
为验证多智能体自适应采样策略生成方法中的多智能体协作策略自动生成算法(以下用ET-MADDPG算法表示)的实现及其效果,进行了以下实现。
实验内容:
(1)环境:本实验是基于Starcraft2游戏进行的实验;
(2)游戏设置:具体游戏中,以4个人族智能体对战Starcraft2难度为7级难度(最高难度)游戏内置的4个人族;
(3)训练设置:本实验分别,使用MADDPG算法和ET-MADDPG算法进行实验,使用中训练的迭代次数epoch都设置170次,分别统计了训练的战斗胜率battle_won_mean(等于:胜利游戏局数/总游戏局数)和模型的损失值loss变化。
实验结果数据参见图2和图3。
其中图2给出的是采用MADDPG算法的实验结果;图3给出的是采用ET-MADDPG算法的实验结果。图中,曲线①为损失函数(LOSS);曲线②为战斗胜率(battle_WON_mean)。
根据实验结果可以看出,ET-MADDPG算法和MADDPG算法的随机抽取从经验池中抽取经验进行学习相比,ET-MADDPG算法大大提高了智能体的学习效率,ET-MADDPG在进行50次迭代(epoch)学习之后,基本处于稳定状态,并一直维持在较高的战斗胜率上,而MADDPG算法在170次迭代(epoch)之后,智能体还在学习,胜率上升过程中。
由此可见,本发明提出的多智能体自适应采样策略生成方法,根据应用环境定义智能体及其策略网络、评估网络和经验,实现多智能体协作策略的自动生成,其采用的ET-MADDPG算法在MADDPG算法的基础上利用经验优先级对经验池经验进行按照优先级概率抽取,加速模型的收敛,大大提升智能体学习效率,降低智能体探索时间。同时,利用经验优先级对经验抽取优势,可获取到对于智能体可以更快学到获取最大奖励的策略,还能通过设定优先级概率阈值限制智能体探索空间,有效避免陷入局部最优。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

Claims (7)

1.一种多智能体自适应采样策略生成方法,其特征在于,包括:
步骤S1:构建智能体的神经网络模型,并初始化多智能体协作的策略网络π、目标策略网络π'、评估网络Q、目标评估网络Q',及各自的网络参数θπ、θπ'、θQ、θQ';初始化智能体的经验缓存池和动作探索噪声Ra
步骤S2:执行设定次数的回合,每个回合包括以下步骤:
步骤S21:初始化环境和所有智能体状态集合;
步骤S22:对回合中的每一步,各智能体学习经验,并将各智能体学习的经验保存到各自的经验缓存池中;
步骤S23:每执行M步,M为不小于2的整数,对每个智能体,训练各自的神经网络,执行:
步骤S23-1:计算当前智能体近M步经验的策略损失Loss;
步骤S23-2:根据近M步经验的策略损失Loss计算当前M步经验的优先级Pr(i);
步骤S23-3:判断当前M步经验的优先级Pr(i)的概率是否满足阈值,满足则抽取minibatch大小的经验;
步骤S23-4:根据抽取的minibatch大小的经验,学习策略网络和评估网络;
步骤S24:循环执行步骤S22、S23,直至遍历所有经验,输出多智能体协作策略评估结果。
2.如权利要求1所述的多智能体自适应采样策略生成方法,其特征在于,所述步骤S22具体包括:
1)根据当前智能体agenti的观察状态
Figure FDA0003092506810000011
策略网络πi和探索噪声Ra选择当前动作
Figure FDA0003092506810000012
2)智能体agenti执行当前动作
Figure FDA0003092506810000021
得到下一个状态
Figure FDA0003092506810000022
和奖励ri j,并将经验集合
Figure FDA0003092506810000023
存入经验缓存池Ri
3.如权利要求2所述的多智能体自适应采样策略生成方法,其特征在于,所述当前动作
Figure FDA0003092506810000024
的公式表示为:
Figure FDA0003092506810000025
其中,
Figure FDA0003092506810000026
表示智能体agenti的策略网络。
4.如权利要求1所述的多智能体自适应采样策略生成方法,其特征在于,所述步骤S23-1计算当前智能体近M步经验的策略损失Loss,包括以下公式:
y=r+γQπ'(s',a1',a'2^a'N)|ai'=πi'(oi)
Loss=(y-Qπ(s,a1,a2^aN))2
其中,y表示当前经验中当前动作的期望回报;γ表示奖励折扣系数;r表示目标评估网络的奖励值。
5.如权利要求4所述的多智能体自适应采样策略生成方法,其特征在于,所述步骤S23-2中:根据近M步经验的策略损失Loss计算当前M步经验的优先级Pr(i),包括以下公式:
p(i)=rank(rank(Loss(i))+rankreverse(T))
Figure FDA0003092506810000027
其中:p(i)表示当前经验发生的概率,β表示自适应采样的超参数,取值范围为0到1之间,α用于调节优先程度;rank表示对其传入元素进行排序的排位方法;rankreverse表示对其传入元素进行排序的倒排位方法;T是对应时间差分误差;Loss表示损失函数返回的值。
6.如权利要求1所述的多智能体自适应采样策略生成方法,其特征在于,所述步骤S23-4具体包括:
(1)计算每个经验动作
Figure FDA0003092506810000031
的期望回报yj:yj=rj+γQ'(sj+1,a1',a'2^a'NQ'),其中γ表示奖励折扣系数;rj表示目标评估网络的奖励值;
(2)计算最小化损失以更新评估网络参数:
Figure FDA0003092506810000032
其中L表示最小化损失,K表示智能体的数量;
(3)通过梯度公式计算策略网络参数的总奖励,更新当前智能体的策略网络参数:
Figure FDA0003092506810000033
其中
Figure FDA0003092506810000034
表示梯度;J表示总奖励;K表示智能体的数量;
(4)每执行N步,通过加权因子τ更新所有智能体的目标策略网络和目标评估网络参数:θQ'=τθQ+(1-τ)θQ'π'=τθπ+(1-τ)θπ'
7.如权利要求1-6任一项所述的多智能体自适应采样策略生成方法,其特征在于,用于多交通信号机的协作控制,其中,智能体表示为交通信号机;确定性行为策略为交通灯控制策略;策略网络表示为交通信号机每次对交通灯的控制策略,评估网络表示为交通信号机对交通灯的控制策略的评估,所述经验中,当前状态的观测值表示交通信号机观察到的交通环境的实时信息;下一个状态表示交通信号机对交通环境的预测值;动作表示交通信号机的交通控制的动作;奖励表示节省车辆的延误时间。
CN202110600360.5A 2021-05-31 2021-05-31 一种多智能体自适应采样策略生成方法 Pending CN113952733A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110600360.5A CN113952733A (zh) 2021-05-31 2021-05-31 一种多智能体自适应采样策略生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110600360.5A CN113952733A (zh) 2021-05-31 2021-05-31 一种多智能体自适应采样策略生成方法

Publications (1)

Publication Number Publication Date
CN113952733A true CN113952733A (zh) 2022-01-21

Family

ID=79460294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110600360.5A Pending CN113952733A (zh) 2021-05-31 2021-05-31 一种多智能体自适应采样策略生成方法

Country Status (1)

Country Link
CN (1) CN113952733A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114449482A (zh) * 2022-03-11 2022-05-06 南京理工大学 基于多智能体深度强化学习的异构车联网用户关联方法
CN114708527A (zh) * 2022-03-09 2022-07-05 中国石油大学(华东) 一种基于极坐标表示的数字冰壶策略价值提取方法
CN115300910A (zh) * 2022-07-15 2022-11-08 浙江大学 基于多智能体强化学习的去混淆游戏策略模型生成方法
CN115495997A (zh) * 2022-10-28 2022-12-20 东南大学 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法
CN114449482B (zh) * 2022-03-11 2024-05-14 南京理工大学 基于多智能体深度强化学习的异构车联网用户关联方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708527A (zh) * 2022-03-09 2022-07-05 中国石油大学(华东) 一种基于极坐标表示的数字冰壶策略价值提取方法
CN114449482A (zh) * 2022-03-11 2022-05-06 南京理工大学 基于多智能体深度强化学习的异构车联网用户关联方法
CN114449482B (zh) * 2022-03-11 2024-05-14 南京理工大学 基于多智能体深度强化学习的异构车联网用户关联方法
CN115300910A (zh) * 2022-07-15 2022-11-08 浙江大学 基于多智能体强化学习的去混淆游戏策略模型生成方法
CN115495997A (zh) * 2022-10-28 2022-12-20 东南大学 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法
CN115495997B (zh) * 2022-10-28 2024-01-30 东南大学 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法

Similar Documents

Publication Publication Date Title
CN113952733A (zh) 一种多智能体自适应采样策略生成方法
CN110991545B (zh) 一种面向多智能体对抗的强化学习训练优化方法及装置
CN111291890B (zh) 一种博弈策略优化方法、系统及存储介质
CN108211362B (zh) 一种基于深度q学习网络的非玩家角色战斗策略学习方法
CN112052456A (zh) 基于多智能体的深度强化学习策略优化防御方法
CN110141867B (zh) 一种游戏智能体训练方法及装置
CN111282267B (zh) 信息处理方法、装置、介质及电子设备
Goldwaser et al. Deep reinforcement learning for general game playing
CN112488310A (zh) 一种多智能体群组协作策略自动生成方法
Knegt et al. Opponent modelling in the game of Tron using reinforcement learning
Oh et al. Learning to sample with local and global contexts in experience replay buffer
CN113947022B (zh) 一种基于模型的近端策略优化方法
Tziortziotis et al. Play ms. pac-man using an advanced reinforcement learning agent
CN113276852B (zh) 一种基于最大熵强化学习框架的无人驾驶车道保持方法
Tong et al. Enhancing rolling horizon evolution with policy and value networks
CN115964898A (zh) 面向兵力博弈对抗的bc-qmix离在线多智能体行为决策建模方法
CN116306979A (zh) 一种基于ppo的多智能体深度强化学习训练方法
Kim et al. Evolving population method for real-time reinforcement learning
Somasundaram et al. Double Q–learning Agent for Othello Board Game
CN114662655A (zh) 一种基于注意力机制的兵棋推演ai分层决策方法及装置
Wan et al. Style Transfer in Playing Shogi Based on Generative Adversarial Networks
CN116842761B (zh) 基于自博弈的蓝军智能体模型构建方法和装置
CN117454966A (zh) 一种面向大规模决策空间的多域协同强化学习解决方法
Kim et al. Deep q-network for ai soccer
CN116362349A (zh) 一种基于环境动态模型的强化学习方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination