CN112488310A - 一种多智能体群组协作策略自动生成方法 - Google Patents

一种多智能体群组协作策略自动生成方法 Download PDF

Info

Publication number
CN112488310A
CN112488310A CN202011253022.0A CN202011253022A CN112488310A CN 112488310 A CN112488310 A CN 112488310A CN 202011253022 A CN202011253022 A CN 202011253022A CN 112488310 A CN112488310 A CN 112488310A
Authority
CN
China
Prior art keywords
agent
strategy
information
network
train
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011253022.0A
Other languages
English (en)
Inventor
洪万福
钱智毅
黄在斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yuanting Information Technology Co ltd
Original Assignee
Xiamen Yuanting Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yuanting Information Technology Co ltd filed Critical Xiamen Yuanting Information Technology Co ltd
Priority to CN202011253022.0A priority Critical patent/CN112488310A/zh
Publication of CN112488310A publication Critical patent/CN112488310A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明涉及人工智能领域,公开了一种多智能体群组协作策略自动生成方法,根据具体应用环境定义智能体及其策略网络、评估网络和经验,实现多智能体协作策略的自动生成,其采用的算法在MADDPG算法上的基础上提出了三大创新:信息微量、多智能体协同组队和生灭训练。智能体在环境中的学习历史会在环境中留下自己的信息微量,通过信息微量智能体可以学习别人的经验避免走弯路;通过多智能体协同组队,可提高训练效率;最后通过生灭训练来使在环境中学习能力优秀的智能体通过子代遗传到自己全部信息继续训练,在环境中学习较差的智能体通过死亡回到初始点重新训练,可大大提高多智能体协作策略的生成和评估效率。

Description

一种多智能体群组协作策略自动生成方法
技术领域
本发明涉及人工智能领域,尤其涉及一种多智能体群组协作策略自动生成方法。
背景技术
MADDPG为基于深度确定性策略梯度算法的多智能体强化学习框架,可用于多智能体协作策略自动生成。
在多智能体系统中,每个智能体通过与环境进行交互获取奖励值(reward)来学习改善自己的策略,从而获得该环境下最优策略的过程就多智能体强化学习。
在单智能体强化学习中,智能体所在的环境是稳定不变的,但是在多智能体强化学习中,环境是复杂的、动态的,因此给学习过程带来很大的困难。
维度爆炸:在单体强化学习中,需要存储状态值函数或动作-状态值函数。在多体强化学习中,状态空间变大,联结动作空间(联结动作是指每个智能体当前动作组合而成的多智能体系统当前时刻的动作)随智能体数量指数增长,因此多智能体系统维度非常大,计算复杂。
目标奖励确定困难:多智能体系统中每个智能体的任务可能不同,但是彼此之间又相互耦合影响。奖励设计的优劣直接影响学习到的策略的好坏。
不稳定性:在多智能体系统中,多个智能体是同时学习的。当同伴的策略改变时,每个智能体自身的最优策略也可能会变化,这将对算法的收敛性带来影响。
探索-利用:探索不光要考虑自身对环境的探索,也要对同伴的策略变化进行探索,可能打破同伴策略的平衡状态。每个智能体的探索都可能对同伴智能体的策略产生影响,这将使算法很难稳定,学习速度慢。
在多智能体系统中智能体之间可能涉及到合作与竞争等关系,使用到强化学习,强化学习作为机器学习的方法之一,又称为再励学习、增强学习,来源于生物学中的条件反射理论,其基本思想是对所希望的结果予以奖励,对不希望的结果予以惩罚,逐渐形成一种趋向于好结果的条件反射。如本系统中的通过不断学习经验,最小化经验损失,更新神经网络参数,最后达到输出得到好结果的动作,就是在不断的迭代学习过程中,智能体能够学到完成相应任务的最有动作,也称最优策略。
发明内容
有鉴于现有技术的上述缺陷,本发明的目的是提供一种多智能体群组协作策略自动生成方法,应用于多智能体协作的策略生成,在原有MADDPG算法上进行优化,以减少无效搜索,提高学习效率,以提高多智能体协作的效果评估效率。
为实现上述目的,本发明提供了一种多智能体群组协作策略自动生成方法,包括以下步骤:
步骤S1:定义并初始化多智能体协作策略的策略网络、目标策略网络和网络参数;
步骤S2:定义并初始化多智能体协作策略的评估网络、目标评估网络和网络参数;
步骤S3:定义并初始化每个智能体的经验缓存池和动作探索噪声,所述经验包括智能体的当前状态、信息微量、动作、奖励和下一个状态;
步骤S4:在所述策略网络的确定性行为策略中加入各智能体的信息微量;策略网络通过确定性行为策略和信息微量选择行为;
步骤S5:在每一时刻,对行为进行评估,在所述评估网络构建中采用分组策略:在每一时刻,智能体选择最和自己相关的智能体进行组队,更新分组矩阵;
步骤S6:在每一个回合,对每个智能体进行生灭判断,在环境中学习能力优秀的智能体通过子代遗传到自己全部信息继续训练,而在环境中学习较差的智能体则通过死亡回到初始点重新训练。
进一步的,所述步骤S4中在所述策略网络的确定性行为策略中加入各智能体的信息微量,具体表现为策略网络通过确定性行为策略μθ和信息微量xi选择行为ai,公式为
Figure BDA0002772214960000031
其中,Oi为智能体当前状态的观测值,Nnoise为步骤S3中的动作探索噪声。
进一步的,所述步骤S4中在所述策略网络的确定性行为策略中加入各智能体的信息微量,具体包括以下步骤:
步骤S4-1:首先在环境X=Rn*n中,更新每一个智能体agenti的信息微量,智能体i若到达坐标(i,j),则智能体agenti的信息微量设为1,否则为0,构建智能体agenti在环境X的信息微量,其中n*n表示环境大小;
步骤S4-2:获取汇总信息微量表xall,通过智能体agenti的信息微量xi,将所有智能体的信息微量通过公式xall=λ1x12x2+……+λnxn进行加权求和形成汇总信息微量表xall,其中权重λi为1或0,当智能体agenti在一回合结束时完成目标,则权重λi置为1,否则权重λi置为0;
步骤S4-3:对得到的汇总信息微量表xall进行归一化,使用公式
Figure BDA0002772214960000041
进一步的,所述步骤S5具体为:
步骤S5-1:在t时刻,构建分组矩阵Gt(i),分组矩阵表示t时刻智能体agenti和其他智能体的组队情况,其中Gt(i,j)表示智能体agenti和智能体agentj是否为一组,若在一组则Gt(i,j)置为1,否则Gt(i,j)置为0;
步骤5-2:训练RNN网络:缓存智能体agenti在一回合中每一时刻的经验buffer(S,x,a,r,S',done),存放到智能体agenti的经验库Di中Di={bufferi.1,bufferi.2^bufferi.t},在此基础上构造RNN网络的训练集Dtrain:Ftrain、Ltrain,其中Ftrain是自变量,Ltrain是因变量;使用训练集Dtrain训练RNN网络,通过训练结果和真实结果更新网络参数,并构造测试集Ftext,测试集Ftext的构造方式和训练集Ftrain构造方式一致;
步骤S5-3:使用训练好的RNN网络,逐条输入t时刻的分组矩阵Gt的组队信息,预测t+1时刻的分组矩阵Gt+1的组队状态,最后汇总为t+1时刻的分组矩阵Gt+1
进一步的,
Ftrain的构造:遍历智能体agenti,遍历1~t时刻与智能体agenti组队的智能体的经验bufferi.t构造Ftrain
Ltrain的构造:根据Ftrain的经验如果有其中任何一条经验没有完成任务,则Ltrain设为1;只有所有经验都完成任务,Ltrain才置为0。
进一步的,所述步骤S6具体为:
步骤S6-1:在每一回合中,使用公式
Figure BDA0002772214960000042
计算智能体agenti每一步的损失函数值L(θi);最后在回合结束时,统计每一回合智能体agenti轨迹的损失函数均值L(θi)mean,其中,L(θi)mean=E(L(θi)1+L(θi)2+……+L(θi)step);
步骤S6-2:汇总每一回合所有智能体轨迹的损失值∑L(θ):∑L(θ)=L(θ1)mean+L(θ2)mean+……+L(θn)mean
步骤S6-3:计算智能体agenti的生灭概率:
Figure BDA0002772214960000051
其中p(i)越大,则智能体agenti生的概率越大,反之越小;
步骤S6-4:选出适应度高的智能体衍生出子代,子代继承父亲的状态、信息微量;适应度不好的智能体则会死亡而且会回到初始状态,只继承父亲的神经网络参数和经验库。
进一步的,所述多智能体群组协作策略自动生成方法用于多交通信号机的协作控制,其中,智能体表示为交通信号机;确定性行为策略为交通灯控制策略;策略网络表示为交通信号机每次对交通灯的控制策略,评估网络表示为交通信号机对交通灯的控制策略的评估,所述经验中,当前状态的观测值表示交通信号机观察到的交通环境的实时信息;下一个状态表示交通信号机对交通环境的预测值;动作表示交通信号机的交通控制的动作;信息微量表示环境信息,至少包括当前车流量信息;奖励表示节省车辆的延误时间;
在每一时刻,对行为进行评估,在所述评估网络构建中采用分组策略:在每一时刻,交通信号机选择与相邻路口的交通信号机进行组队,更新分组矩阵;
在每一个回合,对每个交通信号机进行生灭判断,在与相邻路口的交通信号机关联紧密的交通信号机通过子代遗传到自己全部信息继续训练,而在交通信号机关联不高的智能体则通过死亡回到初始点重新训练。
本发明实现了如下技术效果:
本发明的多智能体群组协作策略自动生成方法,根据具体应用环境定义智能体及其策略网络、评估网络和经验,实现多智能体协作策略的自动生成,其采用的算法在原有MADDPG算法上提出了三大创新:信息微量、多智能体协同组队、生灭训练。智能体在环境中的学习历史会在环境中留下自己的信息微量,通过信息微量智能体可以学习别人的经验避免走弯路;通过多智能体协同组队,可提高训练效率;最后通过生灭训练来使在环境中学习能力优秀的智能体通过子代遗传到自己全部信息继续训练,在环境中学习较差的智能体通过死亡回到初始点重新训练大大提高多智能体协作策略的生成和评估效率。
附图说明
图1为本发明实施例给出的算法的结构流程训练示意图;
图2为本发明实施例给出的多智能体分组训练结构流程示意图;
图3为本发明实施例给出的MADDPG算法和TTL-MADDPG的实验结果对比图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。
实施例1
本发明公开了一种MADDPG(基于深度确定性策略梯度算法的多智能体强化学习框架)的多智能体群组协作策略自动生成方法,以下简称TTL-MADDPG算法,该算法以MADDPG算法为基础,在原有MADDPG算法上提出了三大创新:信息微量、多智能体协同组队、生灭训练。发明以MADDPG算法为主体,将MADDPG算法的策略网络(actor网络)加入信息微量,改为ai=μθi(Oi,xi)+Nnoise,其中用xi表示智能体agenti的信息微量,智能体agenti在环境中的学习历史会在环境中留下自己的信息微量,通过信息微量,智能体可以学习别人的经验避免走弯路。在评估网络(critic网络)构建中,采用分组策略:智能体选择最和自己相关的智能体进行组队,以替代原有MADDPG算法采用所有智能体进行交互来构建评估网络,提高训练效率。最后通过生灭训练来使环境中学习能力优秀的智能体通过子代遗传到自己全部信息继续训练,而使环境中学习较差的智能体死亡回到初始点重新训练大大提高效率。如图1和图2所示。
为方便说明,首先定义算法所需要的输入输出字符的缩写,以便之后叙述:用xi表示智能体agenti的信息微量,智能体所有信息微量汇总使用的λ1~n为xi的权重,组队使用G模型,其中Gt(i,j)的值表示表示智能体agenti和agentj是否为一组,Gt(i)矩阵表示t时刻agenti和其他智能体的组队情况,组队G模型包括训练集Dtrain:Ftrain、Ltrain,测试集Ftext,经验库Di
buffer(S,x,a,r,S',done)表示智能体获得的经验,其中:S表示当前状态,为观测值;x表示信息微量,为引入的环境信息;a表示智能体的行为;r表示智能体获得的奖励,S'表示下一个状态,为预测值。
TTL-MADDPG算法,具体步骤如下:
步骤S1:初始化每个智能体agenti的策略网络πi(Oiπi)和评估网络Qi(s,a1,a2^aNQi)以及网络参数θπi和θQi
步骤S2:初始化每个智能体agenti的目标策略网络πi'(Oiπi')和目标评估网络Qi'(s,a1,a2^aNQi')以及网络参数θπi'和θQi'
步骤S3:初始化每个智能体agenti的经验缓存池Ri和动作探索噪声。
步骤S4:在策略网络的确定性行为策略中加入各智能体的信息微量,策略网络通过确定性行为策略μθ和信息微量xi选择行为ai,公式为
Figure BDA0002772214960000081
其中Oi为观测值,Nnoise为步骤S3中的动作探索噪声。
步骤S4具体包括以下步骤:
步骤S4-1:首先在环境X=Rn*n中,其中n*n表示环境大小,更新每一个智能体agenti的信息微量xi,智能体agenti若到达(i,j)坐标,则agenti的信息微量设为1,否则为0,构建智能体agenti在环境X的信息微量。
步骤S4-2:通过智能体agenti的信息微量xi,将所有智能体的信息微量通过公式xall=λ1x12x2+……+λnxn进行加权求和形成汇总信息微量表xall,其中权重λi为1或0,当智能体agenti在一回合结束时完成目标则权重λi置为1,否则权重λi置为0。
步骤S4-3:对得到的汇总信息微量表xall进行归一化,使用公式
Figure BDA0002772214960000082
步骤S5:在每一时刻,对行为进行评估,在评估网络构建中采用分组策略:在每一个时刻,智能体选择最和自己相关的智能体进行组队,更新分组矩阵。
步骤S5具体包括以下步骤:
步骤S5-1:在t时刻,构建分组矩阵Gt(i),分组矩阵Gt(i)表示t时刻agenti和其他智能体的组队情况,其中Gt(i,j)表示智能体agenti和智能体agentj是否为一组,若在一组则Gt(i,j)置为1,否则Gt(i,j)置为0。
步骤S5-2:训练RNN网络:缓存智能体agenti在一回合中每一时刻的经验buffer(S,x,a,r,S',done),存放到智能体agenti的经验库Di中Di={bufferi.1,bufferi.2^bufferi.t},在此基础上构造用于RNN网络训练的训练集Dtrain:Ftrain、Ltrain,其中Ftrain是自变量,Ltrain是因变量。Ftrain的构造:遍历智能体agenti,遍历1~t时刻与智能体agenti组队的智能体的经验bufferi.t构造Ftrain。Ltrain的构造:根据Ftrain的经验如果有其中任何一条经验没有完成任务,即done仍保持True,那么Ltrain设为1。只有done都是False,Ltrain才是0。Done表示任务执行情况,done的状态为True(真),表示任务正在执行;done的状态为False(假),表示任务执行完毕。如图2为例,在1时刻,智能体agent3和智能体agent1为一队,则Ftrain的经验为buffer3.1和buffer1.1,此时两智能体经验的任务均已完成,done均为False,则Ltrain设为0,之后同理。
步骤S5-3:使用训练集Dtrain训练RNN网络,通过训练结果和真实结果更新网络参数,并构造测试集Ftext,测试集的构造和训练集Ftrain构造方式一致。
步骤S5-4:使用训练好的RNN网络,逐条输入t时刻的分组矩阵Gt的组队信息,预测t+1时刻的分组矩阵Gt+1的组队状态,最后汇总为t+1时刻的分组矩阵Gt+1
步骤S6:在每一个回合,对每个智能体进行生灭判断,在环境中学习能力优秀的智能体通过子代遗传到自己全部信息继续训练,而在环境中学习较差的智能体则通过死亡回到初始点重新训练。
步骤S6具体包括以下步骤:
步骤S6-1:在每一回合中,使用公式
Figure BDA0002772214960000091
计算智能体agenti每一步的损失函数值L(θi);最后在回合结束时,统计每一回合智能体agenti轨迹的损失函数均值L(θi)mean,其中,L(θi)mean=E(L(θi)1+L(θi)2+……+L(θi)step)。
步骤S6-2:汇总每一回合所有智能体轨迹的损失值∑L(θ):∑L(θ)=L(θ1)mean+L(θ2)mean+……+L(θn)mean
步骤S6-3:计算智能体agenti的生灭概率:
Figure BDA0002772214960000101
其中p(i)越大,则智能体agenti生的概率越大,反之越小;
步骤S6-4:选出适应度高的智能体衍生出子代,子代继承父亲的状态、信息微量表;适应度不好的智能体就会死亡而且会回到初始状态,只继承父亲的神经网络参数和经验库。
实施例2:
多智能体群组协作策略自动生成算法在交通灯控制的应用。
以每个路口的交通信号机为智能体,表示为agenti
输入:多个交通信号机的集合Agents={agent0,agent1,agent2,...,agenti}。
输入:初始化每个交通信号机agenti的策略网络πi(o,θπi)和评估网络Qi(s,a1,a2^aNQi)以及网络参数θπi和θQi;其中o表示交通信号机观察交通环境的实时信息;策略网络πi表示第i个交通信号机每次对交通灯的控制策略,评估网络Qi表示第i个交通信号机对交通灯的控制策略的评估,s表示交通信号机的状态信息,a表示交通信号机的交通控制的动作;信息微量xi包含当前车流量信息、当前气候环境信息等信息;奖励表示节省车辆的延误时间;
输入:初始化每个交通信号机agenti的目标策略网络πi′(o,θπi′)和目标评估网络Qi'(s,a1,a2^aNQi')以及网络参数θπi'和θQi'
输入:初始化每个交通信号机agenti的经验缓存池Ri和动作探索噪声Ra
重复训练:
1:策略网络通过确定性行为策略μθ和信息微量xi选择行为ai,公式由
Figure BDA0002772214960000111
改为
Figure BDA0002772214960000112
其中,Oi为第i个路口的交通信号机实时观察到交通信息,信息微量xi表示环境信息,至少包含当前车流量信息,还可以包括当前气候环境信息等影响道路通行的相关信息;Nnoise为交通信号机动作选择时加入的噪声信息;
2:通过分组策略优化评估网络,多个交通信号机的控制策略通常只针对相邻、相近的几个路口,当交通信号机控制某一个方向的交通灯动作时,会影响相邻几个路口的车流量变化,且对相邻各路口的车流量变化的影响是不同的,从而可以通过分组策略选取相邻的几个路口进行优化,以提高训练效率。具体的,如实施例1,分组模型采用RNN网络,构建Gt(i)矩阵,通过Gt(i,j)表示agenti和agentj是否在一组,若在一组则为1,若不在0,缓存每一步交通信号机agenti的经验buffer(S,x,a,r,S',done),构造经验库Di={bufferi.1,bufferi.2^bufferi.t},构造训练集、测试集训练RNN网络,并通过RNN网络预测下一时刻的组队情况Gt+1,其中Gt(i)表示交通信号机agenti在t时刻的组队情况。
即在每一时刻,对行为进行评估,在所述评估网络构建中采用分组策略:在每一时刻,交通信号机选择与相邻路口的交通信号机进行组队,更新分组矩阵。
3:交通信号机生灭训练,首先使用公式
Figure BDA0002772214960000113
来计算每一步agenti的适应度,最后计算损失值均值L(θi)mean,通过每个交通信号机agenti的收益公式
Figure BDA0002772214960000114
判断交通信号机agenti是否需要生灭训练。
即在每一个回合,对每个交通信号机进行生灭判断,在与相邻路口的交通信号机关联紧密的交通信号机通过子代遗传到自己全部信息继续训练,而在交通信号机关联不高的智能体则通过死亡回到初始点重新训练。
4:循环训练直到模型在验证集上面没有提升。
输出:所有交通信号机对应的策略π123,...,πi,根据相邻路口的车流量和交通灯变化进行实时优化控制交通灯控制。
实施例3
通过仿真试验对本发明采用的多智能体群组协作策略自动生成方法中的算法进行评估。
实验内容:
(1)环境:本实验是基于Starcraft2游戏进行的实验;
(2)游戏设置:具体游戏中,以3个凤凰战斗机智能体对战Starcraft2难度为7级难度(最高难度)游戏内置的3个凤凰战斗机;
(3)训练设置:本实验分别,使用MADDPG和TTL-MADDPG进行实验,使用中训练的迭代次数epoch都设置250次,分别统计了训练的战斗胜率battle_won_mean(等于:胜利游戏局数/总游戏局数)和模型的损失值loss变化。
实验结果数据:
如图3所示,其中(1)MADDPG算法;(2)ET-MADDPG算法。曲线①为损失函数(LOSS);曲线②为战斗胜率(battle_WON_mean)。
实验中,MADDPG和MADDPG相比随机游走智能体在75epoch之后基本处于稳定状态,而MADDPG在125次迭代(epoch)还未有出于稳定状态的表现,说明TTL-MADDPG训练的智能体其学习效率更高,而且稳定性更好。
由此可见,本发明提出的多智能体群组协作策略自动生成方法,根据具体应用环境定义智能体及其策略网络、评估网络和经验,实现多智能体协作策略的自动生成,其采用的TTL-MADDPG算法在原有MADDPG算法上提出了三大创新:信息微量、多智能体协同组队、生灭训练。智能体在环境中的学习历史会在环境中留下自己的信息微量,通过信息微量智能体可以学习别人的经验避免走弯路;通过多智能体协同组队,可提高训练效率;最后通过生灭训练,在环境中学习能力优秀的智能体通过子代遗传到自己全部信息继续训练,而在环境中学习较差的智能体通过死亡回到初始点重新训练,可大大提高多智能体协作策略的生成和评估效率。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

Claims (7)

1.一种多智能体群组协作策略自动生成方法,其特征在于:包括以下步骤:
步骤S1:定义并初始化多智能体协作策略的策略网络、目标策略网络和网络参数;
步骤S2:定义并初始化多智能体协作策略的评估网络、目标评估网络和网络参数;
步骤S3:定义并初始化每个智能体的经验缓存池和动作探索噪声,所述经验包括智能体的当前状态、信息微量、动作、奖励和下一个状态;
步骤S4:在所述策略网络的确定性行为策略中加入各智能体的信息微量;策略网络通过确定性行为策略和信息微量选择行为;
步骤S5:在每一时刻,对行为进行评估,在所述评估网络构建中采用分组策略:在每一时刻,智能体选择最和自己相关的智能体进行组队,更新分组矩阵;
步骤S6:在每一个回合,对每个智能体进行生灭判断,在环境中学习能力优秀的智能体通过子代遗传到自己全部信息继续训练,而在环境中学习较差的智能体则通过死亡回到初始点重新训练。
2.如权利要求1所述的多智能体群组协作策略自动生成方法,其特征在于,所述步骤S4中在所述策略网络的确定性行为策略中加入各智能体的信息微量,具体表现为策略网络通过确定性行为策略μθ和信息微量xi选择行为ai,公式为
Figure FDA0002772214950000011
其中,Oi为智能体当前状态的观测值,Nnoise为步骤S3中的动作探索噪声。
3.如权利要求2所述的多智能体群组协作策略自动生成方法,其特征在于,所述步骤S4中在所述策略网络的确定性行为策略中加入各智能体的信息微量,具体包括以下步骤:
步骤S4-1:首先在环境X=Rn*n中,更新每一个智能体agenti的信息微量xi,智能体agenti若到达坐标(i,j),则智能体agenti的信息微量设为1,否则为0,构建智能体agenti在环境X的信息微量,其中R表示噪声,n*n表示环境大小;
步骤S4-2:将所有智能体的信息微量通过公式xall=λ1x12x2+……+λnxn进行加权求和形成汇总信息微量表xall,其中权重λi为1或0,当智能体agenti在一回合结束时完成目标,则权重λi置为1,否则权重λi置为0;
步骤S4-3:对得到的汇总信息微量表xall进行归一化,使用公式
Figure FDA0002772214950000021
4.如权利要求1所述的多智能体群组协作策略自动生成方法,其特征在于,所述步骤S5具体为:
步骤S5-1:在t时刻,构建分组矩阵Gt(i),分组矩阵Gt(i)表示t时刻智能体agenti和其他智能体的组队情况,其中Gt(i,j)表示智能体agenti和智能体agentj是否为一组,若在一组则Gt(i,j)置为1,否则Gt(i,j)置为0;
步骤5-2:训练RNN网络:缓存智能体agenti在一回合中每一时刻的经验buffer(S,x,a,r,S',done),存放到智能体agenti的经验库Di中,Di={bufferi.1,bufferi.2^bufferi.t},在此基础上构造RNN网络的训练集Dtrain:Ftrain、Ltrain,其中Ftrain是自变量,Ltrain是因变量;使用训练集Dtrain训练RNN网络,通过训练结果和真实结果更新网络参数,并构造测试集Ftext,测试集Ftext的构造方式和训练集Ftrain构造方式一致;
步骤S5-3:使用训练好的RNN网络,逐条输入t时刻的分组矩阵Gt的组队信息,预测t+1时刻的分组矩阵Gt+1的组队状态,最后汇总为t+1时刻的分组矩阵Gt+1
5.如权利要求4所述的多智能体群组协作策略自动生成方法,其特征在于,
Ftrain的构造:遍历智能体agenti,遍历1~t时刻与智能体agenti组队的智能体的经验bufferi.t构造Ftrain
Ltrain的构造:根据Ftrain的经验如果有其中任何一条经验没有完成任务,则Ltrain置为1;只有所有经验都完成任务,Ltrain才置为0。
6.如权利要求1所述的多智能体群组协作策略自动生成方法,其特征在于:所述步骤S6具体为:
步骤S6-1:在每一回合中,使用公式
Figure FDA0002772214950000031
计算智能体agenti每一步的损失函数值L(θi);最后在回合结束时,统计每一回合智能体agenti轨迹的损失函数均值L(θi)mean,其中,L(θi)mean=E(L(θi)1+L(θi)2+……+L(θi)step);
步骤S6-2:汇总每一回合所有智能体轨迹的损失值∑L(θ):∑L(θ)=L(θ1)mean+L(θ2)mean+……+L(θn)mean
步骤S6-3:计算智能体agenti的生灭概率:
Figure FDA0002772214950000032
其中p(i)越大,则智能体agenti生的概率越大,反之越小;
步骤S6-4:选出适应度高的智能体衍生出子代,子代继承父亲的状态、信息微量;适应度不好的智能体则会死亡而且会回到初始状态,只继承父亲的神经网络参数和经验库。
7.如权利要求1-6任一项所述的多智能体群组协作策略自动生成方法,其特征在于:用于多交通信号机的协作控制,其中,智能体表示为交通信号机;确定性行为策略为交通灯控制策略;策略网络表示为交通信号机每次对交通灯的控制策略,评估网络表示为交通信号机对交通灯的控制策略的评估,所述经验中,当前状态的观测值表示交通信号机观察到的交通环境的实时信息;下一个状态表示交通信号机对交通环境的预测值;行为表示交通信号机的交通控制的动作;信息微量表示环境信息,至少包括当前车流量信息;奖励表示节省车辆的延误时间;
在每一时刻,对行为进行评估,在所述评估网络构建中采用分组策略:在每一时刻,交通信号机选择与相邻路口的交通信号机进行组队,更新分组矩阵;
在每一个回合,对每个交通信号机进行生灭判断,在与相邻路口的交通信号机关联紧密的交通信号机通过子代遗传到自己全部信息继续训练,而在交通信号机关联不高的智能体则通过死亡回到初始点重新训练。
CN202011253022.0A 2020-11-11 2020-11-11 一种多智能体群组协作策略自动生成方法 Pending CN112488310A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011253022.0A CN112488310A (zh) 2020-11-11 2020-11-11 一种多智能体群组协作策略自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011253022.0A CN112488310A (zh) 2020-11-11 2020-11-11 一种多智能体群组协作策略自动生成方法

Publications (1)

Publication Number Publication Date
CN112488310A true CN112488310A (zh) 2021-03-12

Family

ID=74929496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011253022.0A Pending CN112488310A (zh) 2020-11-11 2020-11-11 一种多智能体群组协作策略自动生成方法

Country Status (1)

Country Link
CN (1) CN112488310A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949933A (zh) * 2021-03-23 2021-06-11 成都信息工程大学 一种基于多智能体强化学习的交通组织方案优化方法
CN113269963A (zh) * 2021-05-20 2021-08-17 东南大学 一种基于强化学习的网联车辆信号灯控路口经济通行方法
CN113299084A (zh) * 2021-05-31 2021-08-24 大连理工大学 一种基于多视角编码迁移强化学习的区域信号灯协同控制方法
CN113435475A (zh) * 2021-05-27 2021-09-24 中国科学院软件研究所 一种多智能体通信协作方法
CN113759929A (zh) * 2021-09-22 2021-12-07 西安航天动力研究所 基于强化学习和模型预测控制的多智能体路径规划方法
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及系统
CN114115342A (zh) * 2021-11-19 2022-03-01 南京航空航天大学 一种基于冲突处理的无人集群多域协同系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150102945A1 (en) * 2011-12-16 2015-04-16 Pragmatek Transport Innovations, Inc. Multi-agent reinforcement learning for integrated and networked adaptive traffic signal control
CN111582469A (zh) * 2020-03-23 2020-08-25 成都信息工程大学 多智能体协作信息处理方法、系统、存储介质、智能终端
CN111785045A (zh) * 2020-06-17 2020-10-16 南京理工大学 基于演员-评论家算法的分布式交通信号灯联合控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150102945A1 (en) * 2011-12-16 2015-04-16 Pragmatek Transport Innovations, Inc. Multi-agent reinforcement learning for integrated and networked adaptive traffic signal control
CN111582469A (zh) * 2020-03-23 2020-08-25 成都信息工程大学 多智能体协作信息处理方法、系统、存储介质、智能终端
CN111785045A (zh) * 2020-06-17 2020-10-16 南京理工大学 基于演员-评论家算法的分布式交通信号灯联合控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
余静,顾正洪,王振军编著: "《交通控制工程》", 31 March 2005, 徐州:中国矿业大学出版社, pages: 272 - 273 *
余静,顾正洪,王振军编著: "《交通运输通论》", 徐州:中国矿业大学出版社, pages: 150 - 151 *
邹长杰 等: "基于 GAED-MADDPG 多智能体强化学习的协作策略研究", 计算机应用研究, pages 1 - 9 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949933A (zh) * 2021-03-23 2021-06-11 成都信息工程大学 一种基于多智能体强化学习的交通组织方案优化方法
CN113269963A (zh) * 2021-05-20 2021-08-17 东南大学 一种基于强化学习的网联车辆信号灯控路口经济通行方法
CN113269963B (zh) * 2021-05-20 2021-12-10 东南大学 一种基于强化学习的网联车辆信号灯控路口经济通行方法
CN113435475A (zh) * 2021-05-27 2021-09-24 中国科学院软件研究所 一种多智能体通信协作方法
CN113435475B (zh) * 2021-05-27 2023-01-20 中国科学院软件研究所 一种多智能体通信协作方法
CN113299084A (zh) * 2021-05-31 2021-08-24 大连理工大学 一种基于多视角编码迁移强化学习的区域信号灯协同控制方法
CN113759929A (zh) * 2021-09-22 2021-12-07 西安航天动力研究所 基于强化学习和模型预测控制的多智能体路径规划方法
CN113759929B (zh) * 2021-09-22 2022-08-23 西安航天动力研究所 基于强化学习和模型预测控制的多智能体路径规划方法
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及系统
CN114115342A (zh) * 2021-11-19 2022-03-01 南京航空航天大学 一种基于冲突处理的无人集群多域协同系统及方法
CN114115342B (zh) * 2021-11-19 2023-12-19 南京航空航天大学 一种基于冲突处理的无人集群多域协同系统及方法

Similar Documents

Publication Publication Date Title
CN112488310A (zh) 一种多智能体群组协作策略自动生成方法
Shao et al. Starcraft micromanagement with reinforcement learning and curriculum transfer learning
Wang et al. Multi-population following behavior-driven fruit fly optimization: A Markov chain convergence proof and comprehensive analysis
CN111582469A (zh) 多智能体协作信息处理方法、系统、存储介质、智能终端
US11534690B2 (en) Readable and editable NPC behavior creation using reinforcement learning
Lonza Reinforcement Learning Algorithms with Python: Learn, understand, and develop smart algorithms for addressing AI challenges
CN113919482A (zh) 智能体训练方法、装置、计算机设备和存储介质
CN109740741A (zh) 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法
Xu et al. Deep reinforcement learning with sarsa and Q-learning: A hybrid approach
CN113952733A (zh) 一种多智能体自适应采样策略生成方法
KR100850914B1 (ko) 게임 캐릭터 제어방법
Tong et al. Enhancing rolling horizon evolution with policy and value networks
CN115587615A (zh) 一种感知行动回路决策的内在奖励生成方法
CN115933712A (zh) 基于深度强化学习的仿生鱼领导者—跟随者编队控制方法
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
Hook et al. Deep Multi-Critic Network for accelerating Policy Learning in multi-agent environments
Khatri The Gaming Experience With AI
Morales Deep Reinforcement Learning
Charity et al. Amorphous Fortress: Observing Emergent Behavior in Multi-Agent FSMs
Gatti et al. A brief tutorial on reinforcement learning: The game of Chung Toi.
Al Daire Dynamic control frequency in reinforcement learning through action persistence
CN116892866B (zh) 一种火箭子级回收轨迹规划方法、设备及存储介质
CN112215333B (zh) 基于低阶高斯分布的多智能体协同探索方法及装置
Xiaoqin et al. Applying hierarchical reinforcement learning to computer games
Picardi A comparison of Different Machine Learning Techniques to Develop the AI of a Virtual Racing Game

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination