CN112651486A - 一种提高maddpg算法收敛速度的方法及其应用 - Google Patents

一种提高maddpg算法收敛速度的方法及其应用 Download PDF

Info

Publication number
CN112651486A
CN112651486A CN202011428745.XA CN202011428745A CN112651486A CN 112651486 A CN112651486 A CN 112651486A CN 202011428745 A CN202011428745 A CN 202011428745A CN 112651486 A CN112651486 A CN 112651486A
Authority
CN
China
Prior art keywords
reward
network
function
distance
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011428745.XA
Other languages
English (en)
Inventor
张婷婷
董会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN202011428745.XA priority Critical patent/CN112651486A/zh
Publication of CN112651486A publication Critical patent/CN112651486A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种提高MADDPG算法收敛速度的方法及其应用,获取多智能体环境;依据多智能体环境加载MADDPG算法训练框架;依据MADDPG算法训练框架获取训练参数,将训练参数输入到引入距离参数奖励机制的奖励函数中,进行网络更新,保存训练结果。优点:本发明在引入person‑distance个体‑距离奖励机制后,由于距离参数的加入,使得贝尔曼方程每次更新时,单个智能体采取动作后得到的奖励值变化明显,这奖励值因为捕食者和逃逸者之间的距离不断变化而变化,Critic网络在策略更新时能更好的识别出不同动作值之间奖励值的差异,有效的解决了延迟奖励问。

Description

一种提高MADDPG算法收敛速度的方法及其应用
技术领域
本发明涉及一种提高MADDPG算法收敛速度的方法及其应用,属于无人系统技术领域。
背景技术
集群无人系统是近年来国内外军事领域的研究重点,正在推动无人作战样式由“单平台遥控作战”向“智能集群作战”发展。随着人工智能技术的发展和运用,集群无人系统作战将可能成为战场上的一种重要作战样式。在动态的战场环境下,集群无人系统需要解决个体之间的协同以及对抗问题,提高系统的对抗性能,而多智能体强化学习旨在解决智能体的行为自主决策问题,正确的引入强化学习算法有助于提高集群无人系统的行为自主性。
奖励问题是多智能体强化学习解决实际任务的核心问题。强化学习的奖励类型有很多种,例如二元奖励、稀疏奖励等。因为更符合实际应用,在多智能体的研究中普遍采用稀疏奖励。区别于机器学习中的监督学习,强化学习不需要提供训练数据集。在监督学习中需要训练数据集来提供监督信号,在强化学习中,奖励函数承担了监督信号的作用,智能体依据奖励值进行策略优化。MADDPG算法中的奖励即为稀疏奖励,在合作和竞争两种环境下探讨,不同环境下的奖励机制各不相同。
围捕逃逸问题是多智能体强化学习竞争环境中的经典问题,是多智能体竞争对抗环境的典型代表,同时还包含简单合作的特点。选取MADDPG算法中的围捕逃逸问题来进行研究具有代表性。原算法在围捕环境下的奖励信号设置较为简单,在训练过程中,由于奖励信号变化不明显,导致智能体采用策略梯度方法进行探索时成功样本数量很少,需要很长的训练时间才能达到最优策略,所以算法稳定性和收敛性表现较差。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种提高MADDPG算法收敛速度的方法及其应用。
为解决上述技术问题,本发明提供一种提高MADDPG算法收敛速度的方法,获取多智能体环境;
依据多智能体环境加载MADDPG算法训练框架;
依据MADDPG算法训练框架获取训练参数,将训练参数输入到引入距离参数奖励机制的奖励函数中,进行网络更新,保存训练结果。
进一步的,所述多智能体环境包括Actor网络和Critic网络,其中,
Actor网络表示为:
Figure BDA0002825830180000021
Critic网络表示为:
Figure BDA0002825830180000022
target-net表示目标网络,eval-net表示估计网络,Actor网络是卷积神经网络对μ函数的模拟,参数为θμ,μ函数表示智能体采用的确定性策略函数,s表示状态信息;Critic网络是对Q函数的模拟,Critic网络加入了卷积神经网络,参数为θQ,Q函数表示决定奖励值大小的函数,a表示策略动作。
进一步的,所述引入距离参数奖励机制的奖励函数包括:
捕食者i的奖励函数为:
ri=-0.1*D(i,p)+B+C
逃逸者p的奖励为:
rp=0.1*min(D(i,p))+B-C
其中,捕食者与逃逸者之间的距离D(i,p)为:
Figure BDA0002825830180000023
碰撞奖励C为:
Figure BDA0002825830180000031
边界奖励为:
Figure BDA0002825830180000032
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至3所述的方法中的任一方法。
一种计算设备,包括,
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至7所述的方法中的任一方法的指令。
一种集群无人系统,其将所述的方法应用到集群无人系统竞争环境下的奖励机制中。
进一步的,将所述奖励机制加载到无人机、无人车或者机器人的决策模块中。
本发明所达到的有益效果:
本发明在引入person-distance个体-距离奖励机制后,由于距离参数的加入,使得贝尔曼方程每次更新时,单个智能体采取动作后得到的奖励值变化明显,这奖励值因为捕食者和逃逸者之间的距离不断变化而变化,Critic网络在策略更新时能更好的识别出不同动作值之间奖励值的差异,有效的解决了延迟奖励问题。
附图说明
图1是本发明的流程示意图;
图2是捕食者1奖励函数曲线图;
图3是捕食者2奖励函数曲线图;
图4是捕食者3奖励函数曲线图;
图5是逃逸者奖励函数曲线图;
图6是奖励函数曲线总和图;
图7是MADDPG算法训练框架图;
图8是MADDPG算法训练执行流程简图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明提高一种提高MADDPG算法收敛速度的方法,包括如下步骤:
1.搭建多智能体环境。
本实施例中智能体所处的环境为envs智能体的环境,环境中包含了N个智能体,N个智能体所采取的行为策略定义为集合π,π={π12…πN},各个策略由神经网络表示。同样的,定义a={a1,a2…aN}为智能体行为动作的集合,S={S1,S2…SN}是智能体所处状态的集合,所有智能体的参数集合定义为θ={θ12…θN}。假设智能体每次采用的确定性策略为μ,每一步的动作都可以通过公式:at=μ(St)获得,而执行某一策略后获得的奖励,奖励值大小由Q函数决定。算法在以下约束条件下运行:
1)学习的策略只能在执行时只能使用本地信息,即它们自己的观察结果,与其他智能体的观察结果无关;
2)无需知道环境的可微分动力学模型,环境是未知的,智能体无法预测奖励以及采取行为后的状态,自身的行为仅仅取决于策略;
3)忽略智能体之间的通信方法,不对智能体之间的可区分的通信渠道进行假设。
满足上述条件后,算法的通用性将大大提升,将适用于在含有确定的通信方式下的竞争、合作博弈。
2.确定算法训练执行流程
算法执行过程如图8所示,当模型训练好后,只需要两个actor(执行者)与环境交互,即只需要实线的循环部分。这里区别于单个agent智能体的情况,每个agent的输入状态是不一样的。环境输出下一个全信息状态Sall后,actor1和actor2只能获取自己能够观测到的部分状态信息S1,S2。而在训练过程中,critic1和critic2可以获得全信息状态,同时还能获得两个agent采取的策略动作a1,a2。换言之,actor网络虽然不能看到全部的环境状态信息,也不能知晓其他智能体的策略,但是每个智能体的actor网络有一个拥有全部视角的导师,这个导师可以观测到所有信息,并指导对应的actor网络优化策略。
3.智能体采用Actor-Critic网络更新方式
在环境evns中,智能体均由Actor网络动作网络、Critic网络评价网络组成,在Actor和Critic中又各自含有目标网络(target-net)和估计网络(eval-net)。Actor网络是卷积神经网络对μ函数的模拟,参数为θμ。Critic网络是对Q函数的模拟,加入了卷积神经网络,参数为θQ
MADDPG算法训练框架如图7所示。
其中,Actor网络可表示为:
Figure BDA0002825830180000051
Critic网络可表示为:
Figure BDA0002825830180000061
在训练过程中只需要估计网络(eval-net)的参数,而目标网络(target-net)的参数由估计网络每隔一定时间直接复制。依据算法核心思想,在训练的时候,引入可观察全局的Critic网络来指导Actor训练,而执行的时候只使用有局部观测的Actor采取行动。假设存在智能体i,智能体采取的动作为:
Figure BDA0002825830180000062
在与环境交互后,获得经验
Figure BDA0002825830180000063
并存储起来。等到所有智能体与环境交互后,每个智能体随机抽取存储的行为经验加入到策略网络中进行训练。智能体的学习速度比较慢,为了提高学习效率,我们在Critic网络中添加其余的智能体通过观察获得的状态信息和智能体自身采取的行为动作。信息定义为:Q=Q{Sj,a1,a2…aNQ}其中
Figure BDA0002825830180000064
经过上述步骤,Critic网络参数在更新时损失将大大减小,计算更新时的损失的公式为:
Figure BDA0002825830180000065
之后动作网络也将完成更新,网络参数的计算要与梯度下降法结合,计算公式为:
Figure BDA0002825830180000066
4.在逃逸者的奖励函数中引入距离参数
距离参数是指是每个智能体与目标之间的距离,捕食者距离目标的距离越小,奖励越大。原算法中,没有对逃逸者引入距离参数,这样一来虽然可以增加捕食者捕获效果,但此时的逃逸者不如逃逸者“智能”,这样的对抗环境是不公平的,会损害捕食者的训练效果。我们通过代码修改,在函数中令逃逸者可以根据距离来进行判断。
5.每个捕食者单独计算与逃逸者之间的距离
在原算法中,捕食者的距离参数是计算捕食者和逃逸者的平均距离,目的是为了考虑协同。但要看到,捕食者的捕食目标是:多个智能体的个体只要有一个与逃逸者的距离最小或者碰撞,即视为捕食成功。因此此处无须考虑部分智能体为完成整体任务而牺牲个人的更高智能的协同合作。我们需要在代码中,将捕食者的奖励函数的距离参数修改为捕食者自己与逃逸者之间的距离。此时捕食者间的合作变成每个智能体模仿奖励值最高的“最佳选手”的行为动作,即每个智能体采取了贪心策略。
为了对奖励函数进行进一步剖析,给出一个具体的实施例,在MADDPG算法的3V1围猎场景下,捕食者的奖励取决于是否发生碰撞。捕食者与逃逸者之间的距离为:
Figure BDA0002825830180000071
当捕食者碰撞被捕食者(即捕获成功)时,捕食者会收获较大的奖励,同时,被捕食者收获较大的惩罚(负值奖励)。即碰撞奖励为:
Figure BDA0002825830180000072
为维持环境的正常运行,防止因智能体逃出边界而难以学习到较好的策略,对逃出边界的智能体,施加较大的惩罚,惩罚大小取决于远离边界的程度。以捕食者为例,边界奖励为:
Figure BDA0002825830180000073
在原算法中,捕食者的奖励公式为:
ri=B+C
被捕食的奖励公式为:
rp=B-C
我们设计出person-distance奖励机制,在这个机制下,没有发生碰撞时的奖励值可以随着距离参数而改变。在定义距离函数时我们将参数设置为0.1,此时距离函数值在(-1,1)区间内波动,同时奖励函数曲线的奖励值在(-1,1)的区间内变化,不破坏已经在MADDPG算法中求证了的机制稳定性,在这个条件下person-distance奖励机制是稳定的。捕食者i的奖励为:
ri=-0.1*D(i,p)+B+C
而逃逸者运动的速度较快,要在空间内与捕食者拉开距离,逃离距离自己最近的捕食者即为成功。所以不能考虑与环境中众多捕食者的距离之和,而是要考虑当前距捕食者的最小距离,只要逃离了离自己最近的捕食者,逃逸就是成功的。所以逃逸者p的奖励为:
rp=0.1*min(D(i,p))+B-C
至此,我们对奖励函数的改造完成。改造后需要对方法进行实验验证。
区别于监督学习等其他机器学习方法,强化学习算法的训练不需要数据集。一个好的强化学习算法表现在两个方面,一是随着训练次数的增加奖励值变化的曲线,相同的训练次数,奖励值高的算法训练效率越高;奖励值越快趋于某一特定值,收敛速度越快。二是智能体在环境中的表现,在训练过后智能体表现效果越好,算法的训练效率越高。在接下来的实验中,将现算法和原算法的奖励曲线以及智能体的实际表现进行对比,进行分析。
以无人机为例:将奖励机制加载到无人机的决策模块中,无人机通过雷达、传感器、导航系统等手段获得对抗双方的相对位置、飞行姿态、飞行方位、飞行速度信息、与己方无人机的相对距离信息,防止发生碰撞。当获得这些态势数据后,由多种传感器将无人机本身的姿态数据传回飞行控制系统。将上述奖励机制和算法加载到无人系统的控制模块的飞行控制软件中。根据无人系统的状态检测器获得的态势信息以及上述奖励机制,通过自主学习,由飞行控制模块完成机动决策。通过集群无人机的运动学方程,由执行机构完成动作和飞行姿态调整,并将结果传送到无人系统的状态检测器中。
以无人车为例:将奖励机制加载到无人车系统的决策模块的软件工程中。无人车通过各种传感器感知环境信息,常用的传感器包括摄像头、GPS、激光雷达和超声波雷达。摄像头来识别车道线信息,判断无人车与车道线的相对位置;GPS获取实时的位置信息和无人车行驶状态,包括航向角、车速;激光雷达检测车身周围障碍物的距离信息;超声波雷达布置在车身周围,对道路边缘检测。获取的无人车数据信息输入到无人车系统的决策模块中,通过增加奖励机制和学习算法下发最优的决策指令。决策指令包含:跟车、超车、加速、刹车、减速、转向、调头等等。根据决策模块下发的指令,无人车系统的控制模块对车辆实施具体的控制,其中包括:油门的控制、刹车的控制、方向盘的控制以及档位的控制。进而使无人车做出最优动作。
以机器人为例:将奖励机制加载到机器人系统决策模块中,机器人通过摄像机、红外测距传感器、超声波传感器、激光器等机电元器件来获得敌我双方的的位置坐标、朝向角、速度、周围障碍物位置坐标、机器人所属队伍以及各自编号。收集的数据作为决策模块的输入,机器人通过强化学习控制器中奖励机制和算法来实现对行为的评测,选择最优行为作为执行行为,同时还要考虑决策对己方机器人的影响及对方机器人可能存在的干扰,不断地优化强化学习来实现自主运动决策。控制系统依据决策层做出的决策来控制机器人硬件执行相应的动作。
实验所需的软件环境为windows10操作系统,Pycharm,TensorFlow,Tensorbord,gym;硬件环境为英特尔至强E78880v3*2型处理器、NVIDIA GTX 1080TI*3、64G内存;测试环境为DeepMind MultiAgent Actor-Critic for Mixed Cooperative-CompetitiveEnvironments,隐藏层为2层、隐藏单元个数为64的全连接神经网络构成的Actor、Critic网络以及对应的目标网络和估计网络。
我们选取有限空间内的围捕场景,实验空间为二维密闭有界空间,存在三个捕食者,一个逃逸者,逃逸者的速度和加速度均大于捕食者,捕食者目标是在最短时间内捕获逃逸者,所有智能体均只得到坐标信息。
在此场景中,有一个坐标[0,1]的二维平面,其中有3个速度相对较慢的捕食者,相互合作共同追捕1个速度较快的被捕食者。捕食者协作对逃逸者进行围捕,逃逸者单独逃逸。当捕食者和逃逸者发生碰撞即视为捕获者捕获成功,逃逸者对抗失败。
算法改进是以提升收敛速度的稳定性为目标,与此同时不能降低捕食者的捕获效果。为研究改进后算法的适应性,我们让捕食者分别采取MADDPG算法、和改进奖励机制后的MADDPG算法以及DDPG算法来进行学习训练。图6是经过25000轮训练后,多智能体学习到的策略在1000轮,50000步随机试验下,捕食者执行每步动作后的平均碰撞次数。对比其他两种训练算法,我们可以看到改进后的算法捕获效果更好,平均碰撞次数提高了。
对4个智能体的环境,进行45000步的训练,根据每个捕食者和逃逸者的奖励值与训练次数之间的关系,利用tensorflow自带可视化工具tensorboard描绘出MADDPG算法奖励机制和改进后的person-distance奖励机制对比曲线图。
图2、图3、图4分别是是捕食者1、2、3的奖励函数曲线图,可以看出,因为距离参数的引入,与在逃逸者的距离增大时捕食者的奖励回报值减小,导致整体回报值降低,奖励函数曲线出现下移;随着碰撞次数的增多,更多的直接奖励值开始叠加,使得奖励曲线下降趋势减缓并稳定下来。在改变奖励机制后,算法的收敛速度取得较大提升,在5000轮左右奖励值趋于平稳,奖励值在[2,4]区间内缓慢波动。捕食者奖励函数的收敛性、算法的稳定性提升十分明显。
如图5所示,由于捕食者捕获效果的提升,逃逸者获得的负奖励(也称为惩罚)大大增加,导致奖励函数值减小。相比较于捕食者收敛速度的明显改善,逃逸者奖励值的收敛速度改善效果不够突出,这是因为逃逸者要计算与捕食者中的最小距离,当离自己的最近的捕食者更换时,策略网络要重新计算最小距离,更新步长较大,收敛性会打折扣。
二者的奖励值拐点都处于12000步左右。在原来奖励机制下,逃逸者奖励函数的稳定性较差,奖励值在[-6,-15]的较大域值内上下浮动,函数曲线震荡幅度很大。引入person-distance奖励机制后,曲线波动幅度见减小,函数值在[-12,-16]的区间内变化,收敛性也有所提升。新的奖励机制对于逃逸者函数也有改进作用。
当我们将竞争环境下围猎问题中的所有智能体整合在一起研究时,需要对所有智能体的奖励值进行叠加,绘制出奖励值总和与训练轮步数的曲线。如图6所示。从图中可以明显的看出在引入person-distance奖励机制后,智能体的奖励值曲线较早的进入到小区间波动,而原算法中奖励值曲线在大范围波动,收敛性不明显。所以,改进后的算法收敛性以及稳定性得到了提升。我们达到了在竞争对抗环境下的围猎问题中改进奖励函数、提高算法的收敛性、稳定性的目的。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种提高MADDPG算法收敛速度的方法,其特征在于,
获取多智能体环境;
依据多智能体环境加载MADDPG算法训练框架;
依据MADDPG算法训练框架获取训练参数,将训练参数输入到引入距离参数奖励机制的奖励函数中,进行网络更新,保存训练结果。
2.根据权利要求1所述的提高MADDPG算法收敛速度的方法,其特征在于,所述多智能体环境包括Actor网络和Critic网络,其中,
Actor网络表示为:
Actor网络
Figure FDA0002825830170000011
Critic网络表示为:
Critic网络
Figure FDA0002825830170000012
target-net表示目标网络,eval-net表示估计网络,Actor网络是卷积神经网络对μ函数的模拟,参数为θμ,μ函数表示智能体采用的确定性策略函数,s表示状态信息;Critic网络是对Q函数的模拟,Critic网络加入了卷积神经网络,参数为θQ,Q函数表示决定奖励值大小的函数,a表示策略动作。
3.根据权利要求1所述的提高MADDPG算法收敛速度的方法,其特征在于,所述引入距离参数奖励机制的奖励函数包括:
捕食者i的奖励函数为:
ri=-0.1*D(i,p)+B+C
逃逸者p的奖励为:
rp=0.1*min(D(i,p))+B-C
其中,捕食者与逃逸者之间的距离D(i,p)为:
Figure FDA0002825830170000021
碰撞奖励C为:
Figure FDA0002825830170000022
边界奖励为:
Figure FDA0002825830170000023
4.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至3所述的方法中的任一方法。
5.一种计算设备,其特征在于:包括,
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至7所述的方法中的任一方法的指令。
6.一种集群无人系统,其特征在于,将权利要求1-3任意一项所述的方法应用到集群无人系统竞争环境下的奖励机制中。
7.根据权利要求6所述的集群无人系统,其特征在于,将所述奖励机制加载到无人机、无人车或者机器人的决策模块中。
CN202011428745.XA 2020-12-09 2020-12-09 一种提高maddpg算法收敛速度的方法及其应用 Pending CN112651486A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011428745.XA CN112651486A (zh) 2020-12-09 2020-12-09 一种提高maddpg算法收敛速度的方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011428745.XA CN112651486A (zh) 2020-12-09 2020-12-09 一种提高maddpg算法收敛速度的方法及其应用

Publications (1)

Publication Number Publication Date
CN112651486A true CN112651486A (zh) 2021-04-13

Family

ID=75350447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011428745.XA Pending CN112651486A (zh) 2020-12-09 2020-12-09 一种提高maddpg算法收敛速度的方法及其应用

Country Status (1)

Country Link
CN (1) CN112651486A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113805568A (zh) * 2021-08-17 2021-12-17 北京理工大学 基于多智能体时空建模与决策的人机协同感知方法
CN114734446A (zh) * 2022-05-10 2022-07-12 南京理工大学 基于改进的强化学习算法的机械手高精度位置控制方法
CN113645589B (zh) * 2021-07-09 2024-05-17 北京邮电大学 一种基于反事实策略梯度的无人机集群路由计算方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110891276A (zh) * 2019-10-30 2020-03-17 中国人民解放军陆军工程大学 多用户抗干扰信道接入系统及动态频谱协同抗干扰方法
CN110991972A (zh) * 2019-12-14 2020-04-10 中国科学院深圳先进技术研究院 一种基于多智能体强化学习的货物运输系统
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110891276A (zh) * 2019-10-30 2020-03-17 中国人民解放军陆军工程大学 多用户抗干扰信道接入系统及动态频谱协同抗干扰方法
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
CN110991972A (zh) * 2019-12-14 2020-04-10 中国科学院深圳先进技术研究院 一种基于多智能体强化学习的货物运输系统
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
何明 等: "《MADDPG算法经验优先抽取机制研究》", 《HTTP://KNS.CNKI.NET/KCMS/DETAIL/21.1124.TP.20190827.1635.012.HTML》 *
刘坤 等: "《基于强化学习算法的智能体路径寻优》", 《2019第七届中国指挥控制大会论文集》 *
黄思宇: "《MADDPG算法经验优先抽取机制研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113645589B (zh) * 2021-07-09 2024-05-17 北京邮电大学 一种基于反事实策略梯度的无人机集群路由计算方法
CN113805568A (zh) * 2021-08-17 2021-12-17 北京理工大学 基于多智能体时空建模与决策的人机协同感知方法
CN113805568B (zh) * 2021-08-17 2024-04-09 北京理工大学 基于多智能体时空建模与决策的人机协同感知方法
CN114734446A (zh) * 2022-05-10 2022-07-12 南京理工大学 基于改进的强化学习算法的机械手高精度位置控制方法

Similar Documents

Publication Publication Date Title
CN113589842B (zh) 一种基于多智能体强化学习的无人集群任务协同方法
CN112947581B (zh) 基于多智能体强化学习的多无人机协同空战机动决策方法
De Souza et al. Decentralized multi-agent pursuit using deep reinforcement learning
CN111880563B (zh) 一种基于maddpg的多无人机任务决策方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
CN112947562B (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN111580544B (zh) 一种基于强化学习ppo算法的无人机目标跟踪控制方法
Ma et al. Multi-robot target encirclement control with collision avoidance via deep reinforcement learning
CN113900445A (zh) 基于多智能体强化学习的无人机协同控制训练方法及系统
CN113791634A (zh) 一种基于多智能体强化学习的多机空战决策方法
CN114460959A (zh) 一种基于多体博弈的无人机群协同自主决策方法及装置
CN114489144B (zh) 无人机自主机动决策方法、装置及无人机
Hao et al. Independent generative adversarial self-imitation learning in cooperative multiagent systems
CN113268078A (zh) 一种无人机群自适应环境的目标追踪围捕方法
CN112198892A (zh) 一种多无人机智能协同突防对抗方法
CN116360503B (zh) 一种无人机博弈对抗策略生成方法、系统及电子设备
Wang et al. UAV swarm confrontation using hierarchical multiagent reinforcement learning
Wang et al. Unmanned surface vessel obstacle avoidance with prior knowledge‐based reward shaping
CN116362289A (zh) 一种基于BiGRU结构的改进MATD3多机器人协同围捕方法
CN116136945A (zh) 一种基于反事实基线的无人机集群对抗博弈仿真方法
CN116661503A (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
Shen Bionic communication network and binary pigeon-inspired optimization for multiagent cooperative task allocation
Zhang et al. Situational continuity-based air combat autonomous maneuvering decision-making

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210413

RJ01 Rejection of invention patent application after publication