CN112651486A

CN112651486A - 一种提高maddpg算法收敛速度的方法及其应用

Info

Publication number: CN112651486A
Application number: CN202011428745.XA
Authority: CN
Inventors: 张婷婷; 董会
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-04-13

Abstract

本发明公开了一种提高MADDPG算法收敛速度的方法及其应用，获取多智能体环境；依据多智能体环境加载MADDPG算法训练框架；依据MADDPG算法训练框架获取训练参数，将训练参数输入到引入距离参数奖励机制的奖励函数中，进行网络更新，保存训练结果。优点：本发明在引入person‑distance个体‑距离奖励机制后，由于距离参数的加入，使得贝尔曼方程每次更新时，单个智能体采取动作后得到的奖励值变化明显，这奖励值因为捕食者和逃逸者之间的距离不断变化而变化，Critic网络在策略更新时能更好的识别出不同动作值之间奖励值的差异，有效的解决了延迟奖励问。

Description

一种提高MADDPG算法收敛速度的方法及其应用

技术领域

本发明涉及一种提高MADDPG算法收敛速度的方法及其应用，属于无人系统技术领域。

背景技术

集群无人系统是近年来国内外军事领域的研究重点，正在推动无人作战样式由“单平台遥控作战”向“智能集群作战”发展。随着人工智能技术的发展和运用，集群无人系统作战将可能成为战场上的一种重要作战样式。在动态的战场环境下，集群无人系统需要解决个体之间的协同以及对抗问题，提高系统的对抗性能，而多智能体强化学习旨在解决智能体的行为自主决策问题，正确的引入强化学习算法有助于提高集群无人系统的行为自主性。

奖励问题是多智能体强化学习解决实际任务的核心问题。强化学习的奖励类型有很多种，例如二元奖励、稀疏奖励等。因为更符合实际应用，在多智能体的研究中普遍采用稀疏奖励。区别于机器学习中的监督学习，强化学习不需要提供训练数据集。在监督学习中需要训练数据集来提供监督信号，在强化学习中，奖励函数承担了监督信号的作用，智能体依据奖励值进行策略优化。MADDPG算法中的奖励即为稀疏奖励，在合作和竞争两种环境下探讨，不同环境下的奖励机制各不相同。

围捕逃逸问题是多智能体强化学习竞争环境中的经典问题，是多智能体竞争对抗环境的典型代表，同时还包含简单合作的特点。选取MADDPG算法中的围捕逃逸问题来进行研究具有代表性。原算法在围捕环境下的奖励信号设置较为简单，在训练过程中，由于奖励信号变化不明显，导致智能体采用策略梯度方法进行探索时成功样本数量很少，需要很长的训练时间才能达到最优策略，所以算法稳定性和收敛性表现较差。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种提高MADDPG算法收敛速度的方法及其应用。

为解决上述技术问题，本发明提供一种提高MADDPG算法收敛速度的方法，获取多智能体环境；

依据多智能体环境加载MADDPG算法训练框架；

依据MADDPG算法训练框架获取训练参数，将训练参数输入到引入距离参数奖励机制的奖励函数中，进行网络更新，保存训练结果。

进一步的，所述多智能体环境包括Actor网络和Critic网络，其中，

Actor网络表示为：

Critic网络表示为：

target-net表示目标网络，eval-net表示估计网络，Actor网络是卷积神经网络对μ函数的模拟，参数为θ^μ,μ函数表示智能体采用的确定性策略函数，s表示状态信息；Critic网络是对Q函数的模拟，Critic网络加入了卷积神经网络,参数为θ^Q，Q函数表示决定奖励值大小的函数,a表示策略动作。

进一步的，所述引入距离参数奖励机制的奖励函数包括：

捕食者i的奖励函数为:

r_i＝-0.1*D(i,p)+B+C

逃逸者p的奖励为：

r_p＝0.1*min(D(i,p))+B-C

其中，捕食者与逃逸者之间的距离D(i,p)为：

碰撞奖励C为：

边界奖励为：

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至3所述的方法中的任一方法。

一种计算设备，包括，

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至7所述的方法中的任一方法的指令。

一种集群无人系统，其将所述的方法应用到集群无人系统竞争环境下的奖励机制中。

进一步的，将所述奖励机制加载到无人机、无人车或者机器人的决策模块中。

本发明所达到的有益效果：

本发明在引入person-distance个体-距离奖励机制后，由于距离参数的加入，使得贝尔曼方程每次更新时，单个智能体采取动作后得到的奖励值变化明显，这奖励值因为捕食者和逃逸者之间的距离不断变化而变化，Critic网络在策略更新时能更好的识别出不同动作值之间奖励值的差异，有效的解决了延迟奖励问题。

附图说明

图1是本发明的流程示意图；

图2是捕食者1奖励函数曲线图；

图3是捕食者2奖励函数曲线图；

图4是捕食者3奖励函数曲线图；

图5是逃逸者奖励函数曲线图；

图6是奖励函数曲线总和图；

图7是MADDPG算法训练框架图；

图8是MADDPG算法训练执行流程简图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明提高一种提高MADDPG算法收敛速度的方法，包括如下步骤：

1.搭建多智能体环境。

本实施例中智能体所处的环境为envs智能体的环境，环境中包含了N个智能体，N个智能体所采取的行为策略定义为集合π，π＝{π₁,π₂…π_N}，各个策略由神经网络表示。同样的，定义a＝{a₁,a₂…a_N}为智能体行为动作的集合，S＝{S₁,S₂…S_N}是智能体所处状态的集合，所有智能体的参数集合定义为θ＝{θ₁,θ₂…θ_N}。假设智能体每次采用的确定性策略为μ，每一步的动作都可以通过公式：a_t＝μ(S_t)获得，而执行某一策略后获得的奖励，奖励值大小由Q函数决定。算法在以下约束条件下运行：

1)学习的策略只能在执行时只能使用本地信息，即它们自己的观察结果，与其他智能体的观察结果无关；

2)无需知道环境的可微分动力学模型，环境是未知的，智能体无法预测奖励以及采取行为后的状态，自身的行为仅仅取决于策略；

3)忽略智能体之间的通信方法，不对智能体之间的可区分的通信渠道进行假设。

满足上述条件后，算法的通用性将大大提升，将适用于在含有确定的通信方式下的竞争、合作博弈。

2.确定算法训练执行流程

算法执行过程如图8所示，当模型训练好后，只需要两个actor(执行者)与环境交互，即只需要实线的循环部分。这里区别于单个agent智能体的情况，每个agent的输入状态是不一样的。环境输出下一个全信息状态S_all后，actor₁和actor₂只能获取自己能够观测到的部分状态信息S₁,S₂。而在训练过程中，critic₁和critic₂可以获得全信息状态，同时还能获得两个agent采取的策略动作a₁,a₂。换言之，actor网络虽然不能看到全部的环境状态信息，也不能知晓其他智能体的策略，但是每个智能体的actor网络有一个拥有全部视角的导师，这个导师可以观测到所有信息，并指导对应的actor网络优化策略。

3.智能体采用Actor-Critic网络更新方式

在环境evns中，智能体均由Actor网络动作网络、Critic网络评价网络组成，在Actor和Critic中又各自含有目标网络(target-net)和估计网络(eval-net)。Actor网络是卷积神经网络对μ函数的模拟，参数为θ^μ。Critic网络是对Q函数的模拟，加入了卷积神经网络,参数为θ^Q。

MADDPG算法训练框架如图7所示。

其中，Actor网络可表示为：

Critic网络可表示为：

在训练过程中只需要估计网络(eval-net)的参数,而目标网络(target-net)的参数由估计网络每隔一定时间直接复制。依据算法核心思想，在训练的时候，引入可观察全局的Critic网络来指导Actor训练，而执行的时候只使用有局部观测的Actor采取行动。假设存在智能体i，智能体采取的动作为：

在与环境交互后，获得经验

并存储起来。等到所有智能体与环境交互后，每个智能体随机抽取存储的行为经验加入到策略网络中进行训练。智能体的学习速度比较慢，为了提高学习效率，我们在Critic网络中添加其余的智能体通过观察获得的状态信息和智能体自身采取的行为动作。信息定义为：Q＝Q{S_j,a₁,a₂…a_N,θ^Q}其中

经过上述步骤，Critic网络参数在更新时损失将大大减小，计算更新时的损失的公式为：

之后动作网络也将完成更新，网络参数的计算要与梯度下降法结合，计算公式为：

4.在逃逸者的奖励函数中引入距离参数

距离参数是指是每个智能体与目标之间的距离,捕食者距离目标的距离越小，奖励越大。原算法中，没有对逃逸者引入距离参数，这样一来虽然可以增加捕食者捕获效果，但此时的逃逸者不如逃逸者“智能”，这样的对抗环境是不公平的，会损害捕食者的训练效果。我们通过代码修改，在函数中令逃逸者可以根据距离来进行判断。

5.每个捕食者单独计算与逃逸者之间的距离

在原算法中，捕食者的距离参数是计算捕食者和逃逸者的平均距离，目的是为了考虑协同。但要看到，捕食者的捕食目标是：多个智能体的个体只要有一个与逃逸者的距离最小或者碰撞，即视为捕食成功。因此此处无须考虑部分智能体为完成整体任务而牺牲个人的更高智能的协同合作。我们需要在代码中，将捕食者的奖励函数的距离参数修改为捕食者自己与逃逸者之间的距离。此时捕食者间的合作变成每个智能体模仿奖励值最高的“最佳选手”的行为动作，即每个智能体采取了贪心策略。

为了对奖励函数进行进一步剖析，给出一个具体的实施例，在MADDPG算法的3V1围猎场景下，捕食者的奖励取决于是否发生碰撞。捕食者与逃逸者之间的距离为：

当捕食者碰撞被捕食者(即捕获成功)时，捕食者会收获较大的奖励，同时，被捕食者收获较大的惩罚(负值奖励)。即碰撞奖励为：

为维持环境的正常运行，防止因智能体逃出边界而难以学习到较好的策略，对逃出边界的智能体,施加较大的惩罚，惩罚大小取决于远离边界的程度。以捕食者为例，边界奖励为：

在原算法中，捕食者的奖励公式为：

r_i＝B+C

被捕食的奖励公式为：

r_p＝B-C

我们设计出person-distance奖励机制，在这个机制下，没有发生碰撞时的奖励值可以随着距离参数而改变。在定义距离函数时我们将参数设置为0.1，此时距离函数值在(-1,1)区间内波动，同时奖励函数曲线的奖励值在(-1,1)的区间内变化，不破坏已经在MADDPG算法中求证了的机制稳定性,在这个条件下person-distance奖励机制是稳定的。捕食者i的奖励为:

r_i＝-0.1*D(i,p)+B+C

而逃逸者运动的速度较快，要在空间内与捕食者拉开距离，逃离距离自己最近的捕食者即为成功。所以不能考虑与环境中众多捕食者的距离之和，而是要考虑当前距捕食者的最小距离，只要逃离了离自己最近的捕食者，逃逸就是成功的。所以逃逸者p的奖励为：

r_p＝0.1*min(D(i,p))+B-C

至此，我们对奖励函数的改造完成。改造后需要对方法进行实验验证。

区别于监督学习等其他机器学习方法，强化学习算法的训练不需要数据集。一个好的强化学习算法表现在两个方面，一是随着训练次数的增加奖励值变化的曲线，相同的训练次数，奖励值高的算法训练效率越高；奖励值越快趋于某一特定值，收敛速度越快。二是智能体在环境中的表现，在训练过后智能体表现效果越好，算法的训练效率越高。在接下来的实验中，将现算法和原算法的奖励曲线以及智能体的实际表现进行对比，进行分析。

以无人机为例：将奖励机制加载到无人机的决策模块中，无人机通过雷达、传感器、导航系统等手段获得对抗双方的相对位置、飞行姿态、飞行方位、飞行速度信息、与己方无人机的相对距离信息，防止发生碰撞。当获得这些态势数据后，由多种传感器将无人机本身的姿态数据传回飞行控制系统。将上述奖励机制和算法加载到无人系统的控制模块的飞行控制软件中。根据无人系统的状态检测器获得的态势信息以及上述奖励机制，通过自主学习，由飞行控制模块完成机动决策。通过集群无人机的运动学方程，由执行机构完成动作和飞行姿态调整，并将结果传送到无人系统的状态检测器中。

以无人车为例：将奖励机制加载到无人车系统的决策模块的软件工程中。无人车通过各种传感器感知环境信息，常用的传感器包括摄像头、GPS、激光雷达和超声波雷达。摄像头来识别车道线信息，判断无人车与车道线的相对位置；GPS获取实时的位置信息和无人车行驶状态，包括航向角、车速；激光雷达检测车身周围障碍物的距离信息；超声波雷达布置在车身周围，对道路边缘检测。获取的无人车数据信息输入到无人车系统的决策模块中，通过增加奖励机制和学习算法下发最优的决策指令。决策指令包含：跟车、超车、加速、刹车、减速、转向、调头等等。根据决策模块下发的指令，无人车系统的控制模块对车辆实施具体的控制，其中包括：油门的控制、刹车的控制、方向盘的控制以及档位的控制。进而使无人车做出最优动作。

以机器人为例：将奖励机制加载到机器人系统决策模块中，机器人通过摄像机、红外测距传感器、超声波传感器、激光器等机电元器件来获得敌我双方的的位置坐标、朝向角、速度、周围障碍物位置坐标、机器人所属队伍以及各自编号。收集的数据作为决策模块的输入，机器人通过强化学习控制器中奖励机制和算法来实现对行为的评测，选择最优行为作为执行行为，同时还要考虑决策对己方机器人的影响及对方机器人可能存在的干扰，不断地优化强化学习来实现自主运动决策。控制系统依据决策层做出的决策来控制机器人硬件执行相应的动作。

实验所需的软件环境为windows10操作系统，Pycharm，TensorFlow，Tensorbord，gym；硬件环境为英特尔至强E78880v3*2型处理器、NVIDIA GTX 1080TI*3、64G内存；测试环境为DeepMind MultiAgent Actor-Critic for Mixed Cooperative-CompetitiveEnvironments，隐藏层为2层、隐藏单元个数为64的全连接神经网络构成的Actor、Critic网络以及对应的目标网络和估计网络。

我们选取有限空间内的围捕场景，实验空间为二维密闭有界空间，存在三个捕食者，一个逃逸者，逃逸者的速度和加速度均大于捕食者，捕食者目标是在最短时间内捕获逃逸者，所有智能体均只得到坐标信息。

在此场景中，有一个坐标[0,1]的二维平面，其中有3个速度相对较慢的捕食者，相互合作共同追捕1个速度较快的被捕食者。捕食者协作对逃逸者进行围捕，逃逸者单独逃逸。当捕食者和逃逸者发生碰撞即视为捕获者捕获成功，逃逸者对抗失败。

算法改进是以提升收敛速度的稳定性为目标，与此同时不能降低捕食者的捕获效果。为研究改进后算法的适应性，我们让捕食者分别采取MADDPG算法、和改进奖励机制后的MADDPG算法以及DDPG算法来进行学习训练。图6是经过25000轮训练后，多智能体学习到的策略在1000轮，50000步随机试验下，捕食者执行每步动作后的平均碰撞次数。对比其他两种训练算法，我们可以看到改进后的算法捕获效果更好，平均碰撞次数提高了。

对4个智能体的环境，进行45000步的训练，根据每个捕食者和逃逸者的奖励值与训练次数之间的关系，利用tensorflow自带可视化工具tensorboard描绘出MADDPG算法奖励机制和改进后的person-distance奖励机制对比曲线图。

图2、图3、图4分别是是捕食者1、2、3的奖励函数曲线图，可以看出，因为距离参数的引入，与在逃逸者的距离增大时捕食者的奖励回报值减小，导致整体回报值降低，奖励函数曲线出现下移；随着碰撞次数的增多，更多的直接奖励值开始叠加，使得奖励曲线下降趋势减缓并稳定下来。在改变奖励机制后，算法的收敛速度取得较大提升，在5000轮左右奖励值趋于平稳，奖励值在[2,4]区间内缓慢波动。捕食者奖励函数的收敛性、算法的稳定性提升十分明显。

如图5所示，由于捕食者捕获效果的提升，逃逸者获得的负奖励(也称为惩罚)大大增加，导致奖励函数值减小。相比较于捕食者收敛速度的明显改善，逃逸者奖励值的收敛速度改善效果不够突出，这是因为逃逸者要计算与捕食者中的最小距离，当离自己的最近的捕食者更换时，策略网络要重新计算最小距离，更新步长较大，收敛性会打折扣。

二者的奖励值拐点都处于12000步左右。在原来奖励机制下，逃逸者奖励函数的稳定性较差，奖励值在[-6,-15]的较大域值内上下浮动，函数曲线震荡幅度很大。引入person-distance奖励机制后，曲线波动幅度见减小，函数值在[-12,-16]的区间内变化，收敛性也有所提升。新的奖励机制对于逃逸者函数也有改进作用。

当我们将竞争环境下围猎问题中的所有智能体整合在一起研究时，需要对所有智能体的奖励值进行叠加，绘制出奖励值总和与训练轮步数的曲线。如图6所示。从图中可以明显的看出在引入person-distance奖励机制后，智能体的奖励值曲线较早的进入到小区间波动，而原算法中奖励值曲线在大范围波动，收敛性不明显。所以，改进后的算法收敛性以及稳定性得到了提升。我们达到了在竞争对抗环境下的围猎问题中改进奖励函数、提高算法的收敛性、稳定性的目的。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种提高MADDPG算法收敛速度的方法，其特征在于，

获取多智能体环境；

依据多智能体环境加载MADDPG算法训练框架；

2.根据权利要求1所述的提高MADDPG算法收敛速度的方法，其特征在于，所述多智能体环境包括Actor网络和Critic网络，其中，

Actor网络表示为：

Actor网络

Critic网络表示为：

Critic网络

target-net表示目标网络，eval-net表示估计网络，Actor网络是卷积神经网络对μ函数的模拟，参数为θ^μ,μ函数表示智能体采用的确定性策略函数,s表示状态信息；Critic网络是对Q函数的模拟，Critic网络加入了卷积神经网络,参数为θ^Q，Q函数表示决定奖励值大小的函数，a表示策略动作。

3.根据权利要求1所述的提高MADDPG算法收敛速度的方法，其特征在于，所述引入距离参数奖励机制的奖励函数包括：

捕食者i的奖励函数为:

r_i＝-0.1*D(i,p)+B+C

逃逸者p的奖励为：

r_p＝0.1*min(D(i,p))+B-C

其中，捕食者与逃逸者之间的距离D(i,p)为：

碰撞奖励C为：

边界奖励为：

4.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至3所述的方法中的任一方法。

5.一种计算设备，其特征在于：包括，

6.一种集群无人系统，其特征在于，将权利要求1-3任意一项所述的方法应用到集群无人系统竞争环境下的奖励机制中。

7.根据权利要求6所述的集群无人系统，其特征在于，将所述奖励机制加载到无人机、无人车或者机器人的决策模块中。