CN113218400B

CN113218400B - 一种基于深度强化学习的多智能体导航算法

Info

Publication number: CN113218400B
Application number: CN202110533403.2A
Authority: CN
Inventors: 张春美; 白维松; 郭红戈; 邵杨; 郑康智; 张京
Original assignee: Taiyuan University of Science and Technology
Current assignee: Taiyuan University of Science and Technology
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2022-04-19
Anticipated expiration: 2041-05-17
Also published as: CN113218400A

Abstract

本发明属于多智能体强化学习技术领域，具体技术方案为：一种基于深度强化学习的多智能体导航算法：一、建模：将智能体速度和角速度均进行限定，定义智能体当前时刻的速度信息、低维环境特征；二、重要性采样，确定最终目标函数；三、置入奖惩函数，通过奖惩函数指导智能体所选择行为好坏的评价标准；该算法将A*算法融合到PPO算法中，利用设计的奖惩函数实现两种算法的深度融合，智能体通过输入传感器原始图像数据，决策规划出最佳行动路径，到达目标点，本算法在不同场景中的成功率、耗时、距离和平均速度等方面均很优秀，并且通过改变场景、增加智能体数量等方式证明了该算法具有良好的迁移能力，通过迁移到更复杂的场景下满足不同的需求。

Description

一种基于深度强化学习的多智能体导航算法

技术领域

本发明属于多智能体强化学习技术领域，具体涉及一种基于深度强化学习的多智能体导航算法。

背景技术

随着科学技术的不断发展进步，多智能体在协同导航领域的应用范围越来越大。如在自动化分拣仓库中，通过多AGV调度与路径规划，不但可以使工作高效方便管理，而且可以节省人力节省成本。面对这种高强度重复性的工作，智能体可以利用它的优势，代替人类进行工作，而在多智能体系统中，每个智能体都是环境中的一部分，单个智能体相对于其他智能体既是协作伙伴，也是移动的障碍物，如何使多个智能体协同避障达到目标点成为当前需要解决的一个重要问题。当前的一些多智能体导航算法，随着智能体数量增加而造成更加凸显的维数灾难和更复杂的计算，且在成功率等方面并不理想。

发明内容

为解决现有技术存在的技术问题，本发明提供了一种多智能体导航算法，混合A*近端策略优化(A-Star Proximal Policy Optimization，ASPPO)算法，该算法将A*算法与近端策略优化(Proximal Policy Optimization，PPO)算法结合，使智能体解决端到端的未知环境下的导航问题。

为实现上述目的，本发明所采用的技术方案为：一种基于深度强化学习的多智能体导航算法：

一、建模

将智能体速度和角速度均进行限定，智能体当前时刻的速度信息v_t定义为：

v_t＝f(c_t,g_t,v_t-1) (1)

c_t为环境信息，g_t为目标信息，v_t-1为上一时刻的速度；

将扫描仪得到的图像信息进行特征提取，通过卷积神经网络训练得到低维环境特征x_t，x_t定义为：

x_t＝g(c_t) (2)

v_t＝f'(x_t,g_t,v_t-1) (3)

二、重要性采样：

x～p时，

称为重要性权重，f(x)的数学期望看作

的数学期望，从p分布中采样数据变成从q分布中采样数据；

E_x～p[f(x)]代表从分布p中取样本x送入f(x)并求期望：

Var_x～p[f(x)]＝E_x～p[f(x)²]-(E_x～p[f(x)])² (5)

目标函数为：

a_t为t时刻的动作，s_t为t时刻的状态，A^θ'为衡量在状态s_t下采取动作a_t回报的优势函数，θ'采集的样本输入到θ里面进行训练；

ASPPO期望奖励的最终目标函数为：

手动设置β值，KL为阈值；

三、加入奖惩函数

奖惩函数的具体定义为：

r_t＝r_decision+r_condition+r_time (9)

其中，

r_time<0 (12)

r_t为总得分，r_decision为智能体主动选择算法得到的奖励分数，r_condition为碰撞分数，r_time为消耗时间扣除的分数，r₀为选择A*算法得到的奖励分数，r_negative为智能体发生碰撞扣除的分数，r_positive为到达目标点得到的奖励分数。

奖惩函数是指导智能体所选择行为好坏的评价标准，代表智能体所使用策略的价值。奖惩函数设计的好坏会直接影响学习到的策略的优劣，本发明在ASPPO算法中设计了奖惩函数。

本发明解决了基于ASPPO算法的多智能体在未知环境下端到端导航问题，该算法将A*算法融合到PPO算法中，利用设计的奖惩函数实现两种算法的深度融合。智能体通过输入传感器原始图像数据，决策规划出最佳行动路径，到达目标点，并与MAPP-RL算法以及MRFQ算法在同样环境下进行对比，实验表明，本发明的ASPPO算法在不同场景中的成功率、耗时、距离和平均速度等方面均优于其他算法。并且通过改变场景、增加智能体数量和不改变算法参数等方式证明了该算法具有良好的迁移能力，可通过迁移到更复杂的场景下满足不同的需求。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合具体实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一种基于深度强化学习的多智能体导航算法，智能体通过接收环境信息和目标信息躲避障碍和避免彼此碰撞到达目标点，由于将智能体速度和角速度均限定在一定范围内，所以智能体当前时刻的速度信息v_t可以用上一时刻的速度v_t-1来表示，环境信息用c_t表示，目标信息用g_t表示，从而该任务可以定义为：

v_t＝f(c_t,g_t,v_t-1) (1)

由于环境信息是由智能体通过激光扫描仪得到的三维RGB图像，涉及到巨大的维度问题，计算复杂，所以将扫描仪得到的图像信息进行特征提取，通过卷积神经网络(Convolutional Neural Networks,CNN)训练得到低维环境特征x_t，从而该任务可以重新定义为:

x_t＝g(c_t) (2)

v_t＝f'(x_t,g_t,v_t-1) (3)

在该任务中，智能体通过传感器原始数据直接转化为决策行为，实现了多智能体无通信端到端的路径规划，该算法先用神经网络对输入特征进行提取，再使用强化学习寻找到达目标点的最佳无碰撞路线，无需知道环境信息与决策行为之间的具体映射关系，并降低了计算量。

具体算法：

策略梯度(Policy Gradient，PG)算法通过计算策略梯度估计，使用随机梯度上升算法，得到一个最优策略。近端策略优化(Proximal Policy Optimization，PPO)算法是一种新型的PG算法，PG算法对步长十分敏感，但是又难以选择合适的步长，在训练过程中新旧策略的变化差异如果过大则不利于学习。ASPPO算法提出了新的目标函数可以在多个训练步骤实现小批量的更新，解决了PG算法中步长难以确定的问题。

ASPPO算法用π_θ来表示参数为θ的学习策略，将总奖励的期望设为目标函数J(θ)，ASPPO算法目标便是优化目标函数使得J(θ)取最大值。

传统的强化学习策略是on-policy的，即与环境交互的策略π_θ和需要更新的策略π_θ是同一个策略，当策略π_θ更新后，之前采样得到的数据又要重新采样，这样采样效率低下，因此改进后出现另一个策略π_θ'与环境发生交互，从而使π_θ更新后，通过π_θ'采样得到的数据可以又继续用于π_θ，这样的策略称为off-policy策略。

重要性采样(Important Sampling)：

即x～p时f(x)的数学期望可以看作x～q时

的数学期望，此时，从p分布中采样数据变成从q分布中采样数据只需要在后面乘一个权重

则

称为重要性权重(Important Weight)。

其中，E_x～p[f(x)]代表从分布p中取样本x送入f(x)并求期望。

Var_x～p[f(x)]＝E_x～p[f(x)²]-(E_x～p[f(x)])² (5)

从公式4、5和6可以看出，虽然两者期望值一样，但是他们的方差却不同，两式的区别在于x～q时多了一项

所以在采样时必须保证p(x)和q(x)的分布相近，才能保证两者方差的差距不会太大。

目标函数为：

其中，a_t为t时刻的动作，s_t为t时刻的状态，A^θ'也叫优势函数，为衡量在状态s_t下采取动作a_t的回报。

上式便可实现将θ'采集的样本输入到θ里面进行训练，这样就可以更新很多次参数而只需采集一次样本。

KL散度(Kullback-Leibler Divergence)指p分布和q分布的相对熵，即使用不正确的q分布替代真实p分布时产生的额外代价。当且仅当两个分布一致时，KL散度才为0，否则总是大于0的。

ASPPO期望奖励的最终目标函数为：

其中，β和学习率类似需手动设置，KL为阈值，在实际中，我们会动态改变对θ和θ'分布差异的惩罚，如果KL散度值太大，我们增加这一部分惩罚，如果小到一定值，我们就减小这一部分的惩罚。

在ASPPO算法中，用KL散度来衡量π_θ与π_θ'的偏离程度，期望两者总是接近的。

奖惩函数：

奖惩函数是指导智能体所选择行为好坏的评价标准，代表智能体所使用策略的价值，奖惩函数设计的好坏会直接影响学习到的策略的优劣，本发明ASPPO算法中设计了奖惩函数：

r_t＝r_decision+r_condition+r_time (9)

其中，

r_time<0 (12)

其中，r_t为总得分，r_decision为智能体主动选择算法得到的奖励分数，r_condition为碰撞分数，r_time为消耗时间扣除的分数，r₀为选择A*算法得到的奖励分数，r_negative为智能体发生碰撞扣除的分数，r_positive为到达目标点得到的奖励分数。

在对环境的探索当中，当智能体距离目标点较近且周围环境较简单时，有一定概率选择使用A*算法较快搜索到目标点的最优路径，从而减少探索次数，此时，给智能体加一个正分数奖励r_decision，鼓励智能体在下次遇到相似情况下优先使用速度较快的A*算法。在多智能体路径规划中，智能体间彼此既合作又竞争，因此会发生彼此碰撞或者撞到障碍物，为了避免碰撞，当智能体发生碰撞时，给智能体减少一个比较大分数r_negative，对智能体进行惩罚，下次再遇到相似情况就会选择其他路径进行避让。同样，当智能体到达目标点时，给智能体增加一个比较大的分数r_positive，告诉智能体到达目标点是一个很重要的任务。由于需要寻找的路径为最优路径，浪费时间的绕路行为也是不被允许的，因此每一个时间步都会添加一个负分数惩罚r_time，耗费的时间越久，减少的分数越多，鼓励智能体以最短的时间到达目标点。

基于ASPPO算法的多智能体在未知环境下端到端导航问题，该算法将A*算法融合到PPO算法中，利用设计的奖惩函数实现两种算法的深度融合。所研究的智能体通过输入传感器原始图像数据，决策规划出最佳行动路径，到达目标点，并与MAPP-RL算法以及MRFQ算法在同样环境下进行对比，实验表明，本发明研究的ASPPO算法在不同场景中的成功率、耗时、距离和平均速度等方面均优于另外两种算法。并且通过改变场景、增加智能体数量和不改变算法参数等方式证明了该算法具有良好的迁移能力，可通过迁移到更复杂的场景下满足不同的需求。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包在本发明范围内。