CN113741528B

CN113741528B - 一种面向多无人机碰撞规避的深度强化学习训练加速方法

Info

Publication number: CN113741528B
Application number: CN202111071287.3A
Authority: CN
Inventors: 刘志宏; 王祥科; 王冠政; 李�杰; 相晓嘉; 丛一睿; 陈浩; 周文宏; 杨凌杰; 胡新雨
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2023-05-23
Anticipated expiration: 2041-09-13
Also published as: CN113741528A

Abstract

本发明公开了一种面向多无人机碰撞规避的深度强化学习训练加速方法，其包括：步骤S1：基于马尔可夫决策过程对完全分布式的无人机集群避障问题进行形式化建模；步骤S2：构建深度神经网络构建观测输入‑动作输出的映射、网络更新方法；步骤S3：融合人类经验以加速训练。本发明具有原理简单、训练智能化程度高、可加速深度强化学习训练过程等优点。

Description

一种面向多无人机碰撞规避的深度强化学习训练加速方法

技术领域

本发明主要涉及到无人机技术领域，特指一种面向多无人机碰撞规避的深度强化学习训练加速方法。

背景技术

伴随着无人机应用领域的逐渐扩大，人们对于无人机自主执行任务的需求越来越高。自主定位、环境感知、路径规划和碰撞规避等是无人机自主执行任务的关键技术。与单无人机相比，多无人机能够携带更多的任务载荷、更大的探测范围以及执行各种任务等。

深度强化学习既具备深度学习对复杂高维数据的理解能力，又兼备强化学习通过试错机制进行自我学习的通用学习能力。但深度强化学习大多面临着采样率低，训练收敛难等问题。目前，针对这一问题的研究取得了一系列的进展，例如基于迁移学习的方法，基于分阶段学习的方法、基于人类指导的方法等。这些方法通过不同的训练机制来提高训练速度，但仍存在训练效率低，加速效果不明显，通用性不强等问题。

然而，上述现有的方法在通用性、自动化程度等方面仍存在很多难题，主要表现在：

(1)通用性不够强。目前在无人机自主避障中，较为常用的传感器为二位激光雷达和双目相机等。基于迁移学习的方法大多应用于视觉信息感知任务中，比如目标识别等，而对于激光雷达等传感器，已训练的网络模型和参数并不能直接迁移应用。

(2)自动化程度不高。深度强化学习很重要的一点优势是可以将传统方法中在线求解的问题，转移到大量的离线训练中。一般训练过程需要的时间较长，因此自动化的训练过程十分重要。分阶段的训练将某一任务分解成多个阶段的任务，依次进行训练，较为繁琐。而且，在分阶段的训练中，后续阶段的训练可能会导致先训阶段的策略遗忘。而现有的人类指导的训练，大多需要人作为教师参与训练过程，自动化程度低，需要消耗开发者大量的时间和精力。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种原理简单、训练智能化程度高、可加速深度强化学习训练过程的面向多无人机碰撞规避的深度强化学习训练加速方法。

为解决上述技术问题，本发明采用以下技术方案：

一种面向多无人机碰撞规避的深度强化学习训练加速方法，其包括：

步骤S1：基于马尔可夫决策过程对完全分布式的无人机集群避障问题进行形式化建模；

步骤S2：构建深度神经网络构建观测输入-动作输出的映射、网络更新方法；

步骤S3：融合人类经验以加速训练。

作为本发明的进一步改进：所述步骤S1中，进行形式化建模的流程包括：

将多无人机前往目标地点过程中的协同避障问题形式化为一个马尔可夫决策过程；所述马尔可夫决策过程用一个六元组来形式化描述，即

其中/>

指的是状态空间，/>

指的是动作空间，/>

指的是状态转移模型，/>

是回报函数，Ω是观测空间(o∈Ω)，/>

是给出系统状态/>

的观测概率分布。

作为本发明的进一步改进：对于每架无人机来说，观测空间定义T时刻无人机的观测为o^t，包含以下三个部分：二位激光测距仪的观测

无人机当前时刻相对于目标的位置

无人机当前的速度/>

无人机的动作空间就是其在连续空间内能够允许的速度集合，包括线速度和角速度两部分，即a^t＝[v^t，ω^t]；在无人机的真实飞行中对速度增加约束。

作为本发明的进一步改进：无人机的任务目标包括以下的一个或多个：

a.最小化无人机群到达目标的平均时间；

b.在前往目标过程中安全避障、避碰；

c.无人机的运动轨迹平滑。

作为本发明的进一步改进：构建深度强化学习的回报函数：

即无人机所获得的回报r包括^gr，^cr和^ωr，其具体含义为：

a.由到目标位置的距离所决定的gr，当无人机到达目标点时给予奖励，若未到达目标点，则当离目标距离减小时给予奖励：

b.由是否碰撞决定的^cr，当发生碰撞时，给予惩罚：

c.由轨迹是否平滑所决定的^ωr，当角速度过大时，给予惩罚：

作为本发明的进一步改进：在步骤S2中，进行强化学习，采用近端策略优化算法作为基础，用于连续动作空间的场景。

作为本发明的进一步改进：所述近端策略优化算法的流程包括：

步骤S201：初始化策略参数；

步骤S202：循环迭代，在每次循环中执行：

a、使用策略θ^k来与环境交互并收集经验{o_t，a_t，r_t+1，o_t+1}，

b、计算优势函数

c、寻找使J_PPO(θ)最优的参数θ：

d、如果KL(θ，θ^k)＞KL_max，减小β，否则且KL(θ，θ^k)＜KL_min，增加β。

作为本发明的进一步改进：所述在步骤S2中，包括设置网络架构，流程包括：观测空间到动作空间的映射由深度神经网络完成，其包含卷积层和全连接层；所述卷积层的用来对雷达数据进行预处理；在训练阶段，决策网络生成的动作会通过采样来增大智能体的探索空间。

作为本发明的进一步改进：在步骤S3中，采用基于HEBA的人类经验加速方法，包括将人类经验抽象成一个指导智能体动作的修正器，在训练过程中，对决策网络生成的动作进行修正。

作为本发明的进一步改进：所述步骤S3中包括集中式训练和分布式应用，使用HEBA来融合人类经验的基础。

与现有技术相比，本发明的优点就在于：

1、本发明的面向多无人机碰撞规避的深度强化学习训练加速方法，原理简单、操作简便，其可以通过端到端的训练来实现多无人机的碰撞感知规避。本发明所提出的基于HEBA(Human Experience Based Adviser)的人类经验加速方法是关键的创新点。通过对人类经验的抽象，本发明提出了注意力区域和注意力因子的概念，以及全新的训练流程，这可以大大加速训练过程，并得到更好的控制策略。

2、本发明的面向多无人机碰撞规避的深度强化学习训练加速方法，通过抽象人类经验，并将其融入到深度强化学习的训练过程中来加速多无人机碰撞规避策略的学习。深度强化学习具备深度学习对复杂高维数据的理解能力，而这也使得深度强化学习训练中的采样效率比较低。在碰撞规避这一问题上，本发明对人类经验进行了高度的抽象，以指导智能体的控制策略的学习。本发明在训练过程中，不需要人为参与，可以大大加速深度强化学习的训练过程，节约开发者的时间。

附图说明

图1是本发明方法的流程示意图。

图2是本发明在具体应用实例中决策网络架构的原理示意图。

图3是本发明在具体应用实例中基于HEBA的人类经验加速训练方法的示意图。

图4是本发明在具体应用实例中注意力区域示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

如图1和图2所示，本发明的面向多无人机碰撞规避的深度强化学习训练加速方法，为基于人经验辅助的深度强化学习方法，其包括：

步骤S1：基于部分可观的马尔可夫决策过程对完全分布式的无人机集群避障问题进行形式化建模；

步骤S2：设计深度神经网络构建观测输入-动作输出的映射、网络更新算法；

步骤S3：设计融合人类经验以加速训练的方法。

在具体应用实例中，在步骤S1中，进行形式化建模的流程包括：

多无人机前往目标地点过程中的协同避障问题可以形式化为一个部分可观的马尔可夫决策过程(POMDP，Partially Observable Markov Decision Process)。

一般来说，部分可观的马尔可夫决策过程可以用一个六元组来形式化描述，即

其中/>

指的是状态空间，/>

指的是动作空间，/>

指的是状态转移模型，/>

是回报函数，Ω是观测空间(o∈Ω)，/>

是给出系统状态/>

的观测概率分布。

在本发明中，二维激光雷达是感知环境的核心传感器。对于每架无人机来说，观测空间除激光雷达观测的数据外，本发明还需要其他的一些观测量，定义t时刻无人机的观测为o^t，主要包含以下三个部分：

a.二位激光测距仪的观测

b.无人机当前时刻相对于目标的位置

c.无人机当前的速度

无人机的动作空间就是其在连续空间内能够允许的速度集合，主要包括线速度和角速度两部分，即a^t＝[v^t，ω^t]。在无人机的真实飞行中，还需要对速度增加一定的约束，比如：v∈[0.0，1.0]，ω∈[-1.0，1.0]等。

本发明中无人机的任务目标主要是：

a.最小化无人机群到达目标的平均时间；

b.在前往目标过程中安全避障、避碰；

c.无人机的运动轨迹尽可能平滑。

为实现上述目标，本发明将深度强化学习的回报函数设计为：

即无人机所获得的回报r由四部分构成，分别为^gr，^cr和^ωr，其具体含义为：

a.由到目标位置的距离所决定的^gr，当无人机到达目标点时给予奖励，若未到达目标点，则当离目标距离减小时给予奖励：

b.由是否碰撞决定的^cr，当发生碰撞(包括无人机间和与环境障碍物)时，给予惩罚：

在具体应用实例中，在步骤S2中，强化学习算法的流程包括：

强化学习可以按照学习策略划分为基于值和基于策略的两大类，本发明选择近端策略优化算法(PP0，Proximal Policy Optimization)作为项目算法设计的基础，其属于基于策略的强化学习方法，适用于连续动作空间的场景。

PPO算法是一种新型的Policy Gradient(策略梯度)算法，Policy Gradient算法对步长十分敏感，但是又难以选择合适的步长，在训练过程中新旧策略的变化差异如果过大则不利于学习。

为此，PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新，解决了Policy Gradient算法中步长难以确定的问题，其主要流程如下：

步骤S201：初始化策略参数；

步骤S202：循环迭代，在每次循环中执行：

a、使用策略(θ^k)来与环境交互并收集经验{o_t，a_t，r_t+1o_t+1}，

b、计算优势函数

c、寻找使J_PPO(θ)最优的参数θ：

在具体应用实例中，在步骤S2中，设置网络架构的流程包括：

在本发明中，观测空间到动作空间的映射由深度神经网络完成，其主要包含卷积层和全连接层。卷积层的主要作用是对雷达数据进行预处理。在训练阶段，决策网络生成的动作会通过采样来增大智能体的探索空间。

在具体应用实例中，在步骤S3中，基于HEBA(Human Experience Based Adviser)的人类经验加速方法包括：采样效率低是阻碍深度强化学习应用的一个重要问题，其不仅表现训练时间长，甚至还会导致无法收敛到较好的控制策略。在本发明中，提出了一种基于HEBA的人类经验加速方法。HEBA将人类经验抽象成一个指导智能体动作的修正器，在训练过程中，能够对决策网络生成的动作进行修正，从而提高训练过程中的采样效率，训练流程如图3所示。

在复杂的路况环境中，人们往往会降低车速以更加安全的驾驶。基于此，本发明提出了注意力区域(Attention Region，AR)和注意力因子(Attention Factor，AF)的概念。如图4所示，无人机外270°的扇形指的是二位激光雷达的扫描范围，d_l指的是雷达最大测量距离，d_e指的是无人机之间的安全距离，Head指的是无人机的机头方向。无人机机头方向的180°半圆阴影区域即为该无人机的注意力区域。注意力区域内的其他无人机是当前无人机需要进行碰撞规避的。

意力因子是用来刻画注意力区域内交通拥挤状况的，定义如下：

HEBA描述为：

v_x＝f_a×v_x，if v_x＞f_a×v_max (8)

在本发明中，集中式训练和分布式应用(Centralized Training withDecentralized Execution，CTDE)的应用是使用HEBA来融合人类经验的基础。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种面向多无人机碰撞规避的深度强化学习训练加速方法，其特征在于，包括：

步骤S2：构建深度神经网络，构建观测输入-动作输出的映射、网络更新方法；

步骤S3：融合人类经验以加速训练；具体为，采用基于HEBA的人类经验加速方法，包括将人类经验抽象成一个指导智能体动作的修正器，在训练过程中，对决策网络生成的动作进行修正；注意力因子是用来刻画注意力区域内交通拥挤状况的，定义如下:

HEBA描述为：

。

2.根据权利要求1所述的面向多无人机碰撞规避的深度强化学习训练加速方法，其特征在于，所述步骤S1中，进行形式化建模的流程包括：

，其中/>

指的是状态空间，/>

指的是动作空间，/>

指的是状态转移模型，/>

是回报函数，/>

是观测空间/>

，/>

是给出系统状态/>

的观测概率分布。

3.根据权利要求2所述的面向多无人机碰撞规避的深度强化学习训练加速方法，其特征在于，对于每架无人机来说，观测空间定义

时刻无人机的观测为/>

，包含以下三个部分：二位激光测距仪的观测/>

、无人机当前时刻相对于目标的位置/>

、无人机当前的速度/>

；无人机的动作空间就是其在连续空间内能够允许的速度集合，包括线速度和角速度两部分，即/>

；在无人机的真实飞行中对速度增加约束。

4.根据权利要求1-3中任意一项所述的面向多无人机碰撞规避的深度强化学习训练加速方法，其特征在于，无人机的任务目标包括以下的一个或多个：

a.最小化无人机群到达目标的平均时间；

b.在前往目标过程中安全避障、避碰；

c.无人机的运动轨迹平滑。

5.根据权利要求4所述的面向多无人机碰撞规避的深度强化学习训练加速方法，其特征在于，构建深度强化学习的回报函数：

即无人机所获得的回报

包括/>

和/>

，其具体含义为：

a.由到目标位置的距离所决定的

，当无人机到达目标点时给予奖励，若未到达目标点，则当离目标距离减小时给予奖励：

/>

b.由是否碰撞决定的

，当发生碰撞时，给予惩罚：

c.由轨迹是否平滑所决定的

，当角速度过大时，给予惩罚：

6.根据权利要求1-3中任意一项所述的面向多无人机碰撞规避的深度强化学习训练加速方法，其特征在于，在步骤S2中，进行强化学习，采用近端策略优化算法作为基础，用于连续动作空间的场景。

7.根据权利要求6所述的面向多无人机碰撞规避的深度强化学习训练加速方法，其特征在于，所述近端策略优化算法的流程包括：

步骤S201：初始化策略参数；

步骤S202：循环迭代，在每次循环中执行：

a、使用策略

来与环境交互并收集经验/>

，

b、计算优势函数

；

c、寻找使

最优的参数/>

：

d、如果

，减小/>

，否则且/>

，增加/>

。

8.根据权利要求6所述的面向多无人机碰撞规避的深度强化学习训练加速方法，其特征在于，所述在步骤S2中，包括设置网络架构，流程包括：观测空间到动作空间的映射由深度神经网络完成，其包含卷积层和全连接层；所述卷积层的用来对雷达数据进行预处理；在训练阶段，决策网络生成的动作会通过采样来增大智能体的探索空间。

9.根据权利要求1所述的面向多无人机碰撞规避的深度强化学习训练加速方法，其特征在于，所述步骤S3中包括集中式训练和分布式应用，使用HEBA来融合人类经验的基础。