CN112114592B

CN112114592B - 一种实现无人机自主穿越可移动框形障碍物的方法

Info

Publication number: CN112114592B
Application number: CN202010945731.9A
Authority: CN
Inventors: 俞扬; 詹德川; 周志华; 陈立坤; 黄宇洋; 王超; 郭天豪
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2021-12-17
Anticipated expiration: 2040-09-10
Also published as: CN112114592A

Abstract

本发明公开了一种实现无人机自主穿越可移动框形障碍物的方法，步骤如下：(1)构造环境模拟器；(2)确定无人机与模拟器环境交互的状态、动作、转移和奖励。将穿越可移动框形障碍物的任务设计成一个强化学习智能体与环境交互的问题，用强化学习算法学习无人机穿越框形障碍的飞行策略；(3)改变可移动框形障碍物截面积的大小和位移幅度，设置从易到难的课程学习，逐步提升无人机的越障飞行策略；(4)将在环境模拟器中训练收敛后的无人机穿越框形障碍物的飞行策略迁移到真实无人机上；(5)利用迁移到真机上的飞行策略实现无人机自主穿越可移动门框障碍物。本发明可实现无人机准确检测障碍物的位置，控制飞行状态，平稳通过障碍区域。

Description

一种实现无人机自主穿越可移动框形障碍物的方法

技术领域

本发明涉及一种基于强化学习的实现无人机自主穿越可移动框形障碍物的方法，涉及无人机飞行控制技术领域。

背景技术

随着无人机控制技术的提升，一般无人机能够完成简单场景的避开障碍物和穿越较为宽阔的中空障碍区域。但是，对于更为严苛的障碍物条件，比如可变的门框形障碍物，传统无人机很难通过，表现出很大的局限性。另外，无人机在真实环境中训练代价太大，容易发生碰撞，造成安全事故。

在无人机穿越框形障碍物的任务中，传统的检测障碍物和测距的方法，如惯性导航系统，声波测距等在近距离的场景下精度不高；激光雷达价格昂贵且重量较大不适合用于常见的小型的无人飞行器。

利用强化学习的方法训练智能体处理复杂高难度任务的场景，直接学习的难度过大，获得的完成奖励比较稀疏，智能体将无法学到有效的策略。

发明内容

发明目的：针对现有技术存在的问题与不足，本发明提供一种基于强化学习的实现无人机自主穿越可移动框形障碍物的方法，提出用强化学习来训练出可以实现复杂场景下无人机过障碍的飞行策略。为了应用强化学习的方法，需要构建无人机仿真模拟器，学到良好的策略后，再将其迁移到真实环境中。这个技术路线相对于直接在真实环境控制无人机穿越障碍的方法具有实施成本低、安全高效的优势。使用的双目摄像头测距方法容易处理距离较近的场景，例如穿越框形障碍物。所需的双目摄像头质量小易于加装在无人机上，测距原理简单且精度较高，相对激光雷达来说价格低廉，特别适用轻便的小型无人飞机。使用的课程学习方法，设置由易到难的学习任务，依次解决，并逐步提升无人机穿越框形障碍物的飞行策略。课程学习是本发明中使用强化学习能学出良好飞行策略的一个重要手段。

技术方案：一种实现无人机自主穿越可移动框形障碍物的方法，构建基于空气动力学的仿真环境模拟器，模拟无人机的飞行状况，并且设置可移动的框形障碍物；利用双目测距方法处理得到无人机相对可移动框形障碍物的距离和相对框形障碍物中心的空间角度信息，以上距离和空间角度信息与无人机自身的速度和位置信息一起作为智能体无人机的观测值；以无人机下一时刻的目标点位置和飞到此位置的速度作为无人机的动作；按照课程学习的方法，改变可移动框形障碍物截面积的大小和移动幅度，设置一组由易到难的学习任务；通过强化学习算法如深度确定性策略梯度算法(DDPG)，控制飞机与模拟器交互产生轨迹数据，训练无人机穿越可移动框形障碍物的飞行策略；由易到难地循序渐进完成不同任务，提升无人机飞行策略；进行策略迁移，使用真实无人机进行自主穿越框形障碍物的任务。

在环境模拟器提供的马尔科夫决策过程中进行采样，进而对无人机穿越框形障碍物的飞行策略进行强化学习训练。通过深度确定性策略梯度算法，训练无人机策略网络，直到无人机穿越障碍的飞行策略收敛，训练出可以顺利穿越可移动框形障碍物的飞行策略。

实施课程学习，由易到难地设置可移动框形障碍物截面积的大小和位移幅度，构成难易不同的任务。先处理简单的学习任务，在简单任务上无人机飞行策略能收敛的情况下，不断加入困难的任务。课程学习从易到难地训练无人机穿越框形障碍物的飞行策略，避免了用强化学习直接处理困难任务，策略难收敛的问题。

所述环境模拟器与真实无人飞机的操作特性和飞行特性相适应，模拟器模拟无人飞机的飞行状态，并进行状态转移。模拟器要求能接受无人机的原始输入信息，并将部分环境信息和飞机自身状态信息作为观测值返还给无人机。其过程可以定义为马尔可夫决策过程(MDP)的元组形式(O,A,P,R)，其中观测信息O由外部环境信息E和飞机自身的状态信息S组成。外部环境信息E指与框形障碍物相关的信息，需要给出无人机与障碍物的相对距离和空间角度；S＝＜V,α,β,γ＞，分别对应飞机当前的速度，相对于北偏东坐标系的三个角度。同时，在模拟器中可以生成一个随机移动的运动目标。通过深度确定性策略梯度(DDPG)这一强化学习算法，在模拟器提供的马尔科夫决策过程中进行采样，进而对无人机穿越框形障碍物的飞行策略进行学习。

所述的双目测距方法为：无人机搭载左右相互平行的两颗摄像头分别对前方框形障碍物进行拍照，通过对左右两幅图像视差的计算，直接对前方景物(图像所拍摄到的范围)进行距离测量。双目测距操作分4个步骤：相机标定，双目校正，双目匹配，计算深度信息。对于可移动的框形障碍物，由于框的正中心是空的，而正中心的点是飞机最能顺利通过的点。选取门框上下左右四条边上的4个中点，计算框形障碍物与无人机的相对距离。通过这4个中点还能计算出无人机与框中心点的空间角。因为无人机与框形障碍物中心的相对距离以及空间角度对于飞机能否通过至关重要，所以将这部分信息作为飞机的观测值的一部分。

使用神经网络来表示无人机穿越框形障碍物的飞行策略，用当前的飞行策略在模拟器中控制无人机，采集样本，借助这些收集到的样本，用深度确定性策略梯度算法(DDPG)优化当前控制无人机穿越障碍的飞行策略，直至策略不再提升。DDPG是一种基于Actor-Critic框架的算法，可解决连续动作空间上的深度强化学习问题。

所述的课程学习中：就无人机穿越框形障碍物问题来说，根据人为先验可知，无人机更容易通过那些截面积大且移动幅度小的框形障碍物。所以先处理这样的简单任务然后不断加入更难的任务，可以更容易地学到无人机穿越框形障碍物的飞行策略。直接让智能体尝试通过截面积小而移动幅度大的框形障碍物将非常困难，因为智能体在与模拟器交互的过程中将很难获得顺利穿越障碍的reward，导致飞行策略难以收敛。以上就是由易到难地设置课程学习的价值所在。

真实环境中，实现无人机飞行通过可移动门框障碍物需要的硬件包括：

无人机：能够进行策略迁移，执行可控飞行任务；

双目摄像头：安装在无人机机身前侧的同一平面上的左右对称位置上，用于实施对可移动框形障碍物的双目测距；

存储器：用于存储训练好的飞行策略模型，使用策略需要的相关数据；

处理器：读取飞行策略模型，发出飞行控制指令，由无人机来执行。

有益效果：与现有技术相比，本发明实现无人机自主穿越可移动框形障碍物的方法，有益之处有：

(1)构建仿真模拟器环境，采用了强化学习的方法，通过深度确定性策略梯度算法(DDPG)训练出有效的无人机智能体穿越框形障碍物的飞行策略，然后迁移策略，运用到真实场景下。强化学习的方法相比于传统方法具有安全高效、实施成本低、适用范围广等优势。

(2)本发明采用在无人机上加装双目摄像头，进行双目测距的方法来检测无人机与框形障碍物的相对距离等信息。相比于激光雷达、声波测距等其他方法具有测距精度高、设备价格便宜等优点，适合解决无人机穿越框形障碍物的任务。

(3)使用强化学习策略梯度算法直接训练无人机智能体在复杂避障场景下的飞行策略时，由于难度较大，策略不易收敛。而采用课程学习的方式，由易到难地完成不同的学习任务，逐步提升无人机智能体穿越框形障碍的飞行策略，获得良好的训练效果。

附图说明

图1为本发明提出的基于强化学习的解决方案框架示意图。

图2为本发明构建的模拟器和无人机穿越框形障碍任务的示意图。

图3为本发明使用DDPG算法训练穿越框形障碍飞行策略的训练过程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种实现无人机自主穿越可移动框形障碍物的方法，包括如下步骤：

步骤一：

构建一个基于空气动力学的无人机飞行的模拟器和包含障碍物信息的环境，其可视化部分基于Unity3D引擎实现，该模拟器环境用于无人机穿越框形障碍飞行策略的学习。无人机与模拟器交互的过程定义为马尔可夫决策过程(MDP)的元组形式(O,A,P,R)，其中P表示状态转移概率，做出动作之后，环境从一个状态转移到下一个状态的概率；观测信息O由外部环境信息E及飞机自身的状态信息S组成，外部环境信息E指通过无人机双目测距检测出的无人机与框的相对距离d以及飞机相对框的中心的空间角α。S＝＜V,α,β,γ＞，分别对应飞机当前的速度，相对于北偏东坐标系的三个角度。无人机智能体与模拟器环境交互时，模拟器接受无人机智能体的有效动作输入，给出正确的环境状态作为无人机智能体的观测信息O。每个时间间隔内无人飞机能决定往哪个点(目标)飞，以及相应的到达速度，这两个动作在无人机过障碍任务中比较关键，每个时间间隔内无人机的目标以及相应的到达速度是无人机可以做出的动作A。在模拟环境中，无人机获得的奖励R需要合理设置才能引导无人机做出正确的动作，学得良好的穿越框形障碍物的飞行策略。无人机通过了门框，没有碰到门框边缘则给予一个正的reward 5，如果碰到了门框，则穿越障碍物失败，给一个负的reward-3。其他情况，为了鼓励无人飞机更快地通过和防止飞机不往框飞行，可以设置单步的负reward-0.1，以及和速度正相关的正的适当大小的reward。reward设置的大体的思路如上。

步骤二：

步骤一中构建的模拟器提供了一个环境，在这个环境中，我们可以控制无人机智能体与环境交互，从而适用强化学习算法在模拟器中解决无人机飞行通过可移动门框障碍的任务。由于无人机通过狭小和移动幅度大的门框障碍物的难度大，直接用强化学习的方法训练无人机过障碍策略可能因难度大奖励稀疏等原因难以收敛，提出了课程学习的方法，从简单的任务做起，每个任务中均采用深度确定性策略梯度算法(DDPG)来训练无人机的飞行策略，最终获得能完成复杂高难度过障碍任务的收敛的飞行策略。

课程学习的设定是按照穿越不同框形障碍物的难度大小排行，逐渐从穿越截面积大和位移幅度小的框形障碍物任务过渡到穿越截面积小、位移幅度大的框形障碍物的任务。例如，下一个课程可以在上一个课程的基础上，将框形障碍物的横截面积降低20％，障碍物的位移幅度增加20％，直到达到无人机能正常通过框形障碍物的阈值。由易到难地设置了不同的课程，控制无人机循序渐进地完成这些任务，就可以不断优化无人机穿越框形障碍物的飞行策略，并且避免了直接处理复杂高难度的通过障碍任务飞行策略可能无法收敛的问题。通过课程学习，最终获得能够完成穿越难度大的框形障碍物任务的飞行策略。

在所有的无人机过障碍任务中，训练飞行策略使用的强化学习算法是深度确定性策略梯度算法(DDPG)。DDPG是一种基于Actor-Critic框架的算法，可以解决连续动作空间上的深度强化学习问题。DDPG算法使用参数化的Actor来根据当前的状态产生动作，并处理连续动作域，使用Critic的低方差的值函数来评估Actor产生的动作，产生一个更好的梯度估计值，改善局部优化的问题。本发明使用DDPG算法来训练无人机穿越可移动框形障碍物的飞行策略的流程如图3所示，具体的训练过程如下：与模拟器的交互采样的过程中，Actor接受观测值，做出动作，模拟器给出状态转移和奖励，构成一条状态转移数据(s_t,a_t,s_t+1,r_t)并存入经验缓存池。在缓存池中采样，取出小批量的n条数据(s_t,a_t,s_t+1,r_t)，输入到Critic网络，Critic网络输出相应状态和动作的Q值。Actor网络分为当前Actor网络和目标Actor网络，Critic网络分为当前Critic网络和目标Critic网络。在训练完一组最小批量的数据之后，更新当前Actor网络和当前Critic网络的参数，然后再通过软更新算法更新目标Actor网络和目标Critic网络的参数。DDPG算法中目标网络参数变化小，算法更为稳定，训练易于收敛。重复上述训练过程，直至无人飞机过障碍的飞行策略收敛。DDPG算法是强化学习训练得到无人机可穿越框形障碍物的飞行策略的关键。

步骤三：

运用策略迁移算法将学习到的收敛的无人机自主穿越可移动框形障碍物的飞行策略迁移到真实无人机上，控制无人机在真实环境下实施穿越框形障碍物任务。在模拟器中学到的策略一般是无法直接使用的，因为模拟器并不能完全模拟无人机飞行的实际性能参数，而且现实环境往往比较复杂，比如有风力，能见度，电磁干扰等因素影响，为了解决实际问题，最后将模拟器中学到的无人机穿越框形障碍物的飞行策略迁移到真实飞机上使用。

Claims

1.一种实现无人机自主穿越可移动框形障碍物的方法，其特征在于：构建仿真环境模拟器，模拟无人机的飞行状况，并且设置可移动的框形障碍物；利用双目测距方法处理得到无人机相对可移动框形障碍物的距离和相对框形障碍物中心的空间角度信息，以上距离和空间角度信息与无人机自身的速度和位置信息一起作为无人机的观测值；以无人机下一时刻的目标点位置和飞到此位置的速度作为无人机的动作；按照课程学习的方法，改变可移动框形障碍物截面积的大小和移动幅度，设置一组由易到难的学习任务；通过强化学习算法，控制飞机与模拟器交互产生轨迹数据，训练无人机穿越可移动框形障碍物的飞行策略，循序渐进完成不同任务，提升无人机飞行策略；进行策略迁移，使用真实无人机进行自主穿越框形障碍物的任务；

所述的双目测距方法为：无人机搭载左右相互平行的两颗摄像头分别对前方框形障碍物进行拍照，通过对左右两幅图像视差的计算，直接对前方景物进行距离测量；双目测距操作分4个步骤：相机标定，双目校正，双目匹配，计算深度信息；对于可移动的框形障碍物，选取框形障碍物门框上下左右四条边上的4个中点，计算框形障碍物与无人机的相对距离；通过这4个中点计算出无人机与框中心点的空间角。

2.根据权利要求1所述的实现无人机自主穿越可移动框形障碍物的方法，其特征在于：所述环境模拟器与真实无人飞机的操作特性和飞行特性相适应，模拟器模拟无人飞机的飞行状态，并进行状态转移；模拟器接受无人机的原始输入信息，并将相应的环境信息和飞机自身状态信息作为观测值返还给无人机；无人机与环境模拟器交互的过程定义为马尔可夫决策过程的元组形式(O,A,P,R)，其中观测信息O由外部环境信息E和飞机自身的状态信息S组成；外部环境信息E指与框形障碍物相关的信息，包括无人机与障碍物的相对距离和空间角度；S＝＜V,α,β,γ＞，分别对应飞机当前的速度，相对于北偏东坐标系的三个角度。

3.根据权利要求2所述的实现无人机自主穿越可移动框形障碍物的方法，其特征在于：通过深度确定性策略梯度这一强化学习算法，在模拟器提供的马尔科夫决策过程中进行采样，进而对无人机穿越框形障碍物的飞行策略进行学习。

4.根据权利要求1所述的实现无人机自主穿越可移动框形障碍物的方法，其特征在于：实施课程学习，由易到难地设置可移动框形障碍物截面积的大小和位移幅度，构成难易不同的任务；先处理简单的学习任务，在简单任务上无人机飞行策略能收敛的情况下，不断加入困难的任务。

5.根据权利要求1所述的实现无人机自主穿越可移动框形障碍物的方法，其特征在于：真实环境中，实现无人机飞行通过可移动门框障碍物需要的硬件包括：

无人机：能够进行策略迁移，执行可控飞行任务；