CN113110546A

CN113110546A - 一种基于离线强化学习的无人机自主飞行控制方法

Info

Publication number: CN113110546A
Application number: CN202110422019.5A
Authority: CN
Inventors: 俞扬; 詹德川; 周志华; 高永青; 秦熔均; 陈雄辉; 庞竟成; 袁雷; 管聪
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-07-13
Anticipated expiration: 2041-04-20
Also published as: CN113110546B

Abstract

本发明公开一种基于离线强化学习的无人机自主飞行控制方法，包含以下步骤：(1)人为控制无人机执行飞行任务，收集无人机在现实环境中的飞行数据，生成数据集。(2)基于数据集，根据飞行状态和动作设计奖赏函数。(3)基于离线强化学习算法，仅利用数据集训练自主飞行控制策略。(4)在现实环境中，使用自主飞行控制策略操控无人机执行飞行任务，无人机操作员实时监控，测试控制策略性能并收集飞行数据。(5)把收集的新飞行数据加入数据集。(6)迭代执行步骤(2)(3)(4)(5)，直到自主飞行控制策略能够完成飞行任务。本发明能够以很低的成本训练出泛化性好、鲁棒的自主飞行控制策略，适用于复杂多变的现实环境。

Description

一种基于离线强化学习的无人机自主飞行控制方法

技术领域

本发明涉及一种基于离线强化学习的无人机自主飞行控制方法，属于无人机自主飞行控制技术领域。

背景技术

无人机由于其结构简单、灵活性和机动性强，已经得到了广泛应用，在航拍、测绘、物流和导航等领域中有着无可替代的地位。无人机系统控制技术近年来发展迅速，其中自主飞行技术是其核心技术之一。随着无人机在各种场景的大量应用，所面临的飞行环境也更加复杂多变，不确定性大量增加。传统的无人机自主飞行方法往往在一些简单环境下能够取得满意的效果，但难以应对高度动态环境下的飞行任务。

近年来，深度强化学习算法的发展引起了人们的广泛关注并取得了令人瞩目的成功。强化学习可以类比动物行为训练，训练员通过奖励与惩罚的方式让动物学会一种状态和行为之间的关联。强化学习一般包括智能体和环境两个要素，智能体在环境中不断探索和试错并获取奖励信息，以调整行动策略获得最大的累积奖励。强化学习广泛应用于求解动态环境下的连续决策问题，在围棋、游戏、生物医疗和推荐系统等领域取得了一系列应用成果，也为解决复杂环境下无人机自主飞行问题提供了新的方向。深度强化学习利用深度神经网络的强大拟合能力来逼近价值函数，增强了对高维状态和动作空间的处理能力，能够应用于复杂的现实环境中。

深度强化学习应用到无人机自主飞行的一大问题是难以在现实环境中进行真机训练。强化学习算法需要与环境进行上百万次的交互和试错，可能引发碰撞、坠机等飞行事故，代价较大，这在实际应用中往往无法接受。一种可行的方法是事先人为控制无人机收集大量的飞行数据作为数据集，然后仅利用这些数据学习，不与现实环境实时交互。一个比较直接的方法是把数据集当作一个大的经验池，使用异策略强化学习算法进行训练。在这种情况下，由于数据集容量有限不能反映现实环境的状态转移，同时数据分布与当前策略的采样分布不一致，由此导致外推误差，并对价值函数估计过高，从而误导策略函数的学习。

发明内容

发明目的：针对强化学习算法在现实环境中训练代价高的问题，本发明提供一种基于离线强化学习的无人机自主飞行控制方法，人为采集无人机飞行数据，训练过程中不要求与现实环境实时交互，利用离线强化学习算法，能够以很低的成本训练出泛化性好、鲁棒的自主飞行控制策略，适用于复杂多变的现实环境。

技术方案：一种基于离线强化学习的无人机自主飞行控制方法，包括：

(1)通过人为控制的方法操控无人机飞行，收集无人机飞行数据，存储飞行过程中无人机在各个时刻的环境观测、无人机自身状态、飞行控制指令和奖励等信息，生成飞行数据集。

环境观测包括：使用无人机搭载的摄像头获取的图像信息、使用无人机TOF传感器获取的与周围物体的距离信息。无人机自身状态包括飞行速度、加速度、飞行姿态、所在位置、和飞行目标的相对位置。飞行控制指令包含油门指令、俯仰指令、横滚指令和偏航指令。奖励由多种奖赏函数混合得到，

其中

是指示函数，当x为真，

否则

其中第一项为靠近飞行目标奖赏，ΔD_g是到飞行目标的距离增量，C₁为靠近奖赏系数；第二项为到达飞行目标奖赏，D_g和T_g分别是到飞行目标的距离和到达阈值，C₂为到达奖赏系数；第三项为碰撞惩罚，D_ob和T_ob分别是到周围物体的距离和碰撞阈值，C_ob为碰撞惩罚系数；第四项为坠落惩罚，H和T_h分别是飞行高度和坠落阈值，C_h为坠落惩罚系数。

(2)利用飞行数据集，基于离线强化学习算法训练自主飞行控制策略，不需要与现实环境实时交互。

训练步骤如下：

步骤一：从飞行数据集

中随机采样N个样本对。每个样本对包含当前时刻观测(环境观测和自身状态)、当前时刻动作(飞行控制指令)、下一时刻观测和奖励四个信息。

步骤二：使用对比学习训练特征网络。对比学习使用数据本身提供监督信息，将数据分别与构造的正样本和负样本在特征空间进行对比，学习数据的特征表示。采用实例判别的方式，对观测s中的图像信息进行两次随机裁剪，得到两个新的观测s_q和s_p，分别输入特征网络F_ω和目标特征网络

使用Adam优化器根据对比损失函数

优化特征网络。其中，

为对比损失函数，exp为自然指数函数，log为自然对数函数，τ为温度参数，∑为求和函数，s_q和s_p分别表示查询样本和正样本，

和

分别表示第k个查询样本和第k个正样本，N为样本数量。

步骤三：估计状态-动作价值函数。使用Adam优化器根据Q网络目标函数训练Q网络。Q网络的目标函数为：

其中，

表示Q网络目标函数，s是观测，a是动作，s^′是下一步观测，r是奖励，

为数据集，Q_θ为Q网络，

为目标Q网络，α为权重，γ为折扣率，x～p表示随机变量x服从分布p，

表示随机变量x的期望，π_φ表示策略网络。

目标函数包括两部分，后一项是使用时序差分方法来估计状态-动作价值函数。为了解决Q网络对价值函数估计过高问题，在目标函数中加入了前一项，这样Q网络的估计是价值函数的下界，使得对状态-动作价值函数估计比较保守，更有利于策略的学习。

步骤四：策略提升。使用Adam优化器根据策略网络目标函数

训练策略网络。其中，

表示策略网络目标函数。

步骤五：使用移动平均法分别更新目标特征网络和目标Q网络。

步骤六：重复步骤一至五，直到算法收敛或达到给定训练次数。

步骤七：输出特征网络和策略网络作为自主飞行控制策略。

(3)在现实环境中测试自主飞行策略。使用控制策略操控无人机执行飞行任务，无人机操作员监控飞行状态。收集无人机飞行数据，加入飞行数据集。

(4)迭代执行训练过程(2)和测试过程(3)，直到测试过程中自主飞行策略可以完成飞行任务且不需要人为干预。

无人机自主飞行方法需要的硬件包括：

(1)单目摄像头：用于获得无人机前方环境的图像信息。

(2)TOF传感器：用于获得无人机到周围物体的距离信息。

(3)存储器：用于存储训练好的自主飞行控制策略，和保存其他相关数据。

(4)处理器：加载和运行自主飞行控制策略。

有益效果：与现有技术相比，本发明具有的益处有：

(1)本发明使用深度强化学习算法学习自主飞行控制方法，有更好的泛化性和鲁棒性，能够应对复杂多变的现实环境。

(2)本发明仅使用收集的飞行数据，训练时不与现实环境实时交互，避免了巨大的试错代价，训练成本很低。

(3)本发明采用对比学习方法，利用图像本身的信息作为监督信息，学习更加通用的图像特征，提高了模型的泛化性和鲁棒性，加快了训练速度。

(4)本发明基于CQL离线强化学习算法，解决了Q网络对价值函数的估计过高问题，提高了策略的稳定性和可靠性。

附图说明

图1为本发明的整体框架示意图；

图2为本发明所述的特征网络、Q网络和策略网络的示意图；

图3为本发明所述的控制策略的训练流程图；

图4为本发明所述的控制策略的执行流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明的整体框架示意图。首先人为控制无人机飞行，存储飞行状态和动作，生成飞行数据集。然后基于飞行数据集使用离线强化学习算法进行离线训练，接着在现实环境中测试控制策略(特征网络和策略网络)，同时收集飞行数据加入飞行数据集。重复离线训练和测试过程，直到测试时控制策略能完成飞行任务。

如图2所示，是本发明所述的特征网络、Q网络和策略网络的示意图。输入的观测包括两部分，一是图像信息，二是距离信息和无人机自身状态组成的非图像信息。图像信息输入ResNet网络提取图像特征，图像特征和非图像信息拼接起来作为特征网络的输出。Q网络由三层全连接层组成，采用relu激活函数。策略网络由两个三层全连接网络组成，分别计算μ和σ两个参数，ε是从均值为0方差为1的高斯分布采样得到。μ、σ和ε都是四维向量，计算tanh(μ+σ·ε)得到一个四维向量，代表油门、俯仰、横滚和偏航四个飞行控制指令。

图3为本发明所述的控制策略的训练流程图。流程描述如下：

S2：初始化飞行数据集为空。

S3：人为控制无人机收集飞行数据，加入飞行数据集。

S4：读取飞行数据集，输入学习率、折扣率、权重、间隔等训练所需的超参数。

S5：使用离线强化学习算法训练自主飞行控制策略，训练过程如下：

(1)加载数据集

初始化折扣率γ，三种学习率λ_F,λ_Q,λ_π，两个权重α,β,温度参数τ，间隔C，总步长T。

(2)初始化神经网络参数，包括：特征网络F_ω、目标特征网络

Q网络Q_θ、目标Q网络

以及策略网络π_φ。

(3)令训练步长t为1，将特征网络参数赋值给目标特征网络，将Q网络参数赋值给目标Q网络：

其中，←表示赋值，下同。

(4)从数据集

中采样N个样本对(s,a,s′,r)。其中，s是观测，a是动作，s′是下一步观测，r是奖励。

(5)对观测s进行数据增强(比如随机裁剪)，得到两个新的观测s_q,s_p。s_q和s_p分别表示查询样本和正样本。

(6)训练特征网络，

其中，

exp为自然指数函数，log为自然对数函数，

和

分别表示第k个查询样本和第k个正样本，∑为求和函数，

表示对参数求导，下同。

(7)训练Q网络，

其中，

x～p表示随机变量x服从分布p，

表示随机变量x的期望。

(8)训练策略网络，

其中，

(9)如果t可以整除C，那么使用移动平均法更新目标特征网络

同样更新目标Q网络

否则，执行步骤(10)。

(10)如果t小于T，t自增1,然后重复步骤(4)至(9)。否则，输出策略网络、特征网络和Q网络，训练结束。

S6：无人机系统加载特征网络和策略网络作为控制策略。

S7：测试控制策略，在现实环境中使用控制策略操控无人机，执行流程如图4所示。无人机操作员监控飞行状态，对应急情况进行干预。测试时收集飞行数据并加入数据集。

S8：如果控制策略能够完成飞行任务且不需要人为干预，执行S9。否则，执行S4。

S9：输出特征网络和策略网络。

图4所示的是本发明所述的控制策略的执行流程图。描述如下：

S2：无人机系统加载特征网络和策略网络。

S3：设定无人机的飞行目标。

S4：使用无人机搭载的摄像头获取图像信息，使用TOF传感器获取无人机与周围物体的距离信息，计算无人机自身状态信息。

S5：把图像信息、无人机与周围物体的距离信息和无人机自身状态信息组成观测，输入特征网络得到特征。

S6：策略网络接收特征，输出飞行控制指令。

S7：无人机执行飞行控制指令。

S8：如果已经到达飞行目标，执行步骤S9，否则执行步骤S4。

S9：如果设定新的飞行目标，执行步骤S3，否则结束。

Claims

1.一种基于离线强化学习的无人机自主飞行控制方法，其特征在于，包括如下内容：

(1)通过人为控制的方法操控无人机飞行，收集无人机飞行数据，存储飞行过程中无人机在各个时刻的环境观测、无人机自身状态、飞行控制指令和奖励信息，生成飞行数据集；

(2)利用飞行数据集，基于离线强化学习算法训练自主飞行控制策略；

(3)在现实环境中测试自主飞行策略；使用控制策略操控无人机执行飞行任务，无人机操作员监控飞行状态；收集无人机飞行数据，加入飞行数据集；

(4)迭代执行训练过程(2)和测试过程(3)，直到测试过程中自主飞行策略可以完成飞行任务。

2.根据权利要求1所述的基于离线强化学习的无人机自主飞行控制方法，其特征在于，所述环境观测信息包括：使用无人机搭载的摄像头获取的图像信息、使用无人机TOF传感器获取的与周围物体的距离信息。

3.根据权利要求1所述的基于离线强化学习的无人机自主飞行控制方法，其特征在于，所述无人机自身状态包括飞行速度、加速度、飞行姿态、所在位置、和飞行目标的相对位置；飞行控制指令包含油门指令、俯仰指令、横滚指令和偏航指令。

4.根据权利要求1所述的基于离线强化学习的无人机自主飞行控制方法，其特征在于，所述奖励由多种奖赏函数混合得到，R＝C₁*(-ΔD_g)+C₂*II(D_g≤T_g)-C_ob*II(D_ob≤T_ob)-C_h*II(H≤T_h)，其中II(x)是指示函数，当x为真，II(x)＝1；否则II(x)＝0；其中第一项为靠近飞行目标奖赏，ΔD_g是到飞行目标的距离增量，C₁为靠近奖赏系数；第二项为到达飞行目标奖赏，D_g和T_g分别是到飞行目标的距离和到达阈值，C₂为到达奖赏系数；第三项为碰撞惩罚，D_ob和T_ob分别是到周围物体的距离和碰撞阈值，C_ob为碰撞惩罚系数；第四项为坠落惩罚，H和T_h分别是飞行高度和坠落阈值，C_h为坠落惩罚系数。

5.根据权利要求1所述的基于离线强化学习的无人机自主飞行控制方法，其特征在于，基于离线强化学习算法训练自主飞行控制策略，训练步骤如下：

步骤一：从飞行数据集中采样一批样本对；每个样本对包含当前时刻观测、当前时刻动作、下一时刻观测和奖励四个信息；所述当前时刻观测信息是环境观测和自身状态；所述当前时刻动作是飞行控制指令；

步骤二：使用对比学习训练特征网络；对观测中的图像信息进行两次随机裁剪，得到两个新的观测，分别输入特征网络和目标特征网络，使用Adam优化器根据对比损失函数

优化特征网络；

步骤三：估计状态-动作价值函数；使用Adam优化器根据Q网络目标函数训练Q网络；Q网络的目标函数为：

目标函数包括两部分，后一项是使用时序差分方法来估计状态-动作价值函数；为了解决Q网络对价值函数估计过高问题，在目标函数中加入了前一项，这样Q网络的估计是价值函数的下界，使得对状态-动作价值函数估计比较保守；

步骤四：策略提升；使用Adam优化器根据策略网络目标函数

训练策略网络；

步骤五：使用移动平均法分别更新目标特征网络和目标Q网络；

步骤六：重复步骤一至五，直到算法收敛或达到给定训练次数；

步骤七：输出特征网络和策略网络作为自主飞行控制策略。

6.根据权利要求1所述的基于离线强化学习的无人机自主飞行控制方法，其特征在于，通过无人机传感器获取环境观测和无人机自身状态，输入特征网络和策略网络，策略网络输出相应的飞行控制指令，无人机执行指令。

7.根据权利要求1所述的基于离线强化学习的无人机自主飞行控制方法，其特征在于，无人机自主飞行控制方法需要的硬件包括：

(1)单目摄像头：用于获得无人机前方环境的图像信息；

(2)TOF传感器：用于获得无人机到周围物体的距离信息；

(3)存储器：用于存储训练好的自主飞行控制策略，和保存其他相关数据；

(4)处理器：加载和运行自主飞行控制策略。