CN112766499A

CN112766499A - 一种通过强化学习技术实现无人机自主飞行的方法

Info

Publication number: CN112766499A
Application number: CN202110145972.XA
Authority: CN
Inventors: 董乐; 张宁; 黄灿
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-05-07

Abstract

本发明涉及信息处理领域，具体是一种通过强化学习技术实现无人机自主飞行的方法，包括如下步骤：步骤一、获取模拟数据集和真实数据集；步骤二、提取图像特征和动作特征；步骤三、使用Q‑learn ing训练一个深度神经网络Q‑funct ion；步骤四、构建现实世界策略学习网络，将深度神经网络Q‑funct ion训练好的参数迁移至现实世界策略学习网络中，训练行动条件奖励预测函数；步骤五、输入状态向量和H个未来计划行动向量的序列至行动条件奖励预测函数，通过一个长短期记忆循环神经网络整合之后，并在将来的每个时间点输出预测的奖励；步骤六、根据预测的奖励实现自主飞行；该方法能够使机器人仅使用单目摄像机就可以避免碰撞以实现自主飞行。

Description

一种通过强化学习技术实现无人机自主飞行的方法

技术领域

本发明涉及信息处理领域，具体是指一种通过强化学习技术实现无人机自主飞行的方法。

背景技术

深度强化学习算法提供了一种诱人的可能性，使机器人的感知和控制系统共同自动化，而所需的人工工程量却很少，而且通用性很高，例如，可以使用经过深度强化学习训练的卷积神经网络模型来避免碰撞，并且仅使用低成本，低功率的摄像头就能在建筑物内导航，从而使其非常适合SWaP(尺寸，重量和功率)受限的自主式飞行，但是，与所有基于学习的系统一样，所学习的策略能够推广到新情况的能力在很大程度上取决于可用于训练的数据的数量和种类，虽然从原理上说自动机器人可以直接在现实世界中收集自己的数据，但是泛化非常依赖于数据集的大小和多样性，以至于几乎总是可以通过添加更多经验来加以改进，特别是对于脆弱且对安全至关重要的系统(例如四旋翼无人机)，可能难以收集大数据集，因此，将其他更丰富的数据源集成到训练过程中是非常有利的。

模拟渲染物理场景可以提供更大的数据集，但是这类数据本质上质量较低：许多使现实世界中的自主飞行问题具有挑战性的现象，例如气流等复杂的物理因素，都很难建模或根本没有建模，而且模拟与现实世界之间的系统差异通常无法消除，本发明通过将模拟环境和真实环境的数据结合在一个混合的深度强化学习算法中，通过使用真实环境的数据来了解系统的动态，并使用模拟环境的数据来学习一个可概括的感知系统，该框架能够使机器人仅使用单目摄像机就可以避免碰撞以实现自主飞行，本发明旨在设计一种转移学习算法，其中影响无人机的物理因素主要从真实世界的数据中学习，而模拟环境则提供了可推广到新环境的视觉感知系统，从本质上讲，真实世界的经验用于学习如何完成，而模拟经验则用于学习如何进行概括，我们不是使用实际数据对深度神经网络策略进行微调，而是将模型分为感知和控制子系统，感知子系统从模拟环境传递视觉特征，而控制子系统则通过实际数据进行训练，与其他技术相比，这使我们的方法能够将经验从仿真转移并更有效地推广到新的实际环境中。

发明内容

基于以上问题，本发明提供了一种通过强化学习技术实现无人机自主飞行的方法，通过将模拟环境和真实环境的数据结合在一个混合的深度强化学习算法中，通过使用真实环境的数据来了解系统的动态，并使用模拟环境的数据来学习一个可概括的感知系统，该方法能够使机器人仅使用单目摄像机就可以避免碰撞以实现自主飞行。

为解决以上技术问题，本发明采用的技术方案如下：

一种通过强化学习技术实现无人机自主飞行的方法，包括如下步骤：

步骤一、获取模拟数据集(s_t,a_t,r_t)∈D^SIM和真实数据集(s_t,a_t,r_t)∈D^RW，其中，s_t为输入状态向量，a_t为输入动作向量，r_t为奖励；

步骤二、输入状态向量[s_t-3,s_t-2,s_t-1,s_t]至卷积神经网络提取图像特征，然后与输入的动作向量a_t进行整合，提取动作特征；

步骤三、使用Q-learning训练一个深度神经网络Q-function Q_θ(s_t,a_t)；

步骤四、构建现实世界策略学习网络，通过迁移学习的方法，将深度神经网络Q-function Q_θ(s_t,a_t)训练好的参数迁移至现实世界策略学习网络中，训练行动条件奖励预测函数

步骤五、输入状态向量[s_t-3,s_t-2,s_t-1,s_t]和H个未来计划行动向量的序列

至

通过一个长短期记忆循环神经网络整合之后，并在将来的每个时间点输出预测的奖励

步骤六、根据预测的奖励

选择接下来的动作实现自主飞行。

进一步，所述深度神经网络Q-function Q_θ(s_t,a_t)中，通过使模拟数据集(s_t,a_t,r)∈D^SIM中的所有状态，动作，奖励，下一状态元组的Bellman误差最小化来更新参数，公式如下：

其中，γ表示折扣因子。

进一步，所述深度神经网络Q-function Q_θ(s_t,a_t)中，通过找到使深度神经网络Q-function Q_θ(s_t,a_t)最大化的动作来选择最佳动作，公式如下：

进一步，使用真实数据集(s_t,a_t,r)∈D^RW更新行动条件奖励预测函数

参数，以最小化奖励预测误差，公式为：

与现有技术相比，本发明的有益效果是：

1、与传统的无人机的自主飞行模型方法相比，本发明通过大量的模拟数据与少量的实际经验相结合的方法，并通过深度强化学习来自动地训练真实世界的避免碰撞策略，更好地了解了无人机的物理特性及其在现实世界中的动力学特性，同时从模拟中学习视觉不变性和通过的图像提取与避障模式。

2、与传统的深度学习框架相比，本发明是将真实世界的经验用于学习如何完成，而模拟经验则用于学习如何进行概括，其中，不是使用实际数据对深度神经网络策略进行微调，而是将模型分为感知和控制子系统，感知子系统从模拟数据中学会传递视觉特征的方法，而控制子系统则使用实际数据进行训练，与传统技术相比，可以将知识从仿真环境转移并更有效地推广到新的实际环境中。

附图说明

图1为本实施例的流程图；

图2为本实施例的框架图。

具体实施方式

下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。

如图1所示的一种通过强化学习技术实现无人机自主飞行的方法，包括如下步骤：

其中，从无人机平台或者使用无人机模拟环境获取模拟数据集(s_t,a_t,r_t)∈D^SIM，从无人机网站或者自己使用无人机从现实世界中收集小型数据集，得到真实数据集(s_t,a_t,r_t)∈D^RW，数据均分为三部分，输入状态向量s_t，输入动作向量a_t和奖励r_t。

其中，卷积神经网络如图2所示，使用8×8×64，步长为4的卷积层得到conv1，conv1使用4×4×32，步长为2的卷积层得到conv2，conv2使用3×3×32，步长为2的卷积层得到conv3，conv3使用3×3×32，步长为2的卷积层得到conv4，conv4通过256维的全连接层得到f1，f1通过128维的全连接层得到f2，后续还包括两个16维的全连接层与3个16维的全连接层。

其中，深度神经网络Q-function Q_θ(s_t,a_t)表示无人机在状态s_t上执行a_t操作并在其后以最佳方式运行时将获得的预期未来期望总额，使用Q-learning算法可以在仿真中访问大量数据，这是进行深度用Q-learning的要求，并且用Q-learning可以学习长期的任务，有利于提升学习到的视觉特征，通过使模拟数据集(s_t,a_t,r)∈D^SIM中的所有状态，动作，奖励，下一状态元组的Bellman误差最小化来更新参数，公式如下：

其中，γ表示折扣因子，且γ∈[0,1)；

另外，通过找到使深度神经网络Q-function Q_θ(s_t,a_t)最大化的动作来选择最佳动作，公式如下：

步骤四、构建现实世界策略学习网络，通过迁移学习的方法，将深度神经网络Q-function Q_θ(s_t,a_t)训练好的参数按照如图2所示的相应模块迁移至现实世界策略学习网络中，训练行动条件奖励预测函数

至

其中，使用真实数据集(s_t,a_t,r)∈D^RW更新行动条件奖励预测函数

参数，以最小化奖励预测误差，公式为：

步骤六、根据预测的奖励

选择接下来的动作实现自主飞行。

基于以上步骤，利用如下实施例对本申请进一步说明：

步骤一、从无人机网站或者自己使用无人机从现实世界中收集小型数据集，对数据进行预处理，主要是对每一个状态s_t下，采取动作a_t后，若发生碰撞则奖励r_t＝-1，否则奖励r_t＝0，数据补充完成之后，分为三部分，输入状态向量s_t，输入动作向量a_t与奖励r_t，得到真实数据集(s_t,a_t,r_t)∈D^RW，从无人机平台或者使用无人机模拟环境获取模拟数据集(s_t,a_t,r_t)∈D^SIM，分为三部分，输入状态向量s_t，输入动作向量a_t与奖励r_t；

步骤二、学习特定于任务的模型，通过利用在仿真中收集的数据与数量有限的实际数据结合来学习实际场景下的控制策略，在每个时间点t处，无人机在状态s_t∈S中在a_t∈A处选择一个动作，并根据未知的条件概率分布T(s_t+1|s_t,a_t)进入下一个状态s_t+1，并接收具体的任务奖励r_t，无人机学习参数向量θ的策略分布π_θ(a_t,s_t)的θ，使得带未来折扣的期望和

最大化，其中折扣因子γ∈[0,1)决定无人机在遥远的将来关心收益的程度，在模拟环境下，我们输入状态向量[s_t-3,s_t-2,s_t-1,s_t]进入图2所示的卷积神经网络中提取图像特征，然后与输入的动作向量a_t进行整合，使用Q-learning训练一个深度神经网络Q-function Q_θ(s_t,a_t)。

步骤三、使用步骤二提取到的图像特征和动作特征，使用Q-learning的方法训练一个深度神经网络Q-function Q_θ(s_t,a_t)，由于飞行是连续的动作，使用连续的四个状态作为输入，即输入状态向量[s_t-3,s_t-2,s_t-1,s_t]，使用8×8×64，步长为4的卷积层得到conv1，conv1使用4×4×32，步长为2的卷积层得到conv2，conv2使用3×3×32，步长为2的卷积层得到conv3，conv3使用3×3×32，步长为2的卷积层得到conv4，conv4通过256维的全连接层得到f1，f1通过128维的全连接层得到f2，输入的动作向量a_t经过两个16维的全连接层后与f2整合后再经过3个16维的全连接层后即可得到当前状态下采取动作a_t后的Q值。

步骤四、开始构建现实世界策略学习网络，通过迁移学习的方法，把步骤三中的已经训练好的参数按照图2所示的相应模块迁移至现实世界策略学习网络中，然后训练行动条件奖励预测函数

步骤五：训练步骤四的模型，输入状态向量[s_t-3,s_t-2,s_t-1,s_t]和H个未来计划行动向量的序列

将

通过两个16维的全连接层后与输入状态向量[s_t-3,s_t-2,s_t-1,s_t]整合在一起，再通过一个长短期记忆循环神经网络即LSTM之后通过三个16维的全连接层即可得到在状态[s_t-3,s_t-2,s_t-1,s_t]下采取H个未来计划行动后预测的奖励

根据预测的奖励选择接下来的动作实现自主飞行。

如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种通过强化学习技术实现无人机自主飞行的方法，其特征在于，包括如下步骤：

步骤四、构建现实世界策略学习网络，通过迁移学习的方法，将深度神经网络Q-function Q_θ(s_t,a_t)训练好的参数按照迁移至现实世界策略学习网络中，训练行动条件奖励预测函数

至

步骤六、根据预测的奖励

选择接下来的动作实现自主飞行。

2.根据权利要求1所述的一种通过强化学习技术实现无人机自主飞行的方法，其特征在于：所述深度神经网络Q-function Q_θ(s_t,a_t)中，通过使模拟数据集(s_t,a_t,r)∈D^SIM中的所有状态，动作，奖励，下一状态元组的Bellman误差最小化来更新参数，公式如下：

其中，γ表示折扣因子。

3.根据权利要求1所述的一种通过强化学习技术实现无人机自主飞行的方法，其特征在于：所述深度神经网络Q-function Q_θ(s_t,a_t)中，通过找到使深度神经网络Q-functionQ_θ(s_t,a_t)最大化的动作来选择最佳动作，公式如下：

4.根据权利要求1所述的一种通过强化学习技术实现无人机自主飞行的方法，其特征在于：使用真实数据集(s_t,a_t,r)∈D^RW更新行动条件奖励预测函数

参数，以最小化奖励预测误差，公式为：