CN110806756A

CN110806756A - 基于ddpg的无人机自主引导控制方法

Info

Publication number: CN110806756A
Application number: CN201910853746.XA
Authority: CN
Inventors: 张堃; 李珂; 赵�权; 时昊天
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2020-02-18
Anticipated expiration: 2039-09-10
Also published as: CN110806756B

Abstract

本发明提供了一种基于DDPG的无人机自主引导控制方法，分别建立无人机三自由度运动模型、无人机机动控制模型、基准地形三维模型和山峰三维模型；计算无人机当前位置下所受地形障碍影响程度值；构建评价网络、策略网络和相应的目标网络，对评价网络和策略网络进行训练；使用训练结果作为无人机飞行控制外环控制器，控制无人机的两向过载和无人机速度倾斜角。本发明将深度强化学习方法与无人机引导控制进行结合，在离线仿真环境中进行学习训练，达到要求后再进行实际应用，极大地增强了无人机在执行任务过程中的自主性，提高了无人机执行任务的效率。

Description

基于DDPG的无人机自主引导控制方法

技术领域

本发明涉及飞行机动控制和人工智能领域，具体涉及一种无人机自主引导控制方法。

背景技术

近年来，随着无人机技术的发展，无人机的性能飞速提高，不论是军用无人机还是民用无人机，各种新技术层出不穷。其中提高无人机自主飞行能力、降低人为干预，避免人为失误是各国无人机科研人员的研究重点。传统无人机的飞行导引控制方法，通常在获取到需求任务区域内应飞航迹后，通过设计一个轨迹跟踪控制器实现无人机的飞行导引，该控制器多采用PID控制、线性二次型调节器、滑膜控制、模型预测控制和自适应控制等方法。但是，当环境发生较大改变时，上述轨迹跟踪控制器均不具备自主解决突发事件的能力，只有无人机操纵者进行手动干预后，无人机才能继续完成任务，该过程极大地影响了无人机执行任务的效率。近年来，由于在电子技术方面的突破性进步，人工智能技术飞速发展，各种人工智能算法不断应用到控制领域。例如，Google公司的DeepMind人工智能小组，创新性地将深度强化学习方法应用到人形机器人的步态控制上并取得了成功；OpenAI实验室基于进化策略方法设计了一系列控制算法并成功商用。深度强化学习是多门学科多个领域交叉结合的产物，最早可以追溯到巴普洛夫的条件反射实验，但直到上世纪九十年代才逐渐被人们应用于自动控制、机器学习等领域。2015年，DeepMind(Google)发布了深度确定性策略梯度算法 (Deep Deterministic Policy Gradient，DDPG)，它是第一个成功地将深度学习和强化学习结合起来应用与连续性控制的模型。DDPG是一种以DQN为基础，考虑确定性策略梯度定理(Deterministic Policy Gradient,DPG)，在Actor-Critic框架下构建的算法，它解决了连续性控制问题，将强化学习方法从离散域扩展到了连续域。

发明内容

为了克服现有技术的不足，本发明提供一种基于DDPG的无人机自主引导控制方法，将DDPG算法用于无人机自主引导上，通过设计的无人机自主引导控制算法与学习训练模型，实现无人机针对外界环境动态调整飞行机动方式，并完成引导控制下的自主飞行。

本发明解决其技术问题所采用的技术方案包括以下步骤：

1)建立无人机三自由度运动模型；

2)建立无人机机动控制模型；

3)建立基准地形三维模型和山峰三维模型；

4)计算无人机当前位置下所受地形障碍影响程度值；

5)构建评价网络Q(s,a)、策略网络μ(s)和相应的目标网络Q′(s,a)、μ′(s)，所述的四个网络均属于深度神经网络；Q(s,a)、Q′(s,a)和μ(s)、μ′(s)分别采用相同的参数进行初始化；

分别对Q(s,a)、Q′(s,a)、μ(s)和μ′(s)的参数进行定义，Q(s,a)网络和Q′(s,a)网络采用三层网络，每层之间神经元两两连接，激活函数使用线性整流函数ReLU；μ(s)网络和μ′(s)网络采用三层网络，每层之间神经元两两连接，激活函数使用双曲正切函数 tanh；

定义状态空间

式中，x,y,z为无人机在地理坐标系中的位置，v为无人机的速度标量，θ为无人机航迹倾斜角，ψ_c为无人机航迹偏转角；

定义动作空间

式中，N_x为无人机在飞机坐标系中的切向过载，N_y为无人机在飞机坐标系中的法向过载，γ_c为无人机的速度轴系倾斜角；

定义收益r＝-(g(X_UAV)+p(X_UAV))，式中，g(X_UAV)为无人机所受飞行环境的影响值，p(X_UAV)为无人机与终点的距离，r为无人机当前的收益；

定义回放经验

式中，s为当前状态，a为当前状态下无人机所选的动作，r为无人机执行a后所得的收益，s′为无人机执行a后的状态；

6)对评价网络Q(s,a)和策略网络μ(s)进行训练；

7)使用训练结果μ′(s；θ^μ′)网络作为无人机飞行控制外环控制器，控制无人机的两向过载N_x、N_y和无人机速度倾斜角γ_c。

所述的无人机三自由度运动模型

式中，N_x为无人机在飞机坐标系中的切向过载，N_y为飞机坐标系中的法向过载，v为无人机速度，θ为无人机航迹倾斜角，ψ_c为无人机航迹偏转角，γ_c为速度倾斜角，x、y和z为无人机在地理坐标系中的三向坐标，m为无人机质量，g为重力加速度。

所述的无人机机动控制模型

式中，N_x为无人机在飞机坐标系中的切向过载，N_y为飞机坐标系中的法向过载，P为发动机推力，Y为无人机所受空气升力， Q为无人机所受空气阻力，m为无人机质量，g为重力加速度。

所述的基准地形三维模型

式中， h(x,y)为(x,y)点对应的地面海拔高度，x的正方向为正东方向，y的正方向为正北方向， h的正方向指向天空，a、b、c、d、e、f和g为常系数，控制基准地形起伏。

所述的山峰三维模型

式中，z为(x,y)点对应的山峰高度，h_i为山峰海拔高度，(x_i,y_i)为山峰中心位置，(x_si,y_si)为山峰在x和y方向上的坡度， n为山峰个数。

所述的无人机当前位置下所受地形障碍影响程度值

式中X_UAV和(x_UAV,y_UAV,z_UAV)为无人机在地理坐标系中的位置坐标，

所述的步骤6)首先初始化存储区域D用于存储经验数据

并初始化Q(s,a；θ^Q)、Q′(s,a；θ^Q′)、μ(s；θ^μ)和μ′(s；θ^μ′)的拓扑结构和节点内使用的激活函数类型；然后设置已训练周期数m和已训练回合数t为0，开始训练M个周期，每个周期中包含T个回合单步训练；在每回合中，选择当前最优的动作

为一种随机过程，采用奥恩斯坦-乌伦贝克过程；将a_t作为无人机的控制输入后，从环境中得到当前的收益r_t和下一时刻状态s_t+1，然后将(s_t,a_t,r_t,s_t+1)存入

中；随后从中随机抽样得到一组历史数据，将

作为目标函数采用Adam算法对 Q(s，a；θ^Q)的参数θ^Q进行优化，同时，采用Adam算法对μ(s；θ^μ)的参数θ^μ进行优化；最后，对Q′(s,a；θ^Q′)和μ′(s；θ^μ′)的参数θ^Q′和θ^μ′分别更新为τθ^Q+(1-τ)θ^Q′和τθ^μ+(1-τ)θ^μ′，τ＜＜1；当完成T个回合单步训练后，即开始下一个周期的训练，当M 个周期训练结束后，则μ′(s；θ^μ′)网络为训练结果。

本发明的有益效果是：创新性地将深度强化学习方法与无人机引导控制进行结合，该方法在离线仿真环境中进行学习训练，达到要求后再进行实际应用。由于深度强化学习的应用，本发明极大地增强了无人机在执行任务过程中的自主性，提高了无人机执行任务的效率。

附图说明

图1是无人机机动策略自主生成问题描述示意图；

图2是强化学习典型模型示意图；

图3是Actor-Critic模型示意图；

图4是DDPG算法结构图；

图5是Q(s,a)网络结构图；

图6是μ(s)网络结构图。

具体实施方式

本发明基于人工智能技术，提出了基于DDPG的无人机自主引导控制方法，该方法在预先建立的任务环境进行训练学习，生成基于环境反馈的无人机控制量，进而引导及控制无人机的飞行机动方式。该方法能够提升无人机自主引导飞行能力，安全快速地从起点飞向终点。

本发明实现过程包括以下步骤：

1、建立无人机三自由度运动模型。

式中，N_x为无人机在飞机坐标系中的切向过载，N_y为飞机坐标系中的法向过载，v为无人机速度，θ为无人机航迹倾斜角，ψ_c为无人机航迹偏转角，γ_c为速度倾斜角，x、 y和z为无人机在地理坐标系中的三向坐标，m为无人机质量，g为重力加速度。

2、建立无人机机动控制模型，无人机的控制量使用如式(2)中所示的过载N_x和N_y进行定义。

式中P为发动机推力，Y为无人机所受空气升力，Q为无人机所受空气阻力。

3、建立基准地形和山峰三维环境模型。

建立基准地形模拟模型，本发明采用数学方法对基准地形进行模拟，如式(3)所示为基准地形生成公式。

式中h(x,y)为(x,y)点对应的地面海拔高度，x的正方向为正东方向，y的正方向为正北方向，h的正方向指向天空，当x、y和h均为0时，为地理坐标系原点，a、b、c、d、 e、f和g为常系数，这些参数控制基准地形起伏。

建立山峰模拟模型，本发明中采用指数函数对山峰进行描述，如式(4)所示。

式中z为(x,y)点对应的山峰高度，用(h_i,x_i,y_i,x_si,y_si)描述第i个山峰的高低、坡度等属性，h_i为山峰海拔高度，(x_i,y_i)为山峰中心位置，(x_si,y_si)为山峰在x和y方向上的坡度， n为山峰个数。

4、计算无人机当前位置下所受地形障碍影响程度值。

本发明中，以无人机离地面距离远近描述无人机所受地形障碍的影响程度值，如式(5)所示。

式中X_UAV和(x_UAV,y_UAV,z_UAV)为无人机在地理坐标系中的位置坐标，g(X_UAV)为无人机所受飞行环境的影响值。在模型计算完成后，输出g(X_UAV)作为飞行环境对无人机的影响值。

5、基于DDPG算法的无人机自主引导控制方法。

5.1、构建评价网络Q(s,a)、策略网络μ(s)和相应的目标网络Q′(s,a)、μ′(s)，在本发明中，四个神经网络均属于深度神经网络(DNN)。此外，Q(s,a)、Q′(s,a)和μ(s)、μ′(s)分别采用相同的参数进行初始化，即在训练前，Q′(s,a)和μ′(s)分别由Q(s,a)和μ(s)复制得到。

分别对Q(s,a)、Q′(s,a)、μ(s)和μ′(s)的参数进行定义。Q(s,a)网络(或Q′(s,a)网络)采用如图5所示结构搭建，即三层网络，每层之间神经元两两连接，激活函数使用线性整流函数ReLU，如式(6)所示。

而μ(s)网络(或μ′(s)网络)采用如图6所示结构搭建，即三层网络，每层之间神经元两两连接，激活函数使用双曲正切函数tanh，如式(7)所示。

5.2、对状态空间

动作空间

收益r和经验

进行定义。

状态空间

使用无人机状态进行描述，定义如式(8)：

式中，x,y,z为无人机在地理坐标系中的位置，v为无人机的速度标量，θ为无人机航迹倾斜角，ψ_c为无人机航迹偏转角，距离单位为m，速度单位为m/s，角度单位为°。

动作空间

为定义在N_x、N_y和γ_c三个维度上的连续空间，定义如式(9)：

式中，N_x为无人机在飞机坐标系中的切向过载，N_y为无人机在飞机坐标系中的法向过载，γ_c为无人机的速度轴系倾斜角。

收益r考虑飞行环境对无人机的影响值和无人机与终点(任务起点、终点位置由实际任务决定)的距离，定义如式(10)：

r＝-(g(X_UAV)+p(X_UAV)) (10)

式中，g(X_UAV)为无人机所受飞行环境的影响值，p(X_UAV)为无人机与终点的距离，r为无人机当前的收益。p(X_UAV)的计算如式(11)：

式中，(x_UAV,y_UAV,z_UAV)为无人机在地理坐标系中的位置坐标，(x_start,y_start,z_start)为在地理坐标系中的起点坐标，(x_end,y_end,z_end)为在地理坐标系中的终点坐标。

回放经验

用于储存无人机所有的经验数据，定义如式(12)：

式中，s为当前状态，a为当前状态下无人机所选的动作，r为无人机执行a后所得的收益，s′为无人机执行a后的状态

6、对评价网络Q(s,a)和策略网络μ(s)进行训练。

6.1、初始化存储区域D用于存储经验数据

并初始化Q(s，a；θ^Q)、Q′(s,a；θ^Q′)、μ(s；θ^m)和μ′(s；θ^μ′)，主要初始化四个网络的拓扑结构和节点内使用的激活函数类型等。网络拓扑结构主要是网络的层数和各层内的节点个数，节点内使用的激活函数可以是Sigmoid、tanh和ReLU等函数。

6.2、开始训练M个周期，由于训练过程基于马尔可夫过程，所以在一个周期中又包含了T个回合单步训练。开始训练前设置已训练周期数m和已训练回合数t为0。

在每回合中，根据式(13)选择当前最优的动作a_t。式(13)如下所示：

式中，

为一种随机过程，用于产生随机噪声，该函数采用奥恩斯坦-乌伦贝克过程。如式(14)为奥恩斯坦-乌伦贝克过程的差分方程表示形式。

dx_t＝θ(μ-x_t)dt+σdW_t (14)

将a_t作为无人机的控制输入后，从环境中得到当前的收益r_t和下一时刻状态s_t+1，然后将(s_t,a_t,r_t,s_t+1)存入中。

随后从

中随机抽样得到一组历史数据，将式(15)作为目标函数采用Adam算法对Q(s,a；θ^Q)的参数θ^Q进行优化，式(15)如下所示：

同时，采用Adam算法对μ(s；θ^μ)的参数θ^μ进行优化，如式(16)所示为目标函数的梯度：

最后，根据式(17)对Q′(s,a；θ^Q′)和μ′(s；θ^μ′)的参数θ^Q′和θ^μ′进行更新。

式中，τ满足τ＜＜1。参数θ^Q′和θ^μ′更新完成后，则t＝t+1，即本回合训练结束，开始下回合训练，重复本环节中所述内容。

6.3、当完成T个回合单步训练(即t＝T)后，则m＝m+1，即开始下一个周期的训练。当M个周期训练结束(即m＝M)后，则μ′(s；θ^μ′)网络为训练结果，可以直接用于无人机的控制。

7、训练完成。使用μ′(s；θ^μ′)网络作为无人机飞行控制外环控制器，控制无人机的两向过载N_x、N_y和无人机速度倾斜角γ_c。

如表1所示为无人机自主引导控制方法的训练流程。

表1无人机自主引导控制方法训练流程

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

1、基于式(18)建立无人机运动模型后，根据实际无人机的生产规格设置无人机模型的部分参数和约束条件，包括了无人机重量m，最小、最大飞行速度(本实例中考虑设为[200m/s,400m/s])，最大爬升角、最大俯冲角(本实例中考虑设为[-60°,70°])，最大转弯半径(本实例中考虑设为1km)。在仿真时，无人机速度应大于最小飞行速度，小于最大飞行速度，无人机航迹倾斜角应被限制在最大爬升角和最大俯冲角之间，无人机航迹偏转角应满足最大转弯半径的约束。

2、建立无人机控制模型，无人机的控制量使用如式(19)所示的过载进行定义。

在本实例中，切向过载N_x被限制在

(本实例中采用[-2.0,5.0])范围中，法向过载N_y被限制在[0,C_y](本实例中采用[0,7.0])范围中。C_x、

和C_y三个参数用于描述无人机的机动性能，C_x代表无人机推力最大时的切向过载，

代表无人机推力最小时的切向过载，C_y代表无人机以最大转弯半径转弯时所产生的法向过载。

3、建立基准地形和山峰等三维环境模型。在本实例中，设置较为平缓的地面基准海拔，设置5个山峰，起点位于环境中左侧，终点位于环境中右侧，地理坐标系原点设置在飞行环境左下角。本实例的目标是实现无人机自主从起点安全快速地飞向终点。

针对地面海拔，采用数学方法进行模拟，如式(20)所示为地面海拔模拟生成公式。

式中的参数a、b、c、d、e、f和g分别可取10～15，0.2～0.6，0.1～0.5，0.6～1.5，1～5， 0.1～0.8，0.1～0.8。

山峰采用指数函数进行描述，其数学模型如式(21)所示。

式中x_si,y_si一般取10～30。

4、计算无人机当前位置下所受地形障碍影响程度值。

如式(22)所示，用无人机离地面距离远近描述无人机所受地形障碍的影响程度。

式中X_UAV和(x_UAV,y_UAV,z_UAV)为无人机在地理坐标系中的位置坐标，在模型计算完成后，输出g(X_UAV)作为飞行环境对无人机的影响值。

5、基于DDPG算法的无人机自主引导控制方法。

5.1、构建评价网络Q(s,a)、策略网络μ(s)和相应的目标网络Q′(s,a)、μ′(s)。在本实例实施过程中，Q(s,a)和Q′(s,a)网络结构为三层，输入为s和a，中间层由64个神经元构成，输出为Q值，激活函数都为ReLU函数；μ(s)和μ′(s)网络结构为三层，输入层为s，中间层由64个神经元构成，激活函数为ReLU函数，输出层为a，激活函数为tanh函数。

5.2、对状态空间

和状态s，动作空间

和动作a，收益r和经验

进行定义。

状态s为一个六维向量，并且如式(23)所示：

式中，x,y,z代表无人机在地理坐标系中的位置，单位为m，v为无人机速度标量，单位为m/s，θ,ψ_c为无人机航迹倾斜角和航迹偏转角，单位为°。

动作a为一个三维向量，并且

如式(24)所示：

式中，N_x和N_y分别代表无人机切向过载与法向过载，无单位，γ_c为无人机速度轴系倾斜角，单位为°。

收益r考虑飞行环境对无人机的影响值和无人机与终点的距离，定义如式(25)：

r＝-(g(X_UAV)+p(X_UAV)) (25)

式中，g(X_UAV)为无人机所受飞行环境的影响值，p(X_UAV)为无人机与终点的距离，r为无人机当前的收益。p(X_UAV)的计算如式(26)：

回放经验

用于储存无人机所有的经验数据，定义如式(27)：

6、对评价网络Q(s,a)和策略网络μ(s)进行训练。如图所示为DDPG算法结构图。

6.1、初始化存储区域D用于存储经验数据并根据第5步中的内容初始化 Q(s,a；θ^Q)、Q′(s,a；θ^Q′)、μ(s；θ^μ)和μ′(s；θ^μ′)。

6.2、开始训练M个周期，每周期内训练T个回合。开始训练前设置已训练周期数m和已训练回合数t为0。

在每个训练回合中，首先根据式(28)和式(29)由μ(s)和

生成动作a_t。

dx_t＝θ(μ-x_t)dt+σdW_t (29)

将a_t作用于环境，然后，将本次的状态数据s、动作数据a、收益r和下一时刻状态s′，即(s,a,r,s′)存入D中。

随后在D中抽样得到一组样本，利用这些样本分别根据式(30)和式(31)采用Adam法更新Q网络参数θ^Q和μ网络参数θ^μ。

最后，根据式(32)更新目标网络Q′(s,a)和μ′(s)的参数θ^Q′和θ^μ′，式中一般取τ∈[0.05,0.1]。

参数θ^Q′和θ^μ′更新完成后，则t＝t+1，即本回合训练结束，开始下回合训练，重复本环节中所述内容。

6.3、当完成T个回合单步训练(即t＝T)后，则m＝m+1，即开始下一个周期的训练。当M周期训练结束(即m＝M)后，则μ′(s；θ^μ′)网络为训练结果，可以直接用于无人机的控制。

7、训练完成后，使用μ′(s；θ^μ′)网络作为无人机飞行控制外环控制器，控制无人机的两向过载N_x、N_y和无人机速度倾斜角γ_c。

本方法结合深度强化学习方法-深度确定性策略梯度算法(DDPG)，针对不确定环境下的无人机自主引导控制问题，提出了基于DDPG的无人机自主引导控制方法。采用本发明中所设计的方法，训练结果具有一定的泛化能力，无人机可以实现自主飞行，安全并快速地从起点飞到终点，极大地增强了无人机在执行任务过程中的自主性，提高了无人机执行任务的效率。

Claims

1.一种基于DDPG的无人机自主引导控制方法，其特征在于包括以下步骤：

1)建立无人机三自由度运动模型；

2)建立无人机机动控制模型；

3)建立基准地形三维模型和山峰三维模型；

4)计算无人机当前位置下所受地形障碍影响程度值；

分别对Q(s,a)、Q′(s,a)、μ(s)和μ′(s)的参数进行定义，Q(s,a)网络和Q′(s,a)网络采用三层网络，每层之间神经元两两连接，激活函数使用线性整流函数ReLU；μ(s)网络和μ′(s)网络采用三层网络，每层之间神经元两两连接，激活函数使用双曲正切函数tanh；

定义状态空间

定义动作空间

定义回放经验式中，s为当前状态，a为当前状态下无人机所选的动作，r为无人机执行a后所得的收益，s′为无人机执行a后的状态；

6)对评价网络Q(s,a)和策略网络μ(s)进行训练；

2.根据权利要求1所述的基于DDPG的无人机自主引导控制方法，其特征在于：所述的无人机三自由度运动模型

3.根据权利要求1所述的基于DDPG的无人机自主引导控制方法，其特征在于：所述的无人机机动控制模型

式中，N_x为无人机在飞机坐标系中的切向过载，N_y为飞机坐标系中的法向过载，P为发动机推力，Y为无人机所受空气升力，Q为无人机所受空气阻力，m为无人机质量，g为重力加速度。

4.根据权利要求1所述的基于DDPG的无人机自主引导控制方法，其特征在于：所述的基准地形三维模型

式中，h(x,y)为(x,y)点对应的地面海拔高度，x的正方向为正东方向，y的正方向为正北方向，h的正方向指向天空，a、b、c、d、e、f和g为常系数，控制基准地形起伏。

5.根据权利要求1所述的基于DDPG的无人机自主引导控制方法，其特征在于：所述的山峰三维模型

式中，z为(x,y)点对应的山峰高度，h_i为山峰海拔高度，(x_i,y_i)为山峰中心位置，(x_si,y_si)为山峰在x和y方向上的坡度，n为山峰个数。

6.根据权利要求1所述的基于DDPG的无人机自主引导控制方法，其特征在于：所述的无人机当前位置下所受地形障碍影响程度值式中X_UAV和(x_UAV,y_UAV,z_UAV)为无人机在地理坐标系中的位置坐标，

7.根据权利要求1所述的基于DDPG的无人机自主引导控制方法，其特征在于：所述的步骤6)首先初始化存储区域D用于存储经验数据

中；随后从中随机抽样得到一组历史数据，将作为目标函数采用Adam算法对Q(s,a；θ^Q)的参数θ^Q进行优化，同时，采用Adam算法对μ(s；θ^μ)的参数θ^μ进行优化；最后，对Q′(s,a；θ^Q′)和μ′(s；θ^μ′)的参数θ^Q′和θ^μ′分别更新为τθ^Q+(1-τ)θ^Q′和τθ^μ+(1-τ)θ^μ′，τ＜＜1；当完成T个回合单步训练后，即开始下一个周期的训练，当M个周期训练结束后，则μ′(s；θ^μ′)网络为训练结果。