CN113848974A

CN113848974A - 一种基于深度强化学习的飞行器轨迹规划方法及系统

Info

Publication number: CN113848974A
Application number: CN202111144858.1A
Authority: CN
Inventors: 呼卫军; 全家乐; 马先龙
Original assignee: Northwestern Polytechnical University
Current assignee: Xi'an Innno Aviation Technology Co ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-12-28
Anticipated expiration: 2041-09-28
Also published as: CN113848974B

Abstract

一种基于深度强化学习的飞行器轨迹规划方法及系统，包括以下步骤：无人机利用模拟激光点云在飞行环境中交互产生态势信息；态势信息传入网络模型生成无人机执行机构动作；无人机执行动作得到下一时刻态势信息以及奖励信息；神经网络模型根据由奖励信息的态势‑动作值函数更新网络参数；判断飞行轨迹是否到达目标点，若是，规划结束，否则神经网络产生新的动作，无人机进行下一次态势更新。本发明利用深度强化学习方法对飞行器在复杂障碍下的轨迹规划问题进行研究，实现在信息不完备情境下更加自主，更加可靠、更加智能的轨迹规划。

Description

一种基于深度强化学习的飞行器轨迹规划方法及系统

技术领域

本发明属于机器学习路径规划技术领域，特别涉及一种基于深度强化学习的飞行器轨迹规划方法及系统。

背景技术

近年来，无人机技术已逐渐成熟，研究热点已从无人机开发变为如何更好地使用无人机执行各种复杂任务，如航空摄影，交通巡逻，检查，危险区域检查和救灾。随着飞行器任务场景的复杂化，飞行器需要在飞行过程中根据环境变化自主规划飞行轨迹。传统的预先设计的飞行器轨迹严重依赖于已知的环境的先验知识，例如专利CN111707269A中需要全局障碍信息参与轨迹规划，无法适应信息不完备的复杂任务。而专利CN106595671ACN112506216A将飞行空域离散为网格，利用强化学习，粒子搜索等方法进行规划，这些方法存在规划精度不高的问题，规划的轨迹往往多为可行解而不是最优解。如何能使飞行器更加智能化，实现复杂环境下飞行轨迹的自主决策成为了研究热点。

发明内容

本发明的目的在于提供一种基于深度强化学习的飞行器轨迹规划方法及系统，以解决上述问题。

为实现上述目的，本发明采用以下技术方案：

一种基于深度强化学习的飞行器轨迹规划方法，包括以下步骤：

无人机利用模拟激光点云在飞行环境中交互产生态势信息，包括自身信息和部分障碍信息；

态势信息传入网络模型生成无人机执行机构动作；

无人机执行动作得到下一时刻态势信息以及奖励信息；

神经网络模型根据由奖励信息的态势-动作值函数更新网络参数；

判断飞行轨迹是否到达目标点，若是，规划结束，否则神经网络产生新的动作，无人机进行下一次态势更新。

进一步的，无人机利用模拟激光点云在飞行环境中交互产生态势信息包括：建立无人机运动学模型，建立模拟激光电云传感器模型，初始化无人机飞行态势和传感器初值。

进一步的，建立模拟激光电云传感器模型具体包括：飞行器正前方为传感器正方向，将传感器初值归一化为D，值为1，被探测到的障碍物与无人机之间的距离在0～1之间；在机体坐标系下，利用海伦面积公式解算模拟雷达探测范围中障碍的方位，通过坐标变换将机体坐标系下的雷达数据转换为地面坐标系，作为神经网络的另一部分输入信息；传感器数量为m，雷达数据表示为一维数组，数值在0～1之间；传感器与障碍物距离为OA，传感器顶端与障碍物距离为OB；障碍物半径为R；利用传感器与障碍物距离Dis判断传感器与障碍物是否相交，并由此确定障碍物相对于飞行器的位置。

进一步的，生成无人机执行机构动作具体为：

飞行器方位信息与传感器信息向量作为神经网络输入数据训练规划决策模型；

神经网络模型采用长短期记忆网络LSTM结合深度神经网络DNN的神经网络模型作为非线性函数拟合器拟合规划策略；神经网络模型使用一层LSTM网络将归一化的态势信息转化为数据特征并存储，得到的数据特征输入深度神经网络层DNN，输出飞行器动作指令。

进一步的，监督网络作为评估飞行器在某状态下采取某动作的价值，监督网络的输入为动作网络输入信息和输出信息，即飞行器状态信息与动作值；监督网络输出当前状态采取当前动作的动作值函数Q(s,a)；其中，Q(s，a)为s态势下采取动作a所得的状态-动作值函数。

进一步的，神经网络超参数包括学习率、折扣因子、批量数、经验池容量；神经网络在层与层之间均采用ReLU激活函数，神经网络梯度下降采用Adam优化器来优化神经网络，采用min-max归一化方法，将实时位置信息、速度信息、相对距离数据输入整合为无量纲标量。

进一步的，神经网络模型根据由奖励信息的态势-动作值函数更新网络参数：

定义初始点与目标点矢量形式为Vector₀，则位置奖励函数R_position表示为

设当前质心位置分量为X,Y,Z，目标点坐标分量EX,EY,EZ，起始点为OX，OY，OZ，位置奖励函数，具体形式如下：

根据高斯分布建模避障项，根据当前位置N相对防御模型位置B求得二者相对距离D_BN；D_BN越小表示被拦截风险越高，智能体将会获得更多的惩罚项

目标引导项：

R_triplet＝[|Vector|²-D² _BN-α]₊ (0.8)

[·]₊符号表示当[·]内的值大于0的时候，函数值正常输出，反之则输出为0。

进一步的，一种基于深度强化学习的飞行器轨迹规划系统，包括：

态势信息生成模块，用于无人机利用模拟激光点云在飞行环境中交互产生态势信息，包括自身信息和部分障碍信息；

执行机构动作生成模块，用于态势信息传入网络模型生成无人机执行机构动作；

奖励信息模块，用于无人机执行动作得到下一时刻态势信息以及奖励信息；

网络参数更新模块，用于神经网络模型根据由奖励信息的态势-动作值函数更新网络参数；

判断模块，用于判断飞行轨迹是否到达目标点，若是，规划结束，否则神经网络产生新的动作，无人机进行下一次态势更新。

与现有技术相比，本发明有以下技术效果：

本发明利用深度强化学习方法对飞行器在复杂障碍下的轨迹规划问题进行研究，实现在信息不完备情境下更加自主，更加可靠、更加智能的轨迹规划，将深度强化学习和飞行器轨迹规划结合起来的智能轨迹规划技术主要应用于飞行器在不确定环境、存在参数扰动或者突发的故障等情况下，克服各种干扰和威胁，通过智能决策系统进行在线自主轨迹规划，实时改变飞行策略，从而确保飞行器稳定完成飞行任务，有效提高飞行器的生存能力。

附图说明

图1传感器结构图；

图2传感原理示意图；

图3神经网络结构图

图4流程图；

具体实施方式

以下结合附图对本发明进一步说明：

请参阅图1至图4，本发明实例提供一种无人机的轨迹规划方法，所述轨迹规划方法包括：

态势信息传入网络模型生成无人机执行机构动作；

无人机执行动作得到下一时刻态势信息以及奖励信息；

关键技术：

1.激光雷达模型：

设计一种具有一定探测范围的束状激光雷达模型，在探测范围内飞行器能够感知障碍方位信息。如图1所示。

飞行器正前方为传感器正方向。该模型能够在设定的长度、角度范围内，探测无人机所处环境，模型范围内障碍物相对于无人机的方位信息。将传感器初值归一化为D，值为1。被探测到的障碍物与无人机之间的距离在0～1之间。在机体坐标系下，利用海伦面积公式解算模拟雷达探测范围中障碍的方位。通过坐标变换将机体坐标系下的雷达数据转换为地面坐标系，作为神经网络的另一部分输入信息。传感器数量为m，雷达数据表示为一维数组[n₁,n₂,n₃,...n_m]，数值在0～1之间。模型感知障碍物的原理图如图2。其中，传感器与障碍物距离为OA，传感器顶端与障碍物距离为OB；障碍物半径为R。利用传感器与障碍物距离Dis判断传感器与障碍物是否相交，并由此确定障碍物相对于飞行器的位置。

2.动作-监督双神经网络：

飞行器方位信息与传感器信息向量作为神经网络输入数据训练规划决策模型。

神经网络模型采用长短期记忆网络LSTM结合深度神经网络DNN的神经网络模型作为非线性函数拟合器拟合规划策略。神经网络模型使用一层LSTM网络将归一化的态势信息转化为数据特征并存储，得到的数据特征输入深度神经网络层DNN，输出飞行器动作指令。

监督网络作为评估飞行器在某状态下采取某动作的价值。因此，监督网络的输入为动作网络输入信息和输出信息，即飞行器状态信息与动作值。监督网络输出当前状态采取当前动作的动作值函数Q(s,a)。其中，Q(s，a)为s态势下采取动作a所得的状态-动作值函数。

神经网络超参数包括学习率、，折扣因子、批量数、经验池容量。

神经网络在层与层之间均采用ReLU激活函数，神经网络梯度下降采用Adam优化器来优化神经网络。由于本文数据集较大，所以神经网络采用dropout正则化来防止过拟合现象的发生。为避免网络梯度的爆炸风险，采用min-max归一化方法，将实时位置信息、速度信息、相对距离等数据输入整合为无量纲标量。

在训练阶段，神经网络需要大量数据对神经网络进行更新。而在飞行器与环境交互的过程中，由于飞行器状态转换概率为1，即确定的动作指令得到确定且唯一的状态值，在状态S下，神经网络采用贪婪策略采取Q值最大的动作。在此过程中，神经网络易陷入局部最优解。因此在输出飞行器动作指令时，加入探索机制，根据领域知识评估当前动作在参数空间中的优劣程度，并将评估结果作为探索程度的一项决定因素。与目标点参数误差能够直观表征动作的优劣程度，作为模型探索幅度，利用当前动作指令输出与建立高斯分布：

为经过探索后的动作指令。探索范围取决于飞行器与目标点误差的大小。当飞行器距离目标点远时，探索幅度大而当飞行器距离目标点远时探索幅度随之变小以避免无效探索。同时这种探索能够有效增加数据多样性，加快神经网络收敛速度。

4.奖励函数：

当前位置与目标点的三维矢量作为智能体的一种形式化奖励能够很好地避免稀疏奖励所带来的弊端。定义初始点与目标点矢量形式为。则位置奖励函数表示为

设当前质心位置分量为，目标点坐标分量，起始点为，位置奖励函数，具体形式如下：

根据高斯分布建模避障项，根据当前位置N相对防御模型位置B求得二者相对距离。越小表示被拦截风险越高，智能体将会获得更多的惩罚项

目标引导项：为了让既能避开障碍物B又能快速靠近目标点，受Triplet损失函数的设计思想启发，目标引导项公式所示：

R_triplet＝[|Vector|²-D² _BN-α]₊ (5.65)

符号表示当内的值大于0的时候，函数值正常输出，反之则输出为0。

进一步的，所述方法包括态势信息的数据处理，神经网络超参数设计；飞行障碍设计。

进一步的，所述无人机利用模拟激光点云在飞行环境中交互产生态势信息包括：建立无人机运动学模型；建立模拟激光电云传感器模型，初始化无人机飞行态势和传感器初值；

进一步的，所述态势信息传入神经网络模型生成执行机构动作包括：搭建神经网络模型；初始化神经网络权重；神经网络超参数设计。

步骤一：

搭建动作-监督双网络模型并初始化网络权重；初始化经验池容量

步骤二：

初始化飞行器态势信息s，包括飞行器位置信息【＝】，速度信息，航迹倾角航机偏角，飞行器与目标再入点距离误差信息、虚拟雷达信息。

步骤三：

态势信息s输入actor神经网络，得到飞行器动作指令a。

态势信息s与飞行器动作指令a输入监督神经网络，得到Q(s,a)。

步骤四：

动作指令a输入飞行器模型得到下一时刻态势信息s_

步骤五：

根据s_计算奖励值r

步骤六：

存储[s，a，r，s_]至经验池

步骤七：

s_传递当前状态s，若经验池数量大于经验池设置阈值，进行步骤八；若小于经验池设置阈值，进行步骤九

步骤八：

利用经验池中存储的[s，a，r，s_]数组更新动作网络；

利用经验池中存储的[s，a，r，s_]数组更新监督网络；

步骤九：

判断飞行器是否到达目标点：若是，训练结束，若不是，进行步骤三

实例1：

步骤一：

初始化动作网络权重；初始化目标网络权重；初始化经验池容量为20000.

进一步的，动作网络与价值网络结构均为三层深度神经网络DNN，各隐层神经元个数选择如下表所示：

神经网络结构

神经网络参数设置

步骤二：

初始化飞行器态势信息s。

进一步的，初始化飞行器态势信息包括初始化飞行器位置信息x,y,z，速度信息Vx,Vy,Vz，航迹倾角θ航机偏角

飞行器与目标再入点距离误差信息ex,ey,ez、虚拟雷达信息[n₁,n₂,...n_m]。

进一步的，所述初始化虚拟雷达信息的过程为：设置虚拟感知传感器范围为180°，飞行器正前方为正方向，传感器均匀分布在飞行器前方半圆形区域；

步骤三：

态势信息s输入actor神经网络，得到飞行器动作指令a。

进一步的，Q*(s₁,a₁)＝Q(s₁,a₁)+γ(R+max(Q(s₂,a₂)))-Q(s₁,a₁)

步骤四：

动作指令a输入飞行器模型得到下一时刻态势信息s_

步骤五：

根据s_计算奖励值R。

进一步的，奖励函数分为位置奖励函数R_position避障奖励函数R_barrier。

其中，位置奖励函数计算过程为：

根据高斯分布建模避障项R_barrier，根据当前位置N相对防御模型位置B求得二者相对距离D_BN。D_BN越小表示被拦截风险越高，智能体将会获得更多的惩罚项

步骤六：

存储[s，a，r，s_]至经验池

步骤七：

步骤八：

利用经验池中存储的[s，a，r，s_]数组更新动作网络；

利用经验池中存储的[s，a，r，s_]数组更新监督网络；

步骤九：

判断飞行器是否到达目标点：若是，训练结束，若不是，进行步骤三。

Claims

1.一种基于深度强化学习的飞行器轨迹规划方法，其特征在于，包括以下步骤：

态势信息传入网络模型生成无人机执行机构动作；

无人机执行动作得到下一时刻态势信息以及奖励信息；

2.根据权利要求1所述的一种基于深度强化学习的飞行器轨迹规划方法，其特征在于，无人机利用模拟激光点云在飞行环境中交互产生态势信息包括：建立无人机运动学模型，建立模拟激光电云传感器模型，初始化无人机飞行态势和传感器初值。

3.根据权利要求2所述的一种基于深度强化学习的飞行器轨迹规划方法，其特征在于，建立模拟激光电云传感器模型具体包括：飞行器正前方为传感器正方向，将传感器初值归一化为D，值为1，被探测到的障碍物与无人机之间的距离在0～1之间；在机体坐标系下，利用海伦面积公式解算模拟雷达探测范围中障碍的方位，通过坐标变换将机体坐标系下的雷达数据转换为地面坐标系，作为神经网络的另一部分输入信息；传感器数量为m，雷达数据表示为一维数组，数值在0～1之间；传感器与障碍物距离为OA，传感器顶端与障碍物距离为OB；障碍物半径为R；利用传感器与障碍物距离Dis判断传感器与障碍物是否相交，并由此确定障碍物相对于飞行器的位置。

4.根据权利要求1所述的一种基于深度强化学习的飞行器轨迹规划方法，其特征在于，生成无人机执行机构动作具体为：

5.根据权利要求1所述的一种基于深度强化学习的飞行器轨迹规划方法，其特征在于，监督网络作为评估飞行器在某状态下采取某动作的价值，监督网络的输入为动作网络输入信息和输出信息，即飞行器状态信息与动作值；监督网络输出当前状态采取当前动作的动作值函数Q(s,a)；其中，Q(s，a)为s态势下采取动作a所得的状态-动作值函数。

6.根据权利要求1所述的一种基于深度强化学习的飞行器轨迹规划方法，其特征在于，神经网络超参数包括学习率、折扣因子、批量数、经验池容量；神经网络在层与层之间均采用ReLU激活函数，神经网络梯度下降采用Adam优化器来优化神经网络，采用min-max归一化方法，将实时位置信息、速度信息、相对距离数据输入整合为无量纲标量。

7.根据权利要求1所述的一种基于深度强化学习的飞行器轨迹规划方法，其特征在于，神经网络模型根据由奖励信息的态势-动作值函数更新网络参数：

目标引导项：

R_triplet＝[|Vector|²-D² _BN-α]₊ (0.4)

8.一种基于深度强化学习的飞行器轨迹规划系统，其特征在于，基于权利要求1至7任意一项所述的一种基于深度强化学习的飞行器轨迹规划方法，包括：