CN115097853A

CN115097853A - 一种基于细粒度重复策略的无人机机动飞行控制方法

Info

Publication number: CN115097853A
Application number: CN202210551472.0A
Authority: CN
Inventors: 于津; 樊松源; 詹光
Original assignee: Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Current assignee: Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-09-23
Anticipated expiration: 2042-05-18
Also published as: CN115097853B

Abstract

本申请属于无人机智能控制领域，为一种基于细粒度重复策略的无人机机动飞行控制方法，基于无人机气动力参数构建全量六自由度模型和飞行控制率模块，用于模拟飞行控制环境，而后通过建立马尔科夫决策过程来分析各个控制指令以及对应的奖惩函数，而后通过DDPG算法和细粒度策略网络的结合形成各个控制指令与时间相对应的集合，对无人机进行控制。与传统机动控制器相比较不需要精确的线性化控制建模，能够生成连续的机动控制指令，不存在控制器切换而产生的指令反复跳变等问题。与经典的深度强化学习算法相比，该方法生成的机动飞行控制指令更加平滑，减少飞行任务中的指令有害切换次数，进而能够加快深度强化学习算法的训练速度。

Description

一种基于细粒度重复策略的无人机机动飞行控制方法

技术领域

本申请属于无人机智能控制领域，特别涉及一种基于细粒度重复策略的无人机机动飞行控制方法。

背景技术

无人机机动飞行控制属于无人机智能飞行控制领域，传统的机动飞行控制器采用底层线性控制率和顶层机动逻辑相结合的方式，该方法属于多模态线性控制器的组合使用，具有切换边界不稳定，控制指令存在跳变和对线性化控制模型严重依赖等缺陷。而现有的基于DQN和DDPG等经典深度强化学习算法的智能机动飞行控制器则具有控制指令切换频率快，机动控制策略不平滑等缺点，会给无人机作动器带来灾难性的影响。

因此，如何减少无人机作动器控制指令的切换频率、提高机动控制策略的平滑性是一个需要解决的问题。

发明内容

本申请的目的是提供了一种基于细粒度重复策略的无人机机动飞行控制方法，以解决现有技术中传统的机动飞行控制器控制策略不平滑的问题。

本申请的技术方案是：一种基于细粒度重复策略的无人机机动飞行控制方法，包括：基于无人机气动力参数构建全量六自由度模型和飞行控制率模块，形成机动飞行控制环境模拟器；建立马尔科夫决策过程，设定奖惩函数，进行最优策略的求解；将细粒度策略和DDPG相结合，训练无人机自主机动飞行控制智能体；进行智能机动飞行控制策略部署。

优选地，所述细粒度策略与DDPG的训练方法为：初始化细粒度重复网络θ_x、Actor网络、Actor-target网络的神经网络参数θ_μ，初始化Critic网络、Critic-target网络的神经网络参数θ_φ；根据Actor网络和细粒度重复网络选择无人机控制指令(a,x)并与环境交互，其中a是Actor网络的输出，使用OU随机过程进行探索；x是细粒度重复网络的输出，单位是step，构建n种选择x∈{2⁰,2¹,...,2ⁿ}，使用ε-贪婪策略进行探索；无人机响应模型控制指令(a,x)与环境进行多轮交互，并将产生的样本(s,a,x,r,s',d)存入样本缓冲区；开始训练，从样本缓冲区中随机抽取批数据进行训练，计算Critic神经网络的loss，并更新Critic网络参数；根据链式法则更新细粒度重复网络和Actor网络的参数；采用软更新方式更新Critic-target的网络参数θ_Q'和Actor-target的网络参数θ_μ'。

优选地，所述Critic神经网络的loss的计算方法为：

其中，Q^π(s,a,x)和Q^π'(s,a,x)分别代表Critic网络输出和Critic-target网络输出，

和

分别代表Actor网络和Actor-target网络输出；

代表细粒度重复网络输出。

优选地，所述细粒度重复网络和Actor网络参数的更新算法为：

优选地，所述Critic-target的网络参数θ_Q'和Actor-target的网络参数θ_μ'的更新算法为：

优选地，所述全量六自由度模型的构建方法为：

设定载机为理想刚体，地表面是平面，不考虑地球形状；载机受到的重力恒定不变；不考虑风的因素；无人机的姿态角包括俯仰角、偏航角和滚转角以及三轴角速度，无人机的速度矢量主要包括三轴速度，机体轴与速度轴的夹角为攻角和侧滑角；

定义机体坐标系中机头方向为x轴，z轴垂直于机体向下，y轴由右手定则判定为右机翼方向；俯仰角θ为x轴与水平面夹角，向上为正，向下为负；偏航角ψ为x轴在地面上的投影与北向的夹角，向右为正，向左为负；滚转角φ为z轴与通过x轴的铅垂平面的夹角；载机向右转时为正；三轴角速度中滚转角速度p与x轴重合，俯仰角速度q与y轴重合，偏航角速度r与z轴重合；攻角α是速度向量在载机对称面上的投影与x轴的夹角；侧滑角β为速度向量与飞机对称面的夹角，向右为正，向左为负；

无人机模型为：

其中：

优选地，利用标准动态逆方法构建飞行控制率模块。

优选地，在t＝t₁,t₂,…t_n时刻，所述马尔科夫决策模型为：

其中S为状态空间集合，s和s'表示S中的状态，是S的元素；A(s)为动作集合，所有可能动作a的集合；

为转移概率，采取相应的动作a导致系统的状态由s转移到s'的转移概率，其中a_t∈A,s_t∈S，

为奖惩函数，采取相应的动作a导致系统的状态由s转移到s'所得到的奖惩函数，

本申请的一种基于细粒度重复策略的无人机机动飞行控制方法，基于无人机气动力参数构建全量六自由度模型和飞行控制率模块，用于模拟飞行控制环境，而后通过建立马尔科夫决策过程来分析各个控制指令以及对应的奖惩函数，而后通过DDPG算法和细粒度策略网络的结合形成各个控制指令与时间相对应的集合，对无人机进行控制。与传统机动控制器相比较不需要精确的线性化控制建模，能够生成连续的机动控制指令，不存在控制器切换而产生的指令反复跳变等问题。与经典的深度强化学习算法相比，该方法生成的机动飞行控制指令更加平滑，减少飞行任务中的指令有害切换次数，进而能够加快深度强化学习算法的训练速度。

附图说明

为了更清楚地说明本申请提供的技术方案，下面将对附图作简单地介绍。显而易见地，下面描述的附图仅仅是本申请的一些实施例。

图1为本申请整体流程示意图；

图2为本申请无人机飞行状态和坐标系定义图；

图3为本申请基于细粒度重复策略的无人机机动飞行控制方法示意图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。

一种基于细粒度重复策略的无人机机动飞行控制方法，通过建立细粒度策略网络与DDPG算法相结合的方式进行无人机自动机动飞行的控制，解决由于策略平滑而带来的控制指令频繁切换的问题。

如图1所示，具体包括如下步骤：

步骤S100，基于无人机气动力参数构建机动飞行控制环境模拟器；

无人机机动飞行控制环境模拟器由全量六自由度模型和飞行控制率模块组成，

首先对无人机模型做如下四个假设：载机为理想刚体，其质量一直不变(不考虑油耗)；假设地表面是平面，不考虑地球形状；载机受到的重力恒定不变；不考虑风的因素。无人机的姿态角包括俯仰角、偏航角和滚转角以及三轴角速度，无人机的速度矢量主要包括三轴速度，机体轴与速度轴的夹角为攻角和侧滑角。

如图2所示，定义机体坐标系中机头方向为x轴，z轴垂直于机体向下，y轴由右手定则判定为右机翼方向；俯仰角θ为x轴与水平面夹角，向上为正，向下为负；偏航角ψ为x轴在地面上的投影与北向的夹角，向右为正，向左为负；滚转角φ为z轴与通过x轴的铅垂平面的夹角。载机向右转时为正；三轴角速度中滚转角速度p与x轴重合，俯仰角速度q与y轴重合，偏航角速度r与z轴重合；攻角α是速度向量在载机对称面上的投影与x轴的夹角；侧滑角β为速度向量与飞机对称面的夹角，向右为正，向左为负。

无人机的飞行动力学方程为：

式中

为无人机上的受力总和，由空气阻力，重力和发动机推力组成；m为载机质量；

为无人机速度矢量；

为无人机受到的外力矩之和；

为动量矩。

将合外力F，速度矢量V，和姿态角速率ω写成在机体坐标系中三轴的分量可知：

带入动力学方程则有：

其中I表示无人机转动惯量，变形可得：

其中：

基于上述无人机模型，结合气动力参数，利用标准动态逆方法可以构建飞行控制率模块，响应无人机机动飞行控制算法输出的俯仰角速率/过载指令、滚转角速率指令、油门指令、方向舵指令和减速板指令。

通过全量六自由度的无人机模型和飞行控制率模块能够接收无人机的飞行状态参数，能够模拟飞行环境，为无人机训练提供假象环境。

步骤S200，建立马尔科夫决策过程，设定奖惩函数，进行最优策略的求解；

使用马尔科夫决策过程方法来进行最优策略的求解。在t＝t₁,t₂,…t_n时刻，马尔科夫决策过程可表示如下:

公式中的变量具体含义如下:

s，状态空间集合。s和s'表示S中的状态，是S的元素；A(s)，动作集合，所有可能动作a的集合；

转移概率，采取相应的动作a导致系统的状态由s转移到s'的转移概率，其中a_t∈A,s_t∈S；

奖惩函数，采取相应的动作a导致系统的状态由s转移到s'所得到的奖惩函数，

在无人机机动飞行控制问题中，马尔科夫决策过程的变量含义为：

状态空间集合s由无人机三轴位置矢量、三轴速度矢量、三轴加速度矢量、姿态四元数、攻角、侧滑角和航迹角等机载传感器可观测的状态组成；动作集合A(s)包括俯仰角速率/过载指令、滚转角速率指令、油门指令、方向舵指令和减速板指令；转移概率

即仿真环境是确定性环境，不存在随机过程；奖惩函数

是依据当前无人机的机动飞行任务而定，如快速转弯，爬升俯冲等具有不同的奖惩函数。

通过建立马尔科夫决策过程，能够识别无人机的各个指令，并对无人机机动飞行任务重的各个指令进行评价，根据不同的评价值也就能够对无人机不同的控制指令输出不同的状态量，根据不同的状态量形成不同的飞行状态，从而为能够生成连续的机动控制指令提供基础。

步骤S300，利用DDPG算法和细粒度策略网络对环境进行交互，建立样本缓存区，从样本缓存区中抽取参数，利用DDPG算法获得参数的控制指令和评价值，将评价值输入值细粒度策略网络中获取对应控制指令的持续时间，如此反复，训练无人机自主机动飞行控制智能体；

优选地，本发明提出的基于细粒度重复策略的无人机机动飞行控制方法，其神经网络结构包括细粒度重复网络、Critic网络、Actor网络和Critic-target网络、Actor-target网络，根据链式法则分别对细粒度重复网络，Critic网络和Actor网络进行参数更新，根据软更新的方式更新Critic-target网络和Actor-target网络。

如图3所示，细粒度策略与DDPG的训练方法为：

1)初始化细粒度重复网络θ_x、Actor网络、Actor-target网络的神经网络参数θ_μ，初始化Critic网络、Critic-target网络的神经网络参数θ_φ；

2)根据Actor网络和细粒度重复网络选择无人机控制指令(a,x)并与环境交互，其中a是Actor网络的输出，表示无人机控制动作指令集合，使用OU随机过程进行探索，也就是与Actor网络的输出相加a＝π(s|θ_μ)+OU；x是细粒度重复网络的输出，表示重复当前动作的时间长度，单位是step，构建n种选择x∈{2⁰,2¹,...,2ⁿ}，使用ε-贪婪策略进行探索；

3)无人机响应模型控制指令(a,x)与环境进行多轮交互，并将产生的样本(s,a,x,r,s',d)存入样本缓冲区；

4)开始训练，从样本缓冲区中随机抽取批数据进行训练，计算Critic神经网络的loss，并更新Critic网络参数，Q^π(s,a,x)和Q^π'(s,a,x)分别代表Critic网络和Critic-target网络输出；

和

分别代表Actor网络和Actor-target网络输出；

代表细粒度重复网络输出；

其中，loss函数为：

5)根据链式法则更新细粒度重复网络和Actor网络的参数；

细粒度重复网络和Actor网络的参数更新算法为：

6)采用软更新方式更新Critic-target的网络参数θ_Q'和Actor-target的网络参数θ_μ'，Critic-target的网络参数θ_Q'和Actor-target的网络参数θ_μ'的更新算法为：

在实际的飞机控制中，先对从样本缓存区中抽取的参数进行评价，评价量一部分通过Actor网络的参数输入至Actor网络内，进行控制指令的输出，另一部分通过细粒度重复网络参数输入至细粒度重复网络内，确定该控制指令的持续时间，两者结合形成控制指令与对应持续时间的集合，在训练中将该数据保存，在实际飞行中用于无人机控制器对无人机的实际指令输出，通过该飞行训练，对无人机的自主飞行进行有效模拟，不断修正模型。

步骤S400，将训练完成的DDPG算法和细粒度策略网络部署至无人机中，进行智能机动飞行控制策略部署。

满足机动飞行训练指标后，保存细粒度重复网络

和Actor-target网络

并在真实无人机上部署。基于细粒度重复策略的无人机机动飞行控制算法输入为无人机机载传感器实时测量的环境状态量state，包括无人机位置矢量、速度矢量、加速度矢量、姿态四元数、攻角、侧滑角和航迹角；输出为(a,x)，其中

即在x个环境step内执行控制指令a。

在无人机的飞行中，无人机将实际采集的参数输入至DDPG算法中，DDPG算法通过Actor网络计算得出的控制指令如快速左转弯，Critic对采集的参数进行评价，将评价量输入至细粒度重复网络中，细粒度重复网络通过采集的参数判断出左侧一定距离内为危险区域，最多能够左转弯的时间为1min，这样无人机得到的该指令为{快速左转弯、1min}，在该指令结束之前，无人机不会指令其它的指令，而不会像现有的无人机那样会产生反复的左右转弯指令。在该指令结束之后，才会根据后续的参数判断后续需要指令的控制指令。

本申请通过先基于无人机气动力参数构建全量六自由度模型和飞行控制率模块，用于模拟飞行控制环境，而后通过建立马尔科夫决策过程来分析各个控制指令以及对应的奖惩函数，而后通过DDPG算法和细粒度策略网络的结合形成各个控制指令与时间相对应的集合，对无人机进行控制。与传统机动控制器相比较不需要精确的线性化控制建模，能够生成连续的机动控制指令，不存在控制器切换而产生的指令反复跳变等问题。与经典的深度强化学习算法相比，该方法生成的机动飞行控制指令更加平滑，减少飞行任务中的指令有害切换次数，进而能够加快深度强化学习算法的训练速度。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。