CN114237268A

CN114237268A - 一种基于深度强化学习的无人机强鲁棒姿态控制方法

Info

Publication number: CN114237268A
Application number: CN202111398855.0A
Authority: CN
Inventors: 呼卫军; 全家乐
Original assignee: Nantong Yinnuo Aviation Technology Co ltd
Current assignee: Nantong Yinnuo Aviation Technology Co ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-03-25

Abstract

本发明公开了一种基于深度强化学习的无人机强鲁棒姿态控制方法，提出利用贝叶斯概率模型更好地模拟真实飞行环境中的干扰与不确定性，将拟合的飞行器动力学模型作为基于DDPG算法的强化学习框架的输入，并通过与飞行器数字模型随机抽取以及飞行器真实飞行数据采集的多样的飞行数据交互更新神行网络参数；输出为飞行器舵机构，包括方向舵、升降舵以及副翼。本发明的贝叶斯神经网络能够提高飞行器模型的精确度，使之更加逼近真实飞行环境；并基于神经网络的控制系统能够利用泛化能力提高在飞行器在各种干扰环境下的控制效果；而且离线训练完成的控制器能够快速移植到各种机载平台，具有很高的实用价值。

Description

一种基于深度强化学习的无人机强鲁棒姿态控制方法

技术领域

本发明属于无人机姿态控制技术领域，涉及一种基于深度强化学习的无人机强鲁棒姿态控制方法。

背景技术

近年来，固定翼无人机控制技术趋于成熟。传统的无人机姿态控制系统，如PID/滑模控制及其优化变量等方法，在许多仅处于稳定状态的情况下，都表现出了优异的性能。例如：CN113485437A使用神经网络调节PID参数以适应不同飞行环境，但当无人机处于动态变化环境中时控制器将出现抖动甚至发散；CN111857171B利用状态方程构造神经网络求解最优解，但在某些非线性的复杂环境中对于惯性强对象时控制效果欠佳；CN113359440A利用隐式动力学将无人机控制问题转化为求解时变二阶系统的控制输入参数，但该方法理论复杂，计算量大，且当环境出现强烈时变特性时，控制效果可能产生严重的滞后震荡现象。因此，多数传统控制均算法基于数字六自由度模型设计控制器，但由于数字模型与真实环境之间存在环境误差，传统算法的可迁移性以及控制效果大打折扣。

随着任务复杂性的增加、恶劣多变的环境以及无人机参数的变化(机身故障、有效载荷、电压下降等)，无人机控制系统仍然需要更加智能化，这意味着控制器需要在参数或环境是不确定的飞行环境中实现对无人机的稳定控制以确保控制器的鲁棒性。

发明内容

本发明解决的问题在于提供一种基于深度强化学习的无人机强鲁棒姿态控制方法，利用深度强化学习框架与贝叶斯神经网络概率动力学模型结合实现对于固定翼无人机飞行姿态的强鲁棒控制。

本发明是通过以下技术方案来实现：

一种基于深度强化学习的无人机强鲁棒姿态控制方法，包括以下操作：

1)采集飞行器飞行数据及仿真飞行数据，其中包括飞行器状态s_t与动作a_t对应状态 s_t+1的数据流；

在真实飞行数据与仿真飞行数据中分别加入设定权重，构成飞行器的数字模型；

然后将将数字模型中飞行器各状态量归一化预处理为0～1之间的无量纲数值；

2)将预处理之后的飞行器数字模型作为贝叶斯神经网络的输入，随机初始化网络权重分布，由其拟合引入环境不确定性的飞行器动力学模型；

3)将拟合的飞行器动力学模型作为基于DDPG算法的强化学习框架的输入，并通过与飞行器数字模型随机抽取以及飞行器真实飞行数据采集的多样的飞行数据交互更新神行网络参数；输出为飞行器舵机构，包括方向舵、升降舵以及副翼；

其中，飞行器姿态控制器的训练任务通过控制舵偏角及力矩使得飞行器的姿态角到达预设的目标值且保持稳定；奖励函数设置为：

其中eps是设定的误差精度，r_d为达到姿态角精度之后的正数奖励值，s_i+1和s_d分别为当前状态和期望状态；

为当前姿态角，

为目标姿态角，θ_max为姿态角限幅最大值，θ_min为姿态角限幅最小值；

4)在基准模型中训练收敛后，使用离线控制器测试神经网络控制模型测试在标称状态、飞行包络外姿态初始化、固定突变干扰、高斯噪声干扰以及ou噪声干扰下的控制效果。

所述飞行器的数字模型中，真实飞行数据数量初始权重为0.9，数字模型数量权重为 0.1，随着神经网络训练时长的增加，真实飞行数据权重值递减至0.1，数字模型采集权重值增大至0.9；

还采用min-max归一化方法，将数字模型中包括实时位置信息、速度信息、相对距离在内的数据整合为无量纲标量。

所述飞行器数字模型作为贝叶斯神经网络的输入，其包括飞行器状态与执行机构的以下变量：飞行器状态包括滚转角，俯仰角、偏航角以及对应的角速度；飞行器执行机构为三个气动舵机构；

贝叶斯神经网络拟合后的输出为下一时刻飞行器各状态量的增量，即下一时间步后姿态角与姿态角速度的增量；

所述真实飞行数据，由飞手随机操作生成；

仿真飞行数据，基于数字模型采集20000条数据流，执行机构指令均在约束范围内；攻角和侧滑角为小量，都设为定值：α＝1°，β＝1°。

所述的贝叶斯神经网络为双层各64节点的小型贝叶斯神经网络，其搭建包括以下操作：

21)提取神经网络参数，包括各节点中权重与偏置构成的高斯分布模型以及神经网络层数和各层神经元个数；

22)构造双层神经网络，每层神经元个数为64；

23)将神经网络参数导入双层神经网络；神经网络在层与层之间均采用ReLU激活函数，神经网络梯度下降采用Adam优化器来优化神经网络；并采用dropout正则化拟合现象的发生；

23)飞行器各通道姿态与期望姿态指令的差构成输入数据向量，控制模型产生飞行器执行机构，即三个控制舵的控制指令。

所述对DDPG算法结构的部分参数做出调整：扩大经验池容量R以使初期探索更加充分；减小学习率使算法不易收敛至较差的局部最优；减小软更新参数τ使网络参数θ配合较小的学习率缓慢变化。

所述将DNN神经网络构建的姿态控制器的输入参数设置为误差量能够提高模型的泛化能力，训练单个目标状态至收敛后，神经网络能够在训练数据包含的飞行包络中实现全局收敛；训练完成后的神经网络模型将直接开环对飞行器姿态进行控制。

与现有技术相比，本发明具有以下有益的技术效果：

本发明提供的基于深度强化学习的无人机强鲁棒姿态控制方法，提出了利用贝叶斯神经网络(BNN)，将切向风、飞行器执行机构误差等环境误差引入基于强化学习的飞行器姿态控制决策序列(马尔科夫决策链)，模拟真实飞行环境中的不确定性，使得之后的学习、训练更贴近于真实环境，克服数字模型与真实环境之间存在环境误差；

进一步，本发明将深度强化学习框架与贝叶斯神经网络概率动力学模型结合，利用强化学习交互框架构建飞行姿态与执行机构的端到端的动态映射关系，每一组[滚转、俯仰、偏航]飞行器姿态误差对应一组飞行器舵机构[副翼、升降舵、方向舵]的数值指令以消除姿态误差；

本发明通过强化学习交互框架端对端的解决飞行器姿态控制问题，不考虑飞行器模型本身的运行方式，只关心控制端到姿态端的直观数据，并不对模型本身为基础做任何求解性质的处理计算，能够弱化模型耦合带来的控制器量化问题，利用神经网络的泛化能力提升控制效果。

本发明提高了控制器在环境不确定情形下的适应能力和响应速度，拓展飞行包络以适应更加复杂的飞行任务。

附图说明

图1为本发明的流程示意图；

图2为贝叶斯神经网络示意图；

图3为数字模型构建示意图；

图4为动作策略网络添加噪声示意图；

图5为DDPG算法示意图；

图6a为标称模型下姿态角变化曲线，图6b为标称模型下角速度变化曲线；

图7a为大初始角度姿态角变化曲线，图7b为大初始角度角速度变化曲线；

图8a为常值噪声干扰下姿态角变化曲线，图8b为常值噪声干扰下角速度变化曲线；

图9a为高斯噪声干扰下姿态角变化曲线，图9b为高斯噪声干扰下角速度变化曲线；

图10a为OU噪声干扰下姿态角变化曲线，图10b为OU噪声干扰下角速度变化曲线；

图11a为气动参数扰动时姿态角变化曲线，图11b为气动参数扰动时角速度变化曲线。

具体实施方式

下面结合实施例对本发明做进一步详细描述，所述是对本发明的解释而不是限定。

本发明提供了一种基于深度强化学习的无人机强鲁棒姿态控制方法，包括以下操作：

为当前姿态角，

下面对各部分进行详细的说明。

1、贝叶斯神经网络模拟真实飞行环境

a、本发明使用贝叶斯神经网络(BNN)拟合飞行器动力学模型，通过利用BNN的不确定性量化能力将确定的六自由度模型概率化，模拟真实飞行环境中的不确定性。

贝叶斯神经网络是利用高斯分布为神经网络的权重引入不确定性进行正则化，集成各节点权重分布上的无穷多组神经网络进行预测，该模型能够使设计的控制器的控制效果更加贴近真实环境，以便于将训练好的离线控制器迁移至嵌入式等平台并保持强鲁棒性能。

b、采集飞行器飞行数据，即飞行器状态s_t与动作a_t对应状态s_t+1的数据流。

由于真机数据有限，无法完整描述飞行器状态转换关系，因此本发明引入飞行器参数相同的数字模型，在真实飞行数据与仿真数据中分别加入不同的权重：真实飞行数据初始权重为0.9，数字模型权重为0.1，随着神经网络训练的时长增加，真实飞行数据权重值递减至0.1以避免出现网络过拟合现象，数字模型采集权重逐渐增大至0.9以增加数据多样性；这样既能够补偿真实飞行数据的局限性，也能够保持数据的真实度，尽可能完整描述飞行器状态转换过程。

c、数据预处理过程为：将飞行器姿态以及姿态角速度等状态变量根据变量自身变化范围归一化为0～1之间的无量纲数据以便计算网络梯度。

d、使用全连接网络来拟合数据，相当于使用多个全连接网络。BNN把概率建模和神经网络结合起来，并能够给出预测结果的置信度。但是神经网络容易过拟合，泛化性差；并且对预测的结果无法给出置信度。因此，先验预先得到的飞行数据将用来描述关键参数，并作为神经网络的输入。神经网络的输出用来描述特定的概率分布的似然，通过采样或者变分推断来计算后验分布。同时，和神经网络不同，贝叶斯神经网络权重不再是一个确定的值，而是一个概率分布。

神经网络在层与层之间均采用ReLU激活函数，神经网络梯度下降采用Adam优化器来优化神经网络。由于数据集较大，所以神经网络采用dropout正则化来防止过拟合现象的发生。为避免网络梯度的爆炸风险，采用min-max归一化方法，将实时位置信息、速度信息、相对距离等数据输入整合为无量纲标量。

本发明采用双层神经网络，每层神经元个数为64。随机初始化网络权重分布，拟合真实飞行环境。

2、深度强化学习框架

DDPG(Deep Deterministic Policy Gradient)算法使用Actor-Critic结构，采用神经网络来表示策略网络和评价网络，但其策略网络输出的是一个确定的动作，而不是值函数，并且输出的动作是一个连续量。

Actor来选择动作，Critic判断选择的动作是否合适。在这一过程中Actor不断迭代， Critic也不断迭代，设θ^μ为策略网络Actor的神经网络参数，θ^Q为评价网络Critic的神经网络参数，根据策略梯度更新Actor的参数：

其中，N为批处理数量，Q(s,a|θ^Q)为状态s下选择动作a的动作值函数，μ(s|θ^μ)为动作策略网络，μ输出的动作；

策略网络和评价网络都各自由两个神经网络组成，设Actor和Critic的目标网络参数分别为μ′和Q′，Critic的更新参数以及损失函数为：

Actor和Critic的目标网路和现实网络的参数更新采用软更新的方式：

其中τ为更新速率，由于是软更新，所以τ一般设置为靠近0的数，这样目标网络的参数 θ在每次训练的时候不会发生太大的变化，只会受训练模型的小幅影响。

另外DDPG算法采用的是离线学习(off-policy)方法，针对连续动作控制问题，需要给初始动作策略添加噪声来进行探索，探索噪声示意图如图4，范围更广的探索过程可以使得应用DDPG算法的智能体在训练初期尝试更多的动作来获取有效的学习反馈。

DDPG算法常采用呈正态分布的高斯噪声ε～N(0,σ²)，这种方法简单易行，添加高斯噪声后的执行策略为：

π_θ,new(s_t)＝π_θ(s_t)+N(π_θ(s_t),σ²) (4)

Ornstein-Uhlenbeck噪声为一种新的随机噪声，也称OU过程。OU过程是一种贯序相关的过程，特别适合于惯性系统，尤其是时间离散化粒度较小的情况。OU noise是自相关的，后一步的噪声受前一步的影响，可以提高在惯性系统中的控制任务的探索效率。

OU过程满足如下微分方程：

dx_t＝-θ(x_t-μ)dt+σdW_t (5)

其中μ为均值，θ＞0,σ＞0均为参数，W_t为维纳过程，也是服从高斯分布的。

设置噪声随着训练回合数的增加而不断减小，训练前期的探索幅度会大一点，在后期会回归正常的DDPG探索过程，添加噪声后的动作μ_new为：

μ_new(s_t)＝μ(s_t)+N_t (6)

整个DDPG的算法流程图如图5所示；

其中，神经网络超参数设置如表1所示。

表1 DDPG参数设置

姿态控制模型的状态参数依旧为三个姿态角及三个转动角速度，动作参数为三个舵偏角 (δ_x,δ_y,δ_z)考虑到飞行器的控制舵偏实际偏转限幅，将动作参数的取值范围设为(-18°,18°)。

3、奖励函数的设定及归一化

飞行器姿态控制器的最终训练任务是通过控制舵偏角及力矩使得飞行器的姿态角到达预设的目标值且保持稳定，理论上的奖励函数应该为：

其中eps是设定的误差精度，r_d为达到姿态角精度之后的正数奖励值，s_i+1和s_d分别为当前状态和期望状态。

但是考虑到稀疏奖励是不利于强化学习算法的，且实际训练过程中确实无法收敛。所以给奖励函数添加一个连续的单步回报，设置为当前姿态角与目标姿态角误差值的绝对值之和，添加负号作为惩罚项：

其中

为当前姿态角，

为目标姿态角。

合适的奖励函数是DDPG算法能够成功收敛的前提。由于奖励函数直接参与评估网络的梯度更新，因此奖励函数的数值解限幅将影响神经网络的更新收敛速度。

在工程实践中通常采用归一化处理的方式对原始数据进行预处理，在进行归一化之前，首先要对状态参数以及控制参数进行合理的限幅，具体的数值如表2所示。

表2状态参数限幅

参数	参数意义	参数大小或范围	参数单位
				(ω<sub>min</sub>,ω<sub>max</sub>)	角速度范围	(-180,180)	度
(θ<sub>min</sub>,θ<sub>max</sub>)	姿态角限幅范围	(-180,180)	度/秒

利用状态参数的最大值来进行奖励函数的归一化，使得单步奖励回报处于0到1的范围，以避免神经网络梯度爆炸的问题。归一化后的单步奖励如下：

其中

为当前姿态角，

为目标姿态角，θ_max为姿态角限幅最大值，θ_min为姿态角限幅最小值。

完整的奖励函数为：

4、神经网络移植

神经网络控制器相对于传统实时解算方法的优势在于利用真实飞行数据拟合收敛的神经网络具有强大的泛化性能，该特性能够帮助控制器适应突发状况，保证在恶劣环境下的稳定控制。另外，大多传统控制模型在仿真环境中表现良好，但由于真实世界与数字模拟环境存在真实偏差，且实时计算复杂，无法实现快速移植。

下面给出具体的实施例。

本发明使用的贝叶斯神经网络利用多维高斯分布原理将环境不确定性纳入控制器的长期规划中以便于实现快速在嵌入式等机载平台中搭建且保持良好的控制效果。

本发明采用双层各64节点的小型贝叶斯神经网络，能够便于多种嵌入式芯片快速移植。具体做法是：

■提取离线训练好的神经网络参数，包括各节点中权重与偏置构成的高斯分布模型以及神经网络层数和各层神经元个数；

■利用C语言构造相同的双层神经网络；

■导入神经网络参数；

■根据飞行器姿态以及姿态指令生成输入数据，控制模型产生执行机构的控制指令；

■将该过程打包为模块嵌入飞控系统。

真实飞行数据与数字模型的权重分别设置为0.7,0.3；构建双层贝叶斯神经网络模型。模型参数以及超参数设置如表3所示。

表3贝叶斯神经网络结构参数

贝叶斯神经网络的输入设置为飞行器状态与执行机构共9个变量。其中，飞行器状态选择为滚转角，俯仰角、偏航角以及对应的角速度；飞行器执行机构为三个气动舵机构。网络输出为下一时刻飞行器各状态量的增量，即下一时间步后姿态角与姿态角速度的增量。

原始数据为采集到的真实飞行数据，约为40000条，飞行轨迹由飞手随机操作生成；仿真数字模型采集20000条数据流，执行机构指令均在约束范围内。取气动参数如表5-2 所示，为了简化模型，考虑到攻角和侧滑角为小量，都设为定值：α＝1°，β＝1°。其余的飞行器的飞行状态参数设置具体见表4、表5。

表4飞行器的气动参数设置

表5飞行器的飞行状态参数设置

参数	参数意义	参数大小或范围	参数单位
				J	飞行器转动惯量	diag(73038,157925,252272)	kg·m<sup>2</sup>
Mach	飞行马赫数	5	马赫
				H	飞行高度	12000	米
S	参考面积	49.42	平方米
				L	平均气动弦长	5.02	米

姿态控制模型的状态参数为三个姿态角误差及三个转动角速度，算法的动作参数为三个舵偏角(δ_x,δ_y,δ_z)，考虑到飞行器的控制舵偏实际偏转限幅，将动作参数的取值范围设为(-18°,18°)。

由于强化学习框架通过与多样的飞行数据交互更新神行网络参数，因此将输入参数设置为误差量能够提高模型的泛化能力，只需要训练单个目标状态至收敛后，神经网络就能够在训练数据包含的飞行包络中实现全局收敛。而训练完成后的神经网络模型将直接开环对飞行器姿态进行控制，则无需搭建DDPG框架再次训练。

由于力矩表达式存在角速度及舵偏角的耦合项，对DDPG算法结构的部分参数做出调整：扩大经验池容量R以使初期探索更加充分；减小学习率使算法不易收敛至较差的局部最优；减小软更新参数τ使网络参数θ配合较小的学习率缓慢变化。调整之后的DDPG 算法参数及神经网络参数如表6、表7所示：

表6舵偏控制训练模型DDPG参数设置

参数	数值
		输入层状态维度	6
输出层动作维度	3
		累积回报折扣因子γ	0.99
经验池大(Memorysize)	80000
		批次训练样(Batchsize)	64

表7舵偏控制训练模型神经网络参数设置

训练收敛后，使用离线控制器测试神经网络控制模型测试在标称状态、飞行包络外姿态初始化、固定突变干扰、高斯噪声干扰以及ou噪声干扰下的控制效果。

验证在不同干扰环境下基准控制器的控制效果，如图6a-11图b所示，测试结果说明利用基准模型训练出来的神经网络控制器能够在不同干扰环境下泛化控制效果，快速跟随姿态指令，该控制器具有较强的鲁棒性。

综上，本发明提出的基于深度强化学习框架的飞行器姿态控制算法利用贝叶斯概率模型能够更好地模拟真实飞行环境中的干扰与不确定性，比起只粗略考虑大气环境并忽略飞行器自身机械结构误差的飞行器数字模型，贝叶斯神经网络能够提高飞行器模型的精确度，使之更加逼近真实飞行环境；并基于神经网络的控制系统能够利用泛化能力提高在飞行器在各种干扰环境下的控制效果；而且离线训练完成的控制器能够快速移植到各种机载平台，具有很高的实用价值。

以上给出的实施例是实现本发明较优的例子，本发明不限于上述实施例。本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换，均属于本发明的保护范围。

Claims

1.一种基于深度强化学习的无人机强鲁棒姿态控制方法，其特征在于，包括以下操作：

1)采集飞行器飞行数据及仿真飞行数据，其中包括飞行器状态s_t与动作a_t对应状态s_t+1的数据流；

ψ,γ为当前姿态角，

ψ_t,γ_t为目标姿态角，θ_max为姿态角限幅最大值，θ_min为姿态角限幅最小值；

2.如权利要求1所述的基于深度强化学习的无人机强鲁棒姿态控制方法，其特征在于，所述飞行器的数字模型中，真实飞行数据数量初始权重为0.9，数字模型数量权重为0.1，随着神经网络训练时长的增加，真实飞行数据权重值递减至0.1，数字模型采集权重值增大至0.9；

3.如权利要求1或2所述的基于深度强化学习的无人机强鲁棒姿态控制方法，其特征在于，所述飞行器数字模型作为贝叶斯神经网络的输入，其包括飞行器状态与执行机构的以下变量：飞行器状态包括滚转角，俯仰角、偏航角以及对应的角速度；飞行器执行机构为三个气动舵机构；

所述真实飞行数据，由飞手随机操作生成；

4.如权利要求1所述的基于深度强化学习的无人机强鲁棒姿态控制方法，其特征在于，所述的贝叶斯神经网络为双层各64节点的小型贝叶斯神经网络，其搭建包括以下操作：

22)构造双层神经网络，每层神经元个数为64；

5.如权利要求1所述的基于深度强化学习的无人机强鲁棒姿态控制方法，其特征在于，对DDPG算法结构的部分参数做出调整：扩大经验池容量R以使初期探索更加充分；减小学习率使算法不易收敛至较差的局部最优；减小软更新参数τ使网络参数θ配合较小的学习率缓慢变化。

6.如权利要求1所述的基于深度强化学习的无人机强鲁棒姿态控制方法，其特征在于，将DNN神经网络构建的姿态控制器的输入参数设置为误差量能够提高模型的泛化能力，训练单个目标状态至收敛后，神经网络能够在训练数据包含的飞行包络中实现全局收敛；训练完成后的神经网络模型将直接开环对飞行器姿态进行控制。