CN112286218A

CN112286218A - 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法

Info

Publication number: CN112286218A
Application number: CN202011585596.8A
Authority: CN
Inventors: 陈坤
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-01-29
Anticipated expiration: 2040-12-29
Also published as: CN112286218B

Abstract

本发明公开了一种基于深度确定性策略算法的飞行器大迎角摇滚抑制方法，包括搭建摇滚抑制问题强化学习环境和针对控制目标设计深度确定性策略智能体两部分，将目标飞行器模型安装在风洞中的滚转单自由度释放机构上，在每一个时间步上，根据滚转单自由度释放机构采集到的数据和智能体输送进来的舵机控制指令生成一组经验数据，并将这组经验数据添加到经验缓存区，以供智能体采样进行控制策略自学习；在每一个时间步上，通过从经验数据缓存区采样得到的经验数据，基于深度确定性策略梯度算法，调节四个深度网络的参数，通过向强化学习环境输送舵机控制指令。本发明采用深度确定性策略梯度方法，实现不依赖于模型的飞行器大迎角摇滚最优控制器设计。

Description

基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法

技术领域

本发明属于大迎角飞行控制技术领域，特别是一种基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法。

背景技术

飞行器在大迎角机动情况下，非常容易产生摇滚非指令运动，对于细长三角翼而言（后掠角≥75°），通常表现为以零度滚转角为中心的极限环振荡，对于非细长三角翼而言（后掠角≤65°），摇滚通常伴随有非零滚转中心角。这种摇滚运动对于高机动飞行器而言非常危险，但是为了完成某些机动动作，有时候必须要进入大迎角区域。

飞行器大迎角情况下的气动特性表现出高度非定常非线性现象。一方面，由于其气动特性复杂，致使传统的基于精确模型的PID等控制方法在这一特定迎角范围控制效果表现糟糕；另一方面，在大迎角下，为飞行器建立精确的气动模型本身就是非常困难的一项工作，所以很多基于模型的现代先进控制设计方法，如鲁棒控制等，也因为这一问题难以开展。

发明内容

本发明基于深度确定性策略梯度，结合低速风洞实验，提出一种基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法。

为实现上述目的，本发明采用的技术方案如下：一种基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法，该方法包括：

通过虚拟飞行技术搭建强化学习环境：将目标飞行器模型安装在风洞中的滚转单自由度释放机构上，在每一个时间步上，将滚转单自由度释放机构采集到的数据作为观测量，将智能体输送进来的舵机控制指令作为动作量，基于观测量和动作量，计算此动作产生的奖励信号，并组合观测量，动作量以及奖励信号生成一组经验数据，并将这组经验数据添加到经验缓存区，以供智能体采样进行控制策略自学习；

构建摇滚抑制深度确定性策略梯度算法智能体：在每一个时间步上，通过从经验数据缓存区采样得到的经验数据，基于深度确定性策略梯度算法，调节四个深度网络的参数，通过向强化学习环境输送舵机控制指令。

与现有技术相比，本发明的显著优点为：（1）常规的控制方法需要提供一个相对准确的动力学模型，在此基础上进行控制律的设计，而大迎角建模是一个很复杂的问题，本发明绕开了非线性气动力难以精确建模的困境，采用深度确定性策略梯度方法，实现不依赖于模型的飞行器大迎角摇滚最优控制器设计；（2）由于大迎角情况下，飞行器的动力学特性极度非线性，故其最优控制策略往往是关于观测量的非线性函数，本发明由于采用了神经网络来表达策略，神经网络具有表达任何一种非线性函数的能力，故智能体可以自学习出任何一种非线性的控制律。

附图说明

图1为风洞实验滚转单自由度释放机构示意图。

图2为强化学习环境结构示意图。

图3为针对摇滚抑制的DDPG算法流程图。

具体实施方式

将强化学习应用于解决飞行器大迎角非指令运动是新颖可行的思路，强化学习起源于生物对于自身行为的学习过程。生物通过对过往行为所获得回报的多少来评估自己行为的正确性，通过尝试和犯错学习正确的行为方式。对于生物来说，所处的世界一开始对于他们是未知的，但是它们却可以通过不断地尝试学会很多有益的行为。具体而言，一个典型的强化学习系统由两部分组成，一是智能体，二是环境。智能体并不是一个实体，可以把它理解为一个具有自学习功能的控制器，环境的动态特性对于智能体来说是未知的，但是智能体可以观测环境，并根据观测做出行动。在行动之后，智能体获得奖励，强化学习通过与环境的交互来学习，实现最大化累积奖励。强化学习完全通过数据来驱动最优（智能体长期累积奖励最大化）控制器的形成，所以说，强化学习为完全不依赖模型的最优控制器设计提供了一种思路。

本发明基于强化学习思想，利用深度确定性策略梯度算法，设计一种完全不依赖模型的摇滚抑制控制律设计方法，旨在抑制飞行器大迎角摇滚非指令运动。

一种基于深度确定性策略算法的飞行器大迎角摇滚抑制控制器设计方法，该方法包括：

通过虚拟飞行技术搭建强化学习环境：将目标飞行器模型安装在风洞中的滚转单自由度释放机构上，在每一个时间步上，将滚转单自由度释放机构采集到的数据作为观测量，将智能体输送进来的舵机控制指令作为动作量，基于观测量和动作量，根据自定义的合理的奖励信号，计算此动作产生的奖励信号，并组合观测量，动作量以及奖励信号生成一组经验数据，并将这组经验数据添加到经验缓存区，以供智能体采样进行控制策略自学习；

构建摇滚抑制深度确定性策略梯度算法智能体：在每一个时间步上，通过从经验数据缓存区采样得到的经验数据，基于深度确定性策略梯度算法，调节四个深度网络的参数，通过向强化学习环境输送舵机控制指令，对飞行器模型的姿态数据产生影响。

进一步的，通过虚拟飞行技术搭建的强化学习环境中，观测量是一个四维向量，分别由滚转角、滚转角速度、侧滑角、侧滑角速度组成。

进一步的，通过虚拟飞行技术搭建的强化学习环境，奖励信号由四项组成，分别用于惩罚飞行器滚转角偏离零度的行为、惩罚飞行器控制量过大的行为、惩罚飞行器观测量或者控制量超出限定条件的行为以及奖励飞行器将滚转角控制在精度要求以内的行为。

进一步的，滚转单自由度释放机构上安装有高精度磁编码器，运营获取飞行器实时的滚转角和滚转角速度数据，并通过采集板卡传输到工作站；在安装时，滚转单自由度释放机构轴线的方向穿过飞行器模型的重心位置，飞行器实验模型上安装舵机用以控制飞行器的舵面。

进一步的，飞行器摇滚抑制深度确定性策略梯度算法智能体包括四个深度神经网络，其中，执行者和目标执行者网络以观测量为输入，以舵机控制量为输出，两个网络结构一致；评论者和目标评论者网络以观测量和舵机控制量的组合量为输入，以在当前时刻观测量、当前时刻策略及当前输出控制量条件下所估计的智能体未来累积折扣奖励值为输出，两个网络结构一致。

进一步的，摇滚抑制深度确定性策略梯度算法智能体，无需为飞行器建立任何模型，通过向强化学习环境输送舵机控制指令，产生经验数据，基于经验数据构造经验缓存区，用于学习最优控制策略，使得飞行器在采用执行者网络输出舵机控制指令的时候，能够获得最大化的长期累积折扣奖励。

所述强化学习环境基于搭建的硬件在环虚拟飞行技术实验平台。在低速风洞中，将飞行器缩比实验模型安装在带有高精度磁编码器的滚转单自由度释放机构上，将磁编码器与计算机上通过无线方式进行连接，实时获取状态观测量，并通过状态观测量和智能体输出的控制量数据，通过本发明中定义的深度确定性策略奖励形式，计算实时的奖励，将这些数据整合，存入到经验池之中，以供智能体学习更优的摇滚抑制策略；所述深度确定性策略智能体，在每一时间步上，从经验池采样特定大小的经验数据，基于监督式学习中的神经网络训练方式来训练智能体中的评论者网络和目标评论者网络，基于确定性策略梯度的方式来训练执行者网络和目标执行者网络，最终使执行者网络获取使得长期累积折扣奖励最大化的控制策略。本发明的优点：针对飞行器大迎角非线性气动力难以精确建模的困境，采用深度确定性策略梯度方法，实现不依赖于模型的飞行器大迎角摇滚最优控制器设计。

下面结合实施例对本发明进行详细说明。

实施例

本实施例提出一种飞行器大迎角摇滚抑制控制器的设计方法，包括：

（一）强化学习环境

在风洞中，将飞行器模型固定在滚转单自由度释放机构上，风洞实验滚转单自由度释放机构如图1所示，滚转单自由度释放机构上安装有高精度磁编码器，可以获取飞行器实时的滚转角和滚转角速度数据，并通过采集板卡传输到工作站。在安装时，自由度释放机构轴线的方向穿过飞行器模型的重心位置，飞行器实验模型上安装舵机用以控制飞行器的舵面。强化学习环境结构如图2所示。

对于强化学习中的环境而言，最关键的是要定义好观测空间O，以及奖励函数r。对于本实施例针对的大迎角摇滚抑制问题而言，定义t时刻的一组观测量为：

，

是t时刻飞行器的滚转角和滚转角速度，由磁编码器获得，

是模型在风洞中的侧滑角和侧滑角速度，其数值由以下公式计算得到：

其中θ为模型的安装角度，在实验过程中保持不变。这里引入了

这两个维度，是因为虽然我们最终的目标是使滚转角

稳定在0度，但是在大迎角下飞行器的滚转气动特性和侧滑角存在很强的联系，这里引入这两个维度，相当于为算法注入了先验知识，这样做可以加快强化学习的过程。

另外定义奖励函数形式：

r_t = r_1t+ r_2t + r_3t + r_4t

r_1t= a₁*ϕ_t ²

r_2t = a₂*u_t-1 ²

r_3t = a₃*B

在r_1t中，将a₁设定为负数，用此项来惩罚模型滚转角度偏离零度的行为；在r_2t中，将a₂设定为负数，用此项来减少控制系统的控制代价，以保持控制系统的高效；在r_3t中，定义一个布尔类型数据B，来确定模型是否超出所限定的边界，例如如果认为滚转角超过70°非常危险，可以规定B = |ϕ_t| > 70°，同时将a₃设定为一个负值（其量级需针对具体问题进行调整），用来惩罚这种无法容忍的行为；在r_4t中，我们定义了n个控制精度级别，分别对应n个布尔类型数据B_k, 用来提升控制器的控制精度，例如可以定义n_精度= 2，B₁ = |ϕ_t| < 0.5°，B₂= |ϕ_t| < 0.1°，同时合理设定正数a_4,1，a_4,2，用来奖励飞行器滚转角进入这两个控制精度内的行为，从而将飞行器的滚转角限定在指定的精度范围内。

（二）深度确定性策略梯度智能体(DDPG Agent)

如图3所示，一个深度确定性策略梯度（DDPG）智能体包含四个深度神经网络，分别为执行者网络 (actor)

，目标执行者网络(target actor)

，评论家网络(critic)

，目标评论家网络(target critic)

。

和

以状态观测量

作为网络的输入，输出确定性的舵机控制量u，两个网络的结构相同；

和

以状态观测量和舵机控制量u的组合向量为输入，输出在观测量o采取控制u之后，未来将得到的折扣累加奖励的估计值，两个网络结构一致。

这里说明一下，之所以引入目标网络，是因为在强化学习中，已被证明，当训练的算法同时出现异策(off-policy)、自举(bootstrap)和函数近似的时候，无法保证收敛性。这里引入目标网络用于估计后续折扣奖励的累加和，即避免将学习到的评论家网络参数马上用于估计，这一方式稳定了算法。

DDPG智能体使用以下的训练算法，在每个时间步中更新四个神经网络的模型参数。

（1）随机初始化四个函数近似器的参数，

，其中

和

分别为执行者网络和目标执行者网络的参数，

和

分别为评论家网络和目标评论家网络的参数。

（2）对于每一个时间步，训练过程如下：

①对于现在的观测量o，根据u = μ(o) + N 选择动作，N是一个随机信号，这里加入N以促使智能体加强探索；

②执行动作u，得到回报r和下一时间步的观测量o’；

③把一组经验(o, u, r, o’) 保存在经验池（一个数据缓存区）中；

④从经验池中随机采样M组经验，M为神经网络单次训练的样本数；

⑤计算评论家网络训练的目标值y_i(label)，如果o’是终止状态(超出边界)，把值函数目标y_i设置为r_i，否则将其设置为：

，值函数的目标是经验中r_i和未来长期累积奖励期望值之和，这里利用了强化学习中经典的自举（bootstrap）思想，注意这里的γ是一个折扣系数，0<γ<1，用来表示智能体的远见程度，越接近1代表智能体越重视长远的奖励，取为0则表示智能体只关注当前时刻的奖励。在计算时，首先把经验中的o’传给目标决策者网络μ'(o)，由μ'(o)算出下一步的动作u’，这时候有了(o’, u’)，然后将这一组数据传给目标评论家网络Q'(o,u)，算出未来奖励累计和的估计值，这样值函数目标y_i就算好了；

⑥针对M组经验数据，通过最小化损失L来更新评论家网络的参数；

⑦使用下列的采样策略梯度来更新执行者网络的参数，使得期望的折扣回报最大化，其中J是算法中的优化目标函数；

这里

⑧用平滑的形式更新目标评论家网络

和目标执行者网络

：

其中，τ是指平滑系数，如果取1，则立即更新目标网络参数和对应网络相同，一般取0到1中间的一个数。

在具体实现过程中，先在计算机上定义好超参数，如隐藏层结构、学习率、噪声N，保持单自由度释放机构上磁编码器和计算机通信正常，运行程序，执行者网络接收环境输出的观测量数据o，输出带噪声的舵机控制指令到飞行器模型，模型收到指令偏转舵机，产生奖励以及并观测到下一时刻的观测数据，将这组数据保存在经验缓存区中，用以训练智能体中的四个深度神经网络，使得评论家网络对于累积折扣奖励值的估计更准，使得执行者网络能够学习到使得长期奖励最大化的控制策略。这里值得注意的是，由于智能体在真实的情况下，采取的动作是带噪声N的，所以可能会表现得不那么理想，但是即便如此，整体的奖励回报还是会往增大的方向发展。最后将执行者网络

嵌入到模型的飞行控制设备上，验证控制器的控制效果。

Claims

1.一种基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法，其特征在于，该方法包括：

2.根据权利要求1所述的基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法，其特征在于，通过虚拟飞行技术搭建的强化学习环境，观测量是一个四维向量，由滚转角、滚转角速度、侧滑角、侧滑角速度组成。

3.根据权利要求1所述的基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法，其特征在于，通过虚拟飞行技术搭建的强化学习环境，奖励信号由四项组成，分别用于惩罚飞行器滚转角偏离零度的行为、惩罚飞行器控制量过大的行为、惩罚飞行器观测量或者控制量超出限定条件的行为以及奖励飞行器将滚转角控制在精度要求以内的行为。

4.根据权利要求1所述的基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法，其特征在于，滚转单自由度释放机构上安装有高精度磁编码器，运营获取飞行器实时的滚转角和滚转角速度数据，并通过采集板卡传输到工作站；在安装时，滚转单自由度释放机构轴线的方向穿过飞行器模型的重心位置，飞行器实验模型上安装舵机用以控制飞行器的舵面。

5.根据权利要求1所述的基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法，其特征在于，摇滚抑制深度确定性策略梯度算法智能体包括四个深度神经网络，其中，执行者和目标执行者网络以观测量为输入，以舵机控制量为输出，两个网络结构一致；评论者和目标评论者网络以观测量和舵机控制量的组合量为输入，以在当前时刻观测量、当前时刻策略及当前输出控制量条件下所估计的智能体未来累积折扣奖励值为输出，两个网络结构一致。

6.根据权利要求1所述的基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法，其特征在于，摇滚抑制深度确定性策略梯度算法智能体，无需为飞行器建立任何模型，通过向强化学习环境输送舵机控制指令，产生经验数据，基于经验数据构造经验缓存区，用于学习最优控制策略，使得飞行器在采用执行者网络输出舵机控制指令的时候，能够获得最大化的长期累积折扣奖励。