CN110195660B

CN110195660B - 基于深度q学习的航空发动机控制装置

Info

Publication number: CN110195660B
Application number: CN201910531252.XA
Authority: CN
Inventors: 郑前钢; 房娟; 陈浩颖; 汪勇; 金崇文; 高远; 胡忠志; 张海波
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2020-04-21
Anticipated expiration: 2039-06-19
Also published as: CN110195660A

Abstract

本发明公开了一种基于深度Q学习的航空发动机控制装置，属于航空宇航推进理论与工程中的系统控制与仿真技术领域。本发明航空发动机控制装置包括：加速和减速限制模块，用于输出航空发动机各参数的物理限制值；深度Q学习控制器，用于根据控制指令和反馈参数以及所述航空发动机各参数的物理限制值，通过深度Q学习方法得到航空发动机的燃油流量，并按照所得到的燃油流量对航空发动机的燃油输入进行控制。相比现有技术，本发明采用深度Q学习方法来构建发动机控制器，使得发动机随学习时间增加，其响应速度不断提高，从而提高发动机响应速度。

Description

基于深度Q学习的航空发动机控制装置

技术领域

本发明属于航空宇航推进理论与工程中的系统控制与仿真技术领域，具体涉及一种基于深度Q学习的航空发动机控制装置。

背景技术

在一些飞行情况下，如着陆、起飞或某些紧急情况，飞机要求发动机从一个运行状态快速响应到另一个运行状态。瞬态过程中响应时间越短，发动机的响应性能越好,如何提高发动机的瞬态响应性能是发动机控制系统设计的一个重要指标。发动机控制中最常用的方法是比例积分微分(PID)，它具有鲁棒性强、结构简单、调节方便等特点。然而，对于强非线性、多变量、时滞受控的对象，目前流行的PID控制方法无法获得最佳的响应能力。

近年来，出现了基于深度Q学习(Deep Q Learning，DQL)的控制方法，由于该方法随着学习时间，响应能力越来越快，引起了研究者的兴趣。针对被动动态步行机器人，Schuitema提出了一种基于强化学习(RL)算法的控制器。Wang S采用Q学习算法对双足机器人在非平坦路面上行走的比例微分(PD)控制器参数进行选择，使动态步行机器人对地面干扰具有更强的鲁棒性。为解决双足机器人的连续状态问题，ZiQiang等人设计了基于BP神经网络(BPNN)的Q学习控制器。对于直接从高维感觉输入学习控制策略，Mnih等人提出了基于卷积神经网络的深度强化学习。Gu S导出了Q-学习算法的连续变型，并探讨了学习模型在加速无模型强化学习中的应用。Zhang M等人提出了一种高维连续系统内部记忆策略的学习方法。Lenz等人针对具有复杂非线性动力学的任务，提出了一种在线实时模型-预测控制DeepMPC，并使用了一种新的深层体系结构和学习算法，即直接从数据中学习复杂任务的控制器。Oh等人给出了Minecraft游戏中RL任务的集合，并使用这些任务系统地将现有的DRL体系结构与建议的基于内存的DLL体系结构进行比较和对比。

上述工作及DQL的其他应用工作取得了很好的控制效果。然而，DQL在航空发动机控制中的应用却很少研究。

发明内容

本发明所要解决的技术问题在于克服现有技术不足，提供一种基于深度Q学习的航空发动机控制装置，采用深度Q学习方法来构建发动机控制器，使得发动机随学习时间增加，其响应速度不断提高，从而提高发动机响应速度。

本发明具体采用以下技术方案解决上述技术问题：

一种基于深度Q学习的航空发动机控制装置，包括：

加速和减速限制模块，用于输出航空发动机各参数的物理限制值；

深度Q学习控制器，用于根据控制指令和反馈参数以及所述航空发动机各参数的物理限制值，通过深度Q学习方法得到航空发动机的燃油流量，并按照所得到的燃油流量对航空发动机的燃油输入进行控制；所述深度Q学习方法的动作值函数Q_j(s,a)具体如下：

其中，s是发动机状态，a是发动机的控制指令，α是深度学习的学习率,r是回报值,γ是回报衰减率,s_j是第j时刻发动机状态，s_t是发动机目标状态；第j时刻的回报值r_j具体如下：

其中，

表示控制目标的测量值，u是控制变量向量，β＞0，c是发动机所有运行限制的测量值，c_lim是发动机所有运行限制的物理限制值，Q和R是对称的正定矩阵。

优选地，所述航空发动机各参数包括：燃油流量、风扇喘振裕度、压气机喘振裕度、风扇转子转速、压气机转子转速、高压涡轮进口温度。

优选地，所述深度Q学习控制器中的深度神经网络为在线滑动窗口深度神经网络。

优选地，所述深度Q学习控制器中的深度神经网络，其输入为当前时刻和历史时刻的燃油流量以及历史时刻的风扇喘振裕度、压气机喘振裕度、风扇转子转速、压气机转子转速、高压涡轮进口温度，其输出为动作值函数。

相比现有技术，本发明技术方案具有以下有益效果：

本发明首次提出将深度Q学习技术应用于航空发动机的控制，使得发动机的响应速度随学习时间的增加而不断提高，从而可大幅提高航空发动机的控制精度和响应速度。

附图说明

图1为一种传统的航空发动机控制结构；

图2为基于DQL的航空发动机控制结构；

图3为DNN的结构示意图；

图4为滚动滑动窗口原理示意图；

图5为反向传播原理示意图；

图6为推力响应曲线；

图7为燃油流量变化曲线；

图8为涡轮前温度响应曲线；

图9为风扇转子转速响应曲线；

图10为压气机转子转速响应曲线；

图11为风扇喘振裕度响应曲线；

图12为压气机喘振裕度响应曲线。

具体实施方式

针对现有技术控制技术响应速度慢的缺点，本发明的解决思路是将DQL应用于航空发动机控制，采用深度Q学习方法来构建发动机控制器，使得发动机随学习时间增加，其响应速度不断提高，从而提高发动机响应速度。

本发明基于深度Q学习的航空发动机控制装置，包括：

深度Q学习控制器，用于根据控制指令和反馈参数以及所述航空发动机各参数的物理限制值，通过深度Q学习方法得到航空发动机的燃油流量，并按照所得到的燃油流量对航空发动机的燃油输入进行控制。

为便于公众理解，下面结合附图来对本发明的技术方案进行详细说明：

图1和图2分别给出了传统航空发动机控制系统的控制结构和本发明的航空发动机控制结构。如图1所示，传统的控制系统主要由控制器(通常为PI或PID控制器)、加速限制模块、减速限制模块、最小选择模块、最大选择模块和执行机构组成。如图2所示，本发明的航空发动机控制系统由加速和减速限制模块、DQL控制器及执行机构等组成。在传统控制系统中，加速限制模块用于计算发动机满足风扇和压气机的转子转速限制、风扇和压气机喘振裕度限制、涡轮进口温度的温度限制等物理限制的燃油流量；减速限制模块用于计算得到避免熄火现象的燃油流量；最小选择模块、最大选择模块用于计算燃油流量的最大值或最小值。相比之下，本发明控制系统中的加速和减速限制模块则直接给出各参数的物理限制值，如最大转子速度、喘振裕度等，而不是燃油流量限制。DQL控制器计算得到的燃油流量可以使发动机满足所有限制。在传统的发动机控制系统中，通常采用比例积分(PI)或比例积分微分(PID)作为控制方法。为了提高发动机的响应速度，本发明设计了DQL控制器，其具体实现过程如下：

步骤1、确定深度神经网络的输入和输出：

输入选择当前和历史的燃油流量W_fb、历史时刻的风扇喘振裕度S_mf、压气机喘振裕度S_mc、风扇转子转速N_f、压气机转子转速N_c及高压涡轮进口温度T₄₁，模型输出选动作值函数。即深度神经网络的输入和输出有：

m₁,m₂,…,m₆均为正整数，可根据实际需要设定；通常可都设置为2。

步骤2、根据发动机状态、运行条件输出响应计算得到深度Q学习的动作值函数；

增强学习是基于无模型的，根据基于Q表或DNN选择下一时刻输入，并不需要估计控制对象输入。航空发动机瞬态过程是一个强非线性过程，因此，选择增强学习来更新动作值函数，其中s是发动机状态，a是发动机的动作或控制输入动作值函数更新规则可以被描述为：

无模型学习算法—Q学习算法在不估计控制对象的情况下，根据Q表或DNN选择下一个动作，对非线性对象具有很强的学习能力。由于，发动机过渡过程是一个强非线性过程，因此，选择Q学习算法来更新动作值函数，其中a是发动机的动作或控制输入，s是发动机的状态。动作值函数Q_j(s,a)的更新规则：

其中，α是深度学习的学习率,γ是回报衰减率,r是回报值,s_j是第j时刻发动机状态，s_t是发动机目标状态；

为了快速增加或减少发动机推力，燃油流量W_fb需要尽可能快地改变。然而，W_fb的变化受到机械和物理的限制，如风扇和压气机的喘振裕度限制、风扇和压气机的转子转速限制、高压涡轮的进口温度限制等。为了确保发动机运行稳定可靠，这些限制是不允许超限的。为了使发动机快速地从工作状态切换到另一工作状态，并确保满足所有限制，设计回报值r_j如下：

其中，

控制目标的测量或估计值，u是控制变量向量(即为动作a)，β＞0，c是所有发动机运行限制的测量或估计值，c_lim发动机运行限制的最大或最小值，Q和R是对称的正定矩阵。

步骤3、对神经网络进行训练；

深度神经网络DNN是多输入多输出系统且具有很强的非线性拟合能力，可以描述为：

y＝f_DNN(x) (4)

其中x是输入向量，y为输出向量。

DNN的结构如图3所示。DNN比传统的神经网络具有更深层的隐含层。DNN隐藏层的增加将提高DNN的拟合能力。DNN的每个隐藏层定义为：

a^l+1＝W^lh^l+b^l (5)

h^l+1＝σ(a^l+1) (6)

其中b^l偏移向量，W^l是权重矩阵，σ是激活函数，h^l(l＞0)是第l隐藏层的输出,l＝1,2,…n_l,n_l是隐含层节点个数。令

N是训练集的大小。

传统的在线深层神经网络每次迭代都只选取一个数据点作为训练数据计算梯度。然而，只选择一个训练点会使训练结果对噪声数据敏感。因此，如图4所示，本发明进一步将在线滑动窗口深度神经网络(On Line Sliding Window Deep Neural Network，OL-SW-DNN)应用于DQL控制器的设计，以提高神经网络的鲁棒性。在每次迭代中，OL-SW-DNN选择长度L的最近点数据作为训练数据。OL-SW-DNN的损失函数描述为：

在每次迭代计算,W和b更新如下：

其中η是OL-SW-DNN的学习率。如图5所示，可使用反向传播BP算法来求解

和

W,b的梯度计算如下：

令δ^l为:

其中l＝n_net,n_net-1,…,2,

是Hadamard乘积，

令

为：

其中n_net为网络层数。

步骤4、计算得到使得动作值函数最大的燃油流量；

在j时刻，以概率ε＞0选择随机动作a_j，否则选择

步骤5、由步骤4算得的燃油输入到发动机，得出响应输入，判断发动机是否达到目标值，如果达到则停止，否则返回步骤2。

为了验证本发明的先进性，对传统PID控制系统和本发明控制系统进行了仿真研究。其中，发动机加速过程是最强的非线性过程，也是其他过渡态的研究基础。因此，这两种方案的模拟过程都选择加速过程。发动机的运行工况是高度H＝0km、马赫数Ma＝0的标准大气状态。加速过程的起点和终点分别为发动机油门杆角度PLA＝20°和PLA＝70°时对应的发动机稳态运行状态。图6～图12示出了本发明控制系统和传统PID控制系统的仿真结果。其中的参数已被标准化。通过调试，将OL-SW-DNN的结构选择为[19,20,15,15,10,1]。学习率α＝0.00001，动量因子η＝0.5，L＝20。

如图6所示，在所提出的方法和PID推力的加速度时间增加到设计点值的推力的95％分别需要3.75秒和5.225秒。结果表明，该方法比PID控制具有更快的响应能力，加速时间缩短了1.475秒。其主要原因是DQL将从历史中学习经验，并随着学习时间的加长使发动机变得越来越智能。此外，OL-SW-DNN具有较强的拟合能力，使得所提出的方法具有更强的学习能力。

如图12所示，在加速过程中，发动机的工作点沿喘振限制移动，由发动机理论克制，该路径通常被认为是发动机加速过程的最快路径。如图7～图11所示，在本发明所提出控制系统中，发动机加速过程没有超温、超转或进喘等现象。结果表明，本发明基于深度Q学习的航空发动机控制装置具有较高的控制精度和更快的发动机响应速度。

Claims

1.一种基于深度Q学习的航空发动机控制装置，其特征在于，包括：

加速和减速限制模块，用于输出航空发动机所有运行限制的物理限制值c_lim；

深度Q学习控制器，用于根据控制指令和反馈参数以及所述航空发动机所有运行限制的物理限制值，通过深度Q学习方法得到航空发动机的燃油流量，并按照所得到的燃油流量对航空发动机的燃油输入进行控制；所述深度Q学习方法的动作值函数Q_j(s,a)具体如下：

其中，

表示控制目标的测量值，u是控制变量向量，β>0，c是发动机所有运行限制的测量值，c_lim是发动机所有运行限制的物理限制值，Q和R是对称的正定矩阵。

2.如权利要求1所述航空发动机控制装置，其特征在于，所述航空发动机各参数包括：燃油流量、风扇喘振裕度、压气机喘振裕度、风扇转子转速、压气机转子转速、高压涡轮进口温度。

3.如权利要求1所述航空发动机控制装置，其特征在于，所述深度Q学习控制器中的深度神经网络为在线滑动窗口深度神经网络。

4.如权利要求1所述航空发动机控制装置，其特征在于，所述深度Q学习控制器中的深度神经网络，其输入为当前时刻和历史时刻的燃油流量以及历史时刻的风扇喘振裕度、压气机喘振裕度、风扇转子转速、压气机转子转速、高压涡轮进口温度，其输出为动作值函数。