CN111594322B

CN111594322B - 一种基于Q-Learning的变循环航空发动机推力控制方法

Info

Publication number: CN111594322B
Application number: CN202010502785.8A
Authority: CN
Inventors: 齐义文; 张弛; 黄捷; 项松; 刘远强; 于文科; 陈禹西; 岳文豪
Original assignee: Shenyang Aerospace University
Current assignee: Aerospace Promotion Suzhou Aerospace Technology Co ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2022-06-03
Anticipated expiration: 2040-06-05
Also published as: CN111594322A

Abstract

本发明提供一种基于Q‑Learning的变循环航空发动机推力控制方法，属于航空发动机控制与仿真技术领域，该方法包括：通过Q学习方法建立变循环航空发动机的动作值函数，根据控制指令和反馈参数，结合ε‑贪婪策略，得到适宜的变循环航空发动机燃油流量；进一步，按所述燃油流量对变循环航空发动机推力进行控制，并根据系统的反馈更新动作值函数。本发明采用Q‑Learning方法构建变循环航空发动机推力控制器，且随着训练次数的增加，发动机动态、稳态特性逐步提升，可显著提高发动机性能。此外，Q‑Learning控制器可不断累积经验，对不同的控制指令或推力要求，迅速调整燃油流量，实现具有自主学习能力的变循环航空发动机快速、稳定控制。

Description

一种基于Q-Learning的变循环航空发动机推力控制方法

技术领域

本发明属于航空发动机控制与仿真技术领域，具体涉及了一种基于Q-Learning的变循环航空发动机推力控制方法。

背景技术

变循环航空发动机通过改变发动机某些可变几何部件的尺寸、形状、位置来改变发动机的循环参数，提高发动机推进系统的整体性能。同时，变循环航空发动机又兼具多种工作模式，在亚音速、跨音速、超音速及高超音速工况下都能表现出较好的性能。但一个快速、准确、稳定且具有一定自主学习能力的控制系统是保证发动机整体性能的前提条件，而如PID控制、自抗扰控制、模糊控制等传统控制方法对于变循环航空发动机这一类具有强非线性、多变量、多工种模式等特性的复杂系统，难以在全包线和变工况下达到具有自主学习能力理想的控制效能。此外，传统控制技术对复杂系统难以满足控制精度要求、对于强非线性系统鲁棒性较差、响应速度慢等缺点。因此，探索其他性能更优异的控制方法变得十分重要。

近年来，人工智能技术发展迅速，已被广泛应用到生产生活中的诸多领域，如图像处理、无人驾驶、智能机器人等，也带动了机器学习这一重要的技术分支，而强化学习作为机器学习的重要内容，受到了广大科技者的青睐。目前，强化学习技术多被应用于搜索与优化问题的求解，从经典的倒立摆问题到机器人路径寻优等问题中均有体现。然而，强化学习方法在控制领域并不多见。从强化学习原理出发，控制器也可以实现智能体的试错功能，模型反馈的一系列参数可作为控制器的状态输入变量。最重要的一点是，奖励可以根据需求人为设定，进一步满足更高的控制性能要求。综上所述，强化学习算法可在包括航空发动机控制等自动控制领域发挥重要作用。

发明内容

针对现有技术存在的不足，本发明提供一种基于Q-Learning算法的变循环航空发动机推力控制方法，实现具有强非线性、多变量、多模式的变循环发动机快速、稳定控制，使得发动机随训练次数增加，其控制系统动态、稳态特性不断增强，从而提高发动机的整体性能。为解决上述技术问题，本发明采用如下技术方案：

一种基于Q-Learning的变循环航空发动机推力控制方法，具体实现步骤为：

步骤1：基于变循环航空发动机仿真模型建立Q-Learning推力控制器，以仿真模型作为训练环境，创建二维表(Q表)对动作值函数Q(s，a)进行表示，其中，s为变循环航空发动机状态参数，a为燃油流量；

步骤2：确定变循环航空发动机推力控制器当前时刻燃油流量a_t；

步骤2.1：获取变循环航空发动机当前的状态，计算变循环航空发动机当前时刻状态参数s_t；

步骤2.2：将所述变循环航空发动机当前时刻状态参数s_t与燃油流量a作为Q表输入，查找所有可选择的燃油流量a的价值，即Q值，利用ε-贪婪策略计算控制器输出，即当前时刻燃油流量a_t；

步骤3：将所述当前时刻燃油流量a_t分配至变循环航空发动机推力控制器，实现变循环航空发动机的推力控制；

步骤4：更新动作值函数Q(s，a)；

步骤4.1：获取变循环航空发动机下一时刻状态参数s_t+1，计算延时奖励R_t+1；

步骤4.2：根据所述延时奖励R_t+1对Q表在s＝s_t，a＝a_t处的值，即Q(s_t，a_t)进行更新；

步骤5：使用窗口平均方法计算控制获得的平均奖励值

若所述平均奖励值

小于设定的目标奖励值，令s_t＝s_t+1，跳转至步骤2，进行迭代；否则，迭代结束，完成变循环航空发动机推力控制器训练。

进一步地，所述步骤1中Q表大小为n×m，n为离散化后的状态总数，m为离散化的动作总数；Q表使用变循环航空发动机状态参数s与燃油流量a作为索引，输出状态s下执行a的Q值。

进一步地，所述步骤2.1中变循环航空发动机当前时刻状态参数包括：目标推力、目标推力与实际推力差值、目标推力与实际推力差值的导数、高压转子转速、低压转子转速，经过离散化后获得当前时刻状态参数s_t。

进一步地，所述步骤2.2中利用的ε-贪婪策略如下：

其中，random a是在设定的动作集合中随机选择燃油流量控制指令，

是选择使Q(s_t，a)值最大的燃油流量a，rand是随机数，ε是随机因子，可通过改变ε大小来改变燃油流量指令的随机性。

进一步地，所述步骤4.1中延时奖励R_t+1由目标推力与实际推力差值决定，其值的大小遵循所述目标推力与实际推力差值的绝对值越小奖励越高的原则。

进一步地，所述步骤4.2中Q表的单点Q(s_t，a_t)更新规则具体如下：

其中，s_t是变循环航空发动机在当前时刻状态参数，a_t是当前时刻燃油流量，s_t+1是变循环航空发动机下一时刻状态参数，a_t+1是下一时刻燃油流量，R_t+1是变循环航空发动机推力控制器在s_t下执行a_t操作后，进入下一时刻状态s_t+1得到的延时奖励；α是学习率，γ是衰减因子，α决定了动作值函数更新时对当前时刻Q(s_t，a_t)值的保留程度，α和γ共同决定了动作值函数更新时对Q(s_t+1，a_t+1)的学习程度；is_end为更新停止标志，当反馈推力不在限定范围内、单轮仿真结束或发动机参数超过安全限制时触发更新停止条件。

进一步地，使用与Q-Learning控制器串联的加速和减速限制模块，用于限制发动机各安全参数的输出值，以确保变循环航空发动机安全运行。

进一步地，所述加速和减速限制模块包含高低压转子转速限制、涡轮前温度限制、风扇、核心机风扇与高压压气机风扇喘振裕度限制；若所述高低压转子转速、涡轮前温度、风扇、核心机风扇与高压压气机风扇喘振裕度超出安全限制，则控制器会获得较大负奖励并重新启动仿真训练Q表，避免Q表学习无效经验；在训练过程中该模块可限制控制器输出，使变循环航空发动机性能参数维持在安全范围内。

本发明的有益技术效果：

本发明提出将Q-Learning技术应用于变循环航空发动机推力控制，来解决传统控制技术对复杂系统难以满足控制精度要求、对于强非线性系统鲁棒性较差、响应速度慢、不具备或自主学习能力差等缺点。所述一种基于Q-Learning算法的变循环航空发动机推力控制方法具有经验积累和自主学习能力，使发动机动态、稳态性能随着训练次数的增加而不断提高，从而提高发动机的整体性能，并在变指令下，仍保证高水平的发动机整体控制性能。此外，Q-Learning控制器可不断累积经验，对不同的控制指令或推力要求，迅速调整燃油流量，实现具有自主学习能力的变循环航空发动机的快速、稳定控制。

附图说明

图1为本发明实施例提供的一种基于Q-Learning的变循环航空发动机推力控制方法流程图；

图2为传统PID变循环航空发动机推力控制架构；

图3为本发明实施例提供的基于Q-Learning的变循环航空发动机推力控制架构；

图4为本发明实施例提供的Q-Learning控制器整体结构图；

图5为本发明实施例提供的Q表结构图；

图6为本发明实施例提供的两种控制方法下的发动机推力稳态控制比较结果；

图7为本发明实施例提供的两种控制方法下的发动机推力变指令控制比较结果。

具体实施方式

对于现有传统控制技术对复杂系统难以满足控制精度要求、对于强非线性系统鲁棒性较差、响应速度慢、不具备或自主学习能力差等缺点，本发明的解决思路是将Q-Learning应用于变循环航空发动机推力控制，采用Q-Learning方法构建具有自主学习能力的推力控制器，使发动机随训练次数的增加，其动态、稳态特性不断提高，进一步提高发动机整体性能。

为易于公众理解，下面结合附图来对本发明的技术方案进行详细说明：

一种基于Q-Learning的变循环航空发动机推力控制方法，包括：

加速和减速限制模块，与Q-Learning控制器串联，用于限制发动机各安全参数的输出值，以确保变循环航空发动机安全运行。

所述加速和减速限制模块包含高低压转子转速限制、涡轮前温度限制、风扇、核心机风扇与高压压气机风扇喘振裕度限制；若所述高低压转子转速、涡轮前温度、风扇、核心机风扇与高压压气机风扇喘振裕度超出安全限制，则控制器会获得较大负奖励并重新启动仿真训练Q表，避免Q表学习无效经验；在训练过程中该模块可限制控制器输出，使变循环航空发动机性能参数维持在安全范围内。

Q-Learning控制器，用于根据反馈参数及控制指令，得到对应的变循环航空发动机的燃油流量输入。图4为本发明实施例提供的Q-Learning控制器整体结构图。

图1为Q-Learning控制方法流程图，环境将状态参数送至Q表，Q表输出当前状态对应的全部Q值，根据ε-贪婪策略输出动作，环境进入下一状态并返回奖励，更新Q表。图2和图3分别给出了基于传统PID控制方法的变循环发动机推力控制架构与本发明基于Q-Learning方法的变循环航空发动机推力控制架构。如图2所示，传统控制系统主要由PID控制器、加减速限制保护模块、执行机构三部分组成。如图3所示，本发明控制系统则是由Q-Learning控制器、限制模块与执行机构三部分组成。传统控制系统中，由于发动机受喘振裕度、温度、压力等条件影响，引入加减速限制确保发动机安全运行在包线内部。在本发明中，为避免超温、超压等影响发动机正常运行的现象发生，通过限制模块直接对燃油流量加以限值保护。在传统发动机控制系统中，常以PID作为主要控制器结构，但所设计的固定控制增益对变化的内外影响的适应性仍显不足，响应速度也受到影响。

为此，本发明一种基于Q-Learning的变循环航空发动机推力控制方法，具体实现步骤为：

步骤1：基于变循环航空发动机仿真模型建立Q-Learning推力控制器，以仿真模型作为训练环境，创建二维表(Q表)对动作值函数Q(s，a)进行表示，其中，s为变循环航空发动机状态参数，a为燃油流量。

本实施例中，变循环航空发动机仿真模型包括彭利方(2016)在《变循环发动机建模与非线性控制方法研究》中第3章构建的变循环航空发动机模型，具体包括第3.2节中构建的前段风扇叶根叶尖模型、模式选择活门与外涵流量关系、各部件静子叶片角度调节引起的特性曲线变化以及第3.3节中构建的部件模型，详见：彭利方.变循环发动机建模与非线性控制方法研究[D].南京航空航天大，2016。本实施例中，变循环航空发动机仿真模型输入包括大气环境参数、各静子导流叶片角度、模式选择活门开度、主燃油流量、尾喷口面积；输出包括推力、高低压转子转速(包括换算转速及实际转速)、各级压比、流量、压力。

所述步骤1中Q表大小为n×m，n为离散化后的状态总数，m为离散化的动作总数，在本发明实施例中n为27225，m为11；Q表使用变循环航空发动机状态参数s与燃油流量a作为索引，输出状态s下执行a的Q值。图5为本发明实施例提供的Q表结构图。

所述步骤2.1中变循环航空发动机当前时刻状态参数包括：目标推力、目标推力与实际推力差值、目标推力与实际推力差值的导数、高压转子转速、低压转子转速，经过离散化后获得当前时刻状态参数s_t。

由于算法本身限制，需将输入的状态参数s_t以及输出的燃油流量指令进行离散化处理，划分区间参考各变量示波器的显示范围，具体划分如下：

目标推力(标幺处理后)：(0，0.625]、(0.625，0.875]、(0.625，0.875]、(0.875，1.000]、(1.000，1.125]、(1.125，1.375]、(1.375，1.625]、(1.625，1.750]、(1.750，1.875]、(1.875，2.375]、(2.375，5]，共划分为以上11个状态区间。

目标推力与实际推力差值(标幺处理后)：(-5，-0.375]、(-0.375，-0.250]、(-0.250，-0.125]、(-0.125，-0.0625]、(-0.0625，-0.025]、(-0.025，0.025]、(0.025，0.0625]、(0.0625，0.125]、(0.125，0.250]、(0.250，0.375]、(0.375，5]，共划分为以上11个状态区间。

目标推力与实际推力差值的导数(标幺处理后)：(-10，-0.375]、(-0.375，-0.125]、(-0.125，-0.0625]、(-0.0625，-0.0125]、(-0.0125，0.0125]、(0.0125，0.0625]、(0.0625，0.125]、(0.125，0.375]、(0.375，10]，共划分为以上9个状态区间。

高压转子转速(标幺处理后)：(0，1.525]、(1.525，1.550]、(1.550，1.575]、(1.575，1.600]、(1.600，2]，共划分为以上5个状态区间。

低压转子转速(标幺处理后)：(0，1.0125]、(1.0125，1.0375]、(1.0375，1.0500]、(1.0500，1.0625]、(1.0625，2]，共划分为以上5个状态区间。

综上，五个参数变量共对应27225种可能出现的状态。

燃油流量指令离散化为0.30、0.34、0.38、0.42、0.44、0.46、0.50、0.54、0.58、0.62、0.65，共11个动作。

所述步骤2.2中利用的ε-贪婪策略如下：

其中，random a是在设定的动作集合中随机选择燃油流量控制指令，即从离散化后的11个燃油流量指令中随机选取一个作为当前动作；

是选择使Q(s_t，a)值最大的燃油流量a；rand是值在0～1之间的随机数；ε是随机因子，可通过改变ε大小来改变燃油流量指令的随机性。

在训练初期，为增加控制器探索率，将所述随机因子ε置为一个稍大的值，本发明选取探索率初值为0.3，待控制器收敛至当前的正奖励误差范围内，减小随机因子至0.2，调整正奖励触发范围，继续训练至控制器收敛，依此类推。当控制器满足控制精度需求时，需将随机因子置0后投入使用，使发动机完全按照现有经验实现控制任务。

步骤4：更新动作值函数Q(s，a)；

所述步骤4.1中延时奖励R_t+1由目标推力与实际推力差值决定，其值的大小遵循所述目标推力与实际推力差值的绝对值越小奖励越高的原则。

因此，所述延时奖励的设计直接关系到控制器的收敛效果与控制精度。在控制器训练初期，如果把正奖励的触发条件设置非常严格，将会导致控制器难收敛甚至不收敛，严重影响训练速度。所以，在训练初期，正奖励的触发条件为推力误差在0～0.25范围内(标幺处理后)，当控制器收敛于触发正奖励的误差范围内，保存当前Q表，并在此基础上规范正奖励触发条件，以此类推，逐步提高控制器精度，改善控制效果，最终规范正奖励触发条件为推力误差在0～0.05范围内(标幺处理后)，继续训练直到达到控制目标。

所述步骤4.2中Q表的单点Q(s_t，a_t)更新规则具体如下：

其中，s_t是变循环航空发动机在当前时刻状态参数，a_t是当前时刻燃油流量，s_t+1是变循环航空发动机下一时刻状态参数，a_t+1是下一时刻燃油流量，R_t+1是变循环航空发动机推力控制器在s_t下执行a_t操作后，进入下一时刻状态s_t+1得到的延时奖励；α是学习率，取值为0.9；γ是衰减因子，取值为0.6；α决定了动作值函数更新时对当前时刻Q(s_t，a_t)值的保留程度，α和γ共同决定了动作值函数更新时对Q(s_t+1，a_t+1)的学习程度；is_end为更新停止标志，当反馈推力不在限定范围内、单轮仿真结束或发动机参数超过安全限制时触发更新停止条件。

步骤5：使用窗口平均方法计算控制获得的平均奖励值

若所述平均奖励值

在实际应用中，将已训练完成的Q表输入到变循环航空发动机推力的控制程序中，以实现对变循环航空发动机推力的实际控制。

步骤6：仿真验证Q-Learning控制器效果。

将步骤5得到的Q表投入仿真测试中，并与传统PID控制方法进行比较，比较结果分别如图6、图7所示。图6为稳态工况下，推力要求为1.625(标幺化处理后)的对比结果，两种控制器有明显波动段为控制器介入段，经比较可发现Q-Learning控制器无论是从动态响应速度还是稳态精度均优于PID控制器，且超调量远小于PID控制器。

进一步地，对两种控制器在100s时进行如图7所示的变指令测试，将目标推力改为1.875，实验结果再次验证了Q-Learning控制器控制效果明显优于传统PID控制器。

由此可见，强化学习方法应用于发动机控制可以获得良好的控制性能。上述实验结果均验证了本发明优于传统PID控制方法的发动机动态、稳态特性，明显提高了控制器的快速性、稳定性，显著提高了发动机性能。

Claims

1.一种基于Q-Learning的变循环航空发动机推力控制方法，其特征在于：包括以下步骤：

步骤1：基于变循环航空发动机仿真模型建立Q-Learning推力控制器，以仿真模型作为训练环境，创建二维表Q表对动作值函数Q(s,a)进行表示，其中，s为变循环航空发动机状态参数，a为燃油流量；

步骤4：更新动作值函数Q(s,a)；

步骤4.2：根据所述延时奖励R_t+1对Q表在s＝s_t，a＝a_t处的值，即Q(s_t,a_t)进行更新；

步骤5：使用窗口平均方法计算控制获得的平均奖励值

若所述平均奖励值

2.根据权利要求1所述的一种基于Q-Learning的变循环航空发动机推力控制方法，其特征在于：所述步骤1中Q表大小为n×m，n为离散化后的状态总数，m为离散化的动作总数；Q表使用变循环航空发动机状态参数s与燃油流量a作为索引，输出状态s下执行a的Q值。

3.根据权利要求1所述的一种基于Q-Learning的变循环航空发动机推力控制方法，其特征在于：所述步骤2.1中变循环航空发动机当前时刻状态参数包括：目标推力、目标推力与实际推力差值、目标推力与实际推力差值的导数、高压转子转速、低压转子转速，经过离散化后获得当前时刻状态参数s_t。

4.根据权利要求1所述的一种基于Q-Learning的变循环航空发动机推力控制方法，其特征在于：所述步骤2.2中利用的ε-贪婪策略如下：

是选择使Q(s_t,a)值最大的燃油流量a，rand是随机数，ε是随机因子，可通过改变ε大小来改变燃油流量指令的随机性。

5.根据权利要求1所述的一种基于Q-Learning的变循环航空发动机推力控制方法，其特征在于：所述步骤4.1中延时奖励R_t+1由目标推力与实际推力差值决定，其值的大小遵循所述目标推力与实际推力差值的绝对值越小奖励越高的原则。

6.根据权利要求1所述的一种基于Q-Learning的变循环航空发动机推力控制方法，其特征在于：所述步骤4.2中Q表的单点Q(s_t,a_t)更新规则具体如下：

其中，s_t是变循环航空发动机在当前时刻状态参数，a_t是当前时刻燃油流量，s_t+1是变循环航空发动机下一时刻状态参数，a_t+1是下一时刻燃油流量，R_t+1是变循环航空发动机推力控制器在s_t下执行a_t操作后，进入下一时刻状态s_t+1得到的延时奖励；α是学习率，γ是衰减因子，α决定了动作值函数更新时对当前时刻Q(s_t,a_t)值的保留程度，α和γ共同决定了动作值函数更新时对Q(s_t+1,a_t+1)的学习程度；is_end为更新停止标志，当反馈推力不在限定范围内、单轮仿真结束或发动机参数超过安全限制时触发更新停止条件。

7.根据权利要求1所述的一种基于Q-Learning的变循环航空发动机推力控制方法，其特征在于：使用与Q-Learning控制器串联的加速和减速限制模块，用于限制发动机各安全参数的输出值，以确保变循环航空发动机安全运行。

8.根据权利要求7所述的一种基于Q-Learning的变循环航空发动机推力控制方法，其特征在于：所述加速和减速限制模块包含高低压转子转速限制、涡轮前温度限制、风扇、核心机风扇与高压压气机风扇喘振裕度限制；若所述高低压转子转速、涡轮前温度、风扇、核心机风扇与高压压气机风扇喘振裕度超出安全限制，则控制器会获得较大负奖励并重新启动仿真训练Q表，避免Q表学习无效经验；在训练过程中该模块可限制控制器输出，使变循环航空发动机性能参数维持在安全范围内。