CN114675535B - 一种基于强化学习的航空发动机过渡态寻优控制方法 - Google Patents

一种基于强化学习的航空发动机过渡态寻优控制方法 Download PDF

Info

Publication number
CN114675535B
CN114675535B CN202210221726.2A CN202210221726A CN114675535B CN 114675535 B CN114675535 B CN 114675535B CN 202210221726 A CN202210221726 A CN 202210221726A CN 114675535 B CN114675535 B CN 114675535B
Authority
CN
China
Prior art keywords
network
model
training
engine
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210221726.2A
Other languages
English (en)
Other versions
CN114675535A (zh
Inventor
孙希明
陈俊宏
全福祥
孙翀贻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210221726.2A priority Critical patent/CN114675535B/zh
Priority to US18/025,531 priority patent/US20240077039A1/en
Priority to PCT/CN2022/092092 priority patent/WO2023168821A1/zh
Publication of CN114675535A publication Critical patent/CN114675535A/zh
Application granted granted Critical
Publication of CN114675535B publication Critical patent/CN114675535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02CGAS-TURBINE PLANTS; AIR INTAKES FOR JET-PROPULSION PLANTS; CONTROLLING FUEL SUPPLY IN AIR-BREATHING JET-PROPULSION PLANTS
    • F02C9/00Controlling gas-turbine plants; Controlling fuel supply in air- breathing jet-propulsion plants
    • F02C9/26Control of fuel supply
    • F02C9/44Control of fuel supply responsive to the speed of aircraft, e.g. Mach number control, optimisation of fuel consumption
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02CGAS-TURBINE PLANTS; AIR INTAKES FOR JET-PROPULSION PLANTS; CONTROLLING FUEL SUPPLY IN AIR-BREATHING JET-PROPULSION PLANTS
    • F02C9/00Controlling gas-turbine plants; Controlling fuel supply in air- breathing jet-propulsion plants
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Combustion & Propulsion (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种基于强化学习的航空发动机过渡态寻优控制方法,属于航空发动机过渡态技术领域。包括:基于现有的某型双轴涡轮风扇发动机模型,将其调整为适用于调用强化学习算法的模型;为了同时满足实时模型的高位状态空间和连续动作输出,设计Actor‑Critic网络模型;设计基于Actor‑Critic框架的深度确定性策略梯度算法,以便同时解决高维状态空间和连续动作输出的问题;在将Actor‑Critic框架与DDPG算法结合之后,进行模型的训练;发动机加速过渡的控制规律是由上述训练过程得到的,应用此方法对发动机加速过程进行控制。

Description

一种基于强化学习的航空发动机过渡态寻优控制方法
技术领域
本发明属于航空发动机过渡态技术领域,涉及一种应用于航空发动机过渡态加速寻优控制方法。
背景技术
航空发动机各种过渡态工作性能是衡量发动机性能极为重要的指标,加速过程控制是航空发动机典型的过渡态控制,加速控制的快速性与安全性直接影响航空发动机及飞机性能。一般而言,加速控制要求在给定的各类指标约束条件下,使发动机从某一工作状态过渡到另一工作状态的时间最小。
目前存在的方法主要可分为以下三种,近似确定法,基于动态规划的最优控制方法和提取功率法等。近似确定法是以发动机稳定工作状态下的平衡方程近似过渡态的工作情况为基础确定发动机过渡态加速规律,存在设计精度低,实现过程复杂等缺点。动态规划法是基于发动机动态特性计算模型,存在多种约束的优化方法,即直接在该模型基础上建立所需性能的目标函数,通过优化算法来寻找最优过渡态控制规律,其关键在于非线性优化算法的实现,常见的有约束变尺度法,二次序列规划法,遗传算法等,存在数值方法复杂,计算量大及鲁棒性问题等缺点。提取功率法是通过在发动机稳态特性计算模型的基础上额外增加转子提取功率,使其近似于过渡态情况,以设计最优控制规律,此方法忽略了容积效应以及多转子之间的动态耦合等因素影响。在目前已有的航空发动机过渡态控制方法中,加速控制规律的设计均存在设计过程复杂,鲁棒性,工作范围小等问题。
发明内容
针对现有航空发动机过渡态控制规律设计方法在设计复杂、工作范围小、鲁棒性差等问题,本发明提供一种基于强化学习的航空发动机过渡态加速控制方法。
本发明采用的技术方案为:
一种基于强化学习的航空发动机过渡态加速控制方法,其设计过程包括以下步骤:
S1基于现有的某型双轴涡轮风扇发动机模型,将其调整为适用于调用强化学习算法的模型。具体如下:
S1.1根据发动机过渡态控制需求,将双轴涡轮风扇发动机模型的输入输出变量进行选择,包括燃油流量、飞行条件、高低压转子转速、油气比、喘振裕度以及涡轮入口总温。
S1.2调整后的双轴涡轮风扇发动机模型为了方便强化学习算法的调用与训练,将双轴涡轮风扇发动机模型通过封装为直接调用的实时模型,加快训练与仿真速度,相较于传统的模型直接进行训练的方式训练速度得到大幅提升。
S2为了同时满足实时模型的高位状态空间和连续动作输出,设计Actor-Critic网络模型。具体如下:
S2.1采用Actor网络生成动作,所述Actor网络由传统深度神经网络组成,每一步的输出行为at可以通过确定性策略函数μ(st)和输入状态s确定,用深度神经网络对策略函数进行拟合,参数为θμ,根据实际需要确定每一参数的具体内容。
S2.2设计相应的Actor网络结构,包括输入层、隐含层和输出层,其中隐含层的作用需要包括将状态映射为特征,以及将前层输出归一化同时输入动作值。激活函数可以选择ReLU函数或Tanh函数,但不仅限于此,常用的激活函数有:
(1)Sigmoid函数
(2)Tanh函数
(3)ReLU函数
Relu=max(0,x)
(4)PReLU函数
f(x)=max(αx,x)
(5)ELU函数
S2.3 Critic网络用于评价执行动作的好坏程度,由深度神经网络组成,其输入为状态-动作组(s,a),输出为状态-动作值函数Q值函数,参数为θQ,根据实际需要确定每一参数的具体内容。
S2.4设计相应的Critic网络结构,为了满足网络能够更好挖掘相关特征,需要在其输入状态s后加入隐含层。同时,由于Critic网络的输入应有动作a,在与状态s的特征进行加权求和后再对其进行特征提取。最终的输出结果应该是与执行动作的好坏相关的Q值。
S2.5需要指出的是,深度神经网络的主要作用是作为函数拟合器,因此过多的隐含层将不利于网络训练及收敛,同时应当选择简单的全连接网络,加快收敛速度。
S3设计基于Actor-Critic框架的深度确定性策略梯度(DDPG)算法,使用Critic网络预估Q值,Actor网络输出动作,以便同时解决高维状态空间和传统DQN算法无法解决的连续动作输出的问题。具体如下:
S3.1采用经验回放方法和批规范化方法,减少样本之间的相关性。目标网络采用软更新模式,使网络权值参数缓慢接近原训练网络,保证网络训练的稳定性。确定性行为策略使得每一步的输出都是可以计算出来的。
S3.2 DDPG算法核心问题是处理训练目标,即最大化未来期望奖励函数J(μ),同时最小化Critic网络的损失函数L(θQ)。因此应当设置合适的奖励函数,使网络选择出最优策略。最优策略μ定义为最大化J(μ)的策略,定义为μ=argmaxμJ(μ),本实例中,按照过渡态的目标要求,目标函数定义为最小化喘振裕度、涡轮前总温与加速时间。
S3.3 DDPG算法是异策略算法,在连续空间中进行学习探索的过程可以独立于学习算法。因此需要在Actor网络策略输出中添加噪声作为新的探索策略。
S3.4为了避免从低维特征向量观测中学习时,不同分量的不同物理单位和数值相差较大所带来的难以有效学习,使得神经网络很难找到可以针对不同环境和范围且具有较好泛化能力的超参数。因此,在设计的过程中,对训练样本的每个维度进行标准化,使其具有单位均值和方差。
S4在将Actor-Critic框架与DDPG算法结合之后,便可以进行模型的训练。具体如下:
S4.1首先根据现有需求,搭建相应计算奖励,惩罚函数模块。
S4.2将发动机模型与强化学习网络结合,进行分批次训练,相比与传统直接训练方式,这种训练方法可以将复杂的发动机模型训练至更好的目标结果。由于发动机模型复杂且过渡态为动态过程,所以在训练时,将目标奖励值范围手动调大,进行预训练,当满足基本要求后,依次减小目标奖励值范围,直到满足相应要求。
S4.3为了使策略最优,且控制器具有鲁棒性,在参考目标上增加±5%的随机量,使当前控制器模型具有最优的控制量输出。
S4.4为了设计满足多工况下的燃油供给规律,在保持高度、马赫数不变的前提下,改变转子目标转速,进行多次训练。
S5发动机加速过渡的控制规律是由上述训练过程得到的,应用此方法对发动机加速过程进行控制,主要包含以下步骤:
S5.1在训练结束后,会得到相应的控制器参数,需要注意的是,每一个工况对应一个控制器参数,此时的控制器输入为目标转速值,输出为供给发动机的燃油流量。
S5.2在当前工况下的控制规律由模型直接给出,只需将模型的输出与发动机的输入直接相通即可进行对发动机加速过程的过渡态控制。
本发明的有益效果:通过本发明所提供的发动机加速过渡寻优方法,相对于传统非线性规划的方法,通过使用强化学习技术、神经网络逼近技术及动态规划的方法,避免了求解HJB方程所引起的维数灾和求解时间由后向前的难处,可以直接有效的解决设计最优燃油加速计划问题。同时,本方法所设计的控制器可以适用于多种工况下的加速过渡,提高了发动机加速控制器的自适应性,更加接近飞机在多种情况下发动机的真实工作情况。此外,在设计控制器的过程中,在输入输出均加入了一定程度的扰动,使得学习后的控制器性能更加可靠,具有一定的鲁棒性。最后,在奖惩函数设计过程中,直接将发动机最优控制的目标函数及各种边界条件当作奖惩函数,设计方式简单,最终结果响应快,超调小,控制精度满足要求,相对于其他已有的智能控制方法其设计方法更为简洁且便于实施。
附图说明
图1为基于强化学习的航空发动机过渡态控制系统设计流程图;
图2为基于强化学习的航空发动机过渡态控制系统结构示意图;
图3为某型发动机模型系统结构示意图;
图4为Actor网络结构;
图5为Critic网络结构;
图6为Actor-Critic网络框架;
图7为基于Actor-Critic网络框架的DDPG算法训练流程;
图8为80%转速加速控制过程,其中图(a)为低压转子转速变化曲线,图(b)为高压转子转速变化曲线,图(c)为涡轮前总温变化曲线,图(d)为压气机喘振裕度变化曲线,图(e)为加速所需的燃油流量,同时也是控制量。
图9为100%转速加速控制过程,其中图(a)、图(b)、图(c)、图(d)及图(e)的意义与以上图中所描述的相同。
具体实施方式
下面结合附图对本发明进一步说明,在此列举的本发明实施将以某型双轴涡扇发动机为被控对象,基于强化学习的航空发动机过渡态控制系统设计流程图如图1所示。
图2为基于强化学习的航空发动机过渡态控制系统结构示意图。从图中可以看出,控制器主要包括动作网络和评价网络两部分,其中动作网络所输出的是控制量,评价网络输出的是评价指标。被控对象为涡扇发动机,输出发动机状态等信息。在控制器设计过程中,实际上即为设置合适的评价指标函数,训练动作网络和评价网络以得到最优的权重值,最终得到完整的发动机过渡态控制规律。为方便起见,在控制器设计过程中涉及到的主要参数及意义如表1所示。
表1基于强化学习的航空发动机过渡态控制系统主要设计参数及意义
符号 意义
H 高度
Ma 马赫数
T4 涡轮前总温
Wf 燃油流量
nL 低压转子转速
nH 高压转子转速
SMc 压气机喘振裕度
far 油气化
ΔWf 燃油流量变化速率
a 动作
s 状态
π 策略
Q 在确定状态下,当前动作所获得的收益
图3为某型发动机模型系统结构示意图,在通过对过渡态控制需求的分析,对发动机模型输入输出进行调节。在本实例中发动机模型所需的输入为高度、马赫数和燃油流量,输出状态为低压转子转速、高压转子转速、涡轮前总温、油气比和压气机喘振裕度。
图4为Actor网络结构。Actor网络的输入输出分别为模型环境的状态量s与动作量a,在本实例中,环境的状态量为发动机低压转子转速,动作量为发动机燃油流量。每一步动作量的输出可以通过确定性策略函数μ得到,其计算公式为at=μ(st)。策略函数的获取可以通过深度神经网络进行拟合。在本实例中,由于发动机模型为强非线性模型,因此较多的隐含层不利于模型的训练与特征的提取,所以Actor的网络共4层,其中第一层为输入层,第二层为隐含层,目的是将发动机状态映射为特征,第三层为隐含层,目的是将特征进行归一化处理得到动作值即燃油流量,这两层隐含层均选择较为简单的ReLU函数作为激活函数,最后一层为输出层。网络的更新采用链式法则,首先将策略函数参数化,获得策略网络即μ(s|θ),将期望未来函数J对参数进行求导得到策略梯度,然后获得所有传给模型的动作值,进而得到状态转换集,用这个集合对策略进行训练得到最优策略。策略梯度的计算公式为:
式中,θ为网络参数,st为当前状态,ρβ为所有动作的策略状态访问分布,a为动作量,Q为Critic网络,μ为Actor网络,ω为网络参数,E为期望函数。通过这个公式对网络进行训练,进而获得最优策略。
图5为Critic网络结构。Critic网络的输入为状态和动作,输出为Q值函数。设置5层网络,分别是输入层,三个隐含层和输出层。与Actor网络不同的是,Critic网络有两个输入,一个是状态,这就需要一层隐含层提取特征,另一个是动作,将动作值和上述特征加权求和作为下一隐含层的输入,再通过另一隐含层后输出Q值至输出层。与Actor网络采用的激活函数相同,也采用ReLU函数作为激活函数。Q值函数表示的是在当前状态下按照所选择策略执行动作所得到的期望回报值,计算公式为:
式中,Q为Critic网络,s为状态量,下标next代表下一时刻,a为动作量,π为策略,E为期望函数,r为奖励函数,γ为折扣因子,next为下一时刻的数值。为了寻找更新Critic网络参数的办法,引入损失函数,最小化损失函数进而对参数进行更新。损失函数表示为:
式中,Loss为损伤函数,θ为网络参数,Q为Critic网络,ρβ为所有动作的策略状态访问分布,α为更新步长,β为步长的访问分布,s为状态,r为奖励函数,E为期望函数,y为计算目标标签,a为动作量,下标next代表下一时刻,γ为折扣因子,μ为Actor网络。
图6为Actor-Critic网络框架。从图中可以看出,这种网络框架有策略和值函数两种结构。策略用于动作选取,值函数用于评估策略生成动作的好坏程度,以时间差分(TD)误差的形式表示其评价信号,进而对二者进行更新。
具体形式可以表述为:当每一次策略从环境获得状态,进行动作选择之后,值函数将对此时产生的新状态进行评价,确定其误差,如果使得TD误差为正值,证明此时选择的动作将会使新的状态更贴近预期标准,下一次遇到同样的状态时将会优先考虑再次执行这个动作。同理,若使TD误差为负值,证明此时的动作不会使新的状态更加靠近期望,今后就不会再对此状态继续执行该动作。同时,选择策略梯度法对策略进行更新优化,这种方法会不断计算执行该策略所获得的期望总回报对策略参数的梯度值,进而对策略进行更新,直至最优。
图7为基于Actor-Critic网络框架的DDPG算法训练流程。首先对Actor网络μ(s|θμ)和Critic网络Q(s,a|θQ)的权值随机初始化。然后对目标Actor网络及目标Critic网络进行初始化,使权值与上一步权值相同,同时初始化经验回放池。对每一个回合,随机初始化发动机状态,对该回合的每一个步长,首先根据当前策略计算输出一个动作,随后发动机执行该动作,并获得下一时刻的状态以及回报值,将当前经验包括当前状态,当前动作,下一时刻状态及回报值存储在经验回放池中,然后从经验回放池中随机小批次采样M个经验,计算当前的目标标签值y,通过y计算当前的损失函数Loss(θQ),最小化损失函数对Critic网络的权值进行更新,然后采用策略梯度法对Actor网络权值进行更新,最后采用soft更新准则对目标网络进行更新,这种更新方法使学习稳定性得以提高,鲁棒性更好。公式为:
式中,θ为网络参数,Q为Critic网络,μ为Actor网络,ξ为soft更新率,下标next代表下一时刻。至此,当前回合结束,重复多次直到训练结束即可。
在训练时,目标函数和损失函数的确定由过渡态控制目标决定。由于加速控制是使得转速在满足各项性能安全指标的前提下以最小时间到达目标转速,因此可以设置目标函数为:
式中,J为目标函数,k为当前迭代步,m为迭代最大步,nH为高压转子转速,下标MAX为最大限制,Δt为一个迭代步的时间间隔。
在加速过程所考虑的约束条件为:
高压转子不超转:
nH≤nH,max
低压转子不超转:
nL≤nL,max
涡轮前温度不超温:
T4≤T4,max
燃烧室不富油熄火:
far≤farmax
高压压气机不喘振:
SMC≥SMC,min
燃烧室供油范围:
Wf,idle≤Wf≤Wf,max
供油量最大变化速率限制:
ΔWf≤ΔWf,max
上述限制条件中,nH为高压转子转速,nL为低压转子转速,T4为涡轮前总温,far为燃气比,SMC为高压压气机喘振裕度,Wf为燃油流量,ΔWf为燃油流量变化率,下标max为最大限制条件,min为最小限制条件,idle为发动机慢车状态。
在设置损失函数时,可以直接将超出部分当作惩罚值,避免其超过约束边界,如:高压转子超转损失在判断其已经超出边界后,设置为0.1*(nH-nH,max),由于该惩罚值随时间进行累积,因此乘一个小于1的系数使得惩罚项的积累并不会产生太大导致累积为负无穷的情况。同理其他限制边界也类似设置即可。
在训练的过程中,由于发动机的强非线性,直接进行训练消耗时间太长,且效果也并不是很好,所以采用分级训练的方式,即首先给定大致范围内的目标值以及较为放松的惩罚函数,在训练结果满足基本要求后,利用前一级的预训练模型,改变为更加严格的训练参数进行下一级的训练,直到满足相应要求。
图8为慢车转速加速到80%转速的情况。这一情况是模拟飞机加速到额定飞行转速的情况。其中图(a)为低压转子转速变化曲线,可以看出,在2-4秒就可以加速到目标转速,加速时间短。图(b)为高压转子转速变化曲线,图(c)为涡轮前总温变化曲线,图(d)为压气机喘振裕度变化曲线,从图中可以看出,由于受约束条件的限制,使得涡轮前总温和喘振裕度都在容许的范围内。图(e)为加速所需的燃油流量,同时也是控制量,从图中可以看出,在符合相应约束的前提下,燃油流量的上升趋势为越大越好,这也符合设计过程中想要的控制器特性。
图9为慢车转速加速到100%转速的情况。这一情况是模拟飞机起飞加速的状态,对各种边界条件相对更为严格,对发动机性能要求更好。其中图(a)、图(b)、图(c)、图(d)及图(e)的意义与以上图中所描述的相同。由发动机原理可知,在加速过程中,加速时间不能无限小,这是因为最短时间加速会增加涡轮温度,使之超过边界对涡轮造成损伤,影响飞行安全。所以从图(a)中可以看到,加速时间为3-5秒,这使得发动机各项指标都处于边界附近,但未超过边界。从上述过程可以看出,基于强化学习的航空发动机过渡态控制器可以在多种条件下对发动机进行控制,使其在约束条件内对发动机进行加速控制,控制器自身由于强化学习的优势,可靠性、自适应性和鲁棒性得到提升。

Claims (3)

1.一种基于强化学习的航空发动机过渡态寻优控制方法,其特征在于,包括以下步骤:
S1基于某双轴涡轮风扇发动机模型,将其调整为适用于调用强化学习算法的模型;
S2为了同时满足实时模型的高位状态空间和连续动作输出,设计Actor-Critic网络模型;具体如下:
S2.1采用Actor网络生成动作,Actor网络由传统深度神经网络组成,每一步的输出行为at可以通过确定性策略函数μ(st)和输入状态s确定,采用深度神经网络对策略函数进行拟合,参数为θμ
S2.2设计相应的Actor网络结构,包括输入层、隐含层和输出层,其中隐含层将状态映射为特征,以及将前层输出归一化同时输入动作值;
S2.3 Critic网络用于评价执行动作的好坏程度,由深度神经网络组成,其输入为状态-动作组(s,a),输出为状态-动作值函数Q值函数,参数为θQ
S2.4设计Critic网络结构,在其输入状态s后加入隐含层;同时,由于Critic网络的输入应有动作a,在与状态s的特征进行加权求和后再对其进行特征提取;最终的输出结果是与执行动作的好坏相关的Q值;
S2.5将深度神经网络作为函数拟合器;
S3设计基于Actor-Critic框架的深度确定性策略梯度DDPG算法,使用Critic网络预估Q值,Actor网络输出动作,同时解决高维状态空间和传统DQN算法无法解决的连续动作输出的问题;具体如下:
S3.1采用经验回放方法和批规范化方法,减少样本之间的相关性;目标网络采用软更新模式,使网络权值参数缓慢接近原训练网络,保证网络训练的稳定性;确定性行为策略使得每一步的输出都是可以计算的;
S3.2 DDPG算法核心问题是处理训练目标,即最大化未来期望奖励函数J(μ),同时最小化Critic网络的损失函数L(θQ);因此应当设置合适的奖励函数,使网络选择出最优策略;最优策略μ定义为最大化J(μ)的策略,定义为μ=argmaxμJ(μ),按照过渡态的目标要求,目标函数定义为最小化喘振裕度、涡轮前总温与加速时间;
S3.3 DDPG算法是异策略算法,在连续空间中进行学习探索的过程可以独立于学习算法;因此需要在Actor网络策略输出中添加噪声作为新的探索策略;
S3.4对训练样本的每个维度进行标准化,使其具有单位均值和方差;
S4在将Actor-Critic框架与DDPG算法结合之后,进行模型训练;具体如下:
S4.1首先根据现有需求,搭建相应计算奖励,惩罚函数模块;
S4.2将发动机模型与强化学习网络结合,进行分批次训练;在训练时,将目标奖励值范围调大,进行预训练,当满足基本要求后,依次减小目标奖励值范围,直到满足相应要求;
S4.3为了使策略最优,且控制器具有鲁棒性,在参考目标上增加±5%的随机量,使当前控制器模型具有最优的控制量输出;
S4.4为了设计满足多工况下的燃油供给规律,在保持高度、马赫数不变的前提下,改变转子目标转速,进行多次训练;
S5由上述训练过程得到发动机加速过渡的控制规律,应用此方法对发动机加速过程进行控制,主要包含以下步骤:
S5.1在训练结束后,得到相应的控制器参数,每一个工况对应一个控制器参数,此时的控制器输入为目标转速值,输出为供给发动机的燃油流量;
S5.2在当前工况下,模型直接给出控制规律,将模型的输出与发动机的输入直接相通,即可对发动机加速过程的过渡态进行控制。
2.根据权利要求1所述的一种基于强化学习的航空发动机过渡态寻优控制方法,其特征在于,所述的步骤S1具体如下:
S1.1根据发动机过渡态控制需求,将双轴涡轮风扇发动机模型的输入输出变量进行选择,包括燃油流量、飞行条件、高低压转子转速、油气比、喘振裕度以及涡轮入口总温;
S1.2调整后的双轴涡轮风扇发动机模型中,将双轴涡轮风扇发动机模型通过封装为直接调用的实时模型。
3.根据权利要求1所述的一种基于强化学习的航空发动机过渡态寻优控制方法,其特征在于,所述步骤S2.2Actor网络结构中,使用的激活函数可以选择ReLU函数或Tanh函数。
CN202210221726.2A 2022-03-07 2022-03-07 一种基于强化学习的航空发动机过渡态寻优控制方法 Active CN114675535B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210221726.2A CN114675535B (zh) 2022-03-07 2022-03-07 一种基于强化学习的航空发动机过渡态寻优控制方法
US18/025,531 US20240077039A1 (en) 2022-03-07 2022-05-11 Optimization control method for aero-engine transient state based on reinforcement learning
PCT/CN2022/092092 WO2023168821A1 (zh) 2022-03-07 2022-05-11 一种基于强化学习的航空发动机过渡态寻优控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210221726.2A CN114675535B (zh) 2022-03-07 2022-03-07 一种基于强化学习的航空发动机过渡态寻优控制方法

Publications (2)

Publication Number Publication Date
CN114675535A CN114675535A (zh) 2022-06-28
CN114675535B true CN114675535B (zh) 2024-04-02

Family

ID=82072854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210221726.2A Active CN114675535B (zh) 2022-03-07 2022-03-07 一种基于强化学习的航空发动机过渡态寻优控制方法

Country Status (3)

Country Link
US (1) US20240077039A1 (zh)
CN (1) CN114675535B (zh)
WO (1) WO2023168821A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116476042B (zh) * 2022-12-31 2024-01-12 中国科学院长春光学精密机械与物理研究所 基于深度强化学习的机械臂运动学逆解优化方法及装置
CN116996919B (zh) * 2023-09-26 2023-12-05 中南大学 一种基于强化学习的单节点多域抗干扰方法
CN117140527B (zh) * 2023-09-27 2024-04-26 中山大学·深圳 一种基于深度强化学习算法的机械臂控制方法及系统
CN117111620B (zh) * 2023-10-23 2024-03-29 山东省科学院海洋仪器仪表研究所 一种异构无人系统任务分配自主决策方法
CN117313826B (zh) * 2023-11-30 2024-02-23 安徽大学 一种基于强化学习的任意角度倒立摆模型训练方法
CN117518836B (zh) * 2024-01-04 2024-04-09 中南大学 变体飞行器鲁棒深度强化学习制导控制一体化方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016078329A1 (zh) * 2014-11-19 2016-05-26 天津大学 一种多智能体结构的微电网优化运行方法
CN108804850A (zh) * 2018-06-27 2018-11-13 大连理工大学 一种基于空间重构的航空发动机过渡态加速过程关键性能参数预测方法
CN109611217A (zh) * 2018-11-07 2019-04-12 大连理工大学 一种航空发动机过渡态控制规律优化的设计方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN111486009A (zh) * 2020-04-23 2020-08-04 南京航空航天大学 一种基于深强化学习的航空发动机控制方法、装置
CN111679576A (zh) * 2020-05-21 2020-09-18 大连理工大学 一种基于改进确定性策略梯度算法的变循环发动机控制器设计方法
CN112241123A (zh) * 2020-10-23 2021-01-19 南京航空航天大学 基于深度强化学习的航空发动机加速控制方法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN113341972A (zh) * 2021-06-07 2021-09-03 沈阳理工大学 一种基于深度强化学习的机器人路径寻优规划方法
CN113485117A (zh) * 2021-07-28 2021-10-08 沈阳航空航天大学 基于输入输出信息的航空发动机多变量强化学习控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11775850B2 (en) * 2016-01-27 2023-10-03 Microsoft Technology Licensing, Llc Artificial intelligence engine having various algorithms to build different concepts contained within a same AI model

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016078329A1 (zh) * 2014-11-19 2016-05-26 天津大学 一种多智能体结构的微电网优化运行方法
CN108804850A (zh) * 2018-06-27 2018-11-13 大连理工大学 一种基于空间重构的航空发动机过渡态加速过程关键性能参数预测方法
CN109611217A (zh) * 2018-11-07 2019-04-12 大连理工大学 一种航空发动机过渡态控制规律优化的设计方法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN111486009A (zh) * 2020-04-23 2020-08-04 南京航空航天大学 一种基于深强化学习的航空发动机控制方法、装置
CN111679576A (zh) * 2020-05-21 2020-09-18 大连理工大学 一种基于改进确定性策略梯度算法的变循环发动机控制器设计方法
CN112241123A (zh) * 2020-10-23 2021-01-19 南京航空航天大学 基于深度强化学习的航空发动机加速控制方法
CN113341972A (zh) * 2021-06-07 2021-09-03 沈阳理工大学 一种基于深度强化学习的机器人路径寻优规划方法
CN113485117A (zh) * 2021-07-28 2021-10-08 沈阳航空航天大学 基于输入输出信息的航空发动机多变量强化学习控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度强化学习的无人艇航行控制;张法帅;李宝安;阮子涛;;计测技术;20180630(第S1期);全文 *
航空发动机过渡态最优控制规律设计的新方法;陆军;郭迎清;王磊;;航空动力学报;20120830(第08期);全文 *

Also Published As

Publication number Publication date
WO2023168821A1 (zh) 2023-09-14
CN114675535A (zh) 2022-06-28
US20240077039A1 (en) 2024-03-07

Similar Documents

Publication Publication Date Title
CN114675535B (zh) 一种基于强化学习的航空发动机过渡态寻优控制方法
US20210201155A1 (en) Intelligent control method for dynamic neural network-based variable cycle engine
CN108416086B (zh) 一种基于深度学习的航空发动机模型自适应修正方法
WO2019144337A1 (zh) 一种基于深度学习算法的航空发动机全包线模型自适应修正方法
CN111042928B (zh) 一种基于动态神经网络的变循环发动机智能控制方法
WO2020000248A1 (zh) 一种基于空间重构的航空发动机过渡态加速过程关键性能参数预测方法
CN109162813B (zh) 一种基于迭代学习修正的航空发动机智能转速控制方法
CN114462319B (zh) 航空发动机燃烧性能主动调控方法及智能预测模型
CN110579962B (zh) 基于神经网络的涡扇发动机推力预测方法及控制器
Bazazzadeh et al. Gas turbine engine control design using fuzzy logic and neural networks
CN111679576B (zh) 一种基于改进确定性策略梯度算法的变循环发动机控制器设计方法
CN111006843A (zh) 一种暂冲式超声速风洞的连续变速压方法
CN110516391A (zh) 一种基于神经网络的航空发动机动态模型建模方法
CN114330119A (zh) 一种基于深度学习的抽蓄机组调节系统辨识方法
CN115586801A (zh) 基于改进模糊神经网络pid的瓦斯掺混浓度控制方法
CN113741170B (zh) 一种基于深度神经网络的航空发动机直接推力逆控制方法
Zhang et al. A fault-tolerant acceleration control strategy for turbofan engine based on multi-layer perceptron with exponential Gumbel loss
CN114527654A (zh) 一种基于强化学习的涡扇发动机直接推力智能控制方法
Jiang et al. Improved Firefly Algorithm for Optimization of Aero-engine Controller Based on PIDNN
CN118395884B (zh) 一种航空发动机燃烧室性能自适应优化调控方法
CN114841232B (zh) 一种基于支持向量数据描述和迁移学习的航空发动机故障检测方法
CN117010179B (zh) 基于深度学习的无监督深度适应参数修正方法
CN116974194A (zh) 一种基于计算机的变循环发动机加速过程最优控制方法
CN117217071A (zh) 基于deorl的航空发动机最低油耗控制优化方法
Zhu et al. A Virtual Reinforcement Learning Method for Aero-engine Intelligent Control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant