CN113359449B - 基于强化学习的航空发动机双参数指数劣化维护方法 - Google Patents

基于强化学习的航空发动机双参数指数劣化维护方法 Download PDF

Info

Publication number
CN113359449B
CN113359449B CN202110629082.6A CN202110629082A CN113359449B CN 113359449 B CN113359449 B CN 113359449B CN 202110629082 A CN202110629082 A CN 202110629082A CN 113359449 B CN113359449 B CN 113359449B
Authority
CN
China
Prior art keywords
state
maintenance
degradation
component
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110629082.6A
Other languages
English (en)
Other versions
CN113359449A (zh
Inventor
严如强
杨旭彪
周峥
孙闯
唐亚军
杨波
田绍华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110629082.6A priority Critical patent/CN113359449B/zh
Publication of CN113359449A publication Critical patent/CN113359449A/zh
Application granted granted Critical
Publication of CN113359449B publication Critical patent/CN113359449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Combined Controls Of Internal Combustion Engines (AREA)
  • Feedback Control In General (AREA)

Abstract

本公开揭示了一种基于强化学习的航空发动机双参数指数劣化维护方法,包括:建立航空发动机的多部件系统劣化模型,其为含有随机误差项的双参数指数模型,利用状态阈值的方式将部件状态离散化得到离散状态;每次维护行为维护后对劣化轨迹进行更新得到维护后的性能提升水平,其分为瞬时性能提升和维护后的劣化发展两部分,基于双参数指数模型及其维护后的性能提升水平,构建状态之间的转移概率矩阵;基于部件劣化的离散状态构建成状态空间,维护动作构建成动作空间;通过经济成本与停机损失成本建立成本函数,并计算期望奖励值;采用Q‑Leaming算法以期望奖励最大为优化目标,获得每个部件劣化的离散状态下的最佳维护行为。

Description

基于强化学习的航空发动机双参数指数劣化维护方法
技术领域
本公开属于航空发动机多部件系统维修策略优化领域,尤其涉及一种基于强化学习的航空发动机双参数指数劣化维护方法。
背景技术
随着航空技术的快速发展,对飞机发动机系统的安全性、可靠性、经济性以及可持续性提出了越来越高的要求,然而由此所导致的相应维护和保障成本也将逐渐提高。因此,如何为结构复杂的发动机多部件系统提供智能维护决策具有重要的研究意义。
系统结构复杂、部件众多,实现维护决策的难点在于如何考虑部件之间的相互制约以及成本的共同约束的同时,提高总体可靠性,降低投入成本。以往的维护决策研究大都注重于单部件系统,对系统中各部件实施单独定期维护,缺乏对多部件系统的智能维护研究,本研究基于强化学习框架对多部件系统进行综合维护,为复杂系统提供合理维护方案。通过双参数指数模型为各部件描述劣化过程,并在维护行为之后采用瞬时提升和劣化递增因子刻画性能影响水平,同时推导了离散状态之间的转移概率,使劣化过程更接近实际。研究具有较大的应用潜力,为飞机发动机多部件系统提供智能维护决策,有效降低维护成本,提高设备安全性。
在背景技术部分中公开的上述信息仅仅用于增强对本发明背景的理解,因此可能包含不构成在本国中本领域普通技术人员公知的现有技术的信息。
发明内容
针对系统部件单独定期维护的不足,本公开的目的在于提供一种基于强化学习的航空发动机双参数指数劣化维护方法。
为实现上述目的,本公开提供以下技术方案:一种基于强化学习的航空发动机双参数指数劣化维护方法包括如下步骤:
步骤1,建立航空发动机的多部件系统劣化状态模型,其为含有随机误差项的双参数指数模型:
Figure 715825DEST_PATH_IMAGE001
,其中,
Figure 127346DEST_PATH_IMAGE002
为常数项,
Figure 676139DEST_PATH_IMAGE003
为以均值
Figure 574301DEST_PATH_IMAGE004
,方差
Figure 44596DEST_PATH_IMAGE005
的正态随机变量,
Figure 712338DEST_PATH_IMAGE006
为以均值
Figure 725424DEST_PATH_IMAGE007
,方差
Figure 922051DEST_PATH_IMAGE008
的正态随机变量,
Figure 879642DEST_PATH_IMAGE009
为随机误差项
Figure 975510DEST_PATH_IMAGE010
的方差,
Figure 702158DEST_PATH_IMAGE011
表示正态分布,
Figure 335265DEST_PATH_IMAGE012
为双参数指数劣化过程 ;
步骤2,利用状态阈值将部件劣化状态离散化得到离散状态;
步骤3,每次维护行为维护后对部件劣化状态行更新以得到维护后的性能提升水平,更新形式分为瞬时性能提升和维护后的劣化发展两部分,其中,
瞬时性能提升中,对于中级维护状态等级瞬时提升一级,高级维护状态等级提升两级,替换操作则直接将部件劣化状态提升到状态0;
维护后的劣化发展中,通过增加劣化递增因子来实现维护之后部件的劣化发展,
Figure 655519DEST_PATH_IMAGE013
,其中,
Figure 133904DEST_PATH_IMAGE014
为第i次维护时的劣化递增因子,
Figure 246217DEST_PATH_IMAGE015
为第i维护活动之前部件遵循的劣化过程;
步骤4,基于所述双参数指数模型及航空发动机的多部件维护后的性能提升水平,构建状态之间的转移概率矩阵
步骤5,基于部件劣化的离散状态构建成状态空间,维护动作构建成动作空间;
步骤6,通过经济成本与停机损失成本建立成本函数,并计算单步奖励值;
步骤7,采用Q-Learning算法以期望奖励最大为优化目标,获得每个劣化部件的离散状态下的最佳维护行为。
所述的方法中,步骤1中,对于不同的部件,双参数指数模型设置不同的模型参数来区别部件之间劣化程度。
所述的方法中,所述状态阈值为三个:
Figure 657082DEST_PATH_IMAGE016
Figure 589266DEST_PATH_IMAGE017
Figure 871343DEST_PATH_IMAGE018
,将劣化过程划分为5个状态等级 其中,三个状态阈值:
Figure 713528DEST_PATH_IMAGE016
Figure 688437DEST_PATH_IMAGE017
Figure 842338DEST_PATH_IMAGE018
满足:
Figure 928106DEST_PATH_IMAGE019
,将劣化过程划分为5种离散状态,各状态等 级划分方式如下:
Figure 362148DEST_PATH_IMAGE020
,其中,
Figure 507959DEST_PATH_IMAGE021
为部件含有随机误差项的双参数指数模型劣化状 态。
所述的方法中,步骤3中,所述维护行为分为无维护行为、中级维护、高级维护、替换,每种维护行为在不同离散状态下的性能改变是一定的。
所述的方法中,步骤4中,所述转移概率矩阵的构建建立在双参数指数劣化过程及 其维护后的性能改变情况的基础上,当前一次的观测状态为状态0时,下一观测间隔
Figure 149155DEST_PATH_IMAGE022
后的 状态转移:
Figure 773035DEST_PATH_IMAGE023
,其中:
Figure 589812DEST_PATH_IMAGE024
为劣化过程的分布函数,
Figure 906524DEST_PATH_IMAGE025
为第i部件从 状态0转移到状态1的概率,
当前一次的观测状态为状态1时, 采随机变量
Figure 32087DEST_PATH_IMAGE026
来表示状态1的初始退化,该变量 位于0~D1之间,满足均匀分布,下一观测间隔
Figure 335024DEST_PATH_IMAGE022
后的状态转移:
Figure 865362DEST_PATH_IMAGE027
,其中:
Figure 493921DEST_PATH_IMAGE024
为劣化过程的分布函数,
Figure 109710DEST_PATH_IMAGE028
为第i 部件从状态1转移到状态2的概率,
Figure 340971DEST_PATH_IMAGE029
为部件的初始退化量。
初始状态为状态2、状态3的状态转移矩阵依此类推。
所述的方法中,步骤5中,所述动作空间与状态空间的建立嵌入强化学习框架,使得在离散状态与动作空间中进行最优决策。
所述的方法中,步骤6中,所述单步奖励值用于构建决策过程中当前状态s或当前 状态s下执行维护行为
Figure 717027DEST_PATH_IMAGE030
的期望价值,即:状态价值函数和动作价值函数,
状态价值函数:
Figure 250908DEST_PATH_IMAGE031
,式中:
Figure 353993DEST_PATH_IMAGE032
为第t+1步的单步奖励 值,
Figure 123366DEST_PATH_IMAGE033
为衰减系数,
Figure 769242DEST_PATH_IMAGE034
为第t步状态,
Figure 67499DEST_PATH_IMAGE035
为求取期望值,
Figure 654951DEST_PATH_IMAGE036
为状态s下的价值函数,
动作价值函数:
Figure 228015DEST_PATH_IMAGE037
,式中:
Figure 197239DEST_PATH_IMAGE038
为第t+1步 的单步奖励值,
Figure 197556DEST_PATH_IMAGE039
为衰减系数,
Figure 9654DEST_PATH_IMAGE040
为第t步状态,
Figure 386409DEST_PATH_IMAGE041
为第t步动作,
Figure 478648DEST_PATH_IMAGE042
为求取期望值,
Figure 649867DEST_PATH_IMAGE043
为状态s下执行维护行为
Figure 949261DEST_PATH_IMAGE030
的价值函数。
所述的方法中,步骤7中,所述最佳状态-维护动作对使得多部件系统的长期维护期望奖励最大,维护过程中同时对系统各个子部件进行观测,根据多个部件的状态组合进行维护。
与现有技术相比,本公开带来的有益效果为:在多部件系统劣化仿真过程中,采用瞬时提升与劣化递增因子刻画维护行为对部件性能的影响水平,有效反映了维护动作执行过程中对部件的积极和消极效果。基于双参数指数劣化模型和维护行为对部件性能的影响,计算部件离散状态下的状态转移概率,建立了指数劣化过程与强化学习离散状态之间的联系,从而模拟真实劣化过程。在强化学习框架内对多部件系统的维护进行决策,获得期望长期奖励最大的状态-维护动作对,可为系统某一瞬时观测的部件状态组合提供维护建议。
附图说明
图1是本公开一个实施例提供的基于强化学习的航空发动机双参数指数劣化维护方法流程图;
图2是本公开一个实施例提供的强化学习框架内的单步奖励实现示意图;
图3是本公开一个实施例提供的多部件系统长期状态转移图。
具体实施方式
下面将参照附图1至图3详细地描述本公开的具体实施例。虽然附图中显示了本公开的具体实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
需要说明的是,在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解,技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语,故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明书的一般原则为目的,并非用以限定本发明的范围。本公开的保护范围当视所附权利要求所界定者为准。
为便于对本公开实施例的理解,下面将结合附图以具体实施例为例做进一步的解释说明,且各个附图并不构成对本公开实施例的限定。
一个实施例中,如图1所示,本公开提供一种基于强化学习的航空发动机双参数指数劣化维护方法包括如下步骤:
步骤1,建立航空发动机的多部件系统劣化状态模型,其为含有随机误差项的双参数指数模型:
Figure 5073DEST_PATH_IMAGE044
,其中,
Figure 807944DEST_PATH_IMAGE045
为常数项,
Figure 415643DEST_PATH_IMAGE046
为以均值
Figure 202333DEST_PATH_IMAGE047
,方差
Figure 386802DEST_PATH_IMAGE048
的正态随 机变量,
Figure 450704DEST_PATH_IMAGE006
为以均值
Figure 963725DEST_PATH_IMAGE049
,方差
Figure 237712DEST_PATH_IMAGE050
的正态随机变量,
Figure 635326DEST_PATH_IMAGE051
为随机误差项
Figure 678369DEST_PATH_IMAGE052
的方差,
Figure 376939DEST_PATH_IMAGE011
表示正态 分布,
Figure 13588DEST_PATH_IMAGE053
为双参数指数劣化过程 ;
步骤2,利用状态阈值将部件劣化状态离散化得到离散状态;
步骤3,每次维护行为维护后对部件劣化状态行更新以得到维护后的性能提升水平,更新形式分为瞬时性能提升和维护后的劣化发展两部分,其中,
瞬时性能提升中,对于中级维护状态等级瞬时提升一级,高级维护状态等级提升两级,替换操作则直接将部件劣化状态提升到状态0;
维护后的劣化发展中,通过增加劣化递增因子来实现维护之后部件的劣化发展,
Figure 73948DEST_PATH_IMAGE054
,其中,
Figure 971497DEST_PATH_IMAGE055
为第i次维护时的劣化递增因子,
Figure 826320DEST_PATH_IMAGE056
为第i维护活动之 前部件遵循的劣化过程;
步骤4,基于所述双参数指数模型及航空发动机的多部件维护后的性能提升水平,构建状态之间的转移概率矩阵步骤5,基于部件劣化的离散状态构建成状态空间,维护动作构建成动作空间;
步骤6,通过经济成本与停机损失成本建立成本函数,并计算期望奖励值;
步骤7,采用Q-Learning算法以期望奖励最大为优化目标,获得每个部件劣化的离散状态下的最佳维护行为,Q-Learning是强化学习中基于价值的学习算法。
所述的方法的优选实施方式中,步骤1中,对于不同的部件,双参数指数模型设置不同的模型参数来区别部件之间劣化程度。
所述的方法的优选实施方式中,所述状态阈值为三个:
Figure 950265DEST_PATH_IMAGE016
Figure 545807DEST_PATH_IMAGE017
Figure 563442DEST_PATH_IMAGE018
,将劣化过程划分 为5个状态等级。
所述的方法的优选实施方式中,步骤3中,所述维护行为分为无维护行为、中级维护、高级维护、替换,每种维护行为在不同离散状态下的性能改变是一定的。
所述的方法的优选实施方式中,步骤4中,所述转移概率矩阵的构建建立在双参数 指数劣化过程及其维护后的性能改变情况的基础上,当前一次的观测状态为状态0时,下一 观测间隔
Figure 730112DEST_PATH_IMAGE022
后的状态转移:
Figure 200408DEST_PATH_IMAGE057
,其中:
Figure 868149DEST_PATH_IMAGE024
为劣化过程的分布函数,
Figure 350077DEST_PATH_IMAGE058
为第i部件从 状态0转移到状态1的概率,
当前一次的观测状态为状态1时, 采随机变量
Figure 815212DEST_PATH_IMAGE059
来表示状态1的初始退化,该变量 位于0~D1之间,满足均匀分布,下一观测间隔
Figure 772804DEST_PATH_IMAGE060
后的状态转移:
Figure 447499DEST_PATH_IMAGE061
,初始状态为状态2、状态3的状态转移矩阵依此 类推。
所述的方法的优选实施方式中,步骤5中,所述动作空间与状态空间的建立嵌入强化学习框架,使得在离散状态与动作空间中进行最优决策。
所述的方法的优选实施方式中,骤6中,所述期望奖励值是在仿真过程中由状态价值函数和动作价值函数根据单步奖励计算得来。
所述的方法的优选实施方式中,步骤7中,所述最佳维护行为使得长期维护经济成本最低的部件状态-维护动作对,该状态-维护动作对同时对系统各个子部件进行观测。
在一个实施例中,维护方法包括以下步骤:
步骤1中,首先建立多部件系统劣化模型,为充分模拟实际劣化过程,采用含有随机误差项的双参数指数模型:
Figure 315092DEST_PATH_IMAGE062
(1)
步骤2中,基于劣化过程,采用三个状态阈值
Figure 948199DEST_PATH_IMAGE016
Figure 127507DEST_PATH_IMAGE017
Figure 871472DEST_PATH_IMAGE018
将劣化过程划分为5种离散 状态,各状态等级划分方式如下:
Figure 449697DEST_PATH_IMAGE063
(2),
其中,
Figure 863492DEST_PATH_IMAGE012
为部件含有随机误差项的双参数指数模型劣化状态。
步骤3中,将所执行的维护行为分为4种:无维护行为、中级维护、高级维护、替换,分别编号为0、1、2、3。考虑每次维护行为对部件整体性能产生的影响,假设每种维护行为在不同离散状态下的性能改变是一定的,维护行为执行后对劣化轨迹进行更新,分为两部分更新过程:
瞬时性能提升:
维护后部件的性能能够得到瞬时提升,假设对于无维护行为而言,状态等级不变,中级维护状态等级瞬时提升一级,高级维护状态等级提升两级,替换操作则直接将部件健康状态提升到状态0。
维护后的劣化发展:
通过增加劣化递增因子来实现维护之后部件的劣化发展。
Figure 795676DEST_PATH_IMAGE064
(3)
式中,
Figure 77752DEST_PATH_IMAGE065
为第i次维护时的劣化递增因子,当无维护行为时,
Figure 778992DEST_PATH_IMAGE066
,当其他维护等级 时,
Figure 363688DEST_PATH_IMAGE067
,具体取值可由经验确定。
步骤4中,基于双参数指数劣化过程及其维护后的性能提升水平,构建状态之间的转移概率矩阵。
当前一次的观测状态为状态0时,下一观测间隔
Figure 774379DEST_PATH_IMAGE022
后的状态转移:
Figure DEST_PATH_IMAGE068
(4)
式中:
Figure 797830DEST_PATH_IMAGE024
为劣化过程的分布函数,
Figure 494522DEST_PATH_IMAGE069
为第i部件从状态0转移到状态1的概率。
当前一次的观测状态为状态1时, 采用随机变量
Figure DEST_PATH_IMAGE070
来表示部件i在状态1的初始退 化,该变量位于0~D1之间,满足均匀分布。则下一观测间隔
Figure 843595DEST_PATH_IMAGE022
后的状态转移:
Figure 484792DEST_PATH_IMAGE071
(5)
初始状态为状态2、状态3的状态转移矩阵可以此类推。
步骤5中,将部件劣化的离散状态构建成状态空间,维护动作构建成动作空间。
动作空间:
Figure DEST_PATH_IMAGE072
(6)
状态空间:
Figure 184370DEST_PATH_IMAGE073
(7)
式中:
Figure 125781DEST_PATH_IMAGE075
表示系统中部件数量,
Figure DEST_PATH_IMAGE076
表示第i部件执行维护动作编号为k的行为,
Figure 255542DEST_PATH_IMAGE077
表 示第i部件的状态编号为k。
步骤6中,通过式(8)计算经济成本与停机损失成本来建立成本函数,并计算期望奖励值。
Figure DEST_PATH_IMAGE078
(8)
式中:
Figure 590227DEST_PATH_IMAGE079
为x维护行为的经济成本,
Figure DEST_PATH_IMAGE080
为x维护行为的停机损失成本,
Figure 96426DEST_PATH_IMAGE081
为单 步维护的奖励值,
Figure DEST_PATH_IMAGE082
为单步维护的成本值,
Figure 970972DEST_PATH_IMAGE083
为从成本到奖励的映射函数。
成本计算:
Figure DEST_PATH_IMAGE084
(9)
式中:n为部件数量,
Figure 658918DEST_PATH_IMAGE085
为部件i执行维护行为编号x的次数,
Figure DEST_PATH_IMAGE086
为单次x维护的经 济成本,
Figure 618915DEST_PATH_IMAGE087
为单次x维护的停机损失成本。
步骤7中,采用Q-Learning算法以期望奖励最大为优化目标,获得每个部件离散劣化状态下的最佳维护行为。
为进一步阐述所发明内容,图1为根据本发明一种基于强化学习的航空发动机双参数指数劣化系统维护方法的总体结构示意图。通过双参数指数模型对飞机发动机部件进行劣化建模,然后采用状态阈值的方式将部件劣化过程离散化;考虑维护行为对部件性能的影响,通过引入劣化递增因子和瞬时性能提升部分来实现性能的改变,并基于劣化过程与劣化更新过程计算各离散状态之间的转移矩阵;之后将经济成本与停机损失成本共同组成成本函数,构建单步动作奖励,并形成长期期望价值;最后在强化学习框架内完成多部件系统的仿真,采用Q-Learning 算法进行优化,获取系统长期运行时最优的状态-动作对。
图2为是本发明强化学习框架内的单步奖励实现,在部件i当前状态为S下,通过执 行策略
Figure DEST_PATH_IMAGE088
从维护动作空间
Figure 928805DEST_PATH_IMAGE089
中选择一个合适的动作
Figure DEST_PATH_IMAGE090
,并以前述计算 得到的状态转移概率
Figure 531560DEST_PATH_IMAGE091
转移到下一状态,同时产生单步奖励值。
图3是本发明多部件系统长期状态转移图,图中每个部件的状态转移由图2单部转移串联实现,在T时间步长下对n个部件同时进行维护动作执行,产生劣化状态转移和奖励值。最终采用Q-Learning算法以期望奖励值最大为目标,对状态-动作对进行优化。
本方法首先通过双参数指数模型对飞机发动机部件进行劣化建模,采用状态阈值将部件劣化过程离散化,并计算各离散状态之间的转移矩阵;考虑维护行为对部件性能的影响,通过引入劣化递增因子和瞬时性能提升部分来实现性能的改变;将经济成本与停机损失成本共同组成成本函数,并形成期望价值;最后在强化学习框架内完成多部件系统的仿真,采用 Q-Learning 算法进行优化,获取系统长期运行时最优的状态-动作对。采用本方法可有效模拟飞机发动机多部件系统劣化过程,找到在每个部件离散劣化状态下的最佳维护行为,从而降低由于系统中部件独立定期维护所带来的经济与安全风险。
尽管以上结合附图对本公开的实施方案进行了描述,但本公开的技术方案不局限于不同转速和不同负载两种工况,也包括其他种类的工况。上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本公开权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本公开保护之列。

Claims (7)

1.一种基于强化学习的航空发动机双参数指数劣化维护方法,包括如下步骤:
步骤1,建立航空发动机的多部件系统劣化状态模型,其为含有随机误差项的双参数指数模型:
Figure DEST_PATH_IMAGE001
,其中,
Figure 887620DEST_PATH_IMAGE002
为常数项,
Figure DEST_PATH_IMAGE003
为以均值
Figure 795008DEST_PATH_IMAGE004
,方差
Figure DEST_PATH_IMAGE005
的正态随机变量,
Figure 50671DEST_PATH_IMAGE006
为以均值
Figure DEST_PATH_IMAGE007
,方差
Figure 489874DEST_PATH_IMAGE008
的正态随机变量,
Figure DEST_PATH_IMAGE009
为随机误差项
Figure 286447DEST_PATH_IMAGE010
的方差,
Figure DEST_PATH_IMAGE011
表示正态分布,
Figure 938140DEST_PATH_IMAGE012
为双参数指数劣化过程 ;
步骤2,利用状态阈值将部件劣化状态离散化得到离散状态;
步骤3,每次维护行为维护后,对部件劣化状态行更新以得到维护后的性能提升水平,更新形式分为瞬时性能提升和维护后的劣化发展两部分,其中,
瞬时性能提升中,对于中级维护状态等级瞬时提升一级,高级维护状态等级提升两级,替换操作则直接将部件劣化状态提升到状态0;
维护后的劣化发展中,通过增加劣化递增因子来实现维护之后部件的劣化发展,
Figure DEST_PATH_IMAGE013
,其中,
Figure 500839DEST_PATH_IMAGE014
为第i次维护时的劣化递增因子,
Figure DEST_PATH_IMAGE015
为第i维护活动之前部件遵循的劣化过程;
步骤4,基于所述双参数指数模型及航空发动机的多部件维护后的性能提升水平,构建状态之间的转移概率矩阵;
步骤5,基于部件劣化的离散状态构建成状态空间,维护动作构建成动作空间;
步骤6,通过经济成本与停机损失成本建立成本函数,并计算单步奖励值,所述单步奖励值用于构建决策过程中当前状态s或当前状态s下执行维护行为
Figure 311276DEST_PATH_IMAGE016
的期望价值,即:状态价值函数和动作价值函数,
状态价值函数:
Figure DEST_PATH_IMAGE017
,式中:
Figure 592216DEST_PATH_IMAGE018
为第t+1步的单步奖励值,
Figure DEST_PATH_IMAGE019
为衰减系数,
Figure 782020DEST_PATH_IMAGE020
为第t步状态,
Figure DEST_PATH_IMAGE021
为求取期望值,
Figure 190437DEST_PATH_IMAGE022
为状态s下的价值函数,
动作价值函数:
Figure DEST_PATH_IMAGE023
,式中:
Figure 705863DEST_PATH_IMAGE024
为第t+1步的单步奖励值,
Figure DEST_PATH_IMAGE025
为衰减系数,
Figure 349465DEST_PATH_IMAGE026
为第t步状态,
Figure DEST_PATH_IMAGE027
为第t步动作,
Figure 464664DEST_PATH_IMAGE028
为求取期望值,
Figure DEST_PATH_IMAGE029
为状态s下执行维护行为
Figure 611742DEST_PATH_IMAGE030
的价值函数;
步骤7,采用Q-Learning算法以期望奖励最大为优化目标,获得每个劣化部件的离散状态下的最佳维护行为,获取系统长期运行时最优的状态-动作对。
2.根据权利要求1所述的方法,其中,步骤1中,对于不同的部件,双参数指数模型设置不同的模型参数来区别部件之间劣化程度。
3.根据权利要求1所述的方法,其中,步骤2中,所述状态阈值为三个:
Figure DEST_PATH_IMAGE031
Figure 298070DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
,将劣化过程划分为5个状态等级其中,三个状态阈值:
Figure 290952DEST_PATH_IMAGE031
Figure 150455DEST_PATH_IMAGE032
Figure 73412DEST_PATH_IMAGE033
满足:
Figure 586433DEST_PATH_IMAGE034
,将劣化过程划分为5种离散状态,各状态等级划分方式如下:
Figure DEST_PATH_IMAGE035
其中,
Figure 939048DEST_PATH_IMAGE012
为部件含有随机误差项的双参数指数模型劣化状态。
4.根据权利要求1所述的方法,其中,步骤3中,所述维护行为分为无维护行为、中级维护、高级维护、替换,每种维护行为在不同离散状态下的性能改变是一定的。
5.根据权利要求3所述的方法,其中,步骤4中,所述转移概率矩阵的构建建立在双参数指数劣化过程及其维护后的性能改变情况的基础上,当前一次的观测状态为状态0时,下一观测间隔
Figure 458366DEST_PATH_IMAGE036
后的状态转移:
Figure DEST_PATH_IMAGE037
,其中:
Figure 580037DEST_PATH_IMAGE038
为劣化过程的分布函数,
Figure DEST_PATH_IMAGE039
为第i部件从状态0转移到状态1的概率,
当前一次的观测状态为状态1时, 采随机变量
Figure 467222DEST_PATH_IMAGE040
来表示状态1的初始退化,该变量位于0~D1之间,满足均匀分布,下一观测间隔
Figure 369450DEST_PATH_IMAGE036
后的状态转移:
Figure DEST_PATH_IMAGE041
,其中:
Figure 647720DEST_PATH_IMAGE038
为劣化过程的分布函数,
Figure 420635DEST_PATH_IMAGE042
为第i部件从状态1转移到状态2的概率,
Figure 541038DEST_PATH_IMAGE040
为部件的初始退化量,初始状态为状态2、状态3的状态转移矩阵依此类推。
6.根据权利要求1所述的方法,其中,步骤5中,所述动作空间与状态空间的建立嵌入强化学习框架,使得在离散状态与动作空间中进行最优决策。
7.根据权利要求1所述的方法,其特征在于,步骤7中,最佳状态-维护动作对使得多部件系统的长期维护期望奖励最大,维护过程中同时对系统各个子部件进行观测,根据多个部件的状态组合进行维护。
CN202110629082.6A 2021-06-04 2021-06-04 基于强化学习的航空发动机双参数指数劣化维护方法 Active CN113359449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110629082.6A CN113359449B (zh) 2021-06-04 2021-06-04 基于强化学习的航空发动机双参数指数劣化维护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110629082.6A CN113359449B (zh) 2021-06-04 2021-06-04 基于强化学习的航空发动机双参数指数劣化维护方法

Publications (2)

Publication Number Publication Date
CN113359449A CN113359449A (zh) 2021-09-07
CN113359449B true CN113359449B (zh) 2023-01-03

Family

ID=77532552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110629082.6A Active CN113359449B (zh) 2021-06-04 2021-06-04 基于强化学习的航空发动机双参数指数劣化维护方法

Country Status (1)

Country Link
CN (1) CN113359449B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117557256B (zh) * 2024-01-12 2024-03-22 西南交通大学 一种高速铁路轨道平顺性多任务协调维护方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512483A (zh) * 2015-12-08 2016-04-20 清华大学 基于损伤传播模型和数据分析的航空发动机剩余寿命预测
CN108313048A (zh) * 2018-02-02 2018-07-24 北京航天发射技术研究所 一种重型混合动力车辆多发电机组的功率分配方法
CN108629430A (zh) * 2018-05-14 2018-10-09 西安交通大学 一种重大设备智能运维管理系统
CN109460567A (zh) * 2018-09-21 2019-03-12 华中科技大学 一种多部件设备的维护方法及系统
CN112185174A (zh) * 2019-07-05 2021-01-05 通用电气公司 用于航空公司运营的飞行优化系统和方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11004011B2 (en) * 2017-02-03 2021-05-11 Adobe Inc. Conservative learning algorithm for safe personalized recommendation
CN111141300A (zh) * 2019-12-18 2020-05-12 南京理工大学 基于深度强化学习的智能移动平台无地图自主导航方法
CN111241952B (zh) * 2020-01-03 2020-11-10 广东工业大学 一种离散制造场景中的强化学习奖励自学习方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512483A (zh) * 2015-12-08 2016-04-20 清华大学 基于损伤传播模型和数据分析的航空发动机剩余寿命预测
CN108313048A (zh) * 2018-02-02 2018-07-24 北京航天发射技术研究所 一种重型混合动力车辆多发电机组的功率分配方法
CN108629430A (zh) * 2018-05-14 2018-10-09 西安交通大学 一种重大设备智能运维管理系统
CN109460567A (zh) * 2018-09-21 2019-03-12 华中科技大学 一种多部件设备的维护方法及系统
CN112185174A (zh) * 2019-07-05 2021-01-05 通用电气公司 用于航空公司运营的飞行优化系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Q-learning based method of optimal fault diagnostic policy with imperfect tests;Yajun Liang et al.;《Journal of Intelligent & Fuzzy Systems》;20191231;第6013–6024页 *
发动机寿命周期内大修方案优化研究;赵洪利等;《中国工程机械学报》;20200831;第356-358页 *
民航发动机全寿命周期机队维修策略优化方法研究;李臻;《信息科技辑》;20200215;第55-77页 *

Also Published As

Publication number Publication date
CN113359449A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN113359449B (zh) 基于强化学习的航空发动机双参数指数劣化维护方法
CN110134697A (zh) 一种面向键值对存储引擎的参数自动调优方法、装置、系统
Frank et al. Reinforcement learning in the presence of rare events
CN112277927B (zh) 一种基于强化学习的混合动力汽车能量管理方法
CN108803609A (zh) 基于约束在线规划的部分可观察自动驾驶决策方法及系统
CN113298260A (zh) 一种基于深度强化学习的对抗仿真推演方法
CN111324358B (zh) 一种用于信息系统自动运维策略的训练方法
CN113627533B (zh) 一种基于强化学习的电力设备检修决策生成方法
CN114819273A (zh) 基于多Agent全局与局部优化结合的车间调度方法
CN113048012B (zh) 基于混合高斯模型的风电机组偏航角度识别方法和装置
CN112488543B (zh) 基于机器学习的智慧工地智能排班方法及系统
CN113374543A (zh) 基于时变故障率模型的航空发动机部件维修方法
Coronado et al. A reinforcement learning solution for the unit commitment problem
CN112653131B (zh) 暂态电压安全稳定裕度估算方法、装置及系统
CN115022192B (zh) 一种演化博弈网络信息体系资源选择方法及系统
CN114138621A (zh) 一种考虑内部降级与外部冲击的系统故障行为双时钟仿真建模方法
CN113031441B (zh) 基于强化学习的旋转机械诊断网络自动搜索方法
CN117117858B (zh) 一种风电机组功率预测方法、装置及存储介质
Hao et al. A fault diagnosis algorithm of the dedicated equipment based on CBAM-ResNET mechanism
CN114138621B (zh) 一种考虑内部降级与外部冲击的系统故障行为双时钟仿真建模方法
CN113158430B (zh) 一种高效的在线行为建模作战仿真方法
CN116664105A (zh) 基于海上风电机组零部件状态划分及维修决策方法及系统
Jiahao et al. Architecture of Intelligent Decision Embedding Knowledge for Power Grid Generation-Load Look-ahead Dispatch Based on Deep Reinforcement Learning
CN117196083A (zh) 基于复杂科学的元强化学习对股指已实现波动率的预测方法
CN116663401A (zh) 紧急切负荷决策方法及其决策模型训练方法与训练设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant