CN113673721A - 一种基于深度强化学习的集群系统预防性维修方法 - Google Patents

一种基于深度强化学习的集群系统预防性维修方法 Download PDF

Info

Publication number
CN113673721A
CN113673721A CN202110988026.1A CN202110988026A CN113673721A CN 113673721 A CN113673721 A CN 113673721A CN 202110988026 A CN202110988026 A CN 202110988026A CN 113673721 A CN113673721 A CN 113673721A
Authority
CN
China
Prior art keywords
cluster
preventive maintenance
cluster system
strategy
maintenance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110988026.1A
Other languages
English (en)
Inventor
冯强
吴其隆
任羿
王自力
孙博
杨德真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110988026.1A priority Critical patent/CN113673721A/zh
Publication of CN113673721A publication Critical patent/CN113673721A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的集群系统预防性维修方法,解决了集群系统在长期运行过程中的预防性维修问题。步骤如下:1根据退化状态建立集群系统“单一系统‑单元”集群的剩余寿命状态矩阵。2基于集群系统“单一系统‑单元”集群剩余寿命状态,评估集群系统可靠性水平。3设计一个神经网络预测集群系统“单一系统‑单元”集群的先验维修概率和先验维修策略价值。4构建预防性维修策略求解算法架构,遍历预防性维修策略解空间,选择一系列最佳维修动作。5基于集群剩余寿命状态的变化计算集群系统可靠度,然后检验集群系统恢复程度。6由预防性维修策略求解过程存储的一系列最佳维修动作生成一个完整的预防性策略。

Description

一种基于深度强化学习的集群系统预防性维修方法
所属技术领域
本发明提供一种基于深度强化学习的集群系统预防性维修方法,尤其涉及一种考虑集群系统各组成单元的退化特征,基于深度强化学习算法,实现求解集群系统预防性维修问题的多单元集群维修决策方法,属于维修性工程领域。
背景技术
预防性维修是指考虑产品退化状态,提前采取维修措施预防故障发生。目前基于状态的预防性维修正逐渐取代基于时间的预防性维修,集群系统由多个单一系统构成,具有高容错性,在军民领域得到广泛应用。近年来集群系统的预防性维修问题得到较大重视,但现有研究对集群组成系统和单元的大规模特征与退化状态特征,以及问题整体的非确定性多项式困难特征,考虑不充分。需要给出考虑集群各组成系统及单元退化状态的高效预防性维修方法
本发明基于深度神经网络预测模型和蒙特卡洛树搜索算法,发明了一种基于深度强化学习的新型预防性维修方法,解决了集群系统长期工作运行过程中的预防性维修问题。
发明内容
本发明的目的是为长期工作运行过程中的集群系统提供一种新型的预防性维修方法,旨在解决传统预防性维修方法未充分考虑集群系统各组成单元的大规模集群特征与退化状态特征,以及问题整体的非确定性多项式困难特征。
本发明提出了一种基于深度强化学习的预防性维修方法,该方法综合应用神经网络预测模型和蒙特卡洛树搜索算法生成预防性维修策略,主要包含以下步骤:
步骤一:集群系统退化状态描述。
将集群系统预防性维修策略视为多组成单元的集群维修决策问题展开研究。首先,考虑集群系统由M个单一系统组成,则该集群系统的单一系统集合可以表示为K={k1,k2,…,km,…,kM};考虑各单一系统由N个单元组成,则其单元集合可以表示为U={u1,u2,…,un,…,uN}。以此为基础,考虑各单元的剩余寿命(Remaining Useful Life,RUL),建立M×N的“单一系统-单元”状态矩阵SRUL,其中矩阵元素
Figure BDA0003231454700000021
表示单元u(m,n)在长期运行过程中的剩余寿命的退化状态。
步骤二:集群系统可靠性评估。
定义R为全寿命周期的可靠度,当集群系统运行至时间τ时,单元u(m,n)的可靠度可以表示为Rmn(τ),同时单一系统km的可靠度可以表示为Rm(τ),集群系统的“单一系统-单元”的集群可靠度可以表示为Rfleet(τ)。
步骤三:基于深度神经网络的预防性维修策略预测。
设计一个深度残差网络(Residual Networks,ResNet)通过提取集群系统的集群剩余寿命特征,预测“单一系统-单元”集群的先验维修概率矩阵p和先验集群预防性维修策略价值v。
ResNet输入特征矩阵:即当前的“单一系统-单元”集群剩余寿命状态矩阵SRUL。ResNet输出信息:包括“单一系统-单元”集群的先验集群维修概率p和一个先验集群预防性维修策略价值v。
选用的神经网络结构:包括卷积模块、残差模块、ReLU函数模块等。神经网络的表达式为fθ(SRUL)=(p,v)。
步骤四:基于蒙特卡洛树搜索算法的预防性维修策略搜索。
以提高集群系统“单一系统-单元”集群退化程度的恢复水平,以维修费用作为约束,构建预防性维修策略的优选迭代体系。设计一种基于深度强化学习的预防性维修决策框架,利用神经网络提供先验信息,通过蒙特卡洛树搜索算法搜索优化的预防性维修策略。
蒙特卡洛树搜索算法利用步骤三中ResNet输出的先验集群维修概率p作为搜索权重,避免直接全局搜索预防性维修策略的解空间,导致出现组合爆炸问题。基于先验概率p进行策略空间的局部搜索同样能得到全局最优预防性维修策略,依据树搜索得到优化的维修概率矩阵π,执行当前最优维修动作a,当前的“单一系统-单元”集群剩余寿命SRUL转移至下一时刻集群状态,蒙特卡洛树搜索算法的表达式为MCTSθ(SRUL,p,v)=(π,a)。
步骤五:检验集群系统恢复程度。
预防性维修策略生成过程的t时刻,通过执行步骤三和步骤四,得到当前时刻的最佳维修动作,执行后集群状态
Figure BDA0003231454700000031
转移至下一时刻,基于执行维修动作后的集群状态,按照步骤二中的可靠性评估方法,计算集群系统当前的可靠度,从而检验可靠性水平相对于执行预防性维修之前的恢复程度。
若未满足恢复要求,返回步骤三,继续执行预防性维修策略生成过程。若T时刻的集群剩余寿命
Figure BDA0003231454700000032
满足恢复要求,则经过执行预防性维修策略生成过程的T次最佳维修动作,生成了一个完整的预防性维修策略。
由奖励函数计算一个奖励值z对预防性维修策略生成过程进行评估,基于奖励值和预防性维修策略生成过程产生的T个维修动作,作为最新的强化学习经验参数,ResNet以最小化预测的评估值v与策略生成过程结束的奖励值z之间的误差,以及最大化先验维修概率p与优化的维修概率π之间的相似度为目标,利用梯度下降方法训练网络参数θ,得到一个新的ResNet用于下一次预防性维修策略生成过程。通过训练神经网络可为蒙特卡洛树搜索提供更好的搜索方向。
步骤六:输出预防性维修策略。
由预防性维修策略生成过程存储的一系列最佳维修动作{a1,a2,…,aT}生成一个完整的预防性维修策略,可以表示为
PM=fPM(a1,a2,…,aT)=1×a1+2×a2+…+T×aT
执行预防性维修策略之后,基于集群系统的“单一系统-单元”集群剩余寿命
Figure BDA0003231454700000033
计算集群系统可靠性水平的恢复程度。
附图说明
图1为本发明中基于深度强化学习的预防性维修架构框图
图2为本发明中集群系统状态特征提取的神经网络模型
图3为本发明中遍历预防性维修策略的蒙特卡洛树搜索算法模型图
具体实施方式
为使本发明的技术方案、特征及优点得到更清楚的了解,以下结合附图,作详细说明。
本发明给出了一种新型的预防性维修方法,可用于解决长期工作运行过程中集群系统的“单一系统-单元”集群预防性维修问题,解决了未充分考虑集群系统各组成单元的大规模集群特征与退化状态特征,以及问题整体的非确定性多项式困难特征。
本发明的整体架构,见图1所示。其具体实施步骤是:
步骤一:集群系统退化状态描述。
将集群系统预防性维修策略视为多组成单元的集群维修决策问题展开研究。首先,考虑集群系统由M个单一系统组成,则该集群系统的单一系统集合可以表示为K={k1,k2,…,km,…,kM};考虑各单一系统由N个单元组成,则其单元集合可以表示为U={u1,u2,…,un,…,uN}。以此为基础,考虑各单元的剩余寿命,建立M×N的“单一系统-单元”剩余寿命状态矩阵SRUL,其中矩阵元素
Figure BDA0003231454700000041
Figure BDA0003231454700000042
表示单元u(m,n)在长期运行过程中的剩余寿命的退化信息。
本文依据集群系统运行至时间τ时单元u(m,n)的剩余寿命概率密度函数,描述集群系统中各单元的剩余寿命状态
Figure BDA0003231454700000043
对于不同的集群系统选择不同的概率分布描述其剩余寿命,例如指数分布、高斯分布、威布尔分布等。因此集群系统运行至时间τ1时,其“单一系统-单元”集群中各单元的剩余寿命状态
Figure BDA0003231454700000044
可以表示为
Figure BDA0003231454700000045
其中
Figure BDA0003231454700000046
表示单元u(m,n)的剩余寿命概率密度函数,τ0为集群系统运行初始时刻。假设集群系统运行至时间τ1时进行预防性维修,需要通过预防性维修策略生成过程得到一个优化的预防性维修策略,则此时“单一系统-单元”集群的剩余寿命状态矩阵表达式为
Figure BDA0003231454700000047
矩阵中的元素
Figure BDA0003231454700000048
表示集群系统运行至时间τ1时,单一系统kn中单元um的剩余寿命状态。
例:设分析对象为一个包含10个单一系统的集群系统,每个单一系统包含6个单元,集群系统运行100天时进行预防性维修,假设此时“单一系统-单元”集群的剩余寿命状态矩阵表达式为
Figure BDA0003231454700000051
矩阵中的元素
Figure BDA0003231454700000052
表示集群系统运行100天时单一系统k1中单元u1的剩余寿命状态是0.906。
步骤二:集群系统可靠性评估。
定义R为全寿命周期的可靠度,当集群系统运行至时间τ时,单元u(m,n)的可靠度可以表示为Rmn(τ),同时单一系统km的可靠度可以表示为Rm(τ),集群系统的“单一系统-单元”的集群可靠度可以表示为Rfleet(τ),则集群可靠度的计算方式如下
Figure BDA0003231454700000053
其中g(Rm(τ))表示单一系统km的的可靠度函数;h(Rmn(τ))表示单元u(m,n)的可靠度函数;
Figure BDA0003231454700000054
表示当集群系统运行至时间τ时,单元u(m,n)的剩余寿命状态
Figure BDA0003231454700000055
不小于剩余寿命状态阈值
Figure BDA0003231454700000056
的概率;
Figure BDA0003231454700000057
表示单元u(m,n)的剩余寿命概率密度函数,τ0为集群系统运行初始时刻,τ1为集群系统进行预防性维修的时刻。
步骤三:基于深度神经网络的预防性维修策略预测。
设计一个深度残差网络(Residual Networks,ResNet)通过提取集群系统的集群剩余寿命特征,预测“单一系统-单元”集群的先验维修概率矩阵p和先验集群预防性维修策略价值v。
(1)神经网络输入信息:
ResNet输入特征矩阵:即当前的“单一系统-单元”集群剩余寿命状态矩阵SRUL。预防性维修策略生成过程的初始时刻,“单一系统-单元”集群的剩余寿命状态矩阵表达式为
Figure BDA0003231454700000061
矩阵中的元素
Figure BDA0003231454700000062
表示初始时刻单一系统kn中单元um的剩余寿命状态,即步骤一中集群系统运行至时间τ1时该单元的剩余寿命状态。
预防性维修策略生成过程进行至t时刻时,“单一系统-单元”集群的剩余寿命状态矩阵表达式为
Figure BDA0003231454700000063
矩阵中的元素
Figure BDA0003231454700000064
表示t时刻元素kn中单元um的剩余寿命状态。
(2)神经网络输出信息:
包括“单一系统-单元”集群的先验集群维修概率p和一个先验集群预防性维修策略价值v。
a)“单一系统-单元”集群在预防性维修策略生成过程t时刻的先验集群维修概率pt,记为:
Figure BDA0003231454700000071
矩阵中的元素
Figure BDA0003231454700000072
表示在预防性维修策略生成过程t时刻,对单一系统kn中单元um执行维修动作的概率。
b)先验集群预防性维修策略价值vt是一个归一化参数,预测预防性维修策略生成过程t时刻的集群剩余寿命满足恢复程度的评估值。
(3)神经网络结构:
选用的神经网络结构:包括卷积模块、残差模块、ReLU函数模块等。
例:设计的ResNet如图2所示,输入特征矩阵
Figure BDA0003231454700000073
由一个深度残差模块进行处理,深度残差模块包括一个单独的卷积模块和堆叠多个残差模块的中间层模块构成:
a)单独的卷积模块:
①由128个3×3的滤波器组成的卷积层,步长为1;
②ReLU函数层;
b)中间层模块:通过堆叠残差模块构造ResNet的中间层(以堆叠9层残差模块为例),残差模块包括以下结构:
①卷积模块:含有一个由128个3×3的滤波器组成的卷积层,步长为1;
②归一化模块:通过一个Sigmoid函数获得0~1之间归一化的权重;
③Short-Cut模块:当前残差模块对其输入和其内部卷积模块的输出执行特征提取操作。
深度残差模块的输出分为价值模块和策略模块两部分:
c)价值模块:
①由1个1×1的滤波器组成的卷积层,步长为1;
②规模为128的线性全连接层;
③ReLU函数层;
④线性全连接层;
⑤Sigmoid输出层:输出一个在区间(0,1)上取值的标量值。
d)策略模块:
①由2个1×1的滤波器组成的卷积层,步长为1;
②ReLU函数层;
③全连接输出层:输出大小为m×n的特征张量,对应“单一系统-单元”集群pt的分对数;
上述神经网络预测模型的表达式为
Figure BDA0003231454700000081
θi是第i次预防性维修策略生成过程ResNet模型的网络参数,初始网络参数θ0通过随机初始化得到。
假设集群系统运行100天时进行预防性维修,则此时集群系统的剩余寿命状态矩阵SRUL1=100)即为预防性维修策略生成过程初始时刻的ResNet输入特征矩阵,其表达式为
Figure BDA0003231454700000082
矩阵中的元素
Figure BDA0003231454700000083
表示预防性维修策略生成过程初始时刻单一系统k1中单元u1的剩余寿命状态是0.906。
步骤四:基于蒙特卡洛树搜索算法的预防性维修策略搜索。
以提高集群系统“单一系统-单元”集群退化程度的恢复水平,以维修费用作为约束,构建预防性维修策略的优选迭代体系。设计一种基于深度强化学习的预防性维修决策框架,利用神经网络提供先验信息,通过蒙特卡洛树搜索算法搜索优化的预防性维修策略。
蒙特卡洛树搜索算法利用步骤三中ResNet输出的先验集群维修概率pt作为搜索权重,避免直接全局搜索预防性维修策略的解空间,导致出现组合爆炸问题。基于先验概率pt进行策略空间的局部搜索同样能得到全局最优预防性维修策略,依据树搜索得到优化的维修概率矩阵πt,执行当前最优维修动作at,当前的“单一系统-单元”集群剩余寿命St转移至下一时刻集群状态,蒙特卡洛树搜索算法的表达式为
Figure BDA0003231454700000091
集群剩余寿命状态SRUL作为蒙特卡洛树搜索算法的树节点,该节点扩展的所有边(SRUL,a)对应该节点下一步所有的维修动作a∈Action(SRUL),每条边(SRUL,a)存储一组统计数据,如下所示:
Data(SRUL,a)={N(SRUL,a),W(SRUL,a),Q(SRUL,a),P(SRUL,a)}
其中,N(SRUL,a)表示该条边的被访问次数;W(SRUL,a)表示该条边对应的维修动作的价值总和;Q(SRUL,a)表示该条边对应的维修动作的平均价值;P(SRUL,a)表示选择边(SRUL,a)的先验概率。
在剩余寿命输入特征矩阵
Figure BDA0003231454700000092
的条件下,基于ResNet输出的先验参数(pt,vt),执行蒙特卡洛树搜索算法的搜索维修动作解空间,如图3所示,其搜索过程主要包括4个步骤:
(1)选择
首先,选择t时刻的剩余寿命
Figure BDA0003231454700000093
作为搜索树的根节点,根节点记为
Figure BDA0003231454700000094
蒙特卡洛树搜索过程从根节点开始,直到进行至L时刻到达搜索树末端的叶子节点
Figure BDA0003231454700000095
时截止。在第l时刻(1≤l<L),根据当前节点
Figure BDA0003231454700000096
的每条边存储的统计数据选择一个维修动作al,可表示为
Figure BDA0003231454700000097
其中
Figure BDA0003231454700000098
是一个中间变量,引用了一种改进的PUCT算法,可表示为
Figure BDA0003231454700000099
其中cpuct是一个由蒙特卡洛树搜索程度决定的常数;这个搜索控制策略最初倾向与选择具有较高先验概率和较低访问次数的动作a,但是随着搜索的进行会更加倾向选择具有较高行动价值的动作。
(2)扩展与评估
将叶子节点
Figure BDA0003231454700000101
作为集群剩余寿命的输入特征张量,输入至ResNet得到扩展叶子节点的边
Figure BDA0003231454700000102
需要存储的统计数据,这个操作可以表示为
Figure BDA0003231454700000103
完成上述操作之前,此条搜索线程一直处于锁死状态。当叶子结点
Figure BDA0003231454700000104
继续扩展的时候,它的每一条边
Figure BDA0003231454700000105
存储的统计参数初始化,可以表示为
Figure BDA0003231454700000106
(3)回溯
统计数据沿着搜索线程访问所有边,由叶子节点向根节点回溯传输,更新并存储于搜索树边中。回溯过程中,边
Figure BDA0003231454700000107
存储的访问次数参数更新一次,可以表示为
Figure BDA0003231454700000108
同时,该边
Figure BDA0003231454700000109
的维修动作价值总和和平均价值参数也更新一次,可以表示为
Figure BDA00032314547000001010
Figure BDA00032314547000001011
(4)执行
通过迭代上述三个操作,完成一定次数树搜索之后,得到一个优化的集群维修概率矩阵πt,并据此选择t时刻最佳维修动作at,集群剩余寿命状态
Figure BDA00032314547000001012
转移至
Figure BDA00032314547000001013
πt中的元素π可以表示为
Figure BDA00032314547000001014
其中τ是一个控制搜索进程的温度参数。
搜索树在接下来的预防性维修策略生成过程中继续使用,每次执行最佳维修动作at之后达到的子节点成为新的搜索树根节点,保留该节点的所有边,同时删除上一个根节点的其余边。
基于蒙特卡洛树搜索算法执行一定次数的搜索操作遍历预防性维修策略解空间,最终可得到t时刻的最佳维修动作at和优化的维修概率矩阵πt,其表达式为
Figure BDA0003231454700000111
例:由步骤一、步骤二和步骤三得到一组
Figure BDA0003231454700000112
之后,蒙特卡洛树搜索算法搜索遍历预防性维修策略解空间,得到一个优化的M×N维修概率矩阵可以表示为
Figure BDA0003231454700000113
选择其中维修概率最大的单元执行维修动作,t时刻全局最佳维修动作
Figure BDA0003231454700000114
将对单一系统k2的单元u2执行维修动作,完成之后t时刻集群剩余寿命转移至预防性维修策略生成过程t+1时刻。
步骤五:检验集群系统恢复程度。
预防性维修策略生成过程的t时刻,通过执行步骤三和步骤四,得到当前时刻的最佳维修动作,执行后集群剩余寿命状态
Figure BDA0003231454700000115
转移至下一时刻,基于执行维修动作后的集群状态,按照步骤二中的可靠性评估方法,计算集群系统当前的可靠度,从而检验可靠性水平相对于执行预防性维修之前的恢复程度。
若未满足恢复要求,返回步骤三,继续执行预防性维修策略生成过程。若T时刻的集群剩余寿命
Figure BDA0003231454700000116
满足恢复要求,则经过执行预防性维修策略生成过程的T次最佳维修动作,生成了一个完整的预防性维修策略。
由奖励函数计算一个奖励值z对预防性维修策略生成过程进行评估,基于奖励值和预防性维修策略生成过程产生的T个维修动作,作为最新的强化学习经验参数,ResNet以最小化预测的评估值v与策略生成过程结束的奖励值z之间的误差,以及最大化先验维修概率p与优化的维修概率π之间的相似度为目标,利用梯度下降方法训练网络参数θ,其损失函数可以表示为
loss=(z-v)2Tlogp+c||θ||2
ResNet参数训练完成后,得到一个新的ResNet用于下一次预防性维修策略生成过程。通过训练神经网络可为蒙特卡洛树搜索提供更好的搜索方向。
步骤六:输出预防性维修策略。
由预防性维修策略生成过程存储的一系列最佳维修动作{a1,a2,…,aT}生成一个完整的预防性维修策略,可以表示为
PM=fPM(a1,a2,…,aT)=1×a1+2×a2+…+T×aT
执行预防性维修策略之后,基于集群系统的“单一系统-单元”集群剩余寿命
Figure BDA0003231454700000121
计算集群系统可靠性水平的恢复程度。
例:以步骤一中运行100天时的集群系统为案例,此时该集群系统的10×6“单一系统-单元”集群剩余寿命状态为SRUL1=100),假设在预防性维修策略生成过程一共执行了5次维修动作
Figure BDA0003231454700000122
则生成的预防性维修策略可以表示为
Figure BDA0003231454700000123
该预防性维修策略表示按照维修时序,依次对下列单元执行维修动作:单一系统k7的单元u2,单一系统k3的单元u6,单一系统k6的单元u6,单一系统k2的单元u5,单一系统k10的单元u4

Claims (7)

1.基于深度强化学习的集群系统预防性维修方法,其特征在于:它包含以下步骤:
第一步:集群系统退化状态描述:根据退化状态建立集群系统“单一系统-单元”集群的剩余寿命状态矩阵。
第二步:集群系统可靠性评估:基于集群系统“单一系统-单元”集群剩余寿命状态,评估集群系统可靠性水平。
第三步:基于深度神经网络的预防性维修策略预测:设计一个神经网络预测集群系统“单一系统-单元”集群的先验维修概率和先验维修策略价值。
第四步:基于蒙特卡洛树搜索算法的预防性维修策略搜索:构建预防性维修策略求解算法架构,遍历预防性维修策略解空间,选择一系列最佳维修动作。
第五步:检验集群系统恢复程度:基于集群剩余寿命状态的变化计算集群系统可靠度,然后检验集群系统恢复程度。
第六步:输出预防性维修策略:由预防性维修策略求解过程存储的一系列最佳维修动作生成一个完整的预防性策略。
通过以上步骤,给出了一种基于深度强化学习的预防性维修方法,可以解决集群系统长期运行过程中进行“单一系统-单元”集群的预防性维修问题。
2.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法,其特征在于:在第一步中所述的“集群系统退化状态描述”中,基于集群系统“单一系统-单元”集群剩余寿命状态,评估集群系统可靠性水平。
将集群系统预防性维修策略视为多组成单元的集群维修决策问题展开研究。首先,考虑集群系统由M个单一系统组成,则该集群系统的单一系统集合可以表示为K={k1,k2,…,km,…,kM};考虑各单一系统由N个单元组成,则其单元集合可以表示为U={u1,u2,…,un,…,uN}。以此为基础,考虑各单元的剩余寿命(Remaining Useful Life,RUL),建立M×N的“单一系统-单元”状态矩阵SRUL,其中矩阵元素
Figure FDA0003231454690000011
表示单元u(m,n)在长期运行过程中的剩余寿命的退化状态。
3.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法,其特征在于:在第二步中所述的“集群系统可靠性评估”中,基于集群系统“单一系统-单元”集群剩余寿命状态,评估集群系统可靠性水平。
定义R为全寿命周期的可靠度,当集群系统运行至时间τ时,单元u(m,n)的可靠度可以表示为Rmn(τ),同时单一系统km的可靠度可以表示为Rm(τ),集群系统的“单一系统-单元”的集群可靠度可以表示为Rfleet(τ)。
4.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法,其特征在于:在第三步中所述的“基于深度神经网络的预防性维修策略预测”中,设计一个深度残差网络(Residual Networks,ResNet)通过提取集群系统的集群剩余寿命特征,预测“单一系统-单元”集群的先验维修概率矩阵p和先验集群预防性维修策略价值v。
ResNet输入特征矩阵:即当前的“单一系统-单元”集群剩余寿命状态矩阵SRUL。ResNet输出信息:包括“单一系统-单元”集群的先验集群维修概率p和一个先验集群预防性维修策略价值v。
选用的神经网络结构:包括卷积模块、残差模块、ReLU函数模块等。神经网络的表达式为fθ(SRUL)=(p,v)。
5.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法,其特征在于:在第四步中所述的“基于蒙特卡洛树搜索算法的预防性维修策略搜索”中,以提高集群系统“单一系统-单元”集群退化程度的恢复水平,以维修费用作为约束,构建预防性维修策略的优选迭代体系。设计一种基于深度强化学习的预防性维修决策框架,利用神经网络提供先验信息,通过蒙特卡洛树搜索算法搜索优化的预防性维修策略。
蒙特卡洛树搜索算法利用步骤三中ResNet输出的先验集群维修概率p作为搜索权重,避免直接全局搜索预防性维修策略的解空间,导致出现组合爆炸问题。基于先验概率p进行策略空间的局部搜索同样能得到全局最优预防性维修策略,依据树搜索得到优化的维修概率矩阵π,执行当前最优维修动作a,当前的“单一系统-单元”集群剩余寿命SRUL转移至下一时刻集群状态,蒙特卡洛树搜索算法的表达式为MCTSθ(SRUL,p,v)=(π,a)。
6.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法,其特征在于:在第五步中所述的“检验集群系统恢复程度”中,预防性维修策略生成过程的t时刻,通过执行步骤三和步骤四,得到当前时刻的最佳维修动作,执行后集群状态
Figure FDA0003231454690000031
转移至下一时刻,基于执行维修动作后的集群状态,按照步骤二中的可靠性评估方法,计算集群系统当前的可靠度,从而检验可靠性水平相对于执行预防性维修之前的恢复程度。
若未满足恢复要求,返回步骤三,继续执行预防性维修策略生成过程。若T时刻的集群剩余寿命
Figure FDA0003231454690000032
满足恢复要求,则经过执行预防性维修策略生成过程的T次最佳维修动作,生成了一个完整的预防性维修策略。
由奖励函数计算一个奖励值z对预防性维修策略生成过程进行评估,基于奖励值和预防性维修策略生成过程产生的T个维修动作,作为最新的强化学习经验参数,ResNet以最小化预测的评估值v与策略生成过程结束的奖励值z之间的误差,以及最大化先验维修概率p与优化的维修概率π之间的相似度为目标,利用梯度下降方法训练网络参数θ,得到一个新的ResNet用于下一次预防性维修策略生成过程。通过训练神经网络可为蒙特卡洛树搜索提供更好的搜索方向。
7.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法,其特征在于:在第六步中所述的“输出预防性维修策略”中,由预防性维修策略生成过程存储的一系列最佳维修动作{a1,a2,…,aT}生成一个完整的预防性维修策略,可以表示为
PM=fPM(a1,a2,…,aT)=1×a1+2×a2+…+T×aT
执行预防性维修策略之后,基于集群系统的“单一系统-单元”集群剩余寿命
Figure FDA0003231454690000033
计算集群系统可靠性水平的恢复程度。
CN202110988026.1A 2021-08-26 2021-08-26 一种基于深度强化学习的集群系统预防性维修方法 Pending CN113673721A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110988026.1A CN113673721A (zh) 2021-08-26 2021-08-26 一种基于深度强化学习的集群系统预防性维修方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110988026.1A CN113673721A (zh) 2021-08-26 2021-08-26 一种基于深度强化学习的集群系统预防性维修方法

Publications (1)

Publication Number Publication Date
CN113673721A true CN113673721A (zh) 2021-11-19

Family

ID=78546597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110988026.1A Pending CN113673721A (zh) 2021-08-26 2021-08-26 一种基于深度强化学习的集群系统预防性维修方法

Country Status (1)

Country Link
CN (1) CN113673721A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098906A (zh) * 2022-05-05 2022-09-23 哈尔滨工业大学 基于深度强化学习和系统可靠度的桥梁智能维修决策方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006045804A1 (de) * 2006-09-26 2008-03-27 Abb Patent Gmbh System und Verfahren zur optimierten Instandhaltungsplanung in einem Anlagen-überwachungssystem einer technischen Anlage oder eines technischen Prozesses
CN107766628A (zh) * 2017-09-29 2018-03-06 北京航空航天大学 一种基于寿命信息融合的动态退化可靠性评估方法
CN108573303A (zh) * 2018-04-25 2018-09-25 北京航空航天大学 一种基于改进强化学习的复杂网络局部破坏的自改进恢复策略
CN110062502A (zh) * 2019-04-22 2019-07-26 北京航空航天大学 一种基于机器视觉的led照明灯具在线剩余寿命预测及可靠性评估方法
CN110909442A (zh) * 2019-10-11 2020-03-24 北京航空航天大学 一种考虑维修负面效果的维修效果建模方法
CN112183777A (zh) * 2020-09-14 2021-01-05 北京航空航天大学 一种基于深度强化学习的复杂网络局部破坏控制方法
CN113065675A (zh) * 2021-04-13 2021-07-02 中国人民解放军空军工程大学 一种基于剩余寿命预测的设备最优维护方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006045804A1 (de) * 2006-09-26 2008-03-27 Abb Patent Gmbh System und Verfahren zur optimierten Instandhaltungsplanung in einem Anlagen-überwachungssystem einer technischen Anlage oder eines technischen Prozesses
CN107766628A (zh) * 2017-09-29 2018-03-06 北京航空航天大学 一种基于寿命信息融合的动态退化可靠性评估方法
CN108573303A (zh) * 2018-04-25 2018-09-25 北京航空航天大学 一种基于改进强化学习的复杂网络局部破坏的自改进恢复策略
CN110062502A (zh) * 2019-04-22 2019-07-26 北京航空航天大学 一种基于机器视觉的led照明灯具在线剩余寿命预测及可靠性评估方法
CN110909442A (zh) * 2019-10-11 2020-03-24 北京航空航天大学 一种考虑维修负面效果的维修效果建模方法
CN112183777A (zh) * 2020-09-14 2021-01-05 北京航空航天大学 一种基于深度强化学习的复杂网络局部破坏控制方法
CN113065675A (zh) * 2021-04-13 2021-07-02 中国人民解放军空军工程大学 一种基于剩余寿命预测的设备最优维护方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098906A (zh) * 2022-05-05 2022-09-23 哈尔滨工业大学 基于深度强化学习和系统可靠度的桥梁智能维修决策方法及系统

Similar Documents

Publication Publication Date Title
CN109948833A (zh) 一种基于长短期记忆网络的水电机组劣化趋势预测方法
CN108573303A (zh) 一种基于改进强化学习的复杂网络局部破坏的自改进恢复策略
CN108153982B (zh) 基于堆叠自编码深度学习网络的航空发动机修后性能预测方法
CN112487592B (zh) 基于贝叶斯网络的任务可靠性建模分析方法
CN106649479A (zh) 一种基于概率图的变压器状态关联规则挖掘方法
CN107729684A (zh) 基于故障机理综合损伤累积规则的pms可靠性分层建模方法
CN104484548A (zh) 一种改进的序贯故障诊断策略优化方法
CN105471647A (zh) 一种电力通信网故障定位方法
CN115438849A (zh) 一种基于集成学习的装备后续备件需求预测方法
CN110782083B (zh) 基于深度Croston方法的航空发动机备用需求预测方法
CN113673721A (zh) 一种基于深度强化学习的集群系统预防性维修方法
CN114004008B (zh) 一种基于神经网络和遗传算法的飞机装配线资源配置优化方法
CN117557127A (zh) 电网调度系统支撑平台可靠性评估方法、系统及存储介质
CN117075634A (zh) 基于改进蚁群算法的配电网多无人机调度巡检方法及装置
CN112381664A (zh) 电网短期负荷预测方法、预测装置及存储介质
CN112183777A (zh) 一种基于深度强化学习的复杂网络局部破坏控制方法
CN116432359A (zh) 基于元迁移学习的变拓扑网络潮流计算方法
Yan et al. Simplified Markov model for reliability analysis of phased-mission system using states merging method
Khatab et al. Genetic algorithm for selective maintenance optimization of multi-mission oriented systems
CN111309582B (zh) 一种复杂冗余系统可靠性评估的优化方法
Zhao et al. Selective maintenance modeling for a multi-state system considering human reliability
He et al. NARNET-based prognostics modeling for deteriorating systems under dynamic operating conditions
CN116796617A (zh) 基于数据标识的滚动轴承设备剩余寿命预测方法及系统
Cao et al. Probabilistic electricity demand forecasting with transformer-guided state space model
Song et al. Risk assessment of power system cascading outages based on deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination