CN113673721A - 一种基于深度强化学习的集群系统预防性维修方法 - Google Patents
一种基于深度强化学习的集群系统预防性维修方法 Download PDFInfo
- Publication number
- CN113673721A CN113673721A CN202110988026.1A CN202110988026A CN113673721A CN 113673721 A CN113673721 A CN 113673721A CN 202110988026 A CN202110988026 A CN 202110988026A CN 113673721 A CN113673721 A CN 113673721A
- Authority
- CN
- China
- Prior art keywords
- cluster
- preventive maintenance
- cluster system
- strategy
- maintenance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 189
- 230000003449 preventive effect Effects 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000002787 reinforcement Effects 0.000 title claims abstract description 22
- 230000009471 action Effects 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 37
- 238000011084 recovery Methods 0.000 claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 230000015556 catabolic process Effects 0.000 claims abstract description 18
- 238000006731 degradation reaction Methods 0.000 claims abstract description 18
- 230000007774 longterm Effects 0.000 claims abstract description 8
- 230000008859 change Effects 0.000 claims abstract 2
- 238000010845 search algorithm Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- 230000008439 repair process Effects 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 238000011160 research Methods 0.000 claims description 4
- 238000004880 explosion Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明公开了一种基于深度强化学习的集群系统预防性维修方法,解决了集群系统在长期运行过程中的预防性维修问题。步骤如下:1根据退化状态建立集群系统“单一系统‑单元”集群的剩余寿命状态矩阵。2基于集群系统“单一系统‑单元”集群剩余寿命状态,评估集群系统可靠性水平。3设计一个神经网络预测集群系统“单一系统‑单元”集群的先验维修概率和先验维修策略价值。4构建预防性维修策略求解算法架构,遍历预防性维修策略解空间,选择一系列最佳维修动作。5基于集群剩余寿命状态的变化计算集群系统可靠度,然后检验集群系统恢复程度。6由预防性维修策略求解过程存储的一系列最佳维修动作生成一个完整的预防性策略。
Description
所属技术领域
本发明提供一种基于深度强化学习的集群系统预防性维修方法,尤其涉及一种考虑集群系统各组成单元的退化特征,基于深度强化学习算法,实现求解集群系统预防性维修问题的多单元集群维修决策方法,属于维修性工程领域。
背景技术
预防性维修是指考虑产品退化状态,提前采取维修措施预防故障发生。目前基于状态的预防性维修正逐渐取代基于时间的预防性维修,集群系统由多个单一系统构成,具有高容错性,在军民领域得到广泛应用。近年来集群系统的预防性维修问题得到较大重视,但现有研究对集群组成系统和单元的大规模特征与退化状态特征,以及问题整体的非确定性多项式困难特征,考虑不充分。需要给出考虑集群各组成系统及单元退化状态的高效预防性维修方法
本发明基于深度神经网络预测模型和蒙特卡洛树搜索算法,发明了一种基于深度强化学习的新型预防性维修方法,解决了集群系统长期工作运行过程中的预防性维修问题。
发明内容
本发明的目的是为长期工作运行过程中的集群系统提供一种新型的预防性维修方法,旨在解决传统预防性维修方法未充分考虑集群系统各组成单元的大规模集群特征与退化状态特征,以及问题整体的非确定性多项式困难特征。
本发明提出了一种基于深度强化学习的预防性维修方法,该方法综合应用神经网络预测模型和蒙特卡洛树搜索算法生成预防性维修策略,主要包含以下步骤:
步骤一:集群系统退化状态描述。
将集群系统预防性维修策略视为多组成单元的集群维修决策问题展开研究。首先,考虑集群系统由M个单一系统组成,则该集群系统的单一系统集合可以表示为K={k1,k2,…,km,…,kM};考虑各单一系统由N个单元组成,则其单元集合可以表示为U={u1,u2,…,un,…,uN}。以此为基础,考虑各单元的剩余寿命(Remaining Useful Life,RUL),建立M×N的“单一系统-单元”状态矩阵SRUL,其中矩阵元素表示单元u(m,n)在长期运行过程中的剩余寿命的退化状态。
步骤二:集群系统可靠性评估。
定义R为全寿命周期的可靠度,当集群系统运行至时间τ时,单元u(m,n)的可靠度可以表示为Rmn(τ),同时单一系统km的可靠度可以表示为Rm(τ),集群系统的“单一系统-单元”的集群可靠度可以表示为Rfleet(τ)。
步骤三:基于深度神经网络的预防性维修策略预测。
设计一个深度残差网络(Residual Networks,ResNet)通过提取集群系统的集群剩余寿命特征,预测“单一系统-单元”集群的先验维修概率矩阵p和先验集群预防性维修策略价值v。
ResNet输入特征矩阵:即当前的“单一系统-单元”集群剩余寿命状态矩阵SRUL。ResNet输出信息:包括“单一系统-单元”集群的先验集群维修概率p和一个先验集群预防性维修策略价值v。
选用的神经网络结构:包括卷积模块、残差模块、ReLU函数模块等。神经网络的表达式为fθ(SRUL)=(p,v)。
步骤四:基于蒙特卡洛树搜索算法的预防性维修策略搜索。
以提高集群系统“单一系统-单元”集群退化程度的恢复水平,以维修费用作为约束,构建预防性维修策略的优选迭代体系。设计一种基于深度强化学习的预防性维修决策框架,利用神经网络提供先验信息,通过蒙特卡洛树搜索算法搜索优化的预防性维修策略。
蒙特卡洛树搜索算法利用步骤三中ResNet输出的先验集群维修概率p作为搜索权重,避免直接全局搜索预防性维修策略的解空间,导致出现组合爆炸问题。基于先验概率p进行策略空间的局部搜索同样能得到全局最优预防性维修策略,依据树搜索得到优化的维修概率矩阵π,执行当前最优维修动作a,当前的“单一系统-单元”集群剩余寿命SRUL转移至下一时刻集群状态,蒙特卡洛树搜索算法的表达式为MCTSθ(SRUL,p,v)=(π,a)。
步骤五:检验集群系统恢复程度。
预防性维修策略生成过程的t时刻,通过执行步骤三和步骤四,得到当前时刻的最佳维修动作,执行后集群状态转移至下一时刻,基于执行维修动作后的集群状态,按照步骤二中的可靠性评估方法,计算集群系统当前的可靠度,从而检验可靠性水平相对于执行预防性维修之前的恢复程度。
由奖励函数计算一个奖励值z对预防性维修策略生成过程进行评估,基于奖励值和预防性维修策略生成过程产生的T个维修动作,作为最新的强化学习经验参数,ResNet以最小化预测的评估值v与策略生成过程结束的奖励值z之间的误差,以及最大化先验维修概率p与优化的维修概率π之间的相似度为目标,利用梯度下降方法训练网络参数θ,得到一个新的ResNet用于下一次预防性维修策略生成过程。通过训练神经网络可为蒙特卡洛树搜索提供更好的搜索方向。
步骤六:输出预防性维修策略。
由预防性维修策略生成过程存储的一系列最佳维修动作{a1,a2,…,aT}生成一个完整的预防性维修策略,可以表示为
PM=fPM(a1,a2,…,aT)=1×a1+2×a2+…+T×aT
附图说明
图1为本发明中基于深度强化学习的预防性维修架构框图
图2为本发明中集群系统状态特征提取的神经网络模型
图3为本发明中遍历预防性维修策略的蒙特卡洛树搜索算法模型图
具体实施方式
为使本发明的技术方案、特征及优点得到更清楚的了解,以下结合附图,作详细说明。
本发明给出了一种新型的预防性维修方法,可用于解决长期工作运行过程中集群系统的“单一系统-单元”集群预防性维修问题,解决了未充分考虑集群系统各组成单元的大规模集群特征与退化状态特征,以及问题整体的非确定性多项式困难特征。
本发明的整体架构,见图1所示。其具体实施步骤是:
步骤一:集群系统退化状态描述。
将集群系统预防性维修策略视为多组成单元的集群维修决策问题展开研究。首先,考虑集群系统由M个单一系统组成,则该集群系统的单一系统集合可以表示为K={k1,k2,…,km,…,kM};考虑各单一系统由N个单元组成,则其单元集合可以表示为U={u1,u2,…,un,…,uN}。以此为基础,考虑各单元的剩余寿命,建立M×N的“单一系统-单元”剩余寿命状态矩阵SRUL,其中矩阵元素 表示单元u(m,n)在长期运行过程中的剩余寿命的退化信息。
本文依据集群系统运行至时间τ时单元u(m,n)的剩余寿命概率密度函数,描述集群系统中各单元的剩余寿命状态对于不同的集群系统选择不同的概率分布描述其剩余寿命,例如指数分布、高斯分布、威布尔分布等。因此集群系统运行至时间τ1时,其“单一系统-单元”集群中各单元的剩余寿命状态可以表示为
其中表示单元u(m,n)的剩余寿命概率密度函数,τ0为集群系统运行初始时刻。假设集群系统运行至时间τ1时进行预防性维修,需要通过预防性维修策略生成过程得到一个优化的预防性维修策略,则此时“单一系统-单元”集群的剩余寿命状态矩阵表达式为
例:设分析对象为一个包含10个单一系统的集群系统,每个单一系统包含6个单元,集群系统运行100天时进行预防性维修,假设此时“单一系统-单元”集群的剩余寿命状态矩阵表达式为
步骤二:集群系统可靠性评估。
定义R为全寿命周期的可靠度,当集群系统运行至时间τ时,单元u(m,n)的可靠度可以表示为Rmn(τ),同时单一系统km的可靠度可以表示为Rm(τ),集群系统的“单一系统-单元”的集群可靠度可以表示为Rfleet(τ),则集群可靠度的计算方式如下
其中g(Rm(τ))表示单一系统km的的可靠度函数;h(Rmn(τ))表示单元u(m,n)的可靠度函数;表示当集群系统运行至时间τ时,单元u(m,n)的剩余寿命状态不小于剩余寿命状态阈值的概率;表示单元u(m,n)的剩余寿命概率密度函数,τ0为集群系统运行初始时刻,τ1为集群系统进行预防性维修的时刻。
步骤三:基于深度神经网络的预防性维修策略预测。
设计一个深度残差网络(Residual Networks,ResNet)通过提取集群系统的集群剩余寿命特征,预测“单一系统-单元”集群的先验维修概率矩阵p和先验集群预防性维修策略价值v。
(1)神经网络输入信息:
ResNet输入特征矩阵:即当前的“单一系统-单元”集群剩余寿命状态矩阵SRUL。预防性维修策略生成过程的初始时刻,“单一系统-单元”集群的剩余寿命状态矩阵表达式为
预防性维修策略生成过程进行至t时刻时,“单一系统-单元”集群的剩余寿命状态矩阵表达式为
(2)神经网络输出信息:
包括“单一系统-单元”集群的先验集群维修概率p和一个先验集群预防性维修策略价值v。
a)“单一系统-单元”集群在预防性维修策略生成过程t时刻的先验集群维修概率pt,记为:
b)先验集群预防性维修策略价值vt是一个归一化参数,预测预防性维修策略生成过程t时刻的集群剩余寿命满足恢复程度的评估值。
(3)神经网络结构:
选用的神经网络结构:包括卷积模块、残差模块、ReLU函数模块等。
a)单独的卷积模块:
①由128个3×3的滤波器组成的卷积层,步长为1;
②ReLU函数层;
b)中间层模块:通过堆叠残差模块构造ResNet的中间层(以堆叠9层残差模块为例),残差模块包括以下结构:
①卷积模块:含有一个由128个3×3的滤波器组成的卷积层,步长为1;
②归一化模块:通过一个Sigmoid函数获得0~1之间归一化的权重;
③Short-Cut模块:当前残差模块对其输入和其内部卷积模块的输出执行特征提取操作。
深度残差模块的输出分为价值模块和策略模块两部分:
c)价值模块:
①由1个1×1的滤波器组成的卷积层,步长为1;
②规模为128的线性全连接层;
③ReLU函数层;
④线性全连接层;
⑤Sigmoid输出层:输出一个在区间(0,1)上取值的标量值。
d)策略模块:
①由2个1×1的滤波器组成的卷积层,步长为1;
②ReLU函数层;
③全连接输出层:输出大小为m×n的特征张量,对应“单一系统-单元”集群pt的分对数;
假设集群系统运行100天时进行预防性维修,则此时集群系统的剩余寿命状态矩阵SRUL(τ1=100)即为预防性维修策略生成过程初始时刻的ResNet输入特征矩阵,其表达式为
步骤四:基于蒙特卡洛树搜索算法的预防性维修策略搜索。
以提高集群系统“单一系统-单元”集群退化程度的恢复水平,以维修费用作为约束,构建预防性维修策略的优选迭代体系。设计一种基于深度强化学习的预防性维修决策框架,利用神经网络提供先验信息,通过蒙特卡洛树搜索算法搜索优化的预防性维修策略。
蒙特卡洛树搜索算法利用步骤三中ResNet输出的先验集群维修概率pt作为搜索权重,避免直接全局搜索预防性维修策略的解空间,导致出现组合爆炸问题。基于先验概率pt进行策略空间的局部搜索同样能得到全局最优预防性维修策略,依据树搜索得到优化的维修概率矩阵πt,执行当前最优维修动作at,当前的“单一系统-单元”集群剩余寿命St转移至下一时刻集群状态,蒙特卡洛树搜索算法的表达式为
集群剩余寿命状态SRUL作为蒙特卡洛树搜索算法的树节点,该节点扩展的所有边(SRUL,a)对应该节点下一步所有的维修动作a∈Action(SRUL),每条边(SRUL,a)存储一组统计数据,如下所示:
Data(SRUL,a)={N(SRUL,a),W(SRUL,a),Q(SRUL,a),P(SRUL,a)}
其中,N(SRUL,a)表示该条边的被访问次数;W(SRUL,a)表示该条边对应的维修动作的价值总和;Q(SRUL,a)表示该条边对应的维修动作的平均价值;P(SRUL,a)表示选择边(SRUL,a)的先验概率。
(1)选择
首先,选择t时刻的剩余寿命作为搜索树的根节点,根节点记为蒙特卡洛树搜索过程从根节点开始,直到进行至L时刻到达搜索树末端的叶子节点时截止。在第l时刻(1≤l<L),根据当前节点的每条边存储的统计数据选择一个维修动作al,可表示为
其中cpuct是一个由蒙特卡洛树搜索程度决定的常数;这个搜索控制策略最初倾向与选择具有较高先验概率和较低访问次数的动作a,但是随着搜索的进行会更加倾向选择具有较高行动价值的动作。
(2)扩展与评估
(3)回溯
(4)执行
其中τ是一个控制搜索进程的温度参数。
搜索树在接下来的预防性维修策略生成过程中继续使用,每次执行最佳维修动作at之后达到的子节点成为新的搜索树根节点,保留该节点的所有边,同时删除上一个根节点的其余边。
步骤五:检验集群系统恢复程度。
预防性维修策略生成过程的t时刻,通过执行步骤三和步骤四,得到当前时刻的最佳维修动作,执行后集群剩余寿命状态转移至下一时刻,基于执行维修动作后的集群状态,按照步骤二中的可靠性评估方法,计算集群系统当前的可靠度,从而检验可靠性水平相对于执行预防性维修之前的恢复程度。
由奖励函数计算一个奖励值z对预防性维修策略生成过程进行评估,基于奖励值和预防性维修策略生成过程产生的T个维修动作,作为最新的强化学习经验参数,ResNet以最小化预测的评估值v与策略生成过程结束的奖励值z之间的误差,以及最大化先验维修概率p与优化的维修概率π之间的相似度为目标,利用梯度下降方法训练网络参数θ,其损失函数可以表示为
loss=(z-v)2-πTlogp+c||θ||2
ResNet参数训练完成后,得到一个新的ResNet用于下一次预防性维修策略生成过程。通过训练神经网络可为蒙特卡洛树搜索提供更好的搜索方向。
步骤六:输出预防性维修策略。
由预防性维修策略生成过程存储的一系列最佳维修动作{a1,a2,…,aT}生成一个完整的预防性维修策略,可以表示为
PM=fPM(a1,a2,…,aT)=1×a1+2×a2+…+T×aT
例:以步骤一中运行100天时的集群系统为案例,此时该集群系统的10×6“单一系统-单元”集群剩余寿命状态为SRUL(τ1=100),假设在预防性维修策略生成过程一共执行了5次维修动作则生成的预防性维修策略可以表示为
该预防性维修策略表示按照维修时序,依次对下列单元执行维修动作:单一系统k7的单元u2,单一系统k3的单元u6,单一系统k6的单元u6,单一系统k2的单元u5,单一系统k10的单元u4。
Claims (7)
1.基于深度强化学习的集群系统预防性维修方法,其特征在于:它包含以下步骤:
第一步:集群系统退化状态描述:根据退化状态建立集群系统“单一系统-单元”集群的剩余寿命状态矩阵。
第二步:集群系统可靠性评估:基于集群系统“单一系统-单元”集群剩余寿命状态,评估集群系统可靠性水平。
第三步:基于深度神经网络的预防性维修策略预测:设计一个神经网络预测集群系统“单一系统-单元”集群的先验维修概率和先验维修策略价值。
第四步:基于蒙特卡洛树搜索算法的预防性维修策略搜索:构建预防性维修策略求解算法架构,遍历预防性维修策略解空间,选择一系列最佳维修动作。
第五步:检验集群系统恢复程度:基于集群剩余寿命状态的变化计算集群系统可靠度,然后检验集群系统恢复程度。
第六步:输出预防性维修策略:由预防性维修策略求解过程存储的一系列最佳维修动作生成一个完整的预防性策略。
通过以上步骤,给出了一种基于深度强化学习的预防性维修方法,可以解决集群系统长期运行过程中进行“单一系统-单元”集群的预防性维修问题。
2.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法,其特征在于:在第一步中所述的“集群系统退化状态描述”中,基于集群系统“单一系统-单元”集群剩余寿命状态,评估集群系统可靠性水平。
3.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法,其特征在于:在第二步中所述的“集群系统可靠性评估”中,基于集群系统“单一系统-单元”集群剩余寿命状态,评估集群系统可靠性水平。
定义R为全寿命周期的可靠度,当集群系统运行至时间τ时,单元u(m,n)的可靠度可以表示为Rmn(τ),同时单一系统km的可靠度可以表示为Rm(τ),集群系统的“单一系统-单元”的集群可靠度可以表示为Rfleet(τ)。
4.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法,其特征在于:在第三步中所述的“基于深度神经网络的预防性维修策略预测”中,设计一个深度残差网络(Residual Networks,ResNet)通过提取集群系统的集群剩余寿命特征,预测“单一系统-单元”集群的先验维修概率矩阵p和先验集群预防性维修策略价值v。
ResNet输入特征矩阵:即当前的“单一系统-单元”集群剩余寿命状态矩阵SRUL。ResNet输出信息:包括“单一系统-单元”集群的先验集群维修概率p和一个先验集群预防性维修策略价值v。
选用的神经网络结构:包括卷积模块、残差模块、ReLU函数模块等。神经网络的表达式为fθ(SRUL)=(p,v)。
5.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法,其特征在于:在第四步中所述的“基于蒙特卡洛树搜索算法的预防性维修策略搜索”中,以提高集群系统“单一系统-单元”集群退化程度的恢复水平,以维修费用作为约束,构建预防性维修策略的优选迭代体系。设计一种基于深度强化学习的预防性维修决策框架,利用神经网络提供先验信息,通过蒙特卡洛树搜索算法搜索优化的预防性维修策略。
蒙特卡洛树搜索算法利用步骤三中ResNet输出的先验集群维修概率p作为搜索权重,避免直接全局搜索预防性维修策略的解空间,导致出现组合爆炸问题。基于先验概率p进行策略空间的局部搜索同样能得到全局最优预防性维修策略,依据树搜索得到优化的维修概率矩阵π,执行当前最优维修动作a,当前的“单一系统-单元”集群剩余寿命SRUL转移至下一时刻集群状态,蒙特卡洛树搜索算法的表达式为MCTSθ(SRUL,p,v)=(π,a)。
6.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法,其特征在于:在第五步中所述的“检验集群系统恢复程度”中,预防性维修策略生成过程的t时刻,通过执行步骤三和步骤四,得到当前时刻的最佳维修动作,执行后集群状态转移至下一时刻,基于执行维修动作后的集群状态,按照步骤二中的可靠性评估方法,计算集群系统当前的可靠度,从而检验可靠性水平相对于执行预防性维修之前的恢复程度。
由奖励函数计算一个奖励值z对预防性维修策略生成过程进行评估,基于奖励值和预防性维修策略生成过程产生的T个维修动作,作为最新的强化学习经验参数,ResNet以最小化预测的评估值v与策略生成过程结束的奖励值z之间的误差,以及最大化先验维修概率p与优化的维修概率π之间的相似度为目标,利用梯度下降方法训练网络参数θ,得到一个新的ResNet用于下一次预防性维修策略生成过程。通过训练神经网络可为蒙特卡洛树搜索提供更好的搜索方向。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110988026.1A CN113673721A (zh) | 2021-08-26 | 2021-08-26 | 一种基于深度强化学习的集群系统预防性维修方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110988026.1A CN113673721A (zh) | 2021-08-26 | 2021-08-26 | 一种基于深度强化学习的集群系统预防性维修方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113673721A true CN113673721A (zh) | 2021-11-19 |
Family
ID=78546597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110988026.1A Pending CN113673721A (zh) | 2021-08-26 | 2021-08-26 | 一种基于深度强化学习的集群系统预防性维修方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673721A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098906A (zh) * | 2022-05-05 | 2022-09-23 | 哈尔滨工业大学 | 基于深度强化学习和系统可靠度的桥梁智能维修决策方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006045804A1 (de) * | 2006-09-26 | 2008-03-27 | Abb Patent Gmbh | System und Verfahren zur optimierten Instandhaltungsplanung in einem Anlagen-überwachungssystem einer technischen Anlage oder eines technischen Prozesses |
CN107766628A (zh) * | 2017-09-29 | 2018-03-06 | 北京航空航天大学 | 一种基于寿命信息融合的动态退化可靠性评估方法 |
CN108573303A (zh) * | 2018-04-25 | 2018-09-25 | 北京航空航天大学 | 一种基于改进强化学习的复杂网络局部破坏的自改进恢复策略 |
CN110062502A (zh) * | 2019-04-22 | 2019-07-26 | 北京航空航天大学 | 一种基于机器视觉的led照明灯具在线剩余寿命预测及可靠性评估方法 |
CN110909442A (zh) * | 2019-10-11 | 2020-03-24 | 北京航空航天大学 | 一种考虑维修负面效果的维修效果建模方法 |
CN112183777A (zh) * | 2020-09-14 | 2021-01-05 | 北京航空航天大学 | 一种基于深度强化学习的复杂网络局部破坏控制方法 |
CN113065675A (zh) * | 2021-04-13 | 2021-07-02 | 中国人民解放军空军工程大学 | 一种基于剩余寿命预测的设备最优维护方法 |
-
2021
- 2021-08-26 CN CN202110988026.1A patent/CN113673721A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006045804A1 (de) * | 2006-09-26 | 2008-03-27 | Abb Patent Gmbh | System und Verfahren zur optimierten Instandhaltungsplanung in einem Anlagen-überwachungssystem einer technischen Anlage oder eines technischen Prozesses |
CN107766628A (zh) * | 2017-09-29 | 2018-03-06 | 北京航空航天大学 | 一种基于寿命信息融合的动态退化可靠性评估方法 |
CN108573303A (zh) * | 2018-04-25 | 2018-09-25 | 北京航空航天大学 | 一种基于改进强化学习的复杂网络局部破坏的自改进恢复策略 |
CN110062502A (zh) * | 2019-04-22 | 2019-07-26 | 北京航空航天大学 | 一种基于机器视觉的led照明灯具在线剩余寿命预测及可靠性评估方法 |
CN110909442A (zh) * | 2019-10-11 | 2020-03-24 | 北京航空航天大学 | 一种考虑维修负面效果的维修效果建模方法 |
CN112183777A (zh) * | 2020-09-14 | 2021-01-05 | 北京航空航天大学 | 一种基于深度强化学习的复杂网络局部破坏控制方法 |
CN113065675A (zh) * | 2021-04-13 | 2021-07-02 | 中国人民解放军空军工程大学 | 一种基于剩余寿命预测的设备最优维护方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098906A (zh) * | 2022-05-05 | 2022-09-23 | 哈尔滨工业大学 | 基于深度强化学习和系统可靠度的桥梁智能维修决策方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948833A (zh) | 一种基于长短期记忆网络的水电机组劣化趋势预测方法 | |
CN108573303A (zh) | 一种基于改进强化学习的复杂网络局部破坏的自改进恢复策略 | |
CN108153982B (zh) | 基于堆叠自编码深度学习网络的航空发动机修后性能预测方法 | |
CN112487592B (zh) | 基于贝叶斯网络的任务可靠性建模分析方法 | |
CN106649479A (zh) | 一种基于概率图的变压器状态关联规则挖掘方法 | |
CN107729684A (zh) | 基于故障机理综合损伤累积规则的pms可靠性分层建模方法 | |
CN104484548A (zh) | 一种改进的序贯故障诊断策略优化方法 | |
CN105471647A (zh) | 一种电力通信网故障定位方法 | |
CN115438849A (zh) | 一种基于集成学习的装备后续备件需求预测方法 | |
CN110782083B (zh) | 基于深度Croston方法的航空发动机备用需求预测方法 | |
CN113673721A (zh) | 一种基于深度强化学习的集群系统预防性维修方法 | |
CN114004008B (zh) | 一种基于神经网络和遗传算法的飞机装配线资源配置优化方法 | |
CN117557127A (zh) | 电网调度系统支撑平台可靠性评估方法、系统及存储介质 | |
CN117075634A (zh) | 基于改进蚁群算法的配电网多无人机调度巡检方法及装置 | |
CN112381664A (zh) | 电网短期负荷预测方法、预测装置及存储介质 | |
CN112183777A (zh) | 一种基于深度强化学习的复杂网络局部破坏控制方法 | |
CN116432359A (zh) | 基于元迁移学习的变拓扑网络潮流计算方法 | |
Yan et al. | Simplified Markov model for reliability analysis of phased-mission system using states merging method | |
Khatab et al. | Genetic algorithm for selective maintenance optimization of multi-mission oriented systems | |
CN111309582B (zh) | 一种复杂冗余系统可靠性评估的优化方法 | |
Zhao et al. | Selective maintenance modeling for a multi-state system considering human reliability | |
He et al. | NARNET-based prognostics modeling for deteriorating systems under dynamic operating conditions | |
CN116796617A (zh) | 基于数据标识的滚动轴承设备剩余寿命预测方法及系统 | |
Cao et al. | Probabilistic electricity demand forecasting with transformer-guided state space model | |
Song et al. | Risk assessment of power system cascading outages based on deep reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |