CN113673721A

CN113673721A - 一种基于深度强化学习的集群系统预防性维修方法

Info

Publication number: CN113673721A
Application number: CN202110988026.1A
Authority: CN
Inventors: 冯强; 吴其隆; 任羿; 王自力; 孙博; 杨德真
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-11-19

Abstract

本发明公开了一种基于深度强化学习的集群系统预防性维修方法，解决了集群系统在长期运行过程中的预防性维修问题。步骤如下：1根据退化状态建立集群系统“单一系统‑单元”集群的剩余寿命状态矩阵。2基于集群系统“单一系统‑单元”集群剩余寿命状态，评估集群系统可靠性水平。3设计一个神经网络预测集群系统“单一系统‑单元”集群的先验维修概率和先验维修策略价值。4构建预防性维修策略求解算法架构，遍历预防性维修策略解空间，选择一系列最佳维修动作。5基于集群剩余寿命状态的变化计算集群系统可靠度，然后检验集群系统恢复程度。6由预防性维修策略求解过程存储的一系列最佳维修动作生成一个完整的预防性策略。

Description

一种基于深度强化学习的集群系统预防性维修方法

所属技术领域

本发明提供一种基于深度强化学习的集群系统预防性维修方法，尤其涉及一种考虑集群系统各组成单元的退化特征，基于深度强化学习算法，实现求解集群系统预防性维修问题的多单元集群维修决策方法，属于维修性工程领域。

背景技术

预防性维修是指考虑产品退化状态，提前采取维修措施预防故障发生。目前基于状态的预防性维修正逐渐取代基于时间的预防性维修，集群系统由多个单一系统构成，具有高容错性，在军民领域得到广泛应用。近年来集群系统的预防性维修问题得到较大重视，但现有研究对集群组成系统和单元的大规模特征与退化状态特征，以及问题整体的非确定性多项式困难特征，考虑不充分。需要给出考虑集群各组成系统及单元退化状态的高效预防性维修方法

本发明基于深度神经网络预测模型和蒙特卡洛树搜索算法，发明了一种基于深度强化学习的新型预防性维修方法，解决了集群系统长期工作运行过程中的预防性维修问题。

发明内容

本发明的目的是为长期工作运行过程中的集群系统提供一种新型的预防性维修方法，旨在解决传统预防性维修方法未充分考虑集群系统各组成单元的大规模集群特征与退化状态特征，以及问题整体的非确定性多项式困难特征。

本发明提出了一种基于深度强化学习的预防性维修方法，该方法综合应用神经网络预测模型和蒙特卡洛树搜索算法生成预防性维修策略，主要包含以下步骤：

步骤一：集群系统退化状态描述。

将集群系统预防性维修策略视为多组成单元的集群维修决策问题展开研究。首先，考虑集群系统由M个单一系统组成，则该集群系统的单一系统集合可以表示为K＝{k₁,k₂,…,k_m,…,k_M}；考虑各单一系统由N个单元组成，则其单元集合可以表示为U＝{u₁,u₂,…,u_n,…,u_N}。以此为基础，考虑各单元的剩余寿命(Remaining Useful Life，RUL)，建立M×N的“单一系统-单元”状态矩阵S_RUL，其中矩阵元素

表示单元u_(m,n)在长期运行过程中的剩余寿命的退化状态。

步骤二：集群系统可靠性评估。

定义R为全寿命周期的可靠度，当集群系统运行至时间τ时，单元u_(m,n)的可靠度可以表示为R_mn(τ)，同时单一系统k_m的可靠度可以表示为R_m(τ)，集群系统的“单一系统-单元”的集群可靠度可以表示为R_fleet(τ)。

步骤三：基于深度神经网络的预防性维修策略预测。

设计一个深度残差网络(Residual Networks，ResNet)通过提取集群系统的集群剩余寿命特征，预测“单一系统-单元”集群的先验维修概率矩阵p和先验集群预防性维修策略价值v。

ResNet输入特征矩阵：即当前的“单一系统-单元”集群剩余寿命状态矩阵S_RUL。ResNet输出信息：包括“单一系统-单元”集群的先验集群维修概率p和一个先验集群预防性维修策略价值v。

选用的神经网络结构：包括卷积模块、残差模块、ReLU函数模块等。神经网络的表达式为f_θ(S_RUL)＝(p,v)。

步骤四：基于蒙特卡洛树搜索算法的预防性维修策略搜索。

以提高集群系统“单一系统-单元”集群退化程度的恢复水平，以维修费用作为约束，构建预防性维修策略的优选迭代体系。设计一种基于深度强化学习的预防性维修决策框架，利用神经网络提供先验信息，通过蒙特卡洛树搜索算法搜索优化的预防性维修策略。

蒙特卡洛树搜索算法利用步骤三中ResNet输出的先验集群维修概率p作为搜索权重，避免直接全局搜索预防性维修策略的解空间，导致出现组合爆炸问题。基于先验概率p进行策略空间的局部搜索同样能得到全局最优预防性维修策略，依据树搜索得到优化的维修概率矩阵π，执行当前最优维修动作a，当前的“单一系统-单元”集群剩余寿命S_RUL转移至下一时刻集群状态，蒙特卡洛树搜索算法的表达式为MCTS_θ(S_RUL,p,v)＝(π,a)。

步骤五：检验集群系统恢复程度。

预防性维修策略生成过程的t时刻，通过执行步骤三和步骤四，得到当前时刻的最佳维修动作，执行后集群状态

转移至下一时刻，基于执行维修动作后的集群状态，按照步骤二中的可靠性评估方法，计算集群系统当前的可靠度，从而检验可靠性水平相对于执行预防性维修之前的恢复程度。

若未满足恢复要求，返回步骤三，继续执行预防性维修策略生成过程。若T时刻的集群剩余寿命

满足恢复要求，则经过执行预防性维修策略生成过程的T次最佳维修动作，生成了一个完整的预防性维修策略。

由奖励函数计算一个奖励值z对预防性维修策略生成过程进行评估，基于奖励值和预防性维修策略生成过程产生的T个维修动作，作为最新的强化学习经验参数，ResNet以最小化预测的评估值v与策略生成过程结束的奖励值z之间的误差，以及最大化先验维修概率p与优化的维修概率π之间的相似度为目标，利用梯度下降方法训练网络参数θ，得到一个新的ResNet用于下一次预防性维修策略生成过程。通过训练神经网络可为蒙特卡洛树搜索提供更好的搜索方向。

步骤六：输出预防性维修策略。

由预防性维修策略生成过程存储的一系列最佳维修动作{a¹,a²,…,a^T}生成一个完整的预防性维修策略，可以表示为

PM＝f_PM(a¹,a²,…,a^T)＝1×a¹+2×a²+…+T×a^T

执行预防性维修策略之后，基于集群系统的“单一系统-单元”集群剩余寿命

计算集群系统可靠性水平的恢复程度。

附图说明

图1为本发明中基于深度强化学习的预防性维修架构框图

图2为本发明中集群系统状态特征提取的神经网络模型

图3为本发明中遍历预防性维修策略的蒙特卡洛树搜索算法模型图

具体实施方式

为使本发明的技术方案、特征及优点得到更清楚的了解，以下结合附图，作详细说明。

本发明给出了一种新型的预防性维修方法，可用于解决长期工作运行过程中集群系统的“单一系统-单元”集群预防性维修问题，解决了未充分考虑集群系统各组成单元的大规模集群特征与退化状态特征，以及问题整体的非确定性多项式困难特征。

本发明的整体架构，见图1所示。其具体实施步骤是：

步骤一：集群系统退化状态描述。

将集群系统预防性维修策略视为多组成单元的集群维修决策问题展开研究。首先，考虑集群系统由M个单一系统组成，则该集群系统的单一系统集合可以表示为K＝{k₁,k₂,…,k_m,…,k_M}；考虑各单一系统由N个单元组成，则其单元集合可以表示为U＝{u₁,u₂,…,u_n,…,u_N}。以此为基础，考虑各单元的剩余寿命，建立M×N的“单一系统-单元”剩余寿命状态矩阵S_RUL，其中矩阵元素

表示单元u_(m,n)在长期运行过程中的剩余寿命的退化信息。

本文依据集群系统运行至时间τ时单元u_(m,n)的剩余寿命概率密度函数，描述集群系统中各单元的剩余寿命状态

对于不同的集群系统选择不同的概率分布描述其剩余寿命，例如指数分布、高斯分布、威布尔分布等。因此集群系统运行至时间τ₁时，其“单一系统-单元”集群中各单元的剩余寿命状态

可以表示为

其中

表示单元u_(m,n)的剩余寿命概率密度函数，τ₀为集群系统运行初始时刻。假设集群系统运行至时间τ₁时进行预防性维修，需要通过预防性维修策略生成过程得到一个优化的预防性维修策略，则此时“单一系统-单元”集群的剩余寿命状态矩阵表达式为

矩阵中的元素

表示集群系统运行至时间τ₁时，单一系统k_n中单元u_m的剩余寿命状态。

例：设分析对象为一个包含10个单一系统的集群系统，每个单一系统包含6个单元，集群系统运行100天时进行预防性维修，假设此时“单一系统-单元”集群的剩余寿命状态矩阵表达式为

矩阵中的元素

表示集群系统运行100天时单一系统k₁中单元u₁的剩余寿命状态是0.906。

步骤二：集群系统可靠性评估。

定义R为全寿命周期的可靠度，当集群系统运行至时间τ时，单元u_(m,n)的可靠度可以表示为R_mn(τ)，同时单一系统k_m的可靠度可以表示为R_m(τ)，集群系统的“单一系统-单元”的集群可靠度可以表示为R_fleet(τ)，则集群可靠度的计算方式如下

其中g(R_m(τ))表示单一系统k_m的的可靠度函数；h(R_mn(τ))表示单元u_(m,n)的可靠度函数；

表示当集群系统运行至时间τ时，单元u_(m,n)的剩余寿命状态

不小于剩余寿命状态阈值

的概率；

表示单元u_(m,n)的剩余寿命概率密度函数，τ₀为集群系统运行初始时刻，τ₁为集群系统进行预防性维修的时刻。

步骤三：基于深度神经网络的预防性维修策略预测。

(1)神经网络输入信息：

ResNet输入特征矩阵：即当前的“单一系统-单元”集群剩余寿命状态矩阵S^RUL。预防性维修策略生成过程的初始时刻，“单一系统-单元”集群的剩余寿命状态矩阵表达式为

矩阵中的元素

表示初始时刻单一系统k_n中单元u_m的剩余寿命状态，即步骤一中集群系统运行至时间τ₁时该单元的剩余寿命状态。

预防性维修策略生成过程进行至t时刻时，“单一系统-单元”集群的剩余寿命状态矩阵表达式为

矩阵中的元素

表示t时刻元素k_n中单元u_m的剩余寿命状态。

(2)神经网络输出信息：

包括“单一系统-单元”集群的先验集群维修概率p和一个先验集群预防性维修策略价值v。

a)“单一系统-单元”集群在预防性维修策略生成过程t时刻的先验集群维修概率p_t，记为：

矩阵中的元素

表示在预防性维修策略生成过程t时刻，对单一系统k_n中单元u_m执行维修动作的概率。

b)先验集群预防性维修策略价值v_t是一个归一化参数，预测预防性维修策略生成过程t时刻的集群剩余寿命满足恢复程度的评估值。

(3)神经网络结构：

选用的神经网络结构：包括卷积模块、残差模块、ReLU函数模块等。

例：设计的ResNet如图2所示，输入特征矩阵

由一个深度残差模块进行处理，深度残差模块包括一个单独的卷积模块和堆叠多个残差模块的中间层模块构成：

a)单独的卷积模块：

①由128个3×3的滤波器组成的卷积层，步长为1；

②ReLU函数层；

b)中间层模块：通过堆叠残差模块构造ResNet的中间层(以堆叠9层残差模块为例)，残差模块包括以下结构：

①卷积模块：含有一个由128个3×3的滤波器组成的卷积层，步长为1；

②归一化模块：通过一个Sigmoid函数获得0～1之间归一化的权重；

③Short-Cut模块：当前残差模块对其输入和其内部卷积模块的输出执行特征提取操作。

深度残差模块的输出分为价值模块和策略模块两部分：

c)价值模块：

①由1个1×1的滤波器组成的卷积层，步长为1；

②规模为128的线性全连接层；

③ReLU函数层；

④线性全连接层；

⑤Sigmoid输出层：输出一个在区间(0,1)上取值的标量值。

d)策略模块：

①由2个1×1的滤波器组成的卷积层，步长为1；

②ReLU函数层；

③全连接输出层：输出大小为m×n的特征张量，对应“单一系统-单元”集群p_t的分对数；

上述神经网络预测模型的表达式为

θ_i是第i次预防性维修策略生成过程ResNet模型的网络参数，初始网络参数θ₀通过随机初始化得到。

假设集群系统运行100天时进行预防性维修，则此时集群系统的剩余寿命状态矩阵S_RUL(τ₁＝100)即为预防性维修策略生成过程初始时刻的ResNet输入特征矩阵，其表达式为

矩阵中的元素

表示预防性维修策略生成过程初始时刻单一系统k₁中单元u₁的剩余寿命状态是0.906。

步骤四：基于蒙特卡洛树搜索算法的预防性维修策略搜索。

蒙特卡洛树搜索算法利用步骤三中ResNet输出的先验集群维修概率p_t作为搜索权重，避免直接全局搜索预防性维修策略的解空间，导致出现组合爆炸问题。基于先验概率p_t进行策略空间的局部搜索同样能得到全局最优预防性维修策略，依据树搜索得到优化的维修概率矩阵π_t，执行当前最优维修动作a^t，当前的“单一系统-单元”集群剩余寿命S_t转移至下一时刻集群状态，蒙特卡洛树搜索算法的表达式为

集群剩余寿命状态S^RUL作为蒙特卡洛树搜索算法的树节点，该节点扩展的所有边(S^RUL,a)对应该节点下一步所有的维修动作a∈Action(S^RUL)，每条边(S^RUL,a)存储一组统计数据，如下所示：

Data(S^RUL,a)＝{N(S^RUL,a),W(S^RUL,a),Q(S^RUL,a),P(S^RUL,a)}

其中，N(S^RUL,a)表示该条边的被访问次数；W(S^RUL,a)表示该条边对应的维修动作的价值总和；Q(S^RUL,a)表示该条边对应的维修动作的平均价值；P(S^RUL,a)表示选择边(S^RUL,a)的先验概率。

在剩余寿命输入特征矩阵

的条件下，基于ResNet输出的先验参数(p_t,v_t)，执行蒙特卡洛树搜索算法的搜索维修动作解空间，如图3所示，其搜索过程主要包括4个步骤：

(1)选择

首先，选择t时刻的剩余寿命

作为搜索树的根节点，根节点记为

蒙特卡洛树搜索过程从根节点开始，直到进行至L时刻到达搜索树末端的叶子节点

时截止。在第l时刻(1≤l＜L)，根据当前节点

的每条边存储的统计数据选择一个维修动作a_l，可表示为

其中

是一个中间变量，引用了一种改进的PUCT算法，可表示为

其中c_puct是一个由蒙特卡洛树搜索程度决定的常数；这个搜索控制策略最初倾向与选择具有较高先验概率和较低访问次数的动作a，但是随着搜索的进行会更加倾向选择具有较高行动价值的动作。

(2)扩展与评估

将叶子节点

作为集群剩余寿命的输入特征张量，输入至ResNet得到扩展叶子节点的边

需要存储的统计数据，这个操作可以表示为

完成上述操作之前，此条搜索线程一直处于锁死状态。当叶子结点

继续扩展的时候，它的每一条边

存储的统计参数初始化，可以表示为

(3)回溯

统计数据沿着搜索线程访问所有边，由叶子节点向根节点回溯传输，更新并存储于搜索树边中。回溯过程中，边

存储的访问次数参数更新一次，可以表示为

同时，该边

的维修动作价值总和和平均价值参数也更新一次，可以表示为

(4)执行

通过迭代上述三个操作，完成一定次数树搜索之后，得到一个优化的集群维修概率矩阵π_t，并据此选择t时刻最佳维修动作a^t，集群剩余寿命状态

转移至

π_t中的元素π可以表示为

其中τ是一个控制搜索进程的温度参数。

搜索树在接下来的预防性维修策略生成过程中继续使用，每次执行最佳维修动作a^t之后达到的子节点成为新的搜索树根节点，保留该节点的所有边，同时删除上一个根节点的其余边。

基于蒙特卡洛树搜索算法执行一定次数的搜索操作遍历预防性维修策略解空间，最终可得到t时刻的最佳维修动作a^t和优化的维修概率矩阵π_t，其表达式为

例：由步骤一、步骤二和步骤三得到一组

之后，蒙特卡洛树搜索算法搜索遍历预防性维修策略解空间，得到一个优化的M×N维修概率矩阵可以表示为

选择其中维修概率最大的单元执行维修动作，t时刻全局最佳维修动作

将对单一系统k₂的单元u₂执行维修动作，完成之后t时刻集群剩余寿命转移至预防性维修策略生成过程t+1时刻。

步骤五：检验集群系统恢复程度。

预防性维修策略生成过程的t时刻，通过执行步骤三和步骤四，得到当前时刻的最佳维修动作，执行后集群剩余寿命状态

由奖励函数计算一个奖励值z对预防性维修策略生成过程进行评估，基于奖励值和预防性维修策略生成过程产生的T个维修动作，作为最新的强化学习经验参数，ResNet以最小化预测的评估值v与策略生成过程结束的奖励值z之间的误差，以及最大化先验维修概率p与优化的维修概率π之间的相似度为目标，利用梯度下降方法训练网络参数θ，其损失函数可以表示为

loss＝(z-v)²-π^Tlogp+c||θ||²

ResNet参数训练完成后，得到一个新的ResNet用于下一次预防性维修策略生成过程。通过训练神经网络可为蒙特卡洛树搜索提供更好的搜索方向。

步骤六：输出预防性维修策略。

PM＝f_PM(a¹,a²,…,a^T)＝1×a¹+2×a²+…+T×a^T

计算集群系统可靠性水平的恢复程度。

例：以步骤一中运行100天时的集群系统为案例，此时该集群系统的10×6“单一系统-单元”集群剩余寿命状态为S_RUL(τ₁＝100)，假设在预防性维修策略生成过程一共执行了5次维修动作

则生成的预防性维修策略可以表示为

该预防性维修策略表示按照维修时序，依次对下列单元执行维修动作：单一系统k₇的单元u₂，单一系统k₃的单元u₆，单一系统k₆的单元u₆，单一系统k₂的单元u₅，单一系统k₁₀的单元u₄。

Claims

1.基于深度强化学习的集群系统预防性维修方法，其特征在于：它包含以下步骤：

第一步：集群系统退化状态描述：根据退化状态建立集群系统“单一系统-单元”集群的剩余寿命状态矩阵。

第二步：集群系统可靠性评估：基于集群系统“单一系统-单元”集群剩余寿命状态，评估集群系统可靠性水平。

第三步：基于深度神经网络的预防性维修策略预测：设计一个神经网络预测集群系统“单一系统-单元”集群的先验维修概率和先验维修策略价值。

第四步：基于蒙特卡洛树搜索算法的预防性维修策略搜索：构建预防性维修策略求解算法架构，遍历预防性维修策略解空间，选择一系列最佳维修动作。

第五步：检验集群系统恢复程度：基于集群剩余寿命状态的变化计算集群系统可靠度，然后检验集群系统恢复程度。

第六步：输出预防性维修策略：由预防性维修策略求解过程存储的一系列最佳维修动作生成一个完整的预防性策略。

通过以上步骤，给出了一种基于深度强化学习的预防性维修方法，可以解决集群系统长期运行过程中进行“单一系统-单元”集群的预防性维修问题。

2.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法，其特征在于：在第一步中所述的“集群系统退化状态描述”中，基于集群系统“单一系统-单元”集群剩余寿命状态，评估集群系统可靠性水平。

表示单元u_(m,n)在长期运行过程中的剩余寿命的退化状态。

3.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法，其特征在于：在第二步中所述的“集群系统可靠性评估”中，基于集群系统“单一系统-单元”集群剩余寿命状态，评估集群系统可靠性水平。

4.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法，其特征在于：在第三步中所述的“基于深度神经网络的预防性维修策略预测”中，设计一个深度残差网络(Residual Networks，ResNet)通过提取集群系统的集群剩余寿命特征，预测“单一系统-单元”集群的先验维修概率矩阵p和先验集群预防性维修策略价值v。

5.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法，其特征在于：在第四步中所述的“基于蒙特卡洛树搜索算法的预防性维修策略搜索”中，以提高集群系统“单一系统-单元”集群退化程度的恢复水平，以维修费用作为约束，构建预防性维修策略的优选迭代体系。设计一种基于深度强化学习的预防性维修决策框架，利用神经网络提供先验信息，通过蒙特卡洛树搜索算法搜索优化的预防性维修策略。

6.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法，其特征在于：在第五步中所述的“检验集群系统恢复程度”中，预防性维修策略生成过程的t时刻，通过执行步骤三和步骤四，得到当前时刻的最佳维修动作，执行后集群状态

7.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法，其特征在于：在第六步中所述的“输出预防性维修策略”中，由预防性维修策略生成过程存储的一系列最佳维修动作{a¹,a²,…,a^T}生成一个完整的预防性维修策略，可以表示为

PM＝f_PM(a¹,a²,…,a^T)＝1×a¹+2×a²+…+T×a^T

计算集群系统可靠性水平的恢复程度。