CN114580546A

CN114580546A - 基于联邦学习框架的工业机泵类故障预测方法及系统

Info

Publication number: CN114580546A
Application number: CN202210220871.9A
Authority: CN
Inventors: 周琨
Original assignee: Lianhong Shandong Chemical Co ltd
Current assignee: Lianhong Shandong Chemical Co ltd
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-06-03

Abstract

本发明提供一种基于联邦学习框架的工业机泵类故障预测方法及系统，包括：获取各个参考设备各自的故障样本数据集；确定各个所述故障样本数据集各自对应的局部故障预测模型；根据各个所述局部故障预测模型，确定目标故障预测模型；根据所述目标故障预测模型，预测目标设备的故障信息；其中，所述目标设备和所述参考设备的相似度满足预测条件。本发明将机泵类设备不同维度的运行特征数据联合起来，并结合每个分区的局部预测模型，得到一个全局故障预测模型。通过多个局部预测模型结果横向对比，在回归率，准确率和鲁棒性等方面，均具有良好的召回率和鲁棒性。且计算效率更高，综合起来具备更优异的表现和适应性。

Description

基于联邦学习框架的工业机泵类故障预测方法及系统

技术领域

本发明属于故障预测技术领域，具体涉及一种基于联邦学习框架的工业机泵类故障预测方法及系统。

背景技术

随着工业大数据行业的蓬勃发展，相关的工业设备越来越多。因此，需要对工业设备进行维护。目前，对工业设备进行检修与维护的方法主要为：通过人工设置检测时间，定期为工业设备进行检查或维护，此种方法具有以下问题：(1)极大浪费人力资源；(2)人工设置检测，具有检测不准确和不全面的问题。所以，如何高效率准确的对工业设备进行故障预测，已经成为保障工业设备正常运行的重要技术手段。

发明内容

针对现有技术存在的缺陷，本发明提供一种基于联邦学习框架的工业机泵类故障预测方法及系统，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种基于联邦学习框架的工业机泵类故障预测方法，包括以下步骤：

步骤S1，获取各个参考设备各自的故障样本数据集；

步骤S2，确定各个所述故障样本数据集各自对应的局部故障预测模型；

步骤S3，根据各个所述局部故障预测模型，确定目标故障预测模型；

步骤S4，根据所述目标故障预测模型，预测目标设备的故障信息；其中，所述目标设备和所述参考设备的相似度满足预测条件。

优选的，步骤1具体为：

步骤S101，获取参考设备的原始故障样本数据集；其中，所述原始故障样本数据集包括多个原始故障样本；每个所述原始故障样本，包括采样时间点对应的多维度的原始特征的原始特征数据以及样本标签；所述样本标签为故障类型或故障概率；

步骤S102，基于符号回归算法，对所述原始故障样本数据集包括的各个原始特征进行特征选取，得到多个目标特征，形成目标特征集；

步骤S103，根据所述目标特征集，对各个所述原始故障样本数据集进行筛选，得到故障样本数据集。

优选的，步骤S2具体为：

步骤S201，服务器确定局部故障预测模型的模型结构，并确定模型结构的初始模型参数值，得到初始的局部故障预测模型；

步骤S202，物联网包括多个节点，选择若干个节点作为参与节点集；

对于每个参与节点，从所述服务器下载得到初始的局部故障预测模型；

步骤S203，所述参与节点，采用本地的故障样本数据集，对所述初始的局部故障预测模型进行模型训练，得到训练完成的局部故障预测模型，从而得到预测模型更新参数值，并将所述预测模型更新参数值上传给所述服务器。

优选的，步骤S3具体为：

步骤S301，服务器接收各个参与节点上传的预测模型更新参数值，并对各个参与节点上传的预测模型更新参数值进行融合，得到初始的目标故障预测模型；

步骤S302，服务器判断是否满足迭代停止条件，如果满足，则步骤S301得到的初始的目标故障预测模型，即为最终的目标故障预测模型；如果不满足，则返回步骤S203，使各个参与节点在本地继续训练上一轮得到的局部故障预测模型；如此不断进行，直到满足迭代停止条件。

优选的，局部故障预测模型的模型结构，采用极限学习机故障预测模型；

所述确定模型结构的初始模型参数值，具体为确定极限学习机故障预测模型的输入层连接权值、隐含层连接权值以及隐含层阈值。

优选的，步骤S203具体为：

步骤S2031，确定模型参数，包括：输入层连接权值A、隐含层连接权值B以及隐含层阈值C；

对输入层连接权值A、隐含层连接权值B以及隐含层阈值C组成的染色体进行二进制编码，得到输入层连接权值A的二进制编码串code(A)、隐含层连接权值B的二进制编码串code(B)以及隐含层阈值C的二进制编码串code(C)；将二进制编码串code(A)、二进制编码串code(B)和二进制编码串code(C)串联，形成一个个体；

步骤S2032，算法参数初始化：生成初始核函数参数和惩罚因子，并设置种群大小以及迭代次数；

随机生成种群中的每个个体的初始值，得到初始个体；

步骤S2033，计算适应度函数：

将初始个体的各个模型参数值赋值给极限学习机故障预测模型，并采用验证数据集进行预测，然后根据预测结果和实际结果，计算各个个体的适应度值；

步骤S2034，个体选择更新：

根据个体的适应度值，计算种群个体的选择概率，并以个体选择概率选择个体；

步骤S2035，计算个体染色体交叉概率；

步骤S2036，计算个体染色体变异概率；

步骤S2037，判断是否终止：

判断是否达到终止条件，如果没有达到，则跳转到步骤S2033。

本发明还提供一种基于联邦学习框架的工业机泵类故障预测系统，包括：

获取模块，用于获取各个参考设备各自的故障样本数据集；

第一模型确定模块，用于确定各个所述故障样本数据集各自对应的局部故障预测模型；

第二模型确定模块，用于根据各个所述局部故障预测模型，确定目标故障预测模型；

预测模块，用于根据所述目标故障预测模型，预测目标设备的故障信息；其中，所述目标设备和所述参考设备的相似度满足预测条件。

本发明提供的基于联邦学习框架的工业机泵类故障预测方法及系统具有以下优点：

本发明提出一种基于联邦学习框架的工业机泵类故障预测方法及系统，将机泵类设备不同维度的运行特征数据联合起来，并结合每个分区的局部预测模型，得到一个全局故障预测模型。通过多个局部预测模型结果横向对比，在回归率，准确率和鲁棒性等方面，均具有良好的召回率和鲁棒性。且计算效率更高，综合起来具备更优异的表现和适应性。

附图说明

图1为本发明提供的基于联邦学习框架的工业机泵类故障预测方法的流程示意图；

图2为本发明提供的基于联邦学习框架的工业机泵类故障预测系统的结构示意图。

图3为本发明提供的基于联邦学习框架的工业机泵类故障预测系统的简图；

图4为本发明提供的极限学习机预测模型的预测流程图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提出一种基于联邦学习框架的工业机泵类故障预测方法及系统，将机泵类设备不同维度的运行特征数据联合起来，并结合每个分区的局部预测模型，得到一个全局故障预测模型。

本发明提供一种基于联邦学习框架的工业机泵类故障预测方法，本发明实施例所提供的方法可应用在电子设备上，具体可以应用于服务器或一般计算机上。本实施例中，所述方法具体包括以下步骤：

参考图1，包括以下步骤：

步骤S1，获取各个参考设备各自的故障样本数据集；

具体地，参考设备可以是任何会发生故障的工业设备，比如，能源设备，能源设备可以是锅炉、汽轮机、内燃机、光伏电站。参考设备的故障样本数据集包括多个时间点各自对应的故障样本，每个故障样本包括对应时间点的特征数据以及标签，特征数据为影响工业设备故障的影响因素数据，此处，标签可以是故障类型或故障概率。不同参考设备发生故障的情况多种多样，因此，需要针对不同参考设备合理设置标签，举例来说，参考设备为燃气锅炉，标签为故障类型，燃气锅炉可能发生的故障类型包括但不限于长时间正压燃烧、风然比失调、燃烧不充分，燃气锅炉可能发生的异常现象包括但不限于烟气重度过高、锅炉压力失调。

步骤1具体为：

具体的，参考设备的原始故障样本数据集为多维度数据，考虑到多维度数据包括大量的特征，这些特征中有很多是无用冗杂的特征，同时无用冗杂的特征可能会增加模型训练的难度，因此，需要从多维度数据中确定出重要特征，从而降低数据维度，降低数据处理的难度。

具体地，原始故障样本数据集包括了大量的特征，具体包括各个时间点的若干个原始故障样本，每个原始故障样本包括对应时间点的特征数据以及标签，特征数据为影响故障信息的影响因素数据，此处，标签可以是故障类型或故障概率。

基于符号回归算法自动筛选出若干个目标特征，基于这些目标特征，构建特征向量，基于特征向量，确定每个参考设备各自的故障样本数据集。其中，符号回归算法，根据给定一组自变量和一组训练数据，找出拟合训练数据的函数关系式，自变量为原始故障样本所对应的特征，训练数据为原始故障样本及其对应的标签，目标特征为函数关系式中的自变量。确定了各个目标特征后，通过各个目标特征分别对应在参考设备中的特征值形成故障样本，通过多个故障样本形成故障样本数据集。

参考图3，步骤S2具体为：

局部故障预测模型的模型结构，采用极限学习机故障预测模型；

具体的，针对每个故障样本数据集，以故障样本数据集中各个故障样本为输入，各自对应的标签为输出进行模型训练，得到局部故障预测模型。应当理解，各个故障样本数据集各自对应的局部故障预测模型的模型结构可以相同，也可以不同，具体需要结合实际情况确定，优选相同。此处，局部故障预测模型的种类包括但不限于线性回归、多元回归、指数回归、弹性神经网络回归、支撑向量机、神经网络、决策树、随机森林、极限学习机等，具体需要结合实际场景确定。优选地，各个局部故障预测模型的模型结构相同，各个局部故障预测模型均为极限学习机，极限学习机的模型精度较高，且计算量较小，能够快速训练出精度较高的局部故障预测模型。

在实际应用中，不同故障样本数据集分布在物联网中的不同节点，直接在本地进行模型训练，确保数据安全。其中，节点能进行数据处理以及数据交互，包括但不限于边缘服务器、边缘网关以及边缘控制器中的任意一种或多种。

在一些可行的实现方式中，包括以下步骤：

确定模型参数，所述模型参数是基于获取的参考设备的故障验证数据集确定；

针对每个故障样本数据集，根据故障样本数据集以及模型参数，对局部故障预测模型进行模型训练，得到训练完成的局部故障预测模型。

考虑到局部故障预测模型中的有些参数在模型训练过程是不会调整的，即模型参数固定，模型参数初始值通常是随机确定的或者是根据经验选定的，容易降低模型精度，举例来说，极限学习机获取初始化权值和阈值是随机的，不能保证网络输出结果和准确率，容易陷入局部最优解，因此，基于获取的故障验证数据集确定模型参数，降低模型参数对模型精度的影响，

然后，针对每个故障样本数据集，根据故障样本数据集以及模型参数，对局部故障预测模型进行模型训练，确定局部故障预测模型，得到的局部故障预测模型考虑了模型训练过程中的模型参数对模型精度的影响，从而具有相对较高的准确性。应当理解的，故障验证数据集和故障样本数据集都是针对参考设备的。

作为一种可能的情况，所述确定模型参数，包括：

以编码后的模型参数作为个体，通过获取的验证数据集和初始的局部故障预测模型，计算个体的适应度值，基于遗传算法确定目标个体；

对目标个体进行解码，确定模型参数的值。具体地，通过遗传算法确定模型参数的初始值。例如，以极限学习机为例，模型参数为输入层与隐含层的连接权值以及隐含层的阈值，采用遗传算法确定极限学习机中的连接权值和阈值。

因此，参考图4，步骤S203具体为：

随机生成种群中的每个个体的初始值，得到初始个体；

步骤S2033，计算适应度函数：

步骤S2034，个体选择更新：

步骤S2035，计算个体染色体交叉概率；

步骤S2036，计算个体染色体变异概率；

步骤S2037，判断是否终止：

判断是否达到终止条件，终止条件可以为：达到最大迭代次数或误差达到某个阈值。

如果没有达到，则跳转到步骤S2033。

该实施例中，个体可以是采用二进制编码方式对染色体进行编码处理后得到的二进制编码串。

本领域技术人员应当理解的，终止条件可以为预设的最大迭代次数，则进一步包括记录全局最优解的迭代更新次数，此时，即可通过判断记录的全局最优解的迭代更新次数是否达到最大迭代次数，最大迭代次数具体需要结合实际情况确定，比如，最大迭代次数可以为100次。终止条件也可以为最优适应度值，即通过判断全局最优个体对应的适应度值是否达到最优适应度值，最优适应度值可以是结合模型的预测误差大小确定。本领域技术人员应当理解的，个体的适应度值具体指的是将个体中对应的连接权值和阈值赋值给极限学习机，并通过该极限学习机确定验证数据集中的数据的预测值，基于预测值和真实值之间的误差，确定适应度值，误差越小，适应度值越大。本领域技术人员应当理解的，全局最优解具体指的是经过若干次迭代更新的种群中适应度值最大的个体，即目标个体。

在一种可能的实现方式中，可以通过非置换式余数随机选择法及轮盘赌策略相结合的方式从种群中选择至少一个遗传个体，该选择过程具体可以是，针对种群中每一个个体，将该个体的适应度值与种群中各个个体的适应度值之和的比值确定为选择概率，将预设遗传个体总数与选择概率的乘积确定为期望后代数量，期望后代数量包括整数部分及余数部分，复制出与预设期望后代数量的整数部分相等的该个体，并将多个该个体确定为遗传个体；对于每个期望后代数量的余数部分，通过轮盘赌策略的方式继续从各个个体中选择出遗传个体直到遗传个体的总数达到预设遗传个体总数，从而实现遗传个体的选择过程。

需要说明的是，交叉处理的过程具体可以是，以从选择出的各个遗传个体中随机选择两个遗传个体为例，假设根据交叉率决定这两个遗传个体应该进行交叉，之后，确定这两个遗传个体应当交叉的二进制编码串的部位及部分，后续则根据二进制编码串部位及部分对这两个遗传个体进行交叉处理以得到至少两个交叉个体。变异处理的过程具体可以是，以从选择出的各个遗传个体中随机选择一个遗传个体为例，假设根据变异率决定该遗传个体应该进行变异，之后，确定该遗传个体应当变异的二进制编码串的部位及部分，后续则根据二进制编码串部位及部分对该遗传个体进行变异处理以得到至少一个变异个体。可选地，种群规模可以取50，交叉率可以取0.9，变异率可以取0.1。

步骤S3具体为：

该实施例中，对各个局部故障预测模型进行融合，以确定目标故障预测模型。这里，对各个局部预测模型的融合方法可以采用现有技术已经未来开发的模型融合方法，比如，加权表决融合，结果取平均。

在一些可能的实现方式中，通过融合各个局部故障预测模型的信息，对局部故障模型进行迭代，得到较为准确的目标故障预测模型。具体可以通过如下方式确定目标故障预测模型：

获取更新模型参数，所述更新模型参数基于各个所述局部故障预测模型各自的模型参数确定；

根据所述更新模型参数和各个所述故障样本数据集，对各个所述局部故障预测模型进行更新，以调整更新模型参数；

对满足迭代停止条件时的各个局部故障预测模型进行融合，确定目标故障预测模型。

作为一种可能的情况，各个局部故障预测模型的模型结构相同，更新模型参数可以是对各个局部故障预测模型各自的模型参数进行加权平均得到，然后，利用更新模型参数替换各个局部故障预测模型中的模型参数，通过故障样本数据集对其对应的局部故障预测模型进行模型训练，以更新局部故障预测模型，并基于更新后的各个局部故障预测模型调整更新模型参数。这里，迭代停止条件包括迭代次数。

具体地，故障信息包括故障类型和/或故障概率。这里，为了确保故障信息的准确性，目标设备和参考设备之间的相似度应当满足预设条件，预设条件可以为判断目标设备和参考设备之间是否相似的条件，可以设置为目标设备和参考设备之间的相似度不限于预设阈值，在实际应用中，可以从设备类型、设备型号、额定功率、生产厂家、工作环境等方法判断目标设备和参考设备之间的相似度。

作为一种可能的情况，目标设备可以是任意一个参考设备，在实际应用中，不同故障样本数据集分布在物联网中的不同节点，直接在本地进行模型训练，确保数据安全，目标故障预测模型可以基于物联网中的其他节点确定，也可以基于物联网中的目标设备所对应的节点。

作为另一种可能的情况，目标设备中不存在故障样本数据集，比如，目标设备是新设备，或者，目标设备没有发生故障，在实际应用中，不同故障样本数据集分布在物联网中的不同节点，直接在本地进行模型训练，确保数据安全，目标故障预测模型可以是物联网中的目标设备所对应的节点。

通过以上技术方案可知，本实施例存在的有益效果是：得到的目标故障预测模型综合考虑了多个参考设备的故障样本数据集，提高了数据维度，增加了数据量，从而可较为准确的预测目标设备的故障信息。

基于与本发明方法实施例相同的构思，请参考图2，本发明实施例还提供了一种基于联邦学习框架的工业机泵类故障预测系统，包括：

获取模块，用于获取各个参考设备各自的故障样本数据集；

本发明一个实施例中，所述第一模型确定模块，包括：参数确定单元以及第一模型确定单元；其中，

所述参数确定单元，用于确定模型参数，所述模型参数是基于获取的所述参考设备的故障验证数据集确定；

所述第一模型确定单元，用于针对每个所述故障样本数据集，根据所述故障样本数据集以及所述模型参数，对局部故障预测模型进行模型训练，得到训练完成的局部故障预测模型。

本发明一个实施例中，所述参数确定单元，包括：个体确定子单元以及参数确定子单元；其中，

所述个体确定子单元，用于以编码后的模型参数作为个体，通过获取的验证数据集和局部故障预测模型计算所述个体的适应度值，基于遗传算法确定目标个体；

所述标签确定单元，用于对所述目标个体进行解码，确定所述局部故障预测模型的模型参数值。

本发明一个实施例中，局部故障预测模型采用极限学习机。

本发明一个实施例中，所述第二模型确定模块，包括：更新单元、迭代单元以及第二模型确定单元；其中，

所述更新单元，用于获取更新模型参数，所述更新模型参数基于各个所述局部故障预测模型各自的模型参数；

所述迭代单元，用于根据所述更新模型参数，对各个所述局部故障预测模型进行更新迭代；

所述第二模型确定单元，用于对满足迭代停止条件时的各个局部故障预测模型进行融合，确定目标故障预测模型。

本发明一个实施例中，各个所述局部故障预测模型的模型结构相同。

本发明一个实施例中，所述获取模块，包括：第一获取单元、选取单元以及第二获取单元；其中，

所述第一获取单元，用于获取参考设备的原始故障样本数据集；

所述选取单元，用于基于符号回归算法，对所述原始故障样本数据集对应的各个特征进行特征选取，以确定各个目标特征；

所述第二获取单元，用于根据各个所述目标特征，获取各个所述参考设备各自的故障样本数据集。

传统方法，对于机泵类旋转设备不同维度的特征无法有效聚合，增效使用；大量的数据训练模型时间效率较低；数据保密性差。

本发明采用横向联合学习(横向联合学习用于用户重叠度高的场景中)，基本步骤如下：

参与方各自从服务器A下载最新模型；服务器模型通过入参，选择合适的算法，loss损失值最小的结果即为最优结果，可以用来反映对于故障结果预测的准确程度。

每个参与方利用本地数据训练局部故障预测模型，加密梯度上传给服务器A，服务器A聚各参与方的梯度更新模型参数；

传统的机器学习建模中，通常是把模型训练需要的数据集合到一个数据中心，然后再训练模型，之后预测。而本发明采用的横向联邦学习中，可以看作是基于样本的分布式模型训练，分发全部数据到不同的参与方，每个参与方从服务器下载局部故障预测模型，然后利用本地数据训练局部故障预测模型，之后返给服务器需要更新的参数。服务器聚合各个参与方上传的返回参数，更新模型，然后再把最新模型反馈到每个参与方。

本发明选用的故障预测算法是极限学习机算法，其中隐层神经元激活函数采用sigmoid函数，隐层神经元数量是L。其流程如下：

1)随机初始化隐层神经元函数(每个神经元的权值和阈值)；

2)求隐层节点的输出矩阵；

3)求隐层到输出层的输出权值；

4)求预测值、误差值；

由于极限学习机在第一步获取初始化权值和阈值是随机的，不能保证网络输出结果和准确率，容易陷入局部最优解。本发明在进行这一步骤时，采用自适应遗传算法找到最优路径，及时预测输出值和期望值误差最小。

2)服务器A返回更新后的模型给各参与方；

3)各参与方更新各自模型。

本发明的关键点和欲保护点：

关键点：

联邦学习框架在预测模型中的应用；

故障预测模型中极限学习机算法的改进

欲保护点：

联邦学习框架在预测模型中的应用；

故障预测模型中极限学习机算法的改进；

下面介绍一种针对业机泵类故障预测方法的实施例，包括：

a.获取同类型工业机泵中各个参考设备各自的故障样本数据集；

具体包括：

获取参考设备的原始故障样本数据集；

基于符号回归算法，对所述原始故障样本数据集对应的各个特征进行特征选取，以确定各个目标特征；

根据各个所述目标特征，获取各个所述参考设备各自的故障样本数据集。

确定模型参数，所述模型参数是基于已获取的所述参考设备的故障验证数据集确定；

针对每个所述故障样本数据集，根据所述故障样本数据集以及所述模型参数，进行模型训练，确定局部故障预测模型。

各个所述局部故障预测模型的模型结构相同。

其中，确定目标模型中的模型参数，包括：

以编码后的目标模型中的模型参数作为个体，通过获取的验证数据集和所述目标模型计算所述个体的适应度值，基于遗传算法确定目标个体；

对所述目标个体进行解码，确定所述模型参数。

b.确定各个隶属于机泵相关故障样本数据集各自对应的局部故障预测模型；

局部故障预测模型可采用极限学习机模型。

c.根据各个所述局部故障预测模型(针对单个实验对象)，确定目标故障预测模型；

d.根据所述目标故障预测模型，预测目标设备的故障信息，所述目标设备和所述参考设备的相似度满足预测条件。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于联邦学习框架的工业机泵类故障预测方法，其特征在于，包括以下步骤：

步骤S1，获取各个参考设备各自的故障样本数据集；

2.根据权利要求1所述的基于联邦学习框架的工业机泵类故障预测方法，其特征在于，步骤1具体为：

3.根据权利要求1所述的基于联邦学习框架的工业机泵类故障预测方法，其特征在于，步骤S2具体为：

4.根据权利要求3所述的基于联邦学习框架的工业机泵类故障预测方法，其特征在于，步骤S3具体为：

5.根据权利要求4所述的基于联邦学习框架的工业机泵类故障预测方法，其特征在于，局部故障预测模型的模型结构，采用极限学习机故障预测模型；

6.根据权利要求5所述的基于联邦学习框架的工业机泵类故障预测方法，其特征在于，步骤S203具体为：

随机生成种群中的每个个体的初始值，得到初始个体；

步骤S2033，计算适应度函数：

步骤S2034，个体选择更新：

步骤S2035，计算个体染色体交叉概率；

步骤S2036，计算个体染色体变异概率；

步骤S2037，判断是否终止：

7.一种基于联邦学习框架的工业机泵类故障预测系统，其特征在于，包括：

获取模块，用于获取各个参考设备各自的故障样本数据集；