CN115525038A

CN115525038A - 一种基于联邦分层优化学习的设备故障诊断方法

Info

Publication number: CN115525038A
Application number: CN202211319431.5A
Authority: CN
Inventors: 刘晶; 王晓茜; 季海鹏; 吕华; 董永峰
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2022-12-27

Abstract

本发明公开了一种基于联邦分层优化学习的设备故障诊断方法，包括下述步骤：S1：对工厂客户端进行分层初始化，根据训练速度划分不同的层；S2.对工厂设备数据进行去噪、归一化等预处理；S3.在工厂客户端中建立故障诊断模型，进行本地个性化更新训练，计算每层工厂客户端权值；S4.中心服务端利用迭代阈值的局部聚合模型，动态控制各层迭代，并根据权值进行局部加权聚合生成层局部模型；S5.中心服务端计算局部模型权重完成中心聚合，生成新参数下发至工厂客户端，直至完成所有迭代。本发明针对工业设备数据质量与训练效率差异性问题，能够提升故障诊断准确率与训练效率，具有良好的鲁棒性，满足多工厂高效设备故障诊断的工业需求。

Description

一种基于联邦分层优化学习的设备故障诊断方法

技术领域

本发明涉及工业设备故障诊断及联邦学习技术领域，具体涉及一种基于联邦分层优化学习的设备故障诊断方法。

背景技术

随着工业设备日趋大型化、复杂化，其故障诊断越来越重要。与此同时，工业物联网技术的发展使得基于数据驱动的设备故障诊断方法得到广泛研究，比如神经网络、支持向量机、贝叶斯和决策树等，上述方法虽然取得了较好的研究效果，但是其训练性能依赖于数据质量与数量。而工业领域中，单一工厂数据量较小，难以涵盖全部故障类型，使得故障数据受到局限。为进一步提升故障诊断精度，需要对不同工厂的多源数据进行融合，但是企业间由于数据隐私和安全要求无法共享数据，因此如何在保护数据隐私的前提下解决多工厂模式的故障诊断十分重要。

联邦学习由谷歌首次提出，使用局部数据收集和最小化原则，降低传统中心化机器学习方法带来的系统性隐私风险和成本，有效解决分布式训练数据隐私问题，并在诸多领域中得到研究与应用。在金融领域，例如文章[Zheng等.Federated Meta-Learning forFraudulent Credit Card Detection.[C],IJCAI 2020.2020:4654-4660]提出基于联邦元学习改进的tripletlike 度量学习欺诈信用卡检测方法，实现不同银行间联合高效的多源数据交互。在工业领域中，例如文章[Li等，Deep Learning-Based Partial DomainAdaptation Method on Intelligent Machinery Fault Diagnostics.[J].IEEETrans.Ind.Electron., 2021,68(5):4351-4361]针对工业设备数据隐私性与强时序性问题，提出一种设备深度异常检测方法，优化联邦学习对于工业时序数据的诊断性能并具有良好的泛化性；例如文章[Geng等.Bearing fault diagnosis based on improvedfederated learning algorithm[J].Computing,2022,104(1):1-19]针对设备数据质量问题提出一种用于轴承故障诊断的联邦学习算法FA-FedAvg，提高本地模型训练质量，加速模型收敛，在不同类别和数据量下具有良好的鲁棒性。

上述研究都取得了较好效果，但实际工业应用中，不同工厂设备资源与数据存在异构性，影响联合故障诊训练效率与准确率。目前，针对联邦学习异构性问题的研究主要分为设备资源异构和数据异构两方面。针对设备资源异构问题，例如文章[Nishio等.Clientselection for federated learning with heterogeneous resources in mobile edge.[C].In ICC 2019-2019 IEEE International Conference on Communications(ICC),pages 1-7,2019]提出一种基于边缘计算的FedCS协议，根据设备资源进行客户端选择，具有良好的通信效率和收敛速度；例如文章[Liu等. No One Left Behind:InclusiveFederated Learning over Heterogeneous Devices.[C].KDD’22:The 28th ACM SIGKDDConference on Knowledge Discovery and Data Mining,Washington,DC,USA,August14-18,2022.2022:3398-3406]提出InclusiveFL框架，为不同计算能力的客户端分配不同复杂度的模型，利用知识蒸馏策略进行异构客户端间的知识共享，能够有效提升联邦学习训练性能。针对数据异构问题，例如文章[贺文晨等.基于DRL的联邦学习节点选择方法[J].通信学报,2021,42(06):62-71]提出基于深度强化学习的联邦学习节点选择方法，高效调度终端设备完成模型聚合，优化模型准确率与训练时延；例如文章[Yoshida 等.Hybrid-FLfor Wireless Networks:Cooperative Learning Mechanism Using Non-IID Data[C].ICC 2020-2020 IEEE International Conference on Communications.IEEE,2020,1-7]针对非独立同分布数据提出混合联邦学习机制，通过启发式算法增加聚合数据量，提升联邦学习模型准确率。上述方法有效提升了异构环境中传统联邦学习的训练性能。但是，在设备故障诊断领域中，上述方法忽略了不同工厂故障数据质量差异与本地训练效率差异问题。首先，实际工业生产中故障数据标注困难，故障特征难以提取，导致不同工厂数据质量存在更多差异性，影响联合故障诊断准确率；其次，不同工厂由于工况和计算资源差异性较大，导致本地训练效率不同，造成联合诊断聚合延迟问题。

发明内容

针对以上问题，提出一种基于联邦分层优化学习的设备故障诊断方法，该方法能够在多工厂模式下进行高效的设备故障诊断，提升多工厂联合诊断的训练效率与准确率，并具有良好的鲁棒性。

为解决上述技术问题，本发明所采取的技术方案是：

一种基于联邦分层优化学习的设备故障诊断方法，包括下述步骤：

S1：分层初始化：将所有工厂客户端进行分层初始化处理，根据训练速度划分为不同的工厂客户端层；

S2：数据处理：所有工厂客户端对设备数据进行采集、去噪、归一化等预处理，并划分训练集与测试集；

S3：客户端本地个性化训练：在工厂客户端中建立卷积神经网络故障诊断模型，由卷积层、最大池化层、relu激活函数、全连接层和softmax分类函数输出层构成。利用故障诊断模型对预处理后的数据进行本地个性化更新训练，并计算每层中工厂客户端的权值；

S4：各层局部聚合：中心服务端利用迭代阈值的局部聚合模型，对每层的训练次数进行动态控制，当达到迭代阈值时，本轮迭代停止，各层将本地参数上传至中心服务端，并根据权值进行局部加权聚合生成层局部模型；

S5：中心模型参数聚合：中心服务端计算层局部模型权重完成中心聚合，生成新一轮的参数下发至工厂客户端；

进一步的，所述步骤S1中，对所有客户端进行分层初始化：根据训练速度将所有客户端划分为层{tier₁,tier₂,…,tier_m}，m表示划分层数，其中下标越大的层，训练速度越慢；

进一步的，所述步骤S3中，工厂客户端利用本地个性更新选择算法进行本地故障诊断，包括以下步骤：

1-3)设置卷积神经网络作为故障诊断训练模型，由1×3卷积层、1×3最大池化层、relu激活函数、全连接层和softmax分类函数输出层构成。

1-4)多工厂联合训练过程中，故障诊断模型的训练目标为：

其中，参与训练的工厂客户端总量为N，F_k(w)表示客户端k的本地优化目标，

表示客户端k经过数据处理后的本地数据集，i表示客户端k中每条数据，n_k表示数据集大小，

为其损失函数，w表示其本地模型参数，n表示此轮数据集总量。

1-3)在工厂客户端本地更新过程中，本地个性更新选择算法通过加入偏移程度约束函数，修正本地模型更新方向，使其更接近于中心模型，修正后的本地优化目标为：

其中，λ为超参数，

为上一轮全局模型参数，n_k表示客户端k数据集大小，

为其损失函数，w表示此轮本地模型参数，n表示此轮数据集总量。

1-4)在客户端参数上传过程中，将本地训练结果作为指标，计算本次迭代的工厂客户端权值，并选择诊断准确率与偏移距离较好的工厂客户参与层局部模型聚合，提升优质客户端参与度与联合诊断准确率。工厂客户端局部聚合权重为：

其中

表示工厂客户端k在第r轮全局迭代中的训练准确率，

表示全局模型参数

和工厂本地参数

余弦相似度，用于衡量本地模型的偏移程度，如下式所示：

进一步的，所述步骤S4中，采用基于迭代阈值的局部聚合模型，减少不同工厂工况、计算资源、数据量差异环境下的中心聚合延迟等待问题，提升联合故障诊断效率，包括以下步骤：

2-1)基于迭代阈值的局部聚合模型分为基于阈值动态迭代算法与局部模型加权聚合算法两部分。

2-2)基于阈值动态迭代算法执行过程中，首先假设中心模型迭代次数为N，经过分层处理后的工厂客户端分为层{tier₁,tier₂,…,tier_m}，m表示划分层数，其中下标越大的层，训练速度越慢。

2-3)为最慢层tier_m设置此轮训练最小迭代次数L、最大迭代次数H与诊断精度差阈值μ。当tier_m层的迭代次数等于最大迭代次数或者精度差达到阈值则通知中心服务端此轮迭代停止，迭代停止阈值满足条件为：

其中，T^r代表此轮统一停止迭代时间，

表示tier_m层第r轮的迭代次数，

表示tier_m层第r轮的诊断准确率。

2-4)局部模型加权聚合算法执行过程中，首先根据工厂客户端本地参数进行各层局部聚合，然后计算层局部模型聚合权重，最后完成中心模型聚合。层局部聚合表示为：

其中，tier_m代表划分的不同层级，共有m层，各层的局部模型表示为

为各层所选择的参与聚合的工厂客户端数量，

为该层参与聚合所有工厂客户端样本数量总和，

为经过本地个性更新选择方法模型客户端本地参数，n_i为工厂本地样本数量。

2-5)最后进行中心聚合，中心模型聚合表示为：

其中，m表示客户端层总层数，i表示其中一层编号，

表示根据迭代轮次

确定的tier_i层局部模型权重，控制层模型权重平衡迭代次数差异，减少因层模型迭代轮次不同对中心聚合偏移的影响。

表示根据各层模型训练的平均精度

确定的tier_i层聚合权重，提升训练质量较高的层局部模型参数所占权重，进一步提升中心模型诊断准确率。

与

进行归一化处理后分别表示为：

其中，m表示客户端层总层数，i和j表示其中一层编号，

表示tier_j层迭代次数，

表示tier_j层平均诊断精度。

2-6)中心服务端完成中心聚合后，得到本轮的全局模型参数，下发至各层的工厂客户端，进行下一轮的迭代训练。

采用上述技术方案所产生的有益效果在于：

本发明提出的一种基于联邦分层优化学习的设备故障诊断方法(EquipmentFault Diagnosis Method Based On Federated Hierarchical Optimization Learning，FD-FHOL)，针对工业设备数据质量差异性与不同工厂本地训练效率差异导致联合诊断聚合延迟的问题，本发明基于本地个性更新选择方式进行本地更新，并通过局部聚合与动态迭代控制联合故障诊断迭代过程，通过这两个方面进行改进。本发明通过个性化更新修正工厂本地模型偏移程度，动态调整设备权值，能够有效筛选恶意数据，减少数据质量差异性的影响，提升联合故障诊断准确率与鲁棒性；本发明通过基于迭代阈值的局部聚合模型，动态迭代减少中心聚合次数与延迟时间，利用局部模型加权聚合减少模型偏移，减少中心聚合延迟问题，进而提升联合训练效率。

本发明在数据差异性环境下，与传统的联邦学习与分层方法相比：(1)由于传统联邦学习的平均聚合算法忽略工厂客户端本地更新偏移问题导致诊断准确率降低，本发明中本地个性更新算法通过减少本地偏移同时增加工厂客户端本地训练效果作为聚合权重，进一步提升诊断准确率；(2)传统联邦学习利用随机选择客户端方式导致聚合延迟问题更加严重，本发明基于阈值迭代的局部聚合模型通过局部聚合与动态迭代的方式，动态分配迭代次数，减少整体训练时间，有效提升训练效率；(3)普通分层算法通过工厂客户端分层方式能够减少聚合延迟问题，但是未对数据质量差异性较大情况下的工厂客户端进行筛选，进而导致恶意数据节点参与中心聚合的概率增加，导致诊断准确率低，本发明的本地更新选择算法过程中通过计算权重进一步筛选优质客户端参与局部聚合，能够减少数据质量差异与恶意数据的影响，在数据质量差异较大时能够保持良好的训练准确率与鲁棒性。

将本发明提出的方法应用于美国西储大学故障轴承数据集，通过试验分析，验证了提出的基于联邦分层优化学习的设备故障诊断方法具有较高的准确率、训练效率与鲁棒性。通过对比模拟不同数据量、不同计算资源、不同数据质量情况下本算法与FedAvg、TiFL的性能，在不同的客户端抽样比例下，本发明所提出方法的联合故障诊断准确率度与训练效率比其他两种方法均有明显的提升，除此之外，本发明能够减少数据质量差异与恶意数据的影响，在数据质量差异较大时能够保持良好的训练准确率与鲁棒性。进一步验证了本发明提出的方法具有良好的训练效率和准确率，并在数据质量差异性情况下仍能进行高效健壮的故障诊断。

附图说明

图1是基于联邦分层优化学习的设备故障诊断方法架构图；

图2基于迭代阈值的局部聚合模型图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细的说明。

本发明以工业设备故障诊断及联邦学习架构为载体，以本地个性更新算法和基于阈值迭代的局部聚合模型作为主要的算法框架，其模型如图1所示，包括下述步骤：

S1：分层初始化：将所有工厂客户端进行分层初始化处理，根据训练速度将所有客户端划分为层{tier₁,tier₂,…,tier_m}，m表示划分层数，其中下标越大的层，训练速度越慢；

S3：客户端本地个性化训练：在工厂客户端中建立卷积神经网络故障诊断模型，由卷积层、最大池化层、relu激活函数、全连接层和softmax分类函数输出层构成。利用故障诊断模型对预处理后的数据进行本地个性化更新训练，并计算每层中工厂客户端的权值，包括以下步骤：

1-1)设置卷积神经网络作为故障诊断训练模型，由1×3卷积层、1×3最大池化层、relu激活函数、全连接层和softmax分类函数输出层构成。

1-2)多工厂联合训练过程中，故障诊断模型的训练目标为：

其中，λ为超参数，

为上一轮全局模型参数，n_k表示客户端k数据集大小，

其中

表示工厂客户端k在第r轮全局迭代中的训练准确率，

表示全局模型参数

和工厂本地参数

余弦相似度，用于衡量本地模型的偏移程度，如下式所示：

S4：各层局部聚合：中心服务端利用迭代阈值的局部聚合模型，对每层的训练次数进行动态控制，当达到迭代阈值时，本轮迭代停止，各层将本地参数上传至中心服务端，并根据权值进行局部加权聚合生成层局部模型，包括以下步骤：

其中，T^r代表此轮统一停止迭代时间，

表示tier_m层第r轮的迭代次数，

表示tier_m层第r轮的诊断准确率。

其中，各层的局部模型表示为

为各层所选择的参与聚合的工厂客户端数量，

为该层参与聚合所有工厂客户端样本数量总和，

2-5)最后进行中心聚合，中心模型聚合表示为：

其中，m表示客户端层总层数，i表示其中一层编号，

表示根据迭代轮次

表示根据各层模型训练的平均精度

与

进行归一化处理后分别表示为：

其中，m表示客户端层总层数，i和j表示其中一层编号，

表示tier_j层迭代次数，

表示tier_j层平均诊断精度。

S5：中心模型参数聚合：中心服务端生成新一轮的参数下发至工厂客户端；

基于上述步骤，本发明有效解决工业设备数据质量差异性问题与不同工厂本地训练效率差异导致联合诊断聚合延迟的问题，提出一种基于联邦分层优化学习的设备故障诊断方法。首先，针对工业设备数据质量差异性问题，提出本地个性更新选择算法，通过个性化更新修正工厂本地模型偏移程度，动态调整设备权值，能够有效筛选恶意数据，提升联合故障诊断准确率与鲁棒性。其次，针对不同工厂本地训练效率差异导致联合诊断聚合延迟问题，提出基于迭代阈值的局部聚合模型，通过动态迭代减少中心聚合次数与延迟时间，利用局部模型加权聚合减少模型偏移，进而提升联合训练效率。

本发明基于联邦分层优化学习的设备故障诊断方法方法的试验验证：

1、试验环境

本发明搭建的试验平台主要在MacOS操作系统上进行，设备的配置信息：CPU1.4GHZ，运行内存16.0GB，使用编程语言Python3.6，采用TensorFlow、Keras 框架进行试验。

2、试验验证

在凯斯西储大学轴承数据集上的实验结果与分析

(1)数据集描述

实验数据来源于美国凯斯西储大学(CWRU)电气工程实验室的轴承故障诊断数据集。轴承通过电火花加工技术在轴承上对内圈、外圈和滚动体布置了3种故障等级的单点故障，故障直径分别为0.007、0.014、0.021英寸。

实验数据集如表1所示，本实验选取采样频率为12kHZ状态下，驱动端在负载为0HP，1HP，2HP，3HP时的数据进行仿真实验，划分为10类故障类型，每种类型包含20000条数据，每条数据采样长度为2048个数据点。将数据集打乱后按照7:3比例划分数据集与测试集，按照预设数据量对实验数据集进行随机采样模拟客户端的本地数据集。

实验设置客户端总数为50，根据训练速度将客户端根据分为5层，每层10 个客户端，层编号为{tier₁,tier₂,…,tier₅}，训练时长逐层增加。

实验中使用卷积神经网络作为训练模型，由1×3的卷积层、1×3最大池化层、relu激活函数、全连接层和softmax分类函数输出层构成。

表1实验数据集描述

(2)对比实验结果分析

为验证FD-FHOL训练性能，通过模拟各工厂不同数据量与不同计算资源环境进行对比实验，选择FedAvg、TiFL算法作为对比算法，设置Epoch＝40，对比不同客户端抽样比例下的训练准确率、训练时间，实验结果如表2，3所示。其中表2表示模拟各层数据量差异的对比实验结果，设置不同层的工厂数据量从 1000至6000逐层递增。实验结果如表2所示。

表2不同数据量训练性能对比影响分析表

通过表2可知，在不同客户端抽样比例情况下，本发明FD-FHOL方法和TiFL 方法的训练准确率均高于FedAvg方法，在低抽样比例2％、4％中提升更为显著，且FD-FHOL方法在大部分抽样比例中准确率均高于其他两种方法，由于传统联邦学习的平均聚合算法忽略工厂客户端本地更新偏移问题导致诊断准确率降低，本算法通过减少本地偏移同时增加工厂客户端本地训练效果作为聚合权重，进一步提升诊断准确率。同时FD-FHOL方法和TiFL算法训练时间均比FedAvg算法有明显减少，尤其在抽样比例较大情况下比如15％、20％比例中，说明抽样比例增大时，数据量大的工厂客户端参与联合训练的几率增大，FedAvg算法中随机选择客户端导致的聚合延迟问题更加严重，TiFL算法通过工厂客户端分层方式能够减少聚合延迟问题，但是每轮训练中工厂客户端的迭代次数固定增加了整体的训练时间，而FD-FHOL方法通过局部聚合与动态迭代的方式，动态分配迭代次数，减少整体训练时间，有效提升训练效率。

表3表示模拟计算资源差异环境下对比实验结果，实验设置各层的工厂客户端数据量均为2000左右，并设置各层的训练时间逐层递增10s，如层tier₁增加 0s，层tier₂增10s…层tier₅增加40s，以此模拟不同计算资源的工厂客户端训练环境。

表3不同计算资源环境下训练性能对比影响分析表

通过表3可知，在不同客户端抽样比例情况下，本发明FD-FHOL方法训练准确率相比FedAvg方法有显著提升，并在三种方法中始终保持最高的故障诊断准确率和较短的训练时间，说明在数据量相似情况下，传统的联邦学习由于整体样本数量较小使故障特征提取更加困难，导致诊断准确率明显低于其他两种方法，同时由于随机选择方法选择优质客户端的比例不稳定，尤其在低抽样比例中准确率显著低于其他两种方法，而本发明方法与TiFL方法能够在训练中兼顾不同工厂客户端的参与，所以保持较高的准确率。此外，本发明的动态迭代方式能够动态协调不同训练时间的工厂客户端进行不同轮次的迭代，进一步提升不同计算资源情况下的联合训练效率。

为验证本发明方法在数据质量差异环境下的训练性能，设计测试工厂客户端不同数据质量情况下三种方法的对比实验，在抽样比例为10％情况下，对所有客户端中随机加入10％、30％、50％故障特征与故障类型错误匹配的恶意数据节点，三种方法的训练准确率表现如表4所示。

表3. 5工厂客户端不同数据质量训练准确率对比表

由表4可以看出，本发明FD-FHOL方法在不同数据质量情况下准确率均高于其他两种算法，在应对较多恶意数据时仍能保持最高的准确率，不同比例恶意节点代表不同程度数据质量差异性与整体数据样本中数据质量的优劣，随着数据质量差异性增大，整体数据样本中数据质量降低，FedAvg方法与TiFL方法的诊断准确率也明显降低，这是因为两种方法未对数据质量差异性较大情况下的工厂客户端进行筛选，进而导致恶意数据节点参与中心聚合的概率增加，导致诊断准确率低，而FD-FHOL方法在本地更新选择算法过程中通过计算权重进一步筛选优质客户端参与局部聚合，能够减少数据质量差异与恶意数据的影响，证明本方法在数据质量差异较大时能够保持良好的训练准确率与鲁棒性。

综上所述，本发明提出的FD-FHOL方法在数据量及计算资源差异性环境中具有良好的训练效率和准确率，并在数据质量差异性情况下仍能进行高效健壮的故障诊断。

3、结论

针对多工厂联合故障诊断建模中，不同工厂计算资源、数据质量异构性导致本地训练效率差异较大，影响传统联邦学习联合诊断效率与准确率的问题，提出基于联邦分层优化学习的设备故障诊断方法。首先，针对不同工厂计算资源异构性导致训练效率差异问题，建立设备故障诊断分层架构优化联合诊断效率；其次，针对工业数据质量差异造成本地更新偏移问题，提出本地个性更新选择算法进行工厂本地模型训练与设备选择，进一步提升故障诊断准确率；最后，针对训练效率差异造成中心端聚合延迟问题，提出基于迭代阈值的局部聚合模型进行动态迭代与局部聚合，减少中心迭代次数与延迟时间，提升联合训练效率。实验表明，基于联邦分层优化学习的设备故障诊断方法能够在工业设备数据集中进一步提高多工厂联合诊断的训练效率和准确率，并具有良好的鲁棒性，为多工厂设备故障诊断提供了一种有效的解决方法。

以上对本发明的实例进行了详细说明，但内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。