CN114398833A

CN114398833A - 一种基于机构内递归与机构间递归相结合的联邦学习故障诊断方法

Info

Publication number: CN114398833A
Application number: CN202210048322.8A
Authority: CN
Inventors: 周福娜; 濮陈杰; 胡雄; 贾鹏鹏; 王天真
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2022-04-26
Anticipated expiration: 2042-01-17
Also published as: CN114398833B

Abstract

本发明公开了一种基于机构内递归与机构间递归相结合的联邦学习故障诊断方法，旨在解决隶属不同公司风力发电机关键部件监测数据面临的样本结构不一致的问题。这种由于传感器多速率采样、网络随机丢包带来的问题会使得联邦平均方法无法综合来自不同机构的数据。因此，提出了一种联邦学习策略，首先单个机构内划分为采样率不同的数据建立多个参与方模型，然后在联邦中心以资源分配策略将各机构的同一参与方进行联邦，在各机构内通过递归迁移的方式实现参与方内的模型优化。最后把更新之后的相同参与方模型上传到联邦中心进行下一轮的联邦，从而达到利用其他机构信息更新本机构深度学习故障诊断模型的目的，使数据利用更加充分，故障诊断更加准确。

Description

一种基于机构内递归与机构间递归相结合的联邦学习故障诊断方法

技术领域

本发明涉及基于深度学习的齿轮箱故障诊断技术领域，尤其涉及一种机构内递归与机构间递归相结合的联邦学习故障诊断方法，实现基于深度学习的齿轮箱故障诊断。

背景技术

随着现代工业技术的快速发展，旋转机械设备的结构越来越复杂，设备一旦发生故障，如果不能及时发现并处理，将会造成巨大的经济损失和人员伤亡。因此，对旋转机械设备进行准确可靠的实时故障诊断是至关重要的。

常见的故障诊断方法一般分为三类：基于知识驱动的方法、基于模型驱动的方法和基于数据驱动的方法。其中，基于知识驱动的方法和基于模型驱动的方法受限于先验知识的完备性和系统机理模型的精确程度。基于数据驱动的方法不受限于丰富的先验知识和已经建立的精确机理模型，仅仅通过数据挖掘技术获取有用信息，就可以对复杂系统进行故障诊断，目前已成为实用的故障诊断技术。深度学习作为一种有效的数据特征提取工具，有较强的自适应能力。在各种深度学习模型中，堆叠自编码器(Deep Neural Network)是一种主流的深度学习模型，因为其结构简单在序列数据深度抽取中受到广泛关注。

数据隐私安全和数据孤岛问题成为如今机器学习面临的挑战，联邦学习的出现为机器学习打破数据共享屏障提供了新的思路。联邦学习作为一种新兴的人工智能基础技术，允许多个机构协作训练得到一个共享的全局模型。传统的联邦平均方法没有考虑机构间样本结构不一致的问题，这样使用其他子机构学习的模型来优化本地机构的模型参数的效果不佳，使得最终聚合模型在机构数据上的准确率表现出较大差距，甚至会在一部分机构的故障诊断模型上产生负增益。

实际的工业设备健康监控中往往有不同速率采样的传感器，传感器多速率采样、网络随机丢包形成了样本结构不一致的问题，这使得基于深度学习训练的结构完整的样本数量很少，仅利用完整结构的样本进行故障诊断会导致不完整结构样本信息的浪费。不同机构间因为采样周期的不同依然存在着同一时刻机构间样本结构不一致的问题。

因此提供一种效果较好的联邦学习策略来进行故障诊断是本领域技术人员需要研究的问题。

发明内容

针对现有故障诊断方法的数据样本结构不一致，样本利用不充分，导致不能最大效率的利用已有的训练数据进行故障诊断的技术问题，本发明提出了一种机构内递归与机构间递归相结合的联邦学习故障诊断方法，实现机构内递归与机构间递归相结合的联邦学习机制，可以使数据利用更加充分，资源分配更为合理，故障诊断更为准确。

具体的，本发明通过以下方案实虚线上述目的：

一种基于动态资源合理分配策略联邦学习的在线故障诊断方法，其特征在于，包括以下步骤：

S1、建立不同子机构的数据集，所述数据集包括训练集和测试集，所述训练集与测试集均包含完整结构的样本与不完整结构的样本，完整结构的样本为某时刻能获取传感器全部观测值的样本，缺失一个观测值采样及一个以上的观测值采样的样本均为不完整结构的样本。

所述步骤S1包含以下步骤：

S1.1、选取不同故障类型的齿轮箱时域样本数据，并设置不同故障类型标签；

S1.2、对步骤S1.1中所述的一维序列样本数据根据各子机构传感器不同速率采样的特点，制定数据集；

S1.3、对步骤S1.2中所制定的数据集按照一定的比例划分为各机构训练集和测试集；

S2、机构间部分参与方联邦中心模型的搭建，单个机构内根据传感器采样速率的不同，把其划分为m个参与方，其中单个参与方内所有传感器采样率是相同的，选取机构间共同的一个参与方模型参与联邦。

所述步骤S2包含以下步骤：

S2.1联邦中心各机构参与联邦的机构权重与联邦中心模型参数的初始化。

在联邦中心建立联邦模型并随机初始化联邦模型网络参数

其中W’_T0＝{W’_E0,W’_D0}是自编码器编码和解码的权重参数集合，b’_T0＝{b’_E0,b’_D0}是自编码器编码和解码的偏置参数集合，W’_s0,b’_s0是网络模型的Softmax分类器的权重和偏置参数,同时对联邦模型中各子机构的机构权重进行初始化，初始权重为单个机构所拥有的样本数量与所有机构的样本的总数的占比，如公式(12)所示：

其中，

用来表示机构初始权重，n个机构的集合为S＝{S₁,S₂,S₃,...S_n}，其中每个机构的样本数用D_j表示，第j机构的机构初始权重

为单个机构的样本数和总样本数所求。

S2.2根据r-1轮的联邦中心模型参数和联邦权重参数确定联邦中心给子机构的分发的方式,如公式(13-14)所示：

其中

是联邦中心第r轮的模型参数，

是联邦中心第r-1轮的模型参数，

为第r-1的机构权重，

是机构第r-1轮训练一次上传联邦中心的更新梯度，Federated Center是联邦中心,负责第一轮模型和模型参数的保存以及训练过程中各子机构上传的梯度的收集，

是kT+1时刻第r轮第j个子机构参与方1的初始化模型参数；

S2.3机构权重的递归更新，根据动态资源分配策略以r-1轮的机构权重更新第r轮的机构权重。动态资源分配策略即为以机构内同一类参与方的当前采集到的数据与测试集的分布距离为准则更新机构参与联邦的权重，如公式(15-16)所示。

其中，

表示kT+1时刻第j个机构内共同参与方训练数据与测试数据之间的数据差异性程度，由子机构上传得到，f(j)为联邦中心的动态资源分配函数，lr为学习率。其中，

表示第r轮中第j个机构更新的机构权重，

为第r-1轮中第j个机构的机构权重，

为动态资源分配函数对于

的偏导数。

S3、单个参与方模型的训练，根据单个机构内多个参与方间变量的相关性递归学习出其不完整结构样本模型：

所述步骤S3包含以下步骤：

S3.1第r轮训练中利用单个机构内参与方1的数据训练参与方1的网络模型，并保存其模型参数与更新的梯度,如公式(17-18)所示：

其中，Feedforward是生成神经网络的函数，

表示第j个机构中参与方1的数据集，

为第r轮循环训练好的模型参数；

S3.2、将经过步骤S3.1训练好的单个参与方模型参数发送给单个机构内的第一类不完整结构样本模型

如公式(19)所示：

其中，

是网络参数，

W’_Tc为缺失的网络编码参数，随机初始化，b’_Tc为缺失网络向量。随机初始化；

S3.3、利用单个机构内两个参与方的数据训练其第一类不完整结构样本模型

如公式(20)所示：

其中，

是kT+1时刻第j个机构内参与方1与参与方2的数据，

表示第r轮训练好的不完整结构样本网络模型参数，基于两个参与方的数据训练其不完整结构样本模型；

S4、根据单个机构内多个参与方的变量关系，结构完整样本的深度学习模型构建；

所述步骤S4包含以下步骤：

S4.1、利用步骤S3中训练好的第一类不完整结构样本模型

和参与方1，参与方2，参与方3的数据搭建第二类不完整结构样本的深度学习模型

根据参与方的变量进行递归，按照步骤3.2拼接其缺失网络参数,如公式(21)所示：

其中，

是kT+1时刻第j个机构内参与方1、参与方2以及参与方3的数据，

表示第r轮训练好的

的模型参数与随机初始化神经元参数的拼接，

表示第r轮训练好的

网络模型参数，基于三个参与方的数据训练其第二类不完整结构样本模型；

S4.2、重复4.1的步骤，直至单个机构内所有参与方均递归使用训练，搭建完kT+1时刻结构完整样本的深度学习模型，然后每个机构如公式(22)求出当前参与联邦的单个机构内参与方1数据与所有测试集的参与方1数据分布距离。

其中，

为将变量通过高斯核函数映射到再生希尔伯特空间的函数，

为当前机构j中的参与方1的kT+1时刻采集到的数据，

为测试集中参与方1的所有数据；

S5、将步骤S3和S4分别获取到的各机构内参与方1模型的梯度与数据分布距离送入联邦中心，基于动态资源分配策略，各机构获取参与联邦中心的可学习权重，聚合梯度，更新联邦中心模型；

S6、经过r轮优化后，各机构的参与方1下载更新后的联邦中心公共的模型

和模型参数

经过多轮联邦迭代，当动态资源函数小于阈值时退出循环。接着开始机构内的样本时刻递归，直到下个公共周期进入联邦中心，再实现步骤S2～S6的参与方递归步骤，机构样本单个逐一用于训练，样本数用完时，结束训练。

S7、将步骤S1中所述测试集中的所有数据输入所述对应的网络模型，得到测试集的故障诊断分类结果，并评价所述网络模型的效果。

与现有技术相比，本发明的有益效果在于：对机构内按照不同速率划分的参与方进行同一种参与方的深度学习模型的搭建,根据各机构内参与方的变量关系递归联邦，逐步构建该时刻完整结构样本的DNN模型，并获取更新后单个同一参与方模型的梯度，通过动态资源分配策略得到机构参与联邦的可学习权重，实现各子机构的相互优化，多轮联邦更新后，达到不同机构实时优化其模型，不同机构间综合利用的目的。与现有技术相比，本发明克服了机构之间因传感器多速率采样、网络随机丢包的特点导致深度学习模型无法保障联合优化的效果，导致误分类率高的问题，利用机构内递归与机构间递归相结合的联邦学习模型进行故障诊断，可以使数据利用更加充分，故障诊断更为准确。本发明可以有效地提高故障诊断的精度，对故障诊断和深度学习的进一步发展和推广应用有一定的促进作用，对促进工业生产的进步具有现实意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于一种机构内递归与机构间递归相结合的联邦学习故障诊断方法的结构图。

图2为本发明基于一种机构内递归与机构间递归相结合的联邦学习故障诊断方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为基于一种机构内递归与机构间递归相结合的联邦学习故障诊断方法结构图，其步骤如下：

S1、建立数据集；

选取一维序列样本数据，包括4种故障类型：点蚀，磨损，断齿，正常。按照传感器时间采样的顺序划分为完整结构样本的数据和不完整结构样本的数据，完整结构的样本每类选取48个样本和25个样本分别下发给各机构训练集和测试集，不完整结构的样本每类选取528个样本和25个样本分别下发给各机构训练集和测试集。将故障标签分别设置为1、2、3、4。

所述步骤S2包含以下步骤：

在联邦中心建立联邦模型并随机初始化联邦模型网络参数

其中W’_T0＝{W’_E0,W’_D0}是自编码器编码和解码的权重参数集合，b’_T0＝{b’_E0,b’_D0}是自编码器编码和解码的偏置参数集合，W’_s0,b’_s0是网络模型的Softmax分类器的权重和偏置参数,同时对联邦模型中各子机构的机构权重进行初始化，初始权重为单个机构所拥有的样本数量与所有机构的样本的总数的占比，如公式(23)所示：

其中，

用来表示机构初始权重，2个机构的集合为S＝{S₁,S₂}，其中第一个机构的样本数577个，第二个机构样本数577个，第j个机构的机构初始权重

为单个机构的样本数和总样本数所求。

S2.2根据r-1轮的联邦中心模型参数和联邦权重参数确定联邦中心给子机构的分发的方式,如公式(24-25)所示：

其中

是联邦中心第r轮的模型参数，

是联邦中心第r-1轮的模型参数，

为第r-1的机构权重，

是kT+1时刻第r轮第j个子机构参与方1的初始化模型参数；

S2.3机构权重的递归更新，根据动态资源分配策略以r-1轮的机构权重更新第r轮的机构权重。动态资源分配策略即为以机构内同一类参与方的当前采集到的数据与测试集的分布距离为准则更新机构参与联邦的权重，如公式(26-27)所示。

其中，

表示第r轮中第j个机构更新的机构权重，

为第r-1轮中第j个机构的机构权重，

为动态资源分配函数对于

的偏导数。

所述步骤S3包含以下步骤：

S3.1第r轮训练中利用单个机构内参与方1的数据训练参与方1的网络模型，并保存其模型参数与更新的梯度,如公式(28-29)所示：

其中，Feedforward是生成神经网络的函数，

表示第j个机构中参与方1的数据集，

为第r轮循环训练好的模型参数；

如公式(30)所示：

其中，

是网络参数，

如公式(31)所示：

其中，

是kT+1时刻第j个机构内参与方1与参与方2的数据，

所述步骤S4包含以下步骤：

S4.1、利用步骤S3中训练好的第一类不完整结构样本模型

根据参与方的变量进行递归，按照步骤3.2拼接其缺失网络参数,如公式(32)所示：

其中，

表示第r轮训练好的

的模型参数与随机初始化神经元参数的拼接，

表示第r轮训练好的

S4.2、重复4.1的步骤，直至单个机构内所有参与方均递归使用训练，搭建完kT+1时刻结构完整样本的深度学习模型，然后每个机构如公式(33)求出当前参与联邦的单个机构内参与方1数据与所有测试集的参与方1数据分布距离。

其中，

为将变量通过高斯核函数映射到再生希尔伯特空间的函数，

为当前机构j中的参与方1的kT+1时刻采集到的数据，

为测试集中参与方1的所有数据；

和模型参数

S7、将步骤S1中所述测试集中的所有数据输入所述对应的网络模型，得到测试集的故障诊断分类结果，如公式(34)所示，并评价所述网络模型的效果。

其中，result表示分类准确率，predict为网络输出结果，label为真实标签,

为机构内测试集。

为了验证本发明的有效性和泛化性，采用QPZZ-ΙΙ实验平台进行下述实验：

使用QPZZ-ΙΙ型旋转机械振动试验平台系统对齿轮故障进行仿真，QPZZ-ΙΙ型旋转机械振动试验平台系统可快速模拟旋转机械多种状态及振动，对齿轮故障模拟是通过更换有缺陷的齿轮。可模拟的故障有点蚀、磨损、断齿和混合故障点蚀磨损、断齿磨损等。本发明的试验选取转速为880r/min，并加载0.05A的电流时，输出轴电机侧轴承Y的加速度数据记录，选取齿轮箱的四种健康状态为：点蚀、磨损、断齿和正常状态，利用齿轮箱故障数据来对本发明的可行性进行讨论，并与只使用完整结构的样本数据集进行加权平均联邦学习策略和单个机构利用完整结构的样本数据集进行故障诊断的情况对比。

(1)数据预处理

如图1所示为本发明具体框图，每一个滑动窗口为一个样本，滑动窗口的大小设置为9，即每个样本的参数个数为9，滑动步长设置为1。，每类故障包含576个训练样本和100个测试样本。故障标签设置如表1所示。

表1故障标签设置

(2)实验设计

实验设置使用齿轮箱故障数据对本发明方法FCDNN的可行性进行讨论，并设置对比实验：a.仅使用单个机构完整结构样本的数据进行故障诊断。b.仅使用多个机构完整结构样本的数据利用加权平均联邦学习策略进行故障诊断，c.使用本发明动态资源分配策略方法FCDNN进行故障诊断，具体实验设置如表2所示。每组实验都用上述三种方法做对比。

表2实验设计

(3)参数设置

自编码器由编码器和解码器两部分组成，本质上都是对输入数据做某种映射。编码器是输入层到隐层的映射，解码器是隐层到输出层的映射。输出层的节点数与输入层的节点数一致，输出层是对输入层的重构。本发明采用的深层神经网络是由多个自编码器堆叠而成，在无监督学习阶段采用自下而上自编码器逐层抽取特征，前一个自编码器的隐层抽取的特征作为后一个自编码器的输入。将最后一个自编码器的隐层特征作为Softmax分类器的输入，得到观测样本的分类结果。最后对堆叠自编码器反向微调，反向微调过程使用有监督的反向传播算法，使用有标签的数据，对整个深度神经网络参数进行优化微调。本发明实验的具体网络参数如表3所示。

表3各模型参数取值

(4)实验结果分析

实验结果如表4-6所示。

表4采样时刻为193的故障诊断精度表

	DNN	FDNN	FCDNN
				正常状态	23.90％	72.00％	92.00％
磨损	87.90％	51.99％	92.00％
				断齿	3.90％	51.99％	83.99％
点蚀	56.00％	63.99％	100.00％
				平均精度	43.00％	60.00％	92.00％

表5采样时刻为385的故障诊断精度表

	DNN	FDNN	FCDNN
				正常状态	31.99％	15.99％	92.00％
磨损	40.00％	87.99％	92.00％
				断齿	23.99％	56.00％	92.00％
点蚀	100.00％	100.00％	100.00％
				平均精度	49.00％	64.99％	93.99％

表6采样时刻为577的故障诊断精度表

	DNN	FDNN	FCDNN
				正常状态	31.99％	81.95％	87.99％
磨损	20.00％	67.95％	100.00％
				断齿	68.00％	57.99％	100.00％
点蚀	100.00％	84.99％	100.00％
				平均精度	55.00％	73.22％	97.00％

从表4、表5和表6可以看出，对于齿轮故障时域信号来说，FDNN网络的加权平均策略的故障诊断来说略好于DNN网络，但是本发明的融合方法FCDNN所得到的诊断结果很大程度上优于其余两种方法的诊断结果。

从表4可以看出，单个机构的完整结构样本数据用于故障诊断得到的诊断精度最低，而本发明构建的模型，诊断精度相对于单独使用一个机构的数据进行故障，诊断精度提升49.00％，效果显著。而相对于加权联邦策略的DNN来说，诊断精度提升接近32.00％，在机构内递归与机构间递归相结合的联邦学习方法下，综合利用了所有完整结构的样本和不完整结构的样本，机构参与联邦的权重也较为合理，模型每一类的故障诊断精度都高于其余两种方法。

从表5可以看出，表5中各模型的精度相对于表4均有所提升，这是因为增加了训练样本的采样时间，说明样本采样时间越长，包含越多的故障信息，越有利于故障诊断的结果。而表5中本发明的诊断结果相对于单独使用一个机构的数据来说，诊断进度提升了44.99％。相对于加权联邦策略的DNN进行故障诊断来说，诊断精度提升29.00％，验证了本发明的有效性。

对比表6与表4、5可以看出，表6中各模型诊断精度相对表4、5来说诊断精度均有提升，这是因为表6中对应的实验样本采样时间最长，每个样本包含更加完整的故障信息，同样说明了采样时间即获取到的样本数量对故障诊断的精度有一定的影响。而表6中，本发明提出的机构内递归与机构间递归相结合的联邦学习方法相对于单独使用一个机构完整结构样本数据的DNN模型来说，诊断精度提升了42.00％。相对于加权联邦策略的DNN模型来说，诊断精度提升23.78％，验证了本发明的有效性。

本发明提出了一种基于机构内递归与机构间递归相结合的联邦学习故障诊断方法，通过各子机构相同一种采样率的数据所搭建深度学习模型之间以动态资源分配递归联邦的方式学习出各子机构中参与方进入联邦中心的可学习权重实现各子机构间的信息的初步综合。然后在各子机构内，基于已经参与联邦的同一种采样率的参与方，通过机构内不同采样率数据所搭建的深度学习模型参与方之间的递归联邦方式，实现利用其它机构的模型信息对本机构内各参与方模型进行联邦更新的目的。最后把更新之后的相同参与方模型上传到联邦中心进行下一轮的联邦，达到不同机构实时优化其模型，不同机构间综合利用的目的。与现有技术相比，本发明克服了机构之间因传感器多速率采样、网络随机丢包的特点导致深度学习模型无法保障联合优化的效果，导致误分类率高的问题，利用机构内递归与机构间递归相结合的联邦学习模型进行故障诊断，可以使数据利用更加充分，故障诊断更为准确。本发明可以有效地提高故障诊断的精度，对故障诊断和深度学习的进一步发展和推广应用有一定的促进作用，对促进工业生产的进步具有现实意义。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机构内递归与机构间递归相结合的联邦学习故障诊断方法，其特征在于，包括以下步骤：

S1、建立不同子机构的数据集，所述数据集包括训练集和测试集，所述训练集与测试集均包含完整结构的样本与不完整结构的样本，完整结构的样本为某时刻能获取传感器全部观测值的样本，缺失一个观测值采样及一个以上的观测值采样的样本均为不完整结构的样本；

所述步骤S1包含以下步骤：

S2、机构间部分参与方联邦中心模型的搭建，单个机构内根据传感器采样速率的不同，把其划分为m个参与方，其中单个参与方内所有传感器采样率是相同的，选取机构间共同的一个参与方模型参与联邦；

所述步骤S2包含以下步骤：

S2.1联邦中心各机构参与联邦的机构权重与联邦中心模型参数的初始化；

在联邦中心建立联邦模型并随机初始化联邦模型网络参数

其中W’_T0＝{W’_E0，W’_D0}是自编码器编码和解码的权重参数集合，b’_T0＝{b’_E0，b’_D0}是自编码器编码和解码的偏置参数集合，W’_s0，b’_s0是网络模型的Softmax分类器的权重和偏置参数，同时对联邦模型中各子机构的机构权重进行初始化，初始权重为单个机构所拥有的样本数量与所有机构的样本的总数的占比，如公式(1)所示：