CN116383757A

CN116383757A - 一种基于多尺度特征融合和迁移学习的轴承故障诊断方法

Info

Publication number: CN116383757A
Application number: CN202310223713.3A
Authority: CN
Inventors: 邹英永; 张永德; 肖治国; 刘宇鹏; 赵文卓
Original assignee: Harbin University of Science and Technology; Changchun University
Current assignee: Harbin University of Science and Technology; Changchun University
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-07-04
Anticipated expiration: 2043-03-09
Also published as: CN116383757B

Abstract

本发明公开了一种基于多尺度特征融合和迁移学习的轴承故障诊断方法，所述包括如下步骤：步骤1：在多尺度特征融合层中使用不同尺度的三个卷积核来捕获互补和丰富的诊断信息；步骤2：将多尺度振动信号的采样点分组为小的标记块，每个标记块表示多尺度信号中的语义概念，然后通过展平转换成序列，为了保留信号的位置信息，使用线性嵌入层投影到补丁嵌入，生成具有标记的嵌入序列；步骤3：将嵌入序列馈送到TransformerEncoder层以生成特征序列；步骤4：将特征序列输入到对抗生成网络中，进行基于Wasserstein距离度量的对抗学习。本发明解决了滚动轴承特征提取不充分以及故障诊断不准确、工况下存在过拟合的问题。

Description

一种基于多尺度特征融合和迁移学习的轴承故障诊断方法

技术领域

本发明涉及一种轴承故障诊断方法，具体涉及一种基于多尺度特征融合和迁移学习的轴承故障诊断方法。

背景技术

滚动轴承作为旋转机械设备中的关键部件，其运行状态关乎整个旋转机械设备的正常运转。实时监测滚动轴承的健康状态，对预防旋转机械设备故障的发生、保障设备和人员安全、减少企业经济损失等具有重要现实意义。机器学习和深度学习技术的发展一方面推动了数据驱动的故障诊断方法的广泛应用，另一方面，这些技术通常需要依赖足量的标记数据来训练出高精度的学习模型。数据驱动的方法在滚动轴承故障诊断领域发展迅速，但其大多以足够的带标签数据可供训练、数据包含设备的完整健康状况信息等假设为基础，忽略了训练样本无标签、故障类型无历史训练数据等问题，难以满足实际工程场景下的滚动轴承故障诊断需求。滚动轴承的工况复杂多变，安全要求高，故障数据稀缺的问题造成难以独立学习到可用的故障诊断模型。迁移学习作为一种新的机器学习范式，从不同但相关的一个或多个领域中学习知识，用于辅助新的场景下的问题求解，从而增强模型的泛化能力。

近些年，基于深度学习的智能故障诊断方法成为故障诊断与健康维护技术中的主要方法。Lu等利用深度堆积去噪自编码器对轴承进行了全面的故障诊断，考虑到深度学习模型可以直接处理原始数据而无需任。该方法通过深度学习等人工智能技术建立故障诊断模型，分析表征机械大数据中隐含的故障信息，实现轴承故障特征的自动提取与健康状态的智能识别。郭亮等结合卷积神经网络和最大均值化差异方法提出了深度迁移模型，实现了不同数据域的自适应对齐。王亚辉等针对轴承故障诊断中变分模态分解(VMD)的参数选择与卷积神经网络架构难以确定的问题，研究一种GSA-VMD和自适应CNN的滚动轴承故障诊断方法。针对预制故障尺寸太少，无法实现对滚动轴承故障尺寸更精确诊断的问题。闫佳瑛等提出变分模态分解结合卷积神经网络的方法，通过变分模态分解(VMD)及卷积神经网络(CNN)的滚动轴承故障混合特征提取及诊断方法，将滚动轴承的原始振动信号进行变分模态分解，减少模型运算复杂度并缩减时间成本。袁彩艳等提出数据加强的多尺度卷积网络，通过扩充训练数据种类，完成参数学习，但准确率有待提升。

以上基于人工神经网络的方法表现出较好的故障诊断能力，方法具有避免由环境噪声和工作条件波动引起的虚假特征的巨大潜力，但由于滚动轴承工作环境的复杂性，需要故障诊断方法能够深度挖掘轴承信号中的特征信息，从而有效地实现变工况条件下的故障诊断。另外，轴承数据具有不同故障类别模式的样本，形成了多模式的数据结构，现有方法在特征分布对齐过程中，直接通过度量源域与目标域数据的整体分布进行特征对齐，并未考虑轴承数据具有的多模式数据结构，可能导致不同故障数据之间产生错误对齐的现象，致使轴承故障识别的准确率与泛化性能欠佳。

发明内容

为了解决滚动轴承特征提取不充分以及故障诊断不准确、工况下存在过拟合的问题，本发明提供了一种基于多尺度特征融合和迁移学习的轴承故障诊断方法。该方法通过设计多尺度卷积融合层，从采集到的振动信号中自动有效提取丰富多个时间尺度的多尺度故障特征，解决了在使用卷积神经网络(CNN)诊断故障时，无法捕获滚动轴承的时间信息的问题；利用Transformer学习长期时间相关信息，可以显著提高诊断精度和抗噪声能力；由于领域差异的存在，有些领域的轴承故障数据难以获得，设计了跨域特征对抗学习的迁移学习方法，解决跨工况迁移、跨设备迁移和跨虚实迁移的故障诊断研究。

本发明的目的是通过以下技术方案实现的：

一种基于多尺度特征融合和迁移学习的轴承故障诊断方法，包括如下步骤：

步骤1：结合多尺度学习，在多尺度特征融合层中使用不同尺度的三个卷积核来捕获互补和丰富的诊断信息；

步骤2：使用标记器将多尺度振动信号的采样点分组为小的标记块，每个标记块表示多尺度信号中的语义概念，然后通过展平转换成序列，为了保留信号的位置信息，使用线性嵌入层投影到补丁嵌入，生成具有标记的嵌入序列；

步骤3：将具有标记的嵌入序列馈送到Transformer Encoder层以生成特征序列；

步骤4：将Transformer Encoder层中生成的特征序列输入到由生成器网络G和判别器网络D构成的对抗生成网络中，进行基于Wasserstein距离度量的对抗学习。

相比于现有技术，本发明具有如下优点：

1、本发明提出一种对抗迁移网络(DCTG)用于改进滚动机械轴承在变工况下的故障诊断性能。相比传统的域适配诊断方法，本发明所提方法引入了两个独立的编码网络从源域和目标域中学习不变特征表示，其中：生成器网络G对源域任务学习，判别器网络D引入权值迁移策略和对抗训练机制对目标域任务学习，从而使网络可独立学习适合每个域的特征，减少源域和目标域的数据分布差异，获得更强的域适配能力和诊断能力。

2、本发明通过轴承数据集对算法开展了实验验证。首先进行了多尺度特征提取的有效性实验，实验结果显示，单一尺度特征卷积效果与基于多尺度特征融合提取方法比，采用多尺度特征融合的方法优势明显。另外，通过与传统CNN和域适配诊断方法比较，实验表明本发明所提方法在各种迁移任务上获得了更好的分类能力。

附图说明

图1为MCTG方法网络结构图；

图2为Transformer Encode结构图；

图3为Backbone部分采用单一卷积尺寸训练结果，(a)卷积尺寸为51；(b)卷积尺寸为101；(c)卷积尺寸为151；(d)卷积尺寸为201；(e)卷积尺寸为301；(f)卷积尺寸为451；

图4为迁移模型工作流结构；

图5为惩罚系数γ的参数分析；

图6为迁移任务C→B的CWRU数据集的特征提取结果可视化，(a)数据源；(b)CNN目标；(c)DAC源；(d)DDC目标；(e)DAN来源；(f)JAN目标；(g)DACNN来源；(h)MCTG目标。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明提供的基于多尺度特征融合层和迁移学习方法MCTG的结构框图如图1所示，直接使用原始振动信号作为输入，整体由多尺度特征融合层、线性嵌入层、位置编码层、Transformer编码层和域判别器网络组成。工作流程简要描述如下：

步骤1：结合多尺度学习，在多尺度特征融合层中使用不同尺度的三个卷积核来捕获互补和丰富的诊断信息。具体步骤如下：

源域数据和目标域数据以原始振动信号作为输入信号输入到多尺度特征融合层中，实现丰富的特征表示提取，得到多尺度振动信号，其中：输入信号设为

W为每个输入的长度。

本步骤中，多尺度特征融合层包含不同尺度的卷积核。如图1所示，包含三个具有不同卷积尺寸的卷积核，卷积尺寸分别为51、151、301，通过通道的形式堆叠每个特征分量，得到多尺度特征。

步骤2：使用标记器将多尺度振动信号的采样点分组为小的标记块，每个标记块表示多尺度振动信号中的语义概念，然后通过展平转换成序列，为了保留信号的位置信息，使用线性嵌入层投影到补丁嵌入，生成具有标记的嵌入序列。具体步骤如下：

步骤21、在将多尺度特征输入线性嵌入层之前，提取每个维度长度为P，共P×1×3层的数据，并形成一系列长度为m的信号补丁x＝(x₁,x₂,…,x_m)，当m＝W/P时，使用学习的嵌入矩阵

线性地投影到模型维度为D的向量中。嵌入的表示与可学习的分类标记x_calss连接在一起，用于下一步的特征提取。

步骤22、Transformer Encoder层需要捕获信号序列中的位置信息。因此，为了保持贴片的空间排列与原始振动信号相同，具有维度d的位置信息

被编码并附加到信号补丁x中，生成的具有标记的嵌入补丁序列z₀表示为：

z₀＝[x_class；x₁E；…；x_mE]+E_pos (1)

步骤3：将具有标记的嵌入补丁序列馈送到Transformer Encoder层中以生成特征序列。

本步骤中，Transformer Encoder层是Transformer中的一部分，负责编码，其结构如图2所示。Encoder结构由归一化层(LN)、多头注意力机制模块、多层感知器(MLP)组成，其中：

多头注意力机制模块通过堆叠N个相同的编码器来提取相关信息，这样可以加强信息流，以实现更高的性能；

多层感知器在每个多头注意力机制模块之后应用，由两个线性变换层、一个dropout层和一个称为高斯误差线性单元(GELU)的非线性激活函数构成；

归一化层(LN)可以缓解梯度消失，增大学习率，使训练更快收敛，能够起到使网络更稳定、更不容易过拟合。

编码器结构中有一个需要注意的细节：每个编码器的每个子层(Self-Attention层和FFN层)都由一个残差连接，再执行一个层标准化操作。

步骤4：将Transformer Encoder中生成的特征序列输入到由生成器网络G和判别器网络D构成的对抗生成网络中，进行基于Wasserstein距离度量的对抗学习。

生成对抗网络(GAN)是一类强大的生成模型，它将生成建模视为两个网络之间的博弈。生成器网络在给定某些噪声源的情况下生成合成数据，而判别器网络在生成器的输出和真实数据之间进行区分。生成器网络和判别器网络是一种神经网络。生成器网络中的参数在训练过程中通过反向传播算法，根据生成器的输出与真实数据之间的差异来更新生成器的参数。网络结构并不是完全固定不变，可以随着自己的应用进行相应的改变，可以添加和删除某些网络层，调整超参数、不同的激活函数来改进生成器的性能和生成效果。判别器网络和生成器网络在结构上不同，目标是对于给定的数据样本，判断其是真实数据还是由生成器生成的假数据，并输出每个样本是真实数据的概率。类似于生成器的训练过程，判别器的参数也是通过反向传播进行更新，以达到可能准确区分真实数据和生成器生成的数据。

生成器输入是随机噪声向量，输出是与真实数据相同形状的张量。网络结构通常采用转置卷积或反卷积，以实现逐渐将随机噪声转换为帧数数据类似的数据。判别器网络输入是数据样本，输出是一个标量，表示输入数据是真实数据的概率。通常采用卷积神经网络或全连接神经网络，用以提取数据的特征并对特征进行分类。

形式上，生成器网络(E)和判别器网络(D)之间的博弈是极小极大目标，目标函数表示为：

其中P_r是真实数据分布，P_g是生成模型的数据分布，生成模型由

为了防止判别器饱和时梯度消失，需要判别器在每次生成器参数更新之前被训练为最优。当判别器饱和时，GAN通常最小化的P_d和P_g之间的Jensen Shannon散度。但是，由于随机生成分布很难与真实分布有不可忽略的重叠以及Jensen Shannon散度的突变特性，使得生成器面临梯度消失的问题。

本发明中使用Wasserstein距离W(q,p)代替典型的GAN中使用的散度，使对抗生成网络几乎在任何地方都是连续可微的。为了在判别器上实施约束，改进的GAN网络必须将判别器的权重压缩到一个紧凑的空间中，这会导致优化困难。所以本发明提出了一种改进对抗生成网络训练的替代方法，该方法在原始目标函数中添加了梯度惩罚项，其目标函数定义如下：

其中

是从真实数据分布P_r和生成器分布P_g采样的点对之间沿直线均匀采样；γ是惩罚系数。在轴承数据诊断中的实验表明，这种方法可以避免梯度消失和爆炸，对抗性网络将具有更强的鲁棒性，使更复杂的网络可以容易地训练。

本发明设计对抗生成网络的目的是试图解决没有标签的目标域D_t的分类问题。本发明提出的对抗生成移网络使用具有Wasserstein距离的对抗性学习方法来实现源域D_S和目标域D_t之间的无标签域不变特征。更具体地，通过使用监督学习方法来训练带有标签的源域的生成器网络G，然后在判别器网络D中通过对抗性学习源域和目标域之间的不变特征来优化模型以适应没有标签的目标域。方法中的转移自适应过程只需要源域和目标域数据，不需要标记，这意味着转移过程是在无监督学习条件下进行。

为了最小化源域和目标域特征分布之间的Wasserstein距离，本发明使用多个域判别器网络D_j分别估计完全连接层

的分布差异。在迁移过程中，通过最大化参数/>

的域对抗性损失/>

来优化域判别器网络D_j，通过最小化参数/>

的域对抗损失函数/>

和分类损失函数L_C来从完全连接的层/>

学习不变特征。源域数据分类模型的域对抗性损失函数/>

和分类损失函数L_C定义如下：

其中

是指示函数；K是类别的数量，/>

是预测分布的第k维值，M是具有参数θ_M的特征映射，C是具有参数θ_C的分类器。

当

是该优化问题的梯度惩罚，它可以控制训练过程，而不会出现梯度消失和爆炸问题，γ是惩罚系数。域对抗损失函数用于引导分布差异逐步减小，增加分类损失项的目的是确保分类效果。

为了验证本发明提出的MCTG在轴承故障诊断性能，基于凯斯西储大学(CWRU)轴承数据中心提供的公共轴承数据集验证了本发明提出算法的适应性。

(1)数据与环境描述

实验数据选用凯斯西储大学轴承研究所公开的滚动轴承数据集。该数据集是国际公认的用来验证轴承故障方法的标准数据集，被众多学者使用，因此，使用该数据集进行仿真实验也更具有说服力。在四种条件下(负载0、1、2和3hp)，从电机驱动机械系统的加速计采集振动信号，采样频率为12kHz。实验中设置了四种类型的轴承故障，包括正常故障、滚珠故障、内圈故障和外圈故障。为了模拟轴承的故障，采用电火花加工方法建立了故障直径为0.007、0.014和0.021英寸的3个严重级别。因此，可以获得在四种类型的条件下包含10个状态的数据集。

在实验过程中，通过对有重叠的原始信号进行切片来扩展训练样本，实现对原有数据的数据增强。具体方法为先设置每个样本的长度分别为1024，每两个相邻样本的移位大小为512。数据集中的数据包含5400个训练样本和600个测试样本，它们分布在1hp至3hp负载下的10种不同健康状态。表1列出了关于数据集的详细信息。

表1轴承数据集概况

在实验中，方法的实现在软件方面主要使用pytorch 1.7.1深度学习库和Python3.7.0实现的。模型训练和测试的硬件环境由一台普通的GPU工作站完成，基本配置为IntelCore i7-10700K的CPU、16GB RAM和单张RTX 2080Ti GPU显卡。在训练过程中，使用了交叉熵损失函数，并使用Adam优化器。

(2)多尺寸特征融合的基于注意力机制的轴承故障诊断实验

为了验证本发明所提出故障诊断网络的有效性，将基于注意力机制的多尺度特征融合迁移网络(MCTG)分为三个部分：Backbone部分和注意力机制(Transformer Encoder)部分和对抗学习网络。其中针对多尺度特征融合层中使用不同尺度的三个卷积核来捕获诊断信息的有效性设计了消融实验。

为了分析多尺度特征融合层对于特征融合带来的提升，保持网络其它结构部分不变，在Backbone部分采用多种卷积尺寸51、101、151、201、301、451进行轴承数据的卷积输入对比，每种卷积尺寸都进行10个Epoch的训练，其训练的精度及Loss图如图3所示。

从图3的训练结果可以看出，在Backbone阶段以单一卷积尺度进行特征提取都可以实现，但是效果普遍不好，最好卷积尺度为151和201两种，精度达到了97％，其它尺度都低于90％。通过多种尺寸的融合特征提取方法，经过多种卷积尺寸的调整，最后多尺度卷积尺寸设置为51、201、301最优，可以得到训练收敛速度快、精度高且比较稳定的训练结果，方法的训练准确率达到99.81％

(3)不同方法迁移任务对比实验

基于图4所示的方法网络结构，进一步说明训练策略。通过使用标记的源域数据在深度模型架构中训练特征映射M和分类器C，通过使用式(5)中的损失函数更新对抗迁移网络中的输入参数。为了提取域不变特征，在对抗生成网络的学习过程中，通过最大化式(4)中的对抗性损失函数来更新具有相关参数的生成器网络G和判别器网络D，并且通过最小化(4)和(5)的损失函数之和来训练全连接层中的参数

在训练过程结束之前，在完全连接的层中实现域不变特征。

A、多对抗网络学习过程

源域数据X^s，目标域数据X^t，mini-bath大小为m，特征映射和分类训练步骤n_C，转移过程训练步骤n_t，分类器中完全连接的层的数量n_l，域判别器网络训练步骤n_d，学习率为α。

(4)不同方法迁移任务结果分析

表2迁移任务的结果对比

迁移任务

A→B

B→A

B→C

C→A

C→B

A→C

平均

CNN

67.31％

77.37％

69.19％

76.32％

75.36％

78.46％

67.78％

TCA

76.63％

79.69％

79.11％

72.25％

74.24％

71.98％

77.23％

DDC

91.38％

93.75％

92.98％

94.32％

95.76％

95.05％

94.67％

DAN

93.43％

95.77％

94.98％

96.63％

95.74％

94.49％

95.36％

JAN

94.36％

95.86％

94.16％

95.19％

93.96％

95.32％

95.27％

DACNN

90.36％

91.87％

92.16％

92.77％

92.35％

93.06％

92.65％

MCTG

98.57％

98.68％

99.83％

99.51％

98.97％

99.77％

99.71％

由表2所示的诊断结果可以观察到，在六个诊断任务上，传统CNN分类结果较差，其平均诊断精度仅为67.78％。而与之相比的域适配诊断方法，包括DDC、DAN和DACNN等，都获得明显更高的分类精度。尤其是TCA方法，采用提取的18个时域和频域特征和简单的k近邻分类器(k-NN)，其平均精度为77.23％，比CNN更高。这表明具有深度结构的CNN，尽管能够学习抽象高维特征表示，然而CNN的特征不具有强的域适配能力，在单一任务下学习的特征，在另一任务上泛化时，由于两者存在较大的特征分布差异，导致诊断精度的显著下降。而基于多尺度特征融合的MCTG迁移诊断方法明显有助于消除源域和目标域数据的分布差异，获得更好的特征表示，从而改进诊断性能。

在七个迁移任务上，综合考虑分类精度和标准差可以发现，本发明所提的MCTG具有最好结果，所有迁移任务精度均高于98.68％。这主要是因为其它几个迁移学习方法，深度神经网络的参数针对源域和目标域输入同时训练，尽管减少了训练参数，然而网络需要同时调整两种不同输入分布，因而导致网络优化困难。而本发明所提的MCTG网络通过构建独立的编码网络，针对不同的目标域任务，自适应调整目标域编码网络参数来减少源域和目标域特征的分配差异，改进网络学习性能。在不同迁移任务中，由于工况迁移变化较大，源域和目标域之间的特征分布呈现较大的改变，因而采用本发明所提方法有助于获得更高的诊断精度。

本发明针对网络中的参数进行了进一步分析。本发明研究了惩罚系数γ对MCTG模型的影响。惩罚系数γ是域临界损失L_wd和惩罚项L_gp之间的平衡因子。仍然选择CWRU滚动轴承数据集来分析不同γ的影响。为了量化分析这个问题，本发明计算了所有域的精度不同惩罚系数γ下的迁移问题，结果如图5所示。这些结果表明，MCTG模型可以在较宽的γ范围内实现稳定和理想的性能，这可能得益于从对抗性训练策略中训练的更合适的领域评论家网络。然而，D的表现略有下降→A、当λ为50和100时。因此，本发明仍然倾向于遵循Gulrajani等人的建议，对于本发明中的故障诊断问题，设γ＝10。

(4)特征可视化

为了证明所有深度模型的可传递性，并解释本发明所提出的MCTG在不同工作负载下滚动轴承故障诊断方面优于其他方法的原因，在本部分中可视化了输出层之前的完全连接层的特征。本发明利用称为t-Distributed Random Neighbor Embedding(t-SNE)的数据可视化技术，将整个连接层的高维特征减少到二维地图中进行可视化。

以迁移任务C→B例如，图6显示了五个深度模型的可视化结果。对于基准CNN模型，每个类别在源域中的分布是非常可区分的，但类别2、8和9的目标域分布与源域完全分离，如图6(a)和(b)所示。这就是为什么具有源样本的CNN模型训练难以识别目标样本的原因。通过迁移学习的过程，每个类别在源域和目标域之间的分布变得一致。然而，DDC方法存在很多错误分类，这解释了DDC在执行C→B任务时精度低的原因。观察还表明，DAN、JAN和MCTG中源域和目标域之间的分布具有很大的一致性，很少有错误分类的案例。然而，MCTG中每个类别分布之间的距离更远，这意味着最后一个分类层更容易训练。