CN117407698B

CN117407698B - 一种混合距离引导的领域自适应故障诊断方法

Info

Publication number: CN117407698B
Application number: CN202311717249.XA
Authority: CN
Inventors: 孔令谭; 饶猛; 靳亚强; 左明健
Original assignee: Qingdao Mingsiwei Technology Co ltd
Current assignee: Qingdao Mingsiwei Technology Co ltd
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-03-08
Anticipated expiration: 2043-12-14
Also published as: CN117407698A

Abstract

本申请提供了一种混合距离引导的领域自适应故障诊断方法，涉及机械健康状态监测领域，具体方法为，以堆栈自编码器作为特征提取器用于提取样本中的隐含特征，以此搭建深度学习模型SRDA；特征提取器的各输出隐层通过多核MMD和Wasserstein距离进行混合域距离测量，通过多层适配减少域分布差异，使用已知工况的带标签数据对未知工况的无标签数据建立联系，以解决旋转机械故障数据不易标注和未知工况下难以诊断的问题。本发明改善了诊断知识迁移结果，提高了诊断准确率，实现了平稳工况下旋转机械的自适应故障诊断。

Description

一种混合距离引导的领域自适应故障诊断方法

技术领域

本发明涉及机械健康状态监测领域，具体为一种混合距离引导的领域自适应故障诊断方法。

背景技术

随着现代工业设备的精密化、自动化、集成化程度日益提高，工作环境复杂多样。其中，旋转电机设备作为工业发展中机械能与电能相互转换的重要工具，在不同领域占据重要的地位，滚动轴承作为电机设备的关键传动部件，起着支撑轴并引导轴进行旋转的作用。轴承故障会劣化设备的服役表现，影响生产效率和精度，甚至导致严重的安全事故，造成重大的生命财产损失。因此，对滚动轴承进行及时的故障诊断具有重大的意义。

故障诊断的目的是判断机械处于何种故障状态，在实际情况中，由于受到工况复杂多变，外界环境干扰等因素的影响，训练和测试数据的分布往往会发生偏移，这种数据偏移会严重影响传统深度学习方法的诊断性能，因此，本发明关注不同工况下旋转机械的故障诊断问题，通过域自适应相关算法缩小数据分布差异，可以有效地减少误分类现象，从而提高诊断准确率。

现有的传统深度学习方法，由于未进行迁移学习，在面临训练和测试数据的分布存在在差异时，诊断性能大打折扣。而现有的基于域自适应的故障诊断方法仅使用一个距离度量方法来测量源域和目标域之间的差异，所以这些方法只能在单一的度量空间中去缩小域差异，效果并不理想，如果选取不到合适的距离度量方法，则可能导致诊断知识迁移结果不理想，进而影响了诊断准确率。

而本文所提方法使用多个距离度量方法，从多个度量空间中减小域差异，选择合适的权重充分发挥每个度量方法的优势，改善了诊断知识的迁移结果，提高了诊断准确率，实现了不同工况下旋转机械的自适应故障诊断。

发明内容

为解决背景技术中的问题，本发明提供一种混合距离引导的领域自适应故障诊断方法，该方法可从多个度量空间中缩小域分布差异，提高了深度学习模型在不同工况下的故障诊断与分类精度。

为实现上述发明目的，本发明提供一种混合距离引导的领域自适应故障诊断方法，包括以下步骤：

S1、采集数据：通过模拟试验台采集平稳工况下的轴承在不同速度和负载下的源域振动信号和目标域振动信号/>；

S2、数据预处理：用快速傅里叶变换（FFT）将采集的数据从时域转换成频域并进行归一化处理，仅对源域数据进行标注处理，源域数据表达公式为：

（1）

目标域数据表达公式为：

（2）

其中为源域样本数据，/>为源域样本数据标签，/>为目标域样本数据；

S3、搭建基于堆栈自编码器和混合距离引导的领域自适应模型(CSDA)：该模型包括两个部分，特征提取器（）和分类器（/>）；

第一部分特征提取器（），/> 中的编码器将输入数据映射到一个低维表示（编码），而解码器将这个低维表示映射回原始数据空间，通过数据重构，提取高维抽象特征，充分挖掘信号中的特征信息，来反映不同的健康状况；

其中，输入层到隐层的正向传导称为编码，隐层到输出层的正向传导称为解码，隐层主要起到特征提取的作用；输入源域和目标域的数据通过编码器降维，然后降维后的数据经过解码器转换成重构数据/>；隐层的输出特征为/>和/>，激活函数为/>：

（3）

（4）

、/>为特征提取器的权重和偏置，/>为源域输入数据，/>为目标域输入数据；

第二部分分类器（），它用于多种健康状况的分类，经过SAE降维后的数据输入到分类器/>中，输出为一个k维向量，代表着每种健康状况的预测率，预测率最高的作为该样本数据的分类结果；

S4、计算重构损失：将源域数据作为特征提取器（/>）输入，输出为经过编码与解码后的重构数据/>；重构损失计算公式为：

（5）

其中，为SAE的参数集合，n 表示神经元数量；

S5、计算源域分类损失：源域降维后的数据作为分类器（）的输入，输出为k种健康状况的预测，源域分类损失函数为交叉熵损失，计算公式为：

（6）

其中，为SAE的参数集合，/>为/>的参数集合，/>表示源域样本总数，k表示输出的神经元个数，/>表示指示函数，当成立时返回1，不成立返回0；

S6、预训练模型：采用随机梯度下降法最小化重构损失，利用反向传播的方式对特征提取器的参数权值进行持续的更新，可描述为：

（7）

其中，为特征提取器参数，/>为学习率，/>为 Adam 优化算法中梯度的矩估计函数；

通过最小化损失函数方式实现特征提取网络/>的收敛，最小化 />能有效提取源域和目标域数据集的特征；

S7、提取隐层特征：利用预训练好的特征提取网络（）提取源域（/>）和目标域数据（/>）的特征，各隐层的输出特征为 /> 和 /> ；

S8、计算混合域距离损失：使用多核和/>距离测量各输出隐层的非参数化距离，/>、/>为第一个隐层的输出，/>、/>为第二个隐层的输出，/>、/>为第三个隐层的输出，第一个隐层的混合域距离损失可描述为：

（8）

其中，为多核MMD损失，/>为/>距离损失，其计算公式为：

（9）

（10）

其中，为源域样本数量，/>为目标域样本数量，/>为核函数；

同理可得第二、第三个隐层的混合域距离损失：

（11）

（12）

因此，总域差异损失可以表示为：

（13）

其中，、/> 和 />是权衡参数；在总域差异损失 />中，/>、/>和 />拥有不同的重要性；

S9、计算分类总损失：分类的总损失函数为：

（14）

其中，表示源域分类损失的超参数，/>表示域自适应的超参数，/>表示SAE的权重集合，n表示神经元数量，/>表示正则化的超参数，/>为正则化损失；

S10、模型训练：最小化分类总损失，特征提取器和分类器的参数将被训练和更新，可描述为：

（15）

通过最小化，提高了对源域样本的分类准确率、缩小了特征映射后的源域和目标域特征样本的分布差异，以至提高了对目标域特征样本的识别和分类的准确率；

S11、获得训练好的模型：利用反向传播的方式对权值进行持续的更新，以找到全局最小损失函数的值，迭代次数为N时，结束训练，得到训练好的模型；

S12、模型测试：对目标域测试数据集进行测试，展示故障分类结果，并计算测试准确率/>；

（16）

其中，R为正确分类的样本数量，A为参与测试的样本总数量。

本发明的目的是这样实现的：

本发明提供一种混合距离引导的领域自适应故障诊断方法，通过采集源域和目标域样本数据，将样本进行预处理后训练搭建好的深度学习模型CSDA，之后将测试样本数据输入到训练好的模型中，模型可自动对其故障类型做出准确的判断与分类；其中，本方法所提的CSDA模型，使用多核和/>距离从多个度量空间中缩小域分布差异，改善了因单一域距离度量而产生的误分类情况，提高了故障诊断与分类的准确率，实现了不同工况下旋转机械的自适应故障诊断。

同时，本发明方法还具有以下有益效果：

1、适应性强: 本发明所提方法通过多层适配减少域分布差异，这使得模型对于各种不同工况和环境条件下的数据具有很强的适应性，能够在变化的工作环境中保持高准确率；

2、扩展性: 本发明所提方法由于采用了混合距离度量方法，该技术可能容易集成新的距离度量或适配技术，从而进一步提高其故障诊断能力；

3、数据利用率提高: 由于模型能够利用现有的带标签数据对未知工况的无标签数据建立联系，可以提高数据的利用率，尤其是在标签数据稀缺的场景下；

4、延长设备使用寿命: 通过实时监测和及时准确的故障诊断，可以防止故障扩大，从而延长设备的使用寿命；

5、提高安全性: 准确的故障预测和诊断可以及时发现潜在的安全问题，减少事故发生的风险，从而提高整个工作环境的安全性。

附图说明

图1是本发明提出的一种混合距离引导的领域自适应故障诊断方法的流程图；

图2是深度学习模型CSDA的示意图；

图3是是实施例所示的数据采集试验台；

图4是四种方法在每组迁移任务中的测试准确率柱形图；

图5是四种对比方法在A1迁移任务下迭代过程中的准确率折线对比图；

图6是四种对比方法在A1迁移任务下源域和目标域样本的分类散点图。

图2中标号为：1、电动机；2、轴承座；3、转盘；4、加速度传感器；5、齿轮箱；6、制动器。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图6，本发明提供一种混合距离引导的领域自适应故障诊断方法，包括以下步骤：

在本实施例中，目标旋转机械包括但不限于轴承、齿轮箱等旋转机械；振动信号包括但不限制于加速度信号、速度信号、位移信号。

S2、数据预处理：用快速傅里叶变换（FFT）将采集的数据从时域转换成频域数据，并进行归一化处理，将振幅范围控制到[0,1]，归一化公式为：

（17）

归一化的目的是使输入模型的数据在特定空间中，有助于加快网络的收敛，仅对源域数据进行标注处理，源域数据表达公式为：

（1）

目标域数据表达公式为：

（2）

S3、搭建基于堆栈自编码器和混合距离引导的领域自适应模型(CSDA)：

如图3所示，该模型包括两个部分，特征提取器（）和分类器（/>）；

第一部分特征提取器（），/> 中的编码器将输入数据映射到一个低维表示（编码），而解码器将这个低维表示映射回原始数据空间。通过数据重构，提取高维抽象特征，充分挖掘信号中的特征信息，来反映不同的健康状况；

第二部分分类器（），它用于多种健康状况的分类，经过SAE降维后的数据输入到分类器/>中，输出为一个 k 维向量，代表着每种健康状况的预测率，预测率最高的作为该样本数据的分类结果。

其中输入层到隐层的正向传导称为编码，隐层到输出层的正向传导称为解码，隐层主要起到特征提取的作用；输入源域和目标域的数据通过编码器降维，然后降维后的数据经过解码器转换成重构数据/>；隐层的输出特征为 />和 /> 激活函数为/>：

（3）

（4）

其中，、/>为特征提取器的权重和偏置，/>为源域输入数据，/>为目标域输入数据；

在本实施例中，由一个3层的堆栈自编码器（SAE)所构成，维数结构为[1200,600,100]，堆积自编码器是将多个自编码器叠加在一起形成的深层网络结构；它的每一层都可以学习不同级别、不同抽象程度的特征表示，一个3 层 SAE，就是先训练出一个自编码器，然后使用该编码器的编码输出部分作为第二个编码器的输入，继续训练下一个自编码器，以此类推。

一个n层 SAE 的每一个编码、解码过程如下：

（18）

（19）

其中，表示编码的输出，/>表示解码的输出，/>表示编码层的输入，表示解码层的输入，/>、/>表示编码层参数，/>、/>表示解码层参数。

在本实施例中，为/>分类器，分类器的维度结构为[100,50,k],它作为类别分类器用于多种健康状况的分类。

（5）

其中，为SAE的参数集合，n 表示神经元数量；

在本实施例中，每批次的样本数量为450，每个样本都进行重构误差的计算，最后取平均值作为本批次的重构误差，并将其作为反向参数更新时的优化目标。

（6）

在本实施例中，选取交叉熵损失函数来衡量分类损失，交叉熵损失函数是深度学习中常用的损失函数，对于每个样本，实际标签的分布可以看作是一个概率分布，其中一个类别的概率为1，其它类别的概率为0；它通过度量模型预测和实际标签之间的概率分布差异来驱动模型学习；它的优势包括敏感度高、数值稳定性好、适用于多分类问题等。

（7）

在本实施例中，预训练的目的是最小化输入和重构数据之间的差异，从而迫使网络学习有效的数据表示，模型的训练方法是基于反向传播算法(Back Propagation) 的随机梯度下降法、Momentum和Adam；具体的训练方法和一般神经网络模型的训练方法一样，不再赘述。通过最小化损失函数方式实现特征提取网络/>的收敛，以使得特征提取器能有效提取源域和目标域数据集的特征。

S7、提取隐层特征：利用预训练好的特征提取网络（）提取源域（/>）和目标域数据（/>）的特征，各隐层的输出特征为 /> 和/>；

在本实施例中，共三个隐层，输入源域和目标域数据，经过第一层编码后的数据为/>和/>；经过第二层编码后的数据为/>和/>；经过第三层编码后的数据为/>和/>。

（8）

其中，为多核MMD损失，/>为/>距离损失，其计算公式为：

（9）

（10）

其中，为源域样本数量，/>为目标域样本数量，/>为核函数；

同理可得第二、第三个隐层的混合域距离损失：

（11）

（12）

因此，总域差异损失可以表示为：

（13）

在本实施例中，共三个隐层，每个隐层都使用多核/>和/>距离测量数据间的非参数化距离，得到每个隐层的混合域距离损失，将它们分别乘上不同的权重后再相加即为总域差异损失,经反复验证，当/>；/>；/>时，模型效果最优。

S9、计算分类总损失：分类的总损失函数为：

（14）

在本实施例中，将源域分类损失、总域差异损失和正则化损失分别乘上不同的权重后再相加即为分类总损失；引入L2正则化损失，用于惩罚权重矩阵的较大值，以防止过拟合现象的产生；经反复验证，当；/>；/>时，模型效果最优。

（15）

在本实施例中，模型的训练方法是基于反向传播算法(Back Propagation) 的最速下降法、Momentum和Adam。通过最小化，提高了对源域样本的分类准确率、缩小了特征映射后的源域和目标域特征样本的分布差异，以至提高了对目标域特征样本的识别和分类的准确率。

在本实施例中，通过实验和调整，最终确定迭代次数为300时，测试效果最优，模型具有良好的泛化性能。

（16）

在本实施例中，随机选取目标域测试数据集中的样本作为已训练好的模型的输入，并记录正确分类的样本的数量，计算测试准确率，验证模型迁移的迁移效果。

为了更好地说明本发明的技术效果，采用一个具体实施例并结合附图对本发明进行试验验证：

实施例中，数据采集试验台如图2所示，主要包括电动机、转盘、轴承、轴承座、齿轮箱和制动器组成，在轴承座表面安装加速度传感器，经过LMS数据采集仪器采集振动信号，采样频率设为25.6kHz。

实施例中，以圆柱滚子轴承NU205EM为实验对象，轴承健康状态包括9种类型，如下所示：

为验证SRDA模型在不同工况下故障诊断的迁移能力，共设置了六组不同工况的迁移任务，如下所示：

其中 A1、A2是为验证在不同转速工况下的模型的迁移能力，B1、B2是为验证各在不同负载工况下的模型的迁移能力，C1、C2 是为各验证转速和负载都改变工况下模型的迁移能力。

每种工况下都采集9种健康状态的时域数据，数据集的样本个数，如下所示：

为验证SRDA模型的优越性，本实施例共用了三种对比方法:

（1）SAE: 一个基于SAE无域自适应引导的深度学习模型；

（2）WST：一个基于SAE和Wasserstein距离的单一域距离引导的深度学习模型；

（3）MMD：一个基于SAE和多核MMD单一域距离引导的领域自适应模型。

具体的训练与测试过程如前文所述，在这里不再赘述。

实施例中，下为四种方法在每组迁移任务中的测试准确率：

参照上表所示，使用SAE、WST和MMD三种模型与SRDA进行实验准确率的对比，其中本文所提方法的平均准确率为98.89%。

（1）SAE的平均准确率较低仅为67.40%，与本发明所提方法有非常大的差异，这是由于SAE未进行迁移学习，对比说明了本发明进行迁移学习的必要性，体现了域自适应对变工况轴承故障诊断的优异效果，也从侧面反映了传统深度学习模型在面临工况改变时的缺陷。

（2）WST的平均准确率为85.10%，与本发明所提方法也有较大的差异，对比说明：相较于从单个度量空间中缩小域分布差异的单一域距离自适应方法，本文所提的从多个度量空间中缩小域分布差异的混合域距离自适应方法更具有效性。

（3）MMD的平均准确率为92.05%，与本发明所提方法仍有部分差异，对比说明了在进行单一距离测量时，选择合适的域距离度量方法可以提高迁移效果，但是单一域距离引导的域自适应方法所能提升的准确率是有限的，相较于本文所提方法仍有部分差异，进一步说明混合与距离度量方法的有效性。

图4为四种方法在六种迁移任务下测试准确率的柱状对比图；其中横坐标代表迁移任务，纵坐标代表准确率，由此可以看出本发明所提的方法在六种工况下的测试准确率均远高于另外三种方法，

图5为四种对比方法在A1迁移任务下迭代过程中测试集的准确率对比图；其中横坐标代表迭代步数，纵坐标代表迭代过程中的准确率，由此可以看出本发明所提的方法在训练时间、鲁棒性方面均具有优越性。

图6为迁移任务A1在SAE、MMD、WST、SRDA模型运行下，源域和目标域样本的分类散点图，其中源域样本用S表示，目标域样本用T表示，数字1-9表示九种健康状况，由此可以看出本发明所提的方法在源域和目标域聚类和聚合情况最为理想，表明本文所提方法的优越性。

综上所述，这四种方法对比可得，本文所提的SRDA模型具有明显的优越性，通过图4柱状图可以看出，SRDA在不同迁移任务中进行故障诊断时准确率最高、标准差最小且能保持稳定；通过图5折线图可以看出，SRDA模型在训练时间和鲁棒性方面均具有优越性；通过图6聚类图可以看出，SRDA模型在源域和目标域聚类和聚合情况最为理想。由此，证明了本文所提方法的有效性。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种混合距离引导的领域自适应故障诊断方法，其特征在于，包括以下步骤：

（1）

目标域数据表达公式为：

（2）

（3）

（4）

（5）

其中，为SAE的参数集合，n 表示神经元数量；

（6）

（7）

S7、提取隐层特征：利用预训练好的特征提取网络（）提取源域（/>）和目标域数据（）的特征，各隐层的输出特征为 /> 和 /> ；

（8）

其中，为多核MMD损失，/>为/>距离损失，其计算公式为：

（9）

（10）

其中，为源域样本数量，/>为目标域样本数量，/>为核函数；

同理可得第二、第三个隐层的混合域距离损失：

（11）

（12）

因此，总域差异损失可以表示为：

（13）

其中，、/> 和 />是权衡参数，在总域差异损失 />中，/>、/>和 />拥有不同的重要性；

S9、计算分类总损失：分类的总损失函数为：

（14）

（15）

（16）