CN116956048B

CN116956048B - 一种基于跨域泛化标签的工业设备故障诊断方法及装置

Info

Publication number: CN116956048B
Application number: CN202311203729.4A
Authority: CN
Inventors: 任磊; 莫廷钰
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-12-15
Anticipated expiration: 2043-09-19
Also published as: CN116956048A

Abstract

本发明涉及一种基于跨域泛化标签的工业设备故障诊断方法及装置，属于故障诊断技术领域，解决了现有未考虑工业设备故障类别的泛化而导致故障诊断不准确的问题。包括：根据工业设备在不同工况下振动传感器采集的时序振动信号，构建各工况数据集，放入样本集并划分为训练集和测试集；根据训练集中各工况的故障类别标签分布构建虚拟标签分布，重构各工况数据集，更新训练集；根据重构后的各工况的故障类别标签分布与平均故障类别标签分布的差异，构建损失函数，利用训练集和测试集分别训练和测试神经网络模型，得到故障诊断模型；实时采集工业设备的时序振动信号，传入故障诊断模型，得到故障诊断结果。实现了多工况下工业设备故障的准确诊断。

Description

一种基于跨域泛化标签的工业设备故障诊断方法及装置

技术领域

本发明涉及故障诊断技术领域，尤其涉及一种基于跨域泛化标签的工业设备故障诊断方法及装置。

背景技术

随着工业互联网的不断发展，智能故障诊断作为工业智能的重要组成部分，已经在许多领域得到广泛应用。智能故障诊断的发展实现了对工业设备健康状态的自动监测。为了实现工业智能化，妥善地应用新型的基于人工智能的故障诊断技术至关重要。

在工业设备故障检测场景，比如旋转机械设备中的风力涡轮机或汽轮机的轴承故障数据不均衡是十分常见的，正常运行的轴承样本通常远远多于故障轴承样本，这导致了一个类别不均衡的问题。另外，工业环境也是影响因素之一，在工业设备中不同工况或环境下的各域样本分布存在较大差异。

现有工业设备的故障诊断技术多采用迁移学习技术，将样本量比较多的源域学习情况迁移至样本量少的目标域样本中。但是只有在源域和目标域的样本分布差异不大，具有比较相似的特征空间才能确保诊断的准确性。而真实的工业环境采集到的工业数据中标签的分布情况是未知的，不一定与故障诊断模型训练时的标签分布情况一致，在这种情况下，现有技术未对标签分布进行跨域泛化，无法实现标签分布的域自适应，从而导致故障诊断结果的准确率不高。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于跨域泛化标签的工业设备故障诊断方法及装置，用以解决现有未考虑工业设备故障类别的泛化而导致故障诊断不准确的问题。

一方面，本发明实施例提供了一种基于跨域泛化标签的工业设备故障诊断方法，包括以下步骤：

根据工业设备在不同工况下振动传感器采集的时序振动信号，构建各工况数据集，放入样本集中，将样本集划分为训练集和测试集；

根据训练集中各工况数据集的故障类别标签分布构建虚拟标签分布，并根据虚拟标签分布重构各工况数据集，更新训练集；

根据重构后的各工况数据集的故障类别标签分布与平均故障类别标签分布的差异，构建神经网络模型的损失函数，利用训练集训练神经网络模型；利用测试集对训练好的神经网络模型进行测试，直至达到测试精度，得到工业设备故障诊断模型；

实时采集工业设备的时序振动信号，传入工业设备故障诊断模型，得到故障诊断结果。

基于上述方法的进一步改进，利用测试集对训练好的神经网络模型进行测试，包括：根据测试集在训练好的神经网络模型的输出层前的特征向量，更新输出层参数矩阵后，得到测试结果。

基于上述方法的进一步改进，故障类别标签分布包括每个故障类别标签的频率；根据训练集中各工况数据集的故障类别标签分布构建虚拟标签分布，包括：

根据预置参数定义贝塔分布的概率密度函数，根据工况数量生成符合贝塔分布的多个随机数，分别作为各工况数据集的样本权重；

对于各工况数据集的相同故障类别标签，将其在各工况数据集中的频率与对应的样本权重进行加权求和，得到每个故障类别标签的虚拟频率，归一化处理得到虚拟标签分布。

基于上述方法的进一步改进，根据虚拟标签分布重构各工况数据集，包括：

根据预置的样本总数量和虚拟标签分布，得到各故障类别标签的样本数量，再根据各工况数据集的样本权重，利用欠采样或过采样方法重新构建出各工况数据集中各故障类别标签的样本数据。

基于上述方法的进一步改进，平均故障类别标签分布是根据各工况具有相同故障类别标签的样本数量之和除以各工况样本数量之和而得到各故障类别标签的平均频率。

基于上述方法的进一步改进，根据重构后的各工况数据集的故障类别标签分布与平均故障类别标签分布的差异，构建神经网络模型的损失函数，包括：

计算重构后的各工况数据集中每个故障类别标签的频率分别与对应的故障类别标签的平均频率的差异绝对值，取倒数后得到各工况数据集中每个故障类别标签的补偿权重；根据补偿权重，构建加权交叉熵损失函数。

基于上述方法的进一步改进，神经网络模型包括时序卷积模块和全连接模块；时序卷积模块用于接收各工况数据集的数据样本，利用每层不同扩张值的一维卷积实现时序信息传递，提取出多维特征向量传给全连接层；全连接模块接收多维特征向量并将学习到的高维特征向量映射至各故障类别的标签空间，输出预测的故障类别。

基于上述方法的进一步改进，根据测试集在训练好的神经网络模型的输出层前的特征向量，更新输出层参数矩阵后，得到测试结果，包括：

将测试集划分为多个批次传入训练好的神经网络模型，获取每批次测试样本在输出层前的多个多维特征向量；对多个多维特征向量进行归一化处理后，对各维度取均值得到每批次的目标特征向量；

将每批次的目标特征向量累加至最新的输出层的参数矩阵，更新输出层参数矩阵后，预测出该批次测试样本的测试结果。

基于上述方法的进一步改进，根据工业设备在不同工况下振动传感器采集的时序振动信号，构建各工况数据集，包括：

对每一个工况，将相同时刻振动传感器采集的振动信号组成一条多维振动信号，根据预置的时间片长度，将每个时间片的多维振动信号作为一条多维时序数据，对应一个故障类别标签，放入当前的工况数据集中。

另一方面，本发明实施例提供了一种基于跨域泛化标签的工业设备故障诊断装置，包括：

样本构建模块，用于根据工业设备在不同工况下振动传感器采集的时序振动信号，构建各工况数据集，放入样本集中，将样本集划分为训练集和测试集；

样本重构模块，用于根据训练集中各工况数据集的故障类别标签分布构建虚拟标签分布，并根据虚拟标签分布重构各工况数据集，更新训练集；

模型获取模块，用于根据重构后的各工况数据集的故障类别标签分布与平均故障类别标签分布的差异，构建神经网络模型的损失函数，利用训练集训练神经网络模型；利用测试集对训练好的神经网络模型进行测试，直至达到测试精度，得到工业设备故障诊断模型；

故障诊断模块，用于实时采集工业设备的时序振动信号，传入工业设备故障诊断模型，得到故障诊断结果。

与现有技术相比，本发明至少可实现如下有益效果之一：通过构建虚拟的标签分布，提升对多源数据标签分布差异的适应性；在训练阶段，通过计算各故障类别补偿权重构建损失函数，改变各源域数据集的标签分布，使其更接近多源域数据集的平均分布，以平衡不同源域之间的标签分布差异，提高模型对少数故障类别样本的学习能力；在测试阶段，提取出目标域的目标特征向量更新标签原型，实现未知目标域的标签分布的域自适应，进一步优化和补偿由多源域训练得到的模型，提高了模型的泛化能力，提升故障诊断性能。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件；

图1为本发明实施例1中一种基于跨域泛化标签的工业设备故障诊断方法流程图；

图2为本发明实施例2中一种基于跨域泛化标签的工业设备故障诊断装置结构示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

实施例1

本发明的一个具体实施例，公开了一种基于跨域泛化标签的工业设备故障诊断方法，如图1所示，包括以下步骤：

S11、根据工业设备在不同工况下振动传感器采集的时序振动信号，构建各工况数据集，放入样本集中，将样本集划分为训练集和测试集；

S12、根据训练集中各工况数据集的故障类别标签分布构建虚拟标签分布，并根据虚拟标签分布重构各工况数据集，更新训练集；

S13、根据重构后的各工况数据集的故障类别标签分布与平均故障类别标签分布的差异，构建神经网络模型的损失函数，利用训练集训练神经网络模型，利用测试集对训练好的神经网络模型进行测试，直至达到测试精度，得到工业设备故障诊断模型；

S14、实时采集工业设备的时序振动信号，传入工业设备故障诊断模型，得到故障诊断结果。

本实施例中的工业设备指有旋转部件的旋转机械，主要功能由旋转运动来完成。旋转机械种类繁多，包括风力涡轮机、汽轮机、燃气轮机、离心式压缩机、发电机、水泵、水轮机以及电动机等。这类工业设备的主要部件有转子、轴承系统、电机、齿轮箱、联轴器等，转速从每分钟几十转到几万、几十万转。任一部件发生故障都会导致整个工业设备无法运行，将造成生产中断，轻则影响到企业的经济效益，重则导致严重的安全事件。因此，本实施例在工业设备的多个位置上布置有振动传感器，通过实时采集不同工况下的振动信号，及时诊断对应的旋转部件是否出现故障，避免引发工业设备的严重故障。

由于用于学习的训练样本的故障类别标签分布与测试样本的故障类别标签分布不同，以及实时采集的时序振动信号的故障类别标签分布未知，为了避免模型学习到的故障类别标签分布关系在实际应用场景中引入错误的预测信息，如何将已知标签分布的数据集泛化到未知的标签分布的数据集是准确诊断出工业设备故障的关键。本实施例分别在模型训练阶段和模型测试阶段对未知的故障类别标签分布进行域泛化。在训练阶段，通过构建虚拟标签分布的方式提升模型对多个工况故障类别标签分布差异的适应性。此外，通过补偿权重，利用加权补偿的思想提升故障类别较少的样本在训练过程中的重要性，进一步避免模型对特定数据域的标签分布过拟合。在测试阶段，通过构建基于标签原型更新技术，利用未知数据集的特征更新模型训练得到的标签原型参数，从中获取未知数据集的标签信息，实现标签分布的域自适应。

下面分别对每个步骤进行具体说明。

步骤S11中，由于一台工业设备可能包括多个旋转部件，比如轴承、齿轮箱和电机等，则在需要实时监测故障的旋转部件的多个位置上布置相应的振动传感器。在不同工况下振动传感器在每个采样时刻持续采集各旋转部件多个位置上的振动信号，监测振动故障。工况是指不同的工业环境和工业设备参数，比如不同的环境温度，轴承的不同转速和负载。不同的旋转部件有不同的故障类别，比如轴承故障类别包括但不限于：无故障、内圈损坏、外圈损坏和球体损坏；齿轮箱的故障类别包括但不限于：无故障、断齿、偏心、缺齿和裂纹。

以任一旋转部件为例，根据工业设备在不同工况下振动传感器采集的时序振动信号，构建各工况数据集，包括：

示例性地，在轴承上布置有m个振动传感器，每个采样时刻组成的一条m维振动信号为m×1，预置的时间片长度为T，即时序数据的长度为T，则一条多维时序数据为m×T，对应一个故障类别标签。

需要说明的是，每种工况相当于对应一种源域，各工况数据集作为各源域数据集均放入样本集中，并按比例划分为训练集和测试集，或者还可以划分出验证集，确保每种集合中均包括各工况数据集。这属于常规操作，这里不再详细阐述。

优选地，对训练集中各工况数据集增加高斯噪声样本，减少过拟合数量较少的故障类别的样本，避免对特定数据域的标签分布过于依赖。噪声样本的增加比例根据实际训练情况而定，通常比例为各工况训练样本的0.1到0.3。

各工况中每条噪声样本通过以下步骤生成：

分别计算各工况数据集中各维度数据的平均值，得到各工况的平均样本；在每个工况的平均样本上增加符合高斯分布的随机噪声，得到各工况的一条噪声样本。

步骤S12通过构建虚拟标签分布，对训练集进行重构。

需要说明的是，故障类别标签分布包括每个故障类别标签的频率，即各故障类别的数量占总数量的比率。

进一步地，根据训练集中各工况数据集的故障类别标签分布构建虚拟标签分布，包括：

需要说明的是，贝塔分布是通过定义两个分布形状参数α和β而得到的一种概率分布函数，贝塔分布的值域在[0,1]之间。其中，α和β大于0，根据具体需求而预置参数值，比如：较小的α和β值会生成更集中的分布，而较大的α和β值会生成更广泛的分布。因此，根据具体需求调整预置参数，生成不同形状和特征的标签分布，以满足不同的数据增强和模型训练需求。

贝塔分布确定后，使用随机数生成器来生成服从Beta分布的n个随机数，分别作为每个工况数据集的样本权重，加权并归一化得到虚拟标签分布P(Y)，表示为：

，

其中，表示第n个随机数，/>表示第n个工况数据集的故障类别标签分布，Y表示故障类别标签集合。

示例性地，3个工况3种故障类别标签分别为：[0.5, 0.3, 0.2], [0.4, 0.1,0.5]和[0.2, 0.6, 0.2]，产生的3个随机数分别为：0.7, 0.2和0.1，则加权求和后得到3种故障类别标签的虚拟频率分别为：0.5×0.7+0.4×0.2+0.2×0.1，0.3×0.7+0.1×0.2+0.6×0.1，0.2×0.7+0.5×0.2+0.2×0.1，将3个虚拟频率归一化处理后得到虚拟标签分布为[0.45, 0.29, 0.26]。

根据虚拟标签分布重构各工况数据集，包括：根据预置的样本总数量和虚拟标签分布，得到各故障类别标签的样本数量，再根据各工况数据集的样本权重，利用欠采样或过采样方法重新构建出各工况数据集中各故障类别标签的样本数据。

需要说明的是，欠采样表示随机剔除已有样本，过采样表示随机复制已有的样本，利用欠采样或过采样方法重新构建出各工况数据集中各故障类别标签的样本数据即根据各工况数据集的样本权重从各工况数据集中随机剔除或选取各故障类别的样本，达到各故障类别的样本数量，作为重构后的各工况数据集。

示例性地，预置的样本总数量为100条，虚拟标签分布是[0.45, 0.29, 0.26]，3个工况的样本权重是0.7, 0.2和0.1，则表示3种故障类别的样本分别为45条，29条和26条，每种故障类别的样本均按照70%，20%和10%的比例，分别从3种工况中具有相同故障类别的样本中获取。

步骤S13是对神经网络模型的训练和测试过程。神经网络模型包括时序卷积模块和全连接模块；其中，时序卷积模块用于接收各工况数据集的数据样本，利用每层不同扩张值的一维卷积实现时序信息传递，提取出多维特征向量传给全连接层；全连接模块接收多维特征向量并将学习到的高维特征向量映射至各故障类别的标签空间，输出预测的故障类别。全连接模块最后一层是输出层，输出层的神经元个数与故障类别数相同。

进一步地，根据重构后的各工况数据集的故障类别标签分布与平均故障类别标签分布的差异，构建神经网络模型的损失函数。

需要说明的是，为了避免在训练时出现模型参数不稳定和过拟合某种随机生成的极端标签分布问题，本实施例基于开放域样本补偿机制结合不平衡长尾分布的思想，在训练阶段通过引入一种样本补偿策略来平衡多源域数据的标签分布差异。

具体来说，根据重构后的各工况数据集的故障类别标签分布计算出平均故障类别标签分布，即：根据各工况具有相同故障类别标签的样本数量之和除以各工况样本数量之和而得到各故障类别标签的平均频率。

计算重构后的各工况数据集中每个故障类别标签的频率分别与对应的故障类别标签的平均频率的差异绝对值，取倒数后得到各工况数据集中每个故障类别标签的补偿权重，公式表示如下：

，

其中，表示第i个工况数据集中第k种故障类别标签的补偿权重，/>表示第i个工况数据集中第k种故障类别标签的频率；/>表示第k种故障类别标签的平均频率。

基于训练集训练神经网络模型时，在反向传播中使用加权交叉熵损失函数更新模型参数，损失函数中的权重是每条样本数据所在工况数据集中对应的故障类别标签的补偿权重，公式表示如下：

，

其中，N表示每批次的训练样本数量，C表示故障类别总数量，表示第j条样本所在工况数据集中第k种故障类别标签的补偿权重，/>表示第j条样本的第k种故障类别标签编码，/>表示第j条样本预测为第k种故障类别标签的概率。

本步骤通过补偿权重改变各源域数据集的标签分布，使其更接近多源域数据集的平均分布，便于提高模型对少数故障类别样本的学习能力，并增强在未知标签分布的数据域上的泛化性能。

神经网络模型在训练阶段中学习到多源域数据的标签分布和特征表示以及潜在的标签原型。本实施例中标签原型是指输出层参数矩阵，其大小为C×U，其中C表示故障类别总数量，U表示特征向量的维度数。

基于训练好的神经网络模型，在测试阶段对标签分布未知的测试集进行推理，得到模型的测试结果。为了使模型更好地适应标签分布未知的目标域，从而进一步优化和补偿由多源域训练得到的模型，本实施例通过测试集对只由训练集分布构建的标签原型进行更新，使模型更好地适应各种目标域的标签分布。

需要说明的是，利用测试集对训练好的神经网络模型进行测试，包括：根据测试集在训练好的神经网络模型的输出层前的特征向量，更新输出层参数矩阵，并得到测试结果。

具体来说，将测试集划分为多个批次传入训练好的神经网络模型，获取每批次N个测试样本在输出层前的N个多维特征向量，大小为N×U；对N个多维特征向量进行归一化处理后，对各维度取均值得到每批次的目标特征向量1×U；

优选地，设置一个权重来控制目标特征向量的增加量，通过调整权重使测试结果达到测试精度。

值得注意的是，本步骤在测试阶段仅对输出层的标签原型进行更新，不涉及执行反向传播算法对其它层模型参数的更新。通过基于标签原型的更新技术，使模型更好地适应未知目标域的标签分布，从而进一步优化和补偿由多源域训练得到的模型。提高了模型的泛化能力，并在实际应用中更好地应对不同领域和分布的数据。

达到测试精度时的神经网络模型作为工业设备故障诊断模型。

在步骤S14中，实时采集工业设备中与训练时相同的旋转部件的时序振动信号，构建为与训练样本一样的多维时序数据（大小为m×T）作为待诊断样本，传入工业设备故障诊断模型，得到故障诊断结果。

与现有技术相比，本实施例提供的一种基于跨域泛化标签的工业设备故障诊断方法，通过构建虚拟的标签分布，提升对多源数据标签分布差异的适应性；在训练阶段，通过计算各故障类别补偿权重构建损失函数，改变各源域数据集的标签分布，使其更接近多源域数据集的平均分布，以平衡不同源域之间的标签分布差异，提高模型对少数故障类别样本的学习能力；在测试阶段，提取出目标域的目标特征向量更新标签原型，实现未知目标域的标签分布的域自适应，进一步优化和补偿由多源域训练得到的模型，提高了模型的泛化能力，提升故障诊断性能。

实施例2

本发明的另一个实施例，公开了一种基于跨域泛化标签的工业设备故障诊断装置，从而实现实施例1中的一种基于跨域泛化标签的工业设备故障诊断方法。各模块的具体实现方式参照实施例1中的相应描述。如图2所示，该装置包括：

样本构建模块101，用于根据工业设备在不同工况下振动传感器采集的时序振动信号，构建各工况数据集，放入样本集中，将样本集划分为训练集和测试集；

样本重构模块102，用于根据训练集中各工况数据集的故障类别标签分布构建虚拟标签分布，并根据虚拟标签分布重构各工况数据集，更新训练集；

模型获取模块103，用于根据重构后的各工况数据集的故障类别标签分布与平均故障类别标签分布的差异，构建神经网络模型的损失函数，利用训练集训练神经网络模型；利用测试集对训练好的神经网络模型进行测试，直至达到测试精度，得到工业设备故障诊断模型；

故障诊断模块104，用于实时采集工业设备的时序振动信号，传入工业设备故障诊断模型，得到故障诊断结果。

由于本实施例与前述一种基于跨域泛化标签的工业设备故障诊断方法相关之处可相互借鉴，此处为重复描述，故这里不再赘述。由于本装置实施例与上述方法实施例原理相同，所以本装置实施例也具有上述方法实施例相应的技术效果。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于跨域泛化标签的工业设备故障诊断方法，其特征在于，包括以下步骤：

实时采集工业设备的时序振动信号，传入工业设备故障诊断模型，得到故障诊断结果；

所述故障类别标签分布包括每个故障类别标签的频率；所述根据训练集中各工况数据集的故障类别标签分布构建虚拟标签分布，包括：

对于各工况数据集的相同故障类别标签，将其在各工况数据集中的频率与对应的样本权重进行加权求和，得到每个故障类别标签的虚拟频率，归一化处理得到虚拟标签分布；

所述平均故障类别标签分布是根据各工况具有相同故障类别标签的样本数量之和除以各工况样本数量之和而得到各故障类别标签的平均频率；所述根据重构后的各工况数据集的故障类别标签分布与平均故障类别标签分布的差异，构建神经网络模型的损失函数，包括：

计算重构后的各工况数据集中每个故障类别标签的频率分别与对应的故障类别标签的平均频率的差异绝对值，取倒数后得到各工况数据集中每个故障类别标签的补偿权重；根据补偿权重，构建加权交叉熵损失函数得到神经网络模型的损失函数。

2.根据权利要求1所述的基于跨域泛化标签的工业设备故障诊断方法，其特征在于，所述利用测试集对训练好的神经网络模型进行测试，包括：根据测试集在训练好的神经网络模型的输出层前的特征向量，更新输出层参数矩阵后，得到测试结果。

3.根据权利要求1或2所述的基于跨域泛化标签的工业设备故障诊断方法，其特征在于，所述根据虚拟标签分布重构各工况数据集，包括：

4.根据权利要求2所述的基于跨域泛化标签的工业设备故障诊断方法，其特征在于，所述神经网络模型包括时序卷积模块和全连接模块；所述时序卷积模块用于接收各工况数据集的数据样本，利用每层不同扩张值的一维卷积实现时序信息传递，提取出多维特征向量传给全连接层；全连接模块接收多维特征向量并将学习到的高维特征向量映射至各故障类别的标签空间，输出预测的故障类别。

5.根据权利要求2所述的基于跨域泛化标签的工业设备故障诊断方法，其特征在于，所述根据测试集在训练好的神经网络模型的输出层前的特征向量，更新输出层参数矩阵后，得到测试结果，包括：

6.根据权利要求1所述的基于跨域泛化标签的工业设备故障诊断方法，其特征在于，所述根据工业设备在不同工况下振动传感器采集的时序振动信号，构建各工况数据集，包括：

7.一种基于跨域泛化标签的工业设备故障诊断装置，其特征在于，包括：

样本重构模块，用于根据训练集中各工况数据集的故障类别标签分布构建虚拟标签分布，并根据虚拟标签分布重构各工况数据集，更新训练集；所述故障类别标签分布包括每个故障类别标签的频率；所述根据训练集中各工况数据集的故障类别标签分布构建虚拟标签分布，包括：根据预置参数定义贝塔分布的概率密度函数，根据工况数量生成符合贝塔分布的多个随机数，分别作为各工况数据集的样本权重；对于各工况数据集的相同故障类别标签，将其在各工况数据集中的频率与对应的样本权重进行加权求和，得到每个故障类别标签的虚拟频率，归一化处理得到虚拟标签分布；

模型获取模块，用于根据重构后的各工况数据集的故障类别标签分布与平均故障类别标签分布的差异，构建神经网络模型的损失函数，利用训练集训练神经网络模型；利用测试集对训练好的神经网络模型进行测试，直至达到测试精度，得到工业设备故障诊断模型；所述平均故障类别标签分布是根据各工况具有相同故障类别标签的样本数量之和除以各工况样本数量之和而得到各故障类别标签的平均频率；所述根据重构后的各工况数据集的故障类别标签分布与平均故障类别标签分布的差异，构建神经网络模型的损失函数，包括：计算重构后的各工况数据集中每个故障类别标签的频率分别与对应的故障类别标签的平均频率的差异绝对值，取倒数后得到各工况数据集中每个故障类别标签的补偿权重；根据补偿权重，构建加权交叉熵损失函数得到神经网络模型的损失函数；