CN115510963A

CN115510963A - 一种增量式设备故障诊断方法

Info

Publication number: CN115510963A
Application number: CN202211143419.3A
Authority: CN
Inventors: 乔非; 关柳恩
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-12-23
Also published as: WO2024060381A1

Abstract

本发明涉及一种增量式设备故障诊断方法，该方法利用一经训练的故障诊断模型处理有新样本涌入的待诊断数据，获得设备的故障诊断结果，故障诊断模型的构建方法包括：1)构建完备样本集；2)构建初始故障诊断模型，并应用完备样本集对其进行训练；3)使用样本保留方法，选择性保留重要样本子集；4)新样本涌入时，基于初始故障诊断模型的结构和参数，构建中间故障诊断模型；5)基于知识蒸馏算法，使用新样本集和重要样本子集共同训练中间故障诊断模型，得到并测试最终故障诊断模型。与现有技术相比，本发明实现了有效学习新样本和保留旧样本，使其不仅具备对新故障类型的判别能力，而且对于历史样本保持良好记忆能力。

Description

一种增量式设备故障诊断方法

技术领域

本发明属于设备故障诊断技术领域，涉及一种增量式设备故障诊断方法。

背景技术

现代系统复杂性提高，因此，对安全性、稳定性提出更高要求，需要及时对设备系统故障进行识别、诊断以及快速恢复，避免更严重的经济损失和人身安全事故。目前故障诊断模型的建立均需要满足训练样本和测试样本同分布的强假设，但是，随着设备的不断运行，可能出现新的故障特征和类型，原有模型不再适用，因此需要对故障诊断模型进行及时更新。故障诊断模型的更新过程通常需要结合新、旧样本，也就是采用完全样本集以批量学习的模式进行。但是，在这个过程中，设备长时间运行积累大量历史样本，存储成本较高，如果使用完备样本集重新训练模型，时间成本和计算成本比较高；如果只用新样本调整模型参数，模型很容易逐渐遗忘旧样本；更新频率过高会产生不必要的消耗，而过低则难以确保模型的性能。为了解决上述问题，人们提出增量学习更新方式，该方式能够不断地从持续产生的新样本中学习新知识，还能够保留大部分旧知识，不需要保存全部历史样本，减少存储空间的占用，充分利用历史训练结果，提高模型训练效率。

为了使诊断模型具备增量学习的能力，人们在机器学习、深度学习等方法的基础上进行算法层面上的功能延伸。其中，深度学习算法在抽象特征表示较传统机器学习算法更具有优势，被广泛应用在故障诊断领域，并且基于深度学习建立的故障诊断模型实现增量学习的方法多数采用对模型的结构和参数进行扩展，但是每次更新模型都需要精心设计额外增加的网络结构或者分配权重。

对于学习新样本，经过检索中国公开号CN112508192A公开了一种具有深度结构的增量堆叠式宽度学习系统，该方法通过堆叠多个宽度学习系统进行模型的增量式更新，虽然只对新增参数进行训练，但是新模型结构去向复杂化且其特征映射关系受到固定旧参数比较大的限制，不利于提高模型的拟合能力；对于历史样本保留，为了能够大幅度降低数据的存储成本和模型的重训练成本，人们尝试从完备样本集中选择和保留重要样本替代完备样本集。现有技术中重要样本保留的常用方法是基于最近样本均值(NME)的样本保留方法，但是该方法只考虑当前迭代的最优样本，而非从整体考虑，其所选样本实质上是局部最优样本。当完备样本集中存在某个样本与均值中心十分贴近，将会导致样本子集中存在多个该样本，从而降低样本集多样性，造成较为严重的信息损失，导致模型无法有效保留旧样本知识。综上所述，现有技术存在模型复杂度高以及无法有效管理历史样本的缺点。

发明内容

本发明的目的是提供一种由少量标注旧样本驱动的增量式设备故障诊断方法，以克服模型复杂度高以及历史样本管理效果不好的问题。

本发明的目的可以通过以下技术方案来实现：

一种增量式设备故障诊断方法，该方法利用一经训练的故障诊断模型处理有新样本涌入的待诊断数据，获得设备的故障诊断结果，所述的故障诊断模型的构建方法包括：

步骤S1、获取和处理与设备状态相关的传感器数据，构建完备样本集；

步骤S2、基于深度神经网络构建初始故障诊断模型，并应用所述的完备样本集训练初始故障诊断模型；

步骤S3、基于遗传算法中的样本保留方法，从完备样本集中选择性保留用于表征完备样本集统计特性的重要样本子集；

步骤S4、新样本涌入时，基于所述的初始故障诊断模型的结构和参数，构建中间故障诊断模型，并初始化其参数；

步骤S5、调整中间故障诊断模型用于参数优化的目标函数，基于知识蒸馏算法，使用新样本集和所述的重要样本子集共同训练中间故障诊断模型，得到并测试最终故障诊断模型，结束。

进一步地，所述的构建完备样本集包括对传感器数据进行归一化计算，将数值限制在[0，1]之间；对齐每个传感器时间，切割成若干段信号片段，每个片段作为一个样本，用以构建完备样本集。

进一步地，所述的选择性保留重要样本子集通过基于遗传算法的样本保留方法实现，包括：

S310、筛选被初始故障诊断模型分类正确的样本集；

S320、对筛选过的样本集索引进行二进制编码形成基因；

S330、随机初始化种群；

S340、计算所述的种群每个个体的适应度；

S350、对种群进行轮盘赌选择、两点交叉和多点变异操作，回到步骤S340，直至满足迭代停止条件，生成最终种群；

S360、将最终种群中的最优个体进行解码得到重要样本子集。

进一步地，所述的适应度的计算方法包括：

步骤S341、将当前迭代生成的种群中的所有个体进行解码，得到每个个体对应的样本子集；

步骤S342、将所述的完备样本集和当前样本子集分别输入故障诊断模型，得到各自的logits向量集合；

步骤S343、计算完备样本集和当前样本子集的logits向量集合的均值中心，分别得到

和μ，计算每个个体的适应度。

进一步地，所述的计算每个个体的适应度的计算公式为

其中，F是每个个体的适应度。

进一步地，所述的构建中间故障诊断模型，并初始化其参数，包括：

步骤S410、构建中间故障诊断模型，其结构与初始故障诊断模型结构相同，更新中间故障诊断模型的输出神经元数量，所述的输出神经元数量与样本集包含的故障类别数量相同；

步骤S420、将初始故障诊断模型的神经元权重和偏置加载到中间故障诊断模型，作为其初始训练权重和参数，初始化多出的神经元权重和偏置，用于模仿零输出值。

进一步地，所述的得到最终故障诊断模型基于知识蒸馏算法实现，包括：

步骤S510、冻结初始故障诊断模型参数使其不参与参数优化过程，将所述的新样本集和重要样本子集合并成训练样本集；

步骤S520、将训练样本集同时输入初始故障诊断模型模型和中间故障诊断模型，在温度系数T调整下，分别得到关于旧类别的软标签和软预测分布，进而得到总蒸馏损失函数，并计算两者之间的蒸馏损失；

步骤S530、将训练样本集输入中间故障诊断模型，得到全类别的预测分布，计算所述的全类别的预测分布与该训练样本集的真实标签之间的交叉熵损失；

步骤S540、将蒸馏损失与交叉熵损失相加得到总损失，总损失函数作为目标函数，用来反向优化中间故障诊断模型的参数，得到最终故障诊断模型。

进一步地，所述的测试最终故障诊断模型包括将温度系数T设置为1，将测试样本输入模型得到分类结果，并进行性能评价。

进一步地，所述的多出的神经元权重和配置被初始化为1×10^-6。

进一步地，所述的总蒸馏损失函数的公式为：

其中，T表示温度系数，T大于1；softmax是归一化指数函数；cls_n和cls_o分别表示新、旧类别数量；

和

分别表示旧模型和新模型某一层输出的特征图第i个像素点；

表示旧模型输出的软标签，

表示新模型输出的与旧类别相关的软预测分布；θ表示深度神经网络的参数；ρ_l表示第l个蒸馏网络层的常系数；

表示第l个网络层的蒸馏损失，L_kd表示总蒸馏损失函数。

与现有技术相比，本发明具有以下特点：

1.本发明基于知识蒸馏算法，使用新样本集和重要样本子集得到总损失函数作为目标函数共同训练构建的中间故障诊断模型得到最终训练模型，实现了旧样本迁移和有效学习新样本，使其不仅具备对新故障特征和新故障类型的判别能力，而且对于历史样本保持良好记忆能力。

2.本发明基于初始故障诊断模型的结构和参数，构建中间故障诊断模型，可以从初始故障诊断模型中挖掘新、旧样本之间的潜在相关性，适应性地约束模型参数优化的方向，进一步降低内存消耗。

3.本发明基于深度学习建立故障诊断模型，其非线性特征表示能力和拟合能力优秀，能够从大量样本中提取关键特征并准确识别故障类别。

附图说明

图1为本发明增量式设备故障诊断方法流程图；

图2为本发明染色体编码示意图；

图3为本发明基于GA的样本保留方法流程图；

图4为本发明更新模型结构的示意图；

图5为本发明知识蒸馏方法应用流程图，其中，(5a)：本发明知识蒸馏方法应用于训练过程的流程图；(5b)：本发明知识蒸馏方法应用于测试过程的流程图；

图6为本发明增量式设备故障诊断方法实验结果，其中，(6a)：样本保留数目为5时的实验结果；(6b)：样本保留数目为10时的实验结果；(6c)：样本保留数目为20时的实验结果；(6d)：样本保留数目为30时的实验结果。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例：

本实施例提出了一种增量式设备故障诊断方法，该方法利用一经训练的故障诊断模型处理有新样本涌入的待诊断数据，获得设备的故障诊断结果，故障诊断模型的构建方法包括：

图1所示为增量式设备故障诊断方法流程示意图，包括以下步骤：

步骤S2、基于深度神经网络构建初始故障诊断模型，并应用完备样本集训练初始故障诊断模型，优化其参数；

步骤S3、从完备样本集中选择性保留用于表征完备样本集统计特性的重要样本子集；

步骤S4、当有新样本涌入时，基于初始故障诊断模型构建中间故障诊断模型，并初始化参数；

步骤S5、调整中间故障诊断模型参数优化的目标函数，基于知识蒸馏算法，使用新样本集和重要样本子集共同训练中间故障诊断模型，得到并测试最终故障诊断模型，结束。

其中，步骤S1包括：

步骤S110、从多种监测设备状态的传感器数据中选择表征设备各种故障及健康状态的数据，其中状态数据要求能被连续测量和记录。

步骤S120、对传感器数据进行归一化计算，将数值限制在[0，1]之间。对其每个传感器时间，切割成若干段信号片段，每个片段作为一个样本，用以构建完备样本集。

其中，步骤S2包括：

步骤S210、基于CNN构建深度神经网络模型，并且采用全连接层和softmax层实现多分类任务。输入特征图大小和通道数根据采样大小和数据源数量决定，最后输出的是输入样本隶属于各个故障类别的概率向量。

步骤S220、预先设定所有与模型训练相关的超参数，例如学习率、最大迭代次数等等。使用完备样本集训练故障诊断模型，采用Adam优化器优化模型的参数。

其中，见图2，步骤S3从完备样本集中选取和存储重要样本子集以表征完备样本集的统计特性，具体包括：

步骤S310、筛选被初始故障诊断模型从完备样本集中分类正确的样本；

步骤S320、染色体二进制编码。对筛选过的样本集索引进行二进制编码，长度等于需要构建的偶数的样本子集的大小，见图3，“11”表示完备样本集中的索引下标为11的一个样本，用二进制编码成基因“1011”，其余以此类推；

步骤S330、随机初始化种群；

步骤S340、计算种群中每个个体的适应度；

步骤S350、使用轮盘赌选择、两点交叉和多点变异作为选择算子、交叉算子和变异算子生成新种群，回到步骤S340，直至满足迭代停止条件，生成最终种群；

步骤S360、将最终种群中的最优个体进行解码得到所有样本索引，利用相应的样本构建样本子集，生成重要样本子集。

其中，步骤S340中适应度的计算方法包括：

步骤S342、将所述的完备样本集和当前样本子集分别输入故障诊断模型，得到完备样本集的logits向量集合和当前样本子集的logits向量集合，logits向量是最后一层全连接层的输出向量。

和μ，然后计算适应度

获得当前种群各个个体的适应度。

在具体的实施方式中，步骤S4中构建中间故障诊断模型，并优化其参数包括：

步骤S410、构建中间故障诊断模型，其结构与初始故障诊断模型结构相同，更新中间故障诊断模型的输出神经元数量，输出神经元数量与样本集包含的故障类别数量相同，见图4；

步骤S420、将初始故障诊断模型的权重和偏置加载到这一轮中间故障诊断模型中，作为其初始训练权重和参数，由于初始故障诊断模型的输出层神经元数量少于中间故障诊断模型的输出层神经元数量，因此将多出的神经元权重和偏置初始化为1×10^-6，用于模仿零输出值。

其中，步骤S5中得到最终故障诊断模型包括：

步骤S510、冻结初始故障诊断模型参数使其不参与参数优化过程，将新样本集和重要样本子集合并成训练样本集；

步骤S520、将训练样本集同时输入初始故障诊断模型和中间故障诊断模型，分别得到在温度系数T调整下，关于旧类别的软标签和软预测分布，并根据旧、新类别数之比计算两者之间的蒸馏损失；

步骤S530、将训练样本集输入中间故障诊断模型，得到全类别的预测分布，计算全类别的预测分布与该训练样本集的真实标签之间的交叉熵损失；

其中，测试最终故障诊断模型包括将温度系数T设置为1，将测试样本输入模型得到分类结果，并进行性能评价。

见图(5a)为本发明知识蒸馏方法应用于训练过程的流程示意图，图(5b)为本发明知识蒸馏方法应用与测试过程的流程示意图。

在具体的实施方式中，步骤S520中训练样本集分别输入初始故障诊断模型和中间故障诊断模型时，对多个中间层输出的特征图计算蒸馏损失，并且根据样本类别比例变化是硬性的调整损失系数。具体计算如下：

单一网络层的蒸馏损失函数的计算公式为：

和

分别表示旧模型和新模型某一层输出的特征图第i个像素点；

表示旧模型输出的软标签，

表示第l个网络层的蒸馏损失，L_kd表示总蒸馏损失函数。

对于深度神经网络，需要对每一个具有下采样功能的网络层进行知识蒸馏。由于这样的网络层通常分布均匀，因此可以根据网络深度动态调整蒸馏网络层的数量。

根据新、旧类别数量变化情况，设定适应性系数，当每个类别样本数相当，可用旧类别数cls_o与新类别数cls_n之比进行调整。其次，考虑到温度系数T对蒸馏损失幅值的影响，采用T²进行补偿。

总蒸馏损失函数的计算公式为：

其中，L_kd是总蒸馏损失函数，ρ_l表示第l个蒸馏网络层的常系数，

表示第l个蒸馏网络层的蒸馏损失和常系数，cls_n和cls_o分别表示新、旧类别数量。

在一个具体的实施方式中，为了验证实施例的性能，采用美国凯斯西储大学(CaseWestern Reserve University，简称CWRU)轴承数据集作案例研究和分析。CWRU数据集的信息如下：共有3个加速度计采集不同端的振动数据，分别为驱动端加速度计数据(DE)、风扇端加速度计数据(FE)以及基本加速度数据(BA)；共有4种转速不同的运行状态，分别是1730、1750、1772和1797rpm；共有3种不同故障直径，分别为0.007、0.014和0.021；共有3种故障状态，分别是内圈故障(IRF)、滚动体故障(BF)以及外圈故障(ORF)，其中外圈故障还包含3个测点，分别为直接位于受载区的6点钟位置、正交于受载区的3点钟位置和与受载区相对的12点钟位置。

本实施例使用故障直径为0.007、0.014和0.021的轴承在转速为1797rpm下运行的状态数据，涵盖IRF、BF和ORF(受载位置6:00)三种故障。轴承状态数据包括DE、FE和BA数据，采样频率为12kHz。将数据集故障状态分为9类，具体故障类型编号如表1所示，类别编号范围为0-8；各故障类型包含的数据量如表2所示。模型结构参数如表3所示，其中cls表示当前故障类别数，步长为2的卷积层输出都将用于计算蒸馏损失。

表1 CWRU数据集各故障类型编号

表2 CWRU数据集各故障类型的数据量

表3网络模型参数

网络层	卷积核大小	步长	输入通道数	输出通道数
					卷积层	3	2	3	6
卷积层	1	1	6	3
					卷积层	3	1	3	6
卷积层	3	2	6	12
					卷积层	1	1	12	6
卷积层	3	1	6	12
					卷积层	3	2	12	24
全局平均池化层	-	-	24	24
					全连接层	-	-	24	cls
softmax	-	-	cls	cls

本实施例分为四个阶段，即1个初始学习阶段和3个增量学习阶段，分别简称为“初始阶段”和“增量阶段i”(i＝1,2,3)。初始阶段只有故障类别0-2的样本，后面每个增量阶段会出现两个新类别的样本用于模型更新学习。增量式设备故障诊断实验结果如图6所示。该实验对比了仅采用样本保留方法、以及结合知识蒸馏和样本保留方法进行增量学习这两者的效果，其中“样本保留N”表示仅使用基于GA的样本保留方法且保留N个关键样本，“知识蒸馏+样本保留N”表示使用基于知识蒸馏和样本保留方法进行增量学习且保留N个关键样本。

从图(6a)可见，“样本保留5”在整个实验过程中的增量学习效果最差，到增量阶段3的时候，模型对类别0-2、3-4、5-6的测试集样本的诊断精度分别已经下降到42.16％、56.39％和51.55％。而“知识蒸馏+样本保留5”由于正则化作用，到增量阶段3的时候，模型对类别0-2、3-4、5-6测试集样本的诊断精度分别为63.17％、90.59％和55.05％，整体上有了比较大幅度的精度提升。

同样地，从图(6b)可知“知识蒸馏+样本保留10”到增量阶段3时对类别0-2、3-4、5-6的测试集样本的诊断精度分别为83.73％、97.44％和70.79％，总体高于“样本保留10”的增量学习效果(61.37％，79.71％和76.97％)。

图(6c)、图(6d)中，当样本保留数目达到20和30时，在知识蒸馏和样本保留共同作用下，模型增量学习的效果基本保持平稳，无论是在新类别还是在旧类别上，都具有比较良好的故障类别判别性能。其中，“知识蒸馏+样本保留30”与“知识蒸馏+样本保留20”之间总的精度差值为2.29％；如若只论增量阶段3的话，其诊断精度总差值为1.35％。这意味着每个旧类别样本保留数目多了10个，但是总的诊断精度增幅却比较小。“知识蒸馏+样本保留20”比“样本保留30”总的诊断精度还高了1.01％。这意味着此时模型的精度已经接近饱和，而且使用知识蒸馏可以在进一步减少样本保留数量的同时，提高模型对旧类别样本的诊断精度。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。