CN114692694B

CN114692694B - 一种基于特征融合和集成聚类的设备故障诊断方法

Info

Publication number: CN114692694B
Application number: CN202210372271.4A
Authority: CN
Inventors: 王刚; 苏泽容; 邵佳颖; 张亚楠; 伍章俊; 杨敏; 褚伟; 马敬玲; 卢明凤; 贡俊巧
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2024-02-13
Anticipated expiration: 2042-04-11
Also published as: CN114692694A

Abstract

本发明公开了一种基于特征融合和集成聚类的设备故障诊断方法，其步骤包括：第一，采集数据并进行预处理；第二，利用信号处理方法提取时域、频域、时频域特征的统计特征，同时，利用基于双向长短期记忆网络的降噪自编码器提取深度表示特征；第三，基于上述特征，生成多个特征空间，并训练基聚类器；第四，利用选择性加权投票法融合各基聚类器结果，进行设备故障诊断。本发明能够有效融合多类特征，同时确保设备故障诊断模型的稳定性和鲁棒性，从而提高设备故障诊断的精度。

Description

一种基于特征融合和集成聚类的设备故障诊断方法

技术领域

本发明涉及计算机应用领域，尤其涉及一种基于特征融合和集成聚类的设备故障诊断方法。

背景技术

设备在工业生产中发挥了重要作用。然而，变化的负载和复杂的环境往往会导致设备零部件加速退化，甚至导致设备突然停机，这就使得及时准确的对设备故障进行诊断变得十分重要。在大数据时代，数据驱动的设备故障诊断成为工业领域中的一项重要技术，能够保障设备的正常运行，起到减小经济损失、维护生产安全的作用。目前，基于聚类的方法是数据驱动的设备故障诊断领域中的一种重要方法。它能够在拥有较少先验知识的条件下，从大量采集到的无标签数据中挖掘出故障的有效信息。通常来说，基于聚类的设备故障诊断方法可以分为特征提取和模型构建两个阶段。

在特征提取阶段，信号处理方法如时域、频域、时频域的分析方法，可以分别基于振动信号提取时域、频域、时频域的统计特征。其中，时域方法以时间为变量来描述信号的波形。频域方法将时域信号变换到频域，以分析信号的频率结构。而时频域方法可以观测非平稳振动信号的频率时变信息。此外，近年来，深度学习方法由于具有自动挖掘深层信息的能力，在设备故障诊断领域显示出了广阔的应用前景。例如，自动编码器、深度置信网络、稀疏过滤等几种无监督深度学习方法已被成功地应用到设备故障诊断中以提取深度表示特征，避免了对高质量有标签数据的依赖。

在模型构建阶段，基于所提取的特征，聚类的方法可以不依赖于专家知识和有标签数据进行有效的故障诊断。迄今为止，许多聚类方法例如基于划分的聚类、层次聚类、模糊聚类、基于密度的聚类和谱聚类等，已经被成功地应用于设备故障诊断中。

虽然现有的基于聚类的设备故障诊断方法能够为设备故障诊断提供理论基础和实践指导，但是仍存在以下不足之处：

(1)虽然信号处理方法提取的统计特征和深度学习方法提取的深度表示特征都能从不同角度反映振动信号的重要特征，但是在以往的设备故障诊断方法中，很少考虑到统计特征和深度表示特征之间的异质性，这导致了一定的片面性和局限性，一定程度上影响了设备故障诊断的性能。

(2)随着设备及其工况的复杂性的不断增加，传统聚类模型的稳定性和鲁棒性逐渐降低。而集成的思想是将多个模型所得的结果融合起来，以得到改进的结果，从而提高单一模型的性能，是一种解决上述问题的可行方案。然而，虽然集成聚类已经成功地被引入如计算机视觉、文本挖掘等领域，但是在设备故障诊断领域中，仍很少有人使用集成聚类以改进设备故障诊断聚类模型效果。

发明内容

为了解决现有技术中存在的上述技术缺陷，本发明提供一种基于特征融合和集成聚类的设备故障诊断方法，以期能有效融合多类特征，同时确保设备故障诊断模型的稳定性和鲁棒性，以提高设备故障诊断的精度。

本发明是通过以下技术方案实现的：

本发明一种基于特征融合和集成聚类的设备故障诊断方法是特点在于，包括如下步骤：

步骤1，采集设备的振动信号并进行预处理，得到振动数据集记为D＝{x₁,x₂,…,x_i,…,x_n}，其中，为第i个振动样本，n为样本数量，m为每个样本的特征维数；

步骤2，利用信号处理方法提取时域、频域、时频域的统计特征，并利用基于双向长短期记忆网络的降噪自编码器提取深度表征特征：

步骤2.1，提取第i个振动样本x_i的时域特征，记为其中，/>表示第i个振动样本x_i的第n₁种时域特征，N₁表示第i个振动样本x_i提取的时域特征个数；

步骤2.2，利用快速傅里叶变换提取第i个振动样本x_i的频域特征，记为其中，/>表示第i个振动样本x_i的第n₂种频域特征，N₂表示第i个振动样本x_i提取的频域特征个数；

步骤2.3，利用小波包变换提取第i个振动样本x_i的时频域特征，记为其中，/>表示第i个振动样本x_i的第n₃种时频域特征，N₃表示第i个振动样本x_i提取的时频域特征个数；

步骤2.4，构建基于双向长短期记忆网络的降噪自编码器，提取深度表示特征：

所述降噪自编码器包括输入模块、隐藏模块和输出模块，其中，输入模块和输出模块均由双向长短期记忆网络构成；

在第i个振动样本x_i上加入高斯噪声得到第i个加噪后的振动样本i＝1,...,n，其中，m为噪声维数；

将第i个加噪后的振动样本划分为相同长度的T段，构成所述输入模块的输入数据向量/>其中，/>是输入模块中的双向长短期记忆网络的第i个前向输入数据，/>是输入模块中的双向长短期记忆网络的第i个后向输入数据；

将输入到所述输入模块中，同时经过输入模块的双向长短期记忆网络的前、后向隐藏层，在时间步T上输出所述输入模块的第i个输出特征向量

其中，/>表示输入模块中的双向长短期记忆网络的第fw个细胞在时间步T上的第i个振动样本的前向隐藏层输出特征，/>表示输入模块中的双向长短期记忆网络的第bw个细胞在时间步T上的第i个振动样本的后向隐藏层输出特征；

所述隐藏模块由q个隐藏层构成，且每个隐藏层有n_q个节点；

所述隐藏模块对第i个输出特征向量z_i进行编码，得到第i个编码结果其中，/>表示第i个振动样本在隐藏模块得到的第n₄个特征，N₄为特征个数；

对第i个编码结果进行解码，得到输出模块的第i个输入特征向量其中，/>表示输出模块中的双向长短期记忆网络的第fw个细胞的第i个振动样本的前向隐藏层输入特征，/>表示输出模块中的双向长短期记忆网络的第bw个细胞的第i个振动样本的后向隐藏层输入特征；

将第i个输入特征向量z_i′输入到所述输出模块中，同时经过输出模块中的双向长短期记忆网络的前、后向隐藏层后，在时间步T上输出所述输出模块的第i个输出特征向量，并作为第i个重构的振动样本其中，/>表示所述输出模块中的双向长短期记忆网络的第fw个细胞在时间步T上的第i个振动样本的前向隐藏层输出特征，/>表示所述输出模块中的双向长短期记忆网络的第bw个细胞在时间步T上的第i个振动样本的后向隐藏层输出特征；

利用梯度下降法对所述基于双向长短期记忆网络的降噪自编码器进行训练，并将达到最优时所对应的隐藏模块的编码结果作为所提取的深度表示特征，记为其中，/>表示第i个振动样本x_i的第n₄种深度表示特征；

步骤3，生成多个特征空间，分别训练基聚类器：

将所述时域特征F₁、频域特征F₂、时频域特征F₃、深度表示特征F₄组合成多个特征空间；记为L＝{l₁,l₂,...,l_v,...,l_V}，其中，l_v表示组合的第v个特征空间，V表示特征空间的数量；

基于每个特征空间，分别利用K均值聚类方法对基聚类器训练，得到训练后的基聚类器记为C＝{C⁽¹⁾,C⁽²⁾,...,C^(r),...,C^(R)}，其中，C^(r)表示第r个训练后的基聚类器，R表示基聚类器的数量；将第r个训练后的基聚类器C^(r)的聚类结果表示为其中，/>表示第r个训练后的基聚类器C^(r)聚成的第e个簇，k表示聚成簇的数量；

步骤4，利用选择性加权投票法融合各训练后的基聚类器的聚类结果用于设备故障诊断；

步骤4.1，对齐各基聚类器：

随机选择一个训练后的基聚类器作为参考基聚类器C^(rand)，对参考基聚类器C^(rand)中的每一个簇，均在其余R-1个训练后的基聚类器所聚成的簇中各选出一个与参考基聚类器C^(rand)中的簇的振动样本重叠数量最多的簇，并将参考基聚类器C^(rand)中的簇与所选出的重叠样本数量最多的簇标记为同一个标记；从而完成参考基聚类器C^(rand)中的所有簇均分别与其它基聚类器中的各个簇的标记，并得到对齐后的R个基聚类器记为其中，表示第r个对齐后的基聚类器；

步骤4.2，利用式(1)得到对齐后的第r个基聚类器的权重w_r，从而得到对齐后的各基聚类器的权重w＝{w₁,w₂,...,w_r,...,w_R}：

式(1)中，表示对齐后的第r个基聚类器/>和对齐后的第s个/>之间的归一化互信息值，ε表示归一化系数；

步骤4.3，按照权重由大到小的顺序排列对齐后的各基聚类器，并选出权重最大的前R×ratio个基聚类器，其中，ratio为预设的选择比率；

步骤4.4，重新归一化选出的前R×ratio个基聚类器的权重，并基于归一化后的权重，利用加权投票法将训练后的各基聚类器的聚类结果进行融合，从而得到最终结果，将最终结果与故障类型进行匹配，以完成设备故障诊断。

本发明相对于现有技术的有益效果在于：

1.本发明提出了一种无监督的设备故障诊断方法，利用基于双向长短期记忆网络的降噪自编码器提取深度表示特征，并利用一种集成聚类方法进行设备故障诊断建模，解决了现实工业场景中缺少专家知识和有标签数据的问题，有效实现了设备故障诊断，应用范围广。

2.本发明提取并融合利用了统计特征和深度表示特征，克服了现有设备故障诊断方法只利用其中某类特征，而忽略了不同类特征之间异质性的问题，更加全面地挖掘了设备故障信息，提高了设备故障诊断的精度。

3.本发明设计了一种集成聚类方法用于设备故障诊断，基于不同种类特征，生成多个特征空间，保证了各基聚类器的多样性，从而有效提高了设备故障诊断模型的稳定性和鲁棒性，提高了设备故障诊断结果的精度。

附图说明

图1为本发明的步骤流程示意图。

具体实施方式

本实施例中，一种基于特征融合和集成聚类的设备故障诊断方法，包括：第一，采集待检测设备的振动信号并进行数据预处理。第二，利用信号处理方法提取时域、频域、时频域特征，同时，利用基于双向长短期记忆网络的降噪自编码器提取深度表示特征。第三，基于上述特征，生成多个特征空间，并训练基聚类器；第四，利用选择性加权投票法融合各基聚类器结果，进行设备故障诊断。其中，第三和第四步骤用以构建设备故障诊断模型。具体来说，如图1所示，具体的说，该方法包括以下步骤：

步骤1，采集设备的振动信号并进行预处理，得到振动数据集记为D＝{x₁,x₂,...,x_i,…,x_n}，其中，为第i个振动样本，n为样本数量，m为每个样本的特征维数；

步骤2.1，提取第i个振动样本x_i的时域特征，如平均值、绝对振幅平均值、均方根、均方差、振幅平方根、最大值、最小值、峰峰值、偏态值、峭度值、脉冲因子等，记为其中，/>表示第i个振动样本x_i的第n₁种时域特征，N₁表示第i个振动样本x_i提取的时域特征个数；

步骤2.2，利用快速傅里叶变换提取第i个振动样本x_i的频域特征，如频率的平均数、频率的均方根、频率的根方差、频率的最大值、频率的最小值、频率的峰度值、频率的偏态值、频率的峰度因子、频率的偏态因子和频度中心等，记为其中，/>表示第i个振动样本x_i的第n₂种频域特征，N₂表示第i个振动样本x_i提取的频域特征个数；

步骤2.3，利用小波包变换提取第i个振动样本x_i的时频域特征，其中，在每个分解级别上，同时对低频子带和高频子带进行分解；树深度为q时，得到2^q个小波最终叶；通过计算小波最终叶节点的能量，并进行归一化，得到时频域特征，记为其中，表示第i个振动样本x_i的第n₃种时频域特征，N₃表示第i个振动样本x_i提取的时频域特征个数；

降噪自编码器包括输入模块、隐藏模块和输出模块，其中，输入模块和输出模块均由双向长短期记忆网络构成；

将第i个加噪后的振动样本划分为相同长度的T段，构成输入模块的输入数据向量/>其中，/>是输入模块中的双向长短期记忆网络的第i个前向输入数据，/>是输入模块中的双向长短期记忆网络的第i个后向输入数据；

双向长短期记忆网络中的重复模块，也称为细胞，由单元状态、输入门、遗忘门、输出门四部分组成，以前向隐藏层的第fw个细胞为例，转换函数如下所示：

式(1)-式(5)中，和/>分别是第i个振动样本在第fw个细胞的时间步t上的输入和输出向量,/>和/>分别是第i个振动样本在第fw个细胞的时间步t上的遗忘门、输入门和输出门，/>是第i个振动样本在第fw个细胞的时间步t上的单元状态向量，是解决长期依赖的关键。W、U是权重，b是偏差，/>是哈达玛积，σ是sigmoid函数；

将输入到输入模块中，同时经过输入模块的双向长短期记忆网络的前、后向隐藏层，在时间步T上输出输入模块的第i个输出特征向量

隐藏模块由q个隐藏层构成，且每个隐藏层有n_q个节点；

隐藏模块对第i个输出特征向量z_i进行编码，得到第i个编码结果其中，/>表示第i个振动样本在隐藏模块得到的第n₄个特征，N₄为特征个数；

对第i个编码结果进行解码，得到输出模块的第i个输入特征向量

其中，/>表示输出模块中的双向长短期记忆网络的第fw个细胞的第i个振动样本的前向隐藏层输入特征，/>表示输出模块中的双向长短期记忆网络的第bw个细胞的第i个振动样本的后向隐藏层输入特征；

将第i个输入特征向量z′_i输入到输出模块中，同时经过输出模块中的双向长短期记忆网络的前、后向隐藏层后，在时间步T上输出输出模块的第i个输出特征向量，并作为第i个重构的振动样本其中，/>表示输出模块中的双向长短期记忆网络的第fw个细胞在时间步T上的第i个振动样本的前向隐藏层输出特征，/>表示输出模块中的双向长短期记忆网络的第bw个细胞在时间步T上的第i个振动样本的后向隐藏层输出特征；

利用梯度下降法对基于双向长短期记忆网络的降噪自编码器进行训练，网络的代价函数为：

式(6)中T为输入节点数，l为编码-解码层序数，W_jt为编码-解码的权重矩阵，为正则项权值；为使y_i能够尽量重构原始振动样本x_i，通过迭代使得代价函数最小，得到网络的最优参数W和b；将达到最优时所对应的隐藏模块的编码结果作为所提取的深度表示特征，记为/>其中，/>表示第i个振动样本x_i的第n₄种深度表示特征；

步骤3，生成多个特征空间，分别训练基聚类器：

将时域特征F₁、频域特征F₂、时频域特征F₃、深度表示特征F₄组合成多个特征空间；记为L＝{l₁,l₂,...,l_v,...,l_V}，其中，l_v表示组合的第v个特征空间，V表示特征空间的数量；

步骤4.1，对齐各基聚类器；

一般认为相似的簇中应包含相似的振动样本，因此，对于来自不同基聚类器的每一对簇，计算它们重叠振动样本的数量；然后，将重叠振动样本数量最大的一对簇标记为相同的标签以进行匹配；具体步骤如下：

步骤4.1.1，随机选择一个训练后的基聚类器作为参考基聚类器C^(rand)；

步骤4.1.2，记参考基聚类器C^(rand)与任意的另一个基聚类器设为C^(s)构成一个重叠矩阵OL^(rand,s),(1≤rand,s≤R,rand≠s)，且k为各集聚类器所聚成簇的数量；重叠矩阵的公式如下：

式(7)中，为参考基聚类器中的任一簇，假设为第a个；/>为另一基聚类器C^(s)中的任一簇，假设为第b个；Count(A,B)是计算两个簇中重叠振动样本的个数的函数，表示该重叠矩阵中a行b列的值，为对应的两个簇的重叠样本的数量；参考基聚类器C^(rand)共与其余R-1个基聚类器构成R-1个重叠矩阵；

步骤4.1.3，对参考基聚类器C^(rand)所聚成的任一簇根据构成的R-1个重叠矩阵，分别从其余各基聚类器的簇中选出一个与之重叠样本数量最大的簇，并将它们标记为同一个标记；公式如式(8)和式(9)所示：

式(8)和式(9)中，(u,v)是重叠矩阵OL^(rand,s)中的最大值对应的坐标，Match(A,B)是通过将两个来自不同基聚类器的簇标记为同一标记的函数；在运行中，将已被标记的簇移出统计范围；

全部标记表示为标记向量λ＝{λ₁,λ₂,...,λ_g,...,λ_k}，其中，λ_g表示第g个标签，k表示标签的数量，标签数量与每个基聚类器所聚成簇的数量相等；

步骤4.1.4，当参考基聚类器C^(rand)中的所有簇均分别与其它基聚类器中的各个簇标记完成时，各基聚类器完成对齐，对齐的各基聚类器记为其中，/>表示第r个对齐后的基聚类器，R表示对齐后基聚类器的数量；

步骤4.2，利用式(10)得到对齐后的第r个基聚类器的权重w_r，从而得到对齐后的各基聚类器的权重w＝{w₁,w₂,...,w_r,...,w_R}：

式(10)中，ε表示归一化系数，表示对齐后的第r个基聚类器/>和对齐后的第s个/>之间的归一化互信息值(NormalizedMutualInformation,NMI)，NMI的计算公式如式(11)所示：

式(11)中，C^(r)与C^(s)是两个不同的基聚类器，k为每个基聚类器所聚成的簇的个数；假设表示C^(r)中的任一簇，/>表示C^(s)中的任一簇，则P_o表示某一振动样本在簇/>中的概率，P_w表示某一振动样本在簇/>中的概率，P_ow表示某一振动样本同时在簇/>和簇中的概率；权重越大，该基聚类器所包含的其它基聚类器所不包含的信息就越多，认为该基聚类器更重要；

下面以具体实例，针对本发明方法进行实验论证，具体内容如下：

1、数据集：

本实施例中使用帕德伯恩大学提供的轴承振动数据集作为标准数据集验证基于特征融合和集成聚类的设备故障诊断方法；数据集中，故障数据是通过在试验台上对机械零件缺陷进行实验再现获得的；试验台是一个模块化系统，由电动机、测力矩轴、滚动轴承测试模块、飞轮、负载电机组成。将不同损伤类型的球轴承安装在轴承测试模块中，进而获得实验数据。

为了系统地建立高质量的数据集，试验对6203型球轴承进行了不同类型的损伤，以考虑工业现实中多种工况下的轴承故障情况；轴承故障的三个主要类型是未损伤(健康)、人为损伤和加速寿命试验造成的实际损伤，按损伤位置又分球轴承的内圈和外圈的故障。实验中，对试验台内轴承运行的振动信号进行数字化保存，采样率为64kHz；此外，轴承转速为每分钟1500转，负载转矩为0.1Nm，径向力的轴承1000N。实验真实和人为损伤数据集列表如表1和表2所示；

表1真实损伤数据集列表

表2人为损伤数据集列表

轴承的正常状态和故障状态之间存在显著差异；为了进行故障诊断，本实施例中提取了16个时域特征、12个频域特征和32个时频域特征；此外，在利用基于双向长短期记忆网络的降噪自编码器提取深度表示特征时，设置隐藏模块的层数为1，节点数为128，使用Adam优化器，学习率设为0.001，训练150轮次，批次大小为32；

2、评价指标：

为了对本发明方法进行验证，采用设备故障领域常用的准确度(ACC)和标准互信息值(NMI)作为实验的评价指标；ACC和NMI越大则表示诊断效果越好；ACC的计算公式为

式(12)中，r_i和s_i分别表示振动样本x_i获得的标签和真实的标签，n是振动样本的总数量，map表示最佳类对象的重现分配，以确保统计的正确性；指标函数δ如式(13)所示；

此外，我们选择NMI作为另一个评价指标，其计算公式如式(11)所示；

3、实验结果

为了验证本发明所提出的基于特征融合和集成聚类的设备故障诊断方法的有效性；本实验在标准数据集上进行了设备故障诊断建模和故障诊断，选取了K均值聚类(K-Means Clustering，KMC)、随机采样(Random Sampling，RS)、随机特征(Random Feature，RF)、共协矩阵(Co-Association Matrix，CAM)、基于聚类的相似性划分算法(Cluster-based Similarity Partitioning Algorithm，CSPA)、元聚类算法(Meta-ClusteringAlgorithm，MCLA)和选择性加权投票(Selective Weighted Voting，SWV)7种方法进行比较；实验具体的参数设置如表3所示，

表3参数设置的详细信息

实验重复10次，将均值作为最终实验结果；实验结果如表4所示，最好的结果已通过加粗标明；

表4不同对比方法的实验结果

可以看出，基于特征融合和集成聚类的设备故障诊断方法在各评价指标下均优于对比方法，证明了本发明提出方法的有效性和可行性。

Claims

1.一种基于特征融合和集成聚类的设备故障诊断方法，其特征在于，包括如下步骤：

步骤1，采集设备的振动信号并进行预处理，得到振动数据集记为D＝{x₁,x₂,...,x_i,...,x_n}，其中，为第i个振动样本，n为样本数量，m为每个样本的特征维数；

步骤2.1，提取第i个振动样本x_i的时域特征，记为其中，表示第i个振动样本x_i的第n₁种时域特征，N₁表示第i个振动样本x_i提取的时域特征个数；

在第i个振动样本x_i上加入高斯噪声得到第i个加噪后的振动样本/> 其中，m为噪声维数；

其中，/>表示输入模块中的双向长短期记忆网络的第fw个细胞在时间步T上的第i个振动样本的前向隐藏层输出特征，表示输入模块中的双向长短期记忆网络的第bw个细胞在时间步T上的第i个振动样本的后向隐藏层输出特征；

所述隐藏模块由q个隐藏层构成，且每个隐藏层有n_q个节点；

将第i个输入特征向量z′_i输入到所述输出模块中，同时经过输出模块中的双向长短期记忆网络的前、后向隐藏层后，在时间步T上输出所述输出模块的第i个输出特征向量，并作为第i个重构的振动样本其中，表示所述输出模块中的双向长短期记忆网络的第fw个细胞在时间步T上的第i个振动样本的前向隐藏层输出特征，/>表示所述输出模块中的双向长短期记忆网络的第bw个细胞在时间步T上的第i个振动样本的后向隐藏层输出特征；

步骤3，生成多个特征空间，分别训练基聚类器：

基于每个特征空间，分别利用K均值聚类方法对基聚类器训练，得到训练后的基聚类器记为C＝{C⁽¹⁾,C⁽²⁾,...,C^(r),...,C^(R)}，其中，C^(r)表示第r个训练后的基聚类器，R表示基聚类器的数量；将第r个训练后的基聚类器C^(r)的聚类结果表示为其中，表示第r个训练后的基聚类器C^(r)聚成的第e个簇，k表示聚成簇的数量；

步骤4.1，对齐各基聚类器：

随机选择一个训练后的基聚类器作为参考基聚类器C^(rand)，对参考基聚类器C^(rand)中的每一个簇，均在其余R-1个训练后的基聚类器所聚成的簇中各选出一个与参考基聚类器C^(rand)中的簇的振动样本重叠数量最多的簇，并将参考基聚类器C^(rand)中的簇与所选出的重叠样本数量最多的簇标记为同一个标记；从而完成参考基聚类器C^(rand)中的所有簇均分别与其它基聚类器中的各个簇的标记，并得到对齐后的R个基聚类器记为其中，/>表示第r个对齐后的基聚类器；