CN116894215A

CN116894215A - 一种基于半监督动态图注意的齿轮箱故障诊断方法

Info

Publication number: CN116894215A
Application number: CN202310901165.5A
Authority: CN
Inventors: 陶洪峰; 史浩进; 邱吉尔
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-17
Anticipated expiration: 2043-07-20
Also published as: CN116894215B

Abstract

本发明公开了一种基于半监督动态图注意的齿轮箱故障诊断方法，涉及故障诊断技术领域，该方法包括：从齿轮箱原始振动信号中得到固定长度诊断样本，再经过FFT作为图注意网络输入的KNN图节点；采用池化策略计算图节点间的模糊距离，引入动态注意力机制解决静态图注意网络对不同类节点权重分配相似的问题，构建动态多头图注意齿轮箱故障诊断模型并使用Softmax函数作为分类器，在少标签样本情况下通过标签传播算法实现半监督学习；利用Adam优化器通过反向传播方法进行模型训练，保存训练完成的故障诊断模型进行在线诊断。在动态图注意网络中添加丢弃层防止少标签样本下训练数据不足引起的过拟合，实现少数据量下的高精准度故障诊断。

Description

一种基于半监督动态图注意的齿轮箱故障诊断方法

技术领域

本发明涉及故障诊断技术领域，尤其是一种基于半监督动态图注意的齿轮箱故障诊断方法。

背景技术

齿轮箱是机械设备中常用的传动装置，具有体积小、传动比大、效率高的优点，被广泛应用于直升机、风力涡轮机、混合动力汽车等设备。然而，由于其长期处于高速运行、负载变化的工况下，极易发生齿断裂、磨损等失效性故障，如果不及时处理可能引发重大安全事故。因此对行星齿轮箱进行智能高效的故障诊断对保障设备安全运行具有重大意义。

由于齿轮箱振动信号包含丰富的故障信息，且振动信号测量和记录的成本较低，因此基于振动信号进行故障特征提取是齿轮箱故障诊断的主流方向。然而振动信号具有非线性和非平稳属性，早期故障特征容易被噪声淹没，因此其中的故障信息很难通过基于模型的方法进行分析提取。而仅基于信号处理技术的传统故障诊断方法需要借助大量专家经验和先验知识，且准确率很难提高。

随着机器学习技术的发展，采用基于数据驱动的故障诊断方法可以自适应地提取行星齿轮箱振动信号中地故障相关信息，高效精准地实现故障分类。然而在实际情况下，由于行星齿轮箱相关设备造价昂贵，导致故障样本标记成本较高，可用于训练模型的有标签故障样本数据有限，基于监督学习的故障诊断方法准确率无法达到要求。且传统半监督网络往往是通过先提取有标签样本中的故障特征，再拓展到无标签样本集，虽然可以降低数据集标记率的要求，但对于极低标记率的情况，仅从有标签样本中提取的故障信息十分有限，易发生过拟合问题。因此，需要更为先进的半监督学习算法以解决极少样本下的齿轮箱故障诊断问题。

发明内容

本发明人针对上述问题及技术需求，提出了一种基于半监督动态图注意的齿轮箱故障诊断方法，本发明的技术方案如下：

一种基于半监督动态图注意的齿轮箱故障诊断方法，包括如下步骤：

步骤一：获取齿轮箱不同故障类型下的少量已知故障类型的振动信号与大量未知故障类型的振动信号，振动信号为一维时序数据；

步骤二：利用固定长度的滑动窗口截取一维时序数据构建样本数据集，并根据实际故障类型设置已知的样本标签；按照预设比例将所得样本数据集划分成训练集、验证集与测试集；训练集包含有标签和无标签样本，验证集与测试集仅包含有标签样本；

步骤三：将训练集、验证集与测试集中的样本作为图节点分别构建最近邻聚类(KNN)图，其中：

KNN图作为后续动态图注意网络的输入，包括图节点集和边集；图节点为各集合经过归一化和快速傅里叶变换所得齿轮箱振动信号的频谱序列；边集为根据图节点之间的相似度确定节点间是否存在边来获取，图节点之间的相似度基于模糊欧式距离计算，模糊欧氏距离为利用池化函数对图节点进行处理后的节点间欧式距离；

步骤四：构建动态图注意网络，其中：

动态图注意网络包括图节点特征聚合网络及末端分类网络；

图节点特征聚合网络包括图注意层与批归一化层，输入为KNN图，输出为维度相同的特征向量，其维度等于故障类别，表示对应故障的预测概率；图注意层引入动态图注意和多头注意力机制；末端分类网络包括依次相连的第一全连接层、丢弃层、第二全连接层和Softmax分类器；其中两层全连接层的激活函数选用Relu；

步骤五：将训练集的KNN图输入动态图注意网络进行半监督训练并调优，其中：

半监督训练为将训练集的KNN图输入至动态图注意网络得到各个有标签图节点的预测输出，再与该有标签图节点的真实值计算交叉熵损失，使用动态裁剪优化的Adam优化器反向传播优化网络参数，当训练到一定Epoch后根据无标签图节点的预测输出赋予其伪标签，将伪标签图节点加入训练集中进行标签传播，直到训练损失稳定到设定值以下或达到迭代次数，并根据动态图注意网络在验证集上的表现调优内部超参数，即先调优KNN图参数，基于最优KNN图参数再按照本步骤调优网络参数，从而得到最优故障诊断模型；

步骤六：将测试集中的待检测振动信号样本按照一定长度进行截取，按照步骤三中的方法构建KNN图，再输入至步骤五得到的最优故障诊断模型，得到故障诊断结果。

其进一步的技术方案为，在步骤三中：

KNN图的结构表示为：

G＝(H,A)；

式中，H＝{h₁,h₂,...,h_n}∈R^n×d，代表图中节点的集合，h是节点，n是节点总数，d是节点特征维数，A∈R^n×n是节点之间边信息构成的邻接矩阵；

原始振动信号经过归一化和快速傅里叶变换后，由于对称性取一半频谱序列，即图节点向量维度为1024；节点之间基于模糊欧式距离的大小作为相似度度量，每个图节点在与其距离最小的其他节点中选取一定个数的节点形成边连接，模糊欧式距离的计算公式为：

式中，是节点h_i的第q个位置对应的值，L_ij是节点h_i和节点h_j之间的距离，P(·)表示池化函数，d'是节点池化后的特征维度；

根据此距离对图节点集合H进行KNN聚类，将边信息记录到邻接矩阵A_ij中，表示为：

A_ij＝KNN(k,L_ij,Ω_i)；

式中，k是KNN图的参数，表示对任一节点h_i，有k个其它节点与h_i相连，Ω_i＝{L_i1,L_i2,…,L_in}是其他节点与h_i的升序距离集合，如果则KNN(·)＝1，表示节点h_i和节点h_j之间存在边，否则KNN(·)＝0，表示节点h_i和节点h_j之间不存在边。

其进一步的技术方案为，在步骤四中：

图节点特征聚合网络结构包括依次相连的第一动态图注意层、第一批归一化层、第二动态图注意层和第二批归一化层；

静态图注意虽然采用注意力机制计算节点对其他节点的注意力系数，但是只是静态注意，这意味着对图中不同的节点来说，对于其他节点的注意力系数分布是类似的，这降低了模型的表达能力，不符合对注意力实际的要求，即不同节点对其他节点的注意力系数分布应该不同，这样才能在信息聚合时区分不同类别的节点信息。因此本申请设计的第一和第二动态图注意层是在静态图注意中引入动态注意力，计算公式为：

式中，l为网络层数，是节点h_i在第l层对应的值，W^(l)为可学习的权重矩阵；||表示向量拼接，使用前馈神经网络将拼接向量映射到实数上；LeakyRelu(·)为激活函数，/>是节点/>对节点/>的注意力系数，/>是节点/>对节点/>的注意力权重，结构为前馈神经网络；

为了更好的分配注意力权重使用Softmax函数进行标准化，按照分配的注意力权重进行相邻节点的线性累加得到图注意层的输出，标准化计算公式为：

式中，N(i)表示与节点相邻的所有节点组成的集合，q∈N(i)表示该集合中的节点；

为了使注意力更稳定地发挥作用，本申请引入多头注意力机制来提高模型特征提取能力，用K代表注意力头数进行多次注意力聚合操作，得到第l层图注意层的最终更新输出为：

式中，σ(·)为Sigmoid激活函数，是节点h_i在第l层网络进行信息聚合后更新的节点向量，k₁表示第k₁个设定的注意力头。

其进一步的技术方案为，在步骤四中：

丢弃层为防止方法在少标签样本的情况下发生过拟合而采用的随机失活操作，丢弃层的计算公式为：

式中，l为网络层数，r^(l)是由Bernoulli(·)函数以概率p随机生成的0或1组成的向量，下标i、j表示维度；y^(l)为上层提供的本层输入向量，为根据概率向量r^(l)将y^(l)对应维度的值随机失活后的向量；/>为失活后的向量经过线性变换的输出，/>和/>为下层线性变换的参数；f(·)为激活函数，/>为本层的输出。

其进一步的技术方案为，在步骤四中：

图节点特征聚合网络结构包括依次相连的第一动态图注意层、第一批归一化层、第二动态图注意层和第二批归一化层；其中，第一和第二批归一化层能通过调整协变量偏移，改善训练性能；对于批量输入的样本x_i，第一和第二批归一化层均包含以下操作：

式中，μ为均值，σ²为方差，m为输入样本总数，ε为常数，γ和β为可学习参数，为第一和第二批归一化层的输出。

其进一步的技术方案为，在步骤四中：

Softmax分类器是一种监督学习分类器，输出为一维特征向量，向量各位置的值对应相应故障类型的概率；假设训练集分为C个故障类型，记第i个样本的预测输出为p_i(p_i∈1,2,...,c)，输入样本x_i属于第c类的概率用P(p_i＝c|x_i)表示，则Softmax分类器输出的各位置的值g_w,b(x_i)表示为：

式中，w^c和b^c分别是各故障类型的参数；Softmax分类器的最终分类结果为拥有最大概率值维度所对应的故障类型。

其进一步的技术方案为，在步骤二中：

每个滑动窗口取相同大小的尺寸2048，截取方式为使已知和未知故障类型振动信号的相应窗口存在重叠的划窗截取采样；训练集、验证集与测试集比例为1：5：15，样本标签设置为1,2,…,C，C为齿轮箱实际故障类型总数。

其进一步的技术方案为，在步骤五中：

交叉熵损失函数与Softmax分类器组合使用来计算预测故障类型与真实故障类型的差异程度，以最小化损失函数为目标进行反向传播更新模型内部参数，交叉熵损失函数的数学表达式为：

式中，n为样本总数；C为齿轮箱实际故障类型总数；d_ic为第i个样本属于第c类故障的预测分布，y_ic为第i个样本属于第c类故障的真实值；

伪标签为Softmax分类器的输出向量中拥有最大概率值维度所对应的故障类型，表示为独热编码，伪标签yl_i由下式确定：

yl_i＝argmax(F_i(c))；

式中，F_i(c)＝d_ic表示第i个样本的预测输出向量对应类别c的预测概率；

Adam优化器的迭代过程如下：

式中，m_t和n_t为目标函数梯度g_t的一阶矩阵和二阶矩阵，t表示当前迭代批次，t-1表示上一迭代批次；β₁和β₂表示矩阵指数衰减速率，和/>是对m_t和n_t的校正；θ表示模型参数，η表示学习率，ε为常数，通常取10^-8；

动态裁剪即对学习率进行动态裁剪，给定学习率的上下界，稳定后期模型收敛。

本发明的有益技术效果是：

1)本申请提出的基于半监督动态图注意的齿轮箱故障诊断方法，结合图神经网络能聚合无标签故障样本信息的优势，从而更好地联系有标签样本和无标签样本，从无标签样本中直接提取故障特征。

2)针对频谱序列数据在利用欧式距离度量比较相似度时，各维度无法完全对应的问题，提出将模糊距离作为相似度度量。在构建KNN图时引入池化策略进行距离模糊，提高相似度度量的准确性，选择合适的池化方式，在不添加特征提取网络的前提下提升KNN图聚类的准确率。

3)本申请能够通过构建的半监督动态图注意网络，自动学习到低层特征，克服静态注意性能有限的问题，强化注意力机制对不同类别故障的关注和区分度。使用伪标签传播进一步利用无标签样本的信息，能在极少有标签样本的情况下实现较高的诊断精度。

附图说明

图1是本申请提供的齿轮箱故障诊断方法的流程图。

图2是本申请提供的构建KNN图的流程图。

图3是本申请提供的半监督动态图注意网络的结构图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。

本申请提供了一种基于半监督动态图注意的齿轮箱故障诊断方法，如图1所示，该方法的具体实施方式包括以下步骤：

步骤一：通过信号采集设备获取齿轮箱不同故障类型下的振动信号。

步骤二：划分少量有标签样本集和大量无标签样本集，其中标签类别包括正常状态、滚动体故障、内圈故障、外圈故障、混合故障、断齿故障、缺齿故障、齿裂故障以及根裂故障，即C＝9。9种类别对应标签1、2、3、4、5、6、7、8、9。训练时采用独热编码，例如，若为标签“2”则对应独热编码是[010000000]。

由于实际工况下获取有标签故障样本成本很高，因此训练集中每类故障样本设定变化标记率，且训练集样本数量极少，剩余样本用作验证与测试，以验证提出的方法在少标签样本下的诊断性能，划分的数据集如表1所示。

表1数据集

表中样本数据采用固定长度重叠划窗的方式从齿轮箱原始振动信号中截取实验数据，按比例1：5：15划分成训练集、验证集和测试集。其中划窗大小为2048，通过归一化和快速傅里叶变换后由于对称性取一半频谱序列，转为KNN图节点的样本频谱序列最终维度为1024。

步骤三：构建KNN图，其流程如图2所示。

由于图节点为齿轮箱振动信号经过FFT变换后的频谱序列，如果直接计算欧式距离作为相似度度量，过于严格的位置对应关系将影响基于欧氏距离进行相似度判断的准确性，因此提出使用一种“模糊距离”来判断节点之间的相似度，即对节点采用合适的池化方式模糊节点各位置值的对应关系后再进行欧式距离计算。KNN图参数包括各节点连边数k、池化方式P(·)以及池化后的维度d'，通过后续训练网络对上述图参数进行调优。

步骤四：构建动态图注意网络，其结构如图3所示。

网络初始参数设置为：第一动态图注意层的输入维度为图节点维度即1024，输出维度为1024，采用4头注意力；第二动态图注意层的输入维度为1024*4，采用4头注意力，输出维度为1024*4；第一全连接层的输入维度为1024*4，输出维度为1024；第二全连接层的输入维度为1024，输出维度为9。

步骤五：将训练集中的有标签样本和无标签样本输入至半监督动态图注意网络进行训练，设置学习率为0.001，训练上限为250个Epoch，批量大小为32。首先在网络初始参数情况下调整KNN图参数，寻优KNN图参数。在确认最优KNN图参数后，进一步调优网络参数。具体的：

1)在前1-50个Epoch仅对有标签图节点计算交叉熵损失进行训练，由于图神经网络的特点，此时可以根据KNN图中确定的边聚合无标签图节点的信息。

2)50个Epoch之后开始标签传播，之后每个Epoch选取预测概率最大的无标签图节点赋予伪标签，并将其加入训练。

3)根据动态图注意网络在验证图集上的表现选择最优KNN图参数，不同KNN图参数下的模型诊断精度如表2所示。

表2不同KNN图参数下的模型诊断精度

由表2可知，本实施方案中的KNN图参数最优设置为：节点连边数k为5，P(·)采用最大池化函数，池化后维度d'为64。

4)更新最优KNN图参数后，根据动态图注意网络在验证图集上的表现调优网络参数。

步骤六：将测试集的KNN图输入到在最优参数下训练完成的齿轮箱故障诊断模型中进行在线故障诊断，得到诊断结果，测试模型故障诊断性能。

以上所述的仅是本申请的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种基于半监督动态图注意的齿轮箱故障诊断方法，其特征在于，所述方法包括：

步骤一：获取齿轮箱不同故障类型下的少量已知故障类型的振动信号与大量未知故障类型的振动信号，所述振动信号为一维时序数据；

步骤二：利用固定长度的滑动窗口截取所述一维时序数据构建样本数据集，并根据实际故障类型设置已知的样本标签；按照预设比例将所得样本数据集划分成训练集、验证集与测试集；所述训练集包含有标签和无标签样本，所述验证集与所述测试集仅包含有标签样本；

步骤三：将训练集、验证集与测试集中的样本作为图节点分别构建KNN图，其中：

所述KNN图作为后续动态图注意网络的输入，包括图节点集和边集；所述图节点为各集合经过归一化和快速傅里叶变换所得齿轮箱振动信号的频谱序列；所述边集为根据图节点之间的相似度确定节点间是否存在边来获取，所述图节点之间的相似度基于模糊欧式距离计算，所述模糊欧氏距离为利用池化函数对所述图节点进行处理后的节点间欧式距离；

步骤四：构建动态图注意网络，其中：

所述动态图注意网络包括图节点特征聚合网络及末端分类网络；

所述图节点特征聚合网络包括图注意层与批归一化层，输入为所述KNN图，输出为维度相同的特征向量，其维度等于故障类别，表示对应故障的预测概率；所述图注意层引入动态图注意和多头注意力机制；所述末端分类网络包括依次相连的第一全连接层、丢弃层、第二全连接层和Softmax分类器；

步骤五：将所述训练集的KNN图输入所述动态图注意网络进行半监督训练并调优，其中：

所述半监督训练为将所述训练集的KNN图输入至所述动态图注意网络得到各个有标签图节点的预测输出，再与该有标签图节点的真实值计算交叉熵损失，使用动态裁剪优化的Adam优化器反向传播优化网络参数，当训练到一定Epoch后根据无标签图节点的预测输出赋予其伪标签，将伪标签图节点加入训练集中进行标签传播，直到训练损失稳定到设定值以下或达到迭代次数，并根据所述动态图注意网络在所述验证集上的表现调优内部超参数，得到最优故障诊断模型；

步骤六：将所述测试集中的待检测振动信号样本按照一定长度进行截取，按照步骤三中的方法构建KNN图，再输入至步骤五得到的所述最优故障诊断模型，得到故障诊断结果。

2.根据权利要求1所述的基于半监督动态图注意的齿轮箱故障诊断方法，其特征在于，在所述步骤三中：

所述KNN图的结构表示为：

G＝(H,A)；

原始振动信号经过归一化和快速傅里叶变换后，由于对称性取一半频谱序列；节点之间基于模糊欧式距离的大小作为相似度度量，每个图节点在与其距离最小的其他节点中选取一定个数的节点形成边连接，所述模糊欧式距离的计算公式为：

A_ij＝KNN(k,L_ij,Ω_i)；

式中，k是所述KNN图的参数，表示对任一节点h_i，有k个其它节点与h_i相连，Ω_i＝{L_i1,L_i2,…,L_in}是其他节点与h_i的升序距离集合，如果则KNN(·)＝1，表示节点h_i和节点h_j之间存在边，否则KNN(·)＝0，表示节点h_i和节点h_j之间不存在边。

3.根据权利要求1所述的基于半监督动态图注意的齿轮箱故障诊断方法，其特征在于，在所述步骤四中：

图节点特征聚合网络结构包括依次相连的第一动态图注意层、第一批归一化层、第二动态图注意层和第二批归一化层；其中，第一和第二动态图注意层的计算公式为：

为了更好的分配注意力权重使用Softmax函数进行标准化，按照分配的注意力权重进行相邻节点的线性累加得到所述图注意层的输出，标准化计算公式为：

引入所述多头注意力机制来提高模型特征提取能力，用K代表注意力头数进行多次注意力聚合操作，得到第l层图注意层的最终更新输出为：

4.根据权利要求1所述的基于半监督动态图注意的齿轮箱故障诊断方法，其特征在于，在所述步骤四中：

所述丢弃层为防止方法在少标签样本的情况下发生过拟合而采用的随机失活操作，所述丢弃层的计算公式为：

5.根据权利要求1所述的基于半监督动态图注意的齿轮箱故障诊断方法，其特征在于，在所述步骤四中：

图节点特征聚合网络结构包括依次相连的第一动态图注意层、第一批归一化层、第二动态图注意层和第二批归一化层；对于批量输入的样本x_i，第一和第二批归一化层均包含以下操作：

式中，μ为均值，σ²为方差，m为输入样本总数，ε为常数，γ和β为可学习参数，为所述第一和第二批归一化层的输出。

6.根据权利要求1所述的基于半监督动态图注意的齿轮箱故障诊断方法，其特征在于，在所述步骤四中：

所述Softmax分类器是一种监督学习分类器，输出为一维特征向量，向量各位置的值对应相应故障类型的概率；假设所述训练集分为C个故障类型，记第i个样本的预测输出为p_i(p_i∈1,2,...,c)，输入样本x_i属于第c类的概率用P(p_i＝c|x_i)表示，则所述Softmax分类器输出的各位置的值g_w,b(x_i)表示为：

式中，w^c和b^c分别是各故障类型的参数；所述Softmax分类器的最终分类结果为拥有最大概率值维度所对应的故障类型。

7.根据权利要求1所述的基于半监督动态图注意的齿轮箱故障诊断方法，其特征在于，在所述步骤二中：

每个所述滑动窗口取相同大小的尺寸2048，截取方式为使已知和未知故障类型振动信号的相应窗口存在重叠的划窗截取采样；所述训练集、验证集与测试集比例为1：5：15，所述样本标签设置为1,2,…,C，C为齿轮箱实际故障类型总数。

8.根据权利要求1所述的基于半监督动态图注意的齿轮箱故障诊断方法，其特征在于，在所述步骤五中：

交叉熵损失函数与所述Softmax分类器组合使用来计算预测故障类型与真实故障类型的差异程度，以最小化损失函数为目标进行反向传播更新模型内部参数，所述交叉熵损失函数的数学表达式为：

所述伪标签为所述Softmax分类器的输出向量中拥有最大概率值维度所对应的故障类型，表示为独热编码，伪标签yl_i由下式确定：

yl_i＝argmax(F_i(c))；

所述Adam优化器的迭代过程如下：

式中，m_t和n_t为目标函数梯度g_t的一阶矩阵和二阶矩阵，t表示当前迭代批次，t-1表示上一迭代批次；β₁和β₂表示矩阵指数衰减速率，和/>是对m_t和n_t的校正；θ表示模型参数，η表示学习率，ε为常数；

对所述学习率进行动态裁剪，给定学习率的上下界，稳定后期模型收敛。