CN113281029B

CN113281029B - 一种基于多尺度网络结构的旋转机械故障诊断方法及系统

Info

Publication number: CN113281029B
Application number: CN202110652071.XA
Authority: CN
Inventors: 周晔; 尚赵伟
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2022-03-15
Anticipated expiration: 2041-06-09
Also published as: CN113281029A

Abstract

本发明公开了一种基于多尺度网络结构的旋转机械故障诊断方法及系统。该方法包括：采集旋转机械的运转数据，将运转数据输入故障诊断卷积神经网络，故障诊断神卷积神经网络输出诊断结果；在故障诊断卷积神经网络中：将不同层级卷积层输出的特征在通道维度上进行融合，并将融合后的特征作为后续网络的输入；通过空间注意力机制获得全部或部分卷积层输出特征的权重，将权重与该卷积层的输出特征相乘获得缩放后的特征，将缩放后的特征作为该卷积层后级连接的池化层的输入。故障诊断卷积神经网络可以在不同分布训练数据和测试数据上具有较高的迁移能力，在不同转速和不同负载下的数据集上获得相当高的准确性和迁移性。

Description

一种基于多尺度网络结构的旋转机械故障诊断方法及系统

技术领域

本发明涉及机械故障诊断技术领域，特别是涉及一种基于多尺度网络结构的旋转机械故障诊断方法及系统。

背景技术

随着工业生产和科学技术的发展，现代机械设备的结构越来越复杂，自动化程度不断提高，工作效率也越来越高。但是，这些设备一旦发生故障，将会影响整个系统的运行，最终可能会造成巨大的经济损失和安全后果。所以故障诊断在现代工业中起着重要的作用。

旋转机械故障诊断是一种故障检测、隔离和识别的技术，可以应用于掌握设备运行状态的信息。故障诊断的基本任务有三个：(1)判断设备是否正常；(2)找出早期故障及其原因；(3)预测故障发展趋势。因此，故障诊断本质上可以看作是一个旋转机械状态的模式识别问题。

现有的故障诊断方法可以分为两大类：基于物理模型的方法和基于数据驱动的方法。基于物理模型的方法需要建立一个全面的数学模型来描述系统的物理特征和故障模式。尽管一些基于物理的模型可以解决非平稳工业过程的故障诊断问题，甚至不需要历史故障数据，但它们过分依赖高质量的领域知识，并且对于复杂的机械系统，物理模型的建立变得非常困难，这需要大量的计算和时间成本，限制了基于物理的模型方法的有效性和灵活性，从而降低了故障诊断的整体效率。

为了克服基于物理模型的方法的局限性，提出了另一类故障诊断方法——基于数据驱动的故障诊断方法。基于数据驱动的方法从历史数据中提取特征，然后利用机器学习算法来进行故障诊断，从而减少了对专家领域知识的依赖。由于其鲁棒性和自适应能力，近年来，基于机器学习，尤其是深度学习的智能故障诊断已变得很流行并取得了许多最新的研究成果。

基于数据驱动的故障诊断方法正在广泛地被研究。支持向量机(SVM)，k最近邻(KNN)，人工神经网络(ANN)，卷积神经网络(CNN)，递归神经网络(RNN)，自动编码器(AE)及其变体等已被广泛用于故障诊断。特别是深度卷积神经网络(DCNN)是目前故障诊断研究较多的。深度卷积神经网络可以通过具有多层数据处理单元的深层架构从输入数据中学习多层表示。每一层都可以从其前一层输出中学习更高级的数据表示。因此，深度卷积神经网络可以自动从输入数据中提取多个复杂特征，而无需人工参与。尽管现有的方法已经取得了较大的成功，但是上述提出的方法仍然存在很大的局限性：基于数据驱动方法是在相同分布的假设基础上建立的，训练数据和测试数据是在相同的工作条件或设备下收集得到的。这意味着这些方法仅适用于训练数据和测试数据处于相同工作条件的情况。但是，在实际情况下，机器总是在不平稳的工作条件运行，在这种状况下，负载、转速、温度等因素的配置各不相同，并且不断波动，导致训练数据和测试数据之间存在较大差异。例如滚动轴承故障诊断问题，分类器是根据在特定的电动机速度和负载下采集的非常具体平稳的数据类型训练的，但是，故障诊断实际应用在的是识别在另一个电动机速度和负载下收集的测试数据。这些大大降低了现有方法的性能。所以，对于在不同的工作条件下，对模型的迁移能力有很高的要求。因此，本发明提出一种可以在不同工作条件下获取较高准确率的故障诊断新方法。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于多尺度网络结构的旋转机械故障诊断方法及系统。

为了实现本发明的上述目的，根据本发明的第一个方面，本发明提供了一种基于多尺度网络结构的旋转机械故障诊断方法，包括：采集旋转机械的运转数据，将所述运转数据输入故障诊断卷积神经网络，所述故障诊断神卷积神经网络输出诊断结果；在所述故障诊断卷积神经网络中：将不同层级卷积层输出的特征在通道维度上进行融合，并将融合后的特征作为后续网络的输入；通过空间注意力机制获得全部或部分卷积层输出特征的权重，将所述权重与该卷积层的输出特征相乘获得缩放后的特征，将缩放后的特征作为该卷积层后级连接的池化层的输入。

上述技术方案：通过将不同层级卷积层输出的特征在通道维度上进行融合，并将融合后的特征作为后续网络的输入，实现了提取不同尺度和不同抽象层级的特征，将提取到的细节信息与高级语义特征相融合，能够减少信息损失，提高特征利用率，能够获得高级特征，使网络性能得到提升；同时，在网络中加入空间注意力机制提取卷积层的关键信息，进一步提高网络整体性能。通过上述两方面改进，使得故障诊断卷积神经网络可以在不同分布训练数据和测试数据上具有较高的迁移能力，在不同转速和不同负载下的数据集上获得相当高的准确性和迁移性。

在本发明的一种优选实施方式中，所述故障诊断卷积神经网络包括依次连接的输入层、第一空间注意力机制层、卷积特征融合层、第二空间注意力机制层、第三空间注意力机制层、全连接层和输出层；所述第一空间注意力机制层包括第一卷积层、第一空间注意力网络和第一池化层；所述第二空间注意力机制层包括第二空间注意力网络和第二池化层；所述第三空间注意力机制层包括第三卷积层、第三空间注意力网络和第三池化层；所述卷积特征融合层包括多个级联的子卷积层和融合模块，所述融合模块将最后一个子卷积层的输出特征与其之前的至少一个子卷积层的输出特征进行融合，并将融合后的特征输入第二空间注意力机制层。

上述技术方案：该网络结构中设置三个空间注意力网络和一个卷积特征融合层，可以在不同分布训练数据和测试数据上具有较高的准确率和迁移能力。

在本发明的一种优选实施方式中，将所述全连接层替换为级联的第四卷积层和第四池化层，所述第四卷积层的输入端与第三空间注意力机制层的输出端连接，第四池化层的输出端与输出层的输入端连接。

上述技术方案：利用第四卷积层和第四池化层替代常用的全连接层，在减少网络参数量的同时，还能减少由全连接层所带来的过拟合风险。

在本发明的一种优选实施方式中，所述第一卷积层、第二卷积层、第三卷积层、以及卷积特征融合层中的子卷积层中至少一个包括级联的卷积运算模块、激活函数模块和BN层。

上述技术方案：采用激活函数和BN结构，能够加快网络的收敛速度，增加网络的非线性，防止梯度爆炸和梯度消失。

在本发明的一种优选实施方式中，所述第一池化层、第二池化层和第三池化层采用最大池化层，且步长为4。

上述技术方案：经过池化层的特征具有平移不变性，并且可以减小空间尺寸，使得计算复杂度降低并有效地控制过度拟合的风险，同时一定程度上去除了部分噪声。

在本发明的一种优选实施方式中，第一空间注意力网络或第二空间注意力网络或第三空间注意力网络的输出为Sp(F)：Sp(F)＝σ(f^n×1([F_avg；F_max]))；其中，σ(·)表示sigmoid操作；f^n×1(·)表示卷积操作，n×1表示卷积操作中卷积核的大小，n为正整数；F表示第一空间注意力网络或第二空间注意力网络或第三空间注意力网络的输入特征；F_avg表示对输入特征F平均池化处理后的结果；F_max表示对输入特征F最大池化处理后的结果。

上述技术方案：通过对特征F沿通道应用平均池和最大池操作，并将它们连接起来以生成有效的特征描述符，然后采用sigmoid函数对各个位置分配注意力权重，达到强调有用特征抑制无用特征的目的。

在本发明的一种优选实施方式中，将不同层级卷积层输出的特征在通道维度上进行融合，融合后的增量尺度之和f'为：

其中，Conv表示卷积核为3×1的卷积层，f表示进行特征融合的卷积层输出的特征，t表示特征f的尺度，t＞1，Conv^t表示叠加了t个尺度为3的卷积层，T为正整数且T大于t。

在本发明的一种优选实施方式中，所述故障诊断卷积神经网络的训练过程为：获取旋转机械在不同转速和不同负载下的多个运转数据样本，将多个运转数据样本划分为训练集和测试集；构建故障诊断卷积神经网络；以交叉熵函数作为损失函数，分别利用训练集和测试集对所述故障诊断卷积神经网络进行迭代训练和测试，并根据训练和测试结果不断更新故障诊断卷积神经网络参数直至训练集和测试集的损失函数值的变化值小于变化阈值时停止迭代。

上述技术方案：采用不同分布的数据集作为训练集和测试集，有利于故障诊断卷积神经网络能够在不同分布的数据上具有较高的准确性和迁移能力，交叉熵损失的梯度只和正确分类的预测结果有关，这样对网络进行参数更新时只会让正确的分类更大，而不影响其他分类情况。

为了实现本发明的上述目的，根据本发明的第二个方面，本发明提供了一种基于多尺度网络结构的旋转机械故障诊断系统，包括：数据获取模块，采集旋转机械的运转数据，将所述运转数据输入故障诊断卷积神经网络；故障诊断模块，利用故障诊断神卷积神经网络对所述运转数据进行处理并输出诊断结果；在所述故障诊断卷积神经网络中：将不同层级卷积层输出的特征在通道维度上进行融合，并将融合后的特征作为后续网络的输入；通过空间注意力机制获得全部或部分后级连接有池化层的卷积层的输出特征的权重，将所述权重与该卷积层的输出特征相乘获得缩放后的特征，将缩放后的特征作为该卷积层后级连接的池化层的输入。

上述技术方案：该系统通过将不同层级卷积层输出的特征在通道维度上进行融合，并将融合后的特征作为后续网络的输入，实现了提取不同尺度和不同抽象层级的特征，将提取到的细节信息与高级语义特征相融合，能够减少信息损失，提高特征利用率，能够获得高级特征，使网络性能得到提升；同时，在网络中加入空间注意力机制提取卷积层的关键信息，进一步提高网络整体性能。通过上述两方面改进，使得故障诊断卷积神经网络可以在不同分布训练数据和测试数据上具有较高的迁移能力，在不同转速和不同负载下的数据集上获得相当高的准确性和迁移性。

附图说明

图1是本发明一具体实施方式中基于多尺度网络结构的旋转机械故障诊断方法的流程示意图；

图2是本发明是基于多尺度网络结构的旋转机械故障诊断方法在一种应用场景中的流程示意图；

图3是本发明一具体实施方式中空间注意力机制原理示意图；

图4是本发明一具体实施方式中故障诊断卷积神经网络结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明公开了一种基于多尺度网络结构的旋转机械故障诊断方法，在一种优选实施方式中，如图1所示，包括：

步骤S1，采集旋转机械的运转数据。该运转数据优选但不限于为旋转机械运转时的振动信号、转动角加速度信号、表面应变信号。

步骤S2，将运转数据输入故障诊断卷积神经网络。在故障诊断卷积神经网络中：将不同层级卷积层输出的特征在通道维度上进行融合，并将融合后的特征作为后续网络的输入；通过空间注意力机制获得全部或部分卷积层输出特征的权重，将权重与该卷积层的输出特征相乘获得缩放后的特征，将缩放后的特征作为该卷积层后级连接的池化层的输入。

步骤S3，故障诊断神卷积神经网络输出诊断结果。

在本实施方式中，将本发明的故障诊断神卷积神经网络表示为SP－MSnet，它包括两部分：第一部分是空间注意力模块，原始信号输入后，经过卷积层，每一个卷积核产生信息；然后使用空间注意力机制将空间域信息做对应的空间变换，提取出关键信息；第二部分是一维多尺度卷积网络，称其为MSnet，负责进一步的特征提取，并将不同抽象层级的特征进行融合；在不同层级的卷积层中，浅层网络学习到一些低层次的简单特征和边缘信息，较深层网络获取高级语义。本发明能够在减少网络参数的同时，不损失网络性能，能取得较高的识别准确率和较强的迁移能力，优于现有技术。

在一种优选实施方式中，如图4所示，故障诊断卷积神经网络包括依次连接的输入层、第一空间注意力机制层、卷积特征融合层、第二空间注意力机制层、第三空间注意力机制层、全连接层和输出层；第一空间注意力机制层包括第一卷积层、第一空间注意力网络和第一池化层；第二空间注意力机制层包括第二空间注意力网络和第二池化层；第三空间注意力机制层包括第三卷积层、第三空间注意力网络和第三池化层；卷积特征融合层包括多个级联的子卷积层和融合模块，融合模块将最后一个子卷积层的输出特征与其之前的至少一个子卷积层的输出特征进行融合，并将融合后的特征输入第二空间注意力机制层。

在本实施方式中，优选的，第一空间注意力机制层中的第一卷积层、第一空间注意力网络和第一池化层依次级联，在第一空间注意力网络获取第一卷积层输出特征的权重，将权重与第一卷积层的输出特征相乘获得缩放后的特征，将缩放后的特征作为第一池化层的输入；同理的，第二空间注意力机制层中的第二卷积层、第二空间注意力网络和第二池化层依次级联，在第二空间注意力网络获取第二卷积层输出特征的权重，将权重与第二卷积层的输出特征相乘获得缩放后的特征，将缩放后的特征作为第二池化层的输入。同理的，第三空间注意力机制层中的第三卷积层、第三空间注意力网络和第三池化层依次级联，在第三空间注意力网络获取第三卷积层输出特征的权重，将权重与第三卷积层的输出特征相乘获得缩放后的特征，将缩放后的特征作为第三池化层的输入。

在本实施方式中，优选的，输出层为softmax层，实现对全连接层输出信息进行分类。

在本实施方式中，优选的，卷积特征融合层包括依次连接的第一子卷积层、第二子卷积层、第三子卷积层和融合模块，融合模块将第三子卷积层的输出特征与第一子卷积层和第二子卷积层的输出特征进行融合，并将融合后的特征输入第二空间注意力机制层。

在本实施方式中，优选的，第一卷积层的卷积核大小为5×1，卷积核个数(通道数)为8；第一子卷积层的卷积核大小为3×1，卷积核个数(通道数)为16；第二子卷积层的卷积核大小为3×1，卷积核个数(通道数)为16；第三子卷积层的卷积核大小为3×1，卷积核个数(通道数)为16；第三卷积层的卷积核大小为3×1，卷积核个数(通道数)为8；第四卷积层的卷积核大小为1×1，卷积核个数(通道数)为10。

在本实施方式中，优选的，将不同层级卷积层输出的特征在通道维度上进行融合，融合后的增量尺度之和f'为：

其中，Conv表示卷积核为3×1的卷积层，f表示进行特征融合的卷积层输出的特征，t表示特征f的尺度，t＞1，Conv^t表示叠加了t个尺度为3的卷积层，这导致了一个大小为(2t+1)的感受野，T为正整数且T大于t。如图4所示，设置T为3，即卷积函数最多堆叠3层。

在本实施方式中，优选的，将全连接层替换为级联的第四卷积层和第四池化层，第四卷积层的输入端与第三空间注意力机制层的输出端连接，第四池化层的输出端与输出层的输入端连接。第四卷积层的卷积核大小为1×10。其中第四卷积层采用线性激活函数，因为该层目的是将输入特征的通道数映射到与分类类别相同数值，需要一种线性映射关系，采用其他激活函数将无法实现该功能，甚至还会导致网络收敛缓慢。第四池化层采用全局平均池化，将输入特征每个通道中的特征图对应到一个输出类特征，加强了特征图与输出类别的一致性，并且通过对空间信息求和，增强池化过程的稳定性。

在本实施方式中，优选的，第一卷积层、第二卷积层、第三卷积层、以及卷积特征融合层中的子卷积层四种卷积层中至少一种卷积层包括级联的卷积运算模块、激活函数模块和BN层。激活函数模块中的激活函数优选但不限于为CReLU激活函数。CReLU是ReLU激活函数的改进。从统计学的观点：1)浅卷积滤波器的参数在一个卷积网络有很强的负相关和负相关逐渐减弱的深化网络层；2)浅层网络倾向于提取正、负相位信息；然而，激活函数ReLU会消除导致卷积滤波器冗余的负响应。因此，开发出CReLU函数，可表示为：

CReLU＝concat[ReLU(x),ReLU(-x)]；

CReLU保留了卷积层的正、负输出，形成新的特征，实现去线性化，增加特征图的通道数量。与ReLU相比，CReLU的激活通道数量是ReLU的两倍。

在本实施方式中，优选的，第一池化层、第二池化层和第三池化层采用最大池化层，且步长为4。

在本实施方式中，优选的，如图3所示，第一空间注意力网络或第二空间注意力网络或第三空间注意力网络的输出为Sp(F)：Sp(F)＝σ(f^n×1([F_avg；F_max]))；其中，σ(·)表示sigmoid操作；f^n×1(·)表示卷积操作，n×1表示卷积操作中卷积核的大小，n为正整数，n优选但不限于为9；F表示第一空间注意力网络或第二空间注意力网络或第三空间注意力网络的输入特征；F_avg表示对输入特征F平均池化处理后的结果；F_max表示对输入特征F最大池化处理后的结果。

通过空间注意力机制，对于给定特征F，经过基于通道维度的平均池化和最大池化得到两个通道数都为1的特征图，并将这两个特征图按照通道合并在一起。然后，经过一个9×1的卷积层降维为1个通道，再经过Sigmoid激活函数生成空间注意力特征图，即权重系数Sp(F)。最后，把权重系数和输入的原始特征F相乘即可得到缩放后的新特征。空间注意力的本质就是定位目标并进行一些变换或者获取权重，找出信号中需要被关注的区域。利用空间注意力机制计算特征F中各个位置的注意力概率，从而突出特定位置在特征F中的重要程度。空间注意力机制通过对特征F沿通道应用平均池和最大池操作，并将它们连接起来以生成有效的特征描述符，然后采用sigmoid函数对各个位置分配注意力权重，达到强调有用特征，抑制无用特征的目的。

在一种优选实施方式中，如图2所示，故障诊断卷积神经网络的训练过程为：

获取旋转机械在不同转速和不同负载下的多个运转数据样本，运转数据样本可以是振动信号样本，使得多个运转数据样本具有不同的分布，将多个运转数据样本划分为训练集和测试集；

构建故障诊断卷积神经网络；

以交叉熵函数作为损失函数，分别利用训练集和测试集对故障诊断卷积神经网络进行迭代训练和测试，并根据训练和测试结果不断更新故障诊断卷积神经网络参数直至训练集和测试集的损失函数值的变化值小于变化阈值时停止迭代。

在本实施方式中，故障诊断卷积神经网络Sp－MSnet采用交叉熵(Cross EntropyLoss)作为损失函数，其公式为：Loss(p,q)＝-∑p(x)logq(x)。其中，p(x)为训练集的标签，q(x)为网络预测的标签值。在分类问题中，交叉熵函数常被用作损失函数，这是因为在模型的优化过程中，交叉熵损失的梯度只和正确分类的预测结果有关，这样对网络进行参数更新时只会让正确的分类更大，而不影响其他分类情况。

为验证本发明所提出的基于多尺度网络结构的旋转机械故障诊断方法在不同工况下具有较高的故障诊断准确率和迁移能力，本次实验将采用两个数据集的数据，分别是西北工业大学采集的在空载下的轴承数据和凯斯西储大学(Case Western ReserveUniversity，CWRU)轴承数据中心采集的12khz驱动端数据。因为西北工业大学采集的在空载下的轴承数据有不同转速下的数据，而西储大学轴承数据中心采集的12khz驱动端数据有不同负载下的数据，为了充分证明本发明在不同转速和不同负载下都有较好的准确性，故采用两个数据集。

一、数据集介绍

(1)西北工业大学采集的在空载下的轴承数据：

在数据中一共有六种模式，分别为：齿根短裂纹，齿根长裂纹，齿尖两裂纹(分度圆短裂纹)，齿尖三裂纹(分度圆长裂纹)，齿面磨损和无故障。故在该数据集中，共有6种分类情况。

表1西北工业大学轴承数据集分类

如表1所示，根据检测时不同的转速将数据集划分为数据集A、B、C，分别对应在转速为900rps、1200rps、1500rps情况下采集的数据。每个数据集每种类别包含412个训练样本和100个测试样本，总计训练样本2472，测试样本600。在处理样本数据的过程中，根据数据采集时每个周期采样1024个点，以一个周期1024个点对原始振动信号以不重叠的方式切片来进行数据预处理。

(2)西储大学轴承数据中心采集的12khz驱动端数据：

在数据中一共有4种模式：正常(normal)，滚珠故障(ball)，内环故障(inner＿race)，外环故障(outer＿race)。每类错误故障都有3种故障直径，分别为0.007，0.014和0.021英尺。故在该数据集中，共有10种分类情况。

表2西储大学轴承故障数据集分类

如表2所示，根据检测时不同的负载将数据集分为数据集L0、L1、L2、L3，数据集L0、L1、L2、L3分别对应在负载为0、1、2、3情况下采集的数据。L0、L1、L2、L3数据集每种类别包含800个训练样本和100个测试样本，总计训练样本8000，测试样本1000。在处理样本数据的过程中，以一个周期1024个点对原始振动信号有重叠的切片来进行数据扩增。

二、对比方法介绍：

在实验中，选取现有技术“Zhao M，Kang M，Tang B，et al.Deep ResidualNetworks With Dynamically Weighted Wavelet Coefficients for Fault Diagnosisof Planetary Gearboxes[J].IEEE Transactions on Industrial Electronics，2018，65(5)：4290－4300.”中公开的DRN－DWWC算法，现有技术“Shangjun，Wei，Cai，et al.ALighted Deep Convolutional Neural Network Based Fault Diagnosis of RotatingMachinery.[J].Sensors(Basel，Switzerland)，2019，19(10).”中公开的WPT－CNN算法，现有技术“Chen X，Zhang B，Gao D.Bearing fault diagnosis base on multi－scale CNNand LSTM model[J].Journal of Intelligent Manufacturing，2020(1).”中公开的MCNN－LSTM算法，现有的1D－LeNet5算法，MSnet算法与本发明所提出的Sp－MSnet进行各项性能上的比较，详情可见表3。

表3对比实验方法介绍

三、实验：

(1)网络准确性能比较

表4不同方法在西北工业大学轴承数据集上的准确率比较

方法	A(％)	B(％)	C(％)	AVG(％)
					MSnet	100.0	100.0	100.0	100.0
Sp－MSnet	100.0	100.0	100.0	100.0
					DRN－DWWC	97.6	92.1	92.3	94.0
WPT－CNN	100.0	100.0	100.0	100.0
					MCNN－LSTM	92.7	90.5	88.5	90.6
1D－LeNet5	99.0	98.2	99.8	99.0

表5不同方法在西储大学轴承数据集上的准确率比较

方法	L0(％)	L1(％)	L2(％)	L3(％)	AVG(％)
						MSnet	100.0	100.0	100.0	100.0	100.0
Sp－MSnet	100.0	100.0	100.0	100.0	100.0
						DRN－DWWC	100.0	100.0	99.9	100.0	100.0
WPT－CNN	100.0	100.0	100.0	100.0	100.0
						MCNN－LSTM	99.9	99.8	100.0	99.9	99.9
1D－LeNet5	97.2	96.1	94.8	94.7	95.7

实验比较了多个方法在不同数据集上的分类预测准确率：

由表4和表5可知，虽然大部分方法在同一工况的数据集下进行训练后测试都能达到较高的准确率，但是与大部分其他方法相比，本发明所设计的方法准确率还是有显著提升。本发明设计的方法无论是使用西北工业大学的轴承数据还是使用西储大学轴承数据进行训练和测试，准确率都已达到了最优100％。实验证明本发明所提出的方法与其他方法相比准确性能更优。

(2)网络迁移能力比较

实验比较不同方法在不同转速和不同负载的数据集下的适应能力。因为在实际工业生产环境中，机器总是在不平稳的工作条件运行，在这种状况下，负载、转速、温度等因素的配置各不相同，并且不断波动，导致训练数据和测试数据之间存在较大差异，从而使网络性能降低。

表6不同转速下不同方法迁移学习能力比较

把西北工业大学采集轴承数据根据不同转速分为数据集A、B、C。使用训练集A训练模型，测试集B、C进行测试，以此类推，具体信息见表6。从表6可知，大部分方法在不同转速下的迁移能力很差，最好的平均准确率为71.1％，最差的平均准确率只有40％。而本发明所设计的方法Sp－MSnet的平均准确率能达到79.6％，与其他方法相比，至少有8.5％的提升。在不使用空间注意力模块时平均准确率为72.9％，这说明空间注意力确实能将关键的信息提取出来，提升网络性能。与其他方法相比，Sp－Msnet有更强的迁移能力，可更加充分地学习到特征。

表7不同负载下不同方法迁移学习能力比较

把西储大学轴承数据中心采集的12khz驱动端数据根据不同负载分为数据集L0、L1、L2和L3。使用训练集L0训练模型，测试集L1、L2、L3进行测试，以此类推，具体信息见表7。从表7可知，在不同负载下各个方法的准确率都相对较高，但是本发明所设计的方法的准确率还是比其他方法略高，比其他方法的平均准确率高9.1％。所以本方法在不同负载下的迁移能力优于其他方法。

所以，不论是在不同转速下还是在不同负载下，与其他方法相比，Sp－Msnet有更强的迁移能力，可更加充分地学习到特征，更能减轻非平稳工作条件的影响。

四、网络参数性能分析

Sp－MSnet混合网络结构属于一种轻量化的网络结构，在计算量和参数量上比一些常用的网络结构有明显优势。网络结构中参与浮点数运算和有参数需训练的部分是卷积层和全连接层，其计算公式为：

Params_conv＝K_h*K_w*C_in*C_out；

Params_fc＝I*O；

FLOPs_conv＝2HW(C_inK_h*K_w+1)C_out；

FLOPs_fc＝(2I-1)O；

其中Params_conv，FLOPs_conv代表卷积层中参数量和浮点数运算的值。Params_fc，FLOPs_fc代表全连接层中参数量和浮点数运算的值。H，W，C_in分别代表输入特征图的高度和宽度以及通道数，K_h、K_w代表卷积核的大小，C_out代表卷积核的个数，即输出特征的通道数，I代表输入的维度，O代表输出的维度。

表8网络参数及运算量比较

网络比较	参数量(Params)	浮点运算(flops)
			Sp－MSnet	19.78kb	1.61×106
DRN－DWWC	72.35kb	1.4×106
			WPT－CNN	19.9kb	1.61×105
MCNN－LSTM	123.19kb	2.49×107
			1D－LeNet5	1349kb	1.27×106
Resnet－50	80849.75kb	2.04×109
			Resnet－18	14325.75kb	3.35×108
VGG－16	78544.75kb	9.24×108

从表8可以发现Sp－MSnet网络结构虽然在浮点运算量，比DRN－DWWC[13]大不到0.2倍，比WPT－CNN[14]大10倍，但是浮点运算量比其他方法都少，并且在参数量上，参数比DRN－DWWC[13]、DRN－DWWC[13]、WPT－CNN[14]、MCNN－LSTM[18]、1D－LeNet5、Resnet－50、Resnet－18、VGG－16都要少。而且该网络结构迁移能力强，能够在不同转速和不同负载下都能够得到较好的准确率。

本发明还公开了一种基于多尺度网络结构的旋转机械故障诊断系统，在一种优选实施方式中，该系统包括：

数据获取模块，采集旋转机械的运转数据，将运转数据输入故障诊断卷积神经网络；

故障诊断模块，利用故障诊断神卷积神经网络对运转数据进行处理并输出诊断结果；

在故障诊断卷积神经网络中：

将不同层级卷积层输出的特征在通道维度上进行融合，并将融合后的特征作为后续网络的输入；

通过空间注意力机制获得全部或部分后级连接有池化层的卷积层的输出特征的权重，将该权重与该卷积层的输出特征相乘获得缩放后的特征，将缩放后的特征作为该卷积层后级连接的池化层的输入。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于多尺度网络结构的旋转机械故障诊断方法，其特征在于，包括：

采集旋转机械的运转数据，将所述运转数据输入故障诊断卷积神经网络，所述故障诊断神卷积神经网络输出诊断结果；

所述故障诊断卷积神经网络包括依次连接的输入层、第一空间注意力机制层、卷积特征融合层、第二空间注意力机制层、第三空间注意力机制层、全连接层和输出层；

所述第一空间注意力机制层包括第一卷积层、第一空间注意力网络和第一池化层；

所述第二空间注意力机制层包括第二空间注意力网络和第二池化层；

所述第三空间注意力机制层包括第三卷积层、第三空间注意力网络和第三池化层；

所述卷积特征融合层包括多个级联的子卷积层和融合模块，所述融合模块将最后一个子卷积层的输出特征与其之前的至少一个子卷积层的输出特征进行融合，并将融合后的特征输入第二空间注意力机制层；

在所述故障诊断卷积神经网络中：将不同层级卷积层输出的特征在通道维度上进行融合，并将融合后的特征作为后续网络的输入；通过空间注意力机制获得全部或部分卷积层输出特征的权重，将所述权重与该卷积层的输出特征相乘获得缩放后的特征，将缩放后的特征作为该卷积层后级连接的池化层的输入。

2.如权利要求1所述的基于多尺度网络结构的旋转机械故障诊断方法，其特征在于，将所述全连接层替换为级联的第四卷积层和第四池化层，所述第四卷积层的输入端与第三空间注意力机制层的输出端连接，第四池化层的输出端与输出层的输入端连接。

3.如权利要求1所述的基于多尺度网络结构的旋转机械故障诊断方法，其特征在于，所述第一卷积层、第二卷积层、第三卷积层、以及卷积特征融合层中的子卷积层中至少一个包括级联的卷积运算模块、激活函数模块和BN层。

4.如权利要求1所述的基于多尺度网络结构的旋转机械故障诊断方法，其特征在于，所述第一池化层、第二池化层和第三池化层采用最大池化层，且步长为4。

5.如权利要求1所述的基于多尺度网络结构的旋转机械故障诊断方法，其特征在于，第一空间注意力网络或第二空间注意力网络或第三空间注意力网络的输出为Sp(F)：

Sp(F)＝σ(f^n×1([F_avg；F_max]))；

其中，σ(×)表示sigmoid操作；f^n×1(×)表示卷积操作，n×1表示卷积操作中卷积核的大小，n为正整数；F表示第一空间注意力网络或第二空间注意力网络或第三空间注意力网络的输入特征；F_avg表示对输入特征F平均池化处理后的结果；F_max表示对输入特征F最大池化处理后的结果。

6.如权利要求1所述的基于多尺度网络结构的旋转机械故障诊断方法，其特征在于，将不同层级卷积层输出的特征在通道维度上进行融合，融合后的增量尺度之和f'为：

7.如权利要求1所述的基于多尺度网络结构的旋转机械故障诊断方法，其特征在于，所述故障诊断卷积神经网络的训练过程为：

获取旋转机械在不同转速和不同负载下的多个运转数据样本，将多个运转数据样本划分为训练集和测试集；

构建故障诊断卷积神经网络；

以交叉熵函数作为损失函数，分别利用训练集和测试集对所述故障诊断卷积神经网络进行迭代训练和测试，并根据训练和测试结果不断更新故障诊断卷积神经网络参数直至训练集和测试集的损失函数值的变化值小于变化阈值时停止迭代。

8.一种基于多尺度网络结构的旋转机械故障诊断系统，其特征在于，包括：

数据获取模块，采集旋转机械的运转数据，将所述运转数据输入故障诊断卷积神经网络；

故障诊断模块，利用故障诊断神卷积神经网络对所述运转数据进行处理并输出诊断结果；

在所述故障诊断卷积神经网络中：

通过空间注意力机制获得全部或部分后级连接有池化层的卷积层的输出特征的权重，将所述权重与该卷积层的输出特征相乘获得缩放后的特征，将缩放后的特征作为该卷积层后级连接的池化层的输入；

其中，所述故障诊断卷积神经网络包括依次连接的输入层、第一空间注意力机制层、卷积特征融合层、第二空间注意力机制层、第三空间注意力机制层、全连接层和输出层；

所述卷积特征融合层包括多个级联的子卷积层和融合模块，所述融合模块将最后一个子卷积层的输出特征与其之前的至少一个子卷积层的输出特征进行融合，并将融合后的特征输入第二空间注意力机制层。