CN113822139A

CN113822139A - 一种基于改进1DCNN-BiLSTM的设备故障诊断方法

Info

Publication number: CN113822139A
Application number: CN202110851697.3A
Authority: CN
Inventors: 刘晶; 孙跃华; 季海鹏; 周鹏飞
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-12-21
Anticipated expiration: 2041-07-27
Also published as: CN113822139B

Abstract

本发明公开了一种基于改进1DCNN‑BiLSTM的设备故障诊断方法，包括下述步骤：S1.采用自适应白噪声的完整经验模态分解(CEEMDAN)技术对原始振动加速信号进行预处理，作为模型的输入；S2.构建1DCNN‑BiLSTM双通道模型，将预处理信号输入双向LSTM模型和一维CNN模型两个通道，对信号的时序相关性特征、局部空间的非相关性特征和弱周期性规律进行充分提取；S3.针对信号夹杂强噪声问题，改进SENet模块并作用于两个不同模型通道；S4.在全连接层将双通道提取特征融合，借助Softmax分类器实现对设备故障的精确识别。本发明针对工业领域中故障数据存在时序性和夹杂噪声问题，对原始信号滤波去噪预处理，构建1DCNN‑BiLSTM双通道特征提取模块，并融入改造的SENet模块实现特征通道的加权，有效提高机械设备故障诊断效率。

Description

一种基于改进1DCNN-BiLSTM的设备故障诊断方法

技术领域

本发明涉及工业设备故障诊断及深度学习模型构建技术领域，具体涉及一种基于改进1DCNN-BiLSTM的设备故障诊断方法。

背景技术

随着现代工业的迅速发展，“智能工厂”中的机械设备也向着集成化、复杂化方向蓬勃发展。滚动轴承是旋转机器中广泛应用的零件之一，伴随机械设备的持续运行，轴承不可避免出现各式各样的故障。据统计在旋转机械的故障中，轴承损坏的故障约占30％。造成故障的原因也往往是复杂多样的，滚动轴承的状态监测与故障诊断是机械设备故障诊断技术的重要内容。因此，机械设备轴承的故障诊断对于提高生产效率和经济效益具有十分重要的意义。

基于信号处理的设备故障诊断方法在以数据驱动的方法中效果显著。经验模态分解 (empirical mode decomposition，EMD)作为一种新的信号处理方法，可将信号局部时变特征自适应地分解成若干个本征模函数(IMF)之和，能够突出信号的局部特征。文章[SGao等. Rolling bearing fault diagnosis of PSO–LSSVM based on CEEMD entropyfusion[J]. Transactions of the Canadian Society for Mechanical Engineering.]利用互补经验模态分解 (CEEMD)对滚动轴承振动信号分解，获取具有故障特征IMF的奇异熵，能量熵和置换熵，提出熵融合的特征提取方法，借助核主成分分析(KPCA)和粒子群优化(PSO)算法实现滚动轴承的分类。文章[Xiang等.Rolling element bearing faultdetection using PPCA and spectral kurtosis.Measurement]将概率主成分分析(PPCA)和光谱峰度(SK)融合方法实现滚动元件轴承故障检测。传统的基于信号特征提取的方法虽然取得不错的进展，但仍存在先验知识要求高、收敛速度慢、诊断精度不够等先天缺点。

深度神经网络是解决复杂系统诊断问题有效的模型，可直接对高度非线性、复杂、多维系统数据进行建模，挖掘数据与诊断目标的映射关系。文章[Hoang DT等.A deepneural network-based feature fusion for bearing fault diagnosis.Sensors]根据数据源设置有n个分支的DNN模型，每个分支由CPB模块(卷积层、批归一化层、池化层)组成实现故障轴承故障诊断，证明多分支模型比单传感器具有更高的诊断性能。文章[ShijieHao等.Multisensor data fusion for gearbox fault diagnosis using2-Dconvolutional neural network and motor current signature analysis.MechanicalSystems and Signal Processing]提出了一种用于轴承故障诊断的1DCNN-LSTM网络端到端解决方案，方案直接从一维卷积层、池化层和LSTM层的多个传感器测量的振动信号中提取时空特征，最后由输出层完成轴承故障诊断进行分类。

传统基于长短期记忆(LSTM)神经网络在故障诊断任务中取得显著成就，但同时忽略了时序性数据的上下文信息的完整性。与此同时，基于传统卷积神经网络(CNN)的轴承故障诊断不能充分挖掘时序性数据的上下文相关性，模型不能对时序性特征进行充分提取。因此，如何充分发挥时序性数据信息的完整性，提高模型收敛速度和故障诊断精度成为新的问题焦点。

发明内容

针对故障诊断数据存在时序性特点问题，本发明提供一种基于改进1DCNN-BiLSTM的设备故障诊断方法，首先将原始时序信号经CEEMDAN技术预处理后输入双向LSTM模型和一维卷积模型两个通道，分别对信号的时序相关性特征、局部空间的非相关性特征和弱周期性规律进行充分提取。针对信号夹杂强噪声问题，对SENet模块进行改进并将其作用于两个不同通道。最后，输入全连接层将双通道提取的特征融合并借助Softmax分类器实现对设备故障的精确识别。

为解决上述技术问题，本发明所采取的技术方案是：

一种基于改进的1DCNN-BiLSTM的设备故障诊断方法，包括下述步骤：

S1：采用自适应白噪声的完整经验模态分解技术对原始振动加速度信号进行滤波去噪、重构、归一化的预处理过程，将预处理后信号作为S4中的1DCNN-BiLSTM双通道模型的输入；

S2：构建栈型双向LSTM模型通道，即Stacked BiLSTM模型通道，在Stacked BiLSTM通道后引入批归一化(BN)层，同时引入Dropout层随机减掉部分神经元值；

S3：构建1DCNN模型通道对原始信号的局部非相关性特征和弱周期性规律进行提取，在1DCNN通道后引入Dropout层随机减掉部分神经元值；

S4：构建1DCNN-BiLSTM双通道模型，在融合层对1DCNN模型通道和Stacked BiLSTM模型通道提取的数据特征借助Numpy工具库进行串联式拼接融合；

S5：改进SENet模块，对模块中二维全局平均池化计算改进为一维全局平均池化计算；

S6：将改进的SENet模块移植至双通道模型中间层，借助模块中激活计算过程实现数据特征通道的加权；

S7：输出分类层借助Softmax函数计算得出不同信号数据属于各种故障类别标签的概率值，实现故障轴承加速度信号的精确分类。

进一步的，所述步骤S1中，采用自适应白噪声的完整经验模态分解技术对原始振动加速度信号进行预处理，包括以下步骤：

1-1)对原始故障时序信号X(t)添加自适应白噪声λ₀(nⁱ(t))进行一阶EMD分解，如下式(1)所示：

其中N表示添加白噪声的次数，

表示N个IMF₁ ⁱ(t)集合取平均得到的第一阶固有模态分量；

1-2)将第一阶固有模态分量从原始故障时序信号中剔除得到剩余分量r₁(t)，接着在r₁(t)中添加自适应白噪声经EMD分解得到IMF分量F₁(nⁱ(t))，对其再进行一阶EMD分解，如式(2)所示：

其中N表示添加白噪声的次数，

表示N个IMF₂ ⁱ(t)集合取平均得到的第一阶固有模态分量，剩余分量为r₂(t)；

1-3)重复上述(1)、(2)过程，得到第k个剩余分量r_k(t)，对剩余分量加入白噪声进行一阶EMD分解，如式(3)所示：

其中N表示添加白噪声的次数，

表示N个IMF_k+1 ⁱ(t)集合取平均得到的第k+1阶固有模态分量。

进一步的，所述步骤S2中，构建栈型双向LSTM模型通道，即Stacked BiLSTM模型通道，在 Stacked BiLSTM通道后引入批归一化(BN)层，同时引入Dropout层随机减掉部分神经元值，包括以下步骤：

f_t＝σ(W_t[h_t-1,x_t]+b_f)

i_t＝σ(W_i[h_t-1,x_t]+b_i)

C’_t＝tanh(W_c[h_t-1,x_t]+b_c)

C_t＝f_tC_t-1+i_tC’_t

o_t＝σ(W_o[h_t-1,x_t]+b_o)

H_t＝o_ttanhC_t (4)

式(4)中f、i、o分别表示遗忘门、输入门、输出门的计算结果，C’_t为LSTM细胞状态待更新值，C_t为更新后的细胞状态值，H_t为LSTM细胞单元最终的输出值，h_t-1和x_t分别表示LSTM中上一时刻记忆细胞单元的输出值、当前时刻记忆细胞单元的输入值；W和b分别表示记忆细胞单元内参与训练的权重矩阵和偏置向量；σ和tanh分别代表Sigmoid函数和双曲正切函数，充当不同“门”结构的激活函数；借助BiLSTM神经网络的隐藏层实现正向计算和反向计算两个过程，可为网络提供数据上下文信息， BiLSTM的更新过程如式(5)所示：

h⁺ _t＝LSTM⁺(h_t-1,x_t)

h^- _t＝LSTM^-(h_t+1,x_t)

y_t＝W_hyh_t ⁺+W’_hyh_t ^-+b_y (5)

其中LSTM+(·)、LSTM—(·)均为上文中LSTM细胞单元运算，ht-1、ht+1和xt分别表示LSTM 中上一时刻记忆细胞单元的输出值、下一时刻记忆细胞单元的输出值、当前时刻记忆细胞单元的输入值，Why和W’hy分别为BiLSTM正向计算层、反向计算层的权重值；by为输出层的偏置向量。

进一步的，所述步骤S4中，构建1DCNN-BiLSTM双通道模型，在融合层对1DCNN模型通道和 Stacked BiLSTM模型通道提取的数据特征借助Numpy工具库进行串联式拼接融合，具体为：

Channel1为Stacked BiLSTM神经网络模型，调整BiLSTM网络的记忆单元数目和神经网络的层数，实现对不同维度信号特征的提取；Channel4设置为一维卷积模型，调整一维卷积核数目实现对信号不同尺度特征的提取。

对于Model1和Model2双通道模型，将双Channel组合提取到的特征矩阵经全连接(FC)层后变为一维向量，输入融合层后借助Numpy工具库进行输入向量的串联式融合拼接，为分类层的输入提供更多分类特征参数依据；

进一步的，所述步骤S5中，改进SENet模块，对模块中二维全局平均池化计算改进为一维全局平均池化计算，具体为：

通过对SENet模块进行改进，即选择一维全局平均池化(One-dimensional GlobalAverage Pooling)代替用于处理图片分类任务的二维全局平局池化。改进模块内部结构首先对输入数据进行一维全局平均池化操作得到一个标量，称之为Squeeze操作，接着通过两个全连接层得到(0,1)范围之间的权重值，两层激活函数分别取ReLU与Sigmoid。原始通道中的每个元素值与对应通道权重相乘，得到新的Feature Map，称之为Excitation操作。1DCNN神经网络与BiLSTM神经网络均可通过Squeeze-Excitation操作实现特征矩阵的优化，最终得到加权后的特征Feature Recalibration。

进一步的，所述步骤S6中，将改进的SENet模块移植至双通道模型中间层，借助模块中激活计算过程实现数据特征通道的加权，具体步骤如下：

CNN中因参与计算的卷积核个数不同而发生通道维数变化，BiLSTM因记忆神经单元数目不同而发生特征通道维数变化，从而产生新的特征信号U；

通道维数由d变为d*，即为此时特征通道数。首先通过将通道中所有特征值u_d取全局平均值，经 Sigmoid激活函数得到每个通道的权重；最终不同通道乘上不同权重，实现对关键特征通道域的注意力机制；具体计算过程如式(6)所示：

s_d＝F_ex(z_d,W,b)＝σ(W*z_d+b)

X’_d＝F_score(u_d,s_d)＝s_d×u_d (6)

其中F_sq(·)为全局平均池化过程；F_ex(·)是Excitation操作：全连接层、ReLU激活、全连接层，l_sw为特征矩阵行列尺寸乘积；σ为Sigmoid激活函数；z_d和s_d分别为全局平局池化结果值、Excitation操作值；W和b分别表示计算过程中的权重和偏置；F_score(·)为加权操作，X’_d为最终加权结果矩阵。

进一步的，所述步骤S7中，输出分类层借助Softmax函数实现故障轴承加速度信号的精确分类，具体为：

分类层将融合后的样本特征向量作为输入，采用Softmax分类器得到故障轴承振动加速度时序信号属于各类别的概率分布，如式(7)所示：

其中m代表分类层输出层单元个数，即故障信号类别数目；W和b分别表示计算过程中的权重和偏置值。

采用上述技术方案所产生的有益效果在于：

本发明提出的一种基于改进1DCNN-BiLSTM的设备故障诊断方法针对工业互联网领域中现存的故障诊断数据存在时序性和夹杂噪声等问题，本发明基于1DCNN神经网络和LSTM神经网络算法的故障诊断方法对时序数据预处理、数据特征提取、学习特征数据通道权重这三个过程进行改进。本发明改进后深度学习算法称为一种基于改进1DCNN-BiLSTM的故障诊断方法，该方法与传统故障诊断方法相比既增加了神经网络模型特征提取的维度，又增加了数据特征提取过程中特征通道的注意力机制，从而解决工业领域中机械设备故障诊断问题。

本发明与CNN单通道神经网络和LSTM单通道神经网络相比：(1)对原始振动加速度数据采用自适应白噪声的完整经验模态分解技术进行预处理，滤波去噪，减少冗余噪声对特征提取的干扰；(2)提出的1DCNN-BiLSTM双通道模型故障诊断方法，分别对时序性数据的局部非线性特征、弱周期性规律以及时序数据的上下文信息进行充分挖掘；(3)在双通道模型中加入Dropout层和批量归一化层，规范特征数据和避免模型出现过拟合；(4)引入注意力机制，将改进的SENet模块嵌入双通道模型，使得数据特征提取过程中，对中间层产生的多维特征数据通道进行加权，从而提高1DCNN-BiLSTM双通道模型训练收敛速度及故障诊断效率要求。

将本发明提出的方法应用于美国西储大学故障轴承数据集，通过试验分析，验证了提出的改进 1DCNN-BiLSTM故障诊断模型的有效性，对比1DCNN单通道模型和BiLSTM单通道模型，故障诊断进度分别提高2.31％和1.65％，同时相较于未加入SENet模块的1DCNN-BiLSTM双通道模型，模型收敛速度有明显提升，能够实现工业领域中机械设备轴承部件的精确故障诊断。

附图说明

图1是构建的4种“双/单通道”模型框架结构图；

图2是通道注意力机制原理图；

图3是本发明改进的SENet模块图；

图4是正常、故障轴承振动加速度信号可视化图；

图5是BO_07信号CEEMDAN分解图；

图6是模型Model1故障诊断分类混淆矩阵结果图；

图7是模型Model2故障诊断分类混淆矩阵结果图；

图8是模型Model3故障诊断分类混淆矩阵结果图；

图9是模型Model4故障诊断分类混淆矩阵结果图；

图10是模型Model1、Model3、Model4训练过程精度曲线图

图11是模型Model1、Model3、Model4平均诊断结果对比图；

图12是添加注意力机制Model训练精度与验证集精度曲线图；

图13是未添加注意力机制Model2训练精度与验证集精度曲线图；

图14是Model1、Model2模型训练收敛情况对比图

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明以工业机械设备故障诊断为载体，以LSTM和CNN算法作为主要的算法框架，其模型如图1 所示。特征提取模块设计1DCNN-BiLSTM双模型通道，分别为BiLSTM单模型通道和1DCNN单模型通道。其中Channel1为Stacked Bi-LSTM神经网络模型，调整BiLSTM网络的记忆单元数目和神经网络的层数，实现对不同维度信号特征的提取；Channel4设置为1DCNN模型，调整卷积核数目实现对信号不同尺度特征的提取；Channel2、Channel3分别在Channel1、4基础上加入改进的SENet模块对参数传递过程中的不同维度特征进行权重计算；具体包括下述步骤：

S1：采用自适应白噪声的完整经验模态分解技术对原始振动加速度信号进行滤波去噪、重构、归一化的预处理过程，将预处理后信号作为S4中的1DCNN-BiLSTM双通道模型的输入，具体步骤如下：

采用CEEMDAN技术对原始振动加速度信号进行预处理，包括以下步骤：

1-1)对原始故障时序信号X(t)添加自适应白噪声λ₀(nⁱ(t))进行一阶EMD分解，如式(8)所示：

X(t)+λ₀nⁱ(t)＝IMF₁ ⁱ(t)+r₁ ⁱ(t)，i＝1，2，...，N

其中N表示添加白噪声的次数，

表示N个IMF₁ ⁱ(t)集合取平均得到的第一阶固有模态分量；

1-2)将第一阶固有模态分量从原始故障时序信号中剔除得到剩余分量r₁(t)，接着在r₁(t)中添加自适应白噪声经EMD分解得到IMF分量F₁(nⁱ(t))，对其再进行一阶EMD分解，如式(9)所示：

其中N表示添加白噪声的次数，

1-3)重复上述(1)、(2)过程，得到第k个剩余分量r_k(t)，对剩余分量加入白噪声进行一阶EMD分解，如式(10)所示：

其中N表示添加白噪声的次数，

表示N个IMF_k+1 ⁱ(t)集合取平均得到的第k+1阶固有模态分量。

S2：构建栈型双向LSTM模型通道，即Stacked BiLSTM模型通道，在Stacked BiLSTM通道后引入批归一化(BN)层，同时引入Dropout层随机减掉部分神经元值，计算步骤如下：

f_t＝σ(W_t[h_t-1,x_t]+b_f)

i_t＝σ(W_i[h_t-1,x_t]+b_i)

C’_t＝tanh(W_c[h_t-1,x_t]+b_c)

C_t＝f_tC_t-1+i_tC’_t

o_t＝σ(W_o[h_t-1,x_t]+b_o)

H_t＝o_ttanh C_t (11)

其中f、i、o分别表示遗忘门、输入门、输出门的计算结果，C’_t为LSTM细胞状态待更新值，C_t为更新后的细胞状态值，H_t为LSTM细胞单元最终的输出值，h_t-1和x_t分别表示LSTM中上一时刻记忆细胞单元的输出值、当前时刻记忆细胞单元的输入值，W和b分别表示记忆细胞单元内参与训练的权重矩阵和偏置向量；σ和tanh分别代表Sigmoid函数和双曲正切函数，充当不同“门”结构的激活函数。

然而LSTM神经网络忽略了对信号数据的上下文判断，因此本发明借助BiLSTM神经网络的隐藏层实现正向计算和反向计算两个过程，可为网络提供数据上下文信息，BiLSTM的更新过程如式(12)所示：

h⁺ _t＝LSTM⁺(h_t-1,x_t)

h^- _t＝LSTM^-(h_t+1,x_t)

y_t＝W_hyh_t ⁺+W’_hyh_t ^-+b_y (12)

其中LSTM⁺(·)、LSTM^-(·)均为上文中LSTM细胞单元运算，W_hy和W’_hy分别为BiLSTM正向计算层、反向计算层的权重值；b_y为输出层的偏置向量；x_t为当前时刻记忆细胞单元的输入值。在双向LSTM计算过程中同时对数据的上下文信息进行权重计算，相对于传统LSTM神经网络学习到更多的数据特征。

表1时间序列分类模型参数

模型中间层名称	参数描述	参数数值
			输入层Input	样本矩阵尺寸	Shape＝(100，3)
Bi-LSTM层	记忆细胞单元数目	Units＝30
			1DCNN层	滤波器数目	Filters＝16
批归一化层BN	操作位置	Axis＝-1
			Dropout	Dropout率	1DCNN(rate＝0.3)、<u>BiLSTM</u>(<u>r</u>ate＝0.2)
注意力机制层	改进<u>SENet</u>模块	/
			Flatten层	Dimensionality Reduction	/
融合层	Concatenate(Channel-Output1，Channel-Output2)	/
			Dense层	输出单元数目	Units＝9

1DCNN中因参与计算的卷积核个数不同而发生通道维数变化，BiLSTM因记忆神经单元数目不同而发生特征通道维数变化，从而产生新的特征信号U。

如图2所示通道维数由d变为d*，即为此时特征通道数。首先通过将通道中所有特征值取全局平均值，经Sigmoid激活函数得到每个通道的权重。最终不同通道乘上不同权重，实现对关键特征通道域的注意力机制。具体计算过程如下：

s_d＝F_ex(z_d，W，b)＝σ(W*z_d+b)

Xd＝F_score(u_d，s_d)＝s_d×u_d (13)

式(13)中F_sq(·)为全局平均池化过程；F_ex(·)是Excitation操作：全连接层、ReLU激活、全连接层；l_sw为特征矩阵行列尺寸乘积；σ为Sigmoid激活函数；zd和sd分别为全局平局池化结果值、 Excitation操作值；W和b分别表示计算过程中的权重和偏置；F_score(·)为加权操作，X’_d为最终加权结果矩阵。

通过对SENet模块进行改进，即选择一维全局平均池化(One-dimensional GlobalAverage Pooling)代替用于处理图片分类任务的二维全局平局池化；改进模块内部结构如图3所示，首先对输入数据进行一维全局平均池化操作得到一个标量，称之为Squeeze操作，接着通过两个全连接层得到(0，1)范围之间的权重值，两层激活函数分别取ReLU与Sigmoid。原始通道中的每个元素值与对应通道权重相乘，得到新的 Feature Map，称之为Excitation操作。1DCNN神经网络与BiLSTM神经网络均可通过Squeeze-Excitation 操作实现特征矩阵的优化，最终得到加权后的特征Feature Recalibration。

当SENet模块作用于1DCNN层后时，经16个卷积核计算后产生16个新通道特征，即将数据特征一个通道的信息分解为16个卷积核上的信号分量。核函数上的分量对关键信息的贡献度存在差异。当 SENet模块作用于BiLSTM层后时，第一层BiLSTM网络实现对输入序列高层次特征学习，批归一化过程之后利用注意力机制分别对第一层BiLSTM各神经单元分配注意力权重，求解后作为下一BiLSTM网络层的输入。

对于Model1和Model2双通道模型，将双Channel组合提取到的特征经全连接(FC)层后输入融合层进行融合，进而为分类层的输入提供更多分类特征参数依据。分类层将融合后的样本特征向量作为输入，采用Softmax分类器得到故障轴承振动加速度时序信号属于各类别的概率分布，如式(14)所示：

其中m代表分类层输出层单元个数，即故障信号类别数目；W和b分别表示计算过程中的权重和偏置。

基于上述步骤，本发明有效解决机械设备故障诊断问题，首先该方法利用CEEMDAN信号处理技术对原始振动加速度信号进行滤波去噪的预处理过程。其次，针对故障信号时序性、夹杂强噪声的特点提出一种基于改进1DCNN-BiLSTM双通道模型方法对预处理后的一维时序信号进行特征提取。接着对 SENet模块进行改进并将其移植至双通道模型中间层，实现特征通道的加权。最后，将双通道提取的数据特征进行融合并在分类层实现故障振动信号的精确分类。本发明显著提高机械设备故障诊断精度，而且有效提高了模型训练的收敛速度。

本发明基于改进1DCNN-BiLSTM的故障诊断方法的试验验证：

1、试验环境

本发明搭建的试验平台主要在Windows 10 64位操作系统上进行，设备的配置信息：CPU为Intel(R) Core(TM)i5-8265U，运行内存16.0GB，深度学习框架采用TensorFlow+Keras进行试验，编程语言选择 Python3.5。

2、数据描述

试验数据来源美国凯斯西储大学(CWRU)轴承数据中心的滚动轴承故障振动数据集。驱动端采用轴承型号为6205-2RS JEM SKF深沟球轴承、风扇端采用采用轴承型号为6203-2RS JEM SKF深沟球轴承。电火花加工技术分别对置于驱动端和风扇端的滚动轴承的内圈(Inner Raceway)、外圈(Outer Raceway)、滚动体(Ball)3个轴承位置布置等级的单点损伤。3种故障直径分别设置为0.007、0.014、0.021英寸，3种故障深度分别设置为0.011、0.050、0.150英寸，4种不同负载(0、1kN、2kN、3kN)。由放置在驱动端、风扇端和基座的传感器分别以12k、48k的频率对轴承振动数据进行采集共获取正常样本文件8个、外圈故障样本文件53个、内圈故障样本文件23个及滚动体故障样本文件11个。本发明基于12kHz的采样频率对驱动端内圈、外圈和滚动体3个故障位置的3种不同故障直径共9类故障、每类样本以时间步长为100 划分为1000个数据样本进行故障诊断实验，9类轴承故障实验样本信息如表2所示：

表2 9类轴承故障实验样本信息(故障直径单位：英尺)

将正常振动信号数据与9类不同故障位置、故障程度的振动加速度信号进行可视化，如图4所示：轴承故障振动数据表现出周期性特点且振幅明显高于正常振动数据。内圈、外圈、滚动体3种不同故障位置、同一故障位置不同故障直径的振动信号之间存在周期和振幅差异。轴承滚动体位置3种故障直径振动数据、内圈位置故障直径为0.14英寸的信号周期性、振幅大小等直观性特征较其他故障信号弱；内圈位置不同故障直径的信号振幅差异较大。

9种原始振动故障信号按时间步长为1000分别进行CEEMDAN信号预处理后生成多个IMF分量，以驱动端内圈故障深度为0.007信号数据(BO_07)经CEEMDAN分解为例进行可视化为例，如图5所示。分解完成后通过滤波去噪(过滤前2个高频信号分量)后对剩余有效IMF数据进行重构。

3、试验一：改进的单/双通道模型故障诊断效果

将CEEMDAN后重构、归一化预处理后的信号数据集及对应类别标签随机按比例7:3划分为训练集和测试集，并在训练集中进一步随机选取10％，作为对当前模型训练结果评估的验证集。

依次构建Model1、Model3、Model4三种不同结构模型实现对轴承的对比故障诊断实验，如图1所示。双通道模型Model1和单通道模型Model3、Model4时间序列分类模型的Channel中各层参数信息描述如表1所示。

改进的单/双通道模型训练过程模型具体参数如表3所示，记录训练过程中验证集精度最高时刻训练出的模型参数作为训练模型的最终参数。

表3模型训练过程描述

输出层单元数量	m
		迭代次数	80
Batch Size	100
		优化器	Adam
学习率	0.001
		损失函数	Cross Entropy Loss

采用独热编码(One-Hot Encoding)对故障类别进行标记，分类层采用Softmax多分类器得到故障样本分别为m类(m＝9)不同故障的概率分布，采用交叉熵代价函数(Cross-entropy cost function)作为模型的验证损失函数。比较Softmax多分类器的输出预测概率分布与目标类别概率分布的相似度得到模型的诊断精度。如式(15)：其中表X示故障样本，n表示样本总数，a表示期望输出，y表示神经元的实际输出。

对3类模型进行重复实验取平均值，避免模型诊断结果偶然性。对比双通道模型Model2及传统单通道模型Model3、Model4的故障诊断分类混淆矩阵结果分别如图7、图8、图9所示，3种模型的训练过程精度曲线如图10，3种模型的平均诊断结果对比如图11所示。结果显示将改进的SENet模块同时作用于1DCNN通道和stacked BiLSTM通道构成Model1时，模型在测试集上表现最佳，损失下降到0.1092，诊断精度最高达到96.87％。将基于通道的注意力机制单独作用于1DCNN构成的单通道模型Model3、或单独作用于stacked BiLSTM构成单通道模型Model4时，其在测试集上的平均损失分别为0.1873、 0.1441，平均诊断准确率分别为94.56％、95.22％。证实此改进的1DCNN-BiLSTM双通道模型较传统单通道更好挖掘轴承故障数据的时序相关性特征和局部区域的振动弱周期性规律。

4、试验二：添加SENet模块与未添加SENet模块的双通道模型分类诊断效果

原始驱动端振动信号样本同时包含驱动端、风扇端、基座加速度数据，增加了时序性信号数据的维度。增加SENet模块作用于1DCNN层后时，经16个卷积核计算后产生16个新通道特征，即将数据特征一个通道的信息分解为16个卷积核上的信号分量。核函数上的分量对关键信息的贡献度存在差异；增加SENet模块作用于BiLSTM层后时，第一层BiLSTM网络实现对输入序列高层次特征学习，批归一化过程之后利用注意力机制分别对第一层BiLSTM各神经单元分配注意力权重，求解后作为下一BiLSTM 网络层的输入。

依次构建Model1、Model2两种不同结构模型实现对轴承的对比故障诊断实验。添加改进SENet模块的双通道模型Model1和未添加改进SENet模块双通道模型Model2时间序列分类模型的Channel中各层参数信息描述如表2所示。两种不同双通道模型训练过程模型具体参数如表3所示，记录训练过程中验证集精度最高时刻训练出的模型参数作为训练模型的最终参数。

实验结果显示不加任何注意力机制的双通道模型Model2平均诊断精度达到96.68％，损失值下降到 0.1162。将加入改进SENet模块的双通道模型Model1与之进行收敛速度对比实验。Model、Model2模型训练过程中训练和验证精度曲线分别如图12、图13所示，Model1、Model12验证损失收敛趋势对比如图14所示。添加注意力机制的Model1训练epoch＝15次后达到相对稳定，未加入注意力机制的Model2 训练epoch＝30次后处于较稳定状态。由于添加SENet模块后，模型训练赋予了针对分类任务的关键特征通道较高的权重，改进的模型Model1训练收敛速度有明显提升。

两种双通道模型训练收敛速度对比实验显示，本发明构建的改进模型通过引入基于通道注意力机制，并将其同时作用于1DCNN通道和stacked BiLSTM通道时不仅具最高的测试诊断精度达到96.87％，而且针对不加入SENet模块的双通道模型Model2而言，模型训练的收敛速度有显著提升。证明改进的 SENet模块针对CNN、LSTM神经网络中不同记忆单元输出权值的重要程度高低赋予权重，过滤噪音等冗余信息影响，更快实现信号数据特征的提取从而加快模型收敛。

Claims

1.一种基于改进1DCNN-BiLSTM的设备故障诊断方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的一种基于改进1DCNN-BiLSTM的故障诊断方法，其特征在于：所述步骤S4中，采用搭建的双通道模型，对等量、同分布的预处理信号进行特征提取，步骤如下：

1-1)构建1DCNN神经网络通道对重构后的时序信号沿时间轴方向进行局部特征提取，从整体数据集固定长度的片段中提取非相关性特征，按照公式进行卷积层计算；

F＝f(W*X+b)

其中表示输入数据向量，W表示卷积核权重矩阵，b为参与计算的偏置向量，f(·)表示卷积计算的激活函数ReLU；

1-2)构建Stacked BiLSTM神经网络通道，隐藏层实现正向计算和反向计算两个过程，为网络提供数据上下文信息；

h⁺ _t＝LSTM⁺(h_t-1,x_t)

h^- _t＝LSTM^-(h_t+1,x_t)

y_t＝W_hyh_t ⁺+W’_hyh_t ^-+b_y

其中LSTM⁺(·)、LSTM^-(·)均为上文中LSTM细胞单元运算，h_t-1、h_t+1和x_t分别表示LSTM中上一时刻记忆细胞单元的输出值、下一时刻记忆细胞单元的输出值、当前时刻记忆细胞单元的输入值，W_hy和W’_hy分别为BiLSTM正向计算层、反向计算层的权重值，b_y为输出层的偏置向量；

1-3)预处理后的数据同时、等量、同分布的输入双通道模型中进行特征提取，模型双通道提取的数据特征经全连接层(FC)后输入融合层进行融合。

3.根据权利要求1所述的一种改进1DCNN-BiLSTM的设备故障诊断方法，其特征在于：所述步骤S5、S6中，采用一维全局平均池化对SENet模块进行改进并移植至双通道模型，具体为：

2-1)在传统神经网络计算操作后建立“旁路分支”；首先进行Squeeze操作F_sq(·)，将二维特征图u_d进行数据维度压缩变成一个实数，即进行全局感受野的池化操作，保持特征通道数d不变，其中l_sw指u_d的行列大小乘积值；

2-2)接着进行Excitation操作F_ex(·)，采用先降维后升维的Bottlenect结构中全连接层+Sigmoid函数学习不同特征通道的重要程度，其中σ是激活函数，W和b分别表示计算过程中的权重和偏置；

s_d＝F_ex(z_d,W,b)＝(W*z_d+b)

2-3)最终不同通道特征数据u_d乘上不同权重值s_d，即操作F_score(·)，实现关键特征通道的注意力机制得到的加权特征图为X_d；

X_d＝F_score(u_d,s_d)＝s_d*u_d。