CN116592993A - 一种基于深度学习的机械振动故障诊断方法 - Google Patents
一种基于深度学习的机械振动故障诊断方法 Download PDFInfo
- Publication number
- CN116592993A CN116592993A CN202310376679.3A CN202310376679A CN116592993A CN 116592993 A CN116592993 A CN 116592993A CN 202310376679 A CN202310376679 A CN 202310376679A CN 116592993 A CN116592993 A CN 116592993A
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution
- network
- model
- fault
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000003745 diagnosis Methods 0.000 title claims abstract description 55
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 35
- 238000001514 detection method Methods 0.000 claims abstract description 30
- 239000000284 extract Substances 0.000 claims abstract description 30
- 230000015654 memory Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 230000006403 short-term memory Effects 0.000 claims abstract description 5
- 230000007787 long-term memory Effects 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 24
- 238000010606 normalization Methods 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000002349 favourable effect Effects 0.000 claims description 9
- 210000004027 cell Anatomy 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 7
- 230000006872 improvement Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 239000006185 dispersion Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000005096 rolling process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01H—MEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
- G01H17/00—Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01M—TESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
- G01M13/00—Testing of machine parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Testing Of Devices, Machine Parts, Or Other Structures Thereof (AREA)
Abstract
本发明提供一种基于深度学习的机械振动故障诊断方法,将首层宽卷积深度神经网络WDCNN与长短期记忆网络相结合的故障诊断方法即WDCNN‑LSTM;该模型将预学习的特征信息由CNN自适应地从一维原始振动信号中提取,并通过长短期记忆网络中的控制门对卷积提取后的特征进行进一步的特征增强提取,再通过分类检测模块尽最大程度获取预检测的故障特征信息。将经典的卷积神经网络模型进行了改进,使得模型提高了对于短距离特征的学习效率,通过较大的卷积核来一次性学习多个机械故障特征,减少了模型训练时长。不仅可以有效地提取故障特征信息而且可以防止过拟合,对于复杂环境下的机械振动故障检测也有一定的提升作用。
Description
技术领域
本发明涉及深度学习方法技术领域,特别涉及一种基于深度学习的机械振动故障诊断方法。
背景技术
在国家工业智能制造、大数据的时代背景下,机械故障诊断是一个非常热门的研究领域,有着广泛的应用前景和巨大的经济价值。随着深度学习的不断发展,研究者逐渐使用深度学习的方法来代替传统方法进行机械故障诊断。
早期的机械振动故障诊断方法依赖专家经验和先验知识,难以满足如今复杂机械设备的诊断现状。机械振动故障诊断目前主流的方法就是使用深度学习去获取可以直接反映机械状态的振动信号,利用深度学习的特征提取技术可以提高信噪比,在检测同时消除噪声提取有用的特征信息,提高故障识别的准确率,取得了突破性的进展,成果显著。
比如2019年,就有一些研究人员提出了一种直接适用于原始振动信号的一维CNN,用于电机实时故障诊断将浅层自适应一维CNN应用于感应电机中转子杆断裂的实时检测和分类。与传统故障诊断系统单独设计的特征提取和分类模块不同,此设计的系统直接以原始定子电流信号为输入,经过适当的训练即可自动学习最优特征。
具有宽第一层核(WDCNN)的深度卷积神经网络来抑制高频噪声,该方法在对采集到的原始振动信号进行特征提取的同时,利用卷积第一层的宽核对高频噪声进行抑制,通过故障检测试验台验证了即使在有噪声的环境下WDCNN同样能获得较高的精度。
目前,在获取时间序列数据方面,比较流行的深度学习网络有循环神经网络(Recurrent Neural Network,RNN),长短期记忆(Long Short Term Memory,LSTM)和门控循环单元(Gated Recurrent Unit,GRU)等网络模型也备受研究者的研究的热门话题。
各机械故障振动信号的状态的特征是不同的,人工从时域波形中识别分类出故障类型是一项困难的工作。基于深度学习的机械振动故障检测方法在性能上相比于传统机械故障检测方法有很大提升,但也存在一些问题:1.目前,机械振动故障数据集中存在检测特征信息差异、噪音和复杂环景等情况,使网络模型在训练过程中不能充分保留机械故障信号的原始特征,进而影响后面对故障进行诊断的效果。2.卷积神经网络应用于深度学习技术中进行机械故障诊断,虽然这些方法能够很好地提取故障特征并进行故障诊断,但提取原始信号中的错误或无关特征,诊断的错误率较高,不能达到令人满意的效果。3.CNN只能学习接收领域的空间信息,而不能学习振动信号中的时间序列信息;随着网络结构的不断加深,CNN学习到的特征越来越抽象。而且容易过拟合,就会影响后面的实验效果。
发明内容
为了解决背景技术提出的技术问题,本发明提供一种基于深度学习的机械振动故障诊断方法,将首层宽卷积深度神经网络与长短期记忆网络相结合的故障诊断技术。将经典的卷积神经网络模型进行了相关的改进,使得模型提高了对于短距离特征的学习效率,通过较大的卷积核来一次性学习多个机械故障特征,减少了模型训练时长,可自主学习到面向故障诊断有利的特征信息,而对故障诊断没有帮助的特征则会被自动去除。这就说明改进的网络不仅可以有效地提取故障特征信息,而且可以防止过拟合,对于复杂环境下的机械振动故障检测也有一定的提升作用。
为了达到上述目的,本发明采用以下技术方案实现:
一种基于深度学习的机械振动故障诊断方法,所述的方法是将首层宽卷积深度神经网络WDCNN与长短期记忆网络相结合的故障诊断方法即WDCNN-LSTM;该WDCNN-LSTM模型将预学习的特征信息由CNN自适应地从一维原始振动信号中提取,并通过长短期记忆网络中的控制门对卷积提取后的特征进行进一步的特征增强提取,再通过分类检测模块尽最大程度获取预检测的故障特征信息。
具体包括如下:
第一步,设计一种新的特征提取网络,该特征提取网络通过扩大原始神经网络第一卷积层的卷积核大小来提高模型对于短距离特征的学习效率,通过大的卷积核来一次性学习多个机械故障特征减少模型所需要的训练时长,自主学习到面向故障诊断有利的特征信息,而对故障诊断没有帮助的特征则被自动去除;
第二步,加入批归一化层,在每个卷积层之后和池化层之前进行批归一化,在接下来的几个层中,卷积层、批归一化层和池化层交替出现;在卷积层之后添加BN层;
第三步,针对CNN只能提取到信号的的空间特征,而不能学习振动信号中的时间序列信息,进而影响后面故障诊断准确性,提出一种结合首层宽卷积深度神经网络和LSTM的网络模型,对时序特征进行提取这很好的提高机械振动故障诊断的准确率。
进一步地,所述第一步中,所述一种新的特征提取网络借CNN的思想重新设计出了新的卷积结构;设计的卷积结构不但有卷积神经网络中的特征提取性能,而且利用第一层宽卷积核更好的提取机械振动故障信号特征。
CNN网络由卷积层、激活函数层、池化层三部分组成,其中在机械故障检测领域中卷积层通过卷积核从输入中提取特征,由于振动信号为一维时间序列,因此采用一维卷积法;一维卷积运算过程表示为:
其中和/>分别表示第m-th个卷积核在L-th层的权重和偏差;xL(i)表示第L-th层中的i-th个当地输入信号。
第二部分是激活函数层,这是WDCNN-LSTM模型的关键一层,因为激活函数层便于网络获取输入信号的非线性特性;当参数通过反向传播进行调整时,Relu函数使得浅层权值更容易训练;因此,采用Relu激活函数,其方程形成如下:
其中为卷积运算后的输出,/>为/>的激活值。
池化层进一步选择和过滤卷积运算得到的特征;池化层采用最大池化操作;池化后第(L+1)-th层中第m-th通道的结果定义为:
公式中表示第L-th层中第m-th通道的第t-th个神经元,w为池化区域的宽度;
原始的机械振动信号未经任何其他变换直接输入第一个卷积层,卷积层从输入中提取特征;模型中的第一个卷积层采用宽卷积核,这是由于宽卷积核比小卷积核能更好地抑制高频噪声,从而在轴承故障检测中获取到中低频段振动信号的有用特征信息。
通过扩大原始神经网络第一卷积层的卷积核大小来提高模型对于短距离特征的学习效率,通过较大的卷积核来一次性学习多个机械故障特征减少了模型训练时长,自主学习面向故障诊断有利的特征信息,而对故障诊断没有帮助的特征则会自动去除掉;为了增强WDCNN的表达能力,除了第一层以外,它和卷积层的卷积核大小都是3×1的;由于卷积核参数较少,有利于网络深化,同时对过拟合有抑制作用。
进一步地,所述第二步中,为了解决随着网络结构的加深,CNN学习到的特征越来越抽像,而且容易过拟合,影响测试结果的问题;提出了融合批归一化层的思想,目的在于减少网络结构内部协方差的偏移,在卷积层之后添加BN层;使学习的特征更准确也使得最后的诊断结果准确性更高。
给定一个BN层的q维输入yL(i)=(yL(i,1),...,yL(i,q)),经过BN层变换后得到zL(i,j),具体计算过程如下:
其中,μ=E[yL(i,j)]表示第L-th层输出数据的均值,σ2=Var[yL(i,j)]为L-th层输出数据的标准差;ε是为了避免分母为0而加进去的接近于0的常数;γ和β为可学习参数;
为了减小内部协方差的偏差,在每个卷积层之后和池化层之前进行批归一化;在接下来的几个层中,卷积层、批归一化层和池化层交替出现。
进一步地,所述第三步中,引入LSTM;LSTM作为循环神经网络的变形体,它的提出有效地解决RNN的一系列问题;它由一个存储单元和三个门控单元组成,即遗忘门、输入门和输出门;存储单元通过这三个门控制要记忆的数据,遗忘门选择性地遗忘无用信息,输入门过滤输入信息并更新内存状态;输出门起着决定性的作用,它根据存储单元输出信息;LSTM模块具体计算过程如公式所示:
ft=σ(Wf[ht-1;xt]+bf)
it=σ(Wi[ht-1;xt]+bi)
ot=σ(Wo[ht-1;xt]+bo)
ht=ot⊙tanh(ct)
其中ft为遗忘门,it为输入门,ot为输出门,ct为记忆单元,ht表示隐藏层状态;σ和tanh分别表示sigmoid和tanh激活函数;Wf、bf分别为遗忘门权重矩阵和偏置向量;Wi、bi分别为输入门的权重矩阵和偏置向量,Wo、bo分别为输出门的权重矩阵和偏置向量;Wc、bc分别为记忆单元的权重矩阵和偏置项;[;]表示两个向量拼接;⊙代表向量相乘。
最后将特征量输入LSTM网络对时序特征进行提取,处理后的特征量输入到全连接层,最后通过Softmax分类器输出分类结果。
与现有技术相比,本发明的有益效果是:
1)本发明的网络在交通机械振动故障检测中具有很强的鲁棒性:无论是数据集中存在特征信息提取困难、高温、高湿、重载的复杂环境中复杂环境等恶劣的条件下,都不会对机械振动故障检测的结果产生太大影响,减少了漏检和误检情况的出现能够准确诊断滚动轴承的异常状态,准确定位故障位置。
2)本发明提出的首层宽卷积核特征提取模块,能够自适应地提取具有代表性的特征减少了错误信息和无用信息的提取,克服了手工特征提取的局限性并且有效地提取故障特征信息。既可以更好提取原始机械振动故障的特征,还可以提高模型对于短距离特征的学习效率减少网络模型的训练时长和参数量。自主学习对于机械振动故障检测有利的特征信息,忽略掉无用的特征信息,最终设计出的特征提取模块能很好的提高网络训练的效率。
3)本发明提出增强首层宽卷积核的表达能力,将除第一层外其他的卷积层的卷积核的大小都为3x1,从而能使网络更深层次的提取机械振动故障的特征信息,这样,网络深化的同时不会造成过拟合影响最终的检测结果。
4)本发明在卷积层之后添加批量归一化层。批量归一化层会减少网络结构中的偏移,加入批量归一化层会使模型的训练过程的收敛速度加快,对于本发明加入批量归一化层缓解了梯度越来越小,最终导致某层梯度为0,使得网络前几层的参数不再更新,最终导致模型的性能很差的问题。
5)本发明引入了循环神经网络的变形体LSTM。加入LSTM,就可以改善CNN主要对信号的空间信息特征进行提取二缺乏对信号时序特征提取的不足。这样,本发明提出的网络模型就可以利用有限的资源获取到更好的时间信息。
附图说明
图1本发明的网络模型总体结构图;
图2本发明采用的WDCNN网络结构;
图3本发明中采用的BN结构图;
图4本发明中采用的LSTM单元结构。
具体实施方式
以下结合附图对本发明提供的具体实施方式进行详细说明。
本发明提出一种改进的网络,将首层宽卷积深度神经网络(Wide First-layerDeep Convolutional Neural Network,WDCNN)与长短期记忆网络相结合的故障诊断方法:“WDCNN-LSTM”。该WDCNN-LSTM模型将预学习的特征信息由CNN自适应地从一维原始振动信号中提取,并通过长短期记忆网络中的控制门对卷积提取后的特征进行进一步的特征增强提取,再通过分类检测模块尽最大程度获取预检测的故障特征信息。
包括如下内容:
第一步,为了解决特征提取模块在提取原始信号特征信息时,提取原始信号中的错误或无关特征的问题。本发明设计一种新的特征提取网络,扩大原始神经网络第一卷积层的卷积核大小来提高模型对于短距离特征的学习效率,通过较大的卷积核来一次性学习多个机械故障特征大大减少了模型所需要的训练时长,可自主学习到面向故障诊断有利的特征信息,而对故障诊断没有帮助的特征则会被自动去除。可以解决特征提取模块提取原始故障信号错误或无关特征的问题。
第二步,针对随着网络结构的加深,CNN学习到的特征越来越抽象。而且容易过拟合,这会影响测试结果的问题。本发明加入批归一化层,旨在减少内部协方差的偏移。它不仅可以加快模型训练过程的收敛速度,而且更重要的是在一定程度缓解了深层网络中“梯度弥散”的问题。因此,在卷积层之后添加BN层。减小过拟合问题,使最终机械振动故障检测性能更好。
第三步,针对CNN只能提取到信号的的空间特征,而不能学习振动信号中的时间序列信息,进而影响后面故障诊断准确性。所以,本发明提出了一种结合提出了一种结合首层宽卷积深度神经网络和LSTM的网络模型,对时序特征进行提取这很好的提高机械振动故障诊断的准确率。
所述第一步中,本发明借CNN的思想重新设计出了新的卷积结构。设计的卷积结构不但有卷积神经网络中的特征提取性能,而且可以利用第一层宽卷积核更好的提取机械振动故障信号特征。
卷积神经网络常常被广泛的应用于图像处理和自然语言处理等领域,其是一种具有卷积计算的前馈神经网络。CNN网络主要由卷积层、激活函数层、池化层3部分组成,其中在机械故障检测领域中卷积层通过卷积核从输入中提取特征,由于振动信号为一维时间序列,因此本发明采用一维卷积法。一维卷积运算过程表示为:
其中和/>分别表示第m-th个卷积核在L-th层的权重和偏差。xL(i)表示第L-th层中的i-th个当地输入信号。
第二部分是激活函数层,这是WDCNN-LSTM模型的关键一层,因为激活函数层便于网络获取输入信号的非线性特性。当参数通过反向传播进行调整时,Relu函数使得浅层权值更容易训练。因此,本发明采用Relu激活函数,其方程形成如下:
其中为卷积运算后的输出,/>为/>的激活值。
池化层进一步选择和过滤卷积运算得到的特征。本发明的池化层采用最大池化操作。池化后第(L+1)-th层中第m-th通道的结果可以定义为:
公式中表示第L-th层中第m-th通道的第t-th个神经元,w为池化区域的宽度。
原始的机械振动信号未经任何其他变换直接输入第一个卷积层,卷积层从输入中提取特征。模型中的第一个卷积层采用宽卷积核,这是由于宽卷积核比小卷积核能更好地抑制高频噪声,从而在轴承故障检测中获取到中低频段振动信号的有用特征信息。
首层宽卷积深度神经网络与经典卷积神经网络模型不同的是,本发明通过扩大原始神经网络第一卷积层的卷积核大小来提高模型对于短距离特征的学习效率,通过较大的卷积核来一次性学习多个机械故障特征减少了模型训练时长,自主学习面向故障诊断有利的特征信息,而对故障诊断没有帮助的特征则会自动去除掉。为了增强WDCNN的表达能力,除了第一层以外,它和卷积层的卷积核大小都是3×1的。由于卷积核参数较少,有利于网络深化,同时对过拟合有抑制作用。
所述第二步中,为了解决随着网络结构的加深,CNN学习到的特征越来越抽像,而且容易过拟合,影响测试结果的问题。
本发明提出了融合批归一化层的思想,批归一化层的主要目的就在于减少网络结构内部协方差的偏移,这样就会让网络模型的减少训练时间大大减少,这样也会使得到的诊断结果更准确。它不仅可以加快模型训练过程的收敛速度,而且更重要的是在一定程度缓解了深层网络中“梯度弥散”的问题。因此,本发明在卷积层之后添加BN层。使学习的特征更准确也使得最后的诊断结果准确性更高。
给定一个BN层的q维输入yL(i)=(yL(i,1),...,yL(i,q)).,经过BN层变换后得到zL(i ,j),具体计算过程如下:
其中,μ=E[yL(i,j)]表示第L-th层输出数据的均值,σ2=Var[yL(i,j)]为L-th层输出数据的标准差。ε是为了避免分母为0而加进去的接近于0的常数。γ和β为可学习参数。
为了减小内部协方差的偏差,在每个卷积层之后和池化层之前进行批归一化。在接下来的几个层中,卷积层、批归一化层和池化层交替出现。
所述第三步中,本发明引入了LSTM。CNN主要提取信号的空间特征,缺乏对信号序列的关注,无法捕捉信号的时序特征。RNN对于时间序列的特征学习具有一定的优势,具有记忆性和参数共享等特点,但在训练的过程中容易出现梯度消失、爆炸的问题等问题。LSTM作为循环神经网络的变形体,它的提出有效地解决RNN的一系列问题。
它由一个存储单元和三个门控单元组成,即遗忘门、输入门和输出门。存储单元通过这三个门控制要记忆的数据,遗忘门选择性地遗忘无用信息,输入门过滤输入信息并更新内存状态。输出门起着决定性的作用,它根据存储单元输出信息。LSTM模块具体计算过程如公式所示:
ft=σ(Wf[ht-1;xt]+bf)
it=σ(Wi[ht-1;xt]+bi)
ot=σ(Wo[ht-1;xt]+bo)
ht=ot⊙tanh(ct)
其中ft为遗忘门,it为输入门,ot为输出门,ct为记忆单元,ht表示隐藏层状态。σ和tanh分别表示sigmoid和tanh激活函数。Wf、bf分别为遗忘门权重矩阵和偏置向量;Wi、bi分别为输入门的权重矩阵和偏置向量,Wo、bo分别为输出门的权重矩阵和偏置向量。Wc、bc分别为记忆单元的权重矩阵和偏置项;[;]表示两个向量拼接;⊙代表向量相乘。
最后将特征量输入LSTM网络对时序特征进行提取,处理后的特征量输入到全连接层,最后通过Softmax分类器输出分类结果。
具体实施例:
图1是本发明网络模型的机械振动故障检测步骤,一种基于改进CNN的机械振动故障检测的方法的具体实现步骤如下:
步骤1、在网站上下载凯斯西储大学承载数据中心提供的滚动轴承故障数据集CWRU,将这些需要的文件放到media/dubing/Linux_data_1/czj/AI_Challenger文件夹下,本发明仅采用6点位置的外圈故障,因此本发明所对比的轴承检测有10种故障类型。
步骤2、本发明对模型训练的参数进行如下设置:每个周期的采样点数可以通过采集频率和采集速度(采样点/每个周期=采样频率*60/转速)来推断。本发明主要研究1hp载荷下的轴承故障情况,电机转速为1772转每分钟,每个循环的样本点数为406.32(12000*60/1772=406.32)。因此,样本点长度设定为406个。对于训练样本,采用重叠采样方法截取原始数据,滑动步长为80。对于测试样本,将使用不重叠截距。我们在1hp处采集了10类故障数据构建数据集进行实验,每类包含660个训练样本和100个测试样本。
步骤3、将最终生成的机械振动故障的权重值命名为best_model.pth,放在指定的/home/Code/PoliceGesture/weight文件夹下。然后就可以运行程序,对凯斯西储大学承载数据中心提供的滚动轴承故障数据集CWRU进行训练。
步骤4、接下来就可以编写带有首层宽卷积核获取原始机械振动故障特征信息的程序。运行此段代码,训练完成,接下来就可以对机械振动故障特征进行相应的测试。
步骤5、图2是本发明采用的WDCNN网络结构。为了增强WDCNN的表达能力,除了第一层以外,它和卷积层的卷积核大小都是3×1的。由于卷积核参数较少,有利于网络深化,同时对过拟合有抑制作用。
步骤6、图3是本发明中采用的BN结构图。本发明为了减少内部协方差的偏移,加快模型训练过程的收敛速度,缓解深层网络中“梯度弥散”的问题。因此,本发明在卷积层之后添加BN层。
步骤7、图4是本发明中提出的LSTM。旨在解决CNN缺乏对信号时序关注的问题,将特征量输入LSTM网络对时序特征进行提取,它由一个存储单元和三个门控单元组成,即遗忘门、输入门和输出门。具体来说,存储单元通过这三个门控制要记忆的数据。遗忘门选择性地遗忘无用信息;输入门过滤输入信息并更新内存状态。输出门起着决定性的作用,它根据存储单元输出信息。
步骤8、在网络的训练阶段,网络通过训练相应的程序,就可以获得相应的权重值,完成最终的机械振动故障诊断。
步骤9、当网络模型训练参数越多且网络结构越复杂时,整个网络的误差也就越小。但有可能出现“过拟合”的情况。为了选取长短期记忆网络适合的隐藏层数以及隐藏节点数,本发明探索了长短期记忆网络的隐藏层数以及隐藏节点数对模型性能的影响。分别训练了在WDCNN后堆叠一层LSTM(隐藏节点数分别为16、32、64)和堆叠两层LSTM这两种网络结构。,其中WDCNN-LSTM-i-j表示第一层LSTM中有i个隐藏节点,第二层LSTM中有j个隐藏节点,如WDCNN-LSTM-16表示第一层LSTM中有16个神经元,并且不存在第二层LSTM。
随着隐藏层节点数的增加,平均准确率先增加后下降,标准差则在增加。在实际应用中,标准差常被理解为稳定性,标准差越小,越稳定。因而,WDCNN-LSTM-64的效果最优。
步骤10、进一步分析LSTM使用不同数量的隐单元对分类结果的影响,在WDCNN-LSTM-i,其中i∈{32,64,128}。在使用一个全连通层下通过T-SNE对测试集样本进行可视化。同一故障类型的轴承故障特征会出现明显的聚集现象。采用两层LSTM的WDCNN-LSTM模型是在WDCNN-LSTM-64实验的基础上建立的,第二层LSTM的隐单元数分别设置为32、64和128个。平均精度随着层数的增加而增加,这也证明了层数和隐含单元的个数对模型的精度有很大的影响,适当的层数和隐含单元的个数有利于模型更加准确稳定的分类。当第二层LSTM的隐层单元数为64时,分类的平均准确率高于隐层单元数为32和128,高于只有一层LSTM的WDCNN-LSTM模型。在接下来的实验中,采用堆叠两层LSTM的WDCNN-LSTM模型进行训练,隐层单元数为64个。
步骤11、为了验证本发明提出模型的性能,使用相同的实验数据,与如下先进的深度学习方法进行比较:
WDCNN(Deep ConvolutionalNeuralNetworks withWide First-layerKernels),有五层卷积、池化层和一个使用sigmoid激活函数的全连接层,最后采用Softmax进行分类。
MS-DCNN(Multi-Scale Deep ConvolutionalNeuralNetwork)一维多尺度深度卷积神经网络,经过一层卷积和池化层之后,再使用不同大小的卷积核并行提取不同尺度的特征,然后将不同尺度的特征拼接在一起。最后,由两层全连接层组成的分类器进行分类。
MCNN-LSTM(Multi-scale ConvolutionalNeuralNetworkandLong Short-TermMemory)。通过利用两个不同核大小的卷积神经网络从原始振动数据中自动提取不同的频域特征,然后通过元素级乘积进行融合(fusedby element-wise product),最后通过长短期记忆网络和全连接层,对学习到的特征进行识别。
CNN-BLSTM,由三层卷积、池化层和一层具有32个神经元(units)双向LSTM组成在卷积层的第二层和第三层中引入了dropout层,使用Softmax作为分类器。
为了减少分类精度受随机性的影响,每个基线模型各运行20次独立的实验,模型均使用tensorflow=1.14框架编写,所有实验均在GTX3060Ti机器上运行。学习速率设置为0.001(learning rate,lr),优化器采用Adam,使用交叉熵损失函数。批训练大小为128,epoch设置为300,在训练过程中为了防止过拟合本发明使用早停法,当验证集的损失值连续10次没有下降时,结束训练。
步骤12、本发明使用准确率(Accuracy,Acc)评价故障诊断模型性能的好坏,Acc计算公式如下:
通过此评价指标,来精确地比较本发明与其他现有先进的网络模型的机械振动故障检测的准确度结果。
从上述技术方案可以看出,本发明根据现实生活中机械振动故障检测中面临的问题,如:原始信号中振动故障特征提取困难以及复杂背景等情况,对CNN和LSTM进行了相应的改进。为提高故障诊断方法的诊断准确性和稳定性,提出一种滚动轴承故障智能诊断模型WDCNN-LSTM,该模型由WDCNN模块、LSTM模块和全连接层组成。将采集到的原始振动信号直接输入模型,通过卷积、批归一化层和池化层自适应提取特征信息。进一步通过叠层LSTM提取,充分获取故障特征信息。将处理后的特征输入到全连接层,通过Softmax分类器输出分类结果。同时,这也证明了本发明所提出的WDCNN-LSTM模型能够从原始输入信号数据中提取具有较高区分度的特征,是一种有效的故障诊断模型,尤其对于复杂背景而言可以更加精确的确定机械振动故障。
本发明通过在CWRU数据集承载的信息指数来检验本文提出的模型WDCNN-LSTM的有效性。经过大量对比实验证明。其机械振动故障检测的准确度达到了99.65%,相对其他现有的网络改进之前准确度提高了2.37%。
本发明的一种将首层宽卷积深度神经网络与长短期记忆网络相结合的故障诊断技术。将经典的卷积神经网络模型进行了相关的改进,使得模型提高了对于短距离特征的学习效率,通过较大的卷积核来一次性学习多个机械故障特征,减少了模型训练时长,可自主学习到面向故障诊断有利的特征信息,而对故障诊断没有帮助的特征则会被自动去除。这就说明改进的网络不仅可以有效地提取故障特征信息,而且可以防止过拟合,对于复杂环境下的机械振动故障检测也有一定的提升作用。修改了模型基本结构,进行相关模型融合,进行了层数叠加,修改了基本模型参数,扩大了卷积核,加入批归一层,解决了梯度弥散问题。
从上述技术方案可以看出,本发明根据路面障碍检测中面临的问题,如:在移动设备中的使用、遮挡和拥挤环境、小目标检测及复杂背景等问题。为了减小网络计算量,使模型更加的轻量化,本发明使用Mobilenetv3代替原本的CSPDarkNet53主干网络对数据进行特征提取操作,使模型整体变得轻便。在特征融合网络中,本文将ECA注意力机制加入其中,使模型对特征的关注聚焦于通道之间,并且找到通道间所存在的关系,使模型可以有选择性的学习有用特征,帮助模型提升整体精度。最后在融合网络中增加了融合特征,在相对靠前的卷积层中提取特征图并与原结构相融合,以此丰富融合信息提升小目标检测效果。并且在特征融合的网络中加入改进后的CBL模型,模型整体的计算参数大大减少。改进后的模型在精度上有所提升,并且更易于嵌入到移动设备当中。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (4)
1.一种基于深度学习的机械振动故障诊断方法,其特征在于,所述的方法是将首层宽卷积深度神经网络WDCNN与长短期记忆网络相结合的故障诊断方法即WDCNN-LSTM;该WDCNN-LSTM模型将预学习的特征信息由CNN自适应地从一维原始振动信号中提取,并通过长短期记忆网络中的控制门对卷积提取后的特征进行进一步的特征增强提取,再通过分类检测模块尽最大程度获取预检测的故障特征信息;
具体包括如下:
第一步,设计一种新的特征提取网络,该特征提取网络通过扩大原始神经网络第一卷积层的卷积核大小来提高模型对于短距离特征的学习效率,通过大的卷积核来一次性学习多个机械故障特征减少模型所需要的训练时长,自主学习到面向故障诊断有利的特征信息,而对故障诊断没有帮助的特征则被自动去除;
第二步,加入批归一化层,在每个卷积层之后和池化层之前进行批归一化,在接下来的几个层中,卷积层、批归一化层和池化层交替出现;在卷积层之后添加BN层;
第三步,针对CNN只能提取到信号的的空间特征,而不能学习振动信号中的时间序列信息,进而影响后面故障诊断准确性,提出一种结合首层宽卷积深度神经网络和LSTM的网络模型,对时序特征进行提取这很好的提高机械振动故障诊断的准确率。
2.根据权利要求1所述的一种基于深度学习的机械振动故障诊断方法,其特征在于,所述第一步中,所述一种新的特征提取网络借CNN的思想重新设计出了新的卷积结构;设计的卷积结构不但有卷积神经网络中的特征提取性能,而且利用第一层宽卷积核更好的提取机械振动故障信号特征;
CNN网络由卷积层、激活函数层、池化层三部分组成,其中在机械故障检测领域中卷积层通过卷积核从输入中提取特征,由于振动信号为一维时间序列,因此采用一维卷积法;一维卷积运算过程表示为:
其中和/>分别表示第m-th个卷积核在L-th层的权重和偏差;xL(i)表示第L-th层中的i-th个当地输入信号;
第二部分是激活函数层,这是WDCNN-LSTM模型的关键一层,因为激活函数层便于网络获取输入信号的非线性特性;当参数通过反向传播进行调整时,Relu函数使得浅层权值更容易训练;因此,采用Relu激活函数,其方程形成如下:
其中为卷积运算后的输出,/>为/>的激活值;
池化层进一步选择和过滤卷积运算得到的特征;池化层采用最大池化操作;池化后第(L+1)-th层中第m-th通道的结果定义为:
公式中表示第L-th层中第m-th通道的第t-th个神经元,w为池化区域的宽度;
原始的机械振动信号未经任何其他变换直接输入第一个卷积层,卷积层从输入中提取特征;模型中的第一个卷积层采用宽卷积核,这是由于宽卷积核比小卷积核能更好地抑制高频噪声,从而在轴承故障检测中获取到中低频段振动信号的有用特征信息;
通过扩大原始神经网络第一卷积层的卷积核大小来提高模型对于短距离特征的学习效率,通过较大的卷积核来一次性学习多个机械故障特征减少了模型训练时长,自主学习面向故障诊断有利的特征信息,而对故障诊断没有帮助的特征则会自动去除掉;为了增强WDCNN的表达能力,除了第一层以外,它和卷积层的卷积核大小都是3×1的;由于卷积核参数较少,有利于网络深化,同时对过拟合有抑制作用。
3.根据权利要求1所述的一种基于深度学习的机械振动故障诊断方法,其特征在于,所述第二步中,为了解决随着网络结构的加深,CNN学习到的特征越来越抽像,而且容易过拟合,影响测试结果的问题;提出了融合批归一化层的思想,目的在于减少网络结构内部协方差的偏移,在卷积层之后添加BN层;使学习的特征更准确也使得最后的诊断结果准确性更高;
给定一个BN层的q维输入yL(i)=(yL(i,1),...,yL(i,q)),经过BN层变换后得到zL(i,j),具体计算过程如下:
其中,μ=E[yL(i,j)]表示第L-th层输出数据的均值,σ2=Var[yL(i,j)]为L-th层输出数据的标准差;ε是为了避免分母为0而加进去的接近于0的常数;γ和β为可学习参数;
为了减小内部协方差的偏差,在每个卷积层之后和池化层之前进行批归一化;在接下来的几个层中,卷积层、批归一化层和池化层交替出现。
4.根据权利要求1所述的一种基于深度学习的机械振动故障诊断方法,其特征在于,所述第三步中,引入LSTM;LSTM作为循环神经网络的变形体,它的提出有效地解决RNN的一系列问题;它由一个存储单元和三个门控单元组成,即遗忘门、输入门和输出门;存储单元通过这三个门控制要记忆的数据,遗忘门选择性地遗忘无用信息,输入门过滤输入信息并更新内存状态;输出门起着决定性的作用,它根据存储单元输出信息;LSTM模块具体计算过程如公式所示:
ft=σ(Wf[ht-1;xt]+bf)
it=σ(Wi[ht-1;xt]+bi)
ot=σ(Wo[ht-1;xt]+bo)
ht=ot⊙tanh(ct)
其中ft为遗忘门,it为输入门,ot为输出门,ct为记忆单元,ht表示隐藏层状态;σ和tanh分别表示sigmoid和tanh激活函数;Wf、bf分别为遗忘门权重矩阵和偏置向量;Wi、bi分别为输入门的权重矩阵和偏置向量,Wo、bo分别为输出门的权重矩阵和偏置向量;Wc、bc分别为记忆单元的权重矩阵和偏置项;[;]表示两个向量拼接;⊙代表向量相乘;
最后将特征量输入LSTM网络对时序特征进行提取,处理后的特征量输入到全连接层,最后通过Softmax分类器输出分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310376679.3A CN116592993A (zh) | 2023-04-11 | 2023-04-11 | 一种基于深度学习的机械振动故障诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310376679.3A CN116592993A (zh) | 2023-04-11 | 2023-04-11 | 一种基于深度学习的机械振动故障诊断方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116592993A true CN116592993A (zh) | 2023-08-15 |
Family
ID=87599727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310376679.3A Pending CN116592993A (zh) | 2023-04-11 | 2023-04-11 | 一种基于深度学习的机械振动故障诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116592993A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805514A (zh) * | 2023-08-25 | 2023-09-26 | 鲁东大学 | 一种基于深度学习的dna序列功能预测方法 |
CN116821730A (zh) * | 2023-08-30 | 2023-09-29 | 北京科锐特科技有限公司 | 风机故障检测方法、控制装置及存储介质 |
CN117294476A (zh) * | 2023-09-08 | 2023-12-26 | 湖北华中电力科技开发有限责任公司 | 基于深度学习神经网络的网络入侵检测方法、装置、系统及存储介质 |
CN117725981A (zh) * | 2024-02-08 | 2024-03-19 | 昆明学院 | 一种基于最佳时间窗口机制的配电网故障预测方法 |
-
2023
- 2023-04-11 CN CN202310376679.3A patent/CN116592993A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805514A (zh) * | 2023-08-25 | 2023-09-26 | 鲁东大学 | 一种基于深度学习的dna序列功能预测方法 |
CN116805514B (zh) * | 2023-08-25 | 2023-11-21 | 鲁东大学 | 一种基于深度学习的dna序列功能预测方法 |
CN116821730A (zh) * | 2023-08-30 | 2023-09-29 | 北京科锐特科技有限公司 | 风机故障检测方法、控制装置及存储介质 |
CN116821730B (zh) * | 2023-08-30 | 2024-02-06 | 北京科锐特科技有限公司 | 风机故障检测方法、控制装置及存储介质 |
CN117294476A (zh) * | 2023-09-08 | 2023-12-26 | 湖北华中电力科技开发有限责任公司 | 基于深度学习神经网络的网络入侵检测方法、装置、系统及存储介质 |
CN117725981A (zh) * | 2024-02-08 | 2024-03-19 | 昆明学院 | 一种基于最佳时间窗口机制的配电网故障预测方法 |
CN117725981B (zh) * | 2024-02-08 | 2024-04-30 | 昆明学院 | 一种基于最佳时间窗口机制的配电网故障预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116592993A (zh) | 一种基于深度学习的机械振动故障诊断方法 | |
Moreno-Barea et al. | Improving classification accuracy using data augmentation on small data sets | |
Zhao et al. | Deep multi-scale convolutional transfer learning network: A novel method for intelligent fault diagnosis of rolling bearings under variable working conditions and domains | |
Lv et al. | Generative adversarial networks for parallel transportation systems | |
Chen et al. | Embedded system real-time vehicle detection based on improved YOLO network | |
CN108596327B (zh) | 一种基于深度学习的地震速度谱人工智能拾取方法 | |
Miao et al. | A novel real-time fault diagnosis method for planetary gearbox using transferable hidden layer | |
CN111460157B (zh) | 用于多领域文本分类的循环卷积多任务学习方法 | |
Ma et al. | An unsupervised domain adaptation approach with enhanced transferability and discriminability for bearing fault diagnosis under few-shot samples | |
Ding et al. | Deep imbalanced regression using cost-sensitive learning and deep feature transfer for bearing remaining useful life estimation | |
CN112491891B (zh) | 物联网环境下基于混合深度学习的网络攻击检测方法 | |
Li et al. | Robust deep neural networks for road extraction from remote sensing images | |
Skouta et al. | Automated binary classification of diabetic retinopathy by convolutional neural networks | |
CN112597921B (zh) | 一种基于注意力机制gru深度学习的人体行为识别方法 | |
Rosli et al. | Development of CNN transfer learning for dyslexia handwriting recognition | |
CN114548591A (zh) | 一种基于混合深度学习模型和Stacking的时序数据预测方法及系统 | |
Zhang et al. | An improved MAHAKIL oversampling method for imbalanced dataset classification | |
Sun et al. | Gradient-based novelty detection boosted by self-supervised binary classification | |
Li et al. | Incremental learning of infrared vehicle detection method based on SSD | |
CN115438705B (zh) | 一种基于可穿戴设备的人体动作预测方法 | |
Yu et al. | A Novel 1D‐CNN‐Based Diagnosis Method for a Rolling Bearing with Dual‐Sensor Vibration Data Fusion | |
CN115795353A (zh) | 一种基于不均衡数据集的地下金属目标分类方法及系统 | |
Parthiban et al. | Efficientnet with optimal wavelet neural network for DR detection and grading | |
CN115687912A (zh) | 预测对象的轨迹数据的方法和系统及训练机器学习方法来预测对象的轨迹数据的方法和系统 | |
Zhang et al. | Machine Learning‐Based Multitarget Tracking of Motion in Sports Video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |