CN116680561A - 一种变转速和样本不均衡下基于gan-ae-lstm的锥齿轮故障诊断方法 - Google Patents
一种变转速和样本不均衡下基于gan-ae-lstm的锥齿轮故障诊断方法 Download PDFInfo
- Publication number
- CN116680561A CN116680561A CN202310320320.4A CN202310320320A CN116680561A CN 116680561 A CN116680561 A CN 116680561A CN 202310320320 A CN202310320320 A CN 202310320320A CN 116680561 A CN116680561 A CN 116680561A
- Authority
- CN
- China
- Prior art keywords
- network
- data
- output
- gan
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 85
- 238000009826 distribution Methods 0.000 claims description 29
- 230000004913 activation Effects 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000007547 defect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000015556 catabolic process Effects 0.000 claims description 3
- 230000001413 cellular effect Effects 0.000 claims description 3
- 230000021615 conjugation Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 238000004880 explosion Methods 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims description 3
- 239000002245 particle Substances 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 238000005336 cracking Methods 0.000 claims 1
- 238000005070 sampling Methods 0.000 claims 1
- 230000001502 supplementing effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000005299 abrasion Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000007306 functionalization reaction Methods 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 208000004188 Tooth Wear Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01M—TESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
- G01M13/00—Testing of machine parts
- G01M13/02—Gearings; Transmission mechanisms
- G01M13/021—Gearings
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01M—TESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
- G01M13/00—Testing of machine parts
- G01M13/02—Gearings; Transmission mechanisms
- G01M13/028—Acoustic or vibration analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2131—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on a transform domain processing, e.g. wavelet transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2123/00—Data types
- G06F2123/02—Data types in the time domain, e.g. time-series data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
- G06F2218/10—Feature extraction by analysing the shape of a waveform, e.g. extracting parameters relating to peaks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Acoustics & Sound (AREA)
- Testing Of Devices, Machine Parts, Or Other Structures Thereof (AREA)
Abstract
本发明公开了一种变转速和样本不均衡下基于GAN‑AE‑LSTM的锥齿轮故障诊断方法,方法如下:第一步,采用生成对抗网络理论构建数据生成模块;第二步,采用自动编码器和长短时记忆网络理论构建故障诊断模块;第三步,利用数据生成模块生成伪样本数据,并补充到原始数据集中,形成均衡数据集;第四步,将均衡数据集中的一维振动信号转变为二维时频灰度图像,并划分为训练集和测试集;第五步,将训练集输入故障诊断模块,让网络进行特征学习与提取,完成训练,再将测试集输入训练好的网络进行测试。本发明结合了生成对抗网络的数据生成能力、自动编码器的特征提取能力以及长短时记忆神经网络的时序数据处理能力,能够在变转速和样本不均衡下对锥齿轮故障进行有效地诊断。
Description
技术领域
本发明涉及锥齿轮振动信号智能故障诊断技术领域,尤其涉及一种变转速和样本不均衡下基于GAN-AE-LSTM的锥齿轮故障诊断方法。
背景技术
随着社会生产力的发展,机械设备越来越广泛地被应用于生活生产中去。而作为机械设备中非常重要的部件,如锥齿轮等旋转机械的关键部件经常处于变转速、高负载等恶劣的工况环境中,极易出现损伤,甚至发生故障,造成经济损失,而且某些故障无法获得足够的数据。因此,采用先进的技术处理振动信号,提取故障特征,进行故障诊断,对降低维护成本、避免安全事故的发生有着重大的现实意义。
故障诊断中常用的神经网络模型有受限玻尔兹曼机、卷积神经网络、深度置信网络和循环神经网络等。这些网络方法在进行旋转机械的故障诊断时,取得了不错的成绩。但是在针对变转速振动信号进行故障诊断时,往往需要大量的网络层堆叠,对计算设备的要求很高,耗费的时间很长。而且在对样本不均衡的数据集进行故障诊断时,容易出现小样本故障诊断不准的问题。随着深度学习的发展,各种新的神经网络模型被越来越多的研究人员引用到故障诊断领域,并获得了不错的成果,但几乎没有运用于变转速和样本不均衡下数据集的深度学习模型。
发明内容
本发明针对现有技术存在的缺陷提供一种变转速和样本不均衡下基于GAN-AE-LSTM的锥齿轮故障诊断方法。
一种变转速和样本不均衡下基于GAN-AE-LSTM的锥齿轮故障诊断方法,包括如下步骤:
步骤1.构建网络数据生成模块:包括生成器和判别器,其中生成器包括四个反卷积层,采用了ReLU激活函数和归一化技术,判别器包括四个卷积层,采用了Leaky ReLU激活函数和归一化技术,构建GAN网络;
步骤2.构建网络故障诊断模块:包括编码网络和解码网络,故障诊断模块的编码和解码都采用的长短时记忆网络的结构,构建AE-LSTM网络;
步骤3.生成伪样本数据,构造样本均衡数据集:将锥齿轮故障样本不均衡数据集中的小样本数据输入到步骤1中所构建的网络数据生成模块中,生成与原始真实数据相似的伪样本数据,再把生成的伪样本数据混合到真实数据中,构造补充样本均衡数据集;
步骤4.转化数据类型,划分数据集:利用信号处理的手段将步骤3中补充样本均衡数据集的一维振动信号转变为二维时频图像,再对二维时频图像灰度化,形成时频灰度图数据集,并划分为训练集和测试集;
步骤5.训练、测试GAN-AE-LSTM网络模型:将步骤4中划分好的训练集输入到步骤2所生成的网络故障诊断模块,通过网络故障诊断模块进行特征学习与提取,完成GAN-AE-LSTM网络模型的训练,再将测试集输入训练好的GAN-AE-LSTM网络模型进行测试,从而检验GAN-AE-LSTM网络模型的诊断准确性。
优选地,所述步骤1中:
设x为真实信号,y为随机噪声向量,则GAN训练的目标函数如下:
其中,pr为生成器G用于优化生成的真实数据分布;pg为模型分布,比如高斯分布或均匀分布;D(x)和D(G(y))分别为判断真实数据和生成数据是否真实的概率;
在进行模型训练时,损失函数公式如下:
其中,∏(pr,pg)表示所有联合分布γ(x,y)的集合,γ(x,y)的边缘概率分别为pr和pg;
价值函数为:
其中,为1-Lipschitz函数集;
GAN引入Wasserstein距离和Lipschitz函数解决了网络难以训练、不稳定的缺点。但网络为了达到Lipschitz的限制,直接将判别器的参数限制在某个范围之内,会使参数直接在该范围的最大值和最小值上,导致判别器的性能很差,造成网络的梯度爆炸;
为了改善Lipschitz给判别器的参数加入限制导致的性能下降问题,提出一种“梯度惩罚(Gradient Penalty,GP)”的改进方法,即给GAN网络的判别器损失函数加入如下式所示的GP项:
其中,K是常数,一般取1,xr服从pr分布,xg服从pg分布,表示在xr和xg的连线上随机插值取样。即/>满足下式:
由此采样得来的服从/>分布,而由于只对GAN的判别器损失函数进行改进。所以生成器和判别器损失函数分别为:
至此,GAN的生成器和判别器的激活函数和损失函数、以及网络的目标函数均已确定,基于GAN理论的数据生成模块构建完成。
优选地,步骤2中网络的故障诊断模块由基于AE和LSTM原理的神经网络组成,AE和LSTM的基本原理如下:
AE分为编码网络和解码网络两部分,由输入层、输出层和隐含层构成,编码器f(x)可以提取输入数据的特征,将输入映射到隐层特征/>原始数据从输入层到隐藏层的编码过程如下所示:
h=f(x)=sf(Wx+bh) (8)
其中,为权重矩阵,/>为偏差向量,sf为非线性映射函数;
解码器g(x)是编码器的一个反射,它的主要功能是将隐层特征h(x)反射到输入单元,得到输入的重构公式如下所示:
其中,W′=WT,为偏差向量,sg为解码激活函数,一般为sigmoid函数;
LSTM包含三个状态门:遗忘门、输入门、输出门,工作原理如下:
遗忘门根据上一时刻的隐藏输出状态以及当前时刻的输入状态决定哪些状态会被遗忘。激活函数通常为Sigmoid函数,得到遗忘门的输出状态为f(t),表达式如下:
f(t)=sigmoid(Wfhh(t-1)+Wfuu(t)+bf) (11)
其中,f(t)为当前时刻遗忘门的输出状态,Wfh,Wfu为遗忘门权重系数,bf为遗忘门偏置;
输入门决定当前时刻是否需要将新状态更新到细胞状态中。激活函数通常为Sigmoid函数,得到输入门的输出状态为i(t),表达式如下:
i(t)=sigmoid(Wihh(t-1)+Wiuu(t)+bi) (12)
其中,i(t)为当前时刻输入门的输出状态,Wih,Wiu为输入门权重系数,bi为输入门偏置;
经过遗忘门与输入门之后,更新细胞状态。细胞状态有两部分组成:一是细胞状态和遗忘门输出的乘积,二是输入门输出和tanh激活函数输出的乘积,表达式如下:
其中,Wch,Wcu为细胞状态更新权重系数,bc为细胞状态偏置;
输出门根据上一时刻的隐藏输出状态以及当前时刻的输入状态决定是否更新输出的状态。激活函数通常为Sigmoid函数,得到遗忘门的输出状态o(t),表达式如下:
o(t)=sigmoid(Wohh(t-1)+Wouu(t)+bo) (15)
其中,o(t)为这一时刻输出门输出状态,Woh,Wou为输出门权重系数,bo为输出门偏置;
LSTM单元的输出包含当前时刻的细胞状态以及输出的隐藏状态。输出的隐藏状态由当前时刻的细胞状态以及输出门输出o(t)决定:
h(t)=o(t)×tanh(c(t)) (16)
其中,o(t)为当前时刻输出门的输出状态,Tanh为输出门的激活函数;
结合这两种网络模型,构建AE-LSTM网络模型作为故障诊断模块。
优选地,步骤4中短时傅里叶变换的公式如下:
S(ω,τ)=∫f(t)g*(t-τ)e-jωtdt (17)
式中,“*”表示复共轭;f(t)为待分析的信号;g(t)为窗函数,起时限作用;e-jωtt起频限作用;S(ω,τ)反映了待分析信号在τ时刻、频率为ω的信号分量;
信号f(t)在时间t处的短时傅里叶变换就是信号f(t)乘上一个以t为中心的“分析窗”g(t-τ)后所作的傅里叶变换;信号f(t)乘以分析窗函数g(t-τ)等价于取出信号在分析时间点t附近的一个切片;要得到最优的局部化性能,时频分析中窗函数的宽度应根据不同信号的特点来进行调节,即正弦类信号用大窗宽,脉冲型信号用小窗宽,上述的短时傅里叶变换理论,将一维的振动信号转化为二维的彩色时频图像。
优选地,步骤3中的锥齿轮故障样本不均衡数据集中的小样本数据为变转速工况下点蚀、磨损、裂纹和断齿四种锥齿轮故障以及一种锥齿轮无故障的振动信号:锥齿轮的齿数为14,模数为5,压力角为20°,点蚀故障其中一个齿有直径为3mm,深度为0.2mm的凹坑;磨损故障其中一个齿的整个齿面磨损0.8mm;裂纹故障其中一个齿的齿根部位有裂纹,贯穿整个齿,宽1.2mm,深2mm;断齿故障有两个齿从齿根处断裂。
有益效果:本发明公开了一种变转速和样本不均衡下基于GAN-AE-LSTM的锥齿轮故障诊断方法,该方法结合了生成对抗网络的数据生成能力、自动编码器的特征提取能力以及长短时记忆神经网络的时序数据处理能力,能够在变转速和样本不均衡下对锥齿轮故障进行有效地诊断。
附图说明
图1是本发明算法研究路线;
图2是该发明实例中所述的GAN-AE-LSTM网络数据生成模块的结构图;
图3是该发明实例中所述的生成器结构图
图4是该发明实例中所述的判别器结构图;
图5是该发明实例中所述的GAN-AE-LSTM网络故障诊断模块的结构图;
图6是该发明实例中所述的锥齿轮故障件;
图7是该发明实例中所述的真实信号与生成信号包络谱对比图;
图8是该发明实例中所述的样本不均衡数据集中各故障类型的训练样本比例;
图9是该发明实例中所述的样本不均衡数据集混淆矩阵图;
图10是该发明实例中所述的补充样本均衡数据集混淆矩阵图;
图11是该发明实例中所述的原始样本均衡数据集混淆矩阵图。
具体实施方式
下面结合附图对发明的技术方案进行详细说明:
结合附图对本发明的实施做出进一步说明。图1是本发明的算法流程图,该算法主要包括以下五个步骤。
第一步:构建网络的数据生成模块
数据生成模块依据GAN理论构建,结构如图2所示,主要包括两个部分:生成器与判别器。生成器的结构如图3所示,包含四个反卷积层,还采用了ReLU激活函数和归一化技术。判别器的结构如图4所示,包含四个卷积层,还采用了Leaky ReLU激活函数和归一化技术。本方案采用的GAN原理如下。
生成器接收随机向量,学习真实数据分布,以骗过判别器,判别器则对接收的数据进行真假判别。在整个过程中,两者不断地进行对抗,最终达到动态均衡:生成器生成的数据接近于真实数据分布,而判别器识别不出数据的真假。
假设x为真实信号,y为随机噪声向量,则GAN的训练的目标函数如下:
其中,pr为生成器G用于优化生成的真实数据分布;pg为模型分布,比如高斯分布或均匀分布;D(x)和D(G(y))分别为判断真实数据和生成数据是否真实的概率。G希望D(G(y))尽可能的大,这时V(D,G)会变小。因此式子的最前面的记号是min_G。D的能力越强,D(x)应该越大,D(G(y))则应越小。这时V(D,G)会变大。因此式子对于D来说是求最大max_D。
在进行模型训练时,Jensen-Shannon(JS)散度的不连续性会造成梯度不稳定。Wasserstein距离为模型分布到真实分布的最小代价,可以测量两个分布间的不同,其损失函数可以减小梯度消失,公式如下:
其中,Π(pr,pg)表示所有联合分布γ(x,y)的集合,γ(x,y)的边缘概率分别为pr和pg。
Wasserstein距离可以让生成器输出的生成样本和输入网络的原始真实样本之间的差异不断减小,使得网络训练更稳定,其价值函数为:
其中,为1-Lipschitz函数集。
GAN引入Wasserstein距离和Lipschitz函数解决了网络难以训练、不稳定的缺点。但网络为了达到Lipschitz的限制,直接将判别器的参数限制在某个范围之内,会使参数直接在该范围的最大值和最小值上,导致判别器的性能很差,造成网络的梯度爆炸。
为了改善Lipschitz给判别器的参数加入限制导致的性能下降问题,提出一种“梯度惩罚(Gradient Penalty,GP)”的改进方法,即给GAN网络的判别器损失函数加入如下式所示的GP项:
其中,K是常数,一般取1,xr服从pr分布,xg服从pg分布,表示在xr和xg的连线上随机插值取样。即/>满足下式:
由此采样得来的服从/>分布,而由于只对GAN的判别器损失函数进行改进。所以生成器和判别器损失函数分别为:
至此,GAN的生成器和判别器的激活函数和损失函数、以及网络的目标函数均已确定,基于GAN理论的数据生成模块构建完成。
第二步:构建网络的故障诊断模块
网络的故障诊断模块由基于AE和LSTM原理的神经网络组成,AE和LSTM的基本原理如下。
AE分为编码网络和解码网络两部分,由输入层、输出层和隐含层构成,具有不俗的特征提取能力。
编码器f(x)可以提取输入数据的特征,将输入映射到隐层特征/>原始数据从输入层到隐藏层的编码过程如下所示:
h=f(x)=sf(Wx+bh) (8)
其中,为权重矩阵,/>为偏差向量,sf为非线性映射函数。
解码器g(x)是编码器的一个反射,它的主要功能是将隐层特征h(x)反射到输入单元,得到输入的重构公式如下所示:
其中,W′=WT,为偏差向量,sg为解码激活函数,一般为sigmoid函数。
LSTM由循环神经网络改进而来,是一种结合这一时刻输入与上一时刻输出的链式闭合神经网络,具备复杂的非线性学习能力,有强大的时序信号处理能力,包含三个状态门:遗忘门、输入门、输出门,工作原理如下:
遗忘门根据上一时刻的隐藏输出状态以及当前时刻的输入状态决定哪些状态会被遗忘。激活函数通常为Sigmoid函数,得到遗忘门的输出状态为f(t),表达式如下:
f(t)=sigmoid(Wfhh(t-1)+Wfuu(t)+bf) (11)
其中,f(t)为当前时刻遗忘门的输出状态,Wfh,Wfu为遗忘门权重系数,bf为遗忘门偏置。
输入门决定当前时刻是否需要将新状态更新到细胞状态中。激活函数通常为Sigmoid函数,得到输入门的输出状态为i(t),表达式如下:
i(t)=sigmoid(Wihh(t-1)+Wiuu(t)+bi) (12)
其中,i(t)为当前时刻输入门的输出状态,Wih,Wiu为输入门权重系数,bi为输入门偏置。
经过遗忘门与输入门之后,更新细胞状态。细胞状态有两部分组成:一是细胞状态和遗忘门输出的乘积,二是输入门输出和tanh激活函数输出的乘积,表达式如下:
其中,Wch,Wcu为细胞状态更新权重系数,bc为细胞状态偏置。
输出门根据上一时刻的隐藏输出状态以及当前时刻的输入状态决定是否更新输出的状态。激活函数通常为Sigmoid函数,得到遗忘门的输出状态o(t),表达式如下:
o(t)=sigmoid(Wohh(t-1)+Wouu(t)+bo) (15)
其中,o(t)为这一时刻输出门输出状态,Woh,Wou为输出门权重系数,bo为输出门偏置。
LSTM单元的输出包含当前时刻的细胞状态以及输出的隐藏状态。输出的隐藏状态由当前时刻的细胞状态以及输出门输出o(t)决定
h(t)=o(t)×tanh(c(t)) (16)
其中,o(t)为当前时刻输出门的输出状态,Tanh为输出门的激活函数。
结合这两种网络模型,构建如图5所示的AE-LSTM网络模型作为故障诊断模块。模块与AE神经网络相似,主要分为编码网络和解码网络两部分,不同的是AE-LSTM神经网络的编码和解码都是采用的LSTM结构,该网络模型综合了AE的特征提取能力和LSTM的时序数据处理能力,可以在提取的特征中保留数据的时序信号。
第三步:生成伪样本数据,构造样本均衡数据集
首先,获取如图6所示的变转速工况下点蚀、磨损、裂纹和断齿四种锥齿轮故障以及一种锥齿轮无故障的振动信号。锥齿轮的齿数为14,模数为5,压力角为20°,点蚀故障如图6(a)所示,其中一个齿有直径为3mm,深度为0.2mm的凹坑。磨损故障如图6(b)所示,其中一个齿的整个齿面磨损0.8mm。裂纹故障如图6(c)所示,其中一个齿的齿根部位有裂纹,贯穿整个齿,宽1.2mm,深2mm。断齿故障如图6(d)所示,有两个齿从齿根处断裂。
将这五种锥齿轮真实振动信号输入到网络的数据生成模块中,得到对应的五种故障类型的锥齿轮生成振动信号。分别对真实振动信号与生成振动信号做包络谱分析,得到如图7所示的包络谱对比图。可以观察到,网络的数据生成模块可以学习到真实信号的特征,其输出的生成信号与真实信号的包络谱分布情况相同,具有几乎统一的特征趋势,可以说生成信号与真实信号高度相似。将生成信号补充到原始样本不均衡数据集中,可以形成补充样本均衡数据集。
第四步:转化数据类型,划分数据集
对振动信号进行时域分析和频域分析,故障特征并不很明显,还可能造成部分特征信息缺失,而对振动信号进行时频分析,可以从时间和频率二维角度分析信号特征,可以综合时域和频域的信息,提高信号的可分性。
常用的时频分析方法有短时傅里叶变换、小波变换、S变换等,短时傅里叶变换是由傅里叶变换改进而来。傅里叶变换只能反映出信号在频域的特性,无法在时域内对信号进行分析,而短时傅里叶变换可以通过移动窗函数获取特定时间的频率分布和不同频率的时间分布,可同时提取频域特征和时域特征,时频聚集性良好,瞬时频率物理意义清晰。短时傅里叶变换的公式如下:
S(ω,τ)=∫f(t)g*(t-τ)e-jωtdt (17)
式中,“*”表示复共轭;f(t)为待分析的信号;g(t)为窗函数,起时限作用;e-jωt起频限作用;S(ω,τ)反映了待分析信号在τ时刻、频率为ω的信号分量。
由上式可知,信号f(t)在时间t处的短时傅里叶变换就是信号f(t)乘上一个以t为中心的“分析窗”g(t-τ)后所作的傅里叶变换。信号f(t)乘以分析窗函数g(t-τ)等价于取出信号在分析时间点t附近的一个切片。要得到最优的局部化性能,时频分析中窗函数的宽度应根据不同信号的特点来进行调节,即正弦类信号用大窗宽,脉冲型信号用小窗宽。
用上述的短时傅里叶变换理论,将一维的振动信号转化为二维的彩色时频图像,再对转化成的二维时频图像进行灰度化处理,构建变转速下的锥齿轮故障时频灰度图像数据集,并将数据集划分为训练集和测试集。
第五步:训练、测试GAN-AE-LSTM网络模型
利用训练集让网络进行学习,利用测试集对训练好的网络进行测试,实现故障诊断。
为了验证算法的有效性,构造如图8所示的样本不均衡数据集,锥齿轮点蚀故障、磨损故障、裂纹故障、断齿故障和正常的训练样本比例分别为20%、40%、60%、80%和100%。再将生成数据补充到样本不均衡数据集中,得到补充样本均衡数据集。最后设置一组完全由真实信号组成的真实样本均衡数据集。这样,就得到了三个不同的对比数据集。三个数据集经过时频变换和灰度化处理后,将训练集数据输入到网络的故障诊断模块中,进行特征提取与学习,完成网络的训练。最后,利用测试集数据进行模型的测试,得到样本不均衡、补充样本均衡和原始样本均衡三个数据集的故障诊断结果分别为67.59%、95.14%和96.01%。将分类结果可视化,得到如图9、图10和图11所示的混淆矩阵。可以观察到样本不均衡数据集的分类效果较差,虽然多数样本可以被划分到它所属的类别当中,但也有相当多的样本被划分到了其他类别当中,混淆矩阵显得杂乱无章。补充样本均衡和原始样本均衡数据集的分类效果良好,绝大多数的样本都被划分到它所属的类别当中,仅有极少数的样本被划分到了其他类别当中,混淆矩阵清晰有序。证明了本发明所提方法的准确性和实际可用性,本发明所提方法能够对变转速工况下样本不均衡的锥齿轮进行有效地诊断。
Claims (5)
1.一种变转速和样本不均衡下基于GAN-AE-LSTM的锥齿轮故障诊断方法,其特征在于,包括如下步骤:
步骤1.构建网络数据生成模块:包括生成器和判别器,其中生成器包括四个反卷积层,采用了ReLU激活函数和归一化技术,判别器包括四个卷积层,采用了Leaky ReLU激活函数和归一化技术,构建GAN网络;
步骤2.构建网络故障诊断模块:包括编码网络和解码网络,故障诊断模块的编码和解码都采用的长短时记忆网络的结构,构建AE-LSTM网络;
步骤3.生成伪样本数据,构造样本均衡数据集:将锥齿轮故障样本不均衡数据集中的小样本数据输入到步骤1中所构建的网络数据生成模块中,生成与原始真实数据相似的伪样本数据,再把生成的伪样本数据混合到真实数据中,构造补充样本均衡数据集;
步骤4.转化数据类型,划分数据集:利用信号处理的手段将步骤3中补充样本均衡数据集的一维振动信号转变为二维时频图像,再对二维时频图像灰度化,形成时频灰度图数据集,并划分为训练集和测试集;
步骤5.训练、测试GAN-AE-LSTM网络模型:将步骤4中划分好的训练集输入到步骤2所生成的网络故障诊断模块,通过网络故障诊断模块进行特征学习与提取,完成GAN-AE-LSTM网络模型的训练,再将测试集输入训练好的GAN-AE-LSTM网络模型进行测试,从而检验GAN-AE-LSTM网络模型的诊断准确性。
2.根据权利要求1所述的一种变转速和样本不均衡下基于GAN-AE-LSTM的锥齿轮故障诊断方法,其特征在于,所述步骤1中:
设x为真实信号,y为随机噪声向量,则GAN训练的目标函数如下:
其中,pr为生成器G用于优化生成的真实数据分布;pg为模型分布,比如高斯分布或均匀分布;D(x)和D(G(y))分别为判断真实数据和生成数据是否真实的概率;
在进行模型训练时,损失函数公式如下:
其中,∏(pr,pg)表示所有联合分布γ(x,y)的集合,γ(x,y)的边缘概率分别为pr和pg;
价值函数为:
其中,为1-Lipschitz函数集;
GAN引入Wasserstein距离和Lipschitz函数解决了网络难以训练、不稳定的缺点;但网络为了达到Lipschitz的限制,直接将判别器的参数限制在某个范围之内,会使参数直接在该范围的最大值和最小值上,导致判别器的性能很差,造成网络的梯度爆炸;
为了改善Lipschitz给判别器的参数加入限制导致的性能下降问题,提出一种“梯度惩罚(Gradient Penalty,GP)”的改进方法,即给GAN网络的判别器损失函数加入如下式所示的GP项:
其中,K是常数,一般取1,xr服从pr分布,xg服从pg分布,表示在xr和xg的连线上随机插值取样;即/>满足下式:
由此采样得来的服从/>分布,而由于只对GAN的判别器损失函数进行改;所以生成器和判别器损失函数分别为:
至此,GAN的生成器和判别器的激活函数和损失函数、以及网络的目标函数均已确定,基于GAN理论的数据生成模块构建完成。
3.根据权利要求1所述的一种变转速和样本不均衡下基于GAN-AE-LSTM的锥齿轮故障诊断方法,其特征在于,步骤2中网络的故障诊断模块由基于AE和LSTM原理的神经网络组成,AE和LSTM的基本原理如下:
AE分为编码网络和解码网络两部分,由输入层、输出层和隐含层构成,编码器f(x)可以提取输入数据的特征,将输入映射到隐层特征/>原始数据从输入层到隐藏层的编码过程如下所示:
h=f(x)=sf(Wx+bh) (8)
其中,为权重矩阵,/>为偏差向量,sf为非线性映射函数;
解码器g(x)是编码器的一个反射,它的主要功能是将隐层特征h(x)反射到输入单元,得到输入的重构公式如下所示:
其中,W′=WT,为偏差向量,sg为解码激活函数,一般为sigmoid函数;
LSTM包含三个状态门:遗忘门、输入门、输出门,工作原理如下:
遗忘门根据上一时刻的隐藏输出状态以及当前时刻的输入状态决定哪些状态会被遗忘;激活函数通常为Sigmoid函数,得到遗忘门的输出状态为f(t),表达式如下:
f(t)=sigmoid(Wfhh(t-1)+Wfuu(t)+bf) (11)
其中,f(t)为当前时刻遗忘门的输出状态,Wfh,Wfu为遗忘门权重系数,bf为遗忘门偏置;
输入门决定当前时刻是否需要将新状态更新到细胞状态中;激活函数通常为Sigmoid函数,得到输入门的输出状态为i(t),表达式如下:
i(t)=sigmoid(Wihh(t-1)+Wiuu(t)+bi) (12)
其中,i(t)为当前时刻输入门的输出状态,Wih,Wiu为输入门权重系数,bi为输入门偏置;
经过遗忘门与输入门之后,更新细胞状态;细胞状态有两部分组成:一是细胞状态和遗忘门输出的乘积,二是输入门输出和tanh激活函数输出的乘积,表达式如下:
c(t)=tanh(Wchh(t-1)+Wcuu(t)+bc) (13)
其中,Wch,Wcu为细胞状态更新权重系数,bc为细胞状态偏置;
输出门根据上一时刻的隐藏输出状态以及当前时刻的输入状态决定是否更新输出的状态;激活函数通常为Sigmoid函数,得到遗忘门的输出状态o(t),表达式如下:
o(t)=sigmoid(Wohh(t-1)+Wouu(t)+bo) (15)
其中,o(t)为这一时刻输出门输出状态,Woh,Wou为输出门权重系数,bo为输出门偏置;
LSTM单元的输出包含当前时刻的细胞状态以及输出的隐藏状态;输出的隐藏状态由当前时刻的细胞状态以及输出门输出o(t)决定:
h(t)=o(t)×tanh(c(t)) (16)
其中,o(t)为当前时刻输出门的输出状态,Tanh为输出门的激活函数;
结合这两种网络模型,构建AE-LSTM网络模型作为故障诊断模块。
4.根据权利要求1所述的一种变转速和样本不均衡下基于GAN-AE-LSTM的锥齿轮故障诊断方法,其特征在于,步骤4中短时傅里叶变换的公式如下:
S(ω,τ)=∫f(t)g*(t-τ)e-jωtdt (17)
式中,“*”表示复共轭;f(t)为待分析的信号;g(t)为窗函数,起时限作用;e-jωt起频限作用;S(ω,τ)反映了待分析信号在τ时刻、频率为ω的信号分量;
信号f(t)在时间t处的短时傅里叶变换就是信号f(t)乘上一个以t为中心的“分析窗”g(t-τ)后所作的傅里叶变换;信号f(t)乘以分析窗函数g(t-τ)等价于取出信号在分析时间点t附近的一个切片;要得到最优的局部化性能,时频分析中窗函数的宽度应根据不同信号的特点来进行调节,即正弦类信号用大窗宽,脉冲型信号用小窗宽,上述的短时傅里叶变换理论,将一维的振动信号转化为二维的彩色时频图像。
5.根据权利要求1所述的一种变转速和样本不均衡下基于GAN-AE-LSTM的锥齿轮故障诊断方法,其特征在于,步骤3中的锥齿轮故障样本不均衡数据集中的小样本数据为变转速工况下点蚀、磨损、裂纹和断齿四种锥齿轮故障以及一种锥齿轮无故障的振动信号:锥齿轮的齿数为14,模数为5,压力角为20°,点蚀故障其中一个齿有直径为3mm,深度为0.2mm的凹坑;磨损故障其中一个齿的整个齿面磨损0.8mm;裂纹故障其中一个齿的齿根部位有裂纹,贯穿整个齿,宽1.2mm,深2mm;断齿故障有两个齿从齿根处断裂。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310320320.4A CN116680561A (zh) | 2023-03-29 | 2023-03-29 | 一种变转速和样本不均衡下基于gan-ae-lstm的锥齿轮故障诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310320320.4A CN116680561A (zh) | 2023-03-29 | 2023-03-29 | 一种变转速和样本不均衡下基于gan-ae-lstm的锥齿轮故障诊断方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116680561A true CN116680561A (zh) | 2023-09-01 |
Family
ID=87782524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310320320.4A Pending CN116680561A (zh) | 2023-03-29 | 2023-03-29 | 一种变转速和样本不均衡下基于gan-ae-lstm的锥齿轮故障诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116680561A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117056814A (zh) * | 2023-10-11 | 2023-11-14 | 国网山东省电力公司日照供电公司 | 一种变压器声纹振动故障诊断方法 |
CN117571901A (zh) * | 2023-11-17 | 2024-02-20 | 承德神源太阳能发电有限公司 | 一种光伏电站变压器故障预警及检修的方法、系统及设备 |
-
2023
- 2023-03-29 CN CN202310320320.4A patent/CN116680561A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117056814A (zh) * | 2023-10-11 | 2023-11-14 | 国网山东省电力公司日照供电公司 | 一种变压器声纹振动故障诊断方法 |
CN117056814B (zh) * | 2023-10-11 | 2024-01-05 | 国网山东省电力公司日照供电公司 | 一种变压器声纹振动故障诊断方法 |
CN117571901A (zh) * | 2023-11-17 | 2024-02-20 | 承德神源太阳能发电有限公司 | 一种光伏电站变压器故障预警及检修的方法、系统及设备 |
CN117571901B (zh) * | 2023-11-17 | 2024-06-11 | 承德神源太阳能发电有限公司 | 一种光伏电站变压器故障预警及检修的方法、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116680561A (zh) | 一种变转速和样本不均衡下基于gan-ae-lstm的锥齿轮故障诊断方法 | |
CN112906644B (zh) | 基于深度迁移学习的机械故障智能诊断方法 | |
CN108334948B (zh) | 一种基于宽残差网络学习模型的机械轴承故障诊断技术 | |
CN111562108A (zh) | 一种基于cnn和fcmc的滚动轴承智能故障诊断方法 | |
CN110657984B (zh) | 一种基于强化胶囊网络的行星齿轮箱故障诊断方法 | |
CN112837295A (zh) | 一种基于生成对抗网络的橡胶手套缺陷检测方法 | |
CN107316046A (zh) | 一种基于增量补偿动态自适应增强的故障诊断方法 | |
CN109934810B (zh) | 一种基于改进粒子群小波神经网络的缺陷分类方法 | |
CN106960358A (zh) | 一种基于农村电子商务大数据深度学习的金融欺诈行为量化检测系统 | |
CN111007566B (zh) | 一种曲率驱动扩散全卷积网络地震数据坏道重建与去噪方法 | |
CN110706720A (zh) | 一种端到端无监督深度支撑网络的声学异常检测方法 | |
CN109543720B (zh) | 一种基于对抗生成网络的晶圆图缺陷模式识别方法 | |
CN115115921B (zh) | 基于残差网路的晶圆缺陷模式识别方法 | |
Oliinyk et al. | The decision tree construction based on a stochastic search for the neuro-fuzzy network synthesis | |
CN114548199A (zh) | 一种基于深度迁移网络的多传感器数据融合方法 | |
CN106056577B (zh) | 基于mds-srm混合级联的sar图像变化检测方法 | |
CN113642414A (zh) | 一种基于Transformer模型的滚动轴承剩余使用寿命预测方法 | |
CN117030263A (zh) | 多传感器信号融合下基于改进残差网络的轴承故障诊断方法 | |
CN112949402A (zh) | 极小故障样本量下行星齿轮箱故障诊断方法 | |
CN113537382A (zh) | 一种基于残差收缩网络的设备诊断方法及系统 | |
Al Tobi et al. | Using MLP‐GABP and SVM with wavelet packet transform‐based feature extraction for fault diagnosis of a centrifugal pump | |
CN117592543A (zh) | 一种基于自监督学习的航空发动机滚动轴承故障诊断方法 | |
CN111191502B (zh) | 基于钻柱振动信号的粘滑和跳钻异常工况识别方法 | |
Wang et al. | Detrended Fluctuation Analysis and Hough Transform Based Self‐Adaptation Double‐Scale Feature Extraction of Gear Vibration Signals | |
CN116541771A (zh) | 一种基于多尺度特征融合的非平衡样本轴承故障诊断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |