CN111079926A

CN111079926A - 基于深度学习的具有自适应学习率的设备故障诊断方法

Info

Publication number: CN111079926A
Application number: CN201911160262.3A
Authority: CN
Inventors: 乔非; 翟晓东
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-11-23
Filing date: 2019-11-23
Publication date: 2020-04-28
Anticipated expiration: 2039-11-23
Also published as: CN111079926B

Abstract

本发明涉及一种基于深度学习的具有自适应学习率的设备故障诊断方法，该方法利用一经训练的基于深度学习的故障诊断模型对实时采集的待诊断数据进行处理，获得设备的故障诊断结果，所述故障诊断模型采用自适应学习率进行迭代计算，所述自适应学习率具体为：在上一回合学习率的基础上利用当前的梯度值自适应调节当前回合学习率的大小。与现有技术相比，本发明具有模型训练时间短、分类准确性高等优点。

Description

基于深度学习的具有自适应学习率的设备故障诊断方法

技术领域

本发明涉及一种设备故障诊断方法，尤其是涉及一种基于深度学习的具有自适应学习率的设备故障诊断方法。

背景技术

设备的性能会随服役时间的增长而慢慢衰退，有效地诊断出设备的故障类型对于设备的及时维护具有重要意义。故障诊断是指挖掘设备故障信号的内在演化规律从而实现设备故障类型的分类，进行故障诊断便于设备的维护和管理。

传统的故障诊断方法包括基于解析模型的方法，基于信号处理的方法，基于知识的方法，以及基于数据的方法。但是前三种方法往往受到专业技术、专家经验等知识的限制，此外伴随着设备状态监控技术的不断发展，能够利用的设备状态数据越来越多，因此目前基于数据的方法已经成为主流。近年来，基于机器学习和人工智能的数据驱动方法引起了人们的关注，这些方法能够通过机器学习和数据挖掘等先进方法从设备状态数据集中发现设备状态演变的内在规律，根据采集的数据分析设备的故障类型。伴随着设备状态数据量的不断增加，机器学习中的深度学习方法受到越来越多的重视。

传统的深度学习模型往往采用一个全局统一的常数型参数，但是这个常数型参数的设置往往都需要大量的经验来确定。同时需要注意的是，深度学习模型中有大量的权重和偏置参数，它们属于两种类型的参数，不同参数的作用不同，因此为不同参数提供相同的学习率策略是不合理的，一个全局统一的学习率并不一定适合所有参数的调整速率，反而会减小模型的迭代速率，增加模型训练时间。

目前针对深度学习模型学习率的调整策略已经有了一些研究。一个呈下降趋势的学习率策略可以显著提高模型的收敛速度，减小模型的训练时间，其可以根据函数本身的特点调节学习率的大小，在很多情况下仍然为一种比较简单有效的学习率策略。2010年，Duchi等(Duchi J,Hazan E,Singer Y.Adaptive subgradient methods for onlinelearning and stochastic optimization.The Journal of Machine LearningResearch,2011,12:2121-2159)提出了自适应地全参数学习率策略AadGrad，该方法为深度学习模型训练过程中的每一个参数单独设计一个学习率，并利用梯度的平方和来保证学习率的下降趋势，该方法首次提出了一种全参数学习率策略，为深度学习模型的加速收敛提供了一个很好的解决思路。2013年，Senior等(Senior A,Heigold G,Ranzato M A,YangK.An empirical study of learning rates in deep neural networks for speechrecognition.In:Proceedings of the 2013IEEE International Conference onAcoustics,Speech,and Signal Processing.Vancouver,BC:IEEE,2013.6724-6728)在AadGrad学习率策略的基础上提出了一种改进型的学习率策略AadDec，该方法中每个学习率由之前的所有回合梯度的平方和简化为当前梯度和上一回合梯度的平方和，模型的收敛速度相比较AadGrad有进一步的提升，并已经在实际应用中取得了不错的效果。

上述一些成果提供了一些可行的方法，但是这些方法并没有对深度学习模型中的权重和偏置两种参数进行区分，而是统一使用一种自适应学习率策略，这样会存在一定的局限性。一个全局统一的学习率策略并不一定适合所有参数的调整速率，反而会减小模型的迭代速率，增加模型训练时间。因此对于深度学习模型学习率自适应调整方法的研究对于模型训练时间和分类准确性十分关键。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷而提供一种基于深度学习的具有自适应学习率的设备故障诊断方法。

本发明的目的可以通过以下技术方案来实现：

一种基于深度学习的具有自适应学习率的设备故障诊断方法，该方法利用一经训练的基于深度学习的故障诊断模型对实时采集的待诊断数据进行处理，获得设备的故障诊断结果，所述故障诊断模型采用自适应学习率进行迭代计算，所述自适应学习率具体为：在上一回合学习率的基础上利用当前的梯度值自适应调节当前回合学习率的大小。

进一步地，所述学习率的调节公式为：

其中，α_ij(t)为第i个输入神经元和第j个输出神经元之间的连接权重下一回合的学习率，α_ij(t-1)为当前回合的学习率，g(t)²为当前回合的损失函数梯度值的平方和，K为常数项，β_i(t)和γ_j(t)分别为可见单元和隐含单元的偏置项t时刻的学习率，使用呈下降趋势的幂指数函数，β_i(0)和γ_j(0)分别为可见单元和隐含单元的偏置项初始时刻的学习率，R为迭代次数，q为幂指数。

进一步地，所述故障诊断模型为多层RBM堆叠而成的深度信念网络，且最后一层RBM网络的输出端连接有Softmax分类器。

进一步地，所述故障诊断模型的训练过程包括：

1)构建训练样本；

2)构建故障诊断模型，并初始化模型参数；

3)采用贪心无监督学习算法对故障诊断模型的模型参数进行预训练，分别单独无监督地训练每一层RBM网络，确保特征向量映射到不同特征空间时，都尽可能多地保留特征信息；

4)采用随机梯度下降法从所述故障诊断模型的最高层向最低层依次进行模型参数反向调整，反向微调只需要对权值参数空间进行一个局部的搜索，这相比前向神经网络来说，训练是要快的，而且收敛的时间也少。

进一步地，所述训练样本由设备的全生命周期数据组成。

进一步地，所述初始化模型参数时，以随机选取数值中的较小值赋予各模型参数。

进一步地，进行所述预训练时，模型参数的更新表达式为：

Δω_ij＝α(E_data(ν_ih_j)-E_model(ν_ih_j))

Δb_1i＝β(E_data(ν_iν_i ^T)-E_model(h_ih_i ^T))

Δb_2j＝γ(E_data(ν_jν_j ^T)-E_model(h_jh_j ^T))

其中，α为连接权重的学习率，Δω_ij为权重增量；β是可见单元层偏置的学习率，Δb_1i为偏置增量；γ为隐含单元层偏置的学习率，Δb_2j为偏置增量；ν和h分别表示可见单元层和隐含单元层的神经元的状态；E_data为由输入数据标签得到的期望，E_model为由模型得到的期望。

进一步地，进行所述故障诊断模型的训练还包括：

以重构误差和分类准确率作为评价指标对训练后的故障诊断模型进行评价与改进。

与现有技术相比，本发明具有如下有益效果：

1)现有的深度学习模型的学习率往往采用一个全局统一的常数型参数，而且这个常数型参数的设置往往都需要大量的经验来确定。本发明提出一种引入自适应学习率的深度学习模型，在深度学习模型中，根据随机梯度下降法中每次迭代目标损失函数当前的梯度值，自适应地调整学习率，从而加快模型训练时间和分类准确性。

2)深度学习模型中有大量的权重和偏置参数，它们属于两种类型的参数，不同参数的作用不同，因此为不同参数提供相同的学习率策略是不合理的，一个全局统一的学习率并不一定适合所有参数的调整速率，反而会减小模型的迭代速率，增加模型训练时间。本发明分别为深度学习模型中的权重和偏置两种参数设计一个独立的学习率，从而加快模型的迭代速度，同时削弱了模型对学习率初始值的依赖性。

3)本发明优化深度学习模型的模型参数时，依次执行预训练和反向微调步骤，在尽可能多地保留特征信息的同时提高训练速度。

附图说明

图1是本发明一个实施例的面向故障诊断的深度学习模型运算流程示意图；

图2是本发明一个实施例的深度信念网络结构图；

图3是本发明一个实施例的深度信念网络基本单元神经元的结构图；

图4是本发明一个实施例的RBM模型网络结构图；

图5是本发明一个实施例的模型重构误差对比图；

图6是本发明一个实施例的模型分类准确率对比图；

图7是本发明一个实施例的模型参数权重和偏置的作用对比图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供一种基于深度学习的具有自适应学习率的设备故障诊断方法，该方法利用一经训练的深度学习模型对实时采集的待诊断数据进行处理，获得设备的故障诊断结果，所述深度学习模型采用自适应学习率进行迭代计算，自适应学习率具体是指在上一回合学习率的基础上利用当前的梯度值去自适应调节当前回合学习率的大小，以更加准确地描述模型当前的运行状态。

如图1所示，本发明中深度学习模型的训练过程包括：

S1、构建训练样本。

从设备状态数据集中选取几组较为完整的run-to-failure全生命周期数据，从中选择能够表征设备不同故障类型且能被连续监测和记录的特征参量，作为设备的状态变量。将采集到的样本数据分为训练数据和测试数据。不同类型的工业设备可选择各自的待监测参数，主要包括振动信号、速度、流速、压力、温度、功率、电流等。

S2、初始化模型参数。

针对模型参数设定，包括确定预训练过程中模型的节点数、网络层数，并初始化模型各参数，一般赋予较小数值。

本发明采用的深度学习模型为深度信念网络(DBN)，其基本结构图如图2所示。其核心的基本单元为受限玻尔兹曼机(RBM)。DBN由多层的无监督的RBM逐层训练并堆叠而成，层数不同，模型的训练时间不同，对应的模型性能也不相同。每一层包含上层的隐含单元层以及下层的可见单元层，前一层的输出作为后一层的输入，则模型中具有输入神经元和输出神经元，顶层加入Softmax回归的判别结构设计，Softmax常用于多分类过程中，它将多个神经元的输出，映射到(0，1)区间内，可以看成概率来理解，从而来进行多分类。

DBN模型的基本单元为神经元，其结构图如图3所示，数学表达式为如下式所示：

y_j＝f(u_j)

式中，x_i为输入神经元的状态，w_ij为输入神经元与输出神经元的连接权重，b_j为输出神经元的偏置，u_j为中间量，f(·)为激活函数，y_j为输出神经元的状态。

深度学习模型通过连接权重实现数据的表达，并通过共享权重和偏置实现数据的区分，因此权重对于深度学习模型的特征提取和逐层抽象极其重要。根据上述公式，可以看出，偏置项可以看成一个状态为b_j，权重一直为1的神经元，可以看成原始数据增加一个维度有利于数据的区分，尤其是在输入数据维度较低的条件下。但是当输入数据的维度较高时，就已经足以对数据进行区分，此时偏置项的作用将相对减小，因此针对深度学习的故障诊断模型，当输入数据维度较高时，可以适当减小对偏置项的计算量。

S3、模型参数学习率调整策略设定。

本发明在AdaGrad和AdaDec两种学习率策略的基础上，结合随机梯度下降法并根据权重和偏置的不同特点和作用设计学习率策略，数学表达式如下所示：

其中，α_ij(t)为第i个输入神经元和第j个输出神经元之间的连接权重下一回合的学习率，α_ij(t-1)为当前回合的学习率，g(t)²为当前回合的损失函数梯度值的平方和，K为常数项，一般情况下K＝1，主要是为了保证学习率有界并呈下降趋势。β_i(t)和γ_j(t)分别为可见单元和隐含单元的偏置项t时刻的学习率，使用呈下降趋势的幂指数函数，β_i(0)和γ_j(0)分别为可见单元和隐含单元的偏置项初始时刻的学习率，R为迭代次数，q取0.75。

本发明学习率调整策略的主要思想是在迭代过程的初始阶段，较大的学习率能够使目标损失函数值快速下降，随着迭代过程的不断进行，学习率逐渐减小，能够加快数据样本的稳定表达，有助于模型更快更稳定地寻找数据样本的收敛点。这里权重的学习率采用在上一回合学习率的基础上利用当前的梯度值去自适应调节学习率的大小，这样学习率就能够更加准确地描述模型当前的运行状态，相比较于其他自适应方法减少了对历史梯度数据的计算量。而对于处理故障诊断问题的模型，其原始数据一般为高维数据，可以相对弱化偏置项的作用，因此这里为偏置项选择简单的幂指数函数作为学习率策略，保证学习率呈下降趋势，从而达到进一步减小计算量的作用，并提高最终的分类准确率。

S4、模型预训练。

预训练的具体实现步骤包括：

用贪心无监督学习算法，分别单独无监督地训练每一层RBM网络，确保特征向量映射到不同特征空间时，都尽可能多地保留特征信息。由于DBN的基本单元是RBM，RBM训练是无监督的训练，根据训练数据的分布学习出DBN模型参数的初值。在这个训练阶段，首先在可视层会产生一个向量v，通过它将值传递到隐层。反过来，可视层的输入会被随机的选择，以尝试去重构原始的输入信号。最后，这些新的可视的神经元激活单元将前向传递重构隐层激活单元，获得h。即在训练过程中，首先将可视向量值映射给隐单元；然后可视单元由隐层单元重建；这些新可视单元再次映射给隐单元，这样就获取新的隐单元。执行这种反复步骤叫做吉布斯(Gibbs)采样，隐层激活单元和可视层输入之间的相关性差别就作为权值更新的主要依据。

对于一个参数为θ＝{ω_ij,b_1i,b_2j}的RBM模型，其可见单元与隐含单元之间双向连接，但同一层内的神经元之间互不连接，如图4所示。根据概率论相关原理，在给定可见单元状态下各个隐含单元之间是相互独立的，同样在给定隐含单元状态下各个可见单元之间也是相互独立的。在模型预训练计算的过程中，模型参数的更新准则如下式所示：

Δω_ij＝α(E_data(ν_ih_j)-E_model(ν_ih_j))

Δb_1i＝β(E_data(ν_iν_i ^T)-E_model(h_ih_i ^T))

Δb_2j＝γ(E_data(ν_jν_j ^T)-E_model(h_jh_j ^T))

其中，α为可见单元层与隐含单元层之间权重的学习率，Δω_ij为权重增量；β是可见单元层偏置的学习率，Δb_1i为偏置增量；γ为隐含单元层偏置的学习率，Δb_2j为偏置增量；ν和h分别表示可见层和隐含层的神经元的状态；E_data为由输入数据标签得到的期望，E_model为由模型得到的期望。η＝{α,β,γ}称为模型的学习率。通过上述公式得到的Δω_ij、Δb_1i、Δb_2j去更新权重参数ω_ij和偏置参数b_1i、b_2j，如下式所示，从而完成模型的训练过程。

ω_ij←ω_ij-Δω_ij

b_1j←b_1j-Δb_1j

b_2j←b_2j-Δb_2j

S5、模型反向微调。

具体实现包括：

反向微调训练阶段为有监督的学习，根据已知标签由上自下微调DBN的各层参数。首先在DBN的最后一层设置BP(back propagation)网络，接收RBM的输出特征向量作为它的输入特征向量，有监督地训练实体关系分类器。由于每一层RBM网络只能确保自身层内的权值对该层特征向量映射达到最优，并不是对整个DBN的特征向量映射达到最优，所以反向传播网络还将错误信息自顶向下传播至每一层RBM，微调整个DBN网络。RBM网络训练模型的过程可以看作对一个深层BP网络权值参数的初始化，使DBN克服了BP网络因随机初始化权值参数而容易陷入局部最优和训练时间长的缺点。在其他实施例中可以根据具体的应用领域换成任何分类器模型，而不必是BP网络。

由于RBM是典型的能量模型，根据定义的能量函数，可求得模型的损失代价函数。而在模型的训练过程中，反向微调训练是通过调整模型参数使损失代价函数的值最小。为了求取合适的模型参数使损失代价函数值最小，本发明采用随机梯度下降法(Stochasticgradient descent,SGD)，本质上来说随机梯度下降法是梯度下降法的变形，与梯度下降法计算整个数据不同，随机梯度下降法在训练数据样本中随机选择部分样本计算损失代价函数的梯度，其数学表达式为：

θ(t+1)＝θ(t)-η(t)▽L_m(θ(t)),

m∈(1,2,3,…,M)

其中，L(θ)为定义在数据集上的损失函数，▽L_m(θ)为利用第m个批次数据计算得到的损失函数梯度值，θ(t+1)为迭代t+1时刻的参数值，θ(t)为迭代t时刻的参数值，η(t)为学习率(步长)，N为第m个批次数据集内样本的个数，因此相比较于梯度下降法，SGD的计算量大大降低，因此这里选择采用随机梯度下降法进行深度学习模型参数的优化训练。

S6、模型性能评价。

本发明使用反向微调阶段测试数据的重构误差(Reconstruction error rate)作为模型收敛状态的定量评价指标，其能够很好地描述模型参数的收敛状态。对于一个含有N个样本的测试数据集，其重构误差的数学表达式为：

其中，MSE为均方误差(Mean Squared Error,MSE)的计算公式，In(data)为模型输入数据，Out(data)为模型生成数据，D为样本元素个数。在相同的迭代次数下，其重构误差越大模型收敛性越差，重构误差越小模型收敛性越好。

案例说明

为了验证本发明所提出方法的性能，这里引入常数型学习率，设计实验一对常数型学习率、AdaGrad学习率、AdaDec学习率以及本发明设计的学习率策略的收敛性和计算量(模型运行时间)进行比较，并在此基础上对每种方法的分类准确率进行了对比分析。同时，为了验证本发明提出的权重和偏置学习率分别设置的原则，设计了实验二研究权重和偏置的关系。

本实施例采用滚动轴承的振动数据进行实验，包含内圈故障信号；外圈故障信号；保持架故障；滚动体故障以及正常信号。实验采用的神经网络模型为5层结构，输入层神经元的个数为1000，三个隐含层的神经元的个数为1000，500，250，输出层的神经元个数为5。各层之间的初始连接权重服从均值为0，方差为0.001的高斯分布，第一层的初始偏置由训练数据决定，其他层的初始偏置设置为0。实验中所提到的方法均采用相同的学习率初始值，预处理阶段的学习率初始值为0.1，反向微调阶段的学习率初始值设为0.001，模型的重构误差由对应公式计算。

一、学习率策略对比实验

(1)重构误差对比

实验将常数型(Cons)、AdaAdaGrad、AdaDec(见前文背景技术)三种学习率策略与本发明设计的学习率策略进行对比，比较对深度学习模型收敛性的影响，并统计计算模型迭代100次时的运行时间。实验结果如图5所示。

由图5可以看出，常数型、AdaAdaGrad，AdaDec与本文设计的学习率策略都使模型的重构误差随迭代次数的增加而减小并最终趋于稳定。在整个迭代过程中，四种策略的重构误差曲线接近，但是本发明提出的方法的重构误差曲线明显小于另外三种。在迭代次数为100次时，常数型学习率的重构误差为7.81，AdaGrad的重构误差为7.61，AdaDec的重构误差为7.90，而本发明提出的学习率策略的重构误差为6.86，由此可见，本发明提出的学习率策略收敛性最好。

与此同时，实验过程中统计了四种模型的训练时间，其中常数型学习率的时间最短，为1386.74s，其次依次是本发明提出的学习率策略、AdaGrad和AdaDec，分别为1501.12s、1620.40s、1666.79s。虽然本发明提出的学习率策略训练时间相比较于常数型学习率长，但差别不大，而且如果要达到相同的收敛效果，常数型学习率需要迭代更多的次数，花费更多的训练时间，综合考虑重构误差和训练时间，本发明提出的学习率策略明显优于其余三种方案。

(2)分类准确率对比

四种方式的分类准确率随迭代过程的变化如图6所示。从图6中可以看出四种学习率策略方式均随着迭代次数的增加，分类准确率不断提高。本发明所提出的学习率策略在迭代100次时，分类准确率可以达到99.2％，而另外三种学习率的分类准确率分别为98.7％，98.1％，98.3％。此外，在整个迭代的过程中，本发明所提出的学习率策略在分类准确率方面整体高于其余三种方案，综合性能更优。

二、权重和偏置功能对比

本发明分别对权重和偏置设置了不同的学习率策略，但其中偏置的学习率策略仅仅设置为幂指数的形式，为了验证该方法的有效性，本发明设计了三种学习率策略，即权重、偏置均为常数型学习率(Cons+Cons)，权重为常数，偏置为0学习率(Cons+Zero)以及权重为0，偏置为常数学习率(Zero+Cons)。主要为了比较分析权重和偏置对深度学习模型收敛性的影响。

从图7可以看出，权重、偏置均为常数以及权重为常数，偏置为0的两种学习率策略使模型的重构误差随迭代次数的增加逐渐减小，迭代100次时，模型的重构误差分别为7.81和7.88，通过增加迭代次数，两者的最终结果差距不大。但是权重为0，偏置为常数的学习率策略并没有使模型的重构误差随迭代次数的增加而减少，而是一直保持在一个很高的误差。因此可以看出权重对于模型的收敛起决定性作用，偏置项的作用较小，本发明所设置的不同学习率策略符合要求。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由本发明所确定的保护范围内。

Claims

1.一种基于深度学习的具有自适应学习率的设备故障诊断方法，其特征在于，该方法利用一经训练的基于深度学习的故障诊断模型对实时采集的待诊断数据进行处理，获得设备的故障诊断结果，所述故障诊断模型采用自适应学习率进行迭代计算，所述自适应学习率具体为：在上一回合学习率的基础上利用当前的梯度值自适应调节当前回合学习率的大小。

2.根据权利要求1所述的基于深度学习的具有自适应学习率的设备故障诊断方法，其特征在于，所述学习率的调节公式为：

3.根据权利要求1所述的基于深度学习的具有自适应学习率的设备故障诊断方法，其特征在于，所述故障诊断模型为多层RBM堆叠而成的深度信念网络，且最后一层RBM网络的输出端连接有Softmax分类器。

4.根据权利要求3所述的基于深度学习的具有自适应学习率的设备故障诊断方法，其特征在于，所述故障诊断模型的训练过程包括：

1)构建训练样本；

2)构建故障诊断模型，并初始化模型参数；

3)采用贪心无监督学习算法对故障诊断模型的模型参数进行预训练；

4)采用随机梯度下降法从所述故障诊断模型的最高层向最低层依次进行模型参数反向调整。

5.根据权利要求4所述的基于深度学习的具有自适应学习率的设备故障诊断方法，其特征在于，所述训练样本由设备的全生命周期数据组成。

6.根据权利要求4所述的基于深度学习的具有自适应学习率的设备故障诊断方法，其特征在于，所述初始化模型参数时，以随机选取数值中的较小值赋予各模型参数。

7.根据权利要求4所述的基于深度学习的具有自适应学习率的设备故障诊断方法，其特征在于，进行所述预训练时，模型参数的更新表达式为：

Δω_ij＝α(E_data(ν_ih_j)-E_model(ν_ih_j))

Δb_1i＝β(E_data(ν_iν_i ^T)-E_model(h_ih_i ^T))

Δb_2j＝γ(E_data(ν_jν_j ^T)-E_model(h_jh_j ^T))

8.根据权利要求4所述的基于深度学习的具有自适应学习率的设备故障诊断方法，其特征在于，进行所述故障诊断模型的训练还包括：