CN108875771A

CN108875771A - 一种基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类模型及方法

Info

Publication number: CN108875771A
Application number: CN201810295725.6A
Authority: CN
Inventors: 葛志强; 孙庆强; 杨杰; 宋执环
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-11-23
Anticipated expiration: 2038-03-30
Also published as: CN108875771B

Abstract

本发明公开一种基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类模型及方法，它由稀疏高斯伯努利受限玻尔兹曼机、长短时记忆循环神经网络、感知器和Softmax输出层组成；稀疏高斯伯努利受限玻尔兹曼机能够从无标签数据中学习数据的非线性特征，循环神经网络可以很好的处理序列数据，采用长短时记忆单元则解决了网络训练过程中出现的梯度消失或梯度爆炸问题，感知器和Softmax输出层增强了网络的有监督分类能力，本发明的模型具有对非线性数据和动态性数据的优良的特征提取和感知能力，可以有效地解决因过程数据的非线性和故障数据动态性等特点导致的故障分类准确率低的问题。

Description

一种基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类模型及方法

技术领域

本发明属于工业过程故障诊断和分类领域，涉及一种基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类模型及方法。

背景技术

在过程监测中，当检测到故障发生时，根据异常的过程传感数据，及时准确的识别并判断故障类别，对于保障工业过程的安全运行和产品的优质产出具有至关重要的意义。精确的故障分类可以帮助操作人员进一步定位故障发生的环节和引发故障的过程变量，有助于故障清除和过程恢复，因此故障分类在工业生产中有不容忽视的地位。

随着现代工业规模日趋庞大，过程数据也越来越复杂，过程变量之间往往存在较强的非线性关系，导致基于线性假设的传统建模方法在工业数据的故障分类中往往会造成故障的错分或者无法准确识别故障发生的种类，因此具有很大的局限性，不再能适应数据特性越趋复杂的实际工业背景。近年来，随着深度学习的方法被广泛的研究和应用，基于神经网络的方法在处理非线性数据上具有优良的表现，其中稀疏高斯伯努利受限玻尔兹曼机作为生成模型可以从无标签数据中有效地提取训练数据的非线性特征，从而在很多领域得到广泛的应用。

在传统的受限玻尔兹曼机的训练过程中，都需要假设数据样本是独立的，然而由于过程的反馈、自相关的噪声干扰等，都会导致数据的动态性(也称为自相关性)。动态性已成为工业过程故障数据不容忽视的重要特征，因此在实际建模中就需要一个动态模型来克服数据的动态性问题，通过在故障分类模型中引入动态方法以期提高故障区分准确性。

发明内容

针对目前工业过程中有标签样本少、非线性和动态性强等问题，本发明提出了一种基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类模型及方法，该方法将稀疏高斯伯努利受限玻尔兹曼机和长短时记忆循环神经网络相结合成为SGRBM-LSTM-RNN网络，实现了对工业过程中故障的精确分类。

本发明具体技术方案如下：

一种基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类模型，其特征在于，该模型简称为SGRBM-LSTM-RNN，共分为四部分，第一部分包含k个稀疏高斯伯努利受限玻尔兹曼机网络，即SGRBM，其中k为序列长度，每个SGRBM包含一个输入层和一个隐藏层；第二部分包含k个长短时记忆单元组成的长短时记忆循环神经网络，即LSTM-RNN；第三部分是一个单隐藏层的感知器，第四部分是Softmax网络层；其中第k个长短时记忆单元的隐藏层状态输出至感知器中，再由Softmax网络层输出每个类别的后验概率；模型相关的参数包括输入序列的长度k，SGRBM的输入层和隐藏层的连接权重W₁，输入层和隐藏层的偏置a，b₁,LSTM-RNN中遗忘门、输入门和输出门的权重和偏置W_f，b_f，W_i，b_i，W_o，b_o，第k个LSTM单元到感知器的隐藏层的权重和偏置W₂，b₂，感知器的隐藏层到Softmax层的权重和偏置W₃，b₃；该模型对应数据的输入变量为序列X，输出变量为Y，LSTM-RNN的细胞状态和隐藏层输出分别为C和h；

所述的SGRBM-LSTM-RNN模型的训练过程分为三个阶段：

(1)SGRBM无监督预训练

利用单个采样时刻的无标签数据作为输入，应用对比散度算法更新参数θ₁＝{W₁，a，b₁}，然后更新隐藏层偏置b₁使之满足稀疏约束条件，不断重复更新θ₁和b₁直至收敛，得到预训练完的SGRBM模型；

(2)LSTM-RNN、感知器和Softmax层参数初始化

采取深度学习Xavier初始化方法对LSTM中遗忘门、输入门和输出门的权重、偏置和感知器、Softmax层的连接权重以及每层的偏置W_f，b_f，W_i，b_i，W_o，b_o，W₂，b₂，W₃，b₃进行初始化；

(3)SGRBM-LSTM-RNN有监督训练

将(1)、(2)得到的参数作为SGRBM-LSTM-RNN的模型参数初值，将序列数据集输入到SGRBM-LSTM-RNN模型中，经过SGRBM和LSTM-RNN的特征编码前向传播至感知器层后获取特征h，再将{(h¹，y¹)，(h²，y²)，...，(h^L，y^L)}输入至Softmax网络层中，最小化有监督学习分类误差，相当于最大化如下优化函数：

其中，θ代表整个网络的权重和偏置参数，P(·)表示概率；

基于优化函数，通过时间反向传播算法对整个SGRBM-LSTM-RNN网络参数进行调整，经多次迭代收敛后得到整个网络最优参数θ^*，即获得训练好的SGRBM-LSTM-RNN模型。

优选地，所述的长短时记忆单元的个数k为8-10。

优选地，所述的LSTM-RNN、感知器和Softmax层参数初始化过程中，采用的是Xavier初始化方法，其目标为使所在层输入维度为n_i，输出维度为n_o的参数满足下式的均匀分布：

优选地，所述的SGRBM-LSTM-RNN模型的训练过程中学习率指数衰减的衰减系数为0.01-0.1，SGRBM的隐藏层的稀疏概率值为0.85-0.95。

一种基于所述的基于叠稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类模型的故障分类方法，其特征在于，该方法包括如下步骤：

步骤一：收集历史工业过程的离线数据组成建模用的训练数据集，所述的训练数据集为含有故障类别标签的有标签数据集D＝{X，Y}＝{(xⁱ，yⁱ)}，其中yⁱ∈{1，2，...，C}，i＝1，2，...，n，n表示有标签数据集的样本个数，C为故障类别个数；

步骤二：将步骤一中收集到的训练数据集标准化，将过程变量化成均值为0，方差为1的新的数据集，并通过one-hot编码将表示类别的标量转化为一维向量，设定序列的长度为k，在每个类别的数据子集中用长度为k的时间窗滑取过程数据，并给定标签数据，从而得到新的序列样本集其中

步骤三：首先取有标签样本集D_s的无标签数据作为输入，对SGRBM进行无监督预训练，然后将LSTM-RNN、感知器和Softmax层的参数初始化，最后将整个有标签样本集D_s作为输入，对SGRBM-LSTM-RNN进行有监督训练，采用时间反向传播算法调整整个网络权重，得到训练好的SGRBM-LSTM-RNN网络；

步骤四：收集新的未知故障类别的工业过程数据，将过程变量标准化，然后按照离线建模时相同长度的时间窗滑取序列数据，得到新的序列样本集d_s；

步骤五：将序列样本集d_s输入到步骤三训练好的SGRBM-LSTM-RNN网络中，通过网络的前向传播获取LSTM-RNN最后一个长短时记忆单元的隐藏层特征，将其输入感知器和Softmax分类器中，求取每个故障类别的后验概率，根据最大后验概率，实现对于该段序列的故障分类。

本发明的有益效果是，本发明可以获取每个时刻样本的非线性特征同时考虑了相邻时刻样本间的相互影响，进一步提升模型对过程非线性、动态性数据的特征提取能力，从而有效提升故障分类的精度。

附图说明

图1是基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的一个示例的模型结构示意图；

图2是Tennessee Eastman(TE)过程流程图；

图3是过程数据的序列化操作示意图；

图4是22类测试样本(含正常工况)的真实故障标签示意图；

图5是SGRBM-LSTM-RNN模型得到的故障分类结果示意图；

图6是LSTM-RNN和SGRBM-LSTM-RNN对22类TE过程故障情况(含正常工况)的平均准确率随时间步长变化对比图。

具体实施方式

下面结合具体实施方式对本发明基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类方法作进一步的详述。

所述的SGRBM-LSTM-RNN模型的训练过程分为三个阶段：

(1)SGRBM无监督预训练

利用单个采样时刻的无标签数据作为输入，应用对比散度算法更新参数θ₁＝{W₁，a，b₁}，然后更新隐藏层偏置b₁使之满足稀疏约束条件，不断重复更新θ₁和b₁直至收敛，得到预训练完的SGRBM模型；预训练的目标是通过最大概率拟合训练数据从而得到最优参数。因为在同一个过程数据集上k个SGRBM共享参数，故只需要训练一个SGRBM模型。

(2)LSTM-RNN、感知器和Softmax层参数初始化

优选地，所述的LSTM-RNN、感知器和Softmax层参数初始化过程中，采用的是Xavier初始化方法，Xavier初始化方法是一种有效的神经网络初始化方法，为了使得网络中信息更好地流动，每一层输出的方差应该尽量相同，则Xavier初始化方法的目标为使所在层输入维度为n_i，输出维度为n_o的参数满足下式的均匀分布：

(3)SGRBM-LSTM-RNN有监督训练

其中，θ代表整个网络的权重和偏置参数，P(·)表示概率；

优选地，所述的长短时记忆单元的个数k为8-10。

一种基于权利要求1所述的基于叠稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类模型的故障分类方法，其特征在于，该方法包括如下步骤：

为了评价该故障分类模型的分类效果，定义某类故障对应的分类准确率accuracy，计算公式如下：

其中，S为实际标签为该类故障的样本数，C_T为实际标签为该类故障的样本被正确分为该类的样本数。

为了更好的说明基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的模型的结构，假设输入变量为X_s，则网络中包含有3(序列长度)个稀疏高斯伯努利受限玻尔兹曼机以及由3个长短时记忆细胞单元构成的循环神经网络，其中每个稀疏高斯伯努利受限玻尔兹曼机的输入层神经元个数为3，隐藏层神经元个数为6，感知器层和Softmax输出层的神经元个数分别为4和2(类别数)，基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的模型结构示意图如图1所示。在实际应用过程中网络的输入、输出神经元个数由数据集决定，各隐藏层神经元个数、时间窗长度通过经验和调试得到。

以下结合一个具体的TE过程的例子来说明基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类方法的性能。TE过程是故障诊断与故障分类领域常用的标准数据集，整个数据集包括53个过程变量，其工艺流程如图2所示。该流程由气液分离塔，连续搅拌式反应釜，分凝器，离心式压缩机，再沸器等5个操作单元组成，该过程可以由多个代数和微分方程来表示，非线性和强耦合性是该过程传感数据的主要特点。

TE过程可人为设置21类故障，在这21类故障中，包括16类已知故障，5类未知故障，故障的种类包括流量的阶跃变化、缓慢斜坡增大、阀门的粘滞等等，包含典型的非线性故障和动态性故障，表1给出了21类故障的具体介绍。

表1 TE过程故障列表

针对该过程，将所有53个过程变量作为建模变量，在所有21类故障工况加上正常工况总共22类数据上测试分类性能。从TE标准数据集中的每类样本按采样时间由时间窗口滑取800个训练样本，总共17600段序列样本，随机从每类工况中挑选10％即80段序列样本作为测试数据，如图3所示为时间窗长度k＝3的过程数据序列化操作示意图。

SGRBM-LSTM-RNN网络的SGRBM输入节点数为53，SGRBM隐藏层的节点数为120，LSTM隐藏层的节点数为100，时间步长为10，感知器隐藏层的节点数为100，Softmax输出层的节点数为22。所有网络在训练时的初始学习率设置为1e-3，每次选取一个批次数据进行随机梯度下降，批次大小256，一次迭代周期满足遍历完所有训练样本，总共迭代250次，学习率随着迭代次数指数衰减，衰减系数为0.1，SGRBM隐层的稀疏概率值为0.9。

图4是所有测试集的正确工况类别标签，图5是SGRBM-LSTM-RNN网络预测的所有测试集的结果。通过图4和图5的对比，可以看出所提出的基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类方法对不同的故障类别都能极好地区分出来，准确率达到99％以上。

图6展示了LSTM-RNN和SGRBM-LSTM-RNN两种算法的分类效果对比，将两种网络共有部分即LSTM的隐层节点和时间步长保持一致，通过调整时间步长，观察分类准确率的变化情况。可以看出SGRBM-LSTM-RNN总是比LSTM-RNN的准确率要高，验证了本方法中SGRBM所带来的分类性能提升；同时可以看出，随着时间步长的增大，两种方法的分类效果都有所提升，但是序列长度过长也会导致实际的故障诊断不够及时，并且步长增大到一定数值后，分类准确率提升渐趋缓慢，故实际应用时时间步长不宜选择过大，在本例中，时间步长为9时综合性能最佳。

Claims

1.一种基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类模型，其特征在于，该模型简称为SGRBM-LSTM-RNN，共分为四部分，第一部分包含k个稀疏高斯伯努利受限玻尔兹曼机网络，即SGRBM，其中k为序列长度，每个SGRBM包含一个输入层和一个隐藏层；第二部分包含k个长短时记忆单元组成的长短时记忆循环神经网络，即LSTM-RNN；第三部分是一个单隐藏层的感知器，第四部分是Softmax网络层；其中第k个长短时记忆单元的隐藏层状态输出至感知器中，再由Softmax网络层输出每个类别的后验概率；模型相关的参数包括输入序列的长度k，SGRBM的输入层和隐藏层的连接权重W₁，输入层和隐藏层的偏置a，b₁,LSTM-RNN中遗忘门、输入门和输出门的权重和偏置W_f，b_f，W_i，b_i，W_o，b_o，第k个LSTM单元到感知器的隐藏层的权重和偏置W₂，b₂，感知器的隐藏层到Softmax层的权重和偏置W₃，b₃；该模型对应数据的输入变量为序列X，输出变量为Y，LSTM-RNN的细胞状态和隐藏层输出分别为C和h。

所述的SGRBM-LSTM-RNN模型的训练过程分为三个阶段：

(1)SGRBM无监督预训练

(2)LSTM-RNN，感知器和Softmax层参数初始化

(3)SGRBM-LSTM-RNN有监督训练

其中，θ代表整个网络的权重和偏置参数，P(·)表示概率；

2.根据权利要求1所述的基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类模型，其特征在于，所述的长短时记忆单元的个数k为8-10。

3.根据权利要求1所述的基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类模型，其特征在于，所述的LSTM-RNN、感知器和Softmax层参数初始化过程中，采用的是Xavier初始化方法，其目标为使所在层输入维度为n_i，输出维度为n_o的参数满足下式的均匀分布：

4.根据权利要求1所述的基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类模型，其特征在于，所述的SGRBM-LSTM-RNN模型的训练过程中学习率指数衰减的衰减系数为0.01-0.1，SGRBM的隐藏层的稀疏概率值为0.85-0.95。

5.一种基于权利要求1所述的基于叠稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类模型的故障分类方法，其特征在于，该方法包括如下步骤：