CN113159225B

CN113159225B - 多变量工业过程故障分类方法

Info

Publication number: CN113159225B
Application number: CN202110534721.0A
Authority: CN
Inventors: 邓晓刚; 王晓慧; 崔文志; 王延江; 曹玉苹; 王平
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2022-04-19
Anticipated expiration: 2041-05-17
Also published as: CN113159225A

Abstract

本发明涉及一种多变量工业过程故障分类方法，首先使用正常操作工况数据集来分析过程变量之间的相关性，计算变量之间的相关性因子；其次根据过程变量之间的相关性因子构建新的过程变量排列顺序，并进一步构建变量自组织函数；使用卷积神经网络建模方法构建VSACNN故障分类模型，并利用训练数据集来进行网络参数的优化，将测试数据集输入至VSACNN故障诊断模型，根据VSACNN故障诊断模型输出确定故障类型。本发明将变量关系分析与CNN模型相结合，提高局部变量之间的相关性，从而帮助CNN充分挖掘相关过程变量之间的联系，改善CNN在提取局部特征的信息有效性，能够有效地提升故障分类的准确率。

Description

多变量工业过程故障分类方法

技术领域

本发明属于工业过程故障诊断技术领域，涉及多变量工业过程故障诊断技术，具体地说，涉及一种基于变量自组织卷积神经网络(英文：Variable Self Arrangementbased Convolutional Neural Networks,简称：VSACNN)的多变量工业过程故障分类方法。

背景技术

过程自动化技术的快速发展使得工业系统的复杂性不断增加。为了保证复杂工业系统的安全连续运行，故障诊断技术已成为业界和学术界关注的主要问题。由于复杂的工业过程涉及大量的测量变量、高度非线性的变量关系和难以区分的故障模式，故障分类是一个具有挑战性的课题。

卷积神经网络(英文：Convolutional Neural Networks,简称：CNN)是指那些至少在网络的某一层中使用了卷积运算来代替一般的矩阵乘法运算的神经网络，该卷积神经网络采用了局部连接和权值共享的方式，减少了模型内部的参数数量，降低了网络模型的复杂度。因其具有强大的特征提取能力，目前已经在计算机视觉、自然语言处理、故障诊断等多个领域得到广泛应用。尽管在故障诊断领域取得了一定的成功，但基于CNN的故障诊断方法仍有提升的空间。现有基于CNN的故障诊断方法存在的一个重要问题是普通CNN没有考虑输入层中的变量排列顺序。在理想情况下，无论过程变量如何排列，CNN都有很强的能力提取数据的内在信息进行分类。但是在实际操作中，CNN通过一个有限大小的卷积核来挖掘数据的局部特征。如果将相关变量放置在距离较远的位置，使得卷积核无法覆盖它们，那么CNN可能无法找到这些变量之间的联系，导致分类性能变差，故障诊断性能低。

发明内容

本发明针对现有技术存在的故障诊断性能低的问题，提供一种基于VSACNN的多变量工业过程故障分类方法，能够准确分析过程变量之间的相关性，并根据相关性对过程变量进行重新排列，确保CNN在做卷积运算时能够充分挖掘相关变量之间的联系，提高故障分类准确度。

为了达到上述目的，本发明提供了一种多变量工业过程故障分类方法，其具体步骤为：

S1、采集工业过程正常操作工况数据建立正常工况数据集X₀，标准化处理后得到正常工况数据集

S2、采用正常工况数据集

进行变量相关性分析，计算过程变量之间的相关性因子RF(v_i,v_j)，其中，v_i与v_j表示过程数据的任意两个变量；

S3、根据相关性因子RF(v_i,v_j)构建无向有权图G，对无向有权图G进行广度优先遍历，并根据变量之间的相关性进行分组，利用分组构建变量自组织函数X₀′＝DA(X₀)，其中，X₀为原始过程数据，X₀′为变量顺序重新组织后的过程数据；

S4、采集C类故障工况数据集{X₁,X₂,…,X_C}，并与正常工况数据集X₀构成训练数据集X_train＝{X₀,X₁,…,X_C}，标准化处理后得到训练数据集

S5、以训练数据集

为输入，利用卷积神经网络建模方法构建VSACNN故障诊断模型，VSACNN故障诊断模型表示为：

其中，x表示输入样本，

表示模型输出，即模型针对输入样本x的故障预测类别，F(·)为一个多层的卷积神经网络函数；

S6、采集测试数据集X_test，标准化后得到测试数据集

S7、利用变量自组织函数X₀′＝SA(X₀)对测试数据集

进行过程变量重排列操作得到测试数据集

S8、将测试数据集

输入至VSACNN故障诊断模型，根据VSACNN故障诊断模型输出确定故障类型。

优选的，步骤S1中，利用正常操作工况数据集X₀的均值m₀与标准差s₀通过公式(1)对正常操作工况数据集X₀进行标准化处理，公式(1)的表达式为：

正常操作工况数据集X₀经上述公式(1)标准化处理后即可获得正常工况数据集

优选的，步骤S2中，通过公式(2)计算过程变量之间的相关性因子RF(v_i,v_j)，公式(2)表示为：

式中，Cor(v_i,v_j)为过程变量v_i与v_j的皮尔逊相关系数，PD(v_i,v_j)为过程变量v_i与v_j的概率分布差异，定义为：

式中，p(·)为变量概率密度函数，H(p(v_i),p(v_j))为变量概率密度在欧氏空间上的Hellinger距离，cos(p(v_i),p(v_j))为变量概率密度的余弦相似度。

优选的，步骤S3中，构建变量自组织函数的具体步骤为：

S31、构建各变量之间的相关性矩阵RF，表示为：

式中，RF_ij为过程变量v_i与v_j之间的相关性因子RF(v_i,v_j)，即两变量之间的相关程度，i＝1,2,…,m，j＝1,2,…,m，m为过程变量个数；

以所有的过程变量索引为顶点，遍历相关性矩阵RF构建无向有权图G，其中，仅RF_ij≥γ时表示无向有权图G中顶点i和j邻接，即无向有权图G中顶点i和j之间有一条边，权重G_ij＝RF_ij，γ为设定阈值；

S32、令k＝1，选择无向有权图G中未分组变量中相关性最强的两个过程变量v_i与v_j的索引构成集合S_k；

S33、广度优先遍历过程变量v_i与v_j的邻接变量，计算每一个邻接变量v_adj与集合S_k中变量的平均相关性因子

其中n_k表示集合S_k中变量索引的个数，

表示集合S_k中的第l个变量；

S34、若

则邻接变量v_adj的索引归入集合S_k；反之，邻接变量v_adj等待下一轮遍历；

S35、完成一轮遍历，k＝k+1；

S36、重复步骤S32-S35，直到遍历完无向有权图G中所有变量；

S37、将无向有权图G中未分组变量与不在无向有权图G中的变量的索引组合记为S，若通过遍历无向有权图G获得B个集合，则新的变量排列可以表示为O(X₀)＝[S₁,S₂,…,S_B,S]，进一步根据O(X₀)构造变量自组织函数X₀′＝SA(X₀)，其中，X₀′＝O(X₀)。

优选的，步骤S4中，利用训练数据集X_train的均值m_train和标准差s_train通过公式(5)对训练数据集X_train进行标准化处理，公式(5)表示为：

训练数据集X_train经上述公式(5)标准化处理后即可获得训练数据集

优选的，步骤S5中，利用卷积神经网络建模方法构建VSACNN故障诊断模型的步骤为：

S51、构建训练数据集

作为模型输入，设置卷积神经网络的层数为L、卷积核个数为n、卷积核大小为p、池化层窗口大小为s、学习率为lr；

S52、使用变量自组织函数X₀′＝SA(X₀)对训练数据集

进行变量重排列操作；

S53、卷积神经网络函数F(·)包括卷积层、池化层与输出层，其中，卷积层的具体运算公式表示为：

式中，y^(q)为第q层网络的卷积激活值，x^(q-1)为第q层网络的输入，W^q为第q层网络的卷积核权重，

表示卷积运算，j代表在卷积核范围之内的元素索引，b^q为第q层网络的偏置值，f(·)为ReLU(·)非线性激活函数；

池化层使用最大池化操作，即对卷积层激活特征进行如下操作：

z^(q)＝max(y^(q),s) (7)

式中，z^(q)为第q层网络通过最大池化操作得到的特征矩阵；

输出层首先对提取到的特征向量进行线性变换，然后使用Softmax分类器进行故障类型判别；

S54、采用公式(8)计算模型的预测损失并进行优化求解，公式(8)表示为：

式中，J(·)为优化目标函数，y_i为样本真实标签，

为样本预测标签，θ表示模型的参数，λ为惩罚因子，L(·)为交叉熵损失函数，M为样本的数量；

则构建VSACNN故障诊断模型表示为：

优选的，步骤S6中，利用训练数据集

的均值m_train和标准差s_train通过公式(9)对测试数据集X_test进行标准化处理，公式(9)表达式为：

测试数据集X_test经上述公式(9)标准化处理后即可获得训练数据集

优选的，步骤S7中，利用变量自组织函数X₀′＝SA(X₀)对测试数据集

进行过程变量重排列操作，则有：

由公式(10)得到测试数据集

过程变量重排列后的测试数据集

优选的，步骤S8中，测试数据集

的测试数据输入至VSACNN故障诊断模型中，则有：

式中，

为VSACNN故障诊断模型的输出；

VSACNN故障诊断模型的输出

即为测试数据的故障判别类型。

与现有技术相比，本发明的优点和积极效果在于：

本发明提供的多变量工业过程故障分类方法，使用正常操作工况数据集来分析过程变量之间的相关性，计算变量之间的相关性因子，并进一步根据变量之间的相关性因子构建变量自组织函数，使用卷积神经网络建模方法构建VSACNN故障分类模型，利用训练数据集来进行网络参数的优化，通过测试数据集评估该分类模型的性能，并根据VSACNN分类模型对故障类型进行判别。本发明将变量关系分析与CNN模型相结合，提高局部变量之间的相关性，从而帮助CNN充分挖掘相关过程变量之间的联系，改善CNN在提取局部特征的信息有效性，能够有效地提升故障分类的准确率。

附图说明

图1为本发明实施例所述多变量工业过程故障分类方法的流程图；

图2为本发明实施例所述田纳西-伊斯曼(简称：TE)系统的原理图。

具体实施方式

下面，通过示例性的实施方式对本发明进行具体描述。然而应当理解，在没有进一步叙述的情况下，一个实施方式中的元件、结构和特征也可以有益地结合到其他实施方式中。

参见图1，本发明提供了一种多变量工业过程故障分类方法，其具体步骤为：

S1、采集工业过程正常操作工况数据建立正常工况数据集X₀，利用正常操作工况数据集X₀的均值m₀与标准差s₀通过公式(1)对正常操作工况数据集X₀进行标准化处理，公式(1)的表达式为：

S2、采用正常工况数据集

进行变量相关性分析，通过公式(2)计算过程变量之间的相关性因子RF(v_i,v_j)，其中，v_i与v_j表示过程数据的任意两个变量，公式(2)表示为：

需要说明的是，若两过程变量v_i与v_j的相关性因子RF(v_i，v_j)的值越接近于1，说明过程变量v_i与v_j之间相关性越强；反之，RF(v_i，v_j)越接近于0，说明过程变量v_i与v_j相关性越弱。因为CNN在提取特征时更多关注局部特征，所以应尽可能地将相关性比较强的变量放置在一起进行考虑。

S3、根据相关性因子RF(v_i,v_j)构建无向有权图G，对无向有权图G进行广度优先遍历，并根据变量之间的相关性进行分组，利用分组构建变量自组织函数X₀′＝SA(X₀)，其中，X₀为原始过程数据，X₀′为变量顺序重新组织后的过程数据。

具体地，构建变量自组织函数的具体步骤为：

S31、构建各变量之间的相关性矩阵RF，表示为：

其中n_k表示集合S_k中变量索引的个数，

表示集合S_k中的第l个变量；

S34、若

S35、完成一轮遍历，k＝k+1；

S36、重复步骤S32-S35，直到遍历完无向有权图G中所有变量；

S4、采集C类故障工况数据集{X₁,X₂,…,X_C}，并与正常工况数据集X₀构成训练数据集X_train＝{X₀,X₁,…,X_C}，利用训练数据集X_train的均值m_train和标准差s_train通过公式(5)对训练数据集X_train进行标准化处理，公式(5)表示为：

S5、以训练数据集

其中，x表示输入样本，

表示模型输出，即模型针对输入样本x的故障预测类别，F(·)为一个多层的卷积神经网络函数。

具体地，利用卷积神经网络建模方法构建VSACNN故障诊断模型的步骤为：

S51、构建训练数据集

S52、使用变量自组织函数X₀′＝SA(X₀)对训练数据集

进行变量重排列操作；

z^(q)＝max(y^(q),s) (7)

式中，z^(q)为第q层网络通过最大池化操作得到的特征矩阵；

式中，J(·)为优化目标函数，y_i为样本真实标签，

则构建VSACNN故障诊断模型表示为：

S6、采集测试数据集X_test，利用训练数据集

S7、利用变量自组织函数X₀′＝SA(X₀)对测试数据集

进行过程变量重排列操作，则有：

由公式(10)得到测试数据集

过程变量重排列后的测试数据集

S8、将测试数据集

输入至VSACNN故障诊断模型，则有：

式中，

为VSACNN故障诊断模型的输出；

VSACNN故障诊断模型的输出

即为测试数据的故障判别类型。

上述方法中，步骤S1至S5为离线建模阶段，步骤S6至S8为在线测试阶段。

本发明上述故障分类方法，对正常操作工况数据进行标准化，并利用正常工况数据计算过程变量之间的相关性因子；根据各变量之间的相关性因子构建无向有权图G，通过对无向有权图G进行广度优先遍历，将相关性强的过程变量索引划分至一个集合，并根据分组构建变量自组织函数；在训练集上构建基于变量自组织CNN的故障诊断模型；在线测试时，根据重新构建的变量排列顺序对测试样本进行变量自组织，并使用训练好的VSACNN模型进行故障类型判别。本发明将变量关系分析与CNN模型相结合，提高局部变量之间的相关性，从而帮助CNN充分挖掘相关过程变量之间的联系，提高CNN在提取局部特征的信息有效性，能够有效地提高故障分类的准确率。

为了说明本发明上述多变量工业过程故障分类方法的效果，以下结合具体实施例对本发明做出进一步说明。

实施例：以田纳西-伊斯曼(以下简称：TE)为例进行说明。

TE过程是由美国伊斯曼化学公司的Downs和Vogel根据一个实际的化工过程建立的实验平台，现被广泛用于验证控制算法和过程监控方法的优劣。参见图2，TE过程主要由五个单元组成，包括反应器、产品冷凝器、气液分离器、循环压缩机和汽提塔组成。TE过程共53个变量，其中包括22个连续过程变量、19个成分变量和12个操作变量，在本实施中使用了52个变量来进行方法的验证(没有使用搅拌速度变量)，详细信息参见表1。

表1

实验中采用TE过程所有工况的数据(包括正常工况样本与21种故障样本)来验证故障分类方法的有效性，其中21种故障详细信息参见表2。在本实施中，训练数据集与测试数据集的划分比例为4:1。进一步使用6个CNN模型来进行对比实验，前三个CNN模型分别为CNN-R1、CNN-R2和CNN-R3，采用随机变量排列顺序。第5个CNN模型CNN-De基于TE过程仿真实验的默认变量顺序，第4个CNN模型CNN-RE与CNN-DE相反的变量排列顺序。最后，利用本发明方法中建立的VSACNN模型，在构建变量自组织函数时相关性阈值设置为0.7。表2给出了6个模型的过程变量排列顺序。需要注意的是6个模型在训练时使用的基本CNN模型所有超参数是一致的。

表2

表3给出了6种模型在TE过程数据上故障诊断准确率，从表3中可以看出CNN-DE与CNN-RE方法故障诊断性能大致相同，但是比CNN-R1、CNN-R2及CNN-R3方法分别高出了8.38％、5.84％、8.15％，说明变量排列顺序对于CNN模型的重要性。进一步本发明提出的基于变量自组织CNN的故障分类方法实现了最高的故障诊断准确率91.23％，比CNN-DE模型高出2.84％，显示出VSACNN方法的有效性。

表3

上述实施例用来解释本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种多变量工业过程故障分类方法，其特征在于，其具体步骤为：

S2、采用正常工况数据集

进行变量相关性分析，计算过程变量之间的相关性因子RF(v_i，v_j)，其中，v_i与v_j表示过程数据的任意两个变量；

S3、根据相关性因子RF(v_i，v_j)构建无向有权图G，对无向有权图G进行广度优先遍历，并根据变量之间的相关性进行分组，利用分组构建变量自组织函数X₀′＝SA(X₀)，其中，X₀为原始过程数据，X₀′为变量顺序重新组织后的过程数据；构建变量自组织函数的具体步骤为：

S31、构建各变量之间的相关性矩阵RF，表示为：

式中，RF_ij为过程变量v_i与v_j之间的相关性因子RF(v_i，v_j)，即两变量之间的相关程度，i＝1，2，...，m，j＝1，2，...，m，m为过程变量个数；以所有的过程变量索引为顶点，遍历相关性矩阵RF构建无向有权图G，其中，仅RF_ij≥γ时表示无向有权图G中顶点i和j邻接，即无向有权图G中顶点i和j之间有一条边，权重G_ij＝RF_ij，γ为设定阈值；