CN112200104B

CN112200104B - 一种基于增强主成分分析新型贝叶斯框架的化工故障诊断方法

Info

Publication number: CN112200104B
Application number: CN202011105034.9A
Authority: CN
Inventors: 辜小花; 李仁杰; 杨光; 卢飞; 唐德东; 柏俊杰; 利节; 杨利平
Original assignee: Zhongnan University Of Economics And Law; Chongqing University of Science and Technology
Current assignee: Zhongnan University Of Economics And Law; Chongqing University of Science and Technology
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2022-06-24
Anticipated expiration: 2040-10-15
Also published as: CN112200104A

Abstract

本发明提供一种基于增强主成分分析新型贝叶斯框架的化工故障诊断方法,包括以下步骤，S1：TE过程数据采样；S2：计算监测变量的贡献度；S3：提取故障的关键特征变量；S4：训练与测试数据集划分；S5：蜻蜓算法寻找最优平滑参数；S6：构造增强朴素贝叶斯模型。本发明的有益效果是，本发明提出的eKPCA根据Hotelling统计量(T²)和平方预测误差(SPE)来计算每个被监测变量对T²和SPE的贡献，从而更加精确得到数据的关键特征；本发明利用蜻蜓算法(DA)来寻求增强朴素贝叶斯分类器的最优平滑参数，并通过将平滑参数引入到多元高斯核函数中，使得eK‑eNBM可以对整个属性使用最优的平滑参数，从而提高分类精度，为化工过程提供较高的故障诊断准确率。

Description

一种基于增强主成分分析新型贝叶斯框架的化工故障诊断方法

技术领域

本发明属于化工领域，具体涉及一种用于化工故障诊断的增强主成分分析的新型贝叶斯框架。

背景技术

近年来，随着分布式控制系统的广泛应用，化工过程的自动化程度越来越高。然而，伴随着化工过程的发展，一些事故的发生也不可避免的造成人员伤亡，财产损失以及环境破坏的后果。因此，确保化工过程安全可靠是实现化工自动化的首要保证。化工过程的故障诊断是过程控制系统中最重要的步骤之一，其旨在检测生产过程中的异常状态，找出故障的根本原因，帮助做出可靠的决策以及排除系统故障，它是确保操作成功和提高安全性的关键所在。虽然智能方法在故障诊断层面取得了一定的成功，但也存在一些固有的缺陷。大多数智能方法的性能很大程度上取决于所提取特征的质量，化工过程中的故障类型往往表现为复合故障，因此，有效的故障诊断需要合适的特征提取方法；为了提高故障诊断的性能，从不同诊断场景的原始数据中挖掘敏感特征是一项具有挑战性的任务。然而，特征提取很大程度上依赖于诊断专家的经验，大多数智能方法很难有效地学习非线性关系和利用原始数据的相关性。因此，针对复杂化工过程，提出一种新的有效的故障诊断框架是十分必要的。

发明内容

本发明是为了解决现有技术中存在的上述技术问题而做出，其目的在于提供一种面向化工故障诊断基于增强主成分分析的新型贝叶斯框架，以保证充分利用各种方法，摆脱对先进信号处理技术和人工特征提取的依赖，并可以通过最佳平滑参数选择，进一步取得对故障诊断性能的提升。

为了实现上述目的，本发明提供一种基于增强主成分分析新型贝叶斯框架的化工故障诊断方法,包括以下步骤，

S1：TE过程数据采样；

S2：计算监测变量的贡献度；

S3：提取故障的关键特征变量；

S4：训练与测试数据集划分；

S5：蜻蜓算法寻找最优平滑参数；

S6：构造增强朴素贝叶斯模型。

进一步的，所述步骤S1包括，

在TE过程基本模式中进行数据采样，采样周期设置为20个样本/小时。

进一步的，所述步骤S2包括，

将输入数据X_N×M∈R^N×M，其中N为样本数，M为特征总数，R为X取值的数据集合，R为实数空间，X为输入数据，通过非线性映射函数

映射到G，G为高维特征空间，

X_N×M∈R^N×M→G，

是原始数据x_i在特征空间G中的映射，x_i(i＝1,…,N)为X的样本，

的协方差矩阵表示为：

令λ∈R为C^F的特征值，U∈R^M是C^F的特征向量，因此有，λU＝C^FU，U表示为：

其中，α_i(i＝1,...,N)是展开系数。

通过计算映射数据在特征向量U_k上的投影，得到主分量t_k：

<U_k,

>表示U_k和

之间的内积,

表示

和

之间的内积，k表示样本的序号,k＝1,2,...,N。为了避免直接计算非线性映射，特征空间的核函数矩阵定义为

i,j为核函数矩阵的i行和j列，k_ij表示核函数矩阵中第i行第j列的元素，

表示

和

之间的内积；

进一步的，所述步骤S4包括，

每组预先描述的故障都有相应的训练和测试数据，选取基本模式的正常数据作为建模数据，基于训练数据，计算eKPCA的阈值。

进一步的，所述步骤S5包括，

输入：y，表示正确分类的样本数；z，表示分类错误的样本数；

输出：最优平滑参数σ；

S51确定DA算法的适应度函数：

S52初始化天敌权重e、惯性权重ω、种群规模Z和最大迭代次数P的值；

S53初始化随机步进向量ΔO_i(i＝1,2,...,Z)和蜻蜓O_i的位置；

S54利用欧几里德距离公式更新食物来源和天敌的位置。使用

和

更新s,a,h,f,e,ω，t表示当前迭代次数，P为最大迭代次数。s表示分离权重，a表示列队权重，h表示聚集权重，f表示分散权重，e表示天敌权重；

S55更新分离，列队，聚集，捕食，分散因素；

S56更新步进ΔO与位置O_i+1信息；

S57计算适应度函数的返回结果；

S58在t＝1:P范围内，循环执行步骤4到步骤7，直到返回结果满足要求，P为DA算法中食物来源与天敌位置更新的最大迭代次数；

S59得到最优平滑参数σ。

进一步的，所述步骤S6包括，

利用eKPCA获得的反映故障特征的变量作为eNBM输入，并通过将最优平滑参数引入到多元高斯核函数中，使得eK-eNBM可以对整个属性使用最优的平滑参数，进一步识别故障状态，基于变量的故障识别采用后验概率进行。

进一步的，所述步骤S1中，TE过程有5个主要操作，包括化学反应器，循环压缩机，冷凝器，汽提塔，汽/液分离器，TE过程的变量包括12个输入和41个输出，TE模拟器生成22种不同类型的状态数据，包括21种标准故障和正常状态数据；

TE过程的21种故障状态类型如下：

故障1 A/C进料比，B组分常数；

故障2 B组分，A/C比常数；

故障3 D进料温度；

故障4 反应堆冷却水进口温度；

故障5 冷凝器冷却水进口温度；

故障6 A进料损失；

故障7 C集管压力损失；

故障8 A、B、C进料组分；

故障9 D进料温度；

故障10 C进料温度；

故障11 反应堆冷却水进口温度；

故障12 冷凝器冷却水进口温度；

故障13 反应动力学指标；

故障14 反应堆冷却水阀；

故障15 冷凝器冷却水阀；

故障16-20 未知类型；

故障21 流4中的阀门。

其中，A、C、D表示三种不同气体反应物，B表示惰性组分，TE过程中，反应物和惰性组分被送入反应器；流4指阀门位置。

进一步的，所述步骤S2、S3包括，

利用核函数梯度算法，计算两个统计量

和S_SPE，

表示每个监测变量对T²统计的贡献，S_SPE表示每个被监测变量对SPE统计的贡献，基于各变量贡献率统计，提取故障特征；

其中，T²统计量用来衡量包含在主元模型中的信息大小，它是主成分向量的平方和，能检测出与模型一致且影响所有变量的异常事件；SPE即为平方预测误差，该统计量指标衡量样本向量在残差空间的投影变化，可以检测出与模型不一致的扰动。

核矩阵采用径向基函数计算，假设向量为

z_i＝l(l＝1,2,…,M)。在输入数据X中任取两个样本x_j,x_k，对应的核函数K(x_j,x_k)有如下计算公式：

其中，ρ为超参数。

因此，

其中，x_j,i是第j个样本第i个变量的值,同理，x_k,i是第k个样本第i个变量的值，由上式，对于任意新取样本x_new，有：

基于核函数梯度算法，提出两个统计量

和S_SPE来计算每个变量的贡献：

S_SPE,new,i分别表示第i个变量对T²和SPE统计的贡献。

首先计算T²的一个新的测试数据：

其中，Λ是特征值按照从大到小顺序排列后构成的对角矩阵，α则是特征值对应的特征向量组成的矩阵，这里

用Gram矩阵表示：

其中，

x_i(i＝1,…,N)为X的样本，N为样本数；

则第i个变量对T²统计量的贡献是：

同理，利用SPE统计量，可以计算SPE_new的一个新数据：

其中，

于是，第i个变量对SPE统计量的贡献为：

设

从上述公式知，矩阵

可以表示为：

其中，p是矩阵

第p行，q是矩阵

第q列，因此，可以得到：

最后，将

S_SPE,new,i发生显著变化的变量作为故障特征变量。

进一步的，所述步骤S5包括，

蜻蜓算法的位置更新主要受五个因素影响，即分离，列队，聚集，捕食，分散，主要数学模型如下：

1)分离

2)列队

3)聚集

4)捕食

F_i＝O⁺-O

5)逃离

E_i＝O^-+O

步进ΔO和位置O是两个向量，更新蜻蜓在搜索空间中的位置并模拟其移动，步进矢量表示蜻蜓的运动方向，定义如下：

ΔO_t+1＝(bB_i+aA_i+hH_i+fF_i+eE_i)+ωΔO_t

因此，蜻蜓算法的新位置矢量计算如下：

O_t+1＝O_t+ΔO_t+1

上述1)～5)中，各参数含义为，

O：当前个体的位置；

P：最大迭代次数；

O_j：第j个相邻个体的位置；

V_j：第j个相邻个体的速度；

B_i：第i个个体的分离；

A_i：第i个个体的列队；

H_i：第i个个体聚集；

F_i：第i个个体的食物来源；

b：分离权重；

a：列队权重；

h：聚集权重；

f：食物来源权重；

e：天敌权重；

ω：惯性权重；

W：相邻个体的数量；

O^-：敌人的位置；

O⁺：食物来源；

E_i：第i个敌人的位置；

t：当前迭代计数。

进一步的，所述步骤S6包括，

利用eNBM来解决特征间独立性假设的约束，并将联合概率密度函数估计代替了eNBM中的边缘概率密度函数估计，n维新向量

方程由eNBM确定：

其中c是类的数目，n_k是ω_k类的实例数，

是数据集的大小，

是ω_k类的先验概率，

表示类条件概率，L(·)是多元高斯核函数，

σ是平滑参数，基于多元高斯核函数，利用联合概率密度函数估计

值。

下面对本发明中英文缩写的含义进行说明。

eKPCA表示改进核主成分分析。

eNBM表示增强朴素贝叶斯模型。

DA算法表示算法表示蜻蜓算法。

eK-eNBM表示基于增强主成分分析的化工故障诊断新型贝叶斯框架。

本发明的有益效果是，提出的eKPCA可以根据Hotelling T²和平方预测误差(SPE)统计来计算每个监测变量的贡献，从而更加精确得到数据的关键特征；eK-eNBM利用联合PDF估计代替边缘PDF估计，采用多元高斯核函数估计真属性概率密度函数，能有效实现处理具有连续属性的数据；利用DA来寻求最优平滑参数，并通过将平滑参数引入到多元高斯核函数中，使得eK-eNBM可以对整个属性使用最优的平滑参数，从而提高分类精度，为化工过程提供较高的故障诊断准确率。

附图说明

图1示出了TE工艺结构图；

图2示出了本发明一个实施例所述的面向化工故障诊断基于增强主成分分析的新型贝叶斯框架流程图；

图3示出了本发明提出的eK-eNBM框架图；

图4示出了利用本发明的方法基于eKPCA T²的故障1检测与识别结果图；

图5示出了利用本发明的方法基于eKPCA SPE的故障1检测与识别结果图；

图6示出了利用本发明的方法基于

的故障1变量贡献图；

图7示出了利用本发明的方法基于S_SPE的故障1变量贡献图；

图8示出了基于本发明的方法进行的十种不同方法实验的准确度图形：图(a)为实验1；图(b)为实验2；

图9示出了本发明eK-eNBM的混淆矩阵图形：图(a)为实验1；图(b)为实验2；

图10示出了基于本发明的方法进行的实验2中不同方法的混淆矩阵：(a)DLDA+SVM；(b)DPCA+SVM；(c)MLP；(d)LSTM；(e)ENBC。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中，为了便于描述一个或多个实施例，公知的结构和设备以方框图的形式示出。

图2是流程图，示出了本发明的一个实施例所述的面向化工故障诊断基于增强主成分分析的新型贝叶斯框架。如图2所示，本发明所述的面向化工故障诊断基于增强主成分分析的新型贝叶斯框架方法包括如下步骤：

步骤S1：获取化工过程历史数据。所有数据集均以TE过程的基本模式进行采样。采样周期设置为3分钟(20个样本/小时)。除正常工况下获得的正常工况外，其余15组数据均在15种不同故障工况下采集60个运行小时，共获得1200个样本。

TE过程被广泛用作化工过程故障诊断的公共数据集。TE有5个主要操作：(1)化学反应器；(2)循环压缩机；(3)冷凝器；(4)汽提塔；(5)汽/液分离器。该过程的变量包括12个输入(操纵变量)和41个输出(22个连续过程测量和19个成分测量)。TE模拟器可以生成22种不同类型的状态数据，包括21种标准故障和正常状态数据。

TE过程的21种故障状态类型如下：

故障1 A/C进料比，B组分常数；

故障2 B组分，A/C比常数；

故障3 D进料温度；

故障4 反应堆冷却水进口温度；

故障5 冷凝器冷却水进口温度；

故障6 A进料损失；

故障7 C集管压力损失；

故障8 A、B、C进料组分；

故障9 D进料温度；

故障10 C进料温度；

故障11 反应堆冷却水进口温度；

故障12 冷凝器冷却水进口温度；

故障13 反应动力学指标；

故障14 反应堆冷却水阀；

故障15 冷凝器冷却水阀；

故障16-20 未知类型；

故障21 流4中的阀门。

步骤2：基于eKPCA的主成分提取。PCA是从原始数据中提取特征的有效方法。由于它是一种线性方法，所以在解决线性过程问题时，表现较好。然而，对于具有非线性性质的过程，PCA的性能表现较差。而KPCA是一种基于核的学习方法，核函数被用来计算非线性映射到某个高维特征空间的数据集的主成分。KPCA的基本思想是将输入数据X_N×M∈R^N×M(N为样本数，M为特征总数，R为实数空间)通过非线性映射函数

映射到G(G为高维特征空间)，

X_N×M∈R^N×M→G，

是原始数据x_i在特征空间G中的映射，x_i(i＝1,...,N)是X的一个样本，因此，

的协方差矩阵可以被表示为：

其中，α_i(i＝1,...,N)是展开系数。

通过计算映射数据在特征向量(U_k)上的投影，得到主分量(t_k)：

<U_k,

>表示U_k和

之间的内积,

表示

和

i,j为核函数矩阵的i行和j列，k_ij表示核函数矩阵K中第i行第j列的元素，

表示

和

之间的内积。

对于过程监控，本发明选择Hotelling T²统计和SPE统计，提出一种eKPCA主成分特征提取方法。T²是主成分向量的平方和，它能检测出与模型一致且影响所有变量的异常事件；SPE可以检测出与模型不一致的扰动。基于核函数梯度算法，eKPCA通过计算每个监测变量对T²和SPE统计的贡献度，提取故障特征。

其中，利用核函数梯度算法，提出了两个统计量

和S_SPE，它们表示每个监测变量对T²和SPE统计的贡献，基于各变量贡献率统计，提取故障特征。

核矩阵采用径向基函数(RBF)计算。假设向量为

z_i＝l(l＝1,2,…,M).在本发明中，在输入数据X中任取两个样本x_j,x_k，对应的核函数K(x_j,x_k)有如下计算公式：：

其中，ρ为超参数。

因此，

其中，x_j,i是第j个样本第i个变量的值。由上式，对于任意新取样本x_new，有：

基于核函数梯度算法，提出两个统计量

和S_SPE来计算每个变量的贡献：

S_SPE,new,i表示第i个变量对T²和SPE统计的贡献。

首先计算T²的一个新的测试数据：

其中，Λ是特征值按照从大到小顺序排列后构成的对角矩阵，α则是特征值对应的特征向量组成的矩阵。这里

可以用Gram矩阵表示：

其中，

x_i(i＝1,…,N)为X的样本，N为样本数。

则第i个变量对T²统计量的贡献是：

同理，计算SPE_new的一个新数据：

其中，

于是，第i个变量对SPE统计量的贡献为：

设

从上述公式知，矩阵

可以表示为：

其中，p是矩阵

第p行，q是矩阵

第q列，因此，可以得到：

最后，将

S_SPE,new,i发生显著变化的变量作为故障特征变量。

步骤3：训练数据与测试数据划分。每组预先描述的故障都有相应的训练和测试数据，选取基本模式的正常数据作为建模数据。基于训练数据，计算eKPCA的阈值。本发明将同一模型的正常数据和21个预先描述的故障数据分为训练数据和测试数据。

TE的数据集包括16组训练数据和相应的测试数据。同时，使用10倍交叉验证来评估各种方法的性能。随机选取8倍数据作为训练数据，其余数据作为测试数据。

步骤4：利用蜻蜓算法(DA)寻找最优平滑参数。DA算法是一种全局优化算法，具有良好的收敛精度和鲁棒性。它在优化问题上优于粒子群算法和遗传算法。具体寻找最优平滑参数过程如下：

输出：最优平滑参数σ；

(1)确定DA算法的适应度函数：

(2)初始化天敌权重e、惯性权重ω、种群规模Z和最大迭代次数P的值；

(3)初始化随机步进向量ΔO_i(i＝1,2,...,Z)和蜻蜓O_i的位置；

(4)利用欧几里德距离公式更新食物来源和天敌的位置。使用

和

更新s,a,h,f,e,ω；

(5)更新分离(S)，列队(A)，聚集(H)，捕食(E)，分散(F)因素；

(6)更新步进ΔO与位置O_i+1信息；

(7)计算适应度函数的返回结果；

(8)在t＝1:P范围内，循环执行步骤4到步骤7，直到返回结果满足要求；

(9)得到最优平滑参数σ。

分离

列队

聚集

捕食

F_i＝O⁺-O

逃离

E_i＝O^-+O

步进(ΔO)和位置(O)是两个向量，可以更新蜻蜓在搜索空间中的位置并模拟其移动。步进矢量表示蜻蜓的运动方向，定义如下：

ΔO_t+1＝(bB_i+aA_i+hH_i+fF_i+eE_i)+ωΔO_t

因此，蜻蜓算法的新位置矢量计算如下：

O_t+1＝O_t+ΔO_t+1

上述5个模型中，各参数含义为，

O：当前个体的位置；

P：最大迭代次数；

O_j：第j个相邻个体的位置；

V_j：第j个相邻个体的速度；

B_i：第i个个体的分离；

A_i：第i个个体的列队；

H_i：第i个个体聚集；

F_i：第i个个体的食物来源；

b：分离权重；

a：列队权重；

h：聚集权重；

f：食物来源权重；

e：天敌权重；

ω：惯性权重；

W：相邻个体的数量；

O^-：敌人的位置；

O⁺：食物来源；

E_i：第i个敌人的位置；

t：当前迭代计数。

最后利用DA算法寻找到的eK-eNBM的最优平滑参数σ，能够提高eK-eNBM的化工过程故障诊断性能。

步骤5：构造增强朴素贝叶斯模型(eNBM)。利用eKPCA获得的反映故障特征的变量作为eNBM输入，并通过将最优平滑参数引入到多元高斯核函数中，使得eK-eNBM可以对整个属性使用最优的平滑参数，进一步识别故障状态。基于变量的故障识别采用后验概率进行，虽然eNBM不能从后验概率中得到明确的诊断结果，但是，随着后验概率的增加，能够得到相应故障的高概率从而判定故障结果。

为了提高分类性能，提出利用eNBM来解决特征间独立性假设的约束，并将联合概率密度函数(联合PDF)估计代替了eNBM中的边缘概率密度函数估计。定义n维新向量

方程由eNBM确定：

其中c是类的数目，n_k是ω_k类的实例数。

是数据集的大小，所以

是ω_k类的先验概率，

表示类条件概率，L(·)是多元高斯核函数，

σ是平滑参数。基于多元高斯核函数，利用联合概率密度函数估计

值。

下面以TE过程数据为实验基础，采用本发明的方法进行故障诊断。

(1)TE模拟器可以生成22种不同类型的状态数据，包括21种标准故障和正常状态数据。这里采用TE过程的基本模式对所有数据集进行采样。每一组预先描述的故障都有相应的训练和测试数据。选择基本模式的正常数据作为建模数据。基于训练数据，计算eKPCA阈值。将同一模型的正常数据和21个预先描述的故障数据分为训练数据和测试数据，测试数据集包括16组训练数据和相应的测试数据。采样周期设置为3分钟(20个样本/小时)。除正常工况下获得的正常工况外，其余15组数据均在15种不同故障工况下采集60个运行小时，共获得1200个样本。在对比实验中，使用10倍交叉验证来评估各种方法的性能。随机选取8倍数据作为训练数据，其余数据作为测试数据。

(2)与其他方法比较

在TE基准测试过程中评估了长期短期记忆(LSTM)故障诊断方法。LDA和PCA不能将数据视为相关采样变量，因此，它们不能在故障诊断过程中使用相关信息。本文采用动态线性判别分析(DLDA)或动态主成分分析(DPCA)提取故障特征，支持向量机(SVM)作为分类器。对于DPCA，降维为30，而对于DLDA，降维为R-1，其中R是故障模式的总数，用DLDA或DPCA提取的故障特征作为支持向量机的输入。在带有RBF内核的scikit-learn中使用SVM。设置参数γ＝1/d_f，其中d_f是DLDA或DPCA提取的特征数。使用具有一个隐藏层的前馈神经网络来构造MLP，激活函数是sigmoid函数，LSTM可以考虑不同变量的动态信息进行故障诊断，使用PyTorch实现具有30个隐藏节点的LSTM。为了将eK-eNBM与其他贝叶斯分类器进行比较，选择增强的朴素贝叶斯分类器(ENBC)进行比较。

实施例1：使用T²和SPE统计量来检验PCA和EKPCA之间的性能。PCA和EKPCA故障检测率比较结果示于表1中

表1

由表1，PCA只能很好地检测出小故障，如故障1、2、6、8、15；eKPCA则能显著提高故障3、7、9、11、12、13、14的检出率。所有故障从第201个样本引入到测试数据集的末尾。从图4、5可以看出，eKPCA的T2统计量在第201个采样点超过了置信线(置信水平为95％)，而eKPCA的SPE统计量在第201个采样点超过了置信线。

为了进一步检验eKPCA提取主成分的性能，在图6、7中展示了变量(

和S_SPE)对T²和SPE统计的贡献。图6、7显示了变量

和S_SPE的变化，根据

和S_SPE的贡献，eK-eNBM选择贡献度较大的变量作为主成分。图6、7中选择了8个变量作为主成分，因为它们比其他变量的贡献更大，为故障信号的可能来源。

实施例2：将故障模式分为两个实验。实验1与流量和进料组成有关，实验2的故障模式与温度有关。对故障诊断进行了10次交叉验证。案例2不同诊断方法的结果示出于表2中

表2

图8所示为实验1和实验2各试验的详细诊断结果。从表2中可以看出，eK-eNBM的平均精度高于其他方法。图9显示了这种情况下eK-eNBM的平均结果的混淆矩阵。混淆矩阵考虑了目标和输出数据。实际的类标签是真值标签，预测的类标签是执行分类的测试方法的输出。在混淆矩阵中，行显示实际的类标签，列显示预测的类标签。对角线单元格显示实际类标签和预测类标签匹配的位置。从图10可以得到不同算法在不同故障模式下的性能以及实验2中的总体精度。通过实验1和实验2，不难发现eK-eNBM可以达到最好的总体精度。

从比较结果来看，eK-eNBM比最佳基线法(ENBC)的精度提高了0.4％和5.4％。此外，在不同的故障情况下，其性能有很大的不同。实验2中，DLDA+SVM和DPCA+SVM不能有效地对故障3进行分类，分类准确率分别为47.98％和39.89％。而MLP、LSTM、ENBC和eK-eNBM对故障3的识别率分别为55.14％、66.96％、56.42％和72％。

实验2的图9(b)和图10给出了eK-eNBM、ENBC和LSTM的混淆矩阵。结果表明，在不同的故障模式下，eK-eNBM比LSTM和ENBC能获得更准确的分类结果，验证了eK-eNBM的鲁棒性。

在实验2中，图9显示故障3和故障9都很难诊断。DLDA+SVM、DPCA+SVM、MLP和LSTM对故障9的分类精度均在50％以下。DLDA+SVM和DPCA+SVM对故障3的预测精度也低于50％。MLP将故障3误分类为故障9的分类错误率为42.25％，将故障9错误分类为故障3的分类错误率36.72％；LSTM将故障3误分类为故障9的分类错误率为24.68％，将故障9错误分类为故障3的分类错误率为36.31％；eK eNBM将故障3误分类为故障9的分类错误率为13％，将故障9错误分类为故障3的分类错误率为17％。而故障3和故障9都与D进料温度(流2)有关，唯一的区别是故障9的类型是随机变化，故障3的类型是阶跃噪声。因此，实验结果证明，故障3和故障9很难区分。

(3)计算复杂度比较

利用本发明中所提的化工故障诊断eK-eNBM方法，分析其计算复杂度。设N为训练样本数，M为测试样本数，n为特征数。本文提出了一种结合eKPCA和eNBM的化工过程故障诊断框架eK-eNBM。在训练阶段，eKPCA根据Hotelling T²统计和平方预测误差(SPE)统计计算各监测变量的贡献，以获得原始数据的关键特征。eKPCA的训练复杂度为O(N²n)。eNBM利用联合PDF估计代替边缘PDF估计。为提高高斯核函数故障诊断精度，引入平滑参数。同时，为提高eNBM的性能，在eNBM训练阶段使用DA算法寻找最优的平滑参数。设Z为DA的总体规模，T为DA的最大迭代次数。因此，DA的训练复杂度为O(NZT)。eNBM计算N个PDF的叠加，在训练阶段需要额外的时间来计算最优平滑参数，eNBM的训练复杂度为O(Nn)。在测试阶段，DA获得的平滑参数和eKPCA从训练阶段获得的关键特征不会增加测试阶段的复杂度。因此，在测试阶段，eK-eNBM的计算复杂度为O(NMn)。

eK-eNBM与其他方法的时间比较实验结果采用10倍交叉验证的平均值，比较结果示于表3中

表3

从表3可以看出，eK-eNBM的训练时间比DLDA+SVM、MLP、LSTM和ENBC长，比DPCA+SVM的训练时间短。

综合上述比较实验，结果表明，与已有的深度学习等传统方法相比，本发明所提出的eK-eNBM框架在化工过程故障诊断上更加有效。

尽管已经结合详细示出并描述的优选实施例公开了本发明，但是本领域技术人员应当理解，对于上述本发明所提出的基于增强主成分分析的化工故障诊断新型贝叶斯框架(eK-eNBM)方法，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种基于增强主成分分析新型贝叶斯框架的化工故障诊断方法,包括以下步骤，

S1：TE过程数据采样；

S2：计算监测变量的贡献度；

S3：提取故障的关键特征变量；

S4：训练与测试数据集划分；

S5：蜻蜓算法寻找最优平滑参数；

S6：构造增强朴素贝叶斯模型；

所述步骤S2包括，

映射到G，G为高维特征空间，

X_N×M∈R^N×M→G，

的协方差矩阵表示为：

其中，α_i(i＝1,...,N)是展开系数，

通过计算映射数据在特征向量U_k上的投影，得到主分量t_k：

表示U_k和

之间的内积,

表示

和

之间的内积，k表示样本的序号,k＝1,2,...,N，为了避免直接计算非线性映射，特征空间的核函数矩阵定义为

表示

和

之间的内积；

所述步骤S5包括，

输出：最优平滑参数σ；

S51确定DA算法的适应度函数：

S53初始化随机步进向量ΔO_i(i＝1,2,...,Z)和蜻蜓O_i的位置；

S54利用欧几里德距离公式更新食物来源和天敌的位置，使用

和

更新s,a,h,f,e,ω，t表示当前迭代次数，P为最大迭代次数，s表示分离权重，a表示列队权重，h表示聚集权重，f表示分散权重，e表示天敌权重；

S55更新分离，列队，聚集，捕食，分散因素；

S56更新步进ΔO与位置O_i+1信息；

S57计算适应度函数的返回结果；

S59得到最优平滑参数σ；

所述步骤S2、S3包括，

利用核函数梯度算法，计算两个统计量

和S_SPE，

其中，T²统计量用来衡量包含在主元模型中的信息大小，它是主成分向量的平方和，能检测出与模型一致且影响所有变量的异常事件；SPE即为平方预测误差，该统计量指标衡量样本向量在残差空间的投影变化，可以检测出与模型不一致的扰动，

核矩阵采用径向基函数计算，假设向量为

z_i＝l(l＝1,2,…,M)，在输入数据X中任取两个样本x_j,x_k，对应的核函数K(x_j,x_k)有如下计算公式：

其中，ρ为超参数,

因此，

基于核函数梯度算法，提出两个统计量S_T2和S_SPE来计算每个变量的贡献：

分别表示第i个变量对T²和SPE统计的贡献，

首先计算T²的一个新的测试数据：

用Gram矩阵表示：

其中，

x_i(i＝1,…,N)为X的样本，N为样本数；

则第i个变量对T²统计量的贡献是：

同理，利用SPE统计量，可以计算SPE_new的一个新数据：

其中，

于是，第i个变量对SPE统计量的贡献为：

设

从上述公式知，矩阵

可以表示为：

其中，p是矩阵

第p行，q是矩阵

第q列，因此，可以得到：

最后，将

发生显著变化的变量作为故障特征变量，

所述步骤S5包括，

1)分离

2)列队

3)聚集

4)捕食

F_i＝O⁺-O

5)逃离

E_i＝O^-+O

ΔO_t+1＝(bB_i+aA_i+hH_i+fF_i+eE_i)+ωΔO_t

因此，蜻蜓算法的新位置矢量计算如下：

O_t+1＝O_t+ΔO_t+1

上述1)～5)中，各参数含义为，

O：当前个体的位置；

P：最大迭代次数；

O_j：第j个相邻个体的位置；

V_j：第j个相邻个体的速度；

B_i：第i个个体的分离；

A_i：第i个个体的列队；

H_i：第i个个体聚集；

F_i：第i个个体的食物来源；

b：分离权重；

a：列队权重；

h：聚集权重；

f：食物来源权重；

e：天敌权重；

ω：惯性权重；

W：相邻个体的数量；

O^-：敌人的位置；

O⁺：食物来源；

E_i：第i个敌人的位置；

t：当前迭代计数；

所述步骤S6包括，

利用eKPCA获得的反映故障特征的变量作为eNBM输入，并通过将最优平滑参数引入到多元高斯核函数中，使得eK-eNBM可以对整个属性使用最优的平滑参数，进一步识别故障状态，基于变量的故障识别采用后验概率进行；

eKPCA表示改进核主成分分析；

eNBM表示增强朴素贝叶斯模型；

2.如权利要求1所述的一种基于增强主成分分析新型贝叶斯框架的化工故障诊断方法,所述步骤S1包括，

3.如权利要求1所述的一种基于增强主成分分析新型贝叶斯框架的化工故障诊断方法,所述步骤S4包括，

4.如权利要求1所述的一种基于增强主成分分析新型贝叶斯框架的化工故障诊断方法,其特征在于，所述步骤S1中，TE过程有5个主要操作，包括化学反应器，循环压缩机，冷凝器，汽提塔，汽/液分离器，TE过程的变量包括12个输入和41个输出，TE模拟器生成22种不同类型的状态数据，包括21种标准故障和正常状态数据；

TE过程的21种故障状态类型如下：

故障1 A/C进料比，B组分常数；

故障2 B组分，A/C比常数；

故障3 D进料温度；

故障4反应堆冷却水进口温度；

故障5冷凝器冷却水进口温度；

故障6 A进料损失；

故障7 C集管压力损失；

故障8 A、B、C进料组分；

故障9 D进料温度；

故障10 C进料温度；

故障11反应堆冷却水进口温度；