CN112580693A

CN112580693A - 基于自助法重采样邻域保持嵌入的石化过程故障诊断方法

Info

Publication number: CN112580693A
Application number: CN202011352781.2A
Authority: CN
Inventors: 朱群雄; 张宁; 贺彦林; 徐圆; 张洋
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-30

Abstract

本发明公开了一种基于自助法重采样邻域保持嵌入的石化过程故障诊断方法，通过数据挖掘技术开展数据预处理，从生产与分析数据中寻找规律，采用基于自助法重采样邻域保持嵌入方法实现对不同故障类型数据的处理和充分利用，然后利用赤池信息准则捕获最佳降维阶数，最后利用集成分类器对数据进行故障分类，形成一套完整的石化反应过程高效的故障诊断方法。本发明提供的基于自助法重采样邻域保持嵌入的石化过程故障诊断方法具有建模简单、诊断精度高、效率高、管理方便的特点，为保证化工生产的安全进行、提高产品质量、节约成本提供了帮助。

Description

基于自助法重采样邻域保持嵌入的石化过程故障诊断方法

技术领域

本发明涉及石化工业技术领域，尤其涉及一种基于自助法重采样邻域保持嵌入的石化过程故障诊断方法。

背景技术

对于一个工厂的生产来说，至关重要就是生产过程的安全和产品的质量，为保证化工生产过程的安全和提高产品的质量，我们需要时刻对生产过程进行过程监测和故障诊断。近些年，故障诊断技术广泛的应用于化工生产过程，它主要依靠传感器实时监测化工生产过程某些关键部位，操作人员通过分析工艺参数的变化及时发现生产过程中的异常，并及时做出决策从而避免故障，确保生产过程的安全。但随着计算机技术和传感器技术的发展，生产设备向大型化、智能化发展，生产过程复杂度也随之提高，传统的过程监测和故障诊断方法无法进行及时有效的处理传感器获取高维、非线性数据，以至于出现所谓的“数据泛滥”的现象。

面对高维、非线性数据，数据挖掘和机器学习技术的发展为这些数据的有效利用提供了无限的可能。其中数据驱动的故障诊断方法成为了一个重要的课题，数据驱动的故障诊断方法不需要传统基于模型和基于知识的方法过程机理和经验知识，而是利用工业过程中采集的数据，只需要采集到系统正常运行时的历史数据，建立数据模型，对比待测时刻过程状态判断是否发生故障。数据驱动的故障诊断研究中主要有信号处理的方法、机器学习方法和多元统计分析的方法。在众多方法中，理论研究和实际运用最多的是基于多元统计分析的方法。

传统多元统计方法有主元分析(Principal Component Analysis，PCA)，偏最小二乘(Partial Least Squares，PLS)，Fisher判别分析(Fisher discriminant analysis，FDA)，规范变量分析(Canonical Variate Analysis，CVA)和典型关联分析(CanonicalCorrelation Analysis，CCA)。传统多元统计方法在工业过程中有非常广泛的应用，但对于非线性数据处理不佳，算法基本是从全局结构出发，没有考虑局部特征，也忽视了数据的流形结构，降维的效果受到了一定的限制。多元统计分析方法运用到故障诊断中，特征提取的结果往往决定着故障诊断的效果。近年来一系列流形学习算法的大量晒起，大量应用于特征提取，与传统的特征提取相比，流形学习的目标是发现隐含在高维数据中的低维流形信息，有效的揭示数据的局部几何结构特征。

然而，上述的各种传统方法都只考虑了全局数据信息，都是基于欧氏距离，同时也没有考虑到数据的固有的非线性流行结构，因此选用流行学习的降维方法进行特征提取，流行学习方法基于微分几何理论，在人脸识别领域得到广泛的应用，在流行学习的不断发展中，出现了很多的方法，其中有些学者提出了邻域保持嵌入(Neighborhood PreservingEmbedding，NPE)算法，NPE算法主要思想是保持子流形数据局部几何结构不变，得到原始数据的子空间描述，即找到能够最好保持原始数据局部邻域结构的低维嵌入，是局部线性嵌入(Locally Linear Embedding，LLE)算法的线性表示。相比于传统的PCA和ICA算法，NPE算法的特点是“以局部观整体”，它更多地关注数据的局部结构，通过一个样本点来联系其它与该点欧氏距离相近的近邻点并在它们之间构造重构权向量，以此保持数据的局部特性，得到局部结构分布，最终获取到数据整体的流形特征。NPE算法不仅能够找到数据在高维空间的低维表示，此外对于在线测试数据，也可以形成清晰的映射关系，很好地解决其它流形算法存在的“out-of-sample”问题。遗憾的是，NPE算法存在严重的奇异矩阵分解问题，无法通过最小化目标函数得到相应矩阵的最优解，严重的限制了NPE算法在故障诊断方面的应用。

发明内容

为解决现有技术存在的局限和缺陷，本发明提供一种基于自助法重采样邻域保持嵌入的石化过程故障诊断方法，包括数据预处理、数据特征提取、故障分类和最优化特征映射参数；

所述数据预处理的步骤包括：对田纳西-伊斯曼数据中的异常数据进行预处理，同时对数据进行归一化和标准化处理，将处理后的数据划分为训练数据和测试数据，对划分的训练样本采用Bootstrap方法进行重复抽样，获得新的训练样本；

所述数据特征提取的步骤包括：使用欧氏距离计算任意两个样本点之间的距离，使用K近邻算法计算任意两个样本之间的近邻点，根据近邻关系计算任意两个近邻样本之间的权值矩阵，根据广义奇异值分解原理，通过线性映射计算低维映射；

所述故障分类的步骤包括：选择adaboost.M2算法作为分类标准，将故障特征提取的结果带入adaboost分类器中进行故障分类；

所述最优化特征映射参数的步骤包括：不断调整近邻参数和降维参数，根据所述adaboost分类器得到的分类结果，利用AIC信息准则求取最优的降维阶数，求取最小误分率。

可选的，所述数据预处理的步骤还包括：

获得原始数据，所述原始数据的表达式如下：

X＝{(x₁,τ₁),(x₂,τ₂),L,(x_m,τ_m)},τ_i∈[1,C]

利用随机整数生成器生成一组整数l₁,l₂,L,l_n∈[1,n]，使用该组数据作为所述原始数据的下标，利用bootstrap重采样方法对所述原始数据进行重采样，获得一组新的数据，该组新的数据的表达式如下：

对上述过程重复P次，得到P组新数据

使用获得的P组新数据代替所述原始数据，对新数据集进行Z-score标准化处理，计算公式如下：

其中，μ为所述原始数据的均值

σ为所述原始数据的样本标准差

可选的，所述数据特征提取的步骤还包括：

构造邻接图，对训练样本使用k近邻法获得k个欧式距离最近的近邻点，上述k个近邻点组成一个局部的邻域集合，所述邻域集合的表达式如下：

根据所述邻域集合通过最小化目标函数，计算近邻样本之间的权值矩阵，计算公式如下：

根据求解的最优权值矩阵，通过线性化公式计算低维特征映射，所述线性化公式Z_i和所述低维特征映射

的表达式如下：

z_i＝A^Tx_i

利用拉格朗日乘子法将有约束问题转化为无约束问题，计算公式如下：

XMX^Ta＝λXX^Ta

将所述线性化公式带入上述转化公式，计算得到所述低维映射。

可选的，所述故障分类的步骤还包括：

将特征提取的结果输入到adaboost.M2分类器中，计算公式如下：

利用集成分类器对故障数据进行分类。

可选的，所述最优化特征映射参数的步骤还包括：

对分类器的结果进行判断，利用所述AIC信息准则获得所述最小误分率，所述AIC信息准则的表达式如下：

根据预测误差和模型复杂度最小化误差，获得当误分率最小时最优的降维阶数d，计算公式如下：

其中，f(d)为改变参数后以d为降维阶数的误分率，n为每个故障数据集的平均样本数。

本发明具有下述有益效果：

本发明使用bootstrap重采样技术解决NPE算法的奇异矩阵的问题，利用NPE算法的优点，充分挖掘隐藏在数据局部的流行结构信息。本发明通过自助法重采样邻域保持嵌入方法提取故障特征，通过集成学习的方法进行故障分类，提高了故障诊断性能，通过AIC信息准则可以寻求最优低维本征维度。综上所述，本发明提供的基于自助法重采样邻域保持嵌入的石化过程故障诊断方法，具有精度高、建模简单、诊断效率高的特点，误分率达到最小，保证了化工过程的安全进行。

附图说明

图1为本发明实施例一提供的基于自助法重采样邻域保持嵌入的石化过程故障诊断方法的流程图。

图2为本发明实施例一提供的田纳西-伊斯曼化工反应流程图。

图3为本发明实施例一提供的故障训练准确率曲线图。

图4a为本发明实施例一提供的A-bNPE故障预测准确率柱状图。

图4b为本发明实施例一提供的NPE故障预测准确率柱状图。

图4c为本发明实施例一提供的LLE故障预测准确率柱状图。

图4d为本发明实施例一提供的PCA故障预测准确率柱状图。

图5为本发明实施例一提供的四种算法的平均准确率柱状图。

图6为本发明实施例一提供的误分率曲线图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图对本发明提供的基于自助法重采样邻域保持嵌入的石化过程故障诊断方法进行详细描述。

实施例一

针对田纳西-伊斯曼(Tennessee Eastman，TE)过程数据多变量、非线性、强耦合、工艺复杂、关键变量在线测量困难、生产成本高等问题，本实施例提供一种基于自助法重采样邻域保持嵌入的石化过程故障诊断方法，通过数据挖掘技术开展数据预处理，从生产与分析数据中寻找规律，采用自助法重采样邻域保持嵌入方法实现对不同故障类型数据的处理和充分利用，利用ACI信息准则捕获最佳降维阶数，利用集成分类器对数据进行故障分类，形成一套完整的石化反应过程高效的故障诊断方法。本实施例提供的基于自助法重采样邻域保持嵌入的石化过程故障诊断方法，具有建模简单、诊断精度高、效率高、管理方便的特点，为保证化工生产的安全进行、提高产品质量、节约成本提供了帮助。

本实施例中，数据通过bootstrap-NPE算法降维以后，需要进行分类处理，即故障分类，根据数据特征将数据分为不同的故障类型，并将数据划分到相应的类型中。本实施例采用集成学习的方法，对数据进行分类。Adaboost算法是基于boosting算法发展而来，起初adaboost主要应对于二分类问题，后来发展成多分类器，本实施例采用adaboost的推广形式adaboost.M2对数据进行分类。

本实施例克服传统流行学习方法在故障诊断过程中存在的奇异矩阵问题，运用一种基于bootstrap重采样、NPE特征提取和adaboost故障分类的故障诊断的方法，针对不同故障类型的数据进行故障诊断，最后利用信息准则捕获最佳的降维阶数。

本实施例提供的基于自助法重采样邻域保持嵌入的石化过程故障诊断方法，包括：数据预处理过程、特征提取、故障分类过程和最优化特征映射参数过程。

本实施例中，所述数据预处理过程为：对Tennessee Eastman(田纳西-伊斯曼，TE)数据中异常数据进行处理，同时对数据进行归一化，标准化处理，并将所处理后的数据合理化分为训练数据和测试数据，并对所划分的训练样本采用Bootstrap方法进行重复抽样，获得新的训练样本。

本实施例中，所述的数据特征提取过程为：首先利用欧氏距离计算任意两样本点之间的距离；其次用K近邻算法计算任意两样本之间的近邻点；然后根据近邻关系计算任意两近邻样本之间的权值矩阵；最后根据广义奇异值分解原理，通过线性映射计算低维映射。

本实施例中，所述的故障分类过程为：根据故障特征提取的结果，将结果带入adaboost分类器模型中，选择adaboostM2作为分类标准。

本实施例中，所述的最小误分率求取过程为：不断调整近邻参数和降维参数，根据adaboost分类器得到的结果，利用AIC信息准则求取最优的降维阶数，求取最小化误分率。

上述过程包括两个阶段：训练阶段和测试阶段。对于训练阶段，本实施例利用bootstrap重采样技术，对原始数据进行重复抽样，然后对数据进行标准化处理，得到新的数据集：

本实施例提供的Bootstrap重采样过程如下：

本实施例提供的数据标准化过程如下：

本实施例运用流行学习邻域保持嵌入算法进行特征提取。首先构造邻接图：根据K近邻算法，计算任意两点的欧式距离，然后确定近邻图，然后计算权值矩阵，互为近邻的点需要计算其连接权值，最后根据连接图计算低维特征映射：

XMX^Ta＝λXX^Ta (1.6)

本实施例根据特征映射的结果，输入到集成学习adaboost分类器中进行故障故障分类：

本实施例根据AIC信息准则，计算最优的低维映射参数d：

对于测试阶段，本实施例根据训练过程得到的特征提取和故障分类模型，将测试数据输入到模型中，经过训练得到分类结果和最优的低维映射参数，并求解出最小误分率。

本实施例结合田纳西-伊斯曼化工过程，分析过程中正常数据和各种故障数据类型，提出诊断模型进行故障诊断。本实施例首先旨在解决邻域保持嵌入算法在特征提取过程中的奇异矩阵分解问题，提出了一种bootstrap-NPE的方法，其次为解决故障分类问题，本实施例运用集成学习分类器，通过赤化信息准则低维本征参数做出优化，最终完成整个故障诊断过程，提高故障诊断准确度。

本实施例首先获取TE原始数据，从原始数据中选取正常、故障2、故障4、故障8、故障10和故障13作为本次实例的数据集，使用bootstrap重采样方法对原始数据进行重复采样，得到新的数据集，其次将得到的新数据使用NPE方法进行特征提取，得到主要的特征数据，然后将得到的数据输入到集成学习adaboost分类器中，进行故障分类，最后利用AIC信息准则，计算最优低维映射参数，完成整个故障诊断过程。

图1为本发明实施例一提供的基于自助法重采样邻域保持嵌入的石化过程故障诊断方法的流程图。如图1所示，整个算法分为两个部分：训练过程和测试过程。

本实施例中，训练过程包括bootstrap重采样过程。图2为本发明实施例一提供的田纳西-伊斯曼化工反应流程图。如图2所示，根据TE过程在模式1情况下，采集正常数据和全部的故障数据，一共采集23组数据，选取其中的n组数据作为本次实例的实验部分：

其中，n＝52是TE数据的变量数量，m是样本数量，同时对不同的故障进行标签处理：

X＝{(x₁,τ₁),(x₂,τ₂),L,(x_m,τ_m)},τ_i∈[1,C] (1.10)

本实施例根据获取的原始数据，利用bootstrap重采样方法，对原始数据进行重抽样，得到一组新的数据，重复P次此操作，最终得到一个新的数据集：

本实施例对得到的新数据集，进行Z-score标准化处理：

其中，μ为原始数据的均值

σ为原始数据的样本标准差

本实施例中，训练过程包括NPE特征提取过程。首先构造邻接图G，对标准化后的重采样的数据集，利用k近邻法，找到每个样本的k个欧氏距离最近的近邻点，这k个近邻即组成一个局部邻域集，其次计算近邻点之间的权值矩阵W，最小化目标函数，计算出近邻点之间的权重系数W_ij，若x_i和x_j是近邻，则总连接权值为1，若不是近邻，则连接权值为0，计算公式如下：

本实施例计算特征映射矩阵，根据上述计算出来的权值矩阵W，若W_ij可以在

空间中重构数据点x_i，则相应地也可以在

空间中重构对应的点y_i：

这样投影矩阵A也可以通过下面的目标函数求得最优解：

x→z_i＝A^Tx_i (1.16)

XMX^Ta＝λXX^Ta (1.17)

图3为本发明实施例一提供的故障训练准确率曲线图。在对公式(1.9)求解过程中，往往会遇到奇异矩阵分解问题，XX^T往往是奇异的，在进行特征值和特征向量求解过程中，往往会不满足条件，bootstrap重采样正是解决XX^T矩阵的奇异问题，通过重采样是该矩阵满足奇异矩阵条件，进而顺利计算所需特征值和特征向量。最终通过选取特征值中最小的d个特征值(λ₁，λ₂，λ₃，L，λ_d)，对应的特征向量即组成投影矩阵A，最终通过公式(1.8)完成低维特征映射，Z为降维后的数据矩阵。

图4a为本发明实施例一提供的A-bNPE故障预测准确率柱状图。图4b为本发明实施例一提供的NPE故障预测准确率柱状图。图4c为本发明实施例一提供的LLE故障预测准确率柱状图。图4d为本发明实施例一提供的PCA故障预测准确率柱状图。本实施例中，训练过程包括故障分类过程。本实施例提供的adaboost算法具有预测精准，算法简单，在诸多领域都具有成功应用，尤其在处理分类问题和模式识别领域更为突出，对于本实施例的多分类问题，采用adaboost的推广形式adaboost.M2算法，对于k类多分类问题，该方法将其拆解为k-1个分类问题加以解决，评估每个弱分类器的损失为：

最终组合分类器为：

图5为本发明实施例一提供的四种算法的平均准确率柱状图。本实施例根据adaboost.M2分类器，得到故障分类效果图和分类准确率。

本实施例中，训练过程包括最优化特征映射参数过程。根据得到的分类结果，通过不断调节特征提取的参数，重新计算权值矩阵，根据AIC信息准则捕获最佳降维阶数d参数：

图6为本发明实施例一提供的误分率曲线图。本实施例提供的测试过程，将预先标准化的测试数据输入到训练好的特征提取和故障分类模型中，通过特征提取和故障分类，最后通过误分率来检测模型的适用性。

本实施例通过使用bootstrap重采样改进NPE算法中特征映射过程中的奇异矩阵分解问题，bootstrap-NPE算法可以充分挖掘数据中流行结构，具有很好的降维效果，而且充分考虑到局部特征，具有很好的泛化能力。本实施例可以实现化工过程的故障的诊断，为操作人员提供参考，为工厂减少损失。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。