CN109683594B

CN109683594B - 一种异常变量精确识别与定位方法

Info

Publication number: CN109683594B
Application number: CN201910028749.XA
Authority: CN
Inventors: 王国柱; 杨晓; 邢倩; 杜志勇; 孟昕元
Original assignee: Henan Institute of Technology
Current assignee: Henan Institute of Technology
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2021-04-06
Anticipated expiration: 2039-01-11
Also published as: CN109683594A

Abstract

一种异常变量精确识别与定位方法，包括：根据正常工作数据建模，通过正常模型的近邻平方距离控制阈值对实时数据进行故障检测，再通过正常模型的变量贡献控制阈值对故障数据进行异常变量“一次”识别，随后对故障样本中排除的异常变量进行重构后再次与所述近邻平方距离控制阈值进行比较进行异常变量“二次”识别，若仍识别出异常则回到上一步，直至不再出现异常。

Description

一种异常变量精确识别与定位方法

技术领域

本发明涉及异常变量识别与定位领域，具体而言，涉及一种基于k最近邻变量贡献分析与数据重构的异常变量精确识别与定位方法。

背景技术

当检测到工业过程中存在故障时，提取有效的故障信息，研究各种故障和异常变量之间的关系，建立准确的“故障-征兆”表并将其作为后续故障决策与评价时可用的知识库是非常必要的，也成为目前故障诊断领域研究的热点问题。在基于统计理论研究的框架下，贡献图方法是最常用的异常变量识别方法，可以分为SPE贡献图和T²贡献图两种，该方法通过柱状图使每个变量的贡献值可视化，直观地显示出故障发生时各变量的贡献程度。故障发生后，贡献图方法通常认为对统计指标贡献较大的变量为可能造成过程故障发生的责任变量，但并没有确定贡献变量的控制阈值，即各个变量的贡献仅起到指导作用，最终的故障原因还需要过程经验丰富的操作人员进一步分析和确定；换句话说，贡献图方法只能对变量贡献进行排序，大致找到发生异常的变量，并不能识别过程中所有发生异常的变量。类似PCA贡献图方法，一些基于完全分解、局部分解和角度的异常变量识别方法也被相继提出，美国南加州大学学者Alcala在文献中也对这些方法进行了总结，并阐明了此类方法的优缺点。随后，基于重构贡献的方法也逐渐兴起，Qin等人提出了一种基于传感器有效度指标的故障诊断技术，作者认为通过对异常传感器的数据重构，可以有效地减小SPE统计指标，在对没有发生故障的传感器变量重构时，由于故障信息仍然存在，重构后的SPE与故障时没有太大的变化，这也为异常变量的辨识提供了保障；Alcala和Qin提出了一种基于重构贡献的故障诊断技术，验证当只发生传感器故障时，重构贡献图方法的诊断准确率要高于传统贡献图方法。虽然上述方法在对过程中异常变量进行识别时具有较高的准确性和可靠性，但它们通常需要假设故障方向已知或过程中已经具备经验知识，而过程中准确的假设和有效经验的获取具有一定的难度，并且该类方法和传统贡献图方法一样不能避免变量之间的扩散效应。

近年来，基于k最近邻(k-NN，k-NearestNeighbor)分类算法理论的故障检测方法已经被提出并成功用于监视连续过程和间歇过程。但由于该方法的计算量大，需要存储的中间值多，k-NN方法对计算机的计算速度与存储空间就有较高的要求。为了解决这些问题，塔斯基吉大学He等人提出了PC-k-NN方法，该方法采用原始样本的主成分作为建模样本，既降低了计算距离的运算量，又节省了存储空间，但该方法忽略了发生在残差空间的异常信息。随后，沈阳化工大学李元等人提出了一种基于特征空间k最近邻(Feature Space kNearest Neighbor,FS-k-NN)的批次过程故障检测方法，该方法结合特征空间的主元部分和残差部分全面表示原始数据的有用信息，取得了一定的效果。尽管k-NN方法在故障检测领域已经取得了令人满意的成果，但在故障识别与定位方面的研究较少。因此，在没有可用故障数据知识和经验的情况下应用k-NN方法进行异常变量的有效识别存在一定的挑战，也具有一定的学术研究价值和实际意义。

发明内容

基于上述问题，本发明提供了一种基于k-NN变量贡献分析与数据重构的异常变量精确识别与定位方法，该方法不需要进行数据变换，并且能够有效避免因变量扩散效应带来的影响。

为了实现上述目的，本发明采用如下的技术方案：

基于k-NN变量贡献分析的异常变量“一次”识别，包括：

选取每个样本的前k个邻近数据样本建立过程的统计模型，提取正常样本之间的最近邻距离特征量，确定模型的统计控制限，进而对实时样本进行检测。

假设采集到的过程正常运行数据集为X_n×m，n为样本个数，m为变量或传感器个数，k-NN方法可以通过以下步骤进行建模：

1.标准化正常过程数据X_n×m，将其转化为零均值，单位标准差的矩阵x_n×m；

2.根据式(1)计算正常数据集中任意样本x_i与其它样本之间的欧氏距离d(x_i,·)并对其排序，找到x_i的前k个最近邻样本N₁(x_i)，N₂(x_i)，…,N_k(x_i)；

d(x_i,x_j)＝||x_i-x_j||² (1)

3.根据式(2)计算每个正常样本x_i与其前k个近邻的距离统计量

4.使用核密度方法对3中所得到的n个距离统计量进行估计，确定置信度为99％的控制阈值δ_Limit；

从上述k-NN建模过程中可以得到，式(2)为样本x_i的距离统计量，由m个变量的贡献累加和构成，因此，可以将

分解为

其中，ε_l为第l个元素为1，其余元素为零的行向量。

此时，式(4)可以定义为样本x_i中第l个变量对距离统计指标的贡献。

根据式(3)和式(4)可知，样本的k-NN统计量与各变量的贡献之间存在如下关系

根据以上分析得到，样本x_i的第l个变量对距离统计指标的贡献实际上等于该样本与其k个最近邻第l个分量的平方距离之和，即变量贡献分析时仅考虑了变量自身的影响，并没有考虑各个变量之间的关系，可以有效避免变量之间的扩散效应，但在过程故障时是否能够保证异常变量对统计指标的贡献一定大于其它变量需做出进一步说明。下面分两种情况对k-NN变量贡献方法的可行性进行了分析，分别为单变量异常情况和多变量异常情况。

1.单变量异常情况的可行性分析

假设样本x_f为故障样本，该样本中只有第r个变量偏离正常运行范围，此时故障样本x_f可以分解为如下形式

x_f＝x^*+ε_rf_r (6)

式(6)中，x^*为该样本的正常部分，ε_rf_r为异常部分，ε_r为故障方向，f_r≠0为对应方向上的故障幅值。将式(6)代入式(4)得到

在式(7)中，由于N_j(x_f)表示x_f在正常数据集中的近邻样本，而x^*为x_f正常部分第r个变量，因此存在[x^*-N_j(x_f)]ε_r ^T≈0，此时，式(7)可以近似表示为

式(8)表示样本x_f中第l个变量的贡献，且存在如下关系

因此，当r≠l时，可以得到

C_fr＝kf_r ²>C_fl≈0 (10)

根据上述讨论可知，k-NN变量贡献方法可以保证单个变量异常时其贡献最大。

2.多个变量异常情况的可行性分析

样本x_f为故障样本，该样本中存在多个变量偏离正常运行范围，此例中假设异常变量个数为3个，分别为变量a,b,c，此时故障样本x_f可以分解为如下形式

x_f＝x^*+ε_af_a+ε_bf_b+ε_cf_c (11)

同上，式(11)中x^*为该样本的正常部分，ε_af_a,ε_bf_b和ε_cf_c为异常部分，ε和f分别为相应的故障方向和故障幅值。将式(11)代入式(4)得到

同理，式(12)中存在[x^*-N_j(x_f)]ε_r ^T≈0，此时，式(12)可以近似表示为

与单变量异常情况类似，当a,b,c≠r时，可以得到

根据上述讨论可知，k-NN变量贡献方法对多个变量发生异常情况同样有效，可以保证变量异常时其贡献大于其它变量的贡献值。

所述k-NN变量贡献控制阈值描述的是变量在正常工况下的波动情况，也就是说，故障样本的异常变量贡献会大于正常样本中该变量对距离指标的贡献。由于在建模过程中使用的数据均来自正常过程且处于稳定状态，因此建模时每个变量对统计指标的贡献应该相对稳定，此时可以使用正常样本中各变量贡献组成的矩阵C进一步确定每个变量贡献的控制限。本发明采用核密度估计方法计算正常过程变量贡献的控制阈值，所述核密度估计方法通过公式(15)-(16)：

确定正常状态99％的控制限

其中，K是高斯核函数，H为核宽度，n为样本数量，α＝0.01，

表示第i个变量的贡献控制阈值，

表示第j时刻第i个变量的贡献控制阈值；

所述核密度估计方法优点在于不利用有关数据分布的先验知识，对数据分布不附加任何假定，是一种单纯从样本本身出发研究数据分布特征的方法，计算结果为

上式中每个元素为正常过程中各变量的贡献阈值。

对于过程中采集到的实时样本，使用k-NN方法进行故障检测，当统计指标大于控制阈值时，表示系统中存在故障。随后，为了确保设备能够恢复到正常状态，需要对该故障样本进行异常变量识别，判断哪些变量没有跟随正常过程的运行轨迹。下面对基于k-NN变量贡献分析的异常变量“一次”识别过程进行了介绍：

1.对于新采集到的实时数据X_1×m，采用建模时的均值及标准差处理，得到x_text；

2.求取x_text与训练样本的前k个最近邻的距离并计算统计指标D²(x_text)；

3.将D²(x_text)与正常过程统计量的控制限δ_Limit比较，如果统计量小于控制限，即D²(x_text)≤δ_Limit时，表示该样本正常；反之，样本发生故障，此时，测试样本x_text可以描述为故障样本x_f；

4.对于故障样本x_f，根据式(18)计算每个变量对该样本的k-NN贡献统计指标(Cont₁,Cont₂,…,Cont_m)，其中，N_j(x_f)表示x_f在建模数据中的第j个近邻；

5.将故障样本中每个变量的贡献值Cont_i与式(17)中正常过程变量贡献的控制阈值

比较，如果贡献值小于控制阈值，即

时，表示样本中该变量正常；反之，该变量发生异常。

基于k-NN数据重构的异常变量“二次”识别，包括：

使用k-NN方法对“一次”识别到的异常变量进行重构，当重构后样本中无故障时，异常变量识别过程结束；反之，需返回变量贡献分析阶段进行“二次”识别。

为方便理解，变量重构时假设过程中仅有一个变量v₁发生异常，结合图1对计算过程中几个符号和参数进行了如下定义：

(1)x_f表示故障样本，x'_f表示样本x_f去掉异常变量后由剩余变量组成的样本，参见图1，阴影部分的v₁为贡献分析和“一次”识别方法确定的异常变量；

(2)n'_j(x'_f)表示x'_f在x'_n×(m-1)中的第j个邻近样本的标签，其中j＝1,2，…,k；

(3)w为权值，表示新样本与建模样本的相似程度，权值越大相似程度越大，反之，相似程度越小；

(4)d₁,d₂,…,d_k分别为x'_f与其在x'_n×(m-1)中前k个最近邻样本之间的欧氏距离，样本标签为n_j(x'_f)，j＝1,2,…,k，且满足d₁<d₂<…<d_k；

(5)v'₁表示变量v₁的重构值。

下面结合图1分别对四种基于k-NN理论的数据重构方法进行介绍。

(ⅰ)均值k-NN重构方法

采用均值k-NN重构方法对异常变量v₁进行重构时，首先需要构造由数据点中去除“一次”识别异常变量后组成的样本，即图1中的x'_f；进而筛选出该样本与x'_n×(m-1)中的前k个最近邻样本；最终使用训练数据集x_n×m中对应变量数据的k个均值对图1中变量v₁进行重构，计算公式如式(19)所示

(ⅱ)k-1NN重构方法

k-NN重构过程中，当d₁和d₂满足d₁/d₂<0.3时，选取k-1NN重构法对变量进行重构，否则，采用均值k-NN重构法。k-1NN重构方法具体形式如下

(ⅲ)加权k-NN重构方法

使用加权重构方法时，首先要根据式(21)计算权值参数w，进一步根据式(22)重构异常变量

其中，

表示x'_f在x'_n×(m-1)中第i个近邻标签下的样本的第1个变量值；

(ⅳ)CNN重构方法

进行CNN重构时，首先要根据式(23)确定k值，并比较f(k)与d₁的大小，当x'_f与其第一近邻之间的距离d₁很小，且满足式(24)时，重构方法等价于k-1NN方法，这是因为该点的实际位置处于数据点边缘；否则，确定k值后根据式(19)重构变量v₁。

接下来对四种不同的数据重构方法进行简要的分析与比较，并从数据的几何分布角度解释各种方法的不同之处以及在重构精度方面的差异。

假设原始数据与需要重构数据的分布情况如图2所示，明显可以看出对于A，B，C和D四个需要重构的样本点来说，当k取值不同时，重构效果会有较大的差别。当使用均值k-NN方法重构时，对于点A，k＝2或k＝3比较合理，因为点A的最相似近邻为3个，其它取值时，误差较大；对于B点，从其近邻样本点分析可知，样本点分布散乱，均值k-NN方法并不适用，并且该点仅和其第一近邻距离最近，与其它样本的距离较远，此时采用k-1NN重构法时精度较高；对于C和D点，可以采用均值k-NN重构方法，但k的取值相对宽松，这也是一个仁者见仁智者见智的问题，不同k值重构结果的精度也会有差别；当选择加权k-NN重构方法时，重构精度会比较理想，但是仍然需要根据经验确定k的大小；而在选择CNN重构方法时，通过计算确定的精确k值可以保证重构结果比较理想并且具有自适应性。

对于实际生产过程中的数据，上述数据分布情况十分常见，因此在对数据进行重构时，k的大小具体取多少或选取何种重构算法，成为一个值得思考的问题，盲目的使用固定的k值，会对数据的重构精度产生影响。显然均值k-NN方法机械地使用某个统一的k值对所有数据进行重构是不合适的，这一问题在CNN方法中已经得到解决；而k-1NN方法仅局限于第一近邻相对于其它近邻很近时才适用，具有一定的局限性；加权k-NN方法虽说有较高的重构精度，但仍然避免不了k值的模糊选取；对于CNN重构方法，由于k为一个比较合理的自适应计算结果，保证了在图2中A，B，C和D数据点的重构效果会明显优于其它方法。

接下来介绍异常变量的“二次”识别方法，并假设该过程仅有两个变量v₁和v₂发生异常：

(1)采用CNN方法重构故障样本中的异常变量v₁和v₂，变量v₁和v₂重构后可表示为v_1c和v_2c，此时原故障样本可以被重新描述为x_fc，如图3所示；

(2)对于x_fc，寻找其在建模阶段训练数据中的前k个最近邻，并根据式(2)计算该样本点与其近邻的平方距离D²(x_fc)；

(3)比较距离指标D²(x_fc)和控制阈值δ_Limit，判断此时该样本的统计指标是否恢复到正常统计范围之内。当距离指标已经处于正常状态时，识别过程结束，异常变量仅为v₁和v₂；否则，将此样本转入变量贡献分析并进行故障样本的“二次”异常变量识别，直至重构后的样本处于正常状态。

本发明针对过程中存在故障时异常变量的精确识别以及如何准确建立“故障-征兆”表的问题，研究了一种基于k-NN变量贡献分析和数据重构的异常变量精确定位方法。首先，该方法将k-NN算法中各个采样时刻的统计距离指标细化，分解为每个变量的贡献并对其进行详细分析，分别从单变量和多变量异常角度进行了方法的可行性验证，确定过程故障时异常变量具有较大的贡献值；其次，建立正常数据中每个变量的贡献模型用于对故障样本中的异常变量进行“一次”识别；随后，分别对四种基于k-NN理论的数据重构方法进行了研究，包括均值k-NN、k-1NN、加权k-NN和CNN方法，并从重构原理及精度方面进行了分析，验证了CNN方法在数据重构方面具有一定的优势。对于故障样本，先根据变量贡献分析方法求取每个变量对距离指标的贡献，“一次”识别出故障发生时所对应的异常变量或征兆；进而通过CNN数据重构方法对故障样本中异常变量值进行重构、检测和“二次”识别，直至辨识出所有发生异常的变量；该方法进一步保证了辨识到的异常变量准确无误，并得到故障与变量之间的关系，即“故障-征兆”表。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明范围的限定。

图1是本发明提供的一种变量结构细节图；

图2是本发明提供的一种数据分布图；

图3是本发明提供的一种基于k-NN变量贡献分析与数据重构的异常变量精确识别与定位过程流程图；

图4是本发明提供的一种异常变量精确识别与定位方法的方法流程图；

图5是本发明实施例1提供的一种重构后数据与原始数据的比较图；

图6是本发明实施例1提供的一种重构后数据与原始数据的误差比较图；

图7是本发明实施例1提供的一种测试数据的故障检测结果图；

图8是本发明实施例1提供的一种变量贡献分析结果图；

图9是本发明实施例1提供的一种测试数据重构变量x1，x2和x7后的故障检测结果图；

图10是本发明实施例1提供的一种变量贡献图，其中图(a)为变量贡献分析方法，图(b)为PCA-SPE贡献图方法，图(c)为RBC方法；

图11是本发明实施例2提供的一种连续搅拌釜反应系统原理图；

图12是本发明实施例2提供的一种故障2的检测结果图；

图13是本发明实施例2提供的一种变量贡献分析图；

图14是本发明实施例2提供的一种变量贡献图，其中图(a)为161时刻，图(b)为所有时刻；

图15是本发明实施例2提供的一种故障2重构变量2，5和10后的检测结果图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的条件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请一并参考图5-图10。

本发明实施例提供了数值仿真用于验证发明的有效性与可行性。首先通过一个七变量数值仿真分别采用均值k-NN、k-1NN、加权k-NN和CNN方法重构变量后的精度进行比较。

本发明实施例中，所述数值仿真由两个潜隐变量s_a和s_b构造的七变量组成，如式(25)所示：

式中，e₁～e₇是均值为零，标准差为0.01的噪声，s_a是从-10到-7之间的随机数s_b服从正态分布且N(-15,1)。根据式(25)共产生500个训练样本和500个待验证样本。为了对四种重构算法的精度进行比较，仿真时假设待验证样本集中从151时刻到200时刻x₁数据缺失,并分别利用四种k-NN重构方法对缺失数据进行重构，其中，均值k-NN和加权k-NN方法的近邻参数k设置为3。

图5分别给出了x₁的实际值与几种方法的重构值，可以看出四种方法均能够取得良好的重构效果，为了能够定量地比较几种方法的重构精度，本发明实施例采用式(26)中的均方根误差(Root-mean-square Error,RMSE)作为衡量指标进行了计算

式中，x_i1为经过标准化后的原始数值，

为151-200时刻缺失数据的重构值重，N为需重构的样本个数。经统计得到，50个缺失数值的平均误差分别为0.049(均值k-NN)、0.051(k-1NN)、0.041(加权k-NN)和0.02(CNN)。图6也分别给出了使用四种方法重构后数据与原始数据之间的误差曲线，其中，基于CNN重构方法的重构误差，这里单独标记出来，其波动范围在上下0.08之间，明显小于其它三种方法，表明CNN方法在数据重构方面具有较高的精度。

随后，为了验证基于变量贡献分析和数据重构方法在异常变量识别方面的有效性，根据式(25)产生了500个待测试样本，故障添加方式如下：

(1)x₁从101-150时刻添加8％的阶跃故障；

(2)x₂从401-450时刻添加10％的阶跃故障；

(3)x₇从401-450时刻添加5％的阶跃故障。

图7给出了测试数据的k-NN故障检测结果，从图中可以明显看出分别在101-150和401-450时间段内控制指标超出了控制阈值范围，即此时段系统中存在故障，且与预设故障时间一致。

本发明实施例中，在检测到过程中存在故障后，需要进一步识别过程中的异常变量。首先，根据正常数据中每个变量对控制指标的贡献值计算其控制阈值；其次，计算测试数据中每个时刻的变量贡献值，并与正常过程中各变量的控制阈值比较，结果如图8所示。从图8(a)中可以看出，x₁的贡献指标在101-150时刻超出控制阈值，即在这段时间内x₁异常；x₂和x₇均在401-450时间段超限(图8(b)和(g))，即该段时间内异常变量为x₂和x₇，此时，异常变量的“一次”识别过程结束。随后，需要对得到的异常变量进行重构并检测重构后样本是否回复正常状态，图9给出了使用CNN方法将101-150时间段变量x₁，401-450时间段变量x₂和x₇重构之后的k-NN故障检测结果，可以看到此时所有时刻的距离指标均处于控制阈值之内，过程中已经没有故障，异常变量的“二次”识别过程结束。为了能够将本发明与传统方法进行比较，图10分别给出了三种不同方法的异常变量识别结果，图10(a)为本发明的异常变量识别结果，图10(b)和图10(c)分别为基于PCA-SPE的贡献图和基于重构贡献(RBC)方法的识别结果，图中颜色越深，表示变量贡献值越大，可以看到后两种方法虽然在故障发生时间段均能够显示异常变量贡献值较大，但并不能避免因PCA数据变换而造成的扩散效应，相比之下，图10(a)效果更优，变量之间的扩散效应明显消除，验证了本发明的有效性。表1记录了该例的“故障-征兆”关系，精确地显示了不同时间段内过程中发生异常的变量。

表1.异常变量识别结果

实施例2

请一并参考图11-图15。

本发明实施例中，通过连续搅拌反应器(Continuous Stirred Tank Reactor，CSTR)系统对提出的异常变量精确识别方法的有效性进行了验证。

CSTR是聚合化学反应中广泛使用的一种反应器，其中反应原料以稳定的流速进入反应器，反应物以同样地稳定速率流出。由于强烈搅拌的作用，使刚刚进入反应器的新鲜物料与存留在反应器中的物料瞬间达到完全混合，反应器内部的物料浓度和温度处处相等，连续搅拌釜式反应器中的反应速率即由釜内物料的温度和浓度决定，系统的原理如图11所示。反应器的液位和温度采用串级控制。基于质量、能量和物料平衡的系统动态方程如式(27)-式(30)所示。

其中，A是反应器的横截面积，C_a是反应器中反应物A的浓度，C_af是原料流中反应物A的浓度，C_p是的热容量，C_pc是冷却剂的热容量，E是活化能，h是反应器的液位，k₀是指数因子，Q_f是进入反应器的原料流率，Q_o是出口流量，Q_c是冷却剂流率，R是通用的气体常数，T是反应器中混合物温度，T_c是冷却夹套中冷却剂的温度，T_cf是冷却剂进料温度，T_f是原料流的温度，U是热转移系数，A_c是总的传热面积，ΔH是反应热，ρ是反应器中混合物的密度，ρ_C是冷却剂的密度。

CSTR系统的化学反应通常受到物料浓度和温度的限制，实际生产过程中催化剂活性的降低、进料温度的变化、进料浓度的变化、热交换器的结垢、传感器故障等都可能影响到产品的质量。因此，为了模拟并检测工业过程中的实际故障，采集正常条件下和故障条件下的数据，表2也分别设置了7种不同的过程故障，包括阶跃和斜坡两种类型。本发明实施例选择过程中的10个变量用于仿真和算法验证，变量描述见表3。

表2 CSTR系统的故障描述

表3 CSTR过程监控变量

首先，使用k-NN故障检测方法对CSTR系统中的故障2数据进行检测，从图12给出的结果可以看出，故障引入时间为110时刻，与故障添加时间存在大概10个采样时间的滞后，这是由于该系统中故障2为斜坡型故障，故障刚引入时系统中变量仅发生了微小的变化，此时统计指标的改变程度很小，难于检测到故障的存在；其次，根据正常样本集的变量贡献分析方法确定正常过程中每个变量的贡献阈值，并与故障时间各变量的贡献指标比较，得到如图14所示的变量贡献分析结果。从图13中可以看到，变量2(原料流的温度T_f)，变量5(冷却剂的温度T_c)和变量10(冷却剂流率Q_c)的贡献跟随故障情况发生变化，即故障2发生后产生的征兆为变量为2，5和10异常；再次，图14(a)给出了161时刻各变量贡献值与贡献控制限，“·”表示各个变量的贡献控制阈值，可以看出此时过程中仅有变量2，5和10超限；图14(b)给出了所有时间段内各个变量的全局贡献图，可以看到在故障引入初期，仅变量2贡献突出，随后变量5和10逐渐发生变化；最后，为了验证异常变量识别结果的准确性，使用CNN数据重构方法依次将变量2，5和10在101-200时间段的数据重构，并重新进行k-NN故障检测，从检测结果可以看到此时距离统计指标均处于控制阈值之内，如图15所示，异常变量识别过程结束。表4记录了CSTR系统中故障2的异常变量精确识别结果，即“故障-征兆”表，其中“0”表示变量正常，“1”为异常变量。

表4故障2的异常变量识别结果

通过对CSTR系统工艺流程分析可以得到，在故障2引入初期(110-115时刻)，过程中仅有变量2发生异常，与表2中描述相符，后期由于进料温度的斜坡上升导致反应器温度升高，为了控制反应器内温度达到目标值，需要调整变量5冷却剂温度T_c和变量10冷却剂流率Q_c，因此，在后期时段中的异常征兆为变量为2，5和10。可以得到：本发明实施例方法可以精确辨识过程中每种故障与其对应时刻和变量之间的关系，即“故障-征兆”表，并且与故障设置情况相符。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种异常变量精确识别与定位方法，其特征在于，包括：

根据训练数据集通过k最近邻方法建立模型，计算近邻平方距离，确定模型的正常控制阈值；

根据实时数据计算所述实时数据的近邻平方距离，比较所述正常控制阈值与所述实时数据的近邻平方距离以进行故障检测，所述实时数据的近邻平方距离大于所述正常控制阈值，则所述实时数据样本为故障样本；

将故障样本的近邻平方距离分解为对应的变量贡献值，并计算所述训练数据集中的变量贡献控制阈值，比较所述变量贡献值与所述变量贡献控制阈值以进行异常变量“一次”识别，所述变量贡献值大于所述变量贡献控制阈值，则所述变量为异常变量；

将识别出的异常变量重构并替换所述异常变量在所述故障样本中的位置得到新样本数据，通过k最近邻方法建立模型得出重构后的近邻平方距离，并与所述正常控制阈值比较以进行异常变量“二次”识别，所述重构后的近邻平方距离大于所述正常控制阈值，则所述新样本数据仍存在故障，则回到异常变量“一次”识别步骤继续进行异常变量识别，直至不再出现异常变量；

其中，将训练数据集中的距离统计量分解为变量贡献累加和，通过核密度估计方法中的高斯核函数法估算样本中的所述变量贡献控制阈值；

所述故障样本中的异常变量重构的方法包括中心最近邻重构方法，其中，所述中心最近邻重构方法包括：

构造出由所述故障样本中去除所述异常变量后组成的新样本集，进而筛选出新样本在新样本集中的前k个最近邻样本，通过所述新样本在所述新样本集中对应新样本数据的k个均值的差方计算确定k值，所述新样本与其第一近邻样本距离小于所述新样本与其前k个最近邻距离平均值的差方时，用所述新样本集中第一近邻样本对应变量数据对所述异常变量进行重构，否则，用所述新样本集中距离最近的前k个对应变量数据的均值对所述异常变量进行重构；

所述k的值通过以下计算公式确定：

其中，x′_f表示所述故障样本去掉所述异常变量后由剩余变量组成的样本；n'_l(x'_f)表示所述x'_f在n×(m-1)个所述剩余变量中的第l个邻近样本的标签，n和m为所述训练数据集的维度，其中l＝1，2，…，k。

2.根据权利要求1所述的异常变量精确识别与定位方法，其特征在于，所述训练数据集直接利用正常工作条件下的过程数据。

3.根据权利要求1所述的异常变量精确识别与定位方法，其特征在于，所述k最近邻方法的建模过程包括：

标准化所述训练数据集，将其转化为零均值，单位标准差的矩阵；

计算所述训练数据集中任意样本与其他样本之间的欧氏距离，并对其排序，找到每个样本的前k个最近邻样本；

计算每个正常样本与其k个近邻的近邻平方距离之和作为距离统计量；

对得到的距离统计量进行估算，确定所述正常控制阈值进而对所述实时数据进行检测。

4.根据权利要求3所述的异常变量精确识别与定位方法，其特征在于，所述距离统计量的估算得到所述正常控制阈值的方法为核密度估计方法中的高斯核函数法。

5.根据权利要求1所述的异常变量精确识别与定位方法，其特征在于，样本数据的第l个变量对距离统计指标的变量贡献值等于该样本与其前k个最近邻第l个分量的平方距离之和。

6.一种计算机设备，其特征在于，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述异常变量精确识别与定位方法终端执行根据权利要求1至5中任一项所述的异常变量精确识别与定位方法。

7.一种计算机可读存储介质，其特征在于，其存储有权利要求6所述的计算机程序。