CN112184034B

CN112184034B - 基于互信息的多块k近邻故障监测方法及系统

Info

Publication number: CN112184034B
Application number: CN202011060648.XA
Authority: CN
Inventors: 熊伟丽; 郑静
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2024-04-09
Anticipated expiration: 2040-09-30
Also published as: CN112184034A

Abstract

本发明提供基于互信息的多块k近邻故障监测方法及系统，方法包括：获取原始正常工况样本数据集A₀及待测样本数据集x，对A₀进行标准化处理得到原始正常工况标准样本数据集及对x进行标准化处理得到待测标准样本数据集x^*；根中样本的两变量的互信息对中的变量进行分块，及根据x^*中的样本的两变量的互信息对x^*中的变量进行分块；求取各子块的控制限，及求取x^*的各子块的统计量；根据贝叶斯推断，将各子块的控制限及x^*的各子块的统计量融合为统计量，并根据统计量与的各子块的控制限的关系确定x^*是否发生故障；若发生故障，则根据x^*中的样本的变量与变量均值的马氏距离确定故障子块及故障样本。本方法可准确快速地监测出待测样本数据集是否发生故障、故障子块及故障样本。

Description

基于互信息的多块k近邻故障监测方法及系统

技术领域

本发明涉及复杂工业过程建模和故障诊断领域,尤其涉及一种基于多块信息提取和马氏距离的故障监测方法及系统。

背景技术

随着新型传感器、数据采集设备和系统的高速发展，一些先进化工工业过程积累了丰富的过程数据，使得多元统计过程监控技术不断进步。其中作为基础的主成分分析和k近邻方法得到了大量的研究和应用。作为一种降维技术，PCA监测方法通过将数据投影到低维空间以有效地处理高维和线性相关的数据，通过建立主元子空间和残差子空间的统计量进行过程监控。但是，对于具有非线性和非高斯特性的过程数据，PCA方法可能无法进行有效的监测。

基于该问题，本领域技术人员也进行了一系列的研究，也陆陆续续尝试各种基于kNN原理的故障监测方法，然而故障监测结果均不理想，要么计算量比较大从而使得效率低，要么就是故障监测效果的误报率高。

基于上述问题，如何同时保障故障监测的效率及监测结果成为本领域技术人员面临的一大难题。

发明内容

针对传统kNN故障监测的效率及监测结果等问题，本发明实施例提出一种基于互信息的多块k近邻故障监测方法。

第一方面，本发明实施例提供一种基于互信息的多块k近邻故障监测方法，用于对化工-TE过程中的故障进行监测，包括：

步骤S10、获取原始正常工况样本数据集A₀及待测样本数据集x，对所述原始正常工况样本数据集A₀进行标准化处理得到原始正常工况标准样本数据集及对待测样本数据集x进行标准化处理得到待测标准样本数据集x^*；

步骤S12、根据原始正常工况标准样本数据集中样本的两变量的互信息对所述原始正常工况标准样本数据集/>中的变量进行分块，及根据待测标准样本数据集x^*中的样本的两变量的互信息对待测标准样本数据集x^*中的变量进行分块；

步骤S14、求取原始正常工况标准样本数据集各子块的控制限，及求取待测标准样本数据集x^*的各子块的统计量；

步骤S16、根据贝叶斯推断，将原始正常工况标准样本数据集各子块的控制限及待测标准样本数据集x^*的各子块的统计量融合为/>统计量，并根据/>统计量与原始正常工况标准样本数据集/>的各子块的控制限的关系确定待测标准样本数据集x^*是否发生故障；

步骤S18、若发生故障，则根据待测标准样本数据集x^*中的样本的变量与变量均值的马氏距离确定故障子块及故障样本。

在一个实施例中，所述对所述原始正常工况样本数据集A₀进行标准化处理得到原始正常工况标准样本数据集采用的第一数学模型为：

其中，a表示原始正常工况样本数据集A₀∈R^m×n中的一个样本，a^*表示样本a经过标准化后处理后得到的原始正常工况标准样本数据集A₀∈R^m×n中对应的样本，mean(A₀)表示原始正常工况样本数据集A₀按行求均值得到的均值向量，std(A₀)表示原始正常工况样本数据集A₀按行求标准差得到的标准差向量，n代表原始正常工况样本数据集A₀中的样本个数，m代表原始正常工况样本数据集A₀中样本的变量个数；原始正常工况样本数据集X₀为矩阵。

在一个实施例中，所述根据原始正常工况标准样本数据集中样本的两变量的互信息对所述原始正常工况标准样本数据集/>中的变量进行分块，包括：

计算原始正常工况标准样本数据集中样本的两变量的互信息；采用的第二数学模型为：

根据两变量的互信息对原始正常工况标准样本数据集中样本的变量进行分块，包括：

若样本的变量x_j与变量x_i的互信息与该两变量的互信息的中值满足预设大小关系，则将变量x_j与变量x_i放到同一个子块中；

其中，p(x_i,x_j)为变量x_i与变量x_j的联合概率分布，而p(x_i)、p(x_j)分别为变量x_i与变量x_j的边缘概率分布。

在一个实施例中，所述分别求取原始正常工况标准样本数据集各子块及待测标准样本数据集x^*各子块的统计量，并求取原始正常工况标准样本数据集/>各子块的控制限，包括：

求取原始正常工况标准样本数据集中样本a_m的前k个近邻，采用的数学模型为：

计算样本a_m的统计量，采用的第三数学模型为：

其中，表示样本a_m与它的第n个近邻样本的欧氏平方距离；

根据样本a_m的统计量确定原始正常工况标准样本数据集的控制限/>

在一个实施例中，所述根据统计量与原始正常工况标准样本数据集/>各子块的控制限的关系确定待测标准样本数据集x^*是否发生故障，包括：

若待测标准样本数据集x^*的统计量大于等于原始正常工况标准样本数据集的控制限/>则确定待测样本数据集x^*发生故障。

在一个实施例中，所述将原始正常工况标准样本数据集各子块的控制限及待测标准样本数据集x^*的各子块的统计量融合为/>统计量，包括：

求取待测标准样本数据集x^*的样本x_test在原始正常工况标准样本数据集的第b个子块中的条件概率/>及条件概率/>采用的第四数学模型分别为：

确定待测标准样本数据集x^*的样本x_test在第b个子块中的D²统计量及故障条件概率/>采用的第五数学模型为：

根据所述条件概率条件概率/>第b个子块中的D²统计量及故障条件概率/>确定/>统计量；采用的第六数学模型为：

其中，为正常样本的先验概率，α为置信度，则/>为1-α；/>为待测样本在第b个子块中的统计量；/>为第b个子块中由核密度估计方法估算得出的统计量的控制限。

在一个实施例中，所述方法，还包括：

确定对故障影响最大的变量。

在一个实施例中，所述确定对故障影响最大的变量，包括：

计算样本中各变量与其均值的马氏距离；采用的第七数学模型为：

其中，a_i(j)表示变量x_i的第j个样本点，表示变量x_i的均值，/>表示变量x_i的方差。

第二方面，根据本发明实施例提供一种基于互信息的多块k近邻故障监测系统，用于对化工-TE过程中的故障进行监测，所述系统包括：

获取模块，用于获取原始正常工况样本数据集A₀及待测样本数据集x，对所述原始正常工况样本数据集A₀进行标准化处理得到原始正常工况标准样本数据集及对待测样本数据集x进行标准化处理得到待测标准样本数据集x^*；

拆分模块，用于根据原始正常工况标准样本数据集中样本的两变量的互信息对所述原始正常工况标准样本数据集/>中的变量进行分块，及根据待测标准样本数据集x^*中的样本的两变量的互信息对待测标准样本数据集x^*中的变量进行分块；

控制限求取模块，用于求取原始正常工况标准样本数据集各子块的控制限，及求取待测标准样本数据集x^*的各子块的统计量；

故障判断模块，根据贝叶斯推断，将原始正常工况标准样本数据集各子块的控制限及待测标准样本数据集x^*的各子块的统计量融合为/>统计量，并根据/>统计量与原始正常工况标准样本数据集/>的各子块的控制限的关系确定待测标准样本数据集x^*是否发生故障；

故障点确定模块，用于若发生故障，则根据待测标准样本数据集x^*中的样本的变量与变量均值的马氏距离确定故障子块及故障样本。

本发明实施例提供的基于互信息的多块k近邻故障监测方法及系统，在对原始正常工况样本数据集A₀标准化之后，对得到的原始正常工况标准样本数据集中的变量的互信息及互信息的中值对变量进行分块，并求取各子块的控制限；对于待测样本数据集，同样对其进行标准化处理及分块，并求取各子块的统计量；最后根据原始正常工况标准样本数据集/>各子块的控制限及待测标准样本数据集x^*的各子块的统计量融合为/>统计量，并根据/>统计量与控制限的贡献确定待测样本数据集是否发生故障及故障子块、样本。本方法，对于化工-TE过程的故障监测，可以准确快速的监测出待测样本数据集是否发生故障、故障子块及故障样本。有效保证了化工-TE过程的故障监测效率。

附图说明

图1为本发明实施例提供的基于互信息的多块k近邻故障监测方法的流程图；

图2a为变量18与其他变量的互信息的示意图；

图2b为变量19与其他变量的互信息的示意图；

图2c为变量31与其他变量的互信息的示意图；

图2d为变量10与其他变量的互信息的示意图；

图2e为变量17与其他变量的互信息的示意图；

图2f为变量28与其他变量的互信息的示意图；

图2g为变量33与其他变量的互信息的示意图；

图3a为采用PCA方法对故障5的监测结果图；

图3b为采用kNN方法对故障5的监测结果图；

图3c为采用本发明的MI-MBKNN方法时子块4对故障5的监测结果图；

图3d为采用本发明的MI-MBKNN方法对故障5的监测结果图；

图4a为采用kNN方法对第161样本点故障5的故障诊断结果示意图；

图4b为采用本发明的MI-MBkNN方法对第161样本点故障5的故障诊断结果示意图；

图5a为采用kNN方法对第400样本点故障5的故障诊断结果示意图；

图5b为采用本发明的MI-MBkNN方法对第400样本点故障5的故障诊断结果示意图；

图6a为采用PCA方法对故障10的监测结果图；

图6b为采用kNN方法对故障10的监测结果图；

图6c为采用本发明的MI-MBKNN方法时子块4对故障10的监测结果图；

图6d为采用本发明的MI-MBKNN方法对故障10的监测结果图；

图7a为采用kNN方法对第400样本点故障10的故障诊断结果示意图；

图7b为采用本发明的MI-MBkNN方法对第400样本点故障10的故障诊断结果示意图；

图8a为高炉过程变量1曲线图；

图8b为高炉过程变量2曲线图；

图8c为高炉过程变量3曲线图；

图8d为高炉过程变量4曲线图；

图8e为高炉过程变量5曲线图；

图8f为高炉过程变量6曲线图；

图8g为高炉过程变量7曲线图；

图8h为高炉过程变量8曲线图；

图9a为高炉过程子块1故障监测图；

图9b为高炉过程子块2故障监测图；

图10a为采用kNN方法对高炉过程故障诊断结果图；

图10b为采用本发明的MI-MBkNN方法对高炉过程故障诊断结果图；

图11为本发明实施例提供的基于互信息的多块k近邻故障监测系统的模块图。

具体实施方式

本发明实施例公开一种基于互信息的多块k近邻故障监测方法及系统，用于对TE过程中的故障进行监测，参见图1所示，基于互信息的多块k近邻故障监测方法，包括如下步骤：

若样本的变量x_j与变量x_i的互信息与该两变量的互信息的中值满足预设大小关系，则将变量x_j与变量x_i放到同一个子块中；如，当变量x_j与变量x_i的互信息大于该两变量的互信息的中值的1.3倍时，则将变量x_j与变量x_i划分至同一个子块。

计算样本a_m的统计量，采用的第三数学模型为：

其中，表示样本a_m与它的第n个近邻样本的欧氏平方距离；

确定待测标准样本数据集x^*的样本x_test在原始正常工况标准数据集的第b个子块中的D²统计量/>及故障条件概率/>采用的第五数学模型为：

在此指出，对于待测标准样本数据集x^*，在进行故障监测时，计算待测标准样本数据集x^*中的每一个待测样本在原始正常工况标准数据集的每个子块中的条件概率条件概率/>统计量/>及故障条件概率/>然后，再将原始正常工况标准数据集/>的每个子块的条件概率/>条件概率D²统计量/>及故障条件概率/>进行融合，从而求取/>统计量。

在一个实施例中，所述方法，还包括：

确定对故障影响最大的变量。

在一个实施例中，所述确定对故障影响最大的变量，包括：

如下，列举一个具体实施例进行阐述：

以常见的化工过程-TE过程与实际高炉炼铁数据为例。对TE过程21种故障和实际高炉炼铁进行了监测。TE过程是TenesseeEastman化学公司基于某实际化工生产过程提出的一个仿真系统，在过程系统工程领域的研究中，TE过程是一个常用的标准问题(Benchmark problem)，其较好的模拟了实际复杂工业过程系统的许多典型特征，因此被作为仿真例子广泛应用于控制、优化、过程监控与故障诊断的研究中。TE过程主要有反应器、冷凝器、压缩机、分离器和汽提塔五个主要单元组成。该过程包含22个过程测量变量、19个成分测量变量以及12个操作变量。本发明实施例选取22个过程测量变量以及除搅拌速度外的11个操作变量用于建模与监测。TE过程共包含21种故障，本专利采集正常工况下的960个样本作为训练数据集，各种故障工况时的960个样本用作故障测试集，其中故障均从第161个样本点处加入，但由于累计信息会丢失前T个样本(仿真中T取5)，故后续故障监测图中实际故障发生点都位于第156个样本处。首先，获取正常工况下的960*33个变量(960个样本，每个样本包含33个变量)作为原始正常工况样本数据集A₀，并采用第一数学模型进行标准化处理得到原始正常工况标准样本数据集

然后，采用第二数学模型计算原始正常工况标准样本数据集中两变量之间的互信息，并根据两变量的互信息与互信息的中值的大小关系对原始正常工况标准样本数据集中的变量进行分块。原始正常工况标准样本数据集/>的部分变量中两两变量间的互信息参见图2a-图2g所示，基于图2a-图2g中的变量18、变量19、变量31、变量10、变量17、变量28及变量33与其他变量间的互信息及互信息的中值的大小关系将变量进行分块，将图2a-图2g中的变量分至子块4及子块5中。

以化工-TE过程的一个具体故障-故障5为例，参见图3a-图3d所示，图3a-图3d中实线为故障5的控制限，若设置置信度为α，则控制限为1-α；图3a-图3d中的曲线为各样本的统计量，由每个子块的D²统计量通过上述公式融合得到，从图3a-图3d中可以看出，本发明实施例的MI-MBkNN对故障的监测效果要远优于kNN、PCA的监测效果。从图3a-图3c可以看出，在故障开始时已经监测出故障，但在大约350个样本的时候，出现统计量低于控制限的情况，导致故障的漏报。由于该故障是局部故障，因此很难在全局模型中监测到。

参见图4a和图4b所示，在对化工-TE过程的故障5的变量识别过程中，图4a展示出的GkNN方法模型与图4b中展示出的MI-MBkNN方法模型均能正确识别变量在过程中的变化，如变量22的变化(分离器冷却水出口温度的变化)、变量9的变化(反应器温度变化)、变量11的变化(产品分离器温度变化)和变量32的变化(反应器冷却水流量变化)。然而，参照图5a和图5b所示，可以看出，在第350个样本点后(如第400个样本点)，图5a所示的GkNN方法模型无法识别出变量33变化(冷凝器冷却水流量的变化)，而图5b所示的MI-MBkNN模型可以成功识别，因此MI-MBkNN对故障5表现出了优越的监测效果。

而在对化工-TE过程的故障10的检测过程中，参见图6a-图6d所示。图6a，图6b分别为采用PCA和kNN方法对故障10的监测结果图，图6c是采用MI-MBkNN方法子块4对故障10的监测结果图，图6d为采用MI-MBkNN对故障10的监测结果图；从图6a-图6d中可以看出，第350到650个样本之间，传统的监测方法很难监测到故障，而MI-MBkNN方法却能轻易监测出来。而对于故障的原因，分别采用图7a所示的GkNN和图7b所示的MI-MBkNN方法求取数据样本在第400个样本点处的各变量与其均值中心的马氏距离，参见图8a-图8d所示，可以发现采用MI-MBkNN方法可在寻找故障源变量方面提供更重要的指导，即变量18(汽提塔温度)、变量19(汽提塔蒸汽流量)、变量31(汽提塔蒸汽阀的变量)是引起故障10的原因，因此本发明针对子块4的监测效果明显优于其他子块。通过贝叶斯融合后，使得整体的监测效果得到了很高的提升。因此采用本发明提出的方法对故障10的监测效果明显优于传统的其他监测方法。针对高炉过程中子块1和子块2的监测性能比较参见图9a及图9b所示，可以看出，图9b展示的子块2在第2200个样本点后可以达到持续报警，其监测效果明显好于图9a展示的子块1。结合图10a给出的采用GkNN方法的故障诊断结果及图10b给出的采用MI-MBkNN方法的故障诊断结果，可以看出变量4和变量8是引起故障的主要原因，由于本发明实施例所提的方法对变量进行了合理分块，把结构相似且对故障最为敏感的变量放在同一个子块中，使得整体的监测性能得到了提升，再次验证本发明所提方法的有效性和优越性。

本发明实施例提供的方法，在对原始正常工况样本数据集A₀标准化之后，对得到的原始正常工况标准样本数据集中的变量的互信息及互信息的中值对变量进行分块，并求取各子块的控制限；对于待测样本数据集，同样对其进行标准化处理及分块，并求取各子块的统计量；最后根据原始正常工况标准样本数据集/>各子块的控制限及待测标准样本数据集x^*的各子块的统计量融合为/>统计量，并根据/>统计量与控制限的贡献确定待测样本数据集是否发生故障及故障子块、样本。本方法，对于化工-TE过程的故障监测，可以准确快速的监测出待测样本数据集是否发生故障、故障子块及故障样本。有效保证了化工-TE过程的故障监测效率。

第二方面，根据本发明实施例提供的基于互信息的多块k近邻故障监测系统，用于对化工-TE过程中的故障进行监测，参见图11所示，所述系统包括：

获取模块111，用于获取原始正常工况样本数据集A₀及待测样本数据集x，对所述原始正常工况样本数据集A₀进行标准化处理得到原始正常工况标准样本数据集及对待测样本数据集x进行标准化处理得到待测标准样本数据集x^*；

拆分模块112，用于根据原始正常工况标准样本数据集中样本的两变量的互信息对所述原始正常工况标准样本数据集/>中的变量进行分块，及根据待测标准样本数据集x^*中的样本的两变量的互信息对待测标准样本数据集x^*中的变量进行分块；

控制限求取模块113，用于求取原始正常工况标准样本数据集各子块的控制限，及求取待测标准样本数据集x^*的各子块的统计量；

故障判断模块114，根据贝叶斯推断，将原始正常工况标准样本数据集各子块的控制限及待测标准样本数据集x^*的各子块的统计量融合为/>统计量，并根据/>统计量与原始正常工况标准样本数据集/>的各子块的控制限的关系确定待测标准样本数据集x^*是否发生故障；

故障点确定模块115，用于若发生故障，则根据待测标准样本数据集x^*中的样本的变量与变量均值的马氏距离确定故障子块及故障样本。

本发明实施例提供的系统，获取模块111在对原始正常工况样本数据集A₀标准化之后，拆分模块112对得到的原始正常工况标准样本数据集中的变量的互信息及互信息的中值对变量进行分块，并求取各子块的控制限；对于待测样本数据集，同样对其进行标准化处理及分块，并求取各子块的统计量；最后故障判断模块114根据原始正常工况标准样本数据集/>各子块的控制限及待测标准样本数据集x^*的各子块的统计量融合为/>统计量，并根据/>统计量与控制限的贡献确定待测样本数据集是否发生故障及故障子块、样本。本系统，对于化工-TE过程的故障监测，可以准确快速的监测出待测样本数据集是否发生故障、故障子块及故障样本。有效保证了化工-TE过程的故障监测效率。

在此指出，本实施例为前述方法实施例对应的装置实施例，对于方法实施例中阐述的内容在本系统实施例中同样适用，为了避免重复，在此不予赘述。还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅以一较佳实施例对本发明的技术方案进行介绍，但是对于本领域的一般技术人员，依据本发明实施例的思想，应能在具体实施方式上及应用范围上进行改变，故而，综上所述，本说明书内容部不应该理解为本发明的限制，凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.基于互信息的多块k近邻故障监测方法，用于对化工-TE过程中的故障进行监测，其特征在于，包括：

步骤S18、若发生故障，则根据待测标准样本数据集x^*中的样本的变量与变量均值的马氏距离确定故障子块及故障样本；

所述根据原始正常工况标准样本数据集中样本的两变量的互信息对所述原始正常工况标准样本数据集/>中的变量进行分块，包括：

其中，p(x_i,x_j)为变量x_i与变量x_j的联合概率分布，而p(x_i)、p(x_j)分别为变量x_i与变量x_j的边缘概率分布；

所述将原始正常工况标准样本数据集各子块的控制限及待测标准样本数据集x^*的各子块的统计量融合为/>统计量，包括：

根据所述条件概率条件概率/>第b个子块中的D²统计量/>及故障条件概率/>确定/>统计量；采用的第六数学模型为：

2.根据权利要求1所述的方法，其特征在于，所述对所述原始正常工况样本数据集A₀进行标准化处理得到原始正常工况标准样本数据集采用的第一数学模型为：

3.根据权利要求1所述的方法，其特征在于，所述分别求取原始正常工况标准样本数据集各子块及待测标准样本数据集x^*各子块的统计量，并求取原始正常工况标准样本数据集/>各子块的控制限，包括：

计算样本a_m的统计量，采用的第三数学模型为：

其中，表示样本a_m与它的第n个近邻样本的欧氏平方距离；

4.根据权利要求3所述的方法，其特征在于，所述根据统计量与原始正常工况标准样本数据集/>各子块的控制限的关系确定待测标准样本数据集x^*是否发生故障，包括：

若待测标准样本数据集x^*的统计量大于等于原始正常工况标准样本数据集/>的控制限/>则确定待测样本数据集x^*发生故障。

5.根据权利要求1所述的方法，其特征在于，所述方法，还包括：

确定对故障影响最大的变量。

6.根据权利要求5所述的方法，其特征在于，所述确定对故障影响最大的变量，包括：

7.基于互信息的多块k近邻故障监测系统，用于对化工-TE过程中的故障进行监测，其用于权利要求1-6任一项所述方法，其特征在于，所述系统包括：