CN114779739A

CN114779739A - 基于概率图模型的云边端协同下工业过程的故障监测方法

Info

Publication number: CN114779739A
Application number: CN202210394536.0A
Authority: CN
Inventors: 杨莹; 陈晓露
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-07-22

Abstract

本发明公布了一种基于概率图模型的云边端协同下工业过程的故障监测方法，构建面向复杂工业流程的云边端协同环境下厂级分布式故障监测和溯源三层架构，在设备端侧实现复杂数据的降维与分解，在边侧进行子系统局部过程监测，在云侧进行子系统信息融合进而完成工业过程全流程全局融合诊断。采用本发明方法，能够提高大规模系统的故障诊断的效率，有效地降低子系统信息融合和大系统故障诊断的复杂度，提高工业过程故障溯源的准确性和合理性。

Description

基于概率图模型的云边端协同下工业过程的故障监测方法

技术领域

本发明属于“云边端”协同环境下知识和数据融合驱动的分布式工业过程的故障诊断和溯源监测技术，涉及一般工业系统—田纳西伊斯曼过程的多变量故障监测方法，具体涉及一种基于因果概率图模型的云边端协同工业过程的分布式故障诊断和溯源监测方法。

背景技术

随着现代工业系统的迅速发展，工业系统的复杂性不断提高。有效监测系统并及时处理异常情况，对于确保工业生产过程的安全性和稳定性具有重要意义。因此，可靠的故障监测与诊断方法已成为活跃而具有挑战性的研究课题。此外，工业过程的设备和操作单元之间也有很强的相关性，故障通常表现为系统中某处的干扰，并与物料和设备连接一起传送到系统的其他部分。因此，对过程故障的传播机理及其根本原因的研究也是非常必要的。虽然许多文献已经证明了数据驱动的多元统计监视方法(MSPM)对于过程故障监测的适用性。但是，大规模的工业系统(例如复杂的化工过程)具有大量(数万个)连续采样变量，使用集中式策略同时监视所有变量不太理想，因为集中监控策略难以确保多个单元可以同时监测到故障。总之，现有研究大多局限于制造过程的局部环节或局部特性，尚未形成数据驱动的过程分解和故障诊断理论。

另外，现有传统的数据驱动方式过于注重历史数据的挖掘和分析，忽略了操作单元之间本身的物理相关性，导致建立的“黑箱子”模型缺少了与客观实际的一致性，此外，工程实施过程中故障发生后的路径推理和根源定位很难实施。传统的基于模型的故障诊断方法对系统的解析知识具有高要求，往往因为难以获得相关知识且耗费大量精力，而难以实际应用。上述的单一方法，由于没有采用考虑机理知识和数据结合，未采用融合驱动的方法，往往效果不佳，无法满足实际应用需求。

发明内容

为了克服上述现有技术的不足，本发明提供了一种在“云边端”协同环境下基于概率图模型的工业过程分布式故障诊断和溯源监测方法，通过机理和数据联合分析，对大规模系统进行基于性能驱动的过程分解，并针对故障进行实时诊断，能够准确监测出分布式工业过程的故障，并通过逐层诊断定位出故障发生的根本原因，提升故障诊断和溯源监测的精确性和实时性。

本发明利用“云边端”协同机制，提出了改进的面向复杂流程工业的“云边端”协同环境下厂级分布式监测和溯源三层架构，结合机理知识和数据，将分布式工业系统大型过程集成到多个互连子系统中，获得分布式子模型，建立大型系统多模块分布式监测框架；接着针对每个子系统构建子系统的因果概率图模型进行局部子系统检测和溯源；最后，设计融合子系统信息的综合监测指标，用于大规模全局系统的监测和溯源。本发明能够实现基于概率图模型的云边端协同工业过程的故障监测，能够达到更好的效果。

本发明构建的面向复杂工业流程的“云边端”协同环境下厂级分布式故障监测和溯源三层架构，按照执行顺序依次分为：(1)在“端”侧实现复杂数据的降维与分解，(2)在“边”侧进行子系统局部过程监测，(3)在“云”侧进行子系统信息融合进而完成全局融合诊断。本发明对现有的分布式三层架构中的每一层均进行改进，将采集的过程数据与过程机理知识、模型、结构等相关知识进行融合，包括对相关的数据处理、故障监测、因果推理与故障诊断方法，实现“云边端”协同环境下的大规模工业过程故障诊断和溯源监测。在分布式故障监测和溯源三层架构第一层中，传统的数据降维和分解依托于工业过程机理信息或者根据数据之间相关性，本发明技术结合数据和过程机理构建了带约束的基于性能的优化分解策略，提高了系统分解的可靠性。在分布式故障监测和溯源三层架构第二层中，传统的数据驱动的子系统监测不能描述监测变量内部因果关系，本发明构建了子系统的因果概率图模型，从定性和定量两个方面清晰地刻画了监测变量的相互关联。在分布式故障监测和溯源三层架构第三层中，本发明技术针对因果概率图模型的监测统计量进行了融合，以达到全局监测和溯源。

本发明提供的技术方案是：

一种基于概率图模型的云边端协同工业过程的故障监测方法，构建新的分布式检测和溯源三层架构，包括：在“端”侧实现复杂数据的降维与分解，在“边”侧进行子系统局部过程监测，在“云”侧进行子系统信息融合进而完成全流程全局融合诊断；具体包括以下方面：

1)结合历史数据集和已知的工业过程机理，实现设备“端”侧本地子系统监测最佳性能的优化分解；

合理的结构分解是符合工业实际的基本问题，在此融合过程数据和机理知识来解决最优分解问题，将大规模工业系统分为多个具有耦合关系的子系统，以提高监测性能和故障诊断的准确性。本发明根据工业过程中采集的历史数据集和过程机理，构建了提高系统监测性能的优化目标函数，并设计了求解方法合理地对大规模系统进行子系统分解。

具体执行如下两步操作。

第一步，以系统监测性能最优为目标，实现过程数据与知识融合驱动的过程优化目标函数构建。标准的系统监测性能指标包括误报率(FAR)，漏报率(NDR)，故障监测率(FDR)，监测延迟(DD)等。本发明考虑不同的监测性能目标，例如：(1)最大化FDR；(2)最大化FDR，同时最小化FAR和NDR；(3)监测中的最低NDR且FAR满足某些约束条件；(4)监测中的最低FAR且NDR满足某些约束条件，分别表示如下：

(1)maxFDR

(2)min{-FDR+NDR+FAR}

(3)minNDR s.t.FAR≤CL,α＝α_s

(4)minFAR s.t.NDR≤CL,α＝α_s

其中FAR＝n_N,F/n_N，NDR＝n_F,N/n_F，FDR＝n_F,F/n_F。n_N和n_F分别是验证数据集中正常和异常样本的数量；n_F,N是识别为正常的故障样本数，n_N,F是识别为故障的正常样本数，n_F,F是故障样本被确定为故障的样本数。CL是实际应用中允许的最大误报率，α_s是置信度。

然后，将性能驱动的过程分解转化为优化求解问题，即确定监测变量(系统状态变量或者传感器测量变量)所属的子系统。除了从历史数据中分析和获取信息外，可引入已知的机理作为约束条件，在降低分解的复杂度的同时增加物理上的合理性。因此，考虑最低的NDR和FAR来评估监测性能，将分解的优化问题表示为：

其中，n和N分别是监测变量和子系统的数目。M_j是第j个子系统。约束条件是根据已知物理分析确定变量所属子系统的对应关系。

第二步，使用随机搜索和优化技术求解优化问题，使用遗传算法作为求解此问题的工具，设计遗传算法优化中的染色体(多个基因的集合)，本发明中，将工业生产过程变量表示为遗传算法中的基因。过程变量的二进制值表示它是否存在于相应的子系统中。通过利用遗传算法进行搜索，以最佳监测性能为目标函数进行求解，找到最优的过程变量分解方案。

2)设计多元因果分析方法，对局部子系统中监测的过程变量的因果关系进行建模，构建有向无环图模型，通过估计过程变量之间的条件概率密度来描述出节点间的定量关系；

本发明提出一种在分布式架构下针对每个子系统的因果概率图模型构建机制，通过该机制对每个子系统构建有向无环图模型。有向无环图由节点和箭头构成，节点代表过程监测变量，箭头代表监测变量之间的定性关系。有向无环图可用于显示观察到的过程变量之间的因果结构，将传统的二元因果关系分析扩展到多元的情况，以获得多元系统的因果结构图。对于具有时间连续性的观测数据，使用核密度估计等非参数估计方法来确定因果模型结构中节点之间的概率关系，它表示为变量之间的依赖关系。当发生异常事件时，可以通过观察当前数据分布是否偏离正常分布来识别。通过对因果概率图的正向分析，确定故障的定量传播路径。另一方面，可以同时反向推理确定故障的根源。

构建因果概率图模型包含了建立因果结构和确定概率关系两个步骤；

21)概率图模型定性关系描述-多变量的因果关系结构图构建

用一个有向无环图来表示多个观测过程变量之间的关系。随机选择一对变量x_i和x_j，i,j＝{1,2,...,n}分别来自多变量系统。如果x_i是x_j的父节点，它的数据生成过程可以用后非线性(PNL)混合模型描述，表示为式2：

x_j＝f_j,2(f_i,1(x_i)+e_j) (式2)

其中，f_i,1表示原因变量的非线性影响。e_j是独立的干扰。可采用假设检验和非线性独立分量分析ICA方法来解决这个问题，简而言之，主要分为两个步骤：

第一步：基于受约束的非线性ICA方法，在假定的因果对应关系的x_i→x_j下恢复干扰e_j信号；

第二步：基于统计独立性测试，验证估计干扰e_j是否与假设原因x_i无关。

对任何两对变量都进行正向和反向进行因果假设，通过比较统计数据来确定原因和影响方向。最终经过n(n-1)次假设和测试后，确定每对变量的因果关系。

本发明所提出的多变量因果关系分析方法可以有效地建立系统的因果拓扑结构，实现子系统的概率图模型定性关系描述。

22)概率图模型定量关系描述-变量的概率密度估计

在完成因果概率图模型的因果结构设计后，需要定量地建立节点之间的因果关系，以表示因果连接的强度。在此，本发明用概率密度表示节点间的关系，需要对在因果概率图模型的概率进行估计。因果结构图中根节点的概率密度表现为一维概率密度函数，子节点的概率密度表现为条件概率密度函数。设X₁,X₂,...,X_n是从一维总体X中抽出的独立同分布样本，X具有未知的密度函数f(x)，其核密度估计

为：

类似地，x和y的联合概率密度函数定义为：

根据条件概率密度的计算公式，可以得到子节点的条件概率密度为：

利用采集的历史数据，可以将各个网络节点中的概率密度估计出来，形成完整的概率图模型。在正常条件下，从概率密度估计获得的统计指标S和置信区间表示为：

其中

和

分别表示样本的均值和方差。z是标准分数，可根据置信度β(通常设置为95％)通过查询分数表获得z的值。n是样本数，可以根据概率密度的变化来监测系统异常。假设从新的测试样本中获得了当前样本x_new，其统计指标信息S_new为：

其中C⁺和C^-是S_new的置信上限和下限。

正常样本的概率密度将落在公式8中置信上限和下限的限制范围内，一旦监测样本超出范围，就可以确定为故障。置信区间可以用作监测系统故障的统计信息，因果结构和概率关系可以用来推断故障传播的路径，具体表现为：一旦监测到某个节点发生故障，则根据建立的因果关系(箭头)逆向推理到上一个关联节点，并计算其条件概率密度判断是否发生故障，依此类推直至概率图模型中的根节点。根据因果关系图逆向箭头得到的相关故障节点组成的支路为故障传播路径，对于节点中形成一对多关系的情况，则会分支成多条传播路径。

子系统的因果结构和概率相关性由多元因果分析和核密度估计KDE(KernelDensity Estimation)方法确定。这里的圆圈表示节点，即过程变量，箭头是概率依赖关系，即相应的概率密度函数。在“云边端”环境下，完整的系统模型由共享变量的连接组成。

一套流程工业系统从设计实施阶段开始其工艺结构是非常清晰、固定的，很容易地用一个有向无环图来表征各个监测变量之间的结构关系。本发明提出采用基于数据的多变量过程因果关系分析可以确定变量的因果走向，同时融合已知的系统工艺结构和机理知识，可以避免数据自带噪声引起的因果误判，简化变量之间的关联，建立一个更加紧凑、易于分析的系统图结构(定性)，克服了传统贝叶斯网络构建机制复杂、耗时长的缺点。此外，为了更好地服务于故障推理，提出了用图中变量的条件概率来表征连续变量之间的引发故障的定量程度。一方面，本发明克服了现有贝叶斯网络参数学习算法普遍针对离散变量有效的缺陷，特别适合流程工业数据的连续时序特征。另一方面，本发明所提的概率密度估计是一种非参数估计，无需任何线性或非线性，高斯分布等假设的限制，适合于流程工业数据的形态多样性和数据分布的广泛性特性。

3)输入判断是否异常的待诊断数据，通过监测过程数据分布的变化与正常数据分布的对比，若是待监测数据的概率密度分布超出了正常状态下数据概率密度分布的置信线，则判断监测系统异常或故障，反之为无故障；待诊断数据包括过程中的物料输入输出数据，操作变量的数据。一旦监测到系统中节点出现故障，则根据获得的因果概率图模型进行逆向推理，从故障节点开始，自下而上计算其因节点的条件概率密度，并根据上述故障判定方法判断其因节点的状态(正常或故障)，直至其根节点，若根节点为故障状态则判断为子系统故障源头。

4)多单元流程系统的故障因果推理与“云”端融合诊断。

厂级过程或多单元过程分为几个子系统，将每个子系统的因果关系图模型链接在一起，即建立有效的多层分布式监测模型。充分利用每个本地监控器的统计监控信息，构建融合故障根源推理和诊断的统计指标(式7中S)，以实现对复杂过程系统的整体监测。

分布式监测方法的最后一步是融合每个子系统的信息以作出决策。此步骤的核心是充分利用局部监测子系统的监测指标，构建整个大系统的融合监测与诊断。具体如下：假设要设计的局部监测子系统数量是B。将所有优化筛选得到的测量变量分成B块并且在每个子块中建立局部监测模型，利用全局融合指标构建整个过程状态的总体决策，为其提供综合监测和诊断指标。

在此本发明提出一种基于贝叶斯推理策略来定义全局状态的综合指标，综合指标的构建步骤由(式9)至式(13)描述。第j个子系统中的第i个变量，表示为x_i,j，第j个子系统中的第i个变量异常或故障的概率可以通过式9计算，表示为：

P(x_i,j)＝P(x_i,j|N)P(N)+P(x_i,j|F)P(F) (式9)

其中，N和F分别是子系统正常状态和故障状态；P(N)表示为置信度β,P(F)定义为1-β。

子系统故障状态和正常状态的条件概率P(x_i,j|F)和P(x_i,j|N)的定义取决于过程监测的方法。假设用于监测异常的统计量为S。对于S统计信息的条件概率P(x_i,j|F)和P(x_i,j|N)可以定义为：

其中，S_i,j,new是新样本x_i,j,new的S统计量。S_i,j,th是训练样本x_i,j的S统计量。

在实际操作中，统计值S由本地监测方法确定。例如，如果本地监视器基于多变量统计方法(例如主成分分析PCA和偏最小二乘回归PLS)实现，则统计量S可以是T²和Q，用于式4～7中给出的监测统计信息。对于来自第j个子系统的中的样本

统计量S表示为：

其中，

和Q_j,th定义为对应于

和Q_j统计置信限。

为特征值矩阵，P_j代表加载矩阵。m_j表示第j个子系统中的变量数。n_j是第j个子系统变量的数量。

和

是第j子系统中变量x_i下S的置信上限和下限。由上述公式不难发现本发明所提出的方法可以独立地处理子系统j中的每个变量，而传统的多变量统计方法只能整体处理子系统j中的所有变量。因此，本发明方法在后续的分布式故障诊断和根源定位中具有独特的优势。

最后，关于变量x_i的融合贝叶斯推理综合(BIC)指标定义为：

BIC融合指标用于表示所监测系统的状态，可基于BIC融合指标的变化来识别监测系统的状态并确定综合治理的决策。利用BIC融合指标判断系统是否发生故障具体为：

其中，BIC_th表示正常数据下建立的BIC综合指标的置信线。若是待监测数据运行下构建得到的BIC指标超过正常数据下建立的BIC综合指标的置信线，则系统发生故障，反之为无故障。此综合指标是从全局系统的角度判断系统故障的统计量表示，而前文3)中的故障监测则是指子系统独立的故障监测。基于子系统的因果概率图模型，可以根据子系统间共有的变量连接来建立全局系统的因果概率图模型，进一步地，可类似于子系统的故障溯源方法进行全局系统溯源。

与现有技术相比，本发明的有益效果：

本发明提供一种“云边端”环境下基于数据和知识联合驱动的大规模工业过程分布式故障诊断和溯源方法，搭建“云边端”三层环境框架，利用监测性能的最优为目标，构建数据和知识融合的优化分解目标函数，进行子系统的优化分解；针对局部子系统，基于历史数据集建立具有变量因果关系的概率图模型，通过有向图模型机制提供了一种由上到下的正向诊断方法和由下至上的推理溯源方法，提高了大规模系统的故障诊断的效率，通过“云”端信息融合机制有效地降低了子系统信息融合和大系统故障诊断的复杂度，提高故障溯源的准确性和合理性。

附图说明

图1为本发明提出的“云边端“协同环境下大规模工业系统的分布式故障诊断和溯源监测示意图。

图2为本发明提供的分布式过程监测与故障诊断流程框图。

图3为本发明提出的因果概率图模型的示意图。

图4是本发明提供的针对TE过程的优化分解的结果示意图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种“云边端”环境下基于数据和知识联合驱动的大规模工业过程分布式故障诊断和溯源方法，通过建立大规模工业系统的监测性能指标并作为目标函数进行优化分解，进而针对每个子系统进行局部因果概率图模型构建，最后在云端进行综合指标设计和信息融合，对大规模工业系统进行分布式故障诊断和因果推理溯源。

图1所示为本发明提出的“云边端“环境下的大规模系统分布式故障诊断和溯源监测方法流程。本发明提出了面向复杂流程工业的“云边端”协同环境下厂级分布式监测和溯源三层架构：在“端”侧实现复杂数据的降维与分解，在“边”侧进行子系统局部过程监测，在“云”侧进行子系统信息融合进而完成全局融合诊断。在每一个阶段中，将采集的过程数据与过程机理知识、模型、结构等相关知识进行融合，对相关的数据处理、故障监测、因果推理与故障诊断问题进行技术研究，实现“云边端”协同环境下的大规模工业过程故障诊断和溯源。各层之间的关系如图1所示。

图2所示为本发明中提出的分布式过程监测与故障诊断算法流程。图3所示为本发明提供的因果概率图模型的示意图。图2中的具体实施流程包括基于监测性能优化的系统分解、因果概率图模型构建和基于概率图模型的分布式故障诊断和溯源过程，具体包含了以下三个算法(算法1，算法2，算法3)。

其中FAR＝n_N,F/n_N，NDR＝n_F,N/n_F，FDR＝n_F,F/n_F。n_N和n_F分别是验证数据集中正常和异常样本的数量；n_F,N是识别为正常的故障样本数，n_N,F是识别为故障的正常样本数，n_F,F是故障样本被确定为故障的样本数。n和N分别是监测变量和子系统的数目，M_j是第j个子系统。约束条件是根据已知物理分析确定变量所属子系统的对应关系。

完成对大规模系统的优化分解后，可对每个子系统进行因果概率图模型构建，描述系统变量间的内在联系和概率依赖强度，应用如下的因果概率图模型构建算法，建立子系统模型。

其中，f_i,1表示原因的非线性影响，f_i,2表示变量X_i中的可逆后非线性失真。e_i是独立扰动，是具有非零方差的非高斯分布的连续随机变量，h₁和h₂分别是与原因变量x和影响变量y对应的窗口宽度。

完成子系统的概率图模型构建后，可对子系统进行局部故障监测；进一步在云端进行信息融合并监测系统故障完成故障溯源，应用如下的信息融合和故障诊断算法，定位出故障源头。

其中，

和

分别表示样本的均值和方差。z是标准分数，可根据置信度β(通常设置为95％)通过查询分数表获得z的值。n是样本数，可以根据概率密度的变化来监测系统异常。其中C⁺和C^-是S_new的置信上限和下限。

具体实施时，首先用田纳西伊斯曼(TE)的过程数据和部分机理构造优化分解的目标函数和约束，将系统拆分为符合机理特性的五个子系统，并设计故障条件，监测出发生故障的变量，再应用故障溯源算法定位出发生异常/故障的相应根源。图4为TE过程数据集部分数据应用如下的子系统优化分解算法进行系统分解的结果示意图。

综上描述的具体实施方法便实现了“云边端”环境下基于数据和知识联合驱动的大规模工业过程分布式故障诊断和溯源。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于概率图模型的云边端协同下工业过程的故障监测方法，构建面向复杂工业流程的云边端协同环境下厂级分布式故障监测和溯源三层架构，在设备端侧实现复杂数据的降维与分解，在边侧进行子系统局部过程监测，在云侧进行子系统信息融合进而完成全流程全局融合诊断；具体包括以下步骤：

1)根据工业过程中采集的历史数据集和过程机理，构建提高系统监测性能的优化目标函数，并设计求解方法对大规模工业系统进行子系统分解，将大规模工业系统分为多个具有耦合关系的子系统，在设备端侧实现本地子系统监测最佳性能的优化降维分解；

2)通过设计多元因果分析方法，对子系统中监测的过程变量的因果关系，通过估计过程变量之间的条件概率密度描述节点间的定量关系，在分布式架构下针对每个子系统构建有向无环图模型，即因果概率图模型；

有向无环图用于显示多元过程变量之间的因果结构，图中节点代表过程监测变量，图中箭头代表监测变量之间的定性关系；对于具有时间连续性的观测数据，使用非参数估计方法确定因果模型结构中节点之间的概率关系，表示变量之间的依赖关系；并通过当前数据分布是否偏离正常分布识别是否发生异常事件；通过对因果概率图的正向分析，确定故障的定量传播路径，可以同时反向推理确定故障的根源；

3)输入待诊断数据，通过监测过程数据分布的变化与正常数据分布的对比，识别是否出现故障，进而根据因果概率图模型进行逆向推理至根节点；

待诊断数据包括过程中的物料输入输出数据和操作变量数据；若待监测数据的概率密度分布超出正常状态下数据概率密度分布的置信线，则判断监测系统异常或故障，反之为无故障；当监测到系统中节点出现故障时，则根据获得的因果概率图模型进行逆向推理，从故障节点开始，自下而上计算其因节点的条件概率密度，并根据故障判定方法判断其因节点的状态为正常或故障，直至其根节点，若根节点为故障状态则判断为子系统故障源头；

4)进行多个子系统的故障因果推理与云端融合诊断；

将每个子系统的因果关系图模型链接，建立有效的多层分布式监测模型，构建融合故障根源推理和诊断的统计指标，由此实现对复杂工业过程系统的全局监测；具体包括：

41)定义基于贝叶斯推理策略来定义全局状态的综合指标：第j个子系统中的第i个变量异常或故障的概率通过式9计算，表示为：

P(x_i,j)＝P(x_i,j|N)P(N)+P(x_i,j|F)P(F) (式9)

其中，x_i,j为第j个子系统中的第i个变量；N和F分别是子系统正常状态和故障状态；P(N)表示为置信度β；P(F)定义为1-β；

42)定义统计指标的条件概率，表示为：

其中，S_i,j,new是新样本x_i,j,new的统计指标；S_i,j,th是训练样本x_i,j的统计指标；P(x_i,j|F)和P(x_i,j|N)分别为子系统故障状态和正常状态的条件概率；

对于来自第j个子系统的中的样本

统计量S表示为：

其中，

和Q_j,th定义为对应于

和Q_j统计置信限；

为特征值矩阵，P_j代表加载矩阵；m_j表示第j个子系统中的变量数；n_j是第j个子系统变量的数量；

和

是第j子系统中变量x_i下S的置信上限和下限；

43)定义关于变量x_i的融合贝叶斯推理综合指标BIC，表示为：

BIC指标用于表示所监测系统的状态，可根据BIC指标的变化识别监测系统的状态并确定综合治理的决策；

通过上述步骤，实现基于概率图模型的云边端协同下工业过程的故障监测。

2.如权利要求1所述基于概率图模型的云边端协同下工业过程的故障监测方法，其特征是，步骤1)具体是在分布式故障监测和溯源三层架构第一层中，采用历史数据和过程机理构建带约束的基于性能的优化分解方法，实现本地子系统监测最佳性能的优化降维分解；包括：

11)以系统监测性能最优为目标，构建过程数据与知识融合驱动的过程优化目标函数；

111)采用不同的监测性能目标，包括：最大化FDR；最大化FDR，同时最小化FAR和NDR；监测中的最低NDR且FAR满足某些约束条件；监测中的最低FAR且NDR满足某些约束条件；

112)将性能驱动的过程分解转化为优化求解，即确定监测变量所属的子系统，定义分解的优化目标函数；

将分解的优化目标函数表示为：

其中，n和N分别是监测变量和子系统的数目；M_j是第j个子系统；约束条件是根据已知物理分析确定变量所属子系统的对应关系；

12)使用随机搜索和优化方法求解优化目标函数，将工业生产过程变量表示为遗传算法中的基因，过程变量的二进制值表示过程变量是否存在于相应的子系统中；通过利用遗传算法进行搜索，以最佳监测性能为目标函数进行求解，得到最优的过程变量分解方案。

3.如权利要求1所述基于概率图模型的云边端协同下工业过程的故障监测方法，其特征是，在分布式故障监测和溯源三层架构第二层中，构建子系统的因果概率图模型，包含建立因果结构和确定概率关系，实现定性和定量地描述监测变量的相互关联；具体包括：

21)采用有向无环图表示多个观测过程变量之间的关系，构建概率图模型定性关系描述-多变量的因果关系结构图；

随机选择一对变量x_i和x_j，i,j＝{1,2,...,n}分别来自多变量系统；设变量x_i是x_j的父节点，采用后非线性混合模型PNL描述数据生成过程，表示为式2：

x_j＝f_j,2(f_i,1(x_i)+e_j) (式2)

其中，f_i,1表示原因变量的非线性影响；e_j是独立的干扰；

22)采用概率图模型定量关系描述-变量的概率密度估计：采用概率密度表示节点间的关系，对在因果概率图模型的概率进行估计；

因果结构图中根节点的概率密度为一维概率密度函数，子节点的概率密度为条件概率密度函数；设X₁,X₂,...,X_n是从一维总体X中抽出的独立同分布样本，X具有未知的密度函数f(x)，将其核密度估计

表示为：

x和y的联合概率密度函数定义为：

根据条件概率密度的计算公式，得到子节点的条件概率密度，表示为：

利用采集的历史数据，将各个网络节点中的概率密度估计出来，形成的概率图模型；从概率密度估计获得的统计指标S和置信区间表示为式7：

其中，

和

分别表示样本的均值和方差；z是标准分数；n是样本数；

设从新的测试样本中获得当前样本x_new，其统计指标信息S_new表示为：

其中，C⁺和C^-是S_new的置信上限和下限。

4.如权利要求3所述基于概率图模型的云边端协同下工业过程的故障监测方法，其特征是，步骤21)具体是采用假设检验和非线性独立分量分析ICA方法，有效地建立系统的因果拓扑结构，实现子系统的概率图模型定性关系描述；包括如下步骤：

第二步：基于统计独立性测试，验证估计干扰e_j是否与假设原因x_i无关；

对任何两对变量均进行正向和反向因果假设，通过比较统计数据来确定原因和影响方向；

最终经过n(n-1)次假设和测试后，确定每对变量的因果关系。

5.如权利要求3所述基于概率图模型的云边端协同下工业过程的故障监测方法，其特征是，将置信区间作为监测故障的统计信息，将因果结构和概率关系用于推断故障传播的路径，具体为：

当监测到某个节点发生故障时，根据箭头表示的因果关系逆向推理到上一个关联节点，并计算条件概率密度以判断是否发生故障，直至概率图模型中的根节点；若监测样本的概率密度在置信上限和下限的范围内，则识别为正常样本；否则识别为故障样本；

根据因果关系图逆向箭头得到的相关故障节点组成的支路为故障传播路径；若节点中形成一对多关系，则分支成多条故障传播路径。

6.如权利要求5所述基于概率图模型的云边端协同下工业过程的故障监测方法，其特征是，子系统的因果结构和概率相关性具体是采用多元因果分析和核密度估计方法。

7.如权利要求1所述基于概率图模型的云边端协同下工业过程的故障监测方法，其特征是，在分布式故障监测和溯源三层架构第三层中，针对因果概率图模型的监测统计量进行融合，以达到全局监测和溯源；进行多个子系统的故障因果推理与云端融合诊断包括：

设局部监测子系统数量是B，将所有优化筛选得到的测量变量分成B块并且在每个子块中建立局部监测模型，将全局融合的综合指标作为综合监测和诊断指标；

基于贝叶斯推理策略定义全局状态的综合指标，综合指标的构建步骤如下：

第j个子系统中的第i个变量x_i,j异常或故障的概率通过式9计算，表示为：

其中，P(x_i,j|F)和P(x_i,j|N)分别为子系统故障状态和正常状态的条件概率；N和F分别是子系统正常状态和故障状态；P(N)表示为置信度β，P(F)定义为1-β。

8.如权利要求7所述基于概率图模型的云边端协同下工业过程的故障监测方法，其特征是，将统计信息的条件概率P(x_i,j|F)和P(x_i,j|N)定义为：

其中，S为用于监测异常的统计量；S_i,j,new是新样本x_i,j,new的统计量；S_i,j,th是训练样本x_i,j的统计量。

9.如权利要求8所述基于概率图模型的云边端协同下工业过程的故障监测方法，其特征是，统计值S由本地监测方法确定；对于来自第j个子系统的中的样本

将统计量S表示为：

其中，

和Q_j,th定义为对应于

和Q_j统计置信限；

和

是第j子系统中变量x_i下S的置信上限和下限。

10.如权利要求9所述基于概率图模型的云边端协同下工业过程的故障监测方法，其特征是，变量x_i的融合贝叶斯推理综合指标BIC定义为：

BIC指标用于表示所监测系统的状态，基于BIC融合指标的变化识别监测系统的状态并确定综合治理的决策；

进一步地，利用BIC指标判断系统是否发生故障为：

其中，BIC_th表示正常数据下建立的BIC综合指标的置信线。