CN108734213B

CN108734213B - 一种基于贝叶斯统计分析的间歇过程模态识别方法

Info

Publication number: CN108734213B
Application number: CN201810476326.XA
Authority: CN
Inventors: 王建林; 熊欢; 邱科鹏; 韩锐; 于涛
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2021-10-01
Anticipated expiration: 2038-05-17
Also published as: CN108734213A

Abstract

本发明公开了一种基于贝叶斯统计分析的间歇过程模态识别方法，属于间歇过程监测技术领域。本方法首先将间歇过程的三维历史过程数据沿批次方法展开为二维数据并对展开后的数据进行数据标准化；其次利用模糊C均值聚类算法对标准化后的过程数据进行聚类分析，设定模态粗划分隶属规则，获得模态粗划分结果；最后利用贝叶斯网络分类器对模态粗划分结果进行分析，并引入时序约束的模态推断系数，根据模态推断最小风险准则，判断模态最终归属，实现间歇过程的模态识别。本方法充分考虑了间歇过程数据的时序约束，利用贝叶斯统计分析实现了间歇过程稳定模态与过渡模态的有效划分，具有较高的模态识别准确性。

Description

一种基于贝叶斯统计分析的间歇过程模态识别方法

技术领域

本发明涉及一种间歇过程模态识别方法，属于间歇过程监测技术领域，尤其涉及一种基于贝叶斯统计分析的间歇过程模态识别方法。

背景技术

间歇过程作为工业生产中的一种重要生产方式，存在多个运行状态，具有多模态特性，使得间歇过程在不同模态下的过程特性存在差异，变量相关性也显著不同。若将不同模态的过程数据用同一模型进行整体建模，会导致有较大的建模误差，限制了所建整体模型在间歇过程中的应用。因此，需要对间歇过程中差异明显的多个模态进行准确识别，为间歇过程的监测和控制优化提供基础。

现有的间歇过程模态识别方法主要有基于机理的间歇过程模态识别方法、基于过程特征分析的间歇过程模态识别方法和基于数据驱动的间歇过程模态识别方法。基于机理的间歇过程模态识别方法利用过程先验知识对间歇过程的模态进行识别；基于过程特征分析的间歇过程模态识别方法则利用指示变量判断模态，或将新的过程与已知模态的过程进行比较实现模态识别。然而，由于间歇过程信息往往难以直接获取，制约着这两种方法在间歇过程模态识别中的应用。基于数据驱动的间歇过程模态识别方法能够直接通过对间歇过程数据集的数据挖掘获得模态信息，进而实现间歇过程模态识别。基于数据驱动的聚类分析方法在间歇过程模态识别中的应用较为广泛，例如K-means聚类方法、模糊C均值聚类方法、仿射传播聚类方法等，但这些方法在处理间歇过程模态识别时，模态识别结果受到过程数据中离群点的影响较大，迭代过程有较大的时间复杂度，且忽略了间歇过程数据的时序约束，参数选取较为困难。因此，为了获得更准确的间歇过程模态识别结果，需要对聚类结果进行进一步分析。基于数据驱动的贝叶斯统计分析方法将先验知识与现有统计数据相结合，用概率的形式来表示事件发生的可能性，尤其以贝叶斯网络分类器为代表的数据集分类方法，使用联合概率的最优压缩展开式降低了计算复杂度；同时，过程数据中的离群点对其分类结果影响较小，因此，将贝叶斯统计分析引入间歇过程模态识别，利用贝叶斯网络分类器实现间歇过程模态识别，能有效提高间歇过程模态识别的准确性。

发明内容

本发明的目的在于提高间歇过程模态识别准确性，首先将间歇过程的三维历史过程数据沿批次方法展开为二维数据并对展开后的数据进行数据标准化，其次利用模糊C均值聚类算法对标准化后的数据进行聚类分析，设定模态粗划分隶属规则，获得模态粗划分结果；最后利用贝叶斯网络分类器对模态粗划分结果进行分析，并引入时序约束的模态推断系数，根据模态推断最小风险准则，判断模态最终归属，实现间歇过程模态的准确识别。

本发明采用的技术方案为一种基于贝叶斯统计分析的间歇过程模态识别方法，该方法具体包括以下步骤：

步骤一：将间歇过程的三维历史过程数据沿批次方法展开为二维数据，并对展开后的二维数据进行变量方向上的标准化，并记录历史数据的均值与标准差，实现间歇过程三维历史过程数据预处理，得到预处理后的数据；

步骤二：利用模糊C均值聚类算法对步骤一所得预处理后的数据进行聚类分析，设定模态粗划分隶属规则，并通过过程数据划分效果复合指标，确定最优模态个数，实现间歇过程模态粗划分；

步骤三：利用贝叶斯网络分类器，对步骤二的模态粗划分结果进行分析，同时引入时序约束的模态推断系数，根据模态推断最小风险准则，判断模态最终归属，实现间歇过程模态识别。

具体而言，步骤一包括如下步骤：

将间歇过程的三维历史过程数据矩阵

按照批次方向展开为二维矩阵X_i(J×K)，其中，I为批次数；i为批次编号；J为变量个数；K为采样时间。

由式(1)对展开数据X_i(J×K)进行标准化得到标准化后的数据集

式中，j为变量编号；k为采样时间编号；

为均值；s_j为标准差；并记历史数据的均值为mean(X_i(J×K))与标准差std(X_i(J×K))，为后续步骤提供数据基础。

步骤二包括如下步骤：

S2.1对标准化后的数据集

进行轨迹划分，得到隶属度矩阵U＝[u_ij]_(c×K)和左边界

c为模态个数，1＜c<<K。

S2.2将S2.1中的隶属度矩阵U＝[u_ij]_(c×n)与左边界

作为初始条件，由式(2)对标准化后的数据集

进行模糊聚类分析；并由式(3)更新聚类中心

与隶属度矩阵U。

式中，m为聚类模糊系数；u_i,j为第j个样本属于第i类的隶属度，且满足

d_i,j为样本点j到聚类中心v_i的距离。

S2.3定义

并由式(4)对定义的

进行计算。

式中，c＝[1,2,···,c]；

L_c为模态个数为c下的SSE；mean(·)与std(·)分别表示平均值和标准差。

定义数据划分复合指标PPCI_c为

式中，γ∈(0,1)。

利用式(5)计算PPCI_c，选择PPCI_c指标值最小时对应的模态个数为最优效果的模态个数c₀。

S2.4设置模态粗划分阈值u₀满足0.5＜u₀＜1，由式(6)得到数据集

式中，

为u_ij对应的样本点，且满足max(u_i,j)≥u_o。

由式(7)对数据集

进行模态粗划分，确定

中样本点

的模态归属。

式中，l为稳定模态，l∈(1，2，…，c0)。

S2.5同理，设置模态粗划分阈值u₀满足0.5＜u₀＜1，由式(8)得到数据集

式中，

为u_ij对应的样本点，且满足max(u_i，j)＜u_o。

由式(9)对数据集

进行模态粗划分，确定

中的样本点

的模态归属。

式中，l^* _(l，l+1)为l与l+1相邻稳定模态之间的过渡模态，l∈(1，2，…，c₀)。

步骤三包括如下步骤：

S3.1在最优模态个数c₀条件下选取式(3)中隶属度u_ij≥0.9的样本点，并将所选取的第j个采样时刻属于第i模态的样本点记为

构建训练数据集X_tr为

S3.2由已构建的数据集X_tr，训练贝叶斯网络分类器G_B，并获得过程变量的概率分布为p(·)。

S3.3利用步骤一中记录的历史训练数据的均值mean(X_i)与标准差std(X_i)标准化待识别过程数据X_te得

计算k时刻样本点

属于各个模态的后验概率

式中，n为过程变量个数；π_c为模态变量父结点的配置。

S3.4定义

为将模态c_j的样本点

判定为c_i的风险函数

式中，u_i，k为k时刻样本点

属于第i模态的隶属度；c_i和c_j满足c_i＝1，…，c₀，c_j＝1，…，c₀，|c_i-c_j|＝1；β＝1，2，…。

定义时序约束模态推断系数

为

S3.5定义k时刻样本点

与第c_i模态的相似度为

式中，

为样本点

属于第c_i模态的概率。

设置模态推断阈值R_o满足0.5＜R_o＜1，得到数据集

为

式中，

为R_i(k)对应的样本点，且满足max(R_l(k))≥R_o；l∈(1，2，…，c₀)。

设置模态推断阈值R_o满足0.5＜R_o＜1，得到数据集

为

式中，

满足max(R_l(k))＜R_o。

S3.6根据模态推断最小风险准则，由式(17)对数据集

进行模态识别，确定样本点

的最终模态归属。

式中，l为稳定模态。

S3.7同理，根据模态推断最小风险准则，由式(18)对数据集

进行模态识别，确定样本点

的最终模态归属。

式中，l^* _(l，l+1)为l与l+1相邻稳定模态之间的过渡模态，满足R_l(k)+R_l+1(k)＝1。

本发明具有如下优点：通过引入时序约束的模态推断系数，能够充分考虑间歇过程的时序特性，并根据模态推断最小风险准则，判断模态最终归属，实现间歇过程的模态识别，提高了间歇过程模态识别的准确性。

附图说明

图1是本发明所述的一种基于贝叶斯统计分析的间歇过程模态识别方法的流程图。

图2是实施方式所述基于模糊C均值聚类算法的间歇过程模态粗划分结果图。

图3是实施方式所述基于贝叶斯统计分析的间歇过程模态识别结果图。

图4是实施方式所述间歇过程模态识别贝叶斯网络分类器模型结构图。

具体实施方式

下面结合实例及附图对本发明作进一步的描述，需要说明的是，实施例并不限定本发明要求保护的范围。

实施例

青霉素发酵是典型的间歇过程，利用Pensim v2.0仿真青霉素发酵过程，选取底物流加速度(L·h^-1)、底物浓度(g·L^-1)、溶氧浓度(g·L^-1)、生物量浓度(g·L^-1)、青霉素浓度(g·L^-1)、产热量(kcal·h^-1)6个过程变量进行数据采集，如表1所示。采样周期选择为1h，采集20个批次数据，每批含有400个数据点。随机取其中15个批次作为训练批次，剩余5个批次作为测试批次。

表1间歇过程变量

将本发明方法应用到上述青霉素发酵过程模态识别中，具体按照以下步骤实施：

步骤一：将20个批次青霉素发酵过程的三维过程数据

沿批次方法展开为二维数据X_i(6×400)，其中i为批次编号，X_i为第i个批次的过程变量数据矩阵，并利用式(1)对各批次数据进行标准化，得标准化后的数据集

步骤二：间歇过程模态粗划分：

(1)对标准化后的数据集

进行轨迹划分，得到隶属度矩阵U＝[u_ij]_(c×K)和左边界

模态个数取值为c＝1，2，…，10，K为采样时间；

(2)利用式(2)对标准化后的数据集

进行模糊聚类分析，并使用式(3)更新聚类中心V与隶属度矩阵U；

(3)由式(4)计算

在式(5)中取γ＝0.4，计算c＝1，2，…，10时对应的数据划分复合指标PPCI_c，求得最优效果的模态个数c0＝4；

(4)设置模态粗划分阈值u₀＝0.85，由式(6)得到数据集

然后利用式(7)确定

中样本点

的模态归属；

(5)同理，设置模态粗划分阈值u₀＝0.85，由式(8)得到数据集

然后利用式(9)确定

中的样本点

的模态归属。

步骤三：间歇过程模态识别：

(1)利用式(10)构建训练数据集X_tr；

(2)利用已构建的数据集X_tr，训练贝叶斯网络分类器G_B，并获得过程变量的概率分布p(·)；

(3)利用步骤一中记录的历史训练数据的均值mean(X_i)与标准差std(X_i)对待识别过程数据X_te标准化得

并利用式(11)计算k时刻样本点

属于各个模态的后验概率；

(4)在式(12)中取β＝2，计算将模态c_j的样本点

判定为c_i的风险函数，然后根据式(13)求得样本点

的时序约束模态推断系数

(5)设置模态推断阈值R_o＝0.85，利用式(14)计算k时刻样本点

与第c_i模态的相似度

然后分别根据式(15)和式(16)得到数据集

和数据集

(6)利用式(17)对数据集

进行模态识别，确定

中样本点

模态的最终归属；

(7)同理，利用式(18)对数据集

进行模态识别，确定

中样本点

模态的最终归属。

上述步骤即为本发明方法在青霉素发酵过程模态识别的具体应用。为了验证本方法的有效性，对5个测试批次数据分别进行了模态识别实验。图2、图3分别为上述步骤中测试批次3的基于模糊C均值聚类算法的模态粗划分结果和基于贝叶斯统计分析的模态识别结果，图4为所述步骤三中所建立的贝叶斯网络分类器模型结构图。对比图2、图3不难发现，模糊C均值聚类方法对间歇过程的模态识别结果中出现时间上不连续的样本点被划分为同一模态，这与实际过程相违背；而本发明方法用于间歇过程模态识别时，充分考虑了间歇过程数据的时序约束，能有效避免这一现象，具有更准确的模态识别结果。

为了进一步表现本发明模态识别结果的准确性，将DBI(Davies-Bouldin Index)指标作为间歇过程模态识别划分准确性的评价指标，该指标用内类样本点到其数据中心的距离估计类内的紧致性，用数据中心之间的距离表示类间的分离性，其值由式(19)确定，值越小表示模态识别结果越准确。

式中，

D_ij＝d(v_i，v_j)为第i类与第j类之间的距离；e_i和e_j分别为C_i和C_j类的平均误差；

表2、表3分别本发明方法与模糊C均值聚类算法对为5个测试批次数据模态识别结果的DBI指标值。

表2本发明方法模态识别DBI

表3模糊C均值聚类模态识别DBI

结合上述分析并由表2、表3对比可得，本发明方法充分考虑了间歇过程数据的时序约束，利用贝叶斯分析实现了间歇过程稳定模态与过渡模态的有效划分，具有较高的间歇过程模态识别准确性。