CN102830624A

CN102830624A - 基于自学习统计分析的聚丙烯生产过程半监督监测方法

Info

Publication number: CN102830624A
Application number: CN2012103320445A
Authority: CN
Inventors: 葛志强; 宋执环
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2012-09-10
Filing date: 2012-09-10
Publication date: 2012-12-19

Abstract

本发明公开了一种基于自学习统计分析的聚丙烯生产过程半监督监测方法，本发明通过引入自学习策略，将传统聚丙烯过程的数据统计分析方法扩展为半监督的形式。在过程只有少量经过鉴定的样本数据情况下，通过同时引入大量未鉴定的过程数据，实现聚丙烯过程的半监督建模和监测。相比目前的其它过程监测方法，本发明不仅可以大大提高聚丙烯生产过程的故障误报率和监测效果，而且在很大程度上降低了聚丙烯过程监测的复杂性，可以大量减少人力、物力和财力，对聚丙烯过程的工业自动化实施无疑是非常有利的。

Description

基于自学习统计分析的聚丙烯生产过程半监督监测方法

技术领域

本发明属于聚丙烯工业生产过程的安全监测和质量控制领域，特别涉及一种基于自学习统计分析的半监督过程监测方法。

背景技术

作为一种重要的材料，聚丙烯在很多工业中都有着非常广泛的应用。近年来，随着聚丙烯生产过程自动化水平的进一步提升，过程的安全可靠性以及产品的质量问题日益引起人们的关注。以主元分析模型为代表的数据驱动方法开始在聚丙烯生产过程的监测中得到应用。但是，传统的数据模型均假设过程的数据是完好并且是经过严格鉴定为正常的数据。然而，在实际过程中，数据正常与否通常需要经过严格的筛选和剔除，步骤往往很复杂，某些变量的鉴定可能非常昂贵，这就需要企业投入一定的人力、物力和财力。因此，如果能同时针对已经鉴定的少量数据和大量未经鉴定的数据进行建模，不仅能有效挖掘未鉴定数据集中的有用信息来改善统计分析模型的不足，企业又能节省不少人力、物力和财力。半监督学习是解决该问题的一个有效方法，其中，自学习又是半监督学习中最简单实用的一种技术。因此，如果能将自学习方法和传统的主元分析模型相结合，不仅能对聚丙烯生产过程进行有效的监测，而且由于该方法简单实用，非常有利于过程自动化技术的整合。

发明内容

本发明的目的在于针对现有聚丙烯过程监测方法的不足，提供一种基于自学习统计分析的半监督监测方法。

本发明的目的是通过以下技术方案来实现的：一种基于自学习统计分析的聚丙烯生产过程半监督监测方法，包括以下步骤：

（1）利用集散控制系统收集聚丙烯生产过程的数据组成建模用的二维训练样本集：X∈R^n×m。其中，n为样本数据集的个数，m为样本数据集的变量个数。将这些数据存入历史数据库。

（2）将数据集分为两个不同的部分，其中一个部分是经过人为鉴定为正常的过程数据，记为

其中n₁为已鉴定样本数据集的个数，m为该样本数据集的变量个数；另一部分为未鉴定的过程数据，记为其中n₂为未鉴定样本数据集的个数，m为该样本数据集的变量个数。

（3）针对已鉴定的数据样本集，对其进行归一化处理，建立基于主元分析的数据统计监测模型，确定主元的方向和个数。

（4）在分析主元和残差的基础上，建立监测统计量，并确定相应的统计限。

（5）基于初始的主元统计分析模型，对未鉴定数据集中的数据进行自动标记，计算相应的主元和监测统计量值。

（6）在监测统计量的基础上，建立未鉴定样本的置信度指标，衡量其在上一步主元分析模型中的可信程度。

（7）基于样本的置信度分析结果，选取部分具有高置信度的样本进入下一轮的自学习建模，并调整鉴定样本集和未鉴定样本集的数据库。

（8）经过多轮自学习建模和模型参数调整，得到最终的主元统计分析模型。

（9）收集新的过程数据，并对其进行预处理和归一化。

（10）利用自学习得到的最终主元分析模型计算新数据的主元，并得到监测统计量的值，判断当前过程的运行状态。

本发明的有益效果是：本发明通过引入自学习策略，将传统聚丙烯过程的数据统计分析方法扩展为半监督的形式。在过程只有少量经过鉴定的样本数据情况下，通过同时引入大量未鉴定的过程数据，实现聚丙烯过程的半监督建模和监测。相比目前的其它过程监测方法，本发明不仅可以大大提高聚丙烯生产过程的故障误报率和监测效果，而且在很大程度上降低了聚丙烯过程监测的复杂性，可以大量减少人力、物力和财力，对聚丙烯过程的工业自动化实施无疑是非常有利的。

附图说明

图1是本发明方法中初始主元分析模型对聚丙烯生产过程测试数据的监测结果；

图2本发明方法中最终主元分析模型对聚丙烯生产过程测试数据的监测结果；

图3是自学习过程中得到的所有主元分析模型对应于测试数据集的误报率；

具体实施方式

本发明针对聚丙烯生产过程的监测问题，首先利用集散控制系统收集该过程的数据，对其进行必要的预处理和归一化，然后将整个数据集分为鉴定数据集和未鉴定数据集。针对鉴定数据集，建立一个初始的主元分析模型，并建立监测统计量的控制限。基于自学习半监督建模策略，不断地对未鉴定数据集中的样本进行评价，利用其监测统计量建立置信度衡量指标。在每一步迭代学习过程中，选取置信度高的样本进入下一轮自学习建模，不断地更新主元分析模型，直到整个自学习过程结束。对新的批次数据进行监测的时候，首先利用建模数据的均值和标准差对其进行归一化处理，得到标准数据之后，再利用自学习建模得到的最终主元分析模型提取该数据的主元，计算监测统计量的值，实现对聚丙烯生产过程的在线监测。

本发明采用的技术方案的主要步骤分别如下：

第一步：利用集散控制系统收集聚丙烯生产过程的数据组成建模用的二维训练样本集：X∈R^n×m。其中，n为样本数据集的个数，m为样本数据集的变量个数。将这些数据存入历史数据库。

第二步：将数据集分为两个不同的部分，其中一个部分是经过人为鉴定为正常的过程数据，记为

其中n₁为已鉴定样本数据集的个数，m为该样本数据集的变量个数；另一部分为未鉴定的过程数据，记为

其中n₂为未鉴定样本数据集的个数，m为该样本数据集的变量个数。

第三步：针对已鉴定的数据样本集X₁，对其进行归一化处理，建立基于主元分析的数据统计监测模型，确定主元的方向和个数。

对鉴定样本集数据进行预处理和归一化，即使得各个过程变量的均值为零，方差为1，得到新的数据矩阵集。该步骤的主要目的是为了使得过程数据的尺度不会影响到监测的结果。通过归一化之后，不同过程变量的数据就处在相同的尺度之下，既而不会影响到后续的监控效果。然后，对该数据集进行主元分析，把原空间分为主元空间和残差空间，选取合适的主元个数，得到的载荷矩阵P和得分矩阵T，并获得建模的残差，即：

X_{1} = T \cdot P^{T} + \tilde{T} \cdot {\tilde{P}}^{T};

第四步：在分析主元和残差的基础上，建立过程监测用的统计量，并确定相应的统计限；

在主元分析模型的基础上，通过构造以下两个统计量来实现对过程的监测：

T²=t^TΛt;SPE=e^Te；

其中，t为得分矩阵中的向量，对应于一个过程数据的主元变量，

为当前数据的估计残差。为了对数据的状态进行衡量，我们需要建立T²和SPE统计量的监测统计限和SPE_lim，即：

T_{\lim}^{2} = \frac{k (n_{1} - 1)}{n_{1} - k} F_{k, (n_{1} - k), α};

{SPE}_{\lim} = g χ_{h, α}^{2};

其中，F代表F形式的统计分布，χ²为χ²形式的统计分布，α为统计置信度，g=var(SPE)/[2mean(SPE)]，h=2[mean(SPE)]²/var(SPE)，其中mean(SPE)和var(SPE)分别为SPE统计量的均值和方差。

第五步：基于初始的主元统计分析模型，对未鉴定数据集中的数据进行自动标记，计算相应的主元和监测统计量值；

基于初始的主元分析模型，计算未鉴定数据集中样本x₂的主元和残差，即：

t₂=x₂P；

e_{2} = x_{2} - {\hat{x}}_{2} = x_{2} - {Pt}_{2};

其中，t₂为样本x₂对应的主元变量，e₂为其残差值。在此基础上，计算T²和SPE统计量如下：

T_{2}^{2} = t_{2}^{T} Λ t_{2};

{SPE}_{2} = e_{2}^{T} e_{2} .

第六步：在监测统计量的基础上，建立未鉴定样本的置信度指标，衡量其在上一步主元分析模型中的可信程度；

在监测统计量的基础上，建立未鉴定样本的置信度指标Q，定义如下：

Q_{2} = \frac{\sqrt{e^{- \frac{T_{2}^{2}}{T_{\lim}^{2}}}} + \sqrt{e^{- \frac{{SPE}_{2}}{{SPE}_{\lim}}}}}{2};

上式中e为指数函数。这样，置信度指标Q就介于0和1之间，Q越靠近1说明样本的可信度越高，反之，说明样本的可信度越低。

第七步：基于样本的置信度分析结果，选取部分具有高置信度的样本进入下一轮的自学习建模，并调整鉴定样本集和未鉴定样本集的数据库；

第八步：经过多轮自学习建模和模型参数调整，结束自学习过程，得到最终的主元统计分析模型；

第九步：收集新的过程数据，并对其进行预处理和归一化；

第十步：利用自学习得到的最终主元分析模型计算新数据的主元，并得到监测统计量的值，判断当前过程的运行状态；

基于自学习建模所得到的最终主元分析模型，计算新数据样本x_new的主元和残差，即：

t_new=x_newP_f；

e_{new} = x_{new} - {\hat{x}}_{new} = x_{new} - P_{f} t_{new};

其中，t_new为样本x_new对应的主元变量，e_new为其残差值，P_f为最终的主元模型对应的主元方向。在此基础上，计算

和SPE_new统计量如下：

T_{new}^{2} = t_{new}^{T} Λ_{f} t_{new};

{SPE}_{new} = e_{new}^{T} e_{new};

其中，Λ_f为最终的主元模型对应的特征向量对角矩阵。当或者SPE_new的时候，我们就认为该数据样本为异常样本，过程发生了某种故障，转而进行故障的进一步分析和诊断；否则，不断地利用主元分析模型对新的过程数据进行在线监测。

下面结合一个具体的聚丙烯生产过程例子来说明本发明方法的有效性。该过程的数据来自国内某个大型的化工厂，一共采集了700个数据样本，其中，只有50个样本是经过鉴定为正常的样本，另外的650个样本则没有经过人工鉴定。因此，鉴定数据样本集一共包含50个数据，而没有经过鉴定的650个样本被分为两个部分，其中450用来组成未鉴定样本集参与自学习半监督建模，另外200个数据样本用来验证。为了对该过程进行监测，一共选取了14个过程变量，如表1所示。

表1：聚丙烯过程监测变量

序号	变量	序号	变量
				1	第一反应器的氢气浓度	8	第一反应器丙烯进料
2	第二反应器的氢气浓度	9	第二反应器丙烯进料
				3	第一反应器的密度	10	第一反应器功率
4	第二反应器的密度	11	第二反应器功率
				5	三乙基铝流量	12	第二反应器液位
6	二苯基二甲氧基硅烷流量	13	第一反应器温度
				7	抗静电剂流量	14	第二反应器温度

接下来结合该具体过程对本发明的实施步骤进行详细地阐述：

1.采集过程数据，数据预处理，建立初始的主元分析模型

对收集到的50个有效正常数据样本进行预处理，去掉均值和方差，建立初始的主元分析模型，利用累积方差贡献率原则，选取的主元个数为6个，即：

Σ_{i = 1}^{6} λ_{i} / Σ_{i = 1}^{14} λ_{i} &GreaterEqual; 85 %;

得到T²和SPE统计量的统计限分别为21.2912和6.3783。

2.基于自学习策略的半监督数据建模

利用初始的主元分析模型，对未鉴定的450个样本数据进行置信度衡量，首先计算各个样本的统计量值，再利用T²和SPE统计量计算置信度值，对其从大到小进行排列，选取10个具有最大置信度的样本进入下一轮的自学习建模，更新鉴定数据集和未鉴定数据集的数据库。针对新的鉴定数据集，建立新的主元分析模型，更新模型库中的主元分析模型参数。进行45轮自学习半监督建模步骤，结束该过程，确定最终的主元分析模型，并保存各个步骤所得到的主元分析模型参数，存入模型库中。

3.获取当前监测数据信息，并对其进行预处理和归一化

为了测试新方法的有效性，对200个测试数据进行测试，首先是利用模型库中的均值和方差对其进行归一化处理，使得该测试数据和建模数据具有相同的尺度。

4.聚丙烯生产过程在线监测

首先利用初始的主元分析模型对这200个测试数据进行监测，得到的监测结果如图1所示。从该图中可以看到，由于鉴定数据集的样本个数有限，建立的主元分析模型对正常过程数据具有很大的误报率，计算所得的T²和SPE统计量值基本都在其统计限之上，这说明初始主元分析模型给出的监测统计限是不合理的。随着自学习半监督建模过程的进行，不断地有新的高置信度数据加入到建模数据库中，在每一轮学习中，主元分析模型的参数均得到了更新。图2给出最终主元分析模型对200个测试数据的监测结果，虽然还是有一定的误报现象存在，但是相比初始的主元分析模型，已经有了质的改进，这说明我们建立的自学习半监督主元统计分析模型是非常有效的。另外，图3给出了所有自学习过程中的主元分析模型对应的误报率，两条曲线分别对应T²和SPE统计量。从该图中可以看出，随着自学习过程的进行，我们所得到主元分析模型监测性能越来越好，即对正常数据样本的误报率越来越低。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于自学习统计分析的聚丙烯生产过程半监督监测方法，其特征在于，包括以下步骤：

（9）收集新的过程数据，并对其进行预处理和归一化。

2.根据权利要求1所述基于自学习统计分析的聚丙烯生产过程半监督监测方法，其特征在于，所述步骤3具体为：针对已鉴定的程数据集，首先对其进行归一化处理，即去掉每个数据变量的均值和方差，然后建立主元分析模型，具体可以通过对协方差矩阵

进行特征值分解实现。通过主元分析，可以把原空间分为主元空间和残差空间，得到的载荷矩阵P∈R^m×k和得分矩阵如下：

T=X₁·P;

其中，k为选取的主元个数，T为主元空间的得分矩阵，

为残差空间的得分矩阵，Λ=diag{λ₁,λ₂,…,λ_m}为主元分解得到的特征值矩阵，并满足以下关系diag{λ₁,λ₂,…,λ_k}=var(T)=T^TT/(n₁-1)。这样主元分析模型就把原来的过程操作空间分为两个子空间，即主元空间P∈R^m×k和残差空间

3.根据权利要求1所述基于自学习统计分析的聚丙烯生产过程半监督监测方法，其特征在于，所述步骤4具体为：在主元分析模型的基础上，通过构造以下两个统计量来实现对过程的监测：

T²=t^TΛt;SPE=e^Te；

为当前数据的估计残差。为了对数据的状态进行衡量，我们需要建立T²和SPE统计量的监测统计限

和SPE_lim，即：

4.根据权利要求1所述基于自学习统计分析的聚丙烯生产过程半监督监测方法，其特征在于，所述步骤5具体为：基于初始的主元分析模型，计算未鉴定数据集中样本x²的主元和残差，即：

t₂=x₂P；

。

5.根据权利要求1所述基于自学习统计分析的聚丙烯生产过程半监督监测方法，其特征在于，所述步骤(6)具体为：在监测统计量的基础上，建立未鉴定样本的置信度指标Q，定义如下：

6.根据权利要求1所述基于自学习统计分析的聚丙烯生产过程半监督监测方法，其特征在于，所述步骤10具体为：基于自学习建模所得到的最终主元分析模型，计算新数据样本x_new的主元和残差，即：

t_new=x_newP_f；

和SPE_new统计量如下：

其中，Λ_f为最终的主元模型对应的特征向量对角矩阵。当

或者SPE_new的时候，我们就认为该数据样本为异常样本，过程发生了某种故障，转而进行故障的进一步分析和诊断；否则，不断地利用主元分析模型对新的过程数据进行在线监测。