CN113012766A

CN113012766A - 一种基于在线选择性集成的自适应软测量建模方法

Info

Publication number: CN113012766A
Application number: CN202110459338.3A
Authority: CN
Inventors: 金怀平; 黄成�
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-06-22
Anticipated expiration: 2041-04-27
Also published as: CN113012766B

Abstract

本发明公开了一种基于在线选择性集成的自适应软测量建模方法，属于工业过程软测量建模领域。本发明针对过程数据呈现时变性、非线性、多模式、多时段等特性导致常规软测量建模方法不佳的问题，引入局部建模方法构建多样性的子模型，实现对复杂过程特征的精准描述，采用选择性集成思想对子模型进行自适应融合，从而实现对关键性能指标的准确估计。首先，结合K‑means和KNN的优势构建多样性的局部区域，同时建立相应的局部模型，随后采用概率分析剔除冗余区域和对应的局部模型。此外，在在线预测阶段，采用最近获得的历史样本作为验证集选择最佳候选局部模型，并确定模型集成权重，然后实现局部预测结果的自适应融合。

Description

一种基于在线选择性集成的自适应软测量建模方法

技术领域

本发明涉及工业过程控制领域，尤其涉及一种基于在线选择性集成的自适应软测量建模方法。

背景技术

工业过程的实时在线监测与控制已经成为提高企业生产效率和保障生产安全的重要手段，这很大程度取决于过程关键产品质量指标的测定。在许多情况下,由于恶劣的测量环境、昂贵的测量仪器及测量滞后性等因素,不能及时对关键产品质量参数进行在线检测。为此,软测量技术通过建立难测主导变量与易测辅助变量之间的数学模型,来实现对主导变量的预测估计。

对于现代工业生产中涉及复杂的操作条件，传统的单一软测量模型不再适用，多模式建模成了必然选择。对于具有单个全局模型的非线性建模，一种众所周知的替代方法是采用多个局部模型，它们也能够捕获过程状态的非线性。多个局部建模的本质是将模型输入空间划分为多个区域，每个区域都由一个局部模型覆盖。通过足够精细的分区，可以使用简单的线性模型准确地对每个局部区域中的过程特征进行建模。其中一种典型的在线局部区域建模是即时学习，它通过在线选择查询点的相似样本构建局部模型，完成预测后抛弃模型，然后等待下一次预测的到来。另外一种局部区域的构建是在离线阶段完成所有局部模型的构建，然后在线预测时根据具体需求选择一个、多个或全部局部模型参与预测，最后将预测值融合预测输出。后者的离线局部学习建模方法也可称为集成学习，这种方法在工业过程的软感建模中被广泛使用，也可以进一步提高模型的非线性处理能力。

由上述背景可知集成学习对于处理过程数据十分重要，其首要任务是划分多个局部区域。但是在工业过程中，不同时段操作模式之间通常难以确定明确的界限，传统的划分方法难以处理过程的过渡特征，所以本发明结合K-means和KNN的优势构建多样性的局部区域。随后，局部模型的融合也十分重要。较为常见的集成方法是简单平均，但研究发现加权平均更为有效。加权集成又可分为非自适应集成和自适应集成。非自适集成方法中，可使用线性回归确定权值，或者使用非线性回归模型来描述局部输出值与集成输出值之间的关系。非自适应集成方法倾向于赋予训练性能高的模型更大的权重，这可能导致过拟合，从而降低泛化性能。而且由于过程的时变特性，非自适应加权方法也变得不合时宜。

此外，选择合理的基模型集成方法也是至关重要的。在产生大量的基模型之后，难免会存在部分基模型相关性强、性能不佳的现象。如果将所有基模型用于集成，会造成集成建模复杂度提升，甚至恶化预测性能。所以本发明在线预测阶段，采用最近获得的历史样本作为验证集选择最佳候选局部模型，并确定模型集成权重，来实现局部预测结果的自适应融合。

发明内容

本发明为了解决软测量建模在工业过程应用中由于过程特征变化造成的模型性能逐步退化等问题，提出一种基于在线选择性集成的自适应软测量建模方法，该方法融合了JIT学习、移动窗口、选择性集成学习和自适应更新机理，有效处理过程的时变特征，遏制模型性能的恶化，实现工业过程中关键参数的在线估计。

本发明针对过程数据呈现时变性、非线性、多模式、多时段等特性导致常规软测量建模方法不佳的问题，引入局部建模方法构建多样性的子模型，实现对复杂过程特征的精准描述，采用选择性集成思想对子模型进行自适应融合，从而实现对关键性能指标的准确估计。首先，结合K-means和KNN的优势构建多样性的局部区域，同时建立相应的局部模型，随后采用概率分析剔除冗余区域和对应的局部模型。此外，在在线预测阶段，采用最近获得的历史样本作为验证集选择最佳候选局部模型，并确定模型集成权重，然后实现局部预测结果的自适应融合。

为解决上述技术问题，本发明的技术方案如下：一种基于在线选择性集成的自适应软测量建模方法，包括以下步骤：

步骤(1)利用集散控制系统或离线检测的方法，收集工业过程数据D∈R^N×Q，组成用于软测量建模的数据库，通过对工业过程的机理分析，确定与预测变量y∈R^N×L相关的辅助变量x∈R^N×M，辅助变量x即输入变量，x＝{x₁,x₂,...,x_n}∈R^N×M，N和M分别表示样本个数和过程变量个数；将不容易测量的质量变量作为输出，即y＝{y₁,y₂,...,y_n}∈R^n×1；

步骤(2)对数据库中的所有样本进行归一化处理，并将其分为训练集D_train∈R^J×Q和测试集D_test∈R^T×Q，其中训练集用于模型的训练，测试集用于模型性能的评估；J和T分别表示训练集和测试集样本个数；

步骤(3)利用K-means在训练集D_train上训练得到最终的聚类中心；

步骤(4)使用步骤(3)中得到的聚类中心依托于KNN建立局部区域，并基于概率分析方法将得到的局部区域进行冗余检测，移除相应的冗余区域，最终得到M个局部区域由此构建一组高斯过程回归基模型{GPR₁,…,GPR_m}；

步骤(5)对查询点进行归一化处理，基于JIT即时学习思想，从距离查询点最近的数据库中搜索出查询点最为相似的历史样本作为验证集评估局部模型的预测性能，并根据查询点的相似样本的预测性能进行排序，来确定高斯过程回归基模型的集成权值；

步骤(6)对步骤(4)中所得的M个GPR模型进行选择集成，选择预测精度较高的M_select个GPR模型通过贝叶斯原理进行自适应加权集成预测输出，最终得到测试样本点x_new的预测输出，此外，x_new基于移动窗口的方式更新验证集数据库；

步骤(7)将步骤(6)中的集成结果反归一化作为最终预测结果，并根据预测结果最终实现对工业过程数据的在线测量，当新的在线数据到来时重复步骤(5)至步骤(7)。

进一步地，所步骤(3)中K-means在训练集D_train上确定聚类中心具体过程为：

(a)随机选取k个中心，记为

(b)定义损失函数：

令t＝0,1,2,...为迭代步数，重复如下过程直到J收敛：

①对于每一个样本，将其分配到距离最近的中心

②对于每一个类中心k，重新计算该类的中心

最终确定并获得k个聚类中心点。

进一步地，所述步骤(4)具体过程为：

(a)建立局部区域：基于步骤(3)中的k个聚类中心点使用KNN构建局部区域，按照距离中心点最小的原则，将所有的历史数据分到各中心点的类中以此划分局部区域，其中相似度或称距离用欧式距离来度量：

dist_ed(x,y)＝||x-y||² (4)

(b)去除冗余：对于基于KNN构建的局部区域，假设其中m个局部区域LD_m(m<K)之间没有冗余问题，接着判断LD_new是否与旧有局部区域是否冗余，这里不需要判断

中的所有局部区域，而需要注意p(LD_m|x_new)最大的一个；冗余判定阈值是由新的局部区域数据属于LD_new的后验概率决定的，选择一个新的中心点作为查询点x_new基于KNN局部化策略建立一个新的局部区LD_new，随后根据设定的冗余度判定阈值检测比较新的中心点在新旧局部区域上的后验概率来判定LD_new是否与

中的局部区域冗余；

其中去除冗余问题的具体过程如下：

①将局部区域LD_m的输入数据集X_m视为服从多元高斯分布，因此可将本地局部区域数据的概率密度函数定义为一个概率数据描述模型(PDD)：

其中，μ_m是一个d维均值向量，∑_m是d×d阶协方差矩阵，|∑_m|表示∑_m的行列式，μ_m和∑_m由X_m估计获得，用于确定PDD_m模型；

②x_new属于不同局部区域的后验概率可根据贝叶斯推理策略进行如下推测：

③p(LD_m)和p(x_new|LD_m)分别为先验概率和条件概率，p(x_new|LD_m)由式(5)计算，

由于缺乏理论指导，假设每个局部区域的先验概率相等：

另外，新建的局部区域数据x_i∈X_new属于LD_new的后验概率可以如下计算：

④根据上述得到的后验概率值，将新旧本地区之间的冗余性指标J_new和冗余性判断阈值定义为以下：

其中，median{·}表示中值算子；γ用于调节两个局部区域之间的容许冗余度，γ越大冗余识别阈值越高，创建新的局部区域的可能性越高；如果

则将LD_new保存为LD_M；否则将放弃LD_new；

重复上述步骤，直至在所有的聚类中心上依次建立新的局部区域并执行冗余判别，最终得到较小冗余度的M个局部建模区域{LD₁,…LDk,…LD_m}，并将第k个数据集表示为

(c)建立高斯过程回归基模型{GPR₁,…,GPR_m}：

对D_k中的样本x_*，第k个基GPR_k模型的局部预测输出

服从高斯分布：

所述GPR_k模型可描述为：

其中，k_k,*＝[C(x_*,x_k,1),…,C(x_*,x_k,n)]^T，

和

分别为基模型GPR_k的预测均值和方差。

进一步地，所述步骤(5)具体过程为：

①从距离查询点最近的验证集数据库中选择x_new的相似样本，在JIT学习中有很多

相似度指标，在此仅选用传统的欧氏距离相似度：

dist_ed(x,y)＝||x-y||² (13)

②评估局部模型对相似样本集的预测精度，选择一个相似样本集Z_sim＝[X_sim,y_sim]，局部模型对相似样本的预测RMSE可计算为：

其中，

和y_sim,i分别表示来自相似样本集的预测值和实际值；RMSE_m表示第m个局部模型对Z_sim的预测精度。

进一步地，所述步骤(6)具体过程为：

选择了M_c∈[1,M]个最相关的局部模型用于贝叶斯集成学习，模型索引为{q₁,q₂,…,qc}，则集成公式写为：

更新验证集数据库：通过应用MW更新策略，往数据库中添加一个新样本的同时从中移除最旧的样本，以此保持数据库样本数不变；

在时刻t的输入数据矩阵为：

在t+1时刻对X^(t)执行MW更新操作后，新的局部区域数据矩为：

与现有技术相比，本发明具有以下有益效果：由于工业过程中非线性、时变性、多模式/多时段性等多种特征共存的现象普遍存在，本发明所提出的基于一种在线选择性集成的自适应软测量建模方法，从局部学习的角度出发，基于k-means和KNN构建局部区域并通过概率分析策略去除较大冗余的局部区域，并在构建好的局部区域建立对应的局部模型。然后借鉴即时学习思想估计局部模型对查询点相似样本的预测结合贝叶斯推理策略对部分最佳的局部模型进行自适应集成。以此达到有效处理过程的时变特征，提升模型性能，实现工业过程中关键参数的在线估计的目的，预测精度高。

附图说明

图1为OSEGPR软测量建模流程图；

图2为金霉素化工过程中基于全局GPR方法的金霉素成分底物浓度预测趋势曲线图；

图3为金霉素化工过程中基于全局PLS方法的金霉素成分底物浓度预测趋势曲线图；

图4为金霉素化工过程中基于FMGPR方法的金霉素成分底物浓度预测趋势曲线图；

图5为金霉素化工过程中基于OSEGPR方法的金霉素成分底物浓度预测趋势曲线图；

表1为金霉素发酵过程输入变量描述；

具体实施方式

以下结合附图和具体实施例对本发明的技术方案作进一步详细说明。

实施例1：在本实施例中，以金霉素发酵过程为例，针对关键预测变量金霉素基质浓度选择9个辅助变量作为原始输入，金霉素基质浓度作为软测量模型的输出，具体的辅助输入变量如表1所示。针对金霉素数据收集了50个批次的训练数据共计1177个；另外测试集收集了32个批次共计804个，在线数据采样间隔为5min，离线化验间隔为4h。

表1金霉素发酵过程输入变量描述

步骤1：采集输入输出样本，构建数据库并确定以上的变量作为输入变量和输出变量。

步骤2：对数据库中的所有样本进行归一化处理，并将其分为训练集和测试集，其中训练集用于模型的训练，测试集用于模型性能的评估；

步骤3：利用K-means在训练集D_train上确定聚类中心；

确定聚类中心具体过程如下：

(a)随机选取K个中心，记为

(b)定义损失函数：

令t＝0,1,2,...为迭代步数，重复如下过程直到J收敛：

①对于每一个样本，将其分配到距离最近的中心

②对于每一个类中心k，重新计算该类的中心

最终获得确定的K个中心点；

步骤4：根据步骤(3)中得到的聚类中心依次使用KNN建立局部区域，并基于概率分析方法将得到的局部区域进行冗余检测和移除相应的冗余局部区域，最终在得到的M个局部区域上构建一组高斯过程回归基模型{GPR₁,…,GPR_m}：

具体过程如下：

(a)建立局部区域：基于步骤(3)中的K个聚类中心点依次使用KNN构建局部区域，按照距离中心点最小的原则，将所有的历史数据分到各中心点的类中以此划分局部区域，

其中相似度(或称距离)用欧式距离来度量：

dist_ed(x,y)＝||x-y||² (4)

(b)去除冗余：对于基于KNN构建的局部区域，假设其中m个局部区域LD_m(m<K)之间没有冗余问题。接着判断LD_new是否与旧有局部区域是否冗余？这里不需要判断

中的所有局部区域，而需要注意p(LD_m|x_new)最大的一个。冗余判定阈值是由新的局部区域数据属于LD_new的后验概率决定的，选择一个新的中心点作为查询点x_new基于KNN局部化策略建立一个新的局部区LD_new，随后根据设定的冗余度判定阈值检测比较新的中心点在新旧局部区域上的后验概率来判定LD_new是否与

中的局部区域冗余。

其中去除冗余问题的具体过程如下：

①对于局部区域LD_m中的输入数据集X_m认为服从多元高斯分布，因此用一个概率数据描述模型(PDD)来描述局部区域数据的概率密度函数：

其中，μ_m是一个d维均值向量，∑_m是d×d阶协方差矩阵，|∑_m|表示∑_m的行列式。μ_m和∑_m由X_m估计获得，用于确定PDD_m模型。

②x_new属于不同局部区域的后验概率可通过贝叶斯推理进行如下推测：

③p(LD_m)和p(x_new|LD_m)分别为先验概率和条件概率，p(x_new|LD_m)由式(5)计算。

由于缺乏理论支撑，假设每个局部区域的先验概率相等：

其中，median{·}表示中值算子；γ用于调节两个局部区域之间的容许冗余度，γ越大冗余识别阈值越高，创建新的局部区域的可能性越高。如果

则将LD_new保存为LD_M；否则将放弃LD_new。

(c)建立高斯过程回归基模型{GPR₁,…,GPR_m}：

对D_k中的样本x_*，第k个基GPR_k模型的局部预测输出

服从高斯分布：

所述GPR_k模型可描述为：

其中，

和

分别为基模型GPR_k的预测均值和方差。

步骤5：对查询点(待判别点)进行归一化处理，从验证集数据库中搜索出查询点最相似的历史样本，然后根据对这些样本的预测对局部模型进行评估，并根据查对询点相似样本集的预测性能进行排序，以此确定后面模型集成权值。具体过程如下：

(a)从验证集数据库中选择x_new的相似样本。在此仅选用传统的欧氏距离相似度：

sim(x_i,x_j)＝exp(-||x_i-x_j||²) (13)

(b)评估局部模型对相似样本集的预测精度，假设选择了一个相似样本集Z_sim＝[X_sim,y_sim]，则局部模型对相似样本的预测RMSE可计算为：

其中，

步骤6：对步骤(5)中所得的M个GPR模型进行选择集成，选择预测精度较高的M_select个GPR模型通过贝叶斯原理进行自适应加权集成测试样本点x_new的预测输出。此外，x_new基于移动窗口的方式更新数据库。具体过程如下：

选择了M_c∈[1,M]个最相关的局部模型用于贝叶斯集成学习，模型索引为{q₁,q₂,…,q_c}，则集成公式写为：

更新验证集数据库：新样本点x_new通过应用MW更新策略，往验证集中添加一个新样本的同时从中移除最旧的样本，以此保持验证集数据库的最新性。

在时刻t的输入数据矩阵为：

在t+1时刻对X^(t)执行MW更新操作后，新的数据库数据矩为：

步骤7：将步骤(6)中的集成结果反归一化作为预测输出，以此达到对工业过程数据的在线测量，当新的在线数据到来时重复步骤(5)至步骤(7)。

本发明实施案例采用均方根误差RMSE和决定系数R²对预测效果进行验证，计算公

式如下:

其中，N_test为测试样本的数目，

y_test和

分别为估计值、实际值和实际输出的均值。本案例比较了如下方法：(1)GPR全局模型；(2)PLS全局模型；(3)基于高斯过程回归的有限混合(FMGPR)模型。实验结果如表2和图2-图5所示。

表2不同软测量方法在CTC化工过程中的预测误差

表1对比了不同建模方法的预测效果，可以看出，OSEGPR模型预测效果明显优于GPR、PLS和FMGPR模型。相比于GPR和PLS，选择性集成策略的引入使得OSEGPR模型具有良好的预测性能，并且减小了集成复杂度。此外，K-means和KNN构建局部区域的方式使得OSEGPRR充分利用了过程特征和建模样本的信息，增强了基模型的多样性，同时集成模型也具有良好的稳定性。图5是本申请方法在CTC化工过程中对金霉素底物浓度成分的预测曲线图，由图可知，该方法具有较好的预测性能。

上述实例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求保护范围内，对本发明做出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于在线选择性集成的自适应软测量建模方法，其特征在于，包括以下步骤：

步骤(1)利用集散控制系统或离线检测的方法，收集工业过程数据D∈R^N×Q，组成用于软测量建模的数据库，通过对工业过程的机理分析，确定与预测变量y∈R^N×L相关的辅助变量x∈R^N×M，辅助变量x即输入变量，x＝{x₁,x₂,...,x_n}∈R^N×M，将不容易测量的质量变量作为输出，即y＝{y₁,y₂,...,y_n}∈R^n×1；其中，N和M分别表示样本个数和辅助变量个数，L为预测变量个数，Q为过程数据总的变量个数；

步骤(4)使用步骤(3)中得到的聚类中心基于KNN建立对应的局部区域，随后根据概率分析方法将得到的局部区域进行冗余检测，移除冗余区域，最终得到M个局部区域由此构建一组高斯过程回归基模型{GPR₁,…,GPR_m}；

步骤(5)对查询点进行归一化处理，基于JIT即时学习思想，从距离查询点最近的数据库中搜索出查询点最为相似的样本作为验证集评估局部模型的预测性能，并根据对相似样本的预测性能进行排序，为后面挑选高斯过程回归基模型集成做准备；

步骤(6)对步骤(4)中所得的M个GPR模型进行挑选参与后面的集成，根据步骤(5)选择预测精度较高的M_select个GPR模型通过贝叶斯原理进行自适应加权集成预测输出，最终得到测试样本点x_new的预测输出，此外，x_new基于移动窗口的方式更新验证集数据库；

2.根据权利要求1所述的基于在线选择性集成的自适应软测量建模方法，其特征在于，所述步骤(3)中K-means在训练集D_train上确定聚类中心具体过程为：

(a)随机选取k个中心，记为