CN111914492A

CN111914492A - 一种基于进化优化的半监督学习工业过程软测量建模方法

Info

Publication number: CN111914492A
Application number: CN202011014614.7A
Authority: CN
Inventors: 金怀平; 李拯; 胡保林
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-04-28
Filing date: 2020-09-24
Publication date: 2020-11-10
Anticipated expiration: 2040-09-24
Also published as: CN111914492B

Abstract

本发明公开了一种基于进化优化的半监督学习工业过程软测量建模方法。所述方法用于解决工业过程中有标签数据获取较少、无标签数据丰富导致传统软测量模型预测性能精度不高的问题。本发明采用进化优化的方式对无标签数据中随机选取的样本进行伪标签估计，将获得的伪标签数据加入到有标签数据中通过高斯过程回归进行混合建模，有效的提升了传统软测量模型的性能。此外，对无标签数据进行小批量随机选取优化将带来多样性的伪标签数据优化结果，通过融合集成学习的思想，能够进一步提升模型的预测准确性和稳定性，从而使得工业过程的控制和监测更加安全可靠。

Description

一种基于进化优化的半监督学习工业过程软测量建模方法

技术领域

本发明涉及工业过程控制领域，尤其涉及一种基于进化优化的半监督学习工业过程软测量建模方法。

背景技术

随着现代信息技术的迅猛突破，化工、石油、医药和冶金等过程工业领域已向规模扩大化、工艺复杂化和节能环保化方向快速发展，受限于技术或经济方面的因素，诸如仪表检测和离线分析等常规的检测手段已经无法实现对关键过程变量的在线测量来满足生产的需求。软测量技术作为一种重要的间接测量手段，近年来，以构建辅助变量和主导变量之间数学关系模型为核心的软测量技术已经成为各种先进自动化技术成功实施的基础和关键。

传统的软测量模型的构建需要的过程数据应同时包含输入输出的有标签数据，但在实际过程工业中，相对于容易获取的无标签数据，有标签数据往往难以获取，十分稀少，这就导致了大量包含过程有益信息的无标签数据被浪费，以及传统软测量模型性能不佳的问题。于是，能够用利用这些丰富的无标签数据来提升软测量模型性能的半监督学习软测量建模方法在工业过程中日益受到关注和重视。

然而，如自训练、协同训练等现存的半监督软测量模型存在着伪标签估计严重依赖初始模型性能、难以对伪标签数据的置信度有效评估、迭代学习易带来误差累积和较大的计算负担等问题。为了避免这些问题，充分挖掘无标签数据中的过程有益信息，进化优化作为一种自适应、随机、全局搜索的启发式算法，为找到更准确的伪标签提供了极大可能。

发明内容

本发明为了解决传统软测量建模在工业过程应用中的模型性能受限于稀少的有标签数据，提出了一种基于进化优化的半监督学习工业过程软测量建模方法，该方法能充分利用有标签数据和无标签数据的有益信息，有效改善上述问题，实现工业过程中关键参数的在线估计。

为解决上述技术问题，本发明的技术方案如下：一种基于进化优化的半监督学习工业过程软测量建模方法，包括以下步骤：

步骤(1)利用集散控制系统或离线检测的方法，收集工业过程数据构建软测量模型所用的数据库；所收集数据包括同时包含辅助变量和预测变量的有标签数据集L∈R^N×Q，也包括只含有辅助变量的无标签数据集U∈R^K×J，其中，N和Q分别表示有标签数据的样本个数和过程变量个数，K和J分别表示无标签数据的样本个数和辅助变量个数；

步骤(2)对数据库中的样本进行归一化处理，获得新的数据集

和

其中，M和D分别为有标签样本和无标签样本的变量个数；

步骤(3)针对工业过程中呈现出的非线性特性，选择高斯过程回归模型作为基学习器；

步骤(4)采用进化优化的方法对随机抽取的无标签数据进行预测变量的优化估计，获得带有估计输出的无标签数据，即伪标签数据，得到的伪标记数据将尽可能逼近原始工业过程数据的分布；

步骤(5)将获得的伪标记数据加入到有标签数据库中得到混合训练数据建立高斯过程回归软测量模型；

步骤(6)重复步骤(2)至(4)，直到达到预设次数Z时终止，获得Z个混合不同伪标记数据建立的高斯过程回归软测量模型；

步骤(7)收集新的工业过程在线测量数据，并进行归一化处理；

步骤(8)将归一化处理后的测量数据直接输入到步骤(6)中建立好的Z个高斯过程回归软测量模型中得到Z个预测输出，将获得的Z个预测输出进行集成的结果反归一化后作为最终预测结果，并根据预测结果最终实现对工业过程的监测和控制。

进一步地，所述步骤(3)中高斯过程回归模型GPR的建立过程为：

假设有数据集

对数据集D中的每个样本x_*在高斯过程回归模型中的预测输出

服从高斯分布：

式(1)中，E(.)和Var(.)分别表示均值和方差算子。

所述高斯过程回归模型可描述为：

式(2)中，k_*＝[C(x_*，x₁)，…，C(x_*，x_n))]^T，C是一个由X中每个样本彼此之前作协方差组成的nxn阶对称正定矩阵，

和

分别为高斯过程回归模型的预测均值与方差。

进一步地，所述步骤(4)获得伪标签数据的具体过程为：

1)从无标签数据集

中随机抽取S个样本得到待优化无标签样本集u∈R^S×D，采用进化优化算法(遗传算法)对u＝{x_u1，...，x_uS}进行伪标签优化估计，目标优化问题描述如下：

式(3)中f(x)为待优化的目标函数；x为待优化的决策变量；lb和ub分别为变量x的下限和上限约束；

2)利用数据集

建立高斯过程回归模型GPR，利用该模型对无标签样本集{x_u，1，…，x_u，S}进行预测得到估计输出y_u＝{y_u，1，...，y_u，S}和预测方差σ²＝{σ² _u，1，…，σ² _u，S}，x的上限为ub＝y_u+3σ²，下限为lb＝y_u-3σ²；

3)确定目标函数f(x)，在所提方法中f(x)由三个部分组成，分别为训练误差RMSE_u、预测可靠度STD_u和邻近偏差error_diff；其中，训练误差为优化得到的伪标签样本对训练样本的预测变量进行预测的均方根误差，预测可靠度为GPR模型预测时得到的预测方差所获得，邻近偏差为无标签样本的优化输出与其最近邻标签样本输出的偏差，因此目标函数表示为：

f(x)＝λ*RMSE_u+(1-λ)STD_u+C*error_diff(4)

式(3)中，0≤λ≤1为训练误差和预测方差的平衡系数，C≥0为惩罚参数。

更进一步地，所述训练误差RMSE_u、预测可靠度STD_u和邻近偏差error_diff的计算过程如下：

①训练误差RMSE_u为优化得到的伪标签样本对训练样本的预测变量进行预测的均方根误差，预测可靠度为GPR模型预测时得到的预测方差计算得到，其表示如下：

式(5)和式(6)中，N_trn为训练集

的样本个数，y_trn，i为

和预测变量的真实值，

和σ_trn，i分别为通过混合优化得到的伪标签数据和数据集

建立GPR模型计算得到的预测值和预测方差；

②邻近偏差error_diff为无标签样本的优化输出与其最近邻标签样本输出的偏差，其计算步骤如下：

a、将有标签数据集

随机打乱两次获得新的数据集

和

对数据集

和

中的每个样本按顺序对应求取差值获得差分数据集ΔL₁，将ΔL₁存入用于构建差分模型的数据库；

b、重复a中所述过程T次，剔除差分模型数据库中重复的样本获得新的差分数据集ΔL，利用ΔL建立高斯过程回归模型GPR_diff；

c、根据相似度测量方法为{u，y_u}中的每个样本(x_u，j，y_u，j)，(j＝1，…，S)在数据集

上选择一个最相似的样本，计算该样本与其最相似样本的差值得到差分变量(Δx_u，j，Δy_u，j)，(j＝1，…，S)，其中，相似度测量采用欧式距离相似度，其定义为：

式(7)和式(8)中，d_n表示伪标记样本x_u与训练样本x_n之间的加权欧氏距离，σ_n是

的标准差，

是局部化参数，ω_n为d_n标准化后得到的欧氏距离相似度；

d、调用模型数据库中的GPR_diff模型，将Δx_u，j直接输入到GPR_diff模型中得到预测输出

求Δy_u，j与

之间的偏差，并进行标准化得Δd_j，(j＝1，...，S)，进一步计算Δy_u，j与

之间的误差error_diff：

式(9)中，c为选择变量，c＝1时error_diff为均方误差，c＝2时error_diff为均方根误差；

4)设定初始化种群的数目和种群代数，然后随机产生一个初始种群作为起始解进行优化，当到达最大代数优化停止，选出使目标函数最小化的种群作为伪标记样本优化结果。

作为优选，步骤(4)从

中随机抽取S个样本，S不超过有标签样本个数N。

进一步地，所述步骤(8)具体为：对于Z个不同的高斯过程回归预测模型所得的预测输出，采用简单平均的集成方式进行集成来获得测量数据最终的预测结果。

本发明用于解决工业过程中有标签数据获取较少、无标签数据丰富导致传统软测量模型预测性能精度不高的问题，采用进化优化的方式对无标签数据中随机选取的样本进行伪标签估计，将获得的伪标签数据加入到有标签数据中通过高斯过程回归进行混合建模，有效的提升了传统软测量模型的性能。本发明对无标签数据进行小批量随机选取优化将带来多样性的伪标签数据优化结果，通过融合集成学习的思想，能够进一步提升模型的预测准确性和稳定性，从而使得工业过程的控制和监测更加安全可靠。

与现有技术相比，本发明具有以下有益效果：本发明通过对工业过程关键参数测量而构建的基于进化优化的半监督软测量模型，不仅利用了珍贵的有标签数据，同时也利用了容易获取的无标签数据，解决了传统软测量建模方法无法利用大量包含有益信息的无标签数据导致模型性能降低的问题，在有标签数据数量相同的情况下，模型能够取得比传统监督软测量模型更好的预测效果，这为过程工业的监测和控制提供了十分有利的条件。

附图说明

图1是本发明中基于进化优化的半监督软测量方法的流程图；

图2是传统监督高斯过程回归方法的预测值与真实值的曲线图；

图3是本发明中的方法在工业金霉素发酵过程中基质浓度的预测值与真实值的曲线图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案作进一步详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

第一步：利用集散控制系统或离线检测的方法，收集工业过程数据构建软测量模型所用的数据库。对于所收集数据既包括了同时包含辅助变量和预测变量的有标签数据L∈R^N×Q，也包括只含有辅助变量的无标签数据集U∈R^K×J，其中，N和Q分别表示有标签数据的样本个数和过程变量个数，K和J分别表示无标签数据的样本个数和辅助变量个数。

第二步：对数据库中的样本进行z-score归一化处理，得到新的数据集

和

其中，M和D分别为有标签样本和无标签样本的保留的变量个数。

第三步：根据对工业过程中存在的非线性特性分析，选择高斯过程回归模型(GPR)作为贯穿本方法的基模型，所述GPR模型的建模过程为：

假设有数据集

对数据集D中的每个样本x_*在高斯过程回归模型中的预测输出

眼从高斯分布：

式(1)中，E(.)和Var(.)分别表示均值和方差算子。

所述高斯过程回归模型可描述为：

和

分别为高斯过程回归模型的预测均值与方差。

第四步：构建差分模型，所述差分模型的建立过程具体如下：

①将有标签数据集

随机打乱两次获得新的数据集

和

对

和

②重复①中所述过程直至达到预设次数T，剔除差分模型数据库中重复的样本获得新的差分数据集ΔL；

③利用ΔL建立差分模型GPR_diff，将GPR_diff模型存入模型数据库以备之后在优化中使用。

第五步：利用数据集

建立初始的高斯过程回归模型GPR_orig，并将GPR_orig模型及其参数存入模型数据库，其中，本实施例所使用高斯过程回归模型的协方差函数统一为平方指数协方差函数、线性协方差函数和噪声项的组合。

第六步：从

其中，f(x)为待优化的目标函数；x为待优化的决策变量；lb和ub分别为变量x的下限和上限约束。优化估计的过程具体如下：

①设定初始化种群数目P和种群代数M；

②从模型数据库中调取GPR_orig模型对无标签样本集{x_u，1，…，x_u，S}进行预测得到估计输出y_u＝{y_u，1，…，y_u，S}和预测方差σ²＝{σ² _u，1，…，σ² _u，S}；

③使用二进制编码对y_u和σ²进行编码，x的上限设置为ub＝y_u+3σ²，下限为lb＝y_u-3σ²，在界限内随机产生一个种群作为初始解；

④对于每个种群P_p＝(y_u)_p，(i＝1，…，P)，将其对应于u的输出，得到{u，y_u}作为训练集并调用GPR_orig模型的参数构建高斯过程回归模型GPR_new，计算GPR_new在

上的均方根误差RMSE_u以及预测方差STD_u：

其中，N_trn为训练集

的样本个数，y_trn，i为

中预测变量的真实值，

和σ_trn，i分别为通过混合优化得到的伪标签数据和数据集

建立GPR模型计算得到的预测值和预测方差；

⑤根据相似度测量方法为{u，y_u}中的每个样本(x_u，j，y_u，j)，(j＝1，…，S)在训练集

其中，d_n表示伪标记样本x_u与训练样本x_n之间的加权欧氏距离，σ_n是

的标准差，

是局部化参数，ω_n为d_n标准化后得到的欧氏距离相似度。

⑥调用模型数据库中的GPR_diff模型将Δx_u，j直接输入到GPR_diff模型中得到预测变量

求Δy_u，j与

之间的偏差，并进行标准化得Δd_j’(j＝1，...，S)，进一步计算Δy_u，j与

之间的误差error_diff：

其中，c为选择变量，c＝1时error_diff为均方误差，c＝2时error_diff为均方根误差；

⑦RMSE_u、STD_u和error_diff同时组成目标函数f(x)，其表示为：

f(x)＝λ*RMSE_u+(1-λ)STD_u+C*error_diff(4)

其中，0≤λ≤1为均方根误差和预测可靠度的平衡系数，C≥0为近邻偏差的惩罚系数，在实际过程中根据经验调试λ一般取0.5至1，C取0至1为佳。

⑧当达到预设种群代数时，选出最小化目标函数f(x)的种群，获得最终的伪标签样本集

第七步：混合有标签样本集

和伪标签样本集

作为训练集构建GPR模型；

第八步：重复第五至第六步Z次，获得Z个GPR模型{GPR₁，…，GPR_Z}；

第九步：收集新的工业过程在线测量数据，并数据预处理，将预处理后的测量数据直接输入到第七步中建立好的Z个GPR模型中得到Z个预测输出

将Z个预测输出进行简单平均的结果反归一化后作为预测结果，并根据预测结果最终实现对工业过程的监测和控制。

以下结合一个具体的金霉素发酵过程的工业实例来验证本发明方法的性能。在金霉素发酵过程中，金霉素基质浓度是反馈发酵控制过程中的一个十分重要的关键指标，但是目前金霉素基质浓度尚无法在线检测，为了改善金霉素发酵控制水平需要对金霉素基质浓度进行软测量建模。

表1给出了针对关键预测变量金霉素基质浓度所选择的9个辅助变量。

表1辅助变量说明

输入变量	变量描述(单位)
		x<sub>1</sub>	发酵时间(min)
x<sub>2</sub>	补料速率(L/h)
		x<sub>3</sub>	氨水消耗量(L)
x<sub>4</sub>	基质消耗量(L)
		x<sub>5</sub>	空气消耗量(m<sup>3</sup>)
x<sub>6</sub>	温度(℃)
		x<sub>7</sub>	发酵体积(m<sup>3</sup>)
x<sub>8</sub>	DO浓度(％)
		x<sub>9</sub>	空气流量(m<sup>3</sup>/h)

针对该过程，收集了5个发酵批次的过程数据进行训练，其中所有的有标签数据共124个样本用做训练数据，其余的都是预测变量缺失的数据，按时间间隔从中采取960个用作无标签数据，另外收集了9个批次的有标签数据共227个样本作为测试数据，重复步骤三T＝20次获得2280个差分样本用于建立差分模型，步骤五中λ和C在所述范围内分别取0.8和0.5，从无标签数据集中随机取S＝80个样本进行优化估计，重复Z＝10次进行实验，遗传算法的种群数P和种群代数M均设为30，对于公式(9)，取c＝2，即用均方根误差作为惩罚项。

本实例使用均方根误差RMSE来对预测效果进行检验，RMSE越小代表预测误差越小，预测效果越好，它的计算公式如下式：

其中，N表示测试样本的个数，y_n和

分别表示第n个测试样本的真实值和预测值。

为了体现本发明中基于进化优化的半监督软测量方法的优越性，本实例做了传统监督高斯过程软测量(GPR)与本发明所述方法(EASSL-GPR)的对比实验，实验结果如表2所示。

表2不同方法在金霉素发酵过程中的均方根误差

方法	RMSE
		高斯过程软测量(GPR)	0.5347
实施例1基于进化优化的半监督软测量方法(EASSL-GPR)	0.3983

通过表2可知，本发明所述方法较好的提升了传统监督软测量模型的预测精度。

通过图2-图3可以看出本发明所述基于进化优化的半监督学习软测量方法的预测精度要优于传统监督学习软测量方法。

应当理解的是，本发明核心发明点在于针对过程工业存在的″有标签样本少，无标签样本丰富″的问题所提出的方法，而不是仅限于保护实施于某个案例，案例只是举例用于验证本方法的有效性，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于进化优化的半监督学习工业过程软测量建模方法，其特征在于，包括以下步骤：

步骤(2)对数据库中的样本进行归一化处理，获得新的数据集

和

其中，M和D分别为有标签样本和无标签样本的变量个数；

2.根据权利要求1所述的基于进化优化的半监督学习工业过程软测量建模方法，其特征在于，所述步骤(3)中高斯过程回归模型GPR的建立过程为：

假设有数据集

对数据集D中的每个样本x_*在高斯过程回归模型中的预测输出

服从高斯分布：

式(1)中，E(.)和Var(.)分别表示均值和方差算子；

所述高斯过程回归模型可描述为：

和

分别为高斯过程回归模型的预测均值与方差。

3.根据权利要求1所述的基于进化优化的半监督学习工业过程软测量建模方法，其特征在于，所述步骤(4)获得伪标签数据的具体过程为：

1)从无标签数据集

中随机抽取S个样本得到待优化无标签样本集u∈R^S×D，采用进化优化算法对u＝{x_u1，...，x_uS}进行伪标签优化估计，目标优化问题描述如下：

式(2)中f(x)为待优化的目标函数；x为待优化的决策变量；lb和ub分别为变量x的下限和上限约束；

2)利用数据集

3)确定目标函数f(x)，在所述方法中f(x)由三个部分组成，分别为训练误差RMSE_u、预测可靠度STD_u和邻近偏差error_diff；其中，训练误差为优化得到的伪标签样本对训练样本的预测变量进行预测的均方根误差，预测可靠度为GPR模型预测时得到的预测方差所获得，邻近偏差为无标签样本的优化输出与其最近邻标签样本输出的偏差，因此目标函数f(x)表示为：

f(x)＝λ*RMSE_u+(1-λ)STD_u+C*error_diff (4)

式(4)中，0≤λ≤1为训练误差和预测方差的平衡系数，C≥0为惩罚参数。

4.根据权利要求3所述的基于进化优化的半监督学习工业过程软测量建模方法，其特征在于，所述训练误差RMSE_u、预测可靠度STD_u和邻近偏差error_diff的计算过程如下：