CN113642666A

CN113642666A - 一种基于样本扩充和筛选的主动增强软测量方法

Info

Publication number: CN113642666A
Application number: CN202110999584.8A
Authority: CN
Inventors: 刘毅; 戴云; 余清
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-08-29
Filing date: 2021-08-29
Publication date: 2021-11-12
Anticipated expiration: 2041-08-29
Also published as: CN113642666B

Abstract

本发明公开了一种基于样本扩充和筛选的主动增强软测量方法，包括以下步骤：1)获取工业聚乙烯熔融指数数据；2)聚乙烯数据的数据集划分以及预处理；3)生成虚拟样本扩充数据集；4)建立基于支持向量回归的选择性生成对抗网络SGAN‑SVR软测量模型；5)模型表现评估。本发明方法根据形心度量准则和原始样本的统计特性，从基于梯度惩罚的生成对抗网络WGAN‑GP模型生成的虚拟样本中筛选高质量的生成样本，作为原始样本的补充，提高了支持向量回归SVR模型对MI指标的预测准确率。

Description

一种基于样本扩充和筛选的主动增强软测量方法

技术领域

本发明涉及软测量技术领域，特别涉及一种基于样本扩充和筛选的主动增强软测量方法。

背景技术

近几年，随着互联网、物联网和数据采集存储系统在工业领域的广泛应用，海量数据得以采集与记录。但是，我们必须注意到，在大数据背景下存在着原始有标签样本缺乏的问题。许多过程工业中获得的数据量虽然巨大，但很多数据为重复采样，有用的信息十分有限。此外，由于数据获取的高昂成本或低发生率，同样造成数据有限的问题。这么少的有用样本不能完全覆盖整个有效空间，信息不完整，同时对原始样本特征空间的刻画能力也不足。

目前，工业过程中的关键指标预测任务多采用数据驱动的软测量建模方法。软测量建模依赖于统计分析或机器学习等方法，对数据中的潜在信息进行挖掘。减少了对工业过程内在机理或者数学模型的依赖，同时对过程先验知识的要求也大大降低。但是，软测量建模需要大量数据的支撑。当训练数据量远不能满足模型的充分完整训练时，得到模型无法刻画数据的真实分布，因此可靠性和准确性大大降低。

虚拟样本生成技术能有效解决工业数据稀缺的问题。该方法通过填补样本空间中真实样本间由于数据不充分造成的信息间隔，扩大样本个数，提高模型的预测能力和抑制“过拟合”。随着深度学习技术的显著进展，一些研究人员开始使用深度生成模型如生成对抗网络(Generative adversarial network,GAN)来生成虚拟样本。然而，由于GAN生成过程的不稳定性，在生成符合原始样本数据分布的虚拟样本的同时，生成了部分偏离原始分布的不合格样本。目前，没有一个合适的准则确定生成样本中哪些为高质量的样本。基于此，本发明提出了一种基于形心度量准则的样本筛选方法，通过该准则，可以从原先的生成样本中确定高质量的生成样本，在原始样本有限的情况下提升软测量模型的预测准确度。

发明内容

为解决过程工业中原始有标签样本缺乏导致软测量模型可靠性差的问题，本发明提出了一种基于样本扩充和筛选的主动增强软测量方法。通过利用基于梯度惩罚的生成对抗网络(Wasserstein GAN with gradient penalty,WGAN-GP)生成与原始样本相似的虚拟样本，并通过所提出的形心度量准则和原始样本的统计特性筛选合格的生成样本，随后将合格的生成样本与原始样本组成高质量样本数据集，并利用新的数据集训练支持向量回归(Support vector regression,SVR)软测量模型，以提升模型的预测准确率。

本发明的技术方案如下：

一种基于样本扩充和筛选的主动增强软测量方法，包括以下步骤：

1)获取工业聚乙烯熔融指数数据：

工业聚乙烯过程中，通常采用熔融指数(Melt Index,MI)指标对聚乙烯质量进行评价；然而，熔融指数无法采用在线传感器进行测量，只能通过离线实验分析获得，这将产生较大的时间滞后性并且导致生产出不合格的产品。与此同时，聚乙烯生产过程通过频繁改变其生产工况以及产品配方比例以生产不同类型的产品，导致在工况切换后的运行开始阶段，收集到的有标签数据缺乏，无法建立准确的预测模型。

2)聚乙烯数据的数据集划分以及预处理：

首先，将数据集划分为训练集和测试集，接着为加快模型收敛速度，减少模型训练时间，对数据归一化处理；训练集的数据形式为{X_O,Y_O}，其中{X_O}＝{x_Oi}_i＝1,...,M是输入变量，{Y_O}＝{y_Oi}_i＝1,...,M是输出变量，M为样本数。

3)生成虚拟样本扩充数据集：

建立基于梯度惩罚的生成对抗网络模型，根据少量的训练集样本训练网络模型；WGAN-GP模型训练完成后，利用生成器生成虚拟样本，扩充原始数据集。生成的虚拟样本记为{X_G,Y_G}，其中{X_G}＝{x_Gj}_j＝1,...,N是输入变量，{Y_G}＝{y_Gj}_j＝1,...,N是输出变量，N为生成样本的数量；

4)建立基于支持向量回归的选择性生成对抗网络SGAN-SVR(SelectiveGAN-SVR)软测量模型：

依据形心度量准则与原始样本的统计特性过滤掉不合格的生成样本，得到高质量的生成样本集。原始样本与高质量样本集组成新的训练集，记为{x_Oi∪x_Sj,y_Oi∪y_Sj}_{i＝1,...,M,j＝1,...,k}，k为筛选出的高质量样本的数量。采用网格搜索与十折交叉验证方法得到最佳的生成样本数量与该数量下最佳的SVR模型参数。基于最佳模型参数，以新的训练集训练SVR软测量模型并预测MI指标。

5)模型表现评估：

为了更客观地评价本发明所提的方法，引入评价指标均方根误差(Root MeanSquare Error,RMSE)和相对均方根误差(Relative Root Mean Square Error,RE)。

进一步，所述步骤2)的过程为：

步骤2.1)划分数据集：

将聚乙烯数据按比例划分为训练集和测试集；

步骤2.2)数据归一化处理：

为加快模型收敛速度，减少模型训练时间，对数据归一化处理，公式如下：

式中，x为归一化处理后的数据；a为所采集的原始数据；a_min为原始数据中的最小值；a_max为原始数据中的最大值。

进一步，所述步骤3)的过程为：

步骤3.1)建立基于梯度惩罚的生成对抗网络模型：

WGAN-GP模型由生成器G和判别器D组成，均为神经网络；生成器G用于捕获真实数据的分布，生成与真实数据相似的样本；判别器用于判断其输入是真实数据还是生成数据；判别器和生成器的损失函数如下：

式中：x是原始样本，它的分布为p_data(x)；

是生成样本，它的分布为

表示采样分布，

ε表示插值参数；D(.)表示判别器的输出，

表示判别器梯度2范数；E表示期望；λ表示梯度惩罚系数；

步骤3.2)使用有标签样本训练基于梯度惩罚的生成对抗网络模型并生成新的虚拟样本：

将原始有标签样本作为训练集，训练WGAN-GP模型；通过生成器、判别器的交替训练，生成器学习了原始真实样本的分布，产生以假乱真的样本；

步骤3.3)确定生成的虚拟样本的数量：

对原始样本与虚拟样本组成的新训练集采用十折交叉验证的网格搜索算法确定生成样本的数量。

进一步，所述步骤4)的过程为：

步骤4.1)采用形心度量准则过滤靠近形心的不合格生成样本：

计算原始样本的形心z_C，它是空间中与原始样本集距离最近的点，被表达为：

其中，μ_xo表示形心的特征值坐标，μ_yo表示形心的标签值坐标；M是原始样本的数量。z_C与有限数量的原始样本间距离的平方均值被定义为：

其中，z_r是空间中的任意一点。

第j个生成样本与有限数量的原始样本间距离的平方均值被定义为：

根据d_j与d_C的定义，很显然d_j≥d_C。d_j越小，生成样本与形心z_C越接近；靠近形心的样本虽然有着小的d_j值，但这些样本与原始样本的分布较远；将靠近形心的不合格样本定义为符合d_j≤ρd_C的样本点。ρ是依据不同数据集定义的超参数，它满足ρ≥1；因此，形心度量准则筛选符合要求的高质量样本公式为：

步骤4.2)依据原始样本的统计特性过滤生成样本中的离群点：

基于正常运行数据的概率密度函数p(x)，100β％置信限被定义为满足以下积分的似然阈值h：

∫_x:p(x)＞hp(x)dx＝β

对于原始样本，p(x)是一个多变量高斯分布。当生成样本x_Gj满足下式，则被认为是偏离原始分布的离群点。

其中，

是自由度为m的卡方分布的β分位数。将筛选出的合格样本与原始数据集混合，组成新的高质量生成样本集。

步骤4.3)建立MI指标预测模型并预测：

采用网格搜索与十折交叉验证方法得到最佳的生成样本数量与该数量下最佳的SVR模型参数。基于最佳模型参数，以新的训练集训练SVR软测量模型并预测MI指标。

进一步，所述步骤5)的过程为：

步骤5.1)均方根误差RMSE评价：

均方根误差定义如下：

式中：m表示测试集样本总量；y_t表示输入样本x_t的真实标签值；

表示输入样本x_t的预测值。RMSE越小，说明回归模型的预测性能越好；

步骤5.2)相对均方根误差RE值评价：

相对均方根误差可表示为：

RE越小，模型的性能提升越多，越能够说明该方法的优越性。

本发明的有益效果主要表现在：本发明利用基于梯度惩罚的生成对抗网络生成虚拟样本，随后依据形心度量准则与原始样本的统计特性过滤不合格的样本，即靠近形心的样本与离群点。最终得到高质量的生成样本，作为原始样本的补充。解决了原始有标签的样本数据量缺乏时，软测量模型不可靠的问题，提升了模型的预测准确度。

附图说明

图1是本发明聚乙烯数据原始样本、生成样本与高质量生成样本的空间散点分布图；

图2是本发明SVR、GAN-SVR和SGAN-SVR方法的预测值与真实值对比图；

图3是本发明SVR、GAN-SVR和SGAN-SVR方法的绝对误差对比图；

图4是本发明的流程图；

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种基于样本扩充和筛选的主动增强软测量方法，具体步骤如下：

(1)获取工业聚乙烯熔融指数数据

本过程的数据来自于某工厂的工业聚乙烯过程。在该过程中，通常采用熔融指数(Melt Index,MI)指标衡量聚乙烯产品质量。然而，熔融指数无法采用在线传感器进行测量，只能通过离线实验分析获得，这将产生较大的时间滞后性并且生产出不合格的产品。与此同时，聚乙烯生产过程通过频繁改变其生产工况以及产品配方比例以生产不同类型的产品，导致在工况切换后的运行开始阶段，收集到的有标签数据缺乏，无法建立准确的预测模型。本文以聚乙烯生产过程中第一个反应罐生产牌号8001产品中的60个数据为例，研究性能。

(2)聚乙烯数据的数据集划分以及预处理

步骤2.1：划分数据集

将聚乙烯数据按1:1的比例划分为训练集和测试集，即30个样本用于训练，30个样本用于测试。

步骤2.2：数据归一化处理

训练集的数据形式为{X_O,Y_O}，其中{X_O}＝{x_Oi}_i＝1,...,M是输入变量，{Y_O}＝{y_Oi}_i＝1,...,M是输出变量，M为样本数。

(3)生成虚拟样本扩充数据集

步骤3.1：建立基于梯度惩罚的生成对抗网络模型

WGAN-GP模型由生成器G和判别器D组成，均为神经网络。生成器G用于捕获真实数据的分布，生成与真实数据相似的样本。判别器用于判断其输入是真实数据还是生成数据。判别器和生成器的损失函数如下：

式中：x是原始样本，它的分布为p_data(x)；

是生成样本，它的分布为

表示采样分布，

ε表示插值参数；D(.)表示判别器的输出，

表示判别器梯度2范数；E表示期望；λ表示梯度惩罚系数。

步骤3.2：使用少量的有标签样本训练基于梯度惩罚的生成对抗网络模型并生成新的虚拟样本

将原始少量的有标签样本作为训练集，训练WGAN-GP模型。通过生成器、判别器的交替训练，生成器学习了原始真实样本的分布，产生以假乱真的样本。生成的虚拟样本记为{X_G,Y_G}，其中{X_G}＝{x_Gj}_j＝1,...,N是输入变量，{Y_G}＝{y_Gj}_j＝1,...,N是输出变量，N为生成样本的数量。

步骤3.3：确定生成的虚拟样本的数量

对原始样本与虚拟样本组成的新训练集采用十折交叉验证的网格搜索算法确定生成样本的数量。具体的，在一定的SVR模型参数下，将原始样本分成10份，取其中9份数据与生成样本组成暂时训练集。随后，训练好的SVR模型在剩下的一份数据上测试结果。10份数据轮流作为测试集，将10次测试总的结果作为该参数下SVR模型的预测值。对于SVR模型的参数范围，惩罚因子为c∈{2^-2，2^-1，...，2¹⁰},本案例采用径向基核函数(RBF)，gamma∈{2^-3，2^-2，...，2⁸}。

(4)建立基于支持向量回归的选择性生成对抗网络SGAN-SVR(Selective GAN-SVR)软测量模型

步骤4.1：采用形心度量准则过滤靠近形心的不合格生成样本

其中，μ_xo表示形心的特征值坐标，μ_yo表示形心的标签值坐标；M是原始样本的数量。z_C与有限数量的原始样本间的距离的平方均值被定义为：

其中，z_r是空间中的任意一点。

第j个生成样本与有限数量的原始样本间的距离的平方均值被定义为：

根据d_j与d_C的定义，很显然d_j≥d_C。d_j越小，生成样本与形心z_C越接近。靠近形心的样本虽然有着小的d_j值，但这些样本与原始样本的分布较远。将靠近形心的不合格样本定义为符合d_j≤ρd_C的样本点。ρ是依据不同数据集定义的超参数，它满足ρ≥1。因此，形心度量准则筛选符合要求的高质量样本公式为：

步骤4.2：依据原始样本的统计特性过滤生成样本中的离群点

∫_x:p(x)＞hp(x)dx＝β

其中，

是自由度为m的卡方分布的β分位数。将筛选出的合格样本与原始数据集混合，组成新的高质量生成样本集，记为{x_Oi∪x_Sj,y_Oi∪y_Sj}_{i＝1,...,M,j＝1,...,k}，k为筛选出的高质量样本的数量。

步骤4.3：建立MI指标预测模型并预测。

(4)模型表现评估

步骤5.1：均方根误差RMSE评价

均方根误差定义如下：

表示输入样本x_t的预测值。RMSE越小，说明回归模型的预测性能越好。

步骤5.2：相对均方根误差RE值评价

相对均方根误差可表示为：

(5)MI指标预测结果

以原始的30个样本为基础，采用WGAN-GP方法生成虚拟样本。根据十折交叉验证网格搜索算法，生成不同数量的虚拟样本时的最小RMSE如表1所示。该表格表明，当生成样本量为150时，预测效果最好，该数量下的最小RMSE为24.01。随后，采用形心度量准则与原始样本的统计特性，从生成的150个生成样本中筛选合格的样本。根据形心度量准则，原始样本的d_C＝0.858。设置ρ＝1.2，则ρd_C＝1.2*0.858＝1.0296。根据计算，有21个样本的d_j小于ρd_C，这些样本被视为过于靠近形心的不合格样本，需要过滤掉。随后，根据原始样本的统计特性，采用90％置信限，共有15个样本被定义为离群点。因此，共得到114个合格样本。这些样本与原始样本组成新的高质量样本训练集，训练SVR软测量模型，将结果记录在表2中，即SGAN-SVR方法的结果。对比未经数据扩充的SVR方法的预测结果，扩充样本后未数据筛选的GAN-SVR方法的预测结果，SGAN-SVR方法的RMSE与RE值都最小，说明预测效果最好。

表1

表2

本发明方法采用形心度量准则和原始样本的统计特性从WGAN-GP生成的虚拟样本中筛选高质量的生成样本，作为原始样本的补充，提高了SVR模型对MI指标的预测准确率，具有普遍性和通用性。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于样本扩充和筛选的主动增强软测量方法，其特征在于，包括以下步骤：

1)获取工业聚乙烯熔融指数数据：

工业聚乙烯过程中，通常采用熔融指数MI指标对聚乙烯质量进行评价；

2)聚乙烯数据的数据集划分以及预处理：

首先，将数据集划分为训练集和测试集，接着为加快模型收敛速度，减少模型训练时间，对数据归一化处理；训练集的数据形式为{X_O,Y_O}，其中{X_O}＝{x_Oi}_i＝1,...,M是输入变量，{Y_O}＝{y_Oi}_i＝1,...,M是输出变量，M为样本数；

3)生成虚拟样本扩充数据集：

建立基于梯度惩罚的生成对抗网络WGAN-GP模型，根据训练集样本训练网络模型；WGAN-GP模型训练完成后，利用生成器生成虚拟样本，扩充原始数据集；生成的虚拟样本记为{X_G,Y_G}，其中{X_G}＝{x_Gj}_j＝1,...,N是输入变量，{Y_G}＝{y_Gj}_j＝1,...,N是输出变量，N为生成样本的数量；

4)建立基于支持向量回归的选择性生成对抗网络SGAN-SVR软测量模型：

依据形心度量准则与原始样本的统计特性过滤掉不合格的生成样本，得到高质量的生成样本集；原始样本与高质量样本集组成新的训练集，记为{x_Oi∪x_Sj,y_Oi∪y_Sj}_{i＝1,...,M,j＝1,...,k}，k为筛选出的高质量样本的数量；采用网格搜索与十折交叉验证方法得到最佳的生成样本数量与该数量下最佳的支持向量回归SVR模型参数；基于最佳模型参数，以新的训练集训练SVR软测量模型并预测MI指标；

5)模型表现评估：

引入评价指标均方根误差RMSE和相对均方根误差RE，进行模型表现评估。

2.如权利要求1所述的基于样本扩充和筛选的主动增强软测量方法，其特征在于，所述步骤2)的过程为：

步骤2.1)划分数据集：

将聚乙烯数据按比例划分为训练集和测试集；

步骤2.2)数据归一化处理：

3.如权利要求1所述的基于样本扩充和筛选的主动增强软测量方法，其特征在于，所述步骤3)的过程为：

步骤3.1：建立基于梯度惩罚的生成对抗网络模型：

式中：x是原始样本，它的分布为p_data(x)；

是生成样本，它的分布为

表示采样分布，

ε表示插值参数；D(.)表示判别器的输出，

表示判别器梯度2范数；E表示期望；λ表示梯度惩罚系数；

步骤3.2：使用有标签样本训练基于梯度惩罚的生成对抗网络模型并生成新的虚拟样本：

将原始有标签样本作为训练集，训练WGAN-GP模型，通过生成器、判别器的交替训练，生成器学习了原始真实样本的分布，产生以假乱真的样本。

步骤3.3：确定生成的虚拟样本的数量：

4.如权利要求1所述的基于样本扩充和筛选的主动增强软测量方法，其特征在于，所述步骤4)的过程为：

步骤4.1：采用形心度量准则过滤靠近形心的不合格生成样本：

其中，μ_xo表示形心的特征值坐标，μ_yo表示形心的标签值坐标；M是原始样本的数量；z_C与有限数量的原始样本间距离的平方均值被定义为：

其中，z_Oi为原始样本；z_r是空间中的任意一点；

第j个生成样本z_Gj与有限数量的原始样本间距离的平方均值被定义为：

根据d_j与d_C的定义，很显然d_j≥d_C；d_j越小，生成样本与形心z_C越接近；靠近形心的样本虽然有着小的d_j值，但这些样本与原始样本的分布较远；将靠近形心的不合格样本定义为符合d_j≤ρd_C的样本点；ρ是依据不同数据集定义的超参数，它满足ρ≥1；因此，形心度量准则筛选符合要求的高质量样本公式为：