CN115035962A

CN115035962A - 基于变分自编码器和生成对抗网络的虚拟样本生成及软测量建模方法

Info

Publication number: CN115035962A
Application number: CN202210091114.6A
Authority: CN
Inventors: 金怀平; 黄姝祺; 杨彪; 刘海鹏; 张志坤
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-09-09

Abstract

本发明公开了一种基于变分自编码器和生成对抗网络的虚拟样本生成方法及软测量建模方法。本发明引入变分自编码器和WGANgp相结合的监督虚拟样本生成模型，该模型同时学习输入样本和输出样本的数据分布，生成器在最终的潜在空间中采样并生成带有输出的虚拟样本，可以避免误差二次累积。考虑到不是所有的虚拟样本都能提高模型的预测性能，通过对输入样本扰动，构建一组具有多样性的SV‑WGANgp模型，结合高斯过程回归模型对每个SV‑WGANgp模型生成的虚拟样本进行评估，剔除无效的虚拟样本；通过使用非标记样本对剔除后的虚拟样本进行二次选择，有效保证了最终虚拟样本的有效性；最终构建的虚拟样本生成模型和采用的虚拟样本选择方式为小样本问题提供了有效的途径。

Description

基于变分自编码器和生成对抗网络的虚拟样本生成及软测量建模方法

技术领域

本发明涉及一种基于变分自编码器和生成对抗网络的虚拟样本生成及软测量建模方法，属于工业过程控制领域。

背景技术

随着监测、控制和优化等技术方面的快速发展，各种过程工业领域例如化工、有色金属加工等已开始广泛采用成熟的技术及方法，在一定程度上保证了生产的正常运行、提高了资源的利用率、减轻了环境污染程度。在工业生产过程中，生产质量和效率往往取决于各种变量，其中很多都是关键变量。然而，由于测量仪器造价昂贵或者不存在，普通的传感器直接测量一些关键质量可能会很困难。为了解决上述困难，把容易测量的变量作为模型的输入，难以测量的变量作为模型的输出，以构建合适的数据驱动软测量模型。目前大多数研究主要集中在模型的结构和训练方法上，很少关注训练数据的数量和质量。通常情况下，充足且高质量的训练数据可以提高模型的预测精度，但是由于工业现场环境恶劣等因素的存在，直接导致了所采集到的高质量样本数量很少。关于数据集的预处理问题已经有了很多成果，例如数据的降维、数据去噪、异常值检测、缺失值检测、相关性分析等，而对于数据生成的研究依然有限。

除此之外，因为关键质量参数获取困难，且滞后性较大，所以获取有真实标签的样本十分困难。其次，大多数传统的软测量模型只利用了有限的有标签样本，直接丢弃工业过程中大量的易于获取且带有丰富信息的非标记样本。因此，开发出能够同时利用有标签数据和大量非标记数据的方法来提升模型的预测性能已经得到了越来越多的关注度。

现有的虚拟样本生成的方法大都只考虑了输入样本的扩充，对应的输出通过在标记样本上建立的模型预测，这可能会导致误差二次累积。

发明内容

本发明提供了一种基于变分自编码器和生成对抗网络的虚拟样本生成方法及软测量建模方法，通过把样本标签作为新增输入维度，不仅仅只生成样本的输入，还同时生成样本的输出，以降低误差累积，另外利用非标记样本中的信息对虚拟样本进行二次挑选，为增加工业过程中高质量样本的数量提供了较为有效的方法。

本发明的技术方案是：一种基于变分自编码器和生成对抗网络的虚拟样本生成方法，包括：

步骤1：获取工业过程数据，确定和工业过程数据的关键变量y密切相关的过程变量作为辅助变量，构建辅助变量向量x；其中，x＝[x₁,x₂,...,x_d]，x_d表示第d个辅助变量；

步骤2：依据关键变量y、辅助变量向量x对工业过程数据进行筛选，获得工业过程数据集；其中，工业过程数据集包括标记数据集、非标记数据集；

步骤3：对工业过程数据集进行归一化处理，将归一化后的标记数据集划分为训练集D_trn、测试集D_test和验证集D_val，将归一化后的非标记数据集表示为X_u；

步骤4：通过对训练集D_trn中训练样本的扰动，形成多个训练子集，对多个训练子集构建一组多样的监督虚拟样本生成模型及生成虚拟样本。

每个训练子集用于构建多样的监督虚拟样本生成模型及生成虚拟样本的过程为：

从训练集D_trn中采集固定个数n的样本，重复M次，即得到M个训练子集，

其中D_m表示第m个训练子集，x_m,i表示第m个训练集的第i个样本，y_i为x_m,i对应的关键变量值，即真实标签值；

利用训练子集训练监督虚拟样本生成模型后生成虚拟样本。

所述监督虚拟样本生成模型包括变分自动编码器、生成对抗网络，将变分自动编码器中的解码器作为生成对抗网络的生成器，形成监督虚拟样本生成模型。

根据本发明实施例的另一方面，还提供了一种基于变分自编码器和生成对抗网络的虚拟样本生成系统，包括：

构建模块，用于获取工业过程数据，确定和工业过程数据的关键变量y密切相关的过程变量作为辅助变量，构建辅助变量向量x；其中，x＝[x₁,x₂,...,x_d]，x_d表示第d个辅助变量；

获得模块，用于依据关键变量y、辅助变量向量x对工业过程数据进行筛选，获得工业过程数据集；其中，工业过程数据集包括标记数据集、非标记数据集；

划分模块，用于对工业过程数据集进行归一化处理，将归一化后的标记数据集划分为训练集D_trn、测试集D_test和验证集D_val，将归一化后的非标记数据集表示为X_u；

生成模块，用于通过对训练集D_trn中训练样本的扰动，形成多个训练子集，对多个训练子集构建一组多样的监督虚拟样本生成模型及生成虚拟样本。

根据本发明实施例的另一方面，还提供了一种基于变分自编码器和生成对抗网络的软测量建模方法，包括上述中任一项所述的虚拟样本生成方法，还包括：

步骤5：采用扩充前的训练子集、虚拟样本扩充到对应训练子集分别作为高斯过程回归模型GPR的训练集进行高斯过程回归模型GPR的训练；对比扩充前后训练的高斯过程回归模型GPR在验证集D_val上的预测性能：如果性能提升，则保留虚拟样本；否则，去除；

步骤6：利用非标记样本X_u对步骤5中保留的虚拟样本进行挑选；将挑选出的虚拟样本用来扩充原始训练集D_trn；构成最终的训练集D_real+virtual；

步骤7：在最终的训练集D_real+virtual上构建高斯过程回归模型GPR，并在测试集D_test上进行测试，最终实现对关键变量的离线估计。

所述挑选过程为：利用非标记样本X_u与虚拟样本进行欧氏距离的计算；按照欧氏距离由小到大的顺序排列虚拟样本；取前Q个不重复的虚拟样本加入到原始训练集D_trn；构成最终的训练集D_real+virtual。

根据本发明实施例的另一方面，还提供了一种基于变分自编码器和生成对抗网络的软测量建模系统，包括基于变分自编码器和生成对抗网络的虚拟样本生成系统，还包括：

对比模块，用于采用扩充前的训练子集、虚拟样本扩充到对应训练子集分别作为高斯过程回归模型GPR的训练集进行高斯过程回归模型GPR的训练；对比扩充前后训练的高斯过程回归模型GPR在验证集D_val上的预测性能：如果性能提升，则保留虚拟样本；否则，去除；

挑选模块，用于利用非标记样本X_u对对比模块中保留的虚拟样本进行挑选；将挑选出的虚拟样本用来扩充原始训练集D_trn；构成最终的训练集D_real+virtual；

测试模块，用于在最终的训练集D_real+virtual上构建高斯过程回归模型GPR，并在测试集D_test上进行测试，最终实现对关键变量的离线估计。

根据本发明实施例的另一方面，还提供了一种青霉素浓度预测方法，采用上述所述的基于变分自编码器和生成对抗网络的软测量建模方法进行。

本发明的有益效果是：本发明所提出的基于监督变分自编码器和生成对抗网络的虚拟样本生成软测量建模方法，考虑了传统虚拟样本生成模型只生成虚拟输入，而准确输出难以获取以及大量的无标签数据没有有效利用的问题，引入变分自编码器和WGANgp相结合的监督虚拟样本生成模型。该模型同时学习输入样本和输出样本的数据分布，生成器在最终的潜在空间中采样并生成带有输出的虚拟样本，可以避免误差二次累积。考虑到不是所有的虚拟样本都能提高模型的预测性能，通过对输入样本扰动，构建一组具有多样性的SV-WGANgp模型，结合高斯过程回归模型对每个SV-WGANgp模型生成的虚拟样本进行评估，剔除无效的虚拟样本。通过使用非标记样本对剔除后的虚拟样本进行二次选择，有效保证了最终虚拟样本的有效性。最终构建的虚拟样本生成模型和采用的虚拟样本选择方式为小样本问题提供了有效的途径。

附图说明

图1是本发明中基于监督变分自编码器和生成对抗网络的虚拟样本生成及软测量建模方法的流程图；

图2是传统高斯过程回归模型的预测值与真实值的曲线图；

图3是本发明中基于监督变分自编码器和生成对抗网络的虚拟样本生成及软测量建模方法在青霉素发酵过程案例中预测值与真实值的曲线图。

具体实施方式

下面结合附图和实施例，对发明做进一步的说明，但本发明的内容并不限于所述范围。

实施例1：如图1-3所示，一种基于变分自编码器和生成对抗网络的虚拟样本生成方法，包括：

具体而言，通过集散控制系统或离线检测的方法来收集工业过程数据，利用特征选择等方法(如：PCA、SAE等)确定和关键变量y密切相关的过程变量作为辅助变量，构建辅助变量向量x；

具体而言，利用Z-Score方法，对数据集进行归一化处理，将不同量级的数据统一转换成同一量级，从而保证数据之间的可比性。

步骤4：通过对训练集D_trn中训练样本的扰动，形成多个训练子集，对多个训练子集构建一组多样的监督虚拟样本生成模型及生成虚拟样本。即用于在不同的训练子集上生成不同的虚拟样本。

可选地，每个训练子集用于构建多样的监督虚拟样本生成模型及生成虚拟样本的过程为：

利用Bootstrap方法从训练集D_trn中采集固定个数n的样本，重复M次，即得到M个训练子集，

利用训练子集训练监督虚拟样本生成模型后生成虚拟样本。

可选地，所述监督虚拟样本生成模型包括变分自动编码器、生成对抗网络，将变分自动编码器中的解码器作为生成对抗网络的生成器，形成监督虚拟样本生成模型。模型前半部分在重构误差的约束下学习数据分布，模型后半部分经过判别器的判别促使生成器生成的虚拟样本更加接近真实样本。训练结束后，从标准分布中随机采样获得生成器的输入，进而输出虚拟样本。

具体而言，所述监督虚拟样本生成模型具体的构建过程如下：

①变分自动编码器VAE，将复杂的观测空间x隐射到相对简单的潜在空间z，其边际似然为：

p_θ(x)＝∫p_θ(z)p_θ(x|z)dz (1)

真实后验如(2)所示：

由于潜在空间z和生成模型参数θ具有不确定性，所以把q_θ(z|x)作为难以处理的真实后验的近似值，边际对数似然可写为：

其中，公式右侧第一项为近似值与真实后验的KL散度，第二项为输入x的边际似然证据下界，可表示为：

其中，使得证据下界最小的参数θ和

由神经网络的反向传播联合学习得到。

变分自编码器假设先验分布p_θ(z)是标准多元高斯分布N(z；0,I)，真实后验p_θ(z|x)也是多元高斯分布。令μ_k、σ_k分别表示第k个均值和标准差，则：

综上，该模型在任何输入x处的结果近似值为：

其中，j表示采样数，z^(j)＝μ+σ⊙∈^(j),∈^(j)～N(0,I)，⊙表示按元素相乘。

②本发明采用的变分自编码器在上述①的基础上把样本的真实标签作为输入的额外维度，利用编码器构成潜在空间z后再利用解码器从潜在空间z中采样，以重构样本极其对应的标签。编码器和解码器对称使用多个隐藏层的全连接神经网络。在1)中的假设条件下，近似后验和先验之间的KL散度为：

其中，μ_xy和logσ_xy ²是由编码器学习得到。

把从N(z；μ_xy,logσ_xy ²)中采样得到的z作为解码器的输入，用于对样本极其对应标签进行重构。利用重参数化的方法，将z～q_θ(z|x,y)重参数化为z＝μ_xy+σ_xy⊙∈，∈～N(0,I)。最终的证据下界为：

③把变分自编码器的解码器作为WGANgp的生成器，判别器同样为多个隐藏层的全连接神经网络。根据2)可知监督变分自编码器的损失函数(证据下界)为：

且，WGANgp的损失函数可由式(10)给出：

其中，p_r、p_g和p_h分别表示真实样本分布、生成样本分布和潜在空间分布，x表示真实样本，

表示由解码器生成的假样本，x_p表示由解码器解码潜在空间z获得的重构样本，利用随机数，从真实样本和假样本中插值可获得

λ表示梯度惩罚系数。

结合公式(9)和公式(10)，SV-WGANgp的损失函数即优化目标定义为：

J_SV-WGANgp＝J_SVAE+η_JWGANgp (11)

其中，η为用于平衡SVAE损失和WGANgp损失的比例系数。

设置λ＝10，η＝20，训练迭代次数epoch＝200，训练批次batch＝30，生成器学习率α₁＝0.001，判别器学习率α₂＝0.001，在每个训练子集上训练SV-WGANgp模型，最终得到M个SV-WGANgp模型。利用训练好的模型，在潜在空间中随机采样并生成F个虚拟样本，重复M次，得到一组虚拟样本

表示第m个SV-WGANgp模型生成的第f个虚拟样本，

为其对应生成的虚拟标签。

一种基于变分自编码器和生成对抗网络的软测量建模方法，包括上述中任一项所述的虚拟样本生成方法，还包括：

具体而言，因为工业过程数据呈现出的非线性和时变性，所以拟选定高斯过程回归模型GPR为基模型，本发明采用选定高斯过程回归模型GPR为基模型用于在验证集D_val上验证步骤4中生成的虚拟样本的有效性，并保留没有使性能恶化的虚拟样本。

验证虚拟样本有效性的过程如下：

对于数据集D_m中的每个样本x_m,i在高斯过程回归模型中的预测输出

服从高斯分布：

其中，E(.)和Var(.)分别表示均值和方差算子。则，所述高斯过程回归模型可描述为：

式中，k_m,i＝[C(x_i,x_m,1),…,C(x_i,x_m,N))]^T,C是一个由X中每个样本彼此之前作协方差组成的NⅹN阶对称正定矩阵,

和

分别为模型的预测均值与方差。

把SV-WGANgp模型生成的虚拟样本加入对应的训练子集中，作为GPR的训练集，利用验证集D_val进行验证，D_val＝{X_val,y_val}，验证集中真实标签对应的预测值为

计算验证误差RMSE_val：

重复M次，并计算相应的模型提升率，保留提升率大于0的虚拟样本，剔除提升率小于0的虚拟样本，即

所述挑选过程为：利用非标记样本X_u与虚拟样本进行欧氏距离的计算；按照欧氏距离由小到大的顺序排列虚拟样本；取小的前Q个不重复的虚拟样本加入到原始训练集D_trn；构成最终的训练集D_real+virtual。

具体而言，所述步骤6中利用非标记样本X_u对

进行挑选的实现步骤如下：

①计算非标记样本X_u与虚拟样本

特征之间的欧氏距离：

其中，s表示样本的第s个特征。

②按照欧氏距离由小到大的顺序排列虚拟样本。

③取前Q个虚拟样本加入到原始训练集D中，构成最终的训练集D_real+virtual。

所述步骤7在训练集D_real+virtual上构建高斯过程回归模型GPR，并在测试集D_test上进行测试的具体过程如下：

利用加入虚拟样本后的训练数据集D_real+virtual来训练高斯过程回归模型GPR，并用测试集D_test进行测试，D_test＝{X_test,y_test}，测试集标签矩阵y_test对应的预测结果为

测试误差为RMSE_test：

其中，y_i表示对应的测试集上的真实标签。

根据本发明实施例的另一方面，还提供了一种青霉素浓度预测方法，采用上述所述的基于变分自编码器和生成对抗网络的软测量建模方法进行。下面对本发明一种可选的实施案例进行详细说明。

上方方法适合多种工业过程质量变量参数的监测，本实施例结合青霉素发酵过程案例的实施验证本发明的有效性。青霉素发酵过程包含两个典型的时段：细胞培养阶段和青霉素补料发酵阶段。细胞培养阶段会产生大量的细菌，然后通过不断的补充营养物质以促进产物合成，此为青霉素生长阶段。为了提高青霉素生产效率，增加产量，实时监测培养过程中青霉素浓度十分必要。青霉素浓度作为主导变量，14个与主导变量呈高相关性的过程变量作为输入变量，如表1所示。

表1青霉素发酵过程输入变量描述

序号	变量描述(单位)
		1	发酵时间(h)
2	曝气值(L/h)
		3	搅拌功率(W)
4	基质补料速率(L/h)
		5	基质补料温度(K)
6	溶解氧浓度(g/L)
		7	发酵体积(L)
8	二氧化碳浓度(g/L)
		9	pH
10	发酵罐温度(K)
		11	产生热量(kcal)
12	酸流量(L/h)
		13	基质流速(L/h)
14	冷却水流量(L/h)

在默认操作条件下共收集12个批次的数据，其中5个批次的数据用于模型训练，2个批次的数据用于模型验证，5个批次的数据用于模型测试。

本发明实施案例选择均方根误差RMSE和决定系数R²来评价最终的虚拟样本的有效性，如下所示：

式中，N_test、

y_test、

分别表示测试样本总数、测试样本预测值、测试样本真实值、测试样本真实值的均值，RMSE值越小，表示误差越小，模型预测性能越好；R²值越大，表示模型的拟合程度越高，模型的预测性能越好。如下表2所示为不同方法对青霉素浓度的预测性能。

表2不同方法在青霉素发酵过程中的预测性能

分析表2可知，对比传统高斯过程回归模型GPR，本发明提出的基于监督变分自编码器和WGANgp的小样本软测量建模方法预测性能更好。该方法不仅在小样本的条件下扩充了带标签的样本，缩小二次预测标签带来的累积误差，还利用非标记样本的信息对生成的虚拟样本进行二次挑选，有效低提高了虚拟样本的置信度。从图2、图3对比的结果可以看出，本发明基于监督变分自编码器和生成对抗网络的虚拟样本生成及软测量建模方法在青霉素发酵过程案例中预测值与真实值的曲线较比传统高斯过程回归模型的预测值与真实值的曲线的拟合程度更高(图2、3中横坐标测试集中测试样本的数量，纵坐标表示关键变量的值，actual value表示真实值，prediction value表示预测值)。

上述案例用来解释说明本发明具有一定的可行性和有效性，本发明的重点在于引入变分自编码器和WGANgp作为虚拟样本生成模型SV-WGANgp，兼顾输入和输出的生成，通过模型性能的提升率剔除无效的虚拟样本，并利用非标记样本对虚拟样本进行二次选择。在本发明的精神和权利要求保护范围内，未对本发明做出的任何修改或改进，都将受到本发明的保护范围限制。

实施例2：根据本发明实施例的另一方面，还提供了一种基于变分自编码器和生成对抗网络的虚拟样本生成系统，包括：

实施例3：根据本发明实施例的另一方面，还提供了一种基于变分自编码器和生成对抗网络的软测量建模系统，包括基于变分自编码器和生成对抗网络的虚拟样本生成系统，即包括(构建模块，获得模块，划分模块，生成模块)，还包括：

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于变分自编码器和生成对抗网络的虚拟样本生成方法，其特征在于：包括：

步骤1：获取工业过程数据，确定和工业过程数据的关键变量y密切相关的过程变量作为辅助变量，构建辅助变量向量x；其中，x＝[x₁，x₂，...，x_d]，x_d表示第d个辅助变量；

2.根据权利要求1所述的基于变分自编码器和生成对抗网络的虚拟样本生成方法，其特征在于：每个训练子集用于构建多样的监督虚拟样本生成模型及生成虚拟样本的过程为：

其中D_m表示第m个训练子集，x_m，i表示第m个训练集的第i个样本，y_i为x_m，i对应的关键变量值，即真实标签值；

利用训练子集训练监督虚拟样本生成模型后生成虚拟样本。

3.根据权利要求1所述的基于变分自编码器和生成对抗网络的虚拟样本生成方法，其特征在于：所述监督虚拟样本生成模型包括变分自动编码器、生成对抗网络，将变分自动编码器中的解码器作为生成对抗网络的生成器，形成监督虚拟样本生成模型。

4.一种基于变分自编码器和生成对抗网络的虚拟样本生成系统，其特征在于：包括：

构建模块，用于获取工业过程数据，确定和工业过程数据的关键变量y密切相关的过程变量作为辅助变量，构建辅助变量向量x；其中，x＝[x₁，x₂，...，x_d]，x_d表示第d个辅助变量；

5.一种基于变分自编码器和生成对抗网络的软测量建模方法，其特征在于：包括权利要求1-3中任一项所述的虚拟样本生成方法，还包括：

6.根据权利要求5所述的基于变分自编码器和生成对抗网络的软测量建模方法，其特征在于：所述挑选过程为：利用非标记样本X_u与虚拟样本进行欧氏距离的计算；按照欧氏距离由小到大的顺序排列虚拟样本；取前Q个不重复的虚拟样本加入到原始训练集D_trn；构成最终的训练集D_real+virtual。

7.一种基于变分自编码器和生成对抗网络的软测量建模系统，其特征在于：包括权利要求4所述的基于变分自编码器和生成对抗网络的虚拟样本生成系统，还包括：

对比模块，采用扩充前的训练子集、虚拟样本扩充到对应训练子集分别作为高斯过程回归模型GPR的训练集进行高斯过程回归模型GPR的训练；对比扩充前后训练的高斯过程回归模型GPR在验证集D_val上的预测性能：如果性能提升，则保留虚拟样本；否则，去除；

8.一种青霉素浓度预测方法，其特征在于：采用权利要求5所述的基于变分自编码器和生成对抗网络的软测量建模方法进行。