CN113505477B

CN113505477B - 基于svae-wgan的过程工业软测量数据补充方法

Info

Publication number: CN113505477B
Application number: CN202110725654.0A
Authority: CN
Inventors: 高世伟; 仇素龙; 田冉; 马忠彧; 刘颜星; 张青松; 许金鹏
Original assignee: Northwest Normal University
Current assignee: Northwest Normal University
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-05-20
Anticipated expiration: 2041-06-29
Also published as: CN113505477A

Abstract

在工业领域中，随着软测量技术的广泛应用，软测量建模方法的快速发展，有效地应对了未来过程工业中大量过程变量和复杂工业环境带来的挑战。为了提升软测量模型的预测精度，如何在因为工业环境恶劣导致软测量模型训练数据集不足的情况下，通过有效的数据补充方法来补充软测量建模数据集是一个关键问题。为此，本文针对训练数据集不足提出了一种基于SVAE‑WGAN的过程工业软测量数据补充方法。首先，将变分自编码器进行堆叠来提取深层次特征。然后，将堆叠的变分自编码器与Wasserstein生成式对抗网络结合建立一种新的生成模型。最后，采用工业过程数据集训练优化该模型，并通过指标MSE、RMSE和MAE等来评价该模型。以工业蒸汽量数据集为例，在不同的参数下进行大量实验，以此验证该模型生成数据的有效性。仿真结果表明，SVAE‑WGAN生成方法与目前性能最好的VAE‑WGAN方法相比有着更加显著的改进。

Description

基于SVAE-WGAN的过程工业软测量数据补充方法

技术领域

本发明涉及工业领域，是一种基于SVAE-WGAN的过程工业软测量数据补充方法。

背景技术

软测量技术常作为工业中测量难以直接测量或不能测量的过程变量的方法，软测量建模是该技术的关键，普遍采用基于数据驱动的软测量建模方法,这就需要海量的数据支持。由于传统的硬件设备或离线的实验室分析仪器经常会受到技术条件、经济条件、工业环境恶劣、维护困难、变量规模大、时间延迟等影响，导致很多关键变量难以获取，从而造成数据不足和数据异常，解决此类问题的办法通常是为软测量模型提供充足的训练数据集。目前，基于深度学习的生成数据补充方法广受欢迎，对解决软测量数据不足问题具有重要意义。一方面，随着工业的发展，工业过程变量急剧增多，如何实时测量关键变量变得非常重要。另一方面，在获取海量数据的条件下，软测量模型的性能提升使得在测量过程变量的基础上尽可能达到精准。

基于深度学习的生成数据补充方法通常是采用数学的思维找到产生数据的概率分布，进而获取与真实数据分布相似的生成数据分布。例如变分自动编码器、自编码器和生成对抗网络。关于最早产生深度生成模型的雏形，源于传统的随机采样方法即马尔科夫链蒙特卡罗，在深度信念网络被提出后，随之出现受限玻尔兹曼机、深度玻尔兹曼机两种深度生成模型。根据DBM结构，通过堆叠RBM得到的深度信念网络，具有更加复杂的条件分布，通过采用变分推断思想来近似真实的后验分布。因此，将深度生成技术引入补充工业软测量数据是当下最为恰当的选择，但是，在数据分布比较复杂的情况下，如何使深度生成学习算法复杂性降低也是在建模过程中需要面临的首要挑战，同时，考虑到模型采用神经网络实现，涉及大量的参数优化，存在很多不稳定的因素，在此基础上提高模型的鲁棒性成为模型的关键。

对软测量的数据补充方法研究主要采用数据生成方法，考虑到生成数据的可靠性和真实性，利用深度学习算法，构建一种适应生成工业数据集的生成模型，这种生成模型具有高效、精确等优势。同时，为能够提高模型的生成性能，在模型的训练和优化方面也需要大量的工作。

发明内容

为了能够使软测量模型拥有充足的、可靠的训练数据集，在本发明技术方案中引入了变分自编码器VAE和生成式对抗网络GAN。通过结合变分自编码器和生成式对抗网络的优点提出一种新的生成模型SVAE-WGAN，将堆叠的变分自编码器SVAE作为WGAN的生成器来负责生成数据，WGAN的判别器负责判别数据的真假。此外，SVAE-WGAN模型通过模型融合技术，在不同模型之间进行网络参数的优化，从而提高模型的整体表现效果。基于SVAE-WGAN模型，输入时序数据集，对SVAE进行层次特征提取，以获取数据潜在的关联性。然后采用对抗式学习方式，获取与真实样本更加接近的生成样本，从而获取高质量的软测量训练数据集。

本发明主要包括四个部分：(1)确定输入输出数据集；(2)数据集预处理；(3)将变分自编码器堆叠构建SVAE堆叠网络；(4)结合SVAE和WGAN构建SVAE-WGAN生成模型，并对模型进行优化，从而生成高质量的数据集。下面分别介绍以上四个部分的内容：

1、以某火电厂锅炉蒸汽量数据为例，为解决工业软测量建模不足问题，提出基于SVAE-WGAN的软测量数据补充方法，确定模型的输入输出，选择合适的训练数据集，输入数据使用工业过程中的采集到的时序数据，通过从训练集中采集m个样本的小批量数据集{x⁽¹⁾,x⁽²⁾,x⁽³⁾,…,x^(m)}；输出数据为经训练模型之后生成的数据集，生成的大小为n的训练集

2、数据集预处理。数据集预处理主要包括：归一化处理和异常数据处理两部分。由于从工业中采集到的数据之间具有不同的量纲和量纲单位，这直接影响数据分析的结果，为解决量纲造成的影响，需要对数据进行归一化处理，以解决数据之间存在的衡量关系。因此，软测量训练数据集采用最大-最小归一化处理方法。通过训练集和测试集中的数据分布情况，找出训练集和测试集中数据分布不一致的特征变量，这类特征容易导致降低模型的泛化能力，需要删除此类特征变量。

3、将变分自编码器堆叠构建SVAE堆叠网络。变分自编码器VAE由两部分组成，其中编码器Encoder负责接收输入数据x，通过计算编码器网络输出隐变量z的均值μ和方差σ²；另一个解码器Decoder负责接收隐变量z输出目标变量

通过解码器寻找一个与x分布近似的分布，使得x与

近似相等。堆叠VAE模型使将一个VAE模型的输出作为另一个VAE模型的输入，以达到更深层次的数据特征提取，进而提升模型的泛化能力。

4、结合SVAE和WGAN构建SVAE-WGAN生成模型，并对模型进行优化，从而生成高质量的数据集。将得到的堆叠变分自编码器SVAE作为WGAN的生成器，SVAE-WGAN中的判别器与标准WGAN类似，主要目的是尽可能区分数据是否真实，通过神经网络负责接收数据并输出数据。

本发明解决其技术问题所采用的技术方案的详细实施步骤如下：

步骤1：根据工业背景确定模型的输入输出，并选择合适的训练数据集，模型需要输入工业中采集到的时序数据，并要求输入的数据为无标签样本，同时，输出数据同样要求输出无标签样本。令输入数据

(m＝1,2,…),其中

表示从训练集中采集m个样本大小的数据集{x⁽¹⁾,...,x^(m)}作为模型的训练样本。令输出数据

其中

表示输出n个样本大小的数据集。

步骤2：数据集预处理。首先对输入的训练数据集进行归一化处理，归一化方法使用最大最小归一化，将训练数据线性转换到[0,1]的范围，归一化公式为：

其中X_max表示训练数据集中的最大值，X_min表示训练数据集的最小值。其次将训练数据集和测试集的分布情况进行对比，根据两个分布，观察训练数据的特征是否与测试数据的特征拟合，若分布差异不一致，则该特征上的值存在异常，故需要删除该特征，得到最终的训练数据集。之后转入步骤3。

步骤3：基于步骤2所得到训练数据集，构建堆叠变分自编码器；首先，根据步骤3.1构建变分自编码器，其次根据步骤3.2构建堆叠变分自编码器。之后转入步骤4；

构建堆叠变分自编码器的具体步骤如下：

步骤3.1：变分自编码器VAE由编码器和解码器两部分组成，首先编码器Encoder负责接收输入数据x，通过编码器计算编码器网络的输出分布

得到隐变量z的均值μ和方差σ²，假定分布p(z)服从正态分布，隐变量z重采样自编码器的输出分布，重采样是一种解决连续可导的方法，引入ε变量，ε变量采样自标准正态分布

由z＝μ+σ⊙∈方式采样获取隐变量z，从而保证了梯度传播是连续的，同时也使模型可采用梯度下降算法计算误差并优化参数。其次解码器Decoder负责接收隐变量z输出目标变量

通过解码器寻找一个与x分布近似的分布，使得x与

近似相等。编码器和解码器分别用

和θ网络参数化为

函数和p_θ(x|z)函数，令

Decoder(z)＝p_θ(x|z)，其中Encoder(x)表示编码器，Decoder(z)表示解码器。VAE模型的核心思想即找到一个后验分布

然后采用变分推断，不断优化目标函数并得到该模型的损失函数，公式为：

即：

其中，损失函数第一项

是编码器的重构误差函数，logp_θ(x|z)表示解码器的似然概率，p(z)表示隐变量z符合的先验分布，D_KL表示输出分布

与先验分布p(z)之间的KL散度。

步骤3.2：根据步骤3.1构建的变分自编码器，通过堆叠变分自编码器得到SVAE，将第一个变分自编码器的输出作为下一个变分自编码器的输入，从而得到深层次提取特征的深度生成网络模型SVAE。根据变分自编码器的目标函数，得到SVAE网络的目标函数

之后转入步骤4；其中，SVAE的损失函数

公式为：

式中，x表示输入的真实样本，i表示VAE模型的数量，z_i表示第i个VAE的编码器的隐变量，x_i表示第i个VAE生成的新样本。

之后转入步骤4；

步骤4：基于步骤3所得到的生成模型SVAE，接下来将结合SVAE和WGAN构建SVAE-WGAN生成模型；

生成式对抗网络GAN包括生成网络G(z)和判别网络D(x)，生成网络G(z)与步骤3.1的VAE的Decoder原理类似。首先从先验分布p_z(z)中采样得到隐变量z，然后，通过生成网络G(z)，它的数据集包括采样自真实样本分布p_z(z)中采样得到隐变量z，其次，通过生成网络参数化的p_g(x|z)分布得到生成分布p_g(x|z)，并获得生成样本

根据判别网络D(x)，它的关键是将预测值和真实值之间的交叉熵损失函数最小化，判别网络的损失函数可定义为：

其中，D_θ(x_r)表示真实样本x_r在判别器中的输出值，D_θ(x_g)表示生成样本x_g在判别其中的输出值，θ为判别器网络的参数。对于生成网络G(z)，希望生成的数据x_g能够骗过判别网络，使生成的假样本在判别网络中的输出D(G(z))越接近1越好，即生成数据在判别网络中的输出与1之间的交叉熵损失函数最小化，则生成网络的损失函数可定义为：

GAN模型的损失函数是将生成网络G(z)的损失函数和判别网络D(x)的损失函数合并，描述成min-max博弈形式：

把上式中

可以替换为x_g，那么可以将其损失函数简化为：

但是，GAN从理论上会出现梯度消失、模式坍塌、判断收敛性困难以及难以评价生成数据质量等问题。在实际应用中GAN由于实际训练过程中神经网络参数空间是非凸的、交替优化的，导致博弈学习过程可能陷入局部纳什均衡，出现模式坍塌，以及模型训练应该何时停止，如何评估生成数据的质量，这些都缺乏理想的评价指标和方法。

为解决GAN出现的问题，研究者发现GAN训练不稳定是由JS的缺陷引起的，并引入了Wasserstein距离，也叫推土机距离Earth-Mover Distance，简称EM距离，采用EM距离可表示生成数据分布p_g与真实数据分布p_r之间的差异，由此WGAN网络成为GANs的另一个突破。但是根据已有的条件，无法获取p_g和p_r两个分布，采用基于Kantorovich-Rubinstein对偶性，在判别器满足1阶-Lipschitz约束条件下经过转化，WGAN的损失函数可定义为：

其中，I满足1-Lipschitz约束条件，强制采用权重裁剪方法来满足1-Lipschitz约束的连续性条件，使得权重截断到一定范围内。

结合模型结构，SVAE-WGAN由堆叠变分自编码器与生成式对抗网络结合，因此SVAE-WGAN的损失函数定义如下：

步骤5：SVAE-WGAN模型的训练和优化。根据步骤4构建的SVAE-WGAN模型，对模型进行训练和优化使得达到模型的最优状态；

首先，根据步骤5.1确定SVAE和WGAN深层网络的基本架构，其次根据步骤5.2和步骤5.3对基于SVAE-WGAN的过程工业软测量数据补充方法进行训练和验证；

基于SVAE-WGAN的过程工业软测量数据补充方法验证的具体步骤如下：

步骤5.1：确定SVAE-WGAN深层网络的基本架构。SVAE-WGAN模型采用全连接神经网络，其中SVAE编码器和解码器都是三层全连接神经网络，WGAN的判别网络采用四层的全连接神经网络。

步骤5.2：各个模型的训练均采用无监督方式进行。首先对于SVAE需要每个独立的变分自编码器VAE进行训练，通过最小化

获得SVAE的最优值。其次，通过多次实验获得SVAE最优情况下VAE的堆叠个数。最后，训练和优化SVAE-WGAN模型，首先优化判别器，固定生成器G，采用RMSprop优化算法，优化前需用G生成数据得到新数据，用于优化

然后计算得到判别器的损失值；其次优化生成器，固定判别器D，采用RMSprop优化算法，优化前需要用G生成数据得到新数据，用于优化公式

然后计算得到生成器的损失值。根据生成模型训练获得的新数据集，计算新数据的MAE、MSE和RMSE指标值经过对比实验得到最终的生成数据，计算生成数据

的指标公式如下：

其中，y_i即为原始的训练数据集，

即为生成的新的数据集，n为数据集的大小。

本发明的关键效果在于通过SVAE-WGAN生成网络，解决了在复杂的过程工业中软测量模型寻来你数据集不足问题，从而提供了更加充足且高质量的训练数据集，基于SVAE-WGAN的软测量数据补充方法，使得数据中存在的潜在特征能够充分被提取；本发明的实现过程简单，可用于工业中任何采集到的时序数据集，并且该发明能够很好地适用于大量且复杂的数据场景。

附图说明

图1是本发明VAE模型框架图。

图2是本发明WGAN的基本框架图。

图3是本发明堆叠变分自编码器的策略图。

图4是本发明SVAE-WGAN模型的框架图。

图5是本发明五种生成模型生成的新数据和原始数据的特征密度分布图。

图6是五种模型的生成器损失过程图。其中，横轴是模型迭代地次数，纵轴表示损失值。

图7是五种模型在不同数据集下的效果变化图。其中，横轴是生成数据集的大小，纵轴表示指标值。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明针对软测量建模数据不足问题进行数据生成建模。提出基于SVAE-WGAN的过程工业软测量数据补充方法，该方法适用于工业中采集到的任意时序数据，例如锅炉的蒸汽量数据集。本发明在Pycharm环境中通过python语言构建模型来实现，或实现在tensorflow2.0环境之中下面结合实例对本发明的实现进行详细的说明，实例场景图如图4所示，图4是本发明实时实例的网络模型架构图，图中共有2个变分自编码器，1个判别器，首先通过输入数据x到第一个变分自编码器的编码器中，得到隐藏变量z₁，其次通过解码器解码成

将

输入到下一个变分自编码器的编码器中得到下一个隐藏变量z₂，再次将z₂输入到该变分自编码器的解码器中解码得到数据

最后分别将真实数据x和生成的数据

输入到判别器中，实现数据的真假判别。

本发明重点关注在已经构建的生成网络SVAE-WGAN的生成数据性能提升的场景中，给定合适的数据集，通过全连接神经网络构建网络模型，进行网络参数化，之后通过训练和优化参数，从而在所设定的恰当的训练次数内，在实现网络性能最优的基础上，最小化网络的损失值和指标值。

本发明属于过程工业中软测量建模数据的补充方法，由采集到的少量数据，根据建模需求，选择合适的数据，通过SVAE-WGAN生成模型训练数据，从而生成符合要求的高质量数据集，计算模型使用的原始数据和生成数据的指标值，在不同的数据量的基础上最小化网络的损失值。

变分自编码器的框架如图1所示，图1是VAE模型框架图，其中包括编码器和解码器。此外，图中给出了VAE的结构图，即给出了VAE模型的实现过程，本发明采用工业蒸汽量数据，具体实施如下：

步骤1：以某火电厂锅炉蒸汽量数据为例，为解决工业软测量建模不足问题，提出基于SVAE-WGAN的软测量数据补充方法。首先确定模型的输入输出，选择合适的训练数据集。模型需要输入工业中采集到的时序数据，并要求输入的数据为无标签样本，同时，输出数据同样要求输出无标签样本。。令输入数据

(m＝1,2,…)，其中

其中

表示输出n个样本大小的数据集。之后转入步骤2。

构建堆叠变分自编码器的具体步骤如下：

步骤3.1：变分自编码器(VAE)由编码器和解码器两部分组成，具体的框架如图1所示，首先编码器(Encoder)负责接收输入数据x，通过编码器计算编码器网络的输出分布

得到隐变量z的均值μ和方差σ²，假定分布p(z)服从正态分布，隐变量z重采样自编码器的输出分布，重采样是一种解决连续可导的方法，引入ε变量(ε变量采样自标准正态分布

)，由z＝μ+σ⊙∈方式采样获取隐变量z，从而保证了梯度传播是连续的，同时也使模型可采用梯度下降算法计算误差并优化参数。其次解码器(Decoder)负责接收隐变量z输出目标变量

通过解码器寻找一个与x分布近似的分布，使得x与

近似相等。编码器和解码器分别用

和θ网络参数化为

函数和p_θ(x|z)函数，令

即：

其中，损失函数第一项

与先验分布p(z)之间的KL散度。

之后转入步骤4；其中，SVAE的损失函数

公式为：

之后转入步骤4；

生成式对抗网络GAN包括生成网络和判别网络D(x)，生成网络G(z)与步骤3.1的VAE的Decoder原理类似。首先从先验分布p_z(z)中采样得到隐变量z，然后，通过生成网络D(x)，它的数据集包括采样自真实样本分布p_z(z)中采样得到隐变量z，其次，通过生成网络参数化的p_g(x|z)分布得到生成分布p_g(x|z)，并获得生成样本

把上式中

可以替换为x_g，那么可以将其损失函数简化为：

但是，GAN从理论上会出现梯度消失、模式坍塌、判断收敛性困难以及难以评价生成数据质量问题。在实际应用中GAN由于实际训练过程中神经网络参数空间是非凸的、交替优化的，导致博弈学习过程陷入局部纳什均衡，出现模式坍塌，以及模型训练应该何时停止，如何评估生成数据的质量，这些都缺乏理想的评价指标和方法。

为解决GAN出现的问题，研究者发现GAN训练不稳定是由JS的缺陷引起的，并引入了Wasserstein距离，也叫推土机距离Earth-MoverDistance，简称EM距离，采用EM距离可表示生成数据分布p_g与真实数据分布p_r之间的差异，由此WGAN网络成为GANs的另一个突破。但是根据已有的条件，无法获取p_g和p_r两个分布，采用基于Kantorovich-Rubinstein对偶性，在判别器满足1阶-Lipschitz约束条件下经过转化，WGAN的损失函数可定义为：

步骤5：采用工业蒸汽量数据集进行仿真，完成SVAE-WGAN模型的训练和优化。根据步骤4构建的SVAE-WGAN模型，对模型进行训练和优化使得达到模型的最优状态；

首先，根据步骤5.1确定SVAE和WGAN深层网络的基本架构，初始化参数，其次根据步骤5.2和步骤5.3对基于SVAE-WGAN的过程工业软测量数据补充方法进行训练和验证；

基于SVAE-WGAN的过程工业软测量数据补充方法仿真的具体步骤如下：

步骤5.1：确定SVAE-WGAN深层网络的基本架构，初始化模型参数。SVAE-WGAN模型采用全连接神经网络，其中SVAE编码器和解码器都是三层全连接神经网络，WGAN的判别网络采用四层的全连接神经网络。

获得SVAE的最优值。其次，通过多次实验获得SVAE最优情况下VAE的堆叠个数。最后，训练和优化SVAE-WGAN模型，先是优化判别器，固定生成器G，采用RMSprop优化算法，优化前需用G生成数据得到新数据，用于优化

计算得到判别器的损失值；然后优化生成器，固定判别器D，采用RMSprop优化算法，优化前需要用G生成数据得到新数据，用于优化公式

计算得到生成器的损失值。与GAN不同的是，WGAN的损失函数不再取对数操作，判别器的最后一层去掉sigmoid激活函数，从而提升GAN训练稳定性、解决模式崩塌问题，增加了生成样本数据的多样性。因此，模型SVAE-WGAN同样不在取对数操作，判别器的最后一层也去掉sigmoid激活函数。

根据生成模型训练获得的新数据集，计算新数据的MAE、MSE和RMSE指标值经过对比实验得到最终的生成数据，计算生成数据的指标公式如下：

其中，y_i即为原始的训练数据集，

即为生成的新的数据集，n为数据集的大小。

仿真在同一训练数据集、生成新的数据集的条件下，通过MAE、MSE、RMSE这三项指标说明模型的性能，并对比了生成不同大小数据集的模型性能结果，也分别从模型的损失值、原始数据和真实数据的分布上做了充分的对比。利用折线图和分布图来展现结果如图5和图7所示。主要的仿真参数如下：

网络结构：DNN

数据大小：20

批量大小：100-1000

学习率：0.0001-0.001

权重裁剪范围：[0.01，0.01]

隐藏变量维度：20

判别器迭代次数：2-5

优化算法：RMSProp、SGD

图2是本发明中另一个关键的模型WGAN的基本框架图，其中包括生成器G(z)和判别器D(x)，X为输入的真实数据，Z为输入的隐藏变量，判别器的输入为真实数据和生成数据；图3是堆叠变分自编码器的策略图，其中，x表示输入的样本，i表示VAE模型的数量，z_i表示第i个VAE的编码器的隐变量，x_i表示第i个VAE生成的新样本。

图4是构建的SVAE-WGAN模型的框架图。本发明提出的SVAE-WGAN模型是结合了VAE和WGAN模型之间的优势，通过神经网络实现，其中，SVAE-WGAN中的判别器D与标准WGAN类似，都是通过神经网络负责接收数据并输出数据。而堆叠变分自编码器的解码器则作为WGAN的生成器负责数据的生成，生成器直接影响生成数据的质量，它的目的是学习到真实样本的分布，而判别器主要目的是尽可能区分数据是否真实，如此采用对抗训练方式以提高模型的生成能力。

图5是各个模型的生成数据和原始数据的密度分布图，其中，每个分布的横轴是蒸汽量的特征，包括了20种特征，纵轴是每种特征的密度值，蓝色代表生成数据的分布，橙色代表原始数据的分布。从图4中可以看出SVAE-WGAN的生成能力要优于GAN模型。为了能够更加清楚的看出各个生成模型之间的差距，利用模型的损失过程说明，图6是五种模型的损失过程图，其中横轴是模型的迭代次数，纵轴是模型的损失值。图6中有三种情况，分别是模型在生成300、600和1000大小数据集下的损失过程。从图6中可以看出本文提出的SVAE-WGAN生成模型随着迭代次数的增加，损失值不断地降低。

图7是五种生成模型在不同数据集下的指标变化图。其中图中包括三种指标变化，每个图中横轴表示生成数据集的大小，纵轴是指标值。从图7可以看出随着生成数据的不断增加，各个模型在MAE、MSE和RMSE上随之降低，但是提出的新模型SVAE-WGAN比其中性能表现较好的VA-WGAN在MAE、MSE、RMSE指标上分别提高了4.88％、17.6％、2.72％。

Claims

1.一种工业领域中基于SVAE-WGAN的过程工业软测量数据补充方法，其特征在于包括下述步骤：

步骤1：根据工业背景确定模型的输入输出，并选择合适的训练数据集，模型需要输入工业中采集到的时序数据，并要求输入的数据为无标签样本，同时，输出数据同样要求输出无标签样本，令输入数据

其中

表示从训练集中采集m个样本大小的数据集{x⁽¹⁾，...，x^(m)}作为模型的训练样本，令输出数据

其中

表示输出n个样本大小的数据集；

步骤2：数据集预处理：首先对输入的训练数据集进行归一化处理，归一化方法使用最大最小归一化，将训练数据线性转换到[0，1]的范围，归一化公式为：

其中X_max表示训练数据集中的最大值，X_min表示训练数据集的最小值；其次将训练数据集和测试集的分布情况进行对比，根据两个分布，观察训练数据的特征是否与测试数据的特征拟合，若分布差异不一致，则该特征上的值存在异常，故需要删除该特征，得到最终的训练数据集，之后转入步骤3；

步骤3：基于步骤2所得到训练数据集，构建堆叠变分自编码器；首先，根据步骤3.1构建变分自编码器，其次根据步骤3.2构建堆叠变分自编码器，之后转入步骤4；

构建堆叠变分自编码器的具体步骤如下：

由z＝μ+σ⊙∈方式采样获取隐变量z，从而保证了梯度传播是连续的，同时也使模型可采用梯度下降算法计算误差并优化参数；其次解码器Decoder负责接收隐变量z输出目标变量

通过解码器寻找一个与x分布近似的分布，使得x与

近似相等，编码器和解码器分别用

和θ网络参数化为

函数和p_θ(x|z)函数，令

Decoder(z)＝p_θ(x|z)，其中Encoder(x)表示编码器，Decoder(z)表示解码器，VAE模型的核心思想即找到一个后验分布

即：

其中，损失函数第一项

与先验分布p(z)之间的KL散度；

步骤3.2：根据步骤3.1构建的变分自编码器，通过堆叠变分自编码器得到SVAE，将第一个变分自编码器的输出作为下一个变分自编码器的输入，从而得到深层次提取特征的深度生成网络模型SVAE，根据变分自编码器的目标函数，得到SVAE网络的目标函数

之后转入步骤4；其中，SVAE的损失函数

公式为：

式中，x表示输入的真实样本，i表示VAE模型的数量，z_i表示第i个VAE的编码器的隐变量，x_i表示第i个VAE生成的新样本，之后转入步骤4；

生成式对抗网络GAN包括生成网络和判别网络D(x)，生成网络G(z)与步骤3.1的VAE的Decoder原理类似，首先从先验分布p_z(z)中采样得到隐变量z，然后，通过生成网络G(z) ，它的数据集包括采样自真实样本分布p_z(z)中采样得到隐变量z，其次，通过生成网络参数化的p_g(x|z)分布得到生成分布p_g(x|z)，并获得生成样本

其中，D_θ(x_r)表示真实样本x_r在判别器中的输出值，D_θ(x_g)表示生成样本x_g在判别器中的输出值，θ为判别网络的参数，对于生成网络G(z)，希望生成的数据x_g能够骗过判别网络，使生成的假样本在判别网络中的输出D(G(z))越接近1越好，即生成数据在判别网络中的输出与1之间的交叉熵损失函数最小化，则生成网络的损失函数可定义为：

把上式中

可以替换为x_g，那么可以将其损失函数简化为：

但是，GAN从理论上会出现梯度消失、模式坍塌、判断收敛性困难以及难以评价生成数据质量问题，在实际应用中GAN由于实际训练过程中神经网络参数空间是非凸的、交替优化的，导致博弈学习过程陷入局部纳什均衡，出现模式坍塌，以及模型训练应该何时停止，如何评估生成数据的质量，这些都缺乏理想的评价指标和方法；

为解决GAN出现的问题，研究者发现GAN训练不稳定是由JS的缺陷引起的，并引入了Wasserstein距离，也叫推土机距离Earth-Mover Distance，简称EM距离，采用EM距离可表示生成数据分布p_g与真实数据分布p_r之间的差异，由此WGAN网络成为GANs的另一个突破；但是根据已有的条件，无法获取p_g和p_r两个分布，采用基于Kantorovich-Rubinstein对偶性，在判别器满足1阶-Lipschitz约束条件下经过转化，WGAN的损失函数可定义为：