CN112116022A

CN112116022A - 基于连续混合潜在分布模型的数据生成方法及装置

Info

Publication number: CN112116022A
Application number: CN202011033298.8A
Authority: CN
Inventors: 刘雪娇; 向雪霜; 徐遥
Original assignee: China Academy of Space Technology CAST
Current assignee: China Academy of Space Technology CAST
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2020-12-22
Anticipated expiration: 2040-09-27

Abstract

本申请公开了一种基于连续混合潜在分布模型的数据生成方法及装置，方法包括：获取待训练数据的属性信息，收集与待训练数据的属性信息相同或相关的数据，对所收集的数据进行预处理，生成训练数据集；构建从噪声空间到数据空间的随机数据生成SDG网络；构建判别网络，将SDG网络的生成数据和训练数据集中数据分别作为判别网络的输入，判断数据的真假；利用获取的真数据和生成的伪数据对判别网络和SDG网络进行博弈训练，生成与训练数据集中的数据相似度达到第一阈值、多样性达到第二阈值的数据，保存模型；将随机噪声输入到经过博弈训练的SDG网络模型中，生成目标数据。本申请增加了生成网络对数据分布的逼近能力，生成符合原始数据分布的高多样性的数据。

Description

基于连续混合潜在分布模型的数据生成方法及装置

技术领域

本申请实施例涉及一种基于连续混合潜在分布模型的数据生成方法及装置。

背景技术

生成模型是概率统计和机器学习中的一类重要模型，可以直接对采样数据建模，用于随机生成可观测数据。生成模型可以用于全监督、半监督和无监督学习。在监督学习任务中，根据贝叶斯公式由联合概率分布P(X,Y)可求出条件概率分布P(Y|X)，从而得到预测模型。典型的生成模型包括混合高斯模型、隐马尔可夫模型、朴素贝叶斯、隐狄利克雷分配模型、受限玻尔兹曼机和深度生成模型等。深度生成模型是一种利用深层神经网络近似复杂数据分布的生成模型，其在无监督和半监督深度学习方面占据主要位置，在无标注或弱标注情况下可以捕捉观测或可见数据的高阶相关性，从而学习原始数据的复杂分布形式。

生成对抗网络是一种典型的深度生成模型，自2014年Goodfellow等人首次提出以来，生成对抗网络(GAN)经历了爆炸性的发展。GAN是以随机变量作为输入，通过对抗训练过程估计生成模型的一种新框架。通过模仿生成网络和判别网络之间的对抗过程，GAN可以在无标注或弱标注训练数据的情况下学习数据的深层表示，并学习原始图像的风格。GAN把潜在空间的随机变量作为生成模型的输入，以学习输出的不确定性。在生成对抗网络中，训练和生成样本的过程不需要任何马尔可夫链或近似推理网络，它避免了近似处理复杂概率的计算困难。对抗式的训练过程使判别网络无法区分出样本图片和生成图片，使生成模型产生的图片质量较高。但是获得的生成器支撑集是高维数据空间的低维子流形，实际上，生成器支集很难与数据空间的支集有交集，导致生成对抗网络会出现模型坍塌现象(modelcollapse)。此外，由于数据分布的高复杂性，仅通过输入随机变量很难准确地刻画数据分布形式，导致传统生成对抗网络对数据分布概率小的地方逼近不够，出现细节丢失现象。

发明内容

有鉴于此，本申请实施例提供一种基于连续混合潜在分布模型的数据生成方法及装置。

根据本申请的第一方面，提供一种基于连续混合潜在分布模型的数据生成方法，包括：

获取待训练数据的属性信息，收集与待训练数据的属性信息相同或相关的数据，对所收集的数据进行预处理，生成训练数据集；

构建从噪声空间到数据空间的随机数据生成SDG网络；

构建判别网络，将SDG网络的生成数据和训练数据集中数据分别作为判别网络的输入，判断数据的真假；

利用获取的真数据和生成的伪数据对判别网络和SDG网络进行博弈训练，生成与训练数据集中的数据相似度达到第一阈值、多样性达到第二阈值的数据，将训练后的SDG网络作为SDG网络模型；

将随机噪声输入到经过博弈训练的SDG网络模型中，生成目标数据。

优选地，所述SDG网络为从潜在分布到数据分布的随机数据生成网络，是将随机性引入到传统生成网络的前馈过程中，将潜在分布变成连续混合潜在分布。

优选地，所述构建从噪声空间到数据空间的随机数据生成SDG网络，包括：

在神经网络层与层之间的条件概率分布上施加先验分布假设，通过随机前馈过程将噪声空间的潜在分布转换为连续混合潜在分布；

通过重参数化处理，对连续混合潜在分布进行重采样，基于误差反向传播对分布参数进行更新；

确定随机权重θ_SDG所服从分布的最优参数，获得训练目标如下：

其中，E表示对相应变量计算数学期望，z～p_z是输入的随机变量，θ_SDG是随机数据生成网络参数，服从分布p_θ(α)，α为分布参数；L(SDG(z；θ_SDG))为所述SDG网络的损失函数，所述损失函数如下：

L(SDG(z；θ_SDG))＝-log[D(SDG(z；θ_SDG))]。

优选地，所述构建判别网络，包括：

构建判别损失函数，设计判别网络；判别损失函数Loss_D如下：

其中，z～p_z为输入的随机变量，x～p_data为训练数据集中的训练数据，θ_D为判别网络参数。

优选地，所述利用获取的真数据和生成的伪数据对判别网络和SDG网络进行博弈训练，包括：

基于连续混合潜在分布的数据生成方法总目标函数为：

优选地，所述博弈训练，包括：

训练所述判别网络来最大化其分辨真实样本和生成样本的能力；

训练SDG网络来最小化生成样本与训练样本之间的距离log[1-D(G(z；θ_G))]，即最大化其生成样本被判别为真实样本的概率；

重复判别网络及SDG网络的训练，直到达到指定训练步数或训练精度。

根据本申请的第二方面，提供一种基于连续混合潜在分布模型的数据生成装置，包括：

获取单元，用于获取待训练数据的属性信息；

收集单元，用于收集与待训练数据的属性信息相同或相关的数据；

第一生成单元，用于对所收集的数据进行预处理，生成训练数据集；

构建单元，用于构建从噪声空间到数据空间的随机数据生成SDG网络；以及，构建判别网络；

判断单元，用于将SDG网络的生成数据和训练数据集中数据分别作为判别网络的输入，判断数据的真假；

训练单元，用于利用获取的真数据和生成的伪数据对判别网络和SDG网络进行博弈训练，生成与训练数据集中的数据相似度达到第一阈值、多样性达到第二阈值的数据，将训练后的SDG网络作为SDG网络模型；

第二生成单元，用于将随机噪声输入到经过博弈训练的SDG网络模型中，生成目标数据。

优选地，所述SDG网络为从潜在分布到数据分布的随机数据生成网络，是将随机性引入到传统生成网络的前馈过程中，将潜在分布变成连续混合潜在分布；

所述构建单元，还用于：

L(SDG(z；θ_SDG))＝-log[D(SDG(z；θ_SDG))]。

优选地，所述构建单元，还用于：

其中，z～p_z为输入的随机变量，x～p_data为训练数据集中的训练数据，θ_D为判别网络参数；

对应地，所述训练单元，还用于：

基于连续混合潜在分布的数据生成总目标函数为：

优选地，所述训练单元，还用于：

本申请实施例提供的基于连续混合潜在分布模型的数据生成方法及装置，通过在生成网络的前馈过程中引入随机性，在前馈神经网络层与层之间的条件概率分布上施加先验分布假设，将潜在分布变成连续混合潜在分布，增加了生成对抗网络对数据分布的逼近能力，从而可以更好地逼近分布的细节信息，生成符合原始数据分布的高多样性的数据。

附图说明

图1为本申请实施例提供的基于连续混合潜在分布模型的数据生成方法流程示意图；

图2为本申请实施例提供的随机数据生成网络架构示意图；

图3为本申请实施例提供的判别网络架构示意图；

图4为本申请实施例提供的基于连续混合潜在分布模型的数据生成方法与传统生成对抗网络方法针对数据集X3的对比结果示意图；

图5为本申请实施例提供的基于连续混合潜在分布模型的数据生成装置的组成结构示意图。

具体实施方式

近年来，深度学习在图像处理上取得了突飞猛进的进展，关于网络架构、损失函数以及优化算法方面的研究工作有很多，但是对于数据分布本身的研究还很少，主要难点在于数据分布缺乏先验知识，而且其形式高度复杂。本申请实施例针对数据分布的逼近问题，提出一种基于连续混合潜在分布的生成模型方法，通过引入随机性对GAN的生成模型部分进行改进，进而提高生成模型的逼近能力。

本申请实施例针对现有的生成对抗网络存在模型坍塌和细节丢失等数据逼近问题，通过在前馈过程中引入随机性，对GAN的生成模型部分进行改进，从而提高生成模型的逼近能力。现有的生成对抗网络只有输入是随机噪声，生成网络是由确定性的前馈网络所决定，即，层与层之间的生成过程本质上是由确定性的条件概率分布所决定的，而本身不具有随机性，但是无论从生物神经元的激活原理还是工程实现的角度来理解，神经网络的随机性都应该来自于神经元本身，也就是说，生成模型不是由确定性的前馈过程所决定的。本申请实施例通过在神经网络两层之间的条件概率分布上施加一个先验分布假设，其分布超参数依赖于前一层。理论上可以证明，该随机数据生成模型是传统生成对抗网络的一种推广形式，而该模型将随机性引入到神经网络中，可以带来更强的捕捉数据分布的能力，而且基于连续混合潜在分布的生成模型方法的发明思想适应范围广，可广泛应用于多种原始或改进的生成对抗网络中。

以下通过具体示例，进一步阐明本申请实施例的技术方案的本质。

图1为本申请实施例提供的基于连续混合潜在分布模型的数据生成方法流程示意图，如图1所示，本申请基于连续混合潜在分布模型的数据生成方法包括如下处理步骤：

步骤1，构建数据集：收集大量真实数据，进行预处理，建立训练数据集；

步骤2，构建从噪声空间到数据空间的随机数据生成网络SDG；

步骤3，构建判别网络D，将随机数据生成网络SDG的生成数据和原始训练数据分别作为D的输入，判断数据的真假；

步骤4，博弈训练网络D和SDG；

步骤5，生成与训练数据相似度高、多样性丰富的数据：将随机噪声z输入到经过步骤4训练好的随机数据生成网络SDG中，生成目标数据。

为了展示本申请实施例所提出的基于连续混合潜在分布的生成模型方法处理数据复杂性的能力，验证基于传统生成对抗网络的生成模型G和本申请实施例提出的新型生成模型方法SDG的相互逼近能力，本申请实施例以多模态合成数据集为例，展示了从数据集构建、网络架构设计、网络训练和数据生成的全流程实现过程。

进一步，所述步骤1包括：

步骤11，构建由人造生成模型G产生的数据集X1和X2，其中G是单隐层神经网络，具体构造方式如下：

X＝A₂z₂+b₂,z₂＝A₁z₁+b₁,z₁～N(0，1.0*I_d)，

其中，

b₂～N(0，0.0001*I_D)，输入维度d＝2，输出维度D＝10，N₁为单隐层神经元的个数。首先生成d维高斯向量z₁，然后通过A₁和b₁将其变换为N₁维向量z₂，最后通过A₂和b₂将其变换为D维数据分布，对其进行采样，分别构建具有10000个样本的训练数据集X1(N₁＝100)和数据集X2(N₁＝200)。构建数据集X1和数据集X2的目的是研究传统生成模型中增加网络参数对于生成模型表达能力的影响。

步骤12，构建由SDG产生的数据集X3，其中SDG与G具有相同的网络架构，N₁＝100，本申请实施例采用重参数化的方式构造所述数据集：

X＝A₂z₂+b₂,z₂＝μ+σ×ε+b₁,

其中，μ＝A₁₁z₁，σ＝A₁₂z₁，z₁～N(0，1.0*I_d)，

A₁₁和

b₂～N(0，0.0001*I_D)，d＝2，D＝10。

首先生成d维高斯向量z₁，然后通过A₁₁和A₁₂分别将其变换为N₁维均值向量μ和方差向量σ，之后通过重参数化生成复杂数据z₂，最后通过A₂和b₂将其变换为D维复杂数据分布，对其采样，构建具有10000个样本的训练数据集X3。数据集X3是混合了高斯分布相乘和相加的复杂分布。

所述步骤2具体包括：

步骤21，在神经网络层与层之间的条件概率分布上施加先验分布假设，通过随机前馈过程将噪声空间的潜在分布转换为连续混合潜在分布；

步骤22，通过重参数化技巧，对连续混合潜在分布进行重采样，从而基于误差反向传播实现对分布参数的更新；

步骤2所述的随机数据生成网络SDG包括输入层、随机全连接层、重参数化层、输出层。本申请实施例的随机数据生成网络具体架构如图2所示，随机数据生成网络SDG的输入变量是2维的高斯随机向量z，经过两个随机全连接层后分别得到100维的均值向量和100维的方差向量，构成100维的连续混合潜在分布，然后通过重参数化层产生100维的随机变量，最后通过输出层(全连接层)输出10维生成数据，并将该生成数据作为判别网络D的输入。

步骤3所述的判别网络D包括输入层、全连接层、激活层、全连接层、输出层。本申请实施例的判别网络D具体架构如图3所示，将原始训练数据和以上由随机数据生成网络SDG产生的生成数据作为输入，经过全连接层后产生100维向量，再通过激活层(lrelu)和全连接层输出数据的真/假。

步骤4所述的博弈训练网络D和SDG的优化过程是一个“二元极大极小博弈”问题，所述的博弈问题为

通过交替迭代训练过程，使得判别网络最大化其分辨真实样本和生成样本的能力，同时使生成网络最小化其生成样本与真实样本之间的距离。所述步骤4具体包括：

步骤41，训练所述判别网络D来最大化其分辨真实样本和生成样本的能力，判别损失函数如下：

其中，z～p(z)是输入的随机变量，x～p_data(x)是原始训练数据。θ_SDG是随机数据生成网络的权重，服从分布p_θ(α)，分布参数为α，θ_D是判别网络参数。

步骤42，训练所述随机数据生成网络SDG来最小化生成样本与训练样本之间的距离log[1-D(SDG(z；θ_SDG))]，即最大化其生成样本被判别为真实样本的概率，生成损失函数如下：

步骤43，迭代执行步骤41和步骤42，直到达到指定训练步数或训练精度。

具体训练步骤如下：

(1)更新判别网络D的参数θ_D：将训练数据x和随机数据生成网络SDG产生的生成数据x₁作为判别网络D的输入，基于判别损失函数Loss_D来更新判别网络D的参数，此时随机数据生成网络SDG的参数不更新；

(2)更新随机数据生成网络SDG的参数θ_SDG：将随机噪声z输入随机数据生成网络SDG，首先通过随机全连接层得到连续混合潜在分布，然后经过重参数化层得到基于连续混合潜在分布的随机向量，最后通过全连接层输出生成数据x₁，同时作为判别网络D的输入，基于生成损失函数Loss_SDG来更新随机数据生成网络SDG的参数，此时所述的判别网络D为前一步的参数共享网络，参数不进行更新；

(3)迭代更新判别网络D和随机数据生成网络SDG，直到达到指定训练步数或训练精度。

步骤5，生成与训练数据相似度高、多样性丰富的数据：将随机噪声z输入到经过步骤4训练好的随机数据生成网络SDG中，可生成符合原始数据分布的高多样性目标数据。本申请实施例中，针对数据集X3，随机数据生成网络得到的生成数据如图4所示，从左到右展示了原始数据集、两种传统生成对抗网络架构(GAN-100和GAN-200)和基于连续混合潜在分布的生成模型方法(SDG-GAN)的对比结果。

图5为本申请实施例提供的基于连续混合潜在分布模型的数据生成装置的组成结构示意图，如图5所示，本申请实施例提供的基于连续混合潜在分布模型的数据生成装置包括：

获取单元50，用于获取待训练数据的属性信息；

收集单元51，用于收集与待训练数据的属性信息相同或相关的数据；

第一生成单元52，用于对所收集的数据进行预处理，生成训练数据集；

构建单元53，用于构建从噪声空间到数据空间的随机数据生成SDG网络；以及，构建判别网络；

判断单元54，用于将SDG网络的生成数据和训练数据集中数据分别作为判别网络的输入，判断数据的真假；

训练单元55，用于利用获取的真数据和生成的伪数据对判别网络和SDG网络进行博弈训练，生成与训练数据集中的数据相似度达到第一阈值、多样性达到第二阈值的数据，将训练后的SDG网络作为SDG网络模型；

第二生成单元56，用于将随机噪声输入到经过博弈训练的SDG网络模型中，生成目标数据。

在一些实施例中，所述SDG网络为从潜在分布到数据分布的随机数据生成网络，是将随机性引入到传统生成网络的前馈过程中，将潜在分布变成连续混合潜在分布；

所述构建单元53，还用于：

L(SDG(z；θ_SDG))＝-log[D(SDG(z；θ_SDG))]。

在一些实施例中，所述构建单元53，还用于：

对应地，所述训练单元55，还用于：

基于连续混合潜在分布的数据生成总目标函数为：

在一些实施例中，所述训练单元55，还用于：

在本公开实施例中，图5示出的基于连续混合潜在分布模型的数据生成装置中各个处理模块及单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例还提供一种计算机可读存储介质，其上存取有计算机指令，所述指令被处理器执行时实现前述实施例的基于连续混合潜在分布模型的数据生成方法的步骤。

在本实施例中，至少一个处理器可以构成具有对一个或多个输入执行逻辑运算的电路的任何物理设备。例如，至少一个处理器可以包括一个或多个集成电路(IC)，包括专用集成电路(ASIC)、微芯片、微控制器、微处理器、中央处理单元(CPU)的全部或部分、图形处理单元(GPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)或者适于执行指令或执行逻辑运算的其它电路。由至少一个处理器执行的指令可以例如被预加载到与控制器集成的或嵌入在控制器中的存储器中，或者可以存储在分离的存储器中。存储器可以包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘、光盘、磁介质、闪存，其它永久、固定或易失性存储器，或者能够存储指令的任何其它机制。可选的是，至少一个处理器可以包括多于一个处理器。每个处理器可以具有相似的结构，或者处理器可以具有彼此电连接或断开的不同构造。例如，处理器可以是分离的电路或集成在单个电路中。当使用多于一个处理器时，处理器可以被配置为独立地或协作地操作。处理器可以以电、磁、光学、声学、机械或通过允许它们交互的其它手段来耦合。

在本实施例中，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

此外，本发明的特征和益处通过参考示例性实施例进行说明。相应地，本发明明确地不应局限于这些说明一些可能的非限制性特征的组合的示例性的实施例，这些特征可单独或者以特征的其它组合的形式存在。

本领域技术人员在考虑说明书及实践示例的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神以权利要求书为准。