CN112784981A

CN112784981A - 训练样本集生成方法、深度生成模型的训练方法和装置

Info

Publication number: CN112784981A
Application number: CN202110073852.3A
Authority: CN
Inventors: 朱军; 任勇
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-05-11

Abstract

提供了一种训练样本集生成方法、深度生成模型的训练方法和装置。训练样本集生成时将原始样本集划分为多个随机性较弱的聚合样本集，并基于所述聚合样本集构建训练样本集。模型训练时采用所述训练样本集作为第一训练样本集；基于所述训练样本集和预设方式对所述深度生成模型进行迭代训练，直到达到预设条件，在每个迭代轮次中：从所述训练样本集中采样一个聚合训练样本集；基于所述聚合训练样本集中的每一个训练样本从所述深度生成模型采样生成对应的第三样本集；将所述聚合训练样本集和所述第三样本集的最大均值差异作为损失函数进行优化，以更新深度生成模型的参数。由此，在训练模型时，对样本集采取了先划分，后匹配的方法，模型生成效果更佳。

Description

训练样本集生成方法、深度生成模型的训练方法和装置

技术领域

本发明的实施方式涉及神经网络技术领域，更具体地，本发明的实施方式涉及一种训练样本集生成方法、深度生成模型的训练方法和装置。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

深度生成模型对于不确定性建模取得了很大的成功，在诸如图像生成、缺失数据补以及转化学习等任务中取得了很广泛的应用。

发明内容

在本上下文中，本发明的实施方式期望提供一种训练样本集生成方法、深度生成模型的训练方法和装置。

在本发明实施方式的第一方面中，提供了一种训练样本集生成方法，包括：

提供包括多个样本的原始样本集；

基于各个样本的能够表示随机性的特定关联信息对所述原始样本集进行划分，将具有相同或相似特定关联信息的样本划分到同一集合中，得到多个聚合样本集，每一聚合样本集均为所述原始样本集的真子集；

基于所述多个聚合样本集构建训练样本集。

在本实施方式的一个实施例中，基于各个样本的能够表示随机性的特定关联信息对所述原始样本集进行划分，将具有相同或相似特定关联信息的样本划分到同一集合中，得到多个聚合样本集，包括：

从预先准备好的多个随机变量中采样得到任一随机变量；

基于所述随机变量从所述原始样本集中采样得到多个样本划分到同一集合中，得到一聚合样本集；

重复执行以上步骤，直到预设终止条件，在达到预设终止条件时，得到多个聚合样本集。

在本实施方式的一个实施例中，所述预设终止条件包括以下之一：

采样到所有随机变量；

所有样本均被划分至某个集合中；

重复执行预设次数。

获取各个样本的隐藏层特征；

将具有相同或相似隐藏层特征的样本划分到同一集合中，得到多个聚合样本集。

在本实施方式的一个实施例中，通过特定神经网络模型对各个样本进行处理，得到各个样本的隐藏层特征。

在本实施方式的一个实施例中，所述特定神经网络模型包括编码器-解码器模型和聚类模型中的一种。

在本实施方式的一个实施例中，在基于编码器-解码器模型对所述原始样本集进行处理时，采用所述编码器对所述原始样本集进行处理，得到各个样本的隐藏层特征。

在本发明实施方式的第二方面中，提供了一种深度生成模型的训练方法，包括：

采用第一方面中任一项的方法提供训练样本集作为第一训练样本集；

基于所述训练样本集和预设方式对所述深度生成模型进行迭代训练，直到达到预设条件，在每个迭代轮次中：

从所述训练样本集中采样一个聚合训练样本集；

基于所述聚合训练样本集中的每一个训练样本从所述深度生成模型采样生成对应的第三样本集；

将所述聚合训练样本集和所述第三样本集的最大均值差异作为损失函数进行优化，以更新所述深度生成模型的参数。

在本实施方式的一个实施例中，基于所述聚合训练样本集中的每一个训练样本从所述深度生成模型采样生成对应的第三样本集，包括：

逐一获取所述聚合样本集中的各个训练样本的特定关联信息；

以各个训练样本的特定关联信息和随机采样的变量作为输入，使所述深度生成模型生成并输出对应的第三样本集。

在本实施方式的一个实施例中，在所述各个训练样本的特定关联信息的取值空间为连续时，以条件最大均值差异作为损失函数进行优化。

在本实施方式的一个实施例中，在计算条件最大均值差异时，样本空间的核函数采用7个RBF核函数的混合，带宽分别为1,4,8,16,24,32,64；条件信息的核函数采用带宽为1的RBF核函数。

在本实施方式的一个实施例中，所述深度生成模型包括预设数量的逆卷积层，所述预设数量至少为三。

在本实施方式的一个实施例中，一个所述聚合训练样本集中的样本数量为64。

在本实施方式的一个实施例中，随机采样的变量的维度为2。

在本发明实施方式的第三方面中，提供了一种训练样本集生成装置，包括

提供模块，被配置为提供包括多个样本的原始样本集；

划分模块，被配置为基于各个样本的能够表示随机性的特定关联信息对所述原始样本集进行划分，将具有相同或相似特定关联信息的样本划分到同一集合中，得到多个聚合样本集，每一聚合样本集均为所述原始样本集的真子集；

构建模块，被配置为基于所述多个聚合样本集构建训练样本集。

在本实施方式的一个实施例中，所述划分模块，包括：

采样单元，被配置为从预先准备好的多个随机变量中采样得到任一随机变量；

划分单元，被配置为基于所述随机变量从所述原始样本集中采样得到多个样本划分到同一集合中，得到一聚合样本集；

所述划分模块被配置为通过采样单元和划分单元重复执行以上步骤，直到预设终止条件，在达到预设终止条件时，得到多个聚合样本集。

采样到所有随机变量；

所有样本均被划分至某个集合中；

重复执行预设次数。

在本实施方式的一个实施例中，所述划分模块，包括：

获取单元，被配置为获取各个样本的隐藏层特征；

聚合单元，被配置为将具有相同或相似隐藏层特征的样本划分到同一集合中，得到多个聚合样本集。

在本实施方式的一个实施例中，所述获取单元还被配置为通过特定神经网络模型对各个样本进行处理，得到各个样本的隐藏层特征。

在本实施方式的一个实施例中，所述获取单元还被配置为在基于编码器-解码器模型对所述原始样本集进行处理时，采用所述编码器对所述原始样本集进行处理，得到各个样本的隐藏层特征。

在本发明实施方式的第三方面中，提供了一种深度生成模型的训练装置，包括：

训练数据提供模块，被配置为采用第四方面中任一项的装置提供训练样本集作为第一训练样本集；

迭代模块，被配置为基于所述训练样本集和预设方式对所述深度生成模型进行迭代训练，直到达到预设条件，在每个迭代轮次中：

从所述训练样本集中采样一个聚合训练样本集；

在本实施方式的一个实施例中，随机采样的变量的维度为2。

在本发明实施方式的第五方面中，提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可以实现所述训练样本集生成方法、深度生成模型的训练方法。

在本发明实施方式的第六方面中，提供了一种计算设备，包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述训练样本集生成方法、深度生成模型的训练方法。

根据本发明实施方式的训练样本集生成方法、深度生成模型的训练方法和装置，提供包括多个样本的原始样本集；基于各个样本的能够表示随机性的特定关联信息对所述原始样本集进行划分，将具有相同或相似特定关联信息的样本划分到同一集合中，得到多个聚合样本集，每一聚合样本集均为所述原始样本集的真子集；基于所述多个聚合样本集构建训练样本集。然后提供训练样本集作为第一训练样本集；基于所述训练样本集和预设方式对所述深度生成模型进行迭代训练，直到达到预设条件，在每个迭代轮次中：从所述训练样本集中采样一个聚合训练样本集；基于所述聚合训练样本集中的每一个训练样本从所述深度生成模型采样生成对应的第三样本集；将所述聚合训练样本集和所述第三样本集的最大均值差异作为损失函数进行优化，以更新所述深度生成模型的参数。本技术方案中复杂概率分布划分、分而治之的训练方法能够应用到一些使用神经网络的训练任务当中。从而本发明的技术方案可以通过在不提高小批次的样本量的条件下达到降低模型训练时统计量方差的效果，并且使得深度生成模型的样本生成效果显著提升。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为基于MMD的深度生成模型训练示意图；

图2为GMMN训练流程示意图；

图3为GMMN在MNIST数据集上的表现；

图4为本发明一实施例提供的训练样本集生成方法的流程示意图；

图5为本发明一实施例提供的深度生成模型的训练方法的流程示意图；

图6为本发明一实施例提供的深度生成模型的网络结构示意图；

图7为本发明一实施例基于VAE划分原始样本集的效果示意图；

图8为本发明设计的实验中GMMN与GMMN-DP在不同数据集上生成质量的对比示意图；

图9为本发明设计的实验中GMMN-DP的插值生成结果示意图；

图10为本发明一实施例提供的训练样本集生成装置的模块示意图；

图11为本发明一实施例提供的深度生成模型的训练装置的模块示意图；

图12为本发明实施例提供的一种计算机可读存储介质的示意图；

图13为本发明实施例提供的一种计算设备的示意。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种训练样本集生成方法、深度生成模型的训练方法、装置、介质和计算设备。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面对本文中出现的一些关键术语进行非限制性地说明：

深度生成模型：应用多层非线性映射，即深度神经网络，来对样本数据进行建模，其模型输出是一个概率分布p(x),而样本x由此分布生成。深度生成模型是对于需要对概率以及不确定性建模的场景的自然选择，这种场景的例子有图像生成、多模态学习、缺失数据图像补全等。

再生核希尔伯特空间：是一种特殊的内积空间，其元素是某个空间X上的一系列的函数映射，其伴随一个核函数k(x,x),(此处的x泛指随机变量)并且这个核函数满足再生性，即

其中

是非空集，

是定义在

上的希尔伯特空间，任意x属于

和f(.)属于

有f(x)＝<f(.),k(.,x)>_H；反过来，这个核函数也决定了一个RKHS。其关键特征是，如果这个核函数k满足普遍性，那么这个RKHS中的函数就足够多到可以区分任何一个元素，例如

中的元素，

上的概率(包括

中的元素和delta分布)。

最大均值差异：是用来计算两个概率之间差异度的工具。其最经典的应用是用于回答双样本测试问题(two-sample test)，即假设有两组样本{x1,...,xn}与{y1,...,ym}，其中xi从未知的分布P中独立同分布采样，而yi从未知的分布Q中独立同分布采样，基于这两组样本，来判断是否P＝Q。MMD选取某个RKHS中的函数族，计算在这个族函数上的概率期望差异作为两个概率差距的量化，即如下公式所示：

其中，F是一个函数族，f是函数族F中的一个函数，E表示取期望。

条件最大均值差异：MMD的有条件信息版本，在MMD中没有考虑条件概率P(X|Y)中的条件信息Y，而CMMD将条件信息一并考虑进来，可以对比两个条件概率P(X|Y),Q(X|Y)是否相同。

矩匹配生成网络：是深度生成模型的一种。它采用最大均值差异作为学习目标。即数据X来源于一个未知的分布P；GMMN模型为Q，可以通过Q采样一批Y，通过优化MMD(X,Y)来使得Q尽量接近P，从而习得数据的真实分布。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

发明人发现，一种深度生成模型的学习(训练)方法是基于矩匹配的GMMN，其采用的训练准则MMD具有理论上的正确保证以及简单明确的优化目标，如图1所示。因此，它在理论研究与实际应用中具有独特的吸引力。后续有工作考虑额外的条件信息，将其扩展到了条件生成的版本CGMMN，扩展了其应用范围。

然而，有一个问题限制了GMMN在实际中一些复杂场景的应用。其应用的MMD所涉及到的统计量均为全局的，即整体概率的再生核希尔伯特空间RKHS的嵌入，后者一般情况下需要一个较大的样本复杂度才能给出较为精确的估计。在实际应用中，由于计算能力以及内存大小的限制，随机小批次的梯度下降算法(SGD)几乎是唯一能够适配此模型的训练算法。但是由于SGD每次应用一个小批次训练数据来给出统计量的估计，这往往引入了很大的方差。于是，原始的GMMN只能生成一些潜在具有低维结构的数据，例如MNIST手写数字数据集。而对于一些结构复杂的数据，例如彩色人脸数据集CelebA以及十分类的真实图片CIFAR-10，应用SGD作为训练算法的GMMN往往表现不佳。

虽然最近有许多尝试去降低MMD中所需要的样本复杂度，这些方法的一般做法为构造新的核函数，其具有更强的统计上的测试能力。构造的方式是首先其将原始数据做一步额外的特征提取，在此基础上符合一些具有普遍性(universality)性质的核函数，如高斯RBF核函数。例如MMG-GAN采用对抗式的训练方法，寻找一个特征提取器z，为了保持最终核函数的普遍性，z被限制为一个单射。Sutherland等人则直接通过优化MMD的统计测试能力来构造z。然而，上述做法往往中间需要一些近似的过程，使得MMD在理论上能够区分任意不同概率的能力在一定程度上被破坏了，另外，由于学习核函数的方法往往复杂，由此会引入一些训练不稳定的因素。因此，是否存在另外的方式，使得GMMN能够在复杂的场景下有良好的表现很自然地成为了一个重要的问题。

经过充分的文献调研，可以发现现有的做法是从核函数的角度出发。换一个角度，如果模型固定核函数，而处理数据，使得其适配核函数的测试能力，这也是一种提升模型能力的办法。而对于复杂场景，虽然背后整体的概率是复杂的，但是模型可以将训练样本集划分成为一系列随机性较低的子集，对于这些子集，模型依次去匹配，那么最终模型即可恢复出整体的概率。带着这种动机与想法，本发明提出了提升GMMN性能的技术。

如图2所示，GMMN的核心是采用MMD作为模型的损失函数，模型维护了一个能够产生样本的神经网络G，采用随机梯度下降优化算法更新模型参数。GMMN的目标是使得神经网络G所产生的样本分布与训练样本集背后的概率分布尽可能一致。

算法按照轮次迭代，对于每一轮，算法首先从G中采样一个小批次样本集X’同时从训练样本集中采样一个小批次样本集X,；进而根据X’与X计算模型损失函数：

其中φ是MMD背后选用的RKHS所对应的特征映射函数，||*||是在RKHS上的范数，x_i表示样本集X中的第i个样本，样本集X中包括N个样本，x’_j表示样本集X’中的第j个样本，样本集X’中包括M个样本；进而使用梯度反向传播技术计算模型参数的梯度，最后通过优化器，例如Adam更新模型参数。

该方法由于不能有效处理因为随机梯度下降算法所带来的方差过大问题，实际效果有很大改进空间，如图3所示，其为GMMN在MNIST数据集上的表现，a为原始样本，b为生成样本，不难看出生成样本中的数字存在模糊和缺失问题。

在本发明的场景中，即深度生成模型中，匹配模型的生成样本分布P_g与训练样本分布P_d(本发明中也称之为真实分布)。

当基于矩匹配的深度生成模型例如GMMN应用MMD作为训练目标时，其计算格拉姆矩阵的复杂度为O(n²k)，其中n为样本量大小，而k是样本的特征维度。这在实际中限制了应用一个大的样本量，例如全部数据。于是只能采用随机小批次梯度下降算法。但是，在中间过程计算概率的RKHS核嵌入时，在一般情况下，其估计精度(精度基本是复杂度的倒数)随着样本量增长的关系为O(1/{n²})，而实际中的小批次样本量大小一般都在128以下，这远远不能够给出嵌入一个精确地估计。于是在诸如CelebA、CIFAR-10这种样本较为复杂的场景中，GMMN往往表现不佳。

由此，采用MMD作为深度生成模型优化目标的核心在于给出数据的概率RKHS嵌入估计，为了解决由于随机梯度下降算法小批次引起的估计方差过大的问题，本发明的主要发明点概述如下：

本发明给出了一种新的采用MMD作为训练目标的训练方法：与直接匹配训练样本整体分布P_d不同，本发明以一种分治的方式进行匹配。对于训练样本的整体分布P_d，其随机性一般而言是很强的，即其不能够由一个小样本量的样本集给出精确估计。然而，如果模型将样本空间划分成足够小的子集，那么可以期望每个子集内蕴含的随机性是小的，即一个小批次样本集能够给出精确的估计。

在本发明中，首先对原始样本集进行划分，得到多个能够用于训练深度生成模型的小数据量的样本集。假设要用P_g来匹配P_d，其中前者可以被一个神经网络进行参数化。首先引入一些额外的随机变量Y来将整体的样本空间X划分成一系列子集

从而有

划分中的每一个子集由一个指示器y_i～P(Y)给出。因为允许样本重叠能够引入更大的灵活性，于是这里不需要假设X_i是不相交的。在此划分下，实际上引入了一种对于随机变量(X,Y)的两步生成过程，其中首先采样指示器，也即条件信息Y服从P(Y)，紧接着本文从条件分布P(X|Y)中采样X，其中P(X|Y＝y_i)的样本空间为X_i。假设P(Y)是固定并且已知的，并且对于划分有两个必要的假设：

<1>.联合概率的边缘分布P(X)＝∫_yP(X，dy)与数据的真实分布P_d(x)相同。

<2>.每一个条件分布P(X|y)中的随机性较弱，这里的术语“弱”表示此条件分布可以用一个小的样本量来给出其嵌入的一个较为精确的估计。

当划分步骤完成后，用P_g(X|y)匹配每一个P(X|y)。

这里有两种情况，一种是y的取值空间是离散且有限的，这种情况下，可以采用MMD训练准则，分别用每个P_g(X|y)去匹配P(X|y)。

在一般情况下,y的取值空间是连续的，这种情况下，模型无法枚举每一个y_i。于是，进一步的将一系列的y聚合起来，采用CMMD来匹配条件概率嵌入算子C_X|Y'，即用模型给出的条件概率P_g(X’|Y’)背后蕴含的算子C_X'|Y'去匹配真实数据所对应的算子，其中Y’的取值空间是那些被聚合起来的值。值得注意的是，这里并不是去匹配一个全局条件概率P(X|Y)的嵌入算子C_X|Y，后者是一个全局的统计量，往往不能够由很少的样本给出精确的估计。相反地，这里只是匹配了(X,Y)空间中的一部分。例如，对于生成过程

上述生成过程的公式表示条件信息的整体空间Y服从一些均匀分布的和，在得到Y后，样本X整体服从均值为Y的高斯分布，其中U[2i,2i+1]表示[2i,2i+1]上的均匀分布，K是均匀分布混合(mixture)的个数，U为均匀分布并且N为高斯分布。如果想要得到条件概率嵌入μ_X|Y＝2，并不需要去匹配全局的C_X|Y，而是可以只匹配C_X|Y′1，其中Y′₁～U(2*1，2*1+1)，表示Y’i服从区间[2,3]上的均匀分布，此处为了突出i＝1,将2写成了2*1。

经过上述的匹配步骤，能够对(X,Y)进行采样，这通过两个步骤Y～P(Y)，X|Y～P_g(X|Y)得到。丢掉条件信息，可以得到X～P_d(X)，这意味着训练样本的真实分布P_d(x)被恢复了。

上述匹配流程的理论保证如下:在训练样本

的背后分布如果是P的条件下,假设条件

满足，即

关于P取期望后结果要有限，其中k(x,x)是RKHS上的核函数；并且在条件信息样本空间连续的情况下，对于任意的Y'以及

条件

满足，其中

表示对应的RKHS。那么当核函数k是普遍(universal)的时候，真实样本分布P_d(x)能够被P_g(x)所匹配。

示例性方法

下面参考图4和图5来描述根据本发明示例性实施方式的训练样本集生成方法、深度生成模型的训练方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

参考图4，本发明的实施方式的第一方面中提供了一种训练样本集生成方法，包括：

步骤S110，提供包括多个样本的原始样本集；

所述原始样本集中的样本具有较为复杂的维度结构，例如彩色人脸图像，真实拍摄的照片等。

步骤S120，基于各个样本的能够表示随机性的特定关联信息对所述原始样本集进行划分，将具有相同或相似特定关联信息的样本划分到同一集合中，得到多个聚合样本集，每一聚合样本集均为所述原始样本集的真子集；

在本实施方式的一个实施例中，所述步骤S120，包括：

从预先准备好的多个随机变量中采样得到任一随机变量；

如前所述，本实施例中，首先引入一些额外的随机变量Y来将整体的训练样本空间X划分成一系列子集，从而有

划分中的每一个子集由一个指示器y_i～P(Y)给出。

采样到所有随机变量；

所有样本均被划分至某个集合中；

重复执行预设次数。

可以理解的是，本实施方式中对原始样本集的划分目的是为了得到样本数量较小，且随机性较弱的多个聚合样本集，由此，本领域的技术人员在实施本技术方案时，可以根据实际情况设置预设终止条件，例如，在需要10个聚合样本集进行深度生成模型训练的场景中，可以设置划分10次为预设终止条件。

在本实施方式的又一个实施例中，所述步骤S120，包括：

获取各个样本的隐藏层特征；

具体来说，可以引入一个预训练的模型，其能够给样本x一个有意义的隐层编码y。本实施例中要求相似的样本具有相似的隐层编码y。具体而言，本实施例中构造一个逆映射

用其随机给每个xi分配一些隐层编码y_i，例如在实际应用中每个x_i只分配一个y_i以构成无重叠的划分。具有一样隐层编码y_i的样本x_i被分为同一组，如此分组自然地构成了整体数据的一个划分。每个组的随机性是由组内的样本相似度以及样本数量所决定的，例如小的样本数量以及样本相似度高的分组具有弱的随机性。这种划分方法的质量取决于预训练模型、样本本身的多样性以及映射M的随机性。例如，如果映射M没有随机性，即其是一个确定性映射，例如

那么所有的样本被划分到同样的子集中；再例如当映射M的精度只有小数点后两位的时候，那么相对于精度更高的映射，样本有更大的分在同一组的倾向。

预训练的映射模型M的选取是灵活并且重要的，在本实施方式的一个实施例中，所述特定神经网络模型包括编码器-解码器模型和聚类模型中的一种。

<1>.编码-解码器结构的模型:这类模型的编码器因为能够捕捉样本潜在的结构信息，满足上述要求的划分性质，因此属于本方法的合理选择。模型的编码器本身可以被视作一个映射M，例如降噪的自编码器(DAEs)，VAE以及其变种等。

<2>.聚类模型:聚类模型(clustering models)的目标在于发现相似数据之间的关联。有一些聚类模型在完成聚类的同时，能够给数据一个有意义的隐层表示。例如在视觉上能够找到样本在数据集中最近的邻居并给出距离相近的隐层表示，因此此类模型适合作为本方法的预训练映射。

当存在一些额外的信息时，例如一些样本类别的监督信号，可以在构建映射M的时候将其考虑在内，以便能够得到信息更多并且更为紧致的表示，即使用更少的参数且获得更好的表示效果。

可以理解的是，上述内容中的隐藏层特征、隐层编码和隐层表示为同一概念。

步骤S130，基于所述多个聚合样本集构建训练样本集。

在基于上述方法对原始样本集进行划分之后，即可得到用于训练深度生成模型的训练样本集，从而能够基于所述训练样本集采用现有技术中的SGD方式对深度生成模型进行训练。并且，由于在样本集划分时，降低了训练样本集中的各个聚合样本集的样本量和随机性，使得训练时能够有效地降低模型计算统计量时的方差，节省了计算资源和计算时间。

在本发明实施方式的第二方面中，提供了一种深度生成模型的训练方法，参照图5，包括：

步骤S210，采用第一方面中任一项的方法提供训练样本集作为第一训练样本集；

步骤S220，基于所述训练样本集和预设方式对所述深度生成模型进行迭代训练，直到达到预设条件，在每个迭代轮次中：

步骤S230，从所述训练样本集中采样一个聚合训练样本集；

步骤S240，基于所述聚合训练样本集中的每一个训练样本从所述深度生成模型采样生成对应的第三样本集；

步骤S250，将所述聚合训练样本集和所述第三样本集的最大均值差异作为损失函数进行优化，以更新所述深度生成模型的参数。

具体来说，假设现在有了样本的划分

其由一个预先给定的映射M给出，每个样本x_i都有一个隐层编码y_i。

一般的情况，即y的取值空间是连续的。在此设定下，所述深度生成模型描绘了一个条件生成过程，其背后的生成器被一个神经网络g_θ以参数θ参数化。神经网络g_θ的输入由两部分构成，第一部分为样本的隐层编码y，其作用为指示样本生成的条件信息，第二部分为一些额外的随机变量z，例如其为预先指定维度上的均匀分布U[0,1]样本。所述深度生成模型的示例性结构如图6所示。

结合上述假设的示例，首先采样Y～P(Y)，进而采样X|Y。其中映射步骤

将每一个样本赋予一个y_i。注意到对于有限的样本D，在理论上模型恢复的结果为数据的经验分布，直观上这将y_i视作一系列的“锚”，锚定了模型样本生成的权重。为了描述整个连续的隐层空间，算法可以用KDE(kernel density estimator)来给出一个空间中点的整体的分布，而将y_i视为其样本，即

上述公式描述了生成过程，样本y_i服从P(Y)分布，其中P(Y)是一系列架在某些过定点上的高斯分布，其中，y_j表示生成过程中的样本变量，N表示生成的样本总量，K(·)表示核函数，h为核带宽。为了生成新的样本，算法可以首先从KDE中采样y，进而从P_g(X|y)中采样。

Y的取值空间为离散并且有限的情况是不常见的，因为这意味着需要数据集要非常小以及有低维的隐空间表示。在这种情况下，算法依旧可以采用所述深度生成模型的网络结构，但是将训练目标由CMMD替换为MMD去依次匹配P(X|y_i)。这同样可以被视作以一种摊销的方式匹配了一系列的分布。

在本实施方式的一个实施例中，随机采样的变量的维度为2。

为了验证本发明的技术方案的有效性，发明人在基准数据集MNIST、CelebA上进行了实验，具体来说采用原始的VAE作为预训练模型进行原始数据集的划分，即其编码器作为映射函数

VAE中编码器与解码器的网络结构均为MLP，其层数为4层。编码器的输出维度，即样本的隐层编码维度ny也同样由数据集的复杂度决定。对于MNIST，本实验中设置ny＝16；对于CelebA，设置ny＝64。实验的预训练模型相对较小，从而不具有重建数据集模型的能力。对于每个样本x_i，本实验分配了其隐层编码y_i之后，不再进一步聚合相似的隐层编码。于是，数据集的划分结果很大概率为每个子集实际包括1个样本，实验发现这种设定下能够加速收敛。图6中示出了原始样本与划分后重构样本的对照效果，上层的各个图片为划分后重构样本，下层的各个图片为上层图片对应的原图。

对于本发明提出的技术方案，可以实现为神经网络模型GMMN-DP，其中的生成器网络，遵循DCGAN的结构，由3或者5层网络构成，具体的层数由不同的数据集决定。其中的每一层均为逆卷积操作(transposed convolution operator)，后续由批次正则化(batchnormalization)以及ReLu依次处理。可以理解的是，整体模型的大小取决于数据集的复杂度。

对于样本空间，本实验的核函数采用7个RBF核函数的混合，即

其中带宽σ_i取值为{1,4,8,16,24,32,64}；而对于条件信息，核函数K(y,y')是一个带宽σ＝1的RBF核函数，本文的模型采用Adam作为优化器，其中学习速率(learning rate)为0.001以及其他超参数β＝(0.9，0.999)。小批次包含的样本数量为B＝64，对于所有的数据集上的实验均采用此设定。额外的随机性z维度被设置为2。预训练模型VAE的输出值域是-3到3，设置KDE的核带宽为h＝0.3。

实验将GMMN-DP与原始的GMMN对比，GMMN的结构以及模型大小，超参数设置均与本实施例一致。实验的结果由图7给出，可以明显地看到，在MNIST数据集上，GMMN-DP模型能够给出边界清晰的样本，其在视觉上与真正的数据集已经不能区分。在CelebA数据集上，GMMN-DP模型能够刻画脸部的很多细节，而与之相反的是，GMMN产生的样本只能给出一个大体的轮廓。

为了验证本文的GMMN-DP模型能够充分利用不同样本之间的相似性，从而刻画一个连续的条件生成过程，而不是仅仅复制训练数据集，本实验中还将样本的隐层编码y_i进行线性插值，在此条件上生成新的样本。具体而言，首先固定一个由VAE映射给出的条件变量y，接着对于y的其中一维在[-3,3]上进行线性插值并且保持其余维度不变。此实验的结果展示于图8中，可以明显地发现，无论是在MNIST还是CelebA数据集中，随着隐层编码的连续变换，样本同样以一种连续的方式进行变化，并且维持了较高的样本质量。这说明了CMMN-DP所建模的条件概率嵌入算子C_X|Y'能够泛化到未见过的数据上。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图10和图11对本发明示例性实施方式的一种训练样本集生成方法、深度生成模型的训练装置进行说明。

参照图10，在本发明实施方式中，提供了一种训练样本集生成装置，包括

提供模块310，被配置为提供包括多个样本的原始样本集；

划分模块320，被配置为基于各个样本的能够表示随机性的特定关联信息对所述原始样本集进行划分，将具有相同或相似特定关联信息的样本划分到同一集合中，得到多个聚合样本集，每一聚合样本集均为所述原始样本集的真子集；

构建模块330，被配置为基于所述多个聚合样本集构建训练样本集。

在本实施方式的一个实施例中，所述划分模块320，包括：

采样到所有随机变量；

所有样本均被划分至某个集合中；

重复执行预设次数。

在本实施方式的一个实施例中，所述划分模块320，包括：

获取单元，被配置为获取各个样本的隐藏层特征；

参照图11，在本发明实施方式的另一方面中，提供了一种深度生成模型的训练装置，包括：

训练数据提供模块410，被配置为采用第四方面中任一项的装置提供训练样本集作为第一训练样本集；

迭代模块420，被配置为基于所述训练样本集和预设方式对所述深度生成模型进行迭代训练，直到达到预设条件，在每个迭代轮次中：

从所述训练样本集中采样一个聚合训练样本集；

在本实施方式的一个实施例中，随机采样的变量的维度为2。

示例性介质

在介绍了本发明示例性实施方式的方法和装置之后，接下来，参考图12对本发明示例性实施方式的计算机可读存储介质进行说明，请参考图12，其示出的计算机可读存储介质为光盘50，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，提供包括多个样本的原始样本集；基于各个样本的能够表示随机性的特定关联信息对所述原始样本集进行划分，将具有相同或相似特定关联信息的样本划分到同一集合中，得到多个聚合样本集，每一聚合样本集均为所述原始样本集的真子集；基于所述多个聚合样本集构建训练样本集。或者，提供训练样本集作为第一训练样本集；基于所述训练样本集和预设方式对所述深度生成模型进行迭代训练，直到达到预设条件，在每个迭代轮次中：从所述训练样本集中采样一个聚合训练样本集；基于所述聚合训练样本集中的每一个训练样本从所述深度生成模型采样生成对应的第三样本集；将所述聚合训练样本集和所述第三样本集的最大均值差异作为损失函数进行优化，以更新所述深度生成模型的参数；各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、装置和介质之后，接下来，参考图13对本发明示例性实施方式的用于训练样本生成和/或深度生成模型训练的计算设备。

图13示出了适于用来实现本发明实施方式的示例性计算设备60的框图，该计算设备60可以是计算机系统或服务器。图13显示的计算设备60仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图13所示，计算设备60的组件可以包括但不限于：一个或者多个处理器或者处理单元601，系统存储器602，连接不同系统组件(包括系统存储器602和处理单元601)的总线603。

计算设备60典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备60访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器602可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)6021和/或高速缓存存储器6022。计算设备60可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM6023可以用于读写不可移动的、非易失性磁介质(图13中未显示，通常称为“硬盘驱动器”)。尽管未在图13中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个样本介质接口与总线603相连。系统存储器602中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块6024的程序/实用工具6025，可以存储在例如系统存储器602中，且这样的程序模块6024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序样本，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块6024通常执行本发明所描述的实施例中的功能和/或方法。

计算设备60也可以与一个或多个外部设备604(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口605进行。并且，计算设备60还可以通过网络适配器606与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图13所示，网络适配器606通过总线603与计算设备60的其它模块(如处理单元601等)通信。应当明白，尽管图13中未示出，可以结合计算设备60使用其它硬件和/或软件模块。

处理单元601通过运行存储在系统存储器602中的程序，从而执行各种功能应用以及样本处理，例如，提供包括多个样本的原始样本集；基于各个样本的能够表示随机性的特定关联信息对所述原始样本集进行划分，将具有相同或相似特定关联信息的样本划分到同一集合中，得到多个聚合样本集，每一聚合样本集均为所述原始样本集的真子集；基于所述多个聚合样本集构建训练样本集。或者，提供训练样本集作为第一训练样本集；基于所述训练样本集和预设方式对所述深度生成模型进行迭代训练，直到达到预设条件，在每个迭代轮次中：从所述训练样本集中采样一个聚合训练样本集；基于所述聚合训练样本集中的每一个训练样本从所述深度生成模型采样生成对应的第三样本集；将所述聚合训练样本集和所述第三样本集的最大均值差异作为损失函数进行优化，以更新所述深度生成模型的参数。各步骤的具体实现方式在此不再重复说明。应当注意，尽管在上文详细描述中提及了训练样本集生成方法、深度生成模型的训练装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

基于上述内容可以得到，本申请至少提供了以下技术方案：

1.一种训练样本集生成方法，包括

提供包括多个样本的原始样本集；

基于所述多个聚合样本集构建训练样本集。

2.如方案1所述的训练样本集生成方法，其中，基于各个样本的能够表示随机性的特定关联信息对所述原始样本集进行划分，将具有相同或相似特定关联信息的样本划分到同一集合中，得到多个聚合样本集，包括：

从预先准备好的多个随机变量中采样得到任一随机变量；

3.如方案2所述的训练样本集生成方法，其中，所述预设终止条件包括以下之一：

采样到所有随机变量；

所有样本均被划分至某个集合中；

重复执行预设次数。

4.如方案1所述的训练样本集生成方法，其中，基于各个样本的能够表示随机性的特定关联信息对所述原始样本集进行划分，将具有相同或相似特定关联信息的样本划分到同一集合中，得到多个聚合样本集，包括：

获取各个样本的隐藏层特征；

5.如方案2所述的训练样本集生成方法，其中，通过特定神经网络模型对各个样本进行处理，得到各个样本的隐藏层特征。

6.如方案5所述的训练样本集生成方法，其中，所述特定神经网络模型包括编码器-解码器模型和聚类模型中的一种。

7.如方案6所述的训练样本集生成方法，其中，在基于编码器-解码器模型对所述原始样本集进行处理时，采用所述编码器对所述原始样本集进行处理，得到各个样本的隐藏层特征。

8.一种深度生成模型的训练方法，包括：

采用方案1-7中任一项的方法提供训练样本集作为第一训练样本集；

从所述训练样本集中采样一个聚合训练样本集；

9.如方案8所述的深度生成模型的训练方法，其中，基于所述聚合训练样本集中的每一个训练样本从所述深度生成模型采样生成对应的第三样本集，包括：

10.如方案9所述的深度生成模型的训练方法，其中，在所述各个训练样本的特定关联信息的取值空间为连续时，以条件最大均值差异作为损失函数进行优化。

11.如方案10所述的深度生成模型的训练方法，其中，在计算条件最大均值差异时，样本空间的核函数采用7个RBF核函数的混合，带宽分别为1,4,8,16,24,32,64；条件信息的核函数采用带宽为1的RBF核函数。

12.如方案8-11中任一项所述的深度生成模型的训练方法，其中，所述深度生成模型包括预设数量的逆卷积层，所述预设数量至少为三。

13.如方案8-11中任一项所述的深度生成模型的训练方法，其中，一个所述聚合训练样本集中的样本数量为64。

14.如方案8-11中任一项所述的深度生成模型的训练方法，其中，随机采样的变量的维度为2。

15.一种训练样本集生成装置，包括

提供模块，被配置为提供包括多个样本的原始样本集；

16.如方案15所述的训练样本集生成装置，其中，所述划分模块，包括：

17.如方案16所述的训练样本集生成装置，其中，所述预设终止条件包括以下之一：

采样到所有随机变量；

所有样本均被划分至某个集合中；

重复执行预设次数。

18.如方案15所述的训练样本集生成装置，其中，所述划分模块，包括：

获取单元，被配置为获取各个样本的隐藏层特征；

19.如方案18所述的训练样本集生成装置，其中，所述获取单元还被配置为通过特定神经网络模型对各个样本进行处理，得到各个样本的隐藏层特征。

20.如方案19所述的训练样本集生成装置，其中，所述特定神经网络模型包括编码器-解码器模型和聚类模型中的一种。

21.如方案20所述的训练样本集生成装置，其中，所述获取单元还被配置为在基于编码器-解码器模型对所述原始样本集进行处理时，采用所述编码器对所述原始样本集进行处理，得到各个样本的隐藏层特征。

22.一种深度生成模型的训练装置，包括：

训练数据提供模块，被配置为采用方案15-21中任一项的装置提供训练样本集作为第一训练样本集；

从所述训练样本集中采样一个聚合训练样本集；

23.如方案22所述的深度生成模型的训练装置，其中，基于所述聚合训练样本集中的每一个训练样本从所述深度生成模型采样生成对应的第三样本集，包括：

24.如方案23所述的深度生成模型的训练装置，其中，在所述各个训练样本的特定关联信息的取值空间为连续时，以条件最大均值差异作为损失函数进行优化。

25.如方案24所述的深度生成模型的训练装置，其中，在计算条件最大均值差异时，样本空间的核函数采用7个RBF核函数的混合，带宽分别为1,4,8,16,24,32,64；条件信息的核函数采用带宽为1的RBF核函数。

26.如方案22-25中任一项所述的深度生成模型的训练装置，其中，所述深度生成模型包括预设数量的逆卷积层，所述预设数量至少为三。

27.如方案22-25中任一项所述的深度生成模型的训练装置，其中，一个所述聚合训练样本集中的样本数量为64。

28.如方案22-25中任一项所述的深度生成模型的训练装置，其中，随机采样的变量的维度为2。

29.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行方案1至14中任一项所述的方法。

30.一种计算设备，包括：处理器和存储装置；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行方案1至14中任一项所述的方法。

Claims

1.一种训练样本集生成方法，包括

提供包括多个样本的原始样本集；

基于所述多个聚合样本集构建训练样本集。

2.如权利要求1所述的训练样本集生成方法，其中，基于各个样本的能够表示随机性的特定关联信息对所述原始样本集进行划分，将具有相同或相似特定关联信息的样本划分到同一集合中，得到多个聚合样本集，包括：

从预先准备好的多个随机变量中采样得到任一随机变量；

3.如权利要求2所述的训练样本集生成方法，其中，所述预设终止条件包括以下之一：

采样到所有随机变量；

所有样本均被划分至某个集合中；

重复执行预设次数。

4.一种深度生成模型的训练方法，包括：

采用权利要求1-3中任一项的方法提供训练样本集作为第一训练样本集；

从所述训练样本集中采样一个聚合训练样本集；

5.一种训练样本集生成装置，包括

提供模块，被配置为提供包括多个样本的原始样本集；

6.如权利要求5所述的训练样本集生成装置，其中，所述划分模块，包括：

7.如权利要求6所述的训练样本集生成装置，其中，所述预设终止条件包括以下之一：

采样到所有随机变量；

所有样本均被划分至某个集合中；

重复执行预设次数。

8.一种深度生成模型的训练装置，包括：

训练数据提供模块，被配置为采用权利要求5-7中任一项的装置提供训练样本集作为第一训练样本集；

从所述训练样本集中采样一个聚合训练样本集；

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行权利要求1至4中任一项所述的方法。

10.一种计算设备，包括：处理器和存储装置；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行权利要求1至4中任一项所述的方法。