CN111325337A

CN111325337A - 一种基于自编码神经网络与最优传输的生成模型

Info

Publication number: CN111325337A
Application number: CN202010087768.2A
Authority: CN
Inventors: 雷娜; 罗钟铉
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-08-19
Filing date: 2020-04-13
Publication date: 2020-06-23
Anticipated expiration: 2040-04-13
Also published as: CN111325337B

Abstract

本发明涉及机器学习领域，提供一种基于自编码神经网络与最优传输的生成模型，包括步骤1，利用自编码器对输入数据进行降维，得到嵌入在低维隐空间中的n个特征点；随机选择部分特征点作为目标点，并给目标点设置权重；步骤2，在采样空间中使用蒙特卡罗采样法大量均匀采样，对采样空间进行胞腔分解，并给每个胞腔设置权重，计算目标点的权重与胞腔权重之间的误差，进而迭代求解目标点的截距向量，完成最优传输计算，得到采样空间的最优的胞腔分解及每个胞腔的重心坐标；步骤3，利用得到的胞腔的重心坐标，进行解码器的训练，解码器训练完成之后，在采样空间随机的采样噪声向量，可以生成对应的图像。本发明能够有效的提升生成效率和生成质量。

Description

一种基于自编码神经网络与最优传输的生成模型

技术领域

本发明涉及机器学习领域，尤其涉及一种基于自编码神经网络与最优传输的生成模型。

背景技术

当今人工智能在各个方面都有广泛应用：医疗，教育等领域，但是数据的稀缺导致了神经网络训练的困难，从而大幅阻挡人工智能科技的发展。生成模型(GenerativeModel)，是概率统计和机器学习中的一类重要模型，指一系列用于随机生成可观测数据的模型。生成模型的应用十分广泛，可以用来不同的数据进行建模，比如图像、文本、声音等。

蒙特·卡罗方法(Monte Carlo method)，也称统计模拟方法，是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明，而被提出的一种以概率统计理论为指导的一类非常重要的数值计算方法。是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。例如：在区域Ω内随机采集100样本点，落在子区域ω内的点数为10，我们便可认为子区域ω的面积是全部区域面积的1/10。

自编码器(Auto-Encoder)可以将输入的图像数据(背景空间中的数据)通过神经网络降低维度(到隐空间中)。可是，AE并没有生成功能。为了解决这个问题，变分自编码器(Variational Auto-Encoder)强制隐空间的数据分布接近一个简单分布，比如单位高斯分布，如此一个随机采样的隐藏层编码就会落在给定数据集的隐藏层表示的支集中了。实际上，VAEs最小化了隐空间和单位高斯分布之间的KL散度(KL-divergence)。出于相似的目的，对抗自编码器(Adversarial Auto-Encoder)采用隐空间中的对抗训练而不是测量KL散度来使得隐空间数据分布接近高斯分布。带GAN(Generative Adversarial Nets)Wasserstein自编码器(Wasserstein Auto-Encoder)是AAE的一般化，使得重建损失可以是任意的损失函数。

与那些把隐空间数据分布表示转化成高斯分布的基于VAE的方法相反，对抗生产网络(Generative Adversarial Nets，GAN)理论上可以把任意给定的分布转化为另一个分布。基于GAN的方法在不同应用上获得了广泛关注，并在方法论上有提高。一个GAN模型包含一个生成器和判别器：生成器负责生成模型，而判别器负责判断生成器生成的模型是否真实，二者相互竞争，不断更新生成器和判别器网络中的参数，从而使生成的图像不断接近真实图像，当二者竞争达到纳什平衡，便可得到理想的生成模型。

最优传输(Optimal Transport)理论十分合适于用在求解两个分布之间的映射问题，它最早是法国数学家Monge在1791年提出的。给定两个度量X,Y，以及对应空间上的分布μ,ν，希望寻找传输变换T:X→Y，把服从分布μ对应的随机变量变换为服从分布ν的随机变量，同时极小化传输代价c(x,T(x))的期望。

现有的基于VAE的方法，如AAE和WAE把隐空间的数据表示的分布转化成各向同性的高斯分布。流形嵌入假设告诉我们，高维的数据往往分布在低维流形上，如人脸图像，分布于低维流形上，和各向同性的高斯分布非常不同。把数据重要的流形结构转变为简单的分布，如高斯分布，消除了隐空间的数据分布结构，导致了之后的模式崩溃问题以及生成不真实的图像，例如：生成人脸图像中同一个人两只眼睛颜色不同，而这种显现在现实生活中存在的可能是极低的。

对于WAE-GAN来说，训练GAN需要解决Min-Max优化问题，即：最大化判别器的判别能力，最小化生成图像与真实图像的差距，这在实践中是困难和不稳定的。

而现有的最优传输(OT)问题的求解方法，一般其求解过程需要求解一个大规模的线性规划问题，效率较低。

发明内容

本发明主要解决现有生成模型技术存在的模式崩溃和训练困难，导致图像生成效果不稳定的技术问题，提供一种基于自编码神经网络与最优传输的生成模型，能够有效的提升生成效率和生成质量。

本发明提供了一种基于自编码神经网络与最优传输的生成模型，包括以下步骤：

步骤1，利用自编码器对输入数据进行降维，得到嵌入在低维隐空间中的n个特征点；随机选择m个特征点作为目标点，并设置目标点的权重；

步骤2，在采样空间中使用蒙特卡罗法大量采样，对采样空间进行胞腔分解计算胞腔权重，得到目标点的权重与胞腔当前权重之间的误差，进而迭代求解目标点的最优截距向量，完成最优传输计算，得到采样空间的最优的胞腔分解及每个胞腔的重心坐标；包括以下子步骤：

步骤2-1，在单位采样空间中大量均匀采样，设置采样点的权重满足：目标点的权重总和等于采样点的权重总和；

步骤2-2，对于每个采样点，确定与其加权距离最近的目标点，然后统计与同一个目标点最近的采样点的个数，并确定这些采样点所在胞腔的权重；

步骤2-3，根据目标点的权重与胞腔的权重的差，确定每个目标点截距向量的更新梯度，更新目标点的截距向量，完成最优传输计算，并得到采样空间最优的胞腔分解，进而得到每个胞腔的重心坐标；

步骤3，利用步骤2中得到的胞腔的重心坐标，训练解码器，解码器训练完成之后，随机的采样一个噪声向量，生成对应的图像。

优选的，步骤3包括以下子步骤：

步骤3-1，对于每个目标点t_i，通过以下公式确定其对应胞腔中的重心，之后将该重心映射到目标点t_i上：

其中，c_i表示采样点的重心，k表示t_i对应胞腔中采样点的个数，

表示目标点t_i的胞腔中的第a个采样点坐标；

步骤3-2，根据计算后胞腔的重心，训练解码器；

步骤3-3，利用训练完成的解码器，生成图像。

优选的，在步骤2-3中，根据每个目标点权值梯度更新目标点的截距向量，完成最优传输计算，包括：

计算目标权重和胞腔实际权重的误差向量，并每个目标点权值梯度；

当||G||₂<ε时，则完成最优传输计算，得到最优截距；当||G||₂≥ε时，则根据目标点权值梯度g_i，使用梯度下降法迭代求解目标点t_i的截距h_i，并执行步骤2-2，直至||G||₂<ε时，则完成最优传输计算，其中，G表示目标权重和胞腔实际权重的误差向量，G＝{g₁,g₂,…,g_n}，ε表示最优传输终止阈值。

本发明提供的一种基于自编码神经网络与最优传输的生成模型，旨在生成用于神经网络训练的图像，本发明将神经网络与最优传输理论结合，利用自编码器对图像数据进行降维，得到嵌入在隐空间中的特征数据，利用最优传输理论改变隐空间中的特征数据分布，通过新分布的数据重新训练AE中的解码器，在新的分布随机采样，作为解码器的输入，从而达到图像生成的目的。利用本发明的方法可以生成图片数据、文本、声音等，能够解决在计算机视觉中训练集不足的问题。

附图说明

图1是本发明基于自编码神经网络与最优传输的生成模型的实现流程图；

图2是本发明基于自编码神经网络与最优传输的生成模型中目标点和采样点分布的示意图；

图3是本发明基于自编码神经网络与最优传输的生成模型中计算出的胞腔分解的示意图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

图1是本发明基于自编码神经网络与最优传输的生成模型的实现流程图。如图1所示，本发明提供了一种自编码神经网络与最优传输的生成模型，包括：

步骤1，利用自编码器对输入数据进行降维，得到嵌入在低维隐空间中的n个特征点；随机选择m个特征点作为目标点，并设置目标点的权重。

步骤1-1，利用自编码器对输入数据进行降维，得到嵌入在隐空间中的n个特征点。

其中，自编码器(Auto-Encoder，AE)是一类非监督学习中使用的人工神经网络(Artificial Neural Networks,ANNs)，其功能是通过将输入数据作为学习目标，对输入数据进行表征学习(representation learning)。

在本发明中，自编码器可以将输入的图像数据通过自编码神经网络降低维度(到隐空间中)。输入数据是图片的数据集，如Mnist,CelebA等。在本步骤中，对输入数据进行降维后，得到本发明需要的特征点所在的隐空间Y；进而得到嵌入在隐空间Y中的n个特征点。

步骤1-2，根据隐空间中的n个特征点，随机选择m个特征点作为目标点，并设置目标点的权重。

在本步骤中，将全部n个特征点作为目标点t，每个目标点t_i有一个权重w，每个目标点t的权重w初始全部设为相同的值(如1/n)；或者当机器性能较低时(比如内存不足以存储所有的特征点时)，随机选择m(m<n)个特征点作为目标点，然后对于每个目标点t_i，计算满足以下条件的特征点的个数l_i:该特征点到t_i的欧式距离比到其它目标点t_j(j≠i)的距离都要近。将l_i/m作为目标点t_i的权重。

步骤2，在采样空间中使用蒙特卡罗法大量采样，对采样空间进行胞腔分解计算胞腔权重，得到目标点的权重与胞腔当前权重之间的误差，进而迭代求解目标点的最优截距向量，完成最优传输计算，得到采样空间的最优的胞腔分解及每个胞腔的重心坐标。

步骤2-1，在单位采样空间X中大量均匀采样，设置采样点p_k的权重v满足：目标点t的权重w总和等于采样点的权重v总和。

在本步骤中，在采样空间X中大量均匀采样，设采样点记为p，每个采样点上也有一个权重，记为v，应满足目标点的权重总和等于采样点的权重总和。

另外，在本实施例中，在采样空间X中大量均匀采样，然后对所有变量进行初始化，初始化目标点的截距向量

目标权重和胞腔实际权重的误差向量G＝{g₁,g₂,…,g_n}，最优传输终止阈值ε为一足够小的值。

步骤2-2，对于每个采样点，确定与其加权距离最近的目标点，统计与同一个目标点最近的采样点的个数，并确定这些采样点所在胞腔的权重。具体过程如下：

对于每个采样点p_k，通过以下条件确定与其加权距离最近的目标点t_i：

式中，h_i表示目标点t_i的截距，t_j表示不同于t_i的其它目标点。

统计最近的目标点t_i相同的采样点p_k的个数N，N与采样点总数的比值作为目标点t_i的当前权重(记为

)。

步骤2-3，根据目标点的权重与胞腔的权重的差，确定每个目标点截距向量的更新梯度，更新目标点的截距向量，完成最优传输计算，并得到采样空间的最优胞腔分解，进而得到每个胞腔的重心坐标。具体过程如下：

在本实施例中，根据每个目标点权值梯度使用某种梯度下降法(如动量法)来更新h。具体的，计算每个目标点截距向量的权值梯度

并且更新G＝{g₁,g₂,…,g_n}。当||G||₂<ε时，则完成最优传输计算，得到足够近似准确的最优截距h；当||G||₂≥ε时，则根据目标点截距向量权值梯度g_i，使用梯度下降法迭代求解目标点t_i的截距i，并执行步骤2-2，直至||G||₂<ε时，则完成最优传输计算。

本步骤具体做法是在隐空间(AE降维后的空间)使用蒙特卡罗采样法求得Alexandorv定理中的目标点截距向量h。最优传输后，会得到采样空间的胞腔分解，计算每个胞腔的重心坐标，作为解码器的输入。

为了使本发明专利的实施方案更加清晰明白，在二维空间中结合图例对本步骤计算最优传输进行说明：读入n个特征点，则将其目标权重全部设为1/n。在一个单位采样空间中进行大量采样，设采样点的个数为m，则每个采样点的权重为1/m。(图2中m＝5*n)。根据公式(2)计算一个二维的胞腔分解，每个胞腔中的采样点都是同一个与其加权距离最近的目标点。计算每个胞腔中的采样点的权值之和

该值与对应目标点w_i的差值为下一次迭代的梯度g_i。使用公式

更新h_i的值，直到

如图2所示，图2中空心点表示目标点，实心点表示采样点。图3是根据这些采样点计算出的二维胞腔分解。如图3所示，胞腔中的采样点到胞腔对应的目标点的加权距离之和是最小的，最终都会映射到该目标点上。

表示目标点t_i的胞腔中的第a个采样点坐标；

步骤3-2，根据计算后胞腔的重心，训练解码器；

在本步骤中，采用随机梯度下降方法，重新训练一个解码器(decoder)。

步骤3-3，利用训练完成的解码器，生成图像。

在本步骤中，利用训练得到的解码器，在做生成的时候，直接在采样空间上进行随机采样一个噪声向量z，再把这个噪声向量z输入到解码器中，能够得到生成的图像。利用本实施例的方法可以生成图片数据，解决在计算机视觉中训练集不足的问题。

本发明在保持自编码器-最优传输的生成模型的良好性质的基础上，对最优传输的求解方式进行了改进。使用蒙特卡罗采样的方法，利用目标点的目标权重和胞腔权重的差当作梯度，从而迭代求解Alexandrov定理中的截距h，并由此得到采样空间和目标空间的最优传输映射。使用此方式，需要较大的存储空间，若采样点个数为m,目标数据点个数为n，则需要一个m*n维的矩阵的存储空间。但是可以有效提升时间效率，每次迭代的时间复杂度为O(m*n)，而且可以有效结合电脑GPU并行运算使得运算效率成倍提升。另外，本发明改进内容还包括，在输入数据点过多或者维度过大的情况下，可以随机选择隐空间中的部分特征点作为目标点，如此便可以减轻机器的负担，在设备存储空间不足的情况下也可以使用本发明的生成模型。

本发明提供的一种基于自编码神经网络与最优传输的生成模型，使用蒙特卡罗采样法计算最优传输，使用最优传输改变数据在隐空间的分布，从而达到生成目的。本发明将神经网络与最优传输理论结合，利用自编码器对图像数据进行降维，得到嵌入在隐空间中的特征数据，利用最优传输理论改变隐空间中的特征数据分布，利用新分布的数据重新训练AE中的解码器，使得新解码器中的输入变为传输后分布中的随机点，从而达到图像生成。本发明能够有效的提升图像生成效率和图像生成质量，解决图像生成效果不稳定的问题。并且本发明提出一种基于蒙特卡洛采样的方法来求解最优传输方程，将最优传输推广到了任意维度。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于自编码神经网络与最优传输的生成模型，其特征在于，包括以下步骤：

步骤2-2，对于每个采样点，确定与其加权距离最近的目标点，统计与同一个目标点最近的采样点的个数，并确定这些采样点所在胞腔的权重；

2.根据权利要求1所述的基于自编码神经网络与最优传输的生成模型，其特征在于，步骤3包括以下子步骤：

表示目标点t_i的胞腔中的第a个采样点坐标；

步骤3-2，根据计算后胞腔的重心，训练解码器；

步骤3-3，利用训练完成的解码器，生成图像。

3.根据权利要求1所述的基于自编码神经网络与最优传输的生成模型，其特征在于，在步骤2-3中，根据每个目标点权值梯度更新目标点的截距向量，完成最优传输计算，包括：

计算目标权重和胞腔实际权重的误差向量，并更新每个目标点权值梯度；