CN117036862A

CN117036862A - 基于高斯混合变分自编码器的图像生成方法

Info

Publication number: CN117036862A
Application number: CN202311054065.XA
Authority: CN
Inventors: 杜小勤; 刘咏琪; 周佳爽; 文吾琦
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-11-10
Anticipated expiration: 2043-08-21
Also published as: CN117036862B

Abstract

本发明公开了一种基于高斯混合变分自编码器的图像生成方法。实现步骤包括：数据集划分与数据预处理；构造以高斯混合变分自编码器为基础的生成模型，在损失函数中引入全相关项的解耦机制和费雪尔正则；训练生成模型；根据上游任务实现图像生成或聚类。本发明采用了更合理的建模方式，对隐空间覆盖更全面，使得重构更加精确，对隐空间的特征解耦使得生成图像在观感上更具多样性，且兼顾人类视角下的特征变化，在生成和先验之间的追求平衡，对分类的样本间距加以约束，内存复杂性低，网络结构简单，在性能和指标上都取得了不错的表现，可应用于高维图像生成任务。

Description

基于高斯混合变分自编码器的图像生成方法

技术领域

本发明属于深度学习技术领域，主要涉及图像的处理，具体是一种基于高斯混合变分自编码器的图像生成方法。

背景技术

机器学习中监督学习是指输入数据中有标签，这类学习方式学习到的模型可以分为生成模型和判别模型，其中生成模型即从某分布中选取若干样本作为训练集，然后由该模型学习模拟其真实概率分布，从其中采样可以得到一些与观测值相似但不相同的数据。图像生成任务就是其应用的一大分支，一直是人工智能及机器学习领域的重要研究内容，而变分自编码器作为一个具有扎实理论基础的生成模型，通过变分近似的方式对极大似然函数进行估计，将求解问题转化为证据下界的极值问题。本发明致力于优化传统变分自编码器的结构，从而解决关于图像生成的问题。

目前，国内外很多研究人员及机构都在做图像生成工作，传统的生成模型还有自回归模型，其利用链式法则求解条件概率的连乘积，但是缺点在于后面的元素值依赖于之前的，效率较低，其会造成误差累积；另外，生成对抗网络也是广泛采用的方法，简洁快速效率高，但是训练过程不稳定；还有蒙特卡洛方法等，也存在效率低等缺陷。使用变分自编码器解决生成任务的研究一直经久不衰，与前面提到的方法相比，其具有训练简单结果有效的优点，但是在标准变分自编码器中的假设过于严格，难以达到模拟真实分布的效果，而且存在隐空间解耦不足的问题，使得模型表现性不足，生成图像质量有待提升。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于高斯混合变分自编码器的图像聚类和生成方法，其目的在于保证真实性和多样性的条件下，解决图像的生成问题，利用变分自编码器模型实现图像的聚类及生成。本发明涉及变分自编码器模型的理论改进和方法推导，在实验效果上取得了一定的进步，不仅在指标上有提升且生成结果更加逼真。

为实现上述目的，按照本发明的一个方面，提供了一种基于高斯混合变分自编码器的图像生成方法，包括如下步骤：

步骤1，图像数据集准备：根据生成任务采集所需的图像数据，并对所有图像赋予标签；

步骤2，构造以高斯混合变分自编码器为基础的生成模型，所述生成模型包括编码器和解码器，编码器包括线性层、二维卷积、归一化层和LeakyReLU激活函数，输出隐变量/>和对应的均值/>、方差/>，即：/>，通过重参数化/>，/>表示权重系数，/>是添加的辅助噪声变量，/>表示哈达玛积矩阵按位乘法；将其作为解码器的输入，解码器的输出层将输出原始样本/>的重构样本/>，即：/>；解码器与编码器结构对称，同样由线性层、二维卷积层、归一化层和LeakyReLU激活函数组成，输入与输出图像大小对齐、通道数一致；

步骤3，构建生成模型的损失函数并进行训练，利用训练好的生成模型实现图像生成；

所述损失函数包括两个部分，第一部分为优化变分自编码器对数似然函数的近似证据下界，第二部分为Fisher判别式作为对训练过程约束的/>。

进一步的，损失函数的具体计算方式如下：

编码器和解码器分别用概率函数和/>近似计算，/>表示观测到的真实值，/>表示中间过程产生的隐向量，/>表示单个子高斯分布，/>表示子分布的权重系数；假设先验的分布函数服从混合高斯模型，证据下界定义为对数似然函数的期望：

为了约束隐空间中的分布及分量，引入Fisher正则化项作为优化网络的总损失函数，即：

其中，解码器模型的联合概率分布可以分解为若干边缘概率和条件概率的乘积，即

，

其中的分布与/>的分布有依赖关系，假设先验/>服从高斯分布时，令/>服从标准正态分布，则/>，/>可以求出，且/>在/>的条件下生成，服从混合高斯分布，/>在/>的条件下生成，可以假设为高斯分布或伯努利分布；/>和/>为边缘概率，和/>为条件概率；

在编码阶段，在/>的条件下生成，/>在w和z的条件下生成，其联合概率密度表示为以下乘积形式：

其中，、/>和/>均为为条件概率；在实现中， p(*)相关的概率都相当于是真实概率，q(*)相关的概率都是神经网络计算得到的概率。

进一步的，损失函数的第一项经由贝叶斯公式、因式分解运算后，分解为以下四项：

其中表示子分布的权重系数，当/>先验项服从高斯分布时，/>计算为KL散度；当/>先验项服从均匀分布时，/>计算为信息熵；条件先验项约束每个子分布之间的距离，重构项可视生成任务采用交叉熵损失函数或均方误差进行计算；第一项为w先验项w-prior，计算假设值与真实值的KL散度，和第二项z先验z-prior共同约束隐变量所服从的高斯混合模型，使其内部的每个子分布与标准高斯分布越接近越好；条件先验项conditional prior约束每个子分布之间的距离；重构项reconstruction term表示生成数据与观测值之间的差距。

进一步的，正则化项的计算公式如下：

其中，最小化类内距离，最大化类间距离，/>、/>表示子分布的均值和方差，/>表示子分布的权重，K表示子分布个数，假设每个子高斯分布的采样数量/>相同，/>表示求矩阵A的迹。

进一步的，对第二项z先验项的KL散度计算拆分成以下形式，引出全相关项A，其含义表示隐空间中每个子分布的独立隐变量越分散越好，自然地引入了解耦机制，具体计算方法为：

其中B旨在最小化每个子高斯分布生成的推断函数与先验之间的距离，由于/>表示一组变量而非单个变量，所以可以继续递归地分解，即当/>包含子变量/>时，该项可以进一步在形式上相似地分解为：

其中k为子分布个数，d为单个子分布中变量维数，总损失函数表示为：

。

进一步的，步骤1中采集N张输入图像，构成数据集，其中/>为输入的第/>张图，/>为其对应标签，对这些图像进行数据预处理，将用于训练的图像数据都处理成统一的rgb格式，64×64大小。

进一步的，步骤1所述的图像数据集中的图像数据属于同一类别且具有不同特征。

与现有技术相比，本发明能够取得以下有益效果：

（1）本发明是基于高斯混合变分自编码器的图像生成方法，融合了高斯混合模型的多样性和变分自编码器的生成能力，使得网络建模更全面，在重构中保持其还原性，在生成中保持其真实性。

（2）采用层次化解耦优化损失函数，使耦合的特征相分离，与传统的变分自编码器解耦方式不同，平衡了各子高斯分布之间和内部各变量间的独立性。

（3）引入了费雪判别式作正则，能够控制类内距离和类间距离，在图像生成和聚类中提高对各个类的分辨能力。

附图说明

图1为本发明的实现流程框图。

图2为本发明引入的概率图模型，左为生成模型，即解码器；右为识别模型，即编码器。

具体实施方式

下面结合附图及实施例对本发明进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

生成模型在许多领域都有不同的应用，比如自然语言处理、计算机视觉、语音、视频、3D等，在已研究开发的生成技术中，涉及数据增强、风格转换、机器翻译、图像生成、异常检测等应用场景。考虑到在当今的信息时代图像在日常娱乐和传递信息中都扮演着重要的角色，图像特征解耦以及随后的生成具有重大的意义，本发明致力于解决关于图像的聚类和生成问题。

如图1所示，是本发明实施例提供的一种基于高斯混合变分自编码器的图像生成方法示意图，包括如下步骤：

（1）图像数据集准备：根据生成任务采集所需的图像数据，并对所有图像赋予标签，假设有N张输入图像，构成数据集，其中/>为输入的第/>张图，/>为其对应标签；对这些图像进行数据预处理，将用于训练的图像数据都处理成统一的rgb格式，64×64大小。

步骤（1）所述的图像数据集须属于同一类别且具有不同特征，例如全为人脸但肤色、毛发、五官、性别等有所不同；或全为数字但笔画粗细、数字形态各有差异。

（2）构造以高斯混合变分自编码器为基础的生成模型：构建的变分自编码器包括编码器和解码器两个网络，在损失函数的约束下，利用编码器提取训练集中所有样本的特征，通过解码器将提取到的特征重构成与原始样本相似的新样本。首先搭建编码器Encoder，经过线性层、二维卷积层、归一化层和LeakyReLU激活函数，输出隐变量和对应的均值/>、方差/>，即：/>。通过重参数化/>，/>表示权重系数，/>是添加的辅助噪声变量，/>表示哈达玛积矩阵按位乘法。将其作为解码器Decoder的输入，解码器的输出层将输出原始样本/>的重构样本/>，即：/>。从计算特征的中间层到输出层的网络称为解码器，解码器与编码器结构对称，同样由线性层、二维卷积层、归一化层和LeakyReLU激活函数组成，输入与输出图像大小对齐、通道数一致，到此步为止，变分自编码器已经搭建完毕。

（3）计算损失函数：再构建可以联合优化变分自编码器的生成模型的损失函数L，驱动生成模型的训练，使得生成模型在保证能够对图像数据进行良好重构的基础上，同时能够将图像数据的相似特征聚集在特定区域，对其真实分布有更好的描述能力。上述损失函数具体的构建包括两个部分：训练集中的每一个真实样本的特征到训练集中所有真实样本的特征的均值的距离，具体体现为总损失函数分解后的前三项；训练集中的每一个真实样本与真实样本之间的重构误差，具体体现为损失函数中的重构项。为此需要按照步骤(3a)~(3b)计算其中的重要参数，最后根据重要参数按照步骤(3a)构造损失函数。

（3a）损失函数的目标是求解边缘分布：

等价于求的最小值，证据下界（Evidence Lower Bound）即定义为对数似然函数的期望。如图2所示，其中编码器和解码器分别用概率函数/>和/>计算，/>表示观测到的真实值，/>表示中间过程产生的隐向量，/>和/>分别表示隐空间服从的分布及其权重。与标准VAE隐空间建模为各向同性的标准高斯分布相比，本发明假设先验的分布函数服从混合高斯模型。为了约束隐空间中的分布及分量，本发明引入了Fisher判别作为正则化项/>来优化网络的总损失函数，即：

按照本发明由构造的概率图模型（图2），/>在/>的条件下生成，/>在/>的条件下生成，则得出解码器模型的联合概率分布可以分解为若干边缘概率和条件概率的乘积：/>即/>的分布与/>的分布有依赖关系，假设先验/>服从高斯分布时，令/>，/>可以求出，且/>在/>的条件下生成，服从混合高斯分布，/>在/>的条件下生成，可以假设为高斯分布或伯努利分布。

在编码阶段，在/>的条件下生成，/>，其联合概率密度表示为以下乘积形式：

在实现中， p(*)相关的概率都相当于是真实概率，q(*)相关的概率都是神经网络计算得到的概率，VAE的基本思想就是通过神经网络拟合q尽可能的接近于p，并且完成生成任务。

步骤（3a）中的证据下界经由贝叶斯公式、因式分解等积分运算后，分解为以下四项：

其中第一项为w先验项（w-prior），计算假设值与真实值的KL散度，和第二项z先验（z-prior）共同约束隐变量所服从的高斯混合模型，使其内部的每个子分布与标准高斯分布越接近越好。先验项（/>）服从高斯分布时计算为KL散度，当/>先验项服从均匀分布时计算为信息熵；如果假设/>服从其他先验分布，/>的计算也应该随着先验分布的改变而改变。条件先验项（conditional prior）约束每个子分布之间的距离；重构项（reconstruction term）表示生成数据与观测值之间的差距，可视生成任务采用交叉熵损失函数或均方误差进行计算。

进一步的，KL散度在服从高斯情况下的解析解为：

其中N表示采样个数，服从高斯分布，/>服从标准正态分布。w先验和条件先验的KL散度都可以通过这种方式计算得出；对于重构损失，一般情况下可视生成任务采用交叉熵损失函数或均方误差进行计算。

因此，总损失函数表示为：

对于分解出的三个先验函数和一项重构损失，已知全相关（Total correlation，TC）反映数据间依赖关系，对于单个独立样本，计算为：

其中k表示样本的维数，最小化TC项等价于最小化/>在不同的/>下的距离，所以使它们在数据上更具有独立性，自然地引入了解耦机制。本发明对第二项z先验项的KL散度计算拆分成以下形式，引出全相关项A，其含义表示强化隐空间中每个子分布的独立性，具体计算方法为：

其中B项旨在最小化每个子高斯分布生成的推断函数与先验之间的距离，由于表示一组变量而非单个变量，所以可以继续递归地分解，即当/>包含子变量/>时，该项可以进一步在形式上相似地分解为：

其中k为子分布个数，d为单个子分布中变量维数。总损失函数表示为：

（3b）计算损失函数的费雪尔正则化项：为了控制采样中相似的样本越近越好，不同的样本越远越好，可以通过最小化类内距离/>，最大化类间距离，其中/>、/>表示子分布的均值和方差，/>表示子分布的权重，K表示子分布个数，假设每个子高斯分布的采样数量/>相同，则

其中表示求矩阵A的迹。

（4）训练生成模型：将训练集输入到基于高斯混合变分自编码器的生成模型中进行训练，按照设定的停止迭代条件停止迭代。用训练集对基于高斯混合变分自编码器的生成模型进行训练，训练好的生成模型的输入是图像样本，输出是其对应的重构样本。

（5）生成：训练好的生成模型包括编码器和解码器部分，后续步骤中使用训练好的生成模型可以实现生成图像的任务。

如下表所示，是本发明（HGMVAE）在z先验服从高斯分布（HGMVAE-G）和均匀分布（HGMVAE-U）时在四个数据集上的实验结果。与现有的VAE、β-VAE、GMVAE、WAE等方法相比，本发明在FID（Frechet起始距离）、SSIM（结构相似性指数）、MS-SSIM（多尺度结构相似性指数）、LPIPS（学习感知图像块相似度）四个指标上显示出了杰出的效果（粗体表示最优值）。

除了图像生成任务以外，本发明还可以应用于图像聚类。当先验项的维数，即子分布权重的维数与数据集的标签数相同时，在实验中聚类效果最好，且比其他方法有较大提升，在复杂的图片数据集上获得比其他现有技术方法更高的指标，从数字上准确定量地证明了本发明实现聚类效果的提升。

简而言之，本发明公开的基于高斯混合变分自编码器的图像生成方法，在建模上是融合变分自编码器和高斯混合模型的生成方法，具体来说还引入了层次解耦以及正则化的思想，解决了现有技术中生成模型表现力不够，解耦能力不足等问题。实现步骤包括：图像数据采集；数据集划分与数据预处理；构造以高斯混合变分自编码器为基础的生成模型；训练生成模型；根据训练好的模型进行生成。本发明采用全相关项以及信息论相关思想做距离上的约束，提取的特征更适合做图像生成，在实际任务中证明了其指标性能好，内存复杂性低，可应用于高维、大规模图像生成任务。

以上所述仅为本发明的具体实施例，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于高斯混合变分自编码器的图像生成方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于高斯混合变分自编码器的图像生成方法，其特征在于：损失函数的具体计算方式如下：

；

，

其中的分布与/>的分布有依赖关系，假设先验/>服从高斯分布时，令/>服从标准正态分布，则/>，/>可以求出，且/>在/>的条件下生成，服从混合高斯分布，/>在/>的条件下生成，可以假设为高斯分布或伯努利分布；/>和/>为边缘概率，/>和为条件概率；

；

3.如权利要求2所述的一种基于高斯混合变分自编码器的图像生成方法，其特征在于：损失函数的第一项经由贝叶斯公式、因式分解运算后，分解为以下四项：

；

其中表示子分布的权重系数，当/>先验项服从高斯分布时，/>计算为KL散度；当/>先验项服从均匀分布时，/>计算为信息熵；条件先验项约束每个子分布之间的距离，重构项可视生成任务采用交叉熵损失函数或均方误差进行计算；第一项为w先验项w-prior，计算假设值与真实值的KL散度，和第二项z先验z-prior共同约束隐变量所服从的高斯混合模型，使其内部的每个子分布与标准高斯分布越接近越好；条件先验项conditionalprior约束每个子分布之间的距离；重构项reconstruction term表示生成数据与观测值之间的差距。

4.如权利要求2所述的一种基于高斯混合变分自编码器的图像生成方法，其特征在于：正则化项的计算公式如下：

；

其中，最小化类内距离，最大化类间距离/>，/>、/>表示子分布的均值和方差，/>表示子分布的权重，K表示子分布个数，每个子高斯分布的采样数量/>相同，/>表示求矩阵A的迹。

5.如权利要求3所述的一种基于高斯混合变分自编码器的图像生成方法，其特征在于：对第二项z先验项的KL散度计算拆分成以下形式，引出全相关项A，其含义表示隐空间中每个子分布的独立隐变量越分散越好，自然地引入了解耦机制，具体计算方法为：

；

其中B旨在最小化每个子高斯分布生成的推断函数与先验之间的距离，由于/>表示一组变量而非单个变量，所以继续递归地分解，即当/>包含子变量/>时，该项可以进一步在形式上相似地分解为：

；

其中k为子分布个数，d为单个子分布中变量维数，则表示为：

；

。

6.如权利要求1所述的一种基于高斯混合变分自编码器的图像生成方法，其特征在于：步骤1中采集N张输入图像，构成数据集，其中/>为输入的第张图，/>为其对应标签，对这些图像进行数据预处理，将用于训练的图像数据都处理成统一的rgb格式，64×64大小。

7.如权利要求1所述的一种基于高斯混合变分自编码器的图像生成方法，其特征在于：步骤1所述的图像数据集中的图像数据属于同一类别且具有不同特征。