CN114757864A

CN114757864A - 一种基于多尺度特征解耦的多层级细粒度图像生成方法

Info

Publication number: CN114757864A
Application number: CN202210422103.1A
Authority: CN
Inventors: 杜友田; 沈逸如; 陈中奇; 陈思源; 张新明
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-07-15

Abstract

一种基于多尺度特征解耦的多层级细粒度图像生成方法，对公开数据集图像进行预处理；确定图像的层次划分，构建多尺度特征解耦网络，提取图像背景以及图像前景的形状和外观的多尺度特征，将真实图像映射到隐变量空间；将提取的特征编码作为多层级生成对抗网络的输入数据；将多尺度特征解耦网络得到的中间层特征图与多层级生成对抗网络中对应尺度的特征图进行跳跃连接，实现多尺度特征融合；设计损失函数并设置参数，训练多尺度特征解耦网络和多层级生成对抗网络，得到训练好的细粒度图像生成模型；将真实图像输入训练好的细粒度图像生成模型，生成丰富多彩的细粒度图像。本发明不需要手动的细粒度注释，且提高了生成图像的多样性和生成图像的质量。

Description

一种基于多尺度特征解耦的多层级细粒度图像生成方法

技术领域

本发明属于计算机视觉与图像处理技术领域，涉及一种图像生成方法，特别涉及一种基于多尺度特征解耦的多层级细粒度图像生成方法。

背景技术

计算机视觉是指利用计算机及相关设备对生物视觉进行模拟，从而像人类一样通过视觉观察进而理解世界。常见的计算机视觉应用领域包括图像分类、语义分割、目标检测、图像生成、面部识别等。由于在现实条件下，通过图像采集工具采集到的图像与人们的要求是有一定差距的，为了获得更多细节丰富、内容全面的有价值图像，人们希望可以利用机器进行创作，因此图像生成领域成为了一个具有重大研究价值的课题。

图像生成技术的研究最早可以追溯到20世纪80年代。早期计算机的运算能力有限，因此算法模型主要依赖于手工设计的特征，比如利用马尔科夫随机场、KL变换等技术进行图像生成。但是这些方法只有在目标图像简单、形状规则时才会有比较好的效果，当目标图像的背景和前景过于复杂且他们之间有较大的差异时，这些传统的图像生成方法就不是很有效了。随着梯度方向直方图、尺度不变特征变换等算法的出现，人们可以将手工提取特征与浅层模型相组合来实现目标的生成，这些算法的流程大致分为四个步骤：图像预处理、手动提取特征、建立分类器或回归器模型、输出图像。

目前图像生成领域关注度较高的模型主要是变分自编码器(VariationalAutoEncoder，VAE)和生成对抗网络(Generative Adversarial Networks，GAN)两种。VAE由一个编码器网络和一个解码器网络组成，它的目标是最大化数据似然的下限。在专利CN111243045A中，通过搭建基于高斯混合模型先验的变分自编码器网络，利用高斯混合模型中高斯分量之间的关系得到映射函数，从而计算变分自编码器网络的后验分布和先验分布的损失函数，达到生成图像的目的。而GAN主要用到了博弈论的思想，由生成器和判别器在训练过程中相互抗衡，网络在对抗中不断进步，生成的图像逐渐逼近真实图像，从而得到理想的数据。由于GAN具有计算量小，生成图像质量高，模型构造简单等优点，被广泛应用到图像生成中。

随着更多学者深入研究，基于GAN的改进模型不断被提出。专利CN114118012A提供一种基于循环生成对抗网络(CycleGAN)的个性字体生成方法，从图像风格迁移的思想出发，将图片风格迁移的方法运用到字体风格设计中。专利CN111968193A提供一种基于堆叠生成对抗网络(StackGAN)的文本生成图像方法，采用分段式训练，通过文本描述生成低分辨率图像，然后将初步结果和文本描述再次输入模型，输出高分辨率图像，保证生成图像的边缘清晰，细节和纹理更加细腻。专利CN113538266A中，基于Wasserstein距离构建一种新的生成对抗网络的代价函数，减少图片信息损失。

虽然图像生成的研究已经取得了巨大的进展，被广泛地应用于计算机视觉的诸多任务中，但是图像生成模型本身仍然存在着一些问题。大部分生成模型由随机噪声生成图像，模型训练的过程不够稳定，生成的图像不够真实、丰富度也不高。同时，现有的工作也很难将图像中的背景、形状、外观等特征一一分离开来，甚至是将这些特征从多个真实图像中组合起来，实现可控的细粒度图像生成。因此，图像生成领域所面对的一些问题和挑战仍然有待我们进一步研究并解决。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于多尺度特征解耦的多层级细粒度图像生成方法，以发现图像的潜在分层关系，提高生成的图像质量和多样性。

为了实现上述目的，本发明采用的技术方案是：

一种基于多尺度特征解耦的多层级细粒度图像生成方法，包括如下步骤：

步骤1，对公开数据集图像进行预处理操作；

步骤2，确定图像的层次划分，构建多尺度特征解耦网络，提取图像背景以及图像前景的形状和外观的多尺度特征，将真实图像映射到隐变量空间；

步骤3，构建多层级生成对抗网络，将步骤2提取的特征编码作为多层级生成对抗网络的输入数据；

步骤4，设计多尺度特征融合机制，将多尺度特征解耦网络得到的中间层特征图与多层级生成对抗网络中对应尺度的特征图进行跳跃连接，实现多尺度特征融合；

步骤5，设计损失函数并设置参数，训练多尺度特征解耦网络和多层级生成对抗网络，得到训练好的细粒度图像生成模型，保存模型结构和参数；

步骤6，将真实图像输入训练好的细粒度图像生成模型，生成丰富多彩的细粒度图像。

与现有技术相比，本发明的有益效果是：

在细粒度图像生成任务中，图像所属类别的粒度更为精细，而细粒度的注释需要相应领域的专家来完成，注释过程昂贵且费时费力。本发明中提出了一种无监督的细粒度图像生成方法，不需要手动的细粒度注释，节省了大量的时间和精力。

现有的一些图像生成算法，最常见的就是输入随机噪声到一个优化的生成对抗网络中，将图像中的所有内容同时生成出来，但这类方法无法实现图像的分层生成，不能探索出图像的结构关系。本发明提出的基于多尺度特征解耦的多层级细粒度图像生成方法，利用多尺度特征解耦网络对图像进行编码，将图像中包含的不同可解释因子进行分离，并输入多层级生成对抗网络中由浅入深地生成图像背景、前景的形状和外观，达到从不同方面和层次对图像进行挖掘的目的。通过控制图像的不同属性特征，进一步提高了生成图像的多样性。

本发明还提出了多尺度特征融合机制，利用跳跃连接操作将多尺度特征解耦网络的中间层特征图，与多层级生成对抗网络中上采样环节对应尺度的特征图拼接在一起，弥补了浅层特征图中更加细致的特征。这种不同尺度的特征融合对上采样恢复像素大有帮助，进一步提高了生成图像的质量。

附图说明

图1为本发明方法的整体流程图。

图2为本发明中多尺度特征解耦网络的模型框架图。

图3为本发明中多层级生成对抗网络的模型框架图。

图4为本发明中以多尺度特征解耦网络的背景编码器和多层级生成对抗网络的背景层生成器为例，实施多尺度特征融合机制的结构示意图。

图5为本发明中图像生成的案例图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明为一种基于多尺度特征解耦的多层级细粒度图像生成方法，具体包括如下步骤：

步骤1，使用公开数据集图像，对图像进行预处理操作。数据集中的图像具有某种细粒度划分，可将图像集合表示为X＝{x₁,x₂，…,x_N}，预处理操作具体包括随机裁剪、缩放和翻转操作等，目的是实现对数据样本的扩充。

步骤2，确定图像的层次划分，构建多尺度特征解耦网络，提取图像背景以及图像前景的形状和外观的多尺度特征，将真实图像映射到隐变量空间。

具体地，在图像的层次划分方面，根据已有的经验，将一张图像首先分为背景和前景两层，为了得到细粒度的图像，需要对图像的层次进行更细致的划分，因此将前景进一步分成前景的形状和外观两层，即图像最终分为背景以及前景的形状和外观三个层次。

进一步地，与图像的三个层次相对应，本发明多尺度特征解耦网络由三个编码器构成，分别为背景编码器、形状编码器和外观编码器。各编码器根据真实图像分别提取背景以及前景的形状和外观的浅层与深层特征。这三种属性特征相互独立，其中一个属性发生改变，只会引起相应特征编码的取值改变，不会影响其他的特征。图2是多尺度特征解耦网络的框架。

三个编码器均由依次连接的卷积层、Batch Normalization层和LeakyReLU激活函数层构成。多尺度特征解耦网络提取到的三种特征编码，输入到多层级生成对抗网络中，实现多尺度特征解耦和融合。

步骤3，构建多层级生成对抗网络，将步骤2得到的特征编码作为多层级生成对抗网络的输入数据。

具体地，为了与多尺度特征解耦网络的结构相对应，多层级生成对抗网络由三个层级组成，分别为背景层、形状层和外观层。每一层包含一个生成对抗网络GAN，整个多层级生成对抗网络的结构如图3所示。其中，背景层以背景编码作为输入，输出是一张背景图像，该背景图像不包含任何的前景信息，为后续的形状层和外观层生成的前景提供了一个拼接的模板。形状层以形状编码作为输入，输出一张只含前景形状的图像。外观层以外观编码与形状特征拼接后的向量作为输入，输出的图像在前景形状的基础上填充了前景的外观，包含颜色和纹理等细节。将三层输出的结果依次拼接后即可得到完整的细粒度图像。

本发明中，每一层的生成对抗网络都可以由生成器和判别器构成。生成器的输入为特征编码，网络结构包含多个依次连接的上采样层、卷积层、Batch Normalization层、门控线性单元和残差块，目的是尽可能生成真实的图片欺骗判别器。判别器的输入是图片，网络结构包含多个依次连接的卷积层、Batch Normalization层和LeakyReLU激活函数层，目的是尽可能区分出真实图像和生成器生成的假图像。于是生成器与判别器形成了一个相互对抗和博弈的关系，生成器生成的图像越来越真实，判别器的鉴别能力越来越强，当达到最佳状态时，生成的图像具有较高质量。

步骤4，设计多尺度特征融合机制，将多尺度特征解耦网络得到的中间层特征图与多层级生成对抗网络中对应尺度的特征图进行跳跃连接，实现多尺度特征融合。

本发明不同尺度的特征融合对多层级生成对抗网络中的上采样恢复像素有很大帮助，因为浅层特征图具备更加细致的特征，而深层特征图中包含的信息经过大量浓缩，空间损失大，当利用跳跃连接操作进行特征融合时，会弥补浅层特征图中的细致的特征，进一步提高了生成图像的质量。

以背景特征为例，多尺度特征融合机制的具体实现原理如图4所示。图中，多尺度特征解耦网络中的背景编码器提取到的特征图与多层级生成对抗网络中背景层生成器生成的特征图进行了跳跃连接。与之类似，形状编码器提取的特征图与多层级生成对抗网络中形状层生成器生成的特征图也可以进行跳跃连接，而外观编码器与多层级生成对抗网络中外观层生成器对应的特征图则无法进行跳跃连接。这是因为背景和形状的编码器和生成器的结构是对称的，对应连接部分的特征图大小也相同，因此可以利用跳跃连接操作实现多尺度特征融合，而外观编码器和生成器的结构则不符合条件。

步骤5，设计损失函数并设置参数，训练多尺度特征解耦网络和多层级生成对抗网络，得到训练好的细粒度图像生成模型，保存模型结构和参数。

整个细粒度图像生成模型主要由多尺度特征解耦网络、多层级生成对抗网络和多尺度特征融合机制三部分构成。整个模型的总损失函数定义如下：

损失函数中各个参数说明如下：

λ₁、λ₂、λ₃、λ4₄、λ₅代表各个损失函数对应的权重且均大于0。

L_b表示背景层的损失函数，包括生成对抗损失和分类损失，主要为生成对抗损失L_{b_adv}，用来训练背景层的生成器和判别器，公式如下：

式中x代表输入的图像，Dis_b代表背景层的判别器，Gen_b代表背景层的生成器，code_b代表背景编码器提取到的背景编码。

L_s表示形状层的损失函数，为形状编码与图像间的互信息损失，目的是将形状层输入的编码与生成的前景形状图像相关联，公式如下：

式中Dis_s代表形状层的判别器，Gen_s代表形状层的生成器，code_s代表形状编码器提取到的形状编码，shape代表生成的前景形状图像。

L_a表示外观层的损失函数，包括生成对抗损失L_{a_adv}和外观编码与图像间的互信息损失L_{a_mutual}，公式如下：

式中Dis_{a_adv}代表外观层的一个判别器，用来区分真实样本和生成器生成的假样本，Dis_a代表外观层的另一个判别器，用来将外观层输入的编码与生成的前景外观图像相关联，Gen_a代表外观层的生成器，code_a代表外观编码器提取到的外观编码，appearance代表生成的前景外观图像，

代表多层级生成对抗网络最后生成的完整的细粒度图像。

L_rec表示图像重建损失，该损失形式为L1损失：

L_{code_i}表示各层编码重建损失，该损失形式为交叉熵损失：

L_{code_i}＝CE(Enc_i(Gen_i(code_i)),code_i)

式中i的取值为b,s,a三种，b表示背景层，s表示形状层，a表示外观层，Enc代表多尺度特征解耦网络中的编码器。

整个细粒度图像生成模型使用Adam优化器进行梯度反向传播，更新模型参数，初始学习率设置为0.0002，最大迭代次数为500。

步骤6，将真实图像输入训练好的细粒度图像生成模型，经过背景、形状和外观三种特征的提取和重新组合，生成丰富多彩的细粒度图像。

具体地，图像特征的重新组合主要有两种方式：

第一种是给定三张不同的真实图像，分别记作x₁,x₂,x₃，输入到多尺度特征解耦网络中，其中x₁通过背景编码器提取背景编码

x₂通过形状编码器提取形状编码

x₃通过外观编码器提取外观编码

三种编码各自输入到多层级生成对抗网络中的背景层、形状层和外观层中，分别生成x₁的背景图像，x₂的前景形状图像和x₃的前景外观图像，通过将x₁的背景和x₂的前景形状进行拼接，再将x₃的前景外观填充到形状的轮廓中，则可生成一张新的细粒度图像，该图像融合了三幅输入图像的不同特征，体现了生成图像的多样性。

第二种实现特征重新组合的方式与第一种略有不同。首先将数据集中全部的真实图像通过多尺度特征解耦网络，得到所有图像的背景编码、形状编码和外观编码。为了方便后续的重组再利用，将全部背景编码整理为背景编码库，而形状和外观编码则分别构成形状编码库和外观编码库。在进行特征重组时，只需从三种编码库中各采样一个编码，对应输入到多层级生成对抗网络的各层级中，实现特征的重新组合。该方法与第一种方法相比，优势在于省去了多次输入图像和编码的过程，将图像全部编码一次便一劳永逸，后续只需利用多层级生成对抗网络的部分便可达到目的，大大节省了时间。而缺点在于无法指定输出图像的特征构成，随机性很强。因此，根据不同的应用场景可以选择不同的方法来实现图像的特征重组，生成丰富的细粒度图像。

在本发明的一个具体实施例中，数据集为包含N个样本的图像集合X＝{x₁,x₂,…x_N}。以图5中所示的一张图像x为例，介绍该实施方式的步骤如下：

步骤1)：

对图像x进行随机裁剪、缩放和翻转等预处理操作。

步骤2)：

将图像x输入到多尺度特征解耦网络，通过背景编码器Enc_b提取图像的背景的浅层和深层的多尺度特征，其中最深层的特征作为背景编码，记作code_b，维度为200维；通过形状编码器Enc_s提取图像的前景形状的浅层和深层的多尺度特征，其中最深层的特征作为形状编码，记作code_s，维度为20维；通过外观编码器Enc_a提取图像的前景外观的浅层和深层的多尺度特征，其中最深层的特征作为外观编码，记作code_a，维度为200维。

步骤3)：

以200维的背景编码code_b作为多层级生成对抗网络中背景层生成器Gen_b的输入，利用跳跃连接实现特征融合，将背景编码器Enc_b提取的第一层至第四层特征与背景层生成器Gen_b生成的第二层至第五层特征对应拼接，生成大小为128×128的背景图像Background；以20维的形状编码code_s作为多层级生成对抗网络中形状层生成器Gen_s的输入，利用跳跃连接实现特征融合，将形状编码器Enc_s提取的第一层至第四层特征与形状层生成器Gen_s生成的第二层至第五层特征对应拼接，生成大小为128×128的前景形状图像Shape；将前景形状图像与背景图像拼接，得到一张既含背景又含前景形状的图像

以200维的外观编码code_a与形状层生成器生成的16维形状特征拼接后的向量作为多层级生成对抗网络中外观层生成器Gen_a的输入，利用跳跃连接实现特征融合，将外观编码器Enc_a提取的第一层至第四层特征与外观层生成器Gen_a生成的第二层至第五层特征对应拼接，生成大小为128×128的前景外观图像Appearance；将前景外观图像与含有背景和前景形状的图像

拼接，得到完整的细粒度图像

大小为128×128，该图像与输入的图像x一致。

在测试过程中，只需更改输入的图像形式，由上述一张图像输入到三个编码器中的方法，改为三张图像分别输入到对应编码器中，则可实现特征的重新组合生成新的细粒度图像。

Claims

1.一种基于多尺度特征解耦的多层级细粒度图像生成方法，其特征在于，包括如下步骤：

步骤1，对公开数据集图像进行预处理操作；

2.根据权利要求1所述基于多尺度特征解耦的多层级细粒度图像生成方法，其特征在于，所述步骤1中，数据集图像表示为X＝{x₁,x₂，…,x_N}，对数据集图像进行预处理具体包括随机裁剪、缩放和翻转操作，实现对数据样本的扩充。

3.根据权利要求1所述基于多尺度特征解耦的多层级细粒度图像生成方法，其特征在于，所述步骤2中，将一张图像首先分为背景和前景两层，然后再将前景分成形状和外观，即图像最终分为背景以及前景的形状和外观三个层次。

4.根据权利要求1所述基于多尺度特征解耦的多层级细粒度图像生成方法，其特征在于，所述多尺度特征解耦网络，由三个编码器构成，分别为背景编码器、形状编码器和外观编码器，各编码器根据真实图像分别提取背景以及前景的形状和外观的浅层与深层特征，输入到多层级生成对抗网络中，实现多尺度特征解耦和融合。

5.根据权利要求4所述基于多尺度特征解耦的多层级细粒度图像生成方法，其特征在于，所述三个编码器均由依次连接的卷积层、Batch Normalization层和LeakyReLU激活函数层构成。

6.根据权利要求1所述基于多尺度特征解耦的多层级细粒度图像生成方法，其特征在于，所述多层级生成对抗网络由背景层、形状层和外观层构成，每一层包含一个生成对抗网络；所述背景层由背景编码作为输入，输出一张背景图像，所述背景图像不包含任何前景信息，为后续的形状层和外观层生成的前景提供一个拼接的模板；所述形状层以形状编码作为输入，输出一张只含前景形状的图像；所述外观层以外观编码与形状特征拼接后的向量作为输入，输出的图像在前景形状的基础上填充了前景的外观，包含颜色细节和纹理细节；将三层输出的结果拼接后即得到完整的细粒度图像。

7.根据权利要求1或6所述基于多尺度特征解耦的多层级细粒度图像生成方法，其特征在于，所述生成对抗网络由生成器和判别器构成，生成器的输入为特征编码，网络结构包含多个依次连接的上采样层、卷积层、Batch Normalization层、门控线性单元和残差块，目的是尽可能生成真实的图片欺骗判别器；判别器的输入是图片，网络结构包含多个依次连接的卷积层、Batch Normalization层和LeakyReLU激活函数层，目的是尽可能区分出真实图像和生成器生成的假图像；生成器与判别器相互对抗和博弈，达到最佳状态，提高生成图像的质量。

8.根据权利要求1所述基于多尺度特征解耦的多层级细粒度图像生成方法，其特征在于，所述步骤4，将背景编码器提取到的特征图与多层级生成对抗网络中背景层生成器生成的特征图进行跳跃连接；将形状编码器提取的特征图与多层级生成对抗网络中形状层生成器生成的特征图进行跳跃连接；外观编码器与多层级生成对抗网络中外观层生成器对应的特征图则不进行跳跃连接。

9.根据权利要求1所述基于多尺度特征解耦的多层级细粒度图像生成方法，其特征在于，所述细粒度图像生成模型包含多尺度特征解耦网络、多层级生成对抗网络和多尺度特征融合机制三部分；模型的损失函数定义如下：

其中，λ₁、λ₂、λ₃、λ₄、λ₅代表各个损失函数对应的权重且均大于0；L_b表示背景层的损失函数，包括生成对抗损失和分类损失；L_s表示形状层的损失函数，为形状编码与图像间的互信息损失；L_a表示外观层的损失函数，包括生成对抗损失和外观编码与图像间的互信息损失；L_rec表示图像重建损失；L_{code_i}表示各层编码重建损失，i分别取b、s和a，b表示背景层，s表示形状层，a表示外观层。

10.根据权利要求1所述基于多尺度特征解耦的多层级细粒度图像生成方法，其特征在于，所述步骤6，在细粒度图像生成模型中，经过背景、前景形状和前景外观三种特征的提取和重新组合，生成丰富多彩的细粒度图像；

其中特征的重新组合有两种方式：

第一种方式，给定三张不同的真实图像，分别记作x₁,x₂,x₃，输入到多尺度特征解耦网络中，其中x₁通过背景编码器提取背景编码

x₂通过形状编码器提取形状编码

x₃通过外观编码器提取外观编码

三种编码各自输入到多层级生成对抗网络中的背景层、形状层和外观层中，分别生成x₁的背景图像，x₂的前景形状图像和x₃的前景外观图像，通过将x₁的背景和x₂的前景形状进行拼接，再将x₃的前景外观填充到形状的轮廓中，生成一张新的细粒度图像，该图像融合了三幅输入图像的不同特征；

第二种方式，首先将数据集中全部的真实图像通过多尺度特征解耦网络，得到所有图像的背景编码、形状编码和外观编码，将全部背景编码、形状编码和外观编码分别整理为背景编码库、形状编码库和外观编码库；在进行特征重组时，从三种编码库中各采样一个编码，对应输入到多层级生成对抗网络的各层级中，实现特征的重新组合。