CN115496824B

CN115496824B - 一种基于手绘的多类别对象级自然图像生成方法

Info

Publication number: CN115496824B
Application number: CN202211184768.XA
Authority: CN
Inventors: 于茜; 安梓睿; 于靖博
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-08-18
Anticipated expiration: 2042-09-27
Also published as: CN115496824A

Abstract

本发明公开了一种基于手绘的多类别对象级自然图像生成方法，包括以下步骤，获取多类别对象级初始手绘以及对应的类别标签；根据所述初始手绘和所述类别标签，对预先构建的图像生成模型进行训练；所述训练步骤包括：将所述初始手绘和其对应的类别标签输入至条件编码器中进行编码，得到预测隐空间向量；将所述预测隐空间向量和相同的类别标签输入至预训练生成器模型生成对应类别的自然图像预测结果，根据所述预测结果判断模型收敛情况；将实际手绘输入至训练好的图像生成模型中，生成自然图像；本发明通过预训练的生成器，解决了小规模训练数据集的图像域先验知识不足的问题。

Description

一种基于手绘的多类别对象级自然图像生成方法

技术领域

本发明涉及计算机视觉图像生成技术领域，更具体的说是涉及一种基于手绘的多类别对象级自然图像生成方法。

背景技术

基于手绘的多类别图像生成旨在基于手绘和类别标签自动生成逼真的图像。该任务面临的挑战是手绘域与图像域的巨大域间差异，同一域内不同类别特征的域内差异以及同一类内图像的特征变化。由于手绘语义特征具有模糊性、抽象性、稀疏性，手绘和照片之间存在很大的域间差距。因此，生成逼真的照片，尤其是多个不同类别的图像，需要大量的图像域的先验知识。该任务对生成模型的学习泛化能力是一项巨大的考验。

现存的工作基本上都是基于生成对抗网络，完成手绘域到图像域的生成建模。它们大多数采用编码器-解码器结构，学习了从手绘域到潜在空间再到图像域的连续映射。有些工作会学习图像和边缘图到共享的隐空间的联合映射。有些工作采用循环生成对抗网络作为其网络的结构基础，并提出了一种开放域内的采样和优化策略。但是这些基于学习生成模型的方法严重依赖于手绘-图像训练集的数据规模，依靠现有的小规模手绘-图像数据集无法得到性能优良的生成模型(图像域的先验知识不足)，生成的多类别图像质量难以达到照片级真实度和生成多样性。

因此，如何提供一种基于手绘的多类别对象级自然图像生成方法，来提高图像生成质量是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于手绘的多类别对象级自然图像生成方法，能够生成具有照片级真实度并且忠实于手绘特征的自然图像。

为了实现上述目的，本发明采用如下技术方案：

一种基于手绘的多类别对象级自然图像生成方法，其特征在于，包括以下步骤，

获取多类别对象级初始手绘以及对应的类别标签；

根据所述初始手绘和所述类别标签，对预先构建的图像生成模型进行训练；所述训练步骤包括：将所述初始手绘和其对应的类别标签输入至条件编码器中进行编码，得到预测隐空间向量；将所述预测隐空间向量和相同的类别标签输入至预训练生成器模型生成对应类别的自然图像预测结果，根据所述预测结果判断模型收敛情况；训练至模型收敛；

将实际手绘输入至训练好的所述图像生成模型中，生成自然图像。

进一步的，所述训练步骤还包括：

将所述自然图像输入至图像-手绘转译网络，输出重建手绘；根据所述初始手绘与所述重建手绘，计算形状损失，约束所述自然图像忠实于所述初始手绘的形状特征。

进一步的，所述训练步骤还包括：

所述预训练生成器模型固定；

所述条件编码器根据真实隐空间向量和所述预测隐空间向量采用预设的第一损失函数计算向量重建损失，并进行参数更新；所述图像-手绘转译网络采用预设的第二损失函数计算形状损失，并进行参数更新。

进一步的，所述训练步骤还包括：使用真实手绘-图像数据集进行调优，即利用该数据集作为训练数据集，使用预设的调优损失函数和所述第二损失函数分别对所述条件编码器E和所述图像-手绘转译网络S的参数进行优化。

进一步的，

所述第一损失函数为：

其中，

所述第二损失函数为：

所述调优损失函数为：

其中，z_GT为隐空间向量，x_GT为训练图像，s为输入手绘，y为类别标签，E为条件编码器，S为图像-手绘转译网络，G为预训练图像生成器，F为预训练特征提取网络，λ_image、λ_image和、λ_image为模型训练参数；指代模型E的参数更新的方向为损失函数/>收敛的梯度方向。

进一步的，所述条件编码器包括输入层、多个残差块、卷积层、下采样层和线性投影层；所述输入层、多个残差块、卷积层、下采样层和所述线性投影层依次连接；

通过所述残差块对所述输入层输入的所述初始手绘和所述类别标签进行归一化；

依次通过所述卷积层、所述下采样层和所述线性投影层，输出预测隐空间向量。

进一步的，通过所述残差块对所述输入层输入的所述初始手绘和所述类别标签进行归一化，步骤包括：

获取输入向量和所述类别标签；其中，所述输入向量为所述初始手绘或由所述残差块输出的中间向量；

通过1×1卷积层对所述输入向量进行特征提取，得到第一特征向量；对所述第一特征向量使用最大池化层进行下采样，得到第一采样向量；

通过三层线性投影层对所述类别标签分别进行投影，对应得到增益参数和偏差参数；

通过1×1卷积层对所述输入向量进行特征提取得到第二特征向量。

根据第一层线性投影层输出的所述增益参数和所述偏差参数对所述第二特征向量进行条件批量归一化，并经过激活函数，得到第三特征向量；

通过3×3卷积层对所述第三特征向量进行特征提取，缩小特征图的尺寸为所述第二特征向量的1/2，增加特征向量的通道深度为所述第二特征向量的2倍，得到第四特征向量；

根据第二层线性投影层输出的所述增益参数和所述偏差参数对所述第四特征向量进行批量归一化，并经过激活函数，得到第五特征向量；

通过1×1卷积层对所述第五特征向量进行特征提取，得到第六特征向量；

根据第三层线性投影层输出的所述增益参数和所述偏差参数对所述第六特征向量进行批量归一化，并与所述第一采样向量进行相加后，由激活函数进行激活，得到所述中间向量。

进一步的，所述图像-手绘转译网络包括，多个上采样残差模块和多个下采样残差模块和1个1×1卷积层；其中，多个所述上采样残差模块和多个所述下采样残差模块以及所述1×1卷积层依次连接。其中对应尺寸的残差块之间使用跳跃连接。

进一步的，所述上采样模块的残差网络由一个1×1卷积层和一个平均池化层构成；

所述上采样模块的主干网络接由两个3×3卷积层组成；其中，在输入所述3×3卷积层之前，经过激活函数层进行激活；在每个所述3×3卷积层之后接有一个谱归一化层。

进一步的，所述下采样模块的残差网络由上采样层和1×1卷积层连接构成；

所述下采样模块的主干网络由激活函数层、上采样层、3×3卷积层、批量归一化层、激活函数层、3×3卷积层和批量归一化层依次连接构成。

本发明的有益效果：

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于手绘的多类别对象级自然图像生成方法，

1)本发明中通过预训练模型生成自然图像，使用在大规模图像数据集上训练得到的高性能生成对抗网络作为生成模块，弥补了图像域先验知识的不足；同时本发明将手绘通过条件编码器映射到预训练生成模型的隐空间中，再使用预训练的生成器生成图像，使生成图像的质量得到提升。

2)本发明使用条件生成对抗网络，通过引入类别标签作为条件，生成多类别对象级图像。因此，我们需要将多类别手绘映射到条件生成对抗网络的隐空间。本发明中的条件编码器，通过引入类别作为编码器的条件，使得映射更准确。现有的基于手绘的图像生成模型，生成图像并不能忠实于手绘的特征。本发明提出了形状损失函数，用于约束生成图像的形状、方向等特征与输入手绘对齐。

3)本发明中的模型训练需要规模较大的配对数据集。因此，我们使用随机采样的隐空间向量作为输入，通过预训练的生成器生成对应图像；再使用生成的所述自然图像作为输入，通过的图像-手绘转译网络，生成对应重建手绘。最终，由这三者构成训练使用的数据集。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的一种基于手绘的多类别对象级自然图像生成方法示意图；

图2附图为本发明中条件编码器网络结构示意图；

图3附图为本发明中图像-手绘转移网络结构示意图；

图4附图为本发明与现有方法的可视化结果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1，本发明实施例公开了一种基于手绘的多类别对象级自然图像生成方法，包括以下步骤，

S1：获取多类别对象级初始手绘以及对应的类别标签；

S2：根据初始手绘和类别标签，对预先构建的图像生成模型进行训练；

S21：训练步骤包括：将初始手绘和其对应的类别标签输入至条件编码器中进行编码，得到预测隐空间向量；

S22：将预测隐空间向量和相同的类别标签输入至预训练生成器模型生成对应类别的自然图像预测结果，根据预测结果判断模型收敛情况；训练至模型收敛

S3：将实际手绘输入至训练好的图像生成模型中，生成自然图像。

在一种实施例中，训练步骤还包括：

将自然图像输入至图像-手绘转译网络，输出重建手绘；根据初始手绘与重建手绘，计算形状损失，约束自然图像忠实于初始手绘的形状特征。

在本实施例中，训练步骤还包括：

预训练生成器模型固定；

条件编码器根据真实隐空间向量和预测隐空间向量采用预设的第一损失函数计算向量重建损失，并进行参数更新；图像-手绘转译网络采用预设的第二损失函数计算形状损失，并进行参数更新。

使用真实手绘-图像数据集进行调优，即利用该数据集作为训练数据集，使用预设的调优损失函数和第二损失函数分别对条件编码器E和图像-手绘转译网络S的参数进行优化。

第一损失函数为：

其中，第一损失函数的计算过程包括：

根据真实隐空间向量和预测隐空间向量计算重建损失：

根据真实图像和预训练生成器模型输出的自然图像预测结果计算图像重建损失：

第二损失函数为：

调优损失函数为：

其中，z_GT为隐空间向量，x_GT为训练图像，s为输入手绘，y为类别标签，E为条件编码器，S为图像-手绘转译网络，G为预训练图像生成器，F为预训练特征提取网络，λ_image、λ_image和、λ_image为模型训练参数。

本发明的训练细节：

我们在训练数据集上训练200个周期，其中学习率设置为0.001。隐空间向量z为128维向量，经过预处理的手绘和图像的分辨率为128×128。我们使用Adam优化器，一次优化的批量大小设置为128。训练过程中损失函数中的参数设置为：λ_LPIPS＝1,λ_z＝10,λ_image＝1,λ_{sh ape}＝1。

现有两种类型的反演方法：

第一，基于学习的反演，该方法首先生成具有随机采样隐空间向量的图像集合，然后将图像和隐空间向量分别用作输入和监督，训练将图像映射到隐空间向量的编码器；第二，基于优化的反演，该方法通过计算生成图像的像素级重建损失，直接优化隐空间向量。现存基于学习的反演方法存在一个问题：无法对条件生成对抗网络进行准确的反演映射以及最终还原图像。

现存大多数反演编码器仅将无条件图像映射到隐空间向量；少数条件生成对抗网络反演对同一输入图像使用两个编码器来预测隐空间向量和类别标签，但是，这两种方法都不适用于多类别手绘，因为手绘笔画稀疏且无色彩纹理填充，这经常导致类别编码器预测失败，而单独的无条件编码器不能准确地将手绘映射到隐空间向量。本发明提出的条件编码器包括一系列残差块，手绘的类别标签作为模型的条件，通过条件批量归一化层嵌入到编码器中，采用采样隐空间向量z_GT和预测隐空间向量z之间的重建损失来监督条件编码器进行准确的映射。

基于手绘的多类别对象级图像生成任务本质上的核心任务是生成任务，生成图像的质量主要指多样性和逼真度等指标，取决于生成器的性能。传统的手绘-图像生成模型往往生成器结构简单，使用小规模的手绘-图像数据集训练，因此性能较差，生成图像质量并不能令人满意。因此，在本发明的框架中，引入了基于大规模图像数据集预训练的高性能生成器，该模型具有大量的图像域的先验知识，从而大幅提高了生成图像的质量，也使得优化训练过程节省了训练生成器的开销，简化了任务的训练目标。

在训练过程中，我们使用合成数据集替代真实数据。我们使用随机采样的噪声向量作为输入的真实隐空间向量，通过预训练的生成器生成对应图像替代真实图像；再使用生成的自然图像作为输入，通过预训练的图像-手绘转译网络，生成对应重建手绘。最终，由这三者构成训练使用的数据集。

在训练过程中，我们使用预训练生成器生成的自然图像预测结果x和真实图像x_GT之间的像素级重建损失以及感知损失来监督条件编码器E进行准确的映射，最终忠实地重建图像。此训练过程中，预训练生成器模型的参数是固定的，只优化编码器的参数。

如图2，在另一实施例中，条件编码器包括输入层、多个残差块、卷积层、下采样层和线性投影层；输入层、多个残差块、卷积层、下采样层和线性投影层依次连接；

通过残差块对输入层输入的初始手绘和类别标签进行归一化；

依次通过卷积层、下采样层和线性投影层，输出预测隐空间向量。

条件编码器E将带有类别标签的手绘作为输入，并输出隐空间向量。它由五个残差块、一个卷积层、一个下采样(最大池化)层和一个线性投影层组成；其中卷积层通过滑动窗口在卷积核感知域内提取特征，归一化处理计算统计特征并加入条件向量的约束，激活函数用于将线性函数映射转化为非线性函数映射，残差连接预防模型在训练过程中梯度消失；使用共享的类嵌入作为模型的输入条件向量，每个残差块的条件向量被线性投影以产生批量归一化处理的增益和偏差参数。其中，偏置投影以零为中心，增益投影以一为中心。在每个残差块中，每个卷积层后接一个条件批量归一化层和激活函数层(ReLU)。表1提供了条件编码器E的内部张量处理过程。

表1条件编码器E各层张量处理过程

在另一实施例中，通过残差块对输入层输入的初始手绘和类别标签进行归一化，步骤包括：

获取输入向量和类别标签；其中，输入向量为初始手绘或由残差块输出的中间向量；

通过1×1卷积层对输入向量进行特征提取，得到第一特征向量；对第一特征向量使用最大池化层进行下采样，得到第一采样向量；

通过三层线性投影层对类别标签分别进行投影，对应得到增益参数和偏差参数；

通过1×1卷积层对输入向量进行特征提取得到第二特征向量。

根据第一层线性投影层输出的增益参数和偏差参数对第二特征向量进行条件批量归一化，并经过激活函数，得到第三特征向量；

通过3×3卷积层对第三特征向量进行特征提取，缩小特征图的尺寸为第二特征向量的1/2，增加特征向量的通道深度为第二特征向量的2倍，得到第四特征向量；

根据第二层线性投影层输出的增益参数和偏差参数对第四特征向量进行批量归一化，并经过激活函数，得到第五特征向量；

通过1×1卷积层对第五特征向量进行特征提取，得到第六特征向量；

根据第三层线性投影层输出的增益参数和偏差参数对第六特征向量进行批量归一化，并与第一采样向量进行相加后，由激活函数进行激活，得到中间向量。

在另一实施例中，图像-手绘转译网络包括，多个上采样残差模块(ResBlock-up)和多个下采样残差模块(ResBlock-down)和1个1×1卷积层；其中，多个上采样残差模块和多个下采样残差模块以及1×1卷积层依次连接。内部张量变化过程如表2所示。

表2图像-手绘转译网络S各层张量处理过程

如图3所示，我们展示了图像-手绘转译网络S中残差块的结构。如图3(a)所示，在每个下采样残差快中，主干连接由两个3×3卷积层组成，后接一个谱归一化层。在输入3×3卷积层之前，输入将首先经过激活函数层(LeakyReLU)。残差连接由一个1×1卷积层和一个平均池化层组成。主干连接和残差连接的输出将通过加法进行融合。上采样残差块的结构与下采样残差块的结构类似，唯一的区别是每个上采样残差块使用上采样层而不是平均池化层。

在另一实施例中，上采样模块的残差网络由一个1×1卷积层和一个平均池化层构成；

上采样模块的主干网络接由两个3×3卷积层组成；其中，在输入3×3卷积层之前，经过激活函数层进行激活；在每个3×3卷积层之后接有一个谱归一化层。

在另一实施例中，下采样模块的残差网络由上采样层和1×1卷积层连接构成；

下采样模块的主干网络由激活函数层、上采样层、3×3卷积层、批量归一化层、激活函数层、3×3卷积层和批量归一化层依次连接构成。

本发明的效果说明：

1.数值结果

如表3所示，第一列为参与对比的现存基线方法名称，最后一行是本发明提出的方法，第二列和第三列的指标用来度量生成图像的真实度，第四列的指标用来度量生成图像的多样性，第五列的指标用来度量生成图像的分类准确率，第六列的指标用来度量生成图像对比测试集中真实图像的相似度。表一是在Sketchy Database数据集上的对比结果，表4是在SketchyCOCO数据集上的对比结果。我们的方法在两个数据集上的各项指标均优于其他现存基线方法，尤其在FID指标上大幅提高。这说明我们的模型不仅保证多类别生成图像的多样性、分类准确率、重建度都领先于现有方法，而且大幅提高了生成图像的视觉真实度，即更逼真、更接近真实照片。

表3Sketchy Database数值结果对比

	FID	KID	IS	Acc
					Pix2pix-Sep	170.06	0.081	6.94	0.125
Pix2pix-Mix	219.39	0.17	4.89	0.123
					EdgeGAN-S	218.67	0.12	5.54	0.903
AODA	315.46	0.2	3.1	0.11
					Ours	121.04	0.024	7.15	0.995

表4SketchyCOCO数值结果对比

2、可视化结果

可视化结果主要分为两部分，一部分是与现存基线方法的生成结果对比，另一部分是本发明方法的多类别生成图像展示。

现存基线方法的可视化结果对比如图4所示，每列代表的含义依次为：(a)手绘；(b)真实图像；(c)本发明；(d)Pix2pix-Sep；(e)Pix2pix-Mix；(f)EdgeGAN-S；(g)AODA。本发明的可视化结果要优于其他现存方法。使用本发明的方法获得的生成图像，不仅更逼真、更接近真实图像，而且与手绘的形状特征更相似。本方法更多类别生成图像结果展示如图4所示。本方法可以使用单模型实现多类别图像的生成，并忠实于手绘。即本发明提出的方法和模型既可以学习手绘域与图像域之间的跨模态映射，又可以处理图像域内不同类别的域间差异。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于手绘的多类别对象级自然图像生成方法，其特征在于，包括以下步骤，

获取多类别对象级初始手绘以及对应的类别标签；

根据所述初始手绘和所述类别标签，对预先构建的图像生成模型进行训练；训练步骤包括：将所述初始手绘和其对应的类别标签输入至条件编码器中进行编码，得到预测隐空间向量；将所述预测隐空间向量和相同的类别标签输入至预训练生成器模型生成对应类别的自然图像预测结果，根据所述预测结果判断模型收敛情况；训练至模型收敛；

所述条件编码器包括输入层、多个残差块、卷积层、下采样层和线性投影层；所述输入层、多个残差块、卷积层、下采样层和所述线性投影层依次连接；通过所述残差块对所述输入层输入的所述初始手绘和所述类别标签进行归一化；依次通过所述卷积层、所述下采样层和所述线性投影层，输出预测隐空间向量；

所述通过所述残差块对所述输入层输入的所述初始手绘和所述类别标签进行归一化，步骤包括：

获取输入向量和所述类别标签；其中，所述输入向量为所述初始手绘或由前一残差块输出的中间向量；

通过1×1卷积层对所述输入向量进行特征提取得到第二特征向量；

根据第三层线性投影层输出的所述增益参数和所述偏差参数对所述第六特征向量进行批量归一化，并与所述第一采样向量进行相加后，由激活函数进行激活并输出；

所述训练步骤还包括：

将所述自然图像输入至图像-手绘转译网络，输出重建手绘；根据所述初始手绘与所述重建手绘，计算形状损失，约束所述自然图像忠实于所述初始手绘的形状特征；所述图像-手绘转译网络包括，多个上采样残差模块和多个下采样残差模块和1个1×1卷积层；其中，多个所述上采样残差模块和多个所述下采样残差模块以及所述1×1卷积层依次连接；所述预训练生成器模型固定；所述条件编码器根据真实隐空间向量和所述预测隐空间向量采用预设的第一损失函数计算向量重建损失，并进行参数更新；所述图像-手绘转译网络采用预设的第二损失函数计算形状损失，并进行参数更新；使用真实手绘-图像数据集进行调优，即利用该数据集作为训练数据集，使用预设的调优损失函数和所述第二损失函数分别对所述条件编码器E和所述图像-手绘转译网络S的参数进行优化；

所述第一损失函数为：

其中，

所述第二损失函数为：

所述调优损失函数为：

其中，z_GT为隐空间向量，x_GT为训练图像，s为输入手绘，y为类别标签，E为条件编码器，S为图像-手绘转译网络，G为预训练图像生成器，F为预训练特征提取网络，λ_image、λ_z和λ_shape为模型训练时的超参数；

2.根据权利要求1所述的一种基于手绘的多类别对象级自然图像生成方法，其特征在于，所述上采样残差模块的残差网络由一个1×1卷积层和一个平均池化层构成；

所述上采样残差模块的主干网络接由两个3×3卷积层组成；其中，在输入所述3×3卷积层之前，经过激活函数层进行激活；在每个所述3×3卷积层之后接有一个谱归一化层。

3.根据权利要求1所述的一种基于手绘的多类别对象级自然图像生成方法，其特征在于，所述下采样残差模块的残差网络由上采样层和1×1卷积层连接构成；

所述下采样残差模块的主干网络由激活函数层、上采样层、3×3卷积层、批量归一化层、激活函数层、3×3卷积层和批量归一化层依次连接构成。