CN114240811A

CN114240811A - 一种基于多张图像生成新图像的方法

Info

Publication number: CN114240811A
Application number: CN202111430792.2A
Authority: CN
Inventors: 邵天甲; 周昆
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-25

Abstract

本发明公开一种基于多张图像生成新图像的方法，该方法将多张输入图像分别输入训练后的图像特征提取网络，提取每个输入图像的多尺度特征；将输入图像、输入图像的姿态和目标姿态输入训练后的变换特征提取网络，提取每个输入图像多尺度下的初始变换、遮挡图和注意力图；将目标姿态输入训练后的目标合成网络，所述目标合成网络包括编码器和解码器，且在解码器的不同层级，加入残差模块和融合模块；目标合成网络预测每个输入图像特征在不同尺度下的残差变换来改善匹配目标姿态，然后对变换后的特征进行融合以得到目标特征，最终通过解码器解码目标特征得到生成的目标图像。本发明的方法可以适用于多种类型的图像数据，能够尽可能地保留图像细节。

Description

一种基于多张图像生成新图像的方法

技术领域

本发明涉及图像生成领域，尤其涉及一种基于多张图像生成新图像的方法。

背景技术

图像生成技术在多种场合下有广泛的应用。如基于姿态的人体图像生成、基于表情的人脸图像合成和基于视角的新视角合成等。这类图像生成工作大致可以分为基于单张和基于多张输入的方法。基于单张图像的方法普遍存在的问题是：对于被遮挡和不可见的区域，无法生成真实的图像，如早期的人体图像生成工作(Ma,Liqian,et al."Pose guidedperson image generation."arXiv preprint arXiv:1705.09368(2017).)和新视角合成工作(Zhou,Tinghui,et al."View synthesis by appearance flow."Europeanconference on computer vision.Springer,Cham,2016.)。基于多张输入的方法可以有效地补充缺失信息，但是带来新的挑战。基于神经网络直接生成图像的方法通过学习大量数据，将输入图像编码后，取平均，直接交给神经网络预测输出图像(Zakharov,Egor,et al."Few-shot adversarial learning of realistic neural talking head models."Proceedings of the IEEE/CVF International Conference on ComputerVision.2019.)，此类方法虽然能够生成结构正确的结果，但是无法保持原有细节，需要依赖测试时微调来补充细节。(Lathuilière,Stéphane,et al."Attention-based fusionfor multi-source human image generation."Proceedings of the IEEE/CVF WinterConference on Applications of Computer Vision.2020.)采用仿射变换对人体图像进行变换，但是无法处理图像中的大幅度非刚性变换，例如衣服等。另有一些方法针对特定对象学习一个网络(Liu,Lingjie,et al."Neural rendering and reenactment of humanactor videos."ACM Transactions on Graphics(TOG)38.5(2019):1-14.)(Wang,Ting-Chun,et al."Video-to-video synthesis."arXiv preprint arXiv:1808.06601(2018).)

发明内容

针对现有技术的不足，本发明提供一种基于多张图像生成新图像的方法，该方法利用神经网络获得源到目标的大致变换后，通过解码器中的级联残差模块和融合模块，减少不同源之间的错位问题，同时相当程度地保留了原图中的细节。本发明是对单张输入的图像生成方法的重要补充，能够提高图像生成的鲁棒性。

本发明的目的通过如下的技术方案来实现：

一种基于多张图像生成新图像的方法，该方法包括以下步骤：

(1)将多张输入图像分别输入训练后的图像特征提取网络，提取每个输入图像的多尺度特征；将输入图像、输入图像的姿态和目标姿态输入训练后的变换特征提取网络，提取每个输入图像多尺度下的初始变换、遮挡图和注意力图，所述变换具体指的是每个像素由原图像变换到目标图像的位移量；

(2)将目标姿态输入训练后的目标合成网络，所述目标合成网络包括编码器和解码器，且在解码器的不同层级，加入残差模块和融合模块；所述目标姿态经过编码器后得到第一层级的目标特征，由第一层级的残差模块结合第一层级的来自变换特征提取网络的初始变换和图像特征提取网络的输入图像的特征，得到第一层级的残差变换；把来自变换特征提取网络的初始变换和残差变换相加，以得到优化后的变换；第一层级的融合模块根据所述优化后的变换，将图像特征提取网络提取的每张输入图像的特征都变换到目标姿态后，然后根据变换特征提取网络的遮挡图对每个输入图像的特征进行补全，再根据变换特征提取网络的注意力图对补全后的不同输入图像的特征进行加权融合，得到第一层级融合后的目标特征，输出给第一层级的解码器进行解码，得到下一层级的输入目标特征；在不同的层级重复上述操作，最终得到目标图像。

进一步地，所述图像特征提取网络和变换特征提取网络以及目标合成网络均为卷积神经网络。

进一步地，对训练图像特征提取网络、变换特征提取网络和目标合成网络进行训练时，首先采用训练数据集训练变换特征提取网络，使得经过初始变换后的输入图像特征和目标图像特征之间的距离最小，得到预训练后的变换特征提取网络；再采用训练数据集同时训练图像特征提取网络、预训练后的变换特征提取网络和目标合成网络，使得生成图像和目标图像之间的距离最小。

本发明的有益效果如下：

用户只需要输入多张同一人物/物体/场景的多张图像和目标姿态信息(人体姿态/人脸标记/视角等)，本发明的方法可以自动合成目标姿态下的图像。本发明通过输入多张图像合成新图像，弥补了输入单张图像中数据不足的弊端。同时，通过解码器中的级联残差模块和融合模块，将多张输入图像的特征相结合，可以得到高质量的生成图像。

附图说明

图1是本发明的算法流程图；上方左侧为图像特征提取网络；上方右侧为变换特征提取网络；下方为目标合成网络；虚线框中标出了各个字母代表的含义。

图2为本发明提出的残差融合模块的细节图；虚线框中标出了运算符的含义以及各个字母代表的含义。

图3为本发明在人脸Voxceleb2图像数据集上的生成结果；从左到右为：第1～7个图为输入图像，第8个为目标姿态，第9个为输入第1～2个图的生成结果，第10个为输入第1～4个图的生成结果，第11个为采用本发明的方法输入第1～7个图的生成结果，第12个为实际目标图像。

图4为本发明在ShapeNet椅子数据集上的生成结果；从左到右为：第1～4个图为输入图像，第5个为采用本发明的方法生成的结果，第6个为实际目标图像。

图5为本发明在人体DeepFashion图像数据集上的生成结果；从左到右为：第1～2个图为输入图像，第3个为目标姿态，第4个为采用本发明的方法生成的结果，第5个为实际目标图像。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的基于多张图像生成新图像的方法，适用于输入为同一类别且同一对象的多张不同姿态的图像，以及目标姿态，以生成目标姿态下的目标图像。本发明适用场景广泛，可用于多种类型的数据和姿态，例如：输入人体图像，对应姿态为2D人体关键点的热度图；输入人脸图像，对应姿态为2D人脸表情关键点的光栅化图像；输入场景图像，对应姿态为6D相机位姿；输入物体形状图像，对应姿态为观察角度。

本发明的方法的核心流程为：

首先利用图像特征提取网络和变换特征提取网络获得每个输入图像到目标图像的初始变换，再通过目标合成网络的解码器中的残差模块，得到残差的变换，将残差变换与初始变换相加，在融合模块中，用得到的优化后的变换去变换每个输入图像特征，以减少不同输入之间的错位问题，然后根据变换特征提取网络的遮挡图对每个输入图像的特征进行补全，同时基于注意力图，从不同分支的输入图像特征中拿到最有关联性的特征进行加权融合，得到高质量的结果。

本发明包括如下步骤：

1.基于特征提取网络的特征提取：将多张输入图像分别输入训练后的图像特征提取网络，提取每个输入图像的多尺度特征；将输入图像、输入图像的姿态和目标姿态输入训练后的变换特征提取网络，提取每个输入图像多尺度下的初始变换(flow)、遮挡图(occlusion)和注意力图(attention)；初始变换负责将输入图像特征大致变换到目标姿态，遮挡图编码了可见和不可见区域，注意力图从不同的输入源中选取更重要的输入。

1.1构建图像特征提取网络、变换特征提取网络、目标姿态提取网络

图像特征提取网络E为卷积神经网络，其输入为输入图像，提取多尺度输入图像特征

变换特征提取网络F也为卷积神经网络，其输入为输入图像

输入姿态表示

和目标姿态表示P_t，将三者在通道上连接，输入给特征提取网络F，获得第k张输入图像到目标的初始变换w^k、注意力图a^k和遮挡图m^k：

这里的w^k,a^k,m^k均为多尺度的，即w^k＝{w^k,i}，i表示第i个尺度。其中，w^k为两通道，存储了每个像素的位移，a^k,m^k为单通道，分别存储了取值范围为[0,1]的置信度值。

其中，变换特征提取网络F需要进行预训练，由于没有基准的变换进行有监督学习，这里基于采样正确性损失L_cor(Ren,Yurui,et al."Structureflow:Image inpaintingvia structure-aware appearance flow."Proceedings of the IEEE/CVFInternational Conference on Computer Vision.2019.)来训练网络F，使得w^k采样获得的图像特征与目标图像特征的余弦相似度最大，从而约束w^k接近正确的变换。同时，采用正则损失L_reg(Ren,Yurui,et al."Deep image spatial transformation for person imagegeneration."Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2020.)，惩罚w^k中的局部非仿射变换，减少局部高频抖动，使得w^k更平滑。

变换特征提取网络进行预训练后，再采用训练数据集同时训练图像特征提取网络、预训练后的变换特征提取网络和目标合成网络，使得生成图像和目标图像之间的距离最小。

2.目标图像生成

目标合成网络包括编码器和解码器，且在解码器的不同层级，加入残差模块和融合模块。目标姿态经过编码器后得到第一层级的目标特征，结合第一层级的来自变换特征提取网络初始变换和图像特征提取网络的输入图像的特征，得到第一层级的残差模块的残差变换，结合来自变换特征提取网络初始变换和残差变换得到优化后的变换；第一层级的融合模块根据所述优化后的变换，将图像特征提取网络提取的每张输入图像的特征都变换到目标姿态后，然后根据变换特征提取网络的遮挡图对每个每张输入图像的特征进行补全，再根据变换特征提取网络的注意力图对补全后的不同输入图像的特征进行加权融合，得到第一层级融合后的目标特征，输出给第一层级的解码器进行解码，得到下一层级的输入目标特征；在不同的层级重复上述操作，最终得到目标图像。

2.1目标姿态编码

对于目标姿态编码器T，其输入为目标姿态，输出为第一层级的目标特征f_t ⁰＝T(P_t)。

2.2残差预测

本发明的残差预测为多尺度的，不同尺度的操作相同，以尺度i下的残差预测为例：

(1)基于变换特征提取网络F得到的初始变换w^k,i，对图像特征

进行变换，W表示可微分的双线性采样：

(2)基于初始变换后的特征

和目标特征f_t ⁱ，通过残差估计网络Rⁱ估计残差变换：

(3)通过将残差变换r^k,i与原变换w^k,i相加，以提升从源到目标变换的准确性，提升不同源变换之后的对齐度：

2.3.融合特征

本发明的特征融合为多尺度的，不同尺度的操作相同，以尺度i下的特征融合为例

经过步骤2.1的残差变换预测，所有的输入特征都变换到了目标姿态下。为了得到最终的单一目标特征，根据遮挡图对每个输入特征与当前层的目标特征f_t ⁱ加权进行修补，同时根据注意力图对不同输入特征进行加权求和，输出给第i层的解码器进行解码，得到下一层级的输入目标特征f_t ⁱ⁺¹。

这里⊙表示逐像素相乘，Dⁱ是解码器的第i层，f_t ⁱ是第i层的目标特征。a^k,i为注意力图，并由softmax函数归一化，有

2.4.输出目标图像

由步骤2.1可知，f_t ⁰由目标姿态编码器T得到，f_t ⁰＝T(p_t)；又由2.3可知，解码器中第i+1层的目标特征f_t ⁱ⁺¹由第i层的源特征和目标特征共同得到。因此这是一个逐级迭代的生成过程。解码器的最后一层经过卷积层和Tanh激活层，生成图像

本发明的图像特征提取网络、变换特征提取网络和目标合成网络进行训练时，损失函数如下：

(1)L₁损失：生成图像

和目标图像I_t的L₁距离，

(2)L_per视觉损失：生成图像

和目标图像I_t的VGG19特定层的特征之间的L₁距离，

(3)L_sty风格损失：生成图像

和目标图像I_t的VGG19特定层的特征之间，格拉姆矩阵的L₁距离，

(4)L_adv对抗损失：

最终损失函数由以上四项损失函数以及1.1中提到的两项损失函数加权获得。训练时，使用Adam优化器，使得最终损失函数最小化。网络的学习率为0.0001。

实施实例

在一台配备Intel I5-4430中央处理器，Nvidia GeForce GTX 1080Ti显卡以及16GB内存的台式计算机上，使用PyTorch编程语言实现了本发明的实施实例。该实施例使用香港中文大学多媒体实验室的DeepFashion公共数据集，姿态表示为人体2D关键点的热度图，得到图5的结果；使用Voxceleb2数据集，姿态表示为人脸2D关键点的光栅化图像，得到图3的结果；使用ShapeNet椅子数据集，姿态表示为观察角度，得到图4的结果，以及在城市街景KITTI数据集和清华大学标注的Market-1501行人识别公共数据集上进行了实验。通过上述实验表明，本发明能够有效地支持多种数据，且生成的结果能够将输入图像的特征和细节经过合理的变换迁移到目标姿态，同时，本发明有效提取多张输入图像的信息，克服了单张输入的歧义问题，最终生成的图像真实、自然。

本发明建模了一个统一的框架，在多种类型的数据上进行了实验，如人脸表情，人体姿态，视角等。大量的实验表明，本发明的方法可以在不同类型的图像数据(人脸图像、人体图像、城市场景)取得良好的效果，保持输入图像的特征并尽可能的保留细节。

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims

1.一种基于多张图像生成新图像的方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于多张图像生成新图像的方法，其特征在于，所述图像特征提取网络和变换特征提取网络以及目标合成网络均为卷积神经网络。

3.根据权利要求1所述的基于多张图像生成新图像的方法，其特征在于，对训练图像特征提取网络、变换特征提取网络和目标合成网络进行训练时，首先采用训练数据集训练变换特征提取网络，使得经过初始变换后的输入图像特征和目标图像特征之间的距离最小，得到预训练后的变换特征提取网络；再采用训练数据集同时训练图像特征提取网络、预训练后的变换特征提取网络和目标合成网络，使得生成图像和目标图像之间的距离最小。