CN113538608A

CN113538608A - 基于生成对抗网络的可控人物图像生成方法

Info

Publication number: CN113538608A
Application number: CN202110096181.2A
Authority: CN
Inventors: 沈世龙; 吴爱国; 徐勇
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-10-22
Anticipated expiration: 2041-01-25
Also published as: CN113538608B

Abstract

本发明提供了一种基于生成对抗网络的可控人物图像生成方法，包括：1、基于关键点的目标姿态图的指导下生成目标语义图；2、基于人体语义分割方法，将原图像的各个属性进行分离，通过一个共享的编码器将其映射到特征空间并将各个属性的特征图进行有序叠加得到总的纹理特征图；3、将目标语义图的目标姿态表示编码到共享的深度特征空间后，利用建立目标姿态与原图像之间的密集对应关系将原图像特征进行形变操作；4、利用目标姿态和形变的原图像特征作为解码器的输入，生成最终的图像。本发明通过建立目标姿态和原图像之间的密集对应关系，将姿态引导下的人物图像生成和服装引导下的人物图像生成有效的结合，实现了高质量可控人物图像生成。

Description

基于生成对抗网络的可控人物图像生成方法

技术领域

本发明涉及计算机视觉和图像处理技术领域，特别涉及一种基于生成对抗网络的可控人物图像生成方法。

背景技术

人物图像生成在电影制作、虚拟现实技术以及数据增强方面都有着重要的应用，但其同时也是计算机视觉和图像处理领域的难点问题之一，这其中，姿态引导下的人物图像生成和服装引导下的人物图像生成是这一话题中的两个重要任务。但人体非刚性的本质以及人物属性之间内在的错综复杂的关系，所以人物图像生成具有一定的挑战性。

对于姿态引导下的人物图像生成任务，其目标是在保留原人物外观的同时将姿态转换为目标姿态。现有的姿态引导下的人物图像生成方法主要分为两大类：一类是直接法，例如文章《Pose Guided Person Image Generation》(Liqian Ma等，2017年，为便于下文论述，下文简称为PG2，下同)，另一类是形变法，例如文章《Deformable GANs for Pose-basedHuman Image Generation》(Aliaksandr Siarohin等，2017年；简称为DefGAN)以及文章《Progressive Pose Attention Transfer for Person Image Generation》(Zhu,Zhen等，2019-06-01，2019IEEE/CVF Conference on Computer Vision and PatternRecognition；简称为PATN)。

直接法是直接以目标姿态表示、原姿态表示以及原图像作为卷积神经网络的输入来生成图像。由于卷积神经网络以参数共享的形式计算输出，这导致其具有一个重要的特性，称为平移等变性，这意味着当输入在空间上发生变化时，输出也会发生相应的变化。然而，在该任务中原图像和目标图像之间由于姿态变化导致了两者在空间结构上的形变，所以使用采用普通卷积神经网络的直接法通常会生成比较模糊且不真实的图像。形变法则考虑了原图像和目标图像在空间上的形变问题，例如基于仿射变化，光流法或注意力机制，因此形变法生成的图像质量较高。但无论是直接法还是形变法都只是实现了姿态引导下的人物图像生成，并没有考虑服装引导下的人物图像生成。

除此之外，一些方法尝试将姿态引导的人物图像生成与服装引导下的人物图像生成相结合，例如文章《Controllable Person Image Synthesis with Attribute-Decomposed GAN》(Men,Yifang等，2020年；简称为ADGAN)。然而这些方法只是简单的使用两个独立的编码器将姿态信息和服装信息进行编码，再在隐藏空间中将姿态编码和服装编码进行叠加作为解码器的输入来生成图像，并没有考虑姿态和服装之间复杂的关系，导致生成的图像不够真实。

此外，文章《基于生成对抗网络的文本引导人物图像编辑方法》(黄韬等，2020-10-16，广东技术师范大学学报，以下简称“文献1”)采用了特定文本信息和原图像作为网络输入，并结合了目标图像掩码进行姿态约束，实现人物图像服装属性编辑。然而这种姿态约束的精度较低，并且文本提供的信息是有限的，例如服装可能具有较复杂的纹理信息，而采用文本难以将其详尽的描述，因此生成图像的质量并不高。另外，专利公开号：CN110021051A(一种基于生成对抗网络通过文本指导的人物图像生成方法，以下简称“文献2”)也采用了特定文本信息和原图像作为网络输入，并结合了基于关键点的目标姿态进行姿态约束，实现人物图像服装属性编辑。但这种姿态约束精度同样较低，并且其没有考虑原图像和目标图像间的形变问题，导致生成的图像比较模糊。

综上，现有的人物图像生成方法所生成的图像质量都有待于提高。

发明内容

针对上述现有技术的不足，本发明提供了一种基于生成对抗网络的可控人物图像生成方法，其通过建立目标姿态和原图像之间的密集对应关系，将姿态引导下的人物图像生成和服装引导下的人物图像生成有效的结合，实现了高质量可控人物图像生成。

为实现上述目的，本发明采用的技术方案如下：

基于生成对抗网络的可控人物图像生成方法，包括以下步骤：

(1)收集图像对：原图像和目标图像(I_s,I_t)，其为具有相同外观但不同姿态的同一个人的图像；

(2)根据图像对估计出基于关键点的原图像姿态和目标姿态表示：(P_s,P_t)，并估计出原图像语义图和目标语义图表示：(S_s,S_t)；

(3)将部分原图像语义图S_s的通道修改为8通道，得到修改后的原图像语义图M_s；

(4)利用原图像语义图M_s、原图像I_s和目标姿态P_t生成估计目标语义图

其中，G_parsing代表目标语义生成网络；

(5)利用目标语义图S_t、目标姿态P_t得到姿态编码f_p；并利用原图像I_s和原图像语义图M_s得到纹理编码f_s；

(6)根据得到的姿态编码f_p和纹理编码计算密集对应矩阵C，并在密集对应矩阵C的引导下得到形变后的纹理特征f_s→t；

(7)将形变后的纹理特征f_s→t和姿态编码f_p解码得到生成图像I_g；

网络对抗训练过程如下：

(a)将训练集中的图像分为原图像和目标图像，根据原图像和目标图像分别获取基于关键点的姿态表示和语义图；

(b)对训练数据进行数据增强，并对增强后的数据进行归一化处理；

(c)训练开始时首先初始化网络中各层卷积层的参数，之后将批度大小的训练数据作为网络的输入；

(d)将步骤(7)获得的生成图像与目标图像一起送入判别器，作为判别器的训练数据进行处理；

(e)将判别器的输出结果用于计算判别器对抗损失函数与生成器的对抗损失函数以及特征损失函数，同时根据生成图像与真实图像计算生成器的感知损失函数与重构损失函数，并进行迭代优化；

(f)达到最大训练迭代次数后，保存模型，完成整个训练过程。

进一步地，所述步骤(3)中，将通道数为20的原图像语义图S_s的通道修改为8通道。

具体地，所述步骤(5)包括以下步骤：

(5a)使用原图像语义图M_s的第i个通道M_s ⁱ与原图像I_s进行元素相乘，得到解耦人物属性I_s ⁱ；

(5b)将解耦人物属性I_s ⁱ送入预训练VGG-19引导的纹理编码器T_enc,得到纹理编码f_s ⁱ＝T_enc(I_s ⁱ),i＝0,...,8；

(5c)将各属性纹理编码按通道方向进行叠加得到完整的纹理编码f_s。

具体地，所述步骤(6)中，对姿态编码f_p和纹理编码f_s各自的维度进行重构：

然后沿通道计算两个编码的均值μ(f_p),μ(f_s)；其中，h,w表示特征图的尺寸，c表示特征图的通道数；

最后，采用如下公式计算密集对应矩阵C：

式中，T表示矩阵转置操作；密集对应矩阵C的第i行第j列的元素C(i,j)度量了姿态编码f_p中第i行元素和纹理编码f_s中第j列元素的相似性。

具体地，所述步骤(6)中，形变后的纹理特征f_s→t的计算公式如下：

f_s→t＝∑_jsoftmax(C(i,j)f_s(j))。

再进一步地，所述步骤(b)中，采用随机翻转和随机裁剪的方法对训练数据进行数据增强。

更进一步地，在网络的每一层中添加谱归一化，并将生成器的初始学习率为0.0002，判别器的初始学习率为0.0003。

具体地，所述特征损失函数的计算公式为：

其中，D_i表示判别器中的第(i+1)层特征提取器，i＝0,1,2，a_i表示每一层特征损失函数的权重，a₀＝a₁＝a₂＝1。

作为优选，所述步骤(c)中，采用Kaiming初始化方法初始化网络中各层卷积层的参数。

作为优选，所述步骤(e)中，使用Adam优化器迭代优化网络参数。

与现有技术相比，本发明具有以下有益效果：

(1)本发明基于姿态引导下的目标语义图生成，能够在图像生成过程中提供有效的结构约束，从而提高图像的质量；同时，生成器通过有效建立目标姿态与原图像间的密集语义对应关系，可以解决原图像和目标姿态间的变形问题，实现姿态引导下的人物图像生成任务和服装引导下的人物图像生成任务有效的结合，避免生成的图像模糊。对于姿态引导下的人物图像生成，本发明能够实现任意姿态变化，即给定一张原图像以及基于关键点的姿态表示，就能在保留原图像纹理特征的同时将姿态转换为目标姿态，如图1所示。并且试验表明，本发明得到的图像无论是在整体的结构上还是在纹理细节上都比现有方法更加真实、自然，尤其是在面部身份以及头发纹理方面。

(2)本发明还能够实现服装引导下的人物图像生成，即给定一张原图像，以及具有目标服装属性的条件图像，就能将原图像的服装转换为目标服装。并且相比采用文本引导人物图像编辑(文献1、2)的方式，本发明直接使用具有目标服装属性的图像来提取目标服装属性，能够提供更加丰富的信息，为生成高质量的图像提供了良好的基础。经试验对比，本发明生成图像的分辨率为176×256，文献1中生成的图像的分辨率为128×128；并且本发明的IS分数和FID分数分别为3.538和11.385，而文献1中的IS分数和FID分数分别为3.73和26.59。这说明，本发明在生成图像难度更大的情况下(生成图像的分辨率更大)，取得了更低的FID分数(FID分数越低表示生成图像质量越好)。

(3)本发明中，判别器训练时，添加了特征损失函数进行约束，具体是将生成图像和真实图像作为判别器输入，并在判别器的每一层中最小化生成图像特征和真实图像特征间的L₁范数损失函数(即最小绝对值偏差LAD)，如此可以稳定对抗训练的过程，保证训练的有效性。

(4)发明设计合理，逻辑清晰、明了，各环节环环相扣、相辅相成，通过新颖的网络结构及生成器和判别器对抗学习的方式实现了高质量的姿态引导下的人物图像生成和服装引导下的人物图像生成，具有很高的实用价值和推广价值。

附图说明

图1为本发明的任意姿态变换实验结果图。

图2为本发明-实施例中姿态引导下的目标语义生成网络结构图。

图3为本发明-实施例中生成器网络结构图。

图4为本发明-实施例中判别器网络结构图。

图5为本发明-实施例的流程示意图。

图6为本发明-实施例的属性解耦编码器网络结构图。

图7为本发明-实施例的网络训练流程图。

图8为本发明中服装引导下的人物图像生成实验结果图。

具体实施方式

下面结合附图说明和实施例对本发明作进一步说明，本发明的实施包含但不限于以下实施例。

实施例

本实施例的网络由三个部分组成：姿态引导下的目标语义图生成、生成器以及判别器，其中姿态引导下的目标语义图生成能够在基于关键点的目标姿态表示下生成目标语义图，从而在图像生成过程中提供有效的结构限制，使得生成图像具有更加精细的纹理。姿态引导下的目标语义图生成、生成器、判别器的网络结构如图2、3、4所示。

下面阐述本实施例的实现流程。

如图5所示，首先，收集图像对，即：原图像I_s和目标图像I_t，代表具有相同外观但不同姿态的同一个人的图像。

接着，对收集到的每一个图像对，采用现有的人体姿态估计器估计出基于关键点的原图像姿态P_s和目标姿态P_t；同时，采用现有的人体语义分析器估计出原图像语义图S_s和目标语义图S_t，并将通道数为20的原图像语义图S_s的通道修改为8通道，得到修改后的原图像语义图M_s。

将原图像语义图M_s，原图像I_s和目标姿态P_t作为目标语义生成网络G_parsing的输入，生成估计目标语义图

再接着，将目标语义图S_t，目标姿态P_t作为姿态编码器的输入，得到姿态编码f_p，然后将原图像I_s和原图像语义图M_s作为属性解耦编码器的输入，得到纹理编码f_s；具体为：首先使用原图像语义图M_s的第i个通道M_s ⁱ与原图像I_s进行元素相乘，得到解耦人物属性I_s ⁱ；然后将解耦人物属性I_s ⁱ送入预训练VGG-19引导的纹理编码器T_enc,得到纹理编码f_s ⁱ＝T_enc(I_s ⁱ),i＝0,...,8；最后将各属性纹理编码按通道方向进行叠加得到完整的纹理编码f_s。属性解耦编码器的网络结构如图6所示。这里需要注意的是，在网络训练阶段，由于采用的是有监督训练方式，目标语义图S_t是已知的，所以在训练时采用S_t。而在网络测试阶段，由于目标语义图S_t未知，所以在测试阶段采用的是估计的目标语义图

而后，根据姿态编码f_s和纹理编码f_s计算密集对应矩阵C，并在密集对应矩阵C的引导下得到形变后的纹理特征f_s→t。

最后，将形变后的纹理特征f_s→t和姿态编码f_p作为解码器的输入，解码器最终输出的结果即为生成图像I_g。

下面阐述本实施例中生成器与判别器的对抗训练过程，如图7所示：

(1)获取训练集，将训练集中的图像分为原图像和目标图像，根据原图像和目标图像分别获取基于关键点的姿态表示以及语义图；

(2)数据预处理，使用随机翻转和随机裁剪的方法对训练数据进行数据增强，并对增强后的数据进行归一化处理；

(3)训练开始时首先采用Kaiming初始化方法初始化网络中各层卷积层的参数，之后将批度大小的训练数据作为网络的输入；

(4)将上述得到的生成图像与目标图像一起送入判别器，作为判别器的训练数据进行处理；

(5)将判别器对生成图像和真实图像的输出结果用于计算判别器对抗损失函数

与生成器的对抗损失函数

以及特征损失函数L_fea，同时根据生成图像与真实图像计算生成器的感知损失函数L_per与重构损失函数L_rec，总的损失函数为L_total：

L_total＝λ_advL_adv+λ_feaL_fea+λ_perL_per+λ_recL_rec (3)

其中λ_adv，λ_fea，λ_per，λ_rec分别表示对应损失函数的权重，在本实施例中取λ_adv＝0.5，λ_fea＝1，λ_per＝2,λ_rec＝2；对抗损失函数是使得生成图像的分布和真实图像的分布一致，其被定义为：

特征损失函数被定义为：

其中，D_i表示判别器中的第(i+1)层特征提取器，i＝0,1,2(判别器D由多层下采样卷积网络构成，本实施例采用从0开始编号的方式，第一个卷积层(特征提取器)为D₀，第二个卷积层为D₁，第三个卷积层为D₂)，α_i表示每一层特征损失函数的权重，在本实施例中，α₀＝α₁＝α₂＝1；

感知损失函数被定义为：

L_per＝||φ_l(I_g)-φ_l(I_t)||₁ (6)

其中，φ_l表示预训练VGG19网络中的第l层，在本实施例中取l为relu_42层；重构损失函数被定义为：

L_rec＝||I_g-I_t||₁ (7)

用于在像素级别来惩罚生成图像和真实图像之间的差异；使用Adam优化器优化网络参数；

(6)达到最大训练迭代次数后，保存模型，完成整个训练过程。

验证：

1、将基于发明生成的图像与现有方法进行定量比较，比较结果如表1所示，涉及的评价指标包括了IS、SSIM以及FID，这些均为评价生成图像常用的指标，其中，IS分数和SSIM分数越大表示图像质量越好，FID分数越小表示图像质量越好。

表1

从表1可以得知，本发明的结果相比于最好的基准方法将IS分数从0.771提升到了0.814,将SSIM分数从3.439提升到了3.538，将FID分数从13.009降低到了11.385。

定量实验结果证明了本发明的有效性。

2、除此之外，本发明还能够实现服装引导下的人物图像生成，即给定一张原图像，以及具有目标服装属性的条件图像，本发明能够将原图像的服装转换为目标服装。服装引导下的人物图像生成结果如图8所示，其中，第一行为具有目标服装的条件图像，第二行为生成图像，其中前三列为将原图像的上衣转换为条件图像中的上衣纹理，后三列为将原图像中的裤子转换为条件图像中的裤子纹理。

上述实施例仅为本发明的优选实施方式之一，不应当用于限制本发明的保护范围，凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色，其所解决的技术问题仍然与本发明一致的，均应当包含在本发明的保护范围之内。