CN111161200A

CN111161200A - 基于注意力机制的人体姿态迁移方法

Info

Publication number: CN111161200A
Application number: CN201911332748.0A
Authority: CN
Inventors: 李坤; 张劲松; 杨敬钰; 赵宇阳; 刘烨斌; 戴琼海
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-12-22
Filing date: 2019-12-22
Publication date: 2020-05-15

Abstract

本发明属于图像合成领域，为实现姿态引导的图像合成，同时增强生成图像的清晰度以及图像与目标姿态的符合程度。本发明采取的技术方案是，基于注意力机制的人体姿态迁移方法，步骤如下：图像预处理步骤：形成训练数据；姿态指导下的注意力编码；网络搭建与训练：采用生成对抗网络模型，网络模型分为生成器及判别器；将生成图像放入判别器，判别器通过区分真实图像与生成图像来迫使生成器生成更加接近真实的图片；最终利用训练完毕的生成对抗网络完成人体姿态迁移。本发明主要应用于图像处理场合。

Description

基于注意力机制的人体姿态迁移方法

技术领域

本发明属于图像合成领域，尤其是基于注意力机制，针对人体姿态迁移的图像合成技术。具体涉及基于注意力机制的人体姿态迁移方法。

背景技术

人体姿态迁移是生成做出指定姿势的特定人物的图像，该任务可以用于生成行人重识别等任务的数据集，从而将这些任务通过数据驱动的形式进行解决。鉴于其重要性，越来越多的研究者开始关注人体姿态迁移任务。区别于图像合成任务，人体姿态迁移是一种条件式的图像合成任务。通过给定包含人物的图像以及固定的姿态，该任务希望生成该人物做出指定姿态的图像。

现有的人体姿态迁移方法大多采用编解码器结构，在输入图像和目标二维姿态的指导下，利用人体关节的某些关节点进行编码，学习从输入图像到目标二维姿态的转换。主流的人体姿态迁移技术主要包含两种：条件变分自编码器和条件生成对抗网络。条件变分自编码器能够很好地表示出姿态间的变换关系，但这类方法产生的图片往往不够清晰。条件生成对抗网络能够产生较为清晰的图片，但是由于姿态变换导致的像素不对齐问题不能得到很好的解决，导致对较复杂姿态的图像表现较差。

发明内容

为克服现有技术的不足，本发明旨在：

1)针对以往方法难以处理的在姿态迁移时导致的像素不对齐的问题，本发明利用注意力机制对图像生成器的内部进行改造，实现姿态引导的图像合成。

2)为了充分利用图像信息并生成清晰的图片，本发明采用生成对抗网络的架构，同时增强生成图像的清晰度以及图像与目标姿态的符合程度。

本发明采取的技术方案是，基于注意力机制的人体姿态迁移方法，步骤如下：

图像预处理步骤：形成训练数据；

姿态指导下的注意力编码：对于图像特征C^I以及姿态特征C^P,利用自注意力机制，使姿态特征对图像特征进行变换的指导，得到姿态指导下的注意力编码；

网络搭建与训练：采用生成对抗网络模型，网络模型分为生成器及判别器，生成器部分首先进行下采样卷积模块，将图片编码成为高维的图像特征，再进行姿态指导下的注意力编码，通过多次编码完成对图像特征的转换，最后通过上采样卷积模块将图像特征转换为图片；将生成图像放入判别器，判别器通过区分真实图像与生成图像来迫使生成器生成更加接近真实的图片；最终利用训练完毕的生成对抗网络完成人体姿态迁移。

图像预处理具体步骤是：首先使用训练好的关节点检测器HPE提取人物姿态，再将固定人物及对应姿态分为一组，对每组中的图片进行排列组合形成训练数据，对于基准数据集Market-1501，收集263632组训练数据以及12000组测试数据；对于DeepFashion数据集，收集101966组训练数据以及8570组测试数据。

姿态指导下的注意力编码具体步骤如下：首先通过1×1的卷积将姿态特征分别映射成Key和Value，其中Key和Value都代表姿态特征的信息并且一一对应；之后将Key转置后与Value相乘得到注意力图；最后将图像特征与注意力图想成，得到姿态指导下的注意力编码；

得到注意力编码之后，为了更好的整合图像特征和姿态特征，将两者进行拼接，在得到图像特征的反馈之后，姿态特征可以更进一步指导图像特征进行之后的变换。

生成器的输入为条件图像I_c，条件图像对应姿态P_c和目标姿态P_t，输出为生成图像I_g,生成图像后，将生成图像放入判别器；判别器采用双判别器的形式：纹理判别器D_A和形状判别器D_S；纹理判别器D_A输入生成图像I_g和条件图像I_c，用于判别两张图像之间的纹理是否一致，输入为(I_c,I_t)，(I_c,I_g)，分别是条件图像与目标图像或生成图像的二元组；形状判别器D_S输入生成图像和目标姿态，用于判断生成图像是否符合目标姿态，输入为(P_t,I_t)，(P_t,I_g)分别为目标姿态和目标图像或生成图像的二元组。

生成对抗网络模型的损失函数包含三部分：

1)生成对抗网络的损失函数L_CGAN，该损失函数用来约束生成器和判别器之间的关系，使两者更加平衡，对应于两个判别器，该损失函数包含两部分的对抗损失，总的损失函数定义如下：

其中

分别代表人体姿态的分布，真实图像的分布以及生成图像的分布；

2)距离损失L_L1，该损失为生成图像和目标图像像素点之间的距离，通过减小该损失函数，使生成的图像与目标图像更加接近，该损失函数定义如下：

L_L1＝‖I_g-I_t‖₁, (2)

3)感知损失L_percep，感知损失用于减小生成图像与目标图像之间的结构性的差异，并使生成图像更加自然，感知损失定义如下：

其中

表示在ImageNet数据集上预训练的VGG-19网络模型的第

层的输出，

表示

层输出中的第i个特征图。

最终整体的损失函数如公式(4)所示：

L_full＝αL_CGAN+βL_L1+γL_percep, (4)

其中α，β，γ分别代表L_CGAN，L_L1，L_percep三部分的权重。

本发明的特点及有益效果是：

本发明提出了一个基于注意力机制的针对人体姿态迁移的图像合成系统。给定包含人物的图片以及任意的姿态，该系统可以生成该人物做出指定姿态的图片。该系统引入注意力机制，并将注意力机制改造成更适合该任务的姿态指导的注意力机制，解决了姿态迁移过程中导致的图片像素不对齐的问题。同时在Market-1501以及DeepFashion数据集上都取得了最优的结果。

附图说明：

图1基于注意力机制的人体姿态迁移技术的系统框架图。

图2在Market-1501数据集上给定任意姿态生成的结果图。

图3在DeepFashion数据集上给定任意姿态生成的结果图。

图4本系统与目前该任务下其他四种最好算法的定性比较。

具体实施方式

为解决现有技术中的问题，本发明提出了一种更加接近人类思考方式的图像生成方法，基于注意力机制完成姿态对于图像像素的引导合成。以前的方法大多采用人体分割的形式，将人体分成多个部分，对每个部分进行刚体变换，再进一步拼接合成最终结果。这些方法能够较好的处理条件姿态和目标姿态差距较小的情况，但对于差距较大的情况，姿态转换导致的像素不对齐问题便凸显出来。为了解决姿态转换导致的像素不对齐问题，本发明基于注意力机制使姿态特征对图像特征进行指导，将图像特征从初始姿态逐渐变换到指定姿态，逐步解决像素不对齐的问题。同时，通过使用生成对抗网络的框架，使本发明能够生成足够清晰的图片。

本发明提出一种基于注意力机制的人体姿态迁移技术。技术方案使用Market-1501数据集和DeepFashion数据集作为处理对象，整个系统包含三个部分：数据预处理，姿态指导下的注意力编码，网络搭建与训练。为了更好地完成人体姿态迁移的任务，生成符合要求的图片，网络设计和网络训练是两个主要需要解决的问题。具体的技术方案如下：

步骤一，图像数据预处理：

对于两个数据集中的图片，首先使用HPE(Human Pose Estimation，一种训练好的关节点检测器)关节点检测器提取人物姿态，再将固定人物及对应姿态分为一组，对每组中的图片进行排列组合形成训练数据。对于Market-1501数据集数据集(用于行人重识别工作的基准数据集，同时也是人体姿态迁移工作的基准数据集)，我们收集到263632组训练数据以及12000组测试数据；对于DeepFashion数据集(包含80万张图片，包含不同角度，不同场景，买家秀，买家秀等图片)，我们收集到101966组训练数据以及8570组测试数据。

步骤二，姿态指导下的注意力编码：

对于图像特征C^I以及姿态特征C^P,本发明通过改造自注意力机制，使姿态特征对图像特征进行变换的指导。首先通过1×1的卷积将姿态特征分别映射成Key和Value，其中Key和Value都代表姿态特征的信息并且一一对应；之后将Key转置后与Value相乘得到注意力图；最后将图像特征与注意力图想成，得到姿态指导下的注意力编码。

得到注意力编码之后，为了更好的整合图像特征和姿态特征，将两者进行拼接。在得到图像特征的反馈之后，姿态特征可以更进一步指导图像特征进行之后的变换。

步骤三，网络搭建与训练：

本发明采用生成对抗网络的架构，分为生成器及判别器。生成器部分首先进行下采样卷积模块，将图片编码成为高维的图像特征，再使用姿态指导下的注意编码模块，通过多次编码完成对图像特征的转换，最后通过上采样卷积模块将图像特征转换为图片。生成器的输入为条件图像I_c，条件图像对应姿态P_c和目标姿态P_t，输出为生成图像I_g。生成图像后，将生成图像放入判别器，判别器通过区分真实图像I_t,与生成图像I_g来迫使生成器生成更加接近真实的图片。本发明采用双判别器的形式：纹理判别器D_A和形状判别器D_S。纹理判别器D_A输入生成图像I_g和条件图像I_c，用于判别两张图像之间的纹理是否一致，输入为(I_c,I_t)，(I_c,I_g)，分别是条件图像与目标图像或生成图像的二元组；形状判别器D_S输入生成图像和目标姿态，用于判断生成图像是否符合目标姿态，输入为(P_t,I_t)，(P_t,I_g)分别为目标姿态和目标图像或生成图像的二元组。网络模型的损失函数包含三部分：

1.生成对抗网络的损失函数L_CGAN。该损失函数用来约束生成器和判别器之间的关系，使两者更加平衡。对应于两个判别器，该损失函数包含两部分的对抗损失，总的损失函数定义如下：

其中

分别代表人体姿态的分布，真实图像的分布以及生成图像的分布。

2.距离损失L_L1。该损失为生成图像和目标图像像素点之间的距离，通过减小该损失函数，可以是生成的图像与目标图像更加接近。该损失函数定义如下：

L_L1＝‖I_g-I_t‖₁, (2)

3.感知损失L_percep。感知损失用于减小生成图像与目标图像之间的结构性的差异，并使生成图像更加自然。感知损失定义如下：

其中

表示在ImageNet数据集上预训练的VGG-19网络模型的第

层的输出，

表示

层输出中的第i个特征图。

最终整体的损失函数如公式(4)所示：

L_full＝αL_CGAN+βL_L1+γL_percep, (4)

其中α，β，γ分别代表L_CGAN，L_L1，L_percep三部分的权重。

下面结合附图及具体实验对本发明做进一步详细地描述。

图1是本发明所涉及的基于注意力机制的人体姿态迁移技术的系统框架图，主要包含以下步骤：

步骤一，图像数据预处理：

从Market-1501数据集与DeepFashion数据集中的每组图片，通过关节点检测器提取中其中的姿态，通过同一人物不同姿态的两两组合，形成如图1所示的输入输出成对的图像。对于Market-1501数据集，我们收集到263632组训练数据以及12000组测试数据；对于DeepFashion数据集，我们收集到101966组训练数据以及8570组测试数据。

步骤二，姿态指导下的注意力编码：

本系统生成器的结构如图1所示，每个姿态指导下的注意力编码模块如图1中右下角的小图所示。生成器包含两个编码器与一个解码器，两个编码器分别将条件图像I_c，条件图像对应姿态P_c和目标姿态P_t拼接作为输入。两个编码器具有相同的的结构，即下采样的卷积层，解码器为上采样的卷积层。中间通过本发明提出的姿态指导下的注意力编码模块进行图像特征的迁移。每个模块的输入为图像特征和姿态特征。例如，第t个模块的输入为图像特征

和姿态特征

通过模块后输出变换后的图像特征

和姿态特征

在经过最后一个模块后，只需将变换后的图像特征

输入的解码器中，产生最终图像。本发明中所有的实验结果都在T＝6时，即有6个姿态指导的注意力编码模块时测试完成。

步骤三，网络搭建与训练：

搭建的网络包含一个生成器和两个判别器。判别器的结构为普通的卷积神经网络(CNN)。对于纹理判别器，每次的输入为条件图像和目标图像(I_c,I_t)以及条件图像和生成图像(I_c,I_g)，输出为一个分数，作为判断纹理一致性的得分。对于形状判别器，每次的输入为目标图像和目标姿态(I_t,P_t)以及生成图像和目标姿态(I_g,P_t)，输出为一个分数，作为判断姿态一致性的分数。

在训练的过程中，采用Adam优化器进行了大约9万次迭代。学习率最初设为2×10^-4，在6万次迭代后线性衰减指导学习率为0。对于两个数据集，我们都使用了6个姿态指导的注意力编码模块。其中的超参数α，β，γ设置略有不同。Market-1501分别设置为5，10，10；DeepFashion数据集上分别设置为5，1，1。在注意力编码模块采用了超参数为0.5的Dropout用于防止过拟合。

图4列出了本系统与目前该任务上表现最优的四种方法的结果定性的对比。其中PG²，VUnet，Deform，PATN分别为2017年顶级会议NIPS、2018年顶级会议CVPR，2018年顶级会议CVPR以及2019年顶级会议CVPR中的方法。可以看出，本系统可以产生更加清晰的图片，并且对于姿态变换较大的样例，也可以得到很好的处理。同时，本系统生成的图片能够很好的保证条件图像中的纹理信息，并保证了较好的面部信息。

表1列出了本系统与目前该任务上表现最优的四种方法的结果定量的对比。

表1本系统和目前该任务下最好的四种算法的定量比较

表1中SSIM为structural similarity index即结构损失，用于衡量两张图片之间的结构相似度。由于Market-1501数据集中包含各种复杂的背景，我们有采用了蒙版的SSIM即mask-SSIM作为衡量指标；IS为Inception Score即通过预训练的InceptionNet神经网络得出的分数，用于衡量生成网络合成图片的性能。可以看出，我们的结果在针对人体姿态迁移任务的性能表现上为目前最好的系统。

Claims

1.一种基于注意力机制的人体姿态迁移方法，其特征是，步骤如下：

图像预处理步骤：形成训练数据；

2.如权利要求1所述的基于注意力机制的人体姿态迁移方法，其特征是，图像预处理具体步骤是：首先使用训练好的关节点检测器HPE提取人物姿态，再将固定人物及对应姿态分为一组，对每组中的图片进行排列组合形成训练数据，对于基准数据集Market-1501，收集263632组训练数据以及12000组测试数据；对于DeepFashion数据集，收集101966组训练数据以及8570组测试数据。

3.如权利要求1所述的基于注意力机制的人体姿态迁移方法，其特征是，姿态指导下的注意力编码具体步骤如下：首先通过1×1的卷积将姿态特征分别映射成Key和Value，其中Key和Value都代表姿态特征的信息并且一一对应；之后将Key转置后与Value相乘得到注意力图；最后将图像特征与注意力图想成，得到姿态指导下的注意力编码；得到注意力编码之后，为了更好的整合图像特征和姿态特征，将两者进行拼接，在得到图像特征的反馈之后，姿态特征可以更进一步指导图像特征进行之后的变换。

4.如权利要求1所述的基于注意力机制的人体姿态迁移方法，其特征是，生成器的输入为条件图像I_c，条件图像对应姿态P_c和目标姿态P_t，输出为生成图像I_g,生成图像后，将生成图像放入判别器；判别器采用双判别器的形式：纹理判别器D_A和形状判别器D_S；纹理判别器D_A输入生成图像I_g和条件图像I_c，用于判别两张图像之间的纹理是否一致，输入为(I_c,I_t)，(I_c,I_g)，分别是条件图像与目标图像或生成图像的二元组；形状判别器D_S输入生成图像和目标姿态，用于判断生成图像是否符合目标姿态，输入为(P_t,I_t)，(P_t,I_g)分别为目标姿态和目标图像或生成图像的二元组。

5.如权利要求4所述的基于注意力机制的人体姿态迁移方法，其特征是，生成对抗网络模型的损失函数包含三部分：

其中

L_L1＝‖I_g-I_t‖₁, (2)

其中

表示在ImageNet数据集上预训练的VGG-19网络模型的第

层的输出，

表示

层输出中的第i个特征图。

6.如权利要求4所述的基于注意力机制的人体姿态迁移方法，其特征是，最终整体的损失函数如公式(4)所示：

L_full＝αL_CGAN+βL_L1+γL_percep, (4)

其中α，β，γ分别代表L_CGAN，L_L1，L_percep三部分的权重。