CN108564119A

CN108564119A - 一种任意姿态行人图片生成方法

Info

Publication number: CN108564119A
Application number: CN201810295994.2A
Authority: CN
Inventors: 白翔; 朱臻; 黄腾腾; 石葆光; 周漾; 高宇哲
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2018-09-21
Anticipated expiration: 2038-04-04
Also published as: CN108564119B

Abstract

本发明公开了一种基于生成对抗网络的任意姿态行人图片生成方法，仅通过将人物图片、图中行人的姿态以及目标迁移姿态的热力图输入生成器网络，即可得到前一位目标姿态的相同人物的图片。由于该方法的生成器中引入了姿态注意力机制，且采用了两个不同的判别器分别进行外貌一致性和姿态一致性的判别，使其能够应对图像变形、几何变换、视角转移等多种复杂情况。并且可以端到端训练。本发明提出的任意姿态的人物图片生成方法在现有技术思路的基础上进行了创新，采用新颖的结构进行网络模型搭建，相较于之前的方法，所合成的图片更加真实、自然，有很强的实际应用价值。

Description

一种任意姿态行人图片生成方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种任意姿态行人图片生成方法。

背景技术

在计算机视觉领域中，可以生成看上去更为现实、自然的图片的算法变得越来越受欢迎，这得益于现实生活中对于高质量合成图像的需求变得越来越高。而人物姿态迁移又是一个在该领域中非常活跃的主题。基于人物的姿态迁移的任意姿态行人图片的生成方法具有很多有价值的应用，例如，将不同姿态的行人图片作为视频的某一帧，以此使用同一个人物的姿态图片序列来合成视频。又如，将任意姿态的人物图片生成方法作为数据扩增的一种手段，该手段在进行人物二次识别等任务中尤为有用。

随着深度神经网络在计算机视觉中的广泛应用，近几年来，各种新颖的生成式网络结构，例如变分自编码网络和生成对抗网络在图像生成领域都取得了一定的成就。然而，生成高质量的任意姿态的行人图片是一个具有挑战性的任务：由于自然场景下的行人图片往往存在着姿态变形、几何变换以及观察视角的不确定性等因素的影响，使用以前的这些网络结构往往不能达到理想的效果。

发明内容

本发明的目的在于提供一种任意姿态行人图片生成方法，该图片生成方法使用姿态注意力迁移网络进行编码，再将图像特征编码送入解码器进行姿态迁移行人图片的生成，生成的行人图像平滑、自然，具有很高的质量。

为实现上述目的，本发明在原有理论基础上进行创新，搭建一种全新的网络结构来解决行人图片的姿态迁移问题，提供了一种任意姿态行人图片生成方法，包括下述步骤：

(1)训练任意姿态行人图片生成网络模型，包括如下子步骤：

(1.1)对原始姿态行人图片数据集中所有行人的姿态进行评估，得到每个原始姿态行人图片对应的姿态热力图谱，由原始姿态行人图片以及原始姿态行人图片对应的姿态热力图谱构成标准训练数据集；

(1.2)定义任意姿态行人图片生成方法网络模型，网络模型由生成器和判别器组成；其中：

(1.2.1)生成器有两个组成部分：编码器和解码器。

编码器的组成具体描述如下：

编码器由N层(我们的方法中取N＝2)卷积神经网络和姿态注意力迁移网络(Pose-Attentional Transfer Network，简称PAT网络)组成，而姿态注意力迁移网络则由完全相同的T个(T＝9)姿态注意力迁移模块(PAT模块)连接成的序列组成。首先的N层卷积神经网络用于将图片数据P_c和姿态数据(S_c，S_t)预处理为各自的特征图和之后的T个姿态注意力迁移模块引入姿态注意力机制，每一个姿态注意力迁移模块中都有两个由conv1-BN-ReLU-conv2-BN组成的小型神经网络conv_s，用于分别处理图像特征和姿态特征。另外，在处理姿态特征的流水线上，由于sigmoid函数将输入的值压缩在(0,1)这个范围内，而(0,1)之间的值正好可以表征权重系数，于是我们采用sigmoid函数用于将姿态特征转化为相应的权重W_t。该权重用于增强或抑制图像特征中的特定部分。

解码器的组成部分具体描述如下：

解码器由N层反卷积网络组成，用于完成对图像特征编码的上采样，生成特定姿态图片。

(1.2.2)判别器的组成部分具体描述如下：

判别器由两个部分组成：外貌一致性判别器和姿态一致性判别器，分别用于处理图像特征和姿态特征。两个判别器采用相同的网络结构：在下采样的2层卷积网络之后，后接3个残差模块，并不采用所有的dropout模块，将ReLu激活函数换成负数区域激活值值为0.2的LeakyReLu，最后后接softmax层，用于将得到的特征图谱转换为一致性得分。

(1.3)将标准训练数据集中的原始姿态行人图片以及原始姿态行人图片对应的姿态热力图谱输入生成器来生成姿态迁移行人图片，然后将生成的姿态迁移行人图片和标准训练数据集中的目标姿态行人图片分别作为“假图片”和“真图片”输入至多重判别器中，得到对应的一致性得分；设计相应的损失函数，通过对抗训练分别训练生成器和判别器，得到任意姿态行人图片生成网络模型；

输入网络的数据包含：目标姿态行人图片P_t、给定原始姿态行人图片P_c、给定行人图片姿态图谱S_c以及目标姿态图谱S_t，由这些输入数据生成姿态迁移行人图片P_g。

(1.3.1)生成器由两部分组成：编码器和解码器，主要的步骤为：将数据输入至编码器，得到图像特征编码和姿态特征编码，之后将图像特征编码输入解码器，得到最后生成的姿态迁移行人图片P_g。

编码器由N层卷积层网络和姿态注意力迁移网络组成，用于得到图像特征编码和姿态特征编码；将原始姿态行人图片P_c作为生成器的输入，经过N层卷积神经网络得到了行人图像特征图将原始姿态热力图谱S_c和目标姿态热力图谱S_t在深度的维度上进行串接得到新的特征图，将该特征图输入N层卷积层得到

将上述步骤得到的特征图输入姿态注意力迁移网络，该网络由T个结构一样的姿态注意力迁移模块组成，在我们的实验中T＝9。以第t个姿态注意力迁移模块为例，输入为代表姿态关节的特征和代表行人样貌的特征姿态注意力迁移网络将以上两个特征分别处理，其中先分别将和输入到由conv1-BN-ReLU-conv2-BN组成的小型卷积网络conv_s中，得到两个输出特征图以及将代表姿态信息的特征图经过sigmoid函数，使其值的范围为0到1，由此得到了姿态注意力权重W_t，该权重引入了姿态注意力机制，行人特征中表征姿态的部分将会得到加强，其余部分则会被抑制。将W_t和行人图像特征图这两个尺寸一样的特征图进行点积操作，得到注意力机制进行局部增强之后的特征图，之后再将该特征图加上由此得到图像特征编码之后将和经过conv_s卷积网络的姿态特征图在深度方向上串接起来，得到姿态特征编码

一个姿态注意力迁移模块对于图像特征和姿态特征处理完毕后，将该层模块得到的图像特征编码和姿态特征编码送入下一个姿态注意力迁移模块，进行同样的处理，以此不断更新这两个编码，直至最后得到最终的图像特征编码和姿态特征编码将这两个编码输入到解码器网络进行解码。

解码器网络由N层反卷积网络组成；编码器的第T层姿态注意力迁移模块最后输出得到图像特征编码和姿态特征编码这里我们不采用姿态特征编码，将图像特征编码输入解码器网络来进行上采样，将经过两层反卷积网络，最后得到给定行人的姿态迁移行人图片P_g。

(1.3.2)将得到给定行人的姿态迁移行人图片P_g和标准训练数据集中对应目标姿态的目标图像输入判别器，以计算该生成图像与原行人图像的的外貌一致性、与目标姿态的姿态一致性。

其具体实施步骤如下所述：

判别器器由两部分组成：外貌一致性判别器D_A，用于判别生成器生成图片P_g和给定的原始姿态行人图片P_c的外貌一致性，姿态一致性判别器D_S，用于判别生成器生成图片P_g中的行人姿态和目标姿态S_t之间的一致性。

将生成的姿态迁移行人图片P_g和给定的原始姿态行人图片P_c在深度方向上串接在一起，并输入外貌一致性判别器D_A进行判别，得到外貌相似度评分R_A。

同样样将P_g和目标姿态的特征图St在深度方向上进行串接，并输入姿态一致性判别器D_S进行判别，得到姿态一致性评分R_s。将这两个评分相乘，得到最后的评分R＝R_A*R_s。最终评分R即为综合的一致性得分。

(1.3.3)训练采用如下形式的损失函数，该损失函数的意义为，判别器使对于真图像的置信度尽可能大，使假图像的置信度尽可能小：

其中L_GAN为对抗损失项，L_combL1为组合L1损失项。

对抗损失函数的数值由分别将真图像P_t和假图像P_g，结合给定原始姿态行人图像P_c、原始姿态特征S_t一起输入判别器后得到的两个一致性得分R_A和R_S计算得到，计算公式如下：

上述公式中的D_A计算的值即真/假图片的外貌一致性判别得分，D_S计算的值即姿态一致性判别得分。如上述公式所述，该损失函数是为了使判别器能够正确判别输入图像是生成器生成的图像P_g(假图像)还是标准训练数据集中的目标姿态图像P_t(真图像)。若该判别器的判别能力越强，则将真图像输入判别器，判别器判定的一致性分数就会更高，即D_A(P_t，P_c)和D_S(P_t，P_c)会更高，则损失函数的第一项就会更小。将假图像输入判别器，判别器判定的一致性分数就会更低，即D_A(P_g，P_c)和D_S(P_g，P_c)会更低，则损失函数的第一项就会更小。

组合L1损失计算公式如下：

其中，上述公式中的L_L1项为直接将P_g和P_t逐像素相减后求和得到的L1距离。而感知损失函数L_perL1项用于使生成的图像看上去更加平滑自然，对于图像人物变形有更好的抗性。计算方法如下：将两张图像P_g和P_t同时输入到已经预训练好的VGG-19网络的某一层(我们取用的是conv1_2层)，之后将得到的两个特征图进行逐元素相减后求和，并根据该特征图的尺寸W_p，H_p，C_p将该损失归一化，由此得到感知L1损失项。

使用上述损失函数进行对抗训练的具体过程如下所述：

Pose-GAN的训练过程和典型的生成对抗网络类似，将输入数据P_t和S_t，S_c输入生成器网络得到生成的目标姿态行人图片P_g后，进行对抗训练：

训练判别器的过程如下所述：真图像输入为行人外貌(P_t，P_c)和姿态(P_t，S_t)，假图像输入为行人外貌(P_g，P_c)和姿态(P_g，S_t)，此时损失函数的对抗损失项为完整的损失函数：

由于该损失函数在输入为真图像时的值会更小，输入为假图像时的值会更大，所以计算出梯度后，使所有判别器网络中的参数减去梯度(梯度下降)，使得判别器分辨真假图片的能力变强，以此对判别器进行优化。

训练生成器的过程如下所述：仅输入假图像(P_g，P_c)和姿态(P_g，S_t)，由于没有真图像输入，所以损失函数仅为第二项：

生成器的对抗损失项为判别器的一部分。由于该项损失函数同样在输入为真图像时的值会更小，输入为假图像时的值会更大，所以为了生成足以混淆判别器的假图片，由该损失函数反向传播计算出梯度后，使所有生成器网络中的参数加上梯度(梯度上升)，以此对生成器进行优化。

在每个mini-batch数据输入Pose-GAN网络后，交替训练生成器和判别器的网络参数，以进行对抗训练。

相关训练细节如下：训练使用Adam优化器进行梯度下降，参数取β₁＝0.5，β₂＝0.999。迭代次数90k次，初始学习率设为2x10^-4并在60k次迭代后衰减至0，参数(λ₁，λ₂)对于标准训练数据集Market-1501和DeepFashion分别设为(10，10)和(1，1)。

(2)利用上述训练好的模型对给定的原始姿态行人图片进行目标姿态人物图片生成，包括如下步骤：

向网络的生成器输入给定原始姿态行人图片以及该行人的姿态原始姿态热力图谱，并输入目标姿态热力图谱，生成器的输出即为合成的姿态迁移行人图片。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下技术效果：

(1)精确度高：该发明针对任务特性区分进行特征设计，创新性地引入姿态注意力机制和多重判别器完成图像生成任务，相比于之前的行人图片生成方法，不仅人物姿态和目标姿态的一致性高，而且在行人外貌上也和给定的图像保持高度的一致；

(2)泛用性强：本发明较之于之前的行人图片生成方法能保持外貌的高度一致性，在肤色、随身物品等方面都能保持较好的一致；

(3)鲁棒性强：本发明可以克服图片中的各种变形、观察视角的变化，保证生成高质量的行人图片。

附图说明

图1是本发明的一种任意姿态行人图片生成方法的网络训练流程图，箭头表示数据的流向，该训练过程是生成器和判别器的对抗训练过程；

图2是本发明实施例中的生成器网络结构示意图；

图3是本发明实施例中的判别器网络结构示意图；

图4是本发明实施例中使用训练好的网络结构进行任意姿态行人图片生成的可视化结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为了解决现有技术中的问题，我们发明了一种全新的网络结构，以一种简单而有效的方式来突破以前的理论的种种限制。在生成对抗网络的基础上进行创新：生成器网络引入了姿态注意力机制，使图像特征中的特定区域(对应姿态特征点)得到增强；考虑到单一的判别器同时对图片中的姿态信息和相貌信息进行判别过于困难，于是采用分而治之的方式，使用多重判别器网络，分别对行人图片的外貌一致性和姿态一致性做出判别，然后得出各自的一致性评分。

以下首先就本发明的技术术语进行解释和说明：

生成对抗网络(GAN)：最早是在2014年的时候由蒙特利尔大学的AI学者IanGoodfellow提出的。生成式对抗网络是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块：生成模型和判别模型的互相博弈学习产生相当好的输出。使该网络中两个子模块在互相博弈的学习过程中拟合到最好的结果。

注意力机制：使用了注意力机制的模型在产生输出的时候，还会产生一个“注意力范围”表示接下来输出的时候要重点关注输入特征/序列中的哪些部分，然后根据关注的区域来产生下一个输出，如此往复。

姿态热力图谱：该任意姿态行人图片生成方法中用来表示人体姿态的热力图谱，该图谱由人体姿态评估器对图片中的行人姿态进行评估得到的，该姿态由18个通道组成，按照前后顺序进行排列，每一层通道的图谱都会有一个关键点(其值比周围大)代表人体的关节，将18个通道的热力图谱组合在一起，以此来表示行人的姿信息。

需要说明的是，本发明实施例中以行人图片为例，当然也可以是其他动物或者对象，即能够生成姿态热力图谱的图片都可以。本发明实施例中行人有18个主要关节，所以通道数为18，其他对象的通道可根据对象实际情况确定。

如图1所示，本发明基于一种任意姿态行人图片生成方法包括以下步骤：

(1)训练任意姿态行人图片生成网络模型，包括如下子步骤：

(1.1)为了得到行人的姿态数据，可使用人物姿态评估算法对原始姿态行人图片数据集中所有行人的姿态进行评估，该算法将身体关键部位和个人匹配起来，能准确检测图像中行人的身体关键点，由此得到18个通道的热力图谱。以此来表征能代表人物姿态的18个关节。一张图片中的一个人物对应一个18通道的姿态热力图谱；

由原始姿态行人图片以及原始姿态行人图片对应的姿态热力图谱构成标准训练数据集；

(1.2)定义任意姿态行人图片生成方法网络模型，如图2和图3中所示，网络模型具体组成成分为：

所述网络结构由生成器和判别器组成。

(1.2.1)生成器有两个组成部分：编码器和解码器。

编码器的组成部分具体描述如下：

编码器由N层(我们的方法中取N＝2，可根据需要确定)卷积网络网络和姿态注意力迁移网络(Pose-Attentional Transfer Network网络，简称PAT网络)组成，而姿态注意力迁移网络则由完全相同的T个(我们的方法中取T＝9，可根据需要确定)姿态注意力迁移模块(PAT模块)连接成的序列组成。首先的N层卷积神经网络用于将原始姿态行人图片P_c处理成图像特征图将原始姿态热力图谱S_c和目标姿态热力图谱S_t处理为姿态特征图之后的T个姿态注意力迁移模块引入姿态注意力机制，每一个姿态注意力迁移模块中都有两个由conv1-BN-ReLU-conv2-BN组成的小型神经网络conv_s用于分别处理图像特征和姿态特征。另外，在处理姿态特征的流水线上，由于sigmoid函数将输入的值压缩杂(0,1)这个范围内，而(0,1)之间的值正好可以表征权重系数，于是我们采用sigmoid函数用于将姿态特征转化为相应的权重W_t。该权重用于增强或抑制图像特征中的特定部分。

(1.2.2)判别器的组成部分具体描述如下：

判别器由两个部分组成：外貌一致性判别器和姿态一致性判别器，分别处理图像特征和姿态特征。两个判别器采用相同的网络结构：在下采样的2层卷积网络之后，后接3个残差模块，并不采用所有的dropout模块，将ReLu激活函数换成负数区域激活值值为0.2的LeakyReLu，最后后接softmax层，用于将得到的特征图谱转换为一致性得分。

输入网络的数据包含：目标姿态行人图片P_t、给定原始姿态行人图片P_c、给定行人图片姿态图谱S_c以及目标姿态图谱S_t，由这些输入数据，要生成目标姿态的姿态迁移行人图片P_g。

将上述步骤得到的特征图输入姿态注意力迁移网络，该姿态注意力迁移网络由T个完全一样的姿态注意力迁移模块组成，在本发明实施例中T＝9。在每个姿态注意力迁移模块中，姿态注意力迁移网络将以上两个特征分别处理。以第t个姿态注意力迁移模块为例，输入为代表姿态关节的特征和代表行人样貌的特征姿态注意力迁移网络将以上两个特征分别处理，其中先分别将和输入到由conv1-BN-ReLU-conv2-BN组成的小型卷积网络conv_s中，得到两个输出特征图以及将代表姿态信息的特征图经过sigmoid函数，使其值的范围为0到1，由此得到了姿态注意力权重W_t，该权重引入了姿态注意力机制，行人特征中表征姿态的部分将会得到加强，其余部分则会被抑制。将W_t和行人图像特征图这两个尺寸一样的特征图进行点积操作，得到注意力机制进行局部增强之后的特征图，之后再将该特征图加上由此得到图像特征编码之后将和经过conv_s卷积网络的姿态特征图在深度方向上串接起来，得到姿态特征编码

一个姿态注意力迁移模块对图像特征和姿态特征处理完毕后，将该层模块得到的图像特征编码和姿态特征编码送入下一个姿态注意力迁移模块，进行同样的处理，以此不断更新这两个编码，直至最后得到最终的图像特征编码和姿态特征编码将这两个编码输入到解码器网络进行解码。

(1.3.2)将得到给定行人的姿态迁移行人图片P_g和标准训练数据集中对应目标姿态的目标图像P_t输入判别器，以计算该生成图像与原行人图像的的外貌一致性、与目标姿态的姿态一致性。

其具体实施步骤如下所述：

判别器器由两部分组成：外貌一致性判别器D_A，用于判别生成器生成图片P_g和给定的原始姿态行人图片P_c的外貌一致性，姿态一致性判别器D_S，用于判别生成器生成图片P_g中的行人姿态和目标姿态S_t之间的一致性。将生成的姿态迁移行人图片P_g和给定的原始姿态行人图片P_c在深度方向上串接在一起，并输入外貌一致性判别器D_A进行判别，得到外貌相似度评分R_A。同样样将P_g和目标姿态的特征图S_t在深度方向上进行串接，并输入姿态一致性判别器D_S进行判别，得到姿态一致性评分R_s。将这两个评分相乘，得到最后的评分R＝R_A*R_s。最终评分R即为综合的一致性得分。

其中L_GAN为对抗损失项，L_combL1为组合L1损失项。

组合L1损失计算公式如下：

使用上述损失函数进行对抗训练的具体过程如下所述：

Pose-GAN的训练过程和典型的生成对抗网络类似，将输入数据P_t和S_t，S_c输入生成器网络得到生成的姿态迁移行人图片P_g后，进行对抗训练：

由于该项损失函数同样在输入为真图像时的值会更小，输入为假图像时的值会更大，所以为了生成足以混淆判别器的假图片，计算出梯度后，使所有生成器网络中的参数加上梯度(梯度上升)，以此对生成器进行优化。

(2)利用上述训练好的模型对给定的原始姿态行人图片进行姿态迁移行人图片生成，包括：

向网络的生成器输入给定原始姿态行人图片及该行人的原始姿态热力图谱，并输入目标姿态热力图谱，生成器的输出即为合成的目标姿态行人图片。

如图4中所示，为本发明使用训练好的网络结构进行任意姿态行人图片生成的可视化结果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种任意姿态行人图片生成方法，其特征在于，所述方法包括下述步骤：

(1)训练任意姿态行人图片生成网络模型，包括如下子步骤：

(1.2)定义任意姿态行人图片生成网络模型，所述网络模型由生成器和判别器组成，其中生成器包括编码器和解码器，编码器由N层卷积神经网络和姿态注意力迁移网络组成，解码器由N层反卷积网络组成，用于完成对图像特征编码的上采样生成特定姿态图片；判别器由外貌一致性判别器和姿态一致性判别器组成，分别用于处理图像特征和姿态特征；

(2)利用上述训练好的网络模型对给定的原始姿态行人图片进行目标姿态人物图片生成：向训练好的网络模型的生成器输入给定原始姿态行人图片以及该行人的姿态热力图谱，并输入目标姿态的热力图谱，生成器的输出即为合成的目标姿态行人图片。

2.如权利要求1所述的任意姿态行人图片生成方法，其特征在于，所述步骤(1.2)中的编码器由N层卷积神经网络和姿态注意力迁移网络组成，姿态注意力迁移网络由完全相同的T个姿态注意力迁移模块连接成的序列组成；N层卷积神经网络用于将原始姿态行人图片P_c处理成图像特征图将原始姿态热力图谱S_c和目标姿态热力图谱S_t处理为姿态特征图之后的T个姿态注意力迁移模块引入姿态注意力机制，每一个姿态注意力迁移模块中都有两个由conv1-BN-ReLU-conv2-BN组成的小型神经网络conv_s用于分别处理图像特征和姿态特征。

3.如权利要求1所述的任意姿态行人图片生成方法，其特征在于，在所述姿态注意力迁移模块中采用sigmoid函数转化姿态特征图中的值使其范围为0到1，由此得到了姿态注意力权重W_t。

4.如权利要求1或2所述的任意姿态行人图片生成方法，其特征在于，所述步骤(1.2)中的判别器由两个部分组成：外貌一致性判别器和姿态一致性判别器，分别用于处理图像特征和姿态特征；两个判别器采用相同的网络结构：在下采样的2层卷积网络之后，后接3个残差模块，并不采用所有的dropout模块，将ReLu激活函数换成负数区域激活值值为0.2的LeakyReLu，最后后接softmax层，用于将得到的特征图谱转换为一致性得分。

5.如权利要求1或2所述的任意姿态行人图片生成方法，其特征在于，所述步骤(1.3)中将标准训练数据集中的原始姿态行人图片以及原始姿态行人图片对应的原始姿态热力图谱输入生成器来生成姿态迁移行人图片，具体包括：

将原始姿态行人图片P_c作为生成器的输入，经过N层卷积神经网络得到了行人图像特征图将原始姿态热力图谱S_c和目标姿态热力图谱S_t在深度的维度上进行串接得到新的特征图，将该特征图输入N层卷积层得到将上述特征图输入姿态注意力迁移网络，姿态注意力迁移网络将以上两个特征分别处理，该姿态注意力迁移网络由T个完全一样的姿态注意力迁移模块组成，在每个姿态注意力迁移模块中，先分别将和输入到由conv1-BN-ReLU-conv2-BN组成的小型卷积网络conv_s中，得到两个输出特征图以及将代表姿态信息的特征图经过sigmoid函数，使其值的范围为0到1，由此得到了姿态注意力权重W_t；将W_t和行人图像特征图进行点积操作，得到注意力机制进行局部增强之后的特征图，之后再将该特征图加上由此得到图像特征编码之后将和经过conv_s卷积网络的姿态特征图conv_s 在深度方向上串接起来，得到姿态特征编码

一个姿态注意力迁移模块对于图像特征和姿态特征处理完毕后，将该层姿态注意力迁移模块得到的图像特征编码和姿态特征编码送入下一个姿态注意力迁移模块，进行同样的处理，以此不断更新这两个编码，直至最后得到最终的图像特征编码和姿态特征编码将这两个编码输入到解码器网络进行解码；

将图像特征编码输入解码器网络来进行上采样，将经过两层反卷积网络，最后得到给定行人的姿态迁移行人图片P_g。

6.如权利要求1或2所述的任意姿态行人图片生成方法，其特征在于，所述步骤(1.3)中将生成的姿态迁移行人图片和标准训练数据集中的目标姿态行人图片分别作为“假图片”和“真图片”输入至多重判别器中，得到对应的一致性得分，具体为：

将生成的姿态迁移行人图片P_g和给定的原始姿态行人图片P_c在深度方向上串接在一起，并输入外貌一致性判别器D_A进行判别，得到外貌相似度评分R_A；

同样样将P_g和目标姿态的特征图S_t在深度方向上进行串接，并输入姿态一致性判别器D_S进行判别，得到姿态一致性评分R_s。

7.如权利要求1或2所述的任意姿态行人图片生成方法，其特征在于，所述步骤(1.3)中设计相应的损失函数，具体为：

该损失函数的意义为，判别器使真图像的置信度尽可能大，使假图像的置信度尽可能小：其中L_GAN为对抗损失项，L_combL1为组合L1损失项。

8.如权利要求7所述的任意姿态行人图片生成方法，其特征在于，在所述对抗损失项中，

判别器的对抗损失项为：

上述公式中的D_A计算的值即真/假图片的外貌相似度评分，D_S计算的值即姿态一致性得分；该损失函数是为了使判别器能够正确判别输入图像是生成器生成的图像P_g还是标准训练数据集中的目标姿态图像P_t；若该判别器的判别能力越强，则将真图像输入判别器，判别器判定的一致性分数就会更高，即D_A(P_t，P_c)和D_S(P_t，P_c)会更高，则损失函数的第一项就会更小；将假图像输入判别器，判别器判定的一致性分数就会更低，即D_A(P_g，P_c)和D_S(P_g，P_c)会更低，则损失函数的第一项就会更小；

生成器的对抗损失项为：

生成器的对抗损失项为判别器的一部分，由于该项损失函数同样在输入为真图像时的值会更小，输入为假图像时的值会更大，所以为了生成足以混淆判别器的假图片，由该损失函数反向传播计算出梯度后，使所有生成器网络中的参数加上梯度，以此对生成器进行优化。

9.如权利要求8所述的任意姿态行人图片生成方法，其特征在于，所述步骤(1.3)中通过对抗训练分别训练生成器和判别器，具体为：

在每个mini-batch数据输入Pose-GAN网络后，交替训练生成器和判别器的网络参数，以进行对抗训练；相关训练细节如下：训练使用Adam优化器进行梯度下降，参数取β₁＝0.5，β₂＝0.999，迭代次数90k次，初始学习率设为2x10^-4并在60k次迭代后衰减至0，参数(λ₁，λ₂)对于标准训练数据集Market-1501和DeepFashion分别设为(10，10)和(1，1)。

10.如权利要求1或2所述的任意姿态行人图片生成方法，其特征在于，所述步骤(2)中利用上述训练好的模型对给定的原始姿态行人图片进行姿态迁移行人图片生成，包括如下步骤：

向网络的生成器输入给定行人图像P_t以及该行人的原始姿态热力图谱S_c，并输入目标姿态热力图谱S_t，首先将原始姿态热力图谱S_c和目标姿态热力图谱S_t在深度方向上串接，并将姿态特征和图像特征一起输入两层卷积网络，得到姿态特征以及图像特征之后一起输入至由T层姿态注意力迁移机制模块的姿态注意力网络中，得到姿态特征编码以及图像特征编码之后将及图像特征编码输入至解码器网络进行上采样，得到的的输出即为合成的姿态迁移行人图片。