CN111626218A

CN111626218A - 基于人工智能的图像生成方法、装置、设备及存储介质

Info

Publication number: CN111626218A
Application number: CN202010467388.1A
Authority: CN
Inventors: 任逍航; 丁杨; 周潇; 贲有成; 严宇轩; 程培; 俞刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-09-04
Anticipated expiration: 2040-05-28
Also published as: CN111626218B; WO2021238595A1; US20220237829A1

Abstract

本申请实施例公开了一种基于人工智能的图像生成方法、装置、设备及存储介质，其中该方法包括：获取包括待转换姿态的目标对象的源图像，以及包括呈现目标姿态的参考对象的目标图像；根据目标对象和参考对象各自对应的模型姿态确定姿态转移矩阵；通过生成器确定从源图像中提取目标对象的基础外表特征；基于姿态转移矩阵转换基础外表特征得到目标外表特征；通过该生成器基于目标外表特征生成目标合成图像。该方法能够有效地提高人物姿态迁移效果，使得迁移后的人物姿态与目标图像中的人物姿态更相符。

Description

基于人工智能的图像生成方法、装置、设备及存储介质

技术领域

本申请涉及人工智能(Artificial Intelligence，AI)技术领域，尤其涉及一种图像生成方法、装置、设备及存储介质。

背景技术

在计算机视觉技术领域中，图像生成技术一直备受关注，人物姿态迁移作为图像生成技术中近年来的热门研究主题，也吸引了越来越多研究者的关注。人物姿态迁移是指将源图像中的人物迁移到目标图像中的人物姿态上，以使源图像中的人物呈现目标图像中的人物姿态。在实际应用中，人物姿态迁移在很多场景中得到了广泛的应用，例如，可以将源图像中的人物迁移至一组预先设定的动作中，以生成一段源图像中的人物执行这一组动作的视频。

相关技术目前主要通过以下方式实现人物姿态迁移：利用预先训练好的网络模型，基于源图像、源图像中人物的姿态热力图和目标图像中人物的姿态热力图，将源图像中的人物迁移至目标图像中的人物姿态。

然而，经本申请发明人研究发现，姿态热力图往往难以准确地表征人物姿态，基于源图像中人物的姿态热力图和目标图像中人物的姿态热力图进行人物姿态迁移，容易导致迁移后的人物姿态相比目标图像中的人物姿态存在较大差异，最终生成的图像难以达到预期的效果。

发明内容

本申请实施例提供了一种基于人工智能的图像生成方法、装置、设备及存储介质，能够有效地提高人物姿态迁移效果，使得迁移后的人物姿态与目标图像中的人物姿态更相符。

有鉴于此，本申请第一方面提供了一种基于人工智能的图像生成方法，所述方法包括：

获取源图像和目标图像；所述源图像中包括待转换姿态的目标对象，所述目标图像中包括呈现目标姿态的参考对象；

根据所述目标对象对应的模型姿态和所述参考对象对应的模型姿态，确定姿态转移矩阵；

通过生成器从所述源图像中提取所述目标对象的外表特征，作为基础外表特征；

基于所述姿态转移矩阵处理所述基础外表特征，得到目标外表特征；

通过所述生成器基于所述目标外表特征生成目标合成图像。

本申请第二方面提供了一种基于人工智能的图像生成装置，所述装置包括：

图像获取模块，用于获取源图像和目标图像；所述源图像中包括待转换姿态的目标对象，所述目标图像中包括呈现目标姿态的参考对象；

转换矩阵确定模块，用于根据所述目标对象对应的模型姿态和所述参考对象对应的模型姿态，确定姿态转移矩阵；

外表特征提取模块，用于通过生成器从所述源图像中提取所述目标对象的外表特征，作为基础外表特征；

外表特征处理模块，用于基于所述姿态转移矩阵处理所述基础外表特征，得到目标外表特征；

图像合成模块，用于通过所述生成器基于所述目标外表特征生成目标合成图像。

本申请第三方面提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行如上述第一方面所述的基于人工智能的图像生成方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的基于人工智能的图像生成方法的步骤。

本申请第五方面提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述第一方面所述的基于人工智能的图像生成方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种基于人工智能的图像生成方法，该方法另辟蹊径，利用图像中人物的模型姿态来表征人物姿态，基于源图像中目标对象对应的模型姿态和目标图像中参考对象对应的模型姿态，确定人物姿态迁移时所需的姿态转移矩阵；通过预先训练好的生成器从源图像中提取目标对象的外表特征；进而，利用姿态转移矩阵重新排列该目标对象的外表特征得到目标外表特征；最终，通过该生成器基于该目标外表特征生成目标合成图像。相比基于姿态热力图进行人物姿态迁移的方案，本申请实施例提供的方法基于人物的模型姿态进行人物姿态迁移，由于模型姿态相比姿态热力图能够更准确地表征人物姿态，因此，本申请实施例提供的方法能够更好地实现人物姿态的转换，保证转换后的人物姿态与目标图像中参考对象呈现的目标姿态匹配度更高，保证最终生成的目标合成图像具有更好的效果。

附图说明

图1为本申请实施例提供的图像生成方法的应用场景示意图；

图2为本申请实施例提供的图像生成方法的流程示意图；

图3为本申请实施例提供的GAN模型中生成器的工作原理示意图；

图4为本申请实施例提供的图像生成方法的原理示意图；

图5为本申请实施例提供的GAN模型训练方法的流程示意图；

图6为本申请实施例提供的GAN模型训练方法的原理示意图；

图7为本申请实施例提供的第一种图像生成装置的结构示意图；

图8为本申请实施例提供的第二种图像生成装置的结构示意图；

图9为本申请实施例提供的第三种图像生成装置的结构示意图；

图10为本申请实施例提供的第四种图像生成装置的结构示意图；

图11为本申请实施例提供的服务器的结构示意图；

图12为本申请实施例提供的终端设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉技术，具体通过如下实施例进行说明：

相关技术目前主要基于姿态热力图实现人物姿态迁移，而姿态热力图往往难以准确地表征人物姿态，基于姿态热力图进行人物姿态迁移，容易导致迁移后的人物姿态与预期的人物姿态存在较大差异，经人物姿态迁移后生成的图像效果往往不够理想。

针对上述相关技术存在的技术问题，本申请实施例提供了一种基于人工智能的图像生成方法，该方法采用图像中人物的模型姿态表征人物姿态，并基于源图像中人物的模型姿态和目标图像中人物的模型姿态，确定姿态转移过程中所需的姿态转移矩阵，由此提高人物姿态转移效果，保证转移后的人物姿态能够达到预期的效果。

具体的，在本申请实施例提供的图像生成方法中，先获取源图像和目标图像，该源图像中包括待转换姿态的目标对象，该目标图像中包括呈现目标姿态的参考对象。然后，确定源图像中目标对象对应的模型姿态和目标图像中参考对象对应的模型姿态，并根据该目标对象对应的模型姿态和该参考对象对应的模型姿态确定姿态转移矩阵。与此同时，可以通过生成器从源图像中提取出目标对象的外表特征作为基础外表特征。进而，利用上述姿态转移矩阵对该基础外表特征进行重新排列，得到目标外表特征；最终，通过上述生成器基于该目标外表特征生成目标合成图像。

相比相关技术中基于姿态热力图实现人物姿态迁移的方案，本申请实施例提供的图像生成方法另辟蹊径地基于人物的模型姿态进行人物姿态迁移，由于模型姿态相比姿态热力图能够更准确地表征人物姿态，因此，本申请实施例提供的方法能够更加准确地进行人物姿态转换，保证转换后的人物姿态与目标图像中参考对象呈现的目标姿态更相符，保证经人物姿态迁移后生成的目标合成图像具有更好的效果。

应理解，本申请实施例提供的图像生成方法的执行主体可以为具备图像处理能力的设备，如终端设备或服务器。其中，终端设备具体可以为智能手机、电脑、智能电视、平板电脑、个人数字助理(Personal Digital Assistant，PDA)等。服务器可以为应用服务器或Web服务器；在实际部署时，该服务器可以为独立服务器，也可以为集群服务器或云服务器。

为了便于理解本申请实施例提供的基于人工智能的图像生成方法，下面以该图像生成方法的执行主体为服务器为例，对该图像生成方法的应用场景进行介绍。

参见图1，图1为申请实施例提供的图像生成方法的应用场景示意图。如图1所示，该应用场景中包括终端设备110和服务器120。终端设备110用于响应用户的操作向服务器120发送源图像和目标图像。服务器120中运行有预先训练好的生成对抗网络(GenerativeAdversarial Networks，GAN)模型，该GAN模型中包括生成器，服务器120接收到终端设备110发送的源图像和目标图像后，可以采用本申请实施例提供的图像生成方法，基于源图像和目标图像进行人物姿态迁移以生成目标合成图像。

具体的，用户可以操控终端设备110，从终端设备110本地存储的图像中选取源图像和目标图像，源图像中包括待转换姿态的目标对象，目标图像中包括呈现目标姿态的参考对象。完成源图像和目标图像的选取后，用户可以操控终端设备110将源图像和目标图像通过网络发送给服务器120。

应理解，在实际应用中，终端设备110也可以仅向服务器120提供源图像，由服务器120提供其预存的图像作为目标图像。

服务器120接收到终端设备110发来的源图像和目标图像后，可以分别确定源图像中目标对象对应的模型姿态和目标图像中参考对象对应的模型姿态，并基于该目标对象对应的模型姿态和该参考对象对应的模型姿态，确定姿态迁移时所需的姿态转移矩阵，上述目标对象和参考对象各自对应的模型姿态在实际应用中具体可以为三维模型。与此同时，服务器120可以调用预先训练好的GAN模型，将所接收的源图像输入该GAN模型中的生成器，利用该生成器从源图像中提取目标对象的外表特征作为基础外表特征。进而，服务器120可以利用该姿态转移矩阵重新排列该基础外表特征，使得源图像中目标对象上的各个部位转移至目标图像中参考对象上相对应的部位，得到目标外表特征。最终，服务器120可以利用GAN模型中的生成器基于该目标外表特征生成目标合成图像，该目标合成图像中包括呈现目标姿态的目标对象。

服务器120生成目标合成图像后，可以通过网络将该目标合成图像反馈给终端设备110，以使用户可以通过终端设备110查看人物姿态迁移后生成的目标合成图像。

需要说明的是，图1所示的应用场景仅为示例，在实际应用中，除了可以由服务器独立执行本申请实施例提供的图像生成方法外，还可以由终端设备独立执行本申请实施例提供的图像生成方法，也可以由服务器和终端设备协作配合执行本申请实施例提供的图像生成方法，在此不对本申请实施例提供的图像生成方法的应用场景做具体限定。

下面通过实施例对本申请提供的基于人工智能的图像生成方法进行详细介绍。

参见图2，图2为本申请实施例提供的图像生成方法的流程示意图。为了便于描述，下述实施例以服务器作为执行主体为例进行描述。如图2所示，该图像生成方法包括以下步骤：

步骤201：获取源图像和目标图像；所述源图像中包括待转换姿态的目标对象，所述目标图像中包括呈现目标姿态的参考对象。

在实际应用中，当用户需要基于源图像和目标图像进行人物姿态迁移，使得源图像中的目标对象呈现目标图像中的目标姿态时，用户可以相应地选择源图像和目标图像，并将所选择的源图像和目标图像提供给服务器。

在一种可能的实现方式中，用户可以从终端设备本地存储的图像中相应地选出源图像和目标图像，并操控终端设备将所选出的源图像和目标图像发送给服务器。具体的，终端设备可以为用户提供源图像选择接口和目标图像选择接口，用户可以通过源图像选择接口从终端设备本地存储的图像中选择源图像，通过目标图像选择接口从终端设备本地存储的图像中选择目标图像；终端设备检测到用户确认完成源图像和目标图像的选择后，可以为通过源图像选择接口选出的图像配置源图像标签，为通过目标图像选择接口选出的图像配置目标图像标签，进而将配置有源图像标签的图像和配置有目标图像标签的图像发送给服务器，以使服务器获取到源图像和目标图像。

在另一种可能的实现方式中，用户可以从终端设备本地存储的图像中选出源图像，将所选出的源图像发送给服务器，并在服务器预存的图像中选择目标图像。具体的，终端设备可以为用户提供源图像选择接口，用户可以通过源图像选择接口从终端设备本地存储的图像中选择源图像，终端设备检测到用户确认完成源图像的选择后，将该源图像发送给服务器；终端设备还可以为用户提供目标图像选择接口，用户可以通过该目标图像选择接口从服务器预存的图像中选择目标图像，终端设备检测到用户确认完成目标图像的选择后，可以将该用户选择的图像标识发送给服务器，以通知服务器获取该图像标识对应的图像作为目标图像。

应理解，上述实现方式仅为示例，在实际应用中，服务器还可以通过其它方式获取源图像和目标图像，本申请在此不对服务器获取源图像和目标图像的方式做具体限定。

需要说明的是，在一些应用场景中，用户可能希望将源图像中的目标对象迁移到一组目标动作中，得到目标对象执行这一组目标动作的视频。在这种情况下，服务器需要获取源图像和目标动作视频，将目标动作视频中每一目标视频帧分别作为目标图像，针对每一目标视频帧生成对应的目标合成图像，最终按照各目标视频帧在目标动作视频中的时间排列顺序，排列各目标视频帧各自对应的目标合成图像，得到目标合成视频，该目标合成视频即为目标对象执行目标动作视频中的动作的视频。

具体的，用户可以选择源图像和目标动作视频提供给服务器，服务器获取到目标动作视频后，可以按照时间排列顺序从中逐一提取目标视频帧作为目标图像，进而，基于源图像和当前处理的目标视频帧执行本申请提供的图像生成方法，得到该目标视频帧对应的目标合成图像，该目标合成图像中目标对象呈现该目标视频帧中参考对象的目标姿态。通过上述方式生成目标视频中各目标视频帧各自对应的目标合成图像后，即可按照各目标视频帧在目标动作视频中的时间排列顺序，将各目标视频帧各自对应的目标合成图像组合起来，从而得到目标合成视频。

需要说明的是，上述目标视频帧可以是目标动作视频中的每一视频帧，也可以是从目标动作视频中选出具有代表性的视频帧，例如，从目标动作视频中选出彼此之间差异度大于预设阈值的视频帧作为目标视频帧，本申请在此不对上述目标视频帧做具体限定。

应理解，在实际应用中，用户可以从终端设备本地存储的图像中相应地选出源图像和目标动作视频提供给服务器，也可以从终端设备本地存储的图像中选出源图像，从服务器预存的动作视频中选出目标动作视频；选择源图像和目标视频的具体实现方式，与上文中选择源图像和目标图像的具体实现方式相类似，此处不再赘述。

步骤202：根据所述目标对象对应的模型姿态和所述参考对象对应的模型姿态，确定姿态转移矩阵。

服务器获取到源图像和目标图像后，可以分别确定源图像中目标对象对应的模型姿态和目标图像中参考对象对应的模型姿态。示例性的，服务器可以确定源图像中目标对象对应的三维模型，作为该目标对象对应的模型姿态，确定目标图像中参考对象对应的三维模型，作为该参考对象对应的模型姿态；通常情况下，人物的三维模型由若干个三角形表面组成，例如，由6840个三角形表面组成，人物的三维模型实质上包括其中各个三角形的三个顶点的空间位置表示。经实验研究证明，三维模型相比姿态热力图能够更准确地表征人物姿态。

应理解，在实际应用中，服务器可以采用任意的人体三维模型算法，对源图像和目标图像进行分析处理，以得到源图像中目标对象对应的三维模型和目标图像中参考对象对应的三维模型，本申请在此不对确定目标对象对应的三维模型和参考对象对应的三维模型的实现方式做任何限定。

应理解，在实际应用中，服务器除了可以确定目标对象和参考对象各自对应的三维模型，作为目标对象和参考对象各自对应的模型姿态外，服务器还可以根据实际需求，确定目标对象和参考对象各自对应的二维模型、四维模型等，作为目标对象和参考对象各自对应的模型姿态，本申请在此不对目标对象和参考对象各自对应的模型姿态做具体限定。

需要说明的是，为了缩短生成目标合成图像所需耗费的时间，加快目标合成图像的生成效率，服务器可以预先针对其存储的各图像确定其中参考对象对应的模型姿态。相应地，服务器检测到用户从其存储的图像中选出目标图像后，可以直接获取该目标图像中参考对象对应的模型姿态，不必在生成目标合成图像的过程中耗费时间和处理资源针对该目标图像确定其中参考对象对应的模型姿态。

相类似地，在服务器可为用户提供目标动作视频的场景中，服务器可以预先针对其存储的各动作视频中的各目标视频帧，确定其中参考对象的模型姿态。相应地，服务器检测到用户从其存储的动作视频中选出目标动作视频后，可以直接获取该目标动作视频中各目标视频帧中参考对象对应的模型姿态。

服务器确定出源图像中目标对象对应的模型姿态和目标图像中参考对象对应的模型姿态后，即可根据目标对象对应的模型姿态和参考对象对应的模型姿态，确定人物姿态迁移时所需的姿态转移矩阵，该姿态转移矩阵能够表征目标对象与参考对象上相对应的位置之间的转移关系。

示例性的，姿态转移矩阵可以是一个h×w×2的三维矩阵，其中，h表示源图像的高度，w表示源图像的宽度，h和w均以像素为单位，2代表姿态转移矩阵中转移坐标的维度。该矩阵中每一个点代表源图像中目标对象上的点在目标图像中目标姿态上的位置，例如，假设源图像中目标对象左手食指指尖的坐标为(i，j)，目标图像中参考对象左手食指指尖的坐标为(k，l)，那么姿态转移矩阵中坐标为(i，j)的点即应当存储(k，l)。

应理解，上述姿态转移矩阵仅为示例，在实际应用中，本申请实施例中的姿态转移矩阵还可以表现为其它形式，本申请在此不对该姿态转移矩阵的形式做任何限定。

步骤203：通过生成器从所述源图像中提取所述目标对象的外表特征，作为基础外表特征。

服务器获取到源图像后，可以将该源图像输入预先训练好的GAN模型中生成器，通过该生成器中的特征提取模块提取该源图像的全局特征，并从该源图像的全局特征中进一步提取目标对象的外表特征，作为基础外表特征。

具体的，生成器中的特征提取模块可以对源图像进行分析处理，得到源图像对应的全局特征图；该全局特征图可以是一个h×w×m的三维矩阵，其中，h和w分别代表对源图像进行等比缩放后的高和宽，m代表其中该全局特征图中包括m个不同的特征(m可以等于256)，这m个特征中有n个特征对应于源图像中的人体外表特征(n可以等于128)，其余m-n个特征对应于源图像中的人体姿态特征。特征提取模块可以从全局特征图的m个特征中提取出n个对应于人体外表的特征，作为基础外表特征。

在一种可能的实现方式中，考虑到源图像中通常会夹杂很多干扰信息如背景信息等，为了减少干扰信息的影响，保证可以从源图像的全局特征中准确地提取出目标对象的外表特征，提升最终生成的目标合成图像中人物的外观效果。在本申请实施例提供的方法中，服务器可以先确定源图像中N(N为大于1的整数)个目标部位各自对应的分布区域位置，进而，在从源图像的全局特征中提取基础外表特征时，服务器可以根据这N个目标部位各自对应的分布区域位置，从源图像的全局特征中提取这N个目标部位各自对应的局部特征组成基础外表特征。

具体的，服务器可以采用人体解析算法对源图像进行处理，确定源图像中目标对象上N个目标部位各自对应的分布区域位置，例如，确定面部、头发、衣服、裤子、手、鞋子等部位的分布区域位置。经人体解析算法对源图像进行处理得到的处理结果通常是一个h×w的二维矩阵，其中，h和w分别代表源图像的高和宽，该二维矩阵中每个点相应地承载该点位置所属的目标部位对应的编号，例如，0代表背景，1代表面部，2代表头发等等。

服务器确定出源图像中目标对象上N个目标部位各自对应的分布区域位置，并且获得源图像的全局特征图后，即可结合目标对象上N个目标部位各自对应的分布区域位置，从全局特征图中相应地提取出这N个目标部位各自对应的局部特征，进而，利用这N个目标部位各自对应的局部特征组成目标对象的外表特征，即基础外表特征。

需要说明的是，在实际应用中，服务器可以同时执行步骤202和步骤203，也可以先执行步骤202，后执行步骤203，还可以先执行步骤203，后执行步骤202，本申请在此不对步骤202和步骤203的执行顺序做任何限定。

步骤204：基于所述姿态转移矩阵处理所述基础外表特征，得到目标外表特征。

服务器确定出姿态转移矩阵和基础外表特征后，即可基于该姿态转移矩阵和基础外表特征进行人物姿态迁移。即根据姿态转移矩阵重新排列基础外表特征，将源图像中目标对象的外表特征相应地迁移至目标图像中对应的姿态位置上，从而得到迁移后的目标外表特征。

需要说明的是，在一些情况下，目标对象和参考对象各自对应的模型姿态中可能不包括头发、衣服外沿等边缘部件，相应地，基于目标对象对应的模型姿态和参考对象对应的模型姿态确定的姿态转移矩阵，也无法体现目标对象与参考对象中这些边缘部件之间的位置迁移关系。对于这些边缘部件，服务器进行人物姿态迁移时，可以将其跟随邻近的部件一起迁移，例如，迁移目标对象的头发时，可以将其与目标对象的面部一起迁移。

步骤205：通过所述生成器基于所述目标外表特征生成目标合成图像。

由于目标外表特征已能表征人物姿态迁移后的目标对象的外观，因此，服务器得到目标外表特征后，即可利用GAN模型中生成器的图像生成模块，基于该目标外表特征生成目标合成图像，该目标合成图像中包括呈现目标姿态的目标对象。

需要说明的是，目标合成图像的背景可以根据实际需求设定。例如，可以将源图像的背景作为目标合成图像的背景，即服务器基于目标外表特征生成对应的目标对象外观表示后，可以将该目标对象外观表示粘贴到源图像的背景中，得到目标合成图像。又例如，也可以指定任意图像作为目标合成图像的背景，即服务器可以获取用户选择的背景图像或者默认的背景图像，基于目标外表特征生成对应的目标对象外观表示后，可以将该目标对象外观表示粘贴到该背景图像中，得到目标合成图像。本申请在此不对目标合成图像的背景做任何限定。

可选的，为了进一步优化最终生成的目标合成图像的效果，使得其中目标对象的视觉效果更加协调自然，在本申请实施例提供的方法中，服务器还可以获取目标图像中参考对象的姿态特征，该参考对象的姿态特征是从目标图像的全局特征中提取出来的，该目标图像的全局特征是通过生成器确定的；进而，通过生成器中的图像生成模块基于该参考对象的姿态特征和目标外表特征，生成目标合成图像。

具体的，服务器可以利用GAN模型中生成器的特征提取模块，提取目标图像的全局特征，进而从该目标图像的全局特征中提取出参考对象的姿态特征。与服务器从源图像的全局特征中提取目标对象的外表特征的实现方式相类似，特征提取模块对目标图像进行分析处理，将得到目标图像对应的全局特征图，即一个h×w×m的三维矩阵，其中，h和w分别代表对目标图像进行等比缩放后的高和宽，m代表其中该全局特征图中包括m个不同的特征(m可以等于256)，这m个特征中有n个特征对应于目标图像中的人体外表特征(n可以等于128)，其余m-n个特征对应于目标图像中的人体姿态特征。特征提取模块可以从该全局特征图的m个特征中提取出m-n个对应于人体姿态的特征，作为参考对象的姿态特征。

为了确保所提取出的姿态特征更加准确，服务器也可以先采用人体解析算法对目标图像进行处理，确定该目标图像中参考对象上N个目标部位各自对应的分布区域位置，进而结合这N个目标部位各自对应的分布区域位置，从目标图像的全局特征中提取出参考对象的外表特征，将该全局特征中除该外表特征外的其余特征作为参考对象的姿态特征。

获取到目标外表特征和参考对象的姿态特征后，服务器可以将该目标外表特征和参考对象的姿态特征拼接起来，通过生成器中的图像生成模块基于拼接后的特征生成目标合成图像。在实际应用中，生成器还可以针对目标外表特征和参考对象的姿态特征，进行相加、取较大值、取平均值等任意一种或多种处理，通过生成器中的图像生成模块基于处理后得到的特征，生成目标合成图像，本申请在此不对利用参考对象的姿态特征对目标外表特征进行校正的方式做任何限定。

为了便于理解上述实现方式，下面结合图3所示的GAN模型中生成器的工作原理示意图，对生成目标合成图像的实现过程进行示例性介绍。如图3所示，GAN模型的生成器包括特征提取模块301和图像生成模块302。特征提取模块301可以对输入的源图像进行处理得到该源图像的全局特征，并从该源图像的全局特征中提取出目标对象的外表特征即基础外表特征；利用姿态转移矩阵对基础外表特征进行重新排列得到目标外表特征后，将该目标外表特征和目标图像中参考对象的姿态特征拼接起来；进而，将拼接后的特征输入图像生成模块302，通过该图像生成模块302对拼接后的特征进行处理，生成目标合成图像。

需要说明的是，为了缩短生成目标合成图像所需耗费的时间，加快目标合成图像的生成效率，服务器可以预先针对其存储的各图像确定其中参考对象的姿态特征。相应地，服务器检测到用户从其存储的图像中选出目标图像后，可以直接获取该目标图像中参考对象的姿态特征，并利用该姿态特征对人物姿态迁移后得到的目标外表特征进行校正，不必在生成目标合成图像的过程中耗费时间和处理资源，确定该目标图像中参考对象的姿态特征。

相类似地，在服务器可为用户提供目标动作视频的场景中，服务器可以预先针对其存储的各动作视频中的各目标视频帧，确定其中参考对象的姿态特征。相应地，服务器检测到用户从其存储的动作视频中选出目标动作视频后，可以直接获取该目标动作视频中各目标视频帧中参考对象的姿态特征。

为了便于进一步理解上述基于人工智能的图像生成方法，下面以模型姿态为三维模型，将源图像中的目标对象迁移至一组服务器预存的目标动作视频中为例，对上述图像生成方法进行整体示例性介绍。

参见图4，图4为本申请实施例提供的图像生成方法的原理示意图。具体的，服务器获取到终端设备发送的源图像后，可以采用人体三维模型算法处理该源图像，确定该源图像中目标对象对应的三维模型，利用该三维模型表征源图像中目标对象的姿态。此外，服务器还可以采用人体解析算法处理该源图像，确定其中N个目标部位(如面部、头发、衣服、裤子、手、鞋子等)各自对应的分布区域位置。

然后，将源图像输入预先训练好的GAN模型中的生成器，利用该生成其中的特征提取模块确定该源图像对应的全局特征图，并结合上述人体解析结果(即N个目标部位各自对应的分布区域位置)，从该全局特征图中提取出目标对象的外表特征。与此同时，服务器可以获取目标动作视频中当前处理的目标视频帧中参考对象对应的三维模型，该目标视频帧中参考对象对应的三维模型是服务器预先确定的，服务器可以根据目标对象对应的三维模型和该参考对象对应的三维模型进行矩阵运算，得到姿态转移矩阵。进而，服务器可以利用该姿态转移矩阵重新排列目标对象的外表特征，得到目标外表特征，使得源图像中目标对象上的各个部位转移至目标图像中参考对象上相对应的部位。

获取当前处理的目标视频帧中参考对象的姿态特征，该目标视频帧中参考对象的姿态特征也是服务器预先确定的，将该参考对象的姿态特征和目标外表特征拼合起来，输入生成器中的图像生成模块，从而得到该目标视频帧对应的目标合成图像。

针对目标动作视频中每一目标视频帧执行上述流程，得到各目标视频帧各自对应的目标合成图像后，可以按照各目标视频帧在目标动作视频中的时间排列顺序，相应地排列各目标视频帧各自对应的目标合成图像，从而生成目标合成视频，在该目标合成视频中目标对象执行目标动作视频中的动作。

此外，本申请实施例还提供了一种GAN模型训练方法。为了便于理解下文中的GAN模型训练方法，下面先对GAN模型进行简单的介绍：GAN模型通常由生成器和判别器组成，生成器负责根据输入的信息生成图像，判别器负责将生成器输出的图像与其对应的真实图像分辨出来；在训练过程中，生成器需要尽可能地欺骗判别器，生成器与判别器相互对抗、不断地调整参数，最终达到的理想效果是使判别器无法判断生成器输出的图像是否真实。

参见图5，图5为本申请实施例提供的GAN模型训练方法的流程示意图。为了便于描述，下述实施例仍以服务器作为执行主体为例进行描述。如图5所示，该GAN模型训练方法包括以下步骤：

步骤501：获取训练样本；所述训练样本中包括样本源图像和样本目标图像，所述样本源图像中包括待转换姿态的样本目标对象，所述样本目标图像中包括呈现目标转换姿态的样本参考对象。

服务器训练GAN模型时需要获取大量的训练样本，每个训练样本中包括样本源图像和样本目标图像，其中，样本源图像中包括待转换姿态的样本目标对象，样本目标图像中包括呈现目标转换姿态的样本参考对象。

在一种可能的实现方式中，服务器可以基于动作视频获取训练GAN模型时所需的训练样本。具体的，服务器可以从某动作视频中截取一帧视频帧作为样本源图像，从该动作视频帧截取其它任一视频帧作为样本目标图像，与该样本源图像配对组成一个训练样本；如此，服务器可以将动作视频中各视频帧两两配对，构造大量的训练样本。

应理解，在实际应用中，除了可以基于动作视频获取GAN模型的训练样本外，也可以从存储有大量图像的数据库中，任意选取两张包括呈现特定动作姿态的对象的图像组成训练样本，本申请在此不对GAN模型训练样本的获取方式做任何限定。

步骤502：根据所述样本目标对象对应的模型姿态和所述样本参考对象对应的模型姿态，确定预测姿态转移矩阵。

服务器获取到训练样本后，可以采用人体三维模型算法对训练样本中的样本源图像和样本目标图像分别进行处理，以得到样本源图像中样本目标对象对应的三维模型作为样本目标对象对应的模型姿态，以及得到样本目标图像中样本参考对象对应的三维模型作为样本参考对象对应的模型姿态；进而，根据该目标对象对应的模型姿态和样本参考对象对应的模型姿态，确定预测姿态转移矩阵，该预测姿态转移矩阵能够表征样本目标对象与样本参考对象上相对应的位置之间的转移关系。

此处确定样本目标对象和样本参考对象各自对应的模型姿态的实现方式，与图2所示实施例中确定目标对象和参考对象各自对应的模型姿态的实现方式相同，此处不再赘述。此处确定预测姿态转移矩阵的实现方式，与图2所示实施例中确定姿态转移矩阵的实现方式相同，详细可参见图2所示实施例中步骤202的相关描述，此处也不再赘述。

应理解，在实际应用中，除了可以确定样本目标对象和样本参考对象各自对应的三维模型，作为样本目标对象和样本参考对象各自对应的模型姿态外，服务器还可以确定样本目标对象和样本参考对象各自对应的二维模型、四维模型等，作为样本目标对象和样本参考对象各自对应的模型姿态，本申请在此不对样本目标对象和样本参考对象各自对应的模型姿态做具体限定。

步骤503：通过初始生成对抗网络模型中的生成器，根据所述样本源图像和所述预测姿态转移矩阵生成预测合成图像。

服务器将训练样本中的样本源图像输入初始GAN网络模型中的生成器，通过该生成器中的特征提取模块提取样本源图像的全局特征，并从该全局特征中进一步提取出样本目标对象的外表特征。然后，利用上述预测姿态转移矩阵重新排列该样本目标对象的外表特征，将样本源图像中样本目标对象的外表特征相应地迁移至样本目标图像中对应的姿态位置上，得到迁移后的预测目标外表特征。进而，通过该生成器中的图像生成模块，根据该预测目标外表特征生成预测合成图像。

可选的，为了保证能够从样本源图像的全局特征中准确地提取出样本目标对象的外表特征，提高GAN模型的训练可靠度。服务器获取到训练样本后，可以先采用人体解析算法对样本源图像进行处理，确定其中样本目标对象上N个目标部位各自对应的分布区域位置，进而，在从样本源图像的全局特征中提取样本目标对象的外表特征时，根据这N个目标部位各自对应的分布区域位置，从该样本源图像的全局特征中提取这N个目标部位各自对应的局部特征，组成样本目标对象的外表特征。

可选的，利用预测姿态转移矩阵对样本目标对象的外表特征进行姿态转移，得到预测目标外表特征后，还可以进一步利用样本目标图像中样本参考对象的姿态特征对该目标外表特征进行校正。具体的，服务器可以利用初始GAN模型中生成器的特征提取模块，提取样本目标图像的全局特征，并从该全局特征中提取出样本参考对象的姿态特征；进而，通过该生成器中的图像生成模块，基于预测目标外表特征和该样本参考对象的姿态特征，生成预测合成图像。

此处通过初始GAN模型中的生成器提取样本源图像中样本目标对象的外表特征的实现方式，与图2所示实施例中提取源图像中目标对象的外表特征的实现方式相同，只不过本实施例中采用的是待训练的初始GAN模型，详细可参见图2所示实施例中步骤203的相关描述，此处不再赘述。此处利用预测姿态转移矩阵转换样本目标对象的外表特征的实现方式，与图2所示实施例中利用姿态转移矩阵转换基础外表特征的实现方式相同，详细可参见图2所示实施例中步骤204的相关描述，此处不再赘述。此处通过初始GAN模型中的生成器基于预测目标外表特征生成预测合成图像的实现方式，与图2所示实施例中基于目标外表特征生成目标合成图像的实现方式相同，只不过本实施例中采用的是待训练的初始GAN模型，详细可参见图2所示实施例中步骤205的相关描述，此处不再赘述。

步骤504：基于所述样本源图像、所述样本目标图像和所述预测合成图像中的至少两张图像，确定模型损失。

步骤505：基于所述模型损失，训练所述初始生成对抗网络模型中的生成器和判别器中的至少一个。

由于步骤504和步骤505关联度较高，因此，下面对步骤504和步骤505的具体实现方式综合起来介绍。服务器通过初始GAN模型中的生成器，基于样本源图像和预测姿态转移矩阵生成预测合成图像后，即可根据样本源图像、样本目标图像和预测合成图像中的至少两张图像，构建用于训练初始GAN模型的模型损失，并基于该模型损失对初始GAN模型中的生成器和判别器至少一个进行训练。

本申请实施例示例性地提供了以下几种用于训练生成器和/或判别器的模型损失，下面对这几种模型损失的构建方式以及相应的训练方式进行介绍。

第一种，判别损失；服务器可以通过初始GAN模型中的判别器，根据样本源图像和预测合成图像确定第一判别真实度；可以通过该初始GAN模型中的判别器，根据样本源图像和样本目标图像确定第二判别真实度；进而，根据该第一判别真实度和第二判别真实度构建判别损失，作为模型损失。对初始GAN模型进行训练时，可以基于该判别损失，训练该初始GAN模型中的生成器和判别器。

具体的，假设训练样本中的样本源图像为a，样本目标图像为b，通过初始GAN模型中的生成器生成的预测合成图像为a’，服务器可以将样本源图像a和预测合成图像a’划分至组A，将样本源图像a和样本目标图像b划分至组B。将组A中的样本源图像a和预测合成图像a’输入初始GAN模型中的判别器，得到该判别器输出的第一判别真实度Dr(A)，将组B中的样本源图像a和样本目标图像b输入初始GAN模型中的判别器，得到该判别器输出的第二判别真实度Dr(B)；应理解，上述第一判别真实度Dr(A)能够表征预测合成图像a’的真实度，第二判别真实度Dr(B)能够表征样本目标图像b的真实度，判别器输出的判别真实度的取值范围通常是0至1，判别真实度越高则表示输入图像是真实的可能性越大。进而，服务器可以通过式(1)计算判别损失Lr：

Lr＝Dr(A)-Dr(B)+1 (1)

服务器获得判别损失Lr后，可以使用该判别损失Lr同时训练初始GAN模型中的生成器和判别器，调整该初始GAN模型中生成器和判别器的模型参数。

第二种，全局损失；服务器获得初始GAN模型中生成器输出的预测合成图像后，即可根据该预测合成图像与样本目标图像之间的差异构建全局损失，作为模型损失。对初始GAN模型进行训练时，服务器可以基于该全局损失，训练该初始GAN模型中的生成器。

具体的，仍假设训练样本中的样本源图像为a，样本目标图像为b，通过初始GAN模型中的生成器生成的预测合成图像为a’。服务器可以基于预测合成图像a’的像素值和样本目标图像b的像素值，通过式(2)计算全局损失La：

La＝|a′-b|² (2)

服务器获得全局损失La后，可以使用该全局损失La训练初始GAN模型中的生成器，调整该初始GAN模型中生成器的模型参数。

第三种，部件局部损失；服务器获得初始GAN模型中生成器输出的预测合成图像后，可以确定该预测合成图像中预测目标对象上N个目标部位各自对应的分布区域位置，以及样本目标图像中样本参考对象上N个目标部位各自对应的分布区域位置；进而，针对上述N个目标部位中的每个目标部位，通过深度卷积神经网络模型，根据该目标部位在预测合成图像中的分布区域位置，提取预测合成图像中该目标部位的局部特征；通过该深度卷积神经网络模型，根据该目标部位在样本目标图像中的分布区域位置，提取样本目标图像中该目标部位的局部特征；根据预测合成图像中该目标部位的局部特征和样本目标图像中该目标部位的局部特征，确定该目标部位对应的部件局部损失，作为模型损失。对初始GAN模型进行训练时，服务器可以基于N个目标部位各自对应的部件局部损失，训练该初始GAN模型中的生成器。

具体的，仍假设训练样本中的样本源图像为a，样本目标图像为b，通过初始GAN模型中的生成器生成的预测合成图像为a’。服务器可以采用人体解析算法对预测合成图像a’进行解析，进而，根据解析结果得到N个掩膜矩阵，并基于这N个掩膜矩阵分别确定预测合成图像a’中预测目标对象上每个目标部位对应的分布区域位置，记为Sa1’；采用相同的方法对样本目标图像b进行处理，确定样本目标图像中样本参考对象上每个目标部位对应的分布区域位置，记为Sb1。将某目标部位对应的Sa1’输入已完成参数学习的VGG(VisualGeometry Group)网络，得到该VGG网络输出的局部特征Fv(a1’)，将该目标部位对应的Sb1输入该VGG网络，得到该VGG网络输出的局部特征Fv(b1)。进而，通过式(3)计算该目标部位对应的部件局部损失Lp1：

Lp1＝|Fv(a1’)-Fv(b1)|² (3)

服务器通过上述方式获得N个目标部位各自对应的部件局部损失Lp1后，可以使用N个目标部位各自对应的部件局部损失Lp1训练初始GAN模型中的生成器，调整该初始GAN模型中生成器的模型参数。

应理解，在实际应用中，除了可以使用VGG模型针对每个目标部位提取局部特征外，还可以使用其它深度卷积神经网络模型提取每个目标部位的局部特征，本申请在此不对提取局部特征时所使用的模型做具体限定。

第四种，部件全局损失；服务器获得初始GAN模型中生成器输出的预测合成图像后，可以确定该预测合成图像中预测目标对象上N个目标部位对应的分布区域位置，并通过深度卷积神经网络模型，根据预测合成图像中预测目标对象上N个目标部位对应的分布区域位置，确定第一部件全局特征；确定该样本目标图像中样本参考对象上N个目标部位对应的分布区域位置，通过该深度卷积神经网络模型，根据该样本目标图像中样本参考对象上N个目标部位对应的分布区域位置，确定第二部件全局特征；进而，根据上述第一部件全局特征和第二部件全局特征构建部件全局损失，作为模型损失。对初始GAN模型进行训练时，服务器可以基于该部件全局损失，训练该初始GAN模型中的生成器。

具体的，仍假设训练样本中的样本源图像为a，样本目标图像为b，通过初始GAN模型中的生成器生成的预测合成图像为a’。服务器可以采用人体解析算法对预测合成图像a’进行解析，进而，根据解析结果得到N个掩膜矩阵，并基于这N个掩膜矩阵确定预测合成图像a’中预测目标对象上N个目标部位整体对应的分布区域位置，记为Sa2’；采用相同的方法对样本目标图像b进行处理，确定样本目标图像中样本参考对象上N个目标部位整体对应的分布区域位置，记为Sb2。将Sa2’输入已完成参数学习的VGG(Visual Geometry Group)网络，得到该VGG网络输出的第一部件全局特征Fv(a2’)，将Sb2输入该VGG网络，得到该VGG网络输出的第二部件全局特征Fv(b2)。进而，通过式(4)计算该目标部位对应的部件全局损失Lp2：

Lp2＝|Fv(a2’)-Fv(b2)|² (4)

服务器获得部件全局损失Lp2后，可以使用该部件全局损失Lp2训练初始GAN模型中的生成器，调整该初始GAN模型中生成器的模型参数。

应理解，在实际应用中，除了可以使用VGG模型提取部件全局特征外，还可以使用其它深度卷积神经网络模型提取部件全局特征，本申请在此不对提取部件全局特征时所使用的模型做具体限定。

第五种，面部损失；服务器获得初始GAN模型中生成器输出的预测合成图像后，可以通过人脸识别网络模型，根据预测合成图像确定其中预测目标对象的面部特征作为第一面部特征；通过该人脸识别网络，根据样本源图像确定其中样本目标对象的面部特征作为第二面部特征；进而，根据该第一面部特征和第二面部特征确定面部损失，作为模型损失。对初始GAN模型进行训练时，服务器可以基于该面部损失，训练该初始GAN模型中的生成器。

具体的，仍假设训练样本中的样本源图像为a，样本目标图像为b，通过初始GAN模型中的生成器生成的预测合成图像为a’。服务器可以将预测合成图像a’输入已完成参数学习的ArcFace网络中，得到该ArcFace网络输出的预测目标对象的面部特征Fa(a’)，将样本源图像a输入该ArcFace网络中，得到该ArcFace网络输出的样本目标对象的面部特征Fa(a)。进而，通过式(5)计算面部损失Lf：

Lf＝|Fa(a’)-Fa(a)|² (5)

服务器获得面部损失Lf后，可以使用该面部损失Lf训练初始GAN模型中的生成器，调整该初始GAN模型中生成器的模型参数。

应理解，在实际应用中，除了可以使用ArcFace网络提取图像中对象的面部特征外，还可以使用其它人脸识别网络模型提取面部特征，本申请在此不对提取面部特征时所使用的模型做具体限定。

需要说明的是，在实际应用中，服务器可以采用上述五种模型损失中的至少一种模型损失，对初始GAN模型中的生成器和/或判别器进行训练；此外，除了上述五种模型损失外，服务器还可以基于预测目标图像、样本源图像和样本目标图像中的至少两张图像，确定其它模型损失，并利用所确定的模型损失训练初始GAN模型中的生成器和/或判别器，本申请在此不对训练初始GAN模型时所使用的模型损失做任何限定。

采用不同的训练样本重复执行上述步骤501至步骤505，对初始GAN模型进行反复迭代训练，直至该初始GAN模型满足训练结束条件，即可获得可以投入实际使用的GAN模型。应理解，此处的训练结束条件可以是指初始GAN模型的所生成的图像准确度达到预设准确度，也可以是指所使用的训练样本量达到预设数量，本申请在此不对该训练结束条件做具体限定。

本申请实施例提供的GAN模型训练方法，可以基于多种模型损失对初始GAN模型的模型参数进行训练调整，以保证训练得到的GAN模型具备更优的性能，能够生成效果更好的合成图像。基于部件局部损失和/或部件全局损失对初始GAN模型进行训练，可以有效地增强生成图像中各部位(如衣服、手部等)的纹理细节表示，基于面部损失对初始GAN模型进行训练，可以有效地增强生成图像中人物面部的清晰度，并且减少人物姿态迁移过程中可能产生的面部形变，增强生成图像中人物的可辨识度。

为了便于进一步理解上述GAN模型训练方法，下面对上述GAN模型训练方法进行整体示例性介绍。

参见图6，图6为本申请实施例提供的GAN模型训练方法的原理示意图。如图6所示，该GAN模型训练方法包括以下步骤：

步骤1：服务器可以针对某动作视频中的每一视频帧，采用人体三维模型算法确定该视频帧中对象对应的人体三维模型，并且采用人体解析算法确定该视频帧对应的人体解析结果，即该视频帧中对象上N个目标部位各自对应的分布区域位置。将该动作视频中的每一视频帧与该动作视频中的其它视频帧组成帧对，如此构造大量的帧对作为初始GAN模型的训练样本，每个帧对中包括样本源图像a和样本目标图像b。

步骤2：从所构造的帧对中任意选取一个帧对，将该帧对中的样本源图像a输入初始GAN模型中的生成器，通过该生成器中的特征提取模块提取该样本源图像a的全局特征；进而，结合该样本源图像a对应的人体解析结果，从该样本源图像a的全局特征中提取出人体外表特征。与此同时，服务器可以根据该帧对内样本源图像a中对象对应的三维模型和样本目标图像b中对象对应的三维模型，确定预测姿态转移矩阵。利用该姿态转移矩阵，对从样本源图像a中提取出的人体外表特征进行重新排列，得到预测目标外表特征。

步骤3：:服务器将该帧对中的样本目标图像b输入初始GAN模型中的生成器，通过该生成器中的特征提取模块提取该样本目标图像b的全局特征，并从该全局特征中进一步提取出样本目标图像b中对象的人体姿态特征。最终，通过生成器中的图像生成模块，基于上述预测目标外表特征和样本目标图像b中对象的人体姿态特征，生成预测合成图像a’。

步骤4：将样本源图像a和预测合成图像a’划分至组A，将样本目标图像b和样本源图像a划分至组B，将组A中的图像输入初始GAN模型中的判别器，得到该判别器输出的真实度Dr(A)，将组B中的图像输入初始GAN模型中的判别器，得到该判别器输出的真实度Dr(B)，进而，通过下式确定判别损失Lr：

Lr＝Dr(A)-Dr(B)+1

步骤5：基于预测合成图像a’的像素值和样本目标图像b的像素值，通过下式确定全局损失La：

La＝|a′-b|²

步骤6：采用人体解析算法对预测合成图像a’进行人体解析，得到人体解析结果，根据该人体解析结果得到N个掩膜矩阵，并从预测合成图像a’中提取出N个目标部位的分布位置区域，记为Sa’；采用同样的方法对样本目标图像b进行处理，从样本目标图像b中提取出N个目标部位的分布位置区域，记为Sb。将Sa’和预测合成图像a’输入预先训练好的VGG网络，得到该VGG网络输出的部件特征Fv(a’)，将Sb和样本目标图像b输入预先训练好的VGG网络，得到该VGG网络输出的部件特征Fv(b)，进而基于部件特征Fv(a’)和Fv(b)通过下式确定部件损失Lp：

Lp＝|Fv(a’)-Fv(b)|²

步骤7：将预测合成图像a’和样本源图像a分别输入预先训练好的ArcFace网络，得到该ArcFace网络输出的面部特征Fa(a’)和Fa(a)，进而，通过下式确定面部损失Lf：

Lf＝|Fa(a’)-Fa(a)|²

步骤8：使用判别损失Lr同时训练初始GAN模型中的生成器和判别器，使用全局损失La、部件损失Lp和面部损失Lf训练初始GAN模型中的生成器。

步骤9：重复执行上述步骤2至步骤8，直至将所构造的每一帧对都投入训练。

步骤10：选取更多的动作视频，重复执行上述步骤1至步骤9，直至判别损失Lr、全局损失La、部件损失Lp和面部损失Lf均稳定，此时，确定完成对于初始GAN模型的训练，得到可以投入实际应用的GAN模型。

针对上文描述的基于人工智能的图像生成方法，本申请还提供了对应的基于人工智能的图像生成装置，以使上述图像生成方法在实际中得以应用和实现。

参见图7，图7是与上文图2所示的图像生成方法对应的一种图像生成装置700的结构示意图，该图像生成装置包括：

图像获取模块701，用于获取源图像和目标图像；所述源图像中包括待转换姿态的目标对象，所述目标图像中包括呈现目标姿态的参考对象；

转换矩阵确定模块702，用于根据所述目标对象对应的模型姿态和所述参考对象对应的模型姿态，确定姿态转移矩阵；

外表特征提取模块703，用于通过生成器从所述源图像中提取所述目标对象的外表特征，作为基础外表特征；

外表特征处理模块704，用于基于所述姿态转移矩阵处理所述基础外表特征，得到目标外表特征；

图像合成模块705，用于通过所述生成器基于所述目标外表特征生成目标合成图像。

可选的，在图7所示的图像生成装置的基础上，所述外表特征提取模块703具体用于：

通过所述生成器确定所述源图像的全局特征；

从所述源图像的全局特征中提取所述目标对象的外表特征，作为所述基础外表特征。

可选的，在图7所示的图像生成装置的基础上，参见图8，图8为本申请实施例提供的另一种图像生成装置800的结构示意图。如图8所示，所述装置还包括：

对象解析模块801，用于确定所述源图像中所述目标对象上N个目标部位各自对应的分布区域位置，所述N为大于1的整数；

则所述外表特征提取模块703具体用于：

根据所述N个目标部位各自对应的分布区域位置，从所述源图像的全局特征中提取所述N个目标部位各自对应的局部特征，组成所述基础外表特征。

可选的，在图7所示的图像生成装置的基础上，所述图像合成模块705具体用于：

获取所述目标图像中所述参考对象的姿态特征；所述参考对象的姿态特征是从所述目标图像的全局特征中提取出来的，所述目标图像的全局特征是通过所述生成器确定的；

通过所述生成器基于所述参考对象的姿态特征和所述目标外表特征，生成目标合成图像。

可选的，在图7所示的图像生成装置的基础上，所述目标图像为目标动作视频中的一帧目标视频帧，所述目标合成图像对应于该帧目标视频帧。参见图9，图9为本申请实施例提供的另一种图像生成装置900的结构示意图。如图9所示，所述装置还包括：

视频合成模块901，用于在所述图像合成模块705生成所述目标动作视频中各帧目标视频帧各自对应的目标合成图像后，按照所述目标视频中各帧目标视频帧的时间排列顺序，排列所述各帧目标视频帧各自对应的目标合成图像，得到目标合成视频。

可选的，在图7所示的图像生成装置的基础上，参见图10，图10为本申请实施例提供的另一种图像生成装置1000的结构示意图。如图10所示，所述装置还包括训练模块1001，所述训练模块1001包括：

样本获取单元，用于获取训练样本；所述训练样本中包括样本源图像和样本目标图像，所述样本源图像中包括待转换姿态的样本目标对象，所述样本目标图像中包括呈现目标转换姿态的样本参考对象；

姿态转移矩阵确定单元，用于根据所述样本目标对象对应的模型姿态和所述样本参考对象对应的模型姿态，确定预测姿态转移矩阵；

预测图像合成单元，用于通过初始生成对抗网络模型中的生成器，根据所述样本源图像和所述预测姿态转移矩阵生成预测合成图像；

模型损失确定单元，用于基于所述样本源图像、所述样本目标图像和所述预测合成图像中的至少两张图像，确定模型损失；

训练单元，用于基于所述模型损失，训练所述初始生成对抗网络模型中的生成器和判别器中的至少一个。

可选的，在图10所示的图像生成装置的基础上，所述模型损失确定单元具体用于：

通过所述初始生成对抗网络模型中的判别器，根据所述样本源图像和所述预测合成图像，确定第一判别真实度；

通过所述初始生成对抗网络模型中的判别器，根据所述样本源图像和所述样本目标图像，确定第二判别真实度；

根据所述第一判别真实度和所述第二判别真实度，构建判别损失，作为所述模型损失；

则所述训练单元具体用于：

基于所述判别损失，训练所述初始生成对抗网络模型中的生成器和判别器。

根据所述预测合成图像与所述样本目标图像之间的差异，构建全局损失，作为所述模型损失；

则所述训练单元具体用于：

基于所述全局损失，训练所述初始生成对抗网络模型中的生成器。

确定所述预测合成图像中预测目标对象上N个目标部位各自对应的分布区域位置，以及所述样本目标图像中所述样本参考对象上所述N个目标部位各自对应的分布区域位置；所述N为大于1的整数；

针对所述N个目标部位中的每个目标部位，通过深度卷积神经网络模型，根据该目标部位在所述预测合成图像中的分布区域位置，提取所述预测合成图像中该目标部位的局部特征；通过所述深度卷积神经网络模型，根据该目标部位在所述样本目标图像中的分布区域位置，提取所述样本目标图像中该目标部位的局部特征；根据所述预测合成图像中该目标部位的局部特征和所述样本目标图像中该目标部位的局部特征，确定该目标部位对应的部件局部损失，作为所述模型损失；

则所述训练单元具体用于：

基于所述N个目标部位各自对应的部件局部损失，训练所述初始生成对抗网络模型中的生成器。

确定所述预测合成图像中预测目标对象上N个目标部位对应的分布区域位置；通过深度卷积神经网络模型，根据所述预测合成图像中所述预测目标对象上N个目标部位对应的分布区域位置，确定第一部件全局特征；所述N为大于1的整数；

确定所述样本目标图像中所述样本参考对象上所述N个目标部位对应的分布区域位置；通过所述深度卷积神经网络模型，根据所述样本目标图像中所述样本参考对象上所述N个目标部位对应的分布区域位置，确定第二部件全局特征；

根据所述第一部件全局特征和所述第二部件全局特征，构建部件全局损失，作为所述模型损失；

则所述训练单元具体用于：

基于所述部件全局损失，训练所述初始生成对抗网络模型中的生成器。

通过人脸识别网络模型，根据所述预测合成图像确定预测目标对象的面部特征，作为第一面部特征；

通过所述人脸识别网络模型，根据所述样本源图像确定所述样本目标对象的面部特征，作为第二面部特征；

根据所述第一面部特征和所述第二面部特征，确定面部损失，作为所述模型损失；

则所述训练单元具体用于：

基于所述面部损失，训练所述初始生成对抗网络模型中的生成器。

本申请实施例提供的图像生成装置另辟蹊径地基于人物的模型姿态进行人物姿态迁移，由于模型姿态相比姿态热力图能够更准确地表征人物姿态，因此，本申请实施例提供的装置能够更加准确地进行人物姿态转换，保证转换后的人物姿态与目标图像中参考对象呈现的目标姿态更相符，保证经人物姿态迁移后生成的目标合成图像具有更好的效果。

本申请实施例还提供了一种用于生成图像的设备，该设备具体可以为服务器和终端设备，下面将从硬件实体化的角度对本申请实施例提供的服务器和终端设备进行介绍。

参见图11，图11为本申请实施例提供的一种服务器1100的结构示意图。该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。

其中，CPU 1122用于执行如下步骤：

通过所述生成器基于所述目标外表特征生成目标合成图像。

可选的，CPU 1122还可以用于执行本申请实施例提供的基于人工智能的图像生成方法的任意一种实现方式的步骤。

参见图12，图12为本申请实施例提供的一种终端设备的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括智能手机、计算机、平板电脑、个人数字助理等任意终端设备，以终端为手机为例：

图12示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图12，手机包括：射频(Radio Frequency，RF)电路1210、存储器1220、输入单元1230、显示单元1240、传感器1250、音频电路1260、无线保真(wireless fidelity，WiFi)模块1270、处理器1280、以及电源1290等部件。本领域技术人员可以理解，图12中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1220可用于存储软件程序以及模块，处理器1280通过运行存储在存储器1220的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1280是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1220内的软件程序和/或模块，以及调用存储在存储器1220内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1280可包括一个或多个处理单元；优选的，处理器1280可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1280中。

在本申请实施例中，该终端所包括的处理器1280还具有以下功能：

通过所述生成器基于所述目标外表特征生成目标合成图像。

可选的，所述处理器1280还用于执行本申请实施例提供的基于人工智能的图像生成方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种基于人工智能的图像生成方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种基于人工智能的图像生成方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于人工智能的图像生成方法，其特征在于，所述方法包括：

通过所述生成器基于所述目标外表特征生成目标合成图像。

2.根据权利要求1所述的方法，其特征在于，所述通过生成器从所述源图像中提取所述目标对象的外表特征，作为基础外表特征，包括：

通过所述生成器确定所述源图像的全局特征；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

确定所述源图像中所述目标对象上N个目标部位各自对应的分布区域位置，所述N为大于1的整数；

则所述从所述源图像的全局特征中提取所述目标对象的外表特征，作为所述基础外表特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述通过所述生成器基于所述目标外表特征生成目标合成图像，包括：

5.根据权利要求1所述的方法，其特征在于，所述目标图像为目标动作视频中的一帧目标视频帧，所述目标合成图像对应于该帧目标视频帧；

在生成所述目标动作视频中各帧目标视频帧各自对应的目标合成图像后，所述方法还包括：

按照所述目标视频中各帧目标视频帧的时间排列顺序，排列所述各帧目标视频帧各自对应的目标合成图像，得到目标合成视频。

6.根据权利要求1所述的方法，其特征在于，所述目标对象对应的模型姿态包括：所述目标对象对应的三维模型；所述参考对象对应的模型姿态包括：所述参考对象对应的三维模型。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述生成器属于生成对抗网络模型，通过以下方式训练所述生成对抗网络模型：

获取训练样本；所述训练样本中包括样本源图像和样本目标图像，所述样本源图像中包括待转换姿态的样本目标对象，所述样本目标图像中包括呈现目标转换姿态的样本参考对象；

根据所述样本目标对象对应的模型姿态和所述样本参考对象对应的模型姿态，确定预测姿态转移矩阵；

通过初始生成对抗网络模型中的生成器，根据所述样本源图像和所述预测姿态转移矩阵生成预测合成图像；

基于所述样本源图像、所述样本目标图像和所述预测合成图像中的至少两张图像，确定模型损失；

基于所述模型损失，训练所述初始生成对抗网络模型中的生成器和判别器中的至少一个。

8.根据权利要求7所述的方法，其特征在于，所述基于所述样本源图像、所述样本目标图像和所述预测合成图像中的至少两张图像，确定模型损失，包括：

则所述基于所述模型损失，训练所述初始生成对抗网络模型中的生成器和判别器中的至少一个，包括：

9.根据权利要求7所述的方法，其特征在于，所述基于所述样本源图像、所述样本目标图像和所述预测合成图像中的至少两张图像，确定模型损失，包括：

10.根据权利要求7所述的方法，其特征在于，所述基于所述样本源图像、所述样本目标图像和所述预测合成图像中的至少两张图像，确定模型损失，包括：

11.根据权利要求7所述的方法，其特征在于，所述基于所述样本源图像、所述样本目标图像和所述预测合成图像中的至少两张图像，确定模型损失，包括：

12.根据权利要求7所述的方法，其特征在于，所述基于所述样本源图像、所述样本目标图像和所述预测合成图像中的至少两张图像，确定模型损失，包括：

13.一种基于人工智能的图像生成装置，其特征在于，所述装置包括：

14.一种设备，其特征在于，所述设备包括处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至12中任一项所述的基于人工智能的图像生成方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至12中任一项所述的基于人工智能的图像生成方法。