CN110599395A

CN110599395A - 目标图像生成方法、装置、服务器及存储介质

Info

Publication number: CN110599395A
Application number: CN201910875771.8A
Authority: CN
Inventors: 卢丽莹; 刘枢; 贾佳亚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2019-12-20
Anticipated expiration: 2039-09-17
Also published as: US20220084163A1; WO2021052375A1; CN110599395B

Abstract

本发明提供了一种目标图像生成方法、人体姿态变换方法、装置、服务器及存储介质，属于机器视觉技术领域。在本发明实施例提供的方案，通过第一图像生成模型预测第一变换参数，基于该第一变换参数对第一解析图像进行调整，使得该第一解析图像和生成的目标解析图像之间姿态对齐。通过第二图像生成模型，根据第一图像生成模型得到的目标解析图像，来预测第二变换参数，基于该第二变换参数对组合后的待处理图像和第一解析图像进行调整，使得待处理图像和生成的目标图像之间像素对齐，具有更好的图像细节。由于变换前后解析图像保持姿态对齐，可以使变换前后的图像保持空间对齐，从而使得生成的目标图像既保证了空间对齐又保证了细节清晰。

Description

目标图像生成方法、装置、服务器及存储介质

技术领域

本发明涉及机器视觉技术领域，特别涉及一种目标图像生成方法、人体姿态变换方法、装置、服务器及存储介质。

背景技术

在机器视觉领域中，人体姿态迁移技术是一个非常热门的话题。人体姿态迁移简单来说，就是给定一幅含有人物的图片和一个目标姿态，将图片内人物转换成目标姿态的样子。当然，人体姿态迁移不仅可以改变图片中人物的姿态，还可以改变视频中人物的姿态。例如，给定一段专业舞者的视频作为目标视频和一段业余舞者的视频，通过人体姿态迁移可以使业余舞者的动作和专业舞者的动作一样。

目前，在对图像中人物进行姿态迁移时，可以将包含人物的图像和目标姿态图像直接输入到GAN(Generative Adversarial Networks，生成式对抗网络，一种深度学习模型)网络中，由该GAN网络输出姿态迁移后的图像。然而，如何生成高质量的图像仍是一个具有挑战性的任务：当转换前后人体姿态的变化幅度较大、部分图像的背景较为复杂，在使用上述GAN网络对人物进行大幅度的姿态迁移时，会出现迁移前后空间不对齐，且生成的图像的纹理信息缺少高频部分，导致图像细节不清晰等问题。

发明内容

本发明实施例提供了一种目标图像生成方法、人体姿态变换方法、装置、服务器及存储介质，用于解决目前当转换前后人体姿态的变化幅度较大、部分图像的背景较为复杂，在使用上述GAN网络对人物进行大幅度的姿态迁移时，会出现迁移前后空间不对齐，且生成的图像的纹理信息缺少高频部分，导致图像细节不清晰等问题。所述技术方案如下：

一方面，提供了一种目标图像生成方法，包括：

基于待处理图像，获取第一解析图像和第一姿态图像，所述第一解析图像为已标注有所述待处理图像中对象的各部位的图像，所述第一姿态图像包括所述对象在所述待处理图像中的姿态；

将所述第一解析图像、所述第一姿态图像和包括目标姿态的第二姿态图像输入第一图像生成模型，由所述第一图像生成模型预测所述第一姿态图像变换到所述第二姿态图像的第一变换参数，基于所述第一变换参数对所述第一解析图像进行调整，得到目标解析图像，所述目标解析图像中所述对象的各部位的姿态为所述目标姿态；

将所述待处理图像和所述第一解析图像组合得到的第一组合图像，将所述第二姿态图像和所述目标解析图像组合得到的第二组合图像；

将所述第一组合图像和所述第二组合图像输入第二图像生成模型，由所述第二图像生成模型预测所述第一解析图像变换到所述目标解析图像的第二变换参数，基于所述第二变换参数和所述第二组合图像对所述第一组合图像进行调整，得到目标图像，所述目标图像中对象的姿态为所述目标姿态。

另一方面，提供了一种人体姿态变换方法，其特征在于，所述方法包括：

基于第一人体图像，获取第二解析图像和第三姿态图像，所述第二解析图像为已标注有所述第一人体图像中人体的各部位的图像，所述第三姿态图像包括所述人体在所述第一人体图像中的姿态；

预测所述第三姿态图像变换到包括目标人体姿态的第四姿态图像的第三变换参数，基于所述第三变换参数对所述第二解析图像进行调整，得到第三解析图像，所述第三解析图像中所述人体的各部位的姿态为所述目标人体姿态；

将所述第一人体图像和所述第二解析图像组合得到第三组合图像，将所述第四姿态图像和所述第三解析图像组合得到第四组合图像；

预测所述第二解析图像变换到所述第三解析图像的第四变换参数，基于所述第四变换参数和所述第四组合图像对所述第三组合图像进行调整，得到第二人体图像，所述第二人体图像中的人体的姿态为所述目标人体姿态。

另一方面，提供了一种目标图像生成装置，包括：

第一图像获取模块，用于基于待处理图像，获取第一解析图像和第一姿态图像，所述第一解析图像为已标注有所述待处理图像中对象的各部位的图像，所述第一姿态图像包括所述对象在所述待处理图像中的姿态；

第一图像变换模块，用于将所述第一解析图像、所述第一姿态图像和包括目标姿态的第二姿态图像输入第一图像生成模型，由所述第一图像生成模型预测所述第一姿态图像变换到所述第二姿态图像的第一变换参数，基于所述第一变换参数对所述第一解析图像进行调整，得到目标解析图像，所述目标解析图像中所述对象的各部位的姿态为所述目标姿态；

第一图像组合模块，用于将所述待处理图像和所述第一解析图像组合得到的第一组合图像，将所述第二姿态图像和所述目标解析图像组合得到的第二组合图像；

所述第一图像变换模块，还用于将所述第一组合图像和所述第二组合图像输入第二图像生成模型，由所述第二图像生成模型预测所述第一解析图像变换到所述目标解析图像的第二变换参数，基于所述第二变换参数和所述第二组合图像对所述第一组合图像进行调整，得到目标图像，所述目标图像中对象的姿态为所述目标姿态。

在一种可选的实现方式中，所述第一图像变换模块，还用于将所述第一姿态图像和所述第二姿态图形输入第一卷积神经网络，预测所述第一姿态图像变换到所述第二姿态图像的第一变换参数；由所述第一图像生成模型对所述第一解析图像进行编码，得到第一编码图像，对所述第一姿态图像进行编码得到第二编码图像；基于所述第一变换参数，将所述第一编码图像变换为第三编码图像；将所述第二编码图像和所述第三编码图像进行残差处理，得到第四编码图像；对所述第四编码图像进行解码。

在另一种可选的实现方式中，所述第一图像变换模块，还用于基于所述第一变换参数，生成第一网格图，所述第一网格图中每个顶点的坐标值用于指示所述顶点在所述第一编码图像中对应的位置；根据所述第一网格图，将所述第一编码图像中各像素点变换到所述第一网格图中对应的位置，得到第三编码图像。

在另一种可选的实现方式中，所述第一图像变换模块，还用于将所述第一解析图像和所述目标解析图像输入第二卷积神经网络，预测所述人体解析图像变换到所述目标解析图像的第二变换参数；由所述第二图像生成模型对所述第一组合图像进行编码，得到第五编码图像，对所述第二组合图像进行编码，得到第六编码图像；基于所述第二变换参数，将所述第五编码图像变换为第七编码图像；将所述第六编码图像和所述第七编码图像进行残差处理，得到第八编码图像；对所述第八编码图像进行编码。

在另一种可选的实现方式中，所述第一图像变换模块，还用于基于所述第二变换参数，生成第二网格图，所述第二网格图中每个顶点的坐标值用于指示所述顶点在所述第五编码图像中对应的位置；根据所述第二网格图，将所述第四编码图像中各像素点变换到所述第二网格图中对应的位置，得到第七编码图像。

在另一种可选的实现方式中，所述装置还包括模型训练模块，用于基于第一样本图像，获取第一样本解析图像和第一样本姿态图像，所述第一样本图像为多个样本图像中的任一样本图像，所述第一样本解析图像为已标注有所述第一样本图像中对象的各部位的图像，所述第一样本姿态图像包括所述对象在所述第一样本图像中的姿态；基于第二样本图像，获取第二样本解析图像和第二样本姿态图像，所述第二样本图像为与所述第一样本图像包括同一对象的目标图像，所述第二样本解析图像为已标注有所述第二样本图像中对象的各部位的图像，所述第二样本姿态图像包括所述对象在所述第二样本图像中的姿态；将所述第一解析图像、所述第一样本姿态图像和所述第二样本姿态图像输入待训练的第一模型，由所述第一模型输出第三样本解析图像；对所述第二样本解析图像和所述第三样本解析图像进行一致性检测，根据检测结果调整第一训练参数，直到得到所述第一图像生成模型。

在另一种可选的实现方式中，所述模型训练模块，还用于将所述第一样本图像和所述第一样本解析图像组合得到第一样本组合图像，将所述第三样本解析图像和所述第二样本姿态图像组合得到第二样本组合图像；将所述第一样本组合图像和所述第二样本组合图像输入待训练的第二模型，由所述第二模型输出训练结果图像；对所述训练结果图像和所述第二样本图像进行一致性检测，根据检测结果调整第二训练参数，直到得到所述第二图像生成模型。

在另一种可选的实现方式中，所述模型训练模块，还用于将所述训练结果图像的尺寸调整为多个目标尺寸，得到多个尺寸的训练结果图像；将所述多个尺寸的训练结果图像分别与所述第二样本图像进行一致性检测。

另一方面，提供了一种人体姿态变换装置，其特征在于，所述装置包括：

第二图像获取模块，用于基于第一人体图像，获取第二解析图像和第三姿态图像，所述第二解析图像为已标注有所述第一人体图像中人体的各部位的图像，所述第三姿态图像包括所述人体在所述第一人体图像中的姿态；

第二图像变换模块，用于预测所述第三姿态图像变换到包括目标人体姿态的第四姿态图像的第三变换参数，基于所述第三变换参数对所述第二解析图像进行调整，得到第三解析图像，所述第三解析图像中所述人体的各部位的姿态为所述目标人体姿态；

第二图像组合模块，用于将所述第一人体图像和所述第二解析图像组合得到第三组合图像，将所述第四姿态图像和所述第三解析图像组合得到第四组合图像；

所述第二图像变换模块，还用于预测所述第二解析图像变换到所述第三解析图像的第四变换参数，基于所述第四变换参数和所述第四组合图像对所述第三组合图像进行调整，得到第二人体图像，所述第二人体图像中的人体的姿态为所述目标人体姿态。

另一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器用于存储程序代码，所述程序代码由所述处理器加载并执行以实现本发明实施例中的目标图像生成方法中所执行的操作。

另一方面，提供了一种存储介质，所述存储介质中存储有程序代码，所述程序代码用于执行本发明实施例中的目标图像生成方法。

另一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器用于存储程序代码，所述程序代码由所述处理器加载并执行以实现本发明实施例中的人体姿态变换方法中所执行的操作。

另一方面，提供了一种存储介质，所述存储介质中存储有程序代码，所述程序代码用于执行本发明实施例中的人体姿态变换方法。

本发明实施例提供的技术方案带来的有益效果是：

通过第一图像生成模型预测第一变换参数，基于该第一变换参数对第一解析图像进行调整，使得该第一解析图像和生成的目标解析图像之间姿态对齐。通过第二图像生成模型，根据第一图像生成模型得到的目标解析图像，来预测第二变换参数，基于该第二变换参数对组合后的待处理图像和第一解析图像进行调整，使得待处理图像和生成的目标图像之间像素对齐，具有更好的图像细节。由于变换前后解析图像保持姿态对齐，可以使变换前后的图像保持空间对齐，从而使得最终生成的目标图像既保证了空间对齐又保证了细节清晰。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种目标图像生成方法的实施环境的示意图；

图2是本发明实施例提供的一种目标图像生成方法的流程图；

图3是本发明实施例提供的一种人体解析图像的示意图；

图4是本发明实施例提供的一种姿态图像的示意图；

图5是本发明实施例提供的一种第一几何形变模块的示意图；

图6是本发明实施例提供的一种第一图像生成模型的结构示意图；

图7是本发明实施例提供的一种第一判别器的示意图；

图8是本发明实施例提供的一种第二几何形变模块的示意图；

图9是本发明实施例提供的一种第二图像生成模型的结构示意图；

图10是本发明实施例提供的一种多尺度判别器的示意图；

图11是本发明实施例示出的一种黑盒模型的示意图；

图12是本发明实施例提供的一种人体姿态变换方法的流程图；

图13是本发明实施例提供的一种目标图像生成装置的框图；

图14是本发明实施例提供的一种人体姿态变换装置的框图；

图15是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明实施例主要涉及目标图像生成的场景，具体的，涉及的场景为：将给定的图像中的对象，由当前姿态变换为给定姿态，得到包括给定姿态的该对象的图像。其中，该对象可以是人物、动物或者植物等。例如，给定一张人物A的侧身图，并给定一张人物B的正身图，需要根据人物B的姿势，将人物A由侧身姿势变换为正身姿势，从而生成一张人物A的正身图。

在本发明实施例中，通过给定的包括目标姿态的图像，将待处理图像中的对象的姿态进行变换，来生成包括目标姿态的对象的目标图像的过程可以分为两个阶段，第一个阶段通过第一图像生成模型实现，将已标注有待处理图像中对象的各部位的第一解析图像、包括对象在待处理图像中的姿态的第一姿态图像和包括目标姿态的第二姿态图像输入该第一图像生成模型，生成该对象的各部位的姿态符合目标姿态的目标解析图像；第二个阶段通过第二图像生成模型实现，将待处理图像和第一解析图像进行组合，将第一姿态图像和目标解析图像进行组合，将组合后的图像分别输入第二图像生成模型，生成对象的姿态为目标姿态的目标图像。

本发明属于机器视觉技术领域，下面简单介绍一下机器视觉技术，机器视觉(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。机器视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(OpticalCharacter Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维图形(Three-Dimensional，3D)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

图1是本发明实施例提供的一种目标图像生成方法的实施环境的示意图，参见图1，该实施环境中包括：终端110和服务器120。

终端110可以通过无线网络或有线网络与服务器120相连。终端110可以是智能手机、摄像机、台式计算机、平板电脑、MP4播放器和膝上型便携计算机中的至少一种。终端110安装和运行有用于图像处理功能的应用程序。该应用程序可以是社交类应用程序、图像处理类应用程序或者视频处理类应用程序等。示意性的，终端110可以是用户使用的终端，终端110运行的应用程序内登录有该用户的账号。

服务器120包括一台服务器、多台服务器和云计算平台中的至少一种。服务器120用于提供目标图像生成的后台服务。可选的服务器120承担主要的目标图像生成工作，终端110承担次要的目标图像生成工作；或者服务器120承担次要的目标图像生成工作，终端110承担主要的目标图像生成工作；或者，服务器120和终端110分别可以单独承担目标图像生成工作。

可选的，服务器120包括：接入服务器、图像生成服务器和数据库。接入服务器用于提供终端110的接入服务。图像生成服务器用于根据用户上传的待处理图像和目标姿态图像，生成符合目标姿态的目标图像。图像生成服务器可以是一台或多台，当图像生成服务器是多台时，存在至少两台图像生成服务器用于提供不同的服务，和/或，存在至少两台图像生成服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务或者以主服务器和镜像服务器的方式提供同一种服务，本发明实施例对此不加以限定。数据库用于存储用户上传的待处理图像、目标姿态图像以及生成的目标图像。数据库存储的信息为用户已授权使用的信息。

终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端110可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端。本公开实施例对终端的数量和类型不加以限定。

图2是本发明实施例提供的一种目标图像生成方法的流程图，如图2所示。

该方法包括以下步骤：

201、服务器接收终端发送的待处理图像，基于待处理图像获取第一解析图像和第一姿态图像，该第一解析图像为已标注待处理图像中对象的各部位的图像，该第一姿态图像包括该对象在该待处理图像中的姿态。

在本发明实施例中，用户可以通过终端中的应用程序向服务器发送图像生成请求，该图像生成请求中可以包括上述待处理图像。服务器在接收到上述图像生成请求时，可以从该图像生成请求中获取该待处理图像。

相应的，本步骤可以通过以下子步骤来完成：

在步骤201a中，服务器可以对该待处理图像进行解析，将待处理图像中的对象的各部位分别标注，得到第一解析图像。例如，以该对象为人体为例进行说明，服务器通过不同颜色的区域来区分该人体的不同部位，如头部、脸部、躯干、手臂、腿部和脚等。为了更好的理解该第一人体解析图像，可以参见图3所示，图3是本发明实施例提供的一种人体解析图像的示意图，图中包括一个人体，该人体的各个部位被划分为多个区域，每个区域可以用不同的颜色来表示。

在步骤202b中，服务器可以对该待处理图像进行姿态提取，将待处理图像中的对象的姿态抽象为位置点，该位置点可以与对象的姿态相对应。例如，以该对象为人体为例进行说明，服务器可以将人体的多个部位抽象为位置点，如关节部位、眼睛、嘴巴等。

在一种可选的实现方式中，服务器还可以获取第二姿态图像，该第二姿态图像为包括目标姿态的图像。服务器可以由预设的至少一个姿态图像得到该第二姿态图像，也可以由终端上传的目标姿态图像得到该第二姿态图像。

相应的，服务器由预设的至少一个姿态图像得到该第二姿态图像时，服务器可以设置有姿态图像库，该姿态图像库中包括至少一个姿态图像，每个姿态图像中包括多个位置点，该多个位置点构成一种抽象的姿态，用户可以通过终端中的应用程序来预览该图像库中的至少一个姿态图像，当任一姿态图像被选择时，终端可以将该被选择的姿态图像的图像标识与待处理图像一起发送给服务器，服务器根据该图像标识来获取该姿态图像，将该姿态图像作为第二姿态图像。

相应的，服务器由终端上传的目标姿态图像得到该第二姿态图像时，服务器可以接收终端发送的目标姿态图像，该目标姿态图像与待处理图像可以包括不同的对象。例如，待处理图像是一个女性的侧身图，而目标姿态图像是一个男性的正身图，用户希望将女性的姿态变换成目标姿态图像中男性的姿态，因此通过终端上传该女性的侧身图和该男性的正身图。服务器在接收到该目标姿态图像后，可以对该目标姿态图像进行姿态提取，将提取到的包括多个位置点的图像作为第二姿态图像，该第二姿态图像包括目标姿态。

为了更好的理解目标姿态图像，可以参见图4所示，图4是本发明实施例提供的一种姿态图像的示意图，图中包括一个人体的姿态，该姿态由多个位置点构成一个抽象的人体。例如最左侧的三个点分别代表右肩膀，右手手肘和右手手掌，对应的最右侧的三个点代表左肩膀，左手手肘和左手手掌。

202、服务器将第一解析图像、第一姿态图像和第二姿态图像输入第一图像生成模型。

在本发明实施例中，该第一图像生成模型可以为通过生成式对抗网络(GAN,Generative Adversarial Networks)训练得到的模型。

在一种可选的实现方式中，该第一图像生成模型的训练过程，可以通过以下子步骤来实现：

在步骤202a中，服务器可以基于第一样本图像，获取第一样本解析图像和第一样本姿态图像，该第一样本图像为服务器获取的多个样本图像中的任一样本图像，该第一样本解析图像为已标注有第一样本图像中对象的各部位的图像，第一样本姿态图像包括对象在第一样本图像中的姿态。例如，第一样本图像为一个男性的正身图像，该男性的双脚并拢，双臂向上伸直。

在步骤202b中，服务器可以基于第二样本图像，获取第二样本解析图像和第二样本姿态图像，该第二样本图像为与第一样本图像包括同一对象的目标图像，该第二样本解析图像为已标注有第二样本图像中对象的各部位的图像，该第二样本姿态图像包括对象在第二样本图像中的姿态。相应的，该第二样本图像中的对象上述第一样本图像中的男性，在该第二样本图像中，该男性双腿分开呈30°角，双臂在身体两侧平伸。也即第一样本图像和第二样本图像的区别在于对象的姿态不同，且第二样本图像中的姿态为目标姿态。当然，也可以将第一样本中的姿态作为目标姿态，将第二样本中对象的姿态变换为第一样本中的姿态，本发明实施例对此不进行具体限制，仅以第二样本图像中的姿态为目标姿态为例进行说明。

在步骤202c中，服务器可以将第一样本解析图像、第一样本姿态图像和第二样本姿态图像输入待训练的第一模型，由该第一模型输出第三样本解析图像。

在一种可选的实现方式中，该第一模型可以包括第一编码模块、第二编码模块、第一几何形变模块、第一组合模块、第一残差处理模块以及第一解码模块。

该第一编码模块与该第一几何形变模块相连，用于对该第一样本解析图像进行编码，生成第一样本编码图像。该第一编码模块可以由卷积神经网络构建得到。该第一编码模块可以为编码器。可选的，第一编码模块中卷积核的通道数可以与第一样本解析图像的通道数相同。例如，第一样本解析图像的尺寸为32*32，通道数为3，三个通道可以为R(red，红)、G(green，绿)以及B(blue，蓝)，则第一编码模块中卷积核的通道数也为3。

该第二编码模块与该第一组合模块相连，用于对该第一样本姿态图像进行编码，生成第二样本编码图像。该第二编码模块与该第一编码模块的结构相同。

该第一几何形变模块与该第一编码模块和该第一组合模块相连，用于对该第一样本编码图像中的对象的各部位进行变换，生成第三样本编码图像。为了使第一几何形变模块的结构更清晰，可以参见图5所示，图5是本发明实施例提供的一种第一几何形变模块的示意图，图中包括第一样本姿态图像P_c、第二样本姿态图像P_t、输入的第一样本编码图像F、第一变换参数预测模块、第一网格图生成模块、第一变换模块以及生成的第三样本编码图像GDM(F)。其中，第一变换参数生成模块用于根据卷积神经网络预测P_c变换到P_t的第一变换参数，第一网格图生成模块用于根据该第一变换参数生成第一网格图，该第一变换模块用于根据该第一网格图对第一样本编码图像F进行变换。

该第一组合模块与第一几何形变模块、第二编码模块、第一残差处理模块相连，用于将该第三样本编码图像和该第二样本编码图像组合为第一样本组合图像。该组合的方式可以为在通道维度上将两张图像连接，得到的图像的通道数量为两张图像的通道数量相加的和。如，第二样本编码图像的尺寸为32*32，通道数为2，第三样本编码图像的尺寸为32*32，通道数为3，将两张图像连接，得到一张尺寸为32*32，通道数为5的图像。

该第一残差处理模块与第一组合模块和第一解码模块相连，用于对该样本组合图像进行残差处理，以加速该第一模型的收敛。

该第一解码模块与第一残差处理模块相连，用于对残差处理得到的图像进行解码，得到第三样本解析图像。

为了使本步骤所描述的过程更清晰，可以参见图6所示，图6是本发明实施例提供的一种第一图像生成模型的结构示意图，图中包括第一样本解析图像S_c、第二样本姿态图像P_t、第一编码模块E_c1、第二编码模块E_t1、第一几何形变模块GDM₁，第一组合模块C₁，第一残差处理模块ResNet₁、第一解码模块DE₁以及生成的第三样本解析图像

在步骤202d中，服务器可以对第二样本解析图像和第三样本解析图像进行一致性检测，根据检测结果调整第一训练参数，直到得到第一图像生成模型。

在一种可选的实现方式中，服务器可以由第一判别器对该第二样本解析图像和该第三样本解析图像进行一致性检测。服务器可以将第二样本姿态图像P_t和第二样本解析图像S_t组合后输入该第一判别器，将第二样本姿态图像P_t和第三样本解析图像组合后输入该第一判别器，由该第一判别器输出第二样本解析图像和第三样本解析图像的相似度。

在一种可选的实现方式中，服务器可以根据第一判别器输出的相似度，来确定是否训练完毕。当第一判别器输出的相似度大于第一相似度阈值时，服务器可以确定已经得到第一图像生成模型，结束训练；当第一判别器输出的相似度小于第一相似度阈值时，服务器可以确定未得到第一图像生成模型，可以根据该相似度调整第一训练参数，继续执行上述步骤202a至步骤202d，直到得到第一图像生成模型。该第一相似度阈值可以为80％、85％或90％，本发明实施例对此不进行具体限制。

为了使步骤202d的流程更清晰，可以参见图7所示，图7是本发明实施例提供的一种第一判别器的示意图，图中包括第一样本姿态图像P_t、第二样本解析图像S_t、第三样本解析图像以及第一判别器D₁。

相应的，上述步骤202a至步骤202d所描述的过程还可以用公式(1)来表示：

其中，表示第三样本解析图像，DE₁表示第一解码模块，GDM₁表示第一几何形变模块，E_c1表示第一编码模块，S_c表示第一样本解析图像，E_t1表示第二编码模块，P_t表示第一样本姿态图像。

需要说明的是，上述第一图像生成模型的训练过程中的总损失可以由来表示。包括交叉熵损失和对抗损失该交叉熵损失主要用于优化上述步骤202c中生成第三样本解析图像的过程，该对抗损失用于优化整个训练过程。在一种可选的实现方式中，上述第一模型可以称为第一生成器G₁。

相应的，交叉熵损失的值可以由公式(2)获得：

其中，表示交叉熵损失，S_t表示第二样本解析图像，表示元素相乘，表示第三样本解析图像，1表示1-范数。

第一判别器的对抗损失可以由公式(3)获得：

其中，表示第一判别器的对抗损失，D₁表示第一判别器，P_t表示第一样本姿态图像，S_t表示第二样本解析图像，表示第三样本解析图像。

第一生成器的对抗损失可以由公式(4)获得：

其中，表示第一生成器的对抗损失，D₁表示第一判别器，P_t表示第一样本姿态图像，表示第三样本解析图像。

对抗损失可以由公式(5)获得：

其中，表示对抗损失，表示第一判别器的对抗损失，表示第一生成器的对抗损失。

总损失可以由公式(6)获得：

其中，表示总损失，表示对抗损失，表示交叉熵损失，λ表示交叉熵损失的加权系数。

203、服务器通过第一图像生成模型预测第一姿态图像变换到第二姿态图像的第一变换参数，基于第一变换参数对第一解析图像进行调整，得到目标解析图像，该目标解析图像中对象的各部位的姿态为目标姿态。

本步骤可以通过以下子步骤来实现：

在步骤203a中，服务器可以将第一姿态图像和第二姿态图像输入第一图像生成模型的第一卷积神经网络中，由该第一卷积神经网络预测该第一姿态图像变换到该第二姿态图像的第一变换参数。

在步骤203b中，服务器获取到第一变换参数后，可以通过第一图像生成模型对第一解析图像进行编码，得到第一编码图像，对第一姿态图像进行编码得到第二编码图像。当然服务器也可以在获取第一变换参数前编码得到上述第一编码图像和第二编码图像，本发明实施例对此不进行具体限制。上述编码过程可以由结构相同的编码模块来实现，如步骤202c中描述的第一编码模块和第二编码模块。

在步骤203c中，服务器可以基于该第一变换参数，将该第一编码图像变换为第三编码图像。在一种可能的实现方式中，服务器可以基于该第一变换参数，生成第一网格图，该第一网格图中每个顶点的坐标值用于指示该顶点在第一编码图像中对应的位置，服务器根据该第一网格图，将第一编码图像中各像素点变换到第一网格图中对应的位置，得到第三编码图像。上述变换过程可以由几何形变模块实现，如步骤202c中描述的第一几何形变模块。在一种可选的实现方式中，服务器可以根据第一网格图像中每个顶点的坐标值，在第一编码图像的对应位置进行采样，将采样得到的像素值设置为该点的像素值，从而得到第三编码图像。

在步骤203d中，服务器可以将该第二编码图像和第三编码图像进行残差处理，得到第四编码图像。在一种可选的实现方式中，服务器可以将第二编码图像和第三编码图像组合后，将组合得到的图像输入ResNet(Residual NeuralNetwork，残差处理)网络，该ResNet网络包括多个残差块，将每个残差块的输出与输入的差别以及组合得到的图像输入下一个残差块，最终得到第四编码图像。其中，组合的方式可以为在步骤202c中描述的在通道维度上将两张图像连接的方式。

在步骤203e中，服务器可以将该第四编码图像解码，从而得到目标解析图像。

204、服务器将待处理图像和第一解析图像组合得到的第一组合图像，将第二姿态图像和目标解析图像组合得到的第二组合图像。

服务器在得到目标解析图像后，可以通过以下两种方式组合得到该第一组合图像和该第二组合图像。一种组合方式是将两种图像在通道维度上连接，另一种组合方式是在通道方向上连接。

在通道维度上组合的方式已在步骤202c中描述，在此不再赘述。而在通道方向是组合的方式，是指将两张通道数相同的图片的尺寸相加，得到通道数不变，尺寸改变的图像，如，待处理图像的尺寸为32*32，通道为R、G、B三个通道，第一解析图像的尺寸为32*32，通道为R、G、B三个通道，将待处理图像和第一解析图像的R、G、B通道分别连接，得到尺寸为64*32，通道为R、G、B三个通道的第一组合图像。

205、服务器将第一组合图像和第二组合图像输入第二图像生成模型。

在本发明实施例中，该第二图像生成模型的结构可以与第一图像生成模型相同，同样为通过生成式对抗网络(GAN,Generative Adversarial Networks)训练得到的模型。当然，第二图像生成模型的结构也可以与第一图像生成模型不相同，本发明实施例对比不进行具体限制。

在一种可选的实现方式中，该第二图像生成模型的训练过程可以通过以下子步骤来实现。

在步骤205a中，服务器可以在待训练的第一模型输出第三样本解析图像后，将第一样本图像和第一样本解析图像组合得到第一样本组合图像，将第三样本解析图像和第二样本姿态图像组合得到第二样本组合图像。其中，组合的方式可以为将两种图像在通道维度上连接。

在步骤205b中，服务器可以将第一样本组合图像和第二样本组合图像输入待训练的第二模型，由第二模型输出训练结果图像。

在一种可选的实现方式中，该第二模型可以包括第三编码模块、第四编码模块、第二几何形变模块、第二组合模块、第二残差处理模块以及第二解码模块。

该第三编码模块与第二几何形变模块相连，用于对该第一样本组合图像进行编码，生成第四样本编码图像。该第三编码模块可以由卷积神经网络构建得到。该第三编码模块可以为编码器。可选的，第三编码模块中卷积核的通道数可以与第一样本组合图像的通道数相同。例如，第一组合解析图像的尺寸为32*32，通道数为6，则第三编码模块中卷积核的通道数也为6。

该第四编码模块与第二组合模块相连，用于对该第二样本组合图像进行编码，生成第五样本编码图像。该第四编码模块与该第三编码模块的结构相同。

该第二几何形变模块与该第三编码模块和该第二组合模块相连，用于对该第四样本编码图像中的对象的各部位进行变换，生成第六样本编码图像。为了使第二几何形变模块的结构更清晰，可以参见图8所示，图8是本发明实施例提供的一种第二几何形变模块的示意图，图中包括第一样本解析图像S_c、第三样本解析图像输入的第四样本编码图像f、第二变换参数预测模块、第二网格图生成模块、第二变换模块以及生成的第六样本编码图像GDM(f)。其中，第二变换参数生成模块用于根据卷积神经网络预测S_c变换到的第二变换参数，第二网格图生成模块用于根据该第二变换参数生成第二网格图，该第二变换模块用于根据该第二网格图对第四样本编码图像f进行变换。

该第二组合模块与第二几何形变模块、第四编码模块、第二残差处理模块相连，用于将该第六样本编码图像和该第五样本编码图像组合为第二样本组合图像，该组合的方式可以为在通道维度上将两张图像连接，得到的图像的通道数量为两张图像的通道数量相加的和。

为了使本步骤所描述的过程更清晰，可以参见图9所示，图9是本发明实施例提供的一种第二图像生成模型的结构示意图，图中包括第一样本解析图像S_c、第一样本图像I_c、第二样本姿态图像P_t、第三样本解析图像第三编码模块E_c2、第四编码模块E_t2、第二几何形变模块GDM₂，第二组合模块C₂，第二残差处理模块ResNet₂、第二解码模块DE₂以及生成的训练结果图像其中，第三编码模块的输入为第一样本解析图像S_c和第一样本图像I_c组合后得到的I₁，第四编码模块的输入为第二样本姿态图像P_t和第三样本解析图像组合后得到的I₂。

在步骤205c中，服务器可以对训练结果图像和第二样本图像进行一致性检测，根据检测结果调整第二训练参数，直到得到第二图像生成模型。

在一种可选的实现方式中，服务器可以由第二判别器对该训练结果图像和该第二样本图像进行一致性检测。服务器可以将第一样本图像I_c、第一样本解析图像S_c、第二样本姿态图像P_t、第三样本解析图像和训练结果图像组合后输入该第二判别器，第一样本图像I_c、第一样本解析图像S_c、第二样本姿态图像P_t、第三样本解析图像和第二样本图像I_t组合后输入该第二判别器，由该第二判别器输出该训练结果图像和第二样本图像的相似度。

在一种可选的实现方式中，服务器可以根据第二判别器输出的相似度，来确定是否训练完毕。当第二判别器输出的相似度大于第二相似度阈值时，服务器可以确定已经得到第二图像生成模型，结束训练；当第二判别器输出的相似度小于第一相似度阈值时，服务器可以确定未得到第二图像生成模型，可以根据该相似度调整第二训练参数，继续执行上述步骤205a至步骤205c，直到得到第二图像生成模型。该第二相似度阈值可以为80％、85％或90％，本发明实施例对此不进行具体限制。

在一种可能的实现方式中，服务器可以通过多尺度判别器对该训练结果图像和该第二样本图像进行一致性检测。服务器可以将该训练结果图像的尺寸调整为多个目标尺寸，得到多个尺寸的训练结果图像，服务器将该多个尺寸的训练结果图像分别与该第二样本图像进行一致性检测。

为了使步骤205c的流程更清晰，可以参见图10所示，图10是本发明实施例提供的一种多尺度判别器的示意图，图中包括第一样本图像I_c、第一样本解析图像S_c、第二样本姿态图像P_t、第三样本解析图像训练结果图像组合得到真实图像对P^r，还包括第一样本图像I_c、第一样本解析图像S_c、第二样本姿态图像P_t、第三样本解析图像和第二样本图像I_t组合后得到虚假图像对P^f，也即生成的图像，还包括多尺度判别器D_k。

相应的，上述步骤205a至步骤205c所描述的过程还可以用以下公式(7)来表示：

其中，表示训练结果图像，DE₂表示第二解码模块，GDM₂表示第二几何形变模块，E_c2表示第三编码模块，I_c表示第一样本图像，S_c表示第一样本解析图像，E_t2表示第四编码模块，P_t表示第二样本姿态图像，表示第三样本解析图像。

需要说明的是，上述第二图像生成模型的训练过程中的总损失可以由来表示。包括对抗损失特征匹配损失L^fm、L1范数损失L^L1、感知损失L^P和重建损失L^recon。其中，L1范数损失中引入了背景掩码。在一种可选的实现方式中，上述第二模型可以称为第二生成器G₂。

对抗损失的值可以由下述公式(8)-(12)获得：

其中，P^r表示真实图像对，P^f表示虚假图像对，I_c表示第一样本图像，S_c表示第一样本解析图像，P_t表示第二样本姿态图像，表示第三样本解析图像，I_t表示第二样本图像，表示训练结果图像，表示第二生成器的对抗损失，表示第二生成器的对抗损失，表示对抗损失。

特征匹配损失L^fm可以由公式(13)获得：

其中，L^fm表示特征匹配损失，表示第k个多尺度判别器的第i层特征图，P^r表示真实图像对，P^f表示虚假图像对，1表示1-范数。

特征匹配损失L^fm可以由公式(14)获得：

其中，L^L1表示L1范数损失，I_t表示第二样本图像，I_c表示第一样本图像，表示元素相乘，M表示背景掩码，1表示1-范数。

感知损失L^P可以由公式(15)获得：

其中，L^P表示感知损失，I_t表示第二样本图像，表示训练结果图像，Φ^(v)表示图像经过预训练的VGG19(一种卷积神经网络)网络后得到的第v层特征图，1表示1-范数。

重建损失L^recon可以有公式(16)和公式(17)得到：

其中，表示训练结果图像，DE₂表示第二解码模块，I_c表示第一样本图像，P_t表示第二样本姿态图像，L^recon表示重建损失，P_c表示第一样本姿态图像，1表示1-范数。

总损失可以由公式(18)得到：

其中，表示总损失，表示对抗损失，λ^fm表示特征匹配损失加权系数，L^fm表示特征匹配损失，λ^L1表示L1范数损失加权系数，L^L1表示L1范数损失，λ^P表示感知损失加权系数，L^P表示感知损失，λ^recon表示重建损失加权系数，L^recon表示重建损失。

206、服务器根据第二图像生成模型预测第一解析图像变换到目标解析图像的第二变换参数，基于第二变换参数和第二组合图像对第一组合图像进行调整，得到目标图像，该目标图像中对象的姿态为目标姿态。

本步骤可以通过以下子步骤来实现：

在步骤206a中，服务器可以将第一解析图像和目标解析图像输入第二图像生成模型的第二卷积神经网络中，由该第二卷积神经网络预测人体解析图像变换到目标解析图像的第二变换参数。

在步骤206b中，服务器获取到第二变换参数后，可以通过第二图像生成模型对第一组合图像进行编码，得到第五编码图像，对第二组合图像进行编码，得到第六编码图像。当然服务器也可以在获取第二变换参数前编码得到上述第五编码图像和第六编码图像，本发明实施例对比不进行具体限制。上述编码过程可以由结构相同的编码模块来实现，如步骤205b中描述的第三编码模块和第四编码模块。

在步骤206c中，服务器可以基于该第二变换参数，将该第五编码图像变换为第七编码图像。在一种可能的实现方式中，服务器可以基于该第二变换参数，生成第二网格图，该第二网格图中每个顶点的坐标值用于指示该顶点在第五编码图像中对应的位置，服务器根据该第二网格图，将第五编码图像中各像素点变换到第二网格图中对应的位置，得到第七编码图像。上述变换过程可以由几何形变模块实现，如步骤205b中描述的第二几何形变模块。在一种可选的实现方式中，服务器可以根据第人网格图像中每个顶点的坐标值，在第五编码图像的对应位置进行采样，将采样得到的像素值设置为该点的像素值，从而得到第七编码图像。

在步骤206d中，服务器可以将该第六编码图像和第七编码图像进行残差处理，得到第八编码图像。在一种可选的实现方式中，服务器可以将第六编码图像和第七编码图像组合后，将组合得到的图像输入ResNet(Residual NeuralNetwork，残差处理)网络，该ResNet网络包括多个残差块，将每个残差块的输出与输入的差别以及组合得到的图像输入下一个残差块，最终得到第八编码图像。其中，组合的方式可以为在步骤202c中描述的在通道维度上将两张图像连接的方式。

在步骤206e中，服务器可以将该第八编码图像解码，从而得到目标图像。

需要说明的是，上述步骤202至步骤206是示例性的，通过两阶段的两个图像生成模型来生成目标图像的过程，上述过程还可以由一个图像生成模型来实现，该图像生成模型可以为一个黑盒模型，输入待处理图像和包括目标姿态的图像即可输入目标图像。可以参见图11所示，图11是本发明实施例示出的一种黑盒模型的示意图，图中包括待处理图像X、包括目标姿态的图像Y，黑盒模型以及生成的目标图像Z。

在本发明实施例中，通过第一图像生成模型预测第一变换参数，基于该第一变换参数对第一解析图像进行调整，使得该第一解析图像和生成的目标解析图像之间姿态对齐。通过第二图像生成模型，根据第一图像生成模型得到的目标解析图像，来预测第二变换参数，基于该第二变换参数对组合后的待处理图像和第一解析图像进行调整，使得待处理图像和生成的目标图像之间像素对齐，具有更好的图像细节。由于变换前后解析图像保持姿态对齐，可以使变换前后的图像保持空间对齐，从而使得最终生成的目标图像既保证了空间对齐又保证了细节清晰。

图12是本发明实施例提供的一种人体姿态变换方法的流程图，如图12所示。该方法包括以下步骤：

1201、服务器接收终端发送的第一人体图像，基于第一人体图像获取第二解析图像和第三姿态图像，该第二解析图像为已标注有第一人体图像中人体的各部位的图像，该第三姿态图像包括该人体在第一人体图像中的姿态。

本步骤与步骤201相类似，具体的实现方式可以参见步骤201，在此不再赘述。

1202、服务器预测第三姿态图像变换到包括目标人体姿态的第四姿态图像的第三变换参数，基于第三变换参数对第二解析图像进行调整，得到第三解析图像，第三解析图像中人体的各部位的姿态为目标人体姿态。

在本步骤中，服务器可以直接通过卷积神经网络来预测第三姿态图像变换到包括目标人体姿态的第四姿态图像的第三变换参数，基于该第三变换参数通过残差处理网络对第二解析图像进行调整，从而得到第三解析图像。

在一种可选的实现方式中，服务器还可以通过第一图像生成模型预测第三姿态图像变换到包括目标人体姿态的第四姿态图像的第三变换参数，基于第三变换参数对第二解析图像进行调整，得到第三解析图像。具体的实现方式可以参见步骤203，在此不再赘述。

1203、服务器将第一人体图像和第二解析图像组合得到第三组合图像，将第四姿态图像和第三解析图像组合得到第四组合图像。

本步骤与步骤204相类似，具体的实现方式可以参见步骤204，在此不再赘述。

1204、服务器预测第二解析图像变换到第三解析图像的第四变换参数，基于第四变换参数和第四组合图像对第三组合图像进行调整，得到第二人体图像，第二人体图像中的人体的姿态为目标人体姿态。

在本步骤中，服务器可以直接通过卷积神经网络来预测第二解析图像变换到第三解析图像的第四变换参数，基于第四变换参数和第四组合图像对第三组合图像进行调整，从而得到第二人体图像。

在一种可选的实现方式中，服务器还可以通过第二图像生成模型预测第二解析图像变换到第三解析图像的第四变换参数，基于第四变换参数和第四组合图像对第三组合图像进行调整，得到第二人体图像。具体的实现方式可以参见步骤204，在此不再赘述。

在本发明实施例中，通过预测第三变换参数，基于该第三变换参数对第二解析图像进行调整，使得该第二解析图像和生成的第三解析图像之间姿态对齐。通过生成的第三解析图像，来预测第四变换参数，基于该第四变换参数对组合后的第一人体图像和第二解析图像进行调整，使得第一人体图像和生成的第二人体图像之间像素对齐，具有更好的图像细节。由于变换前后解析图像保持姿态对齐，可以使变换前后的图像保持空间对齐，从而使得最终生成的第二人体图像既保证了空间对齐又保证了细节清晰。

图13是本发明实施例提供的一种目标图像生成装置的框图，如图13所示，包括：第一图像获取模块1301，第一图像变换模块1302和第一图像组合模块1303。

第一图像获取模块1301，用于基于待处理图像，获取第一解析图像和第一姿态图像，第一解析图像为已标注有待处理图像中对象的各部位的图像，第一姿态图像包括对象在待处理图像中的姿态；

第一图像变换模块1302，用于将第一解析图像、第一姿态图像和包括目标姿态的第二姿态图像输入第一图像生成模型，由第一图像生成模型预测第一姿态图像变换到第二姿态图像的第一变换参数，基于第一变换参数对第一解析图像进行调整，得到目标解析图像，目标解析图像中对象的各部位的姿态为目标姿态；

第一图像组合模块1303，用于将待处理图像和第一解析图像组合得到的第一组合图像，将第二姿态图像和目标解析图像组合得到的第二组合图像；

第一图像变换模块1302，还用于将第一组合图像和第二组合图像输入第二图像生成模型，由第二图像生成模型预测第一解析图像变换到目标解析图像的第二变换参数，基于第二变换参数和第二组合图像对第一组合图像进行调整，得到目标图像，目标图像中对象的姿态为目标姿态。

在另一种可选的实现方式中，第一图像变换模块1302，还用于将第一姿态图像和第二姿态图形输入第一卷积神经网络，预测第一姿态图像变换到第二姿态图像的第一变换参数；由第一图像生成模型对第一解析图像进行编码，得到第一编码图像，对第一姿态图像进行编码得到第二编码图像；基于第一变换参数，将第一编码图像变换为第三编码图像；将第二编码图像和第三编码图像进行残差处理，得到第四编码图像；对第四编码图像进行解码。

在另一种可选的实现方式中，第一图像变换模块1302，还用于基于第一变换参数，生成第一网格图，第一网格图中每个顶点的坐标值用于指示顶点在第一编码图像中对应的位置；根据第一网格图，将第一编码图像中各像素点变换到第一网格图中对应的位置，得到第三编码图像。

在另一种可选的实现方式中，第一图像变换模块1302，还用于将第一解析图像和目标解析图像输入第二卷积神经网络，预测人体解析图像变换到目标解析图像的第二变换参数；由第二图像生成模型对第一组合图像进行编码，得到第五编码图像，对第二组合图像进行编码，得到第六编码图像；基于第二变换参数，将第五编码图像变换为第七编码图像；将第六编码图像和第七编码图像进行残差处理，得到第八编码图像；对第八编码图像进行编码。

在另一种可选的实现方式中，第一图像变换模块1302，还用于基于第二变换参数，生成第二网格图，第二网格图中每个顶点的坐标值用于指示顶点在第五编码图像中对应的位置；根据第二网格图，将第四编码图像中各像素点变换到第二网格图中对应的位置，得到第七编码图像。

在另一种可选的实现方式中，装置还包括模型训练模块，用于基于第一样本图像，获取第一样本解析图像和第一样本姿态图像，第一样本图像为多个样本图像中的任一样本图像，第一样本解析图像为已标注有第一样本图像中对象的各部位的图像，第一样本姿态图像包括对象在第一样本图像中的姿态；基于第二样本图像，获取第二样本解析图像和第二样本姿态图像，第二样本图像为与第一样本图像包括同一对象的目标图像，第二样本解析图像为已标注有第二样本图像中对象的各部位的图像，第二样本姿态图像包括对象在第二样本图像中的姿态；将第一解析图像、第一样本姿态图像和第二样本姿态图像输入待训练的第一模型，由第一模型输出第三样本解析图像；对第二样本解析图像和第三样本解析图像进行一致性检测，根据检测结果调整第一训练参数，直到得到

第一图像生成模型。

在另一种可选的实现方式中，模型训练模块，还用于将第一样本图像和第一样本解析图像组合得到第一样本组合图像，将第三样本解析图像和第二样本姿态图像组合得到第二样本组合图像；将第一样本组合图像和第二样本组合图像输入待训练的第二模型，由第二模型输出训练结果图像；对训练结果图像和第二样本图像进行一致性检测，根据检测结果调整第二训练参数，直到得到第二图像生成模型。

在另一种可选的实现方式中，模型训练模块，还用于将训练结果图像的尺寸调整为多个目标尺寸，得到多个尺寸的训练结果图像；将多个尺寸的训练结果图像分别与第二样本图像进行一致性检测。

图14是本发明实施例提供的一种人体姿态变换装置的框图，如图14所示，包括：第二图像获取模块1401，第二图像变换模块1402和第二图像组合模块1403。

第二图像获取模块1401，用于基于第一人体图像，获取第二解析图像和第三姿态图像，第二解析图像为已标注有第一人体图像中人体的各部位的图像，第三姿态图像包括人体在第一人体图像中的姿态；

第二图像变换模块1402，用于预测第三姿态图像变换到包括目标人体姿态的第四姿态图像的第三变换参数，基于第三变换参数对第二解析图像进行调整，得到第三解析图像，第三解析图像中人体的各部位的姿态为目标人体姿态；

第二图像组合模块1403，用于将第一人体图像和第二解析图像组合得到第三组合图像，将第四姿态图像和第三解析图像组合得到第四组合图像；

第二图像变换模块1402，还用于预测第二解析图像变换到第三解析图像的第四变换参数，基于第四变换参数和第四组合图像对第三组合图像进行调整，得到第二人体图像，第二人体图像中的人体的姿态为目标人体姿态。

图15是本发明实施例提供的一种服务器的结构示意图，该服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1501和一个或一个以上的存储器1502，其中，存储器1502中存储有至少一条指令，至少一条指令由处理器1501加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本发明实施例还提供了一种存储介质，该存储介质应用于服务器，该存储介质中存储有程序代码，该程序代码用于执行本发明实施例中的目标图像生成方法。

本发明实施例还提供了一种存储介质，该存储介质应用于服务器，该存储介质中存储有程序代码，该程序代码用于执行本发明实施例中的人体姿态变换方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标图像生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述由所述第一图像生成模型预测所述第一姿态图像变换到所述第二姿态图像的第一变换参数，基于所述第一变换参数对所述第一解析图像进行调整，包括：

将所述第一姿态图像和所述第二姿态图形输入第一卷积神经网络，预测所述第一姿态图像变换到所述第二姿态图像的第一变换参数；

由所述第一图像生成模型对所述第一解析图像进行编码，得到第一编码图像，对所述第一姿态图像进行编码得到第二编码图像；

基于所述第一变换参数，将所述第一编码图像变换为第三编码图像；

将所述第二编码图像和所述第三编码图像进行残差处理，得到第四编码图像；

对所述第四编码图像进行解码。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一变换参数，将所述第一编码图像变换为第三编码图像，包括：

基于所述第一变换参数，生成第一网格图，所述第一网格图中每个顶点的坐标值用于指示所述顶点在所述第一编码图像中对应的位置；

根据所述第一网格图，将所述第一编码图像中各像素点变换到所述第一网格图中对应的位置，得到第三编码图像。

4.根据权利要求1所述的方法，其特征在于，所述由所述第二图像生成模型预测所述第一解析图像变换到所述目标解析图像的第二变换参数，基于所述第二变换参数对所述第一组合图像进行调整，包括：

将所述第一解析图像和所述目标解析图像输入第二卷积神经网络，预测所述人体解析图像变换到所述目标解析图像的第二变换参数；

由所述第二图像生成模型对所述第一组合图像进行编码，得到第五编码图像，对所述第二组合图像进行编码，得到第六编码图像；

基于所述第二变换参数，将所述第五编码图像变换为第七编码图像；

将所述第六编码图像和所述第七编码图像进行残差处理，得到第八编码图像；

对所述第八编码图像进行编码。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第二变换参数，将所述第五编码图像变换为第七编码图像，包括：

基于所述第二变换参数，生成第二网格图，所述第二网格图中每个顶点的坐标值用于指示所述顶点在所述第五编码图像中对应的位置；

根据所述第二网格图，将所述第五编码图像中各像素点变换到所述第二网格图中对应的位置，得到第七编码图像。

6.根据权利要求1-5任一项权利要求所述的方法，其特征在于，所述第一图像生成模型的训练过程包括：

基于第一样本图像，获取第一样本解析图像和第一样本姿态图像，所述第一样本图像为多个样本图像中的任一样本图像，所述第一样本解析图像为已标注有所述第一样本图像中对象的各部位的图像，所述第一样本姿态图像包括所述对象在所述第一样本图像中的姿态；

基于第二样本图像，获取第二样本解析图像和第二样本姿态图像，所述第二样本图像为与所述第一样本图像包括同一对象的目标图像，所述第二样本解析图像为已标注有所述第二样本图像中对象的各部位的图像，所述第二样本姿态图像包括所述对象在所述第二样本图像中的姿态；

将所述第一解析图像、所述第一样本姿态图像和所述第二样本姿态图像输入待训练的第一模型，由所述第一模型输出第三样本解析图像；

对所述第二样本解析图像和所述第三样本解析图像进行一致性检测，根据检测结果调整第一训练参数，直到得到所述第一图像生成模型。

7.根据权利要求6所述的方法，其特征在于，所述第二图像生成模型的训练过程包括：

将所述第一样本图像和所述第一样本解析图像组合得到第一样本组合图像，将所述第三样本解析图像和所述第二样本姿态图像组合得到第二样本组合图像；

将所述第一样本组合图像和所述第二样本组合图像输入待训练的第二模型，由所述第二模型输出训练结果图像；

对所述训练结果图像和所述第二样本图像进行一致性检测，根据检测结果调整第二训练参数，直到得到所述第二图像生成模型。

8.根据权利要求7所述的方法，其特征在于，所述对所述训练结果图像和所述第二样本图像进行一致性检测，包括：

将所述训练结果图像的尺寸调整为多个目标尺寸，得到多个尺寸的训练结果图像；

将所述多个尺寸的训练结果图像分别与所述第二样本图像进行一致性检测。

9.一种人体姿态变换方法，其特征在于，所述方法包括：

10.一种目标图像生成装置，其特征在于，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，所述第一图像变换模块，还用于将所述第一姿态图像和所述第二姿态图形输入第一卷积神经网络，预测所述第一姿态图像变换到所述第二姿态图像的第一变换参数；由所述第一图像生成模型对所述第一解析图像进行编码，得到第一编码图像，对所述第一姿态图像进行编码得到第二编码图像；基于所述第一变换参数，将所述第一编码图像变换为第三编码图像；将所述第二编码图像和所述第三编码图像进行残差处理，得到第四编码图像；对所述第四编码图像进行解码。

12.根据权利要求11所述的装置，其特征在于，所述第一图像变换模块，还用于基于所述第一变换参数，生成第一网格图，所述第一网格图中每个顶点的坐标值用于指示所述顶点在所述第一编码图像中对应的位置；根据所述第一网格图，将所述第一编码图像中各像素点变换到所述第一网格图中对应的位置，得到第三编码图像。

13.一种人体姿态变换装置，其特征在于，所述装置包括：

14.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器用于存储程序代码，所述程序代码由所述处理器加载并执行权利要求1至8任一权利要求所述的目标图像生成方法。

15.一种存储介质，其特征在于，所述存储介质用于存储程序代码，所述程序代码用于被处理器加载并执行权利要求1至8任一权利要求所述的目标图像生成方法。