CN113506232A

CN113506232A - 图像生成方法、装置、电子设备以及存储介质

Info

Publication number: CN113506232A
Application number: CN202110751326.8A
Authority: CN
Inventors: 张雨蒙; 郭益林; 黄星; 陈莉; 郑文
Original assignee: Tsinghua University; Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Tsinghua University; Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-10-15

Abstract

本公开关于一种图像生成方法、装置、电子设备以及存储介质，属于图像处理技术领域，该方法首先获取第一图像和第二图像中用于指示对象身体部分的多个尺度的特征，再基于第一图像与第二图像之间多个尺度的光流信息，对第一图像的多个第一特征进行变形，达到对第一对象进行姿态变化的目的，进而基于变形后的特征来进行图像的生成，由于上述图像生成过程中的变形是在保留了图像的完整特征信息的情况下的变形，也就保证了在进行大幅度的姿态变换时，生成的目标图像中纹理的准确性，提升了生成的目标图像的质量。

Description

图像生成方法、装置、电子设备以及存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种图像生成方法、装置、电子设备以及存储介质。

背景技术

随着图像处理技术的不断发展，很多用户希望通过图像处理技术，将自己拍摄的图像转化为不同的形式。例如，一些用户希望将原始图像中人物的姿态或衣服进行变换，生成新的图像，对人物衣服的变换即为图像纹理变换。相关技术中，图像生成的方法，一般采用基于属性分解的生成对抗网络(attribute-decomposed gan，ADGAN)，该方法通过将原始图像、目标姿态与目标纹理图像输入ADGAN网络中，生成姿态和纹理变化后的目标图像。

上述技术中，ADGAN方法直接将目标纹理特征与目标姿态特征进行结合，在进行大幅度的姿态变换时，会在生成的目标图像中出现错误的纹理，生成的目标图像质量较差。

发明内容

本公开提供一种图像生成方法、装置、电子设备以及存储介质，能够在进行大幅度的姿态变换时，保证生成的目标图像中纹理的准确性，提升生成的目标图像的质量。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种图像生成方法，该方法包括：

获取第一图像的多个第一特征，该多个第一特征包括该第一图像中第一对象的多个身体部分所对应的特征，每个第一对象的身体部分对应的特征包括多个尺度的特征；

获取第二图像，该第二图像用于提供该第一对象的目标姿态；

获取该第二图像和该第一图像之间的光流信息，该光流信息用于表示同一像素在不同图像中的变形信息；

基于该光流信息，对该多个第一特征进行变形，得到多个第二特征；

对该多个第二特征进行处理，得到目标图像。

本公开实施例提供的技术方案，首先获取第一图像和第二图像中用于指示对象身体部分的多个尺度的特征，再基于第一图像与第二图像之间多个尺度的光流信息，对第一图像的多个第一特征进行变形，达到对第一对象进行姿态变化的目的，进而基于变形后的特征来进行图像的生成，由于上述图像生成过程中的变形是在保留了图像的完整特征信息的情况下的变形，也就保证了在进行大幅度的姿态变换时，生成的目标图像中纹理的准确性，提升了生成的目标图像的质量。

在一些实施例中，该获取第一图像的多个第一特征包括：

基于该第一图像，获取该第一图像中第一对象的各个身体部分图像；

基于该第一对象的各个身体部分图像，获取该多个第一特征。

通过身体各个部分的图像，分别获取了不同身体部分的第一特征，使得后续进行姿态变化的时候，只需要分别将对应的身体部分的特征进行变形，就能够实现对整体对象的姿态变化，提高了特征的可控性。

在一些实施例中，该基于该第一对象的各个身体部分图像，获取该多个第一特征包括：

将该第一对象的各个身体部分图像分别输入特征提取子模型，对于该第一对象的任一身体部分图像，得到该特征提取子模型中多个网络层输出的多个尺度的第一特征。

对于每个身体部分图像，均获取多个尺度的第一特征，保留了图像中的更多信息，从而使基于变形后的第一特征生成的目标图像的质量更高。

在一些实施例中，该对于该第一对象的任一身体部分图像，得到该特征提取子模型中多个网络层输出的多个尺度的第一特征包括：

获取该身体部分的多个尺度的人体语义特征，该多个尺度的人体语义特征为基于通用对象数据集提取出的特征；

将该第一对象的该身体部分图像输入该特征提取子模型中的第一级网络层，得到该第一级网络层输出的第一尺度的第一特征，将该第一尺度的第一特征与第一尺度的人体语义特征作为下一级网络层的输入数据；

对于任一级网络层输出的任一尺度的第一特征，将该尺度的第一特征与尺度相同的人体语义特征拼接，将拼接后的该尺度第一特征输入下一级网络层，得到下一级尺度的第一特征；

响应于该尺度的第一特征的尺度为除最小尺度之外的最小尺度，将该尺度的第一特征与相同尺度的人体语义特征拼接，并将拼接后的该尺度的第一特征输入最后一个网络层，得到尺度最小的第一特征。

通过引入通用对象数据集的特征，不仅能够指导人体特征的提取并提供部分低层特征，也能够避免基于有限样本进行提取特征所导致的过拟合现象。

在一些实施例中，该基于该光流信息，对该多个第一特征进行变形，得到多个第二特征包括：

基于该第二图像，获取该第二图像中第二对象的各个身体部分的掩码；

基于该第二对象的各个身体部分的掩码和该第一对象的各个身体部分的掩码，获取各个身体部分对应的光流信息；

基于该各个身体部分对应的光流信息，对该多个第一特征进行变形，得到该多个第二特征。

通过光流信息对特征进行变形，实现了对图像的隐式变形，与直接对图像进行变形的显示变形不同，隐式变形能够缓解大幅度姿态变换时对应点难以寻找的问题，从而能够在大幅度的姿态变换时，提高生成的目标图像的质量。

在一些实施例中，该基于该第二对象的各个身体部分的掩码和该第一对象的各个身体部分的掩码，获取各个身体部分的光流信息包括：

按照该多个尺度，分别对该第二对象的各个身体部分的掩码和该第一对象的各个身体部分的掩码进行尺度变化，得到该多个尺度的第二对象的各个身体部分的掩码和多个尺度的第一对象的各个身体部分的掩码；

基于同一尺度的第二对象的各个身体部分的掩码和第一对象的各个身体部分的掩码，获取该各个身体部分对应的多个尺度的光流信息。

通过获取各个身体部分多个尺度的光流信息，能够同时对各个身体部分的多个尺度的第一特征进行变形，使后续图像生成的过程中能够有效的利用不同尺度的特征进行姿态变换。

在一些实施例中，该对该多个第二特征进行处理，得到目标图像包括：

将同一尺度的该第二特征进行融合，得到多个尺度的融合特征；

对尺度最小的融合特征进行纹理归一化处理，得到尺度最小的纹理归一化特征，对尺度最小的纹理归一化特征进行卷积处理；

对于除尺度最小的任一尺度的融合特征，将该尺度的融合特征与经过卷积处理的前一级尺度的纹理归一化特征进行拼接，得到该尺度的拼接特征，对该尺度的拼接特征进行纹理归一化处理，得到该尺度的纹理归一化特征；

响应于该尺度的纹理归一化特征为最大尺度的纹理归一化特征，对尺度最大的纹理归一化特征进行卷积处理，得到目标图像。

通过对多个尺度的第二特征进行处理，得到目标图像，使得生成的目标图像包含更多信息，图像细节更加丰富，从而达到了提高目标图像的质量的目的。

在一些实施例中，该方法还包括：

对任一尺度对应的特征进行纹理归一化处理时，所采用的归一化参数，基于对该第一图像中衣服部分的图像进行尺度变换得到的图像确定，该归一化参数用于表示该衣服部分的纹理特征。

对该第一图像中衣服部分的图像进行尺度变化，得到该多个尺度的衣服部分图像；

对该多个尺度的衣服部分图像进行特征提取，得到该多个尺度的纹理特征；

对任一尺度对应的特征进行纹理归一化处理包括：

基于该尺度的特征中各个元素的均值和方差，对该尺度的特征进行归一化处理，得到该尺度的归一化特征；

将该尺度的纹理特征与该尺度的归一化特征进行融合，得到该尺度的纹理归一化特征。

通过对特征进行纹理归一化操作，将第一图像中的纹理贴合到了目标图像中，使得生成的目标图像能够保持纹理细节，达到了提升生成的目标图像的质量的目的。

在一些实施例中，该基于该光流信息，对该多个第一特征进行变形，得到多个第二特征之前，该方法还包括：

获取第三图像的多个第三特征，该多个第三特征包括该第三图像中第三对象的多个身体部分所对应的特征，每个第三对象的身体部分对应的特征包括该多个尺度的特征，该第三图像中的第三对象包括目标身体部分；

基于该多个第三特征中该目标身体部分所对应的第三特征，对该多个第一特征中该目标身体部分所对应的第一特征进行替换，该目标身体部分包括该第三对象的一个或多个身体部分。

通过用第三图像中目标身体部分的第三特征，对目标身体部分对应的第一特征进行替换，能够将期望生成的身体部分的特征替换至第一特征中，实现了对第一对象中身体部分的变化。

在一些实施例中，该第三图像与该第二图像为同一图像；或，该第三图像与该第二图像为不同图像。

本申请所提出的方案，能够基于一个图像或者两个图像，实现对第一对象身体部分的变化或姿态的变化。

在一些实施例中，该获取第二图像，包括：

从参考视频中获取至少一个图像，将该图像作为该第二图像；

该对该多个第二特征进行处理，得到目标图像之后，该方法还包括：

基于该至少一个图像对应的该目标图像，生成目标视频。

本申请所提出的方案，能够通过参考视频获取的至少一个图像，对第一对象身体部分的变化或姿态的变化，得到至少一个目标图像，进而基于至少一个目标图像，生成目标视频。

根据本公开实施例的第二方面，提供一种图像生成装置，该装置包括：

获取单元，被配置为执行获取第一图像的多个第一特征，该多个第一特征包括该第一图像中第一对象的多个身体部分所对应的特征，每个第一对象的身体部分对应的特征包括多个尺度的特征；

该获取单元，被配置为执行获取第二图像，该第二图像用于提供该第一对象的目标姿态；

该获取单元，被配置为执行获取该第二图像和该第一图像之间的光流信息，该光流信息用于表示同一像素在不同图像中的变形信息；

变形单元，被配置为执行基于该光流信息，对该多个第一特征进行变形，得到多个第二特征；

处理单元，被配置为执行对该多个第二特征进行处理，得到目标图像。

在一些实施例中，该获取单元，被配置为执行基于该第一图像，获取该第一图像中第一对象的各个身体部分图像；基于该第一对象的各个身体部分图像，获取该多个第一特征。

在一些实施例中，该获取单元，包括：

输入子单元，被配置为执行将该第一对象的各个身体部分图像分别输入特征提取子模型，对于该第一对象的任一身体部分图像，得到该特征提取子模型中多个网络层输出的多个尺度的第一特征。

在一些实施例中，该输入子单元，被配置为执行获取该身体部分的多个尺度的人体语义特征，该多个尺度的人体语义特征为基于通用对象数据集提取出的特征；将该第一对象的该身体部分图像输入该特征提取子模型中的第一级网络层，得到该第一级网络层输出的第一尺度的第一特征，将该第一尺度的第一特征与第一尺度的人体语义特征作为下一级网络层的输入数据；对于任一级网络层输出的任一尺度的第一特征，将该尺度的第一特征与尺度相同的人体语义特征拼接，将拼接后的该尺度第一特征输入下一级网络层，得到下一级尺度的第一特征；响应于该尺度的第一特征的尺度为除最小尺度之外的最小尺度，将该尺度的第一特征与相同尺度的人体语义特征拼接，并将拼接后的该尺度的第一特征输入最后一个网络层，得到尺度最小的第一特征。

在一些实施例中，该变形单元，包括：

获取子单元，被配置为执行基于该第二图像，获取该第二图像中第二对象的各个身体部分的掩码；

该获取子单元，被配置为执行基于该第二对象的各个身体部分的掩码和该第一对象的各个身体部分的掩码，获取各个身体部分对应的光流信息；

变形子单元，被配置为执行基于该各个身体部分对应的光流信息，对该多个第一特征进行变形，得到该多个第二特征。

在一些实施例中，该获取子单元，被配置为执行按照该多个尺度，分别对该第二对象的各个身体部分的掩码和该第一对象的各个身体部分的掩码进行尺度变化，得到该多个尺度的第二对象的各个身体部分的掩码和多个尺度的第一对象的各个身体部分的掩码；基于同一尺度的第二对象的各个身体部分的掩码和第一对象的各个身体部分的掩码，获取该各个身体部分对应的多个尺度的光流信息。

在一些实施例中，该处理单元包括：

融合子单元，被配置为执行将同一尺度的该第二特征进行融合，得到多个尺度的融合特征；

归一化子单元，被配置为执行对尺度最小的融合特征进行纹理归一化处理，得到尺度最小的纹理归一化特征，对尺度最小的纹理归一化特征进行卷积处理；

拼接子单元，被配置为执行对于除尺度最小的任一尺度的融合特征，将该尺度的融合特征与经过卷积处理的前一级尺度的纹理归一化特征进行拼接，得到该尺度的拼接特征，对该尺度的拼接特征进行纹理归一化处理，得到该尺度的纹理归一化特征；

处理子单元，被配置为执行响应于该尺度的纹理归一化特征为最大尺度的纹理归一化特征，对尺度最大的纹理归一化特征进行卷积处理，得到目标图像。

在一些实施例中，该装置还包括：

尺度变化单元，被配置为执行对该第一图像中衣服部分的图像进行尺度变化，得到该多个尺度的衣服部分图像；对该多个尺度的衣服部分图像进行特征提取，得到该多个尺度的纹理特征；

该归一化子单元，被配置为执行基于该尺度的特征中各个元素的均值和方差，对该尺度的特征进行归一化处理，得到该尺度的归一化特征；将该尺度的纹理特征与该尺度的归一化特征进行融合，得到该尺度的纹理归一化特征。

在一些实施例中，该获取单元，被配置为执行获取第三图像的多个第三特征，该多个第三特征包括该第三图像中第三对象的多个身体部分所对应的特征，每个第三对象的身体部分对应的特征包括该多个尺度的特征，该第三图像中的第三对象包括目标身体部分；

该装置还包括：

替换单元，被配置为执行基于该多个第三特征中该目标身体部分所对应的第三特征，对该多个第一特征中该目标身体部分所对应的第一特征进行替换，该目标身体部分包括该第三对象的一个或多个身体部分。

在一些实施例中，该获取单元，被配置为执行从参考视频中获取至少一个图像，将该图像作为该第二图像；

该装置还包括：

生成单元，被配置为执行基于该至少一个图像对应的该目标图像，生成目标视频。

根据本公开实施例的第三方面，提供一种电子设备，该电子设备包括：

一个或多个处理器；

用于存储该处理器可执行程序代码的存储器；

其中，该处理器被配置为执行该程序代码，以实现上述的图像生成方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，该计算机可读存储介质包括：当该计算机可读存储介质中的程序代码由电子设备的处理器执行时，使得该电子设备能够执行上述的图像生成方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的图像生成方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种图像生成方法的实施环境示意图；

图2是根据一示例性实施例示出的一种图像生成方法的流程图；

图3是根据一示例性实施例示出的一种图像生成方法的示意图；

图4是根据一示例性实施例示出的一种图像生成方法的模型结构图；

图5是根据一示例性实施例示出的一种图像生成方法的流程图；

图6是根据一示例性实施例示出的一种特征提取基本原理示意图；

图7是根据一示例性实施例示出的一种光流变形基本原理示意图；

图8是根据一示例性实施例示出的一种纹理归一化基本原理示意图；

图9是根据一示例性实施例示出的一种图像生成方法的流程图；

图10是根据一示例性实施例示出的一种特征替换基本原理示意图；

图11是根据一示例性实施例示出的一种本技术方案与ADGAN方法的结果对比图；

图12是根据一示例性实施例示出的一种图像生成方法结果图；

图13是根据一示例性实施例示出的一种图像生成装置的框图；

图14是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。

图1是本公开实施例提供的一种图像生成方法的实施环境示意图，参见图1，该实施环境中包括：终端101和服务器102。

终端101可以为智能手机、智能手表、台式电脑、手提电脑、虚拟现实终端、增强现实终端、无线终端和膝上型便携计算机等设备中的至少一种，终端101具有通信功能，可以接入互联网，终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。终端101可以运行有各种用于图像处理功能的应用程序，该应用程序可以是视频处理类应用程序、社交类应用程序或者图像处理类应用程序等。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式文件系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102可以关联有数据库，该数据库用于存储图像数据和特征数据，图像数据包括用户上传的第一图像、第二图像、第三图像、生成的目标图像以及其他已公开的图像数据集，特征数据包括基于公开的图像数据集得到的图像语义标注信息和人体语义特征。服务器102与终端101可以通过有线或无线通信方式进行直接或间接的连接，本申请实施例对此不作限定。可选地，上述服务器102的数量可以更多或更少，本申请实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

图2是根据一示例性实施例示出的一种图像生成方法的流程图，如图2所示，该方法由服务器执行，包括以下步骤：

在步骤201中，服务器获取第一图像的多个第一特征，该多个第一特征包括该第一图像中第一对象的多个身体部分所对应的特征，每个第一对象的身体部分对应的特征包括多个尺度的特征。

其中，该第一图像中的第一对象为人物，第一对象的各个身体部分为头发、脸部、上衣、手臂、脚等。

在步骤202中，服务器获取第二图像，该第二图像用于提供该第一对象的目标姿态。

其中，该第二图像中包括第二对象，该第二对象为人物，该第二对象的姿态为目标姿态，服务器能够基于该第二图像中第二对象的姿态，对第一图像中的第一对象的姿态进行变换，从而使得第一对象的姿态能够与第二图像中第二对象的姿态相符合。

在步骤203中，服务器获取该第二图像和该第一图像之间的光流信息，该光流信息用于表示同一像素在不同图像中的变形信息。

其中，该光流信息能够表示第一对象姿态与第二对象姿态之间的变形信息，包括第一对象各个身体部分和第二对象各个身体部分之间的光流信息，每个身体部分的光流信息包括多个尺度的光流信息。

在步骤204中，服务器基于该光流信息，对该多个第一特征进行变形，得到多个第二特征。

在一些实施例中，服务器基于该光流信息，分别对第一对象各个身体部分的多个尺度的第一特征进行变形，得到该多个第二特征。通过对多个第一特征进行变形，实现了将第一对象的姿态变为目标姿态。

在步骤205中，服务器对该多个第二特征进行处理，得到目标图像。

其中，该目标图像中对象的姿态为目标姿态。

图3是根据一示例性实施例示出的一种图像生成方法的示意图，如图3所示，该方法通过提取多尺度特征和纹理归一化操作，增强了生成的目标图像的纹理细节，并通过光流信息对原始图像和目标图像之间的变形信息进行建模，保证了生成的目标图像中纹理的准确性。

图4是根据一示例性实施例示出的一种图像生成方法的模型结构图，该图像生成模型能够对输入图像中的对象进行身体部分的变化和姿态的变化，本实施例以对输入图像中的对象进行姿态变化为例进行说明，如图4所示，该图像生成模型包括以下几个部分：

(1)语义分割子模型

语义分割子模型用于对输入图像进行语义分割，得到该输入图像的语义标注信息，如图4中401部分所示，服务器能够基于该语义标注信息获取输入的图像中对象的各个身体部分的图像，该各个身体部分的图像用于后续的特征提取步骤。在一些实施例中，该语义分割子模型是完全卷积神经网络(fully convolutional networks，FCN)，也即是，该语义分割子模型包括多个卷积层，或者金字塔解析网络(pyramid scene parsing network，PSPNet)，当然，上述语义分割子模型也可以是其他深度学习模型，本实施例对此不作限定。

(2)特征提取子模型

特征提取子模型用于对输入图像中对象的各个身体部分的图像进行特征提取，该特征提取子模型包含多个网络层，对于任一身体部分的图像，特征提取子模型通过多个网络层获取该身体部分图像的多个尺度的特征，如图4中402部分所示，该身体部分图像的多个尺度的特征用于后续对特征进行变形的步骤。在一些实施例中，该特征提取子模型为可学习视觉几何网络(visual geometry group，VGG)或者其他深度学习模型，本实施例对此不作限定。

(3)光流变形子模型

光流变形子模型用于获取输入图像与目标姿态图像之间的光流信息，该目标姿态图像中对象的姿态为目标姿态，该光流信息用于表示同一像素在不同图像中的变形信息，如图4中403部分所示。在一些实施例中，服务器通过将输入图像中对象的各个身体部分的掩码和目标姿态图像中对象各个身体部分的掩码输入光流变形子模型，得到多个光流信息，并基于该多个光流信息对输入图像中对象的各个身体部分的多个尺度的特征进行变形(Warp)，实现将输入图像中对象的姿态变为目标姿态的目的。本申请实施例在下述对本方案进一步的阐述中对这部分内容进行详述，参见图5和图9对应的实施例内容。

(4)纹理归一化子模型

纹理归一化子模型包括第一卷积神经网络和第二卷积神经网络，该纹理归一化子模型通过第一卷积神经网络对上述同一尺度的变形后的输入图像中对象的各个身体部分的特征进行融合，通过第二卷积神经网络对多个尺度的融合后的特征进行纹理归一化处理，并对纹理归一化后的特征进行卷积处理得到目标图像，如图4中404部分所示，该目标图像中对象的姿态为目标姿态。本申请实施例在下述对本方案进一步的阐述中对这部分内容进行详述，参见图5和图9对应的实施例内容。

本实施例所提供的图像生成方法，基于图4所示的图像生成模型，对输入图像中对象的姿态进行变化，得到目标图像，下面结合图5对该方法进行说明，图5是根据一示例性实施例示出的一种图像生成方法的流程图，该方法由服务器执行，如图5所示，具体步骤包括：

在步骤501中，服务器获取第一图像和第二图像。

在一些实施例中，终端提供有第一上传界面和第二上传界面，该第一上传界面用于上传第一图像，该第二上传界面用于选择第二图像或上传第二图像，服务器基于第一上传界面和第二上传界面，分别获取第一图像和第二图像，包括下述2个过程：

过程1：服务器获取第一图像。终端显示第一上传界面，用户通过第一上传界面上传图像，终端将用户所上传的图像，获取为第一图像，向服务器发送该第一图像，服务器接收终端发送的第一图像。

过程2：服务器获取第二图像。响应于终端检测到用户在第一上传界面进行了提交操作，终端跳转到第二上传界面，用户可以通过第二上传界面选择第二图像或者上传第二图像，其过程如下所述：

一种实现方式中，响应于用户在第二上传界面上触发图像库浏览请求，终端在第二上传界面显示上述图像库中的至少一个图像，用户从第二上传界面显示的至少一个图像中选择一个图像，被选择的图像为第二图像，终端向服务器发送第二图像标识，服务器接收终端发送的第二图像标识，并基于第二图像标识获取第二图像。

另一种实现方式中，响应于用户通过第二上传界面上传图像，终端将用户上传的图像，获取为第二图像，向服务器发送该第二图像，服务器接收终端发送的第二图像。

在上述实施例中，是以第一图像和第二图像顺序获取为例进行说明，而在一些实施例中，该顺序还可以打乱进行，例如，先获取第二图像，再获取第一图像，本申请实施例对此不作限定。

在一些实施例中，上述第一上传界面和第二上传界面可以提供为一个上传界面，也即是，用户可以通过该上传界面以任一顺序上传第一图像和第二图像，又或者，该上传界面能够用于上传第一图像、基于用户的选择操作来确定第二图像，本申请实施例对此不作限定。

在步骤502中，服务器基于该第一图像，获取该第一图像中第一对象的各个身体部分图像。

在一些实施例中，本步骤502基于下述步骤502A至步骤502B实现。

在步骤502A中，服务器将该第一图像输入语义分割子模型，得到第一图像的语义标注信息。

在一些实施例中，服务器将该第一图像输入语义分割子模型，通过模型对第一图像进行特征提取并基于提取到的特征进行相应的语义分类过程，进而输出第一图像的语义标注信息。

示例性地，以完全卷积神经网络为该语义分割子模型为例，对上述模型处理过程进行说明：该语义分割子模型包括多个卷积层以及至少一个上采样单元，通过多个卷积层，对第一图像进行多次卷积操作，得到多个尺度的特征图。对于任一尺度的特征图，语义分割子模型将该尺度的特征图映射到语义标注空间，得到该尺度的特征图中每个像素属于各个语义类别的概率，该语义类别指第一对象身体的各个部分，如头发、脸部、上衣、手臂等，将各个像素的最大概率值所对应的语义类别确定为该像素的语义类别，得到该尺度的特征图中各个像素的语义类别，该尺度的特征图中各个像素的语义类别即为该尺度的特征图的语义标注信息。通过至少一个上采样单元，将各个尺度的特征图的语义标注信息分别进行上采样处理，并将各个经过上采样处理的特征图的语义标注信息进行融合，得到第一图像的语义标注信息。

在步骤502B中，服务器基于第一图像的语义标注信息，得到第一图像中第一对象的各个身体部分图像。

在一些实施例中，本步骤502B基于以下2个过程实现。

过程1、生成掩码。服务器基于该第一图像的语义标注信息，生成第一对象各个身体部分的掩码。

示例性地，对于第一对象的任一身体部分，生成掩码的过程包括：基于第一图像的大小，生成一个与第一图像大小相同的矩阵，将该矩阵中对应于第一图像中该身体部分的像素位置的元素置为1，矩阵中其余位置的元素置为0，该矩阵即为该身体部分的掩码。

过程2、获取各个身体部分图像。服务器将第一图像分别与该第一对象各个身体部分的掩码进行点乘，得到该第一图像中第一对象的各个身体部分图像。

需要说明的是，上述第一对象各个身体部分的掩码均与第一图像的尺度相同，上述第一对象的各个身体部分图像基于第一图像与第一对象各个身体部分的掩码进行点乘得到，因此，第一对象的各个身体部分图像均与第一图像尺度相同。

在步骤503中，服务器基于该第一对象的各个身体部分图像，获取多个第一特征，该多个第一特征包括该第一图像中第一对象的多个身体部分所对应的特征，每个第一对象的身体部分对应的特征包括多个尺度的特征。

在一些实施例中，服务器将第一对象的各个身体部分图像分别输入特征提取子模型，对于第一对象中的任一身体部分图像，得到特征提取子模型中多个网络层输出的多个尺度的第一特征，对于除最小尺度之外的任一尺度的第一特征，该尺度的第一特征不仅为对应网络层的输出数据，也是下一级网络层的输入数据。

在一些实施例中，对于第一对象中的任一身体部分图像，得到特征提取子模型中多个网络层输出的多个尺度的第一特征的过程包括步骤503A至步骤503C：

在步骤503A中，将该身体部分图像输入特征提取子模型的第一级网络层，得到第一级网络层输出的第一尺度的第一特征，将该第一尺度的第一特征作为下一级网络层的输入数据。

在步骤503B中，对于任一级网络层输出的任一尺度的第一特征，将该尺度的第一特征输入下一级网络层，得到下一级尺度的第一特征。

在步骤503C中，响应于该尺度的第一特征的尺度为除最小尺度之外的最小尺度，将该尺度的第一特征输入最后一个网络层，得到尺度最小的第一特征。

以一个包括三个网络层的特征提取子模型为例，对上述过程进行简要介绍：将该身体部分图像P1输入特征提取子模型的第一级网络层，得到第一级网络层输出的第一尺度的第一特征PF1，将该第一尺度的第一特征PF1作为第二级网络层的输入数据，通过第二级网络层对第一特征PF1进行处理，输出第二尺度的第一特征PF2，将PF2作为第三级网络层的输入数据，通过第三级网络层对第一特征PF2进行处理，输出第三尺度的第一特征PF3，此时，特征提取子模型的输出为三个尺度的第一特征PF1、PF2和PF3。

在一些实施例中，对于第一对象的任一身体部分图像，如图6所示，该特征提取子模型引入多个尺度的人体语义特征来实现提取多个尺度的第一特征的过程，该多个尺度的人体语义特征为基于通用对象数据集(common objects in context，COCO)提取出的特征，该过程由步骤503D至503G完成：

在步骤503D中，服务器从数据库中获取该身体部分的多个尺度的人体语义特征。

在步骤503E中，将第一对象的该身体部分图像输入特征提取子模型中的第一级网络层，得到第一级网络层输出的第一尺度的第一特征，将该第一尺度的第一特征与第一尺度的人体语义特征作为下一级网络层的输入数据。

在步骤503F中，对于任一级网络层输出的任一尺度的第一特征，将该尺度的第一特征与尺度相同的人体语义特征拼接，将拼接后的该尺度第一特征输入下一级网络层，得到下一级尺度的第一特征。

在步骤503G中，响应于该尺度的第一特征的尺度为除最小尺度之外的最小尺度，将该尺度的第一特征与相同尺度的人体语义特征拼接，并将拼接后的该尺度的第一特征输入最后一个网络层，得到尺度最小的第一特征。

基于上述包括三个网络层的特征提取子模型的示例，该步骤503D至503G所提供的方案，每一级网络层的输出数据均会与相应尺度的人体语义特征进行拼接后，再输入到下一级网络层，以通过各层级网络层的处理，以得到更准确、更有代表性的多个尺度的第一特征。

本公开实施例所提出的方案，通过引入COCO数据集的特征，不仅能够指导人体特征的提取并提供部分低层特征，也能够避免基于有限样本进行提取特征所导致的过拟合现象。

在步骤504中，服务器获取该第二图像和该第一图像之间的光流信息，该光流信息用于表示同一像素在不同图像中的变形信息。

在一些实施例中，上述步骤504基于以下步骤504A至步骤504B实现。

在步骤504A中，服务器基于该第二图像，获取该第二图像中第二对象的各个身体部分的掩码。

在一些实施例中，若该第二图像为用户上传，则服务器基于步骤502同理的处理，得到第二图像中第二对象的各个身体部分的掩码。若该第二图像为用户基于服务器所提供的图像库选择的，则服务器从图像库中获取该第二图像对应的语义标注信息，并基于步骤502B同理的处理，得到第二图像中第二对象的各个身体部分的掩码。

可以理解的是，该步骤504A获取第二图像对应掩码的过程可以在获取到第二图像后任一时机进行，只要在需要进行下述步骤504B之前完成即可，而不限定于当前时序。

在步骤504B中，服务器基于该第二对象的各个身体部分的掩码和该第一对象的各个身体部分的掩码，获取各个身体部分对应的光流信息。

过程1：对掩码进行尺度变化。

在一些实施例中，服务器按照该多个尺度，分别对第二对象的各个身体部分的掩码和第一对象的各个身体部分的掩码进行尺度变化，得到多个尺度的第二对象的各个身体部分的掩码和多个尺度的第一对象的各个身体部分的掩码。

过程2：获取多个光流信息。

在一些实施例中，服务器基于同一尺度的第二对象的各个身体部分的掩码和第一对象的各个身体部分的掩码，获取各个身体部分对应的多个尺度的光流信息。

示例性地，服务器分别将多组同一尺度的第二对象的各个身体部分的掩码和第一对象的各个身体部分的掩码输入光流变形子模型，得到多个光流信息，该光流信息包括光流数据和可信区域数据，该光流数据为同一像素在第二对象各个身体部分掩码和第一对象各个身体部分掩码中的移动距离，该可信区域数据为每个像素点的光流数据的可信程度。

对于任一组同一尺度的第二对象的各个身体部分的掩码和第一对象的各个身体部分的掩码，获取该尺度的光流信息的过程可以通过公式(1)来表示，

其中，F_ifw()表示光流变形子模型，该光流变形子模型的输入数据为该尺度的第一对象各个身体部分的掩码

和该尺度的第二对象各个身体部分的掩码

N表示身体部分的数量，

表示该尺度的第一对象第i个身体部分的掩码，

表示该尺度的第二对象第i个身体部分的掩码。该光流变形子模型的输出数据为该尺度的光流数据

和该尺度的可信区域数据

wⁱ表示该尺度的第i个身体部分的光流数据，aⁱ表示该尺度的第i个身体部分的可信区域数据。光流数据wⁱ的具体形式可以通过公式(2)来表示，

其中，R、C为该尺度的第一对象第i个身体部分掩码的高和宽，

为位于该尺度的第一对象第i个身体部分掩码(x，y)坐标的像素，与该尺度的第二对象第i个身体部分掩码对应像素之间，x方向的移动距离和y方向的移动距离，∑表示遍历操作。

本公开实施例所提出的方案，通过该光流变形子模型对第一图像与第二图像之间的变形关系进行建模，得到不同尺度的第一对象与第二对象之间的变形信息，从而能够实现对多个尺度的第一特征进行变形。

在一些实施例中，对于本步骤504，服务器能够对第一对象和第二对象进行三维建模，得到第一人体模型和第二人体模型，基于该第一人体模型和第二人体模型，获取第一图像和第二图像之间的光流信息。与基于分割结果得到的掩码相比，人体三维模型具有深度信息，能够更好的对人体的遮挡关系进行建模，从而使得到的光流信息更加准确，基于该光流信息进行第一对象姿态的变化，能够使生成的目标图像质量更高。

在步骤505中，服务器基于该光流信息，对该多个第一特征进行变形，得到多个第二特征。

在一些实施例中，该多个光流信息包括多个光流数据和多个置信区域，该多个第一特征为多个二维特征图，服务器基于多个光流信息对多个第一特征进行变形是指，基于多个光流数据中每个像素点的移动距离，将对应的多个二维特征图中每个像素点进行相应的移动，并将多个经过像素点移动的二维特征图分别与对应的多个置信区域进行点乘，得到多个第二特征。下面以对衣服部分的第一特征进行变形为例进行说明，参见图7，图7是根据一示例性实施例示出的一种光流变形基本原理示意图，对于任一尺度的第一对象衣服部分的掩码和第二对象衣服部分的掩码，服务器基于上述步骤504的方法获取该尺度光流数据wⁱ和该尺度的置信区域数据aⁱ，通过wⁱ和aⁱ得到衣服部分所对应的该尺度的第二特征。

本公开实施例所提出的方案，基于光流信息对特征进行变形，对图像所提取出的特征进行变形可以看作一种隐式变形，与直接对原始图像进行变形的显示变形不同，隐式变形能够缓解大幅度姿态变换时对应点难以寻找的问题。本方案通过多个光流信息同时对各个身体部分的多个尺度的第一特征进行变形，使后续图像生成的过程中能够有效的利用不同尺度的特征进行姿态变换，同时通过将变形后的特征与置信区域点乘，过滤掉光流数据置信度低的区域，达到提升生成的目标图像的质量的目的。

在步骤506中，服务器对该多个第二特征进行处理，得到目标图像。

在一些实施例中，服务器将多个第二特征输入纹理归一化子模型，得到目标图像，上述过程能够基于步骤506A至步骤506D实现。

在步骤506A中，服务器调用纹理归一化子模型的第一卷积神经网络，将同一尺度的第二特征进行融合，得到多个尺度的融合特征。

在步骤506B中，服务器对尺度最小的融合特征进行纹理归一化处理，得到尺度最小的纹理归一化特征，对尺度最小的归一化特征进行卷积处理。

在步骤506C中，对于除尺度最小的任一尺度的融合特征，服务器将该尺度的融合特征与经过卷积处理的前一级尺度的纹理归一化特征进行拼接，得到该尺度的拼接特征，对该尺度的拼接特征进行纹理归一化处理，得到该尺度的纹理归一化特征。

在步骤506D中，响应于该尺度的纹理归一化特征的尺度最大，对尺度最大的归一化特征进行卷积处理，得到目标图像。

以该多个第二特征包括三个尺度的第二特征为例，对上述过程进行简要介绍：服务器调用特征归一化子模型的第一卷积神经网络，将同一尺度的第二特征进行融合，得到第一级尺度的融合特征、第二级尺度的融合特征和第三级尺度的融合特征，对第一级尺度的融合特征进行纹理归一化处理，得到第一级尺度的纹理归一化特征，对第一级尺度的纹理归一化特征进行卷积处理，将经过卷积处理的第一级尺度的纹理归一化特征与第二级尺度的融合特征进行拼接，得到第二级尺度的拼接特征，对第二级尺度的拼接特征进行纹理归一化处理，得到第二级尺度的纹理归一化特征，对第二级尺度的纹理归一化特征进行卷积处理，将经过卷积处理的第二级尺度的纹理归一化特征与第三级尺度的融合特征进行拼接，得到第三级尺度的拼接特征，对第三级尺度的拼接特征进行纹理归一化处理处理，得到第三级尺度的纹理归一化特征，对第三级尺度的纹理归一化特征进行卷积处理，得到目标图像。

示例性地，对上述获取纹理归一化特征的过程进行说明。服务器对该第一图像中衣服部分的图像进行尺度变化，得到多个尺度的衣服部分图像，基于该纹理归一化子模型的第二卷积神经网络，对该多个尺度的衣服部分图像进行特征提取，得到多个尺度的纹理特征，对于任一尺度对应的特征，如图8所示，服务器基于该尺度的特征中各个元素的均值和方差，对该尺度的特征进行归一化处理，得到该尺度的归一化特征，将该尺度的纹理特征与该尺度的归一化特征进行融合，得到该尺度的纹理归一化特征，上述获取纹理归一化特征的过程如公式(3)所示，

其中，h表示尺度最小的融合特征或除尺度最小的任一尺度的拼接特征，μ()表示求均值操作，万()表示求方差操作，

表示任一尺度的归一化特征，γ^cloth和β^cloth表示任一尺度的纹理特征，h_s表示任一尺度的纹理归一化特征。

例如，以服务器获取最小尺度的纹理归一化特征为例进行说明，服务器对第一图像中衣服部分图像进行尺度变化，得到最小尺度的衣服部分图像，基于纹理归一化子模型的第二卷积神经网络对该最小尺度的衣服部分图像进行特征提取，得到最小尺度的纹理特征，基于上述公式(3)，对最小尺度的融合特征进行归一化处理，得到最小尺度的归一化特征，并将最小尺度的归一化特征和最小尺度的纹理特征进行融合，得到最小尺度的纹理归一化特征。

通过对特征进行纹理归一化操作，将第一图像中的纹理贴合到了目标图像中，使得生成的目标图像能够保持纹理细节，达到了提升目标图像的质量的目的。

上述图5对应的实施例中，介绍了将输入图像中对象的姿态进行变化，得到目标图像的方法，本实施例提供的图像生成方法，基于图4所示的图像生成模型，对输入图像中对象的姿态和身体部分进行变化，得到目标图像，下面结合图9对该方法进行说明，图9是根据一示例性实施例示出的一种图像生成方法的流程图，该方法由服务器执行，如图9所示，具体步骤包括：

在步骤901中，服务器获取第一图像、第二图像和第三图像。

其中，该第三图像与该第二图像为同一图像；或，该第三图像与该第二图像为不同图像。

在一些实施例中，终端提供有第一上传界面、第二上传界面和第三上传界面，该第一上传界面用于上传第一图像，该第二上传界面用于选择第二图像或上传第二图像，该第三上传界面用于上选择第三图像或上传第三图像，服务器基于第一上传界面、第二上传界面和第三上传界面，分别获取第一图像、第二图像和第三图像，包括下述三个过程：

过程1：服务器获取第一图像。该过程1与上述步骤501中过程1同理，在此不再赘述。

过程2：服务器获取第二图像。该过程2与上述步骤501中过程2同理，在此不再赘述。

过程3：服务器获取第三图像。响应于终端检测到用户在第二上传界面进行了提交操作，终端跳转到第三上传界面，用户可以通过第三上传界面选择将第二图像作为第三图像，也即是第二图像和第三图像为同一图像，或者，用户可以通过第三上传界面选择或上传与第二图像不同的第三图像，其过程如下所述：

一种实现方式中，第二图像与第三图像为同一图像，响应于用户在第三上传界面上将第二图像选择为第三图像，终端在第三上传界面显示各个身体部分的选项，用户从该第三上传界面所显示的选项中选择一个身体部分，被选择的身体部分为目标身体部分，终端向服务器发送目标身体部分标识和指示消息，该指示消息用于指示第二图像和第三图像为同一图像，服务器接收终端发送的指示消息和目标身体部分标识。

另一种实现方式中，第二图像与第三图像为不同的图像，响应于用户在第三上传界面上触发图像库浏览请求，终端在第三上传界面显示图像库中的至少一个图像，该图像库为服务器预设的图像库，该图像库中包括至少一个图像，每个图像对应于一个图像标识和该图像的语义标注信息，用户从第三上传界面显示的至少一个图像中选择一个图像，响应于终端对该图像的选择操作，在第三上传界面显示各个身体部分的选项，用户从该第三上传界面所显示的选项中选择一个身体部分，被选择的图像为第三图像，被选择的身体部分为目标身体部分，终端向服务器发送第三图像标识和目标身体部分标识，服务器接收终端发送的第三图像标识和目标身体部分标识，并基于第三图像标识，获取第三图像。

另一种实现方式中，第二图像与第三图像为不同的图像，响应于用户通过第三图像上传界面上传图像，终端将用户上传的图像，获取为第三图像，响应于终端检测到用户完成图像的上传，在第三上传界面显示各个身体部分的选项，用户从该第三上传界面显示的选项中选择一个身体部分，被选择的身体部分为目标身体部分，终端向服务器发送第三图像和目标身体部分标识，服务器接收终端发送的第三图像和目标身体部分标识。

在上述实施例中，获取第二图像和第三图像需顺序执行，而获取第一图像可以在获取第二图像之前执行，或者在获取第三图像之后执行，本申请实施例对此不作限定。

在一些实施例中，上述第一上传界面、第二上传界面和第三上传界面可以提供为一个上传界面，也即是，用户可以通过该上传界面先上传第一图像，再上传或选择第二图像和第三图像，又或者，用户可以通过该上传界面先上传或选择第二图像和第三图像，再上传第一图像，本申请实施例对此不作限定。

在步骤902中，服务器基于该第一图像，获取该第一图像中第一对象的各个身体部分图像。

在一些实施例中，服务器基于与上述步骤502同理的方法，获取该第一图像中第一对象的各个身体部分图像，在此不再赘述。

在步骤903中，服务器基于该第一对象的各个身体部分图像，获取多个第一特征，该多个第一特征包括该第一图像中第一对象的多个身体部分所对应的特征，每个第一对象的身体部分对应的特征包括多个尺度的特征。

在一些实施例中，服务器基于与上述步骤503同理的方法，获取该多个第一特征，在此不再赘述。

在步骤904中，服务器获取该第二图像和该第一图像之间的光流信息，该光流信息用于表示同一像素在不同图像中的变形信息。

在一些实施例中，服务器基于与上述步骤504同理的方法，获取该光流信息，在此不再赘述。

在步骤905中，服务器基于该第三图像，获取该第三图像中第三对象的各个身体部分图像。

在一些实施例中，服务器基于与上述步骤502同理的方法，获取该第三对象的各个身体部分图像，在此不再赘述。

在步骤906中，服务器基于该第三对象的各个身体部分图像，获取第三图像的多个第三特征，该多个第三特征包括该第三图像中第三对象的多个身体部分所对应的特征，每个第三对象的身体部分对应的特征包括多个尺度的特征，该第三图像中的第三对象包括目标身体部分。

在一些实施例中，服务器基于与上述步骤503同理的方法，获取该多个第三特征，在此不再赘述。

在步骤907中，服务器基于该多个第三特征中该目标身体部分所对应的第三特征，对该多个第一特征中该目标身体部分所对应的第一特征进行替换，该目标身体部分包括该第三对象的一个或多个身体部分。

在一些实施例中，服务器基于目标身体部分的标识，确定该目标身体部分所对应的多个尺度的第三特征，并从多个第一特征中确定目标身体部分所对应的多个尺度的第一特征，用该多个尺度的第三特征分别对目标身体部分所对应的相应尺度的第一特征进行替换。

例如，如图10所示，图10是根据一示例性实施例示出的一种特征替换基本原理示意图，图中第三图像被框出的部分为目标身体部分，通过用目标身体部分的第三特征对第一图像中第一对象的相应身体部分的第一特征进行替换，从而实现对第一图像中第一对象身体部分的变化。

本公开实施例所提出的方案，能够将期望生成的身体部分的特征替换至第一特征中，实现了对第一对象中身体部分的变化。

在步骤908中，服务器基于该光流信息，对多个经过替换的第一特征和其他未替换的第一特征进行变形，得到多个第二特征。

在一些实施例中，服务器基于与上述步骤505同理的方法，对多个经过替换的第一特征和其他未替换的第一特征进行变形，得到多个第二特征，在此不再赘述。

在步骤909中，服务器对该多个第二特征进行处理，得到目标图像。

在一些实施例中，服务器基于与上述步骤506同理的方法，对该多个第二特征进行处理，得到目标图像，在此不再赘述。

需要说明的是，对于本步骤909，服务器基于上述步骤901所获取的目标身体部分标识，确定基于第一图像中衣服部分的图像或者第三图像中衣服部分的图像，进行纹理归一化处理，响应于目标身体部分标识指示目标身体部分是衣服部分，则服务器基于第三图像中衣服部分的图像进行纹理归一化处理，响应于目标身体部分标识指示目标身体部分不是衣服部分，则服务器基于第一图像中衣服部分的图像进行纹理归一化处理。

图11是根据一示例性实施例示出的一种本技术方案与ADGAN方法的结果对比图，如图11所示，图中包括多个第一图像、多个第三图像、多个目标姿态图像、多个ADGAN方法生成的目标图像和多个本技术方案生成的目标图像。其中，第三图像中被框出来的部分为目标身体部分，目标姿态图像中包括多个位置点，对该多个位置点进行连接构成一种抽象的姿态，ADGAN方法基于该目标姿态图像对第一图像中的第一对象进行姿态变换。在本技术方案中，服务器能够基于该目标姿态图像获取包含有相同姿态的第二图像。基于图11所展示的对比结果，能够看出通过本技术方案所生成的目标图像中的纹理更加准确，目标图像的质量更高。

为了进一步展示本技术方案所生成的目标图像的效果，参见图12，图12是根据一示例性实施例示出的一种图像生成方法结果图，图12展示的目标图像是基于同一图像，对第一图像中第一对象的身体部分和姿态进行变形得到，也即是，第二图像和第三图像为同一图像。基于图12所展示的目标图像，能够看出本技术方案能够实现对第一图像中对象进行身体部分的变化和姿态的变化，并保证生成的目标图像中纹理的准确性。

本公开实施例提供的技术方案，通过获取第一图像和第三图像中用于指示对象身体部分的多个尺度的特征，并基于该多个尺度的特征来进行身体部分的改变，再基于第一图像与第二图像之间多个尺度的光流信息，对替换后的多个第一特征进行变形，达到对第一对象进行姿态变化的目的，进而基于变形后的特征来进行图像的生成，由于上述图像生成过程中的变形是在保留了图像的完整特征信息的情况下的变形，也就保证了在进行大幅度的姿态变换时，生成的目标图像中纹理的准确性，提升了生成的目标图像的质量。

在一些实施例中，服务器能够基于参考视频对第一图像进行处理，并基于处理后得到的图像生成目标视频，本申请所提供的方法还包括：服务器从参考视频中获取至少一个图像，将该图像作为第二图像，基于至少一个第二图像对第一图像中第一对象的身体部分和姿态进行变化，得到至少一个目标图像，基于该至少一个图像对应的目标图像，生成目标视频。

示例性地，对上述基于目标图像生成目标视频的过程进行说明。该至少一个图像为参考视频中连续的视频帧，服务器基于该至少一个图像在参考视频中的顺序，将对应的至少一个目标图像以相同的顺序拼接在一起，得到目标视频。

下面对上述实施例中涉及到的图像生成模型通的训练过程进行介绍：该训练过程包括两个部分，首先，对语义分割子模型进行预训练，然后，基于经过预训练的语义分割子模型，对图像生成模型进行整体训练，具体说明如下。

(1)服务器基于公开的人体解析数据集(look into person，LIP)，对语义分割子模型进行预训练，该LIP数据集中包括样本人体图像和样本语义标注信息。

(2)在对该图像生成模型进行整体训练的过程中，服务器获取训练数据，该训练数据包括第一样本图像、第二样本图像、第三样本图像和样本目标图像。该训练通过多次迭代实现，在任一次迭代的过程中，服务器获取第二样本图像中对象的各个身体部分的掩码，将第一样本图像、第二样本图像中对象的各个身体部分的掩码和第三样本图像输入待训练模型，得到样本生成图像。基于输出的样本生成图像和样本目标图像，确定是否达到训练结束条件，若达到，则将本次迭代对应的模型确定为上述图像生成模型，若未达到，则调整模型参数，基于调整后的模型执行下一次迭代的过程。可选地，上述训练结束条件为：样本生成图像与样本目标图像的差异值小于0.01或者迭代次数大于第一阈值，则结束训练。

需要说明的是，在上述对图像生成模型进行整体训练的任一次代过程中，服务器基于第一样本图像、第二样本图像和光流变形子模型，获取多个样本光流信息，该样本光流信息包括样本光流数据和样本可信区域数据，具体的获取过程如步骤504所述，在此不再赘述。服务器对第一样本图像和第二样本图像进行尺度变化，得到多个尺度的第一样本图像和第二样本图像，对于任一组尺度相同的第一样本图像和第二样本图像，基于自监督损失函数计算光流变形子模型的损失，如公式(4)所示，

其中，Loss_flow表示光流变形子模型的损失，I_s表示该尺度的第一样本图像，

表示该尺度的第一样本图像中对象第i个身体部分的掩码，I_t表示该尺度的第二样本图像，

表示该尺度的第三样本图像中对象第i个身体部分的掩码，aⁱ表示该尺度的第i个身体部分的样本可信区域数据，

的计算过程如公式(5)所示，

其中，I_s表示该尺度的第一样本图像，x和y表示该尺度的第一样本图像中任一像素的坐标，

和

表示该尺度的第一样本图像中对象的第i个身体部分的图像中，坐标为(x，y)的像素的光流信息，公式(5)表示将该尺度的第一样本图像中对象第i个身体部分的图像中的各个像素，基于对应尺度的样本光流数据进行相应的移动。通过该光流自监督损失函数，光流变形子模型能够在多次迭代的训练过程中实现自适应优化。

通过上述训练过程，该模型能够基于输入的第一图像、第二图像和第三图像，对第一图像中第一对象进行身体部分的变化和姿态的变化，生成高质量的目标图像。

图13是根据一示例性实施例示出的一种图像生成装置的框图。参照图13，该装置包括：获取单元1301、变形单元1302和处理单元1303。

获取单元1301，被配置为执行获取第一图像的多个第一特征，该多个第一特征包括该第一图像中第一对象的多个身体部分所对应的特征，每个第一对象的身体部分对应的特征包括多个尺度的特征；

该获取单元1301，被配置为执行获取第二图像，该第二图像用于提供该第一对象的目标姿态；

该获取单元1301，被配置为执行获取该第二图像和该第一图像之间的光流信息，该光流信息用于表示同一像素在不同图像中的变形信息；

变形单元1302，被配置为执行基于该光流信息，对该多个第一特征进行变形，得到多个第二特征；

处理单元1303，被配置为执行对该多个第二特征进行处理，得到目标图像。

在一些实施例中，该获取单元1301，被配置为执行基于该第一图像，获取该第一图像中第一对象的各个身体部分图像；基于该第一对象的各个身体部分图像，获取该多个第一特征。

在一些实施例中，该获取单元1301，包括：

在一些实施例中，该变形单元1302，包括：

在一些实施例中，该处理单元1303包括：

在一些实施例中，该装置还包括：

在一些实施例中，该获取单元1301，被配置为执行获取第三图像的多个第三特征，该多个第三特征包括该第三图像中第三对象的多个身体部分所对应的特征，每个第三对象的身体部分对应的特征包括该多个尺度的特征，该第三图像中的第三对象包括目标身体部分；

该装置还包括：

在一些实施例中，该获取单元1301，被配置为执行从参考视频中获取至少一个图像，将该图像作为该第二图像；

该装置还包括：

需要说明的是：上述实施例提供的图像生成装置在图像生成时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像生成装置与图像生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述实施例是以电子设备为服务器为例进行说明，下面对该电子设备的结构进行说明。图14是根据一示例性实施例示出的一种电子设备的框图，该电子设备1400可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processingunits，CPU)1401和一个或多个的存储器1402，其中，该一个或多个存储器1402中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1401加载并执行以实现上述各个方法实施例提供的图像生成方法中电子设备执行的过程。当然，该电子设备1400还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备1400还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括程序代码的计算机可读存储介质，例如包括程序代码的存储器1402，上述程序代码可由电子设备1400的处理器1401执行以完成上述图像生成方法。可选地，计算机可读存储介质可以是只读内存(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、只读光盘(compact-disc read-onlymemory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的图像生成方法。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行，分布在多个地点且通过通信网络互连的多个电子设备可以组成区块链系统。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

获取第一图像的多个第一特征，所述多个第一特征包括所述第一图像中第一对象的多个身体部分所对应的特征，每个第一对象的身体部分对应的特征包括多个尺度的特征；

获取第二图像，所述第二图像用于提供所述第一对象的目标姿态；

获取所述第二图像和所述第一图像之间的光流信息，所述光流信息用于表示同一像素在不同图像中的变形信息；

基于所述光流信息，对所述多个第一特征进行变形，得到多个第二特征；

对所述多个第二特征进行处理，得到目标图像。

2.根据权利要求1所述的图像生成方法，其特征在于，所述获取第一图像的多个第一特征包括：

基于所述第一图像，获取所述第一图像中第一对象的各个身体部分图像；

基于所述第一对象的各个身体部分图像，获取所述多个第一特征。

3.根据权利要求2所述的图像生成方法，其特征在于，所述基于所述第一对象的各个身体部分图像，获取所述多个第一特征包括：

将所述第一对象的各个身体部分图像分别输入特征提取子模型，对于所述第一对象的任一身体部分图像，得到所述特征提取子模型中多个网络层输出的多个尺度的第一特征。

4.根据权利要求3所述的图像生成方法，其特征在于，所述对于所述第一对象的任一身体部分图像，得到所述特征提取子模型中多个网络层输出的多个尺度的第一特征包括：

获取所述身体部分的多个尺度的人体语义特征，所述多个尺度的人体语义特征为基于通用对象数据集提取出的特征；

将所述第一对象的所述身体部分图像输入所述特征提取子模型中的第一级网络层，得到所述第一级网络层输出的第一尺度的第一特征，将所述第一尺度的第一特征与第一尺度的人体语义特征作为下一级网络层的输入数据；

对于任一级网络层输出的任一尺度的第一特征，将所述尺度的第一特征与尺度相同的人体语义特征拼接，将拼接后的所述尺度第一特征输入下一级网络层，得到下一级尺度的第一特征；

响应于所述尺度的第一特征的尺度为除最小尺度之外的最小尺度，将所述尺度的第一特征与相同尺度的人体语义特征拼接，并将拼接后的所述尺度的第一特征输入最后一个网络层，得到尺度最小的第一特征。

5.根据权利要求1所述的图像生成方法，其特征在于，所述基于所述光流信息，对所述多个第一特征进行变形，得到多个第二特征包括：

基于所述第二图像，获取所述第二图像中第二对象的各个身体部分的掩码；

基于所述第二对象的各个身体部分的掩码和所述第一对象的各个身体部分的掩码，获取各个身体部分对应的光流信息；

基于所述各个身体部分对应的光流信息，对所述多个第一特征进行变形，得到所述多个第二特征。

6.根据权利要求5所述的图像生成方法，其特征在于，所述基于所述第二对象的各个身体部分的掩码和所述第一对象的各个身体部分的掩码，获取各个身体部分的光流信息包括：

按照所述多个尺度，分别对所述第二对象的各个身体部分的掩码和所述第一对象的各个身体部分的掩码进行尺度变化，得到所述多个尺度的第二对象的各个身体部分的掩码和多个尺度的第一对象的各个身体部分的掩码；

基于同一尺度的第二对象的各个身体部分的掩码和第一对象的各个身体部分的掩码，获取所述各个身体部分对应的多个尺度的光流信息。

7.根据权利要求1所述的图像生成方法，其特征在于，所述对所述多个第二特征进行处理，得到目标图像包括：

将同一尺度的所述第二特征进行融合，得到多个尺度的融合特征；

对于除尺度最小的任一尺度的融合特征，将所述尺度的融合特征与经过卷积处理的前一级尺度的纹理归一化特征进行拼接，得到所述尺度的拼接特征，对所述尺度的拼接特征进行纹理归一化处理，得到所述尺度的纹理归一化特征；

响应于所述尺度的纹理归一化特征为最大尺度的纹理归一化特征，对尺度最大的纹理归一化特征进行卷积处理，得到目标图像。

8.一种图像生成装置，其特征在于，所述装置包括：

获取单元，被配置为执行获取第一图像的多个第一特征，所述多个第一特征包括所述第一图像中第一对象的多个身体部分所对应的特征，每个第一对象的身体部分对应的特征包括多个尺度的特征；

所述获取单元，被配置为执行获取第二图像，所述第二图像用于提供所述第一对象的目标姿态；

所述获取单元，被配置为执行获取所述第二图像和所述第一图像之间的光流信息，所述光流信息用于表示同一像素在不同图像中的变形信息；

变形单元，被配置为执行基于所述光流信息，对所述多个第一特征进行变形，得到多个第二特征；

处理单元，被配置为执行对所述多个第二特征进行处理，得到目标图像。

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至7中任一项所述的图像生成方法。

10.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的程序代码由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的图像生成方法。