CN114821811A

CN114821811A - 人物合成图像生成方法、装置、计算机设备及存储介质

Info

Publication number: CN114821811A
Application number: CN202210702700.XA
Authority: CN
Inventors: 司世景; 王健宗; 吴建汉
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-07-29
Anticipated expiration: 2042-06-21
Also published as: CN114821811B

Abstract

本发明涉及智能决策领域，尤其涉及一种人物合成图像生成方法、装置、计算机设备及存储介质。其方法包括：对源图像进行特征提取，得到人体特征；对源图像进行姿态识别，得到源姿势图像；对姿态图像进行姿态识别，得到目标姿势图像；对目标姿势图像进行姿势特征编码，得到目标姿势特征；将源姿势图像、源图像和目标姿势图像进行拼接并映射至特征空间，得到部位姿势综合特征；通过基于注意力机制的图像合成模型，对人体特征、目标姿势特征和部位姿势综合特征进行特征分析，并输出人物合成图像。本发明可多个图像合成任务同时实现，满足用户的需求。同时，运用了注意力机制，使获得的人物合成图像更加趋于真实，细节更加清晰，提高了图像质量。

Description

人物合成图像生成方法、装置、计算机设备及存储介质

技术领域

本发明涉及智能决策领域，尤其涉及一种人物合成图像生成方法、装置、计算机设备及存储介质。

背景技术

随着多媒体技术的快速发展，元宇宙概念孕育而生，针对元宇宙概念，生成的虚拟人物形象尽可能真实，才能使用户沉浸其中，让用户有真实的体验感。其中，虚拟人物形象基于对人物图像进行合成得到。因此，人物合成图像方向的研究越来越受到重视。一般地，人物合成图像基于图像合成任务得到，根据不同的图像合成任务，得到对应的人物合成图像。由于在进行图像合成时，需要占用大量计算资源，现有的人物合成图像技术，通常只能实现一项图像合成任务；若同时执行多项图像合成任务，则需要降低合成质量。

发明内容

基于此，有必要针对上述技术问题，提供一种人物合成图像生成方法、装置、计算机设备及存储介质，以解决现有图像合成的人物图像效果单一，且质量不高的问题。

一种人物合成图像生成方法，包括：

获取源图像和姿态图像；

通过人体解析模型对所述源图像中的若干人体部位进行特征提取，得到若干部位特征；并将所述若干部位特征进行特征拼接，得到人体特征；

通过人体姿态识别模型对所述源图像进行姿态识别，得到所述源图像的源姿势图像；通过人体姿态识别模型对所述姿态图像进行姿态识别，得到所述姿态图像的目标姿势图像；

对所述目标姿势图像进行姿势特征编码，得到目标姿势特征；

将所述源姿势图像、所述源图像和所述目标姿势图像进行拼接，得到人体姿势拼接图像；将所述人体姿势拼接图像映射至特征空间，得到部位姿势综合特征；

通过基于注意力机制的图像合成模型，对所述人体特征、所述目标姿势特征和所述部位姿势综合特征进行特征分析，并输出人物合成图像，所述人物合成图像融合所述人体特征和所述目标姿势特征。

一种人物合成图像生成装置，包括：

图像获取模块，用于获取源图像和姿态图像；

人体特征模块，用于通过人体解析模型对所述源图像中的若干人体部位进行特征提取，得到若干部位特征；并将所述若干部位特征进行特征拼接，得到人体特征；

姿态识别模块，用于通过人体姿态识别模型对所述源图像进行姿态识别，得到所述源图像的源姿势图像；通过人体姿态识别模型对所述姿态图像进行姿态识别，得到所述姿态图像的目标姿势图像；

姿势特征模块，用于对所述目标姿势图像进行姿势特征编码，得到目标姿势特征；

综合特征模块，用于将所述源姿势图像、所述源图像和所述目标姿势图像进行拼接，得到人体姿势拼接图像；将所述人体姿势拼接图像映射至特征空间，得到部位姿势综合特征；

人物合成图像模块，用于通过基于注意力机制的图像合成模型，对所述人体特征、所述目标姿势特征和所述部位姿势综合特征进行特征分析，并输出人物合成图像，所述人物合成图像融合所述人体特征和所述目标姿势特征。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述人物合成图像生成方法。

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如上述人物合成图像生成方法。

上述人物合成图像生成方法、装置、计算机设备及存储介质，获取源图像和姿态图像；通过人体解析模型对所述源图像中的若干人体部位进行特征提取，得到若干部位特征；并将所述若干部位特征进行特征拼接，得到人体特征；通过人体姿态识别模型对所述源图像进行姿态识别，得到所述源图像的源姿势图像；通过人体姿态识别模型对所述姿态图像进行姿态识别，得到所述姿态图像的目标姿势图像；对所述目标姿势图像进行姿势特征编码，得到目标姿势特征；将所述源姿势图像、所述源图像和所述目标姿势图像进行拼接，得到人体姿势拼接图像；将所述人体姿势拼接图像映射至特征空间，得到部位姿势综合特征；通过基于注意力机制的图像合成模型，对所述人体特征、所述目标姿势特征和所述部位姿势综合特征进行特征分析，并输出人物合成图像，所述人物合成图像融合所述人体特征和所述目标姿势特征。本发明通过对包含人物的源图片和包含目标姿势的姿态图片进行处理，可对姿态图片中的目标姿势进行迁移，并基于目标姿势，预测出源图像中人物处于目标姿势时若干人体部位的状态，从而得到人物合成图像。可多个图像合成任务同时实现，具有更高的灵活性，满足用户的需求。同时，图像合成模型运用了注意力机制，重点关注了目标姿势和人体特征，使获得的人物合成图像更加趋于真实，细节更加清晰，提高了图像质量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中人物合成图像生成方法的一应用环境示意图；

图2是本发明一实施例中人物合成图像生成方法的一流程示意图；

图3是本发明一实施例中人物合成图像生成装置的一结构示意图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供的人物合成图像生成方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种人物合成图像生成方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10、获取源图像和姿态图像。

可理解的，源图像是指含有人物的图像，用于合成人物合成图像，且该人物合成图像中的人物基于源图像中的人物形象得到。一般的，人物形象是指通过人物的头发、五官、手、脚等身体部位以及人物的衣服、首饰等穿着构成的形象。姿态图像是指含有人物且该人物处于目标动作的状态的图像，用于合成人物合成图像，且该人物合成图像中人物动作的状态为姿态图像中目标动作的状态。其中，人物动作包括人物头部、手和脚的动作以及身体的弯曲程度、朝向等。

S20、通过人体解析模型对所述源图像中的若干人体部位进行特征提取，得到若干部位特征；并将所述若干部位特征进行特征拼接，得到人体特征。

可理解的，人体解析模型通过对大量的人体像素级掩模图像进行监督学习得到，为训练完成的全卷积神经网络。该人体解析模型用于对图像中的人物进行人体解析。像素级掩模是指人体解析是一项精细的语义分割任务，其目的在于将图像中人体的每一个像素分配给一个语义类别，例如语义类别为手臂、腿、裙子、头发等。在图像编辑、人体分析、虚拟试穿和虚拟现实等应用场景中，理解人体的详细语义部分是非常重要的。人体部位是指源图像中人物包含的身体部位或身体部位的着装。例如，源图像为一个人的半身照，则该源图像包括人物的脸部、头发、手臂、上衣等部位。通过人体解析模型对源图像中人物的人体部位进行边缘预测和语义分割，得到各个人体部位的部位特征。将得到的所有部位特征进行拼接，得到源图像的人体特征。

S30、通过人体姿态识别模型对所述源图像进行姿态识别，得到所述源图像的源姿势图像；通过人体姿态识别模型对所述姿态图像进行姿态识别，得到所述姿态图像的目标姿势图像。

可理解的，人体姿态识别模型为已完成训练的卷积神经网络，该人体姿态识别模型用于对待识别图像中的人体的姿态进行识别。姿态识别是指通过人体姿态识别模型对包含人物的图像进行人体关键点检测，得到人体关键点数据集，并将关键点数据集中的若干人体关键点连接起来，得到一个人体姿势骨骼的过程。源姿势图像是指通过人体姿态识别模型从源图像中提取出来的人体姿势骨骼的图像。目标姿势图像是指通过人体姿态识别模型从姿态图像中提取出来的人体姿势骨骼的图像。

S40、对所述目标姿势图像进行姿势特征编码，得到目标姿势特征。

可理解的，目标姿势特征通过人体姿态识别模型中的编码器对目标姿势图像的特征进行编码得到。

S50、将所述源姿势图像、所述源图像和所述目标姿势图像进行拼接，得到人体姿势拼接图像；将所述人体姿势拼接图像映射至特征空间，得到部位姿势综合特征。

可理解的，人体姿势拼接图像包含了源图像中人物的人物形象，以及姿态图像中的目标姿势。其中，人物形象包括人物的穿搭、体型和身高等多方面。通过解析编码器对人体姿势拼接图像进行解析，并映射至特征空间，生成与目标姿势一致的人体解析特征，即部位姿势综合特征，该部位姿势综合特征保持了源图像中人物的人物形象的同时对姿态图像中的目标姿势进行了迁移。

S60、通过基于注意力机制的图像合成模型，对所述人体特征、所述目标姿势特征和所述部位姿势综合特征进行特征分析，并输出人物合成图像，所述人物合成图像融合所述人体特征和所述目标姿势特征。

可理解的，将人体特征、目标姿势特征和部位姿势综合特征输入基于注意力机制的图像合成模型之后，通过注意力机制对人体特征、目标姿势特征和部位姿势综合特征进行特征融合，得到人物全局特征。

进一步的，根据人物全局特征，生成人物合成图像。其中，图像合成模型运用了注意力机制，可有针对性的对人体特征和目标姿势特征进行学习，使获得的人物合成图像的显示效果更好。

在一实施例中，在对源图像和姿态图像进行处理之前，需将源图像中人物的多张不同姿势或角度的图像输入初始图像合成模型，以使图像模型对人物的人体特征进行学习，得到训练完成的图像合成模型。经过训练的图像合成模型可根据源图像，预测出人物在不同姿势或角度下的人体部位的状态。

在步骤S10-S60中，获取源图像和姿态图像；通过人体解析模型对所述源图像中的若干人体部位进行特征提取，得到若干部位特征；并将所述若干部位特征进行特征拼接，得到人体特征；通过人体姿态识别模型对所述源图像进行姿态识别，得到所述源图像的源姿势图像；通过人体姿态识别模型对所述姿态图像进行姿态识别，得到所述姿态图像的目标姿势图像；对所述目标姿势图像进行姿势特征编码，得到目标姿势特征；将所述源姿势图像、所述源图像和所述目标姿势图像进行拼接，得到人体姿势拼接图像；将所述人体姿势拼接图像映射至特征空间，得到部位姿势综合特征；通过基于注意力机制的图像合成模型，对所述人体特征、所述目标姿势特征和所述部位姿势综合特征进行特征分析，并输出人物合成图像，所述人物合成图像融合所述人体特征和所述目标姿势特征。本实施例通过对包含人物的源图片和包含目标姿势的姿态图片进行处理，可对姿态图片中的目标姿势进行迁移，并基于目标姿势，预测出源图像中人物处于目标姿势时若干人体部位的状态，从而得到人物合成图像。多个图像合成任务同时实现，具有更高的灵活性，满足用户的需求。同时，图像合成模型运用了注意力机制，重点关注了目标姿势和人体特征，使获得的人物合成图像更加趋于真实，细节更加清晰，提高了图像质量。

可选的，在步骤S20中，即所述通过人体解析模型对所述源图像中的若干人体部位进行特征提取，得到若干部位特征，包括：

S201、通过人体解析模型对所述源图像进行语义分割，得到与所述人体部位对应的语义分割图；

S202、对所述语义分割图进行纹理特征编码，得到所述人体部位的部位特征。

可理解的，人体部位是指源图像中人物包含的身体部位或身体部位的着装。例如：头发、脸、脖子、手、脚以及人物的装饰品等。通过语义分割可实现图像像素级的分类，语义分割能够按照不同的语义类别对一张图片进行分割，将图片分为多个块。语义分割是指对源图像中包含的人体按照不同语义类别进行分割的过程。不同的身体部位对应不同的语义类别。例如，可将头发、脸、脖子、手、脚以及人物的装饰品按照不同的语义类别进行分类并分割，得到对应的语义分割图。语义分割图是指根据语义类别对源图像进行语义分割得到的图。纹理特征编码是指通过编码器对语义分割图进行编码的过程，得到每个人体部位的特征，即部位特征。

在步骤S201和S202中，通过人体解析模型对所述源图像进行语义分割，得到与所述人体部位对应的语义分割图；对所述语义分割图进行纹理特征编码，得到所述人体部位的部位特征。本实施例通过对人体部位进行纹理特征编码，使不同的人体部位具有唯一的编码，即每个人体部位具有一个部位特征，可提高人体部位的识别度，进而提高人物合成图像的质量。

可选的，在步骤S201中，所述人体解析模型包括语义分割模型；所述通过人体解析模型对所述源图像进行语义分割，得到与所述人体部位对应的语义分割图，包括：

S2011、通过所述语义分割模型对所述源图像进行语义识别，得到语义识别图；

S2012、基于掩码技术，对所述语义识别图中的所述人体部位进行分割，得到语义分割图。

可理解的，语义识别是指根据不同的语义对源图像进行像素级的识别的过程，通过语义识别，可对源图像中的若干人体部位进行基于不同语义的分类，得到语义识别图。通过掩码技术可对语义识别图进行处理，将各个身体部位对应的区域从源图像中分割出来，得到语义分割图。

在步骤S2011和S2012中，基于掩码技术处理语义识别图，可实现像素级别的分割，提高语义分割图的精确度。

可选的，在步骤S60中，即所述通过基于注意力机制的图像合成模型，对所述人体特征、所述目标姿势特征和所述部位姿势综合特征进行特征分析，并输出人物合成图像，所述人物合成图像融合所述人体特征和所述目标姿势特征，包括：

S601、将所述人体特征、所述目标姿势特征和所述部位姿势综合特征输入基于注意力机制的图像合成模型；

S602、通过所述注意力机制对所述人体特征、所述目标姿势特征和所述部位姿势综合特征进行特征融合，得到人物全局特征；

S603、根据所述人物全局特征，生成人物合成图像。

可理解的，图像合成模型是指已完成训练的卷积神经网络，该图像合成模型用于合成人物合成图像。人物全局特征是对人体特征、目标姿势特征和部位姿势综合特征进行融合学习得到的。通过注意力机制集中关注人体特征和目标姿势特，使获得的人物图像中人物更加真实，趋于自然。

可选的，在步骤S30中，即所述通过人体姿态识别模型对所述源图像进行姿态识别，得到所述源图像的源姿势图像，包括：

S301、将所述源图像输入所述人体姿态识别模型；

S302、通过所述人体姿态识别模型对所述源图像进行人体关键点检测，得到人体关键点数据集；

S303、通过偶匹配方法，将所述关键点数据集中的若干人体关键点连接起来，得到所述源姿势图像。

可理解的，人体姿态识别模型用于对人体关键点进行检测，得到若干人体关键点的数据，即人体关键点数据集。通过偶匹配方法，对若干人体关键点进行关键部位匹配，得到每个人体关键点对应的关键部位；根据关键部位，将若干人体关键点进行连接，得到源姿势图像。

在步骤S301-S303中，通过人体姿态识别模型和偶匹配方法可获得源图像的源姿势图像，使得图像合成模型可对源姿势图像进行学习，基于源姿势图像生成人物合成图像，提高人物合成图像的质量。

可选的，在步骤S303中，即所述通过偶匹配方法，将所述关键点数据集中的若干人体关键点连接起来，得到所述源姿势图像，包括：

S3031、通过偶匹配方法，对所述若干人体关键点进行关键部位匹配，得到每个所述人体关键点对应的关键部位；

S3032、根据所述关键部位，将若干所述人体关键点进行连接，得到所述源姿势图像。

可理解的，偶匹配方法即二分图最大匹配方法。通过偶匹配方法可对若干人体关键点继续宁关键部位的匹配，将每个人体关键点分类到对应的关键部位中。根据关键部位，将若干人体关键点进行连接，得到人体姿势骨骼的图像，即源姿势图像。

可选的，在步骤S20中，即所述将所述若干部位特征进行特征拼接，得到人体特征，包括：

S203、对至少一个所述部位特征进行编辑，得到至少一个编辑后的部位特征；

S204、将至少一个所述编辑后的部位特征和若干未编辑的部位特征进行特征拼接，得到所述人体特征。

可理解的，在通过人体解析模型对源图像中的若干人体部位进行特征提取，得到若干部位特征之后，可根据用户的需求对人体部位进行编辑。具体的，可对人物部位进行编辑，例如，可对衣服的长短、颜色进行编辑或直接替换衣服，对头发的弯曲程度、长短进行编辑；也可对人物整体进行编辑，例如，将人物从全身编辑为半身。优选的，可直接用图片对人体部位进行替换，再生成编辑后的部位特征。本实施例可实现人体部位的编辑，提高人物合成图像的多样性。在实际应用场景中，可实现虚拟人物换衣，提高用户体验感。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种人物合成图像生成装置，该人物合成图像生成装置与上述实施例中人物合成图像生成方法一一对应。如图3所示，该人物合成图像生成装置包括图像获取模块10、人体特征模块20、姿态识别模块30、姿势特征模块40、综合特征模块50和人物合成图像模块60。各功能模块详细说明如下：

图像获取模块10，用于获取源图像和姿态图像；

人体特征模块20，用于通过人体解析模型对所述源图像中的若干人体部位进行特征提取，得到若干部位特征；并将所述若干部位特征进行特征拼接，得到人体特征；

姿态识别模块30，用于通过人体姿态识别模型对所述源图像进行姿态识别，得到所述源图像的源姿势图像；通过人体姿态识别模型对所述姿态图像进行姿态识别，得到所述姿态图像的目标姿势图像；

姿势特征模块40，用于对所述目标姿势图像进行姿势特征编码，得到目标姿势特征；

综合特征模块50，用于将所述源姿势图像、所述源图像和所述目标姿势图像进行拼接，得到人体姿势拼接图像；将所述人体姿势拼接图像映射至特征空间，得到部位姿势综合特征；

人物合成图像模块60，用于通过基于注意力机制的图像合成模型，对所述人体特征、所述目标姿势特征和所述部位姿势综合特征进行特征分析，并输出人物合成图像，所述人物合成图像融合所述人体特征和所述目标姿势特征。

可选的，人体特征模块20，包括：

语义分割图单元，用于通过人体解析模型对所述源图像进行语义分割，得到与所述人体部位对应的语义分割图；

部位特征单元，用于对所述语义分割图进行纹理特征编码，得到所述人体部位的部位特征。

可选的，人体特征模块20，包括：

语义识别图单元，用于通过所述语义分割模型对所述源图像进行语义识别，得到语义识别图；

分割单元，用于基于掩码技术，对所述语义识别图中的所述人体部位进行分割，得到语义分割图。

可选的，人物合成图像模块60，包括：

图像合成模型单元，用于将所述人体特征、所述目标姿势特征和所述部位姿势综合特征输入基于注意力机制的图像合成模型；

人物全局特征单元，用于通过所述注意力机制对所述人体特征、所述目标姿势特征和所述部位姿势综合特征进行特征融合，得到人物全局特征；

人物合成图像单元，用于根据所述人物全局特征，生成人物合成图像。

可选的，姿态识别模块30，包括：

人体姿态识别模型单元，用于将所述源图像输入所述人体姿态识别模型；

人体关键点数据集单元，用于通过所述人体姿态识别模型对所述源图像进行人体关键点检测，得到人体关键点数据集；

源姿势图像单元，用于通过偶匹配方法，将所述关键点数据集中的若干人体关键点连接起来，得到所述源姿势图像。

可选的，源姿势图像单元，包括：

关键部位单元，用于通过偶匹配方法，对所述若干人体关键点进行关键部位匹配，得到每个所述人体关键点对应的关键部位；

源姿势图像生成单元，用于根据所述关键部位，将若干所述人体关键点进行连接，得到所述源姿势图像。

可选的，人体特征模块20，包括：

部位特征单元，用于对至少一个所述部位特征进行编辑，得到至少一个编辑后的部位特征；

人体特征单元，用于将至少一个所述编辑后的部位特征和若干未编辑的部位特征进行特征拼接，得到所述人体特征。

关于人物合成图像生成装置的具体限定可以参见上文中对于人物合成图像生成方法的限定，在此不再赘述。上述人物合成图像生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机可读指令被处理器执行时以实现一种人物合成图像生成方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

获取源图像和姿态图像；

在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时实现以下步骤：

获取源图像和姿态图像；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行编辑，或者对其中部分技术特征进行等同替换；而这些编辑或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种人物合成图像生成方法，其特征在于，包括：

获取源图像和姿态图像；

2.如权利要求1所述的人物合成图像生成方法，其特征在于，所述通过人体解析模型对所述源图像中的若干人体部位进行特征提取，得到若干部位特征，包括：

通过人体解析模型对所述源图像进行语义分割，得到与所述人体部位对应的语义分割图；

对所述语义分割图进行纹理特征编码，得到所述人体部位的部位特征。

3.如权利要求2所述的人物合成图像生成方法，其特征在于，所述人体解析模型包括语义分割模型；所述通过人体解析模型对所述源图像进行语义分割，得到与所述人体部位对应的语义分割图，包括：

通过所述语义分割模型对所述源图像进行语义识别，得到语义识别图；

基于掩码技术，对所述语义识别图中的所述人体部位进行分割，得到语义分割图。

4.如权利要求1所述的人物合成图像生成方法，其特征在于，所述通过基于注意力机制的图像合成模型，对所述人体特征、所述目标姿势特征和所述部位姿势综合特征进行特征分析，并输出人物合成图像，所述人物合成图像融合所述人体特征和所述目标姿势特征，包括：

将所述人体特征、所述目标姿势特征和所述部位姿势综合特征输入基于注意力机制的图像合成模型；

通过所述注意力机制对所述人体特征、所述目标姿势特征和所述部位姿势综合特征进行特征融合，得到人物全局特征；

根据所述人物全局特征，生成人物合成图像。

5.如权利要求1所述的人物合成图像生成方法，其特征在于，所述通过人体姿态识别模型对所述源图像进行姿态识别，得到所述源图像的源姿势图像，包括：

将所述源图像输入所述人体姿态识别模型；

通过所述人体姿态识别模型对所述源图像进行人体关键点检测，得到人体关键点数据集；

通过偶匹配方法，将所述关键点数据集中的若干人体关键点连接起来，得到所述源姿势图像。

6.如权利要求5所述的人物合成图像生成方法，其特征在于，所述通过偶匹配方法，将所述关键点数据集中的若干人体关键点连接起来，得到所述源姿势图像，包括：

通过偶匹配方法，对所述若干人体关键点进行关键部位匹配，得到每个所述人体关键点对应的关键部位；

根据所述关键部位，将若干所述人体关键点进行连接，得到所述源姿势图像。

7.如权利要求1所述的人物合成图像生成方法，其特征在于，所述将所述若干部位特征进行特征拼接，得到人体特征，包括：

对至少一个所述部位特征进行编辑，得到至少一个编辑后的部位特征；

将至少一个所述编辑后的部位特征和若干未编辑的部位特征进行特征拼接，得到所述人体特征。

8.一种人物图像合成装置，其特征在于，包括：

图像获取模块，用于获取源图像和姿态图像；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述人物合成图像生成方法。

10.一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至7中任一项所述人物合成图像生成方法。