CN117789306A

CN117789306A - 图像处理方法、装置及存储介质

Info

Publication number: CN117789306A
Application number: CN202410050047.2A
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-03-29

Abstract

本申请公开了一种图像处理方法、装置及存储介质，先获取目标对象的形象图像中的头部图像及其头部面积、头部坐标，并且获取动作姿态描述信息，再根据动作姿态描述信息和头部图像的头部朝向，从动作姿态库中获取目标身体动作姿态图像及其所对应的头部区域面积、头部区域坐标，然后根据头部面积和头部区域面积对头部图像进行图像调整，得到与头部区域面积相等的头部调整图像，接着将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到合成图像。本申请实施例能够高效地生成符合要求的图像。本申请实施例可应用于各种图像生成的应用场景中。

Description

图像处理方法、装置及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像处理方法、装置及存储介质。

背景技术

在目前的根据文本内容生成对应图像的图像制作过程中，常用的方式是根据文本内容进行人工绘制图像，或者利用神经网络模型根据文本内容进行图像生成。其中，人工绘制的图像制作方式存在效率低的问题；而利用神经网络模型进行图像生成时，需要依靠神经网络模型自身的文本语义理解能力去理解文本内容的描述信息，然后根据理解到的描述信息语义生成对应的图像，但是，当文本内容的描述信息比较复杂时，神经网络模型往往不能准确理解文本内容的描述信息语义，从而容易生成不符合要求或者形象畸变的图像。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供了一种图像处理方法、装置及存储介质，能够高效地生成符合要求的图像。

一方面，本申请实施例提供了一种图像处理方法，包括以下步骤：

获取目标对象的形象图像中的头部图像，以及所述头部图像的头部面积、头部坐标；

获取动作姿态描述信息，根据所述动作姿态描述信息和所述头部图像的头部朝向，从动作姿态库中获取目标身体动作姿态图像，以及所述目标身体动作姿态图像所对应的头部区域面积、头部区域坐标；

根据所述头部面积和所述头部区域面积对所述头部图像进行图像调整，得到头部调整图像，其中，进行所述图像调整后，所述头部坐标被调整为所述头部调整图像的坐标，所述头部调整图像的面积与所述头部区域面积相等；

将所述头部调整图像的坐标匹配到所述头部区域坐标，以对所述头部调整图像和所述目标身体动作姿态图像进行图像合成，得到合成图像。

另一方面，本申请实施例还提供了一种图像处理装置，包括：

第一图像获取单元，用于获取目标对象的形象图像中的头部图像，以及所述头部图像的头部面积、头部坐标；

第二图像获取单元，用于获取动作姿态描述信息，根据所述动作姿态描述信息和所述头部图像的头部朝向，从动作姿态库中获取目标身体动作姿态图像，以及所述目标身体动作姿态图像所对应的头部区域面积、头部区域坐标；

图像调整单元，用于根据所述头部面积和所述头部区域面积对所述头部图像进行图像调整，得到头部调整图像，其中，进行所述图像调整后，所述头部坐标被调整为所述头部调整图像的坐标，所述头部调整图像的面积与所述头部区域面积相等；

图像合成单元，用于将所述头部调整图像的坐标匹配到所述头部区域坐标，以对所述头部调整图像和所述目标身体动作姿态图像进行图像合成，得到合成图像。

可选地，所述头部调整图像的坐标包括头部中心点坐标，所述头部区域坐标包括头部区域中心点坐标；所述图像合成单元还用于：

将所述头部中心点坐标与所述头部区域中心点坐标进行对齐，以对所述头部调整图像和所述目标身体动作姿态图像进行图像合成，得到合成图像。

可选地，所述图像合成单元还用于：

将所述头部中心点坐标与所述头部区域中心点坐标进行对齐；

判断所述头部中心点坐标与所述头部区域中心点坐标对齐后的所述头部调整图像和所述目标身体动作姿态图像之间是否存在缝隙；

当所述头部调整图像和所述目标身体动作姿态图像之间不存在缝隙，将所述头部中心点坐标与所述头部区域中心点坐标对齐后的所述头部调整图像和所述目标身体动作姿态图像的组合，作为合成图像。

可选地，所述头部调整图像的坐标还包括头部下巴点坐标，所述头部区域坐标包括头部区域下巴点坐标；所述图像合成单元还用于：

当所述头部调整图像和所述目标身体动作姿态图像之间存在缝隙，将所述头部下巴点坐标与所述头部区域下巴点坐标进行对齐，以对所述头部调整图像和所述目标身体动作姿态图像进行图像合成，得到合成图像。

可选地，所述图像处理装置还包括动作姿态库构建单元，所述动作姿态库构建单元用于：

获取动作姿态标签；

根据所述动作姿态标签获取身体动作姿态图像，以及所述身体动作姿态图像所对应的头部区域面积、头部区域坐标；

根据所述动作姿态标签、所述身体动作姿态图像、所述身体动作姿态图像所对应的头部区域面积与头部区域坐标，构建得到所述动作姿态库。

可选地，所述动作姿态库构建单元还用于：

根据所述动作姿态标签获取人体动作姿态图像；

对所述人体动作姿态图像进行图像语义分割，得到身体动作姿态图像以及所述身体动作姿态图像所对应的头部区域面积、头部区域坐标。

可选地，所述动作姿态库构建单元还用于：

对所述人体动作姿态图像进行图像语义分割，得到头部区域图像和所述头部区域图像的像素点坐标；

根据所述头部区域图像的像素点坐标，计算得到所述头部区域图像的面积和所述头部区域图像的区域坐标；

根据所述人体动作姿态图像和所述头部区域图像得到身体动作姿态图像；

将所述头部区域图像的面积作为所述身体动作姿态图像所对应的头部区域面积，并将所述头部区域图像的区域坐标作为所述身体动作姿态图像所对应的头部区域坐标。

可选地，所述第一图像获取单元还用于：

获取目标对象的形象图像；

对所述形象图像进行图像语义分割，得到所述形象图像中的头部图像以及所述头部图像的头部面积、头部坐标。

可选地，所述第一图像获取单元还用于：

对所述形象图像进行图像语义分割，得到所述形象图像中的头部图像和所述头部图像的像素点坐标；

根据所述头部图像的像素点坐标，计算得到所述头部图像的头部面积和头部坐标。

可选地，所述图像处理装置还包括：

信息获取单元，用于获取风格转换引导信息和背景描述信息；

图像生成单元，用于根据所述风格转换引导信息、所述背景描述信息和所述合成图像，生成目标风格图像。

可选地，所述图像生成单元还用于：

根据所述风格转换引导信息对所述合成图像进行风格转换，得到风格转换图像；

根据所述背景描述信息生成背景图像，其中，所述背景图像与所述风格转换图像风格匹配；

将所述风格转换图像与所述背景图像进行图像融合，得到目标风格图像。

另一方面，本申请实施例还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的图像处理方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行实现上述的图像处理方法。

另一方面，本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的图像处理方法。

本申请实施例至少包括以下有益效果：先获取目标对象的形象图像中的头部图像，以及头部图像的头部面积、头部坐标，并且获取动作姿态描述信息，再根据动作姿态描述信息和头部图像的头部朝向，从动作姿态库中获取目标身体动作姿态图像，以及目标身体动作姿态图像所对应的头部区域面积、头部区域坐标，由于目标身体动作姿态图像是根据动作姿态描述信息和头部图像的头部朝向而在动作姿态库中获取的，因此目标身体动作姿态图像不仅能够与动作姿态描述信息对应，并且能够与头部图像匹配，不会出现头部朝向和身体朝向相冲突的问题；然后，根据头部面积和头部区域面积对头部图像进行图像调整，得到头部调整图像，其中，进行图像调整后，头部坐标被调整为头部调整图像的坐标，头部调整图像的面积与头部区域面积相等，通过根据头部面积和头部区域面积对头部图像进行图像调整，使得调整后得到的头部调整图像的面积与头部区域面积相等，可以有利于提高头部调整图像与目标身体动作姿态图像进行图像合成时的和谐性和协调性；接着，将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到合成图像，通过将头部调整图像的坐标匹配到头部区域坐标，可以将头部调整图像准确定位到目标身体动作姿态图像所对应的头部区域，从而可以避免头部调整图像和目标身体动作姿态图像之间出现缝隙，进而可以提高合成图像的协调性和合理性。由于在进行图像处理时，会将目标对象的形象图像中的头部图像与根据动作姿态描述信息从动作姿态库中获取的目标身体动作姿态图像进行图像合成，因此得到的合成图像不仅可以具有符合要求的动作姿态，并且可以具有目标对象的长相特征，从而可以提高目标对象自己制作个性化图像的参与感和趣味性；另外，由于在整个图像处理过程中，既不需要进行人工绘制，也不需要利用神经网络模型进行图像生成，因此能够高效地生成符合要求的图像。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的另一种实施环境的示意图；

图3是本申请实施例提供的一种图像处理方法的流程图；

图4是本申请实施例提供的一种BiSenet模型的整体架构示意图；

图5是本申请实施例提供的一种BiSenet模型的详细网络架构示意图；

图6是本申请实施例提供的一种ARM模块的结构示意图；

图7是本申请实施例提供的一种特征融合模块的结构示意图；

图8是本申请实施例提供的利用BiSenet模型将用户的头部图像抠取出来的效果示意图；

图9是本申请实施例提供的一种基础三维人体的示意图；

图10是本申请实施例提供的对基础三维人体的参数进行调整的示意图；

图11是本申请实施例提供的具有相应动作姿态的公开免费的人体图片的示意图；

图12是本申请实施例提供的对虚拟人进行动作模拟的示意图；

图13是本申请实施例提供的一种对头部图像进行图像调整的过程示意图；

图14是本申请实施例提供的一种头部调整图像以及目标身体动作姿态图像的示意图；

图15是本申请实施例提供的一种将头部调整图像的坐标匹配到头部区域坐标的示意图；

图16是本申请实施例提供的用于微调训练Stable Diffusion模型的训练图像的示意图；

图17是本申请实施例提供的生成目标风格图像的流程示意图；

图18是本申请实施例提供的一种图像处理方法的系统流程示意图；

图19是本申请实施例提供的一种自适应比例调整的图像合成部分的处理流程图；

图20是本申请实施例提供的一种生成水墨风格的定制化小说武侠形象的具体流程图；

图21是本申请实施例提供的根据用户的形象图像进行图像合成的具体流程图；

图22是本申请一个具体例子提供的图像处理方法的详细流程图；

图23是本申请实施例提供的一种图像处理装置的示意图；

图24为本申请实施例提供的用户终端的部分结构框图；

图25为本申请实施例提供的服务器的部分结构框图。

具体实施方式

下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)Stable Diffusion模型，是一种扩散模型(Diffusion Model)的变体。扩散模型的目的是消除对训练图像的连续应用高斯噪声，可以将其视为一系列去噪自编码器。Stable Diffusion模型由3个部分组成：变分自编码器(VAE)、U-Net和一个文本编码器。

3)U-Net，是一种使用全卷积网络进行语义分割的算法，其结构是包含压缩路径和扩展路径的对称U形结构。

4)DreamBooth，是一种微调技术，可应用于个性化文本到图像模型(如StableDiffusion模型)的模型微调(finetune)训练中，在给定几张主题图像的情况下，通过对模型进行定制化的训练，可以在推理阶段生成相同主题的逼真图像。

5)双边实时语义分割网络(BiSenet)，能够对人物图像进行低耗时高精度的图像语义分割。BiSenet模型设计了一个带有小步长的空间路径来保留空间位置信息以生成高分辨率的特征图，同时还设计了一个带有快速下采样策略的语义路径来获取客观的感知范围。另外，在空间路径和语义路径之上，BiSenet模型还引入了一个新的特征融合模块以将二者的特征图进行融合，实现速度和精度的平衡。

在进行根据文本内容生成对应图像的图像制作时，常用的图像制作方式是根据文本内容进行人工绘制图像，或者利用神经网络模型根据文本内容进行图像生成。例如，在目前常见的在线小说平台的小说插图制作过程中，一般都是选择使用大量的插画师进行人工绘画。插画师会先进行对小说的阅读，并根据指定的相关片段中角色的描述，完成对于该角色形象的绘画得到人物形象插图，然后将人物形象插图插入到小说中。这种图像制作方式能够让生成的图像以及风格非常符合设计需求，但是这种使用人工的方法来生成插图会导致整个图像生成的效率极慢，特别是小说中的插图数量比较大时，会导致整个插图的绘画工程耗时巨大，成本翻倍。而且，每个插画师对于同一段文字描述的主观理解都会存在差异，这就会导致不同的插画师针对于同一个角色的绘画形象的理解存在差异，从而会导致同一个小说中的同一个角色的插图不统一，影响用户的观感。而针对利用神经网络模型根据文本内容进行图像生成的情况，例如可以采用Stable Diffusion模型生成指定动作或者姿态的人物形象。通过将该人物形象的动作姿态描述文本输入到Stable Diffusion模型中，让Stable Diffusion模型自行理解该人物形象的动作姿态，从而根据StableDiffusion模型的理解来生成对应动作姿态的形象图像。这种图像制作方式需要使用Stable Diffusion模型自身的文本语义理解能力，虽然能够在一定程度上完成比较简单的动作姿势的形象生成，但是当需要生成的动作姿态比较复杂时，往往会由于StableDiffusion模型不能准确理解该动作姿态复杂的文本内容的描述信息语义而容易生成不符合要求或者形象畸变的图像，从而会影响用户的观感。

在相关技术中，除了上述两种相关技术中的图像制作方式之外，还可以使用经过lora和controlnet等插件模块的微调训练后的Stable Diffusion模型来生成所需的人物形象图像。在这种方式中，可以选择使用controlnet插件模块控制Stable Diffusion模型所生成的人物形象的动作姿态，同时利用lora和DreamBooth等插件模块来微调训练StableDiffusion模型的形象表现和风格表现，从而生成所需的人物形象图像。虽然lora和controlnet等能够个性化训练的插件模块可以在一定程度上解决动作姿态以及用户形象特征的生成效果问题，但是lora和controlnet等插件模块会与Stable Diffusion模型原本的图像生成能力相冲突，从而会导致整个模型的泛化性受到影响，而且，由于lora和controlnet等插件模块的加入，会影响Stable Diffusion模型对图像的风格化处理，从而会使得生成的图像的风格与目标风格产生差异，进而会导致最后生成的图像不能符合用户的设计要求。

为了能够高效地生成符合要求的图像，本申请实施例提供了一种图像处理方法、图像处理装置、电子设备、计算机可读存储介质以及计算机程序产品，先获取目标对象的形象图像中的头部图像，以及头部图像的头部面积、头部坐标，并且获取动作姿态描述信息，再根据动作姿态描述信息和头部图像的头部朝向，从动作姿态库中获取目标身体动作姿态图像，以及目标身体动作姿态图像所对应的头部区域面积、头部区域坐标，由于目标身体动作姿态图像是根据动作姿态描述信息和头部图像的头部朝向而在动作姿态库中获取的，因此目标身体动作姿态图像不仅能够与动作姿态描述信息对应，并且能够与头部图像匹配，不会出现头部朝向和身体朝向相冲突的问题；然后，根据头部面积和头部区域面积对头部图像进行图像调整，得到头部调整图像，其中，进行图像调整后，头部坐标被调整为头部调整图像的坐标，头部调整图像的面积与头部区域面积相等，通过根据头部面积和头部区域面积对头部图像进行图像调整，使得调整后得到的头部调整图像的面积与头部区域面积相等，可以有利于提高头部调整图像与目标身体动作姿态图像进行图像合成时的和谐性和协调性；接着，将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到合成图像，通过将头部调整图像的坐标匹配到头部区域坐标，可以将头部调整图像准确定位到目标身体动作姿态图像所对应的头部区域，从而可以避免头部调整图像和目标身体动作姿态图像之间出现缝隙，进而可以提高合成图像的协调性和合理性。由于在进行图像处理时，会将目标对象的形象图像中的头部图像与根据动作姿态描述信息从动作姿态库中获取的目标身体动作姿态图像进行图像合成，因此得到的合成图像不仅可以具有符合要求的动作姿态，并且可以具有目标对象的长相特征，从而可以提高目标对象自己制作个性化图像的参与感和趣味性；另外，由于在整个图像处理过程中，既不需要进行人工绘制，也不需要利用神经网络模型进行图像生成，因此能够高效地生成符合要求的图像。

图1是本申请实施例提供的一种实施环境的示意图。参照图1，该实施环境包括第一用户终端101和第一服务器102。第一用户终端101和第一服务器102通过有线或无线通信方式进行直接或间接的连接，其中，第一用户终端101和第一服务器102可以为区块链中的节点，本实施例对此并不作具体限定。

第一用户终端101可以包括但不限于智能手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等智能设备。可选地，第一用户终端101可以安装有图像处理客户端，通过图像处理客户端可以生成具有用户的长相特征的风格化形象图像。

第一服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。

在一实施例中，第一服务器102至少具有图像获取、图像调整以及图像合成等功能，例如，第一服务器102能够获取用户自己上传的形象图像中的头部图像，以及该头部图像的头部面积、头部坐标，并且能够获取用户输入的动作姿态描述信息，再根据动作姿态描述信息和头部图像的头部朝向，从本地的动作姿态库中获取目标身体动作姿态图像，以及该目标身体动作姿态图像所对应的头部区域面积、头部区域坐标，然后根据头部面积和头部区域面积对头部图像进行图像调整，得到头部调整图像，其中，进行图像调整后，头部坐标被调整为头部调整图像的坐标，并且头部调整图像的面积与头部区域面积相等，接着将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到合成图像；在得到合成图像之后，第一服务器102可以将合成图像发送给第一用户终端101进行图像展示，或者可以进一步对合成图像进行风格转换得到用户所希望的风格图像，再将风格图像发送给第一用户终端101进行图像展示。

参照图1所示，在一应用场景中，假设第一用户终端101为智能手机，并且第一用户终端101安装有图像处理客户端。在用户通过第一用户终端101中的图像处理客户端进行图像制作以得到具有用户自己的长相特征的风格图像的过程中，响应于用户通过图像处理客户端输入图像制作指令，第一用户终端101将图像制作指令发送给第一服务器102；响应于接收到图像制作指令，第一服务器102获取用户上传的形象图像、动作姿态描述信息、风格转换引导信息和背景描述信息，然后对形象图像进行图像语义分割，得到形象图像中的头部图像以及头部图像的头部面积、头部坐标，接着根据动作姿态描述信息和头部图像的头部朝向，从本地的动作姿态库中获取目标身体动作姿态图像，以及目标身体动作姿态图像所对应的头部区域面积、头部区域坐标；此时，第一服务器102根据头部面积和头部区域面积对头部图像进行图像调整，得到头部调整图像，其中，进行图像调整后，头部坐标会被调整为头部调整图像的坐标，头部调整图像的面积会与头部区域面积相等，然后，第一服务器102将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到合成图像；在得到合成图像之后，第一服务器102根据风格转换引导信息对合成图像进行风格转换，得到风格转换图像，并且根据背景描述信息生成与风格转换图像风格匹配的背景图像，接着将风格转换图像与背景图像进行图像融合，得到具有用户自己的长相特征的目标风格图像；在得到目标风格图像之后，第一服务器102将目标风格图像发送给第一用户终端101进行图像展示。

图2是本申请实施例提供的另一种实施环境的示意图。参照图2，该实施环境包括第二用户终端201、第二服务器202和数据库服务器203。第二用户终端201和第二服务器202通过有线或无线通信方式进行直接或间接的连接，数据库服务器203可以单独设置，也可以集成在第二服务器202上，或者集成在其他设备上，其中，第二用户终端201、第二服务器202和数据库服务器203均可以为区块链中的节点，本实施例对此并不作具体限定。

第二用户终端201可以包括但不限于智能手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等智能设备。可选地，第二用户终端201可以安装有图像处理客户端，通过图像处理客户端可以生成具有用户的长相特征的风格化形象图像。

第二服务器202可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN网络以及大数据和人工智能平台等基础云计算服务的云服务器。其中，数据库服务器203中可以预先部署有动作姿态库，动作姿态库中预先保存有多个不同的身体动作姿态图像，以及每个身体动作姿态图像所对应的头部区域面积、头部区域坐标。第二服务器202可以从数据库服务器203中的多个身体动作姿态图像中获取目标身体动作姿态图像，以及该目标身体动作姿态图像所对应的头部区域面积、头部区域坐标，从而可以根据该目标身体动作姿态图像进行符合用户需求的图像合成。

在一实施例中，第二服务器202至少具有图像获取、图像调整以及图像合成等功能，例如，第二服务器202能够获取用户自己上传的形象图像中的头部图像，以及该头部图像的头部面积、头部坐标，并且能够获取用户输入的动作姿态描述信息，再根据动作姿态描述信息和头部图像的头部朝向，从数据库服务器203中获取对应的目标身体动作姿态图像，以及该目标身体动作姿态图像所对应的头部区域面积、头部区域坐标，然后根据头部面积和头部区域面积对头部图像进行图像调整，得到头部调整图像，其中，进行图像调整后，头部坐标被调整为头部调整图像的坐标，并且头部调整图像的面积与头部区域面积相等，接着将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到合成图像；在得到合成图像之后，第二服务器202可以将合成图像发送给第二用户终端201进行图像展示，或者可以进一步对合成图像进行风格转换得到用户所希望的风格图像，再将风格图像发送给第二用户终端201进行图像展示。

参照图2所示，在另一应用场景中，假设第二用户终端201为电脑，并且第二用户终端201安装有图像处理客户端。在用户通过第二用户终端201中的图像处理客户端进行图像制作以得到具有用户自己的长相特征的风格图像的过程中，响应于用户通过图像处理客户端输入图像制作指令，第二用户终端201将图像制作指令发送给第二服务器202；响应于接收到图像制作指令，第二服务器202获取用户上传的形象图像、动作姿态描述信息、风格转换引导信息和背景描述信息，然后对形象图像进行图像语义分割，得到形象图像中的头部图像以及头部图像的头部面积、头部坐标，接着将动作姿态描述信息和头部图像的头部朝向信息发送给数据库服务器203；响应于接收到动作姿态描述信息和头部图像的头部朝向信息，数据库服务器203根据动作姿态描述信息和头部图像的头部朝向信息从动作姿态库中获取目标身体动作姿态图像，以及目标身体动作姿态图像所对应的头部区域面积、头部区域坐标，然后将目标身体动作姿态图像以及目标身体动作姿态图像所对应的头部区域面积、头部区域坐标，发送给第二服务器202；响应于接收到目标身体动作姿态图像以及目标身体动作姿态图像所对应的头部区域面积、头部区域坐标，第二服务器202根据头部面积和头部区域面积对头部图像进行图像调整，得到头部调整图像，其中，进行图像调整后，头部坐标会被调整为头部调整图像的坐标，头部调整图像的面积会与头部区域面积相等，然后，第二服务器202将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到合成图像；在得到合成图像之后，第二服务器202根据风格转换引导信息对合成图像进行风格转换，得到风格转换图像，并且根据背景描述信息生成与风格转换图像风格匹配的背景图像，接着将风格转换图像与背景图像进行图像融合，得到具有用户自己的长相特征的目标风格图像；在得到目标风格图像之后，第二服务器202将目标风格图像发送给第二用户终端201进行图像展示。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据目标对象(例如用户等)的属性信息或属性信息集合等与目标对象的特性相关的数据进行相关处理时，都会先获得目标对象的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。此外，当本申请实施例需要获取目标对象的属性信息时，会通过弹窗或跳转到确认页面等方式获得目标对象的单独许可或者单独同意，在明确获得目标对象的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的目标对象的相关数据。

图3是本申请实施例提供的一种图像处理方法的流程图，该图像处理方法可以由服务器执行，也可以由用户终端执行，也可以由用户终端和服务器共同执行，在本申请实施例中，以该方法由服务器执行为例进行说明。参照图3，该图像处理方法包括但不限于步骤310至步骤340。

步骤310：获取目标对象的形象图像中的头部图像，以及头部图像的头部面积、头部坐标。

在一实施例中，目标对象的形象图像可以是只包括头部的图像，或者可以是包括头部和身体的图像，此处不作具体限定。另外，目标对象的形象图像可以是目标对象预先上传的，例如目标对象的形象图像可以是目标对象在进行账号注册时所上传的账号头像，也可以是目标对象在触发该图像处理方法的执行时上传的，例如目标对象通过图像处理客户端触发执行该图像处理方法时所上传的自拍图像，此处不作具体限定。其中，在一实施例中，目标对象可以是触发执行该图像处理方法的用户。

在一实施例中，头部图像的头部面积是指头部图像在形象图像中的面积，头部图像的头部坐标是指头部图像在形象图像中的坐标，其中，头部图像的头部坐标可以包括头部图像的轮廓坐标，也可以包括头部图像中的关键位置的坐标，例如头部中心点坐标、头部下巴点坐标或者眼睛位置坐标等，此处不作具体限定。

在一实施例中，在获取目标对象的形象图像中的头部图像以及头部图像的头部面积、头部坐标的过程中，可以先获取目标对象的形象图像，然后对形象图像进行图像语义分割，得到形象图像中的头部图像以及头部图像的头部面积、头部坐标。其中，在获取目标对象的形象图像时，可以通过获取目标对象在进行账号注册时所上传的账号头像而得到目标对象的形象图像，或者通过获取目标对象当前上传的自拍图像而得到目标对象的形象图像，可以根据实际应用情况而进行适当的选择，此处不作具体限定。另外，在对形象图像进行图像语义分割以得到形象图像中的头部图像以及头部图像的头部面积、头部坐标时，可以先对形象图像进行图像语义分割，得到形象图像中的头部图像和头部图像的像素点坐标，然后根据头部图像的像素点坐标，计算得到头部图像的头部面积和头部坐标。

在一实施例中，头部图像的像素点坐标可以包括头部图像中所有像素点的坐标，因此，在根据头部图像的像素点坐标计算头部图像的头部面积时，可以根据这些像素点坐标统计头部图像所包括的所有像素点的数量，然后根据这些像素点的数量计算得到头部图像的头部面积。另外，当头部图像的头部坐标是不同位置的坐标时，在根据头部图像的像素点坐标计算头部图像的头部坐标的过程中，可以有不同的实施方式，可以根据实际情况而进行适当的选择，此处不作具体限定。例如，当头部图像的头部坐标包括头部图像的轮廓坐标时，可以先根据所有像素点坐标的大小关系计算得到头部图像的轮廓像素点，然后将轮廓像素点的像素点坐标作为头部图像的头部坐标；又如，当头部图像的头部坐标包括头部图像的头部中心点坐标时，可以先根据所有像素点坐标的大小关系计算得到头部图像的中心像素点，然后将中心像素点的像素点坐标作为头部图像的头部坐标；再如，当头部图像的头部坐标包括头部图像的头部下巴点坐标，可以先根据所有像素点坐标的大小关系计算得到头部图像的下巴像素点，然后将下巴像素点的像素点坐标作为头部图像的头部坐标。

在一实施例中，在对形象图像进行图像语义分割的过程中，可以调用语义分割模型对形象图像中的头部图像进行图像语义分割，例如可以调用BiSenet模型对形象图像进行检测计算，得到形象图像中的头部图像及其头部面积和头部坐标，然后根据这些计算得到的结果对头部图像进行图像抠取，并将抠取得到的头部图像和计算得到的头部面积以及头部坐标存储到预设的动作姿态库中。参考图4所示，图4是BiSenet模型的整体架构示意图。根据图4可知，BiSenet模型主要包括两个部分：空间路径(Spatial Path)部分410和语义路径(Context Path)部分420。其中，Spatial Path部分410能够解决通道减少后空间信息损失的问题，同时Spatial Path部分410还具有一定程度上的下采样，能够以此来减少内部处理特征的尺寸，从而可以提升整体的计算速度，进而可以降低处理耗时。另外，ContextPath部分420能够解决对于图像内容的感知范围的问题，并且在Context Path部分420也具有一定程度上的下采样。通过这两个部分的共同作用，能够有效降低整体模型的计算耗时，达到实时的效果。

参考图5所示，图5是BiSenet模型的详细网络架构示意图。在图5中，BiSenet模型包括Spatial Path部分510和Context Path部分520，其中Context Path部分520具有注意力细化模块(Attention Refinment Module，ARM)521，Spatial Path部分510的输出结果和Context Path部分520的输出结果会输入到一个特征融合模块(Feature Fusion Module，FFM)530中进行特征融合，得到融合特征，然后对该融合特征进行上采样计算，得到图像语义分割结果。其中，BiSenet模型使用全局池化来提升感知范围，并同时减少池化支路的数量。BiSenet模型中的Context Path部分520采用U型架构实现，其中，Context Path部分520先对输入特征进行下采样，将输入特征的尺寸降低以提高BiSenet模型的感知范围。在Context Path部分520中，包括采样率为1/16的第一下采样支路和采样率为1/32的第二下采样支路，并且第一下采样支路和第二下采样支路均连接有一个ARM模块521，这两个ARM模块521用于提升BiSenet模型对于图像内容的感知范围。

参考图6所示，图6是ARM模块的结构示意图。在图6中，ARM模块521包括特征支路610和注意力支路620，其中，注意力支路620的输入特征是经过尺寸调整的特征，在注意力支路620中，会先对经过尺寸调整的输入特征进行全局池化，然后对经过全局池化的输入特征依次进行卷积核为1x1的卷积处理以及正则化处理，接着利用sigmoid激活函数来对计算出来的所有特征像素值进行归一化，其中归一化之后得到的结果即是注意力相关度，然后将注意力相关度与特征支路610的没有经过尺寸调整的原始特征进行矩阵相乘计算，得到ARM模块521的输出结果。

在特征表示的层面上，Spatial Path部分和Context Path部分所输出的特征的语义是不相同的，其中，Spatial Path部分捕获的空间信息编码了绝大多数的丰富细节信息，因此Spatial Path部分的输出特征是低层级的，而Context Path部分的输出特征主要是编码语境信息，因此Context Path部分的输出特征是高层级的，所以，可以采用一个特征融合模块来对Spatial Path部分的输出特征和Context Path部分的输出特征进行融合。参考图7所示，图7是特征融合模块的结构示意图。在图7中，特征融合模块530会先对不同通道上的Spatial Path部分的输出特征和Context Path部分的输出特征进行拼接得到不同通道上的拼接特征，然后依次通过卷积处理、正则化处理和激活处理，对不同通道上的拼接特征进行融合，使得Spatial Path部分的低层级特征和Context Path部分的高层级特征能够进行充分的融合，得到一个统一的特征，接着将该统一的特征输入到一个特征支路710和一个注意力支路720中，其中，在注意力支路720中，会先对该统一的特征依次进行全局池化、1x1的卷积处理、激活处理以及1x1的卷积处理，并利用sigmoid激活函数来对计算出来的特征值进行归一化，得到特征的注意力相关度，然后，将该特征的注意力相关度与特征支路710中的该统一的特征进行矩阵相乘，并将进行矩阵相乘后的结果与特征支路710中的该统一的特征进行矩阵相加，得到特征融合模块的输出结果。

在经过特征融合模块的特征融合处理后，BiSenet模型就已经将整个图像中的各个语义元素检测信息进行了提取，然后能够根据输入的原图像的尺寸来对融合之后的特征进行上采样，将输出特征的尺寸与输入的原图像保持一致。当完成上采样之后，即可对每个像素点作出具体的语义判断，通过将判断出来的同类别的像素点进行聚合后，就能够把整个图像中不同语义元素的分布计算出来，从而能够定位出不同元素之间的分界线，进而能够把所需要的语义元素抠取出来，同时还能够得到抠取区域的相关像素点坐标以及抠取区域的总面积。参考图8所示，图8示例性地给出了利用BiSenet模型将用户的形象图像中的头部图像抠取出来的效果示意图。在图8中，左边的图是用户的形象图像810，将用户的形象图像810输入到BiSenet模型中进行图像语义分割之后，可以得到如右边的图所示的头部图像820，同时可以得到该头部图像820的面积a以及该头部图像820在坐标系中的坐标值。

步骤320：获取动作姿态描述信息，根据动作姿态描述信息和头部图像的头部朝向，从动作姿态库中获取目标身体动作姿态图像，以及目标身体动作姿态图像所对应的头部区域面积、头部区域坐标。

在一实施例中，动作姿态描述信息可以是目标对象自行输入的具有动作姿态描述的文本信息，或者可以是通过对目标对象上传的文本(例如文章、小说章节等)进行内容提取后得到的具有动作姿态描述的文本信息，或者可以是目标对象通过选项选择的具有动作姿态描述的文本信息，等等，此处不作具体限定。

在一实施例中，在获取到目标对象的形象图像中的头部图像之后，可以检测头部图像的头部朝向(例如头部朝向左边、头部朝向正中等)，然后根据获取到的动作姿态描述信息和检测到的头部朝向，从预先准备好的动作姿态库中获取对应的目标身体动作姿态图像及其所对应的头部区域面积、头部区域坐标，以便于后续步骤可以根据头部图像的头部面积、头部坐标以及目标身体动作姿态图像所对应的头部区域面积、头部区域坐标，对头部调整图像和目标身体动作姿态图像进行图像合成以得到具有目标对象的长相特征的合成图像。由于目标身体动作姿态图像是根据动作姿态描述信息和头部图像的头部朝向而在动作姿态库中获取的，因此目标身体动作姿态图像不仅能够与动作姿态描述信息对应，并且能够与头部图像匹配，不会出现头部朝向和身体朝向相冲突的问题。

在一实施例中，在检测头部图像的头部朝向时，可以先检测头部图像中的鼻子位置(或者嘴巴位置)、耳朵数量和耳朵位置，然后根据鼻子位置(或者嘴巴位置)、耳朵数量和耳朵位置，判断头部图像的头部朝向。例如，在根据鼻子位置(或者嘴巴位置)、耳朵数量和耳朵位置判断头部图像的头部朝向时，如果耳朵数量为2个，并且鼻子位置(或者嘴巴位置)处于两个耳朵位置中间，可以认为头部图像的头部朝向为朝向正中；如果耳朵数量为1个，并且鼻子位置(或者嘴巴位置)处于这一个耳朵位置的左边，那么可以认为头部图像的头部朝向为朝向左边；如果耳朵数量为1个，并且鼻子位置(或者嘴巴位置)处于这一个耳朵位置的右边，则可以认为头部图像的头部朝向为朝向右边。

在一实施例中，动作姿态库中可以保存有各种各样的动作姿态标签、身体动作姿态图像，以及身体动作姿态图像所对应的头部区域面积与头部区域坐标，其中，动作姿态标签与身体动作姿态图像一一对应。因此，在根据动作姿态描述信息和头部图像的头部朝向从动作姿态库中获取目标身体动作姿态图像及其所对应的头部区域面积、头部区域坐标的过程中，可以先计算动作姿态描述信息与每个动作姿态标签之间的相似度，然后将相似度较高的多个动作姿态标签所对应的身体动作姿态图像作为候选身体动作姿态图像，接着根据头部图像的头部朝向在这些候选身体动作姿态图像中选择身体朝向与该头部朝向相匹配的目标身体动作姿态图像，并从动作姿态库中获取该目标身体动作姿态图像所对应的头部区域面积和头部区域坐标。由于目标身体动作姿态图像的身体朝向是与头部图像的头部朝向相匹配的，并且目标身体动作姿态图像是从与动作姿态描述信息的相似度较高的多个动作姿态标签所对应的候选身体动作姿态图像中筛选出来的，因此目标身体动作姿态图像不仅能够与动作姿态描述信息对应，并且能够与头部图像匹配，不会出现头部朝向和身体朝向相冲突的问题。

在一实施例中，在构建动作姿态库时，可以先获取动作姿态标签，然后根据动作姿态标签获取身体动作姿态图像，以及身体动作姿态图像所对应的头部区域面积、头部区域坐标，接着根据动作姿态标签、身体动作姿态图像、身体动作姿态图像所对应的头部区域面积与头部区域坐标，构建得到动作姿态库。其中，在获取动作姿态标签时，可以先确定整个动作姿态库中需要包含的动作姿态类型，然后获取包括这些动作姿态类型的文本描述信息(例如文章、小说等的对人物角色的动作姿态描述内容)，接着对该文本描述信息进行分词以及词性解析处理，把该文本描述信息中的对于人体动作姿态的描述词提取出来，此时，可以进一步对提取出来的这些描述词进行词频统计，并根据统计后得到的这些描述词的出现数量筛选出词频较高的目标描述词，然后将筛选出的目标描述词作为动作姿态标签。另外，在根据动作姿态标签获取身体动作姿态图像及其所对应的头部区域面积、头部区域坐标的过程中，可以先根据动作姿态标签获取人体动作姿态图像，然后对人体动作姿态图像进行图像语义分割，得到身体动作姿态图像及其所对应的头部区域面积、头部区域坐标。

在一实施例中，在根据动作姿态标签获取人体动作姿态图像时，可以有多种不同的实施方式，可以根据实际应用情况二进行适当的选择，此处不作具体限定。在一实施例中，可以通过制作三维人体的方式得到人体动作姿态图像。例如，可以先制作如图9所示的基础三维人体，然后根据动作姿态标签对基础三维人体的各个参数进行调整(如图10所示)，得到具有对应动作姿态的目标三维人体，接着对该目标三维人体进行保存，得到人体动作姿态图像。另外，还可以通过收集相关动作的人体图片的方式得到人体动作姿态图像。例如，可以先根据动作姿态标签在网络中获取具有相应动作姿态的公开免费的人体图片(如图11所示)，然后通过手动方式或者模型识别方式将动作姿态标签与相应的人体图片进行绑定，得到人体动作姿态图像。另外，还可以通过对虚拟人进行动作模拟的方式得到人体动作姿态图像。例如，可以先通过虚拟人工具生成一个虚拟人，然后对该虚拟人进行与动作姿态标签匹配的动作模拟(如图12所示)，接着对进行了动作模拟的该虚拟人进行截图，得到对应的人体动作姿态图像。需要说明的是，当采用通过收集相关动作的人体图片的方式得到人体动作姿态图像时，由于需要通过手动方式或者模型识别方式将动作姿态标签与相应的人体图片进行绑定，因此会在一定程度上造成标签绑定误差，为了能够降低标签绑定误差以提高根据动作姿态标签获取人体动作姿态图像的准确性，在一实施例中，还可以根据动作姿态标签向相关专业的动作人体模特网站请求获取更为准确的人体动作姿态图像，或者，可以通过增大通过制作三维人体的方式得到人体动作姿态图像以及通过对虚拟人进行动作模拟的方式得到人体动作姿态图像的数据比例，从而降低标签绑定误差。

在一实施例中，在对人体动作姿态图像进行图像语义分割以得到身体动作姿态图像以及身体动作姿态图像所对应的头部区域面积、头部区域坐标的过程中，可以先对人体动作姿态图像进行图像语义分割，得到头部区域图像和头部区域图像的像素点坐标，再根据头部区域图像的像素点坐标，计算得到头部区域图像的面积和头部区域图像的区域坐标，然后根据人体动作姿态图像和头部区域图像得到身体动作姿态图像，接着将头部区域图像的面积作为身体动作姿态图像所对应的头部区域面积，并将头部区域图像的区域坐标作为身体动作姿态图像所对应的头部区域坐标。其中，在根据人体动作姿态图像和头部区域图像得到身体动作姿态图像时，可以在人体动作姿态图像中确定头部区域图像的位置，然后根据头部区域图像的位置在人体动作姿态图像中将头部区域图像进行图像分割，当分割掉人体动作姿态图像中的头部区域图像之后，剩下的部分即是身体动作姿态图像。另外，在对人体动作姿态图像进行图像语义分割的过程中，也可以调用例如BiSenet模型的语义分割模型对人体动作姿态图像中的头部区域进行图像语义分割。需要说明的是，调用例如BiSenet模型的语义分割模型对人体动作姿态图像中的头部区域进行图像语义分割的原理以及过程，可以参考前面调用例如BiSenet模型的语义分割模型对形象图像中的头部图像进行图像语义分割的原理以及过程，为了避免内容重复冗余，此处不再赘述。

在一实施例中，头部区域图像的像素点坐标可以包括头部区域图像中所有像素点的坐标，因此，在根据头部区域图像的像素点坐标计算头部区域图像的面积时，可以根据这些像素点坐标统计头部区域图像所包括的所有像素点的数量，然后根据这些像素点的数量计算得到头部区域图像的面积。另外，当头部区域图像的区域坐标是不同位置的坐标时，在根据头部区域图像的像素点坐标计算头部区域图像的区域坐标的过程中，可以有不同的实施方式，可以根据实际情况而进行适当的选择，此处不作具体限定。例如，当头部区域图像的区域坐标包括头部区域图像的轮廓坐标时，可以先根据所有像素点坐标的大小关系计算得到头部区域图像的轮廓像素点，然后将轮廓像素点的像素点坐标作为头部区域图像的区域坐标；又如，当头部区域图像的区域坐标包括头部区域图像的头部区域中心点坐标时，可以先根据所有像素点坐标的大小关系计算得到头部区域图像的头部区域中心像素点，然后将头部区域中心像素点的像素点坐标作为头部区域图像的区域坐标；再如，当头部区域图像的区域坐标包括头部区域图像的头部区域下巴点坐标，可以先根据所有像素点坐标的大小关系计算得到头部区域图像的头部区域下巴像素点，然后将头部区域下巴像素点的像素点坐标作为头部区域图像的区域坐标。

步骤330：根据头部面积和头部区域面积对头部图像进行图像调整，得到头部调整图像，其中，进行图像调整后，头部坐标被调整为头部调整图像的坐标，头部调整图像的面积与头部区域面积相等。

在一实施例中，在获取到目标对象的形象图像中的头部图像以及目标身体动作姿态图像之后，由于头部图像的尺寸与目标身体动作姿态图像的尺寸不一定相适配，因此如果直接将头部图像与目标身体动作姿态图像进行图像合成，那么得到的合成图像可能会出现头大身小或者头小身大的情况，这样将会严重影响合成图像的协调性和合理性。为了解决这个问题，可以根据头部面积和头部区域面积对头部图像进行图像调整，得到面积与头部区域面积相等的头部调整图像。通过根据头部面积和头部区域面积对头部图像进行图像调整，使得调整后得到的头部调整图像的面积与头部区域面积相等，可以有利于提高头部调整图像与目标身体动作姿态图像进行图像合成时的和谐性和协调性。

在一实施例中，在根据头部面积和头部区域面积对头部图像进行图像调整时，如果头部面积大于头部区域面积，那么需要将头部图像进行缩小，使得随之缩小的头部面积(即头部调整图像的面积)与头部区域面积相等；如果头部面积小于头部区域面积，则需要将头部图像进行放大，使得随之放大的头部面积(即头部调整图像的面积)与头部区域面积相等。另外，如果头部面积等于头部区域面积，则不需要对头部图像进行图像调整，保持头部图像的头部坐标和头部面积不变。

下面以一个具体例子对根据头部面积和头部区域面积对头部图像进行图像调整的过程进行详细说明。

例如图13所示，图13是本申请实施例提供的一种对头部图像进行图像调整的过程示意图。在图13中，假设头部图像1310的头部面积为S1，目标身体动作姿态图像1320所对应的头部区域面积为S2，那么在根据头部面积和头部区域面积对头部图像进行图像调整时，先比较头部面积S1与头部区域面积S2的大小，假设头部面积S1大于头部区域面积S2，则将头部区域面积S2作为基准，对头部图像1310进行缩小，使得头部面积S1随之进行缩小，当缩小后的头部面积S1等于头部区域面积S2时，即可得到头部调整图像1330，此时，头部图像1310原本的头部坐标会被调整为头部调整图像1330当前的坐标。

步骤340：将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到合成图像。

在一实施例中，在得到头部调整图像之后，由于头部调整图像的面积已经与头部区域面积相等，因此可以将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到既具有符合要求的动作姿态，又具有目标对象的长相特征的合成图像。通过将头部调整图像的坐标匹配到头部区域坐标，可以将头部调整图像准确定位到目标身体动作姿态图像所对应的头部区域，从而可以避免头部调整图像和目标身体动作姿态图像之间出现缝隙，进而可以提高合成图像的协调性和合理性。

在一实施例中，当头部调整图像的坐标包括头部中心点坐标，并且头部区域坐标包括头部区域中心点坐标的情况下，在将头部调整图像的坐标匹配到头部区域坐标以对头部调整图像和目标身体动作姿态图像进行图像合成得到合成图像的过程中，可以将头部中心点坐标与头部区域中心点坐标进行对齐，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到合成图像。其中，在将头部中心点坐标与头部区域中心点坐标进行对齐以对头部调整图像和目标身体动作姿态图像进行图像合成时，可以先将头部调整图像拷贝到目标身体动作姿态图像所在的图层，使得头部调整图像和目标身体动作姿态图像处于同一坐标系中，然后，将头部调整图像的头部中心点坐标对齐到目标身体动作姿态图像的头部区域中心点坐标，此时，头部调整图像会随着头部中心点坐标与头部区域中心点坐标的对齐而移动到目标身体动作姿态图像的头部区域位置，从而实现头部调整图像和目标身体动作姿态图像之间的图像合成。

需要说明的是，由于头部图像的形状与目标身体动作姿态图像所对应的头部的形状是会存在差异的，因此即使将头部图像调整成与头部区域面积相等的头部调整图像，并且将头部调整图像的坐标匹配到目标身体动作姿态图像所对应的头部区域坐标之后，可能头部调整图像和目标身体动作姿态图像之间仍然会存在缝隙，这样就会导致合成图像中的整个头部与人体之间的不和谐。因此，在将头部中心点坐标与头部区域中心点坐标进行对齐之后，还需要判断头部中心点坐标与头部区域中心点坐标对齐后的头部调整图像和目标身体动作姿态图像之间是否存在缝隙，如果头部调整图像和目标身体动作姿态图像之间不存在缝隙，那么说明头部中心点坐标与头部区域中心点坐标对齐后的头部调整图像和目标身体动作姿态图像之间是和谐与合理的，此时可以将头部中心点坐标与头部区域中心点坐标对齐后的头部调整图像和目标身体动作姿态图像的组合作为合成图像。另外，如果头部调整图像和目标身体动作姿态图像之间存在缝隙，则说明需要对头部调整图像和目标身体动作姿态图像进行进一步的调整以使得调整后的头部调整图像和目标身体动作姿态图像之间不存在缝隙，此时，可以将头部调整图像的头部下巴点坐标与目标身体动作姿态图像的头部区域下巴点坐标进行对齐，如此，头部调整图像的头部下巴位置会与目标身体动作姿态图像的脖子位置连接在一起，也就是说，此时的头部调整图像和目标身体动作姿态图像之间不存在缝隙，因此可以将此时的头部调整图像和目标身体动作姿态图像的组合作为合成图像。

下面以一个具体例子对通过将头部调整图像的坐标匹配到头部区域坐标以实现对头部调整图像和目标身体动作姿态图像的图像合成的过程进行详细说明。

例如图14所示，假设头部调整图像的坐标包括头部中心点坐标A11和头部下巴点坐标A12，目标身体动作姿态图像所对应的头部区域坐标包括头部区域中心点坐标A21和头部区域下巴点坐标A22，那么在将头部调整图像的坐标匹配到头部区域坐标以实现对头部调整图像和目标身体动作姿态图像的图像合成时，可以先将头部中心点坐标A11匹配到头部区域中心点坐标A21，此时，头部调整图像和目标身体动作姿态图像之间的合成结果会如图15中左边的图或者中间的图所示。在如图15的左边的图中，在将头部中心点坐标A11匹配到头部区域中心点坐标A21之后，头部下巴点坐标A12处于头部区域下巴点坐标A22的下方，也就是说，头部调整图像能够覆盖目标身体动作姿态图像所对应的头部区域下巴点，不会造成头部调整图像和目标身体动作姿态图像之间存在缝隙的问题，此时，该图像即为将头部调整图像和目标身体动作姿态图像进行图像合成之后得到的合成图像。在如图15的中间的图中，在将头部中心点坐标A11匹配到头部区域中心点坐标A21之后，头部下巴点坐标A12处于头部区域下巴点坐标A22的上方，也就是说，头部调整图像与目标身体动作姿态图像之间存在缝隙，此时，如图15中右边的图所示，可以调整为将头部下巴点坐标A12匹配到头部区域下巴点坐标A22，由于头部下巴点坐标A12与头部区域下巴点坐标A22重叠，因此不会造成头部调整图像和目标身体动作姿态图像之间存在缝隙的问题，此时，该图像即为将头部调整图像和目标身体动作姿态图像进行图像合成之后得到的合成图像。

本实施例中，通过包括前面步骤310至步骤340的图像处理方法，先获取目标对象的形象图像中的头部图像，以及头部图像的头部面积、头部坐标，并且获取动作姿态描述信息，再根据动作姿态描述信息和头部图像的头部朝向，从动作姿态库中获取目标身体动作姿态图像，以及目标身体动作姿态图像所对应的头部区域面积、头部区域坐标，由于目标身体动作姿态图像是根据动作姿态描述信息和头部图像的头部朝向而在动作姿态库中获取的，因此目标身体动作姿态图像不仅能够与动作姿态描述信息对应，并且能够与头部图像匹配，不会出现头部朝向和身体朝向相冲突的问题；然后，根据头部面积和头部区域面积对头部图像进行图像调整，得到头部调整图像，其中，进行图像调整后，头部坐标被调整为头部调整图像的坐标，头部调整图像的面积与头部区域面积相等，通过根据头部面积和头部区域面积对头部图像进行图像调整，使得调整后得到的头部调整图像的面积与头部区域面积相等，可以有利于提高头部调整图像与目标身体动作姿态图像进行图像合成时的和谐性和协调性；接着，将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到合成图像，通过将头部调整图像的坐标匹配到头部区域坐标，可以将头部调整图像准确定位到目标身体动作姿态图像所对应的头部区域，从而可以避免头部调整图像和目标身体动作姿态图像之间出现缝隙，进而可以提高合成图像的协调性和合理性。由于在进行图像处理时，会将目标对象的形象图像中的头部图像与根据动作姿态描述信息从动作姿态库中获取的目标身体动作姿态图像进行图像合成，因此得到的合成图像不仅可以具有符合要求的动作姿态，并且可以具有目标对象的长相特征，从而可以提高目标对象自己制作个性化图像的参与感和趣味性；另外，由于在整个图像处理过程中，既不需要进行人工绘制，也不需要利用神经网络模型进行图像生成，因此能够高效地生成符合要求的图像。

在一实施例中，在得到合成图像之后，还可以根据获取到的风格转换引导信息和背景描述信息，结合该合成图像，生成符合目标对象的要求的目标风格图像。其中，在根据风格转换引导信息、背景描述信息和合成图像生成目标风格图像的过程中，可以先根据风格转换引导信息对合成图像进行风格转换，得到风格转换图像，然后根据背景描述信息生成背景图像，其中，背景图像与风格转换图像风格匹配，接着将风格转换图像与背景图像进行图像融合，得到目标风格图像。

在一实施例中，风格转换引导信息和背景描述信息可以是服务器在获取到动作姿态描述信息的同时获取到，也就是说，当服务器在获取动作姿态描述信息时，可以同时获取风格转换引导信息和背景描述信息；另外，风格转换引导信息和背景描述信息还可以是服务器在目标对象触发执行生成目标风格图像时获取到，也就是说，当目标对象触发执行对该合成图像的风格转换而向服务器提供风格转换引导信息和背景描述信息时，服务器再获取风格转换引导信息和背景描述信息。此外，与动作姿态描述信息相类似，风格转换引导信息和背景描述信息也可以是目标对象自行输入的文本信息，或者可以是通过对目标对象上传的文本进行内容提取后得到的文本信息，或者可以是目标对象通过选项选择的文本信息，等等，此处不作具体限定。

在一实施例中，在根据风格转换引导信息对合成图像进行风格转换时，可以调用风格转换模型根据风格转换引导信息对合成图像进行风格转换。此外，在根据背景描述信息生成与风格转换图像风格匹配的背景图像时，也可以调用该风格转换模型根据背景描述信息生成该背景图像，或者，可以调用另外的经过训练的图像生成模型根据背景描述信息生成与风格转换图像风格匹配的背景图像，此处不作具体限定。

在一实施例中，风格转换引导信息是为了启动风格转换模型而提供的文本片段或提示信息。风格转换引导信息可以是一个单词、一个短语、一个句子、一个段落或者一整篇文章，此处不作具体限定。当风格转换模型接收到风格转换引导信息之后，风格转换模型可以根据该风格转换引导信息对合成图像进行风格转换，使得得到的风格转换图像的风格能够符合风格转换引导信息中所描述的风格类型(例如水墨风格类型、简笔画风格类型、未来科技风格类型等)。

在一实施例中，该风格转换模型可以是一种图像生成模型，例如StableDiffusion模型，当需要对合成图像进行特定风格(例如水墨风格)的转换时，可以预先利用相应风格的训练数据(例如水墨风格的训练图像)对Stable Diffusion模型进行专属风格的转换。其中，在对Stable Diffusion模型进行训练时，可以通过DreamBooth训练策略来使用一定数量规模的相应风格的训练数据(例如水墨风格的训练图像)对整个StableDiffusion模型进行整体上的微调训练。如图16所示，图16示例性地给出了用于对StableDiffusion模型进行水墨风格的微调训练的水墨风格训练图像。通过利用如图16所示的一定数量规模的水墨风格训练图像对Stable Diffusion模型进行微调训练，可以有效提高Stable Diffusion模型对于水墨风格图像的生成效果。其中，需要说明的是，DreamBooth能够通过对现有的预训练好的风格转换模型进行微调，进而实现能够通过风格转换引导信息控制生成同一个主体的不同场景的图像。

下面以一个具体例子对根据风格转换引导信息、背景描述信息和合成图像生成目标风格图像的过程进行详细说明。

参照图17所示，图17是根据风格转换引导信息、背景描述信息和合成图像生成目标风格图像的流程示意图。在图17中，先使用一定数量的水墨画图像数据1710(例如大概100张以内)基于DreamBooth算法来对风格转换模型1720(例如Stable Diffusion模型)进行微调训练，当完成对风格转换模型1720的微调训练之后，在得到了具有用户的长相特征的合成图像1730时，可以将该合成图像1730输入到该风格转换模型1720中，使得该风格转换模型1720根据用户输入的用于引导风格转换模型1720进行水墨风格转换的风格转换引导信息，对该合成图像1730进行风格转换，得到水墨风格的且具有用户的长相特征的风格转换图像1740，此时，还可以将背景描述信息输入到该风格转换模型1720中，使得该风格转换模型1720根据背景描述信息生成与风格转换图像1740具有相同的水墨风格的背景图像，然后，可以将风格转换图像1740和背景图像进行图像融合，得到既具有水墨风格背景又具有用户的长相特征的目标风格图像1750。

下面以具体的例子对本申请实施例所提供的图像处理方法进行详细的说明。

参照图18所示，图18是一个具体例子提供的图像处理方法的系统流程示意图。在图18中，该图像处理方法可以包括两大部分：自适应比例调整的图像合成部分1810和风格转换部分1820。

在自适应比例调整的图像合成部分1810中，输入的信息是动作姿态描述信息(例如用户输入的动作姿态描述信息或者选择的一段小说角色形象的动作姿态描述信息)以及用户自己的形象图像(例如用户自己当前输入的形象图像或者用户预先上传的形象图像)。当接收到动作姿态描述信息以及用户自己的形象图像之后，可以利用动作姿态描述信息和用户自己的形象图像生成一个具有指定动作姿态以及用户自己的形象特征的合成图像。

在生成合成图像之前，可以预先准备一个动作姿态库，并收集各种各样的动作姿态标签，然后根据这些动作姿态标签获取对应的各种人体动作姿态图像，其中，这些人体动作姿态图像可以通过制作三维人体得到、通过虚拟人动作模拟得到，或者通过网络中公开的人体动作姿态图片获取得到，可以根据实际应用情况进行适当的选择，此处不作具体限定。当获取到这些人体动作姿态图像之后，可以将这些人体动作姿态图像进行尺寸调整，使得所有人体动作姿态图像的尺寸能够统一，然后对于每一个人体动作姿态图像，都可以调用语义分割模型将头部和身体进行分割，并计算头部的面积和坐标，得到身体动作姿态图像及其所对应的头部区域面积、头部区域坐标，接着将所有身体动作姿态图像及其所对应的头部区域面积、头部区域坐标，保存到动作姿态库中。

当接收到动作姿态描述信息以及用户自己的形象图像之后，可以调用语义分割模型对用户自己的形象图像进行头部检测与分割，并计算头部的面积和坐标，得到用户自己的头部图像及其头部面积、头部坐标；此外，还可以根据动作姿态描述信息和用户自己的头部图像的头部朝向，从动作姿态库中筛选出合适的目标身体动作姿态图像及其所对应的头部区域面积、头部区域坐标；然后，可以根据头部面积和头部区域面积对用户自己的头部图像进行自适应比例的图像调整，得到头部调整图像，其中，在进行该自适应比例的图像调整之后，用户自己的头部图像的头部坐标会被调整为头部调整图像的坐标，并且头部调整图像的面积会与头部区域面积相等；接着，可以将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到一个带有用户形象且符合动作姿态描述信息的合成图像。

在风格转换部分1820中，可以对由自适应比例调整的图像合成部分1810输出的合成图像进行风格转换。其中，风格转换部分1820的操作主要由风格转换模型执行，在调用该风格转换模型对合成图像进行风格转换之前，可以预先使用相对应风格的训练数据对该风格转换模型进行风格定制化的训练，使得该风格转换模型能够充分学习到该风格画风的表征能力。当接收到自适应比例调整的图像合成部分1810输出的合成图像之后，可以根据风格转换引导信息对合成图像进行风格转换，得到既符合用户需求的风格且带有用户长相特征，又同时符合动作姿态描述信息的目标风格图像，其中，风格转换引导信息可以是用户输入的用于引导风格转换模型对合成图像进行特定风格转换的描述信息，也可以是用户选择的待转换的风格类别信息，此处不作具体限定。

在本示例中，通过使用针对头部的自适应比例调整的图像合成方式来将用户的形象图像融入到最终生成的目标风格图像中，可以让用户只上传一张自己的形象图像从而完成最终的形象生成。这种方式不仅能够摆脱传统单纯使用Stable Diffusion模型时对于用户长相图像数据的依赖，同时还不需要对模型进行二次微调，从而可以避免与模型原有的风格概念参数相冲突，进而能够加快整个图像合成的处理速度，因此更能够提升用户的使用体验。

参照图19所示，图19是自适应比例调整的图像合成部分的处理流程图。在图19中，该自适应比例调整的图像合成部分可以包括两个子部分：动作姿态库构建子部分1910和自适应调整图像合成子部分1920。

在动作姿态库构建子部分1910中，可以先收集各种各样的动作姿态标签，并根据这些动作姿态标签，通过制作三维人体的方式、通过虚拟人动作模拟的方式，或者通过网络中公开的人体动作姿态图片获取的方式，获取对应的各种人体动作姿态图像，然后，对获取到的这些人体动作姿态图像进行尺寸调整，使得所有人体动作姿态图像的尺寸能够统一，接着，对于每一个人体动作姿态图像，都调用语义分割模型来将头部和身体进行分割，并计算头部的面积和坐标，得到身体动作姿态图像及其所对应的头部区域面积、头部区域坐标，此时，将所有身体动作姿态图像及其所对应的头部区域面积、头部区域坐标，保存到动作姿态库中。

在自适应调整图像合成子部分1920中，当接收到用户输入的自己的形象图像和动作姿态描述信息之后，先调用语义分割模型对用户自己的形象图像进行图像语义分割，得到用户自己的头部图像及其头部面积、头部坐标；同时，根据动作姿态描述信息和用户自己的头部图像的头部朝向，从动作姿态库中筛选出合适的目标身体动作姿态图像及其所对应的头部区域面积、头部区域坐标；然后，将用户自己的头部图像和目标身体动作姿态图像进行自适应调整合成，得到一个带有用户形象且符合动作姿态描述信息的合成图像。其中，在将用户自己的头部图像和目标身体动作姿态图像进行自适应调整合成的过程中，可以先根据头部面积和头部区域面积对用户自己的头部图像进行自适应比例的图像调整，得到头部调整图像，其中，在进行该自适应比例的图像调整之后，用户自己的头部图像的头部坐标会被调整为头部调整图像的坐标，并且头部调整图像的面积会与头部区域面积相等，然后，将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成。

参照图20所示，在图20中，以生成需求为水墨风格的定制化小说武侠形象为例，对整个图像处理方法的具体流程进行说明。在如图20所示的流程中，当用户希望针对小说文本中的某一段内容描述生成水墨风格的定制化小说武侠形象的小说插图时，用户可以通过图像处理客户端输入自拍的形象图像，并且通过上传的方式或者选项选择的方式将这一段小说内容描述提供给图像处理客户端，此时，图像处理客户端会将该形象图像和这一段小说内容描述发送给服务器；当服务器接收到该形象图像和这一段小说内容描述之后，服务器可以调用语义分割模型2010对该形象图像进行头部检测与分割，并计算头部的面积和坐标，得到用户自己的头部图像及其头部面积、头部坐标；同时，服务器还可以对这一段小说内容描述进行动作姿态词语的检测，通过检测这一段小说内容描述中的实体词语和关系词语，得到动作姿态提示词，然后根据该动作姿态提示词在预先设置的动作姿态提示词库中检索对应的动作姿态描述信息，接着根据动作姿态描述信息和用户自己的头部图像的头部朝向，从动作姿态库中筛选出合适的小说武侠形象的目标身体动作姿态图像及其所对应的头部区域面积、头部区域坐标；此时，服务器可以根据头部面积和头部区域面积对用户自己的头部图像进行自适应比例的图像调整，得到面积与头部区域面积相等的头部调整图像，并将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到一个具有用户长相特征的小说武侠形象的合成图像；当得到合成图像之后，服务器可以根据用户所选择的水墨风格转换引导信息(例如用户预先选择好的水墨风格信息或者用户当前输入的进行水墨风格转换的描述信息)，调用风格转换模型2020对该合成图像进行风格转换，得到水墨风格的小说武侠形象图像(即风格转换图像)；此时，服务器还可以根据用户所选择的背景描述信息，调用风格转换模型2020生成一个水墨风格的背景图像，然后将该水墨风格的小说武侠形象图像和该背景图像进行图像融合，得到用户所需的水墨风格的定制化小说武侠形象的小说插图(即目标风格图像)。

其中，当用户通过上传的方式将这一段小说内容描述提供给图像处理客户端时，例如图21所示，在图像处理客户端将用户的形象图像和这一段小说内容描述发送给服务器之后，服务器可以先调用语义分割模型2110对该形象图像进行图像语义分割，得到用户自己的头部图像及其头部面积、头部坐标；然后，服务器根据小说内容描述选择对应的动作姿态描述信息，并根据动作姿态描述信息和用户自己的头部图像的头部朝向，确定待选择的身体动作姿态类型，接着根据该身体动作姿态类型在动作姿态库2120中筛选出合适的目标身体动作姿态图像及其所对应的头部区域面积、头部区域坐标；此时，服务器可以将用户自己的头部图像和目标身体动作姿态图像进行自适应调整合成，得到一个带有用户形象且符合动作姿态描述信息的合成图像。其中，服务器在将头部图像和目标身体动作姿态图像进行自适应调整合成的过程中，可以先根据头部面积和头部区域面积对头部图像进行自适应比例的图像调整，得到头部调整图像，其中，在进行该自适应比例的图像调整之后，头部图像的头部坐标会被调整为头部调整图像的坐标，并且头部调整图像的面积会与头部区域面积相等，此时，服务器再将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成。

参照图22所示，图22是一个具体例子提供的图像处理方法的详细流程图。该图像处理方法可以由服务器执行，也可以由用户终端执行，也可以由用户终端和服务器共同执行，在该具体例子中，以该方法由服务器执行为例进行说明。在图22中，该图像处理方法可以包括但不限于步骤2201至步骤2217。

步骤2201：获取动作姿态标签，并根据动作姿态标签获取人体动作姿态图像。

步骤2202：对人体动作姿态图像进行图像语义分割，得到头部区域图像和头部区域图像的像素点坐标；

步骤2203：根据头部区域图像的像素点坐标，计算得到头部区域图像的面积和头部区域图像的区域坐标；

步骤2204：根据人体动作姿态图像和头部区域图像得到身体动作姿态图像；

步骤2205：将头部区域图像的面积作为身体动作姿态图像所对应的头部区域面积，并将头部区域图像的区域坐标作为身体动作姿态图像所对应的头部区域坐标，然后根据动作姿态标签、身体动作姿态图像及其所对应的头部区域面积与头部区域坐标，构建得到动作姿态库。

步骤2206：获取目标对象的形象图像，并对形象图像进行图像语义分割，得到形象图像中的头部图像和头部图像的像素点坐标。

步骤2207：根据头部图像的像素点坐标，计算得到头部图像的头部面积和头部坐标。

步骤2208：获取动作姿态描述信息，根据动作姿态描述信息和头部图像的头部朝向，从动作姿态库中获取目标身体动作姿态图像，以及目标身体动作姿态图像所对应的头部区域面积、头部区域坐标。

步骤2209：根据头部面积和头部区域面积对头部图像进行图像调整，得到头部调整图像，其中，进行图像调整后，头部坐标被调整为头部调整图像的坐标，头部调整图像的面积与头部区域面积相等。

在一实施例中，头部调整图像的坐标可以包括头部中心点坐标和头部下巴点坐标，头部区域坐标包括头部区域中心点坐标和头部区域下巴点坐标。

步骤2210：将头部中心点坐标与头部区域中心点坐标进行对齐。

步骤2211：判断头部中心点坐标与头部区域中心点坐标对齐后的头部调整图像和目标身体动作姿态图像之间是否存在缝隙，若不存在，执行步骤2212；若存在，则执行步骤2213。

步骤2212：将头部中心点坐标与头部区域中心点坐标对齐后的头部调整图像和目标身体动作姿态图像的组合，作为合成图像，然后执行步骤2214。

步骤2213：将头部下巴点坐标与头部区域下巴点坐标进行对齐，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到合成图像，然后执行步骤2214。

步骤2214：获取风格转换引导信息和背景描述信息。

步骤2215：根据风格转换引导信息对合成图像进行风格转换，得到风格转换图像。

步骤2216：根据背景描述信息生成背景图像，其中，背景图像与风格转换图像风格匹配。

步骤2217：将风格转换图像与背景图像进行图像融合，得到目标风格图像。

本实施例中，通过上述步骤2201至步骤2217的图像处理方法，先获取目标对象的形象图像中的头部图像，以及头部图像的头部面积、头部坐标，并且获取动作姿态描述信息，再根据动作姿态描述信息和头部图像的头部朝向，从动作姿态库中获取目标身体动作姿态图像，以及目标身体动作姿态图像所对应的头部区域面积、头部区域坐标，由于目标身体动作姿态图像是根据动作姿态描述信息和头部图像的头部朝向而在动作姿态库中获取的，因此目标身体动作姿态图像不仅能够与动作姿态描述信息对应，并且能够与头部图像匹配，不会出现头部朝向和身体朝向相冲突的问题；然后，根据头部面积和头部区域面积对头部图像进行图像调整，得到头部调整图像，其中，进行图像调整后，头部坐标被调整为头部调整图像的坐标，头部调整图像的面积与头部区域面积相等，通过根据头部面积和头部区域面积对头部图像进行图像调整，使得调整后得到的头部调整图像的面积与头部区域面积相等，可以有利于提高头部调整图像与目标身体动作姿态图像进行图像合成时的和谐性和协调性；接着，将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到合成图像，通过将头部调整图像的坐标匹配到头部区域坐标，可以将头部调整图像准确定位到目标身体动作姿态图像所对应的头部区域，避免头部调整图像和目标身体动作姿态图像之间出现缝隙，从而可以提高合成图像的协调性和合理性。由于在进行图像处理时，会将目标对象的形象图像中的头部图像与根据动作姿态描述信息从动作姿态库中获取的目标身体动作姿态图像进行图像合成，因此得到的合成图像不仅可以具有符合要求的动作姿态，并且可以具有目标对象的长相特征，从而可以提高目标对象自己制作个性化图像的参与感和趣味性；另外，由于在整个图像处理过程中，既不需要进行人工绘制，也不需要利用神经网络模型进行图像生成，因此能够高效地生成符合要求的图像。

下面以一些实际例子说明本申请实施例的应用场景。

需要说明的是，本申请实施例提供的图像处理方法可应用于网络小说平台的小说插图生成、定制化漫画生成或者游戏角色制作等不同的应用场景，下面以网络小说平台的小说插图生成场景、定制化漫画生成场景和游戏角色制作场景为例进行说明。

场景一

本申请实施例提供的图像处理方法可以应用于网络小说平台的小说插图生成场景，例如，当网络小说平台的读者在阅读到关键章节或者故事情节而希望能够配合带有读者自己的长相特征的小说人物插图以提高阅读体验时，读者可以触发针对该小说人物插图的生成操作，此时，网络小说平台可以根据读者的触发操作，获取读者的形象图像(例如读者在进行账号注册时上传的形象图像或者读者在触发插图生成操作时上传的形象图像)以及读者所选择的需要生成小说人物插图的小说章节内容，并且获取读者所确定的风格转换引导信息和背景描述信息，然后对读者的形象图像进行图像语义分割，得到读者的头部图像以及头部图像的头部面积、头部坐标，接着根据读者所选择的小说章节内容确定关键人物的动作姿态描述信息，并根据动作姿态描述信息和头部图像的头部朝向，从预先准备好的动作姿态库中获取目标身体动作姿态图像，以及目标身体动作姿态图像所对应的头部区域面积、头部区域坐标；此时，网络小说平台可以根据头部面积和头部区域面积对头部图像进行图像调整，得到头部调整图像，其中，进行图像调整后，头部坐标会被调整为头部调整图像的坐标，头部调整图像的面积会与头部区域面积相等，然后，网络小说平台将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到合成图像；在得到合成图像之后，网络小说平台根据风格转换引导信息对合成图像进行风格转换，得到风格转换图像，并且根据背景描述信息生成与风格转换图像风格匹配的背景图像，接着将风格转换图像与背景图像进行图像融合，得到具有读者自己的长相特征的目标风格图像；在得到目标风格图像之后，网络小说平台将目标风格图像作为小说插图添加到读者所选择的小说章节内容中，并将该小说章节内容和目标风格图像一起显示给读者，使得读者在阅读该小说章节内容时，能够更加直观地感受到文中角色的形象，从而能够提升整体的阅读体验。

场景二

本申请实施例提供的图像处理方法也可以应用于定制化漫画生成场景，例如，当用户希望通过漫画生成器制作以自己作为主角的定制化连环漫画时，用户可以将自己的一张形象图像以及用户自己想要的故事情节描述内容上传到漫画生成器；当接收到用户上传的形象图像和故事情节描述内容之后，漫画生成器可以对用户的形象图像进行图像语义分割，得到用户的头部图像以及头部图像的头部面积、头部坐标，接着根据用户所上传的故事情节描述内容确定动作姿态描述信息，并根据动作姿态描述信息和头部图像的头部朝向，从预先准备好的动作姿态库中获取目标身体动作姿态图像，以及目标身体动作姿态图像所对应的头部区域面积、头部区域坐标；此时，漫画生成器可以根据头部面积和头部区域面积对头部图像进行图像调整，得到头部调整图像，其中，进行图像调整后，头部坐标会被调整为头部调整图像的坐标，头部调整图像的面积会与头部区域面积相等，然后，漫画生成器将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到具有用户自己的长相特征的合成图像，此时，通过结合漫画生成器的台词模块，即可自动生成以用户自己作为主角的定制化连环漫画。通过该方法能够极大的降低用户创作漫画的难度，从而能够提升用户的创作兴趣。另外，在得到以用户自己作为主角的定制化连环漫画之后，还可以获取用户所确定的风格转换引导信息，然后根据风格转换引导信息对该定制化连环漫画中的各个合成图像进行风格转换，得到不同风格的定制化连环漫画，例如可以将二维人物风格的定制化连环漫画转换成三维人物风格的定制化连环漫画，或者可以将现代风格的定制化连环漫画转换成古代风格的定制化连环漫画等，从而可以提高用户创作漫画的灵活性。

场景三

本申请实施例提供的图像处理方法还可以应用于游戏角色制作场景，例如，当玩家在进行游戏角色的生成操作时，玩家可以触发生成个性化的游戏角色。当玩家选择生成个性化的游戏角色时，游戏服务器可以向玩家提供不同的角色类型(例如攻击角色类型、辅助角色类型等)及其附属的角色描述，当玩家在这些角色类型中选择了一个目标角色类型后，游戏服务器可以获取玩家自己的形象图像(例如玩家在进行游戏账号注册时上传的形象图像或者玩家在选择生成个性化的游戏角色时上传的形象图像)，然后对玩家的形象图像进行图像语义分割，得到玩家的头部图像以及头部图像的头部面积、头部坐标，接着根据玩家所选择的目标角色类型的角色描述和头部图像的头部朝向，从预先准备好的动作姿态库中获取目标角色的身体动作姿态图像(即目标身体动作姿态图像)及其所对应的头部区域面积、头部区域坐标；此时，游戏服务器可以根据头部面积和头部区域面积对头部图像进行图像调整，得到头部调整图像，其中，进行图像调整后，头部坐标会被调整为头部调整图像的坐标，头部调整图像的面积会与头部区域面积相等，然后，游戏服务器将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标角色的身体动作姿态图像进行图像合成，得到具有玩家自己的长相特征的角色图像，接着，游戏服务器根据该角色图像，即可生成对应的游戏角色。由于玩家在游戏中的游戏角色具有玩家自己的长相特征，因此可以提高玩家在游戏中的参与感，从而可以提高玩家的游戏体验。

可以理解的是，虽然上述各个流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时间执行完成，而是可以在不同的时间执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

参照图23，本申请实施例还公开了一种图像处理装置，该图像处理装置2300能够实现前面实施例中的图像处理方法，该图像处理装置2300包括：

第一图像获取单元2310，用于获取目标对象的形象图像中的头部图像，以及头部图像的头部面积、头部坐标；

第二图像获取单元2320，用于获取动作姿态描述信息，根据动作姿态描述信息和头部图像的头部朝向，从动作姿态库中获取目标身体动作姿态图像，以及目标身体动作姿态图像所对应的头部区域面积、头部区域坐标；

图像调整单元2330，用于根据头部面积和头部区域面积对头部图像进行图像调整，得到头部调整图像，其中，进行图像调整后，头部坐标被调整为头部调整图像的坐标，头部调整图像的面积与头部区域面积相等；

图像合成单元2340，用于将头部调整图像的坐标匹配到头部区域坐标，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到合成图像。

在一实施例中，头部调整图像的坐标包括头部中心点坐标，头部区域坐标包括头部区域中心点坐标；图像合成单元2340还用于：

将头部中心点坐标与头部区域中心点坐标进行对齐，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到合成图像。

在一实施例中，图像合成单元2340还用于：

将头部中心点坐标与头部区域中心点坐标进行对齐；

判断头部中心点坐标与头部区域中心点坐标对齐后的头部调整图像和目标身体动作姿态图像之间是否存在缝隙；

当头部调整图像和目标身体动作姿态图像之间不存在缝隙，将头部中心点坐标与头部区域中心点坐标对齐后的头部调整图像和目标身体动作姿态图像的组合，作为合成图像。

在一实施例中，头部调整图像的坐标还包括头部下巴点坐标，头部区域坐标包括头部区域下巴点坐标；图像合成单元2340还用于：

当头部调整图像和目标身体动作姿态图像之间存在缝隙，将头部下巴点坐标与头部区域下巴点坐标进行对齐，以对头部调整图像和目标身体动作姿态图像进行图像合成，得到合成图像。

在一实施例中，图像处理装置2300还包括动作姿态库构建单元，动作姿态库构建单元用于：

获取动作姿态标签；

根据动作姿态标签获取身体动作姿态图像，以及身体动作姿态图像所对应的头部区域面积、头部区域坐标；

根据动作姿态标签、身体动作姿态图像、身体动作姿态图像所对应的头部区域面积与头部区域坐标，构建得到动作姿态库。

在一实施例中，动作姿态库构建单元还用于：

根据动作姿态标签获取人体动作姿态图像；

对人体动作姿态图像进行图像语义分割，得到身体动作姿态图像以及身体动作姿态图像所对应的头部区域面积、头部区域坐标。

在一实施例中，动作姿态库构建单元还用于：

对人体动作姿态图像进行图像语义分割，得到头部区域图像和头部区域图像的像素点坐标；

根据头部区域图像的像素点坐标，计算得到头部区域图像的面积和头部区域图像的区域坐标；

根据人体动作姿态图像和头部区域图像得到身体动作姿态图像；

将头部区域图像的面积作为身体动作姿态图像所对应的头部区域面积，并将头部区域图像的区域坐标作为身体动作姿态图像所对应的头部区域坐标。

在一实施例中，第一图像获取单元2310还用于：

获取目标对象的形象图像；

对形象图像进行图像语义分割，得到形象图像中的头部图像以及头部图像的头部面积、头部坐标。

在一实施例中，第一图像获取单元2310还用于：

对形象图像进行图像语义分割，得到形象图像中的头部图像和头部图像的像素点坐标；

根据头部图像的像素点坐标，计算得到头部图像的头部面积和头部坐标。

在一实施例中，图像处理装置2300还包括：

图像生成单元，用于根据风格转换引导信息、背景描述信息和合成图像，生成目标风格图像。

在一实施例中，图像生成单元还用于：

根据风格转换引导信息对合成图像进行风格转换，得到风格转换图像；

根据背景描述信息生成背景图像，其中，背景图像与风格转换图像风格匹配；

将风格转换图像与背景图像进行图像融合，得到目标风格图像。

需要说明的是，由于本实施例的图像处理装置2300能够实现如前面实施例的图像处理方法，因此本实施例的图像处理装置2300与前面实施例的图像处理方法，具有相同的技术原理以及相同的有益效果，为了避免内容重复，此处不再赘述。

本申请实施例提供的用于执行上述图像处理方法的电子设备可以是用户终端，参照图24，图24为本申请实施例提供的用户终端的部分结构框图，该用户终端包括：摄像头组件2410、第一存储器2420、输入单元2430、显示单元2440、传感器2450、音频电路2460、无线保真(wireless fidelity，简称WiFi)模块2470、第一处理器2480、以及第一电源2490等部件。本领域技术人员可以理解，图24中示出的用户终端结构并不构成对用户终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

摄像头组件2410可用于采集图像或视频。可选地，摄像头组件2410包括前置摄像头和后置摄像头。通常，前置摄像头设置在用户终端的前面板，后置摄像头设置在用户终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。

第一存储器2420可用于存储软件程序以及模块，第一处理器2480通过运行存储在第一存储器2420的软件程序以及模块，从而执行用户终端的各种功能应用以及数据处理。

输入单元2430可用于接收输入的数字或字符信息，以及产生与用户终端的设置以及功能控制有关的键信号输入。具体地，输入单元2430可包括触摸面板2424以及其他输入装置2432。

显示单元2440可用于显示输入的信息或提供的信息以及用户终端的各种菜单。显示单元2440可包括显示面板2441。

音频电路2460、扬声器2461，传声器2462可提供音频接口。

第一电源2490可以是交流电、直流电、一次性电池或可充电电池。

传感器2450的数量可以为一个或者多个，该一个或多个传感器2450包括但不限于：加速度传感器、陀螺仪传感器、压力传感器、光学传感器等等。其中：

加速度传感器可以检测以用户终端建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器可以用于检测重力加速度在三个坐标轴上的分量。第一处理器2480可以根据加速度传感器采集的重力加速度信号，控制显示单元2440以横向视图或纵向视图进行用户界面的显示。加速度传感器还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器可以检测用户终端的机体方向及转动角度，陀螺仪传感器可以与加速度传感器协同采集用户对用户终端的3D动作。第一处理器2480根据陀螺仪传感器采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器可以设置在用户终端的侧边框和/或显示单元2440的下层。当压力传感器设置在用户终端的侧边框时，可以检测用户对用户终端的握持信号，由第一处理器2480根据压力传感器采集的握持信号进行左右手识别或快捷操作。当压力传感器设置在显示单元2440的下层时，由第一处理器2480根据用户对显示单元2440的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器用于采集环境光强度。在一个实施例中，第一处理器2480可以根据光学传感器采集的环境光强度，控制显示单元2440的显示亮度。具体地，当环境光强度较高时，调高显示单元2440的显示亮度；当环境光强度较低时，调低显示单元2440的显示亮度。在另一个实施例中，第一处理器2480还可以根据光学传感器采集的环境光强度，动态调整摄像头组件2410的拍摄参数。

在本实施例中，该用户终端所包括的第一处理器2480可以执行前面实施例的图像处理方法。

本申请实施例提供的用于执行上述图像处理方法的电子设备也可以是服务器，参照图25，图25为本申请实施例提供的服务器的部分结构框图，服务器2500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上第二处理器2522和第二存储器2532，一个或一个以上存储应用程序2542或数据2544的存储介质2530(例如一个或一个以上海量存储装置)。其中，第二存储器2532和存储介质2530可以是短暂存储或持久存储。存储在存储介质2530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器2500中的一系列命令操作。更进一步地，第二处理器2522可以设置为与存储介质2530通信，在服务器2500上执行存储介质2530中的一系列命令操作。

服务器2500还可以包括一个或一个以上第二电源2526，一个或一个以上有线或无线网络接口2550，一个或一个以上输入输出接口2558，和/或，一个或一个以上操作系统2541，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

服务器2500中的处理器可以用于执行图像处理方法。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质用于存储计算机程序，该计算机程序用于执行前述各个实施例的图像处理方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的图像处理方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其他步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的，一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器或者网络装置等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于上述方法实施例中的步骤编号，仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

Claims

1.一种图像处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述头部调整图像的坐标包括头部中心点坐标，所述头部区域坐标包括头部区域中心点坐标；

所述将所述头部调整图像的坐标匹配到所述头部区域坐标，以对所述头部调整图像和所述目标身体动作姿态图像进行图像合成，得到合成图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述头部中心点坐标与所述头部区域中心点坐标进行对齐，以对所述头部调整图像和所述目标身体动作姿态图像进行图像合成，得到合成图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述头部调整图像的坐标还包括头部下巴点坐标，所述头部区域坐标包括头部区域下巴点坐标；

所述将所述头部中心点坐标与所述头部区域中心点坐标进行对齐，以对所述头部调整图像和所述目标身体动作姿态图像进行图像合成，得到合成图像，还包括：

5.根据权利要求1所述的方法，其特征在于，所述动作姿态库由以下步骤构建得到：

获取动作姿态标签；

6.根据权利要求5所述的方法，其特征在于，所述根据所述动作姿态标签获取身体动作姿态图像，以及所述身体动作姿态图像所对应的头部区域面积、头部区域坐标，包括：

根据所述动作姿态标签获取人体动作姿态图像；

7.根据权利要求6所述的方法，其特征在于，所述对所述人体动作姿态图像进行图像语义分割，得到身体动作姿态图像以及所述身体动作姿态图像所对应的头部区域面积、头部区域坐标，包括：

8.根据权利要求1所述的方法，其特征在于，所述获取目标对象的形象图像中的头部图像，以及所述头部图像的头部面积、头部坐标，包括：

获取目标对象的形象图像；

9.根据权利要求8所述的方法，其特征在于，所述对所述形象图像进行图像语义分割，得到所述形象图像中的头部图像以及所述头部图像的头部面积、头部坐标，包括：

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取风格转换引导信息和背景描述信息；

根据所述风格转换引导信息、所述背景描述信息和所述合成图像，生成目标风格图像。

11.根据权利要求10所述的方法，其特征在于，所述根据所述风格转换引导信息、所述背景描述信息和所述合成图像，生成目标风格图像，包括：

12.一种图像处理装置，其特征在于，包括：

13.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11任意一项所述的图像处理方法。

14.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11任意一项所述的图像处理方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11任意一项所述的图像处理方法。