CN117576248B

CN117576248B - 基于姿态引导的图像生成方法和装置

Info

Publication number: CN117576248B
Application number: CN202410066677.9A
Authority: CN
Inventors: 叶虎
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-05-24
Anticipated expiration: 2044-01-17
Also published as: CN117576248A

Abstract

提出了一种基于姿态引导的图像生成方法和装置。该基于姿态引导的图像生成方法包括：获取源图像、噪声图像和目标姿态图像，其中噪声图像不同于源图像；从源图像中提取源姿态图像；至少基于源图像、噪声图像、目标姿态图像和源姿态图像通过融合得到待处理图像；将源图像输入图像生成模型的图像特征提取器以从中提取源图像综合特征，源图像综合特征包括纹理特征；将待处理图像和源图像综合特征输入图像生成模型的图像去噪器，以得到目标图像，目标图像表示源图像中的对象在目标姿态下的图像。

Description

基于姿态引导的图像生成方法和装置

技术领域

本公开涉及计算机技术领域，更具体地涉及一种基于姿态引导的图像生成方法和装置、计算设备、计算机可读存储介质及计算机程序产品。

背景技术

在互联网技术快速发展的时代，随着深度学习的发展，图像生成技术已经在许多领域（例如电商广告、艺术创作、游戏设计、虚拟现实等领域）中得到了广泛应用并且受到广泛关注。

然而，在相关技术的图像生成系统或模型的方法中，目前基于生成对抗网络的生成方案的主要缺点是：采用对抗训练，训练过程比较不稳定；在图像生成一致性上比较差；不一定保持真实的纹理或者需要密集的对应关系，难以处理复杂的变形和严重的遮挡。这些问题和缺点限制了图像生成技术的进一步发展。

发明内容

有鉴于此，本公开提供了一种基于姿态引导的图像生成方法和装置、计算设备、计算机可读存储介质及计算机程序产品，从而缓解、减轻或甚至消除上述问题中的一些或全部以及其它可能的问题。

根据本公开的一个方面，提出了一种基于姿态引导的图像生成方法，其包括：获取源图像、噪声图像和目标姿态图像，其中所述噪声图像不同于所述源图像；从所述源图像中提取源姿态图像；至少基于所述源图像、所述噪声图像、所述目标姿态图像和所述源姿态图像通过融合得到待处理图像；将所述源图像输入图像生成模型的图像特征提取器以从中提取源图像综合特征，所述源图像综合特征包括纹理特征；将所述待处理图像和所述源图像综合特征输入所述图像生成模型的图像去噪器，以得到目标图像，所述目标图像表示所述源图像中的对象在目标姿态下的图像。

根据本公开一些实施例，所述至少基于所述源图像、所述噪声图像、所述目标姿态图像和所述源姿态图像通过融合得到待处理图像，包括：将所述源姿态图像和所述目标姿态图像沿着水平方向拼接以得到第一拼接图像；将所述源图像和所述噪声图像沿着水平方向拼接以得到第二拼接图像；至少基于所述第一拼接图像和所述第二拼接图像沿着通道方向拼接以得到所述待处理图像，其中所述第一拼接图像中的源姿态图像和目标姿态图像的空间位置分别与所述第二拼接图像中的源图像和噪声图像的空间位置对应。

根据本公开一些实施例，所述至少基于所述第一拼接图像和所述第二拼接图像沿着通道方向拼接以得到所述待处理图像，包括：获取掩码图像，所述掩码图像包括第一掩码部分和与所述第一掩码部分不同的第二掩码部分；基于所述掩码图像、所述第一拼接图像和所述第二拼接图像沿着通道方向拼接以得到所述待处理图像，其中所述掩码图像中的第一掩码部分和第二掩码部分的空间位置分别与所述第二拼接图像中的源图像和噪声图像的空间位置对应。

根据本公开一些实施例，所述将所述源图像输入图像生成模型的图像特征提取器以从中提取源图像综合特征，包括：将所述源图像输入所述图像特征提取器的第一特征提取器以从中提取纹理特征；将所述纹理特征输入所述图像特征提取器的第二特征提取器以从中提取语义特征；根据所述纹理特征和所述语义特征，确定所述源图像综合特征。

根据本公开一些实施例，所述将所述源图像输入所述图像特征提取器的第一特征提取器以从中提取纹理特征，包括：将所述源图像输入所述第一特征提取器中的图像压缩器，以得到经压缩的源图像；将经压缩的源图像输入所述图像特征提取器的第一特征提取器的纹理特征提取器以从中提取纹理特征。

根据本公开一些实施例，所述将所述待处理图像和所述源图像综合特征输入所述图像生成模型的图像去噪器，以得到目标图像，包括：将所述待处理图像和所述源图像综合特征输入所述图像生成模型的图像去噪器，以得到交叉注意力权重；使用所述交叉注意力权重对所述源图像综合特征进行加权求和，以得到关联信息；根据所述关联信息和所述待处理图像，得到所述目标图像。

根据本公开的另一方面，提出了一种训练图像生成模型的方法，其包括：获取源图像样本、目标图像样本、目标姿态图像样本、噪声图像样本、源姿态图像样本，其中所述噪声图像样本不同于所述源图像样本；至少基于所述源图像样本、所述目标图像样本、所述目标姿态图像样本、所述噪声图像样本和所述源姿态图像样本通过融合得到待处理图像样本；将所述源图像样本和所述目标图像样本通过融合得到目标图像标签；将所述源图像样本输入所述图像生成模型的图像特征提取器以从中提取源图像样本的综合特征，所述源图像样本的综合特征包括纹理特征；将所述待处理图像样本和所述源图像样本的综合特征输入所述图像生成模型的图像去噪器以预测去噪图像；根据所述目标图像标签和所述去噪图像计算目标损失；基于所述目标损失，对所述图像生成模型的参数进行迭代更新直至所述目标损失满足预设条件。

根据本公开一些实施例，所述至少基于所述源图像样本、所述目标图像样本、所述目标姿态图像样本、所述噪声图像样本和所述源姿态图像样本通过融合得到待处理图像样本，包括：将所述源图像样本和所述目标图像样本沿水平方向拼接并进行加噪处理以得到第一拼接图像样本，将所述源姿态图像样本和所述目标姿态图像样本沿水平方向拼接以得到第二拼接图像样本，将所述源图像样本和所述噪声图像样本沿水平方向拼接以得到第三拼接图像样本，至少基于所述第一拼接图像样本、所述第二拼接图像样本和所述第三拼接图像样本通过沿通道方向的拼接处理得到待处理图像样本；并且，所述将所述源图像样本和所述目标图像样本通过融合得到目标图像标签，包括：将所述源图像样本和所述目标图像样本沿水平方向拼接以得到目标图像标签。

根据本公开一些实施例，所述至少基于所述第一拼接图像样本、所述第二拼接图像样本和所述第三拼接图像样本通过沿通道方向的拼接处理得到待处理图像样本，包括：获取掩码图像样本，所述掩码图像样本包括第一掩码部分和与所述第一掩码部分不同的第二掩码部分；基于所述掩码图像样本、所述第一拼接图像样本、所述第二拼接图像样本和所述第三拼接图像样本沿着通道方向拼接以得到所述待处理图像，其中所述第一掩码部分和所述第二掩码部分的空间位置分别与所述源图像样本和所述噪声图像样本的空间位置对应。

根据本公开的另一方面，提出了一种基于姿态引导的图像生成装置，其包括：获取模块，其被配置成获取源图像、噪声图像和目标姿态图像，其中所述噪声图像不同于所述源图像；提取模块，其被配置成从所述源图像中提取源姿态图像；融合模块，其被配置成至少基于所述源图像、所述噪声图像、所述目标姿态图像和所述源姿态图像通过融合得到待处理图像；第一输入模块，其被配置成将所述源图像输入图像生成模型的图像特征提取器以从中提取源图像综合特征，所述源图像综合特征包括纹理特征；第二输入模块，其被配置成将所述待处理图像和所述源图像综合特征输入所述图像生成模型的图像去噪器，以得到目标图像，所述目标图像表示所述源图像中的对象在目标姿态下的图像。

根据本公开的另一方面，提出了一种计算设备，包括：存储器和处理器，其中所述存储器中存储有计算机程序，所述计算机程序在被所述处理器执行时促使所述处理器执行根据本公开一些实施例的基于姿态引导的图像生成方法。

根据本公开的另一方面，提出了一种计算机可读存储介质，其上存储计算机可读指令，所述计算机可读指令在被执行时实现根据本公开一些实施例的基于姿态引导的图像生成方法。

根据本公开的另一方面，提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开一些实施例的基于姿态引导的图像生成方法。

在根据本公开一些实施例的基于姿态引导的图像生成方法和装置中，通过至少基于获取的源图像、噪声图像、目标姿态图像、以及从源图像中提取的源姿态图像通过拼接得到待处理图像，可以将源图像和目标姿态图像直接拼接在一起输入图像生成模型中，让图像生成模型能够更容易地合成一致的图像，从而能够提高源图像和最终生成图像的一致性和还原度，使得能够增强图像生成模型的鲁棒性和泛化能力，改善所生成的图像的真实性、清晰性和自然性，提升图像生成的准确率和辨识度。

根据在下文中所描述的实施例，本申请的这些和其它方面将是清楚明白的，并且将参考在下文中所描述的实施例而被阐明。

附图说明

根据以下详细描述和附图，将容易理解本公开的各个不同的方面、特征和优点，在附图中：

图1示意性地示出了根据本公开一些实施例的基于姿态引导的图像生成方法的示例实施环境；

图2示意性地示出了根据本公开一些实施例的基于姿态引导的图像生成方法的流程图；

图3A-图3C分别示意性地示出了根据本公开一些实施例的源图像、目标姿态图像、和目标图像的示例；

图4示意性地示出了根据本公开一些实施例的基于姿态引导的图像生成方法的原理示意图；

图5示意性地示出了根据本公开一些实施例的基于姿态引导的图像生成方法的流程图；

图6A示意性地示出了根据本公开一些实施例的基于姿态引导的图像生成方法的流程图；

图6B示意性地示出了根据本公开一些实施例的基于姿态引导的图像生成方法的原理示意图；

图7A和图7B示意性地示出了使用根据本公开一些实施例的图像处理方法的效果示意图；

图8示意性地示出了根据本公开一些实施例的训练图像生成模型的方法的流程图；

图9示意性地示出了根据本公开一些实施例的基于姿态引导的图像生成装置的示例框图；以及

图10示意性地示出了根据本公开一些实施例的计算设备的示例框图。

应当指出，上述附图仅仅是示意性的和说明性的，并且不一定按照比例绘制。

具体实施方式

下面将参照附图更详细地描述本公开的若干个实施例以便使得本领域技术人员能够实现本公开。本公开可以体现为许多不同的形式和目的并且不应局限于本文所阐述的实施例。提供这些实施例以使得本公开全面且完整，并充分地向本领域技术人员传达本公开的范围。所述实施例并不限定本公开。

将理解的是，尽管术语第一、第二、第三等在本文中可以用来描述各种元件、部件和/或部分，但是这些元件、部件和/或部分不应当由这些术语限制。这些术语仅用来将一个元件、部件或部分与另一个元件、部件或部分相区分。因此，下面讨论的第一元件、部件或部分可以被称为第二元件、部件或部分而不偏离本公开的教导。

本文中使用的术语仅出于描述特定实施例的目的并且不意图限制本公开。如本文中使用的，单数形式“一个”、“一”和“该”意图也包括复数形式，除非上下文清楚地另有指示。将进一步理解的是，术语“包括”和/或“包含”当在本说明书中使用时指定所述及特征、整体、步骤、操作、元件和/或部件的存在，但不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或其群组的存在或添加一个或多个其他特征、整体、步骤、操作、元件、部件和/或其群组。如本文中使用的，术语“和/或”包括相关联的列出项目中的一个或多个的任意和全部组合。

除非另有定义，否则本文中使用的所有术语（包括技术术语和科学术语）具有与本公开所属领域的普通技术人员所通常理解的相同含义。将进一步理解的是，诸如那些在通常使用的字典中定义的之类的术语应当被解释为具有与其在相关领域和/或本说明书上下文中的含义相一致的含义，并且将不在理想化或过于正式的意义上进行解释，除非本文中明确地如此定义。

附图中所示的方框图仅仅是功能实体，不必然与物理上独立的实体相对应。也就是说，可以采用软件形式来实现这些功能实体，或者在一个或多个硬件模块或集成电路中实现这些功能实体，或者在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的推广信息和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本领域技术人员可以理解，附图只是示例实施例的示例界面，附图中的模块或流程并不一定是实施本申请所必须的，因此不能用于限制本申请的保护范围。

人工智能（Artificial Intelligence, AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通、自动控制等几大方向。

机器学习（Machine Learning, ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习、主动学习等技术。

计算机视觉技术（Computer Vision, CV）：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像生成、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

在详细介绍本公开的实施例之前，为了清楚起见，首先对一些相关的概念进行解释。

1. 扩散模型（Diffusion Models）：扩散模型是一种用于建模和生成数据的概率生成模型，常用于图像生成和变换任务。扩散模型基于随机过程，通过迭代地将噪声逐渐传播到数据空间来生成样本。扩散模型的动机来自非平衡热力学，其定义了向输入样本缓慢添加噪声（前向传递）然后从噪声中重建期望样本（反向传递）的马尔可夫链。扩散模型通过一系列前向-反向扩散步骤，可以学习合理的转移轨迹，而不是在单次过程中模拟复杂的特征转移。

2. 姿态引导的图像生成：姿态引导的图像生成旨在以期望的姿态和外观呈现人体或物体的图像。具体而言，外观由给定的源图像定义，姿态由一组关键点定义。在这种方法中，姿态通常指的是人体或物体的姿态，包括其位置、姿势和角度等。

3. 交叉注意力（Cross-Attention）：交叉注意力是一种注意力机制，用于建立两个不同输入序列之间的关联。它可以将一个序列中的每个元素与另一个序列中的所有元素进行比较，从而计算两个序列之间的相关性。它常用于处理多模态任务，比如图像描述生成任务。

4. 自注意力（Self-Attention）：自注意力是一种注意力机制，能够对输入序列中的不同位置之间建立关联。它通过计算序列中每个元素与其他元素之间的相似度，来决定每个元素的重要程度。自注意力可以有效地捕捉序列中的长距离依赖关系，并且不受序列长度限制。

5. 前馈神经网络（Feedforward Neural Network，FNN）是一种最基本的人工神经网络模型，由多个神经网络层组成。每个神经网络层都包含多个神经元，其中每个神经元接收上一层的输出，并将其加权求和后通过激活函数进行非线性变换，然后将结果传递给下一层。前馈神经网络层通常可以包括全连接层、卷积层、池化层、归一化层、循环层等。

6. 泛化能力：是指机器学习算法对新鲜样本的适应能力，简而言之是在原有的数据集上添加新的数据集，通过训练输出一个合理的结果。学习的目的是学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。

在相关技术中，姿态引导的图像生成主要有以下几个技术方案：

（1）基于生成对抗网络（Generative Adversarial Networks，GAN）的生成方案：它设计了一种属性解耦的GAN模型来进行新视图合成，它将对象分解成不同的属性，然后提取属性特征嵌入到生成器中。

（2）基于扩散模型的生成方案：相比于基于GAN的生成方案，扩散模型采用逐步的去噪生成方法。该基于扩散模型的生成方案采用条件扩散模型来进行图像生成，并设计了一种纹理编码器来提取参考对象图像特征，并通过交叉注意力机制来引入到扩散模型中。此外该方法还采用了解耦的无分类器引导，即分别得到无条件、姿态引导下、以及参考对象引导下的预测噪音，然后通过加权来得到最终的预测噪音。然而，目前基于扩散模型的生成方案无法保证源图像和最终生成图像的一致性，泛化能力较弱，图像生成的准确率较低。

本申请提供一种基于姿态引导的图像生成方法，不仅通过交叉注意力将源图像特征引入图像生成模型中，而且也通过拼接和掩盖的方式将源图像和目标姿态图像引入图像生成模型中，让图像生成模型能够更容易地合成一致的图像，从而能够提高源图像和最终生成图像的一致性。图1示意性地示出了根据本公开一些实施例的基于姿态引导的图像生成方法的示例实施环境100。如图1中所示，实施环境100可以包括终端设备110和服务器120以及用于连接终端设备110和服务器120的网络130。在一些实施例中，终端设备110可以用于实现根据本公开的基于姿态引导的图像生成方法。例如该终端设备110可以部署有用于执行本公开提供的各种方法的相应程序或指令。可选地，服务器120也可以用于实现根据本公开的各种方法。

终端设备110和第三方终端设备140可以是任何类型的移动计算设备，包括移动计算机（例如，个人数字助理（PDA）、膝上型计算机、笔记本计算机、平板计算机、上网本等）、如图1中所示的移动电话（例如，蜂窝电话、智能手机等）、可穿戴式计算设备（例如智能手表、头戴式设备，包括智能眼镜）或其他类型的移动设备。在一些实施例中，终端设备110也可以是固定式计算设备，例如台式计算机、游戏机、智能电视等。

服务器120可以是单个服务器或服务器集群，或者可以是能够提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器或云服务器集群。应理解，本文所提及的服务器典型地为具有大量存储器和处理器资源的服务器计算机，但是其他实施例也是可能的。可选地，服务器120也可以是普通的台式计算机，其包括主机、显示器等。

网络130的示例包括局域网（LAN）、广域网（WAN）、个域网（PAN）、和/或诸如因特网之类的通信网络的组合。服务器120以及终端设备110可以包括能够通过网络130进行通信的至少一个通信接口（未示出）。这样的通信接口可以是下列各项中的一个或多个：任何类型的网络接口（例如，网络接口卡（NIC））、有线或无线（诸如IEEE 802.11无线LAN（WLAN））无线接口、全球微波接入互操作（Wi-MAX）接口、以太网接口、通用串行总线（USB）接口、蜂窝网络接口、Bluetooth^TM接口、近场通信（NFC）接口等。

如图1中所示，终端设备110可以包括显示屏111以及终端用户可以经由显示屏111与终端应用112进行交互。终端设备110可以例如经由网络130与服务器120交互，例如向其发送数据或从其接收数据。终端应用112可以为本地应用程序、网页（Web）应用程序或者作为轻量化应用的小程序（LiteApp，例如手机小程序、微信小程序）。在终端应用为需要安装的本地应用程序的情况下，可以将终端应用112安装在终端设备110中。在终端应用112为Web应用程序的情况下，可以通过浏览器访问终端应用112。在终端应用112为小程序的情况下，可以通过搜索终端应用的相关信息（如终端应用的名称等）、扫描终端应用的图形码（如条形码、二维码等）等方式来在终端设备110上直接打开终端应用112，而无需安装终端应用112。

图1的示例实施环境仅仅是示意性的，根据本公开的基于姿态引导的图像生成方法并不限于所示出的示例实施环境和服务器。应该理解，虽然在本文中，服务器120与终端设备110被示出和描述为分离的结构，但是它们可以是同一计算设备的不同组成部分。可选地，根据本公开一些实施例的基于姿态引导的图像生成方法的所有步骤也可以在服务器120侧实现，或者也可以在终端设备110侧和服务器120侧共同实现。

图2示意性地示出了根据本公开一些实施例的基于姿态引导的图像生成方法的流程图。在一些实施例中，如图1中所示，根据本公开的基于姿态引导的图像生成方法可以在终端设备110侧执行。在另一些实施例中，根据本公开的基于姿态引导的图像生成方法也可以由服务器120和终端设备110相组合地执行。

如图2中所示，根据本公开一些实施例的基于姿态引导的图像生成方法可以包括步骤S210-S250：

S210，获取源图像、噪声图像和目标姿态图像，其中噪声图像不同于源图像；

S220，从源图像中提取源姿态图像；

S230，至少基于源图像、噪声图像、目标姿态图像和源姿态图像通过融合得到待处理图像；

S240，将源图像输入图像生成模型的图像特征提取器以从中提取源图像综合特征，所述源图像综合特征包括纹理特征；

S250，将待处理图像和源图像综合特征输入图像生成模型的图像去噪器，以得到目标图像，所述目标图像表示源图像中的对象在目标姿态下的图像。

下面结合图3A-图3C以及图4详细描述步骤S210-S250，其中图3A-图3C分别示意性地示出了根据本公开一些实施例的源图像、目标姿态图像、和目标图像的示例，并且图4示意性地示出了根据本公开一些实施例的基于姿态引导的图像生成方法的原理示意图。

在步骤S210处，获取源图像、噪声图像和目标姿态图像，其中噪声图像不同于源图像。在本文中，源图像可以指包含各种图像特征的、待处理的原始参考图像，其示例在图3A中示出；噪声图像可以指与源图像不同的图像，其主要用于与源图像进行拼接，这是因为此时目标图像是未知的；并且目标姿态图像可以指用于展示目标姿势（例如预定关节位置、骨架结构以及姿势角度等信息）的图像，其示例在图3B中示出；目标图像是指源图像中的对象在目标姿态下的图像，或也可以理解为源图像中的对象与目标姿态图像的合成图像。这里的对象可以包括图像中的可识别主体（例如人或动物，可选地也可以包括其他物体）。一般而言，根据本公开一些实施例的基于姿态引导的图像生成方法可以应用于诸如电商广告领域，因此在所获取的图像中存在特定的对象，例如模特。其中，获取涉及多个图像的动作基于图像中的对象在知悉平台或系统的相关意图之后进行的主动授权。

在一些实施例中，所述获取的图像的类型可以包括例如（但不限于）图片、照片、绘图、彩图、漫画等等。也就是说，本公开所述的图像可以是本领域技术人员在一般意义上理解的图像，并且本公开对图像的类型不作限制。同样地，这些类型的图像中相应地可以包括至少一个对象。为了方便描述和清晰示出的目的，下文中以人物来代表相应的对象，但这不意味着本公开所述的对象仅限于人物领域。

在步骤S220处，从源图像中提取源姿态图像。在本文中，源姿态图像可以指与源图像中的对象具有相同的关节位置、骨架结构以及姿势角度等信息的图像。一般而言，从一个图像中提取姿态图像可以包括以下步骤：使用已知的姿态估计算法来检测源图像中的人体姿态，包括识别和估计关节位置和骨架结构；一旦检测到人体姿态，就从姿态估计结果中提取关节点信息，其中关节点通常表示人体的关节位置和坐标，如头部、肩膀、手臂、腿等；使用提取到的关节点信息绘制出姿态图像。根据关节点的坐标，其中可以绘制骨骼线条或者关节的圆点等来表示姿态，从而将人体的姿态可视化为一个图像。

在一些实施例中，源姿态图像和目标姿态图像都可以从姿态图像库里面得到，亦即这些姿态图像可以是预先设定的。为此，需要构建包含一定数量姿态图像的姿态图像库，并在需要时从中取用合适的且对应的姿态图像。以此方式，可以简化获取源姿态图像的过程，并提高处理效率。

在步骤S230处，至少基于源图像、噪声图像、目标姿态图像和源姿态图像通过融合得到待处理图像。一般而言，在本文中，图像的融合是指将多幅图像按照一定的规则或算法进行合成，生成一幅完整的图像的过程。在一些实施例中，图像的融合可以包括以下步骤：针对待融合的多幅图像，可以将它们对齐在同一坐标系下；将不同图像按照一定方向进行融合，生成一幅完整的融合图像。在本文中，图像融合是指一种将多幅图像组合成单张图像的技术，它可以用于增强图像质量、弥补不同图像间的缺陷、提高视觉效果、增加图像信息量等目的。在一些实施例中，图像的融合可以简单地通过拼接方式实现，例如多幅图像通过拼接组成单张图像。可选地，图像的融合也可以通过其他方式实现，例如空间域融合和变换域融合等。

下面继续结合图5详细描述步骤S230，其中图5示意性地示出了根据本公开一些实施例的基于姿态引导的图像生成方法的流程图。

在一些实施例中，如图5所示，步骤S230可以包括：

S510，将源姿态图像和目标姿态图像沿着水平方向拼接以得到第一拼接图像；

S520，将源图像和噪声图像沿着水平方向拼接以得到第二拼接图像；

S530，至少基于第一拼接图像和第二拼接图像沿着通道方向拼接以得到待处理图像，其中第一拼接图像中的源姿态图像和目标姿态图像的空间位置分别与第二拼接图像中的源图像和噪声图像的空间位置对应。

在一些实施例中，沿着水平方向拼接图像可以直观地如图4中所示理解。在图4中的左侧，从上到下依次有四幅图像，分别是第一拼接图像（即图4中所示的“源姿态图像+目标姿态图像”）、掩码图像、第二拼接图像（即图4中所示的“源图像+噪声图像”）、加噪图像，其中掩码图像和加噪图像在下文中进一步描述。沿着水平方向拼接的可以理解为：在传统的直角坐标系中，图像具有沿x方向的维度（即宽度）和沿y方向的维度（即长度），而这些待拼接的图像应当具有相同的长度，以便在水平方向（即x方向）上进行拼接。如此，可以实现步骤S510中的第一拼接图像和S520中的第二拼接图像。同样地，在一些实施例中，也可以沿着垂直方向拼接图像，也就是说，这些待拼接的图像应当具有相同的宽度，以便在垂直方向（即y方向）上进行拼接。在又一些实施例中，也可以存在其他拼接方向，只要能将图像沿一定的空间方向拼接起来即可。

在图像处理中，通道（channel）是指对图像进行分解时得到的灰度图像。通道是由一个或多个颜色通道组成的，每个颜色通道都代表了图像中特定颜色的亮度值信息。例如，常见的三通道图像是指通过将一幅彩色图像分解成红、绿、蓝三个颜色通道，每个通道都包含了该颜色在原始图像中的亮度信息，这三个通道合起来便构成了一个完整的彩色图像。因此，在一些实施例中，在步骤S530中，例如在第一拼接图像和第二拼接图像都是RGB三通道图像的情况下，沿着通道方向拼接可以解释为：将第一拼接图像的R通道与第二拼接图像的R通道进行拼接，将第一拼接图像的G通道与第二拼接图像的G通道进行拼接，以及将第一拼接图像的B通道与第二拼接图像的B通道进行拼接。照此，可以得到沿着通道方向拼接的待处理图像，即待处理图像可以直观地理解为将第一拼接图像和第二拼接图像沿着z方向（即垂直于纸面的方向）“叠”在一起。以此方式，源图像和目标姿态图像可以“绑定”在一起，从而可以通过图像生成模型内在的特征交互来保证生成的一致性。

在图4中可以看出，第一拼接图像中的源姿态图像和目标姿态图像的空间位置分别与第二拼接图像中的源图像和噪声图像的空间位置对应，即噪声图像起到了占位和掩盖的作用，从而保证了沿着通道方向拼接的完整性和有效性。可以选取与源图像不同的图像作为噪声图像，目的是以该噪声图像为基础生成最终的目标图像。

在一些实施例中，步骤S530可以包括：获取掩码图像，所述掩码图像包括第一掩码部分和与第一掩码部分不同的第二掩码部分；基于掩码图像、第一拼接图像和第二拼接图像沿着通道方向拼接以得到待处理图像，其中掩码图像中的第一掩码部分和第二掩码部分的空间位置分别与第二拼接图像中的源图像和噪声图像的空间位置对应。在本文中，掩码图像可以看作是一种选择性地应用某种操作或过滤器的方式，只对掩码图像中的某个区域执行相应的操作。该掩码图像需要与第一拼接图像和第二拼接图像具有相同的尺寸。同时，为了能够与第一拼接图像和第二拼接图像的空间位置对应，掩码图像被分为对应的第一掩码部分和第二掩码部分。然后，可以得到沿着通道方向拼接的待处理图像，即待处理图像可以直观地理解为将掩码图像、第一拼接图像和第二拼接图像沿着z方向（即垂直于纸面的方向）“叠”在一起，其中掩码图像“夹”在第一拼接图像和第二拼接图像之间。以此方式，可以利用空间位置对应性更准确地区分第二拼接图像中的两部分图像（即拼接前的源图像和噪声图像），从而提高所生成图像的准确度。

在一些实施例中，噪声图像可以包括纯色图像。如果噪声图像只是与源图像略有不同，则虽然也可以利用图像生成模型生成目标图像，但是计算量会较大。因此，相比于噪声图像只是与源图像不同，使用简单的纯色图像作为噪声图像可以减少计算量，提升图像生成模型的计算效率。

在一些实施例中，在所述掩码图像中，第一掩码部分为纯白图像，第二掩码部分为纯黑图像；纯色图像包括纯黑图像。也就是说，掩码图像可以是单通道的。例如，如图4中所示，图4的掩码图像包括纯白图像（即第一掩码部分，其对应的RGB像素值是[255, 255,255]）和纯黑图像（即第二掩码部分，其对应的RGB像素值是[0, 0, 0]），同时噪声图像可以包括纯黑图像（RGB像素值是[0, 0, 0]）。这样，与掩码图像中的纯白图像对应的便是源姿态图像和源图像，并且与掩码图像中的纯黑图像对应的便是目标姿态图像和噪声图像，从而可以更容易地区分源图像和噪声图像，进一步降低图像生成模型的计算量，提升计算效率。

在将拼接后的待处理图像输入图像生成模型以得到去噪图像之后，可以进一步处理去噪图像以得到目标图像（即如图4中所示的去噪图像的右半部分）。在一些实施例中，这一过程可以包括：沿着水平方向分开去噪图像，以得到与第二拼接图像中的噪声图像的空间位置对应的图像部分；将该图像部分作为目标图像。也可以利用去噪图像与包括纯白图像和纯黑图像的掩码图像的空间位置对应性来沿着水平方向分开去噪图像，与纯黑图像对应的即为目标图像。可以看出，该目标图像包括源图像的特征，同时具有目标姿态，从而实现了在目标姿态下的人物视图。

在步骤S240处，将源图像输入图像生成模型的图像特征提取器以从中提取源图像综合特征，所述源图像综合特征包括纹理特征。一般而言，在本文中，纹理特征可以描述图像中局部区域的细节和结构的属性，其中纹理可以指图像中像素之间的空间关系和灰度分布的规律性和不规律性，它包括图像的色彩、样式等。如图4中所示，源图像被输入图像特征提取器以从中提取源图像综合特征。本申请的图像特征提取器不局限于传统的图像特征提取器，还包括深度学习模型。图像特征提取器可以包括例如（但不限于）RNN（RecurrentNeural Network）、CNN（ConvolutionalNeural Networks）、SIFT（Scale-InvariantFeature Transform）、SURF（Speeded UpRobust Features）、HOG（Histogram of OrientedGradients）、LBP（LocalBinary Patterns）等等。也就是说，本公开所述的图像特征提取器可以是本领域技术人员在一般意义上理解的图像特征提取器，并且本公开对图像特征提取器的类型不作限制。

下面继续结合图6A和图6B详细描述步骤S240，其中图6A示意性地示出了根据本公开一些实施例的基于姿态引导的图像生成方法的流程图，并且图6B示意性地示出了根据本公开一些实施例的基于姿态引导的图像生成方法的原理示意图。在一些实施例中，如图6A所示，步骤S240可以包括：

S610，将源图像输入所述图像特征提取器的第一特征提取器以从中提取纹理特征；

S620，将所述纹理特征输入所述图像特征提取器的第二特征提取器以从中提取语义特征；

S630，根据所述纹理特征和所述语义特征，确定所述源图像综合特征。

在步骤S610处，在一些实施例中，第一特征提取器可以是图像编码器，其可以采用CLIP（Contrastive Language-Image Pretraining）模型。CLIP模型通过对大量的图像和与之相关联的文本进行训练，学习到了一个共享的表示空间，使得图像和文本能够在该空间中相互对应，它的图像编码器可以提取图像的丰富纹理特征，同时泛化能力较强。第一特征提取器还可以采用在Imagenet数据库上训练的深度残差网络（ResidualNetwork，ResNet），以及无监督训练的DINO（Emerging Properties in Self-Supervised VisionTransformers）模型等。本公开对第一图像特征提取器的类型不作限制。

由于源图像一般包含有大量特征（如上所述），因此在一些实施例中，步骤S610可以包括：将源图像输入第一特征提取器中的图像压缩器，以得到经压缩的源图像；将经压缩的源图像输入图像特征提取器的第一特征提取器的纹理特征提取器以从中提取纹理特征。其中，图像压缩器是一种用于减小数字图像文件大小的工具或算法，其可以包括一个预训练好的自编码器模型。以此方式，可以在不降低图像质量的情况下，减少图像特征提取器在提取特征时的计算量。

在步骤S620处，语义特征可以用于描述图像中物体、场景和概念等高层次信息的属性，亦即图像内容的含义，语义特征比纹理特征更加抽象和高级。在一些实施例中，第二特征提取器可以是能够提取图像语义特征的模型，其例如可以包括卷积神经网络（Convolutional Neural Networks，CNN）、视觉Transformer模型、特征金字塔网络（FeaturePyramid Networks，FPN）、和卷积自编码器（Convolutional Autoencoders）等。本公开对第二特征提取器的类型不作限制。

在一些实施例中，步骤S620可以包括：将预定义的可学习特征输入第二特征提取器，第二特征提取器包括自注意力层、交叉注意力层、和前馈神经网络层；将纹理特征输入第二特征提取器，以得到编码特征；根据可学习特征和编码特征，确定语义特征。如图6B中所示，首先定义可学习特征（在这里是32个可学习特征），这些可学习特征表示图像的最本质的特征，并将这些可学习特征输入包含8层的第二特征提取器，第二特征提取器中的每一层包括自注意力层、交叉注意力层、和前馈神经网络层。其中，自注意力层用于捕捉输入序列中元素之间的依赖关系。它通过将输入序列划分成若干个子序列，并对每个子序列进行自注意力计算，得到不同位置之间的相关性权重；前馈神经网络层负责对每个位置的特征进行非线性变换和映射，其能够引入更多的非线性性，帮助第二特征提取器学习更复杂的特征表示。在将源图像输入第一特征提取器以从中提取纹理特征之后，将纹理特征输入交叉注意力层，以作为查询序列和键值序列，从而得到编码特征。然后，根据可学习特征和编码特征，确定语义特征。以此方式，可以使得提取的特征包含丰富的语义特征，提高语义特征的准确性和完整性。

步骤S630的示例在图4的右上部分中示出，可以看到，图像特征提取器可以包括第一特征提取器和第二特征提取器，源图像输入图像特征提取器之后可以得到源图像综合特征。之后，可以进行步骤S250。

在步骤S250处，将待处理图像和源图像综合特征输入图像生成模型的图像去噪器，以得到目标图像，所述目标图像表示源图像中的对象在目标姿态下的图像。其中，图像去噪器可以用来对图像进行去噪。在本文中，图像去噪器可以是扩散模型，在扩散模型中，去噪过程是通过迭代反卷积操作实现的。在图4中，扩散模型的架构为UNet结构，共分为四个阶段（编码器，解码器，跳跃连接，输出层），每个阶段之后进行一次下采样。跳跃连接是UNet的关键部分，它将编码器中不同层的特征图与解码器中对应层的特征图进行连接，实现低级和高级特征的融合，从而可以帮助解码器更好地定位和恢复细节信息。目标图像表示源图像中的对象在目标姿态下的图像，即相当于该对象的姿态变换成目标姿态，其示例在图3C中示出。

如图4中所示，每个阶段的模块可以包括卷积部分和注意力部分，其中注意力包括自注意力和交叉注意力。因此，在一些实施例中，步骤S250可以包括：将待处理图像和源图像综合特征输入图像生成模型的图像去噪器，以得到交叉注意力权重；使用交叉注意力权重对源图像综合特征进行加权求和，以得到关联信息；根据关联信息和待处理图像，得到所述目标图像。其中，关联信息表示源图像综合特征与待处理图像的相关程度。通过在图像去噪器中引入交叉注意力层，能够有效地捕捉不同输入序列之间的相关性，从而提取更有价值的信息。值得注意的是，在图6B中得到的语义特征输入扩散模型的交叉注意力层中。

利用根据本公开一些实施例的基于姿态引导的图像生成方法获得的图像效果在下文中结合图7A和图7B进一步说明。图7A和图7B示意性地示出了使用根据本公开一些实施例的图像处理方法的效果示意图。需要说明的是，图7A和图7B的效果示意图仅仅是示意性的和示例性的，并且不意味着对本公开方法的任何限制。

如图所示，图7A的最左侧是源图像，图7B的最左侧是源姿态图像，图7B的右侧三个是目标姿态图像，并且图7A的右侧三个是目标图像。可以看出，给定一个角色的一张角度的正面图，可以使用根据本公开一些实施例的基于姿态引导的图像生成方法生成该角色的侧面图和背面图，从而辅助角色的3D建模。因此，根据本公开一些实施例的基于姿态引导的图像生成方法能够生成特定姿态下的人物新视图，这一技术的应用潜力巨大，可以极大地改变多个行业的工作方式。首先，考虑电商广告的场景，只需拍摄一张人物穿衣的照片，就可以利用本技术合成出人物在其他姿态下的穿衣照片。这一创新不仅可以大大节省模特和摄影师的时间，降低拍摄成本，还可以提供更丰富、更多样化的视觉效果，增强消费者的购物体验，从而提高产品的销售量。此外，根据本公开一些实施例的基于姿态引导的图像生成方法的另一个有益结果是，它可以提供更高效、更灵活的解决方案，以满足各种特定需求。例如，如果需要在特定环境或特定时间下展示人物的不同姿态，只需使用一张基础照片，就可以生成各种不同的视图，无需重新拍摄或进行繁琐的后期处理。这一点对于电影制作、游戏设计、虚拟现实等领域来说尤其有价值，可以大大提高工作效率，同时提供更为逼真的视觉效果。

图8示意性地示出了根据本公开一些实施例的训练图像生成模型的方法的流程图。如图8中所示，根据本公开一些实施例的训练图像生成模型的方法可以包括步骤S810-S870：

S810，获取源图像样本、目标图像样本、目标姿态图像样本、噪声图像样本、源姿态图像样本，其中噪声图像样本不同于源图像样本；

S820，至少基于源图像样本、目标图像样本、目标姿态图像样本、噪声图像样本、和源姿态图像样本通过融合得到待处理图像样本；

S830，将源图像样本和目标图像样本通过融合得到目标图像标签；

S840，将源图像样本输入图像生成模型的图像特征提取器以从中提取源图像样本的综合特征，所述源图像样本的综合特征包括纹理特征；

S850，将待处理图像样本和源图像样本的综合特征输入图像生成模型的图像去噪器以预测去噪图像；

S860，根据目标图像标签和去噪图像计算目标损失；

S870，基于目标损失，对图像生成模型的参数进行迭代更新直至目标损失满足预设条件。

步骤S810-S850与前述步骤S210-S250及其子步骤基本相同，因此相同的操作过程和解释在这里不再赘述。需要注意的是，目标图像样本是源图像样本中的对象在目标姿态下的图像样本（例如，源图像样本的示例是图3A，并且目标图像样本的示例是图3C）。其中，目标图像标签是指在训练过程中构建的训练标签，用于指导图像生成模型的学习。

在一些实施例中，步骤S820可以包括：S820a，将源图像样本和目标图像样本沿水平方向拼接并进行加噪处理以得到第一拼接图像样本；S820b，将源姿态图像样本和目标姿态图像样本沿水平方向拼接以得到第二拼接图像样本；S820c，将源图像样本和噪声图像样本沿水平方向拼接以得到第三拼接图像样本；S820d，至少基于第一拼接图像样本、第二拼接图像样本和第三拼接图像样本通过沿通道方向的拼接处理得到待处理图像样本。其中，第一拼接图像样本是如图4中所示的加噪图像，并且加噪处理是指在训练过程中迭代地将噪声添加到图像样本的过程。

在一些实施例中，步骤S820d可以包括：获取掩码图像样本，所述掩码图像样本包括第一掩码部分和与第一掩码部分不同的第二掩码部分；基于掩码图像样本、第一拼接图像样本、第二拼接图像样本和第三拼接图像样本沿着通道方向拼接以得到待处理图像，其中第一掩码部分和第二掩码部分的空间位置分别与源图像样本和噪声图像样本的空间位置对应。这里的获取和拼接过程与前述步骤S530及其子步骤基本相同，所不同的是额外拼接了一个已经进行加噪处理的拼接图像样本。

在一些实施例中，步骤S830可以包括：将源图像样本和目标图像样本沿水平方向拼接以得到目标图像标签。其操作过程如前所述。

在步骤S860处，目标损失是指在使用图像生成模型进行训练的过程中的一个总体损失，该目标损失可以仅包括常用的均方误差损失（其便于使用梯度下降算法，从而简化计算量），也可以包括其它类型的损失。例如，可以分别获取目标图像标签和去噪图像中每一个像素的像素值，然后根据所获取的每一个像素的像素值计算均方误差。在实际的模型训练中可以根据不同的目标和不同的应用场景来平衡各项权重，因此，目标损失可以通过以下方式来确定：给每一个损失分配相应的权重，然后以所有损失的加权和作为目标损失，其中权重代表相应损失的重要程度。

在步骤S870处，在一些实施例中，在优化初期，可以采用较大的权重和迭代步长使得参数可以快速收敛到最优解的附近。随后逐渐减小权重，同时调小迭代的步长，使得参数可以在迭代的过程中不断更新，从而缓慢而准确地收敛到最优解。当达到最大迭代次数或者若干次优化后目标损失不再下降就认为可以停止了，从而可以完成对图像生成模型的训练。应理解，此处可以使用一些常见函数（如sigmoid函数）等方式进行模型迭代，也可以使用任何其他方式进行模型迭代，只要损失函数的损失值逐渐减小即可。在一个示例中，当训练数据集中所有的训练图像采样完毕，一次训练周期结束；在完成预设的若干次训练周期后，训练过程结束。本公开在此不进行穷举。此过程可以看作是一个有监督的训练过程。

在一些实施例中，可以采用无分类器引导（classifier-free guidance）来增强图像生成效果，其中无分类器引导是指不使用传统的分类器作为指导或监督信号，而是通过其他方式来引导图像生成模型的学习，从而能够在缺乏明确标签信息的情况下进行学习。此过程可以看作是一个无监督的训练过程。在一些实施例中，在训练过程中，在当前训练轮次，将源图像输入图像生成模型的图像特征提取器以从中提取源图像综合特征；将源图像综合特征按照预设概率选取源图像综合特征，并将选取的源图像综合特征设置为0；将输出的新图像用作进行下一轮次训练的新源图像。也就是说，可以对从源图像提取的源图像综合特征按照预设概率（例如，10%）进行随机失活（dropout）；当dropout源图像综合特征的时候，可以直接向图像生成模型送入一个纯零的源图像（即纯黑图像）。这样可以用于缓解或防止图像生成模型的过拟合，使图像生成模型的泛化性更强。

在一些实施例中，在训练过程中，可以冻结预训练好的第一特征提取器（即图像编码器）的权重，而只训练扩散模型和第二特征提取器的权重。替代地，在一些实施例中，在训练过程中，可以同时训练第一特征提取器、扩散模型和第二特征提取器三者的权重。在一个示例中，训练过程可以采用AdamW优化器（Adam Weight Decay Optimizer），学习速率固定为1e-4。

这样，利用根据本公开一些实施例的基于姿态引导的图像生成方法，通过至少基于获取的源图像、噪声图像、目标姿态图像、以及从源图像中提取的源姿态图像通过拼接得到待处理图像，可以将源图像和目标姿态图像直接拼接在一起输入图像生成模型中，让图像生成模型能够更容易地合成一致的图像，从而能够提高源图像和最终生成图像的一致性和还原度，使得能够增强图像生成模型的鲁棒性和泛化能力，改善所生成的图像的真实性、清晰性和自然性，提升图像生成的准确率和辨识度。

图9示意性地示出了根据本公开一些实施例的基于姿态引导的图像生成装置900的示例框图。图9中所示的确定基于姿态引导的图像生成装置900可以对应于图1中所示的终端设备110。

如图9中所示，基于姿态引导的图像生成装置900可以包括获取模块910、提取模块920、融合模块930、第一输入模块940、以及第二输入模块950。获取模块910可以被配置成获取源图像、噪声图像和目标姿态图像，其中所述噪声图像不同于所述源图像。提取模块920可以被配置成从所述源图像中提取源姿态图像。融合模块930可以被配置成至少基于所述源图像、所述噪声图像、所述目标姿态图像和所述源姿态图像通过融合得到待处理图像。第一输入模块940可以被配置成将所述源图像输入图像生成模型的图像特征提取器以从中提取源图像综合特征，所述源图像综合特征包括纹理特征。第二输入模块950可以被配置成将所述待处理图像和所述源图像综合特征输入所述图像生成模型的图像去噪器，以得到目标图像，所述目标图像表示所述源图像中的对象在目标姿态下的图像。

应注意，上述各种模块可以以软件或硬件或两者的组合来实现。多个不同模块可以在同一软件或硬件结构中实现，或者一个模块可以由多个不同的软件或硬件结构实现。

在根据本公开一些实施例的图像装置中，通过至少基于获取的源图像、噪声图像、目标姿态图像、以及从源图像中提取的源姿态图像通过拼接得到待处理图像，可以将源图像和目标姿态图像直接拼接在一起输入图像生成模型中，让图像生成模型能够更容易地合成一致的图像，从而能够提高源图像和最终生成图像的一致性和还原度，使得能够增强图像生成模型的鲁棒性和泛化能力，改善所生成的图像的真实性、清晰性和自然性，提升图像生成的准确率和辨识度。

图10示意性地示出了根据本公开一些实施例的计算设备1000的示例框图。计算设备1000可以代表用以实现本文描述的各种装置或模块和/或执行本文描述的各种方法的设备。计算设备1000可以是例如服务器、台式计算机、膝上型计算机、平板、智能电话、智能手表、可穿戴设备或任何其它合适的计算设备或计算系统，其可以包括从具有大量存储和处理资源的全资源设备到具有有限存储和/或处理资源的低资源设备的各种级别的设备。在一些实施例中，上面关于图9描述的基于姿态引导的图像生成装置900可以分别在一个或多个计算设备1000中实现。

如图10中所示，示例计算设备1000包括彼此通信耦合的处理系统1001、一个或多个计算机可读介质1002、以及一个或多个I/O接口1003。尽管未示出，但是计算设备1000还可以包括将各种组件彼此耦合的系统总线或其他数据和命令传送系统。系统总线可以包括不同总线结构的任何一个或组合，所述总线结构可以是诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。或者，还可以包括诸如控制和数据线。

处理系统1001代表使用硬件执行一个或多个操作的功能。因此，处理系统1001被图示为包括可被配置为处理器、功能块等的硬件元件1004。这可以包括在硬件中实现作为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件1004不受其形成的材料或其中采用的处理机构的限制。例如，处理器可以由（多个）半导体和/或晶体管（例如，电子集成电路（IC））组成。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读介质1002被图示为包括存储器/存储装置1005。存储器/存储装置1005表示与一个或多个计算机可读介质相关联的存储器/存储装置。存储器/存储装置1005可以包括易失性介质（诸如随机存取存储器（RAM））和/或非易失性介质（诸如只读存储器（ROM）、闪存、光盘、磁盘等）。存储器/存储装置1005可以包括固定介质（例如，RAM、ROM、固定硬盘驱动器等）以及可移动介质（例如，闪存、可移动硬盘驱动器、光盘等）。示例性地，存储器/存储装置1005可以用于存储上文实施例中提及的第一类别用户的第一音频、请求的排队列表等。计算机可读介质1002可以以下面进一步描述的各种其他方式进行配置。

一个或多个I/O（输入/输出）接口1003代表允许用户向计算设备1000键入命令和信息并且还允许使用各种输入/输出设备将信息显示给用户和/或发送给其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备（例如，鼠标）、麦克风（例如，用于语音输入）、扫描仪、触摸功能（例如，其被配置为检测物理触摸的容性或其他传感器）、相机（例如，可以采用可见或不可见的波长（诸如红外频率）将不涉及触摸的运动检测为手势）、网卡、接收机等等。输出设备的示例包括显示设备（例如，显示器或投影仪）、扬声器、打印机、触觉响应设备、网卡、发射机等。示例性地，在上文描述的实施例中，第一类别用户以及第二类别用户可以通过其各自的终端设备上的输入接口来进行输入以发起请求以及录入音频和/或视频等，并且可以通过输出接口来查看各种通知以及观看视频或聆听音频等。

计算设备1000还包括基于姿态引导的图像生成策略1006。基于姿态引导的图像生成策略1006可以作为计算程序指令存储在存储器/存储装置1005中，也可以是硬件或固件。基于姿态引导的图像生成策略1006可以连同处理系统1001等一起实现关于图9描述的基于姿态引导的图像生成装置900的各个模块的全部功能。

本文可以在软件、硬件、元件或程序模块的一般上下文中描述各种技术。一般地，这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”、“功能”等一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着这些技术可以在具有各种处理器的各种计算平台上实现。

所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备1000访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

与单纯的信号传输、载波或信号本身相反，“计算机可读存储介质”是指能够持久存储信息的介质和/或设备，和/或有形的存储装置。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息（诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据）的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘（DVD）或其他光学存储装置、硬盘、盒式磁带、磁带，磁盘存储装置或其他磁存储设备，或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。

“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备1000的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。作为示例而非限制，信号介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。

如前所述，硬件元件1004和计算机可读介质1002代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑，其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路（ASIC）、现场可编程门阵列（FPGA）、复杂可编程逻辑器件（CPLD）以及硅中的其它实现或其他硬件设备的组件。在这种上下文中，硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备，以及用于存储用于执行的指令的硬件设备，例如，先前描述的计算机可读存储介质。

前述的组合也可以用于实现本文所述的各种技术和模块。因此，可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件1004体现的一个或多个指令和/或逻辑。计算设备1000可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，例如通过使用处理系统的计算机可读存储介质和/或硬件元件1004，可以至少部分地以硬件来实现将模块实现为可由计算设备1000作为软件执行的模块。指令和/或功能可以由例如一个或多个计算设备1000和/或处理系统1001执行/可操作以实现本文所述的技术、模块和示例。

本文描述的技术可以由计算设备1000的这些各种配置来支持，并且不限于本文所描述的技术的具体示例。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机程序。例如，本公开的实施例提供一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行本公开的方法实施例中的至少一个步骤的程序代码。

在本公开的一些实施例中，提供了一种或多种计算机可读存储介质，其上存储有计算机可读指令，该计算机可读指令在被执行时实现根据本公开一些实施例的基于姿态引导的图像生成方法。根据本公开一些实施例所述的基于姿态引导的图像生成方法的各个步骤可以通过程序设计被转化为计算机可读指令，从而存储在计算机可读存储介质中。当这样的计算机可读存储介质被计算设备或计算机读取或访问时，其中的计算机可读指令被计算设备或计算机上的处理器执行以实现根据本公开一些实施例所述的方法。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点被包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序（包括根据所涉及的功能按基本同时的方式或按相反的顺序）来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，则可以用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路、具有合适的组合逻辑门电路的专用集成电路、可编程门阵列（Programmable Gate Array）、现场可编程门阵列（Field Programmable Gate Array）等。

本技术领域的普通技术人员可以理解，上述实施例方法的全部或部分步骤可以通过程序指令相关的硬件完成，所述程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括执行方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

可以理解的是，在本公开的具体实施方式中，涉及到用于图像生成和模型训练的各种数据（例如源图像、目标图像、图像特征等）。当本公开中所描述的涉及这样的数据的实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

Claims

1.一种基于姿态引导的图像生成方法，其特征在于，所述方法包括：

获取源图像、噪声图像和目标姿态图像，其中所述噪声图像不同于所述源图像；

从所述源图像中提取源姿态图像；

至少基于所述源图像、所述噪声图像、所述目标姿态图像和所述源姿态图像通过图像拼接得到待处理图像；

将所述源图像输入到图像生成模型的第一特征提取器以提取源图像纹理特征；

将所述源图像纹理特征和多个预定义的可学习特征输入到所述图像生成模型的第二特征提取器以提取源图像语义特征，第二特征提取器包括自注意力层、交叉注意力层、和前馈神经网络层；

根据所述源图像纹理特征和所述源图像语义特征，确定源图像综合特征；

将所述待处理图像和所述源图像综合特征输入所述图像生成模型的图像去噪器，以得到目标图像，所述目标图像表示所述源图像中的对象在目标姿态下的图像。

2.根据权利要求1所述的方法，其特征在于，所述至少基于所述源图像、所述噪声图像、所述目标姿态图像和所述源姿态图像通过图像拼接得到待处理图像，包括：

将所述源姿态图像和所述目标姿态图像沿着水平方向拼接以得到第一拼接图像；

将所述源图像和所述噪声图像沿着水平方向拼接以得到第二拼接图像；

至少基于所述第一拼接图像和所述第二拼接图像沿着通道方向拼接以得到所述待处理图像，其中所述第一拼接图像中的源姿态图像和目标姿态图像的空间位置分别与所述第二拼接图像中的源图像和噪声图像的空间位置对应。

3.根据权利要求2所述的方法，其特征在于，所述至少基于所述第一拼接图像和所述第二拼接图像沿着通道方向拼接以得到所述待处理图像，包括：

获取掩码图像，所述掩码图像包括第一掩码部分和与所述第一掩码部分不同的第二掩码部分；

基于所述掩码图像、所述第一拼接图像和所述第二拼接图像沿着通道方向拼接以得到所述待处理图像，其中所述掩码图像中的第一掩码部分和第二掩码部分的空间位置分别与所述第二拼接图像中的源图像和噪声图像的空间位置对应。

4.根据权利要求1所述的方法，其特征在于，所述将所述源图像输入到图像生成模型的第一特征提取器以提取源图像纹理特征，包括：

将所述源图像输入第一特征提取器中的图像压缩器，以得到经压缩的源图像；

将经压缩的源图像输入所述第一特征提取器的纹理特征提取器以从中提取源图像纹理特征。

5.根据权利要求1所述的方法，其特征在于，所述将所述待处理图像和所述源图像综合特征输入所述图像生成模型的图像去噪器，以得到目标图像，包括：

将所述待处理图像和所述源图像综合特征输入所述图像生成模型的图像去噪器，以得到交叉注意力权重；

使用所述交叉注意力权重对所述源图像综合特征进行加权求和，以得到关联信息；

根据所述关联信息和所述待处理图像，得到所述目标图像。

6.一种训练图像生成模型的方法，其特征在于，所述方法包括：

获取源图像样本、目标图像样本、目标姿态图像样本、噪声图像样本、源姿态图像样本，其中所述噪声图像样本不同于所述源图像样本；

至少基于所述源图像样本、所述目标图像样本、所述目标姿态图像样本、所述噪声图像样本和所述源姿态图像样本通过图像拼接得到待处理图像样本；

将所述源图像样本和所述目标图像样本通过融合得到目标图像标签；

将所述源图像样本输入到图像生成模型的第一特征提取器以提取源图像样本的纹理特征；

将所述纹理特征和多个预定义的可学习特征输入到所述图像生成模型的第二特征提取器以提取源图像样本的语义特征，第二特征提取器包括自注意力层、交叉注意力层、和前馈神经网络层；

根据所述源图像样本的纹理特征和语义特征，确定源图像样本的综合特征；

将所述待处理图像样本和所述源图像样本的综合特征输入所述图像生成模型的图像去噪器以预测去噪图像；

根据所述目标图像标签和所述去噪图像计算目标损失；

基于所述目标损失，对所述图像生成模型的参数进行迭代更新直至所述目标损失满足预设条件。

7.根据权利要求6所述的方法，其特征在于，所述至少基于所述源图像样本、所述目标图像样本、所述目标姿态图像样本、所述噪声图像样本和所述源姿态图像样本通过图像拼接得到待处理图像样本，包括：

将所述源图像样本和所述目标图像样本沿水平方向拼接并进行加噪处理以得到第一拼接图像样本，

将所述源姿态图像样本和所述目标姿态图像样本沿水平方向拼接以得到第二拼接图像样本，将所述源图像样本和所述噪声图像样本沿水平方向拼接以得到第三拼接图像样本，

至少基于所述第一拼接图像样本、所述第二拼接图像样本和所述第三拼接图像样本通过沿通道方向的拼接处理得到待处理图像样本；

并且，所述将所述源图像样本和所述目标图像样本通过融合得到目标图像标签，包括：

将所述源图像样本和所述目标图像样本沿水平方向拼接以得到目标图像标签。

8.根据权利要求7所述的方法，其特征在于，所述至少基于所述第一拼接图像样本、所述第二拼接图像样本和所述第三拼接图像样本通过沿通道方向的拼接处理得到待处理图像样本，包括：

获取掩码图像样本，所述掩码图像样本包括第一掩码部分和与所述第一掩码部分不同的第二掩码部分；

基于所述掩码图像样本、所述第一拼接图像样本、所述第二拼接图像样本和所述第三拼接图像样本沿着通道方向拼接以得到所述待处理图像，其中所述第一掩码部分和所述第二掩码部分的空间位置分别与所述源图像样本和所述噪声图像样本的空间位置对应。

9.一种基于姿态引导的图像生成装置，其特征在于，所述装置包括：

获取模块，其被配置成获取源图像、噪声图像和目标姿态图像，其中所述噪声图像不同于所述源图像；

提取模块，其被配置成从所述源图像中提取源姿态图像；

融合模块，其被配置成至少基于所述源图像、所述噪声图像、所述目标姿态图像和所述源姿态图像通过图像拼接得到待处理图像；

第一输入模块，其被配置成将所述源图像输入到图像生成模型的第一特征提取器以提取源图像纹理特征，将所述源图像纹理特征和多个预定义的可学习特征输入到所述图像生成模型的第二特征提取器以提取源图像语义特征，以及根据所述源图像纹理特征和所述源图像语义特征，确定源图像综合特征，其中第二特征提取器包括自注意力层、交叉注意力层、和前馈神经网络层；

第二输入模块，其被配置成将所述待处理图像和所述源图像综合特征输入所述图像生成模型的图像去噪器，以得到目标图像，所述目标图像表示所述源图像中的对象在目标姿态下的图像。

10.一种计算设备，其特征在于，所述计算设备包括：

存储器和处理器，

其中所述存储器中存储有计算机程序，所述计算机程序在被所述处理器执行时促使所述处理器执行权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令在被执行时实现权利要求1-8中任一项所述的方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。