CN116959109A

CN116959109A - 人体姿态图像的生成方法、装置、设备和存储介质

Info

Publication number: CN116959109A
Application number: CN202310910039.6A
Authority: CN
Inventors: 陈豪
Original assignee: Ant Blockchain Technology Shanghai Co Ltd
Current assignee: Ant Blockchain Technology Shanghai Co Ltd
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-10-27

Abstract

本申请一个或多个实施例提供一种人体姿态图像的生成方法、装置、设备和存储介质，所述方法包括：获取与人体姿态样本对应的三维姿态参数，并将所述三维姿态参数输入第一生成模型，以使所述第一生成模型学习所述三维姿态参数的数据分布，并生成符合所述数据分布的三维姿态参数；基于所述第一生成模型生成的三维姿态参数生成三维姿态图形，并将所述三维姿态图形投影至预设的二维平面，以将所述三维姿态图形转化为二维姿态图像；获取与待生成的人体姿态图像对应的描述文本，并将所述二维姿态图像和所述描述文本输入第二生成模型，以使所述第二生成模型基于所述描述文本，生成与所述二维姿态图像匹配的人体姿态图像。

Description

人体姿态图像的生成方法、装置、设备和存储介质

技术领域

本申请一个或多个实施例涉及计算机应用技术领域，尤其涉及一种人体姿态图像的生成方法、装置、设备和存储介质。

背景技术

现如今，人体二维姿态识别技术的应用越来越广泛，可以为人体动作分析、人机交互、虚拟现实、安防等领域提供技术支持和解决方案。人体二维姿态识别技术是指一种通过计算机视觉技术和机器学习算法，对人体在图像或视频中的姿态进行识别和估计的技术。具体地，可以先通过相机、摄像机等摄像设备拍摄包含人体的图像或视频，再基于机器学习算法对所拍摄的图像或视频帧图像中的人体姿态进行判定，以确定所拍摄的图像或视频帧图像中的人体姿态是否满足一定的要求或具有一定的规律，并据此执行后续操作；例如，在安防领域应用人体二维姿态识别技术时，假设为某个电子锁设置的解锁条件是检测到某个特殊的人体姿态，则在通过与该电子锁配套的摄像设备拍摄得到包含人体的图像后，如果基于机器学习算法判定该图像中的人体姿态为该特殊的人体姿态，则可以对该电子锁进行解锁。

对于人体二维姿态识别技术中的机器学习算法而言，通常需要构建一个用于对图像中包含的人体姿态进行分类的机器学习模型，以使用该机器学习模型来对图像或视频帧图像中的人体姿态进行判定。由于该机器学习模型用于分类，通常需要基于大量有标签的样本对该机器学习模型进行有监督训练；其中，样本可以是包含人体的图像，而标签则可以是为图像包含的人体标注的二维的人体姿态。这就需要大量配对的人体二维姿态和包含人体的图像，对于配对的一个人体二维姿态和一张包含人体的图像而言，可以将这个人体二维姿态作为这张包含人体的图像的标签。在这种情况下，如何获得大量配对的人体二维姿态和包含人体的图像，也就成为了亟待解决的问题。

发明内容

本申请一个或多个实施例提供技术方案如下：

本申请提供一种人体姿态图像的生成方法，所述方法包括：

获取与人体姿态样本对应的三维姿态参数，并将所述三维姿态参数输入第一生成模型，以使所述第一生成模型学习所述三维姿态参数的数据分布，并生成符合所述数据分布的三维姿态参数；

基于所述第一生成模型生成的三维姿态参数生成三维姿态图形，并将所述三维姿态图形投影至预设的二维平面，以将所述三维姿态图形转化为二维姿态图像；

获取与待生成的人体姿态图像对应的描述文本，并将所述二维姿态图像和所述描述文本输入第二生成模型，以使所述第二生成模型基于所述描述文本，生成与所述二维姿态图像匹配的人体姿态图像。

本申请还提供一种人体姿态图像的生成装置，所述装置包括：

第一生成模块，获取与人体姿态样本对应的三维姿态参数，并将所述三维姿态参数输入第一生成模型，以使所述第一生成模型学习所述三维姿态参数的数据分布，并生成符合所述数据分布的三维姿态参数；

变换模块，基于所述第一生成模型生成的三维姿态参数生成三维姿态图形，并将所述三维姿态图形投影至预设的二维平面，以将所述三维姿态图形转化为二维姿态图像；

第二生成模块，获取与待生成的人体姿态图像对应的描述文本，并将所述二维姿态图像和所述描述文本输入第二生成模型，以使所述第二生成模型基于所述描述文本，生成与所述二维姿态图像匹配的人体姿态图像。

本申请还提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述任一项所述方法的步骤。

在上述技术方案中，可以先获取与若干人体姿态对应的原始三维姿态参数，再由第一生成模型在原始三维姿态参数的基础上，生成与多个人体姿态对应的新的三维姿态参数，然后可以通过基于新的三维姿态参数生成三维姿态图形，并将该三维姿态图形投影至预设的二维平面对新的三维姿态参数进行投影处理，将其变换为与多个人体姿态对应的二维姿态图像，最后可以将与各个人体姿态对应的二维姿态图像和预设的描述文本作为条件，由第二生成模型基于该描述文本，生成与各个人体姿态下的二维姿态图像匹配的人体姿态图像。由此，即可得到大量配对的与人体姿态对应的二维姿态图像和人体姿态图像。

采用上述方式，可以自动地构建配对的与人体姿态对应的二维姿态图像和人体姿态图像，而不再需要进行人工标注，因此可以节省人力成本和时间成本。并且，所构建的配对的二维姿态图像和人体姿态图像的数据量大，多样性也可以得到保证。

附图说明

下面将对示例性实施例的描述中所需要使用的附图进行说明，其中：

图1是本申请一示例性实施例示出的一种人体姿态图像的生成系统的架构示意图；

图2是本申请一示例性实施例示出的一种人体姿态图像的生成方法的流程图；

图3是本申请一示例性实施例示出的一种人体骨架的示意图；

图4是本申请一示例性实施例示出的另一种人体骨架的示意图；

图5是本申请一示例性实施例示出的一种二维姿态图像和人体姿态图像的示意图；

图6是本申请一示例性实施例示出的一种设备的结构示意图；

图7是本申请一示例性实施例示出的一种人体姿态图像的生成装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或者相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请一个或多个实施例相一致的所有实施方式。相反，它们仅是与本申请一个或多个实施例的一些方面相一致的例子。

需要说明的是，在其他实施例中并不一定按照本申请示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本申请所描述的更多或者更少。此外，本申请中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本申请中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

在实际的应用中，为了对用于对图像中包含的人体姿态进行分类的机器学习模型进行有监督训练，就需要大量配对的人体二维姿态和包含人体的图像。对于配对的一个人体二维姿态和一张包含人体的图像而言，可以将这张包含人体的图像作为样本，并将这个人体二维姿态作为这张包含人体的图像的标签。

在传统的获取大量配对的人体二维姿态和包含人体的图像的方式中，通常需要先搜寻大量包含人体的图像，这些图像中的人体具有不同的人体姿态，然后需要由标注人员手动地为这些图像中的每张图像标注人体二维姿态。

由此可见，在相关技术中，在获取大量配对的人体二维姿态和包含人体的图像时，需要耗费大量的人力成本和时间成本。

本申请一个或多个实施例提供的技术方案提供了一种用于人体姿态图像的生成的技术方案，以对配对的人体二维姿态和包含人体的图像的获取方式进行优化，避免大量的人力成本和时间成本的耗费。

在上述技术方案中，可以先获取与人体姿态样本对应的原始三维姿态参数，再由第一生成模型在原始三维姿态参数的基础上，生成与各个人体姿态对应的新的三维姿态参数，然后可以基于新的三维姿态参数生成三维姿态图形，并将该三维姿态图形投影至二维平面，以将该三维姿态图形转化为与各个人体姿态对应的二维姿态图像，最后可以由第二生成模型将与各个人体姿态对应的二维姿态图像，以及与待生成的人体姿态图像对应的描述文本作为条件，基于该描述文本，生成与各个人体姿态下的二维姿态图像匹配的人体姿态图像。由此，即可得到大量配对的与人体姿态对应的二维姿态图像和人体姿态图像。

在具体实现时，首先可以获取与各个人体姿态样本对应的三维姿态参数。后续，可以将与各个人体姿态样本对应的三维姿态参数输入如前所述的第一生成模型，由该第一生成模型通过学习这些三维姿态参数的数据分布等知识，生成与这些三维姿态参数相似的、具有一定创造性的新的三维姿态参数。具体地，该第一生成模型可以学习这些三维姿态参数的数据分布，并生成符合该数据分布的新的三维姿态参数。

需要说明的是，由上述第一生成模型生成的三维姿态参数，也是与各个人体姿态对应的三维姿态参数。

在由上述第一生成模型生成了三维姿态参数的情况下，可以将由该第一生成模型生成的三维姿态参数投影至预设的二维平面，以将所述三维姿态参数变换为二维姿态图像。其中，所述二维平面相对于所述三维姿态参数的位置和角度等相关信息，可以由用户根据实际的需求进行设置，也可以是系统默认的缺省值，本申请对此不作限制。

如前所述，由上述第一生成模型生成的三维姿态参数，可以是与各个人体姿态对应的三维姿态参数。相应地，对于这些人体姿态中的任意一个人体姿态而言，可以将与这个人体姿态对应的三维姿态参数投影至上述二维平面，以将与这个人体姿态对应的三维姿态参数变换为与这个人体姿态对应的二维姿态图像。

进一步地，还可以获取与待生成的人体姿态图像对应的描述文本，并在得到了上述二维姿态图像的情况下，将各个二维姿态图像和各个描述文本输入如前所述的第二生成模型，由该第二生成模型基于各个描述文本，生成与各个二维姿态图像匹配的人体姿态图像。具体地，可以将一个二维姿态图像和一个描述文本输入该第二生成模型，由该第二生成模型基于这个描述文本，生成与这个二维姿态图像匹配的人体姿态图像。其中，与一个二维姿态图像匹配的一个人体姿态图像包含的人体所处的人体姿态，应当是与这个二维姿态图像对应的人体姿态，这样即可认为这个人体姿态图像与这个二维姿态图像匹配。

采用上述方式，可以自动地构建配对的与人体姿态对应的二维姿态图像和人体姿态图像，而不再需要进行人工标注，从而可以节省人力成本和时间成本。并且，所构建的配对的二维姿态图像和人体姿态图像的数据量大，多样性也可以得到保证。

下面对本申请一个或多个实施例提供的用于人体姿态图像的生成的技术方案进行描述。

请参考图1，图1是本申请一示例性实施例示出的一种人体姿态图像的生成系统的架构示意图。

如图1所示，上述人体姿态图像的生成系统可以包括两个生成模型，分别称为第一生成模型和第二生成模型。其中：

上述第一生成模型可以用于生成一些与输入数据相似的、具有一定创造性的新数据。以文本生成模型为例，可以将一个给定的文本作为文本生成模型的输入，并通过学习语言规律、上下文关系等知识，生成新的文本，这些生成的文本可能是文章、评论、诗歌、故事甚至是对话等。同理，对于图像生成模型而言，图像生成模型的输入可以是一些噪声数据，而输出则可以是逼真的图像；对于声音生成模型，声音生成模型的输入可以是采样率为16kHz的信号，输出可以是人类可以听到的语音。因此，由不同类型的生成模型产生的输出是不同的，但它们都在输入数据的基础上，生成了一些具有一定创造性的新数据。该第一生成模型具体可以是概率生成模型。概率生成模型通过用于学习数据分布的概率模型来生成新的样本，它可以对输入数据中存在的潜在模式和规律建模，从而生成与输入数据相似的新数据。

上述第二生成模型可以是条件生成模型。条件生成模型是一类深度学习模型，它可以在给定一些额外条件的情况下生成数据。这些条件通常是输入到条件生成模型中的向量或张量，可以包括图像、文本、标签、音频等信息。根据不同的条件类型，条件生成模型可以有以下几种示例：图像到图像模型，用于接收输入图像，并通过修改马尔可夫链上的One-step Transistion Probability逐步生成对应的输出图像，例如：可以将黑白图像转换为彩色图像、将低分辨率图像转换为高分辨率图像等；文本到图像模型，用于接收输入的文本描述，并生成对应的图像，例如：可以通过文本描述生成场景图像、人物头像等；图像到文本模型，用于接收输入的图像，并生成对应的文本描述，例如：可以通过图像生成相应的标签、描述等。该第二生成模型具体可以是文本生成图像模型(即文本到图像模型)。

首先，可以将预先获取到的与人体姿态样本对应的三维姿态参数输入上述第一生成模型，由该第一生成模型通过学习这些三维姿态数据的数据分布等知识，生成与这些三维姿态参数相似的、具有一定创造性的新的三维姿态参数。这样，可以扩大与人体姿态对应的三维姿态参数的数据量，并增加这些三维姿态参数的多样性。

然后，可以基于由上述第一生成模型生成的三维姿态参数生成三维姿态图形，并将这些三维姿态图形通过投影转化为二维姿态图像，这些二维姿态图像即为与人体姿态对应的二维姿态图像。此外，可以基于预先获取到的与人体姿态样本对应的三维姿态参数生成三维姿态图形，并将这些三维姿态图形也通过投影转化为二维姿态图像，本申请对此不作限制。由于基于这些三维姿态参数生成的三维姿态图形的数据量大且具有多样性，由这些三维姿态图形转化得到的二维姿态图像的数据量也得以扩大，且多样性也得以增加。

最后，可以将上述二维姿态图像和描述文本作为条件，输入上述第二生成模型，由该第二生成模型基于该描述文本生成图像，并且所生成的图像与这些二维姿态图像匹配(一张图像可以与一个二维姿态图像匹配)。在这种情况下，所生成的图像可以称为人体姿态图像，每张图像包含的人体所处的人体姿势取决于与这张图像匹配的二维姿态图像。这样，就得到了数据量大且具有多样性的配对的二维姿态图像和人体姿态图像。

请结合图1，参考图2，图2是本申请一示例性实施例示出的一种人体姿态图像的生成方法的流程图。

在本实施例中，上述人体姿态图像的生成方法可以应用于服务器上。其中，该服务器可以是包含一台独立的物理主机的服务器，也可以是由多台互相独立的物理主机构成的服务器集群；或者，该服务器可以是由主机集群承载的虚拟服务器、云服务器等。

或者，上述人体姿态图像的生成方法可以应用于台式计算机、笔记本电脑、掌上电脑(PDAs，Personal Digital Assistants)、平板设备等，具有一定的计算能力的电子设备上。

上述人体姿态图像的生成方法可以包括以下步骤：

步骤202：获取与人体姿态样本对应的三维姿态参数，并将所述三维姿态参数输入第一生成模型，以使所述第一生成模型学习所述三维姿态参数的数据分布，并生成符合所述数据分布的三维姿态参数。

在本实施例中，首先可以将大量人体姿态作为人体姿态样本，并获取与这些人体姿态样本中的各个人体姿态样本对应的三维姿态参数。其中，这些人体姿态样本可以是通过人体动态捕捉得到的真实的人体姿态，也可以是在模拟的条件下随机生成的人体姿态，本申请对此不作限制。后续，可以将与各个人体姿态样本对应的三维姿态参数输入如前所述的第一生成模型，由该第一生成模型通过学习这些三维姿态参数的数据分布等知识，生成与这些三维姿态参数相似的、具有一定创造性的新的三维姿态参数。具体地，该第一生成模型可以学习这些三维姿态参数的数据分布，并生成符合该数据分布的新的三维姿态参数。

需要说明的是，由上述第一生成模型生成的三维姿态参数，也是与各个人体姿态对应的三维姿态参数。其中，这些人体姿态与上述人体姿态样本可能是不同的，也可能是相同的。

在一些实施例中，上述第一生成模型可以包括VAE(Variational Auto-Encoder，变分自编码器)。VAE是一种基于变分推断(Variational Inference)的概率模型(Probabilistic Model)，它属于生成模型(当然也是无监督模型)，可以用于生成与输入数据相似的、具有一定创造性的新数据。VAE由两个部分组成，即编码器和解码器，其原理可以简单地概括为“编码-解码-重构”。具体地，编码器将高维数据中的每个特征提取出来，并将其映射到一个低维空间(通常称为潜在空间)中，从而实现数据的降维。与传统的降维方法不同的是，VAE在降维的过程中考虑了随机噪声的影响，使得生成的低维向量(通常称为潜在向量)更加分散。同时，编码器输出的低维向量并不是完全确定的，而是服从预设的数据分布(例如：正态分布或者多峰分布)的，这为后面的解码器提供了更加灵活的随机性。解码器会从低维向量中随机采样出一个新的向量，并将其映射回原始的高维空间中，从而实现对原始数据的重构。在解码的过程中，VAE同样考虑了随机噪声的影响，并以一定的概率避免生成固定的、重复的图像。

如果上述第一生成模型为VAE，则在将上述三维姿态参数输入上述第一生成模型，以使该第一生成模型学习所述三维姿态参数的数据分布，并生成符合该数据分布的三维姿态参数时，具体可以将所述三维姿态参数输入该VAE，以使该VAE将所述三维姿态数据映射到其中的潜在向量服从预设的先验分布的潜在空间，并计算在将所述三维姿态数据作为条件时所述潜在向量的条件分布，作为所述潜在向量的后验分布，以及基于该后验分布生成新的三维姿态参数。

在一些实施例中，上述潜在空间中的数据可以服从正态分布。具体地，该潜在空间中每个维度的数据都可以服从正态分布。

具体地，在上述VAE中，首先可以将预设的数据分布定义为先验分布。其中，先验分布是关于潜在空间中的潜在变量的先验知识或假设，它描述了潜在变量在未观测到数据(即输入VAE的数据)时的分布情况。VAE中的编码器可以将输入数据映射到潜在空间，得到潜在变量的后验分布的参数。其中，后验分布是潜在变量在给定的输入数据下的条件分布，它描述了潜在变量在给定的输入数据下的不确定性，通常也被建模成预设的数据分布。例如，当该先验分布为正态分布时，该后验分布的参数可以包括均值和方差；潜在向量的均值表示了在潜在空间中相应维度上的位置信息，反映了输入数据相对于该维度的特征的表达，而方差则反映了该维度上的形状信息，即输入数据在该特征上的变化程度。然后，可以基于重参数化技巧(Reparameterization Trick)，对潜在变量进行采样，具体可以从该先验分布中采样一个随机向量，并与该参数进行线性变换，得到采样的潜在向量。再然后，可以利用采样得到的潜在变量，计算其后验分布。VAE中的解码器可以用于计算后验分布。根据贝叶斯定理，后验分布正比于先验分布与似然函数的乘积。其中，似然函数可以认为是解码器重构数据的能力，即VAE中的解码器将潜在变量映射回原始数据空间的过程。VAE的目标是使后验分布尽可能接近真实的后验分布，通常采用变分推断的方式，通过最小化后验分布和真实的后验分布的KL散度(Kullback-Leibler Divergence)，来使后验分布逼近真实的后验分布。

在一些实施例中，上述预设的数据分布可以是正态分布。

也即，在上述VAE中可以假设潜在变量的先验分布是正态分布。通常，在VAE中使用标准正态分布N(0,1)作为先验分布。在这种情况下，VAE的编码器可以将输入数据转化为均值向量μ和标准差向量σ，并从N(0,1)中随机采样一个潜在变量ε，通过下式进行重参数化：z＝μ+σ⊙ε，其中⊙表示向量的逐元素相乘运算。重参数化技巧的目的是使模型能够进行反向传播和优化，同时还能够保持潜在变量z能够被解释为从给定分布中随机采样得到的结果。相应地，VAE的解码器可以基于潜在向量z，生成与输入数据相似的新数据。

需要说明的是，通过控制上述第一生成模型中采样的分布，能够保证与由该第一生成模型生成的三维姿态参数对应的人体姿态都是符合自然规律的、正常的人体姿态，而不会出现诸如颈部旋转270度的异常的人体姿态。

在一些实施例中，为了使上述VAE能够基于输入的三维姿态数据生成新的三维姿态数据，可以将已有的三维姿态数据作为训练样本，对VAE进行训练。

具体地，上述VAE的训练过程主要包括两个关键步骤：编码器的训练和解码器的训练。编码器的训练过程包括：三维姿态数据经过编码器网络，得到潜在变量的分布参数；使用重参数化技巧，通过从一个固定的分布(通常是标准正态分布)中采样一个噪声变量，并使用潜在变量的分布参数对这个噪声变量进行变换和缩放，生成符合后验分布的具体潜在向量；将生成的潜在向量作为输入，通过解码器网络进行重构，得到重构的三维姿态数据；计算重构损失(例如均方误差损失)，衡量重构的三维姿态数据与原始的三维姿态数据之间的差异。解码器的训练过程包括：通过采样一个随机的潜在向量，并将其输入解码器网络，生成新的三维姿态数据；计算生成损失，衡量生成的三维姿态数据与原始的三维姿态数据之间的差异。在这种情况下，可以综合考虑重构损失和生成损失，通过最小化损失函数来优化整个模型；其中，损失函数通常由重构损失和生成损失的加权和组成，加权系数可以用来平衡两者的重要性。此外，为了约束潜在变量的分布接近给定的先验分布，还会引入一个正则化项(例如：KL散度)，衡量后验分布与先验分布之间的差异，并加入到总体损失函数中。重复执行以上步骤，不断更新编码器和解码器的模型参数，以逐步改进模型的性能，使损失达到最小。最终，训练得到的VAE即可用于生成新的三维姿态数据。

在一些实施例中，对于任意一个人体姿态而言，与这个人体姿态对应的三维姿态参数，可以包括这个人体姿势下与预设的若干人体关键点对应的角度信息。其中，人体关键点的名称、位置、个数等都可以由用户根据实际的需求进行设置，也可以是系统默认的缺省值，本申请对此不作限制。

请参考图3，图3是本申请一示例性实施例示出的一种人体关键点的示意图。

如图3所示，在人体上一共可以有20个人体关键点。对于任意一个人体关键点而言，与该人体关键点对应的角度信息，可以是该人体关键点两侧的连线之间的夹角。例如，表示右小腿的人体关键点两侧的连线，分别为表示右大腿的连线(即表示右大腿的人体关键点与表示右小腿的人体关键点之间的连线)、表示右小腿的连线(即表示右小腿的人体关键点与表示右脚的人体关键点之间的连线)，与表示右小腿的人体关键点对应的角度信息就可以是表示右大腿的连线与表示右小腿的连线之间的夹角。因此，通过改变与不同的人体关键点对应的角度信息，就可以得到不同的人体姿势。

请参考图4，图4是本申请一示例性实施例示出的另一种人体关键点的示意图。

如图4所示，这个人体姿势是通过改变与表示右小臂的人体关键点对应的角度信息，以及与表示右小腿的人体关键点对应的角度信息得到的。

步骤204：基于所述第一生成模型生成的三维姿态参数生成三维姿态图形，并将所述三维姿态图形投影至预设的二维平面，以将所述三维姿态图形转化为二维姿态图像。

在本实施例中，在由上述第一生成模型生成了三维姿态参数的情况下，可以基于该第一生成模型生成的三维姿态参数生成三维空间中的三维姿态图形，并将所生成的三维姿态图形投影至预设的二维平面，以将所述三维姿态图形转化为二维姿态图像。其中，所述二维平面相对于所述三维姿态参数的位置和角度等相关信息，可以由用户根据实际的需求进行设置，也可以是系统默认的缺省值，本申请对此不作限制。

如前所述，由上述第一生成模型生成的三维姿态参数，可以是与各个人体姿态对应的三维姿态参数。相应地，对于这些人体姿态中的任意一个人体姿态而言，可以基于与这个人体姿态对应的三维姿态参数在三维空间中生成三维姿态图形，并将该三维姿态图形投影至上述二维平面，以将与这个人体姿态对应的三维姿态参数最终转化为与这个人体姿态对应的二维姿态图像。

在一些实施例中，如前所述，与一个人体姿态对应的三维姿态参数可以包括这个人体姿态下与预设的若干人体关键点对应的角度信息。在这种情况下，在基于所述第一生成模型生成的三维姿态参数生成三维姿态图形，并将所述三维姿态图形投影至预设的二维平面，以将所述三维姿态图形转化为二维姿态图像时，具体可以先根据由该第一生成模型生成的与各个人体姿态对应的三维姿态参数中与这若干人体关键点对应的角度信息，对这若干人体关键点进行连接，得到与各个人体姿态对应的人体三维模型。对于这些人体姿态中的任意一个人体姿态而言，可以根据与这个人体姿态对应的三维姿态参数中与这若干人体关键点对应的角度信息，对这若干人体关键点中在人体上的位置相邻的人体关键点进行连接，得到与这个人体姿态对应的人体三维模型。

继续以如图3所示的人体关键点为例，假设由上述第一生成模型生成的与某个人体姿态对应的三维姿态参数，包含与表示右小腿的人体关键点对应的角度信息，并且该角度信息的数值为45度，则由于在人体上的位置与表示右小腿的人体关键点的位置相邻的两个人体关键点，分别为表示右大腿的人体关键点、表示右脚的人体关键点，就可以将表示右小腿的人体关键点与表示右大腿的人体关键点进行连接，并将表示右小腿的人体关键点与表示右脚的人体关键点进行连接，并且连接得到的两条连线之间的夹角为45度。

也即，上述人体三维模型为以在人体上的位置相邻的人体关键点之间的连线，来表示对应的人体部位(例如：以表示右大腿的人体关键点与表示右小腿的人体关键点之间的连线，来表示右大腿)的三维模型。

需要说明的是，以上示出的生成三维姿态图像的方式仅为示例性的。在实际应用中，如果三维姿态参数是与预设的若干人体关键点对应的角度信息以外的其它形式的参数时，也可以采用其它的方式来生成三维姿态图像；例如，可以将三维姿态数据作为建模参数，输入至建模工具中进行三维建模。在本说明书中不再进行一一列举。

后续，可以将上述人体三维模型投影至上述二维平面，并获取所述二维平面中与所述人体三维模型对应的二维投影图像。此时，二维投影图像即为二维姿态图像。由于一个人体三维模型对应于一个人体姿态，通过将这个人体三维模型投影至所述二维平面得到的二维姿态图像也就对应于这个人体姿态；又由于所述人体三维模型是以在人体上的位置相邻的人体关键点之间的连线，来表示对应的人体部位的三维模型，而所述二维姿态图像是所述人体三维模型在所述二维平面中的二维投影图像，所述二维姿态图像中就包含了人体关键点的投影，并且根据所述二维姿态图像可以确定人体关键点之间的相对位置关系。其中，相对位置关系可以包括相对方向和距离等参数。

在一些实施例中，在将上述人体三维模型投影至上述二维平面，并获取所述二维平面中与所述人体三维模型对应的二维投影图像时，对于与任意一个人体姿态对应的人体三维模型而言，具体可以通过在与这个人体三维模型对应的三维空间中的预设位置上，模拟出的拍摄设备，对这个人体三维模型进行模拟拍摄。例如，可以通过在这个人体三维模型的正前方、斜上方45度角等位置上，模拟出的拍摄设备，对这个人体三维模型进行拍摄。由此，即可将这个人体三维模型投影至各个位置上的拍摄设备的成像平面。此时，可以获取由各个位置上的拍摄设备拍摄得到的图像，也就是这些拍摄设备的成像平面中的二维投影图像；二维投影图像即为二维姿态图像。

通过对与人体姿态对应的三维姿态参数进行投影处理，来得到与人体姿态对应的二维姿态图像，可以保证所得到的二维姿态图像的多样性和合理性。此外，通过设置不同的虚拟机位来拍摄得到与人体姿态对应的二维姿态图像，可以进一步地扩大二维姿态图像的数据量，并增加二维姿态图像的多样性。

步骤206：获取与待生成的人体姿态图像对应的描述文本，并将所述二维姿态图像和所述描述文本输入第二生成模型，以使所述第二生成模型基于所述描述文本，生成与所述二维姿态图像匹配的人体姿态图像。

在本实施例中，可以获取与待生成的人体姿态图像对应的描述文本，并在得到了上述二维姿态图像的情况下，将各个二维姿态图像和各个描述文本输入如前所述的第二生成模型，由该第二生成模型基于各个描述文本，生成与各个二维姿态图像匹配的人体姿态图像。具体地，可以将一个二维姿态图像和一个描述文本输入该第二生成模型，由该第二生成模型基于这个描述文本，生成与这个二维姿态图像匹配的人体姿态图像。其中，与一个二维姿态图像匹配的一个人体姿态图像包含的人体所处的人体姿态，应当是与这个二维姿态图像对应的人体姿态，这样即可认为这个人体姿态图像与这个二维姿态图像匹配。

在一些实施例中，如前所述，与一个人体姿态对应的三维姿态参数可以包括这个人体姿态下与预设的若干人体关键点对应的角度信息。在这种情况下，在将上述二维姿态图像和上述描述文本输入上述第二生成模型，以使该第二生成模型基于所述描述文本，生成与所述二维姿态图像匹配的人体姿态图像时，对于任意一个二维姿态图像和任意一个描述文本而言，具体可以将这个二维姿态图像和这个描述文本输入该第二生成模型，由该第二生成模型基于这个描述文本，生成包含的人体上的人体关键点之间的相对位置关系，与这个二维姿态图像包含的人体关键点之间的相对位置关系相同的人体姿态图像。由此，即可保证由该第二生成模型生成的人体姿态图像与所述二维姿态图像匹配。以与某个人体姿态对应的二维姿态图像为例，由该第二生成模型生成的与这个二维姿态图像匹配的人体姿态图像，其包含的人体上的人体关键点之间的相对位置关系，与这个二维姿态图像包含的人体关键点之间的相对位置关系相同。

在一些实施例中，上述描述文本可以包含用于描述待生成的人体姿态图像中的人体的属性信息的文本。在这种情况下，上述第二生成模型可以根据所述描述文本中的人体的属性信息，生成包含由该人体的属性信息定义的人体的人体姿态图像。

此外，上述描述文本还可以包含用于描述待生成的人体姿态图像中与人体对应的背景的属性信息的文本。在这种情况下，上述第二生成模型可以根据所述描述文本中的人体的属性信息和背景的属性信息，生成包含由该人体的属性信息定义的人体，以及由该背景的属性信息定义的背景的人体姿态图像。

请参考图5，图5是本申请一示例性实施例示出的一种二维姿态图像和人体姿态图像的示意图。

如图5所示，上述二维姿态图像可以如左边的图像所示。上述描述文本可以是“在月球上的一名宇航员”。在将该二维姿态图像和该描述文本输入上述第二生成模型后，由该第二生成模型基于该描述文本生成的与该二维姿态图像匹配的人体姿态图像，可以如图5中右边的图像所示。

在一些实施例中，上述第二生成模型可以是基于Control Net构建的扩散模型(Diffusion Models)。其中，扩散模型具体可以是Stable Diffusion模型，可以作为文本生成图像模型，用于基于描述文本生成相应的图像；Control Net是一种神经网络结构，可以通过添加额外的条件来控制扩散模型，例如：可以以人体姿态引导扩散模型生成图像。

上述基于Control Net构建的扩散模型可以是在扩散模型的基础上增加了一个Control Net的结构。具体地，可以将该扩散模型复制一份，用于构建可训练的部分(即该Control Net)，而该扩散模型则作为不可训练的部分，保留原始的模型参数；可以将描述文本单独输入该扩散模型，并将额外的控制条件和该描述文本输入该Control Net，该扩散模型的输出和该Control Net的输出经过融合得到的结果，即可作为该基于Control Net构建的扩散模型的输出。

在一些实施例中，为了使上述基于Control Net构建的扩散模型能够将输入的二维姿态图像作为额外条件，基于输入的描述文本生成与该二维姿态图像匹配的人体姿态图像，可以将已有的描述文本作为训练样本，并将与一个描述文本对应的二维姿态图像，作为这个描述文本的标签，对基于Control Net构建的扩散模型进行训练。

具体地，对于上述基于Control Net构建的扩散模型而言，可以分别为ControlNet和扩散模型设置损失函数。Control Net的损失函数用于衡量基于Control Net构建的扩散模型生成的图像包含的人体的人体二维姿态，与作为标签的二维姿态图像表示的人体二维姿态之间的差异。扩散模型的损失函数用于衡量基于Control Net构建的扩散模型生成的图像的图像内容，与作为训练样本的描述文本描述的图像内容之间的差异。在这种情况下，可以综合考虑Control Net的损失函数和扩散模型的损失函数，通过最小化总损失函数来优化整个模型；其中，总损失函数通常由Control Net的损失函数和扩散模型的损失函数的加权和组成，加权系数可以用来平衡两者的重要性。在训练的过程中，不断更新该基于Control Net构建的扩散模型的模型参数(通常仅更新Control Net的模型参数)，以逐步改进模型的性能，使损失达到最小。最终，训练得到的基于Control Net构建的扩散模型即可用于基于描述文本生成与二维姿态图像匹配的人体姿态图像。

在上述技术方案中，可以先获取与人体姿态样本对应的原始三维姿态参数，再由第一生成模型在原始三维姿态参数的基础上，生成与各个人体姿态对应的新的三维姿态参数，然后可以通过将与各个人体姿态对应的三维姿态参数投影至二维平面，将其变换为与各个人体姿态对应的二维姿态图像，最后可以由第二生成模型将与各个人体姿态对应的二维姿态图像，以及与待生成的人体姿态图像对应的描述文本作为条件，基于该描述文本，生成与各个人体姿态下的二维姿态图像匹配的人体姿态图像。由此，即可得到大量配对的与人体姿态对应的二维姿态图像和人体姿态图像。

与前述人体姿态图像的生成方法的实施例相对应，本申请还提供了人体姿态图像的生成装置的实施例。

请参考图6，图6是本申请一示例性实施例示出的一种设备的结构示意图。在硬件层面，该设备包括处理器602、内部总线604、网络接口606、内存608以及非易失性存储器610，当然还可能包括所需要的其他硬件。本申请一个或多个实施例可以基于软件方式来实现，比如由处理器602从非易失性存储器610中读取对应的计算机程序到内存608中然后运行。当然，除了软件实现方式之外，本申请一个或多个实施例并不排除其他实现方式，比如逻辑器件或者软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑模块，也可以是硬件或者逻辑器件。

请参考图7，图7是本申请一示例性实施例示出的一种人体姿态图像的生成装置的框图。

上述人体姿态图像的生成装置可以应用于图6所示的设备，以实现本申请的技术方案。

其中，该人体姿态图像的生成装置可以包括：

第一生成模块702，获取与人体姿态样本对应的三维姿态参数，并将所述三维姿态参数输入第一生成模型，以使所述第一生成模型学习所述三维姿态参数的数据分布，并生成符合所述数据分布的三维姿态参数；

变换模块704，基于所述第一生成模型生成的三维姿态参数生成三维姿态图形，并将所述三维姿态图形投影至预设的二维平面，以将所述三维姿态图形转化为二维姿态图像；

第二生成模块706，获取与待生成的人体姿态图像对应的描述文本，并将所述二维姿态图像和所述描述文本输入第二生成模型，以使所述第二生成模型基于所述描述文本，生成与所述二维姿态图像匹配的人体姿态图像。

可选地，所述第一生成模型为概率生成模型；所述第二生成模型为文本生成图像模型。

可选地，所述第一生成模型包括变分自编码器VAE；

所述第一生成模块702：

将所述三维姿态参数输入所述VAE，以使所述VAE学习用于表示所述三维姿态参数服从预设的数据分布的潜在空间，并将所述三维姿态参数映射到所述潜在空间中得到潜在向量，以及基于所述潜在向量生成三维姿态参数。

可选地，所述预设的数据分布为正态分布。

可选地，所述第二生成模型包括基于Control Net构建的扩散模型。

可选地，所述三维姿态参数包括与预设的若干人体关键点对应的角度信息；

所述变换模块704：

根据所述第一生成模型生成的三维姿态参数中与所述若干人体关键点对应的角度信息，对所述若干人体关键点进行连接得到人体三维模型；

将所述人体三维模型投影至预设的二维平面，并获取所述二维平面中与所述人体三维模型对应的二维投影图像。

可选地，所述变换模块704：

通过在与所述人体三维模型对应的三维空间中的预设位置上模拟出的拍摄设备，对所述人体三维模型进行模拟拍摄，以将所述人体三维模型投影至所述拍摄设备的成像平面；

获取拍摄得到的二维投影图像。

可选地，所述第二生成模块706：

将所述二维姿态图像和所述描述文本输入第二生成模型，以使所述第二生成模型基于所述描述文本，生成包含的人体上的人体关键点之间的相对位置关系，与所述二维姿态图像包含的人体关键点之间的相对位置关系相同的人体姿态图像。

对于装置实施例而言，其基本对应于方法实施例，因此相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请的技术方案的目的。

上述实施例阐明的系统、装置、模块或者单元，具体可以由计算机芯片或者实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或者闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或者技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或者其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或者其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或者其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或者其他磁性存储设备或者任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本申请特定实施例进行了描述。其他实施例在本申请的范围内。在一些情况下，在本申请中记载的动作或者步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本申请一个或多个实施例中所使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。术语“和/或”是指并包含一个或多个相关联的列出项目的任何或者所有可能组合。

在本申请一个或多个实施例中所使用的术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或者“一种实施方式”等的描述意指结合该实施例所描述的具体特征或者特点包含于本申请的至少一个实施例中。对这些术语的示意性描述不必须针对相同的实施例。而且，所描述的具体特征或者特点可以在本申请一个或多个实施例中以合适的方式结合。此外，在不相互矛盾的情况下，可以将不同的实施例以及不同实施例中的具体特征或者特点进行结合。

应当理解，尽管在本申请一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或者“当……时”或者“响应于确定”。

以上所述仅为本申请一个或多个实施例的较佳实施例而已，并不用以限制本申请一个或多个实施例，凡在本申请一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请一个或多个实施例保护的范围之内。

本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

Claims

1.一种人体姿态图像的生成方法，所述方法包括：

2.根据权利要求1所述的方法，所述第一生成模型包括概率生成模型；所述第二生成模型包括文本生成图像模型。

3.根据权利要求2所述的方法，所述第一生成模型包括变分自编码器VAE；

所述将所述三维姿态参数输入第一生成模型，以使所述第一生成模型学习所述三维姿态参数的数据分布，并生成符合所述数据分布的三维姿态参数，包括：

将所述三维姿态参数输入所述VAE，以使所述VAE将所述三维姿态数据映射到其中的潜在向量服从预设的先验分布的潜在空间，并计算在将所述三维姿态数据作为条件时所述潜在向量的条件分布，作为所述潜在向量的后验分布，以及基于所述后验分布生成三维姿态参数。

4.根据权利要求3所述的方法，所述预设的先验分布为正态分布。

5.根据权利要求2所述的方法，所述第二生成模型包括基于Control Net构建的扩散模型。

6.根据权利要求1所述的方法，所述三维姿态参数包括与预设的若干人体关键点对应的角度信息；

所述基于所述第一生成模型生成的三维姿态参数生成三维姿态图形，并将所述三维姿态图形投影至预设的二维平面，以将所述三维姿态图形转化为二维姿态图像，包括：

7.根据权利要求6所述的方法，所述将所述人体三维模型投影至预设的二维平面，并获取所述二维平面中与所述人体三维模型对应的二维投影图像，包括：

获取拍摄得到的二维投影图像。

8.根据权利要求6所述的方法，所述将所述二维姿态图像和所述描述文本输入第二生成模型，以使所述第二生成模型基于所述描述文本，生成与所述二维姿态图像匹配的人体姿态图像，包括：

9.一种人体姿态图像的生成装置，所述装置包括：

10.一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1至8中任一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求1至8中任一项所述的方法。