CN109191366B

CN109191366B - 基于人体姿态的多视角人体图像合成方法及装置

Info

Publication number: CN109191366B
Application number: CN201810764054.3A
Authority: CN
Inventors: 谭铁牛; 王亮; 王威; 司晨阳
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2020-12-01
Anticipated expiration: 2038-07-12
Also published as: CN109191366A

Abstract

本发明属于图像合成技术领域，具体提供一种基于人体姿态的多视角人体图像合成方法及装置。旨在解决现有技术无法有效地进行人的多视角图像合成以及保持人的特征不发生明显变化的问题。本发明提供了一种基于人体姿态的多视角人体图像合成方法，包括基于姿态转换模型并根据原始人体姿态和目标视角，对原始人体姿态进行姿态转换；基于前景转换模型并根据原始前景图像、原始人体姿态和目标视角人体姿态，对原始前景图像进行前景转换；基于多视角合成模型并根据原始图像和目标前景图像，对原始图像进行多视角合成，得到多视角人体合成图像。本发明提供的方法具有保持合成图像中人的特征，以及合成高质量的合成图像的有益效果。

Description

基于人体姿态的多视角人体图像合成方法及装置

技术领域

本发明属于图像合成技术领域，具体涉及一种基于人体姿态的多视角人体图像合成方法及装置。

背景技术

人的多视角图像合成在人体行为理解中具有重要的应用价值，利用人的多视角合成图像可以有效地解决在计算机视觉中存在的跨视角问题，例如跨视角行为识别、跨视角行人再识别等问题。

现有的多视角图像合成主要是针对刚性物体(例如汽车、椅子等等)的多视角合成，而随着多视角图像合成应用越来越广泛，对人进行多视角合成变得越来越重要。虽然人的姿态在三维空间中是不变的，但是进行人的多视角合成时，将三维空间的人体姿态映射到二维空间中，不同视角的二维图像中人体姿态相差很大，所以多视角人体图像合成需要保持人体姿态在三维空间中不变的情况下，合成对应视角的二维姿态图像。进行合成时，合成的新视角的图像的外观特性要和原始视角的图像保持一致，例如人的外观要保持不变，人的衣着类型、颜色、人的外貌不能发生明显的变化。而现有技术针对刚性物体的多视角合成无法很好地达到上述要求。

因此，如何提出一种在对人进行多视角图像合成的同时保持人的特征不发生明显变化的方案是本领域技术人员目前需要解决的问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有技术无法有效地进行人的多视角图像合成以及保持人的特征不发生明显变化的问题，本发明的第一方面提供了一种基于人体姿态的多视角人体图像合成方法，包括：

基于预先构建的姿态转换模型并根据当前获取的原始人体姿态和目标视角，对所述原始人体姿态进行姿态转换，得到目标视角人体姿态；

基于预先构建的前景转换模型并根据当前获取的原始前景图像、所述原始人体姿态和目标视角人体姿态，对所述原始前景图像进行前景转换，得到目标前景图像；

基于预先构建的多视角合成模型并根据当前获取的原始图像和所述目标前景图像，对所述原始图像进行多视角合成，得到多视角人体合成图像；

其中，所述姿态转换模型、前景转换模型和多视角合成模型均是基于预设的多视角人体图像数据并利用机器学习算法所构建的神经网络模型。

在上述方法的优选技术方案中，在“基于预先构建的姿态转换模型并根据当前获取的原始人体姿态和目标视角，对所述原始人体姿态进行姿态转换”步骤之前，所述方法还包括：

基于所述多视角人体图像数据并利用反向传播算法训练所述姿态转换模型。

在上述方法的优选技术方案中，在“基于预先构建的前景转换模型并根据获取的原始前景图像、所述原始人体姿态和目标视角人体姿态，对所述原始前景图像进行前景转换”的步骤之前，所述方法还包括：

利用训练后的姿态转换模型获取目标视角对应的目标视角人体姿态；

基于所述多视角人体图像数据和所述目标视角人体姿态并利用反向传播算法训练所述前景转换模型。

在上述方法的优选技术方案中，在“基于预先构建的多视角合成模型并根据获取的原始图像和所述目标前景图像，对所述原始图像进行多视角合成”的步骤之前，所述方法还包括：

利用训练后的前景转换模型获取原始前景图像对应的目标前景图像；

基于所述多视角人体图像数据和所述目标前景图像并利用反向传播算法训练所述多视角合成模型。

在上述方法的优选技术方案中，所述姿态转换模型包括多层全连接神经网络，所述前景转换模型和多视角合成模型均包括生成对抗网络。

本发明的第二方面还提供了一种基于人体姿态的多视角人体图像合成装置，包括：

姿态转换模块，配置为基于预先构建的姿态转换模型并根据当前获取的原始人体姿态和目标视角，对所述原始人体姿态进行姿态转换，得到目标视角人体姿态；

前景转换模块，配置为基于预先构建的前景转换模型并根据当前获取的原始前景图像、所述原始人体姿态和目标视角人体姿态，对所述原始前景图像进行前景转换，得到目标前景图像；

多视角合成模块，配置为基于预先构建的多视角合成模型并根据当前获取的原始图像和所述目标前景图像，对所述原始图像进行多视角合成，得到多视角人体合成图像；

在上述装置的优选技术方案中，所述姿态转换模块进一步配置为：

在上述装置的优选技术方案中，所述前景转换模块进一步配置为：

在上述装置的优选技术方案中，所述多视角合成模块进一步配置为：

在上述装置的优选技术方案中，所述姿态转换模型包括多层全连接神经网络，所述前景转换模型和多视角合成模型均包括生成对抗网络。

与最接近的现有技术相比，上述技术方案至少具有如下有益效果：

1、本发明提供的基于人体姿态的多视角人体图像合成方法中，基于各个预设的模型可以分别获取目标视角人体姿态和目标前景图像，并根据原始图像和目标前景图像进行多视角合成，可以实现人体姿态在三维空间中保持不变的情况下，合成多视角图像，并且合成的多视角图像中人的特征(如人的外观等)不发生明显变化；

2、本发明提供的基于人体姿态的多视角人体图像合成方法中，各个预设的模型通过多阶段的对抗学习能够分别输出接近真实的目标视角人体姿态、目标前景图像和高质量的多视角人体合成图像，使得本发明的方法能够广泛地应用在各种视角的人体图像合成的场景中，并且合成高质量的合成图像。

附图说明

图1为本发明一种实施例的基于人体姿态的多视角人体图像合成方法的主要步骤示意图；

图2为本发明一种实施例的多种多视角人体图像数据的示意图；

图3为本发明一种实施例的获取目标前景图像的主要步骤示意图；

图4为本发明一种实施例的获取多视角人体合成图像的主要步骤示意图；

图5为本发明一种实施例的基于人体姿态的多视角人体图像合成装置的主要结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

参阅附图1，图1示例性地给出了本实施例中基于人体姿态的多视角人体图像合成方法的主要步骤。如图1所示，本实施例中基于人体姿态的多视角人体图像合成方法包括下述步骤：

步骤S101：基于预先构建的姿态转换模型并根据当前获取的原始人体姿态和目标视角，对原始人体姿态进行姿态转换，得到目标视角人体姿态。

在实际应用过程中，原始图像的原始人体姿态映射到不同视角的二维空间中，不同视角的二维图像中人体姿态相差很大，为了更好地进行多视角人体图像合成，得到需要的人体姿态，可以从原始图像中获取原始人体姿态，将原始人体姿态和目标视角输入预先构建的姿态转换模型，对原始人体姿态进行姿态转换，得到目标视角人体姿态。其中，目标视角是相对于原始人体姿态旋转一定的角度，姿态转换模型可以是由编码层和7层全连接层组成的神经网络，姿态转换模型的输入可以是原始人体姿态的坐标和目标视角，输出可以是目标视角人体姿态的坐标。

具体地，姿态转换模型可以按公式(1)所示的方法对原始人体姿态进行姿态转换：

其中，

表示目标视角人体姿态，P_s表示原始人体姿态，θ表示目标视角，G_p表示姿态转换函数。

为了姿态转换模型输出的目标视角人体姿态更加接近真实的目标视角人体姿态，在其对原始人体姿态进行姿态转换前，可以对姿态转换模型进行训练。在实际应用中，可以采用预先获取的多视角人体图像数据对姿态转换模型进行训练。多视角人体图像数据可以包括从4个视角采集的演示者的行为动作对应的行为数据，演示者的行为动作可以包括11个演示者，每个演示者演示15种行为动作，将演示者演示动作中的12个行为动作对应的行为数据作为训练数据，剩下的3个行为动作对应的行为数据作为测试数据。继续参阅附图2，图2示例性地给出了多种多视角人体图像数据的示意图，图2中a表示原始图像，b表示根据原始图像获取的原始人体姿态，c表示根据原始图像获取的原始前景图像，d表示根据原始图像和目标视角获取的目标图像，e表示根据目标图像获取的目标人体姿态，f表示根据目标图像获取的目标前景图像。

具体地，可以将多视角人体图像数据中的训练数据和目标视角输入待训练的姿态转换模型，姿态转换模型输出目标视角人体姿态后，将输出的目标视角人体姿态与真实的目标视角人体姿态按公式(2)所示的方法进行比较，得到第一预测误差：

其中，

表示第一预测误差，

表示待训练的姿态转换模型生成的目标视角人体姿态，P_t表示真实的目标视角人体姿态。

得到第一预测误差后，通过反向传播算法减小第一预测误差，经过多次迭代直至第一预测误差小于预设阈值，得到训练好的姿态转换模型。

步骤S102：基于预先构建的前景转换模型并根据当前获取的原始前景图像、原始人体姿态和目标视角人体姿态，对原始前景图像进行前景转换，得到目标前景图像。

为了能够更好地进行多视角人体图像合成，并且在合成过程中保持人体的一些特征(如人的外观、衣着类型)不变，可以对原始前景图像进行前景转换，得到目标前景图像。具体地，可以将原始前景图像、原始人体姿态和目标视角人体姿态输入预先构建的前景转换模型，对原始前景图像进行前景转换，得到目标前景图像。其中，前景转换模型可以包括生成对抗网络、图像编码模块、姿态编码模块和图像解码模块，图像编码模块和姿态编码模块由多层卷积层组成，图像解码模块由多层反卷积层组成。

继续参阅附图3，图3示例性地给出了获取目标前景图像的主要步骤，具体地，可以将原始前景图像、原始人体姿态和目标视角人体姿态输入前景转换模型，前景转换模型的姿态编码模块分别对原始人体姿态和目标视角人体姿态进行姿态编码，图像编码模块对原始前景图像进行图像编码，将姿态编码和图像编码的结果输入图像解码模块进行图像解码，得到目标前景图像。

为了前景转换模型输出的目标前景图像更加接近真实的目标前景图像，在其对原始前景图像进行前景转换之前，可以对前景转换模型进行训练。在实际应用过程中，可以采用预先获取的多视角人体图像数据对前景转换模型进行训练，可以将多视角人体图像数据中的原始前景图像、原始人体姿态和得到的目标视角人体姿态输入待训练的前景转换模型，前景转换模型输出目标前景图像后，将输出的目标前景图像和真实的目标前景图像按公式(3)-(5)所示的方法进行比较，得到第二预测误差和第一对抗损失：

其中，

表示第二前景预测误差，

表示第二背景预测误差，F_t表示真实的目标前景图像，

表示待训练的前景转换模型生成的目标前景图像，M_t表示原始前景图像的掩码；

表示第一对抗损失，D^fg表示前景图像判别函数。

得到第二前景预测误差、第二背景预测误差和第一对抗损失后，通过反向传播算法减小第二预测误差和第一对抗损失，经过多次迭代直至第二前景预测误差、第二背景预测误差和第一对抗损失小于预设阈值，得到训练好的前景转换模型。

其中，可以根据生成对抗网络获取第一对抗损失，生成对抗网络可以从训练数据中获取训练样本，学习训练样本的概率分布，训练样本可以是多视角人体图像数据。生成对抗网络包括一个生成器网络，一个判别器网络，生成器网络捕捉多视角人体图像数据中真实目标前景图片的概率分布，将输入的原始前景图像、原始人体姿态和目标视角人体姿态转变成新的目标前景图像，判别器网络判断该目标前景图像是真实的还是合成的。判别器网络的任务是判断输入网络的图像是否看起来“自然”，是否是人为(机器)生成的，生成器网络则是要生成自然的图像，生成器网络和判别器网络在不断地对抗过程中，可以让生成对抗网络输出的图像接近真实的图像。

步骤S103：基于预先构建的多视角合成模型并根据当前获取的原始图像和目标前景图像，对原始图像进行多视角合成，得到多视角人体合成图像。

得到目标前景图像后，将其与原始图像输入预先构建的多视角合成模型，多视角合成模型可以对原始图像进行多视角合成，得到多视角人体合成图像。多视角合成模型可以包括前景编码模块、图像编码模块和图像解码模块，前景编码模块和图像编码模块由多层卷积层组成，图像解码模块有多层反卷积层组成。

继续参阅附图4，图4示例性地给出了获取多视角人体合成图像的主要步骤。具体地，可以将原始图像、和目标前景图像输入多视角合成模型，前景编码模块对目标前景图像进行前景编码，图像编码模块对原始图像进行编码，将前景编码和图像编码的结果进行特征拼接，得到多视角人体合成图像。

为了多视角合成模型输出的多视角人体合成图像更加接近真实的多视角人体合成图像，在多视角合成模型对原始图像进行多视角合成之前，可以对多视角合成模型进行训练。在实际应用过程中，可以采用预先获取的多视角人体图像数据对多视角合成模型进行训练，可以将多视角人体图像数据中的原始图像和得到的目标前景图像输入待训练的多视角合成模型，多视角合成模型输出多视角人体合成图像后，将输出的多视角人体合成图像和真实的多视角人体合成图像按公式(6)-(9)所示的方法进行比较，得到第三预测误差和第二对抗损失：

其中，I_t表示真实的多视角人体合成图像，

表示待训练的多视角合成模型生成的多视角人体合成图像，M_t表示目标前景图像的掩码，D^bg表示全局多视角人体合成图像判别网络，

表示目标多视角人体合成图像前景判别网络，

表示第三前景预测误差，

表示第三背景预测误差，

表示第二全局对抗损失，

表示第二前景对抗损失。

得到第三预测误差和第二对抗损失后，通过反向传播算法减小第三预测误差和第二对抗损失，经过多次迭代直至第三预测误差和第二对抗损失小于预设阈值，得到训练好的多视角合成模型。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

基于上述基于人体姿态的多视角人体图像合成方法实施例，本发明还提供了一种基于人体姿态的多视角人体图像合成装置。下面结合附图，对该基于人体姿态的多视角人体图像合成装置进行说明。

参阅附图5，图5示例性地给出了本实施例中基于人体姿态的多视角人体图像合成装置的主要结构。如图5所示，本实施例基于人体姿态的多视角人体图像合成装置包括姿态转换模块1、前景转换模块2和多视角合成模块3。

姿态转换模块1，配置为基于预先构建的姿态转换模型并根据当前获取的原始人体姿态和目标视角，对原始人体姿态进行姿态转换，得到目标视角人体姿态；

前景转换模块2，配置为基于预先构建的前景转换模型并根据当前获取的原始前景图像、原始人体姿态和目标视角人体姿态，对原始前景图像进行前景转换，得到目标前景图像；

多视角合成模块3，配置为基于预先构建的多视角合成模型并根据当前获取的原始图像和目标前景图像，对原始图像进行多视角合成，得到多视角人体合成图像；

其中，姿态转换模型、前景转换模型和多视角合成模型均是基于预设的多视角人体图像数据并利用机器学习算法所构建的神经网络模型。

在本发明实施例的一个优选实施方案中，姿态转换模块1进一步配置为：

基于多视角人体图像数据并利用反向传播算法训练姿态转换模型。

在本发明实施例的一个优选实施方案中，前景转换模块2进一步配置为：

基于多视角人体图像数据和目标视角人体姿态并利用反向传播算法训练前景转换模型。

在本发明实施例的一个优选实施方案中，多视角合成模块3进一步配置为：

基于多视角人体图像数据和目标前景图像并利用反向传播算法训练多视角合成模型。

在本发明实施例的一个优选实施方案中，姿态转换模型包括多层全连接神经网络，前景转换模型和多视角合成模型均包括生成对抗网络。

所属技术领域的技术人员可以清楚地了解到，为了描述的方便和简洁，本发明装置实施例的具体工作过程以及相关说明，可以参考前述方法实施例中的对应过程，且与上述方法具有相同的有益效果，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。应该理解这样使用的数据在适当的情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于人体姿态的多视角人体图像合成方法，其特征在于包括：

2.根据权利要求1所述的基于人体姿态的多视角人体图像合成方法，其特征在于，在“基于预先构建的姿态转换模型并根据当前获取的原始人体姿态和目标视角，对所述原始人体姿态进行姿态转换”步骤之前，所述方法还包括：

3.根据权利要求2所述的基于人体姿态的多视角人体图像合成方法，其特征在于，在“基于预先构建的前景转换模型并根据获取的原始前景图像、所述原始人体姿态和目标视角人体姿态，对所述原始前景图像进行前景转换”的步骤之前，所述方法还包括：

4.根据权利要求3所述的基于人体姿态的多视角人体图像合成方法，其特征在于，在“基于预先构建的多视角合成模型并根据获取的原始图像和所述目标前景图像，对所述原始图像进行多视角合成”的步骤之前，所述方法还包括：

5.根据权利要求1-4中任一项所述的基于人体姿态的多视角人体图像合成方法，其特征在于，所述姿态转换模型包括多层全连接神经网络，所述前景转换模型和多视角合成模型均包括生成对抗网络。

6.一种基于人体姿态的多视角人体图像合成装置，其特征在于包括：

7.根据权利要求6所述的基于人体姿态的多视角人体图像合成装置，其特征在于，所述姿态转换模块进一步配置为：

8.根据权利要求7所述的基于人体姿态的多视角人体图像合成装置，其特征在于，所述前景转换模块进一步配置为：

9.根据权利要求8所述的基于人体姿态的多视角人体图像合成装置，其特征在于，所述多视角合成模块进一步配置为：

10.根据权利要求6-9中任一项所述的基于人体姿态的多视角人体图像合成装置，其特征在于，所述姿态转换模型包括多层全连接神经网络，所述前景转换模型和多视角合成模型均包括生成对抗网络。