CN116071831A

CN116071831A - 一种基于uv空间变换的人体图像生成方法

Info

Publication number: CN116071831A
Application number: CN202310267167.3A
Authority: CN
Inventors: 方东东; 夏贵羽; 刘云; 叶文凯
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-05-05
Anticipated expiration: 2043-03-20
Also published as: CN116071831B

Abstract

本发明涉及计算机视觉技术领域，公开了一种基于UV空间变换的人体图像生成方法，包括以下步骤：通过将训练数据转换到UV空间得到UV纹理图并进行拆分，将拆分的源人物UV纹理图通过学习的流场变换到目标人物姿态的UV空间；融合变换后的纹理图特征和目标人物姿态特征，细化后的特征将和源人物纹理特征一起通过解码器得到目标人物的UV纹理图；将预测的目标人物UV纹理图还原到无背景的目标人物图像；将无背景的目标人物和目标姿态通过一个背景重构模型得到目标人物图像。本发明的有益效果为将本质上为3D空间的任务映射到2D空间进行完成，不仅克服了人物姿态不同带来的变形问题，还保证了生成的目标图像具有高质量纹理特征。

Description

一种基于UV空间变换的人体图像生成方法

技术领域

本发明涉及计算机视觉技术领域，涉及一种基于UV空间变换的人体图像生成方法。

背景技术

在计算机视觉领域中,人体图像拥有巨大的研究价值和极其广泛的应用前景。许多研究人员以人体姿态为条件去完成人体图像生成任务，并在此基础上进行一系列的探索与创新。目前的研究成果可应用于虚拟试穿、电影制作以及数据增强等领域。传统的图形渲染和基于物理模型的图像生成方法存在高计算和时间成本的缺陷，因此限制了这些技术的普及。

由于深度神经网络具有强大的图像生成能力，许多研究人员使用源图像和目标姿态作为条件的生成网络来完成人体图像生成任务，但生成模型中使用的卷积神经网络中位移不变形的特点使其不适合用于区域对齐任务。为了解决这一难题，一些研究人员选择使用2D流来解决2D图像平面中的区域对齐任务。但人体图像只是形式上是以2D表示存在的，即它们是原始3D人物的2D投影，并继承了许多3D信息，例如深度和遮挡。因此使用2D流不可避免地会导致信息丢失，导致局部纹理的混乱。

发明内容

针对现有技术中存在的问题，本发明提供了一种基于UV空间变换的人体图像生成方法，克服了以往工作人物姿态不同带来的变形问题。

为实现上述目的，本发明提供如下技术方案：

一种基于UV空间变换的人体图像生成方法，包括以下步骤：

制作训练数据集，并提取其中训练数据的源人物图像和源人物姿态，进而通过变换得到源人物UV纹理图和源人物姿态纹理图，对所述源人物UV纹理图和源人物姿态纹理图进行拆分，各对应依次拆分成M个部分，得到各身体部分的源人物UV纹理图和源人物姿态纹理图，将每一身体部分都使用源人物UV纹理图填充预设的目标姿态纹理图和源人物UV纹理图共有的像素来得到不完整的目标UV纹理图；

将得到各身体部分的源人物UV纹理图、目标姿态纹理图以及不完整的目标UV纹理图输入流场预测模型中进行流场学习，得到位置坐标的偏移量，进而得到流场学习后的流场坐标；

每一个身体部分学习若干个不同尺度的流场，学习一个流场即位置坐标的偏移量，进而得到流场学习后的流场坐标，优选学习三个不同尺度的流场；

根据得到的所述流场坐标变换源人物UV纹理特征，得到预测的目标人物纹理特征；

根据得到的所述预测的目标人物纹理特征，将其与预设的目标姿态特征一同传入特征细化模块，得到细化纹理特征；同理，得到M个部分的细化纹理特征；

根据得到的细化纹理特征，将M个部分的细化纹理特征传入主干网络和源人物的UV纹理特征一同经过解码器得到第一阶段预测的目标人物UV纹理图；

将得到的所述第一阶段预测的目标人物UV纹理图与目标人物姿态一同经过变换，还原到无背景的目标人物图像；

将无背景的目标人物图像和目标人物姿态通过背景重构模型得到完整的目标人物图像。

进一步地，所述将得到各身体部分的源人物UV纹理图、目标姿态纹理图以及不完整的目标UV纹理图输入卷积构成的流场预测模型中进行流场学习，得到位置坐标的偏移量的具体方法为：流场的学习需要通过采样正确性损失来监督，损失函数具体表示为：

；

其中，表示采样正确性损失函数，表示流场，表示每个部位的特征，表示特征的尺度个数，，；是一个函数，用于计算经过流场变换后的特征与目标特征之间的余弦相似性，表示为：

；

其中， N表示特征图中的N个位置；和分别表示使用VGG网络提取的源人物图像以及目标人物图像的特征，并使用表示特征经过流场 F变换后的结果；和表示位置p处的和的特征；是特征图中所有位置的坐标集合；为归一化项，由公式获得。

进一步地，包括对流场学习中自由度的进行几何约束流约束，所述几何约束流的公式为：

；

其中，表示几何约束流，，，，表示流场维度的大小，、分别表示流场的x轴方向和y轴方向的坐标偏移矩阵；在矩阵A中，，，其余的元素都为0；在矩阵B中，，其余的元素都为0；在矩阵C中，，其余的元素都为0；其中，；表示矩阵的frobenius范数；表示一个元素值都为1的矩阵。

进一步地，所述根据得到的所述流场坐标变换源人物UV纹理特征，得到预测的目标人物纹理特征的具体方法为：使用第一编码器提取需要用于流场变换使用的特征，提取的特征经过流场变换后得到预测的部分目标UV纹理图的特征，亦可表达为，可简写作。

进一步地，所述得到细化纹理特征的具体方法为：

将经流场变换后的预测的部分目标UV纹理图的特征和三个身体部位输入通过第二编码器提取的特征共同传入特征细化模块；特征图和分别沿通道方向通过平均池化、最大池化的操作后分别得到一个特征图，然后将四个特征图沿通道方向连接，连接后的四个通道的特征图通过卷积变为一个通道的特征图，再将其经过sigmoid函数后得到一个特征图权重；然后用特征图和特征图权重相乘得到特征细化模块的输出特征，具体表示如下：

。

进一步地，将各身体部分的细化后UV纹理图的特征沿通道连接后传入主干网络和源人物纹理特征一同经过卷积网络得到第一阶段预测的目标人物UV纹理图；生成的目标人物UV纹理图采用目标图像的UV纹理图进行监督，其损失函数表示如下：

；

其中，表示L1损失函数；

使用L1损失函数来监督纹理图的 UV空间变换，这是在像素级别上判断两个图像的相似性。

进一步地，所述完整的目标人物图像中人脸需要进行清晰度处理，处理方法为：

将人脸单独提取出来，用目标图像的人脸进行监督，损失函数表示如下：

；

其中，表示生成的人脸和目标人脸的损失函数，表示裁剪的人脸，通过目标人物的头部姿态和完整的目标人物图像对应提取，表示真实的目标人物图像，表示裁剪的人脸，为具有预先训练权重的VGG-19网络的第层激活特征图；用于计算生成的人脸和目标人脸的损失。

进一步地，使用对抗损失来约束，提高完整的目标人物图像的准确度，具体方法为：

；

其中，表示对抗损失函数，D代表鉴别器，用于判断真实图像和生成图像的分布差异；G代表生成器，用于生成虚假的目标图像；、以及分别表示来自目标人物纹理图、目标人物姿态以及真实的目标人物图像的真实分布；表示来自生成的目标纹理图虚假分布。

进一步地，使用感知损失函数来监督完整的目标人物图像和真实的目标人物图像之间的特征损失，具体表示如下：

；

其中，表示感知损失函数，表示用预先训练的VGG网络提取第层的特征，表示使用的VGG网络的层数数量，表示真实的目标人物图像。

与现有技术相比，本发明提供了一种基于UV空间变换的人体图像生成方法，具备以下有益效果：

（1）本发明的人体图像生成方法，生成的模型将本质上是3D空间的人体图像生成任务映射到2D空间进行完成，利用UV纹理图中不同区域之间的高度相关性来学习流场的坐标，而且提出的几何一致性损失弥补了以往高自由度的流场学习带来的不可控的位置偏移缺陷，不仅克服了以往工作人物姿态不同带来的变形问题，还保证了生成的目标图像具有高质量纹理特征。

（2）本发明的人体图像生成方法主要可以在三个领域得以应用：1）在电影制作领域，该方法可代替真实人物来完成难度较高且具有一定危险的动作；2）在行人识别领域，该方法可用于为行人重识别扩充数据集，降低识别难度；3）在虚拟现实领域，该方法可用于虚拟人物的动作引导与设计以及虚拟换装。

附图说明

图1为本发明基于UV空间变换的人体图像生成方法的流程图；

图2为本发明基于UV空间变换的人体图像生成方法的整体结构图（其中图中Convolution表示卷积；Warp表示扭曲；Mapping表示映射；Supervise表示监督；FeatureRefinement Block表示特征细化；Reconstruction表示重建）；

图3为本发明中流场预测分支框架图；

图4为本发明以正方形为例的几何约束流变换示例图；

图5为本发明中特征细化模块图（图中C×H×W表示特征的维度尺寸大小）；

图6为本发明中目标纹理图生成分支结构图；

图7是本发明中纹理还原图；

图8是本发明中人物背景重构图。

实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于UV空间变换的人体图像生成方法，整体框架的流程图和结构图分别如图1和图2所示，具体包括以下步骤：

步骤1.1：制作的训练数据集，采用人体姿态估计算法DensePose提取其人物姿态得到训练数据的人物图像,然后用训练数据的人物图像及其对应的姿态通过变换生成人体图像的源人物UV纹理图和源人物姿态纹理图。

训练数据集的获取方式为：自一些官方数据集（比如DeepFashion）中随机选择34505张图片进行训练，将图片成对分配，最终获得了53006对训练图片。

将源人物UV纹理图和姿态纹理图进行拆分，各对应依次拆分成M个部分，得到各身体部分的源人物UV纹理图和源人物姿态纹理图。

优选地，将源人物UV纹理图和源人物姿态纹理图分别拆分成人体的三个部分：头部、上半身和下半身。然后每一身体部分都使用源人物UV纹理图填充已知的目标姿态纹理图和源人物UV纹理图共有的像素来得到不完整的目标UV纹理图。头部、上半身和下半身这三部分的源人物UV纹理图对应表示为，相应部分的目标姿态纹理图对应表示为，不完整的目标UV纹理图表示为，其中、、代表拆分的各部分，比如头部、上半身以及下半身这三个部分，为了便于表达，此处以及下述表达式都按照拆分成三个部分进行表示，实际是可拆分成M个部分。

步骤1.2：将源人物UV纹理图、目标姿态纹理图以及不完整的目标UV纹理图输入卷积构成的流场预测模型学习若干个不同尺度的流场,流场生成的预测分支框架图如图3所示，优选学习三个不同尺度的流场。流场的学习需要通过采样正确性损失来监督，损失函数具体可表示为：

；

其中，表示采样正确性损失函数，表示流场，表示每个部位的特征，表示特征的尺度个数，，。是一个函数，用于计算经过流场变换后的特征与目标特征之间的余弦相似性，可表示为：

；

其中， N表示特征图中的N个位置；和分别表示使用VGG网络提取的源人物图像以及目标人物图像的特征，并使用表示特征经过流场 F变换后的结果。和表示位置p处的和的特征。是特征图中所有位置的坐标集合。为归一化项，由公式获得。

进一步地，由于以往工作中流场的学习具有较大的自由度会导致纹理发生变形，为了约束其自由度本方法提出了一种几何约束流。如图4所示，以一个3×3的元素矩阵为例，每个中心元素与其8个相邻元素的连接，图4中表示几何约束流变换前的元素，，，表示几何约束流变换后的元素。通过几何一致性损失的限制保证最终每个元素与周围元素的相对位移保持不变。以上提出的几何约束流的公式具体表示如下：

；

其中，表示几何约束流，，，，表示流场维度的大小，、分别表示流场的x轴方向和y轴方向的坐标偏移矩阵；在矩阵A中，，，其余的元素都为0；在矩阵B中,，其余的元素都为0；在矩阵C中，，其余的元素都为0；其中，；表示矩阵的frobenius范数；表示一个元素值都为1的矩阵。

步骤1.3：使用第一编码器提取需要用于流场变换使用的特征，提取的特征经过步骤1.2所产生的流场变换后得到预测的部分目标UV纹理图的特征,亦可表达为，可简写作。将经流场变换后的预测的部分目标UV纹理图的特征和三个身体部位输入通过第二编码器提取的特征共同传入特征细化模块，如图5所示。特征图和分别沿通道方向通过平均池化（AvgPool）、最大池化（MaxPool）的操作后分别得到一个特征图，然后将四个特征图沿通道方向连接。其中，图5中标记4×H×W处的4个特征图，自左向右依次为特征图沿通道方向通过最大池化（MaxPool）的操作后得到的特征图、特征图沿通道方向通过平均池化（AvgPool）的操作后得到的特征图、特征图沿通道方向通过最大池化（MaxPool）的操作后得到的特征图、特征图沿通道方向通过平均池化（AvgPool）的操作后得到的特征图；图5中concatenation表示串联。连接后的四个通道的特征图通过卷积变为一个通道的特征图，再将其经过sigmoid函数后得到一个特征图权重。然后用特征图和特征图权重相乘得到特征细化模块的输出特征，具体表示如下：

。

步骤1.4：通过特征细化模块可得到细化的纹理特征，将头部，上半身，下半身的细化后UV纹理图的特征沿通道连接后传入主干网络和源人物纹理特征一同经过卷积网络得到第一阶段预测的目标人物UV纹理图，如图6所示。生成的预测的目标人物纹理图采用目标图像的UV纹理图进行监督，其损失函数具体表示如下：

；

式中，表示L1损失函数；使用L1损失函数来监督纹理图的 UV空间变换，这是在像素级别上判断两个图像的相似性。

步骤1.5：根据步骤1.4中得到的预测的目标人物UV纹理图，接着将预测的目标人物UV纹理图与预设的目标人物姿态一同经过Tex2Shape提供的预先计算的查找表还原到无背景的目标人物图像，如图7所示(图中人脸已打码处理)。由于纹理图是由姿态提取的人物图像转变而得，所以还原得到的目标人物图像不存在背景信息。

步骤1.6：根据步骤1.5中得到的无背景的目标人物图像，将其与目标人物姿态经过一个背景重构模型学习具有背景的完整的目标人物图像，如图8所示(图中人脸已打码处理)。为了保证生成的完整的目标人物图像中人脸具有良好的清晰度，额外将人脸单独提取出来，用真实的目标人物图像的人脸进行监督，损失函数表示如下：

；

其中，表示生成的人脸和目标人脸的损失函数，表示裁剪的人脸，通过目标人物的头部姿态和完整的目标人物图像对应提取，表示真实的目标人物图像，表示裁剪的人脸，为具有预先训练权重的VGG-19网络的第层激活特征图。用于计算生成的人脸和目标人脸的损失。

进一步地，如图2所示的整个网络使用对抗损失来约束，使得鉴别器的判别能力越来越强，生成器产生的结果越来越接近目标图像。具体表示如下：

；

其中，表示对抗损失函数，D代表鉴别器，用于判断真实图像和生成图像的分布差异；G代表生成器，用于生成虚假的目标图像。、以及分别表示来自目标纹理图、目标姿态以及目标人物图像的真实分布；表示来自生成的目标纹理图虚假分布。

；

最后，如图2所示的整个网络的总体损失函数可表示为：

；

其中，、、、以及都为用于平衡不同损失函数的调优参数，调优参数根据以往经验和实验得到。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于UV空间变换的人体图像生成方法，其特征在于，包括以下步骤：

制作训练数据集，并从中提取训练数据的源人物图像和源人物姿态，进而通过变换得到源人物UV纹理图和源人物姿态纹理图；对所述源人物UV纹理图和源人物姿态纹理图进行拆分，各对应依次拆分成M个部分，得到各身体部分的源人物UV纹理图和源人物姿态纹理图，将每一身体部分都使用源人物UV纹理图填充目标姿态纹理图和源人物UV纹理图共有的像素来得到不完整的目标UV纹理图；

将得到的各身体部分的源人物UV纹理图和目标姿态纹理图以及不完整的目标UV纹理图输入流场预测模型中学习一个流场，得到流场坐标；

根据得到的所述预测的目标人物纹理特征，将其与预设的目标姿态特征一同传入特征细化模块，得到细化纹理特征，同理，得到M个部分的细化纹理特征；

2.根据权利要求1所述的一种基于UV空间变换的人体图像生成方法，其特征在于：所述将得到的各身体部分的源人物UV纹理图、目标姿态纹理图以及不完整的目标UV纹理图输入流场预测模型中进行流场学习，得到位置坐标的偏移量的具体方法为：流场的学习需要通过采样正确性损失来监督，损失函数具体表示为：

；

其中，N表示特征图中的N个位置；和分别表示使用VGG网络提取的源人物图像以及目标人物图像的特征，并使用表示特征经过流场F变换后的结果；和表示位置p处的和的特征；是特征图中所有位置的坐标集合；为归一化项，由公式获得。

3.根据权利要求2所述的一种基于UV空间变换的人体图像生成方法，其特征在于：包括对流场学习中自由度的进行几何约束流约束，所述几何约束流的公式为：

；

4.根据权利要求1所述的一种基于UV空间变换的人体图像生成方法，其特征在于：所述根据得到的所述流场坐标变换源人物UV纹理特征，得到预测的目标人物纹理特征的具体方法为：使用第一编码器提取需要用于流场变换使用的特征，提取的特征经过流场变换后得到预测的部分目标UV纹理图的特征。

5.根据权利要求4所述的一种基于UV空间变换的人体图像生成方法，其特征在于：所述得到细化纹理特征的具体方法为：

。

6.根据权利要求5所述的一种基于UV空间变换的人体图像生成方法，其特征在于：

将各身体部分的细化后UV纹理图的特征沿通道连接后传入主干网络和源人物纹理特征一同经过卷积网络得到第一阶段预测的目标人物UV纹理图；生成的目标人物UV纹理图采用目标图像的UV纹理图进行监督，其损失函数表示如下：

；

式中，表示L1损失函数；

7.根据权利要求1所述的一种基于UV空间变换的人体图像生成方法，其特征在于：所述完整的目标人物图像中人脸需要进行清晰度处理，处理方法为：

；

8.根据权利要求1所述的一种基于UV空间变换的人体图像生成方法，其特征在于：使用对抗损失来约束，提高完整的目标人物图像的准确度，具体方法为：

；

9.根据权利要求1所述的一种基于UV空间变换的人体图像生成方法，其特征在于：使用感知损失函数来监督完整的目标人物图像和真实的目标人物图像之间的特征损失，具体表示如下：

；