CN112530003B

CN112530003B - 一种三维人手重建方法、装置及电子设备

Info

Publication number: CN112530003B
Application number: CN202011443402.0A
Authority: CN
Inventors: 陈平; 杨东
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2023-10-27
Anticipated expiration: 2040-12-11
Also published as: CN112530003A

Abstract

本申请实施例提供了一种三维人手重建方法、装置及电子设备，方法包括：获取目标单目RGB人手图像；将目标单目RGB人手图像输入预先训练得到的人手重建模型，得到目标UV图像，人手重建模型是利用预设训练集对仿射变换网络进行训练得到的模型，预设训练集包括样本单目RGB人手图像和样本UV图像，样本UV图像为按照预设映射关系将样本三维人手点云进行UV展开得到的图像，样本三维人手点云和样本单目RGB人手图像包括同一人手；按照预设映射关系对目标UV图像进行采样，得到目标三维人手点云。应用本申请实施例提供的技术方案，提高了人手重建模型的稳定性，以及人手重建模型对单目RGB人手图像的背景、人手的尺寸和位置等干扰因素的鲁棒性。

Description

一种三维人手重建方法、装置及电子设备

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种三维人手重建方法、装置及电子设备。

背景技术

单目RGB(red Green Blue，红绿蓝)人手图像的人手姿态估计与3D(Dimension，维)人手的重建在计算机视觉技术领域中一直是一个具有挑战性的难题。

目前，单目RGB人手图像的3D标注信息主要采用MANO模型来获得。采用MANO模型在3D人手的重建中取得了不错的效果，但是受单目RGB人手图像的背景、人手的尺寸和位置等因素的干扰，重建出的3D人手并不能在像素级别与原始的单目RGB人手图像很好的重叠。并且，采用MANO模型进行3D人手的重建，本质上是对稀疏点云的学习，这使得重建出3D人手并不稳定，即人手重建模型的稳定性较差。

发明内容

本申请实施例的目的在于提供一种三维人手重建方法、装置及电子设备，以提高人手重建模型的稳定性，以及人手重建模型对单目RGB人手图像的背景、人手的尺寸和位置等干扰因素的鲁棒性。具体技术方案如下：

第一方面，本申请实施例提供了一种三维人手重建方法，所述方法包括：

获取目标单目RGB人手图像；

将所述目标单目RGB人手图像输入预先训练得到的人手重建模型，得到目标UV图像，所述人手重建模型是利用预设训练集对仿射变换网络进行训练得到的模型，所述预设训练集包括样本单目RGB人手图像和样本UV图像，所述样本UV图像为按照预设映射关系将样本三维人手点云进行UV展开得到的图像，所述样本三维人手点云和所述样本单目RGB人手图像包括同一人手；

按照所述预设映射关系对所述目标UV图像进行采样，得到目标三维人手点云。

可选的，所述人手重建模型采用如下步骤训练得到：

获取所述预设训练集，所述预设训练集包括所述样本单目RGB人手图像和所述样本UV图像；

将所述样本单目RGB人手图像输入所述仿射变换网络，得到预测UV图像；

根据所述预测UV图像和所述样本UV图像，确定所述仿射变换网络的损失值；

若根据所述损失值确定所述仿射变换网络未收敛，则调整所述仿射变换网络的参数，并重新执行所述将所述样本单目RGB人手图像输入所述仿射变换网络，得到预测UV图像的步骤；

若根据所述损失值确定所述仿射变换网络收敛，则根据所述损失值确定所述仿射变换网络收敛，则结束训练，将所述仿射变换网络作为人手重建模型。

可选的，所述仿射变换网络包括多个编码层和多个解码层；所述多个编码层按照输出的特征图的分辨率从大到小的顺序排序，所述多个解码层按照输出的特征图的分辨率从小到大的顺序排序，所述多个解码层位于所述多个编码层之后；

所述仿射变换网络中，基于第i+1个解码层输出的特征图以及第i个编码层输出的特征图进行仿射变换和上采样，得到第i个解码层输出的特征图，所述第i个编码层为输出的特征图的分辨率排序在第i位的编码层，所述第i个解码层为输出的特征图的分辨率排序在第i位的解码层。

可选的，所述仿射变换网络利用如下公式实现：

Dⁿ＝f_con(f_up(Eⁿ))；

其中，i＝1,…,n-1，n表示所述多个编码层的个数，Eⁱ表示第i个编码层输出的编码特征图，表示第i+1个解码层输出的UV图像，/>表示第i个解码层输出的UV图像，表示使用预设投影矩阵对/>进行投影，f_ac(x，y)表示使用x对y进行放射变换，f_up(x)表示将x放大2倍，/>表示仿射变换后与/>对齐的特征图，Dⁱ表示第i个解码层输出的解码特征图，f_con(x，y，z)表示对x、y和z进行卷积，f_con(x，y)表示对x和y进行卷积，f_con(x)表示对x进行卷积。

可选的，所述根据所述预测UV图像和所述样本UV图像，确定所述仿射变换网络的损失值的步骤，包括：

利用如下公式确定所述仿射变换网络的损失值L_affine：

L_affine＝λ₁L_UV+λ₂L_grad+λ₃L_sampling；

其中，λ₁、λ₂和λ₃为预设参数，L_UV表示UV图像损失值，L_grad表示梯度损失值，L_sampling表示采样损失值，I_UV表示所述仿射变换网络输出的UV图像，表示样本UV图像，M表示UV图像的掩模，若所述样本UV图像中坐标(i，j)处没有被所述样本三维人手点云的点映射到，则M(i,j)＝0，若所述样本UV图像中坐标(i，j)处被所述样本三维人手点云的点映射到，则M(i,j)＝1，/>表示在UV图像的x方向上求梯度，/>表示在UV图像的y方向上求梯度，f_s(x,y)表示利用x对y进行采样，R表示UV图像与三维人手点云间的映射关系。

可选的，每一解码层的损失值比例为1。

第二方面，本申请实施例提供了一种三维人手重建装置，所述装置包括：

获取单元，用于获取目标单目RGB人手图像；

预测单元，用于将所述目标单目RGB人手图像输入预先训练得到的人手重建模型，得到目标UV图像，所述人手重建模型是利用预设训练集对仿射变换网络进行训练得到的模型，所述预设训练集包括样本单目RGB人手图像和样本UV图像，所述样本UV图像为按照预设映射关系将样本三维人手点云进行UV展开得到的图像，所述样本三维人手点云和所述样本单目RGB人手图像包括同一人手；

重建单元，用于按照所述预设映射关系对所述目标UV图像进行采样，得到目标三维人手点云。

可选的，所述装置还包括训练单元，用于训练得到所述人手重建模型；所述训练单元包括：

获取子单元，用于获取所述预设训练集，所述预设训练集包括所述样本单目RGB人手图像和所述样本UV图像；

预测子单元，用于将所述样本单目RGB人手图像输入所述仿射变换网络，得到预测UV图像；

确定子单元，用于根据所述预测UV图像和所述样本UV图像，确定所述仿射变换网络的损失值；

处理子单元，用于若根据所述损失值确定所述仿射变换网络未收敛，则调整所述仿射变换网络的参数；若根据所述损失值确定所述仿射变换网络收敛，则根据所述损失值确定所述仿射变换网络收敛，则结束训练，将所述仿射变换网络作为人手重建模型。

可选的，所述仿射变换网络利用如下公式实现：

Dⁿ＝f_con(f_up(Eⁿ))；

可选的，所述确定子单元，具体用于利用如下公式确定所述仿射变换网络的损失值L_affine：

L_affine＝λ₁L_UV+λ₂L_grad+λ₃L_sampling；

可选的，每一解码层的损失值比例为1。

第三方面，本申请实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现任一所述的三维人手重建方法步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现任一所述的三维人手重建方法步骤。

本申请实施例还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行任一所述的三维人手重建方法。

本申请实施例有益效果：

本申请实施例提供的技术方案中，将样本三维人手点云转换为样本UV图像，利用样本单目RGB人手图像和样本UV图像，对仿射变换网络进行训练，得到人手重建模型。本申请实施例中，利用该人手重建模型将单目RGB人手图像重建为三维人手点云，由于该人手重建模型在训练过程中引入UV图像，相当于通过对稠密点云的学习训练得到人手重建模型，这使得利用该人手重建模型重建的三维人手更为接近真实的人手，有效提高了人手重建模型的稳定性。

另外，利用仿射变换网络，训练得到人手重建模型，可以实现目标单目RGB人手图像和目标UV图像在特征层面的对齐，提高了人手重建模型对单目RGB人手图像的背景、人手的尺寸和位置等干扰因素的鲁棒性。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本申请实施例提供的三维人手重建方法的一种流程示意图；

图2为本申请实施例提供的人手重建模型的训练方法的一种流程示意图；

图3为本申请实施例提供的三维人手点云进行UV展开的一种示意图；

图4为本申请实施例提供的仿射变换网络的一种示意图；

图5为本申请实施例提供的三维人手重建装置的一种结构示意图；

图6为本申请实施例提供的训练单元的一种结构示意图；

图7为本申请实施例提供的一种电子设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，主要采用MANO模型，来将单目RGB人手图像重建为3D人手。这种3D人手的重建方式取得了不错的效果，但是受单目RGB人手图像的背景、人手的尺寸和位置等因素的干扰，重建出的3D人手并不能在像素级别与原始的单目RGB人手图像很好的重叠。

此外，采用MANO模型进行3D人手的重建时，作为激励的点为MANO模型输出的少量的点，如778个点，利用这778个点与真实3D人手点云中的78个点对比，计算损失值。也就是，通过对稀疏点云的学习训练得到人手重建模型，这使得重建出3D人手并不稳定，人手重建模型的稳定性较差。

为解决上述问题，本申请实施例提供了一种三维人手重建方法，该方法可以应用于服务器、PC(Personal Computer，个人电脑)、平板等运行有人手重建模型的电子设备。该人手重建模型是利用预设训练集对仿射变换网络进行训练得到的模型，预设训练集包括样本单目RGB人手图像和样本UV图像，样本UV图像为按照预设映射关系将样本三维人手点云进行UV展开得到的图像，样本三维人手点云和样本单目RGB人手图像包括同一人手。

该三维人手重建方法中，当获取到目标单目RGB人手图像时，将目标单目RGB人手图像输入预先训练得到的人手重建模型，该人手重建模型输出目标UV图像，按照预设映射关系对该目标UV图像进行采样，就可以得到目标三维人手点云。

具体可参见图1，图1为本申请实施例提供的三维人手重建方法的一种流程示意图，该方法包括如下步骤：

步骤S11，获取目标单目RGB人手图像；

步骤S12，将目标单目RGB人手图像输入预先训练得到的人手重建模型，得到目标UV图像，人手重建模型是利用预设训练集对仿射变换网络进行训练得到的模型，预设训练集包括样本单目RGB人手图像和样本UV图像，样本UV图像为按照预设映射关系将样本三维人手点云进行UV展开得到的图像，样本三维人手点云和样本单目RGB人手图像包括同一人手；

步骤S13，按照预设映射关系对目标UV图像进行采样，得到目标三维人手点云。

为便于描述，下面以电子设备为执行主体进行说明，并不起限定作用

上述步骤S11中，目标单目RGB人手图像为包括需要重建的人手的RGB图像。在需要重建一人手时，电子设备获取包括该人手的单目RGB图像，作为目标单目RGB人手图像。

上述步骤S12中，电子设备中存储了预先训练得到的人手重建模型，人手重建模型的输入为单目RGB人手图像，输出为UV图像。UV图像中每一像素点的RGB值表示3D点的xyz坐标。电子设备将目标单目RGB人手图像输入预先训练得到的人手重建模型，人手重建模型即可输出目标UV图像。

关于人手重建模型的训练过程，下面会进行详细说明，此处不做展开介绍。

上述步骤S13中，电子设备预先存储了训练仿射变换网络时所采用的三维人手点和UV图像之间的映射关系，即预设映射关系。电子设备按照该预设映射关系对目标UV图像进行采样，得到目标三维人手点云。电子设备显示的该目标三维人手点云，即为3D人手。

基于上述三维人手重建方法，本申请实施例还提供了一种人手重建模型的训练方法。参见图2，图2为本申请实施例提供的人手重建模型的训练方法的一种流程示意图，该方法包括如下步骤：

步骤S21，获取预设训练集，预设训练集包括样本单目RGB人手图像和样本UV图像；

步骤S22，将样本单目RGB人手图像输入仿射变换网络，得到预测UV图像；

步骤S23，根据预测UV图像和样本UV图像，确定仿射变换网络的损失值；

步骤S24，根据仿射变换网络的损失值确定仿射变换网络是否收敛。若确定仿射变换网络未收敛，则执行步骤S25；若确定仿射变换网络收敛，则执行步骤S26；

步骤S25，调整仿射变换网络的参数，并重新执行步骤S22；

步骤S26，结束训练，将仿射变换网络作为人手重建模型。

本申请实施例提供了技术方案中，样本UV图像为利用样本三维人手点云得到的UV图像，也就是，样本UV图像为对真实三维人手点云进行UV展开得到。利用样本UV图像作为标签，基于样本单目RGB人手图像对仿射变换网络进行训练，得到人手重建模型。该人手重建模型的训练过程，以UV图像包括的点作为激励，实现了通过对稠密点云的学习，训练得到人手重建模型，进一步提高了人手重建模型的稳定性。

另外，利用仿射变换网络，训练得到人手重建模型，可以实现了人手重建模型的输入和输出在特征层面的对齐，提高了人手重建模型对单目RGB人手图像的背景、人手的尺寸和位置等干扰因素的鲁棒性。

上述步骤S21中，电子设备获取预设训练集。该预设训练集包括样本单目RGB人手图像和样本UV图像。

在本申请的一个实施例中，电子设备中可以预先存储样本单目RGB人手图像和对应的样本UV图像。在需要训练人手重建模型时，电子设备直接获取预先存储的样本单目RGB人手图像和样本UV图像作为预设训练集。

在本申请的另一个实施例中，电子设备中可以预先存储样本单目RGB人手图像和对应的样本三维人手点云。在需要训练人手重建模型时，电子设备可通过MAYA(玛雅)软件对MANO模型进行UV展开，并记录下三维点到UV平面的映射关系，即预设映射关系。该预设映射关系可以用于表示每个三维点在UV图像上的坐标。电子设备按照预设映射关系对每个人手的样本三维人手点云进行相同的UV展开，得到样本UV图像，如图3所示。该样本UV图像中每个点RGB值为对应的三维人手点的xyz坐标。电子设备基于预先存储的样本单目RGB人手图像，以及对样本三维人手点云进行UV展开得到的样本UV图像，获得预设训练集。

本申请实施例中，对预设训练集的获取方式不做限定。另外，为了提高训练得到的人手重建模型的稳定性，预设训练集包括的样本单目RGB人手图像和样本UV图像的数量越多越好。为了提高训练得到的人手重建模型的速率，预设训练集包括的样本单目RGB人手图像和样本UV图像的数量越少越好。

具体的预设训练集包括的样本单目RGB人手图像和样本UV图像的数量，可以实际需求进行设定。

上述步骤S22中，仿射变换网络可由编解码网络组成，如ResNet-50、ResNet-18网络等。仿射变换网络的输入为单目RGB人手图像，输出为UV图像。在获取到预设训练集后，电子设备将预设训练集包括的样本单目RGB人手图像输入仿射变换网络，得到预测UV图像。

一个示例中，仿射变换网络可以包括多个编码层和多个解码层。多个编码层按照输出的特征图的分辨率从大到小的顺序排序，多个解码层按照输出的特征图的分辨率从小到大的顺序排序，多个解码层位于多个编码层之后，

在该仿射变换网络中，基于第i+1个解码层输出的特征图以及第i个编码层输出的特征图进行仿射变换和上采样，得到第i个解码层输出的特征图，第i个编码层为输出的特征图的分辨率排序在第i位的编码层，第i个解码层为输出的特征图的分辨率排序在第i位的解码层。

例如，如图4所示，仿射变换网络可以包括5个编码层和5个解码层。图4中字母A表示仿射变换。图4中，各个编码层和编码层对输出的特征图进行卷积操作后输出相应的特征图。各个编码层输出的特征图的分辨率从大到小的顺序为：第1个编码层输出的特征图→第2个编码层输出的特征图→第3个编码层输出的特征图→第4个编码层输出的特征图→第5个编码层输出的特征图。各个解码层输出的特征图的分辨率从大到小的顺序为：第1个解码层输出的特征图→第2个解码层输出的特征图→第3个解码层输出的特征图→第4个解码层输出的特征图→第5个解码层输出的特征图。

基于第5个解码层输出的特征图以及第4个编码层输出的特征图进行仿射变换，得到第4个解码层输出的特征图；基于第4个解码层输出的特征图以及第3个编码层输出的特征图进行仿射变换，得到第3个解码层输出的特征图；基于第3个解码层输出的特征图以及第2个编码层输出的特征图进行仿射变换，得到第2个解码层输出的特征图；基于第2个解码层输出的特征图以及第1个编码层输出的特征图进行仿射变换，得到第1个解码层输出的特征图。解码层输出的特征图包括UV图像。因此，基于第1个解码层输出的特征图，可得到需要的预测UV图像。

本申请实施例中，仿射变换网络中解码层输出的特征图的分辨率从小到大变换，也就是，输出的UV图像的分辨率从小到大变换，实现了由粗到精的三维人手重建。基于此，训练得到的人手重建模型对人手在单目RGB人手图像中的尺度、位置、遮挡等因素具有强鲁棒性。

本申请实施例中，相邻编码层和/或解码层间的分辨率比例为1:2、1:3等，具体可以根据实际需求进行设定。仿射变换网络的部署可以根据实际需求进行设定，只需保证仿射变换网络输出的UV图像包括点的个数大于等于第一数量，即仿射变换网络输出的UV图像包括点的个数大于等于重建的原始三维人手点云包括点的个数即可。

在本申请的一个实施例中，仿射变换网络可以利用如下公式实现：

Dⁿ＝f_con(f_up(Eⁿ))；

其中，i＝1,…,n-1，n表示仿射变换网络包括的多个编码层的个数，Eⁱ表示第i个编码层输出的编码特征图，表示第i+1个解码层输出的UV图像，/>表示第i个解码层输出的UV图像，/>表示使用预设投影矩阵对/>进行投影，f_ac(x，y)表示使用x对y进行放射变换，f_up(x)表示将x放大2倍，/>表示仿射变换后与/>对齐的特征图，/>相对于Eⁱ包含了更多与人手相关的特征，Dⁱ表示第i个解码层输出的解码特征图，f_con(x，y，z)表示对x、y和z进行卷积，f_con(x，y)表示对x和y进行卷积，f_con(x)表示对x进行卷积。

上述预设投影矩阵可以根据实际需求进行设定。一个示例中，预设投影矩阵可以采用正投影矩阵。

仍以图4所示的仿射变换网络为例进行说明。n＝5。则仿射变换网络的实现公式如下：

D⁵＝f_con(f_up(E⁵))；

上述步骤S23中，电子设备基于仿射变换网络输出的预测UV图像，以及预设训练集包括的样本UV图像，确定仿射变换网络的损失值。

一个示例中，电子设备可以计算预测UV图像和样本UV图像的相似度，将相似度的倒数作为仿射变换网络的损失值。

另一个示例中，电子设备可以利用如下公式计算确定仿射变换网络的损失值：

L_affine＝λ₁L_UV+λ₂L_grad+λ₃L_sampling；

其中，λ₁、λ₂和λ₃为预设参数，L_affine表示仿射变换网络的损失值，L_UV表示UV图像损失值，L_grad表示梯度损失值，L_sampling表示采样损失值，I_UV表示仿射变换网络输出的UV图像，表示样本UV图像，M表示UV图像的掩模，若样本UV图像中坐标(i，j)处没有被样本三维人手点云的点映射到，则M(i,j)＝0，若样本UV图像中坐标(i，j)处被样本三维人手点云的点映射到，则M(i,j)＝1，/>表示在UV图像的x方向上求梯度，/>表示在UV图像的y方向上求梯度，f_s(x,y)表示利用x对y进行采样，R表示UV图像与三维人手点云间的映射关系，即预设映射关系。

UV图像本质上可以看成将三维模型上每个三角面不重叠地映射到二维平面上，所以在UV图像上对应的三角片区域的值应该是连续的。本申请实施例中，在计算仿射变换网络的损失值时，考虑了梯度损失值L_grad，有助于仿射变换网络的收敛。

另外，当对仿射变换网络输出的UV图像进行重建后，需要从UV图像上采固定点云来还原三维人手模型。本申请实施例中，在计算仿射变换网络的损失值时，考虑了采样损失值，进一步有助于仿射变换网络的收敛，保证训练得到的人手重建模型更加稳定。

在本申请的一个实施例中，可以计算各个解码层的损失值L_affine，进而调整各个解码层的参数，提高人手重建模型训练的效率。其中，每一解码层的损失值比例可以为1。

本申请实施例中，每一解码层的损失值比例也可以为0.8等，具体可以根据实际需求进行设定。

为了节约电子设备的计算资源，电子设备可以确定目标解码层，该目标解码层输出的特征图包括点的个数大于重建三维点云需要采样的点的个数。目标解码层的个数大于等于1。电子设备计算目标解码层的损失值L_affine。并基于目标解码层的损失值L_affine，调整仿射变换网络的参数。

目标解码层输出的特征图包括点的个数大于重建三维模型需要采样的点的个数，则可认为该解码层输出的特征图包括的特征点过少，重建三维点云的意义不大。本申请实施例中，仅计算目标解码层的损失值L_affine，而不考虑其他解码层的损失值L_affine，有效节约了电子设备的计算资源。

上述步骤S24中，电子设备根据仿射变换网络的损失值确定仿射变换网络是否收敛。例如，电子设备中预先设置损失阈值，即预设损失阈值。电子设备判断计算得到的仿射变换网络的损失值是否大于预设损失阈值。若计算得到的仿射变换网络的损失值大于预设损失阈值，则电子设备可确定仿射变换网络未收敛，执行步骤S25，调整仿射变换网络的参数，并重新执行步骤S22。若计算得到的仿射变换网络的损失值小于等于预设损失阈值，则电子设备可确定仿射变换网络收敛，执行步骤S26，结束训练，将仿射变换网络作为人手重建模型。

与上述三维人手重建方法对应，本申请实施例提供了一种三维人手重建装置，如图5所示，该装置包括：

获取单元51，用于获取目标单目RGB人手图像；

预测单元52，用于将目标单目RGB人手图像输入预先训练得到的人手重建模型，得到目标UV图像，人手重建模型是利用预设训练集对仿射变换网络进行训练得到的模型，预设训练集包括样本单目RGB人手图像和样本UV图像，样本UV图像为按照预设映射关系将样本三维人手点云进行UV展开得到的图像，样本三维人手点云和样本单目RGB人手图像包括同一人手；

重建单元53，用于按照预设映射关系对目标UV图像进行采样，得到目标三维人手点云。

在本申请的一个实施例中，上述三维人手重建装置还可以包括训练单元，用于训练得到人手重建模型。如图6所示，该训练单元可以包括：

获取子单元61，用于获取预设训练集，预设训练集包括样本单目RGB人手图像和样本UV图像；

预测子单元62，用于将样本单目RGB人手图像输入仿射变换网络，得到预测UV图像；

确定子单元63，用于根据预测UV图像和样本UV图像，确定仿射变换网络的损失值；

处理子单元64，用于若根据损失值确定仿射变换网络未收敛，则调整仿射变换网络的参数；若根据损失值确定仿射变换网络收敛，则根据损失值确定仿射变换网络收敛，则结束训练，将仿射变换网络作为人手重建模型。

在本申请的一个实施例中，仿射变换网络包括多个编码层和多个解码层；多个编码层按照输出的特征图的分辨率从大到小的顺序排序，多个解码层按照输出的特征图的分辨率从小到大的顺序排序，多个解码层位于多个编码层之后；

仿射变换网络中，基于第i+1个解码层输出的特征图以及第i个编码层输出的特征图进行仿射变换和上采样，得到第i个解码层输出的特征图，第i个编码层为输出的特征图的分辨率排序在第i位的编码层，第i个解码层为输出的特征图的分辨率排序在第i位的解码层。

在本申请的一个实施例中，仿射变换网络利用如下公式实现：

Dⁿ＝f_con(f_up(Eⁿ))；

其中，i＝1,…,n-1，n表示多个编码层的个数，Eⁱ表示第i个编码层输出的编码特征图，表示第i+1个解码层输出的UV图像，/>表示第i个解码层输出的UV图像，/>表示使用预设投影矩阵对/>进行投影，f_ac(x，y)表示使用x对y进行放射变换，f_up(x)表示将x放大2倍，/>表示仿射变换后与/>对齐的特征图，Dⁱ表示第i个解码层输出的解码特征图，f_con(x，y，z)表示对x、y和z进行卷积，f_con(x，y)表示对x和y进行卷积，f_con(x)表示对x进行卷积。

在本申请的一个实施例中，确定子单元63，具体可以用于利用如下公式确定仿射变换网络的损失值L_affine：

L_affine＝λ₁L_UV+λ₂L_grad+λ₃L_sampling；

其中，λ₁、λ₂和λ₃为预设参数，L_UV表示UV图像损失值，L_grad表示梯度损失值，L_sampling表示采样损失值，I_UV表示仿射变换网络输出的UV图像，表示样本UV图像，M表示映射矩阵，若样本UV图像中坐标(i，j)处没有被样本三维人手点云的点映射到，则M(i,j)＝0，若样本UV图像中坐标(i，j)处被样本三维人手点云的点映射到，则M(i,j)＝1，/>表示在UV图像的x方向上求梯度，/>表示在UV图像的y方向上求梯度，f_s(x,y)表示利用x对y进行采样，R表示UV图像与三维人手点云间的映射关系。

在本申请的一个实施例中，每一解码层的损失值比例为1。

与上述三维人手重建方法对应，本申请实施例还提供了一种电子设备，如图7所示，包括处理器71、通信接口72、存储器73和通信总线74，其中，处理器71、通信接口72和存储器73通过通信总线74完成相互间的通信；

存储器73，用于存放计算机程序；

处理器71，用于执行存储器73上所存放的程序时，实现如下步骤：

获取目标单目RGB人手图像；

将目标单目RGB人手图像输入预先训练得到的人手重建模型，得到目标UV图像，人手重建模型是利用预设训练集对仿射变换网络进行训练得到的模型，预设训练集包括样本单目RGB人手图像和样本UV图像，样本UV图像为按照预设映射关系将样本三维人手点云进行UV展开得到的图像，样本三维人手点云和样本单目RGB人手图像包括同一人手；

按照预设映射关系对目标UV图像进行采样，得到目标三维人手点云。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

上述通信接口用于上述电子设备与其他设备之间的通信。

上述存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述任一三维人手重建方法的步骤。

在本申请提供的又一实施例中，还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述实施例中任一三维人手重建方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于三维人手重建装置、电子设备、计算机可读存储介质和计算机程序而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种三维人手重建方法，其特征在于，所述方法包括：

获取目标单目红绿蓝RGB人手图像；

将所述目标单目红绿蓝RGB人手图像输入预先训练得到的人手重建模型，得到目标UV图像，所述人手重建模型是利用预设训练集对仿射变换网络进行训练得到的模型，所述预设训练集包括样本单目RGB人手图像和样本UV图像，所述样本UV图像为按照预设映射关系将样本三维人手点云进行UV展开得到的图像，所述样本三维人手点云和所述样本单目RGB人手图像包括同一人手；其中，所述预设映射关系用于表示每个三维点在UV图像上的坐标；所述仿射变换网络包括多个编码层和多个解码层；所述多个编码层按照输出的特征图的分辨率从大到小的顺序排序，所述多个解码层按照输出的特征图的分辨率从小到大的顺序排序，所述多个解码层位于所述多个编码层之后；所述仿射变换网络利用如下公式实现：

Dⁿ＝f_con(f_up(Eⁿ))；

其中，i＝1,…,n-1，n表示所述多个编码层的个数，Eⁱ表示第i个编码层输出的编码特征图，表示第i+1个解码层输出的UV图像，/>表示第i个解码层输出的UV图像，/>表示使用预设投影矩阵对/>进行投影，f_ac(x，y)表示使用x对y进行放射变换，f_up(x)表示将x放大2倍，/>表示仿射变换后与/>对齐的特征图，Dⁱ表示第i个解码层输出的解码特征图，f_con(x，y，z)表示对x、y和z进行卷积，f_con(x，y)表示对x和y进行卷积，f_con(x)表示对x进行卷积；

2.根据权利要求1所述的方法，其特征在于，所述人手重建模型采用如下步骤训练得到：

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求3所述的方法，其特征在于，所述根据所述预测UV图像和所述样本UV图像，确定所述仿射变换网络的损失值的步骤，包括：

利用如下公式确定所述仿射变换网络的损失值L_affine：

L_affine＝λ₁L_UV+λ₂L_grad+λ₃L_sampling；

5.根据权利要求3-4任一项所述的方法，其特征在于，每一解码层的损失值比例为1。

6.一种三维人手重建装置，其特征在于，所述装置包括：

获取单元，用于获取目标单目红绿蓝RGB人手图像；

预测单元，用于将所述目标单目红绿蓝RGB人手图像输入预先训练得到的人手重建模型，得到目标UV图像，所述人手重建模型是利用预设训练集对仿射变换网络进行训练得到的模型，所述预设训练集包括样本单目RGB人手图像和样本UV图像，所述样本UV图像为按照预设映射关系将样本三维人手点云进行UV展开得到的图像，所述样本三维人手点云和所述样本单目RGB人手图像包括同一人手；其中，所述预设映射关系用于表示每个三维点在UV图像上的坐标；所述仿射变换网络包括多个编码层和多个解码层；所述多个编码层按照输出的特征图的分辨率从大到小的顺序排序，所述多个解码层按照输出的特征图的分辨率从小到大的顺序排序，所述多个解码层位于所述多个编码层之后；所述仿射变换网络利用如下公式实现：

Dⁿ＝f_con(f_up(Eⁿ))；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括训练单元，用于训练得到所述人手重建模型；所述训练单元包括：

8.根据权利要求7所述的装置，其特征在于，

9.根据权利要求8所述的装置，其特征在于，所述确定子单元，具体用于利用如下公式确定所述仿射变换网络的损失值L_affine：

L_affine＝λ₁L_UV+λ₂L_grad+λ₃L_sampling；

其中，λ₁、λ₂和λ₃为预设参数，L_UV表示UV图像损失值，L_grad表示梯度损失值，L_sampling表示采样损失值，I_UV表示所述仿射变换网络输出的UV图像，表示样本UV图像，M表示UV图像的掩模，若所述样本UV图像中坐标(i，j)处没有被所述样本三维人手点云的点映射到，则M(i，j)＝0，若所述样本UV图像中坐标(i，j)处被所述样本三维人手点云的点映射到，则M(i，j)＝1，/>表示在UV图像的x方向上求梯度，/>表示在UV图像的y方向上求梯度，f_s(x，y)表示利用x对y进行采样，R表示UV图像与三维人手点云间的映射关系。

10.根据权利要求8-9任一项所述的装置，其特征在于，每一解码层的损失值比例为1。

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-5任一所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法。