CN115147547B

CN115147547B - 人体重建方法和装置

Info

Publication number: CN115147547B
Application number: CN202210769316.1A
Authority: CN
Inventors: 杨黔生
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2023-09-19
Anticipated expiration: 2042-06-30
Also published as: CN115147547A

Abstract

本公开提供了人体重建方法和装置，涉及人工智能技术领域，具体涉及计算机视觉、图像处理和深度学习技术领域。具体实施方式包括：将人体图像输入人体重建模型，利用所述人体重建模型的主干网络，提取所述人体图像的特征；基于人体重建模型中的两个分支网络，分别处理特征，得到关键点定位图和形态特征图；利用所述人体重建模型，对所述关键点定位图和所述形态特征图进行融合，生成蒙皮多人线性SMPL参数，其中，所述SMPL参数包括姿态参数和形态参数。本公开提供了两个分支网络，可以提高预测的准确度。

Description

人体重建方法和装置

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉、图像处理和深度学习技术领域，尤其涉及人体重建方法和装置。

背景技术

随着社会的进步和科技的迅猛发展，短视频、直播、在线教育等行业不断的兴起，在各种交互场景中，基于人体重建进行互动的功能需求越来越多。

举例来说，对人体模型进行3D重建的技术可广泛运用于行为识别，人体特效生成，娱乐游戏交互等场景。

发明内容

提供了一种人体重建方法、装置、电子设备以及存储介质。

根据第一方面，提供了一种人体重建方法，包括：将人体图像输入预训练的人体重建模型，利用人体重建模型的主干网络，提取人体图像的特征，其中，人体重建模型包括两个分支网络；基于两个分支网络，分别处理特征，得到关键点定位图和形态特征图；利用人体重建模型，对关键点定位图和形态特征图进行融合，生成蒙皮多人线性SMPL参数，其中，SMPL参数包括姿态参数和形态参数。

根据第二方面，提供了一种人体重建模型的训练方法，方法包括：将人体图像样本输入待训练的人体重建模型，利用人体重建模型的主干网络，提取人体图像样本的特征，其中，人体重建模型包括两个分支网络；基于两个分支网络，分别处理特征，得到关键点定位图和形态特征图；利用人体重建模型，对关键点定位图和形态特征图进行融合，生成SMPL参数，其中，SMPL参数包括姿态参数和形态参数；确定SMPL参数对应的二维关键点；基于二维关键点和人体图像样本的二维关键点真值，训练人体重建模型，得到目标人体重建模型。

根据第三方面，提供了一种人体重建装置，包括：特征单元，被配置成将人体图像输入预训练的人体重建模型，利用人体重建模型的主干网络，提取人体图像的特征，其中，人体重建模型包括两个分支网络；分支单元，被配置成基于两个分支网络，分别处理特征，得到关键点定位图和形态特征图；融合单元，被配置成利用人体重建模型，对关键点定位图和形态特征图进行融合，生成蒙皮多人线性SMPL参数，其中，SMPL参数包括姿态参数和形态参数。

根据第四方面，提供了一种人体重建模型的训练装置，装置包括：提取单元，被配置成将人体图像样本输入待训练的人体重建模型，利用人体重建模型的主干网络，提取人体图像样本的特征，其中，人体重建模型包括两个分支网络；执行单元，被配置成基于两个分支网络，分别处理特征，得到关键点定位图和形态特征图；生成单元，被配置成利用人体重建模型，对关键点定位图和形态特征图进行融合，生成SMPL参数，其中，SMPL参数包括姿态参数和形态参数；确定单元，被配置成确定SMPL参数对应的二维关键点；训练单元，被配置成基于二维关键点和人体图像样本的二维关键点真值，训练人体重建模型，得到目标人体重建模型。

根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行人体重建方法中任一实施例的方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行根据人体重建方法中任一实施例的方法。

根据第七方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现根据人体重建方法中任一实施例的方法。

根据本公开的方案，设定了两个分支的任务，有助于提高模型的预测准确度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开一些实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的人体重建方法的一个实施例的流程图；

图3a是根据本公开的人体重建方法的又一个实施例的流程图；

图3b是根据本公开的人体重建方法的高斯热图真值的图像；

图4是根据本公开的人体重建方法的一个应用场景的示意图；

图5是根据本公开的人体重建装置的一个实施例的结构示意图；

图6是用来实现本公开实施例的人体重建方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的人体重建方法或人体重建装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如视频类应用、直播应用、即时通信工具、邮箱客户端、社交平台软件等。

这里的终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对接收到的人体图像等数据进行分析等处理，并将处理结果(例如蒙皮多人线性SMPL参数或三维人体图像)反馈给终端设备。

需要说明的是，本公开实施例所提供的人体重建方法可以由服务器105或者终端设备101、102、103执行，相应地，人体重建装置可以设置于服务器105或者终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本公开的人体重建方法的一个实施例的流程200。该人体重建方法，包括以下步骤：

步骤201，将人体图像输入预训练的人体重建模型，利用人体重建模型的主干网络，提取人体图像的特征，其中，人体重建模型包括两个分支网络。

在本实施例中，人体重建方法运行于其上的执行主体(例如图1所示的服务器或终端设备)可以将二维的人体图像输入人体重建模型，从而可以利用人体重建模型的主干网络(比如残差神经网络ResNet)，提取人体图像的特征。具体地，该主干网络至少包括多个卷积层。

所提取的特征，是经过多个卷积层的卷积得到的图像高级语义特征。

分支网络指在人体重建模型中的中间任务包括不止一个，而是包括至少两个，每个中间任务对应一个分支网络。中间任务指该分支网络的输出并不是模型的最终输出。分支网络比如可以是上采样网络或者预设函数，比如上采样网络可以是两个反卷积组成的上采样网络。

步骤202，基于两个分支网络，分别处理特征，得到关键点定位图和形态特征图。

在本实施例中，上述执行主体可以通过人体重建模型，对提取的特征执行上述两个分支网络分别对应的中间任务。上述执行主体执行其中一个分支网络对应的中间任务得到关键点定位图，执行另一个分支网络对应的中间任务，得到形态特征图。

人体重建模型中存在指定的网络，上述执行主体可以利用该指定的网络将特征输入到不同的分支网络中，比如，该指定的网络可以是反卷积网络。

步骤203，利用人体重建模型，对关键点定位图和形态特征图进行融合，生成蒙皮多人线性SMPL参数，其中，SMPL参数包括姿态参数和形态参数。

在本实施例中，上述执行主体可以利用人体重建模型，对关键点定位图和形态特征图进行融合，融合的结果是蒙皮多人线性SMPL参数。人体重建模型中可以存在预设的函数，用于实现上述融合过程。举例来说，这里的融合可以指拼接。

具体地，SMPL参数可以包括姿态参数，姿态参数具体可以包括轴角θ。此外，SMPL参数还可以包括形态(shape)参数β。

上述执行主体或者其它电子设备可以生成SMPL参数对应的三维人体图像，从而实现人体的重建。具体地，上述执行主体或者其它电子设备可以采用各种方式实现人体的重建，比如将SMPL参数导入预设模型，并得到从预设模型输出的三维人体图像。举例来说，该预设模型可以包括Madymo多刚体行人模型，或者卷积神经网络模型，该卷积神经网络模型可以包括卷积层、注意力网络和融合网络(融合比如可以是相乘或拼接)。

本公开的上述实施例提供的方法可以通过执行两个中间任务，不仅可以对关键点进行定位，还可以得到形态的信息，从而得到图像更加全面的信息用于重建三维人体图像，有助于提高重建的准确度。

在本公开的任一实施例的一些可选的实现方式中，两个分支网络包括第一分支网络和第二分支网络；上述基于两个分支网络，分别处理特征，得到关键点定位图和形态特征图，可以包括:通过第一分支网络处理特征，以进行关键点定位，得到指示人体关键点的高斯热图；对高斯热图进行归一化，得到关键点定位图。

在这些可选的实现方式中，上述执行主体可以通过人体重建模型中的第一分支网络，并利用上述特征，对图像中的人体进行关键点定位。关键点定位的结果为高斯热图。之后，上述执行主体可以对高斯热图进行归一化，归一化的结果为关键点定位图。

并且，上述执行主体还可以利用第二分支网络，生成形态特征图。

这些实现方式可以通过生成高斯热图，来准确地实现关键点定位。

在本公开的任一实施例的一些可选的实现方式中，上述利用人体重建模型，对关键点定位图和形态特征图进行融合，生成蒙皮多人线性SMPL参数，包括：利用人体重建模型，对关键点定位图和形态特征图相乘，得到局部注意力特征图；对局部注意力特征图进行回归，生成SMPL参数。

在这些可选的实现方式中，上述执行主体可以通过相乘，来进行融合。相乘的结果为局部注意力特征图。局部注意力指分别关注图像中的每个特征点，而不是关注图像全局。这里的回归可以采用全连接层或者多层感知机进行。人体重建模型中存在预设的函数或模型，可以用于执行该相乘步骤。

这些实现方式可以通过相乘，更好地融合关键点定位结果和形态特征，从而有助于提高人体重建的准确度。

进一步参考图3a，其示出了人体重建模型训练方法的一个实施例的流程300。该流程300，包括以下步骤：

步骤301，将人体图像样本输入待训练的人体重建模型，利用人体重建模型的主干网络，提取人体图像样本的特征，其中，人体重建模型包括两个分支网络。

步骤302，基于两个分支网络，分别处理特征，得到关键点定位图和形态特征图。

步骤303，利用人体重建模型，对关键点定位图和形态特征图进行融合，生成SMPL参数，其中，SMPL参数包括姿态参数和形态参数。

步骤304，确定SMPL参数对应的二维关键点。

在本实施例中，人体重建模型训练方法运行于其上的执行主体(例如图1所示的服务器或终端设备)可以采用各种方式确定SMPL参数对应的二维关键点，比如利用指定模型确定二维关键点。

步骤305，基于二维关键点和人体图像样本的二维关键点真值，训练人体重建模型，得到目标人体重建模型。

在本实施例中，上述执行主体可以采用各种方式基于二维关键点和人体图像样本的二维关键点真值，训练待训练的人体重建模型。比如，上述执行主体可以通过二维关键点和人体图像样本的二维关键点真值，确定二维关键点的损失，并将该损失在待训练的人体重建模型中反向传播，从而得到训练后的人体重建模型也即目标人体重建模型。该目标人体重建模型可以应用于人体重建。具体地，该目标人体重建模型可以对输入的二维人体图像进行处理，输出SMPL参数。

因为三维关键点的标注的获取难度较大，相对较为稀缺，所以，上述执行主体可以采用二维关键点进行训练，从而得到人体重建模型。

本实施例可以通过执行两个中间任务，不仅可以对关键点进行定位，还可以得到形态的信息，从而得到图像更加全面的信息用于训练，有助于提高训练后模型的准确度。

在本实施例的一些可选的实现方式中，方法还包括：确定SMPL参数对应的三维关键点；确定三维关键点和人体图像样本的三维关键点真值之间的三维损失；以及基于三维关键点和人体图像样本的三维关键点真值，训练人体重建模型，包括：确定二维关键点和人体图像样本的二维关键点真值之间的二维损失；基于二维损失和三维损失，确定人体重建模型的总损失；基于总损失，训练人体重建模型。

在这些实现方式中，上述执行主体可以确定SMPL参数对应的三维关键点，比如，采用预置公式、预置模型或者进行直接解码，确定SMPL参数对应的三维关键点。

上述执行主体可以确定二维关键点和人体图像样本的二维关键点真值之间的损失，即是二维损失。并且，述执行主体可以确定三维关键点和人体图像样本的三维关键点真值之间的损失，即是三维损失。

上述执行主体可以采用各种方式，基于二维损失和三维损失，确定人体重建模型的总损失。举例来说，上述执行主体可以直接将二维损失和三维损失的和，作为人体重建模型的总损失。

在一些情况下，人体图像样本不存在对于预测结果的标注，比如人体图像样本是野外背景图像时，那么该情况下通常采用本实现方式。

这些实现方式可以综合二维损失和三维损失，较为全面地确定人体重建模型的损失值，从而有助于提高训练模型的准确度。

可选地，方法还可以包括：确定SMPL参数和SMPL参数真值之间的损失，将该损失作为预测损失；以及基于二维损失和三维损失，确定人体重建模型的总损失，包括：基于二维损失、三维损失和预测损失的和，确定人体重建模型的总损失。

在这些可选的实现方式中，SMPL参数为人体重建模型的预测结果。相应地，SMPL参数的损失值，为预测损失。上述执行主体可以采用各种方式，基于二维损失、三维损失和预测损失的和，确定人体重建模型的总损失。比如，上述执行主体可以直接将二维损失、三维损失和预测损失的和，作为人体重建模型的总损失。或者，上述执行主体可以对该和进行预设处理，并将预设处理结果作为总损失。比如预设处理可以是将该和输入指定的公式或者模型，并将从该公式或模型输出的结果作为预设处理结果。

这些实现方式可以全面地利用多种损失值，加快人体重建模型的收敛速度，并提高模型的训练准确度。

可选地，上述确定SMPL参数对应的二维关键点，可以包括：将三维关键点投影到二维平面，得到二维关键点。

这些可选的实现方式中，可以在通过SMPL参数直接确定出三维关键点之后，利用投影的方式，确定出二维关键点。

这些可选实现方式可以通过投影，实现准确、快速地得到二维关键点。

在本实施例的一些可选的实现方式中，两个分支网络包括第一分支网络和第二分支网络；基于两个分支网络，分别处理特征，得到关键点定位图和形态特征图，包括：通过第一分支网络处理特征，以进行关键点定位，得到指示人体关键点的高斯热图；对高斯热图进行归一化，得到关键点定位图。

可选地，方法还可以包括：确定二维关键点和人体图像样本的二维关键点真值之间的二维损失；基于二维关键点和人体图像样本的二维关键点真值，训练人体重建模型，包括：确定高斯热图与高斯热图真值之间的热图损失；基于二维损失和热图损失，确定人体重建模型的总损失；基于总损失，训练人体重建模型。

在这些实现方式中，上述执行主体可以针对一个分支中高斯热图的生成进行监督。具体地，上述执行主体可以采用各种方式基于二维损失和热图损失，确定人体重建模型的总损失，比如，上述执行主体可以直接将二维损失和热图损失之和，确定为人体重建模型的总损失。或者，上述执行主体还可以将三维损失、二维损失和热图损失之和，确定为总损失。再或者，上述执行主体可以将三维损失、二维损失、热图损失和预测损失之和，确定为总损失。

这些实现方式可以针对模型中高斯热图的确定部分进行有针对性的训练，有助于提高训练后模型的准确度。

如图3b所示，图中最左侧图像为人体图像样本，其余图像为高斯热图真值。

在本实施例的一些可选的实现方式中，人体图像样本的生成步骤包括：对人体图像初始样本进行预设扰动处理，得到人体图像样本，其中，预设扰动处理包括以下至少一项：缩放、旋转、反转、平移。

在这些可选的实现方式中，上述执行主体可以通过扰动，对样本进行增强。具体地，上述执行主体可以对人体图像初始样本进行不同尺度的缩放、反转、平移，以及旋转。

这些实现方式可以通过扰动，对样本进行数据增强，从而有助于提高训练准确度。

继续参见图4，图4是根据本实施例的人体重建模型的训练场景的一个示意图。在图4的应用场景中，执行主体利用最左侧下方的人体图像样本进行训练，将该样本输入主干网络CNN，得到特征。并利用两个分支网络对特征执行两个中间任务。其中一个分支得到高斯热图，进而得到关键点定位图，其结构可以表示为H×W×J，并利用最左侧上方的高斯热图真值对该高斯热图进行监督，可以生成热图损失。另一个分支可以得到形态特征图，其结构可以表示为H×W×C。上述执行主体将关键点定位图和形态特征图相乘(比如在W×H维度相乘)，得到局部注意力特征图F’。之后利用局部注意力特征图F’，生成SMPL参数M(θ，β)。对SMPL参数进行解码，可以得到三维关键点J_3D，对三维关键点进行投影，可以得到二维关键点J_2D。由SMPL参数可以得到预测损失L_SMPL，由二维关键点可以得到二维损失L_2D，由三维关键点可以得到三维损失L_3D。最右侧为重建的三维人体图像。

进一步参考图5，作为对上述图2所示方法的实现，本公开提供了一种人体重建装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，除下面所记载的特征外，该装置实施例还可以包括与图2所示的方法实施例相同或相应的特征或效果。该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的人体重建装置500包括：特征单元501、分支单元502和融合单元503。其中，特征单元501，被配置成将人体图像输入预训练的人体重建模型，利用人体重建模型的主干网络，提取人体图像的特征，其中，人体重建模型包括两个分支网络；分支单元502，被配置成基于两个分支网络，分别处理特征，得到关键点定位图和形态特征图；融合单元503，被配置成利用人体重建模型，对关键点定位图和形态特征图进行融合，生成蒙皮多人线性SMPL参数，其中，SMPL参数包括姿态参数和形态参数。

在本实施例中，人体重建装置500的特征单元501、分支单元502和融合单元503的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202和步骤203的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，两个分支网络包括第一分支网络和第二分支网络；分支单元，进一步被配置成按照如下方式执行基于两个分支网络，分别处理特征，得到关键点定位图和形态特征图:通过第一分支网络处理特征，以进行关键点定位，得到指示人体关键点的高斯热图；对高斯热图进行归一化，得到关键点定位图。

在本实施例的一些可选的实现方式中，融合单元，进一步被配置成按照如下方式执行利用人体重建模型，对关键点定位图和形态特征图进行融合，生成蒙皮多人线性SMPL参数：利用人体重建模型，对关键点定位图和形态特征图相乘，得到局部注意力特征图；对局部注意力特征图进行回归，生成SMPL参数。

作为对上述图4所示方法的实现，本公开提供了一种人体重建模型训练装置的一个实施例，该装置实施例与图4所示的方法实施例相对应，除下面所记载的特征外，该装置实施例还可以包括与图4所示的方法实施例相同或相应的特征或效果。该装置具体可以应用于各种电子设备中。

本实施例的人体重建模型的训练装置包括：提取单元，被配置成将人体图像样本输入待训练的人体重建模型，利用人体重建模型的主干网络，提取人体图像样本的特征，其中，人体重建模型包括两个分支网络；执行单元，被配置成基于两个分支网络，分别处理特征，得到关键点定位图和形态特征图；生成单元，被配置成利用人体重建模型，对关键点定位图和形态特征图进行融合，生成SMPL参数，其中，SMPL参数包括姿态参数和形态参数；确定单元，被配置成确定SMPL参数对应的二维关键点；训练单元，被配置成基于二维关键点和人体图像样本的二维关键点真值，训练人体重建模型，得到目标人体重建模型。

在本实施例的一些可选的实现方式中，装置还包括：第一确定单元，被配置成确定SMPL参数对应的三维关键点；第二确定单元，被配置成确定三维关键点和人体图像样本的三维关键点真值之间的三维损失；以及训练单元，进一步被配置成按照如下方式执行基于二维关键点和人体图像样本的二维关键点真值，训练人体重建模型：确定二维关键点和人体图像样本的二维关键点真值之间的二维损失；基于二维损失和三维损失，确定人体重建模型的总损失；基于总损失，训练人体重建模型。

在本实施例的一些可选的实现方式中，装置还包括：第三确定单元，被配置成确定SMPL参数和SMPL参数真值之间的损失，将该损失作为预测损失；以及训练单元，进一步被配置成按照如下方式执行基于二维损失和三维损失，确定人体重建模型的总损失：基于二维损失、三维损失和预测损失的和，确定人体重建模型的总损失。

在本实施例的一些可选的实现方式中，确定单元，进一步被配置成按照如下方式执行确定SMPL参数对应的二维关键点：将三维关键点投影到二维平面，得到二维关键点。

在本实施例的一些可选的实现方式中，两个分支网络包括第一分支网络和第二分支网络；执行单元，进一步被配置成按照如下方式执行基于两个分支网络，分别处理特征，得到关键点定位图和形态特征图：通过第一分支网络处理特征，以进行关键点定位，得到指示人体关键点的高斯热图；对高斯热图进行归一化，得到关键点定位图。

在本实施例的一些可选的实现方式中，装置还包括：损失单元，被配置成确定二维关键点和人体图像样本的二维关键点真值之间的二维损失；训练单元，进一步被配置成按照如下方式执行基于二维关键点和人体图像样本的二维关键点真值，训练人体重建模型：确定高斯热图与高斯热图真值之间的热图损失；基于二维损失和热图损失，确定人体重建模型的总损失；基于总损失，训练人体重建模型。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学生模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如人体重建方法。例如，在一些实施例中，人体重建方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的人体重建方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行人体重建方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种人体重建方法，所述方法包括：

将人体图像输入预训练的人体重建模型，利用所述人体重建模型的主干网络，提取所述人体图像的特征，其中，所述人体重建模型包括两个分支网络；

基于所述两个分支网络，分别处理所述特征，得到关键点定位图和形态特征图；

利用所述人体重建模型，对所述关键点定位图和所述形态特征图进行融合，生成蒙皮多人线性SMPL参数包括：利用所述人体重建模型，对所述关键点定位图和所述形态特征图相乘，得到局部注意力特征图；对所述局部注意力特征图进行回归，所述回归采用全连接层或者多层感知机进行，生成SMPL参数，其中，所述SMPL参数包括姿态参数和形态参数；

将所述SMPL参数输入包括卷积层、注意力网络和融合网络的卷积神经网络模型，得到三维人体图像。

2.根据权利要求1所述的方法，其中，所述两个分支网络包括第一分支网络和第二分支网络；

所述基于所述两个分支网络，分别处理所述特征，得到关键点定位图和形态特征图，包括:

通过所述第一分支网络处理所述特征，以进行关键点定位，得到指示人体关键点的高斯热图；

对所述高斯热图进行归一化，得到所述关键点定位图。

3.一种人体重建模型的训练方法，所述方法包括：

将人体图像样本输入待训练的人体重建模型，利用所述人体重建模型的主干网络，提取所述人体图像样本的特征，其中，所述人体重建模型包括两个分支网络；

利用所述人体重建模型，对所述关键点定位图和所述形态特征图进行融合，生成SMPL参数，其中，所述SMPL参数包括姿态参数和形态参数；

确定所述SMPL参数对应的二维关键点；

基于所述二维关键点和所述人体图像样本的二维关键点真值，训练所述人体重建模型，得到目标人体重建模型，所述目标人体重建模型用于对具有二维关键点的二维人体图像进行处理，输出SMPL参数；

确定所述二维关键点和所述人体图像样本的二维关键点真值之间的二维损失；

所述基于所述二维关键点和所述人体图像样本的二维关键点真值，训练所述人体重建模型，包括：确定高斯热图与高斯热图真值之间的热图损失；基于所述二维损失和所述热图损失，确定所述人体重建模型的总损失；基于所述总损失，训练所述人体重建模型。

4.根据权利要求3所述的方法，其中，所述方法还包括：

确定所述SMPL参数对应的三维关键点；

确定所述三维关键点和所述人体图像样本的三维关键点真值之间的三维损失；以及

所述基于所述二维关键点和所述人体图像样本的二维关键点真值，训练所述人体重建模型，包括：

基于所述二维损失和所述三维损失，确定所述人体重建模型的总损失；

基于所述总损失，训练所述人体重建模型。

5.根据权利要求4所述的方法，其中，所述方法还包括：

确定所述SMPL参数和SMPL参数真值之间的损失，将该损失作为预测损失；以及

所述基于所述二维损失和所述三维损失，确定所述人体重建模型的总损失，包括：

基于所述二维损失、三维损失和所述预测损失的和，确定所述人体重建模型的总损失。

6.根据权利要求4所述的方法，其中，所述确定所述SMPL参数对应的二维关键点，包括：

将所述三维关键点投影到二维平面，得到二维关键点。

7.根据权利要求3所述的方法，其中，所述两个分支网络包括第一分支网络和第二分支网络；

所述基于所述两个分支网络，分别处理所述特征，得到关键点定位图和形态特征图，包括：

对所述高斯热图进行归一化，得到所述关键点定位图。

8.根据权利要求3所述的方法，其中，所述人体图像样本的生成步骤包括：

对人体图像初始样本进行预设扰动处理，得到所述人体图像样本，其中，所述预设扰动处理包括以下至少一项：缩放、旋转、反转、平移。

9.一种人体重建装置，所述装置包括：

特征单元，被配置成将人体图像输入预训练的人体重建模型，利用所述人体重建模型的主干网络，提取所述人体图像的特征，其中，所述人体重建模型包括两个分支网络；

分支单元，被配置成基于所述两个分支网络，分别处理所述特征，得到关键点定位图和形态特征图；

融合单元，被配置成利用所述人体重建模型，对所述关键点定位图和所述形态特征图进行融合，生成蒙皮多人线性SMPL参数，其中，所述SMPL参数包括姿态参数和形态参数；所述融合单元进一步被配置成：利用所述人体重建模型，对所述关键点定位图和所述形态特征图相乘，得到局部注意力特征图；对所述局部注意力特征图进行回归，所述回归采用全连接层或者多层感知机进行，生成SMPL参数；

输入单元，被配置成将所述SMPL参数输入包括卷积层、注意力网络和融合网络的卷积神经网络模型，得到三维人体图像。

10.根据权利要求9所述的装置，其中，所述两个分支网络包括第一分支网络和第二分支网络；

所述分支单元，进一步被配置成按照如下方式执行所述基于所述两个分支网络，分别处理所述特征，得到关键点定位图和形态特征图:

对所述高斯热图进行归一化，得到所述关键点定位图。

11.一种人体重建模型的训练装置，所述装置包括：

提取单元，被配置成将人体图像样本输入待训练的人体重建模型，利用所述人体重建模型的主干网络，提取所述人体图像样本的特征，其中，所述人体重建模型包括两个分支网络；

执行单元，被配置成基于所述两个分支网络，分别处理所述特征，得到关键点定位图和形态特征图；

生成单元，被配置成利用所述人体重建模型，对所述关键点定位图和所述形态特征图进行融合，生成SMPL参数，其中，所述SMPL参数包括姿态参数和形态参数；

确定单元，被配置成确定所述SMPL参数对应的二维关键点；

训练单元，被配置成基于所述二维关键点和所述人体图像样本的二维关键点真值，训练所述人体重建模型，得到目标人体重建模型，所述目标人体重建模型用于对具有二维关键点的二维人体图像进行处理，输出SMPL参数；

损失单元，被配置成确定所述二维关键点和所述人体图像样本的二维关键点真值之间的二维损失；

所述训练单元，进一步被配置成：确定高斯热图与高斯热图真值之间的热图损失；基于所述二维损失和所述热图损失，确定所述人体重建模型的总损失；基于所述总损失，训练所述人体重建模型。

12.根据权利要求11所述的装置，其中，所述装置还包括：

第一确定单元，被配置成确定所述SMPL参数对应的三维关键点；

第二确定单元，被配置成确定所述三维关键点和所述人体图像样本的三维关键点真值之间的三维损失；以及

所述训练单元，进一步被配置成按照如下方式执行所述基于所述二维关键点和所述人体图像样本的二维关键点真值，训练所述人体重建模型：

基于所述总损失，训练所述人体重建模型。

13.根据权利要求12所述的装置，其中，所述装置还包括：

第三确定单元，被配置成确定所述SMPL参数和SMPL参数真值之间的损失，将该损失作为预测损失；以及

所述训练单元，进一步被配置成按照如下方式执行所述基于所述二维损失和所述三维损失，确定所述人体重建模型的总损失：

14.根据权利要求12所述的装置，其中，所述确定单元，进一步被配置成按照如下方式执行所述确定所述SMPL参数对应的二维关键点：

将所述三维关键点投影到二维平面，得到二维关键点。

15.根据权利要求11所述的装置，其中，所述两个分支网络包括第一分支网络和第二分支网络；

所述执行单元，进一步被配置成按照如下方式执行所述基于所述两个分支网络，分别处理所述特征，得到关键点定位图和形态特征图：

对所述高斯热图进行归一化，得到所述关键点定位图。

16.根据权利要求11所述的装置，其中，所述人体图像样本的生成步骤包括：

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。