CN115311430A

CN115311430A - 人体重建模型的训练方法、系统及计算机设备

Info

Publication number: CN115311430A
Application number: CN202210931189.0A
Authority: CN
Inventors: 李志文; 芦爱余; 韩欣彤
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2022-11-08

Abstract

本申请实施例提供一种人体重建模型的训练方法、系统及计算机设备，本实施例中，首先通过人体检测以及人体解析获得各训练样本的人体画面的人体画面图像以及各个人体部位的分割信息，然后基于人体部位是否被遮挡为各个人体部位对应的分割信息赋予不同的权重后对神经网络进行训练，如此可以使得训练后的神经网络基于注意力机制更加关注到待重建图像中未被遮挡的人体部位，不受遮挡物的影响，在有遮挡物的应用场景也可以达到理想的三维人体重建效果。如此，可以使得训练得到的人体重建模型不受场景使用的限制，可以更自由更加广泛的使用到消费级数字人、VR直播和元宇宙等各种场景中。

Description

人体重建模型的训练方法、系统及计算机设备

技术领域

本申请涉及人工智能及三维重建相关技术领域，具体而言，涉及一种人体重建模型的训练方法、系统及计算机设备。

背景技术

三维人体重建通过视觉图像信号预测目标人体的三维人体网格模型，是计算机视觉的一个重要应用分支，也是计算机视觉和图形学中一个重要的研究课题，其在AI数字人、VR直播和元宇宙等领域相关的产品中都会作为一种核心的技术应用。目前的人体三维重建的方法大多采用参数化模型重建，例如，基于SMPL(skinned multi-person linear model，多人线性蒙皮)模型通过采集到的RGB图像回归出人体模型需要的参数达到三维人体重建的目的。

但是，现有的方法没有充分考虑到对于有遮挡物的应用场景，在有遮挡物时会出现不合常规认知的人体重建的效果，无法满足现有的应用，而在应用的场景中有遮挡物又是不可避免的问题。

发明内容

基于以上内容，为了至少部分的解决上述技术问题，第一方面，本申请实施例提供一种人体重建模型的训练方法，所述方法包括：

获取训练数据集，所述训练数据集包括多个具有人体画面的样本图像，所述样本图像的人体画面的至少一个人体部位被遮挡物所遮挡；

对所述样本图像进行人体检测，获得所述样本图像中的人体画面图像；

对所述人体画面图像进行人体解析，获得所述人体画面图像中各个人体部位的分割信息；

分别为各所述人体部位的分割信息赋予权重，其中，被遮挡物所遮挡的人体部位对应的分割信息的权重小于未被遮挡物所遮挡的人体部位对应的分割信息的权重；

分别将各所述样本图像对应的所述人体画面图像以及赋予权重后的所述分割信息输入待训练的神经网络，对所述神经网络进行训练，将训练完成的神经网络作为人体重建模型。

优选地，所述待训练的神经网络包括SMPL参数预测单元以及三维人体重建单元；

所述将所述人体画面图像以及赋予权重后的所述分割信息输入待训练的神经网络，对所述神经网络进行训练，包括：

依次将所述样本图像对应的所述人体画面图像以及赋予权重后的所述分割信息输入所述SMPL参数预测单元进行人体参数预测，得到所述样本图像的SMPL人体参数；

将所述SMPL人体参数输入所述三维人体重建单元进行三维人体重建，并基于三维人体重建损失最小化对所述待训练的神经网络进行迭代更新，直到满足迭代终止条件，得到训练完成的所述神经网络。

优选地，所述将所述SMPL人体参数输入所述三维人体重建单元进行三维人体重建，并基于三维人体重建损失最小化对所述待训练的神经网络进行迭代更新，包括：

将根据所述SMPL人体参数进行三维人体重建的结果投影到所述样本图像的人体画面图像，根据投影结果计算三维人体重建的投影损失，并根据投影损失对所述待训练的神经网络进行迭代更新，直到所述投影损失小于预设的投影损失阈值。

优选地，将根据所述SMPL人体参数进行三维人体重建的结果投影到所述样本图像的人体画面图像，根据投影结果计算三维人体重建的投影损失，包括：

将三维人体重建得到的三维人体模型中的各个人体部位投影到所述样本图像的人体画面图像中；

根据所述三维人体模型中的各个人体部位投影到样本图像的人体画面图像中的投影结果与所述人体画面图像各个人体部位的分割信息计算得到各个人体部位的分割投影损失；

根据各个人体部位的分割投影损失计算得到所述三维人体重建的投影损失。

将根据所述SMPL人体参数进行三维人体重建的结果投影到所述样本图像的人体画面图像，根据投影结果计算三维人体重建的投影损失；

对所述人体解析获得的所述人体画面图像中各个人体部位的分割信息进行2D骨骼关键点检测，得到所述样本图像的2D骨骼关键点；

获取所述三维人体重建得到的三维人体模型中的各个2D骨骼关键点；

根据所述样本图像的2D骨骼关键点以及所述三维人体模型中的各个2D骨骼关键点计算得到关键点匹配损失；

根据所述投影损失以及所述关键点匹配损失对所述待训练的神经网络进行迭代更新，直到所述投影损失以及所述关键点匹配损失满足设定的迭代终止条件。

优选地，根据所述投影损失以及所述关键点匹配损失对所述待训练的神经网络进行迭代更新，直到所述投影损失以及所述关键点匹配损失满足设定的迭代终止条件，包括：

分别为所述投影损失以及所述关键点匹配损失设置第一权重参数和第二权重参数；

根据所述所述投影损失、所述关键点匹配损失、所述第一权重参数、以及所述第二权重参数计算得到三维人体重建损失；

根据所述三维人体重建损失对所述待训练的神经网络进行迭代更新，直到所述三维人体重建损失满足设定的迭代终止条件。

优选地，所述方法还包括：

获取包括人体画面的待重建图像；

对上所述待重建图像进行人体检测，获得所述待重建图像的人体画面图像；

对所述待重建图像的人体画面图像进行人体解析，获得所述人体画面图像中各个人体部位的分割信息；

将所述待重建图像的人体画面图像以及所述人体画面图像中各个人体部位的分割信息输入所述人体重建模型，得到待重建图像的人体重建结果。

第二方面，本身实施例还提供一种人体重建模型的训练系统，应用于计算机设备，所述人体重建模型的训练系统包括：

数据集获取模块，用于获取训练数据集，所述训练数据集包括多个具有人体画面的样本图像，所述样本图像的人体画面的至少一个人体部位被遮挡物所遮挡；

人体检测模块，用于对所述样本图像进行人体检测，获得所述样本图像中的人体画面图像；

人体解析模块，用于对所述人体画面图像进行人体解析，获得所述人体画面图像中各个人体部位的分割信息；

权重赋予模块，用于分别为各所述人体部位的分割信息赋予权重，其中，被遮挡物所遮挡的人体部位对应的分割信息的权重小于未被遮挡物所遮挡的人体部位对应的分割信息的权重；

网络训练模块，用于分别将各所述样本图像对应的所述人体画面图像以及赋予权重后的所述分割信息输入待训练的神经网络，对所述神经网络进行训练，将训练完成的神经网络作为人体重建模型。

所述网络训练模块，具体用于：

将所述SMPL人体参数输入所述三维人体重建单元进行三维人体重建，将根据所述SMPL人体参数进行三维人体重建的结果投影到所述样本图像的人体画面图像，根据投影结果计算三维人体重建的投影损失，并根据投影损失对所述待训练的神经网络进行迭代更新，直到所述投影损失小于预设的投影损失阈值。

第三方面，本申请实施例还提供一种计算机设备，包括机器可读存储介质以及一个或多个处理器，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被所述一个或多个处理器执行时，实现上述的人体重建模型的训练方法。

基于本申请实施例的上述内容，相对于现有技术而言，本申请实施例提供的人体重建模型的训练方法、系统及计算机设备，首先通过人体检测以及人体解析获得各训练样本的人体画面的人体画面图像以及各个人体部位的分割信息，然后基于人体部位是否被遮挡为各个人体部位对应的分割信息赋予不同的权重后用于对神经网络进行训练，如此可以使得训练后的神经网络可以基于注意力机制更加关注到待重建图像中未被遮挡的人体部位，不受遮挡物的影响，在有遮挡物的应用场景也可以达到理想的三维人体重建效果。如此，可以使得训练得到的人体重建模型不受场景使用的限制，可以更自由更加广泛的使用到消费级数字人、VR直播和元宇宙等各种场景中。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本申请实施例提供的一种人体重建模型的训练方法的流程示意图。

图2是本申请实施例中对人体画面图像进行人体解析获得的各个人体部位的分割信息的示意图。

图3是图1中步骤S500一种可能的实现流程示意图。

图4是图3中步骤S512一种可能的实现流程示意图。

图5是图1中步骤S500另一种可能的实现流程示意图。

图6是本申请实施例提供的使用训练得到的人体重建模型进行三维人体重建的流程示意图。

图7是本申请实施例提供的一种人体重建模型的训练系统的功能模块框图。

图8是本申请实施例提供的用于实现上述的人体重建模型的训练方法的计算机设备的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

基于前述背景技术中所提及的技术问题，本申请实施例提供一种人体重建模型的训练方法、系统及计算机设备，主要解决在常用的人体重建算法中针对遮挡场景效果欠佳的问题，做到不需要增加额外的输入设备，让三维重建不受遮挡物的影响，达到真实的数字人重建效果。可以在消费级数字人、VR直播、元宇宙等相关场景具有较好的应用效果。

下面将结合附图对本申请实施例进行示例性的介绍。

如图1所示，是本申请实施例提供的一种人体重建模型的训练方法的流程示意图，本实施例中，所述人体重建模型的训练方法可以由计算机设备执行并实现。应当理解，本实施例提供的人体重建模型的训练方法所包含的其中部分步骤的顺序在实际实施时可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除，本实施例对此不进行具体限定。

下面结合图1对本实施例的人体重建模型的训练方法的各个步骤通过示例的方式进行详细介绍，详细地，如图1所示，所述方法可以包括下述的步骤S100至S500的相关内容。

步骤S100，获取训练数据集，所述训练数据集包括多个具有人体画面的样本图像，所述样本图像的人体画面的至少一个人体部位被遮挡物所遮挡。

本实施例中，所述训练数据集可以采用现有的开源训练数据，也可以通过图像获取设备(如单目摄像机)对不同的人体场景进行图像拍摄而获取。被遮挡的人体部位可以是人体的大腿、腹部、胸部、颈部等。针对无遮挡的训练数据，可以通过遮挡物合成等方式对通常情况下人体的易遮挡部位(如大腿、腹部等)进行遮挡，得到相应的训练数据集。本实施例对训练数据集的具体获取方式不进行限定。

步骤S200，对所述样本图像进行人体检测，获得所述样本图像中的人体画面图像。

本实施例中，可以采用各种成熟的人体检测算法对各所述样本图像进行人体检测，得到所述样本图像中的人体部位，形成所述人体画面图像。例如，可以通过基于姿态的二维人体关键点检测算法、基于RGB-D数据的实时人体检测算法等对各所述样本图像进行人体检测，以获取人在样本图像中的位置，通过一个矩形框来进行表示，分别为左上角、右上角、左下角和右下角的x、y坐标。通过获取到的矩形框信息将人体区域裁剪出来，进而获取更具体的只包含人体区域的信息(又称人体掩膜mask)的图像作为所述人体画面图像。

步骤S300，对所述人体画面图像进行人体解析，获得所述人体画面图像中各个人体部位的分割信息。

其中，本实施例中，可以通过人体解析算法对所述人体画面图像进行人体解析，得到所述人体画面图像中的各个人体部位的具有语义的分割信息。作为一种示例，可以通过所述人体解析算法获取如图2所示的人体24个不同的人体部位或关节(如头部、腹部、左脚掌、右脚掌、左手掌、右手掌、颈部、腹部、胸部、左大腿、右大腿、左小腿、右小腿等等)分别对应的分割信息。其中，每个分割信息可以代表相应的人体部位具有语义的掩膜(mask)。如此，可以将人体的24个关节与SMPL模型的24个关节对应起来，有利于后续SMPL模型的应用。

步骤S400，分别为各所述人体部位的分割信息赋予权重，其中，被遮挡物所遮挡的人体部位对应的分割信息的权重小于未被遮挡物所遮挡的人体部位对应的分割信息的权重。

在本实施例的一种可能的实现方案中，可以针对未被遮挡的人体部位以及被遮挡的人体部位分别对应的分割信息赋予不同的权重，例如，针对未被遮挡的人体部位的分割信息赋予第一权重、针对被遮挡的人体部位的分割信息赋予第二权重，其中第二权重小于第一权重。如此，通过对未被遮挡的人体部位以及被遮挡的人体部位分别对应的分割信息赋予不同的权重，可以在后续训练神经网络时，使得神经网络更加关注未被遮挡的部位，加强针对未被遮挡部位的注意力机制。

步骤S500，分别将各所述样本图像对应的所述人体画面图像以及赋予权重后的所述分割信息输入待训练的神经网络，对所述神经网络进行训练，将训练完成的神经网络作为人体重建模型。在本实施例的一种可能的实现方式中，所述待训练的神经网络可以包括SMPL参数预测单元以及三维人体重建单元。

基于此，如图3所示，步骤S500中，将所述人体画面图像以及赋予权重后的所述分割信息输入待训练的神经网络，对所述神经网络进行训练，可以包括下述的步骤S511和S512。

步骤S511，依次将所述样本图像对应的所述人体画面图像以及赋予权重后的所述分割信息输入所述SMPL参数预测单元进行人体参数预测，得到所述样本图像的SMPL人体参数。

其中，可以将赋予权重后的各个区块的分割信息与所述SMPL参数预测单元的中间层做卷积，使得所述SMPL参数预测单元可以识别到各个人体部位，并根据各个人体部位的分割信息预测得到所述SMPL人体参数。

应当理解，所述SMPL参数预测单元可以是一种裸体的、基于顶点的人体三维模型，能够精确地表示人体的不同形状和姿态。其中，预测得到的SMPL人体参数可以包括6890个顶点，13776个面片，24个关节有关的信息。例如，可以通过以下的公式(1)进行表示：

其中，β和θ参数分别代表人体的形状和姿态，其它各个参数代表的意义为：

人体平均网格模型；

LBS/QBS混合权重矩阵，即关节点对顶点的影响权重；

人体形状的PCA基；

从rest-pose网格顶点计算24个关节点位置的回归矩阵；

人体姿态对形状的影响，也可以简单的理解为人体姿态的PCA基。

步骤S512，将所述SMPL人体参数输入所述三维人体重建单元进行三维人体重建，并基于三维人体重建损失最小化对所述待训练的神经网络进行迭代更新，直到满足迭代终止条件，完成对所述神经网络的训练。

其中，基于所述SMPL人体参数进行三维人体重建可以采用已有的三维人体重建算法实现，本实施例对此不再赘述。其中，步骤S512中，可以将根据所述SMPL人体参数进行三维人体重建的结果投影到所述样本图像的人体画面图像，根据投影结果计算三维人体重建的投影损失，并根据投影损失对所述待训练的神经网络进行迭代更新，直到所述投影损失小于预设的投影损失阈值。作为一种可能的示例，例如图4所示，基于投影损失对所述待训练的神经网络进行迭代更新的方法，可以包括下述的S5121-S5123的步骤。

步骤S5121，将三维人体重建得到的三维人体模型中的各个人体部位投影到所述样本图像的人体画面图像中。

其中，三维人体模型中的各个人体部位可以包括构成该部位的网格(mesh)数据，例如可以包括三维面片信息以及三维面片的顶点信息，所述网格数据具有语义，可以对应到三维人体模型的相应部位，以便于后续的投影操作。

步骤S5122，根据所述三维人体模型中的各个人体部位投影到所述人体画面图像中的投影结果与所述人体画面图像中各个人体部位的分割信息计算得到各个人体部位的分割投影损失。

其中，针对该步骤，具体可以根据所述重建结果得到的三维人体模型中的每个人体部位投影到人体检测结果(人体画面图像)后，与所述人体画面图像中各个人体部位的分割信息的一致性(是否对齐)计算得到各个区块的分割投影损失。其中，一致性越好，分割投影损失越小，反之，一致性越差，则分割投影损失越大，此处可以基于分割投影损失最小化对所述待训练的神经网络进行迭代更新。

步骤S5123，根据各个人体部位的分割投影损失计算得到所述三维人体重建的投影损失。

其中，在本申请实施例的一种可能的实现方案中，可以根据为各个人体部位的分割信息赋予的权重以及上述计算得到的各人体部位的分割信息对应的分割投影损失，计算得到所述三维人体重建的投影损失。例如，可以将每个人体部位的分割信息赋予的权重与该分割信息对应的分割投影损失相乘后求和，得到所述三维人体重建的投影损失。

进一步地，在本申请实施例的另一种可能的实现方案中，如图5所示，基于步骤S500，所述将所述SMPL人体参数输入所述三维人体重建单元进行三维人体重建，并基于三维人体重建损失最小化对所述待训练的神经网络进行迭代更新，还可以通过下述的步骤S521-S525实现。

步骤S521，将根据所述SMPL人体参数进行三维人体重建的结果投影到所述样本图像的人体画面图像，根据投影结果计算三维人体重建的投影损失。

其中，计算所述三维人体重建的投影损失的方法可以参考前述的S5121-S5123的步骤的详细描述，此处不再一一赘述。

步骤S522，对所述人体解析获得的所述人体画面图像中各个人体部位的分割信息进行2D骨骼关键点检测，得到所述样本图像的2D骨骼关键点。

其中，2D骨骼关键点检测的方法可以采用现有的关键点检测方法来实现，例如，可以采用AlphaPose、pytorch-openpose、PoseC3D、ST-GCN、MobilePose等检测算法来实现，本实施例对此不进行限定。

步骤S523，获取所述三维人体重建得到的三维人体模型中的各个2D骨骼关键点。

步骤S524，根据所述样本图像的2D骨骼关键点以及所述三维人体模型中的各个2D骨骼关键点计算得到关键点匹配损失。

其中，所述关键点匹配损失可以根据所述人体画面图像中的各个2D骨骼关键点分别与所述三维人体模型中的各个2D骨骼关键点的匹配度计算得到，匹配度越高，所述关键点匹配损失则越小，反之，匹配度越低，所述关键点匹配损失则越大。

步骤S525，根据所述投影损失以及所述关键点匹配损失对所述待训练的神经网络进行迭代更新，直到所述投影损失以及所述关键点匹配损失满足设定的迭代终止条件。

例如，作为一种示例，可以首先分别为所述投影损失以及所述关键点匹配损失设置第一权重参数和第二权重参数。例如，可以为所述投影损失设置的第一权重参数为0.6，为所述关键点匹配损失设置的第二权重参数为0.4。

然后，根据所述所述投影损失、所述关键点匹配损失、所述第一权重参数、以及所述第二权重参数计算得到三维人体重建损失。

例如，可以将所述投影损失与所述第一权重参数相乘得到第一损失值，然后将所述关键点匹配损失与所述第二权重参数相乘得到第二损失值，最后将第一损失值和第二损失值之和作为所述三维人体重建损失。

最后，根据所述三维人体重建损失对所述待训练的神经网络进行迭代更新，直到所述三维人体重建损失满足设定的迭代终止条件。例如，当所述三维人体重建损失小于预设阈值是，则满则迭代终止条件。

基于上述内容，三维人体重建的得到的各个人体部位的网格面片(mesh)投影到各样本图像的人体画面图像中时，与各个分割信息的匹配度差异可能较大，那么意味着有些区域是不准的或没有对齐的，此时通过上述的方法做一个2D骨骼关键点检测，用于配合投影损失进行网络训练，使得最终三维人体重建的结果不仅要使得2D骨骼关键点相符合，且投影mesh也要与分割结果匹配。此处，可以理解为基于传统算法的最小二乘迭代取代深度学习训练过程再做一次回归+分割损失的梯度下降。具体的实现公式如下：

MIN||a₁*(W_proj-mask)²+a₂*(W_2d-joint_2d)²||

其中MIN值代表迭代最小二乘过程，使得重建结果W的投影mask，即_Wproj与分割mask的loss最小，且同时满足重建结果W抽取的骨骼2D关键点与检测出的2D关键点loss最小，a1和a2分别为这两者的权重，例如，可以分别设置为1和10。

在上述内容的基础上，在完成所述神经网络的训练得到所述人体重建模型后，如图6所示，本实施提供的方法还可以包括通过所述人体重建模型进行三维人体重建的步骤，具体描述如下。

步骤S61，获取包括人体画面的待重建图像。

例如，所述待重建图像可以是通过普通单目摄像头获取的RGB图像，也可以是各种电子设备获取的图像，比如电脑、手机等摄像头获取的包含人体画面的图像，作为三维人体重建的输入信号。

步骤S62，对上所述待重建图像进行人体检测，获得所述待重建图像的人体画面图像。

步骤S63，对所述待重建图像的人体画面图像进行人体解析，获得所述人体画面图像中各个人体部位的分割信息。

步骤S64，将所述待重建图像的人体画面图像以及所述人体画面图像中各个人体部位的分割信息输入所述人体重建模型，得到待重建图像的人体重建结果。

如图7所示，是本申请实施例中提供的用于实现上述的人体重建模型的训练方法的人体重建模型的训练系统的示意图。本实施例中，所述人体重建模型的训练系统可以应用于图8所示的计算机设备100。详细地，所述计算机设备100可以包括一个或多个处理器110、机器可读存储介质120以及人体重建模型的训练系统130。处理器110与机器可读存储介质120可经由系统总线通信连接。机器可读存储介质120存储有机器可执行指令，处理器110通过读取并执行机器可读存储介质120中机器可执行指令实现上文描述的人体重建模型的训练方法。本实施例中，所述计算机设备100可以是用于执行所述人体重建模型的训练系统的前端所包括的各功能模块的云端服务器，也可以是用于执行人体重建模型的训练系统的后端所包括的各功能模块的用户客户端，或者也可以是同时用于执行所述人体重建模型的训练系统的前端和后端所包括的各功能模块的云端服务器，又或者也可以是分别执行所述人体重建模型的训练系统的前端和后端所包括的各功能模块的云端服务器以及用户客户端的组合，本实施例对此不进行限制。

其中，所述机器可读存储介质120可以是，但不限于，随机存取存储器(RandomAccess Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable ProgrammableRead-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory，EEPROM)等。其中，机器可读存储介质120用于存储程序，所述处理器110在接收到执行指令后，执行所述程序。

所述处理器110可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是，但不限于，通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等。

本实施例中，所述人体重建模型的训练系统130可以包括数据集获取模块131、人体检测模块132、人体解析模块133、权重赋予模块134、以及网络训练模块135。

所述数据集获取模块131用于获取训练数据集，所述训练数据集包括多个具有人体画面的样本图像，所述样本图像的人体画面的至少一个人体部位被遮挡物所遮挡。

本实施例中，所述数据集获取模块131可以用于执行上述的步骤S100，关于该数据集获取模块131的更多的详细内容可以参照上述步骤S100的相关内容，此处不再赘述。

所述人体检测模块132用于对所述样本图像进行人体检测，获得所述样本图像中的人体画面图像。

本实施例中，所述人体检测模块132可以用于执行上述的步骤S200，关于该人体检测模块132的更多的详细内容可以参照上述步骤S200的相关内容，此处不再赘述。

所述人体解析模块133用于对所述人体画面图像进行人体解析，获得所述人体画面图像中各个人体部位的分割信息。

本实施例中，所述人体解析模块133可以用于执行上述的步骤S300，关于该人体解析模块133的更多的详细内容可以参照上述步骤S300的相关内容，此处不再赘述。

所述权重赋予模块134用于分别为各所述人体部位的分割信息赋予权重。其中，被遮挡物所遮挡的人体部位对应的分割信息的权重小于未被遮挡物所遮挡的人体部位对应的分割信息的权重。

本实施例中，所述权重赋予模块134可以用于执行上述的步骤S400，关于该权重赋予模块134的更多的详细内容可以参照上述步骤S400的相关内容，此处不再赘述。

所述网络训练模块135用于分别将各所述样本图像对应的所述人体画面图像以及赋予权重后的所述分割信息输入待训练的神经网络，对所述神经网络进行训练，将训练完成的神经网络作为人体重建模型。

本实施例中，所述网络训练模块135可以用于执行上述的步骤S500，关于该网络训练模块135的更多的详细内容可以参照上述步骤S500的相关内容，此处不再赘述。其中，对所述神经网络进行训练的具体方法可以参上述方法实施例中针对图3和图5的详细内容，此处不再一一赘述。

综上所述，本申请实施例提供的人体重建模型的训练方法、系统及计算机设备，首先通过人体检测以及人体解析获得各训练样本的人体画面的人体画面图像以及各个人体部位的分割信息，然后基于人体部位是否被遮挡为各个人体部位对应的分割信息赋予不同的权重后对神经网络进行训练，如此可以使得训练后的神经网络基于注意力机制的更佳关注到待重建图像中未被遮挡的人体部位，不受遮挡物的影响，在有遮挡物的应用场景也可以达到理想的三维人体重建效果。如此，可以使得训练得到的人体重建模型不受场景使用的限制，可以更自由更加广泛的使用到消费级数字人、VR直播和元宇宙等各种场景中。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种人体重建模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的人体重建模型的训练方法，其特征在于，所述待训练的神经网络包括SMPL参数预测单元以及三维人体重建单元；

3.根据权利要求2所述的人体重建模型的训练方法，其特征在于，所述将所述SMPL人体参数输入所述三维人体重建单元进行三维人体重建，并基于三维人体重建损失最小化对所述待训练的神经网络进行迭代更新，包括：

4.根据权利要求3所述的人体重建模型的训练方法，其特征在于，将根据所述SMPL人体参数进行三维人体重建的结果投影到所述样本图像的人体画面图像，根据投影结果计算三维人体重建的投影损失，包括：

5.根据权利要求2所述的人体重建模型的训练方法，其特征在于，所述将所述SMPL人体参数输入所述三维人体重建单元进行三维人体重建，并基于三维人体重建损失最小化对所述待训练的神经网络进行迭代更新，包括：

6.根据权利要求5所述的人体重建模型的训练方法，其特征在于，根据所述投影损失以及所述关键点匹配损失对所述待训练的神经网络进行迭代更新，直到所述投影损失以及所述关键点匹配损失满足设定的迭代终止条件，包括：

7.根据权利要求1-6任意一项所述的人体重建模型的训练方法，其特征在于，所述方法还包括：

获取包括人体画面的待重建图像；

8.一种人体重建模型的训练系统，应用于计算机设备，其特征在于，所述人体重建模型的训练系统包括：

9.根据权利要求8所述的人体重建模型的训练系统，其特征在于，所述待训练的神经网络包括SMPL参数预测单元以及三维人体重建单元；

所述网络训练模块，具体用于：

10.一种计算机设备，其特征在于，包括机器可读存储介质以及一个或多个处理器，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被所述一个或多个处理器执行时，实现权利要求1-7任意一项所述的人体重建模型的训练方法。