CN115761117A

CN115761117A - 一种基于star模型的三维人体重建方法及系统

Info

Publication number: CN115761117A
Application number: CN202211381512.8A
Authority: CN
Inventors: 甘翼; 丛迅超
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-03-07

Abstract

本发明公开了一种基于STAR模型的三维人体重建方法及系统，该方法利用卷积神经网络对输入的所述人体信息进行特征提取，得到人体的全局特征并输入到时序特征提取网络中，对视频中所包含的时间相关特征进行编码，得到一组包含时序信息的特征序列，使用人体特征序列，利用全连接层作为人体参数回归网络预测SMPL的姿态参数和体型参数，并加入自注意力机制改善了输出人体模型序列的稳定性，通过人体模型参数回归网络预测出STAR模型的姿态参数和体型参数，对视频中的人体区域作为输入，通过性别检测器获得性别参数，输入到STAR模型得到特定性别的人体参数模型。本发明能够有效表达和还原真实人体姿态及体型，有效提高了重建精度和重建速度。

Description

一种基于STAR模型的三维人体重建方法及系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及到一种基于STAR模型的三维人体重建方法及系统。

背景技术

虚拟现实以及3D显式技术正在快速发展进步，类似于“元宇宙”“数字孪生”等新概念也陆续被提出。一个精确的人体三维模型对于在虚拟世界中完成交互等一系列任务变得尤为必要。然而，人体三维模型的传统获取方式十分有限，一种是使用3D建模软件等方式主动建模，需要耗费大量的人力资源，且生产效率不高；一种是通过Kinect、激光雷达等设备得到目标人物深度、点云等3D信息，从而逆向建模得到人体三维模型。但是这种3D设备在生活中并不常见，相关3D扫描数据也较难获取到。

现有技术中，三维人体重建算法主要可以分为两类。一类是基于几何方法的三维人体重建算法，一类是基于深度学习的三维人体重建算法。其中，基于深度学习的方法又分为模板类人体重建和非模板类人体重建。基于几何方法时通常直接由相机或深度传感器从多个视图获取图像，重建3D场景。在多视图环境中，需要解决视点关联问题。此外，人体本质上是非刚性的，这对于非刚性配准问题来说是一个巨大的挑战。

相比之下，基于深度学习的三维人体重建方法在效率方面具有明显的优势。传统的非模板类三维模型表达有三种：体素、点云和网格，体素受到分辨率和表达能力的限制而缺乏很多细节；点云的点之间没有连接关系，会缺乏物体的表面信息，而网格表示具有轻量、形状细节丰富的特点。在模板类人体重建当中，一种方式是用骨骼来表示人体，研究人员后续又开发了一些统计人体模型如SCAPE(Shape Completion and Animation ofPeople，一种基于三角面片的可变形的人体模型)，SMPL(A Skinned Multi-Person LinearModel，一种基于点云的可变形的人体模型)等，通过加入人体外表和姿势参数来全面重建人体信息。

传统方法主要利用深度信息来进行的人体三维重建，因此在精度上可以达到很高的水平。然而处理像点云这样大量的信息会对存储造成很大的压力，所以近年来很多对于动态人体重建的研究都是先获取人体模板，再对模板进行调整，以此缩短运行时间并减少内存消耗。但是现有的模板类视频姿势和形状估计方法通常无法产生足够准确的预测结果。这背后的一个主要原因是无法有效提取视频中的时间特征，而且重建的人体模型难以捕捉到真实人体运动的复杂性和可变性。

发明内容

本发明的主要目的在于提供一种基于STAR模型的三维人体重建方法及系统，旨在解决目前人体三维重建方法难以捕捉到真实人体运动的复杂性和可变性的技术问题。

为实现上述目的，本发明提供一种基于STAR模型的三维人体重建方法，所述方法包括以下步骤：

S1：输入一段包含人体信息的视频，利用卷积神经网络对输入的所述视频的人体信息进行特征提取，得到人体的全局特征F；

S2：将提取到的全局特征F输入到基于SRU的时序特征提取网络中，对视频中所包含的时间相关特征进行编码，得到一组包含时序信息的特征序列G；

S3：使用所述特征序列G，利用全连接层作为人体参数回归网络预测SMPL模型的姿态参数P1和体型参数P2；

S4：通过SMPL模型对应的人体模型参数回归网络预测出STAR模型的姿态参数和体型参数；

S5：对所述视频中的人体区域作为输入，利用性别检测器获得性别参数，输入到S04所述的STAR模型中，输出特定性别的人体参数模型。

可选的，所述步骤S1中，所述卷积神经网络采用ResNet-50深度残差网络，在利用卷积神经网络对输入的所述视频的人体信息进行特征提取时，使用在SPIN算法训练得到的权重作为ResNet-50深度残差网络的初始权重。

可选的，所述步骤S1中，还包括在网络前馈前增设YOLOv3-416-bbox人体目标检测器。

可选的，所述步骤S3中，人体参数回归网络采用两个全连接层组成，输入每一帧的特征向量，给定内部参数的初始值，经过多次迭代优化得到预测的SMPL模型的姿态参数P1和体型参数P2。

可选的，所述步骤S3中，在进行迭代优化时，将提取的所述预测参数初始化为平均姿态，然后输入到所述人体参数回归网络。

可选的，所述步骤S4，具体包括：

依次计算由体型参数和姿态参数带来的顶点偏移，再叠加得到T-pose下的平均人体网格，最后通过蒙皮操作计算出人体网格模型顶点；

基于人体三维重建的多目标损失函数，采用误差反馈迭代预测获得STAR模型。

可选的，所述人体网格模型顶点的表达式，具体为：

M(β,θ)＝M(T_p(β,θ),J(β),θ,W)

其中，

为平均形状，B_s(β)为由体型参数带来的顶点偏移，B_p(q,β₂)为由姿态参数带来的顶点偏移。

可选的，所述基于人体三维重建的多目标损失函数的表达式，具体为：

L＝L_STAR+L_cam+L_2d+L_3d

其中，L_STAR为STAR模型参数损失，L_cam为相机参数损失，L_2d为2D关节点损失，L_3d为3D关节点损失。

可选的，所述步骤S5中，性别检测器包括两部分，一部分是VGG-16，作为特征提取网络提取性别特征，另一部分是Softmax层，作为分类器区分男性和女性。

此外，为了实现上述目的，本发明还提供了一种基于STAR模型的三维人体重建系统，所述基于STAR模型的三维人体重建装置包括：

视频特征提取模块：输入一段包含人体信息的视频，利用卷积神经网络对输入的所述视频的人体信息进行特征提取，得到人体的全局特征F；

时序特征提取模块：将提取到的全局特征F输入到基于SRU的时序特征提取网络中，对视频中所包含的时间相关特征进行编码，得到一组包含时序信息的特征序列G；

空间位置预测模块：使用所述特征序列G，利用全连接层作为人体参数回归网络预测SMPL模型的姿态参数P1和体型参数P2；

STAR模型生成模块：通过SMPL模型对应的人体模型参数回归网络预测出STAR模型的姿态参数和体型参数；

性别特征判断模块：对所述视频中的人体区域作为输入，利用性别检测器获得性别参数，输入到S04所述的STAR模型中，输出特定性别的人体参数模型。

本发明实施例提出的一种基于STAR模型的三维人体重建方法及系统，该方法利用卷积神经网络对输入的所述人体信息进行特征提取，得到人体的全局特征并输入到时序特征提取网络中，对视频中所包含的时间相关特征进行编码，得到一组包含时序信息的特征序列，使用人体特征序列，利用全连接层作为人体参数回归网络预测SMPL的姿态参数和体型参数，并加入自注意力机制改善了输出人体模型序列的稳定性，通过人体模型参数回归网络预测出STAR模型的姿态参数和体型参数，对视频中的人体区域作为输入，通过性别检测器获得性别参数，输入到STAR模型得到特定性别的人体参数模型。本发明能够有效表达和还原真实人体姿态及体型，有效提高了重建精度和重建速度。

附图说明

图1为本发明中一种基于STAR模型的三维人体重建方法的流程示意图；

图2是本发明中基于STAR模型的三维人体重建方法的原理示意图；

图3是本发明中人体全局表观特征提取网络的结构示意图；

图4是本发明中人体动作时序特征提取网络的结构示意图；

图5是本发明中SMPL人体模型参数回归网络结构示意图；

图6是本发明中STAR人体模型输入参数处理流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供了一种基于STAR模型的三维人体重建方法，参照图1，图1为本发明基于STAR模型的三维人体重建方法实施例的流程示意图。

本实施例中，所述基于STAR模型的三维人体重建方法包括以下步骤：

步骤1：视频特征提取：输入一段包含人体信息的视频，利用卷积神经网络对输入的所述人体信息进行特征提取，得到人体的全局特征F；

步骤1-1：在网络前馈前，增加一个YOLOv3-416-bbox人体目标检测器，在保证人体重建精度的前提下使得算法速度尽可能快。

步骤1-2：使用在SPIN算法训练得到的权重作为ResNet-50初始权重，由于SPIN算法通过训练已经学到了人体先验知识，有助于提升模型性能，之后采用具有深度残差网络的ResNet-50提取人体的全局特征向量。

步骤2：时序特征提取：将提取到的全局特征F输入到基于SRU(Simple RecurrentUnit)的时序特征提取网络中，对视频中所包含的时间相关特征进行编码，得到一组包含时序信息的特征序列G；

步骤3：空间位置预测：使用所述人体特征序列G,利用全连接层作为人体参数回归网络预测SMPL的姿态参数P1和体型参数P2，并加入自注意力机制，通过使用权重来改变对于不同帧的特征向量的关注程度，提高输出人体模型序列的稳定性；

步骤3-1：人体模型参数回归网络由两个全连接层组成，输入每一帧的特征向量，给定内部参数的初始值，经过多次迭代优化得到预测的SMPL参数。

步骤3-2：将提取的所述预测参数先初始化为平均姿态θ_mean，然后输入到所述参数回归网络中，提取出单帧图像所丢失的运动细节。

步骤4：STAR模型生成：通过SMPL人体模型参数回归网络预测出STAR模型的姿态参数和体型参数；

需要说明的是，(STAR:A Sparse Trained Articulated Human BodyRegressor)。STAR是SMPL的一个替代模型，是一个紧凑的真实人体模型，它学习了稀疏空间中可以局部校正的人体形状模型。相较于SMPL，模型内部参数更少，更加轻量级，同时表达能力更强。STAR改进SMPL主要在5个方面。

1.模型内部参数减少至SMPL的20％

2.Pose参数变化带来的人体模型变化是稀疏且局部的，即左手腕的运动不会影响右腿的形状。

3.模型的微分是稀疏的，因为参数是稀疏且局部的。

4.人体模型的训练数量从原来的4000增加到14000。

5.Pose参数变化带来的人体模型变化应该是和体型相关的，即胖的人的抬腿和瘦的人抬腿，在腿部的形状变化应该是不同的。

步骤4-1：STAR人体模型和SMPL人体模型类似，有一个预定义的共计N＝6890个顶点的模版人体网格T∈R^3N，依次计算由体型参数带来的顶点偏移和计算由姿态参数带来的顶点偏移，再叠加得到T-pose下的平均人体网格，最后通过蒙皮操作计算出人体网格模型顶点。具体计算如下：

(1)计算由体型参数带来的顶点偏移：

形状混合变形函数B_S(β；S):R^|β|→R^3N从体型参数出发计算人体网格顶点：

其中β＝[β₁,β₂…β_|β|]是体型参数，S＝[S₁,S₂…S_|β|]∈R^3N×|β|为捕捉了人体体型变化的PCA基，然后将体型偏移叠加到平均形状

上：

(2)计算由姿态参数带来的顶点偏移：

在STAR的人体模型中，体型姿态变形函数的输出通过姿态混合变形函数进一步变形，由姿态参数带来的顶点偏移以人的姿态和体型为条件，使得添加了姿态和体型的矫正偏移后的LBS计算的人体网格看起来更加逼真，因此STAR的姿态混合定义为：

其中K_j是第j个关节点的姿态矫正偏移的回归矩阵，q_ne(j)表示第j个关节点及其相邻节点的四元数值，β₂是第二个体型参数，A_j是学习的顶点权重。

(3)蒙皮

经过以上两步体型混合变形和姿态混合变形后，通过蒙皮函数W计算得到最终人体网格顶点：

M(β,θ)＝M(T_p(β,θ),J(β),θ,W)

其中，T_p(β,θ)的计算公式为：

其中，

步骤4-2：使用误差反馈迭代过程更精准地预测所述参数化人体模型。由于在衡量输出的人体模型是否精确时，主要看输出的网络顶点位置和真实位置的距离误差大小，因此本发明选用基于距离度量的L2损失函数，设计了面向人体三维重建的多目标损失函数，包括了4个部分，分别是STAR参数损失L_STAR、相机参数损失L_cam、2D关节点损失L_2d、3D关节点损失L_3d，故计算公式如下：

L＝L_STAR+L_cam+L_2d+L_3d

步骤5：性别特征判断：对所述视频中的人体区域作为输入，通过一个性别检测器获得性别参数，输入到步骤4所述STAR模型中，输出特定性别的人体参数模型。其中性别检测器包括两部分，一部分是VGG-16，作为特征提取网络提取性别特征，另一部分是Softmax层，作为分类器区分男性和女性，得到该目标人物的性别参数，输入到步骤4所述STAR人体模型中。

本实施例提供一种基于STAR模型的三维人体重建方法，本申请设计的视频特征提取模块以及时序特征提取模块，与现有的轻量级网络模块相比，能够有效提取出目标人体的姿态和体型信息，其中包含的SRU模块与现有的GRU模块相比，去掉了前后时刻计算的依赖，使之更容易进行训练，能够很大程度上提高训练效率；此外，在时序特征提取模块之后加入了软注意力机制，通过打分函数来表达对不同特征向量的相关程度，相比硬注意力机制是可微分的，可以通过反向传播学习到打分函数的参数。

在此基础上，本实施例采用的空间位置预测模块中选用了结构化模型STAR作为人体模型输出，结合用已有数据集训练好的性别检测器获得的性别参数，该轻量级模型能够有效表达和还原真实人体姿态及体型，在有限的计算资源条件下进行更高效的人体三维重建工作。

为了更清楚的解释本申请，提出一种基于STAR模型的三维人体重建方法的具体实例。

如图2所示，本实施例基于STAR模型的三维人体重建方法的步骤包括：

步骤1：视频特征提取。本实施例具体利用了具有深度残差网络的ResNet-50残差网络，从给定一个输入长度为n的监控视频

中提取输入视频的每一帧图像的全局特征。ResNet-50初始权重采用的是SPIN算法训练得到的权重，由于SPIN算法通过训练已经学到了人体先验知识，有助于提升模型性能。

在网络前馈前，本实施例还使用了YOLOv3-416-bbox作为人体目标检测器，在保证人体重建精度的前提下使得算法速度尽可能快。

如图3所示，本实施例具体将视频的每帧输入通过resize操作统一为224×224，先经过步长2的7×7卷积把特征图通道提升至64，接着通过第一个残差结构通道数变成4倍，接着第二个残差结构将特征图变为(28,28,512)，后三个残差结构依次是降低特征图尺寸和升维，依次是(14,14,1024)、(7,7,2048)、(1,1,2048)，最后展开变成2048通道的特征向量。ResNet网络中的残差结构能让网络深度变得更深，训练时收敛速度变快，同时网络模型的规模相对之前的深度特征提取网络更小，可以解决深度网络的退化、梯度爆炸及梯度消失等问题。

当网络深度超过50层时，ResNet开始采用Bottleneck结构，目的是引入1×1的卷积。虽然1×1的卷积相较于其他大小的卷积能够大大减少网络运算的复杂度，假设利用两个3×3的卷积堆叠到一起，只会有一个ReLU，但是如果利用1×1的卷积就可以存在两个ReLU，从而增加非线性计算层的数量。而且网络过深还可能导致模型过大，浪费资源，所以本发明采用网络深度为50的ResNet-50作为人体全局表观特征提取网络。不同深度的ResNet如表1所示。

表1不同深度的ResNet

步骤2：时序特征提取。如图4所示，本实施例将输入视频帧f₁、f₂、f₃、…f经过ResNet-50提取特征后，通过包含SRU(Simple Recurrent Unit)的时序特征提取网络，将其编码为时间相关特征g₁、g₂、g₃、…、g_N的序列。其中SRU的结构和GRU相比，去掉了对于前后时刻计算的依赖，使之更容易训练，很大程度上提高训练效率。

在SRU基本结构中，f代表遗忘门，r代表重置门，h代表输出状态，c代表内部状态。SRU完整的体系结构可以分解为两个子组成，一个轻量级循环网络和一个高速网络。SRU的计算公式可表示为如下：

首先，轻量级循环组件连续的读取输入向量x_t，并计算捕获信息的状态序列c_t，该过程类似于LSTM、GRU算法，遗忘门f_t可以控制信息流。f_t可以表示为：

f_t＝σ(W_fx_t+v_f⊙c_t-1+b_f)

根据f_t自适应的平均先前状态c_t-1和当前观测

来确定状态向量c_t：

重置门r_t可表示为：

r_t＝σ(W_rx_t+v_r⊙c_t-1+b_r)

其次，高速网络组件促进了基于梯度的深度网络训练，它使用重置门r_t自适应的组合输入x_t和上述轻量级循环产生的状态c_t，其中(1-r_t)⊙x_t是允许梯度直接传播到前一层的跳跃连接，可以提高扩展性。这两种组件的组合能够使整体架构简单且高效，能够进行并行化处理。其输出状态h_t可表示为：

h_t＝r_t⊙c_t+(1-r_t)⊙x_t

在以上公式中，W、W_f、W_r是参数矩阵，v_f、v_r、b_f、b_r是参数向量，均需在训练中学习。

步骤3：空间位置预测。如图5所示，人体模型参数回归网络由两个全连接层组成，每层由1024个神经元，它的输入是每一帧的特征向量，给予内部参数的初始值，k次迭代优化得到预测的SMPL参数，其中所述内部参数包括姿态参数、体型参数和相机参数。所述人体参数回归器采用初始姿态参数和体型参数θ_t以及单帧的视觉时序特征g_t来计算其k次迭代的估计θ_t′。其中初始姿态参数为平均姿态θ_mean而非直接置0，这使得参数回归器能够联合图像的全局特征和时序特征改进人体运动和人体姿态估计，同时在每帧级别扩充了单帧图像所丢失的人体运动细节。

在上述空间位置预测步骤中，预测的SMPL参数当中的姿态参数P1会经过软注意力机制的处理，通过学习每个视频帧的贡献度，放大最重要帧的贡献，从而能够得到唯一的SMPL-β体型参数，保证人体模型序列前后一致，提高预测人体模型序列的稳定性。自注意力机制的本质是对输入信息的一个加权处理，假设有n个m维向量

利用自注意力机制将这n个向量进行加权处理并整合到一起，可以得到加权向量x^*，如下式所示：

其中，α_i是注意力的权重，对于较为重要的向量x_i给予较大的权重α_i。与硬注意力机制不同，软注意力机制会在特征的每一个位置上都含有权重，从而使用权重来表达对一片区域的关注度。软注意力机制通过打分函数结合了不同特征向量的相关程度，而且软注意力机制是可微的，可以通过反向传播学习打分函数的参数，所以权重参数就可通过网络训练得到。

f_i＝f(g_i)

其中权重α_i通过MLP f学习，接着使用Softmax进行归一化以形成概率分布，最后由人体参数回归网络生成的体型参数β_i与对应的权重求积得到统一的体型参数β。

步骤4：STAR模型生成。本发明引入了稀疏训练的关节式人体回归器STAR人体模型作为网络的输出模型，STAR的每个关节点只影响在关节点周围的顶点，这种稀疏表示能生成更真实的姿势和体型的变形，而且将模型参数的数量减少到SMPL人体模型的20％，表达能力也更加丰富。虽然SMPL人体模型和STAR人体模型相似，姿态参数θ∈R⁷²用来表示人体姿态，体型参数β∈R¹⁰用来表示人体体型，但由于它们在姿势空间和形状空间中存在较大差异，不能将SMPL参数直接输入到STAR模型中，因此需要在SMPL模型基础上从头开始重新迭代优化STAR模型，再输入到STAR人体模型进行计算。

如图6所示，SMPL参数标签包含了72个SMPL-θ姿态参数、10个SMPL-β体型参数和3个ε相机参数。其中，姿态参数θ包括用轴角形式表示的全局身体旋转量和23个关节点的相对旋转，体型参数β是PCA形状空间的前10个系数。STAR人体模型和SMPL人体模型类似，首先有一个预定义的处于T-pose状态的共计N＝6890个顶点的模版人体网格T∈R^3N，人体运动学树有K＝24个关节点，接着依次计算由体型参数带来的顶点偏移和计算由姿态参数带来的顶点偏移，再叠加得到T-pose下的平均人体网格，最后通过蒙皮操作计算出人体网格模型顶点。具体计算如下：

(1)计算由体型参数带来的顶点偏移：

上：

(2)计算由姿态参数带来的顶点偏移：

其中K_j是第j个关节点的姿态矫正偏移的回归矩阵，q_ne(j)表示第j个关节点及其相邻节点的四元数值，β₂是第二个体型参数，A_j是学习的顶点权重

(3)蒙皮

M(β,θ)＝M(T_p(β,θ),J(β),θ,W)

其中，T_p(β,θ)的计算公式为：

本发明最终输出的STAR模型同SMPL模型一样，也是一个可微函数M(θ,β)∈R⁶⁸⁹⁰，输出是一个包含了6890个顶点的网格形式的三维模型。

使用误差反馈迭代过程更精准地预测所述参数化人体模型。由于在衡量输出的人体模型是否精确时，主要看输出的网络顶点位置和真实位置的距离误差大小，因此本发明选用基于距离度量的L2损失函数，设计了面向人体三维重建的多目标损失函数，包括了4个部分，分别是STAR参数损失L_STAR、相机参数损失L_cam、2D关节点损失L_2d、3D关节点损失L_3d，故计算公式如下：

L＝L_STAR+L_cam+L_2d+L_3d

L_STAR＝ω_βL_β+ω_θL_θ

其中，STAR参数损失函数为两个部分，体型参数L_β损失项以及姿态参数L_θ损失项，ω_β和ω_θ分别为体型参数L_β损失项以及姿态参数L_θ损失项的权重。体型参数L_β损失项为单一体型参数预测

的L2损失，姿态参数L_θ损失项为所有帧预测出的

的L2损失。

相机参数的损失函数如下式所示，其中L_cam是相机参数损失项，ω_ε为相机损失项的权重，L_ε由预测值和标签值的L2损失计算而得。

L_cam＝ω_εL_ε

由于模型会预测出相机参数，且STAR模型可以根据输入参数计算得到人体模型的3D关节点，因此根据相机成像原理，算法预测生成的计算公式如下式所示，其中，J_p2d为2D人体关节点坐标，J_p3d为STAR人体模型计算得到的人体3D关节点坐标，s为缩放率，t为平移向量。

J_p2d＝sJ_p3d+t

为了保证生成人体三维模型要与真实的目标人体姿态一致，需要真实人体2D关节点标签来监督，因此引入了2D关节点损失函数，如下式所示：

L_2d＝ω_j2dL_j2d

其中，ω_j2d是2D人体关节点的损失权重，L_j2d为2D关节点损失项，具体计算如下式所示：

其中x_n为2D关节点的标签值，

为2D关节点的预测值。

由于在单目视觉问题上，图像在2D到3D映射时有可能会产生畸形或歧义，因此还使用了人体3D关节点损失。

L_3d＝ω_j3dL_j3d

其中，L_3d为人体3D关节点的损失项，ω_j3d为人体3D关节点损失权重，L_j3d为人体3D关节点的损失值。

其中

为预测生成的人体3D关节点坐标，X_n为标签中人体3D关节点坐标。

步骤5：性别特征判断。STAR人体模型有男性模型、女性模型、中性模型之分，虽然目前大多数方法使用中性模型作为输出，但是考虑男女体型差异可能会影响到结果人体模型的预测精准度，本发明在STAR模型计算前添加了性别检测网络，将视频目标人体区域作为输入，通过性别检测网络，逐帧判断目标人体的性别。再结合人体模型参数回归网络预测出的人体模型参数，分别对应输入到STAR-male model和STAR-female model中，经过STAR模型蒙皮计算即可得到人体三维模型，这样能够根据输入视频学习人物性别并自适应地输出特定于此人物的模型参数。

所述性别检测网络首先利用VGG-16作为特征提取网络提取性别特征，后接一个Softmax层作为分类器区分男性和女性，最后将该目标人物的性别参数输入到STAR人体模型中。

在优选的实施例中，还提出一种基于STAR模型的三维人体重建装置，具体包括：

本发明基于STAR模型的三维人体重建装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于STAR模型的三维人体重建方法程序，所述基于STAR模型的三维人体重建方法程序被处理器执行时实现如上文所述的基于STAR模型的三维人体重建方法的步骤。因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。确定为示例，程序指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

Claims

1.一种基于STAR模型的三维人体重建方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的基于STAR模型的三维人体重建方法，其特征在于，所述步骤S1中，所述卷积神经网络采用ResNet-50深度残差网络，在利用卷积神经网络对输入的所述视频的人体信息进行特征提取时，使用在SPIN算法训练得到的权重作为ResNet-50深度残差网络的初始权重。

3.如权利要求1所述的基于STAR模型的三维人体重建方法，其特征在于，所述步骤S1中，还包括在网络前馈前增设YOLOv3-416-bbox人体目标检测器。

4.如权利要求1所述的基于STAR模型的三维人体重建方法，其特征在于，所述步骤S3中，人体参数回归网络采用两个全连接层组成，输入每一帧的特征向量，给定内部参数的初始值，经过多次迭代优化得到预测的SMPL模型的姿态参数P1和体型参数P2。

5.如权利要求1所述的基于STAR模型的三维人体重建方法，其特征在于，所述步骤S3中，在进行迭代优化时，将提取的所述预测参数初始化为平均姿态，然后输入到所述人体参数回归网络。

6.如权利要求1所述的基于STAR模型的三维人体重建方法，其特征在于，所述步骤S4，具体包括：

7.如权利要求6所述的基于STAR模型的三维人体重建方法，其特征在于，所述人体网格模型顶点的表达式，具体为：

M(β,θ)＝M(T_p(β,θ),J(β),θ,W)

其中，

8.如权利要求6所述的基于STAR模型的三维人体重建方法，其特征在于，所述基于人体三维重建的多目标损失函数的表达式，具体为：

L＝L_STAR+L_cam+L_2d+L_3d

9.如权利要求1所述的基于STAR模型的三维人体重建方法，其特征在于，所述步骤S5中，性别检测器包括两部分，一部分是VGG-16，作为特征提取网络提取性别特征，另一部分是Softmax层，作为分类器区分男性和女性。

10.一种基于STAR模型的三维人体重建系统，其特征在于，所述基于STAR模型的三维人体重建装置包括：