CN113421328B

CN113421328B - 一种三维人体虚拟化重建方法及装置

Info

Publication number: CN113421328B
Application number: CN202110588185.2A
Authority: CN
Inventors: 谢良; 韩松洁; 张敬; 印二威; 闫慧炯; 罗治国; 张亚坤; 艾勇保; 闫野
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-03-11
Anticipated expiration: 2041-05-27
Also published as: CN113421328A

Abstract

本发明公开了一种三维人体虚拟化重建方法与装置，属于计算机视觉技术领域。所述方法包括通过优化目前常用的人体参数化模型(如STAR)，使其能与利用人体Tpose照片通过预训练好的神经网络构建人体三维形貌模型绑定；同时本方法利用多相机实时获取多视角的人体三维姿态，对于严重遮挡场景的鲁棒性更强，与单相机相比可以更加精确的估计场景中人体的三维关节点坐标，使得获取的姿态参数更为完整精确，在使用姿态参数驱动绑定后的人体三维模型时，实现实时精确且多视角的动画效果。

Description

一种三维人体虚拟化重建方法及装置

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种三维人体虚拟化重建方法及装置。

背景技术

在计算机视觉中，三维人体重建是指根据单视图或者多视图的二维图像重建三维人体信息的过程，在虚拟现实中有着广泛的应用前景。AR(Augmented Reality，增强现实)技术将真实和虚拟世界信息“无缝”集成，包含了实时视频显示、三维建模、实时跟踪与注册、场景融合等新手段，实现了远程可视化交互。为此，将人体重建技术应用到AR远程交互中，可以实现真实的人体对象在虚拟三维场景中重现。

在进行真实人物的三维虚拟化重建时，其三维人体形貌与姿态是重建工作的重中之重。当前，三维人体形貌重建以及姿态估计的工作已经分别相对成熟。在人体形貌重建方面，利用深度学习基于单张图片即可重建出较为精准的穿衣人体的三维形貌模型。在人体姿态估计方面，使用多个彩色相机，通过深度学习即可预测出较为准确的三维关节点坐标，重构出场景中人物的三维姿态骨架。然而目前现有的三维动画模型都是基于人体参数化模型实现的，利用预测的骨架信息驱动该参数化模型。尽管参数化模型能够捕捉人体的测量和运动，但它们只能生成一个赤裸的人体，衣服、头发和其他配饰的三维表面信息完全被忽略，缺乏穿衣人体的外部纹理信息，无法还原真实场景中的人体信息。

发明内容

有鉴于此，本发明提供的一种三维人体虚拟化重建方法及装置，主要目的在于通过将人体参数化模型STAR优化，从而使其能与人体形貌模型的顶点及边缘绑定来生成可驱动人体模型，解决现有技术中利用预测的骨架信息驱动人体参数化模型所带来的人体外表形貌问题被忽略的问题；并且本发明利用多相机实时提供多视角的人体姿态，生成多种姿态的动画效果三维人体模型。

根据本发明一个方面，提供了一种三维人体虚拟化重建方法，该方法包括步骤：S1：使用照相设备拍摄人体姿势标准T-pose图片，将所述T-pose图片输入第一神经网络模型获取人体三维形貌模型；其中所述第一神经网络模型预先使用大量真实人体姿势图像进行训练；S2：通过形态参数与姿态参数对人体参数化模型STAR进行拟合生成优化人体参数化模型，将所述优化人体参数化模型与所述人体三维形貌模型的顶点及边缘绑定，生成可驱动人体模型；所述可驱动人体模型通过所述形态参数与姿势参数驱动；S3：在同一时刻使用多个照相设备从多个视角拍摄，获取所述多个视角的人体图片集合，将所述人体图片集合输入第二神经网络模型，获取所述多个视角所述人体二维关节点坐标，组成人体二维关节点坐标集；基于所述多个视角得出人体三维姿态；拟合所述人体二维关节点坐标集和所述人体三维姿态，得到所述姿势参数集；S4：将所述姿势参数集输入所述可驱动人体模型，生成对应于所述多个视角的多种姿势的三维人体模型；S5：重复步骤S3和S4，实现所述三维人体模型实时更新。

作为本发明的进一步改进，将所述T-pose图片输入第一神经网络模型获取人体三维形貌模型包括步骤：曲面重建：所述T-pose图片经过采用沙漏堆积网络结构的图像特征编码器，生成各空间三维点的第一图像特征；将各所述空间三维点的第一图像特征与深度值输入由多层感知器神经网络构成的隐式函数，得到一个连续的空间内外概率场，提取所述概率场的等值面为三维人体模型表面；所述多层感知器神经网络的中间层使用leakyReLU激活函数，最后一层使用sigmoid激活函数；遮挡区域纹理推断：将所述各空间三维点的第一图像特征输入采用生成对抗网络结构的图像特征编码器，生成各空间三维点的第二图像特征，将各所述空间三维点的第二图像特征与深度值输入由多层感知器神经网络构成的隐式函数，输出各所述空间三维点的预测颜色值；所述多层感知器神经网络的中间层使用leakyReLU激活函数，最后一层使用tanh激活函数。

作为本发明的进一步改进，所述第二神经网络模型为ResNet50模型，所述ResNet50神经网络模型由MPII与LSP公开数据集，以Heatmap与Part Affinity Field作为训练数据集的真值，使用L2损失函数训练。

作为本发明的进一步改进，通过形态参数与姿态参数对所述人体参数化模型STAR进行拟合生成所述优化人体参数化模型，计算公式为：

其中，v′_i为所述人体参数化模型的顶点向量，v_i为所述人体形貌模型的顶点向量，N为定顶点个数，β为人体模型的形貌参数，θ为人体模型的姿态参数；使用L-BFGS算法求解上述的无约束最小化公式，得到所述优化人体参数化模型的形貌参数β和姿态参数θ。

作为本发明的进一步改进，所述三维人体模型采用3DPS模型进行三维人体姿态重建，其重建函数为：

p(j_i，j_j)∝N(d(j_i，j_j)|A_ij，σ_ij)

其中，p(J|V)表示姿势的后验分布，J表示关节点的集合，j_i表示第i个关节点的三维坐标，V是关于所述多个视角的集合，M和N分别表示视角数和关节点数，p(V_m|π_m(j_i))描述每个关节点的二维空间分布，所述每个关节点的二维空间分布通过基于卷积神经网络的二维姿态检测器所输出的heatmap所得到，p(j_i，j_j)限制了关节之间的骨头长度，N(d(j_i，j_j)|A_ij，σ_ij)表示p(j_i，j_j)服从正态分布，其中d(j_i，j_j)代表关节点i到关节点j之间的距离，A_ij和σ_ij分别代表Human3.6M数据集学习得到的均值与标准差。

作为本发明的进一步改进，将所述三维人体模型数据传输到头显设备，在所述头显设备中显示所述三维人体模型。

根据本发明另一个方面，提供了一种三维人体虚拟化重建装置，该装置包括：获取人体三维形貌模型模块：使用照相设备拍摄人体姿势标准T-pose图片，将所述T-pose图片输入第一神经网络模型获取所述人体三维形貌模型；其中所述第一神经网络模型预先使用大量真实人体姿势图像进行训练；获取可驱动人体模型模块：通过形态参数与姿态参数对人体参数化模型STAR进行拟合生成优化人体参数化模型，将所述优化人体参数化模型与所述人体三维形貌模型的顶点及边缘绑定，生成所述可驱动人体模型；所述可驱动人体模型通过所述形态参数与姿势参数驱动；获取姿势参数集模块：在同一时刻使用多个照相设备从多个视角拍摄，获取所述多个视角的人体图片集合，将所述人体图片集合输入第二神经网络模型，获取所述多个视角所述人体二维关节点坐标，组成人体二维关节点坐标集；基于所述多个视角得出人体三维姿态；拟合所述人体二维关节点坐标集和所述人体三维姿态，得到所述姿势参数集；生成三维人体模型模块：将所述姿势参数集输入所述可驱动人体模型，生成对应于所述多个视角的多种姿势的所述三维人体模型；

作为本发明的进一步改进，所述获取人体三维形貌模型模块包括：曲面重建组件：所述T-pose图片经过采用沙漏堆积网络结构的图像特征编码器，生成各空间三维点的第一图像特征；将各所述空间三维点的第一图像特征与深度值输入由多层感知器神经网络构成的隐式函数，得到一个连续的空间内外概率场，提取所述概率场的等值面为三维人体模型表面；所述多层感知器神经网络的中间层使用leakyReLU激活函数，最后一层使用sigmoid激活函数；遮挡区域纹理推断组件：将所述各空间三维点的第一图像特征输入采用生成对抗网络结构的图像特征编码器，生成各空间三维点的第二图像特征，将各所述空间三维点的第二图像特征与深度值输入由多层感知器神经网络构成的隐式函数，输出各所述空间三维点的预测颜色值；所述多层感知器神经网络的中间层使用1eakyReLU激活函数，最后一层使用tanh激活函数。

作为本发明的进一步改进，还包括头显设备：将所述三维人体模型数据传输到所述头显设备，在所述头显设备中显示所述三维人体模型。

籍由上述技术方案，本发明提供的有益效果如下：

(1)通过将人体参数化模型与人体形貌模型绑定，能够重建出可驱动的三维人体模型，该模型不仅具有真实的人体形貌纹理，还可以实时输入的不同的三维姿态参数对绑定的模型进行驱动，并且被驱动的模型呈现动画效果。

(2)使用多个相机获取人体三维姿态，对于严重遮挡场景的鲁棒性更强，与单相机相比可以更加精确的估计场景中人体的三维关节点坐标。

(3)将三维重建技术与增强现实技术相结合，与传统人体三维重建系统更具真实性，能够给用户带来沉浸式的体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种三维人体虚拟化重建方法的流程图；

图2示出了本发明实施例提供的一种三维人体虚拟化重建方法中三维人体形貌模型重建过程示意图；

图3示出了本发明实施例提供的一种三维人体虚拟化重建方法中三维人体形貌模型示意图；

图4示出了本发明实施例提供的一种三维人体虚拟化重建方法中人体三维姿态估计过程示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

增强现实技术：Augmented Reality，简称AR。在视觉化的增强现实中，用户利用头盔显示器，把真实世界与电脑图形多重合成在一起，便可以看到真实的世界围绕着它。增强现实技术包含了多媒体、三维建模、实时视频显示及控制、多传感器溶合、实时跟踪及注册、场景融合等新技术与新手段。

本发明要解决的核心技术问题为，现有技术中利用预测的骨架信息驱动常用的人体参数化模型所带来的人体外表形貌问题被忽略的问题。

针对上述技术问题，本发明提出一种三维人体虚拟化重建方法及装置，该方法通过优化目前常用的人体参数化模型(如STAR)，使其能与利用人体Tpose照片通过预训练好的神经网络构建人体三维形貌模型绑定；同时本方法利用多相机实时获取多视角的人体三维姿态，对于严重遮挡场景的鲁棒性更强，与单相机相比可以更加精确的估计场景中人体的三维关节点坐标，使得获取的姿态参数更为完整精确，在使用姿态参数驱动绑定后的人体三维模型时，实现实时精确且多视角的动画效果。

实施例1

如图1所示，本发明实施例方法主要包括以下步骤：

S1：使用照相设备拍摄人体姿势标准T-pose图片，将所述T-pose图片输入第一神经网络模型获取人体三维形貌模型；其中所述第一神经网络模型预先使用大量真实人体姿势图像进行训练。

在本实施例中，将四个彩色相机分别置于场景中的任意边缘位置，使得其能够捕获四个不同视角的人体彩色图。在其他一些实施例中，也可以根据视角的不同需要设置不同数量的照相设备。其中照相设备包括相机、摄像机等。

使用任意一台相机采集场景中人物的T-pose彩色图，将其获取的人体的T-pose彩色图送入预训练好的神经网络构建其三维形貌模型。

该神经网络模型表达了一个占据体函数f(X，I)，其预测了相机空间中任意一个三维点X处的二进制占据概率值，得到一个连续空间的内外概率场，由此得到三维人体形貌模型，是内存上高效率的曲面表示。占据体函数f(X，I)是由使用卷积神经网络作为图像特征提取函数φ和由使用多层感知器作为连续隐式函数g组成，其数学表达式为：f(X，I)＝g(φ(x，I)，Z(X))。

其中，X是三维空间中的任意一点，x＝π(X)是三维空间点X的在输入图片上二维投影点，I是输入的彩色图片，φ(x，I)表示通过全卷积神经网络提取的点x处的图像特征，Z(X)表示在相机空间中点X的深度值，由相机内外参数投影计算得到。

如图2所示，人体形貌模型重建具体包括曲面重建和纹理推断两个部分。

对于曲面重建部分，将真值曲面表示为一个连续三维占有场的0.5水平集。如果三维点在曲面内部，则

如果三维点X在曲面外部，

使用最小化均x方误差的平均值来训练隐式函数f_v(X，I)，使其能够尽量拟合真值函数

均方误差损失函数为：

其中，f_v(X，I)＝g(I(x))是来自图像编码器g的图像特征，x是空间点X的二维投影，n是采样点的数目，采样策略为均匀采样和基于曲面几何的自适应采样的结合。

由此，给定一张输入彩色图片，经过图像特征编码器，采用沙漏堆积网络结构，输出图像特征Fv，将与空间三维点对应的图像特征向量及该点处的深度值送入隐式函数，由多层感知器神经网络构成，其中间层使用leakyReLU激活函数，最后一层使用sigmoid激活函数，预测出输入的三维点处于人体曲面内外的概率，得到一个连续的空间内外概率场。使用marching cube算法在阈值0.5处提取概率场的等值面，所提取的等值面即输出的三维人体模型表面。

对于纹理推断部分，给定曲面上采样的三维点，纹理推断的目标函数为采样颜色的L1误差的平均值。L1误差损失函数为：

其中，X′＝X+Ni*ε，X为三维空间中的任意一点，ε为服从(0，1)正态分布的偏移量，n为采样点个数。

为真实的RGB值，f_C(X′，f_v)为预测的RGB值，f_v为曲面重建阶段提取的图像特征。

由此，对于遮挡区域的纹理推断，先将曲面重建部分学习的图像特征Fv送入图像特征编码器，采用生成对抗网络结构，再将图像特征向量与深度值送入隐式函数由多层感知器神经网络构成，中间层使用leakyReLU激活函数，最后一层使用tanh激活函数，输出预测的RGB颜色值。这样，f_c不仅推断曲面的RGB颜色值，还推断了曲面的几何形状来推测不可见区域的纹理颜色，从而生成了与场景中人物极为相似的带有纹理的人体三维形貌模型。可参考图3，图3为本实施例方法生成的三维人体形貌模型示意图。

S2：通过形态参数与姿态参数对人体参数化模型STAR进行拟合生成优化人体参数化模型，将所述优化人体参数化模型与所述人体三维形貌模型的顶点及边缘绑定，生成可驱动人体模型；所述可驱动人体模型通过所述形态参数与姿势参数驱动；

通过形态参数与姿态参数对人体参数化模型进行拟合，将其尽可能拟合到与人体形貌模型相似的程度，得到最优的形态与姿势参数，使用优化后的参数模型对人体形貌模型的顶点及边缘绑定实现人体形貌模型的可驱动性；将拟合优化得到的模型参数以及人体参数化模型函数应用到人体形貌模型，实现人体形貌模型的动画化。

作为示例，本实施例选取人体参数化模型STAR，通过10个形态参数与75个姿态参数对人体参数化模型STAR进行拟合，将其尽可能拟合到与人体形貌模型相似的程度，得到最优的形态参数β与姿势参数θ，使用优化后的参数模型对人体形貌模型的顶点及边缘绑定实现人体形貌模型的可驱动性。求解最优化参数的计算过程为：

其中，v′_i为人体参数化模型的顶点向量，v_i为人体形貌模型的顶点向量，N为定顶点个数，β为人体模型的形貌参数，θ为人体模型的姿态参数。使用L-BFGS算法求解上述的无约束最小化公式，得到最佳的模型参数β和θ。

将拟合优化得到的模型参数β和θ以及人体参数化模型函数应用到人体形貌模型，改变模型输入参数β和θ，即可实现人体形貌模型的动画化。人体三维形貌模型函数为：

其中，

是线性蒙皮函数，使用线性蒙皮LBS，

为从人体三维形貌模型中的顶点向量，J为求取关节位置映射函数，

为姿态参数，W为蒙皮权重。

为顶点变形函数，

为模版模型的顶点向量，即人体形貌模型的T-pose模型顶点向量，

为形貌变形函数，

为姿态变形函数。

S3：在同一时刻使用多个照相设备从多个视角拍摄，获取所述多个视角的人体图片集合，将所述人体图片集合输入第二神经网络模型，获取所述多个视角所述人体二维关节点坐标，组成人体二维关节点坐标集；基于所述多个视角得出人体三维姿态；拟合所述人体二维关节点坐标集和所述人体三维姿态，得到所述姿势参数集；

图4示出了本发明实施例提供的一种三维人体虚拟化重建方法中人体三维姿态估计过程示意图。如图4所示，将多个相机拍摄所得的同一时刻场景不同视角的人体彩色图输入到训练好的神经网络模型中，分别检测各个视角下的二维关节点坐标，进行跨视角人物身份匹配，并基于多视图几何求解人体三维姿态，最后利用预测的二维和三维姿势拟合优化三维人体姿势，生成可以驱动模型运动的三维运动骨架数据--人体姿势θ，即三维人体姿态中各个关节点的相对位置角度信息。

本实施例提供的一种人体三维姿势参数θ求解步骤包括：

利用四个彩色相机对场景中人物进行不同视角的拍摄，将同一时刻的不同视角彩色图片分别送入预训练好的神经网络ResNet50模型中，预测出场景中人物的二维姿态。ResNet50神经网络模型由MPII与LSP公开数据集，以Heatmap与PartAffinity Field作为训练数据集的真值，使用L2损失函数训练。采用自上而下的方法，先估计出场景中的个人，然后再输出相应个人的二维人体关节点坐标，得到预测的场景中人物的二维姿态。

为了在四个视角中找到场景中人物所有的二维bounding box，首先，使用YouOnly Look Once方法，将其在COCO数据集上训练用来检测图片中场景中人物的boundingbox。采用Darknet网络架构，由神经网络训练得来的模型只用来负责提供人体boundingbox，将损失函数定义为：

L_p＝L_coord+L_iou。

其中，L_coord表示预测值和真实值之间的二维关节点坐标以及bounding box坐标误差，L_iou表示IOU(交并比)的误差。使用参数λ来权衡bounding box坐标损失的权重参数，让坐标误差在最终结果的影响中占有更高的比重，来平衡预测结果。

随后，使用基于外观特征数据的矩阵来衡量两个二维bounding box属于同一个人的可能性，建立多视角间bounding box对应关系的算法。外观特征数据衡量矩阵为：M_ij＝d(p(i)，p(j))。

其中，p(i)，p(j)分别代表两个bounding box的外观特征，基于特征数组之间欧式距离的计算其之间的相似得分。最终，输出的矩阵M表示四个视角下的bounding box的对应关系。由此，在重建三维姿势之前，已检测到的二维姿势应该具备了各时刻场景中人物相互之间的匹配关系。

利用得到的所有视角下的人物的bounding box以及场景中人物之间的匹配关系，结合人体骨骼先验信息重建三维人体姿态。在得到了所有视角下的bounding boxes以及它们之间的匹配关系后，重建场景中人物三维姿态。采用3DPS模型进行三维人体姿态重建，其重建函数为：

p(j_i，j_j)∝N(d(j_i，j_j)|A_ij，σ_ij)

其中，p(J|V)表示姿势的后验分布，J表示关节点的集合，j_i表示第i个关节点的三维坐标，V是关于四个视角的集合，M和N分别表示视角数和关节点数，p(V_m|π_m(j_i))描述每个关节点的二维空间分布，其通过基于卷积神经网络的二维姿态检测器所输出的heatmap所得到，p(j_i，j_j)限制了关节之间的骨头长度，N(d(j_i，j_j)|A_ij，σ_ij)表示p(j_i，j_j)服从正态分布，其中d(j_i，j_j)代表关节点i到关节点j之间的距离。A_ij和σ_ij分别代表Human3.6M数据集学习得到的均值与标准差。

S4：将所述姿势参数集输入所述可驱动人体模型，生成对应于所述多个视角的多种姿势的三维人体模型；

将多视角姿态估计所得到的三维姿势参数输入到人体形貌模型中，实现不同姿势的三维人体模型的动画重建效果。在本例中是将四个视角姿态估计所得到的三维姿势θ参数输入到人体形貌模型中。

S5：重复步骤S3和S4，实现所述三维人体模型实时更新。

最终，把依据场景中人物活动重建出来的三维人物模型打包编码，将数据传输到头显设备，使得场景中人物可以在头显中实现虚拟的三维人体模型显示，即实现了增强现实技术使重建的三维人体模型在目标场景中显示，使得三维人体重建系统达到可视化远程交互的功能。

实施例2

进一步的，作为对上述实施例所示方法的实现，本发明另一实施例还提供了一种三维人体虚拟化重建装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。在该实施例的装置中，具有以下模块：

1、获取人体三维形貌模型模块：使用照相设备拍摄人体姿势标准T-pose图片，将T-pose图片输入第一神经网络模型获取人体三维形貌模型；其中第一神经网络模型预先使用大量真实人体姿势图像进行训练；获取人体三维形貌模型模块对应于实施例1中的S1步骤。

该模块还包括以下组件：

曲面重建组件：T-pose图片经过采用沙漏堆积网络结构的图像特征编码器，生成各空间三维点的第一图像特征；将各空间三维点的第一图像特征与深度值输入由多层感知器神经网络构成的隐式函数，得到一个连续的空间内外概率场，提取概率场的等值面为三维人体模型表面；多层感知器神经网络的中间层使用leakyReLU激活函数，最后一层使用sigmoid激活函数；

遮挡区域纹理推断组件：将各空间三维点的第一图像特征输入采用生成对抗网络结构的图像特征编码器，生成各空间三维点的第二图像特征，将各空间三维点的第二图像特征与深度值输入由多层感知器神经网络构成的隐式函数，输出各空间三维点的预测颜色值；多层感知器神经网络的中间层使用leakyReLU激活函数，最后一层使用tanh激活函数。

2、获取可驱动人体模型模块：通过形态参数与姿态参数对人体参数化模型STAR进行拟合生成优化人体参数化模型，将优化人体参数化模型与人体三维形貌模型的顶点及边缘绑定，生成可驱动人体模型；可驱动人体模型通过形态参数与姿势参数驱动；获取可驱动人体模型模块对应于实施例1中的S2步骤。

3、获取姿势参数集模块：在同一时刻使用多个照相设备从多个视角拍摄，获取多个视角的人体图片集合，将人体图片集合输入第二神经网络模型，获取多个视角人体二维关节点坐标，组成人体二维关节点坐标集；基于多个视角得出人体三维姿态；拟合人体二维关节点坐标集和人体三维姿态，得到姿势参数集；获取姿势参数集模块对应于实施例1中的S3步骤。

4、生成三维人体模型模块：将姿势参数集输入可驱动人体模型，生成对应于多个视角的多种姿势的三维人体模型；生成三维人体模型模块对应于实施例1中的S4步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实装置施例的相关描述。

可以理解的是，上述方法和中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种三维人体虚拟化重建方法，其特征在于，包括步骤：

S1：使用照相设备拍摄人体姿势标准T-pose图片，将所述T-pose图片输入第一神经网络模型获取人体三维形貌模型；其中所述第一神经网络模型预先使用大量真实人体姿势图像进行训练；

S5：重复步骤S3和S4，实现所述三维人体模型实时更新。

2.根据权利要求1所述的三维人体虚拟化重建方法，其特征在于，将所述T-pose图片输入第一神经网络模型获取人体三维形貌模型包括步骤：

曲面重建：所述T-pose图片经过采用沙漏堆积网络结构的图像特征编码器，生成各空间三维点的第一图像特征；将各所述空间三维点的第一图像特征与深度值输入由多层感知器神经网络构成的隐式函数，得到一个连续的空间内外概率场，提取所述概率场的等值面为三维人体模型表面；所述多层感知器神经网络的中间层使用leakyReLU激活函数，最后一层使用sigmoid激活函数；

遮挡区域纹理推断：将所述各空间三维点的第一图像特征输入采用生成对抗网络结构的图像特征编码器，生成各空间三维点的第二图像特征，将各所述空间三维点的第二图像特征与深度值输入由多层感知器神经网络构成的隐式函数，输出各所述空间三维点的预测颜色值；所述多层感知器神经网络的中间层使用leakyReLU激活函数，最后一层使用tanh激活函数。

3.根据权利要求1所述的三维人体虚拟化重建方法，其特征在于，所述第二神经网络模型为ResNet50模型，所述ResNet50神经网络模型由MPII与LSP公开数据集，以Heatmap与Part Affinity Field作为训练数据集的真值，使用L2损失函数训练。

4.根据权利要求1所述的三维人体虚拟化重建方法，其特征在于，通过形态参数与姿态参数对所述人体参数化模型STAR进行拟合生成所述优化人体参数化模型，计算公式为：

5.根据权利要求1所述的三维人体虚拟化重建方法，其特征在于，所述三维人体模型采用3DPS模型进行三维人体姿态重建，其重建函数为：

p(j_i，j_j)∝N(d(j_i，j_j)|A_ij，σ_ij)

其中，p(J|V)表示姿势的后验分布，J表示关节点的集合，j_i表示第i个关节点的三维坐标，V是关于所述多个视角的集合，M和N分别表示视角数和关节点数，p(V_m|π_m(j_i))描述每个关节点的二维空间分布，所述每个关节点的二维空间分布通过基于卷积神经网络的二维姿态检测器所输出的heatmap所得到，p(j_i，j_j)限制了关节之间的骨头长度，N(d(j_i，j_j)|A_ij，σ_ij)表示p(j_i，j_j)服从正态分布，其中d(ji，jj)代表关节点i到关节点j之间的距离，A_ij和σ_ij分别代表Human3.6M数据集学习得到的均值与标准差。

6.根据权利要求1所述的三维人体虚拟化重建方法，其特征在于，将所述三维人体模型数据传输到头显设备，在所述头显设备中显示所述三维人体模型。

7.一种三维人体虚拟化重建装置，其特征在于，包括：

获取人体三维形貌模型模块：使用照相设备拍摄人体姿势标准T-pose图片，将所述T-pose图片输入第一神经网络模型获取所述人体三维形貌模型；其中所述第一神经网络模型预先使用大量真实人体姿势图像进行训练；

获取可驱动人体模型模块：通过形态参数与姿态参数对人体参数化模型STAR进行拟合生成优化人体参数化模型，将所述优化人体参数化模型与所述人体三维形貌模型的顶点及边缘绑定，生成所述可驱动人体模型；所述可驱动人体模型通过所述形态参数与姿势参数驱动；

获取姿势参数集模块：在同一时刻使用多个照相设备从多个视角拍摄，获取所述多个视角的人体图片集合，将所述人体图片集合输入第二神经网络模型，获取所述多个视角所述人体二维关节点坐标，组成人体二维关节点坐标集；基于所述多个视角得出人体三维姿态；拟合所述人体二维关节点坐标集和所述人体三维姿态，得到所述姿势参数集；

生成三维人体模型模块：将所述姿势参数集输入所述可驱动人体模型，生成对应于所述多个视角的多种姿势的所述三维人体模型。

8.根据权利要求7所述的三维人体虚拟化重建装置，其特征在于，所述获取人体三维形貌模型模块包括：

曲面重建组件：所述T-pose图片经过采用沙漏堆积网络结构的图像特征编码器，生成各空间三维点的第一图像特征；将各所述空间三维点的第一图像特征与深度值输入由多层感知器神经网络构成的隐式函数，得到一个连续的空间内外概率场，提取所述概率场的等值面为三维人体模型表面；所述多层感知器神经网络的中间层使用leakyReLU激活函数，最后一层使用sigmoid激活函数；

遮挡区域纹理推断组件：将所述各空间三维点的第一图像特征输入采用生成对抗网络结构的图像特征编码器，生成各空间三维点的第二图像特征，将各所述空间三维点的第二图像特征与深度值输入由多层感知器神经网络构成的隐式函数，输出各所述空间三维点的预测颜色值；所述多层感知器神经网络的中间层使用leakyReLU激活函数，最后一层使用tanh激活函数。

9.根据权利要求7所述的三维人体虚拟化重建装置，其特征在于，还包括头显设备：将所述三维人体模型数据传输到所述头显设备，在所述头显设备中显示所述三维人体模型。