CN114863037B

CN114863037B - 基于单手机的人体三维建模数据采集与重建方法及系统

Info

Publication number: CN114863037B
Application number: CN202210788579.7A
Authority: CN
Inventors: 鲍虎军; 孙佳明; 罗运升; 余致远; 赵洪城; 周晓巍
Original assignee: Hangzhou Xiangyan Technology Co ltd
Current assignee: Hangzhou Xiangyan Technology Co ltd
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-10-11
Anticipated expiration: 2042-07-06
Also published as: WO2024007478A1; US12014463B2; US20240153213A1; CN114863037A

Abstract

本发明公开了一种基于单手机的人体三维建模数据采集与重建方法及系统，本发明在数据采集方面可仅使用单个智能手机，利用增强现实技术引导用户采集对重建算法而言高质量的视频数据输入，以确保后续的人体重建算法能够稳健地得到高质量三维人体模型。在重建算法方面，本发明设计了可变形隐式神经辐射场。隐式空间变形场估计模型的使用解决了单手机采集数据过程中被摄存在微小运动的问题；使用隐式带符号距离场来表示人体几何，表达能力丰富，提高了三维人体模型重建的精度。综合数据采集和重建算法，本发明实现了可靠的基于单手机的人体高质量三维建模数据采集与重建。

Description

基于单手机的人体三维建模数据采集与重建方法及系统

技术领域

本发明属于计算机视觉领域，尤其涉及一种基于单手机的人体三维建模数据采集与重建方法及系统。

背景技术

人体重建是虚拟现实与增强现实内容创作、影视创作和虚拟穿衣等交互沉浸式应用的基础。高质量的人体重建是虚拟现实与增强现实中数字人相关的众多应用场景的前提。目前的人体采集与重建方案主要分为两种：借助专业多相机采集系统对人体进行扫描来采集数据，此种采集系统非常昂贵且占地面积大，限制了高精度人体重建的大规模使用和商业化。另一类方法使用单个便携设备例如智能手机代替专业设备进行图像采集，使用基于多视图立体重建方法进行人体重建。这一类方法对于人体纹理稀疏部分的处理能力弱，且无法建模人体在采集过程中的微小动作，容易导致重建结果完整度低，完全无法满足高精度人体重建的要求。

发明内容

本发明的目的是提供一种基于单手机的人体三维建模数据采集与重建方法及系统，以解决上述传统静止人体模型重建方案中所存在的问题。

本发明的目的是通过以下技术方案实现的：

根据本发明的第一方面，提供一种基于单手机的人体三维建模数据采集与重建方法，包括以下步骤：

S1，基于增强现实技术的数据采集，包括：

S1.1，被摄站立于场景中，用户通过手机环绕被摄一周，根据多视角下拍摄到的被摄的体型和姿态拟合人体参数化模板网格，并利用增强现实技术将所述人体参数化模板网格渲染在被摄所站立的场景位置，近似达到人体参数化模板网格与被摄重合的视觉效果；

S1.2，利用拟合得到的人体参数化模板网格指引用户数据采集过程，数据采集过程中，判断所述人体参数化模板网格上单个面片在当前视角下的观测是否有效，当单个面片被足够数量的视角有效观测到时，更改此面片的颜色标记，指示用户此面片位置已采集完成，用户将视角移动到还未足够观测的人体参数化模板网格部分；

S2，基于可变形隐式神经辐射场的三维人体模型重建，包括：

S2.1，将S1.2采集的视频抽帧为一系列环绕人体拍摄的图像序列，根据图像间特征点的匹配关系，估计出拍摄图像所对应的相机位姿和相机内参；

S2.2，使用可变形隐式神经辐射场对人体进行三维建模，利用体渲染的方式对隐式空间变形场估计模型、隐式带符号距离场估计模型和隐式颜色估计模型进行优化，得到三维人体模型。

进一步地，步骤S1.1中，要求被摄处于场景中心站立，保持一展开人体表面的利于重建的姿态不动，用户通过手机环绕被摄一周。

进一步地，步骤S1.1具体为：

运行定位与建图算法，实时得到数据采集时的相机位姿；

运行人体关键点检测算法，实时得到所摄图像上的人体关键点位置；

根据得到的相机位姿和人体关键点位置，拟合人体参数化模板网格至被摄位置，达到视觉上人体参数化模板网格与被摄重合的视觉效果，用户将根据人体参数化模板网格的指引完成数据采集。

进一步地，步骤S1.2中，判断单个面片在当前视角下的观测是否有效包括：

基于对相机的实时定位结果，计算相机光心与面片中心点的距离，若此距离小于设定距离阈值，则认为当前视角下此面片符合有效观测的距离标准；

基于对相机的实时定位结果，计算相机光心与面片中心点的连线，若此连线与面片法向量的夹角小于设定视线角度阈值，则认为当前视角下此面片符合有效观测的视线角度标准。

进一步地，步骤S1.2中，若面片在某一视角的观测下，同时满足有效观测的距离标准和视线角度标准，则此面片的有效观测计数加一，若面片的有效观测计数达到设定数量阈值，则认为此面片已经有足够数量的观测，更改此面片的颜色标记，指示用户此面片位置已采集完成，移动相机向还未足够观测的区域采集，当人体参数化模板网格上的全部面片变色后，数据采集过程完成。

进一步地，步骤S2.1具体为：通过运动恢复结构方法对图像序列进行稀疏重建，运动恢复结构方法的输入是围绕人体使用手机拍摄的一系列图像帧，输出是这些图像对应的相机位姿和相机内参以及根据这些图像重建得到的稀疏点云。

进一步地，步骤S2.2具体为：

利用神经网络建立基准空间中表达基准形状的隐式带符号距离场估计模型；

利用神经网络建立基准空间中从特定方向观测三维点的颜色的隐式颜色估计模型；

利用神经网络建立从每一个图像帧对应的观测帧坐标系到基准空间的隐式空间变形场估计模型；

基于S2.1得到的图像对应的相机位姿和相机内参，在输入图像集合上利用体渲染的方式对隐式空间变形场估计模型、隐式带符号距离场估计模型和隐式颜色估计模型进行优化，得到隐式三维人体模型；

通过等值面提取方法对可变形隐式神经辐射场的隐式带符号距离场进行后处理，得到显式三维人体模型。

进一步地，步骤S2.2中，

所述隐式空间变形场估计模型的输入为观测帧坐标系下的三维点坐标，输出为基准坐标系下的三维点坐标；

所述隐式带符号距离场估计模型的输入为基准空间中三维点坐标，输出为三维点的带符号距离和几何特征，表征此三维点到人体表面的距离；

所述隐式颜色估计模型的输入为隐式带符号距离场估计模型输出的三维点的几何特征以及表征视线的向量，输出为模型估计的沿特定视线方向每个采样点的颜色；

根据每个采样点的带符号距离计算得到采样点密度，根据采样点密度和颜色通过体渲染技术得到渲染结果。

进一步地，步骤S2.2中，根据图像真实度损失函数和带符号距离场正则化损失函数，反向传播更新每一个观测帧的形变编码和隐式空间变形场估计模型、隐式带符号距离场估计模型、隐式颜色估计模型。

根据本发明的第二方面，提供一种基于单手机的人体三维建模数据采集与重建系统，该系统包括数据采集模块和重建模块；

数据采集模块：通过增强现实技术在采集场景中虚拟放置人体参数化模板网格，用户跟随所述人体参数化模板网格上的视觉指引采集视频数据，并从视频数据抽取图像帧后送入重建模块；

重建模块：估计所有图像帧所对应的相机位姿和相机内参，使用可变形隐式神经辐射场对人体进行三维建模，利用体渲染的方式对隐式空间变形场估计模型、隐式带符号距离场估计模型和隐式颜色估计模型进行优化，得到三维人体模型。

本发明的有益效果是：

1）本发明在数据采集方面可仅使用单个智能手机，利用增强现实技术引导用户采集对重建算法而言高质量的视频数据输入，以确保后续的人体重建算法能够稳健地得到高质量三维人体模型。

2）在重建算法方面，本发明设计了可变形隐式神经辐射场。隐式空间变形场估计模型的使用解决了单手机采集数据过程中被摄存在微小运动的问题；使用隐式带符号距离场来表示人体几何，表达能力丰富，提高了三维人体模型重建的精度。

综合数据采集和重建算法，本发明实现了可靠的基于单手机的人体高质量三维建模数据采集与重建。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于单手机的人体三维建模数据采集与重建方法流程图；

图2是本发明实施例提供的数据采集部分流程及效果图；

图3是本发明实施例提供的静止人体重建结果效果图；

图4为本发明实施例提供的基于单手机的人体三维建模数据采集与重建系统结构图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域的普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

在三维人体模型重建领域，传统的基于图像的方法或者是需要复杂的采集设备和环境的构建，或者是受限于传统多视角几何方法的重建能力，都不能够仅使用单个便携设备重建出高质量的三维人体模型。本发明提供了一种基于可变形隐式神经辐射场的高质量三维人体模型重建方法，并针对人体重建这一特定任务，优化了数据采集流程，提供了一种利用增强现实技术的人体高质量三维建模数据采集方法，设计数据采集应用指引用户高效采集高质量数据用于人体重建。

本发明实施例提供一种基于单手机的人体三维建模数据采集与重建方法，主要包括基于增强现实技术的数据采集与基于可变形隐式神经辐射场的高质量三维人体模型重建两部分，方法流程如图1所示，具体实现步骤如下：

S1，基于增强现实技术的数据采集，流程如图2所示。

S1.1，要求被摄在视频采集过程中，处于场景中心站立，保持一展开人体表面的利于重建的姿态不动，例如保持A字形姿态，用户通过手机打开本实施例中的数据采集应用，环绕被摄一周，此过程中，数据采集应用会在后台运行实时定位与建图算法和人体关键点检测算法，实时得到相机位姿和所摄图像上的人体关键点。根据相机定位和人体关键点结果，本实施例将根据被摄的体型和姿态自动拟合人体参数化模板网格，并利用增强现实技术，将此人体参数化模板网格渲染在被摄所站立的场景位置，近似达到人体参数化模板网格与被摄重合的视觉效果。

具体地，人体参数化模板网格可采用任何现有的人体参数化模板网格模型，拟合人体参数化模板网格的方法可采用任何现有的从连续图像帧拟合人体参数化模板网格的方法。

S1.2，基于S1.1拟合得到的人体参数化模板网格指导用户数据采集过程，目的是确保人体参数化模板网格上的每个面片都得到了足够的观测。

在人体参数化模板网格与被摄近似重合的情况下，人体参数化模板网格上的每个面片得到足够观测即意味着被摄被采集数据充分地观测到了。衡量观测是否有效是根据相机光心与面片间的距离和相机视线与面片法向量之间的角度。下面详细介绍具体标准和实践方法：

对于单个面片，基于对相机的实时定位结果，可计算出相机光心与此面片中心点的距离，当此距离小于设定距离阈值（本实施例中设置为一米）时，认为当前视角下此面片符合有效观测的距离标准。

对于单个面片，基于对相机的实时定位结果，可计算出相机光心与此面片中心点的连线，若此连线与面片法向量的夹角小于设定视线角度阈值（本实施例中设置为60°），则认为当前视角下此面片符合有效观测的视线角度标准。

若面片在某一视角的观测下，同时满足有效观测的距离标准和视线角度标准，则此面片的有效观测计数加一，若面片的有效观测计数达到设定数量阈值（本实施例中设置为5），则认为此面片已经有足够数量的观测，更改此面片的颜色标记，本实施例中将面片颜色由白变绿，指示用户此面片位置采集已完成，可移动相机向还未足够观测的区域采集。当人体参数化模板网格上的全部面片颜色均已变绿后，数据采集过程完成，视频将自动导出进入后续重建流程。

S2，基于可变形隐式神经辐射场的高质量三维人体模型重建。

S2.1，将S1.2采集完成的视频抽帧为一系列环绕人体拍摄的图像序列，根据图像间特征点的匹配关系，估计出拍摄图像所对应的相机位姿及相机内参和稀疏点云。

该步骤可基于任何现有的运动恢复结构方法。该步骤可将S1中得到的相机实时定位结果作为先验，基于运动恢复结构方法进行进一步优化。

S2.2，使用可变形隐式神经辐射场对人体进行高精度建模，此可变形隐式神经辐射场包括隐式空间变形场估计模型R、隐式带符号距离场估计模型S _c和隐式颜色估计模型C _c。

具体地，隐式空间变形场估计模型R的输入为观测帧坐标系下的三维点坐标，输出为基准坐标系下的三维点坐标。隐式带符号距离场估计模型S _c的输入为基准空间中三维点坐标，输出为三维点的带符号距离和几何特征，表征此三维点到人体表面的距离。隐式颜色估计模型C _c的输入为S _c输出的三维点的几何特征以及表征视线的向量，输出为模型估计的沿特定视线方向每个采样点的颜色。隐式空间变形场估计模型R、隐式带符号距离场估计模型S _c和隐式颜色估计模型C _c均可采用普通残差神经网络模型。由以上S _c和C _c得到三维点的带符号距离和颜色之后，使用体渲染技术即可渲染得到二维图像的像素值。下面具体说明：

应用体渲染技术需在空间中沿着视线方向在观测帧坐标系下采样N _c个三维点x（本实施例中N _c= 64）。首先利用隐式空间变形场估计模型R得到观测帧坐标系下的坐标在基准坐标系下对应的三维点坐标。

其中，x代表观测帧坐标系下的三维点，x _c代表基准空间下的三维点，d _I表示观测帧特定的形变编码，用以处理每一帧下不同的人体运动，此形变编码可在神经网络反向传播过程中被优化。

隐式带符号距离场估计模型S _c学习三维点的带符号距离d _sdf和几何特征z _geo。

根据每个三维点的带符号距离d _sdf，可以计算得到其对应的密度ρ(t)。

其中，t为沿视线方向采样的步长，x _c(t)表示沿视线方向采样步长为t时所对应的三维点坐标，S _c(x _c(t))为三维点x _c(t)的带符号距离值，

为Sigmoid函数。

然后，本方法将视线方向和隐式带符号距离场估计模型S _c输出的几何特征z _geo输入隐式颜色估计模型C _c，输出沿视线方向v每个采样点的颜色。

其中，v代表由相机位姿系数计算得到的视线方向，z _geo代表x _c(t)处隐式带符号距离场估计模型输出的几何特征，n代表x _c(t)处的法向量方向，此法向量方向可由对估计出的带符号距离场求导得到，RGB表示三维点的红绿蓝三通道颜色。

在得到每个采样点处的估计出的密度和颜色后，采用如下积分方式即可得到渲染结果C(w,h)：

其中，C(w,h)代表二维图像(w,h)处的渲染颜色值，t _f和t _n分别表示沿视线方向的最远和最近采样步长，C _c(v,x _c(t))为x _c(t)在视线方向v下的颜色值，T(t)代表x _c(t)处的可透过性，由对ρ(t)积分得到：

最后，将经过可变形隐式神经辐射场渲染得到的图像C和原图像I一起计算图像真实度损失函数

：

其中，W和H分别表示输入图像的宽和高，(w,h)表示图像像素点坐标。

除图像真实度损失函数外，本发明还添加了带符号距离场正则化损失函数

，用以约束估计出的带符号距离场保持带符号距离场中点的法向量模量为1的数学性质：

其中，a为视线数量，N _c为单个视线上的采样点数量，此式约束所有采样点的法向量模量应为1。

为遍历到的第k条视线第i个采样点的三维点坐标，

为三维点

的带符号距离值。

综合图像真实度损失函数

和带符号距离场正则化损失函数

，得到完整的损失函数

：

此损失函数值用于神经网络反向传播更新各参数和每一个观测帧的形变编码。

S2.3，通过等值面提取方法对可变形隐式神经辐射场的隐式带符号距离场进行后处理，得到高质量显式三维人体模型。

图3是本发明实施例提供的静止人体重建结果效果图。

与前述基于单手机的人体三维建模数据采集与重建方法的实施例相对应，本发明还提供了基于单手机的人体三维建模数据采集与重建系统的实施例。

参见图4，本发明实施例提供的基于单手机的人体三维建模数据采集与重建系统，该系统包括数据采集模块和重建模块；

数据采集模块：通过增强现实技术在采集场景中虚拟放置人体参数化模板网格，用户跟随所述人体参数化模板网格上的视觉指引采集视频数据，并从视频数据抽取图像帧后送入重建模块；该模块的实现可以参考上述步骤S1。

重建模块：估计所有图像帧所对应的相机位姿和相机内参，使用可变形隐式神经辐射场对人体进行三维建模，利用体渲染的方式对隐式空间变形场估计模型、隐式带符号距离场估计模型和隐式颜色估计模型进行优化，得到三维人体模型。该模块的实现可以参考上述步骤S2。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中基于单手机的人体三维建模数据采集与重建方法中的步骤。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例中基于单手机的人体三维建模数据采集与重建方法中的步骤。其中，存储介质可以为非易失性存储介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种基于单手机的人体三维建模数据采集与重建方法，其特征在于，包括以下步骤：

S1，基于增强现实技术的数据采集，包括：

S1.1，要求被摄处于场景中心站立，保持一展开人体表面的利于重建的姿态不动，用户通过手机环绕被摄一周，根据多视角下拍摄到的被摄的体型和姿态拟合人体参数化模板网格，并利用增强现实技术将所述人体参数化模板网格渲染在被摄所站立的场景位置，近似达到人体参数化模板网格与被摄重合的视觉效果；

S1.2，利用拟合得到的人体参数化模板网格指引用户数据采集过程，数据采集过程中，判断所述人体参数化模板网格上单个面片在当前视角下的观测是否有效，若面片在某一视角的观测下，同时满足有效观测的距离标准和视线角度标准，则此面片的有效观测计数加一，若此面片的有效观测计数达到设定数量阈值，则认为此面片已经有足够数量的观测，更改此面片的颜色标记，指示用户此面片位置已采集完成，用户将视角移动到还未足够观测的区域采集，当人体参数化模板网格上的全部面片变色后，数据采集过程完成；

S2.2，使用可变形隐式神经辐射场对人体进行三维建模，所述可变形隐式神经辐射场包括隐式空间变形场估计模型、隐式带符号距离场估计模型和隐式颜色估计模型；

利用神经网络建立从每一个图像帧对应的观测帧坐标系到基准空间的隐式空间变形场估计模型，所述隐式空间变形场估计模型的输入为观测帧坐标系下的三维点坐标，输出为基准坐标系下的三维点坐标；

利用神经网络建立基准空间中表达基准形状的隐式带符号距离场估计模型，所述隐式带符号距离场估计模型的输入为基准空间中三维点坐标，输出为三维点的带符号距离和几何特征；

利用神经网络建立基准空间中从特定方向观测三维点的颜色的隐式颜色估计模型，所述隐式颜色估计模型的输入为隐式带符号距离场估计模型输出的三维点的几何特征以及表征视线的向量，输出为模型估计的沿特定视线方向每个采样点的颜色；

2.根据权利要求1所述的基于单手机的人体三维建模数据采集与重建方法，其特征在于，步骤S1.1具体为：

运行定位与建图算法，实时得到数据采集时的相机位姿；

3.根据权利要求1所述的基于单手机的人体三维建模数据采集与重建方法，其特征在于，步骤S1.2中，基于对相机的实时定位结果，计算相机光心与面片中心点的距离，若此距离小于设定距离阈值，则认为当前视角下此面片符合有效观测的距离标准；基于对相机的实时定位结果，计算相机光心与面片中心点的连线，若此连线与面片法向量的夹角小于设定视线角度阈值，则认为当前视角下此面片符合有效观测的视线角度标准。

4.根据权利要求1所述的基于单手机的人体三维建模数据采集与重建方法，其特征在于，步骤S2.1具体为：通过运动恢复结构方法对图像序列进行稀疏重建，运动恢复结构方法的输入是围绕人体使用手机拍摄的一系列图像帧，输出是这些图像对应的相机位姿和相机内参以及根据这些图像重建得到的稀疏点云。

5.根据权利要求1所述的基于单手机的人体三维建模数据采集与重建方法，其特征在于，步骤S2.2中，根据图像真实度损失函数和带符号距离场正则化损失函数，反向传播更新每一个观测帧的形变编码和隐式空间变形场估计模型、隐式带符号距离场估计模型、隐式颜色估计模型。

6.一种实现如权利要求1-5中任一项所述方法的基于单手机的人体三维建模数据采集与重建系统，其特征在于，该系统包括数据采集模块和重建模块；