CN114520906B

CN114520906B - 基于单目相机的三维人像补全方法和补全系统

Info

Publication number: CN114520906B
Application number: CN202210417444.XA
Authority: CN
Inventors: 徐迪; 厉行; 常江; 毛文涛; 蔡宝军
Original assignee: Beijing Yingchuang Information Technology Co ltd
Current assignee: Beijing Yingchuang Information Technology Co ltd
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-07-05
Anticipated expiration: 2042-04-21
Also published as: CN114520906A

Abstract

本申请提供一种基于单目相机的三维人像补全方法及补全系统，补全方法包括以下步骤：利用标定后的相机进行人体侧面RGB图采集并保存；根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图，并估计得到侧面深度图；根据得到的视频帧融合后的侧面RGB图和侧面深度图，生成正面RGB图以及正面深度图；根据正面RGB图和正面深度图构建带纹理的人体3D模型。本申请通过RGB图矫正网络和深度图矫正网络将侧面人像转换为正面人像，能够生成包含丰富几何细节的带纹理的人体3D模型。

Description

基于单目相机的三维人像补全方法和补全系统

技术领域

本申请属于图像处理技术领域，具体涉及一种基于单目相机的三维人像补全方法和补全系统。

背景技术

3D数字人体是AR/VR、虚拟试穿、全息通信、电影/游戏制作等应用中的关键技术之一。虽然高保真的3D数字人体可以通过高端采集设备（例如，通过100台相机来捕获全身几何形状）进行捕获，但是由于该技术对硬件要求高且计算复杂，因此难以在日常应用中普及。单视图重建是解决这一挑战的有效措施，其可以从扫描的人体3D模型中学习人体的3D表示。然而，这些3D扫描数据是有限的（例如，几百个静态模型），其不包含不同的姿态、外观和复杂的布料几何形状，导致3D人体重建应用于现实世界的图像中时性能下降。

另外，正面人像图比侧面人像图包含更多的信息（例如，当我们遇见一位熟识的人，我们更容易从正面将其认出），AR/VR、全球通信等应用中的3D虚拟人也多以正面展示。现有技术中基于RGB图的3D人体模型的重建方法多是基于正面人像进行学习的，当其应用于侧面人像时性能会出现明显的下降。然而，现实中人们很难拍摄出完全正面的图像。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供了一种基于单目相机的三维人像补全方法和补全系统。

根据本申请实施例的第一方面，本申请提供了一种基于单目相机的三维人像补全方法，其包括以下步骤：

利用标定后的相机进行人体侧面RGB图采集并保存；

根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图，并估计得到侧面深度图；

根据得到的视频帧融合后的侧面RGB图和侧面深度图，生成正面RGB图以及正面深度图；

根据正面RGB图和正面深度图构建带纹理的人体3D模型。

上述基于单目相机的三维人像补全方法中，所述根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图，并估计得到侧面深度图的过程为：

将侧面RGB图输入语义分割网络，生成人体的掩码图；

将侧面RGB图输入3D先验网络，生成UV坐标图；

对侧面RGB图的前后帧的相关性进行融合，得到视频帧融合后的侧面RGB图；

对于有深度真值的人像视频数据，利用法向估计网络和深度估计网络对掩码图、UV坐标图和视频帧融合后的侧面RGB图进行估计，生成侧面深度图。

进一步地，所述根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图，并估计得到侧面深度图还包括以下过程：

所述对于没有深度真值的人像视频数据，利用自监督视频深度估计网络对掩码图、UV坐标图和视频帧融合后的侧面RGB图进行估计，生成侧面深度图。

更进一步地，所述对侧面RGB图的前后帧的相关性进行融合，得到视频帧融合后的侧面RGB图的具体过程为：

假设视频的输入为

，其中，

表示时间维度，3表示通道维度数，H表示高度，W表示宽度，则每帧图像的输入为

；

首先，对视频进行特征提取，特征图的维度为

；

然后，对于需要融合的通道，将

时刻的特征图和

时刻的特征图进行融合，得到融合后的特征图；

最后，将融合后的特征图重塑为输入图像的维度

，由此获得融合了前后帧信息的侧面RGB图。

更进一步地，对于有深度真值的人像视频数据，所述生成侧面深度图的具体过程为：

使用法向估计网络

对视频帧融合后的侧面RGB图和掩码图进行估计，得到法向图A；其中，法向估计网络

的损失函数为：

；

式中，

表示法向图A的真值；

使用深度估计网络

对侧面RGB图、掩码图和UV坐标图进行估计，生成侧面深度图；其中，深度估计网络

的损失函数为：

；

式中，

表示深度图的真值；

将侧面深度图转点云，并计算每个点云

的法向量

；其中，法向量

为：

；

为迫使法向量

对应的法向图B逼近法向估计网络

估计的法向图A，引入损失函数

：

；

损失函数

的值越趋近于0表示法向图A和法向图B越接近。

进一步地，对于没有深度真值的人像视频数据，所述生成侧面深度图的具体过程为：

利用基于3D模型的翘曲函数将第

时刻的第

身体部分的点云转换到第

时刻，

；

式中，

表示基于3D模型的翘曲函数，

表示第

时刻的点云，

表示相机的旋转矩阵，

表示相机的平移矩阵。

表示第

身体部分的UV坐标，

表示第

时刻的第

个点云；

自监督视频深度估计网络的损失函数为：

；

式中，

表示第

时刻的第

个点云，

表示第

个视频的时间集合。

上述基于单目相机的三维人像补全方法中，所述根据得到的视频帧融合后的侧面RGB图和侧面深度图，生成正面RGB图以及正面深度图的具体过程为：

利用相机参数将视频帧融合后的侧面RGB图和侧面生成的深度图转换为弱透视投影下的侧面RGB图以及弱透视投影下的侧面深度图；

利用RGB矫正网络

将弱透视投影下的侧面RGB图生成正面RGB图；

其中，对于图像

的像素

，RGB矫正网络

的损失函数为：

；

式中，

表示正面RGB图的颜色真值；

利用深度矫正网络

将弱透视投影下的侧面深度图生成正面深度图；

其中，对于图像

的像素

，深度矫正网络

的损失函数为：

；

式中，

表示正面深度图的真值；

将正面深度图转换为正面法向图，并利用鉴别器判别该法向图是否为真。

进一步地，所述根据正面RGB图和正面深度图构建带纹理的人体3D模型的具体过程为：

根据相机参数，将正面RGB图和正面深度图生成带颜色的三维点云；

根据三角剖分算法，利用带颜色的三维点云生成带纹理的人体3D模型。

根据本申请实施例的第二方面，本申请还提供了一种基于单目相机的三维人像补全系统，其采用上述任一项所述的基于单目相机的三维人像补全方法，其包括相机、第一生成模块、第二生成模块和构建模块；

所述相机用于采集人体侧面RGB图，所述第一生成模块用于根据采集到的人体侧面RGB图生成视频帧融合后的侧面RGB图和侧面深度图；所述第二生成模块用于根据侧面RGB图和侧面深度图生成正面RGB图和正面深度图；所述构建模块用于根据正面RGB图和正面深度图构建人体3D模型。

根据本申请实施例的第三方面，本申请还提供了一种存储介质，其上存储有可执行程序，当可执行程序被调用时，执行上述任一项所述的基于单目相机的三维人像补全方法中的步骤。

根据本申请的上述具体实施方式可知，至少具有以下有益效果：本申请提供的基于单目相机的三维人像补全方法通过视频学习人体深度，而无需深度图真值；通过在大量的视频中进行自监督学习，可以提高网络在现实世界中泛化性和准确性；通过RGB矫正网络和深度矫正网络将侧面人像转换为正面180度人像，能够方便后续生成包含丰富几何细节的带纹理的人体3D模型。

应了解的是，上述一般描述及以下具体实施方式仅为示例性及阐释性的，其并不能限制本申请所欲主张的范围。

附图说明

下面的所附附图是本申请的说明书的一部分，其示出了本申请的实施例，所附附图与说明书的描述一起用来说明本申请的原理。

图1为本申请具体实施方式提供的一种基于单目相机的三维人像补全方法的流程图。

图2为本申请具体实施方式提供的一种基于单目相机的三维人像补全方法中图像深度估计的示意图。

图3为本申请具体实施方式提供的一种基于单目相机的三维人像补全方法中侧面RGB图和侧面深度图转换为正面RGB图和正面深度图的示意图。

图4为本申请具体实施方式提供的一种基于单目相机的三维人像补全方法中根据正面RGB图和正面深度图，构建带颜色的人体3D模型的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下面将以附图及详细叙述清楚说明本申请所揭示内容的精神，任何所属技术领域技术人员在了解本申请内容的实施例后，当可由本申请内容所教示的技术，加以改变及修饰，其并不脱离本申请内容的精神与范围。

本申请的示意性实施例及其说明用于解释本申请，但并不作为对本申请的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、…等，并非特别指称次序或顺位的意思，也非用以限定本申请，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”；关于本文中的“多组”包括“两组”及“两组以上”。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

如图1所示，本申请实施例提供的基于单目相机的三维人像补全方法包括以下步骤：

S1、利用标定后的相机进行人体侧面RGB图采集并保存，其过程为：

S11、利用张定友标定法对相机进行标定，以获取相机参数，其具体过程为：

将标定板竖直放置在相机的可见范围内。具体地，标定板可以采用已知尺寸的棋盘格。

利用相机对标定板进行不同位姿的拍摄，得到标定板不同位姿图像。

对标定板不同位姿图像中的标定板角点进行检测，得到标定板角点的像素坐标值。

根据已知的标定板大小和世界坐标系原点，计算得到标定板角点的物理坐标值。

根据物理坐标值和像素坐标值的关系，通过单应矩阵计算出相机的内参矩阵和外参矩阵。

利用非线性最小二乘法估计相机的畸变参数。

使用极大似然估计法对相机的内参矩阵、外参矩阵和畸变参数进行优化。

S12、利用标定后的相机进行人体图像采集。

利用标定后的相机拍摄当前视频流，将每一帧的人体侧面RGB图和相机参数均存储到外部存储器。

S2、根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图，并估计得到侧面深度图（Depth map），并通过自监督学习和视频帧融合方法提高深度估计的精度，其过程为：

S21、将步骤S12得到的RGB图输入语义分割网络，生成人体的掩码图。

S22、将步骤S12得到的RGB图输入3D先验网络，生成UV坐标图。

S23、为了提高后续深度估计的精度，采用视频帧融合技术对步骤S1获取的RGB图的前后帧的相关性进行融合，得到视频帧融合后的侧面RGB图。

假设视频的输入为

，其中，

。

首先，对视频进行特征提取，特征图的维度为

。

然后，将

时刻的特征图和

时刻的特征图进行融合。

例如，对于第一个通道，将

时刻的特征图与

时刻的特征图进行融合，得到第一个通道融合后的特征图。对于第二个通道，将

时刻的特征图与

时刻的特征图进行融合，得到第二个通道融合后的特征图。

最后，将融合后的特征图重塑为输入图像的维度

，由此获得融合了前后帧信息的侧面RGB图。

S24、如图2所示，对于有深度真值的人像视频数据，利用法向估计网络和深度估计网络对步骤S21得到的掩码图、步骤S22得到的UV坐标图和步骤S23得到的视频帧融合后的侧面RGB图进行估计，生成侧面深度图，其具体过程为：

使用法向估计网络

对步骤S23得到的视频帧融合后的侧面RGB图和步骤S21得到的掩码图进行估计，得到法向图A。其中，法向估计网络

的损失函数为：

（1）

式（1）中，

表示法向图A的真值。

使用深度估计网络

对侧面RGB图、掩码图和UV坐标图进行估计，生成侧面深度图。其中，深度估计网络

的损失函数为：

（2）

式（2）中，

表示深度图的真值。

将深度图转点云，并计算每个点云

的法向量

。其中，法向量

为：

（3）

为迫使法向量

对应的法向图B逼近法向估计网络

估计的法向图A，引入损失函数

：

（4）

损失函数

的值越趋近于0表示法向图A和法向图B越接近。

S25、对于没有深度真值的人像视频数据进行自监督视频深度估计，利用自监督视频深度估计网络对步骤S21得到的掩码图、步骤S22得到的UV坐标图和步骤S23得到的视频帧融合后的侧面RGB图进行估计，生成侧面深度图，其具体过程为：

由于具有深度真值的人像数据集很有限，为了进一步提高深度估计网络的泛化性，本申请提出了自监督视频深度估计方法。该方法可以使用没有深度真值的人像数据，利用翘曲函数实现人像视频的自监督学习。该步骤是在步骤S24的深度估计网络（如图2所示）的基础上增加自监督学习。

利用基于3D模型的翘曲函数将第

时刻的第

身体部分的点云转换到第

时刻，即：

（5）

式（5）中，

表示基于3D模型的翘曲函数，

表示第

时刻的点云，

表示相机的旋转矩阵，

表示相机的平移矩阵。

表示第

身体部分的UV坐标，

表示第

时刻的第

个点云。

自监督视频深度估计网络的损失函数为：

（6）

式（6）中，

表示第

时刻的第

个点云，

表示第

个视频的时间集合。

S3、如图3所以，根据步骤S23得到的视频帧融合后的侧面RGB图和步骤S24得到的侧面深度图，生成正面RGB图以及正面深度图。

通常相机拍摄的图像为透视图，然而透视图存在“近大远小”的问题。为了避免该问题，本申请发明人提出将透视图转换为弱透视投影，即正交投影，并把人体缩放至固定高度。除此之外，由于人像的正面要比人像的侧面包含更多的信息，因此提出将侧面RGB图和侧面深度图对应转换为正面RGB图和正面深度图，以便于进行后续的人体重建工作。

侧面RGB图和侧面深度图转换为正面RGB图和正面深度图的示意图如图2所示。生成正面RGB图以及正面深度图的具体过程为：

S31、利用相机参数将步骤S23得到的视频帧融合后的侧面RGB图和步骤S24生成的侧面深度图转换为弱透视投影下的RGB图以及弱透视投影下的侧面深度图。

S32、利用RGB矫正网络

将步骤S31得到的弱透视投影下的RGB图生成正面RGB图。

其中，对于图像

的像素

，RGB矫正网络

的损失函数为：

（7）

式（7）中，

表示正面RGB图的颜色真值。

S33、利用深度矫正网络

将步骤S31得到的弱透视投影下的深度图生成正面深度图。

其中，对于图像

的像素

，深度矫正网络

的损失函数为：

（8）

式（8）中，

表示正面深度图的真值。

S34、将步骤S33得到的正面深度图转换为正面法向图，并利用鉴别器判别该法向图是否为真。

由于深度图通常较为平滑，很难表达纹理的几何细节，例如，衣服的褶皱，因此提出将深度图转换为法向图，再通过鉴别器鉴别该法向图是否为真。

具体地，当输入图像为正面法向图时，鉴别器判别为真，输出1；当输入图像为非正面法向图（例如，为背面法向图）时，鉴别器判别为假，输出0。

S4、如图4所示，根据步骤S3得到的正面RGB图和正面深度图构建带纹理的人体3D模型，其具体过程为：

S41、根据相机参数，将步骤S3得到的正面RGB图和正面深度图生成带颜色的三维点云。

S42、根据三角剖分算法，利用带颜色的三维点云生成带纹理的人体3D模型。

本申请提供的基于单目相机的三维人像补全方法采用自监督的深度估计方法，通过视频学习人体深度，而无需深度图真值；通过在大量的视频中进行自监督学习，能够提高网络在现实世界中的泛化性和准确性。本申请提供的基于单目相机的三维人像补全方法通过RGB图矫正网络和深度图矫正网络将侧面人像转换为正面人像，以便后续生成包含丰富几何细节的带纹理的人体3D模型。

基于本申请提供的基于单目相机的三维人像补全方法，本申请还提供了一种基于单目相机的三维人像补全系统，其包括相机、第一生成模块、第二生成模块和构建模块。其中，相机用于采集人体侧面RGB图，第一生成模块用于根据采集到的人体侧面RGB图生成视频帧融合后的侧面RGB图和侧面深度图。第二生成模块用于根据侧面RGB图和侧面深度图生成正面RGB图和正面深度图。构建模块用于根据正面RGB图和正面深度图构建人体3D模型。

需要说明的是：上述实施例提供的基于单目相机的三维人像补全系统仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将基于单目相机的三维人像补全系统的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的基于单目相机的三维人像补全系统与基于单目相机的三维人像补全方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，本申请实施例还提供了一种存储介质，是计算机可读存储介质，例如，包括计算机程序的存储器，上述计算机程序可由处理器执行，以完成前述基于单目相机的三维人像补全方法中的所述步骤。

上述的本申请实施例可在各种硬件、软件编码或两者组合中进行实施。例如，本申请的实施例也可为在数据信号处理器中执行上述方法的程序代码。本申请也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列执行的多种功能。可根据本申请配置上述处理器执行特定任务，其通过执行定义了本申请揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而，根据本申请执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本申请的精神与范围。

以上所述仅为本申请示意性的具体实施方式，在不脱离本申请的构思和原则的前提下，任何本领域的技术人员所做出的等同变化与修改，均应属于本申请保护的范围。