CN113570673B

CN113570673B - 三维人体和物体的渲染方法及其应用方法

Info

Publication number: CN113570673B
Application number: CN202111117778.7A
Authority: CN
Inventors: 徐迪; 叶慕聪; 王凯; 毛文涛; 孙立
Original assignee: Beijing Yingchuang Information Technology Co ltd
Current assignee: Beijing Yingchuang Information Technology Co ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-17
Anticipated expiration: 2041-09-24
Also published as: CN113570673A

Abstract

本申请提供了一种三维人体和物体的渲染方法及其应用方法，渲染方法包括：使用标定完成的多相机进行图像采集，对采集得到的彩色图像及其对应的深度和相机视角进行保存；基于采集得到的彩色图像，使用人体姿态估计算法获取人体姿态；使用人体姿态驱动可变形的结构化人体三维模型，得到人体几何外观；使用人体几何外观、彩色图像及其对应的深度和相机视角优化几何学习多层感知机；利用在物体表面的采样点优化颜色学习多层感知机；利用优化后的颜色学习多层感知机进行多视角彩色图像合成。本申请通过采用先验编码、几何学习多层感知机和颜色学习多层感知机，能够提高稀疏视角下人体和物体的渲染效果。

Description

三维人体和物体的渲染方法及其应用方法

技术领域

本申请属于图像处理技术领域，具体涉及一种三维人体和物体的渲染方法及其应用方法。

背景技术

无论是影视节目还是体育赛事，我们所看到的画面都是由单个摄像头拍摄的。在这种条件下，人们的观看视角就和相机视角牢牢地绑定在一起。为了摆脱这些限制，采用任意视角神经渲染技术，只需输入少量角度拍摄的人体镜头，便可合成360°的人体3D新视图，使得观众获得完全沉浸式的体验感受。

然而，现有的神经渲染技术无法很好地推广到显示应用中。一方面，现有的渲染技术需要非常稠密的视角来训练视角合成网络，一般需要100个相机。为了拍摄稠密的多视角视频，传统方法需要昂贵的相机阵列来进行捕捉。这套相机阵列设备特别昂贵，而且还很不方便，一般只在电影拍摄时用到。另一方面，现有的合成技术只能合成静态场景；对于动态场景，现有技术只能将单帧作为一个静态场景，对于一段120帧的人体运动视频，为了完成360°视角的观感，则需要训练120个网络来对每一帧做预测，而且各帧视频之间没有任何联系，导致计算量庞大，复杂度过高。其次，现有的任意视角合成技术需要极高的计算能力。因此，现有的渲染技术无法应用到虚拟现实眼镜中。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供了一种三维人体和物体的渲染方法及其应用方法。

根据本申请实施例的第一方面，本申请提供了一种三维人体和物体的渲染方法，其包括以下步骤：

使用标定完成的多相机进行图像采集，对采集得到的彩色图像及其对应的深度和相机视角进行保存；

基于采集得到的彩色图像，使用人体姿态估计算法获取人体姿态；

使用人体姿态驱动可变形的结构化人体三维模型，得到人体几何外观；

使用人体几何外观、彩色图像及其对应的深度和相机视角优化几何学习多层感知机；

利用在物体表面的采样点优化颜色学习多层感知机；

利用优化后的颜色学习多层感知机进行多视角彩色图像合成。

上述三维人体和物体的渲染方法中，所述使用人体几何外观、彩色图像及其对应的深度和相机视角优化几何学习多层感知机的具体过程为：

沿相机视角方向采样k个点，并获取每个采样点的向量

进行表示，其中，

表示用于采样的相机的水平角度，

表示用于采样的相机的垂直角度，

表示采样点在空间中的位置坐标，D表示采样点在空间位置

处的深度，

表示上采样后的人体几何外观在

上的值；采样点的向量中的各元素为采样点的先验信息；

用升维编码对采样点的先验信息进行升维处理；

将升维后得到的编码输入几何学习多层感知机

中，预测

个采样点中各采样点在物体表面的概率，并根据该概率得到在物体表面的采样点；

设置几何学习多层感知机的损失函数

：

，

式中，mask表示物体表面上的点，Background表示不在物体表面上的点。BCE（Binary Cross Entropy Loss）表示二值交叉熵损失函数；

最小化几何学习多层感知机的损失函数

，以优化几何学习多层感知机，直至几何学习多层感知机收敛。

进一步地，所述采用升维编码对采样点的先验信息进行升维处理时采用以下编码函数：

，

式中，L表示超参数，其控制编码函数

输出的维度；L越大，编码函数

输出的维度越大；

表示编码函数

的输入量；

将

分别作为编码函数

的输入，分别对应得到一个2L维的向量

；

根据得到的各2L维的向量，得到升维后的编码为：

。

更进一步地，所述将升维后得到的编码输入几何学习多层感知机

中，预测

个采样点中各采样点在物体表面的概率，并根据该概率得到在物体表面的采样点的过程为：

几何学习多层感知机

的输出结果为[0,1]；

当

时，表示采样点在物体表面；当

时，表示采样点不在物体表面。

更进一步地，所述利用在物体表面的采样点优化颜色学习多层感知机的过程为：

将得到的物体表面的采样点输入颜色学习多层感知机

中，输出该采样点的颜色学习多层感知机的预测颜色值

，即：

；

设置颜色学习多层感知机的损失函数

：

；

式中，RGB表示真实的颜色值，

表示颜色学习多层感知机的预测颜色值；

最小化颜色学习多层感知机的损失函数

，以优化颜色学习多层感知机，直至颜色学习多层感知机收敛。

根据本申请实施例的第二方面，本申请提供了一种上述任一三维人体和物体的渲染方法的应用方法，所述三维人体和物体的渲染方法应用于混合现实眼镜端中，其包括以下步骤：

将优化完成的颜色学习多层感知机部署到云服务器；

混合现实眼镜端实时获取当前佩戴者的相机视角，并将获取到的视角参数通过网络传输至云服务器；

云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成，并将合成后的图像传输给混合现实眼镜端；

混合现实眼镜端对合成后的任意视角的彩色图像进行展示。

上述三维人体和物体的渲染方法的应用方法中，所述云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成的具体过程为：

云服务器对接收到的混合现实眼镜端传送过来的各参数

进行先验信息编码；

顺次采用几何学习多层感知机

和颜色学习多层感知机

最终合成彩色图像。

上述三维人体和物体的渲染方法的应用方法中，所述混合现实眼镜端设置有帧质量提升模型，所述帧质量提升模型被配置为：

采用卷积提取从云服务器获取的图像的全局信息和位置信息；

采用双线性插值将从云服务器获取的图像上采样1.5倍，得到第一上采样图像；

将从云服务器获取的图像直接上采样为与第一上采样图像的相同尺寸的图像，并与第一上采样图像合并，得到第一合并图像；

采用卷积提取第一合并图像的特征，得到第二上采样图像；

将第一合并图像与第二上采样图像合并，得到第二合并图像；

采用卷积提取第二合并图像的特征，得到最终的彩色图像，该彩色图像用于在混合现实眼镜端显示。

根据本申请实施例的第三方面，本申请提供了一种三维人体和物体的渲染装置，其包括存储器以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行上述任一项所述的三维人体和物体的渲染方法。

根据本申请实施例的第四方面，本申请还提供了一种计算机存储介质，其包括计算机程序的存储器，所述计算机程序由处理器执行，以完成上述任一项所述的三维人体和物体的渲染方法。

根据本申请的上述具体实施方式可知，至少具有以下有益效果：本申请三维人体和物体的渲染方法通过采用先验编码、几何学习多层感知机和颜色学习多层感知机，能够解决在稀疏视角下动态场景任意视角合成效果差的问题，提高稀疏视角下的人体和物体的渲染效果。

本申请三维人体和物体的渲染方法的应用方法通过在云服务器端部署优化完成的颜色学习多层感知机，在云服务器上渲染，在混合现实眼镜端显示，能够解决目前混合现实眼镜端算力较低，合成视角时间长的问题。混合现实眼镜端通过设置帧质量提升模型，能够使混合现实眼镜端实现实时现实的渲染效果

在相同图像质量的情况下，采用本申请三维人体和物体的渲染方法，所需的相机数量更少。

应了解的是，上述一般描述及以下具体实施方式仅为示例性及阐释性的，其并不能限制本申请所欲主张的范围。

附图说明

下面的所附附图是本申请的说明书的一部分，其示出了本申请的实施例，所附附图与说明书的描述一起用来说明本申请的原理。

图1为本申请具体实施方式提供的一种三维人体和物体的渲染方法的流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下面将以附图及详细叙述清楚说明本申请所揭示内容的精神，任何所属技术领域技术人员在了解本申请内容的实施例后，当可由本申请内容所教示的技术，加以改变及修饰，其并不脱离本申请内容的精神与范围。

本申请的示意性实施例及其说明用于解释本申请，但并不作为对本申请的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、…等，并非特别指称次序或顺位的意思，也非用以限定本申请，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”；关于本文中的“多组”包括“两组”及“两组以上”。

关于本文中所使用的用语“大致”、“约”等，用以修饰任何可以细微变化的数量或误差，但这些微变化或误差并不会改变其本质。一般而言，此类用语所修饰的细微变化或误差的范围在部分实施例中可为20%，在部分实施例中可为10%，在部分实施例中可为5%或是其他数值。本领域技术人员应当了解，前述提及的数值可依实际需求而调整，并不以此为限。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

如图1所示，本申请实施例提供的三维人体和物体的渲染方法包括以下步骤：

S1、使用标定完成的多相机进行图像采集，对采集得到的彩色图像及其对应的深度和相机视角进行保存；并采用图像分割算法区分背景图像和目标图像。

其中，对多相机进行标定的过程为：

将标定物竖直放置在至少两台相机的可见范围内。具体地，标定物可以通过将一张棋盘格贴在一平面上得到。

通过调整标定物或相机的方向，为标定物拍摄多张不同方向的照片。

从照片中提取棋盘格角点信息。

估算理想无畸变的情况下相机的内参和外参。其中，相机的内参包括相机的主点坐标、焦距、畸变系数、径向畸变参数和切向畸变参数；相机的外参包括旋转参数和平移参数。

使用最小二乘法估算实际存在径向畸变情况下的畸变系数。

简单来说，相机标定是从世界坐标系转换为相机坐标系，再由相机坐标系转换为图像坐标系的过程，最终输出相机的内参和外参系数。利用内参和外参系数可以对之后相机拍摄的图像进行矫正，得到畸变相对很小的图像。

使用标定完成的多相机进行图像采集时，可以将采集到的每一帧彩色图像及其对应的深度，以及相机的视角存储到外部存储器中。其中，相机的视角包括相机的水平角度

和相机的垂直角度

。记为

。

采用图像分割算法区分背景图像和目标图像时，将背景图像设置为0，将目标图像设置为1。

S2、基于采集得到的彩色图像，使用人体姿态估计算法获取人体姿态。

其中，人体姿态估计算法具体可以采用OpenPose算法。

S3、使用人体姿态驱动可变形的结构化人体三维模型，得到人体几何外观。

具体地，可变形的结构化人体三维模型可以采用SMPL（A Skinned Multi-PersonLinear Model，参数化人体三维模型），SMPL是一个基于顶点的蒙皮模型，它被定义为形状参数、姿态参数和相对于SMPL坐标系的刚性变换的函数。该函数输出具有6890个顶点，使用6890个顶点表示人体几何外观。

S4、使用人体几何外观、彩色图像及其对应的深度和相机视角优化几何学习多层感知机，其包括以下步骤：

S41、沿相机视角方向采样k个点，其具体过程为：

在三维空间中，沿相机视角方向透射一条射线，在这条射线上均匀采样k个点，例如可以每隔1mm采样一个点。对于采样得到的k个点，存在两种情况，一种是该采样点在物体表面上，另一种是该采样点不在物体表面上。

对于每个采样点均可以采用一个7维向量进行表示，该7维向量为

，此处，

表示用于采样的相机的水平角度，

表示用于采样的相机的垂直角度，

表示采样点在空间中的位置坐标，

表示采样点在空间位置

处的深度，

表示上采样后的人体几何外观在

上的值。该7维向量中的元素均为采样点的先验信息

S42、采用升维编码对采样点的先验信息进行升维处理，具体采用以下编码函数：

（1）

式（1）中，L表示超参数，其控制编码函数

输出的维度。L越大，编码函数

输出的维度越大。

表示编码函数

的输入量。

例如，当L=6时，将

的值作为编码函数

的输入，即

，编码得到一个12 维向量。同理，将

分别作为编码函数

的输入，分别编码得到一个12维向量。最终，将一个7维向量升维到84维向量，即升维后得到的编码为：

（2）

S43、将升维后得到的编码输入几何学习多层感知机

中，预测

个采样点中各采样点在物体表面的概率，并根据该概率得到在物体表面的采样点。

其中，几何学习多层感知机

的输出结果为[0,1]。

当

时，表示采样点在物体表面；当

=0时，表示采样点不在物体表面。

S44、设置几何学习多层感知机的损失函数

：

（3）

式（3）中，mask表示物体表面上的点，Background表示不在物体表面上的点。BCE（Binary Cross Entropy Loss）表示二值交叉熵损失函数，其函数表达式为：

（4）

其中，

为多层感知机的预测值，

为真实分割结果。

根据式（4），当采用步骤S1得到的真实分割结果为1时，即分割得到目标图像时，

（5）

当采用步骤S1得到的真实分割结果为0时，即分割得到背景图像时，

（6）

通过求取式（5）和式（6）的最小值，可以达到几何学习多层感知机的损失函数

的最小值，进而根据几何学习多层感知机的损失函数

的最小值可以反算出

S45、最小化几何学习多层感知机的损失函数

S5、利用在物体表面的采样点优化颜色学习多层感知机，其包括以下步骤：

S51、将步骤S4得到的物体表面的采样点输入颜色学习多层感知机

中，输出该采样点的颜色学习多层感知机的预测颜色值

，即：

（7）

S52、设置颜色学习多层感知机的损失函数

：

（8）

式（8）中，RGB表示真实的颜色值，

表示颜色学习多层感知机的预测颜色值。

S53、最小化颜色学习多层感知机的损失函数

S6、利用优化后的颜色学习多层感知机进行多视角彩色图像合成。

本申请实施例提供的三维人体和物体的渲染方法通过采用先验编码、几何学习多层感知机和颜色学习多层感知机，能够解决在稀疏视角下动态场景任意视角合成效果差的问题。

基于本申请实施例提供的三维人体和物体的渲染方法，本申请实施例还提供了一种三维人体和物体的渲染方法的应用方法，三维人体和物体的渲染方法应用于混合现实眼镜端中，能够实现混合现实眼镜端的实时现实渲染，其包括以下步骤：

S7、将优化完成的颜色学习多层感知机部署到云服务器，其具体过程为：

S71、使用TensorRT技术对优化完成的颜色学习多层感知机进行打包，其过程为：

首先，将颜色学习多层感知机封装为.onnx格式的模型。

然后，使用TensorRT技术将.onnx格式的模型转换为.TRT格式的模型，以加速模型推理速度。

S72、搭建云服务器：

基于C/S架构搭建云服务器，将加速后的模型部署到云服务器，并留出服务器接口以接收混合现实眼镜端传来的视角参数。

S8、混合现实眼镜端实时获取当前佩戴者的相机视角，并将获取到的视角参数通过网络传输至云服务器。

S9、云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成，并将合成后的图像传输给混合现实眼镜端。

其中，云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成的具体过程为：

云服务器对接收到的混合现实眼镜端传送过来的各参数

进行先验信息编码；顺次采用几何学习多层感知机

和颜色学习多层感知机

最终合成彩色图像。

S10、混合现实眼镜端对合成后的任意视角的彩色图像进行展示。

为避免延迟和保证合成图像的传输质量，混合现实眼镜端部署有轻量级实时的帧质量提升模型，该模型可以将前一帧图像与当前帧图像关联起来。一方面可以适当降低传输过程中图像的分辨率，以降低传输的延迟；另一方面，由于无法100%保证通信网络的稳定性，因此丢包等情况比较常见，导致图像像素点丢失，图像质量差，而帧质量提升模型能够通过补全像素点来解决上述问题。

对于云服务器合成的彩色图像，可以将其尺寸缩小一半进行传输，以减少传输字节数，进而降低传输延迟。例如，云服务器合成的彩色图像的尺寸为1024×512，可以将该图像下次采样2倍，得到下采样后尺寸为512×256的图像。

帧质量提升模型的处理过程为：

采用卷积提取从云服务器获取的图像的全局信息和位置信息。

采用双线性插值将从云服务器获取的图像

上采样1.5倍，得到第一上采样图像

，该图像的尺寸为768×384。

将从云服务器获取的图像

直接上采样为尺寸为768×384的图像，并与第一上采样图像

合并，得到第一合并图像。

采用卷积提取第一合并图像的特征，得到第二上采样图像

，该图像的尺寸为 1024×512。

将第一合并图像与第二上采样图像

合并，得到第二合并图像。

需要说明的是，卷积包括卷积层、归一化层和激活函数层，其中，卷积层的卷积核为3×3，步长为1，图像边界补一个像素点，值为0。激活函数层的激活函数为Relu。

帧质量提升模型训练与部署时，

对于采集到的颜色图像，将

定义为采集到的颜色图像下采样1.5倍后得到的图像，

为原图像，误差损失为：

将原图像

下采样2倍后执行上述帧质量提升模型的处理过程，

均为为帧质量提升模型的输出。

在示例性实施例中，本申请实施例还提供了一种三维人体和物体的渲染装置，其包括存储器以及耦接至该存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行本申请中任一个实施例中的三维人体和物体的渲染方法。

其中，存储器可以为系统存储器或固定非易失性存储介质等，系统存储器可以存储有操作系统、应用程序、引导装载程序、数据库以及其他程序等。

在示例性实施例中，本申请实施例还提供了一种计算机存储介质，是计算机可读存储介质，例如，包括计算机程序的存储器，上述计算机程序可由处理器执行，以完成本申请中任一个实施例中的三维人体和物体的渲染方法。

以上所述仅为本申请示意性的具体实施方式，在不脱离本申请的构思和原则的前提下，任何本领域的技术人员所做出的等同变化与修改，均应属于本申请保护的范围。

Claims

1.一种三维人体和物体的渲染方法，其特征在于，包括以下步骤：

使用人体几何外观、彩色图像及其对应的深度和相机视角优化几何学习多层感知机，其具体过程为：

沿相机视角方向采样k个点，并获取每个采样点的向量，采样点的向量中的各元素为采样点的先验信息；

用升维编码对采样点的先验信息进行升维处理；

将升维后得到的编码输入几何学习多层感知机

中，预测

设置几何学习多层感知机的损失函数

：

，

式中，mask表示物体表面上的点，Background表示不在物体表面上的点；BCE（BinaryCross Entropy Loss）表示二值交叉熵损失函数；

最小化几何学习多层感知机的损失函数

，以优化几何学习多层感知机，直至几何学习多层感知机收敛；

利用在物体表面的采样点优化颜色学习多层感知机，其具体过程为：

将得到的物体表面的采样点输入颜色学习多层感知机

中，输出该采样点的颜色学习多层感知机的预测颜色值

，即：

；

设置颜色学习多层感知机的损失函数

：

；

式中，RGB表示真实的颜色值，

表示颜色学习多层感知机的预测颜色值；

最小化颜色学习多层感知机的损失函数

，以优化颜色学习多层感知机，直至颜色学习多层感知机收敛；

2.根据权利要求1所述的三维人体和物体的渲染方法，其特征在于，每个所述采样点均采用向量

进行表示，其中，

表示用于采样的相机的水平角度，

表示用于采样的相机的垂直角度，

表示采样点在空间中的位置坐标，

表示采样点在空间位置

处的深度，

表示上采样后的人体几何外观在

上的值。

3.根据权利要求2所述的三维人体和物体的渲染方法，其特征在于，所述采用升维编码对采样点的先验信息进行升维处理时采用以下编码函数：

，

式中，L表示超参数，其控制编码函数

输出的维度；L越大，编码函数

输出的维度越大；

表示编码函数

的输入量；

将

分别作为编码函数

的输入，分别对应得到一个2L维的向量

；

根据得到的各2L维的向量，得到升维后的编码为：

。

4.根据权利要求3所述的三维人体和物体的渲染方法，其特征在于，所述将升维后得到的编码输入几何学习多层感知机

中，预测

几何学习多层感知机

的输出结果为[0,1]；

当

时，表示采样点在物体表面；当

时，表示采样点不在物体表面。

5.一种如权利要求1-4任一项所述的三维人体和物体的渲染方法的应用方法，其特征在于，所述三维人体和物体的渲染方法应用于混合现实眼镜端中，其包括以下步骤：

将优化完成的颜色学习多层感知机部署到云服务器；

混合现实眼镜端对合成后的任意视角的彩色图像进行展示。

6.根据权利要求5所述的三维人体和物体的渲染方法的应用方法，其特征在于，所述云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成的具体过程为：

云服务器对接收到的混合现实眼镜端传送过来的各参数

进行先验信息编码；

顺次采用几何学习多层感知机

和颜色学习多层感知机

最终合成彩色图像。

7.根据权利要求5所述的三维人体和物体的渲染方法的应用方法，其特征在于，所述混合现实眼镜端设置有帧质量提升模型，所述帧质量提升模型被配置为：

采用卷积提取第一合并图像的特征，得到第二上采样图像；

8.一种三维人体和物体的渲染装置，其特征在于，包括存储器以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1-4任一项所述的三维人体和物体的渲染方法。

9.一种计算机存储介质，其特征在于，包括计算机程序的存储器，所述计算机程序由处理器执行，以完成如权利要求1-4任一项所述的三维人体和物体的渲染方法。