CN111343367B

CN111343367B - 一种十亿像素虚拟现实视频采集装置、系统与方法

Info

Publication number: CN111343367B
Application number: CN202010095418.0A
Authority: CN
Inventors: 方璐; 王好谦; 戴琼海; 张嘉凝; 张安科; 朱天奕
Original assignee: Tsinghua University; Shenzhen International Graduate School of Tsinghua University
Current assignee: Tsinghua University; Shenzhen International Graduate School of Tsinghua University
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2021-06-08
Anticipated expiration: 2040-02-17
Also published as: CN111343367A

Abstract

本发明提供一种十亿像素虚拟现实视频采集装置、系统与方法，装置包括：非结构化的相机阵列、支撑件、相机云台、相机机架；所述相机阵列包括至少5列呈扇形分布的相机列组合，每一个所述相机列组合包括两个全局相机为一组组成的双目相机和至少一个局部相机，所述局部相机的焦距可调；所述支撑件，用于支撑所述相机云台，所述相机云台，与所述相机机架连接；所述相机机架，用于通过连接件分别固定所述相机阵列中的每一列所述相机列组合。使用结构自适应非结构化的全景360虚拟现实采集装置；并将局部相机的视频数据中的RGB图像嵌入所述全景图，用户能够拉近视角放大观察感兴趣区域的细节信息。

Description

一种十亿像素虚拟现实视频采集装置、系统与方法

技术领域

本发明涉及十亿像素虚拟现实视频采集技术领域，尤其涉及一种十亿像素虚拟现实视频采集装置、系统与方法。

背景技术

在人类的五大感知途径中，视觉占据了70％～80％的信息来源；而大脑有大约50％的能力都用于视觉信息与感知。现有的图像采集和显示丢失了多个维度的视觉信息。这迫使我们只能用二维“窗口”观察三维世界。而人眼能看见三维世界是因为人眼接收了物体发出的光线(主动或被动发光)，而光场就是三维世界中光线集合的完备表示。光场显示能在视觉上完全重现真实世界，但在显示光场前首先要采集光场。传统相机拍摄的2D图片不能用于光场显示，因此需要专业的光场采集设备。相关研究者已经建立了一系列光场采集的理论，并在光场采集技术的发展过程中出现了多种设计方案，受到广泛关注和研究的主要有三种设计思路：1)基于微透镜阵列(Microlens Array)的光场采集；2)基于相机阵列(Camera Array)的光场采集；3)基于编码掩膜(Coded Mask)的光场采集。

传统基于相机阵列的图像采集具有如下缺点：(1)为保证分辨率不受损失，需要的相机数量较多，硬件成本高昂；(2)相机同步控制复杂，数据量大，存储和传输成本高；(3)传统相机阵列要求传感器遵循均匀分布，大量相机标定复杂耗时；(4)结构化的相机阵列排布不支持不同尺度下的场景缩放，也无法灵活选择特定区域以增强分辨率。

基于微透镜阵列的光场采集具有如下确定：(1)光场视点图像分辨率损失严重，随着视点数量的增加，单个视点分辨率急剧降低。例如使用4K(4096*2160)的图像传感器采集4x4视点的光场，则图像分辨率在水平和垂直方向都降低到原分辨率的四分之一，既单个视点图像分辨率只有1024*540；(2)受到相机光圈的限制，采集光场的视差场(FOP)角度较小，也即视差较小，只能在较小的角度范围内变换视点。

基于编码掩模的光场采集具有如下缺点：(1)掩膜的透光率不能达到100％，因此会损失光线信号强度，导致成像信噪比低；(2)所重建的最终光场图像并不是成像传感器直接采集得到，而是通过从被调制的图像中进行解调制得到；本质上是基于已经学习的光场字典去“猜”出待重建的光场，结果置信度不高。

基于从日常行为到复杂操作态大场景中录制视频时宽视场和高分辨的固有矛盾现有技术中缺乏一种鲁棒性高、质量高的虚拟现实内容生成的光场采集方法。

以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本发明为了解决现有的问题，提供一种十亿像素虚拟现实视频采集装置、系统与方法。

为了解决上述问题，本发明采用的技术方案如下所述：

一种十亿像素虚拟现实视频采集装置，包括：非结构化的相机阵列、支撑件、相机云台、相机机架；所述相机阵列包括至少5列呈扇形分布的相机列组合，每一个所述相机列组合包括两个全局相机为一组组成的双目相机和至少一个局部相机，所述局部相机的焦距可调；所述支撑件，用于支撑所述相机云台，所述相机云台，与所述相机机架连接；所述相机机架，用于通过连接件分别固定所述相机阵列中的每一列所述相机列组合。

本发明又提供一种十亿像素虚拟现实视频采集系统包括：如上所述的采集装置，用于采集视频数据；集成单元，用于获取所述数据采集装置采集的多视角的视频数据并传输给处理单元；所述处理单元，用于接收所述视频数据并进行如下处理：将所述全局相机的视频数据中RGB图像拼接成大场景的全景图，并将所述局部相机的视频数据中的RGB图像嵌入所述全景图；进行所述全局相机的深度估计，并利用嵌入的所述局部相机的RGB图像优化局部区域的深度图；使用分层渲染策略输出虚拟现实视频。

优选地，所述支撑件是多向中轴；所述多向中轴的材质为碳纤维。

本发明还提供一种十亿像素虚拟现实视频采集方法，包括如下步骤：S1：控制非结构化的相机阵列采集视频数据；所述相机阵列包括至少5列呈扇形分布的相机列组合，每一个所述相机列组合包括两个全局相机为一组组成的双目相机和至少一个局部相机，所述局部相机的焦距可调；S2：控制集成单元获取所述数据采集装置采集的多视角的视频数据；S3：接收所述视频数据，进行如下处理：将所述全局相机的视频数据中RGB图像拼接成大场景的全景图，并将所述局部相机的视频数据中的RGB图像嵌入所述全景图；进行所述全局相机的深度估计，并利用嵌入的所述局部相机的RGB图像优化局部区域的深度图；使用分层渲染策略输出虚拟现实视频。

优选地，所述全局相机的视频数据中RGB图像时基于特征的拼接算法来估计每组所述全局相机的内外参数；使用非结构化嵌入将所有所述局部相机的画面嵌入到相应的所述全局相机的位置。

优选地，进行所述全局相机的深度估计包括如下步骤：通过神经网络使用共享的权重特征金字塔从每组所述全局相机的两个立体图像中提取特征图；利用所述特征图构建匹配代价量，进而得到4D视差代价量；由所述4D视差代价量得到每个候选视差下的匹配代价；对所述代价匹配结果进行代价聚合得到优化后的代价匹配结果；使用可微的soft-argmin操作从所述优化后的代价匹配结果确定每一个位置的视差进而获得视差图；通过空间传播在整个所述视差图上传播准确的估计视差改善所述视差图得到最终的视差图。

优选地，使用softmax根据预测代价c_d计算每个位置的视差在每个候选视差值下的概率，预测视差是每个所述候选视差值按其概率加权的总和，具体如下：

其中，

是预测视差，d是真实视差，D_max是候选视差值的最大值,σ代表的是softmax操作，c_d是视差候选值为d的代价量。

优选地，基于SPNetwork构建所述空间传播层；所述空间传播层从RGB图像中提取关联矩阵，并使用所述关联矩阵在四个方向上传播视差。

优选地，所述神经网络的损失函数L_s1是：

其中，N是真实视差值的数量，

是预测视差，d是真实视差。

优选地，最终视差图是候选是插图的总和：

其中，d_gt是真实视差，d_l＝max({d_c|d_c＜d_gt})，d_l＝max({d_c|d_c≥d_gt})，d_c表示每个候选视差值；

对基本真实差异图进行切片，并直接监督每个候选差异图：

其中，D_max是候选视差图的总个数；

是第i个候选视差图，D_i是第i个候选视差图对应的真实视差图；

则所述神经网络的损失函数为：

其中，W是权重系数。

优选地，还包括：使用每一个位置坐标和初始深度值通过最小化以下函数来拟合平面方程：

s.t.a²+b²+c²＝1

其中，(x_i，y_i)和z_i分别是像素i的坐标和深度值，而n是像素的总数。

优选地，利用嵌入的所述局部相机的RGB图像优化局部区域的深度图包括如下步骤：通过PWCnet估计所述局部相机的RGB图像和所述全局相机的RGB图像之间的光流，基于光流，扭曲雨所述局部相机的RGB图像对应的所述全局相机的RGB图像部分的视差图以实现所述局部相机的RGB图像与所述视差图之间的对齐：

P_w(x，y)＝P(x+f_x，y+f_y)

其中，P_w是整形后的视差图，(x，y)是坐标位置，f_x，f_y是光流的x，y分量；

对于对齐的局部RGB图像，采用双边算子求解器，基于高分辨率局部RGB图像的结构，细化局部视差图：假设目标视差图是t，每像素的置信度图是c，通过解以下函数获得了改进的视差图x：

其中，

是可以从YUV颜色空间中的参考图像获得的关联矩阵。

优选地，分层渲染策略包括：采用原始层渲染高分辨率3d视频；采用模糊层处理画面中的拉扯问题；采用动态层进行动态前景渲染层。

优选地，采用原始层渲染高分辨率3d视频包括：将拼合的视差图投影到三维坐标上，以生成背景网格，并在所述背景网格上绘制拼合的全景图：

其中，K,R表示相机内外参，j^(p)和i^(p)是点p在图像平面中的像素位置，d^(p)是像素深度值x^(p)，y^(p)和z^(p)表示像素p的渲染位置。

优选地，采用模糊层遮挡处理处深度突变造成的拉扯问题，包括：移除拉扯区域，通过移除法线方向与视图方向成较大角度的网格来去除影响视觉效果的拉扯区域：

其中，

是网格面的法线向量，

表示从面对中心到光学中心的视图方向，β表示

和

之间的夹角；

在原始层后加入模糊层来修补移动视点时出现的孔洞。

优选地，采用动态层进行动态前景渲染层包括：更新动态前景的网格，具体包括：通过高斯混合模型背景减除方法进行初始提取动态前景的网格；采用全连接条件随机场模型优化所述前景的网格的清晰的动态掩模

基于所述清晰的动态掩模重新计算属于所述动态掩模的3D顶点以渲染所述前景的网格。

本发明又提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一项所述方法的步骤。

本发明的有益效果为：提供一种十亿像素虚拟现实视频采集装置、系统与方法，通过非结构化感知原理，建立了场景自适应光场采集模型，破现有阵列像感器遵从均匀分布的限制，解决了依赖外环境结构一致化标定面临的鲁棒性难题。

更进一步的，本发明的方法提出了多尺度映射与跨尺度智能融合新算法，揭示了在子系统可用信息受限和严重失真时,系统整体所能达到的极限性能的规律。突破了长期制约光学像感器成像的时空带宽积瓶颈，将光场感知的数据通量由国际上最高千万级像素提高至亿级像素，实现了宽视场高分辨动态光场实时成像。

附图说明

图1是本发明实施例中十亿像素虚拟现实视频采集系统的示意图。

图2是本发明实施例中一种采集装置的结构示意图。

图3是本发明实施例中又一种采集装置的结构示意图。

图4是本发明实施例中一种十亿像素虚拟现实视频采集方法的结构示意图。

图5是本发明实施例中进行所述全局相机的深度估计的方法的示意图。

图6是本发明实施例中利用嵌入的所述局部相机的RGB图像优化局部区域的深度图的方法示意图。

图7是本发明实施例中分层渲染策略的方法示意图。

图8是本发明实施例中采用模糊层遮挡处理处深度突变造成的拉扯问题的方法示意图。

图9是本发明实施例中更新动态前景的网格的方法示意图。

具体实施方式

为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外，连接既可以是用于固定作用也可以是用于电路连通作用。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

如图1所示，一种十亿像素虚拟现实视频采集系统，包括：

采集装置，用于采集视频数据，包括非结构化的相机阵列，相机阵列包括至少5列呈扇形分布的相机列组合，每一个所述相机列组合包括两个全局相机为一组组成的双目相机和至少一个局部相机，所述局部相机的焦距可调；

集成单元，用于获取所述数据采集装置采集的多视角的视频数据并传输给处理单元；

所述处理单元，用于接收所述视频数据并进行如下处理：

将所述全局相机的视频数据中RGB图像拼接成大场景的全景图，并将所述局部相机的视频数据中的RGB图像嵌入所述全景图；

进行所述全局相机的深度估计，并利用嵌入的所述局部相机的RGB图像优化局部区域的深度图；

使用分层渲染策略输出虚拟现实视频。

如图2和图3所示，采集装置还包括：非结构化的相机阵列、支撑件1、相机云台2、相机机架3；支撑件1用于支撑所述相机云台，相机云台2与相机机架连接；相机机架3用于通过连接件分别固定相机阵列中的每一列相机列组合。机阵列包括至少5列呈扇形分布的相机列组合，每一个相机列组合包括两个全局相机4为一组组成的双目相机和至少一个局部相机5，所述局部相机的焦距可调。

本发明的系统依赖于新颖的混合扇形分布的相机阵列，用于多尺度，十亿像素级和3D全景VR摄像。

为了实现多尺度，非结构化和可扩展的VR内容捕获，需要相应设计系统中所有相机的参数。为了捕获大场景VR场景，对于全局相机，采用具有2/3“CMOS传感器的12mm镜头来提供足够的FOV，和每个全局立体声相机对的相应基线设置为450mm，以估计5到150米范围内的高质量深度图。同时，局部相机采用具有1/1.8“CMOS传感器的12-36mm镜头来捕获高分辨率的局部细节。值得注意的是，局部相机镜头的焦距是可调的，以适应各种VR场景。

在机械布局方面，采用轻质铝合金立体相机机架和两个热稳定的聚乳酸(PLA)制成的连接件，用于连接相机机架。此外，每个相机机架中包括两个全局相机组成双目相机，还提供了至少1个额外的安装锚点用于安装局部相机。为了将所有相机列组装成扇形相机阵列，采用了使用坚固碳纤维的可插拔的多向中轴作为支撑件。拥有10列相机的整个系统可以安装在直径为0.6米，垂直高度为0.7米的相机圆柱体中。可以理解的是，每一列相机的角度是可以调的，不是固定的。

为了使用更方便，还包括纵向支撑件，用于在纵轴方向上支撑采集装置，并且易于与三脚架连接。

相比传统相机阵列进行光场采集，本发明不需要稠密的相机排布。在较为稀疏的相机排布下，通过非结构化的局部相机补偿，实现对高分辨率区域的灵活部署。在成本上较传统相机阵列有巨大提升。

如图4所示，本发明提供一种十亿像素虚拟现实视频采集方法，包括如下步骤：

S1：控制非结构化的相机阵列采集视频数据；所述相机阵列包括至少5列呈扇形分布的相机列组合，每一个所述相机列组合包括两个全局相机为一组组成的双目相机和至少一个局部相机，所述局部相机的焦距可调；

S2：控制集成单元获取所述数据采集装置采集的多视角的视频数据；

S3：接收所述视频数据，进行如下处理：

使用分层渲染策略输出虚拟现实视频。

为呈现高分辨率的全景VR场景，采用了基于特征的拼接算法来估计每组全局相机的内外参数。此外，为了减少由相机定位错误和拼接缝隙边界附近区域中的颜色不一致引起的明显伪影，在计算相机姿态时，应用graph-cut来估计出一个无接缝掩模，并剔除图像中的非掩模区域。最后使用线性Monge-Kantorovitch解决方案，以实现相机之间的色彩一致性。

为了提高分辨率和拼合后的全景图的细节，全局相机和局部相机拍摄画面的融合至关重要。因此，使用非结构化嵌入方案将所有局部相机的画面整形到其相应的全局相机的位置。首先使用交叉分辨率匹配算法查找全局-局部画面之间的匹配点，然后估计基于网格的多重单应性模型来表示翘曲场。同样，应用线性Monge-Kantorovitch(MKL)解决方案用于将局部相机的颜色样式映射到全局全景图，以实现局部-全局的颜色一致性。非结构化嵌入方案，将高清局部视角嵌入到全景视频中，嵌入后，可拉近视角观察感兴趣区域的高清细节画面，即可实现zoom in功能，允许不同用户自由放大感兴趣的区域。

本发明提出了一种基于深度学习的全局深度估计算法，该算法可以将语义信息考虑在内，并且倾向于快速生成平滑且大规模的结果。为了生成适合渲染的深度图，我们提出了空间传播层，基于平面的校正模块和新颖的分层监督损失。我们的整体全局深度估计方案由以下部分组成。

如图5所示，进行所述全局相机的深度估计包括如下步骤：

通过神经网络使用共享的权重特征金字塔从每组所述全局相机的两个立体图像中提取特征图；

利用所述特征图构建匹配代价量，进而得到4D视差代价量；

由所述4D视差代价量得到每个候选视差下的匹配代价；对所述代价匹配结果进行代价聚合得到优化后的代价匹配结果；

使用可微的soft-argmin操作从所述优化后的代价匹配结果确定每一个位置的视差进而获得视差图；

通过空间传播在整个所述视差图上传播准确的估计视差改善所述视差图得到最终的视差图。

在本发明的一种实施例中，为了降低求解大规模特征图的复杂性，使用了从粗到精的策略来提取四个递减的空间分辨率特征图。之后，采用跳过连接的编码器-解码器结构融合不同级别的特征图，并采用SPP(空间金字塔池化)结构扩大了接收范围，扩大了搜索范围。

完成特征提取后，需要利用提取到的的特征图，构建匹配代价量。我们选取的视差候选范围为0-384像素，因此我们需要构造对应每个候选视差下的匹配代价图。具体的做法是，若要构建候选视差x下的代价匹配量，我们需要将右图提取的所有特征图的所有像素向视差匹配方向移动x个像素之后使用该视差级别左右特征图之间的距离度量来构建该候选视差下的匹配代价量，由此形成4D(通道数C，高度H，宽度W和视差D)视差代价量。并且有四个不同的比例代价量分别为1/8,1/16,1/32,1/64，分别对应于四个粗糙到精细的特征金字塔。通过代价量可以反映在该候选视差下的匹配代价。

得到上述初步的代价匹配结果后，由于其只考虑了局部的相关性，对噪声非常敏感，无法直接用来计算最优视差,我们需要对其进行进一步的优化,即代价聚合。传统方法通常是通过优化方法来解决这一问题，在神经网络中我们利用3D卷积层对初步计算的代价匹配结果进行代价聚合，3D卷积层可以提取语义信息并汇总匹配成本以提高视差质量。这里我们采用采用了堆叠的沙漏结构来学习更多的语义信息，从而让最终的结果具有正确的语义结构。

得到聚合后的代价匹配量，需要确定每一个位置的视差，在传统方法中，只需要找出每个位置上最小匹配代价对应的候选视差即为该处的视差值，但这样不可导的做法无法在神经网络中实现，因此本发明使用可微的soft-argmin操作从代价量中获得视差图。使用softmax根据预测代价计算该点视差在每个候选视差值下的概率，预测视差是每个视差值按其概率加权的总和。从而得到各点的视差值。

使用softmax根据预测代价c_d计算每个位置的视差在每个候选视差值下的概率，预测视差是每个所述候选视差值按其概率加权的总和，具体如下：

其中，

得到上述初步的视差之后，可以利用RGB图像进一步优化视差图，这里通过空间传播在整个视差图上传播准确的估计视差改善视差图。基于SPNetwork构建空间传播层。空间传播层可以从RGB图像中提取亲和度矩阵，并使用亲和度矩阵在四个方向上传播视差。使用本发明的的空间传播层，可以纠正小的突变区域，并且输出视差图更平滑。

最终需要合理设计网络的损失函数，通过反向传播训练整个网络。首先，采用平滑的L1损失以实现更好的收敛性：

其中，N是真实视差值的数量，

是预测视差，d是真实视差。

为进一步改善视差图，本发明提出了层次监督损失函数。对于每个候选视差等级，每个像素的post-softmax概率构成相应视差等级的概率图，并且将生成的概率图及其候选视差值称为候选视差图。最终视差图是候选视差图的总和。换句话说，候选视差图可被视为分解最终视差图的结果，并描述了前后场景的层次。直接监督候选视差图可以使加权视差的概率分布更加集中，并强调场景的层次结构。因此，可以校正容易出错的细节，并且可以改善对于具有相同视差值的对象的连续性。真实视差图可以分解为D子视差图，，最终视差图是候选是插图的总和：

其中，d_gt是真实视差，d_l＝max({d_c|d_c＜d_gt})，d_u＝min({d_c|d_c≥d_gt})，d_c表示每个候选视差值；

对基本真实差异图进行切片，并直接监督每个候选差异图：

其中，D_max是候选视差图的总个数；

则所述神经网络的损失函数为：

其中，W是权重系数。

为了进一步提高平面的平滑度并消除异常视差值，我们使用平面分割算法来分割平面区域并校正误差值。使用坐标和初始深度值，我们可以通过最小化以下函数来拟合平面方程：

s.t.a²+b²+c²＝1

其中，(x_i，y_i)和z_i分别是像素i的坐标和深度值，而n是像素的总数。利用平面方程，可以校正平面的视差值。

利用平面这一先验条件，进一步优化深度图，使得地面这种具有平滑结构特征平面的深度视觉效果更加自然真实。

在后续处理中，为了获得更好的视觉效果，优化了包含语义信息的对象之间的差异。例如，将分割的天空区域的视差值设置为0，并将遥远的人视为一个平面，因为在大型场景中人体的深度可以忽略。

通过全局深度估计流程，可以生成适合渲染的高质量深度图，但是高分辨率局部区域需要更细致的局部深度图，考虑到已经有高清的RGB图像，可以利用局部高清的RGB图像引导局部深度图像进行进一步优化，这样的RGB引导需要保证高清RGB图像与生成的全局深度图有准确的对齐关系，否则会造成错误引导。而在第一步局部拼接的过程中，已经获得了局部高清图像与全局图像之间的位置关系，为了进一步精确对齐，在进行RGB引导细化之前，有必要扭曲局部区域中的视差图以使其与局部RGB图像对齐。

如图6所示，利用嵌入的所述局部相机的RGB图像优化局部区域的深度图包括如下步骤：

通过PWCnet估计所述局部相机的RGB图像和所述全局相机的RGB图像之间的光流，基于光流，扭曲雨所述局部相机的RGB图像对应的所述全局相机的RGB图像部分的视差图以实现所述局部相机的RGB图像与所述视差图之间的对齐：

P_w(x，y)＝P(x+f_x，y+f_y)

其中，

是可以从YUV颜色空间中的参考图像获得的关联矩阵。由于局部图像的分辨率较高，因此RGB引导的优化可以将更多语义结构细节添加到视差图中。

获得上述RGB图片和对应视差图后，为了实时渲染我们的十亿像素3D拍摄，我们提出了一种高效的3层渲染方案。

如图7所示，分层渲染策略包括：

采用原始层渲染高分辨率3d视频；

采用模糊层处理画面中的拉扯问题；

采用动态层进行动态前景渲染层。

采用原始层渲染高分辨率3d视频包括：将拼合的视差图投影到三维坐标上，以生成背景网格，并在所述背景网格上绘制拼合的全景图：

对于局部相机所覆盖的区域，在放大时增加了网格顶点密度，以获得更好的深度质量。

使用单层网格进行渲染时，在移动视点时很容易在深度边缘产生拉伸的三角形伪像。为了优化这些伪像，我们首先通过移除法线方向与视图方向成较大角度的网格来撕开网格。

如图8所示，采用模糊层遮挡处理处深度突变造成的拉扯问题，包括：

移除拉扯区域：通过移除法线方向与视图方向成较大角度的网格来去除影响视觉效果的拉扯区域：

其中，

是网格面的法线向量，

表示从面对中心到光学中心的视图方向，β表示

和

之间的夹角；

在原始层后加入模糊层来修补移动视点时出现的孔洞。

去掉拉扯区域后，渲染效果会出现孔洞，这时通过在原始层后加入模糊层来修补移动视点时出现的孔洞，从而将遮挡区域突变的拉扯区域变得平滑，使之不要影响整体视觉效果。

为了实现高效的渲染，采用动态层进行动态前景渲染层包括：更新动态前景的网格。

如图9所示，更新动态前景的网格具体包括：

通过高斯混合模型背景减除方法进行初始提取动态前景的网格；

采用全连接条件随机场模型优化所述前景的网格的清晰的动态掩模；

前景可以通过高斯混合模型(GMM)背景减除方法进行初始提取。由于GMM生成的动态蒙版在对象边界中较粗糙，因此采用高效的密集条件随机场(denseCRF)推理模型以获得清晰的边界蒙版。对于每个新帧，都会基于高质量的动态蒙版重新计算属于动态蒙版的3D顶点以渲染动态对象。

基于整个图层的渲染流程可以生成高质量的全景渲染结果，尤其是在局部区域，这可以改善视觉效果并提供放大功能。此外，利用扩散层，可以消除由遮挡引起的伪影，利用动态层可以高效地更新动态区域。

本发明经过了多次实地拍摄实验，表现出了非常好的鲁棒性与可拓展性。可以在大场景中提取出稠密的深度信息，灵活的非结构化局部相机的高分辨率画面可无缝嵌入全景图中。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种十亿像素虚拟现实视频采集方法，其特征在于，包括如下步骤：

S3：接收所述视频数据，进行如下处理：

进行所述全局相机的深度估计，并利用嵌入的所述局部相机的RGB图像优化局部区域的深度图；进行所述全局相机的深度估计包括如下步骤：

利用所述特征图构建匹配代价量，进而得到4D视差代价量；

通过空间传播在整个所述视差图上传播准确的估计视差改善所述视差图得到最终的视差图；

所述神经网络的损失函数L_s1是：

其中，N是真实视差值的数量，

是预测视差，d是真实视差；最终视差图是候选是插图的总和：

对基本真实差异图进行切片，并直接监督每个候选差异图：

其中，D_max是候选视差图的总个数；

则所述神经网络的损失函数为：

其中，W是权重系数；使用分层渲染策略输出虚拟现实视频。

2.如权利要求1所述的十亿像素虚拟现实视频采集方法，其特征在于，所述全局相机的视频数据中RGB图像是基于特征的拼接算法来估计每组所述全局相机的内外参数；

使用非结构化嵌入方法将所有所述局部相机的画面嵌入到相应的所述全局相机的位置。

3.如权利要求1所述的十亿像素虚拟现实视频采集方法，其特征在于，使用softmax根据预测代价c_d计算每个位置的视差在每个候选视差值下的概率，预测视差是每个所述候选视差值按其概率加权的总和，具体如下：

其中，

4.如权利要求3所述的十亿像素虚拟现实视频采集方法，其特征在于，基于SPNetwork构建所述空间传播层；所述空间传播层从RGB图像中提取关联矩阵，并使用所述关联矩阵在四个方向上传播视差。

5.如权利要求1所述的十亿像素虚拟现实视频采集方法，其特征在于，还包括：使用每一个位置坐标和初始深度值通过最小化以下函数来拟合平面方程：

s.t.a²+b²+c²＝1

6.如权利要求1所述的十亿像素虚拟现实视频采集方法，其特征在于，利用嵌入的所述局部相机的RGB图像优化局部区域的深度图包括如下步骤：

通过PWCnet估计所述局部相机的RGB图像和所述全局相机的RGB图像之间的光流，基于光流，扭曲与所述局部相机的RGB图像对应的所述全局相机的RGB图像部分的视差图以实现所述局部相机的RGB图像与所述视差图之间的对齐：

P_w(x，y)＝P(x+f_x，y+f_y)

对于对齐的局部RGB图像，采用双边算子求解器，基于高分辨率局部RGB图像的结构，细化局部视差图：假设目标视差图是t，每个像素的置信度图是c，通过解以下函数获得了改进的视差图x：

其中，

是可以从YUV颜色空间中的参考图像获得的关联矩阵。

7.如权利要求1所述的十亿像素虚拟现实视频采集方法，其特征在于，分层渲染策略包括：

采用原始层渲染高分辨率3d视频；

采用模糊层处理画面中的拉扯问题；

采用动态层进行动态前景渲染层。

8.如权利要求7所述的十亿像素虚拟现实视频采集方法，其特征在于，采用原始层渲染高分辨率3d视频包括：将拼合的视差图投影到三维坐标上，以生成背景网格，并在所述背景网格上绘制拼合的全景图：

9.如权利要求8所述的十亿像素虚拟现实视频采集方法，其特征在于，采用模糊层遮挡处理处深度突变造成的拉扯问题，包括：

移除拉扯区域，通过移除法线方向与视图方向成较大角度的网格来去除影响视觉效果的拉扯区域：

其中，

是网格面的法线向量，

表示从面对中心到光学中心的视图方向，β表示

和

之间的夹角；

在原始层后加入模糊层来修补移动视点时出现的孔洞。

10.如权利要求9所述的十亿像素虚拟现实视频采集方法，其特征在于，采用动态层进行动态前景渲染层包括：更新动态前景的网格，具体包括：

采用全连接条件随机场模型优化所述前景的网格的清晰的动态掩模

11.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-10任一项所述方法的步骤。

12.一种十亿像素虚拟现实视频采集装置，其特征在于，用于实现如权利要求1-10中的视频数据的采集；包括：非结构化的相机阵列、支撑件、相机云台、相机机架；

所述相机阵列包括至少5列呈扇形分布的相机列组合，每一个所述相机列组合包括两个全局相机为一组组成的双目相机和至少一个局部相机，所述局部相机的焦距可调；

所述支撑件，用于支撑所述相机云台，

所述相机云台，与所述相机机架连接；

所述相机机架，用于通过连接件分别固定所述相机阵列中的每一列所述相机列组合。

13.一种十亿像素虚拟现实视频采集系统，其特征在于，包括：

如权利要求12所述的采集装置，用于采集视频数据；

所述处理单元，用于接收所述视频数据并进行如下处理：

使用分层渲染策略输出虚拟现实视频。

14.如权利要求13所述的十亿像素虚拟现实视频采集系统，其特征在于，所述支撑件是多向中轴；所述多向中轴的材质为碳纤维。