CN111915735A

CN111915735A - 一种针对视频中三维结构轮廓的深度优化方法

Info

Publication number: CN111915735A
Application number: CN202010609325.5A
Authority: CN
Inventors: 俞定国; 张皓翔; 吉娜烨; 林强
Original assignee: Zhejiang University of Media and Communications
Current assignee: Zhejiang University of Media and Communications
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-11-10
Anticipated expiration: 2040-06-29
Also published as: CN111915735B

Abstract

本发明公开了一种针对视频中三维结构轮廓的深度优化方法，包括：利用前向光流场和后向光流场分别计算对应的光流梯度幅值矩阵，得到双向光流梯度幅值矩阵；将前向光流场、后向光流场以及两个光流梯度幅值矩阵，得到双向置信度矩阵；使用双向光流梯度幅值矩阵和双向置信度矩阵，得到梯度幅值混合矩阵；得到该帧的三维结构轮廓；利用稀疏深度点信息、三维结构轮廓信息以及上一帧的稠密深度信息，构建三个约束式，使图像中所有点根据约束式贡献的总代价最小化。本发明有效地提高了深度图中三维轮廓的精确度，在实际混合现实场景中，融合虚拟物体与现实物体，使得遮挡效果更佳自然，三维结构轮廓更为精确。

Description

一种针对视频中三维结构轮廓的深度优化方法

技术领域

本发明涉及视频深度信息稠密化及优化领域，具体涉及一种针对视频中三维结构轮廓的深度优化方法。

背景技术

随着云计算、5G等新兴技术的发展，数据处理和传输的效率大幅提高，虚拟现实(VR)、增强现实(AR)也应用于越来越多的领域。MR(混合现实)应用中的虚实遮挡的问题虽然上个世纪就有相关人员尝试解决，但现有算法效率较低，且效果不理想。

通过分析混合现实沉浸度、交互度等特点，可以得出虚实遮挡所需的深度信息对物体的三维轮廓较为敏感的结论，至此，可以针对物体的三维轮廓对稀疏和深度信息稠密化并针对三维轮廓进行优化，提出了本发明，使基于本发明的混合现实场景中虚实遮挡效果更加自然，违和感更低。

发明内容

为了提升混合现实场景中虚实遮挡边缘的精度，本发明的目的是提出了一种针对视频中三维结构轮廓的深度优化方法，有效地提高了深度图中三维轮廓的精确度，在实际混合现实场景中，融合虚拟物体与现实物体，使得遮挡效果更佳自然，基于此还能设计出沉浸感更强的应用程序，其效果比单独使用稠密深度图更好。

本发明的目的是通过以下技术方案来实现，一种针对视频中三维结构轮廓的深度优化方法，包括以下步骤：

1)输入视频序列帧、对应的稀疏深度点以及摄像设备内部参数，将视频序列帧拆分成单独的一系列帧图像数据；

2)利用步骤1)中的帧图像数据对相邻的三帧视频进行光流运算，生成前向光流场和后向光流场；

3)利用步骤2)中生成的前向光流场和后向光流场分别计算对应的光流梯度幅值矩阵，得到两个光流梯度幅值矩阵，即双向光流梯度幅值矩阵；

4)将步骤2)的前向光流场、后向光流场以及步骤3)得到的两个光流梯度幅值矩阵，基于三维物体运动特征分别计算前向光流场、后向光流场中每一个像素点的置信度，得到前向场置信度矩阵和后向场置信度矩阵，即双向置信度矩阵；

5)使用步骤3)得到的双向光流梯度幅值矩阵和步骤4)得到的双向置信度矩阵，对比前向场置信度矩阵和后向场置信度矩阵中同一像素坐标的置信度，取置信度高的一向场对应的光流梯度幅值作为融合场的光流梯度幅值，得到梯度幅值混合矩阵；

6)将步骤5)中得到的梯度幅值混合矩阵作方框滤波处理再将其数据标准化，得到代表三维结构轮廓滤镜的矩阵，即为深度轮廓滤镜；

7)使用Canny算法对步骤1)输入的视频序列帧中当前视频图像进行轮廓提取，得到当前帧的图像纹理二值矩阵，即为图像纹理；

8)利用步骤6)得到的深度轮廓滤镜及步骤7)得到的图像纹理，对图像纹理二值矩阵中每一个纹理所在点进行阈值判断，若对应坐标的三维结构轮廓滤镜值小于阈值则过滤该点纹理，否则保留，最后得到该帧的三维结构轮廓；

9)利用步骤1)中的稀疏深度点信息、步骤8)中的三维结构轮廓信息以及上一帧的稠密深度信息，构建三个约束式，使图像中所有点根据约束式贡献的总代价最小化，得到针对三维结构轮廓优化后的深度图。

步骤1)中，输入的稀疏深度点是指以世界坐标表示的三维点坐标，摄像设备内部参数是指小孔成像模型相机的镜头焦距以及光学成像主点坐标。输入视频要求摄像设备运动平缓，且感光元件不能只发生旋转而不发生位移变换。

步骤2)中，根据输入的视频数据对相邻的三帧视频进行光流运算，使用的是DIS光流法(FAST模式)，光流数据以光流向量集合方式存储。

步骤3)中，利用步骤2)中生成的前向光流场和后向光流场分别计算对应的光流梯度幅值矩阵，得到两个光流梯度幅值矩阵，具体包括：

3.1)步骤2)中得到的前向光流场I中点p的光流向量为：I_p(U_p,V_p)，其中，U_p为p点在水平方向上光流向量的分量,V_p为p点在垂直方向上光流向量的分量，计算对应的光流场I极坐标I_p(θ_p,r_p)，其中，θ_p为极坐标系中的极角，极径

3.2)采用下式得到横坐标与纵坐标方向上的r变化量：

其中，r为表示光流向量的模，

表示r在水平方向上的变化量，

表示r在垂直方向上的变化量，r_{p_right}表示p点右方邻接点光流向量极坐标下的极径，r_{p_down}表示p点下方邻接点光流向量极坐标下的极径；

3.3)最终得到前向场的光流梯度幅值矩阵M，矩阵中每一个成员M(p)采用以下方程得到：

3.4)用后向光流场替换步骤3.1)中的前向光流场，对后向光流场执行3.1)至3.3)过程运算，最终得到前向光流梯度幅值矩阵M_past与后向光流梯度幅值矩阵M_future。

步骤4)中，将步骤2)的前向光流场、后向光流场以及步骤3)得到的两个光流梯度幅值矩阵，基于三维物体运动特征分别计算前向光流场、后向光流场中每一个像素点的置信度，得到前向场置信度矩阵和后向场置信度矩阵，即双向置信度矩阵；

步骤4)具体过程包括：

4.1)以前向场置信度计算为例，前向光流场中某点上的光流向量为I_p，沿着该光流向量的两个方向扩展距离d得到点p₀和p₁，p₀为沿着光流向量反方向扩展d距离得到的点，p₁为沿着光流向量正方向扩展距离d得到的点，现在获取p₀、p₁点上的光流向量I_p0与I_p1；

4.2)获取p₀、p₁处的前向光流向量I_p0、I_p1，然后对I_p0、I_p1做关于I_p的投影运算，得到f_p0、f_p1；

4.3)令点p的置信度为r_past，其中r_past＝f_p1-f_p0，进而得到前向场中所有点的置信度，得到前向置信矩阵R_past；

4.4)用后向光流场替换步骤4.1)中的前向光流场，对后向光流场重复步骤4.1)至4.3)得到后向场置信矩阵R_future；

步骤5)中，设梯度幅值混合矩阵为M_fuse，则该混合矩阵内各成员M_fuse(p)采用以下方程得到：

梯度幅值混合矩阵M_fuse采用以下方程得到：

其中，M_past(p)表示前向光流梯度幅值矩阵中点p的梯度幅值，其中，R_past(p)表示前向光流场中点p处的光流梯度幅值数据置信度，R_future(p)表示后向光流场中点p处的光流梯度幅值数据置信度，R_past(p)>R_future(p)表示前向光流场中点p处的光流梯度幅值数据置信度更高，可靠性也更高，M_future(p)表示后向光流梯度幅值矩阵中点p的梯度幅值，R_past(p)≤R_future(p)表示后向光流场中点p处的光流梯度幅值数据置信度更高，可靠性也更高。

步骤6)中，三维结构轮廓滤镜具体是指将梯度幅值混合矩阵M_fuse做方框滤波处理再将其中元素标准化至区间[0,1]得到的矩阵。即将步骤5)中得到的梯度幅值混合矩阵作方框滤波处理再将其数据标准化至区间[0,1]得到代表三维结构轮廓滤镜的矩阵M_filter。

步骤8)中，具体包括：

设三维结构轮廓二值矩阵为C，C(p)＝0代表p点不处于三维结构轮廓上，C(p)＝1代表p点处于三维结构轮廓上，Canny算法得到的图像纹理二值矩阵为T，T(p)＝0代表p点处无平面纹理上，T(p)＝1代表p点处存在平面纹理，三维结构强度响应阈值为d_t，对T中所有值为1的点做如下运算得到三维结构轮廓矩阵C：

其中，C(p)表示三维结构轮廓二值矩阵C中点p处是否有三维结构轮廓，M_filter(p)表示三维结构轮廓滤镜中点p处的三维结构轮廓置信度，置信度越高表示该点越可能处于三维结构轮廓之上，d_t表示三维深度轮廓置信阈值。

步骤9)中，具体包括：

9.1)设稠密深度矩阵为D，对当前帧图像使用Sobel算子计算图像梯度，得到图像纹理梯度数据矩阵M_I；

9.2)稀疏深度矩阵为D_sparse，深度约束代价为E_sparse对应贡献权值为w_sparse，深度约束如下：

E_sparse(p)＝w_sparse|D(p)-D_sparse(p)|²

稀疏深度矩阵为D_sparse记录了各点稀疏深度值，深度约束代价为E_sparse，代表所有点各自贡献的深度约束代价值，对应贡献权值为w_sparse代表各点根据情况而产生的贡献条件，后面加上(p)代表对应p点处的数值，

平滑度约束代价为E_smooth对应贡献权值为w_smooth，平滑度约束如下：

E_smooth(p,q)＝w_smooth|D(p)-D(q)|²

平滑度约束代价为E_smooth，代表各点贡献的平滑度代价，对应贡献权值为w_smooth，代表各点根据情况而产生的贡献，E_smooth(p,q)代表p点q点贡献的平滑度代价，若p点q点其中有恰好有一点处于深度轮廓之上，那么不贡献任何代价，此时w_smooth＝0，若p点与q点同时处于深度轮廓或非深度轮廓之上，则分别计算p点和q点的中间量s_p和s_q，计算方式就是各自将两点坐标下对应的三维结构轮廓滤镜值M_filter(p)和图像纹理梯度数据矩阵值M_I(p)相乘，取s_q和s_p中更小的一个，用1减去其值就得到了w_smooth的值，加上(p)代表对应p点处的数值，加上(q)代表对应q点处的数值；

设前一帧的稀疏深度矩阵为D_pre，稳定性约束代价为E_stable，对应贡献权值为w_stable，稳定性约束如下：

E_stable(p)＝w_stable|D(p)-D_pre(p)|²

前一帧的稀疏深度矩阵为D_pre，代表每个像素坐标下的稀疏深度信息，若某点无深度信息，则对应的D_pre(p)为0，稳定性约束代价为E_stable，代表各点贡献的稳定性约束代价，对应贡献权值为w_stable，若对应点的稀疏深度矩阵中没有记录深度信息，则该权值为0，否则为1。

为三个约束设定代价调节参数分别为λ_sparse、λ_smooth、λ_stable，则根据下式即得出最终输出的三维轮廓优化过的深度图：

表示在求解目标矩阵D中找到各个点上最合适的数值，使右侧的公式得到的数值最小化，λ_sparse为深度约束贡献代价乘以的权值，λ_smooth、为平滑度约束贡献代价乘以的权值，λ_stable为稳定性约束代价乘以的权值。N₄(p)表示p点4领域内的点。

与现有技术相比，本发明具有如下优点：

本发明方法结合了虚实遮挡场景的实际需求，对三维结构轮廓进行针对性优化，有效利用了物体的三维运动特征，作为虚实遮挡场景的基础算法，生成沉浸感更加强烈的虚实融合场景。本发明可通过调节权重，控制场景适应度。

本发明方法所生成的稠密深度图，相较于由单一三维重建算法生成的稠密深度图，三维结构轮廓更为精确。

本发明方法有效地提高了深度图中三维轮廓的精确度，在实际混合现实场景中，融合虚拟物体与现实物体，使得遮挡效果更佳自然，基于此还能设计出沉浸感更强的应用程序，其效果比单独使用稠密深度图更好。

附图说明

图1为本发明针对视频中三维结构轮廓的深度优化方法的流程示意图；

图2为实施例输入的视频帧序列抽样数据。

图3为实施例输入的视频帧序列抽样数据对应的可视化三维结构轮廓滤镜。

图4为实施例输入的视频帧序列抽样数据对应的三维结构轮廓。

图5为实施例输入的视频帧序列抽样数据对应的稠密深度图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如1所示，一种针对视频中三维结构轮廓的深度优化方法，包含以下步骤：

1)输入视频序列帧、对应的稀疏深度点以及摄像设备内部参数；

2)利用步骤1)中的视频数据对相邻的三帧图像进行光流运算，生成前向光流场和后向光流场；

3)利用步骤2)中生成的前向光流场和后向光流场分别计算对应的光流梯度幅值矩阵，得到两个光流梯度幅值矩阵；

4)将步骤2)的前向光流场数据、后向光流场数据以及步骤3)得到的两个光流梯度幅值矩阵，基于三维物体运动特征分别计算前向光流场、后向光流场中每一个像素点的置信度，得到前向场置信度矩阵和后向场置信度矩阵；

6)将步骤5)中得到的梯度幅值混合矩阵作方框滤波处理再将其数据标准化，得到代表三维结构轮廓滤镜的矩阵；

7)使用Canny算法，将步骤1)输入的当前视频图像进行轮廓提取，得到当前帧的图像纹理二值矩阵；

8)利用步骤6)得到的三维结构轮廓滤镜矩阵及步骤7)得到的图像纹理矩阵，对图像纹理二值矩阵中每一个纹理所在点进行阈值判断，若对应坐标的三维结构轮廓滤镜值小于阈值则过滤该点纹理，否则保留，最后得到该帧的三维结构轮廓矩阵；

9)利用步骤1)中的稀疏深度信息、步骤8)中的三维结构轮廓信息以及上一帧的稀疏深度信息，根据三个约束公式，最小化图像中所有像素点贡献的总代价，得到针对三维结构轮廓优化后的深度图。

步骤1)中输入的稀疏深度点是指以世界坐标表示的三维点坐标，摄像设备内部参数是指小孔成像模型相机的镜头焦距以及光学成像主点坐标。输入视频要求摄像设备运动平缓，感光元件不能只发生旋转而不发生位移变换且输入视频帧已经做过镜头畸变校正。

步骤2)中根据输入的视频数据对相邻的三帧视频进行光流运算，光流数据以光流向量集合方式存储。

步骤3)具体过程为：

3.1)步骤2中得到的前光流场I中点p的光流向量为：I_p(U_p,V_p)，计算对应的光流场I极坐标I_p(θ_p,r_p)，其中，U_p为p点在水平方向上光流向量的分量,V_p为p点在垂直方向上光流向量的分量，计算对应的光流场I极坐标I_p(θ_p,r_p)，其中，θ_p为极坐标系中的极角，极径

3.2)采用下式得到横坐标与纵坐标方向上的r变化量：

其中，r为表示光流向量的模，

表示r在水平方向上的变化量，

3.4)对后向光流场执行3.1至3.3过程运算，最终得到前向光流梯度幅值矩阵M_past与后向光流梯度幅值矩阵M_future。

步骤4)的具体过程为：

4.3)令点p的置信度为r_past，其中r_past＝f_p1-f_p0，进而得到前向场中所有点的置信度，得到置信矩阵R_past；

4.4)对后向光流场重复步骤4.1至4.3得到后向场置信矩阵R_future；

4.5)设梯度幅值混合矩阵为M_fuse，则该矩阵内各成员M_fuse(p)采用以下方程得到：

步骤5)梯度幅值混合矩阵M_fuse采用以下方程得到：

其中，M_past(p)表示前向光流梯度幅值矩阵中点p的梯度幅值，其中，R_past(p)表示前向光流场中点p处的光流梯度幅值数据置信度，R_future(p)表示后向光流场中点p处的光流梯度幅值数据置信度，M_future(p)表示后向光流梯度幅值矩阵中点p的梯度幅值。

步骤6)的三维结构轮廓滤镜具体是指将梯度幅值混合矩阵M_fuse做方框滤波处理再将其中元素标准化至区间[0,1]得到的矩阵。

步骤8)的三维结构轮廓提取具体描述如下：

设三维结构轮廓二值矩阵为C，C(p)＝0代表p点不处于三维结构轮廓上，C(p)＝1代表p点处于三维结构轮廓上，Canny得到的图像纹理二值矩阵为T，T(p)＝0代表p点处无平面纹理上，T(p)＝1代表p点处存在平面纹理，三维结构强度响应阈值为d_t，对T中所有值为1的点做如下运算得到三维结构轮廓矩阵C：

步骤9)的深度信息稠密化具体如下：

9.1)设稠密深度矩阵为D，对当前帧图像使用Sobel算子计算图像梯度，得到图像梯度矩阵M_I；

9.2)稀疏深度矩阵为D_sparse，深度约束代价为E_sparse对应贡献权值为w_sparse，构建三个约束，分别为深度约束、平滑度约束和稳定性约束，其中深度约束如下：

E_sparse(p)＝w_sparse|D(p)-D_sparse(p)|²

E_smooth(p,q)＝w_smooth|D(p)-D(q)|²

平滑度约束代价为E_smooth，代表各点贡献的平滑度代价，对应贡献权值为w_smooth，代表各点根据情况而产生的贡献，E_smooth(p,q)代表p点q点关联下贡献的平滑度代价，若p点q点其中有恰好有一点处于深度轮廓之上，那么不贡献任何代价，此时w_smooth＝0，若p点与q点同时处于深度轮廓或非深度轮廓之上，则分别计算p点和q点的中间量s_p和s_q，计算方式就是各自将两点坐标下对应的三维结构轮廓滤镜值M_filter(p)和图像纹理梯度数据矩阵值M_I(p)相乘，取s_q和s_p中更小的一个，用1减去其值就得到了w_smooth的值，加上(p)代表对应p点处的数值，加上(q)代表对应q点处的数值；

E_stable(p)＝w_stable|D(p)-D_pre(p)|²

设前一帧的三维结构优化深度图为D_pre，稳定性约束代价为E_stable，对应贡献权值为w_stable，加上(p)代表对应p点处的数值，稳定性约束如下：

E_stable(p)＝w_stable|D(p)-D_pre(p)|²

前一帧的稀疏深度矩阵为D_pre，代表每个像素坐标下的稀疏深度信息，若某点无深度信息，则对应的D_pre(p)为0，稳定性约束代价为E_stable，代表各点贡献的稳定性约束代价，对应贡献权值为w_stable，若对应点的稀疏深度矩阵中没有记录深度信息，则该权值为0，否则为1；

其中，

表示在求解目标矩阵D中找到各个点上最合适的数值，使右侧的公式得到的数值最小化；λ_sparse为深度约束贡献代价乘以的权值，λ_smooth为平滑度约束贡献代价乘以的权值，λ_stable为稳定性约束代价乘以的权值，N₄(p)表示p点4领域内的点。

具体地，本发明实施例如下：

1)输入视频序列帧，生成各帧的三维结构轮廓滤镜。

1.1)输入如图2所示的经过镜头畸变校正的视频序列帧，若某帧为视频开头第一帧或结构最后一帧则不做任何处理，否则将该帧与前一帧做光流运算得到前向光流场，然后将该帧同后一帧进行光流运算得到后向光流场，同时计算各向光流场中每一点光流向量的模；

1.2)对图像坐标区域内的每一个点，分别计算各向光流场对应点的三维轮廓置信度，通过比较同一点上双向场中置信度的大小，选择置信度高的向场对应光流向量的模作为混合场中对应点的数据，得到混合场；

1.3)将混合场进行方框处理，该实施例中方框滤波核大小为5，然后将经过方框滤波的混合场内所有数据标准化至区间[0,1]得到深度轮廓滤镜；

如图3所示，三个截图分别为三个示例帧对应的深度轮廓滤镜可视化效果，像素点越接近黑色表示该点存在轮廓的可能性越高，反之像素点越接近白色则该点存在三维结构轮廓的可能性越低。

2)将视频帧的图像轮廓提取出来，然后对照三维结构轮廓滤镜，若某点为图像轮廓上的点，且对应坐标下的三维结构轮廓滤镜对应的值小于预设的三维结构轮廓阈值，则将该点轮廓信息清除，表示该点不属于三维结构轮廓，否则保留该点轮廓信息，归类为三维结构轮廓，最后得到如图4所示的某帧对应的三维结构轮廓图。

3)基于前一帧的稀疏深度信息、当前帧的稀疏深度信息以及当前帧的三维结构轮廓信息，分别构建稳定性约束、深度约束和平滑度约束并求解二次优化式：

求解后如图5，得到了最终的三维结构轮廓优化后的稠密深度信息。

Claims

1.一种针对视频中三维结构轮廓的深度优化方法，其特征在于，包括以下步骤：

3)利用步骤2)中生成的前向光流场和后向光流场分别计算对应的光流梯度幅值矩阵，得到双向光流梯度幅值矩阵；

4)将步骤2)的前向光流场、后向光流场以及步骤3)得到的双向光流梯度幅值矩阵，基于三维物体运动特征分别计算前向光流场、后向光流场中每一个像素点的置信度，得到前向场置信度矩阵和后向场置信度矩阵，即双向置信度矩阵；

2.根据权利要求1所述的针对视频中三维结构轮廓的深度优化方法，其特征在于，步骤1)中，所述的摄像设备内部参数是指小孔成像模型相机的镜头焦距以及光学成像主点坐标。

3.根据权利要求1所述的针对视频中三维结构轮廓的深度优化方法，其特征在于，步骤3)中，利用步骤2)中生成的前向光流场和后向光流场分别计算对应的光流梯度幅值矩阵，得到双向光流梯度幅值矩阵，具体包括：

3.2)采用下式得到横坐标与纵坐标方向上的r变化量：

其中，r为表示光流向量的模，

表示r在水平方向上的变化量，

4.根据权利要求1所述的针对视频中三维结构轮廓的深度优化方法，其特征在于，步骤4)具体过程包括：

4.4)用后向光流场替换步骤4.1)中的前向光流场，对后向光流场重复步骤4.1)至4.3)得到后向场置信矩阵R_future。

5.根据权利要求1所述的针对视频中三维结构轮廓的深度优化方法，其特征在于，步骤5)中，设梯度幅值混合矩阵为M_fuse，则该混合矩阵内各成员M_fuse(p)采用以下方程得到：

梯度幅值混合矩阵M_fuse采用以下方程得到：

6.根据权利要求1所述的针对视频中三维结构轮廓的深度优化方法，其特征在于，步骤6)中，将步骤5)中得到的梯度幅值混合矩阵作方框滤波处理再将其数据标准化至区间[0,1]得到代表三维结构轮廓滤镜的矩阵M_filter。

7.根据权利要求1所述的针对视频中三维结构轮廓的深度优化方法，其特征在于，步骤8)具体包括：

设三维结构轮廓二值矩阵为C，C(p)＝0代表p点不处于三维结构轮廓上，C(p)＝1代表p点处于三维结构轮廓上，Canny算法得到的图像纹理二值矩阵为T，T(p)＝0代表p点处无平面纹理上，T(p)＝1代表p点处存在平面纹理，三维结构强度响应阈值为d_t，对T中所有值为1的点做如下运算得到三维结构轮廓矩阵C，即为代表三维结构轮廓滤镜的矩阵：

8.根据权利要求1所述的针对视频中三维结构轮廓的深度优化方法，其特征在于，步骤9)具体包括：

E_sparse(p)＝w_sparse|D(p)-D_sparse(p)|²

稀疏深度矩阵为D_sparse记录了各点稀疏深度值，深度约束代价为E_sparse，代表所有点各自贡献的深度约束代价值，对应贡献权值为w_sparse代表各点根据情况而产生的贡献条件，加上(p)代表对应p点处的数值；

E_smooth(p,q)＝w_smooth|D(p)-D(q)|²

设前一帧的稀疏深度矩阵为D_pre，稳定性约束代价为E_stable，对应贡献权值为w_stable，加上(p)代表对应p点处的数值，稳定性约束如下：

E_stable(p)＝w_stable|D(p)-D_pre(p)|²

其中，