CN109859249B

CN109859249B - Rgbd序列中基于自动分层的场景流估计方法

Info

Publication number: CN109859249B
Application number: CN201910068479.5A
Authority: CN
Inventors: 李秀秀; 刘沿娟; 金海燕; 肖照林
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2022-09-20
Anticipated expiration: 2039-01-24
Also published as: CN109859249A

Abstract

本发明公开的RGBD序列中基于自动分层的场景流估计方法，首先获得连续两帧RGB图像和深度图像；其次，计算连续两帧RGB图像之间的光流信息，根据对应的RGB图像修复深度图像，然后使用SLIC超像素分割和相似区域合并信息得到初始分层深度图像，使用自动分层程序将初始分层图像中冗余的层进行合并得到最终的深度图像分层信息，最后根据深度图像和RGB图像间的光流信息得到场景流信息。本发明与传统的计算场景流方法相比，在提高精确度的同时增加了分层的自动化程度。

Description

RGBD序列中基于自动分层的场景流估计方法

技术领域

本发明属于计算机数字图像处理技术领域，具体涉及一种RGBD序列中基于自动分层的场景流估计方法。

背景技术

光流是指空间运动物体在观察平面上的像素运动的顺时速度，表达了图像的变化，由于它包含了目标运动的信息，因此被观察者用来确定目标的运动情况。由光流的定义引申出光流场，它是指图像中所有像素点构成的一种二维(2D)瞬时速度场，其中的二维速度矢量是景物中可见点的三维速度矢量在成像表面的投影，所以光流不仅包含了被观察物体的运动信息，而且还包含有关景物三维结构的丰富信息。

通常3D场景流(Scene Flow)被看作是二维光流到三维的扩展，能够描述空间物体运动所形成的三维运动矢量。近年来随着计算机技术的发展，场景流及相关技术的研究也得到了迅速的提升和广泛的应用。在理论方面，场景流的计算方法由传统的双目立体视觉发展到用RGBD方法估计场景流；在应用方面，场景流技术可应用于虚拟现实，目标检测，跟踪与识别等。

目前，计算场景流的方法主要有两种，分别是基于双目立体视觉和基于RGBD计算场景流。前者主要是通过左右两个相机同步拍照，获得左右图像，对左右图像进行匹配，能够获得左右光流，进而得到场景流的估计。这种方法由于估计视差图而额外消耗时间的同时容易受到噪声和异常点估计的影响。随着深度传感器的诞生，基于RGBD方法成为计算场景流的主要方法。与前者相比，基于RGBD方法能够直接利用传感器获取较为精确的深度信息，因此能够提高计算准确性并节省计算时间。但是基于RGBD方法在遮挡处容易造成误差甚至错误。分层场景流方法针对RGBD方法这一缺点，分别对平滑性和不连续性建模，进而能够对遮挡的边界部分进行真实性建模；在边界建模中，对已知的场景的相对深度进行排序，进而将场景分成不同的层，然后针对不同的层次分别进行处理。

发明内容

本发明的目的是提供一种RGBD序列中基于自动分层的场景流估计方法，解决了传统方法中存在深度图像分层的自动化程度低和计算误差大的问题。

本发明所采用的技术方案是，RGBD序列中基于自动分层的场景流估计方法，具体包括如下步骤：

步骤1，分别输入连续两帧RGB图像和连续两帧深度图像，根据输入的RGB图像1和RGB图像2，分别计算RGB图像1到RGB图像2之间的光流图和RGB图像2到RGB图像1之间的光流图；

步骤2，修复深度图像：

根据坐标转换配准输入的深度图像和RGB图像，将深度图像中的噪声根据深度值为0的连通区域的大小分为洞和噪声点，然后根据区域相似性和颜色一致性修补洞，根据双边滤波消除噪声点；

步骤3，将深度图像语义分层：

采用SLIC超像素分割和相似区域合并算法对步骤2得到的深度图像进行语义分层，得到轮廓保持好的初始分层图像；

步骤4，将深度图像自动分层：

根据自动分层算法判断步骤3得到的初始分层图像中相邻两层是否能够合并，如果能够合并，则合并相邻层，并对所有层重新排序；如果不能合并，则分层结果保持不变；

步骤5，判断步骤4重新排序后的层数是否改变，如果层数未发生改变，则自动分层得到深度图像最终的分层结果；如果层数发生改变则返回执行步骤4；

步骤6，计算层辅助函数的权重：

层辅助函数g_k(-1.5≤g_k≤1.5)表示第k层的每个像素点属于第k层的可能性的大小，根据AR模型调制深度图像与RGB图像边缘不一致性获得层辅助函数的空间一致性；

步骤7，计算场景流：

根据步骤1得到的光流信息和步骤6得到深度图像的分层信息，计算每层的2D运动和深度变化得到场景流信息。

本发明的其他特点还在于，

步骤2的具体过程如下：

深度图像和RGB图像的配准过程：在深度图像和RGB图像中分别找到四对对应的点，这四对对应点坐标的位置信息根据式(1)得到投影矩阵，使用opencv中的函数warpPerspective()得到深度图像与RGB图像的配准图像；

式中，(X,Y)为RGB图像中的像素点坐标，(x,y)为深度图像中的像素点坐标，A为投影矩阵；

如果深度图像中深度值为0的连通区域的面积大于4，则该区域是洞，根据区域一致性和颜色的一致性修补洞，然后根据双边滤波消除噪声点；

如果深度图像中深度值为0的连通区域的面积为4或者小于4，则该区域是噪声点，根据双边滤波消除噪声点。

步骤3的具体过程如下：

步骤3.1，选取聚类中心，即分别选取初始化种子点和优化种子点；

初始化种子点的选取：根据设定的超像素个数，在图像内均匀的分配种子点，假设图片中有N个像素点，预设为R个相同尺寸的超像素，则每个超像素块的大小为N/R，则相邻种子点的距离为S＝sqrt(N/R)；

优化种子点的选取：由于初始化选取的种子点可能会落在梯度较大的轮廓边界上而影响后续效果，在初始种子点的n*n邻域内，n＝3，根据公式(2)-(4)计算所有像素的梯度值，然后选择梯度值最小的地方作为新种子点，同时给每个种子点分配一个单独的标签，记为优化种子点；

G(x,y)＝d_x(x,y)+d_y(x,y) (2)

d_x(x,y)＝I(x+1,y)-I(x,y) (3)

d_y(x,y)＝I(x,y+1)-I(x,y) (4)

其中，I是图像像素的值，(x,y)为像素的坐标，G(x,y)为像素的梯度函数，d_x为水平方向的梯度，d_y为垂直方向的梯度；

步骤3.2，根据公式(5)和(6)计算种子点邻域内每个像素到种子点的颜色距离d_φ和空间距离d_θ：

式中，e是邻域内的点，m是种子点，l_n(n＝m,e)表示像素n的亮度(Luminosity)，l_n的值域由0(黑色)到100(白色)；a_n(n＝m,e)表示像素n从洋红色至绿色的范围(a_n为负值指示绿色，正值指示品红)；b_n(n＝m,e)表示像素n从黄色至蓝色的范围(b_n为负值指示蓝色，正值指示黄色)；

根据公式(7)得到相似性度量，选择最小值作为新的聚类中心：

式中，d_φ代表颜色距离，d_θ代表空间距离，D_e是相似性度量，h是最大的颜色空间距离，随着图片的不同而不同，也随着聚类的不同而不同，取值范围为[1,40]，取值为10，S＝sqrt(N/R)为相邻种子点的距离；

步骤3.3，合并相似区域：经过SLIC超像素分割之后获得带有标签的初始分割图像，这些相似的邻近区域仍可以通过合并产生有语义的分割，使得合并后的每个区域里面应具有相似性，而相邻区域之间具有差异性；

区域合并的主要过程如下：

根据初始分割图像建立相对应的区域邻接图G＝(V,E)，V＝{S₁,S₂,...,S_R}是顶点的集合，每个顶点S_i(1≤i≤R)对应分割图中的一个分割区域，R是分割图中的分割区域数，E是边的集合，在分割图中，如果两个区域相邻，则相对应的两个端点之间存在一条边；

在无向图G＝(V,E)中，每条边赋予一定的权重，这个权重对应于合并两个区域的权重如公式(8)所示，区域越相似，权重值越小，在每一次合并过程中，寻找权重最小的边，并进行相邻区域合并；

式中，C_p,r为相邻区域p,r之间的权重，N_p表示区域p(1≤p≤R)的面积，N_r表示区域r(1≤r≤R)的面积，μ_p表示p区域的光谱平均值，μ_r表示r区域的光谱平均值，l是相邻区域i和j的公共边长度，λ是公共边的影响系数，当λ＝0时，l^λ＝1，表示公共边长度改变不影响区域异质性度量；当λ不为0时，公共边越长，异质性越小。

步骤4的具体过程如下：

步骤4.1，将步骤3得到的初始分层层数定义为K，然后判断第k(1≤k＜K)层和第k+1层是否相邻，首先将第k层的像素分别上下左右移动一个像素点，将移动之后的像素的标签和第k+1层的标签相加，检测是否存在2k+1，如果有，则说明这两个区域是相邻的；

步骤4.2，判断相邻层是否能够合并：分别计算相邻层第k层和k+1层在光流中的映射区域S_k和S_k+1，计算两个区域中所有像素点平均光流的角误差AE和点误差EE，如果计算得到的角误差AE和点误差EE满足如式(9)和(10)中任意一个判定公式，则将第k层和第k+1层合并；

式中，

和

分别是第k层和第k+1层中的水平方向的光流平均值，

和

分别是第k层和第k+1层中的垂直方向的光流平均值，ae和ee分别是相邻两层合并的阈值条件，0＜ae≤1，0＜ee≤1；

步骤6的具体过程如下：

步骤6.1，计算深度权重：首先根据深度图像步骤5中的分层结果得到第k层的深度图D_k，接着对D_k双三次插值之后得到深度图

根据公式(11)得到深度权重：

式中，

是深度图像

中像素点n的深度值，其中，n＝x,y；y是x的邻域内的像素，σ₁是滤波器的衰减率，当

和

非常接近时，

的值则非常大；

步骤6.2，计算RGB权重：在与深度图像对应的RGB图像中，分别提取以像素x为中心的w×w块的RGB三通道信息，接着对于提取到的w×w三通道信息根据公式(12)和(13)进行双边滤波得到RGB权重a^I _x,y：

式中，σ₂控制指数函数的衰减率，

表示以像素x为中心的w×w块的三通道信息中的第i通道信息矩阵，

表示逐个元素相乘，B_x是w×w块的双边滤波，

是像素点x的第i通道的强度值，σ₃和σ₄分别是根据空间距离和强度差异调整的双边滤波器的参数；

步骤6.3，计算层辅助函数权重：将步骤6.1得到的深度权重和步骤6.2得到RGB权重，带入公式(14)得到层辅助函数的权重：

式中，S_x是归一化因子，

和

分别是深度权重和RGB权重。

步骤7的具体过程如下：

RGBD分层场景流能量函数如式(15)所示：

式中，

是每层的运动，包括2D运动{u_tk,v_tk}和深度变化w_tk，E_data反应了第t帧和第t+1帧连续两帧在2D运动{u_tk,v_tk}后的时间一致性；E_spa反映了每层像素分别在垂直，水平，深度方向上经过运动R,τ后的区域一致性，R是旋转，τ是平移；E_sup反映了层辅助函数的空间一致性和表面运动{u_tk,v_tk}的时间一致性；λ_data,λ_spa,λ_sup分别是E_data,E_spa,E_sup相对应的权重系数；g_tk(-1.5≤g_tk≤1.5)是辅助函数，反映了像素属于第t帧第k层的概率；

根据帧间光流和深度图像的分割图像初始化场景流，初始场景流的计算模型根据二维光流到三维场景流的映射公式得到，二维光流到三维场景流的映射模型如下：

对于连续两帧RGB图像，第一帧的图像像素点α₁＝(x₁,y₁)在第二帧中对应的坐标为α₂＝(x₂,y₂)，根据对应的坐标信息得到像素点α₁的运动信息(u₁,v₁)＝(x₂-x₁,y₂-y₁)，由跟RGB图像对应的深度图像知道α₁对应的深度值为z₁，α₂对应的深度值为z₂，则深度值的变化为z＝z₂-z₁，根据像素点的透视投影关系得到图像像素点α₁和α₂对应的3D空间点坐标如式(16)所示：

u＝X₂-X₁,v＝Y₂-Y₁,Z＝Z₂-Z₁ (16)

这里α₁₂＝(X₁,Y₁,Z₁)是平面像素点α₁对应的空间坐标点，α₂₂＝(X₂,Y₂,Z₂)是平面像素点α₂对应的空间像素点，X₁,Y₁,Z₁,X₂,Y₂,Z₂,根据式(17)获得：

式中，f_x,f_y和c_x,c_y分别是相机焦距和畸变系数，当图像场景运动包含旋转R_t,k和平移τ_t,k的情况下空间点α₂₂可由空间点α₁₂根据式(18)计算获得：

α₂₂＝R_t,kα₁₂ ^T+τ_t,k (18)

则空间点α₂₂对应的坐标如式(19)所示：

根据空间点α₁₂和空间点α₂₂计算得到的场景流如式(20)-(22)所示：

w_t,k(α₂₂)＝z₂-z₁(22)

式中，u_t,k,v_t,k w_t,k分别是x方向，y方向和深度方向的变化。

本发明的有益效果是，RGBD序列中基于自动分层的场景流估计方法，与传统的场景流方法相比能够提高分割精度和自动化程度，同时还能够解决深度图像与RGB图像的边缘不一致性。

附图说明

图1是本发明的RGBD序列中基于自动分层的场景流估计方法的流程图；

图2是修复深度图像的流程图；

图3是深度图像初始分割的流程图；

图4是包含数据集SRSF_20的原始图像；

图5是连续两帧RGB图计算的光流图；

图6是修复后的连续两帧深度图像；

图7是执行语义分割后的初始分层图像；

图8是执行自动分层后的最终深度分层图；

图9是计算的遮挡图；

图10是计算出的场景流的结果图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明的RGBD序列中基于自动分层的场景流估计方法，如图1所示，具体包括如下步骤：

步骤2，修复深度图像：

如图2所示，根据坐标转换配准输入的深度图像和RGB图像，将深度图像中的噪声根据深度值为0的连通区域的大小分为洞和噪声点，然后根据区域相似性和颜色一致性修补洞，根据双边滤波消除噪声点；

步骤2的具体过程如下：

深度图像和RGB图像的配准过程：在深度图像和RGB图像中分别找到四对对应的点，这四对对应点坐标的位置信息根据式(1)得到投影矩阵A，使用opencv中的函数warpPerspective()得到深度图像与RGB图像的配准图像；

如果深度图像中深度值为0的连通区域的面积(像素总数)大于4，则该区域是洞，根据区域一致性和颜色的一致性修补洞，然后根据双边滤波消除噪声点；

如果深度图像中深度值为0的连通区域的面积(像素总数)为4或者小于4，则该区域是噪声点，根据双边滤波消除噪声点。

步骤3，将深度图像语义分层：

如图3所示，步骤3的具体过程如下：

优化种子点的选取：由于初始化选取的种子点可能会落在梯度较大的轮廓边界上而影响后续效果，在初始种子点的n*n邻域内(一般n＝3)，根据公式(2)-(4)计算所有像素的梯度值，然后选择梯度值最小的地方作为新种子点，同时给每个种子点分配一个单独的标签，记为优化种子点；

G(x,y)＝d_x(x,y)+d_y(x,y) (2)

d_x(x,y)＝I(x+1,y)-I(x,y) (3)

d_y(x,y)＝I(x,y+1)-I(x,y) (4)

区域合并的主要过程如下：

步骤4，将深度图像自动分层：

步骤4的具体过程如下：

式中，

和

分别是第k层和第k+1层中的水平方向的光流平均值，

和

步骤6，计算层辅助函数的权重：

层辅助函数g_k(-1.5≤g_k≤1.5)表示第k层的每个像素点属于第k层的可能性的大小，根据AR模型调制深度图像与RGB图像边缘不一致性获得层辅助函数的权重；

步骤6的具体过程如下：

根据公式(11)得到深度权重：

式中，

是深度图像

和

非常接近时，

的值则非常大；相同深度层的像素颜色可能存在很大差别；颜色类似的像素可能属于不同的层，深度权重能够避免这一点；

步骤6.2，计算RGB权重：在与深度图像对应的RGB图像中，分别提取以像素x为中心的w×w块的RGB三通道信息，接着对于提取到的w×w三通道信息根据公式(12)和公式(13)进行双边滤波得到RGB权重a^I _x,y：

式中，σ₂控制指数函数的衰减率，

表示逐个元素相乘，B_x是w×w块的双边滤波，

是像素点x的第i通道的强度值，σ₃和σ₄分别是根据空间距离和强度差异调整的双边滤波器的参数；RGB权重项能够提取深度图像与RGB图像的相关性，RGB图像的边缘和深度图像边缘的共同使用能使够避免AR模型中深度图像的不连续性；

式中，S_x是归一化因子，

和

分别是深度权重和RGB权重。

步骤7，计算场景流：

根据光流信息和深度图像的分层信息，计算每层的2D运动和深度变化得到场景流信息；

步骤7的具体过程如下：

RGBD分层场景流能量函数如式(15)所示：

式中，

对于连续两帧RGB图像，第一帧的图像像素点α₁＝(x₁,y₁)在第二帧中对应的坐标为α₂＝(x₂,y₂)，根据对应的坐标信息得到像素点α₁的运动信息(u₁,v₁)＝(x₂-x₁,y₂-y₁)，由跟RGB图像对应的深度图像知道α₁对应的深度值为z₁，α₂对应的深度值为z₂，则深度值的变化为z＝z₂-z₁，根据像素点的透视投影关系得到图像像素点α₁和α₂对应的3D空间点坐标如式16所示：

u＝X₂-X₁,v＝Y₂-Y₁,Z＝Z₂-Z₁ (16)

α₂₂＝R_t,kα₁₂ ^T+τ_t,k (18)

则空间点α₂₂对应的坐标如式(19)所示：

w_t,k(α₂₂)＝z₂-z₁ (22)

式中，u_t,k,v_t,k w_t,k分别是x方向，y方向和深度方向的变化。

实施例

下面通过对一组仿真数据的操作实例来说明本发明的RGBD序列中基于自动分层的场景流估计方法的实现过程：

(1)首先执行步骤1，采集到连续两帧RGB和深度图像，接着根据连续两帧RGB图像计算出光流信息，图4是采集到连续两帧原始RGB图像和深度图像；图5根据两帧RGB图像分别计算出来的由RGB图像1到RGB图像2的光流信息和RGB图像2到RGB图像1的光流信息图；

(2)执行步骤2，能够得到修复的深度图像，结果如图6所示，分别是根据对应的RGB图像信息修复的两帧深度图像；

(3)执行步骤3，能够得到边缘保留较好的深度图像的初始分层信息；SLIC超像素分割对深度图像的分割结果如图7左侧所示，根据相似区域合并信息对分割后的超像素图像合并后的结果如图7右侧所示；

(4)执行步骤4和步骤5，能够将初始分割中冗余的分层进行合并，将有同一个运动信息的物体分割到同一层，结果如图8显示。

将深度图像进行自动分层后能够得到深度图像的最终分层，分别计算每层的2维运动信息和深度变化能够得到场景流信息，具体的过程是利用坐标下降法最小化能量函数，在能量函数的计算过程中根据步骤6和步骤7得到最终的场景流信息，如图10所示为场景流信息，我们使用灰度图像来表示场景流；图9所示为根据两帧深度图像计算出来的遮挡信息，图9中的黑色轮廓为计算出来的遮挡信息。