CN111915735A - 一种针对视频中三维结构轮廓的深度优化方法 - Google Patents

一种针对视频中三维结构轮廓的深度优化方法 Download PDF

Info

Publication number
CN111915735A
CN111915735A CN202010609325.5A CN202010609325A CN111915735A CN 111915735 A CN111915735 A CN 111915735A CN 202010609325 A CN202010609325 A CN 202010609325A CN 111915735 A CN111915735 A CN 111915735A
Authority
CN
China
Prior art keywords
optical flow
point
matrix
depth
dimensional structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010609325.5A
Other languages
English (en)
Other versions
CN111915735B (zh
Inventor
俞定国
张皓翔
吉娜烨
林强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Media and Communications
Original Assignee
Zhejiang University of Media and Communications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Media and Communications filed Critical Zhejiang University of Media and Communications
Priority to CN202010609325.5A priority Critical patent/CN111915735B/zh
Publication of CN111915735A publication Critical patent/CN111915735A/zh
Application granted granted Critical
Publication of CN111915735B publication Critical patent/CN111915735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种针对视频中三维结构轮廓的深度优化方法,包括:利用前向光流场和后向光流场分别计算对应的光流梯度幅值矩阵,得到双向光流梯度幅值矩阵;将前向光流场、后向光流场以及两个光流梯度幅值矩阵,得到双向置信度矩阵;使用双向光流梯度幅值矩阵和双向置信度矩阵,得到梯度幅值混合矩阵;得到该帧的三维结构轮廓;利用稀疏深度点信息、三维结构轮廓信息以及上一帧的稠密深度信息,构建三个约束式,使图像中所有点根据约束式贡献的总代价最小化。本发明有效地提高了深度图中三维轮廓的精确度,在实际混合现实场景中,融合虚拟物体与现实物体,使得遮挡效果更佳自然,三维结构轮廓更为精确。

Description

一种针对视频中三维结构轮廓的深度优化方法
技术领域
本发明涉及视频深度信息稠密化及优化领域,具体涉及一种针对视频中三维结构轮廓的深度优化方法。
背景技术
随着云计算、5G等新兴技术的发展,数据处理和传输的效率大幅提高,虚拟现实(VR)、增强现实(AR)也应用于越来越多的领域。MR(混合现实)应用中的虚实遮挡的问题虽然上个世纪就有相关人员尝试解决,但现有算法效率较低,且效果不理想。
通过分析混合现实沉浸度、交互度等特点,可以得出虚实遮挡所需的深度信息对物体的三维轮廓较为敏感的结论,至此,可以针对物体的三维轮廓对稀疏和深度信息稠密化并针对三维轮廓进行优化,提出了本发明,使基于本发明的混合现实场景中虚实遮挡效果更加自然,违和感更低。
发明内容
为了提升混合现实场景中虚实遮挡边缘的精度,本发明的目的是提出了一种针对视频中三维结构轮廓的深度优化方法,有效地提高了深度图中三维轮廓的精确度,在实际混合现实场景中,融合虚拟物体与现实物体,使得遮挡效果更佳自然,基于此还能设计出沉浸感更强的应用程序,其效果比单独使用稠密深度图更好。
本发明的目的是通过以下技术方案来实现,一种针对视频中三维结构轮廓的深度优化方法,包括以下步骤:
1)输入视频序列帧、对应的稀疏深度点以及摄像设备内部参数,将视频序列帧拆分成单独的一系列帧图像数据;
2)利用步骤1)中的帧图像数据对相邻的三帧视频进行光流运算,生成前向光流场和后向光流场;
3)利用步骤2)中生成的前向光流场和后向光流场分别计算对应的光流梯度幅值矩阵,得到两个光流梯度幅值矩阵,即双向光流梯度幅值矩阵;
4)将步骤2)的前向光流场、后向光流场以及步骤3)得到的两个光流梯度幅值矩阵,基于三维物体运动特征分别计算前向光流场、后向光流场中每一个像素点的置信度,得到前向场置信度矩阵和后向场置信度矩阵,即双向置信度矩阵;
5)使用步骤3)得到的双向光流梯度幅值矩阵和步骤4)得到的双向置信度矩阵,对比前向场置信度矩阵和后向场置信度矩阵中同一像素坐标的置信度,取置信度高的一向场对应的光流梯度幅值作为融合场的光流梯度幅值,得到梯度幅值混合矩阵;
6)将步骤5)中得到的梯度幅值混合矩阵作方框滤波处理再将其数据标准化,得到代表三维结构轮廓滤镜的矩阵,即为深度轮廓滤镜;
7)使用Canny算法对步骤1)输入的视频序列帧中当前视频图像进行轮廓提取,得到当前帧的图像纹理二值矩阵,即为图像纹理;
8)利用步骤6)得到的深度轮廓滤镜及步骤7)得到的图像纹理,对图像纹理二值矩阵中每一个纹理所在点进行阈值判断,若对应坐标的三维结构轮廓滤镜值小于阈值则过滤该点纹理,否则保留,最后得到该帧的三维结构轮廓;
9)利用步骤1)中的稀疏深度点信息、步骤8)中的三维结构轮廓信息以及上一帧的稠密深度信息,构建三个约束式,使图像中所有点根据约束式贡献的总代价最小化,得到针对三维结构轮廓优化后的深度图。
步骤1)中,输入的稀疏深度点是指以世界坐标表示的三维点坐标,摄像设备内部参数是指小孔成像模型相机的镜头焦距以及光学成像主点坐标。输入视频要求摄像设备运动平缓,且感光元件不能只发生旋转而不发生位移变换。
步骤2)中,根据输入的视频数据对相邻的三帧视频进行光流运算,使用的是DIS光流法(FAST模式),光流数据以光流向量集合方式存储。
步骤3)中,利用步骤2)中生成的前向光流场和后向光流场分别计算对应的光流梯度幅值矩阵,得到两个光流梯度幅值矩阵,具体包括:
3.1)步骤2)中得到的前向光流场I中点p的光流向量为:Ip(Up,Vp),其中,Up为p点在水平方向上光流向量的分量,Vp为p点在垂直方向上光流向量的分量,计算对应的光流场I极坐标Ipp,rp),其中,θp为极坐标系中的极角,极径
Figure BDA0002560365020000021
3.2)采用下式得到横坐标与纵坐标方向上的r变化量:
Figure BDA0002560365020000031
其中,r为表示光流向量的模,
Figure BDA0002560365020000032
表示r在水平方向上的变化量,
Figure BDA0002560365020000033
表示r在垂直方向上的变化量,rp_right表示p点右方邻接点光流向量极坐标下的极径,rp_down表示p点下方邻接点光流向量极坐标下的极径;
3.3)最终得到前向场的光流梯度幅值矩阵M,矩阵中每一个成员M(p)采用以下方程得到:
Figure BDA0002560365020000034
3.4)用后向光流场替换步骤3.1)中的前向光流场,对后向光流场执行3.1)至3.3)过程运算,最终得到前向光流梯度幅值矩阵Mpast与后向光流梯度幅值矩阵Mfuture
步骤4)中,将步骤2)的前向光流场、后向光流场以及步骤3)得到的两个光流梯度幅值矩阵,基于三维物体运动特征分别计算前向光流场、后向光流场中每一个像素点的置信度,得到前向场置信度矩阵和后向场置信度矩阵,即双向置信度矩阵;
步骤4)具体过程包括:
4.1)以前向场置信度计算为例,前向光流场中某点上的光流向量为Ip,沿着该光流向量的两个方向扩展距离d得到点p0和p1,p0为沿着光流向量反方向扩展d距离得到的点,p1为沿着光流向量正方向扩展距离d得到的点,现在获取p0、p1点上的光流向量Ip0与Ip1
4.2)获取p0、p1处的前向光流向量Ip0、Ip1,然后对Ip0、Ip1做关于Ip的投影运算,得到fp0、fp1
4.3)令点p的置信度为rpast,其中rpast=fp1-fp0,进而得到前向场中所有点的置信度,得到前向置信矩阵Rpast
4.4)用后向光流场替换步骤4.1)中的前向光流场,对后向光流场重复步骤4.1)至4.3)得到后向场置信矩阵Rfuture
步骤5)中,设梯度幅值混合矩阵为Mfuse,则该混合矩阵内各成员Mfuse(p)采用以下方程得到:
梯度幅值混合矩阵Mfuse采用以下方程得到:
Figure BDA0002560365020000041
其中,Mpast(p)表示前向光流梯度幅值矩阵中点p的梯度幅值,其中,Rpast(p)表示前向光流场中点p处的光流梯度幅值数据置信度,Rfuture(p)表示后向光流场中点p处的光流梯度幅值数据置信度,Rpast(p)>Rfuture(p)表示前向光流场中点p处的光流梯度幅值数据置信度更高,可靠性也更高,Mfuture(p)表示后向光流梯度幅值矩阵中点p的梯度幅值,Rpast(p)≤Rfuture(p)表示后向光流场中点p处的光流梯度幅值数据置信度更高,可靠性也更高。
步骤6)中,三维结构轮廓滤镜具体是指将梯度幅值混合矩阵Mfuse做方框滤波处理再将其中元素标准化至区间[0,1]得到的矩阵。即将步骤5)中得到的梯度幅值混合矩阵作方框滤波处理再将其数据标准化至区间[0,1]得到代表三维结构轮廓滤镜的矩阵Mfilter
步骤8)中,具体包括:
设三维结构轮廓二值矩阵为C,C(p)=0代表p点不处于三维结构轮廓上,C(p)=1代表p点处于三维结构轮廓上,Canny算法得到的图像纹理二值矩阵为T,T(p)=0代表p点处无平面纹理上,T(p)=1代表p点处存在平面纹理,三维结构强度响应阈值为dt,对T中所有值为1的点做如下运算得到三维结构轮廓矩阵C:
Figure BDA0002560365020000042
其中,C(p)表示三维结构轮廓二值矩阵C中点p处是否有三维结构轮廓,Mfilter(p)表示三维结构轮廓滤镜中点p处的三维结构轮廓置信度,置信度越高表示该点越可能处于三维结构轮廓之上,dt表示三维深度轮廓置信阈值。
步骤9)中,具体包括:
9.1)设稠密深度矩阵为D,对当前帧图像使用Sobel算子计算图像梯度,得到图像纹理梯度数据矩阵MI
9.2)稀疏深度矩阵为Dsparse,深度约束代价为Esparse对应贡献权值为wsparse,深度约束如下:
Esparse(p)=wsparse|D(p)-Dsparse(p)|2
Figure BDA0002560365020000051
稀疏深度矩阵为Dsparse记录了各点稀疏深度值,深度约束代价为Esparse,代表所有点各自贡献的深度约束代价值,对应贡献权值为wsparse代表各点根据情况而产生的贡献条件,后面加上(p)代表对应p点处的数值,
平滑度约束代价为Esmooth对应贡献权值为wsmooth,平滑度约束如下:
Esmooth(p,q)=wsmooth|D(p)-D(q)|2
Figure BDA0002560365020000052
Figure BDA0002560365020000053
平滑度约束代价为Esmooth,代表各点贡献的平滑度代价,对应贡献权值为wsmooth,代表各点根据情况而产生的贡献,Esmooth(p,q)代表p点q点贡献的平滑度代价,若p点q点其中有恰好有一点处于深度轮廓之上,那么不贡献任何代价,此时wsmooth=0,若p点与q点同时处于深度轮廓或非深度轮廓之上,则分别计算p点和q点的中间量sp和sq,计算方式就是各自将两点坐标下对应的三维结构轮廓滤镜值Mfilter(p)和图像纹理梯度数据矩阵值MI(p)相乘,取sq和sp中更小的一个,用1减去其值就得到了wsmooth的值,加上(p)代表对应p点处的数值,加上(q)代表对应q点处的数值;
设前一帧的稀疏深度矩阵为Dpre,稳定性约束代价为Estable,对应贡献权值为wstable,稳定性约束如下:
Estable(p)=wstable|D(p)-Dpre(p)|2
Figure BDA0002560365020000054
前一帧的稀疏深度矩阵为Dpre,代表每个像素坐标下的稀疏深度信息,若某点无深度信息,则对应的Dpre(p)为0,稳定性约束代价为Estable,代表各点贡献的稳定性约束代价,对应贡献权值为wstable,若对应点的稀疏深度矩阵中没有记录深度信息,则该权值为0,否则为1。
为三个约束设定代价调节参数分别为λsparse、λsmooth、λstable,则根据下式即得出最终输出的三维轮廓优化过的深度图:
Figure BDA0002560365020000061
Figure BDA0002560365020000062
表示在求解目标矩阵D中找到各个点上最合适的数值,使右侧的公式得到的数值最小化,λsparse为深度约束贡献代价乘以的权值,λsmooth、为平滑度约束贡献代价乘以的权值,λstable为稳定性约束代价乘以的权值。N4(p)表示p点4领域内的点。
与现有技术相比,本发明具有如下优点:
本发明方法结合了虚实遮挡场景的实际需求,对三维结构轮廓进行针对性优化,有效利用了物体的三维运动特征,作为虚实遮挡场景的基础算法,生成沉浸感更加强烈的虚实融合场景。本发明可通过调节权重,控制场景适应度。
本发明方法所生成的稠密深度图,相较于由单一三维重建算法生成的稠密深度图,三维结构轮廓更为精确。
本发明方法有效地提高了深度图中三维轮廓的精确度,在实际混合现实场景中,融合虚拟物体与现实物体,使得遮挡效果更佳自然,基于此还能设计出沉浸感更强的应用程序,其效果比单独使用稠密深度图更好。
附图说明
图1为本发明针对视频中三维结构轮廓的深度优化方法的流程示意图;
图2为实施例输入的视频帧序列抽样数据。
图3为实施例输入的视频帧序列抽样数据对应的可视化三维结构轮廓滤镜。
图4为实施例输入的视频帧序列抽样数据对应的三维结构轮廓。
图5为实施例输入的视频帧序列抽样数据对应的稠密深度图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如1所示,一种针对视频中三维结构轮廓的深度优化方法,包含以下步骤:
1)输入视频序列帧、对应的稀疏深度点以及摄像设备内部参数;
2)利用步骤1)中的视频数据对相邻的三帧图像进行光流运算,生成前向光流场和后向光流场;
3)利用步骤2)中生成的前向光流场和后向光流场分别计算对应的光流梯度幅值矩阵,得到两个光流梯度幅值矩阵;
4)将步骤2)的前向光流场数据、后向光流场数据以及步骤3)得到的两个光流梯度幅值矩阵,基于三维物体运动特征分别计算前向光流场、后向光流场中每一个像素点的置信度,得到前向场置信度矩阵和后向场置信度矩阵;
5)使用步骤3)得到的双向光流梯度幅值矩阵和步骤4)得到的双向置信度矩阵,对比前向场置信度矩阵和后向场置信度矩阵中同一像素坐标的置信度,取置信度高的一向场对应的光流梯度幅值作为融合场的光流梯度幅值,得到梯度幅值混合矩阵;
6)将步骤5)中得到的梯度幅值混合矩阵作方框滤波处理再将其数据标准化,得到代表三维结构轮廓滤镜的矩阵;
7)使用Canny算法,将步骤1)输入的当前视频图像进行轮廓提取,得到当前帧的图像纹理二值矩阵;
8)利用步骤6)得到的三维结构轮廓滤镜矩阵及步骤7)得到的图像纹理矩阵,对图像纹理二值矩阵中每一个纹理所在点进行阈值判断,若对应坐标的三维结构轮廓滤镜值小于阈值则过滤该点纹理,否则保留,最后得到该帧的三维结构轮廓矩阵;
9)利用步骤1)中的稀疏深度信息、步骤8)中的三维结构轮廓信息以及上一帧的稀疏深度信息,根据三个约束公式,最小化图像中所有像素点贡献的总代价,得到针对三维结构轮廓优化后的深度图。
步骤1)中输入的稀疏深度点是指以世界坐标表示的三维点坐标,摄像设备内部参数是指小孔成像模型相机的镜头焦距以及光学成像主点坐标。输入视频要求摄像设备运动平缓,感光元件不能只发生旋转而不发生位移变换且输入视频帧已经做过镜头畸变校正。
步骤2)中根据输入的视频数据对相邻的三帧视频进行光流运算,光流数据以光流向量集合方式存储。
步骤3)具体过程为:
3.1)步骤2中得到的前光流场I中点p的光流向量为:Ip(Up,Vp),计算对应的光流场I极坐标Ipp,rp),其中,Up为p点在水平方向上光流向量的分量,Vp为p点在垂直方向上光流向量的分量,计算对应的光流场I极坐标Ipp,rp),其中,θp为极坐标系中的极角,极径
Figure BDA0002560365020000081
3.2)采用下式得到横坐标与纵坐标方向上的r变化量:
Figure BDA0002560365020000082
其中,r为表示光流向量的模,
Figure BDA0002560365020000083
表示r在水平方向上的变化量,
Figure BDA0002560365020000084
表示r在垂直方向上的变化量,rp_right表示p点右方邻接点光流向量极坐标下的极径,rp_down表示p点下方邻接点光流向量极坐标下的极径;
3.3)最终得到前向场的光流梯度幅值矩阵M,矩阵中每一个成员M(p)采用以下方程得到:
Figure BDA0002560365020000085
3.4)对后向光流场执行3.1至3.3过程运算,最终得到前向光流梯度幅值矩阵Mpast与后向光流梯度幅值矩阵Mfuture
步骤4)的具体过程为:
4.1)以前向场置信度计算为例,前向光流场中某点上的光流向量为Ip,沿着该光流向量的两个方向扩展距离d得到点p0和p1,p0为沿着光流向量反方向扩展d距离得到的点,p1为沿着光流向量正方向扩展距离d得到的点,现在获取p0、p1点上的光流向量Ip0与Ip1
4.2)获取p0、p1处的前向光流向量Ip0、Ip1,然后对Ip0、Ip1做关于Ip的投影运算,得到fp0、fp1
4.3)令点p的置信度为rpast,其中rpast=fp1-fp0,进而得到前向场中所有点的置信度,得到置信矩阵Rpast
4.4)对后向光流场重复步骤4.1至4.3得到后向场置信矩阵Rfuture
4.5)设梯度幅值混合矩阵为Mfuse,则该矩阵内各成员Mfuse(p)采用以下方程得到:
步骤5)梯度幅值混合矩阵Mfuse采用以下方程得到:
Figure BDA0002560365020000091
其中,Mpast(p)表示前向光流梯度幅值矩阵中点p的梯度幅值,其中,Rpast(p)表示前向光流场中点p处的光流梯度幅值数据置信度,Rfuture(p)表示后向光流场中点p处的光流梯度幅值数据置信度,Mfuture(p)表示后向光流梯度幅值矩阵中点p的梯度幅值。
步骤6)的三维结构轮廓滤镜具体是指将梯度幅值混合矩阵Mfuse做方框滤波处理再将其中元素标准化至区间[0,1]得到的矩阵。
步骤8)的三维结构轮廓提取具体描述如下:
设三维结构轮廓二值矩阵为C,C(p)=0代表p点不处于三维结构轮廓上,C(p)=1代表p点处于三维结构轮廓上,Canny得到的图像纹理二值矩阵为T,T(p)=0代表p点处无平面纹理上,T(p)=1代表p点处存在平面纹理,三维结构强度响应阈值为dt,对T中所有值为1的点做如下运算得到三维结构轮廓矩阵C:
Figure BDA0002560365020000092
步骤9)的深度信息稠密化具体如下:
9.1)设稠密深度矩阵为D,对当前帧图像使用Sobel算子计算图像梯度,得到图像梯度矩阵MI
9.2)稀疏深度矩阵为Dsparse,深度约束代价为Esparse对应贡献权值为wsparse,构建三个约束,分别为深度约束、平滑度约束和稳定性约束,其中深度约束如下:
Esparse(p)=wsparse|D(p)-Dsparse(p)|2
Figure BDA0002560365020000093
平滑度约束代价为Esmooth对应贡献权值为wsmooth,平滑度约束如下:
Esmooth(p,q)=wsmooth|D(p)-D(q)|2
Figure BDA0002560365020000101
Figure BDA0002560365020000102
平滑度约束代价为Esmooth,代表各点贡献的平滑度代价,对应贡献权值为wsmooth,代表各点根据情况而产生的贡献,Esmooth(p,q)代表p点q点关联下贡献的平滑度代价,若p点q点其中有恰好有一点处于深度轮廓之上,那么不贡献任何代价,此时wsmooth=0,若p点与q点同时处于深度轮廓或非深度轮廓之上,则分别计算p点和q点的中间量sp和sq,计算方式就是各自将两点坐标下对应的三维结构轮廓滤镜值Mfilter(p)和图像纹理梯度数据矩阵值MI(p)相乘,取sq和sp中更小的一个,用1减去其值就得到了wsmooth的值,加上(p)代表对应p点处的数值,加上(q)代表对应q点处的数值;
设前一帧的稀疏深度矩阵为Dpre,稳定性约束代价为Estable,对应贡献权值为wstable,稳定性约束如下:
Estable(p)=wstable|D(p)-Dpre(p)|2
Figure BDA0002560365020000103
设前一帧的三维结构优化深度图为Dpre,稳定性约束代价为Estable,对应贡献权值为wstable,加上(p)代表对应p点处的数值,稳定性约束如下:
Estable(p)=wstable|D(p)-Dpre(p)|2
Figure BDA0002560365020000104
前一帧的稀疏深度矩阵为Dpre,代表每个像素坐标下的稀疏深度信息,若某点无深度信息,则对应的Dpre(p)为0,稳定性约束代价为Estable,代表各点贡献的稳定性约束代价,对应贡献权值为wstable,若对应点的稀疏深度矩阵中没有记录深度信息,则该权值为0,否则为1;
为三个约束设定代价调节参数分别为λsparse、λsmooth、λstable,则根据下式即得出最终输出的三维轮廓优化过的深度图:
Figure BDA0002560365020000105
其中,
Figure BDA0002560365020000111
表示在求解目标矩阵D中找到各个点上最合适的数值,使右侧的公式得到的数值最小化;λsparse为深度约束贡献代价乘以的权值,λsmooth为平滑度约束贡献代价乘以的权值,λstable为稳定性约束代价乘以的权值,N4(p)表示p点4领域内的点。
具体地,本发明实施例如下:
1)输入视频序列帧,生成各帧的三维结构轮廓滤镜。
1.1)输入如图2所示的经过镜头畸变校正的视频序列帧,若某帧为视频开头第一帧或结构最后一帧则不做任何处理,否则将该帧与前一帧做光流运算得到前向光流场,然后将该帧同后一帧进行光流运算得到后向光流场,同时计算各向光流场中每一点光流向量的模;
1.2)对图像坐标区域内的每一个点,分别计算各向光流场对应点的三维轮廓置信度,通过比较同一点上双向场中置信度的大小,选择置信度高的向场对应光流向量的模作为混合场中对应点的数据,得到混合场;
1.3)将混合场进行方框处理,该实施例中方框滤波核大小为5,然后将经过方框滤波的混合场内所有数据标准化至区间[0,1]得到深度轮廓滤镜;
如图3所示,三个截图分别为三个示例帧对应的深度轮廓滤镜可视化效果,像素点越接近黑色表示该点存在轮廓的可能性越高,反之像素点越接近白色则该点存在三维结构轮廓的可能性越低。
2)将视频帧的图像轮廓提取出来,然后对照三维结构轮廓滤镜,若某点为图像轮廓上的点,且对应坐标下的三维结构轮廓滤镜对应的值小于预设的三维结构轮廓阈值,则将该点轮廓信息清除,表示该点不属于三维结构轮廓,否则保留该点轮廓信息,归类为三维结构轮廓,最后得到如图4所示的某帧对应的三维结构轮廓图。
3)基于前一帧的稀疏深度信息、当前帧的稀疏深度信息以及当前帧的三维结构轮廓信息,分别构建稳定性约束、深度约束和平滑度约束并求解二次优化式:
Figure BDA0002560365020000112
求解后如图5,得到了最终的三维结构轮廓优化后的稠密深度信息。

Claims (8)

1.一种针对视频中三维结构轮廓的深度优化方法,其特征在于,包括以下步骤:
1)输入视频序列帧、对应的稀疏深度点以及摄像设备内部参数,将视频序列帧拆分成单独的一系列帧图像数据;
2)利用步骤1)中的帧图像数据对相邻的三帧视频进行光流运算,生成前向光流场和后向光流场;
3)利用步骤2)中生成的前向光流场和后向光流场分别计算对应的光流梯度幅值矩阵,得到双向光流梯度幅值矩阵;
4)将步骤2)的前向光流场、后向光流场以及步骤3)得到的双向光流梯度幅值矩阵,基于三维物体运动特征分别计算前向光流场、后向光流场中每一个像素点的置信度,得到前向场置信度矩阵和后向场置信度矩阵,即双向置信度矩阵;
5)使用步骤3)得到的双向光流梯度幅值矩阵和步骤4)得到的双向置信度矩阵,对比前向场置信度矩阵和后向场置信度矩阵中同一像素坐标的置信度,取置信度高的一向场对应的光流梯度幅值作为融合场的光流梯度幅值,得到梯度幅值混合矩阵;
6)将步骤5)中得到的梯度幅值混合矩阵作方框滤波处理再将其数据标准化,得到代表三维结构轮廓滤镜的矩阵,即为深度轮廓滤镜;
7)使用Canny算法对步骤1)输入的视频序列帧中当前视频图像进行轮廓提取,得到当前帧的图像纹理二值矩阵,即为图像纹理;
8)利用步骤6)得到的深度轮廓滤镜及步骤7)得到的图像纹理,对图像纹理二值矩阵中每一个纹理所在点进行阈值判断,若对应坐标的三维结构轮廓滤镜值小于阈值则过滤该点纹理,否则保留,最后得到该帧的三维结构轮廓;
9)利用步骤1)中的稀疏深度点信息、步骤8)中的三维结构轮廓信息以及上一帧的稠密深度信息,构建三个约束式,使图像中所有点根据约束式贡献的总代价最小化,得到针对三维结构轮廓优化后的深度图。
2.根据权利要求1所述的针对视频中三维结构轮廓的深度优化方法,其特征在于,步骤1)中,所述的摄像设备内部参数是指小孔成像模型相机的镜头焦距以及光学成像主点坐标。
3.根据权利要求1所述的针对视频中三维结构轮廓的深度优化方法,其特征在于,步骤3)中,利用步骤2)中生成的前向光流场和后向光流场分别计算对应的光流梯度幅值矩阵,得到双向光流梯度幅值矩阵,具体包括:
3.1)步骤2)中得到的前向光流场I中点p的光流向量为:Ip(Up,Vp),其中,Up为p点在水平方向上光流向量的分量,Vp为p点在垂直方向上光流向量的分量,计算对应的光流场I极坐标Ipp,rp),其中,θp为极坐标系中的极角,极径
Figure FDA0002560365010000021
3.2)采用下式得到横坐标与纵坐标方向上的r变化量:
Figure FDA0002560365010000022
其中,r为表示光流向量的模,
Figure FDA0002560365010000024
表示r在水平方向上的变化量,
Figure FDA0002560365010000025
表示r在垂直方向上的变化量,rp_right表示p点右方邻接点光流向量极坐标下的极径,rp_down表示p点下方邻接点光流向量极坐标下的极径;
3.3)最终得到前向场的光流梯度幅值矩阵M,矩阵中每一个成员M(p)采用以下方程得到:
Figure FDA0002560365010000023
3.4)用后向光流场替换步骤3.1)中的前向光流场,对后向光流场执行3.1)至3.3)过程运算,最终得到前向光流梯度幅值矩阵Mpast与后向光流梯度幅值矩阵Mfuture
4.根据权利要求1所述的针对视频中三维结构轮廓的深度优化方法,其特征在于,步骤4)具体过程包括:
4.1)以前向场置信度计算为例,前向光流场中某点上的光流向量为Ip,沿着该光流向量的两个方向扩展距离d得到点p0和p1,p0为沿着光流向量反方向扩展d距离得到的点,p1为沿着光流向量正方向扩展距离d得到的点,现在获取p0、p1点上的光流向量Ip0与Ip1
4.2)获取p0、p1处的前向光流向量Ip0、Ip1,然后对Ip0、Ip1做关于Ip的投影运算,得到fp0、fp1
4.3)令点p的置信度为rpast,其中rpast=fp1-fp0,进而得到前向场中所有点的置信度,得到前向置信矩阵Rpast
4.4)用后向光流场替换步骤4.1)中的前向光流场,对后向光流场重复步骤4.1)至4.3)得到后向场置信矩阵Rfuture
5.根据权利要求1所述的针对视频中三维结构轮廓的深度优化方法,其特征在于,步骤5)中,设梯度幅值混合矩阵为Mfuse,则该混合矩阵内各成员Mfuse(p)采用以下方程得到:
梯度幅值混合矩阵Mfuse采用以下方程得到:
Figure FDA0002560365010000031
其中,Mpast(p)表示前向光流梯度幅值矩阵中点p的梯度幅值,其中,Rpast(p)表示前向光流场中点p处的光流梯度幅值数据置信度,Rfuture(p)表示后向光流场中点p处的光流梯度幅值数据置信度,Mfuture(p)表示后向光流梯度幅值矩阵中点p的梯度幅值。
6.根据权利要求1所述的针对视频中三维结构轮廓的深度优化方法,其特征在于,步骤6)中,将步骤5)中得到的梯度幅值混合矩阵作方框滤波处理再将其数据标准化至区间[0,1]得到代表三维结构轮廓滤镜的矩阵Mfilter
7.根据权利要求1所述的针对视频中三维结构轮廓的深度优化方法,其特征在于,步骤8)具体包括:
设三维结构轮廓二值矩阵为C,C(p)=0代表p点不处于三维结构轮廓上,C(p)=1代表p点处于三维结构轮廓上,Canny算法得到的图像纹理二值矩阵为T,T(p)=0代表p点处无平面纹理上,T(p)=1代表p点处存在平面纹理,三维结构强度响应阈值为dt,对T中所有值为1的点做如下运算得到三维结构轮廓矩阵C,即为代表三维结构轮廓滤镜的矩阵:
Figure FDA0002560365010000032
8.根据权利要求1所述的针对视频中三维结构轮廓的深度优化方法,其特征在于,步骤9)具体包括:
9.1)设稠密深度矩阵为D,对当前帧图像使用Sobel算子计算图像梯度,得到图像纹理梯度数据矩阵MI
9.2)稀疏深度矩阵为Dsparse,深度约束代价为Esparse对应贡献权值为wsparse,深度约束如下:
Esparse(p)=wsparse|D(p)-Dsparse(p)|2
Figure FDA0002560365010000041
稀疏深度矩阵为Dsparse记录了各点稀疏深度值,深度约束代价为Esparse,代表所有点各自贡献的深度约束代价值,对应贡献权值为wsparse代表各点根据情况而产生的贡献条件,加上(p)代表对应p点处的数值;
平滑度约束代价为Esmooth对应贡献权值为wsmooth,平滑度约束如下:
Esmooth(p,q)=wsmooth|D(p)-D(q)|2
Figure FDA0002560365010000042
Figure FDA0002560365010000043
平滑度约束代价为Esmooth,代表各点贡献的平滑度代价,对应贡献权值为wsmooth,代表各点根据情况而产生的贡献,Esmooth(p,q)代表p点q点关联下贡献的平滑度代价,若p点q点其中有恰好有一点处于深度轮廓之上,那么不贡献任何代价,此时wsmooth=0,若p点与q点同时处于深度轮廓或非深度轮廓之上,则分别计算p点和q点的中间量sp和sq,计算方式就是各自将两点坐标下对应的三维结构轮廓滤镜值Mfilter(p)和图像纹理梯度数据矩阵值MI(p)相乘,取sq和sp中更小的一个,用1减去其值就得到了wsmooth的值,加上(p)代表对应p点处的数值,加上(q)代表对应q点处的数值;
设前一帧的稀疏深度矩阵为Dpre,稳定性约束代价为Estable,对应贡献权值为wstable,加上(p)代表对应p点处的数值,稳定性约束如下:
Estable(p)=wstable|D(p)-Dpre(p)|2
Figure FDA0002560365010000044
前一帧的稀疏深度矩阵为Dpre,代表每个像素坐标下的稀疏深度信息,若某点无深度信息,则对应的Dpre(p)为0,稳定性约束代价为Estable,代表各点贡献的稳定性约束代价,对应贡献权值为wstable,若对应点的稀疏深度矩阵中没有记录深度信息,则该权值为0,否则为1;
为三个约束设定代价调节参数分别为λsparse、λsmooth、λstable,则根据下式即得出最终输出的三维轮廓优化过的深度图:
Figure FDA0002560365010000051
其中,
Figure FDA0002560365010000052
表示在求解目标矩阵D中找到各个点上最合适的数值,使右侧的公式得到的数值最小化;λsparse为深度约束贡献代价乘以的权值,λsmooth为平滑度约束贡献代价乘以的权值,λstable为稳定性约束代价乘以的权值,N4(p)表示p点4领域内的点。
CN202010609325.5A 2020-06-29 2020-06-29 一种针对视频中三维结构轮廓的深度优化方法 Active CN111915735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010609325.5A CN111915735B (zh) 2020-06-29 2020-06-29 一种针对视频中三维结构轮廓的深度优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010609325.5A CN111915735B (zh) 2020-06-29 2020-06-29 一种针对视频中三维结构轮廓的深度优化方法

Publications (2)

Publication Number Publication Date
CN111915735A true CN111915735A (zh) 2020-11-10
CN111915735B CN111915735B (zh) 2023-08-22

Family

ID=73226245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010609325.5A Active CN111915735B (zh) 2020-06-29 2020-06-29 一种针对视频中三维结构轮廓的深度优化方法

Country Status (1)

Country Link
CN (1) CN111915735B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819945A (zh) * 2021-01-26 2021-05-18 北京航空航天大学 一种基于稀疏视点视频的流体重建方法
CN113570546A (zh) * 2021-06-16 2021-10-29 北京农业信息技术研究中心 一种风机运行状态检测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101765022A (zh) * 2010-01-22 2010-06-30 浙江大学 一种基于光流与图像分割的深度表示方法
CN105225230A (zh) * 2015-09-11 2016-01-06 浙江宇视科技有限公司 一种识别前景目标对象的方法及装置
US9369689B1 (en) * 2015-02-24 2016-06-14 HypeVR Lidar stereo fusion live action 3D model video reconstruction for six degrees of freedom 360° volumetric virtual reality video
KR101881295B1 (ko) * 2017-12-11 2018-07-24 (주)진명아이앤씨 증강현실을 이용한 레이어 믹서 기반의 비디오 시스템
CN110659385A (zh) * 2019-09-12 2020-01-07 中国测绘科学研究院 一种多路视频与三维gis场景的融合方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101765022A (zh) * 2010-01-22 2010-06-30 浙江大学 一种基于光流与图像分割的深度表示方法
US9369689B1 (en) * 2015-02-24 2016-06-14 HypeVR Lidar stereo fusion live action 3D model video reconstruction for six degrees of freedom 360° volumetric virtual reality video
CN105225230A (zh) * 2015-09-11 2016-01-06 浙江宇视科技有限公司 一种识别前景目标对象的方法及装置
KR101881295B1 (ko) * 2017-12-11 2018-07-24 (주)진명아이앤씨 증강현실을 이용한 레이어 믹서 기반의 비디오 시스템
CN110659385A (zh) * 2019-09-12 2020-01-07 中国测绘科学研究院 一种多路视频与三维gis场景的融合方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHENGXI YE ET AL.: "Unsupervised Learning of Dense Optical Flow,Deth and Egomotion from Sprse Event Data", 《ARXIV》, pages 1 - 9 *
雷禧生;肖昌炎;蒋仕龙;: "基于TOF相机的喷涂工件在线三维重建", 电子测量与仪器学报, no. 12, pages 116 - 123 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819945A (zh) * 2021-01-26 2021-05-18 北京航空航天大学 一种基于稀疏视点视频的流体重建方法
CN112819945B (zh) * 2021-01-26 2022-10-04 北京航空航天大学 一种基于稀疏视点视频的流体重建方法
CN113570546A (zh) * 2021-06-16 2021-10-29 北京农业信息技术研究中心 一种风机运行状态检测方法及装置
CN113570546B (zh) * 2021-06-16 2023-12-05 北京农业信息技术研究中心 一种风机运行状态检测方法及装置

Also Published As

Publication number Publication date
CN111915735B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
Liu et al. Point cloud quality assessment: Dataset construction and learning-based no-reference metric
Lopez et al. Deep single image camera calibration with radial distortion
CN110363116B (zh) 基于gld-gan的不规则人脸矫正方法、系统及介质
CN112766160B (zh) 基于多级属性编码器和注意力机制的人脸替换方法
WO2021174939A1 (zh) 人脸图像的获取方法与系统
CN107818554B (zh) 信息处理设备和信息处理方法
Hu et al. Single-image real-time rain removal based on depth-guided non-local features
CN108492262A (zh) 一种基于梯度结构相似性的无鬼影高动态范围成像方法
WO2018053952A1 (zh) 一种基于场景样本库的影视图像深度提取方法
Ruan et al. Aifnet: All-in-focus image restoration network using a light field-based dataset
CN110276831B (zh) 三维模型的建构方法和装置、设备、计算机可读存储介质
CN110610486A (zh) 单目图像深度估计方法及装置
CN111652864A (zh) 一种基于条件式生成对抗网络的铸件缺陷图像生成方法
CN111915735A (zh) 一种针对视频中三维结构轮廓的深度优化方法
CN112712487A (zh) 一种场景视频融合方法、系统、电子设备及存储介质
Zhang et al. A light dual-task neural network for haze removal
Tan et al. High dynamic range imaging for dynamic scenes with large-scale motions and severe saturation
CN115205463A (zh) 基于多球面场景表达的新视角图像生成方法、装置和设备
Hovhannisyan et al. AED-Net: A single image dehazing
CN113065506B (zh) 一种人体姿态识别方法及系统
Zheng et al. Overwater image dehazing via cycle-consistent generative adversarial network
CN114332355A (zh) 一种基于深度学习的弱光多视图几何重建方法
CN111881925B (zh) 一种基于相机阵列选择性光场重聚焦的显著性检测方法
CN110378995A (zh) 一种利用投射特征进行三维空间建模的方法
Zhang et al. Video extrapolation in space and time

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant