CN105100771A - 一种基于场景分类和几何标注的单视点视频深度获取方法 - Google Patents

一种基于场景分类和几何标注的单视点视频深度获取方法 Download PDF

Info

Publication number
CN105100771A
CN105100771A CN201510413367.0A CN201510413367A CN105100771A CN 105100771 A CN105100771 A CN 105100771A CN 201510413367 A CN201510413367 A CN 201510413367A CN 105100771 A CN105100771 A CN 105100771A
Authority
CN
China
Prior art keywords
frame image
current frame
motion
scene
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510413367.0A
Other languages
English (en)
Inventor
江铭炎
徐慧慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201510413367.0A priority Critical patent/CN105100771A/zh
Publication of CN105100771A publication Critical patent/CN105100771A/zh
Pending legal-status Critical Current

Links

Abstract

本发明涉及一种基于场景分类和几何标注的单视点视频深度获取方法,具体步骤包括:(1)判断当前帧图像属于相机静止物体运动场景还是属于相机运动场景;(2)判断是否需要估计当前帧图像的初始深度图;(3)求出当前帧图像的初始深度图;(4)对于相机静止物体运动场景,得到当前帧图像的运动深度图,与初始深度图融合。对于相机运动场景,进行全局运动补偿,利用光流法对全局运动补偿后相邻帧图像进行运动估计,判断是否存在运动物体,确定是否与初始深度图进行融合。本发明不依赖具体的场景,计算量适中,生成噪声小且更加符合实际的场景分布的深度图,合成效果较好的3D视频。

Description

一种基于场景分类和几何标注的单视点视频深度获取方法
技术领域
本发明涉及一种基于场景分类和几何标注的单视点视频深度获取方法,属于计算机图像处理技术领域。
背景技术
目前立体图像技术应用范围很广,分布在科研、军事、教育和医疗各个领域。相比于2D图像,立体图像带给我们更逼真更震撼的视觉享受。目前3D片源的获取主要有几种方式:深度摄像机、2D转3D技术。但是,深度摄像机非常昂贵,并且只能得到新拍摄视频的3D内容,在3DTV系统中不实用,解决这个问题的一种有效的途径就是2D转3D技术,因为目前存在大量的2D视频,2D转3D技术有非常好的发展前景。2D转3D技术是指将普通的2D图像,通过图像或图像之间的相关信息,获得3D左右眼的深度图像。原图像和深度图像通过基于深度图的虚拟绘制技术(DIBR)生成左视图图像和右视图图像,因为人眼存在的视差,当左视图和右视图分别进入到人的左右眼时,便生成了立体图像。
2D视频场景根据场景中目标和相机运动情况不同可分成四种情况:相机运动、物体静止,相机静止、物体运动,相机静止、物体静止,相机运动、物体运动。对于这些场景可以采用运动、聚焦、散焦、线性透视、大气透视、纹理信息等深度线索或深度线索的结合得到对应的深度图,但是,这些方法有的只是适用于某一种场景,当场景变换时,该方法便不再适用。
发明内容
针对现有技术的不足,本发明公开了一种基于场景分类和几何标注的单视点视频深度获取方法;
本发明针对相机静止物体运动、相机运动物体静止和相机运动物体运动这三种情况下的视频都能得到对应的深度图像,将现有的2D视频转换成立体视频。
本发明得到能适应多种场景变换,精度较高并且计算量适中的深度图像,从而进一步生成质量较好的3D视频。
本发明的技术方案为:
术语解释
1、光流法,是一种简单实用的图像运动的表达方式,通常定义为一个图像序列中的图像亮度模式的表观运动,即空间物体表面上的点的运动速度在视觉传感器的成像平面上的表达;
2、全局运动补偿,为了弥补由于摄像机移动造成的背景全局性的运动对图像中运动目标检测造成的影响,常采用基于全局运动补偿思想的检测方法。该方法的思路是先对由摄像机移动引起的背景运动进行运动补偿,使得补偿后的图像序列可以近似认为是静态背景图像序列,然后再利用静态背景中运动目标的检测方法进行检测。
3、深度图,场景中各点相对于摄像机的距离可以用深度图来表示,即深度图中每一个像素值表示场景中某一点到摄像机的距离。深度图中像素的值越大,场景中的物体离摄像机越近,像素值越小,场景中的物体离摄像机越远。
一种基于场景分类和几何标注的单视点视频深度获取方法,具体步骤包括:
(1)读取视频序列,采用光流法对视频序列中相邻帧图像进行运动估计,得到光流运动矢量结果,根据光流运动矢量结果判断当前帧图像属于相机静止物体运动场景还是属于相机运动场景,所述相机运动场景包括相机运动物体静止场景和相机运动物体运动场景;
(2)判断是否需要估计当前帧图像的初始深度图,如果需要,进入步骤(3),否则,当前帧图像的初始深度图默认为当前帧图像的前一帧图像的初始深度图,直接进入步骤(4);
(3)根据当前帧图像的几何标注结果求出当前帧图像的初始深度图;
(4)如果当前帧图像属于相机静止物体运动场景,采用光流法得到当前帧图像的运动深度图,与当前帧图像的初始深度图融合;如果当前帧图像属于相机运动场景,首先进行全局运动补偿,然后利用光流法对全局运动补偿后的相邻帧图像进行运动估计,得到运动估计量级图,根据运动估计量级图中非零像素所占的比例来判断场景中是否存在运动物体,如果存在运动物体,将全局运动补偿后的运动估计量级图线性变换得到的运动深度图,运动深度图与初始深度图融合得到最终深度图,如果不存在运动物体,将全局运动补偿前的运动估计量图线性变换得到的运动深度图作为最终深度图。
根据本发明优选的,所述步骤(1)中,读取视频序列,采用光流法对视频序列中相邻帧图像进行运动估计,得到光流运动矢量结果,根据光流运动矢量结果判断当前帧图像属于相机静止物体运动场景还是属于相机运动场景;具体步骤包括:
a、读取视频序列,获取所有的图像,求相邻帧图像之间的光流运动矢量结果,然后将当前帧图像的前(N-1)帧图像的光流运动矢量结果聚集,在原像素(x,y)处当前帧图像的光流运动矢量结果MVS(x,y)的计算公式如式(Ⅰ)所示:原像素(x,y)在第(l-1)个光流运动后的坐标(xl,yl)的计算公式如式(Ⅱ)所示;
M V S ( x , y ) = Σ l = 1 N = 1 M V ( x l , y l ) - - - ( I )
( x l , y l ) = R o u n d { ( x , y ) + Σ q = 1 l - 1 M V ( x q , y q ) } - - - ( I I )
式(Ⅰ)中,MV()表示相邻帧图像之间的光流运动矢量结果,N表示连续的帧图像数,N帧图像共发生(N-1)次光流运动;l=1,2,...,(N-1),分别表示第1,2,...,(N-1)个光流运动,(xl,yl)表示的是原像素(x,y)在第(l-1)个光流运动后的坐标;
式(Ⅱ)中,Round{}算子是对光流运动矢量结果的所有元素取整,q=1,2,...,(l-1),分别表示的是第1,2,...,(l-1)个光流运动,(xq,yq)表示原像素(x,y)在第(q-1)个光流运动后的坐标;
b、根据步骤a求取的当前帧图像的光流运动矢量结果的水平运动分量MVSu和垂直运动分量MVSv计算出运动累积量级图Mcum_motion,计算公式如式(Ⅲ)所示:
M c u m _ m o t i o n = MVS u 2 + MVS v 2 - - - ( I I I )
设定阈值Thweight,2≤Thweight≤10,统计运动累积量级图中大于阈值Thweight的像素的数目N',N'在所有像素中所占的百分比作为当前帧图像运动区域的权值Wm,计算公式如式(Ⅳ)所示:
W m = N ′ H × W - - - ( I V )
式(Ⅳ)中,H和W分别为当前帧图像的高和宽;
c、设定相机运动阈值Thcamera_motion,0.6≤Thcamera_motion≤0.85,根据步骤b求取的当前帧图像运动区域的权值Wm与相机运动阈值Thcamera_motion的关系判断当前帧图像是局部运动还是全局运动,如果当前帧图像运动区域的权值Wm小于相机运动阈值Thcamera_motion,则当前帧图像是局部运动,即当前帧图像属于相机静止物体运动场景,否则,当前帧图像是全局运动,即当前帧图像属于相机运动场景。
根据本发明优选的,所述阈值Thweight=5。
根据本发明优选的,所述相机运动阈值Thcamera_motion=0.8。
根据本发明优选的,所述步骤(2)中,判断是否需要估计当前帧图像的初始深度图,具体步骤包括:如果当前帧图像是局部运动,即当前帧图像属于相机静止物体运动场景,根据步骤(1)判断当前帧图像的前一帧图像是否为局部运动,如果当前帧图像的前一帧图像是局部运动,当前帧图像的初始深度图默认为当前帧图像的前一帧图像的初始深度图,不需要估计当前帧图像的初始深度图;如果当前帧图像的前一帧图像不是局部运动,则需要求当前帧图像的初始深度图;如果当前帧图像是全局运动,则需要求出当前帧图像的初始深度图。
根据本发明优选的,步骤(3)中,根据当前帧图像的几何标注结果求出当前帧图像的初始深度图,所述几何标注结果包括天空、水平区域和垂直区域,所述水平区域是指具有水平属性的区域,例如陆地、草坪、海面;所述垂直区域是指具有垂直属性的区域,例如树、高楼、山;具体步骤包括:(i,j)为当前帧图像任一像素,如果(i,j)属于天空,则当前帧图像的像素(i,j)的初始深度图Dinitial_scene值为零,如果(i,j)属于水平区域,则当前帧图像的像素(i,j)的初始深度图Dinitial_scene值为如果(i,j)属于垂直区域,则当前帧图像的像素(i,j)的初始深度图Dinitial_scene值为max(j)ver表示垂直区域中第j列中最大的行值。
根据本发明优选的,步骤(4)中,如果当前帧图像属于相机静止物体运动场景,采用光流法得到当前帧图像的运动深度图,与当前帧图像的初始深度图融合;具体步骤包括:如果当前帧图像是局部运动,即当前帧图像属于相机静止物体运动场景,根据光流法得到当前帧图像的光流运动量级图Mflow(MVu,MVv)为当前帧图像的光流运动矢量结果,对当前帧图像的光流运动量级图Mflow进行线性变换得到当前帧图像的运动深度图Dlocal_motion,变换公式如式(Ⅴ)所示:
D l o c a l _ m o t i o n = 255 M f l o w max - M f l o w min ( M f l o w - M f l o w min ) - - - ( V )
式(Ⅴ)中,Mflowmax、Mflowmin分别是指当前帧图像的光流运动量级图Mflow中像素值的最大值和最小值;
将当前帧图像的运动深度图Dlocal_motion与步骤(3)得到的初始深度图融合得到当前帧图像的最终深度图Dlocal,结合公式如式(Ⅵ)所示:
Dlocal=wlocal·Dinitial_scene+(1-wlocal)·Dlocal_motion(Ⅵ)
式(Ⅵ)中,wlocal是深度图融合的权值,wlocal=0.5。
根据本发明优选的,所述步骤(4)中,如果当前帧图像属于相机运动场景,首先进行全局运动补偿,然后利用光流法对全局运动补偿后的相邻帧图像进行运动估计,得到运动估计量级图,根据运动估计量级图中非零像素所占的比例来判断场景中是否存在运动物体,如果存在运动物体,将全局运动补偿后的运动估计量级图线性变换得到的运动深度图,运动深度图与初始深度图融合得到最终深度图,如果不存在运动物体,将全局运动补偿前的运动估计量图线性变换得到的运动深度图作为最终深度图,具体步骤包括:
d、如果当前帧图像属于相机运动场景,进行全局运动补偿,校正相机的运动,对当前帧图像的后一帧图像进行校准后得到变形后的图像;
e、采用光流法计算当前帧图像及步骤d得到的变形后的图像的光流运动量级图Mflow_warp,统计光流运动量级图中所有的运动像素,得到非零像素的数目Nflow_warp,得到变形运动权值Wmotion_warp,变形公式如式(Ⅶ)所示:
W m o t i o n _ w a r p = N f l o w _ w a r p H × W - - - ( V I I )
式(Ⅶ)中,H、W分别是当前帧图像的高和宽;
设定阈值Thscenetype,0.15≤Thscenetype≤0.25,如果通过式(Ⅶ)求取的变形运动权值Wmotion_warp权值小于阈值Thscenetype,则场景中不存在运动物体,进入步骤f,结束;否则,场景中存在运动物体,进入步骤g;
f、对全局运动补偿前当前帧图像的光流运动量级图Mflow进行线性变换,得到当前帧图像的最终深度图Dglobal
D g l o b a l = D g l o b a l _ s t a t i c = 255 M f l o w _ max - M f l o w _ min ( M f l o w - M f l o w _ min ) - - - ( V I I I )
式(Ⅷ)中,Mflow_max、Mflow_min分别指的是光流运动量级图Mflow中像素值的最大值和最小值。
如果场景中不存在运动物体,那么相机运动引起的运动视差可以恢复出图像的密集深度图。
g、首先求出全局运动补偿后当前帧图像的运动深度图Dglobal_dynamic,当前帧图像的运动深度图与光流运动量级图Mflow_warp之间存在着线性映射关系,全局运动补偿后当前帧图像的运动深度图Dglobal_dynamic的计算公式如式(Ⅸ)所示:
D g l o b a l _ d y n a m i c = 255 M f l o w _ w a r p max - M f l o w _ w a r p min ( M f l o w _ w a r p - M f l o w _ w a r p min ) - - - ( I X )
式(Ⅸ)中,Mflow_warpmax、Mflow_warpmin分别指的是全局运动补偿后的光流运动量级图Mflow_warp中像素值的最大值和最小值;
h、将步骤g得到的全局运动补偿后当前帧图像的运动深度图Dglobal_static与步骤(3)得到的当前帧图像的初始深度图融合,得到当前帧图像的最终深度图Dglobal:计算公式如式(Ⅹ)所示:
Dglobal=wglobal·Dinitial_scene+(1-wglobal)·Dglobal_dynamic(Ⅹ)。
式(Ⅹ)中,wglobal指的是深度图融合的权值,wglobal=0.5。
根据本发明优选的,所述阈值Thscenetype=0.2。
本发明的有益效果为:
本发明提供了一种全面且有效的方法,能将现有的2D视频片源转换成立体视频,利用当前帧图像的运动属性进行场景的判断,不同的场景采用不同的深度估计方法,不依赖具体的场景,计算量适中,同时结合图像的几何标注生成场景深度,更加符合实际的场景分布,可以生成效果好噪声小的深度图,从而合成效果较好的3D视频。
附图说明
图1是本发明所述的基于场景分类和几何标注的单视点视频深度获取方法的流程图;
图2是本发明实施例2所述的highway视频的截图;
图3是图2对应的运动深度图;
图4是图2对应的最终深度图。
具体实施方法
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于场景分类和几何标注的单视点视频深度获取方法,具体步骤包括:
(1)读取视频序列,采用光流法对视频序列中相邻帧图像进行运动估计,得到光流运动矢量结果,根据光流运动矢量结果判断当前帧图像属于相机静止物体运动场景还是属于相机运动场景,所述相机运动场景包括相机运动物体静止场景和相机运动物体运动场景;
(2)判断是否需要估计当前帧图像的初始深度图,如果需要,进入步骤(3),否则,当前帧图像的初始深度图默认为当前帧图像的前一帧图像的初始深度图,直接进入步骤(4);
(3)根据当前帧图像的几何标注结果求出当前帧图像的初始深度图;
(4)如果当前帧图像属于相机静止物体运动场景,采用光流法得到当前帧图像的运动深度图,与当前帧图像的初始深度图融合;如果当前帧图像属于相机运动场景,首先进行全局运动补偿,然后利用光流法对全局运动补偿后的相邻帧图像进行运动估计,得到运动估计量级图,根据运动估计量级图中非零像素所占的比例来判断场景中是否存在运动物体,如果存在运动物体,将全局运动补偿后的运动估计量级图线性变换得到的运动深度图,运动深度图与初始深度图融合得到最终深度图,如果不存在运动物体,将全局运动补偿前的运动估计量图线性变换得到的运动深度图作为最终深度图。
实施例2
一种基于场景分类和几何标注的单视点视频深度获取方法,具体步骤包括:
(1)读取ChangeDetection网站下载的highway视频,采用光流法对视频序列中相邻帧图像进行运动估计,得到光流运动矢量结果,根据光流运动矢量结果判断第8帧图像属于相机静止物体运动场景还是属于相机运动场景,所述相机运动场景包括相机运动物体静止场景和相机运动物体运动场景;具体步骤包括:
a、读取highway视频,图2为highway视频的截图。获取所有的图像,求相邻帧图像之间的光流运动矢量结果,然后将第8帧图像的前7帧图像的光流运动矢量结果聚集,在原像素(x,y)处第8帧图像的光流运动矢量结果MVS(x,y)的计算公式如式(Ⅰ)所示:原像素(x,y)在第l-1个光流运动后的坐标(xl,yl)的计算公式如式(Ⅱ)所示;
M V S ( x , y ) = Σ l = 1 N - 1 M V ( x l , y l ) - - - ( I )
( x l , y l ) = R o u n d { ( x , y ) + Σ q = 1 l = 1 M V ( x q , y q ) } - - - ( I I )
式(Ⅰ)中,MV()表示相邻帧图像之间的光流运动矢量结果,N表示连续的帧图像数,8帧图像共发生7次光流运动;l=1,2,...,7,分别表示第1,2...,7个光流运动,(xl,yl)表示的是原像素(x,y)在第7个光流运动后的坐标;
式(Ⅱ)中,Round{}算子是对光流运动矢量结果的所有元素取整,q=1,2,...,7,分别表示的是第1,2...,7个光流运动,(xq,yq)表示原像素(x,y)在第7个光流运动后的坐标;
b、根据步骤a求取的第8帧图像光流运动矢量结果的水平运动分量MVSu和垂直运动分量MVSv计算出运动累积量级图Mcum_motion,计算公式如式(Ⅲ)所示:
M c u m _ m o t i o n = MVS u 2 + MVS v 2 - - - ( I I I )
设定阈值Thweight=5,统计运动累积量级图中大于阈值Thweight的像素的数目N',N'在所有像素中所占的百分比作为第8帧图像运动区域的权值Wm,计算公式如式(Ⅳ)所示:
W m = N ′ H × W - - - ( I V )
式(Ⅳ)中,H和W分别为第8帧图像的高和宽;
c、设定相机运动阈值Thcamera_motion=0.8,根据步骤b求取的第8帧图像运动区域的权值Wm与相机运动阈值Thcamera_motion的关系判断第8帧图像是局部运动还是全局运动,第8帧图像运动区域的权值Wm小于相机运动阈值Thcamera_motion,则第8帧图像是局部运动,即第8帧图像属于相机静止物体运动场景。
(2)判断是否需要估计当前帧图像的初始深度图,如果需要,进入步骤(3),否则,直接进入步骤(4);是否需要估计第8帧图像的初始深度图,具体步骤包括:第8帧图像是局部运动,即第8帧图像属于相机静止物体运动场景,根据步骤(1)判断第8帧图像的前一帧图像不是局部运动,则需要求第8帧图像的初始深度图;
(3)根据第8帧图像的几何标注结果求出第8帧图像的初始深度图;所述几何标注结果包括天空、水平区域和垂直区域,所述水平区域是指具有水平属性的区域,例如陆地、草坪、海面;所述垂直区域是指具有垂直属性的区域,例如树、高楼、山;具体步骤包括:(i,j)为第8帧图像任一像素,如果(i,j)属于天空,则第8帧图像的像素(i,j)的初始深度图Dinitial_scene值为零,如果(i,j)属于水平区域,则第8帧图像的像素(i,j)的初始深度图Dinitial_scene值为如果(i,j)属于垂直区域,则第8帧图像的像素(i,j)的初始深度图Dinitial_scene值为max(j)ver表示垂直区域中第j列中最大的行值。
(4)当前帧图像属于相机静止物体运动场景,采用光流法得到第8帧图像的运动深度图,与步骤(3)得到的第8帧图像的初始深度图融合;具体步骤包括:第8帧图像是局部运动,即第8帧图像属于相机静止物体运动场景,根据光流法得到第8帧图像的光流运动量级图Mflow(MVu,MVv)为第8帧图像的光流运动矢量结果,对第8帧图像的光流运动量级图Mflow进行线性变换得到第8帧图像的运动深度图Dlocal_motion,图3即图2对应的运动深度图;变换公式如式(Ⅴ)所示:
D l o c a l _ m o t i o n = 255 M f l o w max - M f l o w min ( M f l o w - M f l o w min ) - - - ( V )
式(Ⅴ)中,Mflowmax、Mflowmin分别是指第8帧图像的光流运动量级图Mflow中像素值的最大值和最小值;
将第8帧图像的运动深度图Dlocal_motion与步骤(3)得到的初始深度图融合得到第8帧图像的最终深度图Dlocal,结合公式如式(Ⅵ)所示:
Dlocal=wlocal·Dinitial_scene+(1-wlocal)·Dlocal_motion(Ⅵ)
式(Ⅵ)中,wlocal是深度图融合的权值,wlocal=0.5。
图4即为图2对应的最终深度图。

Claims (9)

1.一种基于场景分类和几何标注的单视点视频深度获取方法,其特征在于,具体步骤包括:
(1)读取视频序列,采用光流法对视频序列中相邻帧图像进行运动估计,得到光流运动矢量结果,根据光流运动矢量结果判断当前帧图像属于相机静止物体运动场景还是属于相机运动场景,所述相机运动场景包括相机运动物体静止场景和相机运动物体运动场景;
(2)判断是否需要估计当前帧图像的初始深度图,如果需要,进入步骤(3),否则,当前帧图像的初始深度图默认为当前帧图像的前一帧图像的初始深度图,直接进入步骤(4);
(3)根据当前帧图像的几何标注结果求出当前帧图像的初始深度图;
(4)如果当前帧图像属于相机静止物体运动场景,采用光流法得到当前帧图像的运动深度图,与当前帧图像的初始深度图融合;如果当前帧图像属于相机运动场景,首先进行全局运动补偿,然后利用光流法对全局运动补偿后的相邻帧图像进行运动估计,得到运动估计量级图,根据运动估计量级图中非零像素所占的比例来判断场景中是否存在运动物体,如果存在运动物体,将全局运动补偿后的运动估计量级图线性变换得到的运动深度图,运动深度图与初始深度图融合得到最终深度图,如果不存在运动物体,将全局运动补偿前的运动估计量图线性变换得到的运动深度图作为最终深度图。
2.根据权利要求1所述的一种基于场景分类和几何标注的单视点视频深度获取方法,其特征在于,所述步骤(1)中,读取视频序列,采用光流法对视频序列中相邻帧图像进行运动估计,得到光流运动矢量结果,根据光流运动矢量结果判断当前帧图像属于相机静止物体运动场景还是属于相机运动场景;具体步骤包括:
a、读取视频序列,获取所有的图像,求相邻帧图像之间的光流运动矢量结果,然后将当前帧图像的前(N-1)帧图像的光流运动矢量结果聚集,在原像素(x,y)处当前帧图像的光流运动矢量结果MVS(x,y)的计算公式如式(Ⅰ)所示:原像素(x,y)在第(l-1)个光流运动后的坐标(xl,yl)的计算公式如式(Ⅱ)所示;
M V S ( x , y ) = Σ l = 1 N - 1 M V ( x l , y l ) - - - ( I )
( x l , y l ) = R o u n d { ( x , y ) + Σ q = 1 l - 1 M V ( x q , y q ) } - - - ( I I )
式(Ⅰ)中,MV()表示相邻帧图像之间的光流运动矢量结果,N表示连续的帧图像数,N帧图像共发生(N-1)次光流运动;l=1,2,...,(N-1),分别表示第1,2,...,(N-1)个光流运动,(xl,yl)表示的是原像素(x,y)在第(l-1)个光流运动后的坐标;
式(Ⅱ)中,Round{}算子是对光流运动矢量结果的所有元素取整,q=1,2,...,(l-1),分别表示的是第1,2,...,(l-1)个光流运动,(xq,yq)表示原像素(x,y)在第(q-1)个光流运动后的坐标;
b、根据步骤a求取的当前帧图像的光流运动矢量结果的水平运动分量MVSu和垂直运动分量MVSv计算出运动累积量级图Mcum_motion,计算公式如式(Ⅲ)所示:
M c u m _ m o t i o n = MVS u 2 + MVS v 2 - - - ( I I I )
设定阈值Thweight,2≤Thweight≤10,统计运动累积量级图中大于阈值Thweight的像素的数目N',N'在所有像素中所占的百分比作为当前帧图像运动区域的权值Wm,计算公式如式(Ⅳ)所示:
W m = N ′ H × W - - - ( I V )
式(Ⅳ)中,H和W分别为当前帧图像的高和宽;
c、设定相机运动阈值Thcamera_motion,0.6≤Thcamera_motion≤0.85,根据步骤b求取的当前帧图像运动区域的权值Wm与相机运动阈值Thcamera_motion的关系判断当前帧图像是局部运动还是全局运动,如果当前帧图像运动区域的权值Wm小于相机运动阈值Thcamera_motion,则当前帧图像是局部运动,即当前帧图像属于相机静止物体运动场景,否则,当前帧图像是全局运动,即当前帧图像属于相机运动场景。
3.根据权利要求2所述的一种基于场景分类和几何标注的单视点视频深度获取方法,其特征在于,所述阈值Thweight=5。
4.根据权利要求2所述的一种基于场景分类和几何标注的单视点视频深度获取方法,其特征在于,所述相机运动阈值Thcamera_motion=0.8。
5.根据权利要求1所述的一种基于场景分类和几何标注的单视点视频深度获取方法,其特征在于,所述步骤(2)中,判断是否需要估计当前帧图像的初始深度图,具体步骤包括:如果当前帧图像是局部运动,即当前帧图像属于相机静止物体运动场景,根据步骤(1)判断当前帧图像的前一帧图像是否为局部运动,如果当前帧图像的前一帧图像是局部运动,当前帧图像的初始深度图默认为当前帧图像的前一帧图像的初始深度图,不需要估计当前帧图像的初始深度图;如果当前帧图像的前一帧图像不是局部运动,则需要求当前帧图像的初始深度图;如果当前帧图像是全局运动,则需要求出当前帧图像的初始深度图。
6.根据权利要求1所述的一种基于场景分类和几何标注的单视点视频深度获取方法,其特征在于,步骤(3)中,根据当前帧图像的几何标注结果求出当前帧图像的初始深度图,所述几何标注结果包括天空、水平区域和垂直区域,所述水平区域是指具有水平属性的区域;所述垂直区域是指具有垂直属性的区域;具体步骤包括:(i,j)为当前帧图像任一像素,如果(i,j)属于天空,则当前帧图像的像素(i,j)的初始深度图Dinitial_scene值为零,如果(i,j)属于水平区域,则当前帧图像的像素(i,j)的初始深度图Dinitial_scene值为如果(i,j)属于垂直区域,则当前帧图像的像素(i,j)的初始深度图Dinitial_scene值为max(j)ver表示垂直区域中第j列中最大的行值。
7.根据权利要求1所述的一种基于场景分类和几何标注的单视点视频深度获取方法,其特征在于,步骤(4)中,如果当前帧图像属于相机静止物体运动场景,采用光流法得到当前帧图像的运动深度图,与当前帧图像的初始深度图融合;具体步骤包括:如果当前帧图像是局部运动,即当前帧图像属于相机静止物体运动场景,根据光流法得到当前帧图像的光流运动量级图Mflow(MVu,MVv)为当前帧图像的光流运动矢量结果,对当前帧图像的光流运动量级图Mflow进行线性变换得到当前帧图像的运动深度图Dlocal_motion,变换公式如式(Ⅴ)所示:
D l o c a l _ m o t i o n = 255 M f l o w max - M f l o w min ( M f l o w - M f l o w min ) - - - ( V )
式(Ⅴ)中,Mflowmax、Mflowmin分别是指当前帧图像的光流运动量级图Mflow中像素值的最大值和最小值;
将当前帧图像的运动深度图Dlocal_motion与步骤(3)得到的初始深度图融合得到当前帧图像的最终深度图Dlocal,结合公式如式(Ⅵ)所示:
Dlocal=wlocal·Dinitial_scene+(1-wlocal)·Dlocal_motion(Ⅵ)
式(Ⅵ)中,wlocal是深度图融合的权值,wlocal=0.5。
8.根据权利要求1所述的一种基于场景分类和几何标注的单视点视频深度获取方法,其特征在于,所述步骤(4)中,如果当前帧图像属于相机运动场景,首先进行全局运动补偿,然后利用光流法对全局运动补偿后的相邻帧图像进行运动估计,得到运动估计量级图,根据运动估计量级图中非零像素所占的比例来判断场景中是否存在运动物体,如果存在运动物体,将全局运动补偿后的运动估计量级图线性变换得到的运动深度图,运动深度图与初始深度图融合得到最终深度图,如果不存在运动物体,将全局运动补偿前的运动估计量图线性变换得到的运动深度图作为最终深度图,具体步骤包括:
d、如果当前帧图像属于相机运动场景,进行全局运动补偿,校正相机的运动,对当前帧图像的后一帧图像进行校准后得到变形后的图像;
e、采用光流法计算当前帧图像及步骤d得到的变形后的图像的光流运动量级图Mflow_warp,统计光流运动量级图中所有的运动像素,得到非零像素的数目Nflow_warp,得到变形运动权值Wmotion_warp,变形公式如式(Ⅶ)所示:
W m o t i o n _ w a r p = N f l o w _ w a r p H × W - - - ( V I I )
式(Ⅶ)中,H、W分别是当前帧图像的高和宽;
设定阈值Thscenetype,0.15≤Thscenetype≤0.25,如果通过式(Ⅶ)求取的变形运动权值Wmotion_warp权值小于阈值Thscenetype,则场景中不存在运动物体,进入步骤f,结束;否则,场景中存在运动物体,进入步骤g;
f、对全局运动补偿前当前帧图像的光流运动量级图Mflow进行线性变换,得到当前帧图像的最终深度图Dglobal
D g l o b a l = D g l o b a l _ s t a t i c = 255 M f l o w _ max - M f l o w _ min ( M f l o w - M f l o w _ min ) - - - ( V I I I )
式(Ⅷ)中,Mflow_max、Mflow_min分别指的是光流运动量级图Mflow中像素值的最大值和最小值;
g、首先求出全局运动补偿后当前帧图像的运动深度图Dglobal_dynamic,当前帧图像的运动深度图与光流运动量级图Mflow_warp之间存在着线性映射关系,全局运动补偿后当前帧图像的运动深度图Dglobal_dynamic的计算公式如式(Ⅸ)所示:
D g l o b a l _ d y n a m i c = 255 M f l o w _ w a r p max - M f l o w _ w a r p min ( M f l o w _ w a r p - M f l o w _ w a r p min ) - - - ( I X )
式(Ⅸ)中,Mflow_warpmax、Mflow_warpmin分别指的是全局运动补偿后的光流运动量级图Mflow_warp中像素值的最大值和最小值;
h、将步骤g得到的全局运动补偿后当前帧图像的运动深度图Dglobal_static与步骤(3)得到的当前帧图像的初始深度图融合,得到当前帧图像的最终深度图Dglobal:计算公式如式(Ⅹ)所示:
D g l o b a l = w g l o b a l · D i n i t i a l _ s c e n e + ( 1 - w g l o b a l ) · D g l o b a l _ d y n a m i c - - - ( X )
式(Ⅹ)中,wglobal指的是深度图融合的权值,wglobal=0.5。
9.根据权利要求8所述的一种基于场景分类和几何标注的单视点视频深度获取方法,其特征在于,所述阈值Thscenetype=0.2。
CN201510413367.0A 2015-07-14 2015-07-14 一种基于场景分类和几何标注的单视点视频深度获取方法 Pending CN105100771A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510413367.0A CN105100771A (zh) 2015-07-14 2015-07-14 一种基于场景分类和几何标注的单视点视频深度获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510413367.0A CN105100771A (zh) 2015-07-14 2015-07-14 一种基于场景分类和几何标注的单视点视频深度获取方法

Publications (1)

Publication Number Publication Date
CN105100771A true CN105100771A (zh) 2015-11-25

Family

ID=54580184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510413367.0A Pending CN105100771A (zh) 2015-07-14 2015-07-14 一种基于场景分类和几何标注的单视点视频深度获取方法

Country Status (1)

Country Link
CN (1) CN105100771A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106162177A (zh) * 2016-07-08 2016-11-23 腾讯科技(深圳)有限公司 视频编码方法和装置
CN107048890A (zh) * 2017-05-25 2017-08-18 美的集团股份有限公司 自动去雾方法、控制器、智能镜子和计算机可读存储介质
CN107480603A (zh) * 2017-07-27 2017-12-15 大连和创懒人科技有限公司 基于slam和深度摄像头的同步建图与物体分割方法
CN108520535A (zh) * 2018-03-26 2018-09-11 天津大学 基于深度恢复信息的物体分类方法
CN110782490A (zh) * 2019-09-24 2020-02-11 武汉大学 一种具有时空一致性的视频深度图估计方法及装置
CN110827328A (zh) * 2018-08-07 2020-02-21 三星电子株式会社 自我运动估计方法和装置
CN111192312A (zh) * 2019-12-04 2020-05-22 中广核工程有限公司 基于深度学习的深度图像获取方法、装置、设备及介质
CN112015170A (zh) * 2019-05-29 2020-12-01 北京市商汤科技开发有限公司 运动物体检测及智能驾驶控制方法、装置、介质及设备
CN112203092A (zh) * 2020-09-27 2021-01-08 深圳市梦网视讯有限公司 一种全局运动场景的码流分析方法、系统及设备
CN112954293A (zh) * 2021-01-27 2021-06-11 北京达佳互联信息技术有限公司 深度图获取方法、参考帧生成方法、编解码方法及设备
CN113891057A (zh) * 2021-11-18 2022-01-04 北京字节跳动网络技术有限公司 视频的处理方法、装置、电子设备和存储介质
CN114140362A (zh) * 2022-01-29 2022-03-04 杭州微影软件有限公司 一种热成像图像校正方法和装置
WO2024060923A1 (zh) * 2022-09-22 2024-03-28 北京字跳网络技术有限公司 移动物体的深度估计方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004049260A2 (en) * 2002-11-26 2004-06-10 British Telecommunications Public Limited Company Method and system for estimating global motion in video sequences
CN101216941A (zh) * 2008-01-17 2008-07-09 上海交通大学 剧烈光照变化下基于角点匹配与光流法的运动估计方法
US20120127267A1 (en) * 2010-11-23 2012-05-24 Qualcomm Incorporated Depth estimation based on global motion
CN102663721A (zh) * 2012-04-01 2012-09-12 清华大学 动态场景的散焦深度估计和全聚焦图像获取方法
CN102750711A (zh) * 2012-06-04 2012-10-24 清华大学 一种基于图像分割和运动估计的双目视频深度图求取方法
CN104134234A (zh) * 2014-07-16 2014-11-05 中国科学技术大学 一种全自动的基于单幅图像的三维场景构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004049260A2 (en) * 2002-11-26 2004-06-10 British Telecommunications Public Limited Company Method and system for estimating global motion in video sequences
CN101216941A (zh) * 2008-01-17 2008-07-09 上海交通大学 剧烈光照变化下基于角点匹配与光流法的运动估计方法
US20120127267A1 (en) * 2010-11-23 2012-05-24 Qualcomm Incorporated Depth estimation based on global motion
CN102663721A (zh) * 2012-04-01 2012-09-12 清华大学 动态场景的散焦深度估计和全聚焦图像获取方法
CN102750711A (zh) * 2012-06-04 2012-10-24 清华大学 一种基于图像分割和运动估计的双目视频深度图求取方法
CN104134234A (zh) * 2014-07-16 2014-11-05 中国科学技术大学 一种全自动的基于单幅图像的三维场景构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HUIHUI XU AND MINGYAN JIANG: "Comprehensive depth estimation algorithm for efficient stereoscopic content creation in three-dimensional video systems", 《OPTICAL ENGINEERING》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106162177B (zh) * 2016-07-08 2018-11-09 腾讯科技(深圳)有限公司 视频编码方法和装置
CN106162177A (zh) * 2016-07-08 2016-11-23 腾讯科技(深圳)有限公司 视频编码方法和装置
CN107048890A (zh) * 2017-05-25 2017-08-18 美的集团股份有限公司 自动去雾方法、控制器、智能镜子和计算机可读存储介质
CN107480603A (zh) * 2017-07-27 2017-12-15 大连和创懒人科技有限公司 基于slam和深度摄像头的同步建图与物体分割方法
CN107480603B (zh) * 2017-07-27 2020-09-18 和创懒人(大连)科技有限公司 基于slam和深度摄像头的同步建图与物体分割方法
CN108520535A (zh) * 2018-03-26 2018-09-11 天津大学 基于深度恢复信息的物体分类方法
CN108520535B (zh) * 2018-03-26 2022-02-15 天津大学 基于深度恢复信息的物体分类方法
CN110827328A (zh) * 2018-08-07 2020-02-21 三星电子株式会社 自我运动估计方法和装置
CN112015170A (zh) * 2019-05-29 2020-12-01 北京市商汤科技开发有限公司 运动物体检测及智能驾驶控制方法、装置、介质及设备
CN110782490B (zh) * 2019-09-24 2022-07-05 武汉大学 一种具有时空一致性的视频深度图估计方法及装置
CN110782490A (zh) * 2019-09-24 2020-02-11 武汉大学 一种具有时空一致性的视频深度图估计方法及装置
CN111192312A (zh) * 2019-12-04 2020-05-22 中广核工程有限公司 基于深度学习的深度图像获取方法、装置、设备及介质
CN111192312B (zh) * 2019-12-04 2023-12-26 中广核工程有限公司 基于深度学习的深度图像获取方法、装置、设备及介质
CN112203092A (zh) * 2020-09-27 2021-01-08 深圳市梦网视讯有限公司 一种全局运动场景的码流分析方法、系统及设备
CN112203092B (zh) * 2020-09-27 2024-01-30 深圳市梦网视讯有限公司 一种全局运动场景的码流分析方法、系统及设备
CN112954293A (zh) * 2021-01-27 2021-06-11 北京达佳互联信息技术有限公司 深度图获取方法、参考帧生成方法、编解码方法及设备
CN112954293B (zh) * 2021-01-27 2023-03-24 北京达佳互联信息技术有限公司 深度图获取方法、参考帧生成方法、编解码方法及设备
CN113891057A (zh) * 2021-11-18 2022-01-04 北京字节跳动网络技术有限公司 视频的处理方法、装置、电子设备和存储介质
CN114140362A (zh) * 2022-01-29 2022-03-04 杭州微影软件有限公司 一种热成像图像校正方法和装置
WO2024060923A1 (zh) * 2022-09-22 2024-03-28 北京字跳网络技术有限公司 移动物体的深度估计方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN105100771A (zh) 一种基于场景分类和几何标注的单视点视频深度获取方法
US9053575B2 (en) Image processing apparatus for generating an image for three-dimensional display
CN103595988B (zh) 立体图像显示装置、图像处理装置及图像处理方法
CN103974055B (zh) 3d照片生成系统及方法
CN105374039B (zh) 基于轮廓锐度的单目图像深度信息估计方法
US20140198101A1 (en) 3d-animation effect generation method and system
CN101729920B (zh) 一种自由视角立体视频显示方法
CN102665086A (zh) 利用基于区域的局部立体匹配获取视差的方法
CN110853151A (zh) 一种基于视频的三维立体点集恢复方法
US20120139902A1 (en) Parallax image generating apparatus, stereoscopic picture displaying apparatus and parallax image generation method
CN106447718B (zh) 一种2d转3d深度估计方法
US20100302234A1 (en) Method of establishing dof data of 3d image and system thereof
CN101610425A (zh) 一种评测立体图像质量的方法和装置
CN108230242B (zh) 一种从全景激光点云到视频流的转换方法
CN103269435A (zh) 双目转多目虚拟视点合成方法
Park et al. Efficient viewer-centric depth adjustment based on virtual fronto-parallel planar projection in stereo 3D images
CN112822479A (zh) 一种用于2d-3d视频转换的深度图生成方法及装置
CN111047636B (zh) 基于主动红外双目视觉的避障系统和避障方法
JP2015012429A (ja) 画像処理装置、画像処理方法および画像処理プログラム
KR101125061B1 (ko) Ldi 기법 깊이맵을 참조한 2d 동영상의 3d 동영상 전환방법
CN109218706B (zh) 一种由单张图像生成立体视觉图像的方法
CN103391447B (zh) 3d节目镜头切换中安全深度保证与调整方法
CN102567992B (zh) 遮挡区域的图像匹配方法
CN114935316B (zh) 基于光学跟踪与单目视觉的标准深度图像生成方法
CN110149508A (zh) 一种基于一维集成成像系统的阵列图生成及填补方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151125

WD01 Invention patent application deemed withdrawn after publication