CN101222647A - 多视角视频图像的场景全局深度估计方法 - Google Patents

多视角视频图像的场景全局深度估计方法 Download PDF

Info

Publication number
CN101222647A
CN101222647A CNA200810300254XA CN200810300254A CN101222647A CN 101222647 A CN101222647 A CN 101222647A CN A200810300254X A CNA200810300254X A CN A200810300254XA CN 200810300254 A CN200810300254 A CN 200810300254A CN 101222647 A CN101222647 A CN 101222647A
Authority
CN
China
Prior art keywords
camera
depth
view
coordinate system
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200810300254XA
Other languages
English (en)
Other versions
CN101222647B (zh
Inventor
张小云
乔治L.杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Hongwei Technology Co Ltd
Original Assignee
Sichuan Hongwei Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Hongwei Technology Co Ltd filed Critical Sichuan Hongwei Technology Co Ltd
Priority to CN200810300254XA priority Critical patent/CN101222647B/zh
Publication of CN101222647A publication Critical patent/CN101222647A/zh
Application granted granted Critical
Publication of CN101222647B publication Critical patent/CN101222647B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明涉及视频信号处理技术。本发明提供一种汇聚相机系统下多视角视频图像的场景全局深度估计方法。多视角视频图像的场景全局深度估计方法,包括以下步骤:a.将汇聚点的深度值作为深度初始估计值;b.参考深度初始估计值确定全局深度估计的深度搜索范围与搜索步长;c.计算目标视图的像素点通过反投影和重投影在参考视图中的对应像素点,并得到目标视图在参考相机系统中的合成视图;d.在深度搜索范围内以所述搜索步长进行搜索,把使得合成视图与参考视图的误差最小的深度值作为目标视图的场景全局深度值。本发明的有益效果是,能有效地对汇聚相机系统下多视角视频图像进行全局深度信息的估计,快速有效地直接获取深度信息。

Description

多视角视频图像的场景全局深度估计方法
技术领域
本发明涉及视频信号处理技术,具体涉及一种汇聚相机系统下多视角视频图像的全局深度估计方法。
背景技术
多视角视频(Multi-view video)是指不同方位的多个摄像机对同一场景拍摄得到的视频信号,它是立体电视(3DTV)和任意视角视频系统(FVV,Free Viewpoint Video System)等新型应用的基础。利用多视角视频和图像合成技术可以产生摄像机覆盖范围内的任意视角的视频信息,观察者可根据自己的喜好自由地切换观察视角,从而得到具有交互功能的高质量的视频观看体验。由于多视角视频数据随摄像机数目的增加而成倍增加,所以高效压缩编码多视角视频中的海量数据已成为目前视频处理领域的一个研究热点。国际标准组织MPEG早在2002年就开始3D音视频(3DAV)方面的探索研究,并发展为多视角视频编码(MVC,Multi-view Video Coding)的研究,2006年MVC成为最新标准H.264/AVC的扩展部分。
多视角视频压缩编码中,除了利用传统的单视频序列中的运动补偿技术消除时间冗余外,还要考虑利用各视角图像之间的相关性,从而进一步提高压缩效率。目前,H.264中关于利用不同视角图像间的相关性进行编码的提案主要分为两类:一、基于视差补偿的视图预测编码方法(DCVP,Disparity Compensated View Prediction):在编码和解码端分别进行像素的视差估计,在编码端利用视差进行视图插值得到预测信息,对预测残差进行编码(ISO/IEC JTC1/SC29/WG11,Doc.JVT-T119,2006),该方法适用于相机视角密集、视角之间旋转不大的情形,如平行相机系统。二、视图合成预测编码(VSP,View SynthesisPrediction):在编码端进行块的深度信息估计,然后进行视图合成得到预测块,对深度信息和预测残差进行编码(ISO/IEC JTC1/SC29/WG11,Doc.JVT-T123,2006),该方法适用于视角之间存在较大旋转、视图存在较大投影变形的情形,如视角稀疏的汇聚相机系统。
2007年4月JVT最新会议提案(ISO/IEC JTC1/SC29/WG11,Doc.JVT-W100,2007)提出了MVD(Multi-view video plus depth)概念,即视频加深度的多视角视频编码。由于MVD能够满足先进三维视频或任意视角视频应用的本质需求,能够在解码端生成一定范围内的连续的任意视角的视图,而不是数量有限的离散的视图,所以视频加深度的MVD方案已经被JVT采纳,被确定为今后的发展方向。
所以,如何从不同视角的两幅或多幅视图获取场景的深度信息成为了今后多视角视频编码的重要问题之一。
迄今,已有很多与深度估计相关的研究和估计算法。常用的深度估计方法是,先利用基于特征或块匹配的方法估计两幅图像之间的水平视差,然后再根据深度与视差成反比的关系计算出深度信息。但上述深度估计方法只适合平行相机系统,应用范围有限。如是适用于其它相机系统,则还需先对图像对进行校正,处理过程复杂。而在多视角视频的实际应用中,摄像机系统通常以圆弧方式排列,形成汇聚相机系统。汇聚相机系统可以获得场景中多个角度的不同信息,各视图之间存在较大的投影变形,利用未考虑块变形的视差估计方法无法快速有效地直接获取深度信息。
在基于视差补偿的DCVP编码方法中,JVT会议提案(IS0/IEC JTC1/SC29/WG11,Doc.JVT-T136,2006)提出了全局视差补偿的概念,采用了2000年3月公开的专利号为US6043838的美国专利,发明名称为“基于偏移估计的立体视频编码技术(View OffsetEstimation for Stereoscopic Video Coding)。该方案让一个视角图像沿着水平x和垂直y方向移动,取使得两个视角图像的重叠区域的绝对差最小的x和y的值为全局视差向量。不同视角的图像先经过全局视差补偿后,视差向量主要分布在零附近,这减小了视差的搜索范围、降低了视差估计的计算量和复杂度,从而提高了编码效率。类似地,在基于深度信息的VSP和采用MVD格式的编码方法中,为了减少深度信息的编码比特开销、提高深度搜索的速度和效率,应该先进行场景全局深度估计和补偿的处理(ISO/IEC JTC1/SC29/WG11,Doc.JVT-W133,2007)。另外,深度估计中搜索范围和步长的确定对估计性能至关重要(ISO/IEC JTC1/SC29/WG11,Doc.JVT-W059,2007),全局深度估计值可以为深度估计中的搜索范围和搜索步长的确定提供重要信息。因此,场景全局深度信息的估计也成为基于MVD框架的多视角视频编码中的一个重要问题,但目前尚未有相关的解决方法。
发明内容
本发明所要解决的技术问题是,提供一种汇聚相机系统下多视角视频图像的场景全局深度估计方法。
本发明为解决上述技术问题所采用的技术方案是,多视角视频图像的场景全局深度估计方法,包括以下步骤:
a、利用汇聚相机系统中各相机的外部参数计算汇聚点,将汇聚点的深度值作为深度初始估计值;
b、参考深度初始估计值确定全局深度估计的深度搜索范围与搜索步长;
c、利用相机的内外部参数和给定的深度值,计算目标视图的像素点通过反投影和重投影在参考视图中的对应像素点,并得到目标视图在参考相机系统中的合成视图;
d、在所述深度搜索范围内以所述搜索步长进行搜索,把使得合成视图与参考视图的误差最小的深度值作为目标视图的场景全局深度值。
本发明定义目标视图是当前需要进行深度估计的视图,其对应的相机为目标相机,而其它视图为所述的参考视图,对应的相机为参考相机;所述的合成视图是指目标视图先反投影到三维场景、再重投影到参考相机中的视图。
具体的,求解以下线性方程,得到相机系统汇聚点的深度值zi 0
R i [ 0,0 , z i 0 ] + t i = R 1 [ 0,0 , z 1 0 ] + t 1
R i [ 0,0 , z i 0 ] + t i = R 2 [ 0,0 , z 2 0 ] + t 2
------
R i [ 0,0 , z i 0 ] + t i = R m [ 0,0 , z m 0 ] + t m
其中,m为汇聚相机系统中的相机总数;Ri(i∈1,---,m)为目标相机坐标系相对于世界坐标系的三维旋转矩阵;ti(i∈1,---,m)为目标相机坐标系相对于世界坐标系的平移向量。用线性最小二乘法求解方程组(5),可求得目标相机中汇聚点的深度值zi 0,以zi 0作为场景深度的初始估计值。深度初始值通过一个简单的线性方程组的求解得到,计算简单快速。
具体的,步骤c所述合成视图Synyhesized_Ix所采用以下公式得到:
Synthesize d _ I x ( P x ) = Synthesize d _ I x ( f x ( z , P ) ) = I i ( P ) ∀ P ∈ I i
目标视图Ii中的像素点P在给定深度Z下,通过反投影和重投影,对应于参考相机系统中的合成视图Synthedized_Ix中的像素点Px;函数fx为所述另一相机坐标系的投影函数;x∈1,---,m且x≠i;i∈1,---,m。
进一步的,
f x ( z j , P i ) = z j BP i + Ct z j b 3 T P i + c 3 T t ,
C = A x R x - 1 , B = A x R x - 1 R i A i - 1 = C R i A i - 1 , t=ti-tx,Ri(i∈1,---,m)为目标相机坐标系相对于世界坐标系的三维旋转矩阵;ti(i∈1,---,m)为目标相机坐标系相对于世界坐标系的平移向量;m为汇聚相机系统中的相机总数;Ai为目标相机的内部参数矩阵;Rx(x∈1,---,m且x≠i)参考相机坐标系相对于世界坐标系的三维旋转矩阵;tx(x∈1,---,m且x≠i)为参考相机坐标系相对于世界坐标系的平移向量;Ax为参考相机的内部参数矩阵;b3和c3分别是矩阵B和C的第三行向量。
具体的,全局深度值ZG通过以下公式求得:
Σ x = 1 , · · · , m x ≠ i Σ P ∈ I i | | I i ( P ) - I x ( f x ( z G , P ) ) | | =
min z j ∈ { z min , z min + z step , · · · , z max } Σ x = 1 , · · · , m x ≠ i Σ P ∈ I i | | I i ( P ) - I x ( f x ( z j , P ) | |
其中,搜索范围为[zmin,zmax],Zstep为搜索步长。深度初始值为全局深度估计中的搜索范围和搜索步长的确定提供了非常重要和有效的参考信息,可以减小深度估计的搜索范围并确定合理的搜索步长,从而提高估计效率。
本发明的有益效果是,能有效地对汇聚相机系统下多视角视频图像进行全局深度信息的估计,快速有效地直接获取深度信息。
附图说明
图1是多视角视频图像中的坐标系示意图;
图2是汇聚相机系统示意图;
图3是本发明的基于深度的视图合成示意图;
图4是本发明的全局深度估计示意图;
图5是本发明的系统流程图。
具体实施方式
为了更好地描述本发明的内容,首先对多视角视频中的坐标系统以及各坐标之间的关系进行说明:
在多视角视频中通常需要三个类型的坐标系来描述场景及其图像位置信息,它们分别为世界坐标系o-xyz、相机坐标系oi-xiyizi和像素坐标系uivi
相机坐标系以相机中心为原点、光轴为z轴,xy平面与图像平面平行;像素坐标系以图像左上角为坐标原点,水平和垂直坐标为u、v,uv平面为图像平面。汇聚相机系统中相机的个数为m,系统中的任一相机ci(i∈1,---,m)的相机坐标系oi-xiyizi相对于世界坐标系o-xyz的位置用三维旋转矩阵Ri和平移向量ti表示,Ri与ti又称为相机的外部参数。图1示出了2个相机的相机坐标系o1-x1y1z1、o2-x2y2z2,以及对应的像素坐标u1v1、u2v2
设相机ci(i∈1,---,m)的假设场景中一点在世界坐标系下的坐标用向量p=[x,y,z]表示,该点在相机坐标系oi-xiyizi中的坐标则用向量Pi=[xi,yi,zi]表示。根据空间几何和坐标变换,相机坐标系中的向量Pi与世界坐标系下向量P有如下关系:
p=R1p1+t1
p=R2p2+t2
            (1)
------
p=Rmpm+tm
根据计算机视觉透视投影原理,相机坐标系下的坐标Pi(i∈1,---,m)与其在图像平面的齐次像素坐标Pi=[ui,vi,1](i∈1,---,m)满足以下关系:
z1P1=A1p1
z2P2=A2p2
                (2)
------
zmPm=Ampm
其中,Ai(i∈1,---,m)是相机ci(i∈1,---,m)的内部参数矩阵,主要包括相机焦距、中心和变形参数等;Zi(i∈1,---,m)为场景点的向量P在相机ci坐标系统中Z轴的坐标。
为了实现全局深度估计,本发明首先利用相机参数求得汇聚系统的汇聚点,并把该点作为场景深度的深度初始估计值;利用所述的深度初始估计值,确定全局深度估计的搜索范围和搜索步长;再利用视图合成技术求使得合成视图与实际视图之间的绝对差最小的深度值作为场景的全局深度值。
图2所示为,m个相机组成的一个汇聚系统。需要估计深度的视图称为目标视图,对应的相机系统称为目标相机系统。其它的视图为参考视图。这样多视角视频就包含1个目标视图(当前需要估计深度的视图)和m-1个参考视图。全局深度值估计的具体方法如下:
1、深度初始值估计
多视角视频的一个主要目标是在多个角度拍摄同一场景的信息,相机通常呈圆弧形放置,并且相机光轴汇聚于一点,即所谓的汇聚系统。实际应用中,虽然相机可能不严格汇聚于一点,但总可以找到一个与各相机光轴距离最近的一个点,这个点被认为汇聚点。汇聚点通常都是场景所在的位置,可以认为是场景的一个缩影点,所以通过求得汇聚点的位置就可以求得场景深度的一个初始估计。该估计值为后续的场景全局深度的估计提供了良好的初始值,而且为全局深度估计的搜索范围和搜索步长的确定提供了重要的参考信息,从而可以减小计算量、提高估计效率。
设汇聚点在世界坐标系中的坐标为Mc=[xc,yc,zc],该点位于每个相机的光轴上,所以该点在以光轴为Z轴的相机坐标系中可以表示为:
M 1 = [ 0,0 , z 1 0 ]
M 2 = [ 0,0 , z 2 0 ]
                 (3)
-----
M m = [ 0,0 , z m 0 ]
其中zi 0(i∈1,---,m)是汇聚点在相机ci的坐标系中的深度,m为相机个数。根据世界坐标与相机坐标的关系可得到:
Mc=R1M1+t1
Mc=R2M2+t2
               (4)
------
Mc=RmMm+tm
消去Mc得到
R i [ 0,0 , z i 0 ] + t i = R 2 [ 0,0 , z 2 0 ] + t 2
R i [ 0,0 , z i 0 ] + t i = R 3 [ 0,0 , z 3 0 ] + t 3
(5)
------
R i [ 0,0 , z i 0 ] + t i = R m [ 0,0 , z m 0 ] + t m
式(5)是关于深度z1 0,z2 0,---zm 0的3(m-1)个线性方程。用线性最小二乘法求解方程组(5),可求得汇聚点在各相机坐标系中的深度值zi 0,zi 0为深度初始估计值。
2、基于深度的视图合成
深度值给定,目标视图中的像素点则可根据目标相机的内外部参数(Ai、Ri、ti)把该像素点反投影到场景中,再把场景点投影到参考相机的视角中生成合成视图。
考虑两个视图的情形,设视图I1为目标视图,视图I2为参考视图。视图I1中的像素点P1在其相机c1坐标系下的深度值为Z1,该点在视图I2中的对应像素点为P2′,在其相机c2坐标系下的深度值为Z2,根据公式(1)(2)可推导得到
z 1 R 1 A 1 - 1 P 1 + t 1 = z 2 R 2 A 2 - 1 P 2 ′ + t 2 - - - ( 6 )
由式(6)得到:
A 2 R 2 - 1 ( z 1 R 1 A 1 - 1 P 1 + t 1 - t 2 ) = z 2 P 2 ′ - - - ( 7 )
为方便描述,记:
C = A 2 R 2 - 1 , B = A 2 R 2 - 1 R 1 A 1 - 1 = CR 1 A 1 - 1 , t = t 1 - t 2
则(7)式变为:
z 1 BP 1 + Ct = z 2 P 2 ′ - - - ( 8 )
其中B,C是三维矩阵,t是两个相机之间的平移向量。由于P1,P2′是齐次坐标,可消去(8)中的Z2,得到像素点P1在视图2中的像素齐次坐标为:
P 2 ′ = z 2 P 2 ′ z 2 = z 1 BP 1 + Ct z 1 b 3 T P 1 + c 3 T t = ^ f 2 ( z 1 , P 1 ) - - - ( 9 )
其中b3和c3分别是矩阵B和C的第三行向量。
由式(9)可得出:在相机c1与c2内外部参数已知的情况下,视图I2的像素点值是关于视图I1中的像素点值及其深度值的函数。利用公式(9)进行视图I1在参考视图I2中的视图合成。
视图I1中的像素点P1,在给定的深度Z下通过反投影和重投影得到其在相机c2的视角中的合成视图Synthesized_I2的像素点P2 P 2 = ^ f 2 ( z , P 1 ) , 如图3所示(图中将合成视图Synthesized_I2简写为S_I2),假设同一场景点在不同视图中具有相同的亮度色度值,则
Synthesized_I2(P2)=Synthesized_I2(f2(z,P1))=I1(P1)    (10)
上述说明是以两个相机组成的汇聚相机系统为例,同样可以进一步得出由m个相机组成的汇聚相机系统可以适用于上述原理,合成视图Synthesized_Ix的像素点Px的亮度色度取值是由目标相机坐标系的视图Ii的对应像素点P决定的,在参考相机视角下的合成视图Synthesized_Ix可由下式得到:
Synthesize d _ I x ( P x ) = Synthesize d _ I x ( f x ( z , P ) ) = I i ( P ) ∀ P ∈ I i - - - ( 11 )
函数fx为在深度值Z下把目标视图Ii(i∈1,---,m)中的像素点P(x∈1,---,m且x≠i)投影到合成视图Synthesized_Ix的像素点Px的投影函数。
3、全局深度值估计
目标视图Ii在不同的深度值下在同一个参考相机的视角中有不同的合成视图,理论上在真实深度值下形成的合成视图与实际视图才会重合,本发明正是利用此原理求得全局深度值。
如图4所示,在深度Z下,合成视图Synthesized_I2与视图I2之间的误差为:
Σ P 1 ∈ I 1 | | Synthesised _ I 2 ( f ( z , P 1 ) ) - I 2 ( f ( z , P 1 ) ) | | =
                   (12)
Σ P 1 ∈ I 1 | | I 1 ( P 1 ) - I 2 ( f ( z , P 1 ) ) | |
其中,||·||是可以取绝对值,也可以取平方和。
为了提高基于深度信息的视图合成预测编码的编码效率,以深度初始估计值z1 0为中心在一定的搜索范围内,以一定的步长,搜索合成视图与参考视图之间的绝对差最小的深度值作为场景的全局深度值ZG(G∈j),即场景全局深度的求解可转化为求解以下问题:
Σ P 1 ∈ I 1 | | I 1 ( P 1 ) - I 2 ( f 2 ( z G , P 1 ) ) | | =
                    (13)
min z j ∈ { z min , z min + z step , . . . , z max } Σ P 1 ∈ I 1 | | I 1 ( P 1 ) - I 2 ( f 2 ( z j , P 1 ) | |
其中[Zmin,Zmax]为搜索区间,Zstep为搜索步长,Zi为搜索深度,j为深度搜索个数,j=1,2,---N,zj=zmin+j·zstep,zmax=zmin+N·zstep
通过式(13)得到视图I1的相机坐标系下的场景全局深度估计值ZG。同理,m个相机组成的汇聚系统中,搜索合成视图Synthesized_Ix与参考视图Ix之间的绝对差最小的深度值作为场景的全局深度值ZG
Σ x = 1 , · · · , m x ≠ i Σ P ∈ I i | | I i ( P ) - I x ( f x ( z G , P ) ) | | =
                 (14)
min z j ∈ { z min , z min + z step , . . . , z max } Σ x = 1 , · · · , m x ≠ i Σ P ∈ I i | | I i ( P ) - I x ( f x ( z j , P ) | |
其中j=1,2,---N;i∈1,…,m。
本发明由于通过求汇聚点的方法从式(5)线性方程组已经得到场景深度的一个初始估计值,所以式(13)与式(14)中搜索区间可以设在初始估计值为中心的局部范围内,避免大范围的搜索,减小了计算量;搜索步长的确定也以初始估计值为参照,通常可以设为初始估计值的某一比例值。
实施例
在本实施例中,为方便描述,以2个相机组成的汇聚相机系统为例。利用两个相机的内部参数Ai(i∈1,2)外部参数Ri,ti(i∈1,2)和在各相机系统下形成的视图I1与I2进行全局深度估计。以视图I1为目标视图,以视图I2为参考视图,求视图I1的全局深度值的步骤如图5所示:
步骤1:计算两个相机c1与c2的光轴汇聚点,得到相机坐标下的场景初始深度值。
根据式(5)得到关于汇聚点在两相机坐标系下的深度值z1 0和z2 0的线性方程:
R 1 [ 0,0 , z 1 0 ] + t 1 = R 2 [ 0,0 , z 2 0 ] + t 2
通过线性方程求解方法得到场景初始深度值z1 0
步骤2:根据初始深度值z1 0,确定视图I1的深度搜索范围和搜索步长。
由于步骤1得到的初始深度值通常是场景深度的在数量级上的大概估计值,所以搜索区间以初始估计值为中心的±50%范围,搜索步长可确定为初始估计值的1%,即
[ z min , z max ] = [ z 1 0 2 , 3 z 1 0 2 ]
z step = z 1 0 100
步骤3:在搜索范围内,对每个给定的深度,求场景在视图I2中的合成视图Synthesized_I2
给定视图I1的深度Zj=Zmin+j·Zstep,j=1,---,100,100为深度搜索个数。根据式(9),计算视图I1中的像素点P1在给定的深度值Zj下在相机c2坐标系中对应像素点P2,并把P1的亮度色度值作为视图I2的合成视图Synthesized_I2的像素P2的亮度色度值,得到合成视图Synthesized_I2,即:
P 2 = ^ f 2 ( z j , P 1 )
Synthesized_I2(P2)=Synthesized_I2(f2(zj,P1))=I1(P1)
Σ P 2 ∈ I 2 Synthesized _ I 2 ( P 2 ) = Σ P 1 ∈ I 1 Synthesized _ I 2 ( f 2 ( z j , P 1 ) ) = Σ P 1 ∈ I 1 I 1 ( P 1 )
步骤4:计算深度值Zi下的合成视图Synthesized_I2和视图I2的误差绝对和。
SAD ( i ) = Σ P 1 ∈ I 1 | | I 1 ( P 1 ) - I 2 ( f 2 ( z j , P 1 ) ) | |
式中对视图I1中的所有像素点求和,并且使用像素点的所有亮度、色度分量。
步骤5:取使得合成视图Synthesized_I2和视图I2的绝对差最小的深度值,作为全局深度估计值。
SADmin=SAD(k)=minSAD(j)
令ZG=Zmin+k·Zstep
则ZG为视图I1的场景全局深度值。同理,也可求得视图I2的场景全局深度值。

Claims (7)

1.多视角视频图像的场景全局深度估计方法,其特征在于,包括以下步骤:
a、利用汇聚相机系统中各相机的外部参数计算汇聚点,将汇聚点的深度值作为深度初始估计值;
b、参考深度初始估计值确定全局深度估计的深度搜索范围与搜索步长;
c、利用相机的内外部参数和给定的深度值,计算目标视图的像素点通过反投影和重投影在参考视图中的对应像素点,并得到目标视图在参考相机系统中的合成视图;
d、在所述深度搜索范围内以所述搜索步长进行搜索,把使得合成视图与参考视图的误差最小的深度值作为目标视图的场景全局深度值。
2.如权利要求1所述多视角视频图像的场景全局深度估计方法,其特征在于,所述相机内部参数包括相机焦距、中心和变形参数,所述相机外部参数包括相机坐标系相对于世界坐标系的三维旋转矩阵和平移向量。
3.如权利要求1所述多视角视频图像的场景全局深度估计方法,其特征在于,步骤a所述相机系统汇聚点的深度值,通过以下线性方程求得:
R i [ 0,0 , z i 0 ] + t i = R 1 [ 0,0 , z 1 0 ] + t 1
R i [ 0,0 , z i 0 ] + t i = R 2 [ 0,0 , z 2 0 ] + t 2
......
R i [ 0,0 , z i 0 ] + t i = R m [ 0,0 , z m 0 ] + t m
其中,m为汇聚相机系统中的相机总数;Ri(i∈1,…,m)为目标相机Ci坐标系相对于世界坐标系的三维旋转矩阵;ti(i∈1,…,m)为目标相机Ci坐标系相对于世界坐标系的平移向量;zi 0(i∈1,…,m)为汇聚点在目标相机Ci坐标系的深度值。
4.如权利要求1所述多视角视频图像的场景全局深度估计方法,其特征在于,步骤c所述合成视图由以下公式得到:
Synthesize d_Ix(Px)=Synthesize d_Ix(fx(z,P))=Ii(P) ∀ P ∈ I i
函数fx为在深度值z下把目标视图Ii(i∈1,…,m)中的像素点P(x∈1,…,m且x≠i)投影到合成视图Synthesized_Ix的像素点Px的投影函数。
5.如权利要求4所述多视角视频图像的场景全局深度估计方法,其特征在于,函数fx具体表示为:
P x = f x ( z , P ) = zBP + Ct zb 3 T P + c 3 T t ,
C = A x R x - 1 , B = A x R x - 1 R i A i - 1 = C R i A i - 1 , t=ti-tx,Ri(i∈1,…,m)为目标相机坐标系相对于世界坐标系的三维旋转矩阵;ti(i∈1,…,m)为目标相机坐标系相对于世界坐标系的平移向量;m为汇聚相机系统中的相机总数;Ai为目标相机的内部参数矩阵;Rx(x∈1,…,m且x≠i)参考相机坐标系相对于世界坐标系的三维旋转矩阵;tx(x∈1,…,m且x≠i)为参考相机坐标系相对于世界坐标系的平移向量;Ax为参考相机的内部参数矩阵;b3和C3分别是矩阵B和C的第三行向量。
6.如权利要求4所述多视角视频图像的场景全局深度估计方法,其特征在于,步骤d中全局深度值通过以下公式求得:
Σ x = 1 , · · · , m x ≠ i Σ P ∈ I i | | I i ( P ) - I x ( f x ( z G , P ) | | =
min z j ∈ { z min , z min + z step , · · · , z max } Σ x = 1 , · · · , m x ≠ i Σ P ∈ I i | | I i ( P ) - I x ( f x ( z j , P ) | |
其中,zG为目标视图Ii的全局深度值,Ix为参考视图,[zmin,zmax]为搜索范围,zstep为搜索步长,搜索深度zj=zmin+j·zstep
7.如权利要求1或6所述多视角视频图像的场景全局深度估计方法,其特征在于,所述搜索范围是以深度初始估计值为中心并根据所述深度初始估计值确定的局部范围;所述搜索步长为深度初始估计值的比例值。
CN200810300254XA 2007-10-12 2008-01-29 多视角视频图像的场景全局深度估计方法 Expired - Fee Related CN101222647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810300254XA CN101222647B (zh) 2007-10-12 2008-01-29 多视角视频图像的场景全局深度估计方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200710202040 2007-10-12
CN200710202040.4 2007-10-12
CN200810300254XA CN101222647B (zh) 2007-10-12 2008-01-29 多视角视频图像的场景全局深度估计方法

Publications (2)

Publication Number Publication Date
CN101222647A true CN101222647A (zh) 2008-07-16
CN101222647B CN101222647B (zh) 2010-10-27

Family

ID=39632179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810300254XA Expired - Fee Related CN101222647B (zh) 2007-10-12 2008-01-29 多视角视频图像的场景全局深度估计方法

Country Status (1)

Country Link
CN (1) CN101222647B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101527865B (zh) * 2009-01-05 2010-09-01 清华大学 一种投影式高分辨率多视点自由立体显示系统
CN101840574A (zh) * 2010-04-16 2010-09-22 西安电子科技大学 基于边缘象素特征的深度估计方法
CN101945299A (zh) * 2010-07-09 2011-01-12 清华大学 一种基于拍摄设备阵列的动态场景深度恢复方法
CN102073050A (zh) * 2010-12-17 2011-05-25 清华大学 基于深度相机的测量三维场景深度的装置
CN102307310A (zh) * 2011-08-23 2012-01-04 威盛电子股份有限公司 影像深度估计方法及其装置
CN107464278A (zh) * 2017-09-01 2017-12-12 叠境数字科技(上海)有限公司 全视向的球体光场渲染方法
CN109076205A (zh) * 2016-04-21 2018-12-21 奥崔迪合作公司 双模深度估计器
CN109884868A (zh) * 2019-01-18 2019-06-14 中国人民解放军陆军装甲兵学院 一种全视差全息立体图的打印方法及系统
CN113538318A (zh) * 2021-08-24 2021-10-22 北京奇艺世纪科技有限公司 图像处理方法、装置、终端设备以及可读存储介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101527865B (zh) * 2009-01-05 2010-09-01 清华大学 一种投影式高分辨率多视点自由立体显示系统
CN101840574A (zh) * 2010-04-16 2010-09-22 西安电子科技大学 基于边缘象素特征的深度估计方法
CN101945299A (zh) * 2010-07-09 2011-01-12 清华大学 一种基于拍摄设备阵列的动态场景深度恢复方法
CN101945299B (zh) * 2010-07-09 2013-10-09 清华大学 一种基于拍摄设备阵列的动态场景深度恢复方法
CN102073050A (zh) * 2010-12-17 2011-05-25 清华大学 基于深度相机的测量三维场景深度的装置
CN102073050B (zh) * 2010-12-17 2013-01-16 清华大学 基于深度相机的测量三维场景深度的装置
CN102307310A (zh) * 2011-08-23 2012-01-04 威盛电子股份有限公司 影像深度估计方法及其装置
CN102307310B (zh) * 2011-08-23 2014-10-29 威盛电子股份有限公司 影像深度估计方法及其装置
CN109076205B (zh) * 2016-04-21 2021-03-09 奥崔迪合作公司 双模深度估计器
CN109076205A (zh) * 2016-04-21 2018-12-21 奥崔迪合作公司 双模深度估计器
CN107464278A (zh) * 2017-09-01 2017-12-12 叠境数字科技(上海)有限公司 全视向的球体光场渲染方法
CN107464278B (zh) * 2017-09-01 2020-01-24 叠境数字科技(上海)有限公司 全视向的球体光场渲染方法
CN109884868B (zh) * 2019-01-18 2020-12-25 中国人民解放军陆军装甲兵学院 一种全视差全息立体图的打印方法及系统
CN109884868A (zh) * 2019-01-18 2019-06-14 中国人民解放军陆军装甲兵学院 一种全视差全息立体图的打印方法及系统
CN113538318A (zh) * 2021-08-24 2021-10-22 北京奇艺世纪科技有限公司 图像处理方法、装置、终端设备以及可读存储介质
CN113538318B (zh) * 2021-08-24 2023-12-15 北京奇艺世纪科技有限公司 图像处理方法、装置、终端设备以及可读存储介质

Also Published As

Publication number Publication date
CN101222647B (zh) 2010-10-27

Similar Documents

Publication Publication Date Title
CN101222647B (zh) 多视角视频图像的场景全局深度估计方法
CN100576934C (zh) 基于深度和遮挡信息的虚拟视点合成方法
US8284237B2 (en) Rendering multiview content in a 3D video system
US8351685B2 (en) Device and method for estimating depth map, and method for generating intermediate image and method for encoding multi-view video using the same
CN100592338C (zh) 多视角视频图像深度搜索方法及深度估计方法
CN108886598A (zh) 全景立体视频系统的压缩方法和装置
WO2008144456A1 (en) Multiview coding with geometry-based disparity prediction
JP2018519697A (ja) 奥行き情報を用いて全方向視差を圧縮したライトフィールドを合成する方法
JPH09275578A (ja) 多視点画像符号化装置および復号装置
Morvan et al. System architecture for free-viewpoint video and 3D-TV
CN101198061A (zh) 基于视点图像映射的立体视频流编码方法
Zhu et al. Spatial error concealment for stereoscopic video coding based on pixel matching
JP2007166381A (ja) 多視点画像の圧縮符号化方法及び復号化方法
Iyer et al. Multiview video coding using depth based 3D warping
Tanimoto et al. Frameworks for FTV coding
Xiu et al. Rectification-based view interpolation and extrapolation for multiview video coding
JP2009164865A (ja) 映像符号化方法,復号方法,符号化装置,復号装置,それらのプログラムおよびコンピュータ読み取り可能な記録媒体
Mallik et al. HEVC based multi-view video codec using frame interleaving technique
CN102263952B (zh) 一种基于对象的快速双目立体视频分形压缩与解压缩方法
KR100737808B1 (ko) 2차원 구조의 다시점 영상 압축 방법
Cui et al. A new fast motion estimation algorithm based on the loop–epipolar constraint for multiview video coding
Zhu et al. Virtual view synthesis using stereo vision based on the sum of absolute difference
CN103379350A (zh) 虚拟视点图像后处理方法
Ishibashi et al. FTV format using global view and depth map
Naemura et al. Orthographic approach to representing 3-D images and interpolating light rays for 3-D image communication and virtual environment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101027

Termination date: 20160129

EXPY Termination of patent right or utility model