CN102111637A - 生成立体视频深度图的方法及装置 - Google Patents

生成立体视频深度图的方法及装置 Download PDF

Info

Publication number
CN102111637A
CN102111637A CN 201110077725 CN201110077725A CN102111637A CN 102111637 A CN102111637 A CN 102111637A CN 201110077725 CN201110077725 CN 201110077725 CN 201110077725 A CN201110077725 A CN 201110077725A CN 102111637 A CN102111637 A CN 102111637A
Authority
CN
China
Prior art keywords
video
depth map
visual angle
current visual
parallax value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201110077725
Other languages
English (en)
Inventor
戴琼海
刘琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN 201110077725 priority Critical patent/CN102111637A/zh
Publication of CN102111637A publication Critical patent/CN102111637A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明提出一种生成立体视频深度图的方法及装置。其中,方法包括以下步骤:对与当前视角相邻的两路视频帧进行立体匹配以获得预定的搜索范围内的视差值的匹配代价;对所述当前视角的视频帧进行基于颜色的分割以获得多个第一分割单元;根据所述当前视角的视频帧的运动信息对所述多个第一分割单元进行融合以获得多个第二分割单元;以每个第二分割单元为结点,对所述视差值进行全局优化以获得每个结点的最优视差值;以及将所述最优视差值转换为深度值,并根据所述深度值构建深度图。本发明通过根据运动信息对细小的分割区域进行自适应融合,可以在保证深度图的精度的同时,大幅度地降低计算复杂度。

Description

生成立体视频深度图的方法及装置
技术领域
本发明涉及图像处理技术领域,特别涉及一种生成立体视频深度图的方法及装置。
背景技术
交互式立体视频是一种全新的交互式多媒体形式,其允许用户自主地选择观看的视角以获得所感兴趣的立体视频内容。交互性立体视频系统具有自然场景或虚拟场景的三维沉浸视觉感受、无缝式视点切换与灵活的人机交互特性。交互式立体视频的研究已经吸引了广泛关注并成为研究热点。
交互式立体视频的场景捕获过程往往使用多视点采集的方式,为了能向人们以交互式的方式多角度地显示具有临境感的场景图像,客户端需要在展示重建多视点图像的基础上,绘制出虚拟视点图像以实现平滑的人机交互过程。关于虚拟视点图像的绘制技术有许多种,其中利用深度图进行绘制是最为重要的手段。深度图可以有效地表示场景对图像的三维空间信息,在客户端根据用户需要绘制出高质量的各虚拟视点图像,减少需要编码传输的视点数量,节省存储空间与传输带宽。
其中,深度图可以通过深度相机获取或由多路视频信号计算生成。但是,深度相机价格昂贵而且获得的深度图的精度不足。因此,现有技术通常由多路视频信号计算生成深度图。
现有的基于分割的深度图生成方法一般采用过分割的做法,使得单个分割区域尽可能细小,从而避免深度图精度的降低,但是这会导致全局优化具有很高的计算复杂度。
发明内容
本发明的目的旨在至少解决上述技术缺陷。
为达到上述目的,本发明一方面提出一种生成立体视频深度图的方法,包括以下步骤:对与当前视角相邻的两路视频帧进行立体匹配以获得预定的搜索范围内的视差值的匹配代价;对所述当前视角的视频帧进行基于颜色的分割以获得多个第一分割单元;根据所述当前视角的视频帧的运动信息对所述多个第一分割单元进行融合以获得多个第二分割单元;以每个第二分割单元为结点,对所述视差值进行全局优化以获得每个结点的最优视差值;以及将所述最优视差值转换为深度值,并根据所述深度值构建深度图。
在本发明的一个实施例中,所述预定的搜索范围内的视差值的匹配代价Cost(i,j,l)通过以下的公式获得,
Cost(i,j,l)=|p(i,j)-q(i,j+l)|,l∈预定的搜索范围,
其中,p(i,j)为一路视频中的像素点,q(i,j+l)为另一路视频中的像素点,l为p(i,j)与q(i,j+l)之间的视差值。
在本发明的一个实施例中,根据所述第二分割单元中所有像素点的匹配代价和构建优化目标函数,以对所述视差值进行优化。
在本发明的一个实施例中,所述当前视角的视频帧与所述与当前视角相邻的两路视频帧属于同一时刻。
在本发明的一个实施例中,所述当前视角的视频帧的运动信息通过运动搜索的方法获得,或者由外部输入。
在本发明的一个实施例中,对相邻且运动信息一致的第一分割单元进行合并以获得第二分割单元。
本发明另一方面还提出一种生成立体视频深度图的装置,包括:匹配单元,用于对与当前视角相邻的两路视频帧进行立体匹配以获得预定的搜索范围内的视差值的匹配代价;分割单元,用于对所述当前视角的视频帧进行基于颜色的分割以获得多个第一分割单元;融合单元,用于根据所述当前视角的视频帧的运动信息对所述多个第一分割单元进行融合以获得多个第二分割单元;优化单元,用于以每个第二分割单元为结点,对所述视差值进行全局优化以获得每个结点的最优视差值;以及构建单元,用于将所述最优视差值转换为深度值,并根据所述深度值构建深度图。
本发明通过根据运动信息对细小的分割区域进行自适应融合,可以在保证深度图的精度的同时,大幅度地降低计算复杂度。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例的生成立体视频深度图的方法的流程图;
图2为本发明一个实施例的视差值与深度值的关系示意图;
图3为本发明实施例的生成立体视频深度图的装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
如图1所示为本发明实施例的生成立体视频深度图的方法的流程图,包括以下步骤:
步骤S101,对与当前视角相邻的两路视频帧进行立体匹配以获得预定的搜索范围内的视差值的匹配代价。
具体地,首先读入一个单元长度的两路视频流,单位长度可以是一个视频序列,也可以是一个图像组。然后,对齐两路视频流,各取同时刻的一帧作为图像对为单位进行处理。对于每个像素点p(i,j),在预定的搜索范围内,例如0~100,依次匹配,通过以下的公式计算每个视差值的代价值,
Cost(i,j,l)=|p(i,j)-q(i,j+l)|,l∈[0,100],
其中,p(i,j)为一路视频中的像素点,q(i,j+l)为另一路视频中的像素点,l为两者之间的视差偏移值。
应理解,搜索范围的大小可以根据实际需要而设定,不限于上述例子中的100。
步骤S102,对当前视角的视频帧进行基于颜色的分割以获得多个第一分割单元。
需要注意的是,当前视角的视频帧应与步骤S101中的图像对属于同一时刻的视频帧。
此外,所述基于颜色的分割可以采用现有的颜色分割方法,例如采用mean-shift分割方法。此处,为了简单起见,不再赘述。
步骤S103,根据当前视角的视频帧的运动信息对多个第一分割单元进行融合以获得第二分割单元。
本发明发现,相邻的颜色分割块如果具有相同的运动信息,则应该属于同一对象,很有可能具有相同的深度数值。因此,在本发明的一个实施例中,对相邻且运动信息一致的第一分割单元进行合并以获得第二分割单元。在具体实施例中,可以出于实现的简单性考虑,设置一个邻域范围。以每一个第一分割单元为几何中心,合并在此邻域范围内相邻且运动信息一致的第一分割单位,从而获得第二分割单元。很明显地,第二分割单元的数目少于第一分割单元的数目,这可以使得后面的步骤S104中的迭代结点数大大减少,因此可以降低整体计算复杂度。
其中,当前视角的视频帧的运动信息可以采用传统的运动搜索方法得到,也可以由外部输入。
步骤S104,以每个第二分割单元为结点,采用全局优化算法,获取最优视差值。
在本发明的一个实施例中,根据每个第二分割单元的匹配代价构建优化目标函数,其中,每个第二分割单元的匹配代价为这个分割单元中所有像素点的匹配代价和。应理解,这仅为示意性的例子,并不用于限制本发明,除此之外,也可以选取其他的优化目标函数。
此外,可以采取的优化方法也不限,例如可以采取图分割方法、动态规划优化等。
步骤S105,将最优视差值转换为深度值,并根据深度值构建深度图。
如图2所示,相机距离(双眼距离)tc平行放置,焦距为f,物体P的深度值为Z,左右两个视点在成像图(焦平面)上距离光轴中心的距离分别为dl=d1和dr=-d2
那么,视差d为d=dl-dr=d1+d2
通过光学几何关系可以得到简单的视差和深度关系,
Figure BDA0000052726780000041
根据上述关系,可以将视差值转换为深度值,以便根据深度值构建深度图。
为实现上述实施例,本发明还提出一种生成立体视频深度图的装置。如图3所示为本发明实施例的生成立体视频深度图的装置的结构示意图,包括:匹配单元100、分割单元200、融合单元300、优化单元400和构建单元500。
匹配单元100用于对与当前视角相邻的两路视频帧进行立体匹配以获得预定的搜索范围内的视差值的匹配代价。分割单元200用于对当前视角的视频帧进行基于颜色的分割以获得多个第一分割单元。融合单元300用于根据当前视角的视频帧的运动信息对多个第一分割单元进行融合以获得多个第二分割单元。优化单元400用于以每个第二分割单元为结点,对所述视差值进行全局优化以获得最优视差值。构建单元500用于将最优视差值转换为深度值,并根据所述深度值构建深度图。
每个单元的具体工作过程与上述方法中的描述相同,此处为了简单起见,不再赘述。
应注意的是,在上面的实施例中,以两路视频为例进行说明,但是本发明的方法和装置当然也可以适用于多路视频。例如,对于四路视频,可以将其分为两组两路视频,分别进行处理。
本发明通过根据运动信息对细小的分割区域进行自适应融合,可以在保证深度图的精度的同时,大幅度地降低计算复杂度。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。

Claims (12)

1.一种生成立体视频深度图的方法,其特征在于,包括以下步骤:
对与当前视角相邻的两路视频帧进行立体匹配以获得预定的搜索范围内的视差值的匹配代价;
对所述当前视角的视频帧进行基于颜色的分割以获得多个第一分割单元;
根据所述当前视角的视频帧的运动信息对所述多个第一分割单元进行融合以获得多个第二分割单元;
以每个第二分割单元为结点,对所述视差值进行全局优化以获得每个结点的最优视差值;以及
将所述最优视差值转换为深度值,并根据所述深度值构建深度图。
2.根据权利要求1所述的生成立体视频深度图的方法,其特征在于,其中,所述预定的搜索范围内的视差值的匹配代价Cost(i,j,l)通过以下的公式获得,
Cost(i,j,l)=|p(i,j)-q(i,j+l)|,l∈预定的搜索范围,
其中,p(i,j)为一路视频中的像素点,q(i,j+l)为另一路视频中的像素点,l为p(i,j)与q(i,j+l)之间的视差值。
3.根据权利要求1所述的生成立体视频深度图的方法,其特征在于,所述对所述视差值进行全局优化,进一步包括:
根据所述第二分割单元中所有像素点的匹配代价和,构建优化目标函数。
4.根据权利要求1所述的生成立体视频深度图的方法,其特征在于,所述当前视角的视频帧与所述与当前视角相邻的两路视频帧属于同一时刻。
5.根据权利要求1所述的生成立体视频深度图的方法,其特征在于,其中,所述当前视角的视频帧的运动信息通过运动搜索的方法获得,或者由外部输入。
6.根据权利要求1所述的生成立体视频深度图的方法,其特征在于,所述根据所述当前视角的视频帧的运动信息对所述多个第一分割单元进行融合,进一步包括:
对相邻且运动信息一致的第一分割单元进行合并以获得第二分割单元。
7.一种生成立体视频深度图的装置,其特征在于,包括:
匹配单元,用于对与当前视角相邻的两路视频帧进行立体匹配以获得预定的搜索范围内的视差值的匹配代价;
分割单元,用于对所述当前视角的视频帧进行基于颜色的分割以获得多个第一分割单元;
融合单元,用于根据所述当前视角的视频帧的运动信息对所述多个第一分割单元进行融合以获得多个第二分割单元;
优化单元,用于以每个第二分割单元为结点,对所述视差值进行全局优化以获得每个结点的最优视差值;以及
构建单元,用于将所述最优视差值转换为深度值,并根据所述深度值构建深度图。
8.根据权利要求7所述的生成立体视频深度图的装置,其特征在于,所述匹配单元通过以下的公式计算预定的搜索范围内的视差值的匹配代价,
Cost(i,j,l)=|p(i,j)-q(i,j+l)|,l∈预定的搜索范围,
其中,p(i,j)为一路视频中的像素点,q(i,j+l)为另一路视频中的像素点,l为p(i,j)与q(i,j+l)之间的视差值。
9.根据权利要求7所述的生成立体视频深度图的方法,其特征在于,所述对所述视差值进行全局优化,进一步包括:
根据所述第二分割单元中所有像素点的匹配代价和,构建优化目标函数。
10.根据权利要求7所述的生成立体视频深度图的装置,其特征在于,所述当前视角的视频帧与所述与当前视角相邻的两路视频帧属于同一时刻。
11.根据权利要求7所述的生成立体视频深度图的装置,其特征在于,其中,所述当前视角的视频帧的运动信息通过运动搜索的方法获得,或者由外部输入。
12.根据权利要求7所述的生成立体视频深度图的装置,其特征在于,所述根据所述当前视角的视频帧的运动信息对所述多个第一分割单元进行融合,进一步包括:
对相邻且运动信息一致的第一分割单元进行合并以获得第二分割单元。
CN 201110077725 2011-03-29 2011-03-29 生成立体视频深度图的方法及装置 Pending CN102111637A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110077725 CN102111637A (zh) 2011-03-29 2011-03-29 生成立体视频深度图的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110077725 CN102111637A (zh) 2011-03-29 2011-03-29 生成立体视频深度图的方法及装置

Publications (1)

Publication Number Publication Date
CN102111637A true CN102111637A (zh) 2011-06-29

Family

ID=44175640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110077725 Pending CN102111637A (zh) 2011-03-29 2011-03-29 生成立体视频深度图的方法及装置

Country Status (1)

Country Link
CN (1) CN102111637A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279973A (zh) * 2013-06-13 2013-09-04 清华大学 基于混合并行的立体图像匹配系统
CN105376543A (zh) * 2014-08-06 2016-03-02 Tcl集团股份有限公司 一种3d图像的视差图获取方法及系统
CN105611273A (zh) * 2015-12-31 2016-05-25 武汉鸿瑞达信息技术有限公司 面向互联网应用3d视频/图像生成方法
CN108496201A (zh) * 2017-09-27 2018-09-04 深圳市大疆创新科技有限公司 图像处理方法和设备
CN115171030A (zh) * 2022-09-09 2022-10-11 山东省凯麟环保设备股份有限公司 基于多级特征融合的多模态图像分割方法、系统及器件

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101563933A (zh) * 2006-12-22 2009-10-21 高通股份有限公司 复杂性自适应二维到三维视频序列转换
CN101720047A (zh) * 2009-11-03 2010-06-02 上海大学 基于颜色分割的多目摄像立体匹配获取深度图像的方法
CN101976455A (zh) * 2010-10-08 2011-02-16 东南大学 一种基于立体匹配的彩色图像三维重建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101563933A (zh) * 2006-12-22 2009-10-21 高通股份有限公司 复杂性自适应二维到三维视频序列转换
CN101720047A (zh) * 2009-11-03 2010-06-02 上海大学 基于颜色分割的多目摄像立体匹配获取深度图像的方法
CN101976455A (zh) * 2010-10-08 2011-02-16 东南大学 一种基于立体匹配的彩色图像三维重建方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279973A (zh) * 2013-06-13 2013-09-04 清华大学 基于混合并行的立体图像匹配系统
CN105376543A (zh) * 2014-08-06 2016-03-02 Tcl集团股份有限公司 一种3d图像的视差图获取方法及系统
CN105611273A (zh) * 2015-12-31 2016-05-25 武汉鸿瑞达信息技术有限公司 面向互联网应用3d视频/图像生成方法
CN105611273B (zh) * 2015-12-31 2017-08-18 武汉鸿瑞达信息技术有限公司 面向互联网应用3d视频/图像生成方法
CN108496201A (zh) * 2017-09-27 2018-09-04 深圳市大疆创新科技有限公司 图像处理方法和设备
CN115171030A (zh) * 2022-09-09 2022-10-11 山东省凯麟环保设备股份有限公司 基于多级特征融合的多模态图像分割方法、系统及器件
CN115171030B (zh) * 2022-09-09 2023-01-31 山东省凯麟环保设备股份有限公司 基于多级特征融合的多模态图像分割方法、系统及器件

Similar Documents

Publication Publication Date Title
US12020355B2 (en) Artificially rendering images using viewpoint interpolation and extrapolation
US10176592B2 (en) Multi-directional structured image array capture on a 2D graph
US9940541B2 (en) Artificially rendering images using interpolation of tracked control points
US10242474B2 (en) Artificially rendering images using viewpoint interpolation and extrapolation
EP1836859B1 (en) Automatic conversion from monoscopic video to stereoscopic video
CN101416520B (zh) 多视图的高效编码
US8116557B2 (en) 3D image processing apparatus and method
Ideses et al. Real-time 2D to 3D video conversion
EP2659680B1 (en) Method and apparatus for providing mono-vision in multi-view system
CN102905145B (zh) 立体影像系统、影像产生方法、影像调整装置及其方法
CN101513077A (zh) 用于经编码的立体图像/视频数据的文件格式
CN101223552A (zh) 用于深度提取的视频处理方法和装置
CN108616742B (zh) 一种3d全景拍摄系统以及方法
US9154765B2 (en) Image processing device and method, and stereoscopic image display device
CN102447925A (zh) 一种虚拟视点图像合成方法及装置
CN102111637A (zh) 生成立体视频深度图的方法及装置
CN102750694B (zh) 基于局部最优置信传播算法的双目视频深度图求取方法
KR101868017B1 (ko) 스테레오 매칭 방법 및 그 장치
Kim et al. The adaptation of 3D stereoscopic video in MPEG-21 DIA
CN106028018B (zh) 面向裸眼3d显示的实拍双视点3d视频优化方法及系统
Kovacs et al. 3D capturing using multi-camera rigs, real-time depth estimation and depth-based content creation for multi-view and light-field auto-stereoscopic displays
Ju Jeong et al. 13.3: efficient direct light‐field rendering for autostereoscopic 3D displays
KR20120062477A (ko) 다시점 깊이 영상 생성 방법 및 장치
EP3391330B1 (en) Method and device for refocusing at least one plenoptic video
Adhikarla et al. View synthesis for lightfield displays using region based non-linear image warping

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110629