CN101309412A - 基于深度图像渲染的多通道视频流编码器和解码器 - Google Patents

基于深度图像渲染的多通道视频流编码器和解码器 Download PDF

Info

Publication number
CN101309412A
CN101309412A CN 200810062865 CN200810062865A CN101309412A CN 101309412 A CN101309412 A CN 101309412A CN 200810062865 CN200810062865 CN 200810062865 CN 200810062865 A CN200810062865 A CN 200810062865A CN 101309412 A CN101309412 A CN 101309412A
Authority
CN
China
Prior art keywords
channel
accessory channel
video
passage
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200810062865
Other languages
English (en)
Other versions
CN100563340C (zh
Inventor
骆凯
李东晓
张明
何赛军
石冰
冯雅美
谢贤海
朱梦尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wan D display technology (Shenzhen) Co., Ltd.
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN 200810062865 priority Critical patent/CN100563340C/zh
Publication of CN101309412A publication Critical patent/CN101309412A/zh
Application granted granted Critical
Publication of CN100563340C publication Critical patent/CN100563340C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于深度图像渲染的多通道视频流编码器和解码器。本发明在对多通道视频流进行编码时,对中心通道视频流图像帧和深度图按照视频编码标准方法进行编码;根据通道重建后的图像帧和深度图,采用深度图像渲染技术得到邻近的待编码的辅助通道的预测图,对遮挡信息进行变换、量化、熵编码。本发明在对多通道视频压缩码流进行解码时,利用人类视觉系统的生理特点,采用深度图像渲染技术,根据两个相邻通道的图像帧和其深度图,得到位于该两个相邻通道中心位置的一个虚拟通道。在采用本发明解码器输出视频流的显示端,每个立体视点由一个高质量通道和一个虚拟通道构成,观众可以获得良好的立体视觉体验。

Description

基于深度图像渲染的多通道视频流编码器和解码器
技术领域
本发明涉及运动图像处理技术,尤其涉及一种基于深度图像渲染的多通道视频流编码器和解码器。
背景技术
电视系统经历了从黑白到彩色,从模拟到数字的演化。发展至今的二维电视系统提供给观众的是平面的影像,而三维电视系统将能够提供给观众更为接近自然视觉的观看体验。因此从二维系统到三维系统将是一个自然的,可期待的演化,是对目前二维数字电视系统的发展。
对人类视觉系统(HVS,Human Visual System)的研究表明,双眼观察同一物体时,形成的两幅图像存在视差。对人类立体视觉的形成存在两个理论:融合理论(Fusion Theory)认为如果使双眼分别观察到存在差异,并且差异局限在一定范围内的图像,通过视觉融合,人类将形成立体视觉。抑制理论(SuppressionTheory)认为人类视觉系统在形成立体视觉的过程中,立体感和立体图像整体质量取决于质量较好的单眼图像。Lew Stelmach等人设计的双重激励连续质量尺度(DSCQS,Double-Stimulus Continuous-Quality Scale)主观测试实验在一定程度上证实了这一理论。
数字视频技术随着Internet和移动通信的迅猛发展获得了日益广泛的应用,但是数字视频信息的信息量大,对传输网络的带宽要求高,所以一般将数字视频信号在存储或者传输前先进行压缩编码,以便节省存储空间和网络带宽。
形成立体视觉至少需要两个通道的数字视频,目前的自由立体显示器支持多个观众同时观看,其多个立体观看点(立体视点)要求输入多个通道的数字视频,因此一种好的编解码方法需要考虑压缩率、解码重建后的图像质量、观众的立体视觉体验等多个因素,在有限带宽的限制下,取得压缩率和立体视点图像质量的平衡。
目前对多(双)通道数字视频进行编码的方法大致可分为四类,第一类基于MPEG视频编码标准,第二类基于深度图像渲染(DIBR,Depth-Image-BasedRendering)技术,第三类基于对象编码,第四类基于三维网格技术(3D mesh)。
第一类方法基于MPEG视频编码标准。
MPEG-2的MVP(Multi-View Profile)使用时域伸缩工具(TS,TemporalScalability tool),提供了对双通道数字视频(立体视频)编码的支持。MVP使用一种双层编码结构,将左视点通道作为基本层,右视点通道作为增强层。参见:X.Chen and A.Luthra,MPEG-2 Multi-View Profile and its application in 3DTV,in proceedings of SPIE,vol.3021,pp.212-223,1997。采用MVP进行多通道数字视频的编码,其图像帧预测结构类似于目前国际上正在研究的多视点编码标准(MVC,Muiti-view Video Coding)的图像帧预测结构,但由于MVP采用MPEG-2标准作为编码工具,其编码效率比不上目前的视频编码国际标准H.264/AVC。
2003年5月,由ITU-T和ISO/IEC的专家共同组成的联合视频小组JVT(JointVideo Team)制定了视频编码国际标准H.264/AVC。H.264采用了混合编码框架结构,采用了最小4×4的可变块运动预测、多个参考图像帧、上下文自适应的二进制算术编码等等先进技术,同MPEG-2相比,在同样图像质量的情况下,可以取得更高的压缩效率。
JVT目前正在研究制定多视点编码(MVC,Muiti-view Video Coding)国际标准。MVC利用了视点内部和不同视点之间的图像帧相关性,利用H.264/AVC进行编码压缩,由于采用时间和空间的联合预测编码,同各个视点独立编码的联播(Simulcast)相比,目前实验显示,在不同的视频内容下,时空联合编码可提高0.5dB到3dB的增益。参见:P.Merkle,A.Smolic and K.Muller,Efficientprediction structures for multiview video coding,IEEE Trans.CSVT,vol.17,no.11,pp.1461-1473,2007。
MVC使用视差预测来挖掘视点间的相关性。但因摄像机的安装位置、拍摄位置、光照条件的不同一性,摄取的多个视点的图像帧的同一区域,其亮度和色度存在不一致。这种不一致会影响视差预测的准确度和编码的效率,一种解决的方法是在匹配代价函数中加入亮度和色度补偿项。参见:J.H.Hur,S.Cho andY.L.Lee,Adaptive local illumination change compensation method forH.264/AVC-based multiview video coding,IEEE Trans.CSVT,vol.17,no.11,pp.1496-1505,2007。
MVC的编码结构比较复杂,需要大的计算量、长的编码延时和大的参考帧存储空间。MVC需要编码每个视点通道,当视点数目增加时,码率也相应增加。MVC编码、传输、解码所有的视点,将拍摄图像的尺寸和摄像机距离同显示端的图像尺寸和观看距离联系在一起,这样限制了显示端观看位置的灵活性。
2006,AVS(Advanced Video Coding Standard)被确定为视频编码国家标准。AVS同样采用混合编码框架结构,采用了可变块结构、多个参考图像帧、预缩放的整数变换、算术编码等等先进技术。也可以采用AVS对多通道视频流进行编解码。
第二类方法基于深度图像渲染(DIBR)技术。
欧洲信息技术项目(IST,Information Society Technologies)先进三维电视系统(ATTEST,Advanced Three-Dimensional Television System Technology)采用了DIBR方法。参见:C.Fehn,Depth-Image-Based Rendering(DIBR),compressionand transmission for a new approach on 3D-TV,in Proceedings of SPIE,StereoscopicDisplays and Virtual Reality Systems XI,USA,pp.93-104,2004。
ATTEST系统在编码端只编码一个通道(中心通道)的二维视频和该通道的深度图,在解码端采用DIBR的方法,根据深度信息和摄像机参数,把解码恢复的中心通道图像帧投影到三维空间,再投影到虚拟摄像机的成像平面,由此重建出多个虚拟的二维视频通道。
DIBR利用一个通道的深度信息来渲染多个视频通道,同MVC相比,可以取得更高的压缩率,而且不会产生由于相机位置和参数不同造成的亮度、色度不匹配。但由于遮挡,渲染合成的虚拟视点通道图像帧内部会出现空洞,并且由于虚拟视点图像质量的下降,在偏离中心位置的观看位置,观众的立体视觉感受将受影响。
减轻渲染合成的图像帧内部出现空洞的途径目前有三个,一是用空洞周围的纹理来填充空洞,二是对深度图进行滤波平滑,三是编码传输多个通道的深度图,利用多个通道的图像帧和深度图来渲染同一虚拟视点的待合成图像,四是采用较为复杂的多层次深度图(LDI,Layered Depth Image)技术,参见:S.U.Yoonand Y.S.Ho,Multiple color and depth video coding using a hierarchicalrepresentation,IEEE Trans.CSVT,vol.17,no.11,2007。
第三类方法基于对象编码。在MPEG-4当中,一个视频对象可以用形状(shape)、运动(motion)、纹理(texture)三种特征来表示,可以用辅助元素(AC,Auxiliary Component)来存放视差图。采用MPEG-4 MAC对双通道视频进行编码时,通常,用标准MPEG-4编码左路通道视频,用MAC(Multiple AuxiliaryComponent)来存放视差信息。参见:S.Cho,K.Yun,C.Ahn and S.Lee,Disparity-Compensated stereoscopic video coding using the MAC in MPEG-4,RTRIJournal,vol.27,no.3,pp.326-329,2005。采用基于对象的编码技术对自然场景编码时,需要分割提取场景中的多个物体,其算法复杂。
第四类方法基于三维网格(3D mesh)技术。采用三角形网格(Triangle mesh)来分段线性近似物体表面,这种近似带来的误差同三角形网格数目密切相关,网格数越多,误差越小,但巨大数量的网格也为存储和传输带来问题。参见:J.L.Peng,C.S.Kim and C.C.J.Kuo,Technologies for 3D mesh compression:A survey,Journal of Visual Communication and Image Representation,vol.16,no.6,pp.688-733,2005。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于深度图像渲染的多通道视频流编码器和解码器。
多通道视频流编码器包括:
图像校正单元,用于对输入的多个通道视频流图像帧进行校正,以使对应点位于水平扫描线上;
通道选择单元,用于从输入的多个视频通道中选择中心通道和辅助通道;
深度产生单元,用于生成中心通道和辅助通道视频流内每个图像帧的深度图;
辅助通道预测单元,用于根据通道重建单元产生的重建帧,和深度产生单元产生的深度图,产生辅助通道图像帧的预测图;
中心通道编码单元,用于对中心通道视频流,和深度图组成的深度流,按照视频编码标准方法进行编码,以生成中心通道码流,视频编码标准方法包括视频编码国际标准MPEG-X、H.26X和视频编码国家标准AVS;
辅助通道编码单元,用于对辅助通道图像帧的遮挡图按照视频编码标准方法进行编码,以生成辅助通道码流;
通道重建单元,用于对中心通道码流和辅助通道码流,按照视频编码标准方法进行解码,以生成中心通道重建图像帧、重建深度图和辅助通道重建遮挡图,根据重建遮挡图和辅助通道预测单元产生的辅助通道图像帧的预测图,产生辅助通道重建帧;
复用器,用于将摄像机参数、中心通道码流和辅助通道码流,按照时分复用方式,生成多通道视频压缩码流。
所述的深度产生单元根据中心通道图像帧,和与其邻近的任意一个辅助通道的同一时刻的图像帧,产生中心通道该时刻图像帧的深度图;根据通道重建单元产生的当前通道的重建帧,和当前通道的邻近通道的同一时刻的重建帧,产生当前通道该时刻的重建帧的深度图。
所述的辅助通道预测单元根据通道重建单元产生的重建帧,和深度产生单元产生的该重建帧的深度图,按照基于深度图像渲染的方法,合成出该重建帧所在通道的邻近通道的同一时刻的图像帧的预测图。
所述的辅助通道编码单元,对辅助通道图像帧和辅助通道预测单元产生的该图像帧的预测图作差,产生辅助通道遮挡图,遮挡图反映了由于遮挡而没有在预测图上出现的信息。
多通道视频流解码器包括:
解复用器,用于把多通道视频压缩码流分解为摄像机参数、中心通道码流和辅助通道码流;
中心通道解码单元,用于对中心通道码流,按照视频编码标准方法进行解码,以生成中心通道重建图像帧和重建深度图,视频编码标准方法包括视频编码国际标准MPEG-X、H.26X和视频编码国家标准AVS;
深度产生单元,用于产生辅助通道重建图像帧的深度图;
通道预测单元,用于产生辅助通道图像帧的预测图,和虚拟通道图像帧的预测图;
辅助通道解码单元,用于对辅助通道码流,按照视频编码标准方法进行解码,以生成辅助通道图像帧的重建遮挡图,对该重建遮挡图和通道预测单元产生的预测图相加,以生成辅助通道的重建图像帧;
图像反校正单元,用于对解码生成的中心通道重建图像帧、辅助通道重建图像帧和虚拟通道预测图像帧进行反校正,以使各通道图像帧恢复到拍摄的位置。
所述的深度产生单元,根据辅助通道解码单元产生的当前辅助通道的重建图像帧,和当前辅助通道的邻近通道的同一时刻的重建图像帧,产生当前辅助通道的该重建图像帧的深度图。
所述的通道预测单元,根据中心通道解码单元产生的中心通道的重建图像帧和该图像帧的深度图,按照基于深度图像渲染的方法,产生同中心通道邻近的辅助通道的同一时刻的图像帧的预测图;根据辅助通道解码单元产生的当前辅助通道的重建图像帧,和深度产生单元产生的该图像帧的深度图,按照基于深度图像渲染的方法,产生同当前辅助通道邻近的未重建的辅助通道的同一时刻的图像帧的预测图。
所述的通道预测单元,在两个邻近通道的中心位置,根据该两个通道的同一时刻的重建图像帧和深度图,产生虚拟通道图像帧的预测图,该虚拟通道的虚拟摄像机的光心处于其两个邻近通道的摄像机的光心的连线的中点,该虚拟摄像机的光轴和中心通道的摄像机的光轴平行。
所述的图像反校正单元,对于输入解码器的N个通道的压缩视频流,输出2N-1个通道的非压缩视频流,其中包括解码恢复出的N个通道的重建非压缩视频流,和采用深度图像渲染技术合成出的N-1个虚拟通道的非压缩视频流。
所述的图像反校正单元,输出的2N-1个通道分为重建通道和虚拟通道,对N个重建通道,按其真实摄像机的相对位置顺序排列,对虚拟通道,插入到与该虚拟通道邻近的两个重建通道的中心位置;输出的2N-1个通道,共可以产生2N-2个立体视点观看位置,每个立体视点观看位置由一个重建通道和一个虚拟通道组成。
在本发明的多通道视频流编码器中,对中心通道的视频流和其深度图组成的深度流按照视频编码标准方法进行编码,挖掘了中心通道内部图像帧和图像帧在时间上的相关性、深度图和深度图在时间上的相关性;对辅助通道的图像帧,采用DIBR的方法合成出预测图,对辅助通道图像帧的遮挡图按照视频编码标准方法进行编码,挖掘了邻近通道同一时刻的图像帧在空间上的相关性。
在本发明的多通道视频流解码器中,采用DIBR方法,在两个邻近通道的中心位置合成出一个虚拟通道的预测图。该虚拟通道的预测图根据两个邻近通道的图像帧和深度图合成,预测图质量大为提高;解码器输入N个通道的压缩码流,合成N-1个虚拟通道预测流,共可以输出2N-1个通道的非压缩码流,由于每两个通道可以形成一个立体视点,因此增加了显示端立体视点的数目;当显示端支持多个立体视点时,每个立体视点包含一个图像质量较高的中心通道或者辅助通道,和一个图像帧质量稍低的虚拟通道,观众将产生场景立体感不变的视觉效果。
在本发明的多通道视频流解码器中,当显示端仅支持平面显示时,可以将中心通道或者任一辅助通道视频流送至显示单元显示;当显示端支持双通道立体显示时,可以将任意两个邻近通道送至显示单元显示;当显示端支持多个立体视点时,可以至多将2N-1个通道送至显示单元显示,N为输入解码器的通道个数。
采用本发明的编码器和解码器的三维电视系统,在编码端,利用视频编码标准方法来挖掘视点内部的相关性,利用深度渲染(DIBR)方法来挖掘视点之间的相关性;在解码端,利用DIBR方法和HVS的生理性质来获得更多的立体视点。同MVC相比,该系统可以获得更低的码率,同ATTEST相比,观众可以获得更好的立体视觉体验。
附图说明
图1为按照本发明的多通道视频流编码器示意图;
图2为按照本发明的多通道视频流解码器示意图。
具体实施方式
多通道视频流编码器包括:
图像校正单元,用于对输入的多个通道视频流图像帧进行校正,以使对应点位于水平扫描线上;
通道选择单元,用于从输入的多个视频通道中选择中心通道和辅助通道;
深度产生单元,用于生成中心通道和辅助通道视频流内每个图像帧的深度图;
辅助通道预测单元,用于根据通道重建单元产生的重建帧,和深度产生单元产生的深度图,产生辅助通道图像帧的预测图;
中心通道编码单元,用于对中心通道视频流,和深度图组成的深度流,按照视频编码标准方法进行编码,以生成中心通道码流,视频编码标准方法包括视频编码国际标准MPEG-X、H.26X和视频编码国家标准AVS;
辅助通道编码单元,用于对辅助通道图像帧的遮挡图按照视频编码标准方法进行编码,以生成辅助通道码流;
通道重建单元,用于对中心通道码流和辅助通道码流,按照视频编码标准方法进行解码,以生成中心通道重建图像帧、重建深度图和辅助通道重建遮挡图,根据重建遮挡图和辅助通道预测单元产生的辅助通道图像帧的预测图,产生辅助通道重建帧;
复用器,用于将摄像机参数、中心通道码流和辅助通道码流,按照时分复用方式,生成多通道视频压缩码流。
所述的深度产生单元根据中心通道图像帧,和与其邻近的任意一个辅助通道的同一时刻的图像帧,产生中心通道该时刻图像帧的深度图;根据通道重建单元产生的当前通道的重建帧,和当前通道的邻近通道的同一时刻的重建帧,产生当前通道该时刻的重建帧的深度图。
所述的辅助通道预测单元根据通道重建单元产生的重建帧,和深度产生单元产生的该重建帧的深度图,按照基于深度图像渲染的方法,合成出该重建帧所在通道的邻近通道的同一时刻的图像帧的预测图。
所述的辅助通道编码单元,对辅助通道图像帧和辅助通道预测单元产生的该图像帧的预测图作差,产生辅助通道遮挡图,遮挡图反映了由于遮挡而没有在预测图上出现的信息。
多通道视频流解码器包括:
解复用器,用于把多通道视频压缩码流分解为摄像机参数、中心通道码流和辅助通道码流;
中心通道解码单元,用于对中心通道码流,按照视频编码标准方法进行解码,以生成中心通道重建图像帧和重建深度图,视频编码标准方法包括视频编码国际标准MPEG-X、H.26X和视频编码国家标准AVS;
深度产生单元,用于产生辅助通道重建图像帧的深度图;
通道预测单元,用于产生辅助通道图像帧的预测图,和虚拟通道图像帧的预测图;
辅助通道解码单元,用于对辅助通道码流,按照视频编码标准方法进行解码,以生成辅助通道图像帧的重建遮挡图,对该重建遮挡图和通道预测单元产生的预测图相加,以生成辅助通道的重建图像帧;
图像反校正单元,用于对解码生成的中心通道重建图像帧、辅助通道重建图像帧和虚拟通道预测图像帧进行反校正,以使各通道图像帧恢复到拍摄的位置。
所述的深度产生单元,根据辅助通道解码单元产生的当前辅助通道的重建图像帧,和当前辅助通道的邻近通道的同一时刻的重建图像帧,产生当前辅助通道的该重建图像帧的深度图。
所述的通道预测单元,根据中心通道解码单元产生的中心通道的重建图像帧和该图像帧的深度图,按照基于深度图像渲染的方法,产生同中心通道邻近的辅助通道的同一时刻的图像帧的预测图;根据辅助通道解码单元产生的当前辅助通道的重建图像帧,和深度产生单元产生的该图像帧的深度图,按照基于深度图像渲染的方法,产生同当前辅助通道邻近的未重建的辅助通道的同一时刻的图像帧的预测图。
所述的通道预测单元,在两个邻近通道的中心位置,根据该两个通道的同一时刻的重建图像帧和深度图,产生虚拟通道图像帧的预测图,该虚拟通道的虚拟摄像机的光心处于其两个邻近通道的摄像机的光心的连线的中点,该虚拟摄像机的光轴和中心通道的摄像机的光轴平行。
所述的图像反校正单元,对于输入解码器的N个通道的压缩视频流,输出2N-1个通道的非压缩视频流,其中包括解码恢复出的N个通道的重建非压缩视频流,和采用深度图像渲染技术合成出的N-1个虚拟通道的非压缩视频流。
所述的图像反校正单元,输出的2N-1个通道分为重建通道和虚拟通道,对N个重建通道,按其真实摄像机的相对位置顺序排列,对虚拟通道,插入到与该虚拟通道邻近的两个重建通道的中心位置;输出的2N-1个通道,共可以产生2N-2个立体视点观看位置,每个立体视点观看位置由一个重建通道和一个虚拟通道组成。
实施例
图1为按照本发明的多通道视频流编码器的示意图。多通道视频流编码器对输入的多通道视频流和摄像机参数进行压缩编码,输出编码后的压缩码流。编码器包括图像校正单元11,通道选择单元12,深度产生单元13,辅助通道预测单元14,中心通道编码单元15,辅助通道编码单元16,通道重建单元17和复用器18。
参见图1,编码器编码多通道视频流包括如下11个步骤:
步骤1:图像校正单元11接受输入的多通道视频流和摄像机参数,按照标准的校正算法,对图像帧进行校正。校正的结果是在同一时刻,对于不同通道的图像帧,其对应点位于水平线上。
步骤2:通道选择单元12对输入的多个通道进行分类,选出1个中心通道,把余下的通道作为辅助通道。选择中心通道的算法如下:对拍摄获得的N个通道按顺序记为1号,2号,...,N号,N为正整数,N≥2;选取c号通道作为中心通道:
Figure A20081006286500131
-符号
Figure A20081006286500132
表示下取整。把余下的N-1个通道作为辅助通道。
参见图1,记中心通道视频流图像帧为Ic,辅助通道视频流图像帧为Ia,中心通道图像帧的深度图为Zc,辅助通道图像帧的深度图为Za,下标a为正整数,满足1≤a≤N,且a≠c。
步骤3:深度产生单元13对同一时刻的Ic和Ia进行立体匹配,以生成中心通道该时刻的深度图Zc,a可以取a=c-1或者a=c+1。
步骤4:中心通道编码单元15按照视频编码标准方法对中心通道视频流和深度图组成的深度流进行编码,生成中心通道码流。
步骤5:通道重建单元17对中心通道码流进行解码,生成中心通道重建视频流图像帧和重建深度图,分别记为I’c和Z’c
步骤6:辅助通道预测单元14,根据I’c和Z’c,采用基于深度图像渲染(DIBR)的方法,合成出同中心通道邻近的辅助通道的预测图,记为Pa,a可以取a=c-1或者a=c+1。
为描述方便起见,先取a=c-1,进行步骤7到步骤10,再取a=c+1,进行步骤7到10。把满足a<c的a号辅助通道称为左侧辅助通道,把满足a>c的a号辅助通道称为右侧辅助通道。以下描述的编码顺序是先对左侧辅助通道进行编码,再对右侧辅助通道进行编码。但以下描述不应理解为是对本发明的限定,实际上也可以先对右侧辅助通道进行编码,再对左侧辅助通道进行编码,或者对左侧、右侧辅助通道交替进行编码。
步骤7:辅助通道编码单元16首先对a号辅通道同一时刻的Ia和Pa作差,产生a号通道的遮挡图,记为Ra,然后对Ra按照视频编码标准方法进行编码,产生a号通道码流。若a等于1,回到步骤6;若a等于N,跳到步骤11;若1<a<N,进行下一步骤。
步骤8:通道重建单元17对a号通道码流进行解码,产生a号通道的重建遮挡图,记为R’a,R’a和Pa作和,产生a号通道的重建视频流的图像帧,记为I’a
步骤9:深度产生单元13,根据输入的a号通道的重建图像帧I’a,和与其邻近通道的重建图像帧,生成a号通道重建图像帧的深度图,记为Z’a。若a<c,则a+1号通道已先于a号通道被重建,单元13对I’a和I’a+1进行立体匹配,以生成Z’a;若a>c,则a-1号通道已先于a号通道被重建,单元13对I’a和I’a-1进行立体匹配,以生成Z’a。
步骤10:辅助通道预测单元14,根据I’a和Z’a,采用DIBR的方法,合成出同a号通道邻近的未编码的辅助通道的预测图,记该辅助通道为j号。若a<c,j等于a-1,令a等于a-1;若a>c,j等于a+1,令a等于a+1。回到步骤7。
步骤11:复用器18对摄像机参数、中心通道码流和辅助通道码流,按照时分服用方式,生成N个通道的压缩码流。
通过以上11个步骤,编码器最终生成输入的N个通道的压缩码流。在上述的步骤6和步骤10中,辅助通道预测单元14采用重建图像帧I’c(或者I’a),和重建深度图Z’c(Z’a),而不是Ic(或者Ia)和Zc(或者Za),来合成a号通道的预测图Pa,是为了和解码器保持一致性。
在上述的步骤7中,辅助通道编码单元16对辅助通道的遮挡图进行编码并传输到解码端,可以补偿由于采用DIBR方法合成预测图而产生的空洞,在解码端重建出高质量的辅助通道图像帧。
图2为按照本发明的多通道视频流解码器的示意图。多通道视频流解码器对输入的压缩码流和摄像机参数进行解码,输出解码后的非压缩视频流和经虚拟通道合成的非压缩视频流。解码器包括解复用器21,中心通道解码单元22,深度产生单元23,通道预测单元24,辅助通道解码单元25,图像反校正单元26。
参见图2,解码器解码压缩码流包括如下8个步骤:
步骤1:解复用器21把输入的压缩码流分解成摄像机参数、中心通道码流和辅助通道码流。
步骤2:中心通道解码单元22对输入的中心通道码流,按照视频编码标准方法,解码生成中心通道重建视频流的图像帧I’c和重建深度图Z’c
步骤3:通道预测单元24根据输入的I’c和Z’c,采用DIBR方法,合成出同中心通道邻近的a号辅助通道的预测图Pa,a可以取a=c-1或者a=c+1。
为描述方便起见,先取a=c-1,进行步骤4到步骤7,再取a=c+1,进行步骤4到步骤7。把a<c的辅助通道称为左侧辅助通道,把a>c的辅助通道称为右侧辅助通道。以下描述的解码顺序是先对左侧辅助通道进行解码,再对右侧辅助通道进行解码。但以下描述不应理解为是对本发明的限定,实际上也可以先对右侧辅助通道进行解码,再对左侧辅助通道进行解码,或者对左侧、右侧辅助通道交替进行解码。
步骤4:辅助通道解码单元25对辅助通道码流,按照视频编码标准方法进行解码,生成a号辅助通道的重建遮挡图R’a,对a号辅助通道的预测图Pa和重建遮挡图R’a作和,生成a号辅助通道的重建图像帧I’a
步骤5:深度产生单元23,根据输入的a号通道重建图像帧I’a,和与其邻近的通道的同一时刻的重建图像帧,生成a号通道该时刻重建图像帧的深度图Z’a。若a<c,则a+1号通道已先于a号通道被重建,深度产生单元23对I’a和I’a+1进行立体匹配,以生成Z’a;若a>c,则a-1号通道已先于a号通道被重建,深度产生单元23对I’a和I’a-1进行立体匹配,以生成Z’a
步骤6:通道预测单元24根据a号通道的重建图像帧I’a和深度图Z’a,和与其邻近的k号辅助通道同一时刻的重建图像帧I’k和深度图Z’k,采用DIBR的方法,合成出位于a号通道和k号通道中心位置的虚拟通道预测图,记该虚拟通道预测图为Va,该虚拟通道位置对应一个虚拟摄像机,其光心位于a号通道摄像机光心和k号通道摄像机光心的连线的中点位置,其光轴平行于中心通道。若a<c,k等于a+1;若a>c,k等于a-1。合成出Va后,若a等于1,回到步骤3;若a等于N,跳到步骤8;若1<a<N,进行下一步骤。
步骤7:通道预测单元24,根据I’a和Z’a,采用DIBR的方法,合成出同a号通道邻近的q号辅助通道的预测图。若a<c,q等于a-1,令a等于a-1;若a>c,q等于a+1,令a等于a+1。回到步骤4。
步骤8:图像反校正单元26,根据输入的摄像机参数,对中心通道重建图像帧、辅助通道重建图像帧、虚拟通道预测图,进行反校正。虚拟通道需要的虚拟摄像机参数,根据与其相邻的两个通道的摄像机参数,进行线性加权插值得到。

Claims (10)

1.一种多通道视频流编码器,其特征在于,包括:
图像校正单元,用于对输入的多个通道视频流图像帧进行校正,以使对应点位于水平扫描线上;
通道选择单元,用于从输入的多个视频通道中选择中心通道和辅助通道;
深度产生单元,用于生成中心通道和辅助通道视频流内每个图像帧的深度图;
辅助通道预测单元,用于根据通道重建单元产生的重建帧,和深度产生单元产生的深度图,产生辅助通道图像帧的预测图;
中心通道编码单元,用于对中心通道视频流,和深度图组成的深度流,按照视频编码标准方法进行编码,以生成中心通道码流,视频编码标准方法包括视频编码国际标准MPEG-X、H.26X和视频编码国家标准AVS;
辅助通道编码单元,用于对辅助通道图像帧的遮挡图按照视频编码标准方法进行编码,以生成辅助通道码流;
通道重建单元,用于对中心通道码流和辅助通道码流,按照视频编码标准方法进行解码,以生成中心通道重建图像帧、重建深度图和辅助通道重建遮挡图,根据重建遮挡图和辅助通道预测单元产生的辅助通道图像帧的预测图,产生辅助通道重建帧;
复用器,用于将摄像机参数、中心通道码流和辅助通道码流,按照时分复用方式,生成多通道视频压缩码流。
2.根据权利要求1所述的一种多通道视频流编码器,其特征在于所述的深度产生单元根据中心通道图像帧,和与其邻近的任意一个辅助通道的同一时刻的图像帧,产生中心通道该时刻图像帧的深度图;根据通道重建单元产生的当前通道的重建帧,和当前通道的邻近通道的同一时刻的重建帧,产生当前通道该时刻的重建帧的深度图。
3.根据权利要求1所述的一种多通道视频流编码器,其特征在于所述的辅助通道预测单元根据通道重建单元产生的重建帧,和深度产生单元产生的该重建帧的深度图,按照基于深度图像渲染的方法,合成出该重建帧所在通道的邻近通道的同一时刻的图像帧的预测图。
4.根据权利要求1所述的一种多通道视频流编码器,其特征在于所述的辅助通道编码单元,对辅助通道图像帧和辅助通道预测单元产生的该图像帧的预测图作差,产生辅助通道遮挡图,遮挡图反映了由于遮挡而没有在预测图上出现的信息。
5.一种多通道视频流解码器,其特征在于,包括:
解复用器,用于把多通道视频压缩码流分解为摄像机参数、中心通道码流和辅助通道码流;
中心通道解码单元,用于对中心通道码流,按照视频编码标准方法进行解码,以生成中心通道重建图像帧和重建深度图,视频编码标准方法包括视频编码国际标准MPEG-X、H.26X和视频编码国家标准AVS;
深度产生单元,用于产生辅助通道重建图像帧的深度图;
通道预测单元,用于产生辅助通道图像帧的预测图,和虚拟通道图像帧的预测图;
辅助通道解码单元,用于对辅助通道码流,按照视频编码标准方法进行解码,以生成辅助通道图像帧的重建遮挡图,对该重建遮挡图和通道预测单元产生的预测图相加,以生成辅助通道的重建图像帧;
图像反校正单元,用于对解码生成的中心通道重建图像帧、辅助通道重建图像帧和虚拟通道预测图像帧进行反校正,以使各通道图像帧恢复到拍摄的位置。
6.根据权利要求5所述的一种多通道视频流解码器,其特征在于所述的深度产生单元,根据辅助通道解码单元产生的当前辅助通道的重建图像帧,和当前辅助通道的邻近通道的同一时刻的重建图像帧,产生当前辅助通道的该重建图像帧的深度图。
7.根据权利要求5所述的一种多通道视频流解码器,其特征在于所述的通道预测单元,根据中心通道解码单元产生的中心通道的重建图像帧和该图像帧的深度图,按照基于深度图像渲染的方法,产生同中心通道邻近的辅助通道的同一时刻的图像帧的预测图;根据辅助通道解码单元产生的当前辅助通道的重建图像帧,和深度产生单元产生的该图像帧的深度图,按照基于深度图像渲染的方法,产生同当前辅助通道邻近的未重建的辅助通道的同一时刻的图像帧的预测图。
8.根据权利要求5所述的一种多通道视频流解码器,其特征在于所述的通道预测单元,在两个邻近通道的中心位置,根据该两个通道的同一时刻的重建图像帧和深度图,产生虚拟通道图像帧的预测图,该虚拟通道的虚拟摄像机的光心处于其两个邻近通道的摄像机的光心的连线的中点,该虚拟摄像机的光轴和中心通道的摄像机的光轴平行。
9.根据权利要求5所述的一种多通道视频流解码器,其特征在于所述的图像反校正单元,对于输入解码器的N个通道的压缩视频流,输出2N-1个通道的非压缩视频流,其中包括解码恢复出的N个通道的重建非压缩视频流,和采用深度图像渲染技术合成出的N-1个虚拟通道的非压缩视频流。
10.根据权利要求5所述的一种多通道视频流解码器,其特征在于所述的图像反校正单元,输出的2N-1个通道分为重建通道和虚拟通道,对N个重建通道,按其真实摄像机的相对位置顺序排列,对虚拟通道,插入到与该虚拟通道邻近的两个重建通道的中心位置;输出的2N-1个通道,共可以产生2N-2个立体视点观看位置,每个立体视点观看位置由一个重建通道和一个虚拟通道组成。
CN 200810062865 2008-07-07 2008-07-07 基于深度图像渲染的多通道视频流编码器和解码器 Active CN100563340C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200810062865 CN100563340C (zh) 2008-07-07 2008-07-07 基于深度图像渲染的多通道视频流编码器和解码器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200810062865 CN100563340C (zh) 2008-07-07 2008-07-07 基于深度图像渲染的多通道视频流编码器和解码器

Publications (2)

Publication Number Publication Date
CN101309412A true CN101309412A (zh) 2008-11-19
CN100563340C CN100563340C (zh) 2009-11-25

Family

ID=40125591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810062865 Active CN100563340C (zh) 2008-07-07 2008-07-07 基于深度图像渲染的多通道视频流编码器和解码器

Country Status (1)

Country Link
CN (1) CN100563340C (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102246529A (zh) * 2008-12-15 2011-11-16 皇家飞利浦电子股份有限公司 基于图像的3d视频格式
CN102724525A (zh) * 2012-06-01 2012-10-10 宁波大学 一种基于中心凹恰可觉察失真模型的深度视频编码方法
CN102835119A (zh) * 2010-04-01 2012-12-19 英特尔公司 支持自动立体显示器上的实时3d 图像渲染的多核心处理器
WO2013034101A1 (zh) * 2011-09-09 2013-03-14 海信集团有限公司 多视点视频中虚拟视点合成方法及装置
WO2013155795A1 (en) * 2012-04-19 2013-10-24 Lg Electronics(China) R&D Center Co., Ltd Method and apparatus for predicting residual
CN103416059A (zh) * 2011-03-18 2013-11-27 索尼公司 图像处理设备,图像处理方法和程序
US9066075B2 (en) 2009-02-13 2015-06-23 Thomson Licensing Depth map coding to reduce rendered distortion
CN104811685A (zh) * 2008-12-18 2015-07-29 Lg电子株式会社 3d图像信号处理方法和用于实现该方法的图像显示器
US9148673B2 (en) 2009-06-25 2015-09-29 Thomson Licensing Depth map coding
CN104025153B (zh) * 2011-12-30 2017-09-15 英特尔公司 粗到细多个视差候选立体匹配
CN108475330A (zh) * 2015-11-09 2018-08-31 港大科桥有限公司 用于有伪像感知的视图合成的辅助数据
CN109708655A (zh) * 2018-12-29 2019-05-03 百度在线网络技术(北京)有限公司 导航方法、装置、车辆及计算机可读存储介质
CN109842811A (zh) * 2019-04-03 2019-06-04 腾讯科技(深圳)有限公司 一种在视频中植入推送信息的方法、装置及电子设备
CN111031302A (zh) * 2012-04-25 2020-04-17 浙江大学 三维视频序列辅助信息的解码方法、编码方法及装置
CN111316650A (zh) * 2017-10-27 2020-06-19 松下电器(美国)知识产权公司 三维模型编码装置、三维模型解码装置、三维模型编码方法、以及三维模型解码方法
CN111667438A (zh) * 2019-03-07 2020-09-15 阿里巴巴集团控股有限公司 视频重建方法、系统、设备及计算机可读存储介质
CN113840171A (zh) * 2021-09-16 2021-12-24 星宸科技股份有限公司 视频数据处理方法及装置
CN115908157A (zh) * 2021-09-30 2023-04-04 想象技术有限公司 渲染3d场景的图像
CN115941914A (zh) * 2023-01-06 2023-04-07 湖南马栏山视频先进技术研究院有限公司 一种基于视频帧分析的视频渲染系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5660361B2 (ja) * 2010-03-26 2015-01-28 ソニー株式会社 画像処理装置および方法、並びにプログラム

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102246529A (zh) * 2008-12-15 2011-11-16 皇家飞利浦电子股份有限公司 基于图像的3d视频格式
CN104811685B (zh) * 2008-12-18 2017-04-12 Lg电子株式会社 3d图像信号处理方法和用于实现该方法的图像显示器
US9571815B2 (en) 2008-12-18 2017-02-14 Lg Electronics Inc. Method for 3D image signal processing and image display for implementing the same
CN104811685A (zh) * 2008-12-18 2015-07-29 Lg电子株式会社 3d图像信号处理方法和用于实现该方法的图像显示器
US9066075B2 (en) 2009-02-13 2015-06-23 Thomson Licensing Depth map coding to reduce rendered distortion
US9148673B2 (en) 2009-06-25 2015-09-29 Thomson Licensing Depth map coding
CN102835119B (zh) * 2010-04-01 2016-02-03 英特尔公司 支持自动立体显示器上的实时3d图像渲染的多核心处理器
CN102835119A (zh) * 2010-04-01 2012-12-19 英特尔公司 支持自动立体显示器上的实时3d 图像渲染的多核心处理器
CN103416059A (zh) * 2011-03-18 2013-11-27 索尼公司 图像处理设备,图像处理方法和程序
WO2013034101A1 (zh) * 2011-09-09 2013-03-14 海信集团有限公司 多视点视频中虚拟视点合成方法及装置
US9183669B2 (en) 2011-09-09 2015-11-10 Hisense Co., Ltd. Method and apparatus for virtual viewpoint synthesis in multi-viewpoint video
CN104025153B (zh) * 2011-12-30 2017-09-15 英特尔公司 粗到细多个视差候选立体匹配
WO2013155795A1 (en) * 2012-04-19 2013-10-24 Lg Electronics(China) R&D Center Co., Ltd Method and apparatus for predicting residual
US10397609B2 (en) 2012-04-19 2019-08-27 Lg Electronics (China) R & D Center Co., Ltd Method and apparatus for predicting residual
CN111031302A (zh) * 2012-04-25 2020-04-17 浙江大学 三维视频序列辅助信息的解码方法、编码方法及装置
CN102724525A (zh) * 2012-06-01 2012-10-10 宁波大学 一种基于中心凹恰可觉察失真模型的深度视频编码方法
CN102724525B (zh) * 2012-06-01 2014-11-05 宁波大学 一种基于中心凹恰可觉察失真模型的深度视频编码方法
CN108475330A (zh) * 2015-11-09 2018-08-31 港大科桥有限公司 用于有伪像感知的视图合成的辅助数据
CN108475330B (zh) * 2015-11-09 2022-04-08 港大科桥有限公司 用于有伪像感知的视图合成的辅助数据
CN111316650A (zh) * 2017-10-27 2020-06-19 松下电器(美国)知识产权公司 三维模型编码装置、三维模型解码装置、三维模型编码方法、以及三维模型解码方法
CN109708655A (zh) * 2018-12-29 2019-05-03 百度在线网络技术(北京)有限公司 导航方法、装置、车辆及计算机可读存储介质
CN111667438A (zh) * 2019-03-07 2020-09-15 阿里巴巴集团控股有限公司 视频重建方法、系统、设备及计算机可读存储介质
CN111667438B (zh) * 2019-03-07 2023-05-26 阿里巴巴集团控股有限公司 视频重建方法、系统、设备及计算机可读存储介质
CN109842811A (zh) * 2019-04-03 2019-06-04 腾讯科技(深圳)有限公司 一种在视频中植入推送信息的方法、装置及电子设备
CN109842811B (zh) * 2019-04-03 2021-01-19 腾讯科技(深圳)有限公司 一种在视频中植入推送信息的方法、装置及电子设备
CN113840171A (zh) * 2021-09-16 2021-12-24 星宸科技股份有限公司 视频数据处理方法及装置
CN113840171B (zh) * 2021-09-16 2023-06-13 星宸科技股份有限公司 视频数据处理方法及装置
CN115908157A (zh) * 2021-09-30 2023-04-04 想象技术有限公司 渲染3d场景的图像
CN115941914A (zh) * 2023-01-06 2023-04-07 湖南马栏山视频先进技术研究院有限公司 一种基于视频帧分析的视频渲染系统

Also Published As

Publication number Publication date
CN100563340C (zh) 2009-11-25

Similar Documents

Publication Publication Date Title
CN100563340C (zh) 基于深度图像渲染的多通道视频流编码器和解码器
CN100563339C (zh) 一种利用深度信息的多通道视频流编码方法
Yea et al. View synthesis prediction for multiview video coding
Shao et al. Asymmetric coding of multi-view video plus depth based 3-D video for view rendering
CN102055982B (zh) 三维视频编解码方法及装置
DK2594077T3 (en) Hybrid video coding that supports the intermediate-view synthesis
CN101466038B (zh) 一种立体视频编码方法
CN101312542B (zh) 一种自然三维电视系统
US10038890B2 (en) Method and device for generating, storing, transmitting, receiving and reproducing depth maps by using the color components of an image belonging to a three-dimensional video stream
CN104838648B (zh) 用于创建和重建视频流的装置和方法
CN107277550A (zh) 多视点信号编解码器
Lim et al. A multiview sequence CODEC with view scalability
CN102413332B (zh) 基于时域增强的视点合成预测多视点视频编码方法
Puri et al. Stereoscopic video compression using temporal scalability
Chen et al. Coding techniques in multiview video coding and joint multiview video model
CN102790895B (zh) 一种基于最小二乘的多视点视频编码视点合成预测方法
Lee et al. A framework of 3D video coding using view synthesis prediction
CN103379332A (zh) 三维视频序列辅助信息的解码方法、编码方法及装置
Jiang et al. An overview of 3D video representation and coding
Tanimoto et al. Frameworks for FTV coding
Klimaszewski et al. Distortions of synthesized views caused by compression of views and depth maps
Yea et al. View synthesis prediction for rate-overhead reduction in ftv
CN103139554A (zh) 一种三维视频率失真优化方法及优化装置
Stefanoski et al. Image quality vs rate optimized coding of warps for view synthesis in 3D video applications
Smolic et al. Compression of multi-view video and associated data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160620

Address after: 518000 new energy building, Nanhai Road, Shenzhen, Guangdong, Nanshan District A838

Patentee after: Meng Qi media (Shenzhen) Co. Ltd.

Address before: 310027 Hangzhou, Zhejiang Province, Zhejiang Road, No. 38

Patentee before: Zhejiang University

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160831

Address after: 518000, 101, 2, Fengyun technology building, Fifth Industrial Zone, North Ring Road, Shenzhen, Guangdong, Nanshan District

Patentee after: World wide technology (Shenzhen) Limited

Address before: 518000 new energy building, Nanhai Road, Shenzhen, Guangdong, Nanshan District A838

Patentee before: Meng Qi media (Shenzhen) Co. Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180903

Address after: 518000 B unit 101, Fengyun mansion 5, Xili street, Nanshan District, Shenzhen, Guangdong.

Patentee after: Wan D display technology (Shenzhen) Co., Ltd.

Address before: 518000 2 of Fengyun tower, Fifth Industrial Zone, Nanshan District North Ring Road, Shenzhen, Guangdong, 101

Patentee before: World wide technology (Shenzhen) Limited