CN102439976B - 重构深度图像的方法和重构深度图像的解码器 - Google Patents

重构深度图像的方法和重构深度图像的解码器 Download PDF

Info

Publication number
CN102439976B
CN102439976B CN201080019884.5A CN201080019884A CN102439976B CN 102439976 B CN102439976 B CN 102439976B CN 201080019884 A CN201080019884 A CN 201080019884A CN 102439976 B CN102439976 B CN 102439976B
Authority
CN
China
Prior art keywords
image
stream
pixel
bit
enhancement layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080019884.5A
Other languages
English (en)
Other versions
CN102439976A (zh
Inventor
芮世薰
安东尼·韦特罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN102439976A publication Critical patent/CN102439976A/zh
Application granted granted Critical
Publication of CN102439976B publication Critical patent/CN102439976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/36Scalability techniques involving formatting the layers as a function of picture distortion after decoding, e.g. signal-to-noise [SNR] scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/003Aspects relating to the "2D+depth" image format

Abstract

一种方法重构被编码为基层比特流和一组增强层比特流的深度图像。解码基层比特流从而产生对应于深度图像的重构基层图像的像素。以从低到高的顺序解码各增强层比特流来产生重构的残余图像。在增强层比特流的解码期间,使用边缘映射维护背景模型,并且使用背景模型熵解码每个增强层比特流来确定对应于重构的残余图像的像素的显著值和每个显著像素的符号比特,并且根据显著值、符号比特和不确定区间重构经过重构的残余图像的像素值。随后,将重构残余图像添加到重构的基层图像来产生重构的深度图像。

Description

重构深度图像的方法和重构深度图像的解码器
技术领域
本发明一般涉及深度视频的高效表示,更具体地,涉及针对新视点合成虚拟图像的目的而对深度视频进行准确编码。
背景技术
三维(3D)视频应用(例如3D-TV和自由视点TV(FTV))需要深度信息来生成虚拟图像。可以使用虚拟图像用于画面的自由视点导航或者各种其他显示处理目的。
合成虚拟图像的一个问题是深度信息中的误差。这是边缘周围的特殊问题,并且会在合成图像中导致令人苦恼的伪像(artifact),参见Merkle等人在3DTV会议:TheTrue vision-capture,transmission and display of 3D video,Volume,Issue,28-30 May2008,第245-248页,题为“The Effect of Depth Compression on Multiview RenderingQuality”的文章。
发明内容
本发明的实施方式提供了用于深度图像和视频的多层编码方案。该方法保证各个重构像素的最大误差不大于误差限制值。最大误差会随着各个编码层而变化从而实现图像中像素值的连续细化。在各个编码层中,也可以考虑局部图像特征(例如对应于深度不连续的边缘)调节误差限制值。
附图说明
图1A是根据本发明的实施方式的多层编码器和多层解码器的框图。
图1B是根据本发明的实施方式的多层编码器和多层解码器的框图。
图2A是根据本发明的实施方式的增强层比特流编码器的框图。
图2B是根据本发明的实施方式的增强层比特流解码器的框图。
图3A是根据本发明的实施方式的增强层比特流编码器的框图。
图3B是根据本发明的实施方式的增强层比特流解码器的框图。
图4A是根据本发明的实施方式的增强层比特流编码器的框图。
图4B是根据本发明的实施方式的增强层比特流解码器的框图。
图5A是根据本发明的实施方式的误差限制值的非自适应设置的曲线。
图5B是根据本发明的实施方式的误差限制值的自适应设置的曲线。
具体实施方式
虚拟视图合成
我们的虚拟图像合成使用相机参数和画面中的深度信息来确定根据相邻视点的图像(相邻图像)中的像素而合成的图像中的像素的纹理值(texture value)。
典型地,使用两个相邻图像来合成针对这两个相邻图像之间的任意视点的虚拟图像。
将两个相邻图像中的各个像素投射到虚拟图像平面中的对应像素。我们使用针孔相机模型(pinhole camera model)利用
[u,v,w]T=Rc·Ac -1·[x,y,1]T·d[c,x,y]+Tc,(1)
来将相邻图像c中的位置(x,y)处的像素投射到世界坐标[u,v,w]中,
其中d为相对于图像c处的相机的光心的深度,A、R和T为相机参数,而上标T为转置算子。
我们根据
Xv=[x′,y′,z′]T=Av·Rv -1·[u,v,w]T-Tv.(2)
将世界坐标(world coordinates)映射到虚拟图像的目标坐标[x′,y′,z′]。
在被z′进行归一化之后,获得了虚拟图像中的像素[x′/z′,y′/z′],其对应于相邻图像中的像素[x,y]。
对于纹理映射,我们将来自当前相邻图像(c)的深度和对应纹理I[x,y]复制到虚拟图像深度和纹理缓存器中的对应位置[x′/z,y′/z′]。为各个相邻的图像维护深度和纹理缓存器用以生成合成图像。
由于虚拟缓存器中的投射位置的量化,所以这些虚拟图像缓存器中一些像素的值缺失或未定义。为了呈现虚拟图像,我们扫描两个虚拟图像深度缓存器中的各个位置并且采用以下过程。
如果两个深度都为0,则不存在纹理信息。这造成合成图像中的洞(hole)。
如果一个深度为非0,则使用对应于非0深度的纹理值。
如果两个深度都为非0,则我们求取对应纹理值的加权和。为了提高最终呈现的图像的质量,可以进行滤波和修复(in-painting)。优选地,我们用3X3中值滤波器来恢复合成图像中的未定义区域。
可以通过组合公式(1)和(2)获得从当前相机到虚拟相机的直接转换:
Xv=[x′,y′,z′]T=M1·d·Xc+M2    (3)
其中M1=Av·Rv -1·Rc·Ac -1,而M2=Av·Rv -1·{Tc-Tv}。
虚拟视点合成的深度误差的分析
如果存在深度编码误差Δd,则虚拟相机ΔXv中的对应位置的误差为
ΔXv=M1·Xc·Δd    (4)
对Xv和Xv+ΔXv两者进行归一化从而确定虚拟相机的对应坐标。在归一化之后,纹理映射误差为
E map = [ x ′ z ′ , y ′ z ′ ] - [ x ′ + Δ X v ( 1 ) z ′ + Δ X v ( 3 ) , y ′ + Δ X v ( 2 ) z ′ + Δ X v ( 3 ) ] - - - ( 5 )
使用传统编码方案,在目标边界可能会发生较大的深度编码误差。纹理映射误差在同一边界周围也很大。
公式(5)表明纹理映射误差取决于深度编码误差和其他参数(如相机参数和待映射的点的坐标)。
如果相机参数和深度信息足够精确,则对深度的严格控制是有利的,这是因为深度代表画面中的地理距离。在通常用于确定目标的边界的深度边缘附近尤其如此。
在多视点视频中,针对各个视点估计深度图像。深度图像中的像素表示到画面中3D点的距离。因为虚拟图像合成的质量高度地取决于该深度,因而该距离必须准确。因此,关键是平衡深度图像的质量和相关的带宽需求。
计算机系统和方法概述
因此,本发明的实施方式提供了用于深度图像和视频的多层编码方案。该方法保证针对各个重构像素的最大误差是受限的。最大误差随着各个编码层而变化,允许图像中像素值的连续细化。在各个编码层中,也可以调节误差限制值来考虑局部图像特征(例如对应于深度不连续的边缘)。
系统概述
图1A和图1B分别示出了多层编码器和解码器。可以在本技术领域已知的处理器100中执行编码器和解码器的步骤。
对于编码来说,输入的深度图像(或视频)I 101被编码为基层比特流L0 102和一组一个或多个增强层比特流L2-Ln 103。按照从低到高的顺序布置增强层比特流。增强层比特流的数量取决于传送深度图像比特流的带宽要求。例如,低带宽仅可以支持少量增强层比特流。随着带宽增加,增强层比特流的数量也增加。
对于基层L0来说,编码可以是有损编码器110。对于图像来说,这可以是常规编码方案,例如充分利用空间冗余的JPEG或JPEG 2000。对于视频来说,有损编码器可以是任何常规视频编码方案,例如采用运动补偿预测从而充分利用时间冗余的MPEG-2或H.264/AVC。
随后,获得输入的图像和基层重构图像之间的差并且将该差提供作为第一层L-∞层比特流编码器的输入从而产生第一层比特流。随后,获得输入图像和第一层重构图像(即基层重构图像和第一层残余重构(residual reconstruction)的和)之间的差并且将该差提供作为第二层L-∞层比特流编码器111的输入从而产生第二层比特流。该过程继续N层直到产生第N层比特流为止。
多层解码处理与编码操作相逆。如图1B所示,基层比特流解码器120从基层比特流102重构基层图像第一层L-∞解码器121解码第一增强层比特流L1来重构第一层残余,第一层残余随后被添加到重构的基层图像用于产生第一层重构图像第二层L-∞解码器121解码第二层比特流来产生第二层残余重构,第二层残余重构随后被添加到第一层重构图像用于产生第二层重构图像针对各个增强层比特流126继续该过程直到产生第N层重构图像为止。
在增强层比特流组中的层的数量通常对于给定视频或应用是固定的,即不随时间变化。然而,如上所述,它会随着可用带宽而变化。较大数量的层比特流在缩放对深度进行编码的速率方面提供了更大的灵活性,同时确保深度图像的像素的最小质量水平。最小化大多数缩放编码方案典型的总开销来说,较少的层是理想的。我们的研究表明2-3层对于深度图像编码是合适的。
本发明描述了该方法的几种实施方式,这些实施方式在执行增强层比特流编码和解码的方式方面不同。
具有推断出的边缘信息的增强层比特流
图2A和图2B分别示出了增强层比特流编码器210和解码器202的实施方式。编码器执行编码方法和解码方法的步骤。
对于重构205来说,编码器基于不确定区间(uncertainty interval)确定第i层残余211(其为输入图像和第(i-1)重构图像之间的差)中各个像素的显著性(significancevalue)(210)。不确定区间定义了当前像素值的上界和下界从而限制误差。
若残余值落入不确定区间之外则是显著的。不确定区间220指明了待解码的像素的最大允许误差,对于不同层221(由层识别符指明)来说可以变化。误差限制值222还可针对图像的不同部分而变化。例如,边缘像素可能具有比非边缘像素更低的误差限制值。
使用边缘映射(edge map)223来确定图像的当前层中的各个像素的不确定区间。在本发明的特定实施方式中,以背景模型(context model)的形式仅根据解码器处可用的重构数据推断边缘映射。以此方式,解码器无需额外的边侧信息来确定不确定区间。可使用的重构数据包括第(i-1)层重构图像和第i层残余。
为了保证重构中的每个像素都在不确定区间内,将不确定区间内的新重构像素值分配给显著像素。在2006年虚拟通信和图像处理的SPIE会议上的题为“AWavelet-Based Two-Stage Near-Lossless Coder with L-inf-Error Scalability”的论文中,Yea和Pearlman描述了为显著像素分配新重构像素值分配的方式。下面描述能够更有效编码的另选重构处理。
分配新重构值的处理除了显著比特(significance bit)的编码之外还需要符号比特的编码。取决于符号比特,向当前像素值添加某个值或从当前像素值中减去某个值。由此,对于显著像素,显著比特(值=1)和符号比特都被熵编码(230)。
对于非显著像素,无需分配新重构值,这是因为该值已经落入不确定区间中。因此,对于非显著像素,只有显著比特(值=0)需要熵编码。
为了有效地压缩显著比特和符号比特,通过熵编码维护背景模型240从而产生第i层比特流。使用背景模型将熵编码处理转换成传统熵编码处理,通过利用正被编码的数据的统计减小输出编码速率。
在该实施方式中,维护背景模型基于给定编码层中显著比特的统计。在优选实施方式中,考虑了当前像素的因果邻域(causal neighbor)的统计,即与已经编码或解码的领域像素相关联的数据。背景模型还考虑了当前像素为边缘像素还是非边缘像素。
如图2B所示,对于重构205,解码器202执行相反操作。基于背景模型,第i层比特流251被熵解码(260)从而确定显著值(210)。基于不确定区间220和显著值,执行重构(205),并且输出第i层残余重构(270)。基于解码器处获得的显著值和边缘映射241更新和维护背景模型240。从解码器处可获得的信息推断本发明的实施方式中的边缘映射。
具有明确边侧信息的增强层比特流
图3A和图3B分别示出了增强层比特流编码器301和解码器302的另一实施方式。在本发明的实施方式中,从原始输入图像获得边缘映射并且将边缘映射编码为边侧信息。显式边缘映射具有提供更准确边缘信息的益处。这需要附加位编码。
图4A和图4B分别示出了增强层比特流编码器401和解码器402的另一实施方式。在本发明的实施方式中,显式通知不确定区间的变化。不确定区间的显式通知能够根据例如用于边缘像素的不确定区间较小的准则,自适应选择不确定区间。
如图5A所示,确定各层的误差限制值501的非自适应设置。在此情况下,对于所有像素位置502误差限制值都相等,并且与局部图像特征无关。
在图5B中,根据像素位置确定误差限制值的自适应设置。针对边缘像素选择各层的较低误差限制值。在各个增强层比特流中,对于边缘和非边缘像素的误差限制值之间的差会发生变化。而且,位置可能在层与层之间变化。
编码过程
在下文中描述用于确定显著性并且执行重构的方法。
第i层比特流编码器的输入图像为img(i,j)而从第i层比特流解码器重构的(i,j)处的输出为rec(i,j)。
差图像为
diff(i,j)=img(i,j)-rec(i,j)。
对于每个像素(i,j),最初将重构rec(i,j)设置为0。
img(,)中的2Lv*2Lv像素的区域为QT(i,j,Lv),其中左上角坐标为(i*2Lv,j*2Lv)。称此为(i,j)处Lv级的四叉树。假定第i层比特流编码器的输入图像按照光栅扫描顺序,即从左到右从上到下的顺序被分成Lv级的连续的非重叠四叉树。
非显著集列表(LIS)最初包含每个QT(i,j,Lv)作为其元素。在下式为真时,认为四叉树相对于偏差水平δ(n)显著,
max ( x , y ) ∈ QT ( i , j , Lv ) | diff ( x , y ) | > δ ( n ) ,
其中(x,y)指的是QT(i,j,Lv)中的像素,而max是返回最大值的函数。第n层比特流编码器的最大偏差度为δ(n)。
分两个阶段(第一显著阶段和第二细化阶段)执行第n层比特流编码器。
显著阶段
显著阶段操作如下:
对于LIS中的各个QT(i,j,Lv),重复步骤(1)到(3)。
输出由
给出的显著测试比特(sig)。
(如果sig=0,则针对下一个(i,j)转到(1))。
否则,进行到步骤(3)。
设置level=Lv-1并且运行EncodeLIS(i,j,level),其中
EncodeLIS(i,j,level)定义如下:
EncodeLIS(i,j,level)
如果level>0,则对于四个子四叉树(QT(i,j,level)、QT(i+1,j,level)、QT(i,j+1,level)、以及QT(i+1,j+1,level))中的每一个,进行步骤2和3。
否则,进行到步骤(4)。
1.输出相对于偏差水平δ(n)的显著比特(sig)。
2.如果sig=0,返回。否则运行EncodeLIS(,,level-1)。
3.将(i,j)置入显著像素列表(LSP(n))并且输出:
4.更新重构rec(i,j):
5.更新diff(i,j):
diff(i,j)=img(i,j)-rec(i,j)
细化阶段
细化阶段细化LSP(k)’s(k=1,2,…,n)中的像素直到最大偏差变得小于或等于偏差水平δ(n)。
细化阶段操作如下:
(1)对于每个k(k=1,2,…n),进行以下步骤:
求出LSP(k)中的像素的最大不确定区间(Gap)。
如果Gap>δ(n),进行步骤(3)到(8)。
否则,k←k+1,并进行到(1)。
对于LSP(k)中的每个像素(i,j),输出显著比特(sig):
如果sig=0,转到(8)。
否则,进行步骤(4)到(8)。
输出所述sign:
1.更新重构rec(i,j):
2.更新diff(i,j):
diff(i,j)=img(i,j)-rec(i,j)
3.从LSP(k)去除(i,j)
4.Gap←Gap-1,转到(2)
多分辨率深度编码
可以在编码之前利用滤波技术对图1A中的输入的深度图像I 101进行滤波,例如相关申请中描述的那样。滤波可以去除深度图像中的错误值,并且使深度图像更易于压缩。这种实施方式的益处在于可以在不增加编码速率的情况下对各个增强层比特流使用较小偏差水平(δ(n)),同时保持输入的深度图像中的大部分关键信息。
在编码之前还可以对图1A中的输入的深度图像I 101进行下采样(sub-sample),并且可以通过上采样图1B中的重构图像来恢复深度图像的原始分辨率。可以在这种实施方式中使用相关申请中描述的下/上采样处理。这种实施方式的益处在于可以在不增加编码速率的情况下对各个增强层比特流使用较小的偏差水平(δ(n)),同时保持原始深度图像中的大部分关键信息。
发明效果
与基于分段线性功能(薄片)的技术类似,本发明的实施方式提供了用于深度图像的多层编码方法来补充边缘感知技术。该方法通过添加额外增强层比特流来提高合成图像的虚拟质量从而保证边缘附近的深度上的接近无损边界。该方法可以并入针对基层比特流的任何有损编码器并且可以扩展到视频。这与不能应用于视频的片状技术相比,明显有利。

Claims (28)

1.一种用于重构被编码为深度比特流的深度图像的方法,所述深度比特流包括基层比特流和一组增强层比特流,其中所述一组增强层比特流按照从低到高的顺序布置,所述深度图像的像素值表示图像面到画面中3D点的距离,所述方法包括用于执行该方法的步骤的处理器,所述方法包括以下步骤:
解码所述基层比特流从而生成对应于所述深度图像的重构基层图像的像素,
以从低到高的顺序解码各个增强层比特流,其中各个增强层比特流的解码生成重构残余图像,以及
将重构残余图像加入所述重构基层图像来生成重构深度图像,其中所述重构深度图像相对于所述深度图像的最大误差对应于与最高增强层相关联的不确定区间,
进一步,生成重构残余图像的步骤进一步包括:
使用对应于所述深度图像的深度不连续点的边缘映射,维护背景模型;
使用所述背景模型对各个增强层比特流进行熵解码,从而确定显著值以及各个显著像素的符号比特,所述显著值设定为:在所述重构残余图像的各像素的残余值不落入表示待解码的像素的最大允许误差的不确定区间的情况下为1,在落入所述不确定区间的情况下为0;以及
根据所述显著值、符号比特和所述不确定区间对所述重构残余图像的像素值进行重构。
2.如权利要求1所述的方法,其中所述像素值与误差限制值相关联。
3.如权利要求2所述的方法,其中所述误差限制值针对各个增强层比特流而变化。
4.如权利要求2所述的方法,其中所述误差限制值根据局部图像特征而变化。
5.如权利要求4所述的方法,其中所述局部图像特征包括边缘。
6.如权利要求1所述的方法,其中所述深度图像用于虚拟视图合成。
7.如权利要求1所述的方法,其中所述增强层比特流的数量取决于传输所述深度比特流的带宽。
8.如权利要求1所述的方法,其中附加地基于所述显著值和符号比特的统计维护所述背景模型。
9.如权利要求1所述的方法,其中在所述解码期间推断所述边缘映射。
10.如权利要求1所述的方法,其中通过所述编码将所述边缘映射包括在所述深度比特流中。
11.如权利要求1所述的方法,其中在所述深度比特流中显式通知所述不确定区间。
12.如权利要求11所述的方法,所述方法还包括:
针对各个增强层比特流对所述不确定区间进行熵解码。
13.如权利要求1所述的方法,所述方法还包括:
以有损方式编码所述深度图像从而生成所述基层比特流;
针对各个增强层比特流,确定作为所述深度图像与前一层的所述重构深度图像之间的差的残余图像,其中对于第一增强层比特流,所述前一层为基层比特流,此外所述前一层为前一增强层比特流;以及
针对各个增强层比特流,对所述残余图像进行编码从而生成所述一组增强层比特流。
14.如权利要求13所述的方法,其中所述编码还包括:
针对所述残余图像中的像素确定所述显著值;
基于对应于所述深度图像的所述边缘映射指定所述不确定区间;
针对显著像素,基于所述残余图像中的像素值是正还是负,确定符号比特;
基于所述显著值、所述符号比特和所述不确定区间执行重构;以及
对所述显著值和所述符号比特进行熵编码。
15.如权利要求14所述的方法,其中所述不确定区间针对各个增强层比特流而变化。
16.如权利要求14所述的方法,所述方法还包括:
根据局部图像特征调整所述不确定区间。
17.如权利要求16所述的方法,所述方法还包括:
针对各个增强层比特流对所述不确定区间进行熵编码。
18.如权利要求10所述的方法,其中由所述重构深度图像推断所述边缘映射。
19.如权利要求14所述的方法,其中根据所述深度图像确定所述边缘映射。
20.如权利要求19所述的方法,所述方法还包括:
将所述边缘映射编码为所述深度比特流的一部分。
21.如权利要求13所述的方法,所述方法还包括:
对所述深度图像进行下采样。
22.如权利要求1所述的方法,所述方法还包括:
对所述重构深度图像进行上采样。
23.如权利要求1所述的方法,其中在所述基层比特流中包括一系列深度图像,所述编码是有损编码,并且利用预测来充分利用时间冗余。
24.如权利要求14所述的方法,其中在特定像素的绝对值超出所述不确定区间时,所述残余图像的特定像素是显著的。
25.如权利要求14所述的方法,其中在所述残余图像的一组像素中绝对值的最大值超出所述不确定区间时,所述一组像素是显著的,在所述一组像素组中绝对值的最大值小于等于所述不确定区间时,所述一组像素是不显著的。
26.如权利要求25所述的方法,所述方法还包括:
递归地将所述一组像素划分为多个子像素组直到各个子像素组包括一个像素或者所述子像素组是不显著的。
27.如权利要求26所述的方法,其中所述划分为四分树分解。
28.一种用于重构被编码为深度比特流的深度图像的解码器,所述深度比特流包括基层比特流和一组增强层比特流,其中所述一组增强层比特流按照从低到高的顺序布置,所述深度图像的像素值表示图像面到画面中3D点的距离,所述解码器包括:
有损基层解码器,所述有损基层解码器被配置成生成对应于所述深度图像的重构基层图像的像素;
一组增强层解码器,其中各增强层比特流具有一个增强层解码器,并且其中按照从低到高的顺序解码所述一组增强层比特流,并且其中各个增强层比特流的解码生成重构残余图像;以及
用于将所述重构残余图像加入所述重构基层图像来生成重构深度图像的装置,其中所述重构深度图像相对于所述深度图像的最大误差对应于与最高增强层相关联的不确定区间,
其中,各个增强层解码器进一步包括:
用于使用对应于所述深度图像的深度不连续点的边缘映射,维护背景模型的装置;
用于使用所述背景模型对各个增强层比特流进行熵解码从而确定显著值以及各显著像素的符号比特的装置,所述显著值设定为:在所述重构残余图像的各像素的残余值不落入表示待解码的像素的最大允许误差的不确定区间的情况下为1,在落入所述不确定区间的情况下为0;以及
用于根据所述显著值、符号比特和所述不确定区间对所述重构残余图像的像素值进行重构的装置。
CN201080019884.5A 2009-05-04 2010-04-16 重构深度图像的方法和重构深度图像的解码器 Active CN102439976B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/435,057 US20100278232A1 (en) 2009-05-04 2009-05-04 Method Coding Multi-Layered Depth Images
US12/435,057 2009-05-04
PCT/JP2010/057194 WO2010128628A1 (en) 2009-05-04 2010-04-16 Method for reconstructing depth image and decoder for reconstructing depth image

Publications (2)

Publication Number Publication Date
CN102439976A CN102439976A (zh) 2012-05-02
CN102439976B true CN102439976B (zh) 2015-03-04

Family

ID=42555664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080019884.5A Active CN102439976B (zh) 2009-05-04 2010-04-16 重构深度图像的方法和重构深度图像的解码器

Country Status (5)

Country Link
US (1) US20100278232A1 (zh)
EP (1) EP2428045B1 (zh)
JP (1) JP5389172B2 (zh)
CN (1) CN102439976B (zh)
WO (1) WO2010128628A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010093351A1 (en) * 2009-02-13 2010-08-19 Thomson Licensing Depth map coding to reduce rendered distortion
US20110026591A1 (en) * 2009-07-29 2011-02-03 Judit Martinez Bauza System and method of compressing video content
EP2360927A3 (en) * 2010-02-12 2011-09-28 Samsung Electronics Co., Ltd. Image encoding/decoding system using graph based pixel prediction and encoding system and method
US8767968B2 (en) * 2010-10-13 2014-07-01 Microsoft Corporation System and method for high-precision 3-dimensional audio for augmented reality
DE112011103496T5 (de) * 2010-11-15 2013-08-29 Lg Electronics Inc. Verfahren zum Umwandeln eines Einzelbildformats und Vorrichtung zur Benutzung dieses Verfahrens
CN104811706B (zh) 2011-01-06 2017-10-27 三星电子株式会社 视频的编码方法和装置及视频的解码方法和装置
CA2833032C (en) * 2011-06-15 2016-08-30 Mediatek Inc. Method and apparatus of texture image compression in 3d video coding
KR20160034424A (ko) 2012-01-20 2016-03-29 소니 주식회사 유효성 맵 코딩의 복잡성 감소
WO2013189257A1 (en) * 2012-06-20 2013-12-27 Mediatek Inc. Method and apparatus of bi-directional prediction for scalable video coding
US9277212B2 (en) 2012-07-09 2016-03-01 Qualcomm Incorporated Intra mode extensions for difference domain intra prediction
JP6246233B2 (ja) * 2013-01-10 2017-12-13 トムソン ライセンシングThomson Licensing 頂点誤差訂正のための方法および装置
US20140267616A1 (en) * 2013-03-15 2014-09-18 Scott A. Krig Variable resolution depth representation
FR3008840A1 (fr) 2013-07-17 2015-01-23 Thomson Licensing Procede et dispositif de decodage d'un train scalable representatif d'une sequence d'images et procede et dispositif de codage correspondants
US9560358B2 (en) * 2013-07-22 2017-01-31 Qualcomm Incorporated Device and method for scalable coding of video information
CN104284194B (zh) * 2013-10-08 2018-11-23 寰发股份有限公司 利用视图合成预测编码或解码三维或多视图视频的方法以及装置
US9906813B2 (en) 2013-10-08 2018-02-27 Hfi Innovation Inc. Method of view synthesis prediction in 3D video coding
CN104363454B (zh) * 2014-09-01 2017-10-27 北京大学 一种高码率图像的视频编、解码方法及系统
US10757399B2 (en) * 2015-09-10 2020-08-25 Google Llc Stereo rendering system
US10148873B2 (en) * 2015-12-22 2018-12-04 Mitsubishi Electric Research Laboratories, Inc. Method and system for motion adaptive fusion of optical images and depth maps acquired by cameras and depth sensors
CN109600600B (zh) * 2018-10-31 2020-11-03 万维科研有限公司 涉及深度图转换的编码器、编码方法以及三层表达式的存储方法和格式
US11503322B2 (en) 2020-08-07 2022-11-15 Samsung Display Co., Ltd. DPCM codec with higher reconstruction quality on important gray levels
US11509897B2 (en) * 2020-08-07 2022-11-22 Samsung Display Co., Ltd. Compression with positive reconstruction error

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1954614A (zh) * 2004-05-13 2007-04-25 皇家飞利浦电子股份有限公司 编码数值块的方法和设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3788823B2 (ja) * 1995-10-27 2006-06-21 株式会社東芝 動画像符号化装置および動画像復号化装置
KR100513732B1 (ko) * 2002-12-05 2005-09-08 삼성전자주식회사 3차원 객체 데이터 부호화 및 복호화 방법 및 장치
US20050185711A1 (en) * 2004-02-20 2005-08-25 Hanspeter Pfister 3D television system and method
US9131247B2 (en) * 2005-10-19 2015-09-08 Thomson Licensing Multi-view video coding using scalable video coding
US8116581B2 (en) * 2007-06-28 2012-02-14 Microsoft Corporation Efficient image representation by edges and low-resolution signal
AU2009273297B8 (en) * 2008-07-21 2013-03-07 Interdigital Madison Patent Holdings Coding device for 3D video signals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1954614A (zh) * 2004-05-13 2007-04-25 皇家飞利浦电子股份有限公司 编码数值块的方法和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Dongkyoo Shin 等.A Region Of Interest (ROT) Based Wavelet Compression Scheme for Medical Images.《Proceedings of International Society for Optical Engineering(SPIE)》.1997,第3031卷1-28. *
Yu Liu 等.Embedded Image Coding Based on Context Classification and Quadtree Ordering in Wavelet Packet Domain.《Visual Communications and Image Processing 2005,Proc. of SPIE》.2005,第5960卷596052-1至596052-8页. *

Also Published As

Publication number Publication date
JP2012510733A (ja) 2012-05-10
EP2428045B1 (en) 2015-03-11
US20100278232A1 (en) 2010-11-04
JP5389172B2 (ja) 2014-01-15
EP2428045A1 (en) 2012-03-14
CN102439976A (zh) 2012-05-02
WO2010128628A1 (en) 2010-11-11

Similar Documents

Publication Publication Date Title
CN102439976B (zh) 重构深度图像的方法和重构深度图像的解码器
US10528004B2 (en) Methods and apparatus for full parallax light field display systems
EP3751857A1 (en) A method, an apparatus and a computer program product for volumetric video encoding and decoding
US8284237B2 (en) Rendering multiview content in a 3D video system
WO2020053482A1 (en) A method, an apparatus and a computer program product for volumetric video
US20230080852A1 (en) Use of tiered hierarchical coding for point cloud compression
JP2002176553A (ja) 画像処理装置、及びその方法、並びにプログラム、記憶媒体
EP3979205A1 (en) Device and method for processing point cloud data
EP2355515B1 (en) Scalable video coding
US20220292730A1 (en) Method and apparatus for haar-based point cloud coding
CN114503553A (zh) 基于视频的点云压缩模型到世界信令信息
CN113853796A (zh) 用于体积视频编码和解码的方法、装置和计算机程序产品
CN103379349B (zh) 一种视点合成预测编码方法、解码方法、对应的装置及码流
US20220180567A1 (en) Method and apparatus for point cloud coding
US20240153147A1 (en) V3c syntax extension for mesh compression
EP4325853A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
Ferguson et al. Fractal transform techniques for very low bit rate video coding
Zhu et al. A review of fractal video coding
Hussain Multi View Image BCS Compression Sensing with TV-AL3 with View Synthesis Combine Reconstruction for Low Memory Image Generation.
TW202312730A (zh) 具有深度之低複雜度多層影像
CN116368523A (zh) Uv坐标编码

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant