CN104429079A

CN104429079A - 利用运动矢量预测列表处理用于视图合成的多视图视频的方法和系统

Info

Publication number: CN104429079A
Application number: CN201380036816.3A
Authority: CN
Inventors: 田栋; 邹峰; 安东尼·韦特罗
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-07-09
Filing date: 2013-07-02
Publication date: 2015-03-18
Anticipated expiration: 2033-07-02
Also published as: EP2870766A1; JP2015519834A; EP2870766B1; CN104429079B; WO2014010537A1

Abstract

通过重叠相机来获取多视图视频。边信息用于合成多视图视频。保持用于多视图视频的当前图片的参考图片列表，参考图片索引所获取的多视图视频的时间参考图片和空间参考图片以及合成的多视图视频的合成的参考图片。根据由具有跳过模式和引导模式的关联的参考图片列表索引的参考图片，来预测多视图视频的各个当前帧，从而从合成的参考图片推断边信息。另外，通过还考虑与合成的参考图片关联的相邻块，用于单视图视频编码的跳过和合并模式被修改为通过产生运动矢量预测列表而支持多视图视频编码。

Description

利用运动矢量预测列表处理用于视图合成的多视图视频的方法和系统

技术领域

本发明整体涉及对多视图视频进行编码和解码，并且更具体地说，涉及合成多视图视频。

背景技术

多视图视频(multiview video)编码和解码对于诸如三维电视(3DTV)、自由视点电视(FTV)和多相机监视这样的应用来说是重要的。多视图视频编码和解码还称作动态光场压缩。

图1示出了用于多视图视频编码的现有技术的“同时联播”系统100。相机1-4获取场景5的一系列帧或视频101-104。各个相机具有场景的不同视图。各个视频被独立地编码111-114为对应的已编码视频121-124。该系统使用常规2D视频编码技术。因此，该系统在预测已编码视频的帧的同时并未在从不同视点通过相机获取的不同视频之间建立关系。独立编码降低压缩效率，因此增加网络带宽和存储。

图2示出了现有技术的利用视图间关系的视差补偿预测系统200。视频201-204被编码211-214为已编码视频231-234。利用诸如MPEG-2或H.264(还称作MPEG-4Part 10)这样的标准视频编码器将视频201和204独立地编码。这些独立地编码的视频是“参考”视频。基于从解码器221和222获得的重构的参考视频251和252，利用时间预测和视图间预测来对其余视频202和203进行编码。通常，基于每块而适应性地确定预测，见S.C.Chan等人的“The data compression of simplified dynamic lightfields”(Proc.IEEE Int.Acoustics,Speech,and Signal Processing Conf.，2003年4月)。

图3示出了现有技术的“提升式(lifting-based)”小波分解，见W.Sweldens的“The data compression of simplified dynamic light fields”(J.Appl.Comp.Harm.Anal.，第3卷第2号，第186-200页，1996年)。小波分解是一种用于静态光场压缩的有效技术。将输入样本301分裂为310奇数样本302和偶数样本303。从偶数样本预测320奇数样本。预测误差形成高带样本304。高带样本用于更新330偶数样本，并形成低带样本305。该分解可逆转，以使得线性或非线性操作可并入到预测和更新步骤中。

提升方案使得能够进行用于视频的运动补偿时间变换，即，运动补偿时间滤波(MCTF)，尤其是沿着时间运动轨迹的滤波器。用于视频编码的MCTF的评论由Ohm等人的“Interframe wavelet coding-motion picture representation for universalscalability”(Signal Processing:Image Communication，第19卷第9号，第877-908页，2004年10月)描述。提升方案可基于诸如Harr或5/3Daubechies这样的任何小波变换核，以及诸如基于块的平移或全局仿射运动这样的任何运动模型，而不影响重构。

针对编码，MCTF将视频分解为高带帧和低带帧。然后，帧经过空间变换以降低任何剩余的空间关联。变换后的低带帧和高带帧以及关联的运动信息被熵编码以形成编码后的比特流。可以以时间邻近视频作为输入利用图3所示的提升方案来实现MCTF。另外，可递归地应用MCTF来输出低带帧。

基于MCTF的视频的压缩效率相当于诸如H.264/AVC这样的视频压缩标准的压缩效率。另外，视频具有固有时间可伸缩性(scalability)。然而，该方法不能用于直接编码如下的多视图视频，在该多视图视频中从多个视图获取的视频之间存在关联，这是因为没有用于预测考虑时间关联的视图的有效方法。

提升方案也用于编码静态光场，即，单个多视图图像。在空间域中的静态视图上，编码器不执行运动补偿时间滤波而执行视差补偿视图间滤波(DCVF)，见Chang等人的“Inter-view wavelet compression of light fields with disparity compensated lifting”(2003年的SPIE Conf on Visual Communications and Image Processing)。对于编码，DCVF将静态光场分解为高带图像和低带图像，其随后受到空间变换以降低任何剩余的空间关联。变换后的图像以及关联的视差信息被熵编码，以形成编码后的比特流。通常利用如图3所示的提升式小波变换方案以从空间邻近相机视图获取的图像作为输入来实现DCVF。另外，可递归地应用DCVF以输出低带图像。与独立地编码多个帧相比，基于DCVF的静态光场压缩提供更好的压缩效率。然而，该方法也不能编码其中使用视图之间的时间关联和空间关联二者多视图视频，因为不存在用于预测考虑时间关联的视图的有效方法。

在特定应用中，深度信号可作为系统的输入的一部分，如图25所示。在“同时联播”系统2500中，可当例如利用深度相机251A、252A、253A和254A在拍摄彩色视频时的同时获取，或者通过线下工序估计。注意，深度作为系统的输入存在，并且深度被编码2500、2511、2511A、2512、2512A、2513、2513A、2514和2514A，并且作为比特流的一部分传输2521、2521A、2522、2522A、2523、2523A、2524和2524A。深度编码器可以或可以不与颜色编码器相同。

发明内容

提出了一种分解通过多个相机获取的、场景的多视图视频的方法和系统。

各个多视图视频包括一序列帧，并且各个相机提供场景的不同视图。

从时间、空间、视图合成和内部预测模式中选择预测模式。

随后根据选择的预测模式，将多视图视频分解为低带帧、高带帧和边信息。

也可从一个或多个多视图视频中产生反应场景的合成视图的新视频。

更具体地说，本发明的一个实施方式提供了一种用于编码和解码视频的系统和方法。通过布置为使得在任一对相机之间存在视图重叠的姿态的对应的相机来获取场景的多视图视频。从用于虚拟相机的获取的多视图视频中产生合成的多视图视频。针对多视图视频和合成的视频的每一个的各个当前帧，参考图片列表保持在存储器中。参考图片列表索引获取的多视图视频的时间参考图片和空间参考图片以及合成的多视图视频的合成的参考图片。然后，在编码和解码期间根据由关联的参考图片列表索引的参考图片，来预测多视图视频的各个当前帧。

在另一实施方式中，对应于多视图视频的深度图像是输入数据的一部分，并且该数据被编码为比特流的一部分。因此，根据SKIP type，将被导出的参考信息包括：参考图片索引refIdxLX和运动矢量(X，Y)。

在HEVC标准中，将常规跳过和引导(skip and direct)模式分别修改为跳过和合并(skip and merge)模式。跳过和合并模式使得能够从相邻块中选择不同的运动矢量预测器(MVP)。为此，MVP列表和语法元素mvp_flag用于指示：来自与其它相邻块关联的备选MVP的列表当中的与相邻块关联的MVP。在本发明的一个实施方式中，通过复制选择的MVP的运动信息来导出当前块的运动信息。

在本发明的另一实施方式中，基于选择的MVP的运动信息和运动矢量差信息，来导出当前块的运动信息。该运动信息包括参考帧信息和运动矢量信息二者。在这些实施方式中，现在描述并且还针对多视图视频编码描述了由用于单视图视频编码的现有HEVC标准支持的跳过和合并模式的修改。具体地说，实施方式考虑了参考图片是合成的参考图片的特定情况。该方法通过还考虑与合成的参考图片关联的相邻块而产生MVP列表。

附图说明

图1是用于编码多视图视频的现有技术的系统的框图；

图2是用于编码多视图视频的现有技术的视差补偿预测系统的框图；

图3是现有技术的小波分解处理的流程图；

图4是根据本发明的实施方式的MCTF/DCVF分解的框图；

图5是根据本发明的实施方式的、在MCTF/DCVF分解之后作为时间和空间的函数的低带帧和高带帧的框图；

图6是根据本发明的实施方式的从邻近的低带帧预测高带帧的框图；

图7是根据本发明的实施方式的利用宏块适应性MCTF/DCVF分解的多视图编码系统的框图；

图8是根据本发明的实施方式的视频合成的示意图；

图9是现有技术的参考图片管理的框图；

图10是根据本发明的实施方式的多视图参考图片管理的框图；

图11是根据本发明的实施方式的解码图片缓冲器中的多视图参考图片的框图；

图12是比较不同多视图参考图片排序的编码效率的曲线图；

图13是根据本发明的实施方式的多视图参考图片列表管理器上的视图模式的依赖性的框图；

图14是用于从时间参考图片采用预测的单视图编码系统的、现有技术的参考图片管理的示图；

图15是用于根据本发明的实施方式的从多视图参考图片采用预测的多视图编码和解码系统的参考图片管理的示图；

图16是根据本发明的实施方式的在利用作为边信息而编码和接收的深度信息的解码器中的视图合成的框图；

图17是根据本发明的实施方式的用于选择预测模式的成本计算的框图；

图18是根据本发明的实施方式的在利用通过解码器估计的深度信息的解码器中的视图合成的框图；

图19是根据本发明的实施方式的在解码器中利用V帧来实现空间随机存取的多视图视频的框图；

图20是根据本发明的实施方式的利用变形和插值的视图合成的框图；

图21是根据本发明的实施方式的深度搜索的框图；

图22是根据本发明的实施方式的子像素参考匹配的框图；

图23是常规跳过模式的框图；

图24是根据本发明的实施方式的合成跳过模式的框图；

图25是用于编码包括深度的多视图视频的现有技术的系统的框图；

图26是根据本发明的实施方式的使用合成跳过模式的解码处理的流程图；

图27是根据本发明的实施方式的使用适应性参考跳过模式的解码处理的流程图；以及

图28是根据本发明的实施方式的产生运动矢量预测列表的解码处理的流程图。

具体实施方式

本发明的一个实施方式提供了一种用于编码和解码多视图视频的帧的联合时间/视图间处理方法。多视图视频是通过具有不同姿态的多个相机获取的场景的视频。将姿态相机定义为其3D(x，y，z)位置及其取向。各个姿态对应于该场景的“视图”。

该方法使用针对特定相机姿态获取的相同视频中的帧之间的时间关联，以及从多个相机视图获取的不同视频中的同步的帧之间的空间关联。另外，可关联“合成”帧，如下所述。

在一个实施方式中，时间关联使用运动补偿时间滤波(MCTF)，而空间关联使用视差补偿视图间滤波(DCVF)。

在本发明的另一实施方式中，空间关联使用来自从“相邻”帧产生的合成帧的一个视图的预测。相邻帧是时间上或空间上邻近的帧，例如，时域中当前帧之前或之后的帧，或者在相同时刻但是从具有不同姿态或场景的视图的相机获取的一个或多个帧。

在本发明的另一实施方式中，对应于多视图视频的深度图像用于产生合成帧。深度图像被认为是输入数据的一部分，并且被编码为比特流。解码处理用于从比特流重构深度图像。

各个视频的各个帧包括像素的宏块。因此，根据本发明的一个实施方式的多视图视频编码和解码的方法具有宏块适应性。利用多个可能的预测模式来执行当前帧中的当前宏块的编码和解码，所述多个可能的预测模式包括各种形式的时间、空间、视图合成和内部预测。为了基于宏块来确定最佳预测模式，本发明的一个实施方式提供了一种用于选择预测模式的方法。该方法可用于任何数量的相机布置。

如本文所用，参考图片定义为在编码和解码过程中使用以“预测”当前帧的任何帧。通常，参考图片在空间上或时间上邻近于当前帧或与当前帧“相邻”。

重要的是，注意相同的操作应用于编码器和解码器二者，这是因为在任何给定时刻使用同一组参考图片，以编码和解码当前帧。

MCTF/DCVF分解

图4示出了根据本发明的一个实施方式的MCTF/DCVF分解400。通过具有不同姿态的相机1-4来获取场景5的输入视频401-404的帧。注意，如图8所示，一些相机1a和1b可处于相同位置，但具有不同取向。假设在任何一对相机之间存在一些量的视图重叠。在获取多视图视频的同时相机的姿态可变化。通常，相机彼此同步。各个输入视频提供场景的不同“视图”。将输入帧401-404发送至MCTF/DCVF分解400。分解产生了编码的低带帧411、编码的高带帧412以及关联的边信息413。高带帧利用低带帧作为参考图片来编码预测误差。分解是根据选择的预测模式410的。预测模式包括空间、时间、视图合成和内部预测模式。可针对各个当前帧基于宏块来适应性地选择预测模式。使用内部预测，从相同帧中的其它宏块预测当前宏块。

图5示出了用于帧510的相邻帧的低带帧(L)411和高带帧(H)412的优选交替的“棋盘形图案”。帧具有空间(视图)维度501和时间维度502。重要的是，图案在单个时刻在空间维度上使低带帧和高带帧交替，并且针对单个视频还在时间上使低带帧和高带帧交替。

这种棋盘形图案存在几个优点。图案在空间和时间维度二者上均匀地分布低带帧，当解码器仅重构低带帧时，这实现了空间和时间的可伸缩性。另外，图案在空间和时间维度二者上将高带帧与邻近的低带帧对齐。这样最大化了参考图片之间的关联，从所述关联中预测当前帧中的错误，如图6所示。

根据提升式小波变换，通过从另一组样本中预测一组样本来产生高带帧412。根据下面描述的本发明的实施方式，可利用包括各种形式的时间预测、各种形式的空间预测以及视图合成预测的多种模式来实现预测。

预测高带帧412的方法以及进行该预测所需的必要信息被称作边信息(sideinformation)413。如果执行时间预测，则时间模式作为边信息的一部分与对应的运动信息一起以信号发送。如果执行空间预测，则空间模式作为边信息的一部分与对应的视差信息一起以信号发送。如果执行视图合成预测，则视图合成模式作为边信息的一部分与对应的视差、运动和深度信息一起以信号发送。

如图6所示，各个当前帧600的预测在空间和时间维度二者上使用相邻帧510。用于预测当前帧的帧被称作参考图片。参考图片保持在参考列表中，其为编码的比特流的一部分。参考图片存储在解码图片缓冲器中。

在本发明的一个实施方式中，MCTF和DCVF针对输入视频的各个帧而适应性地应用于各个当前宏块，以产生分解的低带帧、以及高带帧和关联的边信息。这样，根据“最佳”预测模式来适应性地处理各个宏块。下面描述用于选择预测模式的最佳方法。

在本发明的一个实施方式中，MCTF首先独立地应用于各个视频的帧。所得帧随后通过DCVF进一步分解。除最终分解的帧以外，还产生对应的边信息。如果基于宏块执行，则分开考虑针对MCTF和DCVF的预测模式选择。作为一个优点，该预测模式选择固有地支持时间可伸缩性。这样，在压缩的比特流中容易地访问较低时间率的视频。

在另一实施方式中，DCVF首先应用于输入视频的帧。随后所得帧通过MCTF在时间上分解。除最终分解的帧以外，还产生边信息。如果基于宏块执行，则分开考虑针对MCTF和DCVF的预测模式选择。作为一个优点，这种选择固有地支持空间可伸缩性。这样，在压缩的比特流中容易地访问较少数量的视图。

上述分解可从先前分解阶段递归地应用于所得的一组低带帧。作为一个优点，本发明的MCTF/DCVF分解400有效地去除时间和空间(视图间)关联二者，并且可实现非常高的压缩效率。本发明的多视图视频编码器的压缩效率胜过针对各个视图独立地编码各个视频的常规同时联播编码。

MCTF/DCVF分解的编码

如图7所示，将分解400的输出411和412传送至信号编码器710，并且将输出413传送至边信息编码器720。信号编码器710执行变换、量化和熵编码，以去除分解出的低带和高带帧411-412中的任何剩余的关联。这种操作在本领域中是公知的，见Netravali和Haskell的Digital Pictures:Representation,Compression and Standards(第二版，Plenum出版社，1995年)。

边信息编码器720编码通过分解400产生的边信息413。除预测模式和参考图片列表以外，边信息413还包括对应于时间预测的运动信息、对应于空间预测和视图合成的视差信息、和对应于视图合成预测的深度信息。

可通过已知和所建立的技术来实现编码边信息，诸如在MPEG-4Visual标准、ISO/IEC 14496-2、“Information technology--Coding of audio-visual objects-Part 2:Visual”(2001年第2版)、或者更近的H.264/AVC标准、以及ITU-T RecommendationH.264、“Advanced video coding for generic audiovisual services”(2004)中使用的技术。

例如，通常利用从参考图片中的宏块中的矢量确定预测矢量的预测性方法来编码宏块的运动矢量。随后，预测矢量与当前矢量之间的差受到熵编码处理，其通常使用预测误差的统计。相似的过程可用于编码视差矢量。

此外，可利用从参考图片中的宏块获得预测的预测性编码方法来编码用于各个宏块的深度信息，或者简单地利用固定长度码来直接表达深度值。如果提取和压缩用于深度的像素级精度，则可应用纹理编码技术，该纹理编码技术应用变换、量化和熵编码技术。

可复用730来自信号编码器710和边信息编码器720的编码后的信号711-713，以产生编码后的输出比特流731。

MCTF/DCVF分解的解码

可以解码740比特流731，以产生对应于输入多视图视频401-404的输出多视图视频741。可选地，也可产生合成视频。通常，解码器执行编码器的反向操作，以重构多视图视频。如果对所有低带和高带帧进行解码，则带有编码后的质量的空间(视图)维度和时间维度二者中的全组帧被重构并可用。

根据在编码器中所应用的分解的递归等级的次数以及所应用的分解的类型，可对降低数量的视频和/或降低的时间率进行解码，如图7所示。

视图合成

如图8所示，视图合成是如下的处理，通过该处理从一个或多个实际多视图视频的帧803产生合成视频的帧801。换句话说，视图合成提供了合成与场景5的所选择的新视图802对应的帧801的方法。该新视图802可与在获取输入多视图视频401-404时不存在的“虚拟”相机800对应，或者该视图可与获取的相机视图对应，从而合成的视图可用于预测和该视图的编码/解码，如下所述。

如果使用一个视频，则所述合成基于外推(extrapolation)或变形(warping)，并且如果使用多个视频，则所述合成基于插值。

给出一个或多个多视图视频的帧803的像素值和场景中的点的深度值，可从帧803中的对应的像素值合成用于合成视图802的帧801中的像素。

视图合成通常用于渲染用于多个视图的静态图像的计算机图形学中，见Buehler等人的“Unstructured Lumigraph Rendering”(Proc.ACM SIGGRAPH，2001年)。该方法需要用于相机的外在和内在参数，以引用方式并入本文中。

用于压缩多视图视频的视图合成是新颖的。在本发明的一个实施方式中，产生合成帧以用于预测当前帧。在本发明的一个实施方式中，针对指明的高带帧产生合成帧。在本发明的另一实施方式中，针对特定视图产生合成帧。合成帧用作可从中预测当前合成帧的参考图片。

当深度信号不是多视图视频的一部分时，该方法的一个难点在于场景5的深度值未知。因此，例如基于多视图视频中的特征的一致性利用已知技术来估计深度值。

另选地，针对各个合成视频，产生各自对应于备选深度值的多个合成帧。针对当前帧中的各个宏块，确定该组合成帧中的最佳匹配宏块。从中找到该最佳匹配的合成帧指示当前帧中的宏块的深度值。针对当前帧中的各个宏块而重复该处理。

通过信号编码器710来编码和压缩当前宏块与合成的块之间的差。通过边信息编码器720来编码用于该多视图模式的边信息。边信息包括如下的信号，该信号指示视图合成预测模式、宏块的深度值、和补偿当前帧中的宏块与待补偿的合成帧中的最佳匹配宏块之间的任何未对准的可选位移矢量。

预测模式选择

在宏块适应MCTF/DCVF分解中，可通过基于每宏块适应性地最小化成本函数来选择用于各个宏块的预测模式m：

m^{*} = \underset{m}{\arg \min} J (m)

其中J(m)＝D(m)+λR(m)，D是失真，λ是权重参数，R是速率，m指示一组备选预测模式，而m*指示已基于最小成本标准选择的最佳预测模式。

备选模式m包括：时间、空间、视图合成和内部预测的各种模式。成本函数J(m)根据利用特定预测模式m编码宏块所得的速率和失真。

失真D测量重构的宏块与源宏块之间的差异。通过利用给定的预测模式m编码和解码宏块而获得重构的宏块。公共失真测量是方差之和。速率R对应于编码包括预测误差和边信息的宏块所需的比特数量。权重参数λ控制宏块编码的速率失真折衷(tradeoff)，并且可从量化步骤的大小导出。

下面更详细地描述编码和解码处理的详细方面。具体地说，描述了通过编码和解码处理使用的各种数据结构。应该理解，在编码器中使用的如本文所述的数据结构与在解码器中使用的对应的数据结构一致。还应该理解，解码器的处理步骤主要遵从与编码器的处理步骤相同的处理步骤，但顺序相反。

参考图片管理

图9示出了用于现有技术的单视图编码和解码系统的参考图片管理。通过确定时间参考图片901插入920解码图片缓冲器(DPB)940和从中去除930的单视图参考图片列表(RPL)管理器910，来管理时间参考图片901。参考图片列表950还保持以指示存储在DPB 940中的帧。RPL用于诸如插入920和去除930这样的参考图片管理操作，以及在编码器和解码器二者中的时间预测960。

在单视图编码器中，作为应用包括预测、变换和量化的一组普通编码操作的结果而产生时间参考图片901，随后应用包括逆量化、逆变换和运动补偿的这些操作的逆操作。此外，时间参考图片901仅插入DPB 940中，并当需要时间图片来预测编码器中的当前帧时被添加至RPL 950。

在单视图解码器中，通过将包括逆量化、逆变换和运动补偿的一组普通解码操作应用在比特流上，来产生相同的时间参考图片901。如在该编码器中，时间参考图片901仅插入920到DPB 940中，并在需要它们来预测解码器中的当前帧时被加至RPL950。

图10示出了用于多视图编码和解码的参考图片管理。除时间参考图片1003以外，多视图系统还包括空间参考图片1001和合成参考图片1002。这些参考图片统称作多视图参考图片1005。通过确定多视图参考图片1005插入1020多视图DPB 1040中和从中去除1030的多视图RPL管理器1010，来管理多视图参考图片1005。针对各个视频，多视图参考图片列表(RPL)1050还保持以指示存储在DPB中的帧。也就是说，RPL是用于DPB的索引。多视图RPL用于诸如插入1020和去除1030以及当前帧的预测1060这样的参考图片管理操作。

注意，因为使得能够进行从不同类型的多视图参考图片1005的预测，所以针对多视图系统的预测1060与针对单视图系统的预测960不同。下面描述多视图参考图片管理1010的更多细节。

多视图参考图片列表管理器

在对编码器中的当前帧进行编码之前，或者在对解码器中的当前帧进行解码之前，可在多视图RPL 1050中指示一组多视图参考图片1005。如常规和本文的定义，组可具有零(空集)、一个或多个元件。针对各个当前帧，通过编码器和解码器二者来保持RPL的相同副本。

把插入多视图RPL 1050中的所有帧初始化并标记为可用于利用合适的语法预测。根据H.264/AVC标准和参考软件，“used_for_reference”标记设为“1”。通常，对参考图片进行初始化使得帧可用于在视频编码系统中的预测。为了保持与常规单视图视频压缩标准(诸如H.264/AVC)的兼容性，各个参考图片配有图片顺序计数(POC：picture order count)。通常，针对单视图编码和解码系统，POC对应于图片的时间排序，例如，帧编号。对于多视图编码和解码系统，时间顺序单独不足以针对各个参考图片分配POC。因此，根据常规，针对每个多视图参考图片确定唯一的POC。一个常规是基于时间顺序针对时间参考图片来分配POC，并且随后针对空间和合成参考图片，保留一系列非常高的POC编号，例如，10,000–10,100。下面更详细地描述其它POC分配常规，或简单的“排序”常规。

用作多视图参考图片的所有帧保持在RPL中，并存储在DPB中，使得通过编码器700或解码器740来将这些帧作为常规参考图片处理。这样，编码和解码处理可为常规的。下面描述关于存储多视图参考图片的其它细节。针对待预测的各个当前帧，RPL和DPB相应地更新。

多视图常规的限定和信号传输

在编码器700与解码器740之间协调保持RPL的处理。具体地说，当预测特定的当前帧时，编码器和解码器保持多视图参考图片列表的相同副本。

用于保持多帧参考图片列表的多种常规是可能的。因此，所使用的特定常规被插入比特流731中，或作为序列水平边信息提供，例如，被通信至解码器的配置信息。此外，该常规允许不同的预测结构，例如，1-D阵列、2-D阵列、弧形、十字形、和利用视图插值或变形技术合成的序列。

例如，通过使通过相机获取的这些多视图视频中的一个的对应帧变形来产生合成帧。另选地，在合成中可使用场景的常规模型。在本发明的其它实施方式中，定义了多个多视图参考图片维护常规，其取决于视图类型、插入顺序和相机属性。

视图类型指示：参考图片是否是来自除当前帧的视频以外的视频的帧，或者参考图片是否从其它帧合成，或者参考图片是否取决于其它参考图片。例如，合成的参考图片可保持与如下各项不同：来自与当前帧相同的视频的参考图片，或者来自空间上邻近的视频的参考图片。

插入顺序指示参考图片在RPL中如何排序。例如，与从邻近视图获取的视频中的参考图片相比，可向与当前帧相同的视频中的参考图片赋予较低的顺序值。在这种情况下，在多视图RPL中更容易布置参考图片。

相机属性指示：用于获取参考图片的相机的属性，或者用于产生合成参考图片的虚拟相机。这些属性包括：相对于固定坐标系统的平移和旋转(即，相机“姿态”)、描述3-D点如何投影为2-D图像的内在参数、透镜失真、色彩校准信息、照明水平等。例如，基于相机属性，可自动地确定特定相机到邻近相机的接近度，并且仅将通过邻近相机获取的视频看作特定RPL的一部分。

如图11所示，本发明的一个实施方式使用以下常规：保留各个参考图片列表的用于时间参考图片1003的一部分1101、保留用于合成的参考图片1002的另一部分1102和用于空间参考图片1001的第三部分1103。这是仅取决于视图类型的常规的一个示例。各个部分中所含有的帧数可基于正被编码或解码的当前帧的预测依赖性而变化。

可通过标准、明确或含糊的规定，或者在作为边信息的编码的比特流中指定特定维护常规。

将图片存储在DPB中

多视图RPL管理器1010保持RPL，使得其中多视图参考图片存储在DPB中的顺序对应于它们的“实用性”，以提高编码和解码的效率。具体地说，与在RPL的末尾的参考图片相比，可用较少的比特来预测性地对在RPL的开始的参考图片进行编码。

如图12所示，优化多视图参考图片在RPL中保持的顺序，可对编码效率具有重要影响。例如，在上述用于初始化的POC分配之后，多视图参考图片可被分配有非常大的POC值，这是因为它们不按照视频序列的正常时间排序出现。因此，多数视频编解码器的默认排序处理可将这种多视图参考图片较早地布置在参考图片列表中。

因为与来自其它序列的空间参考图片相比，来自相同序列的时间参考图片通常具有较强的关联，所以默认排序是不期望的。因此，多视图参考图片通过编码器而被明确再排序，从而编码器随后向解码器以信号发送这种再排序；或者编码器和解码器根据预定常规而隐含地对多视图参考图片再排序。

如图13所示，针对各个参考图片，通过视图模式1300来促进参考图片的顺序。应该注意，视图模式1300还影响多视图预测处理1060。在本发明的一个实施方式中，使用三种不同的视图模式，I视图、P视图和B视图，这在下面更加详细地描述。

在描述多视图参考图片管理的详细操作之前，用于单个视频编码和解码系统的现有技术的参考图片管理示于图14中。仅时间参考图片901用于时间预测960。示出了呈获得或显示顺序1401的、视频的时间参考图片之间的时间预测依赖性。参考图片被再排序1410为编码顺序1402，其中在时刻t₀-t₆对各个参考图片进行编码或解码。块1420示出了针对各个时刻的参考图片的排序。在时间t₀，当编码或解码内帧(intra-frame)I₀时，不存在用于时间预测的时间参考图片，因此DBP/RPL为空。在时间t₁，当编码或解码单向间帧(inter-frame)P₁时，帧I₀可用作时间参考图片。在时间t₂和t₃，帧I₀和P₁二者可用作用于间帧B₁和B₂的双向时间预测的参考帧。对于未来图片，按照相似的方式来管理时间参考图片和DBP/RPL。

为了描述根据本发明的实施方式的多视图情况，考虑上面描述和图15中示出的三种不同类型的视图：I视图、P视图和B视图。示出了呈显示顺序1501的、视频的参考图片之间的多视图预测依赖性。如图15所示，视频的参考图片被再排序1510为用于各个视图模式的编码顺序1502，其中在指示为t₀-t₂的给定时刻对各个参考图片进行编码或解码。针对各个时刻，多视图参考图片的顺序示于块1520中。

I视图是使得能够产生更复杂模式的最简单模式。I视图使用常规编码和预测模式，而不用任何空间或合成预测。例如，I视图可利用常规H.264/AVC技术来编码，而不用任何多视图扩展。当来自I视图序列的空间参考图片被布置在其它视图的参考列表中时，这些空间参考图片通常被布置在时间参考图片之后。

如图15所示，针对I视图，当帧I₀在t₀被编码或解码时，没有用于预测的多视图参考图片。因此，DBP/RPL为空。在时间t₁，当帧P₀被编码或解码时，I₀可用作时间参考图片。在时间t₂，当帧B₀被编码或解码时，帧I₀和P₀二者可用作时间参考图片。

P视图比I视图更复杂在于：P视图允许来自另一视图的预测利用视图之间的空间关联。具体地说，利用P视图模式编码的序列使用来自其它I视图或P视图的多视图参考图片。合成的参考图片也可用于P视图中。当来自I视图的多视图参考图片被布置在其它视图的参考列表中时，P视图被布置在从I视图衍生的时间参考图片和多视图参考图片二者之后。

如图15所示，针对P视图，当在t₀编码或解码帧I₂时，合成的参考图片S₂₀和空间参考图片I₀可用于预测。下面描述与合成图片的产生有关的更多细节。在时间t₁，当编码或解码P₂时，I₂可与来自I视图的合成参考图片S₂₁和空间参考图片P₀一起用作时间参考图片。在时间t₂，存在两个时间参考图片I₂和P₂，以及合成参考图片S₂₂和空间参考图片B₀(可从中进行预测)。

B视图与P视图相似，因为B视图使用多视图参考图片。P视图和B视图之间的一个关键不同在于：P视图使用来自其自身视图以及一个其它视图的参考图片，而B视图可参考多个视图中的图片。当使用合成参考图片时，B视图被布置在空间参考图片之前，因为合成的视图通常具有比空间参考更强的关联。

如图15所示，对于B视图，当在t₀编码或解码I₁时，合成参考图片S₁₀和空间参考图片I₀和I₂可用于预测。在时间t₁，当编码或解码P₁时，I₁可与分别来自I视图和P视图的合成参考图片S₁₁和空间参考图片P₀和P₂一起用作时间参考图片。在时间t₂，存在两个时间参考图片I₁和P₁，以及合成参考图片S₁₂和空间参考图片B₀和B₂(可从中进行预测)。

必须强调的是，图15中示出的示例仅是针对本发明的一个实施方式。支持许多不同类型的预测依赖性。例如，空间参考图片不限于在同一时刻的不同视图中的图片。空间参考图片还可包括用于在不同时刻的不同视图的参考图片。另外，内图片之间的双向预测的图片以及单向预测的间图片的数量可变化。相似地，I视图、P视图和B视图的构造也可变化。此外，可具有可利用的多个合成参考图片，它们各自利用不同的一组图片或不同的深度映射或处理而产生。

兼容性

根据本发明的实施方式的多视图图片管理的一个重要的益处在于，其可与现有单视图视频编码系统和设计兼容。这不仅为现有单视图视频编码标准提供最小改变，而且还使得来自现有单视图视频编码系统的软件和硬件能够用于多视图视频编码，如本文所述。

其原因是：多数常规视频编码系统在压缩的比特流中将编码参数传送至解码器。因此，由诸如H.264/AVC标准这样的现有视频编码标准来指定用于传送这种参数的语法。例如，视频编码标准从其它时间上相关的参考图片指定用于当前帧中的给定宏块的预测模式。该标准还指定用于编码和解码所得的预测误差的方法。其它参数指定变换、量化方法和熵编码方法的类型或大小。

因此，可利用对诸如现有系统的参考图片列表、解码图片缓冲器和预测结构这样的组件进行编码和解码的标准的仅有限数量的修改形式，来实施所述多视图参考图片。应该注意，宏块结构、变换、量化和熵编码保持不变。

视图合成

如上针对图8的描述，视图合成是如下的处理，通过该处理，根据从现有视频获取的帧803来产生与虚拟相机800的合成视图802对应的帧801。换句话说，视图合成提供如下的方法，该方法用于通过在获取输入视频时不存在的虚拟相机来合成与场景的所选择的新视图对应的帧。给出一个或多个实际视频的帧的像素值和场景中的点的深度值，可通过外推和/或插值来产生合成的视频视图的帧中的像素。

来自合成视图的预测

图16示出了当深度1901信息包括在编码的多视图比特流731中时，利用视图合成模式来产生重构的宏块的处理。通过边信息解码器1910来解码用于给定宏块的深度。深度1901和空间参考图片1902用于执行视图合成1920，其中产生合成的宏块1904。随后通过添加1930合成的宏块1904和解码的剩余宏块1905来形成重构的宏块1903。

与在编码器处多视图模式选择有关的细节

下面，假设与多视图视频对应的深度图像不是输入数据的一部分。然而，当深度图像作为输入数据的一部分存在时，可修改该处理。

图17示出了在编码或解码当前帧的同时选择预测模式的处理。利用时间参考图片2020来执行用于当前宏块2011的运动估计2010。所得的运动矢量2021用于利用时间预测来确定2030第一编码成本cost₁2031。与该处理关联的预测模式为m₁。

利用空间参考图片2041来执行用于当前宏块的视差估计2040。所得的视差矢量2042用于利用空间预测来确定2050第二编码成本cost₂2051。与该处理关联的预测模式指示为m₂。

基于空间参考图片2041来执行用于当前宏块的深度估计2060。基于所估计的深度来执行视图合成。深度信息2061和合成视图2062用于利用视图合成预测来确定2070第三编码成本cost₃2071。与该处理关联的预测模式为m₃。

当前宏块的邻近像素2082用于利用内部预测来确定2080第四编码成本cost₄2081。与该处理关联的预测模式是m₄。

确定2090cost₁、cost₂、cost₃和cost₄当中的最小成本，并且选择模式m₁、m₂、m₃和m₄中的具有最小成本的一个作为用于当前宏块2011的最佳预测模式2091。

利用深度估计的视图合成

利用视图合成模式2091，可从一个或多个多视图视频的解码的帧估计用于合成视图的深度信息和位移矢量。根据所应用的处理，深度信息可以是从立体相机估计出的每像素深度，或可以是从宏块匹配估计出的每宏块深度。

该方法的优点是，只要编码器与解码器访问相同深度和位移信息，那么因为在比特流中不需要深度值和位移矢量，所以带宽减小。只要解码器与编码器确切利用相同的深度和位移估计处理，那么编码器就可实现这一点。因此，在本发明的实施方式中，通过编码器来对当前宏块与合成宏块之间的差异进行编码。

通过边信息编码器720来编码用于该模式的边信息。该边信息包括指示视图合成模式和参考视图的信号。该边信息也可包括深度和位移校正信息，其是由用于视图合成的编码器所使用的深度与位移之间的差，以及通过解码器估计的值。

图18示出了当在解码器中估计或推断深度信息并且不在编码的多视图比特流中传递深度信息时，利用视图合成模式针对宏块的解码处理。从空间参考图片2102估计2110深度2101。估计的深度和空间参考图片随后用于执行视图合成2120，其中产生合成的宏块2121。通过增加2130合成的宏块和解码的剩余宏块2104来形成重构的宏块2103。

空间随机存取

为了对常规视频中的帧提供随机存取，内帧(还称作I帧)通常在整个视频中被间隔开。这使得解码器能够按照解码的序列但是以降低的压缩效率来访问任何帧。

对于本发明的多视图编码和解码系统，本发明提供了一种新类型的帧(称作“V帧”)以能够随机存取和增大压缩效率。V帧与I帧的相似之处在于：在不需要任何时间预测的情况下对V帧进行编码。然而，V帧还允许来自其它相机的预测或来自合成视频的预测。具体地说，V帧是从空间参考图片或合成参考图片预测的、压缩比特流中的帧。通过在比特流中周期性地插入V帧而非I帧，在可能时，向I帧提供时间随机存取，但具有更好的编码效率。因此，V帧不使用时间参考帧。图19示出了在相同的时刻1900针对初始视图使用I帧和针对后续视图使用V帧。应该注意，对于图5所示的棋盘构造，V帧不应该针对所有视图在相同时刻出现。低带帧中的任一个可被分配有V帧。在这种情况下，可从相邻视图的低带帧预测V帧。

在H.264/AVC视频编码标准中，IDR帧(其与具有闭合GOP的MPEG-2I帧相似)暗指所有参考图片从解码图片缓冲器中去除。这样，IDR帧之前的帧不能用于预测IDR帧之后的帧。

在本文所述的多视图解码器中，V帧相似地暗指可从解码图片缓冲器去除所有时间参考图片。然而，空间参考图片可保持在解码图片缓冲器中。这样，给定视图中的V帧之前的帧不能用于执行针对在相同视图中的V帧之后的帧的时间预测。

为了获得对这些多视图视频中的一个中的特定帧的访问，必须首先对用于该视图的V帧进行解码。如上所述，可通过从空间参考图片或合成参考图片的预测实现这一点，而不使用时间参考图片。

在解码所选择的视图的V帧之后，解码该视图中的后续帧。因为这些后续帧往往具有来自相邻视图的与参考图片有关的预测依赖性，所以在这些相邻视图中的参考图片也被解码。

多视图编码和解码

以上部分描述了用于多视图编码中的改进预测的视图合成和深度估计。现在描述可变块尺寸深度和运动搜索、速率失真(RD：rate-distortion)决定、子像素参考深度搜索、和深度信息的上下文适应二进制算术编码(CABAC)的实施。编码可包括：在编码器中编码和在解码器中解码。由以引用方式并入本文中的H.264标准PART 10来指定CABAC。

视图合成预测

为了获取在相机上和在时间上二者存在的关联，实施两种块预测的方法：

视差补偿视图预测(DCVP)；和

视图合成预测(VSP)。

DCVP

第一方法，DCVP，对应于在同一时间利用来自不同相机(视图)的帧，以预测当前帧，而不是利用在不同时间来自同一(视图)相机的帧。当时间关联低于空间关联时，DCVP提供增益，例如，由于闭塞，对象进入或离开场景，或快速运动。

VSP

第二方法，VSP，合成用于虚拟相机的帧，以预测一序列帧。由于相机视图之间存在非平移运动，VSP与DCVP互补；并且当相机参数足够精确以提供高质量虚拟视图时，VSP提供增益，这通常是实际应用的情况。

如图20所示，通过从已经编码的视图合成虚拟视图，以及随后利用合成视图执行预测性编码，而利用多视图视频的这些特征。图20通过视图合成和变形2001，以及视图合成和插值2002，来示出水平轴上的时间和竖直轴上的视图。

具体地说，对于各个相机c，首先基于以上的Buehler等人的非结构性光亮度渲染技术来合成虚拟帧I’[c,t,x,y]，并且随后利用所合成的视图来预测性地编码当前序列。

为了合成帧I’[c,t,x,y]，需要：指示对应于像素(x，y)的对象在时间t与相机c距离多远的深度映射D[c,t,x,y]、以及本征矩阵A(c)、旋转矩阵R(c)、和描述相机c相对于一些世界坐标系统的位置的平移矢量T(c)。

利用这些量，可将公知的针孔相机模型应用于经下式将像素位置(x，y)投影为世界坐标[u，v，w]：

[u,v,w]＝R(c)·A^-1(c)·[x,y,1]·D[c,t,x,y]+T(c) (1)。

接着，世界坐标映射至相机c’中的帧的、从下式中希望预测的目标坐标[x’,y’,z’]：

[x',y',z']＝A(c)'·R^-1(c')·{[u,v,w]-T(c)'}。 (2)

最终，为了获得像素位置，目标坐标转换为同质形式[x’/z’,y’/z’,1]，并且合成帧中的像素位置(x，y)的强度为I’[c,t,x,y]＝I[c’,t,x’/z’,y’/z’]。

可变块尺寸深度/运动估计

以上描述了使能够使用DCVP而不改变语法的图片缓冲器管理方法。利用运动估计步骤发现相机视图之间的视差矢量，并可仅将其用作扩展的参考类型。为了将VSP用作另一类型的参考，扩展典型运动估计处理如下。

给出备选宏块类型mb_type和N个可能参考帧，可能包括合成的多视图参考帧，即VSP，对于各个子宏块，发现参考帧以及运动矢量或深度/校正矢量对J分别利用拉格朗日乘数λ_motion或λ_depth来最小化以下拉格朗日成本J，

J＝min(J_motion,J_depth)，

其中

\begin{matrix} J_{depth} (d, \overset{&RightArrow;}{m_{c}}, mul_ref | λ_{depth}) = \underset{X &Element; sub - MB}{Σ} | X - X_{p_synth} (d, \overset{&RightArrow;}{m_{c}}, mul_ref) | \\ + λ_{depth} (R_{d} + R_{m_c} + R_{mul_ref}) \end{matrix},

并且

J_{motion} (\overset{&RightArrow;}{m}, ref | λ_{motion}) \underset{X &Element; sub - MB}{Σ} | X - X_{p_motion} (\overset{&RightArrow;}{m}, ref) | + λ_{motion} (R_{m} + R_{ref}),

其中，在考虑的子宏块(sub-MB)中的所有像素上获取总和，并且X_{p_synth}或X_{p_motion}是指参考子宏块中的像素的强度。

注意，这里“运动”不仅指时间运动，还指得自视图之间的视差的视图间运动。

深度搜索

使用基于块的深度搜索处理来发现用于各个可变尺寸子宏块的最佳深度。具体地说，定义最小、最大和增量深度值D_min、D_max、D_step。然后，对于帧中的各个可变尺寸子宏块，希望预测、选择深度以最小化用于合成块的误差：

D (c, t, x, y) = d &Element; {| | D_{\min}, D_{\min} + D_{step}, {\overset{\min}{D}}_{\min} + 2 D_{step} + . . . + D_{\max} | |}^{| | I [c, t, x, y] - I [c^{'}, t^{'}, x^{'}, y^{'}] | |}, - - - (3)

其中，||I[c,t,x,y]–I[c’,t,x’,y’]||指示：在时间t在相机c中的(x，y)集中的子宏块与从中进行预测的对应块之间的平均误差。

作为提高基本VSP处理的性能的额外精处理，发现由于相机参数中的轻微不准确、未通过针孔相机模型获取的不理想情况，因此增加明显提高VSP的性能的合成校正矢量。

具体地说，如图21所示，对于各个宏块2100，将目标帧2101映射至参考帧2102，并且随后映射至合成帧2103。然而，作为计算坐标以利用等式(1)插入的替代，通过将合成校正矢量(C_x,C_y)2110添加至各个组的原始像素坐标来计算[u，v，w]，从而获得：

[u,v,w]＝R(v)·A^-1(v)·[x-C_x,y-C_y,1]·D[v,t,x-C_x,y-C_y]+T(v). (4)

发现+/-2这么小的校正矢量搜索范围通常明显地提高所得的合成参考帧的质量。

子像素参考匹配

因为通常不同相机中的两个对应的像素的视差不由确切的多个整数给出，所以希望从中预测的相机c’中的帧的目标坐标[x’，y’，z’](由等式(2)给出)，并不总是落入整数格点上。因此，在参考帧中使用插值以产生用于子像素位置的像素值。这样，使得能够选择最近的子像素参考点，而非整数像素，从而更准确地接近像素之间的真实视差。

图22示出了这个过程，其中“oxx…ox”指示像素。在实施中，使用了H.264标准中针对子像素运动估计采用的相同的插值滤波器。

子像素准确度校正矢量

通过允许使用子像素准确度校正矢量而进一步提高合成质量。当与上述子像素参考匹配结合时尤其如此。注意，在子像素运动矢量搜索与当前子像素校正矢量搜索之间存在微小差别。

在运动矢量情况下，通常在参考图片中搜索子像素位置，并选择指向最小化RD成本的子像素位置的子像素运动矢量。然而，在校正矢量情况下，在寻找最佳深度值之后，搜索整个当前图片中的子像素位置，并选择最小化RD成本的校正矢量。

通过当前图片中的子像素校正矢量的移位不总是导致参考图片中的相同量的移位。换句话说，总是通过等式(1)和等式(2)的几何变换之后圆整(rounding)到最近的子像素位置，而找到参考图片中的对应匹配。

虽然编码子像素准确度校正矢量相对复杂，但是观察到编码明显提高了合成质量，并且通常导致提高的RD性能。

YUV-深度搜索

在深度估计中，调整(regularization)可实现更平滑的深度映射。调整提高合成预测的视觉质量，但稍微降低其通过绝对差之和(SAD)测量到的预测质量。

常规深度搜索处理仅使用输入图像的Y亮度分量，以估计深度映射中的深度。虽然这样最小化了用于Y分量的预测误差，但是通常在合成预测中导致例如呈色彩失配形式的视觉假象。这意味着在最终重构中，很可能具有成色彩失配形式的劣化的客体质量(即，用于U、V的PSNR)以及主体质量。

为了解决该问题，对深度搜索处理进行扩展，以使用Y亮度分量以及U色度分量和V色度分量。仅使用Y分量可能导致视觉假象，这是因为块通过最小化预测误差可在参考帧中找到良好匹配，但是这两个匹配区域可以为两个完全不同的颜色。因此，可通过将U分量和V分量并入深度搜索处理中，来提高U预测和V预测的质量和重构。

RD模式确定

可通过选择mb_type(其最小化如下定义的拉格朗日成本函数J_mode)进行模式确定：

J_{mode} (mb_type | λ_{mode}) = \underset{X &Element; MB}{Σ} {(X - X_{p})}^{2} + λ_{mode} (R_{side - info} + R_{residual}),

其中X_p指参考MB中的像素的值，即，合成多视图、纯多视图或者时间参考的MB，并且R_side-info包括：用于编码参考索引和深度值/校正值的比特率，或根据参考帧的类型的运动矢量。

上述方法并不假设对应于多视图视频的深度图像是输入数据的一部分。如果深度图像是待编码和解码的内容的一部分，则用于深度图像的速率不应算作边信息率的一部分，即，从以上拉格朗日成本函数中去除R_side-info。

边信息的CABAC编码

注意，当经由RD模式决定而将MB选择为最佳参考时，必须对用于各个合成MB的深度值和校正矢量进行编码。通过带符号的ValFlag＝1以及切断参数uCoff＝9，按照与运动矢量的方式完全一样的方式，利用连接的一元/三阶指数哥伦布编码(UEG3)二值化，来量化深度值和校正矢量。

然后，将不同的上下文模型分配给所得的二进制表达的bin(箱)中。用于深度和校正矢量分量的ctxIdxInc的分配，本质上与用于运动矢量的相同，如以引用方式并入本文的ITU-T Recommendation H.264&ISO/IEC 14496-10(MPEG-4)AVC的表9-30、“Advanced Video Coding for Generic Audiovisual Services”(版本3：2005)中指明的，不同的是这里对第一bin不应用子条款9.3.3.1.1.7。

在本发明的实施方式中，利用用于运动矢量的相同预测方案，来预测性地对深度值和校正矢量进行编码。因为MB或尺寸缩小为8x8的子MB从时间、多视图或合成的多视图帧方面，可具有其自身的参考图片，边信息的类型可从MB改变为MB。这暗指具有相同参考图片的相邻MB的数量可减少，潜在地导致较少的有效边信息(运动矢量或深度/校正矢量)预测。

当将子MB选择为利用合成参考，但不具有带相同参考的周围MB时，独立地对其深度/校正矢量进行编码，而不用任何预测。实际上，发现足够好的是，利用固定长度表达来二值化校正矢量分量，然后对所得的bin进行CABAC编码。这是因为被选择为利用合成参考的MB往往被隔离，即，MB不具有带相同参考图片的相邻MB，并且与运动矢量情况相比，校正矢量通常与它们的相邻者关联较少。

语法和语义

如上所述，将除时间和纯多视图参考以外的其它合成参考图片并入。以上，参照上文，描述了可与H.264/AVC标准中的现有参考图片列表管理兼容的多视图参考图片列表管理方法。

该实施方式中的合成参考被认为是多视图参考的特定情况，因此，按照确切相同的方式来处理。

定义称作view_parameter_set的新的高级别语法元素，以描述多视图识别和预测结构。通过稍微修改该参数，可识别当前参考图片是否是合成类型。因此，可根据参考类型，针对给定(子)MB来对深度/校正矢量或运动矢量进行解码。因此，可通过扩展附录A中指定的、宏块级别的语法，来将这种新型的预测的用法整合起来。

跳过模式

在常规跳过模式中，运动矢量信息和参考索引衍生自位于同一处或相邻的宏块。考虑基于视图合成的视图间预测，也考虑相似模式，该相似模式从其位于同一处或相邻的宏块衍生处深度和校正矢量信息。这种新编码模式被称作合成跳过模式。

在如图23所示的常规跳过模式(其应用于P片和B片二者)中，没有针对当前宏块(X)2311对剩余数据进行编码。针对在P片中的跳过，将参考列表2301中的第一入口2304选为从中预测和得到信息的参考；而针对B片中的跳过，将相邻宏块(A，B，C)2312-2314当中的参考列表2301中的最早入口2305选为从中预测和得到信息的参考。

假设不将视图合成参考图片排序为参考图片列表中的第一入口，例如，如图11所示，在P片和B片二者中用于跳过模式的参考图片，将不再是具有现有语法以及以下常规解码处理的视图合成图片。然而，与视差补偿的图片或运动补偿的图片相比，由于视图合成的图片可提供更好的质量，因此基于视图合成参考图片来描述对现有语法和解码处理的、允许跳过模式改变。

为了相对于视图合成参考来利用跳过模式，提供了一种如下的合成跳过模式，该合成跳过模式通过对现有mb_skip_flag的修改来发信号。当前，当现有mb_skip_flag等于1时，跳过宏块，而当其等于0时，不跳过宏块。

在第一实施方式中，当mb_skip_flag等于1时，增加额外位，来区分新合成跳过模式与常规跳过模式。如果额外位等于1，这以信号发送合成跳过模式，否则，如果额外位等于0，使用常规跳过模式。

以上信令方案将以相对高的比特率来良好运作，其中跳过的宏块的数量往往较少。然而，对于较低比特率，期望更频繁地激活常规跳过模式。因此，包括合成跳过模式的信令方案应该不导致以信号发送常规跳过的额外花费。在第二实施方式中，当mb_skip_flag等于0时，增加额外位，以区分新合成跳过模式和常规非跳过模式。如果额外位等于1，则以信号发送合成跳过模式，否则，如果额外位等于0，则使用常规非跳过模式。

当针对片或图片来选择高百分比的合成跳过模式时，针对各个宏块，可通过降低以信号发送合成跳过模式的花费，来提高整体编码效率。在第三实施方式中，针对片中的所有宏块，来集体以信号发送合成跳过模式。通过包括在比特流的片层语法中的slice_skip_flag来实现这一点。slice_skip_flag的信号通知可与在第一和第二实施方式中描述的mb_skip_flag一致。

如图24所示，当针对P片以信号发送合成跳过模式时，将参考图片列表2401中的第一视图合成参考图片2402选为参考，而非在常规跳过情况下的参考图片列表2301中的第一入口2304。当针对B片以信号发送合成跳过模式时，将参考图片列表2401中的最早的视图合成参考图片2403选为参考，而非在常规跳过情况下的参考图片列表2301中的最早的入口2305。

从相邻分隔：A 2312、B 2313和C 2314导出参考信息。在如下一个实施方式中，如下导出用于合成跳过模式的深度和校正矢量信息，其中在该实施方式中，对应于多视图视频的深度图像并非输入数据的一部分，并且针对各个分隔来估计深度值。

深度矢量dpthLXN包括三个分量(Depth、CorrX、CorrY)，其中Depth是表示与分隔关联的深度的标量值(scalar value)，并且CorrX和CorrY分别是与分隔关联的校正矢量的水平分量和竖直分量。根据当前片是P片还是B片，将当前分隔的参考索引refIdxLX(针对其导出深度矢量)分配作为第一或最早的视图合成参考图片，如上所述。

该处理的输入是：相邻分隔A 2312、B 2313和C 2314、指示为dpthLXN(N由A、B或C替代)的用于相邻分隔的每一个的深度矢量、相邻分隔的参考索引refIdxLXN(N由A、B或C替代)、以及当前分隔的参考索引refIdxLX。

该处理的输出是：深度矢量预测dpthpLX。如下导出可变的dpthpLX。当B 2313或C 2314相邻分隔不可利用而A 2312相邻分隔可利用时，那么应用以下分配：dpthLXB＝dpthLXA和dpthLXC＝dpthLXA；refIdxLXB＝refIdxLA和refIdxLXC＝refIdxLA。

如果refIdxLXN是将从中合成具有参考索引refIdxLX的合成多视图参考图片的多视图参考图片的参考索引，则认为refIdxLXN等于refIdxLX，并且通过将来自具有参考索引refIdxLXN的参考图片的视差转换为与具有参考索引refIdxLX的参考图片关联的等同的深度矢量，来导出其关联的深度矢量dpthLXN。

根据参考索引refIdxLXA、refIdxLXB或refIdxLXC，应用以下内容。如果参考索引refIdxLXA、refIdxLXB或refIdxLXC中的一个且仅一个等于当前分隔的参考索引refIdxLX，则应用以下内容。使refIdxLXN成为等于refIdxLX的参考索引，将深度矢量dpthLXN分配至深度矢量预测dpthpLX。否则，通过深度矢量dpthLXA、dpthLXB和dpthLXC的对应的矢量分量的中值，来给出深度矢量预测dpthpLX的各个分量。

在另一实施方式中，对应于多视图视频的深度图像是输入数据的一部分，并且将该数据编码作为比特流的一部分。因此，将被导出的参考信息包括参考图片索引refIdxLX和运动矢量(X，Y)。

参照图26和图27来描述导出处理的两种情况。

对于两种情况，输入为：SKIP type、相邻分隔A 2312、B 2313和C 2314、参考索引refIdxLXN、和用于相邻分隔(XN，YN)(N等于A、B或C)的每一个的运动矢量。该处理的输出是：参考图片索引refIdxLX和用于当前分隔的运动矢量(X，Y)。

图26中示出了一个实施方式。处理通过设置2602宏块(MB)索引开始2601，并且解析2603头部。如果2610MB指示不跳过，则解码2620非跳过MB，并且确定2670是否需要处理更多的MB，并且如果否，则结束2680。否则，将MB索引增加2671。

如果2630Skip_Type为0，则将RefIdxLX点设置2640为第一合成参考图片，将运动矢量(X，Y)设置2650为零矢量，并使用2660导出的RefIdxLX和运动矢量(X，Y)来进行预测，在2670继续。

否则，从相邻部分A、B和C导出2621参考图片索引RefIdxLX、运动矢量(X，Y)，并在2660继续。

在图27所示的另一实施方式中，不同地解释SKIP_Type。其可为两个值之一，所述两个值为：指示常规SKIP的值0和指示适应的参考SKIP的值1，其可如先前所述地以信号发送。在值0的情况下，从相邻分隔中按照常规方式导出2720refIdxLX和运动矢量(X，Y)。注意，可在通过相邻分隔选择合成参考图片的情况下，在该处理中选择合成图片。换句话说，针对未改变的跳过(slip)模式，值0将保持常规解码处理。通过该设计，预测方法可容易地传播至后续分隔，而不管其涉及非合成参考还是合成参考。

然而，值1激活如下定义的用于适应性参考跳过模式的新的处理。首先从相邻分隔导出参考索引refIdxLX。如果refIdxLX指向2740合成参考图片，则refIdxLX被迫2750指向第一非合成参考图片，时间参考图片或视图间(空间)参考图片。否则，将refIdxLX修改为指向2745列表中的第一合成参考图片。MV预测或者总是设为零矢量。换句话说，值1用作触发器，以修改从相邻分隔导出的预测方法。

通过该实施方式，作为通过跳过模式直接以信号发送合成预测或非合成预测的替代，能够进行将预测方法传播至后续分隔的方法或修改预测方法的方法。

引导模式

与跳过模式相似，用于B片的常规引导模式还从相邻宏块导出运动矢量信息和参考索引。引导模式与跳过模式的不同在于还存在剩余数据。针对相同的原因，提供合成跳过模式，还描述了引导模式的类比性扩展(称作合成引导模式和适应性参考引导模式)。

为了激活常规引导模式，将宏块编码为非跳过。引导模式可随后应用于16×16宏块和8×8块二者。这些引导模式二者作为宏块模式以信号发送。

在另一实施方式中，通过将额外模式添加至备选宏块模式列表而实现用于以信号发送合成引导模式的方法。

在第二实施方式中，通过以信号发送指示16×16宏块或8×8块被编码为合成引导模式或适应性参考引导模式的额外标记，来实现用于以信号发送合成引导模式或适应性参考引导模式的方法。

当针对B片以信号发送合成引导模式时，将参考图片列表中的最早的视图合成参考图片选为参考，而非在常规引导模式的情况下将参考图片列表中的最早入口选为参考。

当针对B片以信号发送适应性参考引导模式，并且导出的参考图片索引与非合成参考图片关联时，将参考图片列表中的最早的视图合成参考图片选为参考，而非在常规引导模式的情况下将参考图片列表中的最早入口选为参考。

另一方面，当针对B片以信号发送适应性参考引导模式，并且导出的参考图片索引与合成的参考图片关联时，将参考图片列表中的最早的非合成参考图片选为参考图片。

无论是否存在与可用作输入数据的一部分的多视图视频对应的深度图像，针对合成引导模式，完成用于导出深度和校正矢量信息作为合成跳过模式的相同处理。相似地，针对适应性参考引导模式，完成用于导出参考图片索引信息作为适应性参考跳过模式的相同处理。

在深度图像可用于多个视点的应用中，所述多个深度映射可按照与多视图彩色视频相似的方式编码。使用合成图片作为参考的本发明中描述的处理也可应用于编码第二深度映射。也就是说，来自第一视点的深度映射可变形为利用其自身数据产生合成的深度图像的第二视点；然后合成的深度图像使用参考图片来编码和解码第二深度图像。

具有视图合成参考图片的运动矢量预测列表

高效视频编码(HEVC)，还称作H.265和MPEG-H Part 2，是一种草拟的视频压缩标准，是H.264/MPEG-4AVC(高级视频编码)的后续，其当前由ISO/IEC运动图片专家组(MPEG)和ITU-T视频编码专家组(VCEG)联合发展。HEVC提高了视频质量，并且与H.264相比使压缩比率乘倍。

在HEVC标准中，已经分别将常规跳过和引导模式修改为跳过和合并模式。在HEVC标准中支持的新的跳过和合并模式，使得能够从相邻块选择不同的运动矢量预测器(MVP)。因此，MVP列表和语法元素mvp_flag指示：与来自与其它相邻块关联的备选MVP的列表中的相邻块关联的MVP。

在跳过和合并模式的情况下，MVP列表还被称作合并备选列表，并且通过merge_idx语法元素来指示用于选择的运动矢量预测器的索引。

在非跳过和非合并模式的情况下，MVP列表还被称作适应性运动矢量预测器(AMVP)列表，并且通过mvp_flag来指示用于选择的运动矢量预测器的索引。

在本发明的一个实施方式中，通过复制选择的MVP的运动信息来导出当前块的运动信息。在本发明的另一实施方式中，基于选择的MVP的运动信息和运动矢量差别信息，来导出当前块的运动信息。注意，运动信息包括参考帧信息和运动矢量信息二者。

在这些实施方式中，针对多视图视频编码，描述了通过用于单视图视频编码的现有HEVC标准支持的跳过和合并模式的修改。具体地说，考虑了参考图片是合成的参考图片的特定情况。该方法通过还考虑与合成的参考图片关联的相邻块，来产生MVP列表。

当MVP列表指示与合成参考图片关联的运动矢量时，运动矢量预测器被设为零。为了产生MVP列表(即，合并备选列表或AMVP列表)，空间和时间相邻部分首先被添加至如HEVC标准中所指定的MVP列表。然后，在合成的参考图片存在于参考图片缓冲器中的情况下，与合成的参考图片关联的运动矢量预测器被附加至MVP列表的最后。另选地，与合成的参考图片关联的运动矢量预测器可被布置在MVP列表中的任何位置。

图28示出了从开始2801至结束2899的并入MVP产生方法的解码处理。当利用任何Inter模式来编码当前预测单元(PU)时，激活该处理。

在步骤2810中，基于与当前图片、空间参考图片和时间参考图片中的相邻块关联的运动矢量，来执行MVP列表。然后，仅当2820在参考图片缓冲器中存在合成参考图片时，才附加2825指向合成参考图片的处于同一位置的块的MVP备选。

在步骤2830中，解析从MVP列表中选择MVP的索引。如果Inter模式是跳过或合并模式，则对应的语法为merge_idx。如果Inter模式是非跳过或非合并模式，则对应的语法为amvp_l0_flag和amvp_l1_flag。根据本文所述的实施方式，merge_idx、amvp_l0_flag和amvp_l1_flag的语义被修改为考虑与合成的参考图片关联的运动矢量预测器。

在步骤2840中，如果索引指向合成参考图片，则进行检查。如果为真，则将参考图片设置2481为合成参考图片，并MVP的值设置为零。如果为否，则将参考图片设置2842为空间或时间参考图片，并根据索引来设置MVP。在任何一种情况下，都随后输出2850MVP。

当存在在缓冲器中可用的多个合成参考图片时，就相机距离而言其原始位置最靠近当前视图的参考图片被选择。如果在相同的相机距离存在多个视图，则可定义预定选择顺序。例如，选择左边的视图。另选地，可在比特流中明确以信号发送待选择的合成参考图片。

作为另一选择，与多个合成参考图片关联的多个运动矢量预测器可附于MVP列表。

附录A

宏块语法和语义

子条款7.4.5.1宏块预测语义的附加：

depthd_l0[mbPartIdx][0]指定将被使用的深度值与其预测之间的差。索引mbPartIdx指示depthd_l0被分配至哪一个宏块分隔。宏块的分隔由mb_type指定。

depthd_l1[mbPartIdx][0]其语义与depthd_l0相同，l0由l1替代。

corr_vd_l0[mbPartIdx][0][compIdx]指示将被使用的校正矢量分量与其预测之间的差。索引mbPartIdx指示分配至哪一个宏块分隔corr_vd_l0。宏块的分隔由mb_type指定。首先按照解码顺序来解码水平校正矢量分量差，并且对其分配CompIdx＝0。其次按照解码顺序来解码竖直校正矢量分量，并且对其分配CompIdx＝1。

corr_vd_l1[mbPartIdx][0][compIdx]其语义与corr_vd_l0相同，l0由l1替代。

子条款7.4.5.2子宏块预测语义的附加：

depthd_l0[mbPartIdx][subMbPartIdx]其语义与depthd_l0相同，不同的是其应用于由subMbPartIdx索引的子宏块分隔。索引mbPartIdx和subMbPartIdx指定depthd_l0被分配至哪一个宏块分隔和子宏块分隔。

depthd_l1[mbPartIdx][subMbPartIdx]其语义与depthd_l0相同，l0由l1替代。

corr_vd_l0[mbPartIdx][subMbPartIdx][compIdx]其语义与corr_vd_l0相同，不同的是其应用于由subMbPartIdx索引的子宏块分隔。索引mbPartIdx和subMbPartIdx指定corr_vd_l0被分配至哪一个宏块分隔和子宏块分隔。

corr_vd_l1[mbPartIdx][subMbPartIdx][compIdx]其语义与corr_vd_l1相同，l0由l1替代。

视图参数设置语法：

视图参数设置语义的附加：

multiview_type等于1表示当前视图由其它视图合成。multiview_type等于0表示当前视图非合成视图。

multiview_synth_ref0表示针对待用于合成的第一视图的索引。

multiview_synth_ref1表示针对待用于合成的第二视图的索引。

工业应用

本发明的方法和系统在许多种领域中可用于场景的多个多视图视频的处理。

Claims

1.一种用于处理场景的多个多视图视频的方法，该方法包括以下步骤：

获得用于合成所述多视图视频的特定视图的边信息；

从所述多个多视图视频和所述边信息中对合成多视图视频进行合成；

针对当前图片的各个块，产生运动矢量预测器MVP列表，其中所述MVP列表索引与所述当前图片、空间参考图片、时间参考图片和合成参考图片中的相邻块关联的一组运动矢量；

针对所述当前图片的各个块，从由所述MVP列表索引的所述一组运动矢量中确定运动矢量预测器；

针对所述当前图片的各个块，基于所述运动矢量预测器来导出所述运动矢量；

保持用于所述多个多视图视频的每一个的各个当前图片的参考图片列表，所述参考图片索引多个所获取的多视图视频的时间参考图片和空间参考图片、以及所述合成多视图视频的合成参考图片；以及

根据由关联的参考图片列表索引的参考图片和导出的运动矢量，来预测所述多个多视图视频的当前图片的各个块，其中，上述步骤在解码器中执行。

2.根据权利要求1所述的方法，其中，与所述合成参考图片关联的运动矢量预测器被设为零。

3.根据权利要求1所述的方法，其中，所述导出的运动矢量等于所述运动矢量预测器。

4.根据权利要求1所述的方法，其中，将运动矢量差添加至所述运动矢量预测器，以获得所述导出的运动矢量。

5.根据权利要求1所述的方法，该方法还包括如下步骤：

利用相邻块的参考图片索引，来导出用于各个当前图片的各个块的参考图片索引。

6.根据权利要求1所述的方法，其中，所述边信息包括深度值。

7.根据权利要求1所述的方法，其中，在编码器中获得所述边信息。

8.根据权利要求1所述的方法，其中，在解码器中获得所述边信息。

9.根据权利要求1所述的方法，其中，确定所述运动矢量预测器的步骤还包括如下步骤：

从比特流中解析索引，以从所述运动矢量预测列表中指示所述运动矢量预测器。

10.一种用于处理场景的多个多视图视频的系统，该系统包括：

多个相机，各个相机被构造为获取场景的多视图视频；

解码器，该解码器还包括：

用于获得用于合成所述多视图视频的特定视图的边信息的装置；

用于从多个所述多视图视频和所述边信息中对合成多视图视频进行合成的装置；

用于针对当前图片的各个块，产生运动矢量预测器MVP列表的装置，其中所述MVP列表指示与所述当前图片、空间参考图片、时间参考图片和合成参考图片中的相邻块关联的一组运动矢量；

用于针对所述当前图片的各个块，从所述MVP列表中的所述一组运动矢量，根据索引确定运动矢量预测器的装置；

用于针对所述当前图片的各个块，从所述运动矢量预测器中导出运动矢量的装置；

存储器缓冲器，其被构造为保持用于所述多个多视图视频的每一个的各个当前图片的参考图片列表，所述参考图片索引多个所获取的多视图视频的时间参考图片和空间参考图片、以及所述合成多视图视频的合成参考图片；以及

用于根据由关联的参考图片列表索引的参考图片和所述运动矢量，来预测所述多个多视图视频的各个当前图片的各个块的装置。