CN102257818A

CN102257818A - 3d视频编码中运动向量的共享

Info

Publication number: CN102257818A
Application number: CN2009801513187A
Authority: CN
Inventors: 陈颖; M·安尼克塞拉
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2008-10-17
Filing date: 2009-10-16
Publication date: 2011-11-23
Anticipated expiration: 2029-10-16
Also published as: EP2338281A1; US20110216833A1; US10715779B2; CN102257818B; WO2010043773A1; US20190281270A1; US20180262742A1; US10306201B2; US9973739B2; EP2338281A4

Abstract

本发明提供了对深度图视频和纹理视频的联合编码，其中根据深度图视频的相应的运动向量预测针对纹理视频的运动向量，反之亦然。对于可缩放视频编码，将深度图视频编码为基本层并且将纹理视频编码为增强层。层间运动预测根据深度图视频中的运动预测纹理视频中的运动。当在比特流中具有多于一个视图时(对于多视图编码)，深度图视频被认为是单色照相机视图并且根据彼此进行预测。如果允许联合多视图视频模型编码工具，提供视图间运动跳跃以根据深度图图像预测纹理图像的运动向量。此外，当在相同依赖关系层中的视图之间应用视图间预测，并且在相同视图中的层之间应用层间(运动)预测时，利用可缩放多视图编码。

Description

3D视频编码中运动向量的共享

技术领域

不同实施方式大体上涉及对呈现深度图图像的三维(3D)视频内容进行视频编码。更特别地，不同实施方式涉及对多视图视频和深度进行联合优化以支持高编码效率。

背景技术

本部分意在提供关于在权利要求书中详述的本发明的背景或上下文。在这里，描述可以包括可以被探究但并不必须是已经在先构想出或探究的概念。因此，除非在此另有相反指示，否则在本部分中描述的并不是关于本申请中的说明书和权利要求书的现有技术，并且并不由于被包括在本部分中而被承认为是现有技术。

视频编码标准包括ITU-T H.261、ISO/IEC运动图片专家组(MPEG)-1可视、ITU-T H.262或ISO/IEC MPEG-2视频、ITU-TH.263、ISO/IEC MPEG-4可视和ITU-T H.264(也被称为ISO/IECMPEG-4高级视频编码(AVC))。此外，已经存在过关于开发新视频编码标准的努力。一个这样的标准是可缩放视频编码(SVC)标准，其为对H.264/AVC的可缩放扩展。刚刚完成的另一个这样的标准是多视图视频编码(MVC)标准，其成为了对H.264/AVC的另一个扩展。

在多视图视频编码中，从不同照相机输出的视频序列的每一个对应于不同视图，将所述视频序列编码为一个比特流。在解码后，为了显示某个视图，对属于那个视图的解码图片进行重建和显示。也可以针对多于一个视图进行重建和显示。

多视图视频编码具有多种多样的应用，包括自由视点视频/电视、3D电视以及监视应用。当前，ITU-T视频编码专家组和ISO/IEC运动图片专家组(MPEG)的联合视频工作组(JVT)正努力开发MVC标准，其正成为H.264/AVC的扩展。这些标准在此被分别称为MVC和AVC。在JVT-AB204(“Joint Draft Multi-view Video Coding”，第28次JVT会议，汉诺威，德国，2008年7月)中描述了MVC的最新工作草案，其可以在ftp3.itu.ch/av-arch/jvt-site/2008_07_Hannover/JVT-AB204.zip获得。

除了在MVC的工作草案中定义的特征，其他潜在特征，特别是关注于编码工具的特征，也在联合多视图视频模型(JMVM)中进行了描述。在JVT-AA207(“Joint Multiview Video Model(JMVM)8.0”，第24次JVT会议，日内瓦，瑞士，2008年4月)中描述了JMVM的最新版本，其可以在ftp3.itu.ch/av-arch/jvt-site/2008_04_Geneva/JVT-AA207.zip获得。

图1是示出了传统MVC解码顺序(即，比特流顺序)的表示。解码顺序排列被称为时间优先编码。定义每个存取单元以包含针对一个输出时间点(time instance)(例如，T0、T1、T2...)的全部视图(例如，S0、S1、S2...)的编码图片。应当注意的是，存取单元的解码顺序可以不与输出或显示顺序相同。在图2中示出了针对多视图视频编码的传统MVC预测(包括每个视图中的图片间预测和视图间预测二者)结构。在图2中，通过箭头指示预测，其中每个指向(pointed-to)对象使用相应的指自(point-from)对象作为预测参考。

锚点图片是这样一个编码图片，在其中，全部切片仅仅参考具有相同时间索引的切片，即，只参考在其他视图中的切片而不参考在当前视图的较早图片中的切片。通过将anchor_pic_flag设置为1对锚点图片进行标示。在对锚点图片进行解码后，可以在没有来自在锚点图片之前解码的任何图片的帧内预测(inter-prediction)的情况下，对显示顺序中的随后的全部编码图片进行解码。如果一个视图中的图片是锚点图片，那么在其他视图中具有相同时间索引的全部图片也会是锚点图片。因此，任何视图的解码可以从对应于锚点图片的时间索引开始。具有anchor_pic_flag等于0的图片被称为非锚点图片。

在MVC的联合草案中，在序列参数集(SPS)MVC扩展中指定了视图相关性。独立地指定针对锚点图片和非锚点图片的相关性。因此，锚点图片和非锚点图片可以具有不同视图相关性。然而，针对参照相同SPS的图片集合，所有锚点图片必须具有相同视图相关性，并且所有非锚点图片必须具有相同视图相关性。在SPS MVC扩展中，可以针对在RefPicList0和RefPicList1中作为参考图片使用的视图分别标示从属视图。在一个存取单元之中，当视图分量A直接取决于视图分量B时，这意味着视图分量A将视图分量B用于视图间预测。如果视图分量B直接取决于视图分量C，并且如果视图分量A并不直接取决于视图分量C，那么视图分量A间接取决于视图分量C。

在MVC的联合草案中，在网络抽象层(NAL)单元头中还存在inter_view_flag，其指示当前图片是否用于针对其他视图中的图片的视图间预测。在这个草案中，视图间预测由仅纹理预测支持，即，只有重建的样本值可以被用于视图间预测，并且只有与当前图片的输出时间点相同的重建的图片被用于视图间预测。在NAL单元(NALU)的第一个字节之后，接着的是NAL单元头扩展(3字节)。NAL单元头扩展包括描述NAL单元在MVC的上下文中的属性的语法元素。

作为JMVM中的编码工具，运动跳跃预测宏块(MB)模式以及来自视图间参考图片的运动向量，并且其仅仅适用于非锚点视图。在编码期间，在对锚点图片进行编码时估计全球差别移动向量(GDMV)，并且继而导出针对非锚点图片的GDMV以使得该针对非锚点图片的GDMV是来自两个邻近锚点图片的GDMV的加权平均值。GDMV为16像素精度，即，针对当前图片中的任何MB(即，正在被编码或解码的图片)，根据GDMV在视图间参考图片中转移的相应区域在视图间参考图片中覆盖恰好一个MB。

基于这个GDMV，针对每个非锚点图片，对GDMV进行缩放。针对每个MB，如果该MB利用运动跳跃，那么标示差别运动向量的本地偏移。在解码器处，如果使用运动跳跃模式，那么使用最终差别运动向量以寻找视图间图片中的运动向量，并且从视图间图片复制运动向量。

3D视频新近获得了显著关注。此外，随着获取和显示技术的进步，通过使用不同应用机会，3D视频正在消费者领域中成为现实。考虑到捕获和显示技术的确信的成熟，以及加上MVC技术的帮助，许多不同的被想象的3D视频应用正变得更加可行。应当注意的是，通常可以将3D视频应用分为三个种类：自由视点视频；3D电视(视频)；以及沉浸式(immersive)电话会议。这些应用的要求可以完全不同，并且实现每种类型的3D视频应用都具有其自身的挑战。

当基于2D图像传送3D内容时，带宽限制成为了问题，并且因此需要强大的压缩器以使用仅仅合理数量的视图对3D内容进行编码。然而，在客户端设备处，举例来说，用户可能需要在任何角度(例如，以视图导航或自动立体视频)观看3D内容的体验。因此，希望解码器呈现尽可能多的视图并且尽可能连续地执行这一点。视图合成可以通过传送合理数量的视图并同时在呈现器处对其他视图进行内插来应对此带宽限制。在MPEG视频子组之中，正在执行3D视频编码中的探索实验(3DV EE)以学习类似的应用场景。同样声称的是为每个视图带有深度图视频对视图合成有潜在的帮助。

此外，MPEG还针对MPEG-C部分3中的常规视频流指定了用于附着深度图的格式。在“Text of ISO/IEC FDIS 23002-3Representation of Auxiliary Video and Supplemental Information”(ISO/IEC JTC 1/SC 29/WG 11的N8768，马拉喀什，摩洛哥，2007年1月)中描述了这个规范。

在MPEG-C部分3中，所谓的辅助视频可以是深度图或视差图。纹理视频通常由三个分量组成，即一个亮度分量Y，以及两个色度分量U和V，然而，深度图仅仅具有代表对象像素和照相机之间的距离的一个分量。通常，以YUV 4:2:0、4:2:2或4:4:4格式代表纹理视频，其中分别针对每个4、2或1亮度样本，对一个色度样本(U或V)进行编码。将深度图看作按照YUV 4:0:0格式的仅仅亮度的视频。可以将深度图类似地帧间编码成帧间编码的仅仅亮度的纹理图片，并且因此编码的深度图可以具有运动向量。当代表深度图时，它在用于代表每个深度值的比特数量方面提供了灵活性。例如，深度图的分辨率可以是例如相关图像的1/4的宽和1/2的高。

应当注意的是，确定哪个视频编解码器被使用了是应用问题，尽管最终结果能够例如将深度图视频编码为单色视频(4:0:0)。例如，可以将深度图编码为仅仅具有亮度分量的H.264/AVC比特流。备选地，可以将深度图编码为在H.264/AVC中定义的辅助视频。在H.264/AVC中，独立于主要图片，对辅助图片进行编码，并且因此在针对样本值的主要编码图片和针对深度值的辅助编码图片之间不存在预测。

当提供了针对视图的每个图片(即，深度图视频)的深度信息时，针对3D视频呈现的视图合成得到了改进。由于深度图视频可以消耗针对整个比特流的全部带宽中的大部分(特别是当每个视图都与深度图相关联时)，所以对深度图视频的编码应当足够高效以节省带宽。

通常，如以上所述，对深度图视频(如果存在)独立地编码。然而，在纹理视频和它的相关联的深度图之间会存在相关性。例如，在编码深度图中的运动向量和在编码纹理视频中的运动向量可能是类似的。可以预见到，深度图和纹理之间的样本预测是无效率的并且是几乎无用的，但是深度图图像和纹理图像之间的运动预测是有利的。

对于多视图视频内容，MVC是“技术现状”编码标准。基于MVC标准，不可能在一个MVC比特流中对深度图视频和纹理视频进行编码，并且与此同时支持深度图图像和纹理图像之间的运动预测。

发明内容

不同实施方式提供了对深度图视频和纹理视频的联合编码。根据不同实施方式，根据深度图视频的相应的运动向量预测针对纹理视频的运动向量，反之亦然。当在比特流中仅仅呈现了一个视图时考虑服从SVC的场景。在这个场景中，将深度图视频编码为基本层并且将纹理视频编码为增强层。附加地，可以使用层间运动预测以根据深度图视频中的运动来预测纹理视频中的运动。备选地，将纹理视频编码为基本层，将深度图视频编码为增强层，并且根据纹理视频中的运动来预测深度图中的运动。当在比特流中呈现多于一个视图时，可以向每个视图应用在纹理视频和相应的深度图视频之间的层间预测。在具有多个视图的另一场景中，深度图视频被认为是单色照相机视图并且可以根据彼此进行预测。如果允许JMVM编码工具，则可以使用视图间运动跳跃以根据深度图图像来预测纹理图像的运动向量。在另一场景中，当在相同依赖关系层中的视图之间应用视图间预测，并且在相同视图中的层之间应用层间(运动)预测时，利用可缩放多视图视频编码(SMVC)。

当连同附图时，通过下述详细描述，本发明的这些以及其他优点和特征，以及它们的组织和操作方式，将变得显而易见，其中在以下描述的若干附图中，相同的元素具有相同的数字。

附图说明

通过参考附图对不同实施方式的实施方式进行描述，附图中：

图1示出了传统的MVC解码顺序；

图2示出了传统的MVC时间和视图间预测结构的示例；

图3是示出了针对3D视频系统的示例性组件和示例性过程流程的框图；

图4是示出了用于根据不同实施方式对媒体流进行编码而执行的示例性过程的流程图；

图5a-图5d是根据不同实施方式的、针对具有深度和纹理视频编码/解码的3D内容的不同MVC场景的表示；

图6是适用于本发明的不同实施方式的通用多媒体通信系统的表示；

图7是可以连同本发明的不同实施方式的实现进行使用的电子设备的透视图；以及

图8是可以包括在图7的电子设备中的电路的示意表示。

具体实施方式

在图3中示出了3D视频系统300。在捕获器310处将3D视频内容作为多个视频序列(N个视图)进行捕获。捕获器310也可以针对每个视图或视图的子集捕获深度，但是备选地或另外地，可以在预处理器320中对深度进行估计。预处理器320负责几何矫正和颜色校准。此外，预处理器320可以执行深度估计以将深度图图像与视频序列相关联。在编码器330处，例如通过MVC编码器将视频序列编码为比特流。如果内容与深度图图像/图片一起供给或与深度图图像/图片相关联，那么可以对它们进行编码，例如，编码为H.264/AVC中支持的辅助图片。压缩的3D表示，即比特流，通过特定信道进行传送或被容纳在存储设备340中。如果多视图内容与深度一起供给，那么需要对深度进行编码。

当客户端350从信道或存储设备340接收比特流时，在客户端350中实现的解码器352对N个视图和深度图图像(如果存在)进行解码。解码器352还可以根据哪些已编码已合成的视图需要用于显示，而对深度图图像和N个视图的子集进行解码。视图合成器354可以基于N个视图和深度图图像，使用视图生成算法生成更多视图(称为新颖或虚拟视图)。附加地，视图合成器354可以与显示器356交互，显示器356例如提供人机接口设备，诸如遥控器。应当注意的是，可以将视图合成器354集成到解码器352中，特别是对于具有小视角的自动立体应用。

不同实施方式支持对深度图视频和纹理视频的联合编码。图4是示出了用于根据不同实施方式对包括第一视图(包括第一深度图片、第二深度图片、第一样本图片和第二样本图片)的媒体流进行编码而执行的示例性过程的流程图。在400处，使用第一运动向量根据第一深度图片预测第二深度图片。在410处，使用第二运动向量根据第一样本图片预测第二样本图片。在420处，对第一运动向量和第二运动向量进行编码，例如，联合地编码。应当注意的是，联合编码可以包括根据第一运动向量对第二运动向量的预测，反之亦然，并且仅仅将运动向量的差异编码到比特流中。

当在比特流中仅仅呈现一个视图时，考虑服从SVC的场景，其中将深度图视频编码为基本层并且将纹理视频编码为增强层。附加地，服从SVC的场景使用层间运动预测以根据深度图视频中的运动预测纹理视频中的运动。在另一个实施方式中，当将纹理视频编码为基本层、将深度图视频编码为增强层并且使用层间运动预测以预测深度图中的运动时，考虑服从SVC的场景。当在比特流中呈现多于一个视图时，可以向每个视图应用在纹理视频和相应的深度图之间的层间预测。在具有多个视图的场景中，深度图视频被认为是单色照相机视图并且可以根据彼此进行预测。如果允许JMVM编码工具，可以使用视图间运动跳跃以根据深度图图像预测纹理图像的运动向量。在另一场景中，当在相同依赖关系层中的视图之间应用视图间预测，并且在相同视图中的层之间应用层间(运动)预测时，利用SMVC。

在ITU-T建议H.264(“Advanced video coding for genericaudiovisual services”，2007年11月)中描述了SVC规范，其可以从http://www.itu.int/rec/T-REC-H.264/en获得。

在SVC中，在NAL单元头SVC扩展中存在输出标志“output_flag”以指定所解码的图片是否将被输出。对于属于AVC兼容的基本层的视频编码层(VCL)NAL单元，在相关的前缀NAL单元中包括output_flag。

SVC还基于纹理、残余和运动引入了针对空间和SNR可缩放性的层间预测。当与仅利用纹理的层间预测的其他可缩放解决办法比较时，这是SVC的新颖性的主要点。这个层间预测提供了宏块(MB)级适应，并且每个MB可在层间预测和增强层中正常的层内预测之间执行速率失真优化(RDO)模式。SVC中的空间可缩放性已被概括为两个层之间的任何分辨率比，因此可能支持从具有SDTV的基本层(具有4∶3的图片纵横比)到具有HDTV的增强层(具有16∶9的图片纵横比)的可缩放性。通过对具有与其基本层相同分辨率的增强层进行编码以用于层间预测，实现了SNR可缩放性，并且通过向预测残余应用更精细的量化参数(QP)来对增强层进行编码，其在以下更详细地描述。当前，为了SNR可缩放性支持过程粒度可缩放性(CGS)和介质粒度可缩放性(MGS)。MGS和CGS之间的差别在于MGS允许在任何存取单元处转换对不同MGS层的运送和解码，而CGS层仅可以在某些固定点处被转换，其中转换到的层的图片是IDR图片。附加地，可以使用更加灵活的参考机制以使MGS关键图片在误差偏移和增强层编码效率之间提供权衡。

在SVC中，通过语法元素dependency_id识别针对空间可缩放性和CGS的层间编码依赖关系分层，而通过语法元素quality_id识别MGS依赖关系分层。如对temporal_id所执行的那样，这两个语法元素也在NAL单元头SVC扩展中进行标示。在任何时间位置处，可以根据具有较小dependency_id值的图片层间预测具有较大dependency_id值的图片。然而，在CGS中，在任何时间位置处并且对于相等的dependency_id值，具有quality_id值等于QL的图片只能使用具有quality_id值等于QL-1的基本质量图片以供层间预测。quality_id大于0的这些质量增强层为MGS层。

如果增强层具有与基本层相同的分辨率(即，它是CGS或MGS层)，可以将纹理、残余或运动直接用于层间预测。否则，在用于层间预测之前，基本层被超取样(upsample)(针对纹理或残余)或者缩放(针对运动)。以下讨论这些层间预测方法。

使用层间纹理预测的编码模式在SVC中被称为“IntraBL”(BL内)模式。为了支持单环解码，只有如下的MB可以使用这个模式，针对这些MB，仅仅基本层中用于层间预测的共同定位的MB被有限制地进行帧内编码。被有限制地帧内编码的MB被帧内编码而无需参考来自邻近帧间MB的任何样本。针对空间可缩放性，基于两层之间的分辨率比值来对纹理进行超取样。在增强层中，对原始信号和可能地超取样的基本层纹理之间的差别进行编码，仿佛它是单层编码中的帧间MB内的运动补偿残余。

如果MB被指示使用残余预测，则基本层中用于层间预测的共同定位的MB必须是帧间MB，并且可以根据分辨率比值对它的残余进行超取样。继而使用基本层的可能地超取样的残余信号以预测增强层的残余。对增强层的残余和基本层的残余之间的差别进行编码。

当对于增强层中的MB或MB分区支持层间运动预测，并且与此同时基本层和增强层的参考索引相同时，可以缩放共同定位的基本层运动向量以针对增强层中的MB的运动向量生成预测器。存在一种叫做基本模式的MB类型，其针对每个MB发送一个标志。如果这个标志为真并且对应的基本层MB不是帧内的，那么运动向量、分区模式和参考索引全部从基本层导出。

根据服从SVC的深度编码场景，可以考虑具有两个视频的一个视图。第一视频可以是包含纹理图像的纹理视频。第二视频可以是包含深度图图像的深度图视频。深度图图像可以具有与纹理图像相同或更低的分辨率。在这样的场景中，使用组合的可缩放方法以支持对深度和纹理图像的联合编码，其操作如下。

关于基本层，将纹理视频编码为4:2:0视图(或具有三个颜色分量的更高色度样本格式)并且output_flag等于1。关于增强层，将纹理视图编码为4:0:0视图(仅仅具有亮度分量)，并将output_flag设置为0。附加地，如果纹理图像具有与深度图图像相同的分辨率，那么将CGS或MGS与不同色度样本格式结合使用。备选地，如果纹理图像具有比深度图图像更高的分辨率，那么将空间可缩放性与不同色度样本格式结合使用。

备选地并且关于基本层，将深度图图像编码为4:0:0视图(仅仅具有亮度分量)并且output_flag等于0。关于增强层，将纹理图像编码为4:2:0视图(或具有三个颜色分量的更高色度样本格式)，并将output_flag设置为1。附加地，如果纹理图像具有与深度图图像相同的分辨率，那么将CGS或MGS与色度样本可缩放性结合使用。备选地，如果纹理图像具有比深度图图像更高的分辨率，那么将空间可缩放性与色度样本可缩放性结合使用。

再者，在之前的实例中仅仅利用了层间运动预测，并且IntraBL和残余预测被禁用。此外，对补充增强信息(SEI)消息进行标示以指示按照上述方式对SVC比特流进行编码。在H.264/AVC、SVC和MVC中，比特流可以包括SEI消息。对于对输出图片中的样本值的解码并不需要SEI消息，但SEI消息协助有关的过程，诸如图片输出定时、呈现、错误检测、错误隐藏以及资源保留。许多SEI消息都在H.264/AVC、SVC和MVC标准中进行了规定，并且用户数据SEI消息支持组织和公司为了它们自身的使用而指定SEI消息。H.264/AVC、SVC和MVC标准包含用于指定的SEI消息的语法和语义学，但是没有定义用于在解码器中处理消息的过程。因此，当编码器创建SEI消息时要求编码器遵照H.264/AVC、SVC和MVC标准，并且并不要求遵照H.264/AVC、SVC和MVC标准的解码器为了输出顺序一致而处理SEI消息。在H.264/AVC、SVC和MVC标准中包括SEI消息的语法和语义学的一个原因是允许系统说明书同一地解释补充信息并且因此交互操作。所打算的是：系统说明书可以要求在编码端和解码端都使用特定SEI消息，并且可以针对系统说明书中的应用指定用于在接收器中处理SEI消息的过程。

从解码器的视角，如果接收到这样的消息，考虑三个实施方式以获得深度图视频和纹理视频二者。在第一实施方式中，执行多环解码，即，对基本层和增强层进行完全重建。根据第二实施方式，提取比特流的不同子集，并且执行单环解码器的两个实例。即，提取仅仅包含基本层的比特流子集并且继而对其进行解码(通过H.264/AVC、SVC或MVC解码器)以首先获得深度图视频。随后，对整个比特流进行解码以获得纹理视频。根据第三实施方式，对单环解码器进行修改，以取决于为了显示或视图合成是否需要基本层图片而有选择地输出基本层图片。如果为了显示或视图合成并不需要基本层图片，可以使用传统的单环解码，并且编码的基本层图片仅仅用作针对相应的增强层图片的预测参考。应当注意的是，根据这三个实施方式，仅仅针对那些参与视图合成的视图重建深度图图像。

已经提议了不同机制/方案以针对MVC内容的每个视图使用SVC。例如，已经提议了MVC方案，其中用SVC方案(实现为SVC标准的MVC扩展)对每个视图进行编码。这些所提议的方案的特征包括支持以可缩放方式对多视图比特流中的任何视图进行编码的编解码器设计。提供了参考图片标记设计和参考图片列表结构设计以支持使用来自在视图顺序中早于当前视图的任何其他视图的任何依赖关系表示用于视图间预测。附加地以及针对用于视图间预测的依赖关系表示，所提议的参考图片标记设计和参考图片列表结构设计允许对针对视图间预测的依赖关系表示的基本表示或增强表示的选择使用。依赖关系表示的增强表示可以起源于对MGS层表示或细微粒可缩放性(FGS)层表示的解码。根据这个所提议的可缩放多视图视频编码(SMVC)方案，在SMVC的NAL单元头中包括SVC的NAL单元头中的字段和多视图的NAL单元头中的字段。例如，在SMVC的NAL单元头中呈现了view_id和dependency_id。

因此，对于多个视图比特流，考虑服从MVC的深度编码场景。当多个视图存在时，其中每一个都具有深度图视频和纹理视频，可以应用服从MVC的深度编码以支持深度图视频之间的视图间预测以及纹理视频之间的视图间预测。对多视图内容进行编码的一个方式是按照服从MVC的方式。根据第一实施方式，如图5a中所示，当支持不同视图中的辅助图片之间的视图间预测(由箭头指示)时，将全部深度图图像编码为辅助图片。例如，图5a示出了来自视图1的深度图视频可以利用来自视图0和视图2的深度图视频作为预测参考。

根据第二实施方式，将全部深度图图像编码为正常4:0:0视图，而向每个深度图视频分配新的视图标识符。举个例子，并且如图5b中所示，考虑具有三个视图的场景，将纹理视频编码为视图0至视图2，并且将深度图视频编码为视图N、视图N+1和视图N+2。在这个实施方式中应用每个视图中的深度图视频和纹理视频之间的视图间运动预测。应当注意的是，在JMVM中应用的运动跳跃(通过每个深度图和纹理视频之间的对角线箭头来指示)在这个实施方式中并不生效。在图5b中示出的其余箭头再次表明视图间预测。在这个例子中，引入SEI消息以支持呈现器将深度图的视图标识符映射到其相关联的纹理视频。在图5b中，视图间运动预测是从深度图视频到纹理视频，备选地，视图间运动预测可以从纹理视频到深度图来执行。

在服从JMVM的深度编码场景中，可以在相同视图的深度图视频和纹理视频之间支持运动预测。再次参考图5b示出了这个场景。然而，在这个JMVM场景中，运动跳跃将生效。如上所述，将深度图视频编码为正常4:0:0视图，而向每个深度图视频分配新的视图标识符。如果深度图视频和纹理视频属于相同视图，那么从深度图视频向纹理视频支持运动跳跃。在这个例子中，全局差异总是被标示为0并且针对MB的局部差异同样总是被标记为0(如果使用运动跳跃模式)。因此，可以降低编码器复杂性。备选地，也可以从纹理视频向深度图支持运动跳跃而同时仍然将全局差异和局部差异标示为0。在这个例子中，引入SEI消息以支持呈现器将深度图的视图标识符映射到其相关联的纹理视频。应当注意的是，为了支持这个场景，如果深度图视频和纹理视频互相关联时，它们应当具有相同的分辨率。备选地，也可以从纹理视频向深度图视频执行运动跳跃过程而不是从深度图视频向纹理视频执行。

图5c示出了SMVC深度编码场景，其中每个视图具有两个依赖关系层。根据一个实施方式，较低依赖关系层对应于服从MVC的基本层，使用H.264/AVC编码工具和视图间预测对其进行编码。每个视图的基本层对应于特定视图的深度图视频，并且用单色模式对其进行编码。用H.264/AVC编码工具、来自共享相同依赖关系层的其他视图的视图间预测以及来自相同视图的基本层的层间运动预测(用从不同视图的深度图视频到纹理视频的箭头来指示)，对每个视图的较高依赖关系层进行编码。这个层是MVC依赖关系层，其对应于特定视图的纹理视频。如果纹理图像具有比深度图图像更高的分辨率，那么将空间可缩放性与不同色度样本格式结合使用。

备选地并且根据另一个实施方式，较低依赖关系层对应于服从MVC的基本层，使用H.264/AVC编码工具和视图间预测对其进行编码。基本层对应于特定视图的纹理视频。用单色模式，利用H.264/AVC编码工具、来自共享相同依赖关系层的其他视图的视图间预测以及来自相同视图的基本层的层间运动预测(用从不同视图的深度图视频到纹理视频的箭头来指示)，对每个视图的较高依赖关系层进行编码。这个层是MVC依赖关系层，其对应于特定视图的深度图视频。

应当注意的是，要求针对视图合成的、对每个视图中的深度图(基本层或增强层)的完全解码。要求针对(将要显示的)所希望的照相机视图的、对纹理视频(最高层或基本层)的完全解码。

备选地，如图5d中所示，可以应用在SMVC中实现深度编码的再一个实施方式，其中使用深度图视频对某些视图进行编码，而不使用深度图视频对某些视图进行编码。在这个例子中，某些视图，例如视图1，仅仅具有一个依赖关系层(纹理视频)，而其他视图可以具有两个依赖关系层(深度图以及纹理视频)。此外，这个实施方式还可以在一个视图中从纹理视频向深度图视频利用层间预测。

关于图4并且如上所述，在第一实施方式中，媒体流可以是具有包括第一和第二深度图片的基本层的SVC比特流，其中根据第一运动向量对第二运动向量进行断然地编码(例如，使用层间运动预测)。备选地，在第二实施方式中，媒体流可以是具有包括第一和第二样本图片的基本层的SVC比特流，其中根据第二运动向量对第一运动向量进行断然地编码(例如，使用层间运动预测)。附加地，将基本层(第一实施方式中)或增强层(第二实施方式中)编码为单色视频，其中将增强层编码为MGS、CGS或空间增强层。应当注意的是，基本层(第一实施方式中)或增强层(第二实施方式中)被指示“不以输出为目标”，其中对SEI消息进行编码以指示媒体流包括深度图图像的基本层(第一实施方式中)。也可以对SEI消息进行编码以指示媒体流包括深度图图像的增强层(第二实施方式中)。

同样如上所述，媒体流可以包括第二视图，第二视图包括深度图片和样本图片，其中对第二视图中的第三深度图片进行编码并且在第二深度图片和第三深度图片之间使用视图间预测。在这个实施方式中，可以将深度图片编码为辅助图片。

在另一个实施方式中，将包含深度图图像的第一编码视图和包含纹理图像的第二编码视图之间的差异运动指示为零并且视图间运动跳跃模式用于第二运动向量的预测性编码。

在此描述以上指示的不同场景的比特流格式。对于服从SVC的深度编码，指示使用联合深度和纹理视频对SVC进行编码的SEI消息语法的示例如下。

joint_depth_coding_SVC(payloadSize){
	view_info_pre_flag	5	u(1)
if(view_info_pre_flag)
	view_id	5	ue(v)
}

如果存在的话，这个SEI消息指示编码的SVC比特流具有4:0:0格式的一个或多个依赖关系层(深度图视频)，并且从具有不同色度取样格式的两个依赖关系层，仅允许层间运动预测。SVC联合深度编码SEI消息的语义学包括“view_info_pre_flag”，当其等于1时，指示这个SVC比特流所对应的视图标识符被指定。“view_info_pre_flag”等于0指示没有指定视图标识符。附加地，“view_id”指示解码的视频和深度图所对应的视图的视图标识符。

对于上述的与服从MVC的深度编码场景相关联的一个实施方式，示例性MVC深度视图标识符映射SEI消息的语法如下：

depth_id_map_mvc(payloadSize){
			num_depth_views_minus1	5	ue(v)
for(i＝0；i＜＝num_depth_views_minus1；i++){
			sample_view_id[i]	5	ue(v)
depth_view_id[i]	5	ue(v)
			}
}

MVC深度视图标识符映射SEI消息语义学包括“num_depth_views_minus1”参数，其指示用深度图视频进行编码的视图的数量。附加地，“sample_view_id[i]”参数指示用深度图视频进行编码的第i个视图的纹理视频的view_id。此外，“depth_view_id[i]”指示用深度图视频进行编码的第i个视图的深度图视频的view_id。

当考虑服从JMVM的深度编码场景时，示例性SEI消息语法可以与以上针对服从MVC的深度编码所描述的相同。对于映射SEI消息语义学，如同MVC深度视图标识符映射SEI消息的语义学，包括以下：指示用深度图视频进行编码的视图的数量的“num_depth_views_minus1”参数；指示用深度图视频进行编码的第i个视图的纹理视频的view_id的“sample_view_id[i]”参数，以及指示用深度图视频进行编码的第i个视图的深度图视频的view_id的“depth_view_id[i]”参数。附加地，当存在时，比特流支持来自具有“depth_view_id[i]”和“sample_view_id[i]”的视图标识符对的深度图视频和纹理视频的运动跳跃。从具有“view_id”值等于“depth_view_id[i]”值的视图向具有“view_id”值等于“sample_view_id[i]”值的视图的所标示的差别运动被设置为零。

关于SMVC深度编码，当一个视图不具有深度而另一个具有深度时，有关的语法允许基本层具有不等于0的dependency_id，以便支持来自不同视图中的纹理视频(具有相同的dependency_id值)的视图间预测。

应当进一步理解的是，虽然在此包含的文本和示例可以明确地描述编码过程，但是本领域技术人员将理解到相同的概念和原则也适用于相应的解码过程，反之亦然。举例而言并且就图4而言，解码器可以对编码的媒体流进行解码，并且编码的媒体流具有通过使用第一和第二运动向量分别根据第一深度图片和第一样本图片预测第二深度图片和第二样本图片而实现的上述属性，其中对运动向量进行了例如联合编码。

图6是可供不同实施方式在其中实现的通用多媒体通信系统的图形表示。如图6中所示，数据源600提供模拟、未压缩数字或压缩数字格式的源信号，或这些格式的任何组合的源信号。编码器610将源信号编码为编码媒体比特流。应当注意的是，可以从位于几乎任何类型的网络之中的远程设备直接或间接地接收将要被解码的比特流。附加地，可以从本地硬件或软件接收比特流。编码器610可以能够对多于一个视频类型(诸如音频和视频)进行编码，或者可以要求多于一个编码器610对源信号的不同媒体类型进行编码。编码器610也可以获得合成产生的输入，诸如图形和文本，或它可以能够产生合成媒体的编码比特流。在以下中，为了简化描述，仅仅考虑对一个媒体类型的一个编码媒体比特流进行处理。然而应当注意，典型的实时广播服务包括若干流(通常至少一个音频、视频和文本配字幕流)。还应当注意的是，系统可以包括许多编码器，但是为了在不失一般性的情况下简化描述，在图6中仅仅示出了一个编码器610。应当进一步理解的是，虽然在此包含的文本和示例可以明确地描述编码过程，但是本领域技术人员将理解到相同的概念和原则也适用于相应的解码过程，反之亦然。

向存储620传送编码媒体比特流。存储620可以包括任何类型的海量存储器以存储编码媒体比特流。在存储620中的编码媒体比特流的格式可以是基本的自包含比特流格式，或者可以将一个或多个编码媒体比特流封装到容器文件内。某些系统“现场”操作，即省略存储并且将编码媒体比特流直接从编码器610向发送器630传送。继而在需要时将编码媒体比特流向发送器630(也称为服务器)传送。在传送中使用的格式可以是基本的自包含比特流格式、分组流格式，或者可以将一个或多个编码媒体比特流封装到容器文件内。编码器610、存储620和服务器630可以位于相同物理设备中，或者它们可以被包括在不同的设备中。编码器610和服务器630可以操作现场实施内容，在这个例子中编码媒体比特流通常不被永久存储，而是在内容编码器610和/或在服务器630中针对小段时间而进行缓冲，以消除处理延迟、传送延迟和编码媒体比特率中的变化。

服务器630使用通信协议栈发送编码媒体比特流。该栈可以包括但不限于实时传送协议(RTP)，用户数据报协议(UDP)以及网际协议(IP)。当通信协议栈是面向分组时，服务器630将编码媒体比特流封装到分组中。例如，当使用RTP时，服务器630根据RTP有效负载格式将编码媒体比特流封装到RTP分组中。通常，每个媒体格式具有专用的RTP有效负载格式。应当再次注意的是，系统可以包含多于一个服务器630，但是为了简单起见，接下来的描述仅仅考虑一个服务器630。

服务器630可以通过通信网络连接到网关640或不连接到网关640。网关640可以执行不同类型的功能，诸如将根据一个通信协议栈的分组流翻译到另一个通信协议栈、数据流的合并和分岔、以及根据下行链路和/或接收器能力操作数据流，诸如根据占优的下行链路网络状况控制所转发的流的比特率。网关640的示例包括MCU、电路转换和分组转换的视频电话之间的网关、蜂窝一键通(PoC)服务器、数字视频广播-手持式(DVB-H)系统中的IP封装器，或将广播传输向家庭无线网络进行本地转发的机顶盒。当使用RTP时，网关640被称为RTP混合器或RTP翻译器，并且通常充当RTP连接的端点。

系统包括一个或多个接收器650，其通常能够将所传送的信号进行接收、解调或解封装为编码媒体比特流。向记录存储655传送编码媒体比特流。记录存储655可以包括任何类型的海量存储器以存储编码媒体比特流。记录存储655可以备选地或附加地包括计算存储器，诸如随机访问存储器。记录存储655中的编码媒体比特流的格式可以是基本的自包含比特流格式，或者可以将一个或多个编码媒体比特流封装到容器文件内。如果存在彼此关联的多个编码媒体比特流，诸如音频流和视频流，那么通常使用容器文件并且接收器650包括容器文件生成器或附着到容器文件生成器，容器文件生成器从输入流产生容器文件。某些系统“现场”操作，即省略记录存储655并且将编码媒体比特流直接从接收器650向解码器660传送。在某些系统中，在记录存储655中仅仅保持所记录的流的最近部分，例如，所记录的流的最近10分钟选录，而从记录存储655中丢弃任何较早记录的数据。

从记录存储655向解码器660传送编码媒体比特流。如果存在彼此关联并且被封装到容器文件中的许多编码媒体比特流，诸如音频流和视频流，那么可以使用文件分析器(在图中未示出)以从容器文件解封装每个编码媒体比特流。记录存储655或解码器660可以包括文件分析器，或者文件分析器附着到记录存储655或解码器660。

编码媒体比特流通常进一步由解码器660进行处理，解码器660的输出为一个或多个未压缩媒体流。最后，呈现器670可以用例如扬声器或显示器再现未压缩媒体流。接收器650、记录存储655、解码器660和呈现器670可以位于相同物理设备中或者它们可以被包括在不同的设备中。应当注意的是，可以从位于几乎任何类型的网络之中的远程设备接收将要被解码的比特流。附加地，可以从本地硬件或软件接收比特流。

根据不同实施方式，发送器630可以被配置用于针对多种原因选择所传送的层或视图，诸如响应于接收器650的请求或供比特流在其上传送的网络的占优状况。来自接收器的请求可以是例如针对用于显示的层或视图的变化，或者与上一个相比具有不同能力的呈现设备的变化的请求。

本发明的通信设备可以使用不同传输技术进行通信，该传输技术包括但不限于码分多址(CDMA)、全球移动通信系统(GSM)、通用移动电信系统(UMTS)、时分多址(TDMA)、频分多址(FDMA)、传输控制协议/网际协议(TCP/IP)、短消息收发服务(SMS)、多媒体消息收发服务(MMS)、电子邮件、即时消息收发服务(IMS)、蓝牙、IEEE 802.11等等。通信设备可以使用不同介质进行通信，该介质包括但不限于无线电、红外线、激光、缆线连接等等。

图7和图8示出了在其中可以实现不同实施方式的一个有代表性的电子设备12。然而应当理解，并非意在将不同实施方式限制到一个特定类型的设备。图7和图8的电子设备12包括外壳30、采取液晶显示器形式的显示器32、小键盘34、麦克风36、听筒38、电池40、红外端口42、天线44、根据一个实施方式采取UICC形式的智能卡46、读卡器48、无线电接口电路52、编解码器电路54、控制器56以及存储器58。单独的电路和元件全部都是本领域中众所周知的类型。

在方法步骤或过程的一般上下文中描述了在此描述的不同实施方式，在一个实施方式中，可以通过计算机程序产品实现该方法步骤或过程，该计算机程序产品体现为计算机可读介质，包括计算机可执行指令，诸如程序代码，由联网环境中的计算机执行。计算机可读介质可以包括可拆卸和不可拆卸存储设备，其包括但不限于，只读存储器(ROM)、随机访问存储器(RAM)、压缩碟片(CD)、数字通用碟片(DVD)等等。通常，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。计算机可执行指令、相关联的数据结构以及程序模块代表用于执行在此公开的方法的步骤的程序代码的示例。这样的可执行指令或相关联的数据结构的特定序列代表用于实现在上述步骤或过程中描述的功能的相应动作。

可以在软件、硬件、应用逻辑，或是软件、硬件和应用逻辑的组合中实现不同实施方式。软件、应用逻辑和/或硬件可以位于例如芯片组、移动设备、台式计算机、膝上型计算机或服务器上。不同实施方式的软件和web实现可以用以下实现：具有基于规则的逻辑的标准程序设计技术，以及用于实现不同数据库搜索步骤或过程、相互关系步骤或过程、比较步骤或过程以及决定步骤或过程的其他逻辑。也可以在网络元件或模块之中完全地或部分地实现不同实施方式。应当注意的是，在此以及在接着的权利要求书中使用的单词“组件”和“模块”意在包含使用一行或多行软件代码、和/或硬件实现、和/或用于接收人工输入的设备的实现。

在上述示例中描述的单独的和特定的结构应当被理解为构成用于执行在接下来的权利要求书中所描述的特定功能的装置的有代表性的结构，尽管在权利要求书中没有使用术语“装置”的情况下权利要求书中的限定不应当被理解为构成“装置加功能”限定。附加地，在上述描述中对术语“步骤”的使用不应当被用于解释权利要求书中的任何特定限定构成“步骤加功能”限定。以在此描述的或以其他方式提及的包括授权的专利、专利申请以及非专利出版的单独的参考为限，这样的参考并非意在，并且不应当被解释为限制接下来的权利要求书的范围。

对于实施方式的上述描述是出于说明和描述的目的而给出的。上述描述并非是穷尽的或意在将不同实施方式限制在所公开的精确的形式，并且考虑到以上教导，修改和变型是可能的，或者可以从不同实施方式的实践中获得它们。选择并且描述在此讨论的实施方式是为了说明不同实施方式的原则和性质及其实际应用，以使得本领域技术人员能够利用不同实施方式，并且不同的修改适合于所预期的特定使用。在此描述的实施方式的特征可以组合在方法、装置、模块、系统以及计算机程序产品的全部可能的组合中。

Claims

1.一种用于对包括与第一纹理图片相关联的第一深度图图片和与第二纹理图片相关联的第二深度图图片的媒体流进行编码的方法，所述方法包括：

使用第一运动向量根据所述第一深度图图片预测所述第二深度图图片；

使用第二运动向量根据所述第一纹理图片预测所述第二纹理图片；

将所述第一运动向量编码到比特流中；

至少基于表现为预测运动向量的所述第二运动向量，预测所述第一运动向量；以及

将所述第一运动向量和所述预测运动向量之间的差别编码到所述比特流中。

2.根据权利要求1所述的方法，其中所述第一纹理图片和第二纹理图片属于第一视图，并且所述媒体流还包括第二视图，所述第二视图包括与第三纹理图片相关联的第三深度图图片和与第四纹理图片相关联的第四深度图图片，所述方法还包括：

使用第三运动向量根据所述第三深度图图片预测所述第四深度图图片；

使用第四运动向量根据所述第三纹理图片预测所述第四纹理图片；

对所述第三运动向量和所述第四运动向量进行编码。

3.根据权利要求2所述的方法，还包括：

在所述第二深度图图片和所述第四深度图图片之间执行视图间预测。

4.根据权利要求1所述的方法，其中所述第一深度图图片属于第一视图而所述第二深度图图片属于第二视图。

5.一种具有存储在其上的计算机程序的计算机可读介质，所述计算机程序包括指令，所述指令可操作用于引起处理器执行权利要求1的方法中的任何一个。

6.一种用于对包括与第一纹理图片相关联的第一深度图图片和与第二纹理图片相关联的第二深度图图片的媒体流进行编码的装置，所述装置被配置用于：

将所述第一运动向量编码到比特流中；

7.根据权利要求6所述的装置，其中所述第一纹理图片和第二纹理图片属于第一视图，并且所述媒体流还包括第二视图，所述第二视图包括与第三纹理图片相关联的第三深度图图片和与第四纹理图片相关联的第四深度图图片，所述装置还被配置用于：

对所述第三运动向量和所述第四运动向量进行编码。

8.根据权利要求6所述的装置，还被配置用于在所述第二深度图图片和所述第四深度图图片之间执行视图间预测。

9.根据权利要求6所述的装置，其中所述第一深度图图片属于第一视图而所述第二深度图图片属于第二视图。

10.一种用于对包括与第一纹理图片相关联的第一深度图图片和与第二纹理图片相关联的第二深度图图片的媒体流进行解码的方法，所述方法包括：

将第一运动向量从比特流解码；

通过对基于所述第一运动向量的预测和从所述比特流取回的残余值进行求和，来对第二运动向量进行解码；

对所述第二深度图图片进行解码，其中所述第一运动向量用于根据所述第一深度图图片预测所述第二深度图图片；以及

对所述第二纹理图片进行解码，其中所述第二运动向量用于根据所述第一纹理图片预测所述第二纹理图片。

11.根据权利要求10所述的方法，其中所述第一纹理图片和第二纹理图片属于第一视图，并且所述媒体流还包括第二视图，所述第二视图包括与第三纹理图片相关联的第三深度图图片和与第四纹理图片相关联的第四深度图图片，所述方法还包括：

对第三运动向量和第四运动向量进行解码；

对所述第四深度图图片进行解码，其中所述第三运动向量用于根据所述第三深度图图片预测所述第四深度图图片；以及

对所述第四纹理图片进行解码，其中所述第四运动向量用于根据所述第三纹理图片预测所述第四纹理图片。

12.根据权利要求11所述的方法，还包括：

13.根据权利要求10所述的方法，其中所述第一深度图图片属于第一视图而所述第二深度图图片属于第二视图。

14.一种具有存储在其上的计算机程序的计算机可读介质，所述计算机程序包括指令，所述指令可操作用于引起处理器执行权利要求10的方法中的任何一个。

15.一种用于对包括与第一纹理图片相关联的第一深度图图片和与第二纹理图片相关联的第二深度图图片的媒体流进行解码的装置，所述装置被配置用于：

将第一运动向量从比特流解码；

16.根据权利要求15所述的装置，其中所述第一纹理图片和第二纹理图片属于第一视图，并且所述媒体流还包括第二视图，所述第二视图包括与第三纹理图片相关联的第三深度图图片和与第四纹理图片相关联的第四深度图图片，所述装置还被配置用于：

对第三运动向量和第四运动向量进行解码；

17.根据权利要求16所述的装置，还包括：

18.根据权利要求15所述的装置，其中所述第一深度图图片属于第一视图而所述第二深度图图片属于第二视图。