CN102017628B

CN102017628B - 深度信号的编码

Info

Publication number: CN102017628B
Application number: CN2009801145664A
Authority: CN
Inventors: 帕文·拜哈斯·潘迪特; 尹鹏; 田东
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2008-04-25
Filing date: 2009-04-24
Publication date: 2013-10-09
Anticipated expiration: 2029-04-24
Also published as: EP2266322A2; JP2011519227A; CN102017628A; WO2009131703A3; KR20110003549A; BRPI0911447A2; JP2014147129A; US20110038418A1; WO2009131703A2

Abstract

描述了各种实现方式。若干实现方式涉及确定、提供或使用代表整个编码分区的深度值。根据一个大方面，利用与图像的经编码的第一部分相关联但不与图像的其他部分相关联的第一部分运动向量来对第一部分编码。第一部分具有第一大小。确定为整个第一部分但不为其他部分提供深度信息的第一部分深度值。利用与图像的第二部分相关联但不与图像的其他部分相关联的第二部分运动向量来对第二部分编码。第二部分具有不同于第一大小的第二大小。确定为整个第二部分但不为其他部分提供深度信息的第二部分深度值。

Description

深度信号的编码

与相关申请的交叉引用

本申请要求2008年4月25日递交的题为“Coding of Depth Signal”的美国临时申请No.61/125,674的权益，特此通过引用将该申请的内容全部并入，用于所有目的。

技术领域

描述了涉及编码系统的实现方式。各种特定的实现方式涉及深度信号的编码。

背景技术

多视角视频编码(Multi-view Video Coding)(例如，H.264/MPEG-4AVC的MVC扩展，或其他标准，以及非标准化方法)是为包括自由视点和3D视频应用、家庭娱乐和监视在内的多种应用服务的关键技术。深度数据可与每个视角相关联并且例如用于视角合成。在这些多视角应用中，所涉及的视频和深度数据的量一般是巨大的。因此，需要帮助提高当前视频编码方案的编码效率的框架。

发明内容

根据一个大方面，利用与图像的经编码的第一部分相关联但不与图像的其他部分相关联的第一部分运动向量来对第一部分解码。第一部分运动向量指示出参考图像中将被用于对第一部分解码的相应部分，并且第一部分具有第一大小。处理第一部分深度值。第一部分深度值为整个第一部分但不为其他部分提供深度信息。利用与图像的经编码的第二部分相关联但不与图像的其他部分相关联的第二部分运动向量来对第二部分解码。第二部分运动向量指示出参考图像中将被用于对第二部分解码的相应部分。第二部分具有不同于第一大小的第二大小。处理第二部分深度值。第二部分深度值为整个第二部分但不为其他部分提供深度信息。

根据另一大方面，视频信号或视频信号结构包括以下片段。包括第一图像片段，用于图像的经编码的第一部分。第一部分具有第一大小。包括第一深度片段，用于第一部分深度值。第一部分深度值为整个第一部分但不为其他部分提供深度信息。包括第一运动向量片段，用于在对图像的第一部分编码时使用的第一部分运动向量。第一部分运动向量与第一部分相关联，但不与图像的其他部分相关联。第一部分运动向量指示出参考图像中将被用于对第一部分解码的相应部分。包括第二图像片段，用于图像的经编码的第二部分。第二部分具有不同于第一大小的第二大小。包括第二深度片段，用于第二部分深度值。第二部分深度值为整个第二部分但不为其他部分提供深度信息。包括第二运动向量片段，用于在对图像的第二部分编码时使用的第二部分运动向量。第二部分运动向量与第二部分相关联，但不与图像的其他部分相关联。第二部分运动向量指示出参考图像中将被用于对第二部分解码的相应部分。

根据另一大方面，利用与图像的第一部分相关联但不与图像的其他部分相关联的第一部分运动向量来对第一部分编码。第一部分运动向量指示出参考图像中将被用于对第一部分编码的相应部分。第一部分具有第一大小。确定第一部分深度值，该第一部分深度值为整个第一部分但不为其他部分提供深度信息。利用与图像的第二部分相关联但不与图像的其他部分相关联的第二部分运动向量来对第二部分编码。第二部分运动向量指示出参考图像中将被用于对第二部分编码的相应部分，并且第二部分具有不同于第一大小的第二大小。确定第二部分深度值，该第二部分深度值为整个第二部分但不为其他部分提供深度信息。将经编码的第一部分、第一部分深度值、经编码的第二部分和第二部分深度值组装到结构化格式中。

一个或多个实现方式的细节在附图和以下描述中记载。即使是按一种特定的方式来描述的，也应清楚实现方式可以按各种方式来配置或体现。例如，一种实现方式可以被执行为方法、或者体现为装置，例如被配置为执行一组操作的装置或者存储用于执行一组操作的指令的装置，或者被体现为信号。结合附图和权利要求考虑以下详细描述，将清楚其他方面和特征。

附图说明

图1是编码器的实现方式的示图。

图2是解码器的实现方式的示图。

图3是视频发送系统的实现方式的示图。

图4是视频接收系统的实现方式的示图。

图5是视频处理设备的实现方式的示图。

图6是具有用于时间预测和视角间预测两者的层次化B图片的多视角编码结构的实现方式的示图。

图7是用于发送和接收具有深度信息的多视角视频的系统的实现方式的示图。

图8是用于在深度(K＝3)的情况下从3个输入视角生成九个输出视角(N＝9)的框架的实现方式的示图。

图9是深度地图的示例。

图10是相当于四分之一分辨率的深度信号的示例的示图。

图11是相当于八分之一分辨率的深度信号的示例的示图。

图12是相当于十六分之一分辨率的深度信号的示例的示图。

图13是第一编码过程的实现方式的示图。

图14是第一解码过程的实现方式的示图。

图15是第二编码过程的实现方式的示图。

图16是第二解码过程的实现方式的示图。

图17是第三编码过程的实现方式的示图。

图18是第三解码过程的实现方式的示图。

具体实施方式

在至少一种实现方式中，我们提出了对深度信号编码的框图。在至少一种实现方式中，我们提出了对场景的深度值作为视频信号的一部分编码。在这里描述的至少一种实现方式中，我们将深度信号视为用于间预测宏块(inter-predicted macroblock)的运动向量的额外分量。在至少一种实现方式中，在内预测宏块(intra-predicted macroblock)的情况下，我们将深度值作为单个值与内模式一起发送。

从而，至少一些实现方式所解决的至少一个问题是对多视角视频序列(或单视角视频序列)的深度信号的高效编码。多视角视频序列是从不同视点捕捉同一场景的两个或更多个视频序列的集合。除了该场景以外，对于每个视角还可存在一深度信号，以便可以利用视角合成来生成中间视角。

图1示出了根据本发明原理的实施例的编码器100，本发明原理可应用到该编码器100。编码器100包括组合器105，该组合器105具有与变换器110的输入发生信号通信连接的输出。变换器110的输出与量化器115的输入发生信号通信连接。量化器115的输出与熵编码器120的输入和逆量化器125的输入发生信号通信连接。逆量化器125的输出与逆变换器130的输入发生信号通信连接。逆变换器130的输出与组合器135的第一同相输入发生信号通信连接。组合器135的输出与内预测器145的输入和去块滤波器150的输入发生信号通信连接。去块滤波器150去除例如沿着宏块边界的伪影。去块滤波器150的第一输出与参考图片存储155(用于时间预测)的输入和参考图片存储160(用于视角间预测)的第一输入发生信号通信连接。参考图片存储155的输出与运动补偿器175的第一输入和运动估计器180的第一输入发生信号通信连接。运动估计器180的输出与运动补偿器175的第二输入发生信号通信连接。参考图片存储160的第一输出与视差估计器170的第一输入发生信号通信连接。参考图片存储160的第二输出与视差补偿器165的第一输入发生信号通信连接。视差估计器170的输出与视差补偿器165的第二输入发生信号通信连接。

熵编码器120的输出、模式判决模块122的第一输出以及深度预测器和编码器163的输出中的每一个可用作编码器100的各个输出，用于输出比特流。图片/深度分区器的输入可用作编码器的输入，用于接收视角i的图片和深度数据。

运动补偿器175的输出与开关185的第一输入发生信号通信连接。视差补偿器165的输出与开关185的第二输入发生信号通信连接。内预测器145的输出与开关185的第三输入发生信号通信连接。开关185的输出与组合器105的反相输入以及组合器135的第二同相输入发生信号通信连接。模式判决模块122的第一输出决定哪个输入被提供给开关185。模式判决模块122的第二输出与深度预测器和编码器163的第二输入发生信号通信连接。

图片/深度分区器161的第一输出与深度代表计算器162的输入发生信号通信连接。深度代表计算器162的输出与深度预测器和编码器163的第一输入发生信号通信连接。图片/深度分区器161的第二输出与组合器105的同相输入、运动补偿器175的第三输入、运动估计器180的第二输入以及视差估计器170的第二输入发生信号通信连接。

图1的一些部分也可以被单独或总体地称为编码器、编码单元或访问单元，例如块110、115和120。类似地，例如，块125、130、135和150可被单独或总体地称为解码器或解码单元。

图2示出了根据本发明原理的实施例的解码器200，本发明原理可应用到该解码器200。解码器200包括熵解码器205，该熵解码器205具有与逆量化器210的输入发生信号通信连接的输出。逆量化器的输出与逆变换器215的输入发生信号通信连接。逆变换器215的输出与组合器220的第一同相输入发生信号通信连接。组合器220的输出与去块滤波器225的输入和内预测器230的输入发生信号通信连接。去块滤波器225的第一输出与参考图片存储240(用于时间预测)的输入和参考图片存储245(用于视角间预测)的第一输入发生信号通信连接。参考图片存储240的输出与运动补偿器235的第一输入发生信号通信连接。参考图片存储245的输出与视差补偿器250的第一输入发生信号通信连接。

比特流接收器201的输出与比特流解析器202的输入发生信号通信连接。比特流解析器202的第一输出(用于提供残余比特流)与熵解码器205的输入发生信号通信连接。比特流解析器202的第二输出(用于提供控制语法以控制开关255选择哪个输入)与模式选择器222的输入发生信号通信连接。比特流解析器202的第三输出(用于提供运动向量)与运动补偿器235的第二输入发生信号通信连接。比特流解析器202的第四输出(用于提供视差向量和/或照明偏置)与视差补偿器250的第二输入发生信号通信连接。比特流解析器202的第五输出(用于提供深度信息)与深度代表计算器211的输入发生信号通信连接。应明白，照明偏置是可选的输入，并且取决于实现方式可以被使用或不被使用。

开关255的输出与组合器220的第二同相输入发生信号通信连接。开关255的第一输入与视差补偿器250的输出发生信号通信连接。开关255的第二输入与运动补偿器235的输出发生信号通信连接。开关255的第三输入与内预测器230的输出发生信号通信连接。模式模块222的输出与开关255发生信号通信连接，用于控制开关255选择哪个输入。去块滤波器225的第二输出可用作解码器200的输出。

深度代表计算器211的输出与深度地图重建器212的输入发生信号通信连接。深度地图重建器212的输出可用作解码器200的输出。

图2的一些部分也可以被单独或总体地称为访问单元，例如比特流解析器202和提供对特定的一条数据或信息的访问的任何其他块。类似地，例如，块205、210、215、220和225可被单独或总体地称为解码器或解码单元。

图3示出了根据本发明原理的实现方式的视频发送系统300，本发明原理可应用到该视频发送系统300。视频发送系统300例如可以是用于利用诸如卫星、线缆、电话线或陆地广播之类的多种介质中的任何一种来发送信号的头端或发送系统。可以经由因特网或某种其他网络来提供发送。

视频发送系统300能够生成和递送利用多种模式中的任何一种来编码的视频内容。这例如可通过生成(一个或多个)经编码信号来实现，该(一个或多个)经编码信号包括深度信息或能够在接收器端被用于合成深度信息的信息，该接收器端例如可具有解码器。

视频发送系统300包括编码器310和能够发送经编码信号的发送器320。编码器310接收视频信息并根据其来生成(一个或多个)经编码信号。编码器310例如可以是以上详细描述的编码器100。编码器310可包括子模块，其中例如包括组装单元，用于接收各种信息并将其组装成结构化格式以便存储或传送。这各种信息例如可包括经编码或未经编码的视频、经编码或未经编码的深度信息以及经编码或未经编码的诸如运动向量、编码模式指示符和语法元素之类的元素。

发送器320例如可适合于发送节目信号，该节目信号具有一个或多个比特流，这些比特流表示了经编码的图片和/或与之有关的信息。典型的发送器执行诸如以下各项中的一项或多项之类的功能：提供差错校正编码、交织信号中的数据、随机化信号中的能量、以及将信号调制到一个或多个载波上。发送器可包括天线(未示出)或与之相接口。因此，发送器320的实现方式可包括但不限于调制器。

图4示出了根据本发明原理的实施例的视频接收系统400，本发明原理可应用到该视频接收系统400。视频接收系统400可被配置为经由诸如卫星、线缆、电话线或陆地广播之类的多种介质接收信号。可经由因特网或某种其他网络来接收这些信号。

视频接收系统400例如可以是蜂窝电话、计算机、机顶盒、电视机或者其他设备，其接收经编码的视频并且提供例如经解码的视频以供显示给用户或存储。从而，视频接收系统400可将其输出提供给例如电视机的屏幕、计算机监视器、计算机(用于存储、处理或显示)或者某种其他的存储、处理或显示设备。

视频接收系统400能够接收和处理包括视频信息的视频内容。视频接收系统400包括接收器410和解码器420，该接收器410能够接收经编码的信号，例如在本申请的实现方式中描述的信号，该解码器420能够对所接收的信号解码。

接收器410例如可适合于接收具有表示经编码的图片的多个比特流的节目信号。典型的接收器执行诸如以下各项中的一项或多项之类的功能：接收经调制和编码的数据信号、从一个或多个载波中解调出数据信号、对信号中的能量解随机化、对信号中的数据解交织、以及对信号进行差错校正解码。接收器410可包括天线(未示出)或与之相接口。接收器410的实现方式可包括但不限于解调器。

解码器420输出包括视频信息和深度信息的视频信号。解码器420例如可以是以上详细描述的解码器200。

图5示出了根据本发明原理的实施例的视频处理设备500，本发明原理可应用到该视频处理设备500。视频处理设备500例如可以是机顶盒或其他设备，其接收经编码的视频并且提供例如经解码的视频以供显示给用户或存储。从而，视频处理设备500可将其输出提供给电视机、计算机监视器或者计算机或其他处理设备。

视频处理设备500包括前端(FE)设备505和解码器510。前端设备505例如可以是接收器，该接收器适合于接收具有表示经编码图片的多个比特流的节目信号并且从这多个比特流中选择一个或多个比特流来解码。典型的接收器执行诸如以下各项中的一项或多项之类的功能：接收经调制和编码的数据信号、对数据信号解调、对数据信号的一个或多个编码(例如，信道编码和/或信源编码)进行解码、和/或对数据信号进行差错校正。前端设备505可从例如天线(未示出)接收节目信号。前端设备505向解码器510提供所接收的数据信号。

解码器510接收数据信号520。数据信号520例如可包括一个或多个与高级视频编码(AVC)、可缩放视频编码(SVC)或者多视角视频编码(MVC)兼容的流。解码器510对所接收的信号520的全部或一部分进行解码，并且提供经解码的视频信号520作为输出。经解码的视频530被提供给选择器550。设备500还包括接收用户输入570的用户接口560。用户接口560基于用户输入570向选择器550提供图片选择信号580。图片选择信号580和用户输入570指示出用户期望显示可用的经解码数据的多个图片、序列、可缩放版本、视角或其他选择中的哪个。选择器550提供所选择的(一个或多个)图片作为输出590。选择器550使用图片选择信息580来选择经解码的视频530中的图片之中的哪个被提供作为输出590。

在各种实现方式中，选择器550包括用户接口560，而在其他实现方式中，不需要用户接口560，因为选择器550直接接收用户输入570，而不执行单独的接口功能。选择器550例如可以用软件来实现或者实现为集成电路。在一种实现方式中，选择器550与解码器510相结合，而在另外的实现方式中，解码器510、选择器550和用户接口560全都被集成。

在一种应用中，前端505接收各种电视节目的广播并且选择一个来供处理。对一个节目的选择是基于有关期望观看的频道的用户输入的。虽然在图5中没有示出对前端设备505的用户输入，但前端设备505接收用户输入570。前端505接收广播，并且通过对广播频道的相关部分解调并且对经解调的节目的任何外部编码进行解码，来处理期望的节目。前端505将经解码的节目提供给解码器510。解码器510是包括设备560和550的集成单元。解码器510从而接收用户输入，该用户输入是用户提供的、对在该节目中期望观看的视角的指示。解码器510对所选视角以及来自其他视角的任何所需参考图片进行解码，并且提供经解码的视角590以在电视机(未示出)上显示。

继续以上应用，用户可能期望切换所显示的视角，于是可能向解码器510提供新输入。在接收到来自用户的“视角改变”后，解码器510对旧视角和新视角两者以及介于旧视角和新视角之间的任何视角进行解码。即，解码器510对从物理上位于拍摄旧视角的相机和拍摄新视角的相机之间的相机拍摄的任何视角解码。前端设备505还接收标识旧视角、新视角和其间的视角的信息。这种信息例如可由拥有关于视角的位置的信息的控制器(图5中未示出)或者解码器510来提供。其他实现方式可使用具有与前端设备集成的控制器的前端设备。

解码器510提供所有这些经解码的视角作为输出590。后处理器(图5中未示出)在视角之间进行内插以提供从旧视角到新视角的平滑转变，并且向用户显示此转变。在转变到新视角后，后处理器(通过未示出的一个或多个通信链路)告知解码器510和前端设备505：只需要新视角了。然后，解码器510只提供新视角作为输出590。

系统500可用于接收图像的序列的多个视角，以及呈现单个视角以供显示，以及以平滑的方式在各种视角之间切换。该平滑方式可涉及在视角之间内插以转移到另一视角。此外，系统500可允许用户旋转对象或场景，或者以其他方式看到对象或场景的三维表示。对象的旋转例如可对应于从一视角转移到另一视角，以及在视角之间内插以获得视角之间的平滑转变或者就是获得三维表示。即，用户可以“选择”内插的视角作为可显示的“视角”。

多视角视频编码(例如，H.264/MPEG-4AVC的MVC扩展，或其他标准，以及非标准化方法)是为包括自由视点和3D视频应用、家庭娱乐和监视在内的多种应用服务的关键技术。此外，深度数据通常与每个视角相关联。深度数据例如用于视角合成。在这些多视角应用中，所涉及的视频和深度数据的量一般是巨大的。因此，需要帮助提高执行例如独立视角的联播(simulcast)的当前视频编码方案的编码效率的框架。

由于多视角视频源包括相同场景的多个视角，因此在多个视角图像之间存在高度的相关性。因此，除了时间冗余之外还可以利用视角冗余，并且视角冗余是通过跨不同的视角执行视角预测来实现的。

在实际情形中，多视角视频系统将利用稀疏放置的相机来捕捉场景，然后可通过视角合成/内插，利用可用的深度数据和所捕捉的视角，来生成这些相机之间的视角。

此外，一些视角可能只携带深度信息，于是随后在解码器处利用相关联的深度数据来合成这些视角的像素值。深度数据也可用于生成中间虚拟视角。由于深度数据是与视频信号一起传送的，所以数据量增大了。因此，出现了对高效压缩深度数据的需要。

各种方法可用于深度压缩。例如，一种技术使用基于关注区域(Region of Interest)的编码和对深度的动态范围的整形，以反映不同深度的不同重要性。另一种技术对深度信号使用三角网格表示。另一种技术使用对分层深度图像进行压缩的方法。另一种技术使用在小波域中对深度地图进行编码的方法。正如所公知的，层次化预测结构和视角间预测对于彩色视频是有用的。具有层次化预测结构的视角间预测可以被额外应用来对图6所示的深度地图序列进行编码。具体地，图6是示出具有用于时间预测和视角间预测两者的层次化B图片的多视角编码结构的示图。在图6中，从左到右或从右到左的箭头指示时间预测，从上到下或从下到上的箭头指示视角间预测。

一些实现方式不是独立于彩色视频地对深度序列编码，而是可以重复利用来自相应彩色视频的运动信息，该运动信息可能是有用的，因为深度序列常常更有可能同样具有相同的时间运动。

FTV(自由视点TV)是这样一个框架：其包括多视角视频和深度信息的经编码表示，并且目标在于在接收器处生成高质量的中间视角。这使能了用于自动多视角立体显示(auto-multiscopic display)的自由视点功能和视角生成。

图7示出了根据本发明原理的实施例的用于发送和接收具有深度信息的多视角视频的系统700，本发明原理可应用于该系统700。在图7中，视频数据由实线指示，深度数据由虚线指示，元数据由点线指示。系统700例如可以是但不限于自由视点电视系统。在发送机侧710，系统700包括三维(3D)内容产生器720，其具有多个输入，用于从相应的多个来源接收视频、深度和元数据中的一个或多个。这种来源可包括但不限于立体相机711、深度相机712、多相机设置713以及2维/3维(2D/3D)转换过程714。一个或多个网络730可用于传送与多视角视频编码(MVC)和数字视频广播(DVT)有关的视频、深度和元数据中的一个或多个。

在接收机侧740，基于深度图像的渲染器750执行基于深度图像的渲染以将信号投影到不同类型的显示器。此应用情形可施加诸如窄角度获取(＜20度)之类的具体约束。基于深度图像的渲染器750能够接收显示配置信息和用户偏好。基于深度图像的渲染器750的输出可被提供给2D显示器761、M视角3D显示器762和/或头部跟踪立体显示器763中的一个或多个。

为了减少要传送的数据的量，相机的密集阵列(V1，V2...V9)可被二次采样，从而只有稀疏的一组相机实际捕捉场景。图8示出了根据本发明原理的实施例的用于在深度(K＝3)的情况下从3个输入视角生成九个输出视角(N＝9)的框架800，本发明原理可应用到该框架800。框架800包括支持多个视角的输出的自动立体3D显示器810、第一基于深度图像的渲染器820、第二基于深度图像的渲染器830、以及用于经解码数据的缓冲器840。经解码的数据是被称为多视角加深度(Multiple View Plus Depth，MVD)数据的表示。九个相机由V1至V9表示。三个输入视角的相应深度地图由D1、D5和D9表示。介于捕捉相机位置(例如，Pos 1、Pos 2、Pos 3)之间的任何虚拟相机位置可利用可用深度地图(D1、D5、D9)来生成，如图8所示。

在这里描述的至少一种实现方式中，我们提出了解决提高深度信号的编码效率的问题。

图9示出了根据本发明原理的实施例的深度地图900，本发明原理可应用到该深度地图900。具体地，深度地图900是用于视角0的。从图9可以看出，深度信号在许多区域中都是相对平坦的(灰色的深浅表示深度，恒定的深浅表示恒定的深度)，意味着许多区域具有不显著变化的深度值。在图像中存在许多平滑区域。结果，可以以不同区域中的不同分辨率来对深度信号编码。

为了创建深度图像，一种方法包括首先计算视差图像，并且基于投影矩阵来转换成深度图像。在一种实现方式中，视差到视差图像的简单线性映射被表示如下：

Y = 255 * \frac{(d - d_{\min})}{(d_{\max} - d_{\min})} - - - (1)

其中d是视差，d_min和d_max是视差范围，并且Y是视差图像的像素值。在此实现方式中，视差图像的像素值落在0到255之间的范围内，包括0和255。

如果我们假定以下各项，则深度和视差之间的关系可以被简化为以下式子：(1)相机是以1D平行方式布置的；(2)多视角序列被良好地矫正，即，旋转矩阵对于所有视角是相同的，焦距对于所有视角是相同的，所有视角的主点沿着与基线平行的线；(3)所有相机坐标的轴x都沿着基线。以下被执行来计算3D点和相机坐标之间的深度值：

z = \frac{f \cdot l}{d + du} - - - (2)

其中f是焦距，l是沿着基线的平移量，并且du是沿着基线的主点之间的差异。

根据式(2)，可以得出视差图像与其深度图像相同，并且真实深度值可被恢复如下：

z = \frac{1}{\frac{Y}{255} * (\frac{1}{Z_{near}} - \frac{1}{Z_{far}}) + \frac{1}{Z_{far}}} - - - (3)

其中Y是视差/深度图像的像素值，Z_near和Z_far是如下计算的深度范围：

Z_{near} = \frac{f * l}{d_{\max} + du}, Z_{far} = \frac{f * l}{d_{\min} + du} - - - (4)

基于式(1)的深度图像为每个像素提供了深度级别，并且真实深度值可以利用式(3)来得出。为了重建真实深度值，解码器除了深度图像本身以外还使用Z_near和Z_far。此深度值可用于3D重建。

在传统的视频编码中，图片由若干个宏块(MB)构成。每个MB随后被用特定的编码模式来编码。该模式可以是间模式(inter mode)或内模式(intra mode)。此外，宏块可被分割成子宏块模式。考虑AVC标准，存在若干个宏块模式，例如内16×16、内4×4、内8×8、间16×16一直到间4×4。一般地，较大的分区被用于平滑的区域或较大的对象。较小的分区可以更多地用于对象边界和精细的纹理。每个内宏块(intra macroblock)具有相关联的内预测模式，并且间宏块(inter macroblock)具有运动向量。每个运动向量具有表示当前宏块在参考图像中的位移的2个分量x和y。这些运动向量表示当前宏块从一个图片到另一图片的运动。如果参考图片是视角间图片，则运动向量表示视差。

在至少一种实现方式中，我们提出了(在间宏块的情况下)，除了运动向量的2个分量(mvx、mvy)以外，还传送额外的分量(深度)，其表示当前宏块或子宏块的深度。对于内宏块，除了内预测模式以外，还传送额外深度信号。所传送的深度信号的量取决于宏块类型(16×16、16×8、8×16、...、4×4)。其原理在于，对于平滑区域对很低分辨率的深度编码，而对于对象边界则对较高分辨率的深度编码，一般来说就足够了。这对应于运动分区的属性。深度信号中的对象边界(尤其是在较深的深度范围中)与视频信号中的对象边界具有相关性。从而，可以预期，被选择来对视频信号的这些对象边界编码的宏块模式也将适合于相应的深度信号。这里描述的至少一种实现方式基于深度信号的特性来自适应地对深度的分辨率编码，如这里所述，深度信号的特性与视频信号的特性有紧密关系(尤其是在对象边界处)。在我们对深度信号解码后，我们将深度信号内插回其全分辨率。

当被二次采样到较低分辨率并随后通过零阶保持被上采样时深度信号看起来是什么样的示例在图10、11和12中示出。具体地，图10是示出相当于四分之一分辨率的深度信号1000的示图。图11是示出相当于八分之一分辨率的深度信号1100的示图。图12是示出相当于十六分之一分辨率的深度信号1200的示图。

图13和14分别示出了用于对包括深度信号的视频数据进行编码和解码的方法的示例。

具体地，图13是示出根据本发明原理的实施例用于对包括深度信号的视频数据进行编码的方法1300的流程图。在步骤1303，读取编码器配置文件，并且使每个视角的深度数据可用。在步骤1306，在SPS扩展中设置锚定和非锚定图片参考。在步骤1309，将N设置为视角的数目，并且将变量i和j初始化到0。在步骤1312，判定是否i＜N。如果是，则将控制传递到步骤1315。否则，将控制传递到步骤1339。

在步骤1315，判定是否j＜视角i中的图片的数目(num)。如果是，则将控制传递到步骤1318。否则，将控制传递到步骤1351。

在步骤1318，开始对当前宏块的编码。在步骤1321，检查宏块模式。在步骤1324，对当前宏块编码。在步骤1327，利用像素复制或复滤波来重建深度信号。在步骤1330，判定是否已对所有宏块编码。如果是，则将控制传递到步骤1333。否则，将控制返回到步骤1315。

在步骤1333，递增变量j。在步骤1336，递增frame_num和POC。

在步骤1339，判定是否在带内通知SPS、PPS和/或VPS。如果是，则将控制传递到步骤1342。否则，将控制传递到步骤1345。

在步骤1342，在带内通知SPS、PPS和/或VPS。

在步骤1345，在带外通知SPS、PPS和/或VPS。

在步骤1348，将比特流写入到文件或经由网络流式传输。组装单元(例如在对编码器310的论述中描述的那种)可用于组装和写入比特流。

在步骤1351，递增变量i，并且重置frame_num和POC。

图14示出了根据本发明原理的实施例的用于对包括深度信号的视频数据进行解码的方法1400的流程图。在步骤1403，从SPS、PPS、VPS、片层头部和/或网络抽象层(NAL)单元头部中解析出view_id。在步骤1406，解析其他SPS参数。在步骤1409，判定当前图片是否需要解码。如果是，则将控制传递到步骤1412。否则，将控制传递到步骤1448。

在步骤1412，判定是否POC(curr)！＝POC(prev)。如果是，则将控制传递到步骤1415。否则，将控制传递到步骤1418。

在步骤1415，将view_num设置成等于0。

在步骤1418，在高级别对view_id信息进行索引以确定视角编码顺序，并且递增view_num。

在步骤1421，判定当前图片(pic)是否按预期编码顺序。如果是，则将控制传递到步骤1412。否则，将控制传递到步骤1451。

在步骤1424，解析片层头部。在步骤1427，解析宏块(MB)模式、运动向量(mv)、ref_idx和dpethd。在步骤1430，基于depthd来重建当前块的深度值。在步骤1433，对当前宏块解码。在步骤1436，可能通过像素复制或复滤波来对重建的深度进行滤波。步骤1436使用重建的深度值来可选地获得每像素深度地图。步骤1436可以使用诸如以下各项之类的选项：对于与深度值相关联的所有像素重复该深度值，或者按包括外推和内插在内的已知方式对深度值滤波。

在步骤1439，判定是否所有宏块都已完成(已被解码)。如果是，则将控制传递到步骤1442。否则，将控制返回到步骤1427。

在步骤1442，将当前图片和重建的深度插入到经解码图片缓冲器(DPB)中。在步骤1445，判定是否所有图片都已被解码。如果是，则解码结束。否则，将控制返回到步骤1424。

在步骤1448，获得下一图片。

在步骤1451，掩蔽当前图片。

实施例1：

对于第一实施例，对于用于AVC解码器的片层、宏块层和子宏块语法的修改分别在表1、表2和表3中示出。从这些表中可以看出，每个宏块类型具有相关联的深度值。表1-3的各个部分通过斜体被强调。因此，这里我们详述如何为每个宏块类型发送深度。

表1

slice_data(){	C	描述符
			if(entropy_coding_mode_flag)
while(！byte_aligned())
			cabac_alignment_one_bit	2	f(1)
CurrMbAddr＝first_mb_in_slice*(1+MbaffFrameFlag)
			moreDataFlag＝1
prevMbSkipped＝0
			do{
if(slice_type！＝\|&& slice_type\|＝SI)
			if(lentropy_coding_mode_flag){
mb_skip_run	2	ue(v)
			prevMbSkipped＝(mb_skip_run＞0)
for(i＝0；i＜mb_skip_run；i++){
			depthd[0][0]	2	ue(v)\|ae(v)
CurrMbAddr＝NextMbAddress(CurrMbAddr)
			}
moreDataFlag＝more_rbsp_data()
			}else{
mb_skip_flag	2	ae(v)
			depthd[0][0]	2	ue(v)\|ae(v)
moreDataFlag＝！mb_skip_flag
			}
if(moreDataFlag){
			if(MbaffFrameFlag&&(CurrMbAddr％2＝＝0\|\| (CurrMbAddr％2＝＝1 && prevMbSkipped)))
mb_fleld_decoding_flag	2	u(1)\|ae(v)
			macroblock_layer()	2\|3\|4
}
			if(！entropy_coding_mode_flag)
moreDataFlag＝more_rbsp_data()
			else{
if(slice_type！＝\|&& slice_type ！＝S\|)
			prevMbSkipped＝mb_skip_flag
if(MbaffFrameFlag && CurrMbAddr％2＝＝0)
			moreDataFlag＝1
else{
			end_of_slice_flag	2	ae(v)
moreDataFlag＝lend_of_slice_flag
			}
}
			CurrMbAddr＝NextMbAddress(CurrMbAddr)
}while(moreDataFlag)
			}

表2

表3

宽泛来说，在AVC中有两种宏块类型。一种宏块类型是内宏块，另一种宏块类型是间宏块。这2种中的每一种被进一步细分成若干种不同的子宏块模式。

内宏块

让我们考虑内宏块的编码。内宏块可以是内4×4，内8×8或内16×16型。

内4×4

如果宏块类型是内4×4，则我们遵循与用于对内4×4预测模式编码的方法类似的方法。从表2可以看出，我们发送2个值来通知每个4×4块的深度。2语法的语义可被规定如下：

prev_depth4×4_pred_mode_flag[luma4×4BlkIdx]和rem_depth4×4[luma4×4BlkIdx]规定具有索引luma4×4BlkIdx＝0..15的4×4块的深度预测。

Depth4×4[luma4×4BlkIdx]是通过应用以下过程来得出的。

predDepth4×4＝Min(depthA，depthB)，

当mbA不存在时，

predDepth4×4＝depthB

当mbB不存在时

predDepth4×4＝depthA

当mbA和mbB不存在时

predDepth4×4＝128

if(prev_depth4×4_pred_mode_flag[luma4×4BlkIdx])

Depth4×4[luma4×4BlkIdx]＝predDepth4×4

else

Depth4×4[luma4×4BlkIdx]＝predDepth4×4+

rem_depth4×4[luma4×4BlkIdx]

这里depthA是左侧邻居MB的重建深度信号，depthB是上方邻居MB的重建深度信号。

内8×8

对于具有内8×8预测模式的宏块应用类似的过程，其中4×4被8×8所替换。

内16×16

对于内16×16内预测模式，一个选项是显式地传送当前宏块的深度信号。这在表2中示出。

在此情况下，表2中的语法将具有以下语义：

depthd[0][0]规定要用于当前宏块的深度值。

另一个选项是与内4×4预测模式类似，发送与邻居深度值相比的差分值。

用于为具有内16×16预测模式的宏块获得深度值的过程可被规定如下：

predDepth16×16＝Min(depthA，depthB)

当mbA不存在时，

predDepth16×16＝depthB

当mbB不存在时，

predDepth16×16＝depthA

当mbA和mbB不存在时，

predDepth16×16＝128

depth16×16＝predDepth16×16+depthd[0][0]

在此情况下，表2中的语法的语义将被规定如下：

depthd[0][0]规定对于当前宏块要使用的深度值与其预测之间的差异。

间宏块

在AVC规范中规定了若干类型的间宏块和子宏块模式。因此，我们规定对于每种情况如何传送深度。

直接MB或跳过MB

在跳过宏块的情况下，只发送单个标志，因为不存在与该宏块相关联的其他数据。所有信息都是从空间邻居得出的(除了未被使用的残余以外)。在直接宏块的情况下，只发送残余信息，而其他数据是从空间或时间邻居得出的。

对于这2种模式，存在2种恢复深度信号的选项。

选项1

我们可以显式地传送深度差异。这在表1中示出。然后类似于内 16×16模式，利用从其邻居的预测来恢复深度。

深度值的预测(predDepthSkip)遵循与AVC规范中为运动向量预测规定的过程类似的过程，如下：

DepthSkip＝predDepthSkip+depthd[0][0]

在此情况下，表2中的语法的语义将被规定如下：

选项2

或者，我们可直接使用预测信号作为宏块的深度。从而，我们可以避免传送深度差异。例如，可以避免表1中的depthd[0][0]的显式语法元素。

因此，我们将具有下式：

DepthSkip＝predDepthSkip

间16×16、16×8、8×16MB

在这些间预测模式的情况下，我们为每个分区传送深度值。这在表2中示出。我们通知语法depthd[mbPartIdx][0]。

该分区的最终深度如下得出：

DepthSkip＝predDepthSkip+depthd[mbPartIdx][0]其中深度值的预测(predDepthSkip)遵循与AVC规范中为运动向量预测规定的过程类似的过程，

depthd[mbPartIdx][0]的语义被规定如下：

depthd[mbPartIdx][0]规定要使用的深度值与其预测之间的差异。索引mbPartIdx规定depthd被指派给哪个宏块分区。宏块的分区由mb_type来规定。

子MB模式(8×8、8×4、4×8、4×4)

在这些间预测模式的情况下，我们为每个分区传送深度值。这在表3中示出。我们通知语法depthd[mbPartIdx][subMbPartIdx]。

该分区的最终深度如下得出：

DepthSkip＝predDepthSkip+depthd[mbPartIdx][subMbPartIdx]其中深度值的预测(predDepthSkip)遵循与AVC规范中为运动向量预测规定的过程类似的过程，

depthd[mbPartIdx][subMbPartIdx]的语义被规定如下：

depthd[mbPartIdx][subMbPartIdx]规定要使用的深度值与其预测之间的差异。它被应用到具有索引subMbPartIdx的子宏块分区。索引mbPartIdx和subMbPartIdx规定depthd被指派给哪个宏块分区和子宏块分区。

图15和16分别示出了根据实施例1的对包括深度信号的视频数据进行编码和解码的方法的示例。

具体地，图15是示出根据第一实施例(实施例1)的用于对包括深度信号的视频数据进行编码的方法1500的流程图。在步骤1503，检查宏块模式。在步骤1506，检查内4×4、内16×16和内8×8模式。在步骤1509，判定当前片层是否是I片层。如果是，则将控制传递到步骤1512。否则，将控制传递到步骤1524。

在步骤1512，判定是否最佳模式＝＝内16×16。如果是，则将控制传递到步骤1515。否则，将控制传递到步骤1533。

在步骤1515，将深度预测子设置成等于Min(depthA，depthB)或depthA或depthB或128。在步骤1518，将depthd[0][0]设置成该位置处的深度的绝对值或深度值与预测子之间的差异。在步骤1521，返回。

在步骤1524，判定当前片层是否是P片层。如果是，则将控制传递到步骤1527。否则，将控制传递到步骤1530。

在步骤1527，检查与P片层有关的所有间模式。

在步骤1530，检查与B片层有关的所有间模式。

在步骤1533，判定是否最佳模式＝内4×4。如果是，则将控制传递到步骤1548。否则，将控制传递到步骤1536。

在步骤1548，将predDepth4×4设置成等于Min(depthA，depthB)或depthA或depthB或128。在步骤1551，如果4×4块的深度＝＝predDepth4×4，则设置prev_depth4×4_pred_mode_flag[luma4×4BlkIdx]＝1；否则，设置prev_depth4×4_pred_mode_flag[luma4×4BlkIdx]＝0，并且发送rem_depth4×4[luma4×4BlkIdx]作为depth4×4与predDepth4×4之间的差异。

在步骤1536，判定是否最佳模式＝内8×8。如果是，则将控制传递到步骤1542。否则，将控制传递到步骤1539。

在步骤1542，predDepth8×8＝Min(depthA，depthB)或depthA或depthB或128。在步骤1545，如果8×8块的深度＝＝predDepth8×8，则设置prev_depth8×8_pred_mode_flag[luma8×8BlkIdx]＝1；否则，设置prev_depth8×8_pred_mode_flag[luma8×8BlkIdx]＝0，并且发送rem_depth8×8[luma8×8BlkIdx]作为depth8×8与predDepth8×8之间的差异。

在步骤1539，判定是否最佳模式＝＝直接或跳过。如果是，则将控制传递到步骤1554。否则，将控制传递到步骤1560。

在步骤1554，将深度预测子设置成等于Min(depthA，depthB)或depthA或depthB或128。在步骤1557，将depthd[0][0]设置成等于深度预测子或等于深度值与预测子之间的差异。

在步骤1560，判定是否最佳模式＝间16×16或间16×8或间8×16。如果是，则将控制传递到步骤1563。否则，将控制传递到步骤1569。

在步骤1563，将深度预测子设置成等于Min(depthA，depthB)或depthA或depthB或128。在步骤1566，将depthd[mbPartIdc][0]设置成M×N块的深度值与预测子之间的差异。

在步骤1569，判定是否最佳模式＝＝间8×8或间8×4或间4×8或间4×4。如果是，则将控制传递到步骤1572。否则，将控制传递到步骤1578。

在步骤1572，将深度预测子设置成等于Min(depthA，depthB)或depthA或depthB或128。在步骤1575，将depthd[mbPartIdx][subMBPartIdx]设置成M×N块的深度值与预测子之间的差异。

在步骤1578，指示差错。

图16是示出根据第一实施例(实施例1)的用于对包括深度信号的视频数据进行解码的方法1600的流程图。在步骤1603，解析包括深度信息的块头部。在步骤1606，判定是否当前(curr)模式＝＝内16×16。如果是，则将控制传递到步骤1609。否则，将控制传递到步骤1618。

在步骤1609，将深度预测子设置成Min(depthA，depthB)或depthA或depthB或128。在步骤1612，将16×16块的深度设置成depthd[0][0]或解析出的depthd[0][0]+深度预测子。在步骤1615，返回。

在步骤1618，判定是否curr模式＝＝内4×4。如果是，则将控制传递到步骤1621。否则，将控制传递到步骤1627。

在步骤1621，将predDepth4×4设置成等于Min(depthA，depthB)或depthA或depthB或128。在步骤1624，如果prev_depth4×4_pred_mode_flag[luma4×4BlkIdx]＝＝1，则将4×4块的深度设置成等于predDepth4×4；否则将4×4块的深度设置成等于rem_depth4×4[luma4×4BlkIdx]+predDepth4×4。

在步骤1627，判定是否curr模式＝＝内8×8。如果是，则将控制传递到步骤1630。否则，将控制传递到步骤1636。

在步骤1630，将predDepth8×8设置成等于Min(depthA，depthB)或depthA或depthB或128。在步骤1633，如果prev_depth8×8_pred_mode_flag[luma8×8BlkIdx]＝＝1，则将8×8块的深度设置成等于predDepth8×8；否则，将8×8块的深度设置成等于rem_depth8×8[luma8×8BlkIdx]+predDepth8×8。

在步骤1636，判定是否curr模式＝＝直接或跳过。如果是，则将控制传递到步骤1639。否则，将控制传递到步骤1645。

在步骤1639，将深度预测子设置成等于Min(depthA，depthB)或depthA或depthB或128。在步骤1642，将16×16块的深度设置成等于深度预测子或者解析出的depthd[0][0]+深度预测子。

在步骤1645，判定是否curr模式＝＝间16×16或间16×8或间8×16。如果是，则将控制传递到步骤1648。否则，将控制传递到步骤1654。

在步骤1648，将深度预测子设置成Min(depthA，depthB)或depthA或depthB或128。在步骤1651，将当前M×N块的深度设置成等于解析出的depthd[mbPartIdx][0]+深度预测子。

在步骤1654，判定是否curr模式＝＝间8×8或间8×4或间4×8或间 4×4。如果是，则将控制传递到步骤1659。否则，将控制传递到步骤1663。

在步骤1659，将深度预测子设置成Min(depthA，depthB)或depthA或depthB或128。在步骤1660，将当前M×N块的深度设置成等于解析出的depthd[mbPartIdc][subMBPartIdx]+深度预测子。

在步骤1663，指示差错。

实施例2

在此实施例中，我们提出了利用间块(inter block)的运动信息来预测深度信号。该运动信息与和视频信号相关联的运动信息相同。内块的深度与实施例1相同。我们提出利用运动向量信息来得出predDepthSkip。因此，我们添加了额外的参考缓冲器来存储全分辨率深度信号。间块的语法和得出与实施例1相同。

在一个实施例中，我们设置predDepthSkip＝DepthRef(x+mvx，y+mvy)，x，y是目标块的左上像素的坐标，mvx和mvy是来自视频信号的与当前宏块相关联的运动向量的x和y分量，并且DepthRef是存储在经解码图片缓冲器(DPB)中的重建的参考深度信号。

在另一实施例中，我们将predDepthSkip设置成目标块的运动向量所指向的所有参考深度像素的平均。

在另一实施例中，我们可以假定mvx＝mvy＝0，因此我们使用共位的块深度值来进行预测，即predDepthSkip＝DepthRef(x，y)。

图17和18分别示出了根据实施例2的对包括深度信号的视频数据进行编码和解码的方法的示例。

图17是示出根据第二实施例(实施例2)的用于对包括深度信号的视频数据进行编码的方法1700的流程图。在步骤1703，检查宏块模式。在步骤1706，检查内4×4、内16×16和内8×8模式。在步骤1709，判定当前片层是否是I片层。如果是，则将控制传递到步骤1712。否则，将控制传递到步骤1724。

在步骤1712，判定是否最佳模式＝＝内16×16。如果是，则将控制传递到步骤1715。否则，将控制传递到步骤1733。

在步骤1715，将深度预测子设置成等于Min(depthA，depthB)或depthA或depthB或128。在步骤1718，将depthd[0][0]设置成该位置处的深度的绝对值或深度值与预测子之间的差异。在步骤1721，返回。

在步骤1724，判定当前片层是否是P片层。如果是，则将控制传递到步骤1727。否则，将控制传递到步骤1730。

在步骤1727，检查与P片层有关的所有间模式。

在步骤1730，检查与B片层有关的所有间模式。

在步骤1733，判定是否最佳模式＝＝内4×4。如果是，则将控制传递到步骤1748。否则，将控制传递到步骤1736。

在步骤1748，将predDepth4×4设置成等于Min(depthA，depthB)或depthA或depthB或128。在步骤1751，如果4×4块的深度＝＝predDepth4×4，则设置prev_depth4×4_pred_mode_flag[luma4×4BlkIdx]＝1；否则，设置prev_depth4×4_pred_mode_flag[luma4×4BlkIdx]＝0，并且发送rem_depth4×4[luma4×4BlkIdx]作为depth4×4与predDepth4×4之间的差异。

在步骤1736，判定是否最佳模式＝＝内8×8。如果是，则将控制传递到步骤1742。否则，将控制传递到步骤1739。

在步骤1742，predDepth8×8＝Min(depthA，depthB)或depthA或depthB或128。在步骤1745，如果8×8块的深度＝＝predDepth8×8，则设置prev_depth8×8_pred_mode_flag[luma8×8BlkIdx]＝1；否则，设置prev_depth8×8_pred_mode_flag[luma8×8BlkIdx]＝0，并且发送rem_depth8×8[luma8×8BlkIdx]作为depth8×8与predDepth8×8之间的差异。

在步骤1739，判定是否最佳模式＝直接或跳过。如果是，则将控制传递到步骤1754。否则，将控制传递到步骤1760。

在步骤1754，利用与当前宏块(MB)相对应的运动向量(MV)来获得深度预测子。在步骤1757，将depthd[0][0]设置成等于深度预测子或等于深度值与预测子之间的差异。

在步骤1760，判定是否最佳模式＝＝间16×16或间16×8或间8×16。如果是，则将控制传递到步骤1763。否则，将控制传递到步骤1769。

在步骤1763，利用与当前宏块(MB)相对应的运动向量(MV)来获得深度预测子。在步骤1766，将depthd[mbPartIdc][0]设置成M×N块的深度值与预测子之间的差异。

在步骤1769，判定是否最佳模式＝＝间8×8或间8×4或间4×8或间4×4。如果是，则将控制传递到步骤1772。否则，将控制传递到步骤1778。

在步骤1772，利用与当前宏块(MB)相对应的运动向量(MV)来获得深度预测子。在步骤1775，将depthd[mbPartIdx][subMBPartIdx]设置成M×N块的深度值与预测子之间的差异。

在步骤1778，指示差错。

图18是示出根据第二实施例(实施例2)的用于对包括深度信号的视频数据进行解码的方法1800的流程图。在步骤1803，解析包括深度信息的块头部。在步骤1806，判定是否当前(curr)模式＝＝内16×16。如果是，则将控制传递到步骤1809。否则，将控制传递到步骤1818。

在步骤1809，将深度预测子设置成Min(depthA，depthB)或depthA或depthB或128。在步骤1812，将16×16块的深度设置成depthd[0][0]或解析出的depthd[0][0]+深度预测子。在步骤1815，返回。

在步骤1818，判定是否curr模式＝＝内4×4。如果是，则将控制传递到步骤1821。否则，将控制传递到步骤1827。

在步骤1821，将predDepth4×4设置成等于Min(depthA，depthB)或depthA或depthB或128。在步骤1824，如果prev_depth4×4_pred_mode_flag[luma4×4BlkIdx]＝＝1，则将4×4块的深度设置成等于predDepth4×4；否则将4×4块的深度设置成等于rem_depth4×4[luma4×4BlkIdx]+predDepth4×4。

在步骤1827，判定是否curr模式＝＝内8×8。如果是，则将控制传递到步骤1830。否则，将控制传递到步骤1836。

在步骤1830，将predDepth8×8设置成等于Min(depthA，depthB)或depthA或depthB或128。在步骤1833，如果 prev_depth8×8_pred_mode_flag[luma8×8BlkIdx]＝＝1，则将8×8块的深度设置成等于predDepth8×8；否则，将8×8块的深度设置成等于rem_depth8×8[luma8×8BlkIdx]+predDepth8×8。

在步骤1836，判定是否curr模式＝＝直接或跳过。如果是，则将控制传递到步骤1839。否则，将控制传递到步骤1845。

在步骤1839，利用与当前宏块(MB)相对应的运动向量(MV)来获得深度预测子。在步骤1842，将16×16块的深度设置成等于深度预测子或者解析出的depthd[0][0]+深度预测子。

在步骤1845，判定是否curr模式＝＝间16×16或间16×8或间8×16。如果是，则将控制传递到步骤1848。否则，将控制传递到步骤1854。

在步骤1848，利用与当前宏块(MB)相对应的运动向量(MV)来获得深度预测子。在步骤1851，将当前M×N块的深度设置成等于解析出的depthd[mbPartIdx][0]+深度预测子。

在步骤1854，判定是否curr模式＝＝间8×8或间8×4或间4×8或间4×4。如果是，则将控制传递到步骤1859。否则，将控制传递到步骤1863。

在步骤1859，利用与当前宏块(MB)相对应的运动向量(MV)来获得深度预测子。在步骤1860，将当前M×N块的深度设置成等于解析出的depthd[mbPartIdc][subMBPartIdx]+深度预测子。

在步骤1863，指示差错。

图13、15和17的实施例能够对包括深度信号的视频数据编码。深度信号不需要被编码，而可以利用例如差分编码和/或熵编码来编码。类似地，图14、16和18的实施例能够对包括深度信号的视频数据解码。图14、16和18所接收和解码的数据可以是例如由图13、15或17的实施例之一提供的数据。图14、16和18的实施例能够通过多种方式来处理深度值。这种处理取决于实现方式例如可包括解析所接收的深度值、对深度值解码(假定深度值已被编码)、以及基于深度值来生成深度地图的全部或一部分。注意，用于处理深度值的处理单元例如可包括：(1)比特流解析器202，(2)深度代表计算器211，其可执行各种操作，例如对于那些其中深度值是与预测值的差异的实现方式加入预测子值，(3)深度地图重建器212，以及(4)熵解码器205，其可在某些实现方式中用于对被熵编码的深度值进行解码。

深度数据内插

在各种实现方式中，我们将深度数据内插到其全分辨率。即，解码器接收深度数据(例如单个depthd编码值，其被解码以产生单个深度值)并且为相关联的区域(例如，宏块或子宏块)生成完全每像素深度地图。我们可以进行简单的拷贝(零阶内插)，即用相同值的depthM×N(M、N＝16、8、4)来填充块。我们也可以应用其他更精妙的内插方法，例如双线性、双立方内插等等。即，本发明原理并不限于任何特定的内插方法，从而根据本发明原理可使用任何内插方法，同时维持本发明原理的精神。在内插之前或之后可应用滤波器。

以下论点可至少部分地详述先前论述过的概念并且提供各种实现方式的细节。以下的这种实现方式可对应于早先的实现方式，或者当前的变化和/或新的实现方式。

各种实现方式可被称为提供3D运动向量(MV)。运动向量通常是2D的，具有(x，y)，而在各种实现方式中我们添加了深度的单个值(“D”)，并且该深度值可被认为是运动向量的第三维。或者，深度可被编码为单独的图片，随后可利用AVC编码技术来对该单独的图片编码。

如前所述，宏块的分区常常对深度也具有令人满意的大小。例如，平坦的区域一般可按照大分区来处理，因为单个运动向量就足够了，而对于深度编码，这些平坦区域也可按照大分区来处理，因为它们平坦，从而对于平坦的分区值使用单个深度值一般将提供良好的编码。另外，运动向量为我们指出了可能适合用于确定或预测深度(D)值的分区。从而，深度可以被预测性编码。

一些实现方式可以对于整个分区(子宏块)为深度使用单个值。其他实现方式可以使用多个值，或者甚至为每个像素使用一单独的值。如以上针对若干示例所示，用于深度的(一个或多个)值可以按多种方式来确定，例如子宏块的深度值的中值、平均值或对这些深度值的另一滤波操作的结果。这(一个或多个)深度值也可基于其他分区/块中的深度的值。这些其他分区/块可以在同一图片中(空间上相邻或不相邻)、在来自另一视角的图片中、或者在来自同一视角、但处于另一时点的图片中。使这(一个或多个)深度值基于来自另一分区/块的深度例如可以使用一种形式的外推，并且可以基于来自这(一个或多个)分区/(一个或多个)块的重建的深度值、经编码的深度值或者编码前的实际深度值。

深度值预测子可以基于多种信息。这种信息例如包括为附近(相邻或不相邻)宏块或子宏块确定的深度值，和/或为运动向量所指向的相应宏块或子宏块确定的深度值。注意，在某些实施例的一些模式中，为整个宏块产生单个深度值，而在其他模式中，为宏块中的每个分区产生单个深度值。

应明白，本发明的概念如果需要可以仅被应用到单个宏块，或者应用到图片的任何子集或部分。另外，这里使用的术语“图片”可以是例如帧或场。

AVC更具体指的是现有的国际标准化组织/国际电工委员会(ISO/IEC)运动图片专家组-4(MPEG-4)第10部分高级视频编码(AVC)标准/国际电信联盟电信部(ITU-T)H.264推荐(以下称为“H.264/MPEG-4AVC标准”或其变化，例如“AVC标准”或简称为“AVC”)。MVC通常更具体指的是AVC标准的多视角视频编码(“MVC”)扩展(附件H)，称为H.264/MPEG-4AVC，MVC扩展(“MVC扩展”或简称为“MVC”)。SVC通常更具体指的是AVC标准的可缩放视频编码(“SVC”)扩展(附件G)，称为H.264/MPEG-4AVC，SVC扩展(“SVC扩展”或简称为“SVC”)。

本申请中描述的实现方式和特征中的若干可用在H.264/MPEG-4AVC(AVC)标准、或者具有MVC扩展的AVC标准或者具有SVC扩展的AVC标准的情境中。然而，这些实现方式和特征也可用在其他标准(现有的或将来的)的情境中，或者不涉及标准的情境中。

此外，一些实现方式可利用多种技术来通知信息，所述技术包括但不限于SEI消息、片层头部、其他高级别语法、非高级别语法、带外信息、数据流数据、以及隐式信令。通知技术可以取决于是否使用了标准以及如果使用了标准则使用了哪种标准而变。

说明书中提到本发明原理的“一个实施例”或“实施例”或“一种实现方式”或“实现方式”及其其他变体意指结合该实施例描述的特定特征、结构、特性等等被包括在本发明原理的至少一个实施例中。因此，说明书中各处出现的短语“在一个实施例中”或者“在实施例中”或者“在一种实现方式中”或者“在实现方式中”以及任何其他变体不一定均指相同实施例。

应当明白，例如在“A/B”、“A和/或B”和“A和B中的至少一个”的情况下使用以下“/”、“和/或”和“至少一个”中的任何一种意图涵盖：仅选择第一个列出的选项(A)，或者仅选择第二个列出的选项(B)，或者选择两个选项(A和B)。又例如，在“A、B和/或C”和“A、B和C中的至少一个”的情况下，这种短语意图涵盖：仅选择第一个列出的选项(A)，或者仅选择第二个列出的选项(B)，或者仅选择第三个列出的选项(C)，或者仅选择第一个和第二个列出的选项(A和B)，或者仅选择第一个和第三个列出的选项(A和C)，或者仅选择第二个和第三个列出的选项(B和C)，或者选择所有三个选项(A和B和C)。正如本领域和相关领域的普通技术人员很清楚的，列出了多少个项目，这就可以扩展到多少个项目。

这里描述的实现方式可以例如用方法或过程、装置、软件程序、数据流或信号来实现。即使仅仅是在一种实现方式的情境中论述的(例如，仅是以方法的形式论述的)，所论述的特征的实现方式也可以用其他形式来实现(例如，以装置或程序的形式来实现)。装置例如可以用适当的硬件、软件和固件来实现。方法例如可以实现在诸如处理器之类的装置中，处理器概括地指处理设备，例如包括计算机、微处理器、集成电路或可编程逻辑器件。处理器还包括通信设备，例如计算机、蜂窝电话、便携式/个人数字助理(“PDA”)以及协助实现端用户之间的信息通信的其他设备。

这里描述的各种过程和特征的实现方式可以体现在多种不同的设备或应用中，尤其是例如与数据编码和解码相关联的设备或应用。这种设备的示例包括编码器、解码器、处理解码器的输出的后处理器、提供输入给编码器的预处理器、视频编码器、视频解码器、视频编解码器、web服务器、机顶盒、膝上型计算机、个人计算机、蜂窝电话、PDA和其他通信设备。应当清楚，该设备可以是移动的，或者甚至被安装在移动的车辆中。

此外，方法可以通过处理器执行指令来实现，并且这种指令(和/或由实现方式产生的数据值)可被存储在处理器可读介质上，该处理器可读介质例如是集成电路、软件载体或其他存储设备，例如硬盘、压缩盘、随机存取存储器(“RAM”)或只读存储器(“ROM”)。指令可以形成有形地包含在处理器可读介质上的应用程序。指令例如可以在硬件、固件、软件或其组合中。指令例如可存在于操作系统、单独的应用或两者的组合中。处理器因此例如既可被表征为被配置为执行过程的设备，也可被表征为包括具有用于执行过程的指令的处理器可读介质(例如存储设备)的设备。另外，作为指令的附加或替换，处理器可读介质可存储由实现方式产生的数据值。

正如对于本领域的技术人员来说显而易见的，一些实现方式可产生被格式化来携带例如可被存储或传送的信息的多种信号。该信息例如可包括用于执行方法的指令，或者由上述实现方式之一产生的数据。例如，信号可被格式化为携带用于写入或读取所描述的实施例的语法的规则作为数据，或者携带由所描述的实施例写入的实际语法值作为数据。这种信号例如可被格式化为电磁波(例如，利用频谱的射频部分)或基带信号。格式化例如可包括对数据流编码并利用经编码的数据流来调制载波。信号携带的信息例如可以是模拟或数字信息。正如已知的，信号可通过多种不同的有线或无线链路来传送。信号可被存储在处理器可读介质上。

这样，我们提供了具有特定特征和方面的一种或多种实现方式。然而，所描述的实现方式的特征和方面也可适用于其他实现方式。因此，虽然这里描述的实现方式可能是在特定的情境中描述的，但是这种描述绝不应当被理解为将特征和概念限制到这种实现方式或情境。

还应理解，可以进行各种修改。例如，不同实现方式的要素可被组合、补充、修改或去除，以产生其他实现方式。此外，本领域的普通技术人员应理解，可以用其他结构和过程来代替所公开的那些，并且由此得到的实现方式将以与所公开的实现方式至少基本相同的(一种或多种)方式来执行与所公开的实现方式至少基本相同的(一个或多个)功能，以实现与所公开的实现方式至少基本相同的(一个或多个)结果。因此，这些和其他实现方式被本申请所设想到并处于权利要求的范围之内。

Claims

1.一种用于处理图像的方法，包括：

利用与图像的经编码的第一部分相关联但不与所述图像的其他部分相关联的第一部分运动向量来对所述第一部分解码，所述第一部分运动向量指示出将被用于对所述第一部分解码的第一相应参考图像部分，并且所述第一部分具有第一大小；

处理第一部分深度值，所述第一部分深度值为整个所述第一部分但不为其他部分提供深度信息，并且所述第一部分深度值是从将所述第一部分深度值与所述图像的经编码的第一部分相关联的结构被访问的；

利用与所述图像的经编码的第二部分相关联但不与所述图像的其他部分相关联的第二部分运动向量来对所述第二部分解码，所述第二部分运动向量指示出将被用于对所述第二部分解码的第二相应参考图像部分，并且所述第二部分具有不同于所述第一大小的第二大小；以及

处理第二部分深度值，所述第二部分深度值为整个所述第二部分但不为其他部分提供深度信息。

2.如权利要求1所述的方法，其中，所述第一部分深度值是经编码的，并且处理所述第一部分深度值包括对所述第一部分深度值解码。

3.如权利要求1所述的方法，其中，处理所述第一部分深度值包括以下各项中的一个或多个：解析所述第一部分深度值、对所述第一部分深度值解码、或者基于所述第一部分深度值生成深度地图的至少一部分。

4.如权利要求1所述的方法，其中，处理所述第一部分深度值包括基于所述第一部分深度值生成深度地图的第一部分，所述深度地图的第一部分对于所述图像的第一部分中的每个像素具有单独的深度值。

5.如权利要求4所述的方法，其中：

所述第一部分深度值是在编码器处根据深度预测子确定的残余，并且生成所述深度地图的第一部分包括：

生成对表示整个所述第一部分的实际深度的代表性深度值的预测；

将所述预测与所述第一部分深度值相组合，以确定所述图像的第一部分的重建的代表性深度值；以及

基于所述重建的代表性深度值来填充所述深度地图的第一部分。

6.如权利要求5所述的方法，其中，填充包括将所述重建的代表性深度值拷贝到所述深度地图的整个第一部分。

7.如权利要求1所述的方法，其中，所述第一部分是宏块或子宏块，并且所述第二部分是宏块或子宏块。

8.如权利要求1所述的方法，还包括提供经解码的第一部分和经解码的第二部分供显示。

9.如权利要求1所述的方法，还包括访问包括所述第一部分深度值和所述第一部分运动向量的结构。

10.如权利要求1所述的方法，其中，所述第一部分深度值是基于以下各项中的一个或多个的：所述第一部分的深度的平均值、所述第一部分的深度的中值、所述图像中的邻居部分的深度信息、或者相应的时间或视角间部分中的一部分的深度信息。

11.如权利要求1所述的方法，其中：

所述第一部分深度值是在编码器处根据深度预测子确定的残余，并且

所述方法还包括生成对表示整个所述第一部分的实际深度的代表性深度值的预测，并且所述预测是基于以下各项中的一个或多个的：所述第一部分的深度的平均值、所述第一部分的深度的中值、所述图像中的邻居部分的深度信息、或者相应的时间或视角间部分中的一部分的深度信息。

12.如权利要求1所述的方法，其中，所述第一部分深度值是表示整个所述第一部分的实际深度的代表性深度值。

13.如权利要求1所述的方法，其中，所述方法是在解码器处执行的。

14.如权利要求1所述的方法，其中，所述方法是在编码器处执行的。

15.一种用于处理图像的装置，包括：

用于利用与图像的经编码的第一部分相关联但不与所述图像的其他部分相关联的第一部分运动向量来对所述第一部分解码的装置，所述第一部分运动向量指示出将被用于对所述第一部分解码的第一相应参考图像部分，并且所述第一部分具有第一大小；

用于处理第一部分深度值的装置，所述第一部分深度值为整个所述第一部分但不为其他部分提供深度信息，并且所述第一部分深度值是从将所述第一部分深度值与所述图像的经编码的第一部分相关联的结构被访问的；

用于利用与所述图像的经编码的第二部分相关联但不与所述图像的其他部分相关联的第二部分运动向量来对所述第二部分解码的装置，所述第二部分运动向量指示出将被用于对所述第二部分解码的第二相应参考图像部分，并且所述第二部分具有不同于所述第一大小的第二大小；以及

用于处理第二部分深度值的装置，所述第二部分深度值为整个所述第二部分但不为其他部分提供深度信息。

16.一种用于处理图像的装置，包括：

用于执行以下操作的解码单元：

利用与图像的经编码的第一部分相关联但不与所述图像的其他部分相关联的第一部分运动向量来对所述第一部分解码，所述第一部分运动向量指示出将被用于对所述第一部分解码的第一相应参考图像部分，并且所述第一部分具有第一大小；以及

用于执行以下操作的处理单元：

处理第一部分深度值，所述第一部分深度值为整个所述第一部分但不为其他部分提供深度信息，并且所述第一部分深度值是从将所述第一部分深度值与所述图像的经编码的第一部分相关联的结构被访问的；以及

17.如权利要求16所述的装置，其中，所述装置包括编码器。

18.一种解码器，包括：

解调器，用于接收和解调信号，所述信号包括图像的经编码的第一部分和代表深度信息的第一部分的深度值，所述深度信息的第一部分对应于所述图像的第一部分；

解码单元，用于执行以下操作：

利用与图像的经编码的第一部分相关联但不与所述图像的其他部分相关联的第一部分运动向量来对所述第一部分解码，所述第一部分运动向量指示出将被用于对所述第一部分解码的第一相应参考图像部分，并且所述第一部分具有第一大小，以及

处理单元，用于执行以下操作：

处理第一部分深度值，所述第一部分深度值为整个所述第一部分但不为其他部分提供深度信息，并且所述第一部分深度值是从将所述第一部分深度值与所述图像的经编码的第一部分相关联的结构被访问的，以及

19.一种用于处理图像的方法，包括：

利用与图像的第一部分相关联但不与所述图像的其他部分相关联的第一部分运动向量来对所述第一部分编码，所述第一部分运动向量指示出将被用于对所述第一部分编码的第一相应参考图像部分，并且所述第一部分具有第一大小；

确定第一部分深度值，所述第一部分深度值为整个所述第一部分但不为其他部分提供深度信息；

利用与图像的第二部分相关联但不与所述图像的其他部分相关联的第二部分运动向量来对所述第二部分编码，所述第二部分运动向量指示出将被用于对所述第二部分编码的第二相应参考图像部分，并且所述第二部分具有不同于所述第一大小的第二大小；

确定第二部分深度值，所述第二部分深度值为整个所述第二部分但不为其他部分提供深度信息；以及

将经编码的第一部分、所述第一部分深度值、经编码的第二部分和所述第二部分深度值组装到结构化格式中。

20.如权利要求19所述的方法，还包括提供所述结构化格式以供传送或存储。

21.如权利要求19所述的方法，其中，确定所述第一部分深度值是基于深度地图的第一部分的，所述深度地图的第一部分对于所述图像的第一部分中的每个像素具有单独的深度值。

22.如权利要求19所述的方法，还包括在组装之前对所述第一部分深度值和所述第二部分深度值编码，以使得将所述第一部分深度值和所述第二部分深度值组装到所述结构化格式中包括组装所述第一部分深度值和所述第二部分深度值的经编码版本。

23.如权利要求19所述的方法，还包括：

确定表示整个所述第一部分的实际深度的代表性深度值；

生成对所述代表性深度值的预测；以及

将所述预测与所述代表性深度值相组合以确定所述第一部分深度值。

24.如权利要求23所述的方法，其中，生成所述预测包括生成基于以下各项中的一个或多个的预测：所述第一部分的深度的平均值、所述第一部分的深度的中值、所述图像中的邻居部分的深度信息、或者相应的时间或视角间部分中的一部分的深度信息。

25.如权利要求19所述的方法，其中，所述第一部分深度值是基于以下各项中的一个或多个的：所述第一部分的深度的平均值、所述第一部分的深度的中值、所述图像中的邻居部分的深度信息、或者相应的时间或视角间部分中的一部分的深度信息。

26.如权利要求19所述的方法，其中，所述第一部分是宏块或子宏块，并且所述第二部分是宏块或子宏块。

27.如权利要求19所述的方法，其中，组装还包括将所述第一部分运动向量组装到所述结构化格式中。

28.如权利要求19所述的方法，其中，所述方法是在编码器处执行的。

29.一种用于处理图像的装置，包括：

用于利用与图像的第一部分相关联但不与所述图像的其他部分相关联的第一部分运动向量来对所述第一部分编码的装置，所述第一部分运动向量指示出将被用于对所述第一部分编码的第一相应参考图像部分，并且所述第一部分具有第一大小；

用于确定第一部分深度值的装置，所述第一部分深度值为整个所述第一部分但不为其他部分提供深度信息；

用于利用与图像的第二部分相关联但不与所述图像的其他部分相关联的第二部分运动向量来对所述第二部分编码的装置，所述第二部分运动向量指示出将被用于对所述第二部分编码的第二相应参考图像部分，并且所述第二部分具有不同于所述第一大小的第二大小；

用于确定第二部分深度值的装置，所述第二部分深度值为整个所述第二部分但不为其他部分提供深度信息；以及

用于将经编码的第一部分、所述第一部分深度值、经编码的第二部分和所述第二部分深度值组装到结构化格式中的装置。

30.一种用于处理图像的装置，包括：

编码单元，所述编码单元用于利用与图像的第一部分相关联但不与所述图像的其他部分相关联的第一部分运动向量来对所述第一部分编码，所述第一部分运动向量指示出将被用于对所述第一部分编码的第一相应参考图像部分，并且所述第一部分具有第一大小，并且所述编码单元用于利用与图像的第二部分相关联但不与所述图像的其他部分相关联的第二部分运动向量来对所述第二部分编码，所述第二部分运动向量指示出将被用于对所述第二部分编码的第二相应参考图像部分，并且所述第二部分具有不同于所述第一大小的第二大小；

深度代表计算器，用于确定为整个所述第一部分但不为其他部分提供深度信息的第一部分深度值，并且用于确定为整个所述第二部分但不为其他部分提供深度信息的第二部分深度值；以及

组装单元，用于将经编码的第一部分、所述第一部分深度值、经编码的第二部分和所述第二部分深度值组装到结构化格式中。

31.一种编码器，包括：

深度代表计算器，用于确定为整个所述第一部分但不为其他部分提供深度信息的第一部分深度值，并且用于确定为整个所述第二部分但不为其他部分提供深度信息的第二部分深度值；

组装单元，用于将经编码的第一部分、所述第一部分深度值、经编码的第二部分和所述第二部分深度值组装到结构化格式中；以及

调制器，用于调制所述结构化格式。