CN105122808A

CN105122808A - 用于三维及多视图视频编码的视差向量推导的方法及装置

Info

Publication number: CN105122808A
Application number: CN201480017406.9A
Authority: CN
Inventors: 林建良; 陈渏纹
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2013-04-10
Filing date: 2014-04-02
Publication date: 2015-12-02
Anticipated expiration: 2034-04-02
Also published as: US20150365694A1; EP2932720A1; EP2932720A4; US10477230B2; WO2014166349A1; CN105122808B

Abstract

本发明揭露了一种直接从三维视频编码或解码的运动向量预测的相关联的深度块中确定已推导DV的方法以及装置。接收与当前附属视图中当前纹理图片的当前纹理块的当前运动信息相关联的输入数据，以及与当前纹理块相关联的深度块。接着，用于当前纹理块的已推导DV根据深度块被确定，且被用于视图间或时间MVP。如果当前运动信息对应于视图间预测，使用已推导DV来编码或解码当前DV以作为运动向量预测子。如果当前运动信息对应于时间预测，使用参考视图中对应纹理块的已推导MV来编码或解码当前MV以作为运动向量预测子。

Description

用于三维及多视图视频编码的视差向量推导的方法及装置

【相关申请的交叉引用】

本发明主张申请于2013年4月10日，序列号为61/810，379，标题为“Methodsofdepthtodisparityderivationin3Dormulti-viewvideocoding”的美国临时专利申请的优先权。将此美国临时专利申请以参考的方式并入本文中。

【技术领域】

本发明涉及三维(three-dimensional，3D)视频编码。特别地，本发明涉用于3D以及多视图视频编码中视图间预测以及跳过/直接(Skip/Direct)模式的运动向量预测(motionvectorprediction，MVP)的视差向量推导。

【背景技术】

三维电视技术是近年来的技术发展趋势，其试图给观看者带来轰动的观看体验(viewingexperience)。各种技术都被开发出来以使三维观看成为可能。其中，多视图视频(multi-viewvideo)是三维电视应用中的一个关键技术。现有的视频是二维(two-dimensional)介质，二维介质只能给观看者提供来自照相机视角的一个场景的单个视图。然而，多视图视频可以提供动态场景的任意视角，并为观看者提供真实的感觉。

通常的，多视图视频是通过同时地使用多个相机捕捉场景来创建的，其中，多个照相机都被合适地定位，以使每个照相机从一个视角捕捉场景。因此，多个相机将捕捉对应多个视图的多个视频序列。为了提供更多的视图，需要使用更多的相机来产生具有与视图相关联的大量视频序列的多视图视频。因此，多视图视频将需要大量的存储空间来存储和/或需要高的带宽来传送。因此，在本领域中，多视图视频编码技术被开发出来以减少所需要的存储空间或传送带宽。

一个直接方法可以简单地应用于现有的视频编码技术，使每个单个视图视频序列独立且忽视不同视图中的任何关联。这样的编码系统将是非常低效的。为了提高多视图视频编码效率，典型的多视图视频编码利用视图间冗余。因此，大多数3D视频编码系统会考虑与多个视图或深度图相关联的视频数据的相关性。某些3D视频编码标准是通过扩展现存的用于二维视频的标准来制定。例如，有新出现的基于高级视频编码(Advancedvideocoding，AVC)以及高效率视频编码(HighEfficiencyVideoCoding，HEVC)的3D编码标准。于这些标准中，视差向量(disparityvector，DV)被广泛地使用于各种编码应用中以定位参考视图中对应块。

于基于3D编码的AVC(AVC-based3Dcoding，3D-AVC)中，对于不同的编码工具，当前纹理块的视差向量(disparityvector)会被不同的推导出。例如，当选择视图合成预测(ViewSynthesisPrediction，VSP)或基于深度的运动向量预测(Depth-basedMotionVectorPrediction，DMVP)编码模式时，与当前纹理块相关联的深度块的最大值被用作当前纹理块的视差向量。另一方面，根据相邻块推导的视差向量被用于基于视差的跳过以及直接模式。于本公开中，运动向量(motionvector，MV)以及DV作为与块相关联的运动信息的一部分。MVP可指用于MV以及用于DV的预测。

于基于深度块的最大值的DV推导方法，用于当前已编码纹理块Cb的视差向量从深度块中被推导，d(Cb)与当前纹理块Cb相关联。由深度块d(Cb)的四个角(即，左上方、右上方、左下方、右下方)来定位的深度图样本被比较。根据照相机模型，四个深度值中的最大深度图值被转换为视差值。在具有降低的分辨率的深度图的情况下，当前纹理块的四个角的空间坐标被按比例缩减以匹配深度图分辨率。

于基于相邻块的DV推导方法中，视差向量是从当前块Cb的相邻块的运动信息中推导。如果来自相邻块的运动信息不可用，根据基于深度块的最大值的DV推导方法，视差向量是从相关联的深度块d(Cb)中推导。在附属视图中深度图于对应纹理图片之前被编码的系统中，相关联的深度块可对应于当前附属视图的深度块。否则，相关联的深度块可对应于参考视图中深度块，其中，参考视图中深度块已经于对应纹理图片前被编码。

图1所示为用于推导视差向量的相邻块以及已推导视差向量的使用的示意图。视差向量是从当前块(110)的相邻块A、B、以及C(D)的运动向量中推导，其中，当块C不可用时，则使用块D。如果仅有一个相邻块是根据视图间预测(即，具有DV)来编码，则DV被选择以作为用于当前块Cb的已推导DV。如果来自块A、B、C(D)的多个视差向量是可用的，则已推导DV是由可用的DV的中值来确定。如果相邻块A、B、以及C(D)都不具有有效的DV，接着，已推导DV由已转换DV来确定，其中，已转换DV是根据照相机模型通过转换与当前纹理块相关联的深度块中的深度值来获得。接着，已推导DV被用于定位基础视图中的对应块。基础视图中的对应块(120)是通过使用已推导DV偏移当前点的中心点(112)来确定。此操作类似于使用运动补偿来定位参考块。因此，此操作可以通过使用现存的运动补偿模块将已推导DV作为运动向量(MV)来实现。

图2所示为用于基于视差的跳过以及直接模式的基于相邻块的DV推导的流程图。于步骤210中，接收与相邻纹理块A、B、以及C(D)相关联的运动数据。当与块C相关联的运动信息不可用时，则使用与块D相关联的运动信息。运动数据可对应于视图间运动数据(即，DV)或时间运动数据(即，MV)。于步骤220中，检查相邻块A、B以及C(D)的视图间运动信息(即，DV)的可用性。如果只有一个相邻块是采用视图间预测来编码，运动信息(即，DV)被用作已推导DV。如果多于一个相邻块是采用视图间预测来编码，如步骤230所示，来自任何相邻块的不可用的DV都由最大视差来替代。如步骤240所示，已推导DV是从三个候选DV的中值确定。如步骤250所示，于已推导DV被确定后，参考视图中对应块是使用已推导DV来定位。接着，对应块的运动向量被用于基于视差的跳过或直接运动向量预测子。

视差向量也被用于3D编码系统的其它编码工具中。例如，3D-AVC也包括方向独立的MVP(Direction-SeparatedMVP，DS-MVP)编码工具。于3D-AVC中，基于MVP的中值被限制为与运动向量候选的预测方向一致。于DS-MVP中，所有可用的相邻块是根据其预测(即，时间或视图间)的方向来分类。

对于视图间预测，如果当前块Cb使用视图间参考图片，所有没有使用视图间预测的相邻块被标记为对MVP是不可用的。被标记为不可用的相邻块的运动向量被替换为从与当前块Cb相关联的深度数据中推导的视差向量，而不是被替换为零运动向量。接着，从深度数据中推导的DV被包含以作为MV候选，以用于中值操作以确定已推导DV。与当前块Cb相关联的从深度数据中推导的DV是根据“四个角中的最大值(maximaloutoffourcorners)”被推导。图3所示为视图间预测过程的流程图。除了不使用步骤250，图3所包括的步骤与图2所包括的步骤大体上相同。如图3所示，于获得已推导DV后，已推导DV被用作当前块的MVP(即，视图间预测)。

对于视图间预测，如果当前块Cb使用时间预测，使用视图间参考帧的相邻块被标记为对MVP是不可用的。被标记为不可用的相邻块的运动向量被替换为参考视图中对应块的运动向量。对应块是通过将已推导视差向量应用到当前纹理块的坐标来被推导。已推导视差向量是根据“四个角中的最大值”来确定。如果对应块不是使用视图间预测来编码(即，MV不可用)，则考虑零向量。视图间预测过程的流程图如图4所示。于步骤410中，接收与相邻块A、B、以及C(D)相关联的运动数据。在此情况下，运动数据对应于时间运动(即，MV)。于步骤420中，检查相邻块的MV的可用性。如果任何相邻块都不是时间预测，(即，无MV)，如步骤430所示，MV被已推导MV替换。如步骤450所示，已推导MV对应于参考视图中对应块的MV，且对应块由已推导DV根据“四个角中的最大值”来定位。如步骤440所示，已推导MV是根据候选MV的中值来确定。

基于视差的跳过/直接模式是3D-AVC的另一编码工具。于跳过/直接模式，运动信息不被编码。相反运动信息于编码器以及解码器侧通过相同过程来推导。跳过/直接模式中当前块Cb的编码的运动信息是从基础视图的对应块的运动信息中推导。如图1所示，当前块Cb以及基础视图中对应块之间的对应关系通过视差向量由将DV应用到当前块Cb的中央点来建立。由基础视图中此向量参考的运动分区为当前块Cb的编码提供运动信息(即，参考索引以及运动向量)。

此模式的视差推导过程被称为“基于相邻块的推导”，且此过程可以使用图2中的流程图来表示。如果基础视图的对应块是不可用的，则先前所述的方向独立的MVP(Direction-SeparatedMVP，DS-MVP)被用于通过将参考索引设置为0来推导DV。

如以上所描述的，DV推导是3D以及多视图视频编码的关键。当前3D-AVC中使用的DV推导过程非常复杂。因此，希望能有一种简化的DV推导过程。

【发明内容】

本发明揭露了一种直接从三维视频以及多视图编码或解码中用于MVP的相关联的深度块中确定已推导视差向量(DV)的方法以及装置。根据本发明，接收与当前附属视图中当前纹理图片的当前纹理块相关联的输入数据以及与当前纹理块相关联的深度块。接着，基于深度块的用于当前纹理块的已推导DV(视差向量)被确定，且已推导DV被用于定位参考视图中对应块。接着，对应块的运动信息被用作当前块的编码或解码的跳过或直接候选。

本发明的一个方面解决已推导视差向量的推导过程。例如，已推导DV可以根据深度块的四个角的深度样本中的最大深度值来确定。已推导DV还可以根据深度块的单个深度样本被确定。单个深度值可对应于深度块的中心位置的深度样本。单个深度值还可对应于MxN纹理块中位置(0、0)、(M-1，N-1)、(M/2-1，N/2-1)、(M/2-1，N/2+1)、(M/2+1，N/2-1)、或(M/2+1，N/2+1)的深度样本，其中，M以及N为正整数。

在另一实施例中，已推导DV根据深度块的至少两个深度样本来确定。例如，已推导DV可根据深度块的四个角的深度样本、根据深度块的中心位置以及四个角、或根据深度块的两个角的深度样本来确定。

在又一实施例中，已推导DV是通过确定对应于深度块的深度样本的平均值、中值、或众数的第一深度值，且将第一深度值转换为已推导DV来推导。

本发明揭露了一种于三维视频以及多视图编码或解码中，直接从用于MVP的相关联的深度块确定已推导视差向量(DV)的方法。根据本发明，接收与当前附属视图中当前纹理图片的当前纹理块的当前运动信息相关联的输入数据以及与当前纹理块相关联的深度块。接着，基于深度块的用于当前纹理块的已推导DV(视差向量)被确定，且已推导DV被用于视图间MVP或时间MVP。如果当前运动信息对应于具有指向视图间参考图片的当前DV的视图间预测，当前DV使用已推导DV被编码或解码以作为运动向量预测子。如果当前运动信息对应于具有指向时间参考图片的当前运动向量(motionvector，MV)的时间预测，当前MV使用参考视图中对应纹理块的已推导MV被编码或解码以作为运动向量预测子，其中，参考视图的对应纹理块根据已推导DV以及当前纹理块的位置被定位。

【附图说明】

图1所示为用于推导视差向量的相邻块配置，且使用已推导视差向量来确定参考视图中的对应块的示意图。

图2所示为根据现存的基于AVC的三维视频编码，用于基于视差的跳过以及直接模式的基于相邻块的DV推导(NBDV)的示例的流程图。

图3所示为用于现存的基于AVC的三维视频编码中视图间预测的MVP的DV推导的示例的流程图。

图4所示为用于现存的基于AVC的三维视频编码中时间预测的MVP的DV推导的示例的流程图。

图5所示为根据本发明的实施例的用于跳过/直接模式的MVP的DV推导的示例的流程图。

图6所示为根据本发明的实施例的用于跳过/直接模式的MVP的DV推导的示例的流程图。

图7所示为根据本发明的实施例的三维以及多视图视频编码或解码中，直接从用于MVP的相关联的深度块中确定已推导视差向量的示范性流程图。

【具体实施方式】

如以上所描述的，DV是3D/多视图视频编码中的关键，且现有的3D-AVC中的DV推导过程相当复杂。因此，于本发明的实施例中，已推导视差向量是直接从对应深度块中获得。

根据本发明，视差向量是从深度数据的相关联块d(Cb)中推导，并用于视图间预测中的MVP以及基于视差的跳过/直接模式。已推导DV从深度块的最大值中确定。例如，深度块d(Cb)的四个角的最大值被用于从深度图中推导DV。此特定深度到视差推导被称为“四个角中的最大值”。通过当前块的中心点偏移已转换DV，已转换DV根据“四个角中的最大值”被用于定位基础视图中的对应块。于跳过/直接模式中，对应块的运动信息用于推导MVP。

本发明的实施例的3D/多视图视频编码系统的性能与基于3D-AVC测试模型版本8.0(3D-AVCTestModelversion8.0，ATM-8.0)的现有的系统的性能比较如表1所示，其中，使用DV推导过程的ATM-8.0如图2所示。另一方面，本发明的实施例的系统使用如图6所示的简化的DV推导。图5所示为从图2所示的跳过/直接候选推导方法到图6所示的简化的方法的改变。如图5所示，方框510中所示的步骤被跳过。方框520揭露的输出步骤将不会反馈到步骤230。替代地，步骤270中由最大值中转换的视差被用来定位参考视图中的块，以确定步骤250所示的已推导MV。性能比较是基于列于第一列的不同组的测试数据(即，测试数据S01-S06以及S08)。所显示的BD率(BD-rate)差值是用于保持相同的峰值信噪比(peaksignaltonoiseratio，PSNR)。BD率的负值意味着本发明具有更好的性能。如表1所示，用于纹理编码的比特率测量，总比特率(纹理比特率以及深度比特率)，以及合成视频(Synth.)的总比特率基本上与现有的ATM-8.0相同。处理时间(编码时间以及解码时间)也被比较。如表1所示，简化的DV推导基本没有性能损耗。在编码以及解码方面的计算复杂性也是基本相同的。

表1

根据本发明的实施例，用于空间相邻块A、B、C(D)以及任何时间块的DC或偏移检查过程都是不需要的。视差向量是直接从相关联的深度块的深度值中转换。视差向量可以从相关联的深度块的单个深度样本中转换。如果相关联的深度块的大小为MxN，单个深度像素可以为于(0、0)、(M-1，N-1)、(M/2-1，N/2-1)、(M/2-1，N/2+1)、(M/2+1，N/2-1)、或(M/2+1，N/2+1)处的样本，其中，M以及N为正整数。单个深度像素值可对应于深度块的中心点的深度样本。

视差向量还可从相关联的深度块中的至少两个深度样本来推导。至少两个深度样本可对应于相关联的深度块中四个角的深度样本。所述深度块的至少两个深度样本还可对应于深度块的中心位置以及四个角的深度样本。于又一示例中，所述深度块的至少两个深度样本对应于深度块的两个角的深度样本。

已推导DV还可通过首先确定对应于深度块的深度样本的平均值、中值、或众数(majority)的第一深度值，且接着将第一深度值转换为已推导DV来进行推导。

图7所示为根据本发明的实施例的三维/多视图视频编码或解码中，直接从用于MVP的相关联的深度块中确定已推导视差向量的示范性流程图。如步骤710所示，系统接收与当前附属视图中当前纹理图片的当前纹理块的当前运动信息相关联的输入数据。对于编码，与当前纹理块的当前运动信息相关联的输入数据对应于待编码的运动数据。运动数据可对应于与当前纹理块相关联的视差向量或运动向量。对于解码，输入数据对应于待解码的已编码运动数据。输入数据可由存储器(例如：计算机存储器、缓冲器(RAM或DRAM)或其它媒体)中取回。输入数据还可从处理器(例如：控制器、中央处理单元、数字信号处理器、或产生第一数据的电子电路)中接收。如步骤720所示，接收与当前纹理块相关联的深度块。如步骤730所示，根据深度块DV，确定用于当前纹理块的已推导DV(视差向量)。如果当前运动信息对应于具有指向视图间参考图片的当前DV的视图间预测(步骤740)，则如步骤770所示，使用已推导DV来编码或解码当前DV以作为运动向量预测子。如果当前运动信息对应于具有指向时间参考图片的当前MV(运动向量)的时间预测(步骤750)，则如步骤760所示，使用参考视图中对应纹理块的已推导MV来编码或解码当前MV以作为MVP，其中，参考视图中的对应纹理块是根据已推导DV以及当前纹理块的位置来定位。

根据本发明的实施例，以上所示的流程图旨在说明使用直接从相关联的深度块确定的已推导DV的MVP的示例。本领域技术人员可以在不脱离本发明的精神实质的情况下，修改每个步骤，重新排列所述步骤，分割步骤，或合并步骤来实施本发明。

以上描述可使本领域的普通技术人员如特定应用及其要求的上下文提供的来实践本发明。对本领域技术人员来说，对所描述的实施例的各种修改是显而易见的，且本文定义的一般原理可被应用于其它实施例。因此，本发明并非意在限定于以上所示及所描述的特定实施例，而是要符合与此公开揭露的原理和新颖特征相一致的最宽范围。在以上详细描述中，各种具体细节被示出以便提供本发明的彻底理解。然而，本领域技术人员应知晓本发明是可被实践的。

如上所述，本发明的实施例可以由各种硬件，软件代码，或两者的组合来实现。例如，本发明的实施例可以是被集成到视频压缩芯片电路，或被集成于视频压缩软件的程序代码以执行本文所描述的处理过程。本发明的实施例还可以是执行于数字信号处理器上的程序代码，以执行本文所描述的处理过程。本发明还可包含由计算机处理器，数字信号处理器，微处理器，或现场可编程门阵列执行的多个功能。根据本发明，通过执行定义本发明所体现的特定方法的机器可读软件代码或固件代码，这些处理器可被配置为执行特定任务。软件代码或固件代码可被开发为不同的编程语言以及不同的格式或风格。软件代码还可被编译以用于不同的目标平台。然而，根据本发明的不同的软件代码的代码格式、风格及语言，以及用于配置代码以执行任务的其他方式，均不会背离本发明的精神以及范围。

在不脱离其精神或本质特征的情况下，本发明可以其它特定形式来体现。所描述的示例在所考虑的所有的方面都只是说明性的而不是限制性的。因此，本发明的范围是由其所附的权利要求来指示的，而不是由上文的描述来指示的。在权利要求的等效范围及含义内的所有改变均包含于本发明范围之内。

Claims

1.一种三维或多视图视频编码或解码的方法，其特征在于，所述方法包括：

接收与当前附属视图的当前纹理图片的当前纹理块相关联的输入数据；

接收与所述当前纹理块相关联的深度块；

根据所述深度块，确定用于所述当前纹理块的已推导视差向量；根据所述已推导视差向量定位参考视图中的对应块；

确定所述对应块的运动信息；以及

使用所述运动信息对所述当前纹理块编码或解码以作为跳过或直接模式候选。

2.如权利要求1所述的三维或多视图视频编码或解码的方法，其特征在于，所述已推导视差向量是根据所述深度块的四个角的深度样本中的最大深度值来确定。

3.如权利要求1所述的三维或多视图视频编码或解码的方法，其特征在于，所述已推导视差向量是根据所述深度块的单个深度样本来确定。

4.如权利要求3所述的三维或多视图视频编码或解码的方法，其特征在于，所述单个深度值对应于所述深度块的中心位置的所述深度样本。

5.如权利要求3所述的三维或多视图视频编码或解码的方法，其特征在于，所述单个深度值对应于MxN纹理块的位置(0、0)、(M-1，N-1)、(M/2-1，N/2-1)、(M/2-1，N/2+1)、(M/2+1，N/2-1)、或(M/2+1，N/2+1)处的所述深度样本，其中，M以及N为正整数。

6.如权利要求1所述的三维或多视图视频编码或解码的方法，其特征在于，所述已推导视差向量是根据所述深度块的至少两个深度样本来确定。

7.如权利要求6所述的三维或多视图视频编码或解码的方法，其特征在于，所述深度块的所述至少两个深度样本是从所述深度块的中心位置以及四个角的深度样本中选择。

8.如权利要求1所述的三维或多视图视频编码或解码的方法，其特征在于，所述已推导视差向量是通过确定对应于所述深度块的深度样本的平均值、中值、或众数的第一深度值，并将所述第一深度值转换为所述已推导视差向量来推导。

9.如权利要求1所述的三维或多视图视频编码或解码的方法，其特征在于，与所述当前纹理块相关联的所述深度块位于所述附属视图或所述参考视图中。

10.一种三维或多视图视频编码或解码的装置，其特征在于，所述装置包括一个或多个电子电路配置为：

接收与所述当前纹理块相关联的深度块；

根据所述深度块，确定用于所述当前纹理块的已推导视差向量；

根据所述已推导视差向量定位参考视图中的对应块；

确定所述对应块的运动信息；以及

11.一种三维或多视图视频编码或解码的方法，其特征在于，所述方法包括：

接收与当前附属视图中当前纹理图片的当前纹理块的当前运动信息相关联的输入数据；

接收与所述当前纹理块相关联的深度块；

如果所述当前运动信息对应于具有指向视图间参考图片的当前视差向量的视图间预测，使用所述已推导视差向量来编码或解码所述当前视差向量以作为运动向量预测子；以及

如果所述当前运动信息对应于指向时间参考图片的当前运动向量的时间预测，使用参考视图中对应纹理块的已推导运动向量来编码或解码所述当前运动向量以作为所述运动向量预测子，其中，所述参考视图中的所述对应纹理块是根据所述已推导视差向量以及所述当前纹理块的位置来定位。

12.如权利要求11所述的三维或多视图视频编码或解码的方法，其特征在于，所述已推导视差向量是根据所述深度块的四个角的深度样本中的最大深度值来确定。

13.如权利要求11所述的三维或多视图视频编码或解码的方法，其特征在于，所述已推导视差向量是根据所述深度块的单个深度样本来确定。

14.如权利要求13所述的三维或多视图视频编码或解码的方法，其特征在于，所述单个深度值对应于MxN纹理块的位置(0、0)、(M-1，N-1)、(M/2-1，N/2-1)、(M/2-1，N/2+1)、(M/2+1，N/2-1)、或(M/2+1，N/2+1)的所述深度样本，其中，M以及N为正整数。

15.如权利要求11所述的三维或多视图视频编码或解码的方法，其特征在于，所述已推导视差向量是根据所述深度块的至少两个深度样本来确定。

16.如权利要求15所述的三维或多视图视频编码或解码的方法，其特征在于，所述深度块的所述至少两个深度样本是从所述深度块的中心位置以及四个角的深度样本中选择。

17.如权利要求11所述的三维或多视图视频编码或解码的方法，其特征在于，所述已推导视差向量是通过确定对应于所述深度块的深度样本的平均值、中值、或众数的第一深度值，并将所述第一深度值转换为所述已推导视差向量来推导。

18.如权利要求11所述的三维或多视图视频编码或解码的方法，其特征在于，与所述当前纹理块相关联的所述深度块位于所述附属视图或所述参考视图中。

19.一种三维或多视图视频编码或解码的装置，所述装置包括一个或多个电子电路，其特征在于，所述一个或多个电子电路被配置为：

接收与所述当前纹理块相关联的深度块；