CN110062245A

CN110062245A - 三维视频编码的摄像机参数发信的方法和装置

Info

Publication number: CN110062245A
Application number: CN201910097882.0A
Authority: CN
Inventors: 张毓麟; 陈渏纹; 林建良
Original assignee: HFI Innovation Inc
Current assignee: HFI Innovation Inc
Priority date: 2013-07-19
Filing date: 2014-07-18
Publication date: 2019-07-26
Anticipated expiration: 2034-07-18
Also published as: KR20160003070A; US20160057453A1; WO2015007242A1; US10477183B2; CA2904424C; KR101861497B1; CA2904424A1; CN105474640A; KR20170058443A; CN105474640B; CN110062245B

Abstract

一种三维视频编码和解码方法，根据控制标记自适应地将摄像机参数合并到视频比特流中。基于与多个深度导向的编码工具相关的多个个别控制标记的组合可推导所述控制标记。另一个控制标记可以合并在视频比特流中，以指出当前层是否需要摄像机参数。在另一个实施例中，使用第一标记和第二标记以自适应地控制视频比特流中的每一层或每一视角的摄像机参数的存在和位置。第一标记指出视频比特流中的每一层或每一视角的摄像机参数是否存在。第二标记指出在视频流中每一层或每一视角的摄像机参数的位置。

Description

三维视频编码的摄像机参数发信的方法和装置

相关申请的交叉引用

本申请要求下列申请的优先权：2013年7月19日递交的申请号为 61/856,321，名称为“三维视频编码的摄像机参数发信”的美国临时案；2013 年7月30日递交的申请号为61/859,797，名称为“三维视频编码的自适应摄像机参数发信”的美国临时案；2013年7月31日递交的申请号为61/860,707，名称为“三维视频编码的摄像机参数发信的限制(Restriction)”的美国临时案；2013年10月14日递交的申请号为61/890,366，名称为“三维视频编码的摄像机参数发信的约束(Constraints)”的美国临时案；2013年10月15日递交的申请号为61/891,201，名称为“三维视频编码的摄像机参数发信”的美国临时案； 2013年10月30日递交的申请号为61/897,364，名称为“三维视频编码的基于视角顺序索引的摄像机参数发信”的美国临时案。在此合并参考这些申请案的申请标的。

技术领域

本发明有关于三维(three-dimensional，3D)视频编码。特别是，本发明有关于三维视频编码中的三维编码工具的摄像机参数发信。

背景技术

三维电视一直是近几年的技术趋势，意图给观众带来非常好的观看体验。目前已经开发出了多种支持三维观看的技术。其中，对于三维电视应用程序而言，多视角视频(multi-view video)是关键技术之一。传统的视频是二维(2D) 媒体，仅为观众提供从摄像机的角度看到的单一视角(single view)。然而，多视角视频能够提供动态场景的任意视点(arbitrary viewpoints)，并提供给观众以真实感。

多视角视频通常是通过使用多个摄像机同时捕获一个场景而产生的，其中多个摄像机都被设置在适当的位置，以使每个摄像机从一个视点捕捉场景。因此，多个摄像头捕捉到相应于多个视角的多个视频序列。为了提供更多的视角，更多的摄像头已被用来产生与多个视角相关的大量的视频序列。因此，多视角视频将需要很大的存储空间以存储和/或需要高带宽以传输。因此，在该领域中多视角视频编码技术已经已被开发出来，以减少所需的存储空间或传输带宽。

一个简单的方法是，简单地将传统的视频编码技术分别适用于每个单一视角视频序列，并忽略多个不同视角之间的任何相关。这样的编码系统将是非常低效的。为了提高多视角视频编码的效率，多视角视频编码利用视角间冗余 (inter-view redundancy)。多种3D编码工具正在以扩展现有视频编码标准的方式来开发中。例如，标准开发活动已扩展H.264/先进视频编码(advanced video coding，AVC)和高效视频编码(high efficiencyvideo coding，HEVC)至多视角视频编码(multi-view video coding，MVC)和3D编码。

用于3D-HEVC和3D-AVC的各种已开发或正在开发的3D编码工具如下。

分享相邻视角的先前编码的纹理信息(previously coded textureinformation)，被称为视差补偿预测(Disparity-Compensated Prediction，DCP)的技术已被列入 3D-HTM，作为运动补偿预测(motion-compensated prediction，MCP)的另一种编码工具。MCP是指利用相同视角的先前编码图像的图像间预测(inter-picture prediction)，而DCP指使用相同存取单元中其他视角的先前编码图像的图像间预测。图1为合并MCP和DCP的3D视频编码系统的示意图。用于DCP的矢量(110)被称为视差矢量(disparity vector，DV)，这是模拟MCP中使用的运动矢量(motion vector，MV)。图1说明了与MCP相关的三个运动矢量(120、 130和140)。此外，DCP块的视差矢量也可以由来自于相邻块或时间轴上同位块(temporal collocated blocks)有利用视角间参考图像的视差矢量预测器 (disparityvector predictor，DVP)候选来预测。在当前的3D-HTM中，当为合并/跳跃模式(Merge/Skipmodes)获得视角间合并模式候选(inter-view Merge candidate)时，如果相应的块的运动信息不可用或无效，视角间合并模式候选被视差矢量所取代。

视角间残差预测(Inter-view residual prediction)是另一个用于3D-HTM的编码工具。如图2所示，为了分享相邻视角的先前编码的残差信息，当前预测块(即，预测单元(prediction unit，PU))的残差信号，可以通过视角间图像中的相应的块的残差信号来预测。相应的块可以通过各自的视差矢量来定位。相应于特定摄像机位置的视频图像和深度图(depth map)是由视角标识符(view identifier) 来指出(indicate)的(例如，图2中的V0、V1和V2)。属于相同摄像机位置的所有视频图像和深度图，都与相同的视角索引(viewindex)(即，视角顺序索引)相关。视角顺序索引用于指定存取单元内的编码顺序，以及在易于出错的环境(error-prone environment)中检测丢失的视角。存取单元包括相应于相同时刻(same time instant)的所有视频图像和深度图。在存取单元中，视角索引等于0的视频图像和存在的相关深度图会最先编码，接下来是视角索引等于1的视频图像和深度图，以此类推。视角索引等于0的视角(即，图2中的V0)也被称为基本视角或独立视角。基本视角视频图像可以不依赖其他视角而使用常规的HEVC视频编码器来进行编码。

在图2中可以看到，对于当前块，运动矢量预测器(MVP)/视差矢量预测器(DVP)可以从视角间图像中的视角间块(inter-view block)来得到。在下面，视角间图像中的视角间块可以简写为视角间块。得到的候选被称为视角间候选 (inter-view candidate)，可作为视角间MVP和DVP。基于其他视角中先前编码的运动信息，编码工具编码当前块(例如，当前的预测单元)的运动信息，被称为视角间运动参数预测。此外，在相邻视角中的相应的块被称为视角间块，视角间块使用从当前图像的当前块的深度信息得到的视差矢量来定位。

图2所示的实施例相应的视角编码顺序为从V0(即，基础视角)到V1，再到V2。在当前图像中被编码的当前块是V2。根据HTM3.1，在先前编码视角中的参考块的所有运动矢量可以被视为视角间候选，即使视角间图像不在当前图像的参考图像列表中。在图2中，帧210、220和230分别相应于在时间t1来自于视角V0、V1和V2的视频图像或深度图。块232是当前视角中的当前块，块212和块222分别为视角V0和V1中的同位当前块(collocatedcurrent block)。对于视角V0中的同位当前块212，视差矢量216用于定位视角间同位块214。同样，对于视角V1中的同位当前块222，视差矢量226用于定位视角间同位块 224。

在3D系统中，在参考视角中的深度图可以在相依视角(dependent view)中的纹理图像之前被编码。因此，对于后续的纹理和深度编码，编码的深度信息变得有用。例如，对于具有视角V0、V1和V2的系统，纹理和深度成分的处理顺序可以是T0、D0、T1、T2、D1和D2，其中“T”代表纹理，“D”代表深度。在视角V0中的深度图之后，基本视角(即，V0)中的纹理图像第一个被编码。对于相依视角，在深度图之后，纹理图像第一个被编码。因此，在视角0中的编码深度图可用来推导在视角1中将被编码的纹理帧的视差矢量。图3为使用虚拟深度将深度转换为视差的技术的实施例。当前块(current block，CB)310 的预测视差矢量340被确定。参考视角中的视角间参考纹理块350可使用预测视差矢量340通过当前块310的同位位置310’来定位。当前块310相应的深度块330是从与视角间参考纹理块350同位的编码D0中取得的。为获得当前块的视差矢量，检索到的块330被用作虚拟深度块330’。与虚拟深度块330’相关的深度值，然后被使用并被转换成视差。例如，在虚拟深度块330’中的最大值可以用来转换为各种视角间编码工具的视差矢量。

在当前的3D-HEVC中，用于视差补偿预测(DCP)的视差矢量明确传输的方式或隐式推导的方式，与关于先进运动矢量预测(advanced motion vector prediction，AMVP)和合并模式步骤中的运动矢量推导相类似。目前，除了用于视差补偿预测的视差矢量，用于其它的编码工具的视差矢量可使用如下所述的相邻块视差矢量(neighboring blockdisparity vector，NBDV)处理或深度导向的相邻块视差(depth oriented neighboringblock disparity，DoNBDV)处理来导出。

在当前的3D-HEVC中，视差矢量可以作为帧间模式(Inter mode)的DVP 候选或合并/跳跃模式的合并模式候选。得到的视差矢量也可以被用来作为视角间运动预测和视角间残差预测的偏移矢量(offset vector)。当作为偏移矢量，视差矢量是从如图4所示的空间和时间上的相邻块获得的。多个空间和时间上的相邻块被确定，以及时间和空间上的相邻块的视差矢量的可用性根据预定顺序被检查。基于相邻(空间和时间上)块的视差矢量推导的这种编码工具称为相邻块视差矢量(Neighboring Block DV，NBDV)。如图4A所示，空间上的相邻块集合包括当前块的左下角的斜对角位置(即A0)、相邻于当前块的左底部的位置(即A1)、当前块的左上角的斜对角位置(即B2)、当前块的右上角的斜对角位置(即B0)、以及相邻于当前块的右顶部的位置(即B1)。如图4B所示，时间上的相邻块集合包括在时间参考图像中的当前块的中心位置(即B_CTR)和当前块的右下角的斜对角位置(即RB)。代替中心位置，在时间参考图像中，当前块中的其他位置(例如，右边较低的块)也可以使用。换句话说，与当前块同位的任何块都可以包含在时间上的相邻块集合中。一但块被确定为具有视差矢量，检查过程将被终止。对于如图4A所示的空间上的相邻块的范例搜索顺序是A1、B1、B0、A0、B2。对于如图4B所示的时间上的相邻块的范例搜索顺序是RB、B_CTR。在目前的实践中，两个同位的图像将被检查。

如果在相邻块集合(即如图4A和图4B所示的空间和时间上的相邻块)中没有DCP编码块，视差信息可以从另一个名为DV-MCP的编码工具得到。在这种情况下，当空间上的相邻块是MCP编码块、以及通过视角间运动预测来预测其运动时，如图5所示，用于视角间运动预测的视差矢量代表当前图像和视角间参考图像之间相应的运动。这种类型的运动矢量被称为视角间预测运动矢量、块被称为DV-MCP块。图5为DV-MCP块的示例，其中，DV-MCP块510的运动信息是从视角间参考图像中的相应块520来预测的。相应块520的位置是由视差矢量530来指定的。用于DV-MCP块的视差矢量代表当前图像和视角间参考图像之间的相应的运动。相应块520的运动信息522被用来预测在当前视角中的当前块510的运动信息512。

为了指出MCP块是否是DV-MCP编码，以及存储视差矢量以进行视角间运动参数预测，两变量用来表示每一块的运动矢量信息：

-dvMcpFlag，和

-dvMcpDisparity。

当dvMcpFlag等于1，dvMcpDisparity设置为表明视差矢量是用于视角间运动参数预测。在AMVP模式和合并模式的候选名单的建设过程(construction process)中，如果是由视角间运动参数预测生成候选，则dvMcpFlag设置为1，否则设置为0。如果在上述空间和时间上的相邻块中没有找到DCP编码块和 DV-MCP编码块，那么零矢量可以用来作为默认的视差矢量。

通过从深度图提取更精确的视差矢量(在本发明中简称为精确视差矢量) 以提高NBDV的方法被用于当前的3D-HEVC中。在同一存取单元中的编码深度图上的深度块被首次检索并用作当前块的虚拟深度。具体说来，精确视差矢量是从虚拟深度块的像素子集的最大视差转换而来的，虚拟深度块由使用 NBDV导出的视差矢量来定位。这种用于视差矢量推导的编码工具称为深度导向的NBDV(Depth-oriented NBDV，DoNBDV)。再次，如果没有精确视差矢量可以由DoNBDV得到，零矢量可以作为默认的视差矢量。估计视差矢量可从图 5所示的虚拟深度提取。总的流程如下：

1.使用估计的视差矢量，估计的视差矢量为当前3D-HTM中的NBDV，在编码的纹理视角中定位相应的块。

2.使用当前块(编码单元)的编码视角中的相应深度作为虚拟深度。

3.从上一步获取的虚拟深度中的最大值提取视角间运动预测的视差矢量 (即，精确视差矢量)。

视角合成预测(View synthesis prediction，VSP)是一种将视频信号之间的视角间冗余(inter-view redundancy)从不同视点中移除的技术，其中合成信号被用作为参考以预测当前图像。在3D-HEVC测试模型中，HTM-7.0，存在得到视差矢量预测器的过程，称为相邻块视差矢量(NBDV)。得到的视差矢量，然后用于提取参考视角的深度图像中的深度块。如图3所示的获得虚拟深度的过程可以应用于VSP，以在编码视角中定位相应的深度块。所提取的深度块可以具有与当前预测单元(prediction unit，PU)相同的大小，它将被用来为当前预测单元做后向变形(backward warping)。此外，变形操作可以在子预测单元 (sub-PU)级别精度进行，如2x2的块或4x4的块，如图6所示。

在图6中，视角1中的当前纹理块610将被处理。预测视差矢量640用于从当前块的同位位置610’定位视角间参考纹理块650。在编码视角中相应于纹理块650的同位深度块630可被识别。编码后的深度块630然后作为当前块的虚拟深度块630’，用于执行后向变形。当前块610分为四个子块。虚拟深度块也分为四个子块。针对每个子块可以选择最大深度值，以转换为子块的视差矢量。因此，如图6所示的四个箭头，可得到四个转换的视差矢量。四个视差矢量用于后向变形的子预测单元块(sub-PU block)中的所有像素。合成的子块然后用于当前块的预测。目前，水平视差矢量是从选定的深度值转换的。后向VSP (backwardVSP，BVSP)技术应用于纹理分量编码。

在当前的实现，BVSP作为新合并模式候选以发信BVSP预测的使用。在这样一种方式，BVSP块可以为无任何残差的跳跃块(skipped block)，或具有残差信息编码的合并块(Merge block)。

如上所述，编码工具(如DoNBDV和VSP)将深度值转换为用以预测的一个或多个视差矢量。这种深度导向的编码工具需要用于深度的摄像机参数以进行视差转换。例如，视差值，D可以使用深度值的线性函数从深度转换得到，d：

上述转换需要摄像机参数Zfar、Znear、焦距f和平移l、以及数据的精度，用于深度数据的比特深度(BitDepth)。上面的转换可以简化为：

D＝(d*DisparityScale+DisparityOffset<<BitDepth)+

(1<<(log2Div–1)))>>log2Div (2)

其中，DisparityScale是比例因子，DisparityOffset是偏移值，对于典型的深度数据BitDepth等于8，log2Div是移位参数(shift parameter)，移位参数取决于所需的视差矢量精度。根据方程(2)的简化转换使用算术移位代替除法运算。

遵从可适性视频编码之中编码基础层与增强层的存在，可以提高视频的可扩展性，三维视频编码系统将不同视角中的每一个纹理/深度序列分为不同的“层”。每一层都有层标识符“LayerId”。在HTM-7.0(基于测试模型版本7的 3D-HEVC)中，只有当层是非深度层时，摄像机参数被编码。如果只有深度层被编码或在纹理层之前深度层被编码，对于深度导向的编码工具摄像机参数将不可用。此外，在HTM-7.0中，摄像机参数被发送至序列参数集合(sequence parameter set，SPS)，序列参数集合只记录单个层的信息而不知道不同层之间的关系。区分深度层和非深度层的信息存储在视频参数集合(video parameter set，VPS)中，当深度标记VpsDepthhFlag来自于dimension_id时，这仅在VPS中可用。VpsDepthhFlag[nuh_layer_id]说明具有层id为nuh_layer_id的深度标记。表1为根据HTM-7.0在SPS中摄像机参数信号的语法的示例。如表1所示， cp_in_slice_header_flag控制摄像机参数是否将在SPS扩展或片段头(slice segment header)中。如果cp_in_slice_header_flag为0，摄像机参数(即， cp_scale[i]、cp_off[i]、cp_inv_scale_plus_scale[i]和cp_inv_off_plus_off[i])将被包含在SPS扩展中。否则，摄像机参数将被包含在片段头中。在HTM-7.0中， VPS和片段头之间存在摄像机参数的冗余。表2为根据3D HEVC测试模型3在片段头中摄像机参数的语法的示例。同样，在同一视角中的纹理层和深度层之间存在摄像机参数的冗余。在某些情况下，需要开发技术，以解决不可用的摄像机参数和摄像机参数冗余的问题。

表1

表2

发明内容

一种三维视频编码和解码方法，根据控制标记自适应地将摄像机参数合并到视频比特流中。可以根据与多个深度导向的编码工具相关的多个个别控制标记(individualcontrol flags)的组合推导所述控制标记。在这种情况下，所述控制标记可仅使用或操作、独占或操作、与操作或其他逻辑操作来从所述多个个别控制标记推导。与多个深度导向的编码工具相关的多个个别控制标记以视频比特流的序列层级、视角层级、图像层级或片段层级被发信。另外，控制标记也可以在视频比特流中被发信。

另一个控制标记可以合并在视频比特流中，以指出当前层是否需要摄像机参数，如果其它控制标记指出所述当前层需要所述摄像机参数，所述控制标记的值被设置为指出所述摄像机参数发信于所述当前层。在另一个实施例中，所述控制标记是基于另一个控制标记和多个个别控制标记的组合推导的。其它控制标记用来指出为当前层发信摄像机参数的需要，多个个别控制标记与多个深度导向的编码工具相关。在这种情况下，其它控制标记可以以视频比特流的序列层级、视角层级、图像层级或片段层级被发信。在又一个实施例中，控制标记被深度导向的编码工具所限制，如果任何所述深度导向的编码工具被启用，所述控制标记被限制以指出所述摄像机参数发信于所述当前层。

所述控制标记是基于从编码工具组中选择的深度导向的编码工具推导的，所述编码工具组包括视角合成预测(VSP)和深度导向的相邻块视差矢量 (DoNBDV)。控制标记还可以基于深度导向的编码工具而推导，深度导向的编码工具使用摄像机参数将深度值转换成视差值。在视频比特流中的摄像机参数可以合并在视频比特流的序列层级、视角层级、图象层级或片段层级。

一种三维视频编码和解码方法，该方法使用第一标记和第二标记以自适应地控制视频比特流中的每一层或每一视角的摄像机参数的存在和位置。第一标记指出视频比特流中的每一层或每一视角的摄像机参数是否存在。第二标记指出在视频流中每一层或每一视角的摄像机参数的位置。在一个实施例中，所述摄像机参数位于片段头，所述摄像机参数的位置是从所述第一标记和所述第二标记的逻辑组合推导的。多个第二标记用于为所述每一层或每一视角指出所述视频比特流中的多个摄像机参数的位置。如果选定的视角不存在所述摄像机参数，所述选定的视角的所述第一标记被推断为0。

在另一个实施例中，相同视角顺序索引的所有层中的所述第一标记、所述第二标记和所述摄像机参数都是相同的。如果所述摄像机参数发信于与当前层具有相同视角顺序索引的先前层，或所述第一标记指出在与所述当前层具有所述相同视角顺序索引的所述先前层中存在所述摄像机参数，所述当前层的所述第一标记被设置为指出所述当前层中不存在所述摄像机参数。在这种情况下，所述当前层的所述摄像机参数继承具有所述相同视角顺序索引的所述先前层的所述摄像机参数。

附图说明

图1为合并视差补偿预测作为可选择的运动补偿预测的3D视频编码的示意图。

图2为利用先前编码的信息或来自相邻视角的残差信息的3D视频编码的示意图。

图3为虚拟深度推导的示意图，其中虚拟深度是用来转换深度为视差。

图4A-4B为在HTM-3.1中分别为当前块导出视差矢量的当前块的空间上的相邻块和时间上的相邻块示意图。

图5为从运动补偿预测(motion-compensated prediction，DV-MCP)块推导视差的示意图，其中相应的块的位置是由视差矢量指定的。

图6为在子块上操作的向后视角合成预测(backward view synthesisprediction，BVSP)的推导过程的示意图。

图7为根据控制标记自适应合成视频比特流中的摄像机参数的3D视频解码的流程图。

图8为使用第一标记和第二标记以自适应控制视频比特流中每一层或每一视角的摄像机参数的存在和位置的3D视频解码的流程图。

具体实施方式

如上所述，在3D视频编码中，视差矢量对于3D-HEVC和3D-AVC都是是至关重要的。对于一些3D编码工具，视差矢量来自深度数据。然而，根据传统的3D编码标准，当如上所述需要深度数据时，深度数据可能不可用。例如，在HTM-7.0中，只有当层是非深度层时摄像机参数才被编码。如果只有深度层被编码或深度层在纹理层之前被编码，对于深度导向的编码工具来说摄像机参数将不可用。

为了克服这个问题，本发明的一实施例，不仅于非深度层，而且也于依赖于深度进行深度至视差转换的利用编码工具的层发信摄像机参数。根据该实施例，需要得到或编码至少一个标记来显示深度导向的编码工具的使用，如在 HTM-7.0中的depth_refinement_flag或view_synthesis_flag。在表3中的语法例子中，“depth_oriented_tools_flag”是用来指出这样的标记。标记可以设置为 (depth_refinement_flag||view_synthesis_flag||…)。根据 depth_oriented_tools_flag编码摄像机的参数。如果depth_oriented_tools_flag是处于开启状态，则摄像机参数会被传输。复选标记(check mark)“V”置于行的末尾，表明对常规设计进行的改变，以及变化以文本中的粗体和斜体的字体样式来突出。

表3

本发明的另一实施例使用第一标记来指出特定层(layer)是否需要摄像机参数。如果第一标记等于1，指出需要为特定层发送摄像机参数。然后，推导或编码第二标记，以指出是否为所述特定层发送或不发送摄像机参数。例如，第一标记被指定为transmit_cp_flag以及第二标记被指定为code_cp_flag。语法元素 code_cp_flag可以是transmit_cp_flag和其他几个标记的组合。例如，下面的公式表明，code_cp_flag取决于transmit_cp_flag和控制需要摄像机参数的编码工具是否启用或不启用的其他标记。

code_cp_flag[layerId]＝

(transmit_cp_flag[layerId]||depth_refinement_flag[layerId]||

view_synthesis_pred_flag[layerId]||other_tool_flag[layerId]||…)(2)

根据本实施例的语法设计的一个例子显示于表4中，其中摄像机参数发信于非深度层以及利用编码工具从深度转换为视差的层。复选标记“V”置于行的末尾，表明对常规设计进行的改变，以及变化以文本中的粗体和斜体的字体样式来突出。

表4

在上面的语法表中，transmit_cp_flag[layerId]等于1，指定需要将摄像机参数发送至具有nuh_layer_id等于layerId的层。当不存在时，推断 transmit_cp_flag[layerId]等于0。

在又一实施例中，编码标记(a flag is coded)以指定(specify)特定层需传输摄像机参数。如果标记等于1，摄像机参数被发送到特定层。然而，限制被施加于标记上，以确保系统将适当地运作。当需要摄像机参数的编码工具打开或启用时，应打开该标记以提供摄像机参数。

根据本实施例的语法设计的一个例子显示于表5中，其中摄像机参数会发送于非深度层以及利用编码工具需要转换深度为视差的层中。当需要摄像机参数的编码工具被启用时，transmit_cp_flag[layerId]应被编码为其值等于1。当不存在时，推断transmit_cp_flag[layerId]等于0。表5中的实施例说明使用 transmit_cp_flag[layerId]以控制在VPS中是否传送摄像机参数。同样，标记可以用来控制在序列参数集(sequence parameterset，SPS)或片段头中是否传送摄像机参数。复选标记“V”置于行的末尾，表明对常规设计进行的改变，以及变化以文本中的粗体和斜体的字体样式来突出。

表5

根据3D-HEVC测试模型版本8.0(HTM-8.0)，在语法设计中，存在片段头中摄像机参数的冗余问题。如果摄像机参数存在标记，cp_present_flag[layerId] 等于1，为了这个层(即，layerId)，摄像机参数被编码。如果只有深度层被编码或深度层在纹理层之前被编码，深度导向的编码工具可以正常运作，因为如果深度导向的编码工具被使用，则受到cp_present_flag应为1的约束。然而，在 HTM-8.0中，片段头扩展中的摄像机参数是根据cp_in_slice_segment_header_flag 来编码的。在这种情况下，即使cp_present_flag[layerId]等于0，为了特定的层，摄像机参数仍然可以发送至片段头扩展中。

为了解决这种冗余问题，本发明的一实施例的施加对片段头扩展的约束(constraint)以防止cp_present_flag和cp_in_slice_segment_header_flag之间的冲突。一个示例的语法设计如表6所示，添加cp_present_flag[nuh_layer_id]的条件检查以进一步限制摄像机参数的编码。复选标记“V”置于行的末尾，表明对常规设计进行的改变，以及变化以文本中的粗体和斜体的字体样式来突出。

表6

在另一个实施例中，cp_in_slice_segment_header_flag被改变为相应于每个层的标记阵列(flag array)。如果cp_present_flag[layerId]被打开或启用，相应的层的cp_in_slice_segment_header_flag[layerId]被编码。否则， cp_in_slice_segment_header_flag[layerId]应被推断为等于0。根据本实施例的两个例子体现在表7和表8所示中，用以控制视频参数设置(VPS)中的摄像机参数。cp_in_slice_segment_header_flag[layerId]被修改以解决cp_present_flag和 cp_in_slice_segment_header_flag之间的冲突。表9为根据本实施例的另一个例子，用于控制片段头扩展中的摄像机参数。在这些表中，复选标记“V”置于行的末尾，表明对常规设计进行的改变，新的语法以文本中的粗体和斜体的字体样式来突出，删除的语法是由一对“//*”和“*//”来表示的。

表7

表8

在表7和表8中，当cp_in_slice_segment_header_flag[layerId]等于1时，这表明视频参数设置中不存在vps_cp_scale[viewIdx][j]、 vps_cp_off[viewIdx][j]、vps_cp_inv_scale_plus_scale[viewIdx][j]、和 vps_cp_inv_off_plus_off[viewIdx][j]这几个语法元素。当 cp_in_slice_segment_header_flag等于0时，这表明片段头中存在 vps_cp_scale[viewIdx][j]、vps_cp_off[viewIdx][j]、 vps_cp_inv_scale_plus_scale[viewIdx][j]和 vps_cp_inv_off_plus_off[viewIdx][j]语法元素。当不存在时， cp_in_slice_segment_header_flag[layerId]被推断为等于0。

表9

在3D-HEVC中，摄像机参数可在视频参数设置(VPS)、片段头或片段头扩展中被编码。在VPS中的摄像机参数的发信是根据每个纹理层和深度层的 cp_present_flag。根据cp_in_slice_segment_header_flag，在片段头中的摄像机参数被发信。如果两个层具有相同的视角顺序索引，则具有较小层索引的层的摄像机参数可以由具有较大层索引的层的摄像机参数覆盖。此外，如果在片段头中的摄像机参数必须被发信，其将在每一层中被发信，包括在基本视角中的层。在这些情况下，由于相同视角中的每一层的摄像机参数应该是一致的，因此在 VPS和片段头中的摄像机参数的发信，可能导致在相同视角中的层的冗余和模糊(redundancy and ambiguity)。

为了克服如上所述相同视角的多个层之间的摄像机参数覆盖的问题，本发明的以实施例根据视角顺序索引来发信cp_present_flag和VPS中的摄像机参数。由于摄像机参数与不同的层相关，因此将摄像机参数发信至每一视角更合理。根据本实施例的一个语法设计范例如表10所示，增加一所有视角顺序索引的循环，并且将cp_present_flag和摄像机参数移动到视角顺序索引的循环中。在这种情况下，摄像机参数在层之间不会被覆盖，在相同视角中的摄像机参数可以共享。在本表中，复选标记“V”置于行的末尾，表明对常规设计进行的改变，新的语法以文本中的粗体和斜体的字体样式来突出，删除的语法是由一对“//*”和“*//”来表示的。

表10

在表10中，当cp_present_flag[viewidx]等于1时，表明vps_cp_scale [viewidx][j]、vps_cp_off[viewidx][j]、vps_cp_inv_scale_plus_scale[viewidx][j] 和vps_cp_inv_off_plus_off[viewidx][j]可能存在于具有ViewIdx等于viewidx的层，其中j等于VpsViewIdx[layerId]。当cp_present_flag[viewidx]等于0时，表明vps_cp_scale[viewidx][j]、vps_cp_off[viewidx][j]、 vps_cp_inv_scale_plus_scale[viewidx][j]和vps_cp_inv_off_plus_off[viewidx][j] 是不存在的，其中j等于VpsViewIdx[layerId]。当VpsDepthFlag[layerId]等于1 以及depth_refinement_flag[layerId]或view_synthesis_pred_flag[layerId]等于1 时，cp_present_flag[VpsViewIdx[layerId]]的值应该等于1。当不存在时， cp_present_flag[viewIdx]被推断为等于0。

当使用摄像机参数的编码工具为编码层启用时，与该编码层相关的特定视角的摄像机参数将被发信。换句话说，特定视角的cp_present_flag应等于1。例如，在表10中，当DoNBDV(即depth_refinement_flag[layerId])或VSP(即 view_synthesis_pred_flag[layerId])为纹理层启用(即VpsDepthFlag[layerId]) 时，该纹理层所属的视角的摄像机参数应该被发信(即， cp_present_flag[VpsViewIdx[layerId]]＝1)。对使用摄像机参数的编码工具的检查，并不限于对纹理层的检查。对深度层的检查，也可以被包括在确定摄像机参数的发信之中。

本发明的另一实施例，发信至片段头的摄像机参数，没有冗余，仅在如表 11所示的示例语法中所示的该层的视角顺序索引不等于0的条件下，该摄像机参数被发信至片段头中。在这种情况下，无论片段所在的层是纹理层还是深度层，由于在基本视角中的摄像机参数是不必要的，因此摄像机参数不会发信至基本视角中的层。在该表中，复选标记“V”置于行的末尾，表明对常规设计进行的改变，新的语法以文本中的粗体和斜体的字体样式来突出，删除的语法是由一对“//*”和“*//”来表示的。

表11

在本发明的另一实施例中，对cp_present_flag施加限制，其中，对于具有相同视角索引的先前层，如果cp_present_flag等于1，则将cp_present_flag[layerId] 设置为0，以防止现有摄像机参数的覆盖。具有层索引layerId的摄像机参数继承具有相同视角顺序索引的先前层的先前编码的摄像机参数。

根据本实施例的示例语法设计，如表12所示。当具有相同视角顺序索引 viewIdx的任何先前层的cp_present_flag等于1时，cp_present_flag[layerId]的值设置为0。如表13所示的片段头扩展，增加cp_present_flag[nuh_layer_id]的检查条件以进一步限制具有相同视角顺序索引的摄像机参数的编码。如果片段头扩展中的cp_in_slice_segment_header_flag是开启时，具有层id为nuh_layer_id 的当前层的摄像机参数继承具有相同视角顺序索引的其他层的先前编码的摄像机参数。在该表中，复选标记“V”置于行的末尾，表明对常规设计进行的改变，新的语法以文本中的粗体和斜体的字体样式来突出。

表12

在表12中，当cp_present_flag[layered]等于1时，表明对于具有nuh_layer_id等于layerId的层，VPS层级的摄像机参数可能存在，如vps_cp_scale[viewIdx] [j]、vps_cp_off[viewIdx][j]、vps_cp_inv_scale_plus_scale[viewIdx][j]和 vps_cp_inv_off_plus_off[viewIdx][j],其中j等于VpsViewIdx[layered]。当 cp_present_flag[layered]等于0时，这表明vps_cp_scale[viewIdx][j]、 vps_cp_off[viewIdx][j]、vps_cp_inv_scale_plus_scale[viewIdx][j]和 vps_cp_inv_off_plus_off[viewIdx][j]是不存在的，其中j等于 VpsViewIdx[layerId]。当VpsDepthFlag[layerId]等于1以及 depth_refinement_flag[layerId]或view_synthesis_pred_flag[layerId]等于1时， cp_present_flag[layerId]设置为1。当不存在时，cp_present_flag[layerId]被推断为0。当具有相同视角顺序索引的任何先前层的cp_present_flag等于1时，那么 cp_present_flag[layerId]设置为0。

表13

在本发明的另一实施例中，对于摄像机参数相关的语法元素施加限制，摄像机参数如cp_precision、cp_in_slice_segment_header_flag、 vps_cp_scale[viewIdx][j]、vps_cp_off[viewIdx][j]、 vps_cp_inv_scale_plus_scale[viewIdx][j]和 vps_cp_inv_off_plus_off[viewIdx][j]。例如，与具有相同视角顺序索引的各层的摄像机参数相关的所有语法元素应是相同的。

语法元素，cp_precision表明(specify)在VPS中的vps_cp_scale[viewIdx][j]、vps_cp_off[viewIdx][j]、vps_cp_inv_scale_plus_scale[viewIdx][j]和 vps_cp_inv_off_plus_off[viewIdx][j]以及在片段头中的cp_scale[i]、cp_off[i]、 cp_inv_scale_plus_scale[i]和cp_inv_off_plus_off[i]的精度。cp_precision的值可以设置的范围为0到5。

当cp_in_slice_segment_header_flag等于1时，表明语法元素 vps_cp_scale[viewIdx][j]、vps_cp_off[viewIdx][j]、 vps_cp_inv_scale_plus_scale[viewIdx][j]和vps_cp_inv_off_plus_off[viewIdx][j] 在视频参数设置中不存在。当camera_parameter_in_slice_header_flag等于0时，表明语法元素vps_cp_scale[viewIdx][j]、vps_cp_off[viewIdx][j]、 vps_cp_inv_scale_plus_scale[viewIdx][j]和vps_cp_inv_off_plus_off[viewIdx][j] 存在于片段头中。

语法元素vps_cp_scale[viewIdx][j]、vps_cp_off[viewIdx][j]、 vps_cp_inv_scale_plus_scale[viewIdx][j]和vps_cp_inv_off_plus_off[viewIdx][j] 表明转换深度值为视差值的转换参数。

当相同视角顺序索引的所有层中的VPS语法元素cp_precision、 cp_in_slice_segment_header_flag、vps_cp_scale[viewIdx][j]、 vps_cp_off[viewIdx][j]、vps_cp_inv_scale_plus_scale[viewIdx][j]和 vps_cp_inv_off_plus_off[viewIdx][j]存在时，相同视角顺序索引的所有层中的 VPS语法元素的值应相同。

在片段头扩展中，相同视角顺序索引的所有层中的语法元素cp_precision、cp_in_slice_segment_header_flag、vps_cp_scale[viewIdx][j]、 vps_cp_off[viewIdx][j]、vps_cp_inv_scale_plus_scale[viewIdx][j]和 vps_cp_inv_off_plus_off[viewIdx][j]的值应相同。

图7为根据控制标记自适应合成视频比特流中的摄像机参数的3D视频解码的流程图。如步骤710所示，系统接收与压缩3D视频数据相关的视频比特流。视频比特流可来自于存储器，如计算机存储器、缓冲区(RAM或DRAM)或其他媒体。视频比特流也可以来自于处理器，如控制器、中央处理单元、数字信号处理器或产生输入数据的电子电路。在步骤720中，确定控制标记；在步骤 730，如果控制标记指出该摄像机参数发信于当前层，从视频比特流中推导摄像机参数。在步骤740中，如果控制标记指出该摄像机参数发信于当前层，当前层的当前纹理数据或深度数据是使用摄像机参数从视频比特流解码得到的。在步骤750中，当前层中解码的当前纹理数据和深度数据从系统中输出。

图8为使用第一标记和第二标记以自适应控制视频比特流中每一层或每一视角的摄像机参数的存在和位置的3D视频编码和解码的流程图。如步骤810所示，系统接收与压缩3D视频数据相关的视频比特流。在步骤820中，为每一层或每一视角确定第一标记，其中第一标记指出在视频比特流中所述每一层或每一视角中的摄像机参数是否存在。在步骤830中，为每一层或每一视角确定第二标记，其中第二标记指出在视频比特流中所述每一层或每一视角的摄像机参数位置(camera parameter location)。在步骤840中，从第一标记指出所述每一层或每一视角的摄像机参数存在时的摄像机参数位置推导视频比特流中所述每一层或每一视角的摄像机参数。在步骤850中，所述每一层或每一视角的当前纹理数据和深度数据，是使用所述每一层或每一视角的摄像机参数从视频比特流解码得到的。在步骤860中，解码的当前纹理数据和深度数据从系统中输出。

上面的流程图是用来说明比特流中自适应摄像机参数发信的例子。本领域的技术人员可以修改每个步骤、重新安排步骤的顺序、拆分步骤或者结合某些步骤来实现本发明，而不脱离本发明的精神。

以上的描述是使本领域的技术人员在本文提供的特定应用和需求下能够实践本发明。本领域的技术人员将容易地观察到，在不脱离本发明的精神和范围内，可以进行多种修改和变动。因此，本发明并非限定在所示和描述的特定的实施例上，而本发明公开是为了符合原则和新颖性的最广泛的范围。在上述详细的描述中，各种具体的细节，用以提供对本发明的透彻的了解。尽管如此，将被本领域的技术人员理解的是，本发明能够被实践。

如上述所述的本发明的实施例，可以使用硬件、软件或其组合来实现。例如，本发明的一实施例可以是集成到视频压缩芯片中的电路或集成到视频压缩软件中的程序代码，以执行所描述的处理。本发明的实施例也可以是将在数字信号处理器上执行的程序代码来执行所描述的处理。本发明还涉及一系列的由计算机处理器、数字信号处理器、微处理器和现场可编程门阵列(FPGA)执行的功能。根据本发明，这些处理器可以被配置为执行特定任务，通过执行定义特定方法的计算机可读软件代码或固件代码来实现。软件代码或固件代码可以用不同的编程语言和不同的格式或样式来开发。软件代码也可以为不同的目标平台所编译。然而，软件代码的不同的代码格式、风格和语言，以及配置代码的其他方式以执行任务，均不脱离本发明之精神和范围。

本发明可以以其它具体形式实施而不背离其精神或本质特征。所描述的实施例在所有方面都仅是说明性的而不是限制性。本发明的范围因此由所附权利要求为准而不是由前面的描述所界定。因此，各种修改、改编以及所描述的实施例的各种特征的组合可以在不脱离本发明的范围如权利要求书中阐述的情况下实施。

Claims

1.一种视频解码器解码三维视频数据的方法，其特征在于，该方法包括：

接收与压缩的三维视频数据相关的视频比特流；

为每一层或每一视角确定第一标记，其中所述第一标记指出所述每一层或每一视角中的摄像机参数在所述视频比特流中是否存在；

为所述每一层或每一视角确定第二标记，其中所述第二标记指出所述视频比特流中所述每一层或每一视角的摄像机参数位置；

如果所述第一标记指出所述每一层或每一视角中存在所述摄像机参数，从所述摄像机参数位置推导所述视频比特流中的所述每一层或每一视角的所述摄像机参数；

使用所述每一层或每一视角的所述摄像机参数，从所述视频比特流解码所述每一层或每一视角的当前纹理数据或深度数据；以及

提供解码的当前纹理数据或深度数据。

2.如权利要求1所述的视频解码器解码三维视频数据的方法，其特征在于，在所述视频比特流中的所述摄像机参数被合并在所述视频比特流的序列层级、视角层级、图象层级或片段层级。

3.如权利要求1所述的视频解码器解码三维视频数据的方法，其特征在于，所述摄像机参数位于片段头，其中所述摄像机参数位置是从所述第一标记和所述第二标记的逻辑组合推导的。

4.如权利要求1所述的视频解码器解码三维视频数据的方法，其特征在于，多个第二标记用于指出所述每一层或每一视角的在所述视频比特流中的多个摄像机参数位置。

5.如权利要求4所述的视频解码器解码三维视频数据的方法，其特征在于，所述多个第二个标记是从所述每一视角的多个第一标记推导的。

6.如权利要求5所述的视频解码器解码三维视频数据的方法，其特征在于，如果选定的视角不存在所述摄像机参数，所述选定的视角的所述第一标记被推断为0。

7.如权利要求1所述的视频解码器解码三维视频数据的方法，其特征在于，相同视角顺序索引的所有层中的所述第一标记、所述第二标记和所述摄像机参数都是相同的。

8.如权利要求7所述的视频解码器解码三维视频数据的方法，其特征在于，如果所述摄像机参数发信于与当前层具有相同视角顺序索引的先前层，或所述第一标记指出在与所述当前层具有所述相同视角顺序索引的所述先前层中存在所述摄像机参数，所述当前层的所述第一标记被设置为指出所述当前层中不存在所述摄像机参数。

9.如权利要求8所述的视频解码器解码三维视频数据的方法，其特征在于，所述当前层的所述摄像机参数继承具有所述相同视角顺序索引的所述先前层的所述摄像机参数。

10.如权利要求1所述的视频解码器解码三维视频数据的方法，其特征在于，所述摄像机参数位于片段头，其中所述摄像机参数位置是基于视角顺序索引或所述视角顺序索引、层索引、所述第一标记和所述第二标记的逻辑组合推导的。

11.如权利要求10所述的视频解码器解码三维视频数据的方法，其特征在于，所述摄像机参数位置是基于所述视角顺序索引不等于0或所述层索引不等于0或1的条件。

12.一种视频编码器编码三维视频数据的方法，其特征在于，该方法包括：

接收与每一层或每一视角相关的当前纹理数据或深度数据；

将所述每一层或每一视角的第一标记合并到视频比特流中，其中所述第一标记指出在所述视频比特流中的所述每一层或每一视角是否存在摄像机参数；

将所述每一层或每一视角的第二标记合并到所述视频比特流中，其中所述第二标记指出在所述视频比特流中的所述每一层或每一视角的摄像机参数位置；

根据所述第一标记和所述第二标记，将与所述每一层或所述每一视角的所述摄像机参数相关的信息合并到所述视频比特流中；

使用所述每一层或每一视角的所述摄像机参数编码所述每一层或每一视角中的所述当前纹理数据或深度数据，生成压缩数据，以合并到所述视频比特流中；以及

提供所述视频比特流。