CN106464855A

CN106464855A - 提供高效率视频编码中基于深度的块划分的方法和设备

Info

Publication number: CN106464855A
Application number: CN201580028665.6A
Authority: CN
Inventors: 顾舟叶; 郑建铧; 林楠; 张臣雄
Original assignee: Huawei Technologies Co Ltd; Santa Clara University
Current assignee: Huawei Technologies Co Ltd; Santa Clara University
Priority date: 2014-06-26
Filing date: 2015-06-26
Publication date: 2017-02-22
Anticipated expiration: 2035-06-26
Also published as: WO2015200820A1; KR20170018386A; EP3162055A1; JP6407423B2; US10057586B2; EP3162055A4; CN106464855B; US20150382025A1; KR101894512B1; JP2017526315A; EP3162055B1

Abstract

高效率视频编码中基于深度的块划分通过使用二值分割掩码将视频画面块划分(1102)为不同分区来提供。执行确定(1108)：是否过滤位于分区之间的边界的像素。当与所述特定像有关的垂直面和水平面中的每个邻近像素具有相同值时，不过滤(1110)特定像素。当与所述特定像素有关的垂直面和水平面中的任何邻近像素的值不同于与所述特定像素有关的垂直面和水平面中的任何其它邻近像素的值时，过滤(1112)所述特定像素。依据过滤过程(1114)过滤像素，以响应过滤确定。

Description

提供高效率视频编码中基于深度的块划分的方法和设备

技术领域

本发明大体上涉及高效率视频编码技术，尤其涉及一种用于提供高效率视频编码(High Efficiency Video Coding，HEVC)中基于深度的块划分的方法和设备。

背景技术

在当前3D HEVC标准的基于深度的块划分(Depth Based Block Partitioning，DBBP)中，并列纹理块的任意形状的块划分是从通过相应的深度块计算的二值分割掩码中获得的。两个分区均为运动补偿分区，然后可根据基于深度的二值分割掩码通过将这两个分区平均来进行合并。然后应用过滤过程。当前，对合并后的分区应用了不必要的过滤过程。

发明内容

根据上文所述，本领域技术人员可以了解的是，有必要简化由三维视频编码器和解码器中的帧间预测单元执行的像素过滤。根据本发明，提供了一种用于提供高效率视频编码中基于深度的块划分的方法和设备，从而大幅减少并基本上消除与传统编码器和解码器处理实现相关的问题。

根据实施例，通过基于与当前纹理块对应的深度块获得二值掩码来提供一种用于提供高效率视频编码中基于深度的块划分的方法，其中二值掩码用于纹理块划分。当前纹理块根据二值掩码划分。检查与位于所述当前纹理块中不同分区之间的块分区边界的特定像素有关的垂直和水平面中的二值掩码的邻近像素的值。根据邻近像素的值执行像素处理以过滤所述特定像素。当与所述特定像素有关的垂直和水平面中的每个相邻像素具有相同值时，不过滤所述特定像素。当与所述特定像素有关的垂直和水平面中的任何相邻像素的值不同于与所述特定像素有关的垂直面和水平面中的任何其它相邻像素的值时，过滤所述特定像素。。根据过滤过程过滤所述特定像素，以响应过滤确定。

本发明通过传统视频编码技术描述了许多技术优点。例如，一个技术优点是简化了在执行基于深度的块划分之后过滤边界像素的条件数量。另一个技术优点是对满足过滤条件的那些像素实施特定过滤过程。对本领域技术人员而言，通过下面的附图说明、具体实施方式和权利要求书，其它技术优点将是显而易见和容易识别的。

附图说明

为了更完整地理解本发明及其优点，现在参考下文结合附图进行的描述，相同的数字表示相同的对象，其中：

图1示出了高效率视频编码(High Efficiency Video Coding，HEVC)中实现的四叉树编码结构；

图2示出了一个图示可实现深度数据编码技术的视频编码器的示例的方框图；

图3示出了一个图示可实现深度数据编码技术的视频解码器的示例的方框图；

图4示出了具有描绘二值分割掩码的生成的编码单元的放大组件块的测试序列；

图5示出了由二值分割掩码创建的两个分区的合并功能；

图6示出了用于分区边界处的特定像素的平均过滤技术；

图7示出了对两个分区的边界像素执行的简单过滤技术；

图8A至图8D示出了可能对边界像素上的过滤过程的应用检查的四个过滤条件；

图9A至图9B示出了图8A至图8D的检查条件的进一步简化；

图10示出了图9A至图9B的检查条件简化技术的替代；

图11示出了执行基于深度的块划分的过程；

图12所示为与二值分割掩码有关的叠加的预测单元形状；以及

图13示出了适用于执行基于深度的块划分的简化的通用计算组件。

具体实施方式

以下列出的图1至图13和说明以及该专利文档中的各种实施例仅通过举例说明的方式描述本发明的原理，而不应以任何方式理解为对本发明范围的限制。本领域技术人员将理解的是，本发明的原理可通过任何一种设置合理的设备和系统实现。一个图中显示和论述的特点可适当地在一个或多个其它图中实现。

一般情况下，本发明涉及依据HEVC标准使用各种深度编码模式对三维(three-dimensional，3D)视频数据的深度数据进行编码和解码的技术。3D视频数据的捕捉视图(例如纹理)与描述纹理数据的深度数据的对应深度图相关。根据3D视频编码过程，诸如3D-HEVC过程，纹理视图和深度图可编码和多路复用为3D视频比特流。

图1所示为在高效率视频编码(High Efficiency Video Coding，HEVC)中实现的四叉树编码结构。HEVC标准使用高度灵活的四叉树编码结构，在该结构中，视频图像或帧可分为一系列包括亮度(Y)和色度(Cb、Cr)样本的编码树单元(Coding Tree Units，CTU)。CTU大小可从编码器中的64x64、32x32和16x16选择，并在序列参数集(sequence parameterset，SPS)中指定。CTU用作编码树的根，四叉树的每片叶子称为编码单元(Coding Unit，CU)。因此，一个CTU可分为多个CU，且每个CU指定一个编码类别：帧内编码或帧间编码。CU还可进一步分为一个、两个或四个预测单元(Prediction Units，PU)，他们携带供预测的基本信息。为了有效的预测，HEVC定义了两个帧内PU和八个帧间PU形状，以支持可变大小PU。帧内PU可能具有2Nx2N和NxN形状。帧间PU形状包括两个正方形形状2Nx2N和NxN，两个矩形形状2NxN和Nx2N，以及分别位于上、下、左、右位置的四个不对称形状2NxnU、2NxnD、nLx2N和nRx2N。每个CU的残差块可使用四叉树结构进行变换，该四叉树结构通常称为残差四叉树(residual quadtree，RQT)，由转换单元(Transfer Units，TU)组成，尺寸范围从4×4高达32×32。TU包含用于空间块变换和量化的系数，从而对预测画面和实际画面之间的残差进行编码。

编码器通过详尽计算选择最佳编码树结构、PU分幅和RQT配置。为了评估每个候选配置的压缩效率，编码器通常使用拉格朗日乘数优化技术，该技术以J＝D+λR表示，其中，J为拉格朗日率失真(rate distortion，RD)成本函数，D为用针对原始样本的重构样本的平方误差的和表示的失真增益，R为熵编码的比特率，λ为拉格朗日公式中连接R和D的拉格朗日乘数。RD成本的最小化过程称为率失真优化(rate-distortion optimization，RDO)，通过该优化，将比特率与失真进行平衡，从而达到压缩效率与图像质量之间的权衡。

编码效率是以最低可能的比特率对视频进行编码同时保持某种水平的视频质量的能力。所述编码器使用RDO处理来选择具有最小值的帧内编码模式。RDO处理非常省时，主要有两个原因。第一个原因是有许多CU/PU/TU组合。例如，仅在帧内预测模式编码时，要执行35次RD成本计算过程才能判定某个PU的模式，因为一个PU可使用包括DC(平面)模式、二维(曲面拟合)模式以及33个角度模式的35个帧内预测模式之一进行编码。第二个原因是RD成本计算的计算量非常惊人。为了获得精确的D和R，对于每个候选模式，由所述编码器执行的所述RD成本计算包含帧内预测、残差计算、变换、量化、熵编码、反变换、反量化、像素重构以及最终的RD成本计算。

一般情况下，HEVC编码器将帧压缩成可进行存储或传输的压缩视频比特流。编码过程以将单个图像或帧划分成多个CTU开始，CTU可进一步划分为多个CU。在将帧内的图像划分之后，预测过程就开始，其中CU在该过程中进一步划分为PU。所述HEVC编码器使用两种类型的预测，即帧内预测和帧间预测。帧内预测从相邻图像数据中，即从相同的图像帧中对PU进行预测。帧间预测使用运动补偿预测对从在当前显示，即流中的其它图像帧之前或之后发现的图像中的画面数据中引用的PU进行预测。预测后剩余的任何数据使用离散余弦变换(Discrete Cosine Transform，DCT)放入块中。原始块与其预测之间的差通过线性空间变换进行变换。所述HEVC编码器将这些块应用到每个CU中的剩余数据。最后，编码比特流通过一个称为熵编码的过程使用基于上下文的自适应二进制算数编码(Context AdaptiveBinary Arithmetic Coding，CABAC)进行进一步编码。这是最后一步，在该步骤中，所述HEVC编码器排列变换数据并将变换数据压缩到其单独组件，即运动向量、预测模式、划分信息以及其它头数据。在进行缩放、量化和熵编码之后，变换系数同预测信息一起传输。此时，视频已压缩，并可存储。

在视频传输之后，HEVC解码器对数据进行解码，以查看视频源中的图像。通过熵解码，所述HEVC解码器抽取编码后序列的元素。重新缩放和逆转编码过程的变换阶段，图像的单元将恢复到其原始形式，即预测单元，然后预测将添加到逆变换的输出。

最后一步是查看运动图像，这是解码后视频的重构过程，以便于查看。编码器复制解码器处理环路，以便所述编码器和解码器都对后续数据生成一致预测。量化变换系数通过逆缩放进行构建，然后进行逆变换，以复制残差信号的解码后近似值。然后，将残差添加到预测，然后可将添加的结果发送到一个或两个环路滤波器中，从而消除由分块处理和量化所引起的效应。最后的图像表征(即解码器的输出的副本)存储到解码图像缓冲区中，以用于对后续图像进行预测。

图2为图示可实现深度数据编码技术的视频编码器200的示例的方框图。正如本文所披露的，视频编码器200代表可用于执行3D-HEVC中深度图的简化编码模式传送的技术的设备。视频编码器200可执行视频片内的视频块的帧内和帧间编码。帧内编码依赖于空间预测，以减少或除去给定视频帧或图像内的视频中的空间冗余。帧间编码依赖于时间预测，以减少或除去视频序列的相邻帧或图像内的视频中的时间冗余。帧内预测模式(I模式)可指几种基于空间的编码模式的任何一种。帧间预测模式，诸如单向预测(P模式)或双向预测(B模式)，可指几种基于时间的编码模式的任何一种。除对每个视图的纹理图(即亮度值和色度值)进行编码外，视频编码器200还可对每个视图的深度图进行进一步编码。

视频编码器200可包括视频数据存储器202、模式选择单元204、解码图像缓冲器(decoded picture buffer、DPB)206、加法器208、变换处理单元210、量化单元212以及熵编码单元214。依次地，模式选择单元204包括运动补偿单元220、运动估计单元222、帧内预测单元224和分区单元226。对于视频块的重构，视频编码器200还包括逆量化单元230、逆变换单元232和加法器234。还可包含去块滤波器240，以过滤块边界和除去重构后视频中的方块效应。如果需要，去块滤波器240通常过滤加法器234的输出。除去块滤波器之外，还可使用其它滤波器(内环路或后环路)。此类滤波器还滤波加法器208(如内环路滤波器)的输出。示例滤波器可包括自适应环路滤波器、样本自适应偏移(sample adaptive offset，SAO)滤波器或其它类型的滤波器。

视频编码器200接收待编码的视频帧内的当前视频块。视频数据存储器202可存储待由视频编码器200的组件进行编码的视频数据。例如，可从视频源中获得视频数据存储器202中存储的视频数据。解码图像缓冲区206可以是存储参考视频数据的参考图像存储器，以便视频编码器200对视频数据进行编码时使用，例如在帧内编码模式或帧间编码模式下。视频数据存储器202和解码图像缓冲区206可由各种存储器设备，如动态随机存取存储器(dynamic random access memory，DRAM)，包括同步DRAM(synchronous DRAM，SDRAM)、磁阻RAM(magnetoresistive RAM，MRAM)或其它类型的存储器设备的任何一种构成。视频数据存储器202和解码图像缓冲区206可由相同的存储器设备或单独的存储器设备提供。在各种示例中，视频数据存储器202可与视频编码器200的其它组件一样位于芯片上，或位于相对于这些组件的芯片外。

在编码过程中，视频编码器200接收待编码的视频帧或视频片。帧或片可分为多个视频块。运动估计单元222和运动补偿单元220对相对于一个或多个参考帧中的一个或多个块的接收到的视频块执行帧间预测编码，从而提供时间预测。或者，帧内预测单元224可对相对于与待编码的块相同的帧或片内的一个或多个相邻块的接收到的视频块执行帧内预测编码，从而提供空间预测。视频编码器200可执行多个编码通道，从而为视频数据的每个块选择适当的编码模式。

此外，分区单元226可基于在前一个编码通道中对前一个划分方案进行的评估，将视频数据的块划分成子块。例如，分区单元226最初可将帧或片划分成LCU，然后基于率失真(例如率失真优化)将每个LCU划分成子CU。模式选择单元204还可生成一个四叉树数据结构，指示将LCU划分成子CU。四叉树的叶节点CU可包括一个或多个PU以及一个或多个TU。模式选择单元204可根据错误结果选择帧内或帧间编码模式之一，将得到的帧内或帧间编码块提供给加法器208，以生成残差块数据，并提供给加法器234，以重构用作参考帧的编码后块。模式选择单元204还为熵编码单元214提供语法元素，诸如运动向量、帧内编码模式指示符、分区信息和其它此等语法信息。

运动估计单元222和运动补偿单元220可高度集成，但是出于概念目的分别说明。运动估计单元222所执行的运动估计是生成运动向量的过程，所述运动向量估计视频块的运动。例如，运动向量可指示相对于参考帧(或其它编码单元)内的预测块的当前视频帧或图像内的视频块的PU的位移，其中所述参考帧内的预测块相对于当前帧(或其它编码单元)内正在编码的当前块。

预测块是根据像素差发现与待编码的块紧密匹配的块，该像素差可通过绝对差值和(sum of absolute difference，SAD)、方差值和(sum of square difference，SSD)或其它不同度量进行确定。在某些示例中，视频编码器200可计算解码图像缓冲区206内存储的参考图像的分段整数像素位置的值。例如，视频编码器200可内插参考图像的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此，运动估计单元222可执行有关全像素位置和分数像素位置的运动搜索，并输出具有分数像素精度的运动向量。

运动估计单元222通过将PU的位置与参考图像的预测块的位置进行比较，来计算帧间编码片内视频块的PU的运动向量。可从多个参考图像列表的一个列表中选择参考图像，每个列表确认在解码图像缓冲区206中存储的一个或多个参考图像。运动估计单元222为熵编码单元214和运动补偿单元220生成计算的运动向量。

运动补偿单元220所执行的运动补偿可包含基于运动估计单元222所确定的运动向量获取或生成预测块。在接收当前视频块的PU的运动向量之后，运动补偿单元220可将预测块定位到运动向量在任一参考图像列表中指向的位置。加法器208通过从当前正在编码的视频块的像素值中减去预测块的像素值来形成残差视频块，从而形成像素差值。一般情况下，运动估计单元222执行相对于亮度组件的运动估计，运动补偿单元220将基于亮度组件计算得到的运动向量用于色度组件和亮度组件。模式选择单元204还可生成与视频块和视频片相关的语法元素以供解码视频片的视频块时使用。

帧内预测单元224可对当前块进行帧内预测，作为运动估计单元222和运动补偿单元220所执行的帧间预测的替代。具体而言，帧内预测单元224可确定帧内编码模式以用来对当前块进行编码。在某些示例中，帧内预测单元224可在单独的编码通道过程中等使用各种帧内预测模式对当前块进行编码，而帧内预测单元224(或模式选择单元204，在某些示例中)可从测试模式中选择要使用的适当的帧内编码模式。

例如，帧内预测单元224可使用率失真分析对各种测试帧内编码模式计算率失真值，并从测试模式中选择具有最佳率失真特点的帧内编码模式。率失真分析一般确定编码后块和原始未编码块之间的失真(或误差)量，对原始未编码块进行编码可生成编码后块，同时比特率或位数用于生成编码后块。帧内预测单元224可计算各种编码后块的失真比率和速率，以确定哪个帧内编码模式显示块的最佳率失真值。

此外，帧内预测单元224可用于对深度图的深度块进行编码。例如，帧内预测单元224可使用基础(2D)HEVC标准中的帧内预测模式、区域边界链编码模式(chain codingmode，CCM)、简化或分段深度编码模式(segment-wise depth coding mode，SDC)或者深度模型模式(depth modeling mode，DMM)对深度片的帧内预测PU进行编码。在某些示例中，运动估计单元222和运动补偿单元220还可用于对深度图的深度块进行编码。运动估计单元222和运动补偿单元220可根据基础(2D)HEVC标准或帧间SDC模式执行帧间预测，从而对深度片的帧间预测PU进行编码。

变换处理单元210将变换应用于残差块，生成残差变换系数的块。变换可将残差信息从像素值域转换到变换域，诸如频域。变换处理单元210可执行变换，如离散余弦变换(discrete cosine transforms，DCT)或概念上类似于DCT的其它变换。还可使用小波变换、整数变换、子带变换或其它类型的变换。变换处理单元210可将得出的变换系数发送到量化单元212。在某些示例中，可跳过变换过程。

量化单元212量化变换系数，以进一步降低比特率。量化过程可降低与部分或全部系数相关的位深度。量化的度可通过调整量化参数进行修改。在某些示例中，量化单元212然后可执行包括量化变换系数的矩阵的扫描。或者，熵编码单元214可执行扫描。

量化后，熵编码单元214对量化变换系数进行熵编码。例如，熵编码单元214可执行基于上下文的自适应二进制算数编码(context adaptive binary arithmetic coding，CABAC)或其它熵编码过程，如基于上下文的自适应变长编码(context adaptive variablelength coding，CAVLC)、基于语法的上下文自适应二进制算数编码(syntax-basedcontext-adaptive binary arithmetic coding，SBAC)或概率区间划分熵(probabilityinterval partitioning entropy，PIPE)编码。在基于上下文的熵编码中，上下文可基于相邻块。在熵编码单元214进行熵编码后，可将编码后比特流发送给另一台设备(例如视频解码器300)或进行归档以作稍后传输或检索。

逆量化单元230和逆变换单元232分别应用逆量化和逆变换在像素域中重构残差块，以稍后用作参考快。运动补偿单元220可通过将残差块添加到解码图像缓冲区206的其中一个帧的预测块来计算参考块。运动补偿单元220还可将一个或多个内插滤波器应用到重构后的残差块中来计算分段整数像素值，以便在运动估计中使用。

加法器234将重构后的残差块添加到由运动补偿单元220生成的运动补偿预测块中来生成重构后的视频块，以便在编码图像缓冲区206中存储。重构后的视频块可由运动估计单元222和运动补偿单元220用作参考块，以在后续视频帧中对块进行帧间编码。

根据本发明描述的技术，视频编码器200可用于使用3D视频编码过程中可用的深度帧内编码模式对3D视频数据的深度数据进行编码。在一个示例中，视频编码器200传送用于对深度模型表中的3D视频数据的深度数据进行编码的深度帧内编码模式。深度模型表为与HEVC帧内编码模式的语法分离的附加深度帧内编码模式传送语法。此外，视频编码器200传送语法元素，如标志，以指示是否对3D视频数据启用不同于HEVC帧内编码模式的任一深度帧内编码模式。在某些示例中，语法元素可指示是否对3D视频数据启用所有深度帧内编码模式。语法元素可包括在视频参数集(video parameter set，VPS)、序列参数集(sequence parameter set，SPS)或视频数据的图像参数集(picture parameter set，PPS)中的一个。当启用深度帧内编码模式时，由视频编码器200传送的标志指示视频解码器300对深度模型表进行解码，从而确定用于对深度数据进行编码的任一深度帧内编码模式。深度模型表可在视频数据的编码单元(coding unit，CU)级别或预测单元(prediction unit，PU)级别之一进行编码。根据本发明的技术，视频编码器200的传送可通过传送与HEVC帧内编码模式分离的深度模型表中的深度帧内编码模式以及指示何时启用深度帧内编码模式和何时对深度模型表进行解码来减轻解码器解析负担。

在另一示例中，视频编码器200可用于使用跨两个或多个深度编码模式统一的语法元素集，传送3D视频数据的深度数据的残差信息。深度编码模式可包括深度帧内编码模式和深度帧间编码模式。语法元素集可包括指示是否对任一深度编码模式编码残差值的语法元素。语法元素集还可包括指示绝对值和任一深度编码模式的残差值的语法元素。通过共享相同的语法元素集来指示两个或多个深度编码模式的残差信息，视频编码器200还可统一每个共享的语法元素的上下文模型选择和二进制化方法。此外，对于深度帧内编码模式，视频编码器200可确定在深度数据的残差值生成期间不过滤相邻参考样本。根据本发明的技术，视频编码器200的编码机制和传送可通过统一深度编码模式的残差信息语法，减轻解码器解析负担并减少所需上下文模型和二进制化方法的数量。

图3为图示可能实现深度数据编码技术的视频解码器300的示例的方框图。视频解码器300包括视频数据存储器302、熵解码单元304、运动补偿单元306、帧内预测单元308、逆量化单元310、逆变换单元312、解码图像缓冲区(decoded picture buffer，DPB)314和加法器316。视频解码器300表示可用于执行如本文所提供的3D-HEVC中深度图的简化编码模式传送的技术的设备。

视频数据存储器302可存储待由视频解码器300的组件解码的视频数据，诸如编码视频比特流。例如，视频数据存储器302中存储的视频数据可从计算机可读介质，例如从本地视频源，诸如照相机，通过视频数据的有线或无线网络通信或者通过访问物理数据存储介质获取。视频数据存储器302可形成一个存储编码视频比特流中的编码视频数据的编码图像缓冲区(coded picture buffer，CPB)。解码图像缓冲区314可以是存储参考视频数据的参考图像存储器，以便在视频编码器300按帧内或帧间编码模式对视频数据进行解码时使用。视频数据存储器302和解码图像缓冲区314可由各种存储器设备，如动态随机存取存储器(dynamic random access memory，DRAM)，包括同步DRAM(synchronous DRAM，SDRAM)、磁阻RAM(magnetoresistive RAM，MRAM)或其它类型的存储器设备的任何一种构成。视频数据存储器302和解码图像缓冲区314可由相同的存储器设备或单独的存储器设备提供。在各种示例中，视频数据存储器302可与视频解码器300的其它组件一样位于芯片上，或位于相对于这些组件的芯片外。

在解码过程中，视频解码器300从视频编码器200接收表示编码视频片的视频块的编码视频比特流和相关语法元素。熵解码单元304对比特流进行熵解码，以生成量化系数、运动向量、帧内编码模式指标和其它语法元素。视频解码器300可接收视频片级别和/或视频块级别的语法元素。除对每个视图的纹理图(即亮度值和色度值)进行解码外，视频解码器300还可对每个视图的深度图进行解码。

当视频片编码为帧内编码(I)片时，帧内预测单元308可基于传送帧内编码模式和当前帧或图像的先前解码后块的数据，生成当前视频片的视频块的预测数据。帧内预测单元308还可对深度数据进行帧内编码。例如，帧内预测单元308可使用基础(2D)HEVC标准中的帧内预测模式、区域边界链编码模式(chain coding mode，CCM)、简化深度编码或分段深度编码模式(segment-wise depth coding mode，SDC)或者深度模型模式(depth modelingmode，DMM)对深度片的帧内预测PU进行编码。

在视频帧编码为帧间编码(即B或P)片时，运动补偿单元306基于运动向量和从熵解码单元304中接收到的其它语法元素，为当前视频片的视频块生成预测块。预测块可由其中一个参考图像列表内的其中一个参考图像生成。视频解码器300可基于解码图像缓冲器314中存储的参考图像，使用默认的构建技术构建参考帧列表。

运动补偿单元306通过解析运动向量和其它语法元素对当前视频片的视频块确定预测信息，并使用该预测信息为正在解码的当前视频块生成预测块。例如，运动补偿单元306使用部分接收到的语法元素来确定用于对视频片的视频块进行编码的预测模式(例如帧内预测或帧间预测)、帧间预测片类型(例如B片或P片)、视频片的一个或多个参考图像列表的构建信息、视频片的每个帧间编码视频块的运动向量、视频片的每个帧间编码视频块的帧间预测状态以及其它信息，以对当前视频片中的视频块进行解码。

运动补偿单元306还可基于内插滤波器执行内插。运动补偿单元306可使用在视频块的编码期间视频编码器200所用的内插滤波器来计算参考块的分段整数像素的内插值。在这种情况下，运动补偿单元306可确定接收到的语法元素中视频编码器200所用的内插滤波器，并使用该内插滤波器生成预测块。运动补偿单元306还可对深度数据进行帧间编码。例如，运动补偿单元306可根据基础(2D)HEVC标准或帧间SDC模式执行帧间预测，从而对深度片的帧内预测PU进行编码。

逆量化单元310对比特流中提供的并由熵解码单元304解码的量化变换系数进行逆量化，即解量化。逆量化过程可包括由视频解码器300对视频片中每个视频块计算的量化参数QP_Y的使用，从而确定量化度，否则应用逆量化度。逆变换单元312应用逆变换，例如逆DCT、逆整数变换或概念上类似地逆变换过程来变换系数，以在像素域中生成残差块。

在运动补偿单元306或帧内预测单元308基于运动向量或其它语法元素为当前视频块(例如纹理块或深度块)生成预测块之后，视频解码器300通过将逆变换单元312中的残差块与由运动补偿单元306或帧内预测单元308生成的对应预测块相加形成解码视频块。加法器316表示执行此等加法操作的组件。

如果需要，去块效应滤波器还可用于过滤解码后块，以消除方块效应。其它环路滤波器(或者在编码环路中，或者在编码环路后)还可用于对像素过渡进行平滑处理，或者改进视频质量。然后，给定帧或图像中的解码视频块存储在解码图像缓冲区314中，所述解码图像缓冲区存储用于后续运动补偿的参考图像。解码图像缓冲区314还存储视频，以便在显示设备上作后期演示。

运动补偿单元220和运动补偿单元306可执行基于深度的块划分(Depth BasedBlock Partitioning，DBBP)，所述基于深度的块划分将块分成不同的分区。并列纹理块的任意形状的块划分基于并列(虚拟)深度图中计算的二值分割掩码获得。两个分区的每一个分区都可进行运动补偿，随后可根据基于深度的分割掩码进行合并。DBBP过程中的最后一步是过滤位于所述分区边界的像素。如本文所述，尽管划分为前景和后景目标区域，但是纹理块可以通过二值分割掩码所指定的任何需要的方式进行划分。

在初始步骤中，纹理组件的当前编码树块(coded tree block，CTB)的并列深度块分割成两个任意形状的分段。由于深度组件在当前常见测试配置(Common TestConfiguration，CTC)中的相应纹理视图后进行编码，因此虚拟深度图从基准视图的重构深度中获得，并按视差向量进行移位。视差向量用于定位相同时间点的已编码图像中的当前CU/PU的相应块。视差向量最初从CU的时间和空间视差补偿预测编码邻近块的运动向量获得，或者从与CU的运动补偿预测编码相邻块相关的视差向量获得。然后，视差向量从基准视图的深度图获得。视差向量用于确认已编码的深度视图中的深度块和执行反向扭曲，以进一步改进获得的视差向量的精确度。所获得的视差向量称为面向深度的基于相邻块的视差向量(depth oriented neighboring block based disparity vector，DoNBDV)。

在获得视差向量和确认参考视图中的相应深度块之后，基于所述相应深度块内的全部深度样本的平均值计算阈值。(虚拟)深度图的分割基于一个非常简单的阈值机制来执行，在该机制中，阈值根据平均深度值进行计算。

这里，2N定义了当前纹理块的宽度/高度，d(x，y)近似已编码的、参考视图的纹理帧的相应深度图。随后，基于深度值和阈值d生成二值分割掩码m_D(x,y)，如下所示。

图4示出了具有描绘二值分割掩码的生成的编码单元的放大组件块的测试序列。并列深度块将块划分为前景和后景区域，从而获得二值分割掩码m_D(x,y)。所得的二值分割掩码的平均值定义了纹理块的划分的形状。当位于相关坐标(x，y)的深度值大于阈值时，二值掩码m_D(x,y)设为1。当位于相关坐标(x，y)的深度值小于阈值时，二值掩码m_D(x,y)设为0。

在DBBP模式中，实际的运动或视差补偿基于2Nx2N划分执行，这意味着全部CTB按编码的向量信息进行移位。此全尺寸运动/视差补偿执行两次，一次是针对每个分段执行，从而获得两个预测信号p_T0(x,y)和p_T1(x,y)。因此，两组向量信息需要对DBBP块进行编码。这种方法的背后有一种假设，即纹理块通常基于并列深度块分成前景和后景。然后，这两个深度层可通过其自身的运动向量组或视差向量组进行独立补偿。

在对DBBP编码的块生成两个全尺寸预测信号p_T0(x,y)和p_T1(x,y)后，分割掩码m_D(x,y)用于将这两个信号合并成当前纹理CTB的最终预测信号p_T(x,y)，如下所示：

图5所示为合并功能。对于两个解码后运动参数的每一个参数，执行2Nx2N运动补偿。所得的预测信号p_T0(x,y)和p_T1(x,y)使用DBBP掩码m_D(x,y)进行合并。通过将两个预测信号合并，来自深度图的形状信息允许对相同纹理块中的前景和后景目标进行独立补偿。同时，DBBP不需要逐像素运动/视差补偿。对于DBBP编码的块而言，存储器访问参考缓冲区总是定期的(基于块)。此外，DBBP总是使用全尺寸的块进行补偿。这对复杂度更可取，因为查找内存缓存中的数据的概率更高。

在上述描述中，DBBP将块划分为前景和后景目标区域。在生成每个分区的预测信号之后，边界样本过滤用于更改边界样本的强度值。在边界样本过滤方法中，基于当前边界样本的相邻样本的检查条件用于确定边界样本过滤是否用于更改当前边界样本的强度值。如果满足检查条件，过滤技术则应用于当前边界样本。过滤技术可基于使用多个位置样本生成当前位置的更新值，作为过滤的样本值。所述多个位置样本包括当前边界样本的相邻位置样本，也包括或不包括当前边界样本。

图6所示为在分区边界适用于特定像素的平均过滤技术。在基于块执行现代视频编码器(例如在HEVC中)中的运动或视差补偿时，任意形状的块划分通常需要基于像素的补偿。在根据合并过程生成上述预测信号之后，在由分割掩码定义的边界分区对像素执行水平或垂直过滤过程。就分区附近的前景或后景像素而言，在过滤时已尝试平均两个分区的像素的值。然而，并列像素不归类为前景或后景像素。因此，在边界附近可能造成失真。

图7所示为对边界像素p和q执行的简单过滤技术，而不是图6的平均技术。过滤方向基于PU尺寸。对Nx2N执行水平过滤，对2NxN执行垂直过滤。如图所示，一个分区中的一个边界样本具有位置p，另一个分区中的边界样本具有位置q。相邻位置为p-1和q-1。对于每个颜色组件I，位置p和位置q的强度值可进行如下更改：

I’_p＝((I_p-1)+(I_p)<<1+(I_q))>>2

I’_q＝((I_p)+(I_q)<<1+(I_q+1))>>2

其中，p-1、p、q和q+1均为同一行的连续样本，I’_p和I’_q为过滤后位置p和位置q的新强度值。符号>>表示右位移操作符(或两个乘法的幂)，符号<<表示左位移操作符(或两个乘法的幂)，伴随确认两个乘法因数的幂的整数值。对于每个当前样本位置，沿水平过滤方向或垂直过滤方向的两个最近的相邻样本位置用于判定当前样本位置是否为边界样本。如果根据二值分割掩码为两个相邻样本分配了相同的值，则当前样本位置确认为边界样本位置。本过滤过程以更高效的方式平滑处理任意分区周围的区域。

图8A至图8D所示为可检查像素过滤过程的四个过滤条件。可进一步简化边界过滤过程，在该过程中不需要对每个像素位置执行过滤。可基于相邻像素位置的掩码值建立过滤条件。过滤掩码应用于每个像素位置。过滤掩码适用于左、右、上、下、和中央位置，其中当前像素位置位于掩码的中心。在图8A至8D中，哈希表示具有相同值的位置。图8A所示为左和右像素位置与水平行中的当前中央像素位置共享相同的掩码值，而上和下像素位置与垂直列中的当前中央像素位置不共享相同的掩码值。图8B所示为上和下像素位置与垂直列中的当前中央像素位置共享相同的掩码值，而左和右像素位置与水平行中的当前中央像素位置不共享相同的掩码值的情况。图8C所示为左、右、上、下像素位置与当前中央像素位置全部共享相同的掩码值的情况。图8D所示为左和右像素位置与水平行中的当前中央像素位置不共享相同的掩码值，而上和下像素位置与垂直列中的当前中央像素位置不共享相同的掩码值的情况。

对于在二值分割掩码的边界的每个像素位置，将左、右、上、下像素位置的值与当前中央像素位置的值进行比较，从而确定应用哪种过滤过程。

对于图8A中显示的情况，过滤过程可以是

I’_c＝((I_t)+(I_c)<<1+(I_b))>>2。

对于图8B中显示的情况，过滤过程可以是

I’_c＝((I_l)+(I_c)<<1+(I_r))>>2。

对于图8C中显示的情况，不执行过滤，而且

I’_c＝(I_c)。

对于图8D中显示的情况，过滤过程可以是

I’_c＝((I_l)+(I_r)+(I_c)<<2+(I_t)+(I_b))>>3。

图9A至图9B所示为过滤过程的进一步简化。掩码检查过程可减少到四个位置和两种过滤情况，而不是检查五个位置和四种过滤情况。在图9A至图9B中，仅检查与当前像素位置(即有关当前中央像素位置的左、右、上、下像素位置)有关的垂直面和水平面中的与当前像素位置相邻的像素的值。当前中央像素位置不包含在检查条件之内。图9A所示为左、右、上、下像素位置共享相同掩码值的情况。图9B所示为左、右、上、下像素位置不共享相同掩码值的情况。

对于图9A中显示的情况，不执行过滤，而且

I’_c＝(I_c)。

对于图9B中显示的情况，过滤过程可以是

I’_c＝((I_l)+(I_r)+(I_c)<<2+(I_t)+(I_b))>>3。

尽管已显示了具体的过滤过程，但是过滤过程可能存在差异，包括使用某些系数和/或使用某些强度值作为过滤过程的一部分。过滤过程可包括任何其它所需计算中的计算，如平均、加权平均和中值过滤。

表1所示为使用HEVC的常见测试配置(Common Test Configuration，CTC)的测试结果。如表1所示，使用图9A至图9B的过滤条件未引起BD比特率损失。

表1

图10所示为检查条件和过滤过程的替代技术。用于过滤条件检查的掩码不限于左、右、上、下和中央位置。与其(即当前像素的左上、右上、左下和右下位置)有关的垂直面中的左和右位置相邻的位置的掩码还可用于检查条件和过滤过程。一个示例过滤过程可如下所示：

I’_c＝(I_l+I_r+I_t+I_b+I_tl+I_tr+I_bl+I_br+(I_c<<3))>>4。

每个位置或特定位置组合的值可确定是否执行过滤以及应用哪个过滤过程。

在另一实施例中，可根据过滤过程中的需要应用过滤系数。一个使用过滤系数的示例过滤过程可如下所示：如：

I’_c＝a₁(I_l)+a₂(I_r)+a₃(I_c)+a₄(I_t)+a₅(I_b)。

如果a₁＝a₂＝a₃＝a₄＝a₅＝1/5，则过滤像素值I’_c将为像素I_l、I_r、I_c、I_t、和I_b的平均值。任何实数都可用作过滤系数。

在另一实施例中，选择边界样本(例如左和下、上和右、上和左或者右和下)的定向位置来确定边界样本的检查条件。然而，由于当前中央像素位置不适于在一个分区区域中进行划分，所以当前中央像素位置不包含在确定检查条件中。

在另一实施例中，两个分区均为运动补偿分区，然后可根据基于深度的分割掩码通过将这两个分区平均进行合并。在平均后，这两个分区的边界以上述描述的任何方式进行过滤，以获得更好的重构质量。

在另一实施例中，用于边界过滤的滤波器不限于平滑滤波器/低通滤波器。在其他滤波器，如中值滤波器和高斯滤波器中可使用其它过滤技术。

上述描述的各种实施例仅为可应用于DBBP的检查条件和过滤过程的示例。此外，这些实施例不互相排斥，因为在对像素位置执行检查条件和过滤过程时可应用两个或多个实施例的特点。

如上段所述，DBBP要求对两组运动信息进行编码，一组运动信息对应每个分区段。现代视频编码器，如HEVC，允许在编码树单元(coding tree unit，CTU)内使用矩形、非方形划分模式，以执行细粒度运动补偿。对于CTU中的每个分区，对一组单独的运动信息进行编码。此编码方式在基于深度的块划分中重复使用。

图11所示为根据本发明执行基于深度的块划分的过程1100。过程1100在步骤1102处开始，在该步骤中视频画面块划分为前景和后景目标区域。在步骤1104中，对前景和后景目标区域执行运动补偿。在步骤1106处，前景和后景目标区域进行合并。在合并过程中，可选择对边界像素的强度值求平均值。在步骤1108处，对前景和后景目标区域的边界上的每个像素进行确定：是否执行过滤过程来调整特定像素的强度值。上述描述的一个或多个检查条件可应用于确定是否应用滤波过程。如果不应用过滤过程，则在步骤1110处保持像素的强度值。如果要执行过滤，则在步骤1112处选择过滤参数和过滤过程。然后在步骤1114处对特定像素应用所述过滤过程来获得强度值。

图12所示为关于二值分割掩码叠加的PU形状。在获得每个DBBP分段的最优运动/视差信息之后，此信息映射到上述HEVC的可用矩形、非方形划分模式之一。二值分割掩码到六个可用二分段划分模式之一的映射可通过关联分析来执行。对于每个可用划分模式i∈[0,5]，生成2个二值掩码m_2i(x,y)和m_T2i+1(x,y)，其中m_2i+1(x,y)是m_2i(x,y)的求反。为了查找当前基于深度的分割掩码M_D(x,y)的最佳匹配分割模式i_opt，执行下述算法：

Boolean变量b_inv定义了获得的分割掩码m_D(x,y)是否需要进行求逆。这在传统划分模式的标引是对分割掩码中的标引的互补的某些案例中可能是必要的。在传统划分模式中，索引0定义了当前块的左上角中的分区，而分割掩码中的相同索引定义了具有较低深度值(后景目标)的分段。为了调整m_D(x,y)和i_opt之间相应组运动信息的定位，如果设置了b_inv，则反转m_D(x,y)中的标引。

在找到最佳匹配的现有划分模式后，根据此最优模式i_opt存储和编码运动信息。在获得运动向量候选以进行先进运动向量预测(advanced motion vector prediction，AMVP)或运动向量合并时，传统上后继编码单元(coding unit，CU)可访问已编码的运动信息。

将单个标志添加到编码语法中，从而传送到解码器，通知块使用DBBP进行预测。显而易见的选择是对全部传统划分模式发送此标志。但是此方法会对不使用DBBP的块产生不必要的编码开销。因此，DBBP编码块的划分模式在对划分模式进行编码之前设为2NxN。然后，仅对2NxN划分后的块，在比特流中对DBBP标志进行编码。对于全部其它划分模式，未对DBBP标志进行编码。在解码器侧，真实的(传统)划分在已对DBBP标志进行解码后获得。解码器处的全部进一步处理步骤保持与HEVC基础规范中的步骤一致。

图13示出了简化的通用计算组件1300，其适用于实施本文本所揭示的一项或多项实施例。上文所描述的视频编码器200和视频解码器300的组件可以在任何通用计算组件上实施，例如，具有足够处理能力、存储器资源以及用于处理放置在其上的必需的工作负荷的网络吞吐能力的计算机或网络组件。计算组件1300包括处理器1302(可称为中央处理器单元或CPU)，所述处理器与包含以下项的存储器装置进行通信：辅助存储装置1304、只读存储器(read only memory，ROM)1306、随机存取存储器(random access memory信RAM)1308、输入/输出(input/output，I/O)装置1310，以及网络/组件连接装置1312。处理器1302可作为一个或多个CPU芯片实施，或者可为一个或多个专用集成电路(application specificintegrated circuits，ASIC)的一部分。

辅助存储器1304通常包括一个或多个磁盘驱动器或磁带驱动器，用于数据的非易失性存储，而且如果RAM 1308的容量不足以存储所有工作数据，辅助存储器则用作溢流数据存储设备。辅助存储器1304可以用于存储程序，当选择执行这些程序时，所述程序将加载到RAM 1308中。ROM 1306可用于存储在程序执行期间读取的指令以及可能读取的数据。ROM1306为非易失性存储设备，其存储容量相对于辅助存储器1304的较大存储容量而言通常较小。RAM 1308用于存储易失性数据，还可能用于存储指令。通常情况下，同时访问ROM1306和RAM1308比访问辅助存储器1304更快。可基于视频编码器200和视频解码器300内的每个组件的功能包含附加处理器和存储器设备。

在某些实施例中，一个或多个所述设备的部分或全部功能或流程由计算机可读程序代码构成的且内嵌于计算机可读介质中的计算机程序来实现或提供支持。术语“代码”包括任意类型的计算机代码，包括源代码、目标代码以及可执行代码。术语“计算机可读介质”包括任何类型的可以被计算机访问的非易失性介质，比如，只读存储器(read onlymemory，ROM)、随机存取存储器(random access memory，RAM)、硬盘驱动器、光盘(compactdisc，CD)、数字化视频光盘(digital video disc，DVD)或者任何其他类型的存储器。

为本专利文档中使用的特定术语和短语进行定义是有帮助的。术语“包括”和“包含”以及它们的派生词表示没有限制的包括。术语“或者”是包容性的，意为和/或。短语“与……关联”和“与其关联”以及其派生的短语意味着包括，被包括在内、与……互连、包含、被包含在内、连接到或与……连接、耦合到或与……耦合、可与……通信、与……配合、交织、并列、接近、被绑定到或与……绑定、具有、具有……属性，等等。

虽然本发明就某些实施例和一般相关方法方面进行了描述，但是对本领域技术人员而言，对实施例和方法的各种更改和变更将是显而易见和容易识别的。因此，示例实施例的上述描述不限定或约束本发明。正如以下权利要求定义，其它修改、替代以及变更也是可能的，而不偏离本发明的范围。

Claims

1.一种用于为高效率视频编码中基于深度的块划分提供块分区边界过滤的方法，其特征在于，包括：

基于与当前纹理块对应的深度块获得二值掩码，其中所述二值掩码用于纹理块划分；

根据所述二值掩码划分所述当前纹理块；

检查与位于所述当前纹理块中不同分区之间的块分区边界的特定像素有关的垂直面和水平面中的所述二值掩码的邻近像素的值；

根据所述邻近像素的值执行像素处理以过滤所述特定像素；

根据所述像素处理更新所述特定像素的值。

2.根据权利要求1所述的方法，其特征在于，对所述块分区边界处的所述特定像素执行所述像素处理包括：

确定是否基于与所述特定像素有关的垂直面和水平面中的所述二值掩码的所述邻近像素的所述值过滤所述特定像素。

3.根据权利要求2所述的方法，其特征在于，确定是否过滤所述特定像素还包括：

当与所述特定像素有关的垂直面和水平面中的每个邻近像素具有相同值时，不过滤所述特像定素，或者

当与所述特定像素有关的垂直面和水平面中的任何邻近像素的值不同于与所述特定像素有关的垂直面和水平面中的任何其它邻近像素的值时，过滤所述特定像素。

4.根据权利要求1所述的方法，其特征在于，当与所述特定像素有关的垂直面和水平面中的每个邻近像素具有相同值时，所述特定像素的值保留其当前值。

5.根据权利要求1所述的方法，其特征在于，所述特定像素的值基于每个邻近像素的值进行调整。

6.根据权利要求2，其特征在于，所述方法还包括：

使用与所述特定像素的左和右像素邻近的垂直面中的像素来确定是否过滤所述特定像素。

7.根据权利要求2，其特征在于，所述方法还包括：

使用与所述特定像素的上和下像素邻近的垂直面中的像素来确定是否过滤所述特定像素。

8.根据权利要求1所述的方法，其特征在于，为调整所述特定像素的所述值所执行的所述像素处理包括至少一个平均、加权平均和中值过滤计算。

9.一种用于为高效率视频编码中基于深度的块划分提供块分区边界过滤的设备，其特征在于，包括：

用于存储数据和指令的存储器；以及

处理器，在执行所述指令时用于：

根据所述二值掩码划分所述当前纹理块；

根据所述邻近像素的值执行像素处理以过滤所述特定像素；

根据所述像素处理更新所述特定像素的值。

10.根据权利要求9所述的设备，其特征在于，对所述块分区边界处的所述特定像素执行所述像素处理包括：

11.根据权利要求10所述的设备，其特征在于，确定是否过滤所述特定像素还包括：

12.根据权利要求9所述的设备，其特征在于，当与所述特定像素有关的垂直面和水平面中的每个邻近像素具有相同值时，所述特定像素的值保留其当前值。

13.根据权利要求9所述的设备，其特征在于，所述特定像素的值基于每个邻近像素的值进行调整。

14.根据权利要求10所述的设备，其特征在于，所述处理器还用于：

15.根据权利要求10所述的设备，其特征在于，所述处理器还用于：

16.根据权利要求1所述的设备，其特征在于，为调整所述特定像素的所述值执行所述像素处理包括平均、加权平均和中值过滤计算中的至少一个。

17.一种包括用于为高效率视频编码中基于深度的块划分提供块分区边界过滤的编码的非暂时性计算机可读介质，所述编码根据执行可操作：

根据所述二值掩码划分所述当前纹理块；

检查与位于所述当前纹理块中不同分区之间的块分区边界的特定像素有关的所述二值掩码的邻近像素的值，以确定是否基于与所述特定像素有关的垂直面和水平面中的所述二值掩码的邻近像素的所述值过滤所述特定像素；

根据所述邻近像素的值执行像素处理以过滤所述特定像素；

根据所述像素处理更新所述特定像素的值。

18.根据权利要求17所述的计算机可读介质，其特征在于：

当与所述特定像素有关的垂直面和水平面中的每个邻近像素具有相同值时，所述特定像素的值保留其当前值；

当与所述特定像素有关的垂直面和水平面中的任何邻近像素具有与任何其它邻近像素不同的值时，调整所述特定像素的值。

19.根据权利要求17所述的计算机可读介质，其特征在于，邻近所述特定像素的左和右像素的垂直面中的像素用于确定是否过滤所述特定像素。

20.根据权利要求17所述的计算机可读介质，其特征在于，为调整所述特定像素的值所执行的所述像素处理包括至少一个平均、加权平均和中值过滤计算。