CN116472709A

CN116472709A - 用于视频编码和解码的装置和方法

Info

Publication number: CN116472709A
Application number: CN202180077818.1A
Authority: CN
Inventors: 朴时奈; 边柱衡; 沈东圭; 朴胜煜
Original assignee: Hyundai Motor Co; Industry Academic Collaboration Foundation of Kwangwoon University; Kia Corp
Current assignee: Hyundai Motor Co; Industry Academic Collaboration Foundation of Kwangwoon University; Kia Corp
Priority date: 2020-11-24
Filing date: 2021-11-23
Publication date: 2023-07-21
Also published as: KR20220071939A

Abstract

本发明涉及对已经以帧内块复制(IBC)模式编码的目标块进行解码的方法。该方法包括以下步骤：通过对用于确定要参考的参考区域以便分区目标块的第一语法元素和与目标块的分区类型相关的第二语法元素的至少一个进行解码来确定目标块的分区类型；根据分区类型对有关从目标块已经分区的一个或更多个子块的块矢量信息进行解码，并且通过利用块矢量信息来确定对应于子块的每个的块矢量；通过利用对应于子块的每个的块矢量，根据目标块所在的当前图像生成并组合一个或更多个预测块来预测目标块。

Description

用于视频编码和解码的装置和方法

技术领域

本发明涉及用于视频编码和解码的装置和方法。

背景技术

本部分中的陈述仅提供与本发明有关的背景技术信息，并不一定构成现有技术。

由于视频数据量大于语音数据量或静止影像数据量，因此在不进行压缩处理的情况下存储或传输视频数据需要大量的硬件资源(包括存储器)。

相应地，在存储或传输视频数据时，通常利用编码器来压缩视频数据，以便进行存储或传输。然后，解码器接收压缩的视频数据，解压并再现视频数据。用于这种视频的压缩技术包括视频多功能编码VVC以及H.264/AVC和HEVC，所述视频多功能编码VVC比高效率视频编码HEVC编码效率提高了大约30％。

然而，图像的大小、分辨率和帧速率逐渐增高，因此要编码的数据量也在增加，这需要一种与现有的压缩技术相比提供更好的编码效率和图像质量的显著改善的新的压缩技术。具体地，需要这样一种压缩技术，其能够对复杂纹理的图像更有效地进行编码，例如包含由于各种对象的存在而在方向上变化的边缘(对象之间的边界)的图像。

发明内容

技术课题

本发明提供了一种通过利用将块分割为正方形或矩形形状以及其他各种形状以IBC模式对目标块进行编码/解码的方法。此外，本发明提供了一种高效地编码关于块分割的信息的方法。

解决方法

本发明的一个方面提供了一种对以帧内块复制(intra block copy，IBC)模式编码的目标块进行解码的方法。该方法包括：通过至少对用于确定要被参考以分割目标块的参考区域的第一语法元素或与目标块的分割类型相关的第二语法元素进行解码来确定目标块的分割类型；根据分割类型对关于目标块被分割成的一个或更多个子块的块矢量信息进行解码，并且通过利用块矢量信息确定分别对应于子块的块矢量；以及通过利用分别对应于子块的块矢量，根据目标块所在的当前图像生成并组合一个或更多个预测块来预测目标块。

本发明的另一个方面提供了一种利用帧内块复制(IBC)模式对目标块进行编码的方法。该方法包括：确定目标块的分割类型；根据分割类型确定目标块被分割成的一个或更多个子块的块矢量；通过利用分别对应于子块的块矢量，根据目标块所在的当前图像生成并组合一个或更多个预测块来预测目标块；以及对关于分割类型的信息和关于一个或更多个子块的块矢量信息进行编码，其中，关于分割类型的信息至少包括用于确定要被参考以分割目标块的参考区域的第一语法元素或与目标块的分割类型相关的第二语法元素。

本发明的又一个方面提供了一种解码器可读记录介质，其用于存储包括利用帧内块复制(IBC)模式编码的目标块的编码的数据并且由视频解码方法解码的比特流。该视频解码方法包括：通过至少对用于确定要被参考以分割目标块的参考区域的第一语法元素或与目标块的分割类型相关的第二语法元素进行解码来确定目标块的分割类型；根据分割类型对关于目标块被分割成的一个或更多个子块的块矢量信息进行解码，并且通过利用块矢量信息来确定分别对应于子块的块矢量；以及通过利用分别对应于子块的块矢量，根据目标块所在的当前图像生成并组合一个或更多个预测块来预测目标块。

附图说明

图1是可以实现本发明技术的视频编码装置的框图。

图2示出利用四叉树加二叉树三叉树(QTBTTT)结构来对块进行分区的方法。

图3a和图3b示出包括宽角度帧内预测模式的多个帧内预测模式。

图4示出当前块的相邻块。

图5是可以实现本发明技术的视频解码装置的框图。

图6是根据本发明的实施方案的用于解释以IBC模式编码目标块的方法的顺序图。

图7是根据本发明的实施方案的用于解释对以IBC模式编码的目标块进行解码的方法的顺序图。

图8是根据本发明的实施方案的用于解释通过利用帧内预测模式映射来确定目标块的分割类型的方法的示例性示意图。

图9是根据本发明的实施方案的用于解释从对应于子块的块矢量生成目标块的预测块的方法的示例性示意图。

图10是根据本发明的实施方案的用于解释从对应于子块的块矢量生成目标块的预测块的另一种方法的示意图。

具体实施方式

在下文中，将参考所附说明性附图对本发明的一些实施方案进行详细描述。在下面的描述中，相同的附图标记优选地表示相同的元件，尽管元件在不同的附图中示出。此外，在一些实施方案的以下描述中，当认为相关的已知组件和功能的具体描述模糊了本发明的主题时，为了清楚和简洁起见，将省略对相关的已知组件和功能的具体描述。

图1是可以实现本发明技术的视频编码装置的框图。在下文中，参考图1的图示，对视频编码装置以及该装置的子组件进行描述。

编码装置可以包括：图像分割器110、预测器120、减法器130、变换器140、量化器145、重排单元150、熵编码器155、逆量化器160、逆变换器165、加法器170、环路滤波单元180和存储器190。

编码装置的每个组件可以实现为硬件或软件，或者实现为硬件和软件的组合。另外，每个组件的功能可以实现为软件，并且微处理器也可以实现为执行对应于每个组件的软件的功能。

一个视频由包括多个图像的一个或更多个序列组成。每个图像分割为多个区域，并且对每个区域执行编码。例如，一个图像分割为一个或更多个瓦片(tile)或/和切片(slice)。这里，一个或更多个瓦片可以定义为瓦片组。每个瓦片或/和切片分割为一个或更多个编码树单元(coding tree unit，CTU)。另外，每个CTU通过树结构分割为一个或更多个编码单元(coding unit，CU)。应用于每个CU的信息被编码为CU的语法，并且共同应用于包括在一个CTU中的CU的信息被编码为CTU的语法。另外，共同应用于一个切片中的所有块的信息被编码为切片头的语法，而应用于构成一个或更多个图像的所有块的信息被编码为图像参数集(Picture Parameter Set，PPS)或图像头。此外，多个图像共同参考的信息被编码为序列参数集(Sequence Parameter Set，SPS)。另外，一个或更多个SPS共同参考的信息被编码为视频参数集(Video Parameter Set，VPS)。此外，共同应用于一个瓦片或瓦片组的信息也可以被编码为瓦片或瓦片组头的语法。包括在SPS、PPS、切片头、瓦片或瓦片组头中的语法可以称为高级语法。

图像分割器110确定编码树单元(coding tree unit，CTU)的大小。关于CTU的大小的信息(CTU尺寸)被编码为SPS或PPS的语法，并且被传送至视频解码装置。

图像分割器110将构成视频的每个图像分割为具有预定大小的多个编码树单元(CTU)，然后通过利用树结构递归地分割CTU。树结构中的叶节点成为编码单元(CU)，所述CU是编码的基本单元。

树结构可以是四叉树(quadtree，QT)、二叉树(binarytree，BT)、三叉树(ternarytree，TT)、或者QT结构、BT结构和TT结构中的两个或更多个结构混合的结构，四叉树(quadtree，QT)中较高节点(或父节点)被分割为具有相同大小的四个较低节点(或子节点)，二叉树(binarytree，BT)中较高的节点分割为两个较低的节点，三叉树(ternarytree，TT)中较高的节点以1:2:1的比率分割为三个较低的节点。例如，可以使用四叉树加二叉树(quadtree plus binarytree，QTBT)结构，或者可以使用四叉树加二叉树三叉树(quadtreeplus binarytree ternarytree，QTBTTT)结构。这里，BTTT被添加到树结构以称为多类型树(multiple-type tree，MTT)。

图2是用于描述通过利用QTBTTT结构来对块进行分割的方法的示意图。

如图2所示，CTU可以首先分割为QT结构。四叉树分割可以是递归的，直到分割块的大小达到QT中允许的叶节点的最小块大小(MinQTSize)。由熵编码器155对指示QT结构的每个节点是否被分割为下层的四个节点的第一标志(QT_split_flag)进行编码，并将其用信号通知视频解码装置。当QT的叶节点不大于BT中允许的根节点的最大块大小(MaxBTSize)时，可以将叶节点进一步分割为BT结构或TT结构的至少一个。在BT结构和/或TT结构中可以存在多个分割方向。例如，可以存在两个方向，即，水平地分割相应节点的块的方向以及竖直地分割相应节点的块的方向。如图2所示，当MTT分割开始时，由熵编码器155对指示节点是否被分割的第二标志(mtt_split_flag)、以及在节点被分割的情况下额外指示分割方向(竖直或水平)的标志和/或指示分割类型(二叉或三叉)的标志进行编码，并将其用信号通知视频解码装置。

替选地，在对指示每个节点是否被分割为下层的四个节点的第一标志(QT_split_flag)进行编码之前，还可以对指示节点是否被分割的CU分割标志(split_cu_flag)进行编码。当CU分割标志(split_cu_flag)的值指示出每个节点没有被分割时，相应节点的块成为分割树结构中的叶节点并成为编码单元(CU)，CU是编码的基本单元。当CU分割标志(split_cu_flag)的值指示出每个节点被分割时，视频编码装置以上述方案对第一标志首先开始编码。

当QTBT用作树结构的另一个示例时，可以存在两种类型，即，将相应节点的块水平地分割为具有相同大小的两个块的类型(即，对称水平分割)以及将相应节点的块竖直地分割为具有相同大小的两个块的类型(即，对称竖直分割)。由熵编码器155对指示BT结构的每个节点是否被分割为下层的块的分割标志(split_flag)和指示分割类型的分割类型信息进行编码，并将其传送至视频解码装置。另一方面，可以另外存在相应节点的块被分割为彼此非对称形式的两个块的类型。非对称形式可以包括相应节点的块分割为大小比率为1:3的两个矩形块的形式，或者还包括相应节点的块在对角线方向上被分割的形式。

CU可以根据从CTU分割的QTBT或QTBTTT而具有各种大小。在下文中，与要编码或解码的CU(即，QTBTTT的叶节点)相对应的块称为“当前块”。当采用QTBTTT分割时，除了正方形形状之外，当前块的形状也可以是矩形形状。

预测器120对当前块进行预测以生成预测块。预测器120包括帧内预测器122和帧间预测器124。

通常，可以对图像中的当前块的每个进行预测地编码。通常，可以通过利用帧内预测技术(其利用来自包括当前块的图像的数据)或帧间预测技术(其利用来自在包括当前块的图像之前编码的图像的数据)执行当前块的预测。帧间预测包括单向预测和双向预测两者。

帧内预测器122通过利用在包括当前块的当前图像中位于当前块邻近的像素(参考像素)来预测当前块中的像素。根据预测方向，存在多个帧内预测模式。例如，如图3a所示，多个帧内预测模式可以包括包含平面(planar)模式和DC模式的两种非方向模式，并且可以包括65种方向模式。根据每种预测模式不同地定义要使用的相邻像素和算法等式。

为了对具有矩形形状的当前块进行高效的方向预测，可以额外地利用图3b中虚线箭头所示的方向模式(#67至#80，帧内预测模式#-1至#-14)。方向模式可以称为“宽角度帧内预测模式(wide angle intra-prediction modes)”。在图3b中，箭头指示用于预测的相应参考样本，而非代表预测方向。预测方向与箭头指示的方向相反。在当前块具有矩形形状时，宽角度帧内预测模式是在没有额外比特传输的情况下在与特定方向模式相反的方向上执行预测的模式。在这种情况下，在宽角度帧内预测模式中，可以通过具有矩形形状的当前块的宽度与高度的比率来确定可用于当前块的一些宽角度帧内预测模式。例如，在当前块具有高度小于宽度的矩形形状时，具有小于45度的角度的宽角度帧内预测模式(帧内预测模式#67至#80)是可用的。在当前块具有宽度大于高度的矩形形状时，具有大于-135度的角度的宽角度帧内预测模式是可用的。

帧内预测器122可以确定要用于对当前块进行编码的帧内预测。在一些示例中，帧内预测器122可以通过利用多个帧内预测模式来对当前块进行编码，并且还可以从测试模式中选择要使用的适当的帧内预测模式。例如，帧内预测器122可以通过利用对多个测试的帧内预测模式的率失真(rate-distortion)分析来计算率失真值，并且还可以在测试模式中选择具有最佳率失真特性的帧内预测模式。

帧内预测器122在多个帧内预测模式中选择一个帧内预测模式，并且通过利用根据选择的帧内预测模式确定的相邻像素(参考像素)和算法等式来预测当前块。由熵编码器155对关于选择的帧内预测模式的信息进行编码并将其传送至视频解码装置。

帧间预测器124通过利用运动补偿处理来生成当前块的预测块。帧间预测器124在比当前图像更早被编码和解码的参考图像中搜索与当前块最相似的块，并且通过利用搜索到的块来生成当前块的预测块。另外，生成运动矢量(motion vector，MV)，所述运动矢量对应于当前图像中的当前块与参考图像中的预测块之间的位移(displacement)。通常，对亮度(luma)分量执行运动估计，并且基于亮度分量计算的运动矢量用于亮度分量和色度分量两者。由熵编码器155对包括参考图像的信息和关于用于预测当前块的运动矢量的信息的运动信息进行编码，并将其传送至视频解码装置。

帧间预测器124还可以执行参考图像或参考块的插值，以增加预测的准确性。换句话说，通过向包括两个整数样本的多个连续整数样本应用滤波器系数来在两个连续整数样本之间插值子样本。在对插值的参考图像执行搜索与当前块最相似的块的处理时，对于运动矢量可以表示小数单位精度而不是整数样本单位精度。对于要编码的每个目标区域，例如，诸如切片、瓦片、CTU、CU等的单元，可以不同地设置运动矢量的精度或分辨率。当应用这种自适应运动矢量分辨率(adaptive motion vector resolution，AMVR)时，应该针对每个目标区域用信号通知关于要应用于每个目标区域的运动矢量分辨率的信息。例如，当目标区域是CU时，用信号通知关于针对每个CU应用的运动矢量分辨率的信息。关于运动矢量分辨率的信息可以是代表要在以下描述的运动矢量差的精度的信息。

另一方面，帧间预测器124可以通过利用双向预测来执行帧间预测。在双向预测的情况下，利用两个参考图像和代表与每个参考图像中的当前块最相似的块位置的两个运动矢量。帧间预测器124分别从参考图像列表0(RefPicList0)和参考图像列表1(RefPicList1)选择第一参考图像和第二参考图像。帧间预测器124还搜索与相应参考图像中的当前块最相似的块，以生成第一参考块和第二参考块。此外，通过对第一参考块和第二参考块进行平均或加权平均来生成当前块的预测块。此外，包括关于用于预测当前块的两个参考图像的信息和关于两个运动矢量的信息的运动信息被传送至熵编码器155。这里，参考图像列表0可以由预恢复图像中按显示顺序在当前图像之前的图像构成，并且参考图像列表1可以由预恢复图像中按显示顺序在当前图像之后的图像构成。然而，尽管不特别限于此，但可以将按显示顺序在当前图像之后的预恢复图像额外地包括在参考图像列表0中。相反，在当前图像之前的预恢复图像也可以额外地包括在参考图像列表1中。

为了最小化用于对运动信息进行编码所消耗的比特量，可以利用各种方法。

例如，在当前块的参考图像和运动矢量与相邻块的参考图像和运动矢量相同时，对能够识别相邻块的信息进行编码，以将当前块的运动信息传送至视频解码装置。这种方法称为合并模式(merge mode)。

在合并模式中，帧间预测器124从当前块的相邻块选择预定数量的合并候选块(在下文中，称为“合并候选”)。

作为用于推导合并候选的相邻块，可以利用与当前图像中的当前块邻近的左侧块A0、左下侧块A1、上侧块B0、右上侧块B1和左上侧块B2的全部或一些，如图4所示。此外，除了当前块所在的当前图像之外，位于参考图像内的块(其可以与用于预测当前块的参考图像相同或不同)也可以用作合并候选。例如，参考图像内的当前块的同位块(co-locatedblock)或与该同位块邻近的块可以额外地用作合并候选。如果通过上述方法选择的合并候选的数量小于预设数量，则将零矢量添加到合并候选。

帧间预测器124通过利用相邻块来配置包括预定数量的合并候选的合并列表。从合并列表中包括的合并候选之中选择要用作当前块的运动信息的合并候选，并且生成用于识别选择的候选的合并索引信息。由熵编码器155对生成的合并索引信息进行编码并将其传送至视频解码装置。

合并跳过模式是合并模式的特例。在量化之后，在用于熵编码的所有变换系数都接近零时，仅传输相邻块选择信息而不传输残差信号。通过利用合并跳过模式，对于具有轻微运动的影像、静止影像、屏幕内容影像等可以实现相对较高的编码效率。

此后，合并模式和合并跳过模式统称为合并/跳过模式。

用于编码运动信息的另一种方法是高级运动矢量预测(advanced motion vectorprediction，AMVP)模式。

在AMVP模式中，帧间预测器124通过利用当前块的相邻块来推导用于当前块的运动矢量的运动矢量预测候选。作为用于推导运动矢量预测候选的相邻块，可以利用与图4所示的当前图像中的当前块邻近的左侧块A0、左下侧块A1、上侧块B0、右上侧块B1和左上侧块B2的全部或一些。此外，除了当前块所在的当前图像之外，位于参考图像(其可以与用于预测当前块的参考图像相同或不同)内的块也可以用作用于推导运动矢量预测候选的相邻块。例如，可以利用参考图像内的当前块的同位块或与该同位块邻近的块。如果通过上述方法选择的运动矢量候选的数量小于预设数量，则将零矢量添加到运动矢量候选。

帧间预测器124通过利用相邻块的运动矢量来推导运动矢量预测候选，并且通过利用运动矢量预测候选来确定当前块的运动矢量的运动矢量预测。另外，通过将当前块的运动矢量减去运动矢量预测来计算运动矢量差。

可以通过将预定义函数(例如，中值和平均值计算等)应用于运动矢量预测候选来获取运动矢量预测。在这种情况下，视频解码装置还知道预定义功能。此外，由于用于推导运动矢量预测候选的相邻块是已经完成编码和解码的块，所以视频解码装置也可能已经知道相邻块的运动矢量。因此，视频编码装置不需要对用于识别运动矢量预测候选的信息进行编码。相应地，在这种情况下，对关于运动矢量差的信息和关于用于预测当前块的参考图像的信息进行编码。

另一方面，还可以通过选择运动矢量预测候选的任何一个的方案来确定运动矢量预测。在这种情况下，用于识别选择的运动矢量预测候选的信息与用于预测当前块的关于运动矢量差的信息以及关于参考图像的信息共同进行额外的编码。

减法器130通过将当前块减去由帧内预测器122或帧间预测器124生成的预测块来生成残差块。

变换器140将具有空域的像素值的残差块中的残差信号变换为频域的变换系数。变换器140可以通过利用残差块的整个大小作为变换单元来变换残差块中的残差信号，或者也可以将残差块分割为多个子块，并且通过利用子块作为变换单元来执行变换。替选地，将残差块划分成两个子块(即变换区域和非变换区域)，以通过仅利用变换区域子块作为变换单元来变换残差信号。这里，变换区域子块可以是基于水平轴线(或竖直轴线)的具有大小比率为1:1的两个矩形块的一个。在这种情况下，由熵编码器155对指示出仅变换子块的标志(cu_sbt_flag)、以及方向(竖直/水平)信息(cu_sbt_horizontal_flag)和/或位置信息(cu_sbt_pos_flag)进行编码，并将其用信号通知视频解码装置。另外，变换区域子块的大小基于水平轴线(或竖直轴线)可以具有1:3的大小比率，并且在这种情况下，由熵编码器155对划分相应分割的标志(cu_sbt_quad_flag)进行额外地编码，并将其用信号通知视频解码装置。

另一方面，变换器140可以在水平方向和竖直方向上单独地执行残差块的变换。对于该变换，可以利用各种类型的变换函数或变换矩阵。例如，用于水平变换和竖直变换的成对变换函数可以定义为多变换集(multiple transform set，MTS)。变换器140可以选择MTS中具有最高变换效率的一个变换函数对，并且在水平方向和竖直方向的每个上变换残差块。由熵编码器155对关于MTS中的变换函数对的信息(mts_idx)进行编码，并将其用信号通知视频解码装置。

量化器145利用量化参数对从变换器140输出的变换系数进行量化，并且将量化的变换系数输出到熵编码器155。量化器145还可以对相关的残差块立即进行量化，而无需对任何块或帧进行变换。量化器145还可以根据变换块中的变换系数的位置来应用不同的量化系数(缩放值)。可以对应用于布置为二维的量化的变换系数的量化矩阵进行编码，并将其用信号通知视频解码装置。

重排单元150可以对量化的残差值执行系数值的重新排列。

重排单元150可以通过利用系数扫描将2D系数阵列改变为1D系数序列。例如，重排单元150可以利用锯齿形扫描(zig-zag scan)或对角线扫描(diagonal scan)来扫描DC系数到高频区域系数，以输出1D系数序列。根据变换单元的大小和帧内预测模式，也可以利用在列方向上扫描2D系数阵列的竖直扫描和在行方向上扫描2D块类型系数的水平扫描来代替锯齿形扫描。换句话说，根据变换单元的大小和帧内预测模式，可以在锯齿形扫描、对角线扫描、竖直扫描和水平扫描中确定要使用的扫描方法。

熵编码器155通过利用包括基于上下文的自适应二进制算术编码(Context-basedAdaptive Binary Arithmetic Code，CABAC)、指数哥伦布(Exponential Golomb)等的各种编码方案来对从重排单元150输出的1D量化的变换系数的序列进行编码，以生成比特流。

此外，熵编码器155对与块分割相关的信息(例如，CTU大小、CTU分割标志、QT分割标志、MTT分割类型和MTT分割方向等)进行编码，以使得视频解码装置能够等同于视频编码装置来分割块。此外，熵编码器155对关于指示当前块是由帧内预测编码还是由帧间预测编码的预测类型的信息进行编码。熵编码器155根据预测类型对帧内预测信息(即，关于帧内预测模式的信息)或帧间预测信息(在合并模式的情况下的合并索引，以及在AMVP模式的情况下的关于参考图像索引和运动矢量差的信息)进行编码。此外，熵编码器155对与量化相关的信息(即，关于量化参数的信息和关于量化矩阵的信息)进行编码。

逆量化器160对从量化器145输出的量化的变换系数进行反量化，以生成变换系数。逆变换器165将从逆量化器160输出的变换系数从频域变换到空域，以恢复残差块。

加法器170将恢复的残差块和由预测器120生成的预测块相加，以恢复当前块。在对下一个块进行帧内预测时，恢复的当前块中的像素用作参考像素。

环路滤波单元180对恢复的像素执行滤波，以减少由于基于块的预测和变换/量化而发生的块伪影(blocking artifacts)、振铃伪影(ringing artifacts)、模糊伪影(blurring artifacts)等。作为环内滤波器的环路滤波单元180可以包括去块滤波器182、样本自适应偏移(sample adaptive offset，SAO)滤波器184和自适应环路滤波器(adaptive loop filter，ALF)186的全部或一些。

去块滤波器182对恢复的块之间的边界进行滤波，以去除由于块单元编码/解码而发生的块伪影(blocking artifacts)，并且SAO滤波器184和ALF 186对去块滤波的视频进行额外的滤波。SAO滤波器184和ALF 186是用于补偿由于有损编码(lossy coding)而发生的恢复的像素与原始像素之间的差异的滤波器。SAO滤波器184应用偏移作为CTU单位，以增强主观图像质量和编码效率。与此相反，ALF 186执行块单元滤波，并且通过划分相应块的边界和变化量的程度来应用不同的滤波器以补偿失真。可以对关于要用于ALF的滤波器系数的信息进行编码，并将其用信号通知视频解码装置。

通过去块滤波器182、SAO滤波器184和ALF 186滤波的恢复的块存储在存储器190中。当一个图像中的所有块被恢复时，恢复的图像可以用作用于对随后要被编码的图像内的块进行帧间预测的参考图像。

图5是可以实现本发明技术的视频解码装置的功能框图。在下文中，参考图5，描述了视频解码装置和该装置的子组件。

视频解码装置可以配置为包括熵解码器510、重排单元515、逆量化器520、逆变换器530、预测器540、加法器550、环路滤波单元560和存储器570。

类似于图1的视频编码装置，视频解码装置的每个组件可以实现为硬件或软件，或者实现为硬件和软件的组合。另外，每个组件的功能可以实现为软件，并且微处理器也可以实现为执行对应于每个组件的软件的功能。

熵解码器510通过解码由视频编码装置生成的比特流来提取与块分割相关的信息以确定要解码的当前块，并且提取恢复当前块所需的预测信息和关于残差信号的信息。

熵解码器510通过从序列参数集(SPS)或图像参数集(PPS)提取关于CTU大小的信息来确定CTU的大小，并且将图像分割为具有确定大小的CTU。此外，CTU被确定为树结构的最高层(即，根节点)，并且提取CTU的分割信息以通过利用树结构来分割CTU。

例如，当通过利用QTBTTT结构来分割CTU时，首先提取与QT的分割相关的第一标志(QT_split_flag)，以将每个节点分割为下层的四个节点。另外，相对于与QT的叶节点相对应的节点来提取与MTT的分割相关的第二标志(MTT_split_flag)、分割方向(竖直/水平)和/或分割类型(二叉/三叉)，以将相应的叶节点分割为MTT结构。结果，QT的叶节点下方的每个节点被递归地分割为BT或TT结构。

作为另一个示例，当通过利用QTBTTT结构来分割CTU时，提取指示是否分割CU的CU分割标志(split_cu_flag)。当分割相应块时，还可以提取第一标志(QT_split_flag)。在分割过程期间，对于每个节点，在递归QT分割0次或更多次之后可能发生0次或更多次的递归MTT分割。例如，对于CTU，MTT分割可以立即发生，或者相反，也可以仅发生多次QT分割。

作为另一个示例，当通过利用QTBT结构来分割CTU时，提取与QT的分割相关的第一标志(QT_split_flag)，以将每个节点分割为下层的四个节点。另外，提取指示将与QT的叶节点相对应的节点是否进一步分割为BT的分割标志(split_flag)以及分割方向信息。

另一方面，当熵解码器510通过利用树结构的分割来确定要解码的当前块时，熵解码器510提取关于指示当前块是被帧内预测还是被帧间预测的预测类型的信息。当预测类型信息指示帧内预测时，熵解码器510提取用于当前块的帧内预测信息(帧内预测模式)的语法元素。当预测类型信息指示帧间预测时，熵解码器510提取代表帧间预测信息的语法元素的信息，即，运动矢量和运动矢量参考的参考图像。

此外，熵解码器510提取量化相关的信息以及关于量化的当前块的变换系数的信息作为关于残差信号的信息。

重排单元515可以以由视频编码装置执行的系数扫描次序的相反次序，将由熵解码器510进行熵解码的1D量化的变换系数的序列再次改变为2D系数阵列(即，块)。

逆量化器520对量化的变换系数进行反量化，并且通过利用量化参数对量化的变换系数进行反量化。逆量化器520还可以向布置为2D的量化的变换系数应用不同的量化系数(缩放值)。逆量化器520可以通过将来自视频编码装置的量化系数(缩放值)的矩阵应用于量化的变换系数的2D阵列来执行反量化。

逆变换器530通过将反量化的变换系数从频域逆变换到空域来恢复残差信号，以生成当前块的残差块。

此外，当逆变换器530对变换块的部分区域(子块)进行逆变换时，逆变换器530提取仅对变换块的子块进行变换的标志(cu_sbt_flag)、子块的方向(竖直/水平)信息(cu_sbt_horizontal_flag)和/或子块的位置信息(cu_sbt_pos_flag)。逆变换器530还将相应子块的变换系数从频域逆变换到空域以恢复残差信号，并且用值“0”填充未被逆变换的区域作为残差信号，以生成当前块的最终残差块。

此外，当应用MTS时，逆变换器530通过利用从视频编码装置用信号通知的MTS信息(mts_idx)来确定在水平方向和竖直方向的每个上要应用的变换索引或变换矩阵。逆变换器530还通过利用确定的变换函数在水平方向和竖直方向上对变换块中的变换系数执行逆变换。

预测器540可以包括帧内预测器542和帧间预测器544。在当前块的预测类型是帧内预测时，激活帧内预测器542，而在当前块的预测类型是帧间预测时，激活帧间预测器544。

帧内预测器542根据从熵解码器510提取的帧内预测模式的语法元素来确定多个帧内预测模式中当前块的帧内预测模式。帧内预测器542还根据帧内预测模式通过利用当前块的相邻参考像素来预测当前块。

帧间预测器544通过利用从熵解码器510提取的帧间预测模式的语法元素来确定当前块的运动矢量和运动矢量参考的参考图像。

加法器550通过将从逆变换器输出的残差块与从帧间预测器或帧内预测器输出的预测块相加来恢复当前块。在对后续要被解码的块进行帧内预测时，恢复的当前块内的像素用作参考像素。

作为环内滤波器的环路滤波单元560可以包括去块滤波器562、SAO滤波器564和ALF 566。去块滤波器562对恢复的块之间的边界执行去块滤波，以便去除由于块单元解码而发生的块伪影。SAO滤波器564和ALF 566在去块滤波之后对恢复的块执行额外的滤波，以便补偿由于有损编码而发生的恢复的像素与原始像素之间的差异。通过利用关于从比特流解码的滤波器系数的信息来确定ALF的滤波器系数。

通过去块滤波器562、SAO滤波器564和ALF 566滤波的恢复的块存储在存储器570中。当一个图像中的所有块被恢复时，恢复的图像可以用作用于对随后要被编码的图像内的块进行帧间预测的参考图像。

以下公开涉及由上述视频编码和解码装置实现的编码和解码工具。

如上所述，传统的视频编码/解码技术采用每块视频编码/解码方法，并且块被限制为正方形或矩形形状。然而，由于在一个图像中存在各种边缘，例如对角线或弯曲的边缘，将编码单元限制为正方形或矩形形状会导致编码效率的降低。另一方面，当用对角线或曲线分割块时，为了代表作为划分块的边界的对角线或曲线，必须对大量数据进行编码，然后将其传输到视频解码装置，这也会降低编码效率。相应地，需要一种用于高效地编码分割信息的方法，以将块分割为各种形状以及正方形或矩形形状。

下面将要描述的本发明提供了一种通过利用某种类型的块分割(换句话说，几何块分割)来高效地编码包括各个方向的边缘的图像的方法。

在本发明的一些实施方案中，几何分割可以应用于帧内块复制(intra blockcopy，IBC)模式。这里，IBC模式是指这样的模式，其中确定指示在包括目标块的当前图像内与解码的区域中的目标块最相似的块的块矢量，并且利用由块矢量指示的区域中的重构像素来预测目标块。将关于块矢量的信息从视频编码装置用信号通知视频解码装置。视频解码装置根据接收到的关于块矢量的信息来确定块矢量，并且通过利用由块矢量指示的区域中的重构像素来预测目标块。

图6是根据本发明的实施方案的用于解释以IBC模式对目标块进行编码的方法的顺序图。

视频编码装置确定目标块的分割类型(S610)，并且根据确定的分割类型来确定目标块中的每个子块的块矢量(S620)。

视频编码装置通过利用分别对应于子块的块矢量，根据目标块所在的当前图像内的重构的区域生成并组合一个或更多个预测块来生成目标块的预测块(S630)。并且，对关于目标块的分割类型的信息和关于子块的块矢量信息进行编码(S640)。这里，关于分割类型的信息至少包括用于确定要被参考以分割目标块的参考区域的第一语法元素或与目标块的分割类型相关的第二语法元素。此外，视频编码装置通过将目标块减去预测块来生成残差块，并且在对残差块进行变换和量化之后对残差块进行编码。

视频解码装置通过解码从视频编码装置接收到的比特流来确定目标块的分割类型(S710)。如上所述，由视频编码装置编码和传输的比特流可以至少包括与目标块的分割类型相关的第一语法元素或第二语法元素。

一旦确定了目标块的分割类型，视频解码装置就根据确定的分割类型对关于目标块被分割成的一个或更多个子块的块矢量信息进行解码。并且，利用块矢量信息来确定分别对应于子块的块矢量(S720)。

视频解码装置通过利用子块的块矢量，生成并组合目标块所在的当前图像内的一个或更多个预测块来生成目标块的预测块(S730)。

之后，视频解码装置通过将从比特流重构的目标块的残差信号和预测块中的预测的像素值相加来重构目标块。

在下文中，将更详细地描述由视频解码装置执行的图7中的步骤。由于视频编码装置需要生成与视频解码装置相同的预测块，显然的是，由视频解码装置执行的用于生成预测块的以下要描述的处理也同样地应用于视频编码装置。

1.目标块的分割类型的确定

在一个实施方案中，第一语法元素可以用于确定目标块的分割类型。第一语法元素可以是用于指示当前图像内要参考的参考区域以便分割目标块的信息。视频解码装置通过利用第一语法元素来确定当前图像内的参考区域，并且通过利用对应于参考区域的解码的信息来推导目标块的分割类型。

作为示例，第一语法元素可以是指示当前图像内的参考区域的初始块矢量。视频解码装置将由初始块矢量指示的当前图像内的区域设置为参考区域。作为另一个示例，第一语法元素可以是用于选择从早于目标块被解码的解码的块推导的块矢量候选的一个的索引。解码的块可以是图4所示的邻近目标块的块。视频解码装置可以在块矢量候选中选择由索引指示的候选作为初始块矢量，并且通过利用初始块矢量来确定当前图像内的参考区域。

另一方面，对应于参考区域的解码的信息可以是显示参考区域的分割类型的信息。也就是说，视频解码装置可以以与参考区域相同的分割类型来分割目标块。

替选地，对应于参考区域的解码的信息可以是对应于参考区域的帧内预测模式。视频解码装置将当前图像内的解码的块的帧内预测模式存储在缓冲器中。可以为每个像素或为特定大小(例如，4×4)的每个块存储帧内预测模式。视频解码装置可以通过检查与由第一语法元素确定的参考区域相对应的帧内预测模式并且分析帧内预测模式来推断目标块的分割类型。

例如，视频解码装置可以将帧内预测模式分类为三个类别：方向模式、非方向模式和IBC模式。如果由第一语法元素确定的参考区域中的帧内预测模式属于两个或更多个类别，则视频解码装置可以通过利用用于区分参考区域中的不同类别的直线或曲线来推断目标块的分割类型。

视频解码装置可以通过将参考区域的方向模式中具有相似方向的模式分组为一个组来将方向模式细分为多个类别。例如，角度差为K度或更小的方向模式可以被分组到一个类别中。这里，角度K可以是在视频编码装置与视频解码装置之间商定的固定值，或者可以是包括在SPS、PPS、切片头等中的值，并且将其从视频编码装置传输到解码装置。

参考图8a，竖直方向模式和右下方对角线模式被存储在由第一语法元素确定的参考区域A中。参考区域中的帧内预测模式可以被分类为包括竖直方向模式的第一类别和包括右下方对角线模式的第二类别。相应地，如图8b所示，视频解码装置可以将目标块分割为对应于第一类别的子块和对应于第二类别的子块。

在用于确定目标块的分割类型的另一个实施方案中，第二语法元素可以与第一语法元素一起使用。在本实施方案中，由第一语法元素确定的分割类型是目标块的预测分割类型。换句话说，第一语法元素是显示要被参考以预测目标块的分割类型的参考区域的信息。另一方面，第二语法元素是显示索引差的信息。

视频解码装置通过利用第一语法元素来确定当前图像内的参考区域。并且，它在通过利用对应于参考区域的解码的信息定义的多个定义的分割类型中确定目标块的预测分割类型。这里，多个分割类型可以包括通过竖直线、水平线、对角线或曲线中的一个或更多个分割边界线将目标块分割为多个子块的类型。多个分割类型可以在视频编码装置和视频解码装置中被固定和预设。替选地，在确定多个分割类型之后，视频编码装置可以通过利用SPS、PPS、切片头等将它们用信号通知视频解码装置。

视频解码装置通过将由第二语法元素定义的索引差和对应于预测分割类型的索引来推导对应于目标块的分割类型的索引。并且，在多个分割类型中，由推导的索引指示的分割类型被确定为目标块的分割类型。

根据本实施方案，可以减少对多个分割类型中的目标块的分割类型的信息进行编码所需的比特量。在本实施方案中，由第一语法元素预测目标块的分割类型，并且对与预测的分割类型相对应的索引和与目标块的实际分割类型相对应的索引之间的索引差进行编码，从而提高编码效率。

在用于确定目标块的分割类型的另一个实施方案中，可以使用第二语法元素。在该实施方案中，第二语法元素可以是直接显示目标块的分割类型的信息。例如，第二语法元素可以是用于选择多个定义的分割类型的一个的索引，并且视频解码装置可以在多个分割类型中确定由第二语法元素指示的分割类型作为目标块的分割类型。

2.块矢量的确定

一旦以上述方式确定了目标块的分割类型，视频解码装置就根据分割类型对关于目标块被分割成的一个或更多个子块的块矢量信息进行解码。块矢量信息可以是每个子块的实际块矢量与前述初始块矢量之间的块矢量差。对于每个子块，视频解码装置通过将块矢量差和初始块矢量相加来计算对应于该子块的块矢量。

多个子块中要解码的第一子块的块矢量差可以不包括在块矢量信息中。在这种情况下，第一子块的块矢量差设置为0，并且相应地，第一子块的块矢量设置为初始块矢量。

另一方面，在目标块的分割类型仅由显示用于选择多个定义的分割类型的一个的索引的第二语法元素来确定的实施方案中，初始块矢量不存在。在该实施方案中，块矢量信息可以包括第一子块的块矢量以及第一子块的块矢量与除了第一子块之外的子块的块矢量之间的差(块矢量差)。视频解码装置对第一子块的块矢量进行解码，并且通过将第一子块的块矢量与差相加来推导另一个子块的块矢量。替选地，块矢量信息可以包括用于在从目标块的相邻块推导的块矢量候选中选择预测的块矢量的索引，以及显示相应子块的预测的块矢量与实际块矢量之间的差的每个子块的块矢量差。在从目标块的相邻块推导块矢量候选之后，视频解码装置将由索引指示的候选设置为预测的块矢量，并且通过将预测的块和块矢量差相加来确定对应于每个子块的块矢量。

3.目标块的预测块的生成

视频解码装置通过利用子块的块矢量来生成一个或更多个预测块，并且组合预测块以生成目标块的预测块。

在一个实施方案中，视频解码装置通过利用子块的块矢量为每个子块生成在大小和形状上与子块相同的预测块。并且，组合子块的预测块以生成目标块的预测块。例如，参考图9，视频解码装置通过利用目标块分割成的子块A的块矢量，从当前图像内的重构的区域生成在大小和形状上与子块A相同的预测块。以相同的方式生成子块B和C的预测块。并且，组合子块A至C的预测块以生成目标块的预测块。

在另一个实施方案中，视频解码装置可以通过利用对应于子块的块矢量，从当前图像内的重构的区域生成在大小和形状上与目标块相同的一个或更多个预测块。并且，视频解码装置通过计算利用块矢量生成的预测块的加权平均值来生成目标块的预测块。例如，目标块的预测块(i,j)可以通过利用等式1来生成：

[等式1]

B(i,j)＝(sub_B₁(i,j)*W₁(i,j)+sub_B₂(i,j)*W₂(i,j)+…

+sub_B_N(i,j)*W_N(i,j))<<p

这里，i和j代表像素的位置。如果目标块的宽度用L表示，其高度用M表示，则i和j分别具有为值0～L-1和值0～M-1。sub_B_k(i,j)代表利用对应于第k子块的块矢量生成的第k L×M预测块中(i,j)位置的像素值，并且W_k(i,j)代表对应于第k预测块中(i,j)位置的权重。“<<p”意味着当权重之和为2^p时，将sub_B_k(i,j)(k＝0,1,……,N)的加权值之和除以权重之和的移位操作。

将较大的权重值分配给与第k L×M预测块中的第k子块相对应的区域中的像素，并且像素越靠近子块的边界，权重变得越小。与对应于第k子块的区域相比，将更小的权重值分配给第k L×M预测块中除了第k子块之外的区域。除了第k子块之外的区域中的每个像素距离子块的边界越远，分配给每个像素位置的权重变得越小。

图10是根据本发明的实施方案的用于解释分配给从对应于子块的块矢量推导的预测块的权重的示意图。

假设大小为L×M的目标块被分割为子块X和子块Y。视频解码装置根据对应于子块X的块矢量生成大小为L×M的预测块sub_B₁并且根据对应于子块Y的块矢量生成大小为L×M的预测块sub_B₂。

图10a示出权重W₁对应于预测块sub_B₁内的每个像素位置，并且图10b示出权重W₂对应于预测块sub_B₂内的每个像素位置。在图10a和图10b中，权重的值由亮色调和暗色调指示。较暗的色调意味着较小的权重值。也就是说，随着颜色从黑色变成白色，权重可以从0逐渐增加到1。

参考图10a，由于预测块sub_B₁根据子块X的块矢量生成，较高的权重值被分配给预测块sub_B₁内对应于子块X的区域，并且较低的权重值被分配给对应于子块Y区域。参考图10b，由于预测块sub_B₂根据子块Y的块矢量生成，所以较高的权重值被分配给预测块sub_B₂内对应于子块Y的区域，并且较低的权重值被分配给对应于子块X的区域。

在以上内容中，已经描述了通过以IBC模式将目标块分割为各种特定形状来执行预测的方法。当目标块的宽度和高度大于预设阈值时，可以应用该方法。阈值可以分别设置为用于宽度和高度的不同值，或者设置为相同的值。

尽管描述了根据本实施方案的流程图，使得顺序地执行其中的每个处理，但是本发明不限于具体描述。换句话说，由于可以适用于在改变其执行顺序之后执行流程图中描述的步骤或者并行地执行一个或更多个步骤，所以流程图不限于执行的相继发生的顺序。

应当理解的是，可以以许多不同的方式来实现上述示例性实施方案。在一个或更多个示例中描述的功能可以实现为硬件、软件、固件或其任何组合。应当理解的是，本文中描述的功能组件已被标记为“单元”，以进一步强调其实施独立性。

另一方面，本发明的各种功能或方法可以实现为存储在非易失性记录介质中的指令，所述指令可以由一个或更多个处理器读取和执行。非易失性记录介质包括例如所有类型的记录器件，其中数据以计算机系统可读的形式存储。例如，非易失性记录介质包括存储介质，例如可擦除可编程只读存储器(EPROM)、闪存驱动器、光盘驱动器、磁性硬盘驱动器和固态驱动器(SSD)。

以上描述仅仅是对本发明的技术思想的说明，并且本发明所属领域的技术人员可以在不脱离本发明的基本特征的情况下进行各种修改和改变。因此，在本发明中公开的实施方案不旨在限制本发明的技术构思，而是描述本发明，并且本发明的技术构思的范围不局限于此。本发明的保护范围应该由权利要求来解释，并且在同等范围内的所有技术构思都应当解释为包括在本发明的范围中。

Claims

1.一种对以帧内块复制(IBC)模式编码的目标块进行解码的方法，所述方法包括：

通过至少对用于确定要被参考以分割目标块的参考区域的第一语法元素或与目标块的分割类型相关的第二语法元素进行解码来确定目标块的分割类型；

根据分割类型对关于目标块被分割成的一个或更多个子块的块矢量信息进行解码，并且通过利用块矢量信息来确定分别对应于子块的块矢量；以及

通过利用分别对应于子块的块矢量，根据目标块所在的当前图像生成并组合一个或更多个预测块来预测目标块。

2.根据权利要求1所述的视频解码方法，其中，确定目标块的分割类型包括：

通过利用第一语法元素来确定当前图像内的参考区域；以及

通过利用对应于参考区域的解码的信息来推导目标块的分割类型，

其中，对应于参考区域的解码的信息是显示参考区域的分割类型或对应于参考区域的帧内预测模式的分割信息。

3.根据权利要求2所述的视频解码方法，其中，第一语法元素是指示当前图像内的参考区域的初始块矢量。

4.根据权利要求2所述的视频解码方法，其中，所述第一语法元素是用于选择从在目标块之前被解码的已解码的块中推导的块矢量候选的一个的索引，

其中，推导目标块的分割类型包括：

通过利用索引从块矢量候选选择初始块矢量；以及

通过利用初始块矢量来确定参考区域，并且通过利用对应于参考区域的解码的信息来确定目标块的分割类型。

5.根据权利要求3或4所述的视频解码方法，其中，所述块矢量信息显示分别对应于子块的块矢量与初始块矢量之间的块矢量差。

6.根据权利要求2所述的视频解码方法，其中，所述第二语法元素是索引差，并且

其中，推导目标块的分割类型包括：

通过利用对应于参考区域的解码的信息，在多个定义的分割类型中选择预测分割类型；以及

通过将索引差和对应于预测分割类型的索引相加来确定多个分割类型中目标块的分割类型。

7.一种利用帧内块复制(IBC)模式对目标块进行编码的方法，所述方法包括：

确定目标块的分割类型；

根据分割类型来确定目标块被分割成的一个或更多个子块的块矢量；

通过利用分别对应于子块的块矢量，根据目标块所在的当前图像生成并组合一个或更多个预测块来预测目标块；以及

对关于分割类型的信息和关于一个或更多个子块的块矢量信息进行编码，

其中，关于分割类型的信息至少包括用于确定要被参考以分割目标块的参考区域的第一语法元素或与目标块的分割类型相关的第二语法元素。

8.根据权利要求7所述的视频编码方法，其中，目标块的分割类型确定为与从对应于参考区域的编码的信息推导的分割类型相同，参考区域由第一语法确定并且位于当前图像内，

其中，对应于参考区域的编码的信息是显示参考区域的分割类型或对应于参考区域的帧内预测模式的信息。

9.根据权利要求8所述的视频编码方法，其中，所述第一语法元素是指示当前图像内的参考区域的初始块矢量。

10.根据权利要求8所述的视频编码方法，其中，所述第一语法元素是用于选择从在目标块之前被编码的已编码的块中推导的块矢量候选的一个的索引，并且所述参考区域由通过利用索引从块矢量候选选择的初始块矢量指示。

11.根据权利要求9或10所述的视频编码方法，其中，所述块矢量信息显示分别对应于子块的块矢量与初始块矢量之间的块矢量差。

12.根据权利要求8所述的视频编码方法，其中，编码第二语法元素包括：

13.一种解码器可读记录介质，其用于存储包括利用帧内块复制(IBC)模式编码的目标块的编码的数据并且由视频解码方法解码的比特流，所述视频解码方法包括：