CN113273204A

CN113273204A - 帧间预测方法和使用该方法的图片解码装置

Info

Publication number: CN113273204A
Application number: CN201980088133.XA
Authority: CN
Inventors: 罗太英; 李善暎; 高京奂; 孙世勋; 金在一
Original assignee: SK Telecom Co Ltd
Current assignee: SK Telecom Co Ltd
Priority date: 2018-11-14
Filing date: 2019-11-14
Publication date: 2021-08-17
Anticipated expiration: 2039-11-14
Also published as: US20210274164A1; CN113273204B; US11671584B2; KR20200056272A

Abstract

公开了一种帧间预测方法和使用该方法的图片解码装置。本发明的实施方式提供了一种帧间预测方法，该方法包括以下步骤：从比特流中提取合并候选标志和偏移信息；从包括当前块的相邻块作为合并候选的合并候选列表中选择与提取的合并候选标志相对应的合并候选；通过将偏移信息应用于所选择的合并候选的运动矢量来确定当前块的运动矢量；以及生成在由所选择的合并候选参考的参考图片中由当前块的运动矢量指示的块作为当前块的预测块。代表图：图5。

Description

帧间预测方法和使用该方法的图片解码装置

技术领域

本发明涉及图片编码和解码，更具体地，涉及具有改进的编码和解码效率的帧间预测方法和视频解码设备。

背景技术

由于视频数据的量大于语音数据或静止图片数据的量，因此存储或传输视频数据而不进行压缩处理需要大量的硬件资源，包括存储器。

因此，在存储或传输视频数据时，通常使用编码器来压缩视频数据以进行存储或传输。然后，解码器接收压缩的视频数据，并解压缩和再现视频数据。用于这种视频的压缩技术包括H.264/AVC和高效视频编码(HEVC)，其相对于H.264/AVC将编码效率提高了大约40％。

然而，视频大小、分辨率和帧速率逐渐增加，因此要编码的数据量也增加。因此，需要一种比现有压缩技术具有更好编码效率和更高图片质量的新压缩技术。

发明内容

技术问题

为了满足这种需要，本发明旨在提供一种改进的图片编码和解码技术。特别地，本发明的一个方面涉及一种技术，该技术通过在运动估计中另外反映偏移信息来克服传统合并模式的精度限制，从而提高编码和解码效率。

技术方案

根据本发明的一方面，提供了一种帧间预测方法，包括：从比特流中提取合并候选标志和偏移信息；从包括当前块的相邻块的合并候选列表中选择与提取的合并候选标志相对应的合并候选作为合并候选；通过将偏移信息应用于所选择的合并候选的运动矢量来决定当前块的运动矢量；以及生成在由所选择的合并候选参考的参考图片中由当前块的运动矢量指示的块作为当前块的预测块。

根据本发明的另一方面，提供了一种视频解码设备，包括：解码器，被配置为从比特流中提取合并候选标志和偏移信息；选择单元，被配置为从包括当前块的相邻块的合并候选列表中选择与提取的合并候选标志相应的合并候选作为合并候选；运动矢量确定单元，被配置为通过将偏移信息应用于所选择的合并候选的运动矢量来决定当前块的运动矢量；以及生成单元，被配置为生成在由所选择的合并候选参考的参考图片中由当前块的运动矢量指示的块作为当前块的预测块。

技术效果

如上所述，根据本发明的实施方式，可以通过使用偏移信息克服传统运动估计方法的限制来实现更精确的运动估计。

此外，根据本发明的另一实施方式，可以通过以尽可能简化的形式表达偏移信息来最小化发信号通知偏移信息所需的比特数。

附图说明

图1是能够实施本公开的技术的视频编码设备的示例性框图。

图2示例性地示出了使用QTBTTT结构的块分割结构。

图3示例性地示出了多个帧内预测模式。

图4是能够实施本公开的技术的视频解码设备的示例性框图。

图5是能够实施本公开的技术的帧间预测器的示例性框图。

图6是例示使用偏移信息预测当前块的方法的示例的流程图。

图7是例示使用偏移信息来决定当前块的运动矢量的方法的示例的示图。

图8和图9是例示偏移矢量候选的各种示例的图。

图10是例示使用偏移信息和预测方向信息来预测当前块的方法的示例的流程图。

图11是例示使用偏移信息和预测方向信息来预测当前块的方法的示例的示图。

图12是例示基于预测方向信息构造合并候选列表的方法的示例的流程图。

图13和图14是例示以独立模式实施本发明的方法的流程图。

具体实施方式

在下文中，将参照附图详细描述本公开的一些实施方式。应当注意，在将附图标记添加到各个附图中的组成元件时，相同的附图标记表示相同的元件，尽管这些元件在不同的附图中示出。此外，在本公开的以下描述中，将省略在此并入的已知功能和配置的详细描述，以避免模糊本公开的主题。

图1是能够实施本公开的技术的视频编码设备的示例性框图。在下文中，将参考图1描述视频编码设备和该设备的元件。

视频编码设备包括：块分割器110，预测器120，减法器130，变换器140，量化器145，编码器150，逆量化器160，逆变换器165，加法器170，滤波器单元180和存储器190。

视频编码设备的每个元件可以用硬件或软件或硬件和软件的组合来实现。各个元件的功能可以以软件实现，并且可以实现微处理器以执行对应于各个元件的软件功能。

一个视频由多个图片组成。每个图片被分成多个区域，并且对每个区域执行编码。例如，一个图片被分成一个或多个瓦片和/或切片。这里，一个或多个瓦片可以被定义为瓦片组。每个瓦片或切片被分成一个或多个编码树单元(CTU)。每个CTU通过树结构被分成一个或多个编码单元(CU)。应用于每个CU的信息被编码为CU的语法，而应用于共同包括在一个CTU中的CU的信息被编码为CTU的语法。此外，共同应用于一个瓦片中的所有块的信息被编码为瓦片的语法或被编码为作为多个瓦片的集合的瓦片组的语法，并且应用于构成一个图片的所有块的信息被编码在图片参数集(PPS)或图片报头中。此外，在序列参数集(SPS)中编码由多个图片共同参考的信息。此外，由一个或多个SPS公共参考的信息被编码在视频参数集(VPS)中。

块分割器110确定编码树单元(CTU)的大小。关于CTU的大小(CTU大小)的信息被编码为SPS或PPS的语法，并被发送到视频解码设备。

块分割器110将构成视频的每个图片分割为具有预定大小的多个CTU，然后使用树结构递归地分割CTU。在树结构中，叶节点用作编码单元(CU)，它是编码的基本单元。

树结构可以是：四叉树(QT)，其中节点(或父节点)被分成具有相同大小的四个子节点(或孩子节点)；二叉树(BT)，其中节点被分成两个子节点；三叉树(TT)，其中节点以1：2：1的比率被分成三个子节点；或由QT结构、BT结构和TT结构中的两个或更多个的组合形成的结构。例如，可以使用QTBT(四叉树加二叉树)结构或QTBTTT(四叉树加二叉树三叉树)结构。这里，BTTT可以被统称为多类型树(MTT)。

图2示出了QTBTTT分割树结构。如图2所示，CTU可以在QT结构中被初始分割。可以重复QT分割，直到分割块的大小达到QT中允许的叶节点的最小块大小(MinQTSize)。指示QT结构的每个节点是否被分割为下层的四个节点的第一标志(QT_split_flag)由编码器150编码并发信号通知给视频解码设备。当QT的叶节点不大于BT中允许的根节点的最大块大小(MaxBTSize)时，它可以被进一步分割为BT结构或TT结构中的一个或多个。在BT结构和/或TT结构中，可以有多个分割方向。例如，可以有两个方向，即节点的块的水平分割和竖直分割。如图2所示，当MTT分割开始时，指示节点是否被分割的第二标志(mtt_split_flag)、指示分割方向(竖直或水平)的标志和/或指示分割类型(二元或三元)的标志由编码器150编码并发信号通知给视频解码设备。

作为树结构的另一示例，当使用QTBTTT结构对块进行分割时，关于指示块已被分割的CU分割标志(split_cu_flag)和指示分割类型是否是QT分割的QT分割标志(split_qt_flag)的信息由编码器150编码并发信号通知给视频解码设备。当split_cu_flag的值指示块未被分割时，节点的块变成分割树结构中的叶节点，并被用作编码单元(CU)，该编码单元是编码的基本单元。当split_cu_flag的值指示块未被分割时，通过split_qt_flag的值来区分分割类型是QT还是MTT。当分割类型是QT时，没有附加信息。当分割类型是MTT时，指示MTT分割方向(竖直或水平)的标志(mtt_split_cu_vertical_flag)和/或指示MTT分割类型(二元或三元)的标志(mtt_split_cu_binary_flag)由编码器150编码并发信号通知给视频解码设备。

作为树结构的另一示例，当使用QTBT时，可存在两种分割类型，即，将节点的块水平分割(即，对称水平分割)和竖直分割(即，对称竖直分割)为相同大小的两个块。指示BT结构的每个节点是否被分割为下层的块的分割标志(split_flag)和指示分割类型的分割类型信息由编码器150编码并发信号通知给视频解码设备。可以存在另外的类型，其将节点的块分成两个非对称块。非对称分割类型可以包括以1：3的尺寸比将块分割成两个矩形块的类型，以及对角分割节点的块的类型。

根据CTU的QTBT或QTBTTT分割，CU可以具有各种尺寸。在下文中，对应于要被编码或解码的CU(即，QTBTTT的叶节点)的块被称为“当前块”。

预测器120预测当前块以生成预测块。预测器120包括帧内预测器122和帧间预测器124。

通常，可以对图片中的每个当前块进行预测编码。可使用帧内预测技术(其基于来自含有当前块的图片的数据而执行)或帧间预测技术(其基于来自在含有当前块的图片之前编码的图片的数据而执行)来执行当前块的预测。帧间预测包括单向预测和双向预测。

帧内预测器122使用位于包括当前块的当前图片中的当前块周围的像素(参考像素)来预测当前块中的像素。根据预测方向存在多个帧内预测模式。例如，如图3所示，多个帧内预测模式可包括非定向模式和65个定向模式，非定向模式包括平面模式和DC模式。为每个预测模式不同地定义要使用的相邻像素和等式。

帧内预测器122可确定将用于对当前块进行编码的帧内预测模式。在一些示例中，帧内预测器122可使用若干帧内预测模式对当前块进行编码，并从所测试的模式中选择适当的帧内预测模式来使用。举例来说，帧内预测器122可使用若干所测试的帧内预测模式的速率失真分析来计算速率失真值，且可在所测试的模式中选择具有最佳速率失真特性的帧内预测模式。

帧内预测器122从多个帧内预测模式中选择一个帧内预测模式，并使用根据所选择的帧内预测模式确定的等式和相邻像素(参考像素)来预测当前块。关于所选择的帧内预测模式的信息由编码器150编码并被发送到视频解码设备。

帧间预测器124通过运动补偿处理产生当前块的预测块。帧间预测器在比当前图片更早编码和解码的参考图片中搜索与当前块最相似的块，并基于搜索到的块生成当前块的预测块。然后，帧间预测器生成与当前图片中的当前块和参考图片中的预测块之间的位移相对应的运动矢量。通常，对亮度分量执行运动估计，并且基于亮度分量计算的运动矢量被用于亮度分量和色度分量。包括关于用于预测当前块的参考图片的信息和关于运动矢量的信息的运动信息由编码器150编码并发信号通知给视频解码设备。

减法器130通过从当前块中减去由帧内预测器122或帧间预测器124生成的预测块来生成残差块。

变换器140将空间域中具有像素值的残差块中的残差信号变换为频域中的变换系数。变换器140可使用当前块的总大小作为变换单元来变换残差块中的残差信号。或者，变换器可将残差块分成变换区域和非变换区域的子块，并仅使用变换区域的子块作为变换单元来变换残差信号。这里，变换区域子块可以是基于水平轴(或竖直轴)具有大小比1：1的两个矩形块之一。在这种情况下，指示仅子块已被变换的标志(cu_sbt_flag)、方向(竖直/水平)信息(cu_sbt_horizontal_flag)和/或位置信息(cu_sbt_pos_flag)由编码器150编码并发信号通知给视频解码设备。此外，变换区域子块的大小可以基于水平轴(或竖直轴)具有1：3的大小比。在这种情况下，由编码器150将用于区分分割的标志(cu_sbt_quad_flag)另外编码并发信号通知给视频解码设备。

量化器145量化从变换器140输出的变换系数，并将量化的变换系数输出到编码器150。

编码器150通过使用诸如基于上下文的自适应二元算术编码(CABAC)之类的编码方法对量化的变换系数进行编码来生成比特流。编码器150编码与块分割相关的信息(例如CTU大小，CU分割标志，QT分割标志，MTT分割方向和MTT分割类型)，使得视频解码设备以与视频编码设备相同的方式分割块。

此外，编码器150对与指示当前块是通过帧内预测还是通过帧间预测来编码的预测类型有关的信息进行编码，并根据预测类型对帧内预测信息(即，关于帧内预测模式的信息)或帧间预测信息(关于参考图片和运动矢量的信息)进行编码。

逆量化器160逆量化从量化器145输出的量化的变换系数以生成变换系数。逆变换器165将从逆量化器160输出的变换系数从频域变换到空间域，并重构残差块。

加法器170将重构的残差块与预测器120生成的预测块相加，以重构当前块。重构的当前块中的像素被用作下一块的帧内预测的参考像素。

滤波器单元180对重构的像素进行滤波，以减少由于基于块的预测和变换/量化而产生的块伪影、振铃伪影和模糊伪影。滤波器单元180可以包括去块滤波器182和采样自适应偏移(SAO)滤波器184。

去块滤波器180对重构块之间的边界进行滤波以去除由逐块编码/解码引起的块伪影，并且SAO滤波器184另外对去块滤波后的视频进行滤波。SAO滤波器184是用于补偿由有损编码引起的重构像素和原始像素之间的差异的滤波器。

通过去块滤波器182和SAO滤波器184滤波的重构块被存储在存储器190中。一旦一个图片中的所有块都被重构，则重构的图片被用作要编码的下一图片中的块的帧间预测的参考图片。

图4是能够实施本公开的技术的视频解码设备的示例性功能框图。在下文中，将参照图4描述视频解码设备和该设备的元件。

视频解码设备可包括：解码器410，逆量化器420，逆变换器430，预测器440，加法器450，滤波器单元460和存储器470。

类似于图1的视频编码设备，视频解码设备的每个元件可以被实现为硬件或软件，或者可以被实现为硬件和软件的组合。此外，每个元件的功能可以被实现为软件，并且可以实现微处理器以执行对应于每个元件的软件的功能。

解码器410通过对从视频编码设备接收的比特流进行解码并提取与块分割相关的信息来确定将被解码的当前块，并提取重构当前块所需的预测信息和关于残差信号的信息。

解码器410从序列参数集(SPS)或图片参数集(PPS)提取关于CTU大小的信息，确定CTU的大小，并将图片分成所确定大小的CTU。然后，解码器将CTU确定为最上层即树结构的根节点，并提取关于CTU的分割信息以使用树结构分割CTU。

例如，当使用QTBTTT结构分割CTU时，首先提取与QT分割相关的第一标志(QT_split_flag)，并将每个节点分割为下层的四个节点。然后，对于与QT的叶节点相对应的节点，提取与MTT分割相关的第二标志(MTT_split_flag)和关于分割方向(竖直/水平)和/或分割类型(二元/三元)的信息，并按MTT结构分割叶节点。这样，QT的叶节点下面的每个节点被按BT或TT结构递归地分割。

作为另一示例，当使用QTBTTT结构分割CTU时，首先提取指示CU是否被分割的CU分割标志(split_cu_flag)。如果相应的块被分割，则提取QT分割标志(split_qt_flag)。当分割类型不是QT而是MTT时，另外提取指示MTT分割方向(竖直或水平)的标志(mtt_split_cu_vertical_flag)和/或指示MTT分割类型(二元或三元)的标志(mtt_split_cu_binary_flag)。在分割过程中，每个节点可以经历零次或更多次递归QT分割，然后经历零次或更多次递归MTT分割。例如，CTU可以直接进行MTT分割，或者可以仅进行多次QT分割。

作为另一示例，当使用QTBT结构分割CTU时，提取与QT分割相关的第一标志(QT_split_flag)，并且每个节点被分割为下层的四个节点。对于与QT的叶节点相对应的节点，提取指示该节点是否进一步被BT分割的split_flag和分割方向信息。

在确定要通过树结构分割来解码的当前块时，解码器410提取与指示当前块是经历帧内预测还是帧间预测的预测类型有关的信息。当预测类型信息指示帧内预测时，解码器410提取当前块的帧内预测信息(帧内预测模式)的语法元素。当预测类型信息指示帧间预测时，解码器410提取帧间预测信息的语法元素，即，指示运动矢量和由运动矢量参考的参考图片的信息。

解码器410提取关于当前块的量化的变换系数的信息作为关于残差信号的信息。

逆量化器420对量化的变换系数进行逆量化，并将逆量化的变换系数从频域逆变换到空间域，以重构残差信号，从而为当前块生成残差块。

此外，当逆变换器430仅对变换块的部分区域(子块)进行逆变换时，提取指示仅变换块的子块已被变换的标志(cu_sbt_flag)以及关于子块的方向信息(竖直/水平)(cu_sbt_horizontal_flag)和/或子块位置信息(cu_sbt_pos_flag)。然后，通过将子块的变换系数从频域逆变换到空间域来重构残差信号。对于没有逆变换的区域，残差信号用“0”填充。由此，创建当前块的最终残差块。

预测器440可以包括帧内预测器442和帧间预测器444。当当前块的预测类型是帧内预测时，帧内预测器442被激活，当当前块的预测类型是帧间预测时，帧间预测器444被激活。

帧内预测器442基于从解码器410提取的帧内预测模式的语法元素在多个帧内预测模式中确定当前块的帧内预测模式，并根据帧内预测模式基于当前块周围的参考像素预测当前块。

帧间预测器444基于从解码器410提取的帧内预测模式的语法元素确定当前块的运动矢量和由运动矢量参考的参考图片，并基于运动矢量和参考图片预测当前块。

加法器450通过将从逆变换器输出的残差块与从帧间预测器或帧内预测器输出的预测块相加来重构当前块。重构的当前块中的像素被用作稍后将被解码的块的帧内预测的参考像素。

滤波器单元460可以包括去块滤波器462和SAO滤波器464。去块滤波器462对重构块之间的边界执行去块滤波，以去除由逐块解码引起的块伪影。SAO滤波器464在去块滤波之后对重构块执行附加滤波，以便补偿由有损编码引起的重构像素和原始像素之间的差异。通过去块滤波器462和SAO滤波器464滤波的重构块被存储在存储器470中。当一个图片中的所有块都被重构时，重构的图片被用作参考图片，以用于随后要编码的图片中的块的帧间预测。

帧间预测编码/解码方法(帧间预测方法)可大致分类为跳过模式、合并模式及自适应(或高级)运动矢量预测子(AMVP)模式。

在合并模式(传统合并模式)中，视频编码设备使用相邻块的运动信息来构造合并候选列表，选择最佳运动信息，然后将具有所选择的最佳运动信息的合并候选的索引发信号通知给视频解码设备。视频解码设备从合并候选列表中选择与发送的合并候选索引相对应的合并候选(相邻块)，并使用选择的相邻块的运动信息作为当前块的运动信息。

这样的传统合并模式具有通过将诸如预测方向相关信息(预测索引)、参考图片相关信息(参考图片索引)、差分运动矢量(运动矢量差)和/或预测运动矢量(运动矢量预测子)之类的多条信息表示为一个合并候选索引来有效地减少运动相关数据量的优点。

然而，由于传统的合并模式使用所选择的相邻块的运动信息作为当前块的运动信息，因此可以说在运动估计精度方面存在一定的限制。

本发明寻求通过利用所选相邻块的运动信息外加附加信息(偏移信息)来估计当前块的运动的方法来提高当前块的预测精度，从而克服传统合并模式的限制。

如图5所示，能够实现本公开的技术的帧间预测器444可包括：选择单元510，运动矢量确定单元520，生成单元530，预测方向确定单元540和列表构造单元550。

当从视频编码设备发送比特流时，解码器410从发送的比特流中提取(解码)偏移信息(offset_idx或mvd)和合并索引(merge_idx)(S610)。合并索引是指示合并候选列表中包括的一个或多个合并候选中的一些或全部合并候选中的一个合并候选的信息，并且可以根据实施方式以合并候选标志的类型(例如，mmvd_cand_flag)来实现。

选择单元510从合并候选列表中选择与解码的合并索引相对应的合并候选(S620)。合并候选列表由当前块的一个或多个相邻块(合并候选)组成，并且由列表构造单元550执行构造合并候选列表的处理。

运动矢量确定单元520使用选择的合并候选的运动矢量和解码的偏移信息来决定当前块的运动矢量(S630)。具体地，运动矢量确定单元520将根据偏移信息从由选择的合并候选的运动矢量指示的位置偏移的位置决定为当前块的运动矢量(S630)。

这里，由于通过将偏移信息应用于所选择的合并候选的运动矢量来决定当前块的运动矢量，所以所选择的合并候选的运动矢量可被称为第一运动矢量、初始运动矢量等，并且当前块的运动矢量可被称为第二运动矢量、最终运动矢量等。

从相应的视点来看，由所选择的合并候选的运动矢量指示的位置可被称为第一位置、初始位置等，而由偏移信息最终指示的位置(由当前块的运动矢量指示的位置)可被称为第二位置、最终位置等。

此外，偏移信息是指示相对于由第一运动矢量指示的第一位置的相对位置的信息，并且相对位置对应于比由第一运动矢量指示的第一位置更优化以精确地预测当前块的位置。

偏移信息可以以能够表示从第一位置到第二位置的幅度和方向的各种形式来实现。例如，可以以指示预定义的偏移矢量候选中的一个偏移矢量候选的偏移索引offset_idx的形式来实现偏移信息。作为另一示例，还可以以与第一运动矢量和第二运动矢量之间的差相对应的运动矢量mvd的形式来实现偏移信息。下面将详细描述偏移信息的实现。

当决定当前块的运动矢量(第二运动矢量)时，生成单元530生成由所决定的第二运动矢量指示的块作为当前块的预测块(S640)。即，生成单元530使用由第二运动矢量指示的块对当前块执行预测。由第二运动矢量指示的块被放置在由所选择的合并候选参考的参考图片中。

图7示出了使用第一运动矢量和偏移信息来决定第二运动矢量的方法的示例。图7A示出当第一运动矢量是单向(L0)预测时决定第二运动矢量的示例，图7B示出当第一运动矢量是双向(L0和L1)预测时决定第二运动矢量的示例。

在图7中，L0和L1中的每一个表示参考图片列表。ref_idx_#0表示L0中所包括的参考图片信息，并且ref_idx_#1表示L1中所包括的参考图片信息。current_block表示将被当前编码或解码的块，并且current_picture表示包括当前块的图片。可以从所选择的合并候选的运动信息获得预测方向(参考图片列表)、参考图片信息、第一运动矢量MV_#0和MV_#1等。

在图7的(a)中的单向预测的情况下，帧间预测器444可通过根据由偏移信息offset_0指示的幅度和方向移位指示第一位置710的第一运动矢量MV_#0来决定指示第二位置720的第二运动矢量MV_0。

在图7的(b)中的双向预测的情况下，帧间预测器444可从所选择的合并候选的运动信息获得预测方向(L0和L1)、参考图片信息(ref_idx_#0和ref_idx_#1)和第一运动矢量(MV_#0和MV_#1)。

对于L0方向，帧间预测器444可通过根据由偏移信息offset_0指示的幅度和方向移位指示第一位置710-0的第一运动矢量MV_#0来决定指示第二位置720-0的第二运动矢量MV_0。

对于L1方向，帧间预测器444可通过根据由偏移信息offset_0指示的幅度和与偏移信息offset_0的方向相反的方向移位指示第一位置710-1的第一运动矢量MV_#1来决定指示第二位置720-1的第二运动矢量MV_1。这里，-offset_0表示与L0方向偏移信息offset_0相反的偏移信息。在一些实施方式中，可以在L0方向上应用反向偏移信息，并且可以在L1方向上应用(正向)偏移信息。

与原样使用相邻块的运动信息的传统方法相比，本发明通过另外使用偏移信息来提高运动估计的精度。

如上所述，可以以表示第一位置相对于第二位置的方向和幅度的各种形式来实现偏移信息。例如，偏移信息可以以索引、矢量等形式实现。

当以索引(偏移索引)的形式实现偏移信息时，偏移索引可指示预设偏移矢量候选中的一个偏移矢量候选。视频编码设备将索引指派给预设偏移矢量候选，并将索引(偏移索引)之一发送到视频解码设备。

在一些实施方式中，偏移索引可以指示偏移矢量候选的运动幅度和运动方向。例如，偏移索引可以被配置为包括指示偏移矢量候选的运动幅度的偏移索引(例如，mmvd_distance_idx)和指示偏移矢量候选的运动方向的偏移索引(例如，mmvd_direction_idx)。

视频解码设备可通过将由发送的偏移索引指示的偏移矢量候选添加到第一运动矢量来决定第二运动矢量。换句话说，考虑到第一位置和第二位置，视频解码设备可将从第一位置移动到由偏移索引指定的偏移矢量候选指示的位置(第二位置)决定为第二运动矢量。

图8和图9例示可由偏移索引指示的偏移矢量候选的各种示例。图8的(a)和8的(b)对应于当允许4点偏移运动时的偏移矢量候选的示例，且图8的(c)和图8的(d)对应于当允许8点偏移运动时的偏移矢量候选的示例。图8的(e)和8的(f)对应于当允许12点偏移运动时的偏移矢量候选的示例，且图9的(a)到9的(e)对应于当允许16点偏移运动时的偏移矢量候选的示例。

在图8和图9中，一个网格单元表示1个像素，实心黑圆表示由第一运动矢量指示的第一位置，空心黑圆表示可以对应于第二运动矢量的偏移矢量候选，并且空心黑三角形表示放置在1/2像素的位置处的偏移矢量候选。

以下描述假设第一位置的值是(0，0)。当允许4点偏移运动时(参见图8的(a)和8的(b))，位于第一位置(0，0)周围的(+1，0)，(-1，0)，(0，-1)和(0，+1)处的总共四个位置可对应于偏移矢量候选(图8的(a))，且位于第一位置周围的(+1，0)，(+2，0)，(-1，0)和(-2，0)处的总共四个位置可对应于偏移矢量候选(图8的(b))。

当允许8点偏移运动时(参见图8的(c)和图8的(d))，位于第一位置(0，0)周围的(+1，0)，(-1，0)，(0，-1)，(0，+1)，(1，-1)，(1，+1)，(-1，-1)和(-1，+1)处的总共八个位置可对应于偏移矢量候选(图8的(c))，且位于第一位置周围的(+1，0)，(+2，0)，(-1，0)，(-2，0)，(0，-1)，(0，-2)，(0，+1)和(0，+2)处的总共八个位置可对应于偏移矢量候选(图8的(d))。

当允许12点偏移运动时，如图8的(e)所示，位于(+1，0)，(+2，0)，(-1，0)，(-2，0)，(0，-1)，(0，-2)，(0，+1)，(0，+2)，(1，-1)，(1，+1)，(-1，-1)和(-1，+1)的总共12个位置可以对应于偏移矢量候选。

此外，如图8的(f)所示，位于第一位置周围的(+1，0)，(-1，0)，(0，-1)，(0，+1)，(+1，-1)，(+1，+1)，(-1，-1)和(-1，+1)的八个位置以及位于第一位置周围的(+1/2，0)，(-1/2，0)，(0，-1/2)和(0，+1/2)的四个位置可以对应于偏移矢量候选。

如图9的(a)所示，位于第一位置周围的(+2，0)，(-2，0)，(0，-2)，(0，+2)，(+2，-1)，(+2，-2)，(+1，-2)，(-1，-2)，(-2，-2)，(-2，-1)，(-2，+1)，(-2，+2)，(-1，+2)，(+1，+2)，(+2，+2)和(+2，+1)的总共16个位置可以对应于偏移矢量候选。

偏移矢量候选可以具有不同于图8和图9所示示例的各种形式，只要可以表示第一位置周围的相对位置即可。例如，偏移矢量候选可以被布置成围绕第一位置形成非对称形状而不是对称形状。

视频编码设备和视频解码设备可在偏移矢量候选的各种排列形式中预定义要应用于实际预测当前块的排列形式。实际应用的偏移矢量的排列形式可以在较高层中的一个或多个位置处(序列级，图片级，瓦片组报头，瓦片报头，CTU报头和CU报头)定义，并且可以以块级别定义。

偏移矢量候选的排列形式可由偏移矢量候选的数目、每个偏移矢量候选的运动幅度和每个偏移矢量候选的运动方向指定。因此，当偏移矢量候选的数量、每个偏移矢量候选的运动幅度和每个偏移矢量候选的运动方向中的至少一个被不同地配置时，可以决定不同的排列形式。

视频编码设备可发送包括用于决定各种排列形式之一的标识信息的比特流，并且视频解码设备可使用包括在比特流中的标识信息来决定排列形式，即预设偏移矢量候选。

下面将参照图7描述当如上所述将偏移信息实现为偏移索引时决定第二运动矢量的方法。

在图7的(a)中的单向预测的情况下，帧间预测器444可通过根据由偏移索引指示的偏移矢量候选offset_0移位第一运动矢量MV_#0或通过将由偏移索引指示的偏移矢量候选offset_0添加到第一运动矢量MV_#0来决定第二运动矢量MV_0。

在图7的(b)中的双向预测的情况下，对于L0方向，帧间预测器444可通过根据由偏移索引指示的偏移矢量候选offset_0移位第一运动矢量MV_#0或通过将由偏移索引指示的偏移矢量候选offset_0添加到第一运动矢量MV_#0来决定第二运动矢量MV_0。对于L1方向，帧间预测器444可通过根据由偏移索引指示的偏移矢量候选-offset_0移位第一运动矢量MV_#1或通过将由偏移索引指示的偏移矢量候选-offset添加到第一运动矢量MV_#1来决定第二运动矢量MV_1。

在一些实施方式中，可以基于当前图片与两个参考图片ref_idx_#0和ref_idx_#1之间的时间轴距离来实现偏移矢量的缩放。帧间预测器444可通过基于当前图片与ref_idx_#0之间的时间轴距离(图片顺序计数(POC)差)和当前图片与ref_idx_#1之间的时间轴距离(POC差)缩放偏移矢量候选并将缩放的偏移矢量候选添加到第一运动矢量MV_#1来决定第二运动矢量MV_1。

此外，当偏移信息被实现为偏移矢量时，视频编码设备可生成并发送与第一位置值和第二位置值之间的差相对应的矢量。换句话说，视频编码设备可将指示方向和幅度的偏移矢量从由所选择的合并索引指示的第一位置发送到第二位置。

视频解码设备可通过将发送的偏移矢量应用于第一运动矢量来决定第二运动矢量。偏移矢量对应于用于表示相对于作为原点的第一位置的第二位置的信息，因此可以被理解为运动矢量差(mvd)。

可以使用表示幅度方向的语法来表达偏移矢量。而且，可以使用表示幅度和方向的各种形式的语法来表达偏移矢量。

下面的表1示出了将偏移矢量表示为表示幅度和方向的语法的示例。

[表1]

在上表1中，abs_mvd_greater0_flag，abs_mvd_greater1_flag和abs_mvd_minus2是表示偏移矢量(mvd)的幅度的语法，而mvd_sign_flag是表示偏移矢量的方向的语法。

在一些实施方式中，可以实现除了偏移矢量之外还使用mv_resolution信息的示例。mv_resolution可以指表示偏移矢量的幅度的精度的幅度分辨率，并且可以对应于1/4像素、1像素和4像素之一。

mv_resolution信息另外从视频编码设备发信号通知给视频解码设备，并且可以以指示偏移矢量的幅度分辨率的各种形式(标志，索引等)来配置。下面将描述以标志的形式实现mv_resolution的示例。

当指示1/4像素的第一标志开启时，mv_resolution被设置为1/4像素，并且当第一标志关闭时，另外分析第二标志以确定mv_resolution是1像素还是4像素。

当通过这种确定过程决定mv_resolution时，实际运动由所决定的mv_resolution和幅度来决定。例如，当矢量的大小是2并且mv_resolution是4像素时，实际运动对应于8像素。此外，当矢量的大小是4并且mv_resolution是1/4像素时，实际运动对应于1像素。

下面将参照图7描述当如上所述将偏移信息实现为偏移矢量时决定第二运动矢量的方法。

在图7的(a)中的单向预测的情况下，帧间预测器444可通过根据由偏移矢量offset_0指示的方向和幅度移位第一运动矢量MV_#0来决定第二运动矢量MV_0。

在图7的(b)中的双向预测的情况下，对于L0方向，帧间预测器444可通过根据由偏移矢量offset_0指示的方向和幅度移位第一运动矢量MV_#0来决定第二运动矢量MV_0。对于L1方向，帧间预测器444可通过根据由偏移矢量-offset_0指示的方向和幅度移位第一运动矢量MV_#1来决定第二运动矢量MV_1。

在一些实施方式中，可以基于当前图片与两个参考图片ref_idx_#0和ref_idx_#1之间的时间轴距离(POC差)来实现偏移矢量的缩放。例如，当L0的参考图片ref_idx_#0与当前图片之间的POC差为1并且L1的参考图片ref_idx_#1与当前图片之间的POC差为2时，L0方向偏移矢量可以是(x，y)，并且L1方向偏移矢量可以是(-2*x，-2*y)。

视频编码设备可被配置为除了偏移信息之外另外还发送预测方向信息。视频解码设备可使用所发送的预测方向信息来确定当前块的预测方向。基于所确定的预测方向，视频解码设备可对每个方向应用偏移信息，或仅利用具有与当前块的所确定的预测方向相同的方向的相邻块来构造合并候选列表。

首先将使用图10和图11描述针对通过预测方向信息确定的每个预测方向应用偏移信息的示例，然后将使用图12描述仅利用与通过预测方向信息确定的预测方向相对应的相邻块来构造合并候选列表的示例。

如图10所示，解码器410从比特流解码合并索引merge_idx和预测方向信息pred_idx(S1010)。这里，预测方向信息不对应于从所选择的合并候选的运动信息导出的信息，而是对应于从视频编码设备另外发送的信息。

与从视频编码设备发送merge_idx和pred_idx的顺序相关联，可以实现首先发送merge_idx然后发送pred_idx的情况和首先发送pred_idx然后发送merge_idx的情况。

预测方向确定单元540基于解码的预测方向信息确定当前块的预测方向(S1020，S1040)。预测方向信息可以是指示单向预测或双向预测的标志，或者可以是表示L0，L1之一和两者的值。

当预测方向信息是表示L0，L1之一和两者的值时，预测方向确定单元540通过确定预测方向信息是否不等于L1方向(S1020)以及预测方向信息是否不等于L0方向(S1040)来确定当前块的预测方向，如图10所示。

当通过S1020确定预测方向信息不等于L1方向时，由预测方向信息指示的预测方向可对应于L0方向或两个方向(即，至少对应于L0方向)。在这种情况下，视频编码设备可发送包括L0方向偏移信息offset_0的比特流，并且视频解码设备可从比特流解码L0方向偏移信息offset_0(S1030)。这里，offset_0可以对应于L0方向的offset_idx和mvd中的一个。

当通过S1040确定预测方向信息不等于L0方向时，由预测方向信息指示的预测方向可对应于两个方向。在这种情况下，视频编码设备可发送包括L1方向偏移信息offset_1的比特流，并且视频解码设备可从比特流解码L1方向偏移信息offset_1(S1050)。这里，offset_1可以对应于L1方向的offset_idx和mvd中的一个。

返回S1020，当确定预测方向信息等于L1方向时，由预测方向信息指示的预测方向对应于L1单向。因此，视频编码设备可发送仅包括L1方向偏移信息的比特流，并且视频解码设备可从比特流解码L1方向偏移信息(S1050)。

在S1040中，当确定预测方向信息等于L0方向时，由预测方向信息指示的预测方向对应于L0单向。因此，视频编码设备可发送仅包括L0方向偏移信息的比特流，并且视频解码设备可从比特流解码L0方向偏移信息。

当通过S1010到S1050解码偏移信息时，可以针对与偏移信息相对应的每个方向执行选择与合并索引相对应的合并候选的处理和决定第二运动矢量的处理。

例如，当以偏移索引offset_idx的形式实现偏移信息时，可通过将由L1方向偏移索引指示的偏移矢量候选应用于L1方向第一运动矢量来决定L1方向第二运动矢量。此外，可通过将由L0方向偏移索引指示的偏移矢量候选应用于L0方向第一运动矢量来决定L0方向第二运动矢量。

结合另一示例，在图11中例示了以偏移矢量mvd的形式实现偏移信息的情况。在图11中，mvd0表示L0方向偏移矢量，mvd1表示L1方向偏移矢量。

如图11所示，可通过根据L0方向偏移矢量mvd0将L0方向第一运动矢量MV_#0从由第一运动矢量MV_#0指示的第一位置710-0移动到第二位置720-0来决定L0方向第二运动矢量MV_0。此外，可以通过根据L1方向偏移矢量mvd1将L1方向第一运动矢量MV_#1从第一位置710-1移位到第二位置720-1来决定L1方向第二运动矢量MV_1。

当预测方向信息指示双向预测并且为两个方向中的每一个决定第二运动矢量时，生成单元530可通过对两个第二运动矢量求平均或通过对第二运动矢量执行加权预测来生成当前块的预测块。

此外，预测方向信息可用作构造合并候选列表的方法的标准。图12例示了使用预测方向信息来构造合并候选列表的方法的示例。

如图12所示，可以执行从比特流解码合并索引merge_idx和预测方向信息pred_idx的处理(S1210)以及确定解码的预测方向信息是否不等于L0方向的处理(S1220)。

与从视频编码设备发送merge_idx和pred_idx的顺序相关联，可以实现首先发送merge_idx然后发送pred_idx的情况和首先发送pred_idx然后发送merge_idx的情况二者。

当确定预测方向信息等于L0方向时，当前块的预测方向对应于L0单向。列表构造单元550利用当前块的相邻块中预测方向为L0的一个或多个相邻块来构造合并候选列表(S1230)。即，列表构造单元550构造合并候选列表，使得预测方向为L0的相邻块被包括为合并候选。

或者，当确定预测方向信息不等于L0方向时，当前块的预测方向可对应于L1单向或双向。因此，进一步执行确定预测方向信息是否不等于L1方向的处理(S1240)。

当确定预测方向信息等于L1方向时，当前块的预测方向对应于L1单向。列表构造单元550构造合并候选列表，使得预测方向为L1的相邻块被包括为合并候选(S1250)。

或者，当确定预测方向信息等于L1方向时，当前块的预测方向对应于双向。因此，列表构造单元550构造合并候选列表，使得具有双向预测方向的相邻块被包括为合并候选。

如上所述，当预测方向信息被用作构造合并候选列表的标准时，可通过仅包括具有与预测方向信息相对应的预测方向的相邻块作为合并候选来构造合并候选列表。因此，可以更适应于当前块的实际预测方向地实现构造合并候选列表的方法。

上述方法的激活/去激活可以用在较高级别中的一个或多个位置处(序列级，图片级，瓦片组报头，瓦片报头，CTU报头和CU报头)定义的语法元素(例如，sps_mmvd_enabled_flag)来控制。此外，上述方法可以以代替传统合并模式的修改的合并模式或以独立于传统合并模式的新模式(提议的模式，mmvd：带mvd的合并)来实现。

当以从传统合并模式修改的模式实现本发明提议的各种方法时，不需要用于这些方法的附加语法元素。然而，当以与传统合并模式分离的新模式实现各种方法时，可能需要用于这些方法的附加语法元素。

图13示出了当传统合并模式和提议的模式被分类为相同模式组时的语法结构，图14示出了当传统合并模式和提议的模式被分类为不同模式组时的语法结构。

首先，如图13所示，执行解析或解码合并标志regular_merge_flag的处理(S1310)和确定合并标志的值的处理(S1320)。这里，合并标志对应于指示当前块是否被预测为包括传统合并模式和提议的模式的组的信息。

当确定合并标志的值指示当前块的预测模式对应于传统合并模式或提议的模式之一时，执行解析或解码指示当前块是否按提议的模式被预测的标志proposed_flag(mmvd_merge_flag)的处理(S1330)和确定mmvd_merge_flag的值的处理(S1340)。

结果，当当前块按传统合并模式(mmvd_merge_flag＝0)被预测时，对当前块执行传统合并模式预测，而当当前块按提议的模式被预测时，对当前块执行提议的模式(mmvd模式)预测。

参照S1320，当确定合并标志的值指示当前块不对应于传统合并模式或提议的模式时，执行解析或解码用于区分当前块的帧间预测和帧内预测的标志pred_mode_flag的处理(S1350)和确定相应标志的值的处理(S1360)。

当当前块按帧间模式(AMVP模式)被预测时，对当前块执行帧间模式(AMVP模式)预测。当当前块按帧内模式被预测时，对当前块执行帧内模式预测。

接下来，将描述传统合并模式和提议的模式被分类为不同模式组的情况的语法结构。

如图14所示，以与上述相同的方式执行解析或解码合并标志regular_merge_flag的处理(S1410)和确定合并标志的值的处理(S1420)。由于图14的示例对应于传统合并模式和提议的模式被分类为不同组的情况，因此图14的合并标志对应于指示当前块是否已经按传统合并模式被预测的信息。

当确定合并标志的值指示当前块按传统合并模式被预测(regular_merge_flag＝1)时，对当前块执行传统合并模式预测(合并模式)。或者，当确定当前块不按传统模式被预测(regular_merge_flag＝0)时，执行解析或解码指示是否当前块按提议的模式被预测的标志mmvd_flag的处理(S1430)和确定mmvd_flag的值的处理(S1440)。

当当前块按提议的模式被预测时，对当前块执行提议的模式(mmvd)预测。或者，当当前块未按提议的模式被预测时，通过解析或解码pred_mode_flag的处理(S1450)和分析对应标志的处理(1460)来执行AMVP模式预测或帧内模式预测。

虽然为了说明的目的已经描述了本发明的示例性实施方式，但是本领域技术人员将理解，在不脱离本发明的思想和范围的情况下，各种修改和改变是可能的。为了简洁和清楚起见，已经描述了示例性实施方式。因此，本领域技术人员将理解，本发明的范围不受以上明确描述的实施方式的限制，而是包括权利要求及其等同物。

Claims

1.一种帧间预测方法，该方法包括以下步骤：

从比特流中提取合并候选标志和偏移信息；

从包括当前块的相邻块作为合并候选的合并候选列表中选择与提取的合并候选标志相对应的合并候选；

通过将所述偏移信息应用于所选择的合并候选的运动矢量来决定当前块的运动矢量；以及

生成在由所选择的合并候选参考的参考图片中由所述当前块的运动矢量指示的块作为所述当前块的预测块。

2.根据权利要求1所述的帧间预测方法，其中，所述偏移信息是指示预定义的偏移矢量候选中的一个偏移矢量候选的偏移索引，

其中，通过将由所述偏移索引指示的偏移矢量候选添加到合并候选的运动矢量来决定所述当前块的运动矢量。

3.根据权利要求2所述的帧间预测方法，其中，所述偏移索引包括指示偏移矢量候选的运动幅度的偏移索引和指示偏移矢量候选的运动方向的偏移索引。

4.根据权利要求2所述的帧间预测方法，其中，

合并候选表示L0和L1的双向预测，

通过将所述偏移信息应用于所选择的合并候选的运动矢量来决定当前块的运动矢量的步骤包括：

将所述偏移索引指示的偏移矢量候选添加到合并候选的特定预测方向的运动矢量，以决定所述当前块的所述特定预测方向的运动矢量；以及

将缩放的偏移矢量候选添加到合并候选的另一预测方向的运动矢量，以决定所述当前块的所述另一预测方向的运动矢量，并且

通过基于所述特定预测方向的参考图片和当前图片之间的时间轴距离以及所述另一预测方向的参考图片和所述当前图片之间的时间轴距离对由所述偏移索引指示的偏移矢量候选进行缩放来获得所述缩放的偏移矢量候选。

5.根据权利要求1所述的帧间预测方法，其中，

当所述比特流中包括的使能信息指示激活时，执行所述从比特流中提取合并候选标志和偏移信息的步骤，并且

所述使能信息被包括在所述比特流的序列级报头中。

6.根据权利要求1所述的帧间预测方法，其中，

当所述比特流中包括的合并标志指示所述当前块按合并模式或带mvd的合并mmvd模式被预测并且所述比特流中包括的mmvd标志指示所述当前块按所述mmvd模式被预测时，执行所述从比特流中提取合并候选标志和偏移信息的步骤，并且

当所述合并标志指示所述当前块按所述合并模式或所述mmvd模式被预测时，所述mmvd标志被包括在所述比特流中。

7.根据权利要求1所述的帧间预测方法，其中，所述偏移信息是用于指示相对于由合并候选的运动矢量指示的被设置为原点的位置的由所述当前块的运动矢量指示的位置的偏移矢量。

8.根据权利要求1所述的帧间预测方法，该方法还包括以下步骤：

基于所述比特流中包括的预测方向信息确定所述当前块的预测方向；以及

利用所述相邻块中具有与所确定的预测方向相对应的预测方向的相邻块来构造所述合并候选列表。

9.根据权利要求1所述的帧间预测方法，该方法还包括基于所述比特流中包括的预测方向信息来确定所述当前块的预测方向，

其中，所述从比特流中提取合并候选标志和偏移信息的步骤包括提取所确定的预测方向的偏移信息。

10.一种视频解码设备，该视频解码设备包括：

解码器，该解码器被配置为从比特流中提取合并候选标志和偏移信息；

选择单元，该选择单元被配置为从包括当前块的相邻块作为合并候选的合并候选列表中选择与提取的合并候选标志相对应的合并候选；

运动矢量确定单元，该运动矢量确定单元被配置为通过将所述偏移信息应用于所选择的合并候选的运动矢量来决定所述当前块的运动矢量；以及

生成单元，该生成单元被配置为生成在由所选择的合并候选参考的参考图片中由所述当前块的运动矢量指示的块作为所述当前块的预测块。

11.根据权利要求10所述的视频解码设备，其中，

所述偏移信息是指示预定义的偏移矢量候选中的一个偏移矢量候选的偏移索引，并且

所述运动矢量确定单元被配置为将由所述偏移索引指示的偏移矢量候选添加到合并候选的运动矢量以决定所述当前块的运动矢量。

12.根据权利要求11所述的视频解码设备，其中，所述偏移索引包括指示偏移矢量候选的运动幅度的偏移索引和指示偏移矢量候选的运动方向的偏移索引。

13.根据权利要求11所述的视频解码设备，其中，

合并候选表示L0和L1的双向预测，

所述运动矢量确定单元确定被配置为：

将由所述偏移索引指示的偏移矢量候选添加到合并候选的特定预测方向的运动矢量，以决定所述当前块的所述特定预测方向的运动矢量；以及

14.根据权利要求10所述的视频解码设备，其中，

当所述比特流中包括的使能信息指示激活时，提取单元提取所述合并候选标志和所述偏移信息，并且

所述使能信息被包括在所述比特流的序列级报头中。

15.根据权利要求10所述的视频解码设备，其中，

当所述比特流中包括的合并标志指示所述当前块按合并模式或带mvd的合并mmvd模式被预测并且所述比特流中包括的mmvd标志指示所述当前块按所述mmvd模式被预测时，提取单元提取所述合并候选标志和所述偏移信息，并且

当所述合并标志指示所述当前块按所述合并模式被预测时，所述mmvd标志被包括在所述比特流中。

16.根据权利要求10所述的视频解码设备，其中，所述偏移信息是用于指示相对于由合并候选的运动矢量指示的被设置为原点的位置的由所述当前块的运动矢量指示的位置的偏移矢量。

17.根据权利要求10所述的视频解码设备，该视频解码设备还包括：

预测方向确定单元，该预测方向确定单元被配置为基于所述比特流中包括的预测方向信息来确定所述当前块的预测方向；以及

列表构造单元，所述列表构造单元被配置为利用所述相邻块中具有与所确定的预测方向相对应的预测方向的相邻块来构造所述合并候选列表。

18.根据权利要求10所述的视频解码设备，该视频解码设备还包括预测方向确定单元，该预测方向确定单元被配置为基于所述比特流中包括的预测方向信息来确定所述当前块的预测方向，

其中，所述解码器被配置为提取所确定的预测方向的偏移信息。

19.一种帧间预测方法，该方法包括以下步骤：

通过运动补偿生成当前块的预测块；

导出与所述当前块和所述预测块之间的位移相对应的运动矢量；以及

对关于导出的运动矢量的信息进行编码和发信号通知，

其中，所述关于导出的运动矢量的信息包括合并候选标志和偏移信息，所述偏移信息指示相对于由合并候选列表中包括的合并候选中与所述合并候选标志相对应的合并候选的运动矢量指示的位置的由所述导出的运动矢量指示的位置。

20.一种视频编码设备，该视频编码设备包括：

预测单元，该预测单元被配置为通过运动补偿生成当前块的预测块并导出与所述当前块和所述预测块之间的位移相对应的运动矢量；以及

编码单元，该编码单元被配置为对关于导出的运动矢量的信息进行编码和发信号通知；