CN105580371B

CN105580371B - 基于自适应采样的分层运动估计方法和设备

Info

Publication number: CN105580371B
Application number: CN201480051855.5A
Authority: CN
Inventors: 林亨俊; 安泰庆; 刘容勋; 崔成勋
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-07-19
Filing date: 2014-07-21
Publication date: 2019-02-01
Anticipated expiration: 2034-07-21
Also published as: WO2015009132A1; EP3020192B1; EP3020192A1; KR20150010518A; CN105580371A; US9560377B2; US20150023424A1; EP3020192A4; KR102138368B1

Abstract

一种分层运动预测设备和方法。所述分层运动预测方法将当前帧和参考帧划分为像素组，改变每个像素组的像素位置，并选择一个像素，因此当前帧和参考帧的分辨率降低。下采样的当前块的运动矢量基于下采样的当前帧和参考帧被获得，并基于下采样率被扩展为原始分辨率的运动矢量。

Description

基于自适应采样的分层运动估计方法和设备

技术领域

一个或更多个示例性实施例涉及对视频图像的运动估计，并且更具体地，涉及对缩小的图像执行的分层运动估计。

背景技术

一般而言，诸如运动图像专家组(MPEG)-1、MPEG-2、MPEG-4视觉(Visual)、H.261、H.263和H.264/MPEG-4先进视频编码(AVC)的图像压缩方法通过将帧划分成多个宏块，对宏块执行预测，获得预测块，并且对原始图像块和预测块之间的差进行转换和量化来压缩图像数据。

存在两种类型的预测方法：帧内预测和帧间预测。帧内预测通过使用当前帧中存在的周围块的数据对当前块执行预测。帧间预测执行基于块的运动预测，并从预先编码的一个或更多个视频帧产生与当前块相应的预测块。

发明内容

技术问题

需要更加有效和精确地执行分层运动估计。

解决方案

一个或更多个示例性实施例包括一种通过缩小图像来执行的分层运动估计方法。具体地讲，当图像被缩小以便执行运动估计时，缩小的图像帧之间的相关性得到提高，因此即使当缩小的图像被使用时运动预测效率也会得到提高。

有益效果

根据以上示例性实施例中的一个或更多个示例性实施例，通过使用从原始图像帧下采样的低分辨率图像帧来执行运动预测，并因此运动预测的复杂度降低。还通过使用在帧之间具有高相关性的低分辨率图像帧来执行运动预测，并因此可提高运动预测的效率。换句话说，根据一个或更多个示例性实施例，即使当通过使用具有比原始图像帧的分辨率低的分辨率的图像帧执行运动预测时，运动预测的准确度仍会提高，从而提高运动预测的效率。

附图说明

图1是根据示例性实施例的视频编码设备的框图；

图2是根据示例性实施例的视频解码设备的框图；

图3是用于描述根据示例性实施例的编码单元的概念的示图；

图4是根据示例性实施例的基于编码单元的图像编码器的框图；

图5是根据示例性实施例的基于编码单元的图像解码器的框图；

图6是示出根据示例性实施例的根据深度的较深层编码单元以及分区的示图；

图7是用于描述根据示例性实施例的编码单元和变换单元之间的关系的示图；

图8是用于描述根据示例性实施例的与编码深度相应的编码单元的编码信息的示图；

图9是根据示例性实施例的根据深度的较深层编码单元的示图；

图10至图12是用于描述根据示例性实施例的编码单元、预测单元和变换单元之间的关系的示图。

图13是用于描述根据表1的编码模式信息的编码单元、预测单元和变换单元之间的关系的示图；

图14是根据示例性实施例的分层运动预测设备的框图；

图15是用于解释根据示例性实施例的输入图像帧的下采样处理的参考示图；

图16示出了根据示例性实施例的通过使用自适应下采样方法下采样的示例性帧；

图17A和图17B示出了根据示例性实施例的示例性下采样的帧和将被下采样的帧；

图18A和图18B示出了根据示例性实施例的通过使用相同的下采样方法下采样的示例性帧；

图19示出了根据另一示例性实施例的通过使用自适应下采样方法下采样的示例性帧；

图20是根据另一示例性实施例的分层运动预测设备的框图；

图21是用于说明根据示例性实施例的通过图20的分层运动预测设备的运动矢量调整器执行的精确调整运动矢量的处理的参考示图；

图22是根据示例性实施例的分层运动预测方法的流程图。

最佳实施方式

根据一个或更多个示例性实施例，一种分层运动预测方法包括：将包括将被运动预测的块的第一帧划分为第一像素组，并通过从划分出的第一像素组中的每一个中选择第一位置的像素来产生将被运动预测的块的下采样的第一帧和下采样的块；将被编码然后重建的第二帧划分为第二像素组以用于对下采样的块进行运动预测，并通过选择与从划分出的第一像素组中的每一个的第一位置不同的第二位置的像素来产生下采样的第二帧；通过参考下采样的第二帧对下采样的块执行运动预测，并获得下采样的块的运动矢量；基于第一帧的下采样率扩展运动矢量。

根据一个或更多个示例性实施例，一种分层运动预测设备包括：自适应下采样器，被配置为将包括将被运动预测的块的第一帧划分为第一像素组，从划分出的第一像素组中的每一个中选择第一位置的像素，产生将被运动预测的块的下采样的第一帧和下采样的块，将被编码然后重建的第二帧划分为第二像素组以用于对下采样的块进行运动预测，并且通过选择与划分出的第一像素组中的每一个的第一位置不同的第二位置的像素来产生下采样的第二帧；运动预测执行器，被配置为通过参考下采样的第二帧对下采样的块执行运动预测并获得下采样的块的运动矢量，并基于第一帧的下采样率扩展运动矢量。

划分出的第一像素组中的每一个可包括左上方第一像素、右上方第二像素、左下方第三像素和右下方第四像素彼此相邻的四个像素，其中，在产生下采样的第一帧的过程中，第一位置的像素是从包括在第一帧的第一像素组中的所述四个像素中选择的，其中，在产生下采样的第二帧的过程中，与第一位置不同的第二位置的像素是从包括在第二帧的第二像素组中的所述四个像素中选择的。

第一位置和第二位置可基于在第一帧和第二帧被编码之前被编码的先前帧的运动矢量来确定。

第一位置和第二位置可根据以下项之一来确定：包括在先前帧中的块的运动矢量的平均值以及先前帧的全局运动矢量的水平轴方向分量和垂直轴方向分量是否具有奇数值。

如果所述水平轴方向分量具有奇数值，则第二位置可以是从划分出的第一像素组中的每一个中所包括的像素中处于第一位置的像素沿水平方向移动一个像素后的位置。

如果所述垂直轴方向分量具有奇数值，则第二位置可以是从划分出的第一像素组中的每一个中所包括的像素中处于第一位置的像素沿垂直方向移动一个像素后的位置。

扩展运动矢量的步骤可包括：当划分出的像素组中的每一个在水平方向上包括m个像素(其中，m是整数)并在垂直方向上包括n个像素(其中，n是整数)时，将获得的运动矢量的水平轴分量扩展m倍并将获得的运动矢量的垂直轴分量扩展n倍。

所述分层运动预测方法还可包括：通过在与扩展后的运动矢量所指示的第二帧的区域相应的搜索范围内确定与将被运动预测的块最相似的相应块来调整扩展后的运动矢量。

划分第一帧的操作可包括：不对称地划分和进行对称地划分中的一种。

用于对第一帧进行下采样的处理可与用于对第二帧进行下采样的处理不同。

第二帧可在第一帧被编码之前被划分。

一种非暂时性计算机可读记录介质可记录有用于执行上述方法的计算机程序。

具体实施方式

现在将详细参考实施例，其示例在附图中示出，其中，相同的参考标号始终指代相同的元件。在这方面，本示例性实施例可具有不同的形式，并且不应被解释为限于在此阐述的描述。因此，示例性实施例通过参照附图在下面仅被描述用于解释本描述的各方面。当诸如“…中的至少一个”的表述位于一列元素后时，修饰整列元素，而不修饰列表中的单个元素。

将参照图1至图13描述根据示例性实施例的基于分层数据单元的视频编码和视频解码。此外，将参照图14至图22描述根据示例性实施例的通过使用统一的语法呈现并行处理类型的视频编码方法和设备以及视频解码方法和设备。

图1是根据示例性实施例的视频编码设备100的框图。

视频编码设备100包括最大编码单元(LCU)划分器110、编码单元确定器120和输出器130。

LCU划分器110可基于图像的当前画面的LCU来划分当前画面，其中，LCU是具有最大尺寸的编码单元。如果当前画面大于LCU，则可将当前画面的图像数据划分为至少一个LCU。根据示例性实施例的LCU可以是尺寸为32×32、64×64、128×128、256×256等的数据单元，其中，数据单元的形状是大于8×8并且宽度和长度为2的倍数的正方形。图像数据可根据至少一个LCU被输出至编码单元确定器120。

根据示例性实施例的编码单元可由最大尺寸和深度表征。深度表示编码单元从LCU被空间划分的次数，并且随着深度加深，根据深度的较深层编码单元可从LCU被划分到最小编码单元(SCU)。LCU的深度为最高深度，SCU的深度为最低深度。由于随着LCU的深度加深，与每个深度相应的编码单元的尺寸减小，因此与更高深度相应的编码单元可包括多个与更低深度相应的编码单元。

如上所述，当前画面的图像数据根据编码单元的最大尺寸被划分为LCU，并且每个LCU可包括根据深度被划分的较深层编码单元。由于根据深度对根据实施例的LCU进行划分，因此可根据深度对包括在LCU中的空间域的图像数据进行分层分类。

可预先确定编码单元的最大深度和最大尺寸，其中，所述最大深度和最大尺寸限制LCU的高度和宽度被分层划分的总次数。

编码单元确定器120对通过根据深度对LCU的区域进行划分而获得的至少一个划分区域进行编码，并且根据所述至少一个划分区域来确定用于输出最终编码的图像数据的深度。换言之，编码单元确定器120通过根据当前画面的LCU以根据深度的较深层编码单元对图像数据进行编码，并选择具有最小编码误差的深度，来确定编码深度。将确定的编码深度和根据确定的编码深度的编码的图像数据输出到输出器130。

基于与等于或小于最大深度的至少一个深度相应的较深层编码单元，对LCU中的图像数据进行编码，并且基于每个较深层编码单元比较对图像数据进行编码的结果。在对较深层编码单元的编码误差进行比较之后，可选择具有最小编码误差的深度。可针对每个LCU选择至少一个编码深度。

随着编码单元根据深度而被分层地划分以及随着编码单元的数量增加，LCU的尺寸被划分。另外，即使在一个LCU中编码单元与同一深度相应，仍通过分别测量每个编码单元的图像数据的编码误差来确定是否将与同一深度相应的每个编码单元划分到更低深度。因此，即使当图像数据被包括在一个LCU中时，编码误差仍可根据所述一个LCU中的区域而不同，因此编码深度可根据图像数据中的区域而不同。因此，可在一个LCU中确定一个或更多个编码深度，并且可根据至少一个编码深度的编码单元来对LCU的图像数据进行划分。

因此，编码单元确定器120可确定包括在LCU中的具有树结构的编码单元。根据示例性实施例的“具有树结构的编码单元”包括LCU中包括的所有较深层编码单元中的与确定为编码深度的深度相应的编码单元。可根据LCU的同一区域中的深度来分层地确定编码深度的编码单元，并可在不同区域中独立地确定编码深度的编码单元。类似地，可独立于另一区域中的编码深度来确定当前区域中的编码深度。

根据示例性实施例的最大深度是与从LCU到SCU的划分次数有关的索引。根据示例性实施例的第一最大深度可表示从LCU到SCU的总划分次数。根据示例性实施例的第二最大深度可表示从LCU到SCU的深度等级的总数。例如，当LCU的深度是0时，对LCU划分一次的编码单元的深度可被设置为1，对LCU划分两次的编码单元的深度可被设置为2。这里，如果SCU是LCU被划分四次的编码单元，则存在深度0、1、2、3和4的5个深度等级，并因此第一最大深度可被设置为4，第二最大深度可被设置为5。

可根据LCU执行预测编码和变换。还根据LCU，基于根据等于最大深度的深度或小于最大深度的深度的较深层编码单元来执行预测编码和变换。

由于每当根据深度对LCU进行划分时，较深层编码单元的数量增加，因此对随着深度加深而产生的所有较深层编码单元执行包括预测编码和变换的编码。为了便于描述，在LCU中，现在将基于当前深度的编码单元来描述预测编码和变换。

视频编码设备100可不同地选择用于对图像数据进行编码的数据单元的尺寸或形状。为了对图像数据进行编码，执行诸如预测编码、变换和熵编码的操作，此时，可针对所有操作使用相同的数据单元，或者可针对每个操作使用不同的数据单元。

例如，视频编码设备100不仅可选择用于对图像数据进行编码的编码单元，还可选择不同于编码单元的数据单元，以便对编码单元中的图像数据执行预测编码。

为了在LCU中执行预测编码，可基于与编码深度相应的编码单元(即，基于不再被划分为与更低深度相应的编码单元的编码单元)来执行预测编码。以下，不再被划分且成为用于预测编码的基本单元的编码单元现在将被称为“预测单元”。通过划分预测单元而获得的分区可包括预测单元或通过对从预测单元的高度和宽度中的至少一个进行划分而获得的数据单元。

例如，当2N×2N(其中，N是正整数)的编码单元不再被划分并且成为2N×2N的预测单元时，分区的尺寸可以是2N×2N、2N×N、N×2N或N×N。分区类型的示例包括通过对预测单元的高度或宽度进行对称地划分而获得的对称分区、通过对预测单元的高度或宽度进行非对称地划分(诸如，1：n或n:1)而获得的分区、通过对预测单元进行几何地划分而获得的分区、以及具有任意形状的分区。

预测单元的预测模式可以是帧内模式、帧间模式和跳过模式中的至少一个。例如，可对2N×2N、2N×N、N×2N或N×N的分区执行帧内模式或帧间模式。另外，可仅对2N×2N的分区执行跳过模式。可对编码单元中的一个预测单元独立地执行编码，从而选择具有最小编码误差的预测模式。

视频编码设备100不仅可基于用于对图像数据进行编码的编码单元还可基于与编码单元不同的数据单元，来对编码单元中的图像数据执行变换。

为了在编码单元中执行变换，可基于具有小于或等于编码单元的尺寸的数据单元来执行变换。例如，用于变换的数据单元可包括帧内模式的数据单元和帧间模式的数据单元。

以下，作为变换的基础的数据单元现在将被称为“变换单元”。编码单元中的变换单元可以与编码单元类似的方式被递归地划分为更小尺寸的区域。因此，可基于根据变换深度的具有树结构的变换单元，对编码单元中的残差进行划分。

还可在变换单元中设置变换深度，其中，变换深度指示通过对编码单元的高度和宽度进行划分而达到变换单元的划分次数。例如，在2N×2N的当前编码单元中，当变换单元的尺寸是2N×2N时，变换深度可以是0，当变换单元的尺寸是N×N时，变换深度可以是1，当变换单元的尺寸是N/2×N/2时，变换深度可以是2。换句话说，还可根据变换深度设置具有树结构的变换单元。

根据与编码深度相应的编码单元的编码信息不仅要求关于编码深度的信息，还要求与预测编码和变换有关的信息。因此，编码单元确定器120不仅确定具有最小编码误差的编码深度，还确定预测单元中的分区类型、根据预测单元的预测模式以及用于变换的变换单元的尺寸。

在下面将参照图3至图12详细描述根据示例性实施例的LCU中的根据树结构的编码单元以及确定预测单元/分区和变换单元的方法。

编码单元确定器120可通过使用基于拉格朗日乘数的率失真优化，来测量根据深度的较深层编码单元的编码误差。

输出器130在比特流中输出LCU的图像数据和关于根据编码深度的编码模式的信息，其中，所述LCU的图像数据基于由编码单元确定器120确定的至少一个编码深度而被编码。

可通过对图像的残差进行编码来获得编码的图像数据。

关于根据编码深度的编码模式的信息可包括关于编码深度的信息、关于预测单元中的分区类型的信息、关于预测模式的信息和关于变换单元的尺寸的信息。

可通过使用根据深度的划分信息来定义关于编码深度的信息，其中，根据深度的划分信息指示是否对更低深度而不是当前深度的编码单元执行编码。如果当前编码单元的当前深度是编码深度，则对当前编码单元中的图像数据进行编码并输出，因此可将划分信息定义为不将当前编码单元划分到更低深度。可选地，如果当前编码单元的当前深度不是编码深度，则对更低深度的编码单元执行编码，并因此可将划分信息定义为对当前编码单元进行划分来获得更低深度的编码单元。

如果当前深度不是编码深度，则对被划分到更低深度的编码单元的编码单元执行编码。由于更低深度的至少一个编码单元存在于当前深度的一个编码单元中，因此对更低深度的每个编码单元重复执行编码，并因此可对具有相同深度的编码单元递归地执行编码。

由于针对一个LCU确定具有树结构的编码单元，并且针对编码深度的编码单元确定关于至少一个编码模式的信息，因此可针对一个LCU确定关于至少一个编码模式的信息。另外，由于根据深度对图像数据进行分层划分，因此LCU的图像数据的编码深度可根据位置而不同，因此可针对图像数据设置关于编码深度和编码模式的信息。

因此，输出器130可将关于相应的编码深度和编码模式的编码信息分配给包括在LCU中的编码单元、预测单元和最小单元中的至少一个。

根据示例性实施例的最小单元是通过将构成最低深度的SCU划分为4份而获得的正方形数据单元。可选择地，根据示例性实施例的最小单元可以是可包括在LCU中所包括的所有编码单元、预测单元、分区单元和变换单元中的最大方形数据单元。

例如，通过输出器130输出的编码信息可被分类为根据较深层编码单元的编码信息和根据预测单元的编码信息。根据较深层编码单元的编码信息可包括关于预测模式的信息和关于分区尺寸的信息。根据预测单元的编码信息可包括关于帧间模式的估计方向的信息、关于帧间模式的参考图像索引的信息、关于运动矢量的信息、关于帧内模式的色度分量的信息、以及关在帧内模式的插值方法的信息。

根据画面、条带或GOP定义的关于编码单元的最大尺寸的信息和关于最大深度的信息可被插入到比特流的头。

在视频编码设备100中，较深层编码单元可以是通过将更高深度(比较深层编码单元高一层的深度)的编码单元的高度或宽度划分成两份而获得的编码单元。换言之，当当前深度的编码单元的尺寸是2N×2N时，更低深度的编码单元的尺寸是N×N。另外，尺寸为2N×2N的当前深度的编码单元可包括最多4个更低深度的编码单元。

因此，视频编码设备100可基于考虑当前画面的特征而确定的LCU的尺寸和最大深度，通过针对每个LCU确定具有最优形状和最优尺寸的编码单元来形成具有树结构的编码单元。另外，由于可通过使用各种预测模式和变换中的任意一个对每个LCU执行编码，因此可考虑各种图像尺寸的编码单元的特征来确定最优编码模式。

因此，如果以传统宏块对具有高分辨率或大数据量的图像进行编码，则每个画面的宏块的数量极度增加数据。因此，针对每个宏块产生的压缩信息的条数增加，因此难以发送压缩的信息，并且数据压缩效率降低。然而，通过使用视频编码设备100，由于在考虑图像的尺寸的情况下增加编码单元的最大尺寸的同时，可在考虑图像的特征的同时调整编码单元，因此可提高图像压缩效率。

图2是根据本发明的示例性实施例的视频解码设备200的框图。

视频解码设备200包括接收器210、图像数据和编码信息提取器220和图像数据解码器230。用于视频解码设备200的各种处理的各种术语(诸如编码单元、深度、预测单元、变换单元和关于各种编码模式的信息)的定义与参照图1和视频编码设备100描述的定义相同。

接收器210接收和解析编码视频的比特流。图像数据和编码信息提取器220从解析的比特流，针对每个编码单元提取编码的图像数据，并将提取的图像数据输出到图像数据解码器230，其中，编码单元具有根据每个LCU的树结构。图像数据和编码信息提取器220可从关于当前画面的头提取关于当前画面的编码单元的最大尺寸的信息。

另外，图像数据和编码信息提取器220从解析的比特流，根据每个LCU，提取关于具有树结构的编码单元的编码深度和编码模式的信息。提取的关于编码深度和编码模式的信息被输出到图像数据解码器230。也就是说，比特流中的图像数据被划分为LCU，使得图像数据解码器230针对每个LCU对图像数据进行解码。

可针对关于与编码深度相应的至少一个编码单元的信息设置关于根据LCU的编码深度和编码模式的信息，关于编码模式的信息可包括关于与编码深度相应的相应编码单元的分区类型的信息、关于预测模式的信息和关于变换单元的尺寸的信息。另外，根据深度的划分信息可被提取为关于编码深度的信息。

由图像数据和编码信息提取器220提取的关于根据每个LCU的编码深度和编码模式的信息是关于这样的编码深度和编码模式的信息：该编码深度和编码模式被确定为在编码器(诸如，视频编码设备100)根据每个LCU对根据深度的每个较深层编码单元重复地执行编码时产生最小编码误差。因此，视频解码设备200可通过根据产生最小编码误差的编码深度和编码模式对图像数据进行解码来重建图像。

由于关于编码深度和编码模式的编码信息可被分配给相应的编码单元、预测单元和最小单元中的预定数据单元，因此图像数据和编码信息提取器220可根据预定数据单元，提取关于编码深度和编码模式的信息。如果关于相应LCU的编码深度和编码模式的信息根据预定数据单元被记录，则被分配相同的关于编码深度和编码模式的信息的预定数据单元可被推断为包括在同一LCU中的数据单元。

图像数据解码器230基于关于根据LCU的编码深度和编码模式的信息，通过对每个LCU中的图像数据进行解码，来重建当前画面。换言之，图像数据解码器230可基于提取出的关于包括在每个LCU中的具有树结构的编码单元之中的每个编码单元的分区类型、预测模式和变换单元的信息，对编码的图像数据进行解码。解码处理可包括预测(包含帧内预测和运动补偿)和逆变换。

图像数据解码器230可基于与根据编码深度的编码单元的预测单元的分区类型和预测模式相关的信息，根据每个编码单元的分区和预测模式，执行帧内预测或运动补偿。

此外，为了对每个LCU进行逆变换，图像数据解码器230还可在与每个编码单元的根据树结构的变换单元相关的尺寸信息的基础上基于每个编码单元的变换单元执行逆变换。

图像数据解码器230可通过使用根据深度的划分信息来确定当前LCU的编码深度。如果划分信息指示图像数据在当前深度中不再被划分，则当前深度是编码深度。因此，图像数据解码器230可通过使用与用于与编码深度相应的每个编码单元的预测单元的分区类型、预测模式和变换单元的尺寸相关的信息，对当前LCU中的编码数据进行解码。

换言之，可通过观察被分配给编码单元、预测单元和最小单元中的预定数据单元的编码信息集来获得包含包括相同划分信息的编码信息的数据单元，并且获得的数据单元可被认为是将由图像数据解码器230以相同编码模式进行解码的一个数据单元。

视频解码设备200可获得与在对每个LCU递归地执行编码时产生最小编码误差的至少一个编码单元有关的信息，并可使用所述信息来对当前画面进行解码。换句话说，可对每个LCU中的被确定为最优编码单元的具有树结构的编码单元进行解码。

因此，即使图像具有高分辨率和大数据量，也可通过使用编码单元的尺寸和编码模式来有效地对图像数据进行解码和重建，其中，所述编码单元的尺寸和编码模式是通过使用从编码器接收的关于最优编码模式的信息，根据图像数据的特性而被自适应地确定的。

下面参照图3至图13详细描述根据示例性实施例的根据树结构的编码单元和确定预测单元和变换单元的方法。

图3是用于描述根据示例性实施例的编码单元的构思的示图。

编码单元的尺寸可被表示为宽度×高度，并且可以是64×64、32×32、16×16和8×8。64×64的编码单元可被划分为64×64、64×32、32×64或32×32的分区，32×32的编码单元可被划分为32×32、32×16、16×32或16×16的分区，16×16的编码单元可被划分为16×16、16×8、8×16或8×8的分区，8×8的编码单元可被划分为8×8、8×4、4×8或4×4的分区。

在视频数据310中，分辨率为1920×1080，编码单元的最大尺寸为64，最大深度为2。在视频数据320中，分辨率为1920×1080，编码单元的最大尺寸为64，最大深度为3。在视频数据330中，分辨率为352×288，编码单元的最大尺寸为16，最大深度为1。图3中示出的最大深度表示从LCU到最小解码单元的划分总次数。

如果分辨率高或数据量大，则编码单元的最大尺寸可能较大，从而不仅提高编码效率，而且准确地反映图像的特征。因此，具有比视频数据330更高分辨率的视频数据310和320的编码单元的最大尺寸可以是64。

由于视频数据310的最大深度是2，因此由于通过对LCU划分两次，深度加深至2层，因此视频数据310的编码单元315可包括长轴尺寸为64的LCU和长轴尺寸为32和16的编码单元。由于视频数据330的最大深度是1，因此由于通过对LCU划分一次，深度加深至1层，因此视频数据330的编码单元335可包括长轴尺寸为16的LCU和长轴尺寸为8的编码单元。

由于视频数据320的最大深度是3，因此由于通过对LCU划分三次，深度加深至3层，因此视频数据320的编码单元325可包括长轴尺寸为64的LCU和长轴尺寸为32、16和8的编码单元。随着深度加深，详细信息可被准确地表示。

图4是根据示例性实施例的基于编码单元的图像编码器400的框图。

图像编码器400执行视频编码设备100的编码单元确定器120的操作来对图像数据进行编码。换句话说，帧内预测器410对当前帧405中的帧内模式下的编码单元执行帧内预测，并且运动估计器420和运动补偿器425通过使用当前帧405和参考帧495分别对当前帧405的帧间模式下的编码单元执行帧间估计和运动补偿。

从帧内预测器410、运动估计器420和运动补偿器425输出的数据通过变换器430和量化器440被输出为量化后的变换系数。量化后的变换系数通过反量化器460和频率逆变换器470被重建为空间域的数据，且重建的空间域中的数据在通过去块滤波器480和环路滤波器490后处理之后被输出为参考帧495。量化后的变换系数可通过熵编码器450被输出为比特流455。

为了将图像编码器400应用于视频编码设备100，图像编码器400的所有元件(即，帧内预测器410、运动估计器420、运动补偿器425、变换器430、量化器440、熵编码器450、反量化器460、频率逆变换器470、去块滤波器480和环路滤波单元490)在考虑每个LCU的最大深度的同时基于具有树结构的编码单元中的每个编码单元执行操作。

具体地，帧内预测器410、运动估计器420和运动补偿器425在考虑当前LCU的最大尺寸和最大深度的同时，确定具有树结构的编码单元中的每个编码单元的分区和预测模式，且变换器430确定具有树结构的编码单元中的每个编码单元的变换单元的尺寸。

图5是根据示例性实施例的基于编码单元的图像解码器500的框图。

解析器510从比特流505解析将被解码的编码的图像数据和解码所需的关于编码的信息。编码的图像数据通过熵解码器520和反量化器530输出为反量化的数据，且反量化的数据通过逆变换器540被重建为空间域中的图像数据。

帧内预测器550针对空间域中的图像数据对帧内模式下的编码单元执行帧内预测，且运动补偿器560通过使用参考帧585对帧间模式下的编码单元执行运动补偿。

通过帧内预测器550和运动补偿器560的空间域中的图像数据在经过去块滤波器570和偏移调整器580后处理之后被输出为重建帧595。此外，经过去块滤波器570后处理的图像数据可被输出为参考帧585。

为了在视频解码设备200的图像数据解码器230中对图像数据进行解码，图像解码器500可执行在解析器510之后执行的操作。

为了将图像解码器500应用于视频解码设备200，图像解码器500的所有元件(即，解析器510、熵解码器520、反量化器530、逆变换器540、帧内预测器550、运动补偿器560、去块滤波器570和偏移调整器580)可针对每个LCU基于具有树结构的编码单元执行操作。

具体而言，帧内预测器550和运动补偿器560针对具有树结构的编码单元中的每一个编码单元基于分区和预测模式执行操作，且逆变换器540针对每个编码单元基于变换单元的尺寸执行操作。

图6是示出根据示例性实施例的根据深度的较深层编码单元以及分区的示图。

视频编码设备100和视频解码设备200在考虑图像特征时使用分层编码单元。可根据图像的特征自适应地确定编码单元的最大高度、最大宽度和最大深度，或可由用户不同地设置编码单元的最大高度、最大宽度和最大深度。可根据编码单元的预定最大尺寸来确定根据深度的较深层编码单元的尺寸。

根据示例性实施例，在编码单元的分层结构600中，编码单元的最大高度和最大宽度均是64，最大深度是4。由于深度沿着分层结构600的垂直轴加深，因此较深层编码单元的高度和宽度均被划分。另外，预测单元和分区沿着分层结构600的水平轴被示出，其中，所述预测单元和分区是对每个较深层编码单元进行预测编码的基础。

换言之，在分层结构600中，编码单元610是LCU，其中，深度为0，尺寸(即，高度乘宽度)为64×64。深度沿着垂直轴加深，其中，编码单元620的尺寸为32×32且深度为1、编码单元630的尺寸为16×16且深度为2、编码单元640的尺寸为8×8且深度为3，并且编码单元650尺寸为4×4且深度为4。尺寸为4×4且深度为4的编码单元650是SCU。

编码单元的预测单元和分区根据每个深度沿着水平轴被排列。换言之，如果尺寸为64×64且深度为0的编码单元610是预测单元，则可将预测单元划分成包括在编码单元610中的分区，即，尺寸为64×64的分区610、尺寸为64×32的分区612、尺寸为32×64的分区614或尺寸为32×32的分区616。

类似地，可将尺寸为32×32和深度为1的编码单元620的预测单元划分成包括在编码单元620中的分区，即，尺寸为32×32的分区620、尺寸为32×16的分区622、尺寸为16×32的分区624和尺寸为16×16的分区626。

类似地，可将尺寸为16×16和深度为2的编码单元630的预测单元划分成包括在编码单元630中的分区，即，包括在编码度单元630中的尺寸为16×16的分区、尺寸为16×8的分区632、尺寸为8×16的分区634和尺寸为8×8的分区636。

类似地，可将尺寸为8×8和深度为3的编码单元640的预测单元划分成包括在编码单元640中的分区，即，包括在编码单元640中的尺寸为8×8的分区、尺寸为8×4的分区642、尺寸为4×8的分区644和尺寸为4×4的分区646。

最后，具有尺寸为4×4和深度为4的编码单元650是SCU和最低深度编码单元，并且编码单元650的相应预测单元只能被设置为尺寸为4×4的分区650。

为了确定构成LCU 610的编码单元的至少一个编码深度，视频编码设备100的编码单元确定器120对包括在LCU 610中的与每个深度相应的编码单元执行编码。

随着深度加深，包括具有相同范围和相同尺寸的数据的根据深度的较深层编码单元的数量增加。例如，需要四个与深度2相应的编码单元来覆盖包括在与深度1相应的一个编码单元中的数据。因此，为了根据深度比较对相同数据进行编码的结果，与深度1相应的编码单元和四个与深度2相应的编码单元均被编码。

为了针对多个深度之中的当前深度执行编码，可沿着分层结构600的水平轴，通过对与当前深度相应的编码单元中的每个预测单元执行编码，来针对当前深度选择最小编码误差。可选地，随着深度沿着分层结构600的垂直轴加深，可通过比较根据深度的最小编码误差，并通过针对每个深度执行编码，以搜索最小编码误差。在编码单元610中的具有最小编码误差的深度和分区可被选为编码单元610的编码深度和分区类型。

图7是用于描述根据示例性实施例的编码单元710和变换单元720之间的关系的示图。

视频编码设备100或视频解码设备200针对每个LCU，根据具有小于或等于LCU的尺寸的编码单元，对图像进行编码或解码。可基于不大于相应编码单元的数据单元，来选择用于在编码期间进行变换的变换单元的尺寸。

例如，在视频编码设备100或视频解码设备200中，如果编码单元710的尺寸是64×64，则可通过使用尺寸为32×32的变换单元720来执行变换。

此外，可通过对具有小于64×64的尺寸32×32、16×16、8×8和4×4的每个变换单元执行变换来对尺寸为64×64的编码单元710的数据进行编码，然后可选择具有最小编码误差的变换单元。

图8是用于描述根据示例性实施例的与编码深度相应的编码单元的编码信息的示图。

视频编码设备100的输出器130可对与编码深度相应的每个编码单元的与分区类型有关的信息800、与预测模式有关的信息810以及与变换单元的尺寸有关的信息820进行编码，并将与分区类型有关的信息800、与预测模式有关的信息810以及与变换单元有关的尺寸信息820作为与编码模式有关的信息来发送。

信息800指示与通过划分当前编码单元的预测单元而获得的分区的形状有关的信息，其中，分区是用于对当前编码单元进行预测编码的数据单元。例如，可将尺寸为2N×2N的当前编码单元CU_0划分成以下分区中的任意一个：尺寸为2N×2N的分区802、尺寸为2N×N的分区804、尺寸为N×2N的分区806和尺寸为N×N的分区808。这里，与分区类型有关的信息800被设置为指示以下分区之一：尺寸为2N×N的分区804、尺寸为N×2N的分区806和尺寸为N×N的分区808。

信息810指示每个分区的预测模式。例如，信息810可指示对由信息800指示的分区执行的预测编码的模式，即，帧内模式812、帧间模式814或跳过模式816。

信息820指示当对当前编码单元执行变换时所基于的变换单元。例如，变换单元可以是第一帧内变换单元822、第二帧内变换单元824、第一帧间变换单元826或第二帧间变换单元828。

视频解码设备200的图像数据和编码信息提取器220可根据每个较深层编码单元，提取并使用信息800、信息810和信息820以进行解码。

图9是根据示例性实施例的根据深度的较深层编码单元的示图。

划分信息可用来指示深度的改变。划分信息指示当前深度的编码单元是否被划分成更低深度的编码单元。

用于对深度为0和尺寸为2N_0×2N_0的编码单元900进行预测编码的预测单元910可包括以下分区类型的分区：尺寸为2N_0×2N_0的分区类型912、尺寸为2N_0×N_0的分区类型914、尺寸为N_0×2N_0的分区类型916和尺寸为N_0×N_0的分区类型918。图9仅示出了通过对称地划分预测单元910而获得的分区类型912至918，但是分区类型不限于此，并且预测单元910的分区可包括非对称分区、具有预定形状的分区和具有几何形状的分区。

根据每种分区类型，对尺寸为2N_0×2N_0的一个分区、尺寸为2N_0×N_0的两个分区、尺寸为N_0×2N_0的两个分区和尺寸为N_0×N_0的四个分区重复地执行预测编码。可对尺寸为2N_0×2N_0、N_0×2N_0、2N_0×N_0和N_0×N_0的分区执行帧内模式和帧间模式下的预测编码。仅对尺寸为2N_0×2N_0的分区执行跳过模式下的预测编码。

如果在分区类型912至916中的一个分区模式中编码误差最小，则可不将预测单元910划分到更低深度。

如果在分区类型918中编码误差最小，则深度从0改变到1以在操作920中对分区类型918进行划分，并对深度为2和尺寸为N_0×N_0的编码单元930重复地执行编码来搜索最小编码误差。

用于对深度为1和尺寸为2N_1×2N_1(＝N_0×N_0)的编码单元930进行预测编码的预测单元940可包括以下分区类型的分区：尺寸为2N_1×2N_1的分区类型942、尺寸为2N_1×N_1的分区类型944、尺寸为N_1×2N_1的分区类型946以及尺寸为N_1×N_1的分区类型948。

如果在分区类型948中编码误差最小，则深度从1改变到2以在操作950中对分区类型948进行划分，并对深度为2和尺寸为N_2×N_2的编码单元960重复执行编码来搜索最小编码误差。

当最大深度是d时，根据每个深度的划分操作可被执行直到深度变成d-1时，并且划分信息可被编码直到深度是0到d-2之一时。换句话说，当编码被执行直到在与d-2的深度相应的编码单元在操作970中被划分之后深度是d-1时，用于对深度为d-1和尺寸为2N_(d-1)×2N_(d-1)的编码单元980进行预测编码的预测单元990可包括以下分区类型的分区：尺寸为2N_(d-1)×2N_(d-1)的分区类型992、尺寸为2N_(d-1)×N_(d-1)的分区类型994、尺寸为N_(d-1)×2N_(d-1)的分区类型996和尺寸为N_(d-1)×N_(d-1)的分区类型998。

可对分区类型992至998中的尺寸为2N_(d-1)×2N_(d-1)的一个分区、尺寸为2N_(d-1)×N_(d-1)的两个分区、尺寸为N_(d-1)×2N_(d-1)的两个分区、尺寸为N_(d-1)×N_(d-1)的四个分区重复地执行预测编码，以搜索具有最小编码误差的分区类型。

即使当分区类型998具有最小编码误差时，由于最大深度是d，因此深度为d-1的编码单元CU_(d-1)也不再被划分到更低深度，用于构成当前LCU900的编码单元的编码深度被确定为d-1，并且当前LCU 900的分区类型可被确定为N_(d-1)×N_(d-1)。此外，由于最大深度是d并且具有最低深度d-1的SCU 980不再被划分成更低的深度，因此不设置用于SCU 980的划分信息。

数据单元999可以是用于当前LCU的“最小单元”。根据示例性实施例的最小单元可以是通过将SCU 980划分成4份而获得的方形数据单元。通过重复地执行编码，视频编码设备100可通过比较根据编码单元900的深度的编码误差来选择具有最小编码误差的深度以确定编码深度，并将相应分区类型和预测模式设置为编码深度的编码模式。

这样，在所有深度1至d中对根据深度的最小编码误差进行比较，并且具有最小编码误差的深度可被确定为编码深度。编码深度、预测单元的分区类型和预测模式可作为关于编码模式的信息被编码并发送。另外，由于编码单元从0的深度被划分到编码深度，因此仅将该编码深度的划分信息设置为0，并且将除了该编码深度以外的深度的划分信息设置为1。

视频解码设备200的图像数据和编码信息提取器220可提取并使用与编码单元900的编码深度和预测单元有关的信息，来对分区912进行解码。视频解码设备200可通过使用根据深度的划分信息，将划分信息为0的深度确定为编码深度，并且使用与相应深度的编码模式有关的信息来进行解码。

图10至图12是用于描述根据示例性实施例的编码单元1010、预测单元1060和变换单元1070之间的关系的示图。

编码单元1010是LCU中的与由视频编码设备100确定的编码深度相应的具有树结构的编码单元。预测单元1060是每个编码单元1010的预测单元的分区，变换单元1070是每个编码单元1010的变换单元。

当在编码单元1010中LCU的深度是0时，编码单元1012和1054的深度是1，编码单元1014、1016、1018、1028、1050和1052的深度是2，编码单元1020、1022、1024、1026、1030、1032和1048的深度是3，编码单元1040、1042、1044和1046的深度是4。

在预测单元1060中，通过划分编码单元1010中的编码单元来获得一些编码单元1014、1016、1022、1032、1048、1050、1052和1054。换句话说，编码单元1014、1022、1050和1054中的分区类型的尺寸是2N×N，编码单元1016、1048和1052中的分区类型的尺寸是N×2N，编码单元1032的分区类型的尺寸为N×N。编码单元1010的预测单元和分区小于或等于每个编码单元。

在小于编码单元1010的编码单元1052的数据单元中的变换单元1070中，对编码单元1010的图像数据执行变换或逆变换。另外，在尺寸和形状方面，变换单元1070中的编码单元1014、1016、1022、1032、1048、1050和1052不同于预测单元1060中的编码单元1014、1016、1022、1032、1048、1050和1052。换句话说，视频编码设备100和视频解码设备200可对同一编码单元中的数据单元独立地执行帧内预测、运动估计、运动补偿、变换和逆变换。

因此，对LCU的每个区域中的具有分层结构的每个编码单元递归地执行编码来确定最优编码单元，从而可获得具有递归树结构的编码单元。编码信息可包括关于编码单元的划分信息、关于分区类型的信息、关于预测模式的信息和关于变换单元的尺寸的信息。表1示出可由视频编码设备100和视频解码设备200设置的编码信息。

表1

[表1]

视频编码设备100的输出器130可输出与具有树结构的编码单元有关的编码信息，视频解码设备200的图像数据和编码信息提取器220可从接收到的比特流提取与具有树结构的编码单元有关的编码信息。

划分信息指示是否将当前编码单元划分成更低深度的编码单元。如果当前深度d的划分信息是0，则当前编码单元不再被划分成更低深度的深度是编码深度，从而可针对所述编码深度来定义与分区类型、预测模式和变换单元的尺寸有关的信息。如果当前编码单元根据划分信息被进一步划分，则对更低深度的四个划分编码单元独立地执行编码。

预测模式可以是帧内模式、帧间模式和跳过模式中的一种。可在所有分区类型中定义帧内模式和帧间模式，仅在尺寸为2N×2N的分区类型中定义跳过模式。

关于分区类型的信息可指示通过对称地划分预测单元的高度或宽度而获得的尺寸为2N×2N、2N×N、N×2N和N×N的对称分区类型，以及通过非对称地划分预测单元的高度或宽度而获得的尺寸为2N×nU、2N×nD、nL×2N和nR×2N的非对称分区类型。可通过根据1:3和3:1比例来划分预测单元的高度来分别获得尺寸为2N×nU和2N×nD的非对称分区类型，可通过根据1:3和3:1比例来划分预测单元的宽度来分别获得尺寸为nL×2N和nR×2N的非对称分区类型。

可将变换单元的尺寸设置成帧内模式下的两种类型和帧间模式下的两种类型。换句话说，如果变换单元的划分信息是0，则变换单元的尺寸可以是2N×2N，即当前编码单元的尺寸。如果变换单元的划分信息是1，则可通过对当前编码单元进行划分来获得变换单元。另外，如果尺寸为2N×2N的当前编码单元的分区类型是对称分区类型，则变换单元的尺寸可以是N×N，如果当前编码单元的分区类型是非对称分区类型，则变换单元的尺寸可以是N/2×N/2。

与具有树结构的编码单元有关的编码信息可包括与编码深度相应的编码单元、预测单元和最小单元中的至少一个。与编码深度相应的编码单元可包括包含相同编码信息的预测单元和最小单元中的至少一个。

因此，通过比较邻近数据单元的编码信息来确定邻近数据单元是否被包括在与编码深度相应的同一编码单元中。另外，通过使用数据单元的编码信息来确定与编码深度相应的相应编码单元，并因此可确定LCU中的编码深度的分布。

因此，如果基于邻近数据单元的编码信息来对当前编码单元进行预测，则可直接参考并使用与当前编码单元邻近的较深层编码单元中的数据单元的编码信息。

可选地，如果基于邻近数据单元的编码信息来对当前编码单元进行预测，则使用数据单元的编码信息来搜索与当前编码单元邻近的数据单元，并可参考搜索到的邻近编码单元以对当前编码单元进行预测。

图13是用于描述根据表1的编码模式信息的编码单元、预测单元和变换单元之间的关系的示图。

LCU 1300包括多个编码深度的编码单元1302、1304、1306、1312、1314、1316和1318。这里，由于编码单元1318是一个编码深度的编码单元，因此划分信息可被设置成0。可将关于尺寸为2N×2N的编码单元1318的分区类型的信息设置成以下分区类型中的一种：分区类型1322、尺寸为2N×N的分区类型1324、尺寸为N×2N的分区类型1326、尺寸为N×N的分区类型1328、尺寸为2N×nU的分区类型1332、尺寸为2N×nD的分区类型1334、尺寸为nL×2N的分区类型1336和尺寸为nR×2N的分区类型1338。

例如，当分区类型被设置成对称(即，分区类型是1322、1324、1326或1328)时，如果变换单元的TU尺寸标志是0，则设置尺寸为2N×2N的变换单元1342，如果TU尺寸标志是1，则设置尺寸为N×N的变换单元1344。

当分区类型被设置成非对称(即，分区类型是1332、1334、1336或1338)时，如果TU尺寸标志是0，则设置尺寸为2N×2N的变换单元1352，如果TU尺寸标志是1，则设置尺寸为N/2×N/2的变换单元1354。

下面将详细描述通过根据示例性实施例的图4的图像编码器400的运动估计器420执行的分层运动预测处理。

如上所述，运动估计器420和运动补偿器425可根据预测单元对具有树结构的编码单元执行运动预测和运动补偿。预测单元(即运动预测和运动补偿的单元)在下面被称为块。

分层运动预测是通过使用下采样的当前帧和下采样的参考帧执行运动预测来获得运动矢量，并基于下采样率扩展通过执行运动预测而产生的运动矢量的处理。高分辨率图像帧包括许多像素，因此用来执行运动预测的计算量会增加。因而，根据示例性实施例，可通过使用具有降低的分辨率的下采样的帧来执行运动预测以促进运动预测处理。

图14是根据示例性实施例的分层运动预测设备1400的框图。图14的分层运动预测设备1400对应于图4的运动估计器420。

参照图14，分层运动预测设备1400包括自适应下采样器1410和运动预测执行器1420。

自适应下采样器1410通过降低输入图像帧的分辨率来输出下采样的图像帧。如上所述，输入图像帧的分辨率被降低以便实现高速运动预测。

自适应下采样器1410将包括将被运动预测的当前块的当前帧划分为像素组，其中，像素组相当于预定数量的相邻像素。自适应下采样器1410可通过从每个像素组选择并输出第一位置的预定像素来对当前帧执行下采样。换句话说，自适应下采样器1410通过从包括在像素组中的多个像素选择并输出第一位置的预定单个像素来执行下采样。自适应下采样器1410还可将当前帧参考的参考帧划分为像素组，其中，像素组相当于预定数量的相邻像素，并且自适应下采样器1410通过从参考帧的每个像素组选择并输出被用于对当前帧执行下采样的与第一位置不同的第二位置的像素。因此，当对当前帧和参考帧执行下采样时，自适应下采样器1410可不使用不变的下采样方法，而是可针对每个帧改变下采样方法。

更详细地，假设图像帧在水平方向上包括W个像素(其中，W是整数)并在垂直方向上包括H个像素(其中，H是整数)，并具有W×H的分辨率。假设包括在第t时刻输入的图像帧中的位置(x,y)(x，y是0＝x<W/2，0＝y<H/2的整数)的像素是F(x,y,t)。假设第t帧的像素中的最左上方的像素是F(0,0,t)，且最右下方的像素是F((W-1),(H-1),t)。假设像素组包括彼此相邻的四个像素，即，左上方第一像素、右上方第二像素、左下方第三像素和右下方第四像素。在上述示例中，包括在第t帧的可选像素组中的第一像素至第四像素分别是F(2x,2y,t)、F(2x+1,2y,t)、F(2x,2y+1,t)和F(2x+1,2y+1,t)。还可假设下采样的图像帧的位置(x,y)的像素是f(x,y,t)。在这种情况下，可根据下面的等式1执行下采样处理。

数学等式1

[数学1]

f(x，y，t)＝F(2x+dx(t)，2y+dy(t)，t)

在等式1中，dx(t)和dy(t)是用于改变包括在第t帧的像素组中的四个像素的位置的值，dx(t)和dy(t)可以根据t的值(即帧)被可变地设置。如上所述，当像素组包括彼此相邻的四个像素时，dx(t)和dy(t)具有值0或1。从像素组选择的像素的位置可根据dx(t)和dy(t)的值被改变。例如，当dx(t)＝dy(t)＝0时，从像素组选择左上方第一像素。当dx(t)＝1且dy(t)＝0时，从像素组选择右上方第二像素。当dx(t)＝0且dy(t)＝1时，从像素组选择左下方第三像素。当dx(t)＝dy(t)＝1时，从像素组选择右下方第四像素。如上所述，当像素组包括四个像素时，下采样的图像帧具有(W/2)×(H/2)的分辨率。然而，根据示例性实施例的自适应下采样方法不限于像素组包括四个像素的情况，而当从m*n(其中,m和n是整数)的可选像素组中选择单个像素时也可被应用。

运动预测执行器1420通过使用下采样的当前帧和下采样的参考帧对包括在当前帧中的下采样的块执行运动预测，并产生下采样的块的运动矢量。更详细地，假设以尺寸为2N×2N(其中，N是整数)的块为单位对原始分辨率的图像帧执行运动预测，在上述示例中，运动预测执行器1420将下采样的当前帧划分为尺寸为N×N的块，并获得指示在下采样的参考帧中与当前块最相似的相应范围的运动矢量。

在下采样的帧中产生的块的运动矢量是与原始分辨率的输入帧相比被缩小了下采样率的运动矢量。因而，运动预测执行器1420可基于下采样率将从下采样的帧中获得的块的运动矢量扩展至适应于原始分辨率的帧。换句话说，当像素组在水平方向上包括m个像素(其中，m是整数)并在垂直方向上包括n个像素(其中，n是整数)时，运动预测执行器1420可将获得的运动矢量的水平轴分量扩展m倍，并将获得的运动矢量的垂直轴分量扩展n倍，以产生适应于原始分辨率的帧的运动矢量。如在上面的示例中所描述的，当像素组包括尺寸为2×2的彼此相邻的像素时，与原始分辨率的帧相比，下采样的当前帧和参考帧具有在水平轴和垂直轴上被缩小了1/2的分辨率。在这种情况下，如果通过使用下采样的当前帧和参考帧而产生的运动矢量是(mv_x,mv_y)，则原始图像帧的运动矢量是通过将从下采样的帧获得的运动矢量的大小加倍而获得的(2*mv_x,2*mv_y)。

现在将在下面详细描述根据示例性实施例的输入图像帧的下采样处理。

图15是用于解根据示例性实施例的输入图像帧的下采样处理的参考示图。图15的自适应下采样器1520对应于图14的自适应下采样器1410。

参照图15，自适应下采样器1520接收像素组的输入，其中，所述像素组包括有在构成输入图像帧1510的像素中的预定数量的相邻像素，并且自适应下采样器1520包括多个复用器MUX，其中，复用器MUX从包括在输入的像素组中的像素中选择并输出单个像素。自适应下采样器1520接收输入图像帧1510中所包括的包括四个相邻像素的像素组1511、1512和1513的输入，选择并输出包括在每个像素组中的单个像素。更加详细地，自适应下采样器1520可从包括在像素组1511中的像素0a、0b、0c和0d中选择并输出在左上方的0a像素1531，可从包括在像素组1512中的像素1a、1b、1c和1d中选择并输出在左上方的1a像素1532，并且可从包括在像素组1513中的像素2a、2b、2c和2d中选择并输出在左上方的2a像素1533。因此，自适应下采样器1520通过针对包括在输入图像帧1510中的所有像素重复选择和输出单个像素的处理来输出下采样的帧。

自适应下采样器1520可针对每个图像帧改变从每个像素组选择的像素的位置。例如，如果针对第t图像帧(其中，t是整数)从每个像素组选择在左上方的像素，则自适应下采样器1520可针对第(t+1)图像帧选择除左上位置之外的另一位置的像素并且执行下采样。自适应下采样器1520可改变从每个图像帧的像素组选择的像素的位置，从而获得反映图像帧之间的特定运动分量的下采样帧。

从像素组选择的像素的位置可基于帧顺序被预先确定。例如，可针对偶数图像帧从像素组的像素选择第一位置的预定像素，并且可针对奇数图像帧从像素组的像素选择除第一位置之外的第二位置的像素。

可基于在每个图像帧之前被编码的先前帧的运动矢量来确定将从每个图像帧的像素组选择的像素的位置。关于先前帧的运动矢量的信息可以是包括在先前帧中的块的运动矢量的平均值或先前帧的全局运动矢量。如果先前帧的运动矢量的信息未被使用，则如上所述，可基于帧顺序从像素组中选择预先确定的位置的像素。

更加详细地，对针对第(t-1)帧、第t帧和第(t+1)帧改变像素位置并执行下采样的情况进行说明。自适应下采样器1520可通过使用包括在第(t-1)帧中的块的运动矢量的平均值或第(t-1)帧的全局运动矢量来确定将从包括在第t帧和第(t+1)帧中的每个像素组中选择用于进行下采样的像素位置。

假设包括在第(t-1)帧中的块的运动矢量的平均值或第(t-1)帧的全局运动矢量(下文中称为“全局运动矢量”)是(MVx_global_(t-1),MVy_global_(t-1))，当全局运动矢量的水平轴方向分量MVx_global_(t-1)具有奇数值时，自适应下采样器1520以从第t帧的像素组中选择的像素的第一位置和从第(t+1)帧的像素组中选择的像素的第二位置可在水平方向上相差一个像素的方式来选择第一位置以及第二位置。当全局运动矢量的垂直轴方向分量MVy_global_(t-1)具有偶数值时，自适应下采样器1520以从第t帧的像素组中选择的像素的第一位置和从第(t+1)帧的像素组中选择的像素的第二位置可在垂直方向上相差一个像素的方式来选择第一位置以及第二位置。

作为例子，当第(t-1)帧的全局运动矢量的水平轴方向分量MVx_global_(t-1)具有奇数值时，自适应下采样器1520根据下面的等式2对第t帧执行下采样。

数学等式2

[数学2]

f(x，y，t)＝F(2x，2y，t)

换句话说，自适应下采样器1520通过确定dx(t)＝dy(t)＝0并从第t帧的像素组选择左上方第一像素来执行下采样。

自适应下采样器1520根据下面的等式3对第t帧之后的第(t+1)帧执行下采样。

数学等式3

[数学3]

f(x，y，t+1)＝F(2x+1，2y，t+1)

换句话说，自适应下采样器1520通过确定dx(t+1)＝1，dy(t+1)＝0并从第(t+1)帧的像素组选择右上方第二像素来执行下采样。

类似地，当第(t-1)帧的全局运动矢量的垂直轴方向分量MVy_global_(t-1)具有奇数值时，自适应下采样器1520可根据上述等式2对第t帧执行下采样，并且根据下面的等式4对第t帧之后的第(t+1)帧执行下采样。

数学等式4

[数学4]

f(x，y，t+1)＝F(2x，2y+1，t+1)

换句话说，自适应下采样器1520通过确定dx(t+1)＝0，dy(t+1)＝1并从第(t+1)帧的像素组选择左下方第三像素来执行下采样。

因此，在连续的帧之间被采样的像素的位置被改变一个像素，以便更准确地预测存在于图像帧之间的具有奇数值的运动矢量。

当第(t-1)帧的全局运动矢量的水平轴方向分量MVx_global_(t-1)和垂直轴方向分量MVy_global_(t-1)具有奇数值时，自适应下采样器1520可根据上述等式2对第t帧执行下采样，并且根据下面的等式5对第t帧之后的第(t+1)帧执行下采样。

数学等式5

[数学5]

f(x，y，t+1)＝F(2x+1，2y+1，t+1)

当第(t-1)帧的全局运动矢量的水平轴方向分量MVx_global_(t-1)和垂直轴方向分量MVy_global_(t-1)具有偶数值时，自适应下采样器1520可通过选择像素(2x,2y)来对第t帧和第(t+1)帧执行下采样。

图16示出了根据本发明的实施例的通过使用自适应下采样方法进行下采样的示例性帧。

参照图16，如果包括在第(t-1)帧1610的预定像素组中的四个像素是F(2x,2y,t-1)、F(2x+1,2y,t-1)、F(2x,2y+1,t-1)和F(2x+1,2y+1,t-1)，则自适应下采样器1410从每个像素组选择和输出第一位置的预定像素，例如，像素F(2x,2y,t-1)。作为例子，在图16中，从包括在像素组1611中的位置(0,0)、(0,1)、(1,0)和(1,1)的像素中选择位置(0,0)的像素1612。针对第t帧1620选择与针对第(t-1)帧1610选择的位置不同的第二位置的像素。例如，如果包括在第t帧1620的预定像素组中的四个像素是F(2x,2y,t)、F(2x+1,2y,t)、F(2x,2y+1,t)和F(2x+1,2y+1,t)，则由于针对第(t-1)帧1610对与位置(2x，2)相应的像素F(2x,2y,t-1)进行采样，因此自适应下采样器1410可从排除了像素F(2x,2y,t)的像素中选择将被采样的像素。作为例子，在图16中，从包括在像素组1622中的位置(0,0)、(0,1)、(1,0)和(1,1)的像素(排除位置(0,0)的像素)中选择位置(1,0)的像素。

图17A和图17B示出了根据示例性实施例的示例性下采样的帧和将被下采样的帧。

参照图17A，假设被表示为阴影区域的对象存在于第(t-1)帧1710和第t帧1720中。假设对象在连续帧之间具有在水平轴上移动一个像素的运动。如参照图16所描述的，当像素组的左上方像素针对第(t-1)帧被采样并且像素组的右上方像素针对第t帧1720被采样时(如图17A中所示)，获得如图17B中所示的下采样的第(t-1)帧1730和下采样的第t帧1740。

图18A和图18B示出了根据示例性实施例的通过使用相同的下采样方法进行下采样的示例性帧。

参照图18A，假设被表示为阴影区域的对象存在于第(t-1)帧1810和第t帧1820中。假设对象在连续帧之间具有在水平轴上移动一个像素的运动。如参照图16所描述的，当像素组的被表示为“0”的左上方像素针对第(t-1)帧1810和第t帧1820被采样时，如图18B中所示，获得下采样的第(t-1)帧1830和下采样的第t帧1840。在下采样的第t帧1840中，存在在第t帧1820中的对象数据在下采样处理中被丢失。因此，即使通过使用下采样的第t帧1840执行运动预测，由于原始对象的数据被丢失，因此难以预期有效的运动预测。

另一方面，参照图17A和图17B，在下采样的第t帧1740中，对象数据的损失相对较小。因此，通过基于图像帧之间的运动信息来改变针对每个帧被采样的像素的位置来执行下采样，从而使存在于原始图像帧中的对象信息的损失最小化。

图19示出了根据另一示例性实施例的通过使用自适应下采样方法进行下采样的示例性帧。假设在帧之间存在具有在水平方向上移动奇数个像素的运动的对象。

在这种情况下，自适应下采样1410可将从像素组中选择的像素的位置确定为在水平方向上具有一个像素的差。例如，参照图19，自适应下采样器1410可从包括在第(t-2)帧1910的预定像素组中的像素F(2x,2y,t-2)、F(2x+1,2y,t-2)、F(2x,2y+1,t-2)和F(2x+1,2y+1,t-2)中选择左上方像素F(2x,2y,t-2)，并产生下采样的第(t-2)帧。自适应下采样器1410可从包括在第(t-1)帧1920的预定像素组中的像素F(2x,2y,t-1)、F(2x+1,2y,t-1)、F(2x,2y+1,t-1)和F(2x+1,2y+1,t-1)中选择右上方像素F(2x+1,2y,t-1)，并产生下采样的第(t-1)帧。自适应下采样器1410可从包括在第t帧1930的预定像素组中的像素F(2x,2y,t)、F(2x+1,2y,t)、F(2x,2y+1,t)和F(2x+1,2y+1,t)中选择左上方像素F(2x,2y,t)，并产生下采样的第t帧。自适应下采样器1410可从包括在第(t+1)帧1940的预定像素组中的像素F(2x,2y,t+1)、F(2x+1,2y,t+1)、F(2x,2y+1,t+1)和F(2x+1,2y+1,t+1)中选择右上方像素F(2x+1,2y,t+1)，并产生下采样的第(t+1)帧。

类似地，当在帧之间存在具有在垂直方向上移动奇数个像素的运动的对象时，自适应下采样1410可将从像素组中选择的像素的位置确定为在垂直方向上具有一个像素的差。

图20是根据示例性实施例的分层运动预测设备2000的框图。

参照图20，分层运动预测设备2000包括自适应下采样器2010、运动预测执行器2020、运动矢量调整器2330和运动分析器2040。

自适应下采样器2010和运动预测执行器2020的操作与根据上述示例性实施例的自适应下采样器1410和运动预测执行器1420的操作相同，因此这里将不再重复其描述。

运动矢量调整器2030对由运动预测执行器2020基于被下采样的当前帧和参考帧获得的运动矢量进行校正，并获得更精确的运动矢量。

运动分析器2040对在每个图像帧之前编码的先前帧的运动矢量进行分析，并将分析的运动矢量的运动矢量信息输出到自适应下采样器2010。自适应下采样器2010可基于先前帧的运动矢量信息确定将从每个图像帧的像素组中选择的像素的位置。如上所述，先前帧的运动矢量信息可以是包括在先前帧中的块的运动矢量的平均值或先前帧的全局运动矢量。

图21是用于说明根据示例性实施例的由分层运动预测设备2000的运动矢量调整器2030执行的精确地调整运动矢量的处理的参考示图。

运动预测执行器2020将从下采样的帧获得的块的运动矢量扩展至适应于原始分辨率的帧，并针对原始分辨率的图像帧产生每块的运动矢量。也就是说，当像素组在水平方向上包括m个像素(其中，m是整数)并在垂直方向上包括n个像素(其中，n是整数)时，运动预测执行器2020可将获得的运动矢量的水平轴分量扩展m倍，将获得的运动矢量的垂直轴分量扩展n倍，并且产生适应于原始分辨率的帧的运动矢量。通过使用下采样的当前帧和下采样的参考帧获得的运动矢量具有比基于原始分辨率的帧获得的运动矢量的准确度低的准确度。因此，为了校正这样的准确度损失，运动预测执行器2020可执行精确地调整确定的运动矢量的处理。

参照图21，假设当前帧是第t帧，并且参考帧是第(t-1)帧。还假设由运动预测执行器2020通过使用下采样的帧而获得的当前块2110的运动矢量是MV_Down。在针对当前块2110的运动矢量MV_Down所指示的第(t-1)帧的相应范围2120被扩展了预定数量的像素的搜索范围2130中，运动矢量调整器2030确定与当前块2110最相似的相应范围。例如，假设搜索范围2130是通过将相应范围2120向上、下、右和左各扩展+1个像素而获得的范围。在这种情况下，可通过运动矢量调整器2030的调整处理在1的范围内改变在运动矢量MV_Down的水平轴方向上的运动矢量分量和在运动矢量MV_Down垂直轴方向上的运动矢量分量。搜索范围2130的大小不限于+1个像素，并且可被改变。然而，搜索范围2130的大小可针对高速运动预测不被扩展。如上所述，当下采样的帧通过从2×2的像素组中选择单个像素而具有2个像素单位的分辨率时，可通过按照+1个像素扩展相应范围2120来获得搜索范围2130。

同时，根据另一示例性实施例的运动矢量调整器2330和运动分析器2040的操作可通过根据示例性实施例的运动预测执行器1420执行。

图22是根据示例性实施例的分层运动预测方法的流程图。

参照图14和图22，在操作2210，自适应下采样器1410将包括将被运动预测的块的第一帧划分为像素组，并且通过从每个划分出的像素组中选择第一位置的像素来产生将被运动预测的块的下采样的第一帧和下采样的块。

在操作2220中，自适应下采样器1410将在第一帧之前被编码然后重建的第二帧划分为像素组以对下采样的块进行运动预测，并且通过从每个划分出的像素组中选择与第一位置不同的第二位置的像素来产生下采样的第二帧。

如上所述，假设像素组包括彼此相邻的四个像素，即，左上方第一像素、右上方第二像素、左下方第三像素和右下方第四像素，且包括在第t帧的可选像素组中的第一像素至第四像素分别是F(2x,2y,t)、F(2x+1,2y,t)、F(2x,2y+1,t)和F(2x+1,2y+1,t)，则可通过改变上述等式1中的dx(t)和dy(t)的值来改变从像素组中选择的像素的位置。

从像素组中选择的像素的位置可基于帧顺序被预先确定。从每个图像帧的像素组中选择的像素的位置可基于先前编码的帧的运动矢量被确定。先前帧的运动矢量信息可以是包括在先前帧中的块的运动矢量的平均值或先前帧的全局运动矢量。

在操作2230，运动预测执行器1420通过参考下采样的第二帧来对下采样的块执行运动预测，并且获得下采样的块的运动矢量。

在操作2240，运动预测执行器1420基于第一帧的下采样率扩展运动矢量。如上所述，当像素组包括彼此相邻的尺寸为2×2的像素时，下采样的当前帧和参考帧与原始分辨率的图像帧相比具有在水平轴和垂直轴上缩小1/2的分辨率。在这种情况下，如果通过使用下采样的当前帧和参考帧而产生的运动矢量是(mv_x,mv_y)，则原始图像帧的运动矢量是通过将从下采样的帧获得的运动矢量的大小加倍而获得的(2*mv_x,2*mv_y)。

如上所述，根据以上示例性实施例中的一个或更多个示例性实施例，通过使用从原始图像帧下采样出的低分辨率图像帧来执行运动预测，因此运动预测的复杂度降低。还可通过使用在帧之间具有高相关性的低分辨率图像帧来执行运动预测，因此，可提高运动预测效率。换句话说，根据以上示例性实施例中的一个或更多个示例性实施例，即使当通过使用具有比原始图像帧的分辨率更低的分辨率的图像帧来执行运动预测时，运动预测的准确度也会被提高，从而增加运动预测效率。

计算机可读代码可以以各种方式在介质上记录/传送，介质的示例包括记录介质(诸如磁存储介质(例如，ROM、软盘、硬盘等)和光学记录介质(例如，CD-ROM或DVD))和传输介质(诸如互联网传输介质)。因此，根据一个或更多个示例性实施例，介质可以是包括或携带信号或信息的这种被限定的和可测量的结构，诸如携带比特流的装置。介质还可以是分布式网络，以便计算机可读代码以分布方式被存储/传输和执行。

应该理解的是，在此描述的示例性实施例应该仅以描述性的意义来考虑，而不是为了限制的目的。每个示例性实施例中的对特征或方面的描述通常应被认为可用于其它示例性实施例中的类似特征或方面。

虽然已经参照附图对一个或更多个示例性实施例进行了描述，但是本领域的普通技术人员应该理解的是，在不脱离由权利要求限定的本发明的精神和范围的情况下，可作出形式和细节上的各种改变。

Claims

1.一种分层运动预测方法，包括：

通过从第一帧中的多个像素组中的每一个中选择第一位置的像素来产生包括将被运动预测的下采样的当前块的下采样的第一帧；

通过从第二帧中的多个像素组中的每一个中选择第二位置的像素来产生下采样的第二帧；

通过参考下采样的第二帧对下采样的当前块执行运动预测，并获得下采样的当前块的运动矢量；

基于第一帧的下采样率将运动矢量扩展为对应于第一帧的原始分辨率。

2.如权利要求1所述的分层运动预测方法，其中，多个像素组中的每一个包括左上方第一像素、右上方第二像素、左下方第三像素、右下方第四像素彼此相邻的四个像素，

其中，在产生下采样的第一帧的过程中，第一位置的像素是从包括在第一帧的多个像素组中的所述四个像素中选择的；

其中，在产生下采样的第二帧的过程中，与第一位置不同的第二位置的像素是从包括在第二帧的多个像素组中的所述四个像素中选择的。

3.如权利要求1所述的分层运动预测方法，其中，第一位置和第二位置是基于在第一帧和第二帧被编码之前被编码的先前帧的全局运动矢量来确定的，

其中，如果全局运动矢量的水平轴方向分量具有奇数值，则第二位置是从多个像素组中的每一个中所包括的像素之中处于第一位置的像素沿水平方向移动一个像素后的位置，如果全局运动矢量的垂直轴方向分量具有奇数值，则第二位置是从多个像素组中的每一个中所包括的像素中处于第一位置的像素沿垂直方向移动一个像素后的位置。

4.如权利要求1所述的分层运动预测方法，其中，将运动矢量扩展为对应于第一帧的原始分辨率的步骤包括：

当多个像素组中的每一个在水平方向上包括m个像素并在垂直方向上包括n个像素时，将获得的运动矢量的水平轴分量扩展m倍并将获得的运动矢量的垂直轴分量扩展n倍，其中，m是整数，n是整数。

5.如权利要求1所述的分层运动预测方法，还包括：

通过在与扩展后的运动矢量所指示的第二帧的区域相应的搜索范围内确定与将被运动预测的块最相似的相应块来调整扩展后的运动矢量。

6.一种分层运动预测设备，包括：

自适应下采样器，被配置为通过从第一帧中的多个像素组中的每一个中选择第一位置的像素来产生包括将被运动预测的下采样的当前块的下采样的第一帧，并通过从第二帧中的多个像素组中的每一个中选择第二位置的像素来产生下采样的第二帧；

运动预测执行器，被配置为通过参考下采样的第二帧对下采样的当前块执行运动预测并获得下采样的当前块的运动矢量，并基于第一帧的下采样率将运动矢量扩展为对应于第一帧的原始分辨率。

7.如权利要求6所述的分层运动预测设备，其中，多个像素组中的每一个包括左上方第一像素、右上方第二像素、左下方第三像素和右下方第四像素彼此相邻的四个像素，

其中，自适应下采样器还被配置为从包括在第一帧的多个像素组中的所述四个像素中选择第一位置的像素，并从包括在第二帧的多个像素组中的所述四个像素中选择与第一位置不同的第二位置的像素。

8.如权利要求6所述的分层运动预测设备，其中，第一位置和第二位置是基于在第一帧和第二帧被编码之前被编码的先前帧的全局运动矢量来确定的，

9.如权利要求6所述的分层运动预测设备，其中，当多个像素组中的每一个在水平方向上包括m个像素并在垂直方向上包括n个像素时，运动预测执行器将获得的运动矢量的水平轴分量扩展m倍并将获得的运动矢量的垂直轴分量扩展n倍，其中，m是整数，n是整数。