CN104396249B

CN104396249B - 可伸缩视频编码的层间预测的方法和设备

Info

Publication number: CN104396249B
Application number: CN201380032664.XA
Authority: CN
Inventors: 庄子德; 黄毓文; 陈庆晔; 蔡家扬; 傅智铭; 向时达
Original assignee: HFI Innovation Inc
Current assignee: HFI Innovation Inc
Priority date: 2012-06-20
Filing date: 2013-06-13
Publication date: 2017-12-26
Anticipated expiration: 2033-06-13
Also published as: EP2813079A4; WO2013189257A1; EP2813079B1; US9924181B2; CN104396249A; US20150139325A1; EP2813079A1

Abstract

本发明提出一种用于可伸缩视频编码的层间预测方法和装置。本发明的实施例采用加权预测进行可伸缩编码。加权预测基于已预测纹理数据以及从BL已重建数据中获取的层间帧内预测数据。层间帧内预测数据对应BL已重建数据或上采样BL已重建数据。基于与当前EL图片位于同一层的第二EL视频数据，已预测纹理数据对应空间帧内预测数据或运动补偿预测数据。本发明的实施例也采用包括对应于BL重建后纹理帧或上采样BL重建后纹理帧的ILRP的参考图片列表，对EL视频数据进行帧间预测。当ILRP被选作参考图片时，运动矢量被限制到(0,0)附近的一范围内。通过利用本发明，可改进可伸缩视频编码的图像质量以及/或者编码效率。

Description

可伸缩视频编码的层间预测的方法和设备

交叉引用

本发明要求2012年6月20日递交的美国临时申请案No.61/661,834，发明名称为“Bi-directional Prediction in Scalable Video Coding Extension of HighEfficiency Video Coding”的优先权，且将此申请作为参考。

技术领域

本发明有关于可伸缩视频编码(Scalable Video Coding，SVC)，且尤其有关于用于可伸缩视频编码的层之间的层间预测(inter-layer prediction)。

背景技术

压缩数字视频(compressed digital video)已被广泛用于各种应用中，例如数字网络上的视频流(video streaming)以及数字频道(channel)上的视频传输。经常地，单一视频内容可以在具有不同特性的多个网络上传递。举例来说，实时体育赛事可被承载在宽带网络上的高带宽流(high-bandwidth streaming)格式中，以用于优质的视频服务。在此类应用中，压缩视频通常保留有高解析度(resolution)以及高质量(quality)，所以视频内容适用于高清装置(high-definition device)，如高清晰度电视(High-Definition TV，HDTV)或者高解析度液晶显示屏(Liquid Crystal Display，LCD)显示。相同内容也可以通过蜂窝数据网络承载，使得内容可以在便携式装置(如智能手机或者联网便携媒介装置)上观看。在此类应用中，由于网络带宽问题以及智能手机或者便携装置上的典型的低解析度显示，视频内容通常被压缩到较低解析度以及较低比特率(bitrate)。因此，对不同的网络环境以及不同的应用来说，对视频解析度以及视频质量的需求有显著差异。即使对于相同类型的网络来说，由于不同的网络架构以及网络流量(traffic)条件，用户也可能体验到不同的可用带宽。因此，当可用带宽较高时，用户期望接收到较高质量的视频，而当网络发生拥塞(congestion)时，用户期望接收到较低质量但是流畅的视频。在另一个场景中，由于有限的计算资源，高端视频播放器可以处理高解析度以及高比特率的压缩视频，而低成本视频播放器只能处理低解析度以及低比特率的压缩视频。相应地，需要以可伸缩的方式构建压缩视频，使得不同空时(spatial-temporal)解析度以及/或者质量的视频可以从相同压缩比特流中获得。

国际标准化组织(International Standard Organization，ISO)/国际电工委员会(International Electrotechnical Commission，IEC)运动图象专家组(MovingPicture Experts Group，MPEG)的联合视频组(Joint Video Team，JVT)以及国际电信联盟电信标准化部(International Telecommunication Union TelecommunicationStandardization Sector，ITU-T)视频编码专家组(Video Coding Experts Group，VCEG)将可伸缩视频编码标准化为H.264/AVC标准的扩展。H.264/AVC SVC比特流可以包含从低帧率(frame-rate)、低解析度以及低质量到高帧率，高解析度以及高质量的视频信息。这个单一比特流可以适用于不同应用以及显示在具有不同配置的装置上。相应地，H.264/AVC SVC适合各种视频应用，如视频广播、视频流以及视频监控(surveillance)以适应于网络架构、流量条件、用户偏好等。

SVC中提供三种可伸缩性，即时间可伸缩性(temporal scalability)、空间可伸缩性(spatial scalability)以及质量可伸缩性(quality scalability)。SVC采用多层编码结构以实现三维可伸缩。SVC的主要目标为在没有转换编码(trans-coding)或者重新编码(re-encoding)时，产生一个可伸缩比特流，以及该比特流可以容易以及快速地适应与各种传输频道、多种显示能力以及不同计算资源相关的比特率需求。SVC设计的一个重要特征为可缩放以比特流级别(bitstream level)提供。换句话说，获取具有减少的空间以及/或者时间解析度的视频的比特流可以通过从目标视频进行解码所需的可缩放比特流中提取网络抽象层(Network Abstraction Layer，NAL)单元(或者网络封包)而简单得到。用于质量优化(refinement)的NAL单元可被额外截短(truncated)，以减少比特率以及相关视频质量。

在SVC中，空间可伸缩性基于图1所示的金字塔(pyramid)编码方案得以支持。在具有空间可伸缩的SVC系统中，视频序列首先下采样(down-sampled)以获得不同空间解析度(层)的更小的图片。举例来说，具有原始解析度的图片110可以由空间抽取(spatialdecimation)120处理以获得解析度降低的(resolution-reduced)图片111。如图1所示，解析度降低的图片111可以进一步由空间抽取121处理，以获得解析度进一步降低的图片112。除了两次空间解析之外(其中在每一个级别空间解析度被降低为一半)，SVC也支持任意解析度比，其被称作扩展空间可伸缩性(Extended Spatial Scalability，ESS)。图1中的SVC系统描述了具有3层的空间可伸缩系统的示范例，其中层0对应具有最低空间解析度的图片，层2对应具有最高解析度的图片。层0图片被编码时并不参考其他层，即采用单层编码。举例来说，最低层图片112通过运动补偿(motion-compensated)及帧内预测(intraprediction)130被编码。

运动补偿及帧内预测130可产生语法元素(syntax element)以及编码相关信息(如运动信息)，以用于进一步的基础层(Base Layer,BL)熵编码140。图1实际上示出了提供空间可伸缩性以及质量可伸缩性的组合SVC系统，其中质量可伸缩性也被称为信噪比(Signal To Noise Ratio，SNR)可伸缩性。该系统也可以提供时间可伸缩性，但并未被明示。对于每一个单层编码，残差(residual)编码错误可以使用SNR增强层编码150而优化。图1的SNR增强层可以提供多个质量级别(质量可伸缩性)。每一被支持的解析度层可以分别通过像无伸缩编码系统的单层运动补偿及帧内预测进行编码。每一较高空间层也可以基于一个或者更多较低空间层采用层间编码进行编码。举例来说，层1视频可以基于层0视频采用层间预测，或者基于逐宏块(macroblock by macroblock)或者其他区块单元采用单层编码，进行自适应编码。类似地，层2视频可以基于已重建层1视频采用层间预测，或者采用单层编码，进行自适应编码。如图1所示，层1图片111可以通过运动补偿及帧内预测131、基础层熵编码141和SNR增强层编码151进行编码。如图1所示，已重建BL视频数据也被运动补偿及帧内预测131使用，其中空间层1中的编码区块可将上述已重建BL视频数据用作额外帧内预测数据(即不涉及运动补偿)。类似地，层2图片110可以通过运动补偿及帧内预测132、基础层熵编码142和SNR增强层编码152进行编码。所有空间层的BL比特流和SNR增强层比特流通过多工器(multiplexer)160进行多路复用，从而产生可伸缩比特流。由于层间编码，编码效率可得以提高。此外，编码空间层1所需的信息可依赖于已重建层0(层间预测)。SVC系统中的较高层被称作增强层(Enhancement Layer，EL)。H.264SVC提供三种层间预测工具：层间运动预测、层间帧内预测以及层间残差预测。

在SVC中，增强层可以复用基础层中的运动信息，以减少层间运动数据冗余。举例来说，EL宏块编码可以在宏块类型(mb_type)决定之前，利用旗标(flag)来指示EL运动信息是否直接从BL获取，其中旗标如base_mode_flag。如果base_mode_flag等于1，具有相关参考索引的EL宏块的分割数据以及运动矢量(Motion Vector，MV)为从BL中并置的(collocated)8x8区块的对应数据获取。BL的参考图片索引直接用于EL。EL的运动矢量为对BL相关数据的缩放(scale)。除此之外，已缩放BL运动矢量可以用作EL的额外运动矢量预测子(Motion Vector Predictor，MVP)。

层间残差预测使用上采样(up-sampled)BL残差信息以减少编码EL残差所需信息。BL的并置残差可以为采用双线性滤波器(bilinear filter)的逐块(block-wise)上采样，并可以用作EL中对应宏块的残差的预测。参考层残差的上采样以变换区块为基础而完成，以确保跨越变换区块边界时不进行滤波。

与层间残差预测相似，层间帧内预测减少了EL的冗余纹理(texture)信息。EL中的预测是通过并置BL重建信号逐块上采样对而产生。在层间帧内预测上采样进程中，4抽头(tap)以及2抽头有限脉冲响应(Finite Impulse Response，FIR)滤波器分别被用于亮度(luma)以及色度(chroma)分量。与层间残差预测不同，层间帧内预测的滤波总是在子区块边界处进行。为了解码简单，层间帧内预测可以只用于BL的已帧内编码宏块内。

在高效率视频编码(High Efficiency Video Coding，HEVC)帧内直流(DirectCurrent，DC)预测中，具有系数集合[1,3]的2抽头低通滤波器被用于区块的第一行和第一列，而具有系数集合[1,2,1]的2抽头低通滤波器被用于区块的左上角，以减少区块假影(artifact)。如图2所示，滤波后的D等于(A+2D+B+2)>>2，而滤波后的E等于(C+3E+2)>>2。需要更有效地利用BL重建视频数据，以改进可伸缩视频编码的图像质量以及/或者编码效率。

发明内容

本发明提出一种用于可伸缩视频编码的层间预测方法和装置。本发明的实施例采用加权预测进行可伸缩编码。加权预测基于从与当前EL图片位于同一层的第二EL视频数据中获取的EL图片的已预测纹理数据以及从BL已重建数据中获取的层间帧内预测数据。层间帧内预测数据可对应BL已重建数据或上采样BL已重建数据。基于与当前EL图片位于同一层的第二EL视频数据，第一EL视频数据的已预测纹理数据可对应空间帧内预测数据或运动补偿预测数据。第一EL视频数据的加权预测数据对应于层间帧内预测数据被第一因子加权和已预测纹理数据被第二因子加权的和。此外，不同的像素可采用不同的加权因子。在一实施例中，加权预测数据仅对区块的边界像素生成。

本发明的实施例采用包括对应于BL纹理帧或上采样BL重建后纹理帧的ILRP的参考图片列表，对EL视频数据进行帧间预测。当ILRP被选作生成帧间预测数据的参考图片时，将区块的运动矢量限制到(0,0)附近的一范围内。在一实施例中，水平MV和垂直MV可被限制到各自的0附近的范围。

本发明的一方面提出采用BL重建后纹理帧或上采样BL重建后纹理帧作为参考帧，用于可伸缩视频编码器的帧间预测。对于合并候选者决定来说，若ILRP被选作参考图片且候选MV并不位于(0,0)附近的第一范围内，则该候选MV无法被视频编码器选择。此外，该范围可以小到为单一数据(0,0)。对于帧间模式来说，若ILRP被选作参考图片且块的MV的MVP等于(0,0)，则块的MV的MVD被限制为(0,0)。在一实施例中，若ILRP被选作参考图片且块的解码后MV不位于(0,0)附近的范围内，解码后MV被截断到(0,0)附近的范围内。在另一实施例中，若ILRP被选作参考图片且块的解码后MV非(0,0)，则解码后MV被设定为(0,0)。

本发明的另一方面提出采用BL重建后纹理帧或上采样BL重建后纹理帧作为参考帧，用于可伸缩视频解码器的帧间预测。在一实施例中，解析进程、解码进程或解析进程和解码进程的组合被修改，以在视频解码器中将MV限制到(0,0)附近的一范围内。在另一实施例中，MVP索引、MVD或MVP索引以及MVD的解析进程、解码进程或解析进程和解码进程的组合被修改，以限制MV。在另一实施例中，若MVD被限制为(0,0)，MVD或MVP索引的解析进程被绕开，MVD被设定为(0,0)。

通过利用本发明，可改进可伸缩视频编码的图像质量以及/或者编码效率。

附图说明

图1是具有三个空间层的可伸缩视频编码系统的预测架构的示范性示意图。

图2是HEVC帧内DC预测的边界像素滤波以减少区块边界处的区块假影的示范性示意图。

图3是采用本发明一实施例的可伸缩视频编码的加权预测的示范性示意图，其中加权预测基于当前层的已预测纹理和上采样BL视频数据。

图4是采用本发明一实施例的可伸缩视频编码的加权预测的示范性示意图，其中加权预测用于当前层的已预测纹理的边界像素和上采样BL视频数据。

图5是根据本发明一实施例的可伸缩视频编码系统采用加权预测的示范性流程图。

图6是根据本发明一实施例的可伸缩视频编码系统采用ILRP作为参考图片的示范性流程图。

具体实施方式

根据本发明的一实施例，揭示了区块边界平滑(block boundary smoothing)用于层间帧内预测。与HEVC类似，边界平滑滤波器可用于层间帧内预测区块的区块边界，即上采样BL重建像素。通过对当前层中的相邻已重建像素进行滤波，层间帧内预测区块的N行边界和M列边界被滤波，其中N和M为整数。在图2中，滤波后的边界像素被显示为有阴影的格子，其中N和M对应于1。换句话说，只有一行边界和一列边界被滤波。此外，图2中的区块处理顺序被假定为从左到右以及从上到下。因此，当前区块的上面的边界行和左边的边界列被滤波。若区块处理顺序改变，当前区块需被滤波的边界行以及/边界列可相应改变。滤波器可为有限脉冲响应滤波器，如具有滤波器系数集合[1,1]、[1,2,1]、[1,3]、[1,7]或者[1,6,1]的滤波器。在进行边界平滑之前，FIR滤波器可先被用于当前层的相邻已重建像素。

在本发明的一实施例中，双向(bi-directional)或加权(weighted)预测被用于层间预测，其将层间帧内预测(即上采样BL重建像素)与当前层的已预测纹理组合起来。如图3所示，当前区块的预测子可为当前层的已预测纹理与上采样BL重建像素的加权和，其中加权因子a和b为两个实数。在图3中，区块310对应给定区块的预测数据，区块320对应当前层的已预测纹理区块，区块330对应上采样BL纹理区块。当前层的已预测纹理数据可为当前层的空间帧内预测数据或者当前层的运动补偿预测数据。图3示出了4x4区块的示范例，也可采用其他区块尺寸来实现本发明。区块可为最大编码单元(Largest Coding Unit，LCU)、编码单元(Coding Unit，CU)、条带(slice)、图块(tile)甚至整个帧。

两个加权因子a和b可与位置相关。举例来说，如图4所示，可只对当前区块的边界像素应用双向或加权预测，其中层间帧内预测区块的第一行和第一列像素以及当前层的已预测纹理被滤波。在图4中，区块410对应给定区块的预测数据，区块420对应当前层的已预测纹理区块的边界像素，区块430对应上采样BL纹理区块的边界像素。当前层的已预测纹理数据对应于当前层的空间帧内预测数据或当前层的运动补偿预测数据。当一行边界和一列边界被加权以形成预测数据时，多于一行边界以及/或者多于一列边界可用作加权预测。

BL纹理帧或上采样BL纹理帧可用作当前层帧间预测的参考帧之一。在此情况下，BL纹理帧或上采样BL纹理帧被称作层间参考图片(Inter-Layer Reference Picture，ILRP)。ILRP可包含在参考帧列表中。若ILRP被选作参考帧(如参考帧索引指向ILRP)，区块的运动矢量可被限制到(0,0)附近的一范围内。换句话说，MV被限制到(0,0)附近的一区域内，其中该区域可为圆形、矩形或任意形状。此外，该范围可以小到为单一数据(0,0)。在一示范例中，水平MV可被限制到从-N到+N的范围内，以及/或者垂直MV可被限制到从-M到+M的范围内，其中M和N均为非负整数。N和M可与当前层与BL的帧解析度比有关。N和M可为0，且此时ILRP的MV必须为(0,0)。将MV限制到(0,0)附近的范围内的一种方式是当参考帧索引指向ILRP时将当前区块的MVP或当前区块的合并候选者(Merge candidate)设定为(0,0)，并将运动矢量差值(Motion Vector Difference，MVD)限制在(0,0)附近的范围内。将MV限制到(0,0)附近的范围内的另一种方式是当参考帧索引指向ILRP时选择当前区块的MVP或合并候选者为(0,0)，并将MVD限制在(0,0)附近的范围内。水平MVD可被限制到从-N到+N的范围内，而垂直MVD可被限制到从-M到+M的范围内。N和M可与当前EL与BL的帧解析度比有关。N和M可为0，且此时若参考帧索引指向ILRP，则MVD必须为(0,0)。若其中一个参考帧为ILRP，则可采用加权预测，其中是对从上采样BL已重建视频数据中获取的帧间预测数据以及另一个预测数据进行加权，如当前层的已预测纹理数据。当BL视频数据为帧内编码时，可对ILRP进行帧间预测。

ILRP的MV限制可用于编码器端作为规范编码器约束(normative encoderconstraint)，或者可用于解码器端作为规范改变(如改变解析进程和解码进程)。对于编码器端约束来说，包含本发明一实施例的编码器将产生对应于压缩数据的比特流，其中若参考帧索引指向ILRP，MV被限制到(0,0)附近的一范围内或等于(0,0)。对于一合并候选者来说，若参考帧索引指向ILRP，且MV并未被限制到(0,0)附近的一范围内或等于(0,0)，则该合并候选者无法被编码器选择。举例来说，对于一合并候选者来说，若参考帧索引指向ILRP且候选MV并非(0,0)，则该合并候选者无法被选择。对于帧间模式来说，若参考帧索引指向ILRP且MVP等于(0,0)，则MVD必须被限制到(0,0)附近的一范围内或等于(0,0)。当ILRP的MV限制用于编码器端时，若参考帧索引指向ILRP，即使接收到并被解码的MV并未在(0,0)附近的一范围内，MV也可被截断(clip)到该范围内。举例来说，即使解码后MV并非(0,0)时，该解码后MV可被设定为(0,0)。

ILRP的MV限制可与解析进程以及/或者解码进程的修改一起，用于解码器端。若参考帧索引指向ILRP，则MV被限制到(0,0)附近的一范围内或等于(0,0)。对于一合并候选者来说，若参考帧索引指向ILRP，则MV被限制到(0,0)附近的一范围内或等于(0,0)。对于帧间模式来说，若参考帧索引指向ILRP，则MVP被设定为(0,0)，且MVD被限制到(0,0)附近的一范围内。MVP索引(MVP_index)以及/或者MVD的码字和解析进程可被修改，以将MV限制在范围内。举例来说，若MVP和MVD被限制到(0,0)，MVD和MVP的解析可被绕开(bypass)，MVD和MVP被设定为(0,0)。

本发明的另一方面提出了优化的层间帧内预测。对于一CU来说，若层间帧内预测被选择，优化值可被发送。层间帧内预测与基于上采样BL纹理帧的帧间预测类似。若优化值等于0，则采用对应的上采样BL纹理。若优化值并不等于0，则采用插值滤波器(interpolation filter)，如离散余弦变换插值滤波器(Discrete Cosine TransformInterpolation Filter，DCTIF)，且上采样BL纹理的分数像素(fractional pixel)被用作预测子。

在本发明的另一实施例中，自适应滤波器被用于BL纹理以形成层间帧内预测。自适应滤波器与HEVC中的自适应环路滤波器(Adaptive Loop Filter，ALF)以及采样自适应偏移(Sample Adaptive Offset，SAO)类似。然而，自适应滤波器被用于层间帧内预测的不同源像素。滤波器的参数可在比特流中被发送。滤波器参数可以只在当前预测单元(Prediction Unit，PU)、CU或LCU采用层间帧内预测时才发送。举例来说，在LCU中，若CU采用BL纹理作为预测子，且该CU是当前LCU中采用BL纹理作为预测子的第一个CU，则自适应滤波器参数被发送。否则，自适应滤波器参数将不被发送。

本发明的另一方面提出了帧内预测和层间帧内预测的层间残差预测。在H.264/SVC中，层间残差预测只能用于帧间编码宏块中。然而根据本发明的一实施例，层间残差预测也可用于采用帧内预测或层间帧内预测编码的区块中。换句话说，层间预测技术被用于帧内预测或层间帧内预测产生的残差。

图5是根据本发明一实施例的可伸缩视频编码系统进行加权预测的示范性流程图。视频数据被配置到BL和EL，且其中EL视频数据比BL视频数据具有更高的空间解析度或更好的视频质量。在步骤510中，系统接收与当前EL图片的第一EL视频数据有关的第一数据。对于编码来说，第一数据对应于需被编码的EL视频数据。对于解码来说，第一数据对应于EL视频数据的预测残差，且对预测残差进行预测解码以恢复EL视频数据。第一数据可从存储器中获取，其中存储器如计算机存储器、缓冲器(RAM或者DRAM)或者其他媒介。第一数据也可从处理器中获取，其中处理器如控制器、中央处理单元、数字信号处理器(DigitalSignal Processor，DSP)或产生第一数据的电子电路。在步骤520中，第一EL视频数据的层间帧内预测数据被决定，其中层间帧内预测数据从BL已重建数据中获取。如步骤530所示，基于与当前EL图片位于同一层的第二EL视频数据，当前EL图片的已预测纹理数据被决定。如步骤540所示，为第一EL视频数据的至少一部分生成加权预测数据，其中加权预测数据对应于层间帧内预测数据和已预测纹理数据的加权和。如步骤550所示，随后基于加权预测数据对上述第一数据的至少一部分进行预测编码，以产生预测残差供进一步的编码进程。对于解码来说，如步骤550所示，基于加权预测数据对上述第一数据的至少一部分进行预测解码，以恢复第一EL视频数据。

图6是根据本发明一实施例的可伸缩视频编码系统将层间参考图片作为参考图片的示范性流程图。再一次地，视频数据被配置到BL和EL，且其中EL视频数据比BL视频数据具有更高的空间解析度或更好的视频质量。在步骤610中，接收到与当前EL图片的第一EL视频数据有关的第一数据。对于编码来说，第一数据对应于需被编码的EL视频数据。对于解码来说，第一数据对应于EL视频数据的预测残差，且对预测残差进行预测解码以恢复EL视频数据。第一数据可从存储器中获取，其中存储器如计算机存储器、缓冲器(RAM或者DRAM)或者其他媒介。第一数据也可从处理器中获取，其中处理器如控制器、中央处理单元、数字信号处理器或产生第一数据的电子电路。在步骤620中，包括一个或多个参考图片的参考图片列表被决定，其中上述参考图片列表包括对应于BL已重建纹理帧或上采样BL已重建纹理帧的ILRP。在步骤630中，基于上述一个或多个参考图片，第一EL视频数据的帧间预测数据被生成。如步骤640所示，随后基于预测数据，预测编码或解码被用于第一数据，其中预测数据包括帧间预测数据。当ILRP被选作参考图片时，运动矢量被限制到(0,0)附近的一范围内或设定为(0,0)。

上述流程图意图说明可伸缩编码的加权预测，并采用BL视频数据或上采样BL视频数据作为帧间预测的参考帧。在不脱离本发明的精神下，所属技术领域中普通技术人员可修改每个步骤、重新安排上述步骤、拆分某步骤或组合步骤以实现本发明。

根据本发明的一实施例，提出一种用于可伸缩视频编码的层间预测设备，其中视频数据被配置在基础层和增强层，且增强层视频数据比基础层视频数据具有更高的空间解析度或更好的质量，该设备包括：用来接收与当前增强层图片中的第一增强层视频数据有关的第一数据的装置；用来决定该第一增强层视频数据的层间帧内预测数据的装置，其中该层间帧内预测数据从基础层数据中获取；用来基于与该当前增强层图片位于同一层的第二增强层视频数据，决定该当前增强层图片的预测纹理数据的装置；用来为该第一增强层视频数据的至少一部分生成加权预测数据的装置，其中该加权预测数据对应该层间帧内预测数据和该预测纹理数据的加权和；以及用来基于该加权预测数据，对该第一数据的至少一部分进行预测编码或解码的装置。

根据本发明的一实施例，提出一种用于可伸缩视频编码的层间预测设备，其中视频数据被配置在基础层和增强层，且增强层视频数据比基础层视频数据具有更高的空间解析度或更好的质量，该设备包括：用来接收与当前增强层图片中的第一增强层视频数据有关的第一数据的装置；用来决定包括一个或多个参考图片的参考图片列表的装置，其中该参考图片列表包括对应于基础层纹理帧或上采样基础层纹理帧的层间参考图片；用来基于该一个或多个参考图片，生成该第一增强层视频数据的帧间预测数据的装置；用来当该层间参考图片被选作生成该帧间预测数据的该参考图片时，将区块的运动矢量限制为(0,0)附近的第一范围的装置；以及用来基于预测数据对该第一数据进行预测编码或解码，其中该预测数据包括该帧间预测数据的装置。

呈现上述描述是为了使所属技术领域中普通技术人员可以结合特定应用以及需求而实现本发明。所描述实施例的各种变形对于所属技术领域中普通技术人员是显而易见的，而且所定义的一般原则可以用于其他实施例。因此，本发明不限于上述特定实施例，而是根据所揭示的原则和新颖性特征符合最宽范围。在上述详细描述中，各种特定细节被描述以提供对于本发明的透彻理解。虽然如此，实现本发明可以被所属技术领域中普通技术人员所理解。

上述本发明的实施例可以以各种硬件、软件代码或者上述两者的组合而实现。举例说明，本发明的一实施例可以为集成到视频压缩芯片的电路或者集成到视频编码软件的程序代码，以实施上述处理。本发明的另一实施例也可为程序代码，在DSP上执行以实施上述处理。本发明也可以包含多个功能以被计算机处理器、DSP、微处理器或者现场可编程门阵列(Field Programmable Gate Array，FPGA)所实施。这些处理器可以配置为通过执行机器可读软件代码或者固件代码，根据本发明而实施特定任务，其中机器可读软件代码或者固件代码定义了本发明所体现的特定方法。软件代码或者固件代码可以以不同程序语言、不同格式或者风格而实现。也可以为不同目标平台编译软件代码。然而，根据本发明执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本发明的精神与范围。

本发明可以体现为其他特定格式，而不脱离本发明的精神或者实质特征。上述例子被认为是只用于说明而不是限制。本发明的保护范围，由所附权利要求所指示，而不会被上述描述所限制。在权利要求的意思以及等同范围内的所有变形均在权利要求的保护范围之内。

Claims

1.一种用于可伸缩视频编码的层间预测方法，其中视频数据被配置在基础层和增强层，且增强层视频数据比基础层视频数据具有更高的空间解析度或更好的质量，该方法包括：

接收与当前增强层图片的第一增强层视频数据有关的第一数据；

决定该第一增强层视频数据的层间帧内预测数据，其中该层间帧内预测数据从基础层数据中获取；

基于与该当前增强层图片位于同一层的第二增强层视频数据，决定该当前增强层图片的已预测纹理数据；

为该第一增强层视频数据的至少一部分生成加权预测数据，其中该加权预测数据对应该层间帧内预测数据和该已预测纹理数据的加权和；以及

基于该加权预测数据，对该第一数据的至少一部分进行预测编码或解码。

2.如权利要求1所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中该层间帧内预测数据对应于基础层已重建数据或上采样基础层已重建数据。

3.如权利要求1所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中基于与该当前增强层图片位于该同一层的该第二增强层视频数据，该第一增强层视频数据的该已预测纹理数据对应于空间帧内预测数据或运动补偿预测数据。

4.如权利要求1所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中该第一增强层数据的该至少一部分的该加权预测数据对应于该层间帧内预测数据被第一因子加权和该已预测纹理数据被第二因子加权的和，其中该第一因子和该第二因子为实值数据。

5.如权利要求4所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中该第一增强层视频数据的该至少一部分中，第一像素和第二像素具有不同的第一因子、不同的第二因子、或者不同的第一因子和第二因子，以获取该加权预测数据。

6.如权利要求1所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中该第一增强层视频数据对应于像素区块，且该加权预测数据仅对该像素区块的边界像素生成。

7.如权利要求6所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中该加权预测数据仅用于该像素区块的N个相邻行和M个相邻列，其中N和M为非负整数。

8.如权利要求7所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中该N个相邻行的第一行和第二行采用不同的权重因子获取该加权和，或者该M个相邻列的第一列和第二列采用不同的权重因子获取该加权预测数据。

9.一种用于可伸缩视频编码的层间预测方法，其中视频数据被配置在基础层和增强层，且增强层视频数据比基础层视频数据具有更高的空间解析度或更好的质量，该方法包括：

决定包括一个或多个参考图片的参考图片列表以用于合并模式，其中该参考图片列表包括对应于基础层已重建纹理帧或上采样基础层已重建纹理帧的层间参考图片；

基于该合并模式的已选择合并候选，生成该第一增强层视频数据的帧间预测数据，其中，该帧间预测数据包括该参考图片列表中对应参考图片的至少一个运动矢量；

当该层间参考图片被选作生成该帧间预测数据的该参考图片时，将该合并候选的该运动矢量限制到(0,0)附近的第一范围内，其中，当该对应参考图片不是该层间参考图片时，该合并候选的该运动矢量不被限制为(0,0)；以及基于预测数据对该第一数据进行预测编码或解码，其中该预测数据包括用于该合并模式的该帧间预测数据。

10.如权利要求9所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中当该层间参考图片被选作该参考图片时，该合并候选的该运动矢量被限制为(0,0)。

11.如权利要求9所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中当该层间参考图片被选作该参考图片时，区块的水平运动矢量被限制到从–N到+N的第二范围内，该区块的垂直运动矢量被限制到从–M到+M的第三范围内，或者该水平运动矢量被限制到该第二范围内且该垂直运动矢量被限制到该第三范围内，其中N和M为非负整数。

12.如权利要求11所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中N、M或者N以及M与该增强层和该基础层的帧解析度比有关。

13.如权利要求9所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中当该层间参考图片被选作该参考图片时将区块的该运动矢量限制到(0,0)附近的该第一范围内是在视频编码器进行。

14.如权利要求13所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中为该第一增强层视频数据生成比特流，其中当该层间参考图片被选作该参考图片时，该比特流包括与该区块的该运动矢量有关的压缩数据。

15.如权利要求14所述的用于可伸缩视频编码的层间预测方法，其中当该层间参考图片被选作该参考图片时，该区块的水平运动矢量被限制到从–N到+N的第二范围内，该区块的垂直运动矢量被限制到从–M到+M的第三范围内，或者该水平运动矢量被限制到该第二范围内且该垂直运动矢量被限制到该第三范围内，其中N和M为非负整数。

16.如权利要求13所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中对于合并候选者决定来说，若该层间参考图片被选作该参考图片且候选运动矢量并不位于(0,0)附近的该第一范围内，则该候选运动矢量不被该视频编码器选择。

17.如权利要求13所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中当该层间参考图片被选作该参考图片时该区块的该运动矢量被限制为(0,0)。

18.如权利要求17所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中对于合并候选者决定来说，若该层间参考图片被选作该参考图片且候选运动矢量并非(0,0)，则该候选运动矢量不被该视频编码器选择。

19.如权利要求13所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中若该层间参考图片被选作该参考图片且该区块的解码后运动矢量并不位于(0,0)附近的该第一范围内，则该解码后运动矢量被截断以位于(0,0)附近的该第一范围内。

20.如权利要求13所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中若该层间参考图片被选作该参考图片且该区块的解码后运动矢量并非(0,0)，则该解码后运动矢量被设定为(0,0)。

21.如权利要求9所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中若参考帧索引指向该层间参考图片则将区块的该运动矢量限制到(0,0)附近的该第一范围内是在视频解码器进行的。

22.如权利要求21所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中若该参考帧索引指向该层间参考图片则将限制该区块的该运动矢量是通过在该视频解码器修改解析进程、解码进程或者该解析进程和该解码进程的组合进行的。

23.如权利要求22所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中运动矢量预测子索引、运动矢量差值、或者运动矢量预测子索引以及运动矢量差值的该解析进程、该解码进程或该解析进程和该解码进程的组合被修改，以限制该区块的该运动矢量。

24.如权利要求23所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中若该运动矢量差值被限制为(0,0)，该运动矢量差值的该解析进程被绕开，且该运动矢量差值被设定为(0,0)。

25.如权利要求23所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中若该运动矢量预测子被限制为(0,0)，该运动矢量预测子索引的该解析进程被绕开，且该运动矢量预测子被设定为(0,0)。

26.如权利要求21所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中该区块的水平运动矢量被限制到从–N到+N的第二范围内，该区块的垂直运动矢量被限制到从–M到+M的第三范围内，或者该水平运动矢量被限制到该第二范围内且该垂直运动矢量被限制到该第三范围内，其中N和M为非负整数。

27.如权利要求21所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中对于合并候选者决定来说，若该参考帧索引指向该层间参考图片，该区块的该运动矢量被限制到(0,0)附近的该第一范围内。

28.如权利要求21所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中若该参考帧索引指向该层间参考图片，该区块的该运动矢量被设定为(0,0)。

29.如权利要求9所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中若该层间参考图片被选作生成该帧间预测数据的该参考图片，该预测数据对应于该帧间预测数据和另一预测数据的加权和。

30.如权利要求9所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中当与该第一增强层视频数据有关的基础层视频数据为帧内编码时，该层间参考图片被选作生成该帧间预测数据的该参考图片。

31.一种用于可伸缩视频编码的层间预测设备，其中视频数据被配置在基础层和增强层，且增强层视频数据比基础层视频数据具有更高的空间解析度或更好的质量，该设备包括：

用来接收与当前增强层图片中的第一增强层视频数据有关的第一数据的装置；

用来决定该第一增强层视频数据的层间帧内预测数据的装置，其中该层间帧内预测数据从基础层数据中获取；

用来基于与该当前增强层图片位于同一层的第二增强层视频数据，决定该当前增强层图片的预测纹理数据的装置；

用来为该第一增强层视频数据的至少一部分生成加权预测数据的装置，其中该加权预测数据对应该层间帧内预测数据和该预测纹理数据的加权和；以及

用来基于该加权预测数据，对该第一数据的至少一部分进行预测编码或解码的装置。

32.一种用于可伸缩视频编码的层间预测设备，其中视频数据被配置在基础层和增强层，且增强层视频数据比基础层视频数据具有更高的空间解析度或更好的质量，该设备包括：

用来决定包括一个或多个参考图片的参考图片列表以用于合并模式的装置，其中该参考图片列表包括对应于基础层纹理帧或上采样基础层纹理帧的层间参考图片；

用来基于该合并模式的已选择合并候选，生成该第一增强层视频数据的帧间预测数据的装置，其中，该帧间预测数据包括该参考图片列表中对应参考图片的至少一个运动矢量；

用来当该层间参考图片被选作生成该帧间预测数据的该参考图片时，将该合并候选的该运动矢量限制到(0,0)附近的第一范围内，其中，当该对应参考图片不是该层间参考图片时，该合并候选的该运动矢量不被限制为(0,0)的装置；以及

用来基于预测数据对该第一数据进行预测编码或解码，其中该预测数据包括用于该合并模式的该帧间预测数据的装置。

33.一种用于可伸缩视频编码的层间预测设备，其中视频数据被配置在基础层和增强层，且增强层视频数据比基础层视频数据具有更高的空间解析度或更好的质量，该设备包括：

用来接收与当前增强层图片的第一增强层视频数据有关的第一数据的装置；

用来决定包括一个或多个参考图片的参考图片列表以用于帧间模式的装置，其中该参考图片列表包括对应于基础层已重建纹理帧或上采样基础层已重建纹理帧的层间参考图片；

用来基于该一个或多个参考图片中已选择的一个，生成该第一增强层视频数据的帧间预测数据的装置，其中，该帧间预测数据包括运动矢量预测子以及运动矢量差值；

用来当该层间参考图片被选作该参考图片时，确定该运动矢量预测子是否为(0,0)的装置；

用来当该层间参考图片被选作该参考图片且该运动矢量预测子为(0,0)时，将区块的该运动矢量差值限制到(0,0)附近的第一范围内的装置；以及

用来基于预测数据对该第一数据进行预测编码或解码的装置，其中该预测数据包括用于该帧间模式的该帧间预测数据。

34.一种用于可伸缩视频编码的层间预测方法，其中视频数据被配置在基础层和增强层，且增强层视频数据比基础层视频数据具有更高的空间解析度或更好的质量，该方法包括：

决定包括一个或多个参考图片的参考图片列表以用于帧间模式，其中该参考图片列表包括对应于基础层已重建纹理帧或上采样基础层已重建纹理帧的层间参考图片；

基于该一个或多个参考图片中已选择的一个，生成该第一增强层视频数据的帧间预测数据，其中，该帧间预测数据包括运动矢量预测子以及运动矢量差值；

当该层间参考图片被选作该参考图片时，确定该运动矢量预测子是否为(0,0)；

当该层间参考图片被选作该参考图片且该运动矢量预测子为(0,0)时，将区块的该运动矢量差值限制到(0,0)附近的第一范围内；以及

基于预测数据对该第一数据进行预测编码或解码，其中该预测数据包括用于该帧间模式的该帧间预测数据。

35.如权利要求34所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中当该层间参考图片被选作该参考图片时，该区块的水平运动矢量被限制到从–N到+N的第二范围内，该区块的垂直运动矢量被限制到从–M到+M的第三范围内，或者该水平运动矢量被限制到该第二范围内且该垂直运动矢量被限制到该第三范围内，其中N和M为非负整数。

36.如权利要求35所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中N、M或者N以及M与该增强层和该基础层的帧解析度比有关。

37.如权利要求34所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中当该层间参考图片被选作该参考图片时将该区块的该运动矢量限制到(0,0)附近的该第一范围内是在视频编码器进行。

38.如权利要求37所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中为该第一增强层视频数据生成比特流，其中当该层间参考图片被选作该参考图片时，该比特流包括与该区块的该运动矢量有关的压缩数据。

39.如权利要求38所述的用于可伸缩视频编码的层间预测方法，其中当该层间参考图片被选作该参考图片时，该区块的水平运动矢量被限制到从–N到+N的第二范围内，该区块的垂直运动矢量被限制到从–M到+M的第三范围内，或者该水平运动矢量被限制到该第二范围内且该垂直运动矢量被限制到该第三范围内，其中N和M为非负整数。

40.如权利要求37所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中当该层间参考图片被选作该参考图片时该区块的该运动矢量被限制为(0,0)。

41.如权利要求37所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中若该层间参考图片被选作该参考图片且该区块的解码后运动矢量并不位于(0,0)附近的该第一范围内，则该解码后运动矢量被截断以位于(0,0)附近的该第一范围内。

42.如权利要求37所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中若该层间参考图片被选作该参考图片且该区块的解码后运动矢量并非(0,0)，则该解码后运动矢量被设定为(0,0)。

43.如权利要求34所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中若参考帧索引指向该层间参考图片则将该区块的该运动矢量限制到(0,0)附近的该第一范围内是在视频解码器进行的。

44.如权利要求43所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中若该参考帧索引指向该层间参考图片则将限制该区块的该运动矢量是通过在该视频解码器修改解析进程、解码进程或者该解析进程和该解码进程的组合进行的。

45.如权利要求44所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中运动矢量预测子索引、运动矢量差值、或者运动矢量预测子索引以及运动矢量差值的该解析进程、该解码进程或该解析进程和该解码进程的组合被修改，以限制该区块的该运动矢量。

46.如权利要求25所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中若该运动矢量差值被限制为(0,0)，该运动矢量差值的该解析进程被绕开，且该运动矢量差值被设定为(0,0)。

47.如权利要求25所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中若该运动矢量预测子被限制为(0,0)，该运动矢量预测子索引的该解析进程被绕开，且该运动矢量预测子被设定为(0,0)。

48.如权利要求43所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中该区块的水平运动矢量被限制到从–N到+N的第二范围内，该区块的垂直运动矢量被限制到从–M到+M的第三范围内，或者该水平运动矢量被限制到该第二范围内且该垂直运动矢量被限制到该第三范围内，其中N和M为非负整数。

49.如权利要求43所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中若该参考帧索引指向该层间参考图片，该区块的该运动矢量被设定为(0,0)。

50.如权利要求34所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中若该层间参考图片被选作生成该帧间预测数据的该参考图片，该预测数据对应于该帧间预测数据和另一预测数据的加权和。

51.如权利要求34所述的用于可伸缩视频编码的层间预测方法，其特征在于，其中当与该第一增强层视频数据有关的基础层视频数据为帧内编码时，该层间参考图片被选作生成该帧间预测数据的该参考图片。