CN102187671B

CN102187671B - 基于向量化熵译码的加权预测

Info

Publication number: CN102187671B
Application number: CN2009801412133A
Authority: CN
Inventors: 马尔塔·卡切维奇; 拉胡尔·潘查尔
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2008-10-16
Filing date: 2009-10-14
Publication date: 2013-10-02
Anticipated expiration: 2029-10-14
Also published as: KR20110063865A; WO2010045380A3; KR101178085B1; WO2010045380A2; EP2347519A2; US9819940B2; JP2012506215A; JP5415546B2; CN102187671A; US20150281695A1; TW201029472A; US20100098156A1

Abstract

本发明描述基于针对增强层视频块的向量化熵译码的特性而控制用于所述增强层视频块的预测译码技术的选择的方法。根据本发明，所述用于增强层视频块的基于预测的视频译码的预测技术取决于用于所述增强层视频块的所述向量化熵译码。对于每一经译码单元，可依据所述向量化熵译码是针对所述经译码单元的所述视频块定义单个向量还是针对所述经译码单元的所述视频块定义多个向量而选择预测译码技术(例如，加权或非加权预测)。

Description

基于向量化熵译码的加权预测

本申请案主张2008年10月16日申请的第61/106,039号美国临时申请案的权益，所述临时申请案以引用的方式并入本文中。

技术领域

本发明涉及用于压缩视频数据的基于块的数字视频译码。

背景技术

数字视频能力可并入到各种各样的装置中，包括数字电视、数字直播系统、例如无线电话手持机等无线通信装置、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、数字相机、数字记录装置、视频游戏装置、视频游戏机等。数字视频装置实施视频压缩技术(例如MPEG-2、MPEG-4或H.264/MPEG-4(第10部分：高级视频译码(AVC)))，以更高效地发射及接收数字视频。视频压缩技术执行空间及时间预测以减少或去除视频序列中固有的冗余。

基于块的视频压缩技术通常执行空间预测及/或时间预测。帧内译码依赖于空间预测来减少或去除给定经译码单元内的视频块之间的空间冗余，给定经译码单元可包含视频帧、视频帧的切片(slice)等。与此相对，帧间译码依赖于时间预测来减少或去除视频序列的连续经译码单元的视频块之间的时间冗余。对于帧内译码，视频编码器执行空间预测以基于同一经译码单元内的其它数据来压缩数据。对于帧间译码，视频编码器执行运动估计及运动补偿以跟踪两个或两个以上邻近经译码单元的对应视频块的移动。

经译码的视频块可由可用于创建或识别预测块的预测信息及指示正被译码的块与预测块之间的差异的残余数据块表示。在帧间译码的情况下，使用一个或一个以上运动向量来识别预测数据块，而在帧内译码的情况下，可使用预测模式来产生预测块。帧内译码及帧间译码两者可定义若干不同预测模式，所述预测模式可定义不同块大小及/或译码中所使用的预测技术。还可包括额外类型的语法元素作为经编码视频数据的一部分，以便控制或定义译码过程中所使用的译码技术或参数。

在基于块的预测译码之后，视频编码器可应用变换、量化及熵译码过程以进一步减小与残余块的通信相关联的位率。变换技术可包含离散余弦变换或概念上类似的过程，例如小波变换、整数变换或其它类型的变换。在离散余弦变换(DCT)过程中，例如，变换过程将一组像素值转换为变换系数，其可表示像素值在频域中的能量。将量化应用于变换系数，且量化通常涉及限制与任何给定变换系数相关联的位的数目的过程。熵译码包含共同地压缩经量化变换系数的序列的一个或一个以上过程。

在许多情况下，可将一视频序列译码为一基础层及一个或一个以上增强层。在此情况下，基础层可定义视频质量的基础等级，且一个或一个以上增强层可增强经解码视频信号的质量。增强层可以多种方式改进视频质量，例如可能提供对基础层帧的空间增强，可能提供信号对噪声增强，或可能通过在基础层帧之间添加额外帧而提供对经解码视频的时间增强。在任何情况下，可将经编码视频发射到视频解码装置，所述视频解码装置执行视频编码器的互逆过程以便重构视频序列。

发明内容

概括地说，本发明描述基于针对增强层视频块的向量化熵译码的特性而控制用于所述增强层视频块的预测译码技术的选择的方法。向量化熵译码是指依赖于向量语法元素来熵译码视频块，所述向量语法元素定义与视频块相关联的向量的数目。可针对每一经译码单元(例如，针对每一视频帧或针对视频帧的每一可独立解码的切片或部分)定义向量语法元素。由向量语法元素定义的每一向量定义将一起熵译码的视频块的一组系数。如果针对经译码单元的视频块定义若干向量，那么将针对视频块中的每一者单独地对若干不同组系数进行熵译码。如果针对经译码单元的视频块定义仅一个向量，那么将对每一给定视频块的所有系数一起进行熵译码。

根据本发明，所述用于对增强层视频块的基于预测的视频译码的预测技术取决于用于增强层视频块的向量化熵译码。对于每一经译码单元，可依据向量化熵译码针对经译码单元的视频块定义单个向量还是针对经译码单元的视频块定义多个向量来选择预测译码技术(例如，加权或非加权预测)。明确地说，当向量化熵译码针对增强层视频块建立两个或两个以上向量时，可选择加权预测。

或者，当向量化熵译码针对增强层视频块建立单个向量时，可选择非加权预测(例如，循序预测)。在本发明中，加权预测是指参考包含预测增强层数据与预测基础层数据的组合的加权预测数据的预测。与此相对，循序预测是指参考与正被译码的块相关联的同一层的先前经译码数据(例如，预测帧)的预测。

在一个实例中，本发明提供一种对视频序列的数据进行译码的方法。所述方法包含：针对视频序列中的经译码单元的增强层视频块的向量化熵译码定义一个或一个以上向量；基于所定义的向量化熵译码为经译码单元的增强层视频块选择预测模式，其中选择预测模式包括在所定义的向量化熵译码针对增强层视频块建立两个或两个以上向量时选择加权预测；以及基于选定预测模式及向量化熵译码对增强层视频块进行译码。

在另一实例中，本发明提供一种对视频序列的数据进行译码的设备。所述设备包含：控制单元，其针对视频序列中的经译码单元的增强层视频块的向量化熵译码定义一个或一个以上向量；以及基于所定义的向量化熵译码为经译码单元的增强层视频块选择预测模式，其中当所定义向量化熵译码针对增强层视频块建立两个或两个以上向量时，所述控制单元选择加权预测。所述设备还包含：预测单元，其基于选定预测模式执行预测译码技术；以及熵译码单元，其执行向量化熵译码。

在另一实例中，本发明提供一种对视频序列的数据进行译码的装置，所述装置包含：用于针对视频序列中的经译码单元的增强层视频块的向量化熵译码定义一个或一个以上向量的装置；用于基于所述所定义向量化熵译码为经译码单元的增强层视频块选择预测模式的装置，其中用于选择预测模式的装置包括用于在所定义的向量化熵译码针对增强层视频块建立两个或两个以上向量时选择加权预测的装置；以及用于基于选定预测模式及所述向量化熵译码对增强层视频块进行译码的装置。

在另一实例中，本发明提供一种装置，其包含：控制单元，其针对视频序列中的经译码单元的增强层视频块的向量化熵编码定义一个或一个以上向量，且基于所定义的向量化熵译码为经译码单元的增强层视频块选择预测模式，其中当所定义的向量化熵译码针对增强层视频块建立两个或两个以上向量时，控制单元选择加权预测；预测单元，其基于选定预测模式执行预测编码技术；熵编码单元，其执行向量化熵编码以产生位流的至少一部分；以及无线发射器，其将所述位流发送到另一装置。

在另一实例中，本发明提供一种装置，其包含：无线接收器，其接收包含视频序列中的经译码单元的增强层视频块的经熵译码系数值的位流；控制单元，其针对视频序列中的经译码单元的增强层视频块的向量化熵解码定义一个或一个以上向量，且基于所定义的向量化熵译码为经译码单元的增强层视频块选择预测模式，其中当所定义的向量化熵译码针对增强层视频块建立两个或两个以上向量时，控制单元选择加权预测；预测单元，其基于选定预测模式执行预测解码技术；以及熵解码单元，其执行向量化熵解码。

本发明中所描述的技术可以硬件、软件、固件或其任何组合来实施。如果以硬件实施，那么设备可作为集成电路、处理器、离散逻辑或其任何组合而实现。如果以软件实施，那么可在例如微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或数字信号处理器(DSP)等一个或一个以上处理器中执行所述软件。执行所述技术的软件最初可存储在计算机可读媒体中，且加载于处理器中并在处理器中执行。

因此，本发明还预期一种包含在于视频译码装置中执行后即刻致使所述装置对视频序列的数据进行译码的指令的计算机可读媒体。明确地说，所述指令致使所述装置针对视频序列中的经译码单元的增强层视频块的向量化熵译码定义一个或一个以上向量，基于所定义的向量化熵译码为经译码单元的增强层视频块选择预测模式，其中所述指令致使所述装置在所定义的向量化熵译码针对增强层视频块建立两个或两个以上向量时选择加权预测，且基于选定预测模式及向量化熵译码对增强层视频块进行译码。

在附图及以下描述中陈述本发明的一个或一个以上方面的细节。将从描述及图式中且从所附权利要求书中明白本发明中所描述的技术的其它特征、目标及优点。

附图说明

图1为说明视频编码及解码系统的示范性框图。

图2A为说明循序预测的概念图。

图2B为说明加权预测的概念图。

图2C为说明加权预测的另一概念图。

图3A为说明4×4视频块的曲折扫描的概念图。

图3B为说明与在图3A的块的曲折扫描期间应用的不同向量控制信号相关联的向量的图。

图4为说明与本发明一致的示范性视频编码器的框图。

图5为说明与本发明一致的示范性视频解码器的框图。

图6及图7为说明与本发明一致的技术的流程图。

具体实施方式

本发明描述基于对增强层视频块的向量化熵译码的特性控制用于所述增强层视频块的预测译码技术的选择的方法。根据本发明，用于对增强层视频块的基于预测的视频译码的预测技术取决于用于所述增强层视频块的向量化熵译码。对于每一经译码单元，可依据向量化熵译码针对经译码单元的视频块定义单个向量还是针对经译码单元的视频块定义多个向量而选择预测译码技术(例如，加权或非加权预测)。

向量化熵译码是指依赖于定义与视频块相关联的向量的数目的向量语法元素的对视频块的熵译码。可针对每一经译码单元(例如，针对每一视频帧或针对视频帧的每一可独立解码的切片或部分)定义向量语法元素。由向量语法元素定义的每一向量定义将一起熵译码的视频块的一组系数。如果针对经译码单元的视频块定义若干向量，那么将针对经译码单元单独对若干不同组系数进行熵译码。如果针对经译码单元的视频块定义仅一个向量，那么将针对经译码单元对每一给定视频块的所有系数一起进行熵译码。

根据本发明，当向量化熵译码针对增强层视频块建立两个或两个以上向量时可选择加权预测。或者，当向量化熵译码针对增强层视频块建立单个向量时，可选择非加权预测(例如，循序预测)。在本发明中，加权预测是指参考包含预测增强层数据与预测基础层数据的组合的加权预测数据的预测。与此相对，循序预测是指参考与正被译码的块相关联的同一层的先前译码数据(例如，预测帧)的预测。

图1为说明可实施本发明的技术的示范性视频编码及解码系统10的框图。如图1中所示，系统10包括源装置12，其经由通信信道15将经编码的视频发射到目的装置16。源装置12及目的装置16可包含各种各样的装置中的任一者。在一些情况下，源装置12及目的装置16可包含无线通信装置手持机，例如所谓的蜂窝式或卫星无线电话。然而，本发明的技术(其更通常应用于预测译码及熵译码)不必限于无线应用或设定，而是可应用于包括视频编码及/或解码能力的非无线装置。

在图1的实例中，源装置12可包括视频源20、视频编码器22、调制器/解调器(调制解调器)23及发射器24。目的装置16可包括接收器26、调制解调器27、视频解码器28及显示装置30。根据本发明，源装置12的视频编码器22可经配置以执行向量化熵编码及基于向量化熵编码而定义或选择的预测技术。类似地，目的装置16的视频解码器28可经配置以执行向量化熵解码及基于向量化熵解码而定义或选择的预测技术。在任何情况下，图1所说明的系统10仅为示范性的。本发明的向量化熵译码技术及相关联的预测技术可由任何编码或解码装置执行。源装置12及目的装置16仅为可支持此些技术的译码装置的实例。

源装置12的视频编码器22可使用本发明的技术对从视频源20接收到的视频数据进行编码。视频源20可包含例如视频相机等视频捕捉装置、含有先前捕捉到的视频的视频档案，或来自视频内容提供者的视频馈送。作为另一替代方案，视频源20可产生基于计算机图形的数据作为源视频，或直播视频(live video)、存档视频与计算机产生的视频的组合。在一些情况下，如果视频源20为视频相机，那么源装置12及目的装置16可形成所谓的相机电话或视频电话。在每一情况下，视频编码器22可对所捕捉、所预捕捉或计算机产生的视频进行编码。

一旦视频编码器22对视频数据进行编码，调制解调器23就可接着根据例如码分多址(CDMA)等通信标准或另一通信标准或技术来调制经编码的视频信息，且经由发射器24将其发射到目的装置16。调制解调器23可包括各种混频器、滤波器、放大器或经设计以用于信号调制的其它组件。发射器24可包括经设计以用于发射数据的电路，包括放大器、滤波器及一个或一个以上天线。

目的装置16的接收器26经由信道15接收信息，且调制解调器27解调所述信息。由视频解码器28执行的视频解码过程可包括向量化熵解码及基于向量化熵解码而定义或选择的预测技术，如本文所描述。显示装置28向用户显示经解码的视频数据，且可包含多种显示装置中的任一者，例如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。

通信信道15可包含任何无线或有线通信媒体，例如射频(RF)频谱或者一个或一个以上物理传输线，或无线媒体与有线媒体的任何组合。通信信道15可形成例如局域网、广域网或全局网络(例如，因特网)等基于包的网络的一部分。通信信道15通常表示用于将视频数据从源装置12发射到目的装置16的任何合适的通信媒体或不同通信媒体的集合。

视频编码器22及视频解码器28可根据视频压缩标准(例如ITU-T H.264标准，或者称为MPEG-4(第10部分：高级视频译码(AVC)))而操作。然而，本发明的技术可易于应用于多种其它视频译码标准中的任一者。具体地说，允许向量化熵译码的任何标准可从本发明的教示中受益。

虽然图1中未展示，但在一些方面中，视频编码器22及视频解码器28可各自与音频编码器及解码器集成，且可包括适当的多路复用-解多路复用单元或其它硬件及软件，以处置在共用数据流或单独数据流中的音频与视频两者的编码。如果适用，那么多路复用-解多路复用单元可遵照ITU H.223多路复用器协议或例如用户数据报协议(UDP)等其它协议。

可将视频编码器22及视频解码器28各自实施为一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。可将视频编码器22及视频解码器28中的每一者包括于一个或一个以上编码器或解码器中，其中任一者可在相应移动装置、订户装置、广播装置、服务器等中集成为组合式编码器/解码器(CODEC)的一部分。

在一些情况下，装置12、16可以大体对称的方式操作。举例来说，装置12、16中的每一者可包括视频编码及解码组件。因此，系统10可支持视频装置12、16之间的单向或双向视频发射，例如用于视频流式传输、视频播放、视频广播或视频电话。

在编码过程期间，视频编码器22可执行若干译码技术或步骤。一般来说，视频解码器22对个别视频帧(或其它独立译码的单元，例如切片)内的视频块进行操作以便对视频块进行编码。视频块可具有固定或不同的大小，且其大小可根据指定译码标准而不同。在一些情况下，每一视频帧可包括一系列可独立解码的切片，且每一切片可包括一系列宏块，所述宏块可布置为甚至更小的块。宏块通常指代16×16的数据块。ITU-TH.264标准支持各种块大小的帧内预测，例如16×16、8×8或4×4(对于亮度分量)及8×8(对于色度分量)，以及各种块大小的帧间预测，例如16×16、16×8、8×16、8×8、8×4、4×8及4×4(对于亮度分量)及用于色度分量的对应的按比例缩放的大小。在本发明中，术语视频块指代任何大小的视频块。视频块可指代像素域中的视频数据块，或例如离散余弦变换(DCT)域等变换域中的数据块。

视频编码器22可执行将正被译码的视频块与预测帧(或其它经译码单元)进行比较以便识别预测块的预测译码。正被译码的当前视频块与预测块之间的差异被译码作为残余块，且使用预测语法来识别预测块。可对残余块进行变换及量化。变换技术可包含离散余弦变换(DCT)或概念上类似的过程、整数变换、小波变换或其它类型的变换。在DCT过程中，例如，变换过程将一组像素值转换为变换系数，其可表示像素值在频域中的能量。将量化应用于变换系数，且量化通常涉及限制与任何给定变换系数相关联的位的数目的过程。

在变换及量化之后，可对经量化及经变换的残余视频块执行熵译码。语法元素也可包括于熵译码中。一般来说，熵译码包含共同地压缩经量化的变换系数的序列的一个或一个以上过程。对经量化的变换系数执行扫描技术(例如曲折扫描技术)以便定义来自二维视频块的系数的一个或一个以上串行化一维向量。接着(例如)经由内容自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)或另一熵译码过程对经扫描的系数进行熵译码。

向量化熵译码是指依赖于定义与视频块相关联的向量的数目的向量语法元素的对视频块的熵译码。可针对每一经译码单元(例如，针对每一视频帧或针对视频帧的每一可独立解码的切片或部分)定义向量语法元素。由向量语法元素定义的每一向量定义将一起经熵译码的视频块的一组系数。如果针对经译码单元的视频块定义若干向量，那么将针对所述经译码单元的视频块中的每一者单独对若干不同组系数进行熵译码。如果针对经译码单元的视频块定义仅一个向量，那么将针对所述经译码单元对每一相应视频块的所有系数一起进行熵译码。

根据本发明，可依据针对经译码单元(例如，帧或切片)的视频块的向量化熵译码而定义的向量的数目而使用不同类型的预测技术。举例来说，当向量化熵译码针对增强层视频块建立两个或两个以上向量时，视频编码器22可选择加权预测。或者，当向量化熵译码针对增强层视频块建立单个向量时，视频编码器22可选择非加权预测(例如，循序预测)。在本发明中，加权预测是指参考包含预测增强层数据与预测基础层数据的组合的加权预测数据的预测。与此相对，循序预测是指参考与正被译码的块相关联的同一层(例如，基础或增强)的先前译码数据(例如，预测帧)的预测。

图2A为说明循序预测的概念图。图2B为说明加权预测(其可包含所谓的“自适应细化”预测)的概念图。此外，根据本发明，视频编码器22及视频解码器28可基于应用于增强层视频块的向量化熵译码而选择用于所述视频块的预测技术(例如，加权预测对非加权预测)。举例来说，当向量化熵译码针对经译码单元的相应视频块定义两个或两个以上向量时，可选择自适应细化预测技术。

可缩放视频译码(Scalable video coding，SVC)是指利用基础层及一个或一个以上增强层的视频译码。在此情况下，基础层可定义视频质量的基础等级，且一个或一个以上增强层可增强经解码视频信号的质量。增强层可以多种方式改进视频质量，例如可能提供对基础层帧的空间增强，可能通过将额外位深度添加到基础层帧的像素值而提供信号对噪声增强，或可能通过在基础层帧之间添加额外帧而提供对经解码的视频的时间增强。在基础层中译码的视频块被称为基础层视频块，而在增强层中编码的视频块被称为增强层视频块。在图2A及图2B中，B1到B5及B1′到B5′表示基础层帧，而增强层帧表示为E1到E14及E1′到E14′。此外，帧可定义可解码单元，但帧的切片或其它部分可定义较小可解码单元。

图2A在概念上说明用于帧内译码基础层及增强层视频块中的循序预测。在此情况下，基础层帧B1的块用作基础层帧B2的块的预测参考。类似地，基础层帧B2的块用作基础层帧B3的块的预测参考，基础层帧B3的块用作基础层帧B4的块的预测参考，依此类推。运动估计可用于定义运动向量，运动向量指示当前帧中的当前视频块相对于预测帧的预测视频块的位移。接着，运动补偿使用运动向量从预测帧提取或产生预测视频块。

在增强层中，增强层帧E1的块用作增强层帧E2的块的预测参考。类似地，增强层帧E2的块用作增强层帧E3的块的预测参考，增强层帧E3的块用作增强层帧E4的块的预测参考，增强层帧E4的块用作增强层帧E5的块的预测参考，依此类推。然而，关于图2A中所展示的循序预测技术的一个潜在问题是误差漂移的可能。在此情况下，因为每一连续帧的视频块取决于先前帧的视频块，所以一个帧中的误差可能传播到后续帧。

为处理此误差漂移的问题(尤其在增强层中)，已开发了加权预测技术。在此情况下，可从包含先前基础层帧及增强层帧的加权平均值的预测帧的预测块预测增强层视频块。举例来说，预测帧P1′可包含基础层帧B1′及增强层帧E1′的加权内插。可基于预测帧P1′的块对增强层帧E2的块进行译码。预测帧P2′可包含基础层帧B1′及增强层帧E2′的加权内插，且可基于预测帧P2′的块对增强层帧E3进行译码。预测帧P3′可包含基础层帧B1′及增强层帧E3′的加权内插，且可基于预测帧P3′的块对增强层帧E4进行译码。图2B中的虚线表示内插，且向后的箭头指向用于对给定帧进行译码的预测帧。

加权预测(例如图2B中所展示的加权预测)可有助于避免误差漂移。举例来说，如果增强层帧E2′中出现误差，那么由于P2′对基础层帧B1′的部分依赖性，可在预测帧P2′中减轻这些误差。如图2A中所展示的循序预测具有利用时间冗余的优点及误差传播的缺点。与此相对，仅基于基础层帧对增强层帧的预测可具有减少误差传播的优点，但不利用时间冗余的现象(其可改进压缩)以及循序预测。图2B中所展示的加权预测方案可平衡这些优点及缺点，以实现高度压缩(因利用时间冗余)及减轻的误差传播(因对稳健基础层帧的依赖性)的合意平衡。

加权预测可向用于产生加权预测帧的增强层及基础层帧指派权重。此外，这些权重因子可随着时间的过去而改变或调适。权重因子有时被称为“泄漏因子(leaky factor)”，且可由其它术语定义。在任何情况下，本发明的技术并不取决于用于定义不同加权预测帧的权重因子的类型。

如上文所提到，可取决于针对经译码单元的视频块的向量化熵译码而定义的向量的数目而使用不同类型的预测技术。举例来说，当向量化熵译码针对增强层视频块建立两个或两个以上向量时，可选择类似于图2B中所展示的加权预测。或者，当向量化熵译码针对增强层视频块建立单个向量时，可选择非加权预测(例如，类似于图2A中所展示的循序预测)。向量化熵译码可通过针对给定帧或其它经译码单元定义单个向量，或通过停用针对给定帧或其它经译码单元定义若干向量的能力而建立单个向量。

图2C为说明基于加权预测帧(P1″到P5″)预测增强层帧(E1″到E5″)的另一概念图。在此情况下，基础层帧B2″及增强层帧E1″的加权内插定义预测帧P2″。类似地，基础层帧B3″及增强层帧E2″的加权内插定义预测帧P3″，依此类推。如同图2B一样，权重因子可随着时间的过去而改变或调适。在任何情况下，在图2C的实例中，可对时间上对准的基础层帧(与当前增强层帧对准)及先前增强层帧进行内插以定义预测帧。基础层及增强层内插的其它加权组合也可用于定义预测帧。

图3A及图3B有助于说明向量化熵译码的概念。图3A为说明4×4视频块(例如，与增强层相关联的的经变换残余数据块)的曲折扫描的概念图。图3B为说明与在图3A的块的曲折扫描期间应用的不同向量控制信号相关联的向量的图。

在图3A中，箭头说明用于将二维数据块串行化为线性数据序列的曲折模式。曲折扫描仅为一个实例，且通常，扫描可服从各种各样的模式或扫描次序。然而，重要的是，扫描经向量化以便支持向量化熵译码。明确地说，向量控制信号(或其它语法元素)可定义将从图3A中所展示的对视频块进行扫描而出现的一维向量的数目及大小。

举例来说，如图3B中所展示，如果向量控制信号指定数目16(见项101)，那么这可表示图3A中所展示的4×4系数视频块的十六个不同系数包括于单个向量中。明确地说，向量控制信号16可导致包含系数1到16的单个向量。在此情况下，熵译码应用于全组系数1到16。还可通过停用针对给定经译码单元定义若干向量的能力(例如，停用向量译码模式)，而非经由控制信号16定义单个向量(见项101)，来针对向量化熵译码定义此情境。当停用向量时，这对于向量化译码来说具有与针对给定经译码单元定义单个向量相同的效应。

与此相对，如果向量控制信号指定数目3及16(见项102)，那么这可表示图3A中所展示的视频块的不同系数包括于两个不同向量中，一者具有系数1到3且另一者具有系数4到16。在此情况下，熵译码单独地应用于两组不同系数1到3及4到16。

如果向量控制信号指定数目2、8及16(见项103)，那么这可表示图3A中所展示的视频块的不同系数包括于三个不同向量中，一者具有系数1到2，一者具有系数3到8，且一者具有系数9到16。在此情况下，熵译码单独地应用于三组不同系数1到2、3到8及9到16。如果向量控制信号指定数目3、6、11、16(见项104)，那么这可表示图3A中所展示的视频块的不同系数包括于四个不同向量中，一者具有系数1到3，一者具有系数4到6，一者具有系数7到11，且一者具有系数12到16。在此情况下，熵译码单独地应用于三组不同系数1到3、4到6、7到11及12到16。

用于指定不同向量的数目或大小的实际语法服从各种各样的实施方案。因此，图3B中所展示的示范性语法仅用于论证本发明的概念，且不应被视为限制控制信号的内容或格式。用于针对经译码单元的视频块定义向量的格式可广泛变化。

本发明的技术基于向量化熵译码是指定单个向量(例如，图3B的项101的实例中)还是指定多个向量(例如，图3B的项102、103及104的实例中)来定义预测(例如，加权或非加权预测)。明确地说，在向量化熵译码针对经译码单元的视频块定义多个向量的任何时间使用加权预测，而在出于熵译码的目的针对经译码单元的视频块定义单个向量的任何时间使用非加权预测(例如，循序预测)。可通过选择向量控制信号16(例如，如图3B的项101中所展示)或可能通过针对给定经译码单元完全停用向量译码模式而出于熵译码的目的针对经译码单元的视频块定义单个向量。总之，如果出于熵译码的目的针对经译码单元的视频块定义单个向量，那么可使用非加权预测。

源定义12的编码器22可将控制信号传达到目的装置18的编码器28作为语法的一部分以便定义应使用的预测的类型，或者，编码器22及解码器28可基于是否启用向量化熵译码及针对视频块是否定义一个以上向量而自动确定待使用的预测的类型。

图4为说明与本发明一致的视频编码器50的框图。视频编码器50可对应于装置20的视频编码器22或不同装置的视频编码器。如图4中所展示，视频编码器50包含控制单元31、预测单元32及参考帧存储元件34。视频编码器还包括变换单元38及量化单元40，以及逆量化单元42、逆变换单元44以及加法器48及51。最后，视频编码器50还包括向量扫描单元45及熵译码单元46。

根据本发明，控制单元31针对正被译码的视频序列中的经译码单元的增强层视频块的向量化熵译码定义一个或一个以上向量。控制单元31还基于所定义的向量化熵译码而选择用于经译码单元的增强层视频块的预测模式。明确地说，当所定义的向量化熵译码针对增强层视频块建立两个或两个以上向量时，控制单元31选择加权预测。或者，当所定义的向量化熵译码针对增强层视频块建立单个向量时，控制单元31可选择非加权预测(例如，循序预测)。此外，可通过选择向量控制信号16(例如，如图3B的项101中所展示)或可能通过针对给定经译码单元完全停用向量译码模式而出于熵译码的目的针对经译码单元的增强层视频块定义单个向量。可以任何方式定义向量，且向量可所定义以平衡或定义指派给不同层的数据的量。

预测单元32基于由来自控制单元31的预测控制信号定义的选定预测模式执行预测译码技术。因此，预测单元32可支持加权或非加权预测，但在控制单元31的指导下应用适当的预测技术。对应的向量控制信号还从控制单元31发送到向量扫描单元45及熵译码单元46。向量扫描单元45执行向量化扫描，且熵译码单元46执行向量化熵译码。

对于增强层视频块的帧间译码，预测单元32将待编码的视频块与一个或一个以上视频参考帧中的各种块进行比较。经预测的数据可从参考帧存储装置34检索，且可包含先前增强层帧的视频块(例如，图2A中所展示)或先前增强层帧与基础层帧的加权组合(例如，图2B中所展示)。

预测单元32可产生预测语法(例如，运动向量)，其可用于识别用于对当前增强层视频块进行译码的预测块。预测单元32可包含识别指向预测块的运动向量且基于运动向量产生预测块的运动估计及运动补偿单元。通常，将运动估计视为产生运动向量的过程，其估计运动。举例来说，运动向量可指示预测帧内的预测块相对于当前帧内正译码的当前块的位移。通常将运动补偿视为基于由运动估计确定的运动向量提取或产生预测块的过程。

变换单元38将变换(例如，离散余弦变换(DCT)或概念上类似的变换)应用于残余块，从而产生包含残余变换块系数的视频块。块变换单元38(例如)可执行由H.264标准定义的在概念上类似于DCT的其它变换。或者，可使用小波变换或整数变换。

量化单元40量化残余变换系数以进一步减小位率。量化单元40(例如)可限制用于对系数中的每一者进行译码的位的数目。在量化之后，向量扫描单元45将经量化的系数块从二维表示扫描为一个或一个以上串行化一维向量。此外，针对给定视频块而扫描的向量的数目最初由控制单元31定义，控制单元31选择向量的数目且选择预测技术。从控制单元31到向量扫描单元45的向量控制信号告知向量扫描单元45如何扫描视频块，以及要产生的向量的数目。扫描次序可经预编程(例如曲折扫描)，或可能基于先前译码统计结果而为自适应的。

在此扫描过程之后，熵编码单元46根据熵译码方法(例如，CAVLC或CABAC)对经量化的变换系数进行编码以进一步压缩数据。明确地说，熵编码单元46基于从控制单元31发送的向量控制信号应用向量化译码。举例来说，熵译码单元46可单独地针对由向量扫描单元45扫描的不同向量中的每一者应用熵译码。如果针对视频块定义单个向量，那么熵译码单元46可将熵译码应用于对应于每一视频块的所有系数的一组系数。在本发明中，熵译码是指各种各样的熵译码方法中的任一者，例如内容自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)或其它熵译码方法。

CAVLC为由ITU H.264/MPEG4、AVC标准支持的一种类型的熵译码技术，其可由熵译码单元46在向量化基础上应用。CAVLC以有效压缩变换系数的串行化“游程”的方式使用可变长度译码(VLC)表。在此情况下，由向量扫描单元45扫描的每一单独向量由熵译码单元46根据CAVLC进行译码。在此情况下，熵译码单元46根据CAVLC对由向量扫描单元45扫描的每一单独向量进行译码。

CABAC为由ITU H.264/MPEG4、AVC标准支持的另一类型的熵译码技术，其可由熵译码单元46在向量化基础上应用。CABAC可涉及若干阶段，包括二值化、上下文模型选择及二进制算术译码。在此情况下，熵译码单元46根据CABAC对由向量扫描单元45扫描的每一单独向量进行译码。还存在许多其它类型的熵译码技术，且新的熵译码技术将很可能在将来出现。本发明不限于任何特定熵译码技术，而是仅在向量化基础上(例如，在来自控制单元31的向量化控制信号的指导下)应用给定熵译码技术。

在由熵编码单元46熵译码之后，可将经编码的视频发射到另一装置或存档以供日后发射或检索。经编码的视频可包含可由解码器用来适当地配置解码过程的经熵译码的向量及各种语法。逆量化单元42及逆变换单元44分别应用逆量化及逆变换，以重构像素域中的残余块。求和器51将经重构的残余块加到由预测单元32产生的预测块以产生经重构的视频块以供存储在参考帧存储装置34中。在需要时，经重构的视频块也可在被存储于参考帧存储装置34中之前经过去块滤波器单元(未图示)。预测单元32可使用经重构的视频块作为参考块对后续视频帧中的块进行帧间译码，或作为预测块的用于后续视频帧的块的加权预测的加权部分。

图5为说明视频解码器60的实例的框图，视频解码器60对以本文中所描述的方式进行编码的视频序列进行解码。所接收到的视频序列可包含一组经编码的图像帧、一图片群组(GOP)，或包括经编码的视频块及用以定义如何对所述视频块进行解码的语法的各种各样经译码的视频。

视频解码器60包括以本文所描述的方式控制预测解码及向量化熵解码的控制单元31。明确地说，控制单元31接收经编码的视频位流，且分析位流以便确定识别是否启用向量化熵译码以及向量的大小及数目的语法。控制单元31将经译码视频转发到熵解码单元52，且还将控制信号转发到预测单元54、扫描单元55及熵解码单元52。控制信号确保在针对向量化熵解码定义两个或两个以上向量的任何时间使用加权预测，且在针对向量化熵解码定义单个向量(例如，通过定义单个向量或针对给定经译码单元停用向量译码模式)的任何时间使用非加权预测。

熵解码单元52执行由图4的熵编码单元46执行的编码的互逆解码功能。明确地说，在CAVLC或CABAC解码可对经向量化的若干组系数操作的意义上可使熵解码向量化。控制单元31发送定义由熵解码单元52执行的向量化熵解码的控制信号。视频解码器60还包括执行与由图2的扫描单元45执行的扫描互逆的逆扫描的扫描单元55。在此情况下，扫描单元45可将系数的一个或一个以上一维向量组合回二维块格式。针对视频块而定义的向量的数目及大小以及扫描次序定义如何重构二维块。

视频解码器60还包括预测单元54、逆量化单元56、逆变换单元58、参考帧存储装置62及求和器64。任选地，视频解码器60还可包括对求和器64的输出进行滤波的去块滤波器(未图示)。预测单元54从熵解码单元52接收预测语法(例如，运动向量)。预测单元54还从控制单元31接收控制信号，控制信号定义是应使用加权预测还是非加权预测。此外，当将视频块扫描为多个向量且针对视频块的不同向量单独应用熵译码时，定义加权预测。

逆量化单元56执行逆量化，且逆变换单元58执行逆变换以将视频块的系数改变回到像素域。求和器64将来自单元54的预测块与来自逆变换单元58的经重构的残余块进行组合以产生经重构的块，经重构的块存储在参考帧存储装置62中。在需要时，经重构的视频块还可在存储于参考帧存储装置62中之前经过去块滤波器单元(未图示)。经解码的视频从参考帧存储装置62输出，且还可被反馈到预测块54以供在后续预测中使用。

图6为说明与本发明一致的用于对增强层视频块进行编码的译码(即，编码或解码)技术的流程图。将从视频编码器50的观点描述图6，但视频解码器60也可应用类似技术。换句话说，编码器50及解码器60两者均可定义向量，且基于所定义的向量选择预测(例如，加权或非加权预测)。在编码器侧，可定义向量以促进译码效率。在解码器侧，可基于由编码器定义且作为经编码视频流的一部分而接收的语法来定义向量。当然，在编码器侧，扫描基于二维块而定义一维向量，而在解码器侧，扫描相反地起作用，且基于一维向量而定义二维块。

如图6中所展示，视频编码器50的控制单元31针对增强层视频块的熵译码而定义向量(81)。控制单元31接着基于所定义的向量而选择预测模式(例如，加权或非加权预测)(82)。明确地说，如果针对视频块定义多个向量，那么控制单元31选择加权预测，而如果针对视频块定义单个向量，那么控制单元31选择非加权预测。预测单元32及向量扫描单元45与熵译码单元46一起基于所定义的向量及选定预测模式对增强层视频块进行译码(83)。明确地说，预测单元32在预测译码中使用选定预测模式，且向量扫描单元45及熵译码单元46基于所定义的向量对视频块进行向量扫描及熵译码。在此情况下，向量扫描单元45将二维块转换为一个或一个以上一维向量，且熵译码单元46对一个或一个以上一维向量进行熵译码。通过使预测模式(加权或非加权预测)取决于针对视频块定义单个向量还是多个向量，可改进译码过程。

图7为说明与本发明一致的用于对增强层视频块进行编码的译码(即，编码或解码)技术的另一流程图。将从视频编码器50的观点描述图7，但视频解码器60也可应用类似技术。如图7中所展示，视频编码器50的控制单元31针对增强层视频块的熵译码定义向量(101)。接着，控制单元31确定每块存在一个向量(102)还是每块存在多个向量。如果每视频块定义一个向量(102为“是”)，那么控制单元31指导预测单元32执行循序预测(103)，例如图2A中所展示及上文所描述。然而，如果每视频块定义多个向量(102为“否”)，那么控制单元31指导预测单元32执行加权预测(104)，例如图2B中所展示及上文所描述。接着，控制单元31指导向量扫描单元45及熵译码单元46基于针对视频块而定义的向量执行向量化熵译码(106)。在此情况下，扫描单元45基于控制单元31的向量化决策将经预测译码的视频块(例如，残余)从二维格式扫描为一个或一个以上一维向量。熵译码单元46关于针对视频块而定义的每一一维向量的系数单独地执行熵译码。

本发明的技术可在各种各样的装置或设备中实现，包括无线手持机及集成电路(IC)或一组IC(即，芯片组)。提供已描述的任何组件、模块或单元是为了强调功能方面，且未必要求通过不同硬件单元来实现。

因此，本文中所描述的技术可以硬件、软件、固件或其任何组合来实施。描述为模块或组件的任何特征均可在集成逻辑装置中一起实施或作为离散但可相互操作的逻辑装置单独实施。如果以软件实施，那么所述技术可至少部分地由计算机可读媒体实现，所述计算机可读媒体包含当被执行时实施上述方法中的一者或一者以上的指令。计算机可读数据存储媒体可形成计算机程序产品的一部分，所述计算机程序产品可包括封装材料。计算机可读媒体可包含随机存取存储器(RAM)(例如同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性或光学数据存储媒体等。所述技术另外或替代地可至少部分地由计算机可读通信媒体来实现，所述媒体运载或传达呈指令或数据结构的形式的代码，且可由计算机存取、读取及/或执行。

所述代码可由例如一个或一个以上数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一个或一个以上处理器来执行。因此，如本文中所使用的术语“处理器”可指代上述结构或适于实施本文中所描述的技术的任何其它结构中的任一者。另外，在一些方面中，可将本文中所描述的功能性提供于经配置用于编码及解码的专用软件模块或硬件模块内，或并入于组合式视频编码器-解码器(CODEC)中。并且，可将所述技术完全实施于一个或一个以上电路或逻辑元件中。

已描述本发明的各种方面。这些及其它方面在所附权利要求书的范围内。

Claims

1.一种对视频序列的数据进行译码的方法，所述方法包含：

针对所述视频序列中的经译码单元的增强层视频块的向量化熵译码定义一个或一个以上向量，其中所述向量化熵译码包含使用定义与所述增强层视频块相关联的所述向量的向量语法元素对所述增强层视频块进行熵译码；

基于所述所定义的向量化熵译码为所述经译码单元的所述增强层视频块选择预测模式，其中选择所述预测模式包括在所述所定义的向量化熵译码针对所述增强层视频块建立两个或两个以上向量时选择加权预测，以及在所述所定义的向量化熵译码针对所述增强层视频块建立单个向量时选择非加权预测，其中所述加权预测包含使用包含预测增强层数据与预测基础层数据的组合的加权预测数据的预测；以及

基于所述选定预测模式及所述向量化熵译码对所述增强层视频块进行译码。

2.根据权利要求1所述的方法，其中所述加权预测包含：基于形成为所述视频序列中的预测增强层视频块与预测基础层视频块的加权组合的预测块的预测。

3.根据权利要求1所述的方法，其中所述非加权预测包含循序预测。

4.根据权利要求1所述的方法，其进一步包含针对所述经译码单元停用向量译码模式以便针对向量化熵译码定义所述单个向量。

5.根据权利要求1所述的方法，其中所述经译码单元包含所述视频序列的帧或所述视频序列的帧的切片。

6.根据权利要求5所述的方法，其中针对所述视频序列的不同经译码单元重复所述方法。

7.根据权利要求1所述的方法，其中所述向量化熵译码包含：将所述增强层视频块从变换系数的二维块扫描为所述一个或一个以上向量，且单独地对所述一个或一个以上向量进行熵译码，其中所述一个或一个以上向量包含所述变换系数的一维集合。

8.根据权利要求1所述的方法，其中译码包含编码，所述方法进一步包含发射包含经编码的视频块的位流。

9.根据权利要求1所述的方法，其中译码包含解码，所述方法进一步包含接收作为包含经编码的视频块的位流的所述视频序列。

10.一种对视频序列的数据进行译码的设备，所述设备包含：

控制单元，其针对所述视频序列中的经译码单元的增强层视频块的向量化熵译码定义一个或一个以上向量，其中所述向量化熵译码包含使用定义与所述增强层视频块相关联的所述向量的向量语法元素对所述增强层视频块进行熵译码，且基于所述所定义的向量化熵译码为所述经译码单元的所述增强层视频块选择预测模式，其中当所述所定义的向量化熵译码针对所述增强层视频块建立两个或两个以上向量时，所述控制单元选择加权预测，且当所述所定义的向量化熵译码针对所述增强层视频块建立单个向量时，所述控制单元选择非加权预测，其中所述加权预测包含使用包含预测增强层数据与预测基础层数据的组合的加权预测数据的预测；

预测单元，其基于所述选定预测模式执行预测译码技术；以及

熵译码单元，其执行所述向量化熵译码。

11.根据权利要求10所述的设备，其中所述加权预测包含：基于形成为所述视频序列中的预测增强层视频块与预测基础层视频块的加权组合的预测块的预测。

12.根据权利要求10所述的设备，其中所述非加权预测包含循序预测。

13.根据权利要求10所述的设备，其中所述控制单元针对所述经译码单元停用向量译码模式以便针对向量化熵译码定义所述单个向量。

14.根据权利要求10所述的设备，其中所述经译码单元包含所述视频序列的帧或所述视频序列的帧的切片。

15.根据权利要求14所述的设备，其中所述控制单元针对所述视频序列的多个不同经译码单元中的每一者定义一个或一个以上向量且选择所述预测模式。

16.根据权利要求10所述的设备，其进一步包含扫描单元，其中所述扫描单元将所述增强层视频块从变换系数的二维块扫描为所述一个或一个以上向量，且所述熵译码单元单独地对所述一个或一个以上向量进行熵译码，其中所述一个或一个以上向量包含所述变换系数的一维集合。

17.根据权利要求10所述的设备，其中译码包含编码，且所述熵译码单元包含熵编码单元。

18.根据权利要求10所述的设备，其中译码包含解码，且所述熵译码单元包含熵解码单元。

19.根据权利要求10所述的设备，其中所述设备包含集成电路。

20.根据权利要求10所述的设备，其中所述设备包含微处理器。

21.一种对视频序列的数据进行译码的装置，所述装置包含：

用于针对所述视频序列中的经译码单元的增强层视频块的向量化熵译码定义一个或一个以上向量的装置，其中所述向量化熵译码包含使用定义与所述增强层视频块相关联的所述向量的向量语法元素对所述增强层视频块进行熵译码；

用于基于所述所定义的向量化熵译码为所述经译码单元的所述增强层视频块选择预测模式的装置，其中用于选择所述预测模式的装置包括用于在所述所定义的向量化熵译码针对所述增强层视频块建立两个或两个以上向量时选择加权预测的装置，以及用于在所述所定义的向量化熵译码针对所述增强层视频块建立单个向量时选择非加权预测的装置，其中所述加权预测包含使用包含预测增强层数据与预测基础层数据的组合的加权预测数据的预测；以及

用于基于所述选定预测模式及所述向量化熵译码对所述增强层视频块进行译码的装置。

22.根据权利要求21所述的装置，其中所述加权预测包含：基于形成为所述视频序列中的预测增强层视频块与预测基础层视频块的加权组合的预测块的预测。

23.根据权利要求21所述的装置，其中所述非加权预测包含循序预测。

24.根据权利要求21所述的装置，其进一步包含用于针对所述经译码单元停用向量译码模式以便针对向量化熵译码定义所述单个向量的装置。

25.根据权利要求21所述的装置，其中所述经译码单元包含所述视频序列的帧或所述视频序列的帧的切片。

26.根据权利要求25所述的装置，其中针对所述视频序列的多个不同经译码单元中的每一者，所述用于定义的装置定义一个或一个以上向量，且所述用于选择的装置选择所述预测模式。

27.根据权利要求21所述的装置，其中所述向量化熵译码包含将所述增强层视频块从变换系数的二维块扫描为所述一个或一个以上向量，以及单独地对所述一个或一个以上向量进行熵译码，其中所述一个或一个以上向量包含所述变换系数的一维集合。

28.根据权利要求21所述的装置，其中译码包含编码，所述装置进一步包含用于发射包含经编码视频块的位流的装置。

29.根据权利要求21所述的装置，其中译码包含解码，所述装置进一步包含用于接收作为包含经编码视频块的位流的所述视频序列的装置。

30.一种对视频序列的数据进行编码的装置，其包含：

控制单元，其针对视频序列中的经译码单元的增强层视频块的向量化熵编码定义一个或一个以上向量，其中所述向量化熵译码包含使用定义与所述增强层视频块相关联的所述向量的向量语法元素对所述增强层视频块进行熵译码，且基于所述所定义的向量化熵译码为所述经译码单元的所述增强层视频块选择预测模式，其中当所述所定义的向量化熵译码针对所述增强层视频块建立两个或两个以上向量时，所述控制单元选择加权预测，且当所述所定义的向量化熵译码针对所述增强层视频块建立单个向量时，所述控制单元选择非加权预测，其中所述加权预测包含使用包含预测增强层数据与预测基础层数据的组合的加权预测数据的预测；

预测单元，其基于所述选定预测模式执行预测编码技术；

熵编码单元，其执行所述向量化熵编码以产生位流的至少一部分；以及

无线发射器，其将所述位流发送到另一装置。

31.根据权利要求30所述的装置，其中所述装置包含无线通信手持机。

32.一种对视频序列的数据进行解码的装置，其包含：

无线接收器，其接收包含视频序列中的经译码单元的增强层视频块的经熵译码的系数值的位流；

控制单元，其针对所述视频序列中的所述经译码单元的所述增强层视频块的向量化熵解码定义一个或一个以上向量，其中所述向量化熵解码包含使用定义与所述增强层视频块相关联的所述向量的向量语法元素对所述增强层视频块进行熵解码，且基于所述所定义的向量化熵解码为所述经译码单元的所述增强层视频块选择预测模式，其中当所述所定义的向量化熵解码针对所述增强层视频块建立两个或两个以上向量时，所述控制单元选择加权预测，且当所述所定义的向量化熵解码针对所述增强层视频块建立单个向量时，所述控制单元选择非加权预测，其中所述加权预测包含使用包含预测增强层数据与预测基础层数据的组合的加权预测数据的预测；

预测单元，其基于所述选定预测模式执行预测解码技术；以及

熵解码单元，其执行所述向量化熵解码。

33.根据权利要求32所述的装置，其中所述装置包含无线通信手持机。