CN101313587A

CN101313587A - 用于多媒体编码的模式选择技术

Info

Publication number: CN101313587A
Application number: CNA200680043706XA
Authority: CN
Inventors: 田涛; 维贾雅拉克希米·R·拉韦恩德拉恩
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2005-09-27
Filing date: 2006-09-27
Publication date: 2008-11-26
Anticipated expiration: 2026-09-27
Also published as: US20070071105A1; AR055186A1; US8446954B2; JP2009510935A; KR100957316B1; KR20080067631A; JP5301277B2; TW200746834A; WO2007038722A3; EP1938617A2; CN101313587B; WO2007038722A2

Abstract

本发明描述用于在编码多媒体序列的多媒体帧的宏区块(或其它区块)期间改进模式选择决策的技术。在运动估计期间，可确定用于宏区块的所述编码模式，以使得可实现所要的编码速率和可接受的失真水平(即，可接受的速率失真)。所述技术可包括：基于与多媒体帧的宏区块相关联的细节量度和与所述宏区块的相邻区块相关联的模式信息，在至少两组可能的多媒体编码模式之间选择一组多媒体编码模式以用于所述宏区块。

Description

用于多媒体编码的模式选择技术

根据35 U.S.C.§119主张优先权

本专利申请案主张基于2005年9月27日申请的题为“基于假设测试的快速帧间模式决策(FAST INTER MODE DECISION BASED ON HYPOTHESIS TEST)”的第60/721,418号临时申请案的优先权，且所述临时申请案转让给本受让人，且在此明确以引用的方式并入本文中。

技术领域

本发明涉及多媒体编码，且更明确地说，涉及对用于多媒体序列的帧内的宏区块的编码模式的选择。

背景技术

多媒体能力可并入广泛范围的装置中，所述装置包含数字电视、数字直播系统、无线通信装置、个人数字助理(PDA)、膝上型计算机、台式计算机、数码摄像机、数字记录装置、蜂窝式或卫星无线电话等。与常规的模拟系统相比，数字多媒体编码可提供在建立、修改、传输、存储、记录和播放全运动多媒体序列方面的显著改进。举例来说，广播网络可使用多媒体编码以促进向无线订户装置广播多媒体序列的一个或一个以上信道。

已建立众多不同的多媒体编码标准来用于编码数字多媒体序列。举例来说，运动图片专家组(MPEG)已开发包括MPEG-1、MPEG-2和MPEG-4的众多标准。其它标准包括国际电信联盟(ITU)H.263标准、由加利福尼亚州的寇坡蒂诺(Cupertino California)的苹果电脑公司(Apple Computer)开发的QuickTime^TM技术、由华盛顿州的里德蒙德(Redmond，Washington)的微软公司(Microsoft Corporation)开发的Video for Windows^TM、由英特尔公司(Intel Corporation)开发的Indeo^TM、来自华盛顿州西雅图(Seattle，Washington)的里奥耐特沃克斯公司(RealNetworks，Inc.)的RealVideo^TM和由瑟坡麦克公司(SuperMac，Inc.)开发的Cinepak^TM。此外，新标准不断出现且演进，包括新出现的ITU H.264标准和众多专用标准。ITU H.264标准也在MPEG-4的标题为“高级音频编码(Advanced Audio Coding)”的第10部分中得以陈述。

许多多媒体编码标准支持数据压缩，所述数据压缩减少需要传输以用于多媒体帧的有效传输的数据的总量。举例来说，MPEG标准和ITU H.263和ITU H.264标准支持利用连续视频帧之间的类似性(被称为时间或帧间相关性)的编码技术以提供帧间压缩。此类帧间压缩通常经由运动估计和运动补偿编码技术而实现。此外，一些多媒体编码技术可利用帧内的类似性(被称为空间或帧内相关性)来压缩视频帧。

大多数帧间压缩技术利用基于区块的编码，所述编码将多媒体帧划分为数据区块，且使所述区块与多媒体序列中的其它帧的区块相关。通过编码当前区块与另一帧的预测区块之间的差值可实现数据压缩。编码器通常将待传输的多媒体帧划分成数据区块，所述区块被称为“宏区块”。也可将所述宏区块进一步再分为分区或子分区。ITU H.264标准支持16×16的宏区块、16×8的分区、8×16的分区、8×8的分区、8×4的子分区、4×8的子分区和4×4的子分区。其它标准可支持不同大小的区块、宏区块、分区和/或子分区。

对于多媒体帧中的每一区块(宏区块、分区或子分区)来说，编码器搜索一个或一个以上紧接在前面视频帧(或后续帧)的具有类似大小的区块以识别类似区块，所述具有类似大小的区块被称为“预测区块”。比较当前视频区块与其它帧的视频区块的过程通常被称为运动估计。一旦将“预测区块”识别以用于待编码的给定区块，则编码器可编码当前区块与预测区块之间的差值。编码当前区块与预测区块之间的差值的这个过程包括被称为运动补偿的过程。运动补偿包含建立指示待编码的当前区块与预测区块之间的差值的差值区块。具体来说，运动补偿常指使用运动向量获取预测区块，并随后从输入区块减去预测区块以产生差值区块的动作。

在运动补偿已建立差值区块之后，通常执行一系列额外的编码步骤以进一步编码差值区块。这些额外的步骤可包括离散余弦变换、标量量化、光栅到Z形重排(raster-to-zigzagreordering)、运行长度编码、霍夫曼(Huffman)编码等。经编码的差值区块可与指示前一帧(或后续帧)的哪一区块用于编码的运动向量一起传输。解码器接收所述运动向量和经编码的差值区块，且解码所接收的信息以重建多媒体序列。

为了改进编码过程，通常在运动估计过程期间作出模式决策。这些模式决策可为速率控制算法的部分，且可用以确定应如何划分或再划分宏区块以确保实现所要的速率失真平衡。在本发明中，短语“模式选择”指对用于宏区块等的一个或一个以上可能的编码模式的选择，例如，是否应将宏区块编码为一个16×16的区块，或是否应为宏区块界定两个或两个上的分区或子分区。遗憾的是，对于许多装置或多媒体编码情形来说，全面搜索用于视频序列的每一宏区块的每一可能编码模式在计算上可为禁止的。

发明内容

本发明描述用于在编码多媒体序列的多媒体帧的宏区块(或多媒体数据的其它大小的区块)期间改进模式选择决策的技术。在运动估计期间，可确定用于宏区块的编码模式，以使得可实现所要的编码速率和可接受的失真水平(即，可接受的速率失真)。本发明描述可对多媒体序列执行以便可能消除与极不可能用于宏区块的模式相关联的模式搜索(原本将执行)的预处理程序。

所述技术可利用用于每一宏区块的细节量度，且此细节量度可关于给定宏区块需要以恒定视觉质量进行编码的位的数目。所述技术可界定两组或两组以上的模式，且可选择这些组中的一者。因此，当未选定组中的模式极不可能用于给定宏区块时，可不考虑所述组中的模式。在一些情况下，所述技术利用包括细节量度的概率方程。在本发明中，界定了两组模式(帧间平面和帧间细节)的实例，但本发明的技术在此方面不一定受到限制。

所描述的技术也可确定与相邻区块相关联的模式信息，且使用此模块信息以改进用于当前宏区块的模式选择。此外，在每一模式选择之后可更新概率方程中的统计，且概率方程的更新可用于后续宏区块的模式选择决策。通过在多媒体序列的帧中的宏区块的模式选择过程中更新概率方程的统计，所述技术可适于多媒体序列的内容，以改进多媒体序列上的模式选择。

在一些实施例中，本发明提供一种用于处理多媒体数据的方法，所述方法包含：基于与多媒体帧的区块相关联的细节量度和与区块的相邻区块相关联的模式信息而从至少两组可能的多媒体编码模式中选择一组多媒体编码模式以用于所述区块。

在一些实施例中，本发明提供一种用于处理多媒体数据的设备，所述设备包含编码器，所述编码器基于与多媒体帧的区块相关联的细节量度和与区块的相邻区块相关联的模式信息而从至少两组可能的多媒体编码模式中选择一组多媒体编码模式以用于所述区块。

在一些实施例中，本发明提供一种用于处理多媒体数据的处理器，所述处理器经配置以基于与多媒体帧的区块相关联的细节量度和与所述区块的相邻区块相关联的模式信息而从至少两组可能的多媒体编码模式中选择一组多媒体编码模式以用于所述区块。

在一些实施例中，本发明提供一种用于处理多媒体数据的设备，所述设备包含用于基于与多媒体帧的区块相关联的细节量度和与所述区块的相邻区块相关联的模式信息而从至少两组可能的多媒体编码模式中选择一组多媒体编码模式以用于所述区块的装置。

可以硬件、软件、固件或其任一组合实施本文所描述的技术。如果以软件实施，则可在数字信号处理器(DSP)或其它类型的处理器中执行所述软件。执行技术的软件最初可存储在例如计算机可读媒体的机器可读媒体中，且载入并在处理器、设备或其它机器中执行以允许如本文所描述的模式选择。

因此，本发明也涵盖一种包含用于处理多媒体数据的指令的机器可读媒体，所述指令一旦执行，就促使机器基于与多媒体帧的区块相关联的细节量度和与所述区块的相邻区块相关联的模式信息而从至少两组可能的多媒体编码模式中选择一组多媒体编码模式以用于所述区块。

在以下附图和描述中陈述各种实施例的额外细节。其它特征、目标和优点将从描述和图式且从权利要求书变得显而易见。

附图说明

图1是说明根据本发明的一些实施例的示范性多媒体编码装置的方框图。

图2是说明与本发明的一些实施例相一致的模式选择过程的树形图。

图3是说明根据本发明的一些实施例的技术的流程图。

图4是包括与根据本发明的一些实施例的不同的两组模式相关联的概率的直方图的图表。

图5是说明根据本发明的一些实施例的正编码的当前宏区块的可能的空间和/或时间相邻区块的概念图。

图6是说明根据本发明的一些实施例的用于编码的示范性模块的方框图。

具体实施方式

本发明描述一种用于在编码多媒体序列的多媒体帧的宏区块等期间改进模式选择决策的技术。在本发明中，短语“模式选择”是指对用于多媒体数据的宏区块或其它大小的区块的一个或一个以上可能的编码模式的选择，例如，是否应将宏区块编码为一个16×16的区块，或是否应为宏区块界定两个或两个以上的分区或子分区。所述模式决策通常在运动估计过程期间作出，且可作为速率控制算法的部分，以便确定应如何划分或再划分宏区块以确保在整个多媒体帧序列的帧上实现所要的速率失真平衡。经选择用于宏区块的模式通常按照分区和/或子分区来界定宏区块的粒度，即，分区、子分区或分区和子分区。然而，本发明的模式选择技术并不一定限于任一特定大小的宏区块、区块、分区或子分区。

根据本发明，在运动估计期间，可对多媒体序列执行预处理程序，以便可能消除与极不可能用于宏区块的模式相关联的模式搜索。所述技术可利用用于每一宏区块的细节量度，且此细节量度可关于给定宏区块需要以恒定视觉质量进行编码的位的数目。所述技术也可与相邻区块相关联的模式信息，且使用此模式信息来改进当前宏区块的模式选择。

所述技术可界定至少两组模式，且可选择这些组中的一者。在本发明中，界定了两组模式(帧间平面和帧间细节)的实例，但本发明的技术在此方面不一定受到限制。在任一情况下，当未选定组的模式极不可能用于给定宏区块时，可不考虑所述组中的模式。所述技术可使用包括细节量度和与相邻区块相关联的模式选择信息的概率方程。

此外，在每一模式选择之后可更新概率方程中的统计，且概率方程的更新可用于后续宏区块的模式选择决策。以此方式，所述技术可适于给定多媒体序列的内容，以改进多媒体序列上的模式选择。

图1为说明示范性多媒体编码装置10的方框图。多媒体编码装置10可形成数字视频装置的能够编码并传输视频数据的部分。举例来说，多媒体编码装置10可包含向无线订户装置广播多媒体序列的一个或一个以上信道的广播装置。在另一实例中，多媒体编码装置10可包含能够将多媒体序列传送到其它装置的无线手持式单元(例如)以促进视频电话(VT)或其它多媒体应用。

如图1中所展示，多媒体编码装置10包括使用本文所述技术中的一者或一者以上来编码多媒体序列的多媒体编码器12。此外，多媒体编码装置10可包括许多其它组件，例如用以捕获多媒体序列的视频捕获装置14、用以存储或可能保存多媒体序列的存储器16和用以将经编码的多媒体序列传输到其它装置的传输器18。然而，这些额外组件中的一些或所有在装置10中是可选的。可经由通信总线15等将多媒体编码器12、视频捕获装置14、存储器16和传输器18以通信方式耦合。

可由视频捕获装置14捕获，从存储器16检索或以另一方式获得多媒体序列。在任一情况下，可使用多媒体编码装置10的多媒体编辑器12以编码多媒体序列，且可实施本发明的技术中的一者或一者以上以改进此编码过程。可在例如数字广播系统、数字电视、无线通信装置、个人数字助理(PDA)、膝上型计算机、台式计算机、数码摄像机、数字记录装置、蜂窝式或卫星无线电话或包括多媒体编码能力的任一装置的装置中实施多媒体编码装置10。多媒体编码装置10可遵照例如MPEG-4、ITU-T H.263、ITU-T H.264或为多媒体序列的帧中的数据的宏区块提供若干可能的编码模式的另一编码标准。

多媒体编码器12可包含所谓的“芯片组”，且可经由硬件、软件、固件的任一组合和/或一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、场可编程门阵列(FPGA)或其各种组合而实施。多媒体编码器12可包含用于编码并解码数字多媒体序列的编码器/解码器(CODEC)。此外，在一些情况下，多媒体编码器12的功能性可完全或部分地为软件实施。因此，本发明也涵盖机器可读媒体，其包含一旦执行就促使机器(例如处理器或DSP的设备)执行本文所描述的技术的指令。

多媒体编码器12包括模式选择单元20，所述模式选择单元20在帧间编码期间执行作为运动估计过程的部分的模式选择技术。多媒体编码器12包括可作为整合或独立单元的运动估计器/空间估计器22。多媒体编码器12也包括可作为整合或独立单元的运动补偿器/帧内预测单元24。搜索空间25表示存储用于基于预测的编码的数据(例如，通常为多媒体序列的前一帧或前一帧的一部分)的存储器单元。最后，多媒体编码器12包括残余编码器26，所述残余编码器对在运动估计和运动补偿过程期间产生的残余区块执行一个或一个以上残余编码过程。

在编码过程期间，运动估计器/空间估计器22比较数据的当前多媒体区块与搜索空间25中的各种区块，以便识别预测区块。运动估计器/空间估计器22通常表示为帧间编码执行运动估计的运动估计器、为帧内编码执行空间估计的空间估计器，或可执行运动估计和空间估计的组合单元。一般来说，预测区块是为了帧间相关性(或帧内相关性)的目的而获得的提供与数据的当前多媒体区块的充分匹配的候选区块，所述候选区块可为搜索空间中最紧密匹配的候选区块。预测区块是搜索空间25中的许多候选区块中的在运动估计期间进行评估的一者。对于帧间编码来说，通常相对于宏区块的每一分区和子分区来执行运动估计过程。本发明的技术可有助于识别用于编码给定宏区块的模式(其界定分区和子分区的数目和形状)。

为了执行待编码的数据的当前多媒体区块与搜索空间中的候选区块之间的比较，运动估计器/空间估计器22可执行绝对差值和(SAD)技术、平方差值和(SSD)技术或有关与区块相关联的像素亮度值的其它比较技术。以此方式，运动估计器/空间估计器22可确定不同候选区块的差值。较低差值通常指示候选区块为正编码区块的较佳匹配，且因此为用于运动估计编码的优于产生较高差值的其它候选区块的候选区块。一旦获得适当匹配，就可识别数据的预测区块。

一旦针对待编码的多媒体区块通过运动估计器/空间估计器22识别了区块，运动补偿器/帧内预测单元24就建立残余区块。所述残余区块是指示待编码的当前多媒体区块与通过运动估计或空间估计而识别的预测区块之间的差值的数据区块。运动补偿/帧内预测单元24通常表示为帧间编码执行运动补偿的运动补偿器、为帧内编码执行空间补偿的帧内预测单元或可依据使用帧间编码或帧内编码而执行运动补偿或帧内预测的组合单元。运动补偿/帧内预测单元24可使用运动向量从搜索空间25获取预测区块，且随后从输入区块减去预测区块以产生残余区块。所述残余区块通常包括由差值区块表示的大体上比原始视频区块少的数据，从而导致数据压缩。

在运动补偿/帧内预测单元24已建立残余区块之后，残余编码器26可执行一个或一个以上残余编码步骤，例如离散余弦变换(DCT)、Z形扫描、运行长度编码、可变长度(“Huffman”)编码或给定编码标准中所使用的任一其它过程。也可执行众多其它残余编码步骤。可相对于由给定宏区块的选定模式而界定的每一区块(即，每一宏区块、分区和/或子分区)来执行运动估计、运动补偿和残余编码过程。

根据本发明，在运动估计期间，模式选择单元20对多媒体序列的帧的宏区块执行预处理程序，以便可能消除与极不可能用于各自宏区块的模式相关联的模式搜索。具体来说，模式选择单元20界定用于每一宏区块的细节量度，且所述细节量度可关于给定宏区块需要以恒定视觉质量进行编码的位的数目。模式选择单元20也在执行所述模式选择的过程中考虑相邻区块的模式。模式选择单元20可界定两组或两组以上模式，且可选择这些组中的一者。举例来说，模式选择单元20可界定一组帧间平面模式和一组帧间细节模式。帧间平面模式包括宏区块模式，其中所述宏区块包括一个16×16的分区(帧间16×16模式)、两个16×8的分区(帧间16×8模式)或两个8×16的分区(帧间8×16模式)。帧间平面模式也可包括“跳过”模式，其中对于那个宏区块，可跳过编码。另一方面，帧间细节模式包括宏区块模式，其中所述宏区块包括4个8×8的分区(帧间8×8模式)、一个或一个以上8×4的子分区(帧间8×4模式)、一个或一个以上4×8的子分区(帧间4×8模式)或一个或一个以上4×4的子分区(帧间4×4模式)。

归因于分区和子分区的许多组合和子组合，帧间细节中的可能模式的实际数目相对较大。然而，实验研究已表明大多数多媒体序列中超过95％的宏区块用16×16的分区、1 6×8的分区、8×16的分区或8×8的分区进行编码。因此，通常少于5％的宏区块以子分区等级进行编码。为了搜索每一可能的模式(分区和子分区的每一可能组合)，也要花费90％以上的时间搜索包括较小子分区的模式，尽管实际上仅少于5％的宏区块可能使用所述模式。本发明使用统计概率技术来确定在何时将极不可能使用子分区。在所述情况下，可避免搜索包括子分区的那些模式。

因此，模式选择单元20可使用概率方程。概率方程可包括作为变量的呈时间带宽比量度的形式的细节量度和与相邻区块相关联的模式信息。细节量度可指示宏区块中的时间和空间细节。与相邻区块相关联的模式信息可基于与当前区块的时间和/或空间接近度而加权。举例来说，对于相邻区块的模式信息来说，归因于不同区块子组之间的时间差，模式选择单元20可与加权不同帧内的第二区块子组的模式信息不同地加权帧中的第一区块子组的模式信息。在任一情况下，可分析细节量度和与相邻区块相关联的模式信息以改进用于当前宏区块的模式选择。

在每一宏区块的每一模式选择之后可更新概率方程的统计，且概率方程的更新可用于后续宏区块的模式选择决策。以此方式，模式选择单元20可适于给定序列的内容，以便改进全运动多媒体序列上的模式选择。最后，模式选择单元20从选定组的可能的多媒体编码模式中选择用于编码各自宏区块的模式。在许多情况下，本文所描述的技术可有助于避免在未选定组的多媒体编码模式中与用于宏区块的模式相关联的运动搜索。

图2为可通过模式选择单元20实施的模式选择过程的树形图。具体来说，模式决策32可包含使用帧内编码34或帧间编码36的决策。如果使用帧内编码34，则模式选择单元20确定是否将宏区块编码为16×16的区块(33)或4×4的区块组(35)，且所述决策可受宏区块中的内容的等级和所要的速率失真的等级影响。

如果使用帧间编码36，则模式选择单元20确定是否使用帧内平面模式37或帧内细节模式38。而且，在选择平面内模式平面模式37时，此可(例如)通过避免详细化子分区搜索而显著地简化模式搜索。此模式选择过程可形成速率控制算法的部分，所述速率控制算法用于通过使编码过程中的编码速率与失真水平平衡而实现经编码序列的相对恒定的多媒体质量。

具体来说，本发明的模式选择技术在与帧间编码期间的运动估计过程相关联的预处理程序期间应用。图3为说明可在此上下文中执行的技术的流程图。如所展示，模式选择单元20初始化与模式选择过程相关联的统计(42)。举例来说，统计可包含通过存取在装置制造期间所处理的多媒体帧的极大样本的平均模式相关统计而初始化的概率方程。举例来说，初始化方程可基于模拟测试序列而经预编程，但也可进行更新以反映先前通过多媒体编码装置10而执行的编码过程。

接着，模式选择单元20基于概率选择用于多媒体序列的帧的宏区块的一组模式(43)。概率可表达为概率方程，且所述方程可包括指示宏区块中的时间和空间细节的细节量度和与宏区块的相邻区块相关联的模式信息。在一个特定说明性实例中，将模式划分为用于帧间编码的可能的两组模式：一组帧间平面模式和一组帧间细节模式。在一些情况下，当选择所述组帧间平面模式时(45)，可忽略与帧间细节模式相关联的其它模式。在一些情况下，当选择所述组帧间细节模式时(46)，可忽略与帧间平面模式相关联的其它模式。在下文所论述的一些情况(图3中未图示)下，需要彻底搜索，以搜索帧间细节组与帧间平面组中的每一可能模式。换句话说，尽管图3展示帧间平面模式和帧间细节模式，但在一些情况下(例如，在难以在统计上消除帧间平面模式或帧间细节模式的情况下)执行所有模式的全面搜索。在此意义上，图3简单地说明选择帧间细节模式或帧间平面模式的情形，但在其它情形下可选择并搜索所有模式。

在任一情况下，模式选择单元20接着选择用于给定宏区块的所要模式，以实现所要等级的速率失真(48)。在此情况下，如果避免每一可能模式的彻底搜索以有助于在帧间平面组或帧间细节组中的所述模式上进行搜索，则可实现显著的计算上的节省。一旦为所述给定宏区块选定所述模式(48)，则模式选择单元20更新概率统计(49)，此允许算法适于不同内容。模式选择过程可针对下一宏区块进行重复，且可连续用于多媒体序列的每一帧的每一宏区块。

本发明的技术特别可用于根据ITU H.264(也描述于MPEG-4的标题为“高级音频编码(advanced audio coding)”的第10部分中)的模式决策。在高级音频编码中，通常在评估了运动估计的有效性之后执行帧间模式决策。然而，因为高级音频编码在宏区块内允许许多不同的区块大小，且每一区块分区对应于单独的运动估计，所以总的计算复杂度可变得很大。在此情况下，本发明的技术可忽略对于给定宏区块来说不大可能是所要选择的一些区块大小。

而且，模式选择单元20预处理多媒体序列以获得每一宏区块的时间带宽比量度。如上所提及，此量度与用于以恒定视觉质量编码各自宏区块的位的数目高度相关。时间带宽比图的一个示范性计算如下：

β_{INTER} = β_{0 INTER} \log_{10} (1 + α_{INTER} \cdot {(\frac{256}{1 + Y})}^{2} \cdot SSD \cdot D_{csat} exp (- \min (1, γ {| | {MV}_{P} + {MV}_{N} | |}^{2})))

其中D_csat是灵敏度量度，Y是宏区块的平均亮度分量，α_INTER＝1是用于亮度平方和D_csat值的加权因数，β_OINTER是归一化因数，MV_P和MV_N是当前宏区块的前向运动向量和后向运动向量，且SSD代表平方差的和。如果SSD不可得，则可替代地使用SAD²(绝对差的和)。

在一个实例中，可界定用于两种情况(H0和H1)的“假设”测试：H0：帧间平面(包括帧间16×16、帧间16×8、帧间8×16和跳过)；以及H1：帧间细节(包括帧间8×8、帧间8×4、帧间4×8和帧间4×4)。所述测试被称为“假设”测试，因为所述测试基于概率而假设最有可能的模式组(帧间平面或帧间细节)。当然，本发明的技术也可扩展到更多情况，即，更多的模式组或不同的模式组。

如图4中所展示，在多媒体编码位流的开始，模式选择单元20初始化帧间平面模式的直方图52和帧间细节模式的直方图54。可从模拟不同内容类别的若干较长测试模拟序列获得经初始化的直方图。举例来说，可使用在工厂中经处理并预先存储在给定装置10上的测试序列，以界定经初始化的直方图。然而，一旦装置10已处理了一个或一个以上多媒体序列，这些额外序列的处理也就可在后续序列的处理期间在经初始化的直方图中反映出来。以此方式，甚至本文所述的模式选择技术的初始化也可随时间演进并改进。

对于具有时间带宽比量度“b”的新宏区块来说，模式选择单元20仅基于图4的直方图将概率计算为：

其中ε为防止数据缺乏的较小正数。

宏区块的模式与其空间和时间相邻区块相关。也就是说，通常需要维持用于空间和时间邻近宏区块的类似模式。所述空间和时间相邻区块的模式可界定宏区块模式图。维持平滑的宏区块模式图可减少用于表示宏区块编码模式的位。

从图5可见，依据当前宏区块如果在帧的角落上、在帧的边界上或在帧的内部，所述宏区块可具有4个到9个相邻区块。在图5中所展示的相邻区块中，左上部(UL)、上部(U)、右上部(UR)和左部(L)使其模式在当前帧(即，来自帧内的空间相邻区块)中确定。中央(C)、右部(R)、左下部(BL)、下部(B)和右下部(BR)的模式是从前一帧(即，从邻近帧内的时间相邻区块)获得。

模式选择单元20可计算：

q₀＝2×(I(M_UL＝INTERplanar)+I(M_U＝INTERplanar)+I(M_UR＝INTERplanar)

+I(M_L＝INTERplanar)+I(M_C＝INTERplanar))+I(M_R＝INTERplanar)+

I(M_BL＝INTERplanar)+I(M_B＝INTERplanar)+I(M_BR＝INTERplanar)，和

q₁＝2×(I(M_UL＝INTERdetail)+I(M_U＝INTERdetail)+I(M_UR＝INTERdetail)

+I(M_L＝INTERdetail)+I(M_C＝INTERdetail))+I(M_R＝INTERdetail)+

I(M_BL＝INTERdetail)+I(M_B＝INTERdetail)+I(M_BR＝INTERdetail)

其中I(·)是指示符函数。指示符函数是指组上所界定的指示元素在所述组的子组中的成员资格的函数。在以上实例中，将双权数应用于4个在空间上有因果关系的相邻区块(UL、U、UR、L)和相对于其它时间相邻区块的时间中央相邻区块(C)，这归因于其相对于当前宏区块的更近的空间和时间距离。

模式选择单元20也可将帧间平面组和帧间细节组中的模式的假设概率确定为：

h_{0} = \frac{H_{0} (b) + {αq}_{0}}{(H_{0} (b) + {αq}_{0}) + (H_{1} (b) + {αq}_{1})},

h_{1} = \frac{H_{1} (b) + {αq}_{1}}{(H_{0} (b) + {αq}_{0}) + (H_{1} (b) + {αq}_{1})},

其中α是在模式决策中调整邻近宏区块模式的有效值的加权因数。

模式选择单元20可将置信度界定为“t”。模式选择单元20可随后将经更新的假设概率计算为：

当在没有(w/o)完全速率失真(R-D)搜索的情况下选择一组模式时，在以上那些情况下可实现计算上的节省。在每一帧的结尾处，模式选择单元20可找到当前帧假设概率的直方图。当前帧假设概率可表示为H′₀和H′₁.。因此，可用以下方式更新长期的假设概率：

H_{0} (b) &LeftArrow; \frac{H_{0} (b) + {βH}^{'}_{0} (b)}{H_{0} (b) + {βH}^{'}_{0} (b) + H_{1} (b) + {βH}^{'}_{1} (b)},

H_{1} (b) &LeftArrow; \frac{H_{1} (b) + {βH}^{'}_{1} (b)}{H_{0} (b) + {βH}^{'}_{0} (b) + H_{1} (b) + {βH}^{'}_{1} (b)},

其中β为用于调整更新速度的加权因数。

通过考虑计算负荷与PSNR性能之间的权衡，可在模式选择单元20中选择参数组α＝0.10、β＝0.2、t＝0.90。也可调整置信度以在经编码多媒体序列中实现质量和复杂性的不同等级。模拟结果已表明：相对于完全搜索，所述技术的实施可将经完全搜索的宏区块的数目减少约1/6，而仅有约0.1～0.14dB的可忽略的PSNR损失。

图6为说明用于编码的模块100的方框图，所述模块可包含编码器且可形成能够编码并传输多媒体数据的数字视频装置的部分。用于编码的模块100包括用于模式选择的模块120，所述用于模式选择的模块在帧间编码期间将模式选择技术作为运动估计过程的部分而执行。用于编码的模块120也包括可分别包括运动估计器和运动补偿器的用于运动估计的模块122和用于运动补偿的模块124。用于编码的模块100可包括用于存储的模块125，所述用于存储的模块可为存储器单元等。用于编码的模块100也可包括用于残余编码的模块126，所述用于残余编码的模块可包含残余编码器。

在编码过程中，用于运动估计的模块122执行运动估计过程，且用于运动补偿的模块124执行运动补偿过程。可从用于存储的模块125存取所述编码过程中所使用的数据。在已执行运动估计和运动补偿过程之后，用于残余编码的模块126可对残余区块执行一个或一个以上残余编码步骤。

根据本发明，在运动估计期间，用于模式选择的模块120对多媒体序列的帧的宏区块执行预处理程序，以便可能消除与极不可能用于各自宏区块的模式相关联的模式搜索。具体来说，用于模式选择的模块120界定用于每一经帧间编码的宏区块的细节量度，且使用与相邻区块相关联的模式信息。用于模式选择的模块120可使用概率方程，且所述概率方程可包括细节量度和与相邻区块相关联的模式信息。

在每一宏区块的每一模式选择之后，可更新概率方程中的统计，且概率方程的更新可用于后续宏区块的模式选择决策。以此方式，用于模式选择的模块120可适于给定序列的内容，以改进全运动多媒体序列上的模式选择。最后，用于模式选择的模块120从经选定组的可能的多媒体编码模式中选择用于编码各自宏区块的模式。在许多情况下，通过用于模式选择的模块120执行的技术可有助于避免在未选定组的多媒体编码模式中与用于宏区块的模式相关联的运动搜索。

根据本发明，用于选择一组多媒体编码模式的装置可包含模式选择单元20(图1)或用于选择的模块120(图6)。类似地，用于运动估计的装置可包含运动估计器/空间估计器22(图1)或用于运动估计的模块122(图6)。用于运动补偿的装置可包含运动补偿器/帧内预测单元24(图1)或用于运动补偿的模块124(图6)，且用于残余编码的装置可包含残余编码器26(图1)或用于残余编码的模块126(图6)。用于存储的装置可包含搜索空间25(图1)或用于存储的模块125(图6)。用于更新统计的装置也可用于更新用于模式选择决策的概率方程，且此用于更新的装置可包含任一硬件、软件、固件等，其经设计或编程以执行对直方图等(例如类似于图4中所展示的直方图的直方图)的统计更新。

已描述众多实施例。具体来说，已描述用于运动估计过程的模式选择技术，以使得可确定用于宏区块的编码模式，以实现所要的编码速率和可接受的失真水平(即，可接受的速率失真)。如所描述，所述技术可利用用于每一宏区块的细节量度和与各自宏区块的相邻区块相关联的模式信息。可实施概率方程以使用细节量度和与相邻区块相关联的模式信息，且可在每一模式选择之后更新概率方程中的统计以适于给定序列的内容。所述技术可界定至少两组模式，且可选择这些组中的一者，从而可能消除与另一组模式相关联的不必要的搜索。所述技术也适用于其它区块大小，即，与16×16的宏区块不同的区块大小。可通过各自的编码标准来界定区块的大小和所支持的模式。在任一情况下，区块可具有通过区块的分区和/或子分区而界定的若干可能模式，且可使用本文所描述的技术来改进模式选择。

可以硬件、软件、固件或其任一组合实施本文所描述的技术。如果以软件实施，则可通过计算机可读媒体(或其它机器可读媒体)而部分地实现所述技术，所述计算机可读媒体包含含有在执行时执行本文所描述的技术中的一者或一者以上的指令的程序代码。在此情况下，计算机可读媒体可包含例如同步动态随机存取存储器(SDRAM)的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦可编程只读存储器(EEPROM)、快闪存储器、磁性或光学数据存储媒体等。

可通过一个或一个以上处理器或例如一个或一个以上数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成电路或离散逻辑电路的其它机器而执行所述指令。一般来说，执行所述指令的机器通常可包含一设备。在一些实施例中，本文所描述的功能性可提供在经配置以用于编码和解码的专用软件模块或硬件模块或单元内，或并入组合的视频编解码器(CODEC)中。

然而，在不偏离所附权利要求书的范围的情况下，可对所述技术进行各种修改。因此，上述特定实施例和其它实施例处于所附权利要求书的范围内。

Claims

1.一种用于处理多媒体数据的方法，所述方法包含：基于与多媒体帧的区块相关联的细节量度和与所述区块的相邻区块相关联的模式信息，从至少两组可能的多媒体编码模式中选择一组多媒体编码模式，以用于所述区块。

2.根据权利要求1所述的方法，其中所述区块包含16个像素×16个像素的宏区块。

3.根据权利要求1所述的方法，其中所述多媒体编码模式按照分区、子分区或分区和子分区来界定所述区块的粒度。

4.根据权利要求1所述的方法，其中从至少两组可能的多媒体编码模式中进行选择包含：在一组帧间平面模式与一组帧间细节模式之间选择。

5.根据权利要求4所述的方法，其中所述帧间平面模式包含帧间16×16模式、帧间16×8模式和帧间8×16模式；且其中所述帧间细节模式包含帧间8×8模式、帧间8×4模式、帧间4×8模式和帧间4×4模式。

6.根据权利要求1所述的方法，其中所述选择是基于一个或一个以上概率方程，其中所述概率方程包括作为变量的所述细节量度和与所述相邻区块相关联的所述模式信息。

7.根据权利要求6所述的方法，其进一步包含：更新所述一个或一个以上概率方程中的统计，以用于多媒体序列的所述帧的后续区块的模式选择决策。

8.根据权利要求1所述的方法，其中所述细节量度指示所述区块中的时间和空间细节。

9.根据权利要求1所述的方法，其中通过所述帧内的第一区块子组和不同帧内的第二区块子组来界定与所述区块的所述相邻区块相关联的所述模式信息。

10.根据权利要求9所述的方法，其进一步包含与加权所述不同帧内的所述第二区块子组不同地加权所述帧内的所述第一区块子组。

11.根据权利要求1所述的方法，其进一步包含从所述选定组的可能的多媒体编码模式中选择用于编码所述区块的模式。

12.根据权利要求11所述的方法，其进一步包含避免在未选定组的多媒体编码模式中与用于所述区块的模式相关联的运动搜索。

13.一种用于处理多媒体数据的设备，其包含编码器，所述编码器基于与多媒体帧的区块相关联的细节量度和与所述区块的相邻区块相关联的模式信息，从至少两组可能的多媒体编码模式中选择一组多媒体编码模式，以用于所述区块。

14.根据权利要求13所述的设备，其中所述区块包含16个像素×16个像素的宏区块。

15.根据权利要求13所述的设备，其中所述多媒体编码模式按照分区、子分区或分区和子分区来界定所述区块的粒度。

16.根据权利要求13所述的设备，其中所述编码器通过在一组帧间平面模式与一组帧间细节模式之间选择而从至少两组可能的多媒体编码模式中进行选择，其中所述帧间平面模式包含帧间16×16模式、帧间16×8模式和帧间8×16模式；且其中所述帧间细节模式包含帧间8×8模式、帧间8×4模式、帧间4×8模式和帧间4×4模式。

17.根据权利要求13所述的设备，其中所述编码器基于一个或一个以上概率方程来选择所述组多媒体编码模式，其中所述一个或一个以上概率方程包含作为变量的所述细节量度和与所述相邻区块相关联的所述模式信息。

18.根据权利要求17所述的设备，其中所述编码器更新所述一个或一个以上概率方程中的统计，以用于多媒体序列的所述帧的后续区块的模式选择决策。

19.根据权利要求13所述的设备，其中所述细节量度指示所述区块中的时间和空间细节，且其中与所述区块的所述相邻区块相关联的所述模式信息是通过所述帧内的第一区块子组和不同帧内的第二区块子组而界定。

20.根据权利要求19所述的设备，其中所述编码器与加权所述不同帧内的所述第二区块子组不同地加权所述帧内的所述第一区块子组。

21.根据权利要求13所述的设备，其中所述编码器从所述选定组的可能的多媒体编码模式中选择用于编码所述区块的模式。

22.根据权利要求21所述的设备，其中所述编码器避免在未选定组的多媒体编码模式中与用于所述区块的模式相关联的运动搜索。

23.一种用于处理多媒体数据的处理器，所述处理器经配置以基于与多媒体帧的区块相关联的细节量度和与所述区块的相邻区块相关联的模式信息，从至少两组可能的多媒体编码模式中选择一组多媒体编码模式，以用于所述区块。

24.根据权利要求23所述的处理器，其中所述区块包含16个像素×16个像素的宏区块。

25.根据权利要求23所述的处理器，其中所述多媒体编码模式按照分区、子分区或分区和子分区来界定所述区块的粒度。

26.根据权利要求23所述的处理器，其中所述处理器经配置以通过在一组帧间平面模式与一组帧间细节模式之间选择而从至少两组可能的多媒体编码模式中进行选择，其中所述帧间平面模式包含帧间16×16模式、帧间16×8模式和帧间8×16模式；且其中所述帧间细节模式包含帧间8×8模式、帧间8×4模式、帧间4×8模式和帧间4×4模式。

27.根据权利要求23所述的处理器，其中所述处理器经配置以基于一个或一个以上概率方程来选择所述组多媒体编码模式，其中所述一个或一个以上概率方程包含作为变量的所述细节量度和与所述相邻区块相关联的所述模式信息。

28.根据权利要求27所述的处理器，其中所述处理器经配置以更新所述一个或一个以上概率方程中的统计，以用于多媒体序列的所述帧的后续区块的模式选择决策。

29.一种机器可读媒体，其包含用于处理多媒体数据的指令，所述指令一旦执行便促使机器基于与多媒体帧的区块相关联的细节量度和与所述区块的相邻区块相关联的模式信息而从至少两组可能的多媒体编码模式中选择一组多媒体编码模式以用于所述区块。

30.根据权利要求29所述的机器可读媒体，其中所述多媒体编码模式按照分区、子分区或分区和子分区来界定所述区块的粒度。

31.根据权利要求29所述的机器可读媒体，其中所述指令通过在一组帧间平面模式与一组帧间细节模式之间选择而从至少两组可能的多媒体编码模式中进行选择，其中所述帧间平面模式包括帧间16×16模式、帧间16×8模式和帧间8×16模式；且其中所述帧间细节模式包括帧间8×8模式、帧间8×4模式、帧间4×8模式和帧间4×4模式。

32.根据权利要求29所述的机器可读媒体，其中所述指令基于一个或一个以上概率方程来选择所述组多媒体编码模式，其中所述一个或一个以上概率方程包含作为变量的所述细节量度和与所述相邻区块相关联的所述模式信息。

33.根据权利要求32所述的机器可读媒体，其中所述指令更新所述一个或一个以上概率方程中的统计，以用于多媒体序列的所述帧的后续区块的模式选择决策。

34.一种用于处理多媒体数据的设备，其包含用于基于与多媒体帧的区块相关联的细节量度和与所述区块的相邻区块相关联的模式信息而从至少两组可能的多媒体编码模式中选择一组多媒体编码模式以用于所述区块的装置。

35.根据权利要求34所述的设备，其中所述多媒体编码模式按照分区、子分区或分区和子分区来界定所述区块的粒度。

36.根据权利要求34所述的设备，其中所述装置通过在一组帧间平面模式与一组帧间细节模式之间选择而从至少两组可能的多媒体编码模式中进行选择，其中所述帧间平面模式包括帧间16×16模式、帧间16×8模式和帧间8×16模式；且其中所述帧间细节模式包括帧间8×8模式、帧间8×4模式、帧间4×8模式和帧间4×4模式。

37.根据权利要求34所述的设备，其中所述装置基于一个或一个以上概率方程来选择所述组多媒体编码模式，其中所述一个或一个以上概率方程包括作为变量的所述细节量度和与所述相邻区块相关联的所述模式信息。

38.根据权利要求34所述的设备，其进一步包含用于更新所述一个或一个以上概率方程中的统计以用于多媒体序列的所述帧的后续区块的模式选择决策的装置。