CN1981537B

CN1981537B - 能够在流应用中进行媒体采集的方法和设备

Info

Publication number: CN1981537B
Application number: CN200580022563XA
Authority: CN
Inventors: 维贾亚拉克施密·R·拉维德朗
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2004-05-04
Filing date: 2005-05-04
Publication date: 2011-03-09
Anticipated expiration: 2025-05-04
Also published as: AR048730A1; CA2565791A1; WO2005109900A1; US7991053B2; JP5006189B2; KR100977490B1; TW200607352A; EP1747680A1; JP2007536821A; US20050265461A1; KR20070007382A; CN1981537A

Abstract

提供了用于对多媒体帧进行编码和解码的方法和装置。所述方法包括对包括可视帧的一组采集帧进行编码，每个帧包括一个或多个帧内编码部分以及一个或多个帧间编码部分；其中，对所述帧内编码部分进行编码的操作包括定位所述帧内编码部分，使得当对所述一组采集帧的所述帧内编码部分进行合并时，形成完整的帧内编码复合帧。对所述帧间编码部分进行编码的操作包括预测所述帧间编码部分，使得所述可视帧由帧内编码部分和帧间编码部分组成，其中根据所述一组采集帧的所述帧内编码部分直接或间接地预测所述帧间编码部分。

Description

能够在流应用中进行媒体采集的方法和设备

基于35U.S.C.§119要求优先权

本专利申请要求在2004年5月4日递交的名称为“AIR FORACQUISTION OF MEDIA IN STREAMING APPLICATIONS”的临时申请No.60/568,329的优先权，该临时申请转让给本申请的受让人，因而在此通过参考援引该临时申请。

技术领域

本发明涉及用于分发以能够随机访间数据流的方式进行编码的数字数据的方法、设备和系统。

背景技术

数字视频和音频压缩技术已经开创了数字多媒体分发的蓬勃发展的新纪元。自20世纪90年代初以来，国际标准组织，例如ITU-T的视频编码专家组(VCEG)以及ISO/IEC的运动图像专家组，已经开发出多种国际视频记录标准。例如，所开发的标准包括MPEG-1、MPEG-2、MPEG-4(统称为MPEG-x)、H.261、H.262、H.263以及H.264(统称为H.26x)。

国际视频记录标准遵循所谓的基于块的混合视频编码方法。在基于块的混合视频编码方法中，像素作为对图像或者(如同其通常被称作的以及将在本申请中引用的)帧的数字表示的基础。一组像素形成所谓的块。用于进行数字压缩操作的通用块大小被称为宏块。宏块由16×16像素构成。子宏块由较小的像素集合构成，例如16×8、8×16、8×8、8×4、4×8和4×4像素。压缩操作也可以在子宏块上进行，因此，为了避免使本发明的发明方案不清楚，将描述对可以包括所有块大小或者多组块大小的帧的部分所进行的操作。一组宏块形成所谓的条块(slice)。条块可以由连续的宏块以例如行、列、正方形或者矩形的形式构成。条块也可以由分离的宏块或者分离和连续的宏块的组合构成。条块聚集在一起以在形成视频序列的帧序列的一个时间点处形成帧。

MPEG-x和H.26x标准描述了适合于使用固定或可变长度源编码技术对视频、音频和其它信息进行压缩和传送的数据处理和操控技术。特别地，以上提及的标准以及其它混合编码标准和技术将使用帧内编码技术(例如，游程长度编码、霍夫曼编码等等)和帧间编码技术(例如，前向和后向预测编码、运动补偿等等)压缩视频信息。具体地，在视频处理系统的情况下，混合视频处理系统的特征在于利用帧内和/或帧间运动补偿编码对视频帧进行基于预测的压缩编码。

帧间编码技术利用视频序列中的帧之间的时间相关性。通常用于上述目的的时间预测减少了压缩比特流中的随机访问点，这是因为除非对当前帧所参考的帧预先进行解码，否则不能实现对当前时间预测帧的解码。因此，在解码器或者用户应用端处，所接收的比特流(以下载文件的形式，或者在流媒体的情况下以流比特的形式)可能无法被即时播放。相反地，可以仅仅在例如帧内编码帧或者IDR帧的流/文件中的预定随机访问点处开始解码。在H.264中引入IDR(或即时解码器刷新)帧，其可用作随机访问点。通过任何一种上述帧间编码技术，IDR帧之前(在时间上)的信息可以不作为后续帧的参考。在视频流应用中，特别是在组播情况下，从用户经历的角度来讲，即时

(或者越快越好)解码的能力可能是更优选的。

帧内编码技术的压缩率低于帧间编码技术。因而，增加IDR和帧内编码帧的频率虽然能够提供频繁的随机访问点，但是这会导致过高的比特率。需要一种用于提供随机访问点的改进的较低比特率方法。

发明内容

一种能够通过使用时间预测帧中的帧内编码部分，随机访问非帧内编码帧中的视频流的方法、设备和系统。此外，可将被称为采集图像组(acquisition group of pictures)(或者采集GOP)的一系列帧用作随机访问点。采集GOP包含多个时间预测帧，每个时间预测帧可包含帧内编码区域。当合并所有的帧内编码区域时，可以观看到完整的图像(或者帧或区域)。

附图说明

图1是用于对流图像进行编码和解码的一般通信系统的框图；

图2A示出对基于帧的比特流的顺序访问；

图2B示出对基于帧的比特流的随机访问；

图3是采集GOP帧序列的实例的视图；

图4是采集GOP帧序列的另一个实例的视图；

图5示出对帧内编码部分进行编码的帧序列；

图6是采集GOP帧序列的实例的视图；

图7是采集GOP帧序列的实例的视图；

图8是示出包括采集GOP的编码处理的一个实例的流程图；以及

图9是示出包括采集GOP的解码处理的一个实例的流程图。

具体实施方式

本文描述了一种对数字数据的帧序列进行编码以使接收设备的用户能够更有效地访问视频流的方法、设备和系统。所述方法、设备和系统向帧内编码访问点方案提供了一种可选的低比特率方案。为了避免使本发明的发明方案不清楚，略去了某些细节。本领域技术人员应可了解未在本申请中描述的特定细节。

图1是用于对流图像进行编码和解码的一般通信系统的框图。系统100包括编码器设备105和解码器设备110。编码器设备105进一步包括帧内编码组件115、预测编码组件120、采集GOP组件125、存储器组件130和通信组件175。编码器设备105能够使用包含在通信组件175中的通信逻辑从外部源135接收数据。例如，外部源135可以是外部存储器、互联网、直播(live)视频和/或音频输入，并且接收数据可以包括有线和/或无线通信。包含在外部源135中的数据可以处于原始(未编码)或者编码状态。帧内编码组件115用于对帧的帧内编码部分(条块、宏块和子宏块)进行编码。预测编码组件120用于对帧的预测部分进行编码，包括前向预测、后向预测和双向预测。除了包含用于对预测帧进行编码的逻辑之外，预测编码组件120还包含用于为预测部分选择参考帧的逻辑。

编码器设备105可以访问原始或者编码数据，以进行编码。可以对编码数据进行访问，以使用帧间编码部分代替帧内编码部分，反之亦然，以将编码帧序列转换为采集GOP。当访问编码数据(帧内编码或者帧间编码数据)时，包含在帧内编码组件115和预测编码组件120中的逻辑对编码数据进行解码，以得到重构的原始数据。该重构的原始数据或者所访问的原始数据可接着以包括采集GOP的方式进行编码。采集GOP组件125包含一种逻辑，其用于确定采集GOP中每个采集帧的哪个部分应当由帧内编码组件115进行帧内编码，以及采集GOP中每个采集帧的哪个部分应当由预测编码组件120进行帧间编码。采集GOP组件125还包含限制采集GOP中的哪些帧可以由其它帧的帧间编码部分进行参考的逻辑。在编码之后，将编码帧存储在存储器组件130或者外部存储器中。外部存储器可以与外部源135相同，或者是独立的存储器组件(未示出)。通信组件175包含用于结合网络140进行发送(Tx)的逻辑。网络140可以是例如电话、电缆和光纤等有线系统或者无线系统的一部分。在无线通信系统的情况下，网络140可以包括例如码分多址(CDMA或者CDMA2000)通信系统的一部分，或者所述系统可以是频分多址(FDMA)系统、时分多址(TDMA)系统(例如用于服务产业的GSM/GPRS(通用分组无线服务)/EDGE(增强的数据GSM环境)或者TETRA(陆上集群无线)移动电话技术)、宽带码分多址(WCDMA)、高数据率(1xEV-DO或者1xEV-DO黄金组播)系统或者整体上使用多种技术的组合的任何无线通信系统。编码帧在网络140上进行发送(Tx)。下面更全面地描述由编码器设备105的组件执行的编码处理。

解码器设备110包含与编码器设备105相似的组件，包括帧内解码组件145、预测解码组件150、采集GOP组件155、存储器组件160和通信组件180。不具有采集GOP组件的解码器设备可以采用对于解码器忽略采集的常规方式进行解码，并且仍可被提供随机访问点。采集GOP组件155可以允许解码器定位采集GOP，并且只对采集所需的那些部分进行解码，从而改善了解码处理的效率。解码器设备110接收经由网络140发送的编码数据或者从外部存储器165接收编码数据。通信组件180包含用于结合网络140接收(Rx)编码数据的逻辑，以及用于从外部存储器165接收编码数据的逻辑。例如，外部存储器165可以是外部RAM或ROM或者远程服务器。帧内解码组件145用于对帧内编码数据进行解码。预测解码组件150用于对帧间编码数据进行解码。采集GOP组件155包含一种逻辑，其用于例如在用户进行信道切换之后或者在首次采集信号时，进行对包含采集GOP的比特流的初始采集。采集GOP包含多个采集帧。首先识别采集GOP，然后由帧内解码组件145对采集帧中进行帧内编码的那些部分进行解码。由预测解码组件150对采集帧中参考所解码的帧内编码部分的任何后续帧间编码部分进行解码。在对包含在采集GOP中的所有采集帧的所有帧内编码部分和后续帧间编码部分进行了解码之后，得到完全恢复的由合并的帧内编码和帧间编码部分构成的可视帧。在解码之后，解码帧可以显示在显示器组件170上或者存储在内部存储器160或外部存储器165中。显示器组件170可以是解码设备的一个组成部分，例如电话或者PDA(个人数字助理)或者外围设备上的显示屏。下面更全面地描述解码器设备110所执行的解码处理。

在图1的帧内编码方框115和帧内解码方框145中使用的帧内编码是一种基于图像当前部分而不参考其它图像的数字压缩方法。帧内编码可以首先使用空间预测，其中可以根据其相邻的像素值预测出像素值。目前，只有H.264支持空间预测。H.264支持两种用于亮度(luma)值的空间预测模式，称为16×16宏块空间预测和4×4子宏块空间预测。H.264提供一种用于色度(chroma)的预测模式，称为8×8模式。在8×8模式中，以与16×16亮度宏块相似的方式预测8×8色度块。在空间预测之后，例如，使用离散余弦变换(DCT)或者在H.264的情况下使用整数变换，对剩余信息进行变换，然后进行量化。可在条块等级(level)上进行帧内编码，其中，条块可由一组宏块(16×16像素宏块)构成。帧内编码条块或者I-条块只包含帧内编码宏块，而不使用时间预测。可对整个帧进行帧内编码，称为I帧，并且可将其用作随机访问点。与下面描述的帧间编码或者预测帧不同，I帧(或I条块)包含显示由压缩数据所表示的图像的所有必要信息。因此，I帧可以用于随机访问情况下的初始帧。但是，I帧可能无法提供与帧间编码帧或者预测帧相同程度的压缩。

DCT仅是一种可使用的可逆二维变换。例如，其它可能的变换包括离散小波变换(DWT)、H.264中的整数变换或者Hadamard变换。对于每个宏块，可以改变变换系数的量化。在量化之后，使用例如霍夫曼编码、可变长度编码或者二进制代数编码等熵编码进行进一步的数字压缩。熵编码可以使用较短的码代替出现最频繁的比特串，并且可以使用较长的码代替出现较少的比特串。熵编码可以是上下文自适应的，以在被编码的数据中出现图案时利用所述图案。上下文自适应编码可以在条块等级或者更低的等级(例如宏块等级或者子宏块等级)上进行。

如所公知的，帧间编码或者预测编码是如下的时间预测形式，即，其可以使用例如运动估计来利用时间点之间的相似性，以允许比帧内编码更大的数字压缩。帧间编码由图1中的预测编码方框120和预测解码方框150执行。帧间编码可以通过搜索相似块在另一个时间点处的参考图像，在宏块等级或者更低的等级上察看每个图像。如果发现匹配，则系统存储更小的运动向量和剩余误差(residual error)，而不是存储整个块的所有DCT系数值。运动向量描述所述块在时间图像之间的运动(或者无运动)，剩余误差分量纠正预测块中的任何误差。通过这种方式来获得有效的压缩。

例如，帧间编码包括根据一个或者多个参考帧进行的前向预测、后向预测和双向预测。在前向预测中，将参考帧中的最佳匹配宏块用作对后续帧中宏块的预测。在后向预测中，将参考帧中的最佳匹配宏块用作对先前帧中宏块的预测。在双向预测中，进行帧间编码的当前帧位于先前参考帧和后续参考帧之间。对来自先前和后续参考帧的最佳匹配宏块进行合并(例如，使用简单平均或者加权平均进行合并)，以形成对当前帧中宏块的预测。在本文中，将根据任意数量的参考帧进行的前向预测、后向预测和双向预测统称为“帧间编码”或“被帧间编码”技术。

随机访问是指在任何时间点处访问数据的能力。顺序访问与随机访问不同，其需要对所有插入(intervening)点进行解码。图2A示出对基于帧的比特流的顺序访问。对帧20、22、24和26进行顺序解码。这种情况为：根据帧20对帧22进行前向预测，根据帧22对帧24进行前向预测，以及根据帧24对帧26进行前向预测。图2B示出对基于帧的比特流的随机访问。在不对帧20、22或者24进行解码的情况下直接对帧26进行解码。例如，如果帧26是完整的帧内编码帧，则其可被解码。

视频采集是一种随机访问形式，其可以包括其它限制，例如在较低OSI(开放系统互联)层上的系统采集。视频采集是指应用层(视频解码器可以位于其中)能够进行视频显示时的状态。在混合编码视频比特流的情况下，由于帧间编码，可能无法在所有帧上实现随机访问或者视频采集。解码器可在比特流中前后移动，以定位随机访问点。对整个帧进行帧内编码是一种提供随机访问点的方法。但是，某些功率有限的设备、处理器有限的设备或者数据率有限的信道可能无法提供对整个数据帧的频繁帧内编码。

采集GOP提供了对整个视频帧进行帧内编码以提供随机访问点的一种可选方法。图3是采集GOP帧序列的实例的视图。采集GOP30包含N个采集帧32(标记为“Acq 1”至“Acq N”的帧)，其包括帧内编码部分。如在比特流中所示，在采集GOP的外部是非采集帧34(无标记帧)。帧内编码部分可以采用任何形状或者大小，例如像素、块、子宏块、宏块或者条块。每个采集帧32还包含由未进行帧内编码的其余块构成的帧间编码部分。非采集帧34也可包含帧内编码和帧间编码部分。

图4是采集GOP帧序列的另一个实例的视图。该实例包括在采集GOP40中的N个采集帧32(标记为“Acq 1”至“Acq N”的帧)之间散布的非采集帧34。在采集帧之间散布非采集帧增加了视频采集的延时，但是当较低层不能以相应的粒度(granularity)提供随机访问时，其可以提供更好的压缩效率或者降低的比特率。采集帧32包含帧内编码和帧间编码部分。散布在采集帧32之间的非采集帧34可能或者可能不必遵循如下所述的对帧间编码的限制，这取决于采集设备是否在采集期间对非采集帧进行解码。如下所述的对帧间编码的限制使得采集设备能够获得正确的采集，而帧间预测部分不会由于对未解码部分的依存而受到破坏。

为了使解码器建立视频采集，解码器对采集GOP中的N个采集帧的帧内编码部分进行解码。也可以对采集GOP中参考先前被解码部分(帧间编码或者帧内编码部分)的其它帧(采集或者非采集帧)中所包含的帧间编码部分(前向、后向或者双向)进行解码。对帧内编码部分进行定位(如下所述)，可以通过合并N个采集帧中的帧内编码部分来形成帧内编码复合。在对采集GOP中的N个采集帧进行了解码以及形成了合并的帧内编码复合之后，就完成了视频采集。

一个实例利用位于比特流中预定间隔处的采集GOP。在例如每一秒或每两秒的规则间隔时段处包括采集GOP可以允许接收设备尝试进行随机访问，以便简单地搜索小量比特流数据来快速定位采集GOP并获得视频采集，从而改善用户经历。一般地，I帧将包括在比特流中，以允许进行频繁的随机访问，但是其代价是较小的压缩以及较高的数据率或者对于相同数据率的较低质量。从而，通过所述方法，可以降低在采集比特流过程中的延时(例如当改变信道时)，同时提供低于单独使用I帧的数据率。

图5示出对帧内编码部分进行编码的帧序列。该视图仅仅将块用作实例，但是也可使用具有任何大小或者形状的部分。该实例中的采集GOP500由六个采集帧501-506组成。每个采集帧501-506包括六个帧内编码块524。采集帧501-506还示出未进行帧内编码的块520以及先前进行帧内编码的块528。如果没有进行了两次帧内编码的块(如图5中所示实例的情况)，则整个帧将在六个采集帧中进行帧内编码，如帧506所示。应当注意，该实例示出在采集GOP500的每个帧中进行帧内编码的块的数量相同，但是这并非是必须的。只要将被显示的图像的每个部分至少在采集GOP500中进行一次帧内编码，就可以在解码最后一个采集帧时获得视频采集。从而，在采集GOP500的末端处，已经对帧的每个部分进行了帧内编码。

由于采集帧501-506可经由网络发送至多个接收设备，其中某些接收设备已经采集了视频流，因而必须对每个采集帧501-506中的每个块进行编码。对每个采集帧中未进行帧内编码的块进行帧间编码，并使其参考对相应的最佳匹配部分进行了帧内编码或者帧间编码的一个或多个帧。已经采集了视频流的接收设备已具有关于其它帧(前向或者后向)的信息，所述信息用于对采集GOP内的采集(或者非采集)帧的帧间编码部分进行解码。但是，需要给予特别注意，以便当采集帧的帧间编码部分已在例如先前的采集帧中进行了帧内编码时能够进行视频采集。

在图5所示的实例中，如果要在帧506处完成采集以得到可视帧506，则帧506中未进行帧内编码的部分需要参考采集GOP内的帧内编码部分进行帧间编码，或者参考在采集GOP内的帧内编码部分处具有原始参考点的帧间编码部分进行帧间编码。对于另一种方式，可视帧506将由6个帧内编码块以及将根据采集帧501-506中的帧内编码块直接或者间接预测的帧间编码块组成。另外，采集GOP之后的帧中的帧间编码部分需要参考采集GOP之内或之后的帧内编码部分，或者参考在采集GOP之内或之后具有原始参考点的帧间编码部分。下面描述涉及采集GOP的帧间编码限制的更多细节。

图6是采集GOP帧序列的实例的视图。采集GOP600包含三个采集帧601A、601B和601C，每个帧中具有9个块。为了便于说明，图6中的实例假设所有块602-658的帧之间的运动是可忽略的。将在下面参考图7描述在一个帧间编码块与另一个帧中的相应最佳匹配块之间的运动的影响。在采集GOP600的每个帧内对一行块进行帧内编码，帧601A的行1包含帧内编码块602-606，帧601B的行2包含帧内编码块628-632，帧601C的行3包含帧内编码块654-658。为了使采集设备完成对整个未破坏帧的采集，必须遵循对采集帧中的块的帧间编码的若干限制。由于在帧601A中对第一行块602-606进行帧内编码，后续的帧601B和601C中的第一行块622-626和642-646将需要分别进行帧间编码，以便不会对其进行第二次帧内编码。根据块602对预测块622进行前向预测，其中，块602在采集帧601A中进行了帧内编码。根据预测块622对预测块642进行前向预测，并且块642可以与所有其它帧间编码块644-652以及帧内编码块654-658一起显示在采集帧601C中。由于块642和622依赖于第一采集帧601A中的帧内编码块602，因而可以由接收采集GOP600中的所有帧的采集设备对块642和622进行解码和显示。如果采集设备没有接收到采集GOP600中的所有帧，则采集设备可以定位后续的采集GOP，或者其可以继续解码，但是可能直到解码出下一个采集GOP时才出现完整的采集。示出了采集GOP内正确帧间编码的另一个实例，其中，根据采集GOP之前的帧预测块616，并且根据块616预测块636。上述情况是可以接受的，这是因为在最后的采集帧601C中设置的块656进行了帧内编码，从而其可以在完成采集时进行显示。

帧间编码限制的一个实例是：避免根据包含帧内编码块604的采集帧601A之前的参考帧来预测块624。由于采集设备未对采集GOP之前的帧进行解码，从而可能不具有必要的最佳匹配块来构成块624或者块644(假设根据块624对块644进行预测)，因此，块644将在采集帧601C中受到破坏。相反，应当根据帧内编码块604对块624进行预测，从而可以根据块624(或者块604)对块644进行预测。

帧间编码限制的另一个实例将是：避免根据块608对采集帧601C中的块648进行预测，其中根据采集GOP之前的帧对块608进行预测。由于采集设备不能对块608进行解码，因而其不能重构块648，并且最后的采集帧将再次受到破坏。如果根据帧内编码块628对块648进行预测，则将会解码出正确的块648，并且可将其显示在采集帧601C中。

一般而言，如果最后一个采集帧601C中的每个帧间编码块是根据同一采集GOP的另一个采集帧中的帧内编码块直接或者间接地预测的，则可被完全采集的、可视的并且基于根据帧内编码复合进行的预测的帧将出现在最终的采集帧中。

如果根据后面的采集帧对前面的采集帧中的块进行后向预测，则完整的采集和可视帧可以出现在前面的帧中，但是解码延时将更大。例如，可以根据帧内编码块654对块634进行预测，并可以根据块634对块614进行预测。如果根据后面的采集帧中的帧内编码块对所有的块608-618进行预测，则可以显示整个第一帧601A(包括帧内编码块602-606)，但只能是在对后面的帧中的所有参考块进行了解码之后。

在完成采集之后(在示例性的采集GOP600中的最后的第三帧601C中)，后续帧中的帧间编码块不应当参考还未被采集设备进行解码的块。

为了便于说明，参考图6说明的帧间编码方法未考虑最佳匹配块与预测块之间的运动的影响。图7是采集GOP帧序列的实例的视图。与图6相同，示例性的采集GOP700具有三个包括帧内编码块702-718的采集帧701A、701B和701C。块702、704和706构成第一采集帧701A的第一行，块708、710和712构成第二帧701B的第二行，以及块714、716和718构成第三帧701C的第三行。由于在最佳匹配块与由第二采集帧701B中的子块722和724组成的块之间的运动，由子块722和724组成的整个块不能由第一采集帧701A中的整个帧内编码块进行匹配。子块722是对位于帧内编码块702和704内的子块726的良好匹配，因此，根据子块726对子块722进行预测。在该实例中，第一采集帧中将要匹配子块724的子块728位于第二行，并且没有进行帧内编码。根据非帧内编码子块728对子块724进行预测将会在采集设备中产生受到破坏的重构块。相反地，应当根据另一个采集帧的另一个帧内编码部分，或者根据可以将其预测历史追溯至采集设备已经解码的帧内编码或者帧间编码部分的另一个帧间编码部分，来预测子块724。在该实例中，发现帧内编码子块730是对子块724的良好匹配，并根据完全包含在帧内编码块714和716中的子块730对子块724进行后向预测。如果在采集帧中没有识别出充分匹配子块724的部分，则子块724将需要进行帧内编码。该实例证明：采集帧中的帧内编码部分中的组合相邻块能够有助于对其它采集帧提供运动补偿预测。

图5-图7中所示的上述采集GOP实例可以利用类似于例如图3所示未插入非采集帧的采集GOP，或者图4所示在采集帧之间插入非采集帧的采集GOP。非采集帧可以包括帧间编码和帧内编码部分。例如，非采集帧中的帧内编码部分可以包括为了提供采集之外的目的而进行帧内编码的区域，例如，为了用于停止误差传播或者在帧间编码无用时启动屏幕变化情况的目的。采集帧还可以包括为了采集之外的原因而进行编码的帧内编码部分。当由于这些非采集原因而在采集帧或者非采集帧中包括帧内编码部分时，可将用于选择对哪些部分进行帧内编码的算法调整为使得这些部分不在采集GOP中进行一次以上的帧内编码。

图5中所示的实例使用随机方法来定位每个采集帧中的帧内编码部分，图6和图7中所示的实例使用单个行来定位帧内编码部分。本领域技术人员将了解到，可以使用其它用于选择对帧的哪个部分进行帧内编码的方法，例如，两行或多行或者一行的一部分、一列或多列或者一列的一部分、或者连续或非连续部分的任意组合。此外，实例所选择的采集帧数量是六和三，但是也可以使用大于或等于二的任意数量的采集帧。此外，取代视频对象是占据显示器设备的整个显示器的帧，视频对象也可以是占据显示器一部分的子帧(例如，图像显示器或者窗口中的图像)。

图8是示出包括采集GOP的编码处理的一个实例的流程图。可以在包含于例如图1中编码器设备105的视频源网络设备中的微处理器上执行处理800。例如，编码器设备可以是互联网服务器、无线基站或者个人计算机，以及例如PDA或者移动手机等远程设备。将待进行压缩的视频数据801输入到该处理中。关于对采集GOP进行编码的判断820可以基于例如从上一个采集GOP之后经历的预定时间等因素。由例如图1中采集GOP组件125的确定装置执行判断820。如果没有所期望的采集GOP，则以常规方式对输入视频数据810进行帧内编码(例如，使用DCT或者DWT)和帧间编码(例如，使用前向或者后向预测运动补偿编码，或者双向预测运动补偿编码)(步骤870)。由例如图1中帧内编码组件115和预测编码组件120的编码装置执行步骤870。如果将对采集GOP进行编码，则执行对N个采集帧中的帧内编码部分的编码(步骤830)，以及对N个采集帧中的帧间编码部分的编码(步骤840)。由例如图1中帧内编码组件115和采集GOP组件125的编码装置执行编码步骤830。采集GOP组件确定对采集帧的哪些部分进行帧内编码，以便在步骤830中形成完整的帧内编码复合帧。由例如图1中预测编码组件120和采集GOP组件125的编码装置执行编码步骤840。采集GOP组件确定将哪些帧用于在步骤840中预测帧间编码部分，以便不会出现上述的由于不正确的帧间编码所造成的破坏。如上所述，对采集帧的帧内编码部分和帧间编码部分(包括参考帧)进行指定和编码。如果采集GOP将包含散布在采集帧之间的非采集帧，则执行对非采集帧的帧内编码部分和帧间编码部分的编码(步骤850)。由例如图1中帧内编码组件115和预测编码组件120的编码装置执行步骤850。由编码步骤830、840、850和870输出的编码视频数据可以包括开销信息。开销信息可以包括帧内编码和帧间编码部分的映射，例如，将宏块(或者子宏块)识别为进行了帧内编码或者帧间编码以及帧间编码部分所参考的帧的宏块映射。编码视频数据可以存储在存储器模块中以备日后使用，或者经由网络发送至一个或多个接收设备(步骤860)。由例如图1中存储器组件130的存储装置执行步骤860的存储部分。由例如图1中通信组件175和网络140的发送装置执行步骤860的发送部分。可以重复步骤820至870，直至视频数据结束。

图9是示出包括采集GOP的解码处理的一个实例的流程图。处理900可以由例如图1中解码器设备110的电子设备执行。可以在包含于视频显示器设备中或者包含于与视频显示器设备相连的周边设备中的微处理器上执行处理900，所述周边设备例如个人计算机、数字电视或者与电视相连的机顶盒(例如电缆或者卫星)。还可以在例如PDA或者移动手机的远程设备上执行处理900。解码器设备接收编码视频数据910，所述编码视频数据910由例如图1中编码器设备105的设备利用上述处理800进行编码。可以利用例如图1中通信组件180和网络140的接收装置来接收编码视频数据910。接收装置还包括图1的外部存储器组件165和存储器组件160，在其中可以对编码数据进行存储并在以后重新提取。

如果因为已经进行了视频采集而使得视频采集变得不必要，如在步骤920中由采集GOP组件所确定的，则可以采用常规方式进行对视频帧的解码(步骤970)。由例如图1中帧内解码组件145和预测解码组件150的解码装置执行步骤970。如果在步骤920中解码器确定视频采集是必要的，例如当开启移动设备或者当用户切换信道时，则解码器定位采集GOP(步骤925)。定位采集GOP可以涉及在比特流中搜索编码标识符比特串或者标志。如果使用包括位于预定间隔处的采集GOP的预先设置，如上所述，则解码器可以在预定时间点处或者在其附近搜索比特流。随机访问点也可以用于定位采集GOP。可以在流的多个位置中(例如传输层、同步层或者网络抽象层)对随机访问比特串或者标志进行标记。定位随机访问采集GOP涉及在随机访问标志或者比特串可能位于的层上搜索流。一旦定位了采集GOP，就可以通过使用包括帧内编码和帧间编码部分的映射(例如上述的宏块映射)的开销信息，完成对包含在采集GOP内的采集帧和/或非采集帧中的帧内编码部分和帧间编码部分的定位。由例如图1中采集GOP组件155的定位装置执行定位步骤925。

在定位了采集GOP的起始处之后，解码器可以对N个采集帧的帧内编码部分进行解码(步骤930)。由例如图1中帧内解码组件145的解码装置执行步骤930。一旦帧内编码部分被解码，就可以将其存储在存储器中，并且还可以用于对参考所述帧内编码部分的任何帧间编码部分940进行解码。在解码过程中，跳过参考了在其中未对相应部分进行解码的帧的帧间编码部分，这是因为丢失了对所述帧间编码部分进行正确解码的信息。由例如图1中预测解码组件150的解码装置执行步骤940。解码器可以选择对位于采集GOP内的非采集帧进行解码或者不解码(步骤950)。由于实现视频采集的所有必要信息都位于采集帧中，不需要对非采集帧进行采集。另一方面，如果增强的最终之前的采集视频可以作为非采集帧中信息的结果，则解码器可以对非采集帧中的帧内编码部分以及非采集帧中参考已解码部分的的帧间编码部分进行解码。由例如图1中帧内解码组件145和预测解码组件150的解码装置执行步骤950。在对帧内编码部分以及根据N个采集帧的帧内编码部分而预测的帧间编码部分进行了解码之后，对解码视频信息进行合并(步骤960)，以形成完全可视的帧，从而完成视频采集。由例如图1中采集GOP组件155的合并装置执行步骤960。所解码的视频信息可被显示或者存储在存储器中以备日后使用(步骤980)。由例如图1中外部存储器组件165或者存储器组件160的存储装置执行步骤980的存储部分。视频可以在其被解码时进行显示，或者可以在对整个可视帧进行了合并时进行显示。由例如图1中显示器组件170的显示装置执行步骤980的显示部分。在完成视频采集之后，可以采用常规方式对剩余的编码视频数据进行解码(步骤970)。处理900是能够在视频采集期间进行有效解码的实例。但是，解码器可以通过简单地以常规方式进行解码，来对所有的编码视频数据910(包括采集GOP数据)进行解码(步骤970)。采集GOP仍将提供随机访问点，但是解码器可能无法对帧间编码部分进行解码，从而不能在步骤980显示正确的图像，直到对采集GOP的帧内编码部分进行了解码为止。

所述方法可以用于任何(有线或者无线)网络。数据误差率相当高的网络，例如无线LAN(局域网)、无线WAN(广域网)或者蜂窝网络，可以从采集GOP的使用中获益。采集GOP提供了I帧的低比特率选择，以用于提供对在多信道视频分布系统中进行信道切换有用的随机访问点。由于没有非帧间编码部分会参考在帧内编码部分进行了帧内编码的编码采集帧之前出现的帧，帧内编码部分的引入会形成用于解码的新起点，从而采集GOP可以防止误差传播以及漂移误差，其中所述帧间编码部分与包含在一个编码采集帧中的一个帧内编码部分位于同一位置。

所述方法、设备和系统的方案包括但不限于以下描述。

一种对多媒体帧进行编码的方法，包括：对包括可视帧的一组采集帧进行编码，每个帧包括一个或多个帧内编码部分以及一个或多个帧间编码部分；其中，对所述帧内编码部分进行编码的操作包括定位所述帧内编码部分，使得当对所述一组采集帧的所述帧内编码部分进行合并时，形成完整的帧内编码复合帧；以及其中，对所述帧间编码部分进行编码的操作包括预测所述帧间编码部分，使得所述可视帧由帧内编码部分和帧间编码部分组成，其中根据所述一组采集帧的所述帧内编码部分直接或间接地预测所述帧间编码部分。

一种用于对多媒体帧进行编码的设备，包括：用于对包括可视帧的一组采集帧进行编码的装置，每个帧包括一个或多个帧内编码部分以及一个或多个帧间编码部分；其中，用于对所述帧内编码部分进行编码的所述装置包括用于定位所述帧内编码部分的装置，使得当对所述一组采集帧的所述帧内编码部分进行合并时，形成完整的帧内编码复合帧；以及其中，用于对所述帧间编码部分进行编码的所述装置包括用于预测所述帧间编码部分的装置，使得所述可视帧由帧内编码部分和帧间编码部分组成，其中根据所述一组采集帧的所述帧内编码部分直接或间接地预测所述帧间编码部分。

一种用于对多媒体帧进行编码的电子设备，所述电子设备被配置为：对包括可视帧的一组采集帧进行编码，每个帧包括一个或多个帧内编码部分以及一个或多个帧间编码部分；定位所述帧内编码部分，使得当对所述一组采集帧的所述帧内编码部分进行合并时，形成完整的帧内编码复合帧；以及预测所述帧间编码部分，使得所述可视帧由帧内编码部分和帧间编码部分组成，其中根据所述一组采集帧的所述帧内编码部分直接或间接地预测所述帧间编码部分。

一种计算机可读介质，其具有用于使计算机执行对多媒体帧进行编码的方法的指令，包括：对包括可视帧的一组采集帧进行编码，每个帧包括一个或多个帧内编码部分以及一个或多个帧间编码部分；其中，对所述帧内编码部分进行编码的操作包括定位所述帧内编码部分，使得当对所述一组采集帧的所述帧内编码部分进行合并时，形成完整的帧内编码复合帧；以及其中，对所述帧间编码部分进行编码的操作包括预测所述帧间编码部分，使得所述可视帧由帧内编码部分和帧间编码部分组成，其中根据所述一组采集帧的所述帧内编码部分直接或间接地预测所述帧间编码部分。

一种对多媒体帧进行解码的方法，包括：接收表示包括可视帧的一组采集帧的数据，每个帧包括一个或多个帧内编码部分以及一个或多个帧间编码部分，其中，对所述帧内编码部分进行定位，使得当对所述一组采集帧的所述帧内编码部分进行合并时，形成完整的帧内编码复合帧，以及其中，对所述帧间编码部分进行预测，使得所述可视帧由帧内编码部分和帧间编码部分组成，其中根据所述一组采集帧的所述帧内编码部分直接或间接地预测所述帧间编码部分；对所述一组采集帧的所述帧内编码部分进行解码；以及对所述可视帧的所述帧间编码部分进行解码。

一种用于对多媒体帧进行解码的设备，包括：用于接收表示包括可视帧的一组采集帧的数据的装置，每个帧包括一个或多个帧内编码部分以及一个或多个帧间编码部分，其中，对所述帧内编码部分进行定位，使得当对所述一组采集帧的所述帧内编码部分进行合并时，形成完整的帧内编码复合帧，以及其中，对所述帧间编码部分进行预测，使得所述可视帧由帧内编码部分和帧间编码部分组成，其中根据所述一组采集帧的所述帧内编码部分直接或间接地预测所述帧间编码部分；用于对所述一组采集帧的所述帧内编码部分进行解码的装置；以及用于对所述可视帧的所述帧间编码部分进行解码的装置。

一种用于对多媒体帧进行解码的电子设备，所述电子设备被配置为：接收表示包括可视帧的一组采集帧的数据，每个帧包括一个或多个帧内编码部分以及一个或多个帧间编码部分，其中，对所述帧内编码部分进行定位，使得当对所述一组采集帧的所述帧内编码部分进行合并时，形成完整的帧内编码复合帧，以及其中，对所述帧间编码部分进行预测，使得所述可视帧由帧内编码部分和帧间编码部分组成，其中根据所述一组采集帧的所述帧内编码部分直接或间接地预测所述帧间编码部分，所述电子设备还被配置为对所述一组采集帧的所述帧内编码部分进行解码，以及对所述可视帧的所述帧间编码部分进行解码。

一种计算机可读介质，具有用于使计算机执行对多媒体帧进行解码的方法的指令，包括：接收表示包括可视帧的一组采集帧的数据，每个帧包括一个或多个帧内编码部分以及一个或多个帧间编码部分，其中，对所述帧内编码部分进行定位，使得当对所述一组采集帧的所述帧内编码部分进行合并时，形成完整的帧内编码复合帧，以及其中，对所述帧间编码部分进行预测，使得所述可视帧由帧内编码部分和帧间编码部分组成，其中根据所述一组采集帧的所述帧内编码部分直接或间接地预测所述帧间编码部分；对所述一组采集帧的所述帧内编码部分进行解码；以及对所述可视帧的所述帧间编码部分进行解码。

本领域技术人员将了解到，可使用多种不同技术中的任何一种来表示信息和信号。例如，在上述描述中所引用的数据、指令、命令、信息、信号、比特、符号和码片可由电压、电流、电磁波、磁场或粒子、光场或粒子或者其任意组合来表示。

本领域技术人员将进一步了解到，结合本文公开的实例描述的多个示意性逻辑块、模块和算法步骤可实现为电子硬件、计算机软件或者这两者的组合。为了清晰地说明硬件和软件的可互换性，以上就其功能方面描述了多个示意性组件、块、模块、电路和步骤。将这种功能实现为硬件还是软件取决于特定应用以及对整个系统的设计限制。对于每个特定的应用，熟练的技术人员可以不同的方式实现所述功能，但是，这种实现方式的决定不应当造成对实例范围的偏离。

结合本文公开的实例描述的多个示意性逻辑块、模块和电路可由通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、离散门阵列或晶体管逻辑、离散硬件组件或者设计用来执行本文所述功能的任何组合来实现或者执行。通用处理器可以是微处理器，或者，处理器可以是任何传统的处理器、控制器、微控制器或者状态机。处理器也可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器的组合、一个或多个微处理器与DSP核心的组合或者任何其它这种配置。

结合本文公开的实例描述的方法或算法的步骤可直接实现在硬件、由处理器运行的软件模块或者这两者的组合中。软件模块可位于RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM或者本领域中已知的任何其它形式的存储器介质中。示例性的存储器介质与处理器相连，使得处理器可以从存储器介质读取信息以及向其中写入信息。可选地，存储器介质可以集成到处理器中。处理器和存储器介质可位于专用集成电路(ASIC)中。ASIC可位于无线调制解调器中。可选地，处理器和存储器介质可作为离散组件而位于无线调制解调器中。

提供对所公开实例的前述描述，以使本领域技术人员能够实现或者使用所公开的实例。本领域技术人员将了解到对这些实例的各种修正，在不偏离本发明精神或范围的前提下，本文定义的原理可应用于其它实例。

至此，描述了一种能够通过使用时间预测帧内的帧内编码部分，随机访问非帧内编码帧中的视频流的方法和系统。

结合本文公开的实施例描述的多个示意性逻辑、逻辑块、模块和电路可由通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、离散门阵列或晶体管逻辑、离散硬件组件或者设计用来执行本文所述功能的任何组合来实现或者执行。通用处理器可以是微处理器，或者，处理器可以是任何传统的处理器、控制器、微控制器或者状态机。处理器也可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器的组合、一个或多个微处理器与DSP核心的组合或者任何其它这种配置。

结合本文公开的实施例描述的方法或算法的步骤可直接实现在硬件、由处理器运行的软件模块或者这两者的组合中。软件模块可位于RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM或者本领域中已知的任何其它形式的存储器介质中。示例性的存储器介质与处理器相连，使得处理器可以从存储器介质读取信息以及向其中写入信息。可选地，存储器介质可以集成到处理器中。处理器和存储器介质可位于专用集成电路(ASIC)中。ASIC可位于无线调制解调器中。可选地，处理器和存储器介质可作为离散组件而位于无线调制解调器中。

提供对所公开实施例的描述以使本领域技术人员能够实现或者使用本发明。本领域技术人员将了解到对这些实施例的各种修改，在不偏离本发明精神或范围的前提下，本文定义的一般原理可应用于其它实施例，例如即时消息服务或者任何一般的无线数据通信应用。因此，本发明并不旨在限制于本文所示的实施例，而应给予与本文公开的原理和新颖特性相一致的最宽范围。词语“示例性的”在本文中专用于表示“作为实例、例子的”。

Claims

1.一种对帧序列进行编码的方法，包括：

对包括可视帧的一组采集帧进行编码，其中，所述一组采集帧使得能够访问所述帧序列，其中，每个帧包括一个或多个帧内编码部分以及一个或多个帧间编码部分；其中，对所述帧内编码部分进行编码的操作包括定位所述帧内编码部分，使得当对所述一组采集帧的所述帧内编码部分进行合并时，形成完整的帧内编码复合帧；以及其中，对所述帧间编码部分进行编码的操作包括预测所述帧间编码部分，使得所述可视帧由帧内编码部分和帧间编码部分组成，其中根据所述一组采集帧的所述帧内编码部分直接或间接地预测所述帧间编码部分，其中，预测所述一组采集帧的所述帧间编码部分包括后向预测。

2.根据权利要求1所述的方法，还包括：

使用从包括前向预测、后向预测和双向预测的组中选择的预测方法，对所述一组采集帧的所述帧间编码部分进行预测。

3.根据权利要求1所述的方法，还包括：

经由网络发送所述被编码的一组采集帧。

4.根据权利要求1所述的方法，还包括：

经由无线网络发送所述被编码的一组采集帧。

5.根据权利要求3所述的方法，还包括：

接收所述被发送的一组采集帧；

对所述一组采集帧的所述帧内编码部分进行解码；

对所述可视帧的所述帧间编码部分进行解码；

对所述可视帧的所述被解码的帧内编码部分和所述被解码的帧间编码部分进行合并；以及

显示所述可视帧。

6.根据权利要求1所述的方法，还包括：

对散布在所述被编码的采集帧之间的一个或多个非采集帧进行编码，所述非采集帧不包含对所述可视帧进行解码所需的帧内编码或帧间编码部分。

7.根据权利要求1所述的方法，还包括：

以预定的时间间隔对所述一组采集帧进行编码。

8.一种用于对帧序列进行编码的设备，包括：

用于对包括可视帧的一组采集帧进行编码的装置，其中，所述一组采集帧使得能够访问所述帧序列，每个帧包括一个或多个帧内编码部分以及一个或多个帧间编码部分；其中，用于对所述帧内编码部分进行编码的所述装置包括用于定位所述帧内编码部分的装置，使得当对所述一组采集帧的所述帧内编码部分进行合并时，形成完整的帧内编码复合帧；以及其中，用于对所述帧间编码部分进行编码的所述装置包括用于预测所述帧间编码部分的装置，使得所述可视帧由帧内编码部分和帧间编码部分组成，其中根据所述一组采集帧的所述帧内编码部分直接或间接地预测所述帧间编码部分，其中，预测所述一组采集帧的所述帧间编码部分包括后向预测。

9.根据权利要求8所述的设备，还包括：

用于使用从包括前向预测、后向预测和双向预测的组中选择的预测方法，对所述一组采集帧的所述帧间编码部分进行预测的装置。

10.根据权利要求8所述的设备，还包括：

用于经由网络发送所述被编码的一组采集帧的装置。

11.根据权利要求8所述的设备，还包括：

用于经由无线网络发送所述被编码的一组采集帧的装置。

12.根据权利要求8所述的设备，还包括：

用于对散布在所述被编码的采集帧之间的一个或多个非采集帧进行编码的装置，所述非采集帧不包含对所述可视帧进行解码所需的帧内编码或帧间编码部分。

13.根据权利要求8所述的设备，还包括：

用于以预定的时间间隔对所述一组采集帧进行编码的装置。

14.一种对帧序列进行解码的方法，包括：

接收表示包括可视帧的一组采集帧的数据，其中，所述一组采集帧使得能够访问所述帧序列，每个帧包括一个或多个帧内编码部分以及一个或多个帧间编码部分，其中，对所述帧内编码部分进行定位，使得当对所述一组采集帧的所述帧内编码部分进行合并时，形成完整的帧内编码复合帧，以及其中，对所述帧间编码部分进行预测，使得所述可视帧由帧内编码部分和帧间编码部分组成，其中根据所述一组采集帧的所述帧内编码部分直接或间接地预测所述帧间编码部分，其中，预测所述一组采集帧的所述帧间编码部分包括后向预测；

对所述一组采集帧的所述帧内编码部分进行解码；以及

对所述可视帧的所述帧间编码部分进行解码。

15.根据权利要求14所述的方法，还包括：

对所述可视帧的所述被解码的帧内编码部分和所述可视帧的所述被解码的帧间编码部分进行合并。

16.根据权利要求14所述的方法，还包括：

经由无线网络接收表示所述一组采集帧的所述数据。

17.根据权利要求14所述的方法，还包括：

接收表示散布在所述被接收的一组采集帧之间的一个或多个非采集帧的数据，所述非采集帧不包含对所述可视帧进行解码所需的帧内编码或帧间编码部分。

18.根据权利要求14所述的方法，还包括：

以预定的时间间隔对所述一组采集帧进行定位。

19.根据权利要求15所述的方法，还包括：

显示所述被合并的可视帧。

20.根据权利要求15所述的方法，还包括：

存储所述被合并的可视帧。

21.一种用于对帧序列进行解码的设备，包括：

用于接收表示包括可视帧的一组采集帧的数据的装置，其中，所述一组采集帧使得能够访问所述帧序列，每个帧包括一个或多个帧内编码部分以及一个或多个帧间编码部分，其中，对所述帧内编码部分进行定位，使得当对所述一组采集帧的所述帧内编码部分进行合并时，形成完整的帧内编码复合帧，以及其中，对所述帧间编码部分进行预测，使得所述可视帧由帧内编码部分和帧间编码部分组成，其中根据所述一组采集帧的所述帧内编码部分直接或间接地预测所述帧间编码部分，其中，预测所述一组采集帧的所述帧间编码部分包括后向预测；

用于对所述一组采集帧的所述帧内编码部分进行解码的装置；以及

用于对所述可视帧的所述帧间编码部分进行解码的装置。

22.根据权利要求21所述的设备，还包括：

用于对所述可视帧的所述被解码的帧内编码部分和所述可视帧的所述被解码的帧间编码部分进行合并的装置。

23.根据权利要求21所述的设备，还包括：

用于经由无线网络接收表示所述一组采集帧的所述数据的装置。

24.根据权利要求21所述的设备，还包括：

用于接收表示散布在所述被接收的一组采集帧之间的一个或多个非采集帧的数据的装置，所述非采集帧不包含对所述可视帧进行解码所需的帧内编码或帧间编码部分。

25.根据权利要求21所述的设备，还包括：

用于以预定的时间间隔对所述一组采集帧进行定位的装置。

26.根据权利要求22所述的设备，还包括：

用于显示所述被合并的可视帧的装置。

27.根据权利要求22所述的设备，还包括：

用于存储所述被合并的可视帧的装置。