CN101395671A

CN101395671A - 用于提供内容自适应码率控制的视频编码系统和方法

Info

Publication number: CN101395671A
Application number: CNA2006800297562A
Authority: CN
Inventors: 费萨尔·伊什蒂亚; 巴加万·R·甘地; 李珠
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 2005-08-15
Filing date: 2006-06-29
Publication date: 2009-03-25
Also published as: US20070036227A1; WO2007021380A2; WO2007021380A3; KR20080042827A

Abstract

一种视频编码系统(200)提供内容自适应码率控制，其包括视觉分析器(208)，该视觉分析器利用至少一个视觉分析工具来处理视频帧，以提供描述该视频帧的视觉信息。编码器(204)生成与被处理的视频帧相关的编码状态信息。码率控制器(206)响应于由编码器(204)生成的编码状态信息和由视觉分析器(208)生成的视觉信息来生成码率控制调节信号。编码器(204)响应于码率控制调节信号来对视频帧进行编码。

Description

用于提供内容自适应码率控制的视频编码系统和方法

技术领域

本发明涉及视频编码领域，更具体地涉及使用视觉分析工具和它们对码率控制问题的应用。

背景技术

在数字视频应用中，编码视频的视觉质量中最重要的要素是可以在公共信道上发送的每秒比特数，也被称为比特率。较低的比特率只允许较低质量的视频，而较高的比特率允许更好的空间和时间质量。通常，编码器生成的比特数本质上是固有地可变的，并且非常依赖于内容。运动、动态纹理(texture)、遮挡和亮度改变是改变从一个帧到下一个帧的像素统计的事件中的一些。然而，信道需求和/或存储要求支配比特率，而与内容无关。为了对为这样的改变的像素数据而生成的压缩比特的数量进行调节，利用码率控制方法来使用编码器。

以前使用的码率控制方法通过折衷(trade off)压缩比特流中的空间质量和时间质量来匹配比特率/存储要求。这些码率控制方法通过调整合适的编码控制来调节压缩数据的量。智能码率控制善于在整个视频中分配比特，同时力求实现空间质量和时间质量之间的最佳可能折衷。码率控制是编码系统的重要部分并且是不同视频编码器之间的关键区别点。

未压缩的或者原始的数字视频需要极大的带宽量来进行发送并且同样需要大量存储空间来存档。诸如MPEG-1、MPEG-2、MPEG-4、H.263和H.264的视频压缩标准都利用了天生存在的时空冗余并允许失真，以获得有效的带宽减少。压缩率越高，编码器产生的失真越大。然而，并不是所有的编码器都产生同样的失真。失真的类型和严重程度依编码器而有所不同，并且它们是诸如运动估计、模式选择和码率控制的各个编码技术的函数。在这些编码器技术中，码率控制对于整个编码视频质量的影响最大。

在图1中示出了诸如在现有技术中使用的典型的视频编码系统100。输入视频帧被提供给编码器104，该编码器将视频压缩成输出视频比特流。编码器104可以使用任意的编码方法来压缩输入的视频。这包括属于混合运动补偿DCT(MC-DCT)编解码协议族(MPEG-1、MPEG-2、MEG-4、H.261、H.263和H.264)的国际压缩标准中的任意一个。

为了获得调节后的输出比特率或帧速率，编码器104依赖码率控制器106。码率控制器106通过使用由编码器104提供的编码状态数据来运行，并向编码器104输出码率控制调节数据。该码率控制调节数据包含影响如何编码当前或将来帧的参数。码率控制调节数据包括信息，所述信息可以在帧的开始被提供，并且当编码器104允许更新要利用的信息时可以在整个帧期间被连续更新。在码率控制调节数据中传送的该信息是特定编码技术的函数。

在MC-DCT编解码协议族中，码率控制器106典型地使用帧丢弃和量化步长Qp来调节输出视频比特流的比特率。帧丢弃告知编码器104不要对正在输入的视频帧中的当前帧进行编码。这以时间保真度为代价减少了在结果视频中的帧数。Qp控制对帧进行编码的保真度。较大的Qp利用较少的粒度对帧进行编码，导致具有较大失真的较少输出比特，而较小的Qp利用更多的比特对帧进行编码，并导致更好的质量。量化是通过降低编码数据的保真度而将失真引入到多个有限量化箱(bin)中的有损过程。在允许的情况中，可以在一个帧中将Qp调整多次以更好地控制所生成的比特的数量。因此，码率控制器106必须能够平衡时间质量(经由帧丢弃)和空间质量(经由Qp)这两者，以使得满足固定的比特率预算。

现今的大多数码率控制算法没有对视频内容给予优先地对待。这些码率控制算法典型地只使用统计(诸如生成的比特数量、来自先前帧的平均Qp以及丢弃的帧的数量)来运行，以取得用于码率控制调整的信息。在题目为“Video Codec Test Model，Near Term，Version 8(TMN 8)，Test Model 8(TM8)”的1997年9月的出版物中公开了这种类型的码率控制器106。同样，判决机制没有对视频输入的内容进行评论。视频输入的内容的确改变了编码的统计，但是除此之外码率控制器106一无所知。

合并了视频帧信息的视觉属性(重要性)的码率控制方法提供了更好的视觉质量折衷，同时维持了所期望的比特率。如在1998年十月的S.Daly，K.Matthews和J.Ribas-Corbera的题目为“Face Based VisullyOptimized Image Sequence Coding”的论文中所介绍的，概述了使用人类视觉系统的属性和人脸检测方法来向人脸区域分配更多的比特的编码技术。该研究允许在帧中的感兴趣区域中进行更好的量化控制，以生成适于人脸的视频。这是限于具有人脸对象的视频的自适应技术。此外，这种技术没有考虑码率控制的其它方面，诸如帧丢弃和I/P帧模式判决。在2001年5月的Wallace K-H Ho和Daniel PK Lun的题目为“Content-based Scalable H.263 Video Coding for Road Traffic MonitoringBased on Regularity of Video Content”的论文中介绍的另一课题关注于用于流量监视的内容自适应可伸缩H.263编码。在该方法中，研究者提取并分类场景中的移动的对象，以使得能够进行码率控制从而提高大约20％的效率来运行。然而，该技术涉及分割车辆并且是为流量场景而专门定制的，并且不能应用于其它类型的视频。Liang-Jin Lin和A.Ortega在1997年10月的题目为“Perceptually Based Video RateControl Using Pre-filtering and Predicted Rate-distortion Characteristics”的论文中还研究了使用视频分析来允许更好地进行编码的另一种技术。在该技术中，使用了视频的预滤波来对帧中的区域进行分类，以对基于码率-失真(rate-distortion-based)的码率控制提供帮助。这导致具有较少伪影(artifact)的更佳视频。然而，这种方法大量地关注于去块效应伪影并且在优化码率-失真的框架中工作，所述框架对于实时和低功率应用情景是不可行的。此外，它没有解决帧丢弃或帧类型选择的问题。

现今的视觉分析技术允许详细分析视频序列数据的属性。这些工具近来对于分类、索引和组织数量不断增加的数字数据已经变得很重要。建立于基本图像处理技术的基础之上，这些工具提供了描述视频帧的运动、纹理、亮度和复杂度的统计参数。可以在信息技术-多媒体内容描述接口部分3中描述的MPEG-7多媒体内容描述接口标准中找到这些工具的例子。具体地，MPEG-7标准提供了提取视频片段的色彩、纹理、形状、运动、定位和人脸识别特征的MPEG-7视觉描述工具。

所提供的MPEG-7视觉度量是在过去十年间对多媒体信息处理和数字库研究的结果。视觉度量是由视觉特征定义(在MPEG-7中被称为D或描述符(Descriptor))以及相关的度量函数组成的。MPEG-7为色彩、形状、纹理和运动定义了一组视觉度量，经过试验验证，所述视觉度量组与人的主观感觉相一致。在这些视觉度量中，在2001年6月的B.S.Manjunath，J.R.Ohm，V.V.Vasudevan和A.Yamada的题目为“Color and Texture Descriptors”的论文中描述了其中的色彩布局描述符(Color Layout Descriptor)或CLD，在2001年6月的Jeannin和A.Divakaran的题目为“MPEG-7 Visual Motion Desriptors”的论文中还描述了其中的运动动作描述符(Motion Activity Descriptor)或MAD。

色彩布局描述符是描述图像的粗略色彩布局的色彩特征。CLD在描述视频的两帧之间的差异或差距中是非常有用的。应用于连续的帧，CLD度量是在整个视频序列期间的视觉内容改变的很好的近似值。CLD可以被用于各种测量中并且已经被用作关于视频摘要的一次(one-pass)帧选择机制，如在公布的美国专利申请No.20040085483中所描述的。运动动作描述符获取视频帧中对象运动的数量。其是基于在帧中运动向量(MV)的量值的变化，而不是MV的量值的平均值，其由于全局摄像机运动而可以很容易失真。MAD已证明是在帧中的运动动作的良好测量。

需要一种编码器，其在码率控制机制中使用视频输入的内容的知识，该码率控制机制可以允许码率控制器做出视觉上更有效的判决。

还需要一种码率控制方法，其合并视频帧数据的视觉属性来在编码视频序列中提供更好的视觉质量同时能坚持所希望的比特率。

还需要一种码率控制方法，其使用诸如在MPEG-7中规定的视觉分析工具来评估正编码的视频帧的重要性。

还需要一种码率控制器，其利用视觉分析工具来向编码器提供以码率控制调节信号的形式的信息，以编码具有较少失真和较好压缩效率的视频帧。

附图说明

图1是现有技术的视频编码系统的电学框图。

图2是依据本发明的提供内容自适应码率控制的视频编码系统的电学框图。

图3是依据本发明的利用视觉分析工具的视觉分析器和码率控制器的电学框图。

图4是描述依据本发明的使用视觉度量的帧压缩效率的图。

图5是描述依据本发明的帧丢弃判决和所保留帧的编码的流程图。

图6是描述依据本发明的量化参数选择的流程图。

具体实施方式

虽然以许多不同形式的实施例公开了本发明，且在附图中示出并将在这里详细描述一个或多个特定实施例，但是应当理解为本公开被认为是本发明的原理的示例，并且不是意指将本发明限制为所示出和描述的特定实施例。在下面的描述中，用相同的参考标记来描述在附图的多个视图中同样的、相似的或相应的部分。

上面描述的MPEG-7视觉度量以前没有被用在实施内容自适应码率控制中。同样地，上面描述的较早的MPEG-1、MPEG-2、MPEG-4和H.261视觉度量以及最近建议的H.263和H.264标准视觉度量以前也没有被用在实施内容自适应码率控制中。

图2是依据本发明的提供内容自适应码率控制的视频编码系统200的电学框图。视频帧被输入至视觉分析器208和编码器204二者中。编码器204向码率控制器206提供编码状态数据，该码率控制器206将码率控制调节数据输出回到编码器204。码率控制器206依次被提供视觉信息，该视觉信息包括从正输入至视频分析器208的视频帧中获取的视觉分析度量，如将在下面描述的。该视觉信息被实时计算或预先计算并存储在存储设备210中，以供稍后使用。该视觉信息包括诸如以参数化形式描述视频的内容的标记和参数的信息，以及关于在视频中应当被优先对待的关键区域或实例的信息。码率控制器206使用该宏观的视频内容信息来在编码过程期间做出有效的判决。

图3是依据本发明的利用视觉分析工具的视觉分析器和码率控制器300的电学框图，以提供内容自适应码率控制。视频帧(n)被输入至视觉分析器208，该视觉分析器208能够使用各种视觉分析工具，诸如但不限于色彩布局描述符(CLD)工具304、运动动作描述符(MAD)工具306和纹理描述符(TD)工具308。诸如运动动作描述符(MAD)工具306和纹理描述符(TD)工具308的视觉分析工具被实现为视觉分析器208的部件以提供增加的性能，因此同样通过使用虚的输入和输出信号线被指示。

色彩布局描述符工具304确定视频帧中的视频图像的粗略色彩布局，用于确定在两个视频帧之间的差异或差距。色彩布局描述符工具304被应用于连续的视频帧并生成CLD度量c_n，该CLD度量c_n提供在整个视频序列期间的视觉内容改变的近似值。当被实施时，运动动作描述符工具306确定视频帧中的对象运动的数量。运动动作描述符工具306也被应用于连续的视频帧并生成MAD度量v_n，该MAD度量v_n提供帧中的运动动作的测量。同样当被实施时，纹理描述符工具308确定视频帧中的视频图像的纹理。纹理描述符工具308也被应用于连续的视频帧，以生成提供帧中的纹理的测量的TD度量t_n。

依据本发明的视觉分析器208将帧m和帧n相关联，所述帧m是将被最近编码的帧，所述帧n是当前的源帧。依据本发明，假设m的值小于n，尽管不需要是这种情况。在视觉分析器208中计算对于帧n的CLD度量c_n，并且将其提供给码率控制器206以决定帧丢弃。当被实施时，在视觉分析器208中也计算对于帧n的MAD度量v_n和TD度量t_n，并且将其提供给码率控制器206，以分别决定帧编码模式(I/P/B)以及量化步长Qp，如在下面将被描述的。

依据本发明的码率控制器206利用布尔型(Boolean)加法器和乘法器(诸如加法器312和乘法器314)，并且可以附加地包括加法器318和322以及乘法器316和320，如将在下面详细描述的。色彩布局描述符工具304的输出端耦接至加法器312的第一输入端。到加法器312的第二输入端的输入及其运算将在下面描述。加法器312的输出端耦接至乘法器314的第一输入端。到乘法器314的第二输入端的输入及其运算将在下面描述。当被实施时，运动动作描述工具306的输出端耦接至乘法器316的第一输入端。到乘法器316的第二输入端的输入及其运算将在下面描述。同样当被实施时，纹理描述符工具308的输出端耦接至乘法器320的第一输入端，到乘法器320的第二输入端的输入及其运算将在下面描述。

当运动动作描述符工具306被实施时，乘法器314的输出端耦接至加法器318的第一输入端，否则它直接耦接至帧丢弃判决部件326的输入端。当运动动作描述符工具306被实施时，加法器318的第二输入端耦接来自乘法器316的输出端。加法器318的输出端耦接至帧丢弃判决部件326的输入端以及I/P帧估计部件328的输入端。内部码率控制状态缓冲器324提供码率控制状态信息，该码率控制状态信息耦接至帧丢弃判决部件326的第二输入端并且当运动动作描述符工具306被实施时耦接至I/P帧估计部件328的第二输入端。帧丢弃判决部件326处理由内部码率控制状态缓冲器324生成的信息和加法器318的输出，以确定帧n将被丢弃的时间(如在下面将进一步描述的)并在输出端生成编码/跳过判决数据。

当运动动作描述符工具306被实施时，帧丢弃判决部件326的输出端还耦接至I/P帧估计部件328的输入端。当帧丢弃判决部件326确定帧n将不被丢弃时，编码/跳过判决数据被耦接至I/P帧估计部件328以使能它的操作。I/P帧估计部件328确定将帧n定义为内帧还是间帧(inter frame)(如在下面将进一步描述的)并且在输出端传递I/P判决数据。

当纹理描述符工具308被实施时，乘法器320的输出端耦接至加法器322的输入端。加法器322的第二输入端被耦接至乘法器314的第二输出端。加法器322的输出端(其在下面将被详细描述)耦接至Qp计算部件330的输入端。Qp计算部件330的第二输入端还耦接至内部码率控制状态缓冲器324的输出端。Qp计算部件330处理该输入(如在下面将描述的)并且输出Qp信号，该Qp信号定义正被处理的视频帧的空间质量。

在本发明中，码率控制器206使用帧丢弃判决部件326来确定帧丢弃。通过计算在帧m和n之间的差距度量d(m，n)，码率控制器206使用I/P帧估计部件328进一步确定帧编码模式。该差距度量被定义为

d(m，n)＝w₁(n)·(c_n-c_m)

其中c_m是帧m的CLD，w₁(n)是帧n的加权因子。当运动动作描述符工具306被实施时，如在图3中所示出，d_k(n)利用CLD度量和MAD度量来如下计算差距

d(m，n)＝w₁(n)·(c_n-c_m)+w₂(n)·m_n

其中m_n是MAD度量，w₂(n)是帧n的加权因子。视觉分析度量的该组合将码率控制操作和视频更紧密地联系起来，并且能够允许更好的响应。

在帧丢弃判决部件326中生成的帧丢弃判决是使用差距d(m，n)与诸如由内部码率控制状态缓冲器324内容所提供的内部码率控制状态信息以及从最后编码的帧m开始所流逝的时间一起而做出的。在本发明中，合并各种参数的帧丢弃判决函数如下计算

F_{m} (n) = d (m, n) + η (n) \cdot s (m, n) - γ (n) \cdot \frac{1}{f_{m} (n)}

其中f_m(n)是对于已经编码m的对n进行编码的非零概率，s(m，n)是在两个帧之间的时间差距，η(n)和γ(n)是对于当前帧的加权因子。在图4中图示地描述了组合了帧丢弃判决和I/P/B帧判决的示范性帧丢弃判决机制。

从上面提供的描述中应当认识到，在图2中描述的提供内容自适应码率控制的视频编码系统200可以以多种方式来实施。视频编码系统200可以被实施在主机计算机、工作站、服务器、个人计算机(PC)、膝上型计算机或其它类似的计算设备上。在这样的实例中，视觉分析器208、码率控制器206和编码器204被实现为软件程序，该软件程序处理正输入的视频帧并且在处理之后输出编码后的压缩视频帧。存储设备210可以被实现为硬盘驱动器，其具有足以支配正被处理的视频信息的存储能力，或者被实现为具有足以支配正被处理的视频信息的能力的其它可写可读数据存储介质。

从上面提供的描述中应当认识到，提供内容自适应码率控制的编码系统200包括在图3中描述的视觉分析器208和码率控制器206，并且也可以被实现为硬件和固件部件的组合。这样的实现的例子包括但不限于现场可编程门阵列(FPGA)、专用集成电路(ASIC)、微控制器和微型计算机。固件可以是使用只读存储器(ROM)、可编程只读存储器(PROM)、电可擦除只读存储器(EEPROM)和诸如嵌入在微控制器和微型计算机中的片上存储器。也可以利用其它存储器设备。

图4示出了作为当前帧n的函数的F_m(n)。还示出了表示内部码率控制状态缓冲器324充满的函数和生成的比特的总数量的两个阈值F_CODE和F_INTRA。在实际的实现中，将在已经编码帧m之后分析地获得帧丢弃判决函数F_m(n)。

上面描述的判决机制使用帧丢弃判决函数F_m(n)来确定帧丢弃和将帧编码为INTRA(I)还是编码为INTER(P/B)帧二者。在本发明中，码率控制算法将帧丢弃判决函数F_m(n)和F_CODE阈值进行比较。当F_m(n)小于F_CODE时，帧n被丢弃并且不被编码。当F_m(n)大于F_CODE但是小于F_INTRA(帧编码参数)时，帧n被选择为作为P或B帧进行编码。如果F_m(n)超过了F_CODE和F_INTRA二者，帧n被作为INTRA帧进行编码。附加地，F_m(n)可以被码率控制使用，以当F_m(n)接近F_INTRA时请求INTER帧中的更多INTRA宏块。在已经使用预定的参数编码第一个帧之后，使用帧丢弃和模式机制。

帧丢弃机制对于调节编码后的比特率中是重要的。然而，没有与源视频相关的视觉信息，它可能导致重要的或关键的帧被丢弃。利用从色彩定位描述符工具304和运动动作描述符工具306获取的视觉信息数据，码率控制器206能够更好地估计将被编码的帧，否则它们可能被丢弃。在对于未来帧的视觉信息是已知的情况中，码率控制器206可以基于某些帧在将来必须被编码而其它帧可以被牺牲的知识来定制其操作。

量化参数Qp是使用位于内部码率控制状态缓冲器324的码率控制状态信息p(m，n)增加视觉信息量化度量p(m，n)来生成的。在该实施例中，Qp是CLD度量p(m，n)的函数，并且被定义为：

p(m，n)＝w₁(n)·(c_n-c_m)。

可选的实施例可以如下将视觉信息量化度量定义为CLD度量p(m，n)和TD度量t_n两者的函数

p(m，n)＝w₁(n)·(c_n-c_m)+w₃(n)·t_n

其中w₃(n)是加权因子，或如下使用CLD度量c_n、MAD度量v_n和TD度量t_n

p(m，n)＝w₁(n)·(c_n-c_m)+w₂(n)(m_n-m_m)+w₃(n)·t_n

尽管所有的码率控制技术具有特定的Qp计算算法，但是p(m，n)可以被用于偏移所计算的Qp或者作为计算的主要部分。假设b_m是使用平均Qp(q_m)对帧m进行编码而生成的比特的数量，bd_n是要花费在当前帧n上的比特的所期望的数量。在本发明中，对于帧n的新Qp(q_n)于是被计算为

q_{n} = {\overset{&OverBar;}{q}}_{m} \cdot (1 + \frac{b_{m} - {bd}_{n}}{α \cdot {bd}_{n}} + β \cdot p (m, n))

其中α和β是预定义的或动态获得的加权系数。q_n是用于当前帧的初始量化步长。由于统计量在对帧进行编码时获得，所以在整个帧期间可以将量化步长调整多次，以获得比特的目标数量。q_n被设置为用于对其中q_m和b_m是不可知的视频序列的第一个帧进行编码的所期望的值。

利用CLD度量和TD度量，码率控制器206能够更好得获取Qp值。高纹理区域在编码期间将需要更多的比特。为了确保均匀地调节比特率，码率控制器206中的Qp计算部件330可以响应较高的Qp，以平衡源视频的高复杂度特征。还应当确保不会丢失太多细节，因为高的Qp导致块效应伪影。在低纹理区域中，码率控制器206中的Qp计算部件330可以降低Qp，以适应于帧的简单特性。由于Qp变化，这也将减少低纹理区域中可见的令人讨厌的量化伪影。

图5是描述依据本发明的帧丢弃判决和所保留帧的编码的流程图。视频编码系统200提供内容自适应码率控制。

依据本发明，在步骤502开始编码处理。在步骤504，从帧n开始被连续地输入视频帧序列。在步骤508，对于输入的视频帧，如上面所述计算一个或多个视觉分析度量。在步骤508，计算在输入帧n和先前编码的帧m之间的差距度量。在步骤510，计算判决函数F_m(n)。在步骤512，将所计算的判决函数F_m(n)与第一阈值F_CODE进行比较，该步骤用于确定应丢弃视频帧的时间。当在步骤512 F_CODE小于F_m(n)时，帧丢弃判决部件326生成丢弃视频帧n的编码/跳过判决信号，并且在步骤514，编码器204丢弃视频帧n。当在步骤512 F_m(n)大于F_CODE时，帧丢弃判决部件326生成编码视频帧n的编码/跳过判决信号。

在步骤516，将F_m(n)与第二阈值F_INTRA(帧编码参数)进行比较，该步骤用于确定将要执行的编码的类型。当在步骤516 F_m(n)小于F_INTRA时，I/P帧估计部件328生成I/P判决信号，以将视频帧n作为INTER帧来编码，即如已处理的对帧n数据进行编码。当在步骤516 F_m(n)大于F_INTRA时，I/P帧估计部件328生成I/P判决信号，以将视频帧n作为INTRA帧来编码，即计算在当前帧n和先前帧m之间的差异，并对该差异进行编码。

图6是描述依据本发明的量化参数选择的流程图。依据本发明的提供内容自适应码率控制的视频编码系统200继续编码处理，其中在步骤504从帧n开始连续地输入视频帧序列。在已经以图5的流程图中描述的方式处理后，在步骤604，帧丢弃判决部件326生成编码/跳过判决信号。在步骤606，当帧丢弃判决部件326生成丢弃帧n的编码/跳过判决信号以时，当前帧被编码器204丢弃并且选择下一个视频帧以进行处理。在步骤608，当帧丢弃判决部件326生成保留当前帧的编码/跳过判决信号时，估计帧n，计算对于当前帧的视觉信息量化度量p(m，n)。在步骤610，然后使用视觉信息量化度量p(m，n)和由码率控制器206对当前帧n所计算的参数来计算视觉量化度量Qp。在步骤612，使用视觉量化度量Qp将帧n编码为帧n。在步骤614，编码器204然后确定当前视频帧的编码是否完成。在步骤616，当当前视频帧的编码没有完成并且视觉量化度量没有被更新时，该处理继续至步骤610。在步骤616，当当前视频帧的编码没有完成并且视觉量化度量不需要被更新时，该处理继续至步骤612。当在步骤614编码器204确定当前视频帧的编码已完成时，做出判决以在步骤620处理下一个视频帧，所述步骤620继续处理在步骤504输入的下一个帧n。

本发明在各种应用中提供了关键益处。它提供了一种方法，通过该方法，通过分析视频内容来对视频进行码率控制。这个方法利用增加视觉分析工具改进了现有码率控制器的操作，所述视觉分析工具提供了关于视频内容的关键特征。如上面描述，MPEG-7视觉描述符是一组可以在视觉分析器208中利用的工具。视觉分析器208的数据也可以被嵌入在比特流中，以避免在接收端重新生成。在预存储的应用以及诸如视频数据流至移动电话客户端的能力受限的接收机中，客户端可以利用预先计算的MPEG-7数据来节省不需要的计算复杂度和能力。

本发明可应用在多个领域中。首先在快速增长的因特网应用市场中，本发明提供了以自适应方式编码数据的能力和与其它竞争者不同的关键点。本发明关注于视频编码、视频数据库、视频浏览、监视、公共安全、存储和视频流应用。

本发明是视频编码系统和方法，用于提供内容自适应码率控制，其利用预处理角色的视觉分析工具来引导编码处理。本发明提供了一种判决机制，其基于视觉分析工具所参数化的内容来调整码率控制以适应编码。视觉分析工具使得码率控制机制基于帧在编码视频中的必要性来更好地决定哪个帧被编码和哪个帧被丢弃。此外，可以利用视觉分析工具来基于场景的复杂度和比特约束来修改量化参数(Qp)。本发明允许视频编码器和码率控制器被关于源内容而定制，以提供更好的编码效率和视频质量。

虽然已经结合特定实施例描述了本发明，但是明显的是根据在前的描述，许多替代、修改、置换和变化对于本领域普通技术人员来说变得显而易见。因此，本发明意指包含落在所附权利要求书的范围内的所有这样的替代、修改和变化。

Claims

1.一种提供内容自适应码率控制的视频编码系统，包括：

视觉分析器，利用至少一个视觉分析工具，用于处理视频帧来提供描述所述视频帧的视觉信息；

编码器，用于生成与所述视频帧相关的编码状态信息；和

码率控制器，响应于所述编码状态信息，并且还响应于由所述视觉分析器生成的视觉信息，用于生成码率控制调节信息，

所述编码器响应于所述码率控制调节信息来对所述视频帧进行编码。

2.根据权利要求1的视频编码系统，其中所述视频帧被所述视觉分析器、所述码率控制器和所述编码器实时处理。

3.根据权利要求1的视频编码系统，进一步包括存储器设备，用于存储由所述视觉分析器生成的视觉信息，

其中被存储的视觉信息被所述码率控制器和所述编码器使用，以使得能够对被处理的视频帧进行编码。

4.根据权利要求3的视频编码系统，其中所述视觉信息包括由所述至少一个视觉分析工具计算的关于当前被处理的视频帧的视觉分析度量，并且其中

所述存储器设备存储关于当前被处理的视频帧和关于先前被处理的视频帧的视觉分析度量。

5.根据权利要求4的视频编码系统，其中所述至少一个视觉分析工具是色彩布局描述符工具，并且其中

所述色彩布局描述符工具生成色彩布局描述符度量，该色彩布局描述符度量提供在整个视频序列期间的视频内容改变的近似值。

6.根据权利要求1的视频编码系统，其中所述至少一个视觉分析度量被用于计算在当前被处理的帧与先前处理的帧之间的差距度量；并且其中

所述码率控制器进一步使用所述差距度量来计算帧丢弃判决函数，并将所计算的帧丢弃判决函数与帧丢弃判决参数进行比较，以确定何时意欲将帧丢弃。

7.根据权利要求6的视频编码系统，其中所述码率控制器将在不意欲将帧丢弃时关于该帧所计算的差距度量与帧编码参数进行比较；并且其中

所述码率控制器生成码率控制调节信息，并且响应于该码率控制调节信息，所述编码器

当差距度量大于帧编码参数时，将帧作为内帧而编码；和

当差距度量小于帧编码参数时，将帧作为间帧而进一步编码。

8.一种提供内容自适应码率控制的视频编码系统，包括：

视觉分析器，利用视觉分析工具，用于处理视频帧来计算描述所述视频帧的视觉分析度量；

码率控制器，响应于计算的视觉分析度量，用于计算差距度量和帧丢弃判决函数，该帧丢弃判决函数用于确定何时意欲将视频帧丢弃以及何时不意欲将视频帧丢弃；

所述视觉分析器利用视觉分析工具来处理不意欲丢弃的视频帧，以计算描述不意欲丢弃的视频帧的视觉分析度量，

所述码率控制器进一步使用关于不意欲丢弃的帧所计算的视觉分析度量来计算视觉信息量化度量；和

编码器，用于使用该视觉信息量化度量来对不意欲丢弃的帧进行编码。

9.根据权利要求8的视频编码系统，其中所述视觉分析工具至少包括色彩定位描述符工具。

10.根据权利要求9的视频编码系统，其中所述视觉分析工具进一步至少包括运动动作描述符工具。

11.根据权利要求8的视频编码系统，其中用于处理不意欲丢弃的视频帧的所述视觉分析工具是纹理描述符工具。

12.根据权利要求8的视频编码系统，其中所述码率控制器确定当前被处理的视频帧的编码何时已完成以及当前被处理的视频帧的编码何时未完成；其中

在当前被处理的帧的编码未完成时，所述码率控制器更新关于当前被处理的视频帧的视觉信息量化度量。

13.根据权利要求12的视频编码系统，其中所述码率控制器进一步确定当前被处理的帧的编码何时已完成，以使得能够处理视频帧序列的下一个视频帧。

14.一种使用内容自适应码率控制的视频编码方法，包括

输入来自视频帧序列的帧；

使用视觉分析工具来处理帧，以计算描述该帧的视觉分析度量；

计算在当前被处理的帧和先前处理的帧之间的差距度量；

使用该差距度量计算帧丢弃判决函数；和

将所计算的帧丢弃判决函数与帧丢弃判决参数进行比较，以确定何时意欲将帧丢弃。

15.根据权利要求14的视频编码方法，其中所述输入步骤和所述处理步骤由视觉分析器执行，所述计算步骤和所述确定步骤由码率控制器执行，所述编码步骤由编码器执行。

16.根据权利要求14的视频编码方法，其中所述帧丢弃判决参数被存储在存储器设备中。

17.根据权利要求14的视频编码方法，其中所述视觉分析工具是色彩布局描述符工具。

18.根据权利要求14的视频编码方法，进一步包括：

将在不意欲将帧丢弃时关于帧所计算的差距度量与帧编码参数进行比较；和

当差距度量大于帧编码参数时，将帧作为内帧而编码；和

当差距度量小于帧编码参数时，将帧作为间帧而编码。

19.根据权利要求18的视频编码方法，其中

通过对当前被处理的帧和先前被处理的帧之间的差异进行编码，来将帧作为内帧而编码；和

通过对当前被处理的帧进行编码，来将帧作为间帧而编码。

20.根据权利要求18的视频编码方法，其中比较步骤在码率控制器中执行，编码步骤在编码器中执行。

21.根据权利要求14的方法，进一步包括

使用第二视觉分析工具对帧进行处理，以计算描述该帧的第二视觉分析度量；

使用关于当前被处理的帧和先前处理的帧所获取的视觉分析度量以及关于当前被处理的帧的第二视觉分析度量，来计算关于当前被处理的帧的差距度量；

使用差距度量来计算帧丢弃判决函数；和

22.根据权利要求21的视频编码方法，其中第二视觉分析工具是运动动作描述符工具。

23.一种使用内容自适应码率控制的视频编码方法，包括：

输入来自视频帧序列的帧；

使用视觉分析工具来处理帧，以计算描述该帧的视觉分析度量，该视觉分析度量用于计算差距度量和帧丢弃判决函数，该帧丢弃判决函数用于确定何时意欲将帧丢弃以及何时不意欲将帧丢弃；

使用关于不意欲丢弃的帧所计算的视觉分析度量来计算视觉信息量化度量；和

使用所述视觉量化度量对帧进行编码。

24.根据权利要求23的视频编码方法，进一步包括：

确定当前被处理的帧的编码何时已完成和当前被处理的帧的编码何时未完成；和

在当前被处理的帧的编码未完成时，更新关于当前被处理的帧的视觉信息量化度量。

25.根据权利要求24的视频编码方法，进一步包括：

确定当前被处理的帧的编码何时已完成；

输入要处理的下一个帧。

26.根据权利要求20的视频编码方法，其中所述视觉分析工具包括色彩布局描述符工具、运动动作描述符工具和纹理描述符工具中的至少一个。

27.根据权利要求20的视频编码方法，其中所述输入步骤和所述处理步骤由视觉分析器执行，所述计算步骤由码率控制器执行，所述编码步骤由编码器执行。