CN103493481A

CN103493481A - 基于场景的适应性比特率控制

Info

Publication number: CN103493481A
Application number: CN201280015700.7A
Authority: CN
Inventors: 罗德佛·瓦格斯·古耶瑞欧
Original assignee: Eye IO LLC
Current assignee: Eye IO LLC
Priority date: 2011-01-28
Filing date: 2012-01-26
Publication date: 2014-01-01
Also published as: JP6134650B2; KR20140034149A; US20120195369A1; AU2012211243A1; WO2012103326A2; AU2016250476A1; EP2668779A2; EP2668779A4; TWI586177B; BR112013020068A2; CA2825929A1; JP2014511137A; TW201238356A; IL227673A0; MX2013008757A; IL227673A; WO2012103326A3

Abstract

本发明在此描述用于编码视频流的编码器。该编码器接收输入视频流，显示输入视频流中场景转换发生的位置的场景边界信息和每一场景的目标比特率。基于场景边界信息，编码器将输入视频流分成多个节。每一节包含多个暂时相邻图像帧。编码器根据目标比特率编码多节中的每一节，提供基于场景的适应性比特率控制。如果视频质量限制在低比特率被满足，则无须以更高的比特率编码相同的节，因为质量限制已被满足。

Description

基于场景的适应性比特率控制

对相关申请的交互引用

此申请要求2011年1月28日递交的美国临时申请案61/437,193，以及2011年1月28日递交的美国临时申请案61/437,223的优先权。上述申请案的内容明示地以参考方式合并于此。

技术领域

本发明涉及视频和图像压缩技术，尤其涉及使用基於场景自适应性比特率控制的视频和图像压缩技术。

背景技术

随着视频流在日常用户中的持续普及和使用，有几个内在的局限需要被克服。例如，为获得该视频流，用户往往希望在只在有限带宽的因特网上观看视频。例如，用户可能希望通过移动电话连接或家用无线连接获得视频流。在某些情况下，通常利用预先下载(spooling content)内容的方式来补偿带宽的不足（即，下载内容至本地储存后再观看）。这种方法具有一些缺点。首先，用户不能有真正的“运行时间”体验，也就是说用户在打算观看节目时不能够实时观看。相反的，在观看节目之前，用户不得不经历内容预先下载的明显延迟。另一个缺点是储存空间的可用性--无论是提供商还是用户都不得不提供储存资源以保证预先下载内容可以被储存，即使是很短的时间，仍导致了昂贵的储存资源的不必要使用。

视频流（典型地包括图像部分和声音部分）可能需要大量的带宽，特别是高分辨率的视频流（例如高清视频）。音频典型地需要少得多的带宽，但是有时仍然需要考虑带宽的问题。一个视频流的方法是大量压缩视频流，以使得快速的视频传输可允许用户在运行时间(rune-time)或者实质上实时地观看内容（即，无需经历大量的预先下载延迟）。典型地，损失压缩（即，压缩并不是完全可逆的）提供了比无损压缩更高的压缩比例，但是大量的损失压缩提供了不良的用户体验。

为了减少传输数字视频信号的带宽需求，使用高效的数字视频编码是众所周知的，其中数字视频信号的数据率可能会大幅减少（出于视频数据压缩的目的）。为了保证互操作性，视频编码标准在促进数字视频在很多专业及消费应用程序中的被采用发挥了关键作用。最有影响力的标准传统由国际电信联盟(ITU-T)或是ISO/IEC（标准化/国际电工委员会的国际组织）的MPEG（运动图像专家组）15委员会所开发。ITU-T标准，公认的优点是通常针对实时通信（例如视频会议），而大多数MPEG标准是优化储存（例如，数字多功能激光视盘(DVD)和广播（例如数字视频广播(DVB)标准））。

目前，大多数标准化的视频编码算法是基于混合视频编码。混合视频编码方法通常结合数个不同的无损和损失(lossless and lossy)压缩方案以达到所需的压缩增益。混合视频编码也是ITV-T标准的基础（H.26x标准例如H.261、H.263）和ISO/IEC标准（MPEG-X标准例如MPEG-1、MPEG-2和MPEG-4）。目前最新和最先进的视频编码标准是被称为H.264/MPEG-4先进视频编码(AVC)，是联合视频小组(JVT)、ITV-T联合小组和ISO/IEC MPEG组的共同努力的结果。

该H.264标准应用了被称为既定标准(例如MPEG-2)之基于块的运动之补偿混合转换编码的相同原则。因此，H.264的语法可依照标头的一般阶层而被组织，例如图像块、片块和宏块标头，以及数据，例如运动向量、块变换系数和量化规模等。然而，H.264标准分离了视频编码层(VCL，其描述了视频数据的内容)以及网络应用层(NAL，其格式化数据并提供标题信息)。

此外，H.264标准可以大幅提高编码参数的选择。例如，它允许宏块16x16的更详细的划分和操作，即如运动补偿过程可以在大小为4x4尺寸的宏块分割上执行。并且，样本块的运动补偿预测的选择过程中可能涉及先前译码储存图片的数量，而不是仅仅相邻的图片。即使在单一的帧内进行帧内编码，也有可能使用来自于同样帧的先前编码样本以形成块的预测。再者，伴随运动补偿所造成预测错误可能基于4x4块尺寸被转换和量化，而非传统的8x8的块尺寸。同样，回路程序分块滤波器现在是强制性的。

该H.264标准可被视为H.262/MPEG-2视频编码语法的超级集合，它使用相同的视频数据的全局结构，同时延长了可能的编码决策和参数的数量。具有多种编码决策的后果是可能取得良好的比特率和图像质量之间的权衡。然而，尽管H.264标准可能显著降低基于块编码的典型产出而被普遍承认，它也可能突出其它产出。事实上，H.264允许各种编码参数可能值的增加数量，因此导致改进编码程序的潜力增加，但是也导致了选择视频编码参数的敏感性的增加。

与其它标准相似，H.264不指定选择视频编码参数的规范程序，但是通过参考实施例描述，各种标准可被用于选择视频编码参数以达到编码效率、视频质量和实用性之间的适当平衡。然而，所述标准可能不会总是导致最佳或合适的适于所有类型内容和应用程序的编码参数的选择。例如，对于视频信号的特征而言，该标准可能不会导致视频编码参数的最优或可取选择是，或者基于获取编码的信号特征的标准可能对于当前的应用程序并不适合。

众所周知，使用恒定比特率(CBR)编码或可变比特率(VBR)编码对视频数据进行编码。在这两种情况下，单位时间内的位数被限制，即，比特率不能超过某个阈值。通常，比特率表示为位每秒。CBR编码通常是具有额外填充恒定比特率的VBR编码的一种类型（例如，用0填充比特流）。

TCP/IP网络，例如因特网，不是“比特流”传输，而是传输容量随时变化的尽力网络。在尽力网络中使用CBR或者VBR方式编码和传输并不理想。有些协议以在因特网上传送视频。一个很好的例子就是HTTP自适应比特率视频流，其中视频流被分割成文件，并被作为文件经由HTTP连接进行传送。每一文件都包含预定播放时间的视频序列，并且比特率不同文件的大小不同。因此，某些文件可能小于其它文件。

因此，视频编码的改进系统将是有利的。

前述相关领域示例和相关的特征之目的系说明性质，而非排他性质。相关领域的其他特征将基于说明书的解读和附图的研究而清楚可见。

发明内容

本发明将描述编码视频流的编码器。编码器接收视频流输入，场景边界信息显示在输入视频流中的场景转换发生的位置和每个场景的目标比特率。编码器基于场景边界信息将输入视频流分为多个节。每一节包括多个暂时相邻的图像帧。编码器根据目标比特率编码多个场景中的每一个场景，基于场景提供适应性比特率。

本发明内容以简化的形式提供一个概念的选择，并将在下面的实施方式中进一步描述。本发明内容并非旨在确定所要保护的主题的关键特征或基本特征，亦非用于限制所要保护的主题的范围。

附图说明

本发明的一个或多个实施例通过举例的方式说明并且不受限于附图中的图例，其中相似的参考编号表示相似的组件。

图1阐述了编码器的一个例子；

图2阐述了编码输入视频流的样本方法的步骤；

图3是处理系统区块图，该处理系统可以被用于实现编码器实施的所述的某些技术。

具体实施方式

现在将描述本发明的各个方面。下面的说明提供具体的细节以透彻理解说明中的例子。然而，本领域技术人员将理解本发明的实现并不需要诸多细节。此外，一些熟知的结构或功能可能不会被详细显示或描述，以避免对相关说明产生不必要的混淆。虽然附图描述作为功能独立的组件，但是这样的描述仅仅为了说明的目的。对于本领域技术人员而言，附图中描绘的组件可以被任意组合或分开成单独的组件。

在下面的说明书中使用的术语旨在以最合理的方式被解释，即使它正被用于与本发明中某些具体例子的详细说明配合使用。然而，在下文中某些术语可能需要被强调，任何试图以限制方式进行解释的术语将在实施方式部分被公开和明确界定。

本说明书中提及的“实施例”、“一个实施例”或类似的表示意味着所述的特定的功能、结构、特征被包括在本发明的至少一个的实施例中。在说明书中这样的表达的出现并不一定都是指代相同的实施例。

图1根据本发明的一个实施例阐述了编码器100的例子。编码器100接收输入视频流110并输出编码视频流120，编码视频流120可以在译码器被译码恢复。编码器100包括输入模块102、视频处理模块104和视频编码模块106。编码器100可以包括其它组件例如视频传输模块、参数输入模块、储存参数的内存等等。编码器100可以执行未在此特别说明的其它视频处理功能。

输入模块102接收输入视频流110。输入视频流110可以采取任何适当的形式也可以源于任何适当的资源，如内存，或者源于现场节目。输入模块102进一步接收每个场景的场景边界信息和目标比特率。场景边界信息显示在输入视频流中场景转换发生的位置。

视频处理模块104分析输入视频流110并将视频流110基于场景边界信息分为多个场景中的每一个场景的多个节。每一节包括多个暂时相邻的图像帧。在一个实施例中，视频处理模块进一步将输入视频流分割成多个文件。每一个文件包括一或多个节。在另一个实施例中，视频文件的每一节的位置、分辨率、时间戳或者开始帧编号都被记入文件或数据库中。视频编码模块使用相关的目标比特率或者具有比特率限制的视频质量编码每一节。在一个实施例中，编码器进一步包括视频传输模块用于经由网络连接（如HTTP连接）传输文件。

在一些实施例中，视频图像帧的光学分辨率被检测并利用，以决定真实的或最佳的场景视频尺寸和场景分割。光学分辨率描述的分辨率上一个或多个视频图像帧可以不断地分解细节。由于捕获光学、记录媒体、原始格式的限制，视频图像帧的光学分辨率可能远小于视频图像帧的技术分辨率。视频处理模块可以检测每节中的图像帧的光学分辨率。基于每节中的图像帧的光学分辨率可以确定场景形式。此外，一节的目标比特率可基于每一节中的图像帧的光学分辨率被确定。对于一些光学分辨率较低的节，目标比特率可以较低，因为高比特率对于节的保真并无帮助。在某些情况下，电子高阶装置上转换低分辨率图像以适应更高分辨率的视频帧也可能会产生不必要的产出(artifacts)。这在旧的缩放技术中更是如此。通过恢复原始分辨率，我们将允许现代视频处理器以更有效的方式提高图像并避免编码产生不是原始图像一部分的产出。

视频编码模块可使用任何编码标准（例如H.264/MPEG-4AVC标准）编码每一节。

基于不同的场景，每一节可在传输不同比特率的视觉质量的不同水平被编码（例如，500Kbps、1Mbps、2Mbps）。在一个实施例中，如果在一定的低比特率满足光学或视频质量限制，即500Kbps，那么编码过程可能不会需要更高的比特率，避免了在更高的比特率编码场景，即1Mbps或2Mbps。参考表一。在单个文件中储存那些场景的情况下，单个文件将只储存需要在更高比特率进行编码的场景。然而，在某些情况下，可能需要在高比特率（即1Mbps）文件中储存所有的场景（在一些旧的自适应比特率系统中的遗留），在这种特殊的情况下，被储存的节或者部分将是低比特率的，即500Kbps而不是高比特率的。因此，储存空间被节约了。（但是不如不储存场景重要）。参考表二。在系统不支持在单个视频文件中有多种分辨率的其它情况下，储存节将以确定的帧大小的文件中发生。为了减少在每一分辨率的文件的数量，有些系统会限制帧数大小，例如，SDTV,HD720p,HD1080p。参考表三。

表一

表二

基于不同的场景，每一节可在视觉质量和不同比特率的不同水平被编码。在一个实施例中，编码器读取输入视频流和数据库或其它场景列表，然后基于场景信息将视频流分割成节。视频中的场景列表的示例结果被显示在表四中。在一些实施例中，数据结构可能被储存在计算器可读储存器或数据库中，并可由编码器进行访问。

表四

不同场景形式可用于场景列表，例如“快进”、“静止”、“头部特写”、“文件”、“大多是黑色的图像”、“五帧或以下的短场景”、“黑屏”、“低兴趣”、“文件”、“水”、“烟”、“演职员名单”、“模糊”、“离焦”、“比图像容器尺寸小的低分辨率图像”，等等。在一些实施例中，一些场景序列可能是被分配的这样的场景的场景形式如“杂的”、“未知的”、“默认值”。

图2阐述了编码输入视频流的方法200的步骤。方法200编码输入视频流为被编码的视频比特流，可以在译码器中被至少近似地译码恢复为输入视频流的例子。步骤210中，接收将被编码的视频流。步骤220中，接收场景边界信息，场景边界信息显示输入视频流中的场景转换发生的位置和每一场景的目标比特率。步骤230中，输入视频流基于场景边界信息被分成多节，每一节包括多个暂时相邻图像帧。之后，步骤240中，检测每一节中图像帧的分辨率。步骤250中，分割输入视频流为多个文件，每一文件包含一个或多个节。步骤260中，多节中的每一节被根据目标比特率进行编码。之后，步骤270中，经由HTTP连接传输多个文件。

输入视频流通常包括多个图像帧。每一图像帧通常被基于输入视频流中的不同的“时间位置”被识别。在实施例中，输入视频流可以是提供给编码器的部分或不连续的片段的串流。在此情况下，甚至于在接收到整个输入视频流之前，编码器将被编码的视频比特流（例如，终端消耗设备如HDTV）作为滚动基础上的串流进行输出。

在实施例中，输入视频流和被编码的视频位串流被储存作为串流序列。在此，编码可提前进行并且被编码的视频流稍后被串流至消费者设备。在此，在被流至消费者设备之前，在整个视频流上的编码被完全实现。据悉视频流的前、后、或“顺序的”编码的其它例子，或者及其组合，可被本领域技术人员所实现，也可与此处所介绍的技术共同实现。

图3是用于实现上述任何技术的处理系统（例如编码器）的区块图。注意在某些实施例中，至少一些图3中所阐述的组件可能被分布于两个或更多物理上独立的但是相连接的计算平台或区块间。处理可以代表传统的服务器级的计算机、PC、移动通信设备（例如智能型手机）、或者任何其它已知或传统的处理/通信设备。

图3中所示的处理系统301包括一个或多个处理器310，即中央处理单元（CPU）、内存320、至少一个通信设备320例如以太网适配器和/或无线通信子系统（例如蜂窝网络、WiFi、蓝牙或类似的设备），和一个或多个I/O设备370、380，所有的都通过互联装置390与彼此耦合。

处理器310控制计算器系统301的操作并可能是或包括一个或多个可编程的通用或专用的微处理器、微控制器、特定应用集成电路（ASICs）、可编程逻辑器件(PLDs)，或这些设备的组合。互联装置390可以包括一个或多个总线、直接连接和/或其它类型的物理连接，并可能包括本领域内所熟知的各种桥、控制器和/或适配器。进一步互联装置390可能包括“总线系统”，其可能是通过一个或多个适配器连接到一个或多个扩展总线，如外围组件互联装置（PCI）总线，HyperTransport标准或行业标准架构（ISA）总线、小型计算器系统接口（SCSI）总线、通用串行总线（USB）、或者电气和电子工程师协会（IEEE）标准1394总线（有时也被称为“火线”）。

内存320可能包括一或多种类型中的一个或多个内存设备，如只读存储器（ROM）、随机存取内存（RAM）、闪存、硬盘驱动器等等。适配器340是适合使处理系统301与远程材料系统经由通信连接交流数据的设备，并可以是，例如，传统的电话调制解调器、无线调制解调器、数字用户线（DSL）调制解调器、电缆调制解调器、无线电收发器、卫星收发器、以太网适配器，或诸如此类的。I/O设备370、380可能包括，例如，一个或多个设备如:如鼠标、轨迹球、摇杆、触摸板，或类似的指点设备，键盘、具有语音识别接口的麦克风、音频扬声器、显示设备等等。然而，注意这样的I/O设备可能是系统中不必要的，完全作为服务器操作并没有提供直接的用户界面，在至少一些实施例中的服务器的情况。基于所述的一组组件的其它变化可以与符合本发明的方式实现。

软件和/或韧体编程器330对处理器310进行编程以执行上述活动，可以储存在内存320中。在某些实施例中，这样的软件和韧体可以通过经由计算器系统301从远程系统的下载初步提供计算器系统301（例如，经由网络适配器340）。

说明介绍的技术可以由，例如，与特定的软件和/或韧体编程的可编程电路（例如一或多个微处理器），或完全专用的硬线电路，或者这样形式的组合来实现。专用硬线电路可能的形式，例如，一或多个特定应用集成电路（ASCI）、可编程逻辑器件（PLDs）、现场可编程门阵列（FPGAs），等等。

在此介绍的用于实现技术的软件或韧体可以储存在机器可读的储存介质上，并可以由一个或多个通用或专用的可编程微处理器执行。“机器可读介质”，作为在此使用的术语，包括任何能以机器（机器可能是，例如，计算机、网络设备、移动电话、个人数字助理（PDA）、生产工具、任何具有一个或多个处理器的设备，等等）可访问的形式储存信息的机器。例如，机器可存取储存媒体包括可录制/非可录制媒体（例如，只读存储器（ROM）、随机存取内存（RAM）、磁盘储存媒体、光储存媒体、闪存装置等）等等。

在此使用的“逻辑”术语，可以包括，例如，与特定的软件和/或韧体编程的可编程电路、专用硬线电路、或及其组合。

本发明前述各个实施例被提供用于说明和描述的目的。其并不意图详尽地或者限制本发明为所公开的精确形式。很多修改和变化对于本领域技术人员将是清楚易见的。被选择和被描述的实施例是为了最好地描述发明的原则和它的实际应用，因此使相关领域的其他技术人员理解本发明，各种实施例之各种修改以适合特定的使用考虑。

在此提供的本发明的启示可以被用于其它系统，并不限于上述系统中。上述实施例的组件和行为可以被结合提供进一步的实施例。

虽然上述说明描述的本发明的某些实施例并介绍了所考虑的最佳模式，不论在上文中出现的有多细节，本发明可以以多种方式被实现。系统的细节在实施细节中可能有很大的不同，而仍被包含在此所述的发明中。如上所述，用于描述某些特征或发明方面的特定术语不应被解释为该术语暗示地在此被重新定义为限制本发明中与任何该术语相关的特点、特征，或发明的方面。一般情况下，后述申请专利范围中使用的术语不应被解释为限制本发明在说明书中公开的具体实施例，除非上述实施方式部分中明确定义了这样的术语。因此，发明的实际范围包括不仅被披露的实施例，也包括所有的实施或执行申请专利范围中发明的同等的方式。

Claims

1.一种利用场景形式编码视频流的方法，该方法包括：

接收一输入视频流；

接收场景边界信息，该场景边界信息显示在输入视频流中场景转换发生的位置和每一场景的目标比特率；

基于该场景边界信息将该输入视频流分为多节，每一节包括多个暂时相邻的图像帧；以及

根据该目标位编码多节中的每一节。

2.如权利要求1所述的编码视频流的方法，进一步包括:接收每一场景的最大容器尺寸。

3.如权利要求2所述的编码视频流的方法，其中编码步骤包括:根据该目标比特率和该最大容器尺寸，编码多节中的每一节。

4.如权利要求1所述的编码视频流的方法，进一步包括:将该输入视频流分割成多个视频文件，每一视频文件包含一或多个节。

5.如权利要求1所述的编码视频流的方法，进一步包括:将该输入视频流分割入一数据库和单个视频文件，每一视频文件无包含或包含一或多个节。

6.如权利要求1所述的编码视频流的方法，进一步包括:经由一HTTP连接传输多个文件。

7.如权利要求1所述的编码视频流的方法，进一步包括:检测每一节中的该图像帧的最佳光学分辨率。

8.如权利要求1所述的编码视频流的方法，其中至少一个该场景形式系基于该节中的该图像帧的一光学分辨率而被确定。

9.如权利要求1所述的编码视频流的方法，其中该节中的至少一目标比特率系基于该节中的该图像帧的一光学分辨率而被确定。

10.如权利要求1所述的编码视频流的方法，其中该节中的至少一视频影像的尺寸系基于该节中的该图像帧之该最接近的光学分辨率而被确定。

11.如权利要求1所述的编码视频流的方法，其中该编码步骤包括:根据该目标比特率基于一H.264/MPEG-4AVC标准而对该多节中的每一节进行编码。

12.如权利要求1所述的编码视频流的方法，其中一给定场景形式包括一或多个的：

一快进场景形式；

一静止场景形式；

一头部特写；

一文件；

一大多是黑色的图像；

一短场景；

一低兴趣场景形式；

一火场景形式；

一水场景形式；

一烟场景形式；

一演职员名单场景形式；

一模糊场景形式；

一离焦场景形式；

一具有小于图像容器尺寸场景形式的一低分辨率之一图像；

一杂项；或者

一默认值。

13.一种利用场景形式对一视频流进行编码的编码设备，该设备包括：

一输入模块，接收一输入视频流；

该输入模块接收场景边界信息，该场景边界信息显示在输入视频流中场景转换发生的位置和每一场景的目标比特率；

一视频处理模块，基于该场景边界信息将该输入视频流分为多节，每一节包括多个暂时相邻的图像帧；以及

一视频编码模块，根据该目标比特率编码多节中的每一节。

14.如权利要求13所述的编码设备，其中该输入模块进一步接收每一场景的光学图像尺寸。

15.如权利要求14所述的编码设备，其中该视频编码模块进一步根据该光学图像尺寸编码多节中的每一节。

16.如权利要求13所述的编码设备，其中该视频处理模块进一步分割该输入视频流为多个文件，且每一文件包含一或多个节。

17.如权利要求13所述的编码设备，其中该视频流被编码为单个文件并伴随具有每一部分的位置、起始帧、时间戳和分辨率的一文件。

18.如权利要求13所述的编码设备，进一步包括：一视频传输模块，经由一HTTP连接传输多个文件。

19.如权利要求13所述的编码设备，其中该视频处理模块进一步检测该节中的该图像帧的一光学分辨率。

20.如权利要求13所述的编码设备，其中至少一个场景形式系基于该节中的该图像帧的一光学分辨率而被确定。

21.如权利要求13所述的编码设备，其中该节中的至少一个目标比特率系基于该节中的该图像帧的一光学分辨率而被确定。

22.如权利要求13所述的编码设备，其中该节中的至少一个视频质量限制系基于该节中的该图像帧的一光学分辨率而被确定。

23.如权利要求13所述的编码设备，其中该视频编码模块系根据基于H.264/MPEG-4AVC标准之该目标比特率而对多节中的每一节进行编码。

24.如权利要求13所述的编码设备，其中由该视频处理模块分配的一给定场景形式包括一或多个的：