CN103503454A

CN103503454A - 场景形式的视频流编码

Info

Publication number: CN103503454A
Application number: CN201280015696.4A
Authority: CN
Inventors: 罗德佛·瓦格斯·古耶瑞欧
Original assignee: Eye IO LLC
Current assignee: Eye IO LLC
Priority date: 2011-01-28
Filing date: 2012-01-26
Publication date: 2014-01-08
Also published as: EP2668785A2; JP2017123649A; AU2012211249A1; BR112013020071A2; CA2825937A1; WO2012103332A3; KR20140019335A; IL227674A0; MX2013008755A; IL227674A; US20120195370A1; TW201249210A; JP2014511138A; WO2012103332A2; EP2668785A4; US9554142B2; TWI578757B; AU2012211249B2

Abstract

本发明在此描述编码视频流或图像的编码器。编码器接收输入视频流并输出已编码的视频流，已编码的视频流可以在译码器中被译码并至少大致恢复为输入视频流的样子。编码器通过首先识别场景边界并使用一组参数对场景边界之间的帧进行编码，以编码视频流。对至少两个不同的场景序列使用不同的参数集，并提供自适应的、基于场景的编码。

Description

场景形式的视频流编码

对相关申请的交互引用

此申请要求2011年1月28日递交的美国临时申请案61/437,193，以及2011年1月28日递交的美国临时申请案61/437,211的优先权。上述申请案的内容以参考方式被清楚地合并于此。

技术领域

本发明涉及视频编码技术，尤其涉及用於视频编码的视频编码参数的自动选择。

背景技术

随着视频流在日常用户中的持续增长的普及和使用，有几个固有的局限性需要被克服。例如，为获得该视频流，用户往往希望在只在有限带宽的因特网上观看视频。在实施例中，用户可能希望通过移动电话连接或家用无线连接获得视频流。在某些情况下，通常利用预先下载(spooling content)内容的方式来补偿带宽的不足（即，下载内容至本地存储后再观看）。这种方法具有一些缺点。首先，用户不能有真正的“运行时间”体验，也就是说用户在打算观看节目时不能够实时观看。相反的，在观看节目之前，用户不得不体验内容预先下载的明显延迟。另一个缺点是存储的可用性--无论是提供商还是用户都不得不提供存储资源以保证预先下载内容可以被存储，即使是很短的时间内，仍导致了昂贵的存储资源的不必要使用。

视频流（典型地包括图像部分和声音部分）可能需要大量的带宽，特别是高分辨率的视频流（例如高清视频）。音频典型地需要少得多的带宽，但是有时仍然需要考虑带宽的问题。一个视频流的方法是大量压缩视频流，以使得快速的视频传输可允许用户以运行时间(rune-time)或者实质上实时地观看内容（即，无需经历大量的预先下载延迟）。典型地，损失压缩（即，压缩并不是完全可逆的）提供比无损压缩更多的压缩，但是大量的损失压缩提供了不良的用户体验。

为了减少传输数字视频信号的带宽需求，使用高效的数字视频编码，其中数字视频信号的数据率可能会大幅减少（出于视频数据压缩的目的）是众所周知的。为了保证互操作性，视频编码标准在促进数字视频在很多专业-及消费应用程序中被采用发挥了关键作用。最有影响力的标准传统由国际电信联盟(ITU-T)或是ISO/IEC（标准化/国际电工委员会的国际组织）的MPEG（运动图像专家组）15委员会开发。ITU-T标准，公认的优点是通常针对实时通信（例如视频会议），而大多数MPEG标准是优化存储（例如，数字多功能激光视盘(DVD)和广播（例如数字视频广播(VOB)标准））。

目前，大多数标准化的视频编码算法是基于混合视频编码。混合视频编码方法通常结合数个不同的无损和损失(lossless and lossy)压缩方案以达到所需的压缩增益。混合视频编码也是ITV-T标准的基础（H.26x标准例如H.261、H.263）和ISO/IEC标准（MPEG-X标准例如MPEG-1、MPEG-2和MPEG-4）。目前最新和最先进的视频编码标准是被称为H.264/MPEG-4先进视频编码(AVC)，是联合视频小组(JVT)、ITV-T联合小组和ISO/IEC MPEG组的共同努力的结果。

该H.264标准应用了被称为既定标准(例如MPEG-2)之基于块的运动的补偿混合转换编码的相同原则。因此，H.264的语法可依照标头的一般阶层而被组织，例如图像块、片块和宏块标头，以及数据例如运动向量、块变换系数和量化规模等。然而，H.264标准分离了视频编码层(VCL,其描述了视频数据的内容)以及网络应用层(NAL,其格式化数据并提供标题信息)。

此外，H.264标准可以大幅提高编码参数的选择。例如，它允许宏块16x16的更详细的划分和操作，即如运动补偿过程可以在大小为4x4尺寸的宏块分割上执行。并且，样本块的运动补偿预测的选择过程中可能涉及先前译码存储图片的数量，而不是仅仅相邻的图片。即使在单一的帧内进行帧内编码，也有可能使用来自于同样帧的先前编码样本以形成块的预测。再者，伴随运动补偿所造成预测错误可能基于4x4块尺寸被转换和量化，而非传统的8x8的块尺寸。此外，可使用回路程序分块滤波器以减少可能使用的块效应。

该H.264标准可被视为H.262/MPEG-2视频编码语法的超级集合，它使用相同的视频数据的全局结构，同时延长了可能的编码决策和参数的数量。具有多种编码决策的后果是可能取得良好的比特率和图像质量之间的权衡。然而，尽管H.264标准可能显著降低基于块编码的典型产出而被普遍承认，它也可能突出其它产出。事实上，H.264允许各种编码参数可能值的增加数量，因此导致改进编码程序的潜力增加，但是也导致了选择视频编码参数的敏感性的增加。

与其它标准相似，H.264不指定选择视频编码参数的规范程序，但是通过参考实施例描述，各种标准可被用于选择视频编码参数以达到编码效率、视频质量和实用性之间的适当平衡。然而，所述标准可能不会总是导致最佳或合适的适于所有类型内容和应用程序的编码参数的选择。例如，对于视频信号的特征而言，该标准可能不会导致视频编码参数的最优或可取选择是，或者基于获取编码的信号特征的标准可能对于当前的应用程序并不适合。

因此，视频编码的改进系统将是有利的。

前述相关领域示例和相关的特征的目的系说明性质，而非排他性质。相关领域的其他特征将基于说明书的解读和附图的研究而清楚可见。

发明内容

本发明考虑了用于编码视频流的各种方法、系统和编码器。在此介绍的是用于编码视频流的编码器。编码器接收输入视频流，并输出被编码的视频流，被编码的视频流可以在译码器被解碼恢复为，至少近似地，输入视频流。本发明的实施例中，编码器通过第一识别场景边界和场景边界（即，“场景序列”包括一个或多个帧）间的编码的帧，利用一组参数对视频流或存储的序列进行编码。

在本发明的一个实施例中，视频流中可以在相机突然从一个视角转到另一个视角的地方识别场景改变，以使得场景改变的每一侧上的两帧之间差值并不像从相同角度拍摄的其他帧那样可压缩。两组不同的参数被用于至少两个不同的场景序列，这提供了适应性、基于场景的编码。

本发明内容以简化的形式提供一个概念的选择，并将在下面的实施方式中进一步描述。本发明内容并非旨在确定所要保护的主题的关键特征或基本特征，也不用于限制所要保护的主题的范围。

附图说明

本发明的一个或多个实施例通过举例的方式说明并且并不受限于附图中的图例，其中参考编号表示相似的元素。

图1阐述了编码器的一个例子；

图2阐述了编码输入视频流的方法步骤；

图3阐述了将输入视频流分成多个场景序列的方法步骤；

图4阐述了确定场景序列的场景形式的方法步骤；

图5是解释帧中运动判断的区块图；

图6是处理系统区块图，该处理系统可以被用于实现编码器实施的所述的某些技术。

具体实施方式

现在，将描述本发明的各个方面。下面的说明提供具体的细节以透彻理解说明中的例子。然而，本领域技术人员将理解本发明的实现并不需要诸多细节。此外，一些熟知的结构或功能可能不会被详细显示或描述，以避免对相关说明产生不必要的混淆。虽然附图描述作为功能独立的组件，但是这样的描述仅仅为了说明的目的。对于本领域技术人员而言，附图中描绘的组件可以被任意组合或分开成单独的组件。

在下面的说明书中使用的术语旨在以最合理的方式被解释，即使它正被用于与本发明中某些具体例子的详细说明配合使用。然而，在下文中某些术语可能需要被强调，任何试图以限制方式进行解释的术语将在实施方式部分被公开和明确界定。

本说明书中提及的“实施例”、“一个实施例”或类似的表示意味着所述的特定的功能、结构、特征被包括在本发明的至少一个的实施例中。在说明书中这样的表达的出现并不一定都是指代相同的实施例。

在本发明的一个实施例中，被提供的编码器用于接收输入视频流，并输出被编码的视频流，被编码的视频流可以在译码器被解碼恢复为，至少近似地，输入为视频流。编码器包括：输入模块，接收输入视频流视频流；视频处理模块，基于场景边界信息将输入视频流视频流分为多节，其中，视频处理模块根据输入视频流中的两个暂时相邻图像帧的关系确定给定的场景边界；视频流模块进一步确定多个场景中每一个场景的场景形式，每一个场景形式与多个预定的编码器参数中的一个或多个相联系，以及视频编码模块根据与多个场景中的每一个场景相连的场景形式对多个场景进行编码。

以此方式，编码器能以最适合于将被编码的输入视频流中的每一个场景的质量对输入视频流编码。

图1根据本发明的一个实施例阐述了编码器100的例子。编码器100接收输入视频流110并输出编码视频流120，编码视频流120可以在译码器被译码恢复。编码器100包括输入模块102、视频处理模块104和视频编码模块106。编码器100可以包括其它组件例如参数输入模块、存储参数的内存，等等。编码器100可以执行未在此特别说明的其它视频处理功能。

输入模块102接收输入视频流110。输入视频流110可以采取任何适当的形式也可以源于任何适当的资源，如内存，或者源于现场节目。

视频处理模块104分析输入视频流110并将视频流110随着其各自的多个场景中的每个场景的视频编码参数分为多个场景。在一个实施例中，视频处理模块104基于场景边界将视频流分为多个场景，其中场景边界根据输入视频流中的两个暂时相邻的图像帧而被确定。视频处理模块104进一步确定了视频编码参数，视频编码参数由视频编码器106用于通过将每一场景形式与复数个预定编码参数中的一个或多个相联系，而对每一个场景进行编码。在视频流处理期间，参数对于每一个场景形式可能是预定的，或者可能是被计算和/或被调整的。视频编码模块106从视频处理模块104接收多个场景及其各自的视频编码参数，根据其各自的编码参数对复数个场景中的每个场景进行编码，并输出已编码的视频流120。

图2阐述了编码输入视频流的方法200的步骤。方法200编码输入视频流为被编码的视频比特流，可以在译码器中被至少近似地译码恢复为输入视频流。步骤210中，接收将被编码的视频流。步骤220中，视频流基于场景边界被分为多个场景。在此，如将在图3中进一步描述细节，根据输入视频流中两个暂时相邻图像帧的关系，确定场景边界。然而，任何一种其他合适的结构均可能被用于区分场景形式。之后在步骤230中，处理过程确定多个场景中的每一个场景的场景形式。在步骤240中，处理过程确定视频编码参数以对每一个场景进行编码，藉由以适合的预定编码器参数映像每一个场景形式，如同其后进一步详细讨论。在步骤250中，处理过程根据每一场景的各自的视频编码参数（例如，在步骤240中所确定）对场景进行编码。在步骤260中，处理过程输出已编码的视频位串流。

上述处理过程将在以下部分被详尽阐述。输入视频流通常包括多个图像帧。每一图像帧通常被基于输入视频流中的不同的“时间位置”被识别。在实施例中，输入视频流可以是提供给编码器的部分或不连续的片段的串流。在此情况下，甚至于在接收到整个输入视频流之前，编码器将被编码的视频比特流（例如，终端消耗设备如HDTV）作为滚动基础上的串流进行输出。

在实施例中，输入视频流和被编码的视频位串流被存储作为串流序列。在此，编码可提前进行并且被编码的视频流稍后被串流至消费者设备。在此，在被流至消费者设备之前，在整个视频流上的编码被完全实现。据悉视频流的前、后、或“顺序的”编码的其它例子，或者及其组合，可被本领域技术人员所实现，也可与此处所介绍的技术共同实现。

在实施例中，输入视频流中的场景边界通过先缩放并消除所有存在于每一图像帧中的高频元素而被确定。接下来，被确定的两个图像帧之间的差值在输入视频流的时间表上是彼此暂时相邻的。在一些示例中，例如，两帧之间的差值可以利用递归(recursive)或自适应(adpative)滤波器进行区分。当计算的差值超过预定的(标示场景变化的)阈值时，两个图像帧被确定为两个不同场景序列中的部分，且因此两个图像帧之间的场景边界被建立。

在实施例中，如在上述参考图2中所阐述的，场景形式可能被确定为与编码程序相连的多个场景序列中的每一个场景。在一些例子中，场景序列形式可能利用一个或多个下列场景序列参数而被确定：(i)输入视频流中场景序列的位置；(ii)场景序列的长度;(iii)其运动向量判断;(iv)场景序列与之前帧的有效差值;(v)场景序列的光谱数据尺寸;(vi)利用光学性质识别所确定的场景文件内容(vii)基于剧本结构信息的场景剧本属性，等等。此外，在一些例子中，面部识别可能被用于场景形式确定，以确定场景序列中是否包括人体的面部。

给定的场景形式可能包括，例如快进”、“静止”、“头部特写”、“文件”、“滚动演职员名单(scroll credits)”、“大多是黑色的图像”、“五帧或以下的短场景”等等。在一些例子中，场景序列可能并未被分配特定的场景形式。在其他例子中，被分配的场景序列可能包括场景形式：“杂项的”、“未知的”、“默认值”等等。

在一些实施例中，一旦场景形式被指定，场景序列就会被编码。在一些实施例中，这种编码通过根据一组软件或硬件指令运行参数化编码过程来执行。在此，一些例子中，一组高度优化的参数可能根据场景形式被用于控制编码细节。多个参数可能被存储在场景形式数据库或其他数据结构或者机器学习系统中。在一个例子中，存储在存储器中可由编码器进行访问的数据库可能具有如表1中所列举的结构。用于编码但并未特定设置于场景形式数据库中的参数，可能使用在编码过程开始时决定的默认值参数值。在一些例子中，默认值参数可能基于用于编码输入视频流的编码标准所推荐的值而被决定。

表一

图3说明了决定输入视频流中的场景边界的方法或程序300的步骤。步骤310中，程序缩放来自于当前帧(i)和前一帧(i-1)的高频率元素用于需要被确定的场景边界。在至少一些实施例中，步骤320，程序从当前帧(i)和前一帧(i-1)移动高频率元素。在一实施例中，转换编码器将图像帧中的像素数据转为频率系数。在频域中，低频数据具有比高频数据更大的人类感知重要度。步骤310和320允许分析基于感知重要度的帧中的低频元素。

步骤330中，当前帧(i)的亮度被计算。亮度值也被称为亮度，代表了图像的亮度（“黑与白”或图像的无色部分）。

步骤340中，基于当前帧(i)和前一帧(i-1)的预测的亮度值被计算。预测值是基于前一帧(i-1)的子空间上的当前帧(i)。子空间是由前一帧(i-1)的奇异值分解得到的。

步骤350中，基于步骤330和340中获得的亮度值之间的差值而计算出余值。步骤360中，程序使用例如递归或者自适应滤波器滤除任何余值并且将余值映像在0-1的分数范围上。自适应滤波器帮助重复地滤除余值中的任何非自然产物。步骤370中，当正归化分数大于第一阈值时，程序用信号通知场景改变并对输入视频流中的场景边界进行标记。在一实施例中，此类第一阈值的示例值是0.65。步骤380中，在一些例子中，对输入视频流中的每一帧重复步骤310至步骤370以将输入视频流分成有序的场景序列。

图4阐述了确定给定的场景序列的场景形式的程序400的步骤。步骤410中，程序决定输入视频流时间轴中的场景位置。基于该场景位置，在例如1-5的范围上指定分数。在一示例中，1分表示场景在输入视频流的开始，以及5分意味着场景在输入视频流的末端。

步骤420中，程序决定场景序列的播放时间长度并指定相称的分数（例如，1-5的范围上）。在一示例子，1分可能表示小于10秒的场景长度以及5分可能表示大于50秒的场景长度。

步骤430中，程序执行场景序列中的运动判断并指定相称的分数（例如，1-5的范围上）。例如，1分可能表示很少或没有运动向量的场景，5分可能表示整个场景有很大的运动向量。运动判断(Motion Estimation,ME)是通常用于在压缩期间探测输入视频流中的冗余时间。冗余时间产生于相邻帧经常共享相似的像素区域的事实。因此，运动判断的目标是判断穿过相邻帧的类似区域的转移（宏块），如此使得它们被差分编码。在基于块的运动判断中，类似区域的位移由运动向量表示，其由块匹配算法(Block-Matching Algorithms)进行计算。

步骤440中，程序计算给定场景序列和前一场景序列之间的有效差值。基于有效差值，程序指定相称的分数（例如，在1-5的范围上）。在一示例中，1分可能表示场景间很小的差异而5分可能表示大于xyz域的差异。在示例中，有效差值可能使用上述关于步骤310至370中相同的评分原则进行计算。

步骤450中，程序决定场景序列的光谱数据大小。基于光谱数据大小，在例如1-5的范围上指定分数。在一个例子中，1分可能表示具有低光谱数据的场景以及5分可能表示具有高光谱数据的场景。在一个实施例中，转换编码技术将视频数据转为频率（或光谱）域，图像帧的频域范围代表光谱数据大小。转换编码器将一个图像帧中的像素数据转换为频率系数。在频域中，低频数据具有比高频数据更大的人类感知重要度。

步骤460中，程序可选地（或在某些情况下强制地）使用例如面部识别软件执行对场景序列中面部结构的搜索。基于搜索结果，指定例如1-5范围上的分数。此处，在一示例中，1分可能表示没有被识别的面部结构而5分可能指示场景具有多个面部结构。

在步骤470中，程序执行场景序列中光学特征识别(opticalcharacter recognition,OCR)以识别场景序列中的任何文件信息。OCR帮助区分在一个图像文件中的图案和本文内容。OCR使用模式识别、人工智能和计算器视觉进行区分。基于OCR分析，程序指定相称的分数（例如，在1-5分的范围上）。在一个例子中，1分可能表示场景序列中没有任何文字内容而5分可能表示场景序列中至少有30%的文件内容，即，电影的演职员名单。

步骤480中，程序决定与场景相联系的电影剧本结构信息。在至少一些实施例中，剧本结构信息是一相对注意参数。相对注意参数近似地估计为给定场景预计的观众关注的相对量。在一些实施例中，相对注意参数近似地估计预计的给定的视频片段的观众关注相对量，给定场景序列是给定视频片段的一部分。基于分析，程序指定相称的分数（例如，在1-5分的范围上）。在一示例中，1分可能表示观众兴趣较低的场景序列内容而5分可能表示观众兴趣较高的场景序列。

步骤490中，程序基于从步骤410至步骤480的分数决定场景序列的场景形式。在一个实施例中，场景形式的确定可基于瀑布程序(waterfallprocess)使用从步骤410至步骤480的分数。瀑布程序是一个线性的、开始到结束、连续的决策程序，程序在沿着其路径至最终决定中，通常不会重复任何它已到达的中间结论。

在一示例中，包括电影结尾的演职员名单的场景通常有文字上下移动。这样的场景序列通常具有小但连续的运动向量，记分为2以及更低，向上或向下取决于文字方向。此外，场景序列一般包括电影演职员名单形式的文件，构成多于例如30%的场景内容。光学特征识别程序一般将场景记为4分或以上。鉴于电影演职员名单一般是电影的一部分并且构成结尾电影时间轴的材料部分，瀑布程序在检测其他场景形式之前，首先检测场景是否是“滚动演职员名单”形式。在示例子，2分强烈建议了包括的场景形式是“滚动演职员名单”形式，因此，一旦场景被标记如此，场景的场景形式测定可被结束。如果确定场景形式不是“滚动演职员名单”形式，瀑布程序检测场景序列可观察其是否是除了“滚动演职员名单”形式以外的场景形式之一。同样，一旦瀑布程序作出了给定的场景不是特定形式的决定，程序通常不再针对特定的场景形式再判断该场景。

在另一示例中，捕捉红杉树的场景通常包括树木的绿色叶子和周围的环境。树叶通常会构成场景内容的主要部分。这样的场景具有很少或随机的运动向量，因为树木本身保持静止而它们的枝干和叶子也只有轻微的运动。运动判断分数将接近0。此外，场景中的任何文件识别一般是场景的简要说明，产生很低的文件内容分数。然而，光谱分析将产生较高分数，因为场景中树叶的绿色将被光谱数据的高频域中被捕获。如前所述，低频光谱数据具有比高频数据更大的人类感知重要度，使得高光谱数据的帧在较低质量编码。基于分数，瀑布程序将决定场景序列是“静止场景”，要求在第一帧的高编码质量，第一帧伴随着低质量剩余编码和低分块滤波。

上述说明阐述了决定场景边界及场景形式的程序。出于决定场景形式的目的，在至少一些例子中，为了确定在场景序列中由运动向量代表的运动幅度而决定和分析场景中的运动判断是很有用的。图5现在阐述了场景序列中运动判断的程序示例，正如在此被进一步详细地解释。运动判断通常是用于探测在压缩期间的视频序列中的时间冗余度。时间冗余度产生于相邻帧非常频繁地共享相似像素域的事实。因此运动判断的目标是判断这样相似的穿越相邻帧的域（宏块）的转移。在基于块的运动判断中，相似域的位移由运动向量表示，其由块匹配算法进行计算

在一个实施例中，块匹配算法(BMA)搜索在图像帧中相似的块并生成运动向量。BMA使用快速搜索方法，当相似块被搜索时，只查看搜索窗口的特定点。在另一个办法中，被称为多分辨率运动判断，分层地执行运动判断，计算特定帧域的运动向量并将它们细化至每一层。运动判断域一个帧中的不同的分辨率合作，连续地细化被创造的运动向量。其他方式可调查发现BMAs中的对应类似处(parallelism)，为了同时执行运动判断阶段。

图5阐述运动判断的方法示例。这里，在一个实施例中，在序列帧中被发现（例如，不同位置上的帧）的一个帧的宏块的图像，通过使用运动向量被传达。图5.1和图5.2分别表示参考帧和所需的帧。帧被分成宏块，例如，尺寸范围从4x4到16x16。实施例中，参考帧中的每一宏块与所需帧中的每一宏块进行比较以检测任何宏块之间的匹配。图5.3和图5.4阐述参考帧和所需帧分成它们各自的宏块，彼此进行比较。图5.5表示来自参考帧的宏块与所需帧中的宏块匹配，虽然宏块不是在其各自帧中的相同的栅格位置。图5.6表示由编码器产生的运动向量传达所需帧中关于参考帧中宏块位置的宏块位置。运动判断因此帮助决定场景序列中的运动向量，使得场景形式的确定受场景序列中运动向量幅度的影响。

上述说明阐述了基于运动判断决定场景形式的程序。出于决定场景形式的目的，除了运动判断外，在至少一些例子中，确定和分析与场景相联系的剧本结构信息是很有用的。剧本结构信息利用电影故事线的一般组织以决定合适的场景形式，允许为给定场景适当编码。

电影通常基于剧本。剧本被组织以便抓住观众的注意力。电影剧本的第一部分称为“短播和切换(bite and switch)”片段，通常是当大多数人决定是否观看整个影片的时候。因此，此处的图像质量可预计的非常高以便于不破坏观众的观赏体验。电影剧本的下一部分被称为“角色发展”片段，一般得到很低的观众注意并可能因此是低于之前片段的图像质量。电影接下来的片段构成电影的情节，观众比之前的片段具有更高的注意。图像质量高于之前的质量。电影的下一个片段是“高潮”，是电影最重要的部分并且图像质量需要很高。最后的片段是电影的“演职员名单”，得到很低的观众注意。该片段可以使用不会影像观众观赏体验的较低质量图像。

在一个实施例中，基于电影时间轴的剧本结构信息用于决定场景形式。例如，当给定的场景序列是电影的开始部分时，场景序列可被列为“短播和切换”场景，得到高的观众注意。场景序列可以在范围上被记为5分，表示观众兴趣高。作为进一步的例子，当给定的场景序列是进入到电影的30分钟时，可以假定电影片段包括角色发展。角色发展片段得到较低的观众注意。因此，任何是角色发展的一部分的场景序列可能在范围上被记为2分或更少的分数。因此，时间轴信息帮助决定场景形式。

在一个实施例中，剧本结构信息被用于决定可能是相对注意参数的场景形式，相对注意参数近似估计观众兴趣对于预计输入视频流的给定片段。相对注意参数可以由观众预先设定或基于来自电影导演的输入。该信息可以作为输入视频流元数据的一部分被包括在输入视频流中。通过分析元数据，可以确定相对注意参数。预先设定的相对注意参数可被定义为输入视频流中的每一个给定的场景序列或包括复数个场景序列的输入视频流中的给定片段。当相对注意参数表示高观众注意时，分数可能被设置为4分或更高。当相对注意参数表示低观众注意时，分数可能被设置为2分或更低。相对注意参数可能因此被用于决定场景形式。

在一个实施例中，剧本结构信息被用于决定场景形式，场景形式可能是基于场景序列中的文件内容或者是基于与场景序列相联系的结束字幕。两种情况下，文件信息被用于决定电影场景的剧本序列。剧本序列稍后可以被用于决定观众对给定场景的注意。1分场景兴趣低以及5分场景兴趣高。文件内容信息可能因此被用于决定场景形式。

在另一个实施例中，用于决定场景形式的剧本结构信息可以基于与场景序列相联系的音频内容。音频内容可能是，例如，音频内容的音量（振幅），人类语言，沉默，语言识别，语言差异，配乐，音效，环绕声等。在一个例子中，音频内容的音量可以用来确定剧本片段，场景序列是剧本片段的一部分。在电影中的动作片段一般有与其相关的响亮声音内容。要得到观众的充分注意，需要响亮的音频内容。此外，动作场面通常涉及的特殊效果，如爆炸，产生响亮的音频内容。另一方面，与角色发展相关的电影片段，通常涉及在人类声音振幅的正常范围内的对话和小的特殊效果，如爆炸。在电影的角色发展阶段，观众的注意程度通常很低。因此可以利用音频内容的音量确定观众对于一个给定的场景的注意，1分为低音量场景以及5分高音量场景。因此可以根基于观众的注意力利用音频内容的振幅（音量）确定场景形式。

在另一个例子中，场景序列相关的声音效果可以用来确定剧本片段，场景序列是剧本片段的一部分。一般都是用特殊的声音效果，如音频内容的增加节奏，表明在电影中的有趣转折的构建、一个令人振奋的动作序列，等等，以得到高观众注意。另一方面，小的声音效果与涉及谈话的电影片段相联系。片段普遍缺乏声音效果就像谈话通常缺乏戏剧性的情绪转变一样，可以进一步强调声音效果。因此可以利用音频内容的特殊效果确定观众对于一个给定的场景的注意，1分为低音效的场景而5分为丰富的音效场景。因此可以基于观众注意而利用音频内容的声音效果以确定场景形式。

图6是用于实现上述任何技术的处理系统（例如编码器）的区块图。注意在某些实施例中，至少一些图6中所阐述的组件可能被分布于两个或更多物理上独立的但是相连接的计算平台或区块间。处理可以代表传统的服务器级的计算机、PC、移动通信设备（例如智能型手机）、或者任何其它已知或传统的处理/通信设备。

图6中所示的处理系统601包括一个或多个处理器610，即中央处理单元（CPU）、内存620、至少一个通信设备620例如以太网适配器和/或无线通信子系统（例如蜂窝网络、WiFi、蓝牙或类似的设备），和一个或多个I/O设备670、680，所有的都通过互联装置690与彼此耦合。

处理器610控制计算器系统601的操作并可能是或包括一个或多个可编程的通用或专用的微处理器、微控制器、特定应用集成电路（ASICs）、可编程逻辑器件(PLDs)，或这些设备的组合。互联装置690可以包括一个或多个总线、直接连接和/或其它类型的物理连接，并可能包括本领域内所熟知的各种桥、控制器和/或适配器。进一步互联装置690可能包括“总线系统”，其可能是通过一个或多个适配器连接到一个或多个扩展总线，如外围组件互联装置（PCI）总线，HyperTransport标准或行业标准架构（ISA）总线、小型计算器系统接口（SCSI）总线、通用串行总线（USB）、或者电气和电子工程师协会（IEEE）标准1394总线（有时也被称为“火线”）。

内存620可能包括一或多种类型中的一个或多个内存设备，如只读存储器（ROM）、随机存取内存（RAM）、闪存、硬盘驱动器等等。适配器640是适合使处理系统601与远程材料系统经由通信连接交流数据的设备，并可以是，例如，传统的电话调制解调器、无线调制解调器、数字用户线（DSL）调制解调器、电缆调制解调器、无线电收发器、卫星收发器、以太网适配器，或诸如此类的。I/O设备670、680可能包括，例如，一个或多个设备如:如鼠标、轨迹球、摇杆、触摸板，或类似的指点设备，键盘、具有语音识别接口的麦克风、音频扬声器、显示设备等等。然而，注意这样的I/O设备可能是系统中不必要的，完全作为服务器操作并没有提供直接的用户界面，在至少一些实施例中的服务器的情况。基于所述的一组组件的其它变化可以与符合本发明的方式实现。

软件和/或韧体编程器630对处理器610进行编程以执行上述活动，可以存储在内存620中。在某些实施例中，这样的软件和韧体可以通过经由计算器系统601从远程系统的下载初步提供计算器系统601（例如，经由网络适配器640）。

说明介绍的技术可以由，例如，与特定的软件和/或韧体编程的可编程电路（例如一个或多个微处理器），或完全专用的硬线电路，或者这样形式的组合来实现。专用硬线电路可能的形式，例如，一个或多个特定应用集成电路（ASCI）、可编程逻辑器件（PLDs）、现场可编程门阵列（FPGAs），等等。

在此介绍的用于实现技术的软件或韧体可以存储在机器可读的存储介质上，并可以由一个或多个通用或专用的可编程微处理器执行。“机器可读介质”，作为在此使用的术语，包括任何能以机器（机器可能是，例如，计算机、网络设备、移动电话、个人数字助理（PDA）、生产工具、任何具有一个或多个处理器的设备，等等）可访问的形式存储信息的机器。例如，机器可存取存储媒体包括可录制/非可录制媒体（例如，只读存储器（ROM）、随机存取内存（RAM）、磁盘存储媒体、光存储媒体、闪存装置等）等等。

在此使用的“逻辑”术语，可以包括，例如，与特定的软件和/或韧体编程的可编程电路、专用硬线电路、或及其组合。

本发明前述各个实施例被提供用于说明和描述的目的。其并不意图详尽地或者限制本发明为所公开的精确形式。很多修改和变化对于本领域技术人员将是清楚易见的。被选择和被描述的实施例是为了最好地描述发明的原则和它的实际应用，因此使相关领域的其他技术人员理解本发明，各种实施例的各种修改以适合特定的使用考虑。

在此提供的本发明的启示可以被用于其它系统，并不限于上述系统中。上述实施例的元素和行为可以被结合提供进一步的实施例。

虽然上述说明描述的本发明的某些实施例并介绍了所考虑的最佳模式，不论在上文中出现的有多细节，本发明可以以多种方式被实现。系统的细节在它的实施细节中可能有很大的不同，而仍被包含在此所述的发明中。如上所述，用于描述某些特征或发明方面的特定术语不应采取暗示术语在此正在被重新定义为限制与任何具体的术语相关的特点、特征，或发明的方面。一般情况下，在下面申请专利范围中使用的术语不应被解释为限制本发明在说明书中公开的具体实施例，触发上述实施方式部分中明确定义了这样的术语。因此，发明的实际范围包括不仅被披露的实施例，也包括所有的实施或执行申请专利范围中发明的同等的方式。

Claims

1.一种利用场景形式编码视频流的方法，每一个场景形式有一或多个复数个编码器参数的一预定义集，该编码器参数被一视频编码器用于对任何给定场景形式进行编码，该方法包括：

接收一输入视频流；

基于场景边界信息，将该输入视频流分成多个场景，每一场景包括复数个暂时相邻的图像帧，其中一给定的场景边界系根据输入该视频流中的两个暂时相邻图像帧间的关系而被确定；

确定每一场景的场景形式；以及

根据该场景形式对每一场景进行编码。

2.如权利要求1所述的方法，其中每一场景形式系基于一或多个标准而被确定，该一或多个标准包括：

位于该输入视频流的时间轴上的一给定场景位置;

该给定场景的一长度;

该给定场景中的一运动判断;

从一先前场景与该给定场景中的一有效差值;

该给定场景的一光谱数据大小;

该给定场景的一光学特征识别;或

该给定场景的一剧本结构信息。

3.如权利要求1所述的方法，其中该场景形式的决定进一步包括利用面部识别。

4.如权利要求2所述的方法，其中该剧本结构信息包括一相对注意参数，其中该相对注意参数近似估计一观众注意的相对量的一预定估计，该预定估计可预期地被用于包括给定场景的该输入视频流的一视频片段。

5.如权利要求2所述的方法，其中剧本结构信息进一步包括一或多项：

一时间范围定义;

来自该给定场景的一文件信息;

与该给定场景相关的一音频内容;

与该给定场景相关的一结束字幕信息;或

与该给定的场景相关的一元数据。

6.如权利要求1所述的方法，其中一给定场景形式包括一或多项：

一快进；

一静止；

一头部特写；

一文件；

一大多是黑色的图像；

一短场景；

一滚动演职员名单；

一标题场景；

一杂项；或

一默认值。

7.如权利要求1所述的方法，进一步包括：确定一第一图像帧在当该第一图像帧在该输入视频流的时间轴上具有至少一相邻于一第二图像帧的位置时，该第一图像帧是与该第二图像帧暂时相邻的。

8.如权利要求1所述的方法，其中确定输入视频流中的两个暂时相邻图像帧的关系的步骤包括：

缩放每个图像帧的一或多个高频元素；

消除每个图像帧的一或多个高频元素；

分析图像帧以确定暂时相邻的图像帧之间的一差值，其中一分数基于该差值被计算;以及

当该分数超出一默认限制时，确定图像帧之间的无关程度，其中该默认限制分数是在一场景发生变化处的一阈值。

9.如权利要求8所述的方法，其中该差值是由一递归滤波器或一自适应滤波器所追踪。

10.如权利要求1所述的方法，其中该预定编码器参数包括一或多个：

一运动判断范围搜索;

一分块数量因素;

一量化器;或

一参照帧号。

11.一种利用场景形式编码视频流的方法，每个场景形式有一或多个复数个编码器参数的一预定义集，该编码器参数被一视频编码器用于对任何给定场景形式进行编码，该方法包括：

接收一输入视频流；

接收场景边界信息，该场景边界信息指示该输入视频流中场景转换发生的位置，其中一场景转换基于输入视频流中两个暂时相邻图像帧的关系而被确定；

基于场景边界信息将输入视频流分成多个场景，每一场景包括多个暂时相邻图像帧；

确定每一场景的场景形式；以及

根据该场景形式对每一场景进行编码。

12.如权利要求11所述的方法，其中每一场景形式系基于一或多个标准而被确定，该一或多个标准包括：

位于该输入视频流的时间轴上的一给定场景位置;

该给定场景的一长度;

该给定场景中的一运动判断;

从一先前场景与该给定场景中的一有效差值;

该给定场景的光谱数据大小;

该给定场景的光学特征识别;或

该给定场景的剧本结构信息。

13.如权利要求12所述的方法，其中剧本结构信息包括相对注意参数，其中相对注意参数接近预先确定的观众注意预计输入视频流片段的相对量，输入视频流包括给定场景。

14.如权利要求12所述的方法，其中剧本结构信息进一步包括一或多项：

一时间范围定义;

来自该给定场景的一文件信息;

与该给定场景相关的一音频内容;

与该给定场景相关的一结束字幕信息;或

与该给定的场景相关的一元数据。

15.如权利要求12所述的方法，其中该场景形式的决定进一步包括利用面部识别。

16.如权利要求11所述的方法，其中一给定场景形式包括一或多项：

一快进；

一静止；

一头部特写；

一文件；

一滚动演职员名单；

一标题场景；

一大多是黑色的图像；或

一短场景。

17.如权利要求11所述的方法，其中一第一图像帧在当该第一图像帧在该输入视频流的时间轴上具有至少一相邻于该第二图像帧的位置时，该第一图像帧是与该第二图像帧暂时相邻的。

18.如权利要求11所述的方法，其中该预定编码器参数包括一或多个：

一运动判断范围搜索;

一分块数量因素;

一量化器;或

一参照帧号。

19.一种使用场景形式编码视频流的视频编码设备，每一场景形式有一或多个复数个编码器参数的一预定义集，该编码器参数被一视频编码器用于对任何给定场景形式进行编码，该设备包括：

一输入模块，用于接收一输入视频流；

一视频处理模块，基于场景边界将该视频流分成多个场景，每一场景包括复数个暂时相邻的图像帧；其中该视频处理模块根据输入视频流中两个暂时相邻图像帧的关系而确定一给定的场景边界；

该视频处理模块，确定每一场景的一场景形式；以及

一视频编码模块，根据该场景形式对每一个场景进行编码。

20.如权利要求19所述的设备，其中该视频处理模块基于一或多个标准确定每一场景形式，该一或多个标准包括：

位于该输入视频流的时间轴上的一给定场景的位置;

该给定场景的长度;

该给定场景中的运动判断;

从一先前场景与该给定场景中的一有效差值;

该给定场景的光谱数据大小;

该给定场景的光学特征识别;或

该给定场景的剧本结构信息。

21.如权利要求20所述的设备，其中该视频编码设备使用的该剧本结构信息包括一相对注意参数，其中该相对注意参数近似估计一观众注意的相对量的一预定估计，该预定估计可预期地被用于包括给定场景的该输入视频流的一区段。

22.如权利要求20所述的设备，其中该视频编码设备使用的剧本结构信息进一步包括一或多项：

一时间范围定义;

来自该给定场景的一文件信息;

与该给定场景相关的一音频内容;

与该给定场景相关的一结束字幕信息;或

与该给定的场景相关的一元数据。

23.如权利要求20所述的设备，其中该视频处理模块使用面部识别以决定场景形式。

24.如权利要求19所述的设备，其中由该视频处理模块分配的一给定场景形式包括一或多个：

一快进；

一静止；

一头部特写；

一文件；

一大多是黑色的图像；

一短场景；

一滚动演职员名单；

一标题场景；

一杂项；或

一默认值。

25.如权利要求19所述的设备，其中该视频处理模块进一步包括：确定一第一图像帧在当该第一图像帧在该输入视频流的时间轴上具有至少一相邻于该第二图像帧的位置时，该第一图像帧是与该第二图像帧暂时相邻的。

26.如权利要求19所述的设备，其中该视频处理模块确定输入视频流中的两个暂时相邻图像帧的关系包括：

缩放每个图像帧的一或多个高频元素；

消除每个图像帧的一或多个高频元素；

分析图像帧以确定暂时相邻的图像帧之间的差值，其中一分数基于该差值被计算;以及

27.如权利要求26所述的设备，其中视频处理模块使用一或多个递归滤波器或一自适应滤波器以追踪该差值。

28.如权利要求19所述的设备，其中由视频编码模块使用的该预定编码器参数包括一或多个：

一运动判断范围搜索;

一分块数量因素;

一量化器;或

一参照帧号。

29.一种使用场景形式编码视频流的视频编码设备，每一场景形式具有一或多个复数个编码器参数的一预定义集，该编码器参数被一视频编码器用于对任何给定场景形式进行编码，该设备包括：

一接收组件，用于接收一输入视频流；

一切分组件，基于场景边界将输入视频流分成多个场景，每一场景包括复数个暂时相邻图像帧；其中该切分组件根据输入视频流中两个暂时相邻图像帧的关系而确定一给定场景边界；

一决定组件，用于确定每一场景的场景形式；每一场景与一或多个预定的编码器参数相关，该编码器参数被一视频编码器用于对该给定场景形式进行编码；以及

一编码组件，基于该给定场景的先前确定的编码器参数对每一场景进行编码，以前确定的编码器参数根据与每一场景相关的该场景形式而被确定。

30.一种利用场景形式编码视频流的方法，每一个场景形式有一或多个复数个编码器参数的一预定义集，该编码器参数被一视频编码器用于对任何给定场景形式进行编码，该方法包括：

接收一输入视频流；

基于场景边界信息，将该输入视频流分成多个场景，每一场景包括复数个暂时相邻图像帧，其中一给定的场景边界系根据输入该视频流的剧本结构信息被确定；

确定每一场景的场景形式；以及

根据该场景形式对每一场景进行编码。

31.如权利要求30所述的方法，进一步包括：确定一第一图像帧在当该第一图像帧在该输入视频流的时间轴上具有至少一相邻于一第二图像帧的位置时，该第一图像帧是与该第二图像帧暂时相邻的。

32.如权利要求30所述的方法，其中该剧本结构信息包括一相对注意参数，其中该相对注意参数接近似估计一观众注意的相对量的一预定估计，该预定估计可预期地被用于该输入视频流的复数个区段，其中每一视频片段可以包括复数个场景。

33.如权利要求30所述的方法，其中剧本结构信息进一步包括一或多项：

一时间范围定义;

来自该给定场景的一文件信息;

与该给定场景相关的一音频内容;

与该给定场景相关的一结束字幕信息;或

与该给定的场景相关的一元数据。

34.如权利要求30所述的方法，其中一给定场景形式包括一或多项：

一动作场景；

一慢动作场景；

一标题场景；

一开头场景；

一演职员名单场景；

一头部特写场景；或

一对话场景。