CN101346719B

CN101346719B - 从视频帧中选择关键帧

Info

Publication number: CN101346719B
Application number: CN200680048828.8A
Authority: CN
Inventors: 王好弘; N·玛拉亚斯
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2005-12-23
Filing date: 2006-12-14
Publication date: 2016-04-20
Anticipated expiration: 2026-12-14
Also published as: WO2007120337A2; US20070147504A1; KR20080085182A; JP2009521877A; JP4885982B2; WO2007120337A3; CN101346719A; KR100987365B1; EP1964006A2; US8036263B2

Abstract

本公开描述了从视频帧序列标识关键帧。通过对未经压缩的数据的操作而生成的第一信息集被访问。通过压缩数据生成的第二信息集也被访问。该第一和第二信息集被用于从视频帧标识关键帧。

Description

从视频帧中选择关键帧

背景领域

本发明的实施例涉及视频数据的处理。

背景

通用媒体接入(UMA)被预期在下一代多媒体(例如，视频或音频)应用和设备中起重大作用。UMA的基础概念是通用或无缝地访问多媒体内容，并且该内容在用户与设备交互之后被自动地选择和/或改编成用在用户设备上。

例如，移动电话可用于检索、观看和传送多媒体内容。然而，虽然移动电话的能力持续提升，但是此类设备相对于诸如个人计算机之类功能强大的平台仍多少受到限制。数据传输和检索速率可能也是一个因素。视频数据的量通常被认为多于音频数据的量。

视频摘要技术可用于生成概括了视频帧序列的静止图像情节串(storyboard)。情节串由数目相对较少的具有代表性的帧——也称为关键帧——组成，这些关键帧是提取自由更多数目的帧构成的低层视频序列。视频摘要技术对于UMA是重要的，因为它们可用于概括视频内容以更容易地检索和传输。即，由于关键帧代表与整体视频序列相比要少得多的数据量，因此关键帧可在诸如移动电话之类能力有限的设备之间容易地分发和共享。

有各种不同的视频摘要技术被使用。然而，这些常规技术的每一种在某个方面或某些方面是有问题的。大体上，常规技术的一个问题是它们很复杂，并且会消费相当数量的计算资源以处理大量视频数据。尝试限制复杂度常常意味着可导致对关键帧的较好选择的信息未被考虑。

因此，一种在无需超大量计算资源的情况下可改善关键帧选择的方法和/或系统将是有利的。本文所述的实施例提供了这些以及其它优势。

概述

描述了用于从视频帧序列标识关键帧的方法和系统。在一个实施例中，第一信息集——通过对未经压缩的数据执行操作而生成的——被访问。第二信息集——通过压缩数据生成的——也被访问。该第一和第二信息集被用于标识视频帧中的关键帧。

通常，第一和第二信息集提供了局部相似性(“摘要表示”)、内容偏差覆盖、和视觉质量的量度，它们被组合以构建新颖的成本函数，后者被求解以标识哪些视频帧可用作关键帧。例如，帧中使成本函数的值最小化的子集可用作关键帧。标识关键帧的过程可或者联机(包括实时)或者脱机地执行。

在一个实施例中，以上提到的第一信息集是使用由视频捕捉设备实现的操作——诸如自动白平衡、自动曝光控制和自动焦距控制——生成的。在一个这样的实施例中，第一集中的信息类型包括亮度信息、色度信息和焦距值。在另一个实施例中，以上提及的第二信息集中的信息类型包括运动矢量信息、宏块预测模式信息和畸变信息。除第一和第二信息集之外，与用户和视频捕捉设备的交互相关联的信息也可被考虑。

通过利用根据对原始(未经压缩的)视频数据执行的操作生成以及在视频数据的压缩期间生成的信息，实现是实用的且在复杂度方面是较低的。在阅读了以下在各个附图中图解的详细描述之后，这些以及其它特征、方面和优势将得以更好的理解。

附图简述

图1是用于处理视频数据的设备的一个实施例的框图。

图2是视频摘要系统的一个实施例的功能框图。

图3是示出了视频摘要系统中视频前端的一个实施例中的数据流的框图。

图4是示出了视频摘要系统中视频摘要器(summarizer)的一个实施例的数据流的框图。

图5是可用在视频摘要系统中的有向非循环图的示例。

图6是视频摘要方法的一个实施例的流程图。

图7是视频摘要方法的另一个实施例的流程图。

实施例的详细描述

在以下详细描述中，阐述各个特定细节是为了提供对本发明的实施例的透彻理解。然而，本领域技术人员将认识到，没有这些特定细节或使用其等效方案也可实践这些实施例是显而易见的。在其它实例中，没有详细描述众所周知的方法、程序和组件以免非必要地模糊这些实施例的概念。

本领域技术人员还应当进一步领会，结合本文中所公开的实施例描述的这些不同的说明性逻辑块、模块、电路、和算法步骤可被实现为电子硬件、计算机软件、或两者的组合。为了清晰地说明硬件与软件的这种可互换性，各个示例性组件、板块、模块、电路、和步骤在上面是以其功能集的形式作一般化描述的。这样的功能集是被实现为硬件还是软件取决于具体应用和加诸于整个系统的设计约束。技术人员可针对每个具体应用以不同方式实现所描述的功能集，但是这些实现决策不应当被解释成致使脱离本发明的范围。

结合本文中所公开的实施例所描述的各个说明性逻辑块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件、或其设计成执行本文中所描述的功能的任何组合来实现或执行。通用处理器可以是微处理器，但是在替换方案中，处理器可以是任何常规处理器、控制器、微控制器、或状态机。处理器还可被实现为计算设备的组合，例如，DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其它这样的配置。

结合在此公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在随机访问(易失性)存储器(RAM)、闪存、只读(非易失性)存储器(ROM)、可擦可编程ROM(EPROM)、电可擦可编程ROM(EEPROM)、寄存器、硬盘、可移动盘、压缩盘ROM(CD-ROM)、或本领域中所知的任何其它形式的存储介质中。示例性的存储介质耦合到处理器，以使得该处理器可从/向该存储介质读取和写入信息。在替换方案中，存储介质可整合到该处理器。该处理器和存储介质可驻留在ASIC中。该ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

本文提供的描述和示例是在基于视频的数据(也称为视频数据、媒体数据或者多媒体数据或内容)的上下文中讨论的；然而，可使用其它类型的数据，诸如但不限于基于图像的数据、基于网页的数据、基于图形的数据。

图1是用于处理视频数据的设备10的一个实施例的框图。设备10包括用于实现视频摘要系统的各个实施例的执行平台的组件。如图1中所示，设备10包括经由主机接口11耦合至数字信号处理器DSP15的微处理器12(例如，高级精简指令集计算机或ARM处理器)。主机接口11将在微处理器12与DSP15之间传递的数据和命令转译成其相对应的格式。在本实施例中，微处理器12和DSP15两者皆经由存储器控制器16耦合至存储器17。在图1的示例中，存储器17是共享存储器，因此存储器17为微处理器12和DSP15两者存储指令和数据。在此实施例中，对共享存储器17的访问是通过存储器控制器16。在一个实施例中，共享存储器17也包括用于存储驱动所耦合的显示器18的像素数据的视频帧缓冲器。

如以上所提到的，在一个实施例中，视频摘要系统的某些处理和步骤可被实现为驻留在计算机系统(例如，设备10)的计算机可读存储器(例如，存储器17)内并由设备10的微处理器12和DSP15执行的一系列指令(例如，一个或多个软件程序)。当执行时，这些指令促使设备10实现以下所描述的实施例的功能。在另一个实施例中，某些处理和步骤可在硬件中实现。

图2是可使用图1的设备10实现的视频摘要系统20的一个实施例的功能框图。视频原始(未经压缩的)图像数据序列由结合了设备10的元件的视频捕捉设备(例如，数字摄像机、数码相机等)来捕捉。原始图像数据包括数据帧序列，每个帧实质上代表一静止图像，帧序列表示在回放(显示)时导致运动画面的毗邻图像集。原始图像数据可在由系统20进一步处理之前被存储。如果数据被存储，则处理可在随后脱机地进行。处理也可联机或实时地进行。

参看图2，在本实施例中，原始图像数据序列进入视频前端(VFE)21，后者分析该数据，计算出特定类型的信息(在本文中也称为第一信息集或第一信息)，并将该第一信息集存储在存储元件23中。VFE21的功能和可被纳入第一信息集中的信息类型将在以下结合图3更全面地描述。

图2的VFE21将经处理但仍未压缩的视频数据转发到编码器22，后者压缩(编码)该视频数据。该视频数据可使用诸如但不限于MPEG-1、MPEG-2和MPEG-4的运动图像专家组(MPEG)压缩(编码)方案，以及诸如H.261、H.263和H.264的国际电信联盟(ITU)编码方案。通常，利用时间冗余或运动补偿的编码方案——更具体而言使用运动矢量来提升压缩量(压缩比)的编码方案——可被使用。

由编码器22编码的经压缩的比特流被存储在存储元件25中。尽管示为独立单元，但是这些存储元件23和25可以是同一存储器单元的一部分。在一个实施例中，经压缩的比特流代表如在本领域中称为I帧、P帧和B帧的经压缩的视频帧序列，这些帧的每一个都由相对应的帧索引来标识。

作为压缩处理的一部分，特定类型的信息(在本文中也称为第二信息集或第二信息)由编码器22生成。在一个实施例中，第二信息集连同由VFE21计算出的第一信息集被存储在存储元件23中。在一个实施例中，第二信息集包括诸如但不限于畸变量度信息、宏块预测模式和前述运动矢量信息的信息。各种畸变量度可被使用；一种本领域中已知的畸变量度是“绝对差值和”(SAD)。宏块预测模式可以是“在其间”或“在其内”——宏块间预测依赖于另一宏块的内容并且是使用运动信息从另一宏块导出的；宏块内预测独立于另一宏块的内容并且不包含任何运动信息。第一和第二信息集可统称为辅助信息或提示信息。

总体上，在一个实施例中，摘要器24使用来自存储元件23的辅助信息来构建成本函数，该成本函数被评估以从存储在存储元件25中的视频帧序列选择关键帧。例如，使成本函数最小化的帧的子集可被标识为关键帧。将在以下结合图4更详细地描述成本函数的构建和评估。

继续参照图2，在一个实施例中，摘要器24标识帧中被选择作为关键帧的那些帧的索引；这些索引可在稍后被用于从存储元件25检索关键帧。然而，在另一个实施例中，被选为关键帧的视频帧可被复制并存储；即，关键帧以及从中选择这些帧的整个视频序列皆被冗余地存储。

在一个实施例中，摘要器24在选择关键帧的过程中也考虑用户输入。用户输入可直接由用户输入，或者它们可推断自用户行为。直接用户输入可包括由系统20使用的某些参数的用户专用值，诸如由摘要器24使用的压缩比(例如，关键帧的数目与视频序列中帧的数目的比)；其它类型的直接用户输入将在以下图4的讨论中被提及。推断出的用户输入是从用户与视频捕捉设备交互推导出的输入。例如，用户在一时间段内对主题进行“放大”的动作可以指示该主题为用户所特别感兴趣。在该时间段内捕捉的帧序列，或者也许只是帧序列的起始帧可以某种方式来标识(例如，加标签)，并且这些信息可在随后作为因子纳入本文所描述的关键帧选择过程。

系统20——具体而言为摘要器24——可以脱机模式、联机模式或实时模式操作。在一个实施例中，系统20的操作模式是由用户选择的。

在脱机模式中，摘要器24可对整个视频帧序列考虑辅助信息。在联机或实时模式中，摘要器24可每次仅对视频帧序列的一部分考虑辅助信息。即，例如，在联机或实时模式中，摘要器24首先仅考虑视频帧序列的一部分、从该部分选择一个或数个关键帧、以及在随后刷新该部分。

接着，摘要器24考虑序列的下一部分、在刷新该第二部分之前从其选择一个或数个关键帧、依次类推。脱机处理可标识更多代表整体视频帧序列的关键帧。联机或实时处理可利用比脱机处理少的存储。

当关键帧被标识时，在一个实施例中，标识这些关键帧的帧索引被转发到解码器26，后者从存储器25中检索适当的帧并将它们解压缩。经解压缩的关键帧可在随后发送到多媒体显示处理器(MDP)28以进行显示和/或编辑。在另一个实施例中，标识关键帧的帧索引被转发到代码转换器27，后者从存储器25检索适当的帧并对它们进行代码转换。示例代码转换操作包括比特率缩减、速率修整、空间降采样、和帧速率缩减。通常，代码转换器27采用经压缩的视频比特流作为输入，并对其进行处理以生成另一经压缩的视频比特流作为输出。经代码转换的比特流可在随后被发送到多媒体消息接发服务(MMS)29、被传送到另一设备(例如，另一个移动设备)，后者又将该比特流解码以进行显示和/或编辑。

图3是示出了视频摘要系统(例如，图2的系统20)中VFE21的一个实施例中的数据流的框图。如以上所提及的，VFE21在处理原始或未经压缩的图像数据期间生成第一信息集。在本实施例中，第一信息集是通过由VFE21执行的自动白平衡操作31、自动曝光控制操作32、和自动焦距控制操作33生成。

在一个实施例中，自动白平衡操作31用于确定红、绿和蓝通道上用于补偿白色值中因场景照明色而导致的色移所需增益。在一个此类实施例中，自动白平衡操作31包括像素色彩测定、照明估计和白平衡。根据自动白平衡操作31，为每个视频帧确定色度值(例如，也称为‘U’和‘V’的Cb和Cr)。在一个实施例中，每个帧的色度值被表示为128点柱状图(64点给‘U’以及64点给‘V’)。

在一个实施例中，自动曝光控制操作32包括光测定、场景分析和曝光补偿。在一个此类实施例中，输入图像被分成256个区，并且这些区的每一个被进一步细分成四个子区。对于256个区的每一个，生成区中像素的亮度值的总和、区中最小局部总亮度值、和区中最大绝对Δ局部总亮度值。使用这些信息，每个子区中像素的亮度值的总和被确定。最后，为每个帧确定亮度值(Y)的64点柱形图。而且，也为每个帧生成降采样8×8亮度图像(L)。

在一个实施例中，自动焦距控制操作33包括两个子过程：1)用于确定给定透镜位置的焦距值(F)的过程；以及2)用于基于一系列焦距值确定焦点位置的过程。在一个实施例中，焦距值‘F’是根据亮度值‘Y’使用式(1)来确定的：

F = \underset{i}{Σ} MAX {{[Y (i, j) - Y (i, j + 2)]}^{2} + [Y (i, j) - Y (i + 2, j)]^{2} + {[Y (i, j) - Y (i + 2, j + 2)]}^{2}}, - - - (1)

其中：j＝J*2、J*2+2、J*2+4、…、2*X-2且i＝I*2、I*2+2、I*2+4、I*Z-2，其中‘I’是对半子采样(subsampled-by-two)域中焦距窗口的起始行；‘J’是对半子采样域中焦距窗口的起始列；‘Z’是对半子采样域中焦距窗口的结束行(Z-J≤508)；‘X’是对半子采样域中焦距窗口的结束列(X-J≤508)；并且X-J是偶数。预期较大的‘F’值对应于图像中较低概率的模糊。

图4是示出了视频摘要系统(例如，图2的系统20)中视频摘要器24的一个实施例中的数据流的框图。在以下讨论中，‘N’表示所考虑的视频帧序列中的帧的总数，而‘M’是视频摘要的长度(即，‘M’是关键帧的数目)。通常，在考虑局部表示或相似性、内容偏差和视觉质量的情况下，视频摘要器24标识‘M’个选定帧a_i(i＝1、2、…、M，且a₀＝0)的索引。

如本文中所用的，提供满意的局部表示或相似性的帧是与其毗邻的帧足够相似以在视频摘要中表示它们的那些帧。即，对于给定视频帧序列，表示该序列的关键帧与该序列中的其它帧足够相似以使得仅观看关键帧的用户对序列捕捉到什么主题有一定了解是合需的。在图4的示例中，色彩相似性被用于评估一组毗邻帧的相似性。在同样参照图3的一个实施例中，获得自自动曝光和白平衡过程31、32的‘Y’和‘UV’色彩柱形图被表示为单个192点柱形图‘H’，后者用于使用式(2)和(3)来定义每个帧‘i’(i＝1、2、…、M)的局部表示(A)：

A(i)＝Sim(H_i-1，H_i)，i＝N；或者(2)

A (i) = \frac{Sim (H_{i - 1}, H_{i}) + Sim (H_{i}, H_{i + 1})}{2},

其它；(3)

其中“Sim”是用于比较两个一维矢量的函数，由下式(4)定义如下：

Sim (\overset{&OverBar;}{x}, \overset{&OverBar;}{y}) = \frac{\overset{&OverBar;}{x} \cdot \overset{&OverBar;}{y}}{| | \overset{&OverBar;}{x} | | \cdot | | \overset{&OverBar;}{y} | |} - - - (4)

内容偏差是通过考虑两个连贯帧之间的相似性(更具体地，相异点)来解决的。在图4的示例中，同样参照图3，获得自自动曝光控制和白平衡过程31和32的YUV(YCbCr)信息以及获得自自动曝光控制过程32的降采样8×8亮度图像‘L’用于使用式(5)和(6)来定义两个帧的相似性(B)：

B(i，j)＝0，i＝0；或者(5)

B(i，j)＝γSim(H_i，H_j)+(1-γ)Sim(L_i，L_j)，其它；(6)

其中‘γ’是其值在零与1之间可调整的加权因子。加权因子‘γ’可以是预置值或用户指定输入。

在式(5)和(6)中，考虑亮度的相似性以检测对象在静止或相对稳定的背景上移动的情形。

如本文所用的，提供满意的视觉质量的帧是具有较低模糊(例如，由于视频捕捉设备的移位)并且包括相对于毗邻帧具有较小运动的对象和/或背景的帧。在图4的示例中，同样参照图2和3，帧的视觉质量(C)使用根据自动焦距控制过程33为该帧确定的焦距值‘F’以及由编码器22确定的第二信息集两者来定义，如下：

C (i) = η | | {MV}_{i} | | S_{i}^{2} + (1 - η) (F_{MAX} - F_{i}),

i＝N；或者(7)

C (i) = η \frac{| | {MV}_{i} | | S_{i}^{2} + | | {MV}_{i + 1} | | S_{i + 1}^{2}}{2} + (1 - η) (F_{MAX} - F_{i}),

其它(8)

其中‖MV‖表示该帧的宏块运动矢量的总长度，‘S’是帧中的总宏块SAD，F_MAX是预指定焦距值的上限，而‘η’是其值在零与一之间的可调整加权因子。加权因子‘η’可以是预置值或用户指定输入。

在一个实施例中，关键帧通过标识对应于和较大而

Σ_{i = 1}^{M} B (a_{i - 1}, a_{i})

较小的那些帧、通过如下组合这些项来选择：

最小化

T (a_{1}, a_{2}, . . ., a_{M}) = Σ_{i = 1}^{M} {α [1 - A (a_{i})] + βB (a_{i - 1}, a_{i}) + [1 - α - β] C (a_{i})}, - - - (9)

其中‘α’和‘β’是其值在零与一之间的可调整加权因子。该加权因子‘α’和‘β’可以是预置值或用户指定输入。

式(9)可通过考虑‘M’个关键帧(选自‘N’个帧的序列)的每一种可能的组合以穷举方式来求解以确定哪种组合使‘T’最小化。即，在一个实施例中，使T最小化的那一个‘M’个帧的组合是被选为关键帧的帧集合。

与穷举地求解式(9)不同，基于式(9)的成本函数‘G’可使用式(10)来定义：

G_{k} (a_{k}) = \underset{a_{1}, a_{2}, . . . {, a}_{k - 1}}{Minimize} T (a_{1}, a_{2}, . . ., a_{k}), - - - (10)

这表示直至帧a_k并包括它的最小值求和。根据式(10)：

G_{M} (a_{M}) = \underset{a_{1}, a_{2}, . . . {, a}_{M - 1}}{Minimize} T (a_{1}, a_{2}, . . ., a_{M}),

以及(11)

\underset{a_{M}}{Minimize} G_{M} (a_{M}) = \underset{a_{1}, a_{2}, . . . {, a}_{M}}{Minimize} T (a_{1}, a_{2}, . . ., a_{M}) . - - - (12)

给定成本函数G_k-1(a_k-1)，选择下一帧a_k与对先前帧a₁、a₂、…、a_k-2的选择无关。这种观测被论证，由于成本函数可递归地表达为：

G_{k + 1} (a_{k + 1}) = \underset{a_{k}}{Minimize} {G_{k} (a_{k}) + α [1 - A (a_{k + 1})] + βB (a_{k}, a_{k + 1}) + (1 - α - β) C (a_{k + 1})} - - - (13)

成本函数的递归表示使求解过程进一步的步骤独立于其先前的步骤，这是动态编程的基础。式(13)通过将问题转换成在有向非循环图(DAG)中寻找最短路径的图形理论问题来求解。

图5是可由诸如图2的系统20的视频摘要系统使用的DAG50的示例。在图5的示例中，‘M’为三，而‘N’为五。使用DAG求解图形理论问题的计算复杂度是O(NM²)。

图6是视频摘要方法的一个实施例的流程图60。在一个实施例中，由流程图60描述的方法是由图2和4的视频摘要器24来执行的。流程图60描述的方法的各个方面可被例如用在序列中视频帧的数目‘N’超过存储器容量的情形中，或者用在计算复杂度高出所分配或所允许的能力和处理时间的情况中。通常，流程图60的方法的目的是将视频序列分成多个“镜头(shot)”，并在随后寻找每个镜头中的一个或多个关键帧。本质上，如果‘M’个关键帧是选自‘N’个视频帧序列，则流程60的方法被用于标识多少个帧被纳入每个镜头中，以及多少关键帧被分配给各个镜头中的每一个。每个镜头的帧数目并非必定相同。此外，每个镜头的关键帧数目无需相同。

在图6的框61中，镜头边界被标识。即，例如，要被纳入第一镜头的帧被标识。在一个实施例中，色彩柱形图‘H’被用在式(2)和(3)中以确定两个连贯帧之间的局部相似性‘A’。在这样的一个实施例中，定义并应用一阈值。两个连贯帧之间的镜头边界可在这两个帧之间的相似性无法满足阈值时在随后被标识，藉此指示可能的场景变化。

如果镜头边界的数目超过摘要中的定义长度——即，如果镜头边界的数目大于‘M’——则具有最小局部相似性‘A’的镜头边界被选择，并且与该镜头边界相对应的帧被选为关键帧。否则，每个镜头的关键帧数目被确定，并且流程图60前进到框62。

在框62中，基于运动活动的镜头压缩比使用式(14)来计算：

M_{i} = 1 + \frac{Σ_{j = 1 + Σ_{k = 1}^{i - 1} n_{k}}^{Σ_{k = 1}^{i} n_{k}} (| | {MV}_{j} | | S_{j}^{2})}{Σ_{j = 1}^{n} (| | {MV}_{j} | | S_{j}^{2})} (M - P), - - - (14)

其中‘P’是镜头的总数，‘n_i’是每个镜头的长度(镜头‘i’中帧的数目)，M_i是镜头‘i’中关键帧的数目，而‘S’是帧中总宏块SAD。式(14)的使用将导致较多的关键帧被指派给其中视频序列包含较多运动和活动的镜头，而较少的关键帧被指派给具有较少运动和活动的镜头。

在框63中，为镜头选择一个或多个关键帧。在一个实施例中，关键帧是使用以上结合图4描述的技术来选择的。

在图6的框64中，作出关于是否有别的镜头要被考虑的决定。如果要考虑，则流程图60返回到框63；否则，流程图60前进到框65。

在框65中，同样参照图2，标识每个镜头的关键帧的结果如本文先前所述地被从摘要器24输出到解码器26或代码转换器27。

图7是标识关键帧的方法的实施例的流程图70。在框71中，根据对未经压缩图像数据操作而生成的第一信息集被访问。在一个实施例中，并参照图2和3，这些操作由VFE21执行，并且从存储元件23访问第一信息集。在一个实施例中，操作包括自动白平衡31、自动曝光控制32和自动焦距控制33。在一个实施例中，第一信息集包括亮度信息(Y)、色度信息(U，V)和焦距值(F)。

在图7的框72中，通过压缩图像数据生成的第二信息集被访问。在一个实施例中，并参照图2，图像数据由编码器22压缩，并且从存储元件23访问第二信息集。在一个实施例中，第二信息集包括运动矢量信息、宏块预测模式信息和畸变信息。

在图7的框73中，第一信息集和第二信息集被组合以标识一个或多个关键帧。在一个实施例中，并参照图4，关键帧由摘要器24来选择。在一个此类实施例中，摘要器24通过组合每个视频帧的第一值、第二值和第三值来构建成本函数，其中第一值对应于该视频帧与视频帧中其它帧之间相似性(A)的量度，第二值对应于该视频帧与邻接视频帧之间相似性(B)的量度，而第三值(C)对应于该视频帧的视觉质量的量度。在这样的一个实施例中，摘要器24评估成本函数以确定视频帧子集的得分。不同子集可被评估，并且在一个实施例中，使成本函数最小化的视频帧子集被用作关键帧。

在一个实施例中，如结合图6所描述的，视频帧被分割成多个邻接视频帧片段或镜头。在一个此类实施例中，一定数目的关键帧被分配给镜头的每一个。在一个实施例中，关键帧是使用运动矢量信息和畸变信息来分配的。

尽管在图6和7的流程图60和70中描述了具体步骤，但是这些步骤是示例性的。即，各个其它步骤或对流程图60和70中描绘的步骤的变体可被执行。应当领会，流程图60和70中的步骤可以不同于所给出的次序执行，并且流程图60和70中的步骤并非必定要以所示的顺序执行。

总之，描述了使用由例如视频前端和解码器生成的提示信息来选择关键帧的新颖视频摘要技术。在通用框架中考虑摘要表示、内容偏差覆盖和关键帧视觉质量(例如，焦距)。例如，具体特征空间、覆盖色、运动和视觉质量以及可能还包括的用户输入被组合到新颖成本函数中，该函数引导对关键帧的选择。在一个实施例中，成本函数被映射成图形理论问题并使用动态编程来求解。

例如，通过采用视频前端和编码器的输出的优势，技术的复杂度相对较低，因为它无需访问或处理大量原始视频序列数据。同样，该技术适于实时或联机处理以及脱机处理。此外，存储器资源被有效利用和管理。

提供所公开的实施例的先前描述旨在使本领域的任何技术人员皆能够制作或使用本发明。对于本领域的技术人员对这些实施例的各种修改将是显而易见的，并且在此所定义的一般性原理可适用于其它实施例而不会背离本发明的精神实质或范围。因此，本发明无意被限于这里所示的实施例，而应根据与在此所公开的原理和新颖特征相一致的最宽范围来授权。

Claims

1.一种标识多个视频帧中的关键帧的方法，所述方法包括：

访问由对包括所述多个视频帧的未经压缩图像数据的操作而生成的第一信息，其中所述第一信息包括以下至少两者：从自动白平衡获得的亮度信息、从自动曝光控制获得的色度信息和从自动焦距控制获得的焦距值；

访问通过压缩所述图像数据生成的第二信息，其中所述第二信息包括运动矢量信息、宏块预测模式信息、和畸变信息中的至少一者；以及

基于所述第一信息和所述第二信息产生成本函数来标识从所述多个视频帧中选出的关键帧，包括：

通过对于所述多个视频帧的子集中的每个视频帧，组合第一值、第二值和第三值来构建所述成本函数，其中所述第一值对应于该视频帧与所述多个视频帧中其它视频帧之间相似性的量度，所述第二值对应于该视频帧与邻接视频帧之间相似性的量度，而所述第三值对应于该视频帧的视觉质量的量度；

评估所述成本函数以确定所述视频帧子集的得分，其中对所述多个视频帧的不同子集执行所述评估以确定各子集的得分；以及

选择使成本函数最小化的一个视频帧子集，其中所选择的视频帧子集中的视频帧被用作关键帧。

2.如权利要求1所述的方法，其特征在于，所述操作是由有视频能力的相机来执行的，并且涉及自动白平衡、自动曝光控制、和自动焦距控制中的至少一者。

3.如权利要求1所述的方法，其特征在于，所述第一信息包括所述亮度信息、所述色度信息和所述焦距值。

4.如权利要求1所述的方法，其特征在于，所述第二信息包括所述运动矢量信息、所述宏块预测模式信息、和所述畸变信息。

5.如权利要求1所述的方法，其特征在于，还包括使用所述亮度信息和所述色度信息来确定对应于所述多个视频帧之一与其它所选视频帧之间相似性的量度的值。

6.如权利要求1所述的方法，其特征在于，还包括使用所述亮度信息来确定对应于两个连贯视频帧之间相似性的量度的值。

7.如权利要求1所述的方法，其特征在于，还包括使用所述焦距值和所述运动矢量来确定对应于视频帧的视觉质量的量度的值。

8.如权利要求1所述的方法，其特征在于，还包括：

将所述多个视频帧分割成多段邻接视频帧；以及

向所述各段中的每一段分配一定数目个关键帧，其中关键帧的总数不超过规定最大值。

9.如权利要求8所述的方法，其特征在于，所述分配是使用选自运动矢量信息和畸变信息中的至少一者的信息来执行的。

10.一种用于标识多个视频帧中的关键帧的设备，包括：

用于访问由对包括所述多个视频帧的未经压缩图像数据的操作而生成的第一信息的装置，其中所述第一信息包括以下至少两者：从自动白平衡获得的亮度信息、从自动曝光控制获得的色度信息和从自动焦距控制获得的焦距值；

用于访问通过压缩所述图像数据生成的第二信息的装置，其中所述第二信息包括运动矢量信息、宏块预测模式信息、和畸变信息中的至少一者；以及

用于基于所述第一信息和所述第二信息产生成本函数来标识从所述多个视频帧中选出的关键帧的装置，包括：

用于通过对于所述多个视频帧的子集中的每个视频帧，组合第一值、第二值和第三值来构建所述成本函数的装置，其中所述第一值对应于该视频帧与所述多个视频帧中其它视频帧之间相似性的量度，所述第二值对应于该视频帧与邻接视频帧之间相似性的量度，而所述第三值对应于该视频帧的视觉质量的量度；

用于评估所述成本函数以确定所述视频帧子集的得分的装置，其中对所述多个视频帧的不同子集执行所述评估以确定各子集的得分；以及

用于选择使成本函数最小化的一个视频帧子集的装置，其中所选择的视频帧子集中的视频帧被用作关键帧。

11.如权利要求10所述的设备，其特征在于，所述操作是由有视频能力的相机来执行的，并且涉及自动白平衡、自动曝光控制、和自动焦距控制中的至少一者。

12.如权利要求10所述的设备，其特征在于，所述第一信息包括所述亮度信息、所述色度信息、和所述焦距值。

13.如权利要求10所述的设备，其特征在于，所述第二信息包括所述运动矢量信息、所述宏块预测模式信息、和所述畸变信息。

14.一种用于处理视频数据的设备，包括：

视频前端，用于对包括多个视频帧的未经压缩图像数据进行操作以生成第一信息，其中所述第一信息包括以下至少两者：从自动白平衡获得的亮度信息、从自动曝光控制获得的色度信息和从自动焦距控制获得的焦距值；

编码器，它被耦合至所述视频前端以用于压缩所述图像数据并生成第二信息，其中所述第二信息包括运动矢量信息、宏块预测模式信息、和畸变信息中的至少一者；

存储器，它被耦合至所述视频前端和所述编码器以用于存储所述第一信息和所述第二信息；以及

微处理器，它被耦合至所述存储器以用于实现用于标识所述多个视频帧中的关键帧的方法，所述微处理器配置为：

访问所述第一信息；

访问所述第二信息；以及

15.如权利要求14所述的设备，其特征在于，所述操作包括自动白平衡、自动曝光控制、和自动焦距控制中的至少一者。

16.如权利要求14所述的设备，其特征在于，所述第一信息包括所述亮度信息、所述色度信息、和所述焦距值。

17.如权利要求14所述的设备，其特征在于，所述第二信息包括所述运动矢量信息、所述宏块预测模式信息、和所述畸变信息。

18.如权利要求14所述的设备，其特征在于，所述微处理器还配置为使用所述亮度信息和所述色度信息来确定对应于所述多个视频帧之一与其它所选视频帧之间相似性的量度的值。

19.如权利要求14所述的设备，其特征在于，所述微处理器还配置为使用所述亮度信息来确定对应于两个连贯视频帧之间相似性的量度的值。

20.如权利要求14所述的设备，其特征在于，所述微处理器还配置为使用所述焦距值和所述运动矢量来确定对应于视频帧的视觉质量的量度的值。

21.如权利要求14所述的设备，其特征在于，所述微处理器还配置为：

将所述多个视频帧分割成多段邻接视频帧；以及

向所述各段中的每一段分配一定数目的关键帧，其中关键帧的总数不超过规定最大值。

22.如权利要求21所述的设备，其特征在于，所述分配是使用所述运动矢量信息和所述畸变信息中的至少一者来执行的。