CN102906745A

CN102906745A - 使用选择准则确定关键视频片段以形成视频概要

Info

Publication number: CN102906745A
Application number: CN2011800254835A
Authority: CN
Inventors: 阿伦·托马斯·迪弗
Original assignee: Eastman Kodak Co
Current assignee: Mau new gate Venture Capital Co., Ltd.
Priority date: 2010-05-25
Filing date: 2011-05-10
Publication date: 2013-01-30
Anticipated expiration: 2031-05-10
Also published as: WO2011149648A2; WO2011149648A3; JP5768126B2; CN102906745B; EP2577506A2; US8605221B2; US20110293250A1; JP2013531843A

Abstract

一种用于形成用于具有视频帧时间序列的数字视频的视频概要的方法，该方法包括使用处理器来执行以下步骤：确定用于数字视频的一组关键视频帧；响应于预定准则对关键视频帧进行排名；根据预定的一组准则形成对应于一个或多个最高排名关键视频帧的关键视频片段，所述预定的一组准则包括指定用于视频概要的总持续时间的准则和指定用于每个关键视频片段的最小持续时间的准则；汇集关键视频片段以形成视频概要；以及将视频概要的表示存储在处理器可存取存储器中。

Description

使用选择准则确定关键视频片段以形成视频概要

技术领域

本发明涉及数字视频处理领域，更具体地涉及一种用于选择关键视频帧并且形成视频概要的方法。

背景技术

许多数字捕捉装置能够捕捉视频以及静止图像。然而，管理数字视频内容可能是困难的任务。视频常常在视觉上用视频的第一帧的缩略图图像来表示。这可能不提供对视频的内容的许多深入了解。确定具体的事件是否包含在所给出的视频中常常需要观看整个视频。对于冗长的视频，用户可能更喜欢能够得到视频的快速概要而不必要观看视频的全部内容。

从共享的观点来看，数字视频也可能呈现实际的问题。许多数字捕捉装置以每秒30或60帧、以高达1920×1080像素的空间分辨率来记录视频。即使在被压缩的情况下，所产生的数据的量也可能使得共享甚至相对短的视频是不切实际的。

视频编辑软件可以用于将视频人工地概括成能够更容易地被共享的较短的版本。然而，人工视频编辑可能是冗长的、费力的过程，而且许多用户对人工编辑不感兴趣。还存在自动视频概括算法。这些方案开始于作为输入的捕捉到的视频，并对该视频进行分析以确定视频概要。然而，这样的算法非常复杂，因为必须对该视频进行解码来执行确定视频概要所需要的分析。因而，不可能在数字捕捉装置上立即观看对应于刚捕捉到的视频的视频概要。这个缺点使得难以便利于快速回顾和共享捕捉到的视频。

因而，期望提供用于在数字捕捉装置中计算视频概要的系统和方法。具体地，期望提供允许在视频捕捉完成时以最小延迟在数字捕捉装置上产生视频概要的方案。

发明内容

本发明提供了一种用于形成用于具有视频帧时间序列的数字视频的视频概要的方法，该方法包括使用处理器来执行以下步骤：

a）确定用于数字视频的一组关键视频帧；

b）响应于预定准则对关键视频帧进行排名；

c）根据预定的一组准则形成对应于一个或多个最高排名关键视频帧的关键视频片段，所述预定的一组准则包括指定用于视频概要的总持续时间的准则和指定用于每个关键视频片段的最小持续时间的准则；

d）汇集关键视频片段以形成视频概要；以及

e）将视频概要的表示存储在处理器可存取存储器中。

本发明具有下述优点：本发明提供了一种用于形成由高重要性关键视频片段的序列构成的视频概要的方法。

本发明具有下述另一个优点：视频概要是根据指定的总持续时间准则和最小视频片段持续时间准则来提供的。

本发明具有下述又一个优点：音频分析被用于选择用于与低水平音频活动对应的视频片段的开始时间和结束时间。还提供另外的准则来劝阻具有相似内容的关键视频片段的形成并且避免提供被分开小的时间间隔的关键视频片段。

附图说明

图1是示出根据本发明的实施方式的用于形成视频概要的系统的部件的高级图；

图2是根据本发明的实施方式的用于确定用于数字视频序列的关键视频帧的方法的流程图；

图3是根据本发明的实施方式的用于将视频帧分类的方法的流程图；

图4示出被划分成一组相等的数字视频间隔的数字视频序列；

图5示出图4所示的数字视频序列的扭曲（warped）时间表示；

图6示出将扭曲时间表示细分成相等时间间隔的细分；

图7示出图6的时间间隔相对于图4的原始数字视频序列的对应位置；

图8是根据本发明的实施方式的用于形成视频概要的方法的流程图；

图9是根据本发明的实施方式的用于确定最高排名关键视频帧的方法的流程图；

图10和图11示出固定位置直方图；

图12示出图11中所给出的固定位置直方图的数字表示；

图13示出对于确定最高排名关键视频帧有用的排名处理的例子；

图14示出根据一个实施方式的关键视频片段的形成；以及

图15示出根据另一个实施方式的关键视频片段的形成。

具体实施方式

在以下描述中，将从通常作为软件程序来实施的方面对本发明的优选实施方式进行描述。本领域技术人员将容易认识到：这种软件的等效替换还可以构造在硬件中。因为图像处理算法和系统是公知的，所以本发明的描述将具体地涉及形成根据本发明的系统和方法的一部分的或与根据本发明的系统和方法更直接配合的算法和系统。用于产生并且以其他方式处理随其具有的图像信号的这样的算法和系统以及硬件或软件的在本文中没有具体示出或描述的其他方面可以从本领域已知的这样的系统、算法、部件和元件中选择。给出如在以下材料中根据本发明所描述的系统，对于本发明的实施有用的在本文中未具体示出、建议或描述的软件是常规的并且在这样的技术领域技术人员的范围内。

此外，如本文中所使用的这样，用于执行本发明的方法的计算机程序可以存储在计算机可读存储介质中，所述计算机可读存储介质可以包括例如：磁存储介质如磁盘（比如硬驱动器或软盘）或磁带；光学存储介质如光盘、光带或机器可读条形码；固态电子存储装置如随机存取存储器（RAM）或只读存储器（ROM）；或者用于存储具有用于控制一台或更多台计算机来实施根据本发明的方法的指令的计算机程序的任何其他物理装置或介质。

本发明包括本文中所描述的实施方式的组合。提及“具体的实施方式”等指的是存在于本发明的至少一个实施方式之中的特征。单独地提及“实施方式”或“具体的实施方式”等未必指的是同样的一个或多个实施方式；然而，这样的实施方式不互相排斥，除非如此指示出或对本领域技术人员来说是显然明显的。在提及“方法”等中单数或复数的使用不受限制。应该注意的是：除非不另外明确地提出或上下文所需，“或”字以非排他的意思用在本公开内容中。

因为采用成像装置及相关电路来进行信号捕捉和处理以及显示的数字相机是公知的，所以本描述将尤其涉及形成根据本发明的方法和设备的一部分的或与根据本发明的方法和设备更直接配合的元件。本文中未具体示出或描述的元件选择自根据本领域已知的元件。实施方式的待描述的某些方面设置在软件中。给出如在以下材料中根据本发明所示出和描述的系统，对于本发明的实施有用的在本文中未具体示出、描述或建议的软件是常规的并且在这样的技术领域技术人员的范围内。

对数字相机的以下描述对本领域技术人员来说将是熟悉的。将明显的是：存在许多本实施方式的变化，所述本实施方式的变化是合理的并且被选择以减少成本、增加特征或提高相机的性能。

图1描绘了数字摄影系统的框图，所述数字摄影系统包括能够根据本发明捕捉视频图像的数字相机10。优选地，数字相机10是便携式电池操作的装置，足够小以使用户在捕捉和回顾图像时容易地手持。数字相机10产生通过使用图像存储器30被存储为数字图像文件的数字图像。本文中所使用的短语“数字图像”或“数字图像文件”指的是任何数字图像文件，例如数字静止图像或数字视频文件。

在一些实施方式中，数字相机10捕捉运动视频图像和静止图像二者。在其他实施方式中，数字相机10是仅捕捉运动视频图像的数字视频相机。数字相机10还可以包括其他功能，包括但不限于下述功能：数字音乐播放器（例如MP3播放器）、移动电话、GPS接收器或可编程数字助理（PDA）。

数字相机10包括具有可调整光圈和可调整快门6的镜头4。在优选实施方式中，镜头4是变焦镜头并且由变焦和聚焦电动机驱动器8控制。镜头4将来自场景（未示出）的光聚焦到图像传感器14例如单片彩色CCD或CMOS图像传感器上。镜头4是用于将场景的图像形成在图像传感器14上的一种典型的光学系统。在其他实施方式中，光学系统可以使用具有可变的或固定的聚焦的固定焦距镜头。

图像传感器14的输出通过模拟信号处理器（ASP）和模拟数字（A/D）转换器16转换成数字形式并且暂时存储在缓冲存储器18中。存储在缓冲存储器18中的图像数据随后由处理器20通过使用存储在固件存储器28中的嵌入式软件程序（例如固件）来处理。在一些实施方式中，通过使用只读存储器（ROM）将软件程序永久地存储在固件存储器28中。在其他实施方式中，可以通过使用例如闪存EPROM存储器来修改固件存储器28。在这样的实施方式中，外部装置可以使用有线接口38或无线调制解调器50来更新存储在固件存储器28中的软件程序。在这样的实施方式中，固件存储器28还可以用于存储图像传感器校准数据、用户设置选择和在关闭相机时必须保存的其他数据。在一些实施方式中，处理器20包括程序存储器（未示出），并且在由处理器20运行之前将存储在固件存储器28中的软件程序复制到程序存储器中。

要理解的是：可以通过使用单个可编程处理器或者通过使用多个可编程处理器来设置处理器20的功能，所述可编程处理器包括一个或多个数字信号处理器（DSP）装置。可替选地，可以通过常规电路系统（例如通过为了在数字相机中使用而专门设计的一个或多个常规集成电路（IC）），或者通过一个或多个可编程处理器与常规电路的组合来提供处理器20。将要理解的是：处理器20与图1中所示的一些或所有各种部件之间的连接器可以使用普通数据总线来制成。例如，在一些实施方式中处理器20、缓冲存储器18、图像存储器30与固件存储器28之间的连接可以使用普通数据总线来制成。

然后，使用图像存储器30来存储经处理的图像。理解的是：图像存储器30可以是本领域技术人员已知的任何形式的存储器，包括但不限于可移动闪存存储器卡、内部闪存存储器芯片、磁存储器或光学存储器。在一些实施方式中，图像存储器30可以包括内部闪存存储器芯片和对可移动闪存存储器卡例如安全数字（SD）卡的标准接口二者。可替选地，可以使用不同的存储器卡格式，例如微SD卡、紧凑式闪存（CF）卡、多介质卡（MMC）、xD卡或记忆棒。

图像传感器14由时序发生器12控制，所述时序发生器12产生各种时钟控制信号以选择行和像素并且使ASP和A/D转换器16的工作同步。图像传感器14可以具有例如12.4兆像素（4088×3040像素）以提供约4000×3000像素的静止图像文件。为了提供彩色图像，图像传感器通常覆盖有彩色滤光器阵列，这提供具有包括不同的有色像素的像素阵列的图像传感器。不同的彩色像素可以以许多不同的图案来布置。作为一个例子，不同的彩色像素可以使用Bayer的共同转让的美国专利3,971,065“Colorimaging array”中所描述的公知的Bayer彩色滤光器阵列来布置，该专利的公开内容通过引用而合并在本文中。作为第二例子，可以布置Compton和Hamilton的2007年7月28日提交的共同转让的名称为“Image sensorwith improved light sensitivity”的美国专利申请公布2005/191729中所描述的不同的彩色像素，该专利的公开内容通过引用而合并在本文中。这些例子不是限制性的，并且可以使用许多其他彩色图案。

将理解的是：图像传感器14、时序发生器12以及ASP和A/D转换器16可以是分立制造的集成电路，或者它们可以被制造成单个集成电路，就如同CMOS图像传感器通常所实现的那样。在一些实施方式中，该单个集成电路可以执行图1中所示的其他功能中的一些功能，包括由处理器20所提供的一些功能。

当时序发生器12以第一模式致动图像传感器14时，图像传感器14对提供较低分辨率传感器图像数据的运动序列有效，在捕捉视频图像时以及还在预览待捕捉的静止图像时使用所述较低分辨率传感器图像数据的运动序列以构成图像。该预览模式传感器图像数据可以被设置为例如具有1280×720像素的HD分辨率图像数据或者例如具有640×480像素的VGA分辨率图像数据，或者使用相比于图像传感器的分辨率具有显著较少的列和行的数据的其他分辨率。

可以通过组合具有相同颜色的相邻像素的值、或通过除去一些像素值、或通过组合一些彩色像素值同时除去其他彩色像素值来提供预览模式传感器图像数据。可以如共同转让的Parulski等人的名称为“Electroniccamera for initiating capture of still images while previewing motionimages”的美国专利6,292,218中所描述的那样处理预览模式传感器图像数据，该专利通过引用而合并在本文中。

当时序发生器12以第二模式致动图像传感器14时，图像传感器14又对提供高分辨率静止图像数据有效。该最后模式传感器图像数据被设置为针对具有高照度水平的场景包括图像传感器的所有像素的高分辨率输出图像数据，并且可以为例如具有4000×3000像素的12兆像素最后图像数据。在较低照度水平下，可以在通过对图像传感器上的一些数目的伪彩色像素来提供最后图像数据进行“面元划分（binning）”，以提高信号电平并且因而提高传感器的“ISO速率”。

通过由处理器20所供给的控制信号来控制变焦和聚焦电动机驱动器8，从而提供适当的焦距设置并且将场景聚焦到图像传感器14上。图像传感器14的曝光水平是通过控制可调整光圈和可调整快门6的光圈数（f/number）和曝光时间、通过经由时序发生器12控制图像传感器14的曝光周期以及通过控制ASP和A/D转换器16的增益（即ISO速率）设置来控制的。处理器20还控制可以照亮场景的闪光灯2。

数字相机10的镜头4通过使用“穿过镜头（through-the-lens）”自动聚焦来以第一模式聚焦，如共同转让的Parulski等人的名称为“ElectronicCamera with Rapid Automatic Focus of an Image upon a ProgressiveScan Image Sensor”的美国专利5,668,597中所描述的那样，该专利通过引用而合并在本文中。这通过使用变焦和聚焦电动机驱动器8将镜头4的焦点位置调整到范围在近焦点位置与无穷大焦点位置之间的一定数目的位置来实现，、同时处理器20确定对通过图像传感器14捕捉到的图像的中心部分提供了峰锐度值的最靠近的焦点位置。然后，对应于最靠近的焦点位置的焦点距离可以用于几个目的例如自动设置适当的场景模式并且可以同其他镜头和相机设置一起被存储在图像文件中作为元数据。

处理器20产生菜单以及暂时存储在显示存储器36中并且显示在图像显示器32上的低分辨率彩色图像。图像显示器32通常是有源矩阵彩色液晶显示器（LCD），尽管可以使用其他类型的显示器例如有机发光二极管（OLED）显示器。视频接口44将视频输出信号从数字相机10提供至视频显示器46例如平板HDTV显示器。在预览模式下或者视频模式下，来自缓冲存储器18的数字图像数据由处理器20处理以形成通常作为彩色图像而显示在图像显示器32上的一系列运动预览图像。在预览模式下，使用来自存储在图像存储器30中的数字图像文件的图像数据来产生被显示图像显示器32上的图像。

图像显示器32上所显示的图形用户界面是响应于由用户控件34提供的用户输入而被控制的。用户控件34用于选择各种相机模式例如视频捕捉模式、静止捕捉模式和预览模式，并且用于启动对静止图像的捕捉和以及对动态图像的记录。在一些实施方式中，当用户局部地压下作为用户控件34中之一的快门按钮时启动上述第一模式（即静止预览模式），并且当用户完全压下快门按钮时启动第二模式（即静止图像捕捉模式）。用户控件34还用于开启相机、控制镜头4以及启动照片摄取处理。用户控件34通常包括按钮、摇杆开关、操纵杆或旋转式拨盘的某种组合。在一些实施方式中，通过使用覆盖在图像显示器32上的触摸屏来提供用户控件34中的一些用户控件34。在其他实施方式中，可以使用附加状态显示器或图像显示器。

可以使用用户控件34选择的相机模式包括“定时器”模式。在“定时器”模式被选择的情况下，在用户完全按下快门按钮之后在处理器20启动对静止图像的捕捉之前出现短的延迟（例如10秒）。

连接到处理器20的音频编解码器22接收来自麦克风24的音频信号并且将音频信号提供至扬声器26。这些部件可以将音频轨道连同视频序列或静止图像一起记录并且重放。如果数字相机10为多功能装置例如组合相机和移动电话，那么麦克风24和扬声器26可以用于电话会话。

在一些实施方式中，扬声器26可以用作用户界面的一部分例如以提供多种可听见的信号，所述可听见的信号指示用户控制已经被按下或者已经选择了具体的模式。在一些实施方式中，麦克风24、音频编解码器22和处理器20可以用于提供声音识别，以使得用户可以通过使用声音命令而不是用户控件34将用户输入提供至处理器20。扬声器26还可以用于向用户通知来电呼叫。这可以通过使用存储在固件存储器28中的标准铃声或通过使用从无线网络58所下载并且存储在图像存储器30中的常规铃声来实现。另外，振动装置（未示出）可以用于提对来电呼叫的无声的（例如听不见的）通知。

在一些实施方式中，数字相机10还包含提供与相机的运动有关的数据的加速度计27。优选地，加速度计27检测三个正交方向中的每个正交方向的线性加速度和转动加速度二者（针对输入的总共6个维度）。

处理器20还提供对来自图像传感器14的图像数据的附加处理，以在图像存储器30中产生着色的sRGB图像数据，所述着色的sRGB图像数据被压缩并且存储在“完成的”图像文件例如公知的Exif-JPEG图像文件内。

数字相机10可以经由有线接口38连接至接口/再充电器48，所述接口/再充电器48连接至可以为设置在家或办公室的桌上型计算机或便携式计算机的计算机40。有线接口38能够符合例如公知的USB 2.0接口规范。接口/再充电器48可以经由有线接口38将功率提供至数字相机10中的一组可再充电的电池（未示出）。

数字相机10可以包括无线调制解调器50，所述无线调制解调器50在无线电频带52上与无线网络58接口。无线调制解调器50可以使用各种无线接口协议例如公知的蓝牙无线接口或公知的802.11无线接口。计算机40可以经由因特网70将图像上载至相片服务提供商72例如KodakEasyShare Gallery（柯达易分享画廊）。其他装置（未示出）可以存取由相片服务提供商72存储的图像。

在可替选实施方式中，无线调制解调器50在无线电频率（例如无线）链路之上与移动电话网络（未示出）例如3GSM网络通信，所述移动电话网络与因特网70连接以上载来自数字相机10的数字图像文件。可以将这些数字图像文件提供至计算机40或相片服务提供商72。

现在将参考图2对本发明进行描述，图2详述了使用处理器20来确定用于具有视频帧时间序列的数字视频序列200的关键视频帧的方法。初始时，使用分析数字视频步骤210分析数字视频序列200以确定作为时间的函数的重要性值215。形成扭曲时间表示步骤220通过响应于作为时间的函数的重要性值215在时间上重新定位视频帧来形成用于数字视频序列200的扭曲时间表示225。细分扭曲时间表示步骤230将扭曲时间表示225细分成一组相等的时间间隔235。选择关键视频帧步骤240通过分析每个时间间隔235内的视频帧来选择用于每个时间间隔的关键视频帧245。存储关键视频帧的指示步骤250将用于数字视频序列200的关键视频帧245的指示存储在处理器可存取存储器中。

现在将对图2中的步骤进行更详细的描述。分析数字视频步骤210确定作为时间的函数的重要性值215。重要性值215是将数字视频序列200的帧的重要性作为时间的函数来表示的量。优选地，重要性值215是为数字视频序列200的每个帧定义的数值。例如，被确定为具有高重要性的视频帧比如包含脸的视频帧可以被分配相对较高的重要性值215。被确定为具有低重要性的视频帧比如包含快速摇摄运动的视频帧可以被分配相对较低的重要性值215。

本领域技术人员将认识到：存在可关于数字视频序列200中的视频帧而计算的许多特征，可用于确定作为时间的函数的重要性值215。在本发明的优选实施方式中，分析数字视频步骤210包括全局运动分析和局部运动分析。全局运动分析确定通常对应于捕捉装置的运动的全局运动信息，而局部运动分析确定对应于目标在场景内的移动的局部运动信息。

在一些实施方式中，使用提供作为时间的函数的平移偏移信息（水平平移和竖直平移）的双参数的全局运动模型进行全局运动分析。在其他实施方式中，可以使用更复杂的全局运动模型以提供附加信息例如三个正交轴上的转动信息和标度（变焦）信息。

使用提供致密局部运动信息的局部运动模型进行局部运动分析。在一些实施方式中，局部运动模型提供作为时间的函数的每个像素的平移运动值。局部运动模型还提供粗略运动估值，例如提供每个8×8或16×16像素块的平移运动值。在优选实施方式中，局部运动信息提供对发生在视频帧的中心区域中的运动的程度的指示。这可以例如通过对视频帧的被标识为运动区域的一部分的中心区域中的像素的数目进行技术来计算。

在一些实施方式中，在数字视频序列200被捕捉、压缩并且存储在处理器可存取存储器中之后进行全局运动信息和局部运动信息的计算。这需要在可以分析被压缩的数字视频序列之前将压缩的数字图像序列解压缩。在其他实施方式中，先于对数字视频序列200进行压缩在数字视频捕捉处理期间确定全局运动信息和局部运动信息。这缓和为了进行全局运动分析和局部运动分析而解压缩数字视频序列的需要。在此情况下，所计算的全局和局部运动信息可以存储为与数字视频序列200关联的元数据。元数据可以存储在数字视频文件中，或存储为与所存储的数字视频序列关联的单独的文件。在共同转让的共同未决的名称为“Video summary method andsystem”的美国专利申请12/786,483中描述了该方法。

在优选实施方式中，分析数字视频步骤210包括对多个视频帧进行分类的步骤。图3描述关于本发明的优选实施方式的分类处理。由全局运动分析和局部运动分析所确定的全局运动信息310和局部运动信息320分别输入到确定多个视频帧的视频帧分类340的分类器330。在优选实施方式中，为视频帧分配的视频帧分类340包括：变焦、快速摇摄、感兴趣和不活跃。

无论相机在捕捉视频帧时进行放大还是缩小，分类器330将该帧分类为变焦视频帧。可以通过使用包括标度缩放参数的全局运动模型以检测变焦的数字图像分析来检测变焦处理。还可以在捕捉时间通过识别被发送至变焦电动机驱动器8以调整变焦镜头4的信号来检测变焦处理。

只要在视频帧期间发生的平移运动的幅度超过阈值，分类器330就将该视频帧分类为快速摇摄视频帧。对应于快速摇摄运动的各个视频帧通常非常模糊并且因此不是表示数字视频序列的关键视频帧的好的候选。

只要全局平移运动的幅度和变焦运动的幅度以及局部运动的幅度低于指定的阈值，分类器330就将视频帧分类为不活跃视频帧。这种视频帧指示出相对静止的捕捉装置和具有相对小的目标运动的场景。单个关键视频帧常常足以表示数字视频序列的不活跃片段。

缺乏附加类别时，可以将所有剩余视频帧分类为感兴趣的视频帧。感兴趣的视频帧表示最可能包含表示数字视频序列的关键视频帧的好的候选的数字视频序列的片段。

在本发明的优选实施方式中，为每个视频帧分配重要性值215（图2）。可以根据视频帧分类340、通过将不同的视频帧分类340中的每个不同视频帧分类与适当的重要性值关联来确定重要性值215。下面的表格示出用于上述视频帧分类340中的每个视频帧分类的示例重要性值215：

表1：视频帧分类重要性值

视频帧分类	重要性值
		变焦	0.3
快速摇摄	0.2
		不活跃	0.6
感兴趣	1.0

形成扭曲时间表示步骤220（图2）通过响应于作为时间的函数的重要性值215在时间上重新定位视频帧来形成用于数字视频序列的扭曲时间表示225。图4和图5示出根据本发明的一个实施方式的这种扭曲处理。图4示出数字视频序列400，所述数字视频序列400开始于时间单位0并且结束于时间单位100，被划分成每个都是5个时间单位长的相等数字视频间隔410。每个时间单位的绝对值对以下讨论是不重要的，但是作为一个例子，每个时间单位可以表示10毫秒并且每5个时间单位长的数字视频序列段可以表示一个视频帧。在此情况下，每个视频帧为50毫秒，以使得以每秒20个视频帧来捕捉数字视频序列。在其他实施方式中，数字视频间隔410可以包括多个视频帧而不是单个视频帧。

图5表示该数字视频序列200的扭曲时间表示225，其中，响应于基于数字视频帧的对应视频帧类别与数字视频帧相关联的重要性值215而在时间上重新定位每个数字视频帧。将数字视频序列的每一段作为单个视频帧并且使用表1中定义的重要性值，图5示出由用于数字视频序列400的扭曲数字视频间隔510所构成的扭曲时间表示500。在该例子中，视频帧1被分类为“感兴趣”，视频帧2-8被分类为“快速摇摄”，视频帧9-12被分类为“感兴趣”，视频帧13-16被分类为“不活跃”，而视频帧17-20被分类为“感兴趣”。

对于具有5.0个时间单位的时间范围并且具有为“变焦”的视频帧类别和对应的为0.3的重要性值的数字视频间隔410（视频帧），将5.0×0.3=1.5个时间单位的时间范围分配给扭曲数字视频间隔510。类似地，对于具有5.0个时间单位的时间范围并且具有为“快速摇摄”的视频帧类别和对应的为0.2的重要性值的数字视频间隔410，为将5.0×0.2=1.0个时间单位的时间范围分配给扭曲数字视频间隔510；对于具有5.0个时间单位的时间范围并且具有为“不活跃”的视频帧类别和对应的为0.6的重要性值的数字视频间隔410，将5.0×0.6=3.0个时间单位的时间范围分配给扭曲数字视频间隔510；以及对于具有5.0个时间单位的时间范围并且具有为“感兴趣”的视频帧类别和对应的为1.0的重要性值的数字视频间隔410，将5.0×1.0=5.0个时间单位的时间范围分配给扭曲数字视频间隔510。

在优选实施方式中，通过分配较短的时间范围给数字视频的各个部分中具有较低重要性值215的数字视频间隔410并且分配较长的时间范围给数字视频的各个部分中具有较高重要性值215的视频帧来形成扭曲时间表示500。

细分扭曲时间表示步骤230（图2）将扭曲时间表示225细分成一组相等的时间间隔235。图6针对下述情况示出该步骤：其中扭曲时间表示500被细分成一组5个相等的时间间隔520。注意：在扭曲时间表示中，包含在每个相等时间间隔520中的数字视频帧（即扭曲数字视频间隔510）的绝对数目将通常不是常数。

图7示出对应时间间隔420相对于数字视频序列400的原始表示的位置。在该例子中，可以看出：第一时间间隔420包含了比包含在数字视频序列400中的数字视频帧的总数目的40%更多的数目，而第二时间间隔420包含了比包含在数字视频序列400中的数字视频帧的总数目的15%更少的数目。

使用扭曲时间表示225（图2）具有下述优点：其允许从每个时间间隔内以下述方式选择一个关键视频帧，所述方式使得关键视频帧具有遍及整个数字视频序列的宽度、同时偏向于偏好高重要性值的区域。

可以基于例如数字视频序列的扭曲时间表示的总时间范围自动地确定时间间隔235（图2）的数目。可替选地，时间间隔的数目可以是用户指定的。

选择关键视频帧步骤240（图2）通过分析每个时间间隔235内的视频帧来选择用于每个时间间隔235的关键视频帧245。在本发明的优选实施方式中，该分析包括将选择得分分配给每个时间间隔235内的多个视频帧，其中，选择得分是全局运动和局部运动的函数。可以将在时间间隔235内具有最高选择得分的视频帧选择作为用于该时间间隔235的关键视频帧245。

用于压缩数字视频序列的大部分方法涉及将一些视频帧编码为经独立编码的视频帧而将其他视频帧编码为经预测性编码的视频帧。在本发明的一些实施方式中，仅将经独立编码的视频帧认为是每个时间间隔235内的关键视频帧的候选，并且仅针对经独立编码的视频帧计算选择得分。经独立编码的视频帧指的是不对其他视频帧进行任何参考而被编码的视频帧。这种视频帧可以被解码而不需要来自其他视频帧的任何信息。与之相对，经预测性编码的视频帧基于根据一个或多个相邻视频帧的预测而被编码。因此，经预测性编码的视频帧不能被独立地解码，因为这需要知道一个或多个其他视频帧。在许多视频编码方案下，经独立编码的视频帧以高质量被编码，具体地因为经独立编码的视频帧被用作对后续视频帧的预测，并且高质量预测产生对后续视频帧的高效编码。因而，经独立编码的视频帧是关键视频帧245的优选的候选，既因为经独立编码的视频帧通常具有高图像质量并且还因为经独立编码的视频帧可以从经压缩的数字视频序列中被快速解码而不需要对任何附加视频帧进行解码。

关于视频帧的选择得分可以是多个不同输入的函数，所述输入包括全局平移运动、变焦、局部运动和与在前的关键视频帧的近似性。在优选实施方式中，具有对应高的全局平移运动幅度的视频帧被分配以相对低的选择得分，因为高级的全局运动通常在视频帧中产生运动模糊。同样地，接着变焦序列的结束的视频帧基于以下假设被分配以相对高的选择得分，所述假设为用户有意地进行变焦以将注意力聚焦于感兴趣的特别的区域。因此，在变焦结束（许可给捕捉装置一些时间以重距焦）之后不久的视频帧很可能具有高重要性并且是被认为是关键视频帧245的好的候选。具有非常低水平的目标运动的视频帧基于以下假设被分配以相对低的选择得分，所述假设为感兴趣的视频帧很可能包括一些目标活动。与其他关键视频帧245在时间上具有极大的近似性的视频帧基于以下假设被分配以较低的选择得分，所述假设为捕捉到的视频具有高的时间相关性，并且因此在时间上具有极大的近似性的视频帧更可能包括冗余信息。在其中对于每个时间间隔连续地选择关键视频帧的实施方式中，可以相对于在前的关键视频帧度量时间近似性。关于其中以同时考虑所有关键视频帧的选择的共同最优化的方式选择关键视频帧的实施方式，可以相对于在前的关键视频帧和后续的关键视频帧二者度量时间近似性。

在一些实施方式中，关于视频帧的选择得分包括多个部分并且由以下公式给出：

S(n)=GM(n)+LM(n)+Z(n)+P(n) （1）

其中，S(n)为选择得分，GM(n)为全局运动项，LM(n)为局部运动项，Z(n)为变焦项，P(n)为近似性项而n为视频帧。在该公式中，关于选择得分的各个项取可以决于视频帧的特点各自从值0至值1改变。

可以使用本领域中已知的任何方法计算全局运动项（GM）。在一些实施方式中，对于超过阈值T_GM的所有视频帧全局运动幅度值，全局运动项的值为0；对于为0的视频帧全局运动幅度值，全局运动项的值为1；并且对于在0与T_GM之间的视频帧全局运动幅度值，全局运动项的值为从1到0线性地递减的值：

GM (n) = \{\begin{matrix} 1 - x_{GM} (n) / T_{GM}; & x_{GM} (n) \leq T_{GM} \\ 0; & x_{GM} (n) > T_{GM} \end{matrix} - - - (2)

其中，X_GM（n）为视频帧n的全局运动向量的幅度。

可替选地，全局运动项的值可以以非线性的方式例如根据余弦函数从1到0递减：

GM (n) = \{\begin{matrix} \cos (\frac{{πx}_{GM} (n)}{{2 T}_{GM}}); & x_{GM} (n) \leq T_{GM} \\ 0; & x_{GM} (n) > T_{GM} \end{matrix} - - - (3)

在该例子中，余弦函数使全局运动以小的幅度比线性函数更慢地递减。

可以使用本领域中已知的任何方法计算局部运动项（LM）。在一些实施方式中，根据在针对全局运动的计数之后计算两个视频帧之间的差值来度量局部运动。例如，差值可以通过下述方式被计算：使用全局运动向量对视频帧中的一个视频帧进行移位，计算所移位的视频帧的交叠像素之间的像素差并且然后计算平均像素差以提供视频帧局部运动值。较大的视频帧局部运动值通常提示较大的局部运动量，尽管其他情况例如照明的变化也可以导致在视频帧之间的大的差。

在优选实施方式中，LM项偏向于优选选择具有中等水平的局部运动的视频帧。例如，可以使用其中针对在时间间隔内的所有视频帧局部运动值的平均值处的视频帧局部运动值来说LM项的值为1的函数。随着局部运动变小，在视频帧局部运动值为0处LM值线性减小至值0.9。随着局部运动增加，在时间间隔中在最大视频帧局部运动值处LM值线性减小至值0.8。在公式形式中，这可以表示为：

LM (n) = \{\begin{matrix} 0.9 + 0.1 (x_{LM} (n) / \overset{&OverBar;}{x_{LM}}); & x_{LM} (n) \leq \overset{&OverBar;}{x_{LM}} \\ 1.0 - 0.2 (\frac{x_{LM} (n) - \overset{&OverBar;}{x_{LM}}}{x_{LM, \max} - \overset{&OverBar;}{x_{LM}}}); & \overset{&OverBar;}{x_{LM}} < x_{LM} (n) > x_{LM, \max} \end{matrix} - - - (4)

其中，x_LM(n)为关于视频帧n的视频帧局部运动值，

为关于在时间间隔内的视频帧的所有视频帧局部运动值的平均值，而x_LM.max为关于在时间间隔内的所有视频帧的最大视频帧局部运动值。

在可替选实施方式中，可以通过在针对全局运动计数之后计算两个视频帧中对应像素之间的局部运动向量来确定局部运动项。然后可以针对每个视频帧确定局部运动向量的平均幅度并且用作视频帧局部运动值。

可以使用本领域中已知的任何方法计算变焦项（Z）。在一些实施方式中，对于其中变焦动作正在进行或刚完成（并且装置还没有足够的时间重聚焦）的视频帧来说变焦项的值为0，对于紧接着变焦动作的两秒（在装置重聚焦的允许时间之后）来说变焦项的值为1，以及对于所有其他视频帧来说变焦项的值为0.5。

可以使用本领域中已知的任何方法计算近似性项（P）。在一些实施方式中，只要视频帧与在前的关键视频帧分开至少两秒，那么近似性项的值为1，并且随着距在前的关键视频帧的距离减小至0，近似性项的值线性减小至0。

本领域技术人员将认识到：对于通过响应于全局运动特征和局部运动特征确定选择得分来选择关键视频帧245的以上描述仅仅表示一个可能的实施方式。可以根据本发明使用本领域已知的任何其他的从时间间隔235内选择关键视频帧245的方法来选择关键视频帧245。

存储关键视频帧的指示步骤250将关键视频帧245的指示存储在处理器可存取存储器中。在本发明的一些实施方式中，关键视频帧245可以提取为单独视频帧。然后可以将单独视频帧压缩并存储在单独数字图像文件例如公知的Exif-JPEG图像文件内。将关键视频帧存储为单独的数字图像文件的优点是：它们可由任何标准图像阅读器立即存取。

在本发明的其他实施方式中，可以通过存储与数字视频序列200关联的元数据来指示关键视频帧。元数据可以是已经被标识为关键视频帧245的一列视频帧。“智能”视频阅读器可以解译与数字视频关联的元数据并且因此提取关键视频帧245。将关键视频帧245的指示存储为包含一列帧的元数据的优点是：指示关键视频帧所需的唯一附加存储器是一列帧元数据，这需要相对小的存储量。

在本发明的其他实施方式中，可以通过将视频帧缩略图图像存储为与数字视频关联的元数据来指示关键视频帧。视频帧缩略图图像是关键视频帧的低分辨率版本。将关键视频帧存储为与数字视频关联的视频帧缩略图图像的优点是：可以比从数字视频提取关键视频帧更快速地从元数据提取关键视频帧。

在本发明的一些实施方式中，用于确定关键视频帧的方法表示用于形成视频概要的处理的一部分。图8示出根据本发明的一个实施方式形成视频概要的方法的步骤。如先前参考图2所描述的那样进行分析数字视频步骤210、形成扭曲时间表示步骤220、细分扭曲时间表示步骤230、选择关键视频帧步骤240和存储关键视频帧的指示步骤250。随后，确定最高排名关键视频帧步骤260根据指定准则对关键视频帧245进行排名以确定一组最高排名关键视频帧265。形成关键视频片段步骤270形成对应于最高排名关键视频帧265的关键视频片段275。形成视频概要步骤280汇集关键视频片段275以形成视频概要285。存储视频概要表示步骤290将视频概要285的表示存储在处理器可存取存储器中。

下面更详细地描述与确定最高排名关键视频帧260、形成关键视频片段步骤270以及形成视频概要步骤280相关联的方法。存储视频概要表示步骤290可以使用本领域已知的任何方法，例如在共同转让的共同未决的名称为“Video summary method and system”的美国专利申请12/786,483中所描述的那些方法，所述专利申请通过引用而合并在本文中。这些方法中之一包括解压至少一部分存储的数字视频以提取对应于视频概要的视频帧，并且压缩所提取的视频帧以形成压缩的视频概要，该压缩的视频概要然后存储在处理器可存取存储器中。这些方法中的另一个方法包括生成提供对数字视频序列中的对应于视频概要的视频帧的指示的元数据，并且其中，与存储的数字视频关联地存储元数据。任选地，能够用于在关键视频片段之间过渡的多种过渡效果的指示也可以存储为与数字视频序列关联的元数据。

图9示出根据本发明的一个实施方式确定最高排名关键视频帧260的附加细节。分析数字视频步骤910分析数字视频以确定相机固定图案915。对关键视频帧进行排名步骤920响应于相机固定图案915确定用于数字视频的最高排名关键视频帧265。

分析数字视频步骤910分析数字视频以确定相机固定图案915。相机固定图案915表示在整个视频捕捉过程中作为时间的函数而被捕捉到的图像场景的区域。在优选实施方式中，通过分析全局相机运动来确定相机固定图案915。静止的相机一直观察图像场景的同一部分，并且具有被表示为单点的相机固定图案915。另一方面，用于移动的相机的相机固定图案915将对应于表示相机的运动的运动轨迹。

图10示出表示包括一些摇摄运动的数字视频序列200的相机固定图案915（图9）的固定位置直方图930。通过分析视频捕捉的全局平移运动来确定运动轨迹925。视频捕捉处理从开始于在任意位置处开始的运动轨迹。例如，可以定义视频捕捉开始于二维平面上的坐标原点（0，0）。（在图10中给出的例子中，视频捕捉开始于约200的水平轴值和约10的竖直轴值。）然后，通过确定在连续视频帧之间的像素偏移来表征全局平移运动。通过跟踪遍及整个视频捕捉的累积像素偏移来确定运动轨迹925。

在一些实施方式中，使用相机固定位置的直方图来表示运动轨迹925。对于固定在特定相机固定位置处的每个视频帧，用于该相机固定位置的直方图的段增加一。图10中的相机固定直方图930是相机固定位置的这种直方图的表示。特定位置处的较高的图像强度值是对固定在给定位置处较大数目的视频帧的指示。可以看出：在捕捉期间既竖直地又水平地摇动相机，存在其中相机固定保持相对恒定的一些间隔。

在本发明的一些实施方式中，将相机固定图案空间上量化成像素区域。图10中所用的量化因数为10像素。也就是说，直方图中的每个段（图10中一个单位竖直或水平的每个偏移）具有10像素的宽度。关于在给定的方向上10像素的每个全局平移运动，固定位置在那个方向上移动到下一个直方图中的段。

通过增大量化因数，可以将相机固定直方图减少至较小数目的段。图11示出对其使用为240的量化因数的对应于如图10中的相同的视频捕捉的固定位置直方图940。这减少了表示固定图案所需的直方图段的总数目。此外，给出将更少被相机颤抖和微小移动所影响的固定区域的更集中的表示，所述相机颤抖和微小移动可以改变针对小的量化因数的直方图段。从图11的检查可以看出：在数字视频序列的过程中存在四个主要的相机固定区域。

图12是图11中给出的固定位置直方图940的数字表示。数字表示指示整个视频捕捉中的对应于固定位置直方图940中所给出的段的视频帧的数目。四个主要的相机固定区域全都具有大于200个固定在那个区域的视频帧，而剩余的短时间的区域各自全都具有小于100个视频帧。在本发明的优选实施方式中，相机固定图案的每个区域具有作为该区域中视频帧的数目的函数的相关联的固定值。

在图12的数字表示中，将直方图值给出为每个区域中视频帧的绝对数目。可替选地，可以借助于标度因数来标度直方图值。例如，可以借助于视频捕捉中视频帧的总数目将直方图值归一化。

通常，相机固定在其上的图像场景的区域指示视频捕捉中的感兴趣区域。因而，对应于高固定的区域的视频帧是关于关键视频帧的好的候选。

在本发明的优选实施方式中，如参考图10-12所描述的那样借助于全局运动分析来确定相机固定图案。在可替选实施方式中，相机固定图案还可以计及变焦。一种用于处理变焦的方法是通过定义三维运动轨迹，其中运动轨迹的两个轴与全局平移运动（水平的和竖直的）对应，而动轨迹的第三个轴与变焦放大倍率对应。在其他实施方式中，相机固定图案还可以计及相机转动。

在一些实施方式中，通过分析来自加速度计27（图1）的数据来确定全局运动信息。可以将加速度计数据转换成以像素为单位的平移运动。在本发明的其他实施方式中，使用数字运动估计来确定全局运动信息。本领域技术人员将认识到：存在许多公知的用于计算在一对数字图像之间的全局平移运动估计的方法。

优选地，用于确定相机固定图案直方图的量化因数是视频捕捉的分辨率的函数。在一个有代表性的实施方式中，量化因数等于视频帧的分辨率的一半。关于具有640列和480行的VGA视频，这对应于水平方向上为320的量化因数和竖直方向上为240的量化因数。

图10和11中所示的运动轨迹不包含时间信息。也就是说，虽然存在遍及视频捕捉的全部的相机固定区域的指示，但是不存其在在视频捕捉过程中何时出现的指示。在本发明的一些实施方式中，保留时间信息并且运动轨迹指示作为时间的函数的相机固定位置。

返回至对图9的讨论，优选地如参考图12先前所描述的那样确定关键视频帧245。可替选地，可以使用本领域已知的任何方法来确定关键视频帧245。对关键视频帧进行排名步骤920响应于相机固定图案915对关键视频帧245进行排名。在优选实施方式中，针对每个关键视频帧确定对应的相机固定图案区域。可以基于在特定关键视频帧的捕捉时间时全局平移运动轨迹的位置来确定用于特定关键视频帧的相机固定图案区域。然后，针对每个关键视频帧、根据用于数字视频序列的固定位置直方图来确定对应的固定值。优选地，初始时，通过固定值对关键视频帧进行排名。具有最高固定值的关键视频帧是最高初始排名的关键视频帧。

附加排名量度也可以用于对关键视频帧进行排名。在本发明的一些实施方式中，这些附加排名量度与固定值配合工作以提供初始排名。在本发明的其他实施方式中，附加排名量度是次级排名量度，并且用于断开具有等价固定值的所有关键视频帧之间的联系。用于对关键视频帧进行排名的附加排名量度的一个例子是如先前关于图2中的选择关键视频帧步骤240所描述的那样分配给每个帧的选择得分。

在本发明的优选实施方式中，迭代地确定关键视频帧的排名。在第一迭代中，确定最高排名关键视频帧。这可以通过基于固定值和附加排名量度选择具有最高排名的关键视频帧来确定。

在选择了最高排名关键视频帧之后，每个后续的迭代涉及对剩余的关键视频帧进行重新排名并且选择最高排名的剩余的关键视频帧。在本发明的优选实施方式中，在确定了最高排名关键视频帧之后，随后通过冗余度对关键视频帧进行重新排名。冗余度与对应于单个固定区域的多个关键视频帧对应。为了对关键视频帧进行排名以使得在单个固定区域被多次表示之前所有不同的固定区域都在经排名的关键视频帧列表中被表示，在每次迭代时对关键视频帧进行重新排名以偏好还未在经排名的关键视频帧列表中表示过的区域。

图13示出该排名和重新排名处理的例子。选择四个关键视频帧以表示特定数字视频序列。关键视频帧1对应于相机固定区域3，其具有对应固定值0.4。基于固定值和附加得分量度，关键视频帧1还具有初始排名得分80。类似地，关键视频帧2具有对应相机固定区域6、固定值0.2和初始排名得分70。关键视频帧3具有对应相机固定区域3、固定值0.4和初始排名得分90。关键视频帧4具有对应相机固定区域2、固定值0.1和初始排名得分60。

关键视频帧的初始排名基于初始排名得分从最高到最低是关键视频帧3、关键视频帧1、关键视频帧2和关键视频帧4。在最后排名的第一迭代中选择关键视频帧3作为最高排名关键视频帧。随后，对剩余的关键视频帧进行重新排名以偏好来自除相机固定区域3之外的相机固定区域的那些关键视频帧。结果，在最后排名的第二迭代中选择关键视频帧2。关键视频帧1仅在所有其他固定区域被表示之后的排名处理中被选择，并且结果成为最后排名关键视频帧。

返回至对图8的讨论，形成关键视频片段步骤270形成对应于一个或多个最高排名关键视频帧265的关键视频片段275。通常，形成关键视频片段步骤270根据预定的一组准则形成关键视频片段275，所述预定的一组准则包括指定用于视频概要的总持续时间的准则和指定用于每个关键视频片段的最小持续时间的准则。

最高排名关键视频帧265担当根据其建构关键视频片段275并且最终建构视频概要285的基础。被选择以形成关键视频片段275的最高排名关键视频帧265的数目通常将取决于视频概要的总持续时间和关键视频片段的最小持续时间。在一些实施方式中，关键视频片段275以每个所选择的最高排名关键视频帧265为中心。

在本发明的其他实施方式中，每个关键视频片段的开始和结束时间响应于其他准则。例如，可以分析数字视频序列以确定作为时间的函数的重要性值，并且可以响应于鼓励包括具有高重要性值的视频帧的准则来确定用于关键视频片段的开始时间和结束时间。可以如关于图2的分析数字视频步骤210所描述的那样执行分析数字视频以确定作为时间的函数的重要性值。重要性值可以偏好例如包括感兴趣帧而不是不活跃或快速摇摄帧。可以调整每个关键视频片段的开始点和结束点以响应于该准则，而同时满足对用于视频概要的总持续时间和每个关键视频片段的最小持续时间的约束。

在本发明的一些实施方式中，分析数字视频以确定作为时间的函数的音频活动的水平。在此情况下，可以响应于鼓励选择对应于低水平音频活动的开始时间和结束时间的准则来确定用于关键视频片段275的开始时间和结束时间。这使关键视频片段开始或结束于被截断的语音的可能性最小化。在大多数情况下，理想的是：关键视频片段包含完整的讲话段，并且不在句子的中间切断说话者。本领域技术人员将认识到：用于分析音频以检测语音的技术是本领域公知的。

在本发明的一些实施方式中，根据劝阻具有相似内容的关键视频片段的形成的准则来形成关键视频片段。一种用于劝阻具有相似内容的关键视频片段的形成的方法是通过将用于形成关键视频片段的最高排名关键视频帧的数目仅限于具有唯一相机固定区域的关键视频帧的数目。在该数目小于本来将被选择的数目的情况下，可以延长每个单独的关键视频片段的持续时间以满足总体视频概要持续时间准则。

在本发明的一些实施方式中，将被分开小于指定阈值的时间间隔的最高排名关键视频帧265所对应的关键视频片段275合并以形成单个关键视频片段。关键视频片段的合并可以避免以下情况：一个关键视频片段的结束与下一个关键视频片段的开始交叠或者仅被分开短的持续时间。包含这种过渡的视频概要会倾向于使观众混淆。视觉上优选的视频概要包含消除了两个原始关键视频片段之间的过渡的单个合并后的关键视频片段。

许多数字视频压缩算法将数字视频序列分裂成视频帧的组以用于编码目的。例如，视频帧的编码组可以包括一个经独立编码的视频帧（即“I”帧）和多个经预测性编码的视频帧（即“P”帧），其中每个“P”帧根据前一帧来预测。当遇到下一个“I”帧时，视频帧的特定编码组结束并且视频帧的新编码组开始。在这种压缩机制下，“I”帧将存取点提供到经压缩的数字视频序列中，其中，可以以“I”帧开始提取帧。具体地，视频帧的全体编码组可以从经压缩的数字视频序列提取并被译码成视频概要，这只需要对指示包括视频帧的编码组的经压缩的字节的位置和数目的头信息进行解码。因而，其在如下情况下可能是有利的：形成视频概要285以强加每个关键视频片段275的开始帧是“I”帧的约束并且要求关键视频片段275包含视频帧的确切数目的编码组。这些约束使得能够用原始的经压缩的数字视频序列的最小解压缩产生视频概要285。

在本发明的一些实施方式中，自动确定用于视频概要的总持续时间。视频概要的总持续时间可以根据原始视频的持续时间或数字视频的扭曲时间表示的持续时间来确定。在本发明的其他实施方式中，视频概要的总持续时间是用户指定的。例如，用户可以在心里有具体的期望视频概要长度。然后，可以响应于视频概要的总持续时间来确定关键视频片段275的数目和持续时间。

图14示出根据一个实施方式形成关键视频片段的例子。在此情况下，形成关键视频片段以使得关键视频片段具有相等的持续时间并且以一组对应的最高排名关键视频帧为中心。在本实施方式中，分析数字视频序列610并且选择三个最高排名关键视频帧640。对应于每个最高排名关键视频帧640形成关键视频片段620。在数字视频序列610内指示讲话段630。这种用于确定关键视频片段620的处理的缺点是：第一关键视频片段620在讲话段630完成之前切断讲话段630。所确定的关键视频片段620还具有以下缺点：第二和第三关键视频片段在它们之间具有短的持续时间。

图15示出根据可替选实施方式从同一数字视频序列610形成关键视频片段620。在此情况下，关键视频片段620的形成还响应于附加准则。在本实施方式中，所有关键视频片段620的长度不需要相等，并且每个关键视频片段620的位置不需要以对应的最高排名关键视频帧640为中心。此外，每个关键视频片段620的开始点和结束点响应于鼓励选择对应于低水平音频活动的开始时间和结束时间的准则。此外，响应于将具有被分开小于指定阈值的时间间隔的对应最高排名关键视频帧640的关键视频片段合并的准则来形成关键视频片段620。在此情况下，将第一关键视频片段620延长并且相对于对应最高排名关键视频帧640偏离中心地移位，以使得关键视频片段620不在任一端截断讲话段630。此外，第二和第三最高排名关键视频帧640之间的短的持续时间导致对应关键视频片段合并成单个关键视频片段620。通过根据需要调整开始时间和结束时间、同时仍合并在时间上靠近的关键视频片段620并且避免被截断的讲话段630来加强总体持续时间约束。图15中所示的关键视频片段620比图14中所示的关键视频片段620产生更合意的视频概要。

形成视频概要步骤280（图8）汇集关键视频片段275以形成视频概要285。在优选实施方式中，以与关键视频片段在数字视频序列中出现的顺序对应的时间顺序来汇集关键视频片段。

计算机程序产品可以包括一个或多个存储介质，例如：磁存储介质如磁盘（如软盘）或磁带；光学存储介质如光盘、光带或机器可读条形码；固态电子存储装置如随机存取存储器（RAM）或只读存储器（ROM）；或者用于存储具有用于控制一台或更多台计算机实施根据本发明的方法的指令的计算机程序的任何其他物理装置或介质。

部件列表

2 闪光灯

4 镜头

6 可调整光圈和可调整快门

8 变焦和聚焦电动机驱动器

10 数字相机

12 时序发生器

14 图像传感器

16 ASP和A/D转换器

18 缓冲存储器

20 处理器

22 音频编解码器

24 麦克风

26 扬声器

27 加速度计

28 固件存储器

30 图像存储器

32 图像显示器

34 用户控件

36 显示存储器

38 有线接口

40 计算机

44 视频接口

46 视频显示器

48 接口/再充电器

50 无线调制解调器

52 无线电频带

58 无线网络

70 因特网

72 相片服务提供商

200 数字视频序列

210 分析数字视频步骤

215 重要性值

220 形成扭曲时间表示步骤

225 扭曲时间表示

230 细分扭曲时间表示步骤

235 时间间隔

240 选择关键视频帧步骤

245 关键视频帧

250 存储关键视频帧的指示步骤

260 确定最高排名关键视频帧步骤

265 最高排名关键视频帧

270 形成关键视频片段步骤

275 关键视频片段

280 形成视频概要步骤

285 视频概要

290 存储视频概要表示步骤

310 全局运动信息

320 局部运动信息

330 分类器

340 视频帧分类

400 数字视频序列

410 数字视频间隔

420 时间间隔

500 扭曲时间表示

510 扭曲数字视频间隔

520 相等时间间隔

610 数字视频序列

620 关键视频片段

630 讲话段

640 最高排名关键视频帧

910 分析数字视频步骤

915 相机固定图案

920 对关键视频帧进行排名步骤

925 运动轨迹

930 固定位置直方图

940 固定位置直方图

Claims

1.一种用于形成用于具有视频帧时间序列的数字视频的视频概要的方法，所述方法包括使用处理器来执行以下步骤：

a）确定用于所述数字视频的一组关键视频帧；

b）响应于预定准则对所述关键视频帧进行排名；

c）根据预定的一组准则形成对应于一个或多个最高排名关键视频帧的关键视频片段，所述预定的一组准则包括指定用于所述视频概要的总持续时间的准则和指定用于每个所述关键视频片段的最小持续时间的准则；

d）汇集所述关键视频片段以形成视频概要；以及

e）将所述视频概要的表示存储在处理器可存取存储器中。

2.根据权利要求1所述的方法，其中，将每个最高排名关键视频帧包括在关键视频片段中。

3.根据权利要求1所述的方法，其中，分析所述数字视频以确定作为时间的函数的重要性值，并且其中，响应于鼓励包括具有高重要性值的视频帧的准则来确定用于关键视频片段的开始时间和结束时间。

4.根据权利要求1所述的方法，其中，分析所述数字视频以确定作为时间的函数的音频活动的水平，并且其中，响应于鼓励选择对应于低水平音频活动的开始时间和结束时间的准则来确定用于关键视频片段的开始时间和结束时间。

5.根据权利要求1所述的方法，其中，根据劝阻形成具有相似内容的关键视频片段的准则来形成所述关键视频片段。

6.根据权利要求1所述的方法，其中，用于所述视频概要的所述总持续时间是用户指定的。

7.根据权利要求1所述的方法，其中，将被分开小于指定阈值的时间间隔的最高排名关键视频帧所对应的所述关键视频片段合并以形成单个关键视频片段。

8.根据权利要求1所述的方法，其中，根据偏好在视频帧的编码组的开始处开始关键视频片段并且在视频帧的编码组的结束处结束关键视频片段的准则来形成所述关键视频片段。

9.根据权利要求1所述的方法，其中，所述确定用于所述数字视频的一组关键视频帧的步骤进一步包括：

i）分析所述数字视频以确定作为时间的函数的重要性值；

ii）通过响应于作为时间的函数的所述重要性值在时间上重新定位所述视频帧来形成扭曲时间表示；

iii）将所述扭曲时间表示细分成一组相等的间隔；以及

iv）通过分析每个间隔内的所述视频帧来选择用于每个间隔的关键视频帧。

10.根据权利要求1所述的方法，其中，所述响应于预定准则对所述关键视频帧进行排名的步骤进一步包括：

i）分析所述数字视频以确定相机固定图案；

ii）响应于所述相机固定图案对所述关键帧进行排名。

11.一种数字视频相机系统，包括：

图像传感器；

用于将场景的图像形成在所述图像传感器上的光学系统；

数据处理系统；以及

存储器系统，所述存储器系统在通信上连接到所述数据处理系统并且存储被配置成使得所述数据处理系统实施用于形成用于数字视频的视频概要的方法的指令，其中，所述指令包括：

使用所述图像传感器捕捉数字视频，所述数字视频具有视频帧时间序列；

确定用于所述数字视频的一组关键视频帧；

响应于预定准则对所述关键视频帧进行排名；

根据预定的一组准则形成对应于一个或多个最高排名关键视频帧的关键视频片段，所述预定的一组准则包括指定用于所述视频概要的总持续时间的准则和指定用于每个所述关键视频片段的最小持续时间的准则；

汇集所述关键视频片段以形成视频概要；以及

将所述视频概要的表示存储在处理器可存取存储器中。