CN102939630B

CN102939630B - 用于确定关键视频帧的方法

Info

Publication number: CN102939630B
Application number: CN201180025386.6A
Authority: CN
Inventors: A·T·迪弗
Original assignee: Eastman Kodak Co
Current assignee: Mau new gate Venture Capital Co., Ltd.
Priority date: 2010-05-25
Filing date: 2011-05-17
Publication date: 2015-06-17
Anticipated expiration: 2031-05-17
Also published as: US8599316B2; CN102939630A; EP2577663A2; WO2011149697A3; JP5781156B2; JP2013533668A; US20110292288A1; WO2011149697A2; EP2577663B1

Abstract

一种用于确定数字视频的关键视频帧的方法，所述数字视频具有视频帧的时间序列，所述方法包括使用处理器来执行以下步骤：分析所述数字视频以确定依据时间的重要性值；通过响应于所述依据时间的重要性值对所述视频帧进行时间重定位来形成扭曲时间表示；将扭曲时间数字视频序列表示再划分成一组相等的间隔；通过分析每个间隔内的视频帧来选择每个间隔的关键视频帧；以及将关于所述关键视频帧的指示存储在处理器可访问的存储器中。

Description

用于确定关键视频帧的方法

技术领域

本发明涉及数字视频处理领域，并且更具体地涉及一种用于选择关键视频帧并形成视频概要的方法。

背景技术

许多数字捕获设备能够捕获视频以及静止图像。然而，管理数字视频内容可能是一项困难的任务。通常用视频的第一帧的缩略图来可视地表示视频。这可能不会提供很多的对于视频内容的洞察。确定在给定的视频中是否包含特定事件常常需要查看整个视频。对于较长的视频而言，用户可能更愿意能够获得视频的快速概要，而不必查看整个视频。

从共享的角度来看，数字视频也可能呈现出实际问题。许多数字捕获设备以高达1920×1080个像素的分辨率、以每秒30或60帧的速度记录视频。即使在被压缩时，所生成的数据的量也使得共享甚至相对较短的视频不切实际。

可以使用视频编辑软件来手工地将视频概括成能够更容易共享的较短的版本。然而，手工视频编辑可能是一个冗长的繁重的过程，并且许多用户对手工编辑并不感兴趣。也存在自动视频概括算法。这些方案开始于将捕获的视频作为输入，并分析视频以确定视频概要。然而，这样的算法是非常复杂的，这是因为需要对视频进行解码以执行确定视频概要所需要的分析。因而，不可能在数字捕获设备上立即查看与刚刚捕获的视频相对应的视频概要。这种缺点使得难以有助于对捕获的视频进行快速回顾和共享。

因而，需要提供一种用于在数字捕获设备中计算视频概要的方法。具体地，需要提供在完成视频捕获时在极小延迟的情况下在数字捕获设备上生成视频概要的方案。

发明内容

本发明表示一种用于确定数字视频的关键视频帧的方法，所述数字视频具有视频帧的时间序列，所述方法包括使用处理器来执行以下步骤：

a）分析所述数字视频以确定依据时间的重要性值；

b）响应于所述依据时间的重要性值，通过在时间上对所述视频帧进行重定位来形成扭曲时间表示；

c）将扭曲时间的数字视频序列表示再划分成一组相等的间隔；

d）通过分析每个间隔内的视频帧来选择每个间隔的关键视频帧；以及

e）将关于所述关键视频帧的指示存储在处理器可访问的存储器中。

本发明具有以下优点：其选择与数字视频序列中的最重要部分相对应的关键视频帧。

其具有以下额外的优点：其使用全局和局部运动分析来提供关于视频帧重要性的指示。还使用全局和局部运动分析来选择关键视频帧，以避免选择可能遭受运动伪影的关键视频帧。

其具有以下其它的优点：可以使用所识别的关键视频帧来形成包括重要的关键视频片段的序列的视频概要。

附图说明

图1是示出了根据本发明实施例的用于形成视频概要的系统的组件的高级图；

图2是根据本发明实施例的用于确定数字视频序列的关键视频帧的方法的流程图；

图3是根据本发明实施例的用于对视频帧进行分类的方法的流程图；

图4示出了用一组相等的数字视频间隔划分的数字视频序列；

图5示出了在图4中所示的数字视频序列的扭曲时间表示；

图6示出了将扭曲时间表示再划分成相等时间间隔；

图7示出了图6中的时间间隔相对于图4中的原始数字视频序列的相应位置；

图8是根据本发明实施例的用于形成视频概要的方法的流程图；

图9是根据本发明实施例的用于确定排名最高的关键视频帧的方法的流程图；

图10和图11示出了固定位置直方图；

图12示出了在图11中给出的固定位置直方图的数字表示；

图13示出了用于确定排名最高的关键视频帧的排名过程的例子；

图14示出了根据一个实施例形成关键视频片段；以及

图15示出了根据另一个实施例形成关键视频片段。

具体实施方式

在以下描述中，将按照通常实现为软件程序的方式来描述本发明的优选实施例。本领域技术人员将容易地认识到，还可以用硬件来构造这种软件的等价形式。因为图像操作算法和系统是公知的，所以本描述将特别地针对形成根据本发明的系统和方法的一部分或更直接与该系统和方法合作的算法和系统。这种算法和系统的其它方面以及用于生成并以其它方式处理涉及于其中的图像信号的硬件或软件在本文中没有具体示出或描述，可以从本领域已知的这样的系统、算法、组件和元件中进行选择。给出在以下材料中根据本发明描述的系统，本文中没有具体示出、暗示或描述的用于实现本发明的软件是常规的，并且处于本领域普通技术范围内。

此外，如本文中使用的，用于执行本发明的方法的计算机程序可以存储在计算机可读存储介质中，计算机可读存储介质可以包括例如：磁存储介质，例如磁盘（例如硬盘驱动器或软盘）或磁带；光存储介质，例如光盘、光带或机器可读条形码；固态电子存储设备，例如随机存取存储器（RAM）或只读存储器（ROM）；或者用于存储具有指令的计算机程序的任何其它物理设备或介质，其中所述指令用于控制一个或多个计算机实施根据本发明的方法。

本发明包括本文描述的实施例的组合。提及“特定实施例”等是指在本发明的至少一个实施例中存在的特征。单独提及“实施例”或“特定实施例”等未必是指相同的一个实施例或相同的多个实施例；然而，这样的实施例并不是相互排斥的，除非这样指示或对于本领域技术人员是显而易见的。在提及“方法”或“多种方法”等时使用单数或复数并不是限制性的。应当注意的是，除非上下文明确地提到或需要，否则在本公开内容中使用的词语“或者”具有非排它性的意义。

因为采用成像设备以及相关的用于信号捕获和处理以及显示的电路的数字照相机是公知的，所以本公开内容将具体地针对形成根据本发明的方法和装置的一部分的元件或者与所述方法和装置更直接地协作的元件。在本文中未具体示出或描述的元件是从本领域已知的元件中选择的。将要描述的实施例的某些方面是以软件形式提供的。考虑到在以下材料中示出并描述的根据本发明的系统，在本文中未具体示出、描述或暗示的可用于实现本发明的软件是常规的，并在本领域普通技术的范围内。

本领域技术人员将熟悉以下对数字照相机进行的描述。将明显的是，对于该实施例存在可能的供选择的许多变型，以降低成本，增加特征或改善照相机的性能。

图1描述了根据本发明的包括能够捕获视频图像的数字照相机10的数字摄影系统的方框图。优选地，数字照相机10是便携式的用电池操作的设备，其足够小以至于用户在捕获和回顾图像时能够容易地手持。数字照相机10生成数字图像，使用图像存储器30将所述数字图像存储成数字图像文件。本文中所使用的短语“数字图像”或“数字图像文件”是指诸如数字静止图像或数字视频文件之类的任何数字图像文件。

在一些实施例中，数字照相机10捕获运动视频图像和静止图像两者。在其它实施例中，数字照相机10是只捕获运动视频图像的数字视频照相机。数字照相机10还可以包括其它功能，包括但不限于数字音乐播放器（例如，MP3播放器）、移动电话、GPS接收机或可编程数字助理（PDA）的功能。

数字照相机10包括镜头4，其具有可调孔径和可调快门6。在优选实施例中，镜头4是变焦镜头，并且由变焦和聚焦电机驱动器8来控制。镜头4将来自场景的光（未示出）聚焦到图像传感器14（例如，单芯片彩色CCD或CMOS图像传感器）上。镜头4是一种用于在图像传感器14上形成场景的图像的光学系统。在其它实施例中，该光学系统可以使用固定焦距的镜头，其具有可变或固定焦点。

图像传感器14的输出由模拟信号处理器（ASP）和模拟-数字（A/D）转换器16转换成数字形式，并被临时存储在缓冲存储器18中。随后处理器20使用存储在固件存储器28中的嵌入式软件程序（例如，固件）来操作存储在缓冲存储器18中的图像数据。在一些实施例中，使用只读存储器（ROM）将软件程序永久地存储在固件存储器28中。在其它实施例中，可以通过使用例如Flash EPROM存储器来修改固件存储器28。在这样的实施例中，外部设备可以使用有线接口38或无线调制解调器50来更新存储在固件存储器28中的软件程序。在这样的实施例中，固件存储器28还可以用于存储图像传感器校准数据、用户设置选择以及在关闭照相机时必须保留的其它数据。在一些实施例中，处理器20包括程序存储器（未示出），并且存储在固件存储器28中的软件程序在被处理器20执行之前被复制到程序存储器中。

将理解的是，可以使用单个可编程处理器或通过使用包括一个或多个数字信号处理器（DSP）设备在内的多个可编程处理器来提供处理器20的功能。可替换地，可以通过定制电路（例如，通过被具体设计用在数字照相机中的一个或多个定制集成电路（IC））或者通过可编程处理器和定制电路的组合来提供处理器20。将理解的是，可以使用公共数据总线来进行处理器20与图1中所示的各种组件中的一些或全部之间的连接。例如，在一些实施例中，可以使用公共数据总线在处理器20、缓冲存储器18、图像存储器30和固件存储器28之间进行连接。

然后使用图像存储器30来存储被处理的图像。将理解的是，图像存储器30可以是本领域技术人员已知的任何形式的存储器，包括但不限于可移除闪存卡、内部闪存芯片、磁存储器或光学存储器。在一些实施例中，图像存储器30可以包括内部闪存芯片以及与可移除闪存卡（例如安全数字（SD）卡）的标准接口。可替换地，可以使用不同的存储卡形式，例如微SD卡、压缩闪存（CF）卡、多媒体卡（MMC）、xD卡或存储棒。

图像传感器14由时序生成器12控制，时序生成器12产生各种时钟信号，用以选择行和像素并同步ASP和A/D转换器16的操作。例如，图像传感器14可以具有12.4兆像素（4088×3040个像素），以便提供大致4000×3000个像素的静止图像文件。为了提供彩色图像，图像传感器通常与滤色镜阵列重叠，滤色镜阵列提供的图像传感器具有包括不同颜色的像素的像素阵列。不同颜色的像素可以以许多不同的模式进行排列。作为一个例子，可以使用公知的Bayer滤色镜阵列来排列不同颜色的像素，如在共同转让给Bayer的美国专利3971065“彩色成像阵列”中所描述的，该美国专利的公开内容通过引用方式并入本文。作为第二例子，可以对不同颜色的像素进行排列，如在共同转让给Compton和Hamilton的、于2007年7月28日提交的并且名称为“Image sensor with improved light sensitivity”的美国专利申请公开2005/191729中所描述的，该美国专利申请的公开内容通过引用方式并入本文。这些例子不是限制性的，并且可以使用许多其它的颜色模式。

将理解的是，图像传感器14、时序生成器12以及ASP和A/D转换器16可以是单独制造的集成电路，或者它们可以被制造成单个的集成电路，如通常对CMOS图像传感器所做的。在一些实施例中，这种单个的集成电路可以执行图1中所示的其它功能中的一些功能，包括处理器20所提供的功能中的一些。

图像传感器14在第一模式中被时序生成器12驱动时是有效的，用以提供较低分辨率的传感器图像数据的运动序列以便组成图像，该运动序列在捕获视频图像时并且也在预览被捕获的静止图像时使用。可以作为例如具有1280×720个像素的HD分辨率图像数据，或者作为例如具有640×480个像素的VGA分辨率图像数据，或者使用其它分辨率（其与图像传感器的分辨率相比，具有显著更少列和行的数据），来提供这种预览模式的传感器图像数据。

可以通过对具有相同颜色的邻近像素的值进行组合，或者通过消除一些像素值，或者通过对一些颜色像素值进行组合同时消除其它颜色像素值，来提供预览模式的传感器图像数据。可以如共同转让给Parulski等的、名称为“Electronic camera for initiating capture of still images while previewingmotion images”的美国专利6292218中所描述的那样处理预览模式的图像数据，该美国专利申请通过引用方式并入本文。

图像传感器14在第二模式中被时序生成器12驱动时也是有效的，以提供高分辨率的静止图像。提供这种最终模式的传感器图像数据，以作为高分辨率的输出图像数据，对于具有较高的光照水平的场景而言，所述高分辨率的输出图像数据包括图像传感器的全部像素，并且可以是例如具有4000×3000个像素的12兆像素的最终图像数据。在较低光照水平，可以通过在图像传感器上“放弃”（binning）一些数量的颜色相似的像素来提供最终的传感器图像数据，以便提高信号水平并从而提高传感器的“ISO速度”。

变焦和聚焦电机驱动器8由处理器20所供应的控制信号来控制，以便提供适当的焦距设置并将场景聚焦到图像传感器14上。通过控制可调孔径和可调快门6的f/数量和曝光时间、图像传感器14的经由时序生成器12的曝光时段以及ASP和A/D转换器16的增益（即，ISO速度）设置，来控制图像传感器14的曝光水平。处理器20还对闪光灯2进行控制，闪光灯2可以对场景进行照明。

可以通过使用共同转让给Parulski等的名称为“Electronic camera withRapid Automatic Focus of an Image upon a Progressive Scan Image Sensor”的美国专利5668597中所描述的“通过镜头”的自动聚焦来在第一模式中对数字照相机10的镜头4进行聚焦。这是通过以下方式实现的：使用变焦和聚焦电机驱动器8将镜头4的焦点位置调节到在近焦点位置与无限远焦点位置之间变化的多个焦点位置，同时处理器20确定为图像传感器14所捕获的图像的中心部分提供峰值的最近的焦点位置。随后可以将与最近的焦点位置相对应的焦点距离用于若干目的，例如自动设置适当的场景模式，并且该焦点距离可以作为元数据与其它镜头和照相机设置一起存储在图像文件中。

处理器20生成菜单和低分辨率的彩色图像，它们临时存储在显示存储器36中并在图像显示器32上进行显示。图像显示器32通常是有源矩阵彩色液晶显示器（LCD），虽然也可以使用其它类型的显示器，例如有机发光二极管（OLED）显示器。视频接口44向视频显示器46（例如平板HDTV显示器）提供来自数字照相机10的视频输出信号。在预览模式或视频模式中，处理器20对来自缓冲存储器18的数字图像数据进行操作，以形成一系列运动预览图像，所述一系列运动预览图像通常作为彩色图像在图像显示器32上进行显示。在预览模式中，使用来自存储在图像存储器30中的数字图像文件的图像数据来产生在图像显示器32上显示的图像。

响应于通过用户控制34所提供的用户输入，来控制在图像显示器32上显示的图形用户界面。用户控制34用于选择各种照相机模式，例如视频捕获模式、静止捕获模式和预览模式，并且用于发起对静止图像的捕获以及对运动图像的记录。在一些实施例中，当用户部分地按压快门按钮时，发起上面描述的第一模式（即，静止预览模式），快门按钮是用户控制34中的一个，并且当用户完全按压快门按钮时，发起第二模式（即，静止图像捕获模式）。用户控制34还用于开启照相机，控制镜头4，以及发起图片拍摄过程。用户控制34通常包括按钮、摇杆式开关、操纵杆或选转盘的某种组合。在一些实施例中，通过使用图像显示器32上的触摸屏幕覆盖来提供用户控制34中的一些。在其它实施例中，可以使用额外的状态显示器和图像显示器。

可以使用用户控制34选择的照相机模式包括“定时器”模式。当选择“定时器”模式时，在用户完全按压快门按钮之后，在处理器20发起对静止图像的捕获之前，出现较短的延迟（例如，10秒）。

连接到处理器20的音频编解码器22从麦克风24接收音频信号，并向扬声器26提供音频信号。这些组件可以用于与视频序列或静止图像一起记录以及回放音频轨迹。如果数字照相机10是多功能设备（例如，组合照相机和移动电话），那么麦克风24和扬声器26可以用于电话会话。

在一些实施例中，扬声器26可以用作用户接口的一部分，例如以便提供指示已经按压了用户控制或者已经选择了特定模式的各种可听信号。在一些实施例中，可以使用麦克风24、音频编解码器22和处理器20来提供语音识别，使得用户能够通过使用语音命令而不是用户控制34来向处理器20提供用户输入。还可以使用扬声器26将进入的电话呼叫通知给用户。这可以通过使用存储在固件存储器28中的标准振铃音调，或者通过使用从无线网络58下载的并存储在图像存储器30中的定制振铃音调来完成。此外，可以使用振动设备（未示出）来提供进入电话呼叫的静音（例如，非可听的）通知。

在一些实施例中，数字照相机10还包含加速计27，其提供与照相机的运动有关的数据。优选地，加速计27检测三个正交方向中的每个方向上的线性和旋转加速（总共有6维的输入）。

处理器20还提供对来自图像传感器14的图像数据的额外处理，以便产生被渲染的sRGB图像数据，其被压缩并被存储在图像存储器30中的“已完成”图像文件中，例如公知的Exif-JPEG图像文件。

可以经由有线接口38将数字照相机10连接到接口/可再充电器48，其连接到计算机40，计算机40可以是位于家庭或办公室的台式计算机或便携式计算机。有线接口38可以遵循例如公知的USB 2.0接口规范。接口/可再充电器48可以经由有线接口38向数字照相机10中的一组可再充电电池（未示出）提供电力。

数字照相机10可以包括无线调制解调器50，其通过射频频带52与无线网络58对接。无线调制解调器50可以使用各种无线接口协议，例如公知的蓝牙无线接口或公知的802.11无线接口。计算机40可以经由互联网70将图像上载到照片服务提供商72，例如Kodak EasyShare Gallery。其它设备（未示出）可以访问照片服务提供商72所存储的图像。

在可替换的实施例中，无线调制解调器50通过射频（例如，无线）链路与诸如3GSM网络之类的移动电话网络（未示出）通信，移动电话网络与互联网70连接，以上载来自数字照相机10的数字图像文件。可以将这些数字图像文件提供给计算机40或照片服务提供商72。

现在将参考图2来描述本发明，图2详细描述了用于使用处理器20来确定数字视频序列200的关键视频帧的方法，其中，数字视频序列200具有视频帧的时间序列。初始地，使用分析数字视频的步骤210来分析数字视频序列200，以确定依据时间的重要性值215。形成扭曲时间表示的步骤220通过响应于依据时间的重要性值215而在时间上对视频帧重定位来形成数字视频序列200的扭曲时间表示225。对扭曲时间表示进行再划分的步骤230将扭曲时间表示225再划分成一组相等的时间间隔235。选择关键视频帧的步骤240通过分析每个时间间隔235内的视频帧来为每个时间间隔选择关键视频帧245。存储关于关键视频帧的指示的步骤250将关于数字视频序列200的关键视频帧245的指示存储在计算机可访问的存储器中。

现在将更详细地描述图2中的步骤。分析数字视频的步骤210确定依据时间的重要性值215。重要性值215是表示数字视频序列200的帧的依据时间的显著性的量。优选地，重要性值215是为数字视频序列200中的每个帧定义的数值。例如，可以给被确定为具有较高重要性的视频帧（例如，包含人脸的视频帧）分配相对较高的重要性值215。可以给被确定为具有较低重要性的视频帧（例如，包括快速摇动运动的视频帧）分配相对较低的重要性值215。

本领域技术人员将认识到，存在可以关于数字视频序列200中的视频帧计算的许多特征，其可以用于确定依据时间的重要性值215。在本发明的优选实施例中，分析数字视频的步骤210包括全局运动分析和局部运动分析。全局运动分析确定通常与捕获设备的运动相对应的全局运动信息，而局部运动分析确定与场景中的对象的移动相对应的局部运动信息。

在一些实施例中，使用两个参数的全局运动模型来执行全局运动分析，其中两个参数的全局运动模型提供依据时间的平移偏移信息（水平和垂直平移）。在其它实施例中，可以使用更复杂的全局运动模型来提供额外的信息，例如关于三个正交轴的旋转信息以及缩放（变焦）信息。

使用局部运动模型来执行局部运动分析，所述局部运动模型提供密集的局部运动信息。在一些实施例中，局部运动模型提供每个像素的依据时间的平移运动值。局部运动模型还可以提供较粗糙的运动估计，例如提供每个8×8或16×16大小的像素块的平移运动值。在优选实施例中，局部运动信息提供关于在视频帧的中心区域中出现的运动程度的指示。例如，这可以通过对视频帧的中心区域中的被识别为移动区域的一部分的像素的数量进行计数来进行计算。

在一些实施例中，在数字视频序列200已经被捕获、压缩并存储在处理器可访问的存储器中之后，执行对全局和局部运动信息的计算。这需要已压缩的数字视频序列在可以被分析之前被解压缩。在其它实施例中，在数字视频捕获过程期间，在数字视频序列200被压缩之前确定全局和局部运动信息。这消除了为了执行全局和局部运动分析而解压缩数字视频序列的需要。在这种情况中，可以将所计算出来的全局和局部运动信息作为与数字视频序列200相关联的元数据进行存储。可以将元数据存储在数字视频文件中，或者可以将元数据作为与所存储的数字视频序列相关联的单独文件进行存储。在共同转让的、名称为“Video summary method and system”的待决美国专利申请12/786,483中描述了这种方法。

在优选实施例中，分析数字视频的步骤210包括对多个视频帧进行分类的步骤。图3描述了本发明优选实施例的分类过程。全局运动分析和局部运动分析分别确定的全局运动信息310和局部运动信息320是分类器330的输入，分类器330确定多个视频帧的视频帧类别340。在优选实施例中，分配给视频帧的视频帧类别340包括：变焦，快速摇动，感兴趣的以及不活动的。

每当在捕获帧的同时照相机在放大或缩小，分类器330就将该视频帧分类成变焦视频帧。可以使用包括用于检测变焦的缩放参数的全局运动模型通过数字图像分析来检测变焦过程。还可以在捕获时通过识别发送到变焦电机驱动器8的用于调整变焦镜头4的信号来检测变焦过程。

每当在视频帧期间出现的全局平移运动的大小超过阈值，分类器330就将该视频帧分类成快速摇动视频帧。与快速摇动运动相对应的各个视频帧通常是非常模糊的，因而并不是表示数字视频序列的关键视频帧的良好候选。

每当全局平移运动的大小和变焦运动的大小以及局部运动的大小低于指定阈值，分类器330就将视频帧分类成不活动的视频帧。这样的视频帧指示相对静止的捕获设备以及具有相对较少的对象运动的场景。单个的关键视频帧通常就足以表示数字视频序列的不活动片段。

在缺少额外的类别的情况下，可以将所有其余的视频帧分类成感兴趣的视频帧。感兴趣的视频帧表示数字视频序列中的最可能包含表示数字视频序列的关键视频帧的良好候选的片段。

在本发明的优选实施例中，为每个视频帧分配一个重要性值215（图2）。可以通过将适当的重要性值与不同视频帧类别340中的每一个类别相关联，而根据视频帧类别340来确定重要性值215。下表示出了上面描述的每个视频帧类别340的示例性重要性值215。

表1：视频帧类别重要性值

视频帧类别	重要性值
		变焦	3.0
快速摇动	0.2
		不活动的	0.6
感兴趣的	1.0

形成扭曲时间表示的步骤220（图2）通过响应于依据时间的重要性值215而在时间上对视频帧重定位来形成扭曲时间表示225。图4和图5示出了根据本发明一个实施例的这种扭曲过程。图4示出了在时间单元0开始并在时间单元100结束的数字视频序列400，其被划分成相等的数字视频间隔410，每个数字视频间隔410的长度为5个时间单元。对于以下讨论而言，每个时间单元的绝对值并不重要，但是作为例子，每个时间单元可以表示10毫秒，并且数字视频序列中的每一个5个时间单元长的片段可以表示一个视频帧。在这种情况中，每个视频帧是50毫秒，使得以每秒20个视频帧的速度捕获数字视频序列。在其它实施例中，数字视频间隔410可以包括多个视频帧而不是单个视频帧。

图5表示这种数字视频序列200的扭曲时间表示225，其中响应于与数字视频帧相关联的基于其相应的视频帧类别的重要性值215，而在时间上对每个数字视频帧进行重定位。将数字视频序列中的每个片段当作单个视频帧并使用表1中所定义的重要性值，图5示出了数字视频序列400的扭曲时间表示500，其包括扭曲数字视频间隔510。在这个例子中，视频帧1被分类成“感兴趣的”，视频帧2-8被分类成“快速摇动”，视频帧9-12被分类成“感兴趣的”，视频帧13-16被分类成“不活动的”，并且视频帧17-20被分类成“感兴趣的”。

对于时间范围为5.0个时间单元并且视频帧类别为“变焦”以及相应重要性值为0.3的数字视频间隔410（视频帧）而言，将5.0*0.3=1.5个时间单元的时间范围分配给扭曲数字视频间隔510。类似地，对于时间范围为5.0个时间单元并且视频帧类别为“快速摇动”以及相应重要性值为0.2的数字视频间隔410而言，将5.0*0.2=1.0个时间单元的时间范围分配给扭曲数字视频间隔510；对于时间范围为5.0个时间单元并且视频帧类别为“不活动的”以及相应重要性值为0.6的数字视频间隔410而言，将5.0*0.6=3.0个时间单元的时间范围分配给扭曲数字视频间隔510；并且对于时间范围为5.0个时间单元并且视频帧类别为“感兴趣的”并且相应重要性值为1.0的数字视频间隔410而言，将5.0*1.0=5.0个时间单元的时间范围分配给扭曲数字视频间隔510。

在优选实施例中，通过给数字视频的多个部分中的具有较低重要性值215的数字视频间隔410分配较短的时间范围，并给数字视频的多个部分中的具有较高重要性值215的数字帧分配较长的时间范围，来形成扭曲时间表示500。

对扭曲时间表示进行再划分的步骤230（图2）将扭曲时间表示225再划分成一组相等的时间间隔235。图6针对扭曲时间表示500被再划分成一组5个相等时间间隔520的情况示出了这一步骤。注意到，在扭曲时间表示中，在每个相等的时间间隔520中所包含的数字视频帧的绝对数量（即，扭曲数字视频间隔510）通常不是恒定的。

图7示出了相对于数字视频序列400的原始表示的相应时间间隔420的位置。在这个例子中，可以看到，第一时间间隔420包含的数字视频帧多于数字视频序列400中所包含的数字视频帧的总数的40%，而第二时间间隔420包含的少于15%。

使用扭曲时间表示225（图2）具有以下优点：其允许从每个时间间隔中选择一个关键视频帧，使得关键视频帧具有遍历整个数字视频序列的广度，同时偏向于具有较高重要性值的有利区域。

例如，可以基于数字视频序列的扭曲时间表示的总时间范围来自动地确定时间间隔235（图2）的数量。可替换地，时间间隔的数量可以是用户指定的。

选择关键视频帧的步骤240（图2）通过分析每个时间间隔235内的视频帧选择每个时间间隔235的关键视频帧245。在本发明的优选实施例中，这种分析包括给每个时间间隔235中的多个视频帧分配选择分数，其中，选择分数是全局运动和局部运动的函数。可以选择时间间隔235中的具有最高选择分数的视频帧，来作为该时间间隔235的关键视频帧245。

用于压缩数字视频序列的大部分方法涉及将一些视频帧编码成独立编码的视频帧，并且将其它视频帧编码成预测编码的视频帧。在本发明的一些实施例中，只有独立编码的视频帧被认为是每个时间间隔235内的关键视频帧的候选，并且只计算独立编码的视频帧的选择分数。独立编码的视频帧是指没有参考其它视频帧而被编码的视频帧。可以对这种视频帧进行解码而不需要任何来自其它视频帧的信息。相反，预测编码的视频帧是基于来自一个或多个邻近视频帧的预测而进行编码的。这样，不能独立地对预测编码的视频帧进行解码，这是因为需要关于一个或多个其它视频帧的知识。在许多视频编码方案中，以较高的质量来对独立编码的视频帧进行编码，主要是因为它们用作后续视频帧的预测，并且高质量的预测产生后续视频帧的高效编码。因而，独立编码的帧是关键视频帧245的更好候选，这不仅是因为它们通常具有较高的图像质量，而且是因为它们可以从被压缩数字视频序列被快速地解码，而不需要对任何额外的视频帧进行解码。

视频帧的选择分数可以是若干不同输入的函数，所述若干不同输入包括全局平移运动、变焦、局部运动以及与之前的关键视频帧的接近性。在优选实施例中，给具有相应较高的全局平移运动大小的视频帧分配相对较低的选择分数，这是因为高水平的全局运动通常在视频帧中产生运动模糊。类似地，基于用户有意地执行变焦以将注意力聚焦在特定的关注区域上的假设，给变焦序列结束之后的视频帧分配相对较高的选择分数。因此，变焦结束之后不久（允许捕获设备花费一些时间进行再聚焦）的视频帧可能具有较高的重要性，并且是是关键帧245的将被考虑的良好候选。基于关注的视频帧可能包含某种对象活动的假设，给具有非常低水平的对象运动的视频帧分配相对较低的选择分数。基于所捕获的视频具有较高的时间相关性并且因此在时间上极接近的视频帧更可能包含冗余信息的假设，给在时间上极接近其它关键视频帧245的视频帧分配较低的选择分数。在为每个时间间隔连续地选择关键视频帧的实施例中，可以相对于之前的关键视频帧来测量时间接近性。对于以联合优化的方式（其考虑同时选择所有关键视频帧）选择关键视频帧的实施例而言，可以相对于在时间上之前的关键视频帧和后续的关键视频帧来测量时间接近性。

在一些实施例中，视频帧的选择分数包括多个分量，并且由以下等式给出：

S(n)=GM(n)+LM(n)+Z(n)+P(n) （1）

其中，S(n)是选择分数，GM(n)是全局运动项，LM(n)是局部运动项，Z(n)是变焦项，P(n)是接近性项，并且n是视频帧。在这个等式中，选择分数的各个项均可以从值0变化到值1，这取决于视频帧的特性。

可以使用本领域中任何已知的方法来计算全局运动项（GM）。在一些实施例中，全局运动项对于超过阈值T_GM的所有视频帧全局运动大小值而言具有值0，对于为0的视频帧全局运动大小值而言具有值1，并且对于0和T_GM之间的视频帧全局运动大小值而言具有线性地从1下降到0的值：

GM (n) = \{\begin{matrix} 1 - x_{GM} (n) / T_{GM}; & x_{GM} (n) \leq T_{GM} \\ 0; & x_{GM} (n) > T_{GM} \end{matrix} - - - (2)

其中，X_GM(n)是视频帧n的全局运动向量的大小。

可替换地，全局运动项的值可以以非线性的方式从1下降到0，例如根据余弦函数：

GM (n) = \{\begin{matrix} \cos (\frac{π x_{GM} (n)}{2 T_{GM}}); & x_{GM} (n) \leq T_{GM} \\ 0; & x_{GM} (n) > T_{GM} \end{matrix} - - - (3)

在这个例子中，与线性函数相比，余弦函数以较小的量值更缓慢地惩罚全局运动。

可以使用本领域任何已知的方法来计算局部运动项（LM）。在一些实施例中，在考虑了全局运动之后，根据两个视频帧之间计算出的差值来测量局部运动。例如，可以通过以下方式来计算该差值：使用全局运动向量对视频帧中的一个进行移位，计算移位的视频帧的重叠像素之间的像素差，以及随后计算平均像素差，从而提供视频帧局部运动值。较大的视频帧局部运动值通常暗示较大量的局部运动，虽然其它情形（例如光照的变化）也可能导致视频帧之间的较大差。

在优选实施例中，LM项倾向于优先地选择具有中等水平的局部运动的视频帧。例如，可以使用这样的函数：其中，对于处于时间间隔中的所有视频帧局部运动值的平均值处的视频帧局部运动值而言，LM项具有值1。随着局部运动变小，在视频帧局部运动值为0时，LM值线性地减小到值0.9。随着局部运动增加，在达到时间间隔中的最大视频帧局部运动值时，LM值线性地减小到值0.8。以等式的形式可以将其表示为：

LM (n) = \{\begin{matrix} 0.9 + 0.1 (x_{LM} (n) / \overset{&OverBar;}{x_{LM}}); & x_{LM} (n) \leq \overset{&OverBar;}{x_{LM}} \\ 1.0 - 0.2 (\frac{x_{LM} (n) - \overset{&OverBar;}{x_{LM}}}{x_{LM, \max} - \overset{&OverBar;}{x_{LM}}}); & \overset{&OverBar;}{x_{LM}} < x_{LM} (n) > x_{LM, \max} \end{matrix} - - - (4)

其中，x_LM(n)是视频帧的视频帧局部运动值；是时间间隔中的视频帧的所有视频帧局部运动值的平均值；并且x_LM,max是时间间隔中的全部视频帧的最大视频帧局部运动值。

在可替换的实施例中，可以在考虑全局运动之后通过计算两个视频帧中的相应像素之间的局部运动向量来确定局部运动项。随后可以针对每个视频帧计算局部运动向量的平均大小，并且将该平均大小用作视频帧局部运动值。

可以使用本领域中任何已知的方法来计算变焦项（Z）。在一些实施例中，对于变焦动作正在进行或刚刚完成（并且设备尚不具有足够的时间进行再聚焦）的视频帧而言，变焦项具有值0，对于紧随变焦动作之后的两秒（在允许设备花费时间进行再聚焦之后）而言，变焦项具有值1，并且对于所有其它视频帧而言，变焦项具有值0.5。

可以使用本领域中任何已知的方法来计算接近性项（P）。在一些实施例中，只要视频帧与之前的关键视频帧间隔至少两秒，接近性项就具有值1，并且具有随着与之前的关键视频帧的距离下降到0而线性下降到0的值。

本领域技术人员将认识到，以上用于通过响应于全局运动和局部运动特征确定选择分数从而选择关键视频帧245的描述只是表示一个可能的实施例。根据本发明，可以使用本领域中已知的用于从时间间隔235中选择关键视频帧245的任何其它方法来选择关键视频帧245。

存储关于关键视频帧的指示的步骤250将关于关键视频帧245的指示存储在处理器可访问的存储器中。在本发明的一些实施例中，可以提取关键视频帧245作为单独的视频帧。随后可以对单独的视频帧进行压缩，并存储在单独的数字图像文件中，例如公知的Exif-JPEG图像文件。将关键视频帧作为单独的数字图像文件进行存储的优点在于它们可立即被任何标准图像阅读器访问。

在本发明的其它实施例中，可以通过存储与数字视频序列200相关联的元数据来指示关键视频帧。元数据可以是已经被识别为关键视频帧245的视频帧的列表。“智能”视频阅读器可以对与数字视频相关联的元数据进行解释，并从而提取关键视频帧245。将关于关键视频帧245的指示存储成包括帧列表的元数据的优点在于指示关键视频帧所需要的额外存储器仅仅是帧的元数据的列表，其需要相对较小量的存储器。

在本发明的其它实施例中，可以通过将视频帧的缩略图存储成与数字视频相关联的元数据来指示关键视频帧。视频帧的缩略图是关键视频帧的低分辨率版本。将关键视频帧存储成与数字视频相关联的视频帧缩略图的优点在于：与从数字视频中提取关键视频帧相比，可以更快速地从元数据中提取出关键视频帧。

在本发明的一些实施例中，用于确定关键视频帧的方法表示用于形成视频概要的过程的一个部分。图8示出了根据本发明一个实施例形成视频概要的方法的步骤。执行之前关于图2所描述的分析数字视频的步骤210、形成扭曲时间表示的步骤220、对扭曲时间表示再划分的步骤230、选择关键视频帧的步骤240以及存储关于关键视频帧的指示的步骤250。随后，确定排名最高的关键视频帧的步骤260根据指定的准则对关键视频帧245进行排名以便确定一组排名最高的关键视频帧265。形成关键视频片段的步骤270形成与排名最高的关键视频帧265相对应的关键视频片段275。形成视频概要的步骤280对关键视频片段275进行组装以形成视频概要285。存储视频概要的表示的步骤290将视频概要285的表示存储在处理器可访问的存储器中。

在下面更详细地描述与确定排名最高的关键视频帧260、形成关键视频片段的步骤270以及形成视频概要的步骤280相关联的方法。存储视频概要的表示的步骤290可以使用本领域中任何已知的方法，例如在共同转让的、名称为“Video summary method and system”的、共同待决的美国专利申请12/786,483中描述的那些方法。这些方法中的一个包括：对所存储的数字视频的至少一部分进行解压缩，以提取与视频概要相对应的视频帧；以及对所提取的视频帧进行压缩以形成压缩的视频概要，随后压缩的视频概要被存储在处理器可访问的存储器中。这些方法中的另一个包括：生成元数据，所述元数据提供关于数字视频序列中的与视频概要相对应的视频帧的指示，并且其中，将元数据与所存储的数字视频相关联地存储起来。可选地，还可以将关于各种过渡效果的指示存储成与数字视频序列相关联的元数据，其中各种过渡效果可以用于在关键视频片段之间进行过渡。

图9示出了根据本发明一个实施例确定排名最高的关键视频帧的步骤260的额外细节。分析数字视频的步骤910对数字视频进行分析以确定照相机的固定模式915。对关键视频帧进行排名的步骤920响应于照相机的固定模式915来确定数字视频的排名最高的关键视频帧265。

分析数字视频的步骤910对数字视频进行分析以确定照相机的固定模式915。照相机的固定模式915表示在视频捕获的整个过程中依据时间被捕获的图像场景区域。在优选实施例中，通过分析全局照相机运动来确定照相机的固定模式915。静止的照相机总是观看到图像场景的同一部分，并且具有被表示成单个点的照相机固定模式915。另一方面，移动照相机的照相机固定模式915将与表示照相机的运动的运动轨迹相对应。

图10示出了包括一些摇动运动的数字视频序列200的固定位置直方图930，其表示照相机固定模式915（图9）。通过对视频捕获的全局平移运动进行分析来确定运动轨迹925。视频捕获过程开始于以任意位置开始的运动轨迹。例如，可以将视频捕获定义成在二维平面上的原点（0，0）处开始。（在图10中给出的例子中，视频捕获在水平轴的近似200的值以及垂直轴的近似10的值处开始）。随后通过确定连续视频帧之间的像素偏移来表征全局平移运动。通过追踪整个视频捕获过程中的累积的像素偏移来定义运动轨迹925。

在一些实施例中，使用照相机固定位置的直方图来表示运动轨迹925。对于固定在特定照相机固定位置处的每一个视频帧，将该特定照相机固定位置的直方图片段（histogram bin）增加1。图10中的照相机固定直方图930是照相机固定位置的这种直方图的表示。特定位置处的较高的图像亮度值指示较多数量的视频帧固定在给定位置处。可以看到，在捕获过程期间，对照相机进行了垂直和水平摇动，并且存在一些间隔，在这些间隔中，照相机固定被保持得相对恒定。

在本发明的一些实施例中，在空间上将照相机固定模式量化成多个像素区域。在图10中使用的量化因子是10个像素。也就是说，直方图中的每个片段（图10中的一个单元在垂直或水平方向上的每个偏移）的宽度为10个像素。对于10个像素在给定方向上的每个全局平移运动而言，固定位置在该方向上移动到直方图中的下一片段。

通过增加量化因子，可以将照相机固定直方图减小到较小数量的片段。图11示出了与图10相同的视频捕获相对应的固定位置直方图940，对于该直方图940而言，使用了量化因子240。这减少了表示固定模式所需要的直方图片段的总数。附加地，其给出了固定区域的更集中的表示，该表示受到照相机摇动和轻微移动的影响将较小，其中，所述照相机摇动和轻微移动可能改变较小量化因子的直方图片段。通过检查图11，可以看到，在数字视频序列过程期间存在四个主要的照相机固定区域。

图12是图11中给出的固定位置直方图940的数值表示。这些数值指示在整个视频捕获期间与固定位置直方图940中的给定片段相对应的视频帧的数量。这四个主要的照相机固定区域都具有大于200个的固定在该区域上的视频帧，而其余的短暂区域都具有少于100个的视频帧。在本发明的优选实施中，照相机固定模式中的每个区域具有相关联的固定值，其是该区域中的视频帧的数量的函数。

在图12的数值表示中，直方图的值被赋予成每个区域中的视频帧的绝对数量。可替换地，可以通过调整因子来调整直方图的值。例如，可以用视频捕获中的视频帧的总数来归一化直方图的值。

通常，图像场景中的、照相机固定于其上的区域暗示图像捕获中的关注区域。因而，与高固定区域相对应的视频帧是关键视频帧的良好候选。

在本发明的优选实施例中，通过上面关于图10-12所描述的全局运动分析来确定照相机固定模式。在可替换的实施例中，照相机固定模式还可以考虑变焦。处理变焦的一个方法是通过定义三维运动轨迹，其中该运动轨迹的两个轴与全局平移运动（水平的和垂直的）相对应，并且该运动轨迹的第三轴与变焦放大率相对应。在其它实施例中，照相机固定模式还可以考虑照相机旋转。

在一些实施例中，通过分析来自加速计27（图1）的数据来确定全局运动信息。可以将加速计数据转换成以像素为单位的平移运动。在本发明的其它实施例中，使用数字运动估计来确定全局运动信息。本领域技术人员将认识到存在用于计算数字图像对之间的全局平移运动估计的许多公知的方法。

优选地，在确定照相机固定模式直方图的过程中使用的量化因子是视频捕获的分辨率的函数。在一个代表性的实施例中，量化因子等于视频帧的分辨率的一半。对于具有640个列以及480个行的VGA视频而言，这与水平方向上的320以及垂直方向上的240的量化因子相对应。

图10和图11中所示的运动轨迹不包含时间信息。也就是说，虽然存在整个视频捕获过程中的关于全部照相机固定区域的指示，但是并不存在关于在视频捕获过程中它们何时出现的指示。在本发明的一些实施例中，保留时间信息，并且运动轨迹指示依据时间的照相机固定位置。

返回到图9的讨论，优选地，如之前关于图2描述的那样确定关键视频帧245。可替换地，可以使用本领域中任何已知的方法来确定关键视频帧245。对关键视频帧进行排名的步骤920响应于照相机固定模式915对关键视频帧245进行排名。在优选实施例中，针对每个关键视频帧确定相应的照相机固定模式区域。可以基于在特定关键视频帧捕获时全局平移运动轨迹的位置来确定该特定关键视频帧的照相机固定模式区域。随后，根据数字视频序列的固定位置直方图来为每个关键视频帧确定相应的固定值。优选地，初始地，通过固定值来对关键视频帧进行排名。具有较高固定值的关键视频帧是初始排名最高的关键视频帧。

还可以使用额外的排名度量来对关键视频帧进行排名。在本发明的一些实施例中，这些额外的排名度量与固定值结合操作，以提供初始排名。在本发明的其它实施例中，额外的排名度量是辅助排名度量，并且用于断开具有相同固定值的所有关键视频帧之间的联系。用于对关键视频帧进行排名的额外排名度量的一个例子是分配给每个视频帧的选择分数，如之前关于图2中的选择关键视频帧的步骤240所描述的。

在本发明的优选实施例中，迭代地确定关键视频帧的排名。在第一次迭代中，确定排名最高的关键视频帧。这可以通过基于固定值和额外排名度量选择排名最高的关键视频帧来确定。

在选择了排名最高的关键视频帧之后，每个随后的迭代涉及对其余关键视频帧重排名，并且选择排名最高的其余关键视频帧。在本发明的优选实施例中，在确定排名最高的关键视频帧之后，通过冗余对关键视频帧进行排名调整。冗余与对应于单个固定区域的多个关键视频帧相对应。为了对关键视频帧进行排名，使得在单个固定区域被表示多次之前在被排命的关键视频帧列表中表示全部不同的固定区域，在每次迭代时对关键视频帧进行重排名，以有助于尚未在被排名的关键视频帧列表中表示的区域。

图13示出了这种排名和重排名过程的例子。选择四个关键视频帧来表示特定数字视频序列。关键视频帧1与照相机固定区域3相对应，照相机固定区域3具有相应的固定值0.4。基于固定值以及额外的分数度量，关键视频帧1还具有初始排名分数80。类似地，关键视频帧2具有相应的照相机固定区域6、固定值0.2以及初始排名分数70。关键视频帧3具有相应的照相机固定区域3、固定值0.4、以及初始排名分数90。关键视频帧4具有相应的照相机固定区域2、固定值0.1以及初始排名分数60。

基于初始排名分数，关键帧的从最高到最低的初始排名是关键视频帧3、关键视频帧1、关键视频帧2以及关键视频帧4。在最终排名的第一次迭代中选择关键视频帧3来作为排名最高的关键视频帧。随后，对其余的关键视频帧进行重排名，以有助于来自除了照相机固定区域3以外的照相机固定区域的那些关键视频帧。从而，在最终排名的第二次迭代中选择关键视频帧2。只在所有其它的固定区域都被表示了之后，才在排名过程中选择关键视频帧1，并且作为结果，关键视频帧1变成排名最后的关键视频帧。

返回到图8的讨论，形成关键视频片段的步骤270形成与一个或多个排名最高的关键视频帧265相对应的关键视频片段275。通常，形成关键视频片段的步骤270根据预定的一组准则形成关键视频片段275，所述一组准则包括指定视频概要的总持续时间的准则以及指定每个关键视频片段的最小持续时间的准则。

排名最高的关键视频帧265作为用于建立关键视频片段275以及最终的视频概要285的基础。被选择用来形成关键视频片段275的排名最高的关键视频帧265的数量通常将依赖于视频概要的总持续时间以及关键视频片段的最小持续时间。在一些实施例中，关键视频片段275围绕着所选择的排名最高的关键视频帧265中的每一个。

在本发明的其它实施例中，每个关键视频片段的开始时间和结束时间响应于其它准则。例如，可以分析数字视频序列以确定依据时间的重要性值，并且可以响应于一准则确定关键视频片段的开始时间和结束时间，所述准则鼓励包括具有较高重要性值的视频帧。可以执行分析数字视频以确定依据时间的重要性值，如关于图2中的分析数字视频的步骤210所描述的。例如，重要性值可以有助于包括感兴趣的帧而不是不活动的或快速摇动的帧。可以响应于这一准则来调整每个关键视频片段的开始点和结束点，同时满足关于视频概要的总持续时间以及每个关键视频片段的最小持续时间的约束。

在本发明的一些实施例中，分析数字视频以确定依据时间的音频活动水平。在这种情况中，可以响应于一准则来确定关键视频片段275的开始时间和结束时间，所述准则鼓励选择与较低水平的音频活动相对应的开始时间和结束时间。这使得关键视频片段开始于或结束于被剪掉的语音的可能性最小。在大部分情况中，希望关键视频片段包含完整的讲话部分，而不在一句话的中间中断讲话者。本领域技术人员将认识到用于分析音频以检测语音的技术在本领域中是公知的。

在本发明的一些实施例中，根据一准则来形成关键视频片段，所述准则不鼓励形成具有相似内容的关键视频片段。不鼓励形成具有相似内容的关键视频片段的一个方法是将用于形成关键视频片段的排名最高的关键视频帧的数量仅限于具有唯一照相机固定区域的那些关键按视频帧。在该数量小于否则将被选择的数量的情况下，每个单独的关键视频片段的持续时间可以被延长，以满足总的视频概要持续时间准则。

在本发明的一些实施例中，将与被比指定阈值小的时间间隔分隔开的排名最高的关键视频帧265相对应的关键视频片段275合并以形成单个关键视频片段。对关键视频片段进行合并可以防止一个关键视频片段的结束与下一关键视频片段的开始重叠或者只被较短的持续时间间隔开的情况。包含这样的过渡的视频概要容易使观看者困惑。视觉上优选的视频概要包含单个的被合并的关键视频片段，其消除了两个原始关键视频片段之间的过渡。

为了编码的目的，许多数字视频压缩算法将数字视频序列分割成视频帧组。例如，视频帧的编码组可以包括一个独立编码的视频帧（即，“I”帧）以及多个预测编码的视频帧（即，“P”帧），其中，每个“P”帧是从之前的帧预测的。当遇到下一“I”帧时，特定的视频帧编码组结束，并且新的视频帧编码组开始。在这种压缩方案中，“I”帧提供进入压缩的数字视频序列的访问点，其中可以提取开始于“I”帧的多个帧。具体地，可以从压缩的数字视频序列中提取全部的视频帧编码组，并且将其编码转换成视频概要，所述视频概要只需要对报头信息进行解码，而所述报头信息指示包括视频帧的编码组的已压缩字节的位置和数量。从而，在形成视频概要285时，施加关于每个关键视频片段275的开始帧是“I”帧的约束并要求关键视频片段275包含正好数量的视频帧编码组，可能是有优势的。这些约束使得能够在对原始的已压缩数字视频序列进行极小的解压缩的情况下生成视频概要285。

在本发明的一些实施例中，自动地确定视频概要的总持续时间。这可以响应于原始视频的持续时间或数字视频的扭曲时间表示的持续时间来确定。在本发明的其它实施例中，视频概要的总持续时间是用户指定的。例如，用户可以记住特定的希望的视频概要长度。随后可以响应于视频概要的总持续时间来确定关键视频片段275的数量和持续时间。

图14示出了根据一个实施例形成关键视频片段的例子。在这种情况中，形成关键视频片段，使得这些关键视频片段具有相等的持续时间并以一组相应的排名最高的关键视频帧为中心。在这个实施例中，对数字视频序列610进行分析，并选择三个排名最高的关键视频帧640。形成与每个排名最高的关键视频帧640相对应的关键视频片段620。在数字视频序列610中指示讲话部分630。这种用于确定关键视频片段620的过程具有以下缺点：第一关键视频片段620在讲话部分630完成之前中断讲话部分630。所确定的关键视频片段620还具有以下缺点：第二和第三关键视频片段在它们之间具有较短的持续时间。

图15示出了根据可替换实施例从相同数字视频序列610形成关键视频片段620。在这种情况中，进一步响应于额外的准则来形成关键视频片段620。在这个实施例中，不需要全部关键视频片段620的长度相等，并且不需要每个关键视频片段620的位置以相应的排名最高的关键视频帧640为中心。此外，每个关键视频片段620的开始点和结束点是响应于一准则的，所述准则鼓励选择与较低水平的音频活动相对应的开始时间和结束时间。此外，响应于一准则来形成关键视频片段620，所述准则对具有由比指定的阈值小的时间间隔分隔开的相应的排名最高的关键视频帧640的关键视频片段进行合并。在这种情况中，第一关键视频片段620被延长，并且其中心相对于相应的排名最高的关键视频帧640而进行移位，使得关键视频片段620并不在任何一端剪掉讲话部分630。此外，第二和第三排名最高的关键视频帧640之间的较短的持续时间导致相应的关键视频片段合并成单个的关键视频片段620。通过根据需要调整开始和结束时间来施加总持续时间的约束，同时仍然对时间上接近的关键视频片段620进行合并并避免被剪掉的讲话部分。与图14中的关键视频片段620相比，图15中所示的关键视频片段620产生更令人愉快的视频概要。

形成视频概要的步骤280（图8）组装关键视频片段275以形成视频概要285。在优选实施例中，组装关键视频片段的时间顺序与它们在数字视频序列中出现的顺序相对应。

计算机程序产品可以包括一个或多个存储介质，例如：诸如磁盘（例如软盘）或磁带之类的磁存储介质；诸如光盘、光带或机器可读条形码之类的光存储介质；诸如随机存取存储器（RAM）或只读存储器（ROM）之类的固态电子存储设备；或者用于存储计算机程序的任何其它物理设备或介质，所述计算机程序具有用于控制一个或多个计算机实施根据本发明的方法的指令。

部件列表

2 闪光灯

4 镜头

6 可调孔径和可调快门

8 变焦和聚焦电机驱动器

10 数字照相机

12 时序生成器

14 图像传感器

16 ASP和A/D转换器

18 缓冲存储器

20 处理器

22 音频编解码器

24 麦克风

26 扬声器

27 加速计

28 固件存储器

30 图像存储器

32 图像显示器

34 用户控制

36 显示存储器

38 有线接口

40 计算机

44 视频接口

46 视频显示器

48 接口/再充电器

50 无线调制解调器

52 射频频带

58 无线网络

70 互联网

72 照片服务提供商

200 数字视频序列

210 分析数字视频的步骤

215 重要性值

220 形成扭曲时间表示的步骤

225 扭曲时间表示

230 再划分扭曲时间表示的步骤

235 时间间隔

240 选择关键视频帧的步骤

245 关键视频帧

250 存储关于关键视频帧的指示的步骤

260 确定排名最高的关键视频帧的步骤

265 排名最高的关键视频帧

270 形成关键视频片段的步骤

275 关键视频片段

280 形成视频概要的步骤

285 视频概要

290 存储视频概要表示的步骤

310 全局运动信息

320 局部运动信息

330 分类器

340 视频帧类别

400 数字视频序列

410 数字视频间隔

420 时间间隔

500 扭曲时间表示

510 扭曲数字视频间隔

520 相等的时间间隔

610 数字视频序列

620 关键视频片段

630 讲话部分

640 排名最高的关键视频帧

910 分析数字视频的步骤

915 照相机固定模式

920 对关键视频帧进行排名的步骤

925 运动轨迹

930 固定位置直方图

940 固定位置直方图

Claims

1.一种用于确定视频的关键视频帧的方法，所述方法包括：

计算设备确定多个第一视频间隔中的每一个的重要性值，所述多个第一视频间隔中的每一个包括视频帧，其中视频包括按照时间顺序的多个第一视频间隔；

通过至少基于重要性值对至少一个第一视频间隔的持续时间进行修改，所述计算设备形成所述视频的扭曲时间表示；

所述计算设备将所述视频的扭曲时间表示再划分成第二视频间隔；

所述计算设备选择每个第二视频间隔的关键视频帧；以及

所述计算设备存储每个第二视频间隔的关键视频帧的指示。

2.如权利要求1所述的方法，其中，确定重要性值包括检测全局运动。

3.如权利要求1所述的方法，其中，确定重要性值包括检测局部运动。

4.如权利要求1所述的方法，其中，确定重要性值包括将所述视频帧分类成多个视频帧类别中的至少一个。

5.如权利要求4所述的方法，其中，所述多个视频帧类别包括变焦、快速摇动、感兴趣的或不活动的。

6.如权利要求4所述的方法，其中，多个视频帧类别中的每一个与重要性值相关联。

7.如权利要求1所述的方法，其中，选择关键视频帧包括：确定每个第二视频间隔内的多个第二视频间隔帧中的每一个的选择分数。

8.如权利要求7所述的方法，其中，确定选择分数至少基于全局运动和局部运动。

9.如权利要求1所述的方法，其中，选择关键视频帧包括：在每个第二视频间隔中选择独立编码的视频帧作为所述关键视频帧。

10.如权利要求1所述的方法，其中，存储关键视频帧的指示包括：提取所述关键视频帧作为不同的文件。

11.如权利要求1所述的方法，其中，存储关键视频帧的指示包括：存储关键视频帧的列表，作为与所述视频相关联的元数据。

12.如权利要求1所述的方法，其中，存储关键视频帧的指示包括：存储所述关键视频帧的缩略图，作为与所述视频相关联的元数据。

13.如权利要求1所述的方法，其中，形成所述视频的扭曲时间表示包括：给具有指示较低重要性的重要性值的视频帧分配较短的时间范围。

14.如权利要求1所述的方法，其中，形成所述视频的扭曲时间表示包括：给具有指示较高重要性的重要性值的视频帧分配较长的时间范围。

15.如权利要求1所述的方法，其中，第二视频间隔的数量是用户指定的。

16.如权利要求1所述的方法，还包括：

所述计算设备至少基于准则对所述关键视频帧进行排名；

所述计算设备形成与排名最高的关键视频帧相对应的关键视频片段；

所述计算设备通过对所述关键视频片段进行组装以形成视频概要；以及

所述计算设备存储所述视频概要的表示。

17.一种视频照相机系统，包括：

图像传感器；

光学系统，用于在所述图像传感器上形成场景的图像；

数据处理系统；以及

存储器系统，通信地连接到所述数据处理系统，并存储被配置成使得所述数据处理系统：

使用所述图像传感器捕获视频，其中所述视频包括按照时间顺序的多个第一视频间隔，所述多个第一视频间隔中的每一个包括视频帧；

确定包括视频帧的多个第一视频间隔中的每一个的重要性值；

通过至少基于重要性值对至少一个第一视频间隔的持续时间进行修改而不修改所述视频帧的时间顺序，形成扭曲时间表示；

将扭曲时间表示再划分成间隔；

选择每个间隔的关键视频帧；以及

存储所述关键视频帧的指示。