CN102906746A - 应用相机定位来排序关键视频帧 - Google Patents

应用相机定位来排序关键视频帧 Download PDF

Info

Publication number
CN102906746A
CN102906746A CN2011800255541A CN201180025554A CN102906746A CN 102906746 A CN102906746 A CN 102906746A CN 2011800255541 A CN2011800255541 A CN 2011800255541A CN 201180025554 A CN201180025554 A CN 201180025554A CN 102906746 A CN102906746 A CN 102906746A
Authority
CN
China
Prior art keywords
video
frame
key
video sequence
digital video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800255541A
Other languages
English (en)
Other versions
CN102906746B (zh
Inventor
A·迪弗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mau new gate Venture Capital Co., Ltd.
Original Assignee
Eastman Kodak Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eastman Kodak Co filed Critical Eastman Kodak Co
Publication of CN102906746A publication Critical patent/CN102906746A/zh
Application granted granted Critical
Publication of CN102906746B publication Critical patent/CN102906746B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Studio Devices (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

一种排序具有视频帧的时间序列的数字视频的关键视频帧的方法,包括应用处理器执行以下步骤:分析数字视频以确定相机定位模式;确定数字视频的一组关键视频帧;以及排序响应于相机定位模式的关键视频帧。

Description

应用相机定位来排序关键视频帧
技术领域
本发明涉及数字视频处理领域,更具体而言,涉及一种选择关键视频帧并形成视频概要的方法。
背景技术
许多数字采集装置能够采集视频以及静态图像。然而,管理数字视频内容是困难的任务。通常用视频第一帧的缩略图形象化地表示视频。该缩略图可能不会提供对视频内容的非常深入的了解。确定特定的事件是否包含在给定的视频中,经常需要查看整个视频。对于很长的视频,用户可能更愿意能够得到视频的快速概要而无需查看视频的全部。
数字视频也可以从共享的观点呈现实际的问题。许多数字采集装置以30或60帧每秒,以空间分辨率高达1920×1080像素来录制视频。即使当被压缩时,生成的数据量也可以使得即使是共享相对较短的视频也是不切实际的。
视频编辑软件可以用于手动概括视频到较短的版本,该版本可以更容易地共享。然而,手动视频编辑可以是很长的、辛苦的过程,并且许多用户对手动编辑不感兴趣。也存在自动视频概要算法。该解决方案用采集的视频作为输入开始,并分析视频以确定视频概要。然而,该算法是非常复杂的,因为需要解码视频以执行必需的分析来确定视频概要。因此,在数字采集装置上不可能立即查看刚刚采集的视频的相应的视频概要。该缺点使得该算法难以便于采集的视频的快速查看和分享。
将因此可预期提供用于计算数字采集装置中的视频概要的系统和方法。具体而言,将可预期提供允许在数字采集装置上生成具有在视频采集完成时最小的延迟的视频概要的解决方案。
发明内容
本发明提出了一种排序具有视频帧的时间序列的数字视频的关键视频帧方法,包括应用处理器执行以下步骤:
a)分析数字视频以确定相机定位模式;
b)确定数字视频的一组关键视频帧;以及
c)排序响应于相机定位模式的关键视频帧。
本发明具有的优点是,其应用相机定位模式的分析以提供视频帧重要性的指示。
本发明具有的额外的优点是,应用来自加速度计的数据或通过应用对已采集视频序列的总体运动分析可以方便地确定相机定位模式。
本发明具有的进一步的优点是,其提供了避免冗余关键视频帧的一种方法。
本发明具有的进一步的优点是,已排序的关键视频帧可以用于形成包括重要关键视频片段的序列的视频概要。
附图说明
图1是显示根据本发明的实施方案的形成视频概要的系统的组成部分的高级框图;
图2是根据本发明的实施方案的为数字视频序列确定关键视频帧的方法的流程图;
图3是根据本发明的实施方案的分类视频帧的方法的流程图;
图4显示了将数字视频序列分为一组相等数字视频间隔;
图5显示了如图4所示的数字视频序列的扭曲时间表示;
图6显示了细分成相等时间间隔的扭曲时间表示;
图7显示了相对于图4的初始数字视频序列的相应的图6的时间间隔位置;
图8是根据本发明的实施方案的形成视频概要的方法的流程图;
图9是根据本发明的实施方案的确定最高排序的关键视频帧的方法的流程图;
图10和图11显示了定位位置的直方图;
图12显示了在图11中给出的定位位置的直方图的数值表示;
图13显示了对确定最高排序的关键视频帧有用的排序过程的实例;
图14显示了根据一个实施方案的关键视频片段的形成;以及
图15显示了根据另一个实施方案的关键视频片段的形成。
具体实施方式
在以下描述中,将由通常作为软件程序实现的术语来描述本发明的优选的实施方案。所属领域的技术人员将容易认识到,也可以在硬件中构造与该软件等同的软件。因为图像处理算法和系统是公知的,所以当前的描述将致力于具体算法和系统,该算法和系统形成根据本发明的系统和方法的部分,或者更直接地配合根据本发明的系统和方法。可以从本领域公知的此类系统、算法、组件和元件中选择,在本文中没有具体显示或描述的该算法和系统的其它方面,和涉及对图像信号的产生与其它处理的硬件或软件。考虑到在以下列材料中根据本发明描述的系统,本文没有具体显示、提出或描述的对本发明的实施有帮助的软件是传统的并且是本领域普通技术之内的。
另外,作为本文中所应用的,可以将对于执行本发明的方法的计算机程序存储在计算机可读的存储媒体中,所述存储媒体包括,例如,磁存储媒体如磁盘(比如硬盘或软盘)或磁带;光学存储媒体,比如光盘、光学磁带或机器可读的条形码;固态电子存储装置,比如随机存取存储器(RAM),或只读存储器(ROM);或用于存储计算机程序的任何其它物理装置或媒体,所述计算机程序具有控制一台或多台计算机以实现根据本发明的方法的指令。
本发明包括本文所描述的实施方案的组合。对“具体实施方案”以及类似术语的引用是指在本发明的至少一个实施方案中现有的特征。对“实施方案”或“具体实施方案”或类似术语的单独引用并非一定是指相同的一个实施方案或多个实施方案;然而,此类实施方案并不是相互排斥的,除非对所述实施方案这样说明或作为本领域技术人员容易清楚的。在“方法”或“多个方法”和类似术语的表示中的单数或复数的应用并非是对本发明的限制。应该注意到,除非上下文中另有说明或要求,本公开中所使用的词“或”为非排它的意思。
因为应用成像装置的数字相机和信号采集、处理和显示的相关电路是公知的,本描述将具体指向形成根据本发明的方法和装置的一部分或更直接地配合根据本发明的方法和装置的元件。本文没有具体显示或描述的元件是从现有技术中已知的元件中选择的。要描述的实施方案的特定方面以软件形式提供。考虑到在以下列材料中根据本发明显示并描述的系统,本文没有具体显示、描述或提出的对本发明的实施有帮助的软件是传统的并且是本领域普通技术之内的。
对于本领域技术人员,数字相机的以下描述将会是熟悉的。明显的是,该实施方案的许多变化是可能的,并且选择该实施方案的许多变化以降低成本、添加特征或改进相机的性能。
图1描绘了数字摄影系统的方框图,其包括根据本发明的可以采集视频图像的数字相机10。优选地,数字相机10是便携式电池供电的装置,足够小以便易于由用户在采集和查看图像时手持。数字相机10产生应用图像存储器30存储为数字图像文件的数字图像。本文中应用的短语“数字图像”或“数字图像文件”是指任何数字图像文件,比如数字静态图像或数字视频文件。
在一些实施方案中,数字相机10采集运动视频图像和静态图像两者。在其它实施方案中,数字相机10是仅采集运动视频图像的数字视频相机。数字相机10还可以包含其他的功能,包括但不限于,数字音乐播放器功能(例如MP3播放器)、移动电话、GPS接收器,或可编程数字助理(PDA)的功能。
数字相机10包括具有可调节光圈和可调节快门6的镜头4。在优选的实施方案中,镜头4是由缩放和对焦电机驱动器8控制的缩放镜头。镜头4将场景(未示出)的光对焦到图像传感器14,例如,单芯片的彩色CCD或CMOS图像传感器。镜头4是在图像传感器14上形成场景的图像的一种光学系统。在其它实施方案中,该光学系统可以应用具有或可变或固定的焦点的固定焦距镜头。
通过模拟信号处理器(ASP)和模数(A/D)转换器16,将图像传感器14的输出转换成数字形式,并将其暂时存储在缓冲存储器18中。随后,应用存储在固件存储器28中的嵌入式软件程序(例如,固件),通过处理器20处理存储在缓冲存储器18中的图像数据。在一些实施方案中,应用只读存储器(ROM)将软件程序永久地存储在固件存储器28中。在其它实施方案中,可以通过应用(例如)快闪EPROM存储器以便修改固件存储器28。在此类实施方案中,外部装置可以应用有线接口38或无线调制解调器50来更新存储在固件存储器28中的软件程序。在此类实施方案中,也可以将固件存储器28用于存储图像传感器校准数据、用户设定选择和相机被关掉时必须保存的其他数据。在一些实施方案中,处理器20包括程序存储器(未示出),并且在由处理器20执行之前,将存储在固件存储器28中的软件程序复制到该程序存储器中。
应该理解的是,可以将处理器20的功能设置成应用单个可编程处理器或通过应用多个可编程处理器,其中包括一个或多个数字信号处理器(DSP)装置。可选地,可以通过定制电路(例如,通过具体地设计为用于数字相机中的一个或多个定制的集成电路(IC)),或通过可编程处理器和定制电路的组合来设置处理器20。应该理解的是,可以应用通用数据总线完成在图1中所示的处理器20与各种组件中的一些或全部之间的连接器。例如,在一些实施方案中,可以应用通用数据总线完成处理器20、缓冲存储器18、图像存储器30,以及固件存储器28之间的连接。
然后,应用图像存储器30存储已处理的图像。应该理解的是,图像存储器30可以是本领域技术人员公知的任何形式的存储器,包括但不限于,可移动的闪存卡、内部闪存芯片、磁存储器,或光学存储器。在一些实施方案中,图像存储器30可以包括内部的闪存芯片和对可移动的闪存卡(比如安全数字(SD)卡)的标准接口。可选地,可以应用不同的存储卡格式,比如微型SD卡、紧凑式闪存(CF)卡、多媒体卡(MMC)、xD卡或记忆棒。
由定时发生器12控制图像传感器14,定时发生器12产生各种时钟信号来选择行和像素,并且同步ASP和A/D转换器16的运算。例如,图像传感器可以具有12.4兆像素(4088×3040像素)以便提供大约4000×3000像素的静态图像文件。为提供彩色图像,通常用颜色过滤器阵列覆盖图像传感器,所述颜色过滤器阵列设置有具有包括不同颜色像素的像素阵列的图像传感器。可以在许多不同的模式中设置不同颜色的像素。作为一个实例,可以应用如在Bayer的共同转让美国专利第3,971,065号,“Color imaging array”中所述的著名的Bayer颜色过滤器阵列布置不同颜色的像素,该专利的公开以引用的方式并入本文中。作为第二个实例,可以应用如在Compton和Hamilton的2007年7月28日提交的题为“Image sensorwith improved light sensitivity”的共同转让美国专利申请公开第2005/191729号中所述的内容来布置不同颜色的像素,该专利申请的公开以引用的方式并入本文中。这些实例不是对本发明的限制,而可以应用许多其它的颜色模式。
应该理解的是,可以将图像传感器14、定时发生器12,以及ASP与A/D转换器16作为集成电路分别制造,或者如同CMOS图像传感器的通常情况,可以将图像传感器14、定时发生器12,以及ASP与A/D转换器16制造为单个集成电路。在一些实施方案中,该单个集成电路可以执行在图1中所示的一些其它功能,包括由处理器20设置的一些功能。
当在第一模式中,为设置低分辨率传感器图像数据的运动序列,通过定时发生器12驱动图像传感器14时,图像传感器14是有效的,在采集视频图像时还有在预览要采集的静态图像时,应用该低分辨率传感器图像数据以便组成图像。该预览模式传感器图像数据可以设置为HD分辨率图像数据(例如用1280×720像素),或设置为VGA分辨率图像数据(例如640×480像素),或应用具有与图像传感器的分辨率相比显著较少的数据列和行的其它分辨率。
可以通过组合具有相同颜色的相邻像素值,或通过消除一些像素值,或通过组合一些颜色的像素值同时消除其它颜色的像素值来设置该预览模式传感器图像数据。可以用如Parulski等人的题为“Electronic camera for initiating capture of stillimages while previewing motion images”的共同转让的美国专利第6,292,218号中所述来处理预览模式图像数据,该专利以引用的方式并入本文中。
当在第二模式中,为设置高分辨率静态图像数据,通过定时发生器12驱动图像传感器14时,图像传感器14也是有效的。该最终模式的传感器图像数据设置为高分辨率的输出图像数据,所述输出图像数据对于具有高照明水平的场景包括图像传感器的所有像素,例如,所述输出图像数据可以是具有4000×3000像素的12兆像素的最终图像数据。在低照明水平下,可以通过“像素组合(binning)”图像传感器上的一些数量的相似颜色像素设置该最终传感器图像数据,以便提高信号水平,例如传感器的“ISO速度”。
由处理器20提供的控制信号控制缩放和对焦电机驱动器8,以便设置适当的焦距设置,并以便将场景对焦到图像传感器14上。通过控制可调节光圈和可调节快门6的焦距比数(f/number)和曝光时间、通过定时发生器12的图像传感器14的曝光周期,和ASP和A/D转换器16的增益(即,ISO速度)设置控制图像传感器14曝光水平。处理器20还控制可以照明场景的闪光灯2。
在第一模式中,可以通过应用“通过镜头(through-the-lens)”自动对焦来对焦数字相机10的镜头4,如Parulski等人的题为“Electronic Camera with RapidAutomatic Focus of an Image upon a Progressive Scan Image Sensor”的共同转让的美国专利第5,668,597号中所述,该专利以引用的方式并入本文中。通过应用缩放和对焦电机驱动器8调整镜头4的对焦位置到范围在附近的对焦位置到无限远的对焦位置之间的若干位置,而处理器20确定最接近的对焦位置,从而实现所述对焦,该最接近的对焦位置为图像传感器14采集的图像的中心部分提供了峰值清晰度值。然后,对应于最接近的对焦位置的对焦距离可以用于多个目的,比如自动设置适当的场景模式,可以连同其它镜头和相机设置一起作为图像文件中的元数据存储该对焦距离。
处理器20产生临时存储在显示存储器36中和显示在图像显示器32上的菜单和低分辨率彩色图像。图像显示器32通常是有源矩阵彩色液晶显示器(LCD),尽管可以应用其它类型的显示器,比如有机发光二极管(OLED)显示器。视频接口44提供了从数字相机10到视频显示器46(比如平板高清电视显示器)上的视频输出信号。在预览模式或视频模式中,由处理器20处理缓冲存储器18的数字图像数据以便形成在图像显示器32上显示的一系列运动预览图像(通常是彩色图像)。在查看模式中,应用存储在图像存储器30中的数字图像文件的图像数据产生在图像显示器32上显示的图像。
控制在图像显示器32上显示的图形用户界面以便响应于由用户控件34提供的用户输入。用户控件34用于选择各种相机模式,比如视频采集模式、静态采集模式以及查看模式,并且用于开始静态图像的采集和运动图像的记录。在一些实施方案中,当用户部分按下快门按钮时开始上述第一模式(即,静态预览模式),当用户完全按下快门按钮时开始第二模式(即,静态图像采集模式),该快门按钮是用户控件34之一。用户控件34也用于打开相机、控制镜头4以及开始拍摄过程。用户控件34通常包括按钮、摇臂开关、操纵杆或旋转拨盘的一些组合。在一些实施方案中,有的用户控件34通过应用覆盖在图像显示器32上的触摸屏提供。在其它实施方案中,可以应用额外的状态显示器或图像显示器。
可以应用用户控件34选择的相机模式包括“定时器(timer)”模式。当选择“定时器”模式时,在处理器20开始静态图像的采集之前,用户完全按下快门按钮后发生短的延迟(例如,10秒)。
连接到处理器20的音频编解码器22从麦克风24接收音频信号,并且提供音频信号到扬声器26。该组件可以连同视频序列或静态图像一起记录和回放音频轨道。如果数字相机10是多功能的装置,比如相机和手机的组合,麦克风24和扬声器26可以用于电话交谈。
在一些实施方案中,扬声器26可以用作用户界面的一部分,例如提供表示已按下用户控件或者已选择特定模式的各种声响信号。在一些实施方案中,麦克风24、音频编解码器22和处理器20可以用于提供语音识别,以便用户可以通过语音命令(而不是通过用户控件34)将用户输入设置到处理器20。扬声器26也可以用于通知用户呼入的电话。其可以通过应用存储在固件存储器28中的标准铃声,或通过应用从无线网络58下载并存储在图像存储器30中的自定义铃声完成。此外,振动装置(未示出)可以用于提供呼入电话的静默(例如,无声)通知。
在一些实施方案中,数字相机10还包括提供与相机的运动相关的数据的加速度计27。优选地,加速度计27检测三个正交方向的每个方向(总计六个维度的输入)的线性和转动加速度。
处理器20还提供了对图像传感器14的图像数据的额外处理,以便在图像存储器30中产生经压缩并存储在“已完成(finished)”图像文件中的渲染的sRGB图像数据,比如公知的Exif-JPEG图像文件。
数字相机10可以通过有线接口38连接到接口/充电器48,所述接口/充电器48连接到计算机40,所述计算机40可以是位于家庭或办公室中的桌面计算机或便携式计算机。例如,有线接口38可以符合公知的USB2.0接口规范。接口/充电器48可以通过有线接口38为数字相机10中的一组可充电电池(未示出)供电。
数字相机10可以包括在无线电频段52上与无线网络58联系的无线调制解调器50。无线调制解调器50可以应用不同的无线接口协议,比如公知的蓝牙无线接口或公知的802.11无线接口。计算机40可以通过互联网70上传图像到照片服务提供程序72,比如柯达易分享画廊(Kodak EasyShare Gallery)。其他装置(未示出)可以访问由照片服务提供程序72存储的图像。
在可选的实施方案中,无线调制解调器50通过无线电频率(例如,无线网络)链路与移动电话网络(未示出)通信,比如3GSM网络,其连接互联网70以便从数字相机10上传数字图像文件。该数字图像文件可以提供给计算机40或照片服务提供程序72。
现在将参考图2来描述本发明,图2详细说明了应用处理器20来确定具有视频帧的时间序列的数字视频序列200的关键视频帧的方法。首先,应用分析数字视频步骤210来分析数字视频序列200以确定作为时间的函数的重要性值215。形成扭曲时间表示步骤220通过响应于作为时间的函数的重要性值215的视频帧的时序重定位以形成数字视频序列200的扭曲时间表示225。细分扭曲时间表示步骤230将扭曲时间表示225细分为一组相等时间间隔235。选择关键视频帧步骤240通过在每个时间间隔235之内分析视频帧,来选择每个时间间隔的关键视频帧245。存储关键视频帧指示步骤250在处理器可访问存储器中存储数字视频序列200的关键视频帧245的指示。
现在将更详细地描述图2的步骤。分析数字视频步骤210确定作为时间的函数的重要性值215。重要性值215是表示作为时间的函数的数字视频序列200的帧的意义的量。优选地,重要性值215是界定数字视频序列200每一帧的数值。例如,可以对确定为高重要性的视频帧(比如包含面孔的视频帧)指定相对更高的重要性值215。可以对确定为低重要性的视频帧(比如包括快速平移运动视频帧)指定相对较低的重要性值215。
所属领域的技术人员将认识到存在可以计算关于数字视频序列200中的视频帧的许多特征,其可用于确定作为时间的函数的重要性值215。在本发明的优选的实施方案中,分析数字视频步骤210包括总体运动分析和局部运动分析。总体运动分析确定通常对应于采集装置的运动的总体运动信息,而局部运动分析确定对应于场景内物体的运动的局部运动信息。
在一些实施方案中,应用两参数总体运动模型来执行总体运动分析,该两参数总体运动模型提供作为时间的函数的平移补偿信息(横向和纵向的平移)。在其它实施方案中,可以应用更复杂的总体运动模型来提供额外的信息,比如在三个正交轴上的转动信息和比例(缩放)信息。
应用提供密集的局部运动信息的局部运动模型来执行局部运动分析。在一些实施方案中,局部运动模型提供了作为时间的函数的每个像素的平移运动值。局部运动模型还可以提供简略运动估计,例如为每8×8或16×16像素块提供平移运动值。在优选的实施方案中,局部运动信息提供了视频帧的中心区域中的运动事件的程度的指示。例如,其可以通过计算标识为移动区域的一部分的视频帧的中心区域的像素数量来计算。
在一些实施方案中,在已将数字视频序列200采集、压缩和存储在处理器可访问存储器中之后,执行总体和局部运动信息的计算。该方案需要在可以分析数字视频序列之前对已压缩数字视频序列解压缩。在其它实施方案中,在优先于压缩数字视频序列200的数字视频采集过程期间确定总体和局部运动信息。该方案减轻了为执行总体和局部运动分析的目的的解压数字视频序列的需要。在该情况下,可以将已计算的总体和局部运动信息存储为与数字视频序列200相关的元数据。元数据可以存储在数字视频文件中,或者作为与已存储的数字视频序列相关的单独的文件。该方法在题为“Video summary method and system”的共同转让未决美国专利申请第12/786,483号中得以描述。
在优选的实施方案中,分析数字视频步骤210包括对多个视频帧进行分类的步骤。图3描述了对于本发明的优选的实施方案的分类过程。分别通过总体运动分析和局部运动分析确定的总体运动信息310和局部运动信息320是分类器330的输入,该分类器330确定对于多个视频帧的视频帧分类340。在优选的实施方案中,指定给视频帧的视频帧分类340包括:缩放、快速平移(fast pan)、关注(interesting)和不活动(inactive)。
在采集视频帧期间,每当相机放大或缩小时,分类器330将该视频帧分类为缩放视频帧。可以通过利用总体运动模型的数字图像分析来检测缩放过程,该总体运动模型包括比例参数以检测缩放。还可以在采集时间通过识别信号检测缩放过程,该信号发送到缩放电机驱动器8以调整缩放镜头4。
每当发生在视频帧期间的总体平移运动的量级超过阈值时,分类器330将该视频帧分类为快速平移视频帧。对应于快速平移运动的单个视频帧通常很模糊,因此该视频帧不是作为对表示数字视频序列的关键视频帧的好的候选。
每当总体平移运动的量级和缩放运动的量级以及局部运动的量级低于指定的阈值时,分类器330将视频帧分类为不活动的视频帧。该视频帧是相对静止的采集装置和具有相对少量的物体运动的场景的指示。单个关键视频帧通常足以表示数字视频序列的不活动的段。
在没有额外类别的情况下,所有剩余的视频帧可以分类为关注的视频帧。关注的视频帧表示数字视频序列段,该段最有可能包括对表示数字视频序列的关键视频帧的好的候选。
在本发明的优选的实施方案中,为每个视频帧指定重要性值215(图2)。通过使适当的重要性值与每个不同的视频帧分类340相关联,可从视频帧分类340确定重要性值215。下表显示了对于如上所述的每个视频帧分类340的示例性重要性值215:
表1:视频帧分类重要性值
  视频帧分类   重要性值
  缩放   0.3
  快速平移   0.2
  不活动   0.6
  关注   1.0
形成扭曲时间表示步骤220(图2)通过响应于作为时间的函数的重要性值215的视频帧的时序重定位,形成了对于数字视频序列的扭曲时间表示225。图4和图5显示了根据本发明的一个实施方案的该扭曲过程。图4显示了将在时间单位0开始并且在时间单位100结束的数字视频序列400分成相等的数字视频间隔410,该间隔410的每个为5时间单位长度。对于下面的论述,每个时间单位的绝对值是不重要的,但作为实例,每个时间单位可以表示10毫秒,并且每5个时间单位长度的数字视频序列块可以表示一个视频帧。在该情况下,每个视频帧是50毫秒,从而以20视频帧每秒采集数字视频序列。在其它实施方案中,数字视频间隔410可以包括多个视频帧而不是单个视频帧。
图5表示了该数字视频序列200的时间扭曲表示225,其中响应于与基于数字视频帧的相应视频帧分类的数字视频帧相关的重要性值215重定位每个数字视频帧时序。作为单个视频帧处理每一块数字视频序列并应用在表1中界定的重要性值,图5显示了对于数字视频序列400的包括扭曲数字视频间隔510的扭曲时间表示500。在该实例中,将视频帧1分类为“关注”,视频帧2-8分类为“快速平移”,视频帧9-12分类为“关注”,视频帧13-16分类为“不活动”,并且视频帧17-20分类为“关注”。
对于时序范围为5.0时间单位,并且具有视频帧分类“缩放”和相应的重要性值为0.3的数字视频间隔410(视频帧),将时间范围为5.0*0.3=1.5时间单位指定到扭曲数字视频间隔510。类似地,对于时序范围为5.0时间单位,并且具有视频帧分类“快速平移”和相应的重要性值为0.2的数字视频间隔410,将时间范围为5.0*0.2=1.0时间单位指定到扭曲数字视频间隔510;对于时序范围为5.0时间单位,并且具有视频帧分类“不活动”和相应的重要性值为0.6的数字视频间隔410,将时间范围为5.0*0.6=3.0时间单位指定到扭曲数字视频间隔510;以及对于时序范围为5.0时间单位,并且具有视频帧分类“关注”和相应的重要性值为1.0的数字视频间隔410,将时间范围为5.0*1.0=5.0时间单位指定到扭曲数字视频间隔510。
在优选的实施方案中,通过指定较短的时序范围到在具有较低的重要性值215的数字视频部分中的数字视频间隔410,并且通过指定较长的时序范围到在具有较高的重要性值215的数字视频部分中的视频帧,形成扭曲时间表示500。
细分扭曲时间表示步骤230(图2)将扭曲时间表示225细分为一组相等时间间隔235。图6显示了对于将扭曲时间表示500细分为一组5个相等时间间隔520的情况下的该步骤。注意到在扭曲时间表示中,包括在每个相等的时间间隔520中的数字视频帧(即,扭曲数字视频间隔510)的绝对数量通常不是常量。
图7显示了相对于数字视频序列400的初始表示的相应的时间间隔420的位置。在该实例中,可以看出,第一时间间隔420包括多于包括在数字视频序列400中的数字视频帧的总数量的40%,而第二时间间隔420包括少于15%。
扭曲时间表示225(图2)的应用具有的优点在于,其允许以这样的方式进行从每个时间间隔之内的一个关键视频帧的选择,以便关键视频帧具有贯穿整个数字视频序列的宽度,而同时偏向于高重要性值的有利区域。
例如,可以基于数字视频序列的扭曲时间表示的总体时序范围自动确定时间间隔235(图2)的数量。可选地,时序间隔的数量可以用户指定。
选择关键视频帧步骤240(图2)通过在每个时间间隔235之内分析视频帧来选择对于每个时间间隔235的关键视频帧245。在本发明的优选的实施方案中,该分析包括对在每个时间间隔235之内的多个视频帧指定选择评分,其中选择评分是总体运动和局部运动的函数。可以选择在时间间隔235之内的具有最高选择评分的视频帧作为对于该时间间隔235的关键视频帧245。
对于压缩数字视频序列的多数方法涉及编码一些视频帧作为独立编码的视频帧,而其它视频帧作为预测编码的视频帧。在本发明的一些实施方案中,只有独立编码的视频帧得以考虑作为在每个时间间隔235之内的关键视频帧的候选,并且只对于独立编码的视频帧计算选择评分。独立编码的视频帧是指不对其它视频帧进行任何参考而进行编码的视频帧。该视频帧可以在不需要其它视频帧的任何信息的情况下进行解码。相比之下,基于对一个或多个相邻视频帧预测来编码预测编码的视频帧。因此,不能独立解码预测编码的视频帧,因为其需要一个或多个其它视频帧的知识。在许多视频编码方案中,独立编码的视频帧是以高质量进行编码的,具体地因为其用作后续的视频帧的预测,并且高质量的预测获得高效的后续视频帧编码。因此,独立编码的帧是关键视频帧245的优选的候选,既因为其通常是高图像质量,还因为可以从压缩的数字视频序列中快速解码所述独立编码的帧而不需要解码任何额外的视频帧。
视频帧的选择评分可以是几个不同的输入的函数,包括总体平移运动、缩放、局部运动以及与先前关键视频帧的邻近度。在优选的实施方案中,由于高水平的总体运动通常产生视频帧的运动模糊,所以为具有相应的高总体平移运动量级的视频帧指定相对较低的选择评分。同样地,基于用户已经特意进行缩放以便在关注的特定区域上聚焦注意的假定,所以为缩放序列的结尾随后的视频帧指定相对较高的选择评分。因此,在缩放结尾之后不久(允许采集装置重新聚焦一段时间)的视频帧很可能是高重要性的并且是对于关键视频帧245待考虑的好的候选。基于关注的视频帧很可能包括一些物体的活动的假定,为具有非常低的水平的物体运动的视频帧指定相对较低的选择评分。基于采集的视频具有高的时序相关性,因此接近时序邻近度更很可能包括冗余信息的假定,为到其它关键视频帧245接近时序邻近度的视频帧指定较低的选择评分。在为每个时间间隔连续选择关键视频帧的实施方案中,可以测量关于先前关键视频帧的时序邻近度。对于在同时地考虑所有关键视频帧的选择的共同优化方式中选择关键的视频帧的实施方案,可以针对时序在前和在后的关键视频帧两者而对时序邻近度进行测量。
在一些实施方案中,视频帧的选择评分包括多个分量,并且由下面的等式给出:
S(n)=GM(n)+LM(n)+Z(n)+P(n)       (1)
其中S(n)是选择评分,GM(n)是总体运动项,LM(n)是局部运动项,Z(n)是缩放项,P(n)是邻近度项,而n是视频帧。在该等式中,选择评分的单个项可以每个从值0到值1变化,取决于视频帧的特性。
可以应用本领域公知的任何方法计算总体运动项(GM)。在一些实施方案中,对于所有视频帧的超过阈值(TGM)的总体运动量级值,总体运动项具有的值为0,对于视频帧的为0的总体运动量级值,总体运动项具有的值为1,并且对于视频帧的在0和TGM之间的总体运动量级值,总体运动项具有的值从1到0线性减小:
GM ( n ) = 1 - x GM ( n ) / T GM ; x GM ( n ) ≤ T GM 0 ; x GM ( n ) > T GM - - - ( 2 )
其中,xGM(n)为视频帧n的总体运动矢量的量级。
另外,总体运动项的值可以以非线性方式从1到0减小,比如根据余弦函数:
GM ( n ) = cos ( π x GM ( n ) 2 T GM ) ; x GM ( n ) ≤ T GM 0 ; x GM ( n ) > T GM - - - ( 3 )
在该实例中,余弦函数对总体运动不利在小的量级比线性函数更慢。
可以应用本领域公知的任何方法计算局部运动项(LM)。在一些实施方案中,作为在考虑总体运动之后的两个视频帧之间计算的差值的函数来测量局部运动。例如,可以通过应用总体运动矢量改变一个视频帧,通过计算已筛选的视频帧的重叠像素之间的像素差值,并然后通过计算平均像素差以提供视频帧的局部运动值来计算该差值。更大的视频帧局部运动值通常是局部运动更大的量的显示,尽管其他的情况(比如改变采光)也可以导致视频帧之间的大的差别。
在一个优选的实施方案中,LM项偏向于优先选择具有适度水平的局部运动的视频帧。例如,对于在时间间隔之内的所有视频帧的局部运动值的平均值处的视频帧局部运动值,可以在具有值为1的LM项处应用函数。随着局部运动变小,在视频帧局部运动值为0处,LM值线性减少到值0.9。随着局部运动增大,在时间间隔中的最大视频帧局部运动值处,LM值线性减少到值0.8。该过程可以用等式的形式表示为:
LM ( n ) = 0.9 + 0.1 ( x LM ( n ) / x LM &OverBar; ) ; x LM ( n ) &le; x LM &OverBar; 1.0 - 0.2 ( x LM ( n ) - x LM &OverBar; x LM , max - x LM &OverBar; ) ; x LM &OverBar; < x LM ( n ) > x LM , max - - - ( 4 )
其中xLM(n)是对于视频帧n的视频帧局部运动值;
Figure BDA00002453869000122
是对于在时间间隔之内的视频帧的所有视频帧局部运动值的平均值;而xLM,max是对于在时间间隔之内的所有视频帧的最大视频帧局部运动值。
在本发明的可选实施方案中,可以通过计算在考虑总体运动之后的两个视频帧中的对应的像素之间的局部运动矢量,确定局部运动项。可以对于每个视频帧确定局部运动矢量的平均量级,并且应用该平均量级作为视频帧局部运动值。
可以应用本领域公知的任何方法计算缩放项(Z)。在一些实施方案中,对于缩放操作正在进行中或刚刚完成(并且装置还不会有足够的时间来重新聚焦)的视频帧,缩放项具有的值为0,对于紧随缩放操作后两秒(在为装置重新聚焦的允许时间之后),缩放项具有的值为1,而对于所有其它视频帧,缩放项具有的值为0.5。
可以应用本领域公知的任何方法计算邻近度项(P)。在一些实施方案中,每当视频帧与先前的关键视频帧隔开至少两秒时,邻近度项具有值为1,并且随着到先前的关键帧的距离减少到0邻近度项具有线性降低到0的值。
本领域的技术人员将认识到,对于通过确定响应于总体运动和局部运动的特征的选择评分选择关键视频帧245的以上描述只表示一个可能的实施方案。根据本发明,可以应用本领域公知的任何其它方法来选择关键视频帧245,以便从时间间隔235之内选择关键视频帧245。
存储关键视频帧指示步骤250,在处理器可访问存储器中存储关键视频帧245的指示。在本发明的一些实施方案中,可以作为单个视频帧来提取关键视频帧245。可以将单个视频帧压缩和存储在单个数字图像文件之内,比如公知的Exif-JPEG图像文件。作为单独的数字图像文件存储关键视频帧的优点是,该关键视频帧可以由任何标准图像阅读程序立即访问。
在本发明的其它实施方案中,可以通过存储与数字视频序列200相关的元数据来表示关键视频帧。元数据可以是已标识为关键视频帧的视频帧的列表。“智能型”视频阅读器可以翻译与数字视频相关的元数据,从而提取关键视频帧245。作为包括帧列表的元数据来存储关键视频帧245的指示的优点是,需要表示关键视频帧的仅有的额外存储器是需要相对少量的存储器的帧元数据的列表。
在本发明的其它实施方案中,可以通过存储视频帧缩略图图像作为与数字视频相关的元数据来表示关键视频帧。视频帧缩略图图像是关键视频帧的低分辨率版本。作为与数字视频相关的视频帧缩略图图像来存储关键视频帧的优点是,可以比从数字视频提取关键视频帧更快地从元数据提取关键视频帧。
在本发明的一些实施方案中,确定关键视频帧的方法表示形成视频概要的过程的一个部分。图8显示了根据本发明的一个实施方案的形成视频概要的方法的步骤。如关于图2的先前所述,执行分析数字视频步骤210、形成扭曲时间表示步骤220、细分扭曲时间表示步骤230、选择关键视频帧步骤240,以及存储关键视频帧指示步骤250。随后,确定最高排序的关键视频帧步骤260排序根据指定标准的关键视频帧245以确定一组最高排序的关键视频帧265。形成关键视频片段步骤270,形成对应于最高排序的关键视频帧265的关键视频片段275。形成视频概要步骤280聚集关键视频片段275以形成视频概要285。存储视频概要表示步骤290在处理器可访问存储器中存储视频概要285表示。
下面更详细地描述与确定最高排序的关键视频帧260、形成关键视频片段步骤270和形成视频概要步骤280相关的方法。存储视频概要表示步骤290可以应用本领域公知的任何方法,比如题为“Video summary method and system”的共同转让的未决美国专利申请第12/786,483号所述的方法,该专利申请以引用的方式并入本文中。此类方法中的一个方法包括,解压缩已存储的数字视频的至少一部分以提取对应于视频概要的视频帧,并且压缩已提取的视频帧以形成已压缩的视频概要,然后将该已压缩的视频概要存储在处理器可访问存储器中。此类方法中的另一个方法包括,生成提供在对应于视频概要的数字视频序列中的视频帧的指示的元数据,其中,与已存储数字视频相关地存储该元数据。可选地,可用于关键视频片段之间过渡的各种过渡效果的指示也可以存储为与数字视频序列相关的元数据。
图9显示了根据本发明的一个实施方案的确定最高排序的关键视频帧步骤260的额外的细节。分析数字视频步骤910分析数字视频以确定相机定位模式915。排序关键视频帧步骤920为响应于相机定位模式915的数字视频确定最高排序的关键视频帧265。
分析数字视频步骤910分析数字视频以确定相机定位模式915。相机定位模式915表示贯穿视频采集过程的作为时间的函数采集的图像场景的区域。在优选的实施方案中,通过分析总体相机运动来确定相机定位模式915。静止的相机始终显示图像场景的相同部分,并且具有表示为单个点的照相机定位模式915。另一方面,移动相机的相机定位模式915将对应于表示相机运动的运动轨迹。
图10显示了表示对于包括一些平移运动的数字视频序列200的相机定位模式915(图9)的定位位置直方图930。通过分析视频采集的总体平移运动确定运动轨迹925。视频采集过程开始于在任意位置开始的运动轨迹。例如,可以界定从二维平面上的原点(0,0)开始视频采集。(在图10给出的实例中,在大约为200的横轴值和大约为10的纵轴值处开始视频采集。)然后,通过确定连续视频帧之间的像素偏移来表征总体平移运动。通过追踪贯穿整个视频采集的累积像素偏移来确定运动轨迹925。
在一些实施方案中,应用相机定位位置的直方图表示运动轨迹925。通过定位在该相机定位位置的每个视频帧的一个来递增特定相机定位位置的直方图面元。在图10中的相机定位直方图930是相机定位位置的该直方图的表示。在特定的位置的更高的图像亮度值是更多数量的视频帧在给定的位置得以定位的指示。可以看到,在采集过程中垂直和水平地平移相机,而存在保持相机定位相对不变的一些间隔。
在本发明的一些实施方案中,空间地量化相机定位模式到像素区域中。图10中应用的量化因子是10像素。也就是说,直方图中的每个面元(图10中纵向或横向的一个单位的每个偏移)具有10像素的宽度。对于给定方向的10像素的每个总体平移运动,定位位置在该方向上移动到直方图中的下一个面元。
通过改进量化因子,可以将相机定位直方图减少到更小数量的面元。图11显示了对应于与图10中的视频采集相同的视频采集的定位位置的直方图940,其中应用了量化因子240。该直方图940减少了表示定位模式的必须的直方图面元的总数量。此外,该直方图940给出了定位区域更集中的表示,该表示受到的可以改变小的量化因子的直方图面元的相机抖动和细微移动的影响将更小。从图11的检查可以看出,在数字视频序列过程期间存在四个主要相机定位区域。
图12显示了在图11中给出的定位位置的直方图940的数值表示。该数值指示了对应于在贯穿视频采集的定位位置直方图940中的给定面元的视频帧的数量。四个主要相机定位区域都具有定位于该区域的大于200视频帧,而剩余的暂时区域每个都具有少于100视频帧。在本发明的优选实施方案中,相机定位模式的每个区域具有相关的定位值,该定位值是该区域中的视频帧的数量的函数。
在图12的数值表示中,直方图值作为每个区域中的视频帧的绝对数量加以给出。可选地,可以通过比例因子按比例调节直方图值。例如,可以通过视频采集中的视频帧的总数量来标准化直方图值。
一般来说,相机定位其上的图像场景区域是视频采集中的关注区域的提示。因此,对应于高定位区域的视频帧是关键视频帧的好的候选。
在本发明的优选实施方案中,通过如关于图10到图12所示的总体运动分析确定相机定位模式。在可选实施方案中,也可以考虑对于缩放的相机定位模式。处理缩放的方法是通过界定三维运动轨迹,其中运动轨迹的两个轴对应于总体平移运动(横向和纵向),运动轨迹的第三轴对应于缩放放大率。在其它的实施方案中,也可以考虑对于相机旋转的相机定位模式。
在一些实施方案中,通过分析从加速度计27(图1)的数据确定总体运动信息。加速度计数据可以转换为像素单位中的平移运动。本发明的其它实施方案中,应用数字运动估算来确定总体运动信息。所属领域的技术人员将认识到,存在计算在一对数字图像之间的总体平移运动估算的许多公知的方法。
优选地,用于确定相机定位模式直方图的量化因子是视频采集的分辨率的函数。在一个示例性实施方案中,量化因子等于视频帧的分辨率的一半。对于具有640列和480行的VGA视频,其对应于在横向上320和在纵向上240的量化因子。
图10和图11所示的运动轨迹不包括时序信息。也就是说,虽然存在贯穿视频采集的全部相机定位区域的指示,但不存在视频采集过程中相机定位区域何时发生的指示。本发明的一些实施方案中,保留时序信息并且运动轨迹作为时间函数表示相机定位位置。
回到图9的讨论,如先前关于图2所述,优选地确定关键视频帧245。另外,应用本领域已知的任何方法确定关键视频帧245。排序关键视频帧步骤920排序响应于相机定位模式915的关键视频帧245。在优选的实施方案中,对于每个关键视频帧确定相应的相机定位模式区域。可以基于在特定关键视频帧的采集时间的总体平移运动轨迹的位置确定特定关键视频帧的相机定位模式区域。然后,从对每个关键视频帧的数字视频序列的定位位置直方图确定相应的定位值。优选地,通过定位值对排序关键视频帧进行初始排序。具有最高定位值的关键视频帧是最高初始排序的关键视频帧。
也可以应用额外的排序测量来排序关键视频帧。在本发明的一些实施方案中,该额外排序测量与定位值相结合操作以提供初始排序。在本发明的其它实施方案中,该额外排序测量是次级的排序测量,并且该额外排序测量用于打破具有相等定位值的所有关键视频帧之间的连结。排序关键视频帧的额外排序测量的一个实例是指定给每一帧的选择评分,如关于图2中先前所述的选择关键视频帧步骤240。
在本发明的优选的实施方案中,迭代地确定关键视频帧的排序。在第一迭代中,确定了最高排序的关键视频帧。其可以通过选择具有基于定位值和额外排序测量的最高排序的关键视频帧确定。
在选择了最高排序的关键视频帧之后,每个随后的迭代包括重排序剩余关键视频帧,并选择最高排序的剩余关键视频帧。在本发明的优选实施方案中,在确定最高排序的关键视频帧之后,随后通过冗余对关键视频帧进行排序调整。冗余与对应于单一定位区域的多个关键视频帧对应。为了排序关键视频帧以便在多个时间表示单一定位区域之前,在排名关键视频帧列表中表示所有不同的定位区域,在每次迭代中重排序关键视频帧到有利区域,该有利区域还没有在已排序的关键视频帧列表中显示。
图13显示了该排序和重排序的过程的实例。选择四个关键视频帧以表示特定的数字视频序列。关键视频帧1对应于具有对应定位值为0.4的相机定位区域3。关键视频帧1还具有基于定位值以及额外的评分测量的80的初始排序评分。同样地,关键视频帧2具有对应的相机定位区域6、定位值0.2,以及初始排序评分70。关键视频帧3具有对应的相机定位区域3、定位值0.4,以及初始排序评分90。关键视频帧4具有对应的相机定位区域2、定位值0.1,以及初始排序评分60。
基于初始排序评分的关键视频帧的初始排序,从最高到最低,是关键视频帧3、关键视频帧1、关键视频帧2,和关键视频帧4。在作为最高排序的关键视频帧的最终排序的第一迭代中选择关键视频帧3。随后,重排序剩余关键视频帧,以便从除了相机定位区域3的相机定位区域有利于所述关键视频帧。因此,在最终排序的第二迭代中选择关键视频帧2。在表示所有其它定位区域之后的排序过程中仅选择关键视频帧1,并因此成为最终排序关键视频帧。
回到图8的讨论,形成关键视频片段步骤270形成了对应于一个或多个最高排序的关键视频帧265的关键视频片段275。一般来说,形成关键视频片段步骤270根据预界定的一组标准形成关键视频片段275,所述预界定的一组标准包括指定视频概要的总持续时间的标准和指定每个关键视频片段的最小持续时间的标准。
最高排序关键视频帧265作为建立关键视频片段275和最终建立视频概要285的基础。加以选择以形成关键视频片段275的最高排序关键视频帧265的数量通常会依赖于视频概要的总持续时间和关键视频片段的最小持续时间。在一些实施方案中,关键视频片段275居中围绕每个已选择的最高排序关键视频帧265。
在本发明的其它实施方案中,每个关键视频片段的开始和结束时间响应于其它标准。例如,可以分析数字视频序列以确定作为时间的函数的重要性值,并且可以响应于标准来确定关键视频片段的开始和结束时间,该标准促使包含的视频帧具有高的重要性值。可以如关于图2的分析数字视频步骤210所述来执行分析数字视频以确定作为时间的函数的重要性值。例如,重要性值可以有利于包含关注的帧而不是不活动或快速平移的帧。可以调整每个关键视频片段的开始和结束点以响应该标准,而同时满足视频概要的总持续时间和每个关键视频片段的最低持续时间上的限制。
在本发明的一些实施方案中,分析数字视频以确定作为时间的函数的视频活动水平。在该情况下,可以响应于标准来确定关键视频片段275的开始和结束时间,该标准促使选择对应于低水平的音频活动的开始和结束时间。其最小化了关键视频片段由缩略语音开始或者结束的可能性。在大多数情况下,合乎期望的是,关键视频片段包括完整的语段,并且不在句子的中间切断扬声器。本领域的技术人员将认识到,分析音频以检测语音的技术是本领域所公知的。
在本发明的一些实施方案中,根据标准形成关键视频片段,该标准阻止具有相似内容的关键视频片段的形成。阻止具有相似内容的关键视频片段的形成的一个方法是,通过限制用于形成关键视频片段到仅具有唯一相机定位区域的视频帧的最高排序关键视频帧的数量。如果该数量小于其它会选择的数量,可以延长每个单个关键视频片段的持续时间以满足全部视频概要持续时间的标准。
在本发明的一些实施方案中,合并对应于最高排序关键视频帧265的关键视频片段275以形成单一关键视频片段,通过小于指定阈值的持续时间隔开该最高排序关键视频帧265。关键视频片段的合并可以防止一个关键视频片段的结尾与下一个关键视频片段的开始相重叠,或者仅仅隔开短的持续时间的情况。包括该过渡的视频概要会倾向于混淆查看器。形象化的优选的视频概要包括消除了两个初始关键视频片段之间的过渡的单个已合并的关键视频片段。
许多数字视频压缩算法为编码的目的将数字视频序列截断成为多个视频帧组。例如,视频帧的编码组可以包括一个独立编码的视频帧(即,“I”帧)和多个预测编码的视频帧(即,“P”帧),其中从先前的帧预测每个“P”帧。当遇到下一个“I”帧时,视频帧的特定编码组结束且视频帧的新的编码组开始。在该压缩方案中“I”帧提供到已压缩数字视频序列的访问点,其中可以在“I”帧处开始提取帧。特别是,可以从已压缩数字视频序列提取视频帧的整个编码组,并且只需要头信息的解码将其转换成视频概要,该头信息指示包括视频帧编码组的已压缩字节的位置和数量。因此,当形成视频概要285时,可以有利的是施加每个关键视频片段275的起始帧为“I”帧的限制,并要求关键视频片段275包括准确数量的视频帧编码组。该限制通过初始已压缩数字视频序列的最小解压缩使视频概要285的产生成为可能。
在本发明的一些实施方案中,自动确定视频概要的总持续时间。可以响应于初始视频的持续时间,或数字视频的扭曲时间表示的持续时间来确定该总持续时间。在本发明的其它实施方案中,用户指定视频概要的总持续时间。例如,用户可以在想法中具有特定需求的视频概要长度。可以响应于视频概要的总持续时间确定关键视频片段275的数量和持续时间。
图14显示了根据一个实施方案的关键视频片段的形成的实例。在该情况下,形成关键视频片段以便其具有相等的持续时间,并且居中围绕对应的一组最高排序关键视频帧。在该实施方案中,分析数字视频序列610并且选择三个最高排序的关键视频帧640。形成对应于每个最高排序的关键视频帧640的关键视频片段620。在数字视频序列610之内表示语段630。确定关键视频片段620的该过程具有的缺点是第一关键视频片段620在语段630结束之前切断了语段630。已确定的关键视频片段620也具有的缺点是第二和第三关键视频片段在其之间具有短的持续时间。
图15显示了根据可选的实施方案从相同的数字视频序列610中的关键视频片段620的形成。在该情况下,关键的视频片段620的形成进一步响应于额外的标准。在该实施方案中,所有关键的视频片段620的长度不需要相等,并且每个关键视频片段620的位置不需要居中围绕相应的最高排序关键帧640。此外,每个关键视频片段620的开始点和结束点响应于促使开始和结束时间的选择对应于低水平的音频活动的标准。此外,响应于标准形成关键视频片段620视频片段,该标准合并具有相距小于指定阈值的时间间隔的相应的最高排序关键视频帧640的关键视频片段。在该情况下,延长第一关键视频片段620并且改变第一关键视频片段620相对于对应的最高排序关键视频帧640偏离中心,以便关键视频片段620不在其任一端剪切语段630。此外,在第二和第三最高排序关键视频帧640之间的短的持续时间导致相应的关键视频片段合并到单一关键视频片段620。必要时通过调整开始和结束时间来实施全部持续时间限制,同时仍然合并时序接近关键视频片段620并且避免剪切语段630。图15中所示的关键视频片段620比图14中的关键视频片段620生成更合意的视频概要。
形成视频概要步骤280(图8)聚集关键视频片段275以形成视频概要285。在优选的实施方案中,按对应于数字视频序列中出现的关键视频片段的顺序的时间顺序聚集关键视频片段。
计算机程序产品可以包括,例如,一个或多个存储媒体;磁存储媒体比如磁盘(比如软盘)或磁带;光学存储媒体比如光盘、光学磁带或机器可读的条形码;固态电子存储装置比如随机存取存储器(RAM)或只读存储器(ROM);或用于存储计算机程序的任何其它物理装置或媒体,所述计算机程序具有控制一台或多台计算机以实现根据本发明的方法的指令。
部件清单
2   闪光灯
4   镜头
6   可调节光圈和可调节快门
8   缩放和聚焦电机驱动器
10  数字相机
12  定时发生器
14  图像传感器
16  ASP与A/D转换器
18  缓冲存储器
20  处理器
22  音频编码解码器
24  麦克风
26  扬声器
27  加速度计
28  固件存储器
30  图像存储器
32  图像显示器
34  用户控件
36  显示存储器
38  有线接口
40  计算机
44  视频接口
46  视频显示器
48  接口/充电器
50  无线调制解调器
52  无线电频段
58  无线网络
70  互联网
72  照片服务提供程序
200 数字视频序列
210 分析数字视频步骤
215 重要性值
220 形成扭曲时间表示步骤
225 扭曲时间表示
230 细分扭曲时间表示步骤
235 时间间隔
240 选择关键视频帧步骤
245 关键视频帧
250 存储关键视频帧指示步骤
260 确定最高排序关键视频帧步骤
265 最高排序关键视频帧
270 形成关键视频片段步骤
275 关键视频片段
280 形成视频概要步骤
285 视频概要
290 存储视频概要表示步骤
310 总体运动信息
320 局部运动信息
330 分类器
340 视频帧分类
400 数字视频序列
410 数字视频间隔
420 时间间隔
500 扭曲时间表示
510 扭曲数字视频间隔
520 相等时间间隔
610 数字视频序列
620 关键视频片段
630 语段
640 最高排序关键视频帧
910 分析数字视频步骤
915 相机定位模式
920 排序关键视频帧步骤
925 运动轨迹
930 定位位置直方图
940 定位位置直方图

Claims (12)

1.一种排序具有视频帧的时间序列的数字视频的关键视频帧的方法,所述方法包括应用处理器来执行以下步骤:
a)分析所述数字视频以确定相机定位模式;
b)确定所述数字视频的一组关键视频帧;
c)响应于所述相机定位模式而对所述关键视频帧进行排序。
2.根据权利要求1所述的排序具有视频帧的时间序列的数字视频的关键视频帧的方法,其中所述相机定位模式是通过总体运动分析而确定的。
3.根据权利要求2所述的排序具有视频帧的时间序列的数字视频的关键视频帧的方法,其中所述总体运动分析包括分析来自加速度计的数据。
4.根据权利要求2所述的排序具有视频帧的时间序列的数字视频的关键视频帧的方法,其中所述总体运动分析包括应用数字运动估算算法来分析所述数字视频。
5.根据权利要求1所述的排序具有视频帧的时间序列的数字视频的关键视频帧的方法,其中量化所述相机定位模式到相机定位模式区域中。
6.根据权利要求5所述的排序具有视频帧的时间序列的数字视频的关键视频帧的方法,其中所述相机定位模式的每个相机定位模式区域具有相关的定位值,所述定位值为具有在所述相机定位模式区域中的定位位置的视频帧的数量的函数。
7.根据权利要求5所述的排序具有视频帧的时间序列的数字视频的关键视频帧的方法,其中每个关键视频帧具有对应的相机定位模式区域。
8.根据权利要求6所述的排序具有视频帧的时间序列的数字视频的关键视频帧的方法,其中通过所述定位值对所述关键视频帧进行初始排序。
9.根据权利要求8所述的排序具有视频帧的时间序列的数字视频的关键视频帧的方法,其中随后调整所述关键视频帧的排序以减少冗余。
10.根据权利要求1所述的方法,其中步骤b)包括
i)分析所述数字视频以确定作为时间的函数的重要性值;
ii)通过响应于作为时间的函数的所述重要性值的所述视频帧的时序再定位,形成所述数字视频序列的扭曲时间表示;
iii)细分所述扭曲时间表示成为一组相等的间隔;以及
iv)通过在每个间隔之内分析所述视频帧来选择每个间隔的关键视频帧。
11.根据权利要求1所述的方法,进一步包括:
d)形成对应于最高排序关键视频帧的关键视频片段;
e)聚集所述关键视频片段以形成视频概要;以及
f)在处理器可访问存储器中存储所述视频概要的表示。
12.一种数字视频相机系统包括:
图像传感器;
光学系统,所述光学系统形成场景的图像到所述图像传感器上;
数字处理系统;以及
存储器系统,所述存储器系统通信连接到所述数据处理系统并且存储指令,所述指令配置为使得所述数据处理系统实现为数字视频提供已排序的关键视频帧的方法,其中所述指令包括:
应用所述图像传感器采集数字视频,所述数字视频具有视频帧的时间序列;
分析所述数字视频以确定相机定位模式;
确定所述数字视频的一组关键视频帧;以及响应于所述相机定位模式而对所述关键视频帧进行排序。
CN201180025554.1A 2010-05-25 2011-05-24 排序具有视频帧的时间序列的数字视频的关键视频帧的方法和装置 Expired - Fee Related CN102906746B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/786,475 US8619150B2 (en) 2010-05-25 2010-05-25 Ranking key video frames using camera fixation
US12/786,475 2010-05-25
PCT/US2011/037631 WO2011149860A1 (en) 2010-05-25 2011-05-24 Ranking key video frames using camera fixation

Publications (2)

Publication Number Publication Date
CN102906746A true CN102906746A (zh) 2013-01-30
CN102906746B CN102906746B (zh) 2015-12-02

Family

ID=44484219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180025554.1A Expired - Fee Related CN102906746B (zh) 2010-05-25 2011-05-24 排序具有视频帧的时间序列的数字视频的关键视频帧的方法和装置

Country Status (5)

Country Link
US (1) US8619150B2 (zh)
EP (1) EP2577513A1 (zh)
JP (1) JP5837922B2 (zh)
CN (1) CN102906746B (zh)
WO (1) WO2011149860A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104185089A (zh) * 2013-05-23 2014-12-03 三星电子(中国)研发中心 视频概要生成方法及服务器、客户端
CN105100688A (zh) * 2014-05-12 2015-11-25 索尼公司 图像处理方法、图像处理装置和监视系统
CN106462744A (zh) * 2014-06-12 2017-02-22 微软技术许可有限责任公司 基于规则的视频重要性分析

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9520156B2 (en) * 2010-08-31 2016-12-13 Excalibur Ip, Llc Content preview generation
CN103281562A (zh) * 2013-06-20 2013-09-04 天脉聚源(北京)传媒科技有限公司 一种提供视频预览的方法及装置
US9529510B2 (en) 2014-03-07 2016-12-27 Here Global B.V. Determination of share video information
US9934423B2 (en) 2014-07-29 2018-04-03 Microsoft Technology Licensing, Llc Computerized prominent character recognition in videos
US9646227B2 (en) 2014-07-29 2017-05-09 Microsoft Technology Licensing, Llc Computerized machine learning of interesting video sections
CN105554593B (zh) * 2015-12-10 2019-04-02 杭州当虹科技有限公司 一种flv到mp4的文件容器转换方法
US10777228B1 (en) 2018-03-22 2020-09-15 Gopro, Inc. Systems and methods for creating video edits

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070182861A1 (en) * 2006-02-03 2007-08-09 Jiebo Luo Analyzing camera captured video for key frames
US20070237225A1 (en) * 2006-03-30 2007-10-11 Eastman Kodak Company Method for enabling preview of video files
US20090160957A1 (en) * 2007-12-20 2009-06-25 Micron Technology, Inc. Methods and system for digitally stabilizing video captured from rolling shutter cameras

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3971065A (en) 1975-03-05 1976-07-20 Eastman Kodak Company Color imaging array
US4642678A (en) 1984-09-10 1987-02-10 Eastman Kodak Company Signal processing method and apparatus for producing interpolated chrominance values in a sampled color image signal
US4774574A (en) 1987-06-02 1988-09-27 Eastman Kodak Company Adaptive block transform image coding method and apparatus
US5189511A (en) 1990-03-19 1993-02-23 Eastman Kodak Company Method and apparatus for improving the color rendition of hardcopy images from electronic cameras
JPH06149902A (ja) * 1992-11-09 1994-05-31 Matsushita Electric Ind Co Ltd 動画像記録媒体、動画像記録装置、及び動画像再生装置
US5493335A (en) 1993-06-30 1996-02-20 Eastman Kodak Company Single sensor color camera with user selectable image record size
US5668597A (en) 1994-12-30 1997-09-16 Eastman Kodak Company Electronic camera with rapid automatic focus of an image upon a progressive scan image sensor
US5828406A (en) 1994-12-30 1998-10-27 Eastman Kodak Company Electronic camera having a processor for mapping image pixel signals into color display pixels
JP3472659B2 (ja) * 1995-02-20 2003-12-02 株式会社日立製作所 映像供給方法および映像供給システム
US5652621A (en) 1996-02-23 1997-07-29 Eastman Kodak Company Adaptive color plane interpolation in single sensor color electronic camera
JP3175632B2 (ja) * 1997-04-18 2001-06-11 松下電器産業株式会社 シーンチェンジ検出方法およびシーンチェンジ検出装置
US5956026A (en) 1997-12-19 1999-09-21 Sharp Laboratories Of America, Inc. Method for hierarchical summarization and browsing of digital video
US6192162B1 (en) 1998-08-17 2001-02-20 Eastman Kodak Company Edge enhancing colored digital images
US6833865B1 (en) 1998-09-01 2004-12-21 Virage, Inc. Embedded metadata engines in digital capture devices
US6625325B2 (en) 1998-12-16 2003-09-23 Eastman Kodak Company Noise cleaning and interpolating sparsely populated color digital image using a variable noise cleaning kernel
US6462754B1 (en) 1999-02-22 2002-10-08 Siemens Corporate Research, Inc. Method and apparatus for authoring and linking video documents
WO2001041451A1 (en) 1999-11-29 2001-06-07 Sony Corporation Video/audio signal processing method and video/audio signal processing apparatus
AUPQ535200A0 (en) 2000-01-31 2000-02-17 Canon Kabushiki Kaisha Extracting key frames from a video sequence
US7055168B1 (en) 2000-05-03 2006-05-30 Sharp Laboratories Of America, Inc. Method for interpreting and executing user preferences of audiovisual information
GB0029880D0 (en) 2000-12-07 2001-01-24 Sony Uk Ltd Video and audio information processing
US7110458B2 (en) * 2001-04-27 2006-09-19 Mitsubishi Electric Research Laboratories, Inc. Method for summarizing a video using motion descriptors
US7035435B2 (en) 2002-05-07 2006-04-25 Hewlett-Packard Development Company, L.P. Scalable video summarization and navigation system and method
US20040052505A1 (en) 2002-05-28 2004-03-18 Yesvideo, Inc. Summarization of a visual recording
US7119837B2 (en) * 2002-06-28 2006-10-10 Microsoft Corporation Video processing system and method for automatic enhancement of digital video
JP4244584B2 (ja) * 2002-08-01 2009-03-25 ソニー株式会社 重要画像検出装置、重要画像検出方法、プログラム及び記録媒体並びに重要画像検出システム
CA2443365C (en) 2002-11-19 2010-01-12 F. Hoffmann-La Roche Ag Methods for the recombinant production of antifusogenic peptides
US7483618B1 (en) 2003-12-04 2009-01-27 Yesvideo, Inc. Automatic editing of a visual recording to eliminate content of unacceptably low quality and/or very little or no interest
JP4368819B2 (ja) * 2005-03-30 2009-11-18 株式会社日立製作所 要約再生装置及び要約再生装置の制御方法
JP4849818B2 (ja) 2005-04-14 2012-01-11 イーストマン コダック カンパニー ホワイトバランス調整装置及び色識別装置
US7760956B2 (en) * 2005-05-12 2010-07-20 Hewlett-Packard Development Company, L.P. System and method for producing a page using frames of a video stream
US7889794B2 (en) 2006-02-03 2011-02-15 Eastman Kodak Company Extracting key frame candidates from video clip
CN101427250B (zh) 2006-04-20 2012-07-04 Nxp股份有限公司 对数据流创建摘要的数据摘要系统和方法
JP5022370B2 (ja) 2006-09-12 2012-09-12 パナソニック株式会社 コンテンツ撮影装置
US8503523B2 (en) 2007-06-29 2013-08-06 Microsoft Corporation Forming a representation of a video item and use thereof
US20100128118A1 (en) * 2008-11-26 2010-05-27 Locarna Systems, Inc. Identification of visual fixations in a video stream
US8520736B2 (en) * 2009-04-14 2013-08-27 Fastvdo, Llc Real-time superresolution and video transmission

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070182861A1 (en) * 2006-02-03 2007-08-09 Jiebo Luo Analyzing camera captured video for key frames
US20070237225A1 (en) * 2006-03-30 2007-10-11 Eastman Kodak Company Method for enabling preview of video files
US20090160957A1 (en) * 2007-12-20 2009-06-25 Micron Technology, Inc. Methods and system for digitally stabilizing video captured from rolling shutter cameras

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104185089A (zh) * 2013-05-23 2014-12-03 三星电子(中国)研发中心 视频概要生成方法及服务器、客户端
CN104185089B (zh) * 2013-05-23 2018-02-16 三星电子(中国)研发中心 视频概要生成方法及服务器、客户端
CN105100688A (zh) * 2014-05-12 2015-11-25 索尼公司 图像处理方法、图像处理装置和监视系统
CN105100688B (zh) * 2014-05-12 2019-08-20 索尼公司 图像处理方法、图像处理装置和监视系统
CN106462744A (zh) * 2014-06-12 2017-02-22 微软技术许可有限责任公司 基于规则的视频重要性分析
US10664687B2 (en) 2014-06-12 2020-05-26 Microsoft Technology Licensing, Llc Rule-based video importance analysis

Also Published As

Publication number Publication date
JP2013532323A (ja) 2013-08-15
CN102906746B (zh) 2015-12-02
EP2577513A1 (en) 2013-04-10
JP5837922B2 (ja) 2015-12-24
WO2011149860A1 (en) 2011-12-01
US8619150B2 (en) 2013-12-31
US20110292229A1 (en) 2011-12-01

Similar Documents

Publication Publication Date Title
CN102906746B (zh) 排序具有视频帧的时间序列的数字视频的关键视频帧的方法和装置
CN102939630B (zh) 用于确定关键视频帧的方法
US8605221B2 (en) Determining key video snippets using selection criteria to form a video summary
CN102906816B (zh) 视频概要方法
CN102906818B (zh) 存储视频摘要的方法和显示相应于视频摘要的视频帧的系统
CN103620682B (zh) 数字视频摄像机系统和形成视频摘要的方法
KR101531783B1 (ko) 특정한 사람을 포함하는 비디오 요약본
CN102959944B (zh) 自动的数码相机摄影模式选择
CN105556947A (zh) 用于色彩检测以生成文本色彩的方法和装置
US7826667B2 (en) Apparatus for monitor, storage and back editing, retrieving of digitally stored surveillance images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: GAOZHI 83 FOUNDATION LLC

Free format text: FORMER OWNER: EASTMAN KODAK COMPANY (US) 343 STATE STREET, ROCHESTER, NEW YORK

Effective date: 20130409

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130409

Address after: Nevada, USA

Applicant after: Gaozhi 83 Foundation Co.,Ltd.

Address before: American New York

Applicant before: Eastman Kodak Co.

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180521

Address after: Texas, USA

Patentee after: Mau new gate Venture Capital Co., Ltd.

Address before: Nevada, USA

Patentee before: Gaozhi 83 Foundation Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151202

Termination date: 20190524