CN101346719B - 从视频帧中选择关键帧 - Google Patents

从视频帧中选择关键帧 Download PDF

Info

Publication number
CN101346719B
CN101346719B CN200680048828.8A CN200680048828A CN101346719B CN 101346719 B CN101346719 B CN 101346719B CN 200680048828 A CN200680048828 A CN 200680048828A CN 101346719 B CN101346719 B CN 101346719B
Authority
CN
China
Prior art keywords
video
frame
information
value
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200680048828.8A
Other languages
English (en)
Other versions
CN101346719A (zh
Inventor
王好弘
N·玛拉亚斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN101346719A publication Critical patent/CN101346719A/zh
Application granted granted Critical
Publication of CN101346719B publication Critical patent/CN101346719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7864Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using domain-transform features, e.g. DCT or wavelet transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Studio Devices (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开描述了从视频帧序列标识关键帧。通过对未经压缩的数据的操作而生成的第一信息集被访问。通过压缩数据生成的第二信息集也被访问。该第一和第二信息集被用于从视频帧标识关键帧。

Description

从视频帧中选择关键帧
背景领域
本发明的实施例涉及视频数据的处理。
背景
通用媒体接入(UMA)被预期在下一代多媒体(例如,视频或音频)应用和设备中起重大作用。UMA的基础概念是通用或无缝地访问多媒体内容,并且该内容在用户与设备交互之后被自动地选择和/或改编成用在用户设备上。
例如,移动电话可用于检索、观看和传送多媒体内容。然而,虽然移动电话的能力持续提升,但是此类设备相对于诸如个人计算机之类功能强大的平台仍多少受到限制。数据传输和检索速率可能也是一个因素。视频数据的量通常被认为多于音频数据的量。
视频摘要技术可用于生成概括了视频帧序列的静止图像情节串(storyboard)。情节串由数目相对较少的具有代表性的帧——也称为关键帧——组成,这些关键帧是提取自由更多数目的帧构成的低层视频序列。视频摘要技术对于UMA是重要的,因为它们可用于概括视频内容以更容易地检索和传输。即,由于关键帧代表与整体视频序列相比要少得多的数据量,因此关键帧可在诸如移动电话之类能力有限的设备之间容易地分发和共享。
有各种不同的视频摘要技术被使用。然而,这些常规技术的每一种在某个方面或某些方面是有问题的。大体上,常规技术的一个问题是它们很复杂,并且会消费相当数量的计算资源以处理大量视频数据。尝试限制复杂度常常意味着可导致对关键帧的较好选择的信息未被考虑。
因此,一种在无需超大量计算资源的情况下可改善关键帧选择的方法和/或系统将是有利的。本文所述的实施例提供了这些以及其它优势。
概述
描述了用于从视频帧序列标识关键帧的方法和系统。在一个实施例中,第一信息集——通过对未经压缩的数据执行操作而生成的——被访问。第二信息集——通过压缩数据生成的——也被访问。该第一和第二信息集被用于标识视频帧中的关键帧。
通常,第一和第二信息集提供了局部相似性(“摘要表示”)、内容偏差覆盖、和视觉质量的量度,它们被组合以构建新颖的成本函数,后者被求解以标识哪些视频帧可用作关键帧。例如,帧中使成本函数的值最小化的子集可用作关键帧。标识关键帧的过程可或者联机(包括实时)或者脱机地执行。
在一个实施例中,以上提到的第一信息集是使用由视频捕捉设备实现的操作——诸如自动白平衡、自动曝光控制和自动焦距控制——生成的。在一个这样的实施例中,第一集中的信息类型包括亮度信息、色度信息和焦距值。在另一个实施例中,以上提及的第二信息集中的信息类型包括运动矢量信息、宏块预测模式信息和畸变信息。除第一和第二信息集之外,与用户和视频捕捉设备的交互相关联的信息也可被考虑。
通过利用根据对原始(未经压缩的)视频数据执行的操作生成以及在视频数据的压缩期间生成的信息,实现是实用的且在复杂度方面是较低的。在阅读了以下在各个附图中图解的详细描述之后,这些以及其它特征、方面和优势将得以更好的理解。
附图简述
图1是用于处理视频数据的设备的一个实施例的框图。
图2是视频摘要系统的一个实施例的功能框图。
图3是示出了视频摘要系统中视频前端的一个实施例中的数据流的框图。
图4是示出了视频摘要系统中视频摘要器(summarizer)的一个实施例的数据流的框图。
图5是可用在视频摘要系统中的有向非循环图的示例。
图6是视频摘要方法的一个实施例的流程图。
图7是视频摘要方法的另一个实施例的流程图。
实施例的详细描述
在以下详细描述中,阐述各个特定细节是为了提供对本发明的实施例的透彻理解。然而,本领域技术人员将认识到,没有这些特定细节或使用其等效方案也可实践这些实施例是显而易见的。在其它实例中,没有详细描述众所周知的方法、程序和组件以免非必要地模糊这些实施例的概念。
本领域技术人员还应当进一步领会,结合本文中所公开的实施例描述的这些不同的说明性逻辑块、模块、电路、和算法步骤可被实现为电子硬件、计算机软件、或两者的组合。为了清晰地说明硬件与软件的这种可互换性,各个示例性组件、板块、模块、电路、和步骤在上面是以其功能集的形式作一般化描述的。这样的功能集是被实现为硬件还是软件取决于具体应用和加诸于整个系统的设计约束。技术人员可针对每个具体应用以不同方式实现所描述的功能集,但是这些实现决策不应当被解释成致使脱离本发明的范围。
结合本文中所公开的实施例所描述的各个说明性逻辑块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件、或其设计成执行本文中所描述的功能的任何组合来实现或执行。通用处理器可以是微处理器,但是在替换方案中,处理器可以是任何常规处理器、控制器、微控制器、或状态机。处理器还可被实现为计算设备的组合,例如,DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其它这样的配置。
结合在此公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在随机访问(易失性)存储器(RAM)、闪存、只读(非易失性)存储器(ROM)、可擦可编程ROM(EPROM)、电可擦可编程ROM(EEPROM)、寄存器、硬盘、可移动盘、压缩盘ROM(CD-ROM)、或本领域中所知的任何其它形式的存储介质中。示例性的存储介质耦合到处理器,以使得该处理器可从/向该存储介质读取和写入信息。在替换方案中,存储介质可整合到该处理器。该处理器和存储介质可驻留在ASIC中。该ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
本文提供的描述和示例是在基于视频的数据(也称为视频数据、媒体数据或者多媒体数据或内容)的上下文中讨论的;然而,可使用其它类型的数据,诸如但不限于基于图像的数据、基于网页的数据、基于图形的数据。
图1是用于处理视频数据的设备10的一个实施例的框图。设备10包括用于实现视频摘要系统的各个实施例的执行平台的组件。如图1中所示,设备10包括经由主机接口11耦合至数字信号处理器DSP15的微处理器12(例如,高级精简指令集计算机或ARM处理器)。主机接口11将在微处理器12与DSP15之间传递的数据和命令转译成其相对应的格式。在本实施例中,微处理器12和DSP15两者皆经由存储器控制器16耦合至存储器17。在图1的示例中,存储器17是共享存储器,因此存储器17为微处理器12和DSP15两者存储指令和数据。在此实施例中,对共享存储器17的访问是通过存储器控制器16。在一个实施例中,共享存储器17也包括用于存储驱动所耦合的显示器18的像素数据的视频帧缓冲器。
如以上所提到的,在一个实施例中,视频摘要系统的某些处理和步骤可被实现为驻留在计算机系统(例如,设备10)的计算机可读存储器(例如,存储器17)内并由设备10的微处理器12和DSP15执行的一系列指令(例如,一个或多个软件程序)。当执行时,这些指令促使设备10实现以下所描述的实施例的功能。在另一个实施例中,某些处理和步骤可在硬件中实现。
图2是可使用图1的设备10实现的视频摘要系统20的一个实施例的功能框图。视频原始(未经压缩的)图像数据序列由结合了设备10的元件的视频捕捉设备(例如,数字摄像机、数码相机等)来捕捉。原始图像数据包括数据帧序列,每个帧实质上代表一静止图像,帧序列表示在回放(显示)时导致运动画面的毗邻图像集。原始图像数据可在由系统20进一步处理之前被存储。如果数据被存储,则处理可在随后脱机地进行。处理也可联机或实时地进行。
参看图2,在本实施例中,原始图像数据序列进入视频前端(VFE)21,后者分析该数据,计算出特定类型的信息(在本文中也称为第一信息集或第一信息),并将该第一信息集存储在存储元件23中。VFE21的功能和可被纳入第一信息集中的信息类型将在以下结合图3更全面地描述。
图2的VFE21将经处理但仍未压缩的视频数据转发到编码器22,后者压缩(编码)该视频数据。该视频数据可使用诸如但不限于MPEG-1、MPEG-2和MPEG-4的运动图像专家组(MPEG)压缩(编码)方案,以及诸如H.261、H.263和H.264的国际电信联盟(ITU)编码方案。通常,利用时间冗余或运动补偿的编码方案——更具体而言使用运动矢量来提升压缩量(压缩比)的编码方案——可被使用。
由编码器22编码的经压缩的比特流被存储在存储元件25中。尽管示为独立单元,但是这些存储元件23和25可以是同一存储器单元的一部分。在一个实施例中,经压缩的比特流代表如在本领域中称为I帧、P帧和B帧的经压缩的视频帧序列,这些帧的每一个都由相对应的帧索引来标识。
作为压缩处理的一部分,特定类型的信息(在本文中也称为第二信息集或第二信息)由编码器22生成。在一个实施例中,第二信息集连同由VFE21计算出的第一信息集被存储在存储元件23中。在一个实施例中,第二信息集包括诸如但不限于畸变量度信息、宏块预测模式和前述运动矢量信息的信息。各种畸变量度可被使用;一种本领域中已知的畸变量度是“绝对差值和”(SAD)。宏块预测模式可以是“在其间”或“在其内”——宏块间预测依赖于另一宏块的内容并且是使用运动信息从另一宏块导出的;宏块内预测独立于另一宏块的内容并且不包含任何运动信息。第一和第二信息集可统称为辅助信息或提示信息。
总体上,在一个实施例中,摘要器24使用来自存储元件23的辅助信息来构建成本函数,该成本函数被评估以从存储在存储元件25中的视频帧序列选择关键帧。例如,使成本函数最小化的帧的子集可被标识为关键帧。将在以下结合图4更详细地描述成本函数的构建和评估。
继续参照图2,在一个实施例中,摘要器24标识帧中被选择作为关键帧的那些帧的索引;这些索引可在稍后被用于从存储元件25检索关键帧。然而,在另一个实施例中,被选为关键帧的视频帧可被复制并存储;即,关键帧以及从中选择这些帧的整个视频序列皆被冗余地存储。
在一个实施例中,摘要器24在选择关键帧的过程中也考虑用户输入。用户输入可直接由用户输入,或者它们可推断自用户行为。直接用户输入可包括由系统20使用的某些参数的用户专用值,诸如由摘要器24使用的压缩比(例如,关键帧的数目与视频序列中帧的数目的比);其它类型的直接用户输入将在以下图4的讨论中被提及。推断出的用户输入是从用户与视频捕捉设备交互推导出的输入。例如,用户在一时间段内对主题进行“放大”的动作可以指示该主题为用户所特别感兴趣。在该时间段内捕捉的帧序列,或者也许只是帧序列的起始帧可以某种方式来标识(例如,加标签),并且这些信息可在随后作为因子纳入本文所描述的关键帧选择过程。
系统20——具体而言为摘要器24——可以脱机模式、联机模式或实时模式操作。在一个实施例中,系统20的操作模式是由用户选择的。
在脱机模式中,摘要器24可对整个视频帧序列考虑辅助信息。在联机或实时模式中,摘要器24可每次仅对视频帧序列的一部分考虑辅助信息。即,例如,在联机或实时模式中,摘要器24首先仅考虑视频帧序列的一部分、从该部分选择一个或数个关键帧、以及在随后刷新该部分。
接着,摘要器24考虑序列的下一部分、在刷新该第二部分之前从其选择一个或数个关键帧、依次类推。脱机处理可标识更多代表整体视频帧序列的关键帧。联机或实时处理可利用比脱机处理少的存储。
当关键帧被标识时,在一个实施例中,标识这些关键帧的帧索引被转发到解码器26,后者从存储器25中检索适当的帧并将它们解压缩。经解压缩的关键帧可在随后发送到多媒体显示处理器(MDP)28以进行显示和/或编辑。在另一个实施例中,标识关键帧的帧索引被转发到代码转换器27,后者从存储器25检索适当的帧并对它们进行代码转换。示例代码转换操作包括比特率缩减、速率修整、空间降采样、和帧速率缩减。通常,代码转换器27采用经压缩的视频比特流作为输入,并对其进行处理以生成另一经压缩的视频比特流作为输出。经代码转换的比特流可在随后被发送到多媒体消息接发服务(MMS)29、被传送到另一设备(例如,另一个移动设备),后者又将该比特流解码以进行显示和/或编辑。
图3是示出了视频摘要系统(例如,图2的系统20)中VFE21的一个实施例中的数据流的框图。如以上所提及的,VFE21在处理原始或未经压缩的图像数据期间生成第一信息集。在本实施例中,第一信息集是通过由VFE21执行的自动白平衡操作31、自动曝光控制操作32、和自动焦距控制操作33生成。
在一个实施例中,自动白平衡操作31用于确定红、绿和蓝通道上用于补偿白色值中因场景照明色而导致的色移所需增益。在一个此类实施例中,自动白平衡操作31包括像素色彩测定、照明估计和白平衡。根据自动白平衡操作31,为每个视频帧确定色度值(例如,也称为‘U’和‘V’的Cb和Cr)。在一个实施例中,每个帧的色度值被表示为128点柱状图(64点给‘U’以及64点给‘V’)。
在一个实施例中,自动曝光控制操作32包括光测定、场景分析和曝光补偿。在一个此类实施例中,输入图像被分成256个区,并且这些区的每一个被进一步细分成四个子区。对于256个区的每一个,生成区中像素的亮度值的总和、区中最小局部总亮度值、和区中最大绝对Δ局部总亮度值。使用这些信息,每个子区中像素的亮度值的总和被确定。最后,为每个帧确定亮度值(Y)的64点柱形图。而且,也为每个帧生成降采样8×8亮度图像(L)。
在一个实施例中,自动焦距控制操作33包括两个子过程:1)用于确定给定透镜位置的焦距值(F)的过程;以及2)用于基于一系列焦距值确定焦点位置的过程。在一个实施例中,焦距值‘F’是根据亮度值‘Y’使用式(1)来确定的:
F = Σ i MAX { [ Y ( i , j ) - Y ( i , j + 2 ) ] 2 + [ Y ( i , j ) - Y ( i + 2 , j ) ] 2 + [ Y ( i , j ) - Y ( i + 2 , j + 2 ) ] 2 } , - - - ( 1 )
其中:j=J*2、J*2+2、J*2+4、…、2*X-2且i=I*2、I*2+2、I*2+4、I*Z-2,其中‘I’是对半子采样(subsampled-by-two)域中焦距窗口的起始行;‘J’是对半子采样域中焦距窗口的起始列;‘Z’是对半子采样域中焦距窗口的结束行(Z-J≤508);‘X’是对半子采样域中焦距窗口的结束列(X-J≤508);并且X-J是偶数。预期较大的‘F’值对应于图像中较低概率的模糊。
图4是示出了视频摘要系统(例如,图2的系统20)中视频摘要器24的一个实施例中的数据流的框图。在以下讨论中,‘N’表示所考虑的视频帧序列中的帧的总数,而‘M’是视频摘要的长度(即,‘M’是关键帧的数目)。通常,在考虑局部表示或相似性、内容偏差和视觉质量的情况下,视频摘要器24标识‘M’个选定帧ai(i=1、2、…、M,且a0=0)的索引。
如本文中所用的,提供满意的局部表示或相似性的帧是与其毗邻的帧足够相似以在视频摘要中表示它们的那些帧。即,对于给定视频帧序列,表示该序列的关键帧与该序列中的其它帧足够相似以使得仅观看关键帧的用户对序列捕捉到什么主题有一定了解是合需的。在图4的示例中,色彩相似性被用于评估一组毗邻帧的相似性。在同样参照图3的一个实施例中,获得自自动曝光和白平衡过程31、32的‘Y’和‘UV’色彩柱形图被表示为单个192点柱形图‘H’,后者用于使用式(2)和(3)来定义每个帧‘i’(i=1、2、…、M)的局部表示(A):
A(i)=Sim(Hi-1,Hi),i=N;或者(2)
A ( i ) = Sim ( H i - 1 , H i ) + Sim ( H i , H i + 1 ) 2 , 其它;(3)
其中“Sim”是用于比较两个一维矢量的函数,由下式(4)定义如下:
Sim ( x ‾ , y ‾ ) = x ‾ · y ‾ | | x ‾ | | · | | y ‾ | | - - - ( 4 )
内容偏差是通过考虑两个连贯帧之间的相似性(更具体地,相异点)来解决的。在图4的示例中,同样参照图3,获得自自动曝光控制和白平衡过程31和32的YUV(YCbCr)信息以及获得自自动曝光控制过程32的降采样8×8亮度图像‘L’用于使用式(5)和(6)来定义两个帧的相似性(B):
B(i,j)=0,i=0;或者(5)
B(i,j)=γSim(Hi,Hj)+(1-γ)Sim(Li,Lj),其它;(6)
其中‘γ’是其值在零与1之间可调整的加权因子。加权因子‘γ’可以是预置值或用户指定输入。
在式(5)和(6)中,考虑亮度的相似性以检测对象在静止或相对稳定的背景上移动的情形。
如本文所用的,提供满意的视觉质量的帧是具有较低模糊(例如,由于视频捕捉设备的移位)并且包括相对于毗邻帧具有较小运动的对象和/或背景的帧。在图4的示例中,同样参照图2和3,帧的视觉质量(C)使用根据自动焦距控制过程33为该帧确定的焦距值‘F’以及由编码器22确定的第二信息集两者来定义,如下:
C ( i ) = η | | MV i | | S i 2 + ( 1 - η ) ( F MAX - F i ) , i=N;或者(7)
C ( i ) = η | | MV i | | S i 2 + | | MV i + 1 | | S i + 1 2 2 + ( 1 - η ) ( F MAX - F i ) , 其它(8)
其中‖MV‖表示该帧的宏块运动矢量的总长度,‘S’是帧中的总宏块SAD,FMAX是预指定焦距值的上限,而‘η’是其值在零与一之间的可调整加权因子。加权因子‘η’可以是预置值或用户指定输入。
在一个实施例中,关键帧通过标识对应于较大而 Σ i = 1 M B ( a i - 1 , a i ) 较小的那些帧、通过如下组合这些项来选择:
最小化 T ( a 1 , a 2 , . . . , a M ) = Σ i = 1 M { α [ 1 - A ( a i ) ] + βB ( a i - 1 , a i ) + [ 1 - α - β ] C ( a i ) } , - - - ( 9 )
其中‘α’和‘β’是其值在零与一之间的可调整加权因子。该加权因子‘α’和‘β’可以是预置值或用户指定输入。
式(9)可通过考虑‘M’个关键帧(选自‘N’个帧的序列)的每一种可能的组合以穷举方式来求解以确定哪种组合使‘T’最小化。即,在一个实施例中,使T最小化的那一个‘M’个帧的组合是被选为关键帧的帧集合。
与穷举地求解式(9)不同,基于式(9)的成本函数‘G’可使用式(10)来定义:
G k ( a k ) = Minimize a 1 , a 2 , . . . , a k - 1 T ( a 1 , a 2 , . . . , a k ) , - - - ( 10 )
这表示直至帧ak并包括它的最小值求和。根据式(10):
G M ( a M ) = Minimize a 1 , a 2 , . . . , a M - 1 T ( a 1 , a 2 , . . . , a M ) , 以及(11)
Minimize a M G M ( a M ) = Minimize a 1 , a 2 , . . . , a M T ( a 1 , a 2 , . . . , a M ) . - - - ( 12 )
给定成本函数Gk-1(ak-1),选择下一帧ak与对先前帧a1、a2、…、ak-2的选择无关。这种观测被论证,由于成本函数可递归地表达为:
G k + 1 ( a k + 1 ) = Minimize a k { G k ( a k ) + α [ 1 - A ( a k + 1 ) ] + βB ( a k , a k + 1 ) + ( 1 - α - β ) C ( a k + 1 ) } - - - ( 13 )
成本函数的递归表示使求解过程进一步的步骤独立于其先前的步骤,这是动态编程的基础。式(13)通过将问题转换成在有向非循环图(DAG)中寻找最短路径的图形理论问题来求解。
图5是可由诸如图2的系统20的视频摘要系统使用的DAG50的示例。在图5的示例中,‘M’为三,而‘N’为五。使用DAG求解图形理论问题的计算复杂度是O(NM2)。
图6是视频摘要方法的一个实施例的流程图60。在一个实施例中,由流程图60描述的方法是由图2和4的视频摘要器24来执行的。流程图60描述的方法的各个方面可被例如用在序列中视频帧的数目‘N’超过存储器容量的情形中,或者用在计算复杂度高出所分配或所允许的能力和处理时间的情况中。通常,流程图60的方法的目的是将视频序列分成多个“镜头(shot)”,并在随后寻找每个镜头中的一个或多个关键帧。本质上,如果‘M’个关键帧是选自‘N’个视频帧序列,则流程60的方法被用于标识多少个帧被纳入每个镜头中,以及多少关键帧被分配给各个镜头中的每一个。每个镜头的帧数目并非必定相同。此外,每个镜头的关键帧数目无需相同。
在图6的框61中,镜头边界被标识。即,例如,要被纳入第一镜头的帧被标识。在一个实施例中,色彩柱形图‘H’被用在式(2)和(3)中以确定两个连贯帧之间的局部相似性‘A’。在这样的一个实施例中,定义并应用一阈值。两个连贯帧之间的镜头边界可在这两个帧之间的相似性无法满足阈值时在随后被标识,藉此指示可能的场景变化。
如果镜头边界的数目超过摘要中的定义长度——即,如果镜头边界的数目大于‘M’——则具有最小局部相似性‘A’的镜头边界被选择,并且与该镜头边界相对应的帧被选为关键帧。否则,每个镜头的关键帧数目被确定,并且流程图60前进到框62。
在框62中,基于运动活动的镜头压缩比使用式(14)来计算:
M i = 1 + Σ j = 1 + Σ k = 1 i - 1 n k Σ k = 1 i n k ( | | MV j | | S j 2 ) Σ j = 1 n ( | | MV j | | S j 2 ) ( M - P ) , - - - ( 14 )
其中‘P’是镜头的总数,‘ni’是每个镜头的长度(镜头‘i’中帧的数目),Mi是镜头‘i’中关键帧的数目,而‘S’是帧中总宏块SAD。式(14)的使用将导致较多的关键帧被指派给其中视频序列包含较多运动和活动的镜头,而较少的关键帧被指派给具有较少运动和活动的镜头。
在框63中,为镜头选择一个或多个关键帧。在一个实施例中,关键帧是使用以上结合图4描述的技术来选择的。
在图6的框64中,作出关于是否有别的镜头要被考虑的决定。如果要考虑,则流程图60返回到框63;否则,流程图60前进到框65。
在框65中,同样参照图2,标识每个镜头的关键帧的结果如本文先前所述地被从摘要器24输出到解码器26或代码转换器27。
图7是标识关键帧的方法的实施例的流程图70。在框71中,根据对未经压缩图像数据操作而生成的第一信息集被访问。在一个实施例中,并参照图2和3,这些操作由VFE21执行,并且从存储元件23访问第一信息集。在一个实施例中,操作包括自动白平衡31、自动曝光控制32和自动焦距控制33。在一个实施例中,第一信息集包括亮度信息(Y)、色度信息(U,V)和焦距值(F)。
在图7的框72中,通过压缩图像数据生成的第二信息集被访问。在一个实施例中,并参照图2,图像数据由编码器22压缩,并且从存储元件23访问第二信息集。在一个实施例中,第二信息集包括运动矢量信息、宏块预测模式信息和畸变信息。
在图7的框73中,第一信息集和第二信息集被组合以标识一个或多个关键帧。在一个实施例中,并参照图4,关键帧由摘要器24来选择。在一个此类实施例中,摘要器24通过组合每个视频帧的第一值、第二值和第三值来构建成本函数,其中第一值对应于该视频帧与视频帧中其它帧之间相似性(A)的量度,第二值对应于该视频帧与邻接视频帧之间相似性(B)的量度,而第三值(C)对应于该视频帧的视觉质量的量度。在这样的一个实施例中,摘要器24评估成本函数以确定视频帧子集的得分。不同子集可被评估,并且在一个实施例中,使成本函数最小化的视频帧子集被用作关键帧。
在一个实施例中,如结合图6所描述的,视频帧被分割成多个邻接视频帧片段或镜头。在一个此类实施例中,一定数目的关键帧被分配给镜头的每一个。在一个实施例中,关键帧是使用运动矢量信息和畸变信息来分配的。
尽管在图6和7的流程图60和70中描述了具体步骤,但是这些步骤是示例性的。即,各个其它步骤或对流程图60和70中描绘的步骤的变体可被执行。应当领会,流程图60和70中的步骤可以不同于所给出的次序执行,并且流程图60和70中的步骤并非必定要以所示的顺序执行。
总之,描述了使用由例如视频前端和解码器生成的提示信息来选择关键帧的新颖视频摘要技术。在通用框架中考虑摘要表示、内容偏差覆盖和关键帧视觉质量(例如,焦距)。例如,具体特征空间、覆盖色、运动和视觉质量以及可能还包括的用户输入被组合到新颖成本函数中,该函数引导对关键帧的选择。在一个实施例中,成本函数被映射成图形理论问题并使用动态编程来求解。
例如,通过采用视频前端和编码器的输出的优势,技术的复杂度相对较低,因为它无需访问或处理大量原始视频序列数据。同样,该技术适于实时或联机处理以及脱机处理。此外,存储器资源被有效利用和管理。
提供所公开的实施例的先前描述旨在使本领域的任何技术人员皆能够制作或使用本发明。对于本领域的技术人员对这些实施例的各种修改将是显而易见的,并且在此所定义的一般性原理可适用于其它实施例而不会背离本发明的精神实质或范围。因此,本发明无意被限于这里所示的实施例,而应根据与在此所公开的原理和新颖特征相一致的最宽范围来授权。

Claims (22)

1.一种标识多个视频帧中的关键帧的方法,所述方法包括:
访问由对包括所述多个视频帧的未经压缩图像数据的操作而生成的第一信息,其中所述第一信息包括以下至少两者:从自动白平衡获得的亮度信息、从自动曝光控制获得的色度信息和从自动焦距控制获得的焦距值;
访问通过压缩所述图像数据生成的第二信息,其中所述第二信息包括运动矢量信息、宏块预测模式信息、和畸变信息中的至少一者;以及
基于所述第一信息和所述第二信息产生成本函数来标识从所述多个视频帧中选出的关键帧,包括:
通过对于所述多个视频帧的子集中的每个视频帧,组合第一值、第二值和第三值来构建所述成本函数,其中所述第一值对应于该视频帧与所述多个视频帧中其它视频帧之间相似性的量度,所述第二值对应于该视频帧与邻接视频帧之间相似性的量度,而所述第三值对应于该视频帧的视觉质量的量度;
评估所述成本函数以确定所述视频帧子集的得分,其中对所述多个视频帧的不同子集执行所述评估以确定各子集的得分;以及
选择使成本函数最小化的一个视频帧子集,其中所选择的视频帧子集中的视频帧被用作关键帧。
2.如权利要求1所述的方法,其特征在于,所述操作是由有视频能力的相机来执行的,并且涉及自动白平衡、自动曝光控制、和自动焦距控制中的至少一者。
3.如权利要求1所述的方法,其特征在于,所述第一信息包括所述亮度信息、所述色度信息和所述焦距值。
4.如权利要求1所述的方法,其特征在于,所述第二信息包括所述运动矢量信息、所述宏块预测模式信息、和所述畸变信息。
5.如权利要求1所述的方法,其特征在于,还包括使用所述亮度信息和所述色度信息来确定对应于所述多个视频帧之一与其它所选视频帧之间相似性的量度的值。
6.如权利要求1所述的方法,其特征在于,还包括使用所述亮度信息来确定对应于两个连贯视频帧之间相似性的量度的值。
7.如权利要求1所述的方法,其特征在于,还包括使用所述焦距值和所述运动矢量来确定对应于视频帧的视觉质量的量度的值。
8.如权利要求1所述的方法,其特征在于,还包括:
将所述多个视频帧分割成多段邻接视频帧;以及
向所述各段中的每一段分配一定数目个关键帧,其中关键帧的总数不超过规定最大值。
9.如权利要求8所述的方法,其特征在于,所述分配是使用选自运动矢量信息和畸变信息中的至少一者的信息来执行的。
10.一种用于标识多个视频帧中的关键帧的设备,包括:
用于访问由对包括所述多个视频帧的未经压缩图像数据的操作而生成的第一信息的装置,其中所述第一信息包括以下至少两者:从自动白平衡获得的亮度信息、从自动曝光控制获得的色度信息和从自动焦距控制获得的焦距值;
用于访问通过压缩所述图像数据生成的第二信息的装置,其中所述第二信息包括运动矢量信息、宏块预测模式信息、和畸变信息中的至少一者;以及
用于基于所述第一信息和所述第二信息产生成本函数来标识从所述多个视频帧中选出的关键帧的装置,包括:
用于通过对于所述多个视频帧的子集中的每个视频帧,组合第一值、第二值和第三值来构建所述成本函数的装置,其中所述第一值对应于该视频帧与所述多个视频帧中其它视频帧之间相似性的量度,所述第二值对应于该视频帧与邻接视频帧之间相似性的量度,而所述第三值对应于该视频帧的视觉质量的量度;
用于评估所述成本函数以确定所述视频帧子集的得分的装置,其中对所述多个视频帧的不同子集执行所述评估以确定各子集的得分;以及
用于选择使成本函数最小化的一个视频帧子集的装置,其中所选择的视频帧子集中的视频帧被用作关键帧。
11.如权利要求10所述的设备,其特征在于,所述操作是由有视频能力的相机来执行的,并且涉及自动白平衡、自动曝光控制、和自动焦距控制中的至少一者。
12.如权利要求10所述的设备,其特征在于,所述第一信息包括所述亮度信息、所述色度信息、和所述焦距值。
13.如权利要求10所述的设备,其特征在于,所述第二信息包括所述运动矢量信息、所述宏块预测模式信息、和所述畸变信息。
14.一种用于处理视频数据的设备,包括:
视频前端,用于对包括多个视频帧的未经压缩图像数据进行操作以生成第一信息,其中所述第一信息包括以下至少两者:从自动白平衡获得的亮度信息、从自动曝光控制获得的色度信息和从自动焦距控制获得的焦距值;
编码器,它被耦合至所述视频前端以用于压缩所述图像数据并生成第二信息,其中所述第二信息包括运动矢量信息、宏块预测模式信息、和畸变信息中的至少一者;
存储器,它被耦合至所述视频前端和所述编码器以用于存储所述第一信息和所述第二信息;以及
微处理器,它被耦合至所述存储器以用于实现用于标识所述多个视频帧中的关键帧的方法,所述微处理器配置为:
访问所述第一信息;
访问所述第二信息;以及
基于所述第一信息和所述第二信息产生成本函数来标识从所述多个视频帧中选出的关键帧,包括:
通过对于所述多个视频帧的子集中的每个视频帧,组合第一值、第二值和第三值来构建所述成本函数,其中所述第一值对应于该视频帧与所述多个视频帧中其它视频帧之间相似性的量度,所述第二值对应于该视频帧与邻接视频帧之间相似性的量度,而所述第三值对应于该视频帧的视觉质量的量度;
评估所述成本函数以确定所述视频帧子集的得分,其中对所述多个视频帧的不同子集执行所述评估以确定各子集的得分;以及
选择使成本函数最小化的一个视频帧子集,其中所选择的视频帧子集中的视频帧被用作关键帧。
15.如权利要求14所述的设备,其特征在于,所述操作包括自动白平衡、自动曝光控制、和自动焦距控制中的至少一者。
16.如权利要求14所述的设备,其特征在于,所述第一信息包括所述亮度信息、所述色度信息、和所述焦距值。
17.如权利要求14所述的设备,其特征在于,所述第二信息包括所述运动矢量信息、所述宏块预测模式信息、和所述畸变信息。
18.如权利要求14所述的设备,其特征在于,所述微处理器还配置为使用所述亮度信息和所述色度信息来确定对应于所述多个视频帧之一与其它所选视频帧之间相似性的量度的值。
19.如权利要求14所述的设备,其特征在于,所述微处理器还配置为使用所述亮度信息来确定对应于两个连贯视频帧之间相似性的量度的值。
20.如权利要求14所述的设备,其特征在于,所述微处理器还配置为使用所述焦距值和所述运动矢量来确定对应于视频帧的视觉质量的量度的值。
21.如权利要求14所述的设备,其特征在于,所述微处理器还配置为:
将所述多个视频帧分割成多段邻接视频帧;以及
向所述各段中的每一段分配一定数目的关键帧,其中关键帧的总数不超过规定最大值。
22.如权利要求21所述的设备,其特征在于,所述分配是使用所述运动矢量信息和所述畸变信息中的至少一者来执行的。
CN200680048828.8A 2005-12-23 2006-12-14 从视频帧中选择关键帧 Active CN101346719B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/317,934 US8036263B2 (en) 2005-12-23 2005-12-23 Selecting key frames from video frames
US11/317,934 2005-12-23
PCT/US2006/062130 WO2007120337A2 (en) 2005-12-23 2006-12-14 Selecting key frames from video frames

Publications (2)

Publication Number Publication Date
CN101346719A CN101346719A (zh) 2009-01-14
CN101346719B true CN101346719B (zh) 2016-04-20

Family

ID=38193694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200680048828.8A Active CN101346719B (zh) 2005-12-23 2006-12-14 从视频帧中选择关键帧

Country Status (6)

Country Link
US (1) US8036263B2 (zh)
EP (1) EP1964006A2 (zh)
JP (1) JP4885982B2 (zh)
KR (1) KR100987365B1 (zh)
CN (1) CN101346719B (zh)
WO (1) WO2007120337A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106888407A (zh) * 2017-03-28 2017-06-23 腾讯科技(深圳)有限公司 一种视频摘要生成方法及装置

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5212610B2 (ja) * 2006-02-08 2013-06-19 日本電気株式会社 代表画像又は代表画像群の表示システム、その方法、およびそのプログラム並びに、代表画像又は代表画像群の選択システム、その方法およびそのプログラム
AU2006230691B2 (en) * 2006-10-19 2010-11-25 Canon Kabushiki Kaisha Video Source Coding with Decoder Side Information
EP2206342A2 (en) * 2007-09-10 2010-07-14 Nxp B.V. Method and apparatus for motion estimation and motion compensation in video image data
US8406569B2 (en) * 2009-01-19 2013-03-26 Sharp Laboratories Of America, Inc. Methods and systems for enhanced dynamic range images and video from multiple exposures
US8774559B2 (en) 2009-01-19 2014-07-08 Sharp Laboratories Of America, Inc. Stereoscopic dynamic range image sequence
WO2012037715A1 (en) * 2010-09-20 2012-03-29 Nokia Corporation Identifying a key frame from a video sequence
CN102572356B (zh) 2012-01-16 2014-09-03 华为技术有限公司 记录会议的方法和会议系统
CN102930513B (zh) * 2012-09-25 2015-09-09 北京航空航天大学 一种视频场景的虚实光照融合方法
KR101475148B1 (ko) * 2013-06-27 2014-12-23 한국과학기술원 둘 이상의 특징을 기반으로 만들어진 다차원 공간에서 스카이라인을 이용한 가변수의 키 프레임 추출 장치 및 방법
WO2015021251A1 (en) * 2013-08-07 2015-02-12 AudioStreamTV Inc. Systems and methods for providing synchronized content
US9449374B2 (en) 2014-03-17 2016-09-20 Qualcomm Incoporated System and method for multi-frame temporal de-noising using image alignment
US9786028B2 (en) 2014-08-05 2017-10-10 International Business Machines Corporation Accelerated frame rate advertising-prioritized video frame alignment
US9373054B2 (en) * 2014-09-02 2016-06-21 Kodak Alaris Inc. Method for selecting frames from video sequences based on incremental improvement
US9875443B2 (en) * 2015-06-18 2018-01-23 TCL Research America Inc. Unified attractiveness prediction framework based on content impact factor
CN105046256B (zh) * 2015-07-22 2018-10-16 福建新大陆自动识别技术有限公司 基于畸变图像校正的qr码解码方法和系统
WO2017049577A1 (en) 2015-09-25 2017-03-30 Qualcomm Incorporated Systems and methods for video processing
US10460196B2 (en) * 2016-08-09 2019-10-29 Adobe Inc. Salient video frame establishment
CN109587581A (zh) * 2017-09-29 2019-04-05 阿里巴巴集团控股有限公司 视频缩略生成方法和视频缩略生成装置
US11893791B2 (en) 2019-03-11 2024-02-06 Microsoft Technology Licensing, Llc Pre-processing image frames based on camera statistics
US11514587B2 (en) 2019-03-13 2022-11-29 Microsoft Technology Licensing, Llc Selectively identifying data based on motion data from a digital video to provide as input to an image processing model
US11082168B1 (en) 2020-03-19 2021-08-03 Western Digital Technologies, Inc. Entropy driven endurance for normalized quality of service
CN112714336B (zh) * 2020-12-01 2022-12-02 万兴科技集团股份有限公司 视频分割方法和装置、电子设备、计算机可读存储介质
CN113923504B (zh) * 2021-12-02 2022-03-08 阿里巴巴达摩院(杭州)科技有限公司 视频预览动图生成方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1443003A (zh) * 2002-03-05 2003-09-17 三星电子株式会社 用于对运动图像数据的进行编码的方法及其装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6549643B1 (en) * 1999-11-30 2003-04-15 Siemens Corporate Research, Inc. System and method for selecting key-frames of video data
KR100438269B1 (ko) 2001-03-23 2004-07-02 엘지전자 주식회사 뉴스 비디오 브라우징 시스템에서 앵커 샷 자동 검출 방법
JP3539394B2 (ja) * 2001-03-26 2004-07-07 ミノルタ株式会社 画像処理装置、プログラムおよび記録媒体
JP2003061112A (ja) 2001-08-20 2003-02-28 Univ Waseda カメラワーク検出装置およびカメラワーク検出方法
US7035435B2 (en) 2002-05-07 2006-04-25 Hewlett-Packard Development Company, L.P. Scalable video summarization and navigation system and method
US20050228849A1 (en) * 2004-03-24 2005-10-13 Tong Zhang Intelligent key-frame extraction from a video

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1443003A (zh) * 2002-03-05 2003-09-17 三星电子株式会社 用于对运动图像数据的进行编码的方法及其装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
R.Brunelli,O.Mich,C.M.Modena.A Survey on the Automatic Indexing of Video Data.《Journal of Visual Communication and Image Representation》.1999,第10卷(第2期),78-112. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106888407A (zh) * 2017-03-28 2017-06-23 腾讯科技(深圳)有限公司 一种视频摘要生成方法及装置
CN106888407B (zh) * 2017-03-28 2019-04-02 腾讯科技(深圳)有限公司 一种视频摘要生成方法及装置

Also Published As

Publication number Publication date
WO2007120337A2 (en) 2007-10-25
US20070147504A1 (en) 2007-06-28
KR20080085182A (ko) 2008-09-23
JP2009521877A (ja) 2009-06-04
JP4885982B2 (ja) 2012-02-29
WO2007120337A3 (en) 2008-02-28
CN101346719A (zh) 2009-01-14
KR100987365B1 (ko) 2010-10-12
EP1964006A2 (en) 2008-09-03
US8036263B2 (en) 2011-10-11

Similar Documents

Publication Publication Date Title
CN101346719B (zh) 从视频帧中选择关键帧
JP3939551B2 (ja) 動画像処理装置、その方法、及び記録媒体
US7224731B2 (en) Motion estimation/compensation for screen capture video
JP2013211908A (ja) ビデオ圧縮方法
CN1980394A (zh) 运动矢量估计装置和运动矢量估计方法
JP3223962B2 (ja) 画像復号化方法
JP2007281634A (ja) 画像処理装置及び動画像符号化方法。
JP2007189276A (ja) 画像圧縮装置及び画像圧縮プログラム
US7068720B2 (en) Coding of digital video with high motion content
US7408989B2 (en) Method of video encoding using windows and system thereof
CN102187678A (zh) 动态图像压缩编码中的编码处理方法和编码处理装置
CN101379833B (zh) 运动矢量检测装置以及运动矢量检测方法
Jubran et al. Sequence-level reference frames in video coding
US7706440B2 (en) Method for reducing bit rate requirements for encoding multimedia data
JPH10327401A (ja) 動きベクトル検出方法及びそれを用いた画像信号の符号化方法及び装置
JP2005302059A (ja) デジタル映像処理方法及びその装置
KR100855450B1 (ko) 동영상 객체의 모션 스타일 전이 방법 및 이에 적용되는장치
JP2009100318A (ja) 画像符号化装置および画像符号化方法
Boschetti et al. High Dynamic Range Images Coding: Embedded and Multiple Description
JP3597271B2 (ja) 動画像のカット点画像検出装置
JP3232079B2 (ja) 画像復号化方法
WO2024018239A1 (en) Video encoding and decoding
JP3249961B2 (ja) 画像復号化方法
JP3232078B2 (ja) 画像復号化方法
JP2005175943A (ja) 画像処理装置、画像処理方法、コンピュータプログラム及び記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant