CN111540387B - 视频流的动作帧的检测 - Google Patents

视频流的动作帧的检测 Download PDF

Info

Publication number
CN111540387B
CN111540387B CN202010396251.1A CN202010396251A CN111540387B CN 111540387 B CN111540387 B CN 111540387B CN 202010396251 A CN202010396251 A CN 202010396251A CN 111540387 B CN111540387 B CN 111540387B
Authority
CN
China
Prior art keywords
image frame
motion
image
frame
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010396251.1A
Other languages
English (en)
Other versions
CN111540387A (zh
Inventor
阿吉特·格普特
赫曼斯·阿查里雅
阿吉特·文卡特·拉奥
帕温·库玛·拜哈提
帕德梅普里亚·约刚内森
纳维恩·斯里尼瓦沙穆尔蒂
桑吉弗·库马尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/728,047 external-priority patent/US9715903B2/en
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN111540387A publication Critical patent/CN111540387A/zh
Application granted granted Critical
Publication of CN111540387B publication Critical patent/CN111540387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请涉及视频流的动作帧的检测。本发明揭示一种方法,其包含:在装置处,接收对应于视频流的多个图像帧。所述多个图像帧包含具有第一分辨率的第一图像帧及具有比所述第一分辨率低的第二分辨率的第二图像帧。所述方法还包含:在所述装置处,通过分析所述第二图像帧来检测触发。所述方法进一步包含:在所述装置处,基于所述触发而将所述第一图像帧指定为动作帧。

Description

视频流的动作帧的检测
分案申请的相关信息
本案是分案申请。该分案的母案是申请日为2015年8月11日、申请号为201580042994.6、发明名称为“视频流的动作帧的检测”的发明专利申请案。
相关申请案交叉参考
本申请案主张来自共同拥有的在2014年8月14日提出申请的印度临时专利申请案第3985/CHE/2014号及在2015年6月2日提出申请的美国非临时专利申请案第14/728,047号的优先权,所述申请案的内容以全文引用的方式明确并入本文中。
技术领域
本申请案大体来说涉及照片或视频的捕获,且更特定来说,涉及用于检测视频流的动作帧的系统、方法及装置。
本申请案大体来说涉及照片或视频的捕获,且更特定来说,涉及用于检测视频流的动作帧的系统、方法及装置。
背景技术
使用者可能想要以照片或视频中捕获关注的事件(例如,孩子的第一步或第一句话、毕业典礼或婚礼)。关注的事件可为静态且可预测的(例如,婚礼、毕业典礼、宁静风景或肖像)。用户可利用成像设备(例如,相机、视频记录器、智能电话等)来捕获可预测及/或静态事件。一些关注事件可为动态(例如,孩子的第一步、孩子的第一句话、现场表演,或自然现象)。甚至当动态事件为可预测的且使用者知晓事件可能发生的时间时,用户可必需预测事件的预期发展方向,设置成像设备来捕获预期方向中的音频及/或视频,及在恰当时间激活成像设备以捕获事件。
在动态事件开始的第一时间与用户激活成像设备以开始捕获动态事件的第二时间之间可存在延迟。延迟可基于用户识别动态事件即将发生的时间,用户预测时间的预期方向的时间、用户设置成像设备以捕获预期发展方向中的事件的时间、实现动态事件已开始的时间、激活成像设备的时间等。因此,动态事件的至少某一部分可未被成像设备捕获。
发明内容
在特定方面中,一种方法包含:在装置处,接收对应于视频流的多个图像帧。所述多个图像帧包含具有第一分辨率的第一图像帧及具有比所述第一分辨率低的第二分辨率的第二图像帧。所述方法还包含:在所述装置处,通过分析所述第二图像帧来检测触发。所述方法进一步包含:在所述装置处,基于所述触发而将所述第一图像帧指定为动作帧。
在另一方面中,一种设备包含存储器、第一对象检测器、第一对象运动分析器、触发检测器及帧指定器。所述存储器经配置以存储对应于视频流的多个图像帧。所述第一对象检测器经配置以确定所述多个图像帧中的第一图像帧是否包含第一对象。所述第一对象运动分析器经配置以在所述第一对象检测器确定所述第一图像帧包含所述第一对象时,分析所述第一图像帧以产生指示所述第一对象的运动的第一运动数据。所述触发检测器经配置以在所述第一运动数据满足第一对象运动阈值时检测触发。帧指定器经配置以基于所述触发而将所述多个图像帧中的第二图像帧指定为动作帧。
在另一方面中,计算机可读存储装置存储指令,所述指令当被处理器执行时致使所述处理器执行包含接收对应于视频流的多个图像帧的操作。所述多个图像帧包含具有第一分辨率的第一图像帧及具有比所述第一分辨率低的第二分辨率的第二图像帧。所述第一图像帧具有指示第一时间的第一时间戳。所述第二图像帧具有指示第二时间的第二时间戳。第一时间与第二时间之间的差满足阈值。操作还包含:通过分析所述第二图像来检测触发。所述操作进一步包含:基于所述触发而将所述第一图像帧指定为动作帧。
附图说明
贯穿图式,除非上下文另有指示,否则类似符号通常识别类似组件。应注意,以下图的相对尺寸可未按比例绘制。
图1说明可用于确定所捕获图像或视频帧是否含有动作时刻的照片装置的功能框图;
图2说明图1的装置的另一实例的图;
图3为用于确定所捕获图像是否含有动作时刻的方法的流程图;
图4为用于确定所捕获视频是否含有动作时刻的方法的流程图;
图5表示揭示关于三个视频帧序列的分析的信息及其中所检测到动作时刻的图表;
图6说明经划分成多个区且其中具有经指定用于每一区的帧内分数的所捕获图像或视频帧的实例;
图7说明其中区的子集经指示为邻域的图6的实例;
图8说明用于确定阈值的动态直方图,超过所述阈值可将所捕获图像或视频帧确定为含有动作时刻;
图9为所捕获图像或视频帧经划分成多个区的实例的图,每一区其中描绘有区的聚合动作;
图10描绘所捕获图像的运动矢量信息的四个实例;
图11为经划分成多个区的所捕获图像或视频帧的实例的图,其中用户已定义在其内搜索动作时刻的关注的区;
图12为存储器预算方案的实例的图,其中如果预算存储器已满且额外帧将经压缩且添加到所述存储器,那么含有动作时刻的帧可被删除或由新图片盖写;
图13为用于确定所捕获帧是否含有动作时刻的方法的特定实例的图;
图14为用于确定所捕获帧是否含有动作时刻的方法的另一实例的图;
图15为图1的装置的另一实例的图;
图16为图1的装置的另一实例的图;
图17为图1的装置的另一实例的图;
图18为用于基于图像数据及非图像数据(例如,音频数据)而确定所捕获帧是否含有动作时刻的方法的实例的图;
图19为用于基于图像数据及非图像数据(例如,音频数据)而确定所捕获帧是否含有动作时刻的方法的另一实例的图;
图20为本文中所揭示的系统中的一或多者的电子装置处的操作的方法的图;
图21为自动检测关注区(ROI)的方法的特定实例的图;
图22为本文中所揭示的系统中的一或多者的电子装置处的操作的方法的流程图;
图23为本文中所揭示的系统中的一或多者的电子装置处的操作的方法的流程图;
图24为本文中所揭示的系统中的一或多者的电子装置处的操作的方法的流程图;
图25为本文中所揭示的系统中的一或多者的电子装置处的操作的方法的流程图;且
图26为可操作以支持本文中所揭示的一或多个方法、系统、设备及计算机可读媒体的各种实施方案的装置的图。
具体实施方式
下文中参考附图更全面地描述系统、设备及方法的各种方面。然而,本发明的教示可以许多不同格式体现且不应理解为限制于贯穿本发明呈现的任何特定结构或功能。确切来说,这些方面经提供使得本发明将为透彻且完整的,且将向所属领域的技术人员充分地传达本发明的范围。基于本文中的教示,所属领域的技术人员应了解本发明的范围意欲涵盖本文中所揭示的新颖系统、设计及方法的任何方面,无论是独立于本发明的任何其它方面抑或与其组合实施。举例而言,可使用本文中所阐明的任何数目个方面实施设备或可实践方法。另外,本发明的范围意欲涵盖使用其它结构、功能性或除本文中所阐明的本发明的各种方面样外的结构及功能来实践的此设备或方法。应理解,本文中所揭示的任何方面可由权利要求书的一或多个元件体现。
尽管本文中描述特定方面,但这些方面的许多变化形式及排列归属于本发明的范围。尽管提及优选方面的一些益处及优点,但本发明的范围并不意欲限于特定益处、用途或目的。确切来说,本发明的方面意欲广泛地适用于不同摄影技术、系统配置及成像设备,其中的一些是通过图中及优选方面的以下描述中的实例来说明。详细描述及图式仅说明本发明而非限制性,本发明的范围是由随附权利要求书及其等效物界定。
如上文所描述,动态事件可能难以拍照。捕获动态事件可备受关注,且众多实施方案试图为用户提供使用其成像设备(例如,相机、摄录像机或可并入相机的其它电子装置,例如智能电话、平板、数字相机、计算机等)捕获动态事件的能力。意欲为用户提供捕获动作时刻的能力的实施方案的实例可包含“突发捕获模式”,所述“突发捕获模式”使得成像设备能够快速连续单击、点击或敲击快门按钮来捕获数个照片或视频帧。另外,一些实施方案可包含“负快门时滞”,所述负快门时滞可允许成像设备能够捕获并存储在用户激活相机快门之前的简短时间周期开始的照片或视频,且可为用户提供额外时间以对突然或未预期动态事件作出反应。然而,这些系统不保证在用户激活快门中被延迟的条件下将捕获动态事件。另外,这些系统可受可用存储器限制(即,突发捕获模式可由于快速捕获帧而更快速填充可用存储器),且可取决于用户来审阅所捕获图像中的每一者以确定是否已捕获动态事件。另外,突发模式及负快门时滞仍依赖于用户来留心、使成像设备恰当定位、维持场景认知及准备好在认知动态事件时立即作出反应。因此,能够检测对应于动态事件的动作帧并存储所述动作帧的简化方法、系统及设备可为有益的。本文中描述此些方法、系统及设备。
为便于参考,可用于捕获图像、拍摄图片或记录多个连续图像(例如,视频)的装置或装置中的组件可在本文中有时被称作相机或成像设备。成像设备可经设置以响应于所检测到移动或远程快门激活而拍摄图片或记录视频剪辑。如上文所论述,某一成像设备可经配置以在激活快门(例如,突发捕获模式)之后快速连续地捕获图像或可经配置以将在激活快门之前的短暂时间周期远程地或从所检测移动(例如,负快门时滞)所捕获的帧存储到存储器媒体。用户可基于待捕获的动态事件(例如,动作时刻)而在这些模式之间选择以激活它们。然而,这两个模式中的无一者在无用户输入或交互的情况下自动提供检测及捕获动作时刻。
如本文中所使用,下文所论述的方法、系统及设备提供用以允许成像设备在视频捕获、图像捕获或预览会话期间以零快门时滞(ZSL)的高分辨率自动检测、识别及捕获经确定含有“动作时刻”的帧。动作时刻(例如,动态事件)的此自动检测及捕获可适用于各种设置及情景,室内及室外两者,仅举数例,例如运动会事件、现场表演、自然事件、庆典及野生生物。另外,这些方法、系统及设备可以软件或硬件或其组合实施,且可包括能够集成到现有电子装置中的系统。用以自动检测、识别及捕获含有动作时刻的帧的此模式为便于揭示在本文中可被称作“智能快照模式”或简称“智能快照”。除了本文中明确揭示内容外,术语“智能快照模式”或“智能快照”在本发明中的使用并不意欲且因此不以任何方式、以与这些术语任何已知或未知相关联来限制这些术语。智能快照模式可允许用户激活模式且设置成像设备以捕获场景,且使成像设备自动检测、识别及捕获动作时刻。
参考图1,说明可用来确定所捕获图像或多个视频帧是否含有动作时刻的装置的数据流程图并将其指定为100。成像系统105(例如,相机)将一或多个图像及/或视频数据的多个帧(统称为“图像信息”)提供到图像信号处理器(ISP)110。ISP 110可起到多个功能。首先,ISP 110可对由成像设备所捕获的图像执行一系列处理步骤且从经处理帧获得统计信息以将其发送到处理器115,所述处理器经配置以(例如,经提供用以运行算法的指令)以在发送所捕获图像以经进一步处理之前执行智能快照模式处理。举例而言,ISP110可处理所捕获视频的图像信息并确定ISP统计信息,且可将ISP统计信息传递到处理器115。另外,ISP110可输出图片,所述图片被发送到JPEG压缩引擎125a及视频编码器125b中的至少一者。经发送到JPEG压缩引擎125a的图片可大体有比发送到视频编码器125b的图片高的分辨率。举例来说,发送到视频编码器125b的图片可有高清晰度(HD)分辨率,而发送到JPEG压缩引擎125a的图片可有由成像系统105支持的最大分辨率。可将从ISP 110输出的较高质量图片首先存储在ZSL图片缓冲器120a中,而将可从ISP 110输出的较低质量图像存储在视频缓冲器120b(例如,双倍数据速率(DDR)视频存储器)中。ZSL图片缓冲器120a及视频缓冲器120b中的两者可暂时存储相应图片直到被JPEG压缩引擎125a或视频编码器125b请求为止。JPEG压缩引擎125a响应于来自处理器115的触发信号而压缩个别帧以将其存储在DDR存储器130中,而视频编码器125b编码视频剪辑且在数据流动到DDR存储器130之前将宏块统计信息传递到处理器115。DDR存储器130接收来自JPEG压缩引擎125a及视频编码器125b两者的输入,且将数据引导到安全数字(SD)卡135,SD卡135表示用于成像设备的最终存储媒体。成像系统105可用于捕获待捕获的场景的初始输入图像或视频剪辑。在一些实例中,输入可为用户激活成像设备的结果。在其它实例中,初始输入图像的捕获可在激活智能快照模式时为自动的。成像系统105可包括捕获图像的成像设备的一或多个组件,例如快门或一或多个透镜。初始输入图像或视频剪辑可包括场景的一或多个所捕获帧。
可接着将此输入图像或视频剪辑提供到ISP 110,所述ISP可对输入图像或视频剪辑的帧或多个帧执行分析或可从输入图像或视频剪辑以其它方式提取各种ISP统计信息,所述ISP统计信息可由智能快照处理器115用于检测及识别图像或视频剪辑内的动作时刻或事件(例如,检测动作图像或视频剪辑)。由ISP 110提取且传递到处理器115的用于确定所捕获图像或视频是否含有动作时刻的统计信息的实例除其它外还可包含颜色、焦点、变焦或光信息。下文将论述统计信息提取及动作移动的检测及识别的细节。
接着将输入图像或视频从ISP 110馈送到ZSL图像缓冲器120a及视频缓冲器120b两者。ZSL图像缓冲器120a可包括存储器,所述存储器能够存储一些高质量(即,高分辨率)图像,例如,包括高达13百万像素(MP)/帧的实例图像。在一些实施方案中,ZSL图像缓冲器120a可包括存储器,所述存储器能够存储具有大于13百万像素(MP)/帧的分辨率的一些高质量、高分辨率图像。ZSL图像缓冲器120a可为用于存储多个高分辨率图像的小缓冲器。在一些实施方案中,ZSL图像缓冲器120a可存储小于十个高分辨率图像。在一些其它实施方案中,ZSL图像缓冲器120a可存储高达一百高分辨率图像。
视频缓冲器120b可类似于ZSL图像缓冲器120a起作用。视频缓冲器120b可经配置以暂时存储一些或持续时间的高质量视频剪辑,例如,视频剪辑包括高达或大于13百万像素/帧。从视频缓冲器120b,视频剪辑可流动到视频编码器125b。在一些实施方案中,可将ZSL图像缓冲器120a及视频缓冲器120b的高质量图像及视频剪辑暂时存储在DDR存储器121中。在一些实施方案中,DDR存储器121可充当先进先出(FIFO)存储器结构。
视频编码器125b可从视频缓冲器120b接收输出且编码所接收输入。虽然编码每一图像,视频编码器125b还可产生并转储(dump)其收集的宏块级统计信息。接着将这些统计信息传递到处理器115供用户在智能快照方法中用以检测并识别含有动作时刻的帧。统计信息可不同于视频编码器125b存储到DDR存储器130的信息。DDR存储器130用于存储可用于视频编码的中间数据,例如,参考图片等。DDR存储器130还可存储视频编码器125b产生的经压缩位流—视频编码器125b的主要输出。
在一些实施方案中,JPEG压缩引擎125a可从包括高分辨率图像数据的ZSL图像缓冲器120a接收输出。JPEG压缩引擎125a可经配置以基于从处理器115接收触发而压缩从ZSL图像缓冲器120a接收的图像。来自处理器115的此触发可指示图像含有动作时刻。举例来说,JPEG压缩引擎125a可从过程115接收指示动作时刻帧的触发信号。JPEG压缩引擎125a可接着从ZSL图像缓冲器120a请求或提取具有时间戳的帧,所述时间戳匹配在其内检测动作帧的视频帧。可将JPEG压缩引擎125a的输出存储到SD卡135。
智能快照方法可利用在编码图片之后由视频编码器125b(例如,视频编解码器)收集及产生的宏块级统计信息。如下文进一步详细所论述,这些统计信息可由智能快照方法用于检测动作帧。在一些实施方案中,处理器115可从ISP 110接收统计信息,所述统计信息可用于确定及/或检测具有动作时刻的帧。举例来说,来自ISP 110的聚焦信息可用于从动作图片集选择具有正确焦点的图片,所述动作图片最初是基于来自视频编码器125b的宏块统计信息而选择。另外,在一些其它实施方案中,ISP 110可转储运动及/或颜色统计信息,所述运动及/或颜色统计信息可用于检测含有动作时刻的帧。一些实施方案可利用视频编码器125b宏块统计信息与ISP 110统计信息的组合来确定及识别帧内的动作时刻。
如下文将进一步详细论述,方法可使用由视频编码器125b产生的统计信息来分类经分析为“关键”帧或“非关键”帧的帧。在一些实施方案中,帧的分类可使用由其它源(即,ISP 110)产生的统计信息及其它输入。另外,在一些实施方案中,方法可存取宏块级统计信息,即,音乐视频交互式(MVI)数据。
处理器115可经配置以确定所分析的帧是否为“关键”帧(即,含有动作时刻的帧),且可经配置以指示所分析的图像或视频的帧含有动作时刻且应被保存且定性为“关键”图像。如上文所论述,处理器115可从ISP 110接收信号。此信号可包括关于由处理器115分析的输入图像中的一或多者的所提取统计信息,如上文所论述。另外,如果处理器115正分析视频剪辑,那么处理器115可从视频编码器125b接收关于所分析的输入视频剪辑的帧中的一或多者的第二信号,所述第二信号包括所分析的视频剪辑的一或多个帧的细节及统计信息。处理器115可使用来自ISP 110及视频编码器125b的统计信息来确定帧是否为“关键”帧(即,其中含有动作时刻)。在一些实施方案中,在处理器115处从ISP 110及/或视频编码器125b接收的统计信息可用于将帧的选择参数或资格改进为“关键”帧或含有动作时刻。如上文所论述,在一些实施方案中,由处理器115从ISP110及/或视频编码器125b接收的信号可包括待分析的帧,其中处理器115执行统计信息提取及所接收帧的确定。下文提供由ISP110、视频编码器125b或处理器115中的至少一者执行分析以提取帧统计信息的细节以及关于经执行以确定帧确实或不含有动作时刻的帧分析的细节
在确定所分析的帧为“关键”帧之后,处理器115将触发信号(例如,图1中的“触发JPEG”)输出到JPEG压缩引擎125a,所述JPEG压缩引擎可接收触发信号并因此压缩由处理器115分析的帧。在一些实施方案中,处理器115可经配置以将整个“关键”帧提交到JPEG压缩引擎125a以供压缩成JPEG文件格式。在一些其它实施方案中,处理器115可经配置以提交信号,所述信号指示JPEG压缩引擎125a压缩从ZSL图像缓冲器120a接收的数据并经由DDR存储器130将其保存到存储SD卡135。在此实施方案中,当JPEG压缩引擎125a压缩视频剪辑的帧时,JPEG压缩引擎125a可直接从视频编码器125b或ISP 110接收关于视频剪辑的帧的数据,并将帧经压缩输出引导到DDR存储器130并进一步引导到存储SD卡135。
在JPEG压缩引擎125a及视频编码器125b执行其相应功能之后,可在将经识别为“关键”帧的帧保存在SD卡135中之前将其暂时存储在DDR存储器130中。在确定帧为“关键”帧时,处理器可触发JPEG压缩引擎125a以压缩“关键”帧以供存储作为含有动作时刻的帧。可接着将经压缩“关键”帧存储在DDR存储器130中的先进先出(FIFO)“关键”帧存储元件中。最终,方法可将存储在FIFO中的经压缩帧写入到存储器存储媒体。可将经确定为并非“关键”帧的帧从缓冲存储器主动删除或可将其暂时存储在DDR存储器121中直到被视频剪辑数据的新捕获图像盖写为止。非关键帧可不能维持于高分辨率,这是因为将所述非关键帧维持如此可使可用存储器能力受不了。例如,在十秒视频中,可存在总计300个帧,其中20个帧可经识别为动作/关键帧。因此,剩余280个帧因为其并非关键帧因此可不能以高分辨率保存,此归因于填满可用SD(或类似)存储器的风险。因此,智能快照方法的非限制性优势为将从帧的选择成功选择动作帧且拒绝尽可能多非动作帧,借此使存储器利用率最优化。一旦存储关键帧,用户可被给予删除其不希望保存的帧的选项。
参考图2,展示装置的图且将其指定为200。装置200包含经由音频信号处理器208耦合到触发检测器215的音频传感器210(例如,麦克风)。触发检测器215可对应于图1的处理器115。
在操作期间,ISP 110可从成像系统105接收图像帧202。图像帧202可对应于视频流。ISP 110可从图像帧202产生第二图像帧。举例来说,第二图像帧可为图像帧202的较低分辨率副本。ISP 110可将图像帧202提供到ZSL图像缓冲器120a且可将第二图像帧提供到视频缓冲器120b。图像帧202可包含第一图像帧204。第二图像帧可包含第二图像帧206。第一图像帧204可表示与由第二图像帧206表示的第二相机视图基本上相同的第一相机视图。视图可对应于成像系统105的视角、视距或两者。因此,第一图像帧204及第二图像帧206可对应于基本上相同视角、视距或两者。第一图像帧204可具有指示第一时间的第一时间戳。第二图像帧206可具有指示第二时间的第二时间戳。第一时间与第二时间之间的差可满足阈值。阈值可为固定或可变的。阈值可具有默认值。在特定方面中,阈值可为用户定义的。举例来说,装置100(或装置200)可接收指示阈值的用户输入。在特定实施方案中,ISP 110可通过复制第一图像帧204并减少所复制图像帧的分辨率来产第二图像帧206。在替代实施方案中,ISP 110可通过复制图像帧202的另一图像帧并减少所复制图像帧的分辨率来产生第二图像帧206。第一图像帧204可具有第一大小(例如,大于10百万字节(MB))。第二图像帧206可具有小于第一大小的一半的第二大小。
ISP 110可处理图像帧202且可将ISP统计信息(例如,关于颜色、焦点、变焦及/或光的信息)提供到触发检测器215。视频缓冲器120b可将第二图像帧提供到视频编码器125b。视频编码器125b可编码第二图像帧以产生经压缩位流。视频编码器125b可将每一图像帧划分成特定数目个宏块(MB)且可产生每一MB的宏块(MB)统计信息。MB统计信息可指示对应MB的MB模式。例如,MB统计信息可指示对应MB是否经编码为帧内MB或帧间MB。MB统计信息可包含运动数据(例如,运动矢量)、纹理数据,及/或复杂性数据(例如,空间活动的度量)。视频编码器125b可将视频统计信息(例如,MB统计信息)提供到触发检测器215。
音频传感器210可接收对应于图像帧202的音频数据。例如,音频数据可在由成像系统105捕获图像帧202的大致相同时间由音频传感器210捕获。音频传感器210的音频采样率(例如,13千赫兹(kHz))可高于成像系统105的视频采样率(例如,30赫兹(Hz))。音频信号处理器208可以音频采样率从音频传感器210接收音频样本。音频信号处理器208可在对应于帧间隔(例如,30Hz)的周期(例如,33毫秒)内估计信号能量。音频信号处理器208可将指示过估计信号能量的信号能量数据提供到触发检测器215。信号能量数据可对应于第一图像帧204及第二图像帧206,例如,信号能量数据可与第二时间戳相关联,所述第二时间戳指示捕获对应于信号能量数据的音频信号的部分的时间。第二时间戳可在第一图像帧204及第二图像帧206的时间戳的阈值持续时间内。
触发检测器215可通过基于以下各项而分析第二图像帧206来检测触发(或将第二图像帧206指定为动作帧):从ISP 110接收的ISP统计信息、从视频编码器125b接收的视频统计信息(例如,MB统计信息)、从音频信号处理器208接收的音频数据,或其组合,如本文中所描述。例如,音频数据可指示音频样本的特性(例如,信号能量数据)。触发检测器215可基于音频样本的特性而更新触发检测阈值,如参考图24所描述。触发检测器215可响应于确定与第二图像帧206相关联的运动数据满足阈值(例如,触发检测阈值)而检测到触发,如关于图3到4、13到14、17及24所描述。
触发检测器215可将特定图像帧的关注区划分成特定数目个MB区(例如,矩形区)。触发检测器215可产生关于矩形区中的每一者的累积统计信息(例如,区帧内MB分数或区运动度量),如参考图3到4所描述。触发检测器215可响应于确定累积统计信息(例如,最高累积统计信息或累积运动矢量的方差)满足累积统计阈值而检测到触发,如参考图3到4所描述。
较大对象与较小对象相比往往移动相对缓慢。可使用小对象运动检测算法(例如,微内核算法)来执行小对象的运动检测,如参考图13所描述。可使用大对象运动检测算法(例如,连接分量分析(CCA))来执行大对象的运动检测,如参考图14所描述。触发检测器215可响应于确定运动数据满足阈值而检测到触发,如参考图13到14所描述。
触发检测器215可响应于检测到所述触发而将一或多个图像帧(例如,第一图像帧204)指定为动作帧。例如,触发检测器215可将触发通知提供到JPEG压缩引擎125a。触发通知可指示第二图像帧206的时间戳。JPEG压缩引擎125a可响应于从触发检测器215接收触发通知而从ZSL图像缓冲器120a检索一或多个图像帧(例如,第一图像帧204)。例如,JPEG压缩引擎125a可确定由一或多个图像帧中的第一图像帧(例如,第一图像帧204)的第一时间戳指示的第一时间。JPEG压缩引擎125a还可确定第二图像帧(例如,第二图像帧206a)的第二时间戳指示的第二时间。第二时间戳、第二图像帧,或两者可由触发通知指示。JPEG压缩引擎125a可响应于确定所述第一时间与所述第二时间之间的差满足阈值而检索第一图像帧。为说明,JPEG压缩引擎125a可检索在第二时间的特定持续时间内捕获的一或多个图像帧,在第二时间由成像系统105捕获第二图像帧206(或对应高分辨率图像帧)。JPEG压缩引擎125a可压缩一或多个图像帧(例如,第一图像帧204)。JPEG压缩引擎125a可将一或多个经压缩图像帧(例如,经压缩第一图像帧204)存储在SD卡135中。在特定实施方案中,JPEG压缩引擎125a可从ZSL图像缓冲器120a复制一或多个图像帧(例如,第一图像帧204),可压缩经复制图像帧,且可响应于确定由触发检测器215将所述一或多个图像帧(例如,第一图像帧204)指定为动作帧而将经压缩图像帧(或经复制图像帧)存储到SD卡135。
图2的装置200可因此基于外部数据(例如,音频数据)而实现对多个图像帧的动作帧的检测。例如,当对应音频数据指示特定特性(例如,音量的突然改变)时,特定帧中的触发检测的条件可较不严格(例如,具有较低阈值)。当使用多个信息源(例如,图像数据及音频数据)来检测触发时,触发检测可更稳健。
图3说明用于使用帧内宏块(MB)分数统计信息来确定所捕获帧是否含有“动作时刻”(例如,图像内容的突然改变)的特定方法300的流程图。如同下文图4的方法,ISP110、视频编码器125b、处理器115或触发检测器215中的任一者可执行图3的步骤以使用图3的方法(其可类似于下文所论述的图4的方法)来确定动作的时刻。
在框301处,接收来自视频编码器125b的关于经编码图片(例如,图2的第二图像帧206)的宏块统计信息。在框305处,在接收到关于帧(例如,第二图像帧206)的宏块统计信息之后,所接收帧(例如,第二图像帧206)可经划分成多个矩形区,在图像的每一侧上留下边距。边距可经建立以便将正被分析的帧(例如,第二图像帧206)内的重要区域与较接近于所述正被分析的帧(例如,第二图像帧206)的边缘发生的可能移动及/或动作更好地隔离,其中所述帧的边缘处的移动及/或动作并不意欲由成像设备捕获。可将帧(例如,第二图像帧206)划分成M×N数目个矩形宏块(MB)区,其中跨越帧存在M个矩形列且在所述帧的上下存在N个矩形行。接着,在框310处,可计算关于矩形区中的每一者的累积模式统计信息(例如,帧内MB的分数)。例如,MB统计信息可指示特定MB是否经编码为帧间MB或帧内MB。特定区可包含第一数目(例如,M×N)个MB。MB统计信息可指示特定区中的第二数目个MB经编码为帧内MB。可基于第一数目个MB及第二数目个MB而确定特定区的区帧内MB分数。例如,区帧内MB分数可对应于第一数目个MB与第二数目个MB的比率。
视频编码器125b可确定经编码为帧内MB的第一数目个MB。视频编码器125b可基于特定数目个MB及第一数目个MB而产生帧内MB分数。例如,帧内MB分数可对应于第一数目个MB与特定数目个MB的比率。
框315可计算关于矩形区的群组(例如,邻域)的累积模式统计信息。矩形区的邻域可为一或多个邻近矩形区(例如,2×2个区)的集。在一些实施方案中,矩形区的邻域可由P×Q数目个邻域定义。图7将在下文进一步详细论述邻域。可通过对第一区的区帧内MB分数求和或求平均来确定第一区的特定邻域的累积帧内MB分数。
在计算关于每一邻域的累积模式统计信息之后,框315可为帧(例如,第二图像帧206)选择帧内宏块的最大邻域或矩形区累积统计分数。例如,特定区(例如,区或邻域)可经确定具有最高累积模式统计信息(例如,最大累积帧内MB分数(mIF))。
累积统计信息的非限制性优点可为当单个对象或对象集空间上在一起且当固有移动跨越原始M×N划分的个别区的边界,累积统计可提供动作时刻的更佳识别。在框320处,接着将最高累积模式统计信息(例如,最大累积帧内MB分数(mIF))与阈值进行比较,在框325处由动态直方图及阈值确定元件确定阈值。例如,动态直方图可指示第一数目(例如,100)个前述图像帧中的多少个对应于累积统计信息的各种值。
在框325处,可通过选择由小百分比的帧满足的最大区帧内MB分数来确定阈值。例如,可选择特定阈值使得前述图像帧中的第二数目(例如,20或20%)者的累积统计信息满足累积统计阈值。阈值可指示对应于“动作时刻”帧的累积统计的最小值(例如,mIF)。可通过指示帧的给定百分比低于阈值来建立阈值水平,且阈值可随着基于所接收统计信息而将较多统计信息添加到动态直方图而动态更新动。例如,可基于第二图像帧206的累积统计信息(例如,最高累积模式统计信息)而更新动态直方图。在替代实施方案中,阈值可由用户建立且在无用户交互的情况下可不能会动态更新。在一些其它实施方案中,可通过指示给定数目个帧将高于阈值而建立阈值。
在框320处,当将mIF与动作时刻帧的阈值进行比较时,如果mIF大于阈值,那么将当前帧确定为“关键”帧或含有动作时刻的帧。在框330处发生将当前帧指定为关键帧。如果当前帧的mIF不大于阈值mIF值,接着当前帧并非关键帧且不含有动作时刻。在框330处发生将当前帧指定为关键帧。在作出这两个确定中的一者之后,如果此帧(例如,第二图像帧206)为待分析的最后帧,那么方法结束,如果存在待分析的另一帧,那么方法从框305重复。
图4说明用于使用运动矢量确定所捕获帧是否含有动作时刻的特定方法400的流程图。如同图3的方法,ISP 110、视频编码器125b、处理器115或触发检测器215中的任一者可执行图4的步骤以使用图4的方法(其可类似于上文所论述的图3的方法)来确定动作的时刻。
方法400可以框405开始,其中从视频编解码器接收关于视频剪辑的经编码视频剪辑的宏块水平统计信息及/或数据。接着,在框410处,可将经编码视频的每一帧在所述帧(例如,第二图像帧206)的每一侧上留下边距之后划分成M×N个矩形MB区。边距可经建立以便将正被分析的帧中的重要区域从较接近于正被分析的帧的边缘发生的可能移动及/或动作更佳地隔离。针对每一经划分区,在框415处,接着基于从MB的复杂性数据导出的稳健性准则而选择运动矢量子集。可通过对运动矢量子集进行求和或求平均来确定区运动度量。
接着,方法的框420使用仿射参数模型来估计整个帧的全局运动(作出多个冗余估计以使用“随机样本连续一致性”(RANSAC)或类似筛选过程来筛选离群值)。在框425处,将所估计全局运动值从每一区的宏块运动矢量减去,且在框430处使用所述结果来计算每一矩形区的累积运动。例如,可将所估计全局运动值从特定区的区运动度量减去以确定特定区的累积运动矢量。接下来,在框435处,方法计算跨越每一帧的各种矩形区的累积运动的方差。例如,可确定区的累积运动矢量的方差。将所计算方差发送到框440以与阈值进行比较。例如,可将累积运动矢量的方差与累积统计阈值进行比较。在框445处,可基于累积运动矢量的方差而更新动态直方图。可基于动态直方图而确定新阈值(例如,累积统计阈值)。
框445的动态直方图类似于关于“智能快照”图像选择方法所描述的方法操作,其中在一些实施方案中,所述阈值可由方法或用户确定。框445的动态直方图可类似于参考图3所描述的动态直方图操作。框440将所计算方差与框445的动态直方图的所计算阈值进行比较。在框440中,如果当前帧的所计算方差高于阈值,那么所分析帧可为“关键”帧,如在框450处所指示。例如,可响应于确定累积运动矢量的方差满足累积统计阈值而检测触发。如果当前帧的方差低于阈值,那么在框455处当前帧可并非“关键”帧。如上文所论述,“关键”帧可为含有“动作时刻”的帧。因此,矩形区中的每一者的运动矢量及方差可被认为指示帧的相应区中的每一者中的动作。在于框440处作出确定之后,如果此帧(例如,第二图像帧206)为待分析的最后帧,那么方法400结束,或如果存在待分析的另一帧,那么方法从框405重复。
图13到14、18到19及23到25说明用于确定所捕获帧是否含有动作时刻的方法的其它特定实例。在由图13、14及23所说明的特定实例中,对大对象的运动检测及对小对象的运动检测可单独执行。例如,图13中所说明的小对象运动检测算法可使用微核(例如,宏块的小邻域)执行运动检测。图14中所说明的大对象运动检测算法可使用连接分量分析(CCA)来执行运动检测。划分对小对象及大对象的运动检测可改进运动检测,这是因为如与大对象可往往移动相对缓慢。图23中所说明的触发检测算法可基于对大对象的运动检测、对小对象的运动检测,或其两者而检测触发。
参考图13,展示操作方法且将其大体指定为1300。方法1300可由图1的处理器115、图2的触发检测器215,或其两者执行。
方法1300包含:在1302处,创建帧的运动矢量长度的2维(2D)阵列(每宏块(MB))。例如,图1的处理器115可产生图2的第二图像帧206的运动矢量长度的2D阵列。例如,2D阵列中的每一项目可表示第二图像帧206的对应MB的特定运动矢量长度。
在1303处,方法1300进一步包含:确定是否已分析所有MB。例如,图1的处理器115可确定是否已分析第二图像帧206的每一MB。方法1300可响应于在1303处确定已分析所有MB而进行到1314。替代地,方法1300可响应于在1303处确定已分析少于所有MB而进行到1304。
方法1300还包含:在1304处,针对下一MB,在以所述MB为中心的内核(N×N大小)内创建所有MB的集。例如,图1的处理器115可针对待分析的第二图像帧206的下一MB确定以所述MB为中心的特定区(例如,内核)内的MB组。内核可具有特定大小(例如,3×3)。
方法1300进一步包含:在1306处,创建属于纹理区域的帧间MB的子集。例如,图1的处理器115可确定针对MB组的特定MB子集。处理器115可响应于确定特定MB的纹理数据指示特定MB经纹理化而确定MB组的特定MB将被包含在特定MB子集中。
方法1300还包含:在1308处,确定子集大小是否大于内核的大小的一半。例如,图1的处理器115可确定特定子集的大小(例如,特定子集中所包含的第一MB的数目)是否满足(例如,大于)子集大小阈值(例如,内核的大小的一半,或4.5)。
方法1300进一步包含:响应于在1308处确定特定子集的大小满足子集大小阈值,在1310处计算特定子集内的所有MB的平均运动矢量长度。例如,图1的处理器115可响应于确定特定子集的大小满足子集大小阈值而确定特定子集的MB的平均运动矢量长度。
方法1300还包含:在1312处,确定平均运动矢量长度是否大于阈值。例如,图1的处理器115可确定特定子集的所有MB的平均运动矢量长度是否满足(例如,大于)阈值(例如,子集运动矢量阈值)。
方法1300包含:响应于在1312处确定平均运动矢量长度满足(例如,大于)阈值,在1316处将帧指定为关键帧。例如,图1的处理器115可响应于确定平均运动矢量长度满足子集运动矢量阈值将第二图像帧206指定为关键帧。处理器115可响应于确定平均运动矢量长度满足子集运动矢量阈值而检测第二图像帧206中的触发。处理器115可响应于检测到触发而通过产生指示第二图像帧206的触发通知而将第二图像帧206指定为关键帧(例如,动作帧)。例如,触发通知可包含对应于第二图像帧206的时间戳。
方法1300还包含:响应于在1308处确定特定子集的大小小于或等于内核的大小的一半,或在1312处确定平均运动矢量长度未能满足(例如,小于或等于)阈值,返回到1303以确定是否已分析所有MB。例如,图1的处理器115可响应于确定特定子集的大小未能满足子集大小阈值或平均运动矢量长度未能满足子集运动矢量阈值而分析对应于图2的第二图像帧206的另一MB的下一子集。如果不存在更多MB待处理,那么处理器115可将第二图像帧206指定为非关键帧(例如,非动作帧)或使用另一算法来分析第二图像帧206。例如,处理器115可响应于针对每一MB确定MB的对应子集的大小小于或等于内核的大小的一半,或MB的对应运动矢量长度小于或等于阈值而将第二图像帧206指定为非关键帧。为说明,处理器115可响应于针对所有MB确定属于纹理区域的帧间MB的对应子集的大小小于或等于内核的大小的一半而将第二图像帧206指定为非关键帧。处理器115可响应于针对所有MB确定对应运动矢量长度小于或等于阈值而将第二图像帧206指定为非关键帧。处理器115可响应于针对一些MB确定对应的属于纹理区域的帧间MB子集的大小小于或等于内核的大小的一半且针对剩余剩余MB确定对应运动矢量长度小于或等于阈值而将第二图像帧206指定为非关键帧。在特定实施方案中,处理器115可响应于确定第二图像帧206为非关键帧而抑制检测第二图像帧206中的触发。
方法1300可用于使用微核(例如,宏块的小邻域)执行运动检测。使用微核可实现对小对象的运动检测。方法1300可用于识别对应于包含与小对象相关联的运动的动态事件的图像帧。
参考图14,展示操作方法且将其大体指定为1400。方法1400可由图1的处理器115、图2的触发检测器215,或其两者执行。
方法1400包含在1402处创建关于帧的运动矢量长度的2D阵列(每MB)。例如,图1的处理器115可产生关于图2的第二图像帧206的运动矢量长度的2D阵列。例如,2D阵列中的每一项目可表示第二图像帧206的对应MB的特定运动矢量长度。
方法1400还包含:在1404处,创建2D二进制掩模,其中1表示如下的那些MB:1)MB的运动矢量长度大于阈值,及2)MB为纹理区的部分。例如,图1的处理器115可产生2D二进制掩模(例如,位图)。位图的特定位可对应于图1的第二图像帧206的特定MB。处理器115可针对每一MB响应于确定MB的运动矢量长度满足阈值(例如,MB运动矢量阈值)及MB的纹理数据指示MB经纹理化而将对应位设置成第一值(例如,1)。
方法1400进一步包含:在1406处,使二进制掩模扩大以填满孔洞。例如,图1的处理器115可将位图的剩余位设置成第二值(例如,0)。
方法1400还包含:在1408处,识别二进制掩模中的所有连接分量(8个相邻)。例如,图1的处理器115可识别位图中的一或多个组的连接分量(例如,位)。为说明,具有第一值(例如,1)的特定位可连接到具有第一值的相邻位。相邻位可与特定位分享位图的边缘或拐角。处理器115可识别数组具有第一值(例如,1)的相邻位。
方法1400进一步包含:在1410处,合并在连接分量附近的标签以处置阈值伪影。例如,图1的处理器115可将接近(例如,在位图的特定数目(例如,2)行或列内)的两个或多于两个组的连接分量彼此合并。
方法1400还包含:在1412处,确定最大连接分量组的连接分量大小大于特定阈值。例如,图1的处理器115可确定最大连接分量组的连接分量大小。处理器115可确定连接分量大小是否满足(例如,大于)特定阈值(例如,连接分量阈值)。
方法1400进一步包含:响应于在1412处确定连接分量大小满足连接分量阈值,在1414处将帧指定为关键帧。例如,图1的处理器115可响应于确定连接分量大小满足连接分量阈值而将第二图像帧206指定为关键帧(例如,动作帧)。处理器115可响应于确定连接分量大小满足连接分量阈值而检测第二图像帧206中的触发。处理器115可响应于检测到触发而通过产生指示第二图像帧206的触发通知而将第二图像帧206指定为关键帧(例如,动作帧)。例如,触发通知可包含对应于第二图像帧206的时间戳。
方法1400还包含:响应于在1412处确定连接分量大小未能满足连接分量阈值,在1416处,将帧指定为非关键帧。例如,处理器115可响应于确定连接分量大小未能满足连接分量阈值而确定第二图像帧206为非关键帧(例如,并非动作帧)或使用另一算法(例如,图13的方法1300)来处理第二图像帧206。
在特定实施方案中,处理器115可响应于确定第二图像帧206为非关键帧而抑制检测第二图像帧206中的触发。处理器115可响应于确定第二图像帧206为非关键帧,产生指示第二图像帧206为非关键帧(例如,非动作帧)的触发通知。
方法1400可用于使用连接分量分析(CCA)来执行运动检测。使用CCA可实现对大对象的运动检测。方法1400可用于识别对应于包含与大对象相关联的运动的动态事件的图像帧。图23中所说明的算法可使用方法1300及方法1400来稳健触发检测。
图18、19及24说明用于基于图像数据及非图像数据(例如,音频数据)而确定所捕获帧是否含有动作时刻的方法的实例。如图18中所说明,可捕获音频信号1812连同对应于图像帧(图2的图像帧202)的视觉信号1814。如本文中进一步描述,可使用一或多个阈值来确定图像帧(例如,图2的第二图像帧206)是否为关键帧(例如,基于基于两个或对于两个图像帧所检测的运动)。可基于音频信号1812而调整特定阈值。例如,特定阈值(由图18中的红虚线所说明)可在第一时间具有第一值(例如,阈值1802),其中第一时间与音频信号1812的具有特定特性的部分相关联(例如,特定音量、音量的特定改变速率,等)。为说明,音频信号1812可在时间t1之前且在时间t2之后具有特定特性。特定阈值可在时间t1之前且在时间t2之后具有阈值1802。
作为另一实例,特定阈值可在第二时间具有第二值(例如,阈值1804),其中第二时间与具有不同特性(例如,不同音量、音量的不同改变速率,等)的音频信号1812相关联。为说明,特定阈值可在时间t1与时间t2之间具有阈值1804。作为特定实例,当音频信号1812突然改变时,特定阈值的值可减少(使得(例如)较少运动将触发关键帧的指定)。为说明,音频信号1812可提供关于在用户正拍摄体育赛事、烟花表演或与在发生关键事件时的突然大声声音相关联的另一活动时在图像帧中捕获的事件的信息。
如在图19中所说明,特定阈值可具有早于第二时间(例如,时间t1到时间t2)的第二值(例如,阈值1804)。例如,特定阈值可在时间t1之前的时间t0处具有阈值1804。在相对于音频信号1812的改变调整特定阈值中可存在负时滞1902。例如,关键事件可在突然大声声音之前开始。用负时滞1902调整特定阈值可实现捕获关键事件的开始。
如在图24中所说明,可基于音频数据的特性而更新触发检测阈值。例如,可响应于确定音频数据指示音量水平突然改变而使触发检测阈值下降。触发检测阈值可包含:在图3的框320处与最高累积模式统计信息(例如,最大累积帧内MB分数(mIF))进行比较的阈值、在图4的框440处与所计算方差进行比较的阈值、在图13的框1312处与平均长度进行比较的阈值、在图14的框1404处与运动矢量长度进行比较的阈值、在图14的框1412处与最大连接分量大小进行比较的阈值、图17的触发组合器1710的触发检测阈值,或其组合。
图5揭示包括各种列及行且大体经指定为结果表500的信息表,所述信息表揭示关于三个视频帧数列的分析及视频帧序列内的所检测关注时刻的细节的信息。
结果表500提供比较示范性视频捕获的信息,所述捕获各自含有“动作时刻”(即,关注时刻)且提供关于所捕获视频及其中所含有的动作时刻的细节。第一列505包含所捕获视频帧序列的名称。列510可指示以秒为单位的视频序列中的每一者的长度(例如,持续时间)。列515可指示所捕获视频帧序列中所选择的关键镜头的数目。列520揭示视频帧序列中的每一者内的动作时刻的持续时间(以秒为单位)。列525包含视频帧序列中的关注关键镜头的数目。列530含有I2NI归一化比率,而列535展示错过的所关注窗口的例子的数目。I2NI归一化比率可包括两个密度的比率,其中比率的第一密度为如在发生真实动作的时窗中由智能快照方法捕获的动作图片的时间密度,且第二比率密度为在实际上不存在任何运动(即,动作帧的伪触发)的时窗中由智能快照方法捕获的动作图片的时间密度。行540含有关于命名为“Whale1”的第一视频序列的对应于上文所识别列中的每一者的所有信息。行545含有关于“Rocket”视频序列的对应信息,且行550揭示关于“Whale2”的对应信息。
如在结果表500中所指示,自动“动作时刻”检测系统能够检测动作时刻的例子中的每一者且能够检测比整个视频帧序列基本上短的动作时刻。结果表500中所描绘的结果展示所提出方法良好地执行选择所关注蚀刻同时拒绝不包含所关注蚀刻的帧。另外,所有由动作时刻组成的时间区由列525的所确定关注关键镜头表示。列530的I2NI归一化比率可相依于所分析的帧的背景而变化。在背景的最小干扰或要素的帧中,I2NI归一化比率可比在具有不稳定背景的帧中高。
参考图6,描绘经分析且已经划分成多个区的所捕获图像或视频剪辑且将其大体指定为5600,每一区其中已指定其帧内MB百分比。如上文所论述,将帧(例如,第二图像帧206划分成)M×N多个矩形区605a到605p。每一区经描绘,其中其帧内MB百分比已经计算。帧内MB百分比的范围从0.0(区605m)到0.7的帧的最高帧内MB百分比(区605g)。在帧的最高帧内MB百分比与阈值相比为帧内分数时,将具有最高帧内MB百分比的区605g阴影化以指示如此。在一些实施方案中,一或多个区可分享最高帧内MB百分比,且多个区分享高帧内MB百分比的事实可不影响帧是否为“关键”帧的确定。在另一实施方案中,具有各自分享最高帧内MB百分比的多个区的帧可经确定为“非关键”帧。
参考图7,说明图6的实例且大体经描绘为700,其中矩形区的子集经指示为邻域。如上文关于图3简略论述,在一些实施方案中,“关键”帧的确定可基于区的群组或邻域。此实施方案可计及可跨越所分析帧的多个区的动作时刻。因此,区的M数目个列及区的N数目个行可经分组成区605的X×Y邻域(图3中的P×Q),其中每一邻域为区605的2×2块。在其它实施方案中,邻域可包括区605的1×2的块或小于区605的M×N划分的任何大小的区605的块。在此些实施方案中,可指派区的每一邻域的经计算帧内MB百分比,其中最大经计算帧内MB百分比用于与用于确定“关键”帧的阈值IF进行比较。图7描绘所分析帧已经划分成区605的4×4群组的实例,区605进一步分组成2×2邻域705a到705f。图7展示针对所描绘帧区605存在的九个可能2×2邻域705中的六者。
图8说明用于确定阈值IF的动态直方图的实例且将其大体指定为800,超过所述阈值,将所捕获图像或视频帧确定为含有动作时刻且为“关键”帧。阈值IF的确定及选择可基于动态直方图。如图8中所展示,y轴805描绘一些图片,且x轴810包括最大区帧内MB百分比。各种列815a到815j经展示为描绘先前所分析的具有给定最大区帧内MB百分比的帧的数目。在一些实施方案中,帧内MB百分比得分的动态直方图可包括最近分析数百帧的得分,且因此列815a到815j可用所分析的每一新帧更新。在一些其它实施方案中,直方图可包括最近分析X数目帧的得分,其中X可为如由用户或由系统所确定的任何值。
在一些实施方案中,阈值可经设定以将具有最大帧内MB百分比的特定百分比的帧或具有最大帧内MB百分比的特定数目个帧识别为含有动作时刻。在一些实施方案中,帧的此百分比或帧的数目可基于可变存储媒体(即,存储器)而动态改变或可由用户改变。
图9说明经划分成多个区的所捕获图像或视频帧的实例且经大体指定为900,每一区其中描绘有区的聚合运动。在帧内,对象相对于帧内的其它对象的运动可指示帧内发生的动作,如由图4的方法所见。在一些实施方案中,此动作可为用于识别为“关键”帧的触发。如上文所论述,所分析的帧(例如,第二图像帧206)可经划分成M×N个区605;此处,帧经再次划分成区905a到905p,4×4布局。接着,每一区905内的聚合运动(RM)可在其中经计算且经指示,如由每一区905中所描绘的箭头所展示。接着,将每一区内的聚合运动的方差与阈值聚合运动方差量进行比较以基于聚合运动而确定是否应将所述帧选择为“关键”帧。类似,如上文对帧内MB百分比的论述,聚合运动确定还可基于区905的领域块,其中所计算聚合运动作为整体为邻域块且非个别区905。
在一些实施方案中,使用运动矢量信息,针对每一区或区的邻域的聚合运动计算可需要补偿或计及全局运动或影响整个帧的运动,例如旋转或非平移运动,其可能在场景为完全静态的情况下导致对图片的大聚合运动方差计算。例如,如果相机在捕获帧时正顺时针旋转,那么可在向下指的帧的右侧上存在运动矢量及向上指的帧的左侧上存在运动矢量,其两者可导致大聚合运动计算。因此,检测到全局运动需要能够在聚合运动的计算中得以补偿以确保真实对象运动及聚合运动方差的可能。为计及潜在全局运动,使用仿射参数模型来估计及检测全局运动并在聚合运动方差计算中提供其补偿。在全局运动得以补偿之后,基于剩余聚合运动而计算方差。
在视频帧的一些实施方案中,从视频编解码器接收的可靠性信息可并非帧内的运动的准确指示符。例如,可使用例如结构传感器表示或部分衍生物或其特征值分析的技术来识别具有边缘特征的宏块。替代地,在不存在梯度信息的情况下,例如完整性度量的信息可用于宏块选择。接着,使用RANSAC方法来从全局宏块筛选对象运动。
图10描绘所捕获图像的运动矢量信息的四个实例。在1005中,非旋转运动可沿着帧的x轴,且因此可危及x轴中的运动矢量的可靠性。在1010中,垂直方向上的非旋转运动可使y轴中的运动矢量不可靠。类似地,在1015中,x及y轴中的运动的组合使两个块的运动矢量不可靠。然而,1020描绘其中x及y轴中的运动矢量可靠的实例。
如上文所论述,将所分析的帧划分成具有区的M个列及区的N个行的矩形区可经定义以不包括作为“每一侧的边距”的每一帧的部分。这些边距可经建立以便允许方法忽略在帧的外围区(即,比更集中在相机焦点区域内的帧的部分可能较少关注的帧区)中发生的潜在运动及动作。这可有助于确保方法不会基于在帧的边缘发生的移动或动作而将帧不正确地分类为“关键”帧。
在一些实施方案中,用户可界定可含有关注时刻的帧的部分,且因此可能够告知方法哪些动作及移动侧重于将帧分类为“关键”帧,如图11中所见。在图11中,可将帧的整体划分成9个列及8个行,然而用户可将重要或关注区域定义为在帧的左上角的4个列及4个行的区块。在替代实施方案中,用户可选择任何大小或任何位置的块作为待进行分析以用于确定“关键”帧的区域。
图12说明存储器预算方案的实例,其中如果预算存储器已满且额外帧将经压缩且添加到所述存储器,那么含有动作时刻的帧可被删除或由新图片盖写。替代地,新帧可能并未经存储在存储器中直到充足的存储器预算可用,即,可用存储器满足特定阈值。“关键”帧的选择依赖于存储媒体内的用于保存或存储“关键”帧以供用户存取的可用存储器或空间。在一些实施方案中,系统可包括存储器预算方案以确保将经指定为“关键”帧的帧恰当地保存在存储媒体中。一个方案可包括:如果在选择“关键”帧方面超过预算存储器那么丢弃“关键”帧。
可在图片/秒或MB/秒方面定义存储器预算。存储器预算方案可维持特定平均图片/秒或MB/秒可用存储器预算。由于可能发生的动作时刻为在小时间领域(即,时窗)中的短图片突发,因此“漏桶”存储器预算方案可有用于维持平均图片/秒或MB/秒可用存储器同时允许短持续时间中的动作图片的突发,如图12中所展示。针对经处理的每一帧,可将一定量的预算添加到存储桶。所述量可与预算图片/秒成比例,(例如,如果0.1图片/秒为平均预算,且视频捕获速率为30帧/秒(fps),那么针对每一经处理帧,可将0.1/30=0.0033添加到存储桶)。如果经处理帧经确定为关键帧,那么从预算减去1帧。可存储新帧只要桶中的可用预算大于1。在一个实施方案中,可至少部分地基于可用预算而确定关键帧检测阈值。如果可用预算为大,那么可使阈值降低,而如果可用预算为小,那么可使阈值增加。在另一实施方案中,可将预算针对给定记录会话定义为固定数目个图片。
存储器预算方案的非限制性优点可为系统并不用自动捕获动作时刻填充其存储器。在一些实施方案中,成像设备的系统或用户可建立关于含有动作时刻的帧的预算。此外,在一些实施方案中,系统可包括用于删除或盖写存储在存储器中的帧的方案。
在一些实施方案中,预算方案可包括基于时间区删除或盖写帧,其中针对经压缩帧创建时间区,所述经压缩帧是在存储先前经压缩帧之后的大于时间阈值的时间被保存。例如,如果阈值为5秒,那么所存储的第一帧可经标记为第一时间区,而第二帧(在存储第一针之后的8秒被存储)可经标记为第二时间区。接着,假定针对每一时间区维持最小时间密度,可将距其邻近者具有最小时间距离的帧丢弃。
在另一实施方案中,如果时间群组的长度超过阈值,那么可将时间群组关闭(即,不可将新帧添加到其),且可创建其中存储后续关键帧的新时间群组。当将帧从时间群组删除时,可仔细确保在最终选择中表示所有时间群组,即,并非单个时间群组中的所有帧可被删除。此外,可规定额外约束用于将帧从时间群组删除。例如,时间群组内的图片的密度(群组中的图片的数目对群组覆盖时间的比率)或时间群组内的图片的数目(即,时间群组中的图片的最小数目)可为控制将图片从时间群组删除的约束。可基于多个准则而选择从时间群组删除的图片。例如,待删除的具有接近时间邻近图片的图片可经假定为冗余的且允许被删除(即,一个实例准则可为最小时间邻近距离)。
时间群组可基于优先权排序。例如,时间群组中的每一图像帧(例如,图片)可具有帧得分,所述帧得分是基于对应运动矢量长度、对应帧内MB分数或两者而确定。为说明,图像帧的帧得分可基于图像帧的MB的运动矢量长度的平均数、图像帧的帧内MB分数,或两者。图像帧可基于帧得分而优先化。例如,具有第一帧得分的第一图像帧可具有比具有第二帧得分的第二图像帧高的优先权,所述第二帧得分比第一帧得分低。时间群组的群组得分可基于时间群组中的图像帧的帧得分。例如,群组得分可为图像帧的帧得分的平均数。群组得分可指示对应于时间群组的运动活动的水平。例如,较高群组得分可指示较高运动活动的较高水平。时间群组可基于对应群组得分而优先化。例如,具有第一群组得分的第一时间群组可具有比具有第二群组得分的第二时间群组高的优先权,所述第二群组得分比第一群组得分低。可基于优先权(例如,群组得分、帧得分或两者)而删除图像帧。例如,可在将图像帧从第一时间群组删除之前,可删除来自第二时间群组的图像帧。作为另一实例,具有第一帧得分的第一图像帧可在删除具有第二帧得分的第二图像帧高之前被删除,所述第二帧得分比第一帧得分高。
参考图15,展示装置的图且将其指定为1500。装置1500可对应于图1的装置100、图2的装置200,或两者。例如,装置1500可被包含在装置100、装置200或两者中。
装置1500包含经耦合到音频能量估计器1504的音频传感器210。音频能量估计器1504可对应于图2的音频信号处理器208。音频能量估计器1504可耦合到比较器1508及噪音估计器1506。噪音估计器1506可耦合到比较器1508。在特定实施方案中,触发检测器215可包含噪音估计器1506、比较器1508或两者。
在操作期间,音频能量估计器1504可基于从音频传感器210接收的音频样本而产生信号能量数据,如参考图2所描述。信号能量数据可对应于第二图像帧206。音频能量估计器1504可将信号能量数据提供到噪音估计器1506及比较器1508。噪音估计器1506可基于信号能量数据而产生噪音估计数据。例如,噪音估计器1506可通过基于对应于第二图像帧206的信号能量数据而执行音频环境噪音估计来产生噪音估计数据。噪音估计器1506可将噪音估计数据提供到比较器1508。
比较器1508可基于噪音估计数据而调整信号能量阈值。例如,比较器1508可响应于确定噪音估计数据指示大于阈值噪音水平的噪音水平的噪音估计数据而使信号能量阈值下降。比较器1508可响应于确定由信号能量数据指示的信号能量满足信号能量阈值而产生音频级触发1510。例如,音频级触发1510可指示信号能量是否满足信号能量阈值。触发检测器215可确定基于音频级触发1510是否检测到触发,如参考图17所描述。
装置1500可因此实现基于所估计噪音动态地调整触发音频级触发的信号能量水平。例如,在嘈杂环境中,可通过比安静环境高(或低)的信号能量水平来产生音频级触发。
参考图16,展示装置的图且将其指定为1600。装置1600可对应于图1的装置100、图2的装置200,或两者。例如,装置1600可被包含在装置100、装置200或两者中。
装置1600包含耦合到累加器1604的音频传感器210。累加器1604可对应于音频信号处理器208。累加器1604可耦合到延迟线1606及比较器1508。延迟线1606可耦合到噪音估计器1506。噪音估计器1506可耦合到比较器1508。在特定实施方案中,触发检测器215可包含延迟线1606、噪音估计器1506、比较器1508,或其组合。
在操作期间,累加器1604可以音频采样率(例如,13kHz)从音频传感器210接收音频样本。音频样本可对应于第二图像帧206。例如,与第二图像帧206相关联的第一时间戳可在于音频样本相关联的时间戳的阈值持续时间内。累加器1604可自对应于帧间隔的周期(例如,33毫秒)内累加频样本。累加器1604可将累加音频样本发送到触发检测器215。可在累加音频样本中过滤掉(例如,求平均)音频样本的局部波动。累加音频样本可对应于图1的成像系统105的视频采样率(例如,33Hz)。触发检测器215可将累加音频样本添加到延迟线1606。延迟线1606可包含与在第二图像帧206之前由触发检测器215接收一或多个帧相关联的的音频样本。
噪音估计器1506可通过基于延迟线1606中的音频样本而执行噪音估计来产生噪音估计数据。噪音估计器1506可将噪音估计数据提供到比较器1508。比较器1508可基于噪音估计数据而调整信号能量阈值,如参考图15所描述。比较器1508可通过估计对应于从累积器1604接收的累加音频样本的信号能量来产生信号能量数据。比较器1508可响应于确定由信号能量数据指示的信号能量满足信号能量阈值而产生音频级触发1510。例如,音频级触发1510可指示信号能量是否满足信号能量阈值。触发检测器215可确定基于音频级触发1510是否检测到触发,如参考图17所描述。
装置1600可因此实现基于所估计噪音动态地调整触发对应于特定帧的音频级触发的信号能量水平。在嘈杂环境中,可基于比安静环境高(或低)的信号能量水平而产生音频级触发。可基于对应于特定帧的音频样本及对应于在特定帧之前的一定数目的帧的音频样本而执行噪音估计。可基于对应于最近接收图像帧的音频样本而更新噪音估计。例如,对应于图像帧的音频样本中的背景噪音可随时间变化。使用对应于最近接收的图像帧的音频样本可产生比使用对应于所有图像帧的音频样本更接近的对对应于特定帧的音频样本中的噪音的估计。
参考图17,展示装置且将其指定为1700。装置1700可对应于图1的装置100、图2的装置200,或两者。例如,装置1700可被包含在装置100、装置200或两者中。
装置1700可包含帧内宏块(MB)分数检测器1704、微运动检测器1706、宏运动检测器1708,或其组合。帧内MB分数检测器1704、微运动检测器1706、宏运动检测器1708,或其组合可耦合到触发组合器1710。在特定实施方案中,图2的触发检测器215可包含帧内MB分数检测器1704、微运动检测器1706、宏运动检测器1708、触发组合器1710,或其组合。
在操作期间,帧内MB分数检测器1704、微运动检测器1706、宏运动检测器1708或其组合可从图1的ISP 110、视频编码器125b或两者接收帧级统计信息1702。例如,帧级统计信息1702可包含ISP统计信息、视频统计信息,或其组合。帧级统计信息1702可对应于图2的第二图像帧206。例如,帧级统计信息1702可为基于第二图像帧206而产生。
帧内MB分数检测器1704可基于帧级统计信息1702而确定第二图像帧206是否为关键帧,如参考图3所描述。帧级统计信息1702可包含对应于第二图像帧206的宏块级统计信息。帧内MB分数检测器1704可将基于宏级块统计信息而指示第二图像帧206是否为关键帧的帧内MB触发通知提供到触发组合器1710。
微运动检测器1706可基于帧级统计信息1702而确定第二图像帧206是否为关键帧,如参考图13所描述。微运动检测器1706可将基于微运动检测而指示第二图像帧206是否为关键帧的微运动触发通知提供到触发组合器1710。
宏运动检测器1708可基于帧级统计信息1702而确定第二图像帧206是否为关键帧,如参考图14所描述。宏运动检测器1708可将基于宏运动检测而指示第二图像帧206是否为关键帧的宏运动触发通知提供到触发组合器1710。
触发组合器1710可从图15的装置1500或图16的装置1600接收音频级触发1510。触发组合器1710可基于音频级触发1510而更新触发检测阈值。例如,触发组合器1710可确定音频级触发1510是否指示对应于第二图像帧206的信号能量满足信号能量阈值,如参考图15到16所描述。触发组合器1710可响应于确定信号能量满足信号能量阈值而确定触发计数阈值(例如,触发检测阈值)具有第一值(例如,1)。替代地,触发组合器1710可响应于确定信号能量未能满足信号能量阈值而确定触发计数阈值具有第二值(例如,2)。触发组合器1710可确定触发计数,所述触发计数指示多少触发通知(例如,帧内MB触发通知、微运动触发通知,及/或宏运动触发通知)指示第二图像帧206为关键帧。
触发组合器1710可基于音频级触发1510、帧内MB触发通知、微运动触发通知、宏运动触发通知,或其组合而产生组合式关键帧触发通知1712。例如,触发组合器1710可基于触发计数及触发计数阈值而产生组合式关键帧触发通知1712。为说明,组合式关键帧触发通知1712可响应于确定触发计数满足(例如,大于或等于)触发计数阈值而指示第二图像帧206为关键帧。替代地,组合式关键帧触发通知1712可响应于确定触发计数未能满足(例如,小于)触发计数阈值而指示第二图像帧206并非关键帧。
触发组合器1710可将组合式关键帧触发通知1712提供到JPEG压缩引擎125a。组合式关键帧触发通知1712可指示或识别第二图像帧206。例如,组合式关键帧触发通知1712可指示第二图像帧206的时间戳。JPEG压缩引擎125a可从ZSL图像缓冲器120a接收对应于第二图像帧206的第一图像帧204。例如,JPEG压缩引擎125a可使用时间戳来检索第一图像帧204,这是因为第一图像帧204与和第二图像帧206相同的时间戳相关联。JPEG压缩引擎125a可将第一图像帧204存储在SD卡135中。
参考图20,展示操作方法且将其大体指定为2000。方法2000可由图1的处理器115、图2的触发检测器215,或其两者执行。
方法2000包含:在2002处,全局运动补偿。例如,图1的处理器115可使用全局运动估计及补偿的仿射参数模型。即使第二图像帧206表示静态场景,但非平移全局运动(例如,旋转)可仍导致图2的第二图像帧206的大聚合运动(RM)方差。例如,顺时针旋转可致使第二图像帧206的左侧的第一运动矢量指向第一方向(例如,向下)及第二图像帧206的右侧的第二运动矢量指向第二方向(例如,向上)。第二方向可与第一方向相反,导致高RM方差。处理器115可执行全局运动补偿以减少(例如,移除)第二图像帧206中的非平移全局运动的效应。
方法2000还包含:在2004处,前景/背景分离。例如,图1的处理器115可在对象识别之前对第二图像帧206执行前景/背景分离技术(例如,时间平均)。
方法2000进一步包含:在2006处,对象分类。例如,图1的处理器115可识别第二图像帧206中的一或多个对象。处理器115可将一或多个对象的特定对象分类为大对象或小对象。在特定实施方案中,可基于表示第二图像帧206中的对象的像素数目而将对象识别为大对象。例如,如果像素数目满足(例如,大于)像素阈值,那么可将对象分类为大对象。替代地,如果像素数目未能满足(例如,小于或等于)像素阈值,那么可将对象分类为小对象。
方法2000还包含:在2008处,小对象跟踪。例如,图1的处理器115可响应于在2006处确定第二图像帧206包含至少一个小对象,对至少一个对象执行小对象跟踪。跟踪至少一个小对象可有用于将至少一个小对象的运动与对应于第二图像帧206的运动场中的噪音分开。方法2000进一步包含:在2012处,微运动检测。例如,图1的处理器115可基于对应于至少一个小对象的运动矢量而执行微运动检测。为说明,处理器115(或图17的微运动检测器1706)可执行微运动检测,如参考图13及17所描述。
方法2000还包含:在2010处,大对象跟踪。例如,图1的处理器115可响应于在2006处确定第二图像帧206包含至少一个大对象,对至少一个对象执行大对象跟踪。跟踪至少一个大对象可有用于将至少一个大对象的运动与对应于第二图像帧206的运动场中的噪音分开。方法2000进一步包含:在2014处,宏运动检测。例如,图1的处理器115可基于对应于至少一个大对象的运动矢量而执行宏运动检测。为说明,处理器115(或图17的宏运动检测器1708)可执行宏运动检测,如参考图14及17所描述。
如上文所论述,处理器115(例如,触发检测器215)可基于从视频编码器125b接收的统计信息或从ISP 110接收的统计信息而确定由相机捕获的图像为“关键”帧或含有动作时刻的帧。在特定方面中,处理器115可基于从ISP 110接收的统计信息及图像(例如,用户图像帧)而确定由相机所捕获的图像为关键帧,如本文中参考图21进一步所描述。统计信息可包含信息,例如帧内MB分数或帧内MB的百分比、运动矢量、空间“复杂性度量”。复杂性度量可包括图像强度直方图,例如,与所关注区相关联。复杂性度量可以不同实施方案中的任何数目个方式计算。图21说明自动检测关注区(ROI)的方法的特定实例。例如,处理器115可将眼/头跟踪算法应用于用户图像帧以估计观看方向,且可基于观看方向而确定ROI,如参考图21所描述。
参考图21,展示装置且将其大体指定为2100。装置2100包含前置相机2102及后置相机2104(例如,成像系统105)。前置相机2102可不同于后置相机2104。前置相机2102及后置相机2104可耦合到ISP 110。ISP 110可耦合到第一缓冲器2106及第二缓冲器2108。第二缓冲器2108可包含图1的ZSL图像缓冲器120a、视频缓冲器120b、DDR存储器121,或其组合。第一缓冲器2106可耦合到跟踪器2110(例如,头/眼跟踪组件,例如,处理器)。跟踪器2110、第二缓冲器2108或其组合可经由运动统计信息提取器2112耦合到触发检测器215。触发检测器215、第二缓冲器2108或其组合可耦合到触发联合图像专家组(JPEG)快照2116。
在操作期间,前置相机2102可指向用户,且后置相机2104可指向待拍照的场景或对象。前置相机2102及后置相机2104可捕获图像帧且可将图像帧提供到ISP 110。例如,前置相机2102可将用户图像帧提供到ISP 110。后置相机2104可将图2的图像帧202提供到ISP110。ISP 110可将用户图像帧提供到第一缓冲器2106、将图像帧202提供到第二缓冲器2108,或其组合。用户图像帧可对应于第二图像帧206。例如,用户图像帧的第一时间戳可在第二图像帧206的时间戳的阈值持续时间内。
ISP 110可基于来自前置相机2102及后置相机2104的图像帧(例如,用户图像帧及图像帧202)而产生统计信息。ISP 110可将与用户图像帧(或用户图像帧)相关联的统计信息提供到跟踪器2110。跟踪器2110可基于用户的头及/或眼位置及移动而自动确定与由后置相机2104所捕获的图像(例如,第二图像帧206)相关联的ROI。例如,如果用户的头及/或眼经引导到左侧(基于由前置相机2102用户图像帧),那么可将后置相机2104捕获的第二图像帧206的左侧指定为ROI。相反地,如果用户的头及/或眼经引导到右侧(基于由前置相机2102用户图像帧),那么可将后置相机2104捕获的第二图像帧206的右侧指定为ROI。跟踪器2110可将ROI数据提供到运动统计信息提取器2112。ROI数据可指示或识别ROI。例如,ROI数据可指示第二图像帧206中的ROI的维度、坐标或两者。作为另一实例,ROI数据可指示ROI相对于第二图像帧206的中心的方向(左侧、东北方,等)。ROI数据可指示用户图像帧的第一时间戳。例如,跟踪器2110可基于用户图像帧的特定用户图像帧确定ROI。ROI数据可指示ROI与特定用户图像帧的特定时间戳相关联。例如,ROI数据可指示在由特定时间戳指示的特定时间处,用户的头/眼指向ROI。第二图像帧206的第二时间戳可指示第二时间。跟踪器2110可响应于确定特定时间与第二时间之间的差满足(例如,小于或等于)特定阈值基于特定给用户图像帧而确定对应于第二图像帧206的ROI。
运动统计信息提取器2112可使用ROI数据从第二图像帧206提取与ROI的运动统计信息。例如,运动统计信息提取器2112可响应于确定第二图像帧206的时间戳在用户图像帧的第一时间戳的阈值持续时间内而从第二缓冲器2108检索第二图像帧206。运动统计信息提取器2112可提取对应于来自图像帧202(例如,第二图像帧206)的ROI的运动统计信息(例如,运动矢量统计信息、帧内MB统计信息、帧内MB统计信息,等)。运动统计信息提取器2112可将运动统计信息提供到触发检测器215(例如,智能快照算法处理器)。触发检测器215可确定由后置相机2104捕获的特定图像帧(例如,第二图像帧206)是否为关键帧(例如,以检测或产生触发)。例如,触发检测器215可基于运动统计信息而检测触发,如参考图1到4、13到14及17所描述。触发检测器215可将触发通知提供到触发JPEG快照2116。触发通知可指示第二图像帧206。例如,触发通知可指示第二图像帧206的时间戳。触发JPEG快照2116可响应于接收触发通知而从第二缓冲器2108检索快照数据。例如,触发JPEG快照2116可响应于确定第一图像帧204具有与第二图像帧206相同的时间戳而存取第一图像帧204。触发JPEG快照2116可输出第一图像帧204。
在特定实施方案中,跟踪器2110可将触发通知提供到触发JPEG快照。例如,跟踪器2110可响应于检测用户的头/眼方向的突然移动而产生触发通知。触发通知可包含用户图像的第一时间戳。触发JPEG快照2116可响应于确定第一图像帧204的时间戳在用户图像的第一时间戳的阈值持续时间内而存取第一图像帧204。
参考图22,展示操作方法的流程图且将其大体指定为2200。方法2200可由图1的装置100、图2的装置200,或两者来执行。
方法2200包含:在2202处,在装置处,接收对应于视频流的多个图像帧。例如,ISP110可接收图像帧202,如参考图2所描述。图像帧202可包含(或对应于)具有第一分辨率的第一图像帧204及具有第二分辨率的第二图像帧206。第二分辨率可比第一分辨率低。
方法2200还包含:在2204处,在装置处,在接收到第一图像帧之后将第一图像帧存储在第一存储器中。例如,ISP 110可在接收到第一图像帧204之后将第一图像帧204存储在ZSL图像缓冲器120a、DDR存储器121或两者中。
方法2200进一步包含:在2206处,在装置处,通过分析第二图像帧而检测触发。例如,图2的触发检测器215可通过分析第二图像帧206而检测触发,如参考图2所描述。为说明,触发检测器215可确定关于第二图像帧206的多个区中的每一区的累积统计信息,如参考图3所描述。触发检测器215可基于累积统计信息而检测触发,如参考图3所描述。累积统计信息包含帧内宏块分数或累积运动的方差中的至少一者。
方法2200还包含:在2208处,在装置处,基于触发而将第一图像帧指定为动作帧。例如,图2的非触发检测器215可基于触发将第一图像帧204指定为动作帧,如参考图2所描述。
方法2200进一步包含:在2210处,在装置处,基于确定将第一图像帧指定为动作帧而将第一图像帧从第一存储器复制到第二存储器。例如,图1到2的JPEG压缩引擎125a可基于确定将第一图像帧204指定为动作帧而将图2的第一图像帧204从ZSL图像缓冲器120a或从DDR存储器121复制到SD卡135,如参考图2所描述。
参考图23,展示操作方法的流程图且将其大体指定为2300。方法2300可对应于图22的2206。
方法2300包含:在2302处,在装置处,基于多个图像帧而确定第一数据。例如,图2的触发检测器215可基于图像帧202而确定第一数据,如参考图2及13所描述。第一数据可指示第一对象(例如,小对象)的运动,如参考图13所描述。
方法2300还包含:在2304处,在装置处,基于多个图像帧而确定第二数据。例如,图2的触发检测器215可基于图像帧202而确定第二数据,如参考图2及14所描述。第二数据可指示第二对象(例如,大对象)的运动。第一对象可在第二图像帧206中由第一数目个像素表示。第二对象可在第二图像帧206中由第二数目个像素表示。第二像素数目可大于第一像素数目。触发检测器215可基于第一数据满足第一阈值、第二数据满足第二阈值,或两者而检测到触发,如参考图2、13及14所描述。
参考图24,展示操作方法的流程图且将其大体指定为2400。方法2400可对应于图22的2206。
方法2400包含:在2402处,在装置处,分析第二图像帧以确定指示运动的运动数据。例如,图2的触发检测器215可分析第二图像帧206以确定指示运动的运动数据,如参考图2、13、14及17所描述。
方法2400还包含:在2404处,在装置处,接收音频数据。例如,图2的触发检测器215可接收音频数据,如参考图2及15到17所描述。音频数据可对应于视频流。例如,音频数据可对应于图像帧202,如参考图2所描述。
方法2400进一步包含:在2406处,在装置处,基于所述音频数据的特性而更新触发检测阈值。例如,触发检测器215可基于所述音频数据的特性而更新触发检测阈值,如参考图2及17所描述。触发检测阈值可包含:在图3的框320处与mIF进行比较的阈值、在图4的框440处与所计算方差进行比较的阈值、在图13的框1312处于平均长度进行比较的阈值、在图14的框1404处与运动矢量长度进行比较的阈值、在图14的框1412处与最大连接分量大小进行比较的阈值、图17的触发组合器1710的触发检测阈值,或其组合。触发检测器215可基于运动数据满足触发检测阈值而检测触发,如参考图2到4、13到14及17所描述。
参考图25,展示操作方法的流程图且将其大体指定为2500。方法2500可对应于图22的2206。
方法2500包含:在2502处,在装置处,接收第二图像帧。例如,图1到2及21的ISP110可接收用户图像帧,如参考图21所描述。
方法2500还包含:在2504处,在装置处,基于第二图像帧而确定用户的头方向或用户的眼方向中的至少一者。例如,跟踪器2110可基于用户图像帧而确定用户的头方向或用户的眼方向中的至少一者,如参考图21所描述。
方法2500进一步包含:在2506处,在装置处,基于头方向或眼方向中的至少一者而确定第二图像帧的关注区。例如,跟踪器2110可基于头方向或眼方向中的至少一者而确定第二图像帧206的关注区(ROI),如参考图21所描述。触发检测器215可基于关注区而检测触发,如参考图21所描述。可经由后置相机2104接收图像帧202,如参考图21所描述。可经由前置相机2102接收用户图像帧,如参考图21所描述。
在一些实施方案中,ISP 110及视频编码器125b可执行本文中所描述的方法及系统的一或多个操作。在一些其它实施方案中,处理器115、触发检测器215或两者可执行本文中所描述的方法及系统中的一或多个操作。处理器115、触发检测器215或两者可分别从ISP110及视频编码器125b接收关于图像或视频帧的统计信息,其中从ISP 110及视频编码器125b接收的“统计信息”包括上文连同针对动作时刻待分析的一或多个帧的帧及图像数据所论述的宏块级统计信息。
如上文所描述,“关注时刻”的确定可基于由ISP 110提取的统计信息、由视频编解码器125b产生的统计信息、来自处理器115的触发,或由触发检测器215检测到触发。然而,确定还可分析各种额外源,例如,音频或视觉源。所捕获帧含有动作时刻的确定可至少部分地基于结合所分析的图像或视频剪辑帧所捕获的音频。例如,所分析的帧之间的背景音频的突然增加可用于确定动作时刻。类似地,可结合所捕获帧来检测来自用户的特定命令以指示对应所捕获帧的动作时刻。替代地,如果检测到亮度的局部改变(其可由大帧内宏块分数指示)或检测到局部移动(其可由大运动方差指示),那么正被检查的帧可含有动作时刻。
在一些实施方案中,本文中所论述的方法及系统的操作中的一或多者可以C编码且可经配置以与现有成像设备的操作软件(可经由软件更新安装)一起被包含。动作帧检测特征可整合到现有系统中且可结合其它自动图像检测系统(例如,面部表情辨识系统或手动拍摄选择系统)起作用。
所提出选择方法可在检测及捕获动作时刻中高度有效。所提议方法可不依赖于用以捕获关注时刻的用户交互或注意,且因此可提供对动作时刻的更有效捕获。方法可实时用于从暂时存储在缓冲存储器中的已捕获图像选择关注时刻且可在关注时刻在视频捕获速率(例如,30fps)范围内的情况下消除任何用户反应时间。
经处理智能快照方法可用于各种模式中。例如,可存在视频记录模式,其中视频可以低分辨率(例如,HD分辨率)记录,且另外,所选择动作帧是以高分辨率(例如,最大成像设备分辨率)记录。在另一实例中,可存在预览模式,所述预览模式利用视频编码引擎来以视频分辨率主动处理传入帧及产生宏块统计信息,所述宏块统计信息可由智能快照方法来选择关键帧。在预览模式中,视频编码器的输出可未被存储,且经识别动作帧可以高分辨率存储。另外,可至少部分地基于预期类型的视频记录或预览会话(例如短剪辑或长剪辑)而定义其它模式。在一些实施方案中,经分配存储器预算可基于会话类型而变化。
参考图26,描绘通信装置的特定说明性实例且将其大体指定为2600。装置2600包含耦合到存储器2632的处理器2610,例如,数字信号处理器。在说明性实例中,装置2600或其组件可对应于图1的装置100、图2的装置200、图15的装置1500及图16的装置1600、图17的装置1700、图21的装置2100,或其组件。处理器2610可包含图1的处理器115、图2的触发检测器215,或两者。触发检测器215可包含图15的音频能量估计器1504、噪音估计器1506、比较器1508,图16的累加器1604,图17的帧内MB分数检测器1704、微运动检测器1706、宏运动检测器1708、触发组合器1710,或其组合。处理器2610可包含图1的ISP 110、JPEG压缩引擎125a、视频编码器125b,图2的音频信号处理器208,图21的跟踪器2110、运动统计信息提取器2112,或其组合。
处理器2610可经配置以执行存储在存储器2632中的软件(例如,一或多个指令的程式)。另外或替代地,处理器2610可经配置以执行存储在无线控制器2640的存储器中的一或多个指令(例如,电气与电子工程师协会(IEEE)802.11兼容接口)。例如,无线控制器2640可经配置以根据一或多个无线通信标准操作,包含一或多个IEEE 802.11标准及一或多个NAN标准。在特定实施方案中,处理器2610可经配置以执行参考图1到25所描述的一或多个操作或方法。例如,处理器2610可经配置以接收对应于视频流的多个图像帧(例如,图像帧202)。图像帧202可包含第一图像帧204及第二图像帧206。第二图像帧206可具有比第一图像帧204低的分辨率。处理器2610也可经配置以在接收到第一图像帧204之后将第一图像帧204存储在ZSL图像缓冲器120或DDR存储器121中。处理器2610可经进一步配置以通过分析第二图像帧206来检测触发。处理器2610也可经配置以基于触发将第一图像帧204指定为动作帧。处理器2610可经进一步配置以基于确定将第一图像帧204指定为动作帧而将第一图像帧204从ZSL图像缓冲器120或从DDR存储器121复制到SD卡135。
无线控制器2640可耦合到处理器2610及天线2642。例如,无线控制器2640可耦合到天线2642使得可经由天线2642接收无线数据且可将其提供到处理器2610。
编码/解码器(编解码器)2634也可耦合到处理器2610。扬声器2636及音频传感器210(例如,麦克风)可耦合到编解码器2634。显示控制器2626可耦合到处理器2610及显示装置2628。在特定实施方案中,处理器2610、显示控制器2626、存储器2632、编解码器2634及无线控制器2640被包含在系统级封装或单片系统装置2622中。在特定实施方案中,输入装置2630、电源2644、成像系统105(例如,相机)、前置相机2102、后置相机2104、SD卡135、DDR存储器121及DDR存储器130耦合到单片系统装置2622。此外,在特定实例中,如图26中所说明,显示装置2628、输入装置2630、成像系统105、前置相机2102、后置相机2104、扬声器2636、音频传感器210、SD卡135、DDR存储器121、DDR存储器130、天线2642及电源2644在单片系统装置2622外部。然而,显示装置2628、输入装置2630、成像系统105、前置相机2102、后置相机2104、扬声器2636、音频传感器210、SD卡135、DDR存储器121、DDR存储器130、天线2642及电源2644中的每一者可耦合到单片系统装置2622的一或多个组件,例如一或多个接口或控制器。在特定实施方案中,装置2600可包含通信装置、音乐播放器、视频播放器、娱乐单元、导航装置、个人数字助理(PDA)、移动装置、计算机、解码器或机顶盒中的至少一者。
结合所描述实例,设备包含用于存储对应于视频流的多个图像帧的装置。例如,用于存储的装置可包含ZSL图像缓冲器120a、DDR存储器121、视频缓冲器120b、DDR存储器130、SD卡135、图1的装置100,图2的装置200,图15的装置1500,图16的装置1600,图17的装置1700,图21的装置2100,存储器2632,经配置以存储多个图像帧的一或多个其它装置、电路、模块或指令,或其组合。
设备还包含用于分析多个图像帧中的第一图像帧以产生指示第一对象的运动的第一运动数据的第一装置。例如,用于分析的第一装置可包含视频编码器125b、处理器115、触发检测器215、运动统计信息提取器2112、图1的装置100,图2的装置200,图15的装置1500,图16的装置1600,图17的装置1700,图21的装置2100,经编程以执行存储在存储器2632中的指令的处理器2610、经配置以分析第一图像帧以产生第一运动数据的一或多个其它装置、电路、模块或指令,或其组合。
设备进一步包含用于基于确定第一运动数据满足第一对象运动阈值而确定第一图像帧包含第一对象的装置。例如,用于确定的装置可包含处理器115、触发检测器215、微运动检测器1706、宏运动检测器1708、图1的装置100、图2的装置200、图15的装置1500、图16的装置1600、图17的装置1700、图21的装置2100、经编程以执行存储在存储器2632中的指令的处理器2610、经配置以确定第一图像帧包含第一对象的一或多个其它装置、电路、模块或指令,或其组合。为说明,微运动检测器1706可响应于确定第二图像帧206为关键帧而确定图2的第二图像帧206包含小对象。宏运动检测器1708可响应于确定第二图像帧206为关键帧而确定第二图像帧206包含大对象。
设备还包含用于在第一图像帧包含第一对象时检测触发的装置。例如,用于检测的装置可包含处理器115、触发检测器215、触发组合器1710、图1的装置100、图2的装置置200、图15的装置1500、图16的装置1600、图17的装置1700、图21的装置2100、经编程以执行存储在存储器2632中的指令的处理器2610、经配置以检测触发的一或多个其它装置、电路、模块或指令,或其组合。
设备进一步包含用于基于触发将多个图像帧中的第二图像帧指定为动作帧的装置。例如,用于指定的装置可包含处理器115、JPEG压缩引擎125a、触发检测器215、触发组合器1710、图1的装置100、图2的装置置200、图15的装置1500、图16的装置1600、图17的装置1700、图21的装置2100、经编程以执行存储在存储器2632中的指令的处理器2610、经配置以将图像帧指定为动作帧的一或多个其它装置、电路、模块或指令,或其组合。
实施系统及技术
本文中所揭示的实施方案提供用于自动检测动作时刻及捕获所述动作时刻的系统、方法及设备。所属领域的技术人员将认识到,这些实例可以硬件、软件、固件或其任何组合实施。
在一些实施方案中,上文所论述的电路、进程及系统可用于无线通信装置。无线通信装置可为用于与其它电子装置进行无线通信的一类电子装置。无线通信装置的实例包含蜂窝式电话、智能电话、个人数字助理(PDA)、电子阅读器、游戏系统、音乐播放器、上网本、无线调制解调器、膝上型计算机、平板装置,等。
无线通信装置可包含一或多个图像传感器、两个或多于两个图像信号处理器、及包含用于实施上文所论述的多频谱虹膜鉴别过程的指令或模块的存储器。装置还可具有数据、从存储器载入指令及/或数据的处理器、一或多个通信接口、一或多个输入装置、一或多个输出装置(例如显示装置及电源/接口)。无线通信装置可另外包含发射器及接收器。发射器及接收器可共同被称作收发器。收发器可被耦合到一或多个天线用于传输及/或接收无线信号。
无线通信装置可以无线方式连接到另一电子装置(例如,基站)。无线通信装置可替代地被称作移动装置、移动站、订户站、用户设备(UE)、远程站、接入终端、移动终端、终端、用户终端、订户单元,等。无线通信装置的实例包含膝上型或桌上型计算机、蜂窝式电话、智能电话、无线调制解调器、电子阅读器、平板装置、游戏系统,等。无线通信装置可根据一或多个行业标准(例如,第3代合作伙伴计划(3GPP))操作。因此,一般术语“无线通信装置”可包含用根据行业标准的不同专门语(例如,接入终端、用户设备(UE)、远程终端,等)所描述的无线通信装置。
本文中所描述的功能可作为一或多个指令被存储在处理器可读或计算机可读媒体上。术语“计算机可读媒体”是指可由计算机或处理器存取的任何可用媒体。借由实例而非限制的方式,此媒体可包括RAM、ROM、EEPROM、快闪存储器、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储装置或者可用于存储呈指令或数据结构形式的程序代码且可由计算机存取的任一其它媒体。如本文中所使用的磁盘及光盘包含:光盘(CD)、激光光盘、光学盘、数字多功能光盘(DVD)、软盘及
Figure BDA0002487683610000331
盘,其中磁盘通常以磁性方式再现数据,而光盘借助激光以光学方式再现数据。应注意,计算机可读媒体可为有形的且非易失性。术语“计算机程序产品”是指结合可由计算装置或处理器执行、处理或计算的代码或指令(例如,“程序”)的计算装置或处理器。如本文中所使用,术语“代码”可是指可由计算装置或处理器执行的软件、指令、代码或数据。
软件或指令还可经由传输媒体来传输。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源传输软件,那么所述同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波等无线技术皆包含于媒体的定义中。
本文中所揭示的方法包括用于实现所描述方法的一或多个步骤或动作。方法步骤及/或动作可彼此互换而不背离权利要求书的范围。换句话说,可在不背离权利要求书的范围的情况下修改特定步骤及/或动作的次序及/或使用。
应注意,术语“耦合(couple)”、“耦合(coupling)”、“经耦合(coupled)”或如本文中所使用的词语耦合的其它变化形式可指示间接连接或直接连接。举例来说,如果第一组件“经耦合”到第二组件,那么第一组件可为间接连接到第二组件或直接连接到第二组件。如本文中所使用,术语“多个”指示两个或多于两个。举例来说,多个组件指示两个或多于两个组件。
术语“确定”囊括广泛各种动作,且因此“确定”可包含运算、计算、处理、导出、调查、查找(例如,在表、数据库或另一数据结构中查找),确定及其类似者。另外,“确定”可包含接收(例如,接收信息)、存取(例如,存取存储器中的数据)及其类似者。此外,“确定”可包含解析、选择、挑选、建立及其类似者。
除非另有明确规定,否则短语“基于”并不意味着“仅基于”。换句话说,短语“基于”描述“仅基于”及“至少基于”两者。
在前述描述中,给出具体细节以提供对实例的透彻理解。然而,所属领域的技术人员将理解,可在无这些具体细节的情况下实践实例。举例来说,可以框图展示电组件/装置以便不会以不必要细节模糊实例。在其它例子中,此些组件、其它结构及技术可经详细展示以进一步解释实例。
本文中包含标题以供参考且辅助定位各种章节。这些标题并不意欲限制关于其所描述的概念的范围。此些概念可贯穿整个说明书具有适应性。
还应注意,实例可经描述为过程,其经描述为流程表、流程图、结构图或框图。尽管流程表可将操作描述为序列过程,但操作中的许多者可并行或同时执行,且可重复所述过程。另外,可重新布置操作的次序。当过程的操作完成时,所述过程终止。过程可对应于方法、功能、程序、子例程、子程序等。当过程对应于软件功能时,其终止对应于将功能返回到调用功能或主要功能。
前述描述经提供以使得所属领域的技术人员能够制作或使用所揭示实施方案。在不脱离本发明的范围的情况下,对这些实施方案的各种修改对于所属领域的技术人员来说将易于显而易见,且本文中所定义的原理可应用于其它实施方案。因此,本发明并不意欲被限制于本文中所展示的实施方案,而意欲赋予其与本文中所揭示的原理及新颖特征一致的最广泛范围。

Claims (34)

1.一种设备,其包括:
存储器;及
处理器,耦合至所述存储器,所述处理器经配置以:
接收包含第一图像帧及第二图像帧的多个图像帧,所述第一图像帧包含第一对象,所述第二图像帧包含所述第一对象,其中,所述第一图像帧是在第一时间接收的,以及所述第二图像帧是在第二时间接收的;
基于所述第一图像帧及所述第二图像帧的一或多者检测所述第一对象的运动;
基于所检测的运动,来将所述第一图像帧及所述第二图像帧的所述一或多者指定为动作帧;及
基于所述指定,将在所述第二时间的特定持续时间内接收的所述第一图像帧存储于所述存储器中。
2.根据权利要求1所述的设备,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
在所述多个图像帧的一或多者中识别关注区,所述关注区包含所述第二图像帧的一部分以包含所检测的运动。
3.根据权利要求2所述的设备,其中在所述多个图像帧的一或多者中识别关注区包含:
接收定义所述关注区的用户输入。
4.根据权利要求2所述的设备,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
在所述关注区内检测所述第一对象的所述运动。
5.根据权利要求2所述的设备,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
排除所述关注区以外的区域。
6.根据权利要求1所述的设备,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
基于运动阈值确定所检测的运动。
7.根据权利要求1所述的设备,其中所述处理器进一步经配置以:接收与所述多个图像帧的一或多者相关联的音频数据。
8.根据权利要求7所述的设备,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
基于所述第一图像帧、所述第二图像帧及所述音频数据检测所述第一对象的所述运动。
9.根据权利要求1所述的设备,其中将所述第一图像帧存储于所述存储器中包含:存储所述第一图像帧的JPEG图像。
10.根据权利要求1所述的设备,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
基于所述第一对象的大小检测所述第一对象的所述运动。
11.根据权利要求1所述的设备,进一步包括:后置相机。
12.根据权利要求11所述的设备,进一步包括:与后置相机相对的前置相机。
13.根据权利要求12所述的设备,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
基于用户的头位置、所述用户的眼位置及由所述前置相机捕获的一或多个图像帧的运动的至少一者,在由所述后置相机捕获的所述第一图像帧及所述第二图像帧的所述一或多者中识别关注区。
14.根据权利要求1所述的设备,进一步包括:麦克风。
15.根据权利要求1所述的设备,进一步包括:显示器。
16.根据权利要求1所述的设备,其中所述处理器进一步经配置以:
减小所述第一图像帧及所述第二图像帧的所述一或多者的分辨率;及
基于减小分辨率的所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动。
17.根据权利要求1所述的设备,其中基于所述指定,将在所述第二时间的特定持续时间内接收的所述第一图像帧存储于所述存储器中包含:
将在所述第二图像帧被以比所述第一图像帧的分辨率低的分辨率来捕获的时间的特定持续时间内捕获的所述第一图像帧存储于所述存储器中。
18.根据权利要求1所述的设备,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
估计所述第一图像帧及所述第二图像帧的所述一或多者中的全局运动。
19.根据权利要求18所述的设备,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
基于估计的全局运动将全局运动补偿应用于所述第一图像帧及所述第二图像帧的所述一或多者;及
在应用所述全局运动补偿之后检测所述第一对象的所述运动。
20.一种检测方法,其包括:
接收包含第一图像帧及第二图像帧的多个图像帧,所述第一图像帧包含第一对象,所述第二图像帧包含所述第一对象,其中,所述第一图像帧是在第一时间接收的,以及所述第二图像帧是在第二时间接收的;
基于所述第一图像帧及所述第二图像帧的一或多者检测所述第一对象的运动;
基于所检测的运动,来将所述第一图像帧及所述第二图像帧的所述一或多者指定为动作帧;及
基于所述指定,存储在所述第二时间的特定持续时间内接收的所述第一图像帧。
21.根据权利要求20所述的方法,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
在所述多个图像帧的一或多者中识别关注区,所述关注区包含所述第二图像帧的一部分以包含所检测的运动。
22.根据权利要求21所述的方法,其中在所述多个图像帧的一或多者中识别关注区包含:
接收定义所述关注区的用户输入。
23.根据权利要求21所述的方法,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
在所述关注区内检测所述第一对象的所述运动。
24.根据权利要求21所述的方法,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
排除所述关注区以外的区域。
25.根据权利要求20所述的方法,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
基于运动阈值确定所检测的运动。
26.根据权利要求20所述的方法,进一步包括:
接收与所述多个图像帧的一或多者相关联的音频数据。
27.根据权利要求26所述的方法,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
基于所述第一图像帧、所述第二图像帧及所述音频数据检测所述第一对象的所述运动。
28.根据权利要求20所述的方法,其中存储所述第一图像帧包含:存储所述第一图像帧的JPEG图像。
29.根据权利要求20所述的方法,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
基于所述第一对象的大小检测所述第一对象的所述运动。
30.根据权利要求20所述的方法,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
基于用户的头位置、所述用户的眼位置及所捕获的一或多个图像帧的运动的至少一者在所捕获的所述第一图像帧及所述第二图像帧的所述一或多者中识别关注区。
31.根据权利要求20所述的方法,其进一步包括:
减小所述第一图像帧及所述第二图像帧的所述一或多者的分辨率;及
基于减小分辨率的所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动。
32.根据权利要求20所述的方法,其中基于所述指定,存储在所述第二时间的特定持续时间内接收的所述第一图像帧包含:
存储在所述第二图像帧被以比所述第一图像帧的分辨率低的分辨率来捕获的时间的特定持续时间内捕获的所述第一图像帧。
33.根据权利要求20所述的方法,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
估计所述第一图像帧及所述第二图像帧的所述一或多者中的全局运动。
34.根据权利要求33所述的方法,其中基于所述第一图像帧及所述第二图像帧的所述一或多者检测所述第一对象的所述运动包含:
基于估计的全局运动将全局运动补偿应用于所述第一图像帧及所述第二图像帧的所述一或多者;及
在应用所述全局运动补偿之后检测所述第一对象的所述运动。
CN202010396251.1A 2014-08-14 2015-08-11 视频流的动作帧的检测 Active CN111540387B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
IN3985/CHE/2014 2014-08-14
IN3985CH2014 2014-08-14
US14/728,047 2015-06-02
US14/728,047 US9715903B2 (en) 2014-06-16 2015-06-02 Detection of action frames of a video stream
PCT/US2015/044660 WO2016025485A2 (en) 2014-08-14 2015-08-11 Detection of action frames of a video stream
CN201580042994.6A CN106575359B (zh) 2014-08-14 2015-08-11 视频流的动作帧的检测

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201580042994.6A Division CN106575359B (zh) 2014-08-14 2015-08-11 视频流的动作帧的检测

Publications (2)

Publication Number Publication Date
CN111540387A CN111540387A (zh) 2020-08-14
CN111540387B true CN111540387B (zh) 2022-03-22

Family

ID=55304752

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010396251.1A Active CN111540387B (zh) 2014-08-14 2015-08-11 视频流的动作帧的检测
CN201580042994.6A Active CN106575359B (zh) 2014-08-14 2015-08-11 视频流的动作帧的检测

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201580042994.6A Active CN106575359B (zh) 2014-08-14 2015-08-11 视频流的动作帧的检测

Country Status (3)

Country Link
EP (2) EP3180739A2 (zh)
CN (2) CN111540387B (zh)
WO (1) WO2016025485A2 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108289191B (zh) * 2017-02-15 2020-01-10 腾讯科技(深圳)有限公司 图像识别方法及装置
GB2575852B (en) * 2018-07-26 2021-06-09 Advanced Risc Mach Ltd Image processing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379589A (zh) * 2001-03-30 2002-11-13 罗技欧洲公司 基于运动和音频检测的网络摄影和带宽控制
CN101996410A (zh) * 2010-12-07 2011-03-30 北京交通大学 动态背景下的运动目标检测方法及系统
CN102685574A (zh) * 2011-03-09 2012-09-19 须泽中 从数字电视节目中自动抽取图像的系统及其应用
CN102714729A (zh) * 2010-09-02 2012-10-03 英特赛尔美国股份有限公司 用于视频内容分析的系统和方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7027513B2 (en) * 2003-01-15 2006-04-11 Microsoft Corporation Method and system for extracting key frames from video using a triangle model of motion based on perceived motion energy
JP4053490B2 (ja) * 2003-03-25 2008-02-27 株式会社東芝 フレーム補間のための補間画像作成方法及びこれを用いた画像表示システム、補間画像作成装置
JP2006174415A (ja) * 2004-11-19 2006-06-29 Ntt Docomo Inc 画像復号装置、画像復号プログラム、画像復号方法、画像符号化装置、画像符号化プログラム及び画像符号化方法
CA2674830A1 (en) * 2007-01-05 2008-07-17 Nestor, Inc. Video speed detection system
US7925112B2 (en) * 2007-02-28 2011-04-12 Honeywell International Inc. Video data matching using clustering on covariance appearance
US9584710B2 (en) * 2008-02-28 2017-02-28 Avigilon Analytics Corporation Intelligent high resolution video system
US9251423B2 (en) * 2008-03-21 2016-02-02 Intel Corporation Estimating motion of an event captured using a digital video camera
US8284249B2 (en) * 2008-03-25 2012-10-09 International Business Machines Corporation Real time processing of video frames for triggering an alert
US8121424B2 (en) * 2008-09-26 2012-02-21 Axis Ab System, computer program product and associated methodology for video motion detection using spatio-temporal slice processing
CN101924923B (zh) * 2010-08-03 2013-01-09 杭州翰平电子技术有限公司 嵌入式智能自动变焦抓拍方法
US9311271B2 (en) * 2010-12-15 2016-04-12 Andrew William Wright Method and system for logging vehicle behavior
EP2798519A4 (en) * 2011-12-27 2015-10-21 Eye Stalks Corp METHOD AND APPARATUS FOR VISUAL FOLLOW-UP
US9225904B2 (en) * 2012-02-13 2015-12-29 Htc Corporation Image capture method and image capture system thereof
US10713499B2 (en) * 2012-04-23 2020-07-14 Conduent Business Services, Llc Real-time video triggering for traffic surveillance and photo enforcement applications using near infrared video acquisition
EP2662827B1 (en) * 2012-05-08 2016-01-13 Axis AB Video analysis
CN103428483B (zh) * 2012-05-16 2017-10-17 华为技术有限公司 一种媒体数据处理方法及设备
US9131143B2 (en) * 2012-07-20 2015-09-08 Blackberry Limited Dynamic region of interest adaptation and image capture device providing same

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379589A (zh) * 2001-03-30 2002-11-13 罗技欧洲公司 基于运动和音频检测的网络摄影和带宽控制
CN102714729A (zh) * 2010-09-02 2012-10-03 英特赛尔美国股份有限公司 用于视频内容分析的系统和方法
CN101996410A (zh) * 2010-12-07 2011-03-30 北京交通大学 动态背景下的运动目标检测方法及系统
CN102685574A (zh) * 2011-03-09 2012-09-19 须泽中 从数字电视节目中自动抽取图像的系统及其应用

Also Published As

Publication number Publication date
WO2016025485A2 (en) 2016-02-18
EP3180739A2 (en) 2017-06-21
CN106575359B (zh) 2020-05-19
CN111540387A (zh) 2020-08-14
CN106575359A (zh) 2017-04-19
EP3855350A1 (en) 2021-07-28
WO2016025485A3 (en) 2016-04-21

Similar Documents

Publication Publication Date Title
US9715903B2 (en) Detection of action frames of a video stream
US11538232B2 (en) Tracker assisted image capture
US10062412B2 (en) Hierarchical segmentation and quality measurement for video editing
US8988529B2 (en) Target tracking apparatus, image tracking apparatus, methods of controlling operation of same, and digital camera
EP4203476A1 (en) Video motion estimation method and apparatus, device, computer-readable storage medium and computer program product
US8355048B2 (en) Subject tracking computer program product, subject tracking device and camera
EP1600882A1 (en) Determining a representative set of images.
JP6211715B2 (ja) ビデオのブラウジング方法、その装置、プログラム及び記録媒体
US9652857B2 (en) Object detection apparatus detection method and program
US20200036895A1 (en) Image processing apparatus, control method thereof, and image capture apparatus
JP6892524B2 (ja) 対象追跡に基づくスローモーションビデオキャプチャ
JP2012239085A (ja) 画像処理装置、画像処理方法
CN111540387B (zh) 视频流的动作帧的检测
CN115103120A (zh) 拍摄场景检测方法、装置、电子设备和存储介质
KR20130091441A (ko) 물체 추적 장치 및 그 제어 방법
US20240048672A1 (en) Adjustment of shutter value of surveillance camera via ai-based object recognition
JP2010074315A (ja) 被写体追尾方法及び撮像装置
KR101908938B1 (ko) 배경모델 기반 시간축 최소값 필터링 및 로그 히스토그램을 이용한 전경 객체 검출 방법
KR20100118811A (ko) 감시 카메라 시스템의 관리를 위한 장면 전환 검출 방법과 장면 전환 검출 신뢰도 산출 방법 및 소프트웨어
US20240046426A1 (en) Noise removal for surveillance camera image by means of ai-based object recognition
US20130343728A1 (en) Imaging device, information processing device, and non-transitory computer readable medium storing program
CN116614631B (zh) 视频处理方法、装置、设备及介质
CN115619815A (zh) 对象追踪方法及对象追踪装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant