CN106664467B - 视频数据流捕获和摘要的方法、系统、介质和设备 - Google Patents

视频数据流捕获和摘要的方法、系统、介质和设备 Download PDF

Info

Publication number
CN106664467B
CN106664467B CN201580041365.1A CN201580041365A CN106664467B CN 106664467 B CN106664467 B CN 106664467B CN 201580041365 A CN201580041365 A CN 201580041365A CN 106664467 B CN106664467 B CN 106664467B
Authority
CN
China
Prior art keywords
frame
incumbent
abstract
scoring
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580041365.1A
Other languages
English (en)
Other versions
CN106664467A (zh
Inventor
S·查克拉博蒂
O·蒂克奥
I·拉维尚卡尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Priority to CN201710754925.9A priority Critical patent/CN107529098B/zh
Publication of CN106664467A publication Critical patent/CN106664467A/zh
Application granted granted Critical
Publication of CN106664467B publication Critical patent/CN106664467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/30Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41407Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording

Abstract

用于运行时捕获的视频摘要的系统、仪器、方法和计算机可读介质。通过相机模块在流生成的同时渐增地获得视频流摘要。当流演进时,通过将摘要更新为仅包括最重要的帧而维持视频流摘要的显著性。在一个示例性实施例中,显著性是通过对包括指示选择的多样性和选择对于视频数据语料库的处理部分有多大代表性的项的目标函数进行优化而确定的。包括CM且与示例性架构一致的设备平台可以以超低功率,和/或使用超低储存资源,和/或使用超低通信信道带宽,提供视频相机功能。

Description

视频数据流捕获和摘要的方法、系统、介质和设备
要求优先权
本申请要求2014年9月4日提交的美国专利申请序列号 14/477,595、题为“实时视频摘要(REAL TIME VIDEO SUMMARIZATION)”的优先权,并且其全部公开内容以引用方式并入本文。
技术领域
本文涉及一种捕获的视频数据流摘要方法、视频数据流捕获和摘要系统、用于视频数据流捕获和摘要的设备和计算机可读储存介质。
背景技术
数字相机是常常包括在商业电子媒体设备平台中的部件。数字相机现在以可佩戴形式因素(例如,视频捕获头戴式耳机、视频捕获耳机、视频捕获眼镜等)是可用的,还被嵌入在智能手机、平板电脑和笔记本电脑等内。
来自移动数字相机的流视频的引入已经开创了具有前所未有的视频数据量的新纪元。考虑用户佩戴装配有视频相机的一对眼镜的情况下的应用。该相机捕获描绘全天用户的活动的视频流。用户可对观看特定的一天的主要事件的大纲感兴趣。然而,这样大量数据的人工分析是难处理的,并且自动数据处理技术已经跟不上需要。
例如,尝试提取主要情况且提供捕获的视频的简洁表示的自动视频摘要算法通常要求访问整个预录的视频文件,并且生成该静态原子单元的摘要。然而,这样的技术依赖于大的处理/储存资源,以首先编码、归档和解码以潜在的高帧速率(例如,25帧/秒或更多)最初捕获的整个流持续时间。如果这样的处理/储存资源本来没有存在于视频记录平台内(视频记录平台可以变成用于超低功率平台(例如,耳机和其它可佩戴形式)的默认平台),则整个视频流需要从相机平台被传送到后端机(例如,云服务器),用于处理。然而,这样的传送引起通信信道上的重负载,并且对于很多设备平台和使用情况是不切实际的。
因而,当随着时间视频流从存在于平台上的相机模块硬件逐渐到达时,能够实时(运行时)自动摘要视频的视频记录平台架构和技术是有利的。
发明内容
本文提供一种捕获的视频数据流摘要方法,包括:
从相机硬件模块CM接收连续暴露的视频数据帧流;
基于从所述CM接收的每组新的帧,迭代地评估包括所述视频数据帧中的一个或多个的流摘要,其中评估还包括:
相对于在新的一组中的其它帧,并且相对于包括在来自之前迭代的所述流摘要中的每个现任帧,对从所述CM接收的新的一组帧中的每个非现任帧评分,对每个非现任帧进行评分还包括:
为在所述新的一组中的每个帧计算特征向量;
基于所述特征向量,相对于在所述新的一组中的其它帧,为在所述新的一组中的每个帧计算非现任覆盖评分;以及
基于所述特征向量,相对于在所述新的一组中的其它帧且相对于每个现任帧,为在所述新的一组中的每个帧计算多样性评分;以及
基于为选择而对帧评分进行优化的目标函数的解,从包括所述非现任帧和所述现任帧的库中选择帧;以及
响应于优先于现任帧选择非现任帧,更新储存在存储器中的所述流摘要。
本文还提供相应的视频数据流捕获和摘要系统、用于视频数据流捕获和摘要的设备和计算机可读储存介质。
附图说明
在附图中以示例而非限制的方式示出本文中所描述的材料。为了简单和清楚的说明,附图中所示的元件不一定按比例绘制。例如,为了清楚,一些元件的尺寸相对于与其它元件的尺寸可被夸大。另外,在认为合适的情况下,在附图中已重复附图标记,以指示对应的或类似的元件。在附图中:
图1A根据一个或多个实施例是示出实时(RT)捕获的视频摘要方法的流程图;
图1B根据一个或多个实施例是示出RT捕获的视频摘要方法的流程图;
图2A根据实施例是包括RT视频数据流捕获和摘要平台的系统的功能框图;
图2B根据一个或多个实施例是RT视频数据流摘要系统的功能框图;
图3根据一个或多个实施例示出RT视频数据流捕获和摘要平台;
图4A根据实施例是还示出RT捕获的视频数据流摘要方法的流程图;
图4B根据一个或多个实施例示出RT捕获的视频数据流摘要模型;
图5A根据一个或多个实施例是示出RT捕获的视频摘要方法的流程图;
图5B根据一个或多个实施例是示出视频帧覆盖评分方法的流程图;
图5C根据一个或多个实施例是示出视频帧多样性评分方法的流程图;
图5D根据一个或多个实施例是示出为流摘要选择帧的方法的流程图;
图6A根据一个或多个实施例示出视频流中连续暴露的帧;
图6B和图6C根据实施例示出从图6A中所描绘的视频流中分割出来的帧组;
图7根据一个或多个实施例是采用RT视频数据流捕获和摘要架构的示例性超低功率系统的图示;以及
图8是根据一个或多个实施例布置的示例性移动手持设备平台的图示。
具体实施方式
参考附图描述了一个或多个实施例。虽然详细描绘和讨论了具体配置和布置,但是应当理解,这样做仅用于说明的目的。相关领域中的技术人员将认识到,在不脱离描述的精神和范围的情况下,其它配置和布置是可能的。对于相关领域中的这些技术人员将显而易见的,可以在本文中详细描述的之外的各种其它系统和应用中采用本文中描述的技术和/或布置。
在以下详细描述中参考附图,附图形成详细描述的一部分,并且示出示例性实施例。另外,应当理解,可以利用其它实施例,并且可以在不脱离所要求保护的主题的范围的情况下做出结构和/或逻辑改变。因而,以下详细描述不具有限制意义,并且仅由随附权利要求书及其等效物限定所要求保护的主题的范围。
在以下描述中,阐述了许多细节,然而,对于本领域中的技术人员将显而易见的,可以在没有这些具体细节的情况下实践实施例。以框图形式而不是详细示出众所周知的方法和设备,以避免使更重要的方面模糊。在整个说明书中提到的“实施例”或“一个实施例”意味着与实施例结合描述的特定的特征、结构、功能或特性被包括在至少一个实施例中。如此,在整个说明书中各个地方中短语“在实施例中”或“在一个实施例中”的出现没有必要是指同一实施例。而且,在实施例的环境中描述的特定的特征、结构、功能或特性可以在一个或多个实施例中以任何合适的方式组合。例如,第一实施例可以与第二实施例组合,在任何地方与两个实施例相关联的特定的特征、结构、功能或特性不是互相排斥的。
如在示例性实施例和随附权利要求书的描述中使用的,单数形式“一个(a/an)”和“所述”旨在也包括复数形式,除非上下文另外明确指示。还应当理解,如本文中使用的术语“和/或”是指且包含相关联的列出的项目中的一个或多个的任何和全部可能的组合。
如在整个描述中使用的,并且在权利要求书中,由术语“…中的至少一个”或“…中的一个或多个”接合的项目的列表可以意味着所列出的项目的任何组合。例如,短语“A、B或C中的至少一个”可以意味着A;B;C;A和B;A和C;B和C;或A、B和C。
术语“耦合”和“连接”,以及它们的派生词可以在本文中被用于描述部件之间的功能或结构关系。应当理解,这些术语不旨在作为彼此的同义词。相反,在特定的实施例中,“连接”可以被用于指示两个或多个元件彼此处于直接物理、光学或电接触。“耦合”可以被用于指示两个或多个元件或彼此处于直接物理、光学或电接触或者彼此处于间接物理、光学或电接触(通过在它们之间的其它干预元件),和/或两个或多个元件彼此协作或交互(例如,和在因果关系中一样)。
本文中提供的详细描述的一些部分根据计算机存储器内的数据位上的操作的算法和符号表示来提供。除非另外具体指出,如从以下讨论显而易见的,应当理解,在整个描述中,利用术语诸如“估算”、“计算”、“确定”、“估计”、“储存”、“收集”、“显示”、“接收”、“合并”、“生成”、“更新”等的讨论是指计算机系统或相似的电子计算设备的动作或过程,计算机系统或相似的电子计算设备操纵和转换在包括寄存器和存储器的计算机系统的电路内表示为物理(电子)量的数据成为在计算机系统存储器或寄存器或其它信息储存、传输或显示设备内相似表示为物理量的其它数据。
虽然以下描述阐述了可以在架构(例如,这样的片上系统(SoC) 架构)中表明的实施例。但本文中描述的技术和/或布置的实施方式并不局限于特定的架构和/或计算系统,并且可以通过用于相似目的的任何架构和/或计算系统来实施。采用例如多个集成电路(IC)芯片和/ 或封装,和/或各种计算设备和/或消费电子(CE)设备(诸如机顶盒、智能手机等)的各种架构可以实施本文中所描述的技术和/或布置。另外,虽然以下描述可以阐述许多具体细节(诸如逻辑实施方式、类型和系统部件的相互关系、逻辑划分/集成选择等),但是可以在没有这样的具体细节的情况下实践所要求保护的主题。而且,可不详细示出一些材料诸如例如控制结构和完整的软件指令序列,以便不会使本文中所公开的材料模糊。
可以在硬件(例如,如在图形处理器中的逻辑电路)中实施本文中所公开的材料的某些部分。可以在硬件、固件、软件或其任何组合中实施某些其它部分。本文中所公开的材料的至少一些还可以被实施为储存在机器可读介质上的指令,可以由一个或多个处理器(图形处理器和/或中央处理器)读取和执行该指令。机器可读介质可以包括用于以由机器(例如,计算设备)可读的形式储存或传输信息的任何介质和/或机制。例如,机器可读介质可以包括只读存储器(ROM);随机访问存储器(RAM);磁盘存储介质;光学存储介质;闪存设备;电气、光学、声学或其它相似非暂时有形介质。
一个或多个系统、仪器、方法和计算机可读介质在下面被描述用于实时捕获的视频摘要。在“实时”捕获的视频摘要中,在流生成的同时渐增地获得视频流摘要。摘要算法的操作不是在任何给定的时间对整个视频进行访问,而是在一段时间上按顺序分段地观测它。事实上,在由新收集的部分丢弃/改写视频语料库的分析的部分的一个示例性实施例中,包括在摘要中的帧可以不具有在视频语料库的存活部分内的模拟。还如下面描述的,当接收到数据流时,从CM新接收的帧和先前评定的帧是用于显著性迭代评估的候选摘要帧。当流演进时,通过更新摘要以仅包括最重要的帧而维持流摘要的显著性。在一个示例性实施例中,显著性是通过优化包括指示选择的多样性和选择对于视频数据语料库的处理部分多么有代表性两者的项的目标函数而确定的。
在跨越包括连续视频流的给定的一系列连续捕获的帧的第一视频帧到最后一帧的CM的输出的时间窗口中执行摘要算法的多个迭代。因而,实时摘要的速率要求是与相机硬件模块(CM)相关联的帧速率的函数。如下面所描述的,包括CM且与示例性架构一致的设备平台可以以超低功率和/或使用超低储存资源和/或使用超低通信信道带宽提供视频相机功能。还如下面所描述的,即使在处理功率和/或储存和/ 或通信资源不是特别紧缺的情况下,包括CM且与示例性架构一致的设备平台可以增强用户的视频相机体验。
图1A根据一个或多个实施例是示出RT捕获的视频摘要方法101 的流程图。方法101开始于操作105,在操作105,CM以帧速率(例如,30、60、120、240、480fps等)流式传输连续暴露的视频数据帧。在操作110,当由CM下游的平台上的硬件接收流时,所接收的帧的子集被选择作为代表视频流的摘要图像。在操作115,所选择的摘要帧被储存到承载CM的平台上的存储器。该过程继续于周期性重复操作 105、操作110和操作115,或响应于接收包括一些预定数量的视频数据帧的一组新的帧而重复操作105、操作110和操作115。在示例性实施例中,当从CM中流式传输几小时的视频数据时,方法101循环。根据应用,可以由从几十帧(例如,20)到好几百个摘要帧范围中所选择的帧的子集对几小时的流进行摘要。作为一个示例,20个摘要帧可以被选择作为在一天内在包括以30fps操作的CM的平台上流式传输的1,000,000或更多视频数据帧的代表。保留流式传输的视频数据的环形缓冲器可以相对较小,远比储存整天的流式传输的数据帧将要求的要少,因为仅根据储存的摘要图像,其可以被连续改写。
如另外示出的,在操作180,承载CM的平台还可以显示储存的流摘要的表示(例如,一组图像文件)。供选择地或额外地,在操作190,承载CM的平台还可以将所储存的流摘要的表示(例如,一组图像文件)传输到远程目的地(例如,云服务器)。因而,对于根据方法101的示例性实施例,丢弃(例如,由在环形缓冲器实施方式中更新的流式传输的视频帧改写)从CM接收的未被选择作为摘要帧的暴露的视频数据帧(例如,1,000,000或更多视频数据帧),将平台储存和/或传输信道资源要求减少了三个或四个数量级。对于另外的实施例,在摘要操作115在视频流编码过程的上游的情况下,还减少编码引擎资源和/或功率。通过自动流摘要的适当的质量,从一天的连续记录产生的少量的图像帧可以充当该天的事件的有价值的视觉目录。
图1B根据一个或多个实施例是示出RT捕获的视频摘要方法102 的流程图。方法102包括如上面所描述的视频流操作105和实时流摘要操作110。然而,方法102还包括视频编码和储存操作120,在视频编码和储存操作120中实施任何已知的A/V编码解码器(例如,MPEG-4、H.264AVC等)。视频流的所得的压缩的表示被储存到存储器和/或传递到承载CM的平台。在操作125,还与储存的视频相关联的储存在操作110处选择的摘要帧。在操作185处承载CM的平台还可以利用储存的流摘要的表示(例如,一组图像文件)作为指示储存的视频表示的一组缩略图。在另外的实施例中,由CM平台利用储存的流摘要,以使得用户能够通过在对应的摘要帧的各种入口点处储存的视频语料库进行索引,和/或以其它方式获得对在对应的摘要帧的各种入口点处储存的视频语料库的访问。供选择地或额外地,在操作191,承载CM的平台还将所记录的视频表示与储存的流摘要的表示(例如,一组图像文件)一起传输到远程目的地(例如,云服务器),在远程目的地(例如,云服务器)处,流摘要可以被相似地利用作为在相关联的储存的视频中的入口点的缩略图和/或索引。对于根据方法102的示例性实施例,因而,保留从CM接收的未被选择作为摘要帧的暴露的视频数据帧。不是减少平台储存和/或传输信道资源要求,而是实时流摘要方法102利用在方法101中采用的相同的自动摘要技术,以增强超出传统视频流平台的用户体验。
图2A根据实施例是包括视频数据流捕获设备203和显示设备204 的系统201的功能框图,并且设备203、设备204中的至少一个包括 RT视频摘要系统。以虚线示出表示RT视频摘要系统的供选择的实施例的功能框。系统201可以例如实行上面所描述的方法101、方法102 中的任一个。在第一实施例中,设备平台203包括在视频捕获流水线 205和视频编码器216之间的RT视频摘要系统217A。视频捕获流水线205具有耦合到RT视频摘要系统217A的输入的输出。RT视频摘要系统217A的输出耦合到编码器216的输入。编码器216的输出耦合到存储器(储存器)220的输入。来自存储器220的摘要帧输出的编码的表示通过有线或无线通信信道耦合到显示设备204,在示例性实施例中,显示设备204通过云225中的后端服务器耦合到视频捕获设备203。在缺乏云225的供选择的实施例中,显示设备204通过本地有线或无线通信信道直接耦合到视频捕获设备203。在其它实施例中,显示设备 204被集成到视频捕获和摘要设备203(即,两个设备都是同一平台的一部分)中。解码器226从摘要储存器220接收编码的帧摘要。在包括RT视频摘要系统217A的第一实施例中,来自解码器226的输出通过下游图像增强处理(诸如去噪/图像增强器227),并且传达到图像显示流水线228上,在图像显示流水线228上,摘要帧中的一个或多个被呈现在显示屏幕上。在图2A中另外示出的第二实施例中,在视频编码器216的下游(例如,如RT视频摘要系统217B)实施RT视频摘要。对于这样的实施例,从视频捕获流水线205输出的视频流被输出到编码器216,并且编码的流表示被储存在存储器220中。然后,在解码器226处对编码的视频流进行解码,并且RT视频摘要系统271B 输出摘要帧,然后,摘要帧通过下游图像增强处理(诸如去噪/图像增强器227),并且通过图像显示流水线228,在图像显示流水线228处,摘要帧中的一个或多个被呈现在显示屏幕上。
图2B根据一个或多个实施例是RT视频数据流摘要系统217的功能框图。例如,系统217可以被实施为或RT视频摘要系统217A或图 2A中的217B。系统217具有耦合到流视频流水线225的输出的输入。视频流水线225可以具有任何已知的配置。在一个示例性实施例中,视频流水线225包括输出由图像传感器捕获的视频帧的CM。视频数据帧被接收到帧特征提取器229中,帧特征提取器229从每个接收的帧提取一个或多个特征向量。如下面另外描述的,特征向量可以包括使用本领域中已知的任何目标检测技术确定的特征。在示例性实施例中,帧特征提取器229用于生成包括方向梯度直方图(HOG)特征的特征向量。评分逻辑235耦合到特征提取器229的输出,并且基于特征向量用于对帧进行评分。评分逻辑235用于针对或相对于新的一组中的其它帧对所接收的新的一组帧中的每个帧进行评分。在另外的实施例中,评分逻辑235用于还相对于先前已经被选择作为摘要帧的每个帧,对所接收的新的一组帧中的每个帧进行评分。帧评分逻辑235可以基于一个或多个预定显著性标准,生成评分,如下面另外描述的。耦合到帧评分逻辑230的帧选择逻辑250用于基于为选择对帧评分进行优化的目标(成本)函数的解,选择一组摘要帧。与纯粹启发式的解决方案对比,发明人已经发现用于在线视频摘要的该基于优化的策略可以是有利地基于具体的数学公式,并且不严格取决于经验参数/阈值。
在图2B中示出的示例性实施例中,帧评分逻辑235包括覆盖评分逻辑230和多样性评分逻辑240。覆盖评分逻辑230用于基于帧特征向量,计算覆盖评分。覆盖评分是计量给定的帧表示其它帧(给定的帧与其它帧相比较)表示得有多好的度量。多样性评分逻辑240用于基于帧特征向量,计算多样性评分。多样性评分是计量帧与其它帧(帧与其它帧相比较)有多不同的度量。然后,选择逻辑250用于对取决于具有解的覆盖评分和多样性评分的目标函数求解,例如所述解表示具有最大覆盖和最大多样性的一组帧。因此,所选择的摘要应该“涵盖”大多数视频,同时还包括最不同的要素。在供选择的实施例中,覆盖评分逻辑230和多样性评分逻辑240中的一个或多个还可以与额外的评分逻辑电路组合。然后,选择逻辑250例如遵循下面在示例性实施例的环境中另外描述的基本原理,用于对供选择的目标函数求解。
图3根据一个示例性实施例示出RT视频数据流捕获和摘要设备平台303。图3还示出RT视频流摘要系统(诸如图2B中介绍的那个) 如何可以与设备平台的各种其它部件集成,以提供适合于高帧暴露速率和最小储存/传输资源两者的视频相机摘要。
平台303包括CM 370。在示例性实施例中,CM 370还包括相机传感器359。例如,传感器359可以是QXGA、WQXGA或QSXGA 格式数字图像设备。相机传感器359可以提供10位或更多每个像素的颜色分辨率,可操作用于逐渐捕获连续视频帧。传感器359可以具有 170MHz或更高的像素频率。相机传感器359可以包括RGB Bayer彩色滤光片、模拟放大器、A/D转换器、其它部件,以将入射光转换成对应于原始图像数据的数字信号。传感器359可以被控制,以操作卷帘快门或电子焦平面快门过程,在卷帘快门或电子焦平面快门过程中,对于帧,以线序方式逐渐读出像素。在示例性视频实施例中,传感器 350输出多个连续暴露的帧。CM370根据任何已知的流协议(诸如 MIPI或其它协议),输出与连续暴露的帧相关联的原始视频数据372。流式传输的原始视频数据472被输入到ISP 375。在与CM 370相关联的水平和/或垂直消隐期间,ISP 375用于接收和分析原始视频数据372 的帧。例如,在原始图像数据处理期间,ISP 375可以实行噪声降低、像素线性化和阴影补偿中的一个或多个。
例如,通过环形缓冲器,处理的视频数据可以以FIFO方式被缓存。在由CM 370输出的新的帧改写从CM 370被接收到缓冲器中的多组(段)连续暴露的帧之前,DSP 385用于取得从CM 370被接收到缓冲器中的多组(段)连续暴露的帧。图6A根据一个或多个实施例示出视频流601中连续暴露的帧。图6B和图6C根据实施例示出从图6A中所描绘的视频流生成的多组帧。在由图6B所示的第一实施例中,暂时相邻的组与包括n个帧的每组(包括n个帧的每组不包含包括在其它组中的任何帧)非重叠。在由图6C所示的第二实施例中,在时间上相邻组与包括n-1个帧的每组(包括n-1个帧的每组包含包括在另一个组中的帧)重叠。对于第一实施例,对于由CM暴露的每n个帧,流摘要过程将被迭代一次。对于第二实施例,对于由CM暴露的每个帧,流摘要过程将被迭代一次。根据采用的摘要技术和实施该技术的资源,相邻组之间的帧冗余量可以在图6B和图6C中所示的两个实施例之间变化。在下面另外描述的示例性RT视频流摘要方法中,相邻组是非重叠的(例如,图6B)。
流视频的分段对相对于将由视频摘要系统分析的每组帧中的对象提供一些场景一致性是有用的。在示例性实施例中,对于包括n个连续帧的所有组帧,包括在每段中的帧的数量是静态和预定的。可以通过在由中央处理单元(CPU)350实例化的操作系统(OS)的内核空间内的子系统驱动器315控制每组中的连续帧的数量。可以通过在OS 的用户空间中执行的应用层内的RT摘要控制参数355提供对连续帧数量的访问。DSP 385可以利用分段过程中的场景/镜头改变检测逻辑。镜头边界检测算法尝试检测两个视频镜头之间的接合点。它们通常计算视频流中每两个连续图像之间的差异度量(像像素灰度级差异、统计差异、直方图差异或运动向量),并且当差异超过预定阈值时,被认为镜头边界。然而,在示例性实施例中,DSP 385生成远比典型场景少的帧的帧组。由此,如果利用场景检测,则将每个场景还将被分成多个帧组,用于下游摘要过程。在实施例中,每个组中的帧的数量n 小于100,有利地小于50,并且更有利地在10和30个帧之间。
多组帧被输出到硬件加速器388,在示例性实施例中,硬件加速器 388包括实施RT视频摘要系统217的固定功能逻辑电路。采用固定功能逻辑的实施例非常适合于以具有高暴露帧速率的步调对所接收的视频数据帧进行摘要,同时消耗最小的功率。然而,在供选择的实施例或包括DSP 385(CPU 350的核心)的任何已知的可编程处理器中,图形处理器的执行单元或其它类似的向量处理器可以被用于实施在图2B 中介绍的RT视频摘要系统217的逻辑。在硬件加速器388实施视频数据帧编码的上游的RT视频摘要系统217的示例性实施例中,摘要帧可以从加速器388被输出回到DSP 385,用于编码为静止帧。来自HW 加速器388A的摘要帧的编码的表示以流摘要帧数据397被发送到储存 /显示/传输流水线395。在一个示例性储存流水线实施例中,流摘要帧数据397被输出到存储器/储存器220(例如,NVR、DRAM等),存储器/储存器220(例如,NVR、DRAM等)可以是单独的,或可以是 CPU 350可访问的主存储器310的一部分。供选择地,或此外,储存/ 显示/传输流水线395用于传输远离设备平台303的摘要帧数据397。
图4A根据实施例是还示出实时(RT)捕获的视频摘要方法401 的流程图。由RT视频摘要系统实行方法401,并且在一个示例性实施例中,由图3中描绘的HW加速器388实施方法401。将以足够避免上游缓冲器上溢条件的速率实行方法401。在有利的实施例中,以至少等于(且有利地大于)CM帧速率除以在每个迭代中处理的新帧的数量 (例如,n)的速率迭代方法401。
方法401开始于接收包含在视频分段V中的一组新的n个连续暴露的视频帧。在操作406,访问包括一批一个或多个k流摘要帧的当前流摘要。在示例性实施例中,流摘要帧数量k是静态和预定的。例如,可以通过由中央处理单元(CPU)350实例化的操作系统(OS)的内核空间内的子系统驱动器315(图3),控制流摘要帧的数量。可以通过在OS的用户空间中执行的应用层内的RT摘要控制参数355提供对连续帧数量的访问。在实施例中,流摘要帧的数量k小于1000,有利地小于100,并且更有利地在10和30个帧之间。
在方法401的一个或多个之前迭代期间,先前选择在该批k个流摘要帧中的每个帧。图4B例示由方法401的一个或多个实施例实施的 RT视频摘要模型402。如图4B所示的,流摘要465包括受限于预定数量的摘要帧时隙的视频数据帧的选择。在k时隙可用的情况下,k个现任流摘要帧对通过在时间上较早的摘要过程暴露和处理的任何数量的之前帧组471进行摘要。例如,流摘要的快照465包括来自最近处理的组V的现任帧i、来自帧组V-3的现任帧i+j等。在时间上向前看,将通过在时间上稍后的摘要过程(例如,开始于组V且结束于V+m) 暴露和处理任何数量的新帧组472。响应于接收每个新的帧组(例如, V、V+1等),通过应用目标函数466实行摘要迭代,其中现任k个流摘要帧和n个非现任帧是用于选择的一批候选帧。通过每个迭代,一个或多个现任帧可以保留在流摘要465内的时隙,并且优先于包括在新的一组(例如,组V+1)中的非现任帧,可以从流摘要465移除一个或多个现任帧。
如图4A中还示出的,在操作435,对来自操作405和操作406的候选帧(n+k)中的每个进行评分。相对于新的一组中的其它帧且相对于每个现任帧,对从CM接收的新的一组帧中的每个非现任帧进行评分。在操作440,从包括非现任帧和现任帧的候选帧库中选择包括一个或多个摘要帧的该批。在操作440对目标函数求解,以计算与摘要帧的给定的选择相关联的报酬(损失)。基于为选择对帧评分进行优化的解选择候选帧。在操作495,响应于不同于在操作406处访问的一批 k个流摘要帧在操作440处作出的帧的选择,更新一批k个流摘要帧。在操作495处更新流摘要包括将至少每个选择的非现任帧添加到摘要。在示例性实施例中,非现任帧的添加可能需要替换优先于非现任帧从摘要清除的现任帧。在帧和覆盖评分将被储存用于每个流摘要时隙且如下面更详细描述的另外的实施例中,在操作495处更新流摘要还包括将与所选择的每个非现任帧相关联的覆盖评分添加到流摘要。例如,可以用与新选择的帧相关联的覆盖评分改写与移除的现任帧相关联的覆盖评分。在操作450,更新的一批k个摘要帧被储存到存储器。如果尚未到达流的末端(EOS),则方法401返回到操作405,用于随后的迭代。如果已经到达EOS,方法401以所储存的流摘要帧结束。
在上面的实施例中,当由于更新、更多信息的帧的到达移除现任摘要帧时,将从另外的考虑中去除现任摘要帧。然而,在具有足够可用存储器的实施例中,在摘要更新操作495处清除的(多个)现任摘要帧被储存到二级存储器(位置),以潜在地增强由方法401生成的最终视频摘要的质量。通过虚线在图4A中例示二级储存操作497,以强调在视频流是可选的期间迭代生成的全部摘要帧的保留。对于保留全部摘要帧的这些实施例,在达到EOS条件时,方法401前进到作出 L摘要帧的二级选择的操作499。在示例性实施例中,操作499需要基于先前在操作435处生成的帧评分和与每个储存的摘要帧相关联的特征向量,对在(主要)选择操作440处求解的相同目标函数求解。最终选择的帧的数量L可以等于或大于一批k个摘要帧,并且可以是以与n和k的值相同的方式可配置的值。二级选择操作499是在随着时间被储存到与一批k个摘要帧相关联的存储器时隙和储存到二级存储器时隙的这些的一组显著帧之中。如此,方法401变成双层过程,在双层过程中,首先从视频分段过滤掉显著帧,并且然后从全部显著帧选择最终摘要帧。
图5A根据一个此类实施例是例示实时(RT)捕获的视频摘要方法501的流程图。例如,方法501被实行作为方法401(图4A)的一部分。方法501开始于在操作405处接收n个非现任候选视频帧,并且在操作406处接收k个现任流摘要帧,如上所述。在操作510处为 n+k个帧计算特征向量。特征向量可以包括使用本领域中已知的任何对象检测技术确定的特征。在示例性实施例中,在操作406处为n+k个帧中的每个生成包括方向梯度直方图(HOG)特征的特征向量。供选择地,通过在先前较早的迭代中已经生成的、从存储器取得的用于k 个摘要帧的特征向量,在操作406处为n个帧计算特征向量。
方法501继续操作515,在操作515,计算维数n+k的覆盖向量c。在图5B中还将操作515的一个示例性实施例例示为方法502。在操作 511处接收用于视频分段V的全部帧的特征向量。然后迭代操作516,以相对于n-1个其它非现任帧,为每个帧i计算一个非现任覆盖评分。为所接收的帧组V将覆盖向量c中的要素i计算为:
c(i)=maxwij;j∈V, (1)
其中wij代表与帧组V中的一对帧i和帧j相关联的特征向量之间的相似性。虽然有很多用于测量两个向量的相似性的技术,但是发明人已经发现余弦相似性度量对于HOG特征向量很有效。例如,可以通过由中央处理单元(CPU)350实例化的操作系统(OS)的内核空间内的子系统驱动器315(图3)控制在方法502中利用的相似性度量。还可以通过在OS的用户空间中执行的应用层内的RT摘要控制参数355提供对相似性度量的访问。用于新的帧组V中的每个帧的相似性度量的最大值的计算有利地将覆盖评分限制于向量。在操作517(图5B)处,在操作516处计算的每个c(i)作为新的要素被添加或联合到覆盖向量 c。
方法502在操作506处继续接收与k个现任流摘要帧相关联的现任覆盖评分c(k)。在示例性实施例中,从存储器取得现任覆盖评分 c(k),从方法501的之前迭代储存现任覆盖评分c(k),方法501的之前迭代调用方法502。在操作518,覆盖向量c的n个要素与k个储存的覆盖评分c(k)联合,使得覆盖向量c包含全部候选帧(现任和非现任)。
返回到图5A,方法501继续处于操作520,在操作520,计算2D 多样性矩阵。多样性矩阵包括相对于一组中的其它帧且相对于每个现任帧用于新接收的组V中的每个帧的多样性评分。多样性评分是指示在操作510处计算的特征向量之间的距离的度量。对于特征向量是 HOG向量的示例性实施例,多样性评分指示用于候选库中全部帧的配对的颜色直方图之间的距离。在图5C中操作520的一个示例性实施例被例示为方法503。如图5C所示,在操作511处再次接收用于视频分段V的全部帧的特征向量。额外地,在操作521处接收用于全部k个摘要帧的特征向量。在操作522,计算在全部排出的n+k个特征向量对之间的距离,以通过被计算为如下的要素(i,j)填充多样性矩阵D:
D(i,j)=dij, (2)
其中dij是帧i和帧j之间的距离度量。距离度量dij可以是本领域中任何已知的,诸如但不限于欧几里得、卡方和马哈拉诺比斯距离。在特征向量是HOG向量的示例性实施例中,已经发现卡方距离度量对于生成多样性矩阵D是有利的。类似于相似性度量,例如,可以通过由中央处理单元(CPU)350实例化的操作系统(OS)的内核空间内的子系统驱动器315(图3),控制在方法503中利用的距离度量。还可以通过在OS的用户空间中执行的应用层内的RT摘要控制参数355提供对距离度量的访问。
返回到图5A,方法501继续处于操作530,在操作530,基于用于选择的覆盖评分和多样性评分,为当前迭代选择一批流摘要帧。图 5D中操作530的一个示例性实施例还被例示为方法504。在操作519、操作524接收覆盖向量c和多样性矩阵D。在操作531,并且优化向量 x用于识别具有最大覆盖和最大相互多样性的一组k个帧。考虑维数 n+k的二进制向量x,其中要素i代表帧i是否被包括在流摘要中。因为覆盖和多样性评分的维数,所以如此选择可以被正式化为整数二次规划(QP)问题:
其中xT是x的向量转置,并且使得:
然而,如果整数约束被置于可变向量x,则方程式3的解是NP困难问题。因而,在有利的实施例中,放宽整数约束,并且整数约束被允许为连续的,其中向量x中的每个要素被约束为在0和1之间的实数。然后,使用任何已知的QP解算器,方程式3是很容易可解的。然后,解向量中的前k个(top k)条目可以被设置为1,并且剩余的被设置为0,以重构整数解。该优化向量识别将被丢弃的(0值要素)和选择作为摘要帧(1值要素)的非现任帧和现任帧。
返回到图5A,然后,方法501在操作450处以储存k个摘要帧结束。在有利的实施例中,对于储存在操作450处的每个帧,与帧相关联地储存对应的覆盖评分,以促进随后与下一组帧(例如,将在图5B 中506处读取的)的比较。在用于所选择的每个非现任帧的流摘要中去除/替换一个非选择的现任帧。还去除/替换与非选择的现任帧相关联的任何覆盖评分。
图7根据一个或多个实施例是采用RT视频数据流捕获和摘要架构的示例性超低功率系统700的图示。系统700可以是移动设备,但是系统700并不限于此环境。例如,系统700可以被合并到可穿戴计算设备、超级膝上型计算机、平板电脑、触摸板、手持式计算机、掌上型计算机、蜂窝电话、智能设备(智能电话、智能平板电脑或移动电视机)、移动互联网设备(MID)、消息设备、数据通信设备等等中。系统700还可以是基础设施设备。例如,系统700可以被合并到大型电视机、机顶盒、台式计算机或其它家庭或商业网络设备中。
系统700包括可以实施各种流视频相机摘要方法中的全部或子集和上面在图1-图6的环境中描述的RT流视频摘要系统中的任一个的设备平台702。在各种示例性实施例中,视频处理器715执行RT视频摘要算法。视频处理器715包括实施RT视频摘要系统217的逻辑电路,以与从CM 370流式传输的视频帧数据同步迭代地生成多组视频摘要图像,例如,如本文中别处所描述的。在一些实施例中,一个或多个计算机可读介质可以储存指令,当由CPU710和/或视频处理器715执行指令时,引起(多个)处理器执行一个或多个RT视频摘要算法,诸如上面详细描述的这些中的任一个。然后,由CM 370暴露的一个或多个图像数据帧可以被储存在存储器712中作为流式传输的视频摘要数据。
在实施例中,设备平台702耦合到人机接口设备(HID)720。平台702可以使用CM370收集原始图像数据,原始图像数据被处理和输出到HID 720。包括一个或多个导航特征的导航控制器750可以被用于与例如设备平台702和/或HID 720交互。在实施例中,HID 720可以包括经由无线电装置718和/或网络760耦合到平台702的任何电视机类型监视器或显示器。HID 720可以包括例如计算机显示屏、触摸屏显示器、视频监视器、类似电视机的设备和/或电视机。
在一个或多个软件应用程序716的控制下,设备平台702可以在 HID 720上显示用户界面722。控制器750的导航特征的运动可以通过指针、光标、焦环、或在显示器上显示的其他视觉指示器的运动,被复制在显示器(例如,HID 720)上。例如,在软件应用程序716的控制下,位于导航控制器750上的导航特征可以被映射到在用户界面722 上显示的虚拟导航特征。
在实施例中,设备平台702可以包括CM 370、芯片组705、处理器710、处理器715、存储器/储存器712、应用程序716和/或无线电装置718的任何组合。芯片组705可以提供在处理器710、处理器715、存储器712、视频处理器715、应用程序716或无线电装置718之中的双向通信。
处理器710、处理器715中的一个或多个可以被实施为一个或多个复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器;x86 指令集兼容处理器、多核、或任何其它微处理器或中央处理单元 (CPU)。
存储器712可以被实施为易失性存储器设备,诸如但不限于随机访问存储器(RAM)、运行时随机访问存储器(DRAM)或静态RAM (SRAM)。存储器712还可以被实施为非易失性储存设备,诸如但不限于闪速存储器、电池备用SDRAM(同步DRAM)、磁存储器、相变存储器等。
无线电装置718可以包括能够使用各种合适的无线通信技术传输和接收信号的一个或多个无线电装置。此类技术可以涉及横跨一个或多个无线网络的通信。示例无线网络包括(但不限于)无线局域网 (WLAN)、无线个域网(WPAN)、无线城域网(WMAN)、蜂窝网络和卫星网络。在横跨此类网络的通信中,无线电装置618可以根据任何版本的一个或多个可应用的标准进行操作。
在实施例中,系统700可以被实施为无线系统、有线系统或两者的组合。当被实施为无线系统时,系统700可以包括适合于通过无线共享介质通信的部件和接口,诸如一个或多个天线、发送器、接收器、收发器、放大器、滤波器、控制逻辑等等。无线共享介质的示例可以包括无线频谱的部分,诸如RF频谱等等。当被实施为有线系统时,系统700可以包括适用于通过有线通信介质通信的部件和接口,诸如输入/输出(I/O)适配器、将I/O适配器与对应的有线通信介质连接的物理连接器、网络接口卡(NIC)、磁盘控制器、视频控制器、音频控制器等。有线通信介质的示例可以包括电线、电缆、金属引线、印刷电路板(PCB)、底板、交换结构、半导体材料、双绞线、同轴电缆、光纤等等。
可以在各种硬件架构、单元设计或“IP核心”中实施如本文中所描述的RT流视频摘要架构和相关联的摘要过程。
如上所述,可以以变化的物理风格或形成因素体现系统700。图8 还例示移动手持设备800的实施例,系统700可以体现于移动手持设备800中。在实施例中,例如,设备800可以被实施为具有无线能力的移动计算设备。例如,移动计算设备可以是指具有处理系统和移动电源或供电(诸如一个或多个电池)的任何设备。移动计算设备的示例可以包括超膝上型计算机、平板电脑、触摸板、便携式计算机、手持式计算机、掌上型计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视机、智能设备(例如,智能电话、平板电脑或智能电视机)、移动互联网设备(MID)、消息设备、数据通信设备等等。移动计算设备的示例还可以包括配置将由人佩戴的计算机和/或媒体捕获/传输设备,诸如手腕计算机、手指计算机、戒指计算机、眼镜计算机、腰夹计算机、臂带计算机、鞋子计算机、衣服计算机和其它可佩戴计算机。在各种实施例中,例如,移动计算设备可以被实施为能够执行计算机应用程序以及语音通信和/或数据通信的智能电话。虽然一些实施例可以被描述具有以示例的方式被实施为智能电话的移动计算设备,但是可以理解,还可以使用其它无线移动计算设备实施其它实施例。实施例并不限于此环境。
如图8所示,移动手持设备800可以包括具有前面801和后面802 的外壳。设备800包括显示器804、输入/输出(I/O)设备806和集成天线808。设备800还可以包括导航特征812。显示器804可以包括用于显示适于移动计算设备的信息的任何合适的显示单元。I/O设备806 可以包括用于将信息输入到移动计算设备中的任何合适的I/O设备。用于I/O设备806的示例可以包括字母数字键盘、数字小键盘、触摸板、输入按键、按钮、开关、麦克风、扬声器、语音识别设备和软件等等。信息还可以以麦克风(未示出)的方式被输入到设备800中,或可以通过语音识别设备被数字化。实施例并不限于此环境。相机805(例如,包括透镜、光圈和成像传感器)和闪光灯810被集成到至少后面802,相机805和闪光灯810两者可以是CM的部件,流视频通过CM的部件被暴露和输出到视频摘要系统,如本文中别处所描述的。
可以使用硬件元件、软件元件或两者的组合实施本文中所描述的实施例。硬件元件或模块的示例包括:处理器、微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑设备(PLD)、数字信号处理器 (DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体设备、芯片、微芯片、芯片组等。软件元件或模块的示例包括:应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中介软件、固件、例程、子程序、函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、数据字、值、字符或其任何组合。确定实施例是否使用硬件元件和/或软件元件来实施实施例可以根据为设计的选择考虑的任何数量的因素改变,这些因素诸如但不限于:期望的计算速率、功率电平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度和其它设计或性能约束。
可以由储存在机器可读储存介质上的代表性指令实施至少一个实施例的一个或多个方面。在由机器执行这样的指令期间,这样的指令可以完全或至少部分地驻留在主存储器内和/或处理器内,然后储存指令的主存储器和处理器部分还构成机器可读储存介质。可编程逻辑电路可以具有由实施计算机可读介质的处理器配置的寄存器、状态机等。然后如编程的这样的逻辑电路可以被理解为物理转换到落在本文中所描述的实施例的范围内的系统中。当由机器读取表示在处理器内的各种逻辑的指令时,表示在处理器内的各种逻辑的指令还可以致使机器制备附着到本文中所描述的架构的逻辑和/或实行本文中所描述的技术。已知为单元设计或IP核心的这样的表示可以被储存在有形、机器可读介质上,并且被供应到各种客户或制造设施,以加载到实际制作逻辑或处理器的制备机器中。
虽然参考实施例已经描述本文中阐述的某些特征,但是不旨在以限制意义解释该描述。由此,对于本公开所属领域中的技术人员来说显而易见的,本文中所描述的实施方式以及其它实施方式的各种修改被视为在本公开的精神和范围内。
以下段落简洁描述一些示例性实施例:
在一个或多个第一实施例中,一种捕获的视频数据流摘要方法包括:从相机硬件模块(CM)接收连续暴露的视频数据帧流。方法包括基于从CM接收的每组新的帧,迭代地评估包括视频数据帧中的一个或多个的流摘要。评估还包括相对于在新的一组中的其它帧,并且相对于包括在来自之前迭代的流摘要中的每个现任帧,对从CM接收的新的一组帧中的每个非现任帧评分。评估还包括基于为选择而对帧评分进行优化的目标函数的解,从包括非现任帧和现任帧的库中选择帧。方法还包括响应于优先于现任帧选择非现任帧,更新储存在存储器中的流摘要。
在一个或多个第一实施例的进一步方面中,对每个非现任帧进行评分还包括为在新的一组中的每个帧计算特征向量。对每个非现任帧进行评分还包括基于特征向量,相对于在新的一组中的其它帧,为在新的一组中的每个帧计算非现任覆盖评分。对每个非现任帧进行评分还包括基于特征向量,相对于在新的一组中的其它帧且相对于每个现任帧,为在新的一组中的每个帧计算多样性评分。方法还包括选择一个或多个帧还包括使用与为选择而使覆盖评分和多样性评分最大化的目标函数的解相关联的现任帧和非现任帧填充预定数量的摘要帧时隙。
在紧接上面的实施例的进一步方面中,特征向量基于方向梯度直方图(HOG)。计算非现任覆盖评分包括确定包括新的一组中的每个帧的相似性度量的最大值的覆盖向量。计算多样性评分包括确定包括库中所有帧的配对的颜色直方图之间的距离的2D多样性矩阵。
在第一实施例中的任一个的进一步方面中,更新流摘要还包括将所选择的每个非现任帧添加到流摘要,并且将与所选择的每个非现任帧相关联的覆盖评分添加到流摘要。对每个非现任帧进行评分还包括为一组中的每个帧计算特征向量。对每个非现任帧进行评分还包括基于特征向量,相对于一组中的其它帧,为一组中的每个帧计算非现任覆盖评分。方法还包括基于特征向量,计算2D多样性矩阵,矩阵包括相对于在一组中的其它帧和相对于每个现任帧的一组中的每个帧的多样性评分。选择一个或多个帧还包括通过将非现任覆盖评分和所储存的覆盖评分联合,计算覆盖向量。选择一个或多个帧还包括对包括覆盖向量和多样性矩阵的目标函数求解具有最大多样性评分和最大覆盖评分的优化向量。选择一个或多个帧还包括选择由优化向量识别的非现任帧和现任帧。
在一个或多个第一实施例的进一步方面中,更新流摘要还包括将所选择的每个非现任帧添加到流摘要。更新流摘要还包括将与所选择的每个非现任帧相关联的覆盖评分添加到流摘要。更新流摘要还包括从流摘要除去用于所选择的每个非现任帧的一个非选择的现任帧。更新流摘要还包括从流摘要除去与从流摘要去除的每个非选择的现任帧相关联的覆盖评分。
在紧接上面的实施例的进一步方面中,流摘要包括预定数量的流摘要帧时隙。每个现任帧占据摘要帧时隙中的一个。更新流摘要还包括交换与优先于非现任帧被清除的现任帧相关联的摘要帧时隙的内容。方法还包括使用更近时间暴露的视频数据帧数据改写由流摘要摘要的视频数据帧。
在紧接上面的实施例的进一步方面中,方法还包括将从流摘要时隙去除的每个帧和相关联的覆盖值储存到二级存储器。方法还包括基于对预定数量的二级流摘要的时隙的帧评分进行优化的目标函数的解,从包括与摘要帧时隙相关联的这些和储存到二级存储器的这些帧的帧的库中实行帧的二级选择。方法还包括将来自二级选择的帧储存到存储器。
在第一实施例的进一步方面中,从CM接收的流与帧速率相关联,并且以至少等于帧速率除以包括在每个新组中的帧的预定数量的速率迭代评估。
在第一实施例的进一步方面中,方法还包括将具有比流摘要更多帧的流表示储存到二级存储器,并且基于流摘要,为流表示编索引。
在一个或多个第二实施例中,一种视频数据流捕获和摘要系统包括相机硬件模块(CM),相机硬件模块(CM)用于生成连续暴露的视频数据帧流。系统包括耦合到CM的逻辑电路,逻辑电路用于基于从CM接收的每组新的帧,迭代地评估包括帧中的一个或多个的流摘要。逻辑电路还包括帧评分逻辑,帧评分逻辑用于相对于在新的一组中的其它帧,并且相对于包括在来自之前迭代的流摘要中的每个现任帧,对从CM接收的新的一组帧中的每个非现任帧评分。逻辑电路还包括帧选择逻辑,帧选择逻辑用于基于为选择而对帧评分进行优化的目标函数的解,从包括非现任帧和现任帧的库中选择帧。系统包括逻辑电路,逻辑电路用于响应于优先于现任帧选择非现任帧,更新储存在存储器中的流摘要。
在第二实施例的进一步方面中,帧评分逻辑还用于为在新的一组中的每个帧计算特征向量。帧评分逻辑还用于基于特征向量,相对于在新的一组中的其它帧,为在新的一组中的每个帧计算非现任覆盖评分。帧评分逻辑还用于基于特征向量,相对于在新的一组中的其它帧且相对于每个现任帧,为在新的一组中的每个帧计算多样性评分。
在第二实施例的进一步方面中,帧评分逻辑还用于为在新的一组中的每个帧计算特征向量,特征向量基于方向梯度直方图(HOG)。帧评分逻辑还用于基于特征向量,通过确定包括用于在新的一组中的每个帧的相似性度量的最大值的覆盖向量,相对于新的一组中的其它帧,为在新的一组中的每个帧计算非现任覆盖评分。帧评分逻辑还用于基于特征向量,通过确定包括库中所有帧的配对的颜色直方图之间的距离的2D多样性矩阵,相对于在新的一组中的其它帧且相对于每个现任帧,为在新的一组中的每个帧计算多样性评分。
在第二实施例的进一步方面中,要更新流摘要的逻辑电路用于将所选择的每个非现任帧添加到流摘要,并且将与所选择的每个非现任帧相关联的覆盖评分添加到流摘要。帧评分逻辑还用于为一组中的每个帧计算特征向量。帧评分逻辑还用于基于特征向量,相对于一组中的其它帧,为一组中的每个帧计算非现任覆盖评分,帧评分逻辑还用于通过将非现任覆盖评分和所储存的覆盖评分联合,计算覆盖向量。帧评分逻辑还用于基于特征向量,计算2D多样性矩阵,矩阵包括相对于在一组中的其它帧和相对于每个现任帧的一组中的每个帧的多样性评分。帧选择逻辑还用于对包括覆盖向量和多样性矩阵的目标函数求解具有最大多样性评分和最大覆盖评分的优化向量,并且选择由优化向量识别的非现任帧和现任帧。
在第二实施例的进一步方面中,要更新流摘要的逻辑电路用于将所选择的每个非现任帧添加到流摘要,并且将与所选择的每个非现任帧相关联的覆盖评分添加到流摘要,从流摘要除去用于所选择的每个非现任帧的一个非选择的现任帧,并且从流摘要除去与从流摘要去除的每个非选择的现任帧相关联的覆盖评分。
在紧接上面的实施例的进一步方面中,流摘要与预定数量的流摘要帧时隙相关联。每个现任帧占据摘要帧时隙中的一个。要更新流摘要的逻辑电路用于交换与优先于非现任帧被清除的现任帧相关联的摘要帧时隙的内容。系统还包括环形缓冲器,以使用更近时间暴露的视频数据帧数据改写由流摘要摘要的视频数据帧。
在紧接上面的实施例的进一步方面中,系统还包括二级存储器,二级存储器用于储存从流摘要时隙去除的每个帧和相关联的覆盖值。帧选择逻辑用于基于对所选择的帧的帧评分进行优化的目标函数的解,从包括与摘要帧时隙相关联的这些帧和储存到二级存储器的这些帧的帧的库中实行帧的二级选择。
在一个或多个第三实施例中,一种计算机可读储存介质具有储存在其上的指令,当由处理器执行指令时,致使处理器实行在第一实施例中的任一个中所述的方法。
在第三实施例的进一步方面中,计算机可读储存介质具有储存在其上的指令,当由处理器执行指令时,致使处理器实行方法,方法包括基于所接收的每组新的帧,迭代地评估包括来自连续暴露的视频数据帧流的视频数据帧中的一个或多个的流摘要。评估还包括相对于在新的一组中的其它帧,并且相对于包括在来自之前迭代的流摘要中的每个现任帧,对从CM接收的新的一组帧中的每个非现任帧评分。介质还致使处理器实行方法,方法包括基于为选择而对帧评分进行优化的目标函数的解,从包括非现任帧和现任帧的库中选择帧。指令还致使响应于优先于现任帧选择非现任帧,更新储存在存储器中的流摘要。
在紧接上面的实施例的进一步方面中,介质还包括储存在其上的指令,当由处理器执行指令时,还致使处理器实行方法,方法还包括通过将所选择的每个非现任帧添加到流摘要,将与所选择的每个非现任帧相关联的覆盖评分添加到流摘要更新流摘要,通过为一组中的每个帧计算特征向量,并且基于特征向量,相对于一组中的其它帧,为一组中的每个帧计算非现任覆盖评分,对每个非现任帧进行评分。方法还包括基于特征向量,计算2D多样性矩阵,矩阵包括相对于在一组中的其它帧和相对于每个现任帧的一组中的每个帧的多样性评分。方法还包括通过将非现任覆盖评分和所储存的覆盖评分联合,计算覆盖向量,对包括覆盖向量和多样性矩阵的目标函数求解具有最大多样性评分和最大覆盖评分的优化向量,并且选择由优化向量识别的非现任帧和现任帧选择一个或多个帧。
在上面实施例的进一步方面中,特征向量基于方向梯度直方图 (HOG)。方法还包括计算非现任覆盖评分包括确定包括新的一组中的每个帧的相似性度量的最大值的覆盖向量,并且计算多样性评分包括确定包括库中的所有帧的配对的颜色直方图之间的距离的2D多样性矩阵。
在第三实施例的进一步方面中,介质还包括指令,当执行指令时,致使系统实行方法,方法还包括将从流摘要时隙去除的每个帧和相关联的覆盖值储存到二级存储器,基于对预定数量的二级流摘要的时隙的帧评分进行优化的目标函数的解,从包括与摘要帧时隙相关联的这些帧和储存到二级存储器的这些帧的帧的库中实行帧的二级选择,并且将来自二级选择的帧储存到存储器。
在一个或多个第四实施例中,一种视频数据流捕获和摘要系统包括视频记录装置,视频记录装置生成连续暴露的视频数据帧流。系统包括视频摘要装置,视频摘要装置耦合到视频记录装置,以基于通过实行第一实施例中的方法中的任一个从视频记录装置接收的每组新的帧,迭代地评估包括帧中的一个或多个的流摘要。
在第四实施例的进一步方面中,视频记录装置还包括帧评分装置,帧评分装置用于相对于在新的一组中的其它帧,并且相对于包括在来自之前迭代的流摘要中的每个现任帧,对从视频记录装置接收的新的一组帧中的每个非现任帧评分。摘要装置还包括帧选择装置,帧选择装置用于基于为选择而对帧评分进行优化的目标函数的解,从包括非现任帧和现任帧的库中选择帧。视频摘要装置还包括摘要更新装置,摘要更新装置用于响应于优先于现任帧选择非现任帧,更新储存在存储器中的流摘要。
在紧接上面的实施例的进一步方面中,摘要更新装置用于将所选择的每个非现任帧添加到流摘要,并且将与所选择的每个非现任帧相关联的覆盖评分添加到流摘要。帧评分装置还用于为一组中的每个帧计算特征向量,基于特征向量,相对于一组中的其它帧,为一组中的每个帧计算非现任覆盖评分,通过将非现任覆盖评分与所储存的覆盖评分联合计算覆盖向量,并且基于特征向量,计算2D多样性矩阵,矩阵包括相对于在一组中的其它帧和相对于每个现任帧的一组中的每个帧的多样性评分。帧选择装置还用于对包括覆盖向量和多样性矩阵的目标函数求解具有最大多样性评分和最大覆盖评分的优化向量,并且选择由优化向量识别的非现任帧和现任帧。
在紧接上面的实施例的进一步方面中,系统还包括二级存储器,二级存储器用于储存从流摘要时隙去除的每个帧和相关联的覆盖值,并且帧选择装置用于基于对所选择的帧的帧评分进行优化的目标函数的解,从包括与摘要帧时隙相关联的这些和储存到二级存储器的这些的帧的库中实行帧的二级选择。
将认识到,实施例不局限于所描述的示例性实施例,而且在不脱离随附权利要求书的范围的情况下,可以通过修改和变更实践实施例。例如,上面的实施例可以包括特征的具体组合。然而,上面的实施例并不局限于这一点,并且在实施例中,上面的实施例可以包括仅采用这样的特征的子集、采用这样的特征的不同的次序、采用这样的特征的不同组合,和/或采用除明确列出的这些特征之外的额外的特征。因而,应该参考随附权利要求书以及这些权利要求所赋予的等价物的整个范围来确定范围。

Claims (22)

1.一种捕获的视频数据流摘要方法,包括:
从相机硬件模块CM接收连续暴露的视频数据帧流;
基于从所述CM接收的每组新的帧,迭代地评估包括所述视频数据帧中的一个或多个的流摘要,其中评估还包括:
相对于在新的一组中的其它帧,并且相对于包括在来自之前迭代的所述流摘要中的每个现任帧,对从所述CM接收的新的一组帧中的每个非现任帧评分,对每个非现任帧进行评分还包括:
为在所述新的一组中的每个帧计算特征向量;
基于所述特征向量,相对于在所述新的一组中的其它帧,为在所述新的一组中的每个帧计算非现任覆盖评分;以及
基于所述特征向量,相对于在所述新的一组中的其它帧且相对于每个现任帧,为在所述新的一组中的每个帧计算多样性评分;以及
基于为选择而对帧评分进行优化的目标函数的解,从包括所述非现任帧和所述现任帧的库中选择帧;以及
响应于优先于现任帧选择非现任帧,更新储存在存储器中的所述流摘要。
2.根据权利要求1所述的方法,其中:
选择一个或多个帧还包括使用与为选择而使覆盖评分和多样性评分最大化的目标函数的解相关联的所述现任帧和所述非现任帧填充预定数量的摘要帧时隙。
3.根据权利要求2所述的方法,其中:
所述特征向量基于方向梯度直方图HOG;
计算非现任覆盖评分包括确定包括所述新的一组中的每个帧的相似性度量的最大值的覆盖向量;以及
计算多样性评分包括确定包括所述库中所有帧的配对的颜色直方图之间的距离的2D多样性矩阵。
4.根据权利要求1-3中任一项所述的方法,其中:
更新所述流摘要还包括:
将所选择的每个非现任帧添加到所述流摘要;
将与所选择的每个非现任帧相关联的覆盖评分添加到所述流摘要;
对每个非现任帧进行评分还包括:
为所述一组中的每个帧计算特征向量;
基于所述特征向量,相对于所述一组中的其它帧,为所述一组中的每个帧计算非现任覆盖评分;以及
基于所述特征向量,计算2D多样性矩阵,所述矩阵包括相对于在所述一组中的其它帧和相对于每个现任帧的所述一组中的每个帧的多样性评分;以及
选择一个或多个帧还包括:
通过将非现任覆盖评分和所储存的覆盖评分联合,计算覆盖向量;
对包括覆盖向量和多样性矩阵的目标函数求解具有最大多样性评分和最大覆盖评分的优化向量;以及
选择由所述优化向量识别的非现任帧和现任帧。
5.根据权利要求1所述的方法,其中:
更新所述流摘要还包括:
将所选择的每个非现任帧添加到所述流摘要;
将与所选择的每个非现任帧相关联的覆盖评分添加到所述流摘要;
从所述流摘要除去用于所选择的每个非现任帧的一个非选择的现任帧;以及
从所述流摘要除去与从所述流摘要去除的每个非选择的现任帧相关联的覆盖评分。
6.根据权利要求5所述的方法,其中:
所述流摘要包括预定数量的流摘要帧时隙;
每个现任帧占据所述摘要帧时隙中的一个;
更新所述流摘要还包括交换与优先于非现任帧被清除的现任帧相关联的摘要帧时隙的内容;以及
所述方法还包括:
使用更近时间暴露的视频数据帧数据改写由所述流摘要摘要的视频数据帧。
7.根据权利要求6所述的方法,还包括:
将从流摘要时隙去除的每个帧和相关联的覆盖值储存到二级存储器;
基于对预定数量的二级流摘要的时隙的帧评分进行优化的目标函数的解,从包括与所述摘要帧时隙相关联的这些帧和储存到所述二级存储器的这些帧的帧的库中实行帧的二级选择;以及
将来自所述二级选择的帧储存到所述存储器。
8.根据权利要求1所述的方法,其中:
从所述CM接收的流与帧速率相关联;以及
以至少等于帧速率除以包括在每个新组中的帧的预定数量的速率迭代所述评估。
9.根据权利要求1所述的方法,还包括:
将具有比所述流摘要更多帧的流表示储存到二级存储器;以及
基于所述流摘要,为所述流表示编索引。
10.一种视频数据流捕获和摘要系统,包括:
视频记录装置,所述视频记录装置生成连续暴露的视频数据帧流;
视频摘要装置,所述视频摘要装置耦合到所述视频记录装置,以通过实行权利要求1-9中所述的方法中的任一个,基于从所述视频记录装置接收的每组新的帧,迭代地评估包括所述帧中的一个或多个的流摘要。
11.根据权利要求10所述的视频数据流捕获和摘要系统,其中:
所述视频记录装置包括相机硬件模块CM,以生成连续暴露的视频数据帧流;
所述视频摘要装置包括耦合到所述CM的逻辑电路,以基于从所述CM接收的每组新的帧,迭代地评估包括所述帧中的一个或多个的流摘要,其中所述逻辑电路还包括:
帧评分逻辑,所述帧评分逻辑相对于在新的一组中的其它帧,并且相对于包括在来自之前迭代的所述流摘要中的每个现任帧,对从所述CM接收的新的一组帧中的每个非现任帧评分;以及
帧选择逻辑,所述帧选择逻辑基于为选择而对帧评分进行优化的目标函数的解,从包括所述非现任帧和所述现任帧的库中选择帧;以及
所述视频摘要装置包括逻辑电路,以响应于优先于现任帧选择非现任帧,更新储存在存储器中的所述流摘要。
12.根据权利要求10所述的系统,其中所述帧评分逻辑还用于:
为在所述新的一组中的每个帧计算特征向量;
基于所述特征向量,相对于在所述新的一组中的其它帧,为在所述新的一组中的每个帧计算非现任覆盖评分;以及
基于所述特征向量,相对于在所述新的一组中的其它帧且相对于每个现任帧,为在所述新的一组中的每个帧计算多样性评分。
13.根据权利要求10所述的系统,其中所述帧评分逻辑还用于:
为在所述新的一组中的每个帧计算特征向量,所述特征向量基于方向梯度直方图HOG;
基于所述特征向量,通过确定包括用于在所述新的一组中的每个帧的相似性度量的最大值的覆盖向量,相对于所述新的一组中的其它帧,为在所述新的一组中的每个帧计算非现任覆盖评分;以及
基于所述特征向量,通过确定包括所述库中的所有帧的配对的颜色直方图之间的距离的2D多样性矩阵,相对于在所述新的一组中的其它帧且相对于每个现任帧,为在所述新的一组中的每个帧计算多样性评分。
14.根据权利要求11所述的系统,其中:
要更新所述流摘要的所述逻辑电路用于:
将所选择的每个非现任帧添加到所述流摘要;
将与所选择的每个非现任帧相关联的覆盖评分添加到所述流摘要;
所述帧评分逻辑还用于:
为所述一组中的每个帧计算特征向量;
基于所述特征向量,相对于所述一组中的其它帧,为所述一组中的每个帧计算非现任覆盖评分;
通过将所述非现任覆盖评分和所储存的覆盖评分联合,计算覆盖向量;以及
基于所述特征向量,计算2D多样性矩阵,所述矩阵包括相对于在所述一组中的其它帧和相对于每个现任帧的所述一组中的每个帧的多样性评分;以及
所述帧选择逻辑还用于:
对包括覆盖向量和多样性矩阵的目标函数求解具有最大多样性评分和最大覆盖评分的优化向量;以及
选择由所述优化向量识别的非现任帧和现任帧。
15.根据权利要求11所述的系统,其中要更新所述流摘要的所述逻辑电路用于:
将所选择的每个非现任帧添加到所述流摘要;
将与所选择的每个非现任帧相关联的覆盖评分添加到所述流摘要;
从所述流摘要除去用于所选择的每个非现任帧的一个非选择的现任帧;以及
从所述流摘要除去与从所述流摘要去除的每个非选择的现任帧相关联的覆盖评分。
16.根据权利要求15所述的系统,其中:
所述流摘要与预定数量的流摘要帧时隙相关联;
每个现任帧占据所述摘要帧时隙中的一个;
要更新所述流摘要的所述逻辑电路用于交换与优先于非现任帧被清除的现任帧相关联的摘要帧时隙的内容;以及
其中所述系统还包括环形缓冲器,以使用更近时间暴露的视频数据帧数据改写由所述流摘要摘要的视频数据帧。
17.根据权利要求16所述的系统,还包括:
二级存储器,所述二级存储器用于储存从流摘要时隙去除的每个帧和相关联的覆盖值;以及
其中所述帧选择逻辑用于基于对所选择的帧的帧评分进行优化的目标函数的解,从包括与所述摘要帧时隙相关联的这些帧和储存到所述二级存储器的这些帧的帧的库中实行帧的二级选择。
18.具有储存在其上的指令的一个或多个计算机可读储存介质,当由处理器执行所述指令时,致使所述处理器实行在权利要求1-9中任一项中所述的方法。
19.根据权利要求18所述的介质,还包括储存在其上的指令,当由所述处理器执行所述指令时,还致使所述处理器实行所述方法,所述方法还包括:
通过以下更新所述流摘要:
将所选择的每个非现任帧添加到所述流摘要;
将与所选择的每个非现任帧相关联的覆盖评分添加到所述流摘要;
通过以下对每个非现任帧评分:
为所述一组中的每个帧计算特征向量;
基于所述特征向量,相对于所述一组中的其它帧,为所述一组中的每个帧计算非现任覆盖评分;以及
基于所述特征向量,计算2D多样性矩阵,所述矩阵包括相对于在所述一组中的其它帧和相对于每个现任帧的所述一组中的每个帧的多样性评分;以及
通过以下选择一个或多个帧:
通过将所述非现任覆盖评分和所储存的覆盖评分联合,计算覆盖向量;
对包括覆盖向量和多样性矩阵的目标函数求解具有最大多样性评分和最大覆盖评分的优化向量;以及
选择由所述优化向量识别的非现任帧和现任帧。
20.根据权利要求19所述的介质,其中所述特征向量基于方向梯度直方图HOG;
计算所述非现任覆盖评分包括确定包括所述新的一组中的每个帧的相似性度量的最大值的覆盖向量;以及
计算所述多样性评分包括确定包括所述库中所有帧的配对的颜色直方图之间的距离的2D多样性矩阵。
21.根据权利要求18所述的介质,还包括指令,当执行所述指令时,致使所述处理器实行所述方法,所述方法还包括:
将从流摘要时隙去除的每个帧和相关联的覆盖值储存到二级存储器;
基于对预定数量的二级流摘要的时隙的帧评分进行优化的目标函数的解,从包括与所述摘要帧时隙相关联的这些帧和储存到所述二级存储器的这些帧的帧的库中实行帧的二级选择;以及
将来自所述二级选择的帧储存到所述存储器。
22.一种用于视频数据流捕获和摘要的设备,包括用于执行根据权利要求1-9中任一项所述的方法的装置。
CN201580041365.1A 2014-09-04 2015-08-03 视频数据流捕获和摘要的方法、系统、介质和设备 Active CN106664467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710754925.9A CN107529098B (zh) 2014-09-04 2015-08-03 用于视频摘要的方法和系统

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/477,595 2014-09-04
US14/477,595 US9639762B2 (en) 2014-09-04 2014-09-04 Real time video summarization
PCT/US2015/043367 WO2016036460A1 (en) 2014-09-04 2015-08-03 Real time video summarization

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201710754925.9A Division CN107529098B (zh) 2014-09-04 2015-08-03 用于视频摘要的方法和系统

Publications (2)

Publication Number Publication Date
CN106664467A CN106664467A (zh) 2017-05-10
CN106664467B true CN106664467B (zh) 2019-09-17

Family

ID=55437783

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201710754925.9A Active CN107529098B (zh) 2014-09-04 2015-08-03 用于视频摘要的方法和系统
CN201580041365.1A Active CN106664467B (zh) 2014-09-04 2015-08-03 视频数据流捕获和摘要的方法、系统、介质和设备

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201710754925.9A Active CN107529098B (zh) 2014-09-04 2015-08-03 用于视频摘要的方法和系统

Country Status (5)

Country Link
US (3) US9639762B2 (zh)
EP (2) EP3189667A4 (zh)
JP (3) JP6472872B2 (zh)
CN (2) CN107529098B (zh)
WO (1) WO2016036460A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9639762B2 (en) 2014-09-04 2017-05-02 Intel Corporation Real time video summarization
US9743219B2 (en) * 2014-12-29 2017-08-22 Google Inc. Low-power wireless content communication between devices
US9514502B2 (en) * 2015-01-21 2016-12-06 Interra Systems Inc. Methods and systems for detecting shot boundaries for fingerprint generation of a video
US10762283B2 (en) * 2015-11-20 2020-09-01 Adobe Inc. Multimedia document summarization
JP2017097536A (ja) * 2015-11-20 2017-06-01 ソニー株式会社 画像処理装置および方法
US10229324B2 (en) * 2015-12-24 2019-03-12 Intel Corporation Video summarization using semantic information
KR20170098079A (ko) * 2016-02-19 2017-08-29 삼성전자주식회사 전자 장치 및 전자 장치에서의 비디오 녹화 방법
CN106454347B (zh) * 2016-09-09 2019-04-12 上海兆芯集成电路有限公司 帧分辨率决定方法以及使用该方法的装置
US10929945B2 (en) 2017-07-28 2021-02-23 Google Llc Image capture devices featuring intelligent use of lightweight hardware-generated statistics
US10452920B2 (en) * 2017-10-31 2019-10-22 Google Llc Systems and methods for generating a summary storyboard from a plurality of image frames
CN108307250B (zh) * 2018-01-23 2020-10-30 浙江大华技术股份有限公司 一种生成视频摘要的方法及装置
CN110418156A (zh) * 2019-08-27 2019-11-05 上海掌门科技有限公司 信息处理方法和装置
KR102252083B1 (ko) * 2019-10-17 2021-05-14 주식회사 지오비전 이벤트의 등장 객체간 관련성 파악이 용이한 비디오 서머리방법
CN112069952A (zh) * 2020-08-25 2020-12-11 北京小米松果电子有限公司 视频片段提取方法、视频片段提取装置及存储介质
KR20230070503A (ko) * 2020-10-01 2023-05-23 구글 엘엘씨 프레임들의 세트로부터 프레임 제안을 생성할 수 있는 카메라 관리자 시스템을 구현하는 기법 및 장치
US20220115019A1 (en) * 2020-10-12 2022-04-14 Soundhound, Inc. Method and system for conversation transcription with metadata
WO2023128450A1 (ko) * 2021-12-28 2023-07-06 삼성전자 주식회사 타임랩스 영상 생성 방법 및 그 가전 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345764A (zh) * 2013-07-12 2013-10-09 西安电子科技大学 一种基于对象内容的双层监控视频摘要生成方法
CN103391484A (zh) * 2013-07-12 2013-11-13 西安电子科技大学 一种用于双层视频摘要的轨迹最优组合方法

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7110454B1 (en) * 1999-12-21 2006-09-19 Siemens Corporate Research, Inc. Integrated method for scene change detection
KR100762225B1 (ko) * 2001-06-30 2007-10-01 주식회사 하이닉스반도체 반도체 소자의 셀 플레이트 전압 안정화 회로
JP3779904B2 (ja) 2001-10-05 2006-05-31 三菱電機株式会社 レベルシフト回路
US7339992B2 (en) 2001-12-06 2008-03-04 The Trustees Of Columbia University In The City Of New York System and method for extracting text captions from video and generating video summaries
US7068723B2 (en) * 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US7035435B2 (en) * 2002-05-07 2006-04-25 Hewlett-Packard Development Company, L.P. Scalable video summarization and navigation system and method
AU2003265318A1 (en) * 2002-08-02 2004-02-23 University Of Rochester Automatic soccer video analysis and summarization
KR100708337B1 (ko) * 2003-06-27 2007-04-17 주식회사 케이티 퍼지 기반 oc―svm을 이용한 동영상 자동 요약 장치및 방법
JP4217964B2 (ja) * 2003-08-20 2009-02-04 ソニー株式会社 情報信号処理装置および情報信号処理方法
KR20060028307A (ko) * 2004-09-24 2006-03-29 주식회사 케이티 실시간 개인형 동영상 요약 시스템 및 그의 동영상 요약정보 생성 장치 및 그 방법과 맞춤형 동영상 요약 정보제공 장치 및 그 방법
US8699806B2 (en) * 2006-04-12 2014-04-15 Google Inc. Method and apparatus for automatically summarizing video
JP4736985B2 (ja) * 2006-07-14 2011-07-27 ソニー株式会社 画像処理装置および方法、並びにプログラム
CN101329766B (zh) * 2007-06-18 2012-05-30 索尼(中国)有限公司 运动图像分析装置、方法及系统
US8200063B2 (en) 2007-09-24 2012-06-12 Fuji Xerox Co., Ltd. System and method for video summarization
CN100559376C (zh) * 2008-06-30 2009-11-11 腾讯科技(深圳)有限公司 生成视频摘要的方法、系统及设备
CN101656877A (zh) * 2008-08-19 2010-02-24 新奥特(北京)视频技术有限公司 一种改进的图片序列生成动画文件的方法
US8605795B2 (en) * 2008-09-17 2013-12-10 Intel Corporation Video editing methods and systems
CN101425088A (zh) * 2008-10-24 2009-05-06 清华大学 基于图分割的关键帧提取方法和系统
CN101404030B (zh) * 2008-11-05 2011-07-20 中国科学院计算技术研究所 一种视频中周期性结构片段检测的方法及系统
CN101483763A (zh) * 2008-12-16 2009-07-15 南京大学 一种面向社会治安监控的数字影像处理方法及其装置
KR20110032610A (ko) * 2009-09-23 2011-03-30 삼성전자주식회사 장면 분할 장치 및 방법
WO2011143633A2 (en) * 2010-05-14 2011-11-17 Evolution Robotics Retail, Inc. Systems and methods for object recognition using a large database
US8520088B2 (en) * 2010-05-25 2013-08-27 Intellectual Ventures Fund 83 Llc Storing a video summary as metadata
US20120027371A1 (en) * 2010-07-28 2012-02-02 Harris Corporation Video summarization using video frames from different perspectives
JP5259670B2 (ja) 2010-09-27 2013-08-07 株式会社東芝 コンテンツ要約装置およびコンテンツ要約表示装置
US8467610B2 (en) * 2010-10-20 2013-06-18 Eastman Kodak Company Video summarization using sparse basis function combination
EP2641401B1 (en) * 2010-11-15 2017-04-05 Huawei Technologies Co., Ltd. Method and system for video summarization
KR101512584B1 (ko) * 2010-12-09 2015-04-15 노키아 코포레이션 비디오 시퀀스로부터의 제한된 콘텍스트 기반 식별 키 프레임
US20120148149A1 (en) * 2010-12-10 2012-06-14 Mrityunjay Kumar Video key frame extraction using sparse representation
CN202003350U (zh) * 2010-12-14 2011-10-05 广东鑫程电子科技有限公司 视频摘要系统
CN102184221B (zh) * 2011-05-06 2012-12-19 北京航空航天大学 一种基于用户偏好的实时视频摘要生成方法
US8869198B2 (en) * 2011-09-28 2014-10-21 Vilynx, Inc. Producing video bits for space time video summary
US8958645B2 (en) * 2012-04-19 2015-02-17 Canon Kabushiki Kaisha Systems and methods for topic-specific video presentation
ITVI20120104A1 (it) * 2012-05-03 2013-11-04 St Microelectronics Srl Metodo e apparato per generare in tempo reale uno storyboard visuale
US9430876B1 (en) 2012-05-10 2016-08-30 Aurasma Limited Intelligent method of determining trigger items in augmented reality environments
CN102724485B (zh) * 2012-06-26 2016-01-13 公安部第三研究所 采用双核处理器对输入视频进行结构化描述的装置和方法
EP2741488A1 (en) * 2012-12-10 2014-06-11 Alcatel Lucent A method of extracting the most significant frames out of a video stream based on aesthetical criterions
US9141866B2 (en) 2013-01-30 2015-09-22 International Business Machines Corporation Summarizing salient events in unmanned aerial videos
IN2013DE00589A (zh) * 2013-02-28 2015-06-26 Samsung India Electronics Pvt Ltd
CN103327304B (zh) * 2013-06-13 2016-04-20 北京林业大学 一种基于聚集机理的花卉生长关键帧提取系统
CN103413330A (zh) * 2013-08-30 2013-11-27 中国科学院自动化研究所 一种复杂场景下可靠的视频摘要生成方法
CN103886089B (zh) * 2014-03-31 2017-12-15 吴怀正 基于学习的行车记录视频浓缩方法
CN103929685B (zh) * 2014-04-15 2017-11-07 中国华戎控股有限公司 一种视频摘要生成及索引方法
US9646227B2 (en) * 2014-07-29 2017-05-09 Microsoft Technology Licensing, Llc Computerized machine learning of interesting video sections
US9639762B2 (en) * 2014-09-04 2017-05-02 Intel Corporation Real time video summarization
GB2532194A (en) * 2014-11-04 2016-05-18 Nokia Technologies Oy A method and an apparatus for automatic segmentation of an object

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345764A (zh) * 2013-07-12 2013-10-09 西安电子科技大学 一种基于对象内容的双层监控视频摘要生成方法
CN103391484A (zh) * 2013-07-12 2013-11-13 西安电子科技大学 一种用于双层视频摘要的轨迹最优组合方法

Also Published As

Publication number Publication date
US9639762B2 (en) 2017-05-02
EP3267693A1 (en) 2018-01-10
JP2019208259A (ja) 2019-12-05
WO2016036460A1 (en) 2016-03-10
CN107529098A (zh) 2017-12-29
CN106664467A (zh) 2017-05-10
US10755105B2 (en) 2020-08-25
JP6961648B2 (ja) 2021-11-05
CN107529098B (zh) 2021-09-03
JP6472872B2 (ja) 2019-02-20
JP2017526086A (ja) 2017-09-07
US20170286777A1 (en) 2017-10-05
EP3267693B1 (en) 2023-05-24
US20170330040A1 (en) 2017-11-16
EP3189667A1 (en) 2017-07-12
US20160070963A1 (en) 2016-03-10
JP2017225174A (ja) 2017-12-21
EP3189667A4 (en) 2018-03-28

Similar Documents

Publication Publication Date Title
CN106664467B (zh) 视频数据流捕获和摘要的方法、系统、介质和设备
CN110347873B (zh) 视频分类方法、装置、电子设备及存储介质
CN111444966A (zh) 媒体信息分类方法及装置
CN114339409B (zh) 视频处理方法、装置、计算机设备及存储介质
WO2022227768A1 (zh) 动态手势识别方法、装置、设备以及存储介质
CN113469289B (zh) 视频自监督表征学习方法、装置、计算机设备和介质
CN108875931A (zh) 神经网络训练及图像处理方法、装置、系统
EP3725084A1 (en) Deep learning on image frames to generate a summary
CN113033580A (zh) 图像处理方法、装置、存储介质及电子设备
CN113724132B (zh) 图像风格迁移处理方法、装置、电子设备及存储介质
CN112257855B (zh) 一种神经网络的训练方法及装置、电子设备及存储介质
CN113689372A (zh) 图像处理方法、设备、存储介质及程序产品
CN112580563A (zh) 视频摘要的生成方法、装置、电子设备和存储介质
CN116090543A (zh) 模型压缩方法及装置、计算机可读介质和电子设备
CN116918329A (zh) 一种视频帧的压缩和视频帧的解压缩方法及装置
CN115409150A (zh) 一种数据压缩方法、数据解压方法及相关设备
CN104541502B (zh) 用于视频编码和解码的基于直方图分段的局部自适应滤波器
CN111898658B (zh) 图像分类方法、装置和电子设备
CN116012230B (zh) 一种时空视频超分辨率方法、装置、设备及存储介质
CN114550236B (zh) 图像识别及其模型的训练方法、装置、设备和存储介质
CN117676121A (zh) 视频质量评估方法、装置、设备及计算机存储介质
CN115035477A (zh) 对象统计方法、模型训练方法、装置、设备及存储介质
CN114359056A (zh) 对象处理方法、装置及电子设备
CN113705309A (zh) 一种景别类型判断方法、装置、电子设备和存储介质
CN116152919A (zh) 手部姿态跟踪方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant