CN103210651B - 用于视频概要的方法和系统 - Google Patents

用于视频概要的方法和系统 Download PDF

Info

Publication number
CN103210651B
CN103210651B CN201180054662.1A CN201180054662A CN103210651B CN 103210651 B CN103210651 B CN 103210651B CN 201180054662 A CN201180054662 A CN 201180054662A CN 103210651 B CN103210651 B CN 103210651B
Authority
CN
China
Prior art keywords
video
shot
audio
saliency
shots
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180054662.1A
Other languages
English (en)
Other versions
CN103210651A (zh
Inventor
高济舟
黄浴
虹·希瑟·郁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN103210651A publication Critical patent/CN103210651A/zh
Application granted granted Critical
Publication of CN103210651B publication Critical patent/CN103210651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4355Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
    • H04N21/4358Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen for generating different versions, e.g. for different peripheral devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/44029Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Devices (AREA)

Abstract

一种视频概要方法包括:将视频(202)划分成多个视频镜头(206);对来自多个视频镜头(206)的一个视频镜头(206)中的每个帧进行分析;确定视频镜头的每个帧的显著性;基于视频镜头(206)的每个帧的显著性确定视频镜头(206)的关键帧(210);从关键帧(210)中提取视觉特征;以及基于视觉特征对多个视频镜头(206)执行镜头聚类以确定概念模式。所述方法进一步包括:使用显著性调谐方法来融合不同的概念模式,以及基于全局优化方法生成视频的概要。

Description

用于视频概要的方法和系统
相关申请案的交叉参照
本发明要求2010年11月15日递交的发明名称为“用于视频概要的方法和系统(Method and System for Video Summarization)”的第61/413,836号美国临时申请案的在先申请优先权,该在先申请的内容以全文引入的方式并入本文本中。
技术领域
本发明涉及图像处理,而且,在具体实施例中,本发明涉及用于视频概要(videosummarization)的方法和系统。
背景技术
数字视频的快速发展已经带来了许多新的应用,因此,极需研究并开发新技术,用来降低视频归档、编目和索引的成本并且提高已存储视频的有效性、可用性和可访问性。在所有可能的研究领域中,一个重要的主题是:怎样才能迅速浏览大量视频数据,以及怎样实现有效的内容访问和表现。
为了处理这些问题,近年来,视频摘要(video abstraction)技术已经出现并且吸引了越来越多的研究兴趣。视频摘要有两种类型:视频概要(video summary)和视频缩略(video skimming)。视频概要,也称作静态摘要(still abstract),是从原始视频序列所选取或重建的一组显著图像(salient image)。
视频缩略,也称作运动摘要(moving abstract),是来自原始视频序列的图像序列与对应音频的集合。视频缩略也称作原始视频的预览,并且可分成两个子类型:精彩场景(highlight)和概要序列。精彩场景含有视频中最有趣且最有吸引力的部分,而概要序列则表现整个视频的内容给人的印象。在所有类型的视频摘要中,概要序列传达原始视频的内容的最高语义。
一种现有技术方法是对帧进行均匀采样以缩减视频大小,同时丢失音频部分,这类似于在许多数字视频播放器中所见到的快速转发功能。通过使用帧丢弃(framedropping)和音频采样,时间压缩方法可同时压缩音频和视频以使两者同步。然而,在一些情况下,压缩率可能受到语音失真的限制。帧层缩略(Frame-level skimming)主要依靠用户注意力模型(user attention model)来计算显著性曲线,但这种方法不能保持视频结构,尤其是长视频的结构。镜头聚类(Shot clustering)是视频摘要中的中层方法,但是其可读性常被忽略。语义层缩略(Semantic level skimming)是试图理解视频内容的方法,但是由于“语义鸿沟”难题,可能难以实现语义层缩略的目标。
发明内容
根据一项实施例,一种方法包括:将视频划分成多个视频镜头;对来自多个视频镜头的一个视频镜头中的每个帧进行分析;确定视频镜头的每个帧的显著性;基于视频镜头的每个帧的显著性确定视频镜头的关键帧;从关键帧提取视觉特征;以及基于视觉特征对多个视频镜头执行镜头聚类以确定概念模式(concept pattern)。所述方法进一步包括:使用显著性调谐(aliency tuning)方法来融合不同的概念模式,以及基于全局优化方法生成视频的概要。
根据另一项实施例,一种系统包括:提取单元,所述提取单元从视频中提取多个视频镜头;分析器,所述分析器确定来自多个视频镜头的一个视频镜头的每个帧的显著性;关键帧确定器,所述关键帧确定器基于视频镜头中的每个帧的显著性来确定视频镜头的关键帧;视觉特征提取器,所述视觉特征提取器从关键帧中提取视觉特征;镜头聚类块,所述镜头聚类块基于视觉特征对多个视频镜头执行镜头聚类以确定概念模式。所述系统进一步包括:显著性调谐块,所述显著性调谐块使用显著性调谐方法来执行对不同概念模式的融合;概要生成器,所述概要生成器基于全局优化方法来生成视频概要。
上文相当宽泛地概述了本发明的实施例的特征,目的是让人能更好地理解下文对本发明的详细描述。下文中将描述本发明的实施例的额外特征和优点,其形成本发明的权利要求书的标的物。所属领域的技术人员应了解,所揭示的概念和具体实施例可容易地用作用于修改或设计用于实现本发明的相同目的的其它结构或过程的基础。所属领域的技术人员还应意识到,此类等效构造不脱离所附权利要求书中所阐述的本发明的精神和范围。
附图说明
为更完整地理解本发明及其优点,现在参考以下结合附图进行的描述,在附图中:
图1所示为实施例视频概要系统的流程图;
图2所示为根据一项实施例的视频场景、镜头和帧的分级结构;
图3所示为根据一项实施例的生成相对运动词的过程;
图4所示为音频词的实施例显著性掩蔽;
图5所示为怎样基于不同摄影机运动来对多个视图的缩放因子(scaling factor)进行设定的实施例方法;
图6所示为根据一项实施例的用于动态规划解决方案的子结构;以及
图7所示为根据一项实施例的可用来实施视频概要方法的计算机系统的简化方框图。
具体实施方式
下文详细论述当前优选实施例的制作和使用。但是应了解,本发明提供可实施于广泛的各种具体环境中的许多可应用的发明概念。所论述的具体实施例仅仅说明用以制作和使用本发明的具体方式,而不限制本发明的范围。
视频缩略是将视频缩短成在时间上压缩后的版本的一项任务,观看者通过这个版本仍可理解原始视频的情节。这项技术允许观看者迅速浏览大型多媒体库,因此有助于进行快速视频浏览、视频索引和检索等任务。视频概要主要表现在以下两个方面,即,视频精彩场景和信息概要。
视频概要使观看者能够从较短的概要版本迅速且有效地领会视频所描述或呈现的内容。为了满足这个需求,直观的方式是从原始视频中提取主要梗概,把主要梗概当做一组视频精彩场景,并且将这组视频精彩场景保留在概要视频中。视频梗概可被视为按时间顺序进行排列的具有某种语义含意的概念模式队列或场景序列。
此处,概念模式的层级没有通过人为干预所得知的真实语义概念高。在此项技术中,概念模式对镜头(将一个镜头定义为一组连续的类似视频帧,且将两个连续的镜头之间的过渡称作镜头边界)的语义进行编码,代表镜头群组,所述镜头群组描绘了一致的语义设定且一般可以作为标记或明显的提示,所述标记或提示暗示了原始视频的形成。只要对所有概念模式进行了传达,观看者就可能仅通过看和听少数镜头来复原情节。
通常,视频接连地描绘依序发生或同时发生的故事。在故事中,镜头本身并没有太多含义,但是镜头通常被当作视频作品的基本单元。事实上,故事的基础单元可以是场景,场景被定义为相互关联且在时间上相邻的镜头的序列,所述镜头描绘并传达共同的语义线索。
观看者一般很需要视频的概要。在视频中,通常可能存在对整个故事进行说明的几个场景以及传达相同概念模式的不同镜头。当对传达概念模式的代表性镜头进行选取时,会偏爱于对人的注意力产生最大刺激的镜头,这样,所得的概要视频不仅含有整合的概念模式,而且还谨慎地选取了用丰富的信息来反映概念模式的镜头。此外,从耗时长的场景中选取更多镜头也是合理的,所述耗时长的场景通常突出重要的故事单元。
虽然视频精彩场景和镜头概念模式实例对领会视频中的有趣内容来说是必不可少的,但是连续观看在时间上相隔很久的视频精彩场景通常会使观看者感到不适。因此,包含几个过渡镜头以填补相隔视频精彩场景之间的信息鸿沟是合理的,这种做法可以克服逻辑性故事说明中的突然跳转并且保留对全部信息的适当覆盖。
主要通过基于聚类的方法生成的概念模式未必执行以下准则:已发现的概要可以突出视频的不同方面。镜头或子镜头(subshot)等视频段的不均匀统计分布可能容易使对视频精彩场景进行了最优选取的概要结果有所偏差。因此,在以保留视频概要的多样性为目标的优化中,需要一种称作信息覆盖的准则。在目标函数中,此准则可用于横跨整个视频并均匀地分布在整个视频上。
图1所示为实施例视频概要系统的流程图。可在如图1中所示的系统中实施上一段中所描述的方法。实施例视频概要系统可包含提取单元102、分析单元104以及概要单元106。提取单元102经配置以在帧层级上提取视觉和音频特征。分析单元104经配置以对镜头概念模式和场景结构进行分析。概要单元106经配置以从镜头序列重组的角度对原始视频进行概括。
提取单元102从每个镜头中的采样帧中提取视觉、运动和音频特征。所述视觉和音频特征包含完整视频帧中的尺度不变特征变换(Scale Invariant Feature Transform;SIFT)特征、运动对象的运动矢量,以及每个镜头中重叠的短期音频段的匹配追踪(Matching Pursuit;MP)分解。
分析单元104对原始视频的高层概念和结构进行分析。按照如下方式对具有类似内容的视频镜头进行分组以形成镜头概念模式;提取单元102从上一步骤中已经提取的视觉、运动和音频特征中提取每个镜头的词袋(Bag-of-Words;BoW)描述符(基于SIFT的视觉BoW描述符、局部运动BoW描述符以及基于匹配追踪的音频BoW描述符),随后通过谱聚类法将所述三种类型的BoW描述符分别聚类成若干群组。每个概念模式(集群)代表具有类似的视觉、运动或音频内容的一组视频镜头。此外,在场景过渡图(STG)中,按照位置或戏剧性事件进行统一的若干相互联系的镜头构成一个视频场景。分析单元104可使每个镜头与其语义标签(例如,视觉概念模式)相关联,随后辨别长度最小且含有复现标签的标签子序列。
概要单元106从镜头序列重组的角度对原始视频进行概括。通过对不仅含有最大可实现显著性累积而且横跨整个视频并均匀地分布在整个视频上的一组镜头进行连接,概要单元106生成压缩后的视频摘录,其具有所需的缩略长度。以前的准则试图保留视频精彩场景,例如,有趣的视频场景以及镜头概念模式,而后来的准则试图对整个视频进行良好的信息覆盖。为了满足上述准则,概要单元106制定了全局优化框架以处理镜头选取问题,并且通过动态规划方法来解决这个问题。
图2所示为根据一项实施例的视频场景、镜头和帧的分级结构。如图2中所图示,一般来说,视频202可按照分级形式分解为“视频→场景→镜头→子镜头→关键帧”。换句话说,视频202可划分成多个场景204。场景204可进一步划分成多个镜头206。每个镜头(例如,镜头206)可包括多个子镜头208。每个子镜头可包括多个关键帧210。
场景204定义为在语义上相关且在时间上相邻的镜头的集合,所述集合描绘并传达高层概念。镜头206(视频作品的基本单元)是单个摄影机所记录的不间断片段。子镜头208是镜头(例如,镜头206)之内的段,对应于独特的摄影机运动,例如摇镜头(panning)/倾斜、变焦以及静止。关键帧210是能最好地表现镜头(例如,镜头206)或子镜头(例如,子镜头208)内容的帧。
根据一项实施例,使用镜头检测来实现对视频串流的时间分段。使用基于方差差异(variance-difference)的方法来检测镜头改变,并稳健地检测各场景之间的场景切换以及淡入淡出。计算一个帧的方差,并且记录与前一个帧的方差增量Dvar。根据一项实施例,Dvar开始新镜头所用的准则是:
a.Dvar(当前)<Th1(稳定性要求)
b.最大Dvar(开始至当前)-最小Dvar(开始至当前)>Th2(公差要求)
c.当前镜头中的帧数>Th3(镜头长度要求)
在替代性实施例中,可使用其它技术。例如,使用基于颜色直方图的方法或光流运动特征也可以发现镜头边界。为方便处理,在一些实施例中,将视频数据分成片段,其中每个片段的边界与其在时间轴上处于同一位置的视频镜头同步。
子镜头208是在镜头206之内的段。一般来说,将子镜头208定义成含有独特的摄影机运动。因此,子镜头分段可通过摄影机运动估计来完成。例如,考虑摄影机做如下运动的镜头(例如,镜头206):拉远镜头(zoom out),随后从左向右摇镜头,并且向着指定对象推进镜头(zoom in),最后停止。随后可将这个镜头划分成三个子镜头,包含一个镜头拉远、一个摇镜头以及一个镜头拉近。通过估计二维刚性变换,可计算出两个相邻帧之间的摄影机运动,所述估计是基于两个帧上的对应的卡内得-卢卡斯-托马西特征跟踪器(Kanade-Lucas-Tomasi Feature Tracker;KLT)关键点跟踪。有关KLT的具体细节参见史(J Shi)和托马西(C Tomasi)(1994年)所著的“追踪有效特征(Good Features to Track)”,这篇文章出自《IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision andPattern Recognition)》,第593至600页,并且以引入的方式并入本文本中。
假设KLT关键点位于帧t中的(x,y)处,在帧(t+1)中的(x',y')处跟踪对应的KLT关键点,从(x,y)到(x',y')的变换可表达成
x &prime; y &prime; = A x y + b = s cos &theta; s sin &theta; - s sin s cos &theta; x y + b x b y , 其中s、θ、bx、by是摄影机参数,s是变焦因子(zooming factor),θ是逆时针方向旋转度数,bx对应于摇镜头运动,by对应于倾斜运动。
在给定一组KLT关键点对应关系的情况下,可使用稳健的随机采样一致性(RANdomSAmple Consensus;RANSAC)刚性变换估计来对矩阵A以及矢量b求解。有关RANSAC的具体细节参见费斯克勒(M.A.Fischler)和博尔斯(R.C.Bolles)(1981年)所著的“随机采样一致性:可应用于图像分析和自动制图的模型拟合范例(Random Sample Consensus:AParadigm for Model Fitting with Applications to Image Analysis and AutomatedCartography)”,这篇文章出自《ACM通讯》第24期,第381至395页,并且以引入的方式并入本文本中。
关键帧是视频序列中可以最好地表现视频镜头或子镜头内容的帧。根据一项实施例,采用自适应关键帧选取(Adaptive keyframe selection)来选取关键帧。表1中所示为自适应关键帧选取方法。
表1自适应关键帧选取
运动类型 子镜头中的关键帧选取
静止 选取中间帧(median frame)
摇镜头或倾斜 每隔20个帧进行采样
变焦 选取第一个和最后一个帧
根据一项实施例,视频镜头(例如,镜头206)的特点在于三种类型的特征:视觉特征、运动特征以及音频特征。
关于视觉特征,采用了用于在关键帧中进行SIFT特征检测的罗易算法(Lowe'salgorithm)。用高斯滤波器(Gaussian filter)在不同尺度下对帧进行卷积,随后获得连续的高斯模糊版本的差异。按照在多个尺度下出现的高斯差(Difference of Gaussians;DoG)的最大值/最小值来定位关键点。随后,丢弃低对比度的关键点,消除高边缘响应。接下来,基于局部梯度方向为每个关键点分配一个或多个定向。最后,生成极其独特的128维矢量,作为视觉特征矢量。SIFT的具体细节参见罗易(Lowe)、大卫(David G.)(1999年)所著的“从局部尺度不变的特征识别对象(Object recognition from local scale-invariantfeatures)”,这篇文章出自《国际计算机视觉大会2(Int.Conference on ComputerVision.2)》,第1150至1157页,并且以引入的方式并入本文本中。
关于运动特征,通过对前景点组中的KLT关键点的相对运动进行计算来获得局部运动信息。在自运动补偿相位之后,通过测量两个帧的对应前景关键点之间的距离,可准确地推导出前景点的相对运动。
假设pt(i)=[xt(i),yt(i)]T代表帧t处的第i个KLT关键点,在Δt个帧之后,在pt+△t(i)=[xt+△t(i),yt+△t(i)]T处跟踪对应关键点,基于从帧t到帧(t+Δt)的所有关键点对应关系来估计刚性变换矩阵和矢量可如下计算相对运动矢量mt(i):
m t ( i ) = p t + &Delta;t ( i ) - ( A t t + &Delta;t p t + &Delta;t ( i ) + b t ( i ) ) ;
其中,这个过程通常称作自运动补偿,所述自运动补偿试图消除因摄影机运动产生的意外背景运动。实际上,前景点组含有点pt(i),点pt(i)与它的相对运动矢量mt(i)相关联,mt(i)的2-范数||mt(i)||2>M,其中M=max(wid,hei)/128,且(wid,hei)代表视频帧的宽度和高度。例如,对于典型的640×480视频帧大小,M=5,这表明应该把具有5个以上像素偏移的关键点当做前景点。
根据一项实施例,使用极坐标系来获取相对运动矢量的角度和距离。可将相对运动矢量mt(i)=[x,y]T的笛卡尔坐标(Cartesian coordinate)变换成相对运动矢量mt(i)=[x,y]T的极坐标rt(i)=(ρ,θ),其中ρ是距离,θ是角度。使用相对关键点运动矢量的极坐标作为运动特征矢量。在镜头中每隔10个帧抽取一个帧t,且Δt=5,以便增大前景运动并且稳健地分开前景与背景关键点。
关于音频特征,将镜头的音频流切割成长度相等的多个重叠的短时间音频段。随后,通过匹配追踪(MP)分解,对那些音频段执行音频特征的提取。为了改善音频特征的稳健性,仅考虑高于声显著性等级的音频段,从而避免低显著音频段因其值比噪音小而对准确性产生负面影响。
根据一项实施例,采用MP方法将音频段分解成一连串重叠的短时间音频段。虽然可得到MFCC、LPCC等许多用于识别的声特征,但是这些声特征只适合结构化的音频流,例如,音乐或语音。然而,MP能够对环境声音以及其它非结构化声音进行特征化,因此所能访问的信息多得多,从而能增强对潜在概念模式的认识。
由于音频词类似于具有一定长度的短时间音频段,因此可用参考字典中的一组基函数(base function)以及对应的相关系数来对音频词的独特声特性进行编码。MP方法能够实现对音频段的有效稀疏表示(sparse representation)。以迭代方式执行MP分解:在每个步骤中,通过对从残余信号除去的能量进行最大化来选取给定字典的基(basis),直到达到回路的最大数目或者,等价地,达到用来重建信号的基的数目。因此,MP确保所得的稀疏表示在某种意义上最为有效,即,基于已选取基的重建信号所占据的百分比大于任何其它分解方法。MP的具体细节参见梅勒特(S.G.Mallat)和张(Z.Zhang)所著的“具有时频字典的匹配追踪(Matching Pursuits with Time-Frequency Dictionaries)”,这篇文章出自1993年12月出版的《IEEET-SP》,第3397至3415页,并且以引入的方式并入本文本中。
根据另一项实施例,采用具有伽柏波形基(Gabor waveform basis)的伽柏字典(Gabor dictionary)。如以下伽柏函数定义中所示,每个具体的伽柏波形是根据尺度、频率和与原始发生的平移来进行索引。MP是一种类型的贪婪算法(greedy algorithm):从原始音频信号开始,伽柏字典中的每个基与信号配对,用来计算它们的相关系数。随后,选择具有最大系数的基,因为在所有基中,具有最大系数的基与信号最为类似。随后,通过已选择基将残余信号计算为原始信号与重建信号的差异。在后续迭代中,运用相同操作,除非原始信号被残余信号所替代,并且伽柏字典在最后一次迭代中除去已选择基。所述过程在迭代的数目达到指定的最大数目时停止。
伽柏函数定义为
g s , &mu; , &omega; , &theta; ( n ) = K s , &mu; , &omega; , &theta; s exp - &pi; ( n - &mu; ) 2 / s 2 cos [ 2 &pi;&omega; ( n - &mu; ) + &theta; ]
其中s、μ、ω、θ分别是尺度、平移、频率和初始相位。
根据一项实施例,伽柏字典中的基的长度均是256点。为了通过MP分解对短时间音频段进行编码,同样使短时间音频段的长度为256点,以便与伽柏基函数完全对齐。通过运用MP,可用音频特征矢量来表达音频段,所述音频特征矢量的每一项代表已选取伽柏基的系数。根据一项实施例,MP算法的实施如下:
输入:信号:f(t)。
输出:系数列表:(an,gγn)
设定初值:
Rf1←f(t)
重复
如果gγn∈D,那么最大内积为<Rfn,gγn>
an←<Rfn,gγn>
Rfn+1←Rfn-angγn
n←n+1
直到终止条件(例如:||Rfn||<阈值)
在下文中详细描述概念模式学习。根据一项实施例,使用词袋(BoW)模型分别在视觉、运动和音频域内对镜头性质进行表征。词袋(BoW)模型最初在自然语言处理(NaturalLanguage Processing)中用来表达文本的结构。例如,BoW模型把文本文档当做是属于参考词典的某些词的集合,但忽略词的顺序和语义含意。BoW模型使用每个词在词典中的出现作为文本的描述符,因此,BoW模型通常成为稀疏矢量。BoW描述符可被当作“基于独立特征的直方图表示”。因此,关于一些实施例,镜头可被当作文本文档。然而,由于镜头中的所有“视觉词”、“运动词”以及“音频词”不像文本文档中的真实词一样能立即使用,因此,需要对那些“词”进行适当定义。根据一项实施例,“词”的确定通常涉及两个步骤:生成码字以及提取特征。
由于BoW描述符在视觉、运动和音频域内均可供每个镜头使用,因此可对原始视频中的镜头进行聚类以发现潜在概念。对视觉、运动和音频BoW模型进行独立处理,因此这些模型可相互提供可靠性。强迫聚类方法首先能够正确地对数据进行分组,但是不同集群中的数据的数目有很大差异。使用谱聚类方法从镜头学习可能存在的概念,该方法可提供最好的分类结果。
在下文中详细描述视觉和音频BoW模型。SIFT特征以每个镜头的关键帧为基础。因此,作为袋的镜头具有“视觉词”的集合,所述集合中的每个“视觉词”是维度为128的矢量。镜头中的词的数目等于以镜头中的所有关键帧为基础的SIFT特征的数目。含有SIFT特征的镜头现在可被当作具有许多词的文本文档。为了生成直方图表达作为镜头的BoW描述符,各种“词”的集合应被当做一个“码簿”,从而建立“码簿”(“字典”),在文本文档中,“take”、“takes”、“taken”以及“took”应被视为相同的(“take”),作为“码簿”的码字。视觉外观方面的词袋请参阅菲菲(L.Fei-Fei)和佩罗纳(P.Perona)所著的“用于学习自然场景种类的贝叶斯分层模型(A Bayesian Hierarchical Model for Learning Natural SceneCategories)”,这篇文章出自2005年出版的第5期《IEEE CVPR》,第524至531页,并且以引入的方式并入本文本中。
视觉码字可被视为若干类似的SIFT特征的代表。根据一项实施例,采用了针对多种SIFT特征的K均值聚类(K-means clustering)。通常从耗时长的离线视频中提取多种SIFT特征。集群的数目等于码簿大小,码簿大小类似于文本字典中的不同词的数目。在聚类之后,码字是集群的中心,通过寻找最靠近的码字将镜头中的每个“词”映射至某个码字,所述最靠近的码字是通过高维度矢量空间中的矢量差异的2-范数来度量。
因此,每个镜头可由码字的直方图来表达,所述直方图的每个条目实质上记录了条目所表达的码字的出现次数。此外,为了构造更强大的BoW直方图,采用tf-idf加权方案。tf-idf加权是用于对码字对于文集中的文档的重要性进行估计的统计学度量方法。重要性与词在文档中出现的次数成正比地增长,但与词在文集中的出现的频率相抵。例如,在文档BoW直方图中,文档可含有100个词,其中词“母牛(cow)”出现了3次。于是,“母牛”的词频(tf)是0.03(3/100)。现在,假定可能存在1000万个文档,且“母牛”在这些文档中的一千个文档中出现。随后,将逆文档频率(idf)计算为log(10^7/10^3)=4。tf-idf权重是以上数值的乘积:0.03×4=0.12。最终的BoW直方图被当做BoW描述符。考虑到视频序列的复杂性;对于视觉聚类,我们建议使用800个码字。
音频BoW模型与视觉BoW模型极其类似;仅有的差异是,原音频特征是维度为256的矢量。相反,音频BoW模型使用50个音频码字。
在下文中详细描述运动BoW模型。通过使用运动BoW模型,可容易地实施码字生成过程。极坐标rt(i)=(ρ,θ)可用于表达运动特征。因此,极坐标系可量化成径向和角度区域(bin)以构造运动码字。
图3所示为根据一项实施例的生成相对运动词的过程。如图3中所示,如果径向坐标划分成K个区域,角度坐标划分成N个相等的区域,那么将所述2D区域连接起来,构造出大小为K×N的相对运动码簿。随后,可将每个相对运动矢量rt(i)放进K×N个区域中的一个区域中,以便找到最靠近的运动码字。在运动BoW模型中使用的其余技术类似于在本文中说明的技术。
根据经验,将径向坐标划分成4个区域:[5,8),[8,11),[11,18),[18,+∞),对于典型的640×480的帧大小;将角度坐标划分成4个区域:[-45°,45°),[45°,135°),[135°,225°),[225°,315°)。
在下文中详细描述通过谱聚类进行的概念学习。为了构造概念模式,通过谱聚类分别对三种类型的BoW描述符进行聚类以形成若干群组。
谱聚类使目标函数最小化,从而消除由于对不同集群中的成员数目进行的不平衡划分所产生的负面影响。因此,虽然原始视频所含有的概念模式由明显不同的数目个镜头成员组成,但是谱聚类不会对均匀数目个成员的划分进行人为偏置,并且能够正确地对所述成员进行划分,前提是特征度量使镜头具有相同的概念一致性。
谱聚类的另一有利特征是,谱聚类偏爱于将局部相关数据归类为一个集群,因为谱聚类新增了另一个约束,用来判别位置靠近的或局部连接的数据,并增大这些数据的相似性以便划分到一个群组内。通过此约束,聚类结果接近人的直觉,即,具有一致成员的集群一般得到集中分布。
受益于谱聚类的优点,潜在概念独立于不同的集群中的视频成员的数目分配。与此同时,由于偏爱于将局部连接数据归类为单一集群,因此所学习的概念往往自成一体,适合于表达视频梗概。谱聚类的算法如下文所述,这个算法在A.Y.Ng、乔丹(M.I.Jordan)和维斯(Y.Weiss)所著的“关于谱聚类的分析和算法(On spectral clustering:Analysis andan algorithm)”一文中进行了论述,这篇文章出自2002年出版的第14期《神经信息处理系统的进步(Advances in Neural Information Processing Systems;NIPS)》,并且以引入的方式并入本文本中。
在下文中详细描述视频场景分段。按照位置或戏剧性事件进行统一的若干相关镜头构成一个场景。为了对视频场景进行分段,使镜头与它的视觉概念标签相关联。在给定的场景中,可共存多个视觉概念。因此,这些视觉概念的镜头与相同概念的多个镜头连接在一起。由于场景中的镜头之间存在强烈的相互作用,因此可使用标签序列来对视频进行分段以形成场景。视频场景分段方法请参阅杨(M.Yeung)、余(B Yeo)(1997年)所著的“用于对画报内容视进行紧凑表达以及快速浏览的频可视化(Video visualization for compactpresentation and fast browsing of pictorial content)”,这篇文章出自第7期第5卷《IEEE T-CASVT》,第771至785页,并且以引入的方式并入本文本中。
场景过渡图(STG)定义为有向图,这样,“节点所含的集合内的镜头具有十分类似的视觉内容,如果节点U中有一个镜头紧靠着位于节点W中的一个镜头之前,则有向边缘从一个节点U拉到另一个节点W”。事实上,可使用标签序列对视频进行分段以形成大型逻辑单元,称作逻辑故事单元(LSU),每个逻辑故事单元与语义场景很相似。
将一个镜头表示成si,其视觉概念标签为Li,标签的最后一次出现为镜头g到镜头(g+η)中的A,即last(A,g)=maxg≤i≤g+η(i:Li=A),其中i代表镜头索引,η代表往前的镜头的最大数目(根据经验,设定η=10)。可从场景过渡图(STG)推导出L表last(A,g)的构造。检测场景的算法如下进行:
(1)设定l←m
设定e←last(Ll,m)
(2)当l≤e时,继续
如果(last(Ll,m)>e)e←last(Ll,m)
l←l+1
(3)镜头sm,sm+1,…,sm+e构成一个场景
所述算法对标签序列进行检查,并辨别长度最小且含有所有复现标签的标签子序列。例如,在视频序列具有十个镜头并且所述十个镜头具有以下标签:A、B、A、C、D、F、C、G、D、F的情况下,第一个场景由前三个镜头组成,第二个场景由其余七个镜头组成。
在下文中详细描述显著性计算和缩放。通过融合视觉显著性与音频显著性值,在每个帧处执行显著性计算方法。显著性分析的方法阐述于在先的临时申请案第61/371,458号中。在本发明中,组合了运动与空间颜色显著性,即,表达为四元数图像的四元数傅里叶变换(Quaternion Fourier Transform;QFT),而且我们还并入了另外的电影制作和内容提示,以便通过调高镜头的显著性值来突出重要镜头。
给定的帧t可包括红色r(t)、绿色g(t)、蓝色b(t)通道。通过以下公式得出四个大致调谐后的颜色通道:
R(t)=r(t)-(g(t)+b(t))/2
G(t)=g(t)-(r(t)+b(t))/2
B(t)=b(t)-(r(t)+g(t))/2
Y(t)=(r(t)+g(t))/2-|r(t)-g(t)|/2-b(t)
另外,两个颜色差异通道的定义如下:
RG(t)=R(t)-G(t)
BY(t)=B(t)-Y(t)
强度通道的计算如下:
I(t)=(r(t)+g(t)+b(t))/3
运动通道根据以下公式获取强度映射I(t)与自运动补偿强度映射I(t-τ)之间的绝对差异:
M ( t ) = | I ( t ) - ( A t - &tau; t I ( t - &tau; ) + b t - &tau; t ) |
其中,是从帧(t-τ)到帧t的估计摄影机参数。
帧t可表达成如下的四元数图像q(t):
q(t)=M(t)+RG(t)μ1+BY(t)μ2+I(t)μ3
其中 &mu; j 2 = - 1 , j = 1,2,3 ; 且μ1⊥μ21⊥μ32⊥μ331μ2。此外,q(t)可按照辛形式(symplectic form)表达如下:
q(t)=f1(t)+f2(t)μ2
f1(t)=M(t)+RG(t)μ1
f2(t)=BY(t)+I(t)μ1
对四元数图像q(n,m,t)执行四元数傅里叶变换(QFT)。四元数图像q(n,m,t)的QFT是:
Q[u,v]=F1[u,v]+F2[u,v]μ2
F i [ u , v ] = 1 MN &Sigma; m = 0 M - 1 &Sigma; n = 0 N - 1 e - &mu; 1 2 &pi; ( ( mv / M ) + ( nu / N ) ) f i ( n , m )
其中(n,m)和(u,v)分别是每个像素在时间和频率域内的位置;N和M是图像的高度和宽度。
逆变换可写成:
f i ( n , m ) = 1 MN &Sigma; v = 0 M - 1 &Sigma; u = 0 N - 1 e &mu; 1 2 &pi; ( ( mv / M ) + ( nu / N ) ) F i [ u , v ]
四元数图像q(t)的频率域表达(Q(t))可按照极形式(polar form)写成:
Q(t)=||Q(t)||eμΦ(t)
其中Φ(t)是Q(t)的相位谱。
在上文所示的公式中,如果||Q(t)||=1,那么四元数图像q(t)的频率域表达Q(t)仅包含频率域中的相位谱。因此,可执行四元数图像q(t)的频率域表达Q(t)的相位谱的四元数傅里叶逆变换(inverse Quaternion Fourier Transform;IQFT)。相位谱q'(t)的IQFT是2-D图像映射,且可如下计算:
q'(t)=a(t)+b(t)μ1+c(t)μ2+d(t)μ3
通过获取平滑滤波器核(smoothing filter kernel)并运行对2-D图像映射q'(t)的卷积,可获得帧t的显著性映射(sM(t)):
sM(t)=g*||q'(t)||2
其中g是2-D高斯平滑滤波器。在各项实施例中,为了提高计算效率,仅可对调整过大小的图像(例如,其宽度等于128)上的四元数傅里叶变换的相位谱(PQFT)进行计算。
随后,通过获取整个显著性映射的平均值,可将帧t的视觉显著性值Sv(t)计算如下:
S v ( t ) = 1 MN &Sigma; m = 0 M - 1 &Sigma; n = 0 N - 1 sM ( n , m , t )
在一项实施例中,通过考虑高于声显著性等级的音频词以避免具有低显著性的音频词对BoW准确性产生负面影响,提高了音频BoW特征的稳健性。其原因在于,具有低显著性的音频词的值比噪音小。此处,通过多种低层音频特征(标量值)来度量音频显著性,所述低层音频特征包含频谱矩心(Spectral Centroid)、均方根值(Root Mean Square;RMS)、最大绝对值(Absolute Value Maximum)、过零率(Zero-Crossing Ratio;ZCR)以及频谱通量(Spectral Flux)。通过使用显著性掩蔽,音频词经历可靠性测试,从而提升每个词的特征的准确性。
频谱矩心是信号频谱的中心。通过将频谱当做分布来计算,所述分布的值是频率,且遵守这些分布的可能性是规范化幅值。均方根值是来自范数2的信号的短时能量(shorttime energy)的度量。最大绝对值是来自范数1的信号的短时能量的度量。零交叉(zero-crossing)是信号值与零轴交叉的次数的度量。这些度量在皮特(G.Peeters)于2003年所著的“在CUIDADO计划中的声音描述符(相似性和分类)的大量音频特征(A large set ofaudio features for sound description(similarity and classification)in theCUIDADO project)”中进行了进一步论述,这篇文章以引入的方式并入本文本中。也可查看http://www.ircam.fr/anasyn/peeters/ARTICLES/Peeters_2003_cuidadoaudiofeatures.pdf,这个网页以引入的方式并入本文本中。
图4所示为音频词的显著性掩蔽。在一个镜头之内,在镜头的完整音频信号中,仅有一定量的受掩蔽的短时间音频段通过MP得到稀疏分解,从而形成BoW特征。如果这些段的低层特征高于阈值,则选择这些段。例如,根据一项实施例,选择了高于阈值404的音频显著性402。
根据一项实施例,对音频片段计算出的Sa(t)等音频显著性值与视频帧t的边界对齐。
关于显著性调谐,总是使用摄影机运动来强调或忽略视频的某个对象或段,即,引导观看者的注意力。通过使用刚性运动估计,可稳健地确定摄影机运动的类型和速度。然而,挑战在于,怎样将些摄影机参数映射到这些参数在吸引观看者注意力方面的作用上来。基于一些一般摄影机工作规定的摄影机注意力模型提供于马(Y Ma)、陆(L Lu)、张(HZhang)、李(M Li)所著的“用于视频概要的用户注意力模型(A user attention model forvideo summarization)”一文中,这篇文章出自2002年出版的《ACM多媒体》,第533至542页,并且以引入的方式并入本文本中。
因摄影机运动产生的注意力因子ωcm(t)经量化为在[0–2]的范围之内。大于1的值意指强调。相反,小于1的值意指忽略。根据来自一般电影作品的以下假定来获得基于用户注意力的模型。第一,假定变焦是强调某物。具体来说,变焦的速度随媒体段的重要性线性地按比例缩放。因此,较快的变焦速度描述重要的内容。通常,镜头拉近用于强调细节,而镜头拉远用于强调总览的场景。第二,如果视频制作者想要忽略某物或降低对某物的强调,则视频制作者可运用摇镜头。类似于变焦的情况,摇镜头操作的速度可用作重要性的量度。与变焦不同的是,摇镜头的速度越快,内容的重要性就越低。
图5所示为怎样基于不同摄影机运动来对多个视图的缩放因子进行设定的实施例方法。这些图通过以下各项说明了摄影机运动:(a)变焦,(b)先变焦后静止,(c)摇镜头,(d)摇镜头的方向映射函数(Direction mapping function),(e)先摇镜头后静止,(f)静止以及其它类型的摄影机运动,(g)先变焦后摇镜头,(h)先摇镜头后变焦,(i)先静止后变焦。
在下文中详细描述视觉与音频显著性的融合。随后,通过对应的摄影机注意力因子ωcm(t)按照Sv(t)←ωcm(t)·Sv(t)对帧t的视觉显著性值Sv(t)进行缩放。对帧t的视觉与音频显著性值的线性融合可计算如下:
S ( t ) = &alpha; S ~ v ( t ) + ( 1 - &alpha; ) S ~ a ( t ) ,
S ~ v ( t ) = S v ( t ) - min t &prime; { S v ( t &prime; ) } max t &prime; { S v ( t &prime; ) } - min t &prime; { S v ( t &prime; ) } ,
S ~ a ( t ) = S a ( t ) - min t &prime; { S a ( t &prime; ) } max t &prime; { S a ( t &prime; ) } - min t &prime; { S a ( t &prime; ) }
其中分别是规范化的视觉和音频显著性值;α∈[0,1]控制视觉与音频显著性之间的相对重要性,α通常设定为0.5。
另外,镜头s的镜头显著性X(s)可定义如下:
X ( s ) = 1 len ( s ) &Sigma; t &Element; s S ( t )
其中X(s)取镜头中的帧的平均显著性值,len(s)代表镜头中的帧数。
由于每个镜头概念模式对不同的高层语义进行编码,因此,有理由推测出最终的视频摘录应包含多个镜头概念。每个概念应在缩略镜头中提供至少一个镜头作为硬约束。根据一项实施例,采用镜头显著性调谐技术来间接地促使缩略视频在每个概念中选择那些排在前面的显著镜头。
假设镜头s在视觉概念中,其显著性X(s)在中的所有镜头之上排在前p个百分点中,代表中的镜头的数目, Med V = Median ( { C V i : &ForAll; i ) } 代表所有视觉概念中的镜头的数目的中值,代表视觉概念中的镜头的最小数目,且目标缩略率给定为Rt%;视觉概念中的镜头s的缩放因子的定义如下:
&omega; cp V ( s ) = 1 + exp ( - 0.3 &CenterDot; p R t ) &CenterDot; &xi; ( | C V i | ) , s &Element; C V i
例如,如果目标缩略率给定为10%,则相对较大的视觉概念中的前10%的显著镜头更有可能被包含在缩略视频中,因为所述显著镜头的显著性值重新缩放为至少1.7倍,因为exp(-0.3)=0.74082。
可用类似方式计算出音频概念的缩放因子和运动概念的缩放因子来自所有三种类型的概念的组合缩放因子ωcp(s)可定义如下:
&omega; cp ( s ) = &rho; V &omega; cp V ( s ) + &rho; A &omega; cp A ( s ) + ( 1 - &rho; V - &rho; A ) &omega; cp M ( s )
其中ρVA∈[0,1];ρVA≤1平衡视频、音频和运动概念的相对重要性。根据一项实施例,ρV=0.5,ρA=0.3。
在视频场景的精彩场景(类似于概念模式精彩场景)的情况下,因耗时长所产生的镜头的显著性值可按比例增大。因此,这些精彩场景成为重要场景。假设镜头s在场景sci中,且|sci|定义了场景sci中的镜头的数目,场景sci中的镜头s的缩放因子ωsc(s)的计算如下:
在调谐步骤之后,镜头s的镜头显著性X(s)的计算如下:
X(s)←ωsc(s)·ωcp(s)·X(s)
在下文中详细描述经由动态规划的视频缩略。图6所示为根据一项实施例的用于动态规划解决方案的子结构。为了保留视频精彩场景和足够的信息覆盖,使用动态规划(DP)算法来解决视频缩略问题。值函数f(i,j,t)代表从镜头i处开始、在镜头j处结束且含有γ·t个帧的镜头序列602。根据一项实施例,γ=30,即,最小的镜头长度。应注意的是,镜头序列602不需要是连续的,而是仅在两个端点处固定。如图6中所示,值函数f(i,j,t)可如下进行最大化:
f ( i , j , t ) = max i &le; k < j t = t 0 + len ( j ) / &gamma; { f ( i , k , t 0 ) + X ( j ) + &lambda;exp ( - | d ( j , k ) - d _ | / &beta; ) } j > i X ( i ) j = i - &infin; j < i
其中长度(j)代表镜头j的长度,即,镜头j中的帧数,d(j,k)代表镜头j与镜头k之间的帧数,代表在镜头对的均匀采样中的两个邻近镜头之间的平均帧数,前提是假定所有镜头采取平均镜头长度。
在给定目标缩略率的情况下,可如下搜索开始和结束镜头:
这是约束优化问题。暴力搜索虽然可行,但是效率很低;事实上,由于存在最优子结构,因此可用DP解决这个问题。通过计算目标函数值f(i,j,t)和所有最优子解决方案,可通过最优路径容易地追溯中间的镜头。应注意,靠近视频的开头和结尾的镜头往往极其重要,因此,用户可限制搜索范围,或者甚至固定开始和/或结束镜头,而不是全局性地搜索开始和结束镜头。
图7所示为根据一项实施例的可用于对视频概要方法进行实施的计算机系统的简化方框图。计算机系统700包含:视频概要单元710、存储器720、处理器730、存储单元740、网络接口输入装置750、网络接口输出装置760以及数据总线770。应注意的是,这个图仅仅是个人计算机的实例,而不应过度限制权利要求书的范围。个人计算机的许多其它配置在本发明的范围之内。所属领域的一般技术人员还会认识到,可通过其它计算机系统来执行高级媒体预览方法,所述其它计算机系统包含便携式计算机、工作站、网络计算机或类似的计算机系统。
视频概要单元710可以是实际装置、软件程序或软件与硬件的组合,例如,专用集成电路(Application Specific Integrated Circuit;ASIC)。根据一项实施例,当计算机通过网络接口输入装置750接收到视频文件时,处理器730将视频文件载入到存储单元740中。根据将视频概要方法实施为软件程序的一项实施例,处理器730从存储单元740载入软件程序并且在存储器720中运行所述软件程序。在处理器730执行了图1中的步骤之后,处理器730通过网络接口输出装置760将视频概要结果发送给终端用户。
虽然已详细地描述了本发明及其优点,但应理解,可在不脱离如所附权利要求书所界定的本发明的精神和范围的情况下对本发明做出各种改变、替代和更改。举例来说,上述许多特征和功能可用软件、硬件、固件或其组合来实施。
此外,本申请案的范围不希望限于本说明书中所描述的过程、机器、制造、物质成分、构件、方法和步骤的特定实施例。如所属领域的技术人员将从本发明的揭示内容容易了解,可根据本发明利用执行与本文中所描述的对应实施例大致相同的功能或实现与本文中所描述的对应实施例大致相同的结果的目前存在或稍后将开发的过程、机器、制造、物质成分、构件、方法或步骤。因此,所附权利要求书既定在其范围内包括此类过程、机器、制造、物质成分、构件、方法或步骤。

Claims (16)

1.一种用于视频概要的方法,包括:
将视频划分成多个视频镜头;
对来自所述多个视频镜头的一个视频镜头中的每个帧进行分析;
确定所述视频镜头的每个帧的显著性;
基于所述镜头的每个帧的所述显著性确定所述视频镜头的关键帧;
从所述关键帧中提取视觉特征;
基于所述视觉特征对所述多个视频镜头执行镜头聚类以确定概念模式;
使用显著性调谐方法来融合不同的概念模式;以及
基于全局优化方法生成所述视频的概要;
其中,所述显著性是视觉显著性与音频显著性的融合;
在调谐步骤之后,镜头的镜头显著性X(s)的计算如下:
X(s)←ωsc(s)·ωcp(s)·X(s),
其中,ωsc(s)为镜头的缩放因子,ωcp(s)为三种类型的概念的组合缩放因子,三种类型的概念缩放因子为:视觉概念的缩放因子,音频概念的缩放因子,以及运动概念的缩放因子。
2.根据权利要求1所述的方法,进一步包括基于动态规划方法生成所述视频的所述概要。
3.根据权利要求1所述的方法,进一步包括从所述视频镜头中提取音频特征,所述提取音频特征包括:
确定来自所述视频镜头的音频词;以及
对所述音频词执行聚类。
4.根据权利要求3所述的方法,所述确定音频词包括:
获得第一组音频词;以及
计算所述音频词中的每个音频词的显著性度量。
5.根据权利要求4所述的方法,其中使用匹配追踪分解方法把音频词分解成一连串重叠的短时间音频段。
6.根据权利要求4所述的方法,进一步包括执行显著性掩蔽,所述显著性掩蔽包括对所述显著性度量与阈值进行比较,以及对显著性度量在所述阈值的一侧的音频词进行消除。
7.根据权利要求1所述的方法,进一步包括使用动态规划方法来确定所述视频镜头的每个帧的所述显著性。
8.根据权利要求1所述的方法,所述确定所述关键帧包括在所述视频镜头中选取使内容精彩场景与信息覆盖之间得到平衡的帧。
9.根据权利要求1所述的方法,所述提取视觉特征包括基于所提取的视觉特征确定视觉词的集合。
10.根据权利要求9所述的方法,进一步包括通过提取每个镜头的视觉、运动和音频特征将所述视频划分成多个镜头。
11.根据权利要求1所述的方法,其中执行镜头聚类包括
进行聚类以在多个镜头中确定概念模式;以及
对镜头进行分组以形成概念种类。
12.一种用于视频概要的系统,包括:
提取单元,所述提取单元从视频中提取多个视频镜头;
分析器,所述分析器确定来自所述多个视频镜头的一个视频镜头的每个帧的显著性;
关键帧确定器,所述关键帧确定器基于所述视频镜头中的每个帧的所述显著性来确定所述视频镜头的关键帧;
视觉特征提取器,所述视觉特征提取器从所述关键帧中提取视觉特征;
镜头聚类块,所述镜头聚类块基于所述视觉特征对所述多个视频镜头执行镜头聚类以确定概念模式;
显著性调谐块,所述显著性调谐块使用显著性调谐方法来执行对不同概念模式的融合;以及
概要生成器,所述概要生成器基于全局优化方法来生成视频概要;
其中,所述显著性是视觉显著性与音频显著性的融合;
在调谐步骤之后,镜头s的镜头显著性X(s)的计算如下:
X(s)←ωsc(s)·ωcp(s)·X(s),
其中,ωsc(s)为镜头s的缩放因子,ωcp(s)为三种类型的概念的组合缩放因子,三种类型的概念缩放因子为:视觉概念的缩放因子,音频概念的缩放因子,以及运动概念的缩放因子。
13.根据权利要求12所述的系统,进一步包括:
音频特征确定块,所述音频特征确定块从所述视频镜头确定音频特征;
音频显著性确定块,所述音频显著性确定块确定所述已确定的音频特征的显著性;
音频词聚类块,所述音频词聚类块对已确定的音频特征进行聚类;以及
音频和视频概念,所述音频和视频概念使音频与视频概念种类对齐。
14.根据权利要求12所述的系统,进一步包括:
视频概要生成器,所述视频概要生成器基于动态规划方法生成视频概要。
15.根据权利要求12所述的系统,进一步包括:
视频概要生成器,所述视频概要生成器基于最大可实现的显著性与视频信息覆盖之间的平衡来生成视频概要。
16.根据权利要求12所述的系统,进一步包括:
视频概要生成器,所述视频概要生成器生成视频概要以保留内容精彩场景和视频信息覆盖。
CN201180054662.1A 2010-11-15 2011-11-15 用于视频概要的方法和系统 Active CN103210651B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US41383610P 2010-11-15 2010-11-15
US61/413,836 2010-11-15
PCT/US2011/060847 WO2012068154A1 (en) 2010-11-15 2011-11-15 Method and system for video summarization

Publications (2)

Publication Number Publication Date
CN103210651A CN103210651A (zh) 2013-07-17
CN103210651B true CN103210651B (zh) 2016-11-09

Family

ID=46048601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180054662.1A Active CN103210651B (zh) 2010-11-15 2011-11-15 用于视频概要的方法和系统

Country Status (4)

Country Link
US (1) US9355635B2 (zh)
EP (1) EP2641401B1 (zh)
CN (1) CN103210651B (zh)
WO (1) WO2012068154A1 (zh)

Families Citing this family (183)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9171578B2 (en) * 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
US9734867B2 (en) * 2011-03-22 2017-08-15 Futurewei Technologies, Inc. Media processing devices for detecting and ranking insertion points in media, and methods thereof
US9557885B2 (en) 2011-08-09 2017-01-31 Gopro, Inc. Digital media editing
US8869198B2 (en) * 2011-09-28 2014-10-21 Vilynx, Inc. Producing video bits for space time video summary
US8867891B2 (en) * 2011-10-10 2014-10-21 Intellectual Ventures Fund 83 Llc Video concept classification using audio-visual grouplets
US8699852B2 (en) * 2011-10-10 2014-04-15 Intellectual Ventures Fund 83 Llc Video concept classification using video similarity scores
US9020244B2 (en) * 2011-12-06 2015-04-28 Yahoo! Inc. Ranking and selecting representative video images
US9332241B2 (en) * 2012-03-26 2016-05-03 Customplay Llc Video map responsive to a video release
US20140328570A1 (en) * 2013-01-09 2014-11-06 Sri International Identifying, describing, and sharing salient events in images and videos
US9118843B2 (en) 2013-01-17 2015-08-25 Google Inc. Methods and systems for creating swivel views from a handheld device
CN105075244A (zh) * 2013-03-06 2015-11-18 汤姆逊许可公司 视频的图示概要
CN103458279B (zh) * 2013-08-27 2016-08-10 西北工业大学 一种基于广告视频图像数据的吸引力判定方法
US9495761B2 (en) * 2013-11-04 2016-11-15 The Regents Of The University Of California Environment mapping with automatic motion model selection
KR102025362B1 (ko) * 2013-11-07 2019-09-25 한화테크윈 주식회사 검색 시스템 및 영상 검색 방법
US10079040B2 (en) 2013-12-31 2018-09-18 Disney Enterprises, Inc. Systems and methods for video clip creation, curation, and interaction
US9754159B2 (en) 2014-03-04 2017-09-05 Gopro, Inc. Automatic generation of video from spherical content using location-based metadata
CN104954717B (zh) * 2014-03-24 2018-07-24 宇龙计算机通信科技(深圳)有限公司 一种终端及视频片头生成方法
CN103886089B (zh) * 2014-03-31 2017-12-15 吴怀正 基于学习的行车记录视频浓缩方法
CN105306945B (zh) * 2014-07-10 2019-03-01 北京创鑫汇智科技发展有限责任公司 一种监控视频的可伸缩浓缩编码方法和装置
WO2016014724A1 (en) * 2014-07-23 2016-01-28 Gopro, Inc. Scene and activity identification in video summary generation
US9792502B2 (en) 2014-07-23 2017-10-17 Gopro, Inc. Generating video summaries for a video using video summary templates
US9685194B2 (en) 2014-07-23 2017-06-20 Gopro, Inc. Voice-based video tagging
US9473803B2 (en) * 2014-08-08 2016-10-18 TCL Research America Inc. Personalized channel recommendation method and system
CN104185090A (zh) * 2014-08-14 2014-12-03 青岛大学 基于协作无线通信的视频摘要提取与传输方法
US9639762B2 (en) * 2014-09-04 2017-05-02 Intel Corporation Real time video summarization
EP3192273A4 (en) * 2014-09-08 2018-05-23 Google LLC Selecting and presenting representative frames for video previews
CN104284241B (zh) * 2014-09-22 2019-01-22 北京奇艺世纪科技有限公司 一种视频剪辑方法和装置
US20160127807A1 (en) * 2014-10-29 2016-05-05 EchoStar Technologies, L.L.C. Dynamically determined audiovisual content guidebook
US9729287B2 (en) 2014-12-05 2017-08-08 Facebook, Inc. Codec with variable packet size
US9729601B2 (en) 2014-12-05 2017-08-08 Facebook, Inc. Decoupled audio and video codecs
US9729726B2 (en) 2014-12-05 2017-08-08 Facebook, Inc. Seamless codec switching
US9667801B2 (en) * 2014-12-05 2017-05-30 Facebook, Inc. Codec selection based on offer
US10469630B2 (en) 2014-12-05 2019-11-05 Facebook, Inc. Embedded RTCP packets
US10506004B2 (en) 2014-12-05 2019-12-10 Facebook, Inc. Advanced comfort noise techniques
US9734870B2 (en) 2015-01-05 2017-08-15 Gopro, Inc. Media identifier generation for camera-captured media
US9679605B2 (en) 2015-01-29 2017-06-13 Gopro, Inc. Variable playback speed template for video editing application
JP2016144080A (ja) * 2015-02-03 2016-08-08 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
CN104811745A (zh) * 2015-04-28 2015-07-29 无锡天脉聚源传媒科技有限公司 一种视频内容的展示方法及装置
US10186012B2 (en) 2015-05-20 2019-01-22 Gopro, Inc. Virtual lens simulation for video and photo cropping
US10595086B2 (en) 2015-06-10 2020-03-17 International Business Machines Corporation Selection and display of differentiating key frames for similar videos
US10462519B2 (en) * 2015-06-19 2019-10-29 Disney Enterprises, Inc. Generating dynamic temporal versions of content
CN105228033B (zh) * 2015-08-27 2018-11-09 联想(北京)有限公司 一种视频处理方法及电子设备
US9894393B2 (en) 2015-08-31 2018-02-13 Gopro, Inc. Video encoding for reduced streaming latency
US10204273B2 (en) 2015-10-20 2019-02-12 Gopro, Inc. System and method of providing recommendations of moments of interest within video clips post capture
US9721611B2 (en) 2015-10-20 2017-08-01 Gopro, Inc. System and method of generating video from video clips based on moments of interest within the video clips
US9596502B1 (en) 2015-12-21 2017-03-14 Max Abecassis Integration of multiple synchronization methodologies
US9516373B1 (en) 2015-12-21 2016-12-06 Max Abecassis Presets of synchronized second screen functions
US10095696B1 (en) 2016-01-04 2018-10-09 Gopro, Inc. Systems and methods for generating recommendations of post-capture users to edit digital media content field
US10109319B2 (en) 2016-01-08 2018-10-23 Gopro, Inc. Digital media editing
US10083537B1 (en) 2016-02-04 2018-09-25 Gopro, Inc. Systems and methods for adding a moving visual element to a video
CN105787930B (zh) * 2016-02-17 2019-01-18 上海文广科技(集团)有限公司 基于锐利度的针对虚化图像的显著性检测方法及系统
US9972066B1 (en) 2016-03-16 2018-05-15 Gopro, Inc. Systems and methods for providing variable image projection for spherical visual content
US10402938B1 (en) 2016-03-31 2019-09-03 Gopro, Inc. Systems and methods for modifying image distortion (curvature) for viewing distance in post capture
US9838731B1 (en) 2016-04-07 2017-12-05 Gopro, Inc. Systems and methods for audio track selection in video editing with audio mixing option
US9838730B1 (en) 2016-04-07 2017-12-05 Gopro, Inc. Systems and methods for audio track selection in video editing
US9794632B1 (en) 2016-04-07 2017-10-17 Gopro, Inc. Systems and methods for synchronization based on audio track changes in video editing
CN105979406B (zh) * 2016-04-27 2019-01-18 上海交通大学 基于代表性特征的视频摘要提取方法及其系统
US9998769B1 (en) 2016-06-15 2018-06-12 Gopro, Inc. Systems and methods for transcoding media files
US10250894B1 (en) 2016-06-15 2019-04-02 Gopro, Inc. Systems and methods for providing transcoded portions of a video
US9922682B1 (en) 2016-06-15 2018-03-20 Gopro, Inc. Systems and methods for organizing video files
US10045120B2 (en) 2016-06-20 2018-08-07 Gopro, Inc. Associating audio with three-dimensional objects in videos
US10185891B1 (en) 2016-07-08 2019-01-22 Gopro, Inc. Systems and methods for compact convolutional neural networks
US10469909B1 (en) 2016-07-14 2019-11-05 Gopro, Inc. Systems and methods for providing access to still images derived from a video
US10395119B1 (en) 2016-08-10 2019-08-27 Gopro, Inc. Systems and methods for determining activities performed during video capture
US9836853B1 (en) 2016-09-06 2017-12-05 Gopro, Inc. Three-dimensional convolutional neural networks for video highlight detection
US10282632B1 (en) 2016-09-21 2019-05-07 Gopro, Inc. Systems and methods for determining a sample frame order for analyzing a video
US10268898B1 (en) 2016-09-21 2019-04-23 Gopro, Inc. Systems and methods for determining a sample frame order for analyzing a video via segments
US10002641B1 (en) 2016-10-17 2018-06-19 Gopro, Inc. Systems and methods for determining highlight segment sets
WO2018081751A1 (en) 2016-10-28 2018-05-03 Vilynx, Inc. Video tagging system and method
US10284809B1 (en) 2016-11-07 2019-05-07 Gopro, Inc. Systems and methods for intelligently synchronizing events in visual content with musical features in audio content
US10262639B1 (en) 2016-11-08 2019-04-16 Gopro, Inc. Systems and methods for detecting musical features in audio content
CN108121715B (zh) * 2016-11-28 2022-01-25 中国移动通信集团公司 一种文字标签方法及文字标签装置
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
EP3565243A4 (en) * 2017-01-20 2020-01-01 Huawei Technologies Co., Ltd. METHOD AND DEVICE FOR GENERATING IMAGE RECORDING INFORMATION
US10534964B2 (en) * 2017-01-30 2020-01-14 Blackberry Limited Persistent feature descriptors for video
US10534966B1 (en) 2017-02-02 2020-01-14 Gopro, Inc. Systems and methods for identifying activities and/or events represented in a video
US10339443B1 (en) 2017-02-24 2019-07-02 Gopro, Inc. Systems and methods for processing convolutional neural network operations using textures
US10127943B1 (en) 2017-03-02 2018-11-13 Gopro, Inc. Systems and methods for modifying videos based on music
US11587304B2 (en) 2017-03-10 2023-02-21 Tusimple, Inc. System and method for occluding contour detection
US10311312B2 (en) 2017-08-31 2019-06-04 TuSimple System and method for vehicle occlusion detection
US10671873B2 (en) 2017-03-10 2020-06-02 Tusimple, Inc. System and method for vehicle wheel detection
US9953236B1 (en) 2017-03-10 2018-04-24 TuSimple System and method for semantic segmentation using dense upsampling convolution (DUC)
US10147193B2 (en) 2017-03-10 2018-12-04 TuSimple System and method for semantic segmentation using hybrid dilated convolution (HDC)
US10067509B1 (en) 2017-03-10 2018-09-04 TuSimple System and method for occluding contour detection
US10185895B1 (en) 2017-03-23 2019-01-22 Gopro, Inc. Systems and methods for classifying activities captured within images
US10083718B1 (en) 2017-03-24 2018-09-25 Gopro, Inc. Systems and methods for editing videos based on motion
US9952594B1 (en) 2017-04-07 2018-04-24 TuSimple System and method for traffic data collection using unmanned aerial vehicles (UAVs)
US10710592B2 (en) 2017-04-07 2020-07-14 Tusimple, Inc. System and method for path planning of autonomous vehicles based on gradient
US10471963B2 (en) 2017-04-07 2019-11-12 TuSimple System and method for transitioning between an autonomous and manual driving mode based on detection of a drivers capacity to control a vehicle
US10187690B1 (en) 2017-04-24 2019-01-22 Gopro, Inc. Systems and methods to detect and correlate user responses to media content
US10552691B2 (en) 2017-04-25 2020-02-04 TuSimple System and method for vehicle position and velocity estimation based on camera and lidar data
CN108882057B (zh) * 2017-05-09 2021-08-17 北京小度互娱科技有限公司 视频摘要生成方法及装置
US10395122B1 (en) 2017-05-12 2019-08-27 Gopro, Inc. Systems and methods for identifying moments in videos
US10558864B2 (en) 2017-05-18 2020-02-11 TuSimple System and method for image localization based on semantic segmentation
US10481044B2 (en) 2017-05-18 2019-11-19 TuSimple Perception simulation for improved autonomous vehicle control
US10474790B2 (en) 2017-06-02 2019-11-12 TuSimple Large scale distributed simulation for realistic multiple-agent interactive environments
US10762635B2 (en) 2017-06-14 2020-09-01 Tusimple, Inc. System and method for actively selecting and labeling images for semantic segmentation
US10303522B2 (en) 2017-07-01 2019-05-28 TuSimple System and method for distributed graphics processing unit (GPU) computation
US10752246B2 (en) 2017-07-01 2020-08-25 Tusimple, Inc. System and method for adaptive cruise control with proximate vehicle detection
US10737695B2 (en) 2017-07-01 2020-08-11 Tusimple, Inc. System and method for adaptive cruise control for low speed following
US10493988B2 (en) 2017-07-01 2019-12-03 TuSimple System and method for adaptive cruise control for defensive driving
US10308242B2 (en) 2017-07-01 2019-06-04 TuSimple System and method for using human driving patterns to detect and correct abnormal driving behaviors of autonomous vehicles
US10614114B1 (en) 2017-07-10 2020-04-07 Gopro, Inc. Systems and methods for creating compilations based on hierarchical clustering
US10402698B1 (en) 2017-07-10 2019-09-03 Gopro, Inc. Systems and methods for identifying interesting moments within videos
US10402656B1 (en) 2017-07-13 2019-09-03 Gopro, Inc. Systems and methods for accelerating video analysis
CN107301245B (zh) * 2017-07-14 2020-03-06 国网山东省电力公司淄博供电公司 一种电力信息视频搜索系统
US10360257B2 (en) 2017-08-08 2019-07-23 TuSimple System and method for image annotation
US11029693B2 (en) 2017-08-08 2021-06-08 Tusimple, Inc. Neural network based vehicle dynamics model
US10816354B2 (en) 2017-08-22 2020-10-27 Tusimple, Inc. Verification module system and method for motion-based lane detection with multiple sensors
US10303956B2 (en) 2017-08-23 2019-05-28 TuSimple System and method for using triplet loss for proposal free instance-wise semantic segmentation for lane detection
US10565457B2 (en) 2017-08-23 2020-02-18 Tusimple, Inc. Feature matching and correspondence refinement and 3D submap position refinement system and method for centimeter precision localization using camera-based submap and LiDAR-based global map
US10762673B2 (en) 2017-08-23 2020-09-01 Tusimple, Inc. 3D submap reconstruction system and method for centimeter precision localization using camera-based submap and LiDAR-based global map
US10678234B2 (en) 2017-08-24 2020-06-09 Tusimple, Inc. System and method for autonomous vehicle control to minimize energy cost
US10783381B2 (en) 2017-08-31 2020-09-22 Tusimple, Inc. System and method for vehicle occlusion detection
US10953881B2 (en) 2017-09-07 2021-03-23 Tusimple, Inc. System and method for automated lane change control for autonomous vehicles
US10953880B2 (en) 2017-09-07 2021-03-23 Tusimple, Inc. System and method for automated lane change control for autonomous vehicles
US10782693B2 (en) 2017-09-07 2020-09-22 Tusimple, Inc. Prediction-based system and method for trajectory planning of autonomous vehicles
US10649458B2 (en) 2017-09-07 2020-05-12 Tusimple, Inc. Data-driven prediction-based system and method for trajectory planning of autonomous vehicles
US10656644B2 (en) 2017-09-07 2020-05-19 Tusimple, Inc. System and method for using human driving patterns to manage speed control for autonomous vehicles
US10782694B2 (en) 2017-09-07 2020-09-22 Tusimple, Inc. Prediction-based system and method for trajectory planning of autonomous vehicles
US10552979B2 (en) 2017-09-13 2020-02-04 TuSimple Output of a neural network method for deep odometry assisted by static scene optical flow
US10671083B2 (en) 2017-09-13 2020-06-02 Tusimple, Inc. Neural network architecture system for deep odometry assisted by static scene optical flow
US10387736B2 (en) 2017-09-20 2019-08-20 TuSimple System and method for detecting taillight signals of a vehicle
US10733465B2 (en) 2017-09-20 2020-08-04 Tusimple, Inc. System and method for vehicle taillight state recognition
US10970564B2 (en) 2017-09-30 2021-04-06 Tusimple, Inc. System and method for instance-level lane detection for autonomous vehicle control
US10962979B2 (en) 2017-09-30 2021-03-30 Tusimple, Inc. System and method for multitask processing for autonomous vehicle computation and control
US10768626B2 (en) 2017-09-30 2020-09-08 Tusimple, Inc. System and method for providing multiple agents for decision making, trajectory planning, and control for autonomous vehicles
US10410055B2 (en) 2017-10-05 2019-09-10 TuSimple System and method for aerial video traffic analysis
US10812589B2 (en) 2017-10-28 2020-10-20 Tusimple, Inc. Storage architecture for heterogeneous multimedia data
US10739775B2 (en) * 2017-10-28 2020-08-11 Tusimple, Inc. System and method for real world autonomous vehicle trajectory simulation
US10666730B2 (en) 2017-10-28 2020-05-26 Tusimple, Inc. Storage architecture for heterogeneous multimedia data
CN107784662B (zh) * 2017-11-14 2021-06-11 郑州布恩科技有限公司 一种图像目标显著性度量方法
CN107777498B (zh) * 2017-11-20 2019-07-19 江苏省特种设备安全监督检验研究院 一种电梯轿厢内暴力行为检测方法
US10528823B2 (en) 2017-11-27 2020-01-07 TuSimple System and method for large-scale lane marking detection using multimodal sensor data
US10657390B2 (en) 2017-11-27 2020-05-19 Tusimple, Inc. System and method for large-scale lane marking detection using multimodal sensor data
US10528851B2 (en) 2017-11-27 2020-01-07 TuSimple System and method for drivable road surface representation generation using multimodal sensor data
US10877476B2 (en) 2017-11-30 2020-12-29 Tusimple, Inc. Autonomous vehicle simulation system for analyzing motion planners
US10860018B2 (en) 2017-11-30 2020-12-08 Tusimple, Inc. System and method for generating simulated vehicles with configured behaviors for analyzing autonomous vehicle motion planners
AU2019206509A1 (en) 2018-01-09 2020-07-23 Tusimple, Inc. Real-time remote control of vehicles with high redundancy
WO2019140277A2 (en) 2018-01-11 2019-07-18 TuSimple Monitoring system for autonomous vehicle operation
US11009365B2 (en) 2018-02-14 2021-05-18 Tusimple, Inc. Lane marking localization
US11009356B2 (en) 2018-02-14 2021-05-18 Tusimple, Inc. Lane marking localization and fusion
US10685244B2 (en) 2018-02-27 2020-06-16 Tusimple, Inc. System and method for online real-time multi-object tracking
US10685239B2 (en) 2018-03-18 2020-06-16 Tusimple, Inc. System and method for lateral vehicle detection
CN110378185A (zh) 2018-04-12 2019-10-25 北京图森未来科技有限公司 一种应用于自动驾驶车辆的图像处理方法、装置
CN108596893B (zh) * 2018-04-24 2022-04-08 东北大学 一种图像处理方法及系统
CN110458854B (zh) 2018-05-02 2022-11-15 北京图森未来科技有限公司 一种道路边缘检测方法和装置
US11104334B2 (en) 2018-05-31 2021-08-31 Tusimple, Inc. System and method for proximate vehicle intention prediction for autonomous vehicles
CN110798752B (zh) * 2018-08-03 2021-10-15 北京京东尚科信息技术有限公司 用于生成视频摘要的方法和系统
CN108966042B (zh) * 2018-09-10 2020-12-18 合肥工业大学 一种基于最短路径的视频摘要生成方法及装置
US10839234B2 (en) 2018-09-12 2020-11-17 Tusimple, Inc. System and method for three-dimensional (3D) object detection
WO2020056203A1 (en) 2018-09-13 2020-03-19 TuSimple Remote safe driving methods and systems
US10936630B2 (en) * 2018-09-13 2021-03-02 Microsoft Technology Licensing, Llc Inferring topics with entity linking and ontological data
CN111078943B (zh) * 2018-10-18 2023-07-04 山西医学期刊社 一种视频文本摘要生成方法及装置
US10796402B2 (en) 2018-10-19 2020-10-06 Tusimple, Inc. System and method for fisheye image processing
US10942271B2 (en) 2018-10-30 2021-03-09 Tusimple, Inc. Determining an angle between a tow vehicle and a trailer
CN111319629B (zh) 2018-12-14 2021-07-16 北京图森智途科技有限公司 一种自动驾驶车队的组队方法、装置及系统
CN109819338B (zh) 2019-02-22 2021-09-14 影石创新科技股份有限公司 一种视频自动剪辑方法、装置及便携式终端
US11003915B2 (en) 2019-03-29 2021-05-11 Wipro Limited Method and system for summarizing multimedia content
US20200366973A1 (en) * 2019-05-14 2020-11-19 Pccw Vuclip (Singapore) Pte. Ltd. Automatic Video Preview Creation System
CN110166829A (zh) * 2019-05-15 2019-08-23 上海商汤智能科技有限公司 视频处理方法及装置、电子设备和存储介质
US11823460B2 (en) 2019-06-14 2023-11-21 Tusimple, Inc. Image fusion for autonomous vehicle operation
CN110347870A (zh) * 2019-06-19 2019-10-18 西安理工大学 基于视觉显著性检测与层次聚类法的视频摘要化生成方法
CN110442747B (zh) * 2019-07-09 2023-10-20 中山大学 一种基于关键词的视频摘要生成方法
CN110798735B (zh) * 2019-08-28 2022-11-18 腾讯科技(深圳)有限公司 视频处理方法、装置及电子设备
CN111062284B (zh) * 2019-12-06 2023-09-29 浙江工业大学 一种交互式视频摘要模型的可视理解与诊断方法
CN111145219B (zh) * 2019-12-31 2022-06-17 神思电子技术股份有限公司 一种基于Codebook原理的高效视频移动目标检测方法
US11263388B2 (en) 2020-02-17 2022-03-01 Wipro Limited Method and system for dynamically generating summarised content for visual and contextual text data
EP3893150A1 (en) 2020-04-09 2021-10-13 Tusimple, Inc. Camera pose estimation techniques
CN111626922B (zh) * 2020-05-11 2023-09-15 北京字节跳动网络技术有限公司 图片生成方法、装置、电子设备及计算机可读存储介质
CN111836072B (zh) * 2020-05-21 2022-09-13 北京嘀嘀无限科技发展有限公司 视频处理方法、装置、设备和存储介质
CN111641868A (zh) * 2020-05-27 2020-09-08 维沃移动通信有限公司 预览视频生成方法、装置及电子设备
AU2021203567A1 (en) 2020-06-18 2022-01-20 Tusimple, Inc. Angle and orientation measurements for vehicles with multiple drivable sections
CN112347303B (zh) * 2020-11-27 2024-06-14 上海科江电子信息技术有限公司 媒体视听信息流监测监管数据样本及其标注方法
CN112579823B (zh) * 2020-12-28 2022-06-24 山东师范大学 基于特征融合和增量滑动窗口的视频摘要生成方法及系统
CN112331337B (zh) * 2021-01-04 2021-04-16 中国科学院自动化研究所 自动抑郁检测方法、装置、设备
CN112468877B (zh) * 2021-02-01 2021-05-04 北京中科大洋科技发展股份有限公司 一种基于ai内容分析和ocr识别的智能新闻编目方法
CN113191263B (zh) * 2021-04-29 2022-05-13 桂林电子科技大学 一种视频描述方法及装置
CN113642422B (zh) * 2021-07-27 2024-05-24 东北电力大学 一种连续中文手语识别方法
CN113709563B (zh) * 2021-10-27 2022-03-08 北京金山云网络技术有限公司 视频封面选取方法、装置、存储介质以及电子设备
US12010405B2 (en) 2021-12-03 2024-06-11 International Business Machines Corporation Generating video summary
CN117119143B (zh) * 2023-06-07 2024-07-02 青岛尘元科技信息有限公司 基于全息视频的视频侦查系统和方法、设备及存储介质
CN117376502B (zh) * 2023-12-07 2024-02-13 翔飞(天津)智能科技有限公司 一种基于ai技术的视频制作系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101431689A (zh) * 2007-11-05 2009-05-13 华为技术有限公司 生成视频摘要的方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664227A (en) 1994-10-14 1997-09-02 Carnegie Mellon University System and method for skimming digital audio/video data
US6331859B1 (en) 1999-04-06 2001-12-18 Sharp Laboratories Of America, Inc. Video skimming system utilizing the vector rank filter
US6751776B1 (en) * 1999-08-06 2004-06-15 Nec Corporation Method and apparatus for personalized multimedia summarization based upon user specified theme
US6964021B2 (en) 2000-08-19 2005-11-08 Lg Electronics Inc. Method and apparatus for skimming video data
US7263660B2 (en) 2002-03-29 2007-08-28 Microsoft Corporation System and method for producing a video skim
US20040088723A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a video summary
US7375731B2 (en) 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
US7773813B2 (en) * 2005-10-31 2010-08-10 Microsoft Corporation Capture-intention detection for video content analysis
US8363939B1 (en) * 2006-10-06 2013-01-29 Hrl Laboratories, Llc Visual attention and segmentation system
US8000533B2 (en) 2006-11-14 2011-08-16 Microsoft Corporation Space-time video montage
US20090083790A1 (en) 2007-09-26 2009-03-26 Tao Wang Video scene segmentation and categorization
US8184913B2 (en) * 2009-04-01 2012-05-22 Microsoft Corporation Clustering videos by location
US8494259B2 (en) * 2009-12-28 2013-07-23 Teledyne Scientific & Imaging, Llc Biologically-inspired metadata extraction (BIME) of visual data using a multi-level universal scene descriptor (USD)
US9305603B2 (en) * 2010-07-07 2016-04-05 Adobe Systems Incorporated Method and apparatus for indexing a video stream

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101431689A (zh) * 2007-11-05 2009-05-13 华为技术有限公司 生成视频摘要的方法及装置

Also Published As

Publication number Publication date
EP2641401A4 (en) 2014-08-27
US20120123780A1 (en) 2012-05-17
EP2641401A1 (en) 2013-09-25
US9355635B2 (en) 2016-05-31
WO2012068154A1 (en) 2012-05-24
EP2641401B1 (en) 2017-04-05
CN103210651A (zh) 2013-07-17

Similar Documents

Publication Publication Date Title
CN103210651B (zh) 用于视频概要的方法和系统
US10153001B2 (en) Video skimming methods and systems
Guan et al. A top-down approach for video summarization
Küçüktunç et al. Video copy detection using multiple visual cues and MPEG-7 descriptors
Amiri et al. Hierarchical keyframe-based video summarization using QR-decomposition and modified-means clustering
Wang et al. Affection arousal based highlight extraction for soccer video
Wang et al. A multimodal scheme for program segmentation and representation in broadcast video streams
Li et al. Videography-based unconstrained video analysis
Dale et al. Multi-video browsing and summarization
Jadon et al. Video summarization using keyframe extraction and video skimming
Khan et al. Video summarization: survey on event detection and summarization in soccer videos
Gornale et al. Analysis and detection of content based video retrieval
Jiang et al. Advances in video summarization and skimming
Wang et al. Real-time summarization of user-generated videos based on semantic recognition
Zhang et al. A generic approach for systematic analysis of sports videos
Priya et al. A comprehensive review of significant researches on content based indexing and retrieval of visual information
Chivadshetti et al. Content based video retrieval using integrated feature extraction and personalization of results
Kordopatis-Zilos et al. Finding near-duplicate videos in large-scale collections
Chou et al. Multimodal video-to-near-scene annotation
Muneesawang et al. A new learning algorithm for the fusion of adaptive audio–visual features for the retrieval and classification of movie clips
Jiang et al. Hierarchical video summarization in reference subspace
Ewerth et al. Robust video content analysis via transductive learning
Fan et al. Semantic video classification by integrating flexible mixture model with adaptive EM algorithm
Tapu et al. TV news retrieval based on story segmentation and concept association
Shambharkar et al. Automatic classification of movie trailers using data mining techniques: A review

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant