CN101247470A - 用于检测视频中的场景边界的由计算机实现的方法 - Google Patents

用于检测视频中的场景边界的由计算机实现的方法 Download PDF

Info

Publication number
CN101247470A
CN101247470A CNA2008100013754A CN200810001375A CN101247470A CN 101247470 A CN101247470 A CN 101247470A CN A2008100013754 A CNA2008100013754 A CN A2008100013754A CN 200810001375 A CN200810001375 A CN 200810001375A CN 101247470 A CN101247470 A CN 101247470A
Authority
CN
China
Prior art keywords
video
scene
steps
window
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008100013754A
Other languages
English (en)
Other versions
CN101247470B (zh
Inventor
凯文·W·威尔森
阿贾伊·迪瓦卡兰
钮峰
纳韦恩·戈埃拉
大塚功
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN101247470A publication Critical patent/CN101247470A/zh
Application granted granted Critical
Publication of CN101247470B publication Critical patent/CN101247470B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

一种由计算机实现的方法,其通过首先从不同种类的视频中提取特征向量来检测视频中的场景边界。然后使用支持向量机将特征向量分类为场景边界。所述支持向量机被训练为与所述视频的所述不同种类无关。

Description

用于检测视频中的场景边界的由计算机实现的方法
技术领域
本发明涉及检测视频中的场景边界,并且更具体地涉及使用听觉和视觉特征检测场景边界。
背景技术
在视频(和电影)中,镜头和场景边界提供了对理解、组织和浏览视频有用的结构。
当快门打开时出现镜头边界,并且当快门关闭时出现另一镜头边界。因此,镜头是连续的、不中断的帧序列。通常,用于戏剧、动作片、和情景喜剧的镜头在几秒的级别。
如这里定义的,场景是语义上有意义或内聚的帧序列。场景通常持续若干分钟。例如,普通的场景包括彼此交谈的演员。(多部)摄像机通常将场景呈现为若干特写镜头,其中依次示出在倾听或者在发言的每个演员,并且镜头偶尔将以中距离或远距离在场景中显示所有演员。
检测场景边界有挑战性,这是因为对于不同种类的场景边界,甚至同一种类中的场景边界也不一定具有任何明显的相似之处。
有剧本和无剧本的视频中的场景边界可以通过低层次(low level)视觉特征(如图像差异和运动向量)以及听觉特征(audio feature)的分布上的差异来检测。通常,在特征提取步骤后,需要与设置的阈值进行比较,参见Jiang等人的“Video segmentation with the support of audiosegmentation and classification”,Proc.IEEE ICME,2000;Lu等人的“Videosummarization by video structure analysis and graph optimization”,Proc.IEEE ICME,2004;Sundaram等人的“Video scene segmentation using videoand audio features”,Proc.IEEE ICME,2000;以及Sundaram等人的“Audioscene segmentation using multiple models,features and time scales,”IEEEICASSP,2000。所有上述技术是特定种类的。这意味着检测器是针对特定种类的视频而训练,并且对其他种类将不能起作用。期望提供一种对所有种类的视频有用的场景检测器。
由于以下多个因素而使得检测语义场景边界具有挑战性,这些因素包括:缺乏训练数据;难以针对多个种类定义场景边界;缺少刻画并比较不同特征的性能的系统的方法;以及难以确定手动调谐系统中的阈值。
发明内容
本发明的实施方式提供了一种用于检测种类无关的视频中的场景边界的方法。该方法提取视觉和听觉特征,该视觉和听觉特征可以用于检测与视频内容的种类无关的场景边界。
本发明提供了一种种类无关的支持向量机(SVM),用于检测视频中的场景边界。SVM通过使得能够在不使用显式阈值的情况下自动地组合及比较从音频和视频流中提取的特征集,而作用于来自不同范围种类的内容。事实上,使用来自大量不同视频种类的已标注场景边界来生成用于训练SVM的正样本和负样本。
附图说明
图1是根据本发明一实施方式用于检测视频中的场景边界的方法的流程图;
图2是根据本发明一实施方式提取听觉特征的示意图;以及
图3是根据本发明一实施方式提取视觉特征的示意图。
具体实施方式
检测场景边界
图1示出了根据本发明的实施方式用于检测种类无关的视频中的场景边界的方法。该方法的输入是听觉-视觉流101。听觉-视觉流101包括音频信号(audio signal)102和帧(103)序列形式的视觉信号。从音频信号102中提取听觉特征111(200),并从视频101的帧103中提取视觉特征121(300)。将听觉和视觉特征组合在一起以构造特征向量131(130)。由支持向量机(SVM)140对特征向量进行处理以检测场景边界109。可以由视频分割、索引和浏览应用使用场景边界。受试者工作曲线(ROC)136形式的反馈136可以用于测量性能,并基于可用的特征流设计更好的输入向量。
支持向量机
更具体地说,使用区分性高斯核(Gaussian-kernel)SVM,见Hastie等人的“The Elements of Statistical Learning:Data Mining,Inference,andPrediction”,Springer,2001年8月,通过引用将其合并于此。SVM是用于检测场景边界的二元分类器。SVM使用超平面来使属于两个不同类的数据之间的间隔最大化。
训练
在训练阶段145,利用训练向量135针对场景边界和非场景边界训练分类器140。即标注(label)训练向量。在一个实施方式中,该标注是人工进行的。该训练确定了用于分离组合后的特征向量131的最优并且可能是非线性的决策边界。
一个目标是确定可以在多种视频内容中区分场景边界与非场景边界的特征。换句话说,场景检测器不是种类相关的。另一个目标是特征向量131具有相对低的维数。此外,希望特征易于获得并且在计算上高效。
听觉特征
如图2所示,以44.1KHz对音频信号102进行采样,并从20ms音频帧中提取十二个Mel-频率倒谱系数(MFCC)201(210)。基于MFCC特征201,将音频信号的每一秒分类为四个语义类之一(220):音乐、语音、笑声以及静音。注意,可以使用其他语义类。语音可以进一步分类为男声或女声。为了进行音频分类(220),对高斯混合模型(GMM)进行最大似然(ML)估计,见Divakaran等人于2006年11月7日提交的美国专利申请No.11/593897,“Method and System for VideoSegmentation”,通过引用将其合并于此。根据音频训练数据估计每个语义类的GMM。这些语义类有助于检测例如在一些内容中通常伴随场景边界的小段音乐,或情景喜剧的场景结束时经常出现的笑声。
视觉特征
如图3所示,记录每个帧的帧号301,并且确定哪个帧号对应镜头边界302,见Lienhart的“Comparison of automatic shot boundary detectionalgorithms”,SPIE Vol.3656,pp290-301,1998,通过引用将其合并于此。还可以对视觉特征121在像素级别使用运动向量、图像差异以及颜色直方图。
针对场景(+)和非场景(-)边界将SVM 140的特征向量131定义为
Xi={x1,x2,x3,...,x11,x12},
即,特征有十二维。输入向量Xi描述了与视频内的特定时间点t(以秒为单位)有关的局部信息。注意,在给定帧频时(例如,约每秒30帧),可以根据帧号直接确定时间。为了进行训练(145),针对场景(+)和随机产生的非场景(-)确定人工标注的时间点的向量Xi
向量Xi最先的九个元素是语义标注的直方图。接下来的两个元素表示在特定时间t之前和之后听觉分布的差,并且最后的元素基于视频镜头边界302。各元素定义如下:
前直方图:变量x1,x2,x3
前直方图表示在持续时间[t-WL,t]的时间窗内,类集合{音乐,语音,笑声,静音}中的语义标注数量,其中WL是所选的窗大小。将该直方图归一化为总和为1。我们可以从4D直方图中丢弃一维,因为其可以由其余的三个直方图值完全确定。
中直方图:变量x4,x5,x6
中直方图变量类似于前直方图,并且表示在持续时间
Figure S2008100013754D00041
的窗内的语义标注。
后直方图:变量x7,x8,x9
后直方图表示窗
Figure S2008100013754D00042
内的标注。
巴氏(Bhattacharyya)形状和距离:变量x10,x11
针对窗[t-WL,t]和窗[t,t+WL],确定根据低层次(low level)MFCC估计出的单高斯模型之间的巴氏形状和马氏(Mahalanobis)距离。巴氏形状是
D shape = 1 2 ln | C i + C j 2 | | C i | 1 2 | C j | 1 2 , 并且    (1)
马氏距离是
D mahal = 1 8 ( μ i - μ j ) T ( C i + C j 2 ) - 1 ( μ i - μ j ) , - - - ( 2 )
协方差矩阵Ci和Cj,以及均值μi和μj表示在时间点t之前和之后MFCC向量的对角协方差和均值。巴氏形状和马氏距离对MFCC分布的变化敏感。因此,这些特征提供了与视频变化有关的更低层次的提示。
例如,伴随着从男性说话人到女性说话人的变化的场景变化将产生大的MFCC马氏距离,即使语义直方图显示两个场景都主要包含语音。
平均镜头计数:变量x12
最后的元素是在窗[t-WL,t+WL]内的视频中呈现的镜头边界的平均数的两倍。
因为使用的是具有平滑带宽的基于核的SVM,其中该带宽沿所有维都相等,因此确保了向量Xi131的所有变量具有大致相同的方差。WL=14秒的最优窗长提供了足够的数据来估计巴氏距离和语义直方图。
SVM分类器
SVM是有监督的学习过程,其试图找到使两类数据(场景和非场景)分离的最大间隔超平面。给定数据点{X0,X1,…,XN}和类标注{y0,y1,…,yN},yi∈{-1,1},SVM对推广良好的两个类构造决策边界。为此,SVM通常用作复杂的、噪声应用中的分类器。在本发明的情况下,这两个类是场景(+)和非场景(-)边界。数据点Xi是上述12D向量。用于构造基于SVM的分类模型的方法是公知的。
SVM的一个优点在于输入向量X可以经由核函数而变换到更高维的特征空间。数据可以在该空间中由超平面线性可分,该超平面实际上是原始输入空间中的非线性边界。在本实现中,采用径向基核(radial basiskernel):
K ( X i , X j ) = e - γ D 2 ( X i , X j ) - - - ( 3 )
此处采用特征向量X131之间的欧氏(Euclidean,L2)距离D,尽管也可以采用其他的距离函数。将核带宽的值固定为γ=2.0,但是存在可用的额外训练数据时可以调整该值用于更小的平滑。由于训练样本的数量有限,因此希望具有平滑边界以解决噪声问题。噪声是以诸如不准确的听觉或视觉特征之类的各种方式引入的,例如,错误分类的语义标注、丢失的/错误的镜头边界、流的对准(alignment)、以及不正确的人工标注边界。
由于难以收集大量场景边界,大多数现有技术尚未关注用于场景检测的有监督学习。然而,将场景检测问题作为分类问题而提出的优点在于,由于是通过SVM 140调整决策边界,因此不需要变量的显式阈值。此外,能够基于特征的各种组合相对于训练数据的性能,快速地对特征的各种组合进行比较。SVM提供了用于对分离特征进行联合建模的统一框架。这使得能够根据需要增加特征以适应于多种种类无关的视频内容。
发明效果
本发明的各实施方式提供了基于SVM核的分类器,用于检测广泛的视频类(如情景喜剧、新闻节目、戏剧、指导视频、音乐视频、以及脱口秀)中的场景边界。换句话说,本发明的场景检测是种类无关的。
通过检测场景边界,我们可以改进消费电子设备的视频浏览能力,以使得用户能够更快并且更有效地管理视频内容。因此,用“场景改变”来表示语义上有意义的改变,该改变在视频和/或音频信号中可以有明显的表现也可以没有明显的表现。
此外,定义为每几分钟出现“场景改变”,认为这是对视频内容浏览有用的间隔大小。本发明的工作以人工标注为基础,所以场景改变的操作定义依赖于在训练视频中定位场景改变的人的观点。在情景喜剧和戏剧中,场景改变通常对应于拍摄位置的改变或对应于重要新角色的入场。对于新闻,场景改变对应于新闻情节之间的边界。对于脱口秀,场景改变对应于从一个或一群嘉宾到另一个或另一群嘉宾的改变。对于其他种类的视频有类似的对应。
尽管已经以优选实施方式为例描述了本发明,但是应理解的是,可以在本发明的精神和范围内做出各种其他的改变和修改。因此,附加的权利要求的目的在于涵盖落入本发明的真实精神和范围内的所有这样的变型和修改。

Claims (14)

1.一种用于检测视频中的场景边界的由计算机实现的方法,该方法包括以下步骤:
从不同种类的视频中提取特征向量;以及
使用支持向量机将所述特征向量分类为场景边界,并且其中该支持向量机被训练为与所述视频的所述不同种类无关。
2.如权利要求1所述的方法,所述方法还包括以下步骤:
从所述视频的音频信号中提取听觉特征;
从所述视频的帧中提取视觉特征;以及
将所述听觉特征和所述视觉特征组合为所述特征向量。
3.如权利要求1所述的方法,其中所述视频被压缩。
4.如权利要求1所述的方法,所述方法还包括以下步骤:
反馈所述分类的结果以改进所述特征提取。
5.如权利要求1所述的方法,所述方法还包括以下步骤:
根据所述场景边界分割所述视频。
6.如权利要求1所述的方法,所述方法还包括以下步骤:
在训练视频中标注所述场景边界以训练所述支持向量机。
7.如权利要求2所述的方法,所述方法还包括以下步骤:
从所述音频信号中提取Mel频率倒谱系数(MFCC);以及
将所述音频信号分类为语义类。
8.如权利要求7所述的方法,其中所述语义类包括音乐、语音、笑声和静音。
9.如权利要求8所述的方法,其中所述语音包括男声语音和女声语音。
10.如权利要求2所述的方法,其中所述视觉特征包括镜头边界。
11.如权利要求7所述的方法,其中每个特征向量包括:变量x1,x2,x3,表示在持续时间[t-WL,t]的时间窗内音频类标注的数量,其中WL为大约14秒;变量x4,x5,x6,表示在持续时间的窗内音频类的数目;以及变量x7,x8,x9,表示在窗内的音频类的数目;变量x10,x11,分别是针对窗[t-WL,t]和窗[t,t+WL]的MFCC系数之间的巴氏形状和马氏距离;以及变量x12,是在窗[t-WL,t+WL]中的视频内呈现的镜头边界的平均数的两倍。
12.如权利要求11所述的方法,其中所述巴氏形状为
D shape = 1 2 ln | C i + C j 2 | | C i | 1 2 | C j | 1 2 , 并且
所述马氏距离为
D mahal = 1 8 ( μ i - μ j ) T ( C i + C j 2 ) - 1 ( μ i - μ j ) ,
其中,协方差矩阵Ci和Cj,以及均值μi和μj表示在时间t之前和之后的MFCC向量的对角协方差以及均值。
13.如权利要求1所述的方法,所述方法还包括以下步骤:
使用核函数将所述特征向量变换到更高维的特征空间。
14.如权利要求13所述的方法,其中所述核函数是径向基核。
CN2008100013754A 2007-02-14 2008-01-16 用于检测视频中的场景边界的由计算机实现的方法 Expired - Fee Related CN101247470B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/674,750 US7756338B2 (en) 2007-02-14 2007-02-14 Method for detecting scene boundaries in genre independent videos
US11/674,750 2007-02-14

Publications (2)

Publication Number Publication Date
CN101247470A true CN101247470A (zh) 2008-08-20
CN101247470B CN101247470B (zh) 2011-02-02

Family

ID=39427578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100013754A Expired - Fee Related CN101247470B (zh) 2007-02-14 2008-01-16 用于检测视频中的场景边界的由计算机实现的方法

Country Status (4)

Country Link
US (1) US7756338B2 (zh)
EP (1) EP1959393B1 (zh)
JP (1) JP5174445B2 (zh)
CN (1) CN101247470B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065301A (zh) * 2012-12-25 2013-04-24 浙江大学 一种双向比对视频镜头分割方法
CN103283247A (zh) * 2010-11-11 2013-09-04 谷歌公司 用于编索引、相似度搜索和分类的矢量变换
CN109640100A (zh) * 2018-11-19 2019-04-16 南瑞集团有限公司 一种视频图像再压缩方法

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735253B1 (en) * 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
US7143434B1 (en) 1998-11-06 2006-11-28 Seungyup Paek Video description system and method
WO2003051031A2 (en) 2001-12-06 2003-06-19 The Trustees Of Columbia University In The City Of New York Method and apparatus for planarization of a material by growing and removing a sacrificial film
WO2006096612A2 (en) 2005-03-04 2006-09-14 The Trustees Of Columbia University In The City Of New York System and method for motion estimation and mode decision for low-complexity h.264 decoder
US8059915B2 (en) * 2006-11-20 2011-11-15 Videosurf, Inc. Apparatus for and method of robust motion estimation using line averages
US8488839B2 (en) * 2006-11-20 2013-07-16 Videosurf, Inc. Computer program and apparatus for motion-based object extraction and tracking in video
US8379915B2 (en) * 2006-11-20 2013-02-19 Videosurf, Inc. Method of performing motion-based object extraction and tracking in video
US8073854B2 (en) * 2007-04-10 2011-12-06 The Echo Nest Corporation Determining the similarity of music using cultural and acoustic information
WO2009126785A2 (en) 2008-04-10 2009-10-15 The Trustees Of Columbia University In The City Of New York Systems and methods for image archaeology
WO2009155281A1 (en) 2008-06-17 2009-12-23 The Trustees Of Columbia University In The City Of New York System and method for dynamically and interactively searching media data
US8364660B2 (en) * 2008-07-11 2013-01-29 Videosurf, Inc. Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
US8364698B2 (en) * 2008-07-11 2013-01-29 Videosurf, Inc. Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
WO2010089488A1 (fr) * 2009-02-06 2010-08-12 France Telecom Procède de fusion de segments de programmes audiovisuels, dispositif, et produit programme d'ordinateur correspondant
US8135221B2 (en) * 2009-10-07 2012-03-13 Eastman Kodak Company Video concept classification using audio-visual atoms
US9508011B2 (en) 2010-05-10 2016-11-29 Videosurf, Inc. Video visual and audio query
US8923607B1 (en) * 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
CN102799633B (zh) * 2012-06-26 2015-07-15 天脉聚源(北京)传媒科技有限公司 一种广告视频检测方法
CN104505090B (zh) * 2014-12-15 2017-11-14 北京国双科技有限公司 敏感词的语音识别方法和装置
WO2016164874A1 (en) * 2015-04-10 2016-10-13 Videopura, Llc System and method for determinig and utilizing priority maps in video
US20170154269A1 (en) * 2015-11-30 2017-06-01 Seematics Systems Ltd System and method for generating and using inference models
US11228817B2 (en) 2016-03-01 2022-01-18 Comcast Cable Communications, Llc Crowd-sourced program boundaries
US9934785B1 (en) 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
CN116128043B (zh) * 2023-04-17 2023-07-18 中国科学技术大学 视频场景边界检测模型的训练方法和场景边界检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
JP3784289B2 (ja) * 2000-09-12 2006-06-07 松下電器産業株式会社 メディア編集方法及びその装置
EP1523717A1 (en) * 2002-07-19 2005-04-20 BRITISH TELECOMMUNICATIONS public limited company Method and system for classification of semantic content of audio/video data
US7382933B2 (en) * 2005-08-24 2008-06-03 International Business Machines Corporation System and method for semantic video segmentation based on joint audiovisual and text analysis
US7773813B2 (en) * 2005-10-31 2010-08-10 Microsoft Corporation Capture-intention detection for video content analysis

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103283247A (zh) * 2010-11-11 2013-09-04 谷歌公司 用于编索引、相似度搜索和分类的矢量变换
CN103065301A (zh) * 2012-12-25 2013-04-24 浙江大学 一种双向比对视频镜头分割方法
CN103065301B (zh) * 2012-12-25 2015-07-22 浙江大学 一种双向比对视频镜头分割方法
CN109640100A (zh) * 2018-11-19 2019-04-16 南瑞集团有限公司 一种视频图像再压缩方法
CN109640100B (zh) * 2018-11-19 2021-04-06 南瑞集团有限公司 一种视频图像再压缩方法

Also Published As

Publication number Publication date
US7756338B2 (en) 2010-07-13
JP2008199583A (ja) 2008-08-28
EP1959393B1 (en) 2011-09-21
EP1959393A2 (en) 2008-08-20
CN101247470B (zh) 2011-02-02
EP1959393A3 (en) 2010-09-08
JP5174445B2 (ja) 2013-04-03
US20080193017A1 (en) 2008-08-14

Similar Documents

Publication Publication Date Title
CN101247470B (zh) 用于检测视频中的场景边界的由计算机实现的方法
US8867891B2 (en) Video concept classification using audio-visual grouplets
US8699852B2 (en) Video concept classification using video similarity scores
US20130251340A1 (en) Video concept classification using temporally-correlated grouplets
CN102414680B (zh) 利用跨域知识的语义事件检测
US10134440B2 (en) Video summarization using audio and visual cues
Hua et al. Robust learning-based TV commercial detection
CN101599179B (zh) 场地运动精彩镜头集锦自动生成方法
CN101894125B (zh) 一种基于内容的视频分类方法
Mironică et al. A modified vector of locally aggregated descriptors approach for fast video classification
CN111754302A (zh) 一种基于大数据的视频直播界面商品展示智能管理系统
CN107247919A (zh) 一种视频情感内容的获取方法及系统
KR100792016B1 (ko) 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오요약 장치 및 그 방법
CN103064985A (zh) 基于先验知识的图像检索方法
Mühling et al. Multimodal video concept detection via bag of auditory words and multiple kernel learning
CN110378190B (zh) 基于主题识别的视频内容检测系统及检测方法
Rouvier et al. Audio-based video genre identification
Guo et al. Short user-generated videos classification using accompanied audio categories
Mironică et al. An in-depth evaluation of multimodal video genre categorization
Dange et al. Automatic video summarization for cricket match highlights using convolutional neural network
Mironică et al. Beyond bag-of-words: Fast video classification with fisher kernel vector of locally aggregated descriptors
Darji et al. A review of video classification techniques
Sargin et al. Boosting video classification using cross-video signals
Subashini et al. Audio-video based segmentation and classification using SVM
Zumer et al. Color-independent classification of animation video

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110202

Termination date: 20150116

EXPY Termination of patent right or utility model