CN101650722A - 基于音视频融合的足球视频精彩事件检测方法 - Google Patents

基于音视频融合的足球视频精彩事件检测方法 Download PDF

Info

Publication number
CN101650722A
CN101650722A CN200910027398A CN200910027398A CN101650722A CN 101650722 A CN101650722 A CN 101650722A CN 200910027398 A CN200910027398 A CN 200910027398A CN 200910027398 A CN200910027398 A CN 200910027398A CN 101650722 A CN101650722 A CN 101650722A
Authority
CN
China
Prior art keywords
camera lens
audio
video
slow motion
logo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910027398A
Other languages
English (en)
Other versions
CN101650722B (zh
Inventor
王建宇
张玉珍
魏带娣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN2009100273987A priority Critical patent/CN101650722B/zh
Publication of CN101650722A publication Critical patent/CN101650722A/zh
Application granted granted Critical
Publication of CN101650722B publication Critical patent/CN101650722B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于音视频融合的足球视频中精彩事件的检测方法,检测方法的步骤为:(1)对足球比赛压缩视频解码,得到视频流;(2)对视频流进行镜头分割;(3)根据镜头分割的结果,进行徽标镜头检测,并基于徽标检测慢镜头;(4)对视频流进行音频提取,得到音频流,并将音频流切割成音频片段,然后根据从每个音频片段提取的观察矢量将每个音频片段进行分类(5)根据音频片段分类结果以及视频流和音频流的时间对应关系,并结合慢镜头,进行精彩事件检测。本发明有效地融合了音频信息和视觉信息,不仅检测出的精彩事件丰富,而且具有准确、快速、误解率低的优点。

Description

基于音视频融合的足球视频精彩事件检测方法
技术领域
本发明属于体育视频中精彩事件的检测技术,特别是一种基于足球视频中慢镜头检测、对视频中音频信息分类并有效融合音频信息和视觉信息的足球视频精彩事件的检测方法。
背景技术
足球是世界上最广泛的运动之一,深受广大球迷喜爱。通常一场完整的足球比赛要持续两个小时左右,但是其中能够吸引观众的精彩镜头却只占其中的一小部分。因此为足球比赛提供精彩事件的摘要和快速浏览的生成方案,能够节省人们大量宝贵时间。现有的技术中,对精彩事件的检测多是基于视觉信息,例如公开号为CN 1991864A的中国专利公开了一种基于球门的足球视频精彩事件检测方法,在该专利中发明人根据视觉信息检测出球门,然后根据球门和镜头类型检测出发生在球门禁区附近的精彩事件。然而在足球视频中精彩事件并不只是发生在球门禁区附近,例如犯规事件。又如公开号为CN 101127866A的中国专利也是只基于视觉信息进行精彩事件检测。另外文献“刘宇驰等.多模态体育视频语义分析[J].计算机科学,2007,34(1):109-111.”中虽然提出了一种融合音频信息和视觉信息对足球视频进行精彩事件检测的方法,但是因为该文中的音频分类方法的缺陷,只能检测出解说员的兴奋音,因此精彩事件检测中只检测出射门事件,而且对于射门事件中的进球事件并没有做进一步判断。另外,在该文献中对慢镜头检测技术的描述并不清楚。
因为足球视频中不仅有视觉信息,而且还有语义丰富的音频信息,例如解说员的激昂解说音和观众的欢呼声与比赛中射门事件密切相关,裁判的哨声可能就意味着有球员犯规。因此准确地对音频信息进行分类,并有效地融合视觉信息和音频信息能够使人们更加准确快捷地检测出种类较多的精彩事件。
发明内容
本发明的目的在于提供一种有效地融合视频中的音频信息和视觉信息,快速、准确地检测出足球视频中精彩事件的方法。
实现本发明目的的技术解决方案为:一种基于音视频融合的足球视频精彩事件检测方法,步骤如下:
步骤1:将需要检索的足球比赛的压缩视频通过解码器进行解码,得到视频流;
步骤2:对视频流进行镜头分割,镜头分割结果存入数据库;
步骤3:根据镜头分割的结果,进行徽标镜头检测,然后基于徽标镜头进行慢镜头检测,并将慢镜头检测结果存入数据库;
步骤4:从解码后得到的足球视频流中提取音频,得到音频流,并将音频流切割成音频片段;
步骤5:对每个音频片段进行预处理,然后提取音频特征即观察矢量,按照基于隐马尔科夫模型将音频片段分类,将该音频片段划分到以下5类中的一类:解说员的激昂解说音片段、解说员平缓解说音片段、观众的欢呼声片段、哨音片段和背景噪音片段,音频分类结果存入数据库;
步骤6:在有解说员的激昂解说音或观众的欢呼声发生的相邻镜头里结合慢镜头检测射门事件,对检测到的射门事件再根据解说员的激昂解说音和观众的欢呼声持续时间或慢镜头的持续长短检测进球事件。检测结果存入数据库;
步骤7:在有哨音发生的相邻镜头里结合慢镜头检测犯规事件,检测结果存入数据库;
步骤8:根据在步骤6和步骤7中存储在数据库中的精彩事件的信息,生成足球视频中精彩事件的浏览系统。
本发明与现有技术相比,其显著优点:(1)现有的足球视频精彩片段多是根据视觉信息,而视频中还包含了语义丰富的音频信息。本发明中在检测精彩事件时,有效地融合了视频中的音频信息和视觉信息,这样检测结果更加准确,而且检测出的精彩事件的种类比较多,检测出的精彩事件有射门事件、进球事件和犯规事件;(2)本发明中采用隐马尔科夫模型将音频信息分成5类,分类效果很好,查全率和查准率都比较高,为精彩事件的检测提供很好的技术基础。(3)本发明根据音频分类结果和音频流与视频流的时间对应关系,快速定位和缩小精彩事件的检索范围,而不需在整个视频流里检索精彩事件,从而提高检索速度。如在包含解说员的激昂解说音和观众的欢呼声的相邻镜头里结合慢镜头检索射门事件,在包含裁判的哨音的相邻镜头里结合慢镜头检索犯规事件;(4)相对以往的慢镜头检测,本发明中的慢镜头检测不仅准确率高,而且速度非常快。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是本发明中基于音视频融合的足球视频精彩事件检测方法的流程框图。
图2是本发明候选徽标镜头示意图。
图3是本发明各种各样的徽标镜头示意图。
图4是本发明音频段与音频帧的关系示意图。
图5是本发明音频分类中选用的隐马尔科夫模型的拓扑结构图。
具体实施方式
结合图1,本发明中基于音视频融合的足球视频精彩事件检测方法中,首先执行步骤1对需要检索的足球比赛压缩视频通过解码器进行解码,得到视频流;然后执行步骤2对视频进行镜头分割,分割结果存入数据库,存储的信息有镜头号、相应镜头在视频流中的起始帧和终止帧及视频名;接着执行步骤3,在该步骤中根据镜头分割的结果,进行徽标镜头检测,然后基于徽标镜头进行慢镜头检测,并将慢镜头检测结果存入数据库,需保存的信息有慢镜头号和慢镜头在视频流中的起始帧和终止帧;执行步骤4,对在步骤1中解码后得到的视频流进行音频提取,得到音频流,并对音频流进行音频切割得到音频片段;接着执行步骤5对每个音频片段进行预处理,然后提取音频特征即观察矢量,并按照基于隐马尔科夫模型将音频片段分类,将该音频片段划分到以下5类中的一类:解说员的激昂解说音片段,解说员平缓解说音片段,观众的欢呼声片段,哨音片段和背景噪音片段,分类结果存入数据库,保存的信息有音频片段号,该音频片段在视频流中对应的时间、音频片段的种类和视频名;执行步骤6,根据音频流与视频流的时间对应关系,在有解说员的激昂解说音或观众的欢呼声发生的相邻镜头里结合慢镜头检测射门事件,对检测到的射门事件再根据解说员的激昂解说音和观众的欢呼声持续时间的长短或慢镜头的持续时间的长短检测进球事件。检测结果存入数据库,需保存的信息有射门事件号、该事件对应视频流里的起始帧和终止帧、是否为进球事件及视频名;接着执行步骤7,根据音频流与视频流的时间对应关系,在有哨音发生的相邻镜头里结合慢镜头检测犯规事件,检测结果存入数据库,需保存的信息有犯规事件号、该事件对应视频流里的起始帧和终止帧及视频名;执行步骤8,根据在步骤6和步骤7中存储在数据库中的精彩事件的信息,生成足球视频中精彩事件的浏览系统。
在步骤2中,对视频进行镜头分割是采用Wang J.Y和Luo W的“A Self-adaptingDual-threshold Method for Video Shot Transition Detection”.IEEE International Conferenceon Networking,Sensing and Control.2008,4:704-707.中的镜头分割方法。
慢镜头是对比赛中的一次行为事件不同角度的回放,并让观众在视觉上产生慢动作效果。足球比赛中,当出现精彩场面或观众感兴趣的片段之后,通常会出现从多个不同角度对精彩片段进行回放的慢镜头。因为慢镜头出现前后通常存在徽标,因此可以通过徽标检测慢镜头。在步骤3中,根据镜头分割的结果,先进行徽标镜头检测,然后基于徽标镜头进行慢镜头检测。
由于徽标镜头一般持续时间为10-20帧左右,而在这个长度范围内的镜头有两种:徽标镜头和特写镜头,如图2所示,而且徽标镜头占多数。因此可将镜头长度为10-20帧的镜头做为候选徽标镜头,并取镜头的中间帧作为其关键帧。通过对多种徽标镜头(如图3所示)观察,发现它们都有一个共同的特点,就是镜头图像帧的中心位置都会出现徽标图案,而其它的不含徽标的镜头大多都是特写镜头,其中心区域的颜色特征与徽标图案有着很明显的区分。因此,可将候选徽标镜头的关键帧图像按横纵方向1∶2∶1分割为9个窗口,将对应中心区域的中心窗口的图案单独提取出来进行分析处理,以提高计算速度。
徽标镜头检测以及基于徽标镜头进行慢镜头检测的具体操作按如下步骤展开:
(1)在分割后得到的镜头中,提取出所包含帧数在10-20帧之间的镜头作为候选徽标镜头,并取中间帧作为候选徽标镜头的关键帧;例如一个镜头包含的帧数是12帧,则这个镜头就被作为候选徽标镜头,而且其第6帧作为候选徽标镜头的关键帧。又如一个镜头包含的帧数是13帧,则这个镜头也就被作为候选徽标镜头,其第7帧作为候选徽标镜头的关键帧。
(2)将每个关键帧图像按横纵方向1∶2∶1分割,提取出在横纵方向分割比例均为2的区域,称该区域为中心窗口。
(3)将每个镜头关键帧的中心窗口的图像的颜色模型由RGB转换到HSV,并将所得到的H、S、V三个分量的值均量化为M个等份,即量化为M个台阶,在实际操作中,M可取为100。
(4)提取量化后的H、S、V分量的直方图。
(5)对所有的候选镜头的关键帧进行步骤(2)-(4)处理。
(6)根据公式(1)求取所有候选徽标镜头关键帧的H、S、V三个分量中每个分量的每阶直方图的均值。
H mean ( i , j ) = Σ n = 1 L H n ( i , j ) L - - - ( 1 )
公式(1)中L表示所有候选徽标镜头的个数,Hn(i,j)表示第n个候选徽标镜头关键帧在HSV颜色空间第i个颜色分量第j阶的直方图,Hmean(i,j)表示所有候选徽标镜头关键帧在HSV颜色空间第i个颜色分量第j阶的直方图的平均值,其中i=1,2,3,分别表示H、S、V分量,j=0,2,3,4,5,...99,表示量化的台阶数。
(7)根据公式(2)计算每个候选徽标镜头关键帧图像的三个分量的直方图与均值的相似度,然后根据公式(3)将相似度值归一化到0-1之间。
Sim ( n ) = Σ i = 1 3 Σ j = 0 99 min ( H n ( i , j ) , H mean ( i , j ) ) i=1,2,3j=0,1,2,3,...,99 n=1,2,3,...L  (2)
UniSim ( n ) = Sim ( n ) max k = 1,2 , . . . L ( Sim ( k ) ) n=1,2,...L    (3)
(8)提取归一化后相似度值在0.5~1.0范围内的候选徽标镜头,判定这些镜头为徽标镜头,这样就得到一个徽标镜头集合LogoShotSet。
(9)将徽标镜头集合LogoShotSet中所有徽标镜头按前后的顺序进行匹配,求取慢镜头的起始帧和终止帧,即得到慢镜头,并将慢镜头检测结果存入数据库。
上述子步骤(9)中基于徽标镜头进行慢镜头检测的具体操作是按如下步骤得到:设LogoShot为徽标镜头集合LogoShotSet中的任意一个镜头,若LogoShot是奇次出现,则认为是慢镜头中起始镜头之前的徽标镜头,并将该镜头的尾帧的下一帧作为慢镜头的起始帧,若LogoShot是偶次出现,则认为是慢镜头结束后的徽标镜头,并将该镜头的起始帧的前一帧作为慢镜头的结束帧。这样就得到了慢镜头的终止帧。通过这种方式就可以找到所有的慢镜头。
在步骤4中对步骤1中解码后得到的足球视频流进行音频提取,得到音频流。提取音频时的统一采样频率为22050赫兹。然后将音频流切割为时长较短的音频片段,例如切割为时长为1秒的音频片段。
在步骤5中对每个音频片段进行预处理。首先对每个音频片段做预加重处理,以减少尖锐噪声影响,提升高频信号。然后对每个音频片段加长为40毫秒的hamming窗(即海明窗)进行音频分帧(加hamming窗的目的是对数据进行平滑处理,减少预测误差),其中傅里叶变换长度Nfft=1024,相邻帧之间重叠1/2帧,这样每个音频片段就分成了一个包含n个音频帧的帧序列,如图4所示。对于预加重处理以及加hamming窗进行音频分帧的具体计算方法在音频领域内是公知的。
接着从每个音频帧内提取12维的MFCC特征系数以及12维的一阶差分MFCC特征系数、短时过零率、短时平均能量等特征参数。对于这些特征的提取的具体计算方法在音频领域内是公知的。
最后从每个音频帧中提取的音频特征参数为26维的特征矢量O,包括12维的MFCC参数、12维的一阶差分MFCC参数、1维的短时过零率和1维的短时平均能量,这样就从每个音频片段中提取出一个观察矢量序列O=O1O2...On,其中Oi(i=1,2,...n)表示从音频片段中第i个音频帧中提取出的26维特征矢量,n表示一个音频片段经上述的音频分帧后被分为n个音频帧。
对每个观察矢量序列按照基于隐马尔科夫模型将音频片段分类,将该音频片段划分到以下5类中的一类:解说员激昂解说音片段、解说员平缓解说音片段、欢呼声片段、哨音片段和背景噪音片段。
在采用基于隐马尔科夫模型将音频片段分类时,具体的分类方法是根据从每个音频片段中提取的观察矢量序列O=O1O2...On以及相应的解说员激昂解说音、解说员平缓解说音、观众的欢呼声、哨音和背景噪音的隐马尔科夫模型参数λi=(Ai,Bi,πi)(其中i=1、2、3、4、5,分别表示解说员激昂解说音、解说员平缓解说音、观众的欢呼声、哨音和背景噪音片段)将每个音频片段划分到5种类型中的某一种,判断方法是用前向算法计算每个音频片段的观察矢量序列在上述的5个隐马尔科夫模型参数中的概率P(O|λi)(对于隐马尔科夫模型以及基于前向算法计算概率的方法可参见L.R.Rabiner,“ATutorial on Hidden Markov Models and Selected Applications in Speech Recognition”,Proceeding of the IEEE,1989,77(2):257-286或者是庄越挺,潘云鹤,吴飞,“网上多媒体信息分析与检索”,清华大学出版社,2002:159-177),并根据公式(4)判断其中最大值所对应的类别S:
S = arg max i P ( O | λ i ) - - - ( 4 )
然后将该音频片段划分到最大值所对应的那个类型中。例如,从公式(4)中我们计算得出一个音频片段的P(O|λ3)为最大值,也即: arg max i P ( O | λ i ) = 3 , 则我们可以判断这个音频片段对应的音频类型为观众的欢呼声。
其中隐马尔科夫模型的参数在分类前需要通过学习获得(学习方法可参见L.R.Rabiner,“A Tutorial on Hidden Markov Models and Selected Applications in SpeechRecognition”,Proceeding of the IEEE,1989,77(2):257-286或者是庄越挺,潘云鹤,吴飞,“网上多媒体信息分析与检索”,清华大学出版社,2002:159-177)。在隐马尔科夫参数学习中,需要从训练的音频中手动选取用于训练用的解说员激昂解说音片段集合、用于训练用的解说员平缓解说音片段集合、用于训练用的观众欢呼声片段集合、用于训练用的哨音片段集合和用于训练用的背景噪音片段集合。标记这些训练片段所属的类型,并从训练片段中提取观察矢量。在隐马尔科夫参数学习中可以采用如图5所示的从左到右四状态二转移的拓扑结构。
因为足球比赛视频中,每当有精彩的射门事件发生时,一般都有解说员的激昂解说音和观众的欢呼声,并且还会有回放的慢镜头,对于精彩程度高的射门事件如射门进球事件,则解说员的激昂解说音和观众的欢呼声的持续时间会比较长,而且回放的慢镜头也比较长。因此,在步骤6中,根据音频分类结果及音频流和视频流的时间对应关系,在有解说员的激昂解说音或观众的欢呼声的发生的相邻镜头里结合慢镜头检测射门事件,对检测到的射门事件再根据解说员的激昂解说音和观众的欢呼声持续时间的长短或慢镜头的持续时间的长短检测进球事件。具体执行按照如下步骤:
(1)根据时间对应关系将音频流与视频流对应起来,具体操作为:
设视频流的播放速度为FrameRate,镜头的起始帧为StartFrame,对应的音频片段序号为AudioStartID。镜头的终止帧为EndFrame,对应的音频片段序号为AudioEndID。对时长为1秒的音频片段,则有:
AudioStartID = int [ StartFrame FrameRate ] + 1 - - - ( 5 )
AudioEndID = int [ EndFrame FrameRate ] + 1 - - - ( 6 )
其中int表示取整操作。StartFrame和EndFrame都是从整数0开始计数,依次加1。根据上述公式(5)和(6),就可以将音频流与视频流中的镜头对应起来。
(2)提取出解说员的激昂解说音+欢呼声的持续时间大于4秒的镜头。
(3)在满足上述条件的镜头的前面1到2个镜头和后续5到6个镜头中,根据数据库中保存的慢镜头数据进行慢镜头检测,如果检测到慢镜头,则认为这段视频是一个射门事件。
(4)针对射门事件,继续判断慢镜头持续的镜头的个数是否大于3或者解说员的激昂解说音+欢呼声的持续时间是否大于10秒,如果是,则认为这段视频是一次射门进球事件,否则为射门非进球事件。
在足球比赛视频中,在犯规事件发生时,一般裁判会吹哨子,以示有人犯规。然后会跟随一个回放的慢镜头,而这个回放慢镜头持续时间比较短,通常只有几秒而已。因此在步骤7中根据音频流和视频流的时间对应关系,在有哨音发生的相邻镜头里结合慢镜头检测犯规事件,具体操作如下:
(1)根据时间对应关系将音频流与视频流对应起来,具体操作为:
设视频流的播放速度为FrameRate,镜头的起始帧为StartFrame,对应的音频片段序号为AudioStartID。镜头的终止帧为EndFrame,对应的音频片段序号为AudioEndID。对时长为1秒的音频片段,则有:
AudioStartID = int [ StartFrame FrameRate ] + 1 - - - ( 5 )
AudioEndID = int [ EndFrame FrameRate ] + 1 - - - ( 6 )
其中int表示取整操作。StartFrame和EndFrame都是从整数0开始计数,依次加1。根据上述公式(5)和(6),就可以将音频流与视频流中的镜头对应起来。
(2)提取出含哨音的镜头,根据数据库中保存的慢镜头数据检测含哨音镜头的后续5到6个镜头中是否有慢镜头,如果有,则
(3)检测慢镜头持续时间是否小于3个镜头,如果是,则认为这段视频是一个犯规事件。
在步骤8中,根据在步骤6和步骤7中存储在数据库中的精彩事件的信息,生成足球视频中精彩事件的浏览系统。其具体操作为:
(1)根据在步骤6中存储在数据库中的射门事件和进球事件的信息,生成足球视频中射门事件和进球事件的浏览系统。
(2)根据在步骤7中存储在数据库中的犯规事件的信息,生成足球视频中犯规事件的浏览系统。

Claims (6)

1、一种基于音视频融合的足球视频精彩事件检测方法,其特征在于步骤如下:
步骤1:将需要检索的足球比赛的压缩视频通过解码器进行解码,得到视频流;
步骤2:对视频流进行镜头分割,镜头分割结果存入数据库;
步骤3:根据镜头分割的结果,进行徽标镜头检测,然后基于徽标镜头进行慢镜头检测,并将慢镜头检测结果存入数据库;
步骤4:从解码后得到的足球视频流中提取音频,得到音频流,并将音频流切割成音频片段;
步骤5:对每个音频片段进行预处理,然后提取音频特征即观察矢量,按照基于隐马尔科夫模型将音频片段分类,将该音频片段划分到以下5类中的一类:解说员的激昂解说音片段、解说员平缓解说音片段、观众的欢呼声片段、哨音片段和背景噪音片段,音频分类结果存入数据库;
步骤6:在有解说员的激昂解说音或观众的欢呼声发生的相邻镜头里结合慢镜头检测射门事件,对检测到的射门事件再根据解说员的激昂解说音和观众的欢呼声持续时间或慢镜头的持续长短检测进球事件。检测结果存入数据库;
步骤7:在有哨音发生的相邻镜头里结合慢镜头检测犯规事件,检测结果存入数据库;
步骤8:根据在步骤6和步骤7中存储在数据库中的精彩事件的信息,生成足球视频中精彩事件的浏览系统。
2、根据权利要求1所述的基于音视频融合的足球视频精彩事件检测方法,其特征在于步骤3中徽标镜头检测以及基于徽标镜头进行慢镜头检测是指如下步骤:
(1)在经过镜头分割后得到的镜头中,提取出所包含帧数在10-20帧之间的镜头作为候选徽标镜头,并取中间帧作为候选徽标镜头的关键帧;
(2)将每个候选徽标镜头的关键帧图像按横纵方向1∶2∶1分割,提取出在横纵方向分割比例均为2的区域,称该区域为中心窗口;
(3)将每个候选徽标镜头的关键帧的中心窗口的图像的颜色模型由RGB转换到HSV,并将所得到的H、S、V三个分量的值都量化为M个等份,即量化为M阶;
(4)提取量化后的H、S、V分量的直方图;
(5)对所有的候选镜头的关键帧进行步骤(2)-(4)的处理;
(6)根据公式(1)求取所有候选徽标镜头的H、S、V三个分量中每个分量的每阶直方图的均值;
H mean ( i , j ) = Σ n = 1 L H n ( i , j ) L - - - ( 1 )
公式(1)中L表示所有候选徽标镜头的个数,Hn(i,j)表示第n个候选徽标镜头关键帧在HSV颜色空间第i个颜色分量第j阶的直方图,Hmean(i,j)表示所有候选徽标镜头关键帧在HSV颜色空间第i个颜色分量第j阶的直方图的平均值,其中i=1,2,3,分别表示H、S、V分量,j=0,2,3,4,5,...,(M-1),表示量化的台阶数;
(7)根据公式(2)计算每个候选徽标镜头关键帧图像的三个分量的直方图与均值的相似度,然后根据公式(3)将相似度值归一化到0-1之间:
Sim ( n ) = Σ i = 1 3 Σ j = 0 M - 1 min ( H n ( i , j ) , H mean ( i , j ) ) i=1,2,3  j=0,1,2,3,...,(M-1)  n=1,2,...L  (2)
UniSim ( n ) = Sim ( n ) max k = 1,2 . . . L ( Sim ( k ) ) n=1,2,...L             (3)
(8)根据归一化后的相似度值进行徽标镜头选取,这样就得到一个徽标镜头集合LogoShotSet;
(9)将徽标镜头集合LogoShotSet中所有徽标镜头按前后的顺序进行匹配,求取慢镜头的起始帧和终止帧,即得到慢镜头,并将慢镜头检测结果存入数据库。
3、根据权利要求2中所述的基于音视频融合的足球视频精彩事件检测方法,其特征在于步骤(9)是按如下步骤得到:设LogoShot为徽标镜头集合LogoShotSet中的任意一个镜头,若LogoShot是奇次出现,则认为是慢镜头中起始镜头之前的徽标镜头,并将该镜头的尾帧的下一帧作为慢镜头的起始帧,若LogoShot是偶次出现,则认为是慢镜头结束后的徽标镜头,并将该镜头的起始帧的前一帧作为慢镜头的结束帧,这样就得到了慢镜头的终止帧,通过这种方式就可以找到所有的慢镜头。
4、根据权利要求1所述的基于音视频融合的足球视频精彩事件检测方法,其特征在于:步骤5中基于隐马尔科夫模型将音频片段分类,分类方法是将从每个音频片段中提取的音频特征作为观察矢量O=O1O2...O3,然后按照相应的解说员的激昂解说音、解说员平缓解说音、观众的欢呼声、哨音和背景噪音的隐马尔科夫模型参数λi=(Ai,Bi,πi)来判断音频片段属于5种类型中的哪一种,判断方法是计算每个音频片段的观察矢量在上述的5个隐马尔科夫模型参数中的概率P(O|λi),并且根据公式(4)判断其中最大值所对应的类别S:
S = srg max i P ( O | λ i ) - - - ( 4 )
然后将该音频片段划分到最大值所对应的类型中。
5、根据权利要求1所述的基于音视频融合的足球视频精彩事件检测方法,其特征在于步骤6中根据解说员的激昂解说音或观众的欢呼声并结合慢镜头检测射门事件和进球事件的具体步骤如下:
(1)根据时间对应关系将音频流与视频流对应起来;
(2)提取出解说员的激昂解说音+观众的欢呼声的持续时间超过阈值K的镜头;
(3)在满足上述条件的镜头的相邻镜头中,根据数据库中保存的慢镜头数据进行慢镜头检测,如果检测到慢镜头,则认为这段视频是一个射门事件;
(4)针对射门事件,继续判断慢镜头持续的镜头的个数是否大于阈值L1或者解说员的激昂解说音+观众的欢呼声的持续时间是否大于L2秒,如果是,则认为这段视频是一次射门进球事件,否则为射门非进球事件。
6、根据权利要求1所述的基于音视频融合的足球视频精彩事件检测方法,其特征在于步骤7中根据裁判的哨音并结合慢镜头检测犯规事件的具体步骤如下:
(1)根据时间对应关系将音频流与视频流对应起来;
(2)提取出含哨音的镜头,根据数据库中保存的慢镜头数据检测含哨音镜头的后续邻近镜头中是否有慢镜头,如果有,则
(3)检测慢镜头持续时间是否小于L3个镜头,如果是,则认为这段视频是一个犯规事件。
CN2009100273987A 2009-06-01 2009-06-01 基于音视频融合的足球视频精彩事件检测方法 Expired - Fee Related CN101650722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100273987A CN101650722B (zh) 2009-06-01 2009-06-01 基于音视频融合的足球视频精彩事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100273987A CN101650722B (zh) 2009-06-01 2009-06-01 基于音视频融合的足球视频精彩事件检测方法

Publications (2)

Publication Number Publication Date
CN101650722A true CN101650722A (zh) 2010-02-17
CN101650722B CN101650722B (zh) 2011-10-26

Family

ID=41672961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100273987A Expired - Fee Related CN101650722B (zh) 2009-06-01 2009-06-01 基于音视频融合的足球视频精彩事件检测方法

Country Status (1)

Country Link
CN (1) CN101650722B (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901251A (zh) * 2010-06-28 2010-12-01 吉林大学 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法
CN102348049A (zh) * 2011-09-16 2012-02-08 央视国际网络有限公司 检测视频片断切点位置的方法及装置
CN102752479A (zh) * 2012-05-30 2012-10-24 中国农业大学 蔬菜病害场景检测方法
CN103137137A (zh) * 2013-02-27 2013-06-05 华南理工大学 一种会议音频中的精彩说话人发现方法
CN104199933A (zh) * 2014-09-04 2014-12-10 华中科技大学 一种多模态信息融合的足球视频事件检测与语义标注方法
CN104469545A (zh) * 2014-12-22 2015-03-25 无锡天脉聚源传媒科技有限公司 一种检验视频片段切分效果的方法和装置
CN105678732A (zh) * 2014-11-18 2016-06-15 北京数码视讯科技股份有限公司 一种点球、角球和任意球关键帧的检测方法和装置
CN107247942A (zh) * 2017-06-23 2017-10-13 华中科技大学 一种融合多模态特征的网球视频事件检测方法
CN108307250A (zh) * 2018-01-23 2018-07-20 浙江大华技术股份有限公司 一种生成视频摘要的方法及装置
CN108769769A (zh) * 2018-05-30 2018-11-06 北京小米移动软件有限公司 视频的播放方法、装置及计算机可读存储介质
CN110040595A (zh) * 2019-01-08 2019-07-23 浙江新再灵科技股份有限公司 一种基于图像直方图的电梯门状态检测方法及系统
CN110119652A (zh) * 2018-02-06 2019-08-13 上海全土豆文化传播有限公司 视频的镜头分割方法及装置
US10419830B2 (en) 2014-10-09 2019-09-17 Thuuz, Inc. Generating a customized highlight sequence depicting an event
CN110267119A (zh) * 2019-06-28 2019-09-20 北京奇艺世纪科技有限公司 视频精彩度的评价方法及相关设备
US10433030B2 (en) 2014-10-09 2019-10-01 Thuuz, Inc. Generating a customized highlight sequence depicting multiple events
CN110650374A (zh) * 2019-08-16 2020-01-03 咪咕文化科技有限公司 剪辑方法、电子设备和计算机可读存储介质
US10536758B2 (en) 2014-10-09 2020-01-14 Thuuz, Inc. Customized generation of highlight show with narrative component
CN110990550A (zh) * 2019-11-29 2020-04-10 腾讯科技(深圳)有限公司 一种话术生成的方法、基于人工智能的解说方法及装置
CN111400511A (zh) * 2020-03-12 2020-07-10 北京奇艺世纪科技有限公司 一种多媒体资源的截取方法和装置
CN111787243A (zh) * 2019-07-31 2020-10-16 北京沃东天骏信息技术有限公司 导播方法、装置及计算机可读存储介质
CN112182299A (zh) * 2020-09-25 2021-01-05 北京字节跳动网络技术有限公司 一种视频中精彩片段的获取方法、装置、设备和介质
CN112827154A (zh) * 2020-12-31 2021-05-25 重庆工程职业技术学院 一种体育运动智能计分器系统
US11025985B2 (en) 2018-06-05 2021-06-01 Stats Llc Audio processing for detecting occurrences of crowd noise in sporting event television programming
CN113170228A (zh) * 2018-07-30 2021-07-23 斯特兹有限责任公司 用于从视听内容中提取可变长度不相交片段的音频处理
US11138438B2 (en) 2018-05-18 2021-10-05 Stats Llc Video processing for embedded information card localization and content extraction
CN113676762A (zh) * 2021-08-20 2021-11-19 北京房江湖科技有限公司 带看回放方法和装置
CN114095637A (zh) * 2021-11-24 2022-02-25 努比亚技术有限公司 一种音视频分离拍摄方法、设备及计算机可读存储介质
US11264048B1 (en) 2018-06-05 2022-03-01 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
CN115134631A (zh) * 2022-07-25 2022-09-30 北京达佳互联信息技术有限公司 视频处理方法和视频处理装置
CN117037046A (zh) * 2023-10-08 2023-11-10 之江实验室 一种视听事件检测方法、装置、存储介质及电子设备
US11863848B1 (en) 2014-10-09 2024-01-02 Stats Llc User interface for interaction with customized highlight shows
CN117612215A (zh) * 2024-01-23 2024-02-27 南京中孚信息技术有限公司 基于视频检索的身份识别方法、装置、介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201822B (zh) * 2006-12-11 2010-06-23 南京理工大学 基于内容的视频镜头检索方法
CN100531352C (zh) * 2007-08-10 2009-08-19 西安交通大学 一种检测足球比赛视频精彩片段的方法

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901251B (zh) * 2010-06-28 2012-04-11 吉林大学 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法
CN101901251A (zh) * 2010-06-28 2010-12-01 吉林大学 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法
CN102348049A (zh) * 2011-09-16 2012-02-08 央视国际网络有限公司 检测视频片断切点位置的方法及装置
CN102348049B (zh) * 2011-09-16 2013-09-18 央视国际网络有限公司 检测视频片断切点位置的方法及装置
CN102752479A (zh) * 2012-05-30 2012-10-24 中国农业大学 蔬菜病害场景检测方法
CN102752479B (zh) * 2012-05-30 2014-12-03 中国农业大学 蔬菜病害场景检测方法
CN103137137A (zh) * 2013-02-27 2013-06-05 华南理工大学 一种会议音频中的精彩说话人发现方法
CN104199933B (zh) * 2014-09-04 2017-07-07 华中科技大学 一种多模态信息融合的足球视频事件检测与语义标注方法
CN104199933A (zh) * 2014-09-04 2014-12-10 华中科技大学 一种多模态信息融合的足球视频事件检测与语义标注方法
US10419830B2 (en) 2014-10-09 2019-09-17 Thuuz, Inc. Generating a customized highlight sequence depicting an event
US11582536B2 (en) 2014-10-09 2023-02-14 Stats Llc Customized generation of highlight show with narrative component
US11290791B2 (en) 2014-10-09 2022-03-29 Stats Llc Generating a customized highlight sequence depicting multiple events
US10536758B2 (en) 2014-10-09 2020-01-14 Thuuz, Inc. Customized generation of highlight show with narrative component
US10433030B2 (en) 2014-10-09 2019-10-01 Thuuz, Inc. Generating a customized highlight sequence depicting multiple events
US11778287B2 (en) 2014-10-09 2023-10-03 Stats Llc Generating a customized highlight sequence depicting multiple events
US11863848B1 (en) 2014-10-09 2024-01-02 Stats Llc User interface for interaction with customized highlight shows
CN105678732A (zh) * 2014-11-18 2016-06-15 北京数码视讯科技股份有限公司 一种点球、角球和任意球关键帧的检测方法和装置
CN105678732B (zh) * 2014-11-18 2018-07-03 北京数码视讯科技股份有限公司 一种点球、角球和任意球关键帧的检测方法和装置
CN104469545A (zh) * 2014-12-22 2015-03-25 无锡天脉聚源传媒科技有限公司 一种检验视频片段切分效果的方法和装置
CN104469545B (zh) * 2014-12-22 2017-09-15 无锡天脉聚源传媒科技有限公司 一种检验视频片段切分效果的方法和装置
CN107247942B (zh) * 2017-06-23 2019-12-20 华中科技大学 一种融合多模态特征的网球视频事件检测方法
CN107247942A (zh) * 2017-06-23 2017-10-13 华中科技大学 一种融合多模态特征的网球视频事件检测方法
CN108307250A (zh) * 2018-01-23 2018-07-20 浙江大华技术股份有限公司 一种生成视频摘要的方法及装置
US11270737B2 (en) 2018-01-23 2022-03-08 Zhejiang Dahua Technology Co., Ltd. Systems and methods for editing a video
CN110119652A (zh) * 2018-02-06 2019-08-13 上海全土豆文化传播有限公司 视频的镜头分割方法及装置
US11373404B2 (en) 2018-05-18 2022-06-28 Stats Llc Machine learning for recognizing and interpreting embedded information card content
US11594028B2 (en) 2018-05-18 2023-02-28 Stats Llc Video processing for enabling sports highlights generation
US11615621B2 (en) 2018-05-18 2023-03-28 Stats Llc Video processing for embedded information card localization and content extraction
US12046039B2 (en) 2018-05-18 2024-07-23 Stats Llc Video processing for enabling sports highlights generation
US11138438B2 (en) 2018-05-18 2021-10-05 Stats Llc Video processing for embedded information card localization and content extraction
CN108769769A (zh) * 2018-05-30 2018-11-06 北京小米移动软件有限公司 视频的播放方法、装置及计算机可读存储介质
US11025985B2 (en) 2018-06-05 2021-06-01 Stats Llc Audio processing for detecting occurrences of crowd noise in sporting event television programming
US11264048B1 (en) 2018-06-05 2022-03-01 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
US11922968B2 (en) 2018-06-05 2024-03-05 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
CN113170228B (zh) * 2018-07-30 2023-07-14 斯特兹有限责任公司 用于从视听内容中提取可变长度不相交片段的音频处理
CN113170228A (zh) * 2018-07-30 2021-07-23 斯特兹有限责任公司 用于从视听内容中提取可变长度不相交片段的音频处理
CN110040595A (zh) * 2019-01-08 2019-07-23 浙江新再灵科技股份有限公司 一种基于图像直方图的电梯门状态检测方法及系统
CN110267119A (zh) * 2019-06-28 2019-09-20 北京奇艺世纪科技有限公司 视频精彩度的评价方法及相关设备
CN111787243A (zh) * 2019-07-31 2020-10-16 北京沃东天骏信息技术有限公司 导播方法、装置及计算机可读存储介质
CN110650374A (zh) * 2019-08-16 2020-01-03 咪咕文化科技有限公司 剪辑方法、电子设备和计算机可读存储介质
CN110650374B (zh) * 2019-08-16 2022-03-25 咪咕文化科技有限公司 剪辑方法、电子设备和计算机可读存储介质
CN110990550A (zh) * 2019-11-29 2020-04-10 腾讯科技(深圳)有限公司 一种话术生成的方法、基于人工智能的解说方法及装置
CN111400511A (zh) * 2020-03-12 2020-07-10 北京奇艺世纪科技有限公司 一种多媒体资源的截取方法和装置
CN111400511B (zh) * 2020-03-12 2024-06-14 北京奇艺世纪科技有限公司 一种多媒体资源的截取方法和装置
CN112182299A (zh) * 2020-09-25 2021-01-05 北京字节跳动网络技术有限公司 一种视频中精彩片段的获取方法、装置、设备和介质
CN112182299B (zh) * 2020-09-25 2024-06-04 北京字节跳动网络技术有限公司 一种视频中精彩片段的获取方法、装置、设备和介质
CN112827154A (zh) * 2020-12-31 2021-05-25 重庆工程职业技术学院 一种体育运动智能计分器系统
CN113676762A (zh) * 2021-08-20 2021-11-19 北京房江湖科技有限公司 带看回放方法和装置
CN114095637A (zh) * 2021-11-24 2022-02-25 努比亚技术有限公司 一种音视频分离拍摄方法、设备及计算机可读存储介质
CN115134631B (zh) * 2022-07-25 2024-01-30 北京达佳互联信息技术有限公司 视频处理方法和视频处理装置
CN115134631A (zh) * 2022-07-25 2022-09-30 北京达佳互联信息技术有限公司 视频处理方法和视频处理装置
CN117037046B (zh) * 2023-10-08 2024-01-09 之江实验室 一种视听事件检测方法、装置、存储介质及电子设备
CN117037046A (zh) * 2023-10-08 2023-11-10 之江实验室 一种视听事件检测方法、装置、存储介质及电子设备
CN117612215A (zh) * 2024-01-23 2024-02-27 南京中孚信息技术有限公司 基于视频检索的身份识别方法、装置、介质
CN117612215B (zh) * 2024-01-23 2024-04-26 南京中孚信息技术有限公司 基于视频检索的身份识别方法、装置、介质

Also Published As

Publication number Publication date
CN101650722B (zh) 2011-10-26

Similar Documents

Publication Publication Date Title
CN101650722B (zh) 基于音视频融合的足球视频精彩事件检测方法
Liu et al. Classification TV programs based on audio information using hidden Markov model
EP1081960B1 (en) Signal processing method and video/voice processing device
CN103218608A (zh) 一种网络暴力视频的识别方法
US20030133511A1 (en) Summarizing videos using motion activity descriptors correlated with audio features
CN102073636A (zh) 节目高潮检索方法和系统
CN111128128B (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN101539925A (zh) 一种基于关注度分析的音视频文件摘要方法
Jiang et al. Video segmentation with the assistance of audio content analysis
Zhang et al. Detecting sound events in basketball video archive
Chen et al. Scene change detection by audio and video clues
CN113936236A (zh) 一种基于多模态特征的视频实体关系及交互识别方法
Baillie et al. An audio-based sports video segmentation and event detection algorithm
Zuo et al. Recognition of blue movies by fusion of audio and video
Lee et al. Hierarchical model for long-length video summarization with adversarially enhanced audio/visual features
Kim et al. Hybrid speaker-based segmentation system using model-level clustering
Boril et al. Automatic excitement-level detection for sports highlights generation.
De Santo et al. Unsupervised news video segmentation by combined audio-video analysis
Xue et al. Computationally efficient audio segmentation through a multi-stage BIC approach
Wei et al. Semantics-based video indexing using a stochastic modeling approach
Stein et al. Enrichment of news show videos with multimodal semi-automatic analysis
Chaloupka A prototype of audio-visual broadcast transcription system
D’Anna et al. A multi-stage approach for anchor shot detection
Li et al. A rule-based sports video event detection method
Liu et al. Integrating multiple feature fusion for semantic event detection in soccer video

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111026

Termination date: 20150601

EXPY Termination of patent right or utility model