CN101339660A - 一种体育视频内容分析方法及装置 - Google Patents
一种体育视频内容分析方法及装置 Download PDFInfo
- Publication number
- CN101339660A CN101339660A CNA2007101184197A CN200710118419A CN101339660A CN 101339660 A CN101339660 A CN 101339660A CN A2007101184197 A CNA2007101184197 A CN A2007101184197A CN 200710118419 A CN200710118419 A CN 200710118419A CN 101339660 A CN101339660 A CN 101339660A
- Authority
- CN
- China
- Prior art keywords
- sports video
- frequency content
- video frequency
- content analysis
- analysis method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种体育视频内容分析方法及装置。所述方法包括步骤:A.建立包括事件层、基元层和特征层的体育视频的多层动态贝叶斯网模型;B.通过对训练数据的学习,获取所述模型中的参数;C.根据所述模型,对体育视频中的特征序列应用贝叶斯推理确定最大概率条件下的各个事件节点的值,从而检测出体育视频中的事件及其之间关系。本发明的体育视频内容分析方法及装置,能够提高体育视频内容分析的效率。
Description
【技术领域】
本发明涉及视频检索技术领域,特别是涉及一种体育视频内容分析方法及装置。
【背景技术】
体育视频,是指体育比赛的电视转播节目。随着人们对体育比赛的喜爱程度不断提高,体育比赛节目越来越多,体育视频已成为十分重要的一类视频信息源。面对海量的体育视频数据,人们真正关心并有可能反复观看的却只是其中的一小部分。例如一场跳水比赛常常需要持续几个小时,而其中的精彩部分,运动员从起跳到入水的过程却只有短短十几秒,如何方便快捷地查询所需体育视频内容成为迫切需要解决的问题。
上世纪九十年代以来,出现了基于内容的视频分析和检索。其核心是通过对视频内容进行计算机处理、分析和理解,建立其结构和语义索引,以方便用户检索。而体育视频的内容分析主要是通过对体育视频中各种特征的提取和处理来分析语义信息。常用的特征包括视觉的、听觉的、以及文本的。视觉特征主要有颜色、形状、纹理和运动等。听觉的特征主要是对比赛相关声音(如击球声)、观众的欢呼、以及解说员的语音进行处理。文本的特征则来自于两个方面,一个是视频画面上出现的文字,另一个是电视信号中的隐藏字幕(Closed Caption)。根据所分析语义的层次,体育视频内容分析从初级到高级分为三类,即场景分类、精彩提取以及事件检测。
场景分类是对体育视频中内容的一个初步划分,例如将视频分为比赛进行和暂停两类场景,这样用户在观看视频时可以跳过一些比赛暂停的时间。精彩提取是指识别出体育比赛中的较为重要或人们感兴趣的片断,以构成精彩集锦。事件检测从狭义上讲,是指检测体育视频中一些领域相关并反复出现的语义事件,例如跳水比赛中运动员的跳水,足球比赛中的射门等,通过对这些事件的标注和组织,就可以最终满足大多数用户的查询需求。从广义上讲,事件的本质就是一段具有一定语义的视频片断,这样,场景和精彩片段也可以认为是某种事件。所以体育视频基本上就是事件的视频,体育视频内容分析的核心技术实际上也就是对事件及其之间关系的分析。
因而,如何提供一种高效的体育视频内容分析方法及装置,即如何有效地检测出体育视频中的事件及其之间关系,就成为亟待解决的技术问题。
【发明内容】
本发明所要解决的技术问题是提供一种体育视频内容分析方法及装置,以提高体育视频内容分析的效率。
为解决上述问题,本发明提供方案如下:
一种体育视频内容分析方法,包括步骤:
A、建立包括事件层、基元层和特征层的体育视频的多层动态贝叶斯网模型;
B、通过对训练数据的学习,获取所述模型中的参数;
C、根据所述模型,对体育视频中的特征序列应用贝叶斯推理确定最大概率条件下的各个事件节点的值,从而检测出体育视频中的事件及其之间关系。
较佳地,所述模型为多层多模式的动态贝叶斯网模型。
所述多层多模式的动态贝叶斯网模型采用基于基元融合的多模式融合。
较佳地,步骤B中,在训练数据的基元已知时,所述参数直接从训练数据中统计出来。
较佳地,步骤B中,在训练数据的基元数目已知,且其他参数未知时,采用EM算法进行学习。
较佳地,步骤B中,在训练数据的基元未知时,采用随机搜索策略进行学习。
所述随机搜索策略采用MCMC算法实现。
较佳地,步骤B中,采用Boosting方法进行学习。
所述采用boosting方法进行学习具体包括:
初始化训练数据的权重;根据权重训练一个动态贝叶斯网;对训练数据进行分类;修改权重,根据修改后的权重训练一个动态贝叶斯网,并重复本步骤多次;将所有动态贝叶斯网的学习结果加权平均。
较佳地,在所述方法中,基于决策树进行特征选择。
所述基于决策树进行特征选择具体包括:
建立包含所有可能的特征的特征池;
根据训练数据,自动建立基元识别的决策树分类器;
根据所建立的决策树分类器进行特征选择。
一种体育视频内容分析装置,包括:
模型建立模块,用于建立包括事件层、基元层和特征层的体育视频的多层动态贝叶斯网模型;
训练模块,用于通过对训练数据的学习,获取所述模型中的参数;
事件检测模块,用于根据所述模型,对体育视频中的特征序列应用贝叶斯推理确定最大概率条件下的各个事件节点的值,从而检测出体育视频中的事件及其之间关系。
较佳地,所述模型为多层多模式的动态贝叶斯网模型。
所述多层多模式的动态贝叶斯网模型采用基于基元融合的多模式融合。
本发明的体育视频内容分析方法及装置,通过建立动态贝叶斯网模型,有效的分析事件及其之间的关系和结构,并有效的融合了多模式特征分析,从而提高了体育视频内容分析的效率。本发明的体育视频内容分析方法及装置,可以直接运用到数字电视、视频点播、视频资料库等实际应用中,不仅能为普通观众欣赏体育比赛节目带来方便,也为教练、运动员等体育专业人士进行资料查询和辅助教学提供了有效的工具。
【附图说明】
图1为本发明较佳实施例的体育视频内容分析方法的示意图;
图2为本发明较佳实施例的体育视频内容分析方法中所建立的多层动态贝叶斯网模型示意图;
图3为本发明另一较佳实施例的体育视频内容分析方法中所建立的多层多模式的动态贝叶斯网模型示意图;
图4为本发明较佳实施例中采用Boosting方法训练多个动态贝叶斯网模型的示意图;
图5为本发明较佳实施例的体育视频分析装置的结构示意图。
【具体实施方式】
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
请参照图1,本发明较佳实施例的体育视频内容分析方法包括:
步骤101、建立包括事件层、基元层和特征层的体育视频的多层动态贝叶斯网模型;
步骤102、通过对训练数据的学习,获取所述模型中的参数;
步骤103、根据所述模型,对体育视频中的特征序列应用贝叶斯推理确定最大概率条件下的各个事件节点的值,从而检测出体育视频中的事件及其之间关系。
动态贝叶斯网是一类概率图模型(Probabilistic Graph Model),表示为随时间增长的有向无环图,它是在贝叶斯网(Bayesian Network)和隐马尔科夫模型(Hidden Markov Model)的基础上发展起来的。作为一种处理时序信号的统计工具,动态贝叶斯网提供了一个将已有的先验知识与训练数据集的潜在知识相结合进行事件检测的有效方法。与常用的贝叶斯网、隐马尔科夫模型相比,动态贝叶斯网具有更强大的表达能力。和贝叶斯网相比,它通过考虑各个时刻间的转移概率能够更好的处理时间序列信号;和隐马尔科夫模型相比,它在每个时刻上允许有多个随机变量而不仅仅是一个隐藏状态变量。
在体育视频中检测事件之所以十分困难,其原因在于事件具有比较高层的语义,例如足球比赛中的射门、角球、任意球等。直接从底层特征来得到事件的高层语义无疑是低效和困难的。在本发明的较佳实施例中,把事件看成是由一些基元组成的过程,这些基元再由底层特征来区分就比较有效了。以足球比赛为例,可以定义五种场景作为足球视频中事件的基元,这五种场景分别为特写、中景、中场、前场和禁区。事件的发生可以归结为一定场景之间的变化,如一个典型角球事件表现为禁区场景以及之前的一些角球准备阶段中的特写和中景镜头。尽管不同的足球视频有不同的比赛内容,但是为了方便观众对比赛的观赏和理解,上述拍摄模式基本都是一致的。
请参照图2,本发明较佳实施例的体育视频内容分析方法中所建立的多层动态贝叶斯网模型,由上到下分别是事件层、基元层和特征层。图中的节点代表随机变量,连线代表条件概率密度(CPD)。这里只给出了对应两个时刻的模型示意图,实际上该模型可以重复延伸下去来表示任意长度的时间信号。图中阴影所示节点为特征节点,代表时刻t从视频序列中观察到的特征向量。在特征节点的上面是基元节点,建立在基元结点之上则是事件层。事件层本身又可以有多层,以反映事件之间的层次关系。需要注意的是,处于各层之间的节点为标志性节点,它表明低一层事件的转移已结束,需要转入高一层的下一个事件,例如一轮比赛内的各种事件结束,需要转入下一轮比赛。
一旦模型中的参数经过对训练数据的学习获得,就可以对观测到的特征序列,应用贝叶斯推理确定最大概率条件下的各个事件节点的值。
以上虽然以足球视频为例进行了说明,但是通过定义相应的事件和场景,该动态贝叶斯网模型也可以应用到其他运动视频的分析中。
在本发明另一较佳实施例中,所建立的模型为多层多模式的动态贝叶斯网模型。多模式融合的方法是近年来一个热点问题,在视频分析、语音识别等领域都受到了重视。常见的方法有:特征融合,即将各个模式提取的特征合并在一起作为一个特征向量进入分析模型;结果融合,即对各个模式分别建立分析模型,然后将它们的分析结果合并。这两种方法都有各自的不足,特征融合的方法忽略了不同模式状态之间的异步性,而结果融合的方法则没有充分利用不同模式状态之间的相互关联。
请参照图3,为本发明另一较佳实施例的方法中所建立的多层多模式的动态贝叶斯网的示意图。该较佳实施例是一种基于基元融合的多模式融合,通过对不同的模式分别生成各自的基元,然后对不同模式的基元进行融合来做为模型中的基元。例如对于视觉信号可以区分出特写、中景、中场、前场、禁区等基元,对于听觉信号也可以类似的区分出相应基元,例如静音、观众欢呼、解说员的激动语音等。不同模式的基元之间有一定的异步性同时又彼此关联,而它们的变化和转移模式则构成了上层事件。这种方法实际上与人对视频的理解是吻合的,人在欣赏视频时,也是综合视觉、听觉还有字幕的相关变化来识别事件。
为了检测事件,需要从训练数据中获取模型的相关参数。动态贝叶斯网的参数有两部分构成,一是它的拓扑结构,二是各个状态变量的概率分布。根据结构是否已知和状态是否可以观察,有不同的学习方法。在上述动态贝叶斯网模型中,结构是确定的,因此只需要进行各个节点概率分布的学习。又可以分为以下三种情况:
第一种情况,基元已知;
训练数据中不仅有事件的标注,而且有基元的标注。这时候,事件和基元上的概率分布可以直接从训练数据中统计出来。这种情况计算简单,缺点是需要在训练集中标注所有的基元,工作量较大。
第二种情况,基元数目已知,但其他参数未知;
与第一种情况相比,此时训练数据中只有事件的标注,没有基元的标注。对于基元来说,这种情况类似于数目已知的非监督聚类。EM(ExpectationMaximization)算法可以较好的处理这种不完整的数据集,因此,在本发明的较佳实施例中,采用EM算法进行学习。
第三种情况:基元未知。
这时候,需要模型能从训练数据中自动估计基元的分类情况。这意味着模型能够完全自动的根据训练数据对事件的基元组成进行学习,因而这种情况的学习最困难也是最有价值。本发明较佳实施例通过引入随机搜索策略可以解决这个问题,例如可以采用MCMC(Markov Chain Monte Carlo)算法来实现随机搜索策略。
动态贝叶斯网是一种生成模型(Generative Model),与区分模型(Discriminative Model),例如支持向量机相比,它的学习能力一般较弱。由于Boosting方法通过联合多个相对较弱的分类器能够获得一个较强的学习能力,因而在本发明另一较佳实施例中,为了增强动态贝叶斯网的学习能力,还采用Boosting方法来训练多个动态贝叶斯网模型,并将它们合并在一起使用。请参照图4,采用boosting方法的学习过程主要包括:
初始化训练数据的权重;根据权重训练一个动态贝叶斯网;对训练数据进行分类;修改权重,根据修改后的权重训练一个动态贝叶斯网,并重复该过程多次;最后,将所有动态贝叶斯网的学习结果加权平均。
在体育视频内容分析中,特征的选择也是至关重要的,以下介绍本发明较佳实施例的体育视频内容分析方法中的特征选择。
体育视频内容分析中的特征包括视觉的、听觉的和文本的。常用的视觉特征包括颜色、纹理、形状和运动。常用的音频特征包括MEL频率倒谱系数(Mel-Frequency Cepstrum Coefficients,MFCC)、过零率(Zero-Crossing Rate,ZCR)、线性预测系数(Liner Predictive Coefficient,LPC)。文本特征主要是对于屏幕上叠加的字幕进行检测、分割和识别。不同的特征有不同的特点,对于视频内容的表达具有不同的层次和角度。有的特征可以适用于大多数体育视频的分析,有的特征只适用于某一类体育视频,例如对于足球场地中线的检测。
在本发明的一较佳实施例中,采用一种基于决策树进行特征选择的方法,该方法能够自动地根据训练数据进行特征选择。决策树能够根据各个特征对于分类的贡献度确定特征的使用次序以及排除贡献度不大的特征。将决策树应用到动态贝叶斯网模型中以进行特征选择的过程主要包括:建立特征池,该特征池包含所有可能的特征;根据训练数据,自动建立基元识别的决策树分类器;根据所建立的决策树分类器进行特征选择。
对应于上述方法的描述,以下介绍本发明较佳实施例的体育视频内容分析装置。
请参照图5,本发明较佳实施例的体育视频分析装置包括模型建立模块10、训练模块20和事件检测模块30。
模型建立模块10建立包括事件层、基元层和特征层的体育视频的多层动态贝叶斯网模型;训练模块20通过对训练数据的学习,获取所述模型中的参数;事件检测模块30根据所述模型,对体育视频中的特征序列应用贝叶斯推理确定最大概率条件下的各个事件节点的值,从而检测出体育视频中的事件及其之间关系。
其中,所述模型为多层多模式的动态贝叶斯网模型,所述多层多模式的动态贝叶斯网模型采用基于基元融合的多模式融合。
本发明的体育视频内容分析方法及装置,可以直接运用到数字电视、视频点播、视频资料库等实际应用中,不仅能为普通观众欣赏体育比赛节目带来方便,也为教练、运动员等体育专业人士进行资料查询和辅助教学提供了有效的工具。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案而非限制,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神范围,其均应涵盖在本发明的权利要求范围当中。
Claims (14)
1.一种体育视频内容分析方法,其特征在于,包括步骤:
A、建立包括事件层、基元层和特征层的体育视频的多层动态贝叶斯网模型;
B、通过对训练数据的学习,获取所述模型中的参数;
C、根据所述模型,对体育视频中的特征序列应用贝叶斯推理确定最大概率条件下的各个事件节点的值,从而检测出体育视频中的事件及其之间关系。
2.如权利要求1所述的体育视频内容分析方法,其特征在于:所述模型为多层多模式的动态贝叶斯网模型。
3.如权利要求2所述的体育视频内容分析方法,其特征在于:所述多层多模式的动态贝叶斯网模型采用基于基元融合的多模式融合。
4.如权利要求1所述的体育视频内容分析方法,其特征在于:步骤B中,在训练数据的基元已知时,所述参数直接从训练数据中统计出来。
5.如权利要求1所述的体育视频内容分析方法,其特征在于:步骤B中,在训练数据的基元数目已知,且其他参数未知时,采用EM算法进行学习。
6.如权利要求1所述的体育视频内容分析方法,其特征在于:步骤B中,在训练数据的基元未知时,采用随机搜索策略进行学习。
7.如权利要求6所述的体育视频内容分析方法,其特征在于:所述随机搜索策略采用MCMC算法实现。
8.如权利要求1所述的体育视频内容分析方法,其特征在于:步骤B中,采用Boosting方法进行学习。
9.如权利要求8所述的体育视频内容分析方法,其特征在于:所述采用boosting方法进行学习具体包括:
初始化训练数据的权重;根据权重训练一个动态贝叶斯网;对训练数据进行分类;修改权重,根据修改后的权重训练一个动态贝叶斯网,并重复本步骤多次;将所有动态贝叶斯网的学习结果加权平均。
10.如权利要求1所述的体育视频内容分析方法,其特征在于:在所述方法中,基于决策树进行特征选择。
11.如权利要求10所述的体育视频内容分析方法,其特征在于:所述基于决策树进行特征选择具体包括:
建立包含所有可能的特征的特征池;
根据训练数据,自动建立基元识别的决策树分类器;
根据所建立的决策树分类器进行特征选择。
12.一种体育视频内容分析装置,其特征在于,包括:
模型建立模块,用于建立包括事件层、基元层和特征层的体育视频的多层动态贝叶斯网模型;
训练模块,用于通过对训练数据的学习,获取所述模型中的参数;
事件检测模块,用于根据所述模型,对体育视频中的特征序列应用贝叶斯推理确定最大概率条件下的各个事件节点的值,从而检测出体育视频中的事件及其之间关系。
13.如权利要求12所述的体育视频内容分析装置,其特征在于:所述模型为多层多模式的动态贝叶斯网模型。
14.如权利要求13所述的体育视频内容分析装置,其特征在于:所述多层多模式的动态贝叶斯网模型采用基于基元融合的多模式融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101184197A CN101339660A (zh) | 2007-07-05 | 2007-07-05 | 一种体育视频内容分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101184197A CN101339660A (zh) | 2007-07-05 | 2007-07-05 | 一种体育视频内容分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101339660A true CN101339660A (zh) | 2009-01-07 |
Family
ID=40213720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007101184197A Pending CN101339660A (zh) | 2007-07-05 | 2007-07-05 | 一种体育视频内容分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101339660A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298604A (zh) * | 2011-05-27 | 2011-12-28 | 中国科学院自动化研究所 | 基于多媒体分析的视频事件检测方法 |
CN105554591A (zh) * | 2015-12-02 | 2016-05-04 | 蓝海大数据科技有限公司 | 视频分析方法和设备 |
CN107707931A (zh) * | 2016-08-08 | 2018-02-16 | 阿里巴巴集团控股有限公司 | 根据视频数据生成解释数据、数据合成方法及装置、电子设备 |
CN107909038A (zh) * | 2017-11-16 | 2018-04-13 | 北京邮电大学 | 一种社交关系分类模型训练方法、装置、电子设备及介质 |
CN108154137A (zh) * | 2018-01-18 | 2018-06-12 | 厦门美图之家科技有限公司 | 视频特征学习方法、装置、电子设备及可读存储介质 |
CN109544862A (zh) * | 2018-12-21 | 2019-03-29 | 珠海格力电器股份有限公司 | 基于智能家居的行为识别方法、装置、存储介质及设备 |
-
2007
- 2007-07-05 CN CNA2007101184197A patent/CN101339660A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298604A (zh) * | 2011-05-27 | 2011-12-28 | 中国科学院自动化研究所 | 基于多媒体分析的视频事件检测方法 |
CN105554591A (zh) * | 2015-12-02 | 2016-05-04 | 蓝海大数据科技有限公司 | 视频分析方法和设备 |
CN107707931A (zh) * | 2016-08-08 | 2018-02-16 | 阿里巴巴集团控股有限公司 | 根据视频数据生成解释数据、数据合成方法及装置、电子设备 |
CN107909038A (zh) * | 2017-11-16 | 2018-04-13 | 北京邮电大学 | 一种社交关系分类模型训练方法、装置、电子设备及介质 |
CN108154137A (zh) * | 2018-01-18 | 2018-06-12 | 厦门美图之家科技有限公司 | 视频特征学习方法、装置、电子设备及可读存储介质 |
CN109544862A (zh) * | 2018-12-21 | 2019-03-29 | 珠海格力电器股份有限公司 | 基于智能家居的行为识别方法、装置、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | Syntax-aware action targeting for video captioning | |
Peng et al. | Two-stream collaborative learning with spatial-temporal attention for video classification | |
US10623829B2 (en) | Systems and methods for multimodal multilabel tagging of video | |
US9009054B2 (en) | Program endpoint time detection apparatus and method, and program information retrieval system | |
Habibian et al. | Recommendations for video event recognition using concept vocabularies | |
Xu et al. | HMM-based audio keyword generation | |
CN104199933B (zh) | 一种多模态信息融合的足球视频事件检测与语义标注方法 | |
TWI412939B (zh) | 分類運動視訊之系統、方法及具有程式之電腦可讀取記錄媒體 | |
Xie et al. | Event mining in multimedia streams | |
WO2012020667A1 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
WO2012020668A1 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
US20080193016A1 (en) | Automatic Video Event Detection and Indexing | |
WO2010125962A1 (ja) | 表示制御装置、表示制御方法、及び、プログラム | |
JP2011223287A (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
CN111757170B (zh) | 一种视频分段和标记的方法及装置 | |
CN101339660A (zh) | 一种体育视频内容分析方法及装置 | |
Ionescu et al. | A naive mid-level concept-based fusion approach to violence detection in hollywood movies | |
CN102110399A (zh) | 一种辅助解说的方法、装置及其系统 | |
CN111711771B (zh) | 一种图像选取方法、装置、电子设备及存储介质 | |
CN112597966B (zh) | 一种基于比赛视频的动作自动识别方法 | |
Sanabria et al. | Hierarchical multimodal attention for deep video summarization | |
CN113642536B (zh) | 数据处理方法、计算机设备以及可读存储介质 | |
Goyal et al. | Cross-modal learning for multi-modal video categorization | |
CN111523430B (zh) | 基于ucl的可定制交互式视频制作方法与装置 | |
Chen | Semantic Analysis of Multimodal Sports Video Based on the Support Vector Machine and Mobile Edge Computing. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20090107 |