CN102306154B - 基于隐条件随机场的足球视频进球事件检测方法 - Google Patents

基于隐条件随机场的足球视频进球事件检测方法 Download PDF

Info

Publication number
CN102306154B
CN102306154B CN 201110180085 CN201110180085A CN102306154B CN 102306154 B CN102306154 B CN 102306154B CN 201110180085 CN201110180085 CN 201110180085 CN 201110180085 A CN201110180085 A CN 201110180085A CN 102306154 B CN102306154 B CN 102306154B
Authority
CN
China
Prior art keywords
camera lens
field picture
width
cloth
hue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110180085
Other languages
English (en)
Other versions
CN102306154A (zh
Inventor
同鸣
谢文娟
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN 201110180085 priority Critical patent/CN102306154B/zh
Publication of CN102306154A publication Critical patent/CN102306154A/zh
Application granted granted Critical
Publication of CN102306154B publication Critical patent/CN102306154B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于隐条件随机场的足球视频进球事件检测方法,主要解决现有技术不能同时具有隐状态表达能力和表达交叠性特征的问题。其实现步骤是:首先,对训练视频和测试视频进行物理镜头分割和语义镜头标注,判断每个训练视频是否含进球事件,得到类别标签,将训练视频的语义镜头序列和类别标签组成训练数据集,将测试视频的语义镜头序列组成测试数据集;接着,根据训练数据集,调用Matlab工具包HCRF2.0b中trainHCRF函数计算模型参数,建立进球事件的隐条件随机场模型;最后,根据已建立模型,调用testHCRF函数计算测试视频对应不同类别标签的概率,进行进球事件检测。本发明能够准确、全面实现进球事件检测,可用于足球视频精彩事件检测等语义分析领域。

Description

基于隐条件随机场的足球视频进球事件检测方法
技术领域
本发明属于视频信息检索领域,涉及体育视频语义分析,可用于足球视频进球事件检测中,以准确、全面地检测进球事件。
背景技术
体育视频因为拥有庞大的受众群体和巨大的商业价值而备受研究者和社会各界的广泛关注。体育视频的精彩事件自动检测一直是视频语义分析领域研究的热点,其难点在于必须解决低层特征到高层语义之间的语义鸿沟,对此国内外学者进行了广泛的研究,取得了不菲的研究成果。
目前的方法主要有:
(1)Sadlier D A,O′Connor N E.Event detection in field sports video usingaudio-visual features and a support vector machine[J]IEEE Trans.on Circuits andSystems for Video Technology,2005,15(10):1225-1233。该方法通过建立音视频特征检测单元,采用支持向量机对提取特征进行融合,实现了足球、橄榄球等视频中eventful和noneventful事件的检测。该方法由于把语义事件检测问题直接作为特征分类问题解决,而没有充分利用语义信息,其事件检测正确率仅达到74%。
(2)Ding Y,Fan G L.Sports Video Mining via Multichannel SegmentalHidden Markov Models[J]IEEE Trans.on Multimedia,2009,11(7):1301-1309。该方法基于隐马尔科夫建模时序规律的良好性能,构建了多通道部分隐马尔科夫模型,能够同时进行视频结构的分层次、并行分析,较准确地捕获了多个隐马尔科夫链之间的交互规律,语义事件检测正确率达到了87.06%,但模型的构建比较复杂。
(3)Xu C S,Zhang Y F,Zhu G Y,et al.Using webcast text for semantic eventdetection in broadcast sports video[J]IEEE Trans.on Multimedia,2008,10(7):1342-1355。这种方法采用潜在的语义分析方法检测网络文本中的关键事件,将文本检测结果和低层特征作为条件随机场模型的输入,实现足球、篮球体育视频中多种语义事件的检测。但这种方法构建模型的过程比较耗时,未采用隐藏状态变量,不能更有效地挖掘语义事件的潜在规律,限制了检测性能的提高。
发明内容
本发明目的是针对上述已有技术的不足,提出一种基于隐条件随机场的足球视频进球事件检测方法,以简化复杂的模型构建过程,减少建模耗时,提高事件检测正确率。
为实现上述目的,本发明的技术方案包括如下步骤:
(1)定义语义镜头集为ε={s1,s2,s3,s4,s5},其中,s1,s2,s3,s4,s5表示五种语义镜头,即s1为远镜头,s2为中镜头,s3为特写镜头,s4为观众镜头,s5为回放镜头;
(2)定义进球事件的隐条件随机场的类别标签集为α={0,1},其中,0表示进球事件的隐条件随机场模型的输入不包含进球事件,1表示进球事件的隐条件随机场模型的输入包含进球事件;
(3)对N1个训练视频片段和N2个测试视频片段分别进行物理镜头分割,得到第d个训练视频片段的物理镜头序列Pd和第e个测试视频片段的物理镜头序列Qe,其中,d∈{1,2,L,N1},e∈{1,2,L,N2};
(4)对第d个训练视频片段的物理镜头序列Pd中的物理镜头和第e个测试视频片段的物理镜头序列Qe中的物理镜头分别进行语义标注,得到由远镜头、中镜头、特写镜头、观众镜头和回放镜头组成的第d个训练视频片段的语义镜头序列Od和第e个测试视频片段的语义镜头序列Ze
(5)对第d个训练视频片段,人工判断是否包含进球事件,得到第d个训练视频片段的类别标签λd,λd∈α;
(6)将N1个训练视频片段的语义镜头序列O1,O2,L,
Figure BDA0000072419810000021
和N1个训练视频片段的类别标签λ1,λ2,L,作为训练数据集
Figure BDA0000072419810000023
将N2个测试视频片段的语义镜头序列Z1,Z2,L,
Figure BDA0000072419810000024
作为测试数据集 Z = { Z 1 , Z 2 , L , Z N 2 } ;
(7)根据训练数据集O中的N1个语义镜头序列O1,O2,L,
Figure BDA0000072419810000026
和对应的N1个类别标签λ1,λ2,L,
Figure BDA0000072419810000027
调用Matlab工具包HCRF2.0b中trainHCRF函数,计算进球事件的隐条件随机场模型的模型参数θ,并利用模型参数θ建立进球事件的隐条件随机场模型,其中,函数trainHCRF的调用格式为θ=trainHCRF(trainseqs,trainlabels,params),trainseqs为训练数据集中的N1个语义镜头序列O1,O2,L,
Figure BDA0000072419810000028
trainlabels为对应的N1个类别标签λ1,λ2,L,
Figure BDA0000072419810000029
params为函数参数,params.nbHiddenStates为隐状态个数N,取值为3,params.windowsize为窗长度ω,取值为1,params.optimizer为优化算法,选择bgfs算法,params.maxIterations为最大迭代次数,取值为300;
(8)根据进球事件的隐条件随机场模型和测试数据集Z,调用Matlab工具包HCRF2.0b中testHCRF函数,计算测试数据集Z中第e个测试视频片段的语义镜头序列Ze对应于类别标签0的概率βe,0,以及该语义镜头序列对应于类别标签1的概率βe,1
(9)若βe,0>βe,1,则第e个测试视频片段的语义镜头序列Ze的预测类别标签为0,该测试视频片段不包含进球事件,若βe,0<βe,1,则第e个测试视频片段的语义镜头序列Ze的预测类别标签为1,该测试视频片段包含进球事件,若βe,0=βe,1,则无法判断第e个测试视频片段是否包含进球事件。
本发明与现有技术相比具有以下优点:
1)本发明由于建立的进球事件的隐条件随机场模型同时具有隐状态表达能力和表达长距离依赖性和交叠性特征的能力,能够更自然地对足球视频中的时空邻域关系进行建模;
2)本发明由于将视频的物理镜头标注为语义镜头,然后将语义镜头序列作为进球事件的隐条件随机场模型的输入进行进球事件的检测,有效缓解了低层特征到高层语义之间的语义鸿沟,改善了进球事件的检测性能。
附图说明
图1是足球视频进球序列与非进球序列的代表帧示例图;
图2是隐条件随机场模型示意图;
图3是本发明的流程图。
具体实施方式
一、基础理论介绍
足球比赛深受大众喜爱,但一场比赛视频数据量巨大,观众感兴趣的精彩事件通常只是整场比赛的很小一部分,因此,对比赛视频进行分析和处理,实现进球、罚球等精彩事件的语义检测在足球视频语义分析领域至关重要。然而,足球比赛视频有着特定的结构,深入、准确地挖掘这种内在的结构特征和联系,建立有效的足球比赛视频结构模型,使得精彩事件的语义检测成为可能,在体育视频语义分析领域具有重要的理论价值和市场应用前景。
足球比赛视频片段可分为进球视频片段和非进球视频片段,每个片段包括远镜头、中镜头、特写镜头、观众镜头和回放镜头,通过对大量真实比赛视频的分析发现,进球片段含有较多的特写镜头和回放镜头、较少的远镜头和中镜头。图1是足球视频中进球序列和非进球序列的代表帧示例图,其中图1(a)是进球序列,它用5个镜头展示了一次进球事件,这5个镜头为射门全景远镜头、射门球员特写镜头、观众镜头、包含若干球员的中镜头和回放镜头;图1(b)是非进球序列,它用远镜头与中镜头的交叉显示展示了一次非进球事件。
隐条件随机场是一种具有隐状态变量的无向图概率模型。给定一个观察值序列,在隐条件随机场模型中存在一个对应的隐状态序列,当前时刻的隐状态既可以只根据当前时刻的观察值元素预测产生,也可以根据当前时刻的观察值元素和相邻观察值元素共同预测产生。
隐条件随机场的具体定义如下。假设需要对一个输入序列x′预测标签β0,其中,β0为标签集Γ中的一个元素,输入序列x′也称为观察序列,是一个观察值集合x′={x′1,x′2,L,x′a′}。在不同的输入序列中,观察值集合的元素数目a′是可变的。每个观察值元素x′c由一个特征向量φ(x′c)表示,其中,c∈{1,2,L,a′},
Figure BDA0000072419810000041
m为维数。训练数据集由观察序列-类别标签数据对(xj,βj)组成,其中,βj∈Γ,j=1,2,L,N,aj为第j个观察序列中元素个数,N为训练数据集中观察序列-类别标签数据对的数目。测试数据集由观察序列组成。
图2是隐条件随机场模型示意图,其中,u={u1,u2,L,ut}为隐条件随机场模型的输入观察序列,ρ={ρ1,ρ2,L,ρt}为输入观察序列u对应的隐状态序列,它根据观察序列u产生,并且在训练数据集中是无法被观察的,ργ∈Ω,γ∈{1,2,L,t},Ω为隐条件随机场的隐状态集合,隐状态ργ对应于观察序列u中的观察值元素uγ,ργ可以仅仅根据单个观察值元素uγ预测产生,也可以根据观察值元素uγ和其它观察值元素共同预测产生,类别标签z根据隐藏状态之间的结构得到。
在给定输入序列x′和隐条件随机场模型参数θ的条件下,计算输入序列x′具有标签β′的概率:
P ( β ′ | x ′ ; θ ) = = Σ η exp ( Ψ ( β ′ , η , x ′ ; θ ) ) Σ τ , η exp ( Ψ ( τ , η , x ′ ; θ ) )
其中,x′为输入序列,β′为输入序列x′可能对应的标签,β′∈Γ,θ为隐条件随机场的模型参数,τ为输入序列x′可能对应的标签,τ∈Γ,η={η1,η2,L,ηa′}为输入序列x′对应的隐状态序列,
Figure BDA0000072419810000051
是以θ为参数的势函数,势函数按下式计算:
Ψ ( β ′ , η , x ′ ; θ ) = Σ c = 1 a ′ φ ( x c ′ ) · θ ( η c ) + Σ c = 1 a ′ θ ( β ′ , η c ) + Σ ( c , c ′ ) ∈ E θ ( β ′ , η c , η c ′ )
其中,φ(x′c)为输入序列x′中第c个观察值元素x′c的特征向量表示,
Figure BDA0000072419810000053
ηc∈Ω,θ(ηc)为对应于第c个隐状态ηc的参数矢量,矢量维数为m维,内积φ(x′c)·θ(ηc)为观察值元素x′c与隐状态ηc的兼容性度量,为隐状态ηc与类别标签β′的兼容性度量,
Figure BDA0000072419810000056
为隐状态ηc和隐状态ηc′的联合与类别标签β′的兼容性度量,E为隐条件随机场模型的无向图,c′∈{1,2,L,a′},隐状态表示无向图的节点,若某个观察值元素同时与隐状态ηc、隐状态ηc′有关,则在无向图E中存在边(c,c′)。
根据输入序列x′具有标签β′的概率P(β′|x′;θ),计算输入序列x′的预测标签β0
β0=argmaxβ′∈ΓP(β′|x′;θ)。
二、足球视频进球事件检测方法
参照图3,本发明基于隐条件随机场的足球视频进球事件检测方法,步骤如下:
步骤1,定义语义镜头集为ε={s1,s2,s3,s4,s5},其中,s1,s2,s3,s4,s5表示五种语义镜头,即s1为远镜头,s2为中镜头,s3为特写镜头,s4为观众镜头,s5为回放镜头。
步骤2,定义进球事件的隐条件随机场的类别标签集为α={0,1},其中,0表示进球事件的隐条件随机场模型的输入不包含进球事件,1表示进球事件的隐条件随机场模型的输入包含进球事件。
步骤3,对N1个训练视频片段和N2个测试视频片段分别进行物理镜头分割,得到第d个训练视频片段的物理镜头序列Pd和第e个测试视频片段的物理镜头序列Qe,其中,d∈{1,2,L,N1},e∈{1,2,L,N2}。
步骤4,对第d个训练视频片段的物理镜头序列Pd中的物理镜头和第e个测试视频片段的物理镜头序列Qe中的物理镜头分别进行语义标注,即对包含语义信息的物理镜头赋予一个语义标签,得到由远镜头、中镜头、特写镜头、观众镜头和回放镜头组成的第d个训练视频片段的语义镜头序列Od和第e个测试视频片段的语义镜头序列Ze
(4.1)将第d个训练视频片段的物理镜头序列Pd中的物理镜头和第e个测试视频片段的物理镜头序列Qe中的物理镜头都分别标注为实时镜头与回放镜头:
(4.1a)将含有N3幅帧图像的训练视频片段或测试视频片段中的每一幅帧图像从RGB颜色空间转换为HSV颜色空间,其RGB颜色空间由红色分量R,绿色分量G和蓝色分量B组成,转换后得到色度分量H的值h、饱和度分量S的值s、亮度分量V的值v:
h = 0 , if MAX = MIN 1 6 &times; g - b MAX - MIN , if MAX = r and g &GreaterEqual; b 1 6 &times; g - b MAX - MIN + 1 , if MAX = r and g < b 1 6 &times; b - r MAX - MIN + 1 3 , if MAX = g 1 6 &times; r - g MAX - MIN + 2 3 , if MAX = b
s = 0 , if MAX = 0 MAX - MIN MAX = 1 - MIN MAX , otherwise
v=MAX
其中,r为每一幅帧图像的每个像素点的红色分量R的归一化值,g为每一幅帧图像的每个像素点的绿色分量G的归一化值,b为每一幅帧图像的每个像素点的蓝色分量B的归一化值,MAX为每一幅帧图像的每个像素点的r、g、b中的最大值,MIN为每一幅帧图像的每个像素点的r、g、b中的最小值,按下式计算:
MAX=max(r,g,b)
MIN=min(r,g,b)
r = r &prime; 255
g = g &prime; 255
b = b &prime; 255
其中,r′为每一幅帧图像的每个像素点的红色分量R的值,g′为每一幅帧图像的每个像素点的绿色分量G的值,b′为每一幅帧图像的每个像素点的蓝色分量B的值;
(4.1b)根据第n′幅帧图像中色度分量的值h所对应的第l级索引huel的像素个数num(huel),计算第n′幅帧图像的色度分量的256柄直方图中索引huel对应的值histn′(huel):
histn(huel)=num(huel)
其中,n′∈{1,2,L,N3},huel为第n′幅帧图像色度分量的第l级索引,l∈{1,2,L,256},huel∈{1,2,L,256};
(4.1c)根据第n+1幅帧图像的色度分量的直方图中索引huel对应的值histn+1(huel)和第n幅帧图像的色度分量的直方图中索引huel对应的值histn(huel),计算第n+1幅帧图像和第n幅帧图像的色度直方图差值HHDn
HHD n = 1 L &times; L &Sigma; l = 1 256 | hist n + 1 ( hue l ) - hist n ( hue l ) |
其中,x∈{1,2,L,N3-1},L为每一幅帧图像的高度,K为每一幅帧图像的宽度;
(4.1d)根据色度直方图差值HHDn,计算该视频片段的N3-1个色度直方图差值的均值HHD:
HHD = 1 N 3 - 1 &Sigma; n = 1 N 3 - 1 HHD n ;
(4.1e)选取HHDn大于阈值T2的帧,其中,阈值T2为该视频片段的HHD的2倍,取T2=0.1938;
(4.1f)选取持续时间为10~20帧的镜头lsw,得到一系列的候选徽标镜头
Figure BDA0000072419810000075
其中,w∈{1,2,...,N4},N4为候选徽标镜头总数;
(4.1g)真实的徽标镜头必成对出现,徽标镜头中间的片段即为回放片段,回放片段至少包含1个镜头。利用镜头分割程序检测候选徽标镜头lsw′和候选徽标镜头lsw′-1之间的视频片段包含的镜头数目:如果该视频片段包含的镜头数目大于1,将该视频片段中的镜头标注为回放镜头,如果该视频片段包含的镜头数目等于1,将该视频片段中的镜头标注为实时镜头,其中,w′∈{2,3,L,N4};
(4.2)将实时镜头进一步标注为远镜头、中镜头和非场地镜头,其中远镜头提供比赛进行的全局情况,通常含有很大的场地面积,中镜头描述一个或若干个球员的全身以及动作,也含有一定的场地面积,但少于远镜头,因此,采用场地比率PR来区分远镜头和中镜头,即一幅帧图像的场地像素点个数和总像素点个数的比值,当某些远镜头含有部分观众区域时,场地面积减少,场地比率PR也减小,很容易将远镜头和中镜头错误标注,故本发明将帧图像顶部裁剪去三分之一后,根据场地比率PR和选取的阈值,将实时镜头进一步标注为远镜头、中镜头和非场地镜头:
(4.2a)在实时镜头中选取60幅远景帧图像,根据第p幅帧图像的色度分量的256柄直方图中索引huel对应的值histp(huel),计算60幅远景帧图像的色度分量的累加直方图中索引huel对应的值sh(huel):
sh ( hue l ) = &Sigma; p = 1 60 hist p ( hue l )
其中,huel为第p幅帧图像色度分量的第l级索引,l∈{1,2,L,256},huel∈{1,2,L,256},p∈{1,2,L,60};
(4.2b)根据累加直方图中索引huel对应的值sh(huel),计算累加直方图的峰值F:
F=max{sh(hue1),sh(hue2),L,sh(hue256)};
(4.2c)根据累加直方图中每个索引对应的值和累加直方图的峰值F,确定满足如下条件的下限索引huelow
sh(huelower)≥0.2×F
sh(huelower-1)<0.2×F
其中,sh(huelow)为累加直方图中下限索引huelow对应的值,sh(huelow-1)为累加直方图中索引huelow-1对应的值;
(4.2d)根据累加直方图中每个索引对应的值和累加直方图的峰值F,确定满足如下条件的上限索引hueup
sh(hueupper)≥0.2×F
sh(hueupper+1)<0.2×F
其中,sh(hueup)为累加直方图中上限索引hueup对应的值,sh(hueup+1)为累加直方图中索引hueup+1对应的值;
(4.2e)将实时镜头的每一幅帧图像裁剪去顶部三分之一,统计裁剪后每一幅帧图像中色度分量的值h属于区间[huelow/256,hueup/256]的场地像素个数C1,计算每一幅帧图像的场地比率PR:
PR = C 1 2 3 &times; L &times; K
其中,L为每一幅帧图像的高度,K为每一幅帧图像的宽度;
(4.2f)根据设定的阈值T3、T4和每一幅帧图像的场地比率PR,判断每一幅帧图像的类型:
如果一幅帧图像的场地比率PR大于阈值T3,则该幅帧图像是远景帧图像,
如果一幅帧图像的场地比率PR小于等于阈值T3并且大于等于阈值T4,则该幅帧图像是中景帧图像,
如果一幅帧图像的场地比率PR小于阈值T4,则该幅帧图像是非场地帧图像,
其中,取阈值T3=0.70,T4=0.30;
(4.2g)若待标注实时镜头55%以上的帧图像属于远景帧图像,则标注该实时镜头为远镜头;若待标注实时镜头55%以上的帧图像属于中景帧图像,则标注该实时镜头为中镜头;否则标注为非场地镜头;
(4.3)将非场地镜头进一步标注为特写镜头与观众镜头,由于观众镜头中观众数目较多,背景复杂,边缘信息丰富,特写镜头人物比例较大,平滑区域较多,需用边缘像素比率EPR表示每一幅帧图像中边缘像素点个数与总像素点个数的比率,故本发明根据边缘像素比率EPR和选取的阈值,按如下步骤将非场地镜头进一步标注为特写镜头与观众镜头:
(4.3a)将非场地镜头的每一幅帧图像从RGB颜色空间转换到YCbCr颜色空间,得到亮度分量Y的值y,蓝色色度分量Cb的值cr,红色色度分量Cr的值cb:
y=0.299r′+0.578g′+0.114b′
cb=0.564(b′-y)
cr=0.713(r′-y)
其中,r′为每一幅帧图像的每个像素点的红色分量R的值,g′为每一幅帧图像的每个像素点的绿色分量G的值,b′为每一幅帧图像的每个像素点的蓝色分量B的值;
(4.3b)根据每一幅帧图像的亮度分量Y的值y,用Canny算子检测每一幅帧图像中的边缘像素的个数C2
(4.3c)根据每一幅帧图像中的边缘像素的个数C2,计算待标注的非场地镜头中每一幅帧图像的边缘像素比率EPR:
EPR = C 2 L &times; K
其中,L为每一幅帧图像的高度,K为每一幅帧图像的宽度;
(4.3d)若一幅帧图像的EPR大于阈值T5,标记为观众帧图像,否则标记为特写帧图像,其中,取T5=0.10;
(4.3e)若待标注的非场地镜头55%以上的帧图像属于观众帧图像,则标注该非场地镜头为观众镜头,否则标记为特写镜头。
步骤5,对第d个训练视频片段,人工判断是否包含进球事件,得到第d个训练视频片段的类别标签λd,λd∈α。
步骤6,将N1个训练视频片段的语义镜头序列O1,O2,L,
Figure BDA0000072419810000102
和N1个训练视频片段的类别标签λ1,λ2,L,
Figure BDA0000072419810000103
作为训练数据集
Figure BDA0000072419810000104
将N2个测试视频片段的语义镜头序列Z1,Z2,L,
Figure BDA0000072419810000105
作为测试数据集 Z = { Z 1 , Z 2 , L , Z N 2 } .
步骤7,根据训练数据集O中的N1个语义镜头序列O1,O2,L,
Figure BDA0000072419810000107
和对应的N1个类别标签λ1,λ2,L,
Figure BDA0000072419810000108
调用Matlab工具包HCRF2.0b中trainHCRF函数,计算进球事件的隐条件随机场模型的模型参数θ,并利用模型参数θ建立进球事件的隐条件随机场模型,其中,函数trainHCRF的调用格式为θ=trainHCRF(trainseqs,trainlabels,params),trainseqs为训练数据集中的N1个语义镜头序列O1,O2,L,trainlabels为对应的N1个类别标签λ1,λ2,L,
Figure BDA00000724198100001010
params为函数参数,params.nbHiddenStates为隐状态个数N,取值为3,params.windowsize为窗长度ω,取值为1,窗长度表示隐条件随机场在预测当前时刻的隐状态时考虑的观察值个数,ω=0表示隐条件随机场在预测当前时刻的隐状态时只考虑当前时刻的观察值,ω=1表示预测当前时刻的隐状态时既考虑当前时刻的观察值同时也考虑前一时刻和后一时刻的观察值,params.optimizer为优化算法,选择bgfs算法,params.maxIterations为最大迭代次数,取值为300。
步骤8,根据进球事件的隐条件随机场模型和测试数据集Z,调用Matlab工具包HCRF2.0b中testHCRF函数,计算测试数据集Z中第e个测试视频片段的语义镜头序列Ze对应于类别标签0的概率βe,0,以及该语义镜头序列对应于类别标签1的概率βe,1
步骤9,若βe,0>βe,1,则第e个测试视频片段的语义镜头序列Ze的预测类别标签为0,该测试视频片段不包含进球事件,若βe,0<βe,1,则第e个测试视频片段的语义镜头序列Ze的预测类别标签为1,该测试视频片段包含进球事件,若βe,0=βe,1,则无法判断第e个测试视频片段是否包含进球事件。
本发明的效果可通过以下实验仿真进一步说明。
1)仿真条件
实验视频选自2010年南非世界杯多个场次的比赛,mpeg-1格式,帧分辨率为352×288。实验视频分为两部分,一部分作为训练视频片段,含有21个进球视频片段和10个非进球视频片段,剩余部分作为测试视频片段,含有50个进球视频片段和20个非进球视频片段。实验软件环境为Matlab R2008a。
2)仿真内容及结果
仿真一:根据建立的进球事件的隐条件随机场模型,对70个测试视频片段分别计算每个测试视频片段具有类别标签0的概率和类别标签1的概率,选择较大概率对应的类别标签作为该测试视频片段的预测标签,从而判断该测试视频片段是否含有进球事件。调用Matlab工具包HCRF2.0b中trainHCRF函数计算模型参数θ时,参数优化算法选择BFGS算法,最大迭代次数为300,根据实验选取隐状态个数N为3,窗长度ω分别为0、1、2,ω=0表示预测当前时刻的隐状态时只考虑当前时刻的观察值,ω=1表示预测当前时刻的隐状态时既考虑当前时刻的观察值同时也考虑前一时刻和后一时刻的观察值,ω=2表示预测当前时刻的隐状态时既考虑当前时刻的观察值同时也考虑前两个时刻和后两个时刻的观察值。实验结果如表1所示。
表1
Figure BDA0000072419810000121
从表1可以看出,本发明对于足球视频进球事件的最佳检测性能为查准率98.04%、查全率100%。窗长ω=1时的查准率比ω=0的查准率有所提高,可见考虑有效距离内观察值的依赖关系能明显提高进球事件的隐条件随机场模型的检测性能,但是ω=2时的查准率比ω=1的查准率降低,是因为考虑了过长范围的依赖关系,反而增加模型的复杂度,不能正确反映进球事件的内在规律,降低隐条件随机场模型的性能。因此,本发明最终确定进球事件的隐条件随机场模型的隐状态个数N为3,窗长度ω为1。
以上仿真结果表明,本发明提出的基于隐条件随机场的足球视频进球事件检测方法,能够准确、全面地实现进球事件的检测。

Claims (4)

1.一种基于隐条件随机场的足球视频进球事件检测方法,包括如下步骤:
(1)定义语义镜头集为ε={s1,s2,s3,s4,s5},其中,s1,s2,s3,s4,s5表示五种语义镜头,即s1为远镜头,s2为中镜头,s3为特写镜头,s4为观众镜头,s5为回放镜头;
(2)定义进球事件的隐条件随机场的类别标签集为α={0,1},其中,0表示进球事件的隐条件随机场模型的输入不包含进球事件,1表示进球事件的隐条件随机场模型的输入包含进球事件;
(3)对N1个训练视频片段和N2个测试视频片段分别进行物理镜头分割,得到第d个训练视频片段的物理镜头序列Pd和第e个测试视频片段的物理镜头序列Qe,其中,d∈{1,2,…,N1},e∈{1,2,…,N2};
(4)对第d个训练视频片段的物理镜头序列Pd中的物理镜头和第e个测试视频片段的物理镜头序列Qe中的物理镜头分别进行语义标注,得到由远镜头、中镜头、特写镜头、观众镜头和回放镜头组成的第d个训练视频片段的语义镜头序列Qd和第e个测试视频片段的语义镜头序列Ze
(4.1)将第d个训练视频片段的物理镜头序列Pd中的物理镜头和第e个测试视频片段的物理镜头序列Qe中的物理镜头都分别标注为实时镜头与回放镜头;
(4.2)将实时镜头进一步标注为远镜头、中镜头和非场地镜头;
(4.3)将非场地镜头进一步标注为特写镜头与观众镜头;
(5)对第d个训练视频片段,人工判断是否包含进球事件,得到第d个训练视频片段的类别标签λd,λd∈α;
(6)将N1个训练视频片段的语义镜头序列 
Figure RE-FDA00002302526400011
和N1个训练视频片段的类别标签 
Figure RE-FDA00002302526400012
作为训练数据集 将N2个测试视频片段的语义镜头序列 
Figure RE-FDA00002302526400014
作为测试数据集 
Figure RE-FDA00002302526400015
(7)根据训练数据集O中的N1个语义镜头序列 和对应的N1个类别标签 
Figure RE-FDA00002302526400017
调用Matlab工具包HCRF2.0b中trainHCRF函数,计算进球事件的隐条件随机场模型的模型参数θ,并利用模型参数θ建立进球事件的隐条件随机场模型,其中,函数trainHCRF的调用格式为θ= trainHCRF(trainseqs,trainlabels,params),trainseqs为训练数据集中的N1个语义镜头序列 trainlabels为对应的N1个类别标签 
Figure RE-FDA00002302526400022
params为函数参数,params.nbHiddenStates为隐状态个数N,取值为3,params.windowsize为窗长度ω,取值为1,params.optimizer为优化算法,选择bgfs算法,params.maxIterations为最大迭代次数,取值为300;
(8)根据进球事件的隐条件随机场模型和测试数据集Z,调用Matlab工具包HCRF2.0b中testHCRF函数,计算测试数据集Z中第e个测试视频片段的语义镜头序列Ze对应于类别标签0的概率βe,0,以及该语义镜头序列对应于类别标签1的概率βe,1
(9)若βe,0>βe,1,则第e个测试视频片段的语义镜头序列Ze的预测类别标签为0,该测试视频片段不包含进球事件,若βe,0<βe,1,则第e个测试视频片段的语义镜头序列Ze的预测类别标签为1,该测试视频片段包含进球事件,若βe,0=βe,1,则无法判断第e个测试视频片段是否包含进球事件。
2.根据权利要求1所述的足球视频进球事件检测方法,其中步骤(4.1)所述的“将第d个训练视频片段的物理镜头序列Pd中的物理镜头和第e个测试视频片段的物理镜头序列Qe中的物理镜头都分别标注为实时镜头与回放镜头”,按如下步骤进行:
(4.1a)将含有N3幅帧图像的训练视频片段或测试视频片段中的每一幅帧图像从RGB颜色空间转换为HSV颜色空间,得到色度分量H的值h、饱和度分量S的值s、亮度分量V的值v:
Figure RE-FDA00002302526400023
Figure RE-FDA00002302526400024
v=MAX 
其中,r为每一幅帧图像的每个像素点的红色分量R的归一化值,g为每一幅帧图像的每个像素点的绿色分量G的归一化值,b为每一幅帧图像的每个像素点的蓝色分量B的归一化值,MAX为每一幅帧图像的每个像素点的r、g、b中的最大值,MIN为每一幅帧图像的每个像素点的r、g、b中的最小值,按下式计算:
MAX=max(r,g,b)
MIN=min(r,g,b)
Figure RE-FDA00002302526400031
Figure RE-FDA00002302526400032
其中,r′为每一幅帧图像的每个像素点的红色分量R的值,g′为每一幅帧图像的每个像素点的绿色分量G的值,b′为每一幅帧图像的每个像素点的蓝色分量B的值;
(4.1b)根据第n′幅帧图像中色度分量的值h所对应的第l级索引huel的像素个数num(huel),计算第n幅帧图像的色度分量的256柄直方图中索引huel对应的值histn′(huel):
histn′(huel)=num(huel)
其中,n′∈{1,2,…,N3},huel为第n′幅帧图像色度分量的第l级索引,l∈{1,2,…,256},huel∈{1,2,…,256};
(4.1c)根据第n+1幅帧图像的色度分量的直方图中索引huel对应的值histn+1(huel)和第n幅帧图像的色度分量的直方图中索引huel对应的值histn(huel),计算第n+1幅帧图像和第n幅帧图像的色度直方图差值HHDn
Figure RE-FDA00002302526400034
其中,n∈{1,2,…,N3-1},L为每一幅帧图像的高度,K为每一幅帧图像的宽度;
(4.1d)根据色度直方图差值HHDn,计算该视频片段的N3-1个色度直方图差值的均值HHD:
Figure RE-FDA00002302526400035
(4.1e)选取HHDn大于阈值T2的帧,其中,阈值T2为该视频片段的HHD的2倍,取T2=0.1938;
(4.1f)选取持续时间为10~20帧的镜头lsi,得到一系列的候选徽标镜头 
Figure RE-FDA00002302526400041
其中,i∈{1,2,…,N4},N4为候选徽标镜头总数;
(4.1g)利用镜头分割程序检测候选徽标镜头lsi′和候选徽标镜头lsi′-1之间的视频片段包含的镜头数目:如果该视频片段包含的镜头数目大于1,将该视频片段中的镜头标注为回放镜头,如果该视频片段包含的镜头数目等于1,将该视频片段中的镜头标注为实时镜头,其中,i′∈{2,3,…,N4}。
3.根据权利要求1所述的足球视频进球事件检测方法,其中步骤(4.2)所述的“将实时镜头进一步标注为远镜头、中镜头和非场地镜头”,按如下步骤进行:
(4.2a)在实时镜头中选取60幅远景帧图像,根据第p幅帧图像的色度分量的256柄直方图中索引huel对应的值histp(huel),计算60幅远景帧图像的色度分量的累加直方图中索引huel对应的值sh(huel):
Figure RE-FDA00002302526400042
其中,huel为第p幅帧图像色度分量的第l级索引,l∈{1,2, …,256},huel∈{1,2,…,256},p∈{1,2,…,60};
(4.2b)根据累加直方图中索引huel对应的值sh(huel),计算累加直方图的峰值F:
F=max{sh(hue1),sh(hue2),…,sh(hue256)};
(4.2c)根据累加直方图中每个索引对应的值和累加直方图的峰值F,确定满足如下条件的下限索引huelow
sh(huelow)≥0.2×F
sh(huelow-1)<0.2×F
其中,sh(huelow)为累加直方图中下限索引huelow对应的值,sh(huelow-1)为累加直方图中索引huelow-1对应的值;
(4.2d)根据累加直方图中每个索引对应的值和累加直方图的峰值F,确定满足如下条件的上限索引hueup
sh(hueup)≥0.2×F
sh(hueup+1)<0.2×F 
其中,sh(hueup)为累加直方图中上限索引hueup对应的值,sh(hueup+1)为累加直方图中索引hueup+1对应的值;
(4.2e)将实时镜头的每一幅帧图像裁剪去顶部三分之一,统计裁剪后每一幅帧图像中色度分量的值h属于区间[huelow/256,hueup/256]的场地像素个数C1,计算每一幅帧图像的场地比率PR:
Figure RE-FDA00002302526400051
其中,L为每一幅帧图像的高度,K为每一幅帧图像的宽度;
(4.2f)根据每一幅帧图像的场地比率PR,判断每一幅帧图像的类型:
Figure RE-FDA00002302526400052
其中,取阈值T3=0.70,T4=0.30;
(4.2g)若待标注实时镜头55%以上的帧图像属于远景帧图像,则标注该实时镜头为远镜头;若待标注实时镜头55%以上的帧图像属于中景帧图像,则标注该实时镜头为中镜头;否则标注为非场地镜头。
4.根据权利要求1所述的足球视频进球事件检测方法,其中步骤(4.3)所述的“将非场地镜头进一步标注为特写镜头与观众镜头”,按如下步骤进行:
(4.3a)将非场地镜头的每一幅帧图像从RGB颜色空间转换到YCbCr颜色空间,得到亮度分量Y的值y,蓝色色度分量Cb的值cb,红色色度分量Cr的值cr:
y=0.299r′+0.578g′+0.114b′
cb=0.564(b′-y)
cr=0.713(r′-y)
其中,r′为每一幅帧图像的每个像素点的红色分量R的值,g′为每一幅帧图像的每个像素点的绿色分量G的值,b′为每一幅帧图像的每个像素点的蓝色分量B的值;
(4.3b)根据每一幅帧图像的亮度分量Y的值y,用Canny算子检测每一幅帧图像中的边缘像素,得到边缘像素的个数C2
(4.3c)根据每一幅帧图像中的边缘像素的个数C2,计算待标注的非场地镜头中每一幅帧图像的边缘像素比率EPR: 
Figure RE-FDA00002302526400061
其中,L为每一幅帧图像的高度,K为每一幅帧图像的宽度;
(4.3d)若一幅帧图像的EPR大于阈值T5,标记为观众帧图像,否则标记为特写帧图像,其中,取T5=0.10;
(4.3e)若待标注的非场地镜头55%以上的帧图像属于观众帧图像,则标注该非场地镜头为观众镜头,否则标记为特写镜头。 
CN 201110180085 2011-06-29 2011-06-29 基于隐条件随机场的足球视频进球事件检测方法 Expired - Fee Related CN102306154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110180085 CN102306154B (zh) 2011-06-29 2011-06-29 基于隐条件随机场的足球视频进球事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110180085 CN102306154B (zh) 2011-06-29 2011-06-29 基于隐条件随机场的足球视频进球事件检测方法

Publications (2)

Publication Number Publication Date
CN102306154A CN102306154A (zh) 2012-01-04
CN102306154B true CN102306154B (zh) 2013-03-20

Family

ID=45380017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110180085 Expired - Fee Related CN102306154B (zh) 2011-06-29 2011-06-29 基于隐条件随机场的足球视频进球事件检测方法

Country Status (1)

Country Link
CN (1) CN102306154B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103944887B (zh) * 2014-03-24 2017-03-29 西安电子科技大学 基于隐条件随机场的入侵事件检测方法
CN105701460B (zh) * 2016-01-07 2019-01-29 王跃明 一种基于视频的篮球进球检测方法和装置
CN107247942B (zh) * 2017-06-23 2019-12-20 华中科技大学 一种融合多模态特征的网球视频事件检测方法
CN108053420B (zh) * 2018-01-05 2021-11-02 昆明理工大学 一种基于有限时空分辨率类无关属性动态场景的分割方法
CN108268427B (zh) * 2018-01-10 2021-07-09 中国地质大学(武汉) 一种任意球进球概率分析方法、设备及存储设备
CN110505519B (zh) * 2019-08-14 2021-12-03 咪咕文化科技有限公司 一种视频剪辑方法、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127866A (zh) * 2007-08-10 2008-02-20 西安交通大学 一种检测足球比赛视频精彩片段的方法
CN101599179A (zh) * 2009-07-17 2009-12-09 北京邮电大学 场地运动精彩镜头集锦自动生成方法
CN101604325A (zh) * 2009-07-17 2009-12-16 北京邮电大学 基于主场景镜头关键帧的体育视频分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6678635B2 (en) * 2001-01-23 2004-01-13 Intel Corporation Method and system for detecting semantic events
WO2004014061A2 (en) * 2002-08-02 2004-02-12 University Of Rochester Automatic soccer video analysis and summarization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127866A (zh) * 2007-08-10 2008-02-20 西安交通大学 一种检测足球比赛视频精彩片段的方法
CN101599179A (zh) * 2009-07-17 2009-12-09 北京邮电大学 场地运动精彩镜头集锦自动生成方法
CN101604325A (zh) * 2009-07-17 2009-12-16 北京邮电大学 基于主场景镜头关键帧的体育视频分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于隐马尔科夫模型的足球视频典型事件检测;马超;《中国优秀硕士学位论文全文数据库》;20051015(第6期);全文 *
马超.基于隐马尔科夫模型的足球视频典型事件检测.《中国优秀硕士学位论文全文数据库》.2005,(第6期),

Also Published As

Publication number Publication date
CN102306154A (zh) 2012-01-04

Similar Documents

Publication Publication Date Title
CN102306154B (zh) 基于隐条件随机场的足球视频进球事件检测方法
CN101604325B (zh) 基于主场景镜头关键帧的体育视频分类方法
CN110012348B (zh) 一种赛事节目自动集锦系统及方法
D’Orazio et al. A review of vision-based systems for soccer video analysis
CN101431689B (zh) 生成视频摘要的方法及装置
CN106162223B (zh) 一种新闻视频切分方法和装置
CN102073864B (zh) 四层结构的体育视频中足球项目检测系统及实现
CN102306153B (zh) 基于归一化语义加权和规则的足球视频进球事件检测方法
CN102222111B (zh) 一种高清视频内容检索方法
CN102576412A (zh) 图像处理以为图像中的对象进行分类的方法和系统
Hosseini et al. Fuzzy rule-based reasoning approach for event detection and annotation of broadcast soccer video
CN112418012B (zh) 一种基于时空注意力模型的视频摘要生成方法
CN103605991A (zh) 一种视频广告的自动检测方法
CN104166983A (zh) 基于结合图割(Graph Cut)的Vibe改进算法的运动目标实时提取方法
CN110188241B (zh) 一种赛事智能制作系统及制作方法
CN104123396A (zh) 一种基于云电视的足球视频摘要生成方法及装置
TW201907736A (zh) 視訊摘要的生成方法及裝置
CN105139421A (zh) 电力系统基于互信息量的视频关键帧提取方法
Nasir et al. Event detection and summarization of cricket videos
Bhalla et al. A multimodal approach for automatic cricket video summarization
CN102393909B (zh) 基于隐马尔科夫模型的足球视频进球事件检测方法
KR20180093582A (ko) 엔드투엔드 학습에 기반한 영상 이벤트 구간 인덱싱 방법 및 장치
CN103237233A (zh) 一种电视广告的快速检测方法及系统
US20100254574A1 (en) Method for decomposition and rendering of video content and user interface for operating the method thereof
CN107516084B (zh) 一种基于多特征融合的互联网视频作者身份识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130320

Termination date: 20180629