CN102306153B - 基于归一化语义加权和规则的足球视频进球事件检测方法 - Google Patents

基于归一化语义加权和规则的足球视频进球事件检测方法 Download PDF

Info

Publication number
CN102306153B
CN102306153B CN 201110180083 CN201110180083A CN102306153B CN 102306153 B CN102306153 B CN 102306153B CN 201110180083 CN201110180083 CN 201110180083 CN 201110180083 A CN201110180083 A CN 201110180083A CN 102306153 B CN102306153 B CN 102306153B
Authority
CN
China
Prior art keywords
semantic
camera lens
field picture
width
cloth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110180083
Other languages
English (en)
Other versions
CN102306153A (zh
Inventor
同鸣
谢文娟
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN 201110180083 priority Critical patent/CN102306153B/zh
Publication of CN102306153A publication Critical patent/CN102306153A/zh
Application granted granted Critical
Publication of CN102306153B publication Critical patent/CN102306153B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于归一化语义加权和规则的足球视频进球事件检测方法,主要解决现有技术语义事件模型复杂,需要大量具有代表性的数据集训练,计算量和人力耗费大,检测精度低的问题。其实现步骤是:首先,对训练视频和测试视频进行物理镜头分割和语义镜头标注,将得到的语义镜头序列分别组成训练数据集和测试数据集;其次,根据训练数据集统计得到各种语义镜头的语义观测权重和进球事件的判决阈值,建立归一化语义加权和规则;再计算测试视频序列的语义加权和,并进行归一化处理;最后,根据进球事件的判决阈值,检测出测试视频中的进球事件。本发明能够快速、准确实现进球语义事件的检测,可用于足球视频精彩事件检测等语义分析领域。

Description

基于归一化语义加权和规则的足球视频进球事件检测方法
技术领域
本发明属于视频信息检索领域,涉及体育视频语义分析,可用于足球视频进球事件检测中,以便快速、准确地检测进球事件。
背景技术
体育视频因为拥有庞大的受众群体和巨大的商业价值而备受研究者和社会各界的广泛关注。体育视频的精彩事件自动检测一直是视频语义分析领域研究的热点,其难点在于必须解决低层特征到高层语义之间的语义鸿沟,对此国内外学者进行了广泛的研究,取得了不菲的研究成果。目前主要的研究方法可归为两类,一类是基于机器学习的方法,另一类是基于人工规则的方法。
目前基于机器学习的方法主要有:
(1)Ding Y,Fan G L.Sports Video Mining via Multichannel Segmental Hidden MarkovModels[J]IEEE Trans.on Multimedia,2009,11(7):1301-1309。该方法基于隐马尔科夫建模时序规律的良好性能,构建了多通道部分隐马尔科夫模型,能够同时进行视频结构的分层次、并行分析,较准确地捕获了多个隐马尔科夫链之间的交互规律,语义事件检测正确率达到了87.06%,但模型的构建比较复杂。
(2)Sadlier D A,O′Connor N E.Event detection in field sports video using audio-visualfeatures and a support vector machine[J]IEEE Trans.on Circuits and Systems for VideoTechnology,2005,15(10):1225-1233。该方法通过建立音视频特征检测单元,采用支持向量机对提取特征进行融合,实现了足球、橄榄球等视频中eventful和noneventful事件的检测。该方法由于把语义事件检测问题直接作为特征分类问题解决,而没有充分利用语义信息,其事件检测正确率仅达到74%。
目前提出的基于人工规则的方法主要有:
(1)Shyu M L,Xie Z X,Chen M,et al.Video semantic event detection using asubspace-based multimedia data mining framework[J]IEEE Trans.on Multimedia,2008,10(2):252-259。该方法采用C4.5决策树理论建立进球事件检测规则,降低了规则建立的主观性,进球事件查准率达到了91.7%,查全率达到了84.6%,但是事件检测的准确率和查全率仍有待进一步提高。
(2)Tjondronegoro,D.W.and Chen,Y.-P.P.Knowledge-discounted event detection insports video.IEEE Transactions on System,Men and Cybernetics,Part A:Systems and Humans.2010,40(5):1009-1024。该方法辅助视频内容统计信息,以减少建立规则需要的启发式知识,但规则建立过程仍然比较繁琐,人力耗费较大。
发明内容
本发明目的是针对上述已有技术的不足,提出了一种基于归一化语义加权和规则的足球视频进球事件检测方法,以简化基于机器学习方法复杂的模型构建过程,减少基于人工规则方法的人力资源的耗费,快速、准确地检测进球事件。
为实现上述目的,本发明的技术方案包括如下步骤:
(1)对Z1个训练视频片段和Z2个测试视频片段分别进行物理镜头分割,得到第x个训练视频片段的物理镜头序列ux和第j个测试视频片段的物理镜头序列qj,其中,x∈{1,2,L,Z1},j∈{1,2,L,Z2};
(2)对第x个训练视频片段的物理镜头序列ux中的物理镜头和第j个测试视频片段的物理镜头序列qj中的物理镜头分别进行语义标注,得到由远镜头、中镜头、特写镜头、观众镜头和回放镜头组成的第x个训练视频片段的语义镜头序列wx和第j个测试视频片段的语义镜头序列rj,并将Z1个训练视频片段的语义镜头序列w1,w2,L,
Figure BDA0000072413780000021
作为训练数据集,将Z2个测试视频片段的语义镜头序列r1,r2,L,
Figure BDA0000072413780000022
作为测试数据集;
(3)定义语义镜头集为A={s1,s2,s3,s4,s5},其中,s1,s2,s3,s4,s5表示五种语义镜头,即s1为远镜头,s2为中镜头,s3为特写镜头,s4为观众镜头,s5为回放镜头;
(4)按如下步骤建立归一化的语义加权和规则,根据训练数据集,得到五种语义镜头各自的语义观测权重和进球事件判决阈值:
(4a)定义语义镜头集A中第k种语义镜头sk在进球事件中包含的信息为语义信息
Figure BDA0000072413780000023
按下式进行计算:
I s k = - log ( P ‾ ( s k | e ) )
P ‾ ( s k | e ) = 1 Z 1 Σ x = 1 Z 1 P x ( s k | e )
P x ( s k | e ) = a xs k a x
其中,Z1为训练视频片段个数,sk是语义镜头集A中的第k种语义镜头,k∈{1,2,3,4,5},e为进球事件,
Figure BDA0000072413780000031
表示在进球事件中语义镜头sk出现的平均概率,Px(sk|e)为第x个训练视频片段中语义镜头sk出现的概率,
Figure BDA0000072413780000032
为第x个训练视频片段中语义镜头sk的个数,ax为第x个训练视频片段中所有语义镜头的个数;
(4b)根据语义信息
Figure BDA0000072413780000033
定义语义镜头集A中第k种语义镜头sk在进球事件中的重要性为语义观测权重
Figure BDA0000072413780000034
为:
W s k = I I s k ;
(4c)根据语义观测权重
Figure BDA0000072413780000036
计算第x个训练视频片段的语义加权和D′x
D x ′ = Σ k = 1 5 W s k × a xs k
Σ k = 1 5 a xs k = a x ;
(4d)根据第x个训练视频片段的语义加权和D′x,计算训练视频片段的归一化语义加权和Dx
D x = 1 a x × D x ′ ;
(4e)计算Z1个训练视频片段的Z1个归一化语义加权和D1,D2,L,
Figure BDA00000724137800000310
中的最小值Dmin
D min = min ( D 1 , D 2 , L , D Z 1 ) ;
(4f)选取比最小值Dmin略小的一个数值T1作为进球事件判决阈值;
(5)根据语义观测权重
Figure BDA00000724137800000312
计算第j个测试视频片段的语义加权和D″j
D j ′ ′ = Σ k = 1 5 W s k × b js k
Σ k = 1 5 b js k = b j
其中,
Figure BDA00000724137800000315
为语义镜头集A中第k种语义镜头sk的语义观测权重,
Figure BDA00000724137800000316
为第j个测试视频片段中语义镜头sk的个数,bj为第j个测试视频片段中所有语义镜头的个数;
(6)根据第j个测试视频片段的语义加权和D″j,计算该测试视频片段的归一化语义加权和D″′j
D j ′ ′ ′ = 1 b j × D j ′ ′ ,
(7)若D″′j>T1,则第j个测试视频片段中包含进球事件,若D″′j≤T1,则第j个测试视频片段中不包含进球事件。
本发明与现有技术相比具有以下优点:
1)本发明由于提出了一种归一化的语义加权和规则,消除了视频片段长度的影响,规则建立过程简单,不需要复杂的训练,计算量小;
2)本发明由于建立人工规则时引入了语义信息,并根据语义信息定义了语义镜头的语义观测权重,通过语义观测权重表征五种语义镜头在进球事件的重要性,得到视频片段的归一化语义加权和,能有效区分进球视频片段和非进球视频片段。
附图说明
图1是足球视频进球序列与非进球序列代表帧示例图;
图2是本发明的流程图;
图3是足球视频片段所对应的的归一化语义加权和示意图。
具体实施方式
一、基础理论介绍
足球比赛深受大众喜爱,但一场比赛视频数据量巨大,观众感兴趣的精彩事件通常只是整场比赛的很小一部分,因此,对比赛视频进行分析和处理,实现进球、罚球等精彩事件的语义检测在足球视频语义分析领域至关重要。然而,足球比赛视频有着特定的结构,深入、准确地挖掘这种内在的结构特征和联系,建立有效的足球比赛视频结构模型,使得精彩事件的语义检测成为可能,在体育视频语义分析领域具有重要的理论价值和市场应用前景。
足球比赛视频片段可分为进球视频片段和非进球视频片段,每个片段包括远镜头、中镜头、特写镜头、观众镜头和回放镜头,通过对大量真实比赛视频的分析发现,进球片段含有较多的特写镜头和回放镜头、较少的远镜头和中镜头。图1是足球视频中进球序列和非进球序列的代表帧示例图,其中图1(a)是进球序列,它用五个镜头展示了一次进球事件,这五个镜头为射门全景远镜头、射门球员特写镜头、观众镜头、包含若干球员的中镜头和回放镜头;图1(b)是非进球序列,它用远镜头与中镜头的交叉显示展示了一次非进球事件。
二、足球视频进球事件检测方法
参照图2,本发明基于归一化语义加权和规则的足球视频进球事件检测方法,步骤如下:
步骤1,对视频片段进行物理镜头分割,得到物理镜头序列。
选取进球视频片段作为训练视频片段,选取进球视频片段和非进球视频片段组成测试视频片段,对Z1个训练视频片段和Z2个测试视频片段分别进行物理镜头分割,得到第x个训练视频片段的物理镜头序列ux和第j个测试视频片段的物理镜头序列qj,其中,x∈{1,2,L,Z1},j∈{1,2,L,Z2}。
步骤2,对第x个训练视频片段的物理镜头序列ux中的物理镜头和第j个测试视频片段的物理镜头序列qj中的物理镜头分别进行语义标注,即对包含语义信息的物理镜头赋予一个语义标签,得到由远镜头、中镜头、特写镜头、观众镜头和回放镜头组成的第x个训练视频片段的语义镜头序列wx和第j个测试视频片段的语义镜头序列rj
(2.1)将第x个训练视频片段的物理镜头序列px中的物理镜头和第j个测试视频片段的物理镜头序列qj中的物理镜头都分别标注为实时镜头与回放镜头:
(2.1a)将含有Z3幅帧图像的视频片段中的每一幅帧图像从RGB颜色空间转换为HSV颜色空间,其RGB颜色空间由红色分量R,绿色分量G和蓝色分量B组成,转换后得到色度分量H的值h、饱和度分量S的值s、亮度分量V的值v:
h = 0 , if MAX = MIN 1 6 &times; g - b MAX - MIN , if MAX = r and g &GreaterEqual; b 1 6 &times; g - b MAX - MIN + 1 , if MAX = r and g < b 1 6 &times; b - r MAX - MIN + 1 3 , if MAX = g 1 6 &times; r - g MAX - MIN + 2 3 , if MAX = b
s = 0 , if MAX = 0 MAX - MIN MAX = 1 - MIN MAX , otherwise
v=MAX
其中,r为每一幅帧图像的每个像素点的红色分量R的归一化值,g为每一幅帧图像的每个像素点的绿色分量G的归一化值,b为每一幅帧图像的每个像素点的蓝色分量B的归一化值,MAX为每一幅帧图像的每个像素点的r、g、b中的最大值,MIN为每一幅帧图像的每个像素点的r、g、b中的最小值,按下式计算:
MAX=max(r,g,b)
MIN=min(r,g,b)
r = r &prime; 255
g = g &prime; 255
b = b &prime; 255
其中,r′为每一幅帧图像的每个像素点的红色分量R的值,g′为每一幅帧图像的每个像素点的绿色分量G的值,b′为每一幅帧图像的每个像素点的蓝色分量B的值;
(2.1b)根据第n′幅帧图像中色度分量的值h所对应的第l级索引huel的像素个数num(huel),计算第n′幅帧图像的色度分量的256柄直方图中索引huel对应的值histn′(huel):
histn′(huel)=num(huel)
其中,n′∈{1,2,L,Z3},huel为第n′幅帧图像色度分量的第l级索引,l∈{1,2,L,256},huel∈{1,2,L,256};
(2.1c)根据第n+1幅帧图像的色度分量的直方图中索引huel对应的值histn+1(huel)和第n幅帧图像的色度分量的直方图中索引huel对应的值histn(huel),计算第n+1幅帧图像和第n幅帧图像的色度直方图差值HHDn
HHD n = 1 M &times; N &Sigma; l = 1 256 | hist n + 1 ( hue l ) - hist n ( hue l ) |
其中,M为每一幅帧图像的高度,N为每一幅帧图像的宽度;
(2.1d)根据色度直方图差值HHDn,计算该视频片段的Z3-1个色度直方图差值的均值HHD:
HHD = 1 Z 3 - 1 &Sigma; n = 1 Z 3 - 1 HHD n ;
(2.1e)选取HHDn大于阈值T2的帧,其中,阈值T2为该视频片段的HHD的2倍,取T2=0.1938;
(2.1f)选取持续时间为10~20帧的镜头lsi,得到一系列的候选徽标镜头
Figure BDA0000072413780000071
其中,i∈{1,2,L,Z4},Z4为候选徽标镜头总数;
(2.1g)真实的徽标镜头必成对出现,徽标镜头中间的片段即为回放片段,回放片段至少包含1个镜头。利用镜头分割程序检测候选徽标镜头lsi′和候选徽标镜头lsi′-1之间的视频片段包含的镜头数目:如果该视频片段包含的镜头数目大于1,将该视频片段中的镜头标注为回放镜头,如果该视频片段包含的镜头数目等于1,将该视频片段中的镜头标注为实时镜头,其中,i′∈{2,3,L,Z4}。
(2.2)将实时镜头进一步标注为远镜头、中镜头和非场地镜头,其中远镜头提供比赛进行的全局情况,通常含有很大的场地面积,中镜头描述一个或若干个球员的全身以及动作,也含有一定的场地面积,但少于远镜头,因此,采用场地比率PR来区分远镜头和中镜头,即一幅帧图像的场地像素点个数和总像素点个数的比值,当某些远镜头含有部分观众区域时,场地面积减少,场地比率PR也减小,很容易将远镜头和中镜头错误标注,故本发明将帧图像顶部裁剪去三分之一后,根据裁剪后帧图像的场地比率PR和选取的阈值,将实时镜头进一步标注为远镜头、中镜头和非场地镜头:
(2.2a)在实时镜头中选取60幅远景帧图像,根据第p幅帧图像的色度分量的256柄直方图中索引huel对应的值histp(huel),计算60幅远景帧图像的色度分量的累加直方图中索引huel对应的值hist_sum(huel):
hist _ sum ( hue l ) = &Sigma; p = 1 60 hist p ( hue l )
其中,huel为第p幅帧图像色度分量的第l级索引,l∈{1,2,L,256},huel∈{1,2,L,256},p∈{1,2,L,60};
(2.2b)根据累加直方图中索引huel对应的值hist_sum(huel),计算累加直方图的峰值F:
F = max l = 1 256 { hist _ sum ( hue l ) } ;
(2.2c)根据累加直方图中每个索引对应的值和累加直方图的峰值F,确定满足如下条件的下限索引huelow
hist_sum(huelower)≥0.2×F
hist_sum(huelower-1)<0.2×F
其中,hist_sum(huelow)为累加直方图中下限索引huelow对应的值,hist_sum(huelow-1)为累加直方图中索引huelow-1对应的值;
(2.2d)根据累加直方图中每个索引对应的值和累加直方图的峰值F,确定满足如下条件的上限索引hueup
hist_sum(hueupper)≥0.2×F
hist_sum(hueupper+1)<0.2×F
其中,hist_sum(hueup)为累加直方图中上限索引hueup对应的值,hist_sum(hueup+1)为累加直方图中索引hueup+1对应的值;
(2.2e)将实时镜头的每一幅帧图像裁剪去顶部三分之一,统计裁剪后每一幅帧图像中色度分量的值h属于区间[huelow/256,hueup/256]的场地像素个数C1,计算每一幅帧图像的场地比率PR:
PR = C 1 2 3 &times; M &times; N
其中,M为每一幅帧图像的高度,N为每一幅帧图像的宽度;
(2.2f)根据设定的阈值T3、T4和每一幅帧图像的场地比率PR,判断每一幅帧图像的类型:
如果一幅帧图像的场地比率PR大于阈值T3,则该幅帧图像是远景帧图像,
如果一幅帧图像的场地比率PR小于等于阈值T3并且大于等于阈值T4,则该幅帧图像是中景帧图像,
如果一幅帧图像的场地比率PR小于阈值T4,则该幅帧图像是非场地帧图像,
其中,取阈值T3=0.70,T4=0.30;
(2.2g)若待标注实时镜头55%以上的帧图像属于远景帧图像,则标注该实时镜头为远镜头;若待标注实时镜头55%以上的帧图像属于中景帧图像,则标注该实时镜头为中镜头;否则标注为非场地镜头;
(2.3)将非场地镜头进一步标注为特写镜头与观众镜头,由于观众镜头中观众数目较多,背景复杂,边缘信息丰富,特写镜头人物比例较大,平滑区域较多,需用边缘像素比率EPR表示每一幅帧图像中边缘像素点个数与总像素点个数的比率,故本发明根据边缘像素比率EPR和选取的阈值,按如下步骤将非场地镜头进一步标注为特写镜头与观众镜头:
(2.3a)将非场地镜头的每一幅帧图像从RGB颜色空间转换到YCbCr颜色空间,得到亮度分量Y的值y,蓝色色度分量Cb的值cb,红色色度分量Cr的值cr:
y=0.299r′+0.578g′+0.114b′
cb=0.564(b′-y)
cr=0.713(r′-y)
其中,r′为每一幅帧图像的每个像素点的红色分量R的值,g′为每一幅帧图像的每个像素点的绿色分量G的值,b′为每一幅帧图像的每个像素点的蓝色分量B的值;
(2.3b)根据每一幅帧图像的亮度分量Y的值y,用Canny算子检测每一幅帧图像中的边缘像素,得到边缘像素的个数C2
(2.3c)根据每一幅帧图像中的边缘像素的个数C2,计算待标注的非场地镜头中每一幅帧图像的边缘像素比率EPR:
EPR = C 2 M &times; N
其中,M为每一幅帧图像的高度,N为每一幅帧图像的宽度;
(2.3d)若一幅帧图像的EPR大于阈值T5,标记为观众帧图像,否则标记为特写帧图像,其中,取T5=0.10;
(2.3e)若待标注的非场地镜头55%以上的帧图像属于观众帧图像,则标注该非场地镜头为观众镜头,否则标记为特写镜头。
步骤3,将Z1个训练视频片段的语义镜头序列w1,w2,L,
Figure BDA0000072413780000092
作为训练数据集,将Z2个测试视频片段的语义镜头序列r1,r2,L,
Figure BDA0000072413780000093
作为测试数据集。
步骤4,定义语义镜头集为A={s1,s2,s3,s4,s5},其中,s1,s2,s3,s4,s5表示五种语义镜头,即s1为远镜头,s2为中镜头,s3为特写镜头,s4为观众镜头,s5为回放镜头。
步骤5,建立归一化的语义加权和规则,根据训练数据集,得到五种语义镜头各自的语义观测权重和进球事件判决阈值。
(5.1)定义语义镜头集A中第k种语义镜头sk在进球事件中包含的信息为语义信息
Figure BDA0000072413780000094
I s k = - log ( P &OverBar; ( s k | e ) )
P &OverBar; ( s k | e ) = 1 Z 1 &Sigma; x = 1 Z 1 P x ( s k | e )
P x ( s k | e ) = a xs k a x
其中,Z1为训练视频片段个数,sk是语义镜头集A中的第k种语义镜头,k∈{1,2,3,4,5},e为进球事件,
Figure BDA0000072413780000098
表示在进球事件中语义镜头sk出现的平均概率,Px(sk|e)为第x个训练视频片段中语义镜头sk出现的概率,
Figure BDA0000072413780000099
为第x个训练视频片段中语义镜头sk的个数,ax为第x个训练视频片段中所有语义镜头的个数;
(5.2)根据语义信息
Figure BDA0000072413780000101
定义语义镜头集A中第k种语义镜头sk在进球事件中的重要性为语义观测权重
Figure BDA0000072413780000102
W s k = I I s k ;
(5.3)根据语义观测权重
Figure BDA0000072413780000104
计算第x个训练视频片段的语义加权和D′x
D x &prime; = &Sigma; k = 1 5 W s k &times; a xs k
&Sigma; k = 1 5 a xs k = a x ;
(5.4)根据第x个训练视频片段的语义加权和D′x,计算训练视频片段的归一化语义加权和Dx
D x = 1 a x &times; D x &prime; ;
(5.5)计算Z1个训练视频片段的Z1个归一化语义加权和D1,D2,L,
Figure BDA0000072413780000108
中的最小值Dmin
D min = min ( D 1 , D 2 , L , D Z 1 ) ;
(5.6)选取比最小值Dmin略小的一个数值T1作为进球事件判决阈值。
步骤6,根据语义观测权重
Figure BDA00000724137800001010
计算第j个测试视频片段的语义加权和D″j
D j &prime; &prime; = &Sigma; k = 1 5 W s k &times; b js k
&Sigma; k = 1 5 b js k = b j
其中,
Figure BDA00000724137800001013
为语义镜头集A中第k种语义镜头sk的语义观测权重,为第j个测试视频片段中语义镜头sk的个数,bj为第j个测试视频片段中所有语义镜头的个数;
步骤7,根据第j个测试视频片段的语义加权和D″j,计算该测试视频片段的归一化语义加权和D″′j
D j &prime; &prime; &prime; = 1 b j &times; D j &prime; &prime; ;
步骤8,若D″′j>T1,则第j个测试视频片段中包含进球事件,若D″′j≤T1,则第j个测试视频片段中不包含进球事件,其中,T1为进球事件判决阈值,该判决阈值的选取是选比Z1个训练视频片段的Z1个归一化语义加权和D1,D2,L,
Figure BDA0000072413780000111
中的最小值Dmin略小的一个数值,本发明根据实验视频中的训练视频片段进行实验仿真后选取T1=0.69。
本发明的效果可通过以下实验仿真进一步说明。
1)仿真条件
实验视频选自2010年南非世界杯多个场次的比赛,mpeg-1格式,帧分辨率为352×288。实验视频分为两部分,一部分作为训练视频片段,含有21个进球视频片段,剩余部分作为测试视频片段,含有29个进球视频片段和10个非进球视频片段。实验软件环境为Matlab R2008a。
2)仿真内容及结果
仿真一:对21个训练视频片段进行物理镜头分割,对得到的物理镜头序列进行语义标注,得到语义镜头序列,组成训练数据集,统计每种语义镜头的语义观测权重,统计结果如表1所示。
表1
仿真二:根据建立的归一化语义加权和规则,对21个进球视频片段和9个非进球视频片段分别求归一化语义加权和,实验结果如图3所示,图3中每个点表示一个视频片段。
仿真三:根据建立的归一化语义加权和规则,对39个测试视频片段分别求归一化语义加权和,根据判决阈值检测测试视频片段中是否含有进球事件,实验结果如表2所示。
表2
Figure BDA0000072413780000113
从表1可以看出,不同的语义镜头具有不同的语义权重。在进球事件中,特写镜头和回放镜头出现的概率大,语义观测权重也较大。远镜头、中镜头和观众镜头出现的概率较小,语义观测权重也较小。
从图3可以看出,足球视频中进球视频片段与非进球视频片段的归一化语义加权和有着比较明显的界限,选取合适阈值完全可以有效区分进球和非进球事件。本发明选取判决阈值T1=0.69。
从表2可以看出,本发明对于足球视频进球事件检测查准率达到了93.10%、查全率达到了96.43%,进球事件的检测有很好的效果。
以上仿真结果表明,本发明提出的基于归一化语义加权和规则的足球视频进球事件检测方法,规则建立过程简单,不需要复杂的训练,计算量小,建立规则时引入语义信息,能够准确、全面地实现进球事件检测。

Claims (1)

1.一种基于归一化语义加权和规则的足球视频进球事件检测方法,包括如下步骤:
(1)对Z1个训练视频片段和Z2个测试视频片段分别进行物理镜头分割,得到第x个训练视频片段的物理镜头序列ux和第j个测试视频片段的物理镜头序列qj,其中,x∈{1,2,…,Z1},j∈{1,2,…,Z2};
(2)对第x个训练视频片段的物理镜头序列ux中的物理镜头和第j个测试视频片段的物理镜头序列qj中的物理镜头分别进行语义标注,得到由远镜头、中镜头、特写镜头、观众镜头和回放镜头组成的第x个训练视频片段的语义镜头序列wx和第j个测试视频片段的语义镜头序列rj,并将Z1个训练视频片段的语义镜头序列作为训练数据集,将Z2个测试视频片段的语义镜头序列
Figure FDA00002304309000012
作为测试数据集;
所述的“对第x个训练视频片段的物理镜头序列ux中物理镜头和第j个测试视频片段的物理镜头序列qj中的物理镜头分别进行语义标注”,按如下步骤进行:
(2.1)将第x个训练视频片段的物理镜头序列ux中的物理镜头和第j个测试视频片段的物理镜头序列qj中的物理镜头都分别标注为实时镜头与回放镜头:
(2.1a)将含有Z3幅帧图像的训练视频片段或测试视频片段中的每一幅帧图像从RGB颜色空间转换为HSV颜色空间,得到色度分量的值h、饱和度分量的值s、亮度分量的值v:
Figure FDA00002304309000013
Figure FDA00002304309000021
v=MAX
其中,r为每一幅帧图像的每个像素点的红色分量R的归一化值,g为每一幅帧图像的每个像素点的绿色分量G的归一化值,b为每一幅帧图像的每个像素点的蓝色分量B的归一化值,MAX为每一幅帧图像的每个像素点的r、g、b中的最大值,MIN为每一幅帧图像的每个像素点的r、g、b中的最小值,按下式计算:
MAX=max(r,g,b)
MIN=min(r,g,b)
r = r &prime; 255
g = g &prime; 255
b = b &prime; 255
其中,r′为每一幅帧图像的每个像素点的红色分量R的值,g′为每一幅帧图像的每个像素点的绿色分量G的值,b′为每一幅帧图像的每个像素点的蓝色分量B的值;
(2.1b)根据第n′幅帧图像中色度分量的值h所对应的第l级索引huel的像素个数num(huel),计算第n′幅帧图像的色度分量的256柄直方图中索引huel对应的值histn′(huel):
histn′(huel)=num(huel)
其中,n′∈{1,2,…,Z3},huel为第n′幅帧图像色度分量的第l级索引,l∈{1,2,…,256},huel∈{1,2,…,256};
(2.1c)根据第n+1幅帧图像的色度分量的直方图中索引huel对应的值histn+1(huel)和第n幅帧图像的色度分量的直方图中索引huel对应的值histn(huel),计算第n+1幅帧图像和第n幅帧图像的色度直方图差值HHDn
HHD n = 1 M &times; N &Sigma; l = 1 256 | hist n + 1 ( hue l ) - hist n ( hue l ) |
其中,n∈{1,2,…,Z3-1},M为每一幅帧图像的高度,N为每一幅帧图像的宽度;
(2.1d)根据色度直方图差值HHDn,计算该视频片段的Z3-1个色度直方图差值的均值HHD:
HHD = 1 Z 3 - 1 &Sigma; n = 1 Z 3 - 1 HHD n ;
(2.1e)选取HHDn大于阈值T2的帧,其中,阈值T2为该视频片段的HHD的2倍,取T2=0.1938;
(2.1f)选取持续时间为10~20帧的镜头lsi,得到一系列的候选徽标镜头
Figure FDA00002304309000032
其中,i∈{1,2,…,Z4},Z4为候选徽标镜头总数;
(2.1g)利用镜头分割程序检测候选徽标镜头lsi′和候选徽标镜头lsi′-1之间的视频片段包含的镜头数目:如果该视频片段包含的镜头数目大于1,将该视频片段中的镜头标注为回放镜头,如果该视频片段包含的镜头数目等于1,将该视频片段中的镜头标注为实时镜头,其中,i′∈{2,3,…,Z4};
(2.2)将实时镜头进一步标注为远镜头、中镜头和非场地镜头:
(2.2a)在实时镜头中选取60幅远景帧图像,根据第p幅帧图像的色度分量的256柄直方图中索引huel对应的值histp(huel),计算60幅远景帧图像的色度分量的累加直方图中索引huel对应的值hist_sum(huel):
hist _ sum ( hue l ) = &Sigma; p = 1 60 hist p ( hue l )
其中,huel为第p幅帧图像色度分量的第l级索引,l∈{1,2,…,256},huel∈{1,2,…,256},p∈{1,2,…,60};
(2.2b)根据累加直方图中索引huel对应的值hist_sum(huel),计算累加直方图的峰值F:
F = max l = 1 256 { hist _ sum ( hue l ) } ;
(2.2c)根据累加直方图中每个索引对应的值和累加直方图的峰值F,确定满足如下条件的下限索引huelow
hist_sum(huelow)≥0.2×F
hist_sum(huelow-1)<0.2×F
其中,hist_sum(huelow)为累加直方图中下限索引huelow对应的值,hist_sum(huelow-1)为累加直方图中索引huelow-1对应的值;
(2.2d)根据累加直方图中每个索引对应的值和累加直方图的峰值F,确定满足如下条件的上限索引hueup
hist_sum(hueup)≥0.2×F
hist_sum(hueup+1)<0.2×F
其中,hist_sum(hueup)为累加直方图中上限索引hueup对应的值,hist_sum(hueup+1)为累加直方图中索引hueup+1对应的值;
(2.2e)将实时镜头的每一幅帧图像裁剪去顶部三分之一,统计裁剪后每一幅帧图像中色度分量的值h属于区间[huelow/256,hueup/256]的场地像素个数C1,计算每一幅帧图像的场地比率PR:
PR = C 1 2 3 &times; M &times; N
其中,M为每一幅帧图像的高度,N为每一幅帧图像的宽度;
(2.2f)根据每一幅帧图像的场地比率PR,判断每一幅帧图像的类型:
Figure FDA00002304309000042
其中,取阈值T3=0.70,T4=0.30;
(2.2g)若待标注实时镜头55%以上的帧图像属于远景帧图像,则标注该实时镜头为远镜头;若待标注实时镜头55%以上的帧图像属于中景帧图像,则标注该实时镜头为中镜头;否则标注为非场地镜头;
(2.3)将非场地镜头进一步标注为特写镜头与观众镜头:
(2.3a)将非场地镜头的每一幅帧图像从RGB颜色空间转换到YCbCr颜色空间,得到亮度分量Y的值y,蓝色色度分量Cb的值cb,红色色度分量Cr的值cr:
y=0.299r′+0.578g′+0.114b′
cb=0.564(b′-y)
cr=0.713(r′-y)
其中,r′为每一幅帧图像的每个像素点的红色分量R的值,g′为每一幅帧图像的每个像素点的绿色分量G的值,b′为每一幅帧图像的每个像素点的蓝色分量B的值;
(2.3b)根据每一幅帧图像的亮度分量Y的值y,用Canny算子检测每一幅帧图像中的边缘像素,得到边缘像素的个数C2
(2.3c)根据每一幅帧图像中的边缘像素的个数C2,计算待标注的非场地镜头中每一幅帧图像的边缘像素比率EPR:
EPR = C 2 M &times; N
其中,M为每一幅帧图像的高度,N为每一幅帧图像的宽度;
(2.3d)若一幅帧图像的EPR大于阈值T5,标记为观众帧图像,否则标记为特写帧图像,其中,取T5=0.10;
(2.3e)若待标注的非场地镜头55%以上的帧图像属于观众帧图像,则标注该非场地镜头为观众镜头,否则标记为特写镜头;
(3)定义语义镜头集为A={s1,s2,s3,s4,s5},其中,s1,s2,s3,s4,s5表示五种语义镜头,即s1为远镜头,s2为中镜头,s3为特写镜头,s4为观众镜头,s5为回放镜头;
(4)按如下步骤建立归一化的语义加权和规则,根据训练数据集,得到五种语义镜头各自的语义观测权重和进球事件判决阈值:
(4a)定义语义镜头集A中第k种语义镜头sk在进球事件中包含的信息为语义信息
Figure FDA00002304309000052
按下式进行计算:
I s k = - log ( P &OverBar; ( s k | e ) )
P &OverBar; ( s k | e ) = 1 Z 1 &Sigma; x = 1 Z 1 P x ( s k | e )
P x ( s k | e ) = a xs k a x
其中,Z1为训练视频片段个数,sk是语义镜头集A中的第k种语义镜头,k∈{1,2,3,4,5},e为进球事件,
Figure FDA00002304309000056
表示在进球事件中语义镜头sk出现的平均概率,Px(sk|e)为第x个训练视频片段中语义镜头sk出现的概率,为第x个训练视频片段中语义镜头sk的个数,ax为第x个训练视频片段中所有语义镜头的个数;
(4b)根据语义信息
Figure FDA00002304309000058
定义语义镜头集A中第k种语义镜头sk在进球事件中的重要性为语义观测权重
Figure FDA00002304309000059
为:
W s k = 1 I s k ;
(4c)根据语义观测权重
Figure FDA000023043090000511
计算第x个训练视频片段的语义加权和
Figure FDA000023043090000512
D x &prime; = &Sigma; k = 1 5 W s k &times; a xs k
&Sigma; k = 1 5 a xs k = a x ;
(4d)根据第x个训练视频片段的语义加权和
Figure FDA00002304309000063
计算训练视频片段的归一化语义加权和Dx
D x = 1 a x &times; D x &prime; ;
(4e)计算Z1个训练视频片段的Z1个归一化语义加权和
Figure FDA00002304309000065
中的最小值Dmin
D min = min ( D 1 , D 2 , &CenterDot; &CenterDot; &CenterDot; , D Z 1 ) ;
(4f)选取比最小值Dmin略小的一个数值T1作为进球事件判决阈值;
(5)根据语义观测权重
Figure FDA00002304309000067
计算第j个测试视频片段的语义加权和
D j &prime; &prime; = &Sigma; k = 1 5 W s k &times; b js k
&Sigma; k = 1 5 b js k = b j
其中,
Figure FDA000023043090000611
为语义镜头集A中第k种语义镜头sk的语义观测权重,为第j个测试视频片段中语义镜头sk的个数,bj为第j个测试视频片段中所有语义镜头的个数;
(6)根据第j个测试视频片段的语义加权和
Figure FDA000023043090000613
计算该测试视频片段的归一化语义加权和
Figure FDA000023043090000614
D j &prime; &prime; &prime; = 1 b j &times; D j &prime; &prime; ;
(7)若
Figure FDA000023043090000616
则第j个测试视频片段中包含进球事件,若
Figure FDA000023043090000617
则第j个测试视频片段中不包含进球事件。
CN 201110180083 2011-06-29 2011-06-29 基于归一化语义加权和规则的足球视频进球事件检测方法 Expired - Fee Related CN102306153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110180083 CN102306153B (zh) 2011-06-29 2011-06-29 基于归一化语义加权和规则的足球视频进球事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110180083 CN102306153B (zh) 2011-06-29 2011-06-29 基于归一化语义加权和规则的足球视频进球事件检测方法

Publications (2)

Publication Number Publication Date
CN102306153A CN102306153A (zh) 2012-01-04
CN102306153B true CN102306153B (zh) 2013-01-23

Family

ID=45380016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110180083 Expired - Fee Related CN102306153B (zh) 2011-06-29 2011-06-29 基于归一化语义加权和规则的足球视频进球事件检测方法

Country Status (1)

Country Link
CN (1) CN102306153B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL228204A (en) * 2013-08-29 2017-04-30 Picscout (Israel) Ltd Efficiently obtaining content-based video
CN104469545B (zh) * 2014-12-22 2017-09-15 无锡天脉聚源传媒科技有限公司 一种检验视频片段切分效果的方法和装置
CN107454437B (zh) * 2016-06-01 2020-04-14 深圳市妙思创想教育科技有限公司 一种视频标注方法及其装置、服务器
CN107247942B (zh) * 2017-06-23 2019-12-20 华中科技大学 一种融合多模态特征的网球视频事件检测方法
CN110460874B (zh) * 2019-08-09 2020-07-03 腾讯科技(深圳)有限公司 视频播放参数生成方法、装置、存储介质及电子设备
CN112686840A (zh) * 2020-12-16 2021-04-20 广州大学 饮料包装盒表面吸管检测方法、系统、装置和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599179A (zh) * 2009-07-17 2009-12-09 北京邮电大学 场地运动精彩镜头集锦自动生成方法
CN101604325A (zh) * 2009-07-17 2009-12-16 北京邮电大学 基于主场景镜头关键帧的体育视频分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004014061A2 (en) * 2002-08-02 2004-02-12 University Of Rochester Automatic soccer video analysis and summarization

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599179A (zh) * 2009-07-17 2009-12-09 北京邮电大学 场地运动精彩镜头集锦自动生成方法
CN101604325A (zh) * 2009-07-17 2009-12-16 北京邮电大学 基于主场景镜头关键帧的体育视频分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
卜江等.一种新的足球视频语义镜头表示及事件查询框架.《国防科技大学学报》.2009,第31卷(第5期),50-53. *
文军等.足球比赛视频中的精彩镜头分析方法.《计算机工程》.2004,第30卷(第6期),159-161. *
赵丕锡等.足球视频中近镜头的分类方法.《足球视频中近镜头的分类方法》.2007,第35卷(第9期),70-73. *

Also Published As

Publication number Publication date
CN102306153A (zh) 2012-01-04

Similar Documents

Publication Publication Date Title
CN102306153B (zh) 基于归一化语义加权和规则的足球视频进球事件检测方法
CN101604325B (zh) 基于主场景镜头关键帧的体育视频分类方法
CN101681433B (zh) 通过彩色图像分割和形状分析检测足球视频中感兴趣对象的方法和装置
CN102890781B (zh) 一种针对羽毛球比赛视频的精彩镜头识别方法
CN102819749B (zh) 一种基于视频分析的足球越位自动判别系统和方法
CN104166983A (zh) 基于结合图割(Graph Cut)的Vibe改进算法的运动目标实时提取方法
CN106709453A (zh) 一种基于深度学习的体育视频关键姿态提取方法
CN105469105A (zh) 一种基于视频监控的香烟烟雾检测方法
CN102306154B (zh) 基于隐条件随机场的足球视频进球事件检测方法
CN107784118A (zh) 一种针对用户兴趣语义的视频关键信息提取系统
CN102222111B (zh) 一种高清视频内容检索方法
CN110188241B (zh) 一种赛事智能制作系统及制作方法
CN104102910A (zh) 基于时空局部模式的体育视频战术行为识别方法
CN109308456B (zh) 目标对象的信息确定方法、装置、设备及存储介质
CN113033454B (zh) 一种城市视频摄像中建筑物变化的检测方法
CN103400155A (zh) 基于图半监督学习的色情视频检测方法
CN103810707B (zh) 一种基于移动视觉焦点的图像视觉显著性检测方法
CN102567738B (zh) 基于高斯分布的色情视频快速检测方法
Bhalla et al. A multimodal approach for automatic cricket video summarization
CN102393909B (zh) 基于隐马尔科夫模型的足球视频进球事件检测方法
Hari et al. Event detection in cricket videos using intensity projection profile of Umpire gestures
CN111291617A (zh) 基于机器学习的羽毛球赛事视频精彩片段提取方法
CN105374010A (zh) 全景图像的生成方法
CN1992913B (zh) 一种电视转播体育视频重放片段检测方法
CN114494941A (zh) 一种基于对比学习的弱监督时序动作定位方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130123

Termination date: 20180629

CF01 Termination of patent right due to non-payment of annual fee