CN102306153B

CN102306153B - 基于归一化语义加权和规则的足球视频进球事件检测方法

Info

Publication number: CN102306153B
Application number: CN 201110180083
Authority: CN
Inventors: 同鸣; 谢文娟; 张伟
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2011-06-29
Filing date: 2011-06-29
Publication date: 2013-01-23
Anticipated expiration: 2031-06-29
Also published as: CN102306153A

Abstract

本发明公开了一种基于归一化语义加权和规则的足球视频进球事件检测方法，主要解决现有技术语义事件模型复杂，需要大量具有代表性的数据集训练，计算量和人力耗费大，检测精度低的问题。其实现步骤是：首先，对训练视频和测试视频进行物理镜头分割和语义镜头标注，将得到的语义镜头序列分别组成训练数据集和测试数据集；其次，根据训练数据集统计得到各种语义镜头的语义观测权重和进球事件的判决阈值，建立归一化语义加权和规则；再计算测试视频序列的语义加权和，并进行归一化处理；最后，根据进球事件的判决阈值，检测出测试视频中的进球事件。本发明能够快速、准确实现进球语义事件的检测，可用于足球视频精彩事件检测等语义分析领域。

Description

基于归一化语义加权和规则的足球视频进球事件检测方法

技术领域

本发明属于视频信息检索领域，涉及体育视频语义分析，可用于足球视频进球事件检测中，以便快速、准确地检测进球事件。

背景技术

体育视频因为拥有庞大的受众群体和巨大的商业价值而备受研究者和社会各界的广泛关注。体育视频的精彩事件自动检测一直是视频语义分析领域研究的热点，其难点在于必须解决低层特征到高层语义之间的语义鸿沟，对此国内外学者进行了广泛的研究，取得了不菲的研究成果。目前主要的研究方法可归为两类，一类是基于机器学习的方法，另一类是基于人工规则的方法。

目前基于机器学习的方法主要有：

(1)Ding Y，Fan G L.Sports Video Mining via Multichannel Segmental Hidden MarkovModels[J]IEEE Trans.on Multimedia，2009，11(7)：1301-1309。该方法基于隐马尔科夫建模时序规律的良好性能，构建了多通道部分隐马尔科夫模型，能够同时进行视频结构的分层次、并行分析，较准确地捕获了多个隐马尔科夫链之间的交互规律，语义事件检测正确率达到了87.06％，但模型的构建比较复杂。

(2)Sadlier D A，O′Connor N E.Event detection in field sports video using audio-visualfeatures and a support vector machine[J]IEEE Trans.on Circuits and Systems for VideoTechnology，2005，15(10)：1225-1233。该方法通过建立音视频特征检测单元，采用支持向量机对提取特征进行融合，实现了足球、橄榄球等视频中eventful和noneventful事件的检测。该方法由于把语义事件检测问题直接作为特征分类问题解决，而没有充分利用语义信息，其事件检测正确率仅达到74％。

目前提出的基于人工规则的方法主要有：

(1)Shyu M L，Xie Z X，Chen M，et al.Video semantic event detection using asubspace-based multimedia data mining framework[J]IEEE Trans.on Multimedia，2008，10(2)：252-259。该方法采用C4.5决策树理论建立进球事件检测规则，降低了规则建立的主观性，进球事件查准率达到了91.7％，查全率达到了84.6％，但是事件检测的准确率和查全率仍有待进一步提高。

(2)Tjondronegoro，D.W.and Chen，Y.-P.P.Knowledge-discounted event detection insports video.IEEE Transactions on System，Men and Cybernetics，Part A：Systems and Humans.2010，40(5)：1009-1024。该方法辅助视频内容统计信息，以减少建立规则需要的启发式知识，但规则建立过程仍然比较繁琐，人力耗费较大。

发明内容

本发明目的是针对上述已有技术的不足，提出了一种基于归一化语义加权和规则的足球视频进球事件检测方法，以简化基于机器学习方法复杂的模型构建过程，减少基于人工规则方法的人力资源的耗费，快速、准确地检测进球事件。

为实现上述目的，本发明的技术方案包括如下步骤：

(1)对Z₁个训练视频片段和Z₂个测试视频片段分别进行物理镜头分割，得到第x个训练视频片段的物理镜头序列u_x和第j个测试视频片段的物理镜头序列q_j，其中，x∈{1，2，L，Z₁}，j∈{1，2，L，Z₂}；

(2)对第x个训练视频片段的物理镜头序列u_x中的物理镜头和第j个测试视频片段的物理镜头序列q_j中的物理镜头分别进行语义标注，得到由远镜头、中镜头、特写镜头、观众镜头和回放镜头组成的第x个训练视频片段的语义镜头序列w_x和第j个测试视频片段的语义镜头序列r_j，并将Z₁个训练视频片段的语义镜头序列w₁，w₂，L，

作为训练数据集，将Z₂个测试视频片段的语义镜头序列r₁，r₂，L，

作为测试数据集；

(3)定义语义镜头集为A＝{s₁，s₂，s₃，s₄，s₅}，其中，s₁，s₂，s₃，s₄，s₅表示五种语义镜头，即s₁为远镜头，s₂为中镜头，s₃为特写镜头，s₄为观众镜头，s₅为回放镜头；

(4)按如下步骤建立归一化的语义加权和规则，根据训练数据集，得到五种语义镜头各自的语义观测权重和进球事件判决阈值：

(4a)定义语义镜头集A中第k种语义镜头s_k在进球事件中包含的信息为语义信息

按下式进行计算：

I_{s_{k}} = - \log (\overset{&OverBar;}{P} (s_{k} | e))

\overset{&OverBar;}{P} (s_{k} | e) = \frac{1}{Z_{1}} Σ_{x = 1}^{Z_{1}} P_{x} (s_{k} | e)

P_{x} (s_{k} | e) = \frac{a_{{xs}_{k}}}{a_{x}}

其中，Z₁为训练视频片段个数，s_k是语义镜头集A中的第k种语义镜头，k∈{1，2，3，4，5}，e为进球事件，

表示在进球事件中语义镜头s_k出现的平均概率，P_x(s_k|e)为第x个训练视频片段中语义镜头s_k出现的概率，

为第x个训练视频片段中语义镜头s_k的个数，a_x为第x个训练视频片段中所有语义镜头的个数；

(4b)根据语义信息

定义语义镜头集A中第k种语义镜头s_k在进球事件中的重要性为语义观测权重

为：

W_{s_{k}} = \frac{I}{I_{s_{k}}};

(4c)根据语义观测权重

计算第x个训练视频片段的语义加权和D′_x：

D_{x}^{'} = Σ_{k = 1}^{5} W_{s_{k}} \times a_{{xs}_{k}}

Σ_{k = 1}^{5} a_{{xs}_{k}} = a_{x};

(4d)根据第x个训练视频片段的语义加权和D′_x，计算训练视频片段的归一化语义加权和D_x：

D_{x} = \frac{1}{a_{x}} \times D_{x}^{'};

(4e)计算Z₁个训练视频片段的Z₁个归一化语义加权和D₁，D₂，L，

中的最小值D_min：

D_{\min} = \min (D_{1}, D_{2}, L, D_{Z_{1}});

(4f)选取比最小值D_min略小的一个数值T₁作为进球事件判决阈值；

(5)根据语义观测权重

计算第j个测试视频片段的语义加权和D″_j：

D_{j}^{''} = Σ_{k = 1}^{5} W_{s_{k}} \times b_{{js}_{k}}

Σ_{k = 1}^{5} b_{{js}_{k}} = b_{j}

其中，

为语义镜头集A中第k种语义镜头s_k的语义观测权重，

为第j个测试视频片段中语义镜头s_k的个数，b_j为第j个测试视频片段中所有语义镜头的个数；

(6)根据第j个测试视频片段的语义加权和D″_j，计算该测试视频片段的归一化语义加权和D″′_j：

D_{j}^{'''} = \frac{1}{b_{j}} \times D_{j}^{''},

(7)若D″′_j＞T₁，则第j个测试视频片段中包含进球事件，若D″′_j≤T₁，则第j个测试视频片段中不包含进球事件。

本发明与现有技术相比具有以下优点：

1)本发明由于提出了一种归一化的语义加权和规则，消除了视频片段长度的影响，规则建立过程简单，不需要复杂的训练，计算量小；

2)本发明由于建立人工规则时引入了语义信息，并根据语义信息定义了语义镜头的语义观测权重，通过语义观测权重表征五种语义镜头在进球事件的重要性，得到视频片段的归一化语义加权和，能有效区分进球视频片段和非进球视频片段。

附图说明

图1是足球视频进球序列与非进球序列代表帧示例图；

图2是本发明的流程图；

图3是足球视频片段所对应的的归一化语义加权和示意图。

具体实施方式

一、基础理论介绍

足球比赛深受大众喜爱，但一场比赛视频数据量巨大，观众感兴趣的精彩事件通常只是整场比赛的很小一部分，因此，对比赛视频进行分析和处理，实现进球、罚球等精彩事件的语义检测在足球视频语义分析领域至关重要。然而，足球比赛视频有着特定的结构，深入、准确地挖掘这种内在的结构特征和联系，建立有效的足球比赛视频结构模型，使得精彩事件的语义检测成为可能，在体育视频语义分析领域具有重要的理论价值和市场应用前景。

足球比赛视频片段可分为进球视频片段和非进球视频片段，每个片段包括远镜头、中镜头、特写镜头、观众镜头和回放镜头，通过对大量真实比赛视频的分析发现，进球片段含有较多的特写镜头和回放镜头、较少的远镜头和中镜头。图1是足球视频中进球序列和非进球序列的代表帧示例图，其中图1(a)是进球序列，它用五个镜头展示了一次进球事件，这五个镜头为射门全景远镜头、射门球员特写镜头、观众镜头、包含若干球员的中镜头和回放镜头；图1(b)是非进球序列，它用远镜头与中镜头的交叉显示展示了一次非进球事件。

二、足球视频进球事件检测方法

参照图2，本发明基于归一化语义加权和规则的足球视频进球事件检测方法，步骤如下：

步骤1，对视频片段进行物理镜头分割，得到物理镜头序列。

选取进球视频片段作为训练视频片段，选取进球视频片段和非进球视频片段组成测试视频片段，对Z₁个训练视频片段和Z₂个测试视频片段分别进行物理镜头分割，得到第x个训练视频片段的物理镜头序列u_x和第j个测试视频片段的物理镜头序列q_j，其中，x∈{1，2，L，Z₁}，j∈{1，2，L，Z₂}。

步骤2，对第x个训练视频片段的物理镜头序列u_x中的物理镜头和第j个测试视频片段的物理镜头序列q_j中的物理镜头分别进行语义标注，即对包含语义信息的物理镜头赋予一个语义标签，得到由远镜头、中镜头、特写镜头、观众镜头和回放镜头组成的第x个训练视频片段的语义镜头序列w_x和第j个测试视频片段的语义镜头序列r_j。

(2.1)将第x个训练视频片段的物理镜头序列p_x中的物理镜头和第j个测试视频片段的物理镜头序列q_j中的物理镜头都分别标注为实时镜头与回放镜头：

(2.1a)将含有Z₃幅帧图像的视频片段中的每一幅帧图像从RGB颜色空间转换为HSV颜色空间，其RGB颜色空间由红色分量R，绿色分量G和蓝色分量B组成，转换后得到色度分量H的值h、饱和度分量S的值s、亮度分量V的值v：

h = \{\begin{matrix} 0, & if & MAX = MIN \\ \frac{1}{6} \times \frac{g - b}{MAX - MIN}, & if & MAX = r and g &GreaterEqual; b \\ \frac{1}{6} \times \frac{g - b}{MAX - MIN} + 1, & if & MAX = r and g < b \\ \frac{1}{6} \times \frac{b - r}{MAX - MIN} + \frac{1}{3}, & if & MAX = g \\ \frac{1}{6} \times \frac{r - g}{MAX - MIN} + \frac{2}{3}, & if & MAX = b \end{matrix}

s = \{\begin{matrix} 0, & if MAX = 0 \\ \frac{MAX - MIN}{MAX} = 1 - \frac{MIN}{MAX}, & otherwise \end{matrix}

v＝MAX

其中，r为每一幅帧图像的每个像素点的红色分量R的归一化值，g为每一幅帧图像的每个像素点的绿色分量G的归一化值，b为每一幅帧图像的每个像素点的蓝色分量B的归一化值，MAX为每一幅帧图像的每个像素点的r、g、b中的最大值，MIN为每一幅帧图像的每个像素点的r、g、b中的最小值，按下式计算：

MAX＝max(r，g，b)

MIN＝min(r，g，b)

r = \frac{r^{'}}{255}

g = \frac{g^{'}}{255}

b = \frac{b^{'}}{255}

其中，r′为每一幅帧图像的每个像素点的红色分量R的值，g′为每一幅帧图像的每个像素点的绿色分量G的值，b′为每一幅帧图像的每个像素点的蓝色分量B的值；

(2.1b)根据第n′幅帧图像中色度分量的值h所对应的第l级索引hue_l的像素个数num(hue_l)，计算第n′幅帧图像的色度分量的256柄直方图中索引hue_l对应的值hist_n′(hue_l)：

hist_n′(hue_l)＝num(hue_l)

其中，n′∈{1，2，L，Z₃}，hue_l为第n′幅帧图像色度分量的第l级索引，l∈{1，2，L，256}，hue_l∈{1，2，L，256}；

(2.1c)根据第n+1幅帧图像的色度分量的直方图中索引hue_l对应的值hist_n+1(hue_l)和第n幅帧图像的色度分量的直方图中索引hue_l对应的值hist_n(hue_l)，计算第n+1幅帧图像和第n幅帧图像的色度直方图差值HHD_n：

{HHD}_{n} = \frac{1}{M \times N} Σ_{l = 1}^{256} | {hist}_{n + 1} ({hue}_{l}) - {hist}_{n} ({hue}_{l}) |

其中，M为每一幅帧图像的高度，N为每一幅帧图像的宽度；

(2.1d)根据色度直方图差值HHD_n，计算该视频片段的Z₃-1个色度直方图差值的均值HHD：

HHD = \frac{1}{Z_{3} - 1} Σ_{n = 1}^{Z_{3} - 1} {HHD}_{n};

(2.1e)选取HHD_n大于阈值T₂的帧，其中，阈值T₂为该视频片段的HHD的2倍，取T₂＝0.1938；

(2.1f)选取持续时间为10～20帧的镜头ls_i，得到一系列的候选徽标镜头

其中，i∈{1，2，L，Z₄}，Z₄为候选徽标镜头总数；

(2.1g)真实的徽标镜头必成对出现，徽标镜头中间的片段即为回放片段，回放片段至少包含1个镜头。利用镜头分割程序检测候选徽标镜头ls_i′和候选徽标镜头ls_i′-1之间的视频片段包含的镜头数目：如果该视频片段包含的镜头数目大于1，将该视频片段中的镜头标注为回放镜头，如果该视频片段包含的镜头数目等于1，将该视频片段中的镜头标注为实时镜头，其中，i′∈{2，3，L，Z₄}。

(2.2)将实时镜头进一步标注为远镜头、中镜头和非场地镜头，其中远镜头提供比赛进行的全局情况，通常含有很大的场地面积，中镜头描述一个或若干个球员的全身以及动作，也含有一定的场地面积，但少于远镜头，因此，采用场地比率PR来区分远镜头和中镜头，即一幅帧图像的场地像素点个数和总像素点个数的比值，当某些远镜头含有部分观众区域时，场地面积减少，场地比率PR也减小，很容易将远镜头和中镜头错误标注，故本发明将帧图像顶部裁剪去三分之一后，根据裁剪后帧图像的场地比率PR和选取的阈值，将实时镜头进一步标注为远镜头、中镜头和非场地镜头：

(2.2a)在实时镜头中选取60幅远景帧图像，根据第p幅帧图像的色度分量的256柄直方图中索引hue_l对应的值hist_p(hue_l)，计算60幅远景帧图像的色度分量的累加直方图中索引hue_l对应的值hist_sum(hue_l)：

hist_sum ({hue}_{l}) = Σ_{p = 1}^{60} {hist}_{p} ({hue}_{l})

其中，hue_l为第p幅帧图像色度分量的第l级索引，l∈{1，2，L，256}，hue_l∈{1，2，L，256}，p∈{1，2，L，60}；

(2.2b)根据累加直方图中索引hue_l对应的值hist_sum(hue_l)，计算累加直方图的峰值F：

F = \max_{l = 1}^{256} {hist_sum ({hue}_{l})};

(2.2c)根据累加直方图中每个索引对应的值和累加直方图的峰值F，确定满足如下条件的下限索引hue_low：

hist_sum(hue_lower)≥0.2×F

hist_sum(hue_lower-1)＜0.2×F

其中，hist_sum(hue_low)为累加直方图中下限索引hue_low对应的值，hist_sum(hue_low-1)为累加直方图中索引hue_low-1对应的值；

(2.2d)根据累加直方图中每个索引对应的值和累加直方图的峰值F，确定满足如下条件的上限索引hue_up：

hist_sum(hue_upper)≥0.2×F

hist_sum(hue_upper+1)＜0.2×F

其中，hist_sum(hue_up)为累加直方图中上限索引hue_up对应的值，hist_sum(hue_up+1)为累加直方图中索引hue_up+1对应的值；

(2.2e)将实时镜头的每一幅帧图像裁剪去顶部三分之一，统计裁剪后每一幅帧图像中色度分量的值h属于区间[hue_low/256，hue_up/256]的场地像素个数C₁，计算每一幅帧图像的场地比率PR：

PR = \frac{C_{1}}{\frac{2}{3} \times M \times N}

其中，M为每一幅帧图像的高度，N为每一幅帧图像的宽度；

(2.2f)根据设定的阈值T₃、T₄和每一幅帧图像的场地比率PR，判断每一幅帧图像的类型：

如果一幅帧图像的场地比率PR大于阈值T₃，则该幅帧图像是远景帧图像，

如果一幅帧图像的场地比率PR小于等于阈值T₃并且大于等于阈值T₄，则该幅帧图像是中景帧图像，

如果一幅帧图像的场地比率PR小于阈值T₄，则该幅帧图像是非场地帧图像，

其中，取阈值T₃＝0.70，T₄＝0.30；

(2.2g)若待标注实时镜头55％以上的帧图像属于远景帧图像，则标注该实时镜头为远镜头；若待标注实时镜头55％以上的帧图像属于中景帧图像，则标注该实时镜头为中镜头；否则标注为非场地镜头；

(2.3)将非场地镜头进一步标注为特写镜头与观众镜头，由于观众镜头中观众数目较多，背景复杂，边缘信息丰富，特写镜头人物比例较大，平滑区域较多，需用边缘像素比率EPR表示每一幅帧图像中边缘像素点个数与总像素点个数的比率，故本发明根据边缘像素比率EPR和选取的阈值，按如下步骤将非场地镜头进一步标注为特写镜头与观众镜头：

(2.3a)将非场地镜头的每一幅帧图像从RGB颜色空间转换到YC_bC_r颜色空间，得到亮度分量Y的值y，蓝色色度分量C_b的值cb，红色色度分量C_r的值cr：

y＝0.299r′+0.578g′+0.114b′

cb＝0.564(b′-y)

cr＝0.713(r′-y)

(2.3b)根据每一幅帧图像的亮度分量Y的值y，用Canny算子检测每一幅帧图像中的边缘像素，得到边缘像素的个数C₂；

(2.3c)根据每一幅帧图像中的边缘像素的个数C₂，计算待标注的非场地镜头中每一幅帧图像的边缘像素比率EPR：

EPR = \frac{C_{2}}{M \times N}

其中，M为每一幅帧图像的高度，N为每一幅帧图像的宽度；

(2.3d)若一幅帧图像的EPR大于阈值T₅，标记为观众帧图像，否则标记为特写帧图像，其中，取T₅＝0.10；

(2.3e)若待标注的非场地镜头55％以上的帧图像属于观众帧图像，则标注该非场地镜头为观众镜头，否则标记为特写镜头。

步骤3，将Z₁个训练视频片段的语义镜头序列w₁，w₂，L，

作为测试数据集。

步骤4，定义语义镜头集为A＝{s₁，s₂，s₃，s₄，s₅}，其中，s₁，s₂，s₃，s₄，s₅表示五种语义镜头，即s₁为远镜头，s₂为中镜头，s₃为特写镜头，s₄为观众镜头，s₅为回放镜头。

步骤5，建立归一化的语义加权和规则，根据训练数据集，得到五种语义镜头各自的语义观测权重和进球事件判决阈值。

(5.1)定义语义镜头集A中第k种语义镜头s_k在进球事件中包含的信息为语义信息

I_{s_{k}} = - \log (\overset{&OverBar;}{P} (s_{k} | e))

\overset{&OverBar;}{P} (s_{k} | e) = \frac{1}{Z_{1}} Σ_{x = 1}^{Z_{1}} P_{x} (s_{k} | e)

P_{x} (s_{k} | e) = \frac{a_{{xs}_{k}}}{a_{x}}

(5.2)根据语义信息

W_{s_{k}} = \frac{I}{I_{s_{k}}};

(5.3)根据语义观测权重

计算第x个训练视频片段的语义加权和D′_x：

D_{x}^{'} = Σ_{k = 1}^{5} W_{s_{k}} \times a_{{xs}_{k}}

Σ_{k = 1}^{5} a_{{xs}_{k}} = a_{x};

(5.4)根据第x个训练视频片段的语义加权和D′_x，计算训练视频片段的归一化语义加权和D_x：

D_{x} = \frac{1}{a_{x}} \times D_{x}^{'};

(5.5)计算Z₁个训练视频片段的Z₁个归一化语义加权和D₁，D₂，L，

中的最小值D_min：

D_{\min} = \min (D_{1}, D_{2}, L, D_{Z_{1}});

(5.6)选取比最小值D_min略小的一个数值T₁作为进球事件判决阈值。

步骤6，根据语义观测权重

计算第j个测试视频片段的语义加权和D″_j：

D_{j}^{''} = Σ_{k = 1}^{5} W_{s_{k}} \times b_{{js}_{k}}

Σ_{k = 1}^{5} b_{{js}_{k}} = b_{j}

其中，

为语义镜头集A中第k种语义镜头s_k的语义观测权重，为第j个测试视频片段中语义镜头s_k的个数，b_j为第j个测试视频片段中所有语义镜头的个数；

步骤7，根据第j个测试视频片段的语义加权和D″_j，计算该测试视频片段的归一化语义加权和D″′_j：

D_{j}^{'''} = \frac{1}{b_{j}} \times D_{j}^{''};

步骤8，若D″′_j＞T₁，则第j个测试视频片段中包含进球事件，若D″′_j≤T₁，则第j个测试视频片段中不包含进球事件，其中，T₁为进球事件判决阈值，该判决阈值的选取是选比Z₁个训练视频片段的Z₁个归一化语义加权和D₁，D₂，L，

中的最小值D_min略小的一个数值，本发明根据实验视频中的训练视频片段进行实验仿真后选取T₁＝0.69。

本发明的效果可通过以下实验仿真进一步说明。

1)仿真条件

实验视频选自2010年南非世界杯多个场次的比赛，mpeg-1格式，帧分辨率为352×288。实验视频分为两部分，一部分作为训练视频片段，含有21个进球视频片段，剩余部分作为测试视频片段，含有29个进球视频片段和10个非进球视频片段。实验软件环境为Matlab R2008a。

2)仿真内容及结果

仿真一：对21个训练视频片段进行物理镜头分割，对得到的物理镜头序列进行语义标注，得到语义镜头序列，组成训练数据集，统计每种语义镜头的语义观测权重，统计结果如表1所示。

表1

仿真二：根据建立的归一化语义加权和规则，对21个进球视频片段和9个非进球视频片段分别求归一化语义加权和，实验结果如图3所示，图3中每个点表示一个视频片段。

仿真三：根据建立的归一化语义加权和规则，对39个测试视频片段分别求归一化语义加权和，根据判决阈值检测测试视频片段中是否含有进球事件，实验结果如表2所示。

表2

从表1可以看出，不同的语义镜头具有不同的语义权重。在进球事件中，特写镜头和回放镜头出现的概率大，语义观测权重也较大。远镜头、中镜头和观众镜头出现的概率较小，语义观测权重也较小。

从图3可以看出，足球视频中进球视频片段与非进球视频片段的归一化语义加权和有着比较明显的界限，选取合适阈值完全可以有效区分进球和非进球事件。本发明选取判决阈值T₁＝0.69。

从表2可以看出，本发明对于足球视频进球事件检测查准率达到了93.10％、查全率达到了96.43％，进球事件的检测有很好的效果。

以上仿真结果表明，本发明提出的基于归一化语义加权和规则的足球视频进球事件检测方法，规则建立过程简单，不需要复杂的训练，计算量小，建立规则时引入语义信息，能够准确、全面地实现进球事件检测。

Claims

1.一种基于归一化语义加权和规则的足球视频进球事件检测方法，包括如下步骤：

（1）对Z₁个训练视频片段和Z₂个测试视频片段分别进行物理镜头分割，得到第x个训练视频片段的物理镜头序列u_x和第j个测试视频片段的物理镜头序列q_j，其中，x∈{1,2,…,Z₁}，j∈{1,2,…,Z₂}；

（2）对第x个训练视频片段的物理镜头序列u_x中的物理镜头和第j个测试视频片段的物理镜头序列q_j中的物理镜头分别进行语义标注，得到由远镜头、中镜头、特写镜头、观众镜头和回放镜头组成的第x个训练视频片段的语义镜头序列w_x和第j个测试视频片段的语义镜头序列r_j，并将Z₁个训练视频片段的语义镜头序列作为训练数据集，将Z₂个测试视频片段的语义镜头序列

作为测试数据集；

所述的“对第x个训练视频片段的物理镜头序列u_x中物理镜头和第j个测试视频片段的物理镜头序列q_j中的物理镜头分别进行语义标注”，按如下步骤进行：

（2.1）将第x个训练视频片段的物理镜头序列u_x中的物理镜头和第j个测试视频片段的物理镜头序列q_j中的物理镜头都分别标注为实时镜头与回放镜头：

（2.1a）将含有Z₃幅帧图像的训练视频片段或测试视频片段中的每一幅帧图像从RGB颜色空间转换为HSV颜色空间，得到色度分量的值h、饱和度分量的值s、亮度分量的值v：

v＝MAX

MAX＝max(r,g,b)

MIN＝min(r,g,b)

r = \frac{r^{'}}{255}

g = \frac{g^{'}}{255}

b = \frac{b^{'}}{255}

（2.1b）根据第n′幅帧图像中色度分量的值h所对应的第l级索引hue_l的像素个数num(hue_l)，计算第n′幅帧图像的色度分量的256柄直方图中索引hue_l对应的值hist_n′(hue_l)：

hist_n′(hue_l)＝num(hue_l)

其中，n′∈{1,2,…,Z₃}，hue_l为第n′幅帧图像色度分量的第l级索引，l∈{1,2,…,256}，hue_l∈{1,2,…,256}；

（2.1c）根据第n+1幅帧图像的色度分量的直方图中索引hue_l对应的值hist_n+1(hue_l)和第n幅帧图像的色度分量的直方图中索引hue_l对应的值hist_n(hue_l)，计算第n+1幅帧图像和第n幅帧图像的色度直方图差值HHD_n：

{HHD}_{n} = \frac{1}{M \times N} Σ_{l = 1}^{256} | {hist}_{n + 1} ({hue}_{l}) - {hist}_{n} ({hue}_{l}) |

其中，n∈{1,2,…,Z₃-1}，M为每一幅帧图像的高度，N为每一幅帧图像的宽度；

（2.1d）根据色度直方图差值HHD_n，计算该视频片段的Z₃-1个色度直方图差值的均值HHD：

HHD = \frac{1}{Z_{3} - 1} Σ_{n = 1}^{Z_{3} - 1} {HHD}_{n};

（2.1e）选取HHD_n大于阈值T₂的帧，其中，阈值T₂为该视频片段的HHD的2倍，取T₂=0.1938；

（2.1f）选取持续时间为10～20帧的镜头ls_i，得到一系列的候选徽标镜头

其中，i∈{1,2,…,Z₄},Z₄为候选徽标镜头总数；

（2.1g）利用镜头分割程序检测候选徽标镜头ls_i′和候选徽标镜头ls_i′-1之间的视频片段包含的镜头数目：如果该视频片段包含的镜头数目大于1，将该视频片段中的镜头标注为回放镜头，如果该视频片段包含的镜头数目等于1，将该视频片段中的镜头标注为实时镜头，其中，i′∈{2,3,…,Z₄}；

（2.2）将实时镜头进一步标注为远镜头、中镜头和非场地镜头：

（2.2a）在实时镜头中选取60幅远景帧图像，根据第p幅帧图像的色度分量的256柄直方图中索引hue_l对应的值hist_p(hue_l)，计算60幅远景帧图像的色度分量的累加直方图中索引hue_l对应的值hist_sum(hue_l)：

hist_sum ({hue}_{l}) = Σ_{p = 1}^{60} {hist}_{p} ({hue}_{l})

其中，hue_l为第p幅帧图像色度分量的第l级索引，l∈{1,2,…,256}，hue_l∈{1,2,…,256}，p∈{1,2,…,60}；

（2.2b）根据累加直方图中索引hue_l对应的值hist_sum(hue_l)，计算累加直方图的峰值F：

F = \max_{l = 1}^{256} {hist_sum ({hue}_{l})};

（2.2c）根据累加直方图中每个索引对应的值和累加直方图的峰值F，确定满足如下条件的下限索引hue_low：

hist_sum(hue_low)≥0.2×F

hist_sum(hue_low-1)＜0.2×F

（2.2d）根据累加直方图中每个索引对应的值和累加直方图的峰值F，确定满足如下条件的上限索引hue_up：

hist_sum(hue_up)≥0.2×F

hist_sum(hue_up+1)＜0.2×F

(2.2e)将实时镜头的每一幅帧图像裁剪去顶部三分之一，统计裁剪后每一幅帧图像中色度分量的值h属于区间[hue_low/256,hue_up/256]的场地像素个数C₁，计算每一幅帧图像的场地比率PR：

PR = \frac{C_{1}}{\frac{2}{3} \times M \times N}

其中，M为每一幅帧图像的高度，N为每一幅帧图像的宽度；

（2.2f）根据每一幅帧图像的场地比率PR，判断每一幅帧图像的类型：

其中，取阈值T₃=0.70，T₄=0.30；

（2.2g）若待标注实时镜头55%以上的帧图像属于远景帧图像，则标注该实时镜头为远镜头；若待标注实时镜头55%以上的帧图像属于中景帧图像，则标注该实时镜头为中镜头；否则标注为非场地镜头；

（2.3）将非场地镜头进一步标注为特写镜头与观众镜头：

（2.3a）将非场地镜头的每一幅帧图像从RGB颜色空间转换到YC_bC_r颜色空间，得到亮度分量Y的值y，蓝色色度分量C_b的值cb，红色色度分量C_r的值cr：

y＝0.299r′+0.578g′+0.114b′

cb＝0.564(b′-y)

cr＝0.713(r′-y)

（2.3b）根据每一幅帧图像的亮度分量Y的值y，用Canny算子检测每一幅帧图像中的边缘像素，得到边缘像素的个数C₂；

（2.3c）根据每一幅帧图像中的边缘像素的个数C₂，计算待标注的非场地镜头中每一幅帧图像的边缘像素比率EPR：

EPR = \frac{C_{2}}{M \times N}

其中，M为每一幅帧图像的高度，N为每一幅帧图像的宽度；

（2.3d）若一幅帧图像的EPR大于阈值T₅，标记为观众帧图像，否则标记为特写帧图像，其中，取T₅=0.10；

（2.3e）若待标注的非场地镜头55%以上的帧图像属于观众帧图像，则标注该非场地镜头为观众镜头，否则标记为特写镜头；

（3）定义语义镜头集为A＝{s₁,s₂,s₃,s₄,s₅}，其中，s₁,s₂,s₃,s₄,s₅表示五种语义镜头，即s₁为远镜头，s₂为中镜头，s₃为特写镜头，s₄为观众镜头，s₅为回放镜头；

（4）按如下步骤建立归一化的语义加权和规则，根据训练数据集，得到五种语义镜头各自的语义观测权重和进球事件判决阈值：

（4a）定义语义镜头集A中第k种语义镜头s_k在进球事件中包含的信息为语义信息

按下式进行计算：

I_{s_{k}} = - \log (\overset{&OverBar;}{P} (s_{k} | e))

\overset{&OverBar;}{P} (s_{k} | e) = \frac{1}{Z_{1}} Σ_{x = 1}^{Z_{1}} P_{x} (s_{k} | e)

P_{x} (s_{k} | e) = \frac{a_{{xs}_{k}}}{a_{x}}

其中，Z₁为训练视频片段个数，s_k是语义镜头集A中的第k种语义镜头，k∈{1,2,3,4,5}，e为进球事件，

表示在进球事件中语义镜头s_k出现的平均概率，P_x(s_k|e)为第x个训练视频片段中语义镜头s_k出现的概率，为第x个训练视频片段中语义镜头s_k的个数，a_x为第x个训练视频片段中所有语义镜头的个数；

（4b）根据语义信息

为：

W_{s_{k}} = \frac{1}{I_{s_{k}}};

（4c）根据语义观测权重

计算第x个训练视频片段的语义加权和

D_{x}^{'} = Σ_{k = 1}^{5} W_{s_{k}} \times a_{{xs}_{k}}

Σ_{k = 1}^{5} a_{{xs}_{k}} = a_{x};

（4d）根据第x个训练视频片段的语义加权和

计算训练视频片段的归一化语义加权和D_x：

D_{x} = \frac{1}{a_{x}} \times D_{x}^{'};

（4e）计算Z₁个训练视频片段的Z₁个归一化语义加权和

中的最小值D_min：

D_{\min} = \min (D_{1}, D_{2}, \cdot \cdot \cdot {, D}_{Z_{1}});

（4f）选取比最小值D_min略小的一个数值T₁作为进球事件判决阈值；

（5）根据语义观测权重

计算第j个测试视频片段的语义加权和

D_{j}^{''} = Σ_{k = 1}^{5} W_{s_{k}} \times b_{{js}_{k}}

Σ_{k = 1}^{5} b_{{js}_{k}} = b_{j}

其中，

（6）根据第j个测试视频片段的语义加权和

计算该测试视频片段的归一化语义加权和

D_{j}^{'''} = \frac{1}{b_{j}} \times D_{j}^{''};

（7）若

则第j个测试视频片段中包含进球事件，若

则第j个测试视频片段中不包含进球事件。