CN102306154B

CN102306154B - 基于隐条件随机场的足球视频进球事件检测方法

Info

Publication number: CN102306154B
Application number: CN 201110180085
Authority: CN
Inventors: 同鸣; 谢文娟; 张伟
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2011-06-29
Filing date: 2011-06-29
Publication date: 2013-03-20
Anticipated expiration: 2031-06-29
Also published as: CN102306154A

Abstract

本发明公开了一种基于隐条件随机场的足球视频进球事件检测方法，主要解决现有技术不能同时具有隐状态表达能力和表达交叠性特征的问题。其实现步骤是：首先，对训练视频和测试视频进行物理镜头分割和语义镜头标注，判断每个训练视频是否含进球事件，得到类别标签，将训练视频的语义镜头序列和类别标签组成训练数据集，将测试视频的语义镜头序列组成测试数据集；接着，根据训练数据集，调用Matlab工具包HCRF2.0b中trainHCRF函数计算模型参数，建立进球事件的隐条件随机场模型；最后，根据已建立模型，调用testHCRF函数计算测试视频对应不同类别标签的概率，进行进球事件检测。本发明能够准确、全面实现进球事件检测，可用于足球视频精彩事件检测等语义分析领域。

Description

基于隐条件随机场的足球视频进球事件检测方法

技术领域

本发明属于视频信息检索领域，涉及体育视频语义分析，可用于足球视频进球事件检测中，以准确、全面地检测进球事件。

背景技术

体育视频因为拥有庞大的受众群体和巨大的商业价值而备受研究者和社会各界的广泛关注。体育视频的精彩事件自动检测一直是视频语义分析领域研究的热点，其难点在于必须解决低层特征到高层语义之间的语义鸿沟，对此国内外学者进行了广泛的研究，取得了不菲的研究成果。

目前的方法主要有：

(1)Sadlier D A，O′Connor N E.Event detection in field sports video usingaudio-visual features and a support vector machine[J]IEEE Trans.on Circuits andSystems for Video Technology，2005，15(10)：1225-1233。该方法通过建立音视频特征检测单元，采用支持向量机对提取特征进行融合，实现了足球、橄榄球等视频中eventful和noneventful事件的检测。该方法由于把语义事件检测问题直接作为特征分类问题解决，而没有充分利用语义信息，其事件检测正确率仅达到74％。

(2)Ding Y，Fan G L.Sports Video Mining via Multichannel SegmentalHidden Markov Models[J]IEEE Trans.on Multimedia，2009，11(7)：1301-1309。该方法基于隐马尔科夫建模时序规律的良好性能，构建了多通道部分隐马尔科夫模型，能够同时进行视频结构的分层次、并行分析，较准确地捕获了多个隐马尔科夫链之间的交互规律，语义事件检测正确率达到了87.06％，但模型的构建比较复杂。

(3)Xu C S，Zhang Y F，Zhu G Y，et al.Using webcast text for semantic eventdetection in broadcast sports video[J]IEEE Trans.on Multimedia，2008，10(7)：1342-1355。这种方法采用潜在的语义分析方法检测网络文本中的关键事件，将文本检测结果和低层特征作为条件随机场模型的输入，实现足球、篮球体育视频中多种语义事件的检测。但这种方法构建模型的过程比较耗时，未采用隐藏状态变量，不能更有效地挖掘语义事件的潜在规律，限制了检测性能的提高。

发明内容

本发明目的是针对上述已有技术的不足，提出一种基于隐条件随机场的足球视频进球事件检测方法，以简化复杂的模型构建过程，减少建模耗时，提高事件检测正确率。

为实现上述目的，本发明的技术方案包括如下步骤：

(1)定义语义镜头集为ε＝{s₁，s₂，s₃，s₄，s₅}，其中，s₁，s₂，s₃，s₄，s₅表示五种语义镜头，即s₁为远镜头，s₂为中镜头，s₃为特写镜头，s₄为观众镜头，s₅为回放镜头；

(2)定义进球事件的隐条件随机场的类别标签集为α＝{0，1}，其中，0表示进球事件的隐条件随机场模型的输入不包含进球事件，1表示进球事件的隐条件随机场模型的输入包含进球事件；

(3)对N₁个训练视频片段和N₂个测试视频片段分别进行物理镜头分割，得到第d个训练视频片段的物理镜头序列P_d和第e个测试视频片段的物理镜头序列Q_e，其中，d∈{1，2，L，N₁}，e∈{1，2，L，N₂}；

(4)对第d个训练视频片段的物理镜头序列P_d中的物理镜头和第e个测试视频片段的物理镜头序列Q_e中的物理镜头分别进行语义标注，得到由远镜头、中镜头、特写镜头、观众镜头和回放镜头组成的第d个训练视频片段的语义镜头序列O_d和第e个测试视频片段的语义镜头序列Z_e；

(5)对第d个训练视频片段，人工判断是否包含进球事件，得到第d个训练视频片段的类别标签λ_d，λ_d∈α；

(6)将N₁个训练视频片段的语义镜头序列O₁，O₂，L，

和N₁个训练视频片段的类别标签λ₁，λ₂，L，作为训练数据集

将N₂个测试视频片段的语义镜头序列Z₁，Z₂，L，

作为测试数据集

Z = {Z_{1}, Z_{2}, L, Z_{N_{2}}};

(7)根据训练数据集O中的N₁个语义镜头序列O₁，O₂，L，

和对应的N₁个类别标签λ₁，λ₂，L，

调用Matlab工具包HCRF2.0b中trainHCRF函数，计算进球事件的隐条件随机场模型的模型参数θ，并利用模型参数θ建立进球事件的隐条件随机场模型，其中，函数trainHCRF的调用格式为θ＝trainHCRF(trainseqs，trainlabels，params)，trainseqs为训练数据集中的N1个语义镜头序列O₁，O₂，L，

trainlabels为对应的N₁个类别标签λ₁，λ₂，L，

params为函数参数，params.nbHiddenStates为隐状态个数N，取值为3，params.windowsize为窗长度ω，取值为1，params.optimizer为优化算法，选择bgfs算法，params.maxIterations为最大迭代次数，取值为300；

(8)根据进球事件的隐条件随机场模型和测试数据集Z，调用Matlab工具包HCRF2.0b中testHCRF函数，计算测试数据集Z中第e个测试视频片段的语义镜头序列Z_e对应于类别标签0的概率β_e，0，以及该语义镜头序列对应于类别标签1的概率β_e，1；

(9)若β_e，0＞β_e，1，则第e个测试视频片段的语义镜头序列Z_e的预测类别标签为0，该测试视频片段不包含进球事件，若β_e，0＜β_e，1，则第e个测试视频片段的语义镜头序列Z_e的预测类别标签为1，该测试视频片段包含进球事件，若β_e，0＝β_e，1，则无法判断第e个测试视频片段是否包含进球事件。

本发明与现有技术相比具有以下优点：

1)本发明由于建立的进球事件的隐条件随机场模型同时具有隐状态表达能力和表达长距离依赖性和交叠性特征的能力，能够更自然地对足球视频中的时空邻域关系进行建模；

2)本发明由于将视频的物理镜头标注为语义镜头，然后将语义镜头序列作为进球事件的隐条件随机场模型的输入进行进球事件的检测，有效缓解了低层特征到高层语义之间的语义鸿沟，改善了进球事件的检测性能。

附图说明

图1是足球视频进球序列与非进球序列的代表帧示例图；

图2是隐条件随机场模型示意图；

图3是本发明的流程图。

具体实施方式

一、基础理论介绍

足球比赛深受大众喜爱，但一场比赛视频数据量巨大，观众感兴趣的精彩事件通常只是整场比赛的很小一部分，因此，对比赛视频进行分析和处理，实现进球、罚球等精彩事件的语义检测在足球视频语义分析领域至关重要。然而，足球比赛视频有着特定的结构，深入、准确地挖掘这种内在的结构特征和联系，建立有效的足球比赛视频结构模型，使得精彩事件的语义检测成为可能，在体育视频语义分析领域具有重要的理论价值和市场应用前景。

足球比赛视频片段可分为进球视频片段和非进球视频片段，每个片段包括远镜头、中镜头、特写镜头、观众镜头和回放镜头，通过对大量真实比赛视频的分析发现，进球片段含有较多的特写镜头和回放镜头、较少的远镜头和中镜头。图1是足球视频中进球序列和非进球序列的代表帧示例图，其中图1(a)是进球序列，它用5个镜头展示了一次进球事件，这5个镜头为射门全景远镜头、射门球员特写镜头、观众镜头、包含若干球员的中镜头和回放镜头；图1(b)是非进球序列，它用远镜头与中镜头的交叉显示展示了一次非进球事件。

隐条件随机场是一种具有隐状态变量的无向图概率模型。给定一个观察值序列，在隐条件随机场模型中存在一个对应的隐状态序列，当前时刻的隐状态既可以只根据当前时刻的观察值元素预测产生，也可以根据当前时刻的观察值元素和相邻观察值元素共同预测产生。

隐条件随机场的具体定义如下。假设需要对一个输入序列x′预测标签β₀，其中，β₀为标签集Γ中的一个元素，输入序列x′也称为观察序列，是一个观察值集合x′＝{x′₁，x′₂，L，x′_a′}。在不同的输入序列中，观察值集合的元素数目a′是可变的。每个观察值元素x′_c由一个特征向量φ(x′_c)表示，其中，c∈{1，2，L，a′}，

m为维数。训练数据集由观察序列-类别标签数据对(x_j，β_j)组成，其中，β_j∈Γ，j＝1，2，L，N，a_j为第j个观察序列中元素个数，N为训练数据集中观察序列-类别标签数据对的数目。测试数据集由观察序列组成。

图2是隐条件随机场模型示意图，其中，u＝{u₁，u₂，L，u_t}为隐条件随机场模型的输入观察序列，ρ＝{ρ₁，ρ₂，L，ρ_t}为输入观察序列u对应的隐状态序列，它根据观察序列u产生，并且在训练数据集中是无法被观察的，ρ_γ∈Ω，γ∈{1，2，L，t}，Ω为隐条件随机场的隐状态集合，隐状态ρ_γ对应于观察序列u中的观察值元素u_γ，ρ_γ可以仅仅根据单个观察值元素u_γ预测产生，也可以根据观察值元素u_γ和其它观察值元素共同预测产生，类别标签z根据隐藏状态之间的结构得到。

在给定输入序列x′和隐条件随机场模型参数θ的条件下，计算输入序列x′具有标签β′的概率：

P (β^{'} | x^{'}; θ) = = \frac{Σ_{η} \exp (Ψ (β^{'}, η, x^{'}; θ))}{Σ_{τ, η} \exp (Ψ (τ, η, x^{'}; θ))}

其中，x′为输入序列，β′为输入序列x′可能对应的标签，β′∈Γ，θ为隐条件随机场的模型参数，τ为输入序列x′可能对应的标签，τ∈Γ，η＝{η₁，η₂，L，η_a′}为输入序列x′对应的隐状态序列，

是以θ为参数的势函数，势函数按下式计算：

Ψ (β^{'}, η, x^{'}; θ) = Σ_{c = 1}^{a^{'}} φ (x_{c}^{'}) \cdot θ (η_{c}) + Σ_{c = 1}^{a^{'}} θ (β^{'}, η_{c}) + \underset{(c, c^{'}) &Element; E}{Σ} θ (β^{'}, η_{c}, η_{c^{'}})

其中，φ(x′_c)为输入序列x′中第c个观察值元素x′_c的特征向量表示，

η_c∈Ω，θ(η_c)为对应于第c个隐状态η_c的参数矢量，矢量维数为m维，内积φ(x′_c)·θ(η_c)为观察值元素x′_c与隐状态η_c的兼容性度量，为隐状态η_c与类别标签β′的兼容性度量，

为隐状态η_c和隐状态η_c′的联合与类别标签β′的兼容性度量，E为隐条件随机场模型的无向图，c′∈{1，2，L，a′}，隐状态表示无向图的节点，若某个观察值元素同时与隐状态η_c、隐状态η_c′有关，则在无向图E中存在边(c，c′)。

根据输入序列x′具有标签β′的概率P(β′|x′；θ)，计算输入序列x′的预测标签β₀：

β₀＝argmax_β′∈ΓP(β′|x′；θ)。

二、足球视频进球事件检测方法

参照图3，本发明基于隐条件随机场的足球视频进球事件检测方法，步骤如下：

步骤1，定义语义镜头集为ε＝{s₁，s₂，s₃，s₄，s₅}，其中，s₁，s₂，s₃，s₄，s₅表示五种语义镜头，即s₁为远镜头，s₂为中镜头，s₃为特写镜头，s₄为观众镜头，s₅为回放镜头。

步骤2，定义进球事件的隐条件随机场的类别标签集为α＝{0，1}，其中，0表示进球事件的隐条件随机场模型的输入不包含进球事件，1表示进球事件的隐条件随机场模型的输入包含进球事件。

步骤3，对N₁个训练视频片段和N₂个测试视频片段分别进行物理镜头分割，得到第d个训练视频片段的物理镜头序列P_d和第e个测试视频片段的物理镜头序列Q_e，其中，d∈{1，2，L，N₁}，e∈{1，2，L，N₂}。

步骤4，对第d个训练视频片段的物理镜头序列P_d中的物理镜头和第e个测试视频片段的物理镜头序列Q_e中的物理镜头分别进行语义标注，即对包含语义信息的物理镜头赋予一个语义标签，得到由远镜头、中镜头、特写镜头、观众镜头和回放镜头组成的第d个训练视频片段的语义镜头序列O_d和第e个测试视频片段的语义镜头序列Z_e。

(4.1)将第d个训练视频片段的物理镜头序列P_d中的物理镜头和第e个测试视频片段的物理镜头序列Q_e中的物理镜头都分别标注为实时镜头与回放镜头：

(4.1a)将含有N₃幅帧图像的训练视频片段或测试视频片段中的每一幅帧图像从RGB颜色空间转换为HSV颜色空间，其RGB颜色空间由红色分量R，绿色分量G和蓝色分量B组成，转换后得到色度分量H的值h、饱和度分量S的值s、亮度分量V的值v：

h = \{\begin{matrix} 0, & if & MAX = MIN \\ \frac{1}{6} \times \frac{g - b}{MAX - MIN}, & if & MAX = r and g &GreaterEqual; b \\ \frac{1}{6} \times \frac{g - b}{MAX - MIN} + 1, & if & MAX = r and g < b \\ \frac{1}{6} \times \frac{b - r}{MAX - MIN} + \frac{1}{3}, & if & MAX = g \\ \frac{1}{6} \times \frac{r - g}{MAX - MIN} + \frac{2}{3}, & if & MAX = b \end{matrix}

s = \{\begin{matrix} 0, & if MAX = 0 \\ \frac{MAX - MIN}{MAX} = 1 - \frac{MIN}{MAX}, & otherwise \end{matrix}

v＝MAX

其中，r为每一幅帧图像的每个像素点的红色分量R的归一化值，g为每一幅帧图像的每个像素点的绿色分量G的归一化值，b为每一幅帧图像的每个像素点的蓝色分量B的归一化值，MAX为每一幅帧图像的每个像素点的r、g、b中的最大值，MIN为每一幅帧图像的每个像素点的r、g、b中的最小值，按下式计算：

MAX＝max(r，g，b)

MIN＝min(r，g，b)

r = \frac{r^{'}}{255}

g = \frac{g^{'}}{255}

b = \frac{b^{'}}{255}

其中，r′为每一幅帧图像的每个像素点的红色分量R的值，g′为每一幅帧图像的每个像素点的绿色分量G的值，b′为每一幅帧图像的每个像素点的蓝色分量B的值；

(4.1b)根据第n′幅帧图像中色度分量的值h所对应的第l级索引hue_l的像素个数num(hue_l)，计算第n′幅帧图像的色度分量的256柄直方图中索引hue_l对应的值hist_n′(hue_l)：

hist_n(hue_l)＝num(hue_l)

其中，n′∈{1，2，L，N₃}，hue_l为第n′幅帧图像色度分量的第l级索引，l∈{1，2，L，256}，hue_l∈{1，2，L，256}；

(4.1c)根据第n+1幅帧图像的色度分量的直方图中索引hue_l对应的值hist_n+1(hue_l)和第n幅帧图像的色度分量的直方图中索引hue_l对应的值hist_n(hue_l)，计算第n+1幅帧图像和第n幅帧图像的色度直方图差值HHD_n：

{HHD}_{n} = \frac{1}{L \times L} Σ_{l = 1}^{256} | {hist}_{n + 1} ({hue}_{l}) - {hist}_{n} ({hue}_{l}) |

其中，x∈{1，2，L，N₃-1}，L为每一幅帧图像的高度，K为每一幅帧图像的宽度；

(4.1d)根据色度直方图差值HHD_n，计算该视频片段的N₃-1个色度直方图差值的均值HHD：

HHD = \frac{1}{N_{3} - 1} Σ_{n = 1}^{N_{3} - 1} {HHD}_{n};

(4.1e)选取HHD_n大于阈值T₂的帧，其中，阈值T₂为该视频片段的HHD的2倍，取T₂＝0.1938；

(4.1f)选取持续时间为10～20帧的镜头ls_w，得到一系列的候选徽标镜头

其中，w∈{1，2，...，N₄}，N₄为候选徽标镜头总数；

(4.1g)真实的徽标镜头必成对出现，徽标镜头中间的片段即为回放片段，回放片段至少包含1个镜头。利用镜头分割程序检测候选徽标镜头ls_w′和候选徽标镜头ls_w′-1之间的视频片段包含的镜头数目：如果该视频片段包含的镜头数目大于1，将该视频片段中的镜头标注为回放镜头，如果该视频片段包含的镜头数目等于1，将该视频片段中的镜头标注为实时镜头，其中，w′∈{2，3，L，N₄}；

(4.2)将实时镜头进一步标注为远镜头、中镜头和非场地镜头，其中远镜头提供比赛进行的全局情况，通常含有很大的场地面积，中镜头描述一个或若干个球员的全身以及动作，也含有一定的场地面积，但少于远镜头，因此，采用场地比率PR来区分远镜头和中镜头，即一幅帧图像的场地像素点个数和总像素点个数的比值，当某些远镜头含有部分观众区域时，场地面积减少，场地比率PR也减小，很容易将远镜头和中镜头错误标注，故本发明将帧图像顶部裁剪去三分之一后，根据场地比率PR和选取的阈值，将实时镜头进一步标注为远镜头、中镜头和非场地镜头：

(4.2a)在实时镜头中选取60幅远景帧图像，根据第p幅帧图像的色度分量的256柄直方图中索引hue_l对应的值hist_p(hue_l)，计算60幅远景帧图像的色度分量的累加直方图中索引hue_l对应的值sh(hue_l)：

sh ({hue}_{l}) = Σ_{p = 1}^{60} {hist}_{p} ({hue}_{l})

其中，hue_l为第p幅帧图像色度分量的第l级索引，l∈{1，2，L，256}，hue_l∈{1，2，L，256}，p∈{1，2，L，60}；

(4.2b)根据累加直方图中索引hue_l对应的值sh(hue_l)，计算累加直方图的峰值F：

F＝max{sh(hue₁)，sh(hue₂)，L，sh(hue₂₅₆)}；

(4.2c)根据累加直方图中每个索引对应的值和累加直方图的峰值F，确定满足如下条件的下限索引hue_low：

sh(hue_lower)≥0.2×F

sh(hue_lower-1)＜0.2×F

其中，sh(hue_low)为累加直方图中下限索引hue_low对应的值，sh(hue_low-1)为累加直方图中索引hue_low-1对应的值；

(4.2d)根据累加直方图中每个索引对应的值和累加直方图的峰值F，确定满足如下条件的上限索引hue_up：

sh(hue_upper)≥0.2×F

sh(hue_upper+1)＜0.2×F

其中，sh(hue_up)为累加直方图中上限索引hue_up对应的值，sh(hue_up+1)为累加直方图中索引hue_up+1对应的值；

(4.2e)将实时镜头的每一幅帧图像裁剪去顶部三分之一，统计裁剪后每一幅帧图像中色度分量的值h属于区间[hue_low/256，hue_up/256]的场地像素个数C₁，计算每一幅帧图像的场地比率PR：

PR = \frac{C_{1}}{\frac{2}{3} \times L \times K}

其中，L为每一幅帧图像的高度，K为每一幅帧图像的宽度；

(4.2f)根据设定的阈值T₃、T₄和每一幅帧图像的场地比率PR，判断每一幅帧图像的类型：

如果一幅帧图像的场地比率PR大于阈值T₃，则该幅帧图像是远景帧图像，

如果一幅帧图像的场地比率PR小于等于阈值T₃并且大于等于阈值T₄，则该幅帧图像是中景帧图像，

如果一幅帧图像的场地比率PR小于阈值T₄，则该幅帧图像是非场地帧图像，

其中，取阈值T₃＝0.70，T₄＝0.30；

(4.2g)若待标注实时镜头55％以上的帧图像属于远景帧图像，则标注该实时镜头为远镜头；若待标注实时镜头55％以上的帧图像属于中景帧图像，则标注该实时镜头为中镜头；否则标注为非场地镜头；

(4.3)将非场地镜头进一步标注为特写镜头与观众镜头，由于观众镜头中观众数目较多，背景复杂，边缘信息丰富，特写镜头人物比例较大，平滑区域较多，需用边缘像素比率EPR表示每一幅帧图像中边缘像素点个数与总像素点个数的比率，故本发明根据边缘像素比率EPR和选取的阈值，按如下步骤将非场地镜头进一步标注为特写镜头与观众镜头：

(4.3a)将非场地镜头的每一幅帧图像从RGB颜色空间转换到YC_bC_r颜色空间，得到亮度分量Y的值y，蓝色色度分量C_b的值cr，红色色度分量C_r的值cb：

y＝0.299r′+0.578g′+0.114b′

cb＝0.564(b′-y)

cr＝0.713(r′-y)

(4.3b)根据每一幅帧图像的亮度分量Y的值y，用Canny算子检测每一幅帧图像中的边缘像素的个数C₂；

(4.3c)根据每一幅帧图像中的边缘像素的个数C₂，计算待标注的非场地镜头中每一幅帧图像的边缘像素比率EPR：

EPR = \frac{C_{2}}{L \times K}

其中，L为每一幅帧图像的高度，K为每一幅帧图像的宽度；

(4.3d)若一幅帧图像的EPR大于阈值T₅，标记为观众帧图像，否则标记为特写帧图像，其中，取T₅＝0.10；

(4.3e)若待标注的非场地镜头55％以上的帧图像属于观众帧图像，则标注该非场地镜头为观众镜头，否则标记为特写镜头。

步骤5，对第d个训练视频片段，人工判断是否包含进球事件，得到第d个训练视频片段的类别标签λ_d，λ_d∈α。

步骤6，将N₁个训练视频片段的语义镜头序列O₁，O₂，L，

和N₁个训练视频片段的类别标签λ₁，λ₂，L，

作为训练数据集

将N₂个测试视频片段的语义镜头序列Z₁，Z₂，L，

作为测试数据集

Z = {Z_{1}, Z_{2}, L, Z_{N_{2}}} .

步骤7，根据训练数据集O中的N₁个语义镜头序列O₁，O₂，L，

和对应的N₁个类别标签λ₁，λ₂，L，

调用Matlab工具包HCRF2.0b中trainHCRF函数，计算进球事件的隐条件随机场模型的模型参数θ，并利用模型参数θ建立进球事件的隐条件随机场模型，其中，函数trainHCRF的调用格式为θ＝trainHCRF(trainseqs，trainlabels，params)，trainseqs为训练数据集中的N₁个语义镜头序列O₁，O₂，L，trainlabels为对应的N₁个类别标签λ₁，λ₂，L，

params为函数参数，params.nbHiddenStates为隐状态个数N，取值为3，params.windowsize为窗长度ω，取值为1，窗长度表示隐条件随机场在预测当前时刻的隐状态时考虑的观察值个数，ω＝0表示隐条件随机场在预测当前时刻的隐状态时只考虑当前时刻的观察值，ω＝1表示预测当前时刻的隐状态时既考虑当前时刻的观察值同时也考虑前一时刻和后一时刻的观察值，params.optimizer为优化算法，选择bgfs算法，params.maxIterations为最大迭代次数，取值为300。

步骤8，根据进球事件的隐条件随机场模型和测试数据集Z，调用Matlab工具包HCRF2.0b中testHCRF函数，计算测试数据集Z中第e个测试视频片段的语义镜头序列Z_e对应于类别标签0的概率β_e，0，以及该语义镜头序列对应于类别标签1的概率β_e，1。

步骤9，若β_e，0＞β_e，1，则第e个测试视频片段的语义镜头序列Z_e的预测类别标签为0，该测试视频片段不包含进球事件，若β_e，0＜β_e，1，则第e个测试视频片段的语义镜头序列Z_e的预测类别标签为1，该测试视频片段包含进球事件，若β_e，0＝β_e，1，则无法判断第e个测试视频片段是否包含进球事件。

本发明的效果可通过以下实验仿真进一步说明。

1)仿真条件

实验视频选自2010年南非世界杯多个场次的比赛，mpeg-1格式，帧分辨率为352×288。实验视频分为两部分，一部分作为训练视频片段，含有21个进球视频片段和10个非进球视频片段，剩余部分作为测试视频片段，含有50个进球视频片段和20个非进球视频片段。实验软件环境为Matlab R2008a。

2)仿真内容及结果

仿真一：根据建立的进球事件的隐条件随机场模型，对70个测试视频片段分别计算每个测试视频片段具有类别标签0的概率和类别标签1的概率，选择较大概率对应的类别标签作为该测试视频片段的预测标签，从而判断该测试视频片段是否含有进球事件。调用Matlab工具包HCRF2.0b中trainHCRF函数计算模型参数θ时，参数优化算法选择BFGS算法，最大迭代次数为300，根据实验选取隐状态个数N为3，窗长度ω分别为0、1、2，ω＝0表示预测当前时刻的隐状态时只考虑当前时刻的观察值，ω＝1表示预测当前时刻的隐状态时既考虑当前时刻的观察值同时也考虑前一时刻和后一时刻的观察值，ω＝2表示预测当前时刻的隐状态时既考虑当前时刻的观察值同时也考虑前两个时刻和后两个时刻的观察值。实验结果如表1所示。

表1

从表1可以看出，本发明对于足球视频进球事件的最佳检测性能为查准率98.04％、查全率100％。窗长ω＝1时的查准率比ω＝0的查准率有所提高，可见考虑有效距离内观察值的依赖关系能明显提高进球事件的隐条件随机场模型的检测性能，但是ω＝2时的查准率比ω＝1的查准率降低，是因为考虑了过长范围的依赖关系，反而增加模型的复杂度，不能正确反映进球事件的内在规律，降低隐条件随机场模型的性能。因此，本发明最终确定进球事件的隐条件随机场模型的隐状态个数N为3，窗长度ω为1。

以上仿真结果表明，本发明提出的基于隐条件随机场的足球视频进球事件检测方法，能够准确、全面地实现进球事件的检测。

Claims

1.一种基于隐条件随机场的足球视频进球事件检测方法，包括如下步骤：

（1）定义语义镜头集为ε＝{s₁,s₂,s₃,s₄,s₅}，其中，s₁,s₂,s₃,s₄,s₅表示五种语义镜头，即s₁为远镜头，s₂为中镜头，s₃为特写镜头，s₄为观众镜头，s₅为回放镜头；

（2）定义进球事件的隐条件随机场的类别标签集为α＝{0,1}，其中，0表示进球事件的隐条件随机场模型的输入不包含进球事件，1表示进球事件的隐条件随机场模型的输入包含进球事件；

（3）对N₁个训练视频片段和N₂个测试视频片段分别进行物理镜头分割，得到第d个训练视频片段的物理镜头序列P_d和第e个测试视频片段的物理镜头序列Q_e，其中，d∈{1,2,…,N₁}，e∈{1,2,…,N₂}；

（4）对第d个训练视频片段的物理镜头序列P_d中的物理镜头和第e个测试视频片段的物理镜头序列Q_e中的物理镜头分别进行语义标注，得到由远镜头、中镜头、特写镜头、观众镜头和回放镜头组成的第d个训练视频片段的语义镜头序列Q_d和第e个测试视频片段的语义镜头序列Z_e：

（4.1）将第d个训练视频片段的物理镜头序列P_d中的物理镜头和第e个测试视频片段的物理镜头序列Q_e中的物理镜头都分别标注为实时镜头与回放镜头；

（4.2）将实时镜头进一步标注为远镜头、中镜头和非场地镜头；

（4.3）将非场地镜头进一步标注为特写镜头与观众镜头；

（5）对第d个训练视频片段，人工判断是否包含进球事件，得到第d个训练视频片段的类别标签λ_d，λ_d∈α；

（6）将N₁个训练视频片段的语义镜头序列

和N₁个训练视频片段的类别标签

作为训练数据集将N₂个测试视频片段的语义镜头序列

作为测试数据集

（7）根据训练数据集O中的N₁个语义镜头序列和对应的N₁个类别标签

调用Matlab工具包HCRF2.0b中trainHCRF函数，计算进球事件的隐条件随机场模型的模型参数θ，并利用模型参数θ建立进球事件的隐条件随机场模型，其中，函数trainHCRF的调用格式为θ= trainHCRF(trainseqs,trainlabels,params)，trainseqs为训练数据集中的N₁个语义镜头序列 trainlabels为对应的N₁个类别标签

（8）根据进球事件的隐条件随机场模型和测试数据集Z，调用Matlab工具包HCRF2.0b中testHCRF函数，计算测试数据集Z中第e个测试视频片段的语义镜头序列Z_e对应于类别标签0的概率β_e,0，以及该语义镜头序列对应于类别标签1的概率β_e,1；

（9）若β_e,0＞β_e，1，则第e个测试视频片段的语义镜头序列Z_e的预测类别标签为0，该测试视频片段不包含进球事件，若β_e,0＜β_e，1，则第e个测试视频片段的语义镜头序列Z_e的预测类别标签为1，该测试视频片段包含进球事件，若β_e,0＝β_e，1，则无法判断第e个测试视频片段是否包含进球事件。

2.根据权利要求1所述的足球视频进球事件检测方法，其中步骤（4.1）所述的“将第d个训练视频片段的物理镜头序列P_d中的物理镜头和第e个测试视频片段的物理镜头序列Q_e中的物理镜头都分别标注为实时镜头与回放镜头”，按如下步骤进行：

（4.1a）将含有N₃幅帧图像的训练视频片段或测试视频片段中的每一幅帧图像从RGB颜色空间转换为HSV颜色空间，得到色度分量H的值h、饱和度分量S的值s、亮度分量V的值v：

v＝MAX

MAX＝max(r,g,b)

MIN＝min(r,g,b)

（4.1b）根据第n′幅帧图像中色度分量的值h所对应的第l级索引hue_l的像素个数num(hue_l)，计算第n幅帧图像的色度分量的256柄直方图中索引hue_l对应的值hist_n′(hue_l)：

hist_n′(hue_l)＝num(hue_l)

其中，n′∈{1,2,…,N₃}，hue_l为第n′幅帧图像色度分量的第l级索引，l∈{1,2,…,256}，hue_l∈{1,2,…,256}；

（4.1c）根据第n+1幅帧图像的色度分量的直方图中索引hue_l对应的值hist_n+1(hue_l)和第n幅帧图像的色度分量的直方图中索引hue_l对应的值hist_n(hue_l)，计算第n+1幅帧图像和第n幅帧图像的色度直方图差值HHD_n：

其中，n∈{1,2,…,N₃-1}，L为每一幅帧图像的高度，K为每一幅帧图像的宽度；

（4.1d）根据色度直方图差值HHD_n，计算该视频片段的N₃-1个色度直方图差值的均值HHD：

（4.1e）选取HHD_n大于阈值T₂的帧，其中，阈值T₂为该视频片段的HHD的2倍，取T₂=0.1938；

（4.1f）选取持续时间为10～20帧的镜头ls_i，得到一系列的候选徽标镜头

其中，i∈{1,2,…,N₄},N₄为候选徽标镜头总数；

（4.1g）利用镜头分割程序检测候选徽标镜头ls_i′和候选徽标镜头ls_i′-1之间的视频片段包含的镜头数目：如果该视频片段包含的镜头数目大于1，将该视频片段中的镜头标注为回放镜头，如果该视频片段包含的镜头数目等于1，将该视频片段中的镜头标注为实时镜头，其中，i′∈{2,3,…,N₄}。

3.根据权利要求1所述的足球视频进球事件检测方法，其中步骤（4.2）所述的“将实时镜头进一步标注为远镜头、中镜头和非场地镜头”，按如下步骤进行：

（4.2a）在实时镜头中选取60幅远景帧图像，根据第p幅帧图像的色度分量的256柄直方图中索引hue_l对应的值hist_p(hue_l)，计算60幅远景帧图像的色度分量的累加直方图中索引hue_l对应的值sh(hue_l)：

其中，hue_l为第p幅帧图像色度分量的第l级索引，l∈{1,2, …,256}，hue_l∈{1,2,…,256}，p∈{1,2,…,60}；

（4.2b）根据累加直方图中索引hue_l对应的值sh(hue_l)，计算累加直方图的峰值F：

F＝max{sh(hue₁),sh(hue₂),…,sh(hue₂₅₆)}；

（4.2c）根据累加直方图中每个索引对应的值和累加直方图的峰值F，确定满足如下条件的下限索引hue_low：

sh(hue_low)≥0.2×F

sh(hue_low-1)＜0.2×F

（4.2d）根据累加直方图中每个索引对应的值和累加直方图的峰值F，确定满足如下条件的上限索引hue_up：

sh(hue_up)≥0.2×F

sh(hue_up+1)＜0.2×F

(4.2e)将实时镜头的每一幅帧图像裁剪去顶部三分之一，统计裁剪后每一幅帧图像中色度分量的值h属于区间[hue_low/256,hue_up/256]的场地像素个数C₁，计算每一幅帧图像的场地比率PR：

其中，L为每一幅帧图像的高度，K为每一幅帧图像的宽度；

（4.2f）根据每一幅帧图像的场地比率PR，判断每一幅帧图像的类型：

其中，取阈值T₃=0.70，T₄=0.30；

（4.2g）若待标注实时镜头55%以上的帧图像属于远景帧图像，则标注该实时镜头为远镜头；若待标注实时镜头55%以上的帧图像属于中景帧图像，则标注该实时镜头为中镜头；否则标注为非场地镜头。

4.根据权利要求1所述的足球视频进球事件检测方法，其中步骤（4.3）所述的“将非场地镜头进一步标注为特写镜头与观众镜头”，按如下步骤进行：

（4.3a）将非场地镜头的每一幅帧图像从RGB颜色空间转换到YC_bC_r颜色空间，得到亮度分量Y的值y，蓝色色度分量C_b的值cb，红色色度分量C_r的值cr：

y＝0.299r′+0.578g′+0.114b′

cb＝0.564(b′-y)

cr＝0.713(r′-y)

（4.3b）根据每一幅帧图像的亮度分量Y的值y，用Canny算子检测每一幅帧图像中的边缘像素，得到边缘像素的个数C₂；

（4.3c）根据每一幅帧图像中的边缘像素的个数C₂，计算待标注的非场地镜头中每一幅帧图像的边缘像素比率EPR：

其中，L为每一幅帧图像的高度，K为每一幅帧图像的宽度；

（4.3d）若一幅帧图像的EPR大于阈值T₅，标记为观众帧图像，否则标记为特写帧图像，其中，取T₅=0.10；

（4.3e）若待标注的非场地镜头55%以上的帧图像属于观众帧图像，则标注该非场地镜头为观众镜头，否则标记为特写镜头。