CN107247942B

CN107247942B - 一种融合多模态特征的网球视频事件检测方法

Info

Publication number: CN107247942B
Application number: CN201710483579.5A
Authority: CN
Inventors: 于俊清; 朱玲玲; 何云峰
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-06-23
Filing date: 2017-06-23
Publication date: 2019-12-20
Anticipated expiration: 2037-06-23
Also published as: CN107247942A

Abstract

本发明公开了一种融合多模态特征的网球视频事件检测方法，包括：文本信息提取：比分牌定位与分割、比分信息提取；视觉特征提取：镜头边界检测、镜头分类、回放镜头检测；视频结构划分、网球视频领域知识分析、事件检测。本发明融合比分信息与视频视觉特征，并结合网球比赛领域知识，实现了网球视频的事件检测工作，解决了用户观看网球视频时需要快速定位自己感兴趣内容的需求，从而减少了用户的浏览时间，为视频摘要生成等工作提供便利。

Description

一种融合多模态特征的网球视频事件检测方法

技术领域

本发明属于视频检索技术领域，更具体地，涉及一种融合多模态特征的网球视频事件检测方法。

背景技术

视频语义分析一直是多媒体研究领域的热点问题。体育比赛视频作为一类重要的视频资源，因其规则固定、种类众多、关注度高、商业价值大等众多因素而得到研究人员的广泛关注。互联网技术迅速发展，网络上的视频资源呈现爆炸式的增长，而随着生活节奏的加快，人们希望能在闲暇时快速定位自己感兴趣的体育视频内容，视频语义分析与事件自动检测就是解决这一问题的关键。

跟足球和篮球等老牌体育运动的受欢迎程度相比，网球运动的关注者相对较少。但是，随着大众体育的发展以及国际网球运动的影响，近些年，网球在我国发展迅速，越来越多的人开始关注网球比赛，每年的四大满贯比赛、各种大师赛，吸引了很多球迷的眼球。一场完整的国际网球比赛，少则一个多小时，多则三四个小时，人们由于紧张的生活而无暇完整地观看一整场比赛，并且关注点不同，不同的观众可能只想观看自己感兴趣的部分，比如有人喜欢看ace球，有人喜欢多拍，有人热衷于抢七局等。此外，一些专业运动员或者教练员，可能只关注有技术含量的对攻，希望能通过研究其他运动员的比赛策略，来帮助自己提高水平或者制定比赛方案。为了满足这些迫切的需求，网球视频语义事件的自动检测就成为近些年多媒体领域研究人员越来越关注的问题。

目前已经有很多的专家学者展开了对网球视频事件检测工作的研究，也提出了许多的思路和方法。从最初视觉单一模态的特征分析方法，到融合音频、文本多模态特征的视频分析方法；从结合领域特征的检测方法，到利用通用模型的检测方法，网球视频事件检测技术得到了极大的发展。但是，目前仍然缺乏一种比较系统的网球视频事件检测方法。

发明内容

针对现有技术的以上缺陷或改进需求，本发明的目的在于提供了一种融合多模态特征的网球视频事件检测方法，由此解决目前的网球视频事件检测技术不能系统有效的对网络视频事件进行检测的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种融合多模态特征的网球视频事件检测方法，包括：

(1)获取网球视频中的比分牌位置信息，由比分牌位置信息得到比分牌中球员名字的位置信息以及比分数字的位置信息，由球员名字的位置信息以及比分数字的位置信息确定发球指示符的位置信息；

(2)由发球指示符的位置信息、球员名字的位置信息以及比分数字的位置信息对包含比分牌的样本帧图像进行识别确定球员名称、比分序列以及发球指示符所对应的球员；

(3)将网球视频进行分段得到候选段，利用候选段结合SVD降维特征向量进行镜头边界检测；

(4)使用主色率和边缘像素率对包含比分牌的图像帧序列进行镜头类型划分，其中，镜头类型包括play镜头和break镜头；

(5)从不含比分牌的图像帧序列中根据渐变序列检测回放镜头；

(6)根据网球比赛视频编辑特点，对网球视频划分事件段；

(7)融合发球指示符信息、球员名称、比分序列、镜头边界检测结果、镜头分类结果、回放镜头检测结果以及网球比赛的领域知识本信息对事件段进行事件检测，确定事件类型。

优选地，所述将网球视频进行分段得到候选段，包括以下步骤：

(A1)以M帧为间隔将网球视频分为L((M-1)n,(M-1)(n+1))(n≥0)段，计算每段首尾帧的HSV颜色直方图差作为段距d((M-1)n,(M-1)(n+1))，将段距表示为d^(M-1)(n)；

(A2)以N段为一组，将所有段分组，计算每一组的阈值T_L，每一个d^(M-1)(n)与其所在组的阈值进行比较，若d^(M-1)(n)＞T_L，则该段为候选段，若当前段与前后段满足(d^(M-1)(n)＞3d^(M-1)(n-1)∪d^(M-1)(n)＞3d^(M-1)(n+1))∩d^(M-1)(n)＞0.8μ_G，则将当前段作为候选段，得到所有的候选段集合S1，其中，μ_G为预设值；

(A3)对S1中的每一个候选段进行二分，同时计算二分后的前后半段的段距，分别为和与d^(M-1)(n)进行比较，若则将二分后的前半段作为候选段；若则将二分后的后半段作为候选段；若则二分后的前后半段均不是候选段；由此得到候选段集合S2；

(A4)对S2中的所有候选段进行二分，并执行步骤(A3)，得到长度为的段作为切变候选段，长度超过的段作为渐变候选段。

优选地，步骤(4)具体包括以下子步骤：

(4.1)计算关键帧的边缘像素率edgepixelRate，取关键帧中的兴趣区域，计算该兴趣区域的主色率maincolorRate；

(4.2)在镜头内以预设帧为间隔取关键帧，计算各关键帧兴趣区域的主色率，进而得到镜头的平均主色率avgmaincolorRate，得到镜头的三维特征向量F(i)＝{edgepixelRate,maincolorRate,avgmaincolorRate}；

(4.3)通过自适应阈值threshold_play确定网球视频中play镜头的平均主色率所在范围，进而区分play与break镜头。

优选地，步骤(4.3)具体包括以下子步骤：

(4.3.1)将前L个关键帧的主色率按从小到大排序；

(4.3.2)去掉最大的三个主色率，计算剩下主色率的平均值，作为阈值threshold_play；

(4.3.3)若edgepixelRate＜ε₁∪edgepixelRate＞ε₂，则镜头为break镜头；

(4.3.4)若edgepixelRate∈(ε₁,ε₂)，若满足(maincolorRate＞0.8×threshold_play)∩(avgmaincolorRate-miancolorRate＞第七预设值)，则镜头为play镜头；若满足maincolorRate＞0.9×threshold_play∩avgmaincolorRate＞第八预设值，则镜头为play镜头；若满足maincolorRate＞threshold_play∩avgmaincolorRate＞threshold_play，则镜头为play镜头；若满足maincolorRate＞第九预设值，则镜头为play镜头；

(4.3.4)将剩余镜头作为break镜头。

优选地，步骤(5)具体包括以下子步骤：

(5.1)取一段不含比分牌序列，若该序列长度超过length，则取下一段，否则执行步骤(5.2)；

(5.2)将该段分成前后两部分，分别为fseg和bseg；

(5.3)以预设数量的帧为滑动窗口从fseg取帧，构建特征向量；

(5.4)使用SVD降维特征向量，按照余弦公式计算相邻帧间相似度和首尾帧间相似度G，得到该段的平均相似度avgSimilarity；

(5.5)若G≤第十预设值∪(G＞第十一预设值∩G＜第十二预设值∩avgSimilarity＜第十三预设值)，则该段是渐变序列，记录渐变开始，执行步骤(5.6)，如果fseg没有满足以上公式的序列，则执行步骤(5.7)；

(5.6)跳转执行步骤(5.3)按倒序处理后半段bseg；

(5.7)在渐变序列集合中检查在fseg中是否存在渐变结果，如果存在，则记录渐变开始，执行步骤(5.6)，否则该不含比分牌序列不存在回放镜头，执行步骤(5.1)。

优选地，步骤(6)具体包括以下子步骤：

(6.1)根据回放将包含比分的镜头序列分割成段，每一段的最后一个镜头为回放镜头；

(6.2)在每一段中，逆向扫描，找到第一个play镜头的位置，检测该第一个play镜头位置的前一个镜头，如果前一个镜头是特写镜头或者中镜头，则将从该第一个play镜头位置的后一个位置到该第一个play镜头的前一个位置作为一个候选事件段，同时记录该第一个play镜头的比分信息；

(6.3)顺序扫描步骤(6.2)中得到的所有候选事件段，将相邻的比分相同的候选事件段合并成一个完整的事件段，最终得到以分为单位的事件段。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)使用候选段选择结合SVD降维特征向量，极大降低了边界检测的时间复杂度；

(2)从不含比分牌序列中检测回放镜头，考虑网球比赛不含比分牌序列中只有回放镜头的开始和结束是渐变序列，通过匹配渐变序列，完成回放镜头检测；

(3)结合网球领域知识进行视频结构划分，完成事件边界检测；

(4)融合文本信息、视觉特征和领域知识，完成网球视频事件检测。

附图说明

图1是本发明实施例公开的一种融合多模态特征的网球视频事件检测方法的流程示意图；

图2为本发明实施例公开的一种break镜头分类流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明公开了一种融合多模态特征的网球视频事件检测方法。针对网球事件特点，结合比分信息和视觉特征，并融合领域知识进行视频事件检测。该方法可以检测出网球视频中的多种事件类型，有效满足不同兴趣用户的需求，减少用户浏览时间。

如图1所示是本发明实施例公开的一种融合多模态特征的网球视频事件检测方法的流程示意图；在图1所示的方法中，主要包括三个阶段：文本信息检测，包括比分牌定位、比分牌字段分割、比分牌信息识别；视觉特征检测，包括镜头分割与分类、回放镜头检测；事件检测，包括视频结构划分、领域知识分析、融合信息进行事件检测。具体包括如下步骤：

(1)文本信息检测：获取网球视频中的比分牌位置信息，由比分牌位置信息得到比分牌中球员名字的位置信息以及比分数字的位置信息，由球员名字的位置信息以及比分数字的位置信息确定发球指示符的位置信息；由发球指示符的位置信息、球员名字的位置信息以及比分数字的位置信息对包含比分牌的样本帧图像进行识别确定球员名称、比分序列以及发球指示符所对应的球员；

具体地，文本信息检测实现方法为：

文本信息主要是比分牌信息。网球视频中的比分牌信息，不仅详细反映了当前比赛进程相关信息，包括当前比赛球员名，当前发球球员指示符以及当前的比分情况，并且该比分牌有一个显著的特点就是其位置不会改变。比分牌信息检测包含以下步骤：

(1-1)比分牌定位

比分牌定位分为大致定位和精确定位两步。比分牌大致定位的具体方法是根据切变检测结果，将视频分成镜头(切变检测方法见(2-1))，取每个镜头内的第5帧作为候选帧。以6为间隔取候选帧作累积像素差处理，并通过形态学处理降噪，对得到的图像进行轮廓检测，根据比分牌大小及位置特征，选取比分牌候选位置。每段视频取20个比分牌大致位置作为比分牌位置候选集。比分牌的精确位置是通过两次图像匹配得到，具体方法是使用SURF特征点检测算法来检测图像的特征点，根据BruteForce进行匹配，计算平均匹配距离distance，如果distance＜ρ，则表示两图能匹配，如果一个候选比分牌能够匹配两个及以上的比分牌，则该比分牌加入第一次图像匹配的结果集。第二次匹配同样使用的是SURF检测特征点，BruteForce进行匹配，计算得到平均匹配距离，比较所有的平均匹配距离，平均距离最小的候选比分牌就作为准确的比分牌，记录比分牌位置。

(1-2)比分牌字段分割

网球比赛视频中的比分牌主要由三部分组成：发球指示符、球员名字、当前比分。球员的名字是固定不变的，而发球指示符会在上下球员交替变换，球员的比分也会随着比赛进行而发生改变。

球员名与比分数字分割过程如下：

步骤1.对比分牌模板进行形态学处理，得到去噪的二值图像；

步骤2.根据上下名字中间的全黑或者全白区域进行比分牌上下区域切割。比分牌的宽度为W，高度为H，记x₁等于0.2×W，x₂等于0.5×W，y₁等于0.2×H，y₂等于0.8×H。初始化一个长度为y₂-y₁的整型向量V，统计比分牌y₁到y₂区间每一行的像素点(起点为x₁，终点为x₂)，如果该行是全0或者全1像素，则在V中对应位置的元素为0，否则为1。找到V中一段连续的0序列，且长度超过3，该0序列的开始对应的比分牌上的行即为上比分的下边界boardUp_e，该0序列的结束对应着下比分的上边界boardDown_s。

步骤3.以步骤2中同样的方法确定上比分的上边界和下比分的下边界。确定上比分的上边界时，x₁和x₂的取值不变，y₁取为0，y₂为上比分的下边界boardUp_e，确定下比分的下边界时，x₁和x₂的取值不变，y₁为下比分的上边界boardDown_s，y₂为H。得到上比分的上边界boardUp_s和下比分的下边界boardDown_e，记上下比分牌的高度分别为H_up和H_down。

步骤4.名字区域和比分区域之间有一定的间隔，利用这个间隔将上下比分牌都分割为名字区域和比分区域。x₁取为0.2×W，x₂为0.8×W，y₁为0.1×H_up，y₂为H_up，初始化一个长度为x₁的整型向量V1，统计上比分牌从x₁到x₂每一列的像素点(起点为y₁，终点为y₂)，如果该列是全0或者全1像素，则在中对应位置的元素为0，否则为1。找到V1中的一段连续的0序列，且长度超过5，该序列的开始即为上名字的右边界nameUp_r，该序列的结束即为上比分的左边界scoreUp_l。

步骤5.以步骤4中相同的方法将下比分牌分割成名字区域和比分区域，确定下比分牌名字和比分时x₁和x₂取值不变，y₁取为0.1×H_down，y₂为H_down，得到下名字的右边界nameDown_r和下比分的左边界scoreDown_l。

步骤6.为了准确识别球员名字，需要确定名字区域的左边界，具体的方法同步骤4，确定上球员名字的左边界时x₁取0，x₂取nameUp_r，y₁取0，y₂取上比分牌的高度，确定下球员名字的左边界时x₁取0，x₂取nameDown_l，y₁取0，y₂取下比分牌的高度。

步骤7.分割盘分、局分和小分，两个分数之间会有一定的间隔，同时为了观众能够更清晰地区分不同的分数，比分牌中相邻的比分位置的背景色不同。根据这两个特点可以分割出每一类分数的位置。方法同步骤4，x₁取0，x₂取为上比分的宽度，y₁取为0，y₂取为0.8×H_down，得到向量V2，当V2中两个相邻的1元素之间有少于10个0元素时，将0元素更新为1元素。最后统计V2中连续的1元素即为每一个比分的位置，使用同样的方法处理下比分。

经过以上步骤，得到了比分牌中球员名字和各自比分的具体位置。

(1-3)发球指示符检测

网球比赛中发球指示符的形状各异，通常位于比分牌中名字的左侧或者名字与比分的中间。(1-2)中确定了名字和比分的准确位置，那么名字的左边区域和名字与比分中间的区域就作为发球指示符候选位置。具体过程如下：

步骤1.以5为间隔取play镜头的关键帧；

步骤2.计算累积像素差并进行中值滤波，得到diffImg；

步骤3.统计diffImg中4个候选发球指示符区域中的黑白像素的个数，计算白色像素点所占的比例，比例大的为发球指示符位置。

(1-4)文字识别

对于某个包含比分牌的样本帧，首先进行二值化，根据已经得到的比分牌中各字段的位置分割出发球指示符、名字和比分的子图像。检测两个发球指示符子图中，前景色所占的比例，比例大的则存在发球指示符，其所对应的球员拥有发球权。训练SVM分类器，对每一个比分数字进行识别。使用Google公司开发的OCR引擎Tesseract对名字进行识别。

球员名字的识别可能存在误差，为了提高名字识别的准确性，在确定球员名字时使用了球员名字模糊匹配的算法。首先，从WTA国际女子网球协会和ATP男子职业网球官网上获取了比较完整的球员名列表。不同的比赛中球员名的表示方式不同，需要对球员名进行扩展，比如“Roger Federer”，则扩展为“Roger Federer”、“Roger”、“Federer”、“Roger-Federer”、“R.Federer”。最后将名字统一转换成大写字符存储，即为NameList。每一条信息中的球员名与NameList中进行匹配，得到匹配的名字，统计整个镜头中该球员匹配最多的名字，则这个名字就是该球员的准确名字。因为球员名字在整个视频中不变，所以只需要检测前20个镜头，以得到准确的球员名字，候选镜头则不再使用OCR识别球员名字。

(1-5)完整的比分序列检测

针对包含比分牌的镜头，以20为间隔取样本帧，得到该样本帧的比分信息，检测所有的样本帧，得到该视频完整的比分信息。接着整合信息，去掉重复的比分，每一个镜头只取一条准确的比分信息。确定发球权和比分信息的具体方法为，取同一个镜头的比分信息，若当前帧检测出球员1具有发球权，则当前发球指示标志为1，否则为2，统计当前镜头内样本帧检测出的发球指示标志的个数，如果1占多数，则球员1具有发球权，否则球员2具有发球权。确定该镜头比分牌中某一位置的准确比分数字的方法为，统计该组比分信息中某一位置的比分，占个数最多的那个数字就是该位置的准确比分。

通过以上识别过程，对于某个包含比分牌的镜头，可以检测出当前镜头的比分和发球权。最终的比分序列中偶尔会出现错误，需要进一步对比分进行修正，比分修正规则如下：

1.在局内，两位球员的盘分和局分不变，小分只有一个人的会增加；

2.如果当前局分是6:6(抢七局)，则小分出现的数字只能是0～9，其他局分时，小分只能是0、15、30、40、AD、Ad或A；

3.小分都变为0时，必有一个球员的局分增加1，另一位球员局分不变。

经过以上比分修正，最终得到完整的比分序列。

(2)镜头边界检测：将网球视频进行分段得到候选段，利用候选段结合SVD降维特征向量进行镜头边界检测；

其中，将网球视频进行分段得到候选段，包括以下步骤：

(A4)对S2中的所有候选段进行二分，并执行步骤(A3)，得到长度为的段作为切变候选段，记为S_CT，长度超过的段作为渐变候选段，记为S_GT。

其中，第一预设值、第二预设值、第三预设值、第四预设值、第五预设值、第六预设值可以由经验进行确定。

以M为33，N为10为例详细说明候选段的选择：

步骤1.以33帧为间隔将视频分段为L(32n,32(n+1))(n≥0)，计算每一段首尾帧的HSV颜色直方图差作为段距d(32n,32(n+1))，表示为d³²(n)；

步骤2.以10段为一组，将所有段分组，计算每一组的阈值T_L；

步骤3.每一个d³²(n)与其所在的组阈值进行比较，若d³²(n)＞T_L，则为候选段，若当前段与前后段满足(d³²(n)＞3d³²(n-1)∪d³²(n)＞3d³²(n+1))∩d³²(n)＞0.8μ_G，也作为候选段，得到所有的候选段记为S1；

步骤4.对S1中的每一个候选段进行二分，同时计算前后半段的段距，分别为和与d³²(n)进行比较，比较规则如下：

1)如果则候选段为前半段；

2)如果则候选段为后半段；

3)如果则不是候选段；

4)剩下的段中则可能存在渐变序列。

通过以上比较得到候选段集合S2。

步骤5.对S2中的所有候选段再一次进行二分，重复步骤4操作，最终得到长度为9的段作为切变候选段，记为S_CT，长度超过9的段都作为渐变候选段，记为S_GT。

SVD降维特征向量：

对于任意M×N维矩阵A，必定存在分解满足U是M×M维正交矩阵，U的列向量是矩阵AA^T的特征向量，V是N×N维正交矩阵，V的列向量是A^TA的特征向量，∑是M×N维阵，矩阵A的秩为r，∑_r是A的所有奇异值从大到小组成的方阵。进一步可以将A表示为公式(1)，其中U_r是M×r维矩阵，∑_r是一个r维对角阵，是r×N维矩阵。

diag(σ₁…σ_r)是A的特征值由大到小排列构成的对角阵，特征值越大，在A中对应的特征向量越重要，SVD降维就是取前k个最大的特征值，使得满足公式(2)，将A从M×N降维成M×k维矩阵A′，u_k表示M维列向量，v_k表示N维列向量。

切变检测：

每一帧图像构造局部HSV颜色直方图，H分量取18，S分量取12，V分量取8，得到1728维特征向量，通过SVD降维成6维向量，针对段长为9的切变候选段，构成9×6的特征矩阵。如果该段存在切变，那么切变前后属于不同的镜头，镜头间差别比较大，首尾帧间相似度值应该不会太大，当首尾帧间相似度值太大，说明该候选段中间不存在切变。具体检测方法如下：

步骤1.计算首尾帧间相似度，自适应阈值T＝p+(1-p)G；

步骤2.如果G大于阈值threshold_CT(实验中取0.95)，则表明该段候选段中不存在切变，进行下一个候选段的处理，否则转至步骤3；

步骤3.计算所有的相邻帧间相似度值S＝{s₀,s₁…s_n}，找到值最小的位置m，相似度值为value，并且统计相似度值大于0.9的个数count；

步骤4.如果满足以下条件，则表明该候选段的m处存在切变，否则转至步骤5；

s_m-1＞0.8∩s_m+1＞0.8∩(s_m-1-value＞0.1)∩(s_m+1-value＞0.1)∩count≥3∩value＜T

步骤5.可能存在渐变，将该候选段存入S_GT中进行后续渐变检测。

渐变检测：

步骤1.计算首尾帧间相似度G。

步骤2.如果G大于阈值threshold_GT(实验中取0.9)，则表明不存在渐变，处理下一个候选段，否则转至步骤3。

步骤3.计算所有的相邻帧间相似度值S＝{s₀,s₁…s_n}，找到值最小的位置m，相似度值为value。

步骤4.如果value＞0.9，则判断该候选段不含边界，否则转至步骤5。

步骤5.如果value＜0.6，则判定该候选段可能存在漏检的切变，如果m处于该候选段的左边界，就将该候选段往左平移5帧，如果处于右边界，就将该候选段往右平移5帧，重新进行切变检测。否则，转至步骤6。

步骤6.正向遍历S，找到第一个值小于阈值t(实验中取0.98)的位置作为新的开始位置，逆序遍历S，找到第一个值小于t的位置作为新的结束位置。

步骤7.如果新的段长大于4，则该段就是渐变序列，记录新的开始和结束位置，否则，考虑可能是漏检的切变，将该段前后各增加3帧后进行切变检测。

(3)镜头分类：使用主色率和边缘像素率对包含比分牌的图像帧序列进行镜头类型划分，其中，镜头类型包括play镜头和break镜头；

具体地，镜头分类的实现方法为：

通过模板匹配将所有帧序列分成包含比分牌序列和不含比分牌序列。将包含比分牌序列分割成镜头，根据是否包含全球场将镜头分类为play镜头和break镜头。将break镜头分类为球员特写镜头、球员中镜头和场外镜头。play镜头与break镜头分类过程如下：

步骤1.首先计算关键帧f(i)的边缘像素率edgepixelRate，计算完成后取Rect(0.1×width,2.0/7×height,0.8×width,4.0/7×height)为兴趣区域，width表示关键帧的宽度，height表示关键帧的高度，计算该区域的主色率maincolorRate，同时在镜头内以20帧为间隔取帧，计算兴趣区域的主色率，进而得到该镜头的平均主色率avgmaincolorRate，得到镜头Shots(i)的三维特征向量F(i)＝{edgepixelRate,maincolorRate,avgmaincolorRate}。

步骤2.计算自适应阈值threshold_play，以确定该视频中play镜头的主色率所在范围，用于准确区分play与break镜头，具体计算方法如下：

步骤1.将前a×size(a取0.2)个关键帧的主色率按从小到大排序；

步骤2.取最后1/4个主色率，为避免干扰，去掉最大的三个，计算剩下主色率的平均值，作为阈值threshold_play。

步骤3.根据以下规则来判断镜头Shots(i)属于play镜头还是break镜头。

1)如果edgepixelRate＜ε₁∪edgepixelRate＞ε₂(ε₁取0.025，ε₂取0.1)，则可以断定该镜头为break镜头；

2)如果edgepixelRate∈(ε₁,ε₂)，

若满足(maincolorRate＞0.8×threshold_play)∩(avgmaincolorRate-miancolorRate＞第七预设值)，则该镜头为play镜头；

若满足maincolorRate＞0.9×threshold_play∩avgmaincolorRate＞第八预设值，则该镜头为play镜头；

若满足maincolorRate＞threshold_play∩avgmaincolorRate＞threshold_play，则该镜头为play镜头；

若满足maincolorRate＞第九预设值，则该镜头为play镜头；

其他的则为break镜头。其中，第七预设值、第八预设值以及第九预设值可以根据经验进行确定。

break镜头分类过程如图2所示。

(4)回放镜头检测：从不含比分牌的图像帧序列中根据渐变序列检测回放镜头；

具体地，回放镜头检测的实现方法为：

从不含比分牌序列中根据渐变序列检测回放镜头，具体过程如下：

步骤1.取一段不含比分牌序列，若长度超过length，则取下一段，否则执行下一步(实验中length取2000)；

步骤2.将该段分成前后两部分，分别为fseg和bseg；

步骤3.以预设数量的帧为滑动窗口从fseg取帧，构建30×1728维特征向量；优选地，预设数量为30；

步骤4.使用SVD降维特征向量，按照余弦公式计算相邻帧间相似度和首尾帧间相似度G，得到该段的平均相似度avgSimilarity；

步骤5.若G≤第十预设值∪(G＞第十一预设值∩G＜第十二预设值∩avgSimilarity＜第十三预设值)，则该段是渐变序列，记录渐变开始，执行步骤6，如果fseg没有满足以上公式的序列，则执行步骤7；其中，第十预设值、第十一预设值、第十二预设值以及第十三预设值可以根据经验进行确定。

步骤6.转至步骤3按倒序处理后半段bseg；

步骤7.在渐变序列集合中检查在fseg中是否存在渐变结果，如果存在，则记录渐变开始，执行步骤6，否则该不含比分牌序列不存在回放镜头，执行步骤1。

(5)事件检测：根据网球比赛视频编辑特点，对网球视频划分事件段；

具体地，事件检测的实现方式为：

根据网球视频的编辑特点，将视频分成视频段，每一个视频段包含若干个连续的镜头，该视频段表达了一个完整的事件。同时，网球比赛中存在诸多启发式规则，整合这些规则，结合视频段中的比分变化情况进行各种事件的检测。

视频结构划分：

在网球比赛中，事件只会存在包含play镜头的序列中，于是根据play镜头，可以将视频分割成包含play镜头的事件段。根据网球视频编辑特点，发现在play镜头的前面通常是一个球员准备发球的中镜头或特写镜头，而play镜头后面通常是一个击球结束，球员离场的中镜头或特写镜头。网球比赛事件段的划分方法如下。

步骤1.根据回放将包含比分的镜头序列分割成段，每一段的最后一个镜头就是回放镜头。

步骤2.在每一段中，逆向扫描，找到第一个play镜头的位置，检测该位置前一个镜头，如果是特写镜头或者中镜头，那么从后到该play镜头的前一个位置就是一个候选事件段，同时记录该play镜头的比分信息。

步骤3.顺序扫描步骤2中得到的所有候选事件段，将相邻的比分相同的候选事件段合并成一个完整的事件段。

最终得到以分为单位的事件段，记为EventClips。

具体地，领域知识分析方法为：

国际网球比赛分男子比赛和女子比赛，男子比赛分五盘三胜制和三盘两胜制，而女子比赛全部都是三盘两胜制。每一盘分为若干局，每一局有若干分。小分的记分规则为，前三分分别记为15、30、40，若双方球员的比分为40:40，球员1再赢一分则为占先，记为Ad(AD、A):40(空)，若球员2再赢一分则记为40:40。按此规则，一局比赛中，任何一位球员都至少要比对手多赢两分才能结束本局比赛。赢一局，则局分加1，先得6分，且至少比对手多两分的选手赢得该盘比赛。当局分为6:6时，则进行抢七局，该局小分记分规则不同于常规的记分规则，赢一分则小分加1，当小分大于等于7时，统一记为7，连胜两分则胜本局。通常抢七局是一个精彩局，此时比赛到达焦灼的时刻，是观众非常期待的精彩事件。

网球比赛中，球员双方轮流拥有发球权，发球者往往具有优势，比较容易赢得其发球局。若发球球员赢得其发球局，叫做“保发”，若每位球员都能保住其发球局，那么最终将进行“抢七局”(Tiebreak)，即到达该盘比赛高潮。若某位球员失掉其发球局，使得对手赢一分，则称为“破发”(Break)，破发局对球员非常重要，因为将使该破发球员在比分上占据优势，在棋逢对手时更能保证最终的胜利。根据前后两局发球权变化以及局分变化，很容易判断该局是否是破发局，以及破发的位置。

每一次比赛开始，发球球员都具有两次发球权，若第一次出现失误(不过网或界外球)，则接着进行第二次发球，若两次都出现失误，则称发球员产生“双误”(Double fault)，此时接发球员直接得分。发球员在一发时发出一个优质球，使得对手碰不到该球而直接得分，此球称为“Ace球”，是一个相当精彩的发球，直接象征球员的高水平。当双方球员比分呈现40:40时，则称之为“平分”(Deuce)，任何一位球员需再连赢两分才能赢得该局比赛。当双方球员的小分为Ad(AD、A):40(空)时，则称球员1“占先”(Advantage)，此球员再赢得一分即可赢得本局比赛，占先一定发生在平分后面。在一次击球过程中，通常规定连续击球超过9个回合称为“多拍”，多拍是对球员体力以及耐力的极大考验，通常也是观众比较关注的事件。

整合以上得到的文本信息、视觉信息和领域知识进行事件检测，将网球比赛视频事件分为10类。各类事件检测方法如下：

(1)局事件和抢七局事件

局内有若干分，每一个比分的局比分和盘比分都相同，根据局比分的变化可以获取局事件。顺序扫描事件段集合EventClips，若相邻的事件段的局分相同，则为同一局内，若相邻的局分不同，以该位置为分界，前面的事件段为一局，后面的事件段属于下一局，继续扫描，最终得到所有的局事件。某一局的局比分为6:6，则该局为抢七局。

(2)平分事件和占先事件

顺序扫描集合EventClips，当前事件段的下标为i，下一个事件段的下标为i+1。若当前事件段EventClips[i]的小分为30:40(不分球员次序)，而EventClips[i+1]的小分为40:40，则事件段EventClips[i]就是平分事件。若EventClips[i]的小分为40:40，EventClips[i+1]的小分为Ad(AD、A):40(空)(不分球员次序)，那么事件段EventClips[i]即为占先事件。

(3)破发点事件和破发事件

顺序扫描EventClips，若球员1(player1)和球员2(player2)的小分为0:40、15:40、30:40、40(空):Ad(AD、A)，并且player1拥有发球权，那么该事件段为player2的一个破发点。相反，若player1和player2的小分为40:0、40:15、40:30、Ad(AD、A):40(空)，且player2具有发球权，则该事件段为player1的一个破发点。

当前事件段EventClips[i]的发球球员是player1，下一个事件段EventClips[i+1]的发球权为player2，并且EventClips[i+1]中player2的局比分增加1，player1的局比分不变，则该事件段为player2破player1的发球局。

(4)局点事件

局点事件表示某位球员再赢一分就将结束该局的事件，与破发点和破发相似，但是不同之处在于，局点不用关注发球权，只关注球员的小分即可，若player1和player2的比分为0:40、15:40、30:40、40(空):Ad(AD、A)(不分球员顺序)，则该事件段为局点事件。

(5)多拍事件

在男子网球比赛中经常会出现多拍，多拍是对体力的极大考验，尤其是超过40个回合的多拍。对于观众来说，多拍是一个值得欣赏的精彩事件。多拍事件以play镜头持续时间长短来判定，通常，超过9个来回的对攻就认为是多拍。网球比赛中，一个来回的时间为2秒至3秒，本系统中将对攻时间超过25秒的事件段判定为多拍事件。

(6)双误事件

发球员连续两次发球都失败，导致对方球员得分的事件即为双误。一个事件段如果发生双误，通常会包含两个play镜头，并且每一个play镜头持续的时间都非常短，该比分结束后，对方球员的小分增加。顺序检测EventClips[i]中的事件段，若EventClips[i]中至少有两个play镜头(考虑可能存在break镜头误检成play镜头)，且每一个play镜头持续时间不超过4秒，并且EventClips[i]中接发球员的小分增加，则当前事件段发生双误事件。

(7)Ace球事件

Ace球是一个发球直接得分的优质球，发生该事件的play镜头持续时间非常短，检测时根据当前事件段中play镜头持续时间短，下一个事件段中显示当前发球球员的小分增加来判断。本系统中以play镜头持续时间不超过4秒为判断标准。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合多模态特征的网球视频事件检测方法，其特征在于，包括：

(6)根据网球比赛视频编辑特点，对网球视频划分事件段；

(7)融合发球指示符信息、球员名称、比分序列、镜头边界检测结果、镜头分类结果、回放镜头检测结果以及网球比赛的领域知识本信息对事件段进行事件检测，确定事件类型；

步骤(5)具体包括以下子步骤：

(5.2)将该段分成前后两部分，分别为fseg和bseg；

(5.3)以预设数量的帧为滑动窗口从fseg取帧，构建特征向量；

(5.5)若G≤第十预设值∪(G>第十一预设值∩G<第十二预设值∩avgSimilarity<第十三预设值)，则该段是渐变序列，记录渐变开始，执行步骤(5.6)，如果fseg没有满足以上公式的序列，则执行步骤(5.7)；

(5.6)跳转执行步骤(5.3)按倒序处理后半段bseg；

2.根据权利要求1所述的方法，其特征在于，所述将网球视频进行分段得到候选段，包括以下步骤：

(A1)以M帧为间隔将网球视频分为L((M-1)n，(M-1)(n+1))段，计算每段首尾帧的HSV颜色直方图差作为段距d((M-1)n,(M-1)(n+1))，将段距表示为d^(M-1)(n)，n≥0；

(A2)以N段为一组，将所有段分组，计算每一组的阈值T_L，每一个d^(M-1)(n)与其所在组的阈值进行比较，若d^(M-1)(n)>T_L，则该段为候选段，若当前段与前后段满足

(d^(M-1)(n)>3d^(M-1)(n-1)∪d^(M-1)(n)>3d^(M-1)(n+1))∩d^(M-1)(n)>0.8μ_G，则将当前段作为候选段，得到所有的候选段集合S1，其中，μ_G为预设值；

3.根据权利要求1所述的方法，其特征在于，步骤(4)具体包括以下子步骤：

4.根据权利要求3所述的方法，其特征在于，步骤(4.3)具体包括以下子步骤：

(4.3.1)将前L个关键帧的主色率按从小到大排序；

(4.3.3)若edgepixelRate<ε₁∪edgepixelRate>ε₂，则镜头为break镜头；

(4.3.4)若edgepixelRate∈(ε₁,ε₂)，若满足(maincolorRate>0.8×threshold_play)∩(avgmaincolorRate-maincolorRate>第七预设值)，则镜头为play镜头；若满足maincolorRate>0.9×threshold_play∩avgmaincolorRate>第八预设值，则镜头为play镜头；若满足maincolorRate>threshold_play∩avgmaincolorRate>threshold_play，则镜头为play镜头；若满足maincolorRate>第九预设值，则镜头为play镜头；

(4.3.5)将剩余镜头作为break镜头。

5.根据权利要求1所述的方法，其特征在于，步骤(6)具体包括以下子步骤：