CN104199933A

CN104199933A - 一种多模态信息融合的足球视频事件检测与语义标注方法

Info

Publication number: CN104199933A
Application number: CN201410449960.6A
Authority: CN
Inventors: 于俊清; 王赠凯; 何云峰
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2014-09-04
Filing date: 2014-09-04
Publication date: 2014-12-10
Anticipated expiration: 2034-09-04
Also published as: CN104199933B

Abstract

本发明公开一种多模态信息融合的足球视频事件检测与语义标注方法，包括：利用潜在语义分析方法检测互联网赛况报道文本描述语句的事件类型；检测足球视频中级语义对象，划分场地区域并进行攻防转换分析，确定视频事件片段的边界；根据中圈和哨声检测结果确定比赛开始时间，利用贝叶斯网络实现攻防片段的初始语义分类；在文本描述中的粗粒度时间信息的约束下，根据文本和视频片段的语义同步文本描述和视频事件，实现足球视频事件的语义标注。本发明方法融合互联网文本信息和视频内在视听特征分析足球视频，提高了视频事件及其边界检测的准确率，实现了足球视频内容的富语义标注，为建立基于语义的视频索引机制打下坚实的基础。

Description

一种多模态信息融合的足球视频事件检测与语义标注方法

技术领域

本发明属于基于内容的视频检索领域，具体涉及一种多模态信息融合的足球视频事件检测和语义标注方法。

背景技术

随着计算机技术，存储技术和网络技术的高速发展以及各种数码终端和移动设备的不断更新，视频数据量以爆炸式的速度不断增长。同时，由于获取信息的时间、地点和方式逐渐不受限制，使得人们对于视频检索的需求大大增加。如何使人们快速从海量的视频数据中找到自己感兴趣的视频片段已成为一种迫切的需求，能够满足这一需求的技术便是目前人们普遍关注的基于内容的视频检索(CBVR，Content Based Video Retrieval)技术。视频标注是CBVR领域的关键技术，也称为视频概念检测或者高层语义分析，是指根据视频所体现的内容按概念对其赋予标识和语义。视频标注是建立视频索引，实现基于内容的视频检索的基础。从手工标注、半自动标注到自动标注，视频标注已经成为CBVR领域的研究难点和热点，视频标注的准确性和语义丰富性是视频检索质量的关键因素，也是基于内容的视频检索系统成败的关键。由于视频数据本身的复杂性、不确定性和现有的条件所限，针对通用视频的自动标注很难实现，目前人们还无法利用通用的特征或方法对不同类型内容的视频进行分析。体育视频分析是近几年非常受关注的视频类型，而足球运动作为世界上最流行的体育运动，有着非常广泛的受众群体和巨大的商业价值。以足球视频为研究对象来研究如何从大量的足球视频找到用户感兴趣的视频内容，并能对其进行详细的语义描述，满足广大用户的需求，具有很高学术价值和应用前景。

针对足球视频事件检测和标注的研究吸引国内外学术界和工业界的众多研究人员和研究机构重视，也涌现出许多好的研究成果。从基于单一模态的听觉、视觉等特征的足球视频分析，到基于多模态特征的足球视频分析；从利用启发式规则的事件检测方法，到利用各种机器学习模型的事件检测方法，研究人员提出了许多方法，在一定程度上推动了足球视频检索技术的发展。然而，受限于人工智能和机器视觉领域的发展，视频分析领域存在众所周知的“语义鸿沟”(Semantic Gap)问题，即视频底层特征和高层语义之间存在着语义隔阂，如何有效地填补“语义鸿沟”从而提高语义级视频检索效率和服务质量已经成为CBVR的研究难点和最为关键的问题。例如，在足球比赛视频中，目前通过音视频分析，可以初步确定一些典型事件(射门、进球、犯规、角球等)的位置，但无法确定是哪位球员通过何种方式射门或者进球。现有的研究表明，“语义鸿沟”的存在导致单纯依靠视频数据本身内在的音视频特征分析，很难准确地检测出视频中的事件，并自动标注视频事件的语义，视频标注结果的粒度和准确性无法满足实际的需求，已经成为阻碍视频搜索引擎实用化的瓶颈。

为了实现视频事件的检测和语义标注，研究人员寻求利用视频外部资源来辅助视频内容的分析。目前所利用的视频外部资源主要有转录字幕和网络直播文本。转录字幕是通过语音识别技术转录生成的文字，如新闻解说和场景对话等。但转录字幕的输出质量依赖于视频的质量和语音识别技术，并且转录字幕包含大量与视频事件无关的描述，很难得到有效利用。网络直播文本是在体育比赛进行时，专业的体育网站在其页面上进行的同步文字直播，具有较强的实时性。现有的研究工作主要基于具有精确时间信息的网络直播文本，通过对视频内时钟的识别来建立文本描述和视频内容的对应关系。然而，第一，大多数网络直播文本的时间信息并不精确，一般是分钟级的时间信息；第二，体育网站只对国际上的重要或著名赛事进行网络文字直播，还有许多赛事只进行赛后的新闻报道，也就是说网络直播文本的通用性不强；第三，由于视频时间条存在透明、位置变化、风格变化、时隐时现、分辨率不高等不利因素，视频时钟的精确识别还面临较大的挑战。

发明内容

为了解决上述技术问题，本发明提供一种多模态信息融合的足球视频事件检测与语义标注方法，其目的在于充分利用视频内在视听特征，并结合视频外部文本信息，解决足球视频事件的检测和富语义标注问题，为实现基于内容的足球视频检索打下坚实的基础。

实现本发明目的所采用的具体技术方案如下：

一种多模态信息融合的足球视频事件检测与语义标注方法，通过对互联网文本和视频内在视听特征等多模态信息的综合利用，实现足球视频事件的检测和富语义标注，包括以下步骤：

(1)从互联网上爬取足球比赛对应的赛况报道文本，利用预先建立的LSA模型计算赛况报道文本中各语句的潜在语义空间查询向量；并计算该查询向量与各种文本事件类型的潜在语义空间向量的余弦相似度，将其归类为具有最大相似度的事件类别；

(2)检测足球比赛对应视频中的多种中级语义对象，所述中级语义对象包括球门、球场标志线、中圈以及哨声；并划分场地区域；

(3)根据场地区域划分结果进行攻防转换分析，确定视频事件片段的边界；

(4)根据中圈和哨声检测结果确定比赛开始时间，利用贝叶斯网络实现攻防视频事件片段的初始语义分类；

(5)在文本描述中的粗粒度时间信息的约束下，根据步骤(1)中得到的文本事件类型和步骤(4)中得到攻防视频事件片段的初始语义分类同步文本描述和视频事件片段，实现足球视频事件的富语义标注。

本发明对互联网上赛况报道文本进行分析，改进足球视频多种中级语义对象的提取方法，利用攻防转换分析和事件时域转换模式有效确定事件边界，在文本描述中粗粒度时间信息的约束下同步文本事件描述和视频事件片段，实现足球视频内容的富语义标注。具体步骤如下：

(1)互联网文本的获取和分析

利用网络爬虫和Web信息抽取技术获取比赛对应的赛况报道文本；对赛况报道文本进行分词、无关词过滤和语句分割处理；利用预先建立的LSA模型计算语句的潜在语义空间查询向量；并计算该查询向量与各种文本事件类型的潜在语义空间向量的余弦相似度，将其归类为具有最大相似度的事件类别；利用正则表达式提取语句的时间、相关球员、球员所属队伍、和事件语义描述，加上前述的事件类别共获取五种文本元数据。

(2)足球视频中级语义对象检测

利用马尔科夫随机场模型检测足球视频比赛场地；利用支持向量机检测球门；采用基于直方图的快速中圈检测方法检测中圈；从图像处理的角度利用Hough变换检测足球比赛音频中的哨声。

(3)足球视频事件及边界检测

在对足球视频进行镜头分割和分类后，根据比赛-暂停结构分析理论把足球视频划分成连续的比赛-暂停(Play break，PB)结构片段；根据场地区域划分方法对PB结构片段远镜头进行攻防转换分析；检测PB结构片段中的攻防转换点，结合视频事件时域转换模式将PB片段中最后一个攻防转换点到最后一个特写镜头或回放镜头的片段作为视频事件的起止边界。

(4)足球视频事件语义标注

根据中圈和哨声检测结果确定视频中比赛起始时间；提取攻防片段中的回放场景持续时间(RPD)，精彩度(EXC)，远镜头比率(FVR)，球门比率(GMR)，哨声(WHS)和标题条(CAP)共六个特征，利用贝叶斯网络将攻防片段分类为进球、射门和犯规三种类型；在文本事件描述中的粗粒度时间信息(分钟级时间)的约束下，根据文本事件和视频事件的类型同步文本描述和视频事件片段，实现足球视频事件的语义标注。

本发明对足球比赛视频内容进行分析，改进了多个中级语义对象检测方法的性能，提高了视频事件检测的准确率和事件边界准确率，结合互联网上赛况报道文本的分析，在不精确时间信息约束条件下，根据文本描述和视频事件的语义类型同步文本和视频事件，实现了足球视频事件的富语义标注，为基于内容的视频检索打下良好的基础。具体而言，本发明具有以下优点：

(1)结合足球视频的特点，提出了一种快速准确的足球视频中圈检测方法。

(2)提出了一种基于Hough变换的哨声检测方法，提高了哨声检测的准确率。有别于传统的基于音频特征分析的哨声检测方法，本发明根据哨声频率的特点，从图像处理的角度分析音频语谱图，采用Hough变换检测足球视频中的哨声，提高了哨声检测的准确率。

(3)提高了视频事件边界检测的准确率。本发明对足球视频PB结构片段进行攻防转换分析，结合视频事件时域转换模式确定视频事件边界，提高了足球视频事件边界检测的准确率。

(4)解决了利用具有非精确时间信息的网络文本，实现文本和视频事件同步的问题。本发明在非精确时间信息的约束下，首先检测比赛起始时间，然后根据文本事件和视频事件的语义类型实现文本和视频事件的同步。

(5)实现了足球视频事件的富语义标注。本发明利用互联网上语义描述内容丰富的赛况报道文本来实现足球视频事件的语义标注，相比网络直播文本，赛况报道文本对精彩事件的描述更加具体，内容更加丰富。

附图说明

图1为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的总体流程示意图；

图2为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的足球视频事件时域转换模式示意图；

图3为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的赛况报道文本分析过程示意图；

图4为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的哨声检测流程图；

图5为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的球场区域划分流程图；

图6为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的攻防转换分析示意图；

图7为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的贝叶斯网络结构示意图；

图8为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的文本-视频事件同步过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为本发明一种多模态信息融合的足球视频事件检测与语义标注方法的总体流程示意图，主要包括三个阶段：文本分析阶段，训练LSA分类模型，检测文本描述语句的事件类型，提取文本事件元数据；视频分析阶段，提取足球视频中级语义对象，对PB结构片段进行攻防转换分析，结合事件时域转换模式(图2)确定视频事件的边界；文本-视频事件同步阶段，在文本描述中的不精确时间信息的约束条件下，根据文本事件和视频事件的类型同步文本事件描述和视频事件，实现足球视频事件的富语义标注。具体包括如下步骤：

(1)互联网文本的获取和分析

利用网络爬虫从体育网站如sports.people.com.cn，sports.sina.com.cn，sports.sohu.com，sports.qq.com等爬取比赛对应的赛况报道文本；对赛况报道文本进行分词、无关词过滤和语句分割处理；利用预先建立的潜在语义分析(Latent Semantic Analysis，LSA)模型计算语句的潜在语义空间查询向量；并计算该查询向量与各种文本事件类型的潜在语义空间向量的余弦相似度，将其归类为具有最大相似度的事件类别；利用正则表达式提取语句的时间、相关球员及球员所属队伍。检测到的文本事件可以表示为一个四元组TE(t，c，p，d)，t表示事件发生时间，c表示文本事件的类型，p表示事件涉及的球员及球员所属队伍信息，d表示事件的文本描述。如图3所示，其中利用LSA进行文本事件类型检测包括模型训练和语句分类两个阶段，LSA训练阶段步骤如下：

步骤1：将互联网上爬取的赛况报道文本作为训练语料，对所有的训练语料进行分词；

步骤2：去除训练语料中的无关词汇，包括停词、球员和球队名词等；

步骤3：构建词条-文档矩阵X_m×n。其中矩阵X_m×n的行对应词条，列对应事件文档，即m表示词条的数目，n为语料库中事件类型的数目，一般地，m＞n。X_m×n中每个元素为词条在其对应事件类型中的tf-idf权重。这里tf表示词条在相应事件训练语料中出现的频次，idf为词条的倒排文档频率；

步骤4：利用下式对词条-文档矩阵X_m×n进行奇异值分解；

X_{m \times n} = T_{m \times n} \times S_{n \times n} \times D_{n \times n}^{T}

式中，T为列正交矩阵，T中的每一列称为左奇异向量；S为对角矩阵，其对角线上的元素为由大到小降序排列的非负奇异值；D为正交矩阵；

步骤5：选取矩阵S_n×n的前k(k＜n)个最大奇异值(前k个奇异值之和占所有奇异值之和的比率大于80％)，并选取前k个最大奇异值分别对应于矩阵T_m×n和矩阵D_n×n中的列向量，通过下式计算词条-文档矩阵X_m×n的低阶近似矩阵

{\hat{X}}_{m \times n} = T_{m \times k} \times S_{k \times k} \times D_{n \times k}^{T}

步骤6：构建训练语料事件集的潜在语义矩阵E_n×k如下：

E_n×k＝D_n×k×S_k×k

E_n×k的每一行即表示相应类型的事件在潜在语义空间中的坐标。

文本事件分类阶段步骤如下：

步骤1：对输入的赛况报道文本进行事件描述语句分割(Event Description SentenceSegmentation，EDSS)。通常，在赛况报道中每一个句子用来描述一个事件，这里根据中文句子的结束标记即句号、感叹号来实现EDSS；

步骤2：把每个事件描述语句看做一个查询文档，根据训练阶段建立的词条-文档矩阵X_m×n中词条的排序构建该查询文档的查询向量X_q，X_q的每个元素为相应词条在该查询文档中出现的频次；

步骤3：将查询向量X_q映射到潜在语义空间，得到其潜在语义表达向量D_q；

D_{q} = X_{q}^{T} \times T_{m \times k} \times S_{k \times k}^{- 1}

步骤4：计算D_q和第i类事件E_i的相似度sim(D_q，E_i)：

sim (D_{q}, E_{i}) = \frac{Σ_{j} D_{q, j} \times E_{i, j}}{\sqrt{Σ_{j} D_{q, j}^{2}} \times \sqrt{Σ_{j} E_{i, j}^{2}}}

式中，E_i为潜在语义矩阵E_n×k第i行的行向量，即第i类事件在潜在语义空间的表示。j为向量D_q和E_i相应位置元素的下标；

步骤5：选择和查询向量D_q具有最大相似度的潜在语义事件向量并将D_q归类为对应的事件类型，表示为

i^{*} = \arg \max_{1 \leq i \leq n} (sim (D_{q}, E_{i}))

(2)足球视频中级语义对象检测

该步骤主要是对足球视频内在的视听特征进行分析，以辅助其后的视频事件检测、视频事件边界确定和视频事件分类。利用OpenCV机器视觉库提取足球视频中的球门、球场标志线、中圈和哨声等中级语义对象。其中，球门、球场标志线和中圈用来划分场地区域，球门和哨声作为视频事件分类时的特征。球门和球场标志线的检测可以采用现有的方法，如文献于俊清和张强等，“利用回放场景和情感激励检测足球视频精彩镜头，计算机学报，2014，37(6)：1268-1280”中描述的方法。中圈的检测步骤如下：

步骤1：在检测到的球场线中选取角度在[80°，100°]，长度大于H/3的直线作为球场中垂线HL，这里H为输入图像帧F的高度。

步骤2：旋转图像帧F使得HL垂直，旋转后的图像表示为F_r。根据直线检测结果，可以检测到椭圆的上下候选水平切线，设一共检测到m对候选水平切线。对于第i对候选水平切线TL_up，i、TL_down，i与中垂线HL的交点分别为p_up，i(x_up，i，y_up，i)，p_down，i(x_down，i，y_down，i)，则圆心(x_c，i，y_c，i)和短半轴b_i可以计算如下：

x_c，i＝(x_up，i+x_down，i)/2

y_c，i＝(y_up，i+y_down，i)/2

b_i＝(y_down，i-y_up，i)/2

步骤3：图像帧中椭圆的长轴a_i和短轴b_i之间满足比例关系α和β分别长短轴比率的下限和上限，这里α和β分别设置为2和5。设椭圆E_α，i(x_c，i，y_c，i，a_α，i，b_α，i)和E_β，i(x_c，i，y_c，i，a_β，i，b_β，i)，其中a_α，i＝α×b_i，a_β，i＝β×b_i，b_α，i＝b_i-δ，b_β，i＝b_i+δ。对于如果d(p，E_α，i)＞0&d(p，E_β，i)＜0，则p∈S_i，S_i＝{s_i，1，s_i，2，s_i，3，…，s_i，n}表示采集的候选样本点集合，n为样本点的个数。

步骤4：对于每个样本点s∈S_i，计算其对应的长半轴的值，则得到椭圆长半轴a_i的解空间为A_i＝{a_i，1，a_i，2，a_i，3，…，a_i，n}。设a_i，max＝max(A_i)，a_i，min＝min(A_i)，在区间[a_i，min，a_i，max]上以σ(经验值)等间隔统计累积直方图HT_i。设j表示直方图HT_i中间隔的下标，index_i＝arg max_j(HT_i)，则长半轴a_i计算如下：

步骤5：经过上述步骤估计出的椭圆表示为E_i(x_c，i，y_c，i，a_i，b_i)，统计E_i在图像F_r上的可见部分的弧长L_i。根据测度函数M(E)对估计椭圆E_i进行校验，M(E)定义如下：

M_{i} (E_{i}) = (\underset{s &Element; S_{i}}{Σ} ψ (s)) / L_{i}

ψ_{i} (s) = \{\begin{matrix} \begin{matrix} 1 & if & d (s, E_{in, i}) > 0 andd (s, E_{out, i})) < 0 \end{matrix} \\ \begin{matrix} 0 & otherwise \end{matrix} \end{matrix}

其中，椭圆E_in，i(x_c，i，y_c，i，a_i-δ，b_i-δ)和E_out，i(x_c，i，y_c，i，a_i+δ，b_i+δ)分别为E_i的内椭圆和外椭圆。设i^*＝arg max_i(M_i(E_i))，如果则即为检测到的椭圆，否则没有检测到椭圆。考虑到足球视频图像帧中白色椭圆线具有一定的像素宽度，这里δ设置为8。

利用如FFmpeg等音视频解码器将音频信号从足球视频中分离出来，再对音频信号进行处理，以检测哨声。图4给出了哨声检测的流程图，具体步骤如下：

步骤1：设置音频帧长FrameLen和帧移FrameInc参数；

步骤2：读入音频片段进行预加重处理，以减少尖锐噪声影响，提升高频信号；

步骤3：将音频片段分帧，以利用音频信号短时平稳的特性，并对音频帧加汉明窗，以减少频谱泄露；

步骤4：根据下式对音频信号进行短时傅里叶变换，得到其语谱图。式中，x(m)为音频信号序列，w(n)为实数窗序列；

X_{n} (e^{jω}) = Σ_{m = - \infty}^{\infty} x (m) w (n - m) e^{- jωm}

步骤5：基于Ostu自适应阈值对音频片段语谱图二值化；

步骤6：利用Hough变换检测二值图像中的直线段；

步骤7：遍历检测到的所有直线段，如果在3000Hz至4500Hz频率之间存在持续时间超过0.1秒的直线段，则认为该音频片段为哨声片段；否则为非哨声片段。

(3)足球视频事件及边界检测

利用OpenCV对解码出来的足球视频帧进行镜头分割，并判断其镜头类型。镜头分割可利用文献张玉珍和王建宇等，“基于自适应双阈值和主色率的足球视频镜头的分割”，南京理工大学学报(自然科学版)，2009，33(4)：432-437中的方法。镜头分类可以利用文献于俊清和王宁，“基于子窗口区域的足球视频镜头分类”中国图象图形学报，2008，13(7)：1347-1352中的方法。对于远镜头，根据球场标志线、球门和中圈进行区域划分，图5给出了球场区域划分流程图。根据球门前两条平行线的斜率、中圈和球门三个特征，采用决策树划分场地区域，将场地划分为左边球门区LGZ，左边角球区LCZ，右边球门区RGZ，右边角球区RCZ，中圈区域MCZ和其他区域OZ。根据球场区域划分结果进行攻防转换分析，从而进一步确定足球视频事件边界。图6给出了攻防转换分析示意图，其中F表示远镜头，M表示中镜头，C表示特写镜头，O表示观众镜头，R表示回放镜头。根据前述对球场区域的划分结果，当摄像机拍摄区域从一个半场越过中场移动到另一个半场时，即认为发生了攻防转换，“*”标记的位置为攻防转换点。当前PB结构片段中最后一个攻防转换点被认为是事件的起始边界，最后一个特写镜头或回放镜头结束位置被认为是事件的终止边界。

(4)确定比赛开始时间，利用贝叶斯网络实现攻防片段的初始语义分类

该步骤的主要任务是在文本事件描述和视频事件之间建立对应关系。由于视频的开始时间不一定是比赛的开始时间，所以需要首先检测比赛起始时间。在足球视频的开始时间段内，如果有中圈持续出现一段时间，并且随后有长哨声被检测到，则认为哨声被检测到的时间就是比赛起始时间GST。接下来，采用贝叶斯网络对视频事件片段进行语义分类。图7给出了用于视频事件片段语义分类的贝叶斯网络结构，所使用的特征包括回放场景持续时间(RPD)，精彩度(EXC)，远镜头比率(FVR)，球门比率(GMR)，哨声(WHS)和标题条(CAP)。贝叶斯网络理论为可以参考文献Friedman，N.，D.Geiger，and M.Goldszmidt，“Bayesian network classifiers”Machine Learning，1997，29(2-3)：131-163。

(5)足球视频事件语义标注

最后，在文本中粗粒度时间信息的约束条件下，根据文本事件类型和视频事件类型实现文本-视频事件的同步。图8给出了文本-视频事件同步过程示意图，具体步骤如下：

步骤1：对于第k个文本事件TE_k(t_k，c_k，p_k，d_k)，根据下式计算该文本事件在视频中的参考帧索引rf_k。

rf_k＝GST+t_k×60×f_r

其中，GST为步骤(4)中检测到的比赛起始时间，f_r为视频的帧率；

步骤2：从参考帧rf_k分别向前和向后查找3个攻防片段作为候选视频事件片段。

步骤3：对于第i个候选视频事件片段，提取观察值O_i，作为贝叶斯网络的输入证据，计算第i个候选视频事件片段属于c_k的概率p_i(c_k|O_i))。

步骤4：根据下式从候选视频事件片段中选取和TE_k事件类型一致的，具有最大概率的视频片段作为最佳匹配事件片段。

i^{*} = \arg \max_{i} (p_{i})

式中，i^*表示和TE_k最匹配的攻防片段。

步骤5：在文本事件TE_k和视频事件片段i^*之间建立对应关系，得到语义标注结果，表示为A_k(t_k，sf_k，ef_k，c_k，p_k，d_k)，其中

Claims

1.一种多模态信息融合的足球视频事件检测与语义标注方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多模态信息融合的足球视频事件检测与语义标注方法，其特征在于，所述步骤(1)中利用预先建立的LSA模型计算赛况报道文本中各语句的潜在语义空间查询向量，具体包括：

步骤(1.1.1)：将互联网上爬取的赛况报道文本作为训练语料，对所有的训练语料进行分词；

步骤(1.1.2)：去除训练语料中的无关词汇，包括停词、球员和球队名词；

步骤(1.1.3)：构建词条-文档矩阵X_m×n；其中矩阵X_m×n的行对应词条，列对应事件文档，即m表示词条的数目，n为语料库中事件类型的数目，X_m×n中每个元素为词条在其对应事件类型中的tf-idf权重，tf表示词条在相应事件训练语料中出现的频次，idf为词条的倒排文档频率；

步骤(1.1.4)：利用下式对词条-文档矩阵X_m×n进行奇异值分解；

X_{m \times n} = T_{m \times n} \times S_{n \times n} \times D_{n \times n}^{T}

步骤(1.1.5)：选取矩阵S_n×n的前k个最大奇异值，k＜n，并选取前k个最大奇异值分别对应于矩阵T_m×n和矩阵D_n×n中的列向量，通过下式计算词条-文档矩阵X_m×n的低阶近似矩阵

{\hat{X}}_{m \times n} = T_{m \times k} \times S_{k \times k} \times D_{n \times k}^{T}

步骤(1.1.6)：构建训练语料事件集的潜在语义矩阵E_n×k如下：

E_n×k＝D_n×k×S_k×k

3.根据权利要求2所述的多模态信息融合的足球视频事件检测与语义标注方法，其特征在于，所述步骤(1)中计算该查询向量与各种文本事件类型的潜在语义空间向量的余弦相似度，将其归类为具有最大相似度的事件类别，具体包括：

步骤(1.2.1)：对输入的赛况报道文本进行事件描述语句分割(Event DescriptionSentence Segmentation，EDSS)，在赛况报道中每一个句子用来描述一个事件，这里根据中文句子的结束标记即句号、感叹号来实现EDSS；

步骤(1.2.2)：把每个事件描述语句看做一个查询文档，根据训练阶段建立的词条-文档矩阵X_m×n中词条的排序构建该查询文档的查询向量X_q，X_q的每个元素为相应词条在该查询文档中出现的频次；

步骤(1.2.3)：将查询向量X_q映射到潜在语义空间，得到其潜在语义表达向量D_q；

D_{q} = X_{q}^{T} \times T_{m \times k} \times S_{n \times n}^{- 1}

步骤(1.2.4)：计算D_q和第i类事件E_i的相似度sim(D_q，E_i)：

sim (D_{q}, E_{i}) = \frac{Σ_{j} D_{q, j} \times E_{i, j}}{\sqrt{Σ_{j} D_{q, j}^{2}} \times \sqrt{Σ_{j} E_{i, j}^{2}}}

式中，E_i为矩阵E_n×k第i行的行向量，即第i类事件在潜在语义空间的表示；j为向量D_q和E_i相应位置元素的下标；

步骤(1.2.5)：选择和查询向量D_q具有最大相似度的潜在语义事件向量并将D_q归类为对应的事件类型，表示为

i^{*} = \arg \max_{1 \leq i \leq n} (sim (D_{q}, E_{i}))

4.根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注方法，其特征在于，所述步骤(2)中检测中圈的步骤包括：

步骤(2.1.1)：在检测到的球场线中选取角度在[80°，100°]，长度大于H/3的直线作为球场中垂线HL，这里H为输入图像帧F的高度；

步骤(2.1.2)：旋转图像帧F使得HL垂直，旋转后的图像表示为F_r；根据直线检测结果，可以检测到椭圆的上下候选水平切线，设一共检测到m对候选水平切线；对于第i对候选水平切线TL_up，i、TL_down，i与中垂线HL的交点分别为p_up，i(x_up，i，y_up，i)，p_down，i(x_down，i，y_down，i)，则圆心(x_c，i，y_c，i)和短半轴b_i可以计算如下：

x_c，i＝(x_up，i+x_down，i)/2

y_c，i＝(y_up，i+y_down，i)/2

b_i＝(y_down，i-y_up，i)/2

步骤(2.1.3)：图像帧中椭圆的长轴a_i和短轴b_i之间满足比例关系α和β分别长短轴比率的下限和上限；设椭圆E_α，i(x_c，i，y_c，i，a_α，i，b_α，i)和E_β，i(x_c，i，y_c，i，a_β，i，b_β，i)，其中a_α，i＝α×b_i，a_β，i＝β×b_i，b_α，i＝b_i-δ，b_β，i＝b_i+δ；对于如果d(p，E_α，i)＞0&d(p，E_β，i)＜0，则p∈S_i，S_i＝{s_i，1，s_i，2，s_i，3，…，s_i，n}表示候选样本点集合，n为样本点的个数；

步骤(2.1.4)：对于每个样本点s∈S_i，计算其对应的长半轴的值，则得到椭圆长半轴a_i的解空间为A_i＝{a_i，1，a_i，2，a_i，3，…，a_i，n}；设a_i，max＝max(A_i)，a_i，min＝min(A_i)，在区间[a_i，min，a_i，max]上以σ等间隔统计累积直方图HT_i，σ为经验值；设j表示直方图HT_i中间隔的下标，index_i＝arg max_j(HT_i)，则长半轴a_i计算如下：

步骤(2.1.5)：经过上述步骤估计出的椭圆表示为E_i(x_c，i，y_c，i，a_i，b_i)，统计E_i在图像F_r上的可见部分的弧长L_i；根据测度函数M(E)对估计椭圆E_i进行校验，M(E)定义如下：

M_{i} (E_{i}) = (\underset{s &Element; S_{i}}{Σ} ψ (s)) / L_{i}

ψ_{i} (s) = \{\begin{matrix} \begin{matrix} 1 & if & d (s, E_{in, i}) > 0 andd (s, E_{out, i})) < 0 \end{matrix} \\ \begin{matrix} 0 & otherwise \end{matrix} \end{matrix}

其中，椭圆E_in，i(x_c，i，y_c，i，a_i-δ，b_i-δ)和E_out，i(x_c，i，y_c，i，a_i+δ，b_i+δ)分别为E_i的内椭圆和外椭圆；设i^*＝arg max_i(M_i(E_i))，如果则即为检测到的椭圆，否则没有检测到椭圆。

5.根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注方法，其特征在于，所述步骤(2)中的检测哨声的步骤包括：

步骤(2.2.1)：设置音频帧长FrameLen和帧移FrameInc参数；

步骤(2.2.2)：读入音频片段进行预加重处理，以减少尖锐噪声影响，提升高频信号；

步骤(2.2.3)：将音频片段分帧，以利用音频信号短时平稳的特性，并对音频帧加汉明窗，以减少频谱泄露；

步骤(2.2.4)：根据下式对音频信号进行短时傅里叶变换，得到其语谱图；式中，x(m)为音频信号序列，w(n)为实数窗序列；

X_{n} (e^{jω}) = Σ_{m = - \infty}^{\infty} x (m) w (n - m) e^{- jωm}

步骤(2.2.5)：基于Ostu自适应阈值对音频片段语谱图二值化；

步骤(2.2.6)：利用Hough变换检测二值图像中的直线段；

步骤(2.2.7)：遍历检测到的所有直线段，如果在3000Hz至4500Hz频率之间存在持续时间超过0.1秒的直线段，则认为该音频片段为哨声片段；否则为非哨声片段。

6.根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注方法，其特征在于，所述步骤(2)中划分场地区域具体包括：

采用决策树划分场地区域，将场地划分为左边球门区LGZ，左边角球区LCZ，右边球门区RGZ，右边角球区RCZ，中圈区域MCZ和其他区域OZ。

7.根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注方法，其特征在于，所述步骤(3)中视频事件边界通过攻防转换分析和事件时域转换模式来确定，视频事件边界起始于PB片段最后一个攻防转换点，结束于特写镜头或回放镜头。

8.根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注方法，其特征在于，所述步骤(4)根据中圈和哨声确定比赛起始时间：

在足球视频的开始时间段内，如果有中圈持续出现一段时间，并且随后有长哨声被检测到，则认为哨声被检测到的时间就是比赛起始时间。

9.根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注方法，其特征在于，所述步骤(4)中利用贝叶斯网络实现攻防片段的初始语义分类，具体包括：

根据下述特征：回放场景持续时间(RPD)，精彩度(EXC)，远镜头比率(FVR)，球门比率(GMR)，哨声(WHS)和标题条(CAP)，利用贝叶斯网络将足球视频攻防片段分类为进球、射门和犯规三种类型。

10.根据权利要求1至3任一项所述的一种多模态信息融合的足球视频事件检测与语义标注方法，其特征在于，所述步骤(5)中根据文本和视频片段的语义同步文本和视频事件，具体包括如下步骤：

步骤(5.1)：对于第k个文本事件TE_k(t_k，c_k，p_k，d_k)，其中，t_k表示第k个文本事件的时间，c_k表示第k个文本事件的类型，p_k表示第k个文本事件相关的球员及球员所属队伍信息，d_k表示第k个文本事件的语义描述，根据下式计算该文本事件在视频中的参考帧索引rf_k；

rf_k＝GST+t_k×60×f_r

步骤(5.2)：从参考帧rf_k分别向前和向后查找3个攻防片段作为候选视频事件片段；

步骤(5.3)：对于第i个候选视频事件片段，提取观察值O_i，作为贝叶斯网络的输入证据，计算第i个候选视频事件片段属于c_k的概率p_i(c_k|O_i))；

步骤(5.4)：根据下式从候选视频事件片段中选取和TE_k事件类型一致的，具有最大概率的视频片段作为最佳匹配事件片段；

i^{*} = \arg \max_{i} (p_{i})

式中，i^*表示和TE_k最匹配的攻防片段；

步骤(5.5)：在文本事件TE_k和视频事件片段i^*之间建立对应关系，得到语义标注结果，表示为A_k(t_k，sf_k，ef_k，c_k，p_k，d_k)，其中