CN102073864B

CN102073864B - 四层结构的体育视频中足球项目检测系统及实现

Info

Publication number: CN102073864B
Application number: CN201010567763.6A
Authority: CN
Inventors: 董远; 张纪伟
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2010-12-01
Filing date: 2010-12-01
Publication date: 2015-04-22
Anticipated expiration: 2030-12-01
Also published as: CN102073864A

Abstract

本发明提出了四层结构的体育视频中足球项目检测系统及实现。该系统首先采用镜头边界检测对整个视频进行分析，将相同切换方式和运动特征的相邻片段归为一类称为视频夹，同时统计视频片段的持续时间，映射到码本上做成直方图，与已有模板进行比对实现第一层分类。第二阶段对片段提取关键帧，然后提取局部和全局特征，使用多码本的方式进行特征映射，使用SVM进行主场景的分类，得到相应的基于关键帧的图片打分；第三阶段将关键帧代表的片段映射到相应的视频夹中进行加权，得到相应的分类结果；最后与第一次分类的结果进行后融合得到最终结果。本发明具有较高的识别精度和速度，可以有效的进行体育类型的识别，适用于体育节目机器标注、广告推荐等。

Description

四层结构的体育视频中足球项目检测系统及实现

技术领域

本发明属于多媒体信息处理与检索领域关于体育视频分类的方法，涉及到体育视频镜头构成特点统计分析和视频底层特征提取分类。本发明引入对不同类别体育镜头剪辑方式和景别构成的分析统计形成剪辑模版，并在系统对镜头关键帧进行SVM分类的基础上，对进行有效结合，采用对关键帧打分的时间段加权并与剪辑方式模版匹配结果进行融合。提出了一种高精度识别体育视频中足球项目的四层体系检测系统，在更换相应的训练样本后，可以有效的进行其他体育类型的识别，适用于体育节目机器标注、广告推荐等。

背景技术

随着数字视频技术及相关传输、存储技术的提高，数字视频与人们日常生活关系越来越密切。在广播电视领域已经逐步取代传统的模拟信号方式，互联网上的应用更是得到了充分的发展，已经出现了以Youtube，优酷为代表的大数据量视频网站；主流搜索引擎如谷歌百度等也已经推出专门的视频搜索产品；垂直搜索引擎如雷搜也已经出现。专门的视频门户网站也是日益增长，这些网站对视频的存储与传播起到了重要的作用，对海量的视频数据的自动处理也提出了挑战。

体育视频在各类视频中占据重要的分量。体育视频具有实时性，体育赛事每天发生，每时每刻都有大量的新内容创造出来。用户必然需要以最快的方式得到最新的体育资讯消息，体育视频能以最大的容量呈现精彩的体育比赛场面和精彩镜头，用户对体育视频的需求也越来越广泛，越来越迫切。用户观看体育视频的针对性很强，他只关注自己喜欢的那些体育种类，对其他的体育种类很少甚至根本不关心。所以只有有效的做好体育视频分类，才能使用户快速的找到自己想要的体育视频。传统的体育视频分类是通过视频文件命名信息或者人工标注信息来进行分类，这种依赖耗费大量人力的工作显然不再适合现在海量的视频的分类。

为了实现自动的体育视频分类，需要提取体育视频中的反应体育种类的有效信息。体育视频的内容丰富，有许多信息可以用来表征这个视频的体育种类。然而，其中字幕或者比分信息由于受到电视转播机构差异性的影响，不同的电视台有不同的字幕表现形式，缺乏通用的提取方法；所以我们通过提取视频中场景信息来做体育分类。体育镜头大致分为远景、中景和特写三种。采用模式分类的方式由镜头图片代表该段所代表的体育类型。

在实用过程中，我们发现由于镜头冗余和现阶段特征分类算法的鲁棒性问题，结果并不理想。因此我们引入对于不同体育类别节目中视频剪辑方式的分析，比如对于赛车类型，为保证观看的连贯性，视频剪辑以远景、长镜头为主，而对于足球运动，为及时捕捉精彩镜头，摄像机会频繁切换，并以中景为主，根据这种在体育类型间有明显区别的，并且同种体育类型具有共性的特征，我们通过统计该体育不同类型镜头平均持续时间和频次，可以得到该体育类型镜头剪辑方式模版，用于粗分类；同时的，关键帧为基础的模式分类方式忽略了在多个关键帧在体育类型上的连续性，时间相邻镜头有很大的可能表述的是相同的体育概念，我们根据运动特征，剪辑特征等将时间相邻的镜头聚为一个视频片段(video clip)，在关键帧分类之后加入相应的连续时间段加权，最后同剪辑的模板结果融合，得到最终结果。

本发明通过分析体育视频镜头剪辑方式和底层特征两方面的特性，制定了一个能够进行特定项目的体育视频分类标准。提出了基于机器学习方法的体育视频检测四层体系。主要包括镜头剪辑统计，关键帧模式分类，视频片段加权和后融合四个方面。在关键帧视频分类引入多码本分类方式，在后融合方面引入logistic回归方式。在保证高精度的同时尽量减少系统开销，在体育类型检测及人工标注、广告推荐方面具有很好的应用前景。

发明内容

为提高体育视频特定种类的识别效率和准确率，本发明提出了基于机器学习方法的体育视频检测四层体系。该系统首先采用镜头边界检测技术(Shot Boundary Detect，SBD)技术，根据镜头切换方式和剪辑方式对整个视频进行分析，结合运动特征(光流等)将切换方式相同、运动特征相同的相邻片段归为一类，称为视频夹(video clip)，同时的，根据统计视频各个片段出现的持续时间，映射到特定码本上做成直方图形式，与已有模板进行比对，得到K-L距离后实现第一层分类。第二阶段对片段提取关键帧作为该视频内容的代表，然后提取局部和全局特征，使用多码本的方式进行特征映射，使用SVM进行主场景的分类，能够得到相应的基于关键帧的图片打分；第三阶段将关键帧代表的片段映射到相应的视频夹(video clip)中进行加权得分，得到相应videoclip的分类结果；最后与第一次分类的结果进行后融合，得到最终结果。

基于上面的四层结构，第一阶段需要足够的真实体育视频进行分析，本发明对现实体育视频中足球进行识别，选取欧洲电视台ESPN和法国体育视频Orangesports源进行分析，其中ESPN共200小时，Orangesports140小时，在大量人工标注下，能够界定的纯粹足球视频共有50小时，为进行比较，我们同时标注了出现频率比较高的体育视频如篮球、网球、拳击、游泳四种作为实验的负样本。第二阶段的特征提取为精度和系统开销的考量，我们选取DenseSift，Shape Context，LBP，EDH四种特征进行提取，映射过程中采用了多码本的技术。第三阶段加权经过实验，平均值加权具有最好的效果；第四阶段后融合采用logistic回归方式确定两个结果的权重。

附图说明

图1为四层结构的体育视频中足球检测体系流程概要图

图2为足球类型剪辑方式统计及其他类型对比

图3为基于关键帧的SVM分类流程概要图

图4为不同特征的分类效果对比图

图5为关键帧结果映射到视频夹的示意图

图6logistic回归流程图

图7为四层结构体育视频中足球检测体系总体框架图

具体实施方式

本发明通过分析体育视频镜头剪辑方式和底层特征两方面的特性，制定了一个能够进行特定项目的体育视频分类标准。提出了基于机器学习方法的足球体育视频检测四层体系。主要包括镜头剪辑统计，关键帧模式分类，视频片段加权和后融合四个方面。在关键帧视频分类引入多码本分类方式，在后融合方面引入logistic回归方式。在保证高精度的同时尽量减少系统开销，在体育类型检测及人工标注、广告推荐方面具有很好的应用前景。

下面将介绍本发明具体实施方法。

一、镜头剪辑方式统计和视频夹聚合

(一)镜头的不同剪辑方式

视频往往是由众多镜头经过剪辑拼接而成。一个镜头表示一个摄像机连续拍摄的帧序列。自动镜头分割就是从一段连续视频当中找出每次镜头切换的具体位置，把整段的视频按照镜头为单元分割成片段。为了对镜头进行准确和快速的分割，根据场景突变作为镜头切换的判断依据。

本系统采用两个传统的帧间差来衡量前后帧之间的场景差异。定义：第t帧f_t和第t+1帧f_t+1图片中，I_t(i，j)和I_t+1(i，j)表示是坐标为(i，j)的像素点的强度；H_t(k)和H_t+1(k)表示L阶颜色直方图的第k阶。帧的分辨率为M×N，于是：

颜色直方图差(HDM)可以写成：

D_{H} (t) = \frac{1}{M \times N} {(Σ_{k = 1}^{L} {| H_{t} (k) - H_{t + 1} (k) |}^{p})}^{1 / p}

式中，p∈[1，+∞)。通常情况下当p＝1或p＝2时，上述公式实际上就是欧式距离。

对视频的每一帧，求出它的上述两种距离，当一帧的两个距离值的和大于事先设定的阈值时，认为这是一个场景的突变，也就是镜头的切换点。

(二)视频夹聚合

在SBD过程后会生成关于该视频镜头切换方式分析，视频段起至帧等信息的问题。

将不同视频段聚合成一个视频夹(video clip)的规则在于：

A)视频段在时间上是相邻的且聚合成的videoclip持续时间大于1500帧

B)同一videoclip具有相同的切换方式

C)同一videoclip下通过光流分析具有相似的运动特征。

同时满足三个原则的视频段将聚合成为一个videoclip，信息将以特定的格式保存在相应的列表里。

(三)剪辑方式模板映射和第一次匹配

对不同类型的体育运动，视频段持续时间和频度具有很大的不同，而相同类型的体育运动即使在不同的节目源中也会有类似的剪辑风格。

关于足球和其他类型体育视频段持续和频度统计见图2。

因此，对于已经经过SBD分析的视频，我们统计所有视频段的持续时间，在相应的码本上映射生成直方图形式。码本的选择根据大量视频分析后的特点进行构造，规则如下：

视频段持续帧数	分配策略
		0～100	每隔10帧为一个BIN
100～200	每隔25帧为一个BIN
		200～800	每隔50帧为一个BIN
＞800	为800帧映射到最后一个BIN中

在生成直方图后，我们进行相应的模板匹配，与之前五种体育类型(足球篮球等)的模板进行匹配，匹配方式采用：

1.直方图相交法。令H_Q(k)，H_D(k)为两个统计的直方图，则两直方图的匹配值P(Q，D)可以借助直方图相交来实现，即：

P (Q, D) = \frac{Σ_{k = 0}^{l - 1} \min [H_{Q} (k), H_{P} (k)]}{Σ_{k = 0}^{l - 1} H_{Q} (k)}

2.直方图匹配法。直方图匹配法可以用一般的欧式距离函数M_E(Q，D)来衡量：

M_{E} (Q, D) = \sqrt{Σ_{k = 0}^{l - 1} {[H_{Q} (k) - H_{D} (k)]}^{2}}

得出的结果作为第一次匹配的分数加以保留。

二、基于关键帧的SVM分类方式

基于关键帧的SVM分类流程概要见图3。

(一)提取关键帧图片的鲁棒性特征

如何跨越底层特征和高级语义之间的鸿沟，底层特征的鲁棒性和区分性将起到举足轻重的作用。在图像和视频的分析与检测、模式识别中，人们希望提取的特征能尽量地反映目标重要的、本原的特征性。所谓重要特征是指以它们作为分量的特征点在特征空间中同类聚集、异类分散，当使用距离测度时同类的特征点距离尽量小，不同类的特征点距离尽量大。所谓本原特征是指特征绝对性(鲁棒性或稳健性)尽量地强，最大限度地不依赖于提取目标特征时的条件和环境。也即，不随目标图像和视频的视点不同而变化，同时应尽可能地减少设备、光照等物理因素对提取的特征的影响。同时，为减少系统开销，提取简单，对体育类型具有较好区分力的全局特征也是我们需要的。

对于四种特征的描述和维数表示如下

特征	描述	维数
			LBP	Local Binary Patterns on whole imag	256
EDH	Edge Direction Histogram	365
			DenseSift	Dense sift bag-of-words	512
Shape Context	Shape Context with 200pixels left	4480

对于不同特征的效果对比如图4。

(二)基于SVM分类器的体育分类

支持向量机是机器学习领域若干标准技术的集大成者。它集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等。支持向量机(SVM)方法是从线性可分情况下的最优分类超平面(optimal hyperplane)发展而来的。所谓最优分类超平面就是要求分类面不但能将两类正确分开(训练错误率为0)，而且使分类间隔最大。分类间隔(margin)定义为两类距离超平面最近的点到超平面的距离之和。使分类间隔最大，实际上是对推广能力的控制。分类间隔越大，则推广能力越好，这是SVM的核心思想之一。SVM的表达式如下：

g (x) = < w, x > + b = Σ_{i = 1}^{n} a_{i} y_{i} < x_{i}, x > + b

设定阈值后，我们的分类问题转化为将样本输入到线性函数中，通过比较输出值与阈值的关系得到相应的二分类归属判别。

SVM推广能力与分类间隔密切相关，因此构造合理的SVM分类器优化目标

\min \frac{1}{2} {| | w | |}^{2} + C Σ_{i = 1}^{l} ξ_{i}

subjectto：y_i[(wx_i)+b]≥1-ξ_i，ξ_i≥0

其中ξ为松弛变量，表征对某些特殊点的容忍度；C为惩罚因子。

对于不同的特征采用不同的核(Kernel)。常用的SVM核有：

线性核(linear)：

K (x_{i}, x_{j}) = x_{i}^{T} x_{j}

多项式核(polynomial)：K(x，y)＝(γx^Ty+r)^d，r＞0

RBF(径向基函数)核：K(x，y)＝exp(-γ||x-y||²)，γ＞0

Chi-Square核：

K (x, y) = \exp (γ \frac{{| | x - y | |}^{2}}{x + y})

本发明中采用RBF核，因为其对不同特征都具有较好的区分能力。在关键帧得到的结果要用于后面的加权，因此我们需要得到相应的二分类输出概率而不是简单的0-1结果。输出的概率我们可以称之为score：

score = \frac{1}{m} Σ_{i = 1}^{m} sign [f (F_{i})]

式中：

f (x) = Σ_{i = 1}^{n} α_{i} y_{i} < s_{i}, x > + b

为SVM函数

三、关键帧在视频夹上的结果加权

关于视频段(shot)与视频夹(video clip)的映射关系如图5。

(一)映射方法

通过阶段二得到的关键帧级别的不同分类器的得分(score)，代表这该关键帧所在视频段属于体育类别的概率，而通过将视频段映射到视频夹的方式，可以加入时间信息，从而通过加权较大限度的消除偶然误差，得到更高的检测准确率。

在video clip列表中存有该视频夹中视频段的起止编号，将相应编号的视频段所对应的关键帧得分聚合在一起，采用经实验验证较好的求均值方法得到相应的视频夹得分。

{\overset{&OverBar;}{res}}_{i} = \frac{Σ_{j = 1}^{n} {res}_{ij}}{n},

(i＝1...l，j＝1...n)

其中res(i，j)为该视频夹中第j个镜头在第i个体育运动上的得分，共有L个镜头，N种体育，我们最终得到该视频夹在所有体育运动中的得分，为下一阶段加权做准备。

(二)加权方法

关键帧的得分映射为video clip的分数，实验选取了四个特征，也就有四组得分，为了将四组得分融合起来，我们采用了不同的融合策略，最终在准确性和系统开销的综合评判下，选择logistic回归的方式。

logistic回归又称logistic回归分析，主要在流行病学中应用较多，比较常用的情形是探索某疾病的危险因素，根据危险因素预测某疾病发生的概率，等等。例如，想探讨胃癌发生的危险因素，可以选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌，即“是”或“否”，为两分类变量，自变量就可以包括很多了，例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的，也可以是分类的。通过logistic回归分析，就可以大致了解到底哪些因素是胃癌的危险因素。

该回归方式的主要用途在于：

1)寻找危险因素，如上文所说

2)预测。如果已经建立了回归模型，则可以根据模型，预测在不同自变量下，发生某种情况的概率有多大。

3)判别。根据模型，判断某人或某种情况属于某类别的概率。

本文将借用logistic回归方式找到四个特征在确保得分最大情况下的加权。

使用一部分训练集四组得分作为输入，进行logistic回归，在SVM线性核其权重即为四组得分的权重Wi(i＝1...4)，在测试集合的四组分数得到后，进行加权后得到一组得分就是我们的加权后得分。得到各个video clip的加权分后，将其保存，为与第一阶段模板匹配得分进行加权作准备。

Logistic回归流程图见图6

四、后融合

通过阶段三，我们得到相应加权分数，与第一阶段模板匹配的分数需要进行加权融合，通过多次实验，我们设定模板匹配和SVM训练得分的比例在3∶7时具有最好的检测准确率，在通过加权融合得到最终结果后，我们需要设定阈值进行分类。

SVM对测试样本分类后，根据决策规则确定每一类视频所属的最终类别。

V &Element; \{\begin{matrix} {Sport}_{n} & score > 0.5 \\ other & score < = 0.5 \end{matrix}

本发明的总体系统框架图如附图7所示。

根据本发明，既可以采用软件编程方法实现，也可以采用硬件产品的形式实现。对于本领域的普通技术人员来说，本发明还可以用许多其他具体的形式实施。本发明所述的方法，不限于具体实施方式中所述，可以在附后的权利要求的范围内改变。

Claims

1.一种结合镜头剪辑方式统计和底层特征分类的体育视频足球项目检测方法，对体育视频进行模式分类和统计匹配的处理，对特定体育类别进行识别，该方法包括：

步骤一，对体育视频剪辑方式进行统计分析，形成模板匹配的结果；

步骤二，体育视频统计分析后，提取对应视频段的的相应图片作为关键帧，进行基于关键帧的模式分类，得到每个视频段对应的概率；

步骤三，将视频段的得分映射到视频夹中进行计算，即加入了时间信息，得到结果进行分类器阶段的后融合；

步骤四，将第一步和第三步得到的结果进行加权，确定阈值后进行分类；

其中，所述步骤一具体包括：

步骤1，边界检测，形成视频段：

对视频进行边界检测后，镜头切换点的选择是通过寻找颜色直方图差序列多个局部极值点；

步骤2，对相邻视频段聚合为同一视频夹的规则：

视频段在时间上是相邻的且聚合成的视频夹持续时间大于1500帧；同一视频夹具有相同的切换方式；同一视频夹下通过光流分析具有相似的运动特征；

步骤3，统计视频段持续时间后，码本构造：

码本为26维，其组成规则是：0～100帧，每隔10帧为一个词表；100～200帧，每隔25帧为一个词表；200～800帧，每隔50帧为一个词表；＞800帧，为800帧映射到最后一个词表中；

其中，所述步骤二具体包括：

步骤1，关键帧提取：

提取的形状上下文特征使用固定提取200个点的方式，共有4480维，在提取形状上下文特征过程中，点集精简的算法采用弦差法；

对边缘方向直方图特征进行归一化处理时，采用2范数的归一化方式；

步骤2，码本生成：

进行多码本制作时，由于系统的主要目的在于检测体育运动中的足球，因此将足球的远中近景各200个，其他四种体育运动篮球、网球、拳击和游泳远中近景各200个一起建立码本；

步骤3，以概率形式为关键帧打分：

score＝F[P(C_i)]，其中C_i为输入图像组的第i帧，F为对应这某一特征的结果，P为对应某一类别的结果；这个得分score即为图像C_i提取特征F后属于类别P的概率；

在分类器训练阶段，采用一种视频为正样本，其他所有类别正样本的图像组作为该体育类别负样本的方式；

其中，所述步骤三具体包括：

步骤1，关键帧得分映射：

将视频段的得分映射到视频夹中进行计算，即加入了时间信息，将同一视频夹中的视频段得分进行求均值处理，得到的得分即为该视频夹的得分；

步骤2，后融合：

在四种分类器shape context，dense sift，LBP，EDH下的得分经过logistic回归得到相应的权值，通过代入权值得到相应的某视频夹对应的唯一结果；

步骤3，视频夹得分：

计算该视频夹所属的体育类别时采用计算不同类型下最大值的方式，其中C_i为输入图像组的第i帧，F为对应这某一特征的结果，P为对应某一体育类别的结果，j为体育类型的第j个。