CN101604325B

CN101604325B - 基于主场景镜头关键帧的体育视频分类方法

Info

Publication number: CN101604325B
Application number: CN2009100893585A
Authority: CN
Inventors: 董远; 黄煜斌
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2009-07-17
Filing date: 2009-07-17
Publication date: 2012-06-20
Anticipated expiration: 2029-07-17
Also published as: CN101604325A

Abstract

本发明提出一个基于主场景镜头关键帧的体育视频分类方法。该方法只采用主场景进行体育分类，而不是整个视频的帧来代表体育视频来做分类，有效的降低了视频分类的计算量。首先对视频按照镜头自动分割成多个片段，所有片段的关键帧经过基于图理论的自适应阈值聚类后，聚成了包括远景、中景、特写镜头等多个大类，中景镜头类被选取当作该体育视频的主场景镜头，这个过程不用依赖于任何先验信息，就能自动的有效的提取体育视频的主场景信息-中景镜头，剔除体育视频中多种干扰(如裁判员，观众特写，一些转播效果以及广告等镜头)，最后用SVM分类器对主场景镜头关键帧进行分类，具有很高的体育视频分类准确性。

Description

基于主场景镜头关键帧的体育视频分类方法

技术领域

本发明属于多媒体信息处理与检索领域关于体育视频分类的方法，其实质是一种利用镜头关键帧聚类后提取具有代表性信息的主场景镜头关键帧然后对其做分类的方法，是一种自动的鲁棒性强的以及运算复杂度低的体育视频处理方法。

背景技术

现今随着计算机技术和互联网技术的发展，触手可及的多媒体信息呈现出爆炸式增长，而且这种增长越来越迅速，互联网已成为一个浩瀚的海量多媒体信息源。人们可以通过从有线电视或者IPTV录制体育视频，或者互联网下载，产生大量的视频。这种快速增长的视频数据催生了许多视频的互联网应用：视频共享网站(如国外的Youtube，国内的优酷，土豆等)像雨后春笋般的呈现，专门的视频门户网站也是日益增长，这些网站对视频的存储与传播起到了重要的作用，对海量的视频数据的自动处理也提出了挑战。

体育视频在各类视频中占据重要的分量。体育视频具有实时性，体育赛事每天发生，每时每刻都有大量的新内容创造出来。用户必然需要以最快的方式得到最新的体育资讯消息，体育视频能以最大的容量呈现精彩的体育比赛场面和精彩镜头，用户对体育视频的需求也越来越广泛，越来越迫切。用户观看体育视频的针对性很强，他只关注自己喜欢的那些体育种类，对其他的体育种类很少甚至根本不关心。所以只有有效的做好体育视频分类，才能使用户快速的找到自己想要的体育视频。传统的体育视频分类是通过视频文件命名信息或者人工标注信息来进行分类，这种依赖耗费大量人力的工作显然不再适合现在海量的视频的分类。

为了实现自动的体育视频分类，需要提取体育视频中的反应体育种类的有效信息。体育视频的内容丰富，有许多信息可以用来表征这个视频的体育种类。然而，其中字幕或者比分信息由于受到电视转播机构差异性的影响，不同的电视台有不同的字幕表现形式，缺乏通用的提取方法；所以我们通过提取视频中场景信息来做体育分类。体育镜头大致分为远景、中景和特写三种。其中最具有代表的是中景镜头，因为远景包括的是场馆内的大体空间信息，而特写只包含运动员的身体或动作信息，只有中景镜头才完整的保留了该项体育运动中最主要的最本质的比赛场地信息，如场地颜色，纹理，边缘等。观察体育视频可以知道，中景镜头是体育视频中最主要的镜头，其出现的时间和次数最多。但是对于一段未知的体育视频，首先无法得到其先前知识--具有某些特征信息，如篮球的篮筐、足球的球门等，其次不知道中景镜头的起始和结束点，所以，只能通过无监督学习的方来来提取中景镜头信息。对一个视频先进行镜头分割，然后选取每一个镜头的关键帧，再提取其鲁棒特征，特征相近的帧聚到一起成为一类。通过不停的迭代直到聚类结果满足一定的终止条件。这样将所有的关键帧聚成许多个大类，其中最大的类就是中景镜头，代表这个体育视频。

发明的内容

为了设计一个自动的体育视频分类系统，快速有效的识别体育种类，提高识别率，本发明提出一个基于镜头关键帧聚类的体育视频分类的方法。该方法首先采用自适应阈值的基于图理论的聚类方法，提取体育视频的所有属于中景镜头类的关键帧作为主场景，然后通过支持向量机(SVM)来仅仅对主场景进行分类，而不是视频的每一帧，从而达到自动的决定未知视频的体育种类，大大减少了计算量。具体来说是先对视频按照进行镜头自动分割，把视频分成多个片段，每个片段属于一个摄像机镜头拍摄的连续帧，然后在这些帧里边选取关键帧代表这个片段，再对关键帧提取鲁棒性特征，将其映射到特征空间去，空间中相近的点聚集到一起，其次在自适应阈值的基于图理论的聚类结果中，选取的属于中景镜头的那类作为主场景，最后用SVM分类器对主场景进行分类，判断其匹配之前训练好的多个体育模型中的哪一个。

技术方案如下。

一种基于主场景镜头关键帧的体育视频分类的方法，其特征包括以下步骤：

步骤一，对体育视频进行自动镜头分割，关键帧提取；步骤一具体包括：

对体育视频进行自动镜头分割，把体育视频分成多个片段，每个片段属于一个摄像机镜头拍摄的连续帧，然后在这些帧里边选取中间时刻点的一帧作为该片段的关键帧代表这个片段；

步骤二，提取关键帧的鲁棒性特征；

步骤三，基于图理论的自适应阈值聚类算法进行聚类，并选取主场景；步骤三具体包括：

步骤3.1，构造一个无向图，所有关键帧作为图的节点，对所有节点间都计算两两间距离，对这些距离值进行模糊2均值聚类，聚出小的类的中心作为动态产生的阈值；

步骤3.2，然后再在所构成的图中生成其最小生成树，基于Kruskal算法，初始化时从原始的所有边当中权值最小的边开始加入到边的集合中，每次迭代从剩下的边中选择权值最小的一条并判断其如果不会产生环路，则加入已选择的边的集合中，为了使得类别具有较高的类内纯度，对于每个类新加入的节点，还需要判断其与类内其余所有节点的边的数学期望是否超过所述阈值，如果超过，则剔除该新加入节点，如此迭代，直到剩下的边都大于所述阈值，此时所有集合内被边连通的节点成为一类；

步骤3.3，图的最小生成树剪完枝后得到的多个子树作为聚类结果；

步骤3.4，在基于图理论的自适应阈值聚类结果中，选取属于中景镜头的那类作为主场景，其中包含节点最多的那个类即属于中景镜头；

步骤四，基于主场景镜头关键帧进行体育视频分类，所述体育视频分类基于支撑向量机(SVM)进行。

本发明提出的这种利用镜头关键帧聚类的方法，使得不用依赖于任何先验信息，就能自动的有效的提取体育视频的主场景信息-中景镜头，剔除体育视频中多种干扰(如裁判员，观众特写，一些转播效果以及广告等镜头)，大大提高了体育视频分类的准确性。

附图说明

图1为本发明的系统总体框图

图2为视频镜头分割及关键帧提取模块框图

图3为基于图理论的自适应阈值聚类算法及主场景选取流程图

图4为体育分类算法流程图

图5为体育视频中常见的几类镜头

具体实施方式

下面结合附图具体对本发明作进一步的详细描述。如图5所示，体育视频中分远景，中景，特写等多种镜头，分布在视频的各个时间段，本发明能有效的将这些散布的镜头根据他们共同的特点聚集在一起，并在其中提取出属于中景镜头的那一类关键帧，以做体育视频分类。

如图1所示，本发明方案分以下步骤：

(1)、自动镜头分割及关键帧提取；

(2)、提取关键帧图片的鲁棒性特征；

(3)、自适应阈值的基于图理论聚类算法以及主场景类选取；

(4)、SVM分类器分类。

下面是对各步骤的详细说明：

1、自动镜头分割及关键帧提取

视频往往是由众多镜头经过剪辑拼接而成。一个镜头表示一个摄像机连续拍摄的帧序列。自动镜头分割就是从一段连续视频当中找出每次镜头切换的具体位置，把整段的视频按照镜头为单元分割成片段。为了对镜头进行准确和快速的分割，根据场景突变作为镜头切换的判断依据。

本系统采用两个传统的帧间差来衡量前后帧之间的场景差异。一个是颜色直方图差(HDM)，一个是空间差(SDM)。

定义：第t帧f_t和第t+1帧f_t+1图片中，I_t(i，j)和I_t+1(i，j)表示是坐标为(i，j)的像素点的强度；H_t(k)和H_t+1(k)表示L阶颜色直方图的第k阶。帧的分辨率为M×N，于是：

颜色直方图差(HDM)可以写成：

D_{H} (t) = \frac{1}{M \times N} {(Σ_{k = 1}^{L} {| H_{t} (k) - H_{t + 1} (k) |}^{p})}^{1 / p}

空间差(SDM)可以写成：

D_{S} (t) = \frac{1}{M \times N} {(Σ_{i = 1}^{M} Σ_{j = 1}^{N} {| I_{t} (i, j) - I_{t + 1} (i, j) |}^{p})}^{1 / p}

式中，p∈[1，+∞)。通常情况下当p＝1或p＝2时，上述公式实际上就是欧式距离。

对视频的每一帧，求出它的上述两种距离，当一帧的两个距离值的和大于事先设定的阈值时，认为这是一个场景的突变，也就是镜头的切换点。

最后在一段视频段中，提取中间时刻点的一帧作为该视频片段的关键帧。

2、提取关键帧图片的鲁棒性特征

体育视频的各种场景(见图6)中最显著的区别就是颜色特征。因为远景包含场馆的建筑构造和观众席远景，中景主要是体育赛事场地信息，特写只有运动员球服，躯体的相关信息，几乎没有任何场地信息。利用颜色特征就能很好的区分它们。

HSV色彩属性模式是根据色彩的三个基本属性：色相、饱和度和明度来确定颜色的一种方法，它接近人的视觉感知。从RBG色彩空间到HSV空间的转换：

一种颜色如果在三原色光模式中三个因数分别为红(R)、绿(G)和蓝(B)，将0-255的数值转换为0.0-1.0，如果三个因数中最大的值为Max，最小的值为Min，代入下式：

H = \{\begin{matrix} (6 + \frac{G - B}{Max - Min}) \times 60, & if & R = Max \\ (2 + \frac{R - G}{Max - Min}) \times 60, & if & G = Max \\ (4 + \frac{G - B}{Max - Min}) \times 60, & if & B = Max \end{matrix}

S = \frac{Max - Min}{Max}

V＝Max

这样，对每一幅图片，将其所有的像素点做量化，量化成8个H(Hue)分量，3个S(Saturation)分量，以及3个V(Value)分量，并分别做统计。这样每个图像就用一个72维的向来来表征。每一维表示该分量上的像素点个数。最后对这72维向量做归一化。

本系统不对图片做分块是因为考虑到体育视频镜头总是在移动的，每次拍摄到的图片不是严格对准的，但是这些图片他们大致的主颜色分布是一样的，比如足球比赛每次拍摄禁区的图片中，禁区的位置、边缘、大小存在区别，但是禁区占图片的比重基本不变。所以只提取整幅图片的HSV特征。

3、基于图理论的自适应阈值聚类算法以及主场景选取

在一般情况下，通过随机或者定时的抽取体育视频的帧去做体育分类，这样取得的效果将会很差，识别率不高。因为体育视频中除了中景镜头外，其他镜头缺乏代表性。如何有效提取这个占主要部分而又有体育分类代表性的中景镜头，是体育视频分类的关键。

在缺乏先验信息的情况下，聚类是一种常见的数据分析工具，其目的是把大量数据点的集合分成若干类，使得杂乱的数据能够有序的归类到一起。使得每个类中的数据之间最大程度地相似，而不同类中的数据最大程度地不同。

本发明正是创造性的利用关键帧的聚类，把属于不同镜头的关键帧聚集到一块。在无需任何先验知识的情况下，能快速有效的得到体育视频的中景镜头组，大大提高了体育视频分类的准确性。

在聚类算法方面，本发明把转换为一个组合优化问题，并利用图论和相关的启发式算法来解决该问题。先构造一个由所有关键帧做为节点的无向图G＝(V，E)，W_ij代表连接节点i与节点j的边的权值，表示为：

W_{ij} = Σ_{d = 1}^{D} | H_{i} (d) - H_{j} (d) | / D

式中，D＝72，H_i(d)表示第i个关键帧的HSV特征的第d维。

然后再在所构成的图中生成其最小生成树(Minimal Spanning Tree，MST)，基于Kruskal算法，初始化时从原始的所有边当中权值最小的边开始加入到边的集合中，每次迭代从剩下的边中选择权值最小的一条并判断其如果不会产生环路，则加入已选择的边的集合中，为了使得类别具有较高的类内纯度，对于每个类新加入的节点，还需要判断其与类内其余所有节点的边的数学期望是否超过阈值，如果超过，则剔除该新加入节点。如此迭代，直到剩下的边都大于阈值。此时所有集合内被边连通的节点成为一类。这样的类具有较高的类内纯度。如图3。

因为体育视频的种类很多，而且视频的分辨率也有差别，如果所有视频都用同一个预先设定好的阈值来作为聚类停止准测的话很不鲁棒，本发明设计了一个利用动态的阈值产生算法，能通过一个图的所有边的权值来自动确定一个阈值，以确定聚类算法停止的条件。这个算法是通过把所有的边的权值做一个模糊2均值(Fuzzy 2means)聚类，把一些权值小的边聚为一类，表示这一类边是属于MST的候选边的。而大的那些边组成的类，表示所有应该从MST里剔除的边的集合。这样，每个视频都动态的获得一个阈值，决定关键帧聚类停止的条件。大大减少了人工设定的麻烦以及固定阈值造成的坏效果。通过观察可知，一般情况下，中景镜头片段占体育视频的大多数，所以在关键帧聚类结果中，包含节点最多的那个类就是中景镜头组。

4、基于SVM分类器的体育分类

基于统计学习的分类方法可以有效地提高分类的准确性。支持向量机SVM是建立在VC维理论和结构风险最小原理基础上的，具有小样本学习和局部最优解特性的分类算法。在SVM分类器训练阶段，将一种体育视频的中景镜头作为其正样本，其余所有的其它类别的体育视频的中景镜头作为负样本进行训练。特征除了上述的72维HSV以外，还采用了场地占空比这个特征。选取帧中的主颜色，提取该颜色分布最大的连通域作为场地，然后计算其面积与图像面积的比例。这样形成了73维特征。

一个体育视频由上面产生的中景镜头表述：

V＝{F_i|F_i∈C，i＝1，2，3...m＜N}

其中F_i为中景镜头关键帧组C的第i帧，m为C中帧的总数，N为视频关键帧的总数。这个视频的SVM分类输出为：

score = \frac{1}{m} Σ_{i = 1}^{m} sign [f (F_{i})]

式中：

f (x) = Σ_{i = 1}^{n} α_{i} y_{i} < s_{i}, x > + b

为SVM函数

测试阶段，SVM对测试样本分类后，根据决策规则确定每一类视频所属的最终类别。

V &Element; \{\begin{matrix} {Sport}_{n} & score > 0.5 \\ other & score < = 0.5 \end{matrix}

根据本发明，既可以采用软件编程方法实现，也可以采用硬件产品的形式实现。对于本领域的普通技术人员来说，本发明还可以用许多其他具体的形式实施。本发明所述的方法，不限于具体实施方式中所述，可以在附后的权利要求的范围内改变。

Claims

1.一种基于主场景镜头关键帧的体育视频分类的方法，其特征包括以下步骤：

步骤二，提取关键帧的鲁棒性特征；