CN100568282C

CN100568282C - 一种自动分割和分类体育视频镜头的方法和装置

Info

Publication number: CN100568282C
Application number: CNB2006101715242A
Authority: CN
Inventors: 杨颖�; 林守勋; 张勇东
Original assignee: Institute of Computing Technology of CAS
Current assignee: Dongguan Lianzhou Electronic Technology Co Ltd
Priority date: 2006-12-30
Filing date: 2006-12-30
Publication date: 2009-12-09
Anticipated expiration: 2026-12-30
Also published as: CN101211460A

Abstract

本发明提出一种体育视频镜头自动分割和分类的方法。该方法将体育视频流分成连续的镜头采样单元(SSU)，则不同的镜头对应于不同的SSU时序序列，用隐马尔可夫模型为不同的SSU序列建模，就得到不同镜头的隐马尔可夫模型。在此基础上，将所有可能的镜头模型组合串接起来就形成了镜头网络。对于镜头网络中的每条路径即一个镜头模型序列，计算其log概率，将概率最大的作为最佳路径，则该最佳路径上的所有镜头模型即为最终的分类结果，而相应的SSU序列的起始和终止SSU即为镜头的边界，从而实现了对体育视频镜头的分割。

Description

一种自动分割和分类体育视频镜头的方法和装置

技术领域

本发明涉及视频镜头分割方法及其装置，特别是涉及一种对于体育视频镜头自动分割和分类的方法和装置。

背景技术

在体育视频中，镜头是体育视频的基本结构单元，体育视频镜头通常指的是由单一相机视角拍摄所形成一组连续的图像帧。不同类型的体育视频镜头表现了不同的语义内容，如远景镜头通常反映的是比赛的全局情况，而中景镜头通常是对比赛队员的动作跟踪，而特写镜头通常是对队员和裁判的近距离特写，一般出现在比赛的暂停阶段。体育视频的镜头分割可以采用一般视频的分割方法，通过相邻帧的相似程度得到镜头的边界，但是现有方法没有考虑体育视频镜头的特殊性，即运动快，结构具有重复性等特点，因此镜头分割结果并不准确。对于体育视频镜头分类，现有的一些方法主要采用领域知识和特定的规则，如根据草色比例和人员大小对足球视频镜头分割和分类，这些方法能够对特定的体育视频取得很好的效果，但是不具有通用性，不用的体育视频要根据各自的特点推导出不同的分类规则。

另一方面，体育视频的类型众多，但是大致可以分成远景、中景和特写三种镜头类型。体育视频镜头分割和分类的目的就是从体育视频中将这三类镜头分割出来并标注其镜头类型，从而为体育视频建立结构化的索引。但是鉴于不同的体育视频的镜头具有不同的表现形式，要求所选取的镜头特征既能代表不同镜头类型的特点，又具有通用性以便能够适用在不同的体育视频上。

发明内容

本发明的目的是提供一种通用的体育视频镜头分割和分类方法，能够自动的对体育视频镜头进行分割和分类，从而为体育视频建立结构索引，进一步的用于体育视频的语义内容分析。

为此，本发明选取了颜色和运动两个特征作为通用的镜头特征，通过提取颜色和运动信息的差分得到更为精准的镜头特征。由于镜头是由一组连续的视频帧构成，也就是一段时序信号流，因此对体育视频镜头进行分割和分类需要建立合适的时序模型来模拟镜头中的时序信号的转换。而隐马尔可夫模型能够很好的解释时序信号的变化，本发明采用隐马尔可夫模型为每种镜头类型建模。而一段体育视频可以看作是不同类型镜头之间的连接和转换，所以对于一段未知的体育视频流，镜头分割和分类任务可以看成找到一条最佳的镜头模型连接和转换序列。为此，本发明构造了一种镜头网络，它包括所有可能的镜头模型序列，其中网络中的每条路径对应一种镜头模型序列，找到最佳的路径也就找到了最佳的镜头分割和分类结果。实现了镜头分割和分类的同时进行，提高了镜头分割和分类的处理速度。

根据本发明的第一方面，提供了一种体育视频镜头自动分割和分类的方法，该方法包括下列步骤：1)将一个镜头分成多个镜头采样单元(Shot Sample Unit-SSU)的序列；2)根据每个SSU中的视频帧计算每个SSU的颜色相关特征和运动相关特征，其中每个镜头采样单元的颜色相关特征和运动相关特征是该镜头采样单元内所有图象帧的相应特征的平均；3)根据HMM(隐马尔可夫模型)镜头模型通过所有可能的镜头模型组合序列连接起来形成的镜头网络计算每个镜头隐马尔可夫模型的对数输出概率，其中采用Viterbi方法对所述镜头网络中的每个模型组合序列进行识别，所述模型组合序列上的每个镜头模型都会得到一个对数输出概率；4)选取对数输出概率之和最大的模型组合序列，其中，该对数输出概率之和最大的模型序列中的各个模型的状态序列与相应的SSU序列对应。

根据本发明的第二方面，提供了一种体育视频镜头自动分割和分类的装置，包括下列部件：1)将一个镜头分成多个镜头采样单元(SSU)的序列的部件；2)根据每个SSU中的视频帧计算每个SSU的颜色相关特征和运动相关特征的部件，其中每个镜头采样单元的颜色相关特征和运动相关特征是该镜头采样单元内所有图象帧的相应特征的平均；3)计算对数输出概率的部件，其用于根据隐马尔可夫模型镜头模型通过所有可能的镜头模型组合序列连接起来形成的镜头网络计算每个镜头隐马尔可夫模型的对数输出概率，其中采用Viterbi方法对所述镜头网络中的每个模型组合序列进行识别，所述模型组合序列上的每个镜头模型都会得到一个对数输出概率；4)选取对数输出概率之和最大的模型组合序列的部件，其中，该对数输出概率之和最大的模型序列中的各个模型的状态序列与相应的SSU序列对应。

本发明的优点在于：

1、将每类镜头分成连续的SSU序列，更好的反映了镜头的边界和时序特征；

2、采用隐马尔可夫模型为每类镜头建模，能够更好的模拟镜头中的SSU序列的变化；

3、采用颜色和运动相关的信息，易于特征计算和提取；

4、建立镜头网络来识别体育视频流实现了镜头的自动分割和分类。

附图说明

图1示意三类镜头模型，(a)为远景镜头，(b)为中景镜头，(c)为特写镜头；

图2表示镜头采样单元(SSU)序列；

图3表示从左向右无跳转的5状态隐马尔可夫模型；

图4示意一个镜头网络。

具体实施方式

体育视频都可以分为以下三类镜头，即远景镜头，中景镜头和特写镜头，如图1所示。本发明的目的就是自动分割和分类体育视频中的这三类镜头。下面结合附图对本发明作进一步的描述。

本发明的方案主要包括以下步骤：首先将视频分SSU序列，从每个SSU中提取颜色和运动特征，在特征提取的基础上，然后采用隐马尔可夫模型训练数据生成每类镜头的隐马尔可夫模型，将所有可能的镜头模型序列连接成镜头网络，从镜头网络中计算对数概率(log概率)最大的路径，得到最终的镜头分割和分类结果。下面对各步骤进行详细的说明：

1、镜头采样单元(SSU)设定和特征提取

为了对镜头进行准确和快速的分割，首先将镜头分成一个SSU序列，其中所述SSU之间可以相互重叠，也可以不重叠，如图2所示。由于通常一个镜头的持续时间是1到120秒，则每个SSU的长度应该应小于镜头的长度，这里设为25帧，以提高特征提取的速度，采样间隔为10帧。则不同的镜头表现为不同的SSU序列。对于每个SSU，其特征其所包含的图像帧的特征的平均值。则提取SSU的特征就转化为提取每帧图像的特征。对于每个图像帧，我们提取两类特征，包括颜色相关特征和运动相关特征。

●颜色特征提取

三类镜头之间的最大差别是其颜色的变化，如在远景中场地的区域占的面积较大而在特写镜头中几乎没有任何场地信息。由于LUV空间最符合人的视觉感知，我们采用LUV空间的各个分量最为三个颜色类特征，即L，U，V分量。而对于每图像帧的L，U，V特征用表示，如下公式计算：

其中L(x，y)，U(x，y)，V(x，y)为(x，y)点像素的L，U，V分量，而L_f，U_f，V_f为一帧图像的三个基本颜色特征。在此基础上得到他们的一阶二阶差分信息，如下所示：

\{\begin{matrix} &dtri; L_{f} = L_{f} - L_{f - 1} \\ &dtri; U_{f} = U_{f} - U_{f - 1} \\ &dtri; V_{f} = V_{f} - V_{f - 1} \end{matrix}

\{\begin{matrix} {&dtri;}^{2} L_{f} = &dtri; L_{f} - &dtri; L_{f - 1} \\ {&dtri;}^{2} U_{f} = &dtri; U_{f} - &dtri; U_{f - 1} \\ {&dtri;}^{2} V_{f} = &dtri; V_{f} - &dtri; V_{f - 1} \end{matrix} - - - (2)

其中

和

(k＝1，2)是基本颜色特征的第k阶差分信息。这样一共得到9个颜色相关的特征。

●运动特征提取

本发明一共提取了三类运动特征，分别是帧差运动信息D_f，如下所示：

其中H(f，i)表示第f帧中颜色为i的像素数目。

另一个运动相关的特征是基于块的运动补偿帧差C_f，如下所示：

C_{f} = \underset{B_{f} (x, y) &Element; G_{f}}{Σ} (\frac{1}{W_{B}} Σ_{i = 0}^{255} {[H_{f} (B_{f} (x, y), i) - H_{f - 1} (B_{f - 1}^{*} (u^{*}, v^{*}), i)]}^{2}) - - - (4)

C_f计算的主要思想是，将整个帧分成16*16的均匀宏块，然后在该帧的前一帧中查找与每一宏块最为匹配的小块，求出他们的帧差总和。其中B_f(x，y)为位置在(x，y)点的宏块，B_f-1 ^*(u^*，v^*)f-1为前一帧中最匹配的宏块，而G_f为第f帧中所有小块的数目。W_B为每个小块的大小。

同时，宏块的运动向量也反映了帧的运动大小，用M_f表示宏块的运动强度，则其计算公式为：

M_{f} = \underset{B_{f} (x, y) &Element; G_{f}}{Σ} {[{(x - u^{*})}^{2} + {(y - v^{*})}^{2}]}^{1 / 2} - - - (5)

其中(u^*，v^*)即为与B_f(x，y)最匹配的块B_f-1 ^*(u^*，v^*)在帧f-1中的位置。

同样，在这三个基本运动特征的基础上又得到了一阶和二阶运动差分信息。

\{\begin{matrix} &dtri; D_{f} = D_{f} - D_{f - 1} \\ &dtri; C_{f} = C_{f} - C_{f - 1} \\ &dtri; M_{f} = M_{f} - M_{f - 1} \end{matrix}

\{\begin{matrix} {&dtri;}^{2} D_{f} = &dtri; D_{f} - &dtri; D_{f - 1} \\ {&dtri;}^{2} C_{f} = &dtri; C_{f} - &dtri; C_{f - 1} \\ {&dtri;}^{2} M_{f} = &dtri; M_{f} - &dtri; M_{f - 1} \end{matrix} - - - (6)

同样和

(k＝1，2)是基本运动特征的第k阶差分信息。这样连上9个颜色相关特征，一共有18个特征。

根据本发明的思想，在提取一帧的图像有关的特征时，可以使用其中的6个特征，即一帧图像的三个基本颜色特征L_f，U_f，V_f，和三类运动特征，即帧差运动信息D_f，运动补偿帧差C_f和宏块运动强度M_f；或者使用其中的12个特征，即还包括上述特征的1阶差分信息；或者使用全部18个特征，即还包括上述特征的2阶差分信息。也就是说，对于本发明来说，每一帧的图象可以取6维，也可以取12维，或者18维。对于一个SSU，其特征为这些其内所有图像帧的相应特征的平均。

2、建立基于隐马尔可夫模型(HMM)的镜头模型和镜头网络

由于HMM是处理时序信号的强有力工具，从而用HMM来模拟镜头内部的SSU变化更为合适。由于我们要检测三类镜头，则一共需要建立三个HMM镜头模型。本发明所要分类的三类镜头采用相同的HMM模型，模型的拓扑结构为从左到右无跳转结构，如图3所示。该模型共有5个状态，中间三个状态为输出状态，起始状态只能跳转到下一个状态，最后一个终止状态不能跳转到任何状态。

由于镜头的颜色和运动变化很多，所以对于HMM的输出采用连续输出，采用混合高斯模型作为输出，混合高斯的分量越多，则对镜头的特征拟和的越好。在本步骤中采用4个分量的混合高斯模型。实验证明能够很好的拟和镜头的特征，同时计算效率也很高。

在建立了初始的HMM原型后，就可以用训练数据对这三类镜头模型进行训练。用每种类型的训练数据分别训练相应的镜头HMM模型就得到三类镜头模型。

体育视频流的镜头分割和分类任务可以看成是得到一个镜头模型序列，同时能够知道各个镜头模型的起始和终止位置。则此任务可以看成是在所有的镜头模型序列中找到一个最佳的模型序列。为此，我们将所有可能的模型序列串接成一个镜头网络，如图4所示。镜头网络中的每条路径就是一个模型序列，即每条路径上的各个节点都是一个HMM镜头模型。对于每条路径，采用Viterbi算法对其进行识别，路径上的每个模型都会得到一个对数(log)输出概率。输出概率越大表明该模型输出对应观测特征的概率越大。将路径上所有的对数概率加在一起，选取其中对数概率和最大的作为最佳路径，也就是最佳模型序列。则最佳路径上的模型就是镜头分类的结果。而其中各个模型对应的状态序列与相应的SSU序列一一对应，各个SSU序列的起始和终止位置就是镜头的边界，从而实现了镜头的自动分割。

本发明对镜头分割的同时进行镜头分类，是一种高效快速的镜头分割和分类方法，同时其训练测试所用的特征不依赖于体育视频的类型，适合各种体育运动，所以是一种通用的体育视频镜头分割和分类办法。通过本方法所得到的镜头类型具有完整的语义信息，是对体育视频的一种结构化，可以在此基础上进一步的进行体育视频的内容分析和语义事件理解。

以下是对两种截然不同的体育视频——足球视频和羽毛球视频的镜头分割和分类的实验结果，所选用的16场足球视频全部来自2006年的世界杯比赛，10场比赛用来做训练集，其余6场用作测试集，所选用9场羽毛球比赛来自2005年的羽毛球世界锦标赛，其中5场比赛用作训练集，4场比赛用作测试集。最终的镜头分割和分类的的召回率在80％以上，准确率在70％以上，如下表所示：

表1 羽毛球视频的测试结果

表1 足球视频的测试结果

根据本发明的构思，其既可以采用软件编程的方法实现上述发明目的，实现体育视频流镜头的自动分割和分类，也可以采用硬件产品的形式实现。同时还要认识到，在不背离本发明的实质和超出本发明范围的前提下，对于本领域的普通技术人员来说，本发明还可以用许多其他具体的形式实施。因此，说明书中所给出的示例是解释性的，而不应该看作是对本发明的限制；本发明也不局限于在这里给出的细节，可以在附后的权利要求的范围内改变。

Claims

1、一种体育视频镜头自动分割和分类的方法，包括下列步骤：

1)将一个镜头分成多个镜头采样单元的序列；

2)根据每个镜头采样单元中的视频帧计算每个镜头采样单元的颜色相关特征和运动相关特征，其中每个镜头采样单元的颜色相关特征和运动相关特征是该镜头采样单元内所有图象帧的相应特征的平均；

3)根据隐马尔可夫模型镜头模型通过所有可能的镜头模型组合序列连接起来形成的镜头网络计算每个镜头隐马尔可夫模型的对数输出概率，其中采用Viterbi方法对所述镜头网络中的每个模型组合序列进行识别，所述模型组合序列上的每个镜头模型都会得到一个对数输出概率；

4)选取对数输出概率之和最大的模型组合序列，其中，所述对数输出概率之和最大的模型序列中的各个模型的状态序列与相应的镜头采样单元序列对应。

2、根据权利要求1的方法，其中每个图像帧的颜色相关特征包括了L、U和V分量，即三个基本颜色特征L_f，U_f，V_f；运动相关特征包括帧差运动信息D_f，运动补偿帧差C_f和宏块的运动强度M_f，它们是分别利用下列公式计算的：

其中L(x，y)，U(x，y)，V(x，y)为(x，y)点像素的L，U，V分量；

D_{f} = Σ_{i = 0}^{255} {(H (f, i) - H (f - 1, i))}^{2}

/帧f中的像素数目

其中H(f，i)表示第f帧中颜色为i的像素数目；

C_{f} = \underset{B_{f} (x, y) &Element; G_{f}}{Σ} (\frac{1}{W_{B}} Σ_{i = 0}^{255} {[H_{f} (B_{f} (x, y), i) - H_{f - 1} (B_{f - 1}^{*} (u^{*}, v^{*}), i)]}^{2})

其中B_f(x，y)为位置在(x，y)点的宏块，B_f-1 ^*(u^*，v^*)为前一帧中最匹配的宏块，而G_f为第f帧中所有宏块的数目，W_B为每个宏块的大小；

M_{f} = \underset{B_{f} (x, y) &Element; G_{f}}{Σ} {[{(x - u^{*})}^{2} + {(y - v^{*})}^{2}]}^{1 / 2}

3、根据权利要求2的方法，其中每个图像帧的颜色相关特征还包括了上述颜色相关特征的1阶差分信息：

\{\begin{matrix} &dtri; L_{f} = L_{f} - L_{f - 1} \\ &dtri; U_{f} = U_{f} - U_{f - 1} \\ &dtri; V_{f} = V_{f} - V_{f - 1} \end{matrix}

每个图像帧的运动相关特征还包括了上述运动相关特征的1阶差分信息：

\{\begin{matrix} &dtri; D_{f} = D_{f} - D_{f - 1} \\ &dtri; C_{f} = C_{f} - C_{f - 1} \\ &dtri; M_{f} = M_{f} - M_{f - 1} \end{matrix},

4、根据权利要求3的方法，其中每个图像帧的颜色相关特征还包括了L_f，U_f，V_f的2阶差分信息：

\{\begin{matrix} {&dtri;}^{2} L_{f} = &dtri; L_{f} - &dtri; L_{f - 1} \\ {&dtri;}^{2} U_{f} = &dtri; U_{f} - &dtri; U_{f - 1} \\ {&dtri;}^{2} V_{f} = &dtri; V_{f} - &dtri; V_{f - 1} \end{matrix}

每个图像帧的运动相关特征还包括了D_f，C_f，M_f的2阶差分信息：

\{\begin{matrix} {&dtri;}^{2} D_{f} = &dtri; D_{f} - &dtri; D_{f - 1} \\ {&dtri;}^{2} C_{f} = &dtri; C_{f} - &dtri; C_{f - 1} \\ {&dtri;}^{2} M_{f} = &dtri; M_{f} - &dtri; M_{f - 1} \end{matrix}

5、根据权利要求1-4之一的方法，其中隐马尔可夫模型镜头模型是利用上述颜色相关特征和运动相关特征作为训练数据进行训练后得到的镜头模型。

6、根据权利要求1-4之一的方法，其中隐马尔可夫模型镜头模型包括远景、中景和特写镜头模型。

7、根据权利要求1-4之一的方法，其中镜头采样单元分成相互重叠。

8、根据权利要求7的方法，其中每个镜头采样单元为25帧，采样间隔是10帧。

9、一种体育视频镜头自动分割和分类的装置，包括下列部件：

1)将一个镜头分成多个镜头采样单元的序列的部件；

2)根据每个镜头采样单元中的视频帧计算每个镜头采样单元的颜色相关特征和运动相关特征的部件，其中每个镜头采样单元的颜色相关特征和运动相关特征是该镜头采样单元内所有图象帧的相应特征的平均；

3)计算对数输出概率的部件，其用于根据隐马尔可夫模型镜头模型通过所有可能的镜头模型组合序列连接起来形成的镜头网络计算每个镜头隐马尔可夫模型的对数输出概率，其中采用Viterbi方法对所述镜头网络中的每个模型组合序列进行识别，所述模型组合序列上的每个镜头模型都会得到一个对数输出概率；

4)选取对数输出概率之和最大的模型组合序列的部件，其中，所述对数输出概率之和最大的模型序列中的各个模型的状态序列与相应的镜头采样单元序列对应。

10、根据权利要求9的装置，其中每个图像帧的颜色相关特征包括了L、U和V分量，即三个基本颜色特征L_f，U_f，V_f；运动相关特征包括帧差运动信息D_f，运动补偿帧差C_f和宏块的运动强度M_f，它们是分别利用下列公式计算的：

其中L(x，y)，U(x，y)，V(x，y)为(x，y)点像素的L，U，V分量；

D_{f} = Σ_{i = 0}^{255} {(H (f, i) - H (f - 1, i))}^{2}

/帧f中的像素数目

其中H(f，i)表示第f帧中颜色为i的像素数目；

C_{f} = \underset{B_{f} (x, y) &Element; G_{f}}{Σ} (\frac{1}{W_{B}} Σ_{i = 0}^{255} {[H_{f} (B_{f} (x, y), i) - H_{f - 1} (B_{f - 1}^{*} (u^{*}, v^{*}), i)]}^{2})

M_{f} = \underset{B_{f} (x, y) &Element; G_{f}}{Σ} {[{(x - u^{*})}^{2} + {(y - v^{*})}^{2}]}^{1 / 2}

11、根据权利要求10的装置，其中每个图像帧的颜色相关特征还包括了上述颜色相关特征的1阶差分信息：

\{\begin{matrix} &dtri; L_{f} = L_{f} - L_{f - 1} \\ &dtri; U_{f} = U_{f} - U_{f - 1} \\ &dtri; V_{f} = V_{f} - V_{f - 1} \end{matrix}

\{\begin{matrix} &dtri; D_{f} = D_{f} - D_{f - 1} \\ &dtri; C_{f} = C_{f} - C_{f - 1} \\ &dtri; M_{f} = M_{f} - M_{f - 1} \end{matrix},

12、根据权利要求11的装置，其中每个图像帧的颜色相关特征还包括了L_f，U_f，V_f的2阶差分信息：

\{\begin{matrix} {&dtri;}^{2} L_{f} = &dtri; L_{f} - &dtri; L_{f - 1} \\ {&dtri;}^{2} U_{f} = &dtri; U_{f} - &dtri; U_{f - 1} \\ {&dtri;}^{2} V_{f} = &dtri; V_{f} - &dtri; V_{f - 1} \end{matrix}

\{\begin{matrix} {&dtri;}^{2} D_{f} = &dtri; D_{f} - &dtri; D_{f - 1} \\ {&dtri;}^{2} C_{f} = &dtri; C_{f} - &dtri; C_{f - 1} \\ {&dtri;}^{2} M_{f} = &dtri; M_{f} - &dtri; M_{f - 1} \end{matrix}

13、根据权利要求9-12之一的装置，其中隐马尔可夫模型镜头模型是利用上述颜色相关特征和运动相关特征作为训练数据进行训练后得到的镜头模型。

14、根据权利要求9-12之一的装置，其中隐马尔可夫模型镜头模型包括远景、中景和特写镜头模型。

15、根据权利要求9-12之一的装置，其中镜头采样单元分成相互重叠。

16、根据权利要求15的装置，其中每个镜头采样单元为25帧，采样间隔是10帧。