CN101599179B

CN101599179B - 场地运动精彩镜头集锦自动生成方法

Info

Publication number: CN101599179B
Application number: CN2009100893570A
Authority: CN
Inventors: 董远; 高珊; 黄珺
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2009-07-17
Filing date: 2009-07-17
Publication date: 2011-06-01
Anticipated expiration: 2029-07-17
Also published as: CN101599179A

Abstract

本发明提出了一种场地运动精彩镜头集锦自动生成的方法。该方法结合了视频中图像特征和音频特征，实现了对视频中精彩镜头的提取和集锦的自动生成。本发明创新性地提出了主纹理的概念，并结合场地的主纹理特征以及主颜色特征，对场地运动比赛中的中近景进行检测定位。同时针对视频中的音频信息，提取短时能量特征，检测视频中音频流的能量的突变。然后联合中近景检测模块以及音频能量突变检测模块，提取精彩镜头，最后合并所有的精彩镜头，并加入背景音乐，生成场地运动视频精彩镜头集锦。本发明可以用于制作各种大型场地运动的精彩镜头的集锦，能够大大减轻人工剪辑的劳动量，适用于电视台及互联网对大量场地运动视频数据的自动剪辑，让观众们可以只花少量的时间，观看到比赛中最精彩的部分。

Description

场地运动精彩镜头集锦自动生成方法

技术领域

本发明属于计算机基于内容的多媒体检索领域，涉及到视频中的图像以及音频流的底层特征的提取和分析。本发明提出了一种场地运动比赛精彩镜头集锦自动生成方法，应用此方法可以自动提取场地运动中的精彩镜头，并且生成精彩镜头的集锦。

背景技术

随着互联网技术、计算机技术的蓬勃发展，多媒体数据在互联网上的快速增长，使得人们对视频等多媒体数据的人工编辑处理的工作量日益增加。这就迫切需要寻找一种自动的基于内容的多媒体检索方法，使得计算机能够帮助人来整理和收集人们最感兴趣以及对他们最有用的内容。

所谓基于内容的多媒体检索是对多媒体对象的内容及上下文语义环境在大规模多媒体数据库中进行检索，如对图像数据的颜色、纹理，或视频中的场景、片断进行分析和特征提取，并基于这些特征进行相似性匹配。

对于多媒体数据来说，“内容”可以理解为是表达对象的语义，利用典型的文本形式的描述，通过分类和目录来组织层次浏览，用链来组织上下文关联；在人的感知特性上来看，“内容”可以表示视觉特性中的颜色、纹理、形状、运动，听觉特性中的音高、音色、音质、响度，亮度等等；在逻辑关系上，“内容”描述的是音、视频对象的时间和空间关系，语义和上下文关联等。

基于内容的多媒体检索是一门新兴的技术，目前对其的研究正处于火热阶段。对于多媒体数据来说，图像的颜色、纹理，音频的短时能量、短时自相关函数等被称为底层信息；相对于底层信息，把与人类认知领域相关的内容，即多媒体内容的语义，称为高层信息。对于视频数据，还有视频分割、关键帧的提取、场景变换探测以及故事情节重构等问题。由此可见，基于内容的多媒体检索是一门涉及面很广的交叉学科，需要以图像处理、模式识别、计算机视觉、图像理解等领域的知识为基础，还需从认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表示和数据模型，从而设计出可靠、有效的检索算法、系统结构以及友好的人机界面。

如今互联网上场地运动比赛(例如足球，橄榄球，手球等)视频日益增长，面对众多的比赛视频，很多人不知从何看起。因此，自动生成场地运动的精彩镜头集锦，可以大大节省人们的时间，使得人们在最短的时间内获得最多的比赛信息，看到比赛最精彩的部分。同时，这也可应用于电视台对比赛录像的自动剪辑，大大节省人工编辑视频的所耗费的劳动及时间。

本发明提出的场地运动精彩镜头集锦自动生成系统，适用于大型播客网站、电视台对场地运动比赛视频的自动剪辑，可以很大程度上节省人工编辑的工作时间，让观众可以直接欣赏到场地运动比赛中最精彩的部分。

发明的内容

我们知道对于场地型运动的视频，场地的特征(包括场地颜色、纹理等)在整个比赛过程中基本不会有太大变化；比赛的镜头主要以远景为主，而且这种以远景为主的镜头的时间长，这种类型的帧数占总帧数的比例最大。我们定义整段视频中出现次数多而且占得比例大的颜色是该视频的主颜色，对于场地型运动来说，主颜色就是场地的颜色。根据主颜色的定义，本发明创新性地提出了主纹理的概念，视频中出现的主要纹理结构就是场地的纹理的描述，这就是所谓的主纹理。本发明结合场地的主纹理特征以及主颜色特征，对场地运动比赛中的中近景进行检测定位。同时针对视频中的音频信息，提取短时能量特征，检测视频中音频流的能量的突变。然后联合中近景检测模块以及音频能量突变检测模块，提取精彩镜头，最后合并所有的精彩镜头，并加入背景音乐，生成场地运动视频精彩镜头集锦(见附图1)。

附图说明

图1为整个场地运动精彩镜头集锦自动生成系统的框图；

图2为视频图像特征提取以及中近景检测的流程图；

图3为音频信息特征的提取以及能量突变点检测的框图。

具体实施方式

下面详细介绍本发明的具体实施方法。

一、中近景检测方法

(一)视频前期处理

对于一段体育节目视频，中间可能包括广告、采访、比赛等不同内容，但对于我们真正关心的是体育比赛，所以我们要对视频进行一些前期处理，如宏分割。宏分割是将非比赛内容的镜头片段和我们关心的比赛片段分别标识出来，我们根据宏分割的表示结果，只针对比赛片段进行处理。宏分割是视频处理的一个关键部分，通过宏分割我们过滤掉广告、采访等镜头的干扰，为后面的提取主颜色和中近景的检测做好基础。

下面我们只对宏分割标识出来的体育内容的片段进行处理。前面提到，对于体育视频它们都有重复出现的场地信息，为了能够较准确的提取场地信息，我们要找到远景图片来进行处理。我们发现图片内容复杂的肯定不会含有大量的场地信息，这样我们可以根据颜色的熵来判断图片内容复杂度。对于等概率分布的情况下，熵值最大；概率单一的情况，熵值趋于零。所以，对于颜色内容复杂的图片熵值会很大，颜色单一的图片的熵值很小。逐帧提取HSV空间上的颜色特征，计算颜色直方图，然后将直方图归一化，根据如下公式计算其颜色熵值：

H (color) = \underset{i}{Σ} - p (i) \log p (i)

式1

计算整个体育片段的平均颜色熵值，我们称小于该平均值的图片为颜色一致(uniform)的图片，用做主颜色提取；大于该平均值的图片不作处理。这样提高了所提取的主颜色的置信度，防止其它颜色(肤色、黑帧)等干扰。

(二)主颜色和主纹理特征的提取

为了更好的阐明主纹理的概念，首先有必要介绍局部二值模式(LBP)。LBP即通过计算图像中“一致”的局部二进制模式，并对整幅图像的各种模式数进行直方图统计后得到的一种对图像灰度级和旋转都不变的纹理特征。LBP表示的是相邻像素之间灰度值的差异性，描述出图像中局部纹理的结构，它对不强烈的光照和旋转具有很好的不变性。

设C是位于坐标(x，y)处的一个像素点，在以C为中心、R为半径的环上等间隔分布着P个像素点，构成了C点的P邻域。设g_c是某局部邻域中的圆心像素的灰度值，g_i(i＝0，1，...，P-1)表示该像素P邻域上的像素点的灰度值。用该邻域内像素点的灰度值的联合分布来定义该局部邻域的纹理描述子T：

T＝f(g_c，g₀，g₁，...，g_P-1) 式2

比较环形邻域上像素点与圆心像素的灰度值差异，则可以把(式2)的描述子写成下列形式：

T＝f(g_c，g₀-g_c，g₁-g_c，...，g_P-1-g_c) 式3

我们假设在一个局部邻域中，环形上像素点的灰度值g_i与圆心像素的灰度值g_c的差值g_i-g_c与圆心像素的灰度值g_c无关，即g_i-g_c与g_c相互独立，所以(式3)可以近似等价于：

T≈f(g_c)f(g₀-g_c，g₁-g_c，...，g_P-1-g_c) 式4

在实际中，由于g_i-g_c与g_c是不可能绝对独立的，所以(式4)的分布形式只是(式3)的近似表达。但是为了得到有用信息可以允许少量信息的丢失，对于局部纹理来说，这种近似所丢失的信息的意义不大。因此，可以利用差值g_i-g_c的联合分布来描述局部邻域中的纹理分布的属性：

T≈f(g₀-g_c，g₁-g_c，...，g_P-1-g_c) 式5

但是，差值g_i-g_c会受灰度尺度变化的影响，当灰度值成比例变化时，得到的差值是不同的，影响了差值g_i-g_c的整体分布。为了消除尺度变化所造成的影响，通过比较环形邻域上像素点与圆心处像素点的灰度值的大小，将环上灰度值大于圆心像素灰度值的像素重新赋值为1，小于圆心像素灰度值的像素点赋值为0。这样，我们可以得到具有尺度不变性的纹理描述子：

T≈f(s(g₀-g_c)，s(g₁-g_c)，...，s(g_P-1-g_c)) 式6

其中，s(x)是符号函数。这样，通过大小比较得到的分布中的所有元素都是0或1，则称之为局部二值模式(Local Binary Pattern，LBP)，这个局部结构可以看作为一个纹理单元。

根据2^P个不同的局部二值模式，通过LBP算法可以产生2^P个不同的纹理描述子，当图像旋转时，对应位置的灰度值g_i以g_c为圆心发生旋转。尽管以g_c为圆心的像素点没有变，但是相对位置发生了变化，对应位置的权值改变，这样导致算得不同的LBP描述子的值。为了消除图像旋转带来的差异，引入旋转不变的LBP，记作LBP^ri，定义如下：

{LBP}_{P, R}^{ri} = \min {ROR (LBP, i) | i = 0,1, . . ., P - 1}

式7

其中，ROR(x，i)表示一个均匀分布了x像素点的环，绕其圆心向右旋转i次，每次只移动的步长为相邻像素点的弧长。

一般性的具有旋转不变并且一致性的LBP描述子定义如下：

{LBP}_{P, R}^{u 2 ri} = \{\begin{matrix} Σ_{i = 0}^{P - 1} s (g_{i} - g_{c}) & ifU (LBP) \leq 2 \\ P + 1 & otherwise \end{matrix}

其中，

U (LBP) = | s (g_{P - 1} - g_{c}) - s (g_{0} - g_{c}) | + Σ_{i = 1}^{P - 1} | s (g_{i} - g_{c}) - s (g_{i - 1} - g_{c}) | .

相对于原始的LBP算法，当P增加时，纹理描述子的模式是线性增加，所得的纹理向量的维数也是线性增大。而且，基于一致性的LBP统计特性比较集中，能很好的表现出不同纹理的结构特性。

RGB空间显示的图片是红、绿、蓝三色的组合(其中R代表红色，G代表绿色，B代表蓝色)，易受光照等因素的影响；HSV空间是色调、饱和度和亮度的组合(其中H代表色调，S代表饱和度，V代表亮度)，H和S不受光照影响，能够反映出颜色色度的本质。考虑到摄像机在不同角度和位置下引起的光照亮度等变化，我们针对那些图像颜色熵值小于视频片段平均值的帧图像，先做彩色空间变化，由RGB空间转换到HSV空间，在Hue空间上统计色度分布。将所有颜色一致的帧的Hue直方图做累加，取最高峰所在的一段小区域(取峰值的20％对应的色调为上下界)为主颜色区域，该区域的期望即为主颜色。根据所提取到的主颜色我们只针对主颜色所在区域进行LBP^u2ri _16，2纹理特征(上面已作详细介绍)提取，统计LBP直方图并做累积再求平均，即可得到本文创新性提出的新概念——主纹理。

(三)基于规则的分类

对视频做镜头边界检测(Shot Boundary Detection，SBD)和关键帧提取(Key FrameExtraction，KFE)，针对KFE提取的关键帧，提取36维的HSV直方图特征和LBP^u2ri _16，2特征。结合上一步所提取的主颜色和主纹理的特征，我们采用基于规则的方法进行分类：在每一幅关键帧中：

远景：主颜色和主纹理占的比例大等于0.7。对于远景，图像的中下部或全部是场地，会有少数的场地外部和球员，所以主颜色和主纹理应该占据整个图像的大比例部分。

中近景：主颜色和主纹理的比例小于0.7；或颜色、纹理的直方图统计值较单一。中景肯定包含大量的场地信息，这是显而易见；对于运动员的近景图片来说，背景的下半部分会有场地信息，或者整个背景是观众席，这样颜色就比较复杂，而且主要的颜色集中在人肤色区域，而且纹理模式较为简单。

观众：不符合上述条件的就是描述观众的图片。这种图片一般是不被人们关注的信息。对观众的镜头有两种，人群和观众特写，他们的背景都有很复杂的颜色，而且纹理模式也较多。

考虑到不同视频的场地信息不一样，我们是在没有任何先验知识的情况下自动提取主颜色特征和主纹理特征，通过大量数据统计出主颜色和主纹理分布，并据此设定阈值，因此，针对不同的比赛，可以设定不同的阈值，而并不局限于0.7。对于场地运动比赛视频来讲，镜头运动较为缓慢，运动不剧烈，场地信息非常明显，采用这种方法能够简单、快速的完成对视频中的中近景进行检测定位(见附图2)。

二、音频能量突变检测方法

仅仅对中近景检测就做出是精彩镜头的判断是远远不够的，这样会造成虚警很高。日常生活中观看场地运动比赛的经验告诉我们，精彩镜头发生时，一定会伴随着解说员的激动的解说以及观众的大声喝彩，因此，我们必须引入音频的特征，来反映并利用这一特性，进行更精准的检测。

短时能量就能很好的反映这一特性。短时能量的定义如下：

E_{n} = Σ_{i = 1}^{Frame} x (i)

式8

其中，E_n为第n帧的短时能量，Frame为帧长，x(i)为第n帧中第i个采样点的值。

本发明中对视频中的音频流用25ms的无重叠矩形窗进行分帧，然后针对每帧提取短时能量特征，然后将一秒的语音段内的400帧的短时能量进行累加，然后求平均，得到一秒内的短时能量的平均值。然后求出每秒之间的差值，当差值大于一定阈值(经过实验来确定)的时候，我们认为这是短时能量的一个突变，这样所有突变对应的时间点就可以检测出来了，误差在一秒以内，这对于观众来说，是可以忍受的(见附图3)。

三、场地比赛视频集锦的自动生成方法

上面已经介绍针对视频图像和音频流的特征提取等处理，结合上述两个模块，我们首先检测出中近景，还原出中近景部分所在的时间点的起始，然后看这个时间段内，是否有音频能量突变点的存在，如果有，便将这个时间段内的视频提取出来，如果没有，便舍弃这段检测到得中近景部分。最后，精彩镜头便筛选出来了。

最后是后处理阶段，将镜头的衔接部分，加入一些视频特效，使得镜头的转换更为自然，而不是生硬的直接转换。然后将筛选出来的视频中原有的音频流除去，随机加入我们备选音乐库中的背景音乐，一段场地比赛视频的精彩镜头集锦便自动生成了(见附图1)。

本发明提出的场地运动精彩镜头集锦自动生成方法，可以用于制作各种大型场地运动的精彩镜头的集锦，该发明能够大大减轻人工剪辑的劳动量，适用于电视台及互联网对大量场地运动视频数据的自动剪辑，让观众们可以只花少量的时间，观看到比赛中最精彩的部分。

对于本领域的技术人员来说，很明显，本发明可以做出各种改进和扩展，因此，只要他们落入所附权力要求书及其等同范围内，本发明就涵盖这些改进及扩展。

Claims

1.一种场地型运动比赛的精彩镜头集锦的自动生成方法，其特征在于，该方法包括：

步骤一，自动检测视频包含中近景的镜头片段，并且查找并定位中近景镜头片段在时间轴上的具体时间段；

步骤二，对该时间段内的中近景镜头片段统计音频能量的变化，检测音频能量突变点；

步骤三，由以上两步处理，得到包含音频能量突变点的中近景镜头片段，基于时间序列将所述中近景镜头片段连接起来，得到完整的比赛精彩镜头集锦；

其中，所述步骤一具体包括：

步骤1，视频前期处理：

逐帧提取HSV空间上的颜色特征，计算颜色直方图，然后将直方图归一化，计算其颜色熵值；

计算整个比赛片段的平均颜色熵值；

提取颜色熵值小于所述比赛片段平均颜色熵值的帧图像；

步骤2，主颜色特征和主纹理特征的提取：

针对颜色熵值小于所述比赛片段平均颜色熵值的帧图像，先做色彩空间变化，由RGB空间转换到HSV空间，在Hue空间上统计色度分布；

将所有颜色一致的帧的Hue直方图做累加，取峰值所在的一段区域为主颜色区域，该区域的期望值即为主颜色特征；

根据所提取到的主颜色特征，只针对主颜色所在区域进行纹理特征提取，统计局部二值模式直方图并做累积再求平均，即可得到主纹理特征；

步骤3，基于规则的分类：

对视频做镜头边界检测和关键帧提取；

针对提取的关键帧，提取36维的HSV直方图特征和具有旋转不变性的一致局部二值模式特征；

结合步骤2所提取的主颜色特征和主纹理特征，基于每一幅关键帧中主颜色特征和主纹理特征所占的比例大小将所提取的关键帧分为：远景，中近景，以及其它场外镜头；

其中，所述步骤二具体包括：

对视频中的音频流用25ms的无重叠矩形窗进行分帧；

针对每帧提取短时能量特征，将一秒的语音段内的400帧的短时能量进行累加，然后求平均，得到一秒内的短时能量的平均值；

求出每秒之间的差值，当差值大于一定阈值的时候，认为这是短时能量的一个突变，以此检测所有突变对应的时间点。

2.根据权利要求1所述的一种场地型运动比赛的精彩镜头集锦的自动生成方法，其特征在于，所述步骤三之后还包括后处理步骤：按时间顺序连接检测到的精彩镜头，在镜头的衔接部分加入过渡特效和背景音乐。