CN101894125A

CN101894125A - 一种基于内容的视频分类方法

Info

Publication number: CN101894125A
Application number: CN2010101751279A
Authority: CN
Inventors: 路红; 陈剑峰; 金城; 薛向阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2010-05-13
Filing date: 2010-05-13
Publication date: 2010-11-24
Anticipated expiration: 2030-05-13
Also published as: CN101894125B

Abstract

本发明属于计算机视频处理技术领域，具体为一种视频分类方法。本发明选取卡通、商业广告、电影、新闻和体育比赛作为分类对象，在总结和分析了现有分类算法的基础上，决定从视频的底层特征(如颜色，纹理，形状)中选取分类效果最好的颜色作为分类特征，并基于颜色特征对各种分类算法作了比较，分析和总结，提出了基于时间和颜色特征融合的分类方法，由于每种特征对某类视频分类效果有偏好，称之为此类视频的专家特征；进一步利用专家系统使这些特征合作来提高分类的准确率，同时也提高了效率。

Description

一种基于内容的视频分类方法

技术领域

本发明属于计算机视频处理技术领域，具体涉及一种高效的视频分类方法。

背景技术

随着网络多媒体技术的飞速发展，网络传输速度的不断提高和压缩技术的不断进步，各种多媒体信息不断涌现，数字图书馆、远程教育、视频点播、数字视频广播、交互式电视等都产生和使用了大量的多媒体数据。即使我们足不出户，我们接触到的多媒体信息也在海量地增长。为了帮助用户有效地检索相关信息和迅速获取感兴趣的多媒体信息来提供更优的娱乐享受，就需要一些工具帮助使用者提取相应的内容并且对这些大量的多媒体信息进行有效的操作，于是基于内容的视频分类系统应运而生，自动多媒体处理分析技术成为热门的研究课题。视频作为一种常见的媒体形式，包含了最丰富的数据，也与我们的日常生活尤为密切。因此如何对视频信息进行分类整理引起了人们极大的研究兴趣。视频分类也成为多媒体分析领域中一个重要的研究课题。视频分类是许多视频应用的基础，它为日益增加的视频数据的管理提供了方便。基于内容的视频检索，视频摘要总结，视频索引和标记等技术都在推动着视频分类技术的发展。

视频信息的数据量很大，又是一种非结构的数据，传统的基于文本的信息查询技术已不能满足用户的需要。虽然目前的数字视频可以在产生阶段以各形式被贴上标签，但是仍然需要视频分类技术的存在。其原因是：首先，很多之前已存在的视频还没有被标注，所以为视频分类带来了很大的困难。虽然手动的标注可以解决这个问题，但是这是一个非常耗时并且昂贵的任务，而且在不久的将来会很难满足快速增长的视频数量。另外一点，也是最重要的一点就是虽然目前视频水印等技术在逐渐的发展，视频可以在产生阶段加入水印或者是标签，但是在视频中加入水印或者是标签之后，其抗攻击能力是有限的，当进行某些人为操作或者是发生某些意外错误的时候，这些信息都是有可能丢失的。而基于内容的方法则可以避免这些问题，因为它是基于实际材料本身的，只要视频的内容不发生变化，视频的分类检测结果也不会发生变化。所以人们仍然需要分类技术来对视频进行管理和操作。视频分类技术除了能够对海量的视频数据进行分类整理以减少人们的工作量之外，在日常生活中也发挥着很大的作用，它可以为人们提供更好的娱乐享受。综上所述，视频分类技术的发展在各个领域都有其重要意义。

基于内容的视频分类技术对于视频的理解、访问、检索等操作来说是一个非常必要的工具。视频分类是一个广泛的研究领域，从概念上来分，可以分为类型分类，事件分类和对象分类三种。而从解决方法上来说，总体上可以被分为两类：

(1)基于规则的方法

基于规则的方法需要使用到领域知识来检测视频片断的语义概念，这种方法广泛应用于一些专门的领域，例如新闻的分类或者是电影的分类。基于规则的方法的优点是当对分类的种类有所更改时，对于已有的规则进行插入、删除和修改是非常容易的。但是其缺点是在不同的视频模型中隐含的规则会被忽略。另外，建立一个完整的基于域的视频标注规则集需要人们花很多的时间去调整其中的规则。

(2)统计的方法

所谓统计的方法就是通过使用统计模型和分类器对已标注的视频进行学习，然后再进行视频的分类。这种方法对于明显的和隐含的视频特征规则都可以进行挖掘。对于统计的方法来说主要的困难就是大量的训练样本需要人工的标注。因为我们的领域知识和我们可用来训练的样本资源是有限的，对大量的视频进行人工标注是一个很费时费力的工作。由于这个代价问题，所以在统计的方法中如何针对小的样本集设计一个有效的分类器是一个非常值得研究的问题。

关于类型的分类起始于1995年[1]，是由Fischer首先提出的。他将广播视频分为新闻，广告，卡通等类型。在这篇文章中他们提出了三步法的研究方法：首先提取基础的声音和视觉统计特征，包括视频片断中的场景颜色统计信息、运动、内容模式和声音等属性；第二步利用这些已有的低级特征去推导高级类型属性，例如场景长度，摄相机和对象运动强度以及语言、音乐和噪声等等；最后这些属性被用来去决定视频类型。随后基于类型的视频分类发展起来，很多研究者从视频特征，分类器等各个方面对算法进行了改进和创新。

Truong[2]等人通过对编辑效果、运动和颜色的研究提出了一套可计算视频特征，另外他们使用了决策树算法来进行视频类型的检验。

Chen[3]等人提出了基于知识的视频内容分类方法，在检查了五个视频类别中的许多视频后，形成了知识库中的分类规则。

W.Zhou[4]等人提出了有监督的基于规则的视频分类系统，使用自动视频分割、注释和摘要技术进行无缝的信息浏览和更新。

李睿[5]提出了首先进行视频分割，形成了一个视频属性数据库；然后使用粗糙集的属性约简方法对视频属性数据库进行数据挖掘，提取出分类规则集，实现对视频数据库的分类。

其次每一段视频都会包含很多的事件，关于事件分类检测方面的研究也层出不穷。例如新闻视频场景的检测，在文献[6]中，新闻视频被分为主持人镜头，内容提要，旁白等场景事件；在文献[7]中，事件的检测是针对于动物世界节目的；体育视频的事件分类也同样引起了人们的重视，例如排球比赛中的场景分类[8]，足球视频中边界球，射门等事件的检测[9]等等。

对于视频特征的表达方式问题，前人做了大量的研究。例如文献[10]中，作者使用了视频的长度，镜头长度，切变率等简单特征来对视频进行描述，对于非完整视频来说，很多特征将会变得无效。还有一些方法使用了视频的颜色、纹理、形状、运动、声音等各种特征来对视频进行描述。虽然这种描述已经足以表达视频的各方面特性，但是在视频特征提取中，并非使用的特征种类或维数越多越好，当特征数超过一定的限度的时候，反而会出现副作用。

对于视频分类问题的研究，另外一个很重要的问题就是分类器的选择。近年来，机器学习方法被成功的用于多媒体分类研究中。例如一些系统使用了基于HMM算法，例如文献[11]；在文献[12]中，使用了基于熵的感应树学习器算法；神经网络也是一个很好的分类器，径向基神经网络，前馈神经网络，递归神经网络等分类器经常会被采用[13]；另外还有SVM分类器的应用也非常广泛[14]。

发明内容

本发明的目的在于提出一种高效的基于内容的视频分类方法。

本发明分析了卡通、商业广告、电影、新闻和体育比赛这五类视频的特征并构建了一个专家系统来提高分类效率，本发明称对某类视频分类效果极好的特征为专家特征，通过2个专家特征的交叉验证来确定视频类型的归属。相比较与其他分类方法多种特征明显提高了效果，简约了特征。

本发明提出的视频分类方法，是根据各类视频各自的特点将时间特征和颜色特征融合并，通过运用专家系统以提高分类的准确率，具体步骤如下：

一、数据准备

实验一共要测试五类数据，分别为cartoon、commercial、sports、news和movies(卡通、商业广告、体育、新闻和电影)。首先收集MPG格式的视频作为原始数据。实验是在关键帧上进行的，需对各类视频进行镜头分割并提取关键帧。由于镜头之间有突变或渐变的切换(这里把渐变镜头的渐变结束点作为镜头边界)，而镜头的第一帧很好地反映了这个信息，所以本发明把每个镜头的第一帧作为关键帧提取。

在创建样本时，一共五类视频，每类视频创建20个样本，每100个关键帧作为一个样本。但是由于commercial的长度较短，即本身镜头就很少，所以没必要用100个关键帧来作为一个样本，基本上接近或超过20帧的一个commercial就可以作为一个样本，这已经足够反映商业广告的信息量。这样一共有20×5＝100个样本，并且每个样本中的关键帧只属于某一段视频。对于每类20个样本，规定前10个用来做svm训练，后10个用来做svm测试。

二、特征提取

实验以视频底层特征中的颜色特征为基础，视频分类均建立在RGB颜色空间之上，通过构建RGB(10∶10∶10)颜色直方图来进行视频分类。提取的特征一共有7种，分别为颜色梯度、直方图均值、直方图标准差、直方图之间差的均值、分块直方图、分块直方图标准差以及分块直方图之间差的均值，这里所列的分块直方图均是将原图片进行4×4分割，即一共分成16小块。

在进行特征提取之前首先要构建颜色直方图，由于R G B均被分成10等分，例如对于R，其值在0-255之间，先把它10等分，即每份中可以包含区间为25.6的颜色值，每份所表示的是属于某个区间的颜色值的像素数目，这样我们就需要10+10+10＝30个变量来存储这30个数值。所以我们需要一个数组His[30]来存放一个关键帧的RGB信息。His[30]的值可以通过读取一幅图片，并进行像素数目统计得到。

三、样本训练和测试

分别对提取的7个特征做了训练和测试。用的是RBF核函数的SVM分类器，首先要做的是将得到的数据转换成svm格式的数据，即<label><index1>:<value1><index2>:<value2>...的形式，其中<label>是分类号，<index>是序号，只能是整数，<value>是属性特征值。

以直方图标均值为例，一个样本一共有30个特征(RGB＝10+10+10)从His_mean[0]到His_mean[29]，数据转换后为<label><index1>:<his_mean[0]><index2>:<his_mean[1]>.....<index30>:<his_mean[29]>。把所有100个样本的直方图均值都转换成这种数据格式，然后对前50个样本做训练，拿训练后得到的模型再对后50个样本做测试。

对于分块直方图均值也是一样，只是每个样本的特征数变为480个，数据格式变为

<label><index1>:<Block_His_mean[0]><index2>:<Block_His_mean[1]>...<index480>:

<Block_His_mean[479]>其他特征如直方图之间标准差的数据转换也是一样的，不再重复。

由于现commercial为了在很有限的时间内反映足够的信息，每个镜头的时间长度是受到限制的，相对于其它视频来说它每个镜头的平均时间就会比较短。本发明通过这个特征先做两类分类器把commercial先从视频中分出来，然后再对其它视频运用以上7个特征进行分类，这样有助于提高视频分类的准确率。但是这样的得到的分类效果还不够理想，只有88％多些，因此本发明提取每类视频的2种专家特征，通过他们的交叉验证来确定视频分类归属，从而进一步提高分类准确率。由于每类视频只选用了2种最优特征，与方法同时运用几种特征相比，大大地提高了分类效率。

附图说明

图1为各类视频的专家特征交集运算图示。

图2为专家系统合作遵循规则图示。

图3为系统流程图示。

图4为广告类和非广告类时间特征上的差异。

具体实施方式

下面具体介绍实验的特征提取算法和专家系统的构建：

1，视频特征提取算法

(1)颜色梯度(Gradient)：

(2)直方图均值(MH)：

His_mean [i] = \frac{Σ_{j = 1}^{n} His {[i]}_{j}}{n}, (i = 1,2,3, . . ., 30)

n表示一个样本中关键帧的数目，j表示样本中第j个关键帧，His[i]_j表示第j个关键帧中His[i]的值，即属于R+G+B＝30位中第i位的像素数目。His_mean[i]表示一个样本的直方图均值中第i位的值。

(3)直方图标准差(SDH)：

His_std [i] = \sqrt{\frac{Σ_{j = 1}^{n} (His {[i]}_{j} - His_mean [i])^{2}}{n}}, (i = 1,2,3, . . ., 30)

(4)直方图之间差的均值(MDH)：

His_sub [i] = \frac{Σ_{j = 1}^{n - 1} | His {[i]}_{j + 1} - His {[i]}_{j} |}{n - 1}, (i = 1,2,3, . . ., 30)

分块直方图(4×4)相当于把原图片均分成了16块，然后再在每块上作直方图，虽然这样需要30×16＝480个变量来存储像素数目信息，但是也增加了图片颜色的地址信息，给分类带来了帮助，我们用一个数组Block_His[480]来存储分块直方图信息。

(5)分块直方图均值(BMH)：

Block_His_mean [i] = \frac{Σ_{j = 1}^{n} Block_His {[i]}_{j}}{n}, (i = 1,2,3, . . ., 480)

n表示一个样本中关键帧的数目，j表示样本中第j个关键帧，Block-His[i]_j表示第j个关键帧中Block_His[i]的值，即属于(R+G+B)×16＝30×16＝480位中第i位的像素数目。Block_His_mean[i]表示一个样本的分块直方图均值中第i位的值。

(6)分块直方图标准差(BSDH)：

Block_His_std [i] = \sqrt{\frac{Σ_{j = 1}^{n} {(Block_His {[i]}_{j} - Block_His_mean [i])}^{2}}{n}}, (i = 1,2,3, . . .,

480)

(7)分块直方图之间差的均值(BMDH)：

Block_His_sub [i] = \frac{Σ_{j = 1}^{n - 1} | Block_His {[i]}_{j + 1} - Block_His {[i]}_{j} |}{n - 1}, (i = 1,2,3, . . ., 480)

2，专家特征选取

各类视频的专家特征通过实验测试得到，将某类视频分类准确率最高的两种特征选为专家特征，各类视频的专家特征交集运算如下(图1)：

Cartoons＝BSDH∩BMDH

Movies＝BSDH∩MDH

News＝MH∩BMDH

Sports＝MH∩MDH

3，专家系统构建

我们发现广告为了在有限的时间内表达足够的信息，每个镜头的时间长度将受到限制，相对于其它视频其镜头平均时间较短。我们可以通过时间特征进行广告和非广告分类，然后再对非广告类运用颜色空间特征进行4类分类，最后为了提高分类的准确率，选出各类视频的专家特征并利用专家系统使他们相互合作，合作遵循如下规则(图2)：

1)每个视频都有一个初始状态0，对应一个状态改变0-n，n表示状态发生变化的次数。

2)一个特征，如能辨别出某类视频，那么对于这类视频的此特征，值为1，否则为0。

3)在上述颜色和时间特征结合的分类结果上，非广告类视频的专家特征再做交集运算，所得结果若为1，则此视频状态加1，若为0，则不改变状态。

4)有3种结果：0-0表示状态未发生改变，某个视频没有对应的分类；0-1表示状态发生一次改变，某个视频唯一对应某类视频；0-N(N＞1)表示状态发生N次改变，某个视频对应多类视频。

5)对于0-N，我们服从投票原则，在7种颜色特征中，只要被定义为某类视频的特征数超过半数，我们就定义其属于此类视频。

6)系统流程(图3)

首先根据时间特征用SVM分类器对视频数据进行，分类商业广告类和非广告类，这里的时间特征为视频的平均镜头长度：ShotLenAvg＝V/Sn V为视频长度，Sn为镜头数目)，通过附图4可以明显发现广告类和非广告类的时间特征上的差异，然后运用专家系统对非广告类视频进行4类分类，分出卡通、电影、新闻和体育比赛类。在分类中应用专家系统通过专家特征的交叉验证决出各类视频归属。

引用资料：

[1]Fischer S，Lienhart R，Effelsberg W.Automatic recognition of film genres.The 3rd ACMInternational Multimedia Conference and Exhibition.1995，1：295-304.

[2]Truong B T，Venkatesh S，Dorai C.Automatic genre identification for content-based videocategorization.International Conference Pattern Recognition.2000，9.Vol.4：230-233.

[3]Chen Y，Wong E K.A knowledge based approach to video contentclassification.Proceedings of SPIE.2001，1.Vol.4315：292-300.

[4]Zhou Wensheng，Dao Son，Jay Kuo C-C.On-line knowledge and rule-based videoclassification system for video indexing and dissemination.Information System.2002，12.Vol.27(8)：559-586.

[5]李睿，王彤，李明.微计算机信息.2006，Vol.22(8-3)：49-51

[6]Shearer K，Dorai C，Venkatesh S.Incorporating domain knowledge with video and voicedata analysis in news broadcasts.ACM International Conference on Knowledge Discovery andData Mining.2000，8：46-53.

[7]Haering N C，Qian R J，Sezan M I.A semantic event detection approach and its applicationto detecting hunts in wildlife video.IEEE Transaction on Circuits and Systems for VideoTechnology.2000，9.Vol.10(6)：857-868.

[8]Chang C W，Lee S Y.A video information system for sport motion analysis.Journal ofVisual Languages and Computing.1998.Vol.8：265-287.

[9]Yow D，Yeo B L，Yeung M.Analysis and presentation of soccer highlights from digitalvideo.Proc.Asian Conference on Computer Vision.1995，2：499-503.

[10]Yuan Ye，Song Qin-Bao，Shen Jun-Yi.Automatic video classification using decision treemethod.Machine Learning and Cybernetics 2002Proceedings.2002，11.Vol.3：1153-1157.

[11]Huang J，Liu A，et al.Integration of multimodal features for video scene classificationbased on HMM.1999IEEE 3rd Worshop on Multimedia Signal Processing.1999，9：53-58.

[12]W.S.Zhou，A.Vellaikal，C.C.Kuo.Video analysis and classification for MPEG-7applications.Consumer Electronics，2000.ICCE.2000 Digest of TechnicalPapers.International Conference.2000，6：344-345.

[13]Rao R K，Ramakrishnan K R，et.al.Neural net based scene change detection for videoclassification.IEEE Signal Processing Society 1999 Workshop on Multimedia SignalProcessing.1999，9：247-252.

Chapelle O，Haffner P，Vapnik V N.Support vector machines for histogram-based image

classification.IEEE Transactions on Neural Networks.1999，8.Vol.10(5)：1055-1064.

Claims

1.一种基于内容的视频分类方法，其特征在于，选用基于底层视频特征中的颜色作为特征进行视频分类研究，分析卡通、商业广告、电影、新闻和体育比赛这五类视频的特征并进行相应的特征提取，并根据各类视频各自的特点将时间特征和颜色特征融合，通过运用专家系统以提高分类的准确率，具体步骤如下：

步骤一、数据准备

共测试五类数据，分别为cartoon、commercial、spots、news和movies；首先收集MPG格式的视频作为原始数据，实验在关键帧上进行；把每个镜头的第一帧作为关键帧提取；

五类视频，每类视频创建20个样本，每20个关键帧作为一个样本，一共有20×5＝100个样本，并且每个样本中的关键帧只属于某一段视频；对于每类20个样本，规定前10个样本用来做svm训练，后10个样本用来做svm测试；

步骤二、特征提取

以视频底层特征中的颜色特征为基础，视频分类建立在RGB颜色空间之上，通过构建RGB(10:10:10)颜色直方图来进行视频分类；提取的特征一共有7种，分别为颜色梯度、直方图均值、直方图标准差、直方图之间差的均值、分块直方图、分块直方图标准差以及分块直方图之间差的均值，这里所列的分块直方图均是将原图片进行4×4分割，即一共分成16小块；

在进行特征提取之前首先要构建颜色直方图，由于R G B均被分成10等分，用10+10+10＝30个变量来存储这30个数值，即用一个数组His[30]来存放一个关键帧的RGB信息；His[30]的值通过读取一幅图片，并进行像素数目统计得到；

步骤三、样本训练和测试

分别对提取的7个特征做训练和测试，用的是RBF核函数的SVM分类器，其步骤为首先将得到的数据转换成svm格式的数据，即<label><index1>:<value1><index2>:<value2>...的形式，其中<label>是分类号，<index>是序号，是整数，<value>是属性特征值；

把所有100个样本的直方图均值都转换成这种数据格式，然后对前50个样本做训练，拿训练后得到的模型再对后50个样本做测试。

2.根据权利要求1所述的视频分类方法，其特征在于，视频特征提取算法如下：

(1)颜色梯度：

(2)直方图均值：

His_mean [i] = \frac{Σ_{j = 1}^{n} His {[i]}_{j}}{n}

(i＝1，2，3，...，30)

n表示一个样本中关键帧的数目，j表示样本中第j个关键帧，His[i]_j表示第j个关键帧中His[i]的值，即属于R+G+B＝30位中第i位的像素数目，His_mean[i]表示一个样本的直方图均值中第i位的值；

(3)直方图标准差：

His_std [i] = \sqrt{\frac{Σ_{j = 1}^{n} {(His {[i]}_{j} - His_mean [i])}^{2}}{n}}

(i＝1，2，3，...，30)

(4)直方图之间差的均值：

His_sub [i] = \frac{Σ_{j = 1}^{n - 1} | His {[i]}_{j + 1} - His {[i]}_{j} |}{n - 1}

(i＝1，2，3，...，30)

分块直方图(4×4)相当于把原图片均分成了16块，然后再在每块上作直方图，用一个数组Block_His[480]来存储分块直方图信息；

(5)分块直方图均值：

Block_His_mean [i] = \frac{Σ_{j = 1}^{n} Block_His {[i]}_{j}}{n}

(i＝1，2，3，...，480)

n表示一个样本中关键帧的数目，j表示样本中第j个关键帧，Block_His[i]_j表示第j个关键帧中Block_His[i]的值，即属于(R+G+B)×16＝30×16＝480位中第i位的像素数目；Block_His_mean[i]表示一个样本的分块直方图均值中第i位的值；

(6)分块直方图标准差：

Block_His_std [i] = \sqrt{\frac{Σ_{j = 1}^{n} {(Block_His {[i]}_{j} - Block_His_mean [i])}^{2}}{n}}

(i＝1，2，3，...，480)

(7)分块直方图之间差的均值：

Block_His_sub [i] = \frac{Σ_{j = 1}^{n - 1} | Block_His {[i]}_{j + 1} - Block_His {[i]}_{j} |}{n - 1}

(i＝1，2，3，...，480)。

3.根据权利要求1所述的视频分类方法，其特征在于，各类视频的专家特征通过实验测试得到，将某类视频分类准确率最高的两种特征选为专家特征，各类视频的专家特征交集运算如下：

Cartoons＝BSDH∩BMDH

Movies＝BSDH∩MDH

News＝MH∩BMDH

Sports＝MH∩MDH。

4.根据权利要求1所述的视频分类方法，其特征在于，通过时间特征进行广告和非广告分类，然后再对非广告类运用颜色空间特征进行4类分类，最后选出各类视频的专家特征并利用专家系统使他们相互合作，合作遵循如下规则：

1)每个视频都有一个初始状态0，对应一个状态改变0-n，n表示状态发生变化的次数；

2)一个特征，如能辨别出某类视频，那么对于这类视频的此特征，值为1，否则为0；

3)在上述颜色和时间特征结合的分类结果上，非广告类视频的专家特征再做交集运算，所得结果若为1，则此视频状态加1，若为0，则不改变状态；

4)有3种结果：0-0表示状态未发生改变，某个视频没有对应的分类；0-1表示状态发生一次改变，某个视频唯一对应某类视频；0-N(N＞1)表示状态发生N次改变，某个视频对应多类视频；

5)对于0-N，服从投票原则，在7种颜色特征中，如果被定义为某类视频的特征数超过半数，就定义其属于此类视频。