CN102508923B

CN102508923B - 基于自动分类和关键字标注的自动视频注释方法

Info

Publication number: CN102508923B
Application number: CN201110374380.1A
Authority: CN
Inventors: 崔斌; 姚俊杰; 陈琛; 舒清雅
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2011-11-22
Filing date: 2011-11-22
Publication date: 2014-06-11
Anticipated expiration: 2031-11-22
Also published as: CN102508923A

Abstract

本发明是一种基于自动分类和关键字标注的自动视频注释方法，包括步骤：S1：进行视频分类特征预处理；S2：提取视频的全局特征和局部特征，全局特征用于训练SVM模型，使之能识别不同的类别，局部特征用于建立多特征与关键字对应的多特征索引模型；S3：对来自用户的未经注释的视频，也是先提取全局特征和局部特征，之后先用全局特征让SVM识别出该视频具体的类别，再利用局部特征在多特征索引模型中检索相关的关键字进行注释；S4：将注释结果按照一定权重排序之后返回给用户。本发明提高了视频标注性能。

Description

基于自动分类和关键字标注的自动视频注释方法

技术领域

本发明涉及视频识别技术领域，特别是涉及一种基于自动分类和关键字标注的自动视频注释方法。

背景技术

随着科学技术的进步，特别是多媒体数字化技术的发展和推广，存储成本的降低，网络传输带宽的增长，计算机处理速度的提高，以及高性能计算环境的普及化，现代信息检索所处理的对象和规模都有了很大的变化。包含各种类型数据如文本、图像、音频、视频等的多媒体信息，飞速膨胀逐渐成为信息的主流，并对人们的生活和社会的发展产生了重要的影响。多媒体信息有其特点，一方面它的信息量很大，百闻不如一见，一图值千言都说明了这个事实，另一方面它的抽象和结构化程度较低，不利于进行有效的管理。如何有效地提取多媒体信息中的相关内容已成为一个急需解决的问题。

随着数码摄像机和电脑越来越普及到生活中，通过因特网共享视频也越来越普遍。如何进行视频检索也成为一个热门的话题，现今很多专家提出直接利用视频的内容信息进行检索，即Content-basedVideo Retrieval。这种检索是借助于对视频中的视觉信息进行从低层到高层的处理，分析和理解的过程中获取其内容的，并根据内容进行检索。这里所说的“内容”是指视频的颜色，纹理，运动等高维视觉特征向量。虽然这些“内容”可以更好的表达视频的信息，但是这种检索方式需要通过比对这些高维特征信息进行搜索，需要耗费大量的时间和资源，是一般网络用户所不能接受的，也是现阶段不可行的，因此现今各大网站提供的视频检索，比如Google，MSN，YouTube，百度等，都是依赖于对视频的文本元数据的描述来进行检索的。他们的搜索引擎不能像基于内容的检索分析视频中的每个图片，更不能精确到每个像素，因此就不能搜索没有注释过的视频。对于因特网上存在的大量杂乱的视频，对于视频的自动词语注释是一个很关键的技术来保证视频在网上的“可见性”，进而方便用户浏览搜索下载。

毋庸置疑，让计算机能识别出来视频所表现的语义是一件非常困难的事情。流程图如图1所示，首先需要分析并提取视频的特征，其次我们还需要用大量的样本训练计算机，使之可以识别一些确定的物品或者语义，也就是建立特征和关键词之间的联系，最后，对于一个没有标识的视频，还需要搜索原有的库，把与之相近特征的关键字提取出来，才能完成对视频的注释。其中，1表示镜头检测，2表示特征提取，3表示相似度匹配，4表示索引。

发明内容

(一)要解决的技术问题

本发明的目的在于提供一种自动视频注释方法，以提高视频标注的性能。

(二)技术方案

为了解决上述技术问题，本发明提供一种基于自动分类和关键字标注的自动视频注释方法，包括步骤：

S1：进行视频分类特征预处理；

S2：提取视频的全局特征和局部特征，全局特征用于训练SVM模型，使之能识别不同的类别，局部特征用于建立多特征与关键字对应的多特征索引模型；

S3：对来自用户的未经注释的视频，也是先提取全局特征和局部特征，之后先用全局特征让SVM识别出该视频具体的类别，再利用局部特征在多特征索引模型中检索相关的关键字进行注释；

S4：将注释结果按照一定权重排序之后返回给用户。

优选地，所述步骤S3中在识别出视频具体的类别之后和在多特征索引模型进行检索之前还包括步骤：利用预先建立的“类别-概念”的层次模型缩小关键字的范围；对于每个关键字，在特征集合里选取最优的带有权重的特征向量或者组合来表达该关键字的语义信息。

优选地，所述步骤S1进一步包括：

S11：对视频进行镜头切割和关键帧选取；

S12：提取视频的全局静态特征和每个镜头的动态特征；

S13：对于每个镜头的动态特征向量，利用Matlab的线性回归函数按照6参数运动放射模型进行参数估计，形成6参数特征向量；

S14：用k-means聚类的方法聚集所有镜头的6维运动特征向量，并提取聚类的中心当作该视频的全局运动向量。

优选地，所述步骤S11进一步包括：

S111：从视频中提取每帧；

S112：判断和前一帧的颜色直方图之间的差异是否大于阈值A；若是，则转入S113；若否，则转入S114；

S113：判断是否局部运动或者全局运动比较厉害；若否，则进行镜头切割；

S114：判断和前一帧的颜色直方图之间的差异是否大于阈值B，其中B小于A；若是，则转入S115；若否，则转入S116；

S115：判断当前的镜头内是否保存过关键帧，若否，则保存一次；

S116：如果连续几次都到这一步，说明在此帧停留时间较长，保存为关键帧；

S117：选取关键帧。

优选地，步骤S13中获得用于Matlab运动参数估计的运动向量文件的方法为：

S131：把帧分成40*40的矩阵保存像素，设立运动保存路径；

S132：对于前一帧每一个矩阵块，搜索当前帧；

f)以6像素为步长，搜索当前帧对应位置的矩阵块；

i.不仅搜索该块周围的8块，还要搜索该位置的块本身，如果遇到帧图像的边缘，则忽略该方向的搜索；

ii遇到搜索块时，统计两个矩阵块的颜色直方图，然后计算之间的欧几里德距离；

iii.保存欧几里德距离最小的块当做目标块以作后用；

g)以3像素为步长，按照步骤a)搜索a)步得到的目标块；

h)以3像素为步长，按照步骤a)搜索b)步得到的目标块；

i)得到了最终搜索到的目标块的坐标后，计算该前一帧块运动的速度和方向；方向用两块之间的斜率表示，速度用两块中心的距离表示；

j)保存一个四维向量，块的左上角(x，y)坐标，块运动方向和速度；

S133：处理完所有块之后，得到的包括所有块的四维向量文件就是用于Matlab运动参数估计的运动向量文件。

优选地，步骤S14中k-means聚类方法进一步包括：

S141：按照输入的待处理数据数量、数据维度、分类数目和原数据，确立格式，读入所有数据；

S142：按照每一维的分布，确定每一维的数量级，并且根据数量级把所有维放缩到[0，1]之间；

S143：根据分类数目n，随机选择前n个数据当作类中心；

S144：对于每个元素

a)计算到各个类中心的距离；

b)把该元素分配到距离它最近的那个类的数据结构中；

S145：分配结束后计算新的类中心，如果和原来的类中心一样，继续；否则根据新的类中心，重新跳到步骤S144执行；

S146：遍历所有的元素到类中心的距离，如果大于某个阈值就识别其为噪音，如果存在噪音则回到S143再进行训练一次，如果没有，则继续进行下一步；

S147：把距离类中心最远的距离计算为半径，把非噪音占所有数据的比重计算为密度。

优选地，对视频进行关键字标注为基于内容的注释，即自动提取每幅图像的视觉内容特征作为索引与概念相对应，局部特征包括但不限于颜色、纹理、形状。

优选地，所述步骤S2中采用Libsvm进行训练。

(三)有益效果

第一，在进行视频的关键字标注之前，提取全局特征先对视频进行分类处理，以缩小候选关键字匹配的范围；第二，从视频关键帧中提取局部特征，比如颜色，纹理，边缘等，对于每个关键字，在特征集合里选取最优的带有权重的特征向量或者组合来表达该关键字的语义信息。本发明通过上述两个方式提高了视频标注性能。

附图说明

图1为现有技术中经典视频注释流程图；

图2为本发明自动视频注释方法流程图；

图3为本发明方法中视频分类特征预处理流程图；

图4为本发明预处理过程中镜头切割和关键帧选取流程图；

图5为本发明中类别和关键字的对应思想示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不是限制本发明的范围。

如图2所示，本发明所述的基于自动分类和关键字标注的自动视频注释方法针对不同的视频集整个系统分为两个流程：训练系统流程和识别注释视频流程，分别在图中用实箭头和虚箭头表示。

训练的时候，首先需要提取视频的全局特征和局部特征，全局特征用于训练SVM模型，使之能识别不同的类别，局部特征用于建立多特征与关键字对应的索引模型。在识别视频的部分中，来自用户的未经注释的视频进入到系统之后，也是先提取两种特征，之后先用全局特征让SVM识别出该视频具体的类别，然后再利用局部特征在多特征索引模型中检索相关的关键字进行注释，最后将注释结果按照一定权重排序之后返回给用户。

在识别出视频具体的类别之后和在多特征索引模型进行检索之前还包括步骤：利用人工建立的“类别-概念”的层次模型缩小关键字的范围，对于每个关键字，在特征集合里选取最优的带有权重的特征向量或者组合来表达该关键字的语义信息。

视频分类特征预处理流程

视频分类预处理流程如下(详见图3)：

1.镜头切割和关键帧选取；

2.提取视频的全局静态特征和每个镜头动态特征；

3.对于每个镜头的动态特征向量，利用Matlab的线性回归函数按照6参数运动放射模型进行参数估计，形成6参数特征向量；

4.对于每个视频，用Kmean聚类的方法聚集所有镜头的6维运动特征向量，并提取聚类的中心当作该视频的全局运动向量；

5.利用SVM(本发明采用Libsvm)进行训练模型。

视频镜头切割和关键帧提取

此算法位于预处理流程的第一步，流程图如图4所示。其中阈值还有几个判断条件都是经过多次反复试验形成的。

由于本发明实施例中处理的视频都是avi格式的，易提取视频的每一帧，因此分割视频算法的主要思想就是帧间差的比较。对于视频的每一帧，先和前一帧比较(如果是第一帧，则不做任何处理)，如果大于阈值A，则说明帧间差已经符合切割视频的条件了，但是还不能过早下结论，因为如果一个镜头内出现比较剧烈的全局或者局部运动，帧间差也会大于阈值，此时就要进一步探测该帧和前一帧的生成的运动向量，如果发现运动杂乱无章，不符合局部或者全局运动的特点，则识别为镜头切割。

至于关键帧的提取，遵循两个原则：

1.每个镜头至少存有一个关键帧；

2.某个帧停留的时间较长，则说明该帧比较重要，可以作为关键帧候选。

根据以上两个原则，我们进行第二次帧间差的阈值B判断，比刚才进行镜头分割的阈值A要小，如果该帧间差比B还小，则认为该帧属于前一帧的相似帧，也相当于前一帧的停留。如果几个帧下来都是相似帧，则认为符合第二个原则，保存关键帧。如果帧间差比B大，则判断当前镜头是否有关键帧储备，如果没有，则需要保存一下当前帧。这样下来，很容易出现一个问题，就是每个镜头可能有多个关键帧，此时取第一个利用原则2保存下来的关键帧作为该镜头的关键帧。

提取全局运动特征的块匹配算法

块匹配的运动模型假设图像是由运动的块构成的。因此，一帧的图像被分割为N×N的像素大小的块，在(N+2w)×(N+2w)大小的匹配窗中，当前块与前一帧中对应的块相比较，基于匹配标准，找出最佳匹配，得到当前块的替代位置，同时也得到该块运动方向和速度，用于后面的六参数仿射模型的参数估计。

匹配算法我用的是颜色直方图的直接匹配。

在这里我们使用了三步搜索法来找到最佳匹配块。三步搜索(Three-Step Search，TSS)的大致算法如下第一步以8像素为步长，测试以原点为中心的8点，下一步，以最小匹配误差点为中心，步长折半为4，测试新的8个点，第三步，重复第二步得到最后的运动向量。最后得到的像素点为最佳匹配点。而应用本发明中的时候，稍作修改，整个全局运动特征提取的详细算法如下：

输入：当前帧，前一帧，视频保存路径

输出：用于Matlab运动参数估计的运动向量文件

1把帧分成40*40的矩阵保存像素，设立运动保存路径。

2.对于前一帧每一个矩阵块，搜索当前帧。

a)以6像素为步长，搜索当前帧对应位置的矩阵块。

i.不光搜索该块周围的8块，还要搜索该位置的块本身，如果遇到帧图像的边缘，则忽略该方向的搜索。

ii 遇到搜索块时，统计两个矩阵块的颜色直方图，然后计算之间的欧几里德距离。

iii.保存欧几里德距离最小的块当做目标块以作后用。

b)以3像素为步长，按照步骤a)搜索a)步得到的目标块

c)以3像素为步长，按照步骤a)搜索b)步得到的目标块

d)得到了最终搜索到的目标块的坐标后，计算该前一帧块运动的速度和方向。方向用两块之间的斜率表示，速度用两块中心的距离表示。

e)保存一个四维向量，块的左上角(x，y)坐标，块运动方向和速度

3.处理完所有块之后，得到的包括所有块的四维向量文件就是用于Matlab运动参数估计的运动向量文件。

聚类运动特征的K-mean算法

k-means算法接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；不同聚类中的对象相似度较小。工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于剩下的其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类；然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值)；不断重复这一过程直到标准测度函数开始收敛为止。

本发明在采用k-means算法聚类的时候，主要就是聚一个类，求出聚类中心来作为最具有代表性的元素用以表示所有运动向量。因此在具体应用的时候就聚一个类，在开始收敛的时候找到离中心距离大于阈值的对象，当成噪音删除，然后继续原有的算法。有一点需要注意的是，衡量元素之间的距离的算法为欧几里德算法，这就需要数据各个维的数量级是一样的。否则，数量级大的维之间的距离很容易主导整个向量之间的距离，会出现很大的误差，因此在处理前也要处理。改进后具体算法实现如下：

输入：待处理数据数量，数据维数，分类数目，源数据；

输出：每一类的中心向量，半径以及密度；

1.按照输入，确立格式，读入所有数据；

2.按照每一维的分布，确定每一维的数量级，并且根据数量级把所有维放缩到[0，1]之间；

3.根据分类数目n，随机选择前n个数据当作类中心；

4.对于每个元素；

a)计算到各个类中心的距离；

b)把该元素分配到距离它最近的那个类的数据结构中；

5.分配结束后计算新的类中心，如果和原来的类中心一样，继续。否则根据新的类中心，重新跳到步骤4执行。

6.遍历所有的元素到类中心的距离，如果大于某个阈值就识别其为噪音，如果存在噪音则回到3再进行训练一次，如果没有，则继续进行下一步。

7.把距离类中心最远的距离计算为半径，把非噪音占所有数据的比重计算为密度。

经过预处理之后，需要把数据输入到分类器进行训练或者识别的步骤。

支持向量机SVM(Support Vector Machines)是一种基于统计学习理论的模式识别方法，主要应用于模式识别领域。在具体实现SVM的时候，使用了Libsvm工具，它是台湾大学林智士等开发设计的一个操作简单，易于使用，快速有效的通用SVM软件包，可以解决各种分类问题。软件包在给出源代码的同时还提供了Windows操作系统下的可执行文件，下面就简单介绍一下我使用LibSVM训练的步骤：

1.把视频的全局特征转成libsvm看的懂得格式，如下：

<label><index1>:<1><index2>:<2>....。

2.对数据集(包括训练集和测试集)进行缩放，一般缩放到[0，1]或者[-1，+1]之间，利用svmscale.exe，重定向到新的文件中。

3.选用效能较好的RBF kernel。(libsvm预设值就是RBF)。

4.用cross validation(交叉验证的方法，用于参数估计)选择后面训练模型需要的参数(利用python执行软件包里的grid.py)。

5.用刚刚找到的参数(上一步的结果)来训练模型，利用svmtrain.exe。

6.利用svmpredict.exe来预测test的结果。

关键字和类别对应

由图2流程图可见，本发明包括两个特征模型，SVM和基于关键帧的多特征模型，SVM模型是针对视频的全局特征，目的是把视频归类。而多特征模型是针对关键帧的特征进行建模的，目的是把特征和具体的关键字之间建立对应的关系，同时也会涉及到关键字空间的分布，以及之间的联系等。这两个看似没有关联的部分之间也有一层很深的联系，如此设计的目的是为了增加结果的正确率。

SVM模型和多特征模型之间的关系，也就是给视频注释的类别和关键字的关系。由常理可知，不同的类别下的视频有可能对应不同的注释词语。例如图5所示关键字“meeting”可能只出现在News这个类别里，“skating”只出现Sports这个类别里。因此我们可以利用这个特点，建立每个类别对应的可能关键字集合，这样SVM分类之后，下一步利用多特征模型进行注释的时候，探测的关键字数量大大减少，这样可以提高准确率和注释效率。当然每个类的关键字集合也可能有重叠的部分，比如图5中的Face，所以整个关键字和类别对应都是经过人工对视频数据集仔细分析而确定的。

多特征模型设计部分

上一部分已经介绍了对视频分类的一些处理，这一部分着重于对每个镜头的注释工作。对于每个镜头储存了一个关键帧，因此，此部分对视频进行关键字标注的过程就相当于对图像(关键帧)的注释。区别于一些人工系统中对图像进行人工标注的做法，我们系统是基于内容的注释，即自动提取每幅图像的视觉内容特征作为索引与概念相对应，如颜色、纹理、形状等。而目前的一些自动图片注释系统中，只考虑了单一或者小部分的特征来表示概念。而不同的概念需要用不同的特征或者加以不同权重的特征组合来表达，比如“car”这个概念，有时候用颜色特征并不能很好的表达，因为有不同颜色的车，但是用形状或者边缘特征就比较适合，虽然也可能有不同形状的车，但是该特征比颜色更有说服力。

关键字和特征对应

不同的关键字需要用不同的特征表示。譬如人们说到树木或草原往往是和绿色相关，大海或蓝天往往是和蓝色相关，因此我们可以根据颜色特征来区分这些物体。但是如果谈论到“汽车”，“公交车”的时候，颜色就很难起到区分作用，这时候形状，纹理等特征就显得比较重要，受到这点的启发，我构建的如下的概念模型：

Concept_feature代表每个关键字的特征，w_i和f_i分别表示该特征表示的权重和向量，其中i属于{color，texture，edge}。这个模型中，每个关键字的特征由三种特征的加权综合来表示，每个特征的权重与特征向量需要由图片训练获得，下面是训练流程：

1.从网上下载一些表示某个概念的图片，并且人工筛选比较有代表性的一些作为训练集进行后面的训练集。

2.改变这些图片的大小为320*240(视频屏幕的大小)

3.提取训练集中所有图片的颜色，纹理，边缘特征，并且按照特征进行聚类。

4.分析各自特征聚类的密度或聚集程度，确定该特征的权重。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种基于自动分类和关键字标注的自动视频注释方法，其特在于，包括步骤：

S1：进行视频分类特征预处理；

S4：将注释结果按照一定权重排序之后返回给用户；

所述步骤S1进一步包括：

S11：对视频进行镜头切割和关键帧选取；

S12：提取视频的全局静态特征和每个镜头的动态特征；

S14：用k-means聚类的方法聚集所有镜头的6维运动特征向量，并提取聚类的中心当作该视频的全局运动向量；

其中，步骤S14中k-means聚类方法进一步包括：

S142：按照每一维的分布，确定每一维的数量级，并且根据数量级把所有维放缩到[0,1]之间；

S143：根据分类数目n，随机选择前n个数据当作类中心；

S144：对于每个元素

a)计算到各个类中心的距离；

b)把该元素分配到距离它最近的那个类的数据结构中；

2.如权利要求1所述的方法，其特征在于，所述步骤S3中在识别出视频具体的类别之后和在多特征索引模型进行检索之前还包括步骤：利用预先建立的“类别-概念”的层次模型缩小关键字的范围；对于每个关键字，在特征集合里选取最优的带有权重的特征向量或者组合来表达该关键字的语义信息。

3.如权利要求1所述的方法，其特征在于，所述步骤S11进一步包括：

S111：从视频中提取每帧；

S117：选取关键帧。

4.如权利要求1所述的方法，其特征在于，步骤S13中获得用于Matlab运动参数估计的运动向量文件，方法为：

S131：把帧分成40*40的矩阵保存像素，设立运动保存路径；

S132：对于前一帧每一个矩阵块，搜索当前帧；

a)以6像素为步长，搜索当前帧对应位置的矩阵块；

i.不仅搜索该块周围的8块，还要搜索该位置的块本身，如果该块在任一方向上遇到帧图像的边缘，就忽略对该方向的搜索；

ii.遇到搜索块时，统计两个矩阵块的颜色直方图，然后计算之间的欧几里德距离；

iii.保存欧几里德距离最小的块当做目标块以作后用;

b)以3像素为步长，按照步骤a)搜索a)步得到的目标块；

c)以3像素为步长，按照步骤a)搜索b)步得到的目标块；

d)得到了最终搜索到的目标块的坐标后，计算该前一帧块运动的速度和方向；方向用两块之间的斜率表示，速度用两块中心的距离表示；

e)保存一个四维向量，块的左上角(x,y)坐标，块运动方向和速度；

5.如权利要求1所述的方法，其特征在于，对视频进行关键字标注为基于内容的注释，即自动提取每幅图像的视觉内容特征作为索引与概念相对应，局部特征包括但不限于颜色、纹理、形状。

6.如权利要求1所述的方法，其特征在于，所述步骤S2中采用Libsvm进行训练。