CN101650728A

CN101650728A - 视频高层特征检索系统及其实现

Info

Publication number: CN101650728A
Application number: CN200910091511A
Authority: CN
Inventors: 董远; 刘继晴
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2009-08-26
Filing date: 2009-08-26
Publication date: 2010-02-17

Abstract

本发明提出了一个基于颜色、边缘、纹理、特征点等多种底层特征和支持向量机(SVM)的视频高层特征检索系统。首先对视频片段进行镜头边界检测，然后等间隔抽取镜头中有代表性的几帧作为关键帧。对于抽取出的关键帧，我们提取了基于颜色、边缘、纹理、以及特征点的多种鲁棒性底层特征。多类底层特征的采用为视频的高层语义特征提供了多方面的描述，由于它们具有很强的互补性，对于不同的语义概念能够分别显示出很强的区分力，这就使得系统对于各中不同概念的检测性能都能得到有效的保证。然后所提取特征被分别送到支持向量机(SVM)中进行分类，形成多支子系统。在概念分类阶段我们选择了支持向量机(SVM)作为分类器，并且首次使用了基于稠密最近邻(Condensed Nearest Neighbor)的方法选取训练参数，有效解决了训练过程中普遍存在的正负样本不均衡问题。为了充分利用多个子系统提供的描述信息，对于多支系统的分类得分，我们采用了两级融合策略，并引入了逻辑回归(Logistic Regression)的方法来学习到最佳的融合策略，使得融合系统的准确率与召回率大大提高。

Description

视频高层特征检索系统及其实现

技术领域

本发明属于视频检索技术领域，具体涉及一种基于内容的视频镜头检索方法。其实质是抽取镜头中的关键帧信息，对其进行多类特征提取，并分别用支撑向量机(SVM)计算所查询内容的匹配度，形成多个子系统。本发明提出了一种基于逻辑回归(Logistic Regression)的得分融合方式，在此基础上得到了统一的高准确率的视频高层特征检索系统。

背景技术

多媒体技术和互联网的发展给人们带来巨大的多媒体信息海洋，而IPTV、视频网站的的迅速崛起进一步导致了视频图片等多媒体信息的爆炸性增长，传统的基于文本关键词的检索方式已经无法满足多媒体信息描述和信息库整理的需要。如何找到一种新的检索方式，有效的帮助人们快速、准确地找到所需要的多媒体信息，成了多媒体信息库所要解决的核心问题。

基于内容的视频信息检索(Content-Based Retrieval)是一种新的检索技术，是当前多媒体数据库发展的一个重要研究领域，它通过对非结构化的视频数据进行结构化分析和处理，采用视频分割技术，将连续的视频流划分为具有特定语义的镜头，作为检索的基本单元，在此基础上进行关键帧(key frame)的抽取，形成描述镜头的特征索引，对图像中的颜色、形状、纹理，或视频中的场景、片断进行分析和特征提取，并基于这些特征进行相似性匹配。

在基于内容的视频图像检索中，之前主要研究的是图像的视觉和形象特征，我们称之为底层特征，包括颜色、纹理、形状以及在此基础上形成的空间关系等方面，以图像的底层视觉和形象特征为索引对图像进行检索具有计算简单、性能稳定的特点，但目前这些特征都有一定的局限性。为了实现更为贴近用户理解能力的自然而简洁的查询方式，填补底层特征与高层语义之间的语义鸿沟，近几年的研究逐渐转向基于场景和目标对象的视频图像高层特征的提取，尝试由图像的底层次特征推知高层次语义，从而使用高层语义特征计算图像相似程度。视像高层特征有时也称为概念，是指诸如“行人”、“海滩”、“踢足球”及“十字路口”等语义内容。视像高层特征抽取就是要计算机自动的发掘视像中这些语义内容。作为基于内容视像检索的一部分，视像高层特征抽取的任务是在视像结构分析基础上，进行语义分析。它不仅有着单独存在的意义，而且它还为最终的视像搜索提供更接近语义的特征，协助完成搜索任务。

发明的内容

为了有效的进行视频高层语义检索，填补人类思维的高层语义与图像处理中底层特征之间的鸿沟，本发明提出了一个基于颜色、边缘、纹理、特征点等多种底层特征和支持向量机(SVM)的视频高层特征检索系统。我们的系统包括四个模块，分别为镜头分割与关键帧抽取、底层特征提取、支持向量机分类、子系统融合，在每个模块中我们都提出了一些有效的方法来提高最终系统的性能。

本发明首先对视频片段进行镜头边界检测，然后等间隔抽取镜头中有代表性的几帧作为关键帧。对于抽取出的关键帧，我们提取了基于颜色、边缘、纹理、以及特征点的多种鲁棒性底层特征。多类底层特征的采用为视频的高层语义特征提供了多方面的描述，由于它们具有很强的互补性，对于不同的语义概念能够分别显示出很强的区分力，这就使得系统对于各中不同概念的检测性能都能得到有效的保证。然后所提取特征被分别送到支持向量机(SVM)中进行分类，形成多支子系统。

在概念分类阶段我们选择了支持向量机(SVM)作为分类器，并且首次使用了基于稠密最近邻(Condensed Nearest Neighbor)的方法选取训练参数，有效解决了训练过程中普遍存在的正负样本不均衡问题。为了充分利用多个子系统提供的描述信息，对于多支系统的分类得分，我们采用了两级融合策略，并引入了逻辑回归(Logistic Regression)的方法来学习到最佳的融合策略，使得融合系统的准确率与召回率大大提高。

附图说明

图1为本发明的系统总体框图

图2为关键帧抽取与低层特征提取流程图

图3为支持向量机训练及分类流程图

图4为系统融合流程图

具体实施方式

下面结合附图具体对本发明作进一步的详细描述。如图1所示，本发明方案分以下步骤：

(1)、自动镜头分割及关键帧抽取；

(2)、对于关键帧的多种特征提取；

(3)、基于支持向量机的概念分类；

(4)、基于逻辑回归的系统融合。

下面是对各步骤的详细说明：

1、镜头边界自动分割及关键帧抽取

概念检测的单元是镜头(shot)，镜头是影片制作过程中的一个连续的不间断的拍摄过程，对应于我们的数据就是一段存在于整段视频中的一般为数秒长的视频片断。镜头分割就是从一段连续视频当中找出每次镜头切换的具体位置，把整段的视频按照镜头为单元分割成片段。为了对镜头进行准确和快速的分割，根据场景突变作为镜头切换的判断依据。

本系统采用两个传统的帧间差来衡量前后帧之间的场景差异。一个是颜色直方图差(HDM)，一个是空间差(SDM)。

定义：第t帧f_t和第t+1帧f_t+1图片中，I_t(i，j)和I_t+1(i，j)表示是坐标为(i，j)的像素点的强度；H_t(k)和H_t+1(k)表示L阶颜色直方图的第k阶。帧的分辨率为M×N，于是：

颜色直方图差(HDM)可以写成：

D_{H} (t) = \frac{1}{M \times N} {(Σ_{k = 1}^{L} {| H_{t} (k) - H_{t + 1} (k) |}^{2})}^{1 / 2}

空间差(SDM)可以写成：

D_{s} (t) = \frac{1}{M \times N} {(Σ_{i = 1}^{M} Σ_{j = 1}^{N} {| I_{t} (i, j) - I_{t + 1} (i, j) |}^{2})}^{1 / 2}

对视频的每一帧，求出它的上述两种距离，当一帧的两个距离值的和大于事先设定的阈值时，认为这是一个场景的突变，也就是镜头的切换点。最后在一段视频段中，按时间顺序等间隔抽取几帧作为该视频片段的关键帧。由于一个镜头可以有多个关键帧，因此一个关键问题是如何将返回的关键帧列表映射回相应的镜头列表，这样的映射可以有很多，我们使用的映射可描述为：用镜头中置信度最高的关键帧的置信度作为该镜头的置信度。

2、对于关键帧的多种特征提取

图像特征的提取与表达是基于内容的视频检索技术的基础。在我们的系统中，我们采用了基于颜色、边缘、纹理、特征点等多种特征，简要介绍如下：

1)颜色特征

颜色特征是在视频检索中应用最为广泛的视觉特征，主要原因在于颜色往往和图像中所包含的物体或场景十分相关。此外，与其他的视觉特征相比，颜色特征对图像本身的尺寸、方向、视角的依赖性较小，从而具有较高的鲁棒性。我们主要采用了颜色自相关图(Color AutoCorrelogram)、颜色一致向量(Color Coherence Vector)和网格颜色矩(Grid Color Moment)。

其中，颜色自相关图(CAC)对RGB颜色空间量化为64维之后，沿着D＝{1，3，5，7}四个尺度计算的自相关直方图，共256维；颜色一致向量(CCV)针对HSV36作的颜色一致向量，72维，采用5分块方式，整幅图像共得到360维；，颜色矩(GCM)取一阶矩、二阶矩和三阶矩，需要9个分量(3个颜色分量，每个分量上3个低阶矩)，采用4×3分块方式，共108维。

2)边缘特征

边缘特征反映了物体形状的轮廓，是图像目标检测中一个重要特征是。本发明中，我们采用了边缘直方图(Edge Histogram)和边缘一致向量(Edge Coherence Vector)。

边缘直方图(EDH))统计落在每5度空间中的边缘的个数，生成的直方图，72维，采用5分块，共360维；边缘一致向量(ECV)每分块得到64维向量，采用5分块，共320维。

3)纹理特征

纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征。它是所有物体表面共有的内在特性，例如云彩、树木、砖、织物等都有各自的纹理特征。本发明中，我们采用了Gabor纹理特征和LBP纹理特征。

Gabor滤波器能够最大程度地减少空间和频率的不确定性，同时还能够检测出图像中不同方向和角度上的边缘和线条。在我们的实现中，我们选取了6个方向和4个尺度的滤波器，并取原始图片针对每个滤波器的响应图片的均值与方差作为描述子，采用5分块方式，最终每幅图片得到240维向量。

LBP算法的思路是假定某一像素为中心，以该中心点的灰度值为阈值与相邻一定半径上等间隔的像素灰度值进行比较，得到一组二进制数作为中心点的二值模式(binary pattern)，并计算得到一个LBP值，不采取分块的方式，每幅图片得到一个256维的特征向量。

4)尺度不变特征变换(Scale Invariant Feature Transform)

SIFT算法是一种提取局部特征的算法，在尺度空间寻找极值点，提取位置，尺度，旋转不变量。它独特性好，信息量丰富，适用于在海量特征数据库中进行快速、准确的匹配、且具有多量性，即使少数的几个物体也可以产生大量SIFT特征向量。本发明中首先提取图像中的SIFT描述子，分别采用稀疏和稠密两种方式，稀疏方式即直接在图像中用SIFT算法寻找特征点，为了在特征点比较稀疏的图像上得到更好的效果，本发明同时采用了稠密方式，即在整幅图像中打网格，然后在每个网格中都得到一定数量的特征点，这样就大大增加了特征点的数目，增强了特征的鲁棒性。然后，对于提取出的SIFT描述子，利用词袋模型(Bag ofWords)进行无监督聚类，将其映射到一个512维的视觉词汇空间中去。

对于分块方式，我们使用了两层金字塔，即1×1与2×2，这样就得到512×(1+4)＝2560维的特征向量，对于两种描述子分别记为SIFT-VW-PYRAMID与DENSE-SIFT-VW-PYRAMID。此外，对于稠密的SIFT，我们又采用了先取三层金字塔，然后用潜在语义分析(LSA)降维的方式，得到200维的特征向量，记为DENSE-SIFT-VW-LSA。这样，本发明共使用了3中SIFT描述子特征。

3、基于支持向量机(SVM)的概念分类

基于统计学习的分类方法可以有效地提高分类的准确性。支持向量机SVM是建立在VC维理论和结构风险最小原理基础上的，具有小样本学习和局部最优解特性的分类算法。SVM是一个二类的分类器，它的核心由一个内核方程K(·，·)构成，SVM的表达式如下所示：

f (x) = Σ_{i = 1}^{L} α_{i} t_{i} K (x, x_{i}) + d,

其中，t_i为理想的输出，对于类别0和类别1分别是1或-1，

Σ_{i = 1}^{L} α_{i} t_{i} = 0,

且α_i＞0。向量

为支持向量，它在训练阶段通过最优化原则获得，L为支持向量的个数。

为输入的特征向量，根据f(x)的返回值是否大于预设门限而做出分类决策。

在视频高层特征分类过程中，我们首先收集某个语义概念的相关数据进行SVM训练，得到针对特定概念的SVM分类器。比如利用概念“天空”的SVM分类器，我们对所要检索视频的每个镜头进行打分，这样即可得到每个镜头与“天空”这个概念的相关度。根据相关度排序，我们即可返回相关度最高的镜头编号作为“天空”这个概念的检索结果。

但是，在对语义概念做SVM训练时，通常可以获得的正样本数量要比负样本数量少的多，这样，不同类别样本数目的巨大差异会使SVM的分类错误总是偏向样本数较少的类别，从而影响了分类准确率，进而使视频检索系统的性能大大降低。为了，解决这个问题，我们考察SVM的优化公式：

L_{P} = \frac{{| | w | |}^{2}}{2} + C^{+} Σ_{{i | yi = + 1}}^{n_{+}} ξ_{j} + C^{-} Σ_{{j | yj = - 1}}^{n_{-}} ξ_{j} - Σ_{i = 1}^{n} α_{i} [y_{i} ({wx}_{i} + b) - 1 + ξ_{i}] - Σ_{i = 1}^{n} r_{i} ξ_{i}

其中，α_i≥0，r_i≥0，满足条件0≤α_i≤C⁺，if y_i＝+1且0≤α_i≤C^-，if y_i＝-1。惩罚常数C表示了实验误差ξ与SVM边缘区域之间的平衡。正常情况下，正负样本被等同对待，即C⁺＝C^-，为了减小正样本的分类误差，我们加大对正样本误差的惩罚因子，即C⁺，使得原本偏向正样本的分类面得以纠正，从而提高分类准确率。

加重正样本惩罚之后的C⁺与C^-之比，我们通过一种叫做浓缩集合最近邻(CondensedNearest Neighbor Rule)的方法得到，算法具体描述如下：

首先，随机取一个负样本与所有的正样本形成一个初始的集合E。然后，每一次从剩下的负样本集合抽取一个负样本S，然后以E为最近邻分类器的模型进行分类，如果S被错判为正样本，则将S加入E，反之则抛弃S。如此循环往复，最终形成一个扩大的集合E。统计E中负样本与正样本之比，我们称之为CNN比例，记为P。

以上得到的P能够更好的反映训练集合不均衡的程度，在SVM训练时，我们将C^-设为1，C⁺设为P，从而有效的抑制了分类面的偏移，提高了检索系统的性能。

4、基于逻辑回归的系统融合

根据以上的介绍，我们共实现了10支子系统(CAC，CCV，GCM，EDH，ECV，GABOR，LBP，SIFT-VW-PYRAMID，DENSE-SIFT-VW-PYRAMID，DENSE-SIFT-VW-LSA)，我们称之为第一层，其中每支子系统均可根据SVM分类器对于视频的每个镜头得到的相关度返回检索结果。但是由于这些低层特征只能反映视频镜头在图像处理某一个方面的特性，所以返回的检索结果与人类的认识上还有很大的差距。然后根据特征的类型，可以分为颜色、边缘、纹理、特征点四大类，我们称之为第二层。最后，将四类特征融合为一套系统，我们称之为第三层。第二层系统相对于第一层结合了更多的特征表达形式，鲁棒性更强，但仍然侧重表现图像处理上的某总特性；而第三层结合了各种信息，通过把这些低层特征系统融合成一个更鲁棒的系统，我们可以在一定程度上弥合机器语义与人类语义之间的鸿沟。具体算法如下：

首先，从第一层系统融合成第二层系统时，我们采用简单的将对应镜头打分取平均的方式得到新的系统打分，得到相对鲁棒的概念似然度。

为了更好的体现不同类型的特征对某一特定概念的贡献度，在第二层系统融合成第三层系统时，我们采用逻辑回归(Logistic Regression)的方式在开发集上训练得到一组融合系数，然后依照这组系数融合得到最终的系统得分。相比于直接取平均的方式，逻辑回归的方式在训练集上学习到了不同类型特征对不同概念的贡献度，按照这种方式融合得到的最终系统准确率和召回率都将更高。

本发明提出了一种实现视频高层特征检索的系统流程，以及其中的相关技术细节。对于本领域的技术人员来说，很明显，本发明可以做出各种改进和扩展，因此，只要他们落入所附权力要求书及其等同范围内，本发明就涵盖这些改进及扩展。

Claims

1.一个基于视频高层特征检索系统的实现方法，其特征在于包括以下步骤：

第一步，对体育视频进行镜头切割，关键帧提取；

第二步，对于关键帧的颜色、边缘、纹理和特征点等多种低层图像特征的提取；

第三步，对低层特征采用SVM分类器进行打分；

第四步，融合各种低层特征得到的多个子系统，形成最终系统。

2.如权利要求1所述方法，其特征在于选取了颜色、边缘、纹理和特征点等多种图像低层特征的组合来弥合低层特征与高层语义特征之间的差别；

3.如权利要求1，其特征在于处理SVM训练遇到的数据不均衡问题时，采取了修正正负样本不同的惩罚系数来调整分类面的方式；

4.如权利要求3，其特征在于选择正负样本惩罚因子比例的时候采用了浓缩集合最近邻准则来构造一个更紧致的训练集合，并计算得到相应的惩罚系数比例；

5.如权利要求1，其特征在于使用多个SVM分类器得分融合的方式来获得更鲁棒的高层语义分类器输出，弥合低层特征与高层语义之间的差距；

6.如权利要求1所述方法，其特征在于进行系统融合时，采用了两级融合的方式，第一级在各大类特征内部进行得分平均的方式实现；第二级使用多类鲁棒特征利用逻辑回归得到一组融合系数，利用这组系数多多个SVM分类器打分加权平均得到最终检索系统。