CN102542066A

CN102542066A - 视频聚类方法、排序方法和视频搜索方法以及相应装置

Info

Publication number: CN102542066A
Application number: CN2012100019723A
Authority: CN
Inventors: 冉阳
Original assignee: Individual
Current assignee: Individual
Priority date: 2011-11-11
Filing date: 2012-01-05
Publication date: 2012-07-04
Anticipated expiration: 2032-01-05
Also published as: CN102542066B

Abstract

本发明涉及视频信息领域，公开了一种视频聚类方法、排序方法和视频搜索方法以及相应装置。该视频聚类方法包括：聚类步骤，用于针对视频中的每一帧，将相似度高于预定阈值的多个像素聚类到一起，以得到能够模拟人类视觉的最小实体的超像元，其中，所述相似度是根据像素的颜色、位置和/或运动特性来计算的。通过基于能够模拟人类视觉的最小实体的超像元对视频中的像素区域进行时空域自相关和互相关分析、排序，本发明即使针对海量视频库也能够达成实时、精确的视频搜索。

Description

视频聚类方法、排序方法和视频搜索方法以及相应装置

技术领域

本发明涉及一种视频聚类方法、排序方法和视频搜索方法，具体而言，涉及一种基于视频信息本身而非其文字描述的视频聚类方法、排序方法和视频搜索方法以及相应的装置。

背景技术

随着互联网和多媒体技术的迅速发展，人们可以访问到的多媒体数据急剧增长。视频作为最复杂的一种多媒体数据，凭借其多样化的表现形式、丰富的语义内容以及便捷的记录方式等得到了广泛的应用和发展。与此同时，大容量存储技术的发展使得数字视频信息的存储成本越来越低，这促进了数字视频信息的大量产生和堆积。面对越来越多的海量视频库，如何快速有效地进行视频内容分析和检索就成为当前视频信息领域研究的当务之急。

传统的搜索引擎采用基于文本的PageRank技术(例如，Lawrence Page，Sergey Brin，Rajeev Motwani，TerryWinograd，″The PageRank Citation Ranking：BringingOrder to the Web″，1998；以及Taher H.Haveliwala，″Efficient Computation of PageRank″，Stanford Technical Report，1999)。该技术基于这样一种认识，即一个网页的重要性取决于它被其他网页链接的数量，特别是被一些已经被认定是″重要″的网页的链接数量。

现有的大部分所谓视频搜索引擎也基于文本等第三方因素来辨别视频内容。当一个搜索引擎爬虫在网络中通过URL(Uniform ResourceLocator，统一资源定位符)寻找新的图片/视频链接时(为简单起见，以下以视频为例进行说明)，它会通过HTTP协议(HyperTextTransfer Protocol，超文本传输协议)来提取这个网页，并把网页的html(Hypertext Markup Language，文本标记语言)代码传输给内容分析器。内容分析器会根据特定的html代码(例如标签)来寻找网页中所包含的视频。然后，搜索引擎爬虫会根据网页html代码中的title(名称)、heading(标题)、keywords(关键词)、description(描述)等标签及标签中的属性和/或链接到该网页的外部链接来判断视频的内容。当搜索引擎基本判断出视频的内容后，就会按照视频的内容对其进行归类。在确定了视频的内容和分类后，搜索引擎将分析好的数据放置到索引数据库中，并自动为视频生成缩略图。当用户进行搜索时，搜索引擎就会根据视频的内容、与关键词的相关度等因素来对视频进行排序，最终将较准确的搜索结果列表展示给用户。

上述基于文本的视频搜索方法有着先天的缺陷。首先，文字属性标签难以表达蕴藏在多媒体数据中的丰富内容，导致在查询视频时经常会出现错误。其次，文字属性标签是一种人为抽象出来的描述，这使得如果描述的标准改变，则标签也得重新制作才能适合新的查询要求。换句话说，特定的标签只适合特定的查询要求。最后，人为制作出来的文字属性标签受制作者的主观因素影响很大，不同的观察者或同一观察者在不同条件下对同一视频可能会给出不同的描述，因此不够客观且难以统一标准。

于是，基于内容的视频检索成了目前计算机视觉、多媒体技术领域的研究热点。基于内容的视频检索是指对视频数据中蕴涵的视觉和语义内容进行计算机处理、分析、理解及检索，本质上包括对无序的视频数据进行结构化、提取视觉与语义信息并保证视频内容能够被快速检索(例如，HongJiang Zhang，Philippe Aigrain，DraguinPetkvic.Representation and Retrieval of Video DatainMultimedia，1997)。近年来已实现了一些基于内容的多媒体检索方法(例如，Ziyou Xiong，Regunathan Radhakrishnan，AjayDivakaran，Yong Rui，Thomas S.Huang.A UnifiedFramework for Video Summarization，Browsing & Retrieval：with Applications to Consumer and Surveillance Video.Academic Press，2005；以及Remco C.Veltkamp，HansBurkhardt，Hans-Peter Kriegel.State-of-the-Art inContent-Based Image and Video Retrieval，Springer，2001)，以使用人工智能方法自动提取多媒体内容的特征(例如，YingLi，C.C.Jay Kuo.Video Content Analysis UsingMultimodal Information：For Movie Content Extraction，Indexing and Representation.Springer，2003；以及Sagarmay Deb.Video Data Management and InformationRetrieval，IRM Press，2004)。在基于内容的视频检索中，如何从视频中把感兴趣的对应帧的物体提取出来即进行图像分割是一个最基本的需求。传统上采用无监督的自底至上(bottom-up)的方式来完成上述图像分割。但由于视频是高维流型，单纯采用自底至上的方式通常对视频无法得到需要的结果。

发明内容

有鉴于此，本发明的目的在于提供一种视频聚类方法、排序方法和视频搜索方法以及相应的装置，以即使针对大规模视频库也能够基于视频内容本身达成实时、精确的视频搜索。

为了实现上述目的，本发明提供了一种视频聚类方法，其包括：聚类步骤，用于针对视频中的每一帧进行聚类，即将相似度高于预定阈值的多个像素聚类到一起以得到超像元。其中，所述相似度是根据像素的颜色、位置和运动特性来计算的。

为了实现上述目的，本发明还提供了一种排序方法，用于对根据本发明所提供的视频聚类方法所得到的超像元进行排序，该排序方法包括：步骤一：对各超像元赋予初始的排序值，该初始的排序值不等于零；步骤二：根据各超像元的排序值计算公式，利用各超像元当前的排序值，计算各超像元新的排序值；步骤三：重复步骤二，直到各超像元的排序值收敛。

为了实现上述目的，本发明还提供了一种视频搜索方法，其包括：获取步骤，用于获取互联网上的视频；聚类步骤，用于根据本发明所提供的视频聚类方法，对通过所述获取步骤所获取的每个视频进行聚类；排序步骤，用于根据本发明所提供的排序方法，对通过所述聚类步骤所得到的每个视频的每个超像元进行排序；关键字提取步骤，用于针对通过所述聚类步骤所得到的每个视频的每个超像元或超像元组，基于该超像元或超像元组的特定特征为该超像元或超像元组赋予文字属性标签，其中，该特定特征包括该超像元或超像元组的视频特征、视频内容识别和/或视频内容主体分类；索引步骤，用于根据所述关键字提取步骤赋予每个视频的每个超像元或超像元组的文字属性标签，针对每个视频建立索引。

为了实现上述目的，本发明提供了一种视频聚类装置，包括：聚类部，用于针对视频中的每一帧进行聚类，即将相似度高于预定阈值的多个像素聚类到一起以得到超像元。其中，所述相似度是根据像素的颜色、位置和/或运动特性来计算的。

为了实现上述目的，本发明还提供了一种排序装置，用于对通过根据本发明的视频聚类装置所得到的超像元进行排序，其包括：初始化部，用于对各超像元赋予初始的排序值，其中，该初始的排序值不等于零；以及计算部，用于根据各超像元的排序值计算公式，利用各超像元当前的排序值，计算各超像元新的排序值。其中，所述计算部重复进行所述计算，直到各超像元的排序值收敛为止。

为了实现上述目的，本发明还提供了一种视频搜索装置，其包括：获取部，用于搜集视频；根据本发明的视频聚类装置，用于对通过所述获取部所搜集到的每个视频进行聚类以得到超像元；根据本发明的排序装置，用于对通过所述视频聚类装置所得到的每个视频的每个超像元进行排序；关键字提取部，用于针对通过所述视频聚类装置所得到的每个视频的每个超像元或超像元组，基于该超像元或超像元组的特定特征为该超像元或超像元组赋予文字属性标签，其中，该特定特征包括该超像元或超像元组的视频特征、视频内容识别和/或视频内容主体分类；以及索引部，用于根据所述关键字提取部赋予每个视频的每个超像元或超像元组的文字属性标签，针对每个视频建立索引。

通过基于能够模拟人类视觉的最小实体的超像元对视频中的像素区域进行时空域自相关和互相关分析、排序，本发明即使针对海量视频库也能够达成实时、精确的视频搜索。

附图说明

图1示出根据本发明优选实施例的视频搜索方法的流程图。

图2示出超像元聚类过程前后的复杂度对比。

图3示出利用运动矢量来计算SPR。

图4示出一段视频中超像元的互相关SPR矩阵。

图5示出本发明的视频搜索引擎的搜索结果。

图6示出现有视频搜索引擎的搜索结果。

图7示出本发明的视频搜索引擎的搜索结果。

图8示出现有视频搜索引擎的搜索结果。

具体实施方式

以下详细说明本发明的具体实施方式。

人类视觉具有与生俱来的快速识别和抽象能力。在浏览视频时，人的视觉和大脑的反应能力能够帮助其轻松了解视频里的物体和背景，从而自动形成内容架构。受此启发，本发明旨在提供一种能够仿真人类视觉的快速视频搜索引擎技术。然而，人类这种看似十分简单的快速视觉识别环境的能力，要想在计算机上得以实现，却不是一件简单的事情，因为人类视觉是一个复杂的物理化学系统。下面首先介绍一下人类视觉系统的特性。

在人的视网膜上有两种光感受细胞，视锥细胞(Cones)和视杆细胞(Rods)。视杆细胞的感光水平低，捕捉到单个光子就能起反应，所以暗环境中的视觉主要依靠视杆细胞。视锥细胞个头小，密集在视网膜的中央黄斑处，在中央凹(fovea)处与后一级的神经建立甚至是一对一的连接关系，所以视觉的敏锐度(也就是常说的注意力)主要是由视锥细胞决定的。从分布上而言，在中央凹大约3度的视角内只有视锥细胞，然后视锥细胞的密度迅速降低，以至在周边基本上只有视杆细胞。

目前对人类视觉的研究中有一点已经得到了普遍认同，即视觉系统同时具有很高的细节分辨能力和很强的全局观察能力，而这两种能力就是由上述视锥细胞和视杆细胞联合实现的。具体而言，当人观察某一个场景的时候，人眼会选择性地采取用以采集信息的注视(fixation)运动、用以将注意力从一个目标转移到另一个目标的跳动(saccade)运动以及用以稳定运动图像的追随(smoothpursuit和OKN)运动，进而产生不同的选择性的视觉信号，以对所观察内容进行高效率的浏览和检索。例如，在通过视杆细胞大致掌握物体轮廓之后，如果想看得更清楚，人会很自然地把中央凹对准目标，用视觉敏锐度最高的部分来接受信息。这就是所谓的选择性注意力(Selective Attention)特性。

参考人类视觉系统的选择性注意力特性，本发明提供了一种同时兼顾细节和全局的快速视频搜索技术。

根据本发明的一个优选实施方式，如图1所示，本发明的视频搜索方法主要由以下几部分组成：首先进行预处理(步骤S0)，以将视频帧过分割(Over-Segmentation)成颜色相似的像素集合；然后进行时空域超像(Spatial Temporal Super pixel，STSP)聚类(Clustering)，即针对过分割后的像素区域，根据每一个像素与其时间、空间邻域中其他像素的相似性进行聚类，以产生能够模拟人类视觉的最小实体的超像元作为后续操作的最小单位；接着进行超像元等级(Super Pixel Rank，SPR)计算，即有效地利用视频所拥有的庞大链接构造的内在特性，将从超像元A导向超像元B的运动看作是A对B的支持投票，从而根据这个投票数来评价各超像元的重要性；最后进行附加处理，例如，根据实际应用运行一个或者多个属性识别模块(色彩、人脸、人体、文字、场景、车牌等等)，为所聚类出的各超像元附加上文字属性标签，以作为视频检索的辅助匹配条件。

通过上述介绍可知，超像元是本发明的搜索引擎中的最基本实体；而超像元等级表示通过分析“视频的链接构造”而得出的视频内容本身的特性，其作为该搜索引擎中表示超像元的重要性的指标，通常不会受到外部检索(引擎)的影响。搜索引擎对时空域超像元的属性和标签进行匹配搜索。在搜索最佳匹配的时候，优选不单只看投票数，对投票的超像元也进行分析，例如对“重要性”高的超像元所投的票给予较高的加权。根据这样的分析，得到的投票数的加权和较高的超像元会被认为相对重要，并将其在检索结果内的出现次序相对提前。当然，如果某个超像元与某次检索的检索关键词的相关度很低甚至没有关联，即使其重要性很高也对该次检索没有任何意义。为此，搜索引擎优选附加使用基于文本的文字属性标签匹配技术，以进一步提高视频检索的准确度。

下面将详细介绍上述各部分的技术细节。

1、预处理

在预处理中，对视频的每帧进行过分割，也即把颜色或者灰度非常相近的像素聚类到一起，以减少后续超像元聚类的计算复杂度。作为一个例子，在本发明中，使用的是英特尔公司的OpenCV 2.1(OpenSource Computer Vision Library)所提供的k领域(k NearestNeighbor)过分割算法库FLANN。但是，本领域技术人员可知，使用任何其他的聚类算法也是可行的，只要该聚类算法能够将视频帧中颜色或灰度相近的像素聚类到一起即可。

2、时空域超像元聚类

在时空域超像元聚类中，对视频中过分割后的像素区域进一步按照内容进行聚类，以便能快速有效地建立索引(Indexing)。也就是让过分割后的各像素区域中颜色、纹理、亮度和/或运动相似并且距离相近的像素聚成一个个时空域上的实体即时空域超像元。该实体是后续视频内容检索的最小单位。

“如何把一段视频里的人、车和背景聚类成相应的实体”，在图像处理领域里已经有许多自动或半自动的算法来解决这个问题，比如向量量化(Vector Quantization)、K均值(K-means)等。但是，仅仅把颜色相似的像素聚类到一起，不是真正的时空域上的分割，因为如果仅仅是考虑颜色相似的话，视频里面不同的帧中位置离得很近的物体可能无法被聚到同一类中。本发明在聚类用的特征中加入区域位置中心信息和平均运动特征。例如，以往是使用R、G、B三个颜色值来表示一个像素，本发明还可以加入x、y(区域位置中心信息)和/或dx、dy(平均运动特征)。这七个特征被归一化以后成为7维特征向量。每个过分割区域都有一个7维特征向量。

在对每个过分割区域提取一个N(N为大于3的整数)维特征之后，本发明依靠各个过分割区域和它们的特征向量的相似性建立一个图形(Graph)。该图形中的每个节点表示一个过分割区域，该图形中的每条连线表示两个节点之间的相似度。聚类的过程就是把这个图形中的一些连线切断，让整个图形被打散成一些独立联通的子图形(sub-Graph)。

具体来说，如果一段视频中的所有像素组成一个图形，并把(例如，颜色和位置)相似的节点连接起来，连线上的权值表示这两个节点的相似程度(按照特征向量归一化后的相似度计算)，那么把视频分割为几个超像元的问题实际上等价于把图形分割为几个子图形的问题，并且可以要求分割所得的权值最小，亦即：被切断的连线的权值之和最小。换言之，不切断权值比较大的连线，这表示比较相似的点被保留在了同一个子图形中，而彼此之间联系不大的点则被分割开。

需要说明的是，尽管以超像元聚类处理的输入是经过上述预处理后所得到的过分割出来的像素区域作为示例进行了如上说明，然而，本领域技术人员能够明白，预处理仅为用以减少计算复杂度的优选附加的前置处理，本发明应不限于此，换言之，超像元聚类处理的输入也可以是未经过预处理的视频中的每一帧。此外，超像元聚类处理的输出是时空域超像元(STSP)。以下是将继续以输入为过分割出来的像素区域作为示例进行超像元聚类过程的具体描述：

(1)首先根据视频过分割的结果数据构造一个图形，该图形的每个节点对应一个过分割后的数据点。

(2)将相近的点用线连接起来，并且连线的权值用于表示其所连接的两个点之间的相似度。把这个图形用邻接矩阵的形式表示出来，记为W。相似度小于一定阈值的连线被删掉。这样W是一个稀疏矩阵。

(3)把W的每一列元素加起来得到N个数，把它们放在对角线上(其他地方都是零)，组成一个N×N的矩阵，记为D，并令L＝D-W。

(4)求出L的前k个特征值(在本发明中，除非特殊说明，否则“前k个”指按照特征值的大小从小到大的顺序)以及对应的特征向量

(5)把这k个特征(列)向量排列在一起组成一个N×k的矩阵，将其中每一行看作k维空间中的一个向量，并使用K均值算法进行聚类。聚类的结果中每一行所属的类别就是原来的图形中的节点(亦即最初的N个数据点)分别所属的类别。

图2a-2c是超像元聚类前后的复杂度对比，即，用比对的方式显示超像元索引建立前后视频内容结构的复杂度。图2a是以某像素为中心的图形(一部分)；图2b是以该像素为中心的过分割后的图形；图2c是超像元聚类以后以该像素所在超像元为中心的图形。由图2a-2c可知，经过超像元聚类并建立索引，视频内容结构的复杂度(即，数据量)明显降低。

3、排序

超像元等级(SPR)是本发明提出的排序机制，它有效地利用了视频所拥有的庞大链接构造的内在特性，也即利用的是视频内容本身所蕴含的丰富信息。从本质上来说，视频里面从超像元A导向超像元B的相对运动被看作是A对B的支持投票，本发明主要根据这个投票数来计算超像元的重要等级。

如上所述，当人观察某一个场景的时候，人眼会选择性地采取注视、跳动、追随这三种运动，进而产生不同的选择性的视觉信号，以对所观察内容进行高效率的浏览和检索，这就是人类视觉系统的所谓的选择性注意力特性。

受此启发，本发明提出了SPR计算最好遵循以下三个基本原则，并且以此设计了基于计算机仿真视觉的快速排序方法：

(1)差异优先原则，对应于人眼的注视，产生的是超像元。这与人类视觉系统不以像素为单位进行感知，而是自动的按区域进行感知相一致。

(2)运动优先原则，对应于人眼的跳动，产生的是超像元的空域连续性。

(3)时域递减原则，对应于人眼的追随，产生的是超像元的时域连续性。

基于考虑到这三个原则的仿真视觉，本发明提出了超像元等级(SPR)，作为衡量视频内容重要性以及将其排序的工具。SPR根据每个超像元的外部“链接”以及内容的数量和质量来衡量其重要性。SPR的概念是：每个对当前时空域超像(STSP)的指向就是其他STSP都是对该STSP的一次投票，被指向的越多，就意味着被其他STSP投票越多。

例如，可以如下计算SPR，假设一个邻域空间包括4个时空域超像元：A，B，C和D。如果所有的相对运动矢量的方向都指向A，那么A的SPR值将是B，C及D的和，即：

SPR(A)＝SPR(B)+SPR(C)+SPR(D)

继续假设B也有运动矢量指向C，并且D也有运动矢量指向B、C。由于一个时空域超像元总共只能投1票，所以B给每个被其指向的邻居半票。以同样的逻辑，D投出的票只有三分之一算到了A的SPR上(如图3所示)。

SPR(A)＝SPR(B)/2+SPR(C)+SPR(D)/3

换句话说，根据前N个运动矢量的总数V平分一个超像元的SPR值。在下面的公式中，V(X)表示从超像元X指向外部的前N个运动矢量的总数

SPR(A)＝SPR(B)/V(B)+SPR(C)/V(C)+SPR(D)/V(D)

最后，各SPR被换算为一个百分比再乘上系数q，其中q为大于0且小于1的小数。为了避免静止的STSP的SPR会是0，本发明优选地给每个STSP一个最小值1-q：

SPR(A)＝(SPR(B)/V(B)+SPR(C)/V(C)+SPR(D)/V(D)+...)＊q+(1-q)

每个STSP的SPR是由其他STSP的SPR计算得到的。通过重复计算每个STSP的SPR，如果给每个STSP一个随机SPR值(非0)，则这些STSP的SPR值会趋向于稳定。具体来说，可以把STSP的SPR计算问题数学建模成二维矩阵相乘的问题，并且利用类似于PageRank迭代的迭代算法来进行求解。该迭代算法先假定所有STSP的SPR是相同的，并且根据这个初始值，算出各STSP的SPR的第一次迭代值，然后再根据第一次迭代值算出第二次迭代值。现有技术已经从理论上证明了不论初始值如何选取，这种迭代算法都保证了迭代值最终能收敛到真实值。这种迭代算法通常不需要任何的人工干预。

如果以像素作为基本运算单位，上面提到的二维矩阵从理论上讲有像素数目平方之多个元素。如果假定某一视频有十亿个像素，那么这个矩阵就有一百亿个元素。这样大的矩阵相乘，计算量是非常大的。采用STSP而不是像素作为基本运算单位，就可以极大地压缩这个矩阵的大小，压缩比可以达到一百万比一。此外，本发明还优选地利用稀疏矩阵计算的技巧，大大缩减了计算量，并实现了这个STSP的排名算法。本发明还可以通过并行的计算机来执行上述计算，从而进一步缩短计算时间，使每次迭代计算的用时比以往短了许多。

举例来说，在图4中，列出了一段3小时网球比赛视频的SPR相关矩阵。由于把整个视频流当作了一个整体对待，本发明更符合系统论的观点。相比之下，以前的视频信息检索大多把每一帧或者每一个物体当作独立的个体对待，并且/或者只注意内容和查询语句的相关性，而忽略了视频内容内在的联系。

4、关键字提取(附加处理)

关键字提取是本发明的附加处理的一个例子。但是，本发明的附加处理不限于关键字，而是可以和各种模式识别、计算机视觉算法集成。通过应用关键字提取，每个超像元或者超像元组都会产生不同层次的关键字。提取关键字的方法多种多样。举例来说，视频特征如颜色、纹理、形状轮廓、位置、空间关系等；视频内容的识别，比如人脸、车牌、文字；视频内容主体的分类，比如人、车、动物、蓝天等。关键字提取的目的，是为各个超像元赋予准确的文字属性标签，以供搜索引擎使用。

以下说明本发明的有益效果。

针对大规模视频信息检索的需要，本发明从基于低层特征STSP的视频快速索引建立、视频信息排序以及多模态信息融合视频搜索三个方面实现了针对海量视频数据库的搜索引擎。

在基于低层特征的视频检索方面，本发明提出了基于人类视觉选择性注意力的快速视频检索算法，该方法利用时空域超像元这种高效索引结构来组织视频数据库。它包含了基于视觉相似性和时序关系的视频内容片段(而不是视频帧)的相似度度量，并通过基于稀疏矩阵的快速算法，在一定程度上解决了大规模视频数据库的快速高效建立索引的问题。

在多模态信息融合的视频检索方面，本发明设计了一种基于关系代数的多模态信息融合的视频内容实体排序模型(SPR)，该模型充分利用视频包含的运动、图像、语义概念等多模态特征，构造了对应于多个视频特征的排序模块，并创新地使用迭代关系代数表达式对整个视频的索引信息进行排序。实验证明，利用该视频检索模型对视频片段进行检索，能够取得优于基于文本或者像素的多模型视频检索方法的查询结果，特别是对于包含海量数据的多概念综合视频查询更为有效。

本发明提出的视频聚类、排序及检索方法具有如下特点：

(1)突破了以往基于文本表达式检索的局限，直接对视频信息进行分析，抽取特征，并利用这些特征建立索引供检索用。

(2)可从视频提取各种各样的图像特征，例如颜色、纹理、形状轮廓、位置、空间关系等。

(3)在以超像元为最小单位进行检索的过程中，可以采用相似性匹配的方法来逐步求精以获得精确的查询结果。

(4)即使对于内容繁杂、数据海量的多媒体数据库，也能够实现对视频信息的快速检索。

搜索质量对比

搜索引擎的目的是为用户提供高质量、高效率的搜索结果。最重要的衡量标准是返回结果的质量：高相关、低错误率、检索速度快。以下列出本发明的搜索引擎和当前最常用的引擎的搜索结果。

对于本发明，在建立索引图形的时候，将相似度阈值设置为0.2，即，如果两个点的相似度小于0.2，就把他们看作是不连接的。在构造索引图形的时候，最多将N＝100个与节点最相似的点与该节点连接起来。这样的处理可以降低运算量和存储空间。

在第一个例子中，搜集1000个视频广告和电视节目，并且保存所有原来的文字网页。使用关键字“红色吉普车”，利用本发明的搜索引擎进行搜索的搜索结果首页如图5所示，错误率仅为4％(比如右下角红色的轿车)。

作为对比，同样使用关键字“红色吉普车”，利用现有视频搜索引擎进行搜索的搜索结果首页如图6所示，错误率高达18％。产生错误的主要原因是文字标签有误。

在第二个例子中，搜集网球比赛视频，并且保存所有原来的文字网页。搜索条件是“穿蓝色上衣的网球运动员正面击球”，利用本发明的视频搜索引擎进行搜索的搜索结果首页如图7所示，错误率仅为20％。

作为对比，搜索条件同样是“穿蓝色上衣的网球运动员正面击球”，利用现有视频搜索引擎进行搜索的搜索结果首页如图8所示，除了第一个，其余的搜索结果全部为错误的。

可扩展性

除了高质量的搜索结果，另外一个衡量海量视频搜索引擎的标准是搜索引擎的可扩展性。互联网上的视频是日益增长的三维数据。表1示出为了搜索每TB的视频数据，本发明的搜索引擎需要的存储空间。存储空间越小，则搜索引擎的可扩展性越强，越能处理海量数据。

表1 每TB视频数据所需要的索引数据存储量

搜索速度

除了高质量和高扩展性，另一个衡量海量视频搜索引擎的标准是搜索速度。本发明搜索引擎的一次搜索用时基本在0.1秒～3秒之间，如表2所示。如果进一步优化系统以提高速度，则能进一步缩短搜索时间。值得注意的是，对于每个超像元，本发明使用长度大为缩短的特征向量来描述，这在一定程度上也提高了搜索速度。

表2 单机搜索速度

综上所述，本发明的基于选择性注意力视觉特性的视频搜索引擎的优点包括但不限于：(1)能够有效去除无用的像素和背景噪声；(2)能够有效评价视频里面的物体的重要性；(3)能够有效提高检索结果的正确性。

Claims

1.一种视频聚类方法，其特征在于，包括：

聚类步骤，用于针对视频中的每一帧进行聚类，即将相似度高于预定阈值的多个像素聚类到一起以得到超像元，

其中，所述相似度是根据像素的颜色、位置和/或运动特性来计算的。

2.根据权利要求1所述的视频聚类方法，其特征在于，每个像素以N维向量表示，其中N为大于3的整数，该N维向量中的元素包括该像素的颜色、位置和/或运动特性，

并且，所述相似度通过两个N维向量之间的距离来计算。

3.根据权利要求1或2所述的视频聚类方法，其特征在于，

在所述聚类步骤之前还包括预处理步骤，所述预处理步骤用于针对视频中的每一帧，将该帧中具有特定属性的像素聚类到一起以得到像素区域，其中所述特定属性包括像素的颜色和/或灰度，

以及，针对通过所述预处理步骤所产生的每一像素区域进行所述聚类步骤。

4.一种排序方法，用于对通过根据权利要求1～3中任一项所述的视频聚类方法所得到的超像元进行排序，其特征在于，包括：

步骤一：对各超像元赋予初始的排序值，其中，该初始的排序值不等于零；

步骤二：根据各超像元的排序值计算公式，利用各超像元当前的排序值，计算各超像元新的排序值；

步骤三：重复步骤二，直到各超像元的排序值收敛。

5.根据权利要求4所述的排序方法，其特征在于，所述排序值计算公式如下：

{SPR}_{i} = Σ \frac{{SPR}_{j}}{V_{j}}, (i = 1 ~ M, j = 1 ~ M, i &NotEqual; j),

其中，SPR表示超像元的排序值；

V_j表示第j个超像元所指向的其他超像元的数量；

M表示超像元的总数；

如果第j个超像元不指向第i个超像元，则第j个超像元的排序值将不被用来计算第i个超像元的排序值。

6.一种视频搜索方法，其特征在于，包括：

获取步骤，用于搜集视频；

聚类步骤，利用根据权利要求1～3中任一项所述的视频聚类方法，对通过所述获取步骤所搜集到的每个视频进行聚类；

排序步骤，利用根据权利要求4或5所述的排序方法，对通过所述聚类步骤所得到的每个视频的每个超像元进行排序；

关键字提取步骤，用于针对通过所述聚类步骤所得到的每个视频的每个超像元或超像元组，基于该超像元或超像元组的特定特征为该超像元或超像元组赋予文字属性标签，其中，该特定特征包括该超像元或超像元组的视频特征、视频内容识别和/或视频内容主体分类；以及

索引步骤，用于根据所述关键字提取步骤赋予每个视频的每个超像元或超像元组的文字属性标签，针对每个视频建立索引。

7.一种视频聚类装置，其特征在于，包括：

聚类部，用于针对视频中的每一帧进行聚类，即将相似度高于预定阈值的多个像素聚类到一起以得到超像元，

8.根据权利要求7所述的视频聚类装置，其特征在于，每个像素以N维向量表示，其中，N为大于3的整数，该N维向量中的元素包括该像素的颜色、位置和/或运动特性，

并且，所述相似度通过两个N维向量之间的距离来计算。

9.根据权利要求7或8所述的视频聚类装置，其特征在于，还包括预处理部，所述预处理部用于针对视频中的每一帧，将该帧中具有特定属性的像素聚类到一起以得到像素区域，其中，所述特定属性包括像素的颜色和/或灰度，

以及，所述聚类部针对通过所述预处理部所产生的每一像素区域进行聚类。

10.一种排序装置，用于对通过根据权利要求7～9中任一项所述的视频聚类装置所得到的超像元进行排序，其特征在于，包括：

初始化部，用于对各超像元赋予初始的排序值，其中该初始的排序值不等于零；以及

计算部，用于根据各超像元的排序值计算公式，利用各超像元当前的排序值，计算各超像元新的排序值；

其中，所述计算部重复进行所述计算，直到各超像元的排序值收敛为止。

11.根据权利要求10所述的排序装置，其特征在于，所述排序值计算公式如下：

{SPR}_{i} = Σ \frac{{SPR}_{j}}{V_{j}}, (i = 1 ~ M, j = 1 ~ M, i &NotEqual; j),

其中，SPR表示超像元的排序值；

V_j表示第j个超像元所指向的其他超像元的数量；

M表示超像元的总数；

12.一种视频搜索装置，其特征在于，包括：

获取部，用于搜集视频；

根据权利要求7～9中任一项所述的视频聚类装置，用于对通过所述获取部所搜集到的每个视频进行聚类以得到超像元；

根据权利要求10或11所述的排序装置，用于对通过所述视频聚类装置所得到的每个视频的每个超像元进行排序；

关键字提取部，用于针对通过所述视频聚类装置所得到的每个视频的每个超像元或超像元组，基于该超像元或超像元组的特定特征为该超像元或超像元组赋予文字属性标签，其中，该特定特征包括该超像元或超像元组的视频特征、视频内容识别和/或视频内容主体分类；以及

索引部，用于根据所述关键字提取部赋予每个视频的每个超像元或超像元组的文字属性标签，针对每个视频建立索引。