CN103336795A

CN103336795A - 基于多特征的视频索引方法

Info

Publication number: CN103336795A
Application number: CN2013102319182A
Authority: CN
Inventors: 于俊清; 徐涛; 周玲; 艾列富
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2013-06-09
Filing date: 2013-06-09
Publication date: 2013-10-02
Anticipated expiration: 2033-06-09
Also published as: CN103336795B

Abstract

本发明公开了一种基于多特征的视频索引方法，包括：利用样本图像生成图像的多个特征，包括局部聚合描述符和BOC描述符；根据所述局部聚合描述符和BOC描述符，训练编码本，并构建多特征分层索引；对所构建的多特征分层索引进行查询，获得候选集；根据镜头类型，确定图像的局部聚合描述符和BOC描述符赋予不同的权重，优化候选集排序结果，即可完成视频索引。本发明的方法通过优化图像特征描述符的生成，利用基于多特征的索引结构，将软分配思想与VLAD相结合，结合多特征，将索引划分为不同的特征索引层，优化了局部聚合描述符的生成，提高了局部聚合描述符的识别率，在保证查询速度的情况下，提高了查询准确率。

Description

基于多特征的视频索引方法

技术领域

本发明属于图像检索领域，具体涉及一种视频索引方法。

背景技术

随着互联网与多媒体技术的迅猛发展，网络中充斥着各种各样的多媒体信息。人们对于视频信息检索的需求也变得越来越大。传统的视频检索技术采用基于关键字的检索方式，这种方式主要是根据该视频所在URL、文件名、标签和视频周围的文本等外部信息进行检索或者通过手工视频标注来检索。不可否认，手工标注可以提供快速的视频检索，但是，手工标注耗时费力，且手工标注视频信息难免出现漏洞，掺进了人的主观偏见，于是基于内容的视频检索（CBVR，ContentBased on Video Retrieval）应运而生。基于内容的视频检索系统允许用户输入一张图片，以查找包含具有相同或相似内容的图片的视频。

基于内容的视频检索系统的核心是使用图像的可视特征对图像进行检索。它的实现依赖于两个关键技术：特征提取与索引结构。

选择和提取具有代表性的特征，直接关系到基于内容的视频检索系统的性能。由于要利用低层视觉特征，提取高层语义特征，将之用于检索，实现难度很大，所以现在视频检索主要集中在对低层特征的检索。低层特征根据提取区域不同又可以分为局部特征和全局特征。由于局部特征数目过多，内存占用太大，所以现在一般采用全局特征。常用的全局描述符有BOF（Bag-of-Features）、GIST、VLAD（Vectors of Locally Aggregated Descriptors）等。BOC描述符是由法国自动化研究所在2011年提出一种采用学习方式生成的颜色描述符，BOF是最先使用的聚合描述符，它能提供较高的查询准确率，为基于内容的图像检索开辟了一个新的方向，同时带来了一系列有待解决的新问题，如何聚合一副图像中大量的高维局部特征向量以获得一个最佳的图像聚合向量。由于BOF只统计了局部特征对应的视觉单词的词频信息，因此BOF描述符的辨别能力受到了限制。为了进一步提高BOF的准确率，Jegou提出了VLAD，VLAD描述符是先从图像中提取SIFT描述符，然后聚类，将各个聚类的结果拼接起来形成最终的全局描述符。VLAD描述符对于遮挡、旋转具有较强的稳定性。

索引结构用于对海量高维图像特征数据进行有效的组织和管理，是加快图像检索速度和提高检索准确度的关键因素。近几十年来，研究人员在索引结构方面进行了大量的研究，提出了多种树型索引结构，并在维度较低的特征空间获得较好的检索效果，但是传统的数型索引结构在处理高维数据时会面临“维度灾难”。于是，Indyk等人提出了基于位置敏感哈希的索引结构。这类索引结构在一定程度上缓解了“维度灾难”，但是由于其占用内存空间过大，因此无法满足海量图片的检索需求。为了减少索引结构占用内存空间的大小，基于词袋模型的图像索引结构应运而生。在基于词袋模型的索引结构中，Chen提出的基于残差量化的倒排索引结构能够提供较高的检索性能。残差量化倒排索引结构将特征向量进行分层量化，逐步求精，减小误差，提高了查询的准确率。

虽然基于内容的视频索引领域取得了很大的进步，但是还有许多问题需要克服。从VLAD的生成过程可以看出，局部特征向量到训练好的聚类中的分配采用的是硬分配策略，即每个局部特征向量只能量化到与其最近的一个聚类中，但是实际情况下，即使两个描述符之间的距离非常的近，也有可能被分配到完全不同的聚类中。而且描述符VLAD它只利用了图像的灰度信息，忽略了图像的颜色信息索引结构方面，不能充分的表达图像的内容。多特征有利于提高图像检索准确度，但是残差量化倒排索引结构只是针对单一特征，无法适应基于多特征的图像检索。

发明内容

本发明的目的在于提供一种基于多特征的视频索引方法，其目的在于通过优化图像特征描述符的生成，利用基于多特征的索引结构，从而解决提高视频检索系统的性能的问题。

实现本发明目的所采用的具体技术方案如下：

一种基于多特征的视频索引方法，利用查询图片对视频的关键帧图像进行查询，从而完成视频的检索，其特征在于，该方法包括：

从关键帧图像中选取样本图像，生成多个图像特征，包括局部聚合描述符和BOC描述符；

根据关键帧图像的局部聚合描述符和BOC描述符，训练残差编码本，并构建视频图像的多特征分层索引；

利用查询图片对所构建的多特征分层索引进行查询，获得候选集；

根据镜头类型，确定视频图像的局部聚合描述符和BOC描述符赋予不同的权重，优化候选集排序结果，即可完成视频索引。

本发明采用软分配思想改进局部聚合描述符的生成过程，将其与BOC（bagof color）描述符、镜头类型共同作为图像特征构建多特征分层索引，最后用于多特征分层索引查询和重排序。具体步骤如下：

（1）生成描述符SA-VLAD（Soft Assignment-Vectors of Locally AggregatedDescriptors）

通过训练样本集合，获得包含k个聚类的编码本；然后，根据局部特征向量与k个聚类中心的远近，选取最近的t个聚类中心；最后，根据到t个聚类中心的距离计算隶属度，分配局部特征向量，拼接各个聚类即可获得SA-VLAD向量。

（2）多特征分层索引构建

首先，对训练样本集进行训练，获得残差量化编码本；其次，根据残差编码本，对关键帧的SA-VLAD描述符和BOC描述符进行残差量化，获得残差编码；最后，将关键帧特征插入索引中，即根据SA-VLAD、BOC描述符的残差编码和镜头类型，计算部分距离并将其与编码放入相应的倒排链表中去。

（3）多特征分层索引查询

首先，根据两种描述符的残差编码本，生成距离查找表，用于加速精确距离计算；其次，通过查询图片的BOC描述符和SA-VLAD描述符查找距离最近的w条倒排链表；最后依据镜头类型，将倒排链表中的候选对象取出作为候选集。

（4）候选集重排序

候选集排序过程中，通过镜头类型选取不同的权重配比，采用SA-VLAD和BOC特征的相似度加权和计算最终的图像相似度，并根据图像相似度返回检索结果。在远镜头中，BOC描述符权重较高；在非远镜头中，SA-VLAD描述符权重较高。

本发明在分析视频的特点的基础上，优化了局部聚合描述符的生成，设计了结合非对称距离计算、残差量化编码和倒排索引的索引方法——多特征分层索引，以及基于多特征的候选集查询和排序算法，提高了视频检索系统的性能。具体而言，本发明具有以下优点：

（1）提高描述符的识别率，本发明将软分配思想与VLAD相结合，优化了局部聚合描述符的生成，提高了局部聚合描述符的识别率。

（2）优化查询结果准确率，本发明结合多特征，将索引划分为不同的特征索引层，在保证查询速度的情况下，提高了查询准确率。

附图说明

图1为本发明实施例的SA-VLAD生成流程图。

图2为本发明实施例的多特征分层索引逻辑结构图。

图3为本发明实施例的残差量化器训练过程示意图。

图4为本发明实施例的多特征分层索引构建过程索引。

图5为本发明实施例的残差量化编码过程示意图。

图6为本发明实施例的多特征分层检索过程流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例中的视频优选为足球视频，采用sift特征作为图像的局部特征。本发明实施例主要分为三个部分：训练模块，训练样本图像，生成各种编码本；索引构建模块，提取图像库中图像的特征，将其存入索引结构中去；查询模块，用户提交图片，在索引结构中查找相似图片，并返回结果。本实施例中，数据库图片由互联网上足球视频的关键帧图像构成，查询图片由用户提供。

本发明采用软分配思想改进局部聚合描述符的生成过程，将其与BOC描述符、镜头类型共同作为图像特征构建多特征分层索引，最后用于多特征分层索引查询和重排序。具体地，本实施例的基于多特征的视频索引方法具体包括如下步骤。

（1）生成描述符SA-VLAD

SA-VLAD描述符的生成包括两个子步骤：训练编码本和生成SA-VLAD向量。首先随机选取n张样本图片，从图片中提取sift局部特征，然后训练sift局部特征集合得到k个聚类中心，一般采用kmeans作为训练方法，聚类中心称为码字，码字构成的集合即为编码本。得到编码本后，聚合每幅图像的sift局部特征向量为一个SA-VLAD向量。

如图1，具体步骤如下：

（1.1）从每幅图像中提取出sift特征；

（1.2）初始化SA-VLAD为维度为k*d的零向量sν。其中，k为聚类中心数目，d为图像sift特征向量的维度；

（1.3）针对每个sift特征向量S在所有聚类中心中通过近邻查找得到t个与其距离最近的聚类中心；其中，t为整数，t小于k。

（1.4）使用距离差阈值α过滤距离过大的聚类中心。S与其近邻的各聚类中心距离分别为d_m，1<m≤t，与其最近聚类中心距离为d₁，当且仅当d_m-d₁<α时，第m个近邻聚类中心才参与sift特征分配，其中距离差阈值α可根据实际情况确定，一般通过实验调整选取。

（1.5）分配sift特征。根据sift特征向量与步骤（1.4）筛选得到的近邻聚类中心的欧氏距离，计算隶属权值，并根据隶属权值，将sift特征的一部分放入相应的近邻聚类中去，隶属权值计算方法如下；

μ_{i} (S_{j}) = \frac{{(1 / {| | S_{j} - c_{i} | |}^{2})}^{\frac{1}{(b - 1)}}}{Σ_{h = 1}^{m} {(1 / {| | S_{j} - c_{h} | |}^{2})}^{\frac{1}{(b - 1)}}}, (i = 1,2, . . ., m)

（1.6）一个图像所有sift局部特征向量与其近邻聚类中心的差值的集合即为其SA-VLAD。sν_i为d维度的向量，表示图像的SA-VLAD在第i个聚类中心位置上的差值和，得sν_i为：

{sv}_{i} = Σ \frac{1}{μ_{i} (S)} (S - c_{i})

sν=[sν₁,…,sν_i,…,sν_k]

（2）多特征分层索引构建

该步骤主要是将数据库中的图片运用步骤（1）产生SA-VLAD向量和BOC向量等图像特征，并进行有效的存储，尽可能的时索引更小，查询速度更快更准，包括两个子步骤：训练残差编码本和插入数据库数据。

对原始的基于残差量化编码的倒排索引进行了扩充。将索引结构分为两层，第一层为BOC特征层，第二层为SA-VLAD特征层，在末端节点连接的倒排链表根据镜头类型的不同，分裂为两条链表：远镜头链表和非远镜头链表。索引结构的逻辑示意图如图2所示。

该步骤具体过程如下：

（2.1）训练残差编码本。随机从图像库中选取一定数量的图片作为训练图片，采用步骤（1）的方法生成SA-VLAD样本向量集和BOC样本向量集，将他们作为输入，进行多次k-means聚类，获得残差编码本，即每一次聚类获得的聚类中心。

SA-VALD特征的关键帧图像编码本训练过程如下：首先，提取训练图片的sift特征，形成SA-VLAD向量，将这些向量作为训练SA-VLAD特征的残差编码本样本集合；然后对样本集合进行第一次kmeans训练，获得k个聚类中心，将这k个聚类中心作为第一级子量化器的码书；然后，输入向量减去最近的聚类中心获得量化误差最为第二级子量化器的训练样本。最后，反复执行L次kmeans，获得L级子量化器，将L级子量化器组合，便形成了SA-VLAD特征的残差编码本。

本实施例中以两级残差量化器的训练过程为例对残差编码进行说明，其他级别的残差量化器的训练过程可同样进行。如图3所示，两级残差量化器训练过程为：训练数据集X通过k-means进行聚类，将聚类中心作为第一级量化器Q1存储下来。整个训练对象由第一级量化器进行量化得到ΔX1，即距离最近的聚类中心，其量化误差集剩余向量为E1，然后将E1作为第二级量化器的训练数据集，得到第二级量化器Q2，至此两级残差量化器训练过程结束。

（2.2）插入数据库数据

如图4所示插入数据库数据的过程如下：

（2.2.1）提取数据库图片的BOC向量y_boc、SA-VLAD向量y_sa-vlad和镜头类型。

（2.2.2）对y_boc和y_sa-vlad进行残差量化，分别获取残差编码序列。

y_boc的残差量化过程如下：首先，输入向量y_boc在第一级子量化器中找到最近的聚类中心，将其ID存储下来，量化误差为向量y_boc减去最近聚类中心所得的剩余向量；然后，将第一级量化器产生的量化误差作为第二级子量化器的输入；最后经过L级子量化器量化后，将每级量化的聚类中心ID存储下来，即可获得输入向量Y的残差编码序列

j=1…L_boc，同理获得y_sa-vlad的残差编码序列

j=1…L_sa-vlad。为阐述上述过程，本实施例以两级残差量化器为例，则量化过程如图5所示。

（2.2.3）根据BOC描述向量的残差量化编码计算第一特征层指向的倒排链表的ID，根据SA-VLAD描述符的残差编码计算第二层索引的ID。最后，根据数据库图像的镜头类型，将数据库图像的相关信息存入相应的倒排链表中。

（3）多特征分层检索

该步骤结合非对称距离计算和残差量化近似近邻查询，通过三种特征，层层过滤，不断缩小候选集，从而加速检索速度，提高查询准确率。检索流程如图6所示。

该过程步骤如下：

（3.1）生成查找表。查找表的作用的是加快精确距离计算。这一步主要生成BOC特征索引层和SA-VLAD特征索引层两个查找表。其中BOC特征查找表中记录了查询图片的BOC描述符x_boc与相应的残差编码量化器C^boc之间的点积1≤i≤L_boc,1≤j≤K_boc，相同的，SA-VLAD特征查找表中记录了查询图片的SA-VLAD描述向量x_sa-vlad与对应的残差编码量化器C^sa-vlad之间的点积

1≤i≤L_sa-vlad,1≤j≤K_sa-vlad。

（3.2）根据查询图像的BOC特征，在BOC特征索引层找到距离最近的w_boc个倒排链表。图像的BOC特征向量与倒排链表之间的欧式距离为粗糙距离，该粗糙距离计算公式如下：

d {(x_{boc}, y^{L_{1}^{boc}})}^{2} = {| | x_{boc} | |}^{2} + {| | y^{L_{1}^{boc}} | |}^{2} - 2 Σ_{i = 1}^{L_{1}^{boc}} &lang; x_{boc}, c_{i, j}^{boc} &rang;

由粗糙距离计算公式可知，由于

已经在索引建立阶段计算并存储了下来，

可以在生成的查找表中查到，所以计算粗糙距离时，只需要计算以及将上述各个分量相加减。

为部分距离，即BOC描述符对应部分维上的欧氏距离。

（3.3）根据查询图像的SA-VLAD特征，在SA-VLAD特征索引层找到距离最近的w_sa-vlad个倒排链表。计算过程与BOC特征层类似。

（3.4）根据查询图片的镜头类型选择相应的倒排链表。如果查询图片的镜头类型是远镜头，则将远镜头倒排链表中的元素作为候选集进行精确距离计算，否则将非远镜头倒排链表中的元素作为候选集。

（4）候选集重排序

该步骤主要对步骤（3）查询得到的候选集进行重排序，尽可能地提高用户体验。包括两个子步骤：精确距离计算和相似度计算。利用已经得到的粗糙距离和查找表，加速精确距离的计算。对SA-VLAD描述符和BOC描述符的距离进行加权求和，充分利用多特征包含的信息，重现计算相似度得分，排序候选集合。

该步骤具体如下：

（4.1）精确距离计算。利用已经生成的查找表和前面计算的粗糙距离，分别计算查询图像SA-VLAD描述符与BOC描述符跟数据库图片相应特征的精确距离。

d {(x, y)}^{2} \approx {d {(x, y^{L_{1}})}^{2} | | y^{L} | |}^{2} + {| | y^{L_{1}} | |}^{2} - 2 Σ_{i = L_{1} - 1}^{L} &lang; x, c_{i, j} &rang;

由于两种描述符的粗糙距离

已经在检索候选集合时计算过了，并且在建立索引的时候计算并存储在倒排链表中，<x,c_i,j>计算并存储在查找表中，所以计算精确距离时，只需要执行L-L1+2次查表操作和L-L1+2加法运算。

（4.2）根据距离和镜头类型计算相似度得分并排序。由于远镜头和非远镜头图像的相差较大，所以BOC描述符的权重w_boc和SA-VLAD描述符的权重w_sa-vlad会依据镜头类型的不同而不同，可根据实际情况具体确定。相似度得分计算公式如下：

S (x, y) = 1 / (w_{boc} d_{boc}^{2} + w_{sa - vlad} d_{sa - vlad}^{2} + 1)

其中

为查询图像BOC描述符与数据库图片之间的距离，

为查询图像SA-VLAD描述符与数据库图片之间的距离。其中相似度得分越大说明其两幅图像越相似。

Claims

1.一种基于多特征的视频索引方法，通过查询图片对视频的关键帧图像进行查询，从而完成对视频的检索，其特征在于，该方法包括：

从关键帧图像中选取样本图像，生成图像特征，包括局部聚合描述符和BOC描述符；

根据视频图像的局部聚合描述符和BOC描述符的权重，优化候选集排序结果，即可完成视频索引。

2.根据权利要求1所述的一种基于多特征的视频索引方法，其特征在于，所述的生成局部聚合描述符的具体过程为：

首先，提取样本图像的局部特征向量，并进行聚合，得到多个聚类中心；

其次，根据所述局部特征向量到各聚类中心的距离，获得分配权重，将局部特征向量分配到相应的聚类中心；

最后，确定所述局部特征向量与其对应的聚类中心的差值，该差值的集合即为所述局部聚合描述符。

3.根据权利要求2所述的一种基于多特征的视频索引方法，其特征在于，所述分配权重的公式如下：

μ_{i} (S_{j}) = \frac{{(1 / {| | S_{j} - c_{i} | |}^{2})}^{\frac{1}{(b - 1)}}}{Σ_{h = 1}^{m} {(1 / {| | S_{j} - c_{h} | |}^{2})}^{\frac{1}{(b - 1)}}},

式中，k是聚类的数目，c_i是第i个聚类中心，S_j是n个局部特征向量中的第j个，μ_i(S_j)是特征向量S_j对于第i个聚类中心的权重，b为常数，b>1，i=1,2,…,m，j=1,2,…,n。

4.根据权利要求1-3中任一项所述的一种基于多特征的视频索引方法，其特征在于，所述构建视频图像的多特征分层索引的具体过程如下：

首先，对样本图像进行训练，获得残差编码本；

其次，根据所述残差编码本，对视频关键帧图像的局部聚合描述符和BOC描述符进行残差量化，分别获得关键帧图像的局部聚合描述符残差编码和BOC描述符残差编码；

最后，将所述BOC描述符残差编码和局部聚合描述符残差编码分别作为第一层索引和第二层索引，并根据镜头类型获得各层索引所对应的倒排链表，即可得到多特征分层索引。

5.根据权利要求4所述的一种基于多特征的视频索引方法，其特征在于，所述获得残差编码本具体为：

生成图像的局部聚合描述符样本向量集和BOC描述符样本向量集，将其分别作为输入，进行多次聚类，得到每一次聚类的聚类中心，即为残差编码本。

6.根据权利要求4或5所述的一种基于多特征的视频索引方法，其特征在于，所述获得残差编码具体为：

对输入向量Y进行聚类，将聚类中心作为第一级残差编码量化器，通过该第一级残差编码量化器残差得到近似向量ΔY₁和量化误差E₁，对该量化误差E₁进行聚类，将聚类中心作为第二级残差编码量化器，通过该第二级残差编码量化器残差得到近似向量ΔY₂和量化误差E₂，依次进行，经过多级残差编码量化器量化后，得到每级量化的聚类中心，即可获得输入向量Y的残差编码；其中，所述输入向量Y指局部聚合描述符或BOC描述符。

7.根据权利要求1-6中任一项所述的一种基于多特征的视频索引方法，其特征在于，所述查询的具体步骤如下：

首先，查找多特征分层索引中最近的若干条倒排链表；

然后，依据镜头类型，将相应的倒排链表中的候选对象取出作为候选集。

8.根据权利要求7所述的一种基于多特征的视频索引方法，其特征在于，所述查找过程具体为：

根据查询图像的BOC描述符，在BOC特征索引层找到距离最近的多个倒排链表

根据查询图像的局部聚合描述符，在局部聚合描述符的特征索引层找到距离最近的多个倒排链表；

根据查询图片的镜头类型选择相应的倒排链表，即可完成查找。

9.根据权利要求8所述的一种基于多特征的视频索引方法，其特征在于，其中，所述距离通过如下公式计算：

{d {(x, y^{L_{1}})}^{2} = | | x | |}^{2} + {| | y^{L_{1}} | |}^{2} - 2 Σ_{i = 1}^{L_{1}} &lang; x, c_{i, j} &rang;

其中L₁为索引的层数，<x,c_i,j>为各级残差编码量化器的聚类中心与查询描述符的点积，其中x表示局部聚合描述符或BOC描述符，c_i,j表示第i级残差编码量化器的第j个聚类中心，

为部分距离，即描述符对应部分维上的欧氏距离。

10.根据权利要求9所述的一种基于多特征的视频索引方法，其特征在于，所述镜头类型包括远镜头和近镜头，所述根据镜头类型选取候选集的具体过程为：

如果镜头类型为远镜头，则将远镜头倒排链表分支的视频图像作为候选集合；如果镜头类型为非远镜头，则将非远镜头倒排链表分支的视频图像作为候选集合。

11.根据权利要求1-10中任一项所述的一种基于多特征的视频索引方法，其特征在于，所述优化候选集排序结果具体公式如下：

S (x, y) = 1 / (w_{boc} d_{boc}^{2} + w_{sa - vlad} d_{sa - vlad}^{2} + 1)

其中，为查询图像的BOC描述符与视频图像之间的距离，

为查询图像局部聚合描述符与视频图像之间的距离，w_boc为BOC描述符的权重，w_sa-vlad为局部聚合描述符的权重。