CN105183845A

CN105183845A - 一种结合语义特征的ervq图片索引与检索方法

Info

Publication number: CN105183845A
Application number: CN201510562949.5A
Authority: CN
Inventors: 于俊清; 吴玲生; 何云峰; 管涛; 唐九飞
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2015-09-06
Filing date: 2015-09-06
Publication date: 2015-12-23
Anticipated expiration: 2035-09-06
Also published as: CN105183845B

Abstract

本发明公开了一种结合语义特征的ERVQ索引，包括以下步骤：准备训练索引的图片集P1和待索引图片集P2，对P1提取低层特征(SIFT、SURF等)，使用残差量化索引(RVQ)训练方法训练得到一个L层的RVQ码书Codebook1，使用ERVQ优化方法调整Codebook1生成码书Codebook2，将码书Codebook2多层质心一一组合构建索引字典，将索引字典每个索引项上根据语义划分成多个倒排链表结构，对P2提取低层特征和语义特征，根据低层特征找到索引项，根据语义特征插入到对应的倒排链表中，查找过程为：对查询图片提取低层特征和语义特征，根据低层特征找到索引项，根据语义找到索引项上倒排链表，最后对返回的多条链表图片排序。本发明的索引结构能够提高基于内容的图片查询结果的精度，并有效减少查询时间。

Description

一种结合语义特征的ERVQ图片索引与检索方法

技术领域

本发明属于计算机视觉、多媒体索引领域，更具体地，涉及一种结合语义特征的ERVQ图片索引与检索方法。

背景技术

基于内容的图片搜索是当今研究的热点之一，由于互联网上图片数目庞大，要实现快速图片检索，就必须要构建一个高效的索引结构。图片索引的第一步是提取描述特征，图片的描述特征维度通常很高(如尺度不变特征变换(Scale-invariantfeaturetransform，SIFT)特征有128维)，要在如此高维度上建立高效索引成为很大挑战。

图像索引结构目前主要有三个类别：树型结构索引、哈希索引和基于视觉单词的倒排索引。树形结构索引当向量维度过高时会面临“维度灾难”，并且占用很大内存空间，索引效率下降。哈希索引难以确定合适的哈希函数使其使用范围受限。基于倒排链表的增强型残差量化索引ERVQ由于其索引效率高、占用内存少的优点正逐步受到学者重视。

积量化(ProductQuantization,PQ)索引将一个描述向量划分为几个子向量，并对这些子向量独立编码，在子向量特征空间使用K-means方法训练量化器。当使用k位量化器时，可以表示2^k个质心。假设一个描述向量被划分为m个子向量，每个子向量被相应的量化器量化，量化器查找每个子向量最近的质心并使用该质心的编码来描述该子向量，然后将m个子向量的编码合并来表示原始描述向量(km位)。与直接把原始向量描述量化相比，PQ使用了更少的质心，因此减少了内存使用量。基于积量化的最近邻搜索方法对高维向量数据库的压缩和检索效率都非常高，但是当处理非结构化向量时正确率受到向量拆分方式的限制。残差量化(ResidualVectorQuantization,RVQ)索引结构直接使用量化器的前L层作为索引的粗量化。如果每一层量化为k个质心，那么就会产生k^L个倒排链表。这一过程比PQ更高效，使用量化器的前L层给描述向量编码，描述向量的id和RVQ编码插入到对应的倒排链表中。给定一个查询向量，通过计算其前L层的RVQ编码来找到候选集，然后与PQ类似，使用非对称距离计算来快速计算剩余向量与候选集的精确距离，最后根据距离大小排序。与构建RVQ索引类似，BabenkoArtem等提出一种倒排多索引结构，这种索引结构是基于PQ的多维表结构。相比PQ索引，RVQ对数据的结构性没有要求，能在非结构化数据上仍然取得不错的检索结果，并且其搜索过程更快速高效。AiLiefu等对RVQ码书的训练过程进行迭代优化，提出了增强型残差量化(EnhancedResidualVectorQuantization,ERVQ)索引，减少了索引向量的量化误差，使得索引结果更加精确。

由于“语义鸿沟”的存在，目前的索引都是基于图片低层特征(SIFT、SURF(SpeededUpRobustFeatures,加速稳健特征)和颜色特征等)，未考虑语义特征，导致索引检索结果不太理想。当用户输入左半场球场图片检索时，结果可能是中场或者右半场结果。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种结合语义特征的ERVQ索引结构与索引检索算法，旨在解决现有方法中存在的检索结果不准确的问题。

为实现上述目的，本发明提供了一种结合语义特征的ERVQ索引结构与索引检索算法，包括以下步骤：

(1)准备训练索引的图片集P1，待索引图片集P2，训练图片数量越多越好；

(2)对训练图片集P1提取低层特征(SIFT、SURF等)，得到特征向量集F；

(3)使用残差量化索引(RVQ)训练方法训练F得到一个L层的RVQ码书Codebook1，具体包括以下子步骤：

(3-1)使用K-means算法对F聚类，聚成K个类别，对应的聚类中心为C_i；

(3-2)把F减去每个向量对应的聚类中心，得到残差E_i，F＝E_i；

(3-3)重复步骤(3-1)至(3-2)L次，记录每一层的聚类中心C_i得到一个L层的码书Codebook1；

(4)使用ERVQ条件联合优化方法调整Codebook1，得到优化后的码书Codebook2；

(5)将码书Codebook2多层质心一一组合构成索引字典；

(6)将索引字典每个索引项上根据语义划分成多个倒排链表结构；

(7)对待索引图片提取低层特征和语义特征，根据低层特征找到索引节点，根据语义特征插入到对应的倒排链表中，具体包括以下子步骤：

(7-1)将待索引图片提取低层特征F_L和语义特征F_S；

(7-2)F_L使用基于下限的查找方法快速找到最近的索引项；

(7-3)根据F_S值将图片ID插入到索引项的对应链表；

(8)检索过程包括以下子步骤：

(8-1)将查询图片提取低层特征F_L和语义特征F_S；

(8-2)F_L使用基于下限的查找方法快速找到最近的索引项；

(8-3)根据F_S值将索引项的对应链表上的图片返回作为结果候选集；

(8-4)对候选集图片进行排序筛选，返回前K个结果；

步骤(1)中，训练集P1和待索引集P2可以采用同一个数据集，P1图片数越多，种类越丰富，训练结果越好。

步骤(4)使用ERVQ条件联合优化方法调整Codebook1，与步骤(7-2)中的基于下限的快速查找方法参照论文EfficientApproximateNearestNeighborSearchbyOptimizedResidualVectorQuantization中的方法。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下的有益效果：

1、检索结果准确：由于采用了步骤(6)和步骤(7)，索引中加入了语义信息，只有与索引中语义信息相同的图片才返回作为检索结果，使得结果更精确，在用户搜索左半场图片时返回的结果都为左半场图片，提升了用户的搜索体验；

2、检索时间更快：由于采用了步骤(6)和步骤(8)，查询只返回与查询图片相同语义的结果，大大减小了候选集规模，使得排序处理时间更快，减少了查询所用的时间。

附图说明

图1(a)为本发明中两层残差量化训练过程示意图；

图1(b)为本发明中编码过程示意图；

图2为本发明设计的由ERVQ码书构建索引字典流程图；

图3为本发明设计的索引语义倒排链表示意图；

图4为本发明将待索引图片插入到索引中示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

(1)准备用于训练索引的图片集P1，待索引图片集P2，训练图片数量越多越好；具体而言，训练集P1用于训练码书，P1量越多，种类越丰富将使得训练结果更好。

(2)对训练图片集P1提取低层特征(如SIFT、SURF和颜色特征等)，得到特征向量集F；用于训练码书的特征通常只使用一种，SIFT有较好的尺度不变性，SURF有较好的鲁棒性，提取速度更快维度相对SIFT更低。

(3)使用残差量化索引(RVQ)训练方法训练F得到一个L层的RVQ码书Codebook1；

具体包括以下子步骤：

(3-2)把F减去每个向量对应的聚类中心，得到残差E_i，再令F＝E_i；

下面详细介绍残差量化：

残差量化的目的是压缩特征编码，SURF特征是64维的向量，通过残差量化编码，SURF特征可以压缩成只用量化的层数来表示(用于索引的层数通常小于4层)，大大减小了存储空间。残差量化包括残差量化器训练过程和残差量化编码过程，如图1所示为两级残差量化的训练和编码过程。

本方案使用残差量化的训练过程主要是为了获得量化器，将训练图片提取的特征向量集F(式中表示为x)，使用Kmeans算法将F聚成K个类别，然后将所有聚类中心存储下来作为第一层的码书C₁，第一层的量化结果集记为再将向量集X中每个向量减去该向量所在的聚类中心向量得到第一层的向量的残差E₁。第一层的残差E₁作为第二层量化器的输入，对E₁进行Kmeans聚类得到第二层码书C₂，量化结果集为由于该量化器只有两层，量化到此结束。如果有更多层量化器，那么后面每一层量化器的输入都是前一层的残差。最后存储整个量化器的码书C(C₁，C₂，…，C_L)作为训练量化器结果。因此对于一个向量x，经过量化器量化有如下关系：

\begin{matrix} x = {\tilde{x}}_{1} + E_{1} = {\tilde{x}}_{1} + {\tilde{x}}_{2} + E_{2} = {\tilde{x}}_{1} + {\tilde{x}}_{2} + ... + {\tilde{x}}_{L} + E_{L} = Σ_{i = 1}^{L} {\tilde{x}}_{i} + E_{L} \\ x = Σ_{i = 1}^{L} {\tilde{x}}_{i} + E_{L} \approx Σ_{i = 1}^{L} {\tilde{x}}_{i} \end{matrix}

经过多层量化以后，E_L已经很小可以被直接丢弃，一个原始向量x可以由一个L层的量化器来近似表示。向量x量化编码过程如图1所示，从量化器第一层开始，找到距离码书最近的质心，记下该质心编号C_1,i，计算x与C_1,i的残差E₁，再用E₁找第二层码书最近质心C_2,k……，最后原始向量可用编码[C_1,i,C_2,k,…,C_L,m]表示。可用看到，对原始向量的编码是有损编码，其量化误差为最后一层量化器丢掉的残差E_L。假设有n个向量的数据集X＝{x₁,x₂,…,x_n}，衡量其平均量化误差的平均平方差(MeanSquaredError，MSE)公式为：

M S E = E [d {(x_{i}, {\tilde{x}}_{i})}^{2}] = E | | x_{i} - {\tilde{x}}_{i} | |^{2} = \frac{1}{n} Σ_{i = 1}^{n} Σ_{j = 1}^{d} | | x_{i, j} - {\tilde{x}}_{i, j} | |^{2}

上式中的为x_i的L层量化结果求和，d为向量的维度，通过此公式可以评价一个量化器量化结果的好坏。

(4)使用ERVQ条件联合优化方法调整Codebook1，得到优化后的码书Codebook2；ERVQ的核心思想是把量化器丢掉的最后一层的残差E_L加入进来调整现有的码书，每调整完一次计算MSE(MeanSquaredError，平均平方差)值，当MSE值不再减小或者调整次数达到了预设的最大次数便结束调整。本方案的调整过程为：从码书Codebook1的第一层开始，到最后一层结束，在调整到当前层时把其它层作为已知层，用训练向量的特征向量集F减去其它所有层的量化结果得到X’，X’根据上一次在当前层的聚类结果，将聚类到聚类中心i的所有向量X_i’计算平均值更新该聚类中心，更新完当前层所有聚类中心之后，重新量化训练集F，然后继续调整下一层。调整完毕之后得到ERVQ码书Codebook2。

本步骤的优点是：通过调整码书，提高了码书残差量化的量化精度，有效减少了量化误差。实验表明，调整后的L层的ERVQ量化精度相当于L+1层的RVQ精度。

(5)将码书Codebook2多层质心一一组合构成索引字典；

ERVQ多维索引结构包括索引字典和倒排链表组成，索引字典由码书的前M层构成。假设码书每一层有K个聚类中心，当取M＝1时，索引字典有K个索引项(单词)，每个索引项后面挂一个倒排链表，那么由这个索引字典把数据划分成K个类别；当取M＝2时，两层码书聚类中心一一组合可以有K²种组合方式，那么就有K²个索引项，K²个倒排链表。可见M层码书可以构成K^M个索引项的索引结构，索引项的个数随着所使用的码书层数成指数增长，因此在实际图片索引中，为了合理控制索引的大小，M的取值不宜过大。

视频索引的基本单位为视频关键帧图片，索引查找的输入是图片，输出是相近的图片ID。本发明采用SURF特征构建ERVQ索引字典，由ERVQ码书Codebook2生成索引字典流程如图2所示。

与传统ERVQ索引不同的是，视频索引只需要训练M层用于构建索引的码书，后面不需要保留残差。流程图2最后一步由ERVQ码书生成索引字典，索引字典中保存的是各个索引项ID，假设生成的ERVQ码书有M层，每一层有K个聚类中心，那么索引字典索引项个数为K^M，索引项ID范围为0～K^M-1。索引字典的作用其实是把多层的ERVQ码书简化成了一个一维的数组结构，方便了存取与查找操作，在实现中ERVQ码书与索引字典分开存储，一个SURF特征过来先由码书计算该特征对应的索引项ID，然后把该特征插入到对应索引项倒排链表中。由ERVQ码书计算编码x(C_x,1,C_x,2,…,C_x,M)的索引项ID的公式如下：

{ID}_{x} = Σ_{i = 1}^{M} (C_{x, i} - 1) * K^{M - i}

上式中的M为ERVQ码书层数，K为每一层码书聚类中心个数，C_x,i为x在第i层的编码。假设M＝3，K＝5，那么图2中第二列的三个聚类中心对应的索引项的ID为(2-1)*5^3-1+(2-1)*5^2-1+(2-1)*5^1-1＝31。事实上，由于ERVQ码书生成后索引字典长度固定不变，因此可以把整个索引字典顺序存储在内存数组中，这样可以用ID随机访问索引项，在32位系统中，每个索引项只需要存储一个4字节的指向倒排链表的指针。

本步骤的优点是，设计索引字典生成方法，设计的公式计算码书到索引项ID计算方法可以加快查找索引项的速度。

(6)将索引字典每个索引项根据语义划分成多个倒排链表结构；

倒排链表是挂接在索引字典索引项上的链表结构，实现上这个链表结构既可以用连续存储的数组也可以用不连续存储的单链表实现。一个索引项就是对应的一个更小范围的聚类，聚类中心就是该索引项对应的码书序列，同一索引项上的链表数据是有着某些相同或相近特征的向量集合。通过倒排链表，查询时只需要与一部分数据比较，加快了查询速度。

图3展示了包含有镜头类型和球场区域类型语义信息的倒排链表结构，倒排链表根据语义被划分成了6个子链表，形成一个树形结构。首先根据镜头类型把链表划分成远镜头、中镜头和近镜头三种类型，远镜头图片又进一步根据球场区域类型划分成了左半场、中场和右半场类型。

本步骤的优点是，通过语义划分索引项倒排链表，减少了返回结果集的倒排链表大小，处理时间减小，加快了查询速度。此外，倒排链表的每一项只需要存储图片id，不需要存储原始ERVQ链表的剩余层编码，减少了存储空间需求。

(7)对待索引图片提取低层特征和语义特征，根据低层特征找到索引节点，根据语义特征插入到对应的倒排链表中；

(7-1)将待索引图片提取低层特征F_L和语义特征F_S；

(7-2)F_L使用基于下限的查找方法快速找到最近的索引项；

(7-3)根据F_S值将图片ID插入到索引项的对应链表；

索引的建立过程就是把视频图片一幅一幅插入到索引中的过程，图片插入到索引之后便能提供检索服务。建立索引的具体过程如图4所示，假设输入的要加入到索引的图片id是99，首先计算其SURF特征，镜头类型和球场区域特征，计算下来可能得到多个SURF特征向量，这里假设只有两个SURF特征向量；然后对得到的SURF特征用训练得到ERVQ码书进行编码，将编码结果用步骤(5)中的索引项计算公式计算索引项ID(图中假设这两个特征计算得到了两个不同的索引项)；那么最后一步插入到对应的倒排链表中，图中镜头类型为远镜头，球场区域类型为左半场，根据索引项ID定位到左半场子倒排链表，先扫描看图片id是否已存在，若不存在则把这个图片id插入到链表中。通过示例可以看到，一张图片的所有SURF特征有多少种不同编码，对应于多少不同的索引项，那么这幅图片的id就会在索引中重现多少次。

本步骤的优点是，通过基于下限查找最近聚类中心，加快了查找速度；通过语义分割倒排链表，有效减少了每条链表长度。

(8)输入查询图片，在索引中检索结果；

检索过程具体包括以下子步骤：

(8-1)将查询图片提取低层特征F_L和语义特征F_S；

(8-2)F_L使用基于下限的查找方法快速找到最近的索引项；

(8-4)对候选集图片进行排序筛选，返回前K个结果；

检索过程与索引建立过程类似，参照图4，先找到与查询图片相近的索引项，根据语义信息取出相同语义的倒排链表，最后通过排序算法返回最相近的前K个结果。

本步骤的优点是，通过基于下限查找最近聚类中心，加快了查找速度；只返回语义相同的倒排链表，有效减少了候选集大小，节省了后面排序的时间消耗。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合语义特征的ERVQ索引与检索方法，其特征在于，包括以下步骤：

(1)准备用于训练索引的图片集P1，以及待索引图片集P2；

(2)对图片集P1提取低层特征，得到特征向量集F；

(3)使用残差量化索引训练方法训练特征向量集F得到一个L层的RVQ码书Codebook1；

(5)将码书Codebook2多层质心一一组合构成索引字典；

(7)对待索引图片集P2中的每个图片提取低层特征和语义特征，根据低层特征找到索引节点，根据语义特征将图片ID插入到对应的倒排链表中；

(8)将查询图片提取低层特征和语义特征，根据低层特征找到索引节点，根据语义特征找到对应的倒排链表，对链表图片排序返回结果。

2.根据权利要求1所述的结合语义特征的ERVQ索引与检索方法，其特征在于，所述步骤(3)具体包括以下子步骤：

(3-2)把F减去每个向量对应的聚类中心，得到残差E_i，令F＝E_i；

(3-3)重复步骤(3-1)至(3-2)L次，记录每一层的聚类中心C_i得到一个L层的码书Codebook1。

3.根据权利要求1或2所述的结合语义特征的ERVQ索引与检索方法，其特征在于，步骤(4)包括以下子步骤：

(4-1)从码书Codebook1的第一层开始，在调整到当前层时把其它层作为已知层，将特征向量集F作为输入向量集减去其它所有层的量化结果得到X’；

(4-2)X’根据上一次在当前层的聚类结果，将聚类到聚类中心i的所有向量计算平均值更新该聚类中心；

(4-3)重新量化输入向量集X，然后继续调整下一层；

(4-4)重复步骤(4-1)-(4-3)，每调整完一次计算量化后的向量集和原始特征向量集F的MSE值，当MSE值不再减小或者调整次数达到了预设的最大次数便结束调整；

(4-5)保存聚类中心结果为码书Coodebook2。

4.根据权利要求1或2所述的结合语义特征的ERVQ索引与检索方法，其特征在于，步骤(5)中由各层码书聚类中心编码到索引项ID计算公式如下：

{ID}_{x} = Σ_{i = 1}^{M} (C_{x, i} - 1) * K^{M - i}

上式中的M为ERVQ码书层数，K为每一层码书聚类中心个数，C_x,i为向量x(x∈F)在第i层码书Codebook2中的编码。

5.根据权利要求1或2所述的结合语义特征的ERVQ索引与检索方法，其特征在于，步骤(6)中索引项根据语义特征分割成多个倒排链表，链表只保存图片的ID，不存储其它层量化编码信息。

6.根据权利要求1或2所述的结合语义特征的ERVQ索引与检索方法，其特征在于，所述步骤(7)具体包括以下子步骤：

(7-1)将待索引图片提取低层特征F_L和语义特征F_S；

(7-2)F_L使用基于下限的查找方法快速找到最近的索引项；

(7-3)根据F_S值将图片ID插入到索引项的对应链表。

7.根据权利要求1或2所述的结合语义特征的ERVQ索引与检索方法，其特征在于，步骤(7)中查找码书中每一层最近质心采用基于下限的最近邻查找方法，加快查找速度。

8.根据权利要求1或2所述的结合语义特征的ERVQ索引与检索方法，其特征在于，所述步骤(8)具体包括以下子步骤：

(8-1)将查询图片提取低层特征F_L和语义特征F_S；

(8-2)对F_L使用基于下限的查找方法快速找到最近的索引项；

(8-4)对候选集图片进行排序筛选，返回前K个结果。

9.根据权利要求1或2所述的结合语义特征的ERVQ索引与检索方法，其特征在于，所述步骤(2)中的低层特征为SIFT或SURF特征。

10.根据权利要求1或2所述的结合语义特征的ERVQ索引与检索方法，其特征在于，所述步骤(1)中训练集图片P1数量越多、种类越丰富则构建的索引效果越好。