CN104484418B

CN104484418B - 一种基于双分辨率的特征量化方法及系统

Info

Publication number: CN104484418B
Application number: CN201410787600.7A
Authority: CN
Inventors: 周文罡; 孙韶言; 李厚强; 田奇
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2014-12-17
Filing date: 2014-12-17
Publication date: 2017-10-31
Anticipated expiration: 2034-12-17
Also published as: CN104484418A

Abstract

本发明公开了一种基于双分辨率的特征量化方法及系统，相关方法包括：对图像中的局部视觉特征进行降维处理；对降维后的局部视觉特征每一维分别进行量化处理；其中，将每一维局部视觉特征量化处理时的标量量化函数分解为粗分辨率量化函数与细分辨率量化函数；基于粗分辨率量化函数进行级联标量量化，再基于细分辨率量化函数对级联标量量化结果进行细分辨率量化获得对应的位置比特向量。通过采用本发明公开的方法，可以进行高效、可扩展的局部视觉特征匹配，并解决视觉单词码本的训练以及矢量量化中存在的开销与误差问题。

Description

一种基于双分辨率的特征量化方法及系统

技术领域

本发明涉及视觉检索技术领域，尤其涉及一种基于双分辨率的特征量化方法及系统。

背景技术

在图像检索领域，如何可靠而高效地进行图像之间的相似性度量是一个至关重要的问题。现有的技术通常使用局部视觉特征，如SIFT(Scale Invariant FeatureTransform，尺度不变特征转换特征)，作为图像的特征描述，并将局部视觉特征之间的匹配程度作为衡量图像之间相似性的标准。

由于每张图像中都可能存在上千局部视觉特征，穷举比较图像之间局部视觉特征的匹配程度会产生极大的计算开销，同时完整存储所有数据库图像的特征所产生的存储开销也是不可接受的。为了解决这一问题，现有技术通常由大量局部视觉特征训练出视觉单词码本，并将数据库图像中的特征量化到训练得到的码本中，构建倒排索引表，以缩小搜索空间。另外为了保存特征的原始信息，一些算法利用数据压缩方法，如PQ(ProductQuantization，乘积量化)，对原始特征进行压缩表示，或通过二值签名对原始特征进行近似表示以加速特征之间的比较。

然而，上述解决方案仍然存在很多不足。首先，视觉单词码本的离线训练需要大量资源。例如为了为128维的SIFT特征训练有一百万视觉单词的码本，通常需要数千万个训练样本，并在运行时产生大量的内存开销。其次，使用传统的特征矢量量化方法，如k-means聚类及其变种，很难对量化误差进行控制，其产生的聚类大小在特征所处空间的分布差异很大，使得所构建的倒排索引表各表项对特征匹配的精度控制各不相同。

发明内容

本发明的目的是提供一种基于双分辨率的特征量化方法及系统，可以进行高效、可扩展的局部视觉特征匹配，并解决视觉单词码本的训练以及矢量量化中存在的开销与误差问题。

本发明的目的是通过以下技术方案实现的：

一种基于双分辨率的特征量化方法，该方法包括：

对图像中的局部视觉特征进行降维处理；

对降维后的局部视觉特征每一维分别进行量化处理；其中，将每一维局部视觉特征量化处理时的标量量化函数分解为粗分辨率量化函数与细分辨率量化函数，基于粗分辨率量化函数进行级联标量量化，再基于细分辨率量化函数对级联标量量化结果进行细分辨率量化获得对应的位置比特向量。

进一步的，所述对图像中的局部视觉特征进行降维处理包括：

对于给定查询图像中的查询视觉特征其目标视觉特征位于在局部视觉特征空间中以查询视觉特征x为中心的ε邻域内，该ε邻域定义为：

其中，查询视觉特征与目标视觉特征均属于局部视觉特征，且均位于局部视觉特征空间中；目标视觉特征为数据库图像中，与查询视觉特征为近邻的局部视觉特征；

对局部特征向量进行主成分分析PCA降维处理，与分别表示x与y的PCA降维处理后前k维系数，ε邻域近似表达为对应的表达式为：

其中，t为常量。

进一步的，对降维后的局部视觉特征每一维分别进行量化处理的公式为：

式中为第i维系数的标量量化函数，表示上式中的与表示为：其中，s表示标量量化步长，m_i表示第i维系数可能的最小值，令r_i为第i维系数标量量化结果的区间大小。

进一步的，所述将每一维局部视觉特征量化处理时的标量量化函数分解为粗分辨率量化函数与细分辨率量化函数包括：

将第i维系数的标量量化函数分解为粗分辨率量化函数与细分辨率量化函数其中，n为粗分辨率量化步长。

进一步的，该方法还包括：

基于双分辨率的特征量化结果，对图像数据库进行索引和查询，其包括：

基于粗分辨率量化函数的级联标量量化结果，增量式地生成一个k层的树结构，称为索引树，对于索引树的第i层，其最大分支数为r_i；该索引树为非完全树，其大小随着图像数据库增大而增大，索引树的每个叶节点被视作一个哈希字，如果一个哈希字对应图像数据库中的至少一个局部视觉特征，则认为该哈希字有效；根据每个有效哈希字，建立一个链表，该链表中的每一个表项记录包含该哈希字的图像编号；所有有效哈希字对应的链表一起构成了倒排索引表；

将细分辨率量化的位置比特向量进行级联，并保存在倒排索引表中。

一种基于双分辨率的特征量化系统，该系统包括：

降维处理模块，用于对图像中的局部视觉特征进行降维处理；

双分辨率量化处理模块，用于对降维后的局部视觉特征每一维分别进行量化处理；其中，将每一维局部视觉特征量化处理时的标量量化函数分解为粗分辨率量化函数与细分辨率量化函数，基于粗分辨率量化函数进行级联标量量化，再基于细分辨率量化函数对级联标量量化结果进行细分辨率量化获得对应的位置比特向量。

其中，t为常量。

进一步的，该系统还包括：

索引和检索模块，用于基于双分辨率的特征量化结果，对图像数据库进行索引和查询，其包括：

由上述本发明提供的技术方案可以看出，基于双分辨率的视觉特征量化使得索引大规模图像数据库成为可能。一方面，基于粗分辨率量化，可以得到索引的候选数据库视觉特征，能够极大地缩小候选局部特征的搜索范围。另一方面，基于细分辨率量化得到的位置比特向量，对这些相关索引列表中所包含的特征进行快速而准确的特征匹配校验。相比于现有技术，本方案不需要进行视觉单词码本的训练，能够极大地节省数据库索引的开销；所提出的级联标量量化与特征匹配校验方法能够有效地避免矢量量化造成的误差，并能够快速得到匹配校验结果，提高图像检索的精度与速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例一提供一种基于双分辨率的特征量化方法的流程图；

图2为本发明实施例一提供的通过双分辨率的特征量化来减小软量化所需要访问的分支数的示意图；

图3为本发明实施例一提供的粗分辨率与细分辨率量化过程的示意图；

图4为本发明实施例一提供的索引表结构示意图。

图5为本发明实施例二提供的一种基于双分辨率的特征量化系统的示意图；

图6为本发明实施例提供的本发明与现有技术在公开图像检索数据集DupImage上的检索精度比较结果示意图；

图7为本发明实施例提供的本发明与现有技术在公开图像检索数据集Holidays上的检索精度比较结果示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

实施例一

图1为本发明实施例提供一种基于双分辨率的特征量化方法的流程图，在检索中，该量化方法针对数据库图像特征和查询图像特征均进行处理。如图1所示，该方法主要包括如下步骤：

步骤11、对图像中的局部视觉特征进行降维处理。

步骤12、对降维后的局部视觉特征每一维分别进行量化处理；其中，将每一维局部视觉特征量化处理时的标量量化函数分解为粗分辨率量化函数与细分辨率量化函数，基于粗分辨率量化函数进行级联标量量化，再基于细分辨率量化函数对级联标量量化结果进行细分辨率量化获得对应的位置比特向量。

本发明实施例的上述方案不需要进行视觉单词码本的训练，能够极大地节省数据库索引的开销；所提出的级联标量量化与特征匹配校验方法能够有效地避免矢量量化造成的误差，并能够快速得到匹配校验结果，提高图像检索的精度与速度。

为了便于理解，下面结合附图2-4对本发明做进一步的介绍。

在基于局部视觉特征的大规模图像检索中，给定查询图像，对于其中的每个查询视觉特征其目标视觉特征位于在局部视觉特征空间中以查询视觉特征x为中心的ε邻域内，该ε邻域定义为：

其中，查询视觉特征与目标视觉特征均属于局部视觉特征，且均位于局部视觉特征空间中；目标视觉特征为数据库图像中，与查询视觉特征为近邻的局部视觉特征。

由于局部视觉特征维数比较高，为了处理的方便，可以先对局部视觉特征向量进行PCA(主成分分析)降维处理，假设与分别表示x与y的PCA降维处理后前k维系数，ε邻域近似表达为对应的表达式为：

其中，t为常量。

为加快近似近邻查找过程，可对降维后的局部视觉特征每一维分别进行量化处理，其公式为：

式中为第i维系数的标量量化函数，表示上式中的与可表示为：

其中，s表示标量量化步长，m_i表示第i维系数可能的最小值，令r_i为第i维系数标量量化结果的区间大小。

基于上述量化公式，每一级软量化需访问三个量化分支，那么级联k维的软量化最多需要访问3^k个分支，遍历分支的时间开销过大，而且叶节点数目也会过多，无法实现有效索引。为解决该问题，将第i维系数的标量量化函数分解为粗分辨率量化函数与细分辨率量化函数其中，n为粗分辨率量化步长。

通过上述方式则可大大减小软量化所需要访问的分支数，下面结合附图2来进行说明。图2a-图2b为在一维数据上，对不同的查询数据(由黑色箭头表示)需要访问的目标量化分支数不同的两种情况，图中实线表示粗量化的格子，虚线表示细量化的格子。

图2a表示或者的情况，即查询数据被量化到某一个格子的第0个子格子中，其候选范围包括了三个子格子，一个落在左边的格子中，两个落在当前格子中，换言之，此时需要访问两个量化分支。

图2b表示的情况，即查询数据被量化到某一个格子的第1个子格子中，其候选范围所包括的三个子格子全部在当前格子中，换言之，此时仅需要访问一个量化分支。

此外，索引时按粗量化的量化结果生成索引树，基于索引树的叶节点建倒排索引表，其相应的叶节点总数也变得可控。

本发明实施例中，粗分辨率与细分辨率量化的过程可参见图3来说明。

如图3a所示，在粗分辨率量化上，将一维数据区间均匀划分为多个格子，每个格子的区间大小均为W，并被赋值一个标量ID。如图3b所示，对于每个格子，再做进一步细划分，均匀划分为d个子格子；对于每个子格子，用p＝e-1个比特来表达其在当前格子中的位置；具体地说，对于当前格子中的第i个子格子，其位置比特向量表示为：

另一方面，基于粗分辨率量化，可以得到索引的候选数据库视觉特征，还需基于细分辨率量化得到的位置比特向量，对这些相关索引列表中所包含的特征进行校验。假设V_low和V_up分别表示某单个格子中的闭区间的上界和下界所对应的位置比特向量，V_test表示该格子中的一个子格子所对应的位置比特向量。我们希望能够通过简单的逻辑运算即可判定V_test是否在基于V_low和V_up所定义的闭区间中，因此采用如下方案：

计算V_low和V_up逻辑异或的结果T，表示为：

再计算V_low和V_test逻辑异或的结果S，表示为：

再计算T和S的并集，与T逻辑异或的结果R，表示为：

通过判断R的值是否为零，即可判断V_test是否在基于V_low和V_up所定义的闭区间中。以上操作需四次逻辑运算，相对于简单的比较上下限运算而言，并无优势。但是，当级联k维标量量化的位置比特向量时，上述结论仍然成立，仍然只需四次逻辑运算，而简单地比较上下限的方法需2·k次比较运算。当k取较大值时，该方法的计算优势将会凸显。

当基于本发明实施例的方法进行局部视觉特征量化后，则可对大规模的图像数据库进行索引和查询。如图4所示，在离线索引时，基于粗分辨率量化函数的级联标量量化结果，增量式地生成一个k层的树结构，称为索引树，对于索引树的第i层，其最大分支数为r_i；该索引树为非完全树，其大小随着图像数据库增大而增大，索引树的每个叶节点被视作一个哈希字，如果一个哈希字对应图像数据库中的至少一个局部视觉特征，则认为该哈希字有效。基于数据库图像局部视觉特征的量化，我们可以得到所有的有效哈希字。针对每个有效哈希字，我们可以得到包含该哈希字的所有的数据库图像，从而建立一个链表；该链表中的每一个表项记录包含该哈希字的图像编号。每个哈希字均可得到如上链表，所有的链表一起构成了倒排索引表。该倒排索引表可用于在线检索时快速访问相关的数据库图像。

同时，将细分辨率量化的位置比特向量进行级联，并保存在倒排索引表中。

本发明实施例基于双分辨率的视觉特征量化使得索引大规模图像数据库成为可能。一方面，基于粗分辨率量化，可以得到索引的候选数据库视觉特征，能够极大地缩小候选局部特征的搜索范围。另一方面，基于细分辨率量化得到的位置比特向量，对这些相关索引列表中所包含的特征进行快速而准确的特征匹配校验。相比于现有技术，本方案不需要进行视觉单词码本的训练，能够极大地节省数据库索引的开销；所提出的级联标量量化与特征匹配校验方法能够有效地避免矢量量化造成的误差，并能够快速得到匹配校验结果，提高图像检索的精度与速度。

实施例二

图5为本发明实施例二提供的一种基于双分辨率的特征量化系统的示意图。如图5所示，该系统主要包括：

降维处理模块51，用于对图像中的局部视觉特征进行降维处理；

双分辨率量化处理模块52，用于对降维后的局部视觉特征每一维分别进行量化处理；其中，将每一维局部视觉特征量化处理时的标量量化函数分解为粗分辨率量化函数与细分辨率量化函数，基于粗分辨率量化函数进行级联标量量化，再基于细分辨率量化函数对级联标量量化结果进行细分辨率量化获得对应的位置比特向量。

其中，t为常量。

进一步的，该系统还包括：

索引和检索模块53，用于基于双分辨率的特征量化结果，对图像数据库进行索引和查询，其包括：

需要说明的是，上述系统中包含的各个功能模块所实现的功能的具体实现方式在前面的实施例一中已经有详细描述，故在这里不再赘述。

另一方面，为了说明本发明的效果还与现有技术进行了比较。

其中，用来与本发明进行比较的现有技术包括：VVT(Visual Vocabulary Tree，视觉单词树)、HE(Hamming Embedding，汉明嵌入)、SA(Soft Assignment，软分配)、BSIFT(Binary SIFT，二值SIFT)、IVFADC(Inverted File System with the AsymmetricDistance Computation，使用非对称距离计算的倒排文件系统)、RS(Random Seed，随机种子法)、VLAD(Vector of Locally Aggregated Descriptors，局部聚合描述子向量)。

首先，进行了检索精度的比较，图6与图7分别为本发明(CSQ)与现有技术在公开图像检索数据集DupImage和Holidays上的检索精度比较结果，检索精度的衡量指标为mAP(mean Average Precision，平均准确率)。图中分别对测试数据集添加不同数量的干扰图像，以测试比较在不同规模的图像数据库下各种技术的性能。

由图中的曲线可以得出结论，本发明提出的基于双分辨率的特征量化方法在应用于大规模图像检索系统中时，具有明显的检索精度上的优势。在所有被测试的公开数据集中，当数据库规模达到一百万张图像时，本发明均得到了最高的检索精度。

除检索精度外，还将本发明与现有技术进行了三个方面的比较，比较结果如表1所示。

表1本发明与现有技术的比较结果

1)比较技术是否需要训练是觉单词码本。在所比较技术中，仅有BSIFT，RS两种现有技术与本发明所提供的方法不需要训练视觉单词码本，从而极大地节省了建立索引所需要的时间。

2)比较技术索引一百万局部视觉特征所需要的时间。由表1可以看出，本发明仅需24.4秒即可完成对一百万特征的索引，相比于现有技术具有极大的优势。

3)比较技术在一百万图像数据库中检索所需要的平均时间。由表1可以看出，本发明所需平均检索时间和其他现有技术相当，均不足1秒，可以满足实时检索的需求。一些现有技术例如VVT、VLAD在检索时间上比本发明有一定的优势，但综合上述检索精度的比较，可以看出本发明在没有牺牲过多检索时间的代价下，取得了明显的检索精度的提升。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，实施例二中仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于双分辨率的特征量化方法，其特征在于，该方法包括：

对图像中的局部视觉特征进行降维处理；

对降维后的局部视觉特征每一维分别进行量化处理；其中，将每一维局部视觉特征量化处理时的标量量化函数分解为粗分辨率量化函数与细分辨率量化函数，基于粗分辨率量化函数进行级联标量量化，再基于细分辨率量化函数对级联标量量化结果进行细分辨率量化获得对应的位置比特向量；

其中，所述对图像中的局部视觉特征进行降维处理包括：

其中，t为常量。

2.根据权利要求1所述的方法，其特征在于，对降维后的局部视觉特征每一维分别进行量化处理的公式为：

3.根据权利要求2所述的方法，其特征在于，所述将每一维局部视觉特征量化处理时的标量量化函数分解为粗分辨率量化函数与细分辨率量化函数包括：

4.根据权利要求1或2所述的方法，其特征在于，该方法还包括：

5.一种基于双分辨率的特征量化系统，其特征在于，该系统包括：

双分辨率量化处理模块，用于对降维后的局部视觉特征每一维分别进行量化处理；其中，将每一维局部视觉特征量化处理时的标量量化函数分解为粗分辨率量化函数与细分辨率量化函数，基于粗分辨率量化函数进行级联标量量化，再基于细分辨率量化函数对级联标量量化结果进行细分辨率量化获得对应的位置比特向量；

其中，所述对图像中的局部视觉特征进行降维处理包括：

其中，t为常量。

6.根据权利要求5所述的系统，其特征在于，对降维后的局部视觉特征每一维分别进行量化处理的公式为：

7.根据权利要求6所述的系统，其特征在于，所述将每一维局部视觉特征量化处理时的标量量化函数分解为粗分辨率量化函数与细分辨率量化函数包括：

8.根据权利要求5或6所述的系统，其特征在于，该系统还包括：