CN112241475B

CN112241475B - 基于维度分析量化器哈希学习的数据检索方法

Info

Publication number: CN112241475B
Application number: CN202011107446.6A
Authority: CN
Inventors: 曹媛; 陈娜; 桂杰; 许晓伟
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2022-04-26
Anticipated expiration: 2040-10-16
Also published as: CN112241475A

Abstract

一种基于维度分析量化器哈希学习的数据检索方法，该方法包括：获取待分析数据，提取相应特征向量；基于哈希算法对得到的特征向量进行投影；对得到的投影维度进行重要性分析，选取更具信息性的子集；使用量化器将选定的更具信息性的子集划分为几个区域，每个区域都使用对应代码本进行量化；通过得到量化结果实现数据检索，输出。利用本发明进行数据搜索的精度更高，本发明提供的DAQ方法在各个方面的性能与其他量化方法相比都更为优越。

Description

基于维度分析量化器哈希学习的数据检索方法

技术领域

本发明涉及一种数据检索方法，属于深度学习和数据分析技术领域。

背景技术

近些年大数据时代迅速的兴起，近似最近邻搜索成了许多应用程序(例如大规模图像检索)中的基本问题，关于近似最近邻搜索问题，早期研究集中于使用空间分区和递归超平面分解来构建新的数据结构，其中包括k-d树，度量树，覆盖树以及其他相关结构。但是，在处理高维数据时，这些基于树的方法的时间性能下降为线性扫描。近几年的研究工作主要集中在学习哈希码以进行有效的相似度搜索。

随着深度学习的飞速发展，已经提出了许多深度哈希方法。Xia等人提出了卷积神经网络哈希(CNNH)，首先从成对相似性矩阵分解中学习近似哈希码，然后利用原始图像像素同时学习图像特征和哈希函数。Jiang等人提出了深度成对监督散列(DPSH)，利用成对标签为应用程序执行同时特征学习和哈希码学习；Jiang等人还提出了深度离散监督哈希算法(DDSH)，它可以利用成对监督信息直接指导离散编码过程和深度特征学习过程，从而增强这两个重要过程之间的反馈。

大多数哈希方法都使用SBQ生成哈希码，并通过汉明距离评估两个哈希码之间的相似性。但是，SBQ的一个问题是阈值通常位于最高点密度的区域，因此许多接近阈值的邻近点将被量化为完全不同的哈希码，这依据哈希原理是不合理的。因此，Liu等人提出了一种层次哈希算法(HH)，通过使用三个阈值将投影维度的前一半全部划分为四个区域，并用两个哈希位对每个区域进行量化，来解决该问题。然而，最远区域中的两点之间的汉明距离与附近区域中的两点之间的汉明距离相同(例如，{00,01,11,10})，这显然是不合理的。Liu等人提出了一种新颖的量化策略，称为双比特量化(DBQ)，以有效地保留数据之间的相邻结构。DBQ的基本思想是将所有前半部分投影维划分为三个具有两个自适应学习阈值的区域，并使用双哈希位(例如{01,00,10})对每个区域进行量化。DBQ是解决SBQ和HH里问题的好方法，而且性能明显优于它们。为了进一步提高搜索准确性，有人提出了曼哈顿哈希(MH)来用自然二进制代码(NBC)的多个位(例如{0,1,2,3})对所有第一个多个投影维进行量化，通过计算两个哈希码之间的曼哈顿距离进行相似性搜索。由于MH可以有效保留数据之间的邻域结构，因此MH的性能明显优于SBQ，HH和DBQ。

但是，上述方法忽略了由投影数据提供的原始数据，无法充分学习携带更多信息的实值代表值，且忽略了投影数据的分布，只是通过样本均来近似的表示特征，难以实现高精度的搜索。

发明内容

本发明的目的是提供一种基于维度分析量化器哈希学习的数据检索方法，以弥补现有技术的不足。

由于损失函数的复杂优化问题难以解决，因此大多数哈希方法将哈希码学习问题分解为两个步骤：投影和量化。在量化步骤中，二进制代码被广泛使用，因为按汉明距离进行排序非常高效；但是，在需要高搜索精度的应用(例如图像检索)中，应减少量化步骤产生的大量信息丢失。由于许多两步哈希方法在投影步骤中会产生不均匀的投影维度。然而现有的量化算法中一部分根本没有考虑投影数据的分布情况，另一部分认为第一个投影维度更重要但是并没有提供详细的重要性分析，因而现有的量化算法并没有很好的利用投影维度里的有效信息。

基于此，本发明采取的具体技术方案如下：

一种基于维度分析量化器哈希学习的数据检索方法，该方法包括以下步骤：

S1：获取待分析数据，提取相应特征向量；

S2：基于哈希算法对S1得到的特征向量进行投影；

S3：对S2得到的投影维度进行重要性分析，选取更具信息性的子集；

S4：使用量化器将S3选定的更具信息性的子集划分为几个区域，每个区域都使用对应代码本进行量化；

S5：通过S4得到量化结果实现数据检索，输出。

进一步的，所述S3中投影维度重要性分析具体为：

将投影数据矩阵表示为G＝P X∈R^K×N，其中投影矩阵表示整个投影过程，IA的第一步是生成集中矩阵U，以确保每个投影维度均零均值化：

其中，g_ki和u_ki分别表示G和U的第k行和第i列中的元素；因此，

表示第k个投影维度的方差(依据概率论)，将协方差矩阵C∈R^K×K计算为：

其中U^T是矩阵U的转置，很容易发现C的第k个对角元素是第k个投影维度的方差：

但是，其不确定C是否为对角矩阵，因此将C对角化为对角矩阵Λ；因为C是一个实对称矩阵，所以将C对角化的过程可以表示为ECE^T＝Λ，其中E∈R^K*K，E中的第k列是对应于特征值λ_k的特征向量；K个特征值构成Λ的对角元素：Λ＝diag(λ₁，λ₂，...，λ_K)；λ_k表示在k个投影维度彼此独立的情况下的第k个投影维度的方差，因为在Λ中所有非对角元素均为零；将λk定义为第k个投影维度的区分度。

这是因为，如果投影维度的λ_k较大，则点在该投影维度上的分布会更加分散，这意味着该投影维度会承载更多信息。因此，我们选择具有较大区分度的几个投影维度，并使用更多具有代表性的点对其进行量化，以近似的达到原始数据分布。

进一步的，所述S3中选取更具信息性的子集具体为：

将前述选择的投影维度数用M表示，用于量化每个选定的投影维的哈希位数用S表示，要量化总共有K个哈希位的投影点，则S*M＝K，通过观察不同M产生的性能并选择最佳M来确定M的值，还将说明理论上设置参数M的方法，如上述，Λ＝diag(λ₁，...，λ_K)表示K个投影维度的区分度(假设{λ₁，...，λ_K}已按降序排序)，再计算M，以便M个选定的投影维度可以覆盖至少98％的总信息量，此外，K必须可被M整除。

更进一步的，计算M的详细步骤：整个信息量Δ的计算公式为：

然后，使选定的r个投影维度至少覆盖整个信息量的98％的第一个折点计算为：

其中

包含所有断点，这些断点使b选定的投影维度至少覆盖整个信息量的98％；由于K必须可以被M整除，因此首先计算Num，其中包含M的所有可能值：

Num＝{in|K mod in＝0,in∈In}

其中In＝{1，...，K}，计算M包含了在Num中找到最接近r的数：

其中num∈Num和|·|表示绝对值。

进一步的，所述S4具体操作如下：

S4-1：使用量化器划分区域并将分区量化

关于第k个投影维度，由于S个哈希位可以编码2^S不同区域，需要分别学习(2^S-1)个阈值

和2^S个码本

第k个投影维的量化步长定义为：

要学习最优

和

需要使同一区域中的点彼此之间的相似度远高于不同区域中的点；

S4-2：提出一个目标函数，以最小化第k个投影维度的平方失真误差：

其中E表示平方失真误差的数学期望；该目标函数通过针对固定c_k优化t_k和固定t_k优化c_k的迭代过程实现全局最优；即固定阈值，更新码本以最小化目标函数中的平方失真误差；固定码本，阈值通过计算两个相邻码本的平均值来更新。

其中，选择均方误差的原因是因为在哈希方法中始终假定数据遵循高斯分布，尽管考虑了投影维度，但它们始终显示与原始空间中数据相似的分布，另外均方误差对离群值敏感。

另外，所述基于维度分析量化器哈希学习的数据检索方法能够用于多种场合的数据检索，更优先应用于图像检索技术。

本发明的优点和技术效果：

本发明提出了一种新颖的基于维度分析的量化方法用于数据检索，首先对投影维度进行重要性分析，然后从中选择更信息性的子集；再使用量化器(阈值和代码本)将所选的投影维度分为几个区域，每个区域都使用其相应的代码本进行量化；最后，两个散列码之间的相似性由它们对应的代码本之间的曼哈顿距离来估计，这样能有效利用投影维度的有效信息提高搜索精度。

本发明提供的DAQ与现有常见的量化方法相比，因为分析了每种投影方法在不同数据集上的最佳M值，并选择了更多信息性的投影维，这些维被更密集地划分以更好地保留数据之间的相邻结构，其数据搜索的精度更高，DAQ方法在各个方面的性能都更为优越。

附图说明

图1为本发明的技术流程框图。

图2为DAQ方法进行哈希学习的整个过程流程图。

图3为实施例2中MAP在不同数据集的结果对比图。

图4为实施例2中SIFT-1M数据集上精度-召回曲线结果对比图。

图5为实施例2中CIRAR-10数据集上精度-召回曲线结果对比图。

图6为实施例2中MNIST数据集上精度-召回曲线结果对比图。

具体实施方式

以下通过具体实施例并结合附图对本发明进一步解释和说明。

实施例1：

一种基于维度分析量化器哈希学习的数据检索方法，该方法基本流程如图1所示。

S1：获取待分析数据，提取相应特征向量；

S2：基于哈希算法对S1得到的特征向量进行投影；

S5：通过S4得到量化结果实现数据检索(对输入的数据进行投影，计算与代码本之间的距离得到距离矩阵，通过距离矩阵得到二进制编码，通过查询数据二进制编码得到查询结果)，输出。

其中，

如图2所示，假设其中向量是从图像提取的描述符，在训练集上，参数学习如下：

S1.投影维度重要性分析和选取更具信息性的子集

S1.1投影维度重要性分析

提出了一种重要性分析(IA)方法来分析投影维度的重要性，将投影数据矩阵表示为G＝P X∈R^K×N，其中投影矩阵表示整个投影过程，IA的第一步是生成集中矩阵U，以确保每个投影维度均具有零均值：

其中，g_ki和u_ki分别表示G和U的第k行和第i列中的元素。因此，

表示第k个投影维度的方差(依据概率论)。为了便于分析，我们将协方差矩阵C∈R^K×K计算为：

其中U^T是矩阵U的转置。很容易发现C的第k个对角元素是第k个投影维度的方差：

但是，其不确定C是否为对角矩阵。因此，我们将C对角化为对角矩阵Λ。因为C是一个实对称矩阵，所以将C对角化的过程可以表示为ECE^T＝Λ，其中E∈R^K*K，E中的第k列是对应于特征值λk的特征向量。K个特征值构成Λ的对角元素：Λ＝diag(λ1，λ2，...，λK)。现在，λk表示在k个投影维度彼此独立的情况下的第k个投影维度的方差，因为在Λ中所有非对角元素均为零。将λk定义为第k个投影维度的区分度。这是因为，如果投影维度的λk较大，则点在该投影维度上的分布会更加分散，这意味着该投影维度会承载更多信息。因此，在DAQ方法中，选择具有较大区分度的几个投影维度，并使用更多具有代表性的点对其进行量化，以近似的达到原始数据分布。

S1.2选取更具信息性的子集

将前述选择的投影维度数用M表示，用于量化每个选定的投影维的哈希位数用S表示，要量化总共有K个哈希位的投影点，则S*M＝K。在实验中，通过观察不同M产生的性能并选择最佳M来确定M的值。在这一部分中，还将说明理论上设置参数M的方法。如上部分中所述，Λ＝diag(λ1，...，λK)表示K个投影维度的区分度(假设{λ1，...，λK}已按降序排序)。再计算M，以便M个选定的投影维度可以覆盖至少98％的总信息量。此外，K必须可被M整除。下面，给出计算M的详细步骤。整个信息量Δ的计算公式为：

其中

包含所有断点，这些断点使b选定的投影维度至少覆盖整个信息量的98％。由于K必须可以被M整除，因此首先计算Num，其中包含M的所有可能值：

Num＝{in|K mod in＝0,in∈In}

其中In＝{1，...，K}。因此，计算M包含了在Num中找到最接近r的数：

其中num∈Num和|·|表示绝对值。

关于上述贡献中所提第二部分所述，提出了一个量化器(阈值和代码本)，将选定的投影维度划分为几个区域，每个区域都使用对应代码本进行量化。具体操作如下：

S2.使用量化器划分区域并将分区量化

和2^S个码本

在DAQ方法中，第k个投影维的量化步长定义为：

要学习最优

和

需要使同一区域中的点彼此之间的相似度远高于不同区域中的点。因此提出了一个目标函数，以最小化第k个投影维度的平方失真误差：

其中E表示平方失真误差的数学期望。选择均方误差的原因是因为在哈希方法中始终假定数据遵循高斯分布。尽管考虑了投影维度，但它们始终显示与原始空间中数据相似的分布。从另一角度来看，众所周知，均方误差对离群值敏感。但是，每个投影维度上间隔的有限性可以轻松排除它们。上述目标函数可以通过针对固定c_k优化t_k和固定t_k优化c_k的迭代过程轻松解决，事实证明可以实现全局最优。即固定阈值，更新码本以最小化目标函数中的平方失真误差；固定码本，阈值通过计算两个相邻码本的平均值来更新。

具体的：

在基础集

上,首先将X映射到投影空间G_M＝P_MX∈R^M*N,其中P_M∈R^M*D表示投影矩阵P∈R^K*D的M行，也表示是第M个最大区分度。G_M表示X在利用P_M投影后的投影矩阵。然后，对于每个基点x_i学习M个标签

以在M个投影维度上有效的索引对应的代码本。x_i的第k个投影维度的标签定义为：

其中g_ki表示G_M中的第k行和第i列元素。例如，在图2中，S＝2意味着将每个投影维度划分为2^S＝4个区域，并且每个区域的标签的值是从0到(2^S-1＝3)。创建标签矩阵

的目标是为每个基点有效地索引对应的M个代码本。

在查询集上，首先将查询点

映射到f＝P_Mq，其中

表示q经过使用P_M的投影。然后对于k＝1,...,M，我们通过以下公式计算f_k和

之间的曼哈顿距离：

其中

表示距离矩阵

中第k行和第s列的元素。创建A的目的是减少对几点进行排名时的距离计算量。使用A，我们将q和x_i之间的距离计算转换为查找表操作：

其中，Dis(q，x_i)表示使用DAQ方法的q与x_i之间的距离。这样只需要M个查询表的操作和(M-1)个加法操作。

实施例2：

本实施例以实施例1提供的搜索方法为基础，在三个公共基准上进行了实验，包括SIFT-1M，CIFAR-10和MNIST。SIFT-1M由128-D签名描述符组成。SIFT-1M包含10,000个查询描述符，100,000个训练描述符和1,000,000个基本描述符。此外，对于通过欧几里得距离评估的每个查询描述符，提供了100个真正的最近邻居。

CIFAR-10是一个微小图像数据集，使用的版本包含60,000张尺寸为32×32像素的图像，这些图像已分为10类(飞机，汽车，鸟，猫，鹿，狗，青蛙，马，船和卡车)。整个数据集分为59,000张图像的基本集和1,000张图像的查询集，从基本集中选择3,000个样本作为学习参数的训练集，我们用在3个不同的比例(8、8、4)上计算出的384-D灰度GIST描述符和从密集SIFT特征量化得到的300-D视觉词袋的组合来表示图像，从而产生684-D的向量。对于通过欧几里得相似度测量的每个查询图像，五十个真实的最近邻点被用来识别基本图像对于给定的查询图像是否为真实正值。

MNIST是NIST手写数字中较大集合的子集。它包含70,000张尺寸为28×28像素的图像。它由69,000个基本图像和1，000个查询图像组成。基本图像还用作学习参数的训练图像。所有图像均由784-D签名向量表示。此外，对于通过欧几里得距离评估的每个查询图像，使用300个真正的最近邻点来评估返回的图像是否是查询图像的最近邻点之一，表1中列出了这三个基础集的构造。

表1

Datasets	Query	Training	Base	Dimeusionality	True Neighbors
						SIFT-1M	10,000	100,000	1,000,000	128	100
CIFAR-10	1,000	3,000	59,000	684	50
						MNIST	1,000	69,000	69,000	784	300

实验结果使用三个标准评估量化和排名方法的性能：召回率，精确度和均值平均精度(MAP)。

对SH，PCAH和ITQ这三种著名的投影方法进行了实验，并使用SBQ，DBQ，MH和AsyE这四种最先进的量化和排名方法对性能进行了比较。且当投影方法产生不均匀的投影维度时，DAQ效果更好。从所有实验中，发现DBQ的性能优于SBQ，这是因为DBQ可以更有效地保留数据之间的相邻结构。实验结果还显示MH和AsyE的性能几乎相似，并且比SBQ和DBQ更好。主要原因是MH使用自然二进制码编码，而AsyE使用实值代表点编码。MH和AsyE都更密集地划分距离空间。

从实验部分中的所有MAP(如图3所示)和精度-召回曲线(如图4，图5，图6所示)，可以看到DAQ方法始终比四个基线表现出更好的性能，并且在更长的代码长度下，优势更加明显。正如前述分析，当使用更长的代码长度时，后面的位将不如所选的位提供的信息更多。因此，与四个最新基本量化方法相比，利用包含更多信息的投影维度的DAQ算法可以实现更高的精度。实验结果表示，与SIFT-1M上的Hamm，DBQ，MH和AsyE相比，DAQ分别获得了更高的MAP性能，分别高39.3％，30.7％，27.1％和25.2％。总体而言，DAQ方法在SIFT-1M数据集上的性能提升比在CIFAR-10和MNIST更大。然而，与Hamm，DBQ，MH和AsyE相比，我们仍然分别获得了23.4％，17.2％，13.8％和13.7％的MAP性能增长。

与四个基本量化方法相比，DAQ方法能够获得如此实质性性能提升的主要原因是，我们的阈值和码本学习算法可以尽可能近似地估计所选M个投影维度的分布。尽管使用了较小的投影维度，但由于它们比其他维度更具参考价值，因此量化损失仍然较低。在实验过程中将CIFAR-10上参数S的所有最佳值都设置为2，在这种情况下，除了阈值和码本学习算法，DAQ方法类似于MH。实验结果发现，DAQ方法依然始终优于MH，这证明我们的阈值和码本学习算法更有效。

从另一个角度来看，DAQ方法与SH和PCAH投影方法相结合的效果要优于ITQ投影方法。这是因为ITQ通过旋转矩阵使量化误差最小化，并且每个投影维几乎均等的提高最终搜索精度。特别是在SIFT-1M上，M的最佳值变化很小。

综上，DAQ方法与ITQ投影方法相结合的效果不及其他组合，但在大多数情况下，其性能仍优于四个基本量化方法。

Claims

1.一种基于维度分析量化器哈希学习的数据检索方法，其特征在于，该方法包括以下步骤：

S1：获取待分析数据，提取相应特征向量；

S2：基于哈希算法对S1得到的特征向量进行投影；

S3：对S2得到的投影维度进行重要性分析，选取更具信息性的子集；所述S3中选取更具信息性的子集具体为：

将投影维度数用M表示，用于量化每个选定的投影维的哈希位数用S表示，要量化总共有K个哈希位的投影点，则S*M＝K，通过观察不同M产生的性能并选择最佳M来确定M的值，Λ＝diag(λ1，...，λK)表示K个投影维度的区分度，假设{λ1，...，λK}已按降序排序，再计算M，以便M个选定的投影维度可以覆盖至少98％的总信息量，此外，K必须可被M整除；

S5：通过S4得到量化结果实现数据检索，输出。

2.如权利要求1所述的数据检索方法，其特征在于，所述S3中投影维度重要性分析具体为：

将投影数据矩阵表示为G＝P X∈R^K×N，其中投影矩阵表示整个投影过程，IA的第一步是生成集中矩阵U：

表示第k个投影维度的方差，将协方差矩阵C∈R^K×K计算为：

其中U^T是矩阵U的转置，C的第k个对角元素是第k个投影维度的方差：

将C对角化为对角矩阵Λ；因为C是一个实对称矩阵，所以将C对角化的过程表示为ECE^T＝Λ，其中E∈R^K*K，E中的第k列是对应于特征值λ_k的特征向量；K个特征值构成Λ的对角元素：Λ＝diag(λ₁，λ₂，...，λ_K)；λ_k表示在k个投影维度彼此独立的情况下的第k个投影维度的方差，因为在Λ中所有非对角元素均为零；将λk定义为第k个投影维度的区分度。

3.如权利要求1所述的数据检索方法，其特征在于，计算M的详细步骤：整个信息量Δ的计算公式为：