CN104462503B

CN104462503B - 确定数据点的相似度的方法

Info

Publication number: CN104462503B
Application number: CN201410805905.6A
Authority: CN
Inventors: 陈世峰; 杜书泽
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2014-12-19
Filing date: 2014-12-19
Publication date: 2018-01-09
Anticipated expiration: 2034-12-19
Also published as: CN104462503A

Abstract

提供一种确定数据点的相似度的方法，包括：(a)将所有数据点进行线性投影；(b)基于线性投影后的数据点来构建包括预定数量的具有预定深度的树的随机森林，其中，按照测试函数将随机森林的每个分割结点中的数据点分割到左孩子结点或右孩子结点；(c)获取每个数据点在每颗树上的分割路径；(d)根据获取的分割路径来确定数据点的哈希码，并根据确定的哈希码来确定数据点的相似度。在根据本发明示例性实施例的确定数据点的相似度的方法中，生成的哈希码的长度突破了原始数据点的维度的限制，比现有的哈希编码方法更加灵活，可以更好地应用于各种数据的相似性的比较。

Description

确定数据点的相似度的方法

技术领域

本发明总体说来涉及近似查找技术，具体说来，涉及一种确定数据点的相似度的方法。

背景技术

随着网络上大量的图像和其它媒介数据的产生，近似最近邻搜索变得越来越重要。它现在已成为机器学习中最重要的问题之一，已经被用于许多计算机视觉任务，比如图像检索。在这个领域内，基于哈希的近似最近邻是一个普遍被使用的方法。这种方法把高维的数据点编码成紧凑的二值码，这些二值码保留了高维数据点的相似性，而且可以让内存容下更大的数据集，同时能够实现高效率的相似性搜索。

大量的用于学习相似性保留的二值码方法已经被提出。在这些方法中，位置敏感哈希(LSH)是最流行的哈希编码方法之一，它利用随机投影来产生二值码。但是为了达到好的性能，它通常需要较长的二值码。文献“Inductive hashing on manifolds”(F.Shen,C.Shen,Q.Shi,A.van den Hengel,and Z.Tang.In CVPR 2013)的作者应用流形学习紧凑的二值嵌入。谱哈希(SH)(文献“Spectral hashing”(Y.Weiss,A.Torralba,andR.Fergus.In Advances in Neural Information Processing Systems,2008))基于一个可分割的Laplacian特征函数学习出哈希函数。SH方法使用较小的二值码时，能够取得比较好的性能，但是当码长增加时，它表现得不太理想。汉明距离通常被用来计算二值码之间的距离。

在传统的基于主分量分析(PCA)的哈希方法中，数据点被假设为零中心化的，哈希函数定义为：

b(x)＝sgn(W·x)，

这里，W∈R^c×d是投影矩阵。这个函数把输入的d-维数据点x∈R^d映射到二值码b(x)∈{0,1}^c上。在PCA-哈希(PCAH)方法中，W的行对应于数据协方差矩阵的具有最大特征值的c个特征向量。给定一个含有n个数据点的集合X＝{x_i},i＝1,...,n，一个数据点x_i∈R^d形成了数据矩阵X∈R^d×n的第i列。矩阵X假定已被规范化零均值，也就是哈希机制映射每一个数据点xⁱ到一个c维的二值向量y_i∈{0,1}^c。一般来说，我们需要学习c个哈希函数去生成这个c-维的二值向量。在线性投影哈希方法里面，在零均值假设下，第k个哈希函数定义为：

这里，w_k是投影向量，如果x≥0，则sgn(x)＝1；否则的话sgn(x)＝0。y_i的第k位等于h_k(x_i)。记W＝[w₁,...,w_c]∈R^d×c，那么y_i＝sgn(W^T·x_i)。

为了产生c位的二值码，PCAH用数据协方差矩阵XX^T的特征值最大的c个特征向量作为矩阵W的列。迭代量化(ITQ)哈希模型用一个正交的c×c的矩阵R旋转PCA投影矩阵来学习哈希函数，以最小化把PCA投影后的数据映射到二值码过程中的量化损失。在这种情形下，公式y_i＝sgn(W^T·x_i)可以重写为y_i＝sgn((WR)^T·x_i)。从这些模型里，可以容易地发现二值码的长度不会超过原始的数据维度d。

这样就导致当原始的数据点维度较低时，这些模型并不能达到满意的结果。另外，在高维的情形下，有时直接通过阈值来二值化投影值不是一个好的选择，就像直接使用符合函数。为了得到较长的二值码，投影矩阵W不得不足够地大。

而对数据无关的哈希方法来说，它们的性能会随着码长的增加而逐渐提高。在位置敏感哈希模型里，W是一个高斯随机矩阵。二值码通过投影原始的数据点到一些随机平面上而得到。位移不变核哈希(SKLSH)是一个LSH的扩展版本，它使用随机余弦函数产生二值码。这个方法可以保证理论上的收敛。然而，为了工作良好，矩阵W必须足够的大，这就导致算法需要更多的时间去做投影运算。

已有的基于汉明的方法产生的二值码通常由哈希函数的符号决定。虽然大多数情况下，它都能达到好的性能，在某些情形下，尤其是处理高维数据时，由符号决定不是一个好的选择。文献“Random forest based feature induction”(C.Vens and F.Costa.InIEEE 11th International Conference on Data Mining，2011)使用森林中所有的结点编码原始数据。如果一个结点出现在数据点从根结点落到叶子结点的路径上，对应的比特位被标记为1，不在路径上的则为0。使用汉明函数计算这些二值码间的距离。这样的做法会产生非常高维的二值码(维数等于森林中结点的个数)。

由此可见，在现有技术中，哈希编码长度通常由原始数据点的维度决定，针对不同维度的数据，难以通过改变哈希编码的长度来提升性能。二值码通常通过符号函数来实现，而在很多时候，特别是处理高维度数据时，符号函数不是一个很好的选择。现有基于随机森林的方法会产生过高维度的二值编码。相应地，在确定数据点的相似度方面，会付出较大的运算代价，对硬件系统的要求过高，也不利于快速有效的进行检索。

发明内容

本发明的示例性实施例在于提供一种确定数据点的相似度的方法，以解决至少一个上述的问题。

根据本发明示例性实施例的一方面，提供一种确定数据点的相似度的方法，包括：(a)将所有数据点进行线性投影；(b)基于线性投影后的数据点来构建包括预定数量的具有预定深度的树的随机森林，其中，按照测试函数将随机森林的每个分割结点中的数据点分割到左孩子结点或右孩子结点；(c)获取每个数据点在每颗树上的分割路径；(d)根据获取的分割路径来确定数据点的哈希码，并根据确定的哈希码来确定数据点的相似度。

在上述方法中，针对随机森林的第s个分割结点中的第i个数据点，测试函数可表示为如下定义的

其中，表示随机森林的第s个分割结点中的第i个数据点的向量，和分别表示的第h₁个分量和第h₂个分量，s_l和s_r分别表示第s个分割结点的左孩子结点和右孩子结点，表示第s个分割结点中的所有数据点的d_i(h₁,h₂)的均值。

在上述方法中，h₁和h₂可指示数据点的向量的分量标号中使得第s个分割结点中的所有数据点对应的d_i(h₁,h₂)的方差最大的分量标号。

在上述方法的步骤(d)中，可根据以下算式来确定第i个数据点的哈希码:

其中，T表示所述预定数量，y_i表示第i个数据点的哈希码，u_kj表示第i个数据点在第k颗树的分割路径中的第j个结点的标签，m表示所述预定深度，其中，左孩子结点的标签为“0”，右孩子结点的标签为“1”。

其中，y_i表示第i个数据点的哈希码，u_kl表示第i个数据点在第k颗树的分割路径中的第l个结点的标签，m表示所述预定深度，其中，左孩子结点的标签为“0”，右孩子结点的标签为“1”。

在上述方法的步骤(d)中，根据以下算式来确定第i个数据点与第j个数据点的相似度：

其中，表示第i个数据点与第j个数据点的相似度，T表示所述预定数量，cnt表示计算向量中1的数量的计数函数，符号“⊕”表示位间异或运算，“∨”表示位间或运算。

在根据本发明示例性实施例的确定数据点的相似度的方法中，生成的哈希码的长度突破了原始数据点的维度的限制，可以通过增加随机森林中树的数量或者增长树的深度来扩展哈希码的长度，比现有的哈希编码方法更加灵活，可以更好地应用于各种数据的相似性的比较。

附图说明

通过下面结合示例性地示出实施例的附图进行的描述，本发明示例性实施例的目的和特点将会变得更加清楚，其中：

图1示出根据本发明示例性实施例的确定数据点的相似度的方法的流程图；

图2示出根据本发明示例性实施例的构建的随机森林的示例图；

图3示出根据本发明示例性实施例的确定数据点的相似度的方法与其他方法的性能比较图；

图4示出根据本发明另一示例性实施例的确定数据点的相似度的方法与其他方法的性能比较图。

具体实施方式

现将详细参照本发明的示例性实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述示例性实施例，以便解释本发明。

图1示出根据本发明示例性实施例的确定数据点的相似度的方法的流程图。这里，所述数据点指示需要进行相似度分析的对象的元素，例如图像的局部特征点。所述数据点可被表示为向量，向量中的每个分量表示所述对象元素的一个属性值。所述方法可通过计算机程序来以软件方式实现。

参照图1，在步骤S10，将所有数据点进行线性投影。可以利用现有技术中的各种线性投影的方法来对数据点进行线性投影，线性投影后的数据点仍然可被表示为向量。

在步骤S20，基于线性投影后的数据点来构建包括预定数量的具有预定深度的树的随机森林，其中，按照测试函数将随机森林的每个分割结点中的数据点分割到左孩子结点或右孩子结点。图2示出根据本发明示例性实施例的构建的随机森林的示例图。如图2所示，所述随机森林包括预定数量(T)的树201，每棵树201具有预定深度(m)，每棵树201的结点包括分割结点202和叶子结点203，所有的叶子结点203都在相同的深度上，每个分割结点202都有两个孩子结点(即左孩子结点204和右孩子结点205)。在步骤S20，从每颗树201中包含有所有数据点的根结点206开始按自顶向下的方式构造随机森林。在每个分割结点202处，按照测试函数将该分割结点202中的数据点分割到左孩子结点204或右孩子结点205。然后再将左孩子结点204或右孩子结点205作为新的分割结点，继续分割数据点，直到所有的数据点都到达了预定深度m时，停止树的增长。

这里，测试函数可以是任意可将数据进行分类的函数。可选地，针对随机森林的第s个分割结中的第i个数据点，测试函数表示为如式(1)定义的

其中，表示随机森林的第s个分割结点中的第i个数据点的向量，和分别表示的第h₁个分量和第h₂个分量，s_l和s_r分别表示第s个分割结点的左孩子结点和右孩子结点，表示第s个结点中的所有数据点的d_i(h₁,h₂)的均值。

这里，h₁和h₂可以是随机选择的分量标号。优选地，h₁和h₂指示数据点的向量的分量标号中使得第s个分割结点中的所有数据点对应的d_i(h₁,h₂)的方差最大的分量标号。可以通过在步骤S20中，针对第s个分割结点，随机选择预定对数不同的(h₁,h₂)，计算第s个分割结点中的所有数据点对应的d_i(h₁,h₂)的方差，选出使所述方差最大的那对(h₁,h₂)。

在步骤S30，获取每个数据点在每颗树上的分割路径。所述分割路径为数据点从树的根结点到叶子结点的路径。为了方便记录该分割路径，可以将左孩子结点标记为“0”，将右孩子结点标记为“1”。

在步骤S40，根据获取的分割路径来确定数据点的哈希码，并根据确定的哈希码来确定数据点的相似度。

这里，可以根据各种编码方式来确定数据点的哈希码，并且可以根据不同的算法来根据确定的哈希码来确定数据点的相似度。

以下将列举两种的确定数据点的哈希码的编码方式以及相应的确定数据点的相似度的算法。

作为示例，在步骤S40中，可根据式(2)来确定第i个数据点的哈希码。

相应地，作为示例，在步骤S40中，可根据式(3)来确定第i个数据点与第j个数据点的相似度。

其中，表示第i个数据点与第j个数据点的相似度，T表示所述预定数量，cnt表示计算向量中“1”的数量的计数函数，

作为另一示例，在步骤S40中，可根据式(4)来确定第i个数据点的哈希码。

相应地，作为示例，在步骤S40中，可根据式(5)来确定第i个数据点与第j个数据点的相似度。

其中，表示第i个数据点与第j个数据点的相似度，T表示所述预定数量，cnt表示计算向量中“1”的数量的计数函数，符号“⊕”表示位间异或运算，“∨”表示位间或运算。

在根据本发明示例性实施例的确定数据点的相似度的方法中，生成的用于对比数据点的相似度的哈希码，其长度取决于随机森林中的树的数量(即预定数量)以及树的深度(预定深度)，而预定数据以及预定深度可以被灵活地设置，所以哈希码的长度可以自由调整，不受数据点的维度限制。因此根据本发明示例性实施例的确定数据点的相似度的方法可以适用于各种不同的数据点的相似性的对比。

此外，在根据本发明示例性实施例的确定数据点的相似度的方法中，基于随机森林的方法来生成的用于对比数据点的相似度的哈希码，不使用现有的符号函数，使得生成的哈希码有更强的鲁棒性，更适合高维数据，并且效率更高。

此外，在根据本发明示例性实施例的确定数据点的相似度的方法中，根据式(4)和式(5)来确定数据的相似度，由于只需要做少量的异或预算，而位运算的速度非常快，相比其他确定数据的相似度的算法，耗时更短。由于如果两个点在一棵树的一层落到不同的结点，则它们在下一层也不会落到相同的结点内，因此，在近邻查找的应用中，当仅需要查找排序在前面的近邻时，可根据哈希码中体现分割路径中靠近根结点的部分路径的位数据来确定数据点的相似度，例如可通过式(6)来确定第i个数据点与第j个数据点的相似度，这样可以减小运算量，提高效率。

其中m'<m，其他字母或符号的含义同式(5)。

以下将结合图3和图4来描述根据本发明示例性实施例的确定数据点的相似度的方法与其他方法的性能对比。

以下将分别在两个较大的数据集SIFT1M和GIST1M上评估上述各方法的性能。数据集SIFT1M包含一百万个从一个大的自然图像集中提取出的128维的局部SIFT描述符，另外提供了10K的带有真实最近邻的查询描述符。GIST1M由100万的960维GIST特征和额外1000个特征组成。对每一个查询点，它的基准(真实最近邻)定义为据欧式距离得到的K个最近邻点。通过用Recall@N来对比上述各方法的性能。Recall@N定义为：

K代表每一个查询点的依欧氏距离计算出的K个最近邻，设置K＝10。根据本发明示例性实施例的确定数据点的相似度的方法，分别基于迭代量化哈希(ITQ)或基于主分量分析的哈希(PCAH)输出的投影数据(维度为64)构造随机森林。将根据本发明示例性实施例的基于PCAH和ITQ的随机森林编码方法分别命名为PCA_RF和ITQ_RF，并跟其他方法做对比。

图3示出了根据本发明示例性实施例的PCA_RF和ITQ_RF与其他方法(位移不变核哈希(SKLSH)、位置敏感哈希方法(LSH)和谱哈希方法(SH))在数据集SIFT1M上的性能对比，可以看到根据本发明示例性实施例的PCA_RF和ITQ_RF性能优于SH和SKLSH，另外，它们非常接近LSH的性能。LSH在这个数据集上的性能表现得很好，但是它需要一个大的随机投影矩阵，这就限制了它的编码速度和检索速度。而根据本发明示例性实施例的PCA_RF和ITQ_RF，投影矩阵较小(由64个投影向量组成)，检索速度较快。

图4示出了根据本发明示例性实施例PCA_RF和ITQ_RF与其他方法(SKLSH、LSH、SH、ITQ、PCAH和K-means哈希方法(KMH))在数据集GIST1M上的性能对比。可以看出，根据本发明示例性实施例的ITQ_RF的性能超越了其它的方法。根据本发明示例性实施例的PCA_RF和ITQ_RF的性能大大超越了PCAH和ITQ方法。另外，相对于根据本发明示例性实施例的PCA_RF和ITQ_RF只用了64个投影向量，PCAH和ITQ用了更多的向量。因此编码一个查询点时，相对于PCAH和ITQ，根据本发明实施例的方法可以消耗更少的测试时间。SKLSH在这个数据集上表现得很好，但是它在数据集SIFT1M上表现得很差，说明它的适应性不高。根据本发明示例性实施例PCA_RF和ITQ_RF在这两个数据集都取得了很好的性能，表明它对不同的数据集有较好的鲁棒性。

由于树形结构的使用，根据本发明示例性实施例的方法生成哈希码的速度非常快，使用未优化的C++代码，生成一个查询点的哈希码大约花费0.1ms的时间。若使用现代CPU上的并行处理，这个时间可以进一步缩短。分别使用512个、64个投影向量做投影运算大约消耗1ms和0.1ms的时间。生成512-比特的二值码，根据本发明示例性实施例的方法生成哈希码的时间大约为0.2ms，而LSH大约消耗了1ms，根据本发明示例性实施例的方法比LSH更高效。

应注意，本发明的以上各个实施例仅仅是示例性的，而本发明并不受限于此。本领域技术人员应该理解：在不脱离本发明的原理和精神的情况下，可对这些实施例进行改变，其中，本发明的范围在权利要求及其等同物中限定。

Claims

1.一种确定数据点的相似度的方法，其特征在于，包括：

(a)将所有数据点进行线性投影；

(b)基于线性投影后的数据点来构建包括预定数量的具有预定深度的树的随机森林，其中，按照测试函数将随机森林的每个分割结点中的数据点分割到左孩子结点或右孩子结点；

(c)获取每个数据点在每颗树上的分割路径；

(d)根据获取的分割路径来确定数据点的哈希码，并根据确定的哈希码来确定数据点的相似度；

针对随机森林的第s个分割结点中的第i个数据点，测试函数表示为如下定义的

2.根据权利要求1所述的方法，其特征在于，h₁和h₂指示数据点的向量的分量标号中使得第s个分割结点中的所有数据点对应的d_i(h₁,h₂)的方差最大的分量标号。

3.根据权利要求1所述的方法，其特征在于，在步骤(d)中，根据以下算式来确定第i个数据点的哈希码:

其中，T表示所述预定数量，y_i表示第i个数据点的哈希码，表示第i个数据点在第k颗树的分割路径中的第j个结点的标签，m表示所述预定深度，其中，左孩子结点的标签为“0”，右孩子结点的标签为“1”。

4.根据权利要求1所述的方法，其特征在于，在步骤(d)中，根据以下算式来确定第i个数据点的哈希码:

5.根据权利要求4所述的方法，其特征在于，在步骤(d)中，根据以下算式来确定第i个数据点与第j个数据点的相似度：

其中，表示第i个数据点与第j个数据点的相似度，T表示所述预定数量，cnt表示计算向量中1的数量的计数函数，符号表示位间异或运算，“∨”表示位间或运算。