CN102722554A

CN102722554A - 位置敏感哈希随机性减弱方法

Info

Publication number: CN102722554A
Application number: CN2012101700149A
Authority: CN
Inventors: 高毫林; 郭志刚; 李弼程; 蔺博宇
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2012-05-28
Filing date: 2012-05-28
Publication date: 2012-10-10
Anticipated expiration: 2032-05-28
Also published as: CN102722554B

Abstract

本发明涉及一种位置敏感哈希随机性减弱方法；具体为：首先对数据点进行随机映射，然后进行相似计算得出L个检索向量，再将L个哈希表对应的L个检索向量构造成矩阵，最后对该矩阵列元素进行频次投票得出最终索引；每个哈希函数对数据点在一个方向上进行映射，通过增加哈希函数的数量来提高发现真实近邻的概率，哈希函数的数量为L个；L个哈希函数对应L个哈希表，使用L个哈希表进行检索需要对检索结果进行融合；采用频繁项投票的方法对检索结果进行融合，选取L个哈希表对应的检索结果出现次数最多的图像；本发明能综合利用多个哈希表的信息并得出与真实近似程度相当的结果，利用多表投票的方法能够达到降低检索结果随机性的目的。

Description

位置敏感哈希随机性减弱方法

（一）、技术领域：本发明涉及一种检索方法，特别是涉及一种位置敏感哈希随机性减弱方法。

（二）、背景技术:相似性搜索在许多方面有着非常重要的作用，如数据压缩、数据挖掘、信息检索、图像和视频检索、机器学习、模式识别、统计和数据分析等等。这些研究中的对象一般能用相关特征的集合或高维空间中的点表示。这些点的维数范围很大，会从几十到几千。当维数较低的时候，这类问题比较容易，但当维数比较高时，解决起来会比较困难，也就是所谓的“维数灾难”。尽管经过了几十年的努力，现在的解决方案仍然不能让人十分满意。因为对于高维向量搜索，这些方法和线性穷尽搜索相比几乎没有什么优势甚至会退化到线性搜索。这种情况严重影响了相似性搜索的效果。

位置敏感哈希(LSH，Locality Sensitive Hashing)是当前解决高维空间近似最近邻(ANN，Approximate Nearest Neighbor)搜索问题的速度最快的方法。其中，LSH在汉明空间进行搜索，E2LSH(Exact Euclidean Locality Sensitive Hashing)是对LSH的改进之一，在欧氏空间进行搜索。与基于树的索引方法相比，它们不但复杂度低、支持维数高，而且检索时间大大缩短，在图像检索、复制检测等方向都有应用。

LSH和E2LSH作为ANN解决方案的基础在于相似性搜索并不一定要得出精确的最近邻，在许多情况下，近似最近邻提供的结果已经比较让人满意了，关键在于它能以更小的代价完成目标。但这是这个基础使得LSH不可避免的存在一定的随机性。这样的随机性如果得不到好的控制，就会影响算法的性能。如在基于视觉词典的图像和视频搜索工作中，可以用它来产生视觉词典，而视觉词典本身就存在着不确定性，如果对LSH聚类产生词典过程中不加以控制，它的随机性会加剧这种不确定性传播，严重影响最终结果。

LSH的基本思想是：如果两个点相距很近，那么在进行映射操作后，这两个点仍然相距很近。为了对这些点进行映射，要先建立哈希表。好的哈希表可以使一个点的查询在O(1)时间内和O(N)内存空间上完成查询，N是数据点的数目。

在实现时，LSH用一系列哈希函数对数据点进行哈希，使那些比较接近的点对于每个哈希函数发生冲突的概率比距离远的点要大，也就是把比较相近的点哈希到同一个桶。这样，通过对查询点进行哈希并获取它所在桶中的标志就可以进一步得到比较近的邻居。哈希运算需要定义位置敏感哈希(LSH)函数。对于点域S，LSH函数族定义如下：

函数族

是位置敏感(locality sensitive)的,如果对于任何q，函数

:||q-v||=t]与t呈严格递减关系。也就是说，点q和v冲突概率随着它们之间的距离的增加而减少。

这样，对于点v∈B(q,R)和点

就有p(||q-v||)>p(||q-u||)。LSH函数族把点集S中的点哈希到某个域U，然后计算点q的哈希值，据此找到与它冲突的点。为减少运行时间，需增大[0,R]和[R,∞]之间冲突概率的差距，可将多个函数

连接起来。例如，定义一个函数族

g(v)=(h₁(v),…h_k(v))，其中

并从

中选择独立且分不一致的L个函数g₁,…g_L组成哈希函数族。在预处理过程中，算法把每个点

存储在桶g_j(v)中。给出查询点q后，算法搜索所有的桶g₁,…g_L，并对某个桶中发现的每个点v计算q到v的距离，如果||q-v||≤R，则认为v就是算法要得到的点。

LSH的欧式空间实现方案—E2LSH：初期的LSH的哈希函数是针对二进制汉明空间{0,1}^d中的点的。虽然通过把l₂空间嵌入到l₁空间并把l₁空间嵌入到汉明空间也能把算法扩展到l₂范数，但这在很大程度上增加了算法的查询时间和错误率，也增加了算法的复杂度。E2LSH不需要嵌入就可以直接工作在欧式空间中的点上，它还可以工作在任何p∈(0,2]的l_p范数上。该方案继承了原始LSH的两个特点。其一是它很适合于维数很高但稀疏的数据点。尤其是当d是向量中非零元素的最大数目时，算法的运行时间限会保持不变。该特点是其它空间数据结构所不具有的。和线性扫描相比，该方案在速度上能够达到一个或几个数量级的巨大提高。其二是如果数据满足一定的有界增长特性(bounded growth property),它可以很快的找到精确的近邻。对于点q，c>1，N(q,c)代表S中q的c-近似近邻的数目。如果N(q,c)以c的函数按次指数(sub-exponentially)增长，并且给定常量因子去近似q到它的最近邻居的距离，那么，算法能够以固定概率在时间O(d logn)内找到最近的邻居v。特别地，如果N(q,c)＝O(c^b)，运行时间是O(logn+2^O(b))。

E2LSH的哈希函数族是基于p-稳定函数的，并且对于p∈(0,2]的所有值都适用。稳定分布被定义为归一化独立同分布变量和的极限，稳定分布比较常用的例子是高斯分布。它的定义如下：在

上的分布

被称为p-稳定分布，如果存在p≥0对于n个实数v₁,…v_n和分布

的独立同分布变量X₁,…X_n，随机变量

和变量

X分布相同，X是分布

的随机变量。

哈希函数

把一个d维向量v映射到整数集上，即通过计算内积(a·v)为每一个向量v分配一个哈希值。哈希函数通过随机选择的a和b进行排序，a是从p-稳定分布独立选择的d维向量，b是一个在[0,w]上均匀选取的实数。a和b选定后，

内积(a*v)把每个向量映射到一条实线上。由p-稳定分布定义可知，两个向量(v₁,v₂)投影的距离(a·v₁-a·v₂)的分布与||v₁-v₂||_pX的分布相同。X服从p-稳定分布。如果能够把实线以合适的长度w进行等长分割，并且根据向量被投影到分割后的哪一段为该向量分配一个哈希值，那么这样的哈希函数就满足前面位置敏感的描述，并且两个向量(v₁,v₂)的冲突概率是可以计算的。

E2LSH检索随机性分析：E2LSH的性能对参数非常敏感，这些参数必须在使用前加以确定，如分段长度、哈希函数长度k、哈希函数族的函数个数L等。这些参数都与点间冲突概率有关，而冲突概率又决定了算法的随机性，高的冲突概率会使得随机性减弱，低的冲突概率使得随机性增加。

随机性与分段长度的关系：由于E2LSH采用的是随机映射的方法，所以其检索结果不可避免地存在随机性。它的随机性由算法发现真实最近邻的概率决定，而这个概率又与p稳定分布函数有关。设f_p(t)代表p稳定分布绝对值的概率密度函数，c＝||v₁-v₂||_p。对于每个h_i，两个点冲突的概率即

这样，两个点发生冲突需要满足两个条件：|(a·v)-(a·q)|<w，各分段边界不能落在(a·v)和(a·q)之间。第一个条件等价于|(v-q)·a)|<w，由于a是取自p-稳定分布的变量，该式进一步等价为|||v-q||Z|≡|cZ|<w，其中

对于第二个条件，当分段边界落在两点投影之间的概率为

那么两点冲突的概率即为：

p (c) = {&Integral;}_{0}^{w / c} f_{p} (r) (1 - \frac{cr}{w}) dr,

进行变量替换令t＝rc可以得出

p (c) = {&Integral;}_{c}^{w} \frac{1}{c} f_{p} (\frac{t}{c}) (1 - \frac{t}{w}) dt - - - (3)

对于固定的参数w，p(c)与c呈单调递减关系，当r₁=R,r₂=cR时，它的两个重要的值为p₁=p(R)和p₂=p(cR)。p₁表示p∈B(q,r₁)时，两点哈希值相等的概率的最小值，它与w的关系如图1所示，可见，分段长度越大，两点映射后哈希值相等即映射到同一个桶中的概率越大。

随机性与k和L的关系：上节所述E2LSH的随机性与分段长度有关。而分段长度在初始化时就已经确定，所以减弱检索的随机性需要调整LSH函数族的参数。这是因为E2LSH虽然能使距离较近的点哈希后冲突概率较大，但是，即使两个点距离较近，它们冲突的概率并不能保证足够大。下面的定理说明，它只能保证这个概率大于1/2。

假设存在一个点v^*∈S使得||q-v^*||≤R，那么以恒定概率

a.对于某个i∈{1,...，L}，g_i(v^*)=g_i(q)

b.与x∈S使得q-x||>cR这样的点冲突的点的总数以2L为界。

可以证明这两个性质成立的概率大于1/2。对于性质a，固定i，

P[g_i(v^*)=g_i(q)]≥p₁ ^k，其中

则有

令

那么对某个i而言冲突的概率是P[g_i(v^*)=g_i(q)]≥1-(1-n^-ρ)^L。令L=n^ρ，该概率为

1 - {(1 - n^{- ρ})}^{n^{- ρ}} &GreaterEqual; 1 - 1 / e > 1 / 2 .

对于性质b，假设x′∈X满足||q-x′||>cR，那么

P [g_{i} (x^{'}) = g_{i} (q)] \leq {p_{2}}^{k} = {p_{2}}^{\log_{1 / p_{2}} n} = 1 / n,

也就是说对于某个特定的i冲突点数的期望是1，即冲突点总数的期望是L。由马尔科夫不等式P[#x′collide with q>2L]<L/2L=1/2。

该定理说明，当L＝1时，即仅用一个哈希表进行检索是不够的，如果对于准确率有较高的要求，需要增加表的个数。因此我们用实验说明k和L对算法随机性的影响。考虑一个查询点q和一个近邻v∈B(q,R)，令p₁=p(R)，q和点v冲突的概率是

那么，对于所有L个函数q和v不冲突的概率是

这样使点q和点v在某个函数上g_j冲突即g_j(q)=g_j(p)的概率就可表示为

该概率与k和L变化关系如图2所示。可见冲突概率随L的增大而增大，随k的增大而减小。这是因为，L越大，就意味着表的个数越多，冲突的概率增大。而对一个表而言，k增大反而增强了随机性，使数据集进行哈希后得到更多的桶，导致冲突概率下降。比如，如果所有k次内积运算都与查询点落入同一个桶认为该点是最近邻，那么它的概率是增加k值会使这个概率降低。增加w虽然会增加落入每个桶中的点数，从而增加冲突概率。但是，为了得到最近邻需要搜索所有与查询点落入同一个桶中的点，这样就会增加查询时间。如果使

则有

k的取值要能使完成一次查询的时间最短。

弱随机位置敏感哈希检索方法：对于E2LSH随机性的改善，M.Bawa和T.Condie等人提出的LSH Forest减少了需要确定的参数的个数，部分地解决了这个问题。Wei Dong等人设计了自适应的LSH搜索算法模型，动态的为每次查询确定参数，现有文献指出可以使用ERC-Forest降低表哈希结果的随机性。但这些方法没有综合利用多个表的检索结果，难以达到较好的效果。

（三）、发明内容：

本发明要解决的技术问题是：克服现有技术的缺陷，提供一种位置敏感哈希随机性减弱方法。

本发明的技术方案：

一种位置敏感哈希随机性减弱方法，首先，对数据点进行随机映射，然后，进行相似计算得出L个检索向量，再将L个哈希表对应的L个检索向量构造成矩阵，最后对该矩阵列元素进行频次投票得出最终索引；L为大于等于1的自然数。

每个哈希函数对数据点在一个方向上进行映射，通过增加哈希函数的数量来提高发现真实近邻的概率，哈希函数的数量为L个；每个哈希函数都对应于一个数据集映射的结果，L个哈希函数对应L个哈希表，使用L个哈希表进行检索需要对检索结果进行融合；采用频繁项投票的方法对检索结果进行融合，选取L个哈希表对应的检索结果出现次数最多的图像；对L个哈希表进行检索的结果记为I_p，q(x_n)，其中p=1,…,L，q=1,…,k,x_n表示图像在图像集的初始序号，x_n∈[1,N]，n＝1,…,k，N表示图像集的图像数目，k表示每个哈希表的检索结果数；对L个哈希表进行检索的结果用矩阵表示为：

I = (\begin{matrix} I_{1,1} & . . . & I_{1, k} \\ . . . & . . . & . . . \\ I_{L, 1} & . . . & I_{L, k} \end{matrix})

矩阵I的每一行对应于一个哈希表的检索结果，最终索引结果可通过对矩阵I每一列进行投票的方式得出，也就是统计矩阵I每列各元素频次，将出现次数最多的元素作为最终结果，最终索引结果记为R=(I₁,…I_q，…I_k)，其中，I_q=(maxFreq(I_1，q，…,I_L,q))，maxFreq(*)表示取频次最高元素，q=1,…,k。

L个检索向量为在多个检索向量的基础上确定的最终索引基准向量。

LSH方法近几年得到了不断发展，多个领域都可以看到它的思想和应用。如在近两年许多图像检索、视频检索和物体识别方面，以及一些TRECVID评测报告很多都用到了E2LSH方法，在大规模数据的快速检索上它的作用尤为明显。虽然它在检索速度上有了明显的改进，但它的随机性却影响着算法的性能，随机性的产生主要由哈希函数族的随机性和参数的不确定性引起。本发明采用基于多哈希表投票的方法将多个检索结果综合利用，在多个检索向量的基础上确定最终索引基准向量，并用基准索引向量构造基准索引矩阵，对矩阵元素进行基于频次的投票，频次高的元素构成最终索引。这样的索引能够减弱E2LSH算法的随机性，使检索得到接近真实情况的相关图像排序。

在聚类方面，E2LSH可发挥较好的作用，但在视觉检索、物体识别中，由于视觉词典本来就不具有与文本关键词类似的确定性，如果不对E2LSH的随机性加以限制，它的性能很难得到好的发挥。用E2LSH对局部特征聚类并采用合适的减弱随机性的集成方法，可以利用它自身对增量聚类的适应性和快速距离保持映射等优点，以更小的代价达到与K-Means相当甚至可能更优的效果。

本发明的有益效果：

1、本发明能综合利用多个哈希表的信息并得出与真实近似程度相当的结果，利用多表投票的方法能够达到降低检索结果随机性的目的。

2、本发明针对E2LSH随机性的分析，提出了多哈希表投票法减弱算法的随机性，它的核心是计算矩阵的频繁项，也就是在多个表中出现频次较高的检索结果，这样使得检索信息得以综合利用。

（四）、附图说明：

图1为冲突概率与分段长度w的关系图；

图2为冲突概率与k、L和分段长度w的关系图；

图3为实验1对查询图像的检索结果；

图4为实验3对查询图像的检索结果。

（五）、具体实施方式：

位置敏感哈希随机性减弱方法为：首先，对数据点进行随机映射，然后，进行相似计算得出L个检索向量，再将L个哈希表对应的L个检索向量构造成矩阵，最后对该矩阵列元素进行频次投票得出最终索引；L为大于等于1的自然数。

I = (\begin{matrix} I_{1,1} & . . . & I_{1, k} \\ . . . & . . . & . . . \\ I_{L, 1} & . . . & I_{L, k} \end{matrix})

矩阵I的每一行对应于一个哈希表的检索结果，最终索引结果可通过对矩阵I每一列进行投票的方式得出，也就是统计矩阵I每列各元素频次，将出现次数最多的元素作为最终结果，最终索引结果记为R=(I₁,…I_q,…I_k)，其中，I_q=(maxFreq(I_1，q，…,I_L,q))，maxFreq(*)表示取频次最高元素，q=1,…,k。

实验结果：

选取TRECVID部分图像进行实验，检索的目标为“歌手”，共有24幅相关图像。每次实验需要先用E2LSH对数据集建立索引，由于哈希函数的确定需要产生随机数，所以桶分配的结果会有不同，如表1所示。其中桶分配结果给出的是每个表的组成。如实验2包含两个桶链，这两个桶链分别包含253个和1个桶。搜索个数表示在数据集中参与相似计算的图像的数目，这个数目就是包含相关图像的桶（相关桶）中点（图像）的数目。AP(Average Precision，平均检准率)值是在前200幅图像上计算得来的。

表1不同哈希函数在实验集上运算结果

建立索引后，利用桶分配的结果进行检索。由于桶分配的结果不同，查询范围和检索得到的相关图像的数目也不同，如表1所示。在实验1和实验2中，由于分配结果中点的数目几乎相同，所以相关桶链包含了所有查询相关图像，这些图像都被检出。实验3相关桶中点数减少，检出的相关图像也减少。实验4和实验5相关桶中的点更少，检出结果相应的也很少。可见，E2LSH虽然加快了检索速度，但如果分桶不合适，会造成检索结果有很多遗漏。本实验中的分桶结果就需要进一步完善。即使相关桶包含的点数几乎相同，检索结果也会有所差异。图3和图4分别给出了实验1和实验3对查询图像的检索结果。可见，检索结果的排序是不同的。

同一组相关图像的不同相似度排序体现了E2LSH方法的随机性，为了获取真实的索引，需要对多次检索结果进行融合。而多次检索的结果是存在一定规律性的。虽然每次哈希运算桶分配情况不同，检索结果中同一图像的序号可能不同，但综合多次结果来看，图像间相似度基本不变。这说明哈希函数对图像有距离保持作用，同时，检索结果是互相独立的。另外，虽然有些检索结果会遗漏部分相关图像，但不影响其它检索结果。由此可见，对多个表的检索结果采用投票的方法进行融合，可以减弱随机性，得出接近真实情况的最终结果。我们采用多表投票法确立最终索引。

多哈希表投票法减弱随机性主要分为以下几步：

第一，通过AP值及检出率从多个表中选取基准索引向量。由于检出个数及排序情况不同，仅仅利用AP值的高低以难于直接反映检索结果的优劣。可以选取AP较高的结果，如表2中的实验1、2、3、5的检索结果对应的向量X₁,X₂,X₃,X₅，再在此基础上选取检出率较高的结果作为最终索引的基准索引向量，如表2中的实验1、2、3的检索结果对应的向量X₁,X₂,X₃。

表2不同哈希函数对同一查询图像检索结果

第二，构造基准索引矩阵。由于上述基准索引向量的长度可能不同，所以需要对部分基准索引向量进行补零。补零的位置通过计算修正最小编辑距离(Modified Minimum Edit Distance,MMED)确定。MMED是指将一个向量在不同位置插入某元素补成与另外一个向量等长后两者编辑距离的最小值。如向量X=(x₁,x₂,…,x_m)和向量Y=(y₁,y₂,…,y_n)，其中m≠n。若n=max(m,n)，则在X中插入的元素插入元素x_p，得出X′=(x₁,x₂,…,x_p…,x_n)，其中p表示插入位置。然后计算两者的编辑距离，该距离为两个向量对应位置不同元素个数之和，插入位置距离强制为1，即

其中

sim (x_{i}, y_{i}) = \{\begin{matrix} 1 & if x_{i} &NotEqual; y_{i} \\ 0 & if x_{i} = y_{i} \end{matrix} .

不同的插入位置p得出的ED不同，使得ED最小的p就是需要补零的位置，

得出p后对X补零，就可进一步构造基准索引矩阵。对第一步得出的基准索引向量，计算它们之间的MMED，可知X₁和X₃在p=3时MMED最小，将X₃补成（18190252826202229273234242337393133403541303638），并构造基准索引矩阵

I = (\begin{matrix} 18 & 19 & 21 & . . . & 36 & 38 \\ 19 & 18 & 21 & . . . & 36 & 38 \\ 18 & 19 & 0 & . . . & 36 & 38 \end{matrix}) .

第三，对基准索引矩阵进行投票。得出基准索引矩阵后，统计矩阵每列各元素频次，将出现次数最多的元素作为最终结果，可得投票结果为

(\begin{matrix} 18 & 19 & 21 & 25 & 28 & 26 & 20 & 22 & . . . & 38 \\ 2 & 2 & 2 & 3 & 3 & 2 & 2 & 3 & . . . & 3 \end{matrix}),

最终索引为（1819212528262022…3638），经验证，该方法与对图像进行特征直接检索结果几乎相同，说明它比较好的反映了真实的近似程度。

Claims

1.一种位置敏感哈希随机性减弱方法，其特征是：首先，对数据点进行随机映射，然后，进行相似计算得出L个检索向量，再将L个哈希表对应的L个检索向量构造成矩阵，最后对该矩阵列元素进行频次投票得出最终索引；L为大于等于1的自然数。

2.根据权利要求1所述的位置敏感哈希随机性减弱方法，其特征是：每个哈希函数对数据点在一个方向上进行映射，通过增加哈希函数的数量来提高发现真实近邻的概率，哈希函数的数量为L个；每个哈希函数都对应于一个数据集映射的结果，L个哈希函数对应L个哈希表，使用L个哈希表进行检索需要对检索结果进行融合；采用频繁项投票的方法对检索结果进行融合，选取L个哈希表对应的检索结果出现次数最多的图像；对L个哈希表进行检索的结果记为I_p，q(x_n)，其中p=1,…,L，q=1,…,k,x_n表示图像在图像集的初始序号，x_n∈[1,N]，n＝1,…,k，N表示图像集的图像数目，k表示每个哈希表的检索结果数；对L个哈希表进行检索的结果用矩阵表示为：

I = (\begin{matrix} I_{1,1} & . . . & I_{1, k} \\ . . . & . . . & . . . \\ I_{L, 1} & . . . & I_{L, k} \end{matrix})

3.根据权利要求1所述的位置敏感哈希随机性减弱方法，其特征是：所述L个检索向量为在多个检索向量的基础上确定的最终索引基准向量。