CN101894130B

CN101894130B - 基于稀疏降维的谱哈希索引方法

Info

Publication number: CN101894130B
Application number: CN2010101965390A
Authority: CN
Inventors: 吴飞; 张啸; 邵健
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2010-06-08
Filing date: 2010-06-08
Publication date: 2011-12-21
Anticipated expiration: 2030-06-08
Also published as: CN101894130A

Abstract

本发明公开了一种基于稀疏表达和拉普拉斯图的哈希索引方法。包括如下步骤：1)将原始图像利用SIFT方法提取图像底层特征；2)对图像底层特征利用K-means方法进行聚类，用每个聚类中心作为视觉单词；3)利用直接的稀疏主成分分析方法对视觉单词的向量进行降维并稀疏化；4)利用有权重的拉普拉斯-贝尔特拉米算子的特征方程和特征根，求得欧氏空间到汉明空间的映射函数，得到低维汉明空间向量；5)对于待检索的图像，在低维汉明空间中计算待检索的图像与原始图像的汉明距离，作为图像相似度计算结果。本发明用稀疏降维方式代替谱哈希的主成分分析降维方式，增加了结果的可解释性；将欧氏空间的搜索问题映射到汉明空间，大大提高了搜索效率。

Description

基于稀疏降维的谱哈希索引方法

技术领域

本发明涉及图像搜索方法，尤其涉及一种基于稀疏降维的谱哈希索引方法。

背景技术

随着互联网的不断发展，传统图像搜索方法中索引机制已很难满足用户高层次需求，以指数级迅猛增长的海量数据给提高搜索引擎效率带来了巨大挑战。

当前，海量图像数据呈现高维、多阶特性。对于给定的互联网图像数据，其中提取的视觉特征等动辄成百上千，这些高维数据给图像的相似度计算和语义分析带来了诸多困难。

为了提高高维图像数据处理效率，下述三种方法被广泛研究，成为国际国内学术热点：

1)流形学习。近来，研究者已普遍认识到数据所具有高维特征本质上被有限自由度决定，分析数据几何拓扑分布结构不仅能优化数据间相似性计算，也能够大大降低计算复杂度，这一方面代表性工作是“流形学习”。流形学习理论通过构建离散数据间形成的相邻图，应用谱分析手段获得高维特征内嵌子空间，包括等距映射(ISOMAP)、局部线性嵌入(LLE)和保局投影(LPP)等代表性方法。作为一种有效的高维降维手段，流形学习在图像语义理解和计算机视觉等领域得到了深入研究和广泛应用。

2)变量选择(Variable Selection)。在数据分析过程中，当样本特征维数远远大于样本数目时，传统方法难以准确进行数据预测与识别，斯坦福大学Tibshirani和加州大学伯克利分校Breiman几乎同时提出了对特征系数施以l₁-范式约束的lasso(least absolution shrinkage and selection operator)思想，促使被选择出来的特征尽可能稀疏，以保证结果稳定性和提高数据处理过程的可解释性(interpretable)。由于从图像中可提取特征众多，如何从高维数据中寻找有效稀疏表达，在稀疏表达基础上理解图像所蕴含语义，成为当前计算机视觉和模式识别领域一个发展趋势。

3)高维索引。与海量环境中文本检索可以按照字典序通过倒排表和Pat数组等模型进行高效索引不同，从多媒体数据提取的无序高维特征难以进行以字典序为基础高效索引。目前以R树、K-D-B树及X树等树形结构为代表的多维索引技术虽然取得了一些进展，然而研究表明：大多数多维索引结构的时间开销为指数级，不适合维数过高的情况(比如几十维)，其查询效率甚至低于对原始数据进行顺序扫描的查询效率。同时，如何保证数据的语义索引(SemanticHashing)，即在索引空间中所计算相似度与在原始高维空间中所计算相似度保持一致，成为热点问题。

如何利用机器学习方法实现高维数据的“语义索引”。

为了提高高维数据相似度匹配的效率，一些索引方法被相继提出。

在这一方面，LSH(Locality Sensitive Hash)是一种代表性的高维特征索引技术。LSH通过一组哈希函数的映射结果达到高维索引目的。在LSH中，所使用的哈希函数必须满足如下条件：任意两个高维数据通过哈希函数作映射时发生冲突概率正比于数据点在原始高维空间之间距离。这样，任意两个相似的高维数据通过哈希函数会以很大概率被分配到哈希表中同一项中。由于LSH是基于概率模型产生编码，在实际应用中难以保证稳定的表现，往往会产生令人难以满意的结果。从图1可以看出，随着编码位数的上升，LSH的准确率提升比较缓慢，而迭代收敛的速度也可能非常慢。

机器学习的思路被引入索引方法后产生了RBM(restricted Boltzmannmachine——RBM)和stump Boosting SSC等方法。RBM利用一种两层无向图形学的模型，产生RBM机来处理指数型分布族。该模型最底层代表原空间向量，最高层代表得到的数据二进制编码，最顶上的两层形成了一个无向两偶图，其余层形成了一个有向的自上而下联系的信念网络。每层均通过训练RBM机，得到隐藏变量。预处理完，每一层各自的RBM展开用以建立一个深的自动编码器。如果随机的二进制特征活动是确定的、实值概率，那么我们可以通过整个网络反向传播来微调计数数据的最佳重建的权重。为了让编码成为二进制编码，可从底层向高层的输入加入高斯噪声，由每个编码单元接受。图1显示了RBM相较于LSH有更好的表现。将RBM应用于海量数据检索，可较之LSH取得几个数量级的效率提高。但是由于RBM自身方法的复杂性，在保证精确的同时大大地牺牲了效率。

“Boosting”是一种提高任何学习方法性能的常用方法。它通过在训练数据的不同分布上反复运行一个给定的弱学习方法来工作的，然后结合由弱学习器产生的单个复合的分类器。在Boosting方法中，每个弱学习器是一个决定桩(decision stump)，对于输入数据，所有弱学习器的输出是一个二进制编码。图1显示了这种Boosting程序同样比LSH编码奏效，但是稍弱于RBM。但是，Boosting仍然面临方法复杂度较高和高维索引效率较低的问题。

为了克服上述问题，基于谱分析的哈希函数(spectral hashing)被提出。谱哈希对高维数据样本集引入特征函数(eigenfunction)，通过主成份分析(Principle component analysis，PCA)对高维数据降维后的结果直接进行二元编码，不仅提高了索引效率，而且在索引空间中所计算样本距离与高维空间所计算样本距离能保持一致。但是，谱哈希编码过程中将使用PCA对原始空间进行降维。PCA虽然是常用的数据降维方式，但PCA求得的主成分是几乎所有原始变量的线性组合，而实际中降维所得的变量往往仅与原始的某几个变量有关。基于这点，本发明引入Sparse PCA(SPCA)的方法，对谱哈希方法进行了改进。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于稀疏降维的谱哈希索引方法。

基于稀疏表达和拉普拉斯图的哈希索引方法包括如下步骤：

1)将原始图像利用SIFT方法提取图像底层特征，得到具有旋转不变性和规模不变性的图像底层特征；

2)对具有旋转不变性和规模不变性的图像底层特征利用K-means方法进行聚类，用每个聚类中心作为视觉单词，从而将原始图像表示为高维空间的视觉单词的向量；

3)利用直接的稀疏主成分分析方法对高维空间的视觉单词的向量进行降维并稀疏化，得到低维空间的视觉单词的稀疏向量；

4)利用有权重的拉普拉斯-贝尔特拉米算子的特征方程和特征根，求得欧氏空间到汉明空间的映射函数，从而将低维空间的视觉单词的稀疏向量转化为低维汉明空间向量；

5)对于待检索的图像，在低维汉明空间中计算待检索的图像与原始图像的汉明距离，作为图像相似度计算结果，得到待检索的图像的相似图像。

所述的将原始图像利用SIFT方法提取图像底层特征，得到具有旋转不变性和规模不变性的图像底层特征步骤为：

对于包含N幅原始图像的训练集，定义图像的尺度空间L(x，y，σ)为如下公式：

L(x，y，σ)＝G(x，yσ)*I(x，y)

其中G(x，y，σ)是尺度可变高斯函数，

(x，y)是空间坐标，σ是尺度坐标，I(x，y)是图像的像素值，则利用不同尺度坐标生成高斯差分尺度空间D(x，y，σ)，公式如下：

D(x，y，σ)＝(G(x，y，kσ)-G(x，y，σ))*I(x，y)＝L(x，y，kσ)-L(x，y，σ)

k为不同尺度空间的变化系数，计算每个像素点的D(x，y，σ)，并与其相邻的8个像素点以及相邻尺度空间的9个像素点，共26个像素点进行比较，找到变化最大的像素点，即为原始图像的关键像素点；关键像素点26个方向中变化最大的方向作为关键像素点的变化方向，以每个关键像素点为中心，四周取64个像素点，每相邻的4个像素点为一像素组，共得到16像素组，每个像素组的四个像素点的方向做向量相加得到像素组的方向，再投射到每个关键像素点的上、下、左、右、左上、右上、左下、右下八个方向上，得到8个坐标值，共得到128个坐标值，为一个图像底层特征。

所述的对具有旋转不变性和规模不变性的图像底层特征利用K-means方法进行聚类，用每个聚类中心作为视觉单词，从而将原始图像表示为高维空间的视觉单词的向量步骤为：

用m表示降维的维度，将所有图像底层特征中的前m个作为m类，各自为自己的聚类中心，然后将剩余的图像底层特征分别计算与各个聚类中心的距离，并将其加入距离最近的一类中，取各个类所有图像底层特征的算术平均作为新的聚类中心，重复这一过程直至收敛，此时所有图像底层特征聚为m类，将每类的中心作为视觉单词，统计每幅图像中每个视觉单词出现的次数，得到的m维向量用来表示原始图像。

所述的利用直接的稀疏主成分分析方法对高维空间的视觉单词的向量进行降维并稀疏化，得到低维空间的视觉单词的稀疏向量步骤为：

将原始图像构成的向量作为行向量将训练集和测试集表示成矩阵形式，即原集合的特征矩阵X，根据如下公式计算特征矩阵的协方差矩阵∑：

∑＝E[(X-E[X])(X-E(X))^T]

其中E表示期望计算，T表示矩阵转置，利用半正定约束近似计算协方差矩阵∑的稀疏主成分p，并利用如下公式更新矩阵∑：

∑＝∑-(p^T∑p)pp^T

重复这一过程直到找到∑的m个稀疏主成分{p₁，...，p_m}，将这些主成分向量作为矩阵的列向量，得到矩阵M，从而通过B＝X×M得到新的N×m的低维空间的稀疏向量矩阵B。

所述的利用有权重的拉普拉斯-贝尔特拉米算子的特征方程和特征根，求得欧氏空间到汉明空间的映射函数，从而将低维空间的视觉单词的稀疏向量转化为低维汉明空间向量步骤为：

定义矩阵B的第j个列向量为B_(:，j)，则

可以定义如下：

δ_{j}^{k} = 1 - e^{- \frac{ϵ^{2}}{2} {| \frac{kπ}{B_{(:, j)}^{\max} - B_{:, j}^{\min}} |}^{2}}

其中k＝1，...N，

和分别表示B_(:，j)的最大值和最小值，ε是一个常数。这样对于每一个列向量B_(:，j)，求得N个因此共得到N×m个

排序

取前m个

记为

假设对应于x_i的二元编码是y_i∈{-1，1}^m，则其第j个映射值y(i，j)由如下映射函数求得：

y (i, j) = Θ (δ_{j}^{\min}, B (i, t)) - \sin (\frac{π}{2} + \frac{kπ}{B_{(:, t)}^{\max} - B_{(:, t)}^{\min}} B (i, t))

其中

为

的第j个最小值，它由k和B的第t列求得，

和

分别表示B_(:，t)的最大值和最小值，i＝(i，...N)，j＝(1，...m)，以0作为阈值，所得值大于0则用1表示，否则则用-1表示，将欧式空间向量其转化为二元编码，即是汉明空间向量。

所述的对于待检索的图像，在低维汉明空间中计算待检索的图像与原始图像的汉明距离，作为图像相似度计算结果，得到待检索的图像的相似图像步骤为：

汉明空间向量是由{-1，1}组成的向量，向量之间的距离用汉明距离来度量，即将同维度向量之间不同元素的个数作为向量之间的距离，对于待检索的图像，得到汉明空间向量与原始图像的汉明空间向量之间的汉明距离，返回汉明距离最近的一个向量所对应的原始图像，如果有多个向量与待检索图像的汉明距离相等，则全部作为待检索的图像的相似图像返回。

本发明与现有技术相比具有的有益效果：

1)本发明用稀疏降维方式代替谱哈希的主成分分析降维方式，增加了结果的可解释性；

2)本发明将欧氏空间的搜索问题映射到汉明空间，大大提高了搜索效率。

附图说明

图1是LSH、RBM、stumps boosting SSC方法的比较。在海明距离2作为搜索半径，随着维度增加各种方法的准确率；

图2是本发明与谱哈希和RBM方法在F1评价系统下的对比结果，其中点划线为本发明结果，实线为谱哈希结果，虚线为RBM结果；

图3是本发明与谱哈希和RBM方法在AUC评价系统下的对比结果，其中点划线为本发明结果，实线为谱哈希结果，虚线为RBM结果。

具体实施方式

基于稀疏表达和拉普拉斯图的哈希索引方法包括如下步骤：

L(x，y，σ)＝G(x，yσ)*I(x，y)

其中G(x，y，σ)是尺度可变高斯函数，

∑＝E[(X-E[X])(X-E(X))^T]

∑＝∑-(p^T∑p)pp^T

定义矩阵B的第j个列向量为B_(:，j)，则

可以定义如下：

δ_{j}^{k} = 1 - e^{- \frac{ϵ^{2}}{2} {| \frac{kπ}{B_{(:, j)}^{\max} - B_{:, j}^{\min}} |}^{2}}

其中k＝1，...N，

和

分别表示B_(:，j)的最大值和最小值，ε是一个常数。这样对于每一个列向量B_(:，j)，求得N个

因此共得到N×m个

排序

取前m个

记为

y (i, j) = Θ (δ_{j}^{\min}, B (i, t)) - \sin (\frac{π}{2} + \frac{kπ}{B_{(:, t)}^{\max} - B_{(:, t)}^{\min}} B (i, t))

其中为

的第j个最小值，它由k和B的第t列求得，和

实施例：我们在TREC-V2009数据集上具体实现了上述方法。在所有关键帧中随机选取3047幅图像作为原始图像，利用度可变高斯函数计算每一个像素点，得到关键像素点，提取图像底层特征，再用k-means方法表示为300维空间的视觉单词的向量，从而形成原始图像特征矩阵X。再通过下述方法步骤得到汉明空间向量。

输入：原始训练图像集合X和编码长度m；

输出：每幅图像的二元编码；

方法描述：

步骤1：计算X的协方差矩阵∑；

步骤2：计算∑的m个稀疏主成分得到矩阵M；

步骤3：B＝X×M；

步骤4：计算矩阵∑的N×m个

并升序排列；

步骤5：将B映射到汉明空间。

另外随机抽取45幅图像作为待检索图像，计算求得待检索图像与原始图像的汉明距离，返回相似图像。返回结果与现有技术谱哈希、RBM的对比结果如图2、图3所示。可以看出，我们的方法优于现有方法。

Claims

1.一种基于稀疏表达和拉普拉斯图的哈希索引方法，其特点在于包括如下步骤：

5)对于待检索的图像，在低维汉明空间中计算待检索的图像与原始图像的汉明距离，作为图像相似度计算结果，得到待检索的图像的相似图像；

对于包含N幅原始图像的训练集，定义图像的尺度空间L(x，y，σ)为如下公式：L(x，y，σ)＝G(x，y，σ)*I(x，y)

其中G(x，y，σ)是尺度可变高斯函数，(x，y)是空间坐标，σ是尺度坐标，I(x，y)是图像的像素值，则利用不同尺度坐标生成高斯差分尺度空间D(x，y，σ)，公式如下：

k为不同尺度空间的变化系数，计算每个像素点的D(x，y，σ)，并与其相邻的8个像素点以及相邻尺度空间的9个像素点，共26个像素点进行比较，找到变化最大的像素点，即为原始图像的关键像素点；关键像素点26个方向中变化最大的方向作为关键像素点的变化方向，以每个关键像素点为中心，四周取64个像素点，每相邻的4个像素点为一像素组，共得到16像素组，每个像素组的四个像素点的方向做向量相加得到像素组的方向，再投射到每个关键像素点的上、下、左、右、左上、右上、左下、右下八个方向上，得到8个坐标值，共得到128个坐标值，为一个图像底层特征；

用m表示降维的维度，将所有图像底层特征中的前m个作为m类，各自为自己的聚类中心，然后将剩余的图像底层特征分别计算与各个聚类中心的距离，并将其加入距离最近的一类中，取各个类所有图像底层特征的算术平均作为新的聚类中心，重复这一过程直至收敛，此时所有图像底层特征聚为m类，将每类的中心作为视觉单词，统计每幅图像中每个视觉单词出现的次数，得到的m维向量用来表示原始图像；

∑＝E[(X-E[X])(X-E(X))^T]

∑＝∑-(p^T∑p)pp^T

重复这一过程直到找到∑的m个稀疏主成分{p₁，...，p_m}，将这些主成分向量作为矩阵的列向量，得到矩阵M，从而通过B＝X×M得到新的N×m的低维空间的稀疏向量矩阵B；

定义矩阵B的第j个列向量为B_(：，j)，则