CN101894130B - 基于稀疏降维的谱哈希索引方法 - Google Patents

基于稀疏降维的谱哈希索引方法 Download PDF

Info

Publication number
CN101894130B
CN101894130B CN2010101965390A CN201010196539A CN101894130B CN 101894130 B CN101894130 B CN 101894130B CN 2010101965390 A CN2010101965390 A CN 2010101965390A CN 201010196539 A CN201010196539 A CN 201010196539A CN 101894130 B CN101894130 B CN 101894130B
Authority
CN
China
Prior art keywords
image
vector
space
low
hamming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010101965390A
Other languages
English (en)
Other versions
CN101894130A (zh
Inventor
吴飞
张啸
邵健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN2010101965390A priority Critical patent/CN101894130B/zh
Publication of CN101894130A publication Critical patent/CN101894130A/zh
Application granted granted Critical
Publication of CN101894130B publication Critical patent/CN101894130B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于稀疏表达和拉普拉斯图的哈希索引方法。包括如下步骤:1)将原始图像利用SIFT方法提取图像底层特征;2)对图像底层特征利用K-means方法进行聚类,用每个聚类中心作为视觉单词;3)利用直接的稀疏主成分分析方法对视觉单词的向量进行降维并稀疏化;4)利用有权重的拉普拉斯-贝尔特拉米算子的特征方程和特征根,求得欧氏空间到汉明空间的映射函数,得到低维汉明空间向量;5)对于待检索的图像,在低维汉明空间中计算待检索的图像与原始图像的汉明距离,作为图像相似度计算结果。本发明用稀疏降维方式代替谱哈希的主成分分析降维方式,增加了结果的可解释性;将欧氏空间的搜索问题映射到汉明空间,大大提高了搜索效率。

Description

基于稀疏降维的谱哈希索引方法
技术领域
本发明涉及图像搜索方法,尤其涉及一种基于稀疏降维的谱哈希索引方法。
背景技术
随着互联网的不断发展,传统图像搜索方法中索引机制已很难满足用户高层次需求,以指数级迅猛增长的海量数据给提高搜索引擎效率带来了巨大挑战。
当前,海量图像数据呈现高维、多阶特性。对于给定的互联网图像数据,其中提取的视觉特征等动辄成百上千,这些高维数据给图像的相似度计算和语义分析带来了诸多困难。
为了提高高维图像数据处理效率,下述三种方法被广泛研究,成为国际国内学术热点:
1)流形学习。近来,研究者已普遍认识到数据所具有高维特征本质上被有限自由度决定,分析数据几何拓扑分布结构不仅能优化数据间相似性计算,也能够大大降低计算复杂度,这一方面代表性工作是“流形学习”。流形学习理论通过构建离散数据间形成的相邻图,应用谱分析手段获得高维特征内嵌子空间,包括等距映射(ISOMAP)、局部线性嵌入(LLE)和保局投影(LPP)等代表性方法。作为一种有效的高维降维手段,流形学习在图像语义理解和计算机视觉等领域得到了深入研究和广泛应用。
2)变量选择(Variable Selection)。在数据分析过程中,当样本特征维数远远大于样本数目时,传统方法难以准确进行数据预测与识别,斯坦福大学Tibshirani和加州大学伯克利分校Breiman几乎同时提出了对特征系数施以l1-范式约束的lasso(least absolution shrinkage and selection operator)思想,促使被选择出来的特征尽可能稀疏,以保证结果稳定性和提高数据处理过程的可解释性(interpretable)。由于从图像中可提取特征众多,如何从高维数据中寻找有效稀疏表达,在稀疏表达基础上理解图像所蕴含语义,成为当前计算机视觉和模式识别领域一个发展趋势。
3)高维索引。与海量环境中文本检索可以按照字典序通过倒排表和Pat数组等模型进行高效索引不同,从多媒体数据提取的无序高维特征难以进行以字典序为基础高效索引。目前以R树、K-D-B树及X树等树形结构为代表的多维索引技术虽然取得了一些进展,然而研究表明:大多数多维索引结构的时间开销为指数级,不适合维数过高的情况(比如几十维),其查询效率甚至低于对原始数据进行顺序扫描的查询效率。同时,如何保证数据的语义索引(SemanticHashing),即在索引空间中所计算相似度与在原始高维空间中所计算相似度保持一致,成为热点问题。
如何利用机器学习方法实现高维数据的“语义索引”。
为了提高高维数据相似度匹配的效率,一些索引方法被相继提出。
在这一方面,LSH(Locality Sensitive Hash)是一种代表性的高维特征索引技术。LSH通过一组哈希函数的映射结果达到高维索引目的。在LSH中,所使用的哈希函数必须满足如下条件:任意两个高维数据通过哈希函数作映射时发生冲突概率正比于数据点在原始高维空间之间距离。这样,任意两个相似的高维数据通过哈希函数会以很大概率被分配到哈希表中同一项中。由于LSH是基于概率模型产生编码,在实际应用中难以保证稳定的表现,往往会产生令人难以满意的结果。从图1可以看出,随着编码位数的上升,LSH的准确率提升比较缓慢,而迭代收敛的速度也可能非常慢。
机器学习的思路被引入索引方法后产生了RBM(restricted Boltzmannmachine——RBM)和stump Boosting SSC等方法。RBM利用一种两层无向图形学的模型,产生RBM机来处理指数型分布族。该模型最底层代表原空间向量,最高层代表得到的数据二进制编码,最顶上的两层形成了一个无向两偶图,其余层形成了一个有向的自上而下联系的信念网络。每层均通过训练RBM机,得到隐藏变量。预处理完,每一层各自的RBM展开用以建立一个深的自动编码器。如果随机的二进制特征活动是确定的、实值概率,那么我们可以通过整个网络反向传播来微调计数数据的最佳重建的权重。为了让编码成为二进制编码,可从底层向高层的输入加入高斯噪声,由每个编码单元接受。图1显示了RBM相较于LSH有更好的表现。将RBM应用于海量数据检索,可较之LSH取得几个数量级的效率提高。但是由于RBM自身方法的复杂性,在保证精确的同时大大地牺牲了效率。
“Boosting”是一种提高任何学习方法性能的常用方法。它通过在训练数据的不同分布上反复运行一个给定的弱学习方法来工作的,然后结合由弱学习器产生的单个复合的分类器。在Boosting方法中,每个弱学习器是一个决定桩(decision stump),对于输入数据,所有弱学习器的输出是一个二进制编码。图1显示了这种Boosting程序同样比LSH编码奏效,但是稍弱于RBM。但是,Boosting仍然面临方法复杂度较高和高维索引效率较低的问题。
为了克服上述问题,基于谱分析的哈希函数(spectral hashing)被提出。谱哈希对高维数据样本集引入特征函数(eigenfunction),通过主成份分析(Principle component analysis,PCA)对高维数据降维后的结果直接进行二元编码,不仅提高了索引效率,而且在索引空间中所计算样本距离与高维空间所计算样本距离能保持一致。但是,谱哈希编码过程中将使用PCA对原始空间进行降维。PCA虽然是常用的数据降维方式,但PCA求得的主成分是几乎所有原始变量的线性组合,而实际中降维所得的变量往往仅与原始的某几个变量有关。基于这点,本发明引入Sparse PCA(SPCA)的方法,对谱哈希方法进行了改进。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于稀疏降维的谱哈希索引方法。
基于稀疏表达和拉普拉斯图的哈希索引方法包括如下步骤:
1)将原始图像利用SIFT方法提取图像底层特征,得到具有旋转不变性和规模不变性的图像底层特征;
2)对具有旋转不变性和规模不变性的图像底层特征利用K-means方法进行聚类,用每个聚类中心作为视觉单词,从而将原始图像表示为高维空间的视觉单词的向量;
3)利用直接的稀疏主成分分析方法对高维空间的视觉单词的向量进行降维并稀疏化,得到低维空间的视觉单词的稀疏向量;
4)利用有权重的拉普拉斯-贝尔特拉米算子的特征方程和特征根,求得欧氏空间到汉明空间的映射函数,从而将低维空间的视觉单词的稀疏向量转化为低维汉明空间向量;
5)对于待检索的图像,在低维汉明空间中计算待检索的图像与原始图像的汉明距离,作为图像相似度计算结果,得到待检索的图像的相似图像。
所述的将原始图像利用SIFT方法提取图像底层特征,得到具有旋转不变性和规模不变性的图像底层特征步骤为:
对于包含N幅原始图像的训练集,定义图像的尺度空间L(x,y,σ)为如下公式:
L(x,y,σ)=G(x,yσ)*I(x,y)
其中G(x,y,σ)是尺度可变高斯函数,
Figure BSA00000155152800031
(x,y)是空间坐标,σ是尺度坐标,I(x,y)是图像的像素值,则利用不同尺度坐标生成高斯差分尺度空间D(x,y,σ),公式如下:
D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ)
k为不同尺度空间的变化系数,计算每个像素点的D(x,y,σ),并与其相邻的8个像素点以及相邻尺度空间的9个像素点,共26个像素点进行比较,找到变化最大的像素点,即为原始图像的关键像素点;关键像素点26个方向中变化最大的方向作为关键像素点的变化方向,以每个关键像素点为中心,四周取64个像素点,每相邻的4个像素点为一像素组,共得到16像素组,每个像素组的四个像素点的方向做向量相加得到像素组的方向,再投射到每个关键像素点的上、下、左、右、左上、右上、左下、右下八个方向上,得到8个坐标值,共得到128个坐标值,为一个图像底层特征。
所述的对具有旋转不变性和规模不变性的图像底层特征利用K-means方法进行聚类,用每个聚类中心作为视觉单词,从而将原始图像表示为高维空间的视觉单词的向量步骤为:
用m表示降维的维度,将所有图像底层特征中的前m个作为m类,各自为自己的聚类中心,然后将剩余的图像底层特征分别计算与各个聚类中心的距离,并将其加入距离最近的一类中,取各个类所有图像底层特征的算术平均作为新的聚类中心,重复这一过程直至收敛,此时所有图像底层特征聚为m类,将每类的中心作为视觉单词,统计每幅图像中每个视觉单词出现的次数,得到的m维向量用来表示原始图像。
所述的利用直接的稀疏主成分分析方法对高维空间的视觉单词的向量进行降维并稀疏化,得到低维空间的视觉单词的稀疏向量步骤为:
将原始图像构成的向量作为行向量将训练集和测试集表示成矩阵形式,即原集合的特征矩阵X,根据如下公式计算特征矩阵的协方差矩阵∑:
∑=E[(X-E[X])(X-E(X))T]
其中E表示期望计算,T表示矩阵转置,利用半正定约束近似计算协方差矩阵∑的稀疏主成分p,并利用如下公式更新矩阵∑:
∑=∑-(pT∑p)ppT
重复这一过程直到找到∑的m个稀疏主成分{p1,...,pm},将这些主成分向量作为矩阵的列向量,得到矩阵M,从而通过B=X×M得到新的N×m的低维空间的稀疏向量矩阵B。
所述的利用有权重的拉普拉斯-贝尔特拉米算子的特征方程和特征根,求得欧氏空间到汉明空间的映射函数,从而将低维空间的视觉单词的稀疏向量转化为低维汉明空间向量步骤为:
定义矩阵B的第j个列向量为B(:,j),则
Figure BSA00000155152800041
可以定义如下:
δ j k = 1 - e - ϵ 2 2 | kπ B ( : , j ) max - B : , j min | 2
其中k=1,...N,
Figure BSA00000155152800052
分别表示B(:,j)的最大值和最小值,ε是一个常数。这样对于每一个列向量B(:,j),求得N个因此共得到N×m个
Figure BSA00000155152800055
排序
Figure BSA00000155152800056
取前m个
Figure BSA00000155152800057
记为
Figure BSA00000155152800058
假设对应于xi的二元编码是yi∈{-1,1}m,则其第j个映射值y(i,j)由如下映射函数求得:
y ( i , j ) = Θ ( δ j min , B ( i , t ) ) - sin ( π 2 + kπ B ( : , t ) max - B ( : , t ) min B ( i , t ) )
其中
Figure BSA000001551528000510
Figure BSA000001551528000511
的第j个最小值,它由k和B的第t列求得,
Figure BSA000001551528000512
Figure BSA000001551528000513
分别表示B(:,t)的最大值和最小值,i=(i,...N),j=(1,...m),以0作为阈值,所得值大于0则用1表示,否则则用-1表示,将欧式空间向量其转化为二元编码,即是汉明空间向量。
所述的对于待检索的图像,在低维汉明空间中计算待检索的图像与原始图像的汉明距离,作为图像相似度计算结果,得到待检索的图像的相似图像步骤为:
汉明空间向量是由{-1,1}组成的向量,向量之间的距离用汉明距离来度量,即将同维度向量之间不同元素的个数作为向量之间的距离,对于待检索的图像,得到汉明空间向量与原始图像的汉明空间向量之间的汉明距离,返回汉明距离最近的一个向量所对应的原始图像,如果有多个向量与待检索图像的汉明距离相等,则全部作为待检索的图像的相似图像返回。
本发明与现有技术相比具有的有益效果:
1)本发明用稀疏降维方式代替谱哈希的主成分分析降维方式,增加了结果的可解释性;
2)本发明将欧氏空间的搜索问题映射到汉明空间,大大提高了搜索效率。
附图说明
图1是LSH、RBM、stumps boosting SSC方法的比较。在海明距离2作为搜索半径,随着维度增加各种方法的准确率;
图2是本发明与谱哈希和RBM方法在F1评价系统下的对比结果,其中点划线为本发明结果,实线为谱哈希结果,虚线为RBM结果;
图3是本发明与谱哈希和RBM方法在AUC评价系统下的对比结果,其中点划线为本发明结果,实线为谱哈希结果,虚线为RBM结果。
具体实施方式
基于稀疏表达和拉普拉斯图的哈希索引方法包括如下步骤:
1)将原始图像利用SIFT方法提取图像底层特征,得到具有旋转不变性和规模不变性的图像底层特征;
2)对具有旋转不变性和规模不变性的图像底层特征利用K-means方法进行聚类,用每个聚类中心作为视觉单词,从而将原始图像表示为高维空间的视觉单词的向量;
3)利用直接的稀疏主成分分析方法对高维空间的视觉单词的向量进行降维并稀疏化,得到低维空间的视觉单词的稀疏向量;
4)利用有权重的拉普拉斯-贝尔特拉米算子的特征方程和特征根,求得欧氏空间到汉明空间的映射函数,从而将低维空间的视觉单词的稀疏向量转化为低维汉明空间向量;
5)对于待检索的图像,在低维汉明空间中计算待检索的图像与原始图像的汉明距离,作为图像相似度计算结果,得到待检索的图像的相似图像。
所述的将原始图像利用SIFT方法提取图像底层特征,得到具有旋转不变性和规模不变性的图像底层特征步骤为:
对于包含N幅原始图像的训练集,定义图像的尺度空间L(x,y,σ)为如下公式:
L(x,y,σ)=G(x,yσ)*I(x,y)
其中G(x,y,σ)是尺度可变高斯函数,
Figure BSA00000155152800061
(x,y)是空间坐标,σ是尺度坐标,I(x,y)是图像的像素值,则利用不同尺度坐标生成高斯差分尺度空间D(x,y,σ),公式如下:
D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ)
k为不同尺度空间的变化系数,计算每个像素点的D(x,y,σ),并与其相邻的8个像素点以及相邻尺度空间的9个像素点,共26个像素点进行比较,找到变化最大的像素点,即为原始图像的关键像素点;关键像素点26个方向中变化最大的方向作为关键像素点的变化方向,以每个关键像素点为中心,四周取64个像素点,每相邻的4个像素点为一像素组,共得到16像素组,每个像素组的四个像素点的方向做向量相加得到像素组的方向,再投射到每个关键像素点的上、下、左、右、左上、右上、左下、右下八个方向上,得到8个坐标值,共得到128个坐标值,为一个图像底层特征。
所述的对具有旋转不变性和规模不变性的图像底层特征利用K-means方法进行聚类,用每个聚类中心作为视觉单词,从而将原始图像表示为高维空间的视觉单词的向量步骤为:
用m表示降维的维度,将所有图像底层特征中的前m个作为m类,各自为自己的聚类中心,然后将剩余的图像底层特征分别计算与各个聚类中心的距离,并将其加入距离最近的一类中,取各个类所有图像底层特征的算术平均作为新的聚类中心,重复这一过程直至收敛,此时所有图像底层特征聚为m类,将每类的中心作为视觉单词,统计每幅图像中每个视觉单词出现的次数,得到的m维向量用来表示原始图像。
所述的利用直接的稀疏主成分分析方法对高维空间的视觉单词的向量进行降维并稀疏化,得到低维空间的视觉单词的稀疏向量步骤为:
将原始图像构成的向量作为行向量将训练集和测试集表示成矩阵形式,即原集合的特征矩阵X,根据如下公式计算特征矩阵的协方差矩阵∑:
∑=E[(X-E[X])(X-E(X))T]
其中E表示期望计算,T表示矩阵转置,利用半正定约束近似计算协方差矩阵∑的稀疏主成分p,并利用如下公式更新矩阵∑:
∑=∑-(pT∑p)ppT
重复这一过程直到找到∑的m个稀疏主成分{p1,...,pm},将这些主成分向量作为矩阵的列向量,得到矩阵M,从而通过B=X×M得到新的N×m的低维空间的稀疏向量矩阵B。
所述的利用有权重的拉普拉斯-贝尔特拉米算子的特征方程和特征根,求得欧氏空间到汉明空间的映射函数,从而将低维空间的视觉单词的稀疏向量转化为低维汉明空间向量步骤为:
定义矩阵B的第j个列向量为B(:,j),则
Figure BSA00000155152800071
可以定义如下:
δ j k = 1 - e - ϵ 2 2 | kπ B ( : , j ) max - B : , j min | 2
其中k=1,...N,
Figure BSA00000155152800073
Figure BSA00000155152800074
分别表示B(:,j)的最大值和最小值,ε是一个常数。这样对于每一个列向量B(:,j),求得N个
Figure BSA00000155152800075
因此共得到N×m个
Figure BSA00000155152800076
排序
Figure BSA00000155152800077
取前m个
Figure BSA00000155152800078
记为
Figure BSA00000155152800079
假设对应于xi的二元编码是yi∈{-1,1}m,则其第j个映射值y(i,j)由如下映射函数求得:
y ( i , j ) = Θ ( δ j min , B ( i , t ) ) - sin ( π 2 + kπ B ( : , t ) max - B ( : , t ) min B ( i , t ) )
其中
Figure BSA00000155152800083
的第j个最小值,它由k和B的第t列求得,
Figure BSA00000155152800085
分别表示B(:,t)的最大值和最小值,i=(i,...N),j=(1,...m),以0作为阈值,所得值大于0则用1表示,否则则用-1表示,将欧式空间向量其转化为二元编码,即是汉明空间向量。
所述的对于待检索的图像,在低维汉明空间中计算待检索的图像与原始图像的汉明距离,作为图像相似度计算结果,得到待检索的图像的相似图像步骤为:
汉明空间向量是由{-1,1}组成的向量,向量之间的距离用汉明距离来度量,即将同维度向量之间不同元素的个数作为向量之间的距离,对于待检索的图像,得到汉明空间向量与原始图像的汉明空间向量之间的汉明距离,返回汉明距离最近的一个向量所对应的原始图像,如果有多个向量与待检索图像的汉明距离相等,则全部作为待检索的图像的相似图像返回。
实施例:我们在TREC-V2009数据集上具体实现了上述方法。在所有关键帧中随机选取3047幅图像作为原始图像,利用度可变高斯函数计算每一个像素点,得到关键像素点,提取图像底层特征,再用k-means方法表示为300维空间的视觉单词的向量,从而形成原始图像特征矩阵X。再通过下述方法步骤得到汉明空间向量。
输入:原始训练图像集合X和编码长度m;
输出:每幅图像的二元编码;
方法描述:
步骤1:计算X的协方差矩阵∑;
步骤2:计算∑的m个稀疏主成分得到矩阵M;
步骤3:B=X×M;
步骤4:计算矩阵∑的N×m个
Figure BSA00000155152800086
并升序排列;
步骤5:将B映射到汉明空间。
另外随机抽取45幅图像作为待检索图像,计算求得待检索图像与原始图像的汉明距离,返回相似图像。返回结果与现有技术谱哈希、RBM的对比结果如图2、图3所示。可以看出,我们的方法优于现有方法。

Claims (1)

1.一种基于稀疏表达和拉普拉斯图的哈希索引方法,其特点在于包括如下步骤:
1)将原始图像利用SIFT方法提取图像底层特征,得到具有旋转不变性和规模不变性的图像底层特征;
2)对具有旋转不变性和规模不变性的图像底层特征利用K-means方法进行聚类,用每个聚类中心作为视觉单词,从而将原始图像表示为高维空间的视觉单词的向量;
3)利用直接的稀疏主成分分析方法对高维空间的视觉单词的向量进行降维并稀疏化,得到低维空间的视觉单词的稀疏向量;
4)利用有权重的拉普拉斯-贝尔特拉米算子的特征方程和特征根,求得欧氏空间到汉明空间的映射函数,从而将低维空间的视觉单词的稀疏向量转化为低维汉明空间向量;
5)对于待检索的图像,在低维汉明空间中计算待检索的图像与原始图像的汉明距离,作为图像相似度计算结果,得到待检索的图像的相似图像;
所述的将原始图像利用SIFT方法提取图像底层特征,得到具有旋转不变性和规模不变性的图像底层特征步骤为:
对于包含N幅原始图像的训练集,定义图像的尺度空间L(x,y,σ)为如下公式:L(x,y,σ)=G(x,y,σ)*I(x,y)
其中G(x,y,σ)是尺度可变高斯函数,(x,y)是空间坐标,σ是尺度坐标,I(x,y)是图像的像素值,则利用不同尺度坐标生成高斯差分尺度空间D(x,y,σ),公式如下:
D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ)
k为不同尺度空间的变化系数,计算每个像素点的D(x,y,σ),并与其相邻的8个像素点以及相邻尺度空间的9个像素点,共26个像素点进行比较,找到变化最大的像素点,即为原始图像的关键像素点;关键像素点26个方向中变化最大的方向作为关键像素点的变化方向,以每个关键像素点为中心,四周取64个像素点,每相邻的4个像素点为一像素组,共得到16像素组,每个像素组的四个像素点的方向做向量相加得到像素组的方向,再投射到每个关键像素点的上、下、左、右、左上、右上、左下、右下八个方向上,得到8个坐标值,共得到128个坐标值,为一个图像底层特征; 
所述的对具有旋转不变性和规模不变性的图像底层特征利用K-means方法进行聚类,用每个聚类中心作为视觉单词,从而将原始图像表示为高维空间的视觉单词的向量步骤为:
用m表示降维的维度,将所有图像底层特征中的前m个作为m类,各自为自己的聚类中心,然后将剩余的图像底层特征分别计算与各个聚类中心的距离,并将其加入距离最近的一类中,取各个类所有图像底层特征的算术平均作为新的聚类中心,重复这一过程直至收敛,此时所有图像底层特征聚为m类,将每类的中心作为视觉单词,统计每幅图像中每个视觉单词出现的次数,得到的m维向量用来表示原始图像;
所述的利用直接的稀疏主成分分析方法对高维空间的视觉单词的向量进行降维并稀疏化,得到低维空间的视觉单词的稀疏向量步骤为:
将原始图像构成的向量作为行向量将训练集和测试集表示成矩阵形式,即原集合的特征矩阵X,根据如下公式计算特征矩阵的协方差矩阵∑:
∑=E[(X-E[X])(X-E(X))T]
其中E表示期望计算,T表示矩阵转置,利用半正定约束近似计算协方差矩阵∑的稀疏主成分p,并利用如下公式更新矩阵∑:
∑=∑-(pT∑p)ppT
重复这一过程直到找到∑的m个稀疏主成分{p1,...,pm},将这些主成分向量作为矩阵的列向量,得到矩阵M,从而通过B=X×M得到新的N×m的低维空间的稀疏向量矩阵B;
所述的利用有权重的拉普拉斯-贝尔特拉米算子的特征方程和特征根,求得欧氏空间到汉明空间的映射函数,从而将低维空间的视觉单词的稀疏向量转化为低维汉明空间向量步骤为:
定义矩阵B的第j个列向量为B(:,j),则 
Figure RE-FSB00000594470600021
可以定义如下:
Figure RE-FSB00000594470600022
其中k=1,...N, 
Figure RE-FSB00000594470600023
和 
Figure RE-FSB00000594470600024
分别表示B(:,j)的最大值和最小值,ε是一个常数,这样对于每一个列向量B(:,j),求得N个 
Figure RE-FSB00000594470600025
因此共得到N×m个 
Figure RE-FSB00000594470600026
(k=1,...N;j=1,...m),排序 
Figure RE-FSB00000594470600027
取前m个 
Figure RE-FSB00000594470600028
记为 
Figure RE-FSB00000594470600029
假设对应于xi的二元编码是yi∈{-1,1}m,则其第j个映射值y(i,j)由如下映射函数求得: 
Figure RE-FSB00000594470600031
其中 
Figure RE-FSB00000594470600032
为 
Figure RE-FSB00000594470600033
的第j个最小值,它由k和B的第t列求得, 
Figure RE-FSB00000594470600034
和 
Figure RE-FSB00000594470600035
分别表示B(:, t)的最大值和最小值,i=(i,...N),j=(1,...m),以0作为阈值,所得值大于0则用1表示,否则则用-1表示,将欧式空间向量其转化为二元编码,即是汉明空间向量;
所述的对于待检索的图像,在低维汉明空间中计算待检索的图像与原始图像的汉明距离,作为图像相似度计算结果,得到待检索的图像的相似图像步骤为:
汉明空间向量是由{-1,1}组成的向量,向量之间的距离用汉明距离来度量,即将同维度向量之间不同元素的个数作为向量之间的距离,对于待检索的图像,得到汉明空间向量与原始图像的汉明空间向量之间的汉明距离,返回汉明距离最近的一个向量所对应的原始图像,如果有多个向量与待检索图像的汉明距离相等,则全部作为待检索的图像的相似图像返回。 
CN2010101965390A 2010-06-08 2010-06-08 基于稀疏降维的谱哈希索引方法 Expired - Fee Related CN101894130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101965390A CN101894130B (zh) 2010-06-08 2010-06-08 基于稀疏降维的谱哈希索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101965390A CN101894130B (zh) 2010-06-08 2010-06-08 基于稀疏降维的谱哈希索引方法

Publications (2)

Publication Number Publication Date
CN101894130A CN101894130A (zh) 2010-11-24
CN101894130B true CN101894130B (zh) 2011-12-21

Family

ID=43103321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101965390A Expired - Fee Related CN101894130B (zh) 2010-06-08 2010-06-08 基于稀疏降维的谱哈希索引方法

Country Status (1)

Country Link
CN (1) CN101894130B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130066452A1 (en) * 2011-09-08 2013-03-14 Yoshiyuki Kobayashi Information processing device, estimator generating method and program
KR101191223B1 (ko) * 2011-11-16 2012-10-15 (주)올라웍스 이미지 검색 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
CN103294676A (zh) * 2012-02-24 2013-09-11 北京明日时尚信息技术有限公司 一种基于gist全局特征和sift局部特征的网络图片内容重复检测方法
CN103488664B (zh) * 2013-05-03 2016-12-28 中国传媒大学 一种图像检索方法
CN103412960B (zh) * 2013-08-31 2016-08-10 西安电子科技大学 基于双边随机投影的图像感知哈希方法
CN103678504B (zh) * 2013-11-19 2017-01-18 西安华海盈泰医疗信息技术有限公司 基于相似度的乳腺图像的匹配图像检索方法及检索系统
CN103810252B (zh) * 2014-01-21 2017-02-08 南京信息工程大学 基于群稀疏特征选择的图像检索方法
CN104951791B (zh) * 2014-03-26 2018-10-09 华为技术有限公司 数据分类方法和装置
CN104978729A (zh) * 2014-04-08 2015-10-14 华中科技大学 一种基于数据感知的图像哈希方法
CN104021234B (zh) * 2014-06-30 2017-04-19 中国科学院自动化研究所 一种基于自适应位分配哈希算法的大规模图像库检索方法
CN104199922B (zh) * 2014-09-01 2019-05-03 中国科学院自动化研究所 一种基于局部相似哈希算法的大规模图像库检索方法
CN104199923B (zh) * 2014-09-01 2017-09-12 中国科学院自动化研究所 基于最优k均值哈希算法的大规模图像库检索方法
CN104268564B (zh) * 2014-09-16 2017-11-10 南京航空航天大学 一种基于截断幂的稀疏基因表达数据分析方法
CN104217222B (zh) * 2014-09-25 2017-11-21 中国科学院自动化研究所 一种基于随机采样哈希表示的图像匹配方法
CN104317902B (zh) * 2014-10-24 2017-07-28 西安电子科技大学 基于局部保持迭代量化哈希的图像检索方法
CN104392231B (zh) * 2014-11-07 2019-03-22 南京航空航天大学 基于分块与稀疏主特征提取的快速协同显著性检测方法
CN104408151B (zh) * 2014-12-03 2018-11-27 天津南大通用数据技术股份有限公司 支持用户自定义的列存数据库函数索引创建方法及装置
CN105205497B (zh) * 2015-09-15 2019-01-15 北京大学深圳研究生院 一种基于局部pca白化的图像表示方法和处理装置
CN105740428B (zh) * 2016-01-29 2019-02-01 北京大学 一种基于b+树的高维磁盘索引结构和图像检索方法
CN105843555B (zh) * 2016-03-18 2018-11-02 南京邮电大学 分布式存储中基于随机梯度下降的谱哈希方法
CN106020724A (zh) * 2016-05-20 2016-10-12 南京邮电大学 一种基于数据映射算法的近邻存储方法
CN108629593B (zh) * 2018-04-28 2022-03-01 招商银行股份有限公司 基于深度学习的欺诈交易识别方法、系统及存储介质
CN108596630B (zh) * 2018-04-28 2022-03-01 招商银行股份有限公司 基于深度学习的欺诈交易识别方法、系统及存储介质
CN109145143A (zh) * 2018-08-03 2019-01-04 厦门大学 图像检索中的序列约束哈希算法
CN111695917A (zh) * 2019-03-11 2020-09-22 北京京东尚科信息技术有限公司 商品推荐方法、系统、电子设备和存储介质
CN110096697B (zh) * 2019-03-15 2022-04-12 华为技术有限公司 词向量矩阵压缩方法和装置、及获取词向量的方法和装置
CN110175642A (zh) * 2019-05-22 2019-08-27 南京农业大学 一种基于pca降维和特征二元化的菊花相似性计算方法
CN110413807B (zh) * 2019-06-24 2021-04-20 华中科技大学 一种基于内容语义元数据的图像查询方法与系统
CN111177432B (zh) * 2019-12-23 2020-11-03 北京航空航天大学 一种基于分层深度哈希的大规模图像检索方法
CN112966131B (zh) * 2021-03-02 2022-09-16 中华人民共和国成都海关 一种海关数据风控类型识别方法、海关智能化风险布控方法、装置、计算机设备及存储介质
CN113535717B (zh) * 2021-06-28 2023-07-18 福建师范大学 基于Laplacian算子和LSH技术的检索方法及其系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149759A (zh) * 2007-11-09 2008-03-26 山西大学 一种基于邻域模型的K-means初始聚类中心选择方法
CN101546332A (zh) * 2009-05-07 2009-09-30 哈尔滨工程大学 基于量子遗传优化的流形降维医学图像检索方法
CN101620638A (zh) * 2009-08-06 2010-01-06 华中科技大学 一种基于高斯混合模型的图像检索方法
CN101710334A (zh) * 2009-12-04 2010-05-19 大连理工大学 基于图像哈希的大规模图像库检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149759A (zh) * 2007-11-09 2008-03-26 山西大学 一种基于邻域模型的K-means初始聚类中心选择方法
CN101546332A (zh) * 2009-05-07 2009-09-30 哈尔滨工程大学 基于量子遗传优化的流形降维医学图像检索方法
CN101620638A (zh) * 2009-08-06 2010-01-06 华中科技大学 一种基于高斯混合模型的图像检索方法
CN101710334A (zh) * 2009-12-04 2010-05-19 大连理工大学 基于图像哈希的大规模图像库检索方法

Also Published As

Publication number Publication date
CN101894130A (zh) 2010-11-24

Similar Documents

Publication Publication Date Title
CN101894130B (zh) 基于稀疏降维的谱哈希索引方法
Jia et al. Feature dimensionality reduction: a review
CN111667884B (zh) 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
Li et al. Deep adversarial multi-view clustering network.
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
US9547807B2 (en) Image processing and object classification
CN113657450B (zh) 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
CN104615676B (zh) 一种基于最大相似度匹配的图片检索方法
CN109815357B (zh) 一种基于非线性降维及稀疏表示的遥感图像检索方法
CN111125411B (zh) 一种深度强相关哈希学习的大规模图像检索方法
Tipaldi et al. Geometrical flirt phrases for large scale place recognition in 2d range data
Ding et al. Intelligent optimization methods for high-dimensional data classification for support vector machines
CN110990596B (zh) 一种基于自适应量化多模态哈希检索方法及系统
CN107832458A (zh) 一种字符级的基于嵌套深度网络的文本分类方法
Mohebi et al. A convolutional recursive modified self organizing map for handwritten digits recognition
CN103049526A (zh) 基于双空间学习的跨媒体检索方法
CN110929080A (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN103366189A (zh) 一种高光谱遥感图像的智能化分类方法
CN112214623A (zh) 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法
US11816565B2 (en) Semantic coherence analysis of deep neural networks
CN114492566A (zh) 一种可调权重的高维数据降维方法及系统
CN108805280A (zh) 一种图像检索的方法和装置
CN107133348B (zh) 大规模图片集中基于语义一致性的近似搜索方法
Pourian et al. Pixnet: A localized feature representation for classification and visual search
CN113591930B (zh) 一种基于网络融合与图嵌入的病毒-宿主关联预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111221

Termination date: 20120608