CN104112018B - 一种大规模图像检索方法 - Google Patents

一种大规模图像检索方法 Download PDF

Info

Publication number
CN104112018B
CN104112018B CN201410348791.7A CN201410348791A CN104112018B CN 104112018 B CN104112018 B CN 104112018B CN 201410348791 A CN201410348791 A CN 201410348791A CN 104112018 B CN104112018 B CN 104112018B
Authority
CN
China
Prior art keywords
image
hash function
vector
coding
hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410348791.7A
Other languages
English (en)
Other versions
CN104112018A (zh
Inventor
杨育彬
毛晓蛟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201410348791.7A priority Critical patent/CN104112018B/zh
Publication of CN104112018A publication Critical patent/CN104112018A/zh
Application granted granted Critical
Publication of CN104112018B publication Critical patent/CN104112018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种大规模图像检索方法,包含如下步骤:图像特征提取;哈希函数投影向量学习;哈希函数偏移量学习;图像特征降维;图像特征编码;图像检索。本发明能够对大规模图像进行快速检索。首先,通过学习判别式的哈希函数,提高了编码之间的判别性,从而更好地区分不同类别的图像特征;其次,利用哈希函数对图像特征进行降维和编码,减少图像特征的存储需求和检索过程的计算开销。本发明实现了高效、准确的大规模图像检索,因此具有较高的使用价值。

Description

一种大规模图像检索方法
技术领域
本发明属于计算机图像检索领域,特别是一种大规模图像检索方法。
背景技术
随着互联网的快速发展,各种网络资源日益丰富,网络数据规模也以指数级的速度增长。在互联网上存在的各种类型数据中,图像占据了大部分,目前已达到了海量规模:2010年,著名网站Flickr统计的图片总量超过了50亿。这样的数据还在持续以惊人的速度增长,若干年后将达到难以想象的规模。毫无疑问,从如此大的数据库中快速、准确地搜索用户需要的数据变得十分重要,同时也存在巨大的困难。例如,给定一幅图像,如何在大规模的数据库中快速并且准确地搜索到与给定图像相似的图像是目前热门的研究课题,然而这类应用往往存在两个重要的问题:
1)图像特征通常是高维数据,存储要求高且计算效率较低;
2)大规模数据的检索方式对效率有很高的要求。
针对这些问题,哈希索引算法在近些年被提出,其基本思想是利用多个哈希函数把高维空间中的特征映射到低维空间,哈希索引算法中最主要的一个步骤就是特征编码,近年来有很多研究人员通过引进机器学习算法学习哈希函数来构造编码,然而目前的方法还存在判别性不足等问题。
发明内容
发明目的:本发明为了解决现有技术中的问题,提出了一种大规模图像检索方法,从而有效解决大规模数据下,图像特征的快速、准确编码、检索的问题。
发明内容:本发明公开了一种大规模图像检索方法,包含如下步骤:
步骤1,图像特征提取:对待检索图像和图像数据库的每一幅图像提取特征;
步骤2,哈希函数投影向量学习:随机选取出图像数据库中若干图像的特征,组成图像特征训练集,利用图像特征训练集学习哈希函数投影向量;
步骤3,哈希函数偏移量学习:利用图像特征训练集学习哈希函数偏移量,从而得到哈希函数;
步骤4,图像特征降维:利用哈希函数对待检索图像和图像数据库的每一幅图像的图像特征进行降维,得到每一幅图像的低维特征向量;
步骤5,图像特征编码:对每一幅图像的低维特征向量进行量化,得到每一幅图像的图像特征编码;
步骤6,图像检索。
步骤1图像特征提取具体包括如下步骤:
本发明对图像特征的种类没有特别的限制,只要经过计算,每幅图像最终得到一个特征向量,作为图像特征即可。在图像检索领域常用的特征大多数都符合这个要求,例如局部二元模式(Local Binary Pattern,LBP)直方图、颜色直方图特征、GIST特征等。
步骤2哈希函数投影向量学习具体包括如下步骤:
首先,从大规模图像特征数据库中随机选取一部分作为图像特征训练集,表示为其中表示实数,每一个图像特征xie都是一个d维的列向量,每一个图像特征都有一个类别标签yie,ie取值1至N。假设图像特征共有n类,则yie的取值为区间[1,n]内的一个自然数,类别标签组成标签集合将图像特征训练集中的图像特征按不同类别进行分组,得到分组表示为G={g1,g2,…,gn},其中n表示图像特征类别数,gi表示第i组图像特征的集合,i取值1至n。分组标准为图像内容,举例来说,图像训练集中有三类图像,第一类为汽车,第二类为人,第三类为飞机,那么,汽车、人、飞机的图像各自被归为一组,汽车对应g1,其标签为y1=1;人对应g2,其标签为y2=2;飞机对应g3,其标签为y3=3。分组可以采用人工分组,也可以采用现有的计算机自动处理分组方法(例如,参见参考文献:付岩,王耀威,王伟强,高文.SVM用于基于内容的自然图像分类和检索[J].计算机学报,2003:26(10),1262-1265)。
然后,对每一组图像特征学习哈希函数投影向量。对第i组图像特征学习哈希函数投影向量的过程如下:将第i组图像特征作为一个集合M,将除第i组以外的n-1组图像特征组合成集合C。考虑到学习到的哈希函数能够获得较好的判别性,且保持M中图像特征的局部性,包括以下部分:
(1)对于集合M中的图像特征,通过计算近邻之间的距离来衡量M类的类内散列度。
(2)对于集合C中的图像特征,通过计算图像特征与图像特征中心的距离来衡量C类的类内散列度。
(3)通过计算M和C中图像特征中心的距离来衡量类间离散度。
定义学习哈希函数的目标如下:
其中列向量w表示一个哈希函数投影向量,实数t表示一个哈希函数偏移量,为类间散列度,为总类内散列度,为M类的类内散列度,为C类的类内散列度,总类内散列度是M类的类内散列度和C类的类内散列度之和。
哈希函数由投影向量和偏移量两部分组成,一个哈希函数h对图像特征x的运算称为索引,用如下方法表示:
h(x)=wTx+t
其中上标T表示矩阵或向量的转置,wTx表示w和x作向量内积运算。
对于(1),由于集合M中属于同类别的图像特征,因此,考虑图像特征之间的局部性,目的是使得近邻的图像特征经过哈希函数索引后,它们之间的距离能够最小化,即最小化以下优化目标:
其中NN(xim)表示图像特征xim在M中的近邻集合,即和xim距离最小的若干个图像特征组成的集合。Φ(w,t,xim,xjm)表示特征xim和xjm经过哈希函数索引后的差异,其中im取值1至nM,nM表示M中图像特征的个数,jm取值1至nNN,nNN表示M中每个图像特征近邻的个数。从上式看出,步骤(1)的目的是使得M中的图像特征xim和它的近邻NN(xim)在经过哈希函数索引后能够尽可能的相同,即差异最小。Φ(w,t,xim,xjm)可进一步表示为:
Φ(w,t,xim,xjm)=wT(xim-xjm)(xim-xjm)Tw,
因此,步骤(1)的优化目标可以表示为:
其中
对于步骤(2),由于集合C中包含多个类别的图像特征,如果考虑局部性,反而会使不同类的图像特征在经过哈希函数索引后保持近邻关系,因此,步骤(2)不考虑图像特征之间的局部性,而是最小化图像特征和图像特征中心的距离。具体地,对于集合C中的图像特征,本发明最小化以下优化目标:
其中μC表示C类的图像特征中心,即C类图像特征的均值,xic中ic取值1至nC,nC表示C中图像特征的个数。那么,可以得到:
其中表示为:
对于步骤(3),通过最大化M类和C类的图像特征中心来区分两类图像特征,据此可以得到如下优化目标:
其中
最后,可以看出,同时满足步骤(1)、(2)、(3),等价于最大化目标函数
其中nM表示M中图像特征的个数,nNN表示M中每个图像特征近邻的个数,nC表示C中图像特征的个数。从上述表示中可以看到,虽然学习一个哈希函数涉及到两个参数w和t,但在哈希函数投影向量学习的形式化描述中,参数t被抵消了,因此这部分只学习哈希函数投影向量,在后续步骤给出参数t的学习方法。具体地,最优w的解为对矩阵进行特征值分解后,最大特征值对应的特征向量。在实际应用中,对于gi类的图像特征往往同时学习V个哈希函数,那么V个哈希函数的投影向量对应前V个最大特征值对应的特征向量。
步骤3哈希函数偏移量学习具体包括如下步骤:
在学习到哈希函数投影向量之后,再进一步学习哈希函数偏移量。具体过程如下:从每组图像特征gi中随机选取m个图像特征对,将所用图像特征对组成一个集合P,P中共有n×m个图像特征对;任选两组图像特征gia,gib,ia,ib取值分别为1至n且ia不等于ib,每组随机选取一个图像特征组成一个图像特征对,采用这种方式,总共选取n×m个图像特征对,组成集合Q。对于一个哈希函数,在学习到w后,通过最小化P中图像特征对的编码值差异、最大化Q中图像特征对的编码值差异来学习哈希函数偏移量。具体地,对P中图像特征对(xi1,xi2),最大化以下优化目标:
其中xi1表示P中第i个图像特征对的第一个图像特征,xi2表示P中第i个图像特征对的第二个图像特征。对Q中图像特征对(xj1,xj2),最小化以下优化目标:
其中xj1表示Q中第j个图像特征对的第一个图像特征,xj2表示Q中第j个图像特征对的第二个图像特征。sign表示取符号函数:当x>0时,sign(x)=1;当x=0时,sign(x)=0;当x<0时,sign(x)=-1。最大化要求P中的图像特征对在取符号后的结果相同,即编码值差异最小;最小化要求Q中的图像特征对在取符号后的结果不同,即编码值差异最大。通过这种方式学习到的哈希函数偏移量,可以在一定程度上保证同类的图像特征在索引并取符号后结果相同,不同类的图像特征在索引并取符号后结果不同。
对于优化目标可以进一步表示为:
假设f(t)=(wTxi1+t)(wTxi2+t),由于w和xi1,xi2是已知的,因此f(t)是关于t的二次函数,令ai1=wTxi1、ai2=wTxi2,那么f(t)=t2+(ai1+ai2)t+ai1ai2。当t<min(-ai1,-ai2)或t>max(-ai1,-ai2)时,sign(f(t))=1;当min(-ai1,-ai2)<t<max(-ai1,-ai2)时,sign(f(t))=-1。其中max表示取最大值,min表示取最小值。
求解哈希函数偏移量需同时最大化和最小化那么根据上面的推导可以得到以下优化目标:
其中函数K(c)用来衡量数据满足条件c的程度,在本发明中通过频数统计完成,即给定一个t时∑(xi1,xi2)∈PK(t<min(-ai1,-ai2)||t>max(-ai1,-ai2))表示在集合P中满足条件t<min(-ai1,-ai2)||t>max(-ai1,-ai2)的图像特征对总数,相似的,K(min(-aj1,-aj2)<t<max(-aj1,-aj2))表示在集合Q中满足条件min(-aj1,-aj2)<t<max(-aj1,-aj2)的图像特征对总数。由于优化目标中只有一个参数t,因此通过对t进行线性搜索即可得到最优值,即学习到哈希函数偏移量。
步骤4图像特征降维具体包括如下步骤:
用学习到的哈希函数对图像特征进行降维。对于任意一个图像特征,用每个哈希函数对其进行运算,一个哈希函数和一个图像特征经过运算得到一个实数,将所有哈希函数运算得到的实数拼接,形成图像特征对应的低维特征向量。
步骤5图像特征编码具体包括如下步骤:
首先,对低维特征向量进行取符号操作,即对低维特征向量每一维进行sign函数运算,得到的结果是一个向量,向量元素只包含-1,0和1三种值;
其次,用0替换上述向量中的-1,得到低维特征向量的二进制编码;
然后,对二进制编码从左到右每8位为一个字节,转换为十进制数,末尾不足8位的编码加0凑足8位;
最后,将每个字节得到的十进制数拼接得到一个向量,作为图像特征的编码。
步骤6图像检索具体包括如下步骤:
给定一个查询图像,首先提取图像特征,利用哈希函数进行图像特征降维和图像特征编码,得到编码Bquery;然后,将图像特征数据库中编码和Bquery相同的图像特征取出,作为检索候选集;最后,检索候选集中每个图像特征和查询图像的图像特征计算距离并从小到大排序,将距离最小的若干个图像特征对应的图像作为检索结果返回。
本发明是专门针对大规模图像检索而提出的方法。本发明具有以下特征:1)哈希函数投影向量的学习过程中,能够保证同类别的图像特征保持其结构性,增强对不同类别的图像特征的判别性;2)哈希函数偏移量的学习过程中,能够使同类别的图像特征对得到的编码尽可能相同,使不同类别的图像特征对得到的编码尽可能不同;3)利用哈希函数,可以对图像特征进行降维,从而减少图像特征的存储、计算开销;4)对低维的图像特征进一步编码,得到其二进制表示并以字节为单位压缩,进一步减少图像特征的维度。总体而言,通过学习哈希函数并用哈希函数对图像特征进行降维和编码,在很大程度上减少了图像特征的维度,减少了图像特征的存储需求,提高了图像特征计算的效率,同时,由于学习哈希函数过程充分考虑了图像特征的类别信息,因此编码能够保证同类别图像特征的局部性,提高不同类别图像特征的判别性。
有益效果:本发明能够对大规模图像特征数据库快速学习哈希函数,这些哈希函数能够保持同类别图像特征的局部性,增强对不同类别图像特征的判别性。利用哈希函数对图像特征进行降维、编码,可以有效降低图像特征的维度,从而减少存储需求;另外,编码的计算效率会明显高于编码前的图像特征;最后,由于学习哈希函数过程中分利用的图像特征的类别信息,因此编码能够较好地区分不同类别的图像特征,对图像特征的语义检索有益。因此大规模图像检索方法具有较高的使用价值。
附图说明
图1为本发明流程图。
具体实施方式:
如图1所示,本发明公开了一种大规模图像检索方法,包含如下步骤:
步骤1,图像特征提取:对待检索图像和图像数据库的每一幅图像提取特征;
步骤2,哈希函数投影向量学习:随机选取出图像数据库中若干图像的特征,组成图像特征训练集,利用图像特征训练集学习哈希函数投影向量;
步骤3,哈希函数偏移量学习:利用图像特征训练集学习哈希函数偏移量,从而得到哈希函数;
步骤4,图像特征降维:利用哈希函数对待检索图像和图像数据库的每一幅图像的图像特征进行降维,得到每一幅图像的低维特征向量;
步骤5,图像特征编码:对每一幅图像的低维特征向量进行量化,得到每一幅图像的图像特征编码;
步骤6,图像检索。
步骤1图像特征提取具体包括如下步骤:
本发明对图像特征的种类没有特别的限制,只要经过计算,每幅图像最终得到一个特征向量,作为图像特征即可。在图像检索领域常用的特征大多数都符合这个要求,例如局部二元模式(Local Binary Pattern,LBP)直方图、颜色直方图特征、GIST特征等。
步骤2哈希函数投影向量学习具体包括如下步骤:
首先,从大规模图像特征数据库中随机选取一部分作为图像特征训练集,表示为其中表示实数,每一个图像特征xie都是一个d维的列向量,每一个图像特征都有一个类别标签yie,ie取值1至N。假设图像特征共有n类,则yie的取值为区间[1,n]内的一个自然数,类别标签组成标签集合将图像特征训练集中的图像特征按不同类别进行分组,得到分组表示为G={g1,g2,…,gn},其中n表示图像特征类别数,gi表示第i组图像特征的集合,i取值1至n。分组标准为图像内容,举例来说,图像训练集中有三类图像,第一类为汽车,第二类为人,第三类为飞机,那么,汽车、人、飞机的图像各自被归为一组,汽车对应g1,其标签为y1=1;人对应g2,其标签为y2=2;飞机对应g3,其标签为y3=3。分组可以采用人工分组,也可以采用现有的计算机自动处理分组方法。
然后,对每一组图像特征学习哈希函数投影向量。对第i组图像特征学习哈希函数投影向量的过程如下:将第i组图像特征作为一个集合M,将除第i组以外的n-1组图像特征组合成集合C。考虑到学习到的哈希函数能够获得较好的判别性,且保持M中图像特征的局部性,本发明采取以下步骤:
(1)对于集合M中的图像特征,通过计算近邻之间的距离来衡量M类的类内散列度。
(2)对于集合C中的图像特征,通过计算图像特征与图像特征中心的距离来衡量C类的类内散列度。
(3)通过计算M和C中图像特征中心的距离来衡量类间离散度。
根据以上步骤,可以定义学习哈希函数的目标如下:
其中列向量w表示一个哈希函数投影向量,实数t表示一个哈希函数偏移量,为类间散列度,为总类内散列度,为M类的类内散列度,为C类的类内散列度,总类内散列度是M类的类内散列度和C类的类内散列度之和。哈希函数由投影向量和偏移量两部分组成,一个哈希函数h对图像特征x的运算称为索引,用如下方法表示:
h(x)=wTx+t
其中上标T表示矩阵或向量的转置,wTx表示w和x作向量内积运算。
对于步骤(1),由于集合M中属于同类别的图像特征,因此,考虑图像特征之间的局部性,目的是使得近邻的图像特征经过哈希函数索引后它们之间的距离能够最小化,即最小化以下优化目标:
其中NN(xim)表示图像特征xim在M中的近邻集合,即和xim距离最小的若干个图像特征组成的集合,Φ(w,t,xim,xjm)表示特征xim和xjm经过哈希函数索引后的差异。其中im取值1至nM,nM表示M中图像特征的个数,jm取值1至nNN,nNN表示M中每个图像特征近邻的个数。从上式看出,步骤(1)的目的是使得M中的图像特征xim和它的近邻NN(xim)在经过哈希函数索引后能够尽可能的相同,即差异最小。Φ(w,t,xim,xjm)可进一步表示为:
Φ(w,t,xim,xjm)=||(wTxim+t)-(wTxjm+t)||2
=||wTxim-wTxjm||2
=||wT(xim-xjm)||2
=wT(xim-xjm)(xim-xjm)Tw
因此,步骤(1)的优化目标可以表示为:
其中
对于步骤(2),由于集合C中包含多个类别的图像特征,如果考虑局部性,反而会使不同类的图像特征在经过哈希函数索引后保持近邻关系,因此,步骤(2)不考虑图像特征之间的局部性,而是最小化图像特征和图像特征中心的距离。具体地,对于集合C中的图像特征可以得到以下优化目标:
其中μC表示C类的图像特征中心,即C类图像特征的均值,xic中ic取值1至nC,nC表示C中图像特征的个数。那么,可以得到:
其中表示为:
对于步骤(3),通过最大化M类和C类的图像特征中心来区分两类图像特征,据此可以得到如下优化目标:
其中
最后,可以看出,同时满足步骤(1)、(2)、(3),等价于最大化目标函数
其中nM表示M中图像特征的个数,nNN表示M中每个图像特征近邻的个数,nC表示C中图像特征的个数。从上述表示中可以看到,虽然学习一个哈希函数涉及到两个参数w和t,但在哈希函数投影向量学习的形式化描述中,参数t被抵消了,因此这部分只学习投影向量一个参数,在后续步骤给出参数t的学习方法。具体地,令 其中λ为拉格朗日乘子,对函数F求导可以得到:
令函数F的导数为0,可以得到:
进一步得到:
其中上标-1表示逆矩阵。由此可以得到,最优w的解为对矩阵 进行特征值分解后,最大特征值对应的特征向量。在实际应用中,对于gi类的图像特征往往同时学习V个哈希函数,那么V个哈希函数的投影向量为前V个最大特征值对应的特征向量。
步骤3哈希函数偏移量学习具体包括如下步骤:
在学习到哈希函数投影向量之后,再进一步学习哈希函数偏移量。具体过程如下:从每组图像特征gi中随机选取m个图像特征对,将所用图像特征对组成一个集合P,P中共有n×m个图像特征对;任选两组图像特征gia,gib,ia,ib取值分别为1至n且ia不等于ib,每组随机选取一个图像特征组成一个图像特征对,采用这种方式,总共选取n×m个图像特征对,组成集合Q。对于一个哈希函数,在学习到w后,通过最小化P中图像特征对的编码值差异、最大化Q中图像特征对的编码值差异来学习哈希函数的偏移量,具体地,对P中图像特征对(xi1,xi2),最大化以下优化目标:
其中xi1表示P中第i个图像特征对的第一个图像特征,xi2表示P中第i个图像特征对的第二个图像特征。对Q中图像特征对(xj1,xj2),最小化以下优化目标:
其中xj1表示Q中第j个图像特征对的第一个图像特征,xj2表示Q中第j个图像特征对的第二个图像特征。sign表示取符号函数:当x>0时,sign(x)=1;当x=0时,sign(x)=0;当x<0时,sign(x)=-1。最大化要求P中的图像特征对在取符号后的结果相同,即编码值差异最小;最小化要求Q中的图像特征对在取符号后的结果不同,即编码值差异最大。通过这种方式学习到的哈希函数偏移量,可以在一定程度上保证同类的图像特征在索引并取符号后结果相同,不同类的图像特征在索引并取符号后结果不同。
对于优化目标可以进一步表示为:
假设f(t)=(wTxi1+t)(wTxi2+t),由于w和xi1,xi2是已知的,因此f(t)是关于t的二次函数,令ai1=wTxi1、ai2=wTxi2,那么f(t)=t2+(ai1+ai2)t+ai1ai2。当t<min(-ai1,-ai2)或t>max(-ai1,-ai2)时,sign(f(t))=1;当min(-ai1,-ai2)<t<max(-ai1,-ai2)时,sign(f(t))=-1。其中max表示取最大值,min表示取最小值。
求解哈希函数偏移量需同时最大化和最小化那么根据上面的推导可以得到以下优化目标:
其中函数K(c)用来衡量数据满足条件c的程度,在本发明中通过频数统计完成,即给定一个t时∑(xi1,xi2)∈PK(t<min(-ai1,-ai2)||t>max(-ai1,-ai2))表示在集合P中满足条件t<min(-ai1,-ai2)||t>max(-ai1,-ai2)的图像特征对总数,相似得,K(min(-aj1,-aj2)<t<max(-aj1,-aj2))表示在集合Q中满足条件min(-aj1,-aj2)<t<max(-aj1,-aj2)的图像特征对总数。由于优化目标中只有一个参数t,因此通过对t进行线性搜索即可得到最优值,即学习到哈希函数的偏移量。
步骤4图像特征降维具体包括如下步骤:
用学习到的哈希函数对图像特征进行降维。对于任意一个图像特征,用每个哈希函数对其进行运算,一个哈希函数和一个图像特征经过运算得到一个实数,将所有哈希函数运算得到的实数拼接,形成图像特征对应的低维特征向量。
步骤5图像特征编码具体包括如下步骤:
首先,对低维特征进行取符号操作,即对低维特征每一维进行sign函数运算,得到的结果是一个向量,向量元素只包含-1,0和1三种值;
其次,用0替换上述向量中的-1,得到低维特征向量的二进制编码;
然后,对二进制编码从左到右每8位为一个字节,转换为十进制数,末尾不足8位的编码加0凑足8位;
最后,将每个字节得到的十进制数拼接得到一个向量,作为图像特征的编码。
步骤6图像检索具体包括如下步骤:
给定一个查询图像,首先提取图像特征,利用哈希函数进行图像特征降维和图像特征编码,得到编码Bquery;然后,将图像特征数据库中编码和Bquery相同的图像特征取出,作为检索候选集;最后,检索候选集中每个图像特征和查询图像的图像特征计算距离并从小到大排序,将距离最小的若干个图像特征对应的图像作为检索结果返回。
实施例
本实施例包括以下部分:
1.图像特征提取
本实施例利用公共图像数据集CIFAR-10学习哈希函数并对图像特征进行编码,然后进行检索。具体地,对CIFAR-10中每一幅图像提取一个原始图像像素灰度值特征:首先,通过颜色空间转换得到所有图像的灰度级图像,将每张灰度级图像的灰度值按行拼接,得到图像特征,每张图像用一个图像特征表示,每个图像特征是一个向量。
2.哈希函数投影向量学习:
CIFAR-10共有10个类别,从每个类别随机选取100个图像特征组成图像特征训练集,共1000个图像特征。
然后,对每一类学习哈希函数投影向量,下面以第1类为例,分为如下步骤
(1)将第1类图像特征作为集合M,将第2-10类图像特征作为集合C;
(2)对集合M中的每个图像特征xim,和M中其余的所有图像特征计算欧氏距离,对欧氏距离从小到大排序,取和xim距离最小的10个图像特征作为xim的近邻集合NN(xim),即nNN=10。对每个图像特征xim,计算如下结果:
将M中所有图像特征的Mat值相加,得到如下:
(3)计算集合C中的图像特征均值:
其中nC表示集合C中图像特征的个数,在本实施例中nC=900。对C中所有图像特征,按如下公式计算
(4)计算集合M的图像特征均值:
其中nM表示集合M中图像特征的个数,在本实施例中nM=100。对M中所有图像特征,按如下公式计算
(5)根据上述结果计算矩阵然后对其进行特征值分解,选择最大的10个特征值对应的特征向量,作为第1类图像特征学习到的10个哈希函数投影向量。
最后,对其他9个类按照第1类的方法,每类学习10个哈希函数投影向量,将所有哈希函数投影向量组合,得到100个哈希函数投影向量。
3.哈希函数偏移量学习:
首先,从图像特征训练集中选取图像特征对产生集合P。以第1类为例,每次从第1类100个图像特征中随机选取2个作为一个图像特征对,总共选取200对。剩余9类按此方式,每类选取200对,将所有图像特征对组合,形成集合P,P中共有2000个图像特征对。
其次,从图像特征训练集中选取图像特征对产生集合Q。任意选取两类图像特征,每类任取一个图像特征组成一个图像特征对,按此方式,直到取得2000个图像特征对为止,形成集合Q。Q中共有2000个图像特征对。
然后,对每个哈希函数投影向量学习哈希函数偏移量,以第1个哈希函数投影向量为例:
(1)对P中每一个图像特征对(xi1,xi2),用哈希函数的投影向量计算得到ai1=wTxi1、ai2=wTxi2;对Q中每一个图像特征对(xj1,xj2),用哈希函数的投影向量计算得到aj1=wTxj1、aj2=wTxj2
(2)初始化参数t的候选值集合,最小值为-1,最大值为1,步长为0.05,因此,t的候选值集合可以表示为{-1,-0.95,-0.9…0.9,0.95,1};
(3)对t的每个候选值,统计集合P中满足条件t<min(-ai1,-ai2)||t>max(-ai1,-ai2)的图像特征对个数nP,统计集合Q中满足条件min(-aj1,-aj2)<t<max(-aj1,-aj2)的图像特征对个数nQ,计算
(4)对所有t的候选值计算nt并排序,取最大nt对应的候选值,作为哈希函数偏移量。
最后,以上述方法对每个哈希函数学习哈希函数偏移量,将哈希函数投影向量和对应的哈稀函数偏移量组合,最后得到100个哈希函数。
4.图像特征降维:
对CIFAR-10中任意一个图像特征xit,分别和100个哈希函数进行计算:
其中wjt和tjt分别表示第jt个哈希函数的投影向量和偏移量,jt取值1至100。通过上述计算,每个图像特征可以降维,从而得到100维的低维特征向量val。
5.图像特征编码:
以一个图像特征的低维特征向量val为例:
首先,对val的每一维进行取符号运算,得到sign(val),并用0替换其中的-1,得到100位二进制编码Bcode
然后,对Bcode从左到右,每8位为一个字节,共得到12个字节;最后剩下4位加4个0组成第13个字节;将这13个字节分别转换为10进制数,得到13维的特征向量,作为一个图像特征的编码。
最后,用上述方式对所有图像特征的低维特征向量进行编码。
6.图像检索
给定一张查询图像,首先,通过图像特征提取、图像特征降维、图像特征编码得到其对应的编码Bquery;其次,将图像特征数据库中编码和Bquery相同的图像特征取出,作为检索候选集;然后,对检索候选集中的每个图像特征和查询图像的图像特征计算距离,并从小到大排序;最后,将距离最小的10个图像特征对应的图像作为检索结果返回。
在配置为:处理器Intel i5-2430M,主频2.4GHz,4核;内存4GB;硬盘500GB;操作系统Windows7Ultimate64位;编程环境Matlab R2011a的计算机上,现有技术准确率85%左右,检索时间0.6s;本发明提出的方法准确率95%左右,检索时间0.05s。
本发明提供了一种大规模图像检索方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (1)

1.一种大规模图像检索方法,用于从图像数据库中找到与待检索图像最相似的k幅图像,k为自然数,其特征在于,包含以下步骤:
步骤1,图像特征提取:对待检索图像和图像数据库的每一幅图像提取特征;
步骤2,哈希函数投影向量学习:随机选取出图像数据库中若干图像的特征,组成图像特征训练集,利用图像特征训练集学习哈希函数投影向量;
步骤3,哈希函数偏移量学习:利用图像特征训练集学习哈希函数偏移量,从而得到哈希函数;
步骤4,图像特征降维:利用哈希函数对待检索图像和图像数据库的每一幅图像的图像特征进行降维,得到每一幅图像的低维特征向量;
步骤5,图像特征编码:对每一幅图像的低维特征向量进行量化,得到每一幅图像的图像特征编码;
步骤6,图像检索;
步骤2包括如下步骤:
首先,将图像特征训练集中的图像特征按不同类别进行分组,得到分组表示为G={g1,g2,…,gn},其中n为图像特征类别总组数,gi表示第i组图像特征,i取值1至n;
然后,对每一组图像特征学习哈希函数投影向量:对第i组图像特征学习哈希函数投影向量的过程如下:将第i组图像特征作为一个集合M,将除第i组以外的n-1组图像特征组合成集合C,通过最小化集合M和C各自的类内散列度、最大化M和C之间的类间散列度来学习哈希函数投影向量:
对于集合M,优化目标如下:
其中,为M类的类内散列度,列向量w表示一个哈希函数投影向量,NN(xim)表示图像特征xim在M中的近邻集合,xim和xjm表示图像特征,其中im取值1至nM,nM表示M中图像特征的个数,jm取值1至nNN,nNN表示M中每个图像特征近邻的个数;
对于集合C,优化目标如下:
其中,为C类的类内散列度,μC表示C类的图像特征中心,即C类图像特征的均值,图像特征xic中ic取值1至nC,nC表示C中图像特征的个数;
通过最大化M类和C类的图像特征中心来区分两类图像特征,得到如下优化目标:
最后,将每一组图像特征学习到的哈希函数投影向量进行组合,即最大化如下目标函数:
其中,μM表示M类的图像特征中心;
步骤3包括如下步骤:
首先,在每组图像特征gi中随机采集m个图像特征对,将所有组的图像特征对组成一个集合P,则集合P中有n×m个图像特征对;
然后,任选两组图像特征gia,gib,ia,ib取值分别为1至n且ia不等于ib,每组随机选取一个图像特征组成一个图像特征对,总共选取n×m个图像特征对,组成集合Q;
最后,通过最小化集合P中图像特征对的编码值差异、最大化集合Q中图像特征对的编码值差异,为步骤2中每一个哈希函数投影向量学习一个哈希函数偏移量,将哈希函数投影向量和其对应的哈希函数偏移量组合,得到哈希函数;
步骤4包括如下步骤:
对于任意一个图像特征,用每个哈希函数对其进行运算,一个哈希函数和一个图像特征经过运算得到一个实数,将所有哈希函数运算得到的实数拼接,形成图像特征对应的低维特征向量;
步骤5包括如下步骤:
首先,对低维特征向量进行取符号操作,并用0替换其中的-1,得到低维特征向量的二进制编码;
然后对二进制编码从左到右每8位为一个字节,转换为十进制数,末尾不足8位的编码加0凑足8位;
最后,将每个字节得到的十进制数拼接得到一个向量,作为图像特征的编码;
步骤6中图像检索包括如下步骤:
根据待检索图像的编码Bquery,取出图像特征数据库中编码和待检索图像的编码Bquery相同的所有图像特征,并作为检索候选集;
计算检索候选集中每个图像特征和待检索图像的图像特征的欧氏距离,并按照欧氏距离由小到大输出对应k幅图像。
CN201410348791.7A 2014-07-21 2014-07-21 一种大规模图像检索方法 Active CN104112018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410348791.7A CN104112018B (zh) 2014-07-21 2014-07-21 一种大规模图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410348791.7A CN104112018B (zh) 2014-07-21 2014-07-21 一种大规模图像检索方法

Publications (2)

Publication Number Publication Date
CN104112018A CN104112018A (zh) 2014-10-22
CN104112018B true CN104112018B (zh) 2017-09-29

Family

ID=51708809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410348791.7A Active CN104112018B (zh) 2014-07-21 2014-07-21 一种大规模图像检索方法

Country Status (1)

Country Link
CN (1) CN104112018B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573696B (zh) * 2014-12-29 2018-09-21 杭州华为数字技术有限公司 用于处理人脸特征数据的方法和装置
CN104699781B (zh) * 2015-03-12 2018-07-17 西安电子科技大学 基于双层锚图散列的sar图像检索方法
CN107944045B (zh) * 2017-12-15 2019-02-05 清华大学 基于t分布哈希的图像检索方法及系统
CN108171270B (zh) * 2018-01-05 2021-08-27 大连海事大学 一种基于哈希学习的高光谱图像分类方法
WO2019140548A1 (zh) * 2018-01-16 2019-07-25 深圳中兴力维技术有限公司 海量特征向量数据的相似检索方法及设备、存储介质
CN108345654A (zh) * 2018-01-23 2018-07-31 南京邮电大学 一种基于半监督阶梯网络的图像哈希检索方法
CN110688435B (zh) * 2018-07-04 2022-04-05 北京嘀嘀无限科技发展有限公司 一种相似轨迹搜索方法和系统
CN112868019A (zh) * 2018-11-14 2021-05-28 北京比特大陆科技有限公司 一种特征处理方法及装置、存储介质及程序产品
CN110099059B (zh) * 2019-05-06 2021-08-31 腾讯科技(深圳)有限公司 一种域名识别方法、装置及存储介质
CN111626408B (zh) * 2020-05-22 2021-08-06 深圳前海微众银行股份有限公司 哈希编码方法、装置、设备及可读存储介质
CN111882061B (zh) * 2020-07-24 2023-05-23 成都成信高科信息技术有限公司 一种基于分层随机梯度下降的卷积神经网络训练方法
CN111737586B (zh) * 2020-08-19 2020-12-04 腾讯科技(深圳)有限公司 信息推荐方法、装置、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710334A (zh) * 2009-12-04 2010-05-19 大连理工大学 基于图像哈希的大规模图像库检索方法
CN102508910A (zh) * 2011-11-11 2012-06-20 大连理工大学 基于多哈希表映射误差最小化的图像检索方法
CN102819582A (zh) * 2012-07-26 2012-12-12 华数传媒网络有限公司 一种海量图片快速检索方法
CN103793699A (zh) * 2014-02-24 2014-05-14 苏州大学 一种人脸识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710334A (zh) * 2009-12-04 2010-05-19 大连理工大学 基于图像哈希的大规模图像库检索方法
CN102508910A (zh) * 2011-11-11 2012-06-20 大连理工大学 基于多哈希表映射误差最小化的图像检索方法
CN102819582A (zh) * 2012-07-26 2012-12-12 华数传媒网络有限公司 一种海量图片快速检索方法
CN103793699A (zh) * 2014-02-24 2014-05-14 苏州大学 一种人脸识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Complementary Hashing for Approximate Nearest Neighbor Search";Hao Xu et al.;《IEEE International Conference on Computer Vision》;20111231;第1631-1638页 *
"LDAHash:Improved Matching with Smaller Descriptors";Christoph strecha et al.;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20120131;第34卷(第1期);第68页左栏第2段—第70页左栏第1段,第71页左栏倒数第1段-第71页右栏第3段 *
"Small codes and large image databases for recognition";Antonio Torralba et al.;《Proceeding of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition》;20081231;第1-9页 *

Also Published As

Publication number Publication date
CN104112018A (zh) 2014-10-22

Similar Documents

Publication Publication Date Title
CN104112018B (zh) 一种大规模图像检索方法
CN105469096B (zh) 一种基于哈希二值编码的特征袋图像检索方法
Durand et al. Weldon: Weakly supervised learning of deep convolutional neural networks
CN106227851B (zh) 基于深度卷积神经网络的分层深度搜索的图像检索方法
CN106407352B (zh) 基于深度学习的交通图像检索方法
Gong et al. Deep convolutional ranking for multilabel image annotation
CN105184303B (zh) 一种基于多模态深度学习的图像标注方法
Douze et al. Combining attributes and fisher vectors for efficient image retrieval
Guillaumin et al. Multimodal semi-supervised learning for image classification
Xu et al. Activity auto-completion: Predicting human activities from partial videos
CN106055573B (zh) 一种多示例学习框架下的鞋印图像检索方法及系统
Zakariya et al. Combining visual features of an image at different precision value of unsupervised content based image retrieval
CN104599275A (zh) 基于概率图模型的非参数化的rgb-d场景理解方法
Myeong et al. Learning object relationships via graph-based context model
CN101710334A (zh) 基于图像哈希的大规模图像库检索方法
Gali et al. Genetic algorithm for content based image retrieval
Tung et al. Collageparsing: Nonparametric scene parsing by adaptive overlapping windows
CN110019652A (zh) 一种基于深度学习的跨模态哈希检索方法
CN103955952A (zh) 一种服装图像颜色特征的提取与描述方法
CN110647907A (zh) 利用多层分类和字典学习的多标签图像分类算法
CN105117407A (zh) 一种基于聚类的距离方向直方图的图像检索方法
Alzu'Bi et al. Compact root bilinear cnns for content-based image retrieval
CN114329031A (zh) 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法
CN104778272B (zh) 一种基于区域挖掘和空间编码的图像位置估计方法
Syam et al. Efficient similarity measure via Genetic algorithm for content based medical image retrieval with extensive features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant