CN105022836A - 基于sift嵌入的紧凑的深度cnn特征索引方法 - Google Patents
基于sift嵌入的紧凑的深度cnn特征索引方法 Download PDFInfo
- Publication number
- CN105022836A CN105022836A CN201510501763.9A CN201510501763A CN105022836A CN 105022836 A CN105022836 A CN 105022836A CN 201510501763 A CN201510501763 A CN 201510501763A CN 105022836 A CN105022836 A CN 105022836A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- cnn
- sift
- munder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000003780 insertion Methods 0.000 title abstract 3
- 230000037431 insertion Effects 0.000 title abstract 3
- 238000005457 optimization Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000000007 visual effect Effects 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 description 77
- 230000006870 function Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000010187 selection method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于SIFT嵌入的紧凑的深度CNN特征索引方法,包括:针对图像的深度CNN特征,进行基于能量的稀疏化处理;采用距离测度优化的方式,利用图像在CNN特征和SIFT特征中的邻近关系,来更新图像的SIFT特征和稀疏化处理后的CNN特征,使得稀疏化处理后的CNN特征中包含基于SIFT特征的图像上下文信息,完成基于SIFT嵌入的紧凑的深度CNN特征索引。本发明公开的方法,用以进行高效地存储数目巨大的数据库中图片的特征,并有效地减少线上检索所需时间。
Description
技术领域
本发明涉及多媒体技术中的图像检索领域,尤其涉及一种基于SIFT嵌入的紧凑的深度CNN特征索引方法。
背景技术
在图像检索领域,如何可靠而高效地对数据库中图像的特征进行高效的存储和索引是一个至关重要的问题。在大规模的图像检索问题中,为了提供高质量的检索结果,通常需要数目巨大的数据库图片,而数据库中的图片都是以特征的形式保存的,通常每张图片会有比较多的特征,或是有少量的高维度特征,所以需要保存的特征数目是非常可观的。此外,高效地存储也能有效地减少线上检索所需要的时间。由于图像检索过程中,确定数据库中的图片与检索图片相关性排名时,必须计算每张数据库图片和检索图片在特征上的匹配值,而非高效的存储方式必然会使得匹配值计算非常耗时,所以高效地存储和索引数据库图像特征是该领域一个关键性的问题。
近几年来,基于CNN(Convolution Neural Network,卷积神经网络)的特征学习方法在图像分类、目标检测等方面取得了巨大成功,引起了计算机视觉领域的极大关注。经典的AlexNet模型采用深度卷积神经网络,从一张图片中学习得到一个4096维的特征,用于表达图像,可用于图像检索。但是这种特征存在两个问题。第一,这种CNN特征的稀疏度比较低,使得索引效率(包括特征存储效率和查询时的计算效率)比较低。第二,这种CNN特征更接近语义层面,忽略了底层视觉特性,从而影响检索精度。
发明内容
本发明的目的是提供一种基于SIFT嵌入的紧凑的深度CNN特征索引方法,用以进行高效地存储数目巨大的数据库中图片的特征,并有效地减少线上检索所需时间。
本发明的目的是通过以下技术方案实现的:
一种基于SIFT嵌入的紧凑的深度CNN特征索引方法,包括:
针对图像的深度CNN特征,进行基于能量的稀疏化处理;
采用距离测度优化的方式,利用图像在CNN特征和SIFT特征中的邻近关系,来更新图像的SIFT特征和稀疏化处理后的CNN特征,使得稀疏化处理后的CNN特征中包含基于SIFT特征的图像上下文信息,完成基于SIFT嵌入的紧凑的深度CNN特征索引。
所述针对图像的深度CNN特征,进行基于能量的稀疏化处理的步骤包括:
假设图片d的深度CNN特征表示为:c(d)=(c(d)1,c(d)2,…,c(d)D),其中,D表示维度;
将图片d的深度CNN特征进行非递增排序,得到新的深度CNN特征记为e(d)=(e(d)1,e(d)2,…,e(d)D);
基于能量值γ设定一个阈值τ,使得τ=e(d)t,其中参数t通过下式确定:
确定参数t后,将c(d)中所有大于t的维度的权值都置为0,并对权值进行归一化,获得稀疏化处理后的CNN特征,其表示为f(d)=(f(d)1,f(d)2,…,f(d)D)。
所述采用距离测度优化的方式,利用图像在CNN特征和SIFT特征中的邻近关系,来更新图像的SIFT特征和稀疏化处理后的CNN特征包括:
定义代价函数:
其中,P代表数据库图像集合,Scnn(u,v)与Ssift(u,v)分别代表图片u与v在CNN特征的倒排表Icnn和SIFT特征的倒排表Isift中的距离测度;Scnn(u,v)与Ssift(u,v)的表达式如下:
Scnn(u,v)=<f(u),f(v)>;
Ssift(u,v)=<s(u),s(v)>;
其中,<f(u),f(v)>与<s(u),s(v)>均表示内积;f(u)=(f(u)1,f(u)2,…f(u)D),f(v)=(f(v)1,f(v)2,…f(v)D)分别表示图片u与v稀疏化处理后的CNN特征;s(u)=(s(u)1,s(u)2,…s(u)D),s(v)=(s(v)1,s(v)2,…s(v)D)分别表示图片u与v的SIFT特征;
利用图像在CNN特征和SIFT特征中的邻近关系,对将代价函数重写为:
其中,Nc(u)表示在CNN特征下图片u的K张最近图片,Ns(u)表示在SIFT特征下图片u的K张最近图片;
将优化目标表达为:
通过分布优化来求解以上优化问题:先固定倒排表Isift,对倒排表Icnn进行优化,即然后固定倒排表Icnn,对倒排表Isift进行优化,即不断重复以上两步,直至收敛或者迭代次数达到预设次数。
所述利用图像在CNN特征和SIFT特征中的邻近关系,来更新图像的SIFT特征和稀疏化处理后的CNN特征包括:
步骤a、将数据库中每张图片d作为检索图片,采用SIFT特征,利用Bag-of-Words检索方法进行检索,得到K张最相似的图片,记为Nk(d);
步骤b、设图片q∈Nk(d),f(d)i与f(q)i分别表示图片d与q稀疏化处理后的第i维CNN特征,如果满足:
f(q)i=0,f(d)i≠0;
则将f(q)i更新为:f(q)i=α·f(d)i;
其中,α是一个介于0和1之间的系数;
步骤c、将数据库中每张图片d作为检索图片,采用CNN特征进行检索,得到K张最相似的图片,记为Nk(d)';
步骤d、设图片q'∈Nk(d)',s(d)i与s(q')i分别表示图片d与q'的基于SIFT特征的bag-of-visual-words的第i个视觉单词的系数值,如果满足:
s(q')i=0,s(d)i≠0;
则将s(q')i更新为:s(q')i=β·s(d)i;
其中,β是一个介于0和1之间的系数;
重复上述步骤a~步骤d,直至迭代次数达到预设次数或者收敛。
该方法还包括:基于SIFT嵌入的紧凑的深度CNN特征索引对大规模的数据库进行检索,其步骤如下:
对于检索图片q和数据库中的每一图片d,通过计算它们的欧氏距离来比较相似性:
其中,所述基于SIFT嵌入的紧凑的深度CNN特征索引即为CNN特征的倒排表Icnn;qi与di表示图片d与q在其所属CNN特征的倒排表中的第i维CNN特征;
将检索图片q与数据库中所有图片的欧氏距离进行降序排序,排序越靠前,则越说明越相似。
由上述本发明提供的技术方案可以看出,基于矢量能量约束定义系数阈值,将基于深度CNN学习得到的特征矢量中的较小的系数置为0,而只保留较大的系数,从而显著的提高图像的稀疏度,并较好的保持特征矢量的信息。此外,为了使近语义层面的CNN特征索引包含底层的局部信息(如SIFT特征),增强时间特征表达的描述能力,分别利用图像在CNN特征和SIFT特征中的邻近关系,来更新图像的SIFT特征和CNN特征,从而显著地提高检索准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于SIFT嵌入的紧凑的深度CNN特征索引方法;
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明提供一种基于SIFT嵌入的紧凑的深度CNN特征索引方法,该方法针对深度CNN特征,为了提高稀疏度,定义一种基于能量的系数选择方法;然后将深度CNN特征中的每一维当作一个视觉单词(Visual Word),构建倒排表,即对每张图片,如果它在对应维度上的特征值不为零,则将这张图片的编号和它在这个维度上的特征值作为一个节点保存到该倒排表上;最后基于CNN特征检索方法,利用保存在倒排表中的有效特征,对大规模图像进行检索。该方法为面向大规模图像检索的CNN特征索引方法,可以使得索引大规模数据库更加高效,同时能显著地提高线上检索速度;一方面,基于能量的系数选择方法,既能有效地减少存储开销,又能有效地保证检索准确度在合理范围之内。另一方面,合适的稀疏度也使得存储开销大大减小,检索速度大大加快。相比于现有技术,本发明不需要保存图片特征中占很大比重的零值,能够极大地节省数据库索引的开销;另外,基于能量的系数选择方法和TF-IDF加权方法,还能够显著地提高图像检索的速度而不损失精度。
为了便于理解,下面结合附图1做详细的说明。
如图1所示,为本发明实施例提供的一种基于SIFT嵌入的紧凑的深度CNN特征索引方法,其主要包括如下步骤:
步骤11、针对图像的深度CNN特征,进行基于能量的稀疏化处理。
基于能量的稀疏化处理步骤如下:
1)假设图片d的深度CNN特征表示为:c(d)=(c(d)1,c(d)2,…,c(d)D),其中,D表示维度。
2)将图片d的深度CNN特征进行非递增排序,得到新的深度CNN特征记为e(d)=(e(d)1,e(d)2,…,e(d)D);
3)基于能量值γ设定一个阈值τ,使得τ=e(d)t,其中参数t通过下式确定:
4)确定参数t后,将c(d)中所有大于t的维度的权值都置为0,并对权值进行归一化,获得稀疏化处理后的CNN特征,其表示为f(d)=(f(d)1,f(d)2,…,f(d)D)。
步骤12、采用距离测度优化的方式,利用图像在CNN特征和SIFT特征中的邻近关系,来更新图像的SIFT特征和稀疏化处理后的CNN特征,使得稀疏化处理后的CNN特征中包含基于SIFT特征的图像上下文信息,完成基于SIFT嵌入的紧凑的深度CNN特征索引。
定义代价函数:
其中,P代表数据库图像集合,Scnn(u,v)与Ssift(u,v)分别代表图片u与v在CNN特征的倒排表Icnn和SIFT特征的倒排表Isift中的距离测度;Scnn(u,v)与Ssift(u,v)的表达式如下:
Scnn(u,v)=<f(u),f(v)>;
Ssift(u,v)=<s(u),s(v)>;
其中,<f(u),f(v)>与<s(u),s(v)>均表示内积;f(u)=(f(u)1,f(u)2,…f(u)D),f(v)=(f(v)1,f(v)2,…f(v)D)分别表示图片u与v稀疏化处理后的CNN特征;s(u)=(s(u)1,s(u)2,…s(u)D),s(v)=(s(v)1,s(v)2,…s(v)D)分别表示图片u与v的SIFT特征。
在多维空间中,内积就是余弦距离,所定义的代价函数是数据库中所有图片对的CNN特征距离测度与SIFT距离测度的差值的平方和。对于使用不同特征表示的图片对,其相似性应该是一致的,即距离测度应该具有一致性,所以对整个数据库中图片,其距离测度的差值应该是近似为0的,即代价函数C(Icnn,Isift)应该近似为0。
基于此,可以求解以倒排表Icnn和Isift为参数的代价函数C(Icnn,Isift),得到的解就是最佳的Icnn和Isift的值。由于图像特征数目巨大,对每个图片对,即对任意一个图片u与v进行计算代价函数,计算开销将会非常大,因此本发明实施例对其进行近似处理,将查找范围缩小,即利用图像在CNN特征和SIFT特征中的邻近关系,对图片u,只需要在其最相近的K张图片中寻找即可。因此,可以将代价函数重写为:
即将原来代价函数中的对全部图片对进行计算换为每张图片只对最近K张图片进行计算距离测度差,上式中,Nc(u)表示在CNN特征下图片u的K张最近图片,Ns(u)表示在SIFT特征下图片u的K张最近图片。
将优化目标表达为:
即寻找合适的倒排表Icnn和Isift,使得近似代价函数为0。然而,即使通过上述的优化,在计算过程中,还需要同时并行地更新倒排表Icnn和Isift,上述优化问题也是非常复杂。
本发明实施例提出进一步近似等效的分步优化方案:先固定倒排表Isift,对倒排表Icnn进行优化,即然后固定倒排表Icnn,对倒排表Isift进行优化,即不断重复以上两步,直至收敛或者迭代次数达到预设次数。
上述近似等效的方案的具体步骤如下:
步骤a、将数据库中每张图片d作为查询图片,采用SIFT特征,利用Bag-of-Words检索方法进行检索,得到K张最相似的图片,记为Nk(d);
步骤b、设图片q∈Nk(d),f(d)i与f(q)i分别表示图片d与q稀疏化处理后的第i维CNN特征,如果满足:
f(q)i=0,f(d)i≠0;
则将f(q)i更新为:f(q)i=α·f(d)i;
其中,α是一个介于0和1之间的系数;
步骤c、将数据库中每张图片d作为检索图片,采用CNN特征进行检索,得到K张最相似的图片,记为Nk(d)';
步骤d、设图片q'∈Nk(d)',s(d)i与s(q')i分别表示图片d与q'的基于SIFT特征的bag-of-visual-words的第i个视觉单词的系数值,如果满足:
s(q')i=0,s(d)i≠0;
则将s(q')i更新为:s(q')i=β·s(d)i;
其中,β是一个介于0和1之间的系数;
重复上述步骤a~步骤d,直至迭代次数达到预设次数或者收敛。
在存储的时候,对每个视觉单词(即深度CNN特征中的每一维),先存储属于该单词的图片个数,然后依次存储图片编号和图片权重;在此基础上,最后在前面增加一个索引编号,从0到D,从而得到最后的存储结构。
在上述方案中,由于CNN特征已经是经过多次训练得到的能很好的概括图像内容的极度精简的数据,如果大范围地改变其已经训练好的值,可能会丢失其完整性,降低检索性能。因此,此处采用更新值为0的系数的方法,利用局部特征的检索结果,将数据库中图片的D维特征中,原来为零的特征值更新为一个相似图片的特征值乘以一个系数;这种方法不会显著改变已经迭代好的值,可以增加更多的信息。
通过上述步骤11~步骤12可以求得更新后的倒排表Icnn和Isift,其中倒排表Icnn即为基于SIFT嵌入的紧凑的深度CNN特征索引。由于更新后深度CNN特征已经包含了SIFT特征的上下文信息,而且表达更为简洁,我们可以抛弃倒排表Isift,而只保留Icnn,并基于Icnn对大规模的数据库进行检索,其步骤如下:
对于检索图片q和数据库中的每一图片d,通过计算它们的欧氏距离来比较相似性:
其中,qi与di表示图片d与q在其所属CNN特征的倒排表中的第i维CNN特征;
由上式可以看出,最后需要计算图片q和d的特征都不为0的维度的特征值的乘积,再将其相加,最后由2减去这个和值的两倍,即为图片q和d的欧氏距离。具体计算顺序如下:
1)对图片q,如果qi等于0,则跳过第i维的计算;如果qi不为0,则在第i维视觉单词索引表中找到特征值di,然后将qi与di相乘。
2)将i从0到D-1,依次执行上述步骤1),将所得乘积相加。
3)用2减去上述步骤2)中所得之和,就得到图片q和d的欧氏距离。
将检索图片q与数据库中所有图片的欧氏距离进行降序排序,排序越靠前,则越说明越相似。
本发明实施例的上述方案,基于矢量能量约束定义系数阈值,将基于深度CNN学习得到的特征矢量中的较小的系数置为0,而只保留较大的系数,从而显著的提高图像的稀疏度,并较好的保持特征矢量的信息。此外,为了使近语义层面的CNN特征索引包含底层的局部信息(如SIFT特征),增强时间特征表达的描述能力,分别利用图像在CNN特征和SIFT特征中的邻近关系,来更新图像的SIFT特征和CNN特征,从而显著地提高检索准确率。最后,通过只保留深度CNN特征的索引进行图像检索,可以节省内存开销,并提高检索效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (5)
1.一种基于SIFT嵌入的紧凑的深度CNN特征索引方法,其特征在于,包括:
针对图像的深度CNN特征,进行基于能量的稀疏化处理;
采用距离测度优化的方式,利用图像在CNN特征和SIFT特征中的邻近关系,来更新图像的SIFT特征和稀疏化处理后的CNN特征,使得稀疏化处理后的CNN特征中包含基于SIFT特征的图像上下文信息,完成基于SIFT嵌入的紧凑的深度CNN特征索引。
2.根据权利要求1所述的方法,其特征在于,所述针对图像的深度CNN特征,进行基于能量的稀疏化处理的步骤包括:
假设图片d的深度CNN特征表示为:c(d)=(c(d)1,c(d)2,…,c(d)D),其中,D表示维度;
将图片d的深度CNN特征进行非递增排序,得到新的深度CNN特征记为e(d)=(e(d)1,e(d)2,…,e(d)D);
基于能量值γ设定一个阈值τ,使得τ=e(d)t,其中参数t通过下式确定:
确定参数t后,将c(d)中所有大于t的维度的权值都置为0,并对权值进行归一化,获得稀疏化处理后的CNN特征,其表示为f(d)=(f(d)1,f(d)2,…,f(d)D)。
3.根据权利要求1所述的方法,其特征在于,所述采用距离测度优化的方式,利用图像在CNN特征和SIFT特征中的邻近关系,来更新图像的SIFT特征和稀疏化处理后的CNN特征包括:
定义代价函数:
其中,P代表数据库图像集合,Scnn(u,v)与Ssift(u,v)分别代表图片u与v在CNN特征的倒排表Icnn和SIFT特征的倒排表Isift中的距离测度;Scnn(u,v)与Ssift(u,v)的表达式如下:
Scnn(u,v)=<f(u),f(v)>;
Ssift(u,v)=<s(u),s(v)>;
其中,<f(u),f(v)>与<s(u),s(v)>均表示内积;f(u)=(f(u)1,f(u)2,…f(u)D),f(v)=(f(v)1,f(v)2,…f(v)D)分别表示图片u与v稀疏化处理后的CNN特征;s(u)=(s(u)1,s(u)2,…s(u)D),s(v)=(s(v)1,s(v)2,…s(v)D)分别表示图片u与v的SIFT特征;
利用图像在CNN特征和SIFT特征中的邻近关系,对将代价函数重写为:
其中,Nc(u)表示在CNN特征下图片u的K张最近图片,Ns(u)表示在SIFT特征下图片u的K张最近图片;
将优化目标表达为:
通过分布优化来求解以上优化问题:先固定倒排表Isift,对倒排表Icnn进行优化,即然后固定倒排表Icnn,对倒排表Isift进行优化,即不断重复以上两步,直至收敛或者迭代次数达到预设次数。
4.根据权利要求3所述的方法,其特征在于,所述利用图像在CNN特征和SIFT特征中的邻近关系,来更新图像的SIFT特征和稀疏化处理后的CNN特征包括:
步骤a、将数据库中每张图片d作为检索图片,采用SIFT特征,利用Bag-of-Words检索方法进行检索,得到K张最相似的图片,记为Nk(d);
步骤b、设图片q∈Nk(d),f(d)i与f(q)i分别表示图片d与q稀疏化处理后的第i维CNN特征,如果满足:
f(q)i=0,f(d)i≠0;
则将f(q)i更新为:f(q)i=α·f(d)i;
其中,α是一个介于0和1之间的系数;
步骤c、将数据库中每张图片d作为检索图片,采用CNN特征进行检索,得到K张最相似的图片,记为Nk(d)';
步骤d、设图片q'∈Nk(d)',s(d)i与s(q')i分别表示图片d与q'的基于SIFT特征的bag-of-visual-words的第i个视觉单词的系数值,如果满足:
s(q')i=0,s(d)i≠0;
则将s(q')i更新为:s(q')i=β·s(d)i;
其中,β是一个介于0和1之间的系数;
重复上述步骤a~步骤d,直至迭代次数达到预设次数或者收敛。
5.根据权利要求3或4所述的方法,其特征在于,该方法还包括:基于SIFT嵌入的紧凑的深度CNN特征索引对大规模的数据库进行检索,其步骤如下:
对于检索图片q和数据库中的每一图片d,通过计算它们的欧氏距离来比较相似性:
其中,所述基于SIFT嵌入的紧凑的深度CNN特征索引即为CNN特征的倒排表Icnn;qi与di表示图片d与q在其所属CNN特征的倒排表中的第i维CNN特征;
将检索图片q与数据库中所有图片的欧氏距离进行降序排序,排序越靠前,则越说明越相似。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510501763.9A CN105022836B (zh) | 2015-08-14 | 2015-08-14 | 基于sift嵌入的紧凑的深度cnn特征索引方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510501763.9A CN105022836B (zh) | 2015-08-14 | 2015-08-14 | 基于sift嵌入的紧凑的深度cnn特征索引方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105022836A true CN105022836A (zh) | 2015-11-04 |
CN105022836B CN105022836B (zh) | 2018-07-03 |
Family
ID=54412805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510501763.9A Active CN105022836B (zh) | 2015-08-14 | 2015-08-14 | 基于sift嵌入的紧凑的深度cnn特征索引方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105022836B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108351984A (zh) * | 2015-11-05 | 2018-07-31 | 微软技术许可有限责任公司 | 硬件高效的深度卷积神经网络 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984959A (zh) * | 2014-05-26 | 2014-08-13 | 中国科学院自动化研究所 | 一种基于数据与任务驱动的图像分类方法 |
US20150213599A1 (en) * | 2014-01-25 | 2015-07-30 | Pangea Diagnostics Ltd. | Automated histological diagnosis of bacterial infection using image analysis |
-
2015
- 2015-08-14 CN CN201510501763.9A patent/CN105022836B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213599A1 (en) * | 2014-01-25 | 2015-07-30 | Pangea Diagnostics Ltd. | Automated histological diagnosis of bacterial infection using image analysis |
CN103984959A (zh) * | 2014-05-26 | 2014-08-13 | 中国科学院自动化研究所 | 一种基于数据与任务驱动的图像分类方法 |
Non-Patent Citations (4)
Title |
---|
LIANG ZHENG ET AL: "Coupled binary embedding for large-scale image retrieval", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
WENGANG ZHOU ET AL: "SIFT match verification by geometric coding for large-scale partial-duplicate web image search", 《ACM TRANSACTIONS ON MULTIMEDIA COMPUTING, COMMUNICATIONS AND APPLICATIONS》 * |
ZHEN LIU ET AL: "Embedding Spatial Context Information into Inverted File for Large-Scale Image Retrieval", 《PROCEEDINGS OF THE 20TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 * |
李钊等: "CNN视觉特征的图像检索", 《北京邮电大学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108351984A (zh) * | 2015-11-05 | 2018-07-31 | 微软技术许可有限责任公司 | 硬件高效的深度卷积神经网络 |
CN108351984B (zh) * | 2015-11-05 | 2022-03-29 | 微软技术许可有限责任公司 | 硬件高效的深度卷积神经网络 |
Also Published As
Publication number | Publication date |
---|---|
CN105022836B (zh) | 2018-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020182019A1 (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN104615767B (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
US10311096B2 (en) | Online image analysis | |
US8965891B1 (en) | Training scoring models optimized for highly-ranked results | |
CN108647350A (zh) | 一种基于双通道网络的图文关联检索方法 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
US11023473B2 (en) | Recurrent binary embedding for information retrieval | |
US11875590B2 (en) | Self-supervised document-to-document similarity system | |
CN106202256A (zh) | 基于语义传播及混合多示例学习的Web图像检索方法 | |
CN104731882B (zh) | 一种基于哈希编码加权排序的自适应查询方法 | |
CN108595688A (zh) | 基于在线学习的潜在语义跨媒体哈希检索方法 | |
CN107145519B (zh) | 一种基于超图的图像检索与标注方法 | |
CN111950728A (zh) | 图像特征提取模型的构建方法、图像检索方法及存储介质 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN109145143A (zh) | 图像检索中的序列约束哈希算法 | |
CN103559174A (zh) | 语义情感分类特征值提取方法及系统 | |
CN110674313B (zh) | 一种基于用户日志动态更新知识图谱的方法 | |
CN108647295B (zh) | 一种基于深度协同哈希的图片标注方法 | |
CN108804470B (zh) | 一种图像检索方法及装置 | |
Qi et al. | Cross-media similarity metric learning with unified deep networks | |
CN112417082A (zh) | 一种科研成果数据消歧归档存储方法 | |
CN108153818A (zh) | 一种基于大数据的聚类方法 | |
CN105022836B (zh) | 基于sift嵌入的紧凑的深度cnn特征索引方法 | |
CN106599305A (zh) | 一种基于众包的异构媒体语义融合方法 | |
US9122705B1 (en) | Scoring hash functions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |