CN103020265B - 图像检索的方法和系统 - Google Patents

图像检索的方法和系统 Download PDF

Info

Publication number
CN103020265B
CN103020265B CN201210572727.8A CN201210572727A CN103020265B CN 103020265 B CN103020265 B CN 103020265B CN 201210572727 A CN201210572727 A CN 201210572727A CN 103020265 B CN103020265 B CN 103020265B
Authority
CN
China
Prior art keywords
image
query image
saliency maps
described query
expression vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210572727.8A
Other languages
English (en)
Other versions
CN103020265A (zh
Inventor
陈世峰
杜书泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201210572727.8A priority Critical patent/CN103020265B/zh
Publication of CN103020265A publication Critical patent/CN103020265A/zh
Application granted granted Critical
Publication of CN103020265B publication Critical patent/CN103020265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种图像检索的方法,将查询图像划分为显著性图像和非显著性图像两类。在获得对查询图像的稀疏编码后,利用函数对稀疏编码进行加权,其中,对于显著性图像则采用指数函数进行加权,对于非显著性图像则采用线性函数进行加权。显著图像为具有清晰背景的图像,图像范围内具有显著区域,指数函数可赋予该显著性区域更多的权重,从而将该显著区域从背景中突出。而非显著图像则为背景模糊的图像,图像范围内不具有显著区域,线性函数可均化了非显著性图像的显著性效果。因此,通过加权处理,不同种类的查询图像的稀疏编码的表示能力得到强化,即使金字塔集聚的层数减小,也能使检索获得较高的精度。此外,本发明还提供一种图像检索的系统。

Description

图像检索的方法和系统
技术领域
本发明涉及信息检索技术,特别是涉及一种图像检索的方法和系统。
背景技术
随着成像设备和存储方法的容易获得性,网络上的图像在过去的几十年增长得很快。传统的基于关键字的检索方法因为不能理解图像的内容,难以捕捉用户的搜索意图,从而使得检索结果欠佳。因此,为获得较好的检索结果,需采用基于图像内容的检索方法。
传统的基于图像内容的检索方法大致包括如下步骤:第一步,提取图像的特征表示。稀疏编码因能很好地表示图像内容,故成为图像特征表示的主要手段。第二步,对图像的特征表示进行空间金字塔集聚,得到图像的表示向量。对图像的稀疏编码进行空间金字塔集聚可进一步提高图像特征的表示能力。第三步,计算查询图像的表示向量与数据库中图像的表示向量的距离,并按照距离的大小进行排序,从而得到检索结果。
在传统的基于图像内容的检索方法中,在进行空间金字塔集聚时,金字塔的层数越高则使检索结果的精度越高。但是,金字塔的层数越高时,会使图像表示向量的维度过高(当金字塔的层数为3,词典大小为1024时,表示向量的维度为21504),从而增加检索过程中的计算复杂程度,使得到的表示向量不适用于基于图像内容的检索。因此,在传统的基于图像内容的检索方法中,一般只进行很少层的金字塔集聚。然而,降低金字塔的层数会使的图像特征表示的表示能力受损,从而使得检索结果不够精确。
发明内容
基于此,有必要针对传统基于图像内容的检索方法中检索结果不够精确的问题,提供一种能有效提高检索精度的图像检索的方法和系统。
一种图像检索的方法,包括以下步骤:
获取查询图像,并将所述查询图像划分为显著性图像或非显著性图像;
提取所述查询图像的SIFT描述符,并根据所述SIFT描述符获得对所述查询图像的稀疏编码;
若所述查询图像为显著性图像,则采用指数函数加权所述稀疏编码,若所述查询图像为非显著性图像,则采用线形函数加权所述稀疏编码;
对加权后的稀疏编码进行金字塔集聚,得到所述查询图像的表示向量;
获取所述查询图像的表示向量与数据库中目标图像的表示向量的距离,并根据所述距离显示检索结果。
在其中一个实施例中,所述获取查询图像,并将所述查询图像划分为显著性图像或非显著性图像的步骤包括:
获取所述查询图像的显著性图;
根据所述显著性图,利用随机森林的方法将所述查询图像分为显著性图像或非显著性图像;
具体采取基于频谱余留的检测以及基于图的检测算法获取所述显著性图,方式如下:
A(f)=R(F[I])
P(f)=F(F[I])
R(f)=log(A(f))-hn(f)*log(A(f))
Msr=g(x)*(F-1[exp(P(f)+R(f))])2
I sal = M sr ⊕ M gb
其中,A(f)、P(f)和R(f)分别表示所述查询图像的幅度谱、相位谱和频谱余留,F和F-1分别表示所述查询图像的傅里叶变换和逆傅里叶变换,hn(f)是一个局部均值滤波器,g(x)是一个高斯滤波器,I为所述查询图像的灰度图;Msr和Mgb分别为单独利用基于频谱余留的检测和基于图的检测算法得到的显著性图,Mgb通过构建一个马尔科夫链解出,符号表示两幅显著性图对应位置像素值的相加,Isal为最终得到的显著性图;
所述随机森林的方法具体为:
Sal F = 1 if Σ t = 1 T sal t > Thre 0 else
其中,T为所选森林中树的数量,salt为第t棵树对所述显著性图的判定结果,SalF整个森林对所述查询图像的判定结果,Thre为预设的阈值。
在其中一个实施例中,将所述显著性图划分为相同大小的图块,且在每个图块内提取一个所述SIFT描述符;
所述稀疏编码满足如下公式:
min U , D = Σ m = 1 M | | x m - u m D | | 2 + λ | u m |
| | d k | | ≤ 1 , ∀ k = 1,2 , . . . , K
其中,记X=[x1,x2…,xM]T∈RM×H是H维特征空间的SIFT描述符集合,M为所述SIFT描述符的个数即图块的个数,D=[d1,d2…,dK]T∈RK×d是一个含有K个单词的词典,向量um∈RK是xm所属簇的索引,符号||和||||分别为向量的L1范式和L2范式,矩阵U∈RM×K为所述查询图像的稀疏编码。
在其中一个实施例中,用于对所述稀疏编码进行加权的指数函数为用于对所述稀疏编码进行加权的线性函数为
其中,xm为是所述查询图像中第m个图块内像素值的平均值,pj为第m个图块中像素点的值,Nb是第m个块内的像素的个数,xk的数学意义同xm
在其中一个实施例中,所述对加权后的稀疏编码进行金字塔集聚,得到所述查询图像的表示向量的步骤为:
采用sqrt函数对加权后的系数编码进行金字塔集聚,得到所述查询图像的表示向量,其具体方式为:
Z j = 1 M { ( u 1 j * ω 1 ) 2 + ( u 2 j * ω 2 ) 2 + . . . + ( u Mj * ω M ) 2 }
其中,zj为所述查询图像的表示向量第j个元素。
在其中一个实施例中,所述获取所述查询图像的表示向量与数据库中目标图像的表示向量的距离的具体方式为:
HI = ( z Q , z R ) = 1 - Σ j = 1 DI min ( z j Q , z j R )
其中,zQ、zR分别为所述查询图像和所述目标图像的表示向量,DI为所述表示向量的维度。
一种图像检索的系统,包括:
接收模块,用于获取查询图像,并将所述查询图像划分为显著性图像或非显著性图像;
编码模块,用于提取所述查询图像的SIFT描述符,并根据所述SIFT描述符获得对所述查询图像的稀疏编码;
加权模块,用于若所述查询图像为显著性图像,则采用指数函数加权所述稀疏编码,若所述查询图像为非显著性图像,则采用线形函数加权所述稀疏编码;
统计模块,用于对加权后的稀疏编码进行金字塔集聚,得到所述查询图像的表示向量;
查询模块,用于获取所述查询图像的表示向量与数据库中目标图像的表示向量的距离,并根据所述距离显示检索结果。
在其中一个实施例中,所述接收模块包括:
显著性提取单元,用于获取所述查询图像的显著性图;
分类单元,用于根据所述显著性图,利用随机森林的方法将所述查询图像分为显著性图像或非显著性图像;
具体的,所述显著性提取单元采取基于频谱余留的检测以及基于图的检测算法获取所述显著性图,方式如下:
A(f)=R(F[I])
P(f)=F(F[I])
R(f)=log(A(f))-hn(f)*log(A(f))
Msr=g(x)*(F-1[exp(P(f)+R(f))])2
I sal = M sr ⊕ M gb
其中,A(f)、P(f)和R(f)分别表示所述查询图像的幅度谱、相位谱和频谱余留,F和F-1分别表示所述查询图像的傅里叶变换和逆傅里叶变换,hn(f)是一个局部均值滤波器,g(x)是一个高斯滤波器,I为所述查询图像的灰度图;Msr和Mgb分别为单独利用基于频谱余留的检测和基于图的检测算法得到的显著性图,Mgb通过构建一个马尔科夫链解出,符号表示两幅显著性图对应位置像素值的相加,Isal为最终得到的显著性图;
所述随机森林的方法具体为:
Sal F = 1 if Σ t = 1 T sal t > Thre 0 else
其中,T为所选森林中树的数量,salt为第t棵树对所述显著性图的判定结果,SalF整个森林对所述查询图像的判定结果,Thre为预设的阈值。
在其中一个实施例中,所述编码模块将所述显著性图划分为相同大小的图块,且在每个图块内提取一个所述SIFT描述符;
所述稀疏编码满足如下公式:
min U , D = Σ m = 1 M | | x m - u m D | | 2 + λ | u m |
| | d k | | ≤ 1 , ∀ k = 1,2 , . . . , K
其中,记X=[x1,x2…,xM]T∈RM×H是H维特征空间的SIFT描述符集合,M为所述SIFT描述符的个数即图块的个数,D=[d1,d2…,dK]T∈RK×H是一个含有K个单词的词典,向量um∈Rk是xm所属簇的索引,符号||和||||分别为向量的L1范式和L2范式,矩阵U∈RM×K为所述查询图像的稀疏编码。
在其中一个实施例中,所述加权模块用于对所述稀疏编码进行加权的指数函数为用于对所述稀疏编码进行加权的线性函数为
ω m = x m / ( Σ k = 1 M x k ) ;
其中,xm为是所述查询图像中第m个图块内像素值的平均值,pj为第m个图块中像素点的值,Nb是第m个块内的像素的个数,xk的数学意义同xm
在其中一个实施例中,所述统计模块用于采用sqrt函数对加权后的系数编码进行金字塔集聚,得到所述查询图像的表示向量,其具体方式为:
Z j = 1 M { ( u 1 j * ω 1 ) 2 + ( u 2 j * ω 2 ) 2 + . . . + ( u Mj * ω M ) 2 }
其中,zj为所述查询图像的表示向量第j个元素。
在其中一个实施例中,所述查询模块获取所述查询图像的表示向量与数据库中目标图像的表示向量的距离的具体方式为:
HI = ( z Q , z R ) = 1 - Σ j = 1 DI min ( z j Q , z j R )
其中,zQ、zR分别为所述查询图像和所述目标图像的表示向量,DI为所述表示向量的维度。
上述图像检索的方法和系统,将查询图像划分为显著性图像和非显著性图像两类。在获得对查询图像的稀疏编码后,利用函数对稀疏编码进行加权,其中,对于显著性图像则采用指数函数进行加权,对于非显著性图像则采用线性函数进行加权。显著图像为具有清晰背景的图像,图像范围内具有显著区域,指数函数可赋予该显著性区域更多的权重,从而将该显著区域从背景中突出。而非显著图像则为背景模糊的图像,图像范围内不具有显著区域,线性函数可均化了非显著性图像的显著性效果。因此,通过加权处理,不同种类的查询图像的稀疏编码的表示能力得到强化,即使金字塔集聚的层数减小,也能使检索获得较高的精度。
附图说明
图1为一个实施例中图像检索的方法的流程图;
图2为将查询图像划分为显著性图像或非显著性图像的流程图;
图3为一个实施例中图像检索的系统的模块图;
图4为一个实施例中接收模块的示意图;
图5为显著性图像和非显著性图像的对比示意图;
图6为灰度图与显著图的对比示意图。
具体实施方式
如图1所示,在一个实施例中,一种图像检索的方法包括步骤:
步骤S110,获取查询图像,并将查询图像划分为显著性图像或非显著性图像。
具体的,查询图像根据其是否具有清晰背景可分为显著性图像和非显著性图像两类。其中,显著性图像具有显著区域,而非显著图像则不具有显著区域。从视觉角度分析,显著区域即能够引起视觉兴趣的区域。与背景区域相比,显著区域一般具有较高的亮度差或色差,因此,显著区域与背景区域具有清晰的分界线。例如,在下图5中,左边一幅图和右边一幅图分别为显著性图像和非显著性图像。
如图2所示,在一个实施例中,上述步骤S110包括步骤:
步骤S111,获取查询图像的显著性图。
具体的,采取基于频谱余留的检测以及基于图的检测算法获取所述显著性图。获取查询图像的显著性图存在多种算法,但每种算法各有利弊,将上述两种常用的显著性检测算法结合在一起可得到最终效果比较好的显著性图。具体方式如下:
A(f)=R(F[I])
P(f)=F(F[I])
R(f)=log(A(f))-hn(f)*log(A(f))
Msr=g(x)*(F-1[exp(P(f)+R(f))])2
I sal = M sr ⊕ M gb
其中,A(f)、P(f)和R(f)分别表示查询图像的幅度谱、相位谱和频谱余留,F和F-1分别表示查询图像的傅里叶变换和逆傅里叶变换,hn(f)是一个局部均值滤波器,g(x)是一个高斯滤波器。Msr和Mgb分别为单独利用基于频谱余留的检测和基于图的检测算法得到的显著性图,Mgb通过构建一个马尔科夫链解出,符号表示两幅显著性图对应位置像素值的相加。
I为查询图像的灰度图,Isal为最终获得的查询图像的显著性图。例如,图6的左侧为一副图像的灰度图I,图6的右侧为该图像的显著性图Isal
步骤S113,根据显著性图,利用随机森林的方法将查询图像分为显著性图像或非显著性图像。
随机森林的方法具体为:
Sal F = 1 if Σ t = 1 T sal t > Thre 0 else
其中,T为所选森林中树的数量,salt为第t棵树对查询图像的判定结果,SalF整个森林对查询图像的判定结果,Thre为预设的阈值。由于显著性是一个比较主观的概念,每个人对一幅图像的显著性判断未必一致,现实中判断一幅图像是显著的还是非显著的比较困难。因此,Thre的值动态调节,可依据不同数据库的变化而变化。
具体的,一颗树中包括分割节点及叶子节点。分割节点设置判定规则,而叶子节点则设置判定结果(查询图像的种类)。查询图像(具体为查询图像的显著性图)根据每个分割结点的判定规则,最终到达此树中的某个叶子结点,得到判定结果。为了获取较平滑的结果和好的泛化能力,设置随机森林的参数如下:100棵树,对每一个树都随机选择2/3的训练样本去训练这棵树。叶子结点的大小为80,在每一个分割结点处特征选择条目为50。400个显著性图像和400个非显著图像用于训练整个森林。
需要指出的是,由于显著图性图像和非显著性图像具有较明显的特征,用户可通过肉眼进行判断。因此,在其他实施例中,用户在输出查询图像的同时可设置该查询图像的种类,从而不必按照上述步骤获得查询图像的类别。
步骤S120,提取查询图像的SIFT描述符,并根据SIFT描述符获得对查询图像的稀疏编码。
具体的,SIFT(Scale-invariant feature transform尺度不变特征转换)描述符是一种鲁棒的局部特征描述符,利用核主成分分析的特征提取方法,对每个特征点的SIFT特征进行降维处理。核主成分分析采用非线性方法提取主成分,是主成分分析的改进算法。给定一幅查询图像,根据常用手段便可获取其SIFT描述符。在本实施例中,将获得的显著性图划分为相同大小的图块,且在每个图块内提取一个SIFT描述符,构成SIFT描述符集合。
进一步的,查询图像的稀疏编码满足以下公式:
min U , D = Σ m = 1 M | | x m - u m D | | 2 + λ | u m |
| | d k | | ≤ 1 , ∀ k = 1,2 , . . . , K
其中,记X=[x1,x2…,xM]T∈RM×H是H维特征空间的SIFT描述符集合,M为SIFT描述符的个数即图块的个数,符号||和||||分别为向量的L1范式和L2范式。D=[d1,d2…,dK]T∈RK×H是一个含有K个单词的词典,向量um∈RK是xm所属簇的索引。U∈RM×K为查询图像的稀疏编码,为M行K列的矩阵。
在编码之前,通过给定一已知的SIFT描述符集合训练出一个字典D。在训练阶段,描述符集合X为已知变量,从而可迭代地求出式中的U和D,并把D保存下来作为下一步编码的字典。在编码阶段,给定查询图像的SIFT描述符集合,通过解上式便可获得该查询图像的稀疏编码U∈RM×K,即U矩阵的第i行为第i个SIFT描述符的稀疏码。
步骤S130,若查询图像为显著性图像,则采用指数函数加权稀疏编码,若查询图像为非显著性图像,则采用线形函数加权稀疏编码。
具体的,指数函数可赋予显著性图像的显著性区域更多的权重,从而将该显著区域从背景中突出。而非显著图像则为背景模糊的图像,线性函数可均化了非显著性图像的显著性效果。因此,通过加权处理,不同种类的查询图像的稀疏编码的表示能力得到强化。
在一个实施例中,用于对稀疏编码进行加权的指数函数为用于对稀疏编码进行加权的线性函数为其中,xm为是查询图像中第m个图块内像素值的平均值,pj为第m个图块中像素点的值,Nb是第m个图块内像素的个数,xk的数学意义同xm
步骤S140,对加权后的稀疏编码进行金字塔集聚,得到查询图像的表示向量。
具体的,进行金字塔集聚的过程即是对查询图像的稀释编码进行统计的过程。先使用金字塔将查询图像成多个区域,在每一个区域里做统计,然后将所得到的统计向量合并在一起,得到表示向量。例如,采用两层金字塔做统计。在第一层,把整张查询图像当成一块区域做统计,得出统计z1(为向量);第二层,把查询图像整体划分为2*2等同大小的四个区域,在每一区域内分别做统计,得到四个统计向量z2、z3、z4和z5。把这五个向量合为一个向量,即为查询图像的表示向量。
在一个实施例中,采用sqrt函数对加权后的系数编码进行金字塔集聚,得到查询图像的表示向量,其具体方式为:
Z j = 1 M { ( u 1 j * ω 1 ) 2 + ( u 2 j * ω 2 ) 2 + . . . + ( u Mj * ω M ) 2 }
其中,zj为表示向量第j个元素,M为统计区域内描述符的个数。
sqrt函数集聚后,可得到更精确的检索结果。需要指出的是,在其他实施例中,还可采用max函数对查询图像的稀疏编码进行集聚。
步骤S150,获取查询图像的表示向量与数据库中目标图像的表示向量的距离,并根据所述距离显示检索结果。
具体的,检索的目的就是从数据库中查找到与查询图像相同或类似的图像。在数据库中,预先存储有海量的目标图像,而且,数据库中每个目标图像的表示向量被预先获得,并与该目标图像对应存储。图像之间的相似程度可通过两个图像的表示向量的距离表示,若两个表示向量间的距离越大,则对应的两图像越不相似。
具体在本实施例中,目标图像的表示向量按照获得查询图像的表示向量的方式计算得到,经过分类、稀疏编码、加权和金字塔集聚后得到目标图像最终的表示向量。因此,目标图像的表示向量也能很好的表示目标图像。
在一个实施例中,计算查询图像的表示向量与数据库中目标图像的表示向量的距离的具体方式为:
HI = ( z Q , z R ) = 1 - Σ j = 1 DI min ( z j Q , z j R )
其中,zQ、zR分别为查询图像和目标图像的表示向量,DI是表示向量的维度。
进一步的,当获取查询图像的表示向量与目标图像的表示向量的距离后,可按照距离从小到大的顺序依次显示对应的目标图像,从而得到精确的检索结果。此外,还可设置阈值,且只显示表示向量与查询图像的表示向量的距离在阈值内的目标图像。
如图3所示,在一个实施例中,一种图像检索系统包括接收模块110、编码模块120、加权模块130、统计模块140及查询模块150。其中:
接收模块110用于获取查询图像,并将查询图像划分为显著性图像或非显著性图像。
具体的,查询图像根据其是否具有清晰背景可分为显著性图像和非显著性图像两类。其中,显著性图像具有显著区域,而非显著图像则不具有显著区域。从视觉角度分析,显著区域即能够引起视觉兴趣的区域。与背景区域相比,显著区域一般具有较高的亮度差或色差,因此,显著区域与背景区域具有清晰的分界线。例如,在下图5中,左边一幅图和右边一幅图分别为显著性图像和非显著性图像。
如图4所示,在一个实施例中,接收模块110包括显著性提取单元111和分类单元113。其中:
显著性提取单元111用于获取查询图像的显著性图。
具体的,显著性提取单元111采取基于频谱余留的检测以及基于图的检测算法获取所述显著性图。获取查询图像的显著性图存在多种算法,但每种算法各有利弊,将上述两种常用的显著性检测算法结合在一起可得到最终效果比较好的显著性图。具体方式如下:
A(f)=R(F[I])
P(f)=F(F[I])
R(f)=log(A(f))-hn(f)*log(A(f))
Msr=g(x)*(F-1[exp(P(f)+R(f))])2
I sal = M sr ⊕ M gb
其中,A(f)、P(f)和R(f)分别表示查询图像的幅度谱、相位谱和频谱余留,F和F-1分别表示查询图像的傅里叶变换和逆傅里叶变换,hn(f)是一个局部均值滤波器,g(x)是一个高斯滤波器。Msr和Mgb分别为单独利用基于频谱余留的检测和基于图的检测算法得到的显著性图,Mgb通过构建一个马尔科夫链解出,符号表示两幅显著性图对应位置像素值的相加。
I为查询图像的灰度图,Isal为最终获得的查询图像的显著性图。例如,图6的左侧为一幅图像的灰度图I,图6的右侧为该图像的显著性图Isal
分类单元113用于根据显著性图,利用随机森林的方法将查询图像分为显著性图像或非显著性图像。
随机森林的方法具体为:
Sal F = 1 if Σ t = 1 T sal t > Thre 0 else
其中,T为所选森林中树的数量,salt为第t棵树对查询图像的判定结果,SalF整个森林对查询图像的判定结果,Thre为预设的阈值。由于显著性是一个比较主观的概念,每个人对一幅图像的显著性判断未必一致,现实中判断一幅图像是显著的还是非显著的比较困难。因此,Thre的值动态调节,可依据不同数据库的变化而变化。
具体的,一颗树中包括分割节点及叶子节点。分割节点设置判定规则,而叶子节点则设置判定结果(查询图像的种类)。查询图像(具体为查询图像的显著性图)根据每个分割结点的判定规则,最终到达此树中的某个叶子结点,得到判定结果。为了获取较平滑的结果和好的泛化能力,设置随机森林的参数如下:100棵树,对每一个树都随机选择2/3的训练样本去训练这棵树。叶子结点的大小为80,在每一个分割结点处特征选择条目为50。400个显著性图像和400个非显著图像用于训练整个森林。
需要指出的是,由于显著图性图像和非显著性图像具有较明显的特征,用户可通过肉眼进行判断。因此,在其他实施例中,用户在输出查询图像的同时可设置该查询图像的种类,从而不必通过显著性提取单元111和分类单元113获得查询图像的类别。
编码模块120用于提取查询图像的SIFT描述符,并根据SIFT描述符获得对查询图像的稀疏编码。
具体的,SIFT(Scale-invariant feature transform尺度不变特征转换)描述符是一种鲁棒的局部特征描述符,利用核主成分分析的特征提取方法,对每个特征点的SIFT特征进行降维处理。核主成分分析采用非线性方法提取主成分,是主成分分析的改进算法。给定一幅查询图像,根据常用手段便可获取其SIFT描述符。在本实施例中,将获得的显著性图划分为相同大小的图块,且在每个图块内提取一个SIFT描述符,构成SIFT描述符集合。
进一步的,查询图像的稀疏编码满足以下公式:
min U , D = Σ m = 1 M | | x m - u m D | | 2 + λ | u m |
| | d k | | ≤ 1 , ∀ k = 1,2 , . . . , K
其中,记X=[x1,x2…,xM]T∈RM×H是H维特征空间的SIFT描述符集合,M为SIFT描述符的个数即图块的个数,符号||和||||分别为向量的L1范式和L2范式。D=[d1,d2…,dK]T∈RK×H是一个含有K个单词的词典,向量um∈RK是xm所属簇的索引。U∈RM×K为查询图像的稀疏编码,为M行K列的矩阵。
在编码之前,通过给定一已知的SIFT描述符集合训练出一个字典D。在训练阶段,描述符集合X为已知变量,从而可迭代地求出式中的U和D,并把D保存下来作为下一步编码的字典。在编码阶段,给定查询图像的SIFT描述符集合,编码模块120通过解上式便可获得该查询图像的稀疏编码U∈RM×K,即U矩阵的第i行为第i个SIFT描述符的稀疏码。
加权模块130用于若查询图像为显著性图像,则采用指数函数加权稀疏编码,若查询图像为非显著性图像,则采用线形函数加权稀疏编码。
具体的,指数函数可赋予显著性图像的显著性区域更多的权重,从而将该显著区域从背景中突出。而非显著图像则为背景模糊的图像,线性函数可均化了非显著性图像的显著性效果。因此,通过加权处理,不同种类的查询图像的稀疏编码的表示能力得到强化。
在一个实施例中,加权模块130用于对稀疏编码进行加权的指数函数为用于对稀疏编码进行加权的线性函数为其中,xm为是查询图像中第m个图块内像素值的平均值,pj为第m个图块中像素点的值,Nb是第m个图块内像素的个数,xk的数学意义同xm
统计模块140,用于对加权后的稀疏编码进行金字塔集聚,得到查询图像的表示向量。
具体的,进行金字塔集聚的过程即是统计模块140对查询图像的稀释编码进行统计的过程。先使用金字塔将查询图像成多个区域,在每一个区域里做统计,然后将所得到的统计向量合并在一起,得到表示向量。例如,采用两层金字塔做统计。在第一层,把整张查询图像当成一块区域做统计,得出统计z1(为向量);第二层,把查询图像整体划分为2*2等同大小的四个区域,在每一区域内分别做统计,得到四个统计向量z2、z3、z4和z5。把这五个向量合为一个向量,即为查询图像的表示向量。
在一个实施例中,统计模块140采用sqrt函数对加权后的系数编码进行金字塔集聚,得到查询图像的表示向量,其具体方式为:
Z j = 1 M { ( u 1 j * ω 1 ) 2 + ( u 2 j * ω 2 ) 2 + . . . + ( u Mj * ω M ) 2 }
其中,zj为表示向量第j个元素,M为统计区域内描述符的个数。
sqrt函数集聚后,可得到更精确的检索结果。需要指出的是,在其他实施例中,统计模块140还可采用max函数对查询图像的稀疏编码进行集聚。
查询模块150用于获取查询图像的表示向量与数据库中目标图像的表示向量的距离,并根据距离显示检索结果。
检索的目的就是查询模块150从数据库中查找到与查询图像相同或类似的图像。在数据库中,预先存储有海量的目标图像,而且,数据库中每个目标图像的表示向量被预先获得,并与该目标图像对应存储。图像之间的相似程度可通过两个图像的表示向量的距离表示,若两个表示向量间的距离越大,则对应的两图像越不相似。
具体在本实施例中,目标图像的表示向量按照获得查询图像的表示向量的方式计算得到,经过分类、稀疏编码、加权和金字塔集聚后得到目标图像最终的表示向量。因此,目标图像的表示向量也能很好的表示目标图像。
在一个实施例中,计算查询图像的表示向量与数据库中目标图像的表示向量的距离的具体方式为:
HI = ( z Q , z R ) = 1 - Σ j = 1 DI min ( z j Q , z j R )
其中,zQ、zR分别为查询图像和目标图像的表示向量,DI是表示向量的维度。
进一步的,当查询模块150获取查询图像的表示向量与目标图像的表示向量的距离后,可按照距离从小到大的顺序依次显示对应的目标图像,从而得到精确的检索结果。此外,还可设置阈值,且只显示表示向量与查询图像的表示向量的距离在阈值内的目标图像。
上述图像检索的方法和系统,将查询图像划分为显著性图像和非显著性图像两类。在获得对查询图像的稀疏编码后,利用函数对稀疏编码进行加权,其中,对于显著性图像则采用指数函数进行加权,对于非显著性图像则采用线性函数进行加权。显著图像为具有清晰背景的图像,图像范围内具有显著区域,指数函数可赋予该显著性区域更多的权重,从而将该显著区域从背景中突出。而非显著图像则为背景模糊的图像,图像范围内不具有显著区域,线性函数可均化了非显著性图像的显著性效果。因此,通过加权处理,不同种类的查询图像的稀疏编码的表示能力得到强化,即使金字塔集聚的层数减小,也能使检索获得较高的精度。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种图像检索的方法,包括以下步骤:
获取查询图像,并将所述查询图像划分为显著性图像或非显著性图像;
提取所述查询图像的SIFT描述符,并根据所述SIFT描述符获得对所述查询图像的稀疏编码;
若所述查询图像为显著性图像,则采用指数函数加权所述稀疏编码,若所述查询图像为非显著性图像,则采用线形函数加权所述稀疏编码;其中所述显著图像具有清晰背景的图像且图像范围内具有显著区域,所述非显著图像则背景模糊的图像且图像范围内不具有显著区域;
对加权后的稀疏编码进行金字塔集聚,得到所述查询图像的表示向量;
获取所述查询图像的表示向量与数据库中目标图像的表示向量的距离,并根据所述距离显示检索结果。
2.根据权利要求1所述的图像检索的方法,其特征在于,所述获取查询图像,并将所述查询图像划分为显著性图像或非显著性图像的步骤包括:
获取所述查询图像的显著性图;
根据所述显著性图,利用随机森林的方法将所述查询图像分为显著性图像或非显著性图像;
具体采取基于频谱余留的检测以及基于图的检测算法获取所述显著性图,方式如下:
A(f)=R(F[I])
P(f)=F(F[I])
R(f)=log(A(f))-hn(f)*log(A(f))
Msr=g(x)*(F-1[exp(P(f)+R(f))])2
I sal = M sr ⊕ M gb
其中,A(f)、P(f)和R(f)分别表示所述查询图像的幅度谱、相位谱和频谱余留,F和F-1分别表示所述查询图像的傅里叶变换和逆傅里叶变换,hn(f)是一个局部均值滤波器,g(x)是一个高斯滤波器,I为所述查询图像的灰度图;Msr和Mgb分别为单独利用基于频谱余留的检测和基于图的检测算法得到的显著性图,Mgb通过构建一个马尔科夫链解出,符号表示两幅显著性图对应位置像素值的相加,Isal为最终得到的显著性图;
所述随机森林的方法具体为:
Sal F = 1 if Σ t = 1 T sal t > Thre 0 else
其中,T为所选森林中树的数量,salt为第t棵树对所述显著性图的判定结果,SalF整个森林对所述查询图像的判定结果,Thre为预设的阈值。
3.根据权利要求2所述的图像检索的方法,其特征在于,将所述显著性图划分为相同大小的图块,且在每个图块内提取一个所述SIFT描述符;
所述稀疏编码满足如下公式:
min U , D = Σ m = 1 M | | x m - u m D | | 2 + λ | u m |
| | d k | ≤ 1 , ∀ k = 1,2 , . . . , K |
其中,记X=[x1,x2…,xM]T∈RM×H是H维特征空间的SIFT描述符集合,M为所述SIFT描述符的个数即图块的个数,D=[d1,d2…,dK]T∈RK×H是一个含有K个单词的词典,向量um∈RK是xm所属簇的索引,符号||和||||分别为向量的L1范式和L2范式,矩阵U∈RM×K为所述查询图像的稀疏编码。
4.根据权利要求3所述的图像检索的方法,其特征在于,用于对所述稀疏编码进行加权的指数函数为用于对所述稀疏编码进行加权的线性函数为 ω m = x m / ( Σ k = 1 M x k ) ;
其中,xm为所述查询图像中第m个图块内像素值的平均值,pj为第m个图块中像素点的值,Nb是第m个块内的像素的个数,xk的数学意义同xm
5.根据权利要求4所述的图像检索的方法,其特征在于,所述对加权后的稀疏编码进行金字塔集聚,得到所述查询图像的表示向量的步骤为:
采用sqrt函数对加权后的系数编码进行金字塔集聚,得到所述查询图像的表示向量,其具体方式为:
Z j = 1 m { ( u 1 j * ω 1 ) 2 + ( u 2 j * ω 2 ) 2 + . . . + ( u Mj * ω M ) 2 }
其中,zj为所述查询图像的表示向量第j个元素。
6.根据权利要求5所述的图像检索的方法,其特征在于,所述获取所述查询图像的表示向量与数据库中目标图像的表示向量的距离的具体方式为:
HI ( z Q , z R ) = 1 - Σ j = 1 DI min ( z j Q , Z j R )
其中,zQ、zR分别为所述查询图像和所述目标图像的表示向量,DI为所述表示向量的维度。
7.一种图像检索的系统,其特征在于,包括:
接收模块,用于获取查询图像,并将所述查询图像划分为显著性图像或非显著性图像;其中所述显著图像具有清晰背景的图像且图像范围内具有显著区域,所述非显著图像则背景模糊的图像且图像范围内不具有显著区域;
编码模块,用于提取所述查询图像的SIFT描述符,并根据所述SIFT描述符获得对所述查询图像的稀疏编码;
加权模块,用于若所述查询图像为显著性图像,则采用指数函数加权所述稀疏编码,若所述查询图像为非显著性图像,则采用线形函数加权所述稀疏编码;
统计模块,用于对加权后的稀疏编码进行金字塔集聚,得到所述查询图像的表示向量;
查询模块,用于获取所述查询图像的表示向量与数据库中目标图像的表示向量的距离,并根据所述距离显示检索结果。
8.根据权利要求7所述的图像检索的系统,其特征在于,所述接收模块包括:
显著性提取单元,用于获取所述查询图像的显著性图;
分类单元,用于根据所述显著性图,利用随机森林的方法将所述查询图像分为显著性图像或非显著性图像;
具体的,所述显著性提取单元采取基于频谱余留的检测以及基于图的检测算法获取所述显著性图,方式如下:
A(f)=R(F[I])
P(f)=F(F[I])
R(f)=log(A(f))-hn(f)*log(A(f))
Msr=g(x)*(F-1[exp(P(f)+R(f))])2
I sal = M sr ⊕ M gb
其中,A(f)、P(f)和R(f)分别表示所述查询图像的幅度谱、相位谱和频谱余留,F和F-1分别表示所述查询图像的傅里叶变换和逆傅里叶变换,hn(f)是一个局部均值滤波器,g(x)是一个高斯滤波器,I为所述查询图像的灰度图;Msr和Mgb分别为单独利用基于频谱余留的检测和基于图的检测算法得到的显著性图,Mgb通过构建一个马尔科夫链解出,符号表示两幅显著性图对应位置像素值的相加,Isal为最终得到的显著性图;
所述随机森林的方法具体为:
Sal F = 1 if Σ t = 1 T sal t > Thre 0 else
其中,T为所选森林中树的数量,salt为第t棵树对所述显著性图的判定结果,SalF整个森林对所述查询图像的判定结果,Thre为预设的阈值。
9.根据权利要求8所述的图像检索的系统,其特征在于,所述编码模块将所述显著性图划分为相同大小的图块,且在每个图块内提取一个所述SIFT描述符;
所述稀疏编码满足如下公式:
min U , D = Σ m = 1 M | | x m - u m D | | 2 + λ | u m |
| | d k | ≤ 1 , ∀ k = 1,2 , . . . , K |
其中,记X=[x1,x2…,xM]T∈RM×H是H维特征空间的SIFT描述符集合,M为所述SIFT描述符的个数即图块的个数,D=[d1,d2…,dK]T∈RK×H是一个含有K个单词的词典,向量um∈RK是xm所属簇的索引,符号||和||||分别为向量的L1范式和L2范式,矩阵U∈RM×K为所述查询图像的稀疏编码。
10.根据权利要求9所述的图像检索的系统,其特征在于,所述加权模块用于对所述稀疏编码进行加权的指数函数为用于对所述稀疏编码进行加权的线性函数为
其中,xm为是所述查询图像中第m个图块内像素值的平均值,pj为第m个图块中像素点的值,Nb是第m个块内的像素的个数,xk的数学意义同xm
11.根据权利要求10所述的图像检索的系统,其特征在于,所述统计模块用于采用sqrt函数对加权后的系数编码进行金字塔集聚,得到所述查询图像的表示向量,其具体方式为:
Z j = 1 m { ( u 1 j * ω 1 ) 2 + ( u 2 j * ω 2 ) 2 + . . . + ( u Mj * ω M ) 2 }
其中,zj为所述查询图像的表示向量第j个元素。
12.根据权利要求11所述的图像检索的系统,其特征在于,所述查询模块获取所述查询图像的表示向量与数据库中目标图像的表示向量的距离的具体方式为:
HI ( z Q , z R ) = 1 - Σ j = 1 DI min ( z j Q , Z j R )
其中,zQ、zR分别为所述查询图像和所述目标图像的表示向量,DI为所述表示向量的维度。
CN201210572727.8A 2012-12-25 2012-12-25 图像检索的方法和系统 Active CN103020265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210572727.8A CN103020265B (zh) 2012-12-25 2012-12-25 图像检索的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210572727.8A CN103020265B (zh) 2012-12-25 2012-12-25 图像检索的方法和系统

Publications (2)

Publication Number Publication Date
CN103020265A CN103020265A (zh) 2013-04-03
CN103020265B true CN103020265B (zh) 2015-08-26

Family

ID=47968868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210572727.8A Active CN103020265B (zh) 2012-12-25 2012-12-25 图像检索的方法和系统

Country Status (1)

Country Link
CN (1) CN103020265B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699612B (zh) * 2013-12-13 2017-10-13 中国科学院深圳先进技术研究院 一种图像检索排序的方法及装置
CN104021220B (zh) * 2014-06-24 2017-09-05 中国科学院深圳先进技术研究院 基于显著性模型的图像检索方法
WO2017045113A1 (zh) * 2015-09-15 2017-03-23 北京大学深圳研究生院 一种基于局部pca白化的图像表示方法和处理装置
CN106844785A (zh) * 2017-03-15 2017-06-13 浙江工业大学 一种基于显著性分割的基于内容的图像检索方法
CN107491721B (zh) * 2017-05-05 2019-05-14 北京佳格天地科技有限公司 遥感影像分类装置及方法
CN107730506A (zh) * 2017-07-21 2018-02-23 苏州大学 图像分割方法及图像检索方法
CN107833226B (zh) * 2017-10-26 2021-05-11 中国测绘科学研究院 一种基于指数型多尺度影像序列的c-v模型对sar影像海岸线快速自动分割方法
CN107908175B (zh) * 2017-11-08 2020-06-23 国网电力科学研究院武汉南瑞有限责任公司 一种电力系统现场智能化运维系统
CN108415958A (zh) * 2018-02-06 2018-08-17 北京陌上花科技有限公司 指数权重vlad特征的权重处理方法及装置
CN109902190B (zh) * 2019-03-04 2021-04-27 京东方科技集团股份有限公司 图像检索模型优化方法、检索方法、装置、系统及介质
CN111914920A (zh) * 2020-07-24 2020-11-10 山东工商学院 一种基于稀疏编码的相似性图像检索方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364497A (zh) * 2011-05-06 2012-02-29 北京师范大学 一种应用于电子导盲系统的图像语义提取方法
CN102509110A (zh) * 2011-10-24 2012-06-20 中国科学院自动化研究所 基于成对约束的在线词典再加权对图像进行分类的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8095329B2 (en) * 2002-02-19 2012-01-10 Mark Howard L Testing linearity of methods of chemical analysis with various statistical tests

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364497A (zh) * 2011-05-06 2012-02-29 北京师范大学 一种应用于电子导盲系统的图像语义提取方法
CN102509110A (zh) * 2011-10-24 2012-06-20 中国科学院自动化研究所 基于成对约束的在线词典再加权对图像进行分类的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种融合图学习与区域显著性分析的图像检索算法;冯松鹤等;《电子学报》;20111031;2288-2294 *
基于相位谱和调谐幅度谱的显著性检测方法;李崇飞等;《中国图像图像学报》;20120731;821-827 *
王秀芬等.基于背景差分法和显著性图的海底目标检测方法.《山东大学学报(工学版)》.2011,12-16. *

Also Published As

Publication number Publication date
CN103020265A (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
CN103020265B (zh) 图像检索的方法和系统
Risojević et al. Gabor descriptors for aerial image classification
CN102819582B (zh) 一种海量图片快速检索方法
CN101826105B (zh) 基于匈牙利匹配算法的钓鱼网页检测方法
CN108399362A (zh) 一种快速行人检测方法及装置
CN108446312B (zh) 基于深度卷积语义网的光学遥感图像检索方法
CN111274865A (zh) 一种基于全卷积神经网络的遥感图像云检测方法及装置
CN108596108B (zh) 基于三元组语义关系学习的航拍遥感图像变化检测方法
CN111680176A (zh) 基于注意力与双向特征融合的遥感图像检索方法及系统
CN109960737B (zh) 半监督深度对抗自编码哈希学习的遥感影像内容检索方法
CN106997380A (zh) 基于dcgan深度网络的成像光谱图像安全检索方法
CN109784197B (zh) 基于孔洞卷积与注意力学习机制的行人再识别方法
CN110245720B (zh) 一种基于深度学习的柑橘病虫害智能诊断方法及系统
CN104966081B (zh) 书脊图像识别方法
Ko et al. Tree genera classification with geometric features from high-density airborne LiDAR
CN103577537B (zh) 面向图像分享网站图片的多重配对相似度确定方法
CN108197650A (zh) 局部相似性保持的高光谱图像极限学习机聚类方法
CN107169106A (zh) 视频检索方法、装置、存储介质及处理器
CN107291825A (zh) 一种视频中同款商品的检索方法和系统
CN106446004A (zh) 数字病理全切片图像检索方法
CN106845513A (zh) 基于条件随机森林的人手检测器及方法
Myint et al. Urban textural analysis from remote sensor data: Lacunarity measurements based on the differential box counting method
CN115909052A (zh) 一种基于混合卷积神经网络的高光谱遥感图像分类方法
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及系统
Chen et al. Plant leaf segmentation for estimating phenotypic traits

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant