CN103020265B

CN103020265B - 图像检索的方法和系统

Info

Publication number: CN103020265B
Application number: CN201210572727.8A
Authority: CN
Inventors: 陈世峰; 杜书泽
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2012-12-25
Filing date: 2012-12-25
Publication date: 2015-08-26
Anticipated expiration: 2032-12-25
Also published as: CN103020265A

Abstract

一种图像检索的方法，将查询图像划分为显著性图像和非显著性图像两类。在获得对查询图像的稀疏编码后，利用函数对稀疏编码进行加权，其中，对于显著性图像则采用指数函数进行加权，对于非显著性图像则采用线性函数进行加权。显著图像为具有清晰背景的图像，图像范围内具有显著区域，指数函数可赋予该显著性区域更多的权重，从而将该显著区域从背景中突出。而非显著图像则为背景模糊的图像，图像范围内不具有显著区域，线性函数可均化了非显著性图像的显著性效果。因此，通过加权处理，不同种类的查询图像的稀疏编码的表示能力得到强化，即使金字塔集聚的层数减小，也能使检索获得较高的精度。此外，本发明还提供一种图像检索的系统。

Description

图像检索的方法和系统

技术领域

本发明涉及信息检索技术，特别是涉及一种图像检索的方法和系统。

背景技术

随着成像设备和存储方法的容易获得性，网络上的图像在过去的几十年增长得很快。传统的基于关键字的检索方法因为不能理解图像的内容，难以捕捉用户的搜索意图，从而使得检索结果欠佳。因此，为获得较好的检索结果，需采用基于图像内容的检索方法。

传统的基于图像内容的检索方法大致包括如下步骤：第一步，提取图像的特征表示。稀疏编码因能很好地表示图像内容，故成为图像特征表示的主要手段。第二步，对图像的特征表示进行空间金字塔集聚，得到图像的表示向量。对图像的稀疏编码进行空间金字塔集聚可进一步提高图像特征的表示能力。第三步，计算查询图像的表示向量与数据库中图像的表示向量的距离，并按照距离的大小进行排序，从而得到检索结果。

在传统的基于图像内容的检索方法中，在进行空间金字塔集聚时，金字塔的层数越高则使检索结果的精度越高。但是，金字塔的层数越高时，会使图像表示向量的维度过高(当金字塔的层数为3，词典大小为1024时，表示向量的维度为21504)，从而增加检索过程中的计算复杂程度，使得到的表示向量不适用于基于图像内容的检索。因此，在传统的基于图像内容的检索方法中，一般只进行很少层的金字塔集聚。然而，降低金字塔的层数会使的图像特征表示的表示能力受损，从而使得检索结果不够精确。

发明内容

基于此，有必要针对传统基于图像内容的检索方法中检索结果不够精确的问题，提供一种能有效提高检索精度的图像检索的方法和系统。

一种图像检索的方法，包括以下步骤：

获取查询图像，并将所述查询图像划分为显著性图像或非显著性图像；

提取所述查询图像的SIFT描述符，并根据所述SIFT描述符获得对所述查询图像的稀疏编码；

若所述查询图像为显著性图像，则采用指数函数加权所述稀疏编码，若所述查询图像为非显著性图像，则采用线形函数加权所述稀疏编码；

对加权后的稀疏编码进行金字塔集聚，得到所述查询图像的表示向量；

获取所述查询图像的表示向量与数据库中目标图像的表示向量的距离，并根据所述距离显示检索结果。

在其中一个实施例中，所述获取查询图像，并将所述查询图像划分为显著性图像或非显著性图像的步骤包括：

获取所述查询图像的显著性图；

根据所述显著性图，利用随机森林的方法将所述查询图像分为显著性图像或非显著性图像；

具体采取基于频谱余留的检测以及基于图的检测算法获取所述显著性图，方式如下：

A(f)＝R(F[I])

P(f)＝F(F[I])

R(f)＝log(A(f))-h_n(f)*log(A(f))

M_sr＝g(x)*(F^-1[exp(P(f)+R(f))])²

I_{sal} = M_{sr} &CirclePlus; M_{gb}

其中，A(f)、P(f)和R(f)分别表示所述查询图像的幅度谱、相位谱和频谱余留，F和F^-1分别表示所述查询图像的傅里叶变换和逆傅里叶变换，h_n(f)是一个局部均值滤波器，g(x)是一个高斯滤波器，I为所述查询图像的灰度图；M_sr和M_gb分别为单独利用基于频谱余留的检测和基于图的检测算法得到的显著性图，M_gb通过构建一个马尔科夫链解出，符号表示两幅显著性图对应位置像素值的相加，I_sal为最终得到的显著性图；

所述随机森林的方法具体为：

{Sal}_{F} = \{\begin{matrix} 1 & if Σ_{t = 1}^{T} {sal}_{t} > Thre \\ 0 & else \end{matrix}

其中，T为所选森林中树的数量，sal_t为第t棵树对所述显著性图的判定结果，Sal_F整个森林对所述查询图像的判定结果，Thre为预设的阈值。

在其中一个实施例中，将所述显著性图划分为相同大小的图块，且在每个图块内提取一个所述SIFT描述符；

所述稀疏编码满足如下公式：

\min_{U, D} = Σ_{m = 1}^{M} {| | x_{m} - u_{m} D | |}^{2} + λ | u_{m} |

| | d_{k} | | \leq 1, &ForAll; k = 1,2, . . ., K

其中，记X＝[x₁,x₂…,x_M]^T∈R^M×H是H维特征空间的SIFT描述符集合，M为所述SIFT描述符的个数即图块的个数，D＝[d₁,d₂…,d_K]^T∈R^K×d是一个含有K个单词的词典，向量u_m∈R^K是x_m所属簇的索引，符号||和||||分别为向量的L1范式和L2范式，矩阵U∈R^M×K为所述查询图像的稀疏编码。

在其中一个实施例中，用于对所述稀疏编码进行加权的指数函数为用于对所述稀疏编码进行加权的线性函数为

其中，x_m为是所述查询图像中第m个图块内像素值的平均值，p_j为第m个图块中像素点的值，N_b是第m个块内的像素的个数，x_k的数学意义同x_m。

在其中一个实施例中，所述对加权后的稀疏编码进行金字塔集聚，得到所述查询图像的表示向量的步骤为：

采用sqrt函数对加权后的系数编码进行金字塔集聚，得到所述查询图像的表示向量，其具体方式为：

Z_{j} = \sqrt{\frac{1}{M} {{(u_{1 j} * ω_{1})}^{2} + {(u_{2 j} * ω_{2})}^{2} + . . . + {(u_{Mj} * ω_{M})}^{2}}}

其中，z_j为所述查询图像的表示向量第j个元素。

在其中一个实施例中，所述获取所述查询图像的表示向量与数据库中目标图像的表示向量的距离的具体方式为：

HI = (z^{Q}, z^{R}) = 1 - Σ_{j = 1}^{DI} \min (z_{j}^{Q}, z_{j}^{R})

其中，z^Q、z^R分别为所述查询图像和所述目标图像的表示向量，DI为所述表示向量的维度。

一种图像检索的系统，包括：

接收模块，用于获取查询图像，并将所述查询图像划分为显著性图像或非显著性图像；

编码模块，用于提取所述查询图像的SIFT描述符，并根据所述SIFT描述符获得对所述查询图像的稀疏编码；

加权模块，用于若所述查询图像为显著性图像，则采用指数函数加权所述稀疏编码，若所述查询图像为非显著性图像，则采用线形函数加权所述稀疏编码；

统计模块，用于对加权后的稀疏编码进行金字塔集聚，得到所述查询图像的表示向量；

查询模块，用于获取所述查询图像的表示向量与数据库中目标图像的表示向量的距离，并根据所述距离显示检索结果。

在其中一个实施例中，所述接收模块包括：

显著性提取单元，用于获取所述查询图像的显著性图；

分类单元，用于根据所述显著性图，利用随机森林的方法将所述查询图像分为显著性图像或非显著性图像；

具体的，所述显著性提取单元采取基于频谱余留的检测以及基于图的检测算法获取所述显著性图，方式如下：

A(f)＝R(F[I])

P(f)＝F(F[I])

R(f)＝log(A(f))-h_n(f)*log(A(f))

M_sr＝g(x)*(F^-1[exp(P(f)+R(f))])²

I_{sal} = M_{sr} &CirclePlus; M_{gb}

所述随机森林的方法具体为：

{Sal}_{F} = \{\begin{matrix} 1 & if Σ_{t = 1}^{T} {sal}_{t} > Thre \\ 0 & else \end{matrix}

在其中一个实施例中，所述编码模块将所述显著性图划分为相同大小的图块，且在每个图块内提取一个所述SIFT描述符；

所述稀疏编码满足如下公式：

\min_{U, D} = Σ_{m = 1}^{M} {| | x_{m} - u_{m} D | |}^{2} + λ | u_{m} |

| | d_{k} | | \leq 1, &ForAll; k = 1,2, . . ., K

其中，记X＝[x₁,x₂…,x_M]^T∈R^M×H是H维特征空间的SIFT描述符集合，M为所述SIFT描述符的个数即图块的个数，D＝[d₁,d₂…,d_K]^T∈R^K×H是一个含有K个单词的词典，向量u_m∈R^k是x_m所属簇的索引，符号||和||||分别为向量的L1范式和L2范式，矩阵U∈R^M×K为所述查询图像的稀疏编码。

在其中一个实施例中，所述加权模块用于对所述稀疏编码进行加权的指数函数为用于对所述稀疏编码进行加权的线性函数为

ω_{m} = x_{m} / (Σ_{k = 1}^{M} x_{k});

在其中一个实施例中，所述统计模块用于采用sqrt函数对加权后的系数编码进行金字塔集聚，得到所述查询图像的表示向量，其具体方式为：

Z_{j} = \sqrt{\frac{1}{M} {{(u_{1 j} * ω_{1})}^{2} + {(u_{2 j} * ω_{2})}^{2} + . . . + {(u_{Mj} * ω_{M})}^{2}}}

其中，z_j为所述查询图像的表示向量第j个元素。

在其中一个实施例中，所述查询模块获取所述查询图像的表示向量与数据库中目标图像的表示向量的距离的具体方式为：

HI = (z^{Q}, z^{R}) = 1 - Σ_{j = 1}^{DI} \min (z_{j}^{Q}, z_{j}^{R})

上述图像检索的方法和系统，将查询图像划分为显著性图像和非显著性图像两类。在获得对查询图像的稀疏编码后，利用函数对稀疏编码进行加权，其中，对于显著性图像则采用指数函数进行加权，对于非显著性图像则采用线性函数进行加权。显著图像为具有清晰背景的图像，图像范围内具有显著区域，指数函数可赋予该显著性区域更多的权重，从而将该显著区域从背景中突出。而非显著图像则为背景模糊的图像，图像范围内不具有显著区域，线性函数可均化了非显著性图像的显著性效果。因此，通过加权处理，不同种类的查询图像的稀疏编码的表示能力得到强化，即使金字塔集聚的层数减小，也能使检索获得较高的精度。

附图说明

图1为一个实施例中图像检索的方法的流程图；

图2为将查询图像划分为显著性图像或非显著性图像的流程图；

图3为一个实施例中图像检索的系统的模块图；

图4为一个实施例中接收模块的示意图；

图5为显著性图像和非显著性图像的对比示意图；

图6为灰度图与显著图的对比示意图。

具体实施方式

如图1所示，在一个实施例中，一种图像检索的方法包括步骤：

步骤S110，获取查询图像，并将查询图像划分为显著性图像或非显著性图像。

具体的，查询图像根据其是否具有清晰背景可分为显著性图像和非显著性图像两类。其中，显著性图像具有显著区域，而非显著图像则不具有显著区域。从视觉角度分析，显著区域即能够引起视觉兴趣的区域。与背景区域相比，显著区域一般具有较高的亮度差或色差，因此，显著区域与背景区域具有清晰的分界线。例如，在下图5中，左边一幅图和右边一幅图分别为显著性图像和非显著性图像。

如图2所示，在一个实施例中，上述步骤S110包括步骤：

步骤S111，获取查询图像的显著性图。

具体的，采取基于频谱余留的检测以及基于图的检测算法获取所述显著性图。获取查询图像的显著性图存在多种算法，但每种算法各有利弊，将上述两种常用的显著性检测算法结合在一起可得到最终效果比较好的显著性图。具体方式如下：

A(f)＝R(F[I])

P(f)＝F(F[I])

R(f)＝log(A(f))-h_n(f)*log(A(f))

M_sr＝g(x)*(F^-1[exp(P(f)+R(f))])²

I_{sal} = M_{sr} &CirclePlus; M_{gb}

其中，A(f)、P(f)和R(f)分别表示查询图像的幅度谱、相位谱和频谱余留，F和F^-1分别表示查询图像的傅里叶变换和逆傅里叶变换，h_n(f)是一个局部均值滤波器，g(x)是一个高斯滤波器。M_sr和M_gb分别为单独利用基于频谱余留的检测和基于图的检测算法得到的显著性图，M_gb通过构建一个马尔科夫链解出，符号表示两幅显著性图对应位置像素值的相加。

I为查询图像的灰度图，I_sal为最终获得的查询图像的显著性图。例如，图6的左侧为一副图像的灰度图I，图6的右侧为该图像的显著性图I_sal。

步骤S113，根据显著性图，利用随机森林的方法将查询图像分为显著性图像或非显著性图像。

随机森林的方法具体为：

{Sal}_{F} = \{\begin{matrix} 1 & if Σ_{t = 1}^{T} {sal}_{t} > Thre \\ 0 & else \end{matrix}

其中，T为所选森林中树的数量，sal_t为第t棵树对查询图像的判定结果，Sal_F整个森林对查询图像的判定结果，Thre为预设的阈值。由于显著性是一个比较主观的概念，每个人对一幅图像的显著性判断未必一致，现实中判断一幅图像是显著的还是非显著的比较困难。因此，Thre的值动态调节，可依据不同数据库的变化而变化。

具体的，一颗树中包括分割节点及叶子节点。分割节点设置判定规则，而叶子节点则设置判定结果（查询图像的种类）。查询图像（具体为查询图像的显著性图）根据每个分割结点的判定规则，最终到达此树中的某个叶子结点，得到判定结果。为了获取较平滑的结果和好的泛化能力，设置随机森林的参数如下:100棵树,对每一个树都随机选择2/3的训练样本去训练这棵树。叶子结点的大小为80,在每一个分割结点处特征选择条目为50。400个显著性图像和400个非显著图像用于训练整个森林。

需要指出的是，由于显著图性图像和非显著性图像具有较明显的特征，用户可通过肉眼进行判断。因此，在其他实施例中，用户在输出查询图像的同时可设置该查询图像的种类，从而不必按照上述步骤获得查询图像的类别。

步骤S120，提取查询图像的SIFT描述符，并根据SIFT描述符获得对查询图像的稀疏编码。

具体的，SIFT（Scale-invariant feature transform尺度不变特征转换）描述符是一种鲁棒的局部特征描述符，利用核主成分分析的特征提取方法，对每个特征点的SIFT特征进行降维处理。核主成分分析采用非线性方法提取主成分，是主成分分析的改进算法。给定一幅查询图像，根据常用手段便可获取其SIFT描述符。在本实施例中，将获得的显著性图划分为相同大小的图块，且在每个图块内提取一个SIFT描述符，构成SIFT描述符集合。

进一步的，查询图像的稀疏编码满足以下公式：

\min_{U, D} = Σ_{m = 1}^{M} {| | x_{m} - u_{m} D | |}^{2} + λ | u_{m} |

| | d_{k} | | \leq 1, &ForAll; k = 1,2, . . ., K

其中，记X＝[x₁,x₂…,x_M]^T∈R^M×H是H维特征空间的SIFT描述符集合，M为SIFT描述符的个数即图块的个数，符号||和||||分别为向量的L1范式和L2范式。D＝[d₁,d₂…,d_K]^T∈R^K×H是一个含有K个单词的词典，向量u_m∈R^K是x_m所属簇的索引。U∈R^M×K为查询图像的稀疏编码，为M行K列的矩阵。

在编码之前，通过给定一已知的SIFT描述符集合训练出一个字典D。在训练阶段，描述符集合X为已知变量，从而可迭代地求出式中的U和D，并把D保存下来作为下一步编码的字典。在编码阶段，给定查询图像的SIFT描述符集合，通过解上式便可获得该查询图像的稀疏编码U∈R^M×K，即U矩阵的第i行为第i个SIFT描述符的稀疏码。

步骤S130，若查询图像为显著性图像，则采用指数函数加权稀疏编码，若查询图像为非显著性图像，则采用线形函数加权稀疏编码。

具体的，指数函数可赋予显著性图像的显著性区域更多的权重，从而将该显著区域从背景中突出。而非显著图像则为背景模糊的图像，线性函数可均化了非显著性图像的显著性效果。因此，通过加权处理，不同种类的查询图像的稀疏编码的表示能力得到强化。

在一个实施例中，用于对稀疏编码进行加权的指数函数为用于对稀疏编码进行加权的线性函数为其中，x_m为是查询图像中第m个图块内像素值的平均值，p_j为第m个图块中像素点的值，N_b是第m个图块内像素的个数，x_k的数学意义同x_m。

步骤S140，对加权后的稀疏编码进行金字塔集聚，得到查询图像的表示向量。

具体的，进行金字塔集聚的过程即是对查询图像的稀释编码进行统计的过程。先使用金字塔将查询图像成多个区域，在每一个区域里做统计，然后将所得到的统计向量合并在一起，得到表示向量。例如，采用两层金字塔做统计。在第一层，把整张查询图像当成一块区域做统计，得出统计z1（为向量）；第二层，把查询图像整体划分为2*2等同大小的四个区域，在每一区域内分别做统计，得到四个统计向量z2、z3、z4和z5。把这五个向量合为一个向量，即为查询图像的表示向量。

在一个实施例中，采用sqrt函数对加权后的系数编码进行金字塔集聚，得到查询图像的表示向量，其具体方式为：

Z_{j} = \sqrt{\frac{1}{M} {{(u_{1 j} * ω_{1})}^{2} + {(u_{2 j} * ω_{2})}^{2} + . . . + {(u_{Mj} * ω_{M})}^{2}}}

其中，z_j为表示向量第j个元素，M为统计区域内描述符的个数。

sqrt函数集聚后，可得到更精确的检索结果。需要指出的是，在其他实施例中，还可采用max函数对查询图像的稀疏编码进行集聚。

步骤S150，获取查询图像的表示向量与数据库中目标图像的表示向量的距离，并根据所述距离显示检索结果。

具体的，检索的目的就是从数据库中查找到与查询图像相同或类似的图像。在数据库中，预先存储有海量的目标图像，而且，数据库中每个目标图像的表示向量被预先获得，并与该目标图像对应存储。图像之间的相似程度可通过两个图像的表示向量的距离表示，若两个表示向量间的距离越大，则对应的两图像越不相似。

具体在本实施例中，目标图像的表示向量按照获得查询图像的表示向量的方式计算得到，经过分类、稀疏编码、加权和金字塔集聚后得到目标图像最终的表示向量。因此，目标图像的表示向量也能很好的表示目标图像。

在一个实施例中，计算查询图像的表示向量与数据库中目标图像的表示向量的距离的具体方式为：

HI = (z^{Q}, z^{R}) = 1 - Σ_{j = 1}^{DI} \min (z_{j}^{Q}, z_{j}^{R})

其中，z^Q、z^R分别为查询图像和目标图像的表示向量，DI是表示向量的维度。

进一步的，当获取查询图像的表示向量与目标图像的表示向量的距离后，可按照距离从小到大的顺序依次显示对应的目标图像，从而得到精确的检索结果。此外，还可设置阈值，且只显示表示向量与查询图像的表示向量的距离在阈值内的目标图像。

如图3所示，在一个实施例中，一种图像检索系统包括接收模块110、编码模块120、加权模块130、统计模块140及查询模块150。其中：

接收模块110用于获取查询图像，并将查询图像划分为显著性图像或非显著性图像。

如图4所示，在一个实施例中，接收模块110包括显著性提取单元111和分类单元113。其中：

显著性提取单元111用于获取查询图像的显著性图。

具体的，显著性提取单元111采取基于频谱余留的检测以及基于图的检测算法获取所述显著性图。获取查询图像的显著性图存在多种算法，但每种算法各有利弊，将上述两种常用的显著性检测算法结合在一起可得到最终效果比较好的显著性图。具体方式如下：

A(f)＝R(F[I])

P(f)＝F(F[I])

R(f)＝log(A(f))-h_n(f)*log(A(f))

M_sr＝g(x)*(F^-1[exp(P(f)+R(f))])²

I_{sal} = M_{sr} &CirclePlus; M_{gb}

I为查询图像的灰度图，I_sal为最终获得的查询图像的显著性图。例如，图6的左侧为一幅图像的灰度图I，图6的右侧为该图像的显著性图I_sal。

分类单元113用于根据显著性图，利用随机森林的方法将查询图像分为显著性图像或非显著性图像。

随机森林的方法具体为：

{Sal}_{F} = \{\begin{matrix} 1 & if Σ_{t = 1}^{T} {sal}_{t} > Thre \\ 0 & else \end{matrix}

具体的，一颗树中包括分割节点及叶子节点。分割节点设置判定规则，而叶子节点则设置判定结果（查询图像的种类）。查询图像（具体为查询图像的显著性图）根据每个分割结点的判定规则，最终到达此树中的某个叶子结点，得到判定结果。为了获取较平滑的结果和好的泛化能力，设置随机森林的参数如下：100棵树,对每一个树都随机选择2/3的训练样本去训练这棵树。叶子结点的大小为80,在每一个分割结点处特征选择条目为50。400个显著性图像和400个非显著图像用于训练整个森林。

需要指出的是，由于显著图性图像和非显著性图像具有较明显的特征，用户可通过肉眼进行判断。因此，在其他实施例中，用户在输出查询图像的同时可设置该查询图像的种类，从而不必通过显著性提取单元111和分类单元113获得查询图像的类别。

编码模块120用于提取查询图像的SIFT描述符，并根据SIFT描述符获得对查询图像的稀疏编码。

进一步的，查询图像的稀疏编码满足以下公式：

\min_{U, D} = Σ_{m = 1}^{M} {| | x_{m} - u_{m} D | |}^{2} + λ | u_{m} |

| | d_{k} | | \leq 1, &ForAll; k = 1,2, . . ., K

在编码之前，通过给定一已知的SIFT描述符集合训练出一个字典D。在训练阶段，描述符集合X为已知变量，从而可迭代地求出式中的U和D，并把D保存下来作为下一步编码的字典。在编码阶段，给定查询图像的SIFT描述符集合，编码模块120通过解上式便可获得该查询图像的稀疏编码U∈R^M×K，即U矩阵的第i行为第i个SIFT描述符的稀疏码。

加权模块130用于若查询图像为显著性图像，则采用指数函数加权稀疏编码，若查询图像为非显著性图像，则采用线形函数加权稀疏编码。

在一个实施例中，加权模块130用于对稀疏编码进行加权的指数函数为用于对稀疏编码进行加权的线性函数为其中，x_m为是查询图像中第m个图块内像素值的平均值，p_j为第m个图块中像素点的值，N_b是第m个图块内像素的个数，x_k的数学意义同x_m。

统计模块140，用于对加权后的稀疏编码进行金字塔集聚，得到查询图像的表示向量。

具体的，进行金字塔集聚的过程即是统计模块140对查询图像的稀释编码进行统计的过程。先使用金字塔将查询图像成多个区域，在每一个区域里做统计，然后将所得到的统计向量合并在一起，得到表示向量。例如，采用两层金字塔做统计。在第一层，把整张查询图像当成一块区域做统计，得出统计z1（为向量）；第二层，把查询图像整体划分为2*2等同大小的四个区域，在每一区域内分别做统计，得到四个统计向量z2、z3、z4和z5。把这五个向量合为一个向量，即为查询图像的表示向量。

在一个实施例中，统计模块140采用sqrt函数对加权后的系数编码进行金字塔集聚，得到查询图像的表示向量，其具体方式为：

Z_{j} = \sqrt{\frac{1}{M} {{(u_{1 j} * ω_{1})}^{2} + {(u_{2 j} * ω_{2})}^{2} + . . . + {(u_{Mj} * ω_{M})}^{2}}}

sqrt函数集聚后，可得到更精确的检索结果。需要指出的是，在其他实施例中，统计模块140还可采用max函数对查询图像的稀疏编码进行集聚。

查询模块150用于获取查询图像的表示向量与数据库中目标图像的表示向量的距离，并根据距离显示检索结果。

检索的目的就是查询模块150从数据库中查找到与查询图像相同或类似的图像。在数据库中，预先存储有海量的目标图像，而且，数据库中每个目标图像的表示向量被预先获得，并与该目标图像对应存储。图像之间的相似程度可通过两个图像的表示向量的距离表示，若两个表示向量间的距离越大，则对应的两图像越不相似。

HI = (z^{Q}, z^{R}) = 1 - Σ_{j = 1}^{DI} \min (z_{j}^{Q}, z_{j}^{R})

进一步的，当查询模块150获取查询图像的表示向量与目标图像的表示向量的距离后，可按照距离从小到大的顺序依次显示对应的目标图像，从而得到精确的检索结果。此外，还可设置阈值，且只显示表示向量与查询图像的表示向量的距离在阈值内的目标图像。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种图像检索的方法，包括以下步骤：

若所述查询图像为显著性图像，则采用指数函数加权所述稀疏编码，若所述查询图像为非显著性图像，则采用线形函数加权所述稀疏编码；其中所述显著图像具有清晰背景的图像且图像范围内具有显著区域，所述非显著图像则背景模糊的图像且图像范围内不具有显著区域；

2.根据权利要求1所述的图像检索的方法，其特征在于，所述获取查询图像，并将所述查询图像划分为显著性图像或非显著性图像的步骤包括：

获取所述查询图像的显著性图；

A(f)＝R(F[I])

P(f)＝F(F[I])

R(f)＝log(A(f))-h_n(f)*log(A(f))

M_sr＝g(x)*(F^-1[exp(P(f)+R(f))])²

I_{sal} = M_{sr} &CirclePlus; M_{gb}

所述随机森林的方法具体为：

{Sal}_{F} = \{\begin{matrix} 1 & if Σ_{t = 1}^{T} {sal}_{t} > Thre \\ 0 & else \end{matrix}

3.根据权利要求2所述的图像检索的方法，其特征在于，将所述显著性图划分为相同大小的图块，且在每个图块内提取一个所述SIFT描述符；

所述稀疏编码满足如下公式：

\min_{U, D} = Σ_{m = 1}^{M} {| | x_{m} - u_{m} D | |}^{2} + λ | u_{m} |

| | d_{k} | \leq 1, &ForAll; k = 1,2, . . ., K |

4.根据权利要求3所述的图像检索的方法，其特征在于，用于对所述稀疏编码进行加权的指数函数为用于对所述稀疏编码进行加权的线性函数为

ω_{m} = x_{m} / (Σ_{k = 1}^{M} x_{k});

其中，x_m为所述查询图像中第m个图块内像素值的平均值，p_j为第m个图块中像素点的值，N_b是第m个块内的像素的个数，x_k的数学意义同x_m。

5.根据权利要求4所述的图像检索的方法，其特征在于，所述对加权后的稀疏编码进行金字塔集聚，得到所述查询图像的表示向量的步骤为：

Z_{j} = \sqrt{\frac{1}{m} {{(u_{1 j} * ω_{1})}^{2} + {(u_{2 j} * ω_{2})}^{2} + . . . + {(u_{Mj} * ω_{M})}^{2}}}

其中，z_j为所述查询图像的表示向量第j个元素。

6.根据权利要求5所述的图像检索的方法，其特征在于，所述获取所述查询图像的表示向量与数据库中目标图像的表示向量的距离的具体方式为：

HI (z^{Q}, z^{R}) = 1 - Σ_{j = 1}^{DI} \min (z_{j}^{Q}, Z_{j}^{R})

7.一种图像检索的系统，其特征在于，包括：

接收模块，用于获取查询图像，并将所述查询图像划分为显著性图像或非显著性图像；其中所述显著图像具有清晰背景的图像且图像范围内具有显著区域，所述非显著图像则背景模糊的图像且图像范围内不具有显著区域；

8.根据权利要求7所述的图像检索的系统，其特征在于，所述接收模块包括：

显著性提取单元，用于获取所述查询图像的显著性图；

A(f)＝R(F[I])

P(f)＝F(F[I])

R(f)＝log(A(f))-h_n(f)*log(A(f))

M_sr＝g(x)*(F^-1[exp(P(f)+R(f))])²

I_{sal} = M_{sr} &CirclePlus; M_{gb}

所述随机森林的方法具体为：

{Sal}_{F} = \{\begin{matrix} 1 & if Σ_{t = 1}^{T} {sal}_{t} > Thre \\ 0 & else \end{matrix}

9.根据权利要求8所述的图像检索的系统，其特征在于，所述编码模块将所述显著性图划分为相同大小的图块，且在每个图块内提取一个所述SIFT描述符；

所述稀疏编码满足如下公式：

\min_{U, D} = Σ_{m = 1}^{M} {| | x_{m} - u_{m} D | |}^{2} + λ | u_{m} |

| | d_{k} | \leq 1, &ForAll; k = 1,2, . . ., K |

10.根据权利要求9所述的图像检索的系统，其特征在于，所述加权模块用于对所述稀疏编码进行加权的指数函数为用于对所述稀疏编码进行加权的线性函数为

11.根据权利要求10所述的图像检索的系统，其特征在于，所述统计模块用于采用sqrt函数对加权后的系数编码进行金字塔集聚，得到所述查询图像的表示向量，其具体方式为：

Z_{j} = \sqrt{\frac{1}{m} {{(u_{1 j} * ω_{1})}^{2} + {(u_{2 j} * ω_{2})}^{2} + . . . + {(u_{Mj} * ω_{M})}^{2}}}

其中，z_j为所述查询图像的表示向量第j个元素。

12.根据权利要求11所述的图像检索的系统，其特征在于，所述查询模块获取所述查询图像的表示向量与数据库中目标图像的表示向量的距离的具体方式为：

HI (z^{Q}, z^{R}) = 1 - Σ_{j = 1}^{DI} \min (z_{j}^{Q}, Z_{j}^{R})