CN110110119B

CN110110119B - 图像检索的方法、装置及计算机可读存储介质

Info

Publication number: CN110110119B
Application number: CN201810098777.4A
Authority: CN
Inventors: 王晓雪; 侯金亭; 刘丽艳; 毛路路
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2023-05-02
Anticipated expiration: 2038-01-31
Also published as: CN110110119A

Abstract

本发明实施例提供了一种图像检索的方法、装置及计算机可读存储介质。本发明实施例提供的图像检索的方法，将图像宽高比作为全局特征点，并利用包括全局特征点和局部特征点在内的混合特征点，构建词汇树及词汇森林，其中，利用全局特征点构建词汇树的第一层。本发明实施例可以减少图像检索的计算量和检索时间，提升图像检索效果。

Description

图像检索的方法、装置及计算机可读存储介质

技术领域

本发明涉及对话处理技术领域，具体涉及一种图像检索的方法、装置及计算机可读存储介质。

背景技术

随着互联网和多媒体技术的发展，多媒体信息特别是图像信息正以爆炸性的速度在产生和传播。图像检索技术能够使用户在各种图像信息中快速准确地查找、访问所需图像，在网络多媒体领域具有广泛的应用前景。

例如，在某些检索网站(如google、百度等)上传某个图像，可以检索出该图像的相似图像。又例如，在某些购物网站，人们可以利用手机拍摄图像并上传，从而可以搜索相应的产品。再例如，对于药品管理系统，可以实现基于查询图像的精确匹配。

目前，检索网站通常采用感知哈希算法进行检索，感知哈希算法得到的结果是对图像整体特征的一种表述方式，该算法具有计算速度快的优点，但是计算精度不高。另一种检索算法采用加速稳健特征(SURF，Speeded Up Robust Features)，SURF是对尺度不变特征变换(SIFT，Scale-invariant feature transform)的改进版本，它利用Haar小波来近似SIFT方法中的梯度操作，同时利用积分图技术进行快速计算，SURF的速度是SIFT的3-7倍，大部分情况下它和SIFT的性能相当，因此它在很多应用中得到了应用，尤其是对运行时间要求高的场合。SURF特征点属于图像的局部特征点，利用SURF特征点可以获得较高的匹配精度，但是其计算量和计算时间仍然较大。

因此，亟需一种图像检索方法，能够在获得较高的匹配精度的前提下，减少计算量和计算时间。

发明内容

本发明实施例要解决的技术问题是提供一种图像检索的方法、装置及计算机可读存储介质，减少图像检索的计算量和检索时间，提升图像检索效果。

为解决上述技术问题，本发明实施例提供的图像检索的方法，包括：

获取查询图像的特征点，所述特征点包括用于表示图像宽高比的全局特征点和用于表示图像局部特征的局部特征点；

根据查询图像的特征点，在预先构建的词汇森林中进行图像匹配，获得与查询图像相似的至少一幅候选图像以及候选图像的图像描述向量，其中，所述词汇森林包括至少一棵词汇树，所述词汇树的第一层基于多幅样本图像的全局特征点构建，其他层基于所述多幅样本图像的局部特征点构建；

根据图像描述向量，计算候选图像的相似度评分，并将相似度评分最低的候选图像，作为所述查询图像的目标检索图像。

优选的，在所述获取查询图像的特征点的步骤之前，所述方法还包括：

通过重复以下步骤，获得包括至少一棵词汇树的词汇森林：

计算所述多幅样本图像的特征点；

利用词袋模型对所述多幅样本图像的特征点进行聚类，获得聚类结果；

根据聚类结果，构建一棵词汇树，并获得每幅样本图像的图像描述向量，其中，所述词汇树的第一层基于多幅样本图像的全局特征点构建，其他层基于所述多幅样本图像的局部特征点构建。

优选的，所述局部特征点为SURF特征点。

优选的，所述根据查询图像的特征点，在预先构建的词汇森林中进行图像匹配，获得与查询图像相似的至少一幅候选图像以及候选图像的图像描述向量的步骤，包括：

针对词汇森林中的每一棵词汇树，分别执行以下步骤，获得所述候选图像及其图像描述向量：

计算查询图像的全局特征点与词汇树的第一层各个节点之间的距离，选择出距离最短的第一节点；

计算查询图像的局部特征点与所述第一节点的子节点之间的距离，并根据计算得到的距离，将查询图像的局部特征点分配到叶子节点；

利用投票机制，从分配有局部特征点的叶子节点下的样本图像中，选择出预设数量的样本图像，作为所述候选图像，并获取所述候选图像的图像描述向量。

优选的，所述根据图像描述向量，计算候选图像的相似度评分的步骤，包括：

根据公式

计算候选图像i的相似度评分score_i；

其中，v_i表示候选图像i的图像描述向量，v_q表示查询图像的图像描述向量。

本发明实施例还提供了一种图像检索装置，包括：

查询图像特征获取单元，用于获取查询图像的特征点，所述特征点包括用于表示图像宽高比的全局特征点和用于表示图像局部特征的局部特征点；

图像匹配单元，用于根据查询图像的特征点，在预先构建的词汇森林中进行图像匹配，获得与查询图像相似的至少一幅候选图像以及候选图像的图像描述向量，其中，所述词汇森林包括至少一棵词汇树，所述词汇树的第一层基于多幅样本图像的全局特征点构建，其他层基于所述多幅样本图像的局部特征点构建；

相似度计算单元，用于根据图像描述向量，计算候选图像的相似度评分，并将相似度评分最低的候选图像，作为所述查询图像的目标检索图像。

优选的，上述图像检索装置还包括：

词汇森林构建单元，用于在所述获取查询图像的特征点的步骤之前，通过重复以下步骤，获得包括至少一棵词汇树的词汇森林：计算所述多幅样本图像的特征点；利用词袋模型对所述多幅样本图像的特征点进行聚类，获得聚类结果；根据聚类结果，构建一棵词汇树，并获得每幅样本图像的图像描述向量，其中，所述词汇树的第一层基于多幅样本图像的全局特征点构建，其他层基于所述多幅样本图像的局部特征点构建。

优选的，所述图像匹配单元，具体用于针对词汇森林中的每一棵词汇树，分别执行以下步骤，获得所述候选图像及其图像描述向量：计算查询图像的全局特征点与词汇树的第一层各个节点之间的距离，选择出距离最短的第一节点；计算查询图像的局部特征点与所述第一节点的子节点之间的距离，并根据计算得到的距离，将查询图像的局部特征点分配到叶子节点；利用投票机制，从分配有局部特征点的叶子节点下的样本图像中，选择出预设数量的样本图像，作为所述候选图像，并获取所述候选图像的图像描述向量。

优选的，相似度计算单元，具体用于根据公式

计算候选图像i的相似度评分score_i；其中，v_i表示候选图像i的图像描述向量，v_q表示查询图像的图像描述向量。

本发明实施例还提供了一种图像检索装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的图像检索的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的图像检索的方法的步骤。

与现有技术相比，本发明实施例提供的图像检索的方法、装置及计算机可读存储介质，将图像宽高比作为全局特征点，并利用包括全局特征点和局部特征点在内的混合特征点，构建词汇树及词汇森林，其中，利用全局特征点构建词汇树的第一层。基于上述词汇森林进行图像检索，本发明实施例可以减少图像检索的计算量和检索时间，提升图像检索效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的图像检索的方法的一种应用场景示意图；

图2为本发明实施例的图像检索的方法的一种流程示意图；

图3为本发明实施例中的投票机制的示意图；

图4为本发明实施例提供的构建词汇森林的流程示意图；

图5为本发明实施例提供的BOW模型的一种示意图；

图6为本发明实施例提供的词汇树模型的一种示意图；

图7为本发明实施例提供的词汇森林的一种示意图；

图8为本发明实施例提供的词汇树和词汇森林的检索精确度对比示意图；

图9为本发明实施例的图像检索装置的一种结构示意图；

图10为本发明实施例的图像检索装置的另一种结构示意图；

图11为本发明实施例的图像检索装置的又一种结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图1给出了本发明实施例提供的图像检索的方法的一种应用场景。在该应用场景中，用户输入一幅查询图像，希望检索到与该查询图像最相似的一幅图像时，本发明实施例可以通过数据库的搜索，可以获得与之最为相似甚至相同的目标图像。本发明实施例的图像检索的方法，期望达到精确匹配图像的效果，因此需要利用图像局部特征进行匹配。为了减少匹配时间，采用词袋模型(BoW model，Bag-of-words model)，对局部特征点进行分类、整理。并且，在本发明实施例中，针对图像的整体形状通常是长方形，且对于很多应用场景来说，图像通常都是没有其他背景，因此，本发明实施例利用图像的整体特征，进一步的减少了检索计算量和计算时间。具体的，在本发明实施例中，将采用图像的宽高比(即图像宽度与高度的比值)作为图像整体特征。与现有技术的差异哈希表示方法相比较，本发明实施例采用图像宽高比，可以采用较少的数据(1个浮点数)就可以代表图像的整体特征。

请参照图2，本发明实施例提供的图像检索的方法，利用一预先构建的词汇森林进行图像检索，该词汇森林包括至少一棵词汇树，其中，每棵词汇树的第一层是基于多幅样本图像的全局特征点(即宽高比)构建，除第一层之外的其他层则是基于所述多幅样本图像的局部特征点构建，该局部特征点可以是SURF特征点或SIFT特征点。在进行图像检索时，本发明实施例可以下载预先构建的词汇森林，以用于检索过程。请参照图1，本发明实施例提供的图像检索的方法，包括：

步骤211，获取查询图像的特征点，所述特征点包括用于表示图像宽高比的全局特征点和用于表示图像局部特征的局部特征点。

这里，查询图像通常是用户输入的，用于在数据库中进行检索的图像，即希望找到与查询图像相匹配的图像。本发明实施例在步骤211中，获得查询图像的特征点，包括作为全局特征点的图像的宽高比，还包括用于表示图像局部特征的局部特征点。这里，局部特征点可以采用SURF特征点或SIFT特征点来表示。全局特征点可以直接根据查询图像的宽度和高度的比值计算得到。关于局部特征点的计算，可以参考相关SURF特征点或SIFT特征点的计算方式，本文不再赘述。

步骤212，根据查询图像的特征点，在预先构建的词汇森林中进行图像匹配，获得与查询图像相似的至少一幅候选图像以及候选图像的图像描述向量。

这里，在进行图像检索时，分别针对词汇森林中的每一棵词汇树进行图像匹配，获得针对该词汇树的一个检索结果，将所有词汇树的检索结果汇总，得到针对词汇森林的检索结果。

在对每棵词汇树进行检索时，可以采用并行检索的方式，同时对多棵词汇树进行检索；也可以采用串行检索的方式，依次对各棵词汇树进行检索。当然，还可以采用串并结合的方式进行检索。具体检索方式，可以根据检索处理的设备处理能力进行设置。

在针对每一棵词汇树进行检索的过程中，具体可以包括以下步骤：

步骤a，计算查询图像的全局特征点与词汇树的第一层各个节点之间的距离，选择出距离最短的第一节点。

这里，词汇树的第一层是基于多幅样本图像的全局特征点(即宽高比)构建的，具体的，词汇树的第一层可以是全局特征点聚类后的多个中心点进行构建的。通过计算查询图像的全局特征点与词汇树第一层各个节点之间的距离，选择出最小距离所对应的第一层的节点(为描述方便，称之为第一节点)。

步骤b，计算查询图像的局部特征点与所述第一节点的子节点之间的距离，并根据计算得到的距离，将查询图像的局部特征点分配到叶子节点。

这里，将针对查询图像的每个局部特征点，分别计算该局部特征点与第一节点的下一级各个子节点之间的距离，然后确定最小距离对应的一个子节点(为描述方便，称之为第一子节点)，将该局部特征点分配给该第一子节点；然后，针对该第一子节点的下一级各个子节点重复上述步骤，将该局部特征点分配给该第一子节点的某个下一级子节点，直至将该局部特征点分配至一个叶子节点(不再具有下一级子节点的节点)。通常以上步骤，可以把查询图像的全部局部特征点，分配至词汇树的叶子节点中。

步骤c，利用投票机制，从分配有局部特征点的叶子节点下的样本图像中，选择出预设数量的样本图像，作为所述候选图像，并获取所述候选图像的图像描述向量。

这里，预先构建的词汇树的叶子节点下，可能具有0幅、1幅或多幅样本图像。在步骤c中，首先确定分配有查询图像的局部特征点的叶子节点(为描述方便，可以将这些叶子节点称之为被选叶子节点)，然后根据该被选叶子节点下的局部特征点的数量，确定该被选叶子节点下的各个样本图像的投票次数，例如，某个被选叶子节点分配了x个局部特征点，则该被选叶子节点下的每个样本图像都获得x次投票。然后，统计各个被选叶子节点下的样本图像的投票次数，可以获得各个样本图像的投票次数，并按照投票次数的高低顺序，选择出预设数量的样本图像(如选择投票次数前三名的样本图像)，作为候选图像，并获取所述候选图像的图像描述向量。

图3提供了上述投票机制的一种示例，图3中，假设查询图像的局部特征点分配到了叶子节点1、3、5、7、9下，且每个叶子节点下分配了1个局部特征点，关于这些叶子节点下的样本图像如图3中的表格所示，例如，叶子节点1下包括有样本图像一、二、四，叶子节点3下包括有样本图像五、六、二、四，叶子节点5下包括有样本图像三、二、一、九，叶子节点7下包括有样本图像二，叶子节点9下包括有样本图像一。此时，利用投票机制，选出词汇树中最相似的M幅图像。图3中，可以统计得到各个样本图像的投票次数(即得票数)，因此，在M-3时，可以选择出最相似的3幅图像分别为图像二、图像一和图像四。

每棵词汇树都进行以上相同的操作，可以得到多幅候选图像。

步骤213，根据图像描述向量，计算候选图像的相似度评分，并将相似度评分最低的候选图像，作为所述查询图像的目标检索图像。

这里，可以根据以下公式，计算候选图像i的相似度评分score_i：

相似度得分越低，表示两幅图像越相似，因此，可以根据相似度评分，将评分最低的候选图像，作为所述查询图像的目标检索图像进行输出，从而为用户提供了查询图像的目标检索图像。

通过以上步骤，本发明实施例将图像宽高比作为全局特征点，并利用包括全局特征点和局部特征点在内的混合特征点，构建词汇树及词汇森林，其中，利用全局特征点构建词汇树的第一层。基于上述词汇森林进行图像检索，本发明实施例可以减少图像检索的计算量和检索时间，提升图像检索效果。

在上述步骤211之前，本发明实施例可以预先构建词汇树及词汇森林。作为一种实现方式，也可以仅构建一棵词汇树，此时词汇森林仅包括一棵词汇树。为了提高图像检索的稳定性，提高匹配效率，本发明实施例可以采用多棵词汇树组成的词汇森林进行匹配。词汇森林中的每一棵词汇树的生成方式均相同，可以采用串行、并向或串并结合的方式，生成多棵词汇树，得到词汇森林。在生成词汇树时，所采用的聚类处理具有一定的随机性，因此通常每次生成的词汇树是不相同的。

具体的，如图4所示，在步骤213之前，本发明实施例可以通过重复以下步骤，获得包括至少一棵词汇树的词汇森林，从而完成了建库工作。

步骤201，计算多幅样本图像的特征点。

这里，多幅样本图像的特征点包括用图像宽高比表示的全局特征点和作为局部特征点的SURF特征点或SIFT特征点。

步骤202，利用词袋模型对所述多幅样本图像的特征点进行聚类，获得聚类结果。

这里，可以利用BOW模型对特征点进行分类和整理。图5给出了BOW模型的一种示意图。BOW模型利用K均值(K-means)模型对特征点进行聚类并获得中心点，利用中心点表示该聚类内的所有特征点，从而可以减少特征点的数量，进而减小后续的计算量和计算时间。在特征点个数较多的情况下，如果聚类个数的取值选的较小，可能导致中心点的精度将不足以代表整个聚类的特征点；反之，如果取值较大，则整个聚类将消耗过多的时间。因此，可以根据具体情况折衷进行选择。

步骤203，根据聚类结果，构建一棵词汇树，并获得每幅样本图像的图像描述向量，其中，所述词汇树的第一层基于多幅样本图像的全局特征点构建，其他层基于所述多幅样本图像的局部特征点构建。

这里，基于BOW模型进行词汇树的构建。为了加强整个系统的稳定性，本发明实施例可以构建包括多棵词汇树的词汇森林，并将构件好的词汇森林保存起来，以便进行图像匹配时应用。当进行图像检索查询时，可以下载已经构建好的词汇森林。图6给出了词汇树(Vocabulary Tree)模型的一种示意图模型。本发明实施例在建立词汇树的过程中引入了2个参数，分别为K和L，其中，L代表词汇树的层数，K代表每层词汇树的节点数。通过分层和节点数概念的引入，可以减小聚类所消耗的时间，还能保障每个中心点的有效性。

传统方法中，一般的词汇树构建的节点信息全部由SURF特征点提供。在该示例中，构建词汇树的第一层采用的是全局特征点，即图像的宽高比，词汇树的其他层构建采用SURF特征点。词汇树首层采用宽高比进行构建的好处是：宽高比能在很大程度上排除错误图像，并且减少一些无关图像对该聚类下图像的影响，使得特征相似的图像得到更好的区分。采用宽高比进行建树，也可以减少建树的时间。当词汇树构建完成后，需要对每幅样本图像进行向量描述。描述向量的计算步骤通常包括：

首先，计算每幅样本图像i的词频TF_i：

其中S为该样本图像的局部特征点的总数，n_j为每个叶子节点j下的局部特征点的个数，P为词汇树的叶子节点的数量；

其次，计算每个叶子节点y的逆文档词频IDF(j)：IDF(j)＝log(Z/n_j)，Z表示所有样本图像的局部特征点的总数，n_j表示该叶子节点j下的局部特征点的个数；

最后，计算得到每幅样本图像i的图像描述向量V_i：

V_i＝F_i.*[IDF(1),……,IDF(p)]。

因为k-means聚类具有随机性，为了加强整个系统的稳定性，提高匹配效率，本发明实施例可以采用多棵词汇树构成词汇森林的系统结构。词汇森林的示意图如图7所示，该词汇森林包括词汇树1～n共n棵词汇树。

图8给出了词汇树和词汇森林的检索精确度比较。从图8中可以看到，词汇森林不仅具有更高的精度，而且具有更好的稳定性。

另外，词汇森林的词汇树个数和其他参数，如词汇树的层数L和每层的节点数K，对最终的检索输出也有一定的影响。可以通过对不同参数组合下的检索结果的仿真结果，选择适合的参数组合，使得系统的输出达到最优并稳定。

表1给出了为不同参数组合下，利用混合特征进行图像检索的效果提升比例。可以看出，利用混合图像特征能够得到比只利用局部特征更好的效果。

K	L	词汇树个数	局部特征点	混合特征点	提升百分比
						8	6	3	99.18％	99.59％	0.4％
7	6	3	99.45％	99.73％	0.3％
						7	6	1	99.50％	99.73％	0.2％

表1

基于以上实施例所提供的图像检索的方法，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的图像检索的方法的方法中的步骤。

基于以上方法，本发明实施例还提供了实施上述方法的装置，请参考图9，本发明实施例提供的图像检索装置900，包括：

查询图像特征获取单元901，用于获取查询图像的特征点，所述特征点包括用于表示图像宽高比的全局特征点和用于表示图像局部特征的局部特征点；

图像匹配单元902，用于根据查询图像的特征点，在预先构建的词汇森林中进行图像匹配，获得与查询图像相似的至少一幅候选图像以及候选图像的图像描述向量，其中，所述词汇森林包括至少一棵词汇树，所述词汇树的第一层基于多幅样本图像的全局特征点构建，其他层基于所述多幅样本图像的局部特征点构建；

相似度计算单元903，用于根据图像描述向量，计算候选图像的相似度评分，并将相似度评分最低的候选图像，作为所述查询图像的目标检索图像。

请参照图10，本发明实施例提供的另一种图像检索装置1000，包括：

词汇森林构建单元1001，用于在所述获取查询图像的特征点的步骤之前，通过重复以下步骤，获得包括至少一棵词汇树的词汇森林：计算所述多幅样本图像的特征点；利用词袋模型对所述多幅样本图像的特征点进行聚类，获得聚类结果；根据聚类结果，构建一棵词汇树，并获得每幅样本图像的图像描述向量，其中，所述词汇树的第一层基于多幅样本图像的全局特征点构建，其他层基于所述多幅样本图像的局部特征点构建；

查询图像特征获取单元1002，用于获取查询图像的特征点，所述特征点包括用于表示图像宽高比的全局特征点和用于表示图像局部特征的局部特征点；

图像匹配单元1003，用于根据查询图像的特征点，在预先构建的词汇森林中进行图像匹配，获得与查询图像相似的至少一幅候选图像以及候选图像的图像描述向量，其中，所述词汇森林包括至少一棵词汇树，所述词汇树的第一层基于多幅样本图像的全局特征点构建，其他层基于所述多幅样本图像的局部特征点构建；

相似度计算单元1004，用于根据图像描述向量，计算候选图像的相似度评分，并将相似度评分最低的候选图像，作为所述查询图像的目标检索图像。

优选的，所述局部特征点为SURF特征点。

优选的，图9和图10中的图像匹配单元，具体用于针对词汇森林中的每一棵词汇树，分别执行以下步骤，获得所述候选图像及其图像描述向量：计算查询图像的全局特征点与词汇树的第一层各个节点之间的距离，选择出距离最短的第一节点；计算查询图像的局部特征点与所述第一节点的子节点之间的距离，并根据计算得到的距离，将查询图像的局部特征点分配到叶子节点；利用投票机制，从分配有局部特征点的叶子节点下的样本图像中，选择出预设数量的样本图像，作为所述候选图像，并获取所述候选图像的图像描述向量。

优选的，图9和图10中的相似度计算单元，具体用于根据公式

请参考图11，本发明实施例还提供了图像检索装置的一种硬件结构框图，如图11所示，该图像检索装置110包括：

处理器112；和

存储器114，在所述存储器114中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器112执行以下步骤：

进一步地，如图11所示，该图像检索装置110还包括网络接口111、输入设备113、硬盘115、和显示设备116。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器112代表的一个或者多个中央处理器(CPU)，以及由存储器114代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口111，可以连接至网络(如因特网、局域网等)，从网络中接收信息，并可以将接收到的信息保存在硬盘115中。

所述输入设备113，可以接收操作人员输入的各种指令，例如，针对预设门限、预设阈值的设置信息等，并发送给处理器112以供执行。所述输入设备113可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备116，可以将处理器112执行指令获得的结果进行显示，例如显示处理后得到的最终识别结果等。

所述存储器114，用于存储操作系统运行所必须的程序和数据，以及处理器42计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器114可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器34旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器114存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统1141和应用程序1142。

其中，操作系统1141，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序1142，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1142中。

本发明上述实施例揭示的方法可以应用于处理器112中，或者由处理器112实现。处理器112可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器112中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器112可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器114，处理器112读取存储器114中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，所述计算机程序被处理器112执行时还可实现如下步骤：

在所述获取查询图像的特征点的步骤之前，通过重复以下步骤，获得包括至少一棵词汇树的词汇森林：

计算所述多幅样本图像的特征点；

根据公式

计算候选图像i的相似度评分score_i；

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像检索的方法，其特征在于，包括：

根据图像描述向量，计算候选图像的相似度评分，并将相似度评分最低的候选图像，作为所述查询图像的目标检索图像，

在所述获取查询图像的特征点的步骤之前，所述方法还包括：

通过重复以下步骤，获得包括至少一棵词汇树的词汇森林：

计算所述多幅样本图像的特征点；

根据聚类结果，构建一棵词汇树，并获得每幅样本图像的图像描述向量，其中，所述词汇树的第一层基于多幅样本图像的全局特征点构建，其他层基于所述多幅样本图像的局部特征点构建，

所述根据查询图像的特征点，在预先构建的词汇森林中进行图像匹配，获得与查询图像相似的至少一幅候选图像以及候选图像的图像描述向量的步骤，包括：

2.如权利要求1所述的方法，其特征在于，所述局部特征点为SURF特征点。

3.如权利要求1所述的方法，其特征在于，

所述根据图像描述向量，计算候选图像的相似度评分的步骤，包括：

根据公式

计算候选图像i的相似度评分score_i；

4.一种图像检索装置，其特征在于，包括：

相似度计算单元，用于根据图像描述向量，计算候选图像的相似度评分，并将相似度评分最低的候选图像，作为所述查询图像的目标检索图像；

词汇森林构建单元，用于在所述获取查询图像的特征点的步骤之前，通过重复以下步骤，获得包括至少一棵词汇树的词汇森林：计算所述多幅样本图像的特征点；利用词袋模型对所述多幅样本图像的特征点进行聚类，获得聚类结果；根据聚类结果，构建一棵词汇树，并获得每幅样本图像的图像描述向量，其中，所述词汇树的第一层基于多幅样本图像的全局特征点构建，其他层基于所述多幅样本图像的局部特征点构建，

所述图像匹配单元，具体用于针对词汇森林中的每一棵词汇树，分别执行以下步骤，获得所述候选图像及其图像描述向量：计算查询图像的全局特征点与词汇树的第一层各个节点之间的距离，选择出距离最短的第一节点；计算查询图像的局部特征点与所述第一节点的子节点之间的距离，并根据计算得到的距离，将查询图像的局部特征点分配到叶子节点；利用投票机制，从分配有局部特征点的叶子节点下的样本图像中，选择出预设数量的样本图像，作为所述候选图像，并获取所述候选图像的图像描述向量。

5.一种图像检索装置，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至3中任一项所述的图像检索的方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的图像检索的方法的步骤。