CN105989001A

CN105989001A - 图像搜索方法及装置、图像搜索系统

Info

Publication number: CN105989001A
Application number: CN201510041221.8A
Authority: CN
Inventors: 段凌宇; 王同; 王一同; 王哲; 黄铁军; 高文
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2015-01-27
Filing date: 2015-01-27
Publication date: 2016-10-05
Anticipated expiration: 2035-01-27
Also published as: CN105989001B

Abstract

本发明公开了一种图像搜索方法及装置、图像搜索系统，所述方法包括：获取待查询图像的视觉单词；根据所述视觉单词，在预设索引表中获取包括二值码的第一集合；获取所述待查询图像的第一二值码；获取所述第一二值码与所述第一集合中每一二值码的第一距离；选择符合第一预设范围的第一距离，将符合第一预设范围的第一距离对应的二值码组成第二集合；获取所述第二集合中所有二值码所属的图像，并采用所述第二集合中所有二值码对该些图像进行评分，在所有评分结果中选取符合第二预设范围的评分结果，将选取得评分结果对应的图像作为与所述待查询图像相似的图像。上述方法能够提高图像搜索的检索速度，提高检索效率，同时提高图像搜索的检索精度。

Description

图像搜索方法及装置、图像搜索系统

技术领域

本发明涉及搜索技术，具体涉及一种图像搜索方法及装置、图像搜索系统。

背景技术

随着互联网行业的崛起和大数据业务的普及，从海量图像中挖掘信息逐渐成为一种基本需求，视觉搜索相关应用越来越多。基于内容的图像搜索方法是采用图像作为查询，搜索到相似图像为目的的一种检索方法，通过图像搜索可有效的直面查询需求，提高搜索的用户体验。

当前，图像搜索的一种实现方法包括：首先，获取图像的视觉描述子，并将该视觉描述子量化成对应的视觉单词；接着，采用视觉单词组成的信息在图像库对应的视觉单词中进行搜索。即采用传统文本检索的方式实现对图像的搜索。该图像搜索方法仅利用视觉单词对图像的描述方式不能更很好的表征该图像的信息，导致针对该图像的检索精度非常有限。

现有技术中还公开一种图像搜索方法，该方法包括：首先，获取图像的视觉描述子；接着，将视觉描述子聚合成维度较高的全局特征，从而将图像转化成一个对应的全局描述子，再通过精确K近邻查找(k-NearestNeighbor，简称KNN)或近似最近邻查找(ANN)的方式，在数据库中查找到近邻全局描述子对应的相似图像。然而，该方法利用全局描述子进行搜索的查找方式，往往受限于过高的描述子维度，图像检索精度和检索效率往往无法很好地进行权衡。

鉴于此，如何提供一种即能保证图像检索精度，又能保证检索效率的图像搜索方法成为当前亟需解决的问题。

发明内容

针对现有技术中的缺陷，本发明提供了一种图像搜索方法及装置、图像搜索系统，该方法能够提高图像搜索的检索速度，提高检索效率，同时提高图像搜索的检索精度。

第一方面，本发明提供一种图像搜索方法，包括：

获取待查询图像的视觉单词以及所述待查询图像的第一二值码；

根据所述视觉单词，在预设索引表中获取包括二值码的第一集合；

获取所述第一二值码与所述第一集合中每一二值码的第一距离；

选择符合第一预设范围的第一距离，将符合第一预设范围的第一距离对应的二值码组成第二集合；

获取所述第二集合中所有二值码所属的图像，并采用所述第二集合中所有二值码对该些图像进行评分，在所有评分结果中选取符合第二预设范围的评分结果，将选取得评分结果对应的图像作为与所述待查询图像相似的图像；

其中，所述索引表为预先根据图像数据库中的所有图像获取的包括视觉单词的倒排链表的索引表，所述倒排链表中记录有一个以上的二值码。

可选地，所述方法还包括：

获取所述待查询图像的第一全局特征，将所述第一全局特征量化为第一全局信号；

获取第一全局信号和所有第二全局信号的第二距离，所述第二全局信号为选取得评分结果对应的图像的全局信号，每一第二全局信号为预先根据各自图像的第二全局特征获取的；

在所有第二距离中选取符合第三预设范围的一个以上的第二距离，将选取的一个以上的第二距离对应的第二全局信号所属的图像作为待查询图像相似的图像。

可选地，获取所述待查询图像的第一二值码，具体包括：

获取所述待查询图像的一个以上的第一二值码及每一第一二值码的第一坐标信息；

相应地，所述方法还包括：

确定所述待查询图像的第一二值码与每一第二二值码的第三距离，所述第二二值码为选取的一个以上的第二距离对应的第二全局信号所属的图像的二值码；

采用预设的几何校验算法对确定每一第三距离时的第一二值码的第一坐标信息、第二二值码的第二坐标信息进行过滤，得到过滤后的第三距离；所述第二二值码的第二坐标信息为预先获取第二二值码时获取的；

在所有过滤后的第三距离中选取符合第五预设范围的一个以上的第三距离，将选取的一个以上的第三距离对应的第二二值码所属的图像作为待查询图像相似的图像。

可选地，根据所述视觉单词，在预设索引表中获取包括二值码的第一集合，包括：

在预设索引表中查找每一视觉单词的倒排链表；将所述倒排链表中记录的所有二值码进行组合，获得包括二值码的第一集合；

和/或，

所述获取待查询图像的视觉单词，包括：

获取待查询图像的至少一个描述子；根据预设的视觉单词词典，将每一描述子量化成视觉单词；

和/或，

所述将所述第一全局特征量化为第一全局信号，具体为：

采用高斯混合模型将图像的至少一个描述子聚合成Fisher向量；对所述Fisher向量进行符号二值化，得到第一全局信号；

和/或，

所述获取所述待查询图像的第一二值码，包括：

获取待查询图像的至少一个描述子；根据所述描述子，获取所述待查询图像的第一二值码；

或者，获取待查询图像的至少一个描述子；根据所述描述子、预设的均值向量和预设的投影矩阵，获取所述待查询图像的第一二值码。

可选地，所述获取待查询图像的视觉单词，具体为：

获取待查询图像的视觉单词及该视觉单词的关联信息；

相应地，根据所述视觉单词，在预设索引表中获取二值码的第一集合，具体为：

根据所述视觉单词及该视觉单词的关联信息，在预设索引表中获取二值码的第一集合。

第二方面，本发明还提供一种图像搜索装置，包括：

视觉单词获取单元，用于获取待查询图像的视觉单词；

二值码获取单元，用于获取所述待查询图像的第一二值码；

相似图像获取单元，用于根据所述视觉单词，在预设索引表中获取包括二值码的第一集合，获取所述第一二值码与所述第一集合中每一二值码的第一距离；

可选地，所述装置还包括：

全局信号获取单元，用于获取所述待查询图像的第一全局特征，将所述第一全局特征量化为第一全局信号；

可选地，所述二值码获取单元，具体用于

相应地，所述相似图像获取单元，还用于

第三方面，本发明提供一种图像检索系统，包括：客户端和服务器；

其中，所述客户端包括：视觉单词获取单元、二值码获取单元、第一发送单元；

所述视觉单词获取单元，用于获取待查询图像的视觉单词；

二值码获取单元，用于获取所述待查询图像的第一二值码；

第一发送单元，用于将所述视觉单词获取单元获取的视觉单词和所述二值码获取单元获取的所述第一二值码发送所述服务器；

所述服务器包括：第二接收单元、相似图像获取单元和第二发送单元；

所述第二接收单元，用于接收所述客户端的第一发送单元发送的待查询图像的视觉单词和所述第一二值码；

所述相似图像获取单元，用于根据所述视觉单词，在预设索引表中获取包括二值码的第一集合，获取所述第一二值码与所述第一集合中每一二值码的第一距离；

其中，所述索引表为预先根据图像数据库中的所有图像获取的包括视觉单词的倒排链表的索引表，所述倒排链表中记录有一个以上的二值码；

所述第二发送单元，还用于将与所述待查询图像相似的图像发送所述客户端。

可选地，所述客户端还包括：全局信号获取单元，用于获取所述待查询图像的第一全局特征，将所述第一全局特征量化为第一全局信号；

所述第一发送单元，还用于将所述第一全局信号发送所述服务器的第二接收单元；

所述相似图像获取单元，还用于

可选地，所述第一发送单元，具体用于

将发送的视觉单词、第一二值码和/或第一全局信号组成码流，将码流发送服务器的第二接收单元；

所述第二接收单元，具体用于在接收所述码流之后，从所述码流中获取视觉单词、第一二值码和/或第一全局信号。

由上述技术方案可知，本发明的图像搜索方法及装置、图像搜索系统，通过视觉单词和二值码结合进行图像搜索，可有效降低图像搜索所需的时间，提升图像搜索精度，同时提升用户体验。

附图说明

图1为本发明一实施例提供的图像搜索方法的流程示意图；

图2为本发明一实施例提供的图像搜索方法的流程示意图；

图3为本发明一实施例提供的图像搜索方法的流程示意图；

图4为本发明一实施例提供的视觉单词生成过程的示意图；

图5为本发明一实施例提供的图像二值码生成过程的示意图；

图6为本发明一实施例提供的图像搜索装置的结构示意图；

图7为本发明一实施例提供的图像搜索系统的结构示意图。

具体实施方式

下面结合附图，对发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。本发明实施例中所使用的“第一”、“第二”仅为更清楚的说明本申请的内容，不具有特定含义，也不限定任何内容。

图1示出了本发明一实施例提供的图像搜索方法的流程示意图，如图1所示，本实施例中的图像搜索方法如下所述。

101、获取待查询图像的视觉单词。

在本实施例中，待查询图像可为待查询的图像、素描等信息。

举例来说，获取待查询图像的至少一个描述子；根据预设的视觉单词词典，将每一描述子量化成视觉单词。本实施例中每一待查询图像的视觉单词为多个，本实施例为方便说明，没有说明视觉单词的数量，也不对视觉单词的数量进行限定。

举例来说，在具体应用中，可预先获取待查询图像的一个或多个描述子，将每个描述子量化成对应的一个或一组视觉单词。本实施例中的一组视觉单词可为多个相关的视觉单词。

其中，本实施例中所述的描述子，可以是任意适用于图像局部特征表达的局部描述子，也可以是其它任意特征向量。本实施例以尺度不变描述子(Scale Invariant Feature Transform，简称SIFT)为例。应了解的是，SIFT的获取方式可为已有的提取方式，此处不再详述。

将每个描述子量化成对应的一个或多个视觉单词的方式可为，在获取待查询图像的原始描述子后，根据视觉单词词典查询该原始描述子对应的一个或多个视觉单词。比如，量化具体的做法可为，利用原始描述子，利用欧式距离查找视觉单词词典中描述子的一个或多个近邻视觉单词。

视觉单词词典的生成方式可为已有的生成方式，如K均值聚类、层次K均值聚类、高斯混合模型、谱聚类等方法，此处不再详述。

102、获取待查询图像的第一二值码。

举例来说，可获取待查询图像的至少一个描述子；根据所述描述子，获取所述待查询图像的第一二值码。需要说明的是，二值码指的是一种由0或1比特组成的向量；本实施例中待查询图像的第一二值码的数量为多个，本实施例为方便说明，没有限定说明待查询图像的第一二值码的数量，仅通过获取流程进行示意性的说明，针对一个第一二值码的流程还是多个第一二值码的流程和本申请实施例的流程都是一样的，都属于本发明实施例保护的范围。

需要说明的是，将每个描述子量化成对应的二值码的方式可为已有的向量二值化方法，如迭代量化、K均值哈希等方法。比如，描述子量化成对应二值码的方式可为，先对描述子进行正交变换，而后再对变换后的描述子进行符号二值化。其中，用于正交变换的矩阵可为预先训练获取的。

在另一具体的例子中，可获取待查询图像的至少一个描述子；根据所述描述子、预设的均值向量和预设的投影矩阵，获取所述待查询图像的第一二值码。该处的均值向量和投影矩阵均为预先获取并存储在客户端或服务器中的。通常，均值向量和投影矩阵可与预先训练并存储，可使用时调用。

本发明实施例中步骤101和步骤102为单独进行的步骤，没有先后关系，也没有关联关系。获取待查询图像的第一二值码并不依据待查询图像的视觉单词，可同时进行；同时，获取待查询图像的第一二值码也并不依据待查询图像的视觉单词，在具体应用中，可同步获取待查询图像的视觉单词和第一二值码。由此，可较好的实现图像搜索。

103、根据所述视觉单词，在预设索引表中获取包括二值码的第一集合。

举例来说，可在预设索引表中查找每一视觉单词的倒排链表，进而将所述倒排链表中记录的所有二值码进行组合，获得包括二值码的第一集合。该第一集合中包括的二值码可能对应一个图像，也可能对应多个图像。通常，第一集合中包括的二值码对应多个图像。

在另一具体的例子中，前述的步骤101还可为：获取待查询图像的视觉单词及该视觉单词的关联信息；

相应地，步骤103可为：根据所述视觉单词，在预设索引表中获取二值码的第一集合，具体为：

可理解的是，该处的关联信息可具体为：辅助图像检索/查询的相关信息，如对待查询图像进行描述的文字信息、地理位置信息等等。

104、获取所述第一二值码与所述第一集合中每一二值码的第一距离。

在本实施例中，第一距离可为欧式距离或者汉明距离，本实施例不对其进行限定，仅为举例说明。该第一距离中的“第一”为更清楚说明本发明的方案使用，不具有其他限定性含义。

该处第一距离的数量为多个，每一第一二值码和第一集合中的每一二值码就对应有一个第一距离，也有该第一距离的二值码匹配对。在本实施例中，第二集合中的二值码和第一二值码的匹配，形成的二值码组合可理解为二值码匹配对。

105、选择符合第一预设范围的第一距离，将符合第一预设范围的第一距离对应的二值码组成第二集合。

106、获取所述第二集合中所有二值码所属的图像，并采用所述第二集合中所有二值码对该些图像进行评分，在所有评分结果中选取符合第二预设范围的评分结果，将选取得评分结果对应的图像作为与所述待查询图像相似的图像。

该处选取得评分结果对应的图像即为待查询图像的搜索结果/查询结果。

举例来说，步骤103中得到第一集合后，利用描述子对应的二值码对第一集合中的所有二值码可进行汉明距离计算，以获取汉明距离最近的若干二值码，并对这些二值码对应的图像进行打分。

具体来说，可根据描述子与对应的二值码与第一集合中的所有二值码进行汉明距离计算的计算结果，选出距离最小的前K个结果，对这前K个二值码对应的图像进行加分。

本实施例中，具体的打分计算方式的形式化描述如下：

对于查询描述子对应的二值码Q，其与第一集合S＝{S1,S2,……,Sm}中任一二值码Sx对应汉明距离为D，D定义为：

D＝Hamming_Dis(Q,S_x)＝POPCNT(Q^S_x)，

其中POPCNT为统计1数量的计算机常用函数，^为异或操作。

对于与Q汉明距离前K的集合Sk＝{Sm1,Sm2,……,Smk}，对图像加分的计算公式如下：

SCORE ({ID}_{Smk}) = SCORE ({ID}_{Smk}) + e^{(- {(\frac{D}{16})}^{2})},

其中ID_Smk为二值码Smk对应的图像ID，SCORE(i)为图像i对应的得分，D为查询描述子对应的二值码Q与二值码Smk的汉明距离，e为自然常数。所有SCORE(i)在初始化时被设置为0。

根据打分结果对图像数据库图像进行排序，选取排序结果靠前的若干图像作为搜索结果，即与待查询图像相似的图像。

本实施例中，根据上述打分计算方式，排序方式采用数值由大到小的方式排序。

本实施例的图像搜索方法，通过视觉单词和二值码结合进行图像搜索，可有效降低图像搜索所需的时间，提升图像搜索精度，同时提升用户体验。

图2示出了本发明一实施例提供的图像搜索方法的流程示意图，如图2所示，本实施例中的图像搜索方法如下所述。

201、获取待查询图像的视觉单词和待查询图像的第一二值码。

举例来说，获取待查询图像的至少一个描述子；根据所述描述子，获取所述待查询图像的第一二值码；

该步骤中的视觉单词和第一二值码的数量均为多个，本实施例仅为通过流程说明实现过程。通常，待查询图像中的一个局部特征对应一个或多个视觉单词，一个局部特征对应一个第一二值码，以及一个查询图像对应一个全局信号。

202、获取所述待查询图像的第一全局特征，将所述第一全局特征量化为第一全局信号。

需要说明的是，全局特征指的是一个表达图像信息的向量，一般可由局部描述子聚合生成，也可以在图像像素层面直接提取生成。通常，将描述子聚合生成全局特征并量化成全局信号的方法可为已有的紧凑全局特征生成方法，如二值化Fisher向量BFV、SCFV等方法。比如，聚合的具体做法可为Fisher向量聚合，利用高斯混合模型(GMM)统计每个描述子的分布，然后利用统计高斯模型的均值和方差形成全局特征。量化的具体做法可直接对特征根据符号二值化，也可利用分段矢量量化方式将全局特征分段量化成若干单词，或是根据全局特征统计信息选择性对某些部分二值化。

例如，采用高斯混合模型将待查询图像的至少一个描述子聚合成Fisher向量，并将Fisher向量作为所述全局特征；对所述Fisher向量进行符号二值化，得到第一全局信号。

举例来说，采用高斯混合模型将查询图像的至少一个描述子聚合成Fisher向量并将Fisher向量作为第一全局特征。之后，对所述Fisher向量进行符号二值化，得到第一全局信号。

本实施例中，聚合第一全局特征采用的视觉单词词典为高斯混合模型，最后获得的第一全局信号为二值化Fisher向量BFV。

当前，利用高斯混合模型将所有描述子聚合成Fisher向量。具体的形式化描述如下：

高斯混合模型的参数集合为λ，λ包括M个高斯分量参数，其中包括权重{ω1,ω1,……,ωk}、均值向量{μ1,μ2,……,μk}、标准差{σ1,σ2,……,σk}；对于待查询图像的N个描述子集合X＝{x_t,t＝1,2,……,N}。

用对数似然函数L(X|λ)表示查询图像，如下所示：

L (X | λ) = \log (p (X | λ)) = Σ_{t = 1}^{N} \log (p (x_{t} | λ)),

其中λ为高斯混合模型参数集合，为高斯混合模型的似然函数，p_i(x_t|λ)为第i个高斯分量的概率密度函数。

而后，对数似然函数L(X|λ)对第i个高斯分量的均值向量求偏导，得到第i个高斯分量的累积梯度向量，累积梯度向量可以为基于均值的累积梯度向量：

g_{μ_{i}}^{X} = \frac{1}{N \sqrt{w_{i}}} Σ_{t = 1}^{N} γ_{t} (i) \frac{x_{t} - μ_{i}}{σ_{i}}

也可以为基于标准差的累积梯度向量：

g_{σ_{i}}^{X} = \frac{1}{N \sqrt{2 w_{i}}} Σ_{t = 1}^{N} γ_{t} (i) ({(\frac{x_{t} - μ_{i}}{σ_{i}})}^{2} - 1)

或是由基于均值的累积梯度与基于标准差的累积梯度向量级联组合得到的向量，也可以是其他形式的累积梯度向量。

其中，ω_i为第i个高斯分量的混合权重，μ_i为第i个高斯分量的均值向量，σ_i为第i个高斯分量的标准差，

γ_{t} (i) = p (i | x_{t}, λ) = \frac{w_{i} p_{i} (x_{t} | λ)}{Σ_{j = 1}^{M} w_{j} p_{j} (x_{t} | λ)}

为第i个高斯分量产生第t个描述子x_t的概率。

对Fisher向量进行符号二值化。

203、根据所述视觉单词，在预设索引表中获取包括二值码的第一集合，获取所述第一二值码与所述第一集合中每一二值码的第一距离。

204、选择符合第一预设范围的第一距离，将符合第一预设范围的第一距离对应的二值码组成第二集合。

205、获取所述第二集合中所有二值码所属的图像，并采用所述第二集合中所有二值码对该些图像进行评分，在所有评分结果中选取符合第二预设范围的评分结果。

206、获取第一全局信号和所有第二全局信号的第二距离，所述第二全局信号为选取得评分结果对应的图像的全局信号，每一第二全局信号为预先根据各自图像的第二全局特征获取的；

207、在所有第二距离中选取符合第三预设范围的一个以上的第二距离，将选取的一个以上的第二距离对应的第二全局信号所属的图像作为待查询图像相似的图像。

本实施例中的方法通过获取查询图像描述子并将描述子量化成视觉单词、二值码及全局信号，利用视觉单词粗筛选二值码及二值码精确距离度量及数据库图像打分排序，再利用全局信号进行重排序，以快速获得较高精度的搜索结果。

本实施例与图2和图1的区别之处在于，在利用二值码对相应的图像进行打分并排序得到搜索结果后，再利用全局信号对排序结果前若干的图像对应的信号进行再次比对打分并重排序，以获得最终搜索结果。

例如，在得到二值码的第一集合后，利用描述子对应的二值码对集合中的所有二值码进行汉明距离计算，以获取汉明距离最近的若干二值码，并对这些二值码对应的图像进行打分。

具体来说，可根据描述子与对应的二值码与第一集合中的所有二值码进行汉明距离计算的计算结果，选出距离最小的前K个结果，对这前K个二值码对应的图像进行打分。

进一步地，根据打分结果对图像数据库图像进行排序，以获得搜索结果。

接着，利用全局信号与排序结果前若干的图像对应的全局信号进行再次比对打分并重排序，以获得最终搜索结果。其中，图像数据库的全局信号采用本实施例中前述全局信号生成方式生成。

首先，根据前一阶段利用二值码打分并排序得到的排序结果，选取排序靠前的K张图像；而后，利用查询图像的全局信号与这K张图像对应的全局信号进行比对打分，并根据打分结果对这K张图像进行再次排序。最终用于重排序的打分，可以结合前一阶段的打分结果加权打分，也可以只使用全局信号的打分。全局信号的比对打分方式根据不同全局信号的特征决定。本实施例中，全局信号采用二值化Fisher向量BFV，全局信号的比对打分可以通过计算两个全局信号的汉明距离实现，排序前4000的图像将被用于全局信号比对打分与重排序。本实施中，取用于重排序的打分计算方式如下：

SCORE(ID)＝SCORE(ID)×(Dim-Dis(Q,R_ID))，

其中SCORE(i)为图像i对应的得分，在本阶段初始化为前一阶段利用二值码打分所得结果(具体打分形式参考第一事实例)。Q为查询图像对应的全局信号，Dim为全局特征的维度(本实施例中，Fisher向量维度为：描述子维度×高斯混合模型高斯单词个数)。R_ID为图像ID对应的全局信号，Dis(X,Y)为X与Y的汉明距离。打分完成后，重排序按照分数由大到小进行排序。

图3示出了本发明一实施例提供的图像搜索方法的流程示意图，如图3所示，本实施例中的图像搜索方法和图2的区别如下：

前述的步骤201可为下述的步骤201’：

201’、获取待查询图像的视觉单词，以及获取所述待查询图像的一个以上的第一二值码及每一第一二值码的第一坐标信息。

相应地，步骤207中，在所有第二距离中选取符合第三预设范围的一个以上的第二距离之后，方法还包括下述的步骤208至步骤210：

208、确定所述待查询图像的第一二值码与每一第二二值码的第三距离，所述第二二值码为选取的一个以上的第二距离对应的第二全局信号所属的图像的二值码；

209、采用预设的几何校验算法对确定每一第三距离时的第一二值码的第一坐标信息、第二二值码的第二坐标信息进行过滤，得到过滤后的第三距离；所述第二二值码的第二坐标信息为预先获取第二二值码时获取的；

210、在所有过滤后的第三距离中选取符合第五预设范围的一个以上的第三距离，将选取的一个以上的第三距离对应的第二二值码所属的图像作为待查询图像相似的图像。

详细说明步骤208至步骤210如下：

本实施例中，再次利用二值码对排序前若干的图像进行逐个比对并进行基于几何验证的重排序，以获得最终搜索结果。其中，二值码比对可以复用步骤203和204时的比对结果，将步骤203和204中找到的与查询图像二值码距离最小的前K个二值码均设为匹配二值码对；也可根据两幅图像的二值码，对查询图像每一个的二值码找到待比对图像中二值码中最近的一个的二值码及次近的二值码，根据最近距离与次近距离的比值来确定两个二值码是否匹配。

例如，S01，对于查询图像的每个描述子，计算其对应二值码与待比对图像中所有二值码的最近距离及次近距离，并计算最近距离与次近距离的比值。

S02，若次近距离非0且最近距离与次近距离的比值小于设定阈值，则将查询描述子对应的二值码与待比对图像对应的最近二值码设为一对匹配二值码对。

S03，利用几何校验算法，对两幅图像的匹配二值码对进行几何验证，并根据几何验证结果对图像再次进行打分，而后根据打分结果对前若干进行比对并几何验证的图像进行重排序。其中，几何验证可采用现有的算法如RANSAC、DISTRAT算法，输入为所有匹配二值码对的坐标，输出为满足几何关系的匹配点对；根据输出结果可设计打分公式对图像进行再次打分并重排序。本实施例中，采用DISTRAT算法进行几何验证，经过验证后的图像得分设为输出匹配点对的个数，最后重排序根据输出匹配点对个数由大到小进行排序。

具体来说，基于几何验证的打分算法有如下实现过程。

首先、根据前述所得匹配二值码对，得到其对应的坐标信息对为：

(x₁,y₁),(x₂,y₂),…，(x_N,y_N)，其中x,y分别为查询图像和待匹配图像的一个二值码的坐标(注意，这里的x或y均为一个二维向量)。

之后、对于任意两组匹配对(x_i,y_i),(x_j,y_j)，定义并计算对数匹配对距离如下：

Z_{ij} = \ln \frac{| | x_{i} - x_{j} | |}{| | y_{i} - y_{j} | |}

而后，将对数匹配对距离按照值的大小统计成分布直方图h(k)。其中直方图中bin的个数K为指定参数。而后，利用卡方检验，与对应的卡方概率分布模型进行检测，检验分布直方图符合原假设还是对立假设(原假设为两幅图像不相关，对立假设为两幅图像相关)。其中假设检验对应的概率分布模型表达式如下：

f (z) = 2 {(\frac{a e^{z}}{e^{2 z} + a^{2}})}^{2}

分布模型中，常数a为查询图像中对应的坐标信息对中所有向量x₁～x_N的标准差与y₁～y_N的标准差的比值。对所有对数匹配对距离对应的分布直方图与公式模型进行假设检验，根据检验结果和预设的误报率判断图像是否匹配：若不匹配，将待匹配图像设为0；否则，对于判断为匹配的图像，预估匹配对个数：

首先，根据

d (k) = h (k) - \frac{Σ_{k = 1}^{K} h (k) f (k)}{Σ_{k = 1}^{K} {(f (k))}^{2}} f (k),

构建对称矩阵：

D_{ij} = \{\begin{matrix} d (z_{ij}) & i &NotEqual; j \\ 0 & i = j \end{matrix}

随后计算矩阵主特征值及特征向量，并利用公式预估消除误匹配后的匹配对个数。其中，对应特征向量较大的前m个结果即为消除误匹配后的正确匹配对。对于待匹配图像，可将得分设为m；或根据前m个匹配对的匹配距离另行计算得分。

本实施例与图2的区别之处在于，在利用二值码对相应的图像进行打分并排序并利用全局信号对排序结果前若干的图像对应的信号进行再次比对打分并重排序后，再利用二值码进行图像间比对并进行基于几何验证的重排序，以获得最终搜索结果。

以下采用图4举例说明将描述子量化为对应视觉单词的步骤：

401、预先获取视觉单词词典。

本实施例中，视觉词典以层次K均值聚类方式获得，是一个多层K叉树的树形结构，其中每个节点为一个描述子，代表该层类中心。

402、从根节点开始，计算待量化描述子与当前层所有子节点的距离，找到距离最近的前N个节点。若该节点为叶子节点，停止计算，否则以当前节点为根节点，递归地继续计算待量化描述子与当前层所有子节点的距离。

其中，N为预设参数。N一般为自然数，其上界不超过视觉单词词典的个数。形式化的描述如下：

设视觉词典为一棵M层K叉的的树形结构，其中，根节点root的所有子节点定义为集合Node＝{node_0,node_1,……,node_k}。对于待量化描述子V，其与根节点root中任一个子节点node_x的距离D的计算公式为：

D＝||V–node_x||2，

根据V与任意节点node_x的距离，可得V与当前层子节点距离最近的N个节点集合S。若集合S中的节点node为叶节点，则将其加入叶子节点集合LS，否则将该节点设为root，继续计算。

403、在所有叶子节点中，找到一个与待量化描述子距离最近的叶子节点，以该节点对应编号作为描述子对应的一个视觉单词。

以下采用图5举例说明将描述子量化为对应二值码的步骤：

501、获取均值向量及投影矩阵。

本实施例中，均值向量与投影矩阵可为采用现有参考迭代量化的方式预先获取并存储在客户端或服务器中。

502、将描述子减去均值向量，随后，乘以投影矩阵，得到变换后的描述子。

描述子变化的形式化描述如下：

设变换前n维描述子为V＝{v1,v2,……,vn}^T，变化后的m维描述子为V’＝{v’1,v’2,……,v’m}^T，均值向量U＝{u1,u2,……,un}^T，投影矩阵

M = \{\begin{matrix} M_{11}, M_{12}, . . . . . . M_{1 n} \\ M_{21}, M_{22}, . . . . . . M_{2 n} \\ . . . . . . \\ M_{m 1}, M_{m 2}, . . . . . . M_{mn} \end{matrix}\},

则有：

V’＝M×(V-U)。

503、对变换后的描述子根据符号进行二值化，得到对应二值码。符号二值化的具体做法是，大于0的维度量化为1，小于等于0的维度量化为0，最终二值码的每个维度仅由1位表示。

图6示出了本发明一实施例提供的图像搜索装置的结构示意图，如图6所示，本实施例中的图像搜索装置包括：视觉单词获取单元61、二值码获取单元62和相似图像获取单元63；

其中，视觉单词获取单元61用于获取待查询图像的视觉单词；

二值码获取单元62用于获取所述待查询图像的第一二值码；

相似图像获取单元63用于根据所述视觉单词，在预设索引表中获取包括二值码的第一集合，获取所述第一二值码与所述第一集合中每一二值码的第一距离；

举例来说，上述图像搜索装置还可包括图中未示出的全局信号获取单元64，该全局信号获取单元用于获取所述待查询图像的第一全局特征，将所述第一全局特征量化为第一全局信号；

相应地，相似图像获取单元63还用于获取第一全局信号和所有第二全局信号的第二距离，所述第二全局信号为选取得评分结果对应的图像的全局信号，每一第二全局信号为预先根据各自图像的第二全局特征获取的；

在一种具体的例子中，所述二值码获取单元62具体用于，获取所述待查询图像的一个以上的第一二值码及每一第一二值码的第一坐标信息；

相应地，所述相似图像获取单元63还用于，确定所述待查询图像的第一二值码与每一第二二值码的第三距离，所述第二二值码为选取的一个以上的第二距离对应的第二全局信号所属的图像的二值码；

本实施例中的图像搜索装置可执行前述图1至图5任一所述的方法实施例的流程，本实施例不再详述，可参照上述的记载。

另外，需要说明的是，本实施例的图像搜索装置可位于任一客户端或终端或服务器中，本实施例不对其进行限定，可根据实际需要设置。

本发明的图像搜索装置，通过视觉单词和二值码结合进行图像搜索，可有效降低图像搜索所需的时间，提升图像搜索精度，同时提升用户体验。

图7示出了本发明一实施例提供的图像搜索系统的结构示意图，如图7所示，本实施例中的图像搜索系统包括：客户端71和服务器72；

其中，客户端71包括：视觉单词获取单元711、二值码获取单元712、第一发送单元713；

所述视觉单词获取单元711用于获取待查询图像的视觉单词；

二值码获取单元712用于获取所述待查询图像的第一二值码；

第一发送单元713用于将所述视觉单词获取单元获取的视觉单词和所述二值码获取单元获取的所述第一二值码发送所述服务器；

所述服务器72包括：第二接收单元721、相似图像获取单元722和第二发送单元723；

所述第二接收单元721用于接收所述客户端的第一发送单元发送的待查询图像的视觉单词和所述第一二值码；

所述相似图像获取单元722用于根据所述视觉单词，在预设索引表中获取包括二值码的第一集合，获取所述第一二值码与所述第一集合中每一二值码的第一距离；

所述第二发送单元723还用于将与所述待查询图像相似的图像发送所述客户端71。

在具体实现过程中，所述客户端71还包括：全局信号获取单元714，用于获取所述待查询图像的第一全局特征，将所述第一全局特征量化为第一全局信号；

所述第一发送单元713，还用于将所述第一全局信号发送所述服务器的第二接收单元；

所述相似图像获取单元722还用于，获取第一全局信号和所有第二全局信号的第二距离，所述第二全局信号为选取得评分结果对应的图像的全局信号，每一第二全局信号为预先根据各自图像的第二全局特征获取的；

进一步地，客户端71的二值码获取单元712具体用于，获取所述待查询图像的一个以上的第一二值码及每一第一二值码的第一坐标信息；

第一发送单元713将所述第一坐标信息也发送服务器72时，该服务器72中的相似图像获取单元722还用于，确定所述待查询图像的第一二值码与每一第二二值码的第三距离，所述第二二值码为选取的一个以上的第二距离对应的第二全局信号所属的图像的二值码；

在实际应用中，所述第一发送单元713具体用于，将发送的视觉单词、第一二值码和/或第一全局信号组成码流，将码流发送服务器的第二接收单元；例如，可将图像提取出的描述子个数写入码流，而后将每个描述子对应的视觉单词或单词组及其对应的二值码写入码流，直至最后一个描述子的视觉单词或单词组及其对应的二值码写入码流，最后再将全局信号写入码流等。

所述第二接收单元721具体用于在接收所述码流之后，从所述码流中获取视觉单词、第一二值码和/或第一全局信号。

本实施例中的客户端可为移动终端，如手机、IPAD等，本实施例不对其进行限定，可根据实际需要设定。

特别说明的是，图像搜索系统中客户端的各单元和服务器中的各单元与上述图像搜索装置中各单元的功能一致，可参照上述的描述，本实施例不对其进行限定。

在具体应用，客户端和服务器均包括存储器及存储单元，该存储单元，用于存储量化所需码本、向量及矩阵(如变换矩阵)、量化词典、视觉单词词典、聚合全局特征所用的词典等。

服务器中还可存储各种训练数据集，预先训练各种图像数据，获得存储在存储单元中各图像的二值码、视觉单词、描述子、全局特征、全局信号、索引表等相关内容。

由上述实施例三可知，上述图像搜索系统中客户端和服务器中显示的各模块/单元只是示意性的显示其内部的结构关系，可能在某一个系统、客户端或其它的结构中多次使用同一模块进行传输或接收，或间隔的使用上述的某一模块，上述实施例只是示意性的说明，其不局限图7中的结构排布关系及使用关系。另外还可能出现在图像搜索系统和客户端中增加一些能够实现本发明中的图像搜索方法中的某些步骤的其他模块/单元均属于本发明的内容。

本实施例的图像搜索系统，通过获取查询图像描述子并将描述子量化成视觉单词、二值码及全局信号，利用视觉单词粗筛选二值码及二值码精确汉明度量及数据库图像打分排序，再利用全局信号进行重排序，可以有效降低图像搜索所需时间，同时提升图像搜索精度，进而优化了图像搜索方法的效率及图像搜索系统的用户体验。

本发明的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种图像搜索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，

获取所述待查询图像的第一二值码，具体包括：

相应地，所述方法还包括：

4.根据权利要求2或3所述的方法，其特征在于，根据所述视觉单词，在预设索引表中获取包括二值码的第一集合，包括：

和/或，

所述获取待查询图像的视觉单词，包括：

和/或，

所述将所述第一全局特征量化为第一全局信号，具体为：

采用高斯混合模型将所述图像的至少一个描述子聚合成Fisher向量；对所述Fisher向量进行符号二值化，得到第一全局信号；

和/或，

所述获取所述待查询图像的第一二值码，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取待查询图像的视觉单词，具体为：

获取待查询图像的视觉单词及该视觉单词的关联信息；

6.一种图像搜索装置，其特征在于，包括：

视觉单词获取单元，用于获取待查询图像的视觉单词；

二值码获取单元，用于获取所述待查询图像的第一二值码；

7.根据权利要求13所述的装置，其特征在于，所述装置还包括：

相应地，相似图像获取单元，还用于获取第一全局信号和所有第二全局信号的第二距离，所述第二全局信号为选取得评分结果对应的图像的全局信号，每一第二全局信号为预先根据各自图像的第二全局特征获取的；

8.根据权利要求7所述的装置，其特征在于，所述二值码获取单元，具体用于

相应地，所述相似图像获取单元，还用于

9.一种图像检索系统，其特征在于，包括：客户端和服务器；

所述视觉单词获取单元，用于获取待查询图像的视觉单词；

二值码获取单元，用于获取所述待查询图像的第一二值码；

10.根据权利要求9所述的系统，其特征在于，所述客户端还包括：全局信号获取单元，用于获取所述待查询图像的第一全局特征，将所述第一全局特征量化为第一全局信号；

所述相似图像获取单元，还用于

11.根据权利要求9或10所述的系统，其特征在于，所述第一发送单元，具体用于