CN112307248B

CN112307248B - 一种图像检索方法及装置

Info

Publication number: CN112307248B
Application number: CN202011352635.XA
Authority: CN
Inventors: 张宾; 崔保磊; 段泽源; 曲丽萱; 李晓明
Original assignee: State Grid Digital Technology Holdings Co ltd; State Grid E Commerce Technology Co Ltd
Current assignee: State Grid Digital Technology Holdings Co ltd; State Grid E Commerce Technology Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2023-11-03
Anticipated expiration: 2040-11-26
Also published as: CN112307248A

Abstract

本发明公开了一种图像检索方法及装置，通过将待检索图像输入至预先训练的深度学习分类网络，从待检索图像中提取出N维CNN特征，基于N维CNN特征，从被检索图像集中召回第一预设数量的候选相似图像，然后从待检索图像中提取出局部特征，并将局部特征通过词袋模型转换为M维局部特征，基于所述M维局部特征，从候选相似图像中召回第二预设数量的目标相似图像。由于N维CNN特征能够表征待检索图像的整体特征描述，而M维局部特征能够表征待检索图像的局部特征描述，因此，本发明实现了同时结合待检索图像的整体特征描述和局部特征描述进行图像检索，从而提高了图像的检索精度。

Description

一种图像检索方法及装置

技术领域

本发明涉及图像检索技术领域，更具体的说，涉及一种图像检索方法及装置。

背景技术

目前，在采用互联网交流过程中会产生巨大的多媒体数据，由此给互联网用户快速查找所需的信息造成了不小的障碍，基于此，搜索技术应运而生。面对不断出现的需求，如何使互联网用户在海量图像中高效、快速的搜索到目标图像成为重要的研究方向。

现有技术在进行图像检索时，主要采用两种方法，一种是基于图像整体特征描述进行图像检索，因此，当图像局部含有检索目标时，很难准确的去描述图像局部特征。另一种是基于图像局部特征描述进行图像检索，虽然该方法可以准确的去描述图像的局部特征，但是对图像整体上的描述又有所损失，导致图像检索精度不高。

因此，如何提供一种图像检索方法来提高图像检索精度成为了本领域技术人员亟需解决的技术问题。

发明内容

有鉴于此，本发明公开一种图像检索方法及装置，以提高图像检索精度。

一种图像检索方法，包括：

将待检索图像输入至预先训练的深度学习分类网络，从所述待检索图像中提取出N维CNN特征，N为正整数；

基于所述N维CNN特征，从被检索图像集中召回第一预设数量的候选相似图像，其中，所述候选相似图像与所述待检索图像的相似度值高于所述被检索图像集中除所述候选相似图像以外的被检索图像与所述待检索图像的相似度值；

从所述待检索图像中提取出局部特征，所述局部特征包括：所述待检索图像中各个局部特征点以及每个所述局部特征点对应的特征描述子；

对所述局部特征通过词袋模型转换为M维局部特征，M为正整数且为固定值；

基于所述M维局部特征，从所述候选相似图像中召回第二预设数量的目标相似图像，其中，所述目标相似图像与所述待检索图像的相似度值高于所述候选相似图像中除所述目标相似图像以外的候选相似图像与所述待检索图像的相似度值。

可选的，所述基于所述N维CNN特征，从被检索图像集中召回第一预设数量的候选相似图像，具体包括：

对所述N维CNN特征采用有监督哈希，将所述N维CNN特征转换为长度为第一长度的哈希码；

基于所述第一长度的哈希码，从被检索图像集中召回所述候选相似图像。

可选的，所述基于所述第一长度的哈希码，从被检索图像集中召回所述候选相似图像，具体包括：

对所述第一长度的哈希码采用LSH检索算法，并采用汉明距离作为特征相似度，从被检索图像集中召回所述候选相似图像。

可选的，所述从所述待检索图像中提取出局部特征，具体包括：

从所述待检测图像中检测出主目标区域；

从所述主目标区域中提取出所述局部特征。

可选的，所述基于所述M维局部特征，从所述候选相似图像中召回第二预设数量的目标相似图像，具体包括：

对所述M维局部特征采用有监督哈希，将所述M维局部特征转换为长度为第二长度的哈希码；

基于所述第二长度的哈希码，从所述候选相似图像中召回第二预设数量的目标相似图像。

可选的，所述基于所述第二长度的哈希码，从所述候选相似图像中召回第二预设数量的目标相似图像，具体包括：

对所述第二长度的哈希码采用LSH检索算法，并采用汉明距离作为特征相似度，从所述候选相似图像中召回所述目标相似图像。

一种图像检索装置，包括：

CNN特征提取单元，用于将待检索图像输入至预先训练的深度学习分类网络，从所述待检索图像中提取出N维CNN特征，N为正整数；

第一召回单元，用于基于所述N维CNN特征，从被检索图像集中召回第一预设数量的候选相似图像，其中，所述候选相似图像与所述待检索图像的相似度值高于所述被检索图像集中除所述候选相似图像以外的被检索图像与所述待检索图像的相似度值；

局部特征提取单元，用于从所述待检索图像中提取出局部特征，所述局部特征包括：所述待检索图像中各个局部特征点以及每个所述局部特征点对应的特征描述子；

转换单元，用于对所述局部特征通过词袋模型转换为M维局部特征，M为正整数且为固定值；

第二召回单元，用于基于所述M维局部特征，从所述候选相似图像中召回第二预设数量的目标相似图像，其中，所述目标相似图像与所述待检索图像的相似度值高于所述候选相似图像中除所述目标相似图像以外的候选相似图像与所述待检索图像的相似度值。

可选的，所述第一召回单元具体包括：

第一转换子单元，用于对所述N维CNN特征采用有监督哈希，将所述N维CNN特征转换为长度为第一长度的哈希码；

第一召回子单元，用于基于所述第一长度的哈希码，从被检索图像集中召回所述候选相似图像。

可选的，所述第一召回子单元具体用于：

可选的，所述局部特征提取单元具体包括：

检测子单元，用于从所述待检测图像中检测出主目标区域；

提取子单元，用于从所述主目标区域中提取出所述局部特征。

可选的，所述第二召回单元具体包括：

第二转换子单元，用于对所述M维局部特征采用有监督哈希，将所述M维局部特征转换为长度为第二长度的哈希码；

第二召回子单元，用于基于所述第二长度的哈希码，从所述候选相似图像中召回第二预设数量的目标相似图像。

可选的，所述第二召回子单元具体用于：

从上述的技术方案可知，本发明公开了一种图像检索方法及装置，通过将待检索图像输入至预先训练的深度学习分类网络，从待检索图像中提取出N维CNN特征，基于N维CNN特征，从被检索图像集中召回第一预设数量的候选相似图像，然后从待检索图像中提取出局部特征，并将局部特征通过词袋模型转换为M维局部特征，基于所述M维局部特征，从候选相似图像中召回第二预设数量的目标相似图像。由于N维CNN特征能够表征待检索图像的整体特征描述，而M维局部特征能够表征待检索图像的局部特征描述，因此，本发明实现了同时结合待检索图像的整体特征描述和局部特征描述进行图像检索，从而提高了图像的检索精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据公开的附图获得其他的附图。

图1为本发明实施例公开的一种图像检索方法流程图；

图2为本发明实施例公开的一种图像检索装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种图像检索方法及装置，通过将待检索图像输入至预先训练的深度学习分类网络，从待检索图像中提取出N维CNN特征，基于N维CNN特征，从被检索图像集中召回第一预设数量的候选相似图像，然后从待检索图像中提取出局部特征，并将局部特征通过词袋模型转换为M维局部特征，基于所述M维局部特征，从候选相似图像中召回第二预设数量的目标相似图像。由于N维CNN特征能够表征待检索图像的整体特征描述，而M维局部特征能够表征待检索图像的局部特征描述，因此，本发明实现了同时结合待检索图像的整体特征描述和局部特征描述进行图像检索，从而提高了图像的检索精度。

参见图1，本发明实施例公开的一种图像检索方法流程图，图像检索方法包括：

步骤S101、将待检索图像输入至预先训练的深度学习分类网络，从所述待检索图像中提取出N维CNN特征；

其中，N为正整数。

CNN(Convolutional Neural Networks，卷积神经网络)特征为：对图像集训练深度学习分类网络，提取深度学习分类网络的中间某层，例如，深度学习分类网络的softmax(多分类逻辑回归模型)前一层，作为N维的图像特征。

在训练深度学习分类网络时，使用Resnet50作为特征提取网络，模型的输入数据为所有待分类的商品图像，输出为商品图像所示的商品类别。

需要说明的是，从待检索图像中提取出的N维CNN特征也即是维度为N维的图像特征向量。

步骤S102、基于所述N维CNN特征，从被检索图像集中召回第一预设数量的候选相似图像；

其中，所述候选相似图像与所述待检索图像的相似度值高于所述被检索图像集中除所述候选相似图像以外的被检索图像与所述待检索图像的相似度值；

步骤S102的实现过程具体包括：

(1)对所述N维CNN特征采用有监督哈希，将所述N维CNN特征转换为长度为第一长度的哈希码。

第一长度的取值依据实际需要而定，本发明在此不做限定。

哈希码：哈希函数把长度为L的浮点特征转成长度为Q的由“0”、“1”组成的码，两个码的相似性接近原来浮点特征的相似性。

有监督哈希：基于数据去学习哈希函数的过程。

(2)基于所述第一长度的哈希码，从被检索图像集中召回第一预设数量的候选相似图像。

具体的，对所述第一长度的哈希码采用LSH检索算法，并采用汉明距离作为特征相似度，从被检索图像集中召回所述候选相似图像。

LSH(Locality Sensitive Hashing，局部敏感哈希)是一种针对海量高维数据的快速最近邻查找算法。

汉明距离：两个哈希码的距离，对两个码进行异或运算，统计结果为1的个数就是汉明距离。

需要说明的是，同类的商品图像，哈希码之间的汉明距离较小，并且哈希码大部分字段一致。在基于哈希码进行检索时，设置汉明距离阈值K，每个图像的哈希码均匀分为m(m>k+1)块，对每个图像建立c(m，m-k)个索引，任意m-k块哈希码的最小□度为min，则对每个图像每个索引下理论上最多线性查询2的64-min次幂，就能查询到k个位置上不同的相似图像。

其中，被检索图像集存储在图像检索库中。

需要说明的是，在步骤S103的具体实施例中，除了可以对第一长度的哈希码采用LSH检索算法外，还可以对第一长度的哈希码采用Kdtree算法。

Kdtree是一种分割k维数据空间的数据结构(对数据点在k维空间中划分的一种数据结构)，是一种高维索引树形数据结构。Kdtree是二进制空间分割树的特殊的情况，或者说，Kdtree是一种平衡二叉树。

步骤S103、从所述待检索图像中提取出局部特征；

其中，所述局部特征包括：所述待检索图像中各个局部特征点以及每个所述局部特征点对应的特征描述子。

局部特征点指的是：图像灰度值发生剧烈变换的点或图像边缘上曲率较大的点，例如harris角点、hessian特征检测等。

特征描述子指的是：对于一个特征点或图像，基于特征点周边信息或图像内容，构建一个长度度为L的特征向量或特征矩阵来描述特征点或图像。常用的描述子有SIFT(Scale-invariant feature transform，尺度不变特征变换)、SURF(Speeded Up RobustFeatures)、LIOP(Local Intensity Order Pattern，局部强度顺序模型)和HOG(Histogramof Oriented Gradient，方向梯度直方图)等，其中，SURF为对SIFT特征变换进行改进的加速版本。

需要说明的是，在从待检索图像中提取各个局部特征点以及每个所述局部特征点对应的特征描述子后，利用所有的特征描述子计算kmeans(k中心点聚类算法)，以kmeans为中心计算所有特征描述子的词袋模型(BOW)，这样，每张图像都形成一个定口的特征向量，维度为kmeans中心点个数，这些特征向量作为局部特征。

优选的，本实施例中的特征描述子可以是SIFT(Scale-invariant featuretransform，尺度不变特征变换)描述子或者DOG(Difference of Gaussian，高斯差)描述子。

由于图像检索库中存储的是商品图像，商品图像的背景简单，而用户输入的待检索图像是任意图像，比如，商品图像、自拍图像、网络图像等。考虑到待检索图像可能具有复杂背景，因此，在实际应用中，首先需要对待检索图像进行主目标检测，从待检索图像中框出主目标区域，然后利用传统图像中局部特征提取方法，从主目标区域提取出待检索图像的局部特征。

因此，步骤S103具体可以包括：

从所述待检测图像中检测出主目标区域；

从所述主目标区域中提取出所述局部特征。

步骤S104、对所述局部特征通过词袋模型转换为M维局部特征；

其中，M为正整数且为固定值。

本步骤也即对局部特征通过词袋模型转换为固定维度的局部特征，固定维度为M，M的取值根据实际需要而定，本发明在此不做限定。

需要说明的是，将局部特征通过词袋模型转换为M维局部特征，也即，将局部特征转换为BOW(即词袋模型)局部特征，这样图像间的特征描述子匹配以及空间检验匹配，转化为定口的BOW特征匹配。因为待检索图像的局部特征点个数不同，利用特征描述子匹配和空间检验匹配时就非常耗时，因此，本发明将特征描述子转换成BOW局部特征，该BOW局部特征是定口的，转换为BOW特征向量，以便于直接检索或转成哈希码。然后针对局部特征向量，构建一个k哈希的训练集，对任意一对特征向量进行标注，学习哈希函数，。将BOW特征转化为哈希码。

步骤S105、基于所述M维局部特征，从所述候选相似图像中召回第二预设数量的目标相似图像。

其中，所述目标相似图像与所述待检索图像的相似度值高于所述候选相似图像中除所述目标相似图像以外的候选相似图像与所述待检索图像的相似度值。

步骤S105的实现过程具体可以包括：

(1)对所述M维局部特征采用有监督哈希，将所述M维局部特征转换为长度为第二长度的哈希码。

需要说明的是，本实施例中第一长度和第二长度的取值可以相同或是不同，具体依据实际需要而定，本发明在此不做限定。

(2)基于所述第二长度的哈希码，从所述候选相似图像中召回第二预设数量的目标相似图像。

具体的，对所述第二长度的哈希码采用LSH检索算法，并采用汉明距离作为特征相似度，从所述候选相似图像中召回所述目标相似图像。

需要说明的是，除了可以对第二长度的哈希码采用LSH检索算法外，还可以对第二长度的哈希码采用Kdtree算法。

综上可知，本发明公开的图像检索方法，通过将待检索图像输入至预先训练的深度学习分类网络，从待检索图像中提取出N维CNN特征，基于N维CNN特征，从被检索图像集中召回第一预设数量的候选相似图像，然后从待检索图像中提取出局部特征，并将局部特征通过词袋模型转换为M维局部特征，基于所述M维局部特征，从候选相似图像中召回第二预设数量的目标相似图像。由于N维CNN特征能够表征待检索图像的整体特征描述，而M维局部特征能够表征待检索图像的局部特征描述，因此，本发明实现了同时结合待检索图像的整体特征描述和局部特征描述进行图像检索，从而提高了图像的检索精度。

另外，由于被检索图像集中包含的图像数量较大，因此，本发明在从被检索图像中召回候选相似图像和目标相似图像时，优先采用了具备敏感哈希的算法，从而可以加快图像的检索速度和检索效率，与此同时，图像检索次数也大大降低。

与上述方法实施例相对应，本发明还公开了一种图像检索装置。

参见图2，本发明实施例公开的一种图像检索装置的结构示意图，该装置包括：

CNN特征提取单元201，用于将待检索图像输入至预先训练的深度学习分类网络，从所述待检索图像中提取出N维CNN特征，N为正整数；

CNN(Convolutional Neural Networks，卷积神经网络)特征为：对图像集训练深度学习分类网络，提取深度学习分类网络的中间某层，例如，深度学习分类网络的softmax前一层，作为N维的图像特征。

第一召回单元202，用于基于所述N维CNN特征，从被检索图像集中召回第一预设数量的候选相似图像；

其中，所述候选相似图像与所述待检索图像的相似度值高于所述被检索图像集中除所述候选相似图像以外的被检索图像与所述待检索图像的相似度值。

在实际应用中，第一召回单元202具体可以包括：第一转换子单元和第一召回子单元。

其中，第一转换子单元，用于对所述N维CNN特征采用有监督哈希，将所述N维CNN特征转换为长度为第一长度的哈希码；

第一长度的取值依据实际需要而定，本发明在此不做限定。

有监督哈希：基于数据去学习哈希函数的过程。

在实际应用中，召回子单元具体可以用于：对所述第一长度的哈希码采用LSH检索算法，并采用汉明距离作为特征相似度，从被检索图像集中召回所述候选相似图像。

其中，被检索图像集存储在图像检索库中。

局部特征提取单元203，用于从所述待检索图像中提取出局部特征，所述局部特征包括：所述待检索图像中各个局部特征点以及每个所述局部特征点对应的特征描述子；

因此，局部特征提取单元203具体可以包括：

检测子单元，用于从所述待检测图像中检测出主目标区域；

转换单元204，用于对所述局部特征通过词袋模型转换为M维局部特征，M为正整数且为固定值；

第二召回单元205，用于基于所述M维局部特征，从所述候选相似图像中召回第二预设数量的目标相似图像，其中，所述目标相似图像与所述待检索图像的相似度值高于所述候选相似图像中除所述目标相似图像以外的候选相似图像与所述待检索图像的相似度值。

综上可知，本发明公开的图像检索装置，通过将待检索图像输入至预先训练的深度学习分类网络，从待检索图像中提取出N维CNN特征，基于N维CNN特征，从被检索图像集中召回第一预设数量的候选相似图像，然后从待检索图像中提取出局部特征，并将局部特征通过词袋模型转换为M维局部特征，基于所述M维局部特征，从候选相似图像中召回第二预设数量的目标相似图像。由于N维CNN特征能够表征待检索图像的整体特征描述，而M维局部特征能够表征待检索图像的局部特征描述，因此，本发明实现了同时结合待检索图像的整体特征描述和局部特征描述进行图像检索，从而提高了图像的检索精度。

第二召回单元205具体可以包括：第二转换子单元和第二召回子单元。

其中，第二转换子单元，用于对所述M维局部特征采用有监督哈希，将所述M维局部特征转换为长度为第二长度的哈希码；

其中，所述第二召回子单元具体用于：

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像检索方法，其特征在于，包括：

2.根据权利要求1所述的图像检索方法，其特征在于，所述基于所述N维CNN特征，从被检索图像集中召回第一预设数量的候选相似图像，具体包括：

3.根据权利要求2所述的图像检索方法，其特征在于，所述基于所述第一长度的哈希码，从被检索图像集中召回所述候选相似图像，具体包括：

4.根据权利要求1所述的图像检索方法，其特征在于，所述从所述待检索图像中提取出局部特征，具体包括：

从所述待检测图像中检测出主目标区域；

从所述主目标区域中提取出所述局部特征。

5.根据权利要求1所述的图像检索方法，其特征在于，所述基于所述M维局部特征，从所述候选相似图像中召回第二预设数量的目标相似图像，具体包括：

6.根据权利要求5所述的图像检索方法，其特征在于，所述基于所述第二长度的哈希码，从所述候选相似图像中召回第二预设数量的目标相似图像，具体包括：

7.一种图像检索装置，其特征在于，包括：

8.根据权利要求7所述的图像检索装置，其特征在于，所述第一召回单元具体包括：

9.根据权利要求8所述的图像检索装置，其特征在于，所述第一召回子单元具体用于：

10.根据权利要求7所述的图像检索装置，其特征在于，所述局部特征提取单元具体包括：

检测子单元，用于从所述待检测图像中检测出主目标区域；

11.根据权利要求7所述的图像检索装置，其特征在于，所述第二召回单元具体包括：

12.根据权利要求11所述的图像检索装置，其特征在于，所述第二召回子单元具体用于：