CN108595474B

CN108595474B - 一种带有物体位置感知的多标签图片哈希方法

Info

Publication number: CN108595474B
Application number: CN201810195470.6A
Authority: CN
Inventors: 杨尚明; 潘炎
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2022-04-12
Anticipated expiration: 2038-03-09
Also published as: CN108595474A

Abstract

本发明提供一种带有物体位置感知的多标签图片哈希方法，该方法提出的自学习背景过滤结构，对模型抽取的特征进行优化，能够有效的剔除背景的干扰，且使用了一个可一体化训练的网络结构，提高了图片搜索的准确度。

Description

一种带有物体位置感知的多标签图片哈希方法

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种带有物体位置感知的多标签图片哈希方法。

背景技术

随着互联网上图片数据量的快速增长，如何充分利用这些图片资源中的价值已成为大家关注的一个重要问题，其中以图搜图的技术也成为近几年的一个技术热点，越来越多的研究集中在如何在百万甚至千万级别的图片库中查询相似的图片。基于学习的哈希方法是通过学习图片的一个压缩且相似语义保留的二值哈希码表示，使得相似的图片也有相似的二值哈希码，得益于其在计算和存储上的巨大优势，该方法已成为大规模图片检索的主流方法。

近年来，深度学习凭借其强大的学习能力，在计算机视觉的多个领域，包括图像识别，物体检测，图像分割等都取得不错的成绩，基于深度模型的哈希方法也应运而生。

目前主流的哈希方法都是通过某种方法或模型抽取整张图片的有表达能力的底层特征(如HOG，GIST等)，再将这些带有语言信息的特征转化为二值码用于图片的检索。然而大部分的特征抽取方法都忽视背景对特征表达的影响，而日常图片中经常会出现检索的目标物体包含在复杂的背景之下的情况，因此通过定位目标物体过滤背景来提高特征表达，这一研究对提高图片搜索的准确度有相当大的意义。

发明内容

本发明提供一种较高的准确度的带有物体位置感知的多标签图片哈希方法。

为了达到上述技术效果，本发明的技术方案如下：

一种带有物体位置感知的多标签图片哈希方法，包括以下步骤：

S1：采集训练样本数据；

S2：将448×448大小的图片输入到卷积子网络中，这里的卷积子网络结构使用的是改造后的GoogLeNet，我们把原始结构中最后一个pooling层去除，新增一个卷积核大小为3×3的卷积层，最终的输出为14×14×480的feature map；

S3：步骤S2得到的feature map之上新增一个1×1的卷积层，得到一个大小为14×14的feature map，再通过softmax操作和截断操作，其中大于预设置参数θ则取为1否则为0，后最终得到一个14×14的二值feature map，称为binary mask，值1表示的区域是有物体的区域，值0则对应于背景，Softmax函数的定义如下：

F_i,j为featrue map上横轴为i，竖轴为j的位置的值；

S4：根据步骤S3得到的binary mask对步骤B中的feature map进行pooling，只保留对应binary mask中值为1的区域，这样我们就得到一个480维的特征；

S5：将步骤S4最终的480维特征输入到一个480×k的激活函数为TanH的全连接网络，得到k维的-1到1之间的实数表示，再将该k维实数表示输入到cross entropy loss层和triplet loss层进行训练；

triplet loss的定义如下：

s.t.B(I),B(I⁺),B(I_)∈[-1,1]^q

cross entropy loss的定义如下：

最终的loss由这两个loss合并得到：

S6：用训练好的模型重复步骤B到步骤E，并将步骤E的k维实数进行截断，其中大于0的截断为1否则截断为0，得到k维的二值哈希码。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出的自学习背景过滤结构，对模型抽取的特征进行优化，能够有效的剔除背景的干扰，且使用了一个可一体化训练的网络结构，提高了图片搜索的准确度。

附图说明

图1为本发明带有物体位置感知的多标签图片哈希方法的网络结构示意图；

图2为本发明新增的背景过滤网络结构示意图；

图3为本发明检索结果示意图；

图4为本发明在VOC 2007和VOC 2012数据集上面的性能示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1-2所示，一种带有物体位置感知的多标签图片哈希方法，包括以下步骤：

S1：采集训练样本数据；

F_i,j为featrue map上横轴为i，竖轴为j的位置的值；

triplet loss的定义如下：

s.t.B(I),B(I⁺),B(I^_)∈[-1,1]^q

cross entropy loss的定义如下：

最终的loss由这两个loss合并得到：

本发明带有物体位置感知的多标签图片哈希方法的检索效果实验

1、实验数据集：包括VOC 2007数据集和VOC 2012数据集；

2、实验环境：Matlab 2010a平台和C++；

3、实验工具集：caffe开源库；

4、实验方法：两个数据集均用官方分好的训练集用于模型的训练，测试集用于验证效果，使用4种长度的哈希码与现有技术进行对比，包括SH(Y.Weiss,A.Torralba,andR.Fergus,“Spectral hashing,”in Procedings of Advances in Neural InformationProcessing Systems(NIPS),2009,pp.1753-1760.)，ITQ(Y.Gong and S.Lazebnik,“Iterative quantization:A procrustean approach to learning binary codes,”inProcedings of IEEE International Conference on Computer Vision and PatternRecognition(CVPR),2011,pp.817-824.)，ITQ-CCA(Y.Gong and S.Lazebnik,“Iterativequantization:A procrustean approach to learning binary codes,”in Procedingsof IEEE International Conference on Computer Vision and Pattern Recognition(CVPR),2011,pp.817-824.)，FastH(G.Lin,C.Shen,Q.Shi,A.van den Hengel,D.Suter,“Fast supervised hashing with decision trees for high-dimensional data”,inProceedings of International Conference of Computer Vision and PatternRecognition,2014.)，NINH(H.Lai,Y.Pan,Y.Liu,and S.Yan,“Simultaneous featurelearning and hash coding with deep neural networks,”in Proceedings of IEEEConference on Computer Vision and Pattern Recognition(CVPR),2015,pp.3270-3278.)，IAH(H.Lai,P.Yan,X.Shu,Y.Wei,and S.Yan,“Instance-aware hashing formulti-label image retrieval,”IEEE Transactions on Image Processing,vol.25,no.6,pp.2469-2479,2016.)，DSH(H.Liu,R.Wang,S.Shan,and X.Chen,“Deep supervisedhashing for fast image retrieval,”in Proceedings of IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2016.)

5、评价标准：平均正确率均值(Mean Average Precision,MAP)

n为检索结果的图片个数，P(k)表示取检索结果前k个时的准确率，rel(k)表示第k个检索结果图片与查询图片是否相似，相似时rel(k)的值为1否则为0。

6、实验结果：如图3-4所示，本发明在两个数据集的多种哈希码长度上都达到了最高的MAP。实验结果表明，本发明识别方法取得较好的图片哈希效果，与现有的方法比较，具有显著的进步。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种带有物体位置感知的多标签图片哈希方法，其特征在于，包括以下步骤：

S1：采集训练样本数据；

F_i,j为featrue map上横轴为i，竖轴为j的位置的值；

triplet loss的定义如下：

s.t.B(I),B(I⁺),B(I^_)∈[-1,1]^q

cross entropy loss的定义如下：

最终的loss由这两个loss合并得到：

S6：用训练好的模型重复步骤S2到步骤S5，并将步骤E的k维实数进行截断，其中大于0的截断为1否则截断为0，得到k维的二值哈希码。