CN108595474B - 一种带有物体位置感知的多标签图片哈希方法 - Google Patents
一种带有物体位置感知的多标签图片哈希方法 Download PDFInfo
- Publication number
- CN108595474B CN108595474B CN201810195470.6A CN201810195470A CN108595474B CN 108595474 B CN108595474 B CN 108595474B CN 201810195470 A CN201810195470 A CN 201810195470A CN 108595474 B CN108595474 B CN 108595474B
- Authority
- CN
- China
- Prior art keywords
- feature map
- picture
- value
- loss
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000008447 perception Effects 0.000 title claims abstract description 8
- 238000012549 training Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 210000003746 feather Anatomy 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000750666 Nabis ferus Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003287 bathing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种带有物体位置感知的多标签图片哈希方法,该方法提出的自学习背景过滤结构,对模型抽取的特征进行优化,能够有效的剔除背景的干扰,且使用了一个可一体化训练的网络结构,提高了图片搜索的准确度。
Description
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种带有物体位置感知的多标签图片哈希方法。
背景技术
随着互联网上图片数据量的快速增长,如何充分利用这些图片资源中的价值已成为大家关注的一个重要问题,其中以图搜图的技术也成为近几年的一个技术热点,越来越多的研究集中在如何在百万甚至千万级别的图片库中查询相似的图片。基于学习的哈希方法是通过学习图片的一个压缩且相似语义保留的二值哈希码表示,使得相似的图片也有相似的二值哈希码,得益于其在计算和存储上的巨大优势,该方法已成为大规模图片检索的主流方法。
近年来,深度学习凭借其强大的学习能力,在计算机视觉的多个领域,包括图像识别,物体检测,图像分割等都取得不错的成绩,基于深度模型的哈希方法也应运而生。
目前主流的哈希方法都是通过某种方法或模型抽取整张图片的有表达能力的底层特征(如HOG,GIST等),再将这些带有语言信息的特征转化为二值码用于图片的检索。然而大部分的特征抽取方法都忽视背景对特征表达的影响,而日常图片中经常会出现检索的目标物体包含在复杂的背景之下的情况,因此通过定位目标物体过滤背景来提高特征表达,这一研究对提高图片搜索的准确度有相当大的意义。
发明内容
本发明提供一种较高的准确度的带有物体位置感知的多标签图片哈希方法。
为了达到上述技术效果,本发明的技术方案如下:
一种带有物体位置感知的多标签图片哈希方法,包括以下步骤:
S1:采集训练样本数据;
S2:将448×448大小的图片输入到卷积子网络中,这里的卷积子网络结构使用的是改造后的GoogLeNet,我们把原始结构中最后一个pooling层去除,新增一个卷积核大小为3×3的卷积层,最终的输出为14×14×480的feature map;
S3:步骤S2得到的feature map之上新增一个1×1的卷积层,得到一个大小为14×14的feature map,再通过softmax操作和截断操作,其中大于预设置参数θ则取为1否则为0,后最终得到一个14×14的二值feature map,称为binary mask,值1表示的区域是有物体的区域,值0则对应于背景,Softmax函数的定义如下:
Fi,j为featrue map上横轴为i,竖轴为j的位置的值;
S4:根据步骤S3得到的binary mask对步骤B中的feature map进行pooling,只保留对应binary mask中值为1的区域,这样我们就得到一个480维的特征;
S5:将步骤S4最终的480维特征输入到一个480×k的激活函数为TanH的全连接网络,得到k维的-1到1之间的实数表示,再将该k维实数表示输入到cross entropy loss层和triplet loss层进行训练;
triplet loss的定义如下:
s.t.B(I),B(I+),B(I_)∈[-1,1]q
cross entropy loss的定义如下:
最终的loss由这两个loss合并得到:
S6:用训练好的模型重复步骤B到步骤E,并将步骤E的k维实数进行截断,其中大于0的截断为1否则截断为0,得到k维的二值哈希码。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出的自学习背景过滤结构,对模型抽取的特征进行优化,能够有效的剔除背景的干扰,且使用了一个可一体化训练的网络结构,提高了图片搜索的准确度。
附图说明
图1为本发明带有物体位置感知的多标签图片哈希方法的网络结构示意图;
图2为本发明新增的背景过滤网络结构示意图;
图3为本发明检索结果示意图;
图4为本发明在VOC 2007和VOC 2012数据集上面的性能示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1-2所示,一种带有物体位置感知的多标签图片哈希方法,包括以下步骤:
S1:采集训练样本数据;
S2:将448×448大小的图片输入到卷积子网络中,这里的卷积子网络结构使用的是改造后的GoogLeNet,我们把原始结构中最后一个pooling层去除,新增一个卷积核大小为3×3的卷积层,最终的输出为14×14×480的feature map;
S3:步骤S2得到的feature map之上新增一个1×1的卷积层,得到一个大小为14×14的feature map,再通过softmax操作和截断操作,其中大于预设置参数θ则取为1否则为0,后最终得到一个14×14的二值feature map,称为binary mask,值1表示的区域是有物体的区域,值0则对应于背景,Softmax函数的定义如下:
Fi,j为featrue map上横轴为i,竖轴为j的位置的值;
S4:根据步骤S3得到的binary mask对步骤B中的feature map进行pooling,只保留对应binary mask中值为1的区域,这样我们就得到一个480维的特征;
S5:将步骤S4最终的480维特征输入到一个480×k的激活函数为TanH的全连接网络,得到k维的-1到1之间的实数表示,再将该k维实数表示输入到cross entropy loss层和triplet loss层进行训练;
triplet loss的定义如下:
s.t.B(I),B(I+),B(I_)∈[-1,1]q
cross entropy loss的定义如下:
最终的loss由这两个loss合并得到:
S6:用训练好的模型重复步骤B到步骤E,并将步骤E的k维实数进行截断,其中大于0的截断为1否则截断为0,得到k维的二值哈希码。
本发明带有物体位置感知的多标签图片哈希方法的检索效果实验
1、实验数据集:包括VOC 2007数据集和VOC 2012数据集;
2、实验环境:Matlab 2010a平台和C++;
3、实验工具集:caffe开源库;
4、实验方法:两个数据集均用官方分好的训练集用于模型的训练,测试集用于验证效果,使用4种长度的哈希码与现有技术进行对比,包括SH(Y.Weiss,A.Torralba,andR.Fergus,“Spectral hashing,”in Procedings of Advances in Neural InformationProcessing Systems(NIPS),2009,pp.1753-1760.),ITQ(Y.Gong and S.Lazebnik,“Iterative quantization:A procrustean approach to learning binary codes,”inProcedings of IEEE International Conference on Computer Vision and PatternRecognition(CVPR),2011,pp.817-824.),ITQ-CCA(Y.Gong and S.Lazebnik,“Iterativequantization:A procrustean approach to learning binary codes,”in Procedingsof IEEE International Conference on Computer Vision and Pattern Recognition(CVPR),2011,pp.817-824.),FastH(G.Lin,C.Shen,Q.Shi,A.van den Hengel,D.Suter,“Fast supervised hashing with decision trees for high-dimensional data”,inProceedings of International Conference of Computer Vision and PatternRecognition,2014.),NINH(H.Lai,Y.Pan,Y.Liu,and S.Yan,“Simultaneous featurelearning and hash coding with deep neural networks,”in Proceedings of IEEEConference on Computer Vision and Pattern Recognition(CVPR),2015,pp.3270-3278.),IAH(H.Lai,P.Yan,X.Shu,Y.Wei,and S.Yan,“Instance-aware hashing formulti-label image retrieval,”IEEE Transactions on Image Processing,vol.25,no.6,pp.2469-2479,2016.),DSH(H.Liu,R.Wang,S.Shan,and X.Chen,“Deep supervisedhashing for fast image retrieval,”in Proceedings of IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2016.)
5、评价标准:平均正确率均值(Mean Average Precision,MAP)
n为检索结果的图片个数,P(k)表示取检索结果前k个时的准确率,rel(k)表示第k个检索结果图片与查询图片是否相似,相似时rel(k)的值为1否则为0。
6、实验结果:如图3-4所示,本发明在两个数据集的多种哈希码长度上都达到了最高的MAP。实验结果表明,本发明识别方法取得较好的图片哈希效果,与现有的方法比较,具有显著的进步。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (1)
1.一种带有物体位置感知的多标签图片哈希方法,其特征在于,包括以下步骤:
S1:采集训练样本数据;
S2:将448×448大小的图片输入到卷积子网络中,这里的卷积子网络结构使用的是改造后的GoogLeNet,我们把原始结构中最后一个pooling层去除,新增一个卷积核大小为3×3的卷积层,最终的输出为14×14×480的feature map;
S3:步骤S2得到的feature map之上新增一个1×1的卷积层,得到一个大小为14×14的feature map,再通过softmax操作和截断操作,其中大于预设置参数θ则取为1否则为0,后最终得到一个14×14的二值feature map,称为binary mask,值1表示的区域是有物体的区域,值0则对应于背景,Softmax函数的定义如下:
Fi,j为featrue map上横轴为i,竖轴为j的位置的值;
S4:根据步骤S3得到的binary mask对步骤B中的feature map进行pooling,只保留对应binary mask中值为1的区域,这样我们就得到一个480维的特征;
S5:将步骤S4最终的480维特征输入到一个480×k的激活函数为TanH的全连接网络,得到k维的-1到1之间的实数表示,再将该k维实数表示输入到cross entropy loss层和triplet loss层进行训练;
triplet loss的定义如下:
s.t.B(I),B(I+),B(I_)∈[-1,1]q
cross entropy loss的定义如下:
最终的loss由这两个loss合并得到:
S6:用训练好的模型重复步骤S2到步骤S5,并将步骤E的k维实数进行截断,其中大于0的截断为1否则截断为0,得到k维的二值哈希码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810195470.6A CN108595474B (zh) | 2018-03-09 | 2018-03-09 | 一种带有物体位置感知的多标签图片哈希方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810195470.6A CN108595474B (zh) | 2018-03-09 | 2018-03-09 | 一种带有物体位置感知的多标签图片哈希方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108595474A CN108595474A (zh) | 2018-09-28 |
CN108595474B true CN108595474B (zh) | 2022-04-12 |
Family
ID=63625879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810195470.6A Expired - Fee Related CN108595474B (zh) | 2018-03-09 | 2018-03-09 | 一种带有物体位置感知的多标签图片哈希方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595474B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412960A (zh) * | 2013-08-31 | 2013-11-27 | 西安电子科技大学 | 基于双边随机投影的图像感知哈希方法 |
CN105512273A (zh) * | 2015-12-03 | 2016-04-20 | 中山大学 | 一种基于可变长深度哈希学习的图像检索方法 |
CN106682233A (zh) * | 2017-01-16 | 2017-05-17 | 华侨大学 | 一种基于深度学习与局部特征融合的哈希图像检索方法 |
CN106951911A (zh) * | 2017-02-13 | 2017-07-14 | 北京飞搜科技有限公司 | 一种快速的多标签图片检索系统及实现方法 |
CN107092661A (zh) * | 2017-03-28 | 2017-08-25 | 桂林明辉信息科技有限公司 | 一种基于深度卷积神经网络的图像检索方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9940575B2 (en) * | 2015-06-04 | 2018-04-10 | Yahoo Holdings, Inc. | Image searching |
US20170161592A1 (en) * | 2015-12-04 | 2017-06-08 | Pilot Ai Labs, Inc. | System and method for object detection dataset application for deep-learning algorithm training |
US10997233B2 (en) * | 2016-04-12 | 2021-05-04 | Microsoft Technology Licensing, Llc | Multi-stage image querying |
US10380480B2 (en) * | 2016-05-31 | 2019-08-13 | Microsoft Technology Licensing, Llc | Changeover from one neural network to another neural network |
CN107729513B (zh) * | 2017-10-25 | 2020-12-01 | 鲁东大学 | 基于语义对齐的离散监督跨模态哈希检索方法 |
-
2018
- 2018-03-09 CN CN201810195470.6A patent/CN108595474B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412960A (zh) * | 2013-08-31 | 2013-11-27 | 西安电子科技大学 | 基于双边随机投影的图像感知哈希方法 |
CN105512273A (zh) * | 2015-12-03 | 2016-04-20 | 中山大学 | 一种基于可变长深度哈希学习的图像检索方法 |
CN106682233A (zh) * | 2017-01-16 | 2017-05-17 | 华侨大学 | 一种基于深度学习与局部特征融合的哈希图像检索方法 |
CN106951911A (zh) * | 2017-02-13 | 2017-07-14 | 北京飞搜科技有限公司 | 一种快速的多标签图片检索系统及实现方法 |
CN107092661A (zh) * | 2017-03-28 | 2017-08-25 | 桂林明辉信息科技有限公司 | 一种基于深度卷积神经网络的图像检索方法 |
Non-Patent Citations (1)
Title |
---|
FP_CNNH_一种基于深度卷积神经网络的快速图像哈希算法;刘冶等;《计算机科学》;20160930;第43卷(第9期);第39-46页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108595474A (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107102989B (zh) | 一种基于词向量、卷积神经网络的实体消歧方法 | |
CN108038122B (zh) | 一种商标图像检索的方法 | |
Zamberletti et al. | Text localization based on fast feature pyramids and multi-resolution maximally stable extremal regions | |
CN108345850B (zh) | 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法 | |
CN109086405B (zh) | 基于显著性和卷积神经网络的遥感图像检索方法及系统 | |
Huang et al. | Object-location-aware hashing for multi-label image retrieval via automatic mask learning | |
CN109086777B (zh) | 一种基于全局像素特征的显著图精细化方法 | |
CN106127222B (zh) | 一种基于视觉的字符串相似度计算方法及相似性判断方法 | |
CN110180186A (zh) | 一种地形图转换方法及系统 | |
Chen et al. | Integrated content and context analysis for mobile landmark recognition | |
CN111782853B (zh) | 基于注意力机制的语义图像检索方法 | |
CN113609892A (zh) | 深度学习与景区知识图谱融合的手写诗词识别方法 | |
CN111402331B (zh) | 基于视觉词袋和激光匹配的机器人重定位方法 | |
CN112966685A (zh) | 用于场景文本识别的攻击网络训练方法、装置及相关设备 | |
CN110852263B (zh) | 一种基于人工智能的手机拍照识别垃圾分类方法 | |
CN116994021A (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
JP2012022419A (ja) | 学習データ作成装置、学習データ作成方法及びプログラム | |
CN109241327A (zh) | 图像检索方法及装置 | |
CN114168768A (zh) | 图像检索方法及相关设备 | |
CN112836611A (zh) | 确定身体部位语义图、模型训练和行人重识别方法及设备 | |
CN108595474B (zh) | 一种带有物体位置感知的多标签图片哈希方法 | |
CN115830643A (zh) | 一种姿势引导对齐的轻量行人重识别方法 | |
CN115187910A (zh) | 视频分类模型训练方法、装置、电子设备及存储介质 | |
CN104156423B (zh) | 基于整数规划的多尺度视频关键帧提取方法 | |
Chen et al. | Big Visual Data Analysis: Scene Classification and Geometric Labeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220412 |
|
CF01 | Termination of patent right due to non-payment of annual fee |