CN112256910A - 基于内容的商铺标识图像检索方法 - Google Patents
基于内容的商铺标识图像检索方法 Download PDFInfo
- Publication number
- CN112256910A CN112256910A CN202011144063.6A CN202011144063A CN112256910A CN 112256910 A CN112256910 A CN 112256910A CN 202011144063 A CN202011144063 A CN 202011144063A CN 112256910 A CN112256910 A CN 112256910A
- Authority
- CN
- China
- Prior art keywords
- image
- shop identification
- identification image
- network
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 5
- 239000011521 glass Substances 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于内容的商铺标识图像检索方法,具体步骤为:步骤一:图像采集;步骤二:图像检测,从采集的图像中识别出商铺标识图像;步骤三:对商铺标识图像和数据库图像数据进行预先处理;步骤四:对商铺标识图像和数据库图像提取特征;步骤五:商铺标识图像与数据库图像进行相似度比对,高于设定阈值,则为被检索到的图像。
Description
技术领域
本发明涉及计算检索计算领域,具体涉及一种基于内容的商铺标识图像检索方法。
背景技术
在信息技术如此发展的当今社会,各种不同的信息数据充斥着大家的眼球,如视频图像等多媒体信息;信息量越来越大,从大规模的数据中检索出有效数据的难度便越来越大,因而出现了各种检索方法;传统的基于文本描述的图像检索技术,由于需要人工主观对图像内容进行标注图像指定的关键字,根据关键字进行检索;然而每个人对图像内容的理解是不同的,这会造成关键字匹配错误,降低图像检索的准确性;基于内容的图像检索,是通过输入待查询图像作为输入数据,在数据库中找出相似性最高的检索图像;由于数据库中注册的商铺标识图像是高清整图,而待查询图像是用手机或者VR眼镜拍摄的图像,标识只占图像中的一部分,这中间存在着图像质量问题、拍摄角度、光线和背景的变化,因此想要准确检索出待检索标识是否已在数据库中注册难度较大。
标识
发明内容
本发明针对现有技术的不足,提出一种能快速精准的检索商铺图像标识的,具体技术方案如下:
一种基于内容的商铺标识图像检索方法,具体步骤为:
步骤一:图像采集;
步骤二:图像检测,从采集的图像中识别出商铺标识图像;
步骤三:对商铺标识图像和数据库图像数据进行预先处理;
步骤四:对商铺标识图像和数据库图像提取特征;
步骤五:商铺标识图像与数据库图像进行相似度比对,高于设定阈值,则为被检索到的图像。
为更好的实现本发明,进一步为:
所述步骤一具体为,采用手机或者VR眼镜拍摄需要检索的标识图像。
所述步骤二具体为:
2.1:将采集的图像在终端中通过目标框的方式进行标注;
2.2:将标注出的网络训练yolo网络,其中通过squeezenet网络作为检测网络的主干网络;
2.3:利用yolo网络检测出商铺标识图像的坐标位置;
2.4:对商铺标识图像的位置信息进行剪切,保存商铺标识图像。
所述步骤三具体为:
3.1:对商铺标识图像和数据库图像进行直方图均衡化处理;
3.2:将商铺标识图像和数据库图像缩放到统一规格大小,具体为128*64像素;
3.3:将商铺标识图像和数据库图像进行4*2分块。
所述步骤四具体为,先通过颜色矩和灰度共生矩阵提取图像的中低层特征,然后通过CNN卷积神经网络提取图像的高层特征。
本发明的有益效果为:1、商铺标识检测和其他的图像检索略有区别的是,商铺标识只占图像中的一小部分,需要从拍摄的图像中准确的找出标识位置;本发明通过改进的检测算法,用移动端的网络结构squeezenet改进原始的算法,在保证精度的同时速度得到了三倍提升;在正面拍摄的图像中标识检测的召回率高达99.5%以上;
2、采用分块思想,提取图像分块的局部特征,同时提取整图特征信息,达到局部与全局特征相结合;由于大部分商铺标识图像宽大于高,因此采用4*2分块,将图像宽分为四部分、高分为两部分;保证标识图像的各位置特征信息重要性一致;通过多种特征提取方法提取图像的不同特征,分别求得各自的特征相似度,根据相似度加权求得最终相似度;不同方法提取的特征保证不同层次的特征,由于特征的维度不一致,特征融合不利于各自特征能发挥出其该有的作用,因此单独计算相似度再求平均;保证检索精度;
3、本发明中商铺标识注册的数据库中,每类商铺标识有且仅有一张图像特征,因此需要成功检索出数据库中唯一的标识图像,需要保证各层次特征的提取;本发明在特征提取环节花费较大资源,检索精度达99%以上,而且图像的特征提取、相似度计算等都在服务器端处理,所以同样能够达到实时;
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
如图1所示:一种基于内容的商铺标识图像检索方法,具体步骤为:
S1:用手机或者VR眼镜拍摄需要检索标识图像;
S2:用yolo网络对图像进行标识检测;若为检测到标识图像则不返回数据;若检测到一个或者多个标识图像则返回置信度最高的标识图像;并将裁剪后的数据发送到云端;
具体的检测定位步骤为:
S2.1:数据采集;标识检测训练集收集,通过手机拍摄含有标识的图像;
S2.2:数据标注;将图像中的标识通过目标框的方式标注出来;
S2.3:标识检测网络的训练;通过S1标注好的网络训练yolo网络,用于yolov3网络主干网络darknet53结构较深,消耗资源较大,本实施例通过squeezenet网络作为检测网络的主干网络,网络模型由原生yolov3的234M降到约30M,推理时间约提升了3倍,能在移动设备端达到实时;在检测标识图像上与原始yolo精度没有明显的降低,同时效果好于tiny-yolo版本;
S2.4:yolo网络对标识检测;通过S3训练好的模型对拍摄的图像进行推理测试;得到标识所在图像的坐标位置;
S2.5:根据S4得到的标识位置信息对其进行裁剪,保存标识图像,用于后续检索需要。
S3:数据预处理;数据库中的图像是高清的纯标识图像,不需要定位裁剪等,只要将图像进行均衡化、缩放和切块;查询数据根据S2得到的数据进行同样的预处理;具体为图像预处理为了更好的提取图像中的特征信息;首先对图像进行直方图均衡化,直方图均衡化是一种简单的图像增强技术,能够增大图像的对比度,使图像更清晰;然后将图像缩放到统一大小128*64;最后将缩放后的图像进行4*2的分块,得到最后的分块图像为32*32;
S4:特征提取;分别对1张整图和8张小图提取三种特征;数据库图像采用同样的方法提取特征保存在数据库中;具体为先通过颜色矩和灰度共生矩阵提取图像的中低层特征,通过CNN(卷积神经网络)提取图像的高层特征;颜色矩是一种简单有效的颜色特征表示方法,有一阶矩(均值)、二阶矩(方差)和三阶矩(斜度)等,由于颜色信息主要分布于低阶矩中,所以颜色矩能够有效正面图像中的颜色分布信息;灰度共生矩阵,指的是一种通过研究灰度的空间相关特性来描述纹理的常用方法。由于纹理是由灰度分布在空间位置上反复出现而形成的,因而在图像空间中相隔某距离的两像素之间会存在一定的灰度关系,即图像中灰度的空间相关特性。卷积神经网络提取的是图像高层语义信息,相比Googlenet和resnet,vgg提取的特征偏局部一些,所以选用了vgg16网络,模型是在imagenet数据集预训练的权重模型,取网络的前10层加上一层全局最大池化层,得到最后的256个特征数据;
S5:相似度计算;通过余弦距离计算每一种特征的相似度;最后通过加权平均方法求得最终相似度;取相似度最高且大于设定阈值时,则为检索到的图像;
特征提取之后由于维度差异,并为进行特征融合,而是各自比较相似度,最后加权平均三个相似度得到最终的相似度;因此一个标识图像分成8块,加上整图总共9块,每块需要提取上述三个图像特征;另外,整图的信息特征重要程度要大于每一个小分块的图像,经过实验表明,小块相似度权重为1,整块权重相似度为3时的效果最好;其中S1-2在移动端处理,S3-5在云端处理。
Claims (5)
1.一种基于内容的商铺标识图像检索方法,其特征在于,具体步骤为:
步骤一:图像采集;
步骤二:图像检测,从采集的图像中识别出商铺标识图像;
步骤三:对商铺标识图像和数据库图像数据进行预先处理;
步骤四:对商铺标识图像和数据库图像提取特征;
步骤五:商铺标识图像与数据库图像进行相似度比对,高于设定阈值,则为被检索到的图像。
2.根据权利要求1所述基于内容的商铺标识图像检索方法,其特征在于:
所述步骤一具体为,采用手机或者VR眼镜拍摄需要检索的标识图像。
3.根据权利要求1所述基于内容的商铺标识图像检索方法,其特征在于,
所述步骤二具体为:
2.1:将采集的图像在终端中通过目标框的方式进行标注;
2.2:将标注出的网络训练yolo网络,其中通过squeezenet网络作为检测网络的主干网络;
2.3:利用yolo网络检测出商铺标识图像的坐标位置;
2.4:对商铺标识图像的位置信息进行剪切,保存商铺标识图像。
4.根据权利要求1所述基于内容的商铺标识图像检索方法,其特征在于,
所述步骤三具体为:
3.1:对商铺标识图像和数据库图像进行直方图均衡化处理;
3.2:将商铺标识图像和数据库图像缩放到统一规格大小,具体为128*64像素;
3.3:将商铺标识图像和数据库图像进行4*2分块。
5.根据权利要求1所述基于内容的商铺标识图像检索方法,其特征在于,所述步骤四具体为,先通过颜色矩和灰度共生矩阵提取图像的中低层特征,
然后通过CNN卷积神经网络提取图像的高层特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011144063.6A CN112256910A (zh) | 2020-10-23 | 2020-10-23 | 基于内容的商铺标识图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011144063.6A CN112256910A (zh) | 2020-10-23 | 2020-10-23 | 基于内容的商铺标识图像检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112256910A true CN112256910A (zh) | 2021-01-22 |
Family
ID=74264753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011144063.6A Pending CN112256910A (zh) | 2020-10-23 | 2020-10-23 | 基于内容的商铺标识图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256910A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101639858A (zh) * | 2009-08-21 | 2010-02-03 | 深圳创维数字技术股份有限公司 | 基于目标区域匹配的图像检索方法 |
CN102622420A (zh) * | 2012-02-22 | 2012-08-01 | 哈尔滨工程大学 | 基于颜色特征和形状上下文的商标图像检索方法 |
CN104462380A (zh) * | 2014-12-11 | 2015-03-25 | 北京中细软移动互联科技有限公司 | 商标检索方法 |
CN108038122A (zh) * | 2017-11-03 | 2018-05-15 | 福建师范大学 | 一种商标图像检索的方法 |
CN108763266A (zh) * | 2018-04-03 | 2018-11-06 | 南昌奇眸科技有限公司 | 一种基于图像特征提取的商标检索方法 |
CN110348263A (zh) * | 2019-06-24 | 2019-10-18 | 西安理工大学 | 一种基于图像识别的二维随机码图像识别与提取方法 |
WO2019237646A1 (zh) * | 2018-06-14 | 2019-12-19 | 清华大学深圳研究生院 | 一种基于深度学习和语义分割的图像检索方法 |
-
2020
- 2020-10-23 CN CN202011144063.6A patent/CN112256910A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101639858A (zh) * | 2009-08-21 | 2010-02-03 | 深圳创维数字技术股份有限公司 | 基于目标区域匹配的图像检索方法 |
CN102622420A (zh) * | 2012-02-22 | 2012-08-01 | 哈尔滨工程大学 | 基于颜色特征和形状上下文的商标图像检索方法 |
CN104462380A (zh) * | 2014-12-11 | 2015-03-25 | 北京中细软移动互联科技有限公司 | 商标检索方法 |
CN108038122A (zh) * | 2017-11-03 | 2018-05-15 | 福建师范大学 | 一种商标图像检索的方法 |
CN108763266A (zh) * | 2018-04-03 | 2018-11-06 | 南昌奇眸科技有限公司 | 一种基于图像特征提取的商标检索方法 |
WO2019237646A1 (zh) * | 2018-06-14 | 2019-12-19 | 清华大学深圳研究生院 | 一种基于深度学习和语义分割的图像检索方法 |
CN110348263A (zh) * | 2019-06-24 | 2019-10-18 | 西安理工大学 | 一种基于图像识别的二维随机码图像识别与提取方法 |
Non-Patent Citations (2)
Title |
---|
潘婷;周武杰;顾鹏笠;: "基于卷积神经网络的车辆和行人检测算法", 浙江科技学院学报, no. 05, 30 October 2018 (2018-10-30) * |
邵伟平;王兴;曹昭睿;白帆;: "基于MobileNet与YOLOv3的轻量化卷积神经网络设计", 计算机应用, no. 1, 10 July 2020 (2020-07-10) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679250B (zh) | 一种基于深度自编码卷积神经网络的多任务分层图像检索方法 | |
CN108228915B (zh) | 一种基于深度学习的视频检索方法 | |
CN112101165B (zh) | 兴趣点识别方法、装置、计算机设备和存储介质 | |
CN111177446B (zh) | 一种用于足迹图像检索的方法 | |
CN107833213B (zh) | 一种基于伪真值自适应法的弱监督物体检测方法 | |
CN109558821B (zh) | 一种视频中特定人物的服装件数计算方法 | |
CN112348117B (zh) | 场景识别方法、装置、计算机设备和存储介质 | |
CN111814845B (zh) | 一种基于多支流融合模型的行人重识别方法 | |
CN111582409A (zh) | 图像标签分类网络的训练方法、图像标签分类方法及设备 | |
CN113779308B (zh) | 一种短视频检测和多分类方法、装置及存储介质 | |
CN109710804B (zh) | 一种教学视频图像知识点降维分析方法 | |
CN110399895A (zh) | 图像识别的方法和装置 | |
US8254678B2 (en) | Image segmentation | |
CN111182364B (zh) | 一种短视频版权检测方法及系统 | |
CN114358188A (zh) | 特征提取模型处理、样本检索方法、装置和计算机设备 | |
CN111310662A (zh) | 一种基于集成深度网络的火焰检测识别方法及系统 | |
CN110827312A (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN116258861B (zh) | 基于多标签学习的半监督语义分割方法以及分割装置 | |
CN112036511B (zh) | 基于注意力机制图卷积神经网络的图像检索方法 | |
CN110956038A (zh) | 图文内容重复判断方法及装置 | |
CN113609892A (zh) | 深度学习与景区知识图谱融合的手写诗词识别方法 | |
CN114187595A (zh) | 基于视觉特征和语义特征融合的文档布局识别方法及系统 | |
CN114972506B (zh) | 一种基于深度学习和街景图像的图像定位方法 | |
CN110442736B (zh) | 一种基于二次判别分析的语义增强子空间跨媒体检索方法 | |
CN115115825A (zh) | 图像中的对象检测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |