CN108121805A - 基于深度学习实现快速珠宝图片检索的方法 - Google Patents
基于深度学习实现快速珠宝图片检索的方法 Download PDFInfo
- Publication number
- CN108121805A CN108121805A CN201711418561.3A CN201711418561A CN108121805A CN 108121805 A CN108121805 A CN 108121805A CN 201711418561 A CN201711418561 A CN 201711418561A CN 108121805 A CN108121805 A CN 108121805A
- Authority
- CN
- China
- Prior art keywords
- picture
- retrieval
- feature
- cnn
- quick
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于深度学习实现快速珠宝图片检索的方法,涉及图像检索技术领域。本发明包括如下步骤:A、对需要检索的珠宝图片进行CNN特征提取,B、额外提取一种维数较小的CNN特征,并转换成适于检索的二进制编码,C、提取检索图片的CNN特征与二进制编码,利用编码减少候选目标图片数量,D、在缩小的图片范围内使用CNN特征进行检索。本发明通过使用CNN进行图片特征提取时再额外提取一种维数较小的CNN特征并转换为二进制编码,利用编码减少候选目标图片数量,在缩小的图片范围内进行CNN特征进行检索,提高了CNN特征检索的效率。
Description
技术领域
本发明属于图像检索技术领域,特别是涉及一种基于深度学习实现快速珠宝图片检索的方法。
背景技术
图片检索,即由用户给定一张图片,给出与给定图片内容相近的若干张图片,并以相似度高低顺序给出。
传统的图片检索技术,大致分为三个步骤。第一,对数据库中的所有图片进行特征提取,如SIFT特征,并存入数据库作为索引。第二,对于要检索的图片,提取相同类型的特征。第三,计算要检索图片的特征与数据库中所有图片特征之间的相似度(如欧氏距离,越小表示越接近),根据相似度排序给出检索结果的若干张图片。
图片检索中,人们最为关心的两项指标,即是检索结果与目标的相似度与检索所用的时间。使用传统的特征,如SIFT特征,往往无法表达整张图片丰富的信息,从而可能导致检索结果与目标有一定的差异。为了解决传统人为设计特征表达能力不强的问题,近年来,基于深度学习,卷积神经网络(CNN)的特征提取方法开始流行于图片检索。CNN具有强大的特征提取能力,这体现于它能提取图片的语义特征,从而达到与人眼相近的识别能力。所以,使用CNN提取的特征进行比较,其结果通常能与人视觉相一致,也就是我们想要的。
然而,由于CNN特征往往具有较高的维数(如4096维),其需要的计算时间也比较长,导致检索所需时间比较长。以我们的数据为例,20万张图片中做检索的时间约为8-9秒,这在实际应用中是不可接受的。
发明内容
本发明的目的在于提供基于深度学习实现快速珠宝图片检索的方法,通过使用CNN进行图片特征提取时再额外提取一种维数较小的CNN特征并转换为二进制编码,利用编码减少候选目标图片数量,在缩小的图片范围内进行CNN特征进行检索,解决了现有的CNN特征需要获取较高的维数来进行检索,导致检索所需时间比较长问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为基于深度学习实现快速珠宝图片检索的方法,包括如下步骤:
步骤S001对需要检索的珠宝图片进行CNN特征提取;
步骤S002额外提取一种维数较小的CNN特征,并转换成适于检索的二进制编码;
步骤S003提取检索图片的CNN特征与二进制编码,利用编码减少候选目标图片数量;
步骤S004在缩小的图片范围内使用CNN特征进行检索。
优选地,所述步骤S001中,特征提取使用ResNet网络结构,得到图片特征为2048维的特征向量。
优选地,所述步骤S002中,维数较小的CNN特征通过在ResNet后衔接一个卷积层,其卷积核大小为1*1,并有256个通道将特征被压缩至256维。
优选地,所述256维每一维范围为0到1,若维数大于0.5,则取1;若维数小于等于0.5,则取0,其中,每一维的取值范围由Sigmoid激活函数进行固定。
优选地,所述步骤S004中,检索的具体过程为:
步骤SS001获取用户输入图片的提取特征和二进制编码;
步骤SS002计算得出编码与数据库中所有编码的距离;
步骤SS003得到给定距离内的所有二进制编码,获取下一步需要检索的图片,由于编码间距离计算的高效性,计算速度极快;
步骤SS004提取出的特征与步骤SS003得到的所有图片特征进行相似度计算;
步骤SS005检索结果为相识度排序后最高的若干张图片。
优选地,所述步骤SS002中,距离为欧氏距离或Pearson相关系数。
本发明具有以下有益效果:
本发明通过使用CNN进行图片特征提取时再额外提取一种维数较小的CNN特征并转换为二进制编码,利用编码减少候选目标图片数量,在缩小的图片范围内进行CNN特征进行检索,提高了CNN特征检索的效率。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于深度学习实现快速珠宝图片检索的方法步骤图;
图2为本发明检索方法步骤图;
图3为本发明方法处理手镯的检索结果图;
图4为本发明方法处理项链的检索结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为基于深度学习实现快速珠宝图片检索的方法,包括如下步骤:
步骤S001对需要检索的珠宝图片进行CNN特征提取;
步骤S002额外提取一种维数较小的CNN特征,并转换成适于检索的二进制编码,一个二进制编码可能对应多个图片;
步骤S003提取检索图片的CNN特征与二进制编码,利用编码减少候选目标图片数量,利用低维特征进行粗粉,提高需要检索的数量;
步骤S004在缩小的图片范围内使用CNN特征进行检索,利用高维特征进行细分。
其中,步骤S001中,特征提取使用ResNet网络结构,得到图片特征为2048维的特征向量,其中ResNet是微软研究院提出的网络结构,其在ImageNet上的top5正确率可达92.02%,2048维用于细分的特征。
其中,步骤S002中,维数较小的CNN特征通过在ResNet后衔接一个卷积层,其卷积核大小为1*1,并有256个通道将特征被压缩至256维。
其中,256维每一维范围为0到1,若维数大于0.5,则取1;若维数小于等于0.5,则取0。
请参阅图2所示,本发明为基于深度学习实现快速珠宝图片检索的方法,检索的具体过程为:
步骤SS001获取用户输入图片的提取特征和二进制编码;
步骤SS002计算得出编码与数据库中所有编码的距离;
步骤SS003得到给定距离内的所有二进制编码,获取下一步需要检索的图片;
步骤SS004提取出的特征与步骤SS003得到的所有图片特征进行相似度计算;
步骤SS005检索结果为相识度排序后最高的二十张图片。
其中,步骤SS002中,距离为欧氏距离或Pearson相关系数。
请参阅图3所示,为本发明方法处理手镯的检索结果图,可以看出视觉上大体处理正确,用时1秒,检索出相似手镯16个、相似戒子4个。
请参阅图4所示,为本发明方法处理戒子的检索结果图,可以看出检索出相似的20个戒子,并且耗时仅0.3秒。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (6)
1.基于深度学习实现快速珠宝图片检索的方法,其特征在于,包括如下步骤:
步骤S001对需要检索的珠宝图片进行CNN特征提取;
步骤S002额外提取一种维数较小的CNN特征,并转换成适于检索的二进制编码;
步骤S003提取检索图片的CNN特征与二进制编码,利用编码减少候选目标图片数量;
步骤S004在缩小的图片范围内使用CNN特征进行检索。
2.根据权利要求1所述的基于深度学习实现快速珠宝图片检索的方法,其特征在于,所述步骤S001中,特征提取使用ResNet网络结构,得到图片特征为2048维的特征向量。
3.根据权利要求1所述的基于深度学习实现快速珠宝图片检索的方法,其特征在于,所述步骤S002中,维数较小的CNN特征通过在ResNet后衔接一个卷积层,其卷积核大小为1*1,并有256个通道将特征被压缩至256维。
4.根据权利要求3所述的基于深度学习实现快速珠宝图片检索的方法,其特征在于,所述256维每一维范围为0到1,若维数大于0.5,则取1;若维数小于等于0.5,则取0。
5.根据权利要求1所述的基于深度学习实现快速珠宝图片检索的方法,其特征在于,所述步骤S004中,检索的具体过程为:
步骤SS001获取用户输入图片的提取特征和二进制编码;
步骤SS002计算得出编码与数据库中所有编码的距离;
步骤SS003得到给定距离内的所有二进制编码,获取下一步需要检索的图片;
步骤SS004提取出的特征与步骤SS003得到的所有图片特征进行相似度计算;
步骤SS005检索结果为相识度排序后最高的若干张图片。
6.根据权利要求5所述的基于深度学习实现快速珠宝图片检索的方法,其特征在于,所述步骤SS002中,距离为欧氏距离或Pearson相关系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711418561.3A CN108121805B (zh) | 2017-12-25 | 2017-12-25 | 基于深度学习实现快速珠宝图片检索的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711418561.3A CN108121805B (zh) | 2017-12-25 | 2017-12-25 | 基于深度学习实现快速珠宝图片检索的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108121805A true CN108121805A (zh) | 2018-06-05 |
CN108121805B CN108121805B (zh) | 2021-09-14 |
Family
ID=62231647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711418561.3A Active CN108121805B (zh) | 2017-12-25 | 2017-12-25 | 基于深度学习实现快速珠宝图片检索的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108121805B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213599A1 (en) * | 2014-01-25 | 2015-07-30 | Pangea Diagnostics Ltd. | Automated histological diagnosis of bacterial infection using image analysis |
CN106203442A (zh) * | 2016-06-28 | 2016-12-07 | 北京小白世纪网络科技有限公司 | 一种基于深度学习的拷贝图像特征提取方法 |
CN106682697A (zh) * | 2016-12-29 | 2017-05-17 | 华中科技大学 | 一种基于卷积神经网络的端到端物体检测方法 |
CN107092661A (zh) * | 2017-03-28 | 2017-08-25 | 桂林明辉信息科技有限公司 | 一种基于深度卷积神经网络的图像检索方法 |
CN107220373A (zh) * | 2017-06-19 | 2017-09-29 | 太原理工大学 | 一种基于医学征象和卷积神经网络的肺结节ct图像哈希检索方法 |
-
2017
- 2017-12-25 CN CN201711418561.3A patent/CN108121805B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213599A1 (en) * | 2014-01-25 | 2015-07-30 | Pangea Diagnostics Ltd. | Automated histological diagnosis of bacterial infection using image analysis |
CN106203442A (zh) * | 2016-06-28 | 2016-12-07 | 北京小白世纪网络科技有限公司 | 一种基于深度学习的拷贝图像特征提取方法 |
CN106682697A (zh) * | 2016-12-29 | 2017-05-17 | 华中科技大学 | 一种基于卷积神经网络的端到端物体检测方法 |
CN107092661A (zh) * | 2017-03-28 | 2017-08-25 | 桂林明辉信息科技有限公司 | 一种基于深度卷积神经网络的图像检索方法 |
CN107220373A (zh) * | 2017-06-19 | 2017-09-29 | 太原理工大学 | 一种基于医学征象和卷积神经网络的肺结节ct图像哈希检索方法 |
Non-Patent Citations (1)
Title |
---|
胡颖 等: "基于卷积神经网络的人耳识别研究", 《中北大学学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108121805B (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Chinese sign language recognition with adaptive HMM | |
Lee et al. | Intra-class variation reduction using training expression images for sparse representation based facial expression recognition | |
CN110046656B (zh) | 基于深度学习的多模态场景识别方法 | |
CN108009148B (zh) | 基于深度学习的文本情感分类表示方法 | |
Hu et al. | Angular pattern and binary angular pattern for shape retrieval | |
Basaran et al. | An efficient framework for visible–infrared cross modality person re-identification | |
Tarawneh et al. | Deep face image retrieval: A comparative study with dictionary learning | |
CN109086405B (zh) | 基于显著性和卷积神经网络的遥感图像检索方法及系统 | |
CN105447190B (zh) | 基于卷积神经网络的图片检索方法、装置和服务器 | |
Husain et al. | Action recognition based on efficient deep feature learning in the spatio-temporal domain | |
Assaleh et al. | Continuous Arabic sign language recognition in user dependent mode | |
CN103336835A (zh) | 基于权值color-sift特征字典的图像检索方法 | |
CN114119975A (zh) | 一种语言引导的跨模态实例分割方法 | |
CN107562729B (zh) | 基于神经网络和主题强化的党建文本表示方法 | |
Xu et al. | Multi‐pyramid image spatial structure based on coarse‐to‐fine pyramid and scale space | |
Minu | A extensive survey on sign language recognition methods | |
Liu et al. | Video action recognition with visual privacy protection based on compressed sensing | |
Mussarat et al. | Content based image retrieval using combined features of shape, color and relevance feedback | |
Wu et al. | A new bag-of-words model using multi-cue integration for image retrieval | |
Gao et al. | Spatial-structure Siamese network for plant identification | |
Huang et al. | Multi-query image retrieval using CNN and SIFT features | |
CN108121805A (zh) | 基于深度学习实现快速珠宝图片检索的方法 | |
Raut et al. | Recognition of American sign language using LBG vector quantization | |
Li et al. | Fusion framework for color image retrieval based on bag-of-words model and color local Haar binary patterns | |
Yin et al. | Semantics constrained dictionary learning for signer-independent sign language recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210105 Address after: Room 902, 9 / F, building F, Tianhe Software Park, Tianhe District, Guangzhou 510000 Applicant after: GUANGDONG 3VJIA INFORMATION TECHNOLOGY Co.,Ltd. Address before: 230000 room 323, building E1, phase II, innovation industrial park, 2800 innovation Avenue, high tech Zone, Hefei City, Anhui Province Applicant before: HEFEI ABACI SCIENCE & TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |