CN108121805B - 基于深度学习实现快速珠宝图片检索的方法 - Google Patents

基于深度学习实现快速珠宝图片检索的方法 Download PDF

Info

Publication number
CN108121805B
CN108121805B CN201711418561.3A CN201711418561A CN108121805B CN 108121805 B CN108121805 B CN 108121805B CN 201711418561 A CN201711418561 A CN 201711418561A CN 108121805 B CN108121805 B CN 108121805B
Authority
CN
China
Prior art keywords
picture
cnn
retrieval
pictures
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711418561.3A
Other languages
English (en)
Other versions
CN108121805A (zh
Inventor
朱翔宇
杨周旺
王康
王士玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong 3vjia Information Technology Co Ltd
Original Assignee
Guangdong 3vjia Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong 3vjia Information Technology Co Ltd filed Critical Guangdong 3vjia Information Technology Co Ltd
Priority to CN201711418561.3A priority Critical patent/CN108121805B/zh
Publication of CN108121805A publication Critical patent/CN108121805A/zh
Application granted granted Critical
Publication of CN108121805B publication Critical patent/CN108121805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于深度学习实现快速珠宝图片检索的方法,涉及图像检索技术领域。本发明包括如下步骤:A、对需要检索的珠宝图片进行CNN特征提取,B、额外提取一种维数较小的CNN特征,并转换成适于检索的二进制编码,C、提取检索图片的CNN特征与二进制编码,利用编码减少候选目标图片数量,D、在缩小的图片范围内使用CNN特征进行检索。本发明通过使用CNN进行图片特征提取时再额外提取一种维数较小的CNN特征并转换为二进制编码,利用编码减少候选目标图片数量,在缩小的图片范围内进行CNN特征进行检索,提高了CNN特征检索的效率。

Description

基于深度学习实现快速珠宝图片检索的方法
技术领域
本发明属于图像检索技术领域,特别是涉及一种基于深度学习实现快速珠宝图片检索的方法。
背景技术
图片检索,即由用户给定一张图片,给出与给定图片内容相近的若干张图片,并以相似度高低顺序给出。
传统的图片检索技术,大致分为三个步骤。第一,对数据库中的所有图片进行特征提取,如SIFT特征,并存入数据库作为索引。第二,对于要检索的图片,提取相同类型的特征。第三,计算要检索图片的特征与数据库中所有图片特征之间的相似度(如欧氏距离,越小表示越接近),根据相似度排序给出检索结果的若干张图片。
图片检索中,人们最为关心的两项指标,即是检索结果与目标的相似度与检索所用的时间。使用传统的特征,如SIFT特征,往往无法表达整张图片丰富的信息,从而可能导致检索结果与目标有一定的差异。为了解决传统人为设计特征表达能力不强的问题,近年来,基于深度学习,卷积神经网络(CNN)的特征提取方法开始流行于图片检索。CNN具有强大的特征提取能力,这体现于它能提取图片的语义特征,从而达到与人眼相近的识别能力。所以,使用CNN提取的特征进行比较,其结果通常能与人视觉相一致,也就是我们想要的。
然而,由于CNN特征往往具有较高的维数(如4096维),其需要的计算时间也比较长,导致检索所需时间比较长。以我们的数据为例,20万张图片中做检索的时间约为8-9秒,这在实际应用中是不可接受的。
发明内容
本发明的目的在于提供基于深度学习实现快速珠宝图片检索的方法,通过使用CNN进行图片特征提取时再额外提取一种维数较小的CNN特征并转换为二进制编码,利用编码减少候选目标图片数量,在缩小的图片范围内进行CNN特征进行检索,解决了现有的CNN特征需要获取较高的维数来进行检索,导致检索所需时间比较长问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为基于深度学习实现快速珠宝图片检索的方法,包括如下步骤:
步骤S001对需要检索的珠宝图片进行CNN特征提取;
步骤S002额外提取一种维数较小的CNN特征,并转换成适于检索的二进制编码;
步骤S003提取检索图片的CNN特征与二进制编码,利用编码减少候选目标图片数量;
步骤S004在缩小的图片范围内使用CNN特征进行检索。
优选地,所述步骤S001中,特征提取使用ResNet网络结构,得到图片特征为2048维的特征向量。
优选地,所述步骤S002中,维数较小的CNN特征通过在ResNet后衔接一个卷积层,其卷积核大小为1*1,并有256个通道将特征被压缩至256维。
优选地,所述256维每一维范围为0到1,若维数大于0.5,则取1;若维数小于等于0.5,则取0,其中,每一维的取值范围由Sigmoid激活函数进行固定。
优选地,所述步骤S004中,检索的具体过程为:
步骤SS001获取用户输入图片的提取特征和二进制编码;
步骤SS002计算得出编码与数据库中所有编码的距离;
步骤SS003得到给定距离内的所有二进制编码,获取下一步需要检索的图片,由于编码间距离计算的高效性,计算速度极快;
步骤SS004提取出的特征与步骤SS003得到的所有图片特征进行相似度计算;
步骤SS005检索结果为相识度排序后最高的若干张图片。
优选地,所述步骤SS002中,距离为欧氏距离或Pearson相关系数。
本发明具有以下有益效果:
本发明通过使用CNN进行图片特征提取时再额外提取一种维数较小的CNN特征并转换为二进制编码,利用编码减少候选目标图片数量,在缩小的图片范围内进行CNN特征进行检索,提高了CNN特征检索的效率。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于深度学习实现快速珠宝图片检索的方法步骤图;
图2为本发明检索方法步骤图;
图3为本发明方法处理手镯的检索结果图;
图4为本发明方法处理项链的检索结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为基于深度学习实现快速珠宝图片检索的方法,包括如下步骤:
步骤S001对需要检索的珠宝图片进行CNN特征提取;
步骤S002额外提取一种维数较小的CNN特征,并转换成适于检索的二进制编码,一个二进制编码可能对应多个图片;
步骤S003提取检索图片的CNN特征与二进制编码,利用编码减少候选目标图片数量,利用低维特征进行粗粉,提高需要检索的数量;
步骤S004在缩小的图片范围内使用CNN特征进行检索,利用高维特征进行细分。
其中,步骤S001中,特征提取使用ResNet网络结构,得到图片特征为2048维的特征向量,其中ResNet是微软研究院提出的网络结构,其在ImageNet上的top5正确率可达92.02%,2048维用于细分的特征。
其中,步骤S002中,维数较小的CNN特征通过在ResNet后衔接一个卷积层,其卷积核大小为1*1,并有256个通道将特征被压缩至256维。
其中,256维每一维范围为0到1,若维数大于0.5,则取1;若维数小于等于0.5,则取0。
请参阅图2所示,本发明为基于深度学习实现快速珠宝图片检索的方法,检索的具体过程为:
步骤SS001获取用户输入图片的提取特征和二进制编码;
步骤SS002计算得出编码与数据库中所有编码的距离;
步骤SS003得到给定距离内的所有二进制编码,获取下一步需要检索的图片;
步骤SS004提取出的特征与步骤SS003得到的所有图片特征进行相似度计算;
步骤SS005检索结果为相识度排序后最高的二十张图片。
其中,步骤SS002中,距离为欧氏距离或Pearson相关系数。
请参阅图3所示,为本发明方法处理手镯的检索结果图,可以看出视觉上大体处理正确,用时1秒,检索出相似手镯16个、相似戒子4个。
请参阅图4所示,为本发明方法处理戒子的检索结果图,可以看出检索出相似的20个戒子,并且耗时仅0.3秒。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (5)

1.基于深度学习实现快速珠宝图片检索的方法,其特征在于,包括如下步骤:
步骤S001对需要检索的珠宝图片进行CNN特征提取;
步骤S002额外提取一种维数较小的CNN特征,并转换成适于检索的二进制编码,维数较小的CNN特征通过在ResNet后衔接一个卷积层,其卷积核大小为1*1,并有256个通道将特征被压缩至256维;
步骤S003提取检索图片的CNN特征与二进制编码,利用编码减少候选目标图片数量;
步骤S004在缩小的图片范围内使用CNN特征进行检索。
2.根据权利要求1所述的基于深度学习实现快速珠宝图片检索的方法,其特征在于,所述步骤S001中,特征提取使用ResNet网络结构,得到图片特征为2048维的特征向量。
3.根据权利要求1所述的基于深度学习实现快速珠宝图片检索的方法,其特征在于,所述256维每一维范围为0到1,若维数大于0.5,则取1;若维数小于等于0.5,则取0。
4.根据权利要求1所述的基于深度学习实现快速珠宝图片检索的方法,其特征在于,所述步骤S004中,检索的具体过程为:
步骤SS001获取用户输入图片的提取特征和二进制编码;
步骤SS002计算得出编码与数据库中所有编码的距离;
步骤SS003得到给定距离内的所有二进制编码,获取下一步需要检索的图片;
步骤SS004提取出的特征与步骤SS003得到的所有图片特征进行相似度计算;
步骤SS005检索结果为相识度排序后最高的若干张图片。
5.根据权利要求4所述的基于深度学习实现快速珠宝图片检索的方法,其特征在于,所述步骤SS002中,距离为欧氏距离或Pearson相关系数。
CN201711418561.3A 2017-12-25 2017-12-25 基于深度学习实现快速珠宝图片检索的方法 Active CN108121805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711418561.3A CN108121805B (zh) 2017-12-25 2017-12-25 基于深度学习实现快速珠宝图片检索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711418561.3A CN108121805B (zh) 2017-12-25 2017-12-25 基于深度学习实现快速珠宝图片检索的方法

Publications (2)

Publication Number Publication Date
CN108121805A CN108121805A (zh) 2018-06-05
CN108121805B true CN108121805B (zh) 2021-09-14

Family

ID=62231647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711418561.3A Active CN108121805B (zh) 2017-12-25 2017-12-25 基于深度学习实现快速珠宝图片检索的方法

Country Status (1)

Country Link
CN (1) CN108121805B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203442A (zh) * 2016-06-28 2016-12-07 北京小白世纪网络科技有限公司 一种基于深度学习的拷贝图像特征提取方法
CN106682697A (zh) * 2016-12-29 2017-05-17 华中科技大学 一种基于卷积神经网络的端到端物体检测方法
CN107092661A (zh) * 2017-03-28 2017-08-25 桂林明辉信息科技有限公司 一种基于深度卷积神经网络的图像检索方法
CN107220373A (zh) * 2017-06-19 2017-09-29 太原理工大学 一种基于医学征象和卷积神经网络的肺结节ct图像哈希检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015112932A1 (en) * 2014-01-25 2015-07-30 Handzel Amir Aharon Automated histological diagnosis of bacterial infection using image analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203442A (zh) * 2016-06-28 2016-12-07 北京小白世纪网络科技有限公司 一种基于深度学习的拷贝图像特征提取方法
CN106682697A (zh) * 2016-12-29 2017-05-17 华中科技大学 一种基于卷积神经网络的端到端物体检测方法
CN107092661A (zh) * 2017-03-28 2017-08-25 桂林明辉信息科技有限公司 一种基于深度卷积神经网络的图像检索方法
CN107220373A (zh) * 2017-06-19 2017-09-29 太原理工大学 一种基于医学征象和卷积神经网络的肺结节ct图像哈希检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于卷积神经网络的人耳识别研究;胡颖 等;《中北大学学报》;20151015;全文 *

Also Published As

Publication number Publication date
CN108121805A (zh) 2018-06-05

Similar Documents

Publication Publication Date Title
CN111164601A (zh) 情感识别方法、智能装置和计算机可读存储介质
CN108009148B (zh) 基于深度学习的文本情感分类表示方法
CN111198958A (zh) 匹配背景音乐的方法、装置及终端
Verma et al. Deepcu: Integrating both common and unique latent information for multimodal sentiment analysis
CN108595696A (zh) 一种基于云平台的人机交互智能问答方法和系统
Andonian et al. Robust cross-modal representation learning with progressive self-distillation
CN108419094A (zh) 视频处理方法、视频检索方法、装置、介质及服务器
CN110245257B (zh) 推送信息的生成方法及装置
Assaleh et al. Continuous Arabic sign language recognition in user dependent mode
Yu et al. Spae: Semantic pyramid autoencoder for multimodal generation with frozen llms
CN112738556A (zh) 视频处理方法及装置
CN112860945A (zh) 利用帧-字幕自监督进行多模态视频问答的方法
CN111125457A (zh) 一种深度跨模态哈希检索方法及装置
CN111344717A (zh) 交互行为预测方法、智能装置和计算机可读存储介质
CN113806554A (zh) 面向海量会议文本的知识图谱构建方法
CN111782852A (zh) 基于深度学习的高层次语义图像检索方法
Hamdi et al. Comparative study between machine and deep learning methods for age, gender and ethnicity identification
Minu A extensive survey on sign language recognition methods
CN108121805B (zh) 基于深度学习实现快速珠宝图片检索的方法
CN108764258A (zh) 一种用于群体图像插入的最优图像集选取方法
CN109670057B (zh) 一种渐进式的端到端深度特征量化系统及方法
Murtaza et al. DA-VLAD: Discriminative action vector of locally aggregated descriptors for action recognition
Gornale et al. Multimodal Biometrics Data Analysis for Gender Estimation Using Deep Learning
Rohani et al. Deep Multi-task Convolutional Neural Networks for Efficient Classification of Face Attributes
CN114297449A (zh) 内容查找方法、装置、电子设备及计算机可读介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210105

Address after: Room 902, 9 / F, building F, Tianhe Software Park, Tianhe District, Guangzhou 510000

Applicant after: GUANGDONG 3VJIA INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 230000 room 323, building E1, phase II, innovation industrial park, 2800 innovation Avenue, high tech Zone, Hefei City, Anhui Province

Applicant before: HEFEI ABACI SCIENCE & TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant