CN108121805A

CN108121805A - 基于深度学习实现快速珠宝图片检索的方法

Info

Publication number: CN108121805A
Application number: CN201711418561.3A
Authority: CN
Inventors: 朱翔宇; 杨周旺; 王康; 王士玮
Original assignee: Hefei A Basai Information Science And Technology Ltd
Current assignee: Guangdong 3vjia Information Technology Co Ltd
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-06-05
Anticipated expiration: 2037-12-25
Also published as: CN108121805B

Abstract

本发明公开了基于深度学习实现快速珠宝图片检索的方法，涉及图像检索技术领域。本发明包括如下步骤：A、对需要检索的珠宝图片进行CNN特征提取，B、额外提取一种维数较小的CNN特征，并转换成适于检索的二进制编码，C、提取检索图片的CNN特征与二进制编码，利用编码减少候选目标图片数量，D、在缩小的图片范围内使用CNN特征进行检索。本发明通过使用CNN进行图片特征提取时再额外提取一种维数较小的CNN特征并转换为二进制编码，利用编码减少候选目标图片数量，在缩小的图片范围内进行CNN特征进行检索，提高了CNN特征检索的效率。

Description

基于深度学习实现快速珠宝图片检索的方法

技术领域

本发明属于图像检索技术领域，特别是涉及一种基于深度学习实现快速珠宝图片检索的方法。

背景技术

图片检索，即由用户给定一张图片，给出与给定图片内容相近的若干张图片，并以相似度高低顺序给出。

传统的图片检索技术，大致分为三个步骤。第一，对数据库中的所有图片进行特征提取，如SIFT特征，并存入数据库作为索引。第二，对于要检索的图片，提取相同类型的特征。第三，计算要检索图片的特征与数据库中所有图片特征之间的相似度(如欧氏距离，越小表示越接近)，根据相似度排序给出检索结果的若干张图片。

图片检索中，人们最为关心的两项指标，即是检索结果与目标的相似度与检索所用的时间。使用传统的特征，如SIFT特征，往往无法表达整张图片丰富的信息，从而可能导致检索结果与目标有一定的差异。为了解决传统人为设计特征表达能力不强的问题，近年来，基于深度学习，卷积神经网络(CNN)的特征提取方法开始流行于图片检索。CNN具有强大的特征提取能力，这体现于它能提取图片的语义特征，从而达到与人眼相近的识别能力。所以，使用CNN提取的特征进行比较，其结果通常能与人视觉相一致，也就是我们想要的。

然而，由于CNN特征往往具有较高的维数(如4096维)，其需要的计算时间也比较长，导致检索所需时间比较长。以我们的数据为例，20万张图片中做检索的时间约为8-9秒，这在实际应用中是不可接受的。

发明内容

本发明的目的在于提供基于深度学习实现快速珠宝图片检索的方法，通过使用CNN进行图片特征提取时再额外提取一种维数较小的CNN特征并转换为二进制编码，利用编码减少候选目标图片数量，在缩小的图片范围内进行CNN特征进行检索，解决了现有的CNN特征需要获取较高的维数来进行检索，导致检索所需时间比较长问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为基于深度学习实现快速珠宝图片检索的方法，包括如下步骤：

步骤S001对需要检索的珠宝图片进行CNN特征提取；

步骤S002额外提取一种维数较小的CNN特征，并转换成适于检索的二进制编码；

步骤S003提取检索图片的CNN特征与二进制编码，利用编码减少候选目标图片数量；

步骤S004在缩小的图片范围内使用CNN特征进行检索。

优选地，所述步骤S001中，特征提取使用ResNet网络结构，得到图片特征为2048维的特征向量。

优选地，所述步骤S002中，维数较小的CNN特征通过在ResNet后衔接一个卷积层，其卷积核大小为1*1，并有256个通道将特征被压缩至256维。

优选地，所述256维每一维范围为0到1，若维数大于0.5，则取1；若维数小于等于0.5，则取0，其中，每一维的取值范围由Sigmoid激活函数进行固定。

优选地，所述步骤S004中，检索的具体过程为：

步骤SS001获取用户输入图片的提取特征和二进制编码；

步骤SS002计算得出编码与数据库中所有编码的距离；

步骤SS003得到给定距离内的所有二进制编码，获取下一步需要检索的图片，由于编码间距离计算的高效性，计算速度极快；

步骤SS004提取出的特征与步骤SS003得到的所有图片特征进行相似度计算；

步骤SS005检索结果为相识度排序后最高的若干张图片。

优选地，所述步骤SS002中，距离为欧氏距离或Pearson相关系数。

本发明具有以下有益效果：

本发明通过使用CNN进行图片特征提取时再额外提取一种维数较小的CNN特征并转换为二进制编码，利用编码减少候选目标图片数量，在缩小的图片范围内进行CNN特征进行检索，提高了CNN特征检索的效率。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于深度学习实现快速珠宝图片检索的方法步骤图；

图2为本发明检索方法步骤图；

图3为本发明方法处理手镯的检索结果图；

图4为本发明方法处理项链的检索结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为基于深度学习实现快速珠宝图片检索的方法，包括如下步骤：

步骤S001对需要检索的珠宝图片进行CNN特征提取；

步骤S002额外提取一种维数较小的CNN特征，并转换成适于检索的二进制编码，一个二进制编码可能对应多个图片；

步骤S003提取检索图片的CNN特征与二进制编码，利用编码减少候选目标图片数量，利用低维特征进行粗粉，提高需要检索的数量；

步骤S004在缩小的图片范围内使用CNN特征进行检索，利用高维特征进行细分。

其中，步骤S001中，特征提取使用ResNet网络结构，得到图片特征为2048维的特征向量，其中ResNet是微软研究院提出的网络结构，其在ImageNet上的top5正确率可达92.02％，2048维用于细分的特征。

其中，步骤S002中，维数较小的CNN特征通过在ResNet后衔接一个卷积层，其卷积核大小为1*1，并有256个通道将特征被压缩至256维。

其中，256维每一维范围为0到1，若维数大于0.5，则取1；若维数小于等于0.5，则取0。

请参阅图2所示，本发明为基于深度学习实现快速珠宝图片检索的方法，检索的具体过程为：

步骤SS001获取用户输入图片的提取特征和二进制编码；

步骤SS002计算得出编码与数据库中所有编码的距离；

步骤SS003得到给定距离内的所有二进制编码，获取下一步需要检索的图片；

步骤SS005检索结果为相识度排序后最高的二十张图片。

其中，步骤SS002中，距离为欧氏距离或Pearson相关系数。

请参阅图3所示，为本发明方法处理手镯的检索结果图，可以看出视觉上大体处理正确，用时1秒，检索出相似手镯16个、相似戒子4个。

请参阅图4所示，为本发明方法处理戒子的检索结果图，可以看出检索出相似的20个戒子，并且耗时仅0.3秒。

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘或光盘等。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.基于深度学习实现快速珠宝图片检索的方法，其特征在于，包括如下步骤：

步骤S001对需要检索的珠宝图片进行CNN特征提取；

步骤S004在缩小的图片范围内使用CNN特征进行检索。

2.根据权利要求1所述的基于深度学习实现快速珠宝图片检索的方法，其特征在于，所述步骤S001中，特征提取使用ResNet网络结构，得到图片特征为2048维的特征向量。

3.根据权利要求1所述的基于深度学习实现快速珠宝图片检索的方法，其特征在于，所述步骤S002中，维数较小的CNN特征通过在ResNet后衔接一个卷积层，其卷积核大小为1*1，并有256个通道将特征被压缩至256维。

4.根据权利要求3所述的基于深度学习实现快速珠宝图片检索的方法，其特征在于，所述256维每一维范围为0到1，若维数大于0.5，则取1；若维数小于等于0.5，则取0。

5.根据权利要求1所述的基于深度学习实现快速珠宝图片检索的方法，其特征在于，所述步骤S004中，检索的具体过程为：

步骤SS001获取用户输入图片的提取特征和二进制编码；

步骤SS002计算得出编码与数据库中所有编码的距离；

步骤SS005检索结果为相识度排序后最高的若干张图片。

6.根据权利要求5所述的基于深度学习实现快速珠宝图片检索的方法，其特征在于，所述步骤SS002中，距离为欧氏距离或Pearson相关系数。