CN108717436A

CN108717436A - 一种基于显著性检测的商品目标快速检索方法

Info

Publication number: CN108717436A
Application number: CN201810466257.4A
Authority: CN
Inventors: 王智慧; 刘星; 李豪杰; 王宁; 李建军
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-10-30
Anticipated expiration: 2038-05-08
Also published as: CN108717436B

Abstract

本发明属于计算机视觉技术领域，提供了一种基于显著性检测的商品目标快速检索方法。由于大多数商品目标在商品图像中是比较显眼的，显著性检测可以预测图像中显著区域的位置。本发明提出的方法利用显著性检测得到的显著区域去过滤使用Selective Search提取到的初始候选框，并保留与显著区域有较高重叠率的候选框，最终利用显著区域和保留下来的候选框作为显著候选框来定位商品图片中的目标并提取相应的特征。这种方法一方面可以减少候选框的数量，提高检索效率；另一方面，显著候选框可以准确定位到目标，使得提取到的目标特征更加准确，进而提高检索精度。

Description

一种基于显著性检测的商品目标快速检索方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于显著性检测的商品目标快速检索方法。

背景技术

目前，亚马逊，阿里巴巴，京东等电子商务平台有了很大的发展，用户的购买习惯也发生了很大的改变。人们不再局限于时间和地点，只要拥有一部智能手机，就能够轻松查找到想要购买的商品。目前在PC端或移动端，很大一部分用户都是通过文本关键词来获取目标商品，但是当用户需求的商品的周边信息不明确时，很难通过抽象出有限的关键词来进行检索。后来各大电商平台争先推出了以图搜商品的检索方案。在这种检索方案中，用户只需拍一张所要购买商品的照片上传购物网站，就可以检索到电商平台与所要购买商品相符的商品，这极大的改善了用户的购物体验。如何从海量商品数据集中检索目标商品就成了这一方案的关键所在。

目标检索方法通常包含两个子任务：①检索出包含目标的图片；②使用一个标注框框出目标在图片中的位置。准确定位目标不仅可以使得对图片特征的表示更加准确，而且可以使得候选框的数量降低，进而减少检索时间。所以准确定位目标对这两个子任务是至关重要的。

在先前的研究中，定位方法主要分为两种类型，一种是监督的端到端深度学习机制，这种方法可以同时学习目标的定位以及标签。例如Amaia Salvador等人(“Faster r-cnn features for instance search,”in Computer Vision and Pattern RecognitionWorkshops,2016,pp.394–401.)利用RPN网络来对图片提取候选框，这个网络可以产生高质量的候选框，并有效的减少了检索计算时间。但是这种类型的方法有一个很明显的缺陷就是需要大量的有目标标签和标注框标注的图片来训练网络。考虑到商品数据集的短缺，显然这种类型的方法对于商品目标检索是不适用的。另一种是非监督机制。早期滑动窗口被广泛使用。这种方法通过每一个窗口和查询目标进行匹配来进行目标的定位，由于需要匹配大量的窗口，这种方法是非常耗时的。为了减少滑动窗口的搜索空间，有些方法开始利用图片分割，边缘，纹理等信息去指导图片中候选框的生成。其中比较典型的方法有EdgeBox(“Edge boxes:Locating object proposals from edges,”in European Conference onComputer Vision,2014,pp.391–405.)和Selective Search(“Selective search forobject recognition,”International Journal of Computer Vision,vol.104,no.2,pp.154–171,2013.)。EdgeBox依赖于稀疏但信息丰富的边缘信息。该方法可以保留具有包含目标可能性较大的的候选框。Selective Search结合穷举搜索和分层的语义分割。这种方法可以生成类别独立的高质量的候选框。这两种方法可以在一定程度上减少搜索空间。但是如果只使用较少的候选框，而不是使用提取到图片所有的候选框，则这两种方法都不能很好的定位目标，进而导致检索精度的下降。

本发明受商品图片中背景与目标不相关，商品目标在图片中是非常明显的特点的启发，我们结合定位方法中非监督机制，针对快速定位商品位置，提出了一种基于显著性检测的商品目标快速检索方法。

发明内容

本发明的目的是针对商品图片数据的特点，设计一种既快速又精确的检索商品目标方法。

本发明的技术方案：

一种基于显著性检测的商品目标快速检索方法，该方法包括离线处理数据集阶段和在线查询目标阶段两部分；

(1)离线处理数据集阶段，首先利用显著性目标检测网络处理数据集中的图像得到相应的显著图，再对显著图优化处理，得到清晰的显著区域；在进行显著性检测的同时，也对数据集图片用Selective Search方法获取图片中的候选框；然后利用显著区域筛选Selective Search提取到的候选框，保留与显著区域重叠率大的候选框；被保留的候选框和显著区域统称为显著候选框；最后提取并保存显著候选框的卷积最大响应MAC特征；

具体步骤如下：

步骤(1.1)，给定数据集，对数据集中的图片利用显著性检测网络进行显著性检测，得到图片的显著图；

步骤(1.2)，对显著图求像素平均值，对显著图中低于平均值的像素值置为0，高于平均值的像素值置为255，得到二值化图像；

步骤(1.3)，对步骤(1.2)得到的二值化图像求最大联通区域；

步骤(1.4)，计算最大联通区域和原始图像的重叠率，如果最大联通区域与原始图像重叠率小于0.5，则保留此最大联通区域作为显著区域，否则，对步骤(1.1)得到的显著图进行显著性检测，并重复步骤(1.2)到步骤(1.4)，直到得到作为显著区域的最大联通区域；

步骤(1.5)，对数据集中的图片使用Selective Search方法提取初始候选框；

步骤(1.6)，使用显著区域去选步骤(1.5)得到的初始候选框，保留与显著区域有重叠的候选框，具体重叠率根据需求而定；保留的候选框和显著区域统称为显著候选框，最终提取显著候选框的MAC特征并保存；

(2)在线查询目标阶段，给定一张查询图像，提取查询图像中待检测目标的特征，然后与保存的显著候选框的特征匹配，得到初始检索结果；最后使用检索得到的前N张图片中目标特征与查询图片中目标特征做融合，生成新的查询特征再在初始检索结果重新检索，得到最终的检索结果；

具体步骤如下：

步骤(2.1)，对查询图片提取相应的MAC特征；

步骤(2.2)，计算待查询图片特征与显著候选框特征之间的相似度得到初始检索结果；相似度计算使用欧几里得距离，公式如下：

其中，表示两个MAC特征向量；

(3)计算待查询图片与前N的显著候选框特征的平均特征，重新使用平均特征作为查询特征，再在初始检索结果重新检索，得到最终的检索结果。

所述的显著性目标检测网络基于Caffe框架搭建而成，共有16层卷积层，1层反卷积层；以数据集图像作为输入；第一卷积层通道数为64，第二卷积层通道数为128，第三层与第一层相同，第四层与第二层相同，第五层卷积层通道数为256，第六层卷积层通道数为512；第七卷积层通道数为512；第八、十一层与第五层相同，第九、十二层与第六层相同，第十、十三层与第七层相同，最终构成13层卷积层；在13层卷积层中，采用3*3的卷积核，并在第二、四、七、十、十三层后使用2*2池化核，步长为2的最大值池化进行下采样；第十四层卷积层采用7*7的卷积核，通道数为4096，并使用Dropout优化；第十五层卷积层采用1*1的卷积层，通道数为4096，也使用Dropout优化；前十五层都使用Relu函数激活；第十六层卷积层采用1*1的卷积核，通道数为1；第十七层使用反卷积进行上采样，最终得到显著图；在训练过程中使用Euclidean损失函数，公式如下：

其中，定义为训练集图片，x_i表示第i张图片；定义为对应于训练图片的真值二值图；θ定义为网络中所有的参数；f(*)表示显著新检测网络函数。

本发明的有益效果：本发明提出的方法利用显著性检测得到的显著区域去过滤使用Selective Search提取到的初始候选框，并保留与显著区域有较高重叠率的候选框，最终利用显著区域和保留下来的候选框作为显著候选框来定位商品图片中的目标并提取相应的特征。这种方法一方面可以减少候选框的数量，提高检索效率；另一方面，显著候选框可以准确定位到目标，使得提取到的目标特征更加准确，进而提高检索精度。

附图说明

图1是方法中显著性检测网络的结构图，整个网络使用全卷积结构，大大减少了网络的参数。

图2是快速检索商品图像方法的流程图。上方虚线框标注表示离线处理数据集过程，下方虚线框标注表示在线查询目标过程。

具体实施方式

本发明利用MATLAB进行图片初始候选框的提取，显著候选框的生成，显著候选框特征提取，查询图片特征提取，以及最终特征匹配。利用Caffe框架搭建显著性网络模型。

该方法包括离线处理数据集图片和在线查询目标图片两部分。离线处理数据集图片部分输入数据集中的图片，输出是数据集图片中候选框以及其对应的卷积最大响应(MAC)特征。具体步骤如下：

步骤1，给定一个数据集，对数据集图片利用设计的显著性检测网络进行显著性检测，得到图片的显著图。

步骤2，对显著图求像素平均值，对显著图中低于平均值的像素值置为0，高于平均值的像素值置为255，最终得到一个二值化图像。

步骤3，对步骤2得到的二值化图像求最大联通区域。

步骤4，计算最大联通区域和原始图像的重叠率，保留与原始图像重叠一定比例的联通区域作为显著区域，如果联通区域过大，则对步骤1得到的显著图进行显著性检测，并重复步骤2到步骤4，直到得到可作为显著区域的最大联通区域。

步骤5，对数据集中图片使用Selective Search方法提取初始的候选框。

步骤6，使用显著区域去筛选步骤5得到的初始候选框，保留与显著区域有一定重叠率的候选框。保留的候选框和显著区域统称为显著候选框，最终提取显著候选框的MAC特征并保存。

在线查询商品目标部分输入为待查询图片，输出是与待查询图片中目标相似的图片，并用标注框标注出相似目标。具体步骤如下：

步骤1，对查询图片提取相应的MAC特征。

步骤2，计算待查询图片特征与显著候选框特征之间的相似度得到初始检索结果。相似度计算使用欧几里得距离，公式如下：

其中表示两个MAC特征向量。

步骤3，计算待查询图片与前N的显著候选框特征的平均特征。重新使用平均特征作为查询特征，再在初始检索结果重新检索，得到最终的检索结果。

以下结合技术方案详细说明本发明的最佳实施例。

表1是本发明与其他算法在对不同数据集检索准确率对比结果。表2是本发明对比其他算法在PRODUCT数据集上的检索速度对比。

表1：本方法在PRODUICT，INSTRE，Flick32数据集对比目前先进的方法的检索准确率结果。

从表1可以看出，我们的方法在三个数据集都取得了最好的效果，分别达到了83.8,77.2,60.3的准确度，较之前的方法有明显的优势。

表2：在PRODUCT数据集检索一张图片的平均时间

从表2可以看出，我们的方法速度也有明显的优势。结合表1，证明了我们的方法在提高检索精度的同时也提高了检索效率。

Claims

1.一种基于显著性检测的商品目标快速检索方法，其特征主要在于离线处理数据集阶段；离线处理数据集阶段，首先利用显著性目标检测网络处理数据集中的图像得到相应的显著图，再对显著图优化处理，得到清晰的显著区域；在进行显著性检测的同时，也对数据集图片用Selective Search方法获取图片中的候选框；然后利用显著区域筛选SelectiveSearch提取到的候选框，保留与显著区域重叠率大的候选框；被保留的候选框和显著区域统称为显著候选框；最后提取并保存显著候选框的卷积最大响应MAC特征；

具体步骤如下：

步骤(1)，给定数据集，对数据集中的图片利用显著性检测网络进行显著性检测，得到图片的显著图；

步骤(2)，对显著图求像素平均值，对显著图中低于平均值的像素值置为0，高于平均值的像素值置为255，得到二值化图像；

步骤(3)，对步骤(1.2)得到的二值化图像求最大联通区域；

步骤(4)，计算最大联通区域和原始图像的重叠率，如果最大联通区域与原始图像重叠率小于0.5，则保留此最大联通区域作为显著区域，否则，对步骤(1.1)得到的显著图进行显著性检测，并重复步骤(1.2)到步骤(1.4)，直到得到作为显著区域的最大联通区域；

步骤(5)，对数据集中的图片使用Selective Search方法提取初始候选框；

步骤(6)，使用显著区域去选步骤(1.5)得到的初始候选框，保留与显著区域有重叠的候选框，具体重叠率根据需求而定；保留的候选框和显著区域统称为显著候选框，最终提取显著候选框的MAC特征并保存。

2.根据权利要求1所述的基于显著性检测的商品目标快速检索方法，其特征在于，所述的显著性目标检测网络基于Caffe框架搭建而成，共有16层卷积层，1层反卷积层；以数据集图像作为输入；第一卷积层通道数为64，第二卷积层通道数为128，第三层与第一层相同，第四层与第二层相同，第五层卷积层通道数为256，第六层卷积层通道数为512；第七卷积层通道数为512；第八、十一层与第五层相同，第九、十二层与第六层相同，第十、十三层与第七层相同，最终构成13层卷积层；在13层卷积层中，采用3*3的卷积核，并在第二、四、七、十、十三层后使用2*2池化核，步长为2的最大值池化进行下采样；第十四层卷积层采用7*7的卷积核，通道数为4096，并使用Dropout优化；第十五层卷积层采用1*1的卷积层，通道数为4096，也使用Dropout优化；前十五层都使用Relu函数激活；第十六层卷积层采用1*1的卷积核，通道数为1；第十七层使用反卷积进行上采样，最终得到显著图；在训练过程中使用Euclidean损失函数，公式如下：