CN106980866A

CN106980866A - 一种鞋类检索方法

Info

Publication number: CN106980866A
Application number: CN201610940572.7A
Authority: CN
Inventors: 陈海峰; 邱石; 张伟
Original assignee: Sensetime Group Ltd
Current assignee: Sensetime Group Ltd
Priority date: 2016-10-24
Filing date: 2016-10-24
Publication date: 2017-07-25
Anticipated expiration: 2036-10-24
Also published as: CN106980866B

Abstract

本发明提供一种鞋类检索方法，用于解决鞋类检索过程中图像背景复杂以及鞋身角度多样所导致的鞋类检索准确度不高的问题；方法包括：根据边缘坐标检测模型对输入图像进行裁剪，得到鞋身图像；使用关键点检测模型对所述鞋身图像进行关键点检测，得到所述鞋身图像的关键点；根据所述鞋身图像的关键点进行图像调整，使得所述鞋身图像的鞋身朝向以及图像尺寸与数据库中的比对图像一致；使用特征提取模型对所述图像调整后的鞋身图像进行深度特征提取，得到所述鞋身图像的深度特征；使用所述鞋身图像的深度特征与数据库中比对图像的深度特征进行相似度比对，根据所述相似度比对的结果输出所述输入图像的检索结果。

Description

一种鞋类检索方法

技术领域

本发明涉及数据处理领域，具体涉及一种鞋类检索方法。

背景技术

随着互联网的快速普及以及电子商务的兴起与发展，基于计算机视觉的图像检索技术得到了空前的发展。一般的电子商务网站是通过人工的方式对于商品图片添加标注来区别和分类图片，但是对于用户提供的无标注商品图片就无法进行检索和反馈了。针对上述问题，大量的基于商品图片视觉信息的检索方法不断被大家提出，目前比较流行的方法大多是基于卷积神经网络来提取图片深度特征，计算与数据库中图片的深度特征相似度度量，并进行升序排序，将排序后的前若干个结果返回给用户，即为所检索的結果。

早在上个世纪90年代图像检索技术就已经兴起，当时的技术更多的还是基于文本的图像检索，但是随着社会生产力和工业化水平的不断提高，以及老百姓对于商品需求的提升，使得各类商品的多样性和复杂程度已经超出了几个文本可以描述清楚的地步。与此同时互联网以及多媒体技术的普及，商品图片的数量有了爆炸式的增长，基于文本的检索方式显然无法满足现在用户的需求。回归图像本身，其包含了丰富的信息，如颜色，纹理，形状等。提取图像内容特征可以更好的描述和表征图片，所以基于图像内容或视觉信息的图像检索技术等到了广泛的发展。

现有的基于图像内容的图像检索方法（如专利CN 103049513 A）多采用低层的视觉特征，如颜色，纹理，形状等，其不能很好的解决光照带来的明暗变化，视角不同带来的形状变化，以及图像分辨率不足带来的纹理特征不明显等问题。

发明内容

本发明提供一种鞋类检索方法，用于解决鞋类检索过程中图像背景复杂以及鞋身角度多样所导致的鞋类检索准确度不高的问题。

本发明实施例第一方面提供一种鞋类检索方法，包括：

根据边缘坐标检测模型对输入图像进行裁剪，得到鞋身图像，所述输入图像为待检索的鞋类图像；

使用关键点检测模型对所述鞋身图像进行关键点检测，得到所述鞋身图像的关键点；

根据所述鞋身图像的关键点进行图像调整，使得所述鞋身图像的鞋身朝向以及图像尺寸与数据库中的比对图像一致；

使用特征提取模型对所述图像调整后的鞋身图像进行深度特征提取，得到所述鞋身图像的深度特征；

使用所述鞋身图像的深度特征与数据库中比对图像的深度特征进行相似度比对，根据所述相似度比对的结果输出所述输入图像的检索结果。

本发明实施例第二方面提供一种鞋类检索装置，包括：

裁剪单元，用于根据边缘坐标检测模型对输入图像进行裁剪，得到鞋身图像，所述输入图像为待检索的鞋类图像；

检测单元，用于使用关键点检测模型对所述鞋身图像进行关键点检测，得到所述鞋身图像的关键点；

调整单元，用于根据所述鞋身图像的关键点进行图像调整，使得所述鞋身图像的鞋身朝向以及图像尺寸与数据库中的比对图像一致；

特征提取单元，用于使用特征提取模型对所述图像调整后的鞋身图像进行深度特征提取，得到所述鞋身图像的深度特征；

比对单元，用于使用所述鞋身图像的深度特征与数据库中比对图像的深度特征进行相似度比对，根据所述相似度比对的结果输出所述输入图像的检索结果。

在本发明实施例中，通过深度学习物体检测方法，先对输入图像进行剪裁，得到鞋身图像；再利用深度学习回归关键点方法找到所述鞋身图像的关键点，之后按照关键点位置将输入图像与数据库图片进行对齐，并对所述图像调整后的鞋身图像进行深度特征提取，最后使用所述鞋身图像的深度特征与数据库中比对图像的深度特征进行相似度比对；本发明实施例中的特征提取方法能更准确的描述鞋类图像的特征，有效解决了鞋类图像中复杂背景以及多角度的问题，提高了鞋类检索的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的鞋类检索方法的一个流程图；

图2为本发明实施例中的鞋类检索方法的另一个流程图；

图3为本发明实施例中的鞋类检索方法的矩形框示意图；

图4为本发明实施例中的鞋类检索方法的关键点示意图；

图5为本发明实施例中的鞋类检索方法的卷积模型示意图；

图6为本发明实施例中的鞋类检索装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下分别进行详细说明。

本发明的说明书和权利要求书中，应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有的图像检索方法中，基本的检索步骤包括以下三步：

1.设计构建图像特征提取算法，并将其应用到数据库所有图片；

2.利用特征提取算法提取待检索图片的特征；

3.将待检索图片的特征与数据库中图片的特征进行特征比对，按相似度排序返给用户。

本发明实施例主要针对商品图片中的鞋类图片检索提出，是针对基于卷积神经网络来提取图片深度特征方法的进一步细化和提升，克服了现有技术中，受鞋类图片背景复杂，鞋类图片中鞋子摆放角度较多，以及深度特征不能很好表达鞋类等问题，从而提升鞋类图片检索效果。

其中，本发明实施例中所使用到的技术术语包括：

bounding box，边界框；

Faster R-CNN，更快速区域卷积神经网络算法（Faster Region with Convolutional Neural Network）。

实施例一

请参阅图1，本发明实施例中鞋类检索方法的一个实施例包括：

101、根据边缘坐标检测模型对输入图像进行裁剪；

鞋类检索装置根据边缘坐标检测模型对输入图像进行裁剪，得到鞋身图像，所述输入图像为待检索的鞋类图像。

具体的，鞋类检索装置可以使用边缘坐标检测模型对输入图像进行鞋身坐标定位，得到所述输入图像的鞋身坐标；再根据所述鞋身坐标对所述输入图像进行裁剪，得到鞋身图像。

本发明实施例中的边缘坐标检测模型，通过模型训练得到；所述模型训练具体为：以坐标样本图像（即，带标记的鞋类图像），以及大量的原始鞋类图像（无标记的鞋类图像）作为输入，使用Faster R-CNN对卷积神经网络进行训练，不断的更新迭代鞋身坐标模型。其中，所述所述坐标样本图像为带边缘坐标位置标记的鞋类图像，所述带标记的鞋类图像指的是带鞋身坐标标记的鞋类图像，该鞋身坐标可以为手工标记的bounding box的坐标，如图3所示的矩形框左上角右下角两点的坐标；所述卷积神经网络可以为具有五个卷积层以及两个全连接层的神经网络，如Zeiler网络。

102、使用关键点检测模型对所述鞋身图像进行关键点检测；

鞋类检索装置使用关键点检测模型对所述鞋身图像进行关键点检测，得到所述鞋身图像的关键点。

所述关键点检测模型为使用鞋身图像和关键点样本图像对卷积神经网络模型进行训练得到，所述关键点样本图像为带关键点标记的鞋类图像。

103、根据所述鞋身图像的关键点进行图像调整；

鞋类检索装置根据所述鞋身图像的关键点进行图像调整，使得所述鞋身图像的鞋身朝向以及图像尺寸与数据库中的比对图像一致。

具体的，所述图像调整为对鞋身图像的鞋身朝向以及鞋身图像的图像尺寸进行调整。

请参阅图4，所述鞋身图像的关键点包括:鞋口关键点P1和P5，鞋头切线点P3，鞋头关键点P2和鞋跟关键点P4；具体的，所述鞋口关键点为穿鞋入口所形成弧圈上的关键点，所述鞋头切线点为鞋头弧线与鞋身侧面边缘线的连接点。

示例性的，鞋类检索装置根据所述鞋头关键点P2和所述鞋跟关键点P4进行鞋身旋转，使所述鞋身图像的鞋身朝向与数据库中的比对图像一致；通过比较鞋口关键点P1与鞋头切线点P3两点的纵坐标大小调整图片，使所述鞋身图像的鞋口朝向与数据库图片一致；按照包含所有关键点的最小矩形进行裁剪，并将裁剪后的图片调整到统一尺寸。

可以理解的是，在实际应用中，鞋身图像的调整方式可以有多种，本发明实施例仅举出一种实现方式，该实现方式不应理解为本发明实施例的唯一实现方法。

104、使用特征提取模型对所述图像调整后的鞋身图像进行深度特征提取；

鞋类检索装置使用特征提取模型对所述图像调整后的鞋身图像进行深度特征提取，得到所述鞋身图像的深度特征。

具体的，所述特征提取模型为卷积神经网络模型，所述深度特征为所述卷积神经网络模型的中间层特征。进一步的，所述卷积神经网络模型可以通过大量的鞋类图像作为训练数据调整得到。所述训练数据包括：不同光照，角度，分辨率，场景下的鞋类图像。

105、使用所述鞋身图像的深度特征与数据库中比对图像的深度特征进行相似度比对。

鞋类检索装置使用所述鞋身图像的深度特征与数据库中比对图像的深度特征进行相似度比对，根据所述相似度比对的结果输出所述输入图像的检索结果。具体的，所述相似度比对的结果可以为所述比对图像与所述输入图像相似度的百分比。

示例性的，所述输入图像的检索结果可以为根据相似度百分比依次排序的数据库中的比对图像。

实施例二

下面实施例对本发明实施例中的鞋类检索方法进行详细描述，包括：

边缘坐标检测模型的训练：

以坐标样本图像（即，带标记的鞋类图像），以及大量的原始鞋类图像（无标记的鞋类图像）作为输入，使用Faster R-CNN对卷积神经网络进行训练，不断的更新迭代鞋身坐标模型。其中，所述所述坐标样本图像为带边缘坐标位置标记的鞋类图像，所述带标记的鞋类图像指的是带鞋身坐标标记的鞋类图像，该鞋身坐标可以为手工标记的bounding box的坐标，如图3所示的矩形框左上角右下角两点的坐标；所述卷积神经网络可以为具有五个卷积层以及两个全连接层的神经网络，如Zeiler网络。

关键点检测模型的训练：

训练关键点检测模型实现鞋子关键点回归预测，利用上一阶段训练的边缘坐标检测模型进行微调。保留Zeiler网络的前五层卷积结构（请参考图5，其中，conv1为卷积层，conv2为卷积层，conv3为卷积层，conv4为卷积层，conv5为卷积层，fc6为全连接层，fc7为全连接层），修改后面几层网络参数，最后一层输出关键点坐标。本发明实施例使用边缘坐标检测模型进行微调，充分利用了检测模型卷积网络权重对于鞋子位置的敏感性，相当于在找到鞋子的位置的基础上对于关键点进行回归预测，从而缩短了训练时间，提升了训练效率。训练数据为按照鞋子bounding box扩大1.1倍裁剪的鞋类图片以及手工标定的鞋子关键点坐标，使用时输入数据为鞋类图片按照bounding box裁剪的图片，输出为在此图片上鞋子关键点的坐标。

特征提取模型的训练：

利用鞋类图片微调现有的卷积神经网络模型，得到本发明实施例中的特征提取模型。在实验过程中发现，使用ILSVRC 2012训练的Alexnet模型对于提取鞋类图片的特征有很好的效果，所以，微调都是基于此模型进行。训练过程中保留Alexnet模型前五层卷积网络的权重，后面层的权重进行重新学习。训练数据为不同光照，角度，分辨率，场景下的鞋类图片，在不同条件下的同款鞋子作为一类，训练卷积神经网络做分类问题，类别数量依训练数据量而定，本发明实施例使用的类别数量在一千左右。本发明实施例选择的中间层特征（pool5层）作为鞋类图片的深度特征，经过实验验证全连接层fc6，fc7的特征并不能很好的表征图片，检索效果低于conv5，pool5层特征，但是conv5层特征的长度是pool5层的5倍左右，特征过长会增加特征匹配的时间，从而影响用户体验，所以选取pool5层特征作为鞋类图片的深度特征。

201、使用边缘坐标检测模型对输入图像进行鞋身坐标定位；

鞋类检索装置使用边缘坐标检测模型对输入图像进行鞋身坐标定位，得到所述输入图像的鞋身坐标，所述输入图像为待检索的鞋类图像。

202、根据所述鞋身坐标对所述输入图像进行裁剪；

鞋类检索装置根据所述鞋身坐标对所述输入图像进行裁剪，得到鞋身图像。具体的，所述鞋身坐标可以为bounding box坐标；进行裁剪时，可以在bounding box坐标的基础上扩大X倍进行裁剪，X倍可以为1.1。

203、使用关键点检测模型对所述鞋身图像进行关键点检测；

204、比较关键点连线面积与裁剪后的鞋身图像面积；

鞋类检索装置计算所述鞋身图像的关键点连线之后的面积，得到的第一鞋身面积；计算所述对输入图像进行裁剪之后鞋身图像的面积，得到的第二鞋身面积；若所述第一鞋身面积小于所述得到的第二鞋身面积N分之一，则执行步骤205，直接根据所述第二鞋身面积对所述鞋身图像进行裁剪，并将裁剪后的图片调整到统一尺寸；所述N为大于1的整数。若所述第一鞋身面积大于或等于所述得到的第二鞋身面积N分之一，则执行步骤206。

示例性的，所述N可以为4。理论上五个关键点连线的内部面积几乎等于整个鞋子的面积，而boundingbox又是包含鞋子的矩形边框，bounding box中大部分为鞋子，所以这两个的面积不应相差太大，小于1/4就认为关键点预测并不准确，就退而求其次，不使用关键点，直接根据bounding box进行裁剪resize然后提feature。

205、根据所述第二鞋身面积对所述鞋身图像进行裁剪；

鞋类检索装置根据所述第二鞋身面积对所述鞋身图像进行裁剪。

206、根据所述鞋身图像的关键点进行图像调整；

所述鞋身图像的关键点包括:鞋口关键点P1和P5，鞋头切线点P3，鞋头关键点P2和鞋跟关键点P4；具体的，所述鞋口关键点为穿鞋入口所形成弧圈上的关键点，所述鞋头切线点为鞋头弧线与鞋身侧面边缘线的连接点。

207、使用特征提取模型对所述图像调整后的鞋身图像进行深度特征提取；

208、使用所述鞋身图像的深度特征与数据库中比对图像的深度特征进行相似度比对。

本发明实施例具有以下有益效果：

1、本发明实施例通过训练并使用鞋子检测模型确定鞋子位置，明确了检索主体，排除了背景的干扰信息；

2、本发明实施例提出了鞋子的关键点定义，并通过关键点进行对齐，可以使数据库中所有鞋子图片与待检索鞋子图片保持相同方向，有利于下一步特征提取和匹配。

3、本发明实施例利用检测模型调整训练出关键点检测模型，充分利用了检测模型所包含的鞋子位置信息，相当于在鞋子位置已知的情况下回归预测关键点，降低了对于训练数据量的要求，提升了收敛速度，缩短了训练时间；

4、利用不同角度，不同条件下的同款鞋子图片对于现有模型进行微调，可以使提出的深度特征对于鞋子角度，光照，背景，分辨率等具有更好的鲁棒性。

请参阅图6，本发明实施例中鞋类检索装置的一个实施例包括：

裁剪单元601，用于根据边缘坐标检测模型对输入图像进行裁剪，得到鞋身图像，所述输入图像为待检索的鞋类图像；

检测单元602，用于使用关键点检测模型对所述鞋身图像进行关键点检测，得到所述鞋身图像的关键点；

调整单元603，用于根据所述鞋身图像的关键点进行图像调整，使得所述鞋身图像的鞋身朝向以及图像尺寸与数据库中的比对图像一致；

特征提取单元604，用于使用特征提取模型对所述图像调整后的鞋身图像进行深度特征提取，得到所述鞋身图像的深度特征；

比对单元605，用于使用所述鞋身图像的深度特征与数据库中比对图像的深度特征进行相似度比对，根据所述相似度比对的结果输出所述输入图像的检索结果。

所述裁剪单元具体用于：使用边缘坐标检测模型对输入图像进行鞋身坐标定位，得到所述输入图像的鞋身坐标；根据所述鞋身坐标对所述输入图像进行裁剪，得到鞋身图像。

进一步的，所述装置还包括：模型训练单元，所述模型训练单元用于使用原始鞋类图像和坐标样本图像对卷积神经网络模型进行训练，得到所述边缘坐标检测模型，所述坐标样本图像为带边缘坐标位置标记的鞋类图像。

进一步的，所述调整单元具体用于：

所述鞋身图像的关键点，包括：鞋口关键点P1，鞋头切线点P3，鞋头关键点P2和鞋跟关键点P4；

根据所述鞋头关键点P2和所述鞋跟关键点P4进行鞋身旋转，使所述鞋身图像的鞋身朝向与数据库中的比对图像一致；

通过比较鞋口关键点P1与鞋头切线点P3两点的纵坐标大小调整图片，使所述鞋身图像的鞋口朝向与数据库图片一致；

按照包含所有关键点的最小矩形进行裁剪，并将裁剪后的图片调整到统一尺寸。

上述各个单元具体的操作方法在上述图1至图2实施例中已经有相应的描述，此处不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种鞋类检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据边缘坐标检测模型对输入图像进行裁剪，得到鞋身图像，包括：

使用边缘坐标检测模型对输入图像进行鞋身坐标定位，得到所述输入图像的鞋身坐标；

根据所述鞋身坐标对所述输入图像进行裁剪，得到鞋身图像。

3.根据权利要求2所述的方法，其特征在于，所述使用边缘坐标检测模型对输入图像进行鞋身坐标定位之前，包括：

使用原始鞋类图像和坐标样本图像对卷积神经网络模型进行训练，得到所述边缘坐标检测模型，所述坐标样本图像为带边缘坐标位置标记的鞋类图像。

4.根据权利要求1所述的方法，其特征在于，所述使用关键点检测模型对所述鞋身图像进行关键点检测之前，包括：

使用鞋身图像和关键点样本图像对卷积神经网络模型进行训练，得到所述关键点检测模型，所述关键点样本图像为带关键点标记的鞋类图像。

5.根据权利要求1所述的方法，其特征在于，

所述鞋身图像的关键点，包括：鞋口关键点(P1)，鞋头切线点(P3)，鞋头关键点(P2)和鞋跟关键点(P4)；

所述根据所述鞋身图像的关键点进行图像调整，包括：

根据所述鞋头关键点(P2)和所述鞋跟关键点(P4)进行鞋身旋转，使所述鞋身图像的鞋身朝向与数据库中的比对图像一致；

通过比较鞋口关键点(P1)与鞋头切线点(P3)两点的纵坐标大小调整图片，使所述鞋身图像的鞋口朝向与数据库图片一致；

6.根据权利要求5所述的方法，其特征在于，所述根据所述鞋身图像的关键点进行图像调整之前，包括：

计算所述鞋身图像的关键点连线之后的面积，得到的第一鞋身面积；

计算所述对输入图像进行裁剪之后鞋身图像的面积，得到的第二鞋身面积；

若所述第一鞋身面积小于所述得到的第二鞋身面积N分之一，则直接根据所述第二鞋身面积对所述鞋身图像进行裁剪，并将裁剪后的图片调整到统一尺寸；所述N为大于1的整数；

若所述第一鞋身面积大于或等于所述得到的第二鞋身面积N分之一，执行所述根据所述鞋身图像的关键点进行图像调整的步骤。

7.一种鞋类检索装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述裁剪单元具体用于：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：模型训练单元，所述模型训练单元用于使用原始鞋类图像和坐标样本图像对卷积神经网络模型进行训练，得到所述边缘坐标检测模型，所述坐标样本图像为带边缘坐标位置标记的鞋类图像。

10.根据权利要求7所述的装置，其特征在于，

所述调整单元具体用于：