CN107908685A

CN107908685A - 基于迁移学习的多视角商品图像检索与识别方法

Info

Publication number: CN107908685A
Application number: CN201711047644.6A
Authority: CN
Inventors: 宋永红; 李晓玉; 张元林
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2018-04-13

Abstract

本发明公开一种基于迁移学习的多视角商品图像检索与识别方法，1、根据商品列表建立多视角图像基础库，接着借助迁移学习技术，使用少量商品图像对已预训练的深度残差网络进行微调，然后使用该网络对图像基础库提取特征，对特征降维后构建特征库，最后根据特征库、图像基础库和商品类别的对应关系建立映射表；2、在获得待识别的商品图像后，使用上述网络对该图像提取特征并降维；3、对待识别商品图片特征与基础库中各图片特征进行距离度量，距离最小的就是最相似的图片，将其作为匹配结果，最后通过映射表获得待识别图片的商品类别名称；本发明能够自动提取强表征能力的特征，进一步突破语义鸿沟，并且在只利用少量图像基础库和低维特征的情况下，提高检索效率和识别精度。

Description

基于迁移学习的多视角商品图像检索与识别方法

技术领域：

本发明属于图像处理、检索与识别的应用领域，具体提出了基于迁移学习的多视角商品图像检索与识别方法。

背景技术：

在Web3.0时代，尤其是随着社交网站、购物网站等的流行，图像、视频、音频等异构数据与日俱增。例如，我国最大的电子商务系统淘宝网的后端系统上存储的图片数量已超过286亿张。因此，如何在包含丰富视觉信息的浩瀚的图像库中方便、快捷、精确地检索、识别用户感兴趣的图像，成为多媒体信息领域研究的热点。为此，基于内容的图像检索技术逐步建立起来，并在近些年来得到了迅速发展，现已广泛应用于智能家电、搜索引擎、电子商务、医学、纺织业、皮革业等生活的方方面面。

基于内容的图像检索技术是利用计算机对图像进行分析，自动实现了图像内容的表达和相似性度量，不仅充分利用了计算机长于计算的优势，而且克服通过文本进行图像检索所面临的缺陷，大大提高了检索效率。但是，现有的基于内容的图像检索也存在一些缺陷，主要表现为：(1)特征描述与高层语义之间存在难以填补的语义鸿沟，虽然以深度卷积神经网络(CNN,Convolutional Neural Network)为主导的特征表达方式也开始在相同物体图像检索上进行展开，但仍需引进能够提取更强表达能力的特征的网络，从而进一步突破语义鸿沟；(2) 海量图像库及其对应的高维特征库的存储，占用大量的存储空间；(3) 由于大规模的图像库、高维度的特征库，直接采用相似性度量和索引策略进行检索，难以满足系统实时性的要求；(4)现有的图像检索系统，比如，阿里巴巴的拍立淘，只具备检索功能，而不具有识别产品类别的功能。即只显示相似图片，并不会直接告诉用户查询商品图像的产品名称，须由用户根据检索到的图片自行判断。

发明内容：

本发明针对上述基于内容的图像检索技术所存在的缺陷，提出了一种基于迁移学习的多视角商品图像检索与识别方法，该方法能够自动提取强表征能力的特征，进一步突破语义鸿沟，并且在只利用少量图像库和低维特征的情况下，不仅提高了检索效率，而且提高了识别精度。

为了达到上述目的，本发明采用如下技术方案：

一种基于迁移学习的多视角商品图像检索与识别方法，包括如下步骤：

步骤A：在获取已有商品列表后，为了获得每一类产品包装的全方位外观信息，根据商品列表为每一类产品建立多视角图像基础库，产品的多视角图像是指不同角度下拍摄的产品图像；借助迁移学习技术，直接使用少量商品图像数据集对在行人再识别Market‐1501数据集上预训练过的深度残差网络模型进行微调，然后使用此网络对多视角图像基础库中的所有图片进行特征提取；为了加速之后的特征匹配过程，使用主成分分析法对特征降维，并构建低维特征库；根据特征库、图像基础库和产品类别名称的对应关系构建映射表；

步骤B：在获取到待识别的商品图像后，使用步骤A中已微调后的网络对该图像提取特征，接着对该特征进行降维处理；

步骤C：在产品基础库建立完成，并且获取待识别商品图片的低维特征之后，计算待识别商品图像特征与图像基础库中各图片特征的欧式距离，通过升序排序找到距离最近的图片即为最相似的图片；接着通过映射表的映射关系得到待识别图像所属商品类别名称。

所述步骤A的具体步骤如下：

步骤A01：在获取已有商品列表后，为了获得每一类产品包装的全方位外观信息，需要为商品列表中的每一类产品建立多视角图像基础库；产品的多视角图像是指不同角度下拍摄的产品图像；多视角图像基础库的建立流程为：首先在图像基础库下构建“品牌‐产品类别‐ 包装”形式的子库，然后在每一子库下存放该类别商品的多视角图像，其中，圆形包装(圆形包装是指瓶身没有棱角的包装，可以根据瓶底形状来判断，如果瓶底形状是圆形或者光滑的类圆形状，则该包装属于圆形包装)和多边形包装(多边形包装是指瓶身有明显棱角的包装，可以根据瓶底形状来判断，如果瓶底形状是多边形的形状，则该包装属于多边形包装)的多视角图像稍有差异；

步骤A02：对少量商品图片进行标注，制作训练集，接着借助迁移学习技术，将使用行人再识别Market‐1501数据集预训练过的深度残差网络模型再在这此训练集上进行微调，然后使用微调后的模型对多视角图像基础库下各个子库中的图片进行特征提取，每一张图片提取出一个2048维特征向量；

步骤A03：由于2048维向量维度过高，不仅不方便存储，而且影响之后的特征匹配过程的效率，因此，为了提高存储空间的利用率，减少特征匹配过程中的时间消耗，使用主成分分析法对特征进行降维处理，最后，原始的2048维特征向量被130维特征向量取代，并用低维特征构建商品的特征库，每当图像基础库更新后，需重新执行此步骤；

步骤A04：根据特征库、多视角图像基础库和产品类别名称的对应关系构建三张映射表，“标签‐商品类别名称”映射表(基础库中已有商品的形如“品牌‐产品类别‐包装”的类别名称以及各类别对应的标签，如1、2、3)、“标签‐图片”映射表(基础库中已有的图片名称以及该图片对应的产品类别标签)和“特征‐图片”映射表(基础库中已有的图片名称以及该图片对应的特征索引)；

步骤B的具体步骤如下：

步骤B01：建立多视角图像基础库、特征库和映射表后，对于获取到的每一张待识别商品图像，使用步骤A02中微调后的模型对其进行特征提取，每一张图片提取出一个用2048维向量描述的特征；

步骤B02：接着使用主成分分析方法进行特征降维，将每一张待识别图像的2048维特征向量变换为130维的特征向量。

步骤C的具体步骤如下：

步骤C01：在产品多视角图像基础库建立完成，并且获取待识别商品图片低维特征后，对待识别商品图像特征与基础库中各图片特征进行计算获得其欧氏距离，然后通过排序得到与待识别图片距离最近的图片，即最相似图片；

步骤C02：根据“标签‐商品类别名称”、“标签‐图片”、“特征‐图片”映射表表之间的一一对应关系，通过获取匹配到的最相似图片的索引，得到该相似图片所属商品名称，也即待识别商品图片的商品名称。

与现有技术相比，本发明具有以下特点：

第一，本发明借助迁移学习技术，直接在行人再识别数据集预训练过的深度残差网络模型基础上进行简单的微调，就可以完善模型的 “通用化”。

第二，本发明在建立图像基础库时，每一类别产品只需要12‐16 个视角的图片，并且使用主成分分析法进行降维，将每一张图片的 2048维向量映射到130维向量空间，在保证识别准确率的前提下，一方面减少了存储空间的占用，另一方面，减少了之后检索和识别步骤中的时间损耗，提高检索和识别的效率。

第三，本发明对用户输入的每一张商品查询图像，都会识别出该商品所属的品牌、产品名称、以及该产品的包装类型。

第四，本发明识别一张商品图像只需要26毫秒，并且本发明与阿里巴巴的拍立淘相比，如果对于查询图片，取拍立淘匹配第一的图像作为其识别结果，任意200张商品图片，本发明正确识别179张，识别准确率为89.5％，而拍立淘由于不能识别像素小于201x201的图像，因此200张商品图片中只有7张识别正确，即识别准确率为3.5％；挑选74张像素大于201x201的商品图像进行对比实验，最终，本发明识别准确率为91.3％，而拍立淘的识别准确率仅为58％。

附图说明：

图1.是本发明的整体流程。

图2.是“光明‐鲜牛奶‐盒装”产品的多视角图像基础库。

图3.展示的是圆形包装。

图4.展示的是圆形包装的多视角图片。

图5.展示的是多边形包装。

图6.展示的是四边形包装的多视角图片。

图7.是深度残差网络结构。

图8.是深度残差网络结构中的残差模块。

图9.映射表(a)、(b)、(c)分别表示“标签‐商品类别名称”、“标签 ‐图片”、“特征‐图片”映射表。

图10.展示冰箱内商品的识别结果。

图11.是本发明与阿里巴巴识别实验的对比结果。

具体实施方式：

下面结合附图详细介绍本发明各步骤中的具体细节。

本发明提出了一种基于迁移学习的多视角商品图像检索与识别方法，该方法整个流程如图1所示，主要包括离线流程和实时流程。

该方法主要包括以下步骤：

步骤A：在获取已有商品列表后，为了获得每一类产品包装的全方位外观信息，根据商品列表为每一类产品建立多视角图像基础库，产品的多视角图像是指不同角度下拍摄的产品图像；借助迁移学习技术，直接使用少量商品图像数据集对在行人再识别Market‐1501数据集上预训练过的深度残差网络模型进行微调，然后使用此网络对多视角图像基础库中的所有图片进行特征提取；为了加速之后的特征匹配过程，使用主成分分析法对特征降维，并构建低维特征库；根据特征库、多视角图像基础库和产品类别名称的对应关系构建映射表。即图 1中的离线流程。

所述步骤A的具体步骤如下：

步骤A01：在获取已有商品列表后，为了获得每一类产品包装的全方位外观信息，需要为商品列表中的每一类产品建立多视角图像基础库。产品的多视角图像是指不同角度下拍摄的产品图像。多视角图像基础库的建立流程为：首先在图像基础库下构建“品牌‐产品类别‐ 包装”(如“光明‐鲜牛奶‐盒装”)形式的子库，然后，如图2所示，在每一子库下存放该类别商品的多视角图片，其中，圆形包装和多边形包装的多视角图片稍有差异。

圆形包装的定义是：

如图3，瓶身没有棱角的包装，可以根据瓶底形状来判断。如果瓶底形状是圆形或者光滑的类圆形状，则该包装属于圆形包装。

圆形包装的多视角定义是：

产品竖直摆放，获取其0度(产品包装正面正对摄像头)、90度、 180度、270度四个视角下的图像，如图4(a)；产品横着摆放，并保持产品与摄像头垂直，获取0度(产品包装正面正对摄像头)、90度、180度、270度四个视角的下图像，如图4(b)；产品横着摆放，产品包装正面朝上，获取产品与摄像头分别成0度(包装头部正对摄像头)、90度、180度、270度情况下的四个视角图像，如图4(c)。

多边形包装的定义是：

如图5，瓶身有明显棱角的包装。同样可以根据瓶底形状来判断，如果瓶底形状是三边形、四边形或多边形的形状，则该包装属于多边形包装。

多边形包装的多视角定义是：

以四边形为例，产品竖直摆放，将其四个正面分别正对摄像头获取四个视角下的图像，如图6(a)；产品竖直摆放，将其四条棱分别正对摄像头获取四个视角下的图像，如图6(b)；产品横着摆放，并保持产品与摄像头垂直，将其四个正面分别正对摄像头获取四个视角下的图像，如图6(c)；产品横着摆放，产品包装正面朝上，获取产品与摄像头分别成0度(包装头部正对摄像头)、90度、180度、270度情况下的四个视角图像，如图6(d)。

Market‐1501数据集是：

此数据集是行人再识别研究中的公用数据集；采自6个摄像头，包括5个1280*1080高清摄像头与1个720*576标清摄像头，总共 1501个行人，32643个包围框。每个行人都拍进这6个摄像头，标准中，至少保证每个行人在两个摄像头中，由此交叉相机搜索是可行的。在同摄像头下，同一个行人可以有不同的外部特征。

深度残差网络模型：

如图7，显示了深度残差网络主体框架。深度残差网络训练时采用自下而上的监督学习方式，主要包括一个输入层、一个初始卷积层、多个残差模块、一个全连接层和一个输出层；初始卷积层主要作用是对输入的原始训练数据进行卷积；多个残差模块用于提取上述卷积后的数据的卷积特征，残差模块会在下面具体介绍；全连接层有多个节点，主要作用是对上述卷积特征进行分类。

残差模块的定义：

如图8，每个残差模块在一开始分为一条主径和一条捷径，并在结束时重新叠加整合，即一个残差模块，是由两层卷积再加一个恒等映射组成的。如图8所示，残差模块表示为y＝F(x，{W_i})+x，其中 x表示经由捷径的输出，W_i表示本层的权重，F(x，{W_t})为经由主径得到的输出，y即为主径和捷径得到的输出之和。

步骤A03：由于2048维向量不利于之后的特征匹配过程，因此，为了提高特征匹配过程的时间性能，使用主成分分析法对特征进行降维处理，将特征库中每一个2048维向量x_i，通过一个特殊的特征向量矩阵U，投影到一个130维的向量空间中，表征为一个130维的低维向量r_i。最后，每一张图片的特征由一个130维的向量表示，并以此构建了商品的特征库，每当图像基础库更新后，需重新执行此步骤更新特征库。

向量集的平均向量计算公式如下：

其中x_i属于向量集{x₁，x₂，…，x_N}，N表示向量集中向量的个数。

向量集的协方差矩阵计算公式如下：

其中，其中x_i属于向量集 {x₁，x₂，…，x_N}，N表示向量集中向量的个数，表示向量集X的平均向量。

特征向量矩阵U为：

通过求出协方差矩阵的特征向量u_i和对应的特征值λ_i，这些特征向量就组成了特征向量矩阵U，它就是商品图像空间的正交基底，其线性组合可以重构出任意的商品图像。

130维向量r_i的计算过程为：

由于图像信息集中在特征值大的特征向量中，因此，舍弃特征值小的向量不会影响图像质量。将协方差矩阵的特征值按大到小排序： λ₁≥λ₂≥…≥λ_d≥λ_d+1≥…，选择前130个特征值对应的特征向量构成主成分，其变换矩阵为：U＝(u₁，u₂，…，u₁₃₀)。则任何一张商品图像都可以向其做投影y＝U^Tx_i，于是得到一组坐标系数，即130 维向量r_i。

步骤A04：对于特征库、多视角图像基础库和商品类别名称三者之间，需要形成对应关系，构建“标签‐商品类别名称”、“标签‐图片”、 “特征‐图片”三种类型的映射表。

如图9(a)所示，“标签‐商品类别名称”映射表内容为：

基础库中已有商品的形如“品牌‐产品类别‐包装”的类别名称以及各类别对应的标签，如1、2、3。

如图9(b)所示，“标签‐图片”映射表的内容为：

基础库中已有的图片名称以及该图片对应的产品类别标签。

如图9(c)所示，“特征‐图片”映射表的内容为：

基础库中已有的图片名称以及该图片对应的特征索引。

步骤B：在获取到待识别的商品图像后，使用步骤A中已训练完成的网络对该图像提取特征，接着对该特征进行降维处理；

步骤B的具体步骤如下：

步骤B01：建立图像基础库、特征库和映射表后，对于获取到的每一张待识别商品图像，使用步骤A02中微调后的网络对其进行特征提取，每一张图片提取出一个用2048维向量描述的特征；

步骤B02：使用主成分分析降维方法，通过步骤A03计算得到的特征向量矩阵U，将每一张待识别图像的2048维特征向量zi，投影到一个130维的向量空间中，表征为一个130维的低维向量。

步骤C：在产品的多视角图像基础库建立完成，并且待识别商品图片特征提取并降维之后，计算待识别商品图像特征与基础库中各图片特征的欧式距离，通过排序得到距离最近的图片，即最相似的图片；接着通过映射表的映射关系得到待识别图像所属商品类别名称。

步骤C的具体步骤如下：

步骤C01：在产品多视角图像基础库建立完成，并且待识别商品图片特征提取之后，对待识别商品图像特征与基础库中各图片特征计算获得其欧氏距离，然后通过升序排序方法得到与待识别图片特征距离最近的图片特征，然后根据“特征‐图片”映射表即找到最相似图片；

欧式距离计算公式为：

其中x和y表示两个n维向量： x(x₁，x₂，…，x_n)，y(y₁，y₂，…，y_n)。

步骤C02：上一步找到最相似图片后，根据“标签‐图片”映射表找出该图片所属产品类别标签，最后根据“标签‐商品类别名称” 映射表得到该相似图片所属商品名称，也即待识别商品图片的商品名称，如图10所示，展示了冰箱摄像头拍摄的商品图片使用本发明方法各商品图像的识别结果。至此，流程结束。另外，本发明与阿里巴巴的拍立淘做了对比实验，对于查询图片，拍立淘取匹配第一的图像作为其识别结果(人工判断商品名称)，实验结果如图11所示，任意挑选200张商品图像进行识别，实验结果显示，200张商品图片，本发明正确识别179张，识别准确率为89.5％，而拍立淘由于不能识别像素小于201x201的图像，因此200张商品图片中仅23张可以进行识别，并且23张图片中只有7张识别正确，即识别准确率为 3.5％；另一组实验，挑选74张像素大于201x201的商品图像进行对比实验，最终，本发明识别准确率为91.3％，而拍立淘的识别准确率仅为58％。

Claims

1.一种基于迁移学习的多视角商品图像检索与识别方法，其特征在于：包括如下步骤：

步骤A：在获取已有商品列表后，为了获得每一类产品包装的全方位外观信息，根据商品列表为每一类产品建立多视角图像基础库，产品的多视角图像是指不同角度下拍摄的产品图像；借助迁移学习技术，直接使用少量商品图像数据集对在行人再识别Market-1501数据集上预训练过的深度残差网络模型进行微调，然后使用此网络对多视角图像基础库中的所有图片进行特征提取；为了加速之后的特征匹配过程，使用主成分分析法对特征降维，并构建低维特征库；根据特征库、多视角图像基础库和产品类别名称的对应关系构建映射表；

步骤C：在产品多视角基础库建立完成，并且获取待识别商品图片的低维特征之后，计算待识别商品图像特征与多视角图像基础库中各图片特征的欧式距离，通过排序找到距离最近的图片即为最相似的图片；接着通过映射表的映射关系得到待识别图像所属商品类别名称。

2.根据权利要求1所述的一种基于迁移学习的多视角商品图像检索与识别方法，所述步骤A的具体步骤如下：

步骤A01：在获取已有商品列表后，为了获得每一类产品包装的全方位外观信息，需要为商品列表中的每一类产品建立多视角图像基础库；产品的多视角图像是指不同角度下拍摄的产品图像；多视角图像基础库的建立流程为：首先在图像基础库下构建“品牌-产品类别-包装”形式的子库，然后在每一子库下存放该类别商品的多视角图像，其中，圆形包装和多边形包装的多视角商品图片稍有差异；其中：圆形包装是指瓶身没有棱角的包装，根据瓶底形状来判断，如果瓶底形状是圆形或者光滑的类圆形状，则该包装属于圆形包装；多边形包装是指瓶身有明显棱角的包装，根据瓶底形状来判断，如果瓶底形状是多边形的形状，则该包装属于多边形包装；

步骤A02：对少量商品图片进行标注，制作训练集，接着借助迁移学习技术，将使用行人再识别Market-1501数据集预训练过的深度残差网络模型再在这此训练集上进行微调，然后使用微调后的模型对多视角图像基础库下各个子库中的图片进行特征提取，每一张图片提取出一个2048维特征向量；

步骤A04：根据特征库、多视角图像基础库和产品类别名称的对应关系构建三张映射表，“标签-商品类别名称”映射表即基础库中已有商品的形如“品牌-产品类别-包装”的类别名称以及各类别对应的标签、“标签-图片”映射表即基础库中已有的图片名称以及该图片对应的产品类别标签和“特征-图片”映射表即基础库中已有的图片名称以及该图片对应的特征索引。

3.根据权利要求1所述的一种基于迁移学习的多视角商品图像检索与识别方法，步骤B的具体步骤如下：

步骤B02：接着使用主成分分析法，将每一张待识别图像的2048维特征向量变换为130维的特征向量。

4.根据权利要求1所述的一种基于迁移学习的多视角商品图像检索与识别方法，步骤C的具体步骤如下：

步骤C02：根据“标签-商品类别名称”、“标签-图片”、“特征-图片”映射表表之间的一一对应关系，通过获取匹配到的最相似图片的索引，得到该相似图片所属商品名称，也即待识别商品图片的商品名称。