CN107908685A - 基于迁移学习的多视角商品图像检索与识别方法 - Google Patents

基于迁移学习的多视角商品图像检索与识别方法 Download PDF

Info

Publication number
CN107908685A
CN107908685A CN201711047644.6A CN201711047644A CN107908685A CN 107908685 A CN107908685 A CN 107908685A CN 201711047644 A CN201711047644 A CN 201711047644A CN 107908685 A CN107908685 A CN 107908685A
Authority
CN
China
Prior art keywords
feature
picture
image
commodity
product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711047644.6A
Other languages
English (en)
Inventor
宋永红
李晓玉
张元林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201711047644.6A priority Critical patent/CN107908685A/zh
Publication of CN107908685A publication Critical patent/CN107908685A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Finance (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开一种基于迁移学习的多视角商品图像检索与识别方法,1、根据商品列表建立多视角图像基础库,接着借助迁移学习技术,使用少量商品图像对已预训练的深度残差网络进行微调,然后使用该网络对图像基础库提取特征,对特征降维后构建特征库,最后根据特征库、图像基础库和商品类别的对应关系建立映射表;2、在获得待识别的商品图像后,使用上述网络对该图像提取特征并降维;3、对待识别商品图片特征与基础库中各图片特征进行距离度量,距离最小的就是最相似的图片,将其作为匹配结果,最后通过映射表获得待识别图片的商品类别名称;本发明能够自动提取强表征能力的特征,进一步突破语义鸿沟,并且在只利用少量图像基础库和低维特征的情况下,提高检索效率和识别精度。

Description

基于迁移学习的多视角商品图像检索与识别方法
技术领域:
本发明属于图像处理、检索与识别的应用领域,具体提出了基于 迁移学习的多视角商品图像检索与识别方法。
背景技术:
在Web3.0时代,尤其是随着社交网站、购物网站等的流行,图 像、视频、音频等异构数据与日俱增。例如,我国最大的电子商务系 统淘宝网的后端系统上存储的图片数量已超过286亿张。因此,如何 在包含丰富视觉信息的浩瀚的图像库中方便、快捷、精确地检索、识 别用户感兴趣的图像,成为多媒体信息领域研究的热点。为此,基于 内容的图像检索技术逐步建立起来,并在近些年来得到了迅速发展, 现已广泛应用于智能家电、搜索引擎、电子商务、医学、纺织业、皮 革业等生活的方方面面。
基于内容的图像检索技术是利用计算机对图像进行分析,自动实 现了图像内容的表达和相似性度量,不仅充分利用了计算机长于计算 的优势,而且克服通过文本进行图像检索所面临的缺陷,大大提高了 检索效率。但是,现有的基于内容的图像检索也存在一些缺陷,主要 表现为:(1)特征描述与高层语义之间存在难以填补的语义鸿沟,虽 然以深度卷积神经网络(CNN,Convolutional Neural Network)为主导的 特征表达方式也开始在相同物体图像检索上进行展开,但仍需引进能 够提取更强表达能力的特征的网络,从而进一步突破语义鸿沟;(2) 海量图像库及其对应的高维特征库的存储,占用大量的存储空间;(3) 由于大规模的图像库、高维度的特征库,直接采用相似性度量和索引 策略进行检索,难以满足系统实时性的要求;(4)现有的图像检索系 统,比如,阿里巴巴的拍立淘,只具备检索功能,而不具有识别产品 类别的功能。即只显示相似图片,并不会直接告诉用户查询商品图像 的产品名称,须由用户根据检索到的图片自行判断。
发明内容:
本发明针对上述基于内容的图像检索技术所存在的缺陷,提出了 一种基于迁移学习的多视角商品图像检索与识别方法,该方法能够自 动提取强表征能力的特征,进一步突破语义鸿沟,并且在只利用少量 图像库和低维特征的情况下,不仅提高了检索效率,而且提高了识别 精度。
为了达到上述目的,本发明采用如下技术方案:
一种基于迁移学习的多视角商品图像检索与识别方法,包括如下 步骤:
步骤A:在获取已有商品列表后,为了获得每一类产品包装的全 方位外观信息,根据商品列表为每一类产品建立多视角图像基础库, 产品的多视角图像是指不同角度下拍摄的产品图像;借助迁移学习技 术,直接使用少量商品图像数据集对在行人再识别Market‐1501数据 集上预训练过的深度残差网络模型进行微调,然后使用此网络对多视角图像基础库中的所有图片进行特征提取;为了加速之后的特征匹配 过程,使用主成分分析法对特征降维,并构建低维特征库;根据特征 库、图像基础库和产品类别名称的对应关系构建映射表;
步骤B:在获取到待识别的商品图像后,使用步骤A中已微调后 的网络对该图像提取特征,接着对该特征进行降维处理;
步骤C:在产品基础库建立完成,并且获取待识别商品图片的低 维特征之后,计算待识别商品图像特征与图像基础库中各图片特征的 欧式距离,通过升序排序找到距离最近的图片即为最相似的图片;接 着通过映射表的映射关系得到待识别图像所属商品类别名称。
所述步骤A的具体步骤如下:
步骤A01:在获取已有商品列表后,为了获得每一类产品包装的 全方位外观信息,需要为商品列表中的每一类产品建立多视角图像基 础库;产品的多视角图像是指不同角度下拍摄的产品图像;多视角图 像基础库的建立流程为:首先在图像基础库下构建“品牌‐产品类别‐ 包装”形式的子库,然后在每一子库下存放该类别商品的多视角图像, 其中,圆形包装(圆形包装是指瓶身没有棱角的包装,可以根据瓶底 形状来判断,如果瓶底形状是圆形或者光滑的类圆形状,则该包装属 于圆形包装)和多边形包装(多边形包装是指瓶身有明显棱角的包装, 可以根据瓶底形状来判断,如果瓶底形状是多边形的形状,则该包装属于多边形包装)的多视角图像稍有差异;
步骤A02:对少量商品图片进行标注,制作训练集,接着借助迁 移学习技术,将使用行人再识别Market‐1501数据集预训练过的深度 残差网络模型再在这此训练集上进行微调,然后使用微调后的模型对 多视角图像基础库下各个子库中的图片进行特征提取,每一张图片提 取出一个2048维特征向量;
步骤A03:由于2048维向量维度过高,不仅不方便存储,而且 影响之后的特征匹配过程的效率,因此,为了提高存储空间的利用率, 减少特征匹配过程中的时间消耗,使用主成分分析法对特征进行降维 处理,最后,原始的2048维特征向量被130维特征向量取代,并用 低维特征构建商品的特征库,每当图像基础库更新后,需重新执行此 步骤;
步骤A04:根据特征库、多视角图像基础库和产品类别名称的对 应关系构建三张映射表,“标签‐商品类别名称”映射表(基础库中已 有商品的形如“品牌‐产品类别‐包装”的类别名称以及各类别对应的标 签,如1、2、3)、“标签‐图片”映射表(基础库中已有的图片名称以 及该图片对应的产品类别标签)和“特征‐图片”映射表(基础库中 已有的图片名称以及该图片对应的特征索引);
步骤B的具体步骤如下:
步骤B01:建立多视角图像基础库、特征库和映射表后,对于获 取到的每一张待识别商品图像,使用步骤A02中微调后的模型对其进 行特征提取,每一张图片提取出一个用2048维向量描述的特征;
步骤B02:接着使用主成分分析方法进行特征降维,将每一张待 识别图像的2048维特征向量变换为130维的特征向量。
步骤C的具体步骤如下:
步骤C01:在产品多视角图像基础库建立完成,并且获取待识别 商品图片低维特征后,对待识别商品图像特征与基础库中各图片特征 进行计算获得其欧氏距离,然后通过排序得到与待识别图片距离最近 的图片,即最相似图片;
步骤C02:根据“标签‐商品类别名称”、“标签‐图片”、“特征‐图 片”映射表表之间的一一对应关系,通过获取匹配到的最相似图片的 索引,得到该相似图片所属商品名称,也即待识别商品图片的商品名 称。
与现有技术相比,本发明具有以下特点:
第一,本发明借助迁移学习技术,直接在行人再识别数据集预训 练过的深度残差网络模型基础上进行简单的微调,就可以完善模型的 “通用化”。
第二,本发明在建立图像基础库时,每一类别产品只需要12‐16 个视角的图片,并且使用主成分分析法进行降维,将每一张图片的 2048维向量映射到130维向量空间,在保证识别准确率的前提下, 一方面减少了存储空间的占用,另一方面,减少了之后检索和识别步 骤中的时间损耗,提高检索和识别的效率。
第三,本发明对用户输入的每一张商品查询图像,都会识别出该 商品所属的品牌、产品名称、以及该产品的包装类型。
第四,本发明识别一张商品图像只需要26毫秒,并且本发明与 阿里巴巴的拍立淘相比,如果对于查询图片,取拍立淘匹配第一的图 像作为其识别结果,任意200张商品图片,本发明正确识别179张, 识别准确率为89.5%,而拍立淘由于不能识别像素小于201x201的图 像,因此200张商品图片中只有7张识别正确,即识别准确率为3.5%; 挑选74张像素大于201x201的商品图像进行对比实验,最终,本发 明识别准确率为91.3%,而拍立淘的识别准确率仅为58%。
附图说明:
图1.是本发明的整体流程。
图2.是“光明‐鲜牛奶‐盒装”产品的多视角图像基础库。
图3.展示的是圆形包装。
图4.展示的是圆形包装的多视角图片。
图5.展示的是多边形包装。
图6.展示的是四边形包装的多视角图片。
图7.是深度残差网络结构。
图8.是深度残差网络结构中的残差模块。
图9.映射表(a)、(b)、(c)分别表示“标签‐商品类别名称”、“标签 ‐图片”、“特征‐图片”映射表。
图10.展示冰箱内商品的识别结果。
图11.是本发明与阿里巴巴识别实验的对比结果。
具体实施方式:
下面结合附图详细介绍本发明各步骤中的具体细节。
本发明提出了一种基于迁移学习的多视角商品图像检索与识别 方法,该方法整个流程如图1所示,主要包括离线流程和实时流程。
该方法主要包括以下步骤:
步骤A:在获取已有商品列表后,为了获得每一类产品包装的全 方位外观信息,根据商品列表为每一类产品建立多视角图像基础库, 产品的多视角图像是指不同角度下拍摄的产品图像;借助迁移学习技 术,直接使用少量商品图像数据集对在行人再识别Market‐1501数据 集上预训练过的深度残差网络模型进行微调,然后使用此网络对多视角图像基础库中的所有图片进行特征提取;为了加速之后的特征匹配 过程,使用主成分分析法对特征降维,并构建低维特征库;根据特征 库、多视角图像基础库和产品类别名称的对应关系构建映射表。即图 1中的离线流程。
所述步骤A的具体步骤如下:
步骤A01:在获取已有商品列表后,为了获得每一类产品包装的 全方位外观信息,需要为商品列表中的每一类产品建立多视角图像基 础库。产品的多视角图像是指不同角度下拍摄的产品图像。多视角图 像基础库的建立流程为:首先在图像基础库下构建“品牌‐产品类别‐ 包装”(如“光明‐鲜牛奶‐盒装”)形式的子库,然后,如图2所示, 在每一子库下存放该类别商品的多视角图片,其中,圆形包装和多边 形包装的多视角图片稍有差异。
圆形包装的定义是:
如图3,瓶身没有棱角的包装,可以根据瓶底形状来判断。如果 瓶底形状是圆形或者光滑的类圆形状,则该包装属于圆形包装。
圆形包装的多视角定义是:
产品竖直摆放,获取其0度(产品包装正面正对摄像头)、90度、 180度、270度四个视角下的图像,如图4(a);产品横着摆放,并保 持产品与摄像头垂直,获取0度(产品包装正面正对摄像头)、90度、180度、270度四个视角的下图像,如图4(b);产品横着摆放,产品 包装正面朝上,获取产品与摄像头分别成0度(包装头部正对摄像 头)、90度、180度、270度情况下的四个视角图像,如图4(c)。
多边形包装的定义是:
如图5,瓶身有明显棱角的包装。同样可以根据瓶底形状来判断, 如果瓶底形状是三边形、四边形或多边形的形状,则该包装属于多边 形包装。
多边形包装的多视角定义是:
以四边形为例,产品竖直摆放,将其四个正面分别正对摄像头获 取四个视角下的图像,如图6(a);产品竖直摆放,将其四条棱分别正 对摄像头获取四个视角下的图像,如图6(b);产品横着摆放,并保持 产品与摄像头垂直,将其四个正面分别正对摄像头获取四个视角下的 图像,如图6(c);产品横着摆放,产品包装正面朝上,获取产品与摄 像头分别成0度(包装头部正对摄像头)、90度、180度、270度情 况下的四个视角图像,如图6(d)。
步骤A02:对少量商品图片进行标注,制作训练集,接着借助迁 移学习技术,将使用行人再识别Market‐1501数据集预训练过的深度 残差网络模型再在这此训练集上进行微调,然后使用微调后的模型对 多视角图像基础库下各个子库中的图片进行特征提取,每一张图片提 取出一个2048维特征向量;
Market‐1501数据集是:
此数据集是行人再识别研究中的公用数据集;采自6个摄像头, 包括5个1280*1080高清摄像头与1个720*576标清摄像头,总共 1501个行人,32643个包围框。每个行人都拍进这6个摄像头,标准 中,至少保证每个行人在两个摄像头中,由此交叉相机搜索是可行的。 在同摄像头下,同一个行人可以有不同的外部特征。
深度残差网络模型:
如图7,显示了深度残差网络主体框架。深度残差网络训练时采 用自下而上的监督学习方式,主要包括一个输入层、一个初始卷积层、 多个残差模块、一个全连接层和一个输出层;初始卷积层主要作用是 对输入的原始训练数据进行卷积;多个残差模块用于提取上述卷积后 的数据的卷积特征,残差模块会在下面具体介绍;全连接层有多个节 点,主要作用是对上述卷积特征进行分类。
残差模块的定义:
如图8,每个残差模块在一开始分为一条主径和一条捷径,并在 结束时重新叠加整合,即一个残差模块,是由两层卷积再加一个恒等 映射组成的。如图8所示,残差模块表示为y=F(x,{Wi})+x,其中 x表示经由捷径的输出,Wi表示本层的权重,F(x,{Wt})为经由主径 得到的输出,y即为主径和捷径得到的输出之和。
步骤A03:由于2048维向量不利于之后的特征匹配过程,因此, 为了提高特征匹配过程的时间性能,使用主成分分析法对特征进行降 维处理,将特征库中每一个2048维向量xi,通过一个特殊的特征向 量矩阵U,投影到一个130维的向量空间中,表征为一个130维的低 维向量ri。最后,每一张图片的特征由一个130维的向量表示,并以 此构建了商品的特征库,每当图像基础库更新后,需重新执行此步骤 更新特征库。
向量集的平均向量计算公式如下:
其中xi属于向量集{x1,x2,…,xN},N表示向量 集中向量的个数。
向量集的协方差矩阵计算公式如下:
其中,其中xi属于向量集 {x1,x2,…,xN},N表示向量集中向量的个数,表示向量集X的平均 向量。
特征向量矩阵U为:
通过求出协方差矩阵的特征向量ui和对应的特征值λi,这些特征 向量就组成了特征向量矩阵U,它就是商品图像空间的正交基底,其 线性组合可以重构出任意的商品图像。
130维向量ri的计算过程为:
由于图像信息集中在特征值大的特征向量中,因此,舍弃特征值 小的向量不会影响图像质量。将协方差矩阵的特征值按大到小排序: λ1≥λ2≥…≥λd≥λd+1≥…,选择前130个特征值对应的特征向 量构成主成分,其变换矩阵为:U=(u1,u2,…,u130)。则任何一张商品图像都可以向其做投影y=UTxi,于是得到一组坐标系数,即130 维向量ri
步骤A04:对于特征库、多视角图像基础库和商品类别名称三者 之间,需要形成对应关系,构建“标签‐商品类别名称”、“标签‐图片”、 “特征‐图片”三种类型的映射表。
如图9(a)所示,“标签‐商品类别名称”映射表内容为:
基础库中已有商品的形如“品牌‐产品类别‐包装”的类别名称以及 各类别对应的标签,如1、2、3。
如图9(b)所示,“标签‐图片”映射表的内容为:
基础库中已有的图片名称以及该图片对应的产品类别标签。
如图9(c)所示,“特征‐图片”映射表的内容为:
基础库中已有的图片名称以及该图片对应的特征索引。
步骤B:在获取到待识别的商品图像后,使用步骤A中已训练完 成的网络对该图像提取特征,接着对该特征进行降维处理;
步骤B的具体步骤如下:
步骤B01:建立图像基础库、特征库和映射表后,对于获取到的 每一张待识别商品图像,使用步骤A02中微调后的网络对其进行特征 提取,每一张图片提取出一个用2048维向量描述的特征;
步骤B02:使用主成分分析降维方法,通过步骤A03计算得到的 特征向量矩阵U,将每一张待识别图像的2048维特征向量zi,投影 到一个130维的向量空间中,表征为一个130维的低维向量。
步骤C:在产品的多视角图像基础库建立完成,并且待识别商品 图片特征提取并降维之后,计算待识别商品图像特征与基础库中各图 片特征的欧式距离,通过排序得到距离最近的图片,即最相似的图片; 接着通过映射表的映射关系得到待识别图像所属商品类别名称。
步骤C的具体步骤如下:
步骤C01:在产品多视角图像基础库建立完成,并且待识别商品 图片特征提取之后,对待识别商品图像特征与基础库中各图片特征计 算获得其欧氏距离,然后通过升序排序方法得到与待识别图片特征距 离最近的图片特征,然后根据“特征‐图片”映射表即找到最相似图 片;
欧式距离计算公式为:
其中x和y表示两个n维向量: x(x1,x2,…,xn),y(y1,y2,…,yn)。
步骤C02:上一步找到最相似图片后,根据“标签‐图片”映射 表找出该图片所属产品类别标签,最后根据“标签‐商品类别名称” 映射表得到该相似图片所属商品名称,也即待识别商品图片的商品名 称,如图10所示,展示了冰箱摄像头拍摄的商品图片使用本发明方 法各商品图像的识别结果。至此,流程结束。另外,本发明与阿里巴 巴的拍立淘做了对比实验,对于查询图片,拍立淘取匹配第一的图像 作为其识别结果(人工判断商品名称),实验结果如图11所示,任 意挑选200张商品图像进行识别,实验结果显示,200张商品图片,本发明正确识别179张,识别准确率为89.5%,而拍立淘由于不能 识别像素小于201x201的图像,因此200张商品图片中仅23张可以 进行识别,并且23张图片中只有7张识别正确,即识别准确率为 3.5%;另一组实验,挑选74张像素大于201x201的商品图像进行对 比实验,最终,本发明识别准确率为91.3%,而拍立淘的识别准确率 仅为58%。

Claims (4)

1.一种基于迁移学习的多视角商品图像检索与识别方法,其特征在于:包括如下步骤:
步骤A:在获取已有商品列表后,为了获得每一类产品包装的全方位外观信息,根据商品列表为每一类产品建立多视角图像基础库,产品的多视角图像是指不同角度下拍摄的产品图像;借助迁移学习技术,直接使用少量商品图像数据集对在行人再识别Market-1501数据集上预训练过的深度残差网络模型进行微调,然后使用此网络对多视角图像基础库中的所有图片进行特征提取;为了加速之后的特征匹配过程,使用主成分分析法对特征降维,并构建低维特征库;根据特征库、多视角图像基础库和产品类别名称的对应关系构建映射表;
步骤B:在获取到待识别的商品图像后,使用步骤A中已微调后的网络对该图像提取特征,接着对该特征进行降维处理;
步骤C:在产品多视角基础库建立完成,并且获取待识别商品图片的低维特征之后,计算待识别商品图像特征与多视角图像基础库中各图片特征的欧式距离,通过排序找到距离最近的图片即为最相似的图片;接着通过映射表的映射关系得到待识别图像所属商品类别名称。
2.根据权利要求1所述的一种基于迁移学习的多视角商品图像检索与识别方法,所述步骤A的具体步骤如下:
步骤A01:在获取已有商品列表后,为了获得每一类产品包装的全方位外观信息,需要为商品列表中的每一类产品建立多视角图像基础库;产品的多视角图像是指不同角度下拍摄的产品图像;多视角图像基础库的建立流程为:首先在图像基础库下构建“品牌-产品类别-包装”形式的子库,然后在每一子库下存放该类别商品的多视角图像,其中,圆形包装和多边形包装的多视角商品图片稍有差异;其中:圆形包装是指瓶身没有棱角的包装,根据瓶底形状来判断,如果瓶底形状是圆形或者光滑的类圆形状,则该包装属于圆形包装;多边形包装是指瓶身有明显棱角的包装,根据瓶底形状来判断,如果瓶底形状是多边形的形状,则该包装属于多边形包装;
步骤A02:对少量商品图片进行标注,制作训练集,接着借助迁移学习技术,将使用行人再识别Market-1501数据集预训练过的深度残差网络模型再在这此训练集上进行微调,然后使用微调后的模型对多视角图像基础库下各个子库中的图片进行特征提取,每一张图片提取出一个2048维特征向量;
步骤A03:由于2048维向量维度过高,不仅不方便存储,而且影响之后的特征匹配过程的效率,因此,为了提高存储空间的利用率,减少特征匹配过程中的时间消耗,使用主成分分析法对特征进行降维处理,最后,原始的2048维特征向量被130维特征向量取代,并用低维特征构建商品的特征库,每当图像基础库更新后,需重新执行此步骤;
步骤A04:根据特征库、多视角图像基础库和产品类别名称的对应关系构建三张映射表,“标签-商品类别名称”映射表即基础库中已有商品的形如“品牌-产品类别-包装”的类别名称以及各类别对应的标签、“标签-图片”映射表即基础库中已有的图片名称以及该图片对应的产品类别标签和“特征-图片”映射表即基础库中已有的图片名称以及该图片对应的特征索引。
3.根据权利要求1所述的一种基于迁移学习的多视角商品图像检索与识别方法,步骤B的具体步骤如下:
步骤B01:建立多视角图像基础库、特征库和映射表后,对于获取到的每一张待识别商品图像,使用步骤A02中微调后的模型对其进行特征提取,每一张图片提取出一个用2048维向量描述的特征;
步骤B02:接着使用主成分分析法,将每一张待识别图像的2048维特征向量变换为130维的特征向量。
4.根据权利要求1所述的一种基于迁移学习的多视角商品图像检索与识别方法,步骤C的具体步骤如下:
步骤C01:在产品多视角图像基础库建立完成,并且获取待识别商品图片低维特征后,对待识别商品图像特征与基础库中各图片特征进行计算获得其欧氏距离,然后通过排序得到与待识别图片距离最近的图片,即最相似图片;
步骤C02:根据“标签-商品类别名称”、“标签-图片”、“特征-图片”映射表表之间的一一对应关系,通过获取匹配到的最相似图片的索引,得到该相似图片所属商品名称,也即待识别商品图片的商品名称。
CN201711047644.6A 2017-10-31 2017-10-31 基于迁移学习的多视角商品图像检索与识别方法 Pending CN107908685A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711047644.6A CN107908685A (zh) 2017-10-31 2017-10-31 基于迁移学习的多视角商品图像检索与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711047644.6A CN107908685A (zh) 2017-10-31 2017-10-31 基于迁移学习的多视角商品图像检索与识别方法

Publications (1)

Publication Number Publication Date
CN107908685A true CN107908685A (zh) 2018-04-13

Family

ID=61842943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711047644.6A Pending CN107908685A (zh) 2017-10-31 2017-10-31 基于迁移学习的多视角商品图像检索与识别方法

Country Status (1)

Country Link
CN (1) CN107908685A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108645495A (zh) * 2018-05-03 2018-10-12 温州三特食品科技有限公司 一种智能可追溯电子秤
CN108921029A (zh) * 2018-06-04 2018-11-30 浙江大学 一种融合残差卷积神经网络和pca降维的sar自动目标识别方法
CN109033971A (zh) * 2018-06-27 2018-12-18 中国石油大学(华东) 一种基于残差网络思想的高效行人重识别方法
CN109165563A (zh) * 2018-07-27 2019-01-08 北京市商汤科技开发有限公司 行人再识别方法和装置、电子设备、存储介质、程序产品
CN109214453A (zh) * 2018-08-30 2019-01-15 上海扩博智能技术有限公司 模型训练用图像的自动标注方法、系统、设备及存储介质
CN109214383A (zh) * 2018-07-17 2019-01-15 北京陌上花科技有限公司 一种图像识别方法及装置
CN109508727A (zh) * 2018-04-23 2019-03-22 北京航空航天大学 一种基于加权欧氏距离的度量功能间相似性的方法
CN109559191A (zh) * 2018-10-25 2019-04-02 平安科技(深圳)有限公司 网购类商品的销售控制方法、装置、电子设备及存储介质
CN109684950A (zh) * 2018-12-12 2019-04-26 联想(北京)有限公司 一种处理方法及电子设备
CN109711475A (zh) * 2018-12-29 2019-05-03 北京沃东天骏信息技术有限公司 识别物品的方法、装置、售货设备及计算机可读存储介质
CN110119749A (zh) * 2019-05-16 2019-08-13 北京小米智能科技有限公司 识别产品图像的方法和装置、存储介质
CN110489457A (zh) * 2019-07-19 2019-11-22 宜通世纪物联网研究院(广州)有限公司 基于图像识别的商品信息分析方法、系统及存储介质
CN110675546A (zh) * 2019-09-06 2020-01-10 深圳壹账通智能科技有限公司 发票图片识别及验真方法、系统、设备及可读存储介质
CN110750673A (zh) * 2019-10-16 2020-02-04 腾讯医疗健康(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN110909776A (zh) * 2019-11-11 2020-03-24 维沃移动通信有限公司 一种图像识别方法及电子设备
CN111382635A (zh) * 2018-12-29 2020-07-07 杭州海康威视数字技术股份有限公司 一种商品类别识别方法、装置及电子设备
CN111754478A (zh) * 2020-06-22 2020-10-09 怀光智能科技(武汉)有限公司 一种基于生成对抗网络的无监督域适应系统及方法
CN111753877A (zh) * 2020-05-19 2020-10-09 海克斯康制造智能技术(青岛)有限公司 一种基于深度神经网络迁移学习的产品质量检测方法
CN111881906A (zh) * 2020-06-18 2020-11-03 广州万维创新科技有限公司 一种基于注意力机制图像检索的logo识别方法
CN112116398A (zh) * 2020-09-27 2020-12-22 广州华多网络科技有限公司 一种宝石估价方法及相关设备
CN112163600A (zh) * 2020-09-09 2021-01-01 成都理工大学 一种基于机器视觉的商品识别方法
CN112241755A (zh) * 2019-07-17 2021-01-19 东芝泰格有限公司 物品指定装置及存储介质
CN112861747A (zh) * 2021-02-22 2021-05-28 深圳大学 跨视角图像优化方法、装置、计算机设备及可读存储介质
CN113065447A (zh) * 2021-03-29 2021-07-02 南京掌控网络科技有限公司 一种图像集中自动识别商品的方法和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034442A (zh) * 2006-03-08 2007-09-12 刘欣融 基于图像识别技术的商品的外观设计相同和相近似判断系统
CN101576378A (zh) * 2009-06-16 2009-11-11 华南理工大学 基于活动轮廓的物品自动检查系统和方法
CN106204124A (zh) * 2016-07-02 2016-12-07 向莉妮 个性化商品匹配推荐系统及方法
CN106847294A (zh) * 2017-01-17 2017-06-13 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
CN107045641A (zh) * 2017-04-26 2017-08-15 广州图匠数据科技有限公司 一种基于图像识别技术的货架识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034442A (zh) * 2006-03-08 2007-09-12 刘欣融 基于图像识别技术的商品的外观设计相同和相近似判断系统
CN101576378A (zh) * 2009-06-16 2009-11-11 华南理工大学 基于活动轮廓的物品自动检查系统和方法
CN106204124A (zh) * 2016-07-02 2016-12-07 向莉妮 个性化商品匹配推荐系统及方法
CN106847294A (zh) * 2017-01-17 2017-06-13 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
CN107045641A (zh) * 2017-04-26 2017-08-15 广州图匠数据科技有限公司 一种基于图像识别技术的货架识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨宇: "《基于深度学习特征的图像推荐系统》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
白昊洋 等: "《基于残差网络人脸年龄估计》", 《电脑知识与技术》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508727A (zh) * 2018-04-23 2019-03-22 北京航空航天大学 一种基于加权欧氏距离的度量功能间相似性的方法
CN109508727B (zh) * 2018-04-23 2021-07-16 北京航空航天大学 一种基于加权欧氏距离的度量功能间相似性的方法
CN108645495A (zh) * 2018-05-03 2018-10-12 温州三特食品科技有限公司 一种智能可追溯电子秤
CN108921029A (zh) * 2018-06-04 2018-11-30 浙江大学 一种融合残差卷积神经网络和pca降维的sar自动目标识别方法
CN109033971A (zh) * 2018-06-27 2018-12-18 中国石油大学(华东) 一种基于残差网络思想的高效行人重识别方法
CN109214383A (zh) * 2018-07-17 2019-01-15 北京陌上花科技有限公司 一种图像识别方法及装置
CN109165563B (zh) * 2018-07-27 2021-03-23 北京市商汤科技开发有限公司 行人再识别方法和装置、电子设备、存储介质、程序产品
CN109165563A (zh) * 2018-07-27 2019-01-08 北京市商汤科技开发有限公司 行人再识别方法和装置、电子设备、存储介质、程序产品
CN109214453A (zh) * 2018-08-30 2019-01-15 上海扩博智能技术有限公司 模型训练用图像的自动标注方法、系统、设备及存储介质
CN109559191A (zh) * 2018-10-25 2019-04-02 平安科技(深圳)有限公司 网购类商品的销售控制方法、装置、电子设备及存储介质
CN109684950A (zh) * 2018-12-12 2019-04-26 联想(北京)有限公司 一种处理方法及电子设备
CN109711475A (zh) * 2018-12-29 2019-05-03 北京沃东天骏信息技术有限公司 识别物品的方法、装置、售货设备及计算机可读存储介质
CN111382635A (zh) * 2018-12-29 2020-07-07 杭州海康威视数字技术股份有限公司 一种商品类别识别方法、装置及电子设备
CN109711475B (zh) * 2018-12-29 2021-11-30 北京沃东天骏信息技术有限公司 识别物品的方法、装置、售货设备及计算机可读存储介质
CN111382635B (zh) * 2018-12-29 2023-10-13 杭州海康威视数字技术股份有限公司 一种商品类别识别方法、装置及电子设备
CN110119749A (zh) * 2019-05-16 2019-08-13 北京小米智能科技有限公司 识别产品图像的方法和装置、存储介质
JP2021018470A (ja) * 2019-07-17 2021-02-15 東芝テック株式会社 物品特定装置及びプログラム
CN112241755A (zh) * 2019-07-17 2021-01-19 东芝泰格有限公司 物品指定装置及存储介质
CN110489457A (zh) * 2019-07-19 2019-11-22 宜通世纪物联网研究院(广州)有限公司 基于图像识别的商品信息分析方法、系统及存储介质
CN110675546A (zh) * 2019-09-06 2020-01-10 深圳壹账通智能科技有限公司 发票图片识别及验真方法、系统、设备及可读存储介质
WO2021042747A1 (zh) * 2019-09-06 2021-03-11 深圳壹账通智能科技有限公司 发票图片识别及验真方法、系统、设备及可读存储介质
CN110750673A (zh) * 2019-10-16 2020-02-04 腾讯医疗健康(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN110909776A (zh) * 2019-11-11 2020-03-24 维沃移动通信有限公司 一种图像识别方法及电子设备
CN111753877B (zh) * 2020-05-19 2024-03-05 海克斯康制造智能技术(青岛)有限公司 一种基于深度神经网络迁移学习的产品质量检测方法
CN111753877A (zh) * 2020-05-19 2020-10-09 海克斯康制造智能技术(青岛)有限公司 一种基于深度神经网络迁移学习的产品质量检测方法
CN111881906A (zh) * 2020-06-18 2020-11-03 广州万维创新科技有限公司 一种基于注意力机制图像检索的logo识别方法
CN111754478A (zh) * 2020-06-22 2020-10-09 怀光智能科技(武汉)有限公司 一种基于生成对抗网络的无监督域适应系统及方法
CN112163600B (zh) * 2020-09-09 2021-06-08 成都理工大学 一种基于机器视觉的商品识别方法
CN112163600A (zh) * 2020-09-09 2021-01-01 成都理工大学 一种基于机器视觉的商品识别方法
CN112116398A (zh) * 2020-09-27 2020-12-22 广州华多网络科技有限公司 一种宝石估价方法及相关设备
CN112861747A (zh) * 2021-02-22 2021-05-28 深圳大学 跨视角图像优化方法、装置、计算机设备及可读存储介质
CN112861747B (zh) * 2021-02-22 2022-06-07 深圳大学 跨视角图像优化方法、装置、计算机设备及可读存储介质
CN113065447A (zh) * 2021-03-29 2021-07-02 南京掌控网络科技有限公司 一种图像集中自动识别商品的方法和设备

Similar Documents

Publication Publication Date Title
CN107908685A (zh) 基于迁移学习的多视角商品图像检索与识别方法
US10755128B2 (en) Scene and user-input context aided visual search
WO2021238631A1 (zh) 物品信息的显示方法、装置、设备及可读存储介质
CN101937549B (zh) 网络购物导航领域的图片导航系统
CN101950400B (zh) 网络购物导航方法领域的图片检索方法
CN104281572B (zh) 一种基于互信息的目标匹配方法及其系统
CN106127748B (zh) 一种图像特征样本数据库及其建立方法
Shao et al. Crowded scene understanding by deeply learned volumetric slices
Huang et al. Sketch-based image retrieval with deep visual semantic descriptor
Wang et al. A comprehensive overview of person re-identification approaches
Chen et al. TriViews: A general framework to use 3D depth data effectively for action recognition
CN105718555A (zh) 一种基于层次化语义描述的图像检索方法
Zhao et al. Character‐object interaction retrieval using the interaction bisector surface
CN103049513A (zh) 一种服饰鞋包类商品图像多视觉特征融合方法
Bhattacharjee et al. Query adaptive multiview object instance search and localization using sketches
CN108875828A (zh) 一种相似图像的快速匹配方法和系统
Tseng et al. Person retrieval in video surveillance using deep learning–based instance segmentation
CN106886783B (zh) 一种基于区域特征的图像检索方法及系统
Yuan et al. Learning part-based mid-level representation for visual recognition
Kise et al. 1.5 million subspaces of a local feature space for 3d object recognition
CN111506754A (zh) 图片检索方法、装置、存储介质及处理器
Jiang et al. Sketch-based 3D shape retrieval via attention
Hiriyannaiah et al. Deep learning and its applications for content-based video retrieval
Sasireka Comparative analysis on video retrieval technique using machine learning
Lan et al. Multi-channel feature dictionaries for RGB-D object recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180413

WD01 Invention patent application deemed withdrawn after publication