CN110019917A - 商品检索方法、装置及电子设备 - Google Patents

商品检索方法、装置及电子设备 Download PDF

Info

Publication number
CN110019917A
CN110019917A CN201810999636.XA CN201810999636A CN110019917A CN 110019917 A CN110019917 A CN 110019917A CN 201810999636 A CN201810999636 A CN 201810999636A CN 110019917 A CN110019917 A CN 110019917A
Authority
CN
China
Prior art keywords
image
retrieved
feature
commodity
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810999636.XA
Other languages
English (en)
Inventor
崔权
谢烟平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201810999636.XA priority Critical patent/CN110019917A/zh
Publication of CN110019917A publication Critical patent/CN110019917A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0281Customer communication at a business location, e.g. providing product or service information, consulting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Library & Information Science (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种商品检索方法、装置及电子设备,涉及图像处理技术领域,该方法首先基于预训练的神经网络模型,提取该待检索图像的待检索特征;根据该待检索图像的待检索特征,基于预先建立的商品特征库,进行商品检索;其中上述商品特征库是基于上述预训练的神经网络模型,对旋转变换后的待提取图像进行特征提取而建立的。在两个方面克服目前新零售场景下的商品检索难度大的问题,能够更加有力的区分不同图像之间的不同,降低模型训练时对海量数据的依赖性,在提高图像检索精度的基础上,促进新零售行业的智能化发展。

Description

商品检索方法、装置及电子设备
技术领域
本发明涉及图像处理技术领域,尤其是涉及一种商品检索方法、装置及电子设备。
背景技术
商品检索的本质问题是图像检索(image retrieval)问题,图像检索是计算机视觉领域中一项重要的研究课题,在新零售场景中,商品检索是非常关键的一步,商品检索的精度直接决定了零售模型的表现。
目前在研究中,进行检索的图片大多具有相差较大的外观,充足的光线,并且无遮挡,检索难度不大。但是在零售场景下的商品检索问题中,我们面对的主要困难有:商品的细粒度(fine-grained)特性,即商品间的外观相似;角度、光线条件的变化;遮挡问题等。在使用目前提出的图像检索方法来解决商品检索问题时,需要依赖海量数据进行模型训练,且检索精度低,阻碍了新零售行业的智能化发展。
发明内容
有鉴于此,本发明的目的在于提供一种商品检索方法、装置及电子设备,以缓解目前新零售场景下的商品检索难度大的问题,能够更加有力的区分不同图像之间的不同,降低模型训练时对海量数据的依赖性,在提高图像检索精度的基础上,促进新零售行业的智能化发展。
第一方面,本发明实施例提供了一种商品检索方法,包括:
获取商品对应的待检索图像;
基于预训练的神经网络模型,提取所述待检索图像的待检索特征;
根据所述待检索图像的待检索特征,基于预先建立的商品特征库,进行商品检索;
其中所述商品特征库是基于所述预训练的神经网络模型,对旋转变换后的待提取图像进行特征提取而建立的。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述商品特征库的建立过程包括:
对于每种商品对应的待对比图像,对所述待对比图像进行补零处理,得到图像长度和宽度相等的第一图像;
对所述第一图像进行缩放操作,得到与预训练的神经网络模型相匹配的第二图像;
对所述第二图像进行旋转变换,得到多个待提取图像;
对待提取图像进行特征提取,获得待对比特征;
将每种商品对应的待对比特征进行存储,得到商品特征库。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述基于预训练的神经网络模型,提取所述待检索图像的待检索特征包括:
利用所述预训练的神经网络模型的卷积层,对所述待检索图像进行特征提取,获得第一特征图像;
对所述第一特征图像进行全局平均池化处理,得到待检索特征。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述基于预训练的神经网络模型,提取所述待检索图像的待检索特征包括:
利用所述预训练的神经网络模型的卷积层,对所述待检索图像进行特征提取,获得第一特征图像;
对所述第一特征图像进行全局平均池化处理,得到第一特征向量;
对所述第一特征图像进行全局最大池化处理,得到第二特征向量;
根据所述第一特征向量和所述第二特征向量,得到待检索特征。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述基于预训练的神经网络模型,提取所述待检索图像的待检索特征包括:
利用所述预训练的神经网络模型的卷积层和全连接层,对所述待检索图像进行特征提取,获得待检索特征。
结合第一方面及其任一种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述预训练的网络模型包括VGG16模型或者ResNet152模型。
第二方面,本发明实施例还提供一种商品检索装置,包括:
检索图像获取模块,用于获取商品对应的待检索图像;
检索特征提取模块,用于基于预训练的神经网络模型,提取所述待检索图像的待检索特征;
商品检索模块,用于根据所述待检索图像的待检索特征,基于预先建立的商品特征库,进行商品检索;
其中所述商品特征库是基于旋转变换后的待提取图像建立的。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,还包括特征库建立模块,所述特征库建立模块,用于:
对于每种商品对应的待对比图像,对所述待对比图像进行补零处理,得到图像长度和宽度相等的第一图像;
对所述第一图像进行缩放操作,得到与预训练的神经网络模型相匹配的第二图像;
对所述第二图像进行旋转变换,得到多个待提取图像;
对待提取图像进行特征提取,获得待对比特征;
将每种商品对应的待对比特征进行存储,得到商品特征库。
第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面及其任一种可能的实施方式所述的方法。
第四方面,本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行所述第一方面及其任一种可能的实施方式所述方法。
本发明实施例带来了以下有益效果:
在本发明实施例中,首先获取商品对应的待检索图像;基于预训练的神经网络模型,提取该待检索图像的待检索特征;根据该待检索图像的待检索特征,基于预先建立的商品特征库,进行商品检索;其中上述商品特征库是基于上述预训练的神经网络模型,对旋转变换后的待提取图像进行特征提取而建立的。该方案一方面将通过预训练的神经网络模型提取的待检索图像的特征作为待检索特征,以更有力的表征图像的特点;另一方面应用基于旋转预处理的待提取图像建立的商品特征库与待检索特征进行特征匹配,以更好的克服图像的多样化;因此本方案在两个方面克服目前新零售场景下的商品检索难度大的问题,能够更加有力的区分不同图像之间的不同,降低训练时对海量数据的依赖性,在提高图像检索精度的基础上,促进新零售行业的智能化发展。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种商品检索方法的流程示意图;
图2为本发明实施例提供的一种特征提取过程示意图;
图3为本发明实施例提供的另一种特征提取过程示意图;
图4为本发明实施例提供的另一种特征提取过程示意图;
图5为本发明实施例提供的一种商品特征库建立过程的流程示意图;
图6为本发明实施例提供的一种商品特征库建立过程示意图;
图7为本发明实施例提供的一种商品检索装置的结构示意图;
图8为本发明实施例提供的另一种商品检索装置的结构示意图;
图9为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前在零售场景下的商品检索问题中,商品具有的细粒度特性,且拍摄角度、光线条件变化较大,且易被遮挡;应用当前提出的图像检索方法进行商品检索时,检索精度较低,阻碍了新零售行业的智能化发展。
基于此,本发明实施例提供的一种商品检索方法、装置及电子设备,可以一方面将通过预训练的神经网络模型提取的待检索图像的特征作为待检索特征,以更有力的表征图像的特点;另一方面应用基于旋转预处理的待提取图像建立的商品特征库与待检索特征进行特征匹配,以更好的克服图像的多样化;因此本方案在两个方面克服目前新零售场景下的商品检索难度大的问题,能够更加有力的区分不同图像之间的不同,降低模型训练时对海量数据的依赖性,在提高图像检索精度的基础上,促进新零售行业的智能化发展。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种商品检索方法进行详细介绍。该方法应用于商品的检索过程,即根据商品的图像,检索确定该商品的类型的过程,可以通过相关的硬件或者软件实现。
参见图1示出的商品检索方法的流程示意图,该商品检索方法包括:
步骤S101,获取商品对应的待检索图像。
在本发明实施例中,待检索图像为可以是用户以图片格式所上传的,需要检索的商品的图像,如bmp、jpg或png等格式。还可以是图像采集装置(如摄像头)捕获的拍摄画面。或者是用户通过网络所下载的图片格式的待检索图像。
步骤S102,基于预训练的神经网络模型,提取上述待检索图像的待检索特征。
为了更有力的表征图像的特点,以提高图像检索的精确度,基于预训练的神经网络模型,例如VGG16模型或者ResNet152模型,提取上述待检索图像的待检索特征,以此来进行后续的检索过程。
为了更有利的区分图像之间的区别,在可能的实施例中,上述预训练的神经网络模型是在大型数据集上进行训练的,例如在ImageNet数据集上进行训练的VGG16模型或者ResNet152模型。该ImageNet数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。
在实现过程中,当预训练后的VGG16模型或者ResNet152模型达到预先设置的识别精度后,即可进行后续的特征提取。其中预先设置的识别精度是根据实际需求设定的,识别精度越高,后期的检索过程中对商品的检索精度越高。
在本发明实施例中的步骤S102提供了以下三种特征提取的方式,需要说明的是该三种特征提取方式仅作为示例性的,并不能作为对本申请的限定。下面以VGG16模型为例对这个三种特征提取方式进行详细说明。
第一种特征提取方式:
(a1)利用预训练的神经网络模型的卷积层,对上述待检索图像进行特征提取,获得第一特征图像。
参见图2,在VGG16模型中Conv1至Conv5为该模型的特征提取部分,因此可以利用Conv1至Conv5叠加的卷积层进行待检索图像的特征提取,并获得维度为H*W*C的第一特征图像,其中H表示第一特征图像的高度,W表示第一特征图像的宽度,C表示该第一特征图像的通道数量。
例如,输入图像为224*224*3(其中图像的宽度和高度均为224个像素,且为RGB(红绿蓝)图像,包括3个颜色通道),卷积过程中使用的卷积核为3*3,则在将图像输入至VGG16模型后,经过Conv1至Conv5后,分别输出维度为224*224*64、112*112*128、56*56*256、28*28*512及14*14*512的特征图像,其中将最后一层卷积层Conv5输出的维度为14*14*512的特征图作为第一特征图像。
(a2)对上述第一特征图像进行全局平均池化处理,得到待检索特征。
参见图2,在获得第一特征图像后,对该第一特征图像进行全局平均池化(GlobalAverage Pooling,GAP)处理,进而得到维度为1*C的特征向量,该特征向量即为待检索特征。
第二种特征提取方式:
(b1)利用预训练的神经网络模型的卷积层,对该待检索图像进行特征提取,获得第一特征图像。
该步骤与上述步骤(a1)类似,可以参照步骤(a1)中的描述,在此不再赘述。
(b2)对上述第一特征图像进行全局平均池化处理,得到第一特征向量。
该步骤与上述步骤(a2)类似,可以参照步骤(a2)中的描述,在此不再赘述。在该步骤(b2)中,将全局平均池化处理后获得的图像称为第一特征向量。
(b3)对上述第一特征图像进行全局最大池化处理,得到第二特征向量。
参见图3,在获得第一特征图像后,对该第一特征图像进行全局最大池化(GlobalMax Pooling,GMP)处理,从而得到如步骤(b2)相同维度为1*C的第二特征向量。
(b4)根据上述第一特征向量和上述第二特征向量,得到待检索特征。
在可能的实施例中,将第一特征向量和第二特征向量进行拼接,从而得到待检索特征。例如将在步骤(b2)中得到的维度为1*C的第一特征向量和步骤(b3)中得到的1*C的第二特征向量进行拼接,得到维度为1*2C的待检索特征。
第三种特征提取方式:
利用预训练的神经网络模型的卷积层和全连接层,对上述待检索图像进行特征提取,获得待检索特征。
也就是将全连接层输出的特征向量作为待检索特征。仍以上述步骤(a1)中维度为224*224*3的输入图像为例,在该特征提取方式中,利用VGG模型中的卷积层和全连接层进行特征提取,以获得待检索特征。
VGG模型中包括三层全连接层,参见图4,将VGG模型中最后一层卷积层Conv5输出的维度为14*14*512的特征图,输入至全连接层FC6,并依次经过全连接层FC7和全连接层FC8进行特征处理,最后将最后一层全连接层FC8中输出的维度为1*4096的特征作为待检索特征。
需要说明的是,由于ResNet152模型不包含全连接层,所以在利用ResNet152模型进行特征提取仅可以采用第一种提取方式和第二种提取方式,具体提取过程可参考VGG16模型。
步骤S103,根据上述待检索图像的待检索特征,基于预先建立的商品特征库,进行商品检索。
其中,该商品特征库是基于上述预训练的神经网络模型,对旋转变换后的待提取图像进行特征提取而建立的。为了实现对商品的检索,则需要根据已有的所有商品的图像建立商品特征库,以作为用于待检索图像的检索的图像检索库。
为了以更好的克服图像的多样化,考虑对建立商品特征库所需的图像进行数据增强,从而得到同一商品对应的多样化图像特征,从而提高商品的检索精度。
在可能的实施例中,参见图5,上述步骤S103中的商品特征库的建立过程包括:
步骤S1031,对于每种商品对应的待对比图像,对该待对比图像进行补零处理,得到图像长度和宽度相等的第一图像。
例如以面包商品为例,此时需要获得面包商品中每种类型的面包对应的待对比图像。其中该待对比图像可以是用户以图片格式所上传的图像,如bmp、jpg或png等格式。还可以是图像采集装置(如摄像头)捕获的拍摄画面。或者是用户通过网络所下载的图片格式的各种类型面包的待对比图像。
在获得待对比图像后,根据该待对比图像的高度和宽度,对该待对比图像进行补零处理,也就是对其较短的边进行补零,使得该待对比图形的高度和宽度相等,也就是最终获得图像长度和宽度相等的第一图像。例如参见图6,待对比图像为354(高度)*472(宽度),则对其高度所在的边补零,得到472*472的图像。
通过补零操作,一是为了在后续的放缩操作中可以保证图像的原始信息不丢失,比如长条型的面包不会变成短粗型的面包;二是由于图像中补充的零,不会激活预训练的神经网络模型中的神经元,进而不会影响后期的检测精度。
步骤S1032,对上述第一图像进行缩放操作,得到与预训练的神经网络模型相匹配的第二图像。
由于每种神经网络模型对应的输入图像的维度要求不同,因此需要对图像进行缩放操作。例如VGG16模型中要求输入图像的维度为224*224*3,因此需要将第一图像的高度和宽度缩放为224*224,以满足VGG16模型的需求。
步骤S1033,对上述第二图像进行旋转变换,得到多个待提取图像。
为了更好的克服图像的多样性问题,在本实施例中,对上述第二图像进行旋转变换,从而对同一种商品得到其对应的多个图像。参见图6,将第二图像以90度为单位,顺时针旋转,一共旋转三次。这样包括原第二图像及顺时针旋转90度、180度、270度的第二图像,一共得到四张不同角度的表征同一商品的图像,将该图像作为待提取图像。
由于无法获知待检索图像中商品的拍摄角度,因此可以通过旋转的方式增加图像的多样性。上述旋转的旋转角度单位越小,获得不同角度的图像越多,在后续特征提取中获得的不同角度的商品的特征越多。在应用过程中,可以根据实际情况设置旋转角度单位,如30度、45度、60度、75度等。当然也可以每次旋转不同的角度,如第一次旋转30度,第二次旋转45度,第三次旋转40度,从而得到不同角度的商品的图像。
步骤S1034,对待提取图像进行特征提取,获得待对比特征。
对上述步骤S1033中获取的多个待提取图像分别进行特征提取,将提取后的特征作为待对比特征。例如类型A的面包对应的多个待对比图像的特征,均为该类型A的面包对应的待对比特征。在后续匹配过程中,如果待检索特征与其中一个角度的待提取图像的待对比特征匹配,则确定该待检索特征对应的商品为类型A的面包。
其中具体的特征提取方式可以参照上述步骤S102中描述的任一种提取方式。需要说明的是,为保证商品检索的精度,建立商品特征库时选用的特征提取方式与在应用中进行商品检索时选用的特征提取方式相同。也就是如果利用第一种特征提取方式建立商品特征库,则在利用该商品特征库进行商品检索时,也需要利用第一种特征提取方式进行待检索图像的特征提取。
步骤S1035,将每种商品对应的待对比特征进行存储,得到商品特征库。
将所有商品对应的待对比特征进行存储,进而形成商品特征库。
进一步地,在形成商品特征库后,可以利用如nearest neighbor(邻近)算法,计算待检索特征与该商品特征库中的待对比特征之间的余弦相似度、或者L1距离(欧氏距离)、L2距离(马氏距离),从而根据计算结果确定与待检索特征相匹配的待对比特征,进而从该商品特征库中检索到具体的商品类型。
本发明实施例提供的技术方案,可以一方面将通过预训练的神经网络模型提取的待检索图像的特征作为待检索特征,以更有力的表征图像的特点;另一方面应用基于旋转预处理的待提取图像建立的商品特征库与待检索特征进行特征匹配,以更好的克服图像的多样化;因此本方案在两个方面克服目前新零售场景下的商品检索难度大的问题,能够更加有力的区分不同图像之间的不同,降低模型训练时对海量数据的依赖性,在提高图像检索精度的基础上,促进新零售行业的智能化发展。
为了更直观的体现本发明实施例中的商品检索方法的有益效果,特将本发明实施例中的方法与目前采用的一种检索方法如SCDA(selective convolutions descriptoraggregation,选择性卷积描述子聚合,出自论文《Selective Convolutional DescriptorAggregation for Fine-Grained Image Retrieval》)的实验结果(检索精确度)进行对比,如表1所示:
表1
其中,ResNet表示检索过程中采用ResNet模型,VGG16表示检索过程中采用VGG16模型,ImageNet表示预训练模型基于ImageNet数据库(大型数据集)训练的,Retail表示预训练模型基于Retail数据库(商品评论和推荐数据集,为小型数据集)训练的,SCDA表示检索过程中采用的特征提取方式为现有的SCDA方式;Conv5+GAP表示检索过程中采用的步骤S102中描述的第一种特征提取方式;Conv5+GAP+GMP表示检索过程中采用的步骤S102中描述的第二种特征提取方式;VGG16-Retail-FC8表示检索过程中采用的步骤S102中描述的第三种特征提取方式。
从表1中可以看出,通过VGG16模型,基于ImageNet数据库,采用第一种特征提取方式,并在商品数据库建立过程中将商品的待对比图像,以90度为旋转单位,旋转三次时,图像检索的精度最高,达到99.94%,明显高于现有的SCDA方式。
综上,本方案在克服商品由于细粒度特性,且拍摄角度、光线条件变化较大,且易被遮挡等原因造成的检索难度大的问题的同时,还去除了现有技术中针对商品检索进行模型训练使对海量数据的依赖性,即通过弱监督或者无监督的学习方式,采用预训练模型及预先建立的商品特征库,即可以进行商品检索任务。
对应于第一实施例中的图像检索方法,图7示出了采用第一实施例所示的图像检索方法一一对应的图像检索装置。该图像检索装置,包括:
检索图形获取模块11,用于获取商品对应的待检索图像;
检索特征获取模块12,用于基于预训练的神经网络模型,提取该待检索图像的待检索特征;
特征库建立模块13,用于根据上述待检索图像的待检索特征,基于预先建立的商品特征库,进行商品检索;
其中商品特征库是基于上述预训练的神经网络模型,对旋转变换后的待提取图像进行特征提取而建立的。
进一步地,参见图8,该装置还包括特征库建立模块14,该特征库建立模块14用于:
对于每种商品对应的待对比图像,对该待对比图像进行补零处理,得到图像长度和宽度相等的第一图像;
对上述第一图像进行缩放操作,得到与预训练的神经网络模型相匹配的第二图像;
对上述第二图像进行旋转变换,得到多个待提取图像;
对待提取图像进行特征提取,获得待对比特征;
将每种商品对应的待对比特征进行存储,得到商品特征库。
进一步地,检索特征提取模块12,还用于:
利用预训练的神经网络模型的卷积层,对该待检索图像进行特征提取,获得第一特征图像;
对上述第一特征图像进行全局平均池化处理,得到待检索特征。
进一步地,检索特征提取模块12,还用于:
利用预训练的神经网络模型的卷积层,对该待检索图像进行特征提取,获得第一特征图像;
对上述第一特征图像进行全局平均池化处理,得到第一特征向量;
对上述第一特征图像进行全局最大池化处理,得到第二特征向量;
根据上述第一特征向量和上述第二特征向量,得到待检索特征。
进一步地,检索特征提取模块12,还用于:
利用预训练的神经网络模型的卷积层和全连接层,对该待检索图像进行特征提取,获得待检索特征。
进一步地,上述检索特征提取模块12中,预训练的网络模型包括VGG16模型或者ResNet152模型。
本发明实施例提供的技术方案,可以一方面将通过预训练的神经网络模型提取的待检索图像的特征作为待检索特征,以更有力的表征图像的特点;另一方面应用基于旋转预处理的待提取图像建立的商品特征库与待检索特征进行特征匹配,以更好的克服图像的多样化;因此本方案在两个方面克服目前新零售场景下的商品检索难度大的问题,能够更加有力的区分不同图像之间的不同,降低模型训练时对海量数据的依赖性,在提高图像检索精度的基础上,促进新零售行业的智能化发展。
参见图9,本发明实施例还提供一种电子设备100,包括:处理器40,存储器41,总线42和通信接口43,所述处理器40、通信接口43和存储器41通过总线42连接;处理器40用于执行存储器41中存储的可执行模块,例如计算机程序。
其中,存储器41可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线42可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器41用于存储程序,所述处理器40在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中,或者由处理器40实现。
处理器40可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41,处理器40读取存储器41中的信息,结合其硬件完成上述方法的步骤。
本发明实施例提供的商品检索装置及电子设备,与上述实施例提供的商品检索方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例所提供的进行商品检索方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置及电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
附图中的流程图和框图显示了根据本发明的多个实施例方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种商品检索方法,其特征在于,包括:
获取商品对应的待检索图像;
基于预训练的神经网络模型,提取所述待检索图像的待检索特征;
根据所述待检索图像的待检索特征,基于预先建立的商品特征库,进行商品检索;
其中所述商品特征库是基于所述预训练的神经网络模型,对旋转变换后的待提取图像进行特征提取而建立的。
2.根据权利要求1所述的方法,其特征在于,所述商品特征库的建立过程包括:
对于每种商品对应的待对比图像,对所述待对比图像进行补零处理,得到图像长度和宽度相等的第一图像;
对所述第一图像进行缩放操作,得到与预训练的神经网络模型相匹配的第二图像;
对所述第二图像进行旋转变换,得到多个待提取图像;
对待提取图像进行特征提取,获得待对比特征;
将每种商品对应的待对比特征进行存储,得到商品特征库。
3.根据权利要求2所述的方法,其特征在于,所述基于预训练的神经网络模型,提取所述待检索图像的待检索特征包括:
利用所述预训练的神经网络模型的卷积层,对所述待检索图像进行特征提取,获得第一特征图像;
对所述第一特征图像进行全局平均池化处理,得到待检索特征。
4.根据权利要求2所述的方法,其特征在于,所述基于预训练的神经网络模型,提取所述待检索图像的待检索特征包括:
利用所述预训练的神经网络模型的卷积层,对所述待检索图像进行特征提取,获得第一特征图像;
对所述第一特征图像进行全局平均池化处理,得到第一特征向量;
对所述第一特征图像进行全局最大池化处理,得到第二特征向量;
根据所述第一特征向量和所述第二特征向量,得到待检索特征。
5.根据权利要求2所述的方法,其特征在于,所述基于预训练的神经网络模型,提取所述待检索图像的待检索特征包括:
利用所述预训练的神经网络模型的卷积层和全连接层,对所述待检索图像进行特征提取,获得待检索特征。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述预训练的网络模型包括VGG16模型或者ResNet152模型。
7.一种商品检索装置,其特征在于,包括:
检索图像获取模块,用于获取商品对应的待检索图像;
检索特征提取模块,用于基于预训练的神经网络模型,提取所述待检索图像的待检索特征;
商品检索模块,用于根据所述待检索图像的待检索特征,基于预先建立的商品特征库,进行商品检索;
其中所述商品特征库是基于旋转变换后的待提取图像建立的。
8.根据权利要求7所述的装置,其特征在于,还包括特征库建立模块,所述特征库建立模块,用于:
对于每种商品对应的待对比图像,对所述待对比图像进行补零处理,得到图像长度和宽度相等的第一图像;
对所述第一图像进行缩放操作,得到与预训练的神经网络模型相匹配的第二图像;
对所述第二图像进行旋转变换,得到多个待提取图像;
对待提取图像进行特征提取,获得待对比特征;
将每种商品对应的待对比特征进行存储,得到商品特征库。
9.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至6任一项所述的方法。
CN201810999636.XA 2018-08-29 2018-08-29 商品检索方法、装置及电子设备 Pending CN110019917A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810999636.XA CN110019917A (zh) 2018-08-29 2018-08-29 商品检索方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810999636.XA CN110019917A (zh) 2018-08-29 2018-08-29 商品检索方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN110019917A true CN110019917A (zh) 2019-07-16

Family

ID=67188460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810999636.XA Pending CN110019917A (zh) 2018-08-29 2018-08-29 商品检索方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110019917A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750673A (zh) * 2019-10-16 2020-02-04 腾讯医疗健康(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN111008210A (zh) * 2019-11-18 2020-04-14 浙江大华技术股份有限公司 商品识别方法、装置、编解码器及存储装置
CN111666434A (zh) * 2020-05-26 2020-09-15 武汉大学 基于深度全局特征的街景图片检索方法
CN111723868A (zh) * 2020-06-22 2020-09-29 海尔优家智能科技(北京)有限公司 用于去除同源图片的方法、装置及服务器
CN112016448A (zh) * 2020-08-27 2020-12-01 上海聚水潭网络科技有限公司 一种用于仓储商品图像识别的系统和方法
CN113434724A (zh) * 2021-06-25 2021-09-24 万里云医疗信息科技(北京)有限公司 图像检索方法、装置、电子设备和计算机可读存储介质
US11386144B2 (en) * 2019-09-09 2022-07-12 Adobe Inc. Identifying digital attributes from multiple attribute groups within target digital images utilizing a deep cognitive attribution neural network

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426850A (zh) * 2015-11-23 2016-03-23 深圳市商汤科技有限公司 一种基于人脸识别的关联信息推送设备及方法
CN107256246A (zh) * 2017-06-06 2017-10-17 西安工程大学 基于卷积神经网络的印花织物图像检索方法
CN107316042A (zh) * 2017-07-18 2017-11-03 盛世贞观(北京)科技有限公司 一种绘画图像检索方法及装置
CN107958067A (zh) * 2017-12-05 2018-04-24 焦点科技股份有限公司 一种基于无标注自动特征提取的大规模电商图片检索系统
US10043109B1 (en) * 2017-01-23 2018-08-07 A9.Com, Inc. Attribute similarity-based search

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426850A (zh) * 2015-11-23 2016-03-23 深圳市商汤科技有限公司 一种基于人脸识别的关联信息推送设备及方法
US10043109B1 (en) * 2017-01-23 2018-08-07 A9.Com, Inc. Attribute similarity-based search
CN107256246A (zh) * 2017-06-06 2017-10-17 西安工程大学 基于卷积神经网络的印花织物图像检索方法
CN107316042A (zh) * 2017-07-18 2017-11-03 盛世贞观(北京)科技有限公司 一种绘画图像检索方法及装置
CN107958067A (zh) * 2017-12-05 2018-04-24 焦点科技股份有限公司 一种基于无标注自动特征提取的大规模电商图片检索系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11386144B2 (en) * 2019-09-09 2022-07-12 Adobe Inc. Identifying digital attributes from multiple attribute groups within target digital images utilizing a deep cognitive attribution neural network
US11734337B2 (en) 2019-09-09 2023-08-22 Adobe Inc. Identifying digital attributes from multiple attribute groups utilizing a deep cognitive attribution neural network
CN110750673A (zh) * 2019-10-16 2020-02-04 腾讯医疗健康(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN110750673B (zh) * 2019-10-16 2021-03-12 腾讯医疗健康(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN111008210A (zh) * 2019-11-18 2020-04-14 浙江大华技术股份有限公司 商品识别方法、装置、编解码器及存储装置
CN111008210B (zh) * 2019-11-18 2023-08-11 浙江大华技术股份有限公司 商品识别方法、装置、编解码器及存储装置
CN111666434A (zh) * 2020-05-26 2020-09-15 武汉大学 基于深度全局特征的街景图片检索方法
CN111723868A (zh) * 2020-06-22 2020-09-29 海尔优家智能科技(北京)有限公司 用于去除同源图片的方法、装置及服务器
CN111723868B (zh) * 2020-06-22 2023-07-21 海尔优家智能科技(北京)有限公司 用于去除同源图片的方法、装置及服务器
CN112016448A (zh) * 2020-08-27 2020-12-01 上海聚水潭网络科技有限公司 一种用于仓储商品图像识别的系统和方法
CN113434724A (zh) * 2021-06-25 2021-09-24 万里云医疗信息科技(北京)有限公司 图像检索方法、装置、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110019917A (zh) 商品检索方法、装置及电子设备
JP6961011B2 (ja) データ管理のためのシステム及び方法
CN108334644B (zh) 图像识别方法和装置
Liu et al. Evaluation of LBP and deep texture descriptors with a new robustness benchmark
CN108197250B (zh) 图片检索方法、电子设备及存储介质
CN109658455A (zh) 图像处理方法和处理设备
CN111931592B (zh) 对象识别方法、装置及存储介质
CN109086811A (zh) 多标签图像分类方法、装置及电子设备
CN108108754A (zh) 重识别网络的训练、重识别方法、装置和系统
Yang et al. Deep neural networks for sketch recognition
Alcantarilla et al. Gauge-SURF descriptors
CN109977983B (zh) 获得训练图像的方法及装置
CN104915673B (zh) 一种基于视觉词袋模型的目标分类方法和系统
CN109284675A (zh) 一种用户的识别方法、装置及设备
WO2022041613A1 (zh) 动态手势识别方法、装置、存储介质及终端设备
Shang et al. Image spam classification based on convolutional neural network
de Lima et al. Classification of texture based on bag-of-visual-words through complex networks
Kim et al. Local feature-based multi-object recognition scheme for surveillance
CN107918767A (zh) 目标检测方法、装置、电子设备及计算机可读介质
Bai et al. Neural shape codes for 3D model retrieval
Zhou et al. A learning framework for shape retrieval based on multilayer perceptrons
Liu et al. Synthesis of spatio-temporal descriptors for dynamic hand gesture recognition using genetic programming
CN110163095B (zh) 回环检测方法、回环检测装置及终端设备
Pototzky et al. Self-supervised learning for object detection in autonomous driving
CN113688261A (zh) 图像数据清理方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716