CN108431829A

CN108431829A - 用于在目录中搜索产品的系统和方法

Info

Publication number: CN108431829A
Application number: CN201580083505.1A
Authority: CN
Inventors: 胡安·曼努埃尔·巴里奥斯·努涅斯; 毛里齐奥·爱德华多·帕尔马·利萨纳; 若泽·曼努埃尔·萨韦德拉·龙多
Original assignee: Orlande AG
Current assignee: Orlande AG
Priority date: 2015-08-03
Filing date: 2015-08-03
Publication date: 2018-08-21
Also published as: EP3333769A1; JP2018523251A; US20180322208A1; EP3333769A4; WO2017020139A1

Abstract

本发明涉及一种用于在目录中搜索产品的系统及相关联的方法，该系统包括：具有网络连接的设备，该设备具有应用程序，该应用程序允许用户生成查询、向处理单元发送查询并且显示结果，其中查询是待针对其执行搜索的产品的视觉示例；处理单元，该处理单元接收来自用户的查询，并在目录中解析搜索，该处理单元包括(i)视觉特征提取组件、(ii)自标签化组件、(iii)根据相似性进行搜索的组件、以及(iv)结果分组组件；以及数据存储单元，该数据存储单元持续维护关于来自至少一个商店的目录的产品的信息。

Description

用于在目录中搜索产品的系统和方法

技术领域

本发明涉及零售业和在目录中搜索产品。本发明具体涉及一种用于经由图像、手绘图像(草图)、视频或文本在数字目录中搜索产品的技术。

背景技术

现有技术描述了旨在在目录中搜索的一系列技术。例如，文献WO2013184073A1描述了专门用于基于检测身体部位来进行服装搜索的技术。该文献不提供用于一般性产品——包括设计、建筑、家用、时尚等物品——的搜索机制。

文献US20120054177公开了一种用于表示和搜索草图的方法，但是其不旨在用于目录搜索的情况。该方法基于查询中的和来自数据库的图像中的“突出曲线”。草图与图像之间的相似性基于使用倒角距离的变化来测量“突出曲线”之间的相似性，所述倒角距离的变化使用关于曲线点的位置和定向的信息。

此外，文献US20110274314涉及一种用于识别视频中的服装的应用程序。首先，通过面部检测算法检测人的外貌，然后使用基于在L*a*b*色彩空间上的区域增长的策略来运用分割处理。为了识别服装，用各种图像描述符诸如HOG、BoW和DCT来训练SVM模型。虽然该文献示出了一种与服装分类有关的语义组件，但是其不关注搜索任何类型的产品。

解决方案的另一种类型是由文献US20140328544A1提出的。该文献描述了草图标签和识别系统，该草图标签和识别系统使用一组先前被贴标签的图像。因此，该系统将输入草图与来自数据集的一组图像相关联；这是通过基于相似性的搜索系统完成的，然后使用与图像相关联的标签或文本来生成确定用于输入草图的最佳标签的概率模型。这个提议并不用于在目录中搜索产品。

文献US20150049943A1示出了一种使用树型结构来表示图像的特征的图像搜索应用程序。该解决方案缺少语义分类组件，并且其不包括基于草图和视频的搜索。

文献US006728706B2所示的解决方案涉及一种用于在目录中搜索产品的系统，其中每个产品由特征向量表示，并且通过距离函数获得相似性。该文献没有描述使用分类器来预测输入图像的可能的类别，以及将可能的类别和所有类别中的搜索结果结合。

文献US20050185060A1和US007565139B2描述了基于蜂窝(cellular)照片的图像搜索系统。该图像搜索系统被认为是博物馆或城市指南的一部分。如果照片包含文本，则运用光学字符识别，并且如果照片包含面部，则运用面部识别。这些文献没有描述基于来自目录的产品的系统，在这种系统中使用视觉特征来搜索对象，而不需要光学字符识别。

技术问题

在当前的互联网销售场景中，有兴趣购买特定产品的潜在客户有三个选项：1)进入商店的网站，浏览目录类别，浏览每个相关类别中的产品列表；2)进入商店的网站，使用基于关键词的产品搜索功能；以及3)进入互联网搜索引擎(例如，Google)，使用关键词搜索，并且在获得的结果中选择提供产品的感兴趣的商店页面。

一方面，选项2和3(基于关键词)可能对某种类型的产品非常有效。例如，如果有人希望购买确定容量和品牌的硬盘，三个词可能足以确定最喜欢的商店是否可以购得。然而，即使这种聚焦(focus)对许多产品有效，但我们必须注意到，将长文本输入智能手机可能会令人望而生畏。例如，如果您想获知商店中对产品“半脱脂奶粉，400克”的报价，只需在商店的搜索引擎中写入这些词就足够了，而许多用户更喜欢避开这样做。这是当前开发自动填入和语音转文本应用程序的原因之一。

此外，当产品具有与其外观或设计相关的特征时，如装饰品、服装、家具和其他物品的情况，选项2和3不起作用。例如，为了搜索带有黑色线条的绿色椭圆形吊灯，通用关键词“灯”产生许多结果，而如果产品不带有“椭圆形”或“绿色”标签的话，则更具体的词“椭圆形”或“绿色”可能找不到任何产品。在这种情况下，通过类别浏览目录的选项(选项1)通常是唯一可行的选择，因为基于词的搜索需要各个产品具有对其外观的完整描述并且用户使用这些词来搜索产品。不幸的是，由于标签的成本和人们描述对象所依据的标准的多样性，这种完全的标签是不切实际的。

技术方案

本发明涉及经由图像、手绘图像(草图)、视频或文本在数字目录中搜索产品的技术。目标是为用户提供用于在商店目录中查找产品的高效、有效、及时且非常有吸引力的技术。本发明的技术是高效的，因为它需要用户花费很少的精力就获得即时结果；该技术是有效的，因为它允许发现相关的产品；该技术是及时的，因为用户可以在他们想要的任何时候在他们的智能手机上使用应用程序；并且该技术是非常有吸引力的，因为其提供有趣的体验。此外，该技术的特征在于高度的表现力，因为搜索是基于分析图像本身的内容。

所提出的技术允许在使用由先前训练的分类器自动生成的视觉特征和描述性标签的组合的情况下，基于用户捕获的图像在目录中搜索产品并产生带有高度有效性的结果。本发明利用移动设备的特征，使得用户可以拍摄期望的产品的照片，进行绘图(草图)或录制包含他想要找到的产品的场景。此外，用户可以可选地添加文本以限制对某些产品或产品类别的搜索。

本发明允许各种使用实例，其中一些在下面提到：

1.通过标签搜索：用户搜索特定产品并拍摄标签或条形码的照片。例如，用户可以拍摄酒标签或果汁瓶，而系统将准确地返回正在搜索的产品以及其商店价格。与键入关键字如上文关于“半脱脂奶粉，400克”所描述的情形相比，这种方法对用户更加友好并产生优越的用户体验。

2.通过照片搜索：用户拍摄具有他感兴趣的设计的产品，以查看目录中是否存在可能类似的产品。例如，用户拍摄了他在试点部门看到的花瓶，并且系统基于一些标准(诸如具有相同颜色组合的产品、各种形状和颜色的花瓶、具有类似视觉图案的其他产品)显示了类似的各种产品。

3.通过草图搜索：用户希望搜索具有特定设计的产品，但他没有用于拍摄的对象，这样他可以在触摸屏设备上绘制产品的大体形状。系统向用户显示具有类似于输入的整体形状的产品，该产品具有与草图中的产品相同的定向的边缘。

4.通过视频搜索：用户录制包含一个或多个感兴趣产品的场景，例如卧室或餐厅。系统在目录中搜索并显示来自目录的与场景中出现的产品最相似的产品。

技术优势

与先前所描述的解决这种类型的问题的传统方法相比，本发明包括以下优点：

√高度的表现力：本发明使用图像本身的内容作为查询，加之能够包括关键词作为增补，从而提供了更强的表达能力。使用草图进行交流是人们之间沟通的一种自然形式，其简单并具有高度描述性，并且代表了用户想要搜索的结构组件。

√快速：用户不需要输入最佳文本来描述他想要的东西。他仅需要将产品放置在他的设备上的相机前或绘制草图。搜索时间是几秒钟，所以用户可以立即获得结果。

√有效：由于我们使用高度描述性的查询，因此搜索质量较高。这意味着系统允许根据查询检索到高相关率的对象，与关键词搜索引擎相比，这允许线上销售的增加。

√及时：由于其使用了移动技术，当购置时机出现时，我们的技术总是可用的。例如，如果客户看到或想象到感兴趣的产品，他使用所提供的技术并在他最喜爱的商店中搜索该产品。

√对用户有吸引力：易于使用和绘图的趣味效果以及惊讶于搜索结果，使得其非常有吸引力并为用户带来愉快的体验。

附图说明

图1示出了搜索系统的整体视图。

图2示出了系统准备阶段。

图3示出了解析用户查询的步骤。

图4示出了解析视觉+文本查询的步骤。

图5示出了解析视觉查询的步骤。

图6详细说明了自描述性视觉搜索模块(320)中的组件。

图7详细说明了综合视觉搜索模块(330)中的组件。

具体实施方式

本发明涉及一种用于在目录中搜索产品的系统及相关联的方法。

用于产品搜索的系统的总体方案涉及用户交互、至少一个处理单元以及来自一个或多个商店的至少一个产品目录(见图1)。用户(100)经由处理单元(110)的网络向处理单元(200)发送产品搜索查询(300)。产品搜索引擎维护数据存储单元(121)，该数据存储单元包含来自多个商店(120)的至少多个产品目录。用户经由设备(110)上的应用程序创建并发送查询，该设备具有网络连接并且允许拍摄照片、制作草图和/或录制视频。

数据存储单元(121)的产品目录包括由商店提供的一组待售产品。每个产品都由描述和一个或多个样本图像来表示。一个类别对应于一群组产品。该类别根据各个商店定义的标准来对目录中的产品进行编组。目录中的每个产品都属于一个或多个类别。

在系统准备阶段(见图2)，产品搜索系统将来自商店的产品添加到数据库。文本特征提取模块(280)处理产品的描述，并为每个产品创建文本特征向量(505)。视觉特征提取组件或模块(210)处理图像并为每个产品生成视觉特征向量(510)。自标签化组件或模块(230)处理图像并创建标签(515)，该标签根据一些标准——诸如对象的颜色、形状、类型等——将呈现相似视觉特征的产品分组在一起。

视觉特征提取模块(210)使用局部描述算法(例如SIFT、SURF、HOG或一些变体)来计算视觉特征向量，局部描述算法在面对某些几何变换、视角改变和遮蔽时提供不变性。使用码本对为图像计算的局部描述符进行编码或聚合，以获得视觉特征向量或产品图像。码本是将分组或聚类算法如K-Means应用于目录中的所有图像的局部描述符的样本的结果。通过这种方式，码本对应于由聚类算法获得的K个中心：

V＝{υ₁，υ₂，…，υ_K}

局部描述符的分组允许为每个图像生成单个特征向量。分组过程的一个实施方式使用特征袋(Bag of Features，BoF)策略。如果I是图像，并且L_I＝{x₁，x₂，...，x_NI}是图像I的N_I个局部描述符的集合；在BoF策略下，使用长度等于码本的大小的码来对I的各个描述符进行编码。因此，用于x的码如下述来获得：

其中，g是核函数，d(.)是距离的函数。该核函数被选择为使得距离值越大，g的值越小。使用针对关于I的局部描述符生成的码的池化(pooling)策略来计算I的特征向量。一个实施方式使用基于求和的池化，其通过对局部描述符码求和来确定I的特征向量：

聚合的另一个实施方式是VLAD(Vector of Locally Aggregated Descriptor，局部聚合的描述符的向量)，其考虑关于局部描述符的更多信息。在这种情况下，从各个局部描述符和限定码本的形心当中获得残差向量。因此，关于形心j，x的残差向量被限定为：

然后，关于每个聚类累加残差向量：

为了生成I的特征向量，根据VLAD，累加的残差向量如下所示链接在一起：

D_I＝R₁·R₂·····R_K

如上所述，视觉特征提取模块(210)接收图像I并生成特征向量D_I。

自标签化模块(230)基于各种分类标准对图像进行分类。该组件的一个实施方式限定了三个标准：颜色、形状和类型。因此，自标签化模块由三个分类模型组成，每个标准对应一个分类模型。各个模型通过“分类模型生成”组件(220)经由监督学习过程生成，该监督学习过程需要用于训练(002)的一组产品图像。在训练集中，各个图像基于所建立的分类标准与一个或多个类别相关联。对于训练过程，使用图像的视觉特征。这些特征可以使用相同的分类器来手动限定或自动限定。该组件的一个实施方式使用下述分类模型，在这样的分类模型中例如通过使用卷积神经网络对特征进行自动学习。在另一个实施方式中，可以使用手动限定特征的判别模型。这些模型的示例可以是支持向量机(SVMs)、神经网络、K最近邻(KNN)和随机森林。训练过程(002)中生成的模型被存储在“分类器模型”组件(401)中。

文本特征提取模块(280)根据tf-idf(词频-逆文档频率)向量模型来处理产品的描述以生成描述符。所有的描述词都被处理，以消除非常重复(停用列表)或无意义的词诸如冠词和介词。获得词的词汇根，并针对每个产品描述文本计算每个词根的出现频率。将每个词根的频率乘以其中出现该根的产品描述的分数(fraction)的倒数的对数。

针对产品计算的文本特征向量和视觉特征向量存储在数据库(402)中。针对文本向量计算倒排索引结构，这包括创建表，该表对于每个词都包括含有该词的产品描述的列表。这允许确定包含由用户输入的某个词的所有产品。对于视觉特征向量，多维索引允许有效地确定最接近查询向量的向量。

图3示出了根据本发明的一个实施方式的系统的操作图。一个用户(100)使用移动设备(110)上的应用程序来创建查询(300)。如果用户输入所搜索产品的视觉示例以及文本组件，则查询可以是视觉+文本的查询类型(301)，或者如果用户只输入所搜索产品的一个视觉示例，则查询可以是视觉查询类型(302)。一个视觉示例可以是对象的照片、包含对象的视频或代表所寻找对象的形状的手绘图像。一个文本组件对应于描述所搜索产品的某一特征的一个或多个词。查询(300)被经由计算机网络(110)发送到处理单元(400)，该处理单元解析该搜索，并发送回包含与该查询相关的产品的查询响应(001)。

处理单元(200)加载产品数据库(402)和在系统的准备阶段(图2)期间计算的所有数据，接收查询(300)，在产品目录中搜索产品并将相关产品返回给用户(001)。处理单元所使用的解析查询的方法依赖于所接收的是视觉+文本查询(301)还是视觉查阅(302)。

视觉+文本查询(301)包含对象的一个视觉示例和一个文本组件。图4中示出了涉及解析此类查询的过程。文本组件用于限制产品搜索空间。使用倒排索引来搜索包含文本组件中的至少一个词的所有产品，因此针对相似性的搜索将仅限于该文本产品列表(520)。视觉特征提取模块(210)处理视觉示例，以获得视觉特征向量(525)。通过一个相似性搜索模块或组件(240)，将该向量与文本产品列表中的所有产品进行比较。视觉向量之间的比较经由距离函数来执行，该距离函数例如可以是欧几里得距离、曼哈顿、马哈拉诺比斯距离、海林格距离、卡方分布等等。相似性搜索模块(240)返回产品列表(003)，该产品列表经过模块或结果分组组件(260)以产生查询的结果。

视觉查询(302)包含对象的一个视觉示例。与视觉+文本查询(301)不同，用户不输入任何文本。视觉搜索过程(图5)由两个模块组成：一个自动描述性视觉搜索模块(320)和一个综合视觉搜索模块(330)。每个模块都产生相关产品列表，其中使用列表组合组件(340)对相关产品进行组合，以生成相关产品列表(003)。类似于之前的情况，相关产品列表被发送到分组组件(260)以获得对查询的最终响应。

自动描述性视觉搜索模块(320)使用自标签化组件以自动生成描述样本查询的一组标签(530)(图6)。通过生成的描述，产品选择模块(270)获得具有至少一个与查询示例一样的标签的产品的子群组。根据查询样本计算视觉特征向量(525)，并且执行限于具有匹配标签的产品的子群组的相似性搜索。该相似性搜索在产品子群组中获得与查询示例具有最大相似性的K个产品，这K个产品被返回作为VSD(视觉自描述性)产品列表(004)。

综合视觉搜索模块(330)在考虑数据库中存在的所有产品的情况下搜索产品。根据查询样本计算视觉特征向量(525)，并且在所有产品中执行相似性搜索。该相似性搜索在数据库中获得与查询示例具有最大相似性的K个产品，这K个产品被返回作为GV(综合视图)产品列表(005)。

产品的相关性是大于零的数值、评分，其表示搜索查询与产品的特征之间的一致程度。列表组合模块(340)将VSD产品列表(004)与GV产品列表(005)混合。这种混合对应于对每个产品在每个相似性搜索中的相关值求和，累加任何重复产品的相关性。获得最大累加相关性的K个产品生成相关产品列表(003)。

结果分组模块(260)接收相关产品列表(003)，并关于主要分类对产品进行编组。每个分类都被分配关于在列表上出现的属于该分类的产品的投票，并且选择得票最多的M个分类。该投票考虑对每个类别的列表上的各个产品的相关性求和。查询响应(001)是具有得票最多的类别以及属于该类别的产品的列表。该查询响应被返回到客户端应用程序以显示给用户。

权利要求书(按照条约第19条的修改)

1.一种用于在目录中搜索产品的系统，其特征在于，所述系统包括：

a.具有网络连接的设备，所述设备具有应用程序，所述应用程序允许用户生成查询、向处理单元发送查询并且显示结果，其中所述查询是期望搜索的产品的视觉示例，且可选地是由用户输入的一组词；

b.处理单元，所述处理单元接收来自所述用户的查询，并在所述目录中解析搜索，所述处理单元包括：

i.视觉特征提取组件；

ii.自标签化组件；

iii.基于相似性的搜索组件；

iv.结果分组组件；以及

v.允许与其他用户共享结果的组件；

c.数据存储单元，所述数据存储单元持续维护关于来自一个或多个商店的目录的产品的信息。

2.根据权利要求1所述的用于在目录中搜索产品的系统，其特征在于，所述视觉示例对应于：一张或多张照片；一幅或多幅手工绘图；或视频。

3.根据权利要求1所述的用于在目录中搜索产品的系统，其特征在于，所述查询包括视觉示例并且还包括由所述用户输入的一个或多个词。

4.根据权利要求1所述的用于在目录中搜索产品的系统，其特征在于，所述自标签化组件基于神经元网络的训练和使用。

5.根据权利要求1所述的用于在目录中搜索产品的系统，其特征在于，所述自标签化组件使用分类器。

6.根据权利要求5所述的用于在目录中搜索产品的系统，其特征在于，所述分类器包括在支持向量机(SVM)、神经元网络、K最近邻(KNN)和随机森林中。

7.根据权利要求5所述的用于在目录中搜索产品的系统，其特征在于，所述分类器包括在支持向量机(SVM)、神经元网络、K最近邻(KNN)和随机森林中

8.一种用于在目录中搜索产品的方法，其特征在于，所述方法包括下述步骤：

a.用户经由安装的应用程序将查询输入到具有网络连接的设备中，并将所述查询传输到处理单元；

b.处理单元接收所述查询以：

i.提取所述查询的视觉特征；

ii.使用视觉特征在所述查询与存储在数据存储单元中的所有产品之间执行视觉相似性搜索；

iii.对所述查询自动生成一组标签；

iv执行基于相似性的搜索，所述搜索限于与所述查询匹配至少一个标签的产品的子群组；

v.将搜索ii和iv的结果混合以生成对所述查询的响应；

c.具有网络连接的所述设备接收查询响应，并生成用户显示。

9.根据权利要求8所述的用于在目录中搜索产品的方法，其特征在于，所述视觉示例对应于：一张或多张照片；一幅或多幅手工绘图；或视频。

10.根据权利要求8所述的用于在目录中搜索产品的方法，其特征在于，所述查询包括视觉示例并且还包括由所述用户输入的一个或多个词。

11.根据权利要求10所述的用于在目录中搜索产品的方法，其特征在于，基于相似性的搜索方法限于与所述查询匹配至少一个词的产品的子组。

12.根据权利要求8所述的用于在目录中搜索产品的方法，其特征在于，提取所述查询的视觉特征的方法基于局部描述符聚合方法。

13.根据权利要求8所述的用于在目录中搜索产品的方法，其特征在于，标签生成阶段基于神经元网络的训练和使用。

14.根据权利要求8所述的用于在目录中搜索产品的方法，其特征在于，标签生成步骤使用分类器。

15.根据权利要求14所述的用于在目录中搜索产品的方法，其特征在于，所述分类器包括在支持向量机(SVM)、神经元网络、K最近邻(KNN)和随机森林中。

Claims

a.具有网络连接的设备，所述设备具有应用程序，所述应用程序允许用户生成查询、向处理单元发送查询并且显示结果，其中所述查询是期望搜索的产品的视觉示例；

i.视觉特征提取组件；

ii.自标签化组件；

iii.基于相似性的搜索组件；以及

iv.结果分组组件

7.一种用于在目录中搜索产品的方法，其特征在于，所述方法包括下述步骤：

b.处理单元接收所述查询以：

i.提取所述查询的视觉特征；

iii.对所述查询自动生成一组标签；

v.将搜索ii和iv的结果混合以生成对所述查询的响应；

8.根据权利要求7所述的用于在目录中搜索产品的方法，其特征在于，所述视觉示例对应于：一张或多张照片；一幅或多幅手工绘图；或视频。

9.根据权利要求7所述的用于在目录中搜索产品的方法，其特征在于，所述查询包括视觉示例并且还包括由所述用户输入的一个或多个词。

10.根据权利要求9所述的用于在目录中搜索产品的方法，其特征在于，基于相似性的搜索方法限于与所述查询匹配至少一个词的产品的子组。

11.根据权利要求7所述的用于在目录中搜索产品的方法，其特征在于，提取所述查询的视觉特征的方法基于局部描述符聚合方法。

12.根据权利要求7所述的用于在目录中搜索产品的方法，其特征在于，标签生成阶段基于神经元网络的训练和使用。

13.根据权利要求7所述的用于在目录中搜索产品的方法，其特征在于，标签生成步骤使用分类器。

14.根据权利要求13所述的用于在目录中搜索产品的方法，其特征在于，所述分类器包括在支持向量机(SVM)、神经元网络、K最近邻(KNN)和随机森林中。