CN112740228A

CN112740228A - 视觉搜索引擎

Info

Publication number: CN112740228A
Application number: CN201980062427.5A
Authority: CN
Inventors: M·索尔拉米
Original assignee: Salesforce com Inc
Current assignee: Salesforce Inc
Priority date: 2018-09-24
Filing date: 2019-09-23
Publication date: 2021-04-30
Also published as: US20200097570A1; EP3857444A1; WO2020068647A1; AU2019349422A1; JP2022502753A; CA3112952A1; EP3857444A4

Abstract

一种数据集的视觉搜索方法包括从客户端数字数据设备接收包括图像的请求，并且利用检测模型在图像中标识感兴趣的表观对象以及在那些表观对象的图像内的边界框。对于一个或多个感兴趣的表观对象中的每个，方法提取由其相应的边界框限定的子图像。特征检索模型被用于识别那些子图像中的每个中的表观对象的特征，并且那些特征被应用于(例如，作为文本或以其它方式)搜索引擎，以识别数字数据集中的项目。可以在请求用户的数字数据设备上呈现搜索的结果。

Description

视觉搜索引擎

背景技术

本申请要求2018年10月23日提交的美国专利申请序列号16/168,182的权益，其要求了2018年9月24日提交的美国临时专利申请号62/735,604的权益，这两个申请的教导通过引用并入本文。

本申请涉及自动生成的数字内容(digital content)，并且更具体地涉及通过数据集的基于图像的搜索生成的数字内容。作为非限制性示例，其用于电子商务和其它站点的搜索。

语言有时候派不上用场。这可能在进行互联网购物时产生问题。如果无法对目标进行描述，如何寻找到它，更别提如何获得它。当然，此问题不仅仅限于电子商务。无论是对于政府、研究或其他站点，大部分搜索均以语言开始。

本领域正在致力于解决此问题。最近已经涌现出基于图像的搜索，也称为基于内容的图像检索(Content Based Image Retrieval，CBIR)。然而，特别是在消费产品的实时和精细检索的问题上，仍然存在很大的改进空间，在上述方面中，图像查询中的许多可变性等级使得查询变得困难。

附图说明

通过参考附图可以获得对以下讨论更全面的理解，在附图中：

图1描绘了在其中采用了实施方案的环境；

图2描绘了用于视觉搜索的实施方案。

具体实施方式

图1示出了数字数据处理系统10，其包括服务器数字数据设备(“服务器”)12，服务器数字数据设备12经由网络16耦合至客户端数字数据设备(“客户端”)14A-14D。作为非限制性示例，示出的服务器12托管(host)在线零售商的电子商务门户或平台(统称为“平台”)，并且客户端14A-14D是该零售商的客户、该平台的管理员和其他用户(统称为“用户”)的数字设备(例如，智能电话、台式计算机等)。

设备12、14A-14D包括传统台式计算机、工作站、小型计算机、膝上型计算机、平板电脑、PDA、移动电话或市场上可买到的其它数字数据设备类型，所有这些均根据本发明的教导进行了适配。因此，每个包括本领域已知类型的中央处理、存储器和输入/输出子部分(此处未显示)并且适于(i)如根据本发明的教导进行适配的，执行本文描述和/或本领域已知的软件类型(例如，应用软件、操作系统和/或中间件，如果适用的话)和(ii)如根据本发明的教导进行适配的，通过网络16以本领域已知的常规方式与其它设备12、14A-14D通信。

这种软件的示例包括网络服务器30，其在设备12上执行并且响应于来自客户端14A-14D(在其用户的命令下)的HTTP或其他协议中的请求，如根据本发明的教导进行适配的，以本领域已知的常规方式通过网络16将网页、下载内容和其他数字内容传送至请求设备。网络服务器30包括网络应用31、33，网络应用31、33包括相应的搜索前端31B、33B，这两个搜索前端可以是由相应的网络应用31、33提供的更广泛功能的一部分，比如将网站或网络服务(统称为“网站”)提供给客户端设备14A-14D，所有均遵循惯例(如根据本发明的教导进行适配的)。

这样的网址(例如通过客户端设备14A-14D访问并且又例如由网络应用31托管)是零售商的电子商务站点，例如，用于做广告和从在线目录向客户销售商品，其遵循惯例(如根据本发明的教导进行适配的)。

另一个此类网址(例如通过客户端设备14D访问并且又例如由网络应用33托管)是开发者或管理员门户(也称为“管理员站点”等)，其由上述零售商的雇员、顾问或其它代理人在维护上述电子商务站点时使用，并且更具体地，作为非限制性示例，用于训练电子商务站点的搜索引擎以促进上述目录的搜索。

搜索前端31B、33B是基于人工智能的平台66(图2)的服务器侧前端，该服务器侧前端包括如下类型的搜索引擎，其(i)响应于经由前端31B接收的搜索请求(例如，在客户端设备14A-14C的用户的命令下)，搜索包含或以其他方式表示通过网络应用31可获得的项目目录的数据集41，(ii)通过前端31B，将项目列表(目录通过该项目列表匹配搜索)发送至请求客户端设备14A-14C，以便经由相应的浏览器44向其用户进行呈现，例如，作为网页、下载内容和其他数字内容的一部分，其遵循惯例(如根据本发明的教导进行适配的)，以及(iii)通过前端33B促进训练模型，该模型用于支持那些搜索，其遵循惯例(如根据本发明的教导进行适配的)。在实施方案比如在此示出的实施方案中，服务器12托管电子商务网站，并且更具体地，在网络应用31、33为电子商务站点及其管理员站点提供服务时，搜索的项目可以被用于零售商的商品或服务(统称为“商品”或“产品”)，但是其它实施方案在这方面可以变化。

数据集41包括本领域已知类型的常规数据集，用于存储和/或以其它方式表示电子商务中的项目或其它在线目录或数据集。数据集41可以被直接耦合至服务器12或以其他方式被服务器12访问，其均遵循惯例(如根据本发明的教导进行适配的)。

示出的实施方案的前述搜索引擎是本领域已知的常规类型(如根据本发明的教导进行适配的)，其利用基于人工智能模型的图像识别以支持基于还包括图像(在一些实施方案中，作为文本)的搜索请求的搜索。这样的模型可以基于神经网络，或以其他方式遵循惯例(如根据本发明的教导进行适配的)。

网络框架32包括本领域已知的常规的此类软件(如根据本发明的教导进行适配的)，其提供了库和其他可再用服务(reusable service)，它们(或可以)——例如，经由应用程序接口(API)或其他方式——由在服务器12支持的平台上执行的多个和/或多种网络应用程序使用，本文示出了这些应用程序中的两个(即，网络应用31、33)。

在示出的实施方案中，网络服务器30及其构成部件、网络应用31、33和框架32在服务器架构的应用层38内执行。层38(其根据本发明的教导进行适配的本领域已知的常规方式提供服务和支持通信协议)可以不同于服务器架构中的其他层——这些层提供服务并且更一般地提供网络应用31、33和/或框架32需要的资源(又称为“服务器资源”)，以便处理服务器30从客户端14A-14D接收的请求中的至少一些，诸如此类，所有均遵循惯例(如根据本发明的教导进行适配的)。

那些其它层包括，例如，数据层40——其提供包括人工智能平台66(图2)的中间件，并且支持与数据库服务器40的交互，所有均以本领域已知的常规方式(如根据本发明的教导进行适配的)并且进行非限制性示例——和服务器的操作系统42，服务器的操作系统42管理服务器硬件和软件资源，并且以本领域已知的常规方式(如根据本发明的教导进行适配的)给在其上执行的软件提供公共服务。

其它实施方案可以利用具有更多或更少数目的层和/或具有提供与此处描述的功能不同的相应功能的层的架构。

虽然本文在零售和相应的管理网站的上下文中进行描述，但是在其他实施方案中，网络服务器30和应用程序31、33以及框架32可以限定适于响应用户请求的网络服务或其他功能(例如，通过API或其他方式可获得的)，例如，视频服务器、音乐服务器等。并且，尽管本文示出和讨论的是包括单独的网络应用31、33和框架32，但是在其它实施方案中，网络服务器30可以组合这些部件的功能或在更多部件之中分配那些功能。

此外，虽然本文示出了由不同的相应网络应用31、33托管的零售和管理网站，但是在其他实施方案中，那些网站可以由单个此类应用程序托管，或相反地由多于两个此类应用程序托管。并且，通过进一步的示例，尽管在图示的实施方案中网络应用31、33在图中示出为驻留在单个公共平台12上，但是在其他实施方案中，其可以驻留在不同的相应平台上，和/或其功能可以在两个或更多平台之中进行划分。同样地，尽管人工智能平台66在此被描述为形成单个平台12的中间件的一部分，但是在其他实施方案中，归属于元件66的功能可以分布在多个平台或其他设备上。

继续参考图1，示出的实施方案的客户端设备14A-14D执行网络浏览器44，网络浏览器44(通常)在用户控制下操作，以生成HTTP或其它协议中的请求，例如，从而访问上述平台上的网站，以搜索在该平台上、通过该平台或与该平台相关联的可获得的货物(例如，从网址零售商可获得的货物——无论线上和/或通过其实体销售点)，从而提前订购或请求购买(或其他获取)那些货物，诸如此类，并且通过网络14将这些请求传输至网络服务器30，均以根据本发明的教导而适配的本领域已知的常规方式。尽管在此称为网络浏览器，但在其它实施方案中，应用程序44可以包括适于响应于那些请求而向服务器30传输请求和/或呈现从服务器30接收的内容的网络应用或其它功能，例如，视频播放器应用、音乐播放器应用或其它。

示出的实施方案的设备12、14A-14D可以属于相同的类型，但更典型地，其构成不同类型的设备的混合。并且，尽管本文仅示出和描述了单个服务器数字数据设备12，但是应当理解，其他实施方案可以利用更多这些设备(同类的、异类的或其他的，联网的或其他的)，用于完成归属于网络服务器30和/或数字数据处理器12的功能。同样地，尽管示出了四个客户端设备14A-14D，但是应当理解，其他实施方案可以使用更多或更少这些设备(同类的、异类的或其他的)，如上所述的为其自身的运行应用程序(例如，44)(同类的、异类的或其他的)。此外，设备12、14A-14D中的一个或多个可以被配置为和/或提供数据库系统(包括，例如，多租户数据库系统)或其他系统或环境；并且，尽管本文示出了客户端-服务器架构，设备12、14A-14D可以被布置为以对等网络(peer-to-peer)、客户端-服务器或与其教导相一致的其它协议相互关联。

网络16是分布式网络，其包括一个或多个适于支持服务器12与客户端设备14A-14D之间的通信的网络。网络包括本领域已知类型的一种或多种布置，例如局域网(LAN)、广域网(WAN)、城域网(MAN)和/或因特网。尽管图中示出客户端-服务器架构，但本发明的教导可适于耦合用于其它网络架构中的通信的数字数据设备。

如本领域的技术人员将理解的，本文提及的“软件”——包括作为非限制性示例的网络服务器30及其构成部件，网络应用31、33，网络应用框架32和浏览器44——包括存储在根据本发明的教导而适配的本领域已知类型的瞬态和非瞬态机器可读介质上的计算机程序(即，计算机指令集)，该计算机程序使得相应的数字数据设备(例如，12、14A-14D)完成归属于的本文的相应操作和功能。作为非限制性示例，此类机器可读介质可以包括耦合至(以根据本发明的教导而适配的本领域已知的常规方式)相应的数字数据设备12、14A-14D的硬盘驱动器、固态驱动器等。

以下结合图2描述了网络应用31、33结合AI平台66以及所示系统10的其它部件的操作，以支持对目录/数据集41的基于图像的(又称为“可视的”)搜索，并且更具体地，作为示例，以返回标识项目的搜索结果68，目录根据该项目匹配指定请求。这可以响应于基于图像的搜索请求70，基于图像的搜索请求70由客户端设备(例如14A)的网络浏览器44生成。更具体的，作为非限制性示例，响应于在网页中执行的“搜索”插件或其他代码生成的这种请求或由该浏览器44下载并且呈现在其上的其他内容，或以其他方式，均按照根据本发明的教导而适配的本领域的惯例。在附图中，操作步骤由带圈的字母标识，并且数据传输由箭头标识。

在步骤A中，客户端设备14D经由前端33B(例如，在管理员或其它方的命令下)将目录中的n个项目的图像传送至平台66，即，可以通过从客户端设备14A-14C传出的基于图像的搜索请求被搜索的项目。那些图像可以是本领域已知的常规类型(如根据本发明的教导进行适配的)，适合用于训练基于图像的神经网络或其它AI模型。因此，图像可以是JPEG、PNG或其他格式(行业标准或其他)并且大小适于允许相应的项目被辨别和建模。按照根据本发明的教导而适配的本领域的惯例，图像可以由设备14D或其它方式(例如，经由数码相机、智能手机或其它)生成。连同每个图像一起，客户端设备14D传送图像所属的项目的标签或其他标识符，这也是按照根据本发明的教导而适配的本领域的惯例。

尽管设备14D可以为n个目录项目中的每个传送单个图像，但是在大多数实施方案中，给每个此类项目提供多个图像，即，从多个视角显示项目的图像，例如，期望与在来自客户端设备14A-14C的基于图像的搜索请求(例如，70)中可能出现的项目中的那种匹配，均按照根据本发明的教导而适配的本领域的惯例。除了每个目录项目的多个视图之外，在一些实施方案中，客户端设备14D在“品质”的范围内传送每个目录项目的图像——即，一些显示了没有遮挡以及背景的相应的目录项目，而一些显示了具有遮挡(obstruction)和/或背景的项目。在这样的实施方案中，对于每个项目，不显示遮挡和背景的图像由客户端设备14D传送至前端33B以供平台66使用，首先用于训练，接着是显示具有遮挡和/或背景的目录项目的图像以供平台66使用，随后用于这样的训练。

作为示出的步骤A的一部分，AI平台66的模型构建部件接收来自前端33B的图像，并且创建适于检测图像中一个或多个项目的出现的基于神经网络的模型或其他AI模型。这在下面和附图中被称为“检测模型”。模型构建部件可以按照根据本发明的教导而适配的本领域已知的常规方式被实现和操作以生成该模型，并且模型本身是根据本发明的教导而适配的本领域已知的常规类型，以便于检测图像中的项目(例如，不管其特定特征如何——如下所讨论的)。

在步骤B中，AI平台66的模型构建部件针对n个目录项目中的每个生成单独的模型。与检测模型不同，在步骤B中生成的模型是旨在识别图像中的项目的特定特征的特征模型。此类特征的示例(例如，对于衬衫)可以包括颜色、有袖或无袖、有领或无领、有钮扣或无钮扣等。模型构建部件可以按照根据本发明的教导而适配的本领域已知的常规方式被实现和操作以生成此类模型，模型本身可以是根据本发明的教导而适配的本领域已知的常规类型，以便于识别图像中的项目的特征。

在步骤C中，电子商务网址的客户的客户端设备(例如14A)将如上所述的基于图像的请求70传输至平台66的前端31B。这可以通过按照根据本发明的教导而适配的本领域已知的常规方式实现。

在步骤D中，前端31B又将来自该请求的图像传输至检测模型，该检测模型利用来自步骤A的训练而识别图像中的表观(apparent)目录项目(在本文其他地方也称为“感兴趣的表观对象”)，连同边界框(表观对象在该边界框处驻留在图像中)和实际目录对象(根据该实际目录对象在步骤A中训练模型)与在步骤C中接收的图像中的可能匹配之间的匹配的确定性量度。考虑到本发明的教导，AI平台66的操作和更具体地用于此类目的的检测模型在本领域技术人员的知识范围内。

在步骤E-F中，前端31B利用在步骤D中提供的对应的边界框提取在步骤C中接收的图像中的每个单独的表观目录对象，并且将该提取的图像(或“子图像”)提供给相应的特征检索模型，该特征检索模型又将在提取的图像中示出的对象的特征列表返回至前端31B。考虑到本发明的教导，如上所述的表观目录对象的图像的提取在本领域技术人员的知识范围内。同样地，考虑到本发明的教导，AI平台66的实现和操作和更具体地用于标识在提取的图像中示出的表观目录对象的特征的特征模型在本领域的技术人员的知识范围内。

通过示例，在步骤E中，前端31B从C中提供的图像分离第一表观目录对象(假设，例如，表观男式夏威夷衬衫)的图像，并且将提取的子图像发送至用于夏威夷衬衫的特征检索模型。使用特征检索模型，平台66返回在子图像中示出的衬衫的特征列表，例如，颜色、有袖、有领等。列表可以使用文本、矢量或其它方式表达，均按照根据本发明的教导而适配的本领域的惯例。

同样地，在步骤F中，前端31B例如从在C中提供的图像分离软边皮革公文包的图像，并且将相应的子图像发送至用于此类公文包的特征检索模型。使用特征检索模型，平台66返回在提取的图像中示出的公文包的特征的列表，例如颜色、肩带、带扣等。同样，列表可以使用文本、矢量或其它方式表达，均按照根据本发明的教导而适配的本领域的惯例。

然而，步骤E-F示出了将特征检索模型用于从在步骤C中提供的图像提取的两个对象，实际上前端31B可以取决于在步骤D中通过检测模型识别了多少表观对象而更少或更多次地执行那些步骤。

在步骤G中，前端31B使用在步骤E-F中通过特征检索模型辨别的特征而进行目录数据集41的搜索。这可以是基于文本的搜索或以其他方式(例如，根据在步骤E-F或以其他方式返回至前端31B的特征的格式)，并且可以由形成AI平台的一部分的搜索引擎完成或以其他方式完成。按照根据本发明的教导而适配的本领域的惯例，引擎返回与搜索完全地、大致地或以其它方式匹配的目录项目，结果被传输至请求客户端数字数据设备以在其上呈现给其用户。如根据本发明的教导而适配的，搜索引擎的操作和这样的结果的返回在本领域技术人员的知识范围内。

在其用户的命令下，结合进一步的基于图像的搜索请求，客户端设备14A-14C类似地而重复步骤C-G。

以上描述以及在附图中示出的是用于基于图像的搜索的装置、系统和方法。应当理解，本文示出的实施方案仅仅是示例，并且其他实施方案属于下面阐述的权利要求的范围。因此，作为示例，尽管以上讨论集中于电子商务目录搜索，但是应当理解，其同等适用于其它数据集的搜索。

Claims

1.一种数据集的视觉搜索的数字数据处理方法，包括：

从客户端数字数据设备接收包括图像的请求；

在所述图像中识别所述图像内的感兴趣的表观对象和边界框，

对于一个或多个所述感兴趣的表观对象中的每个，提取由与其相关地识别的相应的边界框限定的子图像，

识别一个或多个子图像中的每个中的表观对象的特征，

将一个或多个识别的特征应用于搜索引擎，以识别数字数据集中的项目，

在所述客户端数字数据设备上呈现来自所述数字数据集的一个或多个标识的项目。

2.根据权利要求1所述的方法，包括生成与在所述图像中识别所述感兴趣的表观对象有关的不确定性量度。

3.根据权利要求1所述的方法，包括借助于文本、矢量或其他方式中的任意一种而识别所述特征。

4.根据权利要求3所述的方法，包括将标识特征的文本和矢量中的任意一个应用于所述搜索引擎，以标识所述数字数据集中的项目。

5.根据权利要求1所述的方法，包括使用人工智能生成所述检测模型。

6.根据权利要求5所述的方法，所述检测模型包括神经网络。

7.根据权利要求6所述的方法，包括使用所述数据集中的每个项目的图像训练所述神经网络。

8.根据权利要求7所述的方法，包括使用每个项目的多个图像训练所述神经网络，其中所述多个图像在具有遮挡或不具有遮挡以及具有背景或不具有背景的情况下显示所述项目。

9.根据权利要求1所述的方法，包括使用人工智能生成所述特征检索模型。

10.根据权利要求9所述的方法，每个所述特征检索模型包括神经网络。

11.根据权利要求10所述的方法，包括使用所述数据集中的每个项目的图像训练所述神经网络。

12.配置为引起一个或多个数字数据设备执行如下步骤的计算机指令：

从客户端数字数据设备接收包括图像的请求；

识别一个或多个子图像中的每个中的表观对象的特征，

13.根据权利要求12所述的计算机指令，配置为引起所述一个或多个数字数据设备执行步骤，所述步骤包括生成与在所述图像中识别感兴趣的表观对象有关的不确定性量度。

14.根据权利要求12所述的计算机指令，配置为引起所述一个或多个数字数据设备执行步骤，所述步骤包括借助于文本、向量或其他方式中的任意一种而识别所述特征。

15.根据权利要求14所述的计算机指令，配置为引起所述一个或多个数字数据设备执行步骤，所述步骤包括将标识特征的文本和向量中的任意一个应用于所述搜索引擎，以标识所述数字数据集中的项目。

16.根据权利要求12所述的计算机指令，配置为引起所述一个或多个数字数据设备执行步骤，所述步骤包括使用人工智能生成所述检测模型。

17.根据权利要求16所述的计算机指令，配置为引起所述一个或多个数字数据设备执行步骤，所述步骤包括使用所述数据集中的每个项目的图像训练神经网络。

18.根据权利要求17所述的计算机指令，配置为引起所述一个或多个数字数据设备执行步骤，所述步骤包括使用每个项目的多个图像训练所述神经网络，其中所述多个图像在具有遮挡或不具有遮挡以及具有背景或不具有背景的情况下显示所述项目。

19.根据权利要求12所述的计算机指令，配置为引起所述一个或多个数字数据设备执行步骤，所述步骤包括使用人工智能生成所述特征检索模型。

20.一种机器可读存储介质，具有在其上存储的计算机程序，所述计算机程序配置为引起一个或多个数字数据设备执行如下步骤：

从客户端数字数据设备接收包括图像的请求；

在所述图像中识别所述图像内的感兴趣的表观对象和边界框，因此，

识别一个或多个子图像中的每个中的表观对象的特征，