CN112567361A

CN112567361A - 计算机通信网络上基于属性的可视化搜索的系统和方法

Info

Publication number: CN112567361A
Application number: CN201980034238.7A
Authority: CN
Inventors: 黄丽; M·麦钱特; 胡厚东; A·萨切蒂
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-05-21
Filing date: 2019-05-06
Publication date: 2021-03-26
Also published as: US11120070B2; EP3797364A1; US20210382935A1; WO2019226299A1; US20190354609A1

Abstract

一种视觉搜索系统包括计算设备，该计算设备包括：图像处理引擎，用于生成表示图像输入中的用户所选择对象的特征矢量；对象检测引擎，用于在图像输入中定位一个或多个对象并且用于从图像输入中的对象确定用户所选择对象的类别，对象检测引擎使用类别生成针对用户所选择对象的多个属性；用于存储多个表的产品数据存储，多个表存储与用户所选择对象的类别相关联的一个或多个属性；属性生成引擎，用于为用户所选择对象的每个属性生成多个属性选项；以及属性匹配引擎，用于比较用户所选择对象的属性和属性选项以及视觉上相似的产品和图像的属性和属性选项。

Description

计算机通信网络上基于属性的可视化搜索的系统和方法

技术领域

本公开总体上涉及计算和通信的领域，并且特别地但非排他性地涉及用于使用实物的用户所指定的属性在计算机通信网络上执行视觉搜索的系统和方法。

发明内容

描述了一种视觉搜索系统和方法，该系统和方法使用从移动或其他计算设备的用户接收的图像输入作为搜索查询，以生成视觉上相似的产品和图像的图像搜索结果。图像输入可以包括由用户在图像中特别指定或标识的用户感兴趣的一个或多个对象。在用户选择了图像中的对象时，视觉搜索系统和方法确定针对该对象的类别，然后确定与所选择的对象的类别中的对象相关联的属性。类别和所确定的属性的组合使得该系统和方法能够确定和显示针对与用户所选择对象相关联的属性中的每个属性的用户可选择选项。搜索查询、类别、属性和相关属性选项在视觉搜索系统和方法中被使用，以生成视觉上类似于用户所选择对象的产品和图像的列表。

在确定用于显示给用户的属性选项时，该系统和方法标识选项并且以用户的偏好的顺序显示这些选项，如从针对类别中的对象的用户选择的监测所确定的，或者以与用户所选择对象的相对视觉相似性的顺序来显示这些选项。属性选项被显示在用户界面内，并且在被选择时，能够启用在视觉上类似于用户所选择对象的产品和图像的搜索、标识和取回，包括搜索查询。

提供本发明内容以便以简化的形式介绍概念的选择，这些概念将在下面的详细描述中进一步描述。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。

背景技术

互联网用于搜索和取回大量信息的使用持续增长，因此需要增强以各种方式和格式搜索、查看、评估和显示信息的能力。视觉搜索能力越来越重要，并且几乎每天都有新能力出现。

然而，当前的视觉搜索服务的阵列通常执行类似的功能。由这些设备所执行的功能包括分别使用诸如移动设备中的数字图像捕获软件和嵌入式相机等资源来处理来自在线和离线资源的图像。这些图像然后可以由这些视觉搜索服务处理，并且被用于定位在结构或功能上与图像中所示的产品相似的产品。一些当代视觉搜索服务还可以用于帮助用户确定在哪里购买这些图像中所示的产品，或者甚至找到在样式或颜色上与所接收的图像中所示的产品相似的产品。

尽管具有这些显著进步的重要性，但是当代视觉搜索服务在执行搜索这些产品之前，几乎没有提供或者几乎没有能力动态地适配或调节与所接收的图像中所示的感兴趣产品相关联的属性。视觉搜索服务也没有能力向用户提供在执行搜索以查找和显示具有类似用户指定属性的产品之前定制与产品相关联的属性。

因此，对于智能的基于属性的视觉搜索系统和方法存在大量且快速增长的需求，该系统和方法将使用户能够与视觉搜索服务动态交互并且能够交互式地调节由视觉搜索服务所使用的图像中的感兴趣产品的属性。

附图说明

参考以下附图描述非限制性和非穷举性的实施例，其中除非另外指明，否则贯穿各个视图，相同的附图标记表示相同的部分。

图1是一个实施例中的针对视觉搜索系统的操作环境的图示。

图2是一个实施例中的在台式计算机的界面上所执行的视觉搜索的图示。

图3是一个实施例中的在移动设备的界面上所执行的视觉搜索的图示。

图4A是示出用于执行基于属性的视觉搜索的方法的一个实施例的流程图。

图4B是示出用于基于属性的视觉搜索结果匹配的方法的一个实施例的流程图。

图4C是示出用于对基于属性的视觉搜索结果进行排名的方法的一个实施例的流程图。

图5示出了示例性计算环境。

具体实施方式

下面的示例实施例涉及一种可以增加所返回的视觉搜索结果的相关性的搜索方法。下文所述的示例允许用户在执行定制视觉搜索查询之前在与视觉搜索服务交互时指定所接收的图像(诸如移动设备的相机拍摄的图像)中的感兴趣的对象的属性，上述定制视觉搜索查询是部分地从用户所指定的属性所产生的。以这种方式，用户所指定的属性可以用于指导视觉搜索。

以下描述的实施例的技术效果涉及从基于属性的视觉搜索过程确定在视觉上类似于查询图像中的用户所选择对象的产品。这些实施例引起更有效，更准确并且向用户提供更多相关信息的基于视觉的搜索。

如以下更详细地描述的，示例计算系统基于所接收的图像中的对象和用户所指定的属性来生成视觉搜索查询。该系统使用一种或多种对象检测方法对图像进行分析，以对图像中包括的对象进行分类和分类别。该系统取回与所选择的对象的类别相关联的默认预存储属性集，为所选择的对象生成属性集，然后生成属性选项的排名有序列表，以使得用户能够定制与所选择的对象相关联的选项，以用于执行针对视觉上相似的产品的视觉搜索的目的。向用户示出的属性选项最初是从与所选择的类别的对象相关联的预存储属性确定的，但可以基于从系统生成的定制属性选项进行修改。在用户选择了属性选项时，系统可以使用输入查询图像的表示、定制属性选项和多层学习排名计算性框架来执行视觉搜索，从该多层学习排名计算性框架产生与查询图像有关的产品和图像的一个或多个排名结果。

作为预备事项，一些附图在一个或多个结构组件的上下文中描述了概念，结构组件被不同地称为功能性、模块、特征、元件等。图中所示的各种组件可以以任何方式被实施，诸如软件、硬件、固件或其组合。在一些情况下，图中所示的各种组件可以反映实际实现中对应的组件的使用。在其他情况下，图中示出的任何单个组件可以由多个实际组件来实施。图中任何两个或更多个分开的组件的描绘可以反映由单个实际组件执行的不同功能。

其他附图以流程图形式描述了概念。以这种形式，某些操作被描述为构成以某个顺序执行的不同框。这样的实现是示例性且非限制性的。本文中描述的某些框可以组合在一起并且在单个操作中被执行，某些框可以被分解为多个组成框，并且某些框可以以与本文所示的顺序不同的顺序被执行，包括执行框的并行方式。流程图中示出的框可以由软件、硬件、固件、手动处理等来实施。如本文中使用的，硬件可以包括微处理器、数字信号处理器(DSP)、微控制器、计算机系统、离散逻辑组件、和/或定制逻辑组件，诸如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、可编程逻辑阵列(PLA)等。

关于术语，短语“被配置为”涵盖可以被构造为执行所标识的操作的任何种类的功能性的任何方式。该功能可以被配置为使用例如软件、硬件、固件等来执行操作。例如，短语“被配置为”可以是指被布置为实现相关联的功能的硬件元件的逻辑电路结构。短语“被配置为”还可以是指被布置为实现固件或软件的相关功能的编码设计的硬件元件的逻辑电路结构。术语“模块”是指可以使用任何合适的硬件(例如，处理器等)、软件(例如，应用等)、固件、和/或硬件、软件和固件的任何组合来实现的结构元件。术语“逻辑”涵盖用于执行任务的任何功能。例如，流程图中示出的每个操作对应于用于执行该操作的逻辑。操作可以使用软件、硬件、固件等来被执行。术语“组件”、“系统”等可以是指计算机相关实体、硬件和执行中的软件、固件、或其组合。组件可以是在处理器、对象、可执行文件、程序、函数、子例程、计算机、或软件和硬件的组合上运行的进程。术语“处理器”可以指代硬件组件，诸如计算机系统的处理单元。

此外，使用标准编程和工程技术以产生软件、固件、硬件或其任意组合来控制计算设备以实施所公开的主题，可以将所要求保护的主题实现为方法、装置或制品。本文中使用的术语“制品”旨在涵盖从任何非瞬态计算机可读存储设备或介质可访问的计算机程序。计算机可读存储介质可以包括但不限于磁存储设备，例如硬盘、软盘、磁条、光盘、压缩盘(CD)、数字多功能磁盘(DVD)、智能卡、闪存设备等。相反，计算机可读介质(即，不是存储介质)可以另外包括通信介质，诸如用于无线信号等的传输介质。

图1是用于基于属性的视觉搜索系统的示例性环境100的图示。该环境可以包括一个或多个客户端110、112、114。每个客户端110、112、114可以被配置为通过计算机通信网络120与视觉搜索系统130通信。网络120可以是各种网络类型，包括公共交换电话网络(PSTN)、蜂窝电话网络和分组交换网络(例如，互联网)。

在一些实现中，每个客户端110、112、114可以包括台式个人计算机、工作站、膝上型计算机、智能电话、PDA、蜂窝电话、或者任何启用WAP的设备或者能够直接或间接与网络120接口的任何其他计算设备，诸如图6所示的计算设备600。每个客户端110、112、114可以运行HTTP客户端，例如浏览程序，诸如MICROSOFT INTERNET EXPLORER或其他浏览器、或者在手机、PDA或其他无线设备的情况下启用WAP的浏览器，允许客户端110、112、114的用户在视觉搜索系统130处访问可供其使用的信息或向视觉搜索系统130提供信息。例如，其他应用可以由客户端110、112、114的任何一个使用，以访问视觉搜索系统130或者向视觉搜索系统130提供信息。在一些实现中，视觉搜索系统130可以使用一个或多个通用计算系统(诸如图5所示的计算设备600)被实现。在一些其他实现中，视觉搜索系统130可以使用专用计算系统(诸如图形处理单元或张量处理单元)被实现。

在一些实现中，视觉搜索系统130可以从客户端110、112、114的用户接收查询图像，并且搜索产品数据库图像190的语料库(或者可搜索图像的任何语料库)，以找到查询图像的匹配图像。然后可以将匹配图像呈现或标识给提交了查询图像的用户。匹配图像可以包括来自一个或多个产品数据库190的一个或多个图像。产品数据库190可以存储从一个或多个用户接收或者收集的图像，或者存储在来自产品的商业供应商的网站上所显示或所呈现的图像。例如，产品数据库190可以存储从互联网所收集的图像，诸如来自社交媒体站点、电子商务商店或其他商业卖方网站的图像。尽管产品数据库190被示出为被直接连接到视觉搜索系统130，但是可以预期，产品数据库190可以经由网络120被连接到视觉搜索系统130，或者直接被集成到视觉搜索系统130中。

视觉搜索系统130处理来自搜索查询的图像，以生成图像数据。视觉搜索系统130可以包括图像处理引擎140，以将图像处理为从视觉特征所生成的视觉单词，视觉特征是在所接收的搜索查询中的图像的各个区域中所检测到的，诸如图像中的边缘、拐角和斑点。给定其信息性内容，视觉单词可以被用于将图像表示为，例如，对图像中视觉单词(例如，相关性的视觉特征)发生的次数的直方图分析。图像处理引擎140可以包括对象检测引擎142，对象检测引擎142用于执行对象定位和对象类别分类并且用于确定和生成在搜索查询的图像中所表示的对象的属性。属性生成引擎144也被提供，其连续监测用户活动以学习揭示针对各种类型的对象的用户偏好的模式。属性生成引擎144基于这种连续监测、从产品数据存储192中的默认的预存储属性集、以及从对象检测引擎142所生成的和所接收的属性，来生成属性选项，产品数据存储192中存储有类别和属性关联。然后，由属性生成引擎144基于与查询图像中用户所选择对象的视觉相似性或相像性的度，或者基于用户偏好，为每个属性生成属性选项的排名有序列表，用户偏好取决于针对与经常被查看、被复制或被存储的对象相关联的属性的某些属性选项的出现频率。在生成之后，可以在用户界面上呈现属性选项的排名有序列表，以使得用户能够对查询图像中与用户所选择对象相关的产品和图像执行高度相关的低延迟的搜索。

在一些实现中，视觉搜索系统130还可以包括相似性引擎150，相似性引擎150获取查询图像并且将其与从产品数据库190取回的数据库图像进行比较，以评估两者之间的相似性的级别。视觉搜索系统130还可以包括结果排名引擎160，结果排名引擎160基于所计算出的匹配标准来生成属性匹配搜索结果的排名有序列表。视觉搜索系统130还可以包括属性匹配引擎170，属性匹配引擎170用于生成搜索结果，搜索结果具有与搜索查询的图像中的一个或多个用户所选择对象的属性相匹配的属性。对于一些实现，视觉搜索系统130还可以包括学习引擎180，学习引擎180用于表征所接收到的搜索查询中的用户所选择对象，并且在由对象检测引擎142对用户所选择对象进行类别化之前，将对象与产品数据库190中的产品和图像进行比较。

图2是用于具有智能属性的视觉搜索系统的台式计算机上的用户界面的图示。用户界面200示出了由对象检测引擎已经检测到的若干对象。每个所检测到的对象都由热点(图像中每个对象上的方框标记)被标记，用户可以点击该热点。备选地，如该示例中所示，用户可以指定裁剪框204，以选择感兴趣的产品，以及以获取视觉上相似的产品或图像。在热点上点击或在感兴趣的对象周围创建经裁剪的图像框之后，第一选择区域206出现，诸如该示例中所示的弹出窗口，示出若干属性和相关属性选项，这些属性和相关属性选项可以由用户选择，以执行所针对的基于属性的视觉搜索。在一个操作性实施例中，针对每个相关属性的属性选项在排名有序列表中被呈现，使得被确定为与用户的个人偏好相一致的选项被显示在其他属性选项之前。从嵌入式属性生成引擎确定对针对所选择的对象的适用选项的这些用户偏好，嵌入式属性生成引擎主动在线监测用户动作，以确定已经以较高出现频率选择了产品或其他感兴趣的对象上的哪些选项。在备选实施例中，基于与用户所选择对象的视觉相似性，以排名顺序将属性选项呈现在选项选择区域或窗口中，使得与所选择的对象更紧密匹配的那些属性按顺序首先出现，而那些较不相似的属性在排名有序中稍后出现。在所示的示例中，如果用户的钱包选择是海军蓝色，则若干属性选项将出现在针对颜色属性的选择区域中，诸如拜占庭蓝色、浅蓝色、淡蓝色、焦油跟蓝色、蓝绿色、蓝灰色等。一旦选择了合适的属性选项，用户就可以通过点击搜索按钮208来开始视觉搜索，从而如图所示，在用户界面的第二区域中显示视觉相似的相关图像和相关产品。尽管图2中描绘的实施例示出了供用户选择的六个属性选项，但是在实践中，弹出窗口或者其他显示区域可以显示任何数目的属性以及相关联的属性选项，以用于在感兴趣的对象随着从热点的点击或图像中的感兴趣的对象的裁剪被确定而被选择之后，由用户查看和选择。

图3是移动设备上的用户界面的图示。移动设备上的用户界面300的该实施例包括所选择的对象的经裁剪图像302，其在被选择时生成定制选项第一地区区域(例如，弹出窗口)，在定制选项第一地区区域中描绘了与针对所选择的对象的属性有关的若干定制选项303(未示出)以及搜索按钮305(未示出)。在这个区域中示出的选项出现在排名有序列表中，并且可以基于所学习到的用户偏好或者基于与所选择的对象的相对视觉相似性而被显示，相对视觉相似性是从对象及其独特属性(例如，尺寸、颜色、样式等)的视觉分析而被确定的。在点击搜索按钮305之后，一系列相关产品304和相关图像306被显示在所选择的对象的裁剪框的位置下方的第二区域308中。在所示的实施例中，该第二区域308共同包括相关产品304和相关图像306出现在其中的区域。如本领域技术人员所知，其他区域(region)或区域(zone)可以用于描绘这样的产品和信息，诸如弹出窗口或其他可移动区域。应当注意，图像可以从移动设备、硬盘驱动器上存储的照片的存储库获取、从来自互联网或其他网络上的任何其他位置的网站或社交媒体站点(例如，Pinterest、Facebook等)复制、或者仅通过从移动设备的嵌入式相机拍摄照片来获取。不管原始接收图像的来源如何，用户都可以查看图像并且在图像内选择对象，以帮助标识相关产品和在线可用图像。

图4A是示出针对基于属性的视觉搜索而执行的方法的实施例的流程图。当在设备(例如，移动电话、个人计算机、膝上型计算机等)上接收到图像(例如，存储的照片、从在线站点(例如，Instagram、Pinterest、Twitter等)获取的图像)时，执行初步图像处理以分析和表征图像的内容，如步骤402所示。在表征图像中的内容之后，执行对象检测过程，如步骤404所示，以识别图像中的对象及其在图像中的位置，包括清晰度或视觉锐度有限的图像中的对象，诸如被截断或被遮挡的对象。对象检测过程执行多个相关过程，包括对象定位和对象类别分类(即，对象类别化)，以完全表征图像及其中所示出的对象。此外，在步骤404所执行的对象检测过程检测所接收的图像中出现的对象的独特特性和质量，包括检测和确定物理和视觉属性，诸如对象颜色、对象形状、对象长度、对象类型等。当确定对象类型时，对象检测过程使用对象类别分类来确定所检测的对象的独特的属性(例如，“服饰”对象类别使得对象类型属性能够成为包括休闲、鸡尾酒、正式、婚礼等的集合之一)。下面列出了在时尚和运动服装领域中应用的其他类型的类别特定属性的说明性示例。

对于一件衣服，以下是属性的代表性示例：

属性_类型：休闲、鸡尾酒、正式、婚礼

属性_样式：飞度、合身、礼服、马克西、直

属性_下摆：短、膝长、中、长、高低

属性_领口：船领、领子、露背、高领、露肩

属性_袖子类型：无肩带、无袖、短袖、3/4袖、长袖

属性_图案：动物印花、植物、几何、图形、牌戏、格子、圆点花样

属性_尺寸：常规0-20、小号0-16、加号0-4X、孕装0-18

属性_颜色：黑色、灰色、白色、棕色、紫色、蓝色、黄色、橙色、红色等。

对于鞋子，以下是属性的代表性示例：

属性_类型：短靴、靴子、平底鞋、高跟鞋、凉鞋、拖鞋、板鞋&运动鞋

属性_场合：新娘、休闲、礼服、聚会&晚会、度假、婚礼等。

属性_跟高：平跟、低跟、中跟、高跟、超高跟

属性_脚趾样式：封闭脚趾、开放脚趾、窥视脚趾、尖头脚趾、圆形脚趾

属性_宽窄：4A超瘦、3A瘦、2A窄、B中、C宽、E超宽

属性_尺寸：4、4.5、5、5.5、6等

对象定位是确定对象在经处理的图像中的特定位置的过程。在具有多个对象的图像中，对象定位过程在所标识的对象上标识、定位和设置边界框或者其他数字化标记，边界框或其他数字化标记被用于标识和建立对象相对于图像中其他对象的位置。对象类别分类是用于确定对象的类别的过程，该过程将被称为对象类别化。例如，如果图像描绘了一杯酒、一只猫和一个礼品盒，则可以使用对象定位过程在整个图像的设置内相对于彼此标识和定位这三个对象。同时，每个对象都可以大致地被分类别，在这种情况下将是礼品盒、动物和饮料。除了其在确定对象的大致类别时的作用，对象类别化过程还可以用于为图像内每个所检测到的对象确定属性集。在视觉搜索系统和方法的备选实施例中，可以应用一种或多种对象检测算法来执行对象定位和对象类别分类。在用于对象检测的不同类型的算法中，有单发多框(“SSD”)检测算法。SSD是单一深度神经网络，其可以在图像空间上建立默认的边界框的集合，并且根据每个特征图位置进行缩放。SSD算法生成表示图像中每个对象的存在的得分，并且调节适用的边界框以实现与对象形状的更好匹配。该方法将预测与多个特征图相结合，以处理大小不同的对象，包括被截断的对象或图像分辨率有限的对象。备选地，Faster R-CNN算法或者更快的区域卷积神经网络已经被应用于对象定位和对象类别化。该算法包括两个网络：区域提议网络和对象检测网络，对象检测网络使用由区域提议网络所生成的提议。区域提议网络对所计算的针对图像的区域边界框进行排名，并且提出最可能包含相关对象的区域边界框作为前景边界框。由区域提议网络所生成的各种边界框/区域提议由前景背景分类器和边界框回归器处理，以检查对象的出现及其在查询图像内的相应位置(例如，前景、背景等)。区域提议网络的作用是预测图像中的边界框是背景还是前景，并且细化预测以实现较高的准确性。

现在参考步骤406，在使用对象检测过程对图像内容进行分析和表征之后，可以基于用户的动作来检测对象选择请求，诸如对热点的点击、或者裁剪图像内的对象、或者通过在移动设备用户界面上示出的图像中所描绘的对象上的手指触摸或触控笔的点击而进行的选择。在检测到用户对象选择时，对所选择的对象执行特征提取过程，从而生成查询图像。在一个实施例中，查询图像是从裁剪框的并置到所接收的图像中示出的所选择的对象上创建的图像(即，存储、复制或取回从用户所接收的照片)。在备选实施例中，查询图像是从对热点的来生成的，该热点在所接收的图像中标记感兴趣的对象。特征提取过程确定包括查询图像的所选择的对象的独特视觉属性，并且基于查询图像生成特征矢量。特征矢量是查询图像中视觉相关特征(例如，边缘、轮廓、斑点等)的数字化表示。除了生成特征矢量，该过程还取回与为所选择的对象所确定的类别相关联的对象属性，如步骤408所示，然后将在对象检测过程(步骤404所示)期间产生的所生成的属性与所取回的对象属性408组合，以生成用于经组合的属性集的属性选项409。在一个实施例中，所生成的属性选项409是从基于规则的属性选项生成过程产生的，而在一个备选实施例中，所生成的属性选项409是从基于模型的属性选项生成过程产生的。如步骤408所示，基于规则的属性选项生成过程使用对象类别来确定要从数据库中所存储的一个或多个表取回哪些属性，其中关联阵列或类似数据结构被用于存储类别与预定义属性集之间的关联。另外，每个属性具有相关联的选项集(例如，属性：着装；属性选项：鸡尾酒，正式等)，并且在步骤409为与对象相关联的每个属性生成的属性选项中的每个可以基于用户偏好(从发生频率的分析而确定的)按照排序列表或其他排名有序方式被呈现。基于用户偏好的针对每个属性的选项的排名有序列表使用如上面的图1所示的属性生成引擎144被确定。属性生成引擎144连续监测用户动作，以辨别针对不同类型对象的选择的模式，并且基于这种选择的发生频率来开发用户偏好简档。该用户偏好简档使得属性生成引擎144能够生成并且显示用户选择偏好作为针对特定类别内的对象的每个属性的选项。对这样的使用模式的监测使得视觉搜索或者购物体验更加方便并且针对每个用户的偏好和/或兴趣。

备选地，并且如前所述，所生成的属性选项409可以从执行基于模型的属性选项生成过程来产生。如步骤406所示，当检测到对象的用户选择时，执行基于模型的属性选项生成过程，并且在第一实施例中，需要在深度神经网络上对所选择的对象图像进行处理，该深度神经网络在多次观察上被训练，以辨别和学习图像(例如，查询图像)的内容、属性集和一系列属性选项之间的关系或相似性。在该第一实施例中，深度神经网络可以实施LambdaMART排名模型以用于生成排名得分，该排名得分使得能够根据与查询图像中所选择的对象的视觉相似性来生成属性选项的排名有序列表。例如，在查询图像中示出并且由用户所选择的红色连衣裙将导致生成针对属性的属性选项，诸如视觉相似性递减的排名有序列表中的“颜色”(例如，浅红色、玫瑰色、粉红色、紫红色、紫色等)。同样地，对于“礼服帽”的属性，可以呈现排名有序列表，其呈现视觉相似性递减的选项(例如，软呢帽、贝雷帽、无檐小便帽、棒球帽等)。

在备选实施例中，在检测到用户对象选择406之后，深度神经网络被用于基于训练数据和训练模型来处理在执行如步骤404所示的对象检测过程期间所生成的属性，训练模型使得网络能够学习属性与属性选项之间的相似性。经训练网络被用于生成针对每个属性对(即，初始属性、属性选项)的相似性得分，并且基于其相应相似性得分对这些对进行排名。属性与属性选项之间的这些配对关联的这种排名被用于基于视觉相似性来生成和显示属性选项的排名有序列表，使得属性选项以与查询图像中所描绘的对象的相似性或相像性递减的顺序被呈现用于针对对象所显示的每个可用属性。

一旦选择了查询图像中的对象，用户的对象选择的裁剪图像将出现在用户界面上，或者，备选地，该对象将被标记有热点图标，如步骤410所示。一旦生成用于用户对象选择的裁剪图像，在一个实施例中，就出现弹出窗口，该弹出窗口显示与用户所选择对象相关联的对象属性列表，如步骤412所示。所显示的对象属性列表为对象的属性的全部或子集提供定制选项，对所检测到的对象具有不同或特定偏好的用户可以点击这些选项。如步骤416所示，在生成经修改的对象属性列表之前，在决策点414处所示，该系统检测或等待用户所选择对象属性选项的用户输入。经修改的对象属性列表416包括：从对象检测过程(步骤404所示)所生成的对象属性和所取回的属性(步骤408所示)的组合、以及针对经组合的所生成的属性和所取回的属性的集合中的每个属性的属性选项的排名有序列表。如前所述，在一个实施例中基于出现频率的分析，或者在另一实施例中根据与查询图像中的对象的相对视觉相似性，可以根据用户偏好对针对每个属性的选项进行排名有序。如果未选择用户属性选项，则如步骤418所示，使用表示查询图像(即，用户所选择对象)的特征矢量、经组合的所显示的对象属性的集合(即，所生成的属性和所取回的属性)和相关选项(如步骤412所示)作为输入，执行视觉搜索，然后生成最佳属性匹配结果(如步骤420所示)，并且显示最佳属性匹配搜索结果的排名有序列表，如步骤422所示，该排名有序列表是相对于查询图像中用户所选择对象从视觉上最相似的结果到视觉上最不相似的结果被排名的。

如步骤418所示，视觉搜索的执行涉及在启用视觉搜索引擎的操作的多层学习排名计算性框架中对特征矢量的处理，该特征矢量是从对查询图像所执行的特征提取过程所生成的。该视觉搜索引擎框架对特征矢量中的图像表示中所包含的信息进行系统的量化归约，并且包括多个计算组件，多个计算组件包括初始匹配级别(即，L0匹配)的视觉单词量化组件、次级中间结果排名级别的产品量化组件(即，L1排序)、以及最终的完整结果排名组件(即，L2排序)，该最终的完整结果排名组件用于对所标识的搜索结果进行排名，这些搜索结果具有与特征矢量中所表示的用户所选择对象的相匹配属性或相关属性视觉相似的性质。该框架涉及将特征矢量转换成查询图像的视觉单词量化表示(即，“视觉单词矢量”)，随后是视觉单词矢量的产品量化。然后，将从产品量化过程所产生的产品量化矢量用于跨一个或多个产品数据库执行全面的结果搜索，包括从商业供应商、学术中心、非营利组织和贸易组织等可获取的可公开访问的数据库，然后对搜索结果进行排名，以产生与查询图像相似或相关的产品和图像的列表。产品图像的来源可以是从跨互联网或其他公共或专用计算机网络的数据源以及从一个或多个产品或供应商数据库(在其上以图像的形式提供产品的视觉表示)被编译的预存储图像的图像索引。与所接收的图像中具有相同或视觉上相似属性(例如，无袖、红色礼服等)的(多个)用户所选择对象在视觉上相似的产品和图像以排名排序被显示，其中以相关性排名顺序首先呈现精准匹配结果，然后是具有匹配属性选项的视觉上相似的结果(例如，所选择的对象：带有佩斯利图案的黄色连衣裙；相关性排名结果：带有小星星的黄色连衣裙、带有小圆圈的浅橙色连衣裙等)。

在步骤404中，从在对象检测期间所执行的类别识别过程所标识的类别可以被用作访问存储在数据库(诸如反向索引数据库或键值数据库)中的与类别相关联的属性的索引，该数据库能够快速标识和取回与给定类别中的产品相关联的属性集。如步骤420所示，最佳属性匹配搜索结果的生成使用属性匹配引擎来快速比较、分析和匹配与查询图像中用户所选择对象相关的产品和图像的文本和其他元数据。基于查询图像中存在的用户所选择对象的属性与同一类别中相关产品和产品图像的属性之间的相似性，为结果分配排名权重。数据库使用对类别与属性之间的关联进行保存的关联阵列来实施倒排索引数据结构，能够快速标识和比较具有相同(或相似)属性的产品，并且为具有与用户所选择对象的属性相匹配或在语义上相似的属性的视觉上相似的产品和/或图像分配更大的排名权重。结果排名引擎对这些最佳属性匹配搜索结果执行排序，并且向用户显示搜索结果的排名有序列表，如步骤422所示。

图4B示出了用于视觉搜索系统中的属性匹配的过程430，并且旨在扩展在图4A中的步骤420处执行的步骤。该过程430开始于对针对用户所选择对象的属性的取回，如步骤432所示，包括对从针对所取回的属性的用户选择的定制选项生成的属性集的汇编，以及将它们和针对与所接收的图像中示出的用户所选择对象类似的产品的第三方产品属性进行比较。如步骤434所示，该比较步骤可以包括将与第三方产品描述或属性相关联的文本或其他元数据与从索引图像数据库所取回的用户所选择对象的属性集进行比较。定制选项是由用户在执行视觉搜索之前确定和设置的，以确保所取回的所有搜索结果都尽可能与用户所需要的产品属性匹配。在为用户所选择对象所指定的属性与第三方产品的属性之间进行比较的期间，过程被执行，以排除相对于针对用户所选择对象的属性集没有匹配属性的同一类别内的产品，如步骤436所示。这个排除过程降低所执行的处理的水平，并且有助于提高过程的总体速度，以用于揭示与用户所选择对象相关联的给定属性集最可能匹配的一组产品。在编译之后，基于所达成的最佳属性匹配来生成经缩小或经细化的产品列表，如步骤438所示。

图4C示出了用于使用加权搜索结果进行结果排名的过程440。从属性匹配引擎取回具有匹配属性的产品列表，如步骤442所示。该产品列表在用户界面上邻近用户所选择对象被显示为相关产品和相关图像。这些搜索结果是在用户点击以处理图像中的对象为中心的热点或在处理图像中的感兴趣的对象上应用裁剪框之后产生的。如步骤444所示，该排名器用于利用最大数目的匹配属性对所取回的产品列表进行排序。将基于一个或多个统计优化过程的匹配标准应用于学习排名计算性框架，以标识具有与用户所选择对象相同或相似的属性的视觉上相似的产品和/或图像。在一个实施例中，优化过程将K均值聚类技术应用于索引图像的语料库，同时将深度神经网络应用于查询图像以生成特征矢量，该特征矢量以视觉单词的集合来表示图像(即，视觉单词量化表示)。将n最近邻质心统计技术应用于经聚类的数据和特征矢量，以生成查询图像的视觉单词量化表示。n最近邻质心统计分析技术使得视觉上相似的产品和/或图像能够基于数据的簇中的质心的统计平均值之间的距离被建立。具有与表示查询图像的质心的统计平均值远离的统计平均值的质心被确定为较大差异(或者备选地，在统计上较不相关)，而具有与表示查询图像的质心的统计平均值接近的统计平均值的质心被确定为较相像(或较相关)，因此在视觉上更类似于查询图像。

用户所选择对象的属性集可以基于为给定对象类别预先存储的属性的集合或者基于由用户为预存储列表中的属性的集合中的每个属性指定的一个或多个定制选项的集合。然后，将属性组合，并且与产品列表中所取回的产品的集合的属性进行比较。在使用具有最大数目的匹配属性的产品生成产品列表之后，将检查各个供应商网站以确定哪些库存可用性被应用于经排序产品列表上的每个产品。如步骤446所示，对产品可用性的这种确认确保了产品的最佳匹配能够基于与用户所选择对象的视觉相似性以及供应商库存中的产品可用性而被生成。在标识出属性匹配产品并且确认供应商库存中的产品可用性之后，从精准匹配产品开始，以属性匹配排名顺序对产品进行排序和显示，如步骤448所示，以供用户查看。

图5示出了可以在其中实现示例实现和方面的示例性计算环境。计算系统环境仅仅是合适的计算环境的一个示例，并且无意对使用或功能范围提出任何限制。可以使用很多其他通用或专用计算系统环境或配置。可以适于使用的众所周知的计算系统、环境和/或配置的示例包括但不限于个人计算机(PC)、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、网络个人计算机、小型计算机、大型计算机、嵌入式系统、包括上述任何系统或设备的分布式计算环境等。

可以使用由计算机执行的计算机可执行指令，诸如程序模块。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。可以使用分布式计算环境，其中任务由通过通信网络或其他数据传输介质链接的远程处理设备执行。在分布式计算环境中，程序模块和其他数据可以位于包括内存存储设备在内的本地和远程计算机存储介质中。

参考图5，用于实现本文中描述的各方面的示例性系统包括计算设备，诸如计算设备500。在其最基本配置中，计算设备500通常包括至少一个处理单元502和存储器504。取决于计算设备的精准配置和类型，存储器504可以是易失性的(诸如随机存取存储器(RAM))、非易失性的(诸如只读存储器(ROM)、闪存等)或这两者的某种组合。这种最基本配置在图5中用虚线506示出。

计算设备500可以具有附加特征/功能。例如，计算设备500可以包括附加存储装置(可移动和/或不可移动)，包括但不限于磁盘、光盘或磁带。在图5中通过可移动存储装置508和不可移动存储装置510示出这样的附加存储装置。

计算设备500通常包括各种计算机可读介质。计算机可读介质可以是设备500可以访问的任何可用介质，并且包括易失性和非易失性介质、可移动和不可移动介质。

计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性以及可移动和不可移动介质。存储器504、可移动存储装置508和不可移动存储装置510都是计算机存储介质的示例。计算机存储介质包括但不限于RAM、ROM、电可擦除程序只读存储器(EEPROM)、闪存或其他存储技术、CD-ROM、数字多功能磁盘(DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备、或者可以用于存储所需信息并且可以由计算设备500访问的任何其他介质。任何这样的计算机存储介质都可以是计算设备500的一部分。

计算设备500还可以具有(多个)输入设备514，诸如键盘、鼠标、笔、语音输入设备、触摸输入设备等。也可以包括(多个)输出设备516，诸如显示器、扬声器、打印机等。所有这些设备在本领域中是众所周知的，并且在此无需详细讨论。

应当理解，本文中描述的各种技术可以结合硬件或软件或者在适当时结合这两者的组合来实现。因此，当前公开的主题的方法和装置或其某些方面或部分可以采取包含在有形介质(诸如软盘、CDROM、硬盘驱动器或任何其他机器可读存储介质)中的程序代码(即，指令)的形式，其中当程序代码被加载到诸如计算机等机器中并且由其执行时，该机器成为用于实践本公开主题的装置。

尽管示例性实现可以是指在一个或多个独立计算机系统的上下文中利用当前公开的主题的各方面，但是本主题不限于此，而是可以结合任何计算环境来实现，诸如网络或分布式计算环境。更进一步，本公开主题的各方面可以在多个处理芯片或设备中或跨多个处理芯片或设备实现，并且存储可以类似地跨多个设备实现。例如，这样的设备可以包括个人计算机、网络服务器和手持设备。

尽管已经以特定于结构特征和/或方法动作的语言描述了主题，但是应当理解，所附权利要求书中定义的主题不必限于上述特定特征或动作。相反，上述特定特征和动作被公开作为实现权利要求的示例形式。

Claims

1.一种用于视觉搜索的计算机实现的方法，所述方法包括：

由计算设备接收图像输入；

由所述计算设备确定所述图像输入中所表示的至少一个对象；

由所述计算设备检测对所述图像输入中所表示的所述至少一个对象的用户选择；

响应于所述用户选择，由所述计算设备生成表示所述图像输入中的至少一个用户所选择对象的特征矢量、以及针对所述至少一个用户所选择对象的第一多个属性；

由所述计算设备取回针对所述至少一个用户所选择对象的第二多个属性，所述第二多个属性是针对所述至少一个用户所选择对象的类别被预定的；

由所述计算设备生成针对属性集中的每个属性的一个或多个用户可选择选项，所述属性集包括所述第一多个属性和所述第二多个属性；

响应于对所述用户可选择选项中的一个或多个用户可选择选项的用户选择，由所述计算设备从在图像处理框架中对所述特征矢量、所述属性集和用户所选择的所述选项的处理，生成多个搜索结果；

由所述计算设备生成所述多个搜索结果的排名有序列表，所述多个搜索结果根据与针对所述至少一个用户所选择对象的所述属性集的匹配标准而是排名有序的；以及

生成所述排名有序列表在显示设备的用户界面上的显示。

2.根据权利要求1所述的计算机实现的方法，其中所述匹配标准是从统计优化过程中确定的，所述优化过程包括：

将k均值聚类应用于图像索引中的多个图像；以及

将针对图像的每个簇的质心与包括来自所述特征矢量的多个图像数据的簇进行比较，其中所述多个搜索结果包括一个或多个产品和图像，所述多个搜索结果基于n最近邻质心统计分析针对与所述用户所选择对象的视觉相似性被排名。

3.根据权利要求2所述的计算机实现的方法，其中所述至少一个对象的所述确定还包括：

将对象定位方法应用于所述图像输入，以用于建立所述至少一个对象中的每个对象在所述图像输入中的位置；以及

执行对象类别分类方法，以用于使用所述对象定位方法确定针对位于所述图像输入中的所述至少一个对象中的每个对象的类别。

4.根据权利要求2所述的计算机实现的方法，其中所述特征矢量的所述生成包括将特征提取方法应用于所述至少一个用户所选择对象，所述方法包括：

检测所述至少一个用户所选择对象的一个或多个物理特征和视觉特征；以及

确定所述用户所选择对象的所述物理特征和所述视觉特征的视觉单词量化表示。

5.根据权利要求1所述的计算机实现的方法，其中所述第一多个属性的所述生成包括应用特征提取方法，所述方法包括：

检测所述图像输入中所表示的所述至少一个用户所选择对象的多个物理特征和多个视觉特征；以及

将多个检测到的特征与所生成的所述用户所选择对象的类别相关联，所述类别从所述图像输入中所表示的所述至少一个对象的所述确定被标识。

6.根据权利要求1所述的计算机实现的方法，其中针对所述至少一个用户所选择对象的所述第二多个属性的所述取回包括：

使用从所述图像输入中所表示的所述至少一个对象的所述确定被标识的所述类别来搜索数据库；以及

在所述数据库中与所述至少一个对象的所述类别的所存储的关联中取回预定的多个属性。

7.根据权利要求1所述的计算机实现的方法，其中针对每个属性的所述用户可选择选项根据所监测的用户偏好和针对每个选项的排名得分中的至少一项被显示在用户界面上，所述排名得分表示与所述用户所选择对象的相对视觉相似性排名。

8.根据权利要求6所述的计算机实现的方法，其中所述数据库是倒排索引数据库和键值数据库中的至少一项，所述数据库以所述类别和与所述类别相关联的所述第二多个属性之间的索引关系来存储数据。

9.根据权利要求1所述的计算机实现的方法，其中从在所述图像处理框架中对所述特征矢量、所述属性集和所述多个用户所选择的选项的处理进行的对所述多个搜索结果的所述生成包括：

从在所述框架中的视觉单词量化组件中对所述特征矢量的所述处理，来生成所述用户所选择对象的视觉单词量化表示；

使用产品量化组件来生成所生成的所述视觉单词量化表示的产品量化表示；以及

从在结果排名组件中对所述产品量化表示、所述属性集和所述用户所选择的选项的处理来生成产品和图像的列表，所述产品和图像在视觉上类似于所述图像输入中所表示的所述用户所选择对象。

10.根据权利要求9所述的计算机实现的方法，其中所述多个搜索结果的所述排名有序列表的所述生成包括：

生成一个或多个产品和图像的列表，所述一个或多个产品和图像中的每一个在视觉上类似于所述图像输入中所表示的所述用户所选择对象；

将所述属性集与针对所生成的产品和图像的所述列表中的所述一个或多个产品和图像中的每一个的所述属性中的至少一个属性进行比较；以及

从视觉上最相似到视觉上最不相似，对与所述用户所选择对象有关的所述一个或多个产品和图像的所述排名有序列表进行排序。

11.根据权利要求1所述的计算机实现的方法，其中所述图像输入中所表示的所述至少一个对象的所述确定使用对象检测方法而被执行，所述方法是以下至少一项：Faster R-CNN(更快的基于区域的卷积神经网络)方法和单发多框检测方法。

12.一种视觉搜索系统，包括计算设备，所述计算设备包括：

用于生成表示图像输入中的用户所选择对象的特征矢量的装置；

用于在所述图像输入中定位一个或多个对象并且用于从所述图像输入中的所述一个或多个对象中确定用户所选择对象的类别的装置，所述对象检测引擎使用所述类别生成针对所述图像输入中的所述用户所选择对象的多个属性；

用于存储多个表的装置，每个表存储与所述用户所选择对象的类别相关联的一个或多个属性，每个所存储的属性具有多个属性选项；

用于生成针对由所述对象检测引擎所确定的所述用户所选择对象的所述属性中的每个属性的多个属性选项的装置；以及

用于比较所述用户所选择对象的属性和属性选项与被存储在一个或多个产品数据库中的多个产品和图像的属性和属性选项的装置。

13.根据权利要求12所述的系统，还包括用于如下的装置：将所述图像输入中的所述用户所选择对象与所述一个或多个产品数据库中的类别中的被索引的产品和图像进行比较，以确定所述用户所选择对象与所述被索引的产品和图像中的每一个之间的相对视觉相似性。

14.根据权利要求12所述的系统，还包括用于如下的装置：生成属性满足与所述用户所选择对象的所述属性的匹配标准的所述产品和图像的排名有序列表。

15.根据权利要求12所述的系统，还包括用于如下的装置：表征所述图像输入中的所述用户所选择对象，并且使用所述多个属性将所述用户所选择对象与所述一个或多个产品数据库中的所述被索引的产品和图像进行比较。