CN104021150B

CN104021150B - 带有社交网络辅助的面部识别

Info

Publication number: CN104021150B
Application number: CN201410211070.1A
Authority: CN
Inventors: 戴维·彼得鲁; 安德鲁·拉比诺维奇; 哈特维希·亚当
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2009-08-07
Filing date: 2010-08-06
Publication date: 2017-12-19
Anticipated expiration: 2030-08-06
Also published as: US10515114B2; CN104021150A; US20110038512A1; US9208177B2; AU2010279248A1; US20180322147A1; US10031927B2; JP2013501978A; CA2770239C; CN102667763A; EP2462522A1; US20160055182A1; US20140172881A1; KR20120058539A; JP2019023923A; JP5985535B2; BR112012002823B1; JP2014194810A; KR101760855B1; US8670597B2

Abstract

本发明涉及带有社交网络辅助的面部识别。一种处理包括面部图像的视觉查询的方法包括：获取由请求用户提交到基于图像的搜索系统的查询图像；获取被标识为与所述查询图像匹配的一个或多个图像；标识与被标识为与所述查询图像匹配的所述一个或多个图像中的至少一个图像相关联的多个人；对于与所述一个或多个图像中的至少一个图像相关联的每个人，获取反映该人与所述请求用户之间的社交联系性程度的分值；基于所述多个人的相应分值，从所述多个人中选择一个或多个人；以及将所述多个人中的所选择的所述一个或多个人的相应标识符提供给所述请求用户。

Description

带有社交网络辅助的面部识别

分案说明

本申请属于申请日为2010年8月6日的中国专利申请201080045193.2的分案申请。

技术领域

所公开的实施例一般地涉及通过利用社交网络信息和从所标识的个人的其他图片获取的信息来帮助标识最佳匹配的个人，来标识潜在匹配图像查询中的人脸的一个或多个人。

背景技术

基于文本或基于词语的搜索，其中用户将词或短语输入到搜索引擎中并且接收各种结果，是用于进行搜索的有用工具。然而，基于词语的查询要求用户能够输入相关词语。有时，用户可能希望知道关于图像的信息。例如，用户可能想要知道照片中的人的名字。个人还可能希望知道关于照片中的人的其他信息，诸如联系信息。因此，期望的是，能够接收面部图像查询并且提供与面部图像查询中的所标识的个人有关的多种搜索结果的系统。

发明内容

根据一些实施例，一种处理包括面部图像的视觉查询的计算机实现的方法在服务器系统上被执行，所述服务器系统具有一个或多个处理器和存储一个或多个程序以供该一个或多个处理器执行的存储器。该方法包括在下面概述的过程。从请求者接收包括包含相应面部图像的一个或多个面部图像的视觉查询。根据视觉相似性标准标识潜在匹配相应面部图像的潜在图像匹配。潜在图像匹配包括来自根据关于请求者的数据所标识的一个或多个图像源的图像。标识与潜在图像匹配相关联的一个或多个人。对于每一个所标识的个人，检索特定于个人的数据，其包括从多个应用获取的与请求者的社交联系性的社交关系度量。多个应用选自由以下组成的组：通信应用、社交网络应用、日历应用以及协作应用。通过根据在相应面部图像和潜在图像匹配之间的视觉相似性的一个或多个度量以及还根据包括至少社交关系度量的排名信息来对一个或多个所标识的个人进行排名，生成个人的排序列表。然后，将来自排序列表的至少一个个人标识符发送给请求者。这样的方法还可以包括用来执行在下面部分中论述的另外选项的程序指令。

根据一些实施例，提供了一种用于处理包括面部图像的视觉查询的服务器系统。该服务器系统包括用于执行程序的一个或多个处理器和存储由该一个或多个处理器执行的一个或多个程序的存储器。该一个或多个程序包括用于如在下面概述的过程的指令。从请求者接收包括包含相应面部图像的一个或多个面部图像的视觉查询。根据视觉相似性标准标识潜在匹配相应面部图像的潜在图像匹配。潜在图像匹配包括来自根据关于请求者的数据所标识的一个或多个图像源的图像。标识与潜在图像匹配相关联的一个或多个人。对于每一个所标识的个人，检索特定于个人的数据，其包括从多个应用获取的与请求者的社交联系性的社交关系度量。多个应用选自由以下组成的组：通信应用、社交网络应用、日历应用以及协作应用。通过根据在相应面部图像和潜在图像匹配之间的视觉相似性的一个或多个度量以及还根据包括至少社交关系度量的排名信息来对一个或多个所标识的个人进行排名，生成个人的排序列表。然后，将来自排序列表的至少一个个人标识符发送给请求者。这样的系统还可以包括用来执行在下面部分中论述的另外选项的程序指令。

根据一些实施例，提供了一种用于处理包括面部图像的视觉查询的非暂时性计算机可读存储介质。该计算机可读存储介质存储被配置成由计算机执行的一个或多个程序，该一个或多个程序包括用于执行下述的指令。从请求者接收包括包含相应面部图像的一个或多个面部图像的视觉查询。根据视觉相似性标准标识潜在匹配相应面部图像的潜在图像匹配。潜在图像匹配包括来自根据关于请求者的数据所标识的一个或多个图像源的图像。标识与潜在图像匹配相关联的一个或多个人。对于每一个所标识的个人，检索特定于个人的数据，其包括从多个应用获取的与请求者的社交联系性的社交关系度量。多个应用选自由以下组成的组：通信应用、社交网络应用、日历应用以及协作应用。通过根据在相应面部图像和潜在图像匹配之间的视觉相似性的一个或多个度量以及还根据包括至少社交关系度量的排名信息来对一个或多个所标识的个人进行排名，生成个人的排序列表。然后，将来自排序列表的至少一个个人标识符发送给请求者。这样的计算机可读存储介质还可以包括用来执行在下面部分中论述的另外选项的程序指令。

附图说明

图1是图示包括视觉查询服务器系统的计算机网络的框图。

图2是图示与一些实施例一致的用于对视觉查询作出响应的过程的流程图。

图3是图示与一些实施例一致的用于用交互式结果文档对视觉查询作出响应的过程的流程图。

图4是图示与一些实施例一致的在客户端和视觉查询服务器系统之间的通信的流程图。

图5是图示与一些实施例一致的客户端系统的框图。

图6是图示与一些实施例一致的前端视觉查询处理服务器系统的框图。

图7是图示与一些实施例一致的利用来处理视觉查询的并行搜索系统中的通用搜索系统的框图。

图8是图示与一些实施例一致的利用来处理视觉查询的OCR搜索系统的框图。

图9是图示与一些实施例一致的利用来处理视觉查询的面部识别搜索系统的框图。

图10是图示与一些实施例一致的利用来处理视觉查询的图像到词语搜索系统的框图。

图11图示与一些实施例一致的具有示例性视觉查询的截屏的客户端系统。

图12A和12B每一个图示与一些实施例一致的具有带有边界框的交互式结果文档的截屏的客户端系统。

图13图示与一些实施例一致的具有按类型编码的交互式结果文档的截屏的客户端系统。

图14图示与一些实施例一致的具有带有标签的交互式结果文档的截屏的客户端系统。

图15图示与一些实施例一致的交互式结果文档和视觉查询与结果列表同时显示的截屏。

图16A-16B是图示与一些实施例一致的对包括面部图像的视觉查询作出响应的过程的流程图。

图17是图示与一些实施例一致的在生成潜在匹配视觉查询中的面部图像的个人的排序列表时使用的各种因素和特征的流程图。

图18A是图示与一些实施例一致的面部识别搜索系统所利用的面部图像数据库的数据结构的一部分的框图。

图18B图示了与一些实施例一致的跨诸如社交网络和通信应用的多个应用的人们之间的关系。

图18C是图示与一些实施例一致的一些图像得到的特征的框图。

整个附图，相同的参考数字指代对应的部分。

具体实施方式

现将详细参考实施例，在附图中图示了所述实施例的示例。在下面的详细描述中，阐述了许多具体细节以提供对本发明的全面了解。然而，对本领域普通技术人员将是显而易见的是，在没有这些具体细节的情况下，可以实践本发明。在其他情况下，没有详细描述众所周知的方法、程序、组件、电路和网络，以免不必要地使实施例的方面模糊不清。

还将理解的是，尽管词语第一、第二等在此可以用于描述各种元素，这些元素不应当由这些词语限制。这些词语仅仅用于区分元素。例如，在不背离本发明的范围的情况下，第一联系人可以被称为第二联系人，以及类似地，第二联系人可以被称为第一联系人。第一联系人和第二联系人都是联系人，但是其不是同一联系人。

在此对本发明的描述中所使用的术语仅用于描述特定实施例的目的，并且并不意在是对本发明的限制。除非语境另外明确指示，如在本发明的描述和所附权利要求中所使用的，单数形式“一”、“一个”和“所述”还意在包括复数形式。还将理解的是，如在此所使用的词语“和/或”是指并且涵盖相关联的列出的项中的一个或多个的任何和所有可能组合。将进一步理解的是，词语“包括”当在本说明书中使用时指示陈述的特征、完整物、步骤、操作、元素和/或组件的存在，但是并不排除一个或多个其他特征、完整物、步骤、操作、元素、组件和/或其组群的存在或添加。

取决于语境，如在此所使用的，词语“如果”可以被解释成意为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成意为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

图1是图示根据一些实施例的包括视觉查询服务器系统的计算机网络的框图。计算机网络100包括一个或多个客户端系统102和视觉查询服务器系统106。一个或多个通信网络104使这些组件互连。通信网络104可以是多种网络中的任何网络，包括局域网(LAN)、广域网(WAN)、无线网络、有线网络、因特网或这样的网络的组合。

客户端系统102包括用于接收视觉查询(例如，图11的视觉查询1102)的客户端应用108，其由客户端系统执行。视觉查询是作为查询提交给搜索引擎或搜索系统的图像。视觉查询的示例不受限制包括照片、扫描的文档和图像以及图画。在一些实施例中，客户端应用108选自由搜索应用、用于浏览器应用的搜索引擎插件和用于浏览器应用的搜索引擎扩展组成的集合。在一些实施例中，客户端应用108是“广泛的”搜索框，其允许用户将任何格式的图像拖放入该搜索框以被用作视觉查询。

客户端系统102将查询发送给视觉查询服务器系统106并且从视觉查询服务器系统106接收数据。客户端系统102可以是能够与视觉查询服务器系统106进行通信的任何计算机或其他设备。示例不受限制包括台式和笔记本式计算机、大型计算机、服务器计算机、诸如移动电话和个人数字助理的移动设备、网络终端以及机顶盒。

视觉查询服务器系统106包括前端视觉查询处理服务器110。前端服务器110从客户端102接收视觉查询，并且将该视觉查询发送给多个并行搜索系统112以供同时处理。搜索系统112每一个实现不同的视觉查询搜索过程，并且必要时访问其对应的数据库114以通过其不同的搜索过程对视觉查询进行处理。例如，人脸识别搜索系统112-A将访问面部图像数据库114-A以查找与图像查询的面部匹配。如将参考图9更详细说明的，如果视觉查询包含人脸，则面部识别搜索系统112-A将返回来自面部图像数据库114-A的一个或多个搜索结果(例如，名字、匹配的人脸等)。在另一个示例中，光学字符识别(OCR)搜索系统112-B将视觉查询中的任何可识别的文本转换成文本以作为一个或多个搜索结果返回。在光学字符识别(OCR)搜索系统112-B中，如将参考图8更详细说明的，可以访问OCR数据库114-B以识别特定字体或文本图案。

可以使用任何数量的并行搜索系统112。一些示例包括面部识别搜索系统112-A、OCR搜索系统112-B、图像到词语搜索系统112-C(其可以识别对象或对象类别)、产品识别搜索系统(其可以被配置成识别诸如书籍封面和CD的二维图像，以及还可以被配置成识别诸如家具的三维图像)、条形码识别搜索系统(其识别一维和二维式样条形码)、命名实体识别搜索系统、地标识别(其可以被配置成识别如同埃菲尔铁塔的特定著名地标，以及还可以被配置成识别诸如广告牌的特定图像的语料库)、由客户端系统102中的GPS接收器或移动电话网络提供的地理位置信息辅助的地点识别、颜色识别搜索系统以及类似的图像搜索系统(其搜索并标识与视觉查询类似的图像)。更多的搜索系统可以被添加为在图1中由系统112-N所表示的、另外的并行搜索系统。除OCR搜索系统外，所有搜索系统在此被共同定义为执行图像匹配过程的搜索系统。包括OCR搜索系统的所有搜索系统被统称为按图像查询搜索系统。在一些实施例中，视觉查询服务器系统106包括面部识别搜索系统112-A、OCR搜索系统112-B和至少一个其他的按图像查询搜索系统112。

并行搜索系统112每一个分别对视觉搜索查询进行处理，并且将其结果返回给前端服务器系统110。在一些实施例中，前端服务器100可以对搜索结果执行一个或多个分析，诸如以下的一个或多个：将结果聚合成复合文档、选择结果的子集来显示以及对结果进行排名，如将参考图6更详细说明的。前端服务器110将搜索结果通信给客户端系统102。

客户端系统102向用户展示一个或多个搜索结果。结果可以在显示器上、通过音频扬声器或用于向用户通信信息的任何其他装置来展示。用户可以以多种方式与搜索结果进行交互。在一些实施例中，用户的选择、注释和与搜索结果的其他交互被传送给视觉查询服务器系统106，并且与视觉查询一起被记录在查询和注释数据库116中。查询和注释数据库中的信息可以用于改进视觉查询结果。在一些实施例中，将来自查询和注释数据库116的信息周期性推送到并行搜索系统112，其将信息的任何相关部分合并入其各自的单独数据库114。

计算机网络100可选地包括用于响应于词语查询而执行搜索的词语查询服务器系统118。相对于包含图像的视觉查询，词语查询是包含一个或多个词语的查询。词语查询服务器系统118可以用于生成对视觉查询服务器系统106中的各自搜索引擎所产生的信息进行补充的搜索结果。从词语查询服务器系统118返回的结果可以包括任何格式。词语查询服务器系统118可以包括文本文档、图像、视频等。虽然词语查询服务器系统118在图1中被示出为独立系统，可选地，视觉查询服务器系统106可以包括词语查询服务器系统118。

在下面参考图2-4中的流程图提供了关于视觉查询服务器系统106的操作的另外信息。

图2是图示根据本发明的某些实施例的用于对视觉查询作出响应的视觉查询服务器系统方法的流程图。在图2中所示的操作中的每一个可以对应于存储在计算机存储器或计算机可读存储介质中的指令。

视觉查询服务器系统从客户端系统接收视觉查询(202)。客户端系统例如可以是台式计算设备、移动设备或另一个类似设备(204)，如参考图1所说明的。在图11中示出了在示例客户端系统上的示例视觉查询。

视觉查询是任何适当格式的图像文档。例如，视觉查询可以是照片、截屏、扫描的图像或帧或多个视频帧的序列(206)。在一些实施例中，视觉查询是内容创作程序(图5的736)所产生的图画。如此，在一些实施例中，用户“绘制”视觉查询，而在其他实施例中，用户扫描或拍摄视觉查询。一些视觉查询使用诸如Acrobat的图像生成应用、照片编辑程序、绘图程序或图像编辑程序来创建。例如，视觉查询可以来自：用户在其移动电话上拍摄其朋友的照片，然后将该照片作为视觉查询提交给服务器系统。视觉查询还可以来自：用户对杂志页面进行扫描，或获得在台式计算机上的网页的截屏，然后将扫描或截屏作为视觉查询提交给服务器系统。在一些实施例中，视觉查询通过浏览器应用的搜索引擎扩展、通过用于浏览器应用的插件或通过客户端系统102执行的搜索应用被提交给服务器系统106。视觉查询还可以由(客户端系统执行的)支持或生成可以由客户端系统传送给位于远程的服务器的图像的其他应用程序提交。

视觉查询可以是文本和非文本元素的组合(208)。例如，查询可以是包含图像和文本，诸如一个人站在路标旁边，的杂志页面的扫描。视觉查询可以包括无论是由嵌入在客户端系统中的照相机拍摄的还是通过客户端系统扫描或接收的文档获得的、人的脸的图像。视觉查询还可以是仅包含文本的文档的扫描。视觉查询还可以是多个不同主题的图像，诸如森林中的数只鸟、人和物体(例如，汽车、公园长凳等)、人和动物(例如，宠物、农场动物、蝴蝶等)。视觉查询可以具有两个或多个不同的元素。例如，视觉查询可以包括在产品包装上的条形码和产品图像或产品名称。例如，视觉查询可以是包括书籍标题、封面艺术和条形码的书籍封面的图片。如在下面更详细论述的，在一些情况下，一个视觉查询将产生与该视觉查询的不同部分相对应的两个或多个不同的搜索结果。

服务器系统如下对视觉查询进行处理。前端服务器系统将视觉查询发送给多个并行搜索系统以供同时处理(210)。每一个搜索系统实现不同的视觉查询搜索过程，即独立搜索系统通过其自身处理方案对视觉查询进行处理。

在一些实施例中，视觉查询被发送给其以供处理的搜索系统中的一个是光学字符识别(OCR)搜索系统。在一些实施例中，视觉查询被发送给其以供处理的搜索系统中的一个是面部识别搜索系统。在一些实施例中，运行不同的视觉查询搜索过程的多个搜索系统至少包括：光学字符识别(OCR)、面部识别以及不同于OCR和面部识别的另一个按图像查询过程(212)。另一个按图像查询过程选自包括但不限于以下的过程集：产品识别、条形码识别、对象或对象类别识别、命名实体识别以及颜色识别(212)。

在一些实施例中，命名实体识别作为OCR搜索系统的后期过程发生，其中对OCR的文本结果分析著名的人、场所、对象等，然后在词语查询服务器系统(图1的118)中搜索被标识为是命名实体的词语。在其他实施例中，著名的地标、标志、人、专辑封面、商标等的图像由图像到词语搜索系统识别。在其他实施例中，利用与图像到词语搜索系统分离的不同命名实体按图像查询过程。对象或对象类别识别系统识别如同“汽车”的通用结果类型。在一些实施例中，该系统还识别产品品牌、特定产品型号等，以及提供更具体的描述，如同“保时捷”。搜索系统中的部分可以是特定于特殊用户的搜索系统。例如，颜色识别和面部识别的特定版本可以是由盲人使用的特殊搜索系统。

前端服务器系统从并行搜索系统接收结果(214)。在一些实施例中，结果附有搜索分值。对于一些视觉查询，搜索系统中的部分不会找到相关结果。例如，如果视觉查询是花的图片，则面部识别搜索系统和条形码搜索系统不会找到任何相关结果。在一些实施例中，如果没有相关结果被找到，则从该搜索系统接收空或零搜索分值(216)。在一些实施例中，如果前端服务器在预定义时段(例如，0.2、0.5、1、2或5秒)之后没有从搜索系统接收到结果，则其将仿佛该超时服务器产生了空搜索分值般对所接收到的结果进行处理，以及将对从其他搜索系统接收到的结果进行处理。

可选地，当所接收到的搜索结果中的至少两个满足预定义标准时，对其进行排名(218)。在一些实施例中，预定义标准中的一个排除无效结果。预定义标准是结果不是无效的。在一些实施例中，预定义标准中的一个排除具有落在预定义最小分值之下的(例如，关于相关性因素的)数字分值的结果。可选地，对多个搜索结果进行过滤(220)。在一些实施例中，仅在结果的总数超过预定义阈值的情况下，对结果进行过滤。在一些实施例中，除落在预定义最小分值之下的结果被排除之外，对所有结果进行排名。对于一些视觉查询，对结果的内容进行过滤。例如，如果结果中的部分包含私人信息或个人保护的信息，则滤除这些结果。

可选地，视觉查询服务器系统创建复合搜索结果(222)。其一个实施例是：如参考图3说明的，当多于一个搜索系统结果被嵌入在交互式结果文档中时。词语查询服务器系统(图1的118)可以用来自词语搜索的结果来扩充来自并行搜索系统中的一个的结果，其中另外结果被链接到文档或信息源、或包含可能与视觉查询相关的另外信息的文本和/或图像。因此，例如，复合搜索结果可以包含OCR结果和到OCR文档中的命名实体的链接(224)。

在一些实施例中，OCR搜索系统(图1的112-B)或前端视觉查询处理服务器(图1的110)识别文本中的可能相关的词。例如，其可以识别诸如名人或地点的命名实体。将命名实体作为查询词语提交给词语查询服务器系统(图1的118)。在一些实施例中，将词语查询服务器系统所产生的词语查询结果作为“链接”嵌入在视觉查询结果中。在一些实施例中，将词语查询结果作为独立链接返回。例如，如果书籍封面的图片是视觉查询，则可能的是，对象识别搜索系统将为该书籍产生较高评分的命中。如此，将在词语查询服务器系统118上运行关于该书籍的标题的词语查询，以及将词语查询结果与视觉查询结果一起返回。在一些实施例中，在加标签组中展示词语查询结果以将其与视觉查询结果进行区分。可以分别搜索结果，或可以使用搜索查询中的所有识别的命名实体来执行搜索以产生特别相关的另外搜索结果。例如，如果视觉查询是扫描的关于巴黎的旅游小册子，则返回的结果可以包括到词语查询服务器系统118的用于发起对词语查询“巴黎圣母院”的搜索的链接。类似地，复合搜索结果包括来自关于所识别的著名图像的文本搜索的结果。例如，在同一旅游小册子情况下，还可以示出到关于在小册子中被示出为图片的著名目的地，如同“埃菲尔铁塔”和“卢浮宫”，的词语查询结果的活链接(即使词语“埃菲尔铁塔”和“卢浮宫”在小册子本身中没有出现)。

视觉查询服务器系统然后将至少一个结果发送给客户端系统(226)。典型地，如果视觉查询处理服务器从多个搜索系统中的至少部分接收多个搜索结果，则其然后将多个搜索结果中的至少一个发送给客户端系统。对于一些视觉查询，仅仅一个搜索系统会返回相关结果。例如，在仅包含文本的图像的视觉查询中，仅仅OCR服务器的结果可能是相关的。对于一些视觉查询，来自一个搜索系统的仅仅一个结果可能是相关的。例如，仅仅与扫描的条形码有关的产品可能是相关的。在这些情况下，前端视觉处理服务器将仅仅返回相关搜索结果。对于一些视觉查询，将多个搜索结果发送给客户端系统，以及该多个搜索结果包括来自并行搜索系统中的多于一个的搜索结果(228)。这可以在多于一个不同图像在视觉查询中时发生。例如，如果视觉查询是人骑马的图片，则可以与关于该马的对象识别结果一起显示关于该人的面部识别的结果。在一些实施例中，使经由图像搜索系统的关于特定查询的所有结果聚组并且一起展示。例如，在标题“面部识别结果”下显示最高N个面部识别结果，以及在标题“对象识别结果”下一起显示最高N个对象识别结果。替选地，如下所述，可以使来自特定图像搜索系统的搜索结果按图像区域聚组。例如，如果视觉查询包括两个人脸，则其两者均产生面部识别结果，将关于每一个人脸的结果展示为不同组。对于一些视觉查询(例如，包括文本和一个或多个对象两者的图像的视觉查询)，搜索结果可以包括OCR结果和一个或多个图像匹配结果两者(230)。

在一些实施例中，用户可能希望了解更多关于特定搜索结果的信息。例如，如果视觉查询是海豚的图片，并且“图像到词语”搜索系统返回以下词语“水”、“海豚”、“蓝色”和“鳍状肢”，则用户可能希望运行对“鳍状肢”的基于文本的查询词语搜索。当用户希望运行对词语查询的搜索(例如，如通过用户点击或选择搜索结果中的对应链接所指示的)时，对查询词语服务器系统(图1的118)进行访问，以及运行对所选择的词语的搜索。在客户端系统上独立或结合视觉查询结果显示对应的搜索词语结果(232)。在一些实施例中，前端视觉查询处理服务器(图1的110)自动(即除初始视觉查询外，没有接收任何用户命令)为视觉查询选择一个或多个最高潜在的文本结果，在词语查询服务器系统118上运行那些文本结果，然后将那些词语查询结果与视觉查询结果一起返回给客户端系统，作为将至少一个搜索结果返回给客户端系统的一部分(232)。在上面的示例中，如果“鳍状肢”是海豚的视觉查询图片的第一词语结果，则前端服务器针对“鳍状肢”运行词语查询，并且将那些词语查询结果与视觉查询结果一起返回给客户端系统。该实施例，其中认为可能被用户选择的词语结果在将来自视觉查询的搜索结果发送给用户之前被自动执行，节省了用户时间。在一些实施例中，如上所述，将这些结果显示为复合搜索结果(222)。在其他实施例中，替代复合搜索结果或除复合搜索结果外，所述结果是搜索结果列表的一部分。

图3是图示用于用交互式结果文档对视觉查询作出响应的过程的流程图。在上面参考图2描述了前三个操作(202、210、214)。从自并行搜索系统接收(214)的搜索结果，创建交互式结果文档(302)。

现将详细描述创建交互式结果文档(302)。对于一些视觉查询，交互式结果文档包括视觉查询的各个子部分的一个或多个视觉标识符。每一个视觉标识符具有到搜索结果中的至少一个的至少一个用户可选择的链接。视觉标识符标识视觉查询的相应子部分。对于一些视觉查询，交互式结果文档仅仅具有带有到一个或多个结果的一个用户可选择的链接的一个视觉标识符。在一些实施例中，到搜索结果中的一个或多个的相应用户可选择的链接具有激活区域，以及激活区域对应于与对应的视觉标识符相关联的视觉查询的子部分。

在一些实施例中，视觉标识符是边界框(304)。在一些实施例中，如图12A中所示，边界框围绕视觉查询的子部分。边界框不必是正方形或长方形框形状，而是可以是任何式样的形状，包括圆形的、椭圆形的、(例如，与视觉查询中的对象、实体或视觉查询的区域)等角的、不规则的或任何其他形状，如图12B中所示。对于一些视觉查询，边界框勾勒出视觉查询的子部分中的可标识的实体的边界(306)。在一些实施例中，每一个边界框包括到一个或多个搜索结果的用户可选择的链接，其中用户可选择的链接具有与边界框所环绕的视觉查询的子部分相对应的激活区域。当在边界框内的空间(用户可选择的链接的激活区域)被用户选择时，返回与勾勒出的子部分中的图像相对应的搜索结果。

在一些实施例中，如图14中所示，视觉标识符是标签(307)。在一些实施例中，标签包括与视觉查询的相应子部分中的图像相关联的至少一个词语。对每一个标签进行格式化以在交互式结果文档中在相应子部分上或靠近相应子部分展示。在一些实施例中，标签是彩色编码的。

在一些实施例中，对每一个相应的视觉标识符进行格式化，以按照在视觉查询的相应子部分中的所识别的实体的类型、以在视觉上不同的方式展示。例如，如图13中所示，围绕产品、人、商标和两个文本区域的边界框每一个用不同的交叉影线图案来展示，表示不同颜色透明边界框。在一些实施例中，对视觉标识符进行格式化，来以在视觉上不同的方式展示，诸如重叠的颜色、重叠的图案、标签背景颜色、标签背景图案、标签字体颜色以及边界颜色。

在一些实施例中，交互式结果文档中的用户可选择的链接是到包含与视觉查询的对应子部分有关的一个或多个结果的文档或对象的链接(308)。在一些实施例中，至少一个搜索结果包括与视觉查询的对应子部分有关的数据。如此，当用户选择与相应子部分相关联的可选择的链接时，该用户被指引到与视觉查询的相应子部分中的所识别的实体相对应的搜索结果。

例如，如果视觉查询是条形码的照片，则可能有这样的照片部分，其是条形码附于之上的包装的不相关部分。交互式结果文档可以包括仅围绕条形码的边界框。当用户在勾勒出的条形码边界框内进行选择时，显示条形码搜索结果。条形码搜索结果可以包括一个结果，与该条形码相对应的产品名称，或条形码结果可以包括数个结果，诸如其中能够购买、评论等该产品的多种地点。

在一些实施例中，当与相应视觉标识符相对应的视觉查询的子部分包含包括一个或多个词语的文本时，与该相应视觉标识符相对应的搜索结果包括来自对文本中的词语的至少一个的词语查询搜索的结果。在一些实施例中，当与相应视觉标识符相对应的视觉查询的子部分包含人的脸，其中为该脸找到满足预定义可靠性(或其他)标准的至少一个匹配(即搜索结果)时，与该相应视觉标识符相对应的搜索结果包括以下的一个或多个：名字、称呼、联系信息、帐户信息、地址信息、与其脸包含在可选择的子部分中的人相关联的相关移动设备的当前位置、其脸包含在可选择的子部分中的人的其他图像以及该人的脸的潜在图像匹配。在一些实施例中，当与相应视觉标识符相对应的视觉查询的子部分包含产品，其中为该产品找到满足预定义可靠性(或其他)标准的至少一个匹配(即搜索结果)时，与该相应视觉标识符相对应的搜索结果包括以下的一个或多个：产品信息、产品评论、发起对产品的购买的选项、发起对产品的出价的选项、类似产品列表以及相关产品列表。

可选地，交互式结果文档中的相应用户可选择的链接包括锚文本，其在文档中显示，而不必激活链接。锚文本提供与当链接被激活时所获取的信息有关的信息，诸如关键词或词语。可以将锚文本显示为标签(307)的一部分、或在边界框(304)的一部分中显示、或显示为当用户将光标悬停在用户可选择的链接上达诸如1秒的预确定时段时所显示的另外信息。

可选地，交互式结果文档中的相应用户可选择的链接是到搜索引擎的链接，其用于搜索与基于文本的查询(在此有时称为词语查询)相对应的信息或文档。该链接的激活促使搜索引擎执行搜索，其中查询和搜索引擎由该链接指定(例如，搜索引擎由该链接中的URL指定，以及基于文本的搜索查询由该链接的URL参数指定)，同时结果被返回给客户端系统。可选地，在该示例中的链接可以包括指定搜索查询中的文本或词语的锚文本。

在一些实施例中，响应于视觉查询而产生的交互式结果文档可以包括与来自同一搜索系统的结果相对应的多个链接。例如，视觉查询可以是一群人的图像或图片。交互式结果文档可以包括围绕每一个人的边界框，其当被激活时为人群中的每一个脸从面部识别搜索系统返回结果。对于一些视觉查询，交互式结果文档中的多个链接对应于来自多于一个搜索系统的搜索结果(310)。例如，如果人和狗的图片作为视觉查询被提交，则交互式结果文档中的边界框可以分别勾勒出该人和狗。当(在交互式结果文档中)该人被选择时，返回来自面部识别搜索系统的搜索结果，以及当(在交互式结果文档中)该狗被选择时，返回来自图像到词语搜索系统的结果。对于一些视觉查询，交互式结果文档包含OCR结果和图像匹配结果(312)。例如，如果一个人站在标志旁边的图片作为视觉查询被提交，则交互式结果文档可以包括用于该人和用于该标志中的文本的视觉标识符。类似地，如果杂志的扫描被用作视觉查询，则交互式结果文档可以包括用于页面上的广告中的照片或商标的视觉标识符以及用于同样在该页面上的文章的文本的视觉标识符。

在创建了交互式结果文档之后，将其发送给客户端系统(314)。在一些实施例中，如在上面参考图2所论述的，结合来自一个或多个并行搜索系统的搜索结果列表发送交互式结果文档(例如，图15的文档1200)。在一些实施例中，如图15中所示，在客户端系统处在来自一个或多个并行搜索系统的搜索结果列表之上或邻近所述搜索结果列表显示交互式结果文档(315)。

可选地，用户将通过选择结果文档中的视觉标识符来与结果文档进行交互。服务器系统从客户端系统接收关于交互式结果文档中的视觉标识符的用户选择的信息(316)。如上所述，在一些实施例中，通过选择边界框内的激活区域来激活链接。在其他实施例中，通过视觉查询的子部分的视觉标识符的用户选择来激活链接，所述视觉标识符不是边界框。在一些实施例中，链接的视觉标识符是热按钮、位于子部分附近的标签、文本中加下划线的词、或视觉查询中的对象或主题的其他表示。

在将搜索结果列表与交互式结果文档一起展示(315)的实施例中，当用户选择用户可选择的链接(316)时，标识搜索结果列表中的与所选择的链接相对应的搜索结果。在一些实施例中，光标将跳转或自动移动到与所选择的链接相对应的第一结果。在客户端102的显示器太小而不能显示交互式结果文档和整个搜索结果列表两者的一些实施例中，选择交互式结果文档中的链接促使搜索结果列表滚动或跳转，以显示与所选择的链接相对应的至少第一结果。在一些其他实施例中，响应于对交互式结果文档中的链接的用户选择，对结果列表重新排序，使得在结果列表的顶部显示与该链接相对应的第一结果。

在一些实施例中，当用户选择用户可选择的链接(316)时，视觉查询服务器系统将与视觉查询的对应子部分有关的结果的至少子集发送给客户端以向用户显示(318)。在一些实施例中，用户可以同时选择多个视觉标识符，并且将同时接收关于所有所选择的视觉标识符的结果子集。在其他实施例中，在对用户可选择的链接中的任何链接的用户选择之前，将对应于用户可选择的链接的搜索结果预载到客户端上，以响应于对交互式结果文档中的一个或多个链接的用户选择而几乎即刻向用户提供搜索结果。

图4是图示在客户端和视觉查询服务器系统之间的通信的流程图。客户端102从用户/查询者/请求者接收视觉查询(402)。在一些实施例中，可以仅从已注册或“选择加入(opt-in)”到视觉查询系统的用户接受视觉查询。在一些实施例中，仅为已注册面部识别视觉查询系统的用户执行对面部识别匹配的搜索，而为任何人执行其他类型的视觉查询，不管其是否已“选择加入”到面部识别部分。

如上所述，视觉查询的格式可以采取许多形式。视觉查询将可能包含位于视觉查询文档的子部分中的一个或多个主题。对于一些视觉查询，客户端系统102对视觉查询执行类型识别预处理(404)。在一些实施例中，客户端系统102在该预处理系统中搜索特定可识别的模式。例如，对于一些视觉查询，客户端可以识别颜色。对于一些视觉查询，客户端可以识别特定子部分可能包含文本(因为该区域由以淡色空间等环绕的较小暗色字符组成)。客户端可以包含任何数量的预处理类型识别器或类型识别模块。在一些实施例中，客户端将具有用于识别条形码的类型识别模块(条形码识别406)。可以通过识别长方形区域中的独特条纹图案来那么做。在一些实施例中，客户端将具有用于识别视觉查询的特定主题或子部分可能包含人脸的类型识别模块(人脸检测408)。

在一些实施例中，将所识别的“类型”返回给用户以供验证。例如，客户端系统102可以返回陈述“在你的视觉查询中找到了条形码，你对接收条形码查询结果感兴趣吗？”的消息。在一些实施例中，消息甚至可以指示类型在其中被找到的视觉查询的子部分。在一些实施例中，该展示类似于参考图3所论述的交互式结果文档。例如，其可以勾勒出视觉查询的子部分，并且指示该子部分可能包含人脸，以及询问用户其是否对接收面部识别结果感兴趣。

在客户端102执行视觉查询的可选预处理之后，客户端将该视觉查询发送给视觉查询服务器系统106，具体发送给前端视觉查询处理服务器110。在一些实施例中，如果预处理产生了相关结果，即如果类型识别模块中的一个产生了高于某一阈值的结果，指示查询或查询的子部分可能是特定类型(人脸、文本、条形码等)的，则客户端将向前传递关于预处理的结果的信息。例如，客户端可以指示人脸识别模块对视觉查询的特定子部分包含人脸有75％的把握。更一般地，预处理结果，如果有的话，包括一个或多个主题类型值(例如，条形码、人脸、文本等)。可选地，发送给视觉查询服务器系统的预处理结果包括以下的一个或多个：对于预处理结果中的每一个主题类型值，识别与该主题类型值相对应的视觉查询的子部分的信息，以及对于预处理结果中的每一个主题类型值，指示对该主题类型值和/或视觉查询的对应子部分的标识的置信水平的置信值。

前端服务器110从客户端系统接收视觉查询(202)。所接收到的视觉查询可以包含上述预处理信息。如上所述，前端服务器将视觉查询发送给多个并行搜索系统(210)。如果前端服务器110接收了关于子部分包含了某一类型的主题的可能性的预处理信息，则前端服务器可以将该信息向前传递给并行搜索系统中的一个或多个。例如，其可以传递特定子部分可能是人脸的信息，使得面部识别搜索系统112-A能够首先对视觉查询的该分部进行处理。类似地，发送(特定子部分可能是人脸的)相同信息可以由其他并行搜索系统使用来忽略该子部分或首先对其他子部分进行分析。在一些实施例中，前端服务器不会将预处理信息传递给并行搜索系统，而是替代地使用该信息来扩充其对从并行搜索系统接收的结果进行处理的方式。

如参考图2所说明的，对于一些视觉查询，前端服务器110从并行搜索系统接收多个搜索结果(214)。前端服务器然后可以执行多种排名和过滤，并且可以创建交互式搜索结果文档，如参考图2和3说明的。如果前端服务器110接收了关于子部分包含了某一类型的主题的可能性的预处理信息，则其可以通过给予匹配经预处理所识别的主题类型的那些结果偏好来进行过滤和排序。如果用户指示了请求特定类型的结果，则前端服务器将在处理结果时考虑用户的请求。例如，如果用户仅请求了条形码信息，则前端服务器可以滤除所有其他结果，或前端服务器将在列出其他结果之前列出与所请求的类型有关的所有结果。如果交互式视觉查询文档被返回，则服务器可以对与用户指示了感兴趣的结果类型相关联的链接进行预搜索，而仅仅提供用于执行对在交互式结果文档中所指示的其他主题的相关搜索的链接。然后，前端服务器110将搜索结果发送给客户端系统(226)。

客户端102从服务器系统接收结果(412)。当适当时，这些结果将包括匹配在预处理阶段中找到的结果类型的结果。例如，在一些实施例中，其将包括一个或多个条形码结果(414)或一个或多个面部识别结果(416)。如果客户端的预处理模块已指示了特定类型的结果是可能的，并且该结果被找到，则将突出列出该类型的所找到的结果。

可选地，用户将对结果中的一个或多个进行选择或注释(418)。用户可以选择一个搜索结果、可以选择特定类型的搜索结果、和/或可以选择交互式结果文档的一部分(420)。对结果的选择是所返回的结果与查询相关的隐式反馈。这样的反馈信息可以在未来的查询处理操作中被利用。注释提供也能够在未来的查询处理操作中被利用的、关于所返回的结果的显示反馈。注释采取以下形式：对所返回的结果的部分的校正(如同对错误OCR化的词的校正)或独立注释(自由形式或结构化的)。

用户的对一个搜索结果的选择，一般从同一类型的数个结果选择“正确的”结果(例如，选择来自面部识别服务器的正确的结果)，是被称为解释中的选择的过程。用户的对特定类型的搜索结果的选择，一般从数个不同类型的所返回的结果选择感兴趣的“类型”的结果(例如，选择杂志中的文章的经OCR化的文本，而不是关于同样在同一页面上的广告的视觉结果)，是被称为对意图的消歧的过程。如参考图8详细说明的，用户可以类似地选择经OCR化的文档中的特定链接的词(诸如所识别的命名实体)。

替选地或另外地，用户可能希望对特定搜索结果进行注释。可以以自由形式风格或结构化格式完成该注释(422)。注释可以是对结果的描述或可以是对结果的评论。例如，其可以指示结果中的主题的名称，或其可以指示“这是本好书”或“这个产品在购买一年内损坏”。注释的另一个示例是围绕视觉查询的子部分的用户绘制的边界框和标识该边界框内的对象或主题的用户提供的文本。参考图5更详细说明了用户注释。

将搜索结果的用户选择和其他注释发送给服务器系统(424)。前端服务器110接收该选择和注释，并且对其进行进一步处理(426)。如果信息是对交互式结果文档中的对象、子区域或词语的选择，如适当，可以请求关于该选择的进一步信息。例如，如果选择是对一个视觉结果的，则将请求关于该视觉结果的更多信息。如果选择是(来自OCR服务器或来自图像到词语服务器的)词，则将对该词的文本搜索发送给词语查询服务器系统118。如果选择是来自面部图像识别搜索系统的人的，则将请求该人的简档。如果选择是关于交互式搜索结果文档的特定部分的，则将请求潜在的视觉查询结果。

参考图5说明的，如果服务器系统接收注释，则将该注释存储在查询和注释数据库116中。然后，将来自注释数据库116的信息周期性复制到并行服务器系统中的一个或多个的单独注释数据库，如在下面参考图7-10所论述的。

图5是图示与本发明的一个实施例一致的客户端系统102的框图。客户端系统102典型地包括一个或多个处理单元(CPU)702、一个或多个网络或其他通信接口704、存储器712以及用于使这些组件互连的一个或多个通信总线714。客户端系统102包括用户接口705。用户接口705包括显示设备706，以及可选地包括诸如键盘、鼠标或其他输入按钮的输入装置708。替选地或另外地，显示设备706包括触敏表面709，在这种情况下，显示器706/709是触敏显示器。在具有触敏显示器706/709的客户端系统中，物理键盘是可选的(例如，当需要键盘输入时，可以显示软键盘)。此外，一些客户端系统使用麦克风和语音识别来补充或替代键盘。可选地，客户端102包括GPS(全球定位卫星)接收器或用于确定客户端系统102的位置的其他位置检测装置707。在一些实施例中，提供了视觉查询搜索服务，其要求客户端系统102支持视觉查询服务器系统接收指示客户端系统102的位置的位置信息。

客户端系统102还包括图像捕捉设备710，诸如照相机或扫描仪。存储器712包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备；以及可以包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。存储器712可以可选地包括位于远离CPU702的地方的一个或多个存储设备。存储器712或替选地存储器712内的非易失性存储器设备包括非暂时性计算机可读存储介质。在一些实施例中，存储器712或存储器712的计算机可读存储介质存储以下的程序、模块和数据结构、或其子集：

·操作系统716，其包括用于处理各种基本系统服务和用于执行依赖硬件的任务的程序；

·网络通信模块718，其被用于经由一个或多个通信网络接口704(有线的或无线的)和诸如因特网、其他广域网、局域网、城域网等等的一个或多个通信网络将客户端计算机102连接到其他计算机；

·图像捕捉模块720，其用于处理图像捕捉设备/照相机710所捕捉到的相应图像，其中该相应图像可以作为视觉查询(例如，由客户端应用模块)发送给视觉查询服务器系统；

·一个或多个客户端应用模块722，其用于处理按图像进行查询的各个方面，包括但不限于：按图像查询提交模块724，其用于将视觉查询提交给视觉查询服务器系统；可选地，感兴趣区域选择模块725，其检测对图像中的感兴趣区域的选择(诸如，在触敏显示器706/709上的手势)，并且将该感兴趣区域准备为视觉查询；结果浏览器726，其用于显示视觉查询的结果；以及可选地，注释模块728，其带有：用于结构化注释文本输入的可选模块730，诸如以一种形式进行填充；或用于自由形式注释文本输入的可选模块732，其能够接受来自多种格式的注释；以及图像区域选择模块734(在此有时被称为结果选择模块)，其允许用户选择图像的特定子部分以进行注释；

·可选的内容创作应用736，其允许用户通过创建或编辑图像，而不是仅仅经由图像捕捉设备710捕捉一个来创作视觉查询；可选地，一个或这样的应用736可以包括使用户能够选择图像的子部分以用作视觉查询的指令；

·可选的本地图像分析模块738，其在将视觉查询发送给视觉查询服务器系统之前对该视觉查询进行预处理。本地图像分析可以识别图像的特定类型或在图像内的子区域。可以由这样的模块738识别的图像类型的示例包括以下的一个或多个：面部类型(在视觉查询内识别的面部图像)、条形码类型(在视觉查询内识别的条形码)以及文本类型(在视觉查询内识别的文本)；以及

·另外的可选客户端应用740，诸如电子邮件应用、电话应用、浏览器应用、地图应用、即时消息应用、社交网络应用等。在一些实施例中，当适当的可动作搜索结果被选择时，可以启动或访问与该可动作搜索结果相对应的应用。

可选地，允许用户选择图像的特定子部分以进行注释的图像区域选择模块734还允许用户选择搜索结果作为“正确的”命中，而不必对其进行进一步注释。例如，用户可以被展示有最高N个面部识别匹配，并且可以从该结果列表选择正确的人。对于一些搜索查询，将展示多于一种类型的结果，以及用户将选择一种类型的结果。例如，图像查询可以包括一个人站在树旁边，但是只有关于该人的结果对用户来说才是感兴趣的。因此，图像选择模块734允许用户指示哪种图像类型是“正确的”类型——即，其在接收中感兴趣的类型。用户还可能希望通过使用(用于以一种形式进行填充的)注释文本输入模块730或自由形式注释文本输入模块732来添加个人评注或描述性词，来对搜索结果进行注释。

在一些实施例中，可选的本地图像分析模块738是客户端应用(图1的108)的一部分。此外，在一些实施例中，可选的本地图像分析模块738包括用来执行本地图像分析以对视觉查询或其部分进行预处理或分类的一个或多个程序。例如，客户端应用722可以在将视觉查询提交给搜索引擎之前识别图像包含条形码、人脸或文本。在一些实施例中，当本地图像分析模块738检测到视觉查询包含特定类型的图像时，该模块询问用户其是否对对应类型的搜索结果感兴趣。例如，本地图像分析模块738可以基于人脸的一般特征(即，不用确定哪个人的脸)来检测人脸，并且在将查询发送给视觉查询服务器系统上之前向用户提供即时反馈。其可以返回如同“检测到人脸，你对获得这张人脸的面部识别匹配感兴趣吗？”的结果。这可以为视觉查询服务器系统(图1的106)节省时间。对于一些视觉查询，前端视觉查询处理服务器(图1的110)仅将视觉查询发送给与本地图像分析模块738所识别的图像类型相对应的搜索系统112。在其他实施例中，对搜索系统112的视觉查询可以将视觉查询发送给所有搜索系统112A-N，但是将对来自与本地图像分析模块738所识别的图像类型相对应的搜索系统112的结果进行排名。在一些实施例中，本地图像分析对视觉查询服务器系统的操作产生影响的方式取决于客户端系统的配置、或与用户或客户端系统相关联的配置或处理参数。此外，任何特定视觉查询的实际内容和由本地图像分析产生的结果可以促使不同视觉查询在客户端系统和视觉查询服务器系统任一或两者处被不同地处理。

在一些实施例中，以两个步骤执行条形码识别，其中对视觉查询是否包括条形码的分析在客户端系统上本地图像分析模块738处执行。然后，只有在客户端确定视觉查询可能包括条形码时，才将该视觉查询传递给条形码搜索系统。在其他实施例中，条形码搜索系统对每个视觉查询进行处理。

可选地，客户端系统102包括另外的客户端应用740。

图6是图示与本发明的一个实施例一致的前端视觉查询处理服务器系统110的框图。前端服务器110典型地包括一个或多个处理单元(CPU)802、一个或多个网络或其他通信接口804、存储器812以及用于使这些组件互连的一个或多个通信总线814。存储器812包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备；以及可以包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。存储器812可以可选地包括位于远离CPU802的地方的一个或多个存储设备。存储器812或替选地存储器812内的非易失性存储器设备包括非暂时性计算机可读存储介质。在一些实施例中，存储器812或存储器812的计算机可读存储介质存储以下的程序、模块和数据结构、或其子集：

·操作系统816，其包括用于处理各种基本系统服务和用于执行依赖硬件的任务的程序；

·网络通信模块818，其被用于经由一个或多个通信网络接口804(有线的或无线的)和诸如因特网、其他广域网、局域网、城域网等等的一个或多个通信网络将前端服务器系统110连接到其他计算机；

·查询管理器820，其用于处理来自客户端系统102的进入的视觉查询，并且将其发送给两个或多个并行搜索系统；如在本文档中其他地方所描述的，在一些特殊情况下，视觉查询可以针对搜索系统中的仅仅一个，诸如当视觉查询包括客户端生成的指令(例如，“仅面部识别搜索”)时；

·结果过滤模块822，其用于可选地对来自一个或多个并行搜索系统的结果进行过滤，并且将最高或“相关”结果发送给客户端系统102以供展示；

·结果排名和格式化模块824，其用于可选地对来自一个或多个并行搜索系统的结果进行排名，以及用于对结果进行格式化以供展示；

·结果文档创建模块826，其在适当时被用来创建交互式搜索结果文档；模块826可以包括子模块，包括但不限于：边界框创建模块828和链接创建模块830；

·标签创建模块831，其用于创建为视觉查询的相应子部分的视觉标识符的标签；

·注释模块832，其用于从用户接收注释，并且将其发送给注释数据库116；

·可动作搜索结果模块838，其用于响应于视觉查询，生成一个或多个可动作搜索结果元素，每一个被配置成启动客户端侧动作；可动作搜索结果元素的示例是用来发起电话呼叫、发起电子邮件消息、在地图上标出地址、进行餐馆预定以及提供购买产品的选项的按钮；以及

·查询和注释数据库116，其包括数据库本身834和对数据库的索引836。

结果排名和格式化模块824对从一个或多个并行搜索系统(图1的112-A-112-N)返回的结果进行排名。如在上面已指出的，对于一些视觉查询，仅仅来自一个搜索系统的结果可能是相关的。在这样的情况下，仅仅对来自该一个搜索系统的相关搜索结果进行排名。对于一些视觉查询，数种类型的搜索结果可能是相关的。在这些情况下，在一些实施例中，结果排名和格式化模块824使来自具有最相关结果(例如，具有最高相关性分值的结果)的搜索系统的所有结果排名高于关于较不相关的搜索系统的结果。在其他实施例中，结果排名和格式化模块824使来自每一个相关搜索系统的最高结果排名高于剩余结果。在一些实施例中，结果排名和格式化模块824根据为搜索结果中的每一个计算的相关性分值对结果进行排名。对于一些视觉查询，除在并行视觉搜索系统上进行搜索外，执行扩充的文本查询。在一些实施例中，当文本查询同样被执行时，以在视觉上不同于视觉搜索系统结果的方式展示其结果。

结果排名和格式化模块824还对结果进行格式化。在一些实施例中，以列表格式展示结果。在一些实施例中，用交互式结果文档展示结果。在一些实施例中，展示交互式结果文档和结果列表两者。在一些实施例中，查询类型指示结果如何被展示。例如，如果在视觉查询中检测到多于一个可搜索的主题，则产生交互式结果文档，而如果仅仅检测到一个可搜索的主题，则将仅仅以列表格式显示结果。

结果文档创建模块826用于创建交互式搜索结果文档。交互式搜索结果文档可以具有一个或多个检测和搜索到的主题。边界框创建模块828创建围绕搜索到的主题中的一个或多个的边界框。边界框可以是长方形框，或可以勾勒出主题的形状。链接创建模块830创建到搜索结果的链接，所述搜索结果与其的在交互式搜索结果文档中的相应主题相关联。在一些实施例中，在边界框区域内点击激活链接创建模块所插入的对应链接。

查询和注释数据库116包含能够用来改进视觉查询结果的信息。在一些实施例中，用户可以在视觉查询结果已被展示之后对图像进行注释。此外，在一些实施例中，用户可以在将图像发送给视觉查询搜索系统之前对图像进行注释。预注释可以通过使结果集中、或与视觉查询搜索并行运行对注释的词的基于文本的搜索来帮助视觉查询处理。在一些实施例中，可以使图片的经注释的版本公开(例如，当用户例如通过将图像和注释指明为不是私人的来准许了公开时)，以被返回为潜在图像匹配命中。例如，如果用户拍摄了花的图片，并且通过给出关于该花的详细属和种信息来对该图像进行注释，则该用户可能想要该图像向执行查找该花的视觉查询研究的任何人展示。在一些实施例中，将来自查询和注释数据库116的信息周期性推送到并行搜索系统112，其将信息的相关部分(如果有的话)合并到其各自的单独数据库114中。

图7是图示利用来处理视觉查询的并行搜索系统中的一个的框图，图7图示了与本发明的一个实施例一致的“通用”搜索系统112-N。该服务器系统是通用的，仅仅因为其表示视觉查询搜索服务器112-N中的任何一个。通用服务器系统112-N典型地包括一个或多个处理单元(CPU)502、一个或多个网络或其他通信接口504、存储器512以及用于使这些组件互连的一个或多个通信总线514。存储器512包括高速随机存取存储器，诸如DRAM、SRAM、DDRRAM或其他随机存取固态存储器设备；以及可以包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。存储器512可以可选地包括位于远离CPU502的地方的一个或多个存储设备。存储器512或替选地存储器512内的非易失性存储器设备包括非暂时性计算机可读存储介质。在一些实施例中，存储器512或存储器512的计算机可读存储介质存储以下的程序、模块和数据结构、或其子集：

·操作系统516，其包括用于处理各种基本系统服务和用于执行依赖硬件的任务的程序；

·网络通信模块518，其被用于经由一个或多个通信网络接口504(有线的或无线的)和诸如因特网、其他广域网、局域网、城域网等等的一个或多个通信网络将通用服务器系统112-N连接到其他计算机；

·特定于特定服务器系统的搜索应用520，其例如可以是条形码搜索应用、颜色识别搜索应用、产品识别搜索应用和对象或对象类别搜索应用等；

·如果特定搜索应用利用索引，则可选的索引522；

·可选的图像数据库524，其用于存储与特定搜索应用相关的图像，其中所存储的图像数据，如果有的话，取决于搜索过程类型；

·可选的结果排名模块526(有时被称为相关性评分模块)，其用于对来自搜索应用的结果进行排名，排名模块可以为来自搜索应用的每一个结果分配相关性分值，以及如果没有结果达到预定义的最小分值，则可以向前端视觉查询处理服务器返回指示来自该服务器系统的结果不相关的空或零值分值；以及

·注释模块528，其用于从注释数据库(图1的116)接收注释信息、确定注释信息中的任何信息是否与特定搜索应用相关，以及将注释信息的任何确定的相关部分合并入相应的注释数据库530。

图8是图示与本发明的一个实施例一致的利用来处理视觉查询的OCR搜索系统112-B的框图。OCR搜索系统112-B典型地包括一个或多个处理单元(CPU)602、一个或多个网络或其他通信接口604、存储器612以及用于使这些组件互连的一个或多个通信总线614。存储器612包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备；以及可以包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。存储器612可以可选地包括位于远离CPU602的地方的一个或多个存储设备。存储器612或替选地存储器612内的非易失性存储器设备包括非暂时性计算机可读存储介质。在一些实施例中，存储器612或存储器612的计算机可读存储介质存储以下的程序、模块和数据结构、或其子集：

·操作系统616，其包括用于处理各种基本系统服务和用于执行依赖硬件的任务的程序；

·网络通信模块618，其被用于经由一个或多个通信网络接口604(有线的或无线的)和诸如因特网、其他广域网、局域网、城域网等等的一个或多个通信网络将OCR搜索系统112-B连接到其他计算机；

·光学字符识别(OCR)模块620，其试图识别视觉查询中的文本，并且将字母图像转换成字符；

·可选的OCR数据库114-B，其由OCR模块620利用来识别特定字体、文本图案以及对字母识别特有的其他特征；

·可选的拼写检查模块622，其通过针对词典检查经转换的词，并且对另外匹配词典词的词中的潜在错误转换的字母进行替换，来改进字母图像到字符的转换；

·可选的命名实体识别模块624，其搜索经转换的文本内的命名实体、将所识别的命名实体作为词语查询中的词语发送给词语查询服务器系统(图1的118)、以及将来自词语查询服务器系统的结果作为嵌入在经OCR化的文本中的链接与所识别的命名实体相关联地提供；

·可选的文本匹配应用632，其通过针对文本片段数据库检查经转换的片段(诸如经转换的句子和段落)，并且对另外匹配文本匹配应用文本片段的经OCR化的文本片段中的潜在错误转换的字母进行替换，来改进字母图像到字符的转换，在一些实施例中，将文本匹配应用所找到的文本片段作为链接提供给用户(例如，如果用户扫描了纽约时报的一个页面，则文本匹配应用可以提供到纽约时报网站上的整个发表的文章的链接)；

·结果排名和格式化模块626，其用于对经OCR化的结果进行格式化以供展示，以及对到命名实体的可选链接进行格式化，以及还可选地对来自文本匹配应用的任何相关结果进行排名；以及

·可选的注释模块628，其用于从注释数据库(图1的116)接收注释信息、确定注释信息中的任何信息是否与OCR搜索系统相关，以及将注释信息的任何确定的相关部分合并入相应的注释数据库630。

图9是图示与本发明的一个实施例一致的利用来处理带有至少一个面部图像的视觉查询的面部识别搜索系统112-A的框图。面部识别搜索系统112-A典型地包括一个或多个处理单元(CPU)902、一个或多个网络或其他通信接口904、存储器912以及用于使这些组件互连的一个或多个通信总线914。存储器912包括高速随机存取存储器，诸如DRAM、SRAM、DDRRAM或其他随机存取固态存储器设备；以及可以包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。存储器912可以可选地包括位于远离CPU902的地方的一个或多个存储设备。存储器912或替选地存储器912内的非易失性存储器设备包括非暂时性计算机可读存储介质。在一些实施例中，存储器912或存储器912的计算机可读存储介质存储以下的程序、模块和数据结构、或其子集：

·操作系统916，其包括用于处理各种基本系统服务和用于执行依赖硬件的任务的程序；

·网络通信模块918，其被用于经由一个或多个通信网络接口904(有线的或无线的)和诸如因特网、其他广域网、局域网、城域网等等的一个或多个通信网络将面部识别搜索系统112-A连接到其他计算机；

·面部识别搜索应用920，其包括：视觉标识符模块924，其用于标识潜在匹配查询中的面部图像的潜在图像匹配；个人标识符模块926，其用于标识与潜在图像匹配相关联的个人；以及社交关系度量模块928，其用于检索包括与请求者(和/或图像中的另一个人)的社交联系性的度量的特定于个人的数据；以及排名模块930，其用于根据在面部图像和潜在匹配之间的视觉相似性的度量以及根据社交关系度量，来生成所标识的个人的排名列表。

·面部图像数据库114-A，其被搜索来找到潜在匹配查询中的面部图像的图像；包括一个或多个图像源，诸如社交网络图像932、web相册图像934、照片共享图像936以及先前查询图像938。响应于特定查询而使用的图像源根据关于请求者的数据来标识。在一些实施例中，其仅仅包括属于请求者或与请求者相关联的帐户中的图像，所述帐户诸如请求者的社交网络帐户、请求者的web相册等。在其他实施例中，所述源包括属于请求者与之在社交方面有联系的其他人或与所述其他人相关联的图像，所述其他人例如在社交图上与请求者有直接关系的人。可选地，面部图像数据库114-A包括名人的图像940。在一些实施例中，面部图像数据库包括从外部源获取的面部图像，所述外部源诸如在公共域合法的面部图像供应商；

·图像特征提取器942，其提取从面部图像数据库114-A中的图像得到的特征，并且将信息存储在特定于个人的数据的数据库964中。在一些实施例中，用视觉特征提取器944提取视觉特征，诸如室内生活环境因素、室外生活环境因素、性别因素、种族因素、眼镜因素、面部毛发因素、头部毛发因素、头饰因素、眼睛颜色因素、出现信息以及同现信息。在一些实施例中，用元数据特征提取器946提取元数据特征，诸如数据信息、时间信息以及位置信息。

·为特定于个人的数据的源的公共数据库948，其包括在与潜在图像匹配相关联的个人和请求者之间的社交联系性的关系度量。所述数据从多个应用获取，所述多个应用包括但不限于社交网络数据库922、社交微博数据库950、博客数据库952、电子邮件数据库954、IM数据库956、日历数据库958、联系人列表960和/或公共URL962。

·特定于个人的数据的数据库964，其存储特定于特定个人的信息。特定于个人的数据中的部分或全部从公共数据库获取。参考图18A-C更详细地描述了特定于个人的数据。

·结果格式化模块966，其用于对结果进行格式化以供展示；在一些实施例中，经格式化的结果包括潜在图像匹配和来自特定于个人的数据的数据库964的信息子集。

·注释模块968，其用于从注释数据库(图1的116)接收注释信息、确定注释信息中的任何信息是否与面部识别搜索系统相关，以及将注释信息的任何确定的相关部分存储入相应的注释数据库970中。

·个人位置模块972，其获取与请求者和被标识为对视觉查询中的面部图像的潜在匹配的一个或多个人的当前位置有关的位置信息。将在下面参考图16A、17、18A和18C论述个人位置模块972对位置信息的获取和搜索应用920使用位置信息来改进对面部图像的个人匹配。

图10是图示与本发明的一个实施例一致的利用来处理视觉查询的图像到词语搜索系统112-C的框图。在一些实施例中，图像到词语搜索系统识别视觉查询中的对象(实例识别)。在其他实施例中，图像到词语搜索系统识别视觉查询中的对象类别(类型识别)。在一些实施例中，图像到词语系统识别对象和对象类别两者。图像到词语搜索系统为视觉查询中的图像返回潜在词语匹配。图像到词语搜索系统112-C典型地包括一个或多个处理单元(CPU)1002、一个或多个网络或其他通信接口1004、存储器1012以及用于使这些组件互连的一个或多个通信总线1014。存储器1012包括高速随机存取存储器，诸如DRAM、SRAM、DDRRAM或其他随机存取固态存储器设备；以及可以包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。存储器1012可以可选地包括位于远离CPU1002的地方的一个或多个存储设备。存储器1012或替选地存储器1012内的非易失性存储器设备包括非暂时性计算机可读存储介质。在一些实施例中，存储器1012或存储器1012的计算机可读存储介质存储以下的程序、模块和数据结构、或其子集：

·操作系统1016，其包括用于处理各种基本系统服务和用于执行依赖硬件的任务的程序；

·网络通信模块1018，其被用于经由一个或多个通信网络接口1004(有线的或无线的)和诸如因特网、其他广域网、局域网、城域网等等的一个或多个通信网络将图像到词语搜索系统112-C连接到其他计算机；

·图像到词语搜索应用1020，其在图像搜索数据库114-C中搜索匹配视觉查询中的主题的图像；

·图像搜索数据库114-C，其能够被搜索应用1020搜索以找到类似于视觉查询的主题的图像；

·词语到图像反向索引1022，其存储用户在使用基于文本的查询搜索引擎1006来搜索图像时所使用的文本词语；

·结果排名和格式化模块1024，其用于对潜在图像匹配进行排名和/或对在词语到图像返向索引1022中标识的与潜在图像匹配相关联的词语进行排名；以及

·注释模块1026，其用于从注释数据库(图1的116)接收注释信息、确定注释信息中的任何信息是否与图像到词语搜索系统112-C相关，以及将注释信息的任何确定的相关部分存储入相应的注释数据库1028中。

更多地意在将图5-10作为可以在一组计算机系统中存在的各种特征的功能性描述，而不是作为在此描述的实施例的结构性示意。实际上，并且如本领域普通技术人员所认识到的，可以使分离示出的项相组合并且可以使一些项分离。例如，可以在单个服务器上实现在这些图中分离示出的一些项，并且可以通过一个或多个服务器来实现单个项。用来实现视觉查询处理的系统的实际数量以及在它们之间如何分配特征因实施方式的不同而不同。

在此描述的方法中的每一个可以由存储在非暂时性计算机可读存储介质中并且由一个或多个服务器或客户端的一个或多个处理器执行的指令控制。在上面标识的模块或程序(即，指令集)不必被实现为独立软件程序、例程或模块，因此，在各种实施例中，可以组合或另外重新安排这些模块的各种子集。在图5-10中所示的操作中的每一个可以对应于存储在计算机存储器或非暂时性计算机可读存储介质中的指令。

图11图示了带有示例性视觉查询1102的截屏的客户端系统102。在图11中所示的客户端系统102是移动设备，诸如蜂窝电话、便携式音乐播放器或便携式电子邮件设备。客户端系统102包括显示器706和一个或多个输入装置708，诸如在该附图中所示的按钮。在一些实施例中，显示器706是触敏显示器709。在具有触敏显示器709的实施例中，在显示器709上显示的软按钮可以可选地替代机电按钮708中的部分或全部。如在下面更详细说明的，触敏显示器在与视觉查询结果进行交互时也是有帮助的。客户端系统102还包括图像捕捉机制，诸如照相机710。

图11图示了视觉查询1102，其是在商店货架上的包装的照片或视频帧。在次描述的实施例中，视觉查询是在两维中的每一个中在像素上具有与视觉查询的大小相对应的分辨率的二维图像。在该示例中的视觉查询1102是三维对象的二维图像。视觉查询1102包括背景元素、产品包装1104以及包装上的多种类型的实体，包括人图像1106、商标图像1108、产品图像1110以及多种文本元素1112。

如参考图3说明的，视觉查询1102被发送给前端服务器110，其将视觉查询1102发送给多个并行搜索系统(112A-N)、接收结果以及创建交互式结果文档。

图12A和12B每一个图示了带有交互式结果文档1200的实施例的截屏的客户端系统102。交互式结果文档1200包括视觉查询1102的相应子部分的一个或多个视觉标识符1202，其每一个包括到搜索结果子集的用户可选择的链接。图12A和12B图示了带有为边界框1202(例如，边界框1202-1、1202-2、1202-3)的视觉标识符的交互式结果文档1200。在图12A和12B中所示的实施例中，用户通过轻击在由特定子部分的边界框1202勾勒出的空间内的激活区域来激活对与该特定子部分相对应的搜索结果的显示。例如，用户将通过轻击环绕人图像的边界框1306(图13)来激活与该人图像相对应的搜索结果。在其他实施例中，使用鼠标或键盘而不是触敏显示器来选择可选择的链接。在一些实施例中，当用户预览边界框1202时(即，当用户单击、轻击一次或将指针悬停在边界框上时)，显示第一对应的搜索结果。当用户选择边界框时(即，当用户双击、轻击两次或使用另一个机制来指示选择时)，用户激活对多个对应的搜索结果的显示。

在图12A和12B中，视觉标识符是环绕视觉查询的子部分的边界框1202。图12A图示了为正方形或长方形的边界框1202。图12B图示了勾勒出视觉查询的子部分中的可标识的实体的边界的边界框1202，诸如用于饮料瓶的边界框1202-3。在一些实施例中，各个边界框1202在其内包括更小的边界框1202。例如，在图12A和12B中，标识包装的边界框1202-1环绕标识商标的边界框1202-2和所有其他边界框1202。在包括文本的一些实施例中，还包括用于文本词语中的部分的活动热链接1204。图12B示出了示例，其中“Active Drink”和“United States”被显示为热链接1204。与这些词语相对应的搜索结果是从词语查询服务器系统118接收到的结果，而与边界框相对应的结果是来自按图像查询搜索系统的结果。

图13图示了带有按视觉查询中的所识别的实体的类型编码的交互式结果文档1200的截屏的客户端系统102。图11的视觉查询包含人图像1106、商标图像1108、产品图像1110和多种文本元素1112。如此，在图13中显示的交互式结果文档1200包括围绕人1306、标签1308、产品1310和两个文本区域1312的边界框1202。图13的边界框每一个用不同的交叉影线来展示，其表示不同颜色透明边界框1202。在一些实施例中，将边界框的视觉标识符(和/或交互式结果文档1200中的标签或其他视觉标识符)进行格式化来以在视觉上不同的方式展示，诸如重叠的颜色、重叠的图案、标签背景颜色、标签背景图案、标签字体颜色以及边界框边界颜色。参考图13中的边界框示出了用于特定识别的实体的类型编码，但是也可以将按类型编码应用于为标签的视觉标识符。

图14图示了具有带有标签1402的交互式结果文档1200的截屏的客户端设备102，标签1402是图11的视觉查询1102的相应子部分的视觉标识符。标签视觉标识符1402每一个包括到对应的搜索结果的子集的用户可选择的链接。在一些实施例中，通过在标签1402的区域内所显示的描述性文本来识别可选择的链接。一些实施例包括在一个标签1402内的多个链接。例如，在图14中，悬停在喝水的女人的图像上的标签包括到关于该女人的面部识别结果的链接和到关于该特定图片的图像识别结果(例如，使用相同图片的其他产品或广告的图像)的链接。

在图14中，标签1402被显示为带有文本的部分透明的区域，其位于交互式结果文档的其相应子部分上。在其他实施例中，将相应标签放置在靠近但是并不位于交互式结果文档的其相应子部分上。在一些实施例中，以与参考图13所论述的相同的方式按类型对标签进行编码。在一些实施例中，用户通过轻击在由标签1302的边缘或外围所勾勒出的空间内的激活区域来激活对与对应于标签1302的特定子部分相对应的搜索结果的显示。在上面参考图12A和12B的边界框所论述的相同预览和选择功能也适用于为标签1402的视觉标识符。

图15图示了交互式结果文档1200和原始视觉查询1102与结果列表1500同时显示的截屏。在一些实施例中，如图12-14中所示，交互式结果文档1200独自显示。在其他实施例中，如图15中所示，交互式结果文档1200与原始视觉查询同时显示。在一些实施例中，视觉查询结果列表1500与原始视觉查询1102和/或交互式结果文档1200一起同时显示。客户端系统的类型和在显示器706上的空间量可以确定结果列表1500是否与交互式结果文档1200同时显示。在一些实施例中，客户端系统102(响应于提交给视觉查询服务器系统的视觉查询)接收结果列表1500和交互式结果文档1200两者，但是当用户滚动到交互式结果文档1200下面时，仅仅显示结果列表1500。在这些实施例中的一些中，客户端系统102在不必再次查询服务器的情况下显示与用户选择的视觉标识符1202/1402相对应的结果，因为结果列表1500由客户端系统102响应于视觉查询而接收，然后被本地存储在客户端系统102处。

在一些实施例中，将结果列表1500组织成类别1502。每一个类别包含至少一个结果1503。在一些实施例中，使类别标题高亮以将其与结果1503进行区别。类别1502根据其计算的类别权重来排序。在一些实施例中，类别权重是在该类别中的最高N个结果的权重的组合。如此，首先显示可能产生了更相关结果的类别。在对于同一所识别的实体，返回多于一个类别1502(诸如图15中所示的面部图像识别匹配和图像匹配)的实施例中，首先显示的类别具有更高的类别权重。

如参考图3说明的，在一些实施例中，当交互式结果文档1200中的可选择的链接被客户端系统102的用户选择时，光标将自动移动到适当的类别1502或该类别中的第一结果1503。替选地，当交互式结果文档中的可选择的链接被客户端系统102的用户选择时，将结果列表1500进行重新排序，使得首先显示与所选择的链接相关的类别。这例如通过使可选择的链接编码有识别对应的搜索结果的信息，或通过对搜索结果进行编码以指示对应可选择的链接或指示对应的结果类别来完成。

在一些实施例中，搜索结果的类别对应于产生那些搜索结果的按图像查询搜索系统。例如，在图15中，类别中的部分是产品匹配1506、标志匹配1508、面部识别匹配1510、图像匹配1512。原始视觉查询1102和/或交互式结果文档1200可以类似地用诸如查询1504的类别标题显示。类似地，还可以将来自词语查询服务器所执行的任何词语搜索的结果显示为独立类别，诸如web结果1514。在其他实施例中，视觉查询中的多于一个实体将从同一按图像查询搜索系统产生结果。例如，视觉查询可以包括两个不同的人脸，其将从面部识别搜索系统112-A返回不同结果。如此，在一些实施例中，类别1502按所识别的实体而不是搜索系统来划分。在一些实施例中，在所识别的实体类别头部1502中显示所识别的实体的图像，使得关于该所识别的实体的结果与关于另一个所识别的实体的结果是可区分的，即使两者结果由同一按图像查询搜索系统产生。例如，在图15中，产品匹配类别1506包括两个实体产品实体以及同样两个实体类别1502——盒装产品1516和瓶装产品1518，其中每一个具有多个对应的搜索结果1503。在一些实施例中，类别可以按所识别的实体和按图像查询系统的类型来划分。例如，在图15中，在产品匹配类别产品下有返回了相关结果的两个不同实体。

在一些实施例中，结果1503包括缩略图像。例如，如在图15中关于面部识别匹配结果所示的，与诸如图像中的人的名字的一些文本描述一起显示了关于“Actress X(女演员X)”和“Social Network Friend Y(社交网络朋友Y)”的面部匹配的图片的较小版本(也称为缩略图像)。

图16A-16B是图示与一些实施例一致的对包括面部图像的视觉查询作出响应的过程的流程图。这些图所示的操作中的每一个可以对应于存储在计算机存储器或非暂时性计算机可读存储介质中的指令。面部识别搜索系统112-A从请求者接收其中有一个或多个面部图像的视觉查询(1602)。在一些实施例中，视觉查询包含至少一个人脸的事实由前端视觉查询处理服务器110来确定。换句话说，当面部识别搜索系统112-A对视觉查询进行处理时，视觉查询图像的至少一部分已被确定为包含潜在人脸。在一些情况下，视觉查询包含多个人脸，诸如两个或多个朋友的图片、或数个人的集体照。在视觉查询包含多个面部图像的一些情况下，请求者可能仅仅对人脸中的一个感兴趣。如此，在一些实施例中，当视觉查询包括至少相应的面部图像和第二面部图像时，在标识潜在图像匹配之前，系统从请求者接收对相应面部图像的选择。例如，在一些实施例中，系统标识每一个潜在人脸，并且关于请求者希望标识查询中的哪个或哪些人脸请求确认。

标识潜在匹配相应面部图像的图像(1604)。这些图像被称为潜在图像匹配。潜在图像匹配根据视觉相似性标准来标识。并且，从根据关于请求者的数据标识的一个或多个图像源标识潜在图像匹配(1606)。在一些实施例中，从请求者的简档信息获取关于请求者的数据。在一些实施例中，直接从请求者获取请求者的简档信息。替选地或另外地，从社交网络接收请求者的简档信息。潜在图像匹配包括被加标签的图像，即包括用于图像中的人的个人标识符的图像。在一些实施例中，一个或多个图像源包括来自请求者的社交网络数据库、web相册、照片共享数据库以及与请求者相关联的其他图像源的图像。此外，在一些实施例中，名人的图像的数据库(图9的940)也被包括在搜索潜在图像匹配的图像源中。在一些实施例中，搜索潜在图像匹配的图像源还包括来自请求者的朋友或联系人的社交网络数据库、web相册、照片共享数据库以及与请求者相关联的其他图像源的图像。在包括来自请求者的朋友或联系人的数据库的图像的实施例中，作出哪些数据库待包括的确定。例如，在一些实施例中，包括预确定最大数量的朋友或联系人的数据库。在其他实施例中，包括仅仅直接社交网络朋友的数据库。

然后，标识与潜在图像匹配相关联的一个或多个人(1608)。在一些实施例中，从与所标识的图像匹配相关联的个人标识符标签标识一个或多个人。例如，系统可以标识鲍勃·史密斯、乔·琼斯以及彼得·约翰逊是与包括男性朋友的图像的查询的潜在图像匹配相关联的人，因为这三个人在与请求者相关联的其他图像中被加标签，并且这三个人在视觉上与查询中的面部图像相似。

对于每一个所标识的个人，检索特定于个人的数据，其包括从多个应用获取的社交关系度量(1610)。多个应用包括通信应用、社交网络应用、日历应用以及协作应用(1612)。例如，应用可以包括诸如以下的应用：Facebook、Twitter、Buzz、G-mail(电子邮件和IM)、web日历、诸如“LiveJournal”的博客、个人公共URL以及与其相关联的任何联系人列表。在一些实施例中，仅仅从这些应用上的“公开”发布的信息获取数据。在其他实施例中，如果数据属于请求者或已明确与请求者共享，则获取该数据。在一些实施例中，特定于个人的数据包括相应标识的个人的名字、地址、职业、组成员、兴趣、年龄、家乡、个人统计以及工作信息(如参考图18A更详细论述的)。在一些实施例中，从上述应用中的一个或多个搜集该信息。

特定于个人的数据包括社交关系度量，其是在相应标识的个人和请求者之间的社交联系性的度量(1614)。在一些实施例中，社交联系性度量包括在上述应用中的一个或多个上的社交联系性的度量。例如，社交联系性度量可以考虑以下的一个或多个：相应标识的个人和请求者在社交网络网站上是否是朋友、请求者和相应标识的个人所交换的电子邮件和/或IM消息的数量(如果有的话)、以及请求者和相应标识的个人是否关注相互的社交微博帖子等。

在一些实施例中，关于相应标识的个人的特定于个人的数据还包括从该相应个人的其他图像得到的特征(1616)。在一些实施例中，这些特征包括来自图像的元数据信息，诸如日期信息、时间信息以及位置信息。在其他实施例中，从相应个人的其他图像得到的特征包括视觉因素，诸如室内生活环境因素、室外生活环境因素、性别因素、种族因素、眼镜因素、面部毛发因素、头部毛发因素、头饰因素以及眼睛颜色因素。在又其他实施例中，从相应个人的其他图像得到的特征包括与相应个人在一个或多个图像源中的出现量有关的出现信息和/或关于相应个人与第二人一起在来自一个或多个图像源的图像中的同现量的信息。

可选地，在一些实施例中，个人位置模块972(图9)获取(1618)请求者的当前位置信息和相应标识的个人的当前位置信息。例如，可以从位于移动设备中的GPS接收器、从个人使用的台式设备的IP地址、从个人的家庭地址或工作地址、或从个人的发布的位置(诸如“我目前在波士顿的一个会议上”)获取请求者或相应标识的个人的当前位置。

然后，通过根据在相应面部图像和潜在图像匹配之间的视觉相似性的一个或多个度量以及还根据包括至少社交关系度量的排名信息来对一个或多个所标识的个人进行排名，生成个人的排序列表(1620)。将在下面参考图17更详细地论述影响排名的这些和其他因素。

如图16B中所示，过程继续。可选地，检查选择加入列表，并且关于一个或多个个人标识符对请求者是否是能释放的作出确定(1622)。在一些实施例中，当潜在匹配的图像来自除请求者的自身帐户外的源时，或当请求者的自身帐户不包含相应标识的个人的已加标签的图像时，进行该检查。

然后，将来自排序列表的至少一个个人标识符发送给请求者(1624)，从而标识一个或多个人。在一些实施例中，个人标识符是名字。在其他实施例中，个人标识符是称呼、电子邮件地址、昵称等。在一些实施例中，将代表性的图片，诸如简档图片、最佳匹配视觉查询的所标识的个人的图像，与个人标识符一起发送。在这样的实施例中，当多于一个人被标识为潜在匹配时，将每一个所标识的个人的代表性图片与对图像查询的响应一起发送。在一些实施例中，还将另外的信息，诸如联系信息、或近来发布的帖子的摘录与个人标识符一起发送。在其他实施例中，除个人标识符外，还返回在请求者和图像中的个人之间找到的关系。例如，乔·史密斯的排名结果可能包括陈述“乔·史密斯在你帐户的多于一个中被列出为联系人”或“你和乔·史密斯都是帕洛阿尔托网球俱乐部的成员”或“你和乔·史密斯都与卡伦·琼斯交朋友”。进一步信息，诸如个人的联系信息、组隶属、根据社交图在请求者和匹配的图像中的个人中间的人的名字，可以被包括在返回给请求者的结果中。在一些实施例中，向请求者展示的扩增的信息由请求者明确或隐含地指示(例如，通过其简档中的配置值或视觉查询中的参数或视觉查询的类型)。在一些实施例中，当多于一个个人标识符被发送给请求者时，为最高排名的标识的个人提供比为更低排名的标识的个人提供的更多的信息。

在一些实施例中，还将视觉查询的副本(或具有相应面部图像的查询部分)与一个或多个个人标识符一起发送(1626)。当多于一个面部图像在原始视觉查询中并且一个或多个面部图像被明确标识时，在一些实施例中，还将视觉查询的副本发送给视觉查询中的所标识的人中的一个或多个。因此，如果拍摄了集体照，并且多个人想要其副本，则请求者不必找到他们的联系信息，并且向他们手工发送照片的副本。在一些实施例中，请求者必须在向所标识的人中的一个或多个进行发送之前首先验证副本应当被发送给所标识的人中的一个或多个。

在一些实施例中，从请求者接收对个人标识符的选择(1628)。然后，响应于选择，向请求者发送与所选择的个人标识符相对应的数据(1630)。在一些实施例中，该数据包括与个人标识符相关联的一个或多个图像、与个人标识符相关联的联系信息、与个人标识符相关联的公共简档信息等。在一些实施例中，给予请求者选项以将该信息的部分或全部存储在请求者的联系人列表中、或为所标识的个人更新请求者的联系人信息。在一些实施例中，将该信息与请求者的视觉查询进行关联，或将具有与个人标识符相对应的面部图像的查询部分与联系人列表信息存储在一起。

此外，在一些实施例中，将视觉查询的面部图像存储为与所选择的个人标识符相对应的相应个人的另外图像(1632)。在一些实施例中，将该图像存储在图像源的先前查询部分(图9的938)中。在一些实施例中，给予请求者对图像进行注释的机会以包括另外的数据。在请求者输入注释数据的情况下，面部识别搜索系统112-A接收并存储(1634)该注释数据。注释模块(图9的968)接受注释以改进未来的面部识别搜索。例如，如果用户用人的名字对该人的图片进行注释，则该图片可以在未来面部识别查询中被使用来识别该人。在一些实施例中，因为隐私原因，个人的另外注释的图片可以由面部识别搜索系统112-A使用来扩增面部识别过程，但是不作为图像结果向除原始请求者外的任何人返回。在一些实施例中，仅允许在视觉查询中标识的实际个人使图像公开(或对除请求者外的人来说可获得)。在一些实施例中，一旦个人被明确标识，就向该人发送以下请求：询问其是否将允许图像为在其社交网络内的人的未来查询被返回为结果。

在一些实施例中，在步骤1604，可以检索到同一人的多于一个图像。一旦检索到潜在匹配的图像并且确定所述图像是同一人的，其可以通过注意到所述图像都具有相同个人ID、相同或相似的特定于个人的数据(名字、地址等)或具有相同或相似的社交关系来完成，就将所述图像与相同数据进行关联，并且对于处理步骤的剩余部分将所述图像如同单个单元般对待。可选地，如果在步骤1624中，将两个或多个图像用相同个人标识符返回，则响应于图像查询，返回关于该相同个人标识符的多于一个检索到的图像。

图17是图示在生成潜在匹配视觉查询中的面部图像的个人的排序列表时使用的因素和特征的流程图。该流程图提供关于上述步骤1620的更多信息。

在一些实施例中，在根据社交网络关系度量为个人的排序列表中的相应个人确定排名分值时使用各种因素(1702)。在一些实施例中，确定在一个或多个通信应用上相应个人和请求者之间的通信量，然后确定相应个人的排名分值，其中在为相应个人确定排名分值时的因素是在一个或多个通信应用上相应个人和请求者之间的确定的通信量(1704)。通信应用可以包括社交网络应用、社交微博、电子邮件应用和/或即时消息应用。例如，如果相应个人通过一个或多个通信应用与请求者进行了大量通信(例如，通过电子邮件和社交网络帖子的大量通信)，则请求者可能十分熟悉该相应个人，因此视觉查询中的面部图像更可能是该相应个人。在一些实施例中，仅当通信量高于预确定的阈值(例如，设置的通信数、在某一时段内的通信数或总通信的百分比)时，才使用该因素。在一些实施例中，面部识别搜索系统112-A确定在一个或多个通信应用上相应个人和请求者之间的通信量是否超过阈值，以及在为相应个人确定排名分值时的因素是在一个或多个通信应用上相应个人和请求者之间的通信量是否超过阈值的确定。

在一些实施例中，作出请求者和相应个人是否在相应社交网络应用中直接联系的确定，然后确定该相应个人的排名分值，其中在为该相应个人确定排名分值时的因素是请求者和相应个人是否在相应社交网络应用中直接联系的确定(1706)。例如，如果请求者和相应个人作为朋友直接联系，则请求者可能十分熟悉该相应个人，因此，视觉查询中的面部图像更可能是该相应个人。

在相应个人的特定于个人的数据包括多个特征的情况下，所述多个特征诸如以下的两个或多个：该相应个人的名字、地址、职业、组成员、兴趣、年龄、家乡、个人统计和/或工作信息，还为请求者检索相同信息，达到这样的程度：这样的信息对面部识别搜索系统112-A来说可获得。然后，根据请求者的特定于个人的数据与相应标识的个人的特定于个人的数据相似的程度，确定一个或多个个人相似性度量。确定相应标识的个人的排名分值，其中在为相应标识的个人确定排名分值时的一个或多个因素是一个或多个个人相似性度量(1708)。例如，如果请求者和相应个人是相似年龄、相似职业的，以及是相似组的成员，则其更可能是朋友，因此视觉查询中的面部图像更可能是该相应个人。

在成功获取请求者和标识的个人两者的当前位置信息的情况下，确定相应标识的个人的排名分值，其中在为相应标识的个人确定排名分值时的因素是请求者的当前位置信息是否匹配相应标识的个人的当前位置信息(1710)。例如，当请求者和相应个人两者均被确定为在相同位置时，该接近性增加了视觉查询中的面部图像是相应个人的可能性。甚至更如此，当请求者和相应个人被确定不在相同位置时，接近性的缺乏极大减少了视觉查询中的面部图像是相应个人的可能性。此外，在一些实施例中，检索请求者和所标识的个人两者的位置的历史或日志，并且为匹配将其相互进行比较。在一些实施例中，将请求者和所标识的个人的位置日志与从查询图像自身得到的位置(和/或日期和时间)特征进一步进行比较。例如，如果查询位置信息指示图像在7月2日在加州圣克鲁斯拍摄，以及请求者和所标识的个人两者的位置的日志还指示其在7月2日在加州圣克鲁斯，则该位置匹配增加了视觉查询中的面部图像是该相应个人的可能性。

在相应个人的特定于个人的数据还包括从该相应个人的其他图像得到的特征(其参考步骤1616论述)的实施例中，排名进一步根据在所接收到的查询和从相应个人的其他图像得到的特征之间的相似性(1712)。在为相应个人确定排名分值时使用各种因素，其根据从相应个人的其他图像得到的这些特征(1714)。

在一些实施例中，从相应个人的其他图像得到的特征包括图像捕捉日期(例如，周天、日或月、和/或完整日期)和时间信息。然后，根据所接收到的查询具有与相应个人的一个或多个其他图像的日期和时间信息相似的图像捕捉日期和时间信息的程度确定一个或多个相似性度量。确定相应个人的排名分值，其中在为相应个人确定排名分值时的一个或多个因素是一个或多个相似性度量(1716)。在一些实施例中，相似性度量是布尔值(例如，是/否或1/0)。在其他实施例中，相似性度量是布尔值的向量(例如，相同日期是/否、在1小时内是/否、在5小时内是/否等)。其可以是测量相似性的数值(例如，在0和1之间)。在一些实施例中，为相应个人的每一个其他图像确定相似性度量，而在一些实施例中，确定相应个人的所有图像的组值。在一些实施例中，从图像得到的另一个特征是地点/位置信息，如上所述其可以用作另外或替选相似性度量。例如，如果视觉查询具有与一个或多个其他图像相似的日期、时间和/或位置信息，则该相似性增加了视觉查询中的面部图像是在具有相似日期、时间和/或位置信息的一个或多个其他图像中的相应个人的可能性。

在一些实施例中，从相应个人的其他图像得到的特征包括与该相应个人在来自一个或多个图像源的图像中的出现量有关的出现信息。在这些实施例中的一些中，在为相应个人确定排名分值时的因素是关于该相应个人的出现信息(1718)。例如，如果多个其他图像包括相应个人，则请求者可能十分熟悉该相应个人，其增加了视觉查询中的面部图像是该相应个人的可能性。

在一些实施例中，从相应个人的其他图像得到的特征包括视觉因素，其包括以下的一个或多个：室内生活环境因素、室外生活环境因素、性别因素、种族因素、眼镜因素、面部毛发因素、头部毛发因素、头饰因素、服装元素以及眼睛颜色因素。在这些实施例中的一些中，在为相应个人确定排名分值时的一个或多个因素包括关于该相应个人的视觉因素(1720)。

在一些情况下，视觉查询包括多个面部图像。当多于一个面部图像在视觉查询中时，在其之间的相互联系在正确标识其时可以是有帮助的。例如，如果其具有较强的社交关系度量或在其他图像中一起出现，则那些事实增加了其也共同在查询图像中的可能性。在一些实施例中，视觉查询包括至少相应面部图像和第二面部图像。标识根据视觉相似性标准潜在匹配第二面部图像的图像(在此被称为潜在第二图像匹配)。潜在第二图像匹配是来自根据关于请求者的数据标识的一个或多个图像源的图像。然后，标识与潜在第二图像匹配相关联的第二人。为了该确定的目的，假设以高度确定性标识第二人。对于作为对相应面部图像的潜在匹配的每一个所标识的个人，从多个应用获取包括与第二人的社交联系性的第二社交关系度量的特定于个人的数据。然后，通过进一步根据包括至少第二社交关系度量的排名信息对一个或多个所标识的个人进行排名来生成个人的排序列表。如此，相应个人的排名进一步根据包括与查询中的第二人的社交联系性的度量的第二社交关系度量(1722)。换句话说，在一些实施例中，在生成个人的排序列表时，使用与请求者的社交关系和与第二人的社交关系两者。

在其他实施例中，在第二人和被标识为潜在匹配的每一个人之间，对在上面论述的其他因素中的一个或多个进行比较以找到最佳匹配。例如，如果第二人和相应个人受雇于同一公司、在具有相似日期/时间信息的其他图像中出现或相互大量通信，则在正确标识他们时可以使用这些因素。在另一个示例中，从相应个人的其他图像得到的特征包括与相应个人和第二人在来自一个或多个图像源的图像中的同现量有关的信息；以及当确定相应个人的排名分值时，在为该相应个人确定排名分值时的因素是该个人和第二人在来自一个或多个图像源的图像中的同现量(1724)。

图18A是图示面部识别搜索系统112-A所利用的面部图像数据库114-A的数据结构的一部分的框图。在一些实施例中，面部图像数据库包含从根据关于请求者的数据所标识的一个或多个图像源获取的个人的一个或多个图像1802。在一些实施例中，面部图像数据库114-A还包含用于该个人的唯一ID1804或个人标识符。将关于该个人的另外信息与个人标识符1804进行关联，并且将其存储在特定于个人的数据的数据库964中。然后，在为视觉查询中的面部图像确定潜在匹配时使用该另外信息的部分或全部。例如，通过根据与请求者的社交联系性的度量，诸如匹配的组成员1812或较强的社交关系1814，对个人进行排名来生成与潜在图像匹配相关联的所标识的个人的排序列表。当确定所标识的个人的排序列表时，除在视觉上与视觉查询中的面部图像相似的潜在图像外，使用来自特定于个人的数据的数据库964的数据。特定于个人的数据的数据库964可以包括但不限于唯一ID1804所标识的个人的以下项中的任何项：名字1806、地址1808、职业1810、组成员1812、社交网络关系1814(参考图18B更详细说明)、当前位置1816、共享偏好1818、兴趣1820、年龄1822、家乡1824、个人统计1826、工作信息1828。该信息从诸如通信应用、社交网络应用、日历应用和协作应用的多个应用获取。如参考图18C所论述的，在一些实施例中，特定于个人的数据还包括从个人的一个或多个图像得到的特征1830。

图18B图示社交网络关系1814的示例。在一些实施例中，所标识的个人的特定于个人的数据包括与请求者(在图18B中被标识为查询者)的社交联系性的社交关系度量，其从多个应用获取。在该图中人们之间的线表示其相互社交关系中的一个或多个(诸如通过电子邮件、即时消息以及社交网络网站的关系)。在一些实施例中，将在两个人之间的社交距离用作在为潜在图像匹配确定排名分值时的因素。例如，如果一个潜在匹配图像是个人C的图像，以及另一个潜在匹配图像是个人Y的图像，在一些实施例中，个人C的潜在匹配图像将接收比个人Y更高的社交联系性排名因素(待在计算排名分值时使用)，因为忽略所有其他因素，与请求者拍摄离开三个社交网络“跃距”的某人(个人Y)的图片相比，更可能的是，请求者拍摄与该请求者直接联系的某人(个人C)的图片。类似地，个人W将接收比个人A更高的社交联系性排名因素，因为个人W离开请求者两个社交网络“跃距”，而个人A离开请求者三个社交网络“跃距”。在一些实施例中，还使用请求者的社交网络关系来确定响应于请求者的视觉查询哪些图像源待搜索。例如，在一些实施例中，将在属于具有直接社交网络关系的人们的帐户中的图像包括在搜索匹配视觉查询中的面部图像的图像的图像源中，而不将属于与请求者没有直接社交网络关系的个人的帐户中的图像包括在搜索匹配视觉查询中的面部图像的图像的图像源中。

对于一些视觉查询，结合图18B的社交网络关系图上的距离或“跃距”使用来自图18A的特定于个人的数据的数据库964的其他信息。例如，如果请求者和相应个人彼此住得很近，如果他们在同一行业工作、在同一社交网络“组”中，以及如果两者都具有当前在同一位置(如由例如其移动设备中的GPS接收器所测量的)处的移动设备，则即使该相应个人在社交网络关系图上离开请求者数个“跃距”，该相应个人的排名分值仍然可能很高。在另一个示例中，如果潜在匹配图像中的相应个人在社交网络关系图上离开请求者仅仅一个“跃距”，则即使有通过特定于个人的数据的数据库964确定的弱关系(诸如两个人都是较大组成员的成员，如同共享宗教或政党)，该相应个人可能被排名很高。

在一些实施例中，请求者可以将来自特定于个人的数据的数据库964的某些信息标识为比来自特定于个人的数据的数据库964的其他信息更重要。例如，请求者可能指定给予与个人在其中工作的行业有关的信息比其他特定于个人的数据更高的权重，因为请求者正参加工作相关的社交集会，因此查询图像可能包括在与请求者相同的行业工作的其他人的面部图像。在另一个示例中，请求者可能指定给予与年龄有关的信息比其他特定于个人的数据更高的权重，因为请求者正提交来自全部或主要是同龄的人参加的聚会(或其他社交集会)的查询图像。

图18C是图示一些图像得到的特征1830的框图，该图像得到的特征1830从与请求者相关联的每一个人的图像得到。在一些实施例中，将这些得到的特征(从个人的至少一个图像得到)按照个人标识符存储在数据库中。这些得到的特征包括以下的一个或多个(以及典型地以下的两个或多个)：室内生活环境因素1832、室外生活环境因素1834、性别因素1836、种族因素1838、眼镜因素1840、面部毛发因素1842、头部毛发因素1844、头饰因素1846、服装因素1847、眼睛颜色因素1848以及与相应个人在一个或多个图像源中的出现量有关的出现信息1850、以及与相应个人与各种另外的人一起在来自一个或多个图像源的图像中的同现量有关的信息1852。在一些实施例中，得到的特征还包括来自图像的元数据信息，诸如每一个图像的日期信息1854、时间信息1856以及位置信息1858。给予从相应个人的其他图像得到的每一个得到的特征1830值和权重，其在当使用该得到的特征时为相应个人确定排名分值中使用。

为了说明目的，参考具体实施例描述了前面的描述。然而，在上面的说明性论述并不意在是穷尽的或将本发明限制在所公开的精确形式。根据上面的教导，许多修改和变形是可能的。为了最佳说明本发明的原理和其实际应用，选择并描述了实施例，从而使本领域技术人员能够以适于预期的特定用途的各种修改最佳利用本发明和各种实施例。

Claims

1.一种处理包括面部图像的视觉查询的方法，所述方法包括：

获取由请求用户提交到基于图像的搜索系统的查询图像；

获取被标识为与所述查询图像匹配的一个或多个图像；

标识与被标识为与所述查询图像匹配的所述一个或多个图像中的至少一个图像相关联的人们；

对于与被标识为与所述查询图像匹配的所述一个或多个图像中的至少一个图像相关联的每个人，获取反映该人与将所述查询图像提交到所述基于图像的搜索系统的所述请求用户之间的社交联系性程度的分值；

基于反映每个人与将所述查询图像提交到所述基于图像的搜索系统的所述请求用户之间的社交联系性程度的分值，从与被标识为与所述查询图像匹配的所述一个或多个图像中的至少一个图像相关联的人们中选择一个或多个人；以及

将所选择的人们中的一个或多个人的相应标识符提供给所述请求用户。

2.根据权利要求1所述的方法，进一步包括：

确定所述查询图像的至少一部分包括一个或多个人脸。

3.根据权利要求1所述的方法，进一步包括：

确定所述查询图像包括多个人脸；以及

从所述请求用户接收对所述多个人脸中的一个人脸的选择，

其中获取被标识为与所述查询图像匹配的所述一个或多个图像进一步包括基于所选择的人脸获取所述一个或多个图像。

4.根据权利要求1所述的方法，进一步包括：

标识与所述请求用户相关联的用户信息；以及

基于所述请求用户的所标识的用户信息，标识一个或多个图像源，

其中获取被标识为与所述查询图像匹配的所述一个或多个图像进一步包括从所述一个或多个图像源获取所述一个或多个图像。

5.根据权利要求4所述的方法，其中标识与所述请求用户相关联的用户信息进一步包括标识与所述请求用户相关联的一个或多个社交简档。

6.根据权利要求2所述的方法，其中标识与被标识为与所述查询图像匹配的所述一个或多个图像中的至少一个图像相关联的人们进一步包括：

标识与所述请求用户相关联的包含一个或多个附加人脸的一个或多个附加图像；

将所述查询图像的所述人脸与所述一个或多个附加图像中的所述一个或多个附加人脸进行比较；

基于将所述查询图像的所述人脸与所述一个或多个附加图像中的所述一个或多个附加人脸进行比较，确定所述查询图像的所述人脸与所述一个或多个附加图像中的所述一个或多个附加人脸中的至少一个人脸相匹配；以及

标识所述一个或多个附加图像中的所述一个或多个附加人脸中的所述至少一个人脸的附加标识符标签。

7.根据权利要求1所述的方法，进一步包括：

针对所选择的人们中的一个或多个人，标识与该人相关联的社交网络简档；以及

针对所选择的人们中的一个或多个人，将该选择的人的社交网络简档的一部分提供给所述请求用户。

8.根据权利要求7所述的方法，进一步包括：

基于与每个所选择的人相关联的分值，对与被标识为与所述查询图像匹配的图像相关联的每个所选择的人进行排名，

其中，针对所选择的人们中的一个或多个人将所选择的人的社交网络简档的一部分提供给所述请求用户进一步包括：针对所选择的人们中的一个或多个人，基于所选择的人的排名来将所选择的人的社交网络简档的所述一部分提供给所述请求用户。

9.根据权利要求8所述的方法，其中针对所选择的人们中的一个或多个人，基于所选择的人的排名来将所选择的人的社交网络简档的所述一部分提供给所述请求用户进一步包括：基于每个所选择的人的排名上升，增加被提供到所述请求用户的每个所选择的人的社交网络简档的内容数量。

10.根据权利要求1所述的方法，进一步包括：

针对所选择的人们中的一个或多个人，标识与所选择的人相关联的社交网络简档信息；

针对所选择的人们中的一个或多个人，将与所选择的人相关联的社交网络简档信息和与所述请求用户相关联的社交网络简档信息进行比较；

针对所选择的人们中的一个或多个人，基于所述比较，标识对于所选择的人和所述请求用户而言共同的社交网络简档信息；以及

针对所选择的人们中的一个或多个人，提供所标识的与所选择的人和所述请求用户相关联的所述共同的社交网络简档信息。

11.根据权利要求1所述的方法，进一步包括：将所述查询图像提供给与被标识为与所述查询图像匹配的图像相关联的所选择的人们中的一个或多个人。

12.一种处理包括面部图像的视觉查询的系统，所述系统包括：

用于获取由请求用户提交到基于图像的搜索系统的查询图像的装置；

用于获取被标识为与所述查询图像匹配的一个或多个图像的装置；

用于标识与被标识为与所述查询图像匹配的所述一个或多个图像中的至少一个图像相关联的人们的装置；

用于对于与被标识为与所述查询图像匹配的所述一个或多个图像中的至少一个图像相关联的每个人，获取反映该人与将所述查询图像提交到所述基于图像的搜索系统的所述请求用户之间的社交联系性程度的分值的装置；

用于基于反映每个人与将所述查询图像提交到所述基于图像的搜索系统的所述请求用户之间的社交联系性程度的分值，从与被标识为与所述查询图像匹配的所述一个或多个图像中的至少一个图像相关联的人们中选择一个或多个人的装置；以及

用于将所选择的人们中的一个或多个人的相应标识符提供给所述请求用户的装置。

13.根据权利要求12所述的系统，进一步包括：

用于确定所述查询图像的至少一部分包括一个或多个人脸的装置。

14.根据权利要求12所述的系统，进一步包括：

用于确定所述查询图像包括多个人脸的装置；以及

用于从所述请求用户接收对所述多个人脸中的一个人脸的选择的装置，

其中用于获取被标识为与所述查询图像匹配的所述一个或多个图像的所述装置进一步包括用于基于所选择的人脸获取所述一个或多个图像的装置。

15.根据权利要求12所述的系统，进一步包括：

用于标识与所述请求用户相关联的用户信息的装置；以及

用于基于所述请求用户的所标识的用户信息，标识一个或多个图像源的装置，

其中用于获取被标识为与所述查询图像匹配的所述一个或多个图像的所述装置进一步包括用于从所述一个或多个图像源获取所述一个或多个图像的装置。

16.根据权利要求15所述的系统，其中用于标识与所述请求用户相关联的用户信息的所述装置进一步包括用于标识与所述请求用户相关联的一个或多个社交简档的装置。