CN107533567B - 图像实体标识和响应 - Google Patents

图像实体标识和响应 Download PDF

Info

Publication number
CN107533567B
CN107533567B CN201680025001.9A CN201680025001A CN107533567B CN 107533567 B CN107533567 B CN 107533567B CN 201680025001 A CN201680025001 A CN 201680025001A CN 107533567 B CN107533567 B CN 107533567B
Authority
CN
China
Prior art keywords
image
images
entity
query
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680025001.9A
Other languages
English (en)
Other versions
CN107533567A (zh
Inventor
U·S·卡麦斯
张明华
吴明
A·宾德利施
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN107533567A publication Critical patent/CN107533567A/zh
Application granted granted Critical
Publication of CN107533567B publication Critical patent/CN107533567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了用于响应来自计算机用户的图像查询的系统和方法。根据所公开的主题,响应于接收到图像查询,搜索引擎根据类似图像标识查询图像的主题。从类似图像确定实体名称并将实体名称映射到搜索引擎的已知实体。基于已知实体,获得关于已知实体的相关信息并且生成指向已知实体的一个或多个搜索结果页面。将生成的搜索结果页面中的至少一个作为对图像查询的响应返回给计算机用户。

Description

图像实体标识和响应
背景技术
人们越来越依赖搜索引擎来回答有关各个项目或实体的各种各样的问题。搜索引擎继而常常依赖来自诸如维基百科之类的来源的结构化数据作为用于回答关于给定实体的问题的主要信息来源。例如,维基百科包含针对美国国内每个州的结构化数据,并且该结构包括州府、人口、它何时被准许进入联邦、官方州项目(例如,州树、州花、州座右铭、州旗等)等等。然而,此信息通常只包含关于任何主题可用的整个事实集合的一小部分。另一方面,搜索引擎可以引用搜索引擎认为包括关于给定主题的信息的多个网站(也称为网页)。
图像搜索是一般搜索查询的特定形式并且被各个搜索引擎所支持。对于图像搜索,人/计算机用户将图像作为图像查询提交给搜索引擎,并且作为响应,接收与用户提交的图像相关和/或类似的图像集合。通常,在搜索结果页面中呈现给用户的图像是缩略图像,每个缩略图像经由与用户遍历以查看对应图像的对应图像的嵌入超链接相关联。当然,任何给定图像可以驻留在包括其他信息(例如,字幕、标题、描述等)的网页上,并且利用足够的调查和努力,人们可能能够确定关于被提交图像的主题的信息。简而言之,即使在接收到相关或类似图像的集合之后,仍然取决于由人来发现被提交图像的主题究竟是什么。
发明内容
提供以下发明内容以便以简化的形式介绍在下面的具体实施方式中将进一步描述概念的选择。本发明内容不旨在标识所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护的主题的范围。
根据所公开的主题的各方面,提供了用于响应来自计算机用户的图像查询的系统和方法。根据所公开的主题,响应于接收到图像查询,搜索引擎根据类似图像来标识查询图像的主题。从类似图像确定实体名称,并将实体名称映射到搜索引擎的已知实体。基于已知实体,获得关于已知实体的相关信息,并且生成指向已知实体的一个或多个搜索结果页面。生成的搜索结果页面中的至少一个作为对图像查询的响应被返回给计算机用户。
根据所公开的主题的另外的方面,提出了一种用于响应来自计算机用户的图像查询的方法。在接收到来自计算机用户的图像查询时,标识图像集合。该图像集合包括被视为与被包括在图像查询中的查询图像类似的图像。从类似图像集合的图像中的至少一些图像获得类似图像元数据,并且对类似图像元数据实施分析以确定针对查询图像的主题的最可能的实体名称。将最可能的实体名称与搜索引擎的已知实体相关联。然后,搜索引擎获得关于已知实体的附加信息,并且根据获得的关于已知实体的信息来生成一个或多个搜索结果页面。响应于图像查询,将一个或多个生成的搜索结果页面的至少一个搜索结果页面返回给计算机用户。
根据所公开的主题的另外的方面,提出了一种承载计算机可执行指令的计算机可读介质,所述计算机可执行指令被配置为执行用于响应来自计算机用户的图像查询的方法。在执行中,该方法首先接收图像查询,其中图像查询包括与寻求针对其的附加信息的主题相对应的查询图像。标识图像集合,该图像集合包括被搜索引擎确定为类似于查询图像的类似图像。对图像集合的图像实施分析以确定针对查询图像的主题的最可能的实体名称,并且将最可能的实体名称与搜索引擎的已知实体相关联或与之相关。获得关于已知实体的附加信息,并且根据获得的关于已知实体的信息来生成一个或多个搜索结果页面。响应于图像查询,将至少一个搜索结果页面返回给计算机用户。
根据所公开的主题的另外的方面,呈现了用于响应来自计算机用户的图像查询的搜索引擎的服务的计算机系统。除了处理器和存储器之外,计算机系统还包括类似图像标识部件,其被配置为当接收到图像查询时标识被确定为与查询图像类似的图像集合。还包括实体名称标识符部件,其被配置为根据由类似图像标识部件所标识的图像集合来确定针对查询图像的主题的最可能的名称。实体匹配部件将针对图像查询的主题的最可能的名称与搜索引擎的已知实体相匹配,并且搜索结果取回部件从与搜索引擎相关联的内容存储器获取关于已知实体的信息。基于关于已知实体的信息,搜索结果页面生成器生成一个或多个搜索结果页面和图像集合中的至少一些图像,并且响应于搜索查询而向计算机用户提供至少一个生成的搜索结果页面。
附图说明
通过结合以下附图来对以下描述进行参考,将更容易地理解所公开主题的前述各方面和许多伴随的优点,其中:
图1是图示出适于实现所公开主题的各方面的示例性网络环境的框图,所公开主题的各方面包括接收图像查询、标识与图像查询的图像相对应的已知实体、以及用关于已知实体的搜索结果进行响应;
图2是图示出关于计算机用户向搜索引擎提交图像查询、并且作为响应接收关于图像查询的主题的已知实体的搜索结果的示例性过程流程的框图;
图3是图示出图2的过程流程的示例性搜索结果的示意图;
图4是图示出用于根据所公开的主题的各个方面来响应图像查询的示例性例程的流程图;和
图5是图示出在计算设备上实现的、用于用关于图像查询的所标识的主题的搜索结果对图像查询进行响应的被适当配置的搜索引擎的示例性部件的框图。
具体实施方式
为了清楚起见,本文档中所使用的术语“示例性”应被解释为用作某个事物的例证或示例,而不应被解释为那个事物的理想和/或主导例证。术语“实体”对应于特定的具体项目或事物、或项目/事物的实例。实体可以对应于特定的人、人群、概念等。相应地,“已知实体”对应于被搜索引擎已知和标识的特定的、具体的项目或事物、或项目/事物的实例。例如,实体可以是特定品种的狗,而已知实体可以是由搜索引擎已知和标识的特定品种的狗。
为了本文档的目的,图像查询对应于提交给搜索引擎的内容的集合,作为响应,期望接收与所提交的内容相关的信息。图像查询至少包含被提交图像,从搜索引擎寻求针对被提交图像的附加信息。根据所公开的主题的各方面,作为其对图像查询的响应的处理的一部分,附加信息可以包括关于从与搜索引擎标识的相关和/或类似图像相关联的信息中标识的已知实体的信息。
为了本文档的目的,“缩略图像”是指源图像的缩小尺寸版本。缩略图像(或者也被简称为缩略图)也是经常具有较低分辨率的源图像。经常,缩略图被嵌入为到源图像的超链接的一部分,使得与缩略图像的交互将常常导致显示应用取回(或导航到)并显示源图像。
现在转到图1,图1是图示出适于实现所公开主题的各方面的示例性网络环境100的框图,所公开主题的各方面包括接收图像查询、标识与图像查询的图像相对应的已知实体、并用关于已知实体的搜索结果进行响应。示例性网络环境100包括网络108,各种计算机用户诸如计算机用户101和103可以在网络108上向被适当配置的搜索引擎110提交图像查询。作为示例而非限制,网络108可以对应于诸如互联网的广域网。计算机用户101和103通过诸如计算设备102和104之类的计算设备将其图像查询提交给搜索引擎110。还连接到网络108的是各种其他网络可访问站点和/或服务,包括网站112和144。如将容易理解的那样,这些网络可访问站点可以托管或提供包括源图像和相关信息的内容。在各种网站上托管的内容和相关信息被搜索引擎通常通过被称为“抓取”的过程来捕获,所述“抓取”过程为了标识/捕获在搜索引擎所保持的内容索引中用于索引的内容而系统地浏览网站。
为了说明所公开的主题的元件,现在对图2进行参考。图2是图示出关于诸如计算机用户101之类的计算机用户提交图像查询201到搜索引擎110、并且作为响应接收关于图像查询的主题的已知实体的搜索结果页面203的示例性过程流程200的框图。此外,在讨论图2时,还对图3进行参考,图3是图示出图2的过程流程200的示例性搜索结果诸如搜索结果页面203的示意图300。为了发起该过程,计算机用户101将生成包括至少查询图像301(即,图像查询201的图像)的图像查询201。当然,无限制地,生成图像查询201除了标识要被提交给搜索引擎110的查询图像301之外,可以不包括任何东西。
如示例性过程流程200所指示的,将图像查询201提交给搜索引擎110,如由箭头202所指示的。一旦接收,搜索引擎就根据提交的内容/查询标识这是来自计算机用户101的图像查询,并且如由箭头204所指示的,标识类似图像集合,搜索引擎110将类似图像集合确定为与查询图像301类似。从搜索引擎所知道的图像语料库中标识类似图像集合。通常,搜索引擎110所保持的信息对托管在网络108上的诸如网站112和114之类的各种网站上的已知图像进行引用。除了对已知图像的引用之外,搜索引擎还可以保持关于各种图像的属性信息,使得选择类似图像集合中的图像可以被有效地实施,包括将对托管在外部网站上的源图像的访问最小化。
一旦获得查询图像,任务完成说明性地包括以下步骤。首先,针对查询图像生成特征向量。可以根据查询图像的多个定性和定量方面来生成特征向量,多个定性和定量方面以说明的方式包括但不限于颜色、阴影、形状和尺寸。然后将与查询图像相对应的该特征向量提供给机器学习模型,该机器学习模型搜索并定位类似图像集合。根据所公开的主题的各方面,机器学习模型可以根据包括支持向量机(SVM)和/或逻辑回归的任何数量的合适算法来实现。此外,学习模块还可以被配置为在标识相关图像时利用任何数量的现有搜索引擎的图像取回API。
从这个类似图像集合中,搜索引擎提取类似图像元数据,如箭头206所指示。类似图像元数据可以对应于与图像相关联的标题,图像的标题、图像的字幕(即,与图像相关联的、与图像紧密相关联的并且通常被包括在相同结构化语言元素内的简要描述和/或解释,在相同结构化语言元素内图像被标识用于显示)、图像的描述性内容(即,涉及、描述和/或解释图像的主题的、与图像在相同网页上的内容)等。每个图像的类似图像元数据可以由搜索引擎110存储和保持在图像的语料库中,可以根据需要从类似图像的托管网站获得,或者二者的组合。
在已经提取了针对类似图像集合的类似图像元数据之后,对类似图像元数据执行分析,以标识针对查询图像301的内容的(一个或多个)可能的实体名称,如由箭头208所指示的。根据所公开的主题的各个方面,可以利用诸如机器学习模块的分析模块来分析类似图像元数据以确定类似图像的最可能的实体名称。该分析可以包括使用Jaccard相似性、Levenshtein距离、TF-IDF(词频/逆文档频率)的聚类技术,以及对类似图像元数据中使用的词语进行归一化等。作为进一步说明,替代地或附加地,对于每个所标识的相关图像,关于所标识的相关图像的注释执行分析。在一个非限制性示例中,在注释上实施用于标标识和/或提取最相关实体/短语的简单n-gram频率方法。当然,可以用任何一种或多种替代算法来代替n-gram频率方法,以便将所标识的相关图像的词语(名称)提取最大化。如上所指示的,结果是针对查询图像301的最可能的实体名称(或最可能的实体名称的集合)。
在已经标识查询图像301的(一个或多个)最可能的实体名称之后,该信息然后被用于从由搜索引擎110保持的已知实体的语料库中选择已知实体。作为定义,已知实体是搜索引擎110已知的特定唯一实体。通常,由搜索引擎将已知实体与唯一实体标识符相关联。一个已知实体可以是——作为示例而非限制——一个特定的人(例如,巴拉克·奥巴马——尽管名人或名望不是一个控制因素)、一个唯一事物(例如艾菲尔铁塔、希望钻石等)、位置(例如尼亚加拉大瀑布)等等。此外,已知实体对应于引用多个项目或事物的特定分类或类别。非限制性示例包括恐龙、美国总统、宗教等。如图3的搜索结果页203所示,已知实体对应于结果标签302所指示的“Sego Lily”(百合花),其是美国西部当地的一种花。
在从类似图像元数据中标识已知实体之后,关于已知实体的实体信息由搜索引擎110获得,如由箭头210所指示的。该信息可以包括关于已知实体的结构化文本内容、已知实体的图像、到托管关于已知实体的内容的网站的超链接等。实际上,在该过程的这一点处,获取关于查询图像301的已知实体的实体信息非常类似于获得与已知实体相对应的搜索结果信息。在此,搜索引擎110(根据由搜索引擎保持的内容存储装置中的信息)标识关于已知实体的各种信息源并获得该信息。
基于获得的关于已知实体的实体信息,搜索引擎生成至少一个搜索结果页面(如由箭头212所指示的),并且经由计算机用户的计算设备102将生成的搜索结果页面203返回给计算机用户101,如由箭头214所指示的。如将容易理解的,在接收到搜索结果页面203时,在计算设备102上将结果显示给计算机用户101,如由箭头216所指示的。
尽管关于从类似图像元数据标识单个实体而进行上述过程200,但是应当理解,这是说明性的而不是对所公开的主题的限制。在各个实例中,可以从类似图像标识多个实体。这多个实体可以指示查询图像包括多个主题(即,巴拉克·奥巴马和弗拉基米尔·普京),或者简单地说,类似图像集合是基于图像内的(一个或多个)实体之外的事物。在一些实施例中,当多个实体时被标识时,关于每个所标识的实体的信息被处理(例如,针对每个实体的在搜索结果页面上的多个标签)。可替代地,分析可以根据各种探索法而在所标识的实体之间进行选择,用于确定哪个实体是图像查询201所寻求的最可能的实体。
现在转到图4,图4是图示出根据所公开的主题的各个方面在搜索引擎110上实现的、用于响应诸如图2的图像查询201之类的图像查询的示例性例程的流程图。在块402处开始,搜索引擎110接收来自计算机用户101的图像查询201。在块404处,搜索引擎110从图像语料库中标识与查询图像类似的图像集合。在块406处,提取/获得关于类似图像的元数据。
如上面关于图2的块208所讨论的,在块408处,对类似图像元数据执行分析,以标识类似图像的可能(通常是最可能的)实体名称(并且,针对查询图像301而言是对应的)。如先前所指示的,该分析可以包括(作为示例而非限制)使用Jaccard相似性、Levenshtein距离、TF-IDF(词频/逆文档频率)、词语归一化等等的任何或全部聚类技术。
根据所公开的主题的各个方面,(一个或多个)实体名称可以与一个值相关联,该值指示实体名称是针对相关图像的正确实体名称的似然性。在分析类似实体元数据时将该值分配给生成的每个实体名称。因此,在决策块410处,可以可选地做出关于由针对查询图像301的分析所标识的实体名称是否满足或超过预定阈值的确定。
如图4中所图示,如果与最可能的实体名称相关联的似然值超过预定阈值,那么在块412处,实体名称被匹配到搜索引擎110的已知实体。在那之后,在块414处获得关于已知实体的实体信息。如上所提及,该实体信息可以包括关于已知实体的结构化文本内容、已知实体的图像、到托管关于已知实体的内容的网站的超链接等。
在替代方案中,如果与最可能的实体名称相关联的似然值没有超过预定阈值,那么例程400进行到块416。在块416处,如果与最可能的实体名称相关联的似然值没有超过预定阈值,则搜索引擎响应于图像查询201从相关图像生成一个或多个搜索结果。然而,如果与最可能的实体名称相关联的似然值满足或超过预定阈值,那么搜索引擎从(在块414中获得)获得的已知实体信息生成一个或多个搜索结果。当然,如图3中所指示,当与最可能的实体名称相关联的似然值满足或超过预定阈值时,可以生成搜索结果页面,以便也包括类似图像集合(例如通过点击用户控制304以按照期望显示计算机用户可以参考的图像)。
作为示例而非限制并参考图3,生成的搜索结果页面203可以包括计算机用户提交的图像301、包括关于已知实体的描述性和信息性数据的各种项目的实体卡308、引用关于已知实体的附加内容的搜索结果310 312、用于查看关于已知实体的其他信息的控制(诸如用于显示已知实体的图像的控制304)等。此外,根据所公开的主题的各个方面,由于已知实体的标识是基于从类似图像元数据标识实体名称的似然性/概率,因此还可以包括反馈区域314,计算机用户可以通过反馈区域314来验证提供的信息是否准确。
在响应于图像查询201生成一个或多个搜索结果页面之后,搜索引擎响应于图像查询将至少一个搜索结果页面201返回给计算机用户,如块418中所指示的。此后,例程400终止。
除了上述例程400的步骤之外,在响应于图像查询将搜索结果返回给计算机用户之后可以发生附加处理。这种附加处理可以包括(作为示例而非限制)显式和隐式的用户反馈的处理。显式用户反馈对应于关于由搜索引擎110提供的搜索结果的、由计算机用户提供的信息。作为显式的示例,反馈区域314包括两个用户可操作控件316 318,其允许用户可选地指示被搜索引擎选择作为图像查询所指向的题目/主题的已知实体是否被搜索引擎正确选择。在这种情况下,该指示由计算机用户显式地标识并且被发送到搜索引擎。在接收到这个(以及隐式的反馈)时,可以更新用于标识最可能的实体名称的机器学习过程以用于将来的处理/选择。
关于隐式用户反馈,显示返回的搜索结果页面和/或嵌入在生成的搜索结果页面内的代码的浏览器可以跟踪与一个或多个搜索结果页面的一个或多个元素的用户交互(或用户交互的缺乏),并将此用户交互提供回搜索引擎。将这个返回信息提供给机器学习模块,其确定最可能的实体名称以用于将来的处理/选择考虑。这种反馈暗示计算机用户的意图是针对与搜索结果页面的内容进行交互(或不交互),而不是提供反馈
关于上述例程400,以及这里描述的其他过程例如过程200,尽管关于离散步骤来表达这些例程/过程,但这些步骤本质上应被视为逻辑性的,并且可以对应于或不对应于特定实现的任何实际和/或离散步骤。此外,除非另外指出,否则在各种例程和过程中呈现这些步骤的顺序不应被解释为可以执行这些步骤的唯一顺序。在一些情况下,可以省略这些步骤中的一些步骤。本领域技术人员将认识到,无论以任何特定语言来体现逻辑指令/步骤,步骤的逻辑呈现足以有助于执行所要求保护的主题的各方面。
当然,虽然这些例程包括所公开的主题的各种新颖的特征,但是在这些例程中阐述的主题的执行中也可以执行其他步骤(未列出)。本领域技术人员将理解,这些例程的逻辑步骤可以组合在一起或由多个步骤组成。上述例程的任何或所有步骤可以并行或串行执行。通常但并非排他地,各种例程的功能性体现在诸如下面关于图5所述的计算设备之类的计算设备的一个或多个处理器上执行的软件(例如,应用、系统服务、库等)中。另外,在各种实施例中,各种例程中的所有或一些也可以体现在包括但不限于在计算机系统上的片上系统、编解码器、专门设计的处理器和逻辑电路等等的可执行硬件模块中。
这些例程/过程通常体现在包括例程、功能、循环结构、诸如if-then(如果-则)和if-then-else(如果-则-否则)语句的选择器、分配、算术计算等等的可执行代码模块内。然而,每个例程的可执行语句中的确切实现是基于各种实现配置和决策,包括编程语言、编译器、目标处理器、操作环境以及链接或绑定操作。本领域技术人员将容易理解,在这些例程中标识的逻辑步骤可以以任何数量的方式来实现,并且因此上述逻辑描述足以使得能够实现类似的有益结果。
虽然在应用(也称为计算机程序)、app(小的、通常为单一或狭窄目的的应用)、可执行模块和/或方法中体现的例程或过程中表达所公开的主题的许多新颖方面,但是这些方面也可以体现为由计算机可读介质存储的计算机可执行指令,计算机可读介质也称为计算机可读存储介质,它们是制造品。如本领域技术人员将认识到的那样,计算机可读介质可以托管、存储和/或再现计算机可执行指令和数据以供稍后取回和/或执行。当执行托管或存储在计算机可读存储设备上的计算机可执行指令时,它们的执行导致、配置和/或使执行计算设备执行各种步骤、方法和/或功能性,包括上述的那些步骤、方法、以及例程。计算机可读介质的示例包括但不限于:诸如蓝光光盘、数字视频盘(DVD)、压缩盘(CD)、光盘盒等的光学存储介质;包括硬盘驱动器、软盘、磁带等的磁存储介质;诸如随机存取存储器(RAM)、只读存储器(ROM)、存储卡、拇指驱动器等的存储器存储设备;云存储(即在线存储服务);等等。虽然计算机可读介质可以将计算机可执行指令(和数据)递送到计算设备,以用于经由包括载波和/或传播信号的各种传输手段和介质进行执行,但是出于本公开的目的,计算机可读介质明确排除载波和/或传播信号。
有利地,所公开主题的许多益处可以在各种计算设备和配置上实施。实际上,适用于实现所公开的主题的计算设备包括(作为示例而非限制):台式计算机;小型和大型计算机;分布式协作计算设备;基于云的计算服务;等等。实际上,适当配置的搜索引擎110作为在线服务被诸如计算机用户101和103之类的第三方访问,并且可以在诸如上面提及的那些之类的各种计算设备中的任何一个或多个上实现。
关于搜索引擎的实现,图5是图示在计算设备上实现的、用于用关于图像查询的所标识的主题的搜索结果对图像查询进行响应的、适当配置的搜索引擎的示例性部件的框图。当然,尽管关于单个适当配置的计算设备进行讨论,但是应当理解,这是易于描述和说明,并且不应被视为限制所公开的主题。示例性搜索引擎110包括诸如处理器502的一个或多个处理器(或处理单元)和存储器504。处理器502和存储器504以及其它部件通过系统总线510互连。存储器504通常(但不总是)包括易失性存储器506和非易失性存储器508二者。只要存储器被供电,易失存储器506就保存或存储信息。相反,即使在电源不可用时,非易失性存储器508也能够存储(或持续)信息。一般来说,RAM和CPU高速缓存存储器是易失性存储器506的示例,而ROM、固态存储器件、存储器存储设备和/或存储卡是非易失性存储器508的示例。
所示出的搜索引擎110还包括用于通过计算机网络108将该搜索引擎与其他设备互连的网络通信部件512。有时被称为网络接口卡或NIC的网络通信部件512使用一个或多个通信协议经由物理/有形(例如,有线、光学等)连接、无线连接或两者在网络108上进行通信。如本领域技术人员将容易理解的,诸如网络通信部件512的网络通信部件通常包括通过传输介质发射和接收数字和/或模拟信号的可执行固件部件(并且还可以包括或包含可执行软件部件)和/或硬件。
在执行各种功能(特别是关于用指向查询图像301的实体/主题的搜索结果对图像查询201进行响应)时,处理器502执行从存储器504取回的指令(和/或从计算机可读介质,如上所讨论)。处理器501可以包括诸如单处理器、多处理器、单核单元和多核单元之类的多个可用处理器中的任何一个。
示例性搜索引擎110还包括搜索结果取回部件520。搜索结果取回部件从内容存储装置534获得搜索引擎确定与查询题目相关的搜索结果—其可以包括已知实体。在本示例中,搜索结果取回部件520被请求获得关于已知实体的搜索结果(和相关信息),搜索结果取回部件获得搜索结果、已知实体的图像、关于已知实体的结构化信息、以及关于已知实体的等等信息,这些信息被用于生成搜索结果页面。
类似的图像标识部件522被配置为从搜索引擎110保持的图像语料库530标识与查询图像301类似的图像。如上所指示,类似图像标识部件522可以生成与查询图像301相对应的特征向量,并结合机器学习模型来使用特征向量以标识类似图像集合。此外,类似图像标识部件522还可以依赖于各种可用搜索引擎的现有图像取回API。
适当配置的搜索引擎110还包括实体名称标识符526。如上所指示,实体名称标识符526获取与查询图像301类似的图像集合的类似图像元数据,并且确定针对图像查询的实体/主题的最可能的实体名称。如上所指示,这些确定是根据类似实体元数据的分析进行的,该分析可以包括使用Jaccard相似性、Levenshtein距离、TF-IDF(词频/逆文档频率)的聚类技术,以及对类似图像元数据中使用的词语进行归一化等。可以根据所标识的相关图像的注释进一步进行确定。如上所提及,可以在注释上实施用于标识和/或提取最相关的实体/短语的简单n-gram频率方法以提取最可能的实体名称。
实体匹配部件524被配置为将最可能的实体名称(由实体名称标识符526标识)匹配到实体存储装置523中的已知实体。搜索结果生成器部件528被配置为根据可用的信息来生成一个或多个搜索结果页面:如果确定对于已知身份进行了图像查询,则搜索结果生成器部件528生成与该已知实体特别有关的一个或多个搜索结果页面。备选的,响应于未被标识为是指向已知实体的图像查询,搜索结果生成器部件528根据所标识的类似图像生成一个或多个搜索结果页面。响应于经由网络通信部件512的图像查询201,搜索结果生成器部件528将至少一个生成的搜索结果页面返回给请求计算机用户(诸如计算机用户101)。
关于示例性搜索引擎110的各种部件,本领域技术人员将理解,这些部件可以被实现为存储在计算设备的存储器中的可执行软件模块、实现为硬件模块和/或部件(包括SoC-片上系统)、或两者的组合。此外,在某些实施例中,各种部件中的每一个可以被实现为与一个或多个计算机系统和/或计算设备结合进行操作的独立的、协作的过程或设备。当然,应当进一步理解,上述各种部件应被视为用于执行各种所描述的功能的逻辑部件。如本领域技术人员将容易理解的那样,逻辑部件和/或子系统可以或不可以以一对一的方式直接对应于实际的分立部件。在实际实施例中,每个计算设备的各种部件可以组合在一起或分布在多个实际部件上和/或作为协作过程被实现在计算机网络上。
虽然已经描述了所公开的主题的各个新颖方面,但是应当理解,这些方面是示例性的并且不应被解释为限制性的。在不脱离所公开的主题的范围的情况下,可以对各个方面进行变化和更改。

Claims (19)

1.一种在计算机上操作的并且响应来自计算机用户的图像查询的计算机实现的方法,所述方法包括:
接收图像查询,所述图像查询包括针对其寻求附加信息的主题的查询图像;
从所述查询图像生成特征向量;
基于来自所述查询图像的所述特征向量来标识图像集合;
从所述图像集合中的图像的至少一些图像获得图像元数据;
使用机器学习模块通过所述计算机对来自所述图像集合中的所述图像的所述至少一些图像的所述图像元数据执行聚类技术,以标识相关实体并且确定针对所述查询图像的所述主题的实体名称,其中所述实体名称正确的已分配的似然值高于预定阈值;
使用所述实体名称以从由搜索引擎索引的已知实体的语料库选择已知实体;
标识关于所述已知实体的各种信息源,并且从这些各种源获得关于所述已知实体的附加信息;
根据所获得的关于所述已知实体的所述附加信息生成一个或多个搜索结果页面;以及
将至少一个搜索结果页面返回给所述计算机用户,其中所述至少一个搜索结果页面包括用户可操作控件,所述用户可操作控件用于提供计算机用户的反馈,所述反馈关于所述已知实体是否是针对所述图像查询的正确的已知实体。
2.根据权利要求1所述的方法,其中,所述图像元数据包括与所述图像集合中的所述图像的所述至少一些图像相关联的字幕。
3.根据权利要求1所述的方法,其中,所述图像元数据包括与所述图像集合中的所述图像的所述至少一些图像相关联的标题。
4.根据权利要求1所述的方法,其中,所述图像元数据包括所述图像集合中的所述图像的所述至少一些图像的描述性内容。
5.根据权利要求1所述的方法,其中,所述图像元数据包括以下中的至少两个:与所述图像集合中的所述图像的所述至少一些图像相关联的字幕、与所述图像集合中的所述图像的所述至少一些图像相关联的标题和所述图像集合中的所述图像的所述至少一些图像的描述性内容。
6.根据权利要求1所述的方法,还包括:生成一个或多个搜索结果以包括用于提供关于所述已知实体是否是针对所述图像查询的正确已知实体的计算机用户的反馈的用户可操作控件。
7.一种承载计算机可执行指令的计算机可读介质,所述计算机可执行指令在计算机系统上被处理器执行时执行响应来自计算机用户的图像查询的方法,所述方法包括:
接收图像查询,所述图像查询包括针对其寻求附加信息的主题的查询图像;
从所述查询图像生成特征向量;
基于来自所述查询图像的所述特征向量来标识图像集合;
使用机器学习模块通过所述计算机系统对所述图像集合中的图像执行聚类技术,以标识相关实体并且确定针对所述查询图像的所述主题的实体名称,其中所述实体名称正确的已分配的似然值高于预定阈值;
使用所述实体名称以从由搜索引擎索引的已知实体的语料库选择已知实体;
标识关于所述已知实体的信息的各种源,并且从所述各种源获得关于所述已知实体的附加信息;
根据所获得的关于所述已知实体的所述附加信息生成一个或多个搜索结果页面;以及
将至少一个搜索结果页面返回给所述计算机用户,其中所述至少一个搜索结果页面包括用户可操作控件,所述用户可操作控件用于提供计算机用户的反馈,所述反馈关于所述已知实体是否是针对所述图像查询的正确的已知实体。
8.根据权利要求7所述的计算机可读介质,所述方法还包括:生成一个或多个搜索结果,以包括用于提供关于所述已知实体是否是针对所述图像查询的正确已知实体的计算机用户指示的反馈的用户可操作控件。
9.根据权利要求8所述的计算机可读介质,其中所述方法还包括:
从所述图像集合中的所述图像的至少一些图像获得图像元数据;以及
其中执行聚类技术以确定针对所述查询图像的所述主题的所述实体名称包括:对所述图像元数据实施分析以确定针对所述查询图像的所述主题的所述实体名称。
10.根据权利要求9所述的计算机可读介质,其中,所述图像元数据包括与所述图像集合中的所述图像的所述至少一些图像相关联的字幕。
11.根据权利要求10所述的计算机可读介质,其中,所述图像元数据还包括与所述图像集合中的所述图像的所述至少一些图像相关联的标题。
12.根据权利要求11所述的计算机可读介质,其中,所述图像元数据包括所述图像集合中的所述图像的所述至少一些图像的描述性内容。
13.根据权利要求9所述的计算机可读介质,其中,所述图像元数据包括以下中的至少两个:与所述图像集合中的所述图像的所述至少一些图像相关联的字幕、与所述图像集合中的所述图像的所述至少一些图像相关联的标题和所述图像集合中的所述图像的所述至少一些图像的描述性内容。
14.一种提供响应来自计算机用户的图像查询的搜索引擎的服务的计算机系统,所述计算机系统包括处理器和存储器,其中所述处理器执行指令,所述指令被存储在所述存储器中作为用于响应来自所述计算机用户的图像查询的附加部件的一部分或与之结合,所述图像查询包括针对其寻求信息的主题的查询图像,所述附加部件包括:
类似图像标识部件,被配置为从所述查询图像生成特征向量,并且基于来自所述查询图像的所述特征向量来标识图像集合;
实体名称标识符部件,被配置为根据由所述类似图像标识部件标识的所述图像集合,来标识相关实体并且确定针对所述查询图像的所述主题的实体名称,其中所述实体名称正确的已分配的似然值高于预定阈值,其中所述实体名称标识符部件包括机器学习模块;
实体匹配部件,被配置为将针对所述图像查询的所述主题的所述实体名称与来自由搜索引擎索引的已知实体的语料库的已知实体进行匹配;
搜索结果取回部件,被配置为标识关于所述已知实体的各种信息源并且从这些各种源获得关于所述已知实体的信息;以及
搜索结果页生成器,被配置为根据所获得的关于所述已知实体的所述信息和所述图像集合的至少一些图像来生成一个或多个搜索结果页面,并且将至少一个生成的搜索结果页面提供给所述计算机用户,
其中所述至少一个搜索结果页面包括用户可操作控件,所述用户可操作控件用于提供计算机用户的反馈,所述反馈关于所述已知实体是否是针对所述图像查询的正确的已知实体。
15.根据权利要求14所述的计算机系统,其中:
所述实体名称标识符部件获得与由所述图像标识部件标识的所述图像集合相对应的图像元数据;并且
其中,所述实体名称标识符部件根据与由所述类似图像标识件标识的所述图像集合相对应的所述图像元数据来确定针对所述查询图像的所述主题的实体名称。
16.根据权利要求15所述的计算机系统,其中,所述图像元数据包括与所述图像集合中的所述图像的所述至少一些图像相关联的字幕。
17.根据权利要求15所述的计算机系统,其中,所述图像元数据包括与所述图像集合中的所述图像的所述至少一些图像相关联的标题。
18.根据权利要求15所述的计算机系统,其中,所述图像元数据包括以下中的至少两个:与所述图像集合中的所述图像的所述至少一些图像相关联的字幕、与所述图像集合中的所述图像的所述至少一些图像相关联的标题、以及与所述图像集合中所述图像的所述至少一些图像相关联的描述性内容。
19.根据权利要求15所述的计算机系统,其中,所述搜索结果页生成器被配置为生成一个或多个搜索结果,以包括用于提供关于所述已知实体是否是针对所述图像查询的正确已知实体的计算机用户指示的反馈的用户可操作控件。
CN201680025001.9A 2015-04-29 2016-04-27 图像实体标识和响应 Active CN107533567B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/700,027 US10402446B2 (en) 2015-04-29 2015-04-29 Image entity recognition and response
US14/700,027 2015-04-29
PCT/US2016/029407 WO2016176232A1 (en) 2015-04-29 2016-04-27 Image entity recognition and response

Publications (2)

Publication Number Publication Date
CN107533567A CN107533567A (zh) 2018-01-02
CN107533567B true CN107533567B (zh) 2022-02-22

Family

ID=55971197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680025001.9A Active CN107533567B (zh) 2015-04-29 2016-04-27 图像实体标识和响应

Country Status (4)

Country Link
US (1) US10402446B2 (zh)
EP (1) EP3289489B1 (zh)
CN (1) CN107533567B (zh)
WO (1) WO2016176232A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11080324B2 (en) * 2018-12-03 2021-08-03 Accenture Global Solutions Limited Text domain image retrieval
CN113366525A (zh) 2019-02-01 2021-09-07 雀巢产品有限公司 宠物食物推荐装置和方法
US11073975B1 (en) * 2019-03-29 2021-07-27 Shutterstock, Inc. Synthetic image generation in response to user creation of image
CN109856800B (zh) * 2019-04-09 2021-09-03 中科海微(北京)科技有限公司 分体式ar眼镜的显示控制方法、装置及分体式ar眼镜
CN111984852A (zh) * 2019-05-21 2020-11-24 微软技术许可有限责任公司 生成式图像获取
US11682204B2 (en) * 2020-07-27 2023-06-20 International Business Machines Corporation Recognition assistant

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064959A (zh) * 2011-12-30 2013-04-24 微软公司 利用搜索结果呈现交互式图像
WO2015035477A1 (en) * 2013-09-11 2015-03-19 See-Out Pty Ltd Image searching method and apparatus

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411724B1 (en) * 1999-07-02 2002-06-25 Koninklijke Philips Electronics N.V. Using meta-descriptors to represent multimedia information
US7565139B2 (en) 2004-02-20 2009-07-21 Google Inc. Image-based search engine for mobile phones with camera
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US20080285860A1 (en) 2007-05-07 2008-11-20 The Penn State Research Foundation Studying aesthetics in photographic images using a computational approach
KR100849420B1 (ko) 2007-10-26 2008-07-31 주식회사지앤지커머스 이미지 기반 검색 시스템 및 방법
US8165406B2 (en) 2007-12-12 2012-04-24 Microsoft Corp. Interactive concept learning in image search
JP5384473B2 (ja) * 2008-03-21 2014-01-08 株式会社日立メディコ 画像表示装置及び画像表示方法
US8190623B2 (en) 2008-06-05 2012-05-29 Enpulz, L.L.C. Image search engine using image analysis and categorization
US20110188713A1 (en) * 2008-07-16 2011-08-04 Imprezzeo Pty Ltd Facial image recognition and retrieval
US8520979B2 (en) 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
US8429173B1 (en) * 2009-04-20 2013-04-23 Google Inc. Method, system, and computer readable medium for identifying result images based on an image query
US8548330B2 (en) * 2009-07-31 2013-10-01 Corning Cable Systems Llc Sectorization in distributed antenna systems, and related components and methods
US8433140B2 (en) * 2009-11-02 2013-04-30 Microsoft Corporation Image metadata propagation
US8861844B2 (en) * 2010-03-29 2014-10-14 Ebay Inc. Pre-computing digests for image similarity searching of image-based listings in a network-based publication system
US8494983B2 (en) 2010-11-16 2013-07-23 Microsoft Corporation Object-sensitive image search
US20120232987A1 (en) 2011-03-10 2012-09-13 Everingham James R Image-based search interface
US8782077B1 (en) * 2011-06-10 2014-07-15 Google Inc. Query image search
WO2012176317A1 (ja) 2011-06-23 2012-12-27 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
US20150170333A1 (en) * 2011-08-31 2015-06-18 Google Inc. Grouping And Presenting Images
US20130325600A1 (en) 2012-06-01 2013-12-05 Luminate, Inc. Image-Content Matching Based on Image Context and Referrer Data
US9218546B2 (en) * 2012-06-01 2015-12-22 Google Inc. Choosing image labels
US9424279B2 (en) * 2012-12-06 2016-08-23 Google Inc. Presenting image search results
US9286546B2 (en) * 2013-03-15 2016-03-15 Google Inc. Identifying labels for image collections
US9892447B2 (en) * 2013-05-08 2018-02-13 Ebay Inc. Performing image searches in a network-based publication system
US9466012B2 (en) * 2013-07-11 2016-10-11 Radiological Imaging Technology, Inc. Phantom image classification
EP2824285B1 (en) * 2013-07-11 2016-03-16 Alstom Technology Ltd Gas turbine engine comprising an inlet flow control arrangement
US9384259B2 (en) * 2014-02-03 2016-07-05 Yahoo! Categorizing hash tags

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064959A (zh) * 2011-12-30 2013-04-24 微软公司 利用搜索结果呈现交互式图像
WO2015035477A1 (en) * 2013-09-11 2015-03-19 See-Out Pty Ltd Image searching method and apparatus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Automated Annotation of Landmark Images Using Community Contributed Datasets and Web Resources;Gareth J. F. Jones 等;《Conference: Semantic Multimedia - 5th International Conference on Semantic and Digital Media Technologies, SAMT 2010》;20101203;第1-11页 *

Also Published As

Publication number Publication date
WO2016176232A1 (en) 2016-11-03
US20160321300A1 (en) 2016-11-03
US10402446B2 (en) 2019-09-03
CN107533567A (zh) 2018-01-02
EP3289489B1 (en) 2020-11-25
EP3289489A1 (en) 2018-03-07

Similar Documents

Publication Publication Date Title
CN107533567B (zh) 图像实体标识和响应
US10902076B2 (en) Ranking and recommending hashtags
JP7282940B2 (ja) 電子記録の文脈検索のためのシステム及び方法
US11176124B2 (en) Managing a search
US11580181B1 (en) Query modification based on non-textual resource context
US8370358B2 (en) Tagging content with metadata pre-filtered by context
JP6759844B2 (ja) 画像を施設に対して関連付けるシステム、方法、プログラム及び装置
US20150046418A1 (en) Personalized content tagging
JP2013541793A (ja) マルチモード検索クエリー入力手法
US9767198B2 (en) Method and system for presenting content summary of search results
US20120303637A1 (en) Automatic wod-cloud generation
US11436282B2 (en) Methods, devices and media for providing search suggestions
CN112507068A (zh) 文档查询方法、装置、电子设备和存储介质
CN111125566B (zh) 信息获取方法和装置、电子设备和存储介质
US20120059786A1 (en) Method and an apparatus for matching data network resources
CN104376034B (zh) 信息处理设备,信息处理方法和程序
WO2016101737A1 (zh) 搜索查询方法和装置
US20160292282A1 (en) Detecting and responding to single entity intent queries
CN107391613B (zh) 一种工业安全主题多文档自动消歧方法及装置
US20150286722A1 (en) Tagging of documents and other resources to enhance their searchability
Poghosyan et al. Topy: Real-time story tracking via social tags
CN113672768A (zh) 用于内容发现的人工智能
US20110125758A1 (en) Collaborative Automated Structured Tagging
JP2020016960A (ja) 推定装置、推定方法及び推定プログラム
US20240020476A1 (en) Determining linked spam content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant