CN105378763B

CN105378763B - 推断实体属性值

Info

Publication number: CN105378763B
Application number: CN201480026225.2A
Authority: CN
Inventors: B.米特拉; E.R.阿比布; F.E.伊马达; Y.焦
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-05-09
Filing date: 2014-05-08
Publication date: 2018-04-13
Anticipated expiration: 2034-05-08
Also published as: US10394854B2; US9501503B2; WO2014182864A3; US20170032023A1; CN105378763A; WO2014182864A2; US20140337358A1; EP2994858B1; EP2994858A2

Abstract

提供了用于推断对于实体的缺失或模糊的属性值的系统、方法、和计算机可读存储介质，该推断是基于如从多个信息源提取的关于这样的实体的分部信息和/或关于其他类似实体的信息，以生成用于在线搜索的Web排序信号。摄取多个异构输入数据源并组合它们以产生输出数据，所述输出数据的信息内容多于其组成部分之和。提供了一般性的平台，其中可以插入具有与实体属性有关的信息内容的多个数据源，而对平台无需额外的改变。这种用于提取和推断实体属性值的一般性插件模型使得容易在新数据源变得可用时借用它们来改善最终推断的属性数据。

Description

推断实体属性值

背景技术

近年来，许多在线搜索特征已开始绕着实体转。实体是抽象概念和对象的实例，包括人、事件、位置、业务、电影等等。实体通常包括一个或多个属性，每个属性具有至少一个关联的属性值。一些搜索引擎，例如从华盛顿州雷德蒙的微软公司可得到的BING搜索引擎，能够给场景供以动力去明确地搜索特定的实体，而不仅仅是实体的文本描述。例如这样的搜索引擎可能能够将“John Doe（约翰﹒多伊）”识别为实体，并因此相比于其对诸如“johndoe”这样的文本查询可能提供的搜索体验而言，能够提供特别针对该实体的更丰富的搜索结果体验。

对于针对特定的已知实体执行Web排序（rank）的一个关键挑战是维护与这样的实体相关联的已知属性值（比如，与个人实体相关联的雇主以及与餐厅实体相关联的位置等等）的数据库。一些方案致力于通过例如使用模板来挖掘所抓取的Web内容，以创建这样的数据库。然而这些数据库常常遭遇缺失或模糊的属性值，其要么不存在于Web上，要么无法被成功提取和/或与相关实体相关联。

发明内容

本概要被提供来以简化的形式介绍概念的选择，这些概念还将在下面的详细说明中进行描述。本概要既不打算标识所要求保护的主题的关键特征或必要特征，也不打算在确定所要求保护的主题的范围中被用作为帮助。

在各种实施例中，提供系统、方法、和计算机可读存储介质以用于推断对于实体的缺失的属性值，该推断是基于如从多个信息源提取的关于这样的实体的分部（partial）信息和/或关于其他类似实体的信息，以生成用于在线搜索的Web排序信号。本发明的实施例摄取（ingest）多个异构输入数据源并组合它们以产生输出数据，所述输出数据具有的信息内容多于其组成部分之和。在这么做时，将合并来自不同源的关于实体的分部信息以及基于相关的实体来推断属性值作为单个问题来解决。

本发明的实施例提供了一般性的平台，其中可以插入具有与实体属性有关的信息内容的多个数据源，而对平台无需任何额外的改变。这种用于提取和推断实体属性值的一般性插件模型对于平台是一种长处，因为它使得容易在新数据源变得可用时借用所述新数据源以改善最终推断的属性数据。

附图说明

作为示例而不是限制，在附图中图示了本发明，图上同样的参考标号表示类似的单元，以及其中：

图1是适合于在实施本发明的实施例时使用的示范性计算环境的框图；

图2是根据本发明的实施例的、来自两个异构数据源中每个异构数据源的分部实体视图（“分部”）的示意图；

图3是根据本发明的实施例的、对于分部的示范性数据结构的示意图；

图4是根据本发明的实施例的分部-属性图表的示意图；

图5是根据本发明的实施例的、具有复合属性的分部-属性图表的示意图；

图6是根据本发明的实施例的分部-分部相似度图表的示意图；

图7是示出了缺失或模糊的属性的示意图，根据本发明的实施例的推断引擎可以推断对于所述缺失或模糊的属性的值；

图8是其中可以采用本发明的实施例的示范性计算系统的框图；

图9是示出了根据本发明的实施例的、用于推断实体属性值的示范性方法的流程图；以及

图10是示出了根据本发明的实施例的、用于推断实体属性值的另一示范性方法的流程图。

具体实施方式

本发明的主题在这里用特异性来描述以满足法定要求。然而，描述本身不打算限制本专利的范围。而是，本发明人预期所要求保护的主题也可以与其它当前的或将来的技术相结合地以其它方式体现，以便包括不同的步骤或类似于在本文档中描述的步骤的步骤组合。而且，虽然术语“步骤”和/或“方块”在这里可被使用来意指所利用的方法的不同单元，但这些术语不应当被解译为暗示在这里公开的各种步骤中间或之间的任何特定的次序，除非且除了是在个体步骤的次序被明确描述时。

本文描述的技术的各种方面通常针对用于推断对于实体的缺失或模糊的属性值的系统、方法、和计算机可读存储介质，该推断是基于如从多个信息源提取的关于这样的实体的分部信息和/或关于其他类似实体的信息，以生成用于在线搜索的Web排序信号。本发明的实施例摄取多个异构输入数据源并组合它们以产生输出数据，所述输出数据具有的信息内容多于其组成部分之和。为此，存在两个需要解决的明显问题。

按照本发明的实施例，所有关于来自单一数据源的单一实体的信息都被当作信息单位，在本文中所述信息单位被称作“分部”。因此，分部有效地是所有的、具体数据源具有的与特定的实体有关的信息。来自多个数据源的分部被用来基于属性的重叠以及其他基于图表的相似度度量而创建分部与分部相似度图表。期望与来自两个不同数据源的相同实体相对应的两个分部将会具有非常高的相似度分数，后随不针对该完全相同实体但是共享许多共同属性的分部（例如，与具有相同的雇主和当前位置的两个不同的人实体相对应的分部将最有可能具有高相似度分数）。然后，通过从分部与分部相似度图表中检查大量相关的分部（与相同的实体相对应或别样的）的属性值，针对给定的分部推断缺失属性的可能值。

例如，假定具体人实体的居住位置是未知的，但是已知这个人的职位是“软件工程师”并且他的雇主是“微软公司”。基于具有相同属性的其他实体，可以推断这个人的居住位置有很大可能性是华盛顿州的雷德蒙（或在华盛顿州的西雅图附近），后随带有变化的置信程度的、微软公司在该处有强有力的存在的其他地理位置（比如硅谷、北京和海得拉巴等等）。作为另一示例，假定具体产品实体的价格是未知的，但是已知该产品具有由数据源提供的具体类别分类。基于具有相同或相似类别分类的其他产品的价格，可以粗略估计或推断该具体产品的价格。这样的推断的属性值还可以被用作例如针对用户对特定的价格范围有明确偏爱的查询（例如，针对像“便宜的DSLR摄像机”这样的查询）的排序信号。

因此，本发明的一个实施例针对存储计算机可用指令的一个或多个计算机可读存储介质，所述计算机可用指令在被一个或多个计算设备使用时使所述一个或多个计算设备执行推断实体属性值的方法。所述方法包括：接收来自多个异构数据源的数据，所述数据包括多个实体属性值，每个实体属性值与实体和属性相关联，所述属性具有关联的属性类型和属性置信分数。所述方法还包括：创建分部与属性图表，所述分部与属性图表包括所述多个实体属性值和关联的实体，其中分部是针对具体实体的一组属性及其对应的属性值。更进一步地，所述方法包括：基于分部与属性图表中的属性重叠，创建分部与分部相似度图表；识别分部与分部相似度图表中与第一实体相对应的特定分部，所述特定分部包括对于第一实体的缺失或模糊的属性；从分部与分部相似度图表中识别对于该特定分部的一个或多个空间近似分部；以及通过在跨越所述一个或多个空间近似局部的聚合（aggregate）中识别与对于第一实体的缺失或模糊的属性相关联的值，来推断所述缺失或模糊的属性的可能值。

在另一实施例中，本发明针对一种由包括至少一个处理器的一个或多个计算设备执行的方法，所述方法用于推断实体属性值。所述方法包括：接收来自多个异构数据源的数据，所述数据包括多个实体属性值，每个实体属性值与实体和属性相关联，所述属性具有关联的属性类型和属性置信分数；跨越从多个异构数据源接收到的数据来规格化（normalize）所述多个实体属性值；基于在每个属性类型的基础上与数据真值集的比较来计算对于所述多个异构数据源中每个异构数据源的权威分数（authority score）；规格化与每个属性相关联的属性置信分数；缩放已规格化的属性置信分数；以及跨越所述多个异构数据源地聚合数据。所述方法还包括创建分部与属性图表，所述分部与属性图表包括多个实体属性值和关联的实体，其中分部是针对具体实体的一组属性及其对应的属性值；基于分部与属性图表中的属性重叠，创建分部与分部相似度图表；识别分部与分部相似度图表中与第一实体相对应的特定分部，所述特定分部包括对于第一实体的缺失或模糊的属性；从分部与分部相似度图表中识别对于该特定分部的一个或多个空间近似分部；以及通过在跨越所述一个或多个空间近似局部的聚合中识别与对于第一实体的缺失或模糊的属性相关联的值，来推断所述缺失或模糊的属性的可能值。在实施例中，对于第一实体的缺失或模糊的属性的可能值是基于置信分数的、对于第一实体的缺失或模糊的属性的一组排序的可能值。

在又一实施例中，本发明针对一种系统，其包括推断引擎和与推断引擎耦合的数据存储库，所述推断引擎具有一个或多个处理器和一个或多个计算机可读存储介质。推断引擎被配置成：接收来自多个异构数据源的数据，所述数据包括多个实体属性值，每个实体属性值与实体和属性相关联，所述属性具有关联的属性类型和属性置信分数；创建分部与属性图表，所述分部与属性图表包括所述多个实体属性值和关联的实体，其中分部是针对具体实体的一组属性及其对应的属性值；基于分部与属性图表中的属性重叠，创建分部与分部相似度图表；识别分部与分部相似度图表中与第一实体相对应的特定分部，所述特定分部包括对于第一实体的缺失或模糊的属性；从分部与分部相似度图表中识别对于该特定分部的一个或多个空间近似分部；以及通过在跨越所述一个或多个空间近似局部的聚合中识别与对于第一实体的缺失或模糊的属性相关联的值，来推断对于所述缺失或模糊的属性的可能值。

在简要描述了本发明的实施例的概观后，下面描述在其中可以实现本发明的实施例的示范性运行环境，以便提供对于本发明的各种方面的一般上下文。一般性地参照附图，且具体地，一开始参照图1，示出了用于实现本发明的实施例的示范性运行环境，其总地被称为计算设备100。计算设备100仅仅是适当的计算环境的一个示例，且不打算对本发明的实施例的使用范围或功能性提出任何限制。也不应当把计算设备100解读为具有与所图示的任何一个构件或构件的任何组合相关的任何依赖性或要求。

本发明的实施例可以在计算机代码或机器可用指令的一般上下文中进行描述，计算机代码或机器可用指令包括由计算机或诸如个人数据助理或其它手持设备那样的其它机器执行的计算机可用的或计算机可执行的指令，诸如程序模块。通常，程序模块包括例程、程序、对象、构件、数据结构、等等，和/或程序模块指的是执行特定任务或实现特定的抽象数据类型的代码。本发明的实施例可以在各种各样的系统配置中实践，包括但不限于手持设备、消费电子设备、通用计算机、更专业的计算设备、等等。本发明的实施例还可以在分布式计算环境中实践，其中任务是由通过通信网链接的远程处理设备执行的。

继续参照图1，计算设备100包括总线110，它直接或间接地耦合以下设备：存储器112、一个或多个处理器114、一个或多个呈现构件116、一个或多个输入/输出（I/O）端口118、一个或多个I/O构件120、以及说明性的电源122。总线110代表可能是一个或多个总线（诸如地址总线、数据总线、或它们的组合）的事物。虽然图1的各个方块为了清楚起见用线显示，但事实上，这些方块代表逻辑构件，而不一定是实际的构件。例如，人们可以把诸如显示设备那样的呈现构件看作为I/O构件。另外，处理器具有存储器。本发明人于此认识到，这样是技术的本质，并且重申图1的图仅仅是可以结合本发明的一个或多个实施例被使用的示范性计算设备的说明图。在诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等等那样的类别之间没有加以区分，因为所有的这些都是预期在图1的范围内的，且都是对“计算设备”的引用。

计算设备100典型地包括各种各样的计算机可读介质。计算机可读介质可以是可由计算设备100访问的任何可得到的介质，且包括易失性和非易失性介质、可拆卸和非可拆卸介质。计算机可读介质包括计算机存储介质和通信介质；计算机存储介质排除信号本身。计算机存储介质包括以任何方法或技术来实现的、用于存储诸如计算机可读指令、数据结构、程序模块或其它数据那样的信息的易失性和非易失性、可拆卸和非可拆卸介质。计算机存储介质包括但不限于：RAM、ROM、EEPROM、闪速存储器或其它存储器技术、CD-ROM、数字通用盘（DVD）或其它光盘存储装置、盒式磁带、磁带、磁盘存储装置或其它磁存储设备、或可被使用来存储想要的信息并可被计算设备100访问的任何其它介质。另一方面，通信介质将计算机可读指令、数据结构、程序模块或其它数据具体化为诸如载波或其它传输机制那样的调制的数据信号，并且通信介质包括任何信息传递介质。术语“调制的数据信号”是指使它的特性中的一个或多个以如下方式设置或改变的信号，即：将信息编码在信号中。作为示例，但不是限制，通信介质包括有线介质，诸如有线网络或直接连线的连接，以及包括无线介质，诸如声学、RF、红外线和其它无线介质。任何上述的介质的组合也应当被包括在计算机可读介质的范围内。

存储器112包括以易失性和/或非易失性存储器的形式的计算机存储介质。存储器可以是可拆卸的、非可拆卸的或它们的组合。示范性硬件设备包括固态存储器、硬驱动机、光盘驱动机、等等。计算设备100包括一个或多个处理器，它们从诸如存储器112或I/O构件120那样的各种实体读取数据。（一个或多个）呈现构件116把数据指示呈现给用户或其它设备。示范性呈现构件包括显示设备、扬声器、打印构件、震动构件等等。

I/O端口118允许计算设备100被逻辑地耦合到包括I/O构件120的其它设备，其中的一些可能是内建的。说明性I/O构件包括麦克风、操纵杆、游戏板、卫星碟形天线、扫描仪、打印机、无线设备、诸如铁笔、键盘和鼠标那样的控制器、自然用户界面（NUI）等等。

NUI处理空中姿势、话音、或由用户生成的其它生理输入。这些输入可被解译为搜索请求、出现在文档中的可以响应于输入的搜索请求而取回的字以及由计算设备100呈现的类似的东西。这些请求可被传送到适当的网络单元以供进一步处理。NUI实现以下的任何组合：语音识别、触摸和铁笔识别、面部识别、生物计量识别、在屏幕上和靠近屏幕的姿势识别、空中姿势、头部和眼睛跟踪、以及与计算设备100上的显示相关联的触摸识别。计算设备100可以配备有用于姿势检测和识别的深度摄像机，诸如，立体式摄像机系统、红外摄像机系统、RGB摄像机系统、和这些摄像机系统的组合。另外，计算设备100可以配备有使能检测运动的加速度计或陀螺仪。加速度计或陀螺仪的输出被提供给计算设备100的显示器，以便呈递沉浸式增强现实或虚拟现实。

这里描述的主题的一些方面可以在由计算设备执行的诸如程序模块那样的计算机可执行指令的一般上下文中进行描述。通常，程序模块包括例程、程序、对象、构件、数据结构等等，它们执行特定的任务或实施特定的抽象数据类型。这里描述的主题的一些方面也可以在分布式计算环境中被实践，在其中任务由通过通信网被链接的远程处理设备执行。在分布式计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机存储介质中。计算机可用指令形成了界面以允许计算机按照输入的源来反应。指令与其他代码段协作，以响应于接收到的数据连同接收到的数据的源来发起各种各样的任务。

而且，虽然在这里使用了术语“推断引擎”，但将会认识到，这个术语还可以包括服务器、Web浏览器、在一个或多个计算机上分布的一个或多个进程的集合、一个或多个独立的存储设备、一个或多个其它计算或存储设备的集合、一个或多个上述项的任何组合、等等。

如前所述，本发明的实施例提供了用于推断对于实体的缺失（或模糊）的属性值的系统、方法和计算机可读存储介质，该推断是基于如从多个信息源提取的关于这样的实体的分部信息和/或关于其他类似的实体的信息，以生成用于在线搜索的Web排序信号。本发明的实施例被实现为从多个异构输入数据源摄取数据的工作流。需要一般的方式来组合来自所述多个异构输入数据源中的每个异构输入数据源的数据，而无需任何特定于数据源的逻辑，尤其是在假定了跨越不同的数据源可以采用多么低的一致性的情况下。数据源中的一些将在信息内容方面与其他数据源有高度重叠，而同时它们中的一些可能是真正独一无二的。这意味着不仅需要对数据的共同表示，还需要围绕属性值及其对应分数的规格化的良好叙述，使得它们跨越数据源是有意义的。

本发明的实施例使用分部实体视图（或简称“分部”）的概念来提供共同的数据表示。分部是与从单一数据源可得到的实体相对应的属性的聚集，其恰巧是在已知宇宙中可得到的关于相同实体的所有信息的子集。图2图示了来自两个不同数据源的示范性分部。第一分部210图示了来自实体数据库的分部，并且第二分部212图示了来自FACEBOOK（脸谱网）数据库的针对相同实体的分部。

从数据结构的观点来看，分部只是属性的聚集，其中每个属性可以是多值的并且因此每个分部在概念上具有共同的确切格式。在图3中图示的数据结构300中示出了示范性的共同格式。根据本发明的实施例，每个个体数据源预先格式化并以标准格式提供数据，所述数据有效地包括分部的列表，其中每个分部以例如JavaScript对象表示法（JSON）来表示。

一旦存在如何格式化每个异构数据源的共同表示，数据源就仍然有可能按照不同的方式来表示相同的属性值（例如，{西雅图, USA} 相对于{西雅图, WA, USA}）。这样，需要将属性值规格化，使得可以跨越数据源来有意义地比较它们。在实施例中，生成针对每个属性值的高度规格化的表示，其在本文中被称作“匹配密钥”。匹配密钥被内部地用于比较属性值。如本领域技术人员将会意识到的，存在不同的用于创建规格化匹配密钥的技术。在实施例中，可以基于特定的属性类型来生成匹配密钥。例如，对于人名，可以计算语音学（已修改的变音位（Metaphone））散列；对于URL，可以计算Hut散列；对于位置，可以执行实体名称规格化；并且对于地理位置，可以识别与地理空间数据“最匹配的”容器实体，然后执行实体名称规格化。预期任何和所有这样的变形及其任何组合都在本发明实施例的范围内，并且具体的规格化技术不打算限制本发明的实施例。

根据本发明实施例执行的另一种规格化是针对属性置信分数的。每个数据源通常包括其自己的用于计算置信分数的逻辑，并且因此它们常常不是跨越数据源而可比较的。虽然再次地，在本发明实施例的范围内可以使用各种规格化技术，但是一种示范性规格化技术是在每个数据源内使用对于分数的标准差/均值的简单统计学规格化。

接下来的挑战是设计一种（至少近似地）度量每个数据源的质量的方式。如果输入数据源是有噪的并且没有根据质量来衡量它们，则容易以无用输入无用输出情形结束（尤其是在不同数据源的质量在彼此比较时胡乱变化的情况下）。在实施例中，通过将特定数据源的精度与作为基线的真值数据集比较，来计算每个数据源和每个属性类型的数据源权威分数。根据本发明实施例，数据源权威分数一旦被计算出，就在它们被最终聚合并馈送至属性值推断引擎中之前，被用来缩放规格化的属性置信分数，如下面更全面描述的。

在这一阶段，可得到包含来自每个源的分部的聚合数据（被规格化并且最终被混合（merge））。接下来需要的是用于在给定这种聚合数据的情况下推断对于特定实体的属性的总体策略。根据本发明的实施例（并且如在下面更全面描述的），计算分部与分部相似度分数，所述分部与分部相似度分数在这种相似度图表上下文中在概念上是粗略地限定来自现实世界的实体的一群分部。还有可能的是，在与两个不同但是相似的实体（例如，均为微软公司工作并且住在华盛顿州的雷德蒙的两个人实体）相对应的分部之间将会有连接。这些连接也是重要的，因为它们在缺少可靠信息的情况下进行对属性的“最佳猜测”时可能是有用的。例如，如果某人缺少关于某具体个人实体的居住位置的信息但是已知这个人为微软公司工作并且职业是软件开发者，则通过检查与相同的已知属性匹配的其他实体，将会相对容易推断出华盛顿州的雷德蒙也许是这个人的居住位置。

根据本发明实施例，混合来自跨不同输入数据源的规格化的数据。从这个数据创建分部与属性二部（bi-partite）图表。（在图4的示意图中图示了示范性的分部与属性二部图表）。在给定从各种数据源可得到的大量信息的情况下，该图表可能规模非常大（依赖于实际输入和使用情况，可能在数十亿个节点的范围内）。这样，在实施例中，通过去除对于生成属性值推断而言较不重要的边（edge），可以使图表连接更稀疏（例如，去除分部和属性之间的连接）。重要的是注意到大众化的属性通常导致弱的特征。因此，一个选择可以是简单地从图表中丢弃这些大众化的属性。然而关于这种方法的问题是：即使这些特征可能个体地是弱的，但是它们常常可以被组合来创建强的复合特征。例如，针对相同分部的作为居住位置的NYC和作为专业机构的微软公司一起可以是非常强的特征。

为了减少信息丢失，将复合属性（一组两个或一组三个属性值，每个属性值是不同类型的）引入图表中。一旦添加了这些复合属性，现在从图表中丢弃大众化的属性就安全得多，不会有很大的信息丢失的风险。因此，随后去除非常常见的属性值（例如，位置=纽约），因为它们对于计算分部与分部相似度来说不如较少见的属性（例如，位置=科迪亚克岛）重要。在图5的示意图中图示了根据本发明的实施例的具有复合属性的分部与属性图表。

根据本发明的实施例，现在每个分部可以由特征向量来表示，所述特征向量对应于所有有关与具体分部节点相连的边的权重。将成对的分部之间的基本相似度计算为它们的对应的特征向量之间的点积。根据本发明实施例，然后基于属性重叠（包括复合属性）来计算分部与分部相似度。结果是分部与分部相似度图表，其中每个节点是分部，并且每个边权重对应于两个对应的分部之间的“相似度”。（图6的示意图示出了示范性的分部与分部相似度图表）。应注意，这种相似度度量是基于原始属性重叠。然而，在图6的示意图中容易看出，人们应当能够计算分部（例如，图6的分部1和分部4）之间的非零相似度分数，即使它们可能一开始尚未共享任何共同的属性。

在实施例中，通过基于当前图表结构重新计算分部与分部相似度度量，来进一步平滑分部与分部相似度图表的边权重。这是迭代的过程，该迭代的过程还帮助发现间接的关系（即，可能不具有任何直接属性重叠、但是具有许多共同的相关分部的分部）。迭代的次数直接影响两个局部可以被并且仍然被指派相似度分数的彼此远离的距离。

为了推断对于实体的缺失或模糊的属性值，在分部与分部相似度图表中识别与该实体相对应的已知分部。在图7的示意图中图示了具有缺失的属性值的示范性分部与分部相似度图表。然后识别与来自相同图表的那些分部的相邻（或空间上近似的）分部。之后聚合地跨越这些相似/相邻分部来检查属性，以估计对于感兴趣实体的属性的可能值。应注意，每个属性可以是多值的，并且因此，在针对实体的缺失或模糊属性的输出中，可以提供基于置信分数的可能值的排序列表，所述置信分数是从分部与分部相似度图表计算的。

分部-分部相似度图表一旦被创建，就可以与原始的分部与属性图表（只是原始聚合的输入数据的再变形）一起被用来对对于给定实体的可能属性值排序。也就是说，可以计算对于给定实体的属性值的置信分数，其在相同实体和相同属性类型的上下文中是相对的数值。尽管可能的是：分数可以跨越不同的实体和属性类型而有意义，但是情况并不必然如此。

根据本发明实施例，可以使用以下简单的函数来基于对于给定分部的相邻或空间近似分部而计算该给定分部的属性置信分数。

在以上等式中，P_i和P_j是任意两个分部，并且A_k是属性。S(P_i,A_k)是对于分部P_i的A_k的属性分数。C(P_i,P_j)是P_i和P_j之间的分部与分部相似度分数。

现在参考图8，提供了图示在其中可以采用本发明的实施例的示范性计算系统800的框图。一般地，计算系统800图示了环境，其中可以根据例如图9和图10所图示的方法来推断实体属性值（下面更全面描述的）。除了其他的未被示出的构件之外，计算系统800一般地包括经由网络彼此通信的用户计算设备和推断引擎。网络可以包括而不限于一个或多个局域网（LAN）和/或广域网（WAN）。这样的联网环境在办公室、企业范围的计算机网络、内联网和互联网中是常见现象。因此，在这里不再进一步描述该网络。

应当明白，在本发明实施例的范围内的计算系统800中可以利用任何数目的用户计算设备和/或推断引擎。各自可包括单个的设备/接口或在分布式环境中协作的多个设备/接口。例如，推断引擎可包括布置在分布式环境中的多个设备和/或模块，它们共同提供这里描述的推断引擎的功能性。另外，在计算系统800内也可以包括未示出的其它构件或模块。

在一些实施例中，所图示的构件/模块中的一个或多个可以被实现为独立的应用。在其它实施例中，所图示的构件/模块中的一个或多个可以经由用户计算设备、推断引擎、或作为基于互联网的服务被实现。本领域技术人员将会理解，图8上所图示的构件/模块在本质上和数目上是示范性的，且不应当被看作为限制。可以利用任何数目的构件/模块来达到在本发明实施例的范围内的想要的功能性。另外，构件/模块可位于任何数目的推断引擎和/或用户计算设备上。仅仅作为示例，推断引擎可以作为单个计算设备、一群计算设备、或者距其余构件中的一个或多个远程的计算设备被提供。

应当明白，这里描述的这个和其它的布置仅仅作为示例被阐述。除了示出和/或描述的那些以外，或替代示出和/或描述的那些，可以使用其它的布置和单元（例如，机器、接口、功能、次序和功能的编组等等），并且一些单元可以一起被省略。此外，这里描述的许多单元是可以作为分立的或分布的构件或与其它构件相结合、并在任何适当的组合中和位置中被实现的功能实体。这里被描述为由一个或多个实体执行的各种功能可以通过硬件、固件和/或软件被实施。例如，各种功能可以通过处理器执行被存储在存储器中的指令而被实施。

用户计算设备可以包括任何类型的计算设备，比如，例如参照图1描述的计算设备100。通常，用户计算设备包括浏览器和显示器。浏览器尤其被配置成与用户计算设备的显示器相关联地呈递搜索引擎主页（或其它在线登录页）和搜索引擎结果页（SERP）。浏览器还被配置成：接收对于各种网页（包括搜索引擎主页）的请求的用户输入，接收用户输入的搜索查询（通常经由用户界面输入，所述用户界面被呈现在显示器上并且允许向指定的搜索输入区的字母数字和/或文本输入），和接收例如来自推断引擎的、用于在显示器上呈现的内容。应当指出，这里被描述为由浏览器执行的功能性可以由能够呈递Web内容的任何其它应用、应用软件、用户界面等来执行。还应当注意，本发明的实施例可以同样地被应用于移动计算设备和接受触摸和/或话音输入的设备。任何的和所有的这样的变形以及它们的任何组合都预期是在本发明的实施例的范围内。

图8的系统800的推断引擎被配置成尤其接收搜索查询并响应于此而以实体的形式提供搜索结果。如所图示的，推断引擎可访问多个数据源。每个数据源被配置成存储与以下的一个或多个有关的信息：搜索查询、搜索结果、实体以及相关的属性和/或属性值。在实施例中，这样的数据源被配置成对于与之关联存储的项目中的一个或多个而言是可搜索的。本领域技术人员将理解并意识到，与数据源相关联地存储的信息可以是可配置的，并且可以包括与实体、属性、属性值、分部、分部和/或属性之间的关系等相关的任何信息。这样的信息的内容和量不打算以任何方式限制本发明的实施例的范围。另外，每个数据源可以是单个独立构件或多个存储设备，例如，数据库群，其的一些部分可以与推断引擎、用户计算设备、另一外部计算设备和/或它们的任何组合相关联地驻留。

现在转向图9，图示了示出根据本发明实施例的、推断实体属性值的示范性方法900的流程图。如在方块910处指示的，接收来自多个异构数据源的数据。所述数据包括多个实体属性值，每个实体属性值与实体和属性相关联。每个属性具有关联的属性类型和属性置信分数。如在方块912处指示的，创建分部与属性图表，所述分部与属性图表包括所述多个实体属性值和关联的实体，其中分部是针对具体实体的一组属性及其对应的属性值。如在方块914处指示的，基于分部与属性图表中的属性重叠，创建分部与分部相似度图表。随后，识别分部与分部相似度图表中与第一实体相对应的特定分部，所述特定分部包括对于第一实体的缺失或模糊的属性。这在方块916处被指示。如在方块918处指示的，从分部与分部相似度图表中识别对于特定分部的一个或多个空间近似分部。如在方块920处指示的，通过在跨越所述一个或多个空间近似局部的聚合中识别与对于第一实体的缺失或模糊的属性相关联的值，来推断所述缺失或模糊的属性的可能值。

现在参考图10，图示了示出根据本发明的实施例的、推断实体属性值的示范性方法1000的流程图。如在方块1010处指示的，接收来自多个异构数据源的数据，所述数据包括多个实体属性值，每个实体属性值与实体和属性相关联。属性包括关联的属性类型和属性置信分数。如在方块1012处指示的，跨越从多个异构数据源接收到的数据来规格化所述多个实体属性值。如在方块1014处指示的，基于在每个属性类型的基础上与数据真值集的比较来计算所述多个异构数据源中每个异构数据源的权威分数。如在方块1016处指示的，规格化与每个属性相关联的属性置信分数，并且如在方块1018处指示的，缩放规格化的属性置信分数。如在方块1020处指示的，聚合跨越所述多个异构数据源的数据，并且创建分部与属性图表，所述分部与属性图表包括多个实体属性值和关联的实体。分部是针对具体实体的一组属性及其对应的属性值。如在方块1022处指示的，基于分部与属性图表中的属性重叠，创建分部与分部相似度图表。如在方块1024处指示的，识别分部与分部相似度图表中与第一实体相对应的特定分部，所述特定分部包括对于第一实体的缺失或模糊的属性。如在方块1026处指示的，从分部与分部相似度图表中识别对于特定分部的一个或多个空间近似分部。如在方块1028处指示的，通过在跨越所述一个或多个空间近似局部的聚合中识别与对于第一实体的缺失或模糊的属性相关联的值，来识别所述缺失或模糊的属性的可能值。

正如可以理解的，本发明的实施例提供了尤其用于推断对于实体的缺失的属性值的系统、方法和计算机可读存储介质，该推断是基于如从多个信息源提取的关于这样的实体的分部信息和/或关于其他类似实体的信息，以生成用于在线搜索的Web排序信号。本发明的实施例摄取多个异构输入数据源并组合它们以产生输出数据，所述输出数据的信息内容多于其组成部分之和。在这么做时，将合并来自不同源的关于实体的分部信息以及基于相关的实体来推断属性值作为单个问题来解决。

已相对于特定的实施例对本发明进行描述，这些实施例打算在所有的方面都是说明性的，而不是限制性的。在不背离本发明的范围的情况下，可替换的实施例对于本发明所属技术领域的技术人员将变得明显。

虽然本发明能容许各种修改和可替换的构造，但本发明的某些说明性实施例在附图上被示出，并且在上面被详细地描述。然而，应当理解，不打算把本发明限于所公开的具体的形式，而是相反，打算让本发明覆盖属于本发明的精神和范围内的所有的修改、可替换的构造和等同物。

本领域技术人员将会明白，图9的方法900和图10的方法1000中示出的步骤的次序无论如何不意味着限制本发明的范围，事实上，这些步骤可以在本发明的实施例内以各种各样不同的顺序出现。任何的和所有的这样的变化以及它们的任何组合都预期是在本发明的实施例的范围内的。

Claims

1.一种或多种存储计算机可用指令的计算机可读存储介质，当所述计算机可用指令被一个或多个计算设备使用时，使得所述一个或多个计算设备执行推断实体属性值的方法，所述方法包括：

接收来自多个异构数据源的数据，所述数据包括多个实体属性值，每个实体属性值与实体和属性相关联，所述属性具有关联的属性类型和属性置信分数；

创建分部与属性图表，所述分部与属性图表包括所述多个实体属性值和关联的实体，其中分部是针对具体实体的一组属性及其对应的属性值，所述分部与属性图表的第一节点包括实体的分部，第二节点包括实体属性值，并且当所述第一节点的所述实体的属性与所述第二节点的所述属性值相对应时，所述分部与属性图表的边连接所述第一节点和所述第二节点；

减少分部与属性图表中的图表连接的数目，所述分部与属性图表中的图表连接的数目是通过去除具有出现次数多于阈值次数的关联属性值的属性来减少的；

基于分部与属性图表中的属性重叠，创建分部与分部相似度图表；

识别分部与分部相似度图表中与第一实体相对应的特定分部，所述特定分部包括对于第一实体的缺失或模糊的属性；

从分部与分部相似度图表中识别对于所述特定分部的一个或多个空间近似分部；以及

通过在跨越所述一个或多个空间近似分部的聚合中识别与对于第一实体的缺失或模糊的属性相关联的值，来推断所述缺失或模糊的属性的可能值。

2.根据权利要求1所述的一种或多种计算机可读存储介质，其中，从多个异构数据源接收的数据是采用共同格式的。

3.根据权利要求1所述的一种或多种计算机可读存储介质，其中，所述方法还包括：

跨越从所述多个异构数据源接收到的数据来规格化所述多个实体属性值；

基于在每个属性类型的基础上与数据真值集的比较来计算对于所述多个异构数据源中每个异构数据源的权威分数；以及

跨越所述多个异构数据源地聚合数据。

4.根据权利要求1所述的一种或多种计算机可读存储介质，其中，规格化所述多个实体属性值包括：应用特定于每个属性类型的规格化逻辑。

5.根据权利要求1所述的一种或多种计算机可读存储介质，其中，所述方法还包括：

规格化与每个属性相关联的属性置信分数；以及

在跨越所述多个异构数据源聚合数据时缩放已规格化的属性置信分数。

6.根据权利要求1所述的一种或多种计算机可读存储介质，其中，通过创建一个或多个复合属性来减少分部与属性图表中的图表连接的数目。

7.根据权利要求1所述的一种或多种计算机可读存储介质，其中，推断对于第一实体的缺失或模糊属性的可能值包括：基于置信分数创建对于第一实体的缺失或模糊属性的已排序的一组可能值。

8.一种由包括至少一个处理器的一个或多个计算设备执行的方法，所述方法用于推断实体属性值，所述方法包括：

跨越从多个异构数据源接收到的数据来规格化所述多个实体属性值；

基于在每个属性类型的基础上与数据真值集的比较来计算对于所述多个异构数据源中每个异构数据源的权威分数；

规格化与每个属性相关联的属性置信分数；

缩放已规格化的属性置信分数；以及

跨越所述多个异构数据源聚合数据；

通过在跨越所述一个或多个空间近似分部的聚合中识别与对于第一实体的缺失或模糊的属性相关联的值，来推断对于所述缺失或模糊的属性的可能值。

9.根据权利要求8所述的方法，其中，从多个异构数据源接收的数据是采用共同格式的。