CN114981799A

CN114981799A - 异构个人语料库中的基于图的活动发现

Info

Publication number: CN114981799A
Application number: CN202080093793.XA
Authority: CN
Inventors: A·福尼; R·A·辛; S·F·威廉姆斯; P·N·本内特; T·L·萨法维
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-01-20
Filing date: 2020-12-16
Publication date: 2022-08-30
Also published as: WO2021150323A1; US20210224324A1

Abstract

本公开涉及用于通过从图中的多个异构实体自动提取属性来发现来自信息的语料库的实体之间的相关性的系统和方法。从多个异构实体提取的属性的标准化的表示跨图被传播，其用于找到多个异构实体与所提取的属性相关联的程度。多个异构实体与所提取的属性相关联的程度用于创建表示空间，该表示空间说明多个异构实体中的实体与另一实体的相关性的级别。在接收到对图的更新时，通过确定由对图的更新造成的差量表示空间、并且通过将差量表示空间添加到表示空间而创建新表示空间，表示空间可以高效地被更新。

Description

异构个人语料库中的基于图的活动发现

背景技术

个人信息收集(他们的电子邮件、文件、约会、web搜索、联系人等)提供对他们的日常生活的组织和结构的丰富的见解。然而，通常存在大量这种类型的信息并且通过诸如项目和任务的较高级活动组织这种低级信息是困难的且耗时的。例如，现代电子邮件客户端支持加标签和文件夹，但是个人难以维持这些工作，因为人工组织和/或编策成本高。因此，存在帮助人们更好地组织、检索和利用他们的信息的需要。

语义和对话搜索系统也缺乏从诸如电子邮件、约会、联系人等的低级实体推断用户的高级活动的高效方式。在没有人工编策或组织的情况下，这样的系统不允许用户直接通过概念或活动(例如，“向我示出与我的家庭装修相关的所有收据”)搜索。

然而，解决这些问题带来了独特的挑战。一方面，人的活动是复杂多变的。他们能够在变化的时间尺度上存在并且随着时间演变。一些活动彼此重叠或包含。理想情况下，活动发现的自动化方法应当能够捕获这样的复杂性。

另一个挑战在于用户连接到的实体不断地演变。新电子邮件到达，文件第一次共享，人加入新项目，等等。尽管计算大量信息项的相关性是可能的，但是对用户的信息的每次更新都这么做计算成本过高。一个解决方案是仅偶尔(例如，在每一周之后)更新，然而这可能在信息快速改变(例如，对于接收大量电子邮件的人)时导致很差的相关性的表示。因此，存在“在线”更新这些低级信息项的相关性的需要，“在线”意味着每次信息改变时。

已经关于这些和其他一般考虑做出了本文中公开的方面。此外，尽管可能讨论了相对具体的问题，但是应当理解，示例不应当限于解决本公开中的背景或其他地方中标识的具体问题。

发明内容

鉴于上述局限性，本文提供了涉及从用户的语料库中的低级实体自动发现用户的高级“活动”(项目、任务)的系统和方法，最终目标是帮助用户更好地组织、检索和利用他们的信息。

示例性方法将用户的语料库或多个用户的语料库建模为图，并且然后学习图的实体(例如，个人的电子邮件、会议、文档等)的表示，使得异构实体被表示在共享空间中，其中针对实体的类似表示由“活动”相关。该示例性模型足够轻量级以在设备上针对用户隐私进行训练，而不需要用户输入标签，但是在可用时能够包含它们，并且允许随着新用户数据到来对表示的增量更新。本公开的各方面可以被利用于执行对文档、收件人和其他动作的基于活动的推荐、以及对文档、电子邮件等的自动聚类/组织。

在高层次上，本文中公开的方面涉及构建一个人的信息(例如，语料库)的“图”，例如，通过分别基于参会方和收件人列表将人连接到会议和电子邮件。每个信息项(例如，电子邮件、文件、约会、web搜索、联系人)是图中的节点或实体，并且节点通过边(例如，它们与彼此的关系)连接到一起。短文本片段，例如，来自电子邮件主题栏的关键短语，从“图”中的文本承载实体或节点(称为“种子实体”)自动被提取。在属性传播阶段中，这些文本摘录用作标签或属性和种子以及其他实体属性。种子实体的属性或标签跨图的结构传播。这得到表示空间，诸如针对属性映射的实体的矩阵，其中矩阵中的每行是实体的表示，每个属性被表示在列中，并且矩阵中的每个条目(例如，行和列的交点)描述实体与属性相关联的程度。

随着新信息(例如，文档、电子邮件等)到来，经由所描述的传播操作的本地化版本，更新表示空间以包括新实体和/或属性。通过更新表示空间，方法实际上更新每个实体的表示。本文中公开的方面以及其他益处提供以在线方式更新表示空间，即每次图改变时，通过重用先前计算，比其离线对应项快许多数量级。

提供本发明内容从而以简化的形式介绍一系列概念，下面在具体实施方式中对其进一步描述。本发明内容既不旨在标识要求保护的主题的关键特征或必要特征，其也不旨在用于限制要求保护的主题的范围。示例的附加方面、特征和/或优点将部分在随后的描述中阐述，并且部分将从描述变得明显，或者可以通过本公开的实践来习得。

附图说明

参考以下图描述非限制性且非详尽示例。

图1A图示了根据本公开的方面的示例性系统图。

图1B图示了根据本公开的方面的用户的示例性语料库。

图2图示了根据本公开的方面的图示图1B的语料库内的实体之间的关系的示例性图。

图3图示了根据本公开的方面的图示图1B的语料库内的种子实体的示例性图。

图4A图示了根据本公开的方面的具有属性和属性的标准化的示例性种子实体。

图4B图示了根据本公开的方面的具有属性和属性的标准化的示例性种子实体。

图4C图示了根据本公开的方面的具有属性和属性的标准化的示例性种子实体。

图4D图示了图示根据本公开的方面的具有属性和属性的标准化的示例性种子实体。

图5是根据本公开的方面的描绘通过图的针对种子实体的属性传播的示例性图解。

图6是根据本公开的方面的描绘通过矩阵的属性传播的示例性图解。

图7图示了根据本公开的方面的基于矩阵中的属性的传播的实体聚类的示例性图解。

图8图示了根据本公开的方面的用于确定来自图的异构实体之间的相关性的程度的示例性方法。

图9图示了根据本公开的方面的随着新信息到来而更新表示空间的示例性方法。

图10A图示了根据本公开的方面的具有新边的示例性图。

图10B图示了根据本公开的方面的用于基于已有实体之间的新边的添加来更新图的表示空间的示例性方法。

图11A图示了根据本公开的方面的具有新属性的示例性图。

图11B图示了根据本公开的方面的基于新属性到已有实体的添加来更新图的表示空间的示例性方法。

图12A图示了根据本公开的方面的具有新实体的示例性图。

图12B图示了根据本公开的方面的具有新实体的示例性图。

图12C图示了根据本公开的方面的基于经由新边连接到图的实体的添加来更新图的表示空间的示例性方法。

图13是图示可以利用其实践本公开的方面的计算设备的示例物理组件的框图。

图14A图示了可以利用其实践本公开的方面的移动计算设备的简化图。

图14B图示了可以利用其实践本公开的方面的移动计算设备的另一简化图。

在附图中，不同附图中的相同附图标记与相同组件或元件相关联。附图标记后面跟着字母图示可以全部由相同附图标记表示的一组元件中的一个成员。

具体实施方式

概述

在以下具体实施方式中，参考形成其一部分的附图，并且在附图中通过举例的方式示出了特定实施例或示例。这些方面可以被组合，其他方面可以被利用，并且可以在不脱离本公开的情况下进行结构改变。实施例可以被实践为方法、系统或设备。因此，实施例可以采取硬件实现、完全软件实现、或者组合了软件和硬件方面的实现的形式。以下详细描述因此不应在限制性意义上理解，并且本公开的范围由随附权利要求及其等同物限定。

本公开解决了学习信息项的表示的任务以捕获正在进行的活动(诸如项目和任务)的任务。这样的表示可以被使用在以活动为中心的应用(像助理、电子邮件客户端和生产力工具)中，以帮助人们更好地管理他们的数据和时间。各方面使用基于图的方法，基于图的方法利用信息收集的内在互连结构并推导出随着新数据到来而增量地更新表示的高效的精确的技术。具体地，由项之间的关联的概念引导的，系统和方法学习信息对象的表示，使得由活动相关的对象具有类似表示并且能够被直接比较，而不管类型如何。

信息收集或语料库被建模为图并且无监督式实体表示以基于传播的目标来被学习。实体表示随着新数据到来而被更新，比从头开始学习快高达几百或甚至几千倍。该模型能够产生人类可解译表示，并且还能够隐式地捕获实体类型中的语义差异同时仍然将项表示在公共空间中。

本文中描述的系统和方法相较于先前工作给出许多优点。这些包括以隐私保护方式在设备上学习模型的能力。在一个示例性方面中，由于语料库的隐私性质，该方法不利用跨用户的集体模式。因此，该方法可以相应地处理数据稀疏性并且是空间和时间高效的。在另一示例性方面中，该方法可以在减少隐私约束的情况下评估跨用户的语料库以标识与针对一组用户(诸如企业内的团队)的高级活动相关的低级实体。

另一益处是在没有强监督(即，无需手动提供的标签)的情况下学习表示(例如，矩阵中的行)的能力。手动组织语料库(例如，社交圈、电子邮件标签或文件夹)要求大量用户工作，并且通常不在持续的时间段上维持。因此，本文中描述的系统和方法主要以无监督式设置操作，但是它们能够在可用时并入用户给出的标签(例如，邮件文件夹的名称、合作平台中的频道等)。又一优点是随着新项到来而非常快速地更新图和表示的能力。又一优点是解译并标记所学习的表示的能力。在一些方面中，所学习的表示的维度对应于直接从文本承载实体拉取的短语、标题和文本，使表示相较于其他基于嵌入的方法更易于解译和概括。

示例实施例

系统从用户的语料库中的低级实体对他们的高级“活动”(项目、任务)的自动发现如图1-7所示。

图1A图示了用户102的本地计算设备或系统103。系统103可以是任何类型的计算机系统或应用并且能够包括与系统103的处理器相关联的任何硬件、软件、或硬件和软件的组合，如本文中结合图13、14A和14B所描述的。系统103可以包含多于一个计算设备。在至少一些配置中，系统103是在网络130中或连接到网络130的服务器(未示出)上执行的软件。网络130可以是任何类型的局域网(LAN)、广域网(WAN)、无线LAN(WLAN)、互联网等。用户102的系统103与网络130之间的通信可以使用任何协议或标准来执行。其他用户132可以通过网络130连接到用户102。

系统103具有安装在其上的能够执行本文中描述的系统和方法的实体-活动关系应用105。

在本公开的方面中，日志记录工具120索引针对用户102的信息项，诸如电子邮件和日历约会，并且进一步记录用户102与系统103上的这些和其他信息项的交互。在各方面中，这些项的日志记录元数据包括例如与电子邮件相关联的人、文件的文本内容、个人何时点击会议、她关注web页面多久等。在一些方面中，日志记录工具120记录先前被下载到系统103的信息项，并且日志被存储在系统103本地以保护用户102的信息项的隐私。在其他一些方面中，日志记录工具120日志记录被存储在诸如基于云的账户的远程账户中的信息项。日志记录工具120还可以从信息项中的一个或多个信息项(如果可能和/或可用)自动提取属性。属性与用户102与之相关联的活动相关并且可以包括短文本片段，例如来自电子邮件主题栏或电子邮件正文的关键词，如参考图3和4A-4D更详细描述的。

在本公开的方面中，绘图工具124将用户102的信息项(例如，语料库)建模为“图”，例如通过分别基于参会方和收件人列表将人连接到会议和电子邮件。每个信息项(例如，电子邮件、文件、约会、web搜索、联系人)是图中的节点或实体，并且节点通过边(例如，它们与彼此的关系)连接到一起，如参考图2更详细描述的。

转换工具122将所提取的属性转换为标准化的表示，诸如数的向量，如参考图4A-4D更详细描述的。这允许属性跨图被传播并且然后用于比较一个信息项与另一个信息的相关性的程度，如参考图5-6更详细描述的。

传播工具126将属性或标签跨图的结构传播。这得到针对属性被映射的实体的表示空间，其中每个行是实体的表示，每个属性被表示在列中，并且每个条目(例如，行和列的交点)描述实体与属性相关联的程度，如图6和7所示。在各方面中，表示空间是矩阵。

评估工具128通过诸如如图7中所描述的搜索和/或聚类使用表示来将信息项与更高级活动相关联。

图1B图示了用户102的语料库100。语料库可以包括任何数目的信息项104-118，其在本文中也将被称为节点和/或实体。尽管图示了有限数目的信息项，但是语料库可以包括任何数目和类型的信息项，如由省略号101所图示的。这些信息项可以是任何类型的信息，包括被发送给用户102、从用户102接收、或与用户102相关联的结构化实体，并且可以包括但不限于电子邮件、文件、约会、web搜索、联系人。实体104、112、114和118是用户102的联系人。实体106和108是由用户102发送或接收的电子邮件。实体116是用户102的日历约会。语料库100随着新实体被添加和删除而演变，使得图1B示出了用户102的语料库的即时快照。

图2图示了从来自图1的语料库100构建的用户102的图200。图200中的实体(节点)具有相关联的类型，诸如电子邮件、日历约会、Web文档、文件或联系人，并且可以与附加时间和文本特征相关联，例如电子邮件发送时间、主题栏等。图中的边编码实体之间的语义上有意义的关系。在各方面中，存在以下边关系：(1)联系人-电子邮件，将人们连接到他们发送、接收或被抄送(CC)的电子邮件；(2)联系人-日历约会，将人们连接到他们组织或参加的日历约会；(3-4)电子邮件-Web文档和日历约会-Web文档，在参与者在阅读电子邮件或约会之后立即访问文档(例如，在点击电子邮件正文中的链接时)的情况下将电子邮件和约会连接到web文档；(5-6)电子邮件-文件和日历约会-文件，在参与者在读完电子邮件或约会之后立即访问文档的情况下将电子邮件和约会连接到桌面文件；(7)电子邮件-电子邮件，连接在线程中连续出现(即回复)的电子邮件对。例如，图202包括指示实体204-218之间的关系的边220-236。实体212将如由边230指示的电子邮件208发送给实体214，如由边228指示的。实体204被抄送在电子邮件208上，如由边222指示的。电子邮件206从实体204被发送，如由边220指示的，并且回复电子邮件208，如由边224指示的。文档210是电子邮件208的附件，如由边226指示的。实体212组织日历约会216，如由边232指示的，并且实体214和218是该会议的参会方，如由边234和236指示的。该图不包括拥有数据的用户102。

图3图示了从来自图1的语料库100所构建的用户102的图300。指示实体的类型的图标已经用字母“e”替代。图300中的一些或所有实体可以与属性相关联。这些被称为“种子实体”并且用大写字母“E”表示。非种子实体或出于任何原因尚不具有与它们相关联的属性的实体用小写字母“e”示出。图300包括种子实体E2 306、E3 308、E5 312和E7 316。

更具体地，种子实体与“活动特定”属性相关联，该属性是指示活动的文本、时间或其他属性。任何类型的文本线索可以是属性，并且不同类型的实体可以具有不同类型的属性。例如，联系人可以具有包括姓名、电子邮件地址和别名的文本属性。电子邮件可以具有包括发件人、收件人和与其包括在电子邮件的主题和正文中的各种字段相关联的名词短语的属性。名词短语频率和潜在话题成员资格被认为是用于标识实体之间的相关性并且进一步将实体与活动相关联的特别有效的属性。名词短语通常直接对应于项目、任务或目标名称，而潜在话题捕获文档的组之间的语义相关性。使用名词短语能够产生完全人类可解译的表示，因为它们对应于自然语言。如果可用，则活动标签是属性的另一示例。

例如，种子实体E2 406包括三个属性420，包括A1、A3和A4。种子实体E3 408具有四个属性422，包括如图3所示的A1、A2、A3和A4。种子实体E5 412包括属性424，包括一个属性A4。种子实体E7 416包括三个属性426，包括A4、A5和A6。

如以上在图1A中所讨论的，活动相关属性从图300中的实体自动被提取。这样的提取是无监督式的，意味着几乎不要求或不要求人类干预。然而，系统和方法还可以与用户提供的属性或标签一起使用。例如，文档或电子邮件可以由用户利用名词短语加标签或以命名的文件夹存档。标签或文件夹名称能够连同自动提取的属性一起用作属性。

图4A-4D分别示出了来自图3的种子实体。种子实体E2、E3、E5和E7具有可以使用本文中描述的系统和方法自动被发现的一个或多个属性。种子实体可以是结构化对象，但是不必是。这些对象被转换为标准化的表示，诸如与它们的属性相关联的数的向量，如图4A-4D所示。

存在将种子对象中的属性转换为属性的标准化的表示的许多可能的方式。例如，如果图中的所有可能属性是已知的，则每行中的每个条目可以针对每个属性被指派以1或0，指示该属性对于与条目相关联的实体是否存在。在另一方面中，标准化的表示可以是种子实体中的属性的出现的频率。在又一方面中，可以使用权重，如词频-逆文档频率(TF-IDF)，其对词频(TF)进行计数，但是惩罚在许多文档/实体(IDF)中出现的常见词。在又一方面中，标准化可以通过针对文档长度等进行归一化的BM25来完成。另外，“权重”可以具有不同含义，这取决于讨论中的属性。例如，如果属性是文本令牌，则权重可以与每个令牌出现在实体(例如，文件或电子邮件)中的次数对应。权重还可以出自机器学习方法，像话题发现，在这种情况下它们与实体X属于话题Y的“量”对应。最后，权重能够由用户设置，其中更高的权重意味着讨论中的实体更强地属于给定活动。

图4A图示了种子实体E2 400，其是电子邮件(email)类型的实体(在图3中示出为E2 306)。名词短语402“Project proposal(项目建议书)”是实体400的第一属性A1。名词短语404“graph-based activity discovery(基于图的活动发现)”是实体400的第二属性A2。联系人职位408是实体400的第三属性A4。这些属性被转换为数的向量411，如由箭头409所示。以这种方式，属性A1 402与1.9的权重(“w”)412相关联，属性A2 404与9.2的权重(w)414相关联，并且属性A4与0.5的权重(w)418相关联。

图4B图示了种子实体E3 420，其是电子邮件类型的实体(在图3中示出为E3 308)。名词短语402“项目建议书”是实体420的第一属性A1。名词短语404“基于图的活动发现”是实体420的第二属性A2。名词短语406“structured objects to vectors of numbers(将对象结构化为数的向量)”是实体420的第三属性A3。联系人职位408是实体420的第四属性A4。这些属性被转换为数的向量423，如由箭头421所示。以这种方式，属性A1 402与1.9的权重(“w”)412相关联，属性A2 404与9.2的权重(w)414相关联，属性A2 404与5.0的权重(w)416相关联，并且属性A4与0.5的权重(w)418相关联。

图4C图示了种子实体E5 430，其是联系人(contact)类型的实体(在图3中示出为E5 312)。联系人职位408是实体430的属性A4。该属性被转换为数的向量433，如由箭头431所示。以这种方式，属性A4与0.5的权重(w)438相关联。

图4D图示了种子实体E7 440，其是约会(appointment)类型的实体(在图3中示出为E7 316)。联系人职位408是实体440的属性A4。名词短语444“Lunch and Learn(午餐和了解)”是实体440的第二属性A5。名词短语446“Patents 101(专利101)”是实体440的第三属性A6。该属性被转换为数的向量433，如由箭头441所示。以这种方式，属性A4 408与0.5的权重(w)448相关联，属性A5 444与3.1的权重(w)450相关联，并且属性A6 446与3.6的权重(w)452相关联。

图5图示了用户102的图500，其中种子实体的属性被图示，其由大写字母“E”指代。非种子实体由小写字母“e”指代。实体E2(图4A中的实体401)、E3(图4B中的实体420)、E5(图4C中的实体430)和E7(图4C中的实体440)是图3和4A-4D中示出的具有属性的种子实体。在各方面中，每个实体的属性通过图500扩散或传播。传播过程针对在图500中紧密连接和/或共享类似属性的实体产生类似表示。

尽管种子实体的属性中的一个或多个属性被传播或被扩散到图500中的其他实体(种子或非种子)，但是为了图示的清楚性，图5示出了针对仅一个种子实体E3 508的属性的传播。箭头522、524、526、528和530分别示出了属性A1、A2、A3、A4 520从种子实体E3 508到其直接连接的实体e1 504、E2 506、e4 510、e7 514和E5 512的传播。箭头532和534分别示出了属性A1、A2、A3、A4 520从实体e5 512传播到实体E7 516和从实体e6 514传播到E7516。箭头536示出了当属性A1、A2、A3、A4 520从实体E7 516扩散或传播到实体e8 518时的传播过程。

当属性的权重(例如向量数)在图500上被传播或被扩散时，它们的权重减小使得属性对更接近起始种子节点的实体或节点比它们对离起始种子节点更远的实体或节点具有更大影响。这在图5中通过传播箭头的宽度示出。箭头522-530是最宽的，因为它们表示到直接被连接到起始种子实体E3 508的实体的传播。箭头532和534比箭头522-530窄，因为它们表示从离起始种子实体E3 508一个级别远的实体的传播。箭头536又比箭头532和534窄，因为它离起始种子实体E3 508两个节点或两个操作远。因此，从种子实体E3 508对属性A1、A2、A3和A4的传播过程的影响对实体e1 504、E2 506、e4 510、e6 514和E5 512最大并且对实体e9 518最小。

尽管未示出，但是针对种子实体E2 506、E5 512和E8 516到图500中的一个或多个其他实体执行类似的传播过程。

图6示出了在传播之前的图(诸如图1、2、3和5中示出的图200、300和500)中的实体的属性的表示的矩阵600或在传播之后的矩阵620，其中小写字母“w”表示在传播之前的属性权重，并且大写字母“W”表示在传播之后的属性权重。

矩阵600具有表示图中的实体602的多个行。矩阵600还具有表示图中标识的属性的许多列。可以存在如由省略号610图示的任何数目的实体和/或属性。行602和列604的交点(例如，条目)表示特定实体的特定属性的权重。例如，矩阵600的条目606为空，因为实体e9不具有属性A1。作为另一示例，单元格608指示实体E8上存在属性A4的权重(w)。在图6中，w是大于零的数并且空白单元格表示零权重。

矩阵620图示了在传播之后的矩阵600，如由箭头612所示。在矩阵620中，实体622针对属性624被映射，其中矩阵中的每行是实体的表示，属性被表示在列中，并且矩阵中的每个条目(例如，行和列的交点)编码描述实体或节点与标签或属性相关联的程度的实值数。因为来自种子实体的属性已经跨整个图被传播或被扩散，所以矩阵620中的每个条目或单元格具有权重W，其包括来自在传播之后的矩阵600的权重w的组合。每个W可以是如由与其左边的下标数字表示的不同数字。例如，条目626描述实体e8与属性A1相关联的程度或权重。在传播之前，该值是零，如矩阵600中的条目606所示。然而，该条目不再是零，因为属性A1的权重从如图5所示的实体E2和E3被扩散。来自实体E2和E3的属性A1的扩散值被组合以创建矩阵620中的权重W_8,1 626。以这种方式，矩阵或表示620以类似的方式利用可以用于比较一个实体与另一个的相关性的实数呈现所有实体和属性。

矩阵620还可以用于以与特定实体的相关性的顺序将标识实体的搜索结果排名。每个实体的表示是矩阵的行。给定具有其对应向量表示的查询实体Q，所有其他实体表示到Q的表示的距离/相似性可以使用像欧几里得距离或余弦相似性的向量相似性度量来计算。这些实体可以然后根据它们距Q的向量距离/相似性来被排名。例如，查询被处置为如同它是图中的节点(通常与任何其他事项断开连接)。在这种情况下，词或名词短语从查询被提取，如以上所描述的。查询被指派以标准化的表示，如同新种子实体在传播之前被创建。损失函数确保图实体表示不会偏离到离它们开始的地方太远，因此该查询表示将在向量空间中接近图中的相似实体。然后，结果(例如，图实体)从离查询的最接近到最远被排序。

图7图示了诸如图6中的矩阵620的表示中的聚类可以如何用于自动发现哪些低级实体与哪些高级活动相关。矩阵702是基于图700的表示。图700是基于来自图1的语料库100并且与如图2、3和5中所示相同地被构建。矩阵702包括针对来自图700的属性被映射的来自图700的实体，其中，每个实体是矩阵中的行，每个属性是列，并且矩阵中的条目编码描述实体或节点与标签或属性相关联的程度的实值数。不是使用实数用于关联的程度，而是使用H、M和L的类别。“H”的条目表示属性与实体之间的高权重或程度的关联。“M”的条目表示属性与实体之间的中等权重或程度的关联。“L”的条目表示属性与实体之间的低权重或程度的关联。例如，与种子实体相关联的任何属性具有H的值。这由E3/A1、E3/A2、E3/A3和E3/A4的实体示出。对比之下，针对E3/A5和E3/A6的条目是低的，因为属性A5和A6从仅一个实体E7716被传播，其离E3 708两个节点远。e1/A1的条目是高的，因为属性A1从两个直接连接的实体E2 706和E3 708被传播到实体e1 704。e1/A2的条目是中等的，因为属性A1从仅一个直接连接的实体E3 708被传播到实体e1 704。条目e1/A5是低的，因为它从仅一个实体E7 716被传播，其离实体e1 704三个节点远。

将异构结构实体转换成用于种子实体中的属性的数/权重的向量并且然后跨图传播权重创建可以用于分析这样的异构实体与彼此的相关性的同质权重的矩阵或表示。换言之，表示空间允许异构实体被直接比较。

例如，矩阵702具有两种聚类模式，其中M和H权重被分组在一起。第一聚类模式719示出实体e1、E2、E3、e4和E5通过属性A1-A4相关。该关系由图700中的圆720示出。第二聚类模式721示出实体E5、e6和e7通过属性A4-A6相关。该关系由图700中的圆722示出。从该数据，能够准确地推断出：实体e1、E2、E3、e4和E5与一个高级活动相关，并且实体E5、e6、E7和e8与另一个高级活动相关。

图8图示了用于确定来自诸如图3中示出的图300的图的异构实体之间的相关性的程度的示例性方法800。方法800可以在用户的本地计算机系统上或在用户的服务器系统上进行。方法800可以用于单个用户或一组用户。在图8中示出了用于方法800的操作的一般顺序。一般，方法800以开始操作802开始并且以结束操作818结束。方法800可以包括更多或更少操作或者可以与图8中示出的那些不同地布置操作的顺序。方法800可以被执行为由计算机系统执行并且被编码或被存储在计算机可读介质上的一组计算机可执行指令。此外，方法800可以由与处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、片上系统(SOC)、或其他硬件设备相关联的门或电路执行。在下文中，方法800可以参考结合图1-7和图9-14B描述的系统、组件、设备、工具、软件、数据结构、用户接口、方法等来解释。

收集异构信息项、对它们进行预处理和构建图的操作802、804和806是本公开的可选方面。在各方面中，方法800可以在操作808处通过利用已有图开始。

在各方面中，方法800以可选操作802开始，其中诸如电子邮件和日历约会的来自用户的系统的语料库(例如，异构实体或信息项)被收集，并且用户与这些和其他信息项的交互被记录在本地计算机系统上。实体被称为“异构”，因为它们可以包含不同类型的信息，包括电子邮件、日历约会、web搜索、文件、联系人等。这些项的元数据包括但不限于与电子邮件相关联的人、文件的文本内容、个人何时点击会议、她关注web页面多久等。在各方面中，该信息可以使用结合图1A讨论的日志记录应用来日志记录。在其他一些方面中，其他类型的软件可以用于收集信息项，诸如电子邮件客户端程序。可选地，为了促进隐私，信息被存储在本地，没有信息被上传到云，并且使用这些日志的评估脚本在用户的计算机系统上本地运行。然而，在其他一些方面中，日志和其他信息可以被存储在用户的私有云账户中并且评估脚本可以远程地运行并且被存储在云中。

可选地，在操作804处，语料库可以被预处理以丢弃不太相关的信息，诸如占位符电子邮件/约会(例如，“自动回复”)、来自参与者不联系的发件人的电子邮件/约会、没有在发给(To)、来自(From)或抄送(CC)栏上的参与者的电子邮件、参与者仅发送给她自己的电子邮件、以及以下具有超过10个收件人的电子邮件/约会。为了捕获“重要性”的粗略概念，在各方面中，仅保留参与者停留了某个时间段(例如，10个连续秒)的web文档/文件。

在可选操作806处，针对在操作802中收集的异构实体构建图(诸如图2和3中示出的图200和300)。在一些方面中，图可以已经存在并且方法800可以利用预先存在的图并且在操作808处开始。如结合图2所讨论的，图中的每个实体(例如，节点)具有相关联的类型，诸如电子邮件、日历约会、或联系人，并且可以与附加时间和文本特征(例如电子邮件发送时间、主题栏等)相关联。图通过在实体之间添加边来构建。在某些方面中，图中的每个边编码实体之间语义上有意义的关系。例如，将日历约会连接到联系人的边可以示意约会由此人组织或参加。

在操作808处，从实体中的一个或多个实体自动提取属性。如结合图3和4A-4D讨论的，属性可以是文本的、时间的或以其他方式指示活动。例如，作为文本属性，名词短语从电子邮件/约会主题栏和文档/文件标题被提取。在各方面中，一般和域特定的停用词(例如，像“pdf”的文件名扩展、像“fwd”的电子邮件缩写)被移除，如搜索结果(“谷歌搜索”)中经常出现的短语一样。在各方面中，属性与实体之间的关联的程度被存储并且可以被组织在矩阵(诸如图6中示出的矩阵600)中。键或图例可以跟踪哪个属性与哪个列相关联。在各方面中，不是所有实体都将具有相关联的属性。具有属性的实体在本文中被称为“种子实体”。尽管操作808被图示为在操作806处对图的构建之后发生，但是它能够同样容易地在操作806处对图的构建之前发生。

在操作810处，将来自图内的实体(其是结构化实体)的属性转换为数的向量，如结合4A-4D所示和讨论的。

在操作812处，来自种子实体中的一个或多个种子实体的一个或多个属性跨用户的整个图被传播或被扩散，如结合图5所示和讨论的。属性权重被传播得离它的起始种子节点越远，它对它被传播到的节点的权重或影响越小。换句话说，通过传播过程，属性对最接近起始节点的节点具有最高影响。

在操作814处，所传播的属性被用于编码属性与实体相关联的程度，如图6和7所示。程度可以是测量关联的数、或种类、或其他方式。

在操作816处，来自所传播的属性的关联的程度被用于创建表示空间，该表示空间说明一个或多个实体与多个异构实体中的一个或多个其他实体的相关性的级别(例如，多么相关或不相关)，如图6和7所示。

在操作818处，表示空间可以被用于通过如图7所示的聚类和/或分类来确定哪些实体与高级活动相关。

在图9中示出了用于随着新信息到来而更新表示空间(诸如矩阵620和矩阵702)的方法900。方法900可以在用户的本地计算机系统上或在用户的服务器系统上进行。在图9中示出了用于方法900的操作的一般顺序。一般，方法900以开始操作902开始并且以结束操作919结束。方法900可以包括更多或更少操作或者可以与图9中示出的那些不同地来布置操作的顺序。方法900可以被执行为由计算机系统执行并且被编码或被存储在计算机可读介质上的一组计算机可执行指令。此外，方法900可以由与处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、片上系统(SOC)、或其他硬件设备相关联的门或电路执行。在下文中，方法900可以参考结合图1-8和10A-14B描述的系统、组件、设备、工具、软件、数据结构、用户接口、方法等来解释。

在操作902处，做出关于是否已经接收到对图(诸如图2和图3中的图200或300)的更新的确定。更新可以包括已有实体之间的新边、针对已有实体的一个或多个新属性、和/或一个或多个新实体。新实体可以被连接到或可以不被连接到图。新实体可以包括或可以不包括已有属性和/或新属性。这些场景中的每个场景参考图10A、10B(新边)、11A、11B(新属性)和12A-12C(新实体)来详细讨论。本公开的益处在于其能够在新信息由用户或用户组接收到时高效地更新表示空间(例如，矩阵)。高效地更新图的新颖方法比在接收到对图的新更新时创建新表示更快且代价更低。因此，表示空间可以在接收到对图的更新时被更新。如果尚未接收到更新(在操作902处的否)，则方法循环回到操作902以等待新的更新。

如果已经接收到更新(在操作902处的是)，则方法900前进到操作904以确定是否已经接收到多个更新。如果已经接收到仅一个更新(在操作904处的否)，则方法900前进到操作910以基于接收到的更新来执行对表示空间的高效更新。方法900然后循环回到操作902以确定是否已经接收到对图的任何附加更新。

如果已经接收到多个更新(在操作904处的是)，则方法900前进到操作906以确定是否应当顺序地(例如，一个接一个地)处理多个更新。如果在操作906处是，则方法900前进到操作908并且以顺序方式在多个更新上执行有效更新过程。在完成时，方法900然后循环回到操作902以确定是否已经接收到对图的任何附加更新。如果应当同时执行多个更新(在操作906处的否)，则方法900前进到操作912，其中同时或以批量操作来在所有更新上执行高效更新方法。在完成时，方法900然后循环回到操作902以确定是否已经接收到对图的任何附加更新。

图10A图示了从来自图1的语料库102构建的针对用户102的图1000，并且其与图3相同，除了它具有在图300被捕获的时刻不存在的新边。与图3中的图300一样，图1000具有相同实体e1-e9 1004-1019。与图300一样，种子实体E2 1006、E3 1009、E5 1012和E7 1016分别具有相同属性1020-1026。然而，已经在节点E7 1016(其是日历约会类型实体)与e11004(其是联系人类型实体)之间添加了边1030，指示实体e1 1004将是由实体E7 1016表示的约会的参会方。然而，表示空间(例如，来自图6的矩阵620)不需要被完全重新计算。

当在没有新属性的当前实体之间添加新边时，已有属性中的一个或多个属性将从新边被连接到的实体直接地或从图中的其他边间接地流过新边。因此，例如，已有属性A1-A6中的一个或多个属性将直接地和/或间接地传播通过新边1030。实体E7 1026的属性A4、A5、A6 1026将通过边1030从E7 1026直接地被传播到实体e1 1004。实体E2的属性1020将经由E2 1006与e1 1004之间的已有边1032传播通过新边1030。属性A4还将传播通过在实体E51012到实体E7 1016之间的已有边1034。

除了通过新边对属性的附加传播之外，该传播还将影响图中的一个或多个实体与一个或多个其他实体的权重或相关性的程度。例如，实体e1 1004和E7 1016已经由于在它们之间的新边的添加而变得更相关。

当在没有新属性的当前实体之间添加新边时，矩阵

可以被更新而不完全计算矩阵(诸如图6中的矩阵620)中的所有实体的所有权重(W)。而是，仅矩阵中的变化(在这种情况下，在已有实体之间添加新边的效果)(ΔX)需要被计算。新矩阵表示等于已有矩阵与矩阵中的变化之和，即

矩阵中的变化可以比从头计算整个矩阵(如从图6中的矩阵600到矩阵620所示)高效得多地被计算。矩阵中的变化可以被确定为两个向量u和v^T的外积，其中u是具有n个条目的列向量，针对每个实体一个条目，并且v是具有p(个属性)的列向量并且表示什么属性信息将需要针对一个或多个实体被更新。v表示将流过新边的属性信息(如图4A-4D所示的被标准化)并且u表示一旦信息更新通过由于新边的图传播到达该实体，该信息更新将对一个或多个实体具有的影响。

u可以以类似于使用雅克比迭代来计算全矩阵解的方式来计算，但是这次它需要仅针对单个列向量(u)而不是针对存在的一个或多个属性被计算。v也可以高效地被计算，主导因子是

的矩阵乘法，其是O(np)。u的每个实体u[i]指示对实体i的表示的更新将如何被缩放。然后，针对每个实体i，v被缩放-u[i]并且被添加到实体的当前表示。数学上，

图10B图示了基于已有实体之间的新边的添加来更新图的相关性表示空间的方法1040。方法1040可以在用户的本地计算机系统上或在用户的服务器系统上进行。在图10B中示出了用于方法1000的操作的一般顺序。一般，方法1040以开始操作1042开始并且以结束操作1050结束。方法1040可以包括更多或更少操作或者可以与图10A中示出的那些不同地来布置操作的顺序。方法1040可以被执行为由计算机系统执行并且被编码或被存储在计算机可读介质上的一组计算机可执行指令。此外，方法1040可以由与处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、片上系统(SOC)、或其他硬件设备相关联的门或电路执行。在下文中，方法1040可以参考结合图1-10A和11A-14B描述的系统、组件、设备、工具、软件、数据结构、用户接口、方法等来解释。

在操作1042处，在图中接收在已有实体之间的新边，诸如图10A中的在节点E71016与e11004之间的新边1030。

在操作1044处，做出关于什么标准化的属性信息将流过新边的确定。这是结合图10A讨论的变量v。

在操作1046处，做出关于用于图中的实体的缩放因子的确定，即，流过新边的标准化的属性信息的传播将如何影响这些属性对图中的一个或多个其他实体的权重。这是结合图10A讨论的变量u。

在操作1048处，做出关于在矩阵中什么已经改变了的确定，这是如结合图10A讨论的变量ΔX，并且其基于什么属性信息流过新边(操作1044)和确定该新流如何影响这些属性对图中的一个或多个其他实体的权重的缩放因子(操作1046)两者来确定。

在操作1050处，表示空间(例如，矩阵)通过获取原始表示空间并且向其添加在操作1048中确定的表示中的变化来被更新。如本文中所讨论的，方法1040是比从头再次计算针对具有新边的图的整个矩阵高效得多的考虑对相关性矩阵(例如，图6的矩阵620和图7的矩阵720)中的图的更新的新边的方式。

图11A图示了从来自图1的语料库100构建的用户102的图1100，并且其与图10A相同，除了它具有在图1000被捕获的时刻不存在的针对实体E5 1112的新属性A8 1124。与图9中的图900一样，图1100具有相同实体e1-e9 1104-1118和实体之间的相同边。尽管有针对实体E5的新属性A8，但是表示空间(例如，来自图6的矩阵620或来自图7的矩阵702)不需要被完全重新计算。而是，雅克比迭代可以针对A8的新属性列(针对固定迭代次数或直到某种收敛保证)而不是针对矩阵中的每一列独立地进行，因为相邻矩阵还没有改变。本质上，与新属性A8相关的新列被添加到矩阵(例如，图的相关性表示空间)。

图11B图示了基于新属性到已有实体的添加来更新图的表示空间的方法1140。方法1140可以在用户的本地计算机系统上或在用户的服务器系统上进行。在图11B中示出了用于方法1100的操作的一般顺序。一般，方法1140以开始操作1142开始并且以结束操作1148结束。方法1140可以包括更多或更少操作或者可以与图11A中示出的那些不同地来布置操作的顺序。方法1140可以被执行为由计算机系统执行并且被编码或被存储在计算机可读介质上的一组计算机可执行指令。此外，方法1140可以由与处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、片上系统(SOC)、或其他硬件设备相关联的门或电路执行。在下文中，方法1140可以参考结合图1-11A和12A-14B描述的系统、组件、设备、工具、软件、数据结构、用户接口、方法等来解释。

方法1140在操作1142处开始，其中接收图(诸如图11中的图1100)的新属性。在操作1144处，新属性的标准化的表示通过如本文中尤其关于图5所描述的图传播。在操作1146处，做出关于新传播的属性与新属性被传播到的实体中的每个实体的相关性的程度的变化的确定。在操作1148处，表示空间(例如，矩阵)通过获取原始表示空间并且向其添加在操作1146中确定的表示中的变化来被更新。实际上，针对新属性的列被添加到相关性矩阵而无需重新计算针对矩阵中的所有其他属性的所有权重。因此，方法1140是比从头再次计算针对具有新属性的图的整个矩阵有效得多的考虑对相关性矩阵中的图的更新的新属性的方式。

图12A图示了从来自图1的语料库102构建的针对用户102的图1200，并且其与图11A相同，除了它具有在图1100被捕获的时刻不存在的新种子实体E9 1234。实体E9 1234未连接到其他实体e1-e9 1204-1219，其具有它们之间的相同边。因为实体E9 1234从图断开连接，所以图传播对新实体或先前观察到的实体没有影响。因此，不需要进行新计算。图12A的矩阵表示与图6的矩阵620中示出的相同，除了它具有针对新实体的新行。然而，该新行不要求与矩阵中的其他行的传播。结果是实体的表示仅基于其本身

来初始化。

图12B图示了从来自图1的语料库102构建的针对用户102的图1201，并且其与图12A相同，除了新种子实体E9 1234现在经由边1236连接到实体E7 1216，边1236指示实体E9是日历实体E7 1216的参会方。此外，实体E9 1234具有新属性A9 1232。更新的或新的矩阵表示可以通过若干步骤来确定。首先，新实体被添加到图1200作为如关于图12A描述的断开连接的组件并且忽视边1235和任何新属性A9 1232。接下来，添加边1236以将新实体连接并传播其忽视新属性的信息，如图9A和9B中所描述的。第三，针对每个新属性，使用关于图11A和11B描述的方法将其跨图传播。

图12C图示了基于经由新边连接到图的实体的添加来更新图的表示空间的方法1240。方法1240可以在用户的本地计算机系统上或在用户的服务器系统上进行。在图12B中示出了用于方法1200的操作的一般顺序。一般，方法1240以开始操作1244开始并且以结束操作1262结束。方法1240可以包括更多或更少操作或者可以与图12C中示出的那些不同地来布置操作的顺序。方法1240可以被执行为由计算机系统执行并且被编码或被存储在计算机可读介质上的一组计算机可执行指令。此外，方法1240可以由与处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、片上系统(SOC)、或其他硬件设备相关联的门或电路执行。在下文中，方法1240应参考结合图1-12B和13A-14B描述的系统、组件、设备、工具、软件、数据结构、用户接口、方法等来解释。

在操作1244处，在图中接收新实体。在操作1246处，初始化实体的表示。换句话说，针对新实体的行被添加到矩阵或表示空间。在各方面中，在操作1246处，忽视所有新边和属性。

接下来，考虑将新实体连接到图的边。在操作1248处，做出关于什么标准化的属性信息将流过新实体与它被连接到的已有实体之间的边的确定。这是结合图10A讨论的变量v。

在操作1250处，做出关于用于图中的实体的缩放因子的确定，即，流过新边的标准化的属性信息的传播将如何影响这些属性对图中的一个或多个其他实体的权重。这是结合图10A讨论的变量u。

在操作1252处，做出关于在图中什么已经改变了的确定，这是如结合图10A讨论的变量ΔX，并且其基于什么属性信息流过新边(操作1044)和确定该新流如何影响这些属性对图中的一个或多个实体的权重的缩放因子(操作1046)两者来确定。表示空间(例如，矩阵)通过获取原始表示空间并且向其添加将在操作1248和1250中确定的表示中的变化来被更新。

在操作1254处，确定新实体是否具有任何新属性。如果不是(在操作1254处的否)，则方法1240结束。如果新实体的确具有新属性(在操作1254处的是)，则方法1240前进到操作1256。在操作1256处，新属性的标准化的表示通过如本文中尤其关于图5所描述的图被传播。在操作1258处，做出关于新传播的属性与新属性被传播到的实体中的一个或多个实体的相关性的程度的变化的确定。在操作1260处，表示空间(例如，矩阵)通过获取原始表示空间并且向其添加在操作1146中确定的表示中的变化来被更新。实际上，针对新属性的列被添加到相关性矩阵而无需重新计算针对矩阵中的所有其他属性的所有权重。因此，方法1240是比从头再次计算针对具有新实体和新属性的图的整个矩阵高效得多的考虑对相关性矩阵中的图的更新的新实体的方式。

图13是图示可以利用其实践本公开的方面的计算设备1300的物理组件(例如，硬件)的框图。下面描述的计算设备可以适合于以上描述的计算设备。在基本配置中，计算设备1300可以包括至少一个处理单元1302和系统存储器1304。取决于计算设备的配置和类型，系统存储器1304可以包括但不限于易失性存储装置(例如，随机存取存储器)、非易失性存储装置(例如，只读存储器)、闪速存储器、或这样的存储器的任何组合。系统存储器1304可以包括操作系统1309和适合于执行本文中这样公开的各个方面的一个或多个程序工具1306。操作系统1309例如可以适合于控制计算设备1300的操作。此外，本公开的各方面可以结合图形库、其他操作系统或任何其他应用程序来实践并且不限于任何具体应用或系统。该基本配置在图13中通过虚线1309内的那些组件来图示。计算设备1300可以具有附加特征或功能性。例如，计算设备1300还可以包括附加数据存储设备(可移除和/或不可移除)，诸如例如磁盘、光盘或带。这样的附加存储在图13中通过可移除存储设备1309和不可移除存储设备1310来图示。

如上所述，多个程序工具和数据文件可以被存储在系统存储器1304中。尽管在处理单元1302上执行，但是编程工具1306(例如，实体-活动关系应用1320)可以执行包括但不限于如本文中所描述的各方面的过程。实体-活动关系应用1320包括日志记录工具1330、转换工具1332、绘图工具1334、传播工具1336以及评估工具1339，如参考图1A更详细描述的。可以根据本公开的方面使用的其他编程工具可以包括电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、画图或计算机辅助应用程序等。

另外，本公开的方面可以被实践在包括分立电子元件、包含逻辑门的封装或集成电子芯片、利用微处理器的电路的电气电路中或包含电子元件或微处理器的单个芯片上。例如，本公开的方面可以经由片上系统(SOC)实践，其中图13中图示的组件中的每个或许多组件可以被集成到单个集成电路上。这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能性，其全部被集成(或烧制)到芯片基板上作为单个集成电路。当经由SOC操作时，本文中关于客户端切换协议的能力的功能性可以经由与单个集成电路(芯片)上的计算设备1300的其他组件集成的专用逻辑来操作。本公开的方面还可以使用能够执行诸如例如与、或和非的逻辑运算的其他技术来实践，其他技术包括但不限于机械、光学、流体和量子技术。另外，本公开的方面可以在通用计算机内或在任何其他电路或系统中被实践。

计算设备1300还可以具有一个或多个输入设备1312，诸如键盘、鼠标、笔、声音或语音输入设备、触摸或轻扫输入设备等。还可以包括诸如显示器、扬声器、打印机等的(多个)输出设备1314。上述设备是示例并且可以使用其他设备。计算设备1300可以包括允许与其他计算设备1090通信的一个或多个通信连接1316。适当的通信连接1316的示例包括但不限于：射频(RF)发射器、接收器、和/或收发器电路装置；通用串行总线(USB)、并行和/或串行端口。

如本文中所使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括以用于存储信息的任何方法或技术(诸如计算机可读指令、数据结构或程序工具)实现的易失性和非易失性、可移除和不可移除介质。系统存储器1304、可移除存储设备1309以及不可移除存储设备1310全部是计算机存储介质示例(例如，内存存储)。计算机存储介质可以包括RAM、ROM、电可擦只读存储器(EEPROM)、闪速存储器或其他存储器技术，CD-ROM、数字多用盘(DVD)或其他光学存储，磁盒、磁带、磁盘存储或其他磁性存储设备，或者能够用于存储信息并且能够由计算设备1300存取的任何其他制品。任何这样的计算机存储介质可以是计算设备1300的部分。计算机存储介质不包括载波或其他传播或调制数据信号。

通信介质可以由调制信号(诸如载波或其他传输机制)中的计算机可读指令、数据结构、程序工具或其他数据体现，并且包括任何信息传递介质。术语“调制数据信号”可以描述具有使一个或多个特性以使得将信息编码在信号中的方式设置或改变的信号。例如但不限于，通信介质可以包括诸如有线网络或直接接线连接的有线介质，以及诸如声学、射频(RF)、红外和其他无线介质的无线介质。

图14A和14B图示了可以利用其实践本公开的方面的计算设备或移动计算设备1400，例如，移动电话、智能电话、可穿戴计算机(诸如智能手表)、平板计算机、膝上型计算机等。在一些方面中，客户端(例如，图1中的计算系统105)可以是移动计算设备。参考图14A，图示了用于实现这些方面的移动计算设备1400的一个方面。在基本配置中，移动计算设备1400是具有输入元件和输出元件两者的手持计算机。移动计算设备1400通常包括显示器1405和允许用户将信息录入到移动计算设备1400中的一个或多个输入按钮1410。移动计算设备1400的显示器1405还可以用作输入设备(例如，触摸屏显示器)。如果被包括，则可选的侧面输入元件1415允许进一步用户输入。侧面输入元件1415可以是旋转开关、按钮、或任何其他类型的手动输入元件。在备选方面中，移动计算设备1400可以包含更多或更少的输入元件。例如，在一些方面中，显示器1405可以不是触摸屏。在又一备选方面中，移动计算设备1400是便携式电话系统，诸如蜂窝电话。移动计算设备1400还可以包括可选小键盘1435。可选小键盘1435可以是物理小键盘或在触摸屏显示器上的“软”小键盘。在各种方面中，输出元件包括用于示出图形用户界面(GUI)、视觉指示器1420(例如，发光二极管)、和/或音频换能器1425(例如，扬声器)的显示器1405。在一些方面中，移动计算设备1400包含用于向用户提供触觉反馈的振动换能器。在又一方面中，移动计算设备1400包含输入和/或输出端口，诸如音频输入(例如，麦克风插孔)、音频输出(例如，耳机插孔)、以及用于向外部设备发送信号或从外部设备接收信号的视频输出(例如，HDMI端口)。

图14B是图示计算设备、服务器(例如，服务器109或服务器104)、移动计算设备等的一个方面的架构的框图。即，计算设备1400可以包含系统(例如，架构)1402以实现一些方面。系统1402可以被实现为能够运行一个或多个应用(例如，浏览器、电子邮件、日历、联系人管理器、消息收发客户端、游戏、以及媒体客户端/播放器)的“智能电话”。在一些方面中，系统1402被集成为计算设备，诸如集成数字助理(PDA)和无线电话。

一个或多个应用程序1466可以被加载到存储器1462中并且在操作系统1464上或与操作系统(OS)1464相关联地运行。应用程序的示例包括电话拨号器程序、电子邮件程序、信息管理(PIM)程序、文字处理程序、电子表格程序、互联网浏览器程序、消息收发程序等。系统1402还包括存储器1462内的非易失性存储区域1469。非易失性存储区域1469可以用于存储在系统1402被关机的情况下不应当丢失的持久信息。应用程序1466可以使用和存储非易失性存储区域1469中的信息，诸如由电子邮件应用使用的电子邮件或其他消息等。同步应用(未示出)也驻存在系统1402上并且被编程为与驻存在主机计算机上的对应同步应用交互，以被保持被存储在非易失性存储区域1469中的信息与被存储在主机计算机处的对应信息同步。如应当认识到的，其他应用可以被加载到存储器1462中并且在本文中描述的移动计算设备1400上运行。

系统1402具有电源1470，其可以被实现为一个或多个电池。电源1470可以进一步包括补充或对电池进行再充电的外部电源，诸如AC适配器或供电底座。

系统1402还可以包括执行发送和接收射频通信的无线电接口层1472。无线电接口层1472促进经由通信载体或服务提供方的系统1402与“外界”之间的无线连接性。来去无线电接口层1472的传输在操作系统1464的控制下进行。换言之，由无线电接口层1472接收到的通信可以经由操作系统1464散播到应用程序1466，反之亦然。

视觉指示器1420可以用于提供视觉通知，并且/或者音频接口1474可以用于经由音频换能器1425产生可听通知。在图示的配置中，视觉指示器1420是发光二极管(LED)并且音频换能器1425是扬声器。这些设备可以直接耦合到电源1470，使得在被激活时，它们保持接通由通知机制指示的持续时间，即使处理器1460和其他组件可能关机以节省电池功率。LED可以被编程为无限期地保持接通，直到用户采取动作来指示设备的通电状态。音频接口1474用于向用户提供可听信号以及从用户接收可听信号。例如，除了被耦合到音频换能器1425以外，音频接口1474还可以耦合到麦克风以接收可听输入，诸如以促进电话对话。根据本公开的方面，麦克风还可以用作促进对通知的控制的音频传感器，如下面将描述的。系统1402可以进一步包括使得板载相机1430能够记录静态图像、视频流等的操作的视频接口1476。

实现系统1402的移动计算设备1400可以具有附加特征或功能性。例如，移动计算设备1400还可以包括附加数据存储设备(可移除和/或不可移除)，诸如磁盘、光盘或磁带。这样的附加存储在图14B中由非易失性存储区域1469图示。

由移动计算设备1400生成或捕获并且经由系统1402被存储的数据/信息可以被存储在移动计算设备1400本地，如以上所描述的，或者数据可以被存储在任何数目的存储介质上，这些存储介质可以由设备经由无线电接口层1472或经由在移动计算设备1400和与移动计算设备1400相关联的单独计算设备(例如，诸如互联网的分布式计算网络中的服务器计算机)之间的有线连接来访问。如应当认识到的，这样的数据/信息可以经由移动计算设备1400经由无线电接口层1472或经由分布式计算网络访问。类似地，这样的数据/信息可以根据众所周知的数据/信息传送和存储装置(包括电子邮件和协作数据/信息共享系统)容易地在计算设备之间传送以供存储和使用。

如将从前述公开内容理解的，技术的一个方面涉及一种发现来自信息的语料库的实体之间的相关性的计算机实现的方法。该方法包括：从图中的多个异构实体自动提取属性；跨图传播从多个异构实体提取的属性的标准化的表示；使用所传播的属性来找到多个异构实体与所提取的属性相关联的程度；以及使用多个异构实体与所提取的属性相关联的程度来创建表示空间，该表示空间说明多个异构实体中的实体与另一实体的相关性的级别。在另一示例中，表示空间用于确定多个异构实体中的两个或更多个实体与活动相关。在示例中，确定活动的名称。在示例中，表示空间用于将搜索查询的搜索结果排名，该搜索查询寻求与多个异构实体中的实体相关的实体的标识。在示例中，异构实体包括以下一项或多项：电子邮件、消息、联系人、web搜索、web页面、个人信息搜索、文件、以及日历约会。在示例中，该方法完全在本地计算机系统上被执行。在示例中，添加对图的更新；确定由对图的更新造成的差量表示空间；并且通过将差量表示空间添加到表示空间来创建新表示空间。在示例中，添加连接图中的多个异构实体中的两个实体的附加边。表示空间中的变化通过标识将传播通过新边的标准化的属性信息以及基于新边来确定用于多个异构实体的实体缩放因子来确定。基于表示空间中的变化来更新表示空间。在示例中，向图中的多个异构实体中的实体添加附加属性；跨图传播附加属性；并且将所传播的附加属性用于更新表示空间。在示例中，向图添加新实体，其中新实体通过新边被连接到多个异构实体中的已有实体。通过以下操作来确定差量表示空间：实例化新实体的新实体表示；标识将跨新边传播的标准化的属性信息；以及基于新边来确定用于多个异构实体的实体缩放因子。差量表示空间用于更新表示空间。在示例中，表示空间是包括列、行和实体的矩阵，其中每个行表示多个实体中的实体，每个列表示所提取的属性中的属性，并且每个实体描述实体与属性之间的关系。

在另一方面中，技术涉及一种系统，包括：至少一个处理器；以及存储指令的存储器，该指令在由至少一个处理器执行时执行一组操作。操作包括：接收对图的更新；确定由对图的更新造成的差量表示空间；以及通过将差量表示空间添加到表示空间来创建新表示空间。在一个示例中，接收连接图中的多个异构实体中的两个实体的附加边。通过标识将扩散通过新边的标准化的属性信息、并且基于新边来确定用于图中的多个异构实体的实体缩放因子，来确定表示空间中的变化。基于表示空间中的变化来更新表示空间。在另一示例中，将附加属性添加到图中的多个异构实体中的实体。跨图扩散附加属性，并且所扩散的附加属性用于更新表示空间。在另一示例中，将新实体添加到图，其中，新实体通过新边被连接到多个异构实体中的已有实体。创建新实体的新实体表示。通过以下操作来创建差量(delta)表示空间：确定将扩散通过新边的标准化的属性信息的标识；以及基于新边来确定用于图中的所有实体的实体缩放因子。新实体表示和差量表示空间用于更新表示空间。在示例中，异构实体包括以下一项或多项：电子邮件、消息、联系人、web搜索、文件、以及日历约会。在示例中，接收对图的第二更新；确定由更新和对图的第二更新两者造成的差量表示空间；通过将差量表示空间添加到表示空间来创建新表示空间。

在另一方面中，技术涉及一种发现来自用户的信息的实体之间的相关性的计算机实现的方法。该方法包括：从针对用户的多个异构实体构建图；从多个异构实体自动提取属性；跨图传播从多个异构实体提取的属性；使用所传播的属性来编码描述多个异构实体中的每个实体与所提取的属性中的每个属性相关联的程度的数；以及使用从所传播的属性所编码的数来创建多个异构实体中的实体到另一实体的表示空间。在示例中，表示空间用于确定多个异构实体中的两个或更多个与活动相关。在示例中，表示空间用于将搜索查询的搜索结果排名，该搜索查询寻求与多个异构实体中的实体相关的实体的标识。

短语“至少一个”、“一个或多个”、“或”和“和/或”是运算上的合取和析取两者的开放式表达。例如，表达“A、B和C中的至少一个”、“A、B或C中的至少一个”、“A、B和C中的一个或多个”、“A、B或C中的一个或多个”、“A、B和/或C”、“A、B或C”中的每个意指仅A、仅B、仅C、A和B一起、A和C一起、B和C一起、或A、B和C一起。

术语“一”或“一个”实体是指该实体中的一个或多个。因此，术语“一”(或“一个”)、“一个或多个”和“至少一个”可以在本文中可互换使用。还应指出，术语“包括”、“包含”和“具有”可以可互换使用。

如本文中所使用的术语“自动”及其变型是指在过程或操作被执行时在没有实质人类输入的情况下完成的任何过程或操作，其通常是连续的或半连续的。然而，即使过程或操作的执行使用实质或非实质人类输入，如果输入在过程或操作的执行之前被接收，过程或操作也可以是自动的。人类输入在这种输入影响过程或操作将被如何执行的情况下被认为是实质的。同意过程或操作的执行的人类输入不被认为是“实质”的。

本文中讨论的操作、功能和操作中的任何可以连续地且自动地被执行。

本公开的示例性系统和方法已经关于计算设备描述。然而，为了避免不必要地模糊本公开，前面的描述省略了许多已知的结构和设备。该省略不应被解释为对要求保护的本公开的范围的限制。具体细节被阐述以提供对本公开的理解。然而，应当认识到，本公开可以以除本文中阐述的具体细节以外的各种方式来实践。

另外，尽管本文中图示的示例性方面示出并置的系统的各种组件，但是系统的某些组件能够被定位在远程、在分布式网络(诸如LAN和/或互联网)的远程部分或专用系统内。因此，应当认识到，系统的组件能够被组合成一个或多个设备，诸如服务器、通信设备，或并置在分布式网络的特定节点上，诸如模拟和/或数字电信网络、分组交换网络、或电路交换网络。从前面的描述将认识到，并且出于计算效率的原因，系统的组件可以被布置在组件的分布式网络内的任何位置处而不影响系统的操作。

另外，应当认识到，连接元件的各种链路可以是有线或无线链路或其任何组合、或者能够向和从连接元件供应和/或传送数据的任何其他已知的或稍后开发的(多个)元件。这些有线或无线链路还可以是安全链路并且可以能够传送加密信息。用作链路的传输介质例如可以是用于电信号的任何适当的载体，包括同轴线缆、铜线和光纤，并且可以采取声波或光波的形式，诸如在无线电波和红外数据通信期间生成的那些。

尽管流程图已经关于特定事件序列讨论和图示了流程图，但是应当认识到，能够在不实质影响所公开的配置和方面的操作的情况下对该序列进行改变、增加和删减。

本公开的许多变型和修改可以被使用。提供本公开的一些特征而不提供其他特征是可能的。

在又一配置中，本公开的系统和方法可以结合专用计算机、编程微处理器或微控制器和(多个)外围集成电路元件、ASIC或其他集成电路、数字信号处理器、诸如分立元件电路的硬接线电子或逻辑电路、诸如PLD、PLA、FPGA、PAL的可编程逻辑器件或门阵列、专用计算机、任何可比装置等实现。通常，能够实现本文中图示的方法的任何(多个)设备或装置可以用于实现本公开的各个方面。可以用于本公开的示例性硬件包括计算机、手持设备、电话(例如，蜂窝、启用了互联网的、数字、模拟、混合、以及其他)、以及本领域中已知的其他硬件。这些设备中的一些设备包括处理器(例如，单个或多个微处理器)、存储器、非易失性存储装置、输入设备、以及输出设备。此外，包括但不限于分布式处理或组件/对象分布式处理、并行处理、或虚拟机处理的备选软件实现也可以被构建为实现本文中描述的方法。

在又一配置中，所公开的方法可以容易地结合使用提供能够被使用在各种计算机或工作站平台上的可移植源代码的对象或面向对象软件开发环境的软件来实现。备选地，所公开的系统可以部分地或完全地用使用标准逻辑电路或VLSI设计的硬件来实现。是软件还是硬件被用于实现根据本公开的系统取决于系统的速度和/或效率要求、特定功能、以及正在使用的特定软件或硬件系统或者微处理器或微计算机系统。

在又一配置中，所公开的方法可以部分地用软件实现，软件可以被存储在存储介质上，在控制器和存储器的协作下的编程的通用计算机、专用计算机、微处理器等上执行。在这些实例中，本公开的系统和方法可以被实现为嵌入计算机上的程序，诸如applet、

或CGI脚本，被实现为驻存在服务器或计算机工作站上的资源，被实现为嵌入专用测量系统中的例程，系统组件等。系统还可以通过将系统和/或方法物理上并入软件和/或硬件系统中来实现。

尽管本公开描述了参考特定标准和协议实现的组件和功能，但是本公开不限于这样的标准和协议。本文中未提到的其他类似的标准和协议存在并且被认为被包括在本公开中。此外，本文中提到的标准和协议以及本文中未提到的其他类似的标准和协议定期被具有基本上相同功能的更快或更有效的等同物取代。具有相同功能的这种替换标准和协议被认为是包括在本公开中的等同物。

在各种配置和方面中，本公开包括基本上如本文中描绘和描述的组件、方法、过程、系统和/或装置，包括其各种组合、子组合和子集。在理解本公开之后，本领域技术人员将理解如何利用本文中公开的系统和方法。在各种配置和方面中，本公开包括提供不存在本文中未描绘和/或描述的项或在其各种配置或方面中的设备和过程，包括不存在如可能已经在先前设备或过程中使用的这样的项，例如以改进性能、实现易用性和/或减少实现的成本。

本公开的各方面例如在上面参考根据本公开的方面的方法、系统和计算机程序产品的框图和/或操作图示来描述。框中指出的功能/动作可以不以如任何流程图中示出的顺序发生。例如，连续示出的两个框可以事实上基本上同时执行，或者框可以有时以相反的顺序来执行，这取决于所涉及的功能/动作。

本申请中提供的一个或多个方面的描述和图示不旨在以任何方式限制或限定要求保护的本公开的范围。本申请中提供的方面、示例和细节被认为是充分的以传达所有权并且使得其他人能够利用要求保护的本公开的最好模式。要求保护的本公开不应当被解释为限于本申请中提供的任何方面、示例或细节。不管是组合还是单独示出和描述，各种特征(结构的和方法两种)旨在被选择性地包括或省略以产生具有特定特征集合的配置。已经提供了本申请的描述和图示，本领域技术人员可以设想到不脱离要求保护的本公开的更宽范围的落入本申请中体现的总体发明构思的更宽方面的精神内的变型、修改和备选方面。

Claims

1.一种计算机实现的方法，所述方法发现来自信息的语料库的实体之间的相关性，所述方法包括：

从图中的多个异构实体自动提取属性；

跨所述图来传播从所述多个异构实体所提取的所述属性的标准化的表示；

使用所传播的所述属性来找到所述多个异构实体与所提取的所述属性相关联的程度；

使用所述多个异构实体与所提取的所述属性相关联的所述程度来创建表示空间，所述表示空间说明所述多个异构实体中的实体与另一实体的相关性的级别；以及

使用所述表示空间来确定所述多个异构实体中的两个或更多个实体与活动相关。

2.根据权利要求1所述的计算机实现的方法，还包括：

在所述图中添加连接所述多个异构实体中的两个实体的附加边；

通过以下操作来确定所述表示空间中的变化：

确定将传播通过新边的标准化的属性信息的标识；

基于所述新边来确定用于所述多个异构实体的实体缩放因子；以及

基于所述表示空间中的所述变化来更新所述表示空间。

3.根据权利要求1所述的计算机实现的方法，还包括：

在所述图中向所述多个异构实体中的实体添加附加属性；

跨所述图传播所述附加属性；以及

使用所传播的所述附加属性来更新所述表示空间。

4.根据权利要求1所述的计算机实现的方法，还包括：

向所述图添加新实体，其中所述新实体通过新边连接到所述多个异构实体中的已有实体；

通过以下操作来确差量表示空间：

实例化所述新实体的新实体表示；

标识将跨所述新边传播的标准化的属性信息；以及

使用所述差量表示空间来更新所述表示空间。

5.一种计算机系统，用于更新说明多个异构实体之间的相关性的级别的表示空间，其中所述异构实体中的一个或多个实体具有属性并且所述异构实体由图中的边连接，所述系统包括：

处理器；

可操作地耦合到所述处理器的存储器，其中所述存储器存储在被执行时使所述处理器执行以下操作的计算机可执行指令：

接收对所述图的更新；

确定由对所述图的所述更新造成的差量表示空间；

通过将所述差量表示空间添加到所述表示空间来创建新表示空间；以及

使用所述新表示空间来将针对搜索查询的搜索结果排名，所述搜索查询寻找与所述多个异构实体中的实体相关的实体的标识。

6.根据权利要求5所述的计算机系统，还包括在被执行时使所述处理器执行以下操作的计算机可执行指令：

接收在所述图中连接所述多个异构实体中的两个实体的附加边；

通过以下操作来确定所述表示空间中的变化：

标识将扩散通过所述新边的标准化的属性信息；以及

基于所述新边来确定用于所述图中的所述多个异构实体的实体缩放因子；以及

基于所述表示空间中的变化来更新所述表示空间。

7.根据权利要求5所述的计算机系统，还包括在被执行时使所述处理器执行以下操作的计算机可执行指令：

向所述图中的所述多个异构实体中的实体添加附加属性；

跨所述图扩散所述附加属性；以及

使用所扩散的所述附加属性来更新所述表示空间。

8.根据权利要求5所述的计算机系统，还包括在被执行时使所述处理器执行以下操作的计算机可执行指令：

创建所述新实体的新实体表示；

通过以下操作来确定差量表示空间：

标识将扩散通过所述新边的标准化的属性信息；以及

基于所述新边来确定用于所述图中的所有实体的实体缩放因子；以及

使用所述新实体表示和所述差量表示空间来更新所述表示空间。

9.根据权利要求5所述的计算机系统，其中所述异构实体包括以下一项或多项：电子邮件、消息、联系人、web搜索、文件、以及日历约会。

10.一种计算机实现的方法，所述方法发现来自用户的信息的实体之间的相关性，所述方法包括：

从针对所述用户的多个异构实体构建图；

从所述多个异构实体自动提取属性；

跨所述图来传播从所述多个异构实体所提取的所述属性；

使用所传播的所述属性来编码数，所述数描述所述多个异构实体中的每个实体与所提取的所述属性中的每个属性相关联的程度；

使用从所传播的所述属性编码的所述数来创建所述多个异构实体中的实体到另一实体的表示空间；以及

11.根据权利要求10所述的计算机实现的方法，还包括：

使用所述表示空间来将针对搜索查询的搜索结果排名，所述搜索查询寻找与所述多个异构实体中的实体相关的实体的标识。

12.根据权利要求10所述的计算机实现的方法，其中所述异构实体包括以下一项或多项：电子邮件、消息、联系人、web搜索、web页面、个人信息搜索、文件、以及日历约会。

13.根据权利要求10所述的计算机实现的方法，还包括：

添加对所述图的更新；

确定由对所述图的所述更新造成的差量表示空间；以及

通过将所述差量表示空间添加到所述表示空间来创建新表示空间。

14.根据权利要求10所述的计算机实现的方法，其中所述方法完全在本地计算机系统上被执行。

15.根据权利要求10所述的计算机实现的方法，还包括：

确定所述活动的名称。