CN106104522B

CN106104522B - 用于加强任意用户内容的方法、系统和计算机存储设备

Info

Publication number: CN106104522B
Application number: CN201580014361.4A
Authority: CN
Inventors: S-P·卡塞赞
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-03-18
Filing date: 2015-03-13
Publication date: 2019-07-16
Anticipated expiration: 2035-03-13
Also published as: WO2015142626A1; EP3120257A1; US20150269612A1; CN106104522A

Abstract

“文件增强器”提供了一种实体平台，其摄取实体集合、信息源、专题数据库等等，并且生成对应的知识库(KB)和实体提取服务。该平台启用各种用户授权方案以用于获取对一个或多个KB的访问。此外，该平台处理任意用户内容，例如文件、图像、文本段、语音等，以确定哪些KB与该内容相关。如果对相关KB的访问已被授权，则文件增强器采用那些KB来分析并加强该任意内容。内容加强示例包括添加超链接，突出显示相关信息，在弹出框、窗口或标签中插入相关信息，基于选择的KB启用搜索和服务，等等。实体商店保存可以被用户访问的可用KB的库。对相关KB的本地或远程访问通过各种手段被获得，包括但不限于订阅、支持广告的访问，免费访问等等。

Description

用于加强任意用户内容的方法、系统和计算机存储设备

背景技术

用户通常希望关于在文件中被提及的概念和实体的额外信息或者它们正在创建、处理、读取等的其他内容。例如，一位正在阅读“哈利波特”书的用户可能想要获取关于她正在阅读的文本中提到的诸多角色之一的额外信息。类似地，一位正在阅读医学期刊论文的医师可能想要获取关于该论文中提及的情况的额外信息。相应地，一位病人可能想要获取关于她的医师提到的情况的基础信息。

不幸地，针对兴趣词或兴趣词集合的一般性网页或网站搜索(例如，搜索查询)很容易由于自然语言中各种类型的模糊性(例如，转喻、同义、词汇选择等)而出现大量的检索错误。然而，在许多情况下，用户能够搜索实体现有的垂直搜索引擎或特定域集合(比如系列丛书，特定疾病，运动统计等中的字符)，它们是由不同的内容提供商创建或聚集的(例如，各种“维基”类型的集合，如WedMD.com或FoxSports.com等信息网站)，它们可以由用户进行搜索以获得感兴趣的特定主题或实体的额外信息。不幸的是，用户通常必须知道这类资源，而且必须手动确定哪些资源是相关的并且应被访问以获得所需的额外信息。

此外，存在各种传统的技术，这些技术分析用户文件，用户查询，文本片段等，然后提取并消除该内容中的概念和实体的歧义。所得的概念和实体然后被用于访问关于它们在各种目标知识库中的相关信息。不幸的是，用户通常不知道，或者无法访问特定知识库，该特定知识库可被用来获取他们正在寻求的额外相关信息。此外，这些资源中的一部分可能不可用于Web搜索引擎来索引。此外，访问多个知识库的用户通常不得不单独寻找这些资源中的每一个以访问这类资源中的相关信息。

发明内容

提供该发明内容以便以简化的形式介绍下面在详细描述中进一步描述的概念的选择。该发明内容不旨在标识所要求保护的主题的关键特征或者基本特征，其也不旨辅助确定所要求保护的主题的范围。而且，虽然现有技术的一些缺点可能在本文中被指出或被讨论，但是所要求保护的主题不旨在于被限制为解答或解决那些现有技术的任何或者所有缺点的实施方案。

在一般情况下，本文所述的“文件增强器”提供了各种技术以用于对任意用户内容进行语义评估，来选择或推荐一个或多个相关的专家知识库(KB)。然后，文件增强器提供各种机制，这些机制允许用户获得对一个或多个所选择或推荐的专家KB的访问。最后，该文献增强器使用一个或多个用户已获得访问的专家知识库，以评估和加强任意用户内容。注意，在不同实施例中，文件增强器从对应的实体集合、信息源，专题数据库等构建专家KB库，或者从各种来源接收一个或多个专家KB。

更具体地，文件增强器通过执行任意用户内容(例如，文件，图像，查询，文本片段，语音等)的初步分析来开始操作，从而提取或识别在该任意内容中的“实体”。注意：这些实体包括但不限于：名称、地点、主题短语或术语、日期、一般或具体的概念或主题等。还要注意的是，用于对来自各种类型的内容中的实体进行提取和消歧的大量各种各样的常规技术对于本领域技术人员来说是众所周知的，在此不再赘述。

一旦文件增强器已提取或已识别任意内容中的实体，该文件增强器然后从专家KB图书馆识别一个或多个相关的专家KB。需要注意的是，这个专家KB图书馆在本文中也被称为“实体集合”，诸如此类。特定的专家KB与任意内容中实体的关联通常通过将那些实体统计学或概率地匹配到语义主题或专家KB中的一个或多个来确定。此外，应该理解的是，在各种实施例中，文件增强器采用从不同KB聚集的信息来识别该任意内容中的实体。这样，文件增强器可以使用来自不同KB的信息来确定每个实体将被哪个KB触发，以用于在用户返回相关信息时使用。

在识别一个或多个相关的专家KB之后，文件增强器确定用户是否已获得或已被授权访问已识别专家KB的一些或全部。如果用户已获得对相关专家KB中的任意专家KB的访问，则文件增强器采用那些专家KB执行可选的对该任意内容的二次分析以用于提取该内容中的实体并消除其歧义。换言之，在各种实施例中，文件增强器执行二次实体提取服务，其被自动定做或定制到特定的专家KB。因此，从该二次提取和识别过程产生的实体可能至少部分地与初始识别的实体不同。在一个实施例中，对一个或多个已识别的相关KB的访问经由保持专家KB图书馆的实体商店(例如，“应用程序商店”，比如在线商店)等而被提供。通过各种手段，包括但不限于临时付费或永久访问、基于订阅的访问、广告支持的访问、免费访问等等，针对一个或多个相关KB的本地或远程访问或许可从该实体商店被获得。

无论是否执行二次分析来提取并识别任意内容中的实体，文件增强器然后都采用用户已被授予访问的专家KB来加强该任意内容。在一般情况下，这种加强包括但不限于使用那些专家KB向任意内容中的实体添加超链接、突出显示任意内容中的相关实体、从专家KB向任意内容中(或者在任意内容附近)添加信息或内容，利用所选择的KB发起基于实体的搜索，等等。

注意，专家KB的构建是通过各种手段来实现的。例如，在各种实施例中，从各种专用或公共来源，文件增强器接收或摄取多种格式的多个专题数据库或信息集合(例如，现有的维基集合)，然后处理该数据库并且构建对应的专家KB。可替代地，或组合地，该文件增强器接收来自第三方的一个或多个已有的专家KB。在各种实施例中，文件增强器还可选地基于每个用户接收和/或定制各种语境和实体，从而为一个或多个用户创建定制的KB。

鉴于上述概要，很清楚的是，本文描述的文件增强器提供各种技术以用于评估任意用户内容，从而来选择一个或多个相关的专家KB。然后，文件增强器提供允许用户获得对一个或多个所选择的专家KB的访问的各种机制，其然后被用于评估和加强任意用户内容。除了刚才描述的好处，文件增强器的其他优点将结合附图在下文中的详细描述中变得明显。

附图说明

通过关于下面的描述、随附的权利要求书以及附图，能够更好地理解要求保护的主题的具体的特征、方面和优点，在附图中：

图1提供了如本文所述的“文件增强器”的示例性高级概览，其评估任意用户内容以选择一个或多个相关的专业知识库，提供对那些知识库种的中的一个或多个的访问，然后使用那些知识库来评估和增强该任意内容。

图2提供了如本文所述的到各种类型的专家知识库的接口和对应的实体提取服务的说明以用于分析和加强任意用户内容。

图3提供了如本文所述的示例性结构流程图，其图示了用于实施文件增强器的各种实施例的程序模型。

图4提供了如本文所述的一般的系统流程图，其图示了用于实施文件增强器的各种实施例的示例性方法。

图5是如本文所述的一般的系统框图，其描述了具有简化的计算和I/O能力以用于实施文件增强器的各种实施例的简化的通用计算装置。

具体实施方式

在所要求保护的主题的实施例的以下描述中，参考形成本发明的一部分的附图，其中，附图通过图示其中可以实践要求保护的主题的具体实施例的方式被示出。应当理解，可以使用其他的实施例，并且在不脱离的本发明要求保护的主题的范围的情况下可以进行结构改变。

1.0介绍

在一般情况下，本文所述的“文件增强器”提供了各种技术，用于对任意用户内容进行语义评估以选择或推荐一个或多个相关的专业知识库(KB)。然后，文件增强器提供各种机制，其允许用户获得对所选择或推荐的专家KB中的一个或多个的访问。最后，文件增强器使用一个或多个专家KB(用户已获得对那些专家KB的访问)以评估并加强任意用户内容。

注意，本文中所述的“内容”一词包括但不限于识别的语音，如文本之类的文件，传入或传出的电子邮件，图像等。换句话说，用户正在消费的内容包括，在用户正在观看或消费的任何文件中的任何文本、任何语音、图像、或任何其他内容、控制、按钮、链接等。

除了(诸如从“维基百科”或类似集合中导出的)各种大型通用知识库，文件增强器还采用从来自各种数据提供商的依赖于域的实体集合中导出的知识库。然后，文件增强器向客户端应用提供基于专家KB的特定域文本/语音分析服务，以用于那些客户端应用处理或查看任意用户内容。在各种实施例中，这些服务以及对应的专家KB通过实体商店(例如，应用商店等)进行发布，用户从那儿可以获取许可或权限，其允许客户端应用使用专家KB中的一个或多个。专家KB也可以在分析用户所访问的文件时被发布/建议。

第三方内容提供商，例如或具有专业或专家信息集合的任何其他网站，可以以适用于文件增强器的专家KB格式提供他们的内容的一部分或全部。可替换地，任意第三方提供商的一部分或全部内容可以由文件增强器的实体摄取接口组件来处理，该组件摄取并处理各种专题数据库或信息集合以构建对应的专家KB或实体集合。

例如，在与医学领域有关的数据内容集合或信息实体的情况下，比如这类集合由文件增强器转化或格式化成一个医学知识库，以被文件增强器的医学域实体服务采用。然后，这类服务和对应的专家KB通过实体商店被许可或授权。例如，获得针对对应服务或专家KB的许可的用户可以在浏览，阅读或创建医学域中的文件(如文章、电子邮件、消息等)时在文件阅读器中采用它，以从用于那些文章中的任意实体的服务或专家KB得到相关内容的自动化指针。

例如，当医生编写消息(在这种情况下，医生可能想要使用该患者可以访问的医疗KB之一)时或当用户打开该电子邮件阅读时，医生发送给用户的关于该用户的医疗状况的电子邮件消息可由文件增强器自动地用针对该用户的额外相关信息来加强。换句话说，文件增强器评估该用户正在浏览，阅读，或创建的内容，并自动加强该内容，如文本中所述。还要注意的是，文件增强器可以使用多个已被许可或授权的服务和专家KB来增强用户正在消费或创建的内容。

图1如下所述提供了上文概述的技术的示例性高级概览。注意，图1并不旨在提供如贯穿本文件中所描述的文件增强器的每个可能的实施方式的穷尽或完全的图示，而是仅作为下面的文件增强器的详细描述的介绍。

如图1所述，文件增强器经由实体摄取接口模块120从一个或多个数据提供商110构建或接收一个或多个专家KB(也被称为“实体集合”100)。更具体地，实体摄取接口模块120以多种格式的任意格式摄取多个专题数据库或信息集合，并且处理所述数据库和信息以构建对应的专家KB或实体集合110。

然后，实体系统模块125聚集这些实体集合100并生成针对每个实体集合或专家KB的对应实体提取服务。注意，这些实体提取服务被文件增强器的各种实施例用来分析用户正在消费或创建的内容，以使得这类内容可以相对于对应的相关专家KB被加强，如本文中所讨论的那样。然后，实体系统接口模块130充当接口，其使得实体系统模块125能够将实体集合100和对应的实体提取服务应用到一个或多个用户的任意内容135。通常，实体系统模块125确定哪些实体集合100或专家KB与该任意内容相关。然后，如果用户被授权(经由实体商店模块140)访问那些实体集合100或专家KB，则实体系统模块125采用那些实体集合中的一个或多个或专家KB来分析并加强该任意内容。

在此进一步详细地论述，实体商店模块140使得用户能够获取用于实体集合100中的一个或多个或专家KB的许可或允许。在不同实施例中，这些许可或允许经由人工用户选择或是响应于由实体系统接口模块130提供的相关实体集合100或专家KB的推荐而被获得。注意，这类推荐是基于从任意内容135提取的实体或信息与一个或多个实体集合100或专家KB之间的关联。可替换地，这些许可或允许可以由用户在任何时候经由实体商店模块140被获取以用于实体集合100或专家KB中的任意一个。

图2示出了各种接口的图示，该接口用于由前述的实体系统接口模块130提供的对应的实体提取与加强服务和不同类型或类别的专家KB。通常，经由与用户正在消费或创建的任意内容135相关的前述实体系统接口模块130，文件增强器考虑用于实体提取与加强服务的三个基础类别。这些实体提取与加强服务包括但不限于通用实体服务200、专家或专业实体服务210和个性化实体服务220。

如上提及，当客户端应用(例如，文本编辑器、浏览器等)发出请求时，文件增强器使用通用实体服务200、专家或专用实体服务210和个性化实体服务220，以及用户已获得对其授权访问的对应的相关KB中的一个或多个来分析任意内容135，以识别与用户的该任意内容相关的一个或多个KB。

每个实体服务访问一个或多个KB并且包括实体提取服务，所述实体提取服务在它们访问的每个KB上被训练以提供KB特定的提取服务。例如，通用实体服务200使用各种公共或现有的KB 230(例如，维基百科)进行操作。专家或专用实体服务210使用与各种主题(例如，“主题1”240、“主题2”250、“主题3”260、“主题n”270等)相关的各种的专家KB进行操作。个性化实体服务220使用一个或多个定制KB 280以及用户之前已经获得对其的访问的专家KB来进行操作，定制KB 280包括基于每个用户创建、定制和/或维持的定制主题、语境和实体。除了分析用户的任意内容之外，这些实体服务还使用用户能够访问的一个或多个KB以加强该内容。

还要注意，用户可以明确地通知与文件增强器的实体系统接口模块130交互的任何客户端应用：应当将什么域、实体集合或专家KB被使用或被定为目标以用于内容分析与加强。例如，如果用户阅读哈利波特的书，那么用户可以引导文件增强器使用特定的实体集合来执行对该书中任意一段文本的分析，该实体集合例如是从如在http://harrypotter.wikia.com可用的现有维基集合的来源中导出的哈利波特知识库。

关于由使用一个或多个定制KB 280进行操作的个性化实体服务220所提供的前述的每用户定制主题、环境和实体，文件增强器通过存储并使用关于由用户访问的文件或其他内容之前命中的一个或多个实体集合或专家KB的历史信息，来向用户提供对前述的内容分析处理进行个性化的能力。

1.1系统概述：

如上提及，文件增强器提供用于对任意用户内容进行语义评估以选择或推荐一个或多个相关的专家知识库(KB)的各种技术。然后，文件增强器提供各种机制，其允许用户获得对一个或多个已选择或推荐的专家KB的访问。最后，文件增强器使用用户已获得访问的一个或多个专家KB来评估并加强该任意用户内容。上面概述的过程由图3的一般系统框图来说明。特别地，如本文所述，图3的系统框图图示了用于实施文件增强器的各种实施例的程序模块之间的相互关系。此外，如贯穿本文中所述，虽然图3的系统框图说明了文件增强器的各种实施例的高级概述，但是图3并不旨在提供文件增强器的每个可能的实施例的穷尽或完全的图示。

另外，应当指出，在图3中可以由点划线或虚线表示的任意框及其之间的相互关系表示在本文中所述的文件增强器的各种替换实施例，而且下述的任何或全部这些替换实施例可以与遍及本文件描述的其他替换实施例结合使用。

通常，如图3所示，由文件增强器所启用的过程通过使用内容评估模块300开始运行来接收并评估任意用户内容(例如，文件305、键入的文本310、语音315、图像320等)，以从该内容中提取如实体、主题等之类的信息并消除其歧义。注意，在用户已经获得对一个或多个推荐的专家KB的访问之后，可由文件增强器在用户内容上执行二次的实体提取与歧义消除过程。

知识库选择模块325从专家知识库图书馆330识别并推荐与从任意用户内容提取的信息有关的一个或多个专家KB。注意，如本文2.3节进一步详细描述的，知识库选择模块325将从用户正在消费或创建的内容中提取的各种实体和信息的基于图像、词汇、或语义的语境，匹配到一个或多个相关的专家KB。这些匹配的专家KB包含与从用户内容提取的一个或多个实体相关的额外相关信息。注意，相关的专家KB可以是基于与被提取实体相关联的主题，而不是基于个别的实体本身。例如，在各种实施例中，文件增强器基于从用户的内容中所提取的实体来确定KB中的主题，并且提供与该主题而不是与个别实体有关的额外内容。与这类主题相关的内容的加强然后可以被提供：作为被插入该内容中的那些主题的链接集合、作为被添加到内容的信息弹出或覆盖、作为在相邻窗口或标签中被提供的信息或链接。

然后，知识库获取模块335提供各种机制以允许用户获取针对一个或多个被推荐的专家KB的许可或允许，例如基于订阅的访问、广告支持的访问、免费访问等，并且然后向那些专家知识库提供本地或远程访问以在本文中所述的实体提取和内容加强服务中使用。

如上所提及，在各种实施例中，文件增强器接收或构建被用来填充专家知识库图书馆330的各种KB。例如，在各种实施例中，知识库构建模块345接收多种格式的一个或多个专题数据库350或信息集合355，并且处理那些数据库和信息以构建对应的专家知识库以在专家知识库图书馆330中使用。另外，如上所讨论的，在各种实施例中，知识库接收与定制模块360被用来从第三方接收一个或多个专家知识库，并且可选地基于每个用户接收和/或定制各种语境。

2.0文件增强器的操作细节

上述程序模块被用于实施文件增强器的各种实施例。如上所概述，文件增强器提供用于评估任意用户内容以选择一个或多个相关的专家KB的各种技术。然后，文件增强器提供允许用户获得对已选择专家KB中的一个或多个的访问的各种机制，其然后被用来评估和加强任意用户内容。相对于图1到图3，以下部分提供了文件增强器的各种实施例的操作、以及在节1中描述的用于实施程序模块的示例性方法的详细论述。特别地，以下提供了文件增强器的各种实施例的示例和操作细节，包括：

·文件增强器的操作概述；

·评估用户内容以执行实体提取与歧义消除；

·将用户内容匹配到一个或多个专家KB；

·对KB的使用的授权；

·用户内容的加强；和

·示例性的系统架构选项

2.1操作概述

如上所述，本文中所述的基于文件增强器的过程提供各种技术用于评估任意用户内容以选择一个或多个相关的专家KB。然后，文件增强器向用户提供对已选择的专家KB中的一个或多个的访问，然后被用来评估并加强该任意用户内容。换言之，在最广义的意义上说，文件增强器执行初步的文本匹配分析、内容分析或语义分析，以识别或提取用户正在消费的内容中的概念、实体或主题。文件增强器然后用初步的语义分析来识别一个或多个专家或专用KB。如在本文中所述，如果用户被授权使用已识别的KB，则那些KB被用来加强该用户内容。在进一步的可选实施例中，如本文中所述，如果用户随后获得使用那些已识别KB中的任意KB的授权，则文件增强器使用那些KB来执行用户内容的可选二次语义分析并且加强该内容。例如，考虑这样一种情况，其中文件增强器分析任意用户内容，并且然后识别一个或多个相关的KB。然后，假设该用户随后获得对被推荐KB的许可或其他访问权，该KB在执行初始分析时尚不可用，则文件增强器可以使用新许可或可访问的KB来执行用户内容的更定向的语义分析。

上面概述的能力提供了许多优点，包括但不限于在下面概述的优点。例如，文件增强器提供了一个平台，其允许用户选择或者以其他方式获得对广范围的基于主题的专家KB的访问，基于主题的专家KB有可能与该用户正在消费或创建的各种内容有关。然后，通过使用那些专家KB来分析该用户内容并且利用与该用户正在消费或创建的特定内容相关的信息、链接、图像或其他数据来加强该用户内容，文件增强器改善了用户体验。

2.2来自用户内容的实体提取以及歧义消除

本领域技术人员熟知，用于处理或评估文件或其他内容以识别或提取命名的实体(例如，名称、位置等)、主题短语或术语、日期等现有实体提取的技术有一个很广的范围。典型地，实体提取系统使用各种各样的计算技术来识别或提取文本或其他内容中的实体、短语、日期等的实例。这样的识别和提取可以包括实体、短语、日期等的所有实例，或者可以将识别或提取限制到该信息的相关实例。这类技术对于本领域技术人员来说是众所周知的，在此不再赘述。

然而，当诸如名称、位置、日期等的实体的简述(mention)是从文件或其他用户内容提取时，什么实体与被提取的简述相对应不是总是清楚的。例如，术语“哥伦比亚”可以在相同或不同文件中被提及，其意指不同的命名实体(例如，航天飞机任务、航天飞机事故、纽约的大学、河流、国家-常见错别字-，运动服装公司等)。幸运地，当单个术语或概念在该术语可能涉及多于一个的主题或题目是有歧义的时候，各种常规的歧义消除技术可用来解决该情况下出现的冲突。歧义消除过程一般评估语境，在该语境中，这类术语被呈现在文件或其他内容中以识别该术语最可能或预期的含义。例如，于2012年2月7日由Cucerzan等人发表的美国专利8,112,402，其标题为“Automatic Disambiguation Based on a ReferenceResource”，描述了可适用于文件增强器的各种歧义消除技术。

通常，通过使用不同的匹配技术，文件增强器从用户正在消费的任意内容中执行初始实体提取，该匹配技术可以利用采用不同歧义消除技术的语境或语义分析来加强。这类实体提取和歧义消除在与用户内容相关的不同级别被执行。例如，实体提取和歧义消除可以跨越整个文件或内容作为一个整体来执行。类似地，实体提取和歧义消除可以贯穿用户内容逐段逐段地执行。另外，通过在同一段落或句子中逐句或甚至逐词执行实体提取和歧义消除(例如，一个段落可能讨论的是单词“Columbia”用作国家(尽管该国名的正确拼写是“Colombia”)，航天飞机的名称、体育服装公司、“哥伦比亚唱片”等等)，可以实现更精细的粒度。

注意，甚至在同一段落或句子内，如“Columbia”之类的特定术语的每个实例可以映射到不同的专家KB。例如，文本段“…该乐队签约了哥伦比亚唱片，而哥伦比亚境内的爬山提升了哥伦比亚运动装”包括对术语“Columbia”的三个有区别且不相关的引用(该示例中国家“Colombia”拼写错误，但是被文件增强器正确地消除了歧义)。一般的想法是用现有的语义分析和歧义消除技术来识别用户内容中正确的实体，以及那些实体的正确语义语境。

注意，在一个或多个匹配或相关的专家KB的识别(在下面的2.3节中论述)之后，一般是结合如从维基百科或其他信息源导出的一个或多个一般知识库，文件增强器采用用户已获得其授权或访问的一个或多个专家KB来评估和加强该用户内容。例如，在用户内容的语义分析的情况下，该语义分析可以采用如下中的任意组合：一个或多个专家KB自身、除了如从维基百科或其他信息源导出的一般KB之外的一个或多个专家KB、或者仅在没有专家KB被识别为充分匹配任意内容的情况下采用一般KB。其中没有专家KB可以充分匹配任意内容的情况的一个简单示例是本地新闻中的内容，维基百科或其他一般信息源针对该内容有很少相关实体，但是没有匹配与该内容相关的内容或主题的专家KB。在这种情况下，文件增强器倒退到一般KB以用无论什么可用的相关信息去加强该内容。

可选地，如上所述，在直到从用户内容的实体的初始提取后都不会获得授权访问一个或多个专家KB的情况下，文件增强器可在内容加强之前执行可选的任意内容的二次分析以用于提取和识别该内容中的实体。换言之，在各种实施例中，文件增强器执行二次实体提取服务，该服务被自动定做或定制到特定的专家KB。这样，从该二次提取和识别过程得到的实体可能至少部分地不同于初始识别的实体。注意，该二次实体提取还可以被用作执行对一个或多个额外专家KB的匹配的额外若干轮的基础。在任何情况下，从该二次提取和识别过程得到的实体还可以被用作加强对应的用户内容的基础。

2.3将用户内容匹配到知识库

通常，一旦从用户正在消费的内容中提取的各种实体的基于图像、词汇或语义的语境已经被确定，文件增强器就能够将该语境匹配到一个或多个相关的专家KB。这些匹配的专家KB包括针对从用户内容中提取的一个或多个实体的额外相关信息。

更具体地，文件增强器执行各种类型的基于图像，语境，语言和语义的模式匹配，以将每个专家KB的实体、主题、语境、对象与从用户正在消费或创建的任意内容提取的信息进行。换句话说，文件增强器使用多种技术来确定每个专家KB和从用户的任意内容中提取的一个或多个实体之间的相似度的各种测量，以确定那些KB中哪些与该用户内容相关。这样的技术是本领域技术人员所熟知的，将不会在此进行详细描述。

可以适于由文件增强器使用来匹配专家KB与用户内容的相似度测量的已知示例包括但不限于下列：

·用户内容与候选的专家KB和KB条目的语境矢量语境相似度；

·用户内容与候选的专家KB和KB条目的主题词汇的词汇相似度；

·针对用户内容的聚合的主题id模型与候选的专家KB的主题id矢量之间的主题标识符相似度；

·主题词汇空间中的用户内容表现与候选专家KB的主题词汇矢量之间的主题词汇相似度；

·在能够被歧义消除成专家KB中的相同候选实体的用户内容中的不同简述的数量；

·确定是否在用户内容中发现特定语境(例如，针对表面形式“教育部”的语境“印度”以及候选的歧义消除“教育部(印度)”)；

·用户内容的表面形式和候选KB条目的权威形式之间的字符串相似度；

·等等

2.4知识库的使用的授权

如上所述，文件增强器评估从用户的任意内容中提取的实体，以识别一个或多个与该内容相关的专家KB。此外，这个相关性的识别可以是基于整个内容、内容的每一段、每一句、内容的短语或单词、基于图像的内容、基于音频的内容、基于现场或录制的语音的内容，等等。

如果确定了一个或多个专家KB与用户内容的相关性，那么文件增强器首先确定用户是否被授权以使用或访问所推荐的专家KB，然后在用户访问当前未被授权的情况下向用户推荐那些相关的专家KB中的一个或多个。然后。文件增强器提供实体商店等，其允许用户选择性地选择、订阅，或以其他方式获取访问或授权以使用一个或多个被建议或推荐的专家KB。

在范围很广的条款和条件中的任意条款和条件下，经由实体商店对任意专家KB的访问可被提供给用户。例如，在最简单的情况下，对特定KB的访问可以被免费提供给用户。可替换地，对特定KB的访问可以基于支持广告而被提供给用户。例如，在用户观看或收听一个或多个商业广告或广告之后，用户将被授权一次(或多次)访问一个或多个推荐KB。其他访问选项包括但不限于按次付费选项、期限使用付费选项、永久使用或许可付费选项、基于广告的选项，比如弹出广告、广告条、基于广告的电子邮件等等。

换言之，如上所述，在文件增强器向用户推荐特定的专家KB之后，文件增强器则提供对实体商店等的访问，其允许用户使用各种各样的访问模型来获得对所推荐的专家KB中的一个或多个的访问。

2.5用户内容的加强

如上所述，文件增强器进行操作以加强用户正在消费、创建或以其他方式访问的任意内容，因此用户能够获得与从该用户内容提取的实体相关的额外信息，进行相关搜索，浏览相关内容，查看相关图像，收听相关音频，等等。基于在用户访问的相关专家KB中可用的数据或信息，加强可以采取多种形式。

特别地，加强是基于所选择的专家KB并且采用了与从该用户内容识别或提取的实体相关的各种形式。这些形式包括但不限于基于图像或信息的弹出、到相关数据的超链接(例如，将文件中的单词或短语变成可点击链接)，作为在用户内容上的覆盖或者在附加窗口或标签中显示的相关数据，等等。此外，文件增强器可以使用不同的专家KB来加强其他内容或文件的不同部分，其中，文件或内容的主题在各部分之间变化(例如，句子、段落、课本章节、一段时间改变主题的博客，等等)

此外，用户内容的加强可以实时执行。例如，假设用户正在wrod处理器或基于文本的应用中键入文件，并且用户键入术语“挑战者灾难”(challenger disaster)。在这个示例中，术语“挑战者灾难”(challenger disaster)将被文件增强器突出显示或者以其他方式被调出，并且与1986年的挑战者航天飞机的爆炸相关的一个或多个链接或其他材料(例如，图像、音频新闻报道等)将被提供。

在另一个示例中，假设家庭医生开始向患者历史文件中键入患者症状，或者口头指出患者症状等等。在这个示例中，文件增强器可以呈现或推荐医生能够订阅或访问的或者免费试用的潜在地与患者症状相关的专家KB的进化列表，并且因此该患者可以在阅读医生消息或电子邮件时访问该专家KB。一旦已经获得对那些推荐的专家KB的访问，文件增强器就可以使用从该已授权专家KB提取的信息来加强患者历史、消息或电子邮件。类似的过程应用到任何专业领域，例如，化学、车辆修理、家电服务、天文学、特定运动、特定爱好等等。

注意，在医生为用户准备消息或电子邮件的示例中，尽管在医生正在准备消息或电子邮件时加强信息是可用的，然而取决于用户(或第三方)是否被授权访问相应的专家KB，与医生正在准备的内容相关的加强却可以明确包含在给用户的消息中或可以不明确包含在给用户的消息中。实际上，运行于用户计算装置上的文件增强器的实例可以重新处理从医生接收的消息或电子邮件，以便使用用户可访问的一个或多个专家KB来增强该消息或电子邮件。因此应当理解，取决于对于正在生成或消费该内容的用户来说什么专家KB可访问，对同一文件的加强可能在用户之间会不同。

另外，实体提取可以通过使用各种语音识别技术、被键入的材料的实时分析等而被实时执行。例如，假设用户正在博客或新闻文章的评论部分写要求或评论。与那些要求或评论(支持该要求或评论，或者驳斥该要求或评论)有关的链接或加强可以由文件增强器实时提供，其中，托管该博客或新闻评论部分的网站获得对相关KB的访问。如上所述，对同一文件(例如，博客，评论或其他内容)的加强取决于什么专家KB对特定用户可访问而在用户与用户之间会有所区别。

关于被键入文本的实时评估的另一个简单的示例可以被这样解释，即一个用户正在键入文本段“...太阳绕地球旋转...”。在这个示例中，文件增强器的初始语义评估和实体歧义消除产生诸如太阳、地球、轨道、太阳系等之类的概念或主题。这些实体继而被文件增强器匹配到一个或多个专家KB，比如基于太阳系轨道结构的KB。然后，文件增强器对文本段“...太阳绕地球旋转”的加强可以链接到显示地球绕太阳旋转的图像或文本，或者链接到针对错误观念“日心说”的支持链接。注意，此处的目的不是纠正错误(例如，太阳显然不会饶地球旋转)，虽然加强信息明显可用于那些目的，但是目的是链接到允许用户进一步探索正在论述的实体、概念或主题相关信息。

在实时加强的又一个示例中，假设几个用户正坐在他们的起居室中的计算机或前，并且正在谈论一个如足球或星际航行之类的特定主题。这类装置上运行的文件增强器的实例就能够识别出用户中一个或多个的语音，提取相应的实体，确定一个或多个相关的专家KB，并且然后在屏幕上填充与会话相关的链接、统计、图像等，而不需要用户执行任何明确的动作，除了在那些专家KB未被授权使用的情况下需要获得一个或多个相关专家KB的授权。

2.6示例性系统架构选项：

鉴于之前的讨论，应当清楚文件增强器可以用各种各样的架构来实施，包括但不限于：组合用户内容的远程或本地处理和加强、用户内容的远程处理和加强、以及用户内容的本地处理和加强。至少部分地使用远程处理架构的一个优点在于，可能存在数以百计或千计的使用拍字节(petabyte)或更大的数据储存器的不同的专家KB。因此，将所有潜在的相关KB下载到用户机器可能是不可行的。然而，在本地装置的本地存储器和存储能力以及模仿本地存储的基于云的储存器的急速增长的情况下，只要一个或多个相关的专家KB已被授权，用户就可以本地运行文件增强器的一部分或全部操作。还注意，专家KB中的一个或多个可以以加密格式提供给用户以用于本地存储。然后，一旦用户获得对那些专家KB的授权或访问时，这些本地存储的加密的专家KB被解锁或解密。

例如，在本地和远程处理相结合的情况下，文件增强器提供本地服务或应用，其在用户的计算装置上运行以接收用户内容并且执行该内容的语义分析来识别或提取实体、名称、概念、主题等。然后，文件增强器向文件增强器的在远程服务器、在基于云的系统等上运行的远程服务组件发送该语义信息。该远程服务组件然后评估接收到的语音信息，将该信息匹配到专家KB中的一个或多个，然后向用户返回可能与在用户内容中识别的语音信息相关的一个或多个专家KB的建议。如果用户还未获得对一个或多个被推荐或建议的专家KB的访问权限，则文件增强器允许用户经由上述的访问模型的一部分或全部(例如，基于订阅的访问、按次付费、广告支持的访问、免费访问等)去获取访问。然后，文件增强器继续基于用户已获得访问的一部分或全部专家KB去加强用户内容。注意，该加强可以本地或远程地被执行，其结果随后以被加强内容的形式呈现给用户。

在远程处理的情况下，文件增强器作为在远程服务器、基于云的系统等上操作的远程服务运行以从接收来自用户的内容。然后，该远程服务执行对接收内容的语义分析以识别或提取实体、名称、概念、主题等。然后，该远程服务评估语义信息、将该信息匹配到专家KB中的一个或多个，然后向用户返回可能与在该用户内容中识别的语音信息相关的一个或多个专家KB的建议。如果用户尚未获得对所推荐或建议的专家KB中的一个或多个的访问权限，则文件增强器允许用户经由上述的访问模型的一部分或全部(例如，基于订阅的访问、按次付费、支持广告的访问，免费访问等)获得访问。然后，文件增强器继续基于用户已获得访问的专家KB中的一部分或全部加强该用户内容。然后，被加强的内容被返回给用户以备本地使用。

注意，“用户”不应总是被视为表示个体。例如，有多名员工或授权用户的公司可以许可一个特定的数据库，或者可以具有一个或多个专属的专家KB，其意在只对那些员工或授权用户可访问。在这种情况下，许可数据库或专属的专家KB可以被本地存储，或者经由文件增强器的远程或基于云的组件被提供，以加强员工或授权用户的内容。例如，在基于云的方案中，一个航天引擎公司可以向文件增强器的专用或安全的基于云的组件提供定制到该公司内部专属引擎设计、财务统计，营销数据或其他信息的一个或多个专家KB。然后，该专属信息被文件增强器用来自动加强一个或多个已被公司授权的员工或用户的群的内容。

在本地处理的情况下，文件增强器运行为一个操作在用户计算装置(可选地使用专有或受保护的基于云的储存器和/或处理)上的本地服务。该本地服务执行对用户内容的语义分析以识别或提取实体、名称、概念、主题等。然后，该本地服务评估该语音信息、将该信息匹配到一个或多个专家KB，并且向用户建议可能与用户内容中识别的语音信息相关的一个或多个专家KB。如果用户尚未获得对所推荐或建议的专家KB中的一个或多个的访问权限，则文件增强器允许用户经由上述的访问模型的一部分或全部(例如，基于订阅的访问、按次付费、广告支持的访问、免费访问等)去获得访问。然后，用户已获得访问的专家KB中的一个或多个可以被提供给用户以用于本地或基于云的存储和使用。然后，文件增强器基于用户已经获得访问的专家KB的一部分或全部来本地加强用户内容。

3.0文件增强器的操作概要

关于图1到图3，并且在第1节和第2节中在上文中提供的详细描述的进一步意见中描述的过程，通过图4的一般操作流程图来图示。特别地，图4提供了一个示例性操作流程图，其概述了上述的文件增强器的各种实施例的一部分的操作。注意，图4不是旨在成为本文所述的文件增强器的所有各种实施例的穷尽性表述，并且图4中示出的实施例只是被提供以用于解释的目的。

还应当指出，在图4中以点划线或虚线示出的任何框及其之间的相互关系表示本文中所述的文件增强器的可选或替换实施例，并且如下所述，任意或全部的这些可选或替换实施例可以结合此文所述的其他替换实施例被使用。

通常，如图4所示，文件增强器通过接收400用户正在消费的任意内容135开始操作。然后，文件增强器分析410该任意内容135，以经由各种通用实体服务、专家或专用实体服务、和/或个性化实体服务去识别、推荐或选择一个或多个相关的知识库。注意，相关知识库的识别和匹配可以作为一个组合的过程而被执行。

如果对已识别、推荐或选择的KB的访问没被授权420，则文件增强器允许用户通过应用商店或是使用诸如基于订阅访问、一次访问、广告支持访问等的各种手段去获得430访问。只要访问获得授权420，文件增强器就使用被授权的KB去加强用户正在消费或创建的任意内容135。如上所述，这类加强包括但不限于向任意内容内的实体添加超链接，突出显示任意内容中的相关实体，将来自专家KB的信息或内容添加至(或邻接到)该任意内容，启动基于所选择的KB的用户搜索，等等。

4.0示例性操作环境

本文描述的文件增强器的实施例可在多种类型的通用或专用计算系统环境或配置中操作。图5示出了在其上可以实现如本文描述的文件增强器的各种实施例和元件的通用计算机系统的简化示例。值得注意的是，在图5所示的由虚线或点划线代表的任何框代表简化的计算装置的替代实施例。如下面所述，任何或所有这些替代实施例可以与在整个本文件中所描述的其他替代实施例结合使用。

例如，图5示出了一个示出简化计算装置500的一般系统框图。可用文件增强器操作的这类装置的示例包括但不限于便携式电子装置、可穿戴计算装置、手持计算装置、膝上型或移动计算机、如蜂窝电话、智能电话和PDA之类的通信装置，多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、微型计算机、音频或视频媒体播放器、手持遥控装置等等。还注意，文件增强器可以用与范围宽广的电子装置或物体通信或与其耦合的触屏或触敏表面来实施。

为允许装置实施文件增强器，计算装置500应当具有足够的计算能力和系统存储器以启用基本计算操作。另外，计算装置500可以包括一个或多个传感器505，包括但不限于加速计、摄像头、电容传感器、近距离传感器、麦克风、多光谱传感器等等。此外，计算装置500还可以包括可选的系统固件525(或其他固件或处理器可访问的存储器或储存装置)，以用于实施文件增强器的各种实施例。

如图5所示，计算装置500的计算能力一般由一个或多个处理单元510示出，并且还可以包括一个或多个图形处理单元(GPU)515，这两者中的任一个或二者与系统存储器520通信。注意，计算装置500的处理单元510可以是专用微处理器(诸如数字信号处理器(DSP)、VLIW、或其他微控制器，或者可以是具有一个或多个处理核的常规CPU，包括多核CPU中专用基于GPU的核心。

另外，简化的计算装置500还可以包括其他组件，诸如例如通信接口530。简化的计算装置500还可以包括一个或多个常规计算机输入装置540或这类装置的组合(例如触摸屏、触敏表面、定点装置、键盘、音频输入装置、基于声音或语音输入和控制的装置、视频输入装置、触觉输入装置、用于接收有线或无线数据传输的装置等)。简化的计算装置500还可以包括其他光学组件，诸如例如一个或多个常规计算机输出装置550(例如一个或多个显示装置555、音频输出装置、视频输出装置、用于传输有线或无线数据传输的装置等)。注意，用于通用计算机的典型通信接口530、输入装置540、输出装置550和存储装置560是本领域技术人员所公知的，且将不在此详细描述。

简化的计算装置500还可以包括各种计算机可读介质。计算机可读介质可以是可经由存储装置560访问的任何可用介质，并且可以包括是可移动570和/或不可移动580的易失性和非易失性介质，该介质用于存储诸如计算机可读或计算机可执行指令、数据结构、程序模块或其他数据的信息。通过举例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机存储介质指的是紧致的计算机或机器可读介质或存储装置，诸如数字多功能盘(DVD)、紧致盘(CD)、软盘、磁带驱动器、硬盘驱动器、光盘驱动器、固态存储器装置、随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其他存储器技术、磁带盒、磁带、磁盘存储或其他磁存储装置，或可用来存储所希望的信息并且可由一个或多个计算装置访问的任何其他装置。

诸如计算机可读或计算机可执行指令、数据结构、程序模块等信息的存储还可通过使用各种上述通信介质中的任一种以编码一个或多个已调制的数据信号或载波或其他传输机制或通信协议来实现，并且可以包括任何有线或无线信息传递机制。注意，术语“已调制的数据信号”或“载波”一般是指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。例如，通信介质可以包括诸如有线网络或直接线连接等携带一个或多个已调制的数据信号的有线介质，以及诸如声学、射频(RF)、红外线、激光和其他无线介质等用于传送和/或接收一个或多个已调制的数据信号或载波之类的无线介质。以上中的任意的组合应当被包括在通信介质的范围内。

诸如计算机可读或计算机可执行指令，数据结构，程序模块等的信息的保留也可通过使用各种上述通信介质中的任一种以对一个或多个调制的数据信号或载波进行编码或使用其他传输机制或通信协议来完成，并包括任何有线或无线信息传递机制。注意，术语“已调制的数据信号”或“载波”一般是指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。例如，通信介质可以包括诸如有线网络或携带一个或多个已调制的数据信号的直接线连接的有线介质，以及诸如声学、射频(RF)、红外线、激光和用于传送和/或接收一个或多个已调制的数据信号或载波之类的其他无线介质等的无线介质。以上中的任意的组合应当被包括在通信介质的范围内。

此外，实施本文描述的文件增强器的各种实施例的部分或全部的软件、程序和/或计算机程序产品可以按计算机可执行指令或其他数据结构的形式存储、接收、传送或者从计算机可读或机器可读介质或存储装置和通信介质的任何期望的组合中存储、接收、发射或读取。

最终，本文描述的文件增强器实施例还可以在由计算装置执行的诸如程序模块等计算机可执行指令的一般上下文中进行描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。还可以在分布式计算环境中实施文件增强器的实施例，在所述分布式计算环境中由通过一个或多个通信网络所链接的一个或多个远程处理装置执行任务或者在该一个或多个装置的云中执行任务。在分布式计算环境中，程序模块可以位于包括媒体存储装置的本地和远程计算机存储介质两者中。附加地，上述指令可以部分地或整体地作为可以包括或不包括处理器的硬件逻辑电路来实现。

文件增强器的前述详细描述是出于说明和描述的目的而呈现的。这并不旨在穷举要求保护的主题或将要求保护的主题限于所公开的精确形式。鉴于上述教导，许多修改和变型都是可能的。应当注意的是，前述替换实施例的任何或所有实施例可以被使用在所期望的任何组合中以形成文件增强器的附加混合实施例。本发明的范围不旨在由此详细说明来限定，而是由所附至此的权利要求书来限定。尽管用对结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。而是上述具体特征和动作是作为实现权利要求的示例形式而被公开。

Claims

1.一种用于加强任意用户内容的计算机实施的方法，包括：

使用计算机来执行过程动作以用于：

在内容由用户生成的同时，实时地接收任意用户内容；

执行对所述任意内容的第一实时分析以识别所述任意内容中的第一组一个或多个实体；

将所识别的第一组实体中的每一个实体匹配到一个或多个相关的专家知识库；

向所述用户提供多个访问方法以授权对一个或多个所述相关的专家知识库的使用；

选择所述访问方法中的一种或多种访问方法以授权一个或多个所述相关的专家知识库；

应用一个或多个经授权的所述相关的专家知识库来执行对所述任意内容的第二实时分析，以识别所述任意内容中的第二组一个或多个实体；

应用一个或多个经授权的所述相关的专家知识库，以在内容由所述用户生成的同时实时地加强所述任意内容，并且

其中所述加强还包括修改所述任意用户内容以产生所述任意用户内容的版本，所述任意用户内容的版本提供从所述任意用户内容的显示内到信息的访问，所述信息与第二组实体中的一个或多个相关。

2.根据权利要求1所述的计算机实施的方法，还包括：用于将由所述第二实时分析识别的所述实体与一个或多个附加的专家知识库匹配，并应用所述附加的专家知识库中的一个或多个专家知识库来执行对所述任意内容的第三实时分析，以在加强所述任意内容之前识别所述任意内容中的一个或多个实体的过程动作。

3.根据权利要求1所述的计算机实施的方法，其中对所述任意内容的所述第二分析还包括使用所述所授权的相关的专家知识库和相关的通用知识库的任意组合来识别所述任意内容中的一个或多个实体。

4.根据权利要求1所述的计算机实施的方法，其中至少一个访问方法是基于订阅的方法，其中所述用户被授予权限以在获得对那些专家知识库的订阅之后使用一个或多个所述专家知识库。

5.根据权利要求1所述的计算机实施的方法，其中所述任意内容包括用户语音，并且还包括：用于识别所述用户语音并且将与所述用户语音相关的已加强内容呈现在所述用户可访问的显示装置上的过程动作。

6.根据权利要求1所述的计算机实施的方法，还包括用于自动摄取一个或多个主题信息源并且从所摄取的所述主题信息源构建一个或多个所述专家知识库的过程动作。

7.根据权利要求1所述的计算机实施的方法，其中加强所述任意内容还包括用于将一个或多个相关的超链接添加到所识别的所述实体中的一个或多个实体的过程动作。

8.根据权利要求1所述的计算机实施的方法，其中加强所述任意内容还包括：用于利用与所识别的实体中的一个或多个相关的信息填充用户界面窗口的过程动作。

9.根据权利要求1所述的计算机实施的方法，其中加强所述任意内容还包括：用于使用与所识别的实体中的一个或多个相关的信息在所述任意内容上创建一个或多个信息覆盖的过程动作。

10.一种用于加强用户内容的系统，包括：

通用计算装置；以及

计算机程序，包括可由所述计算装置执行的程序模块，其中所述计算装置由所述计算机程序的所述程序模块引导以：

在内容由用户生成的同时，实时地接收任意用户内容；

对来自所述任意内容的第一组实体执行第一实时提取；

将所提取的所述第一组实体匹配到一个或多个相关的专家知识库；

向用户推荐一个或多个所述相关的专家知识库；

授权所述用户访问一个或多个所述相关的专家知识库；

应用一个或多个经授权的所述相关专家知识库，以执行对来自所述任意内容的第二组实体的第二实时提取；

其中所述加强还包括修改所述任意用户内容以产生所述任意用户内容的版本，所述任意用户内容的版本提供从所述任意用户内容的显示内到信息的访问，所述信息与所述第二组实体中的一个或多个相关。

11.根据权利要求10所述的系统，其中授权所述用户访问一个或多个所述相关的专家知识库还包括程序模块，所述程序模块使得所述用户能够接收对一个或多个所述相关的专家知识库的付费订阅。

12.根据权利要求10所述的系统，其中所述任意内容包括用户语音，并且还包括识别所述用户语音并向所述用户呈现与所识别的所述用户语音有关的加强内容的程序模块。

13.根据权利要求11所述的系统，其中加强所述任意内容还包括将一个或多个相关超链接添加到所提取的所述实体中的一个或多个实体。

14.根据权利要求11所述的系统，其中加强所述任意内容还包括使用与所提取的所述实体中的一个或多个实体相关的信息填充用户界面窗口。

15.一种具有其中存储用于加强用户内容的计算机可执行指令的计算机可读存储设备，所述指令使计算装置执行一种方法，所述方法包括：

在内容由用户生成的同时实时地接收任意用户内容；

对来自所述任意内容的第一组实体执行第一实时提取；

向用户推荐一个或多个所述相关的专家知识库；

授权所述用户访问一个或多个所述相关的专家知识库；

16.根据权利要求15所述的计算机可读存储设备，还包括指令，所述指令用于使得所述用户能够获得对一个或多个所述相关的专家知识库的付费订阅。

17.根据权利要求15所述的计算机可读存储设备，其中加强所述任意内容还包括：用于使用与所提取的所述实体中的一个或多个实体相关的信息在所述任意内容上创建一个或多个信息覆盖的过程动作。