CN117280335A

CN117280335A - 跨提供者主题合并

Info

Publication number: CN117280335A
Application number: CN202280031455.2A
Authority: CN
Inventors: M·韦南齐; J·M·温; I·科罗斯捷列夫; E·波舍尼纳; S·韦伯斯特; P·梅什科夫; Y·扎科夫; D·梅耶泽; V·V·格沃兹杰夫; N·沃伦可夫; A·A·施彭格勒
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2021-04-27
Filing date: 2022-04-03
Publication date: 2023-12-22
Also published as: US20220342871A1; EP4330832A1; WO2022231772A1

Abstract

本公开的示例描述了用于跨提供者主题合并的系统和方法。在各方面中，涉及一个或多个主题的请求可以由内容显现平台接收。可以针对涉及(一个或多个)主题的文档来搜索多个内容提供者的一个或多个数据源。可以从各种内容提供者的文档中提取涉及所述(一个或多个)主题的文档内容(例如，文档元数据和文档内的句子、短语和其他词语内容)。所述文档内容可以被分类和/或分离成子部分。所述子部分可以按主题进行聚类和/或合并，由此在保留每个子部分中的独有信息的同时移除重复数据。合并的主题可以被存储在单个知识库中，诸如企业知识图，和/或响应于所述请求而被呈现。

Description

跨提供者主题合并

背景技术

知识图是一种知识库，其实现了图结构化的数据模型，以存储互连的实体或主题以及在那些实体/主题之间的关系。对知识图的构建涉及从各种数据源和/或内容提供者中挖掘实体/主题。在许多情况下，各种数据源和/或内容提供者可以为特定实体/主题提供重复和/或冲突的数据(例如，描述、定义、属性)。结果，所得到的知识图可以包括针对特定实体/主题的重复、冲突或错误的数据。当这样的数据被显现给用户时，用户可能对特定的实体/主题感到困惑或误导。

关于这些和其他一般考虑，已经做出了在本文中所公开的各方面。同样地，尽管可以讨论相对特定的问题，但是应当理解，这些示例不应当限于解决在本发明的背景中或者别处标识出的特定问题。

发明内容

本公开的示例描述了用于跨提供者主题合并的系统和方法。在各方面中，涉及一个或多个主题的请求可以由内容显现平台接收。可以针对涉及(一个或多个)主题的文档来搜索多个内容提供者的一个或多个数据源。可以从各种内容提供者的文档中提取涉及(一个或多个)主题的文档内容(例如，文档元数据和文档中的句子、短语和其他词语内容)。文档内容可以被分类和/或分离成子部分。所述子部分可以按主题来聚类和/或合并(conflated)，由此在保留每个子部分中的独有信息的同时移除重复的数据。合并的主题可以被存储在单个知识库中，诸如企业知识图，和/或响应于所述请求而被呈现。

提供本概要是为了以简化的形式引入概念的选择，这些概念在下文的详细描述中进一步描述。本概要不是为了标识所要求保护的主题的关键特征或基本特征，也不是为了用于限制所要求保护的主题的范围。示例的额外方面、特征和/或优点将部分地在下文的描述中阐述，并且部分地从描述中将是显而易见的，或者可以通过实践本公开来了解。

附图说明

参考以下图描述非限制性和非穷尽性示例。

图1图示了用于跨提供者主题合并的示例性系统的概述。

图2图示了用于跨提供者主题合并的示例性输入处理系统。

图3图示了用于将构造管线安全级联到各种平台和/或设备的方法的示例性方法。

图4是图示了可以实践本公开的各方面的计算设备的示例性物理组件的框图。

图5A和图5B是可以利用其实践本公开的各方面的移动计算设备的简化框图。

图6是可以在其中实践本公开的各方面的分布式计算系统的简化框图。

图7图示了用于执行本公开的一个或多个方面的平板计算设备。

具体实施方式

知识图是一种强大的工具，其通过描述域(诸如组织、软件工程领域、项目或主题领域)的关系来互连实体或主题。知识图常常由组织(以及其他群组和/或个人)来实现，以提供组织的数据、内容和其他知识资产的统一视图。例如，组织可以实现企业知识图，其支持对所述组织的文档的语义搜索。企业知识图可以支持用于取回涉及文档以及与文档相关联的实体或主题的显式和隐式知识的逻辑推理。

为了构造知识图，内容提供者从各种数据源中挖掘文档和信息内容的主题。在许多情况下，多个内容提供者可以从一个或多个相同数据源中挖掘主题，或者从包括关于相同(或者基本相似)主题的文档和信息内容的不同数据源中挖掘主题。在这样的情况下，由于内容提供者所使用的挖掘过程不同，针对主题而挖掘的数据可能因每个内容提供者而不同。例如，内容提供者可以使用不同的机器学习技术(例如，深度学习、图形模型、决策树)来执行挖掘。由于在内容提供者的数据集之间的差异，一个或多个内容提供者可能提供错误、误导或者与其他内容提供者的数据冲突的数据。对于从多个内容提供者请求数据的组织而言，这种情况特别麻烦。例如，响应于针对特定主题的用户搜索查询，诸如“VSM”，组织的搜索服务可以从两个单独的内容提供者收集和呈现数据。第一内容提供者可以提供针对“虚拟安全模式”的结果数据，而第二内容提供者可以提供针对“价值流图”的结果数据。针对“VSM”的结果集可以将针对“虚拟安全模式”的结果数据与针对“价值流图”的结果数据合并。所合并的结果数据可以用于为组织生成或更新知识图。因此，用户可能被知识图中的过度合并结果数据误导和/或混淆。

为了解决收集和呈现来自单独内容提供者的数据的这样的挑战，本公开描述了用于跨提供者主题合并的系统和方法。如在此所使用的主题可以指代项目、产品、公司、组织、政策、工具或者任何其他主题。在各方面中，企业(例如，组织、企业、群组、个体)可以实现用于搜索和显现企业的(或者感兴趣的)数据、内容和其他知识资产的内容显现平台。涉及一个或多个主题的数据请求可以由内容显现平台来接收。例如，与企业相关联的用户可以提供针对特定主题的搜索查询。响应于所述数据请求，所述内容显现平台可以针对涉及主题的文档和其他内容来搜索两个或更多个内容提供者。可以从每个内容提供者收集包括或者涉及主题的文档集。所述文档集可以包括在内容显现平台内部的文档(“内部文档”)和在内容显现平台外部的文档(“外部文档”)。可以从文档中提取涉及主题的文档实体(例如，文档元数据和文档内的句子、短语和其他词语内容)。

所提取出的文档实体可以被分离成实体子部分。所述实体子部分可以表示所提取出的文档实体的属性，并且可以在内部文档与外部文档之间变化。例如，用于内部文档的文档实体可以包括由内容显现平台实现或者与其兼容的属性，诸如站点ID、实体ID、作者ID等。相比之下，用于外部文档的文档实体可以包括不由内容显现平台实现或者与其兼容的属性，诸如网页统一资源定位符(URL)、网页链接URL、或者用于内容显现平台外部的系统的文档标识符。出于该原因，针对内部文档的分离过程可能不同于针对外部文档的分离过程。

例如，在将文档实体分离成实体子部分的同时，可以将从中提取对应文档实体的源文档的指示符添加到实体子部分。所述指示符也可以指定收集源文档的内容提供者。对于内部文档，所述指示符可以对应于例如内容显现平台的站点ID。对于外部文档，指示符可以对应于例如网页URL。因此，用于外部文档的文档实体中的内容可以被分配给一般属性或者由系统实现的属性。例如，针对外部文档的URL可以被分配给源ID属性，所述源ID属性可以向内容显现平台指示所述URL是外部文档的源。替代地，针对外部文档的统一资源定位符(URL)可以被分配给内容显现平台的站点ID属性。

所述实体子部分中的每个实体子部分可以基于子部分的内容的内容和/或从中提取对应文档实体的源文档的指示符在相应的主题下被聚类。然后，聚类中的每个独有实体子部分可以被融合到相应的主题；由此在主题下将来自多个内容提供者的实体子部分合并在一起。这样的合并防止错误的或误导性的数据被融合(merged)到主题，防止数据重复，并且在每个子部分中保留独有的信息。由于源文档的指示符，所述合并也使得内容提供者的内容贡献能够被选择性地和动态地启用或禁用。在各方面中，合并的主题可以被存储在用于企业的单个企业知识库中和/或响应于数据请求而被呈现。

因此，本公开提供了多个技术益处，包括但不限于：改善被提供给企业的数据的准确性和相关性；分离内容提供者数据中的不正确合并的实体；防止相同和相似数据实体的数据重复，提供包括从多个内容提供者合并的数据的单个知识图；能够选择性地从文档、网站和/或特定内容提供者添加或删除内容；为内部企业文档和外部文档(例如，非特定企业拥有或者仅限于特定企业使用的文档)提供一致的主题合并过程；降低与多内容提供者数据取回相关联的处理速度和计算要求(例如，可以使用单个内部数据源而不是多个内部和/或外部数据源)；减少针对知识图的数据存储要求(例如，主题合并可以减少与主题相关联并且为主题存储的实体的数量)；以及在合并过程期间保留每个内容提供者的内容和源标识，以及其他示例。

图1图示了用于跨提供者主题合并的示例性系统的概述。如所呈现的示例性系统100是相互作用以形成集成整体的相互依赖的组件的组合。系统100的组件可以是在系统100的硬件组件上实现和/或由其执行的硬件组件或软件组件(例如，应用、应用编程接口(API)、模块、虚拟机或者运行时库)。在一个示例中，系统100可以为软件组件提供操作环境，以执行和利用系统100的资源或设施。在图4-7中描绘了包括这样的操作环境的一个或多个处理设备的示例。在另一示例中，在本文中所公开的系统的组件可以跨多个设备分布。例如，输入可以在用户设备或客户端设备上输入，并且可以在网络中的其他设备上处理信息或者从其他设备访问信息，诸如一个或多个远程云设备或web服务器设备。

在图1中，系统100包括(一个或多个)数据存储部102、内容提供者104A和104B(被统称为“(一个或多个)内容提供者104”)、实体存储106、计算设备108和知识库110。本领域技术人员将意识到，诸如系统100的系统的规模可以变化，并且可以包括比在图1中所描述的那些组件更多或更少的组件。作为一个示例，系统100可以包括(一个或多个)额外内容提供者104和/或实体存储106。作为另一示例，(一个或多个)数据存储部102、实体存储106和/或知识库110的内容可以被集成到计算设备108中。

(一个或多个)数据存储部102可以被配置为存储与企业(或者多个企业)相关的文档、文件和其他类型的内容(被统称为“文档”)等。所述文档可能涉及与(一个或多个)企业相关联的知识资产。如在本文中所使用的，知识资产可以指代累积的智力资源，诸如信息、洞察力、认知和技术技能、能力等。由(一个或多个)数据存储部102存储的文档中的一些文档可以由(一个或多个)企业创建和/或拥有(“内部文档”)。对内部文档的访问可能仅限于授权成员集或者与企业相关联的成员。由(一个或多个)数据存储部102存储的其他文档可能不由(一个或多个)企业创建和/或拥有(“外部文档”)。对外部文档的访问可能不受限制。例如，外部文档可以在互联网上公开获得。

在各方面中，(一个或多个)数据存储部102可以位于云环境、web环境、客户端环境或者其组合中。例如，(一个或多个)第一数据存储部102可以是基于web的协作平台中的图形数据库，(一个或多个)第二数据存储部102可以是搜索引擎数据库聚类，并且(一个或多个)第三数据存储部102可以是用户设备上的文件目录。(一个或多个)数据存储部102的示例包括但不限于：数据库、文件系统、文件目录、平面文件和虚拟化存储系统。

(一个或多个)内容提供者104可以被配置为响应于接收到数据请求而向一个或多个源提供内容。在一些示例中，可以经由由(一个或多个)内容提供者104提供(或者与其相关联的)接口(诸如图形用户界面(GUI))接收数据请求。这样的数据请求可以由用户实时地提供。在其他示例中，数据请求可以作为自动数据取回过程的一部分被接收。例如，所述数据请求可以在预先定义的时间间隔(例如，每小时、每天、每周)执行。所述数据请求可以包括用户意图的一个或多个术语或指示。基于用户意图的术语或指示，(一个或多个)内容提供者104可以针对相关文档(例如，包括用户意图的术语或指示或与之相关的文档)来查询一个或多个数据存储部，诸如(一个或多个)数据存储部102。

在标识一个或多个文档时，(一个或多个)内容提供者104可以使用一种或多种机器学习技术(例如，深度学习、图形模型、决策树)来处理文档。所述处理可以包括针对文档实体来挖掘文档，诸如文档元数据、主题、策划的主题页面、首字母缩写词、定义、专家、作者/贡献者和其他类型的文档信息。(一个或多个)内容提供者104可以将文档实体存储在一个或多个位置中。(一个或多个)内容提供者104的示例包括但不限于：执行机器学习、信息取回、数据挖掘、自然语言处理和其他类型的基于人工智能(AI)的学习的系统和设备。这样的设备的示例包括服务器设备、云计算设备和类似设备。

实体存储106可以被配置为存储一个或多个文档的文档实体。在示例中，文档实体可以从一个或多个数据存储位置接收，诸如(一个或多个)数据存储部102和/或(一个或多个)内容提供者104。实体存储106可以向一个或多个设备提供对文档实体的访问。例如，响应于数据请求，实体存储106可以向计算设备108提供与数据请求相关联的文档实体。实体存储106的示例包括但不限于关于(一个或多个)数据存储部102所讨论的示例。

计算设备108可以被配置为将文档实体合并在一个或多个主题下。例如，计算设备108可以使得用户能够针对涉及与用户相关联的企业的一个或多个主题执行基于文本的数据请求。响应于所述请求，实体存储106可以将来自多个内容提供者的文档实体提供给计算设备108。计算设备108可以使用一个或多个数据分离机制将文档实体分离成子部分。可以将从其中收集文档实体的源文档的指示添加到每个子部分。所使用的(一个或多个)数据分离机制可以例如基于是从内部文档还是从外部文档提取文档实体而变化。(一个或多个)数据分离机制可以被本地存储在计算设备108上或者从计算设备108远程地访问。

计算设备108可以使用一个或多个数据聚类机制来聚类在一个或多个主题下的文档实体的子部分。计算设备108可以使用链接算法将聚类的文档实体融合到其各自的主题。合并的主题可以被存储在一个或多个位置中和/或响应于数据请求而被提供。(一个或多个)数据聚类机制和/或链接算法可以被本地存储在计算设备108上或者从计算设备108远程地访问。在至少一个示例中，(一个或多个)数据分离机制、(一个或多个)数据聚类机制和/或链接算法中的两个或更多个可以被集成到单个算法或模型中。

在各方面中，计算设备108可以包括用于接收或收集输入的传感器、应用和/或服务。示例性传感器包括麦克风、基于触摸的传感器、键盘、指向/选择工具、光学/磁性扫描仪、加速度计、磁强计、陀螺仪等。输入可以包括例如语音输入、触摸输入、基于文本的输入、手势输入、视频输入和/或图像输入。计算设备108的示例包括但不限于：个人计算机(PC)、服务器设备、移动设备(例如，智能电话、平板计算机、膝上型计算机、个人数字助理(PDA))、可穿戴设备(例如，智能手表、智能眼镜、健身跟踪器、智能服装、机载设备、头戴显示器)以及游戏控制台或设备。

知识库110可以被配置为提供对数据语料库的访问。在示例中，计算设备108可以将来自多个内容提供者的合并的主题存储在知识库110中。知识库110可以响应于针对主题的查询或者与主题相关的查询来提供合并的主题。知识库110的示例包括但不限于：知识图、图数据库、关系数据库、语义网络和属性图。例如，知识库110可以表示针对企业的知识图，并且合并的主题可以表示涉及企业或者与企业相关联的主题。

图2图示了用于跨提供者主题合并的示例性输入处理系统。在各方面中，输入处理系统200可以表示具有对内容显现平台的访问的一个或多个计算设备。内容显现平台可以包括或者提供对企业拥有的文档和内容(“内部文档”)的访问。对内部文档的访问可以被限制到授权用户集，诸如企业的成员，或者被企业授权访问内部文档的用户。所述内容显现平台也可以包括或者提供对不被企业所拥有(或者不属于企业)的文档和内容的访问(“外部文档”)。对外部文档的访问可以不受限制，使得外部文档通常对所有用户都可访问。输入处理系统200可以访问提供对内部和/或外部文档的访问的企业知识图。由输入处理系统200实现的技术可以包括在图1的系统100中所描述的技术和数据。尽管图2和随后的图中的示例将在知识图(特别是企业知识图)的上下文中讨论，但是所述示例同样适用于其他技术，诸如图数据库和关系数据库。在一些示例中，在图2中所描述的一个或多个组件(或者其功能)可以跨多个设备分布。在其他示例中，单个设备可以包括在图2中所描述的组件。

在图2中，输入处理单元200包括事件检测组件202、文档实体收集组件204、分解引擎206、合并引擎208和知识库更新组件210。本领域技术人员将意识到，输入处理系统200的规模可以变化，并且可以包括比在图2中所描述的那些组件更多或更少的组件。作为一个示例，分解引擎206和合并引擎208的功能可以被集成到单个组件中。作为另一示例，输入处理单元200可以另外地包括存储文档、文档实体和/或一个或多个知识图的一个或多个数据存储部。

检测组件202可以被配置为检测一个或多个事件。例如，检测组件202可以包括事件监听器或者具有对事件监听器的访问权。事件监听器可以监视事件的发生，诸如针对一个或多个主题的数据请求、对一个或多个文档或数据源的更新、对知识图中的关系信息的更新、对内容提供者的更新等。一旦检测到事件的发生，检测组件202可以捕获事件和/或处理事件。处理所述事件可以包括使用解析技术来标识关键字、时间戳或者与所述事件相关的其他信息。检测组件202可以向输入处理单元200的一个或多个组件提供事件的指示。所述指示可以至少包括在数据请求中指示的(一个或多个)主题。

文档实体收集组件204可以被配置为从一个或多个位置收集文档实体。例如，文档实体收集组件204可以从检测组件202接收检测到的事件的指示。响应于接收到所述指示，文档实体收集组件204可以针对与在所述数据请求中指示的(一个或多个)主题相关的文档实体(例如，文档元数据、主题、策划的主题页面、首字母缩写词、定义、专家、作者/贡献者)来查询一个或多个数据存储部，诸如实体存储106。文档实体与(一个或多个)主题的相关性可以基于例如在文档实体内(一个或多个)主题的出现次数、文档实体的内容与(一个或多个)主题之间的同义性程度、文档实体是从内部文档还是外部文档收集的等等来确定。这样的确定可以包括使用一种或多种模式匹配技术，诸如正则表达式、模糊逻辑、模式识别模型等。

分解引擎206可以被配置为将文档实体分离成实体子部分。所述实体子部分可以表示所提取出的文档实体的属性，诸如实体标识符、名称、描述、日期、职业、位置等。将文档实体分离成实体子部分可以包括使用一个或多个模式匹配技术和/或机器学习技术。这些技术可以基于文档实体是从内部文档还是从外部文档收集的而不同。

作为一个示例，从内部文档收集的文档实体可以包括实体标识符属性、作者属性和群组属性。所述实体标识符属性可以由内容显现平台和/或企业提供或者特定于内容显现平台和/或企业，并且可以标识在内容显现平台内的内部文档的位置。作者属性可以标识由企业或内容显现平台分配给从其收集文档实体的文档作者的用户id。群组属性可以标识文档作者为其成员的企业的一个或多个群组。因此，用于内部文档的文档实体可以包括由内容显现平台实现或者与其兼容的属性。

所述模式识别模型可以对文档实体的组成属性进行分类，并且将组成属性(和值)分离成实体子部分。所述实体子部分中的每个实体子部分可以包括源标识信息。所述源标识信息可以标识从中提取对应文档实体的文档、包括文档的数据存储部和/或提供文档的内容提供者。例如，第一实体子部分可以包括实体标识符属性、作者属性和对应的值。第二实体子部分可以包括实体标识符属性、群组属性和对应值。

作为另一示例，从外部文档收集的文档实体可以包括源标识符属性和链接属性。与内部文档的属性(即，实体标识符属性、作者属性和群组属性)相反，外部文档的属性可能不对应于内容显现平台和/或企业内的文档或存储位置。因此，针对外部文档的文档实体可以包括不由内容显现平台实现或者与内容显现平台兼容的属性。例如，源标识符属性可以标识在内容显现平台外部的网站URL。链接属性可以标识网站上的一个或多个超链接。所述超链接中的每个超链接也可以在内容显现平台的外部。所述模式识别模型可以将文档实体的组成属性分类为未知。

响应于分类，在针对外部文档的文档实体中的内容可以被分配给一般属性或者由系统已知和实现的属性。例如，可以将网站URL分配给源ID属性，所述源ID属性可以向内容显现平台指示所述URL是外部文档的源。替代地，针对外部文档的URL可以被分配给内容显现平台的站点ID属性。然后，所述模式识别模型可以将外部文档的组成属性(和值)分离成实体子部分，所述实体子部分中的每个实体子部分可以包括源标识信息。例如，针对外部文档的实体子部分可以包括源标识符属性、链接属性和对应值。源标识符属性和链接属性两者都可以被分配给内容显现平台的对应属性(或者与其兼容)。

在一些方面中，分解引擎206可以被配置为除了(或者替代)文档实体之外分解其他类型的实体。例如，文档实体收集组件204可以收集网站实体和/或内容提供者实体。所述网站实体可以表示从网站提取的数据。所述网站实体可以涉及在网站上描述的一个或多个主题。分解引擎206可以将网站实体分离成网站实体子部分，并且将网站标识符添加到每个网站实体子部分。所述内容提供者实体可以表示从内容提供者提取的数据。所述内容提供者实体可以涉及内容提供者可以访问的内容中所描述的一个或多个主题。分解引擎206可以将内容提供者实体分离成内容提供者实体子部分，并且将内容提供者标识符添加到每个内容提供者实体子部分。

合并引擎208可以被配置为在一个或多个主题下融合实体子部分。为了执行融合过程，合并引擎208可以访问由分解引擎206生成和/或能访问的实体子部分。合并引擎208可以使用一个或多个人工智能(AI)、机器学习(ML)或其他逻辑机制，诸如决策树、逻辑回归、支持向量机(SVM)、k-最近邻(KNN)算法、神经网络、朴素贝叶斯分类器、线性回归、k-均值聚类等，对相应的主题下的实体子部分进行聚类。例如，可以使用概率模型将每个实体子部分与对应于所述实体子部分的概率分布集进行比较。所述比较可以确定实体子部分和特定主题与相同概率分布相关联的概率。所述确定可以包括将确定出的概率与预先定义的阈值进行比较。阈值可以定义实体子部分应当被融合到主题的值或置信水平。所述值或置信水平可以指示何时实体子部分和主题(或者另一实体子部分)具有共同的特定数量的属性。例如，这样的属性可以包括但不限于：主题名称(包括首字母缩略词、同义词、变音符)、相关人员(例如，文档作者、编辑、贡献者)、内容显现平台标识符(例如，站点ID、文档ID)、分发列表(例如，群组ID、别名ID)。当确定出的概率超过阈值时，合并引擎208可以将实体子部分融合到主题以创建或者更新合并的主题。在一些示例中，合并引擎208可以从实体子部分的总体中移除重复的实体子部分，以防止在融合过程期间的数据复制。

作为特定示例，合并引擎208可以实现在其中使用两个模型的贝叶斯模型比较。第一模型可以用于生成两个实体子部分与相同的底层实体或主题相关联的第一概率。第二模型可以用于生成两个实体子部分是独立的并且不来自相同的底层实体或主题的第二概率。可以计算第一概率与第二概率之间的比率并且将其与阈值进行比较。如果所述比率满足或者超过阈值，则两个实体子部分可以被融合到底层实体或主题中。如果所述比率没有超过阈值，则两个实体子部分可以不被融合到底层实体或主题中。

在各方面中，合并引擎208可以被配置为将实体子部分融合到多个粒度级别的主题。作为一个示例，实体子部分可以被融合到文档级别的主题。在文档级别的融合可以评估在特定文档中使用或描述主题的上下文中的实体子部分。例如，两个文档可以包括主题“Seattle”。第一文档可以指代城市Seattle，而第二文档可以指代名为Seattle的项目。合并引擎208可以在城市Seattle的上下文中评估针对第一文档的实体子部分，并且在项目Seattle的上下文中评估针对第二文档的实体子部分。作为另一示例，实体子部分可以被融合到站点级别的主题。在站点级别的融合可以在特定站点上使用或描述主题的上下文中评估实体子部分。尽管在站点级别融合假定站点上的文档和内容通常指代相同的主题，但是情况不必如此。例如，实体子部分可以被融合到具有相同(或相似)名称的一个或多个主题。作为另一示例，实体子部分可以被融合到内容提供者级别的主题。在内容提供者级别上的融合可以评估由特定内容提供者使用或描述主题的上下文中的实体子部分，或者由特定内容提供者收集的文档的上下文中的实体子部分。

更新组件210可以被配置为以合并的主题更新一个或多个知识库。例如，更新组件210可以访问由合并引擎208生成的合并的主题。更新组件210可以将合并的主题提供给一个或多个数据存储部，诸如知识库110。然后，(一个或多个)数据存储部可以使用合并的主题来更新其相应的数据集。替代地，更新组件210可以使用合并的主题来更新(一个或多个)数据存储部的数据集。在一些方面中，除了(或者替代)更新(一个或多个)数据存储部之外，更新组件210可以向用户设备提供合并的主题中的一个或多个。例如，响应于涉及主题的数据请求，更新组件210可以向请求用户或用户设备提供或呈现针对对应的合并的主题的响应数据。所述响应数据可以在搜索引擎结果页(SERP)、主题卡、主题页等上的结果的上下文中提供。

在描述了可以由在本文中所公开的各方面采用的各种系统之后，本公开现在将描述可以由本公开的各个方面执行的一种或多种方法。在各方面中，方法300可以由诸如图1的系统100或输入处理系统200的系统执行。然而，方法300并不限于这样的示例。在其他方面，方法300可以由集成系统100或输入处理系统200的组件的功能的单个设备或组件来执行。在至少一个方面，方法300可以由分布式网络的一个或多个组件来执行，诸如web服务/分布式网络服务(例如，云服务)。

图3图示了用于跨提供者主题合并的示例性方法。示例性方法300开始于操作302，其中，可以检测数据请求。在各方面中，涉及一个或多个主题的数据请求可以由诸如检测组件202的事件检测组件来检测。所述主题可能涉及一个或多个企业的文档、文件和其他类型的内容(被统称为“文档”)。所述数据请求可以包括用户意图的一个或多个术语或指示。例如，数据请求可以包括针对主题“Seattle”的搜索查询。在一些示例中，所述数据请求可以由用户设备(例如，用户设备108)的用户实时地提供。在其他示例中，所述数据请求可以作为自动数据取回过程的一部分被接收。

在操作304处，可以获得一个或多个文档实体。响应于检测到的数据请求，可以使用诸如文档实体收集组件204的搜索机制来搜索诸如实体存储106的一个或多个数据源。所述搜索可以标识与在数据请求中标识出的(一个或多个)主题相关联的文档实体、网站实体和/或内容提供者(被统称为“文档实体”)。所述文档实体可以表示文档内容，诸如元数据、数据模板、主题、策划和非策划的主题页面、首字母缩写词、同义词、定义、描述、专家、作者/贡献者等。每个文档实体可以包括实体类型(例如，人、公司、事件)和属性集。例如，用于实体类型“人”的文档实体可以包括诸如姓名、身高、出生日期、职业等属性。

所述文档实体可以由多个内容提供者(诸如内容提供者104)生成和/或从多个内容提供者收集，或者从由多个内容提供者提供的文档收集。从其中收集文档实体的文档可以包括由特定企业拥有和/或可访问的文档(内部文档)以及不由特定企业拥有和/或通常能由与特定企业不是相关联的人访问的文档(外部文档)。例如，企业的内部文档可以由企业使用的内容显现平台安全地存储，而外部文档集可以在互联网上公开获得。

所述搜索机制可以使用一种或多种模式匹配技术，诸如正则表达式、模糊逻辑、模式识别模型等来标识涉及主题或者与主题相关的文档实体。文档实体的关系或相关性可以基于例如文档实体内的(一个或多个)主题的出现次数、文档实体的内容与(一个或多个)主题之间的同义性程度、文档实体中的内容的上下文、从其中收集文档实体的文档、收集从其中收集文档实体的文档的内容提供者、与文档实体相关联的用户(例如，作者、编辑、贡献者、群组成员)以及拥有数据源或者与数据源相关联的企业，等等。所述搜索机制可以获得被确定为与数据请求相关的一个或多个文档实体。

在操作306处，所述文档实体可以被分离成实体子部分。在各方面中，所述文档实体可以被提供给数据分离组件(诸如分解引擎206)或者对其可访问。所述数据分离组件可以将文档实体分离成实体子部分，使得每个实体子部分对应于文档实体的一个或多个个体属性。将文档实体分离成实体子部分可以包括使用一个或多个模式匹配技术和/或机器学习技术。例如，模式识别模型可以用于对文档实体的组成属性进行分类。模式识别模型可以通过属性来分离文档实体，并且将源标识信息分配给每个分离的属性。源标识信息可以标识从中提取对应文档实体的文档、包括所述文档的数据存储部或站点和/或提供所述文档的内容提供者。

在操作308处，实体子部分可以被融合到主题下。在各方面中，所述实体子部分可以被提供给数据融合组件(诸如合并引擎208)或者对其可访问。所述数据融合组件可以使用一个或多个人工智能(AI)、机器学习(ML)或者其他逻辑机制将实体子部分聚类在相应的主题下。例如，概率模型可以用于将每个实体子部分和/或主题投射或映射到概率空间中，其中，每个实体子部分与概率分布相关联。可以使用聚类算法将实体子部分与其相应的概率分布进行比较。所述比较可以确定实体子部分和特定主题与相同概率分布相关联的概率。当所确定出的概率超过阈值时，实体子部分可以被融合到特定主题以创建或者更新合并的主题。(一个或多个)合并的主题可以包括来自多个内容提供者的实体子部分，由此提供跨提供者主题合并。在示例中，可以在主题合并之前将重复的实体子部分(或者包括基本相似内容的实体子部分)融合为单个实体子部分，以防止针对主题的数据重复。

在操作310处，(一个或多个)合并的主题可以用于修改知识库。在各方面中，(一个或多个)合并的主题可以提供给呈现/更新机制(例如，更新组件210)或者对其可访问。所述呈现/更新机制可以将(一个或多个)合并的主题提供给一个或多个数据存储部，诸如知识库110。(一个或多个)合并的主题可以用于构造或更新知识库。例如，可以使用(一个或多个)合并的主题为企业构造企业知识图。替代地，呈现/更新机制可以将(一个或多个)合并的主题(或者其表示)提供给一个或多个用户或用户设备。例如，响应于涉及主题的数据请求，可以将涉及对应的合并的主题的响应数据以SERP、主题卡、主题页等的格式提供给用户。

图4-7和相关联的描述提供了对其中可以实践本公开的各方面的各种操作环境的讨论。然而，关于图4-7示出和讨论的设备和系统是出于示例和说明的目的，并不限制可用于实践在本文中所描述的本公开的各方面的大量计算设备配置。

图4是示出计算设备400的物理组件(例如，硬件)的框图，利用这些组件可以实践本公开的各方面。下文描述的计算设备组件可以适合于上面描述的计算设备和系统。在基本配置中，计算设备400可以包括至少一个处理单元402和系统存储器404。取决于计算设备的配置和类型，系统存储器404可以包括但不限于易失性存储设备(例如，随机存取存储器)、非易失性存储设备(例如，只读存储器)、闪存或此类存储器的任何组合。

系统存储器404可以包括操作系统405和适于运行软件应用420的一个或多个程序模块406，例如由在本文中所描述的系统支持的一个或多个组件。例如，操作系统405可以适合于控制计算设备400的操作。

此外，本公开的实施例可以结合图形库、其他操作系统或者任何其他应用程序来实施，并且不限于任何特定的应用或系统。该基本配置在图4中通过虚线408内的那些组件来示出。计算设备400可以具有额外特征或功能。例如，计算设备400还可以包括额外数据存储设备(可移动和/或不可移动)，例如磁盘、光盘或磁带。这样的额外存储设备在图4中由可移动存储设备409和不可移动存储设备410示出。

如上所述，多个程序模块和数据文件可以存储在系统存储器404中。当在处理单元402上执行时，程序模块406(例如，应用420)可以执行包括但不限于本文所述各方面的过程。根据本公开的各方面可使用的其他程序模块可以包括电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用程序等。

此外，本公开的实施例可以在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路中实施，或者在包含电子元件或微处理器的单个芯片上实施。例如，本公开的实施例可经由片上系统(SOC)来实践，其中图4所示的每个或多个组件可集成到单个集成电路上。这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能，所有这些都集成(或“烧录”)到芯片衬底上作为单个集成电路。当经由SOC操作时，在本文中所描述的关于客户端切换协议的能力的功能可以经由与计算设备400的其他组件集成在单个集成电路(芯片)上的特定于应用的逻辑来操作。还可以使用能够执行逻辑操作的其他技术来实践本公开的实施例，例如，AND、OR和NOT，包括但不限于机械、光学、流体和量子技术。此外，本公开的实施例可在通用计算机内或在任何其他电路或系统中实践。

计算设备400还可以具有一个或多个输入设备412，例如键盘、鼠标、笔、声音或语音输入设备、触摸或滑动输入设备等。还可以包括输出设备414，例如显示器、扬声器、打印机等。上述设备是示例，并且可以使用其他设备。计算设备400可以包括允许与其他计算设备450进行通信的一个或多个通信连接416。合适的通信连接416的示例包括但不限于射频(RF)发射机、接收机和/或收发机电路；通用串行总线(USB)、并行和/或串行端口。

在本文中所使用的术语“计算机可读介质”可以包括计算机存储介质。计算机存储介质可以包括以用于存储信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质，例如计算机可读指令、数据结构或程序模块。系统存储器404、可移动存储设备409和不可移动存储设备410都是计算机存储介质示例(例如，存储器存储设备)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储设备、盒式磁带、磁带、磁盘存储设备或其他磁存储设备，或可用于存储信息并可由计算设备400访问的任何其他制品。任何这样的计算机存储介质可以是计算设备400的一部分。计算机存储介质不包括载波或其他传播或已调制数据信号。

通信介质可以由计算机可读指令、数据结构、程序模块或已调制数据信号中的其他数据来实现，例如载波或其他传输机制，并且包括任何信息输送介质。术语“已调制数据信号”可以描述以对信号中的信息进行编码的方式设置或改变一个或多个特性的信号。通过示例而非限制，通信介质可以包括诸如有线网络或直接有线连接的有线介质，以及诸如声学、射频(RF)、红外和其他无线介质的无线介质。

图5A和图5B图示了移动计算设备500，例如移动电话、智能电话、可穿戴计算机(例如智能手表)、平板计算机、膝上型计算机等，利用其可以实践本公开的实施例。在一些方面，客户端可以是移动计算设备。参考图5A，图示了用于实现各方面的移动计算设备500的一个方面。在基本配置中，移动计算设备500是具有输入元件和输出元件两者的手持计算机。移动计算设备500通常包括显示器505和允许用户将信息输入到移动计算设备500中的一个或多个输入按钮510。移动计算设备500的显示器505还可以用作输入设备(例如，触摸屏显示器)。

如果被包括，则可选的侧输入元件515允许进一步的用户输入。侧输入元件515可以是旋转开关、按钮或任何其他类型的手动输入元件。在替代方面中，移动计算设备500可以结合更多或更少的输入元件。例如，在一些实施例中，显示器505可以不是触摸屏。

在另一替代实施例中，移动计算设备500是便携式电话系统，例如蜂窝电话。移动计算设备500还可以包括可选小键盘535。可选小键盘535可以是物理小键盘或在触摸屏显示器上生成的“软”小键盘。

在各种实施例中，输出元件包括用于示出图形用户界面(GUI)的显示器505、视觉指示器520(例如，发光二极管)和/或音频换能器525(例如，扬声器)。在一些方面，移动计算设备500并入用于向用户提供触觉反馈的振动换能器。在又一方面，移动计算设备500并入输入和/或输出端口，例如音频输入(例如，麦克风插孔)、音频输出(例如，耳机插口)和视频输出(例如，HDMI端口)，用于向外部设备发送信号或从外部设备接收信号。

图5B是示出移动计算设备的一个方面的架构的框图。也就是说，移动计算设备500可以并入系统(例如，架构)502来实现一些方面。在一个实施例中，系统502被实现为能够运行一个或多个应用(例如，浏览器、电子邮件、日历、联系人管理器、消息传递客户端、游戏和媒体客户端/播放器)的“智能电话”。在一些方面，系统502集成为计算设备，例如集成的个人数字助理(PDA)和无线电话。

可以将一个或多个应用程序566加载到存储器562中，并在操作系统564上运行或与操作系统564相关联。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、互联网浏览器程序、消息传递程序等。系统502还包括存储器562内的非易失性存储区域568。非易失性存储区域568可用于存储在系统502断电的情况下不应丢失的持久信息。应用程序566可以使用非易失性存储区域568中的信息并且将其存储在非易失性存储区域568中，例如电子邮件或由电子邮件应用所使用的其他消息等。同步应用(未示出)也驻留在系统502上，并被编程为与驻留在主机计算机上的对应同步应用交互，以保持存储在非易失性存储区域568中的信息与存储在主机计算机上的对应信息同步。应当理解，其他应用可以被加载到存储器562中，并在在本文中所描述的移动计算设备500上运行(例如，搜索引擎、提取器模块、相关性排序模块、答案评分模块)。

系统502具有电源570，其可以实现为一个或多个电池。电源570还可以包括外部电源，例如AC适配器或对电池进行补充或再充电的供电对接支架。

系统502还可以包括执行发送和接收射频通信功能的无线接口层572。无线接口层572经由通信运营商或服务提供商促进系统502与“外部世界”之间的无线连接。在操作系统564的控制下进行到无线接口层572和来自无线接口层572的传输。换句话说，无线接口层572接收的通信可以经由操作系统564传播到应用程序566，反之亦然。

视觉指示器520可用于提供视觉通知，和/或音频接口574可用于经由音频换能器525产生可听通知。在所示的实施例中，视觉指示器520是发光二极管(LED)，音频换能器525是扬声器。这些设备可以直接耦合到电源570，从而当被激活时，即使处理器(例如，处理器560和/或专用处理器561)和其他组件可能为了节省电池功率而关闭，其仍保持接通达由通知机制规定的持续时间。LED可以被编程为无限期地保持接通，直到用户采取行动指示设备的通电状态。音频接口574用于向用户提供可听信号并从用户接收可听信号。例如，除了耦合到音频换能器525之外，音频接口574还可以耦合到麦克风以接收可听输入，例如促进电话交谈。根据本公开的实施例，麦克风还可以用作音频传感器以促进对通知的控制，如下所述。系统502还可以包括视频接口576，其使得机载相机530的操作能够记录静止图像、视频流等。

实现系统502的移动计算设备500可以具有额外特征或功能。例如，移动计算设备500还可以包括额外数据存储设备(可移动和/或不可移动)，例如磁盘、光盘或磁带。这样的额外存储设备在图5B中由非易失性存储区域568示出。

如上所述，由移动计算设备500生成或捕获并经由系统502存储的数据/信息可以本地存储在移动计算设备500上，或者数据可以存储在任何数量的存储介质上，所述存储介质可以由设备经由无线接口层572或经由在移动计算设备500和与移动计算设备500相关联的单独计算设备(例如，分布式计算网络(例如互联网)中的服务器计算机)之间的有线连接进行访问。应当理解，这样的数据/信息可以经由移动计算设备500、经由无线接口层572或经由分布式计算网络来访问。类似地，根据公知的数据/信息传输和存储单元，包括电子邮件和协作数据/信息共享系统，这种数据/信息可以容易地在计算设备之间传输以便存储和使用。

图6图示了用于处理在计算系统处从诸如个人计算机604、平板计算设备606或移动计算设备608之类的远程源接收的数据的系统的架构的一个方面。在服务器设备602处显示的内容可以存储在不同的通信信道或其他存储类型中。例如，可以使用目录服务622、网络门户624、邮箱服务626、即时消息传递存储628或社交网站630来存储各种文档。

输入评估服务620可由与服务器设备602通信的客户端使用，和/或输入评估服务620可由服务器设备602使用。服务器设备602可以通过网络615向诸如个人计算机604、平板计算设备606和/或移动计算设备608(例如，智能电话)之类的客户端计算设备提供数据以及从其提供数据。通过示例，上述计算机系统可以体现在个人计算机604、平板计算设备606和/或移动计算设备608(例如，智能电话)中。计算设备的这些实施例中的任何一个除了接收可用于在图形起源系统处预处理或在接收计算系统处后处理的图形数据之外，还可从存储616获得内容。

图7图示了可执行在本文中所公开的一个或多个方面的示例性平板计算设备700。此外，在本文中所描述的各方面和功能可在分布式系统(例如，基于云的计算系统)上操作，其中，应用功能、存储器、数据存储和取回以及各种处理功能可在诸如互联网或内联网的分布式计算网络上彼此远程操作。各种类型的用户界面和信息可以经由机载计算设备显示器或经由与一个或多个计算设备相关联的远程显示单元来显示。例如，各种类型的用户界面和信息可以被显示在其上投射有各种类型的用户界面和信息的墙面上并且与其交互。与可用于实践本发明实施例的多个计算系统的交互包括击键输入、触摸屏输入、语音或其他音频输入、手势输入，其中，相关联的计算设备配备有用于捕获和解释用于控制计算设备的功能的用户手势的检测(例如，相机)功能，等等。

例如，上文参考根据本公开的各方面的方法、系统和计算机程序产品的框图和/或操作说明来描述本公开的各方面。在框中记录的功能/动作可以不按任何流程图中所示的顺序发生。例如，事实上，根据所涉及的功能/动作，连续示出的两个框可以基本上同时执行，或者有时可以以相反的顺序执行这些框。

本申请中提供的一个或多个方面的描述和图示并不旨在以任何方式限制或约束所要求保护的公开的范围。本申请中提供的各方面、示例和细节被认为足以传达所有物并且使得他人能够制造和使用所要求保护的公开内容的最佳模式。所要求保护的公开内容不应当被解释为限于本申请中提供的任何方面、示例或细节。不管是组合还是单独地示出和描述，(结构和方法上的)各种特征都旨在被选择性地包括或省略，以产生具有特定特征集的实施例。已经提供了对本申请的描述和说明，本领域技术人员可以设想落在本申请中体现的一般发明概念的更宽泛方面的主旨内的变化、修改和替代方面，这些变化、修改和替代方面不背离所要求保护的公开内容的更宽泛的范围。

Claims

1.一种系统，包括：

处理器；以及

被耦合到所述处理器的存储器，所述存储器包括计算机可执行指令，所述计算机可执行指令当由所述处理器运行时执行一种方法，所述方法包括：

检测涉及与企业相关联的主题的数据请求；

获得与所述主题相关联的文档实体，其中，所述文档实体是从多个内容提供者收集的；

将所述文档实体分离成与所述文档实体的属性相对应的子部分，其中，所述子部分中的每个子部分标识相应文档实体的源；

将所述子部分中的一个或多个子部分融合到所述主题以创建合并的主题，其中，所述子部分中的所述一个或多个子部分中的每个子部分基于所述子部分与所述主题相关联的概率被融合到所述主题；以及

使用所述合并的主题来修改与所述企业相关联的知识库。

2.根据权利要求1所述的系统，其中，所述文档实体中的一个或多个文档实体是从所述企业的内部文档收集的，所述内部文档是以下中的至少一项：由所述企业拥有的，或者被所述企业限制访问的。

3.根据权利要求2所述的系统，其中，所述文档实体中的一个或多个文档实体是从外部文档收集的，所述外部文档是以下中的至少一项：

不是由所述企业拥有的；或者

不是被所述企业限制访问的。

4.根据权利要求1所述的系统，其中，获得所述文档实体包括：使用模式匹配技术将所述数据请求中的一个或多个术语与所述文档实体中的一个或多个术语进行比较。

5.根据权利要求1所述的系统，其中，获得所述文档实体包括：确定所述文档实体与所述主题的相关性。

6.根据权利要求5所述的系统，其中，所述文档实体与所述主题的所述相关性基于以下中的至少一项：

所述主题在所述文档实体内出现的次数；或者

所述文档实体的内容与所述主题之间的同义性程度。

7.根据权利要求1所述的系统，其中，所述文档实体表示以下中的至少一项：

元数据；

主题页面；

首字母缩写词；

定义；或者

知道所述主题的人。

8.根据权利要求1所述的系统，其中，所述相应文档实体的所述源是以下中的至少一项：

从其中提取所述相应文档实体的文档；

包括从其中提取所述相应文档实体的所述文档的数据存储部；或者

提供从其中提取所述相应文档实体的所述文档的内容提供者。

9.根据权利要求1所述的系统，其中，将所述子部分中的所述一个或多个子部分融合到所述主题包括：

使用概率模型将所述子部分中的所述一个或多个子部分映射到概率空间中；以及

使用聚类算法将所述子部分中的所述一个或多个子部分与相应的概率分布进行比较。

10.根据权利要求9所述的系统，其中，将所述子部分中的所述一个或多个子部分中的每个子部分与所述相应的概率分布进行比较以标识子部分与所述主题相关联的概率。

11.根据权利要求10所述的系统，其中：

所述概率与阈值进行比较；

当所述概率满足或者超过所述阈值时，所述子部分被融合到所述主题；以及

当所述概率不满足或者不超过所述阈值时，所述子部分不被融合到所述主题。

12.一种方法，包括：

检测涉及与企业相关联的主题的数据请求；

从与所述企业相关联的内容显现平台获得与所述主题相关联的文档实体，其中，所述文档实体是从多个内容提供者收集的；

由所述内容显现平台提供包括所述合并的主题的响应数据，以满足所述数据请求。

13.根据权利要求12所述的方法，其中：

其中，所述文档实体中的一个或多个文档实体是从由所述企业拥有的内部文档收集的；并且

其中，所述文档实体中的一个或多个文档实体是从不是由所述企业拥有的外部文档收集的。

14.根据权利要求13所述的方法，其中：

所述内容显现平台实现与所述内容显现平台兼容的属性集；以及

分离从所述外部文档收集的所述文档实体包括：将来自所述外部文档的所述文档实体的一个或多个属性重新分配到所述属性集中与所述内容显现平台兼容的一个或多个属性。

15.一种内容显现平台，包括：

处理器；以及

获得与主题相关联的文档实体，其中，所述文档实体是从与企业相关联的多个内容提供者收集的，所述企业表示以下中的至少一项：组织、公司或者群组；

使用机器学习将所述子部分融合到所述主题以创建合并的主题，其中，所述合并的主题包括来自所述多个内容提供者中的至少两个内容提供者的子部分；以及

将所述合并的主题提供给与所述企业相关联的知识库。