CN117063171A - 从区域分离的数据存储库中提取并显现主题描述 - Google Patents

从区域分离的数据存储库中提取并显现主题描述 Download PDF

Info

Publication number
CN117063171A
CN117063171A CN202280019211.2A CN202280019211A CN117063171A CN 117063171 A CN117063171 A CN 117063171A CN 202280019211 A CN202280019211 A CN 202280019211A CN 117063171 A CN117063171 A CN 117063171A
Authority
CN
China
Prior art keywords
region
data
stored
computing resource
enterprise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280019211.2A
Other languages
English (en)
Inventor
D·梅耶泽
N·沃伦可夫
V·格沃兹杰夫
K·苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority claimed from PCT/US2022/017444 external-priority patent/WO2022187045A1/en
Publication of CN117063171A publication Critical patent/CN117063171A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

聚类服务通过利用对于在其中存储数据的区域不可知的机器学习工具包来创建个体主题,所述个体主题具有对存储在不同地理区域中的多个数据分片的参考。聚类服务还根据从中提取特定逻辑主题的数据片段的区域来对知识库状态进行分片。例如,包含从第一文档提取的信息的第一分片可以被存储在第一区域中,而包含从第二文档提取的信息的第二分片可以被存储在第二区域中。响应于与主题相关联的用户活动,服务平台可以识别和重构存储在不同区域中的这些分片,以便向用户显现关于该主题的经区域提取并分片的信息。

Description

从区域分离的数据存储库中提取并显现主题描述
背景技术
维护和传播企业知识是现代企业面临的一个具有挑战性的过程。维护企业知识的典型过程可以包括从大量不同的企业数据源中提取相关信息。然后,所提取的信息可以被编译成合适的格式,例如知识图谱,其可用于向整个企业的接收者显现适当的信息。知识图谱可以包括主题和相应主题描述的集合。在一些情况下,针对知识图谱内的特定主题的主题描述可以通过对从多个不同企业数据源提取的信息片段进行编译来生成。服务平台随后可以响应于某些类型的用户活动而将来自知识图谱的内容提供给企业的用户。例如,服务平台可以通过从知识图谱获取关于特定主题的信息并经由用户界面将该信息显现给用户来对与该特定主题相关的查询进行响应。
一些现代企业本质上是全球性的,在世界多个不同区域设有办事处。此类全球企业通常拥有跨这些不同区域的多个企业数据源。因此,维护和传播由此类全球企业部署的企业知识的过程通常必须遵守数据主权原则。例如,数据通常受收集数据所在国家的法律和治理结构的约束。因此,从一些企业数据源提取的数据可能与从位于不同区域的其他企业数据源提取的其他数据遵循不同的法律。
针对这些和其他考虑,提出了本文所作出的公开内容。
发明内容
本文描述的技术提供了有助于从跨多个地理区域分离的企业数据存储库中提取并显现与个体逻辑主题相对应的信息的系统和方法。概括地描述,本文描述的实施例部署聚类服务以在知识库内创建具有对存储在不同地理区域中的多个数据分片(shard)的参考的个体主题。例如,存储在第一区域中的第一文档和存储在第二区域中的第二文档可以各自包含与特定逻辑主题(例如,特定企业项目、特定人员等)相关联的信息。聚类服务可以分析从这两个文档的信息的提取,以输出定义针对整个企业的数据聚类的状态的知识库状态。聚类服务还可以根据从中提取特定逻辑主题的数据片段的区域来对知识库状态进行分片。例如,包含从第一文档提取的信息的第一分片可以被存储在第一区域中,而包含从第二文档提取的信息的第二分片可以被存储在第二区域中。然后,响应于与主题相关联的用户活动,服务平台可以参考知识库状态来识别和重构存储在不同区域中的这些分片,以便向用户呈现关于该主题的经区域提取并分片的信息。
以此方式,本文描述的实施例促进地理上特定的数据提取和数据存储(使得能够严格且准确地遵守数据主权原则),同时促进将地理上不可知的主题显现给企业的用户群。例如,可以向整个企业的用户呈现与特定主题相关的等同信息,无论他们位于哪个区域,即使这样的信息是从多个区域分离的数据存储库中提取并以分片形式维护的。这是因为这些分片被存储在获取其底层数据的任何区域中,然后在查询时被重构以显现给用户。
此外,如下文更详细描述的,本文描述的一些实施例进一步促进自动更新知识库状态,并迁移相应分片以适应企业数据源从一个区域到另一区域的迁移,无需对企业的数据进行重新提取和重新聚类。例如,响应于确定租户站点(例如,SharePoint站点或Exchange邮箱)已经从特定区域移动到不同区域,可以从该特定区域读取从与租户站点相关联地存储的数据生成的知识库状态的分片,并且根据租户站点已经移动到的不同区域来对所述分片进行重新分片。
在示例性实施方式中,系统可以部署一个或多个数据挖掘工具包来分析跨多个地理区域存储的企业数据。数据挖掘工具包的这种分析可以使得从存储在第一区域中的第一文档和存储在第二区域中的第二文档中的每一个文档中提取关于特定逻辑主题的信息。由工具包生成的并且与特定逻辑主题相关联的个体提取物可以被写入与从中获得底层数据的区域相对应的对象存储库。因此,来自第一文档的第一提取物将被存储在第一区域中,并且来自第二文档的第二提取物将被存储在第二区域中。
然后,聚类服务可以分析由数据挖掘工具包生成的提取物,以输出定义跨整个企业的数据聚类的状态的知识库状态。例如,聚类服务可以生成和/或定义多个提取物之间的关系和/或链接,所述多个提取物各自与特定逻辑主题相关并且被存储在世界的不同区域中。提取物之间的关系和/或链接在一些情况下可以形成与特定逻辑主题相关的凝聚性概要,例如主题描述。
聚类服务还可以根据从其生成与特定逻辑主题相关联的提取物的区域来对知识库状态进行分片。例如,聚类服务可以基于从第一文档获得的提取物创建第一分片,并且基于从第二文档获得的另一提取物创建第二分片。这些分片中的每一个分片都可以在与特定逻辑主题相关的知识库状态内被参考,同时被存储在由挖掘工具包提取该分片中包含的数据的任何区域中。
然后,响应于与特定逻辑对象相关联的用户活动,服务平台可以参考知识库状态来识别并且然后重构各自对应于特定逻辑对象并且跨多个区域存储的分片。例如,在聚类服务将存储在不同区域的多个分片关联在一起以形成特定逻辑主题的凝聚性主题描述或摘要的情况下,服务平台可以在查询时一起识别和重构这些分片,以与区域上不可知的方式向整个企业的用户呈现相同的信息,即使与特定逻辑主题相对应的分片基于所提取或挖掘的数据最初被获得的位置以区域特定方式被存储。
应当理解,上述发明主题也可以被实现为计算机控制的装置、计算机过程、计算系统,或者诸如计算机可读介质的制品。通过阅读下文的具体实施方式以及浏览相关联的附图,这些以及各种其他特征将是显而易见的。
提供本发明内容以便以简化的形式对下面在具体实施方式中进一步描述的若干构思进行介绍。本发明内容并不旨在标识要求保护的发明主题的关键特征或重要特征,也不旨在表示本发明内容用于限制要求保护的发明主题的范围。此外,要求保护的发明主题不局限于解决本公开内容的任何部分中指出的任何或所有缺点的实现。
附图说明
参考附图描述了具体实施方式。在附图中,附图标记的最左边的位标识该附图标记首次出现的附图。相同的附图标记在不同的附图中指示类似或等同的项。对多个项中的个体项的引用可以使用具有字母序列中的字母的附图标记来指代每个个体项。对项的一般引用可以使用没有字母序列的特定附图标记。
图1示出了示例性计算环境,其中包含与知识库(KB)状态相关联的信息的KB分片跨多个区域被存储。
图2示出了示例性计算环境,其中与特定站点相对应的KB分片响应于该特定站点的站点迁移而被自动迁移。
图3示出了示例性计算环境,其中与特定区域相关联地发生的用户活动使得服务平台将跨多个区域存储的KB分片重构为重构主题。
图4示出了以知识图谱的形式示出的示例性KB状态,所述知识图谱包括由跨多个KB分片集合存储的信息组成的主题。
图5示出了示例性挖掘过程,其中可以使用一个或多个ML模型来基于主题模板来分析语料库以提取主题。
图6是用于根据当前存储与对应于KB状态的个体KB碎片相对应的数据对象的特定区域来存储该个体KB碎片的示例性过程的流程图。
图7示出了能够执行本文描述的技术的计算机的示例性计算机架构的附加细节。
具体实施方式
以下具体实施方式描述了用于维护多个信息分片的技术,所述多个信息分片各自对应于多个区域分离的数据存储库中的个体逻辑主题,然后在查询时重构分片以向用户显现经重构的信息。概括地描述,本文描述的实施例部署聚类服务以在知识库内创建逻辑主题。这些逻辑主题中的个体逻辑主题可以参考存储在不同地理区域中的多个数据分片。作为具体示例,存储在第一区域处的第一数据存储库中的第一文档和存储在第二区域处的第二数据存储库中的第二文档可以各自包含与特定逻辑主题相关联的一些信息。挖掘工具包可以挖掘第一数据存储库和第二数据存储库中的每一个数据存储库,以分别从第一文档和第二文档生成第一数据提取物和第二数据提取物。这两个数据提取物中的每一个数据提取物都可以包含描述特定逻辑主题的信息。聚类服务可以分析数据提取物以输出定义针对整个企业的数据聚类的状态的知识库状态。聚类服务还可以根据从中提取特定逻辑主题的数据片段的区域(例如,根据在其中挖掘底层提取物的区域)来对知识库状态进行分片。例如,知识库状态可以包括与存储在第一区域中的第一数据提取物相对应的第一分片和与存储在第二区域中的第二数据提取物相对应的第二分片。然后,服务平台可以通过参考知识库状态来响应与主题相关联的用户活动,以识别和重构存储在不同区域中的这两个分片,以便向用户显现关于该主题的经区域提取并分片的信息。
现在转到图1,示出了示例性计算环境100,其中包含与知识库(KB)状态112相关联的信息的KB分片114跨多个区域102被存储。如图所示,计算环境100包括在其处存储第一企业数据104(1)的第一区域102(1)和在其处存储第二企业数据104(2)的第二区域102(2)。如进一步所示,计算环境100还包括聚类服务118,其在第三区域102(3)内操作并且与第一区域102(1)和第二区域102(2)中的每一个区域内的各种计算资源通信(例如,经由一个或多个网络)。在一些情况下,第三区域102(3)可以是企业的归属区域。
存储在不同区域102中的企业数据104可以包括各种企业特定的数据源,这些数据源选择性地可用于企业内的预定义用户组(例如,由特定部门或区域内的用户组共享的基于web的协作平台)和/或用户特定数据源(例如,唯一对应于个体用户账户的电子邮件和/或在线数据存储)。因此,企业数据102可以包括电子邮件账户数据,其包括与个体用户的电子邮件账户(例如, 账户)相关联地存储的电子消息、包括可经由多个用户账户(例如,/>账户、/>账户)访问的消息和/或文档的业务通信平台数据、以及可能属于企业专有(例如,不公开)的其他形式的企业特定数据。在一些情况下,企业数据102还可以包括对非企业人员公开可用的非专有数据(例如,由企业生成和/或托管的公共网站)。
在一些实施例中,存储在任何特定区域102内的企业数据104可以由复制服务106访问,复制服务106读取企业数据104并且选择性地将企业数据104的一些部分推送到一系列主分片108(其可以在本文中被称为站点分片)。此处,第一复制服务106(1)在第一区域102(1)内操作,以将第一企业数据104(1)中的一些或全部分类到第一主分片集合108(1)中,并且第二复制服务106(2)在第二区域102(2)内操作,以将第二企业数据104(2)中的一些或全部分类到第二主分片集合108(2)中。在一些情况下,主分片108中的个体主分片可以是数据托管站点(例如,Microsoft SharePoint站点)和/或邮箱(例如,MicrosoftExchange邮箱)。在这种情况下,个体主分片108可以或可以不唯一地对应于个体用户账户。因此,写入特定主分片108的企业数据的个体实例可以从在每个区域处与多个不同用户账户相关联地维护的多个不同数据源编译。例如,复制到任何特定主分片108中的数据的实例(例如,电子邮件消息、文字处理文档等)可以从一个或多个用户特定电子邮件账户、可以经由单个用户凭证集合访问的用户特定的文件托管站点(例如,Microsoft SharePoint、Microsoft OneDrive等)、可以经由多个不同用户凭证集合访问的共享文件托管站点和/或诸如由企业托管的面向公众的互联网网站之类的可公开获得的信息读取。
在一些实施例中,一个或多个挖掘平台122可以分析在每个区域102内生成的主分片108以在相应区域102内生成数据提取物110。例如,如图所示,可以基于第一主分片集合108(1)来生成第一数据提取物110(1),并且然后将其存储在第一区域102(1)处的对象存储库内。类似地,可以基于第二主分片集合108(2)来生成第二数据提取物110(2),并且然后将其存储在第二区域102(2)处的另一对象存储库内。以此方式,在特定区域102内挖掘的个体数据提取物110保持存储在该特定区域102内。在一些实施例中,挖掘平台122可以在指定区域(例如,租户的家庭或默认区域)中操作,以便以地理上不可知的方式跨区域执行数据挖掘(例如,远离存储正在被挖掘的数据的一个或多个区域102)。以此方式,数据的地理分布对于挖掘平台是透明的,并且因此对于一个或多个挖掘工具包的输入以及来自一个或多个挖掘工具包的输出二者都是透明的。例如,挖掘平台122可以在第三区域102(3)内操作,以挖掘任何特定区域102的主分片108并且将经由挖掘过程生成的数据提取物110写回到该特定区域102处的对象存储库。在一些实施例中,挖掘平台122在每个个体区域122内操作(例如,第一挖掘平台122(1)可以在第一区域102(1)内操作并且第二挖掘平台122(2)可以在第二区域102(2)内操作)。以此方式,数据挖掘计算过程可以发生在在其处生成并存储相应主分片108和数据提取物110的个体区域102内。
在一些实施例中,挖掘平台部署被配置为识别语料库内的主题的一个或多个机器学习(ML)模型,所述语料库在图示实施例中包括主分片108。例如,ML模型可以识别语料库的个体文档内参考的首字母缩略词、企业文档中参考和描述的项目名称以及与从中获得语料库的企业相关的各种其他值得注意的主题。另外地或替代地,ML模型可以提取与所识别的这些主题相对应的主题描述。示例性的此类ML模型可以是自然语言处理(NLP)模型,其被配置为识别组成语料库的文档集合内的个体句子和/或句子组的类别。示例性类别包括但不限于所识别主题的权威定义、与所识别主题相关联的信息以及关于所识别主题的观点。
示例性此类ML模型可以包括但不限于基于转换器的双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)模型,其被配置为执行基于转换器的ML技术以提取不同类型的主题描述。示例性此类主题描述可以包括但不限于单行定义、多行定义以及从单个或多个离散数据源编译的主题概括。例如,可以部署BERT模型来从跨多个不同区域存储的各个主分片集合108中识别候选主题描述,然后基于指示个体候选主题描述相对于特定企业的重要性级别的企业特定信号对候选主题描述进行排序。示例性此类企业信号包括但不限于个体主题描述的一个或多个作者的资历级别、关于个体主题描述的作者是否已经分配与相应主题相对应或相关的工作量的指示、以及个体主题描述在整个企业中的传播级别。在一些实施方式中,这些企业特定信号是通过监督学习技术生成的。通过利用企业特定信号,ML模型能够识别与特定企业唯一相关的主题描述,并在组织级别(即,以独特地适合个体企业的方式)进一步对所识别的这些主题描述进行排序。如本文所描述的,所公开的技术促进将从存储在不同地理区域处的多个离散数据源捕获的信息提取并聚类为单个逻辑主题和/或单个主题描述。另外,所公开的技术促进这些单个逻辑主题和/或单个主题描述跨从中提取信息的区域而被分片,以便确保区域特定的数据存储和区域上不可知的数据显现。
如图所示,聚类服务118可以执行一个或多个挖掘工具包(也针对挖掘平台122进行描述)以生成数据提取物110并输出知识库(KB)状态112,KB状态112的子集被转换成用户可见的主题,其作为KB分片114输出。概括地描述,KB状态112定义了整个企业的数据聚类的状态。在图示实施例中,聚类服务118在第三区域102(3)(例如,主区域)内操作,以跨当前KB状态以及以下二者进行推理:(i)存储在第一区域102(1)内的第一数据提取物110(1),以及(ii)存储在第二区域102(2)内的第二数据提取物110(2)。这样做时,聚类服务122可以通过生成和/或定义多个新生成的数据提取物110之间的关系和/或链接来随着企业的数据的发展来更新当前KB状态,所述多个新生成的数据提取物110各自与特定逻辑主题相关并且被存储在全球不同的区域102中。例如,可以定义一个或多个第一数据提取物110(1)与一个或多个第二数据提取物110(2)之间关于特定单个逻辑主题(例如,特定人员、企业正在开发的特定项目或产品)的链接,以便将信息的离散方面编译成单个逻辑主题的凝聚性主题描述。换言之,数据提取物110之间的关系和/或链接在一些情况下可以形成与特定逻辑主题相关的凝聚性概要,例如,比可以经由单个区域102内的单个数据提取物110形成的主题描述更丰富且更完整的主题描述。
KB状态112的实例可以被写入并维护在每个区域102和/或区域102的某个子集处的数据存储库内。如图所示,KB状态的第一实例112(1)被存储在第一区域102(1)内,并且KB状态的第二实例112(2)被存储在第二区域102(2)内。尽管示出的计算环境100被示出为包括仅在两个离散且地理分离的区域102内的数据提取物110,但是应当理解,示例性计算环境100可以包括与图1中所示的区域类似的两个以上的区域102。在示例性实施例中,KB状态112可以定义企业范围的知识图谱,其包括对在多个不同区域102中生成和/或维护的信息的参考。以此方式,可以在不违反唯一地对应于其中存储企业数据的各个子部分的不同区域102的数据主权规则和原则的情况下生成企业范围的知识图谱。例如,如果第一区域102(1)和第二区域102(2)中的每一个区域位于要求将在其中生成的数据存储在其中的国家内,则本文描述的技术使得聚类服务118能够对存储在各个区域内的企业数据进行推理(根据适用的数据主权法律和/或法规)以在不违反区域特定数据法律和/或法规的情况下生成企业范围的知识图谱,并且在一些情况下,甚至不需要关于企业语料库的个体部分的存储位置的知识或信息。
聚类服务118还可以以如下方式生成与KB状态112相关联的KB分片114:使得根据从其中生成和/或维护KB分片114下面的数据提取物110的特定区域102来生成并存储KB分片114中的个体KB分片。因此,在与单个逻辑主题相关联的信息从第一数据提取物110(1)和第二数据提取物110(2)编译成KB状态112(例如,企业特定知识图谱)的情况下,除了一个或多个第二KB分片114(2)之外,一个或多个第一KB分片114(1)可以全部对应于KB状态112内的单个逻辑主题。例如,一个或多个第一KB分片114(1)可以形成单个逻辑主题的主题描述的一部分,而一个或多个第二KB分片114(2)可以形成单个逻辑主题的主题描述的另一部分。因此,企业特定知识图谱内的单个逻辑主题和/或其主题描述可以包括从原始生成的其各个区域中提取并存储在其内的多个离散信息片段。在该示例中,可以执行重构一个或多个第一KB分片114(1)和一个或多个第二KB分片114(2),以将单个逻辑主题和/或主题描述重建为比第一或第二KB分片114内存在的形式相对更凝聚的形式。在各种实施例中,KB分片114用于存储要呈现给用户的KB状态的子集,而KB状态112以在一个或多个挖掘工具包内部且可由该一个或多个挖掘工具包读取的格式存储类似或相应数据。此外,在一些实施例中,每个KB状态112和KB分片114以类似的方式在地理上被分片,使得KB状态和/或KB分片内包含的任何信息被排他地保留在存储支持此类信息的站点分片的区域内。
在一些实施例中,一个或多个服务平台116可以在区域102的个体区域内操作。例如,在计算环境100中,第一服务平台116(1)正在第一区域102(1)内被操作,并且第二服务平台116(2)正在第二区域102(2)内被操作。响应于在任何个体区域102内发生的用户活动,相应的服务平台116可以参考KB状态112来识别跨多个区域102存在的与特定逻辑主题相关联的多个KB分片114。然后,服务平台116可以重构所识别的分片,以重建单个逻辑主题和/或其主题描述,并且最终向用户显现(例如,显露、呈现或以其他方式传达)重构的单个逻辑主题和/或其主题描述。例如,假设用户经由特定区域102处的知识库(KB)应用编程接口(API)120输入对特定逻辑主题(例如,企业项目的代号)的查询。此处,相应的服务平台116可以通过在KB状态112内查找特定逻辑主题来响应该查询,以识别被聚类在一起或以其他方式相关/互连(例如,通过聚类服务118)的一个或多个第一KB分片114(1)以及一个或多个第二KB分片114(2),以形成特定逻辑主题的单个凝聚性主题描述。
以此方式,计算环境100促进地理上特定的数据提取和数据存储(使得能够严格且准确地遵守与生成和/或维护的区域数据相对应的数据主权原则),同时促进将地理上不可知的主题显现给企业的用户群和基于人工智能的挖掘工具包。例如,服务平台将向以下中的每一者显现相同的重构结果:(i)在第一区域102(1)内针对特定逻辑主题提交第一查询的第一用户,以及(ii)在第二区域102(1)内针对相同逻辑主题提交第二查询的第二用户,即使在与该逻辑主题相对应的分片基于最初获得所提取或挖掘的数据的位置以区域特定方式存储的情况下。
在各种实施方式中,语料库可以是对应于多个不同用户账户的租户范围的语料库,所述多个不同用户账户个别地和/或共同地被提供对企业计算资源企业数据104的各个方面的访问权限。也就是说,由挖掘平台122挖掘的语料库(例如,主分片108)可以包括从多个不同用户的电子邮件账户、在线“基于云”的文件存储、所有企业用户和/或由用户名和/或目录属性定义的用户子集都可以访问的内部发布的文档等编译的文档和/或数据对象。在这样的实施方式中,主题和/或其主题描述可以基于访问控制列表(ACL)选择性地显露给个体接收者。例如,在已经针对特定主题提取了多个不同主题描述的情况下,服务平台116然后可以仅从这些多个不同主题描述的子集中进行选择,所述多个不同主题描述已经从ACL允许特定接收者访问的源中被提取。
现在转向图2,示出了示例性计算环境200,其中与特定站点202相对应的知识库(KB)分片114响应于该特定站点202的站点迁移而被自动迁移。如图所示,计算环境200包括第一区域102(1),其在第一时间被配置为支持特定站点202。具体地,第一区域102(1)可以包括在第一时间操作特定站点202的一个或多个服务器,该特定站点202可以是例如文件托管站点(例如,Microsoft SharePoint站点)和/或邮箱(例如,Microsoft Exchange邮箱)。在一些实施例中,特定站点202可以充当主分片108,其充当挖掘平台122可以从其获得数据提取物110的方便存储位置。
在托管企业租户的现代计算架构的各种情况下,与任何特定租户相关联的数据存储库在本质上是动态的,因为个体数据存储库可以在许多不同的区域102之间周期性地迁移。例如,响应于某些触发事件,特定文件托管站点和/或邮箱可以从一个区域迁移到另一区域。作为具体但非限制性示例,企业租户可以具有多个第一数据存储库,例如在北美操作的Microsoft SharePoint站点和在欧洲操作的多个第二站点。然后,取决于诸如负载均衡之类的因素,第一数据存储库的个体站点可能会从北美迁移到欧洲。也就是说,可以从在北美操作的第一数据存储库读取个体站点,并且将其写入到在欧洲操作的第二数据存储库中。然后,可以从第一数据存储库中停用个体站点,以完成个体站点在区域之间的迁移。
在图示示例中,特定站点202被示出为从第一区域102(1)迁移到第N区域102(N)。因此,虽然第一区域102(1)被配置为在第一时间支持特定站点202,但在第二时间(在迁移之后),第N区域102(N)被配置为支持特定站点202,并且第一区域102(1)不再被配置为支持特定站点202。为了以图形方式传达该迁移,特定站点202针对第一区域102(1)以虚线形式示出并被标记为上撇号202',并且针对第N区域102(N)以实线形式示出并标记为202。
在一些实施例中,聚类服务118被配置为监测与任何特定企业租户相关联的各个区域102,以检测如图2所示的站点迁移。例如,聚类服务118可以连续地和/或周期性地审核与和特定企业租户相关联的个体区域102相对应的企业数据104和/或主分片108。此外,聚类服务118可以维护充当站点和区域102之间的映射的站点区域图206。因此,在所示示例中,站点区域图206将在第一时间将特定站点202的特定站点标识符与第一区域102(1)的第一区域标识符相关联。然后,在特定站点202已经成功地从第一区域102(1)迁移到第N区域102(N)之后的第二时间,聚类服务118可以检测到特定站点202不再由第一区域102(1)内的计算资源操作并且现在由第N区域102(N)内的其他计算资源操作。
响应于检测到特定站点202已经如图所示被迁移,聚类服务118可以识别与特定站点202相对应的第一KB分片114(1)的分片子集204。例如,KB分片114中的个体KB分片可以包括特定底层数据源的标识,其中包含的信息是从该特定底层数据源中提取的。这样的标识可以标识特定数据提取物110和/或聚类服务118先前已从其生成了特定KB分片114的主分片108。因此,即使在生成KB状态112和KB分片114之后,聚类服务118也可以保留基于与特定站点202相关联地存储的具体可识别数据/信息来识别哪些KB分片114被生成了的能力。如图所示,响应于特定站点202从第一区域102(1)到第N区域102(N)的迁移,聚类服务118可以从第一KB分片114(1)读取分片子集204,并将分片子集204写入第N KB分片114(N)。另外地或替代地,响应于特定站点202从第一区域102(1)迁移到第N区域102(N),聚类服务118可以读取第一KB状态实例112(1),并将第一KB状态实例112(1)写入到第N区域102(N)。
以此方式,已经基于从特定站点202提取的信息生成的分片子集204保持存储在特定站点202当前在其中存储和/或操作的任何区域102内。此外,由于特定站点202从第一区域102(1)到第N区域102(N)的迁移不会改变与特定站点202相关联的数据,而仅仅改变其上存储该数据的物理机器,因此根据一些实施方式,特定站点202的迁移不充当证明重新执行先前由挖掘平台122执行的计算上昂贵的数据挖掘操作和/或先前由聚类服务118执行的聚类操作的正当性的触发事件。相反,分片子集204可以简单地从第一KB分片114(1)迁移到第N KB分片114(N)以使得:(i)第一KB分片114(1)包括从当前存储在第一区域102(1)内的任何站点和/或主分片108提取的数据,以及(ii)第N KB分片114(N)包括已经从当前存储在第N区域102(N)内的任何站点和/或主分片108提取的数据。以此方式,聚类服务118响应于站点迁移的发生而动态调整企业的KB分片114被区域性分片的方式,而不会导致对从经历迁移的那些站点和/或主分片108获得的数据进行重新提取和重新聚类的花费。另外,第一KB状态实例112(1)的KB状态可以从第一区域102(1)迁移到第N区域102(N)。
聚类服务118还可以响应于检测到特定站点202已经从第一区域102(1)迁移到第N区域102(N)来更新站点区域图206。例如,如上所述,在第一时间,当特定站点202正由第一区域102(1)内的计算资源操作时,站点区域图206将特定站点202的特定站点标识符与第一区域102(1)的第一区域标识符相关联。然后,响应于检测到如图所示的站点迁移和/或将分片子集转移到第N区域102(N),聚类服务118可以通过利用特定站点标识符与第N区域102(N)的第N区域标识符的新关联来覆盖特定站点标识符与第一区域标识符的关联来更新站点区域图206。
现在转向图3,示出了示例性计算环境300,其中与特定区域102相关联地发生的用户活动304使得服务平台116将跨多个区域102存储的KB分片114重构为重构主题306。如图所示,用户活动304可以经由正由与特定用户310相对应的用户设备308渲染的用户界面302发生。示例性用户活动304可以包括特定用户310经由用户界面302输入针对特定主题(例如,项目名称、人员等)的搜索查询。作为另一示例,用户活动304可以包括特定用户310访问包括对特定主题的参考的文档,例如电子邮件和/或文字处理文件。
如上所述,与特定主题相关联的KB分片114可以根据KB分片114内的数据当前存储的位置跨多个不同区域102而被分片。为了图3的目的,假设主题306已经由聚类服务118基于第一主分片108(1)内的第一数据和第N主分片108(N)内的第二数据生成。进一步假设聚类服务118尚未依赖第二主分片108(2)内的任何第二数据来生成主题306。因此,如图所示,与主题306相对应的分片子集312被示为存储在第一KB分片114(1)内,并且也与主题306相对应的分片子集314被示为存储在第N KB分片114(N)内。在一些实施方式中,分片子集312和分片子集314都不包含包括主题306的所有信息,因此,在查询时,可以执行这些分片的重构来重新生成整个主题306,以便经由用户界面302显现给用户310。
如图所示,用户活动304从用户设备308被发送到在第N区域102(N)内执行的第NKB API 120(N)。例如,用户310可以操作在物理上驻留于第N区域102(N)内的企业园区内的用户设备308。然后,第N KB API 120(N)将用户活动304(或其各方面,例如主题标识符)中继到第N服务平台116(N),该服务平台然后可以参考第N KB状态112(N)来查找主题306。在一些实施例中,在KB状态112内查找主题306通知第N服务平台116(N)需要哪些特定KB分片114来将主题306重构为凝聚性形式。
在如图3所示的一些情况下,重构主题306所需的KB分片114的集合可以跨多个不同区域102而驻留。例如,如图所示,分片子集312和分片子集314中的每一个子集对于重构主题306都是必要的。此外,在一些实施例中,一个或多个区域102当前可能未存储重构主题306所需的任何KB分片114。在本示例中,第二KB分片114(2)中没有一个与重构主题306相关联和/或对于重构主题306来说是必需的。因此,通过参考在聚类时生成的主题区域图318来识别需要哪些KB分片114来重构主题306,第N服务平台116(N)然后可以参考该主题区域图318来识别被识别为重构主题306所需的特定KB分片114当前被存储的特定区域102。因此,在本示例中,对第N KB状态112(B)和/或主题区域图318(其可以被存储在区域102中的一些或全部处)的参考告知以下两项:(i)分片子集312和分片子集314要重构主题306各自需要的第N服务平台116(N),以及(ii)分片子集312当前被存储在第一区域102(1)处的第一KB分片114(1)内,并且分片子集314当前存储在第N区域102(N)处的第N KB分片114(N)内。
因此,第N服务平台116(N)发送请求特定分片子集的至少一个区域特定查询316。例如,区域特定查询316可以包括唯一地标识分片子集312内的每个分片的分片标识符。响应于区域特定查询316,分片子集312被从第一区域102(1)发送到第N区域102(N)处的第N服务平台116(N)。此外,第N服务平台116(N)直接从第N区域102(N)内的第N KB分片114(N)获得分片子集314。
在获得了分片子集312和314时,第N服务平台116(N)然后重构主题306。经重构的主题306然后经由第N KB API 120(N)被发送到用户设备308。最终,经重构的主题306经由用户界面302显现给用户310。以此方式,本文描述的技术防止服务平台116不必要地将查询发送到当前不包含重构特定感兴趣主题所需的任何KB分片114的区域102。
在一些实施例中,第N服务平台116(N)可以从聚类服务118获得主题区域图318。例如,响应于用户活动304,第N服务平台116(N)可以向聚类服务118查询主题区域图318,以便识别需要哪些分片子集来重构主题306和/或确定哪些特定区域102当前正在存储此类KB分片114。在一些情况下,主题区域图318可以以散列形式存储各种信息字段。例如,聚类服务118可以利用布隆(bloom)过滤器将主题区域图318内的个体主题的名称转换成散列。以此方式,个体主题的名称可以保持存储在特定区域102内,即使主题区域图318被存储在其他区域处和/或可由其他区域访问。此类实施方式在主题区域图318本身包含受区域数据主权法律和/或法规管辖的信息的情况下可能是有用的。例如,主题名称对于特定区域是保密的,和/或被区域法律要求排他地存储在特定区域内的场景。
现在参考图4,以知识图谱400的形式示出了示例性KB状态112,所述知识图谱400包括由跨KB分片114的多个集合存储的信息组成的主题402。如上所述,KB分片114的这些集合可以跨多个不同的地理分离的区域被存储。如图所示,知识图谱400定义实体402-414以及这些实体之间的关系。在一种实施方式中,每个实体由包括描述该实体的属性的实体记录来表示。例如,属性可以存储属性值或到与该实体相关的另一个实体的链接。实体类型的模式定义了实体的属性。
如图所示,示例性知识图谱400是包括实体404-414和主题402之间的关系和/互连的部分知识图谱。例如,知识图谱400将主题402链接到与用户账户相关联的信息404和文档406中的每一个。如图所示,信息404和文档406中的每一个都被包括在第一KB分片114(1)内。此处,用户账户作为与主题402相关的专家、作为与主题402相关联地频繁使用的资源、以及作为关注主题402的人员而被链接到主题402。文档406作为访问与主题402相关的主题402(例如,对其了解更多)的建议而与主题402相关。如进一步所示,知识图谱400将主题402链接到与主题402相关的另一主题408以及与主题402相关的站点410中的每一个。此处,从主题408和站点410中的每一个提取的信息被存储在第二KB分片114(2)中。知识图谱400进一步将主题链接到基于从另一文档412提取的数据和作为主题402的歧义消除的另一主题414而生成的KB分片114(N)。
转到图5,示出了示例性挖掘过程500,其中可以使用一个或多个ML模型504来基于主题模板来分析语料库502以提取主题402。在一些情况下,所提取的主题402被添加到具有企业知识图谱400形式的KB状态112,所述企业知识图谱400基于源上下文和/或其他合适的标准对主题和/或主题描述进行互连。语料库502可以包括具有非结构化文本形式的大量企业特定的、用户特定的和/或公共信息。在示例性实施方式中,语料库502包括跨本文描述的各个区域102存储的主分片108。如本文所述,所提取的主题402和/或挖掘的主题描述可以经由企业生态系统中常用的各种系统或计算资源(例如,生产力套件应用,例如经由Office />生产力套件应用提供的应用)被无缝递送到接收方。
在各种实施方式中,挖掘过程500可以针对诸如项目之类的特定主题类型来执行。个体主题类型可以由一个或多个模式来定义。项目是主题402的示例,可以经由各种NLP技术为主题402生成主题描述。其他主题类型包括但不限于人员的姓名、产品、服务或适合各种主题建模技术(例如,级联线性判别分析(CLDA)分类器、非负矩阵分解(NMF)和/或诸如例如BERT之类的基于转换器的模型)的任何其他主题类型。在一些实施方式中,个体主题描述可以被包括在知识图谱400中。概括地描述,挖掘过程500可以使用主题模板来识别候选主题名称,并且生成与候选主题名称相对应的提取物。在一些实施方式中,主题模板可以包括具有用于插入个体候选主题的属性的格式化值的占位符的文本或其他格式化数据。主题模板可以包括每个主题类型的许多模板。个体主题模板可以应用于来自语料库502的可以包含单个词或多个词实体类型的各种文本窗口或片段。
挖掘过程500可以包括用于基于本文所述的一个或多个ML模型504从语料库502提取主题描述的操作506。如下所述,可以从这些提取的主题描述中识别候选主题或“术语”。在一些实施方式中,在操作506处部署的ML模型504可以包括为定义挖掘而专门开发的各种NLP理解模型。在一个示例性实施例中,ML模型504包括BERT模型,所述BERT模型已经被专门配置为执行定义分类任务,并且其已经通过使用从BERT获得的概率分对数(logit)训练双向LSTM模型被进一步提炼出。可以基于ML模型504从语料库502提取的示例性主题描述可落入包括但不限于定义、非定义、信息性、人员定义和参考性的各种类别或标注。为了本公开内容的目的,主题描述的类别或标注可以被定义如下:
如果所提取的主题描述明确指代该术语并且可以唯一地定义该术语,则它可以被标注为“定义”。如果它还没有这样出现,则所提取的主题描述可以被改写为“X是Y并且不能使用Y定义其他术语Z”的形式。从这个意义上说,主题“统计学”的示例性定义类型的主题描述可以是:统计学是数学的一个分支,涉及数据收集、组织、分析、解释和表示。
如果所提取的主题描述提供与主题相关的信息或上下文但仍不能唯一地定义该主题,则它可以被标注为“信息”。从这个意义上说,主题“统计学”的示例性信息类型的主题描述可以是:统计学是数学的一个分支。
如果所提取的主题描述提供与人员的姓名相关的信息,则它可以被标注为“人员定义”。从这个意义上说,主题(在本例中为姓名)“Peter Clark”的示例性人员定义类型的主题描述可以是:Peter Clark是CEA的高级助理,在空气污染问题的技术、政治和法律分析方面具有丰富的经验。
如果所提取的主题描述在定义内但包含主题的明确术语使用实例但确实包含对主题的参考,则它可以被标注为“参考性”。从这个意义上说,示例性参考性类型的主题描述可以是:该方法用于识别将正类与负类分开的超平面。
如果所提取的主题描述提供与主题相关的信息或上下文但不落入任何前述标注,则它可以被标注为“非定义”。从这个意义上说,示例性非定义类型的主题描述可以是:Caterpillar 797B是我见过的最大的汽车。
挖掘过程500还可以包括用于从所提取的主题描述内识别候选主题(例如,术语)的操作508。在一些实施方式中,操作506对应于基于规则的术语提取器的使用,所述术语提取器被应用于在操作506处提取的主题描述。概括地描述,基于规则的术语提取器可以被配置为从主题描述中识别术语(例如,主题)。在一些实施方式中,基于规则的术语提取器可以基于以下假设:基本上所有定义句子都包括有限且可识别数量和/或类型的动词短语。示例性的此类动词短语可以包括但不一定限于“被定义为”、“意味着”和“是”。基于规则的术语提取器还可以基于以下假设:此类定义句子的主语或主题出现在这些动词短语模式的左侧。例如,句子“统计学是数学的一个分支,涉及数据收集、组织、分析、解释和表示”在动词短语模式“是”的左侧包括主题“统计学”,然后是与该主题相对应的定义类型的主题描述。
挖掘过程500还可以包括用于确定与主题描述相关联的源上下文的操作510。例如,操作510可以包括确定与个体主题描述相关联的作者和/或一些作者。在一些实施方式中,所识别的源上下文可以包括创作一个或多个主题描述的人员的权威地位、个体主题描述的跨用户账户和/或企业计算资源的传播级别、从中提取主题描述的源文档的属性,等等。
如图3中所示,在一些实施例中,操作510可以包括观点过滤。例如,可以理解,在一些情况下,从语料库502提取的主题描述可以具有观点元素。由于可能不希望包含在个体主题描述内的观点给接收者带来偏见,因此在一些实施方式中,被识别为具有观点元素的主题描述可以被过滤掉(例如,移除/丢弃)和/或被标记为本质上的观点。
挖掘过程500还可以包括操作512,在操作512处,参考跨多个区域102分布的KB分片114,将所提取的主题和/或其主题描述添加到知识图谱400。如图所示,知识图谱400可以定义主题402和一个或多个个体KB分片114之间的各种互连关系,其可以由存储在个体KB分片的相同区域中的信息支持。示例性互连关系可以包括例如相关专家、频繁一起使用、类似、歧义消除,等等。如上所述(例如,结合图3),在查询时,服务平台116可以选择性地查询当前存储与主题402相关的KB分片114的区域102。然后,服务平台116可以重构主题402的KB分片114,并且将经重构的主题402显现给用户。
图6是说明性过程600的流程图,过程600被示为逻辑流程图中的框的集合,其表示可以以硬件、软件或者它们的组合实现的操作序列。在软件的上下文中,框表示计算机可执行指令,所述计算机可执行指令当由一个或多个处理器执行时,执行所阐述的操作。通常,计算机可执行指令包括执行或实现特定功能的例程、程序、对象、组件、数据结构等。对操作进行描述的顺序不旨在被解释为限制,并且可以以任何顺序和/或并行地对任何数量的所描述的框进行组合以实现过程。应当相应地解释贯穿本公开内容描述的其他过程。
现在转到图6,示出了用于使得根据当前存储与对应于知识库状态的个体知识库分片相对应的数据对象的特定区域来存储该个体知识库分片的示例性过程600的流程图。例如,如果基于从当前存储在第一区域内的数据对象提取的信息来生成第一KB分片,则将使得该第一KB分片被存储在该第一区域内。
在框601处,系统从跨多个区域分布的企业数据生成语料库。例如,语料库可以包括存储在第一区域内的第一数据和存储在第二区域内的第二数据。
在框603处,系统将语料库输入到一个或多个机器学习模型中。一个或多个机器学习模型可以被配置为从语料库提取多个主题描述。例如,可以提取与特定主题相关的主题描述,然后可以根据基于规则的术语提取器从所提取的主题描述中解析该特定主题。另外地或替代地,一个或多个机器学习模型可以被配置为基于与多个主题描述中的个体主题描述相关联的一个或多个源上下文来生成多个主题描述的排序列表。例如,可以基于创作一个或多个主题描述的人员的权威地位、个体主题描述的跨用户账户和/或企业计算资源的传播级别、从中提取主题描述的源文档的属性等来对主题描述进行排序。关于个体主题描述的传播级别,可以基于个体主题描述已经被分发到企业内的个体用户账户的程度来将个体主题描述放置/排序在排序列表内。例如,从广泛发布的文档中提取的主题描述的排序可能高于从仅与少数人员共享或专门驻留在个体用户的私人数据中的不同文档中提取的另一个主题描述。
在框605处,系统接收由一个或多个机器学习模型生成的输出。输出可以对应于KB状态,并且因此可以包括多个提取的主题描述和由基于规则的术语提取器从主题描述解析出的相应主题术语。另外地或替代地,输出可以包括多个提取的主题描述的排序列表。概括地描述,排序列表可以指示相对于其他主题描述来显露个体主题描述的相对优先级。另外地或替代地,输出可以指示已经从其中提取了多个提取的主题描述的文档的底层源上下文。示例性主题可以包括但不限于相关文件、站点、人员和内容,例如从各种合适的消息传送平台(例如,电子邮件、Yammer、Teams等)收集的消息。
在框607处,系统可以将KB状态提炼为用户可见的KB实体。因此,应当理解,系统可以生成KB状态和用户可见的KB中的每一个——它们中的每一个都可以根据区域而被分片。KB状态和/或用户可见的KB可以对应于本文描述的多个KB分片。例如,KB状态可以对应于第一KB分片和第二KB分片,所述第一KB分片包括已经从存储在第一区域内的第一数据提取的信息,所述第二KB分片包括已经从存储在第二区域内的第二数据提取的其他信息。
在框609处,系统可以使得个体KB分片被存储在当前存储个体KB分片底层的信息的特定区域中。例如,系统可能使得:(i)由于已经从存储在第一区域内的第一数据提取了第一KB分片内的信息,因此第一KB分片将被存储在第一区域内,以及(ii)由于已经从存储在第二区域内的第二数据提取了第二KB分片内的信息,因此第二KB分片将被存储在第二区域内。
图7示出了能够执行本文描述的技术的计算机的示例性计算机架构700的附加细节。图7所示的计算机架构700示出了服务器计算机或服务器计算机网络或适用于实现本文所述功能的任何其他类型的计算设备的架构。计算机架构700可以用于执行本文提出的软件组件的任何方面。
图7所示的计算机架构700包括中央处理单元702(“CPU”)、包括随机存取存储器706(“RAM”)和只读存储器(“ROM”)708的系统存储器704、以及将存储器耦合至CPU 702的系统总线710。包含有助于在计算机架构700内的输入控件之间传输信息(如在启动期间)的基本例程的基本输入/输出系统被存储在ROM 708中。计算机架构700还包括用于存储操作系统714、其他数据、以及一个或多个应用程序的大容量存储设备712。
大容量存储设备712通过连接到总线710的大容量存储控制器(未示出)连接到CPU702。大容量存储设备712及其相关联的计算机可读介质为计算机架构700提供非易失性存储。尽管本文中包含的计算机可读介质的描述提及了诸如固态驱动器、硬盘或CD-ROM驱动器的大容量存储设备,但本领域技术人员应当理解,计算机可读介质可以是能够由计算机架构700访问的任何可用计算机存储介质或通信介质。
通信介质包括计算机可读指令、数据结构、程序模块或者诸如载波波形或其他传输机制中的其他数据之类的经调制的数据信号,并且包括任何递送介质。术语“经调制的数据信号”意指其一个或多个特性以用于对信号中的信息进行编码的方式来设置或改变的信号。通过举例而非限制的方式,通信介质包括诸如有线网络或直接线连接之类的有线介质,以及诸如声音、RF、红外线和其他无线介质之类的无线介质。上述各项中任意项的组合也应当被包括在计算机可读介质的范围之内。
通过举例而非限制的方式,计算机存储介质可以包括用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的、以任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。例如,计算机介质包括但不限于:RAM、ROM、EPROM、EEPROM、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(“DVD”)、HD-DVD、BLU-RAY或其他光学存储设备、磁带盒、磁带、磁盘存储设备或其他磁存储设备、或者可用于存储所需的信息且可由计算机架构700访问的任何其他介质。出于权利要求的目的,短语“计算机存储介质”、“计算机可读存储介质”及其变型本身不包括波、信号和/或其他瞬态和/或无形通信介质。
根据各种技术,计算机架构700可以使用通过网络750和/或另一个网络(未示出)到远程计算机的逻辑连接在联网环境中进行操作。计算机架构700可以通过连接到总线710的网络接口单元716连接到网络750。应当理解,网络接口单元716也可以用于连接其他类型的网络和远程计算机系统。计算机架构700还可以包括用于接收和处理来自包括键盘、鼠标或电子手写笔(图7中未示出)的多个其他设备的输入的输入/输出控制器718。类似地,输入/输出控制器718可以向显示屏幕、打印机或其他类型的输出设备(图7中也未示出)提供输出。
应当理解,本文中描述的软件组件当被加载到CPU 702中并被执行时,将CPU 702和整个计算机架构700从通用计算系统变换成专门定制以便利本文中呈现的功能的专用计算系统。CPU 702可以由任何数量的晶体管或其他分立电路输入控件构成,其可以单独地或共同地呈现任何数量的状态。更具体地,响应于包含在本文中公开的软件模块内的可执行指令,CPU 702可以充当有限状态机。这些计算机可执行指令可以通过指定CPU 702如何在状态之间转换来变换CPU 702,从而变换构成CPU 702的晶体管或其他分立硬件输入控件。
对本文中提出的软件模块进行编码还可以转换本文中提出的计算机可读介质的物理结构。物理结构的具体转换可以依赖于本说明书的不同实施方式中的各种因素。这些因素的示例可以包括但不限于:用于实现计算机可读介质的技术、计算机可读介质被表征为主存储器还是辅助存储器等。例如,如果计算机可读介质被实现为基于半导体的存储器,则可以通过转换半导体存储器的物理状态来将本文中公开的软件编码在计算机可读介质上。例如,软件可以转换构成半导体存储器的晶体管、电容器或其他分立电路输入控件的状态。软件还可以转换这些组件的物理状态,以便在其上存储数据。
作为另一示例,本文中公开的计算机可读介质可以使用磁或光技术来实现。在这样的实现中,当在其中编码软件时,本文中提出的软件可以转换磁或光介质的物理状态。这些转换可以包括改变给定磁介质内特定位置的磁特性。这些转换还可以包括改变给定光学介质内的特定位置的物理特征或特性,以更改那些位置的光学特性。物理介质的其他转换是可能的而不脱离本说明书的范围和精神,提供前述示例仅为了便利该讨论。
鉴于上述描述,应当理解,在计算机架构700中发生许多类型的物理转换,以便存储和执行本文中提出的软件组件。还应当理解,计算机架构700可以包括其他类型的计算设备,包括手持式计算机、嵌入式计算机系统、个人数字助理以及本领域技术人员已知的其他类型的计算设备。还设想的是,计算机架构700可以不包括图7所示的所有组件,可以包括图7中未明确示出的其他组件,或者可以使用与图7所示架构完全不同的架构。
示例性条款
示例性条款1、一种计算机实现的方法,所述方法包括:接收语料库,所述语料库至少包括:存储于在第一区域内操作的至少一个第一企业计算资源内的第一企业数据,以及存储于在第二区域内操作的至少一个第二企业计算资源内的第二企业数据;将所述语料库输入到被配置为输出与多个主题相对应的数据提取物的机器学习(ML)模型中;从所述ML模型接收输出,所述输出至少包括:从所述第一企业数据提取的第一数据提取物,以及从所述第二企业数据提取的第二数据提取物;基于所述输出,生成知识库(KB)状态,所述KB状态定义特定主题与至少以下项之间的参考:基于所述第一数据提取物生成的第一KB分片,以及基于所述第二数据提取物生成的第二KB分片;使得所述第一KB分片被存储在所述至少一个第一企业计算资源内;以及使得所述第二KB分片被存储在所述至少一个第二企业计算资源内。
示例性条款2、根据示例性条款1所述的计算机实现的方法,还包括:生成站点区域图,其至少包括:所述第一KB分片和所述ML模型从中提取所述第一KB分片中的第一信息的第一数据对象之间的关联,以及关于所述第一数据对象被存储于在所述第一区域内操作的所述至少一个第一企业计算资源内的指示。
示例性条款3、根据示例性条款2所述的计算机实现的方法,还包括:检测所述第一数据对象从在所述第一区域内操作的所述至少一个第一企业计算资源到在第三区域内操作的至少一个第三企业计算资源的迁移;响应于所述迁移:使得所述第一KB分片被存储于在所述第三区域内操作的所述至少一个第三企业计算资源内;以及更新主题区域图以指示所述第一数据对象被存储于在所述第三区域内操作的所述至少一个第三企业计算资源内。
示例性条款4、根据示例性条款1所述的计算机实现的方法,还包括:将所述KB状态提供给至少一个服务平台,所述至少一个服务平台被配置为通过重构存储在所述至少一个第一企业计算资源内的所述第一KB分片和存储在所述至少一个第二企业计算资源内的所述第二KB分片来显现所述特定主题。
示例性条款5、根据示例性条款4所述的计算机实现的方法,其中,所述至少一个服务平台在所述第一区域内操作,并且其中,所述至少一个服务平台还被配置为将区域特定查询发送到所述至少一个第二企业计算资源以请求所述第二KB分片。
示例性条款6、根据示例性条款1所述的计算机实现的方法,其中:所述第一KB分片不被存储在所述至少一个第二企业计算资源中;并且所述第二KB分片不被存储在所述至少一个第一企业计算资源中。
示例性条款7、根据示例性条款1所述的计算机实现的方法,还包括:在所述第一区域处接收来自客户端设备的与所述特定主题相对应的请求;响应于所述请求,向所述至少一个第二企业计算资源发送区域特定查询以请求所述第二KB分片;在所述第一区域处从所述至少一个第二企业计算资源接收所述第二KB分片;以及在所述第一区域处将所述第一KB分片和所述第二KB分片重构为所述特定主题。
示例性条款8、一种系统,其包括:一个或多个处理器;以及至少一个计算机存储介质,其具有存储在其上的计算机可执行指令,所述计算机可执行指令在由所述一个或多个处理器执行时使得所述系统:接收语料库,所述语料库至少包括:存储于在第一区域内操作的至少一个第一企业计算资源内的第一企业数据,以及存储于在第二区域内操作的至少一个第二企业计算资源内的第二企业数据;将所述语料库输入到被配置为输出与多个主题相对应的数据提取物的机器学习(ML)模型中;基于所述输出,生成知识库(KB)状态,所述KB状态定义特定主题与至少以下项之间的参考:第一KB分片以及第二KB分片;使得所述第一KB分片被存储在所述至少一个第一企业计算资源内;以及使得所述第二KB分片被存储在所述至少一个第二企业计算资源内。
示例性条款9、根据示例性条款8所述的系统,其中,所述计算机可执行指令还使得所述系统:生成站点区域图,其至少包括:所述第一KB分片和所述ML模型从中提取所述第一KB分片中的第一信息的第一数据对象之间的关联,以及关于所述第一数据对象被存储于在所述第一区域内操作的所述至少一个第一企业计算资源内的指示。
示例性条款10、根据示例性条款9所述的系统,其中,所述计算机可执行指令还使得所述系统:检测所述第一数据对象从在所述第一区域内操作的所述至少一个第一企业计算资源到在第三区域内操作的至少一个第三企业计算资源的迁移;响应于所述迁移:使得所述第一KB分片被存储于在所述第三区域内操作的所述至少一个第三企业计算资源内;以及更新主题区域图以指示所述第一数据对象被存储于在所述第三区域内操作的所述至少一个第三企业计算资源内。
示例性条款11、根据示例性条款8所述的系统,其中,所述计算机可执行指令还使得所述系统:将所述KB状态提供给至少一个服务平台,所述至少一个服务平台被配置为通过重构存储在所述至少一个第一企业计算资源内的所述第一KB分片和存储在所述至少一个第二企业计算资源内的所述第二KB分片来显现所述特定主题。
示例性条款12、根据示例性条款11所述的系统,其中,所述至少一个服务平台在所述第一区域内操作,并且其中,所述至少一个服务平台还被配置为将区域特定查询发送到所述至少一个第二企业计算资源以请求所述第二KB分片。
示例性条款13、根据示例性条款8所述的系统,其中,所述计算机可执行指令还使得所述系统:从所述ML模型接收输出,所述输出至少包括:从所述第一企业数据提取的第一数据提取物,以及从所述第二企业数据提取的第二数据提取物,其中:所述第一KB分片是基于所述第一数据提取物生成的,并且所述第二KB分片是基于所述第二数据提取物生成的。
示例性条款14、根据示例性条款8所述的系统,其中,所述计算机可执行指令还使得所述系统:在所述第一区域处接收来自客户端设备的与所述特定主题相对应的请求;响应于所述请求,向所述至少一个第二企业计算资源发送区域特定查询以请求所述第二KB分片;在所述第一区域处从所述至少一个第二企业计算资源接收所述第二KB分片;以及在所述第一区域处将所述第一KB分片和所述第二KB分片重构为所述特定主题。
示例性条款15、一种存储指令的计算机可读存储介质,所述指令在由设备的至少一个硬件处理器执行时使得所述设备执行包括以下项的操作:接收语料库,所述语料库至少包括:存储于在第一区域内操作的至少一个第一企业计算资源内的第一企业数据,以及存储于在第二区域内操作的至少一个第二企业计算资源内的第二企业数据;将所述语料库输入到被配置为输出与多个主题相对应的数据提取物的机器学习(ML)模型中;基于所述数据提取物,生成知识库(KB)状态,所述知识库(KB)状态定义特定主题与至少以下项之间的参考:基于所述第一企业数据生成的第一KB分片,以及基于所述第二企业数据生成的第二KB分片;使得所述第一KB分片被存储在所述至少一个第一企业计算资源内;以及使得所述第二KB分片被存储在所述至少一个第二企业计算资源内。
示例性条款16、根据示例性条款15所述的计算机可读存储介质,其中,所述操作还包括:生成站点区域图,其至少包括:所述第一KB分片和所述ML模型从中提取所述第一KB分片中的第一信息的第一数据对象之间的关联,以及关于所述第一数据对象被存储于在所述第一区域内操作的所述至少一个第一企业计算资源内的指示。
示例性条款17、根据示例性条款16所述的计算机可读存储介质,其中,所述操作还包括:检测所述第一数据对象从在所述第一区域内操作的所述至少一个第一企业计算资源到在第三区域内操作的至少一个第三企业计算资源的迁移;响应于所述迁移:使得所述第一KB分片被存储于在所述第三区域内操作的所述至少一个第三企业计算资源内;以及更新主题区域图以指示所述第一数据对象被存储于在所述第三区域内操作的所述至少一个第三企业计算资源内。
示例性条款18、根据示例性条款15所述的计算机可读存储介质,其中,所述操作还包括:从所述ML模型接收输出,所述输出至少包括:从所述第一企业数据提取的第一数据提取物,以及从所述第二企业数据提取的第二数据提取物,其中:所述第一KB分片是基于所述第一数据提取物生成的,并且所述第二KB分片是基于所述第二数据提取物生成的。
示例性条款19、根据示例性条款15所述的计算机可读存储介质,其中,所述操作还包括:将所述KB状态提供给至少一个服务平台,所述至少一个服务平台被配置为通过重构存储在所述至少一个第一企业计算资源内的所述第一KB分片和存储在所述至少一个第二企业计算资源内的所述第二KB分片来显现所述特定主题。
示例性条款20、根据示例性条款15所述的计算机可读存储介质,其中,所述至少一个服务平台在所述第一区域内操作,并且其中,所述至少一个服务平台还被配置为将区域特定查询发送到所述至少一个第二企业计算资源以请求所述第二KB分片。
结论
最后,虽然以特定于结构特征和/或方法动作的语言对各种技术进行了描述,但应当理解,所附表示中定义的发明主题并不一定受限于上述具体特征或动作。更准确地说,特定特征和动作是作为实现要求保护的发明主题的示例性形式而被公开的。

Claims (15)

1.一种计算机实现的方法,所述方法包括:
接收语料库,所述语料库至少包括:存储于在第一区域内操作的至少一个第一企业计算资源内的第一企业数据,以及存储于在第二区域内操作的至少一个第二企业计算资源内的第二企业数据;
将所述语料库输入到被配置为输出与多个主题相对应的数据提取物的机器学习(ML)模型中;
从所述ML模型接收输出,所述输出至少包括:从所述第一企业数据提取的第一数据提取物,以及从所述第二企业数据提取的第二数据提取物;
基于所述输出,生成知识库(KB)状态,所述KB状态定义特定主题与至少以下项之间的参考:基于所述第一数据提取物生成的第一KB分片,以及基于所述第二数据提取物生成的第二KB分片;
使得所述第一KB分片被存储在所述至少一个第一企业计算资源内;以及
使得所述第二KB分片被存储在所述至少一个第二企业计算资源内。
2.根据权利要求1所述的计算机实现的方法,还包括:
生成站点区域图,其至少包括:所述第一KB分片和所述ML模型从中提取所述第一KB分片中的第一信息的第一数据对象之间的关联,以及关于所述第一数据对象被存储于在所述第一区域内操作的所述至少一个第一企业计算资源内的指示。
3.根据权利要求2所述的计算机实现的方法,还包括:
检测所述第一数据对象从在所述第一区域内操作的所述至少一个第一企业计算资源到在第三区域内操作的至少一个第三企业计算资源的迁移;
响应于所述迁移:
使得所述第一KB分片被存储于在所述第三区域内操作的所述至少一个第三企业计算资源内;以及
更新主题区域图以指示所述第一数据对象被存储于在所述第三区域内操作的所述至少一个第三企业计算资源内。
4.根据权利要求1所述的计算机实现的方法,还包括:
将所述KB状态提供给至少一个服务平台,所述至少一个服务平台被配置为通过重构存储在所述至少一个第一企业计算资源内的所述第一KB分片和存储在所述至少一个第二企业计算资源内的所述第二KB分片来显现所述特定主题。
5.根据权利要求4所述的计算机实现的方法,其中,所述至少一个服务平台在所述第一区域内操作,并且其中,所述至少一个服务平台还被配置为将区域特定查询发送到所述至少一个第二企业计算资源以请求所述第二KB分片。
6.根据权利要求1所述的计算机实现的方法,其中:
所述第一KB分片不被存储在所述至少一个第二企业计算资源中;并且
所述第二KB分片不被存储在所述至少一个第一企业计算资源中。
7.根据权利要求1所述的计算机实现的方法,还包括:
在所述第一区域处接收来自客户端设备的与所述特定主题相对应的请求;
响应于所述请求,向所述至少一个第二企业计算资源发送区域特定查询以请求所述第二KB分片;
在所述第一区域处从所述至少一个第二企业计算资源接收所述第二KB分片;以及
在所述第一区域处将所述第一KB分片和所述第二KB分片重构为所述特定主题。
8.一种系统,其包括:
一个或多个处理器;以及
至少一个计算机存储介质,其具有存储在其上的计算机可执行指令,所述计算机可执行指令在由所述一个或多个处理器执行时使得所述系统:
接收语料库,所述语料库至少包括:存储于在第一区域内操作的至少一个第一企业计算资源内的第一企业数据,以及存储于在第二区域内操作的至少一个第二企业计算资源内的第二企业数据;
将所述语料库输入到被配置为输出与多个主题相对应的数据提取物的机器学习(ML)模型中;
基于所述输出,生成知识库(KB)状态,所述KB状态定义特定主题与至少以下项之间的参考:第一KB分片以及第二KB分片;
使得所述第一KB分片被存储在所述至少一个第一企业计算资源内;以及
使得所述第二KB分片被存储在所述至少一个第二企业计算资源内。
9.根据权利要求8所述的系统,其中,所述计算机可执行指令还使得所述系统:
生成站点区域图,其至少包括:所述第一KB分片和所述ML模型从中提取所述第一KB分片中的第一信息的第一数据对象之间的关联,以及关于所述第一数据对象被存储于在所述第一区域内操作的所述至少一个第一企业计算资源内的指示。
10.根据权利要求9所述的系统,其中,所述计算机可执行指令还使得所述系统:
检测所述第一数据对象从在所述第一区域内操作的所述至少一个第一企业计算资源到在第三区域内操作的至少一个第三企业计算资源的迁移;
响应于所述迁移:
使得所述第一KB分片被存储于在所述第三区域内操作的所述至少一个第三企业计算资源内;以及
更新主题区域图以指示所述第一数据对象被存储于在所述第三区域内操作的所述至少一个第三企业计算资源内。
11.根据权利要求8所述的系统,其中,所述计算机可执行指令还使得所述系统:
将所述KB状态提供给至少一个服务平台,所述至少一个服务平台被配置为通过重构存储在所述至少一个第一企业计算资源内的所述第一KB分片和存储在所述至少一个第二企业计算资源内的所述第二KB分片来显现所述特定主题。
12.根据权利要求11所述的系统,其中,所述至少一个服务平台在所述第一区域内操作,并且其中,所述至少一个服务平台还被配置为将区域特定查询发送到所述至少一个第二企业计算资源以请求所述第二KB分片。
13.根据权利要求8所述的系统,其中,所述计算机可执行指令还使得所述系统:
从所述ML模型接收输出,所述输出至少包括:从所述第一企业数据提取的第一数据提取物,以及从所述第二企业数据提取的第二数据提取物,其中:
所述第一KB分片是基于所述第一数据提取物生成的,并且
所述第二KB分片是基于所述第二数据提取物生成的。
14.根据权利要求8所述的系统,其中,所述计算机可执行指令还使得所述系统:
在所述第一区域处接收来自客户端设备的与所述特定主题相对应的请求;
响应于所述请求,向所述至少一个第二企业计算资源发送区域特定查询以请求所述第二KB分片;
在所述第一区域处从所述至少一个第二企业计算资源接收所述第二KB分片;以及
在所述第一区域处将所述第一KB分片和所述第二KB分片重构为所述特定主题。
15.一种存储指令的计算机可读存储介质,所述指令在由设备的至少一个硬件处理器执行时使得所述设备执行包括以下项的操作:
接收语料库,所述语料库至少包括:存储于在第一区域内操作的至少一个第一企业计算资源内的第一企业数据,以及存储于在第二区域内操作的至少一个第二企业计算资源内的第二企业数据;
将所述语料库输入到被配置为输出与多个主题相对应的数据提取物的机器学习(ML)模型中;
基于所述数据提取物,生成知识库(KB)状态,所述知识库(KB)状态定义特定主题与至少以下项之间的参考:基于所述第一企业数据生成的第一KB分片,以及基于所述第二企业数据生成的第二KB分片;
使得所述第一KB分片被存储在所述至少一个第一企业计算资源内;以及
使得所述第二KB分片被存储在所述至少一个第二企业计算资源内。
CN202280019211.2A 2021-03-05 2022-02-23 从区域分离的数据存储库中提取并显现主题描述 Pending CN117063171A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163157430P 2021-03-05 2021-03-05
US63/157,430 2021-03-05
US17/210,414 2021-03-23
US17/210,414 US11586662B2 (en) 2021-03-05 2021-03-23 Extracting and surfacing topic descriptions from regionally separated data stores
PCT/US2022/017444 WO2022187045A1 (en) 2021-03-05 2022-02-23 Extracting and surfacing topic descriptions from regionally separated data stores

Publications (1)

Publication Number Publication Date
CN117063171A true CN117063171A (zh) 2023-11-14

Family

ID=83117213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280019211.2A Pending CN117063171A (zh) 2021-03-05 2022-02-23 从区域分离的数据存储库中提取并显现主题描述

Country Status (2)

Country Link
US (1) US11586662B2 (zh)
CN (1) CN117063171A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230078197A1 (en) * 2021-09-16 2023-03-16 Cisco Technology, Inc. Enforcing data sovereignty policies for object-based storage

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7890452B2 (en) 2005-07-13 2011-02-15 Sap Ag Methods for enterprise-level data and process access and presentation
US9275129B2 (en) 2006-01-23 2016-03-01 Symantec Corporation Methods and systems to efficiently find similar and near-duplicate emails and files
US7987152B1 (en) 2008-10-03 2011-07-26 Gadir Omar M A Federation of clusters for enterprise data management
US10997211B2 (en) 2010-12-23 2021-05-04 Mongodb, Inc. Systems and methods for database zone sharding and API integration
US10740396B2 (en) 2013-05-24 2020-08-11 Sap Se Representing enterprise data in a knowledge graph
CN109313742A (zh) * 2017-05-16 2019-02-05 北京嘀嘀无限科技发展有限公司 确定预估到达时间的方法及系统
US10241992B1 (en) * 2018-04-27 2019-03-26 Open Text Sa Ulc Table item information extraction with continuous machine learning through local and global models
KR20210101496A (ko) * 2020-02-10 2021-08-19 삼성전자주식회사 외부 전자 장치의 상태에 기반하여 통신하는 방법 및 그 전자 장치
US11768849B2 (en) * 2021-03-15 2023-09-26 Microsoft Technology Licensing, Llc Extensible data platform with database domain extensions

Also Published As

Publication number Publication date
US20220284052A1 (en) 2022-09-08
US11586662B2 (en) 2023-02-21

Similar Documents

Publication Publication Date Title
US11256724B2 (en) Systems and methods for probabilistic data classification
US10540419B2 (en) System for synchronization of changes in edited websites and interactive applications
US20180239796A1 (en) Multi-tenant distribution of graph database caches
US20080270462A1 (en) System and Method of Uniformly Classifying Information Objects with Metadata Across Heterogeneous Data Stores
US7685106B2 (en) Sharing of full text index entries across application boundaries
US11163906B2 (en) Adaptive redaction and data releasability systems using dynamic parameters and user defined rule sets
US20150154306A1 (en) Method for searching related entities through entity co-occurrence
US20180144061A1 (en) Edge store designs for graph databases
KR20040088366A (ko) 색인 지정 및 검색 방법, 및 이를 위한 소프트웨어를포함하는 매체
US20210109952A1 (en) Incremental clustering for enterprise knowledge graph
WO2022081812A1 (en) Artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations
CN107491558B (zh) 元数据更新方法及装置
CN116108826A (zh) 用于设计者的智能改变总结
CN117063171A (zh) 从区域分离的数据存储库中提取并显现主题描述
US11604783B2 (en) System having a content consistency service for a collaboration tool
US20180144060A1 (en) Processing deleted edges in graph databases
US20220391356A1 (en) Duplicate file management for content management systems and for migration to such systems
US11874939B2 (en) Generating user-specific entity interlinkages of extracted enterprise topic descriptions
WO2022187045A1 (en) Extracting and surfacing topic descriptions from regionally separated data stores
US9904697B2 (en) Managing versions of cases
CN111625538B (zh) 基于虚拟数据表技术的数据处理方法、装置及电子设备
Tahiri Alaoui An approach to automatically update the Spanish DBpedia using DBpedia Databus
Jeffrey et al. When ontology and reality collide: the Archaeotools Project, faceted classification and natural language processing in an archaeological context
CN114625755A (zh) 脚本校验方法、装置、电子设备及存储介质
CN117216182A (zh) 文档索引页面的生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination