CN111611266A - 知识驱动的联合大数据查询和分析平台 - Google Patents
知识驱动的联合大数据查询和分析平台 Download PDFInfo
- Publication number
- CN111611266A CN111611266A CN202010106183.0A CN202010106183A CN111611266A CN 111611266 A CN111611266 A CN 111611266A CN 202010106183 A CN202010106183 A CN 202010106183A CN 111611266 A CN111611266 A CN 111611266A
- Authority
- CN
- China
- Prior art keywords
- data
- query
- store
- federated
- queries
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012800 visualization Methods 0.000 claims abstract description 10
- 230000002452 interceptive effect Effects 0.000 claims abstract description 7
- 238000010801 machine learning Methods 0.000 claims abstract description 6
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 5
- 230000004044 response Effects 0.000 claims abstract description 5
- 238000013500 data storage Methods 0.000 claims description 20
- 238000007405 data analysis Methods 0.000 claims 1
- 230000008676 import Effects 0.000 claims 1
- 238000013459 approach Methods 0.000 description 12
- 230000007246 mechanism Effects 0.000 description 12
- 238000003860 storage Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 239000000654 additive Substances 0.000 description 5
- 230000000996 additive effect Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000037406 food intake Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013550 semantic technology Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24542—Plan optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2428—Query predicate definition using graphical user interfaces, including menus and forms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/256—Integrating or interfacing systems involving database management systems in federated or virtual databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Library & Information Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Operations Research (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于查询联合数据存储的系统,包括:描述一个或多个基础数据存储中的内容和关系的元数据知识图;接收来自数据使用者的请求的交互式用户界面;包含预定义的可约束查询的预定义的可约束查询(‘节点组’)存储,预定义的可约束查询定义跨一个或多个基础数据存储库的感兴趣的数据子集;知识驱动的查询层,其针对联合数据存储生成并执行查询,和合并响应的结果;可扩展分析执行层,其接收来自联合数据存储的搜索结果,并应用机器学习/人工智能技术来分析结果;以及用户界面,其向使用者呈现原始结果或分析结果的可视化。还公开了一种方法和非暂时性计算机可读介质。
Description
背景技术
在许多企业和/或组织(例如,商业/工业、学术、政府、医疗等)中,可以使用和存储多种不同类型的数据,例如,时间序列、属性图、字符串表、数字数据、图像或其他大文件(可存储为二进制大对象(BLOB))等。由于这些数据集在格式和内容方面差异很大,因此以集成方式跨数据集进行查询的基础很小。此外,这些数据类型可以位于本地和/或远程分布的多个数据存储中。用户手动生成多个查询以询问跨分布式源的不同数据类型的传统方法在时间、网络容量和基础设施方面非常繁琐。这种类型的方法还要求用户了解数据的存储位置、存储方式以及访问数据所需的特定查询语言和机制。传统方法不提供描述这些不同数据集的内容及其相互关系的机制,因此集成查询方法没有基础。
近年来,随着不同行业中生成和使用的数据量越来越大以及数据类型越来越多样,分析和使用从根本上联系在一起的多种不同的数据类型和格式的挑战日益增加。十多年来,数据创建一直在爆炸式增长,导致数据量和种类激增。
解决多模式数据集成问题的传统方法将所有不同类型的数据在单个存储库中塞进某种通用格式(例如,提取/转换/加载(ETL)操作到大型数据仓库中),获取许多不同类型的数据,其中许多数据本质上是非关系型的,并迫使它们成为关系型结构。对于数据存储和查询性能而言,此方法不是最佳方法。
另一种较新的传统方法要求将不同类型的数据形式收集到单个“无SQL”(NoSQL)数据存储中。NoSQL数据存储很有吸引力,因为它们对数据的形式或结构不作任何假设,但是,这也会导致数据存储和查询性能方面的性能不理想。访问NoSQL存储库的软件和系统必须事先了解数据的结构,以便与数据进行有意义的交互,每次从NoSQL存储检索任何数据时应用该结构。因此,这种传统方法也不够理想。首先,需要将数据重新定位到单个NoSQL数据存储中;其次,NoSQL数据存储忽略了传统上用于最小化数据存储占用量并最大化读取性能、写入性能或两者的不同数据格式的结构属性。NoSQL存储无法从任何此类优化中获益。
集成多模式数据集的另一种传统方法涉及构建复杂的中间件,其使用通用查询语言跨各种数据存储进行查询。但是,这种中间件方法的前提是用户了解每种类型的数据的存储位置,并根据需要调用适当的中间件组件。
本领域缺少的是一种系统,它提供多个不同数据存储的灵活的、逻辑视图,无需用户了解基础数据类型、位置和存储机制,并且还提供了一种描述不同数据及其之间的关系的方法。
发明内容
体现的系统和方法为用户提供了与各种异构数据交互的机制,就像这些数据都存储在同一物理系统中一样。此外,用户可以对该数据运行分析,而无需定义承载这些分析的外部环境。体现的系统和方法从用户那里消除了知道数据存储位置、如何存储数据或访问不同数据类型所需的特定查询语言和机制的负担。
根据实施例,为用户呈现单个逻辑接口,通过该接口,用户可以与数据进行交互并运行分析,而不需要与所查询的基础设施相关的知识或信息。实施例解决了对数据科学家和需要访问不同类型的数据来完成工作的其他人的重大挑战。多模式数据驱动的应用的开发得到了简化。开发人员可以使用具有体现接口的应用编程接口(API)来构建具有针对潜在的许多不同的联合数据存储的单个逻辑视图的应用。这些应用可以构建为将数据从联合数据存储取出和/或将数据推送到联合数据存储。软件开发人员也受益匪浅,因为在构建多模式数据驱动应用时,他们不必知道从每个不同数据存储库查询和检索数据所需的基础(underlying)数据存储层、查询语言和查询机制。此逻辑接口还可用于将数据推出(用于存储)到一个或多个不同的存储库。
与传统方法相反,体现的系统和方法不需要在搜索之前将数据移入单个存储库。相反,体现的接口是用户通过其进行交互、以生成对具有多种数据格式类型的多个数据存储的查询并从其接收结果的层。通过不将数据移动到单个搜索位置,体现的系统和方法避免网络上的过多流量,并减轻网络基础设施的负担,从而提高网络的整体性能——所有这些导致比以前的系统和方法得到改善。无论是技术上还是商业上,实施例都能够通过使选择和面向不同数据存储和数据类型的必要详情抽象化,为数据使用者和应用开发人员节省了大量的时间和精力。
体现的系统包括用于联合大数据存储的知识驱动的查询和分析平台。此查询和分析平台将位于不同数据存储(即,数据仓库、关系或柱数据库、知识图、时间序列历史数据库(historian)、文件存储等)中的不同类型的数据联系在一起,这样数据使用者就不必知道数据的物理位置;也不必知道不同的数据格式。
这种通过体现的系统进行的联系是在没有在执行数据的查询之前将数据移动到单个位置的传统需求的情况下实现的。通过根据需要搜索联合大数据存储环境的一个或多个元素,体现的系统和方法对提交到查询和分析平台的查询进行响应。根据实施例,查询和分析平台能够捕获和后端存储数据类型合适的存储介质中的多种多样的数据类型——每种数据类型都可以存储在存储库中,该存储库经过优化,用于高效存储和检索大量此类型的数据(例如,在大数据关系型数据库中捕获关系型数据、大数据历史数据库中的时间序列、大数据文件存储中的图像等)。
体现的查询和分析平台接口能够直接在数据存储基础设施内执行查询和分析,从而使数据移动最小化并加快分析运行时。可以实现本体、语义域模型和/或联系的知识图数据模型,以对这些存储的数据集和数据存储进行建模,并捕获数据集之间的关系。出于讨论目的,在本文档中,术语“知识图”、“本体”和“语义模型”可互换地用作建模机制,通过该建模机制,查询和分析平台描述了存储的数据集和不同数据集之间的关系。应该很容易理解,体现的系统和方法并不局限于任何特定的机制,而可以通过这些机制和可用于生成模型的任何其他机制来实现。
根据实施例,到查询和分析平台的查询提交可以由多种类型的数据使用者和/或用户生成。此处使用的术语“使用者”和“用户”可以指模拟、分析操作、联系的数据、不同角色的个人(例如,建模人员、开发人员、商人、学者、医疗和法律专业人员等)。
知识图捕获用于容纳数据的数据存储系统上的元数据,包括存储在每个存储库中的数据的模型、每个存储库中的该数据的结构、以及如何访问这些存储库以检索不同类型的数据的模型。构建在知识图数据和元数据之上的应用程序接口(API)使任何用户类型都可以经由单个接口与不同的数据进行无缝交互,而无需用户了解不同的物理数据存储位置或其相应的查询机制/要求。
实现体现的系统和方法可以联合预先存在的大数据系统。此处公开的系统和方法可以利用现有的数据存储,包括,例如(但不限于),可扩展语义三重存储、可扩展关系型数据库、可扩展时间序列数据存储、可扩展图像和文件存储等。实现体现的查询和分析平台避免了与将多种数据格式类型塞入数据存储的传统方法相关的问题,该方法对一种数据类型可能效率很高,但对另一种数据效率不高。
根据实施例,当用户(人员或分析人员)从一个或多个基础存储库请求数据时,通过查询层自动生成的查询,跨不同的数据存储检索数据。为了联系驻留在这些联合数据存储上的数据,可以在语义三重存储(例如,知识图数据库)中使本体(语义域模型)实例化,以对联合数据存储的基础数据和关系进行建模。此语义域模型可以捕获关于特定存储库的元数据,包括访问每种类型的数据的相应要求。为了响应用户查询,查询和分析平台可以使用此元数据以编程方式构造特定存储库的查询,并合并检索到的数据,而无需手动干预。
体现的系统有三层。后端层包括跨数据存储库的联合存储的各种数据。此后端层可以有多个存储库,每个存储库都针对基础存储效率、访问性能和分析执行进行了优化。中间层包括语义工具包,用于提供语义拖放查询生成和数据摄入(例如,语义工具包(SemTK)、GE Research、Niskayuna NY)。语义工具包通过利用用于容纳数据的数据存储系统的知识图模型,为接口提供语义技术栈。知识图层位于大数据存储之上,并操作为用户和分析通过其与各种存储进行交互的机制。语义工具包API可用于调用数据并与数据进行交互,无论数据存储在知识图中还是存储在其他存储库之一中。
前端层提供用户界面体验(UEX)设计。向用户呈现系统中存储的数据的单个逻辑视图,如通过知识图表示。UEX允许用户以交互方式探索数据,就像在单个存储库中捕获数据一样,给出单个逻辑数据存储系统的饰面(veneer)。该平台还允许用户使用知识图将数据指定为平台自身内部运行的分析的输入,以便分析可以有效地从整个联合存储库中取出数据,以优化分析运行时。
附图说明
图1示出了根据实施例的三层系统;
图2A-2D示出了根据实施例的示例性数据呈现;
图3示出了根据实施例的查询联合数据存储的过程;和
图4示出了根据实施例的实现图1的三层系统的系统。
具体实施方式
图1显示了根据实施例的三层系统100。前端层110包括查询和分析平台112,查询和分析平台112包含了用户界面体验(UEX)114、可扩展分析执行层116、知识驱动的查询层118以及预定义的可约束查询(称为“节点组”)存储119。查询和分析平台为用户提供了单个通用界面的饰面,用户可以从其指定分析数据要求,而与存储库类型和位置、数据格式以及查询语言无关。可以从用户请求生成基础数据的查询。通过此层,用户可以访问(例如,查看、传输和/或下载)知识图的内容,这些知识图的内容响应于指定的分析要求,该指定的分析要求公开了来自不同数据存储库的不同类型的数据。
UEX 114为用户提供了动态的交互式用户界面,供用户访问系统。在某些实施方式中,UEX可以包括数据治理,以基于用户在组织内的职能和/或其许可证级别来限制数据访问。
UEX可以呈现查询结果的不同可视化。图2A-2D示出了根据实施例的示例性表示。为了说明,图2A-2D示出了与增材制造工艺相关的查询结果。但是,可视化并不限于此。应该很容易理解,数据可视化取决于每个域的主题和数据类型。
图2A表示散点图200;图2B表示等值线图210;图2C表示三维图220;图2D表示矩阵表图230。其他可视化可以包括时间序列图、图像、表格等。根据实施例,UEX 114呈现交互式可视化。例如,用户可以识别可视化中的异常数据点;使用定点设备选择该数据点;并呈现基础数据供查看。基础数据可以以本机数据格式呈现,该本机数据格式提供该数据点——图像、关系型数据表、文档等。根据实施例,用户确实需要知道数据存储源、位置或数据类型,以便提取基础数据用于呈现。
可扩展分析执行层116大规模执行各种分析,包括但不限于数据挖掘、统计分析、图像处理、机器学习和人工智能分析。传统方法要求将数据从远程位置输送到单台服务器,并在该单台服务器上处理查询。根据实施例,可扩展分析执行层116可以定义查询并将其传递到后端层130,用于在远程数据存储服务器上的分布式并行执行。
知识驱动的查询层118包括应用系统100的特定用例的域特定语义模型。根据实施方式,用户对系统100的透视是通过UEX 114,因此仅为用户呈现针对任何这些用例的一个接口模型。
知识驱动的查询层与节点组存储119通信,该节点组存储119包含用例驱动的域特定节点组的库,这些节点组可以从联合数据存储中提取数据。使用节点组实现了将分析平台UEX(以及用户、分析、模拟等)与联合数据存储分离的目标。每个节点组都可以描述感兴趣的联系数据子图。一个或多个节点组可用于生成整个数据集的查询,为数据集的每个“列”生成合法(即,过滤的)值,对数据进行计数或摄入数据。节点组存储可以包括域特定的节点组,可以检索这些节点组,以便对一个或多个联合数据存储进行直接的数据检索操作。每个节点组都是预定义的、可约束的查询,其被专门准备用于检索特定数据子集并可能将特定数据子集结合在一起。
节点组表示实现用户查询所需的感兴趣的子图。此子图表示包含一组类、每个类可返回或可约束的属性的列表、以及将类联系到节点组中的其他类的属性。节点组可能也包含其他信息。可以基于用户查询,从知识驱动的查询层118中选择特别的节点组。
知识驱动的查询层可以包括用于处理节点组的服务和库,以确定语义数据和非语义数据之间的划分。根据实施例,语义模型用于对不同的数据存储进行建模,并基于用户的请求实现对数据的联系。
每个节点组都是预定义的模板,该模板用于基于UEX 114中输入的用户请求来组合查询。每个节点组可以跨越域特定本体的不同部分。通常,这些不同的数据存储不能从单个联合查询中得到。
从节点组中包含的信息(例如,类、属性、类联系等)中,可以生成几种类型的查询。这些查询可以包括检索不同的条目,这些条目是通过遍走整个节点组并构建连接和约束来构造的。约束子句可以进一步动态地添加到更大的查询中。对于任何节点组查询,都可以从返回列表中删除任何元素,以便可以缩小剩余的查询,从而返回单个变量的值。这将导致检索特定变量的所有现有值的查询。实际上,这基于现有数据,为查询中的任何项生成合法过滤值的列表,可用于过滤较大查询中的结果。除了返回数据的“选择"查询外,节点组还可用于生成‘插入’查询,以将数据添加到联合存储的组成数据存储。节点组还可用于生成‘计数’、‘构造’和‘删除’查询。
节点组还可用作可交换制品,允许捕获、存储感兴趣的子图以供将来使用或在环境之间传递。在本体信息的帮助下,节点组数据结构可以比原始查询更有效地被验证、修改和显示。
构建节点组时,寻路功能用于在本体中查找不同类之间的连接。要添加的类被视为路径终结点,而现有节点组中的所有类被视为潜在的起始点。建议将任何中间类作为现有节点组和要添加到查询的类之间的潜在路径的一部分。使用A*算法来实现寻路的特定实施例,并针对性能做了一些修改。
寻路有助于查询构建,还可用于确定是否需要调用外部服务以及需要调用哪些外部服务来检索数据。寻路技术可以被应用于通过识别根据需要对外部数据集进行建模的类来识别这些外部服务,从而完成连接知识图中的多个实体的查询。这些外部服务可能需要特定于特别数据存储和特别存储内的数据类型的附加信息(例如,调用参数)。寻路允许按需定位此信息并将其添加到查询中,无需人工干预。
中间层120可以包括内存式数据存储124,它可以用作小数据子集的内存缓存。元数据知识图122捕获与跨联合数据存储的数据的联系和关系有关的元数据。例如,元数据知识图可以包含关于联合数据存储的信息(例如,位置、数据结构、查询语言等)。元数据知识图还包括关于其内容——联合数据存储的每个存储中可用的数据的信息(例如,位置、类型/格式、文件大小等)。元数据知识图可以通过使用与联合存储的各个数据存储成分兼容的API来访问此信息。
后端层130是部署数据的物理数据存储硬件和管理系统。每个物理数据存储都可以是针对它包含的每个数据类型而优化的可扩展存储库。后端层可以包含远程服务器140和本地服务器150。本地服务器和远程服务器可以包括关系型DBMS存储142、图像和BLOB存储144、时间序列数据存储146和文档储存存储148等中的一部分或全部。实现用户查询所需的特定数据存储的位置对于通过查询和分析平台112与系统100进行接合的用户是透明的。
联合数据存储是捕获信息的全局数据存储——例如,在增材制造中,可以跨所有工厂、打印机、零件、材料等捕获数据,以捕获整个制造商的全局知识。频繁的同步允许在边缘设备和联合存储之间共享数据和知识,这样边缘设备就可以获得操作所需的信息,而中央储存则保留机器学习和分析的最相关信息的完整记录,以随着时间的推移驱动优化。此数据体系架构高效且可扩展地存储数据和数据关系,从而能够在整个增材制造生命周期中实现跨数据类型的访问和快速分析。
中间层120和后端层130摄入由用例特定元素提供的数据。例如,增材制造系统可以在整个增材机器生产生命周期中具有各种数据源,包括:材料属性、零件设计、设计模拟、构建和后处理参数、零件和产品检验结果等。中间层120和后端层130摄入由用例特定元素提供的数据。详细数据存储在后端层联合存储中,并且中间层吸收元数据,该元数据如上所述用于选择节点组以生成用户的查询。
体现的系统和方法为用户(即,数据使用者)提供了对在联合数据存储中捕获的大量数据运行分析的能力,而无需在运行分析之前从一个或多个数据存储中提取分布式数据。执行分析的传统方法是一次从一个或多个数据存储中提取数据,并将提取的数据推送到单个机器进行处理。但是,数据存储容量和幅度的进步使得这种传统方法对大数据来说是不能维持的——提取的数据量可能太大,无法加载到单个服务器上,并且可能花费太长的时间通过网络从数十台或数百台机器传输到单个机器。
根据实施例,自动地分析查询,以识别查询是否需要提取过多的数据,以便在单个服务器上移动和处理。如果发现这样的情况,则实施例将该查询分解为许多较小的子查询,并将较小的子查询传递给包含大数据部分的分布式服务器。然后,这些分布式机器中的每个机器将对其本地数据与其他子查询并行地运行子查询。例如,如果单个总体查询的传统方法会导致在单个机器上被提取和查询的一千万条记录的响应,则实施例可以生成1,000个查询任务,以在联合数据存储中的分布式位置并行运行。然后,这1,000个查询任务可以各自在本地处理10,000个不同的记录,从而避免将所有的1000万条记录提取到单个位置。
然后,可以将查询任务的本地处理所生成的结果传递给可扩展分析执行层,以便聚合结果。可扩展分析执行层可以对聚合结果进行操作(取决于特定的分析要求)。因此,实施例避免了数据移动和数据处理瓶颈的产生,同时仍然跨联合大数据传送知识驱动的查询和分析能力。数据抽象的体现方法为双向的——即,用户不需要知道数据存储位置或方式的详情;同样,可扩展分析也不需要知道数据存储位置或方式的详情。
体现的系统和方法利用传统的海量数据分布和并行处理技术(例如,Apache和Apache(Apache软件基础、韦克菲尔德、MA)),而无需将联合数据存储的知识直接嵌入Hadoop或Spark代码中——例如,根据实施例,Hadoop或Spark分析被馈送查询,它们可以执行该查询,以从一个或多个存储库中提取数据,而无需精确地知道数据来自哪里。
图3示出了根据实施例的查询联合数据存储的过程300。步骤305,查询和分析平台112接收数据使用者向UEX 114提供的查询详情。步骤310,从预定义的可约束查询的节点组组合一个或多个子查询,以实现用户提供的查询详情。元数据知识图122可以将域特定的语义模型应用于查询详情,以基于联合存储的元数据来识别子查询。这些子查询可以在联合存储中的特定数据存储处进行特别查询。
步骤315,在联合数据存储中的一个或多个基础数据存储处执行子查询。步骤320,子查询的原始数据结果被聚合。根据实施方式,步骤325,可扩展分析执行层116可以选择将机器学习和人工智能技术应用于查询结果。这些技术识别响应于使用者的查询详情的数据关联。步骤330,可以生成原始数据或分析结果的可视化。步骤335,原始数据和/或分析结果的可视化,或本机格式的原始数据和/或分析结果(例如,关系型数据、时间序列数据、图像、文档等)可以呈现给数据使用者。
图4示出了根据实施例的实现三层系统100的系统400。控制处理器410可以包括处理器单元412和存储器单元414。存储器单元可以存储可执行指令418。控制处理器可以根据需要通过本地控制/数据网络和/或电子通信网络,与系统100的元件进行通信。处理器单元412可以执行可执行指令418,可执行指令418使得处理器按照上述实施例进行联合数据存储的查询。存储器单元414可以为控制处理器提供本地缓存存储器。
根据一些实施例,存储在非易失性存储器或计算机可读介质(例如,寄存器存储器、处理器缓存、RAM、ROM、硬盘驱动器、闪存、CDROM、磁介质等)中的计算机程序应用可包含代码或可执行程序指令,代码或可执行程序指令在执行时,可指示和/或使得控制器或处理器进行此处讨论的方法,例如连接到包含各种数据类型的多个分布式数据存储,以通过生成分布式分析的子查询而获得通过单个用户界面提交的用户查询的结果的方法,如上文所述。
计算机可读介质可以是非暂时性计算机可读介质,其包括所有形式和类型的存储器和所有计算机可读介质,除了暂时性传播信号。在一个实施方式中,非易失性存储器或计算机可读介质可能是外部存储器。
尽管本文已描述了特定的硬件和方法,但请注意,根据本发明的实施例,可以提供任意数量的其他配置。因此,虽然已经表明,描述,并指出了发明的基本新颖特征,但可以理解,各种遗漏,替代,和所示实施例的形式和细节的变化,以及它们的操作,可以由本领域技术人员做出,而不偏离本发明的精神和范围。元件从一个实施例替代到另一个实施例也是完全预期和考虑的。本发明只根据本文所附的权利要求书以及其等同物进行定义。
Claims (7)
1.一种用于针对存储不同数据类型的多个数据存储(142,144,146,148)生成和运行联合查询的系统(110),其特征在于,所述系统包括:
查询和分析平台(112),所述查询和分析平台包括交互式用户界面体验层(114)、知识驱动的查询层(118)、可扩展分析执行层(116)以及包含一个或多个预定义可约束查询的预定义可约束查询存储(119);
元数据知识图存储,所述元数据知识图存储包括元数据知识图(122),所述元数据知识图包含用于所述多个数据存储中的一个或多个数据存储中的数据的联系和关系的元数据、以及如何以编程方式查询所述多个数据存储中的一个或多个数据存储的元数据;
所述用户界面体验层呈现交互式用户界面,以接收来自数据使用者的查询详情;
所述知识驱动的查询层被配置为访问所述元数据知识图,并从所述预定义可约束查询存储中选择一个或多个所述预定义可约束查询,所选择的一个或多个所述预定义可约束查询提供查询模板,以搜索所述多个数据存储中的至少一个数据存储;
所述知识驱动的查询层被配置为使用所选择的一个或多个所述预定义可约束查询,以针对联合数据存储生成查询,用于响应于接收到的所述查询详情执行搜索,在一个或多个联合数据存储处进行所述搜索;
所述知识驱动的查询层被配置为将来自所述联合数据存储的响应数据合并成要呈现给所述用户的单个数据集;
所述可扩展分析执行层被配置为接收从所述联合数据存储合并的搜索结果,并将机器学习和人工智能技术应用于所述搜索结果,所述机器学习和人工智能技术分析所述查询结果;并且
所述用户界面体验层被配置为向所述数据使用者呈现所述分析结果的可视化。
2.根据权利要求1所述的系统,其特征在于,包括:
所述查询和分析平台被配置为接收查看所述数据分析的一个或多个基础数据点的数据使用者请求;
所述查询和分析平台被配置为在从所述联合数据存储进行检索后,接收所述一个或多个基础数据点,检索到的所述一个或多个基础数据点是本机格式;以及
所述查询和分析平台被配置为向所述数据使用者呈现检索到的所述一个或多个数据点的可视化。
3.根据权利要求1所述的系统,其特征在于,包括被设计为查询所述一个或多个基础联合数据存储的每个预定义的可约束查询模板。
4.根据权利要求1所述的系统,其特征在于,包括被配置为从域的用例特定元素中摄入元数据的所述元数据知识图。
5.根据权利要求1所述的系统,其特征在于,包括所述多个数据存储中的至少两个数据存储,所述至少两个数据存储:
被配置为不同的数据存储类型;
包含不同的数据格式;
需要不同的查询语言;并且
以不同的结构存储数据。
6.根据权利要求1所述的系统,其特征在于,包括被配置为向所述数据使用者提供单个逻辑数据系统的饰面的所述用户界面体验层,所述饰面为所述数据使用者提供跨所述多个数据存储的所述不同数据类型的交互式探索,所述交互式探索不需要使用者输入所述联合数据存储中的所述不同数据类型的格式或位置。
7.根据权利要求1所述的系统,其特征在于,包括所述可扩展分析执行层,所述可扩展分析执行层被配置为定义查询并将定义的查询传递给所述联合数据存储,用于在所述多个数据存储中的一个或多个数据存储处分布式并行执行。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/282,643 US10997187B2 (en) | 2019-02-22 | 2019-02-22 | Knowledge-driven federated big data query and analytics platform |
US16/282,643 | 2019-02-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111611266A true CN111611266A (zh) | 2020-09-01 |
Family
ID=69571792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010106183.0A Pending CN111611266A (zh) | 2019-02-22 | 2020-02-21 | 知识驱动的联合大数据查询和分析平台 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10997187B2 (zh) |
EP (1) | EP3699773A1 (zh) |
KR (1) | KR20200103543A (zh) |
CN (1) | CN111611266A (zh) |
AU (1) | AU2020201169A1 (zh) |
CA (1) | CA3072514A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112346966A (zh) * | 2020-10-19 | 2021-02-09 | 北京航天科颐技术有限公司 | 一种专用控制器测试数据自动分析方法 |
CN114265961A (zh) * | 2022-03-03 | 2022-04-01 | 深圳市大树人工智能科技有限公司 | 操作系统式大数据驾驶舱系统 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10997187B2 (en) * | 2019-02-22 | 2021-05-04 | General Electric Company | Knowledge-driven federated big data query and analytics platform |
US11269867B2 (en) | 2019-08-30 | 2022-03-08 | Microsoft Technology Licensing, Llc | Generating data retrieval queries using a knowledge graph |
US11379727B2 (en) * | 2019-11-25 | 2022-07-05 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for enhancing a distributed medical network |
US11363109B2 (en) * | 2020-03-23 | 2022-06-14 | Dell Products L.P. | Autonomous intelligent system for feature enhancement and improvement prioritization |
US11308104B2 (en) * | 2020-06-25 | 2022-04-19 | Microsoft Technology Licensing, Llc | Knowledge graph-based lineage tracking |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452456A (zh) * | 2007-11-30 | 2009-06-10 | 英业达股份有限公司 | 数据库查询系统及其方法 |
CN105279286A (zh) * | 2015-11-27 | 2016-01-27 | 陕西艾特信息化工程咨询有限责任公司 | 一种交互式大数据分析查询处理方法 |
CN106227899A (zh) * | 2016-08-31 | 2016-12-14 | 北京京航计算通讯研究所 | 一种面向物联网大数据的存储和查询方法 |
CN108701161A (zh) * | 2016-03-04 | 2018-10-23 | 微软技术许可有限责任公司 | 为搜索查询提供图像 |
CN109271484A (zh) * | 2018-09-17 | 2019-01-25 | 北京工业大学 | 一种基于语义本体的档案数据智能推理方法 |
US20190034811A1 (en) * | 2017-07-25 | 2019-01-31 | General Electric Company | Service layer augmentation of response to semantically-informed query of arbitrary external data sources |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6957214B2 (en) | 2000-06-23 | 2005-10-18 | The Johns Hopkins University | Architecture for distributed database information access |
US9092802B1 (en) | 2011-08-15 | 2015-07-28 | Ramakrishna Akella | Statistical machine learning and business process models systems and methods |
US20140006338A1 (en) | 2012-06-29 | 2014-01-02 | Applied Materials, Inc. | Big data analytics system |
US10296668B2 (en) | 2013-03-15 | 2019-05-21 | Fisher-Rosemount Systems, Inc. | Data modeling studio |
US20150095303A1 (en) | 2013-09-27 | 2015-04-02 | Futurewei Technologies, Inc. | Knowledge Graph Generator Enabled by Diagonal Search |
CN104035917B (zh) | 2014-06-10 | 2017-07-07 | 复旦大学 | 一种基于语义空间映射的知识图谱管理方法和系统 |
US20160078128A1 (en) | 2014-09-12 | 2016-03-17 | General Electric Company | Systems and methods for semantically-informed querying of time series data stores |
US9760614B2 (en) | 2014-12-16 | 2017-09-12 | General Electric Company | Method and tool for browsing semantic data and creating queries using a domain/range representation |
US10817530B2 (en) | 2015-01-23 | 2020-10-27 | C3.Ai, Inc. | Systems, methods, and devices for an enterprise internet-of-things application development platform |
US20160224569A1 (en) | 2015-02-03 | 2016-08-04 | General Electric Company | System and method for automatically publishing a web form from a semantic query |
US20190005195A1 (en) * | 2017-06-28 | 2019-01-03 | General Electric Company | Methods and systems for improving care through post-operation feedback analysis |
US20190005200A1 (en) * | 2017-06-28 | 2019-01-03 | General Electric Company | Methods and systems for generating a patient digital twin |
US11314837B2 (en) * | 2017-07-24 | 2022-04-26 | Wix.Com Ltd. | Website builder with integrated search engine optimization support |
US20200117737A1 (en) * | 2018-10-16 | 2020-04-16 | LeapAnalysis Inc. | Fast heterogeneous multi-data source search and analytics |
US11126659B2 (en) * | 2018-12-24 | 2021-09-21 | Graphen, Inc. | System and method for providing a graph protocol for forming a decentralized and distributed graph database |
US10997187B2 (en) * | 2019-02-22 | 2021-05-04 | General Electric Company | Knowledge-driven federated big data query and analytics platform |
US20200272624A1 (en) * | 2019-02-22 | 2020-08-27 | General Electric Company | Knowledge-driven federated big data query and analytics platform |
US10963518B2 (en) * | 2019-02-22 | 2021-03-30 | General Electric Company | Knowledge-driven federated big data query and analytics platform |
-
2019
- 2019-02-22 US US16/282,643 patent/US10997187B2/en active Active
-
2020
- 2020-02-11 EP EP20156553.8A patent/EP3699773A1/en active Pending
- 2020-02-13 CA CA3072514A patent/CA3072514A1/en active Pending
- 2020-02-19 AU AU2020201169A patent/AU2020201169A1/en not_active Abandoned
- 2020-02-19 KR KR1020200020199A patent/KR20200103543A/ko unknown
- 2020-02-21 CN CN202010106183.0A patent/CN111611266A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452456A (zh) * | 2007-11-30 | 2009-06-10 | 英业达股份有限公司 | 数据库查询系统及其方法 |
CN105279286A (zh) * | 2015-11-27 | 2016-01-27 | 陕西艾特信息化工程咨询有限责任公司 | 一种交互式大数据分析查询处理方法 |
CN108701161A (zh) * | 2016-03-04 | 2018-10-23 | 微软技术许可有限责任公司 | 为搜索查询提供图像 |
CN106227899A (zh) * | 2016-08-31 | 2016-12-14 | 北京京航计算通讯研究所 | 一种面向物联网大数据的存储和查询方法 |
US20190034811A1 (en) * | 2017-07-25 | 2019-01-31 | General Electric Company | Service layer augmentation of response to semantically-informed query of arbitrary external data sources |
CN109271484A (zh) * | 2018-09-17 | 2019-01-25 | 北京工业大学 | 一种基于语义本体的档案数据智能推理方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112346966A (zh) * | 2020-10-19 | 2021-02-09 | 北京航天科颐技术有限公司 | 一种专用控制器测试数据自动分析方法 |
CN112346966B (zh) * | 2020-10-19 | 2024-01-23 | 北京航天科颐技术有限公司 | 一种专用控制器测试数据自动分析方法 |
CN114265961A (zh) * | 2022-03-03 | 2022-04-01 | 深圳市大树人工智能科技有限公司 | 操作系统式大数据驾驶舱系统 |
CN114265961B (zh) * | 2022-03-03 | 2022-05-17 | 深圳市大树人工智能科技有限公司 | 操作系统式大数据驾驶舱系统 |
Also Published As
Publication number | Publication date |
---|---|
EP3699773A1 (en) | 2020-08-26 |
US20200272623A1 (en) | 2020-08-27 |
KR20200103543A (ko) | 2020-09-02 |
US10997187B2 (en) | 2021-05-04 |
CA3072514A1 (en) | 2020-08-22 |
AU2020201169A1 (en) | 2020-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10997187B2 (en) | Knowledge-driven federated big data query and analytics platform | |
US11941016B2 (en) | Using specified performance attributes to configure machine learning pipepline stages for an ETL job | |
US10963518B2 (en) | Knowledge-driven federated big data query and analytics platform | |
Duggal et al. | Big Data analysis: Challenges and solutions | |
EP3699774B1 (en) | Knowledge-driven federated big data query and analytics platform | |
Chavan et al. | Survey paper on big data | |
Vijayarani et al. | Research in big data: an overview | |
Stadler et al. | Sparklify: A scalable software component for efficient evaluation of sparql queries over distributed rdf datasets | |
Paneva-Marinova et al. | System architecture and intelligent data curation of virtual museum for ancient history | |
Dhavapriya et al. | Big data analytics: challenges and solutions using Hadoop, map reduce and big table | |
Lee et al. | Hands-On Big Data Modeling: Effective database design techniques for data architects and business intelligence professionals | |
US20140310262A1 (en) | Multiple schema repository and modular database procedures | |
Sunuwar et al. | Comparative Analysis of Relational and Graph Databases for Data Provenance: Performance, Queries, and Security Considerations | |
Ha et al. | Translating a distributed relational database to a document database | |
Soussi | Big-Parallel-ETL: New ETL for Multidimensional NoSQL Graph Oriented Data | |
Imran et al. | Big data analytics tools and platform in big data landscape | |
Raj et al. | A Review on Hadoop Eco System for Big Data | |
Paneva-Marinova et al. | Intelligent Data Curation in Virtual Museum for Ancient History and Civilization | |
Simon et al. | Tag clouds and old maps: Annotations as linked spatiotemporal data in the cultural heritage domain | |
Meimaris et al. | RDF resource search and exploration with LinkZoo | |
US11886435B1 (en) | Systems and methods for executing queries on tensor datasets | |
Marin et al. | Big Data Analysis with Python: Combine Spark and Python to unlock the powers of parallel computing and machine learning | |
Mao et al. | MMDBench: A Benchmark for Hybrid Query in Multimodal Database | |
Balamurugan et al. | A SYSTEMATIC STUDY OF DATABASES FOR AN ARCHAEOLOGICAL DATA MANAGEMENT | |
Roy | A Survey of Big Data Tools and Technologies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |