CN109408689B - 数据获取方法、装置、系统及电子设备 - Google Patents
数据获取方法、装置、系统及电子设备 Download PDFInfo
- Publication number
- CN109408689B CN109408689B CN201811248468.7A CN201811248468A CN109408689B CN 109408689 B CN109408689 B CN 109408689B CN 201811248468 A CN201811248468 A CN 201811248468A CN 109408689 B CN109408689 B CN 109408689B
- Authority
- CN
- China
- Prior art keywords
- metadata
- query
- unified
- query engine
- engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据获取方法、装置、系统及电子设备,涉及大数据技术领域,该方法包括:通过统一查询引擎接收查询请求;其中,查询请求中携带有指定查询引擎的信息;统一查询引擎与多个查询引擎分别连接;根据查询请求,查询统一元数据,得到与指定查询引擎对应的元数据;其中,统一元数据为通过预设的映射规则将多个查询引擎的元数据映射得到的一个元数据;根据与指定查询引擎对应的元数据从指定查询引擎中获取数据。本发明可以将各种引擎的元数据进行规范统一,统一数据管理和统一查询引擎,避免数据冗余、数据孤岛或遗失,并降低使用成本。
Description
技术领域
本发明涉及大数据技术领域,尤其是涉及一种数据获取方法、装置、系统及电子设备。
背景技术
目前互联网公司已在大量使用开源系统,在大数据领域,对数据处理的优秀开源软件层出不穷,数据湖的概念由此产生。然而每种引擎使用的场景各有不同,多种引擎并存、数据分布到不同存储和引擎的现状将持续,将导致后续数据的冗余、管理混乱等问题。另外,各种查询引擎出现对使用者提出了更高的要求,一方面要了解各种引擎的使用方式,另一方面要记录不同引擎存储的内容,人力成本会增加不少。
当前大数据的管理使用数据,各引擎单独使用,每个引擎有独立的查询权限、独立的查询语句、独立的可视化分析界面。其中,由于每种引擎的查询方式是不一样的,需要单独开发,有的引擎支持SQL(Structured Query Language,结构化查询语言),有的引擎不支持SQL但支持reset-API(Application Programming Interface,应用程序编程接口);有的引擎虽然支持SQL,但支持的SQL不是标准SQL,有独有的语法语义,自定义的UDF(User-Defined Function,用户定义函数)等,所以对不同的引擎需要单独对接。
针对现有技术中多引擎单独使用的问题,目前尚未提出有效的解决方案。
发明内容
有鉴于此,本发明的目的在于提供一种数据获取方法、装置、系统及电子设备,可以统一数据管理和统一查询引擎,避免数据冗余、数据孤岛、遗失并降低使用成本。
第一方面,本发明实施例提供了一种数据获取方法,包括:通过统一查询引擎接收查询请求;其中,查询请求中携带有指定查询引擎的信息;其中,统一查询引擎与多个查询引擎分别连接;根据查询请求,查询统一元数据,得到与指定查询引擎对应的元数据;其中,统一元数据为通过预设的映射规则将多个查询引擎的元数据映射得到的一个元数据;根据与指定查询引擎对应的元数据从指定查询引擎中获取数据。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,在通过统一查询引擎接收查询请求之前,还包括:通过映射规则将多个查询引擎的元数据映射到统一元数据系统的多层存储空间,其中,多层存储空间中存储的元数据组成统一元数据。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,多层存储空间包括:第一层空间,第二层空间,第三层空间,其中,第一层空间为命名空间,第二层空间为数据库,第三层空间为表。
结合第一方面及其各可能的实施方式之一,本发明实施例提供了第一方面的第三种可能的实施方式,其中,在查询请求中携带有至少两个查询引擎的信息的情况下,根据查询请求,查询统一元数据,得到与指定查询引擎对应的元数据包括:根据至少两个查询引擎的信息,查询统一元数据,分别得到至少两个查询引擎中每个查询引擎对应的元数据。
结合第一方面及其各可能的实施方式之一,本发明实施例提供了第一方面的第四种可能的实施方式,其中,统一元数据中包括多个查询引擎的访问权限。
结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,在根据与指定查询引擎对应的元数据从指定查询引擎中获取数据之前,该方法还包括:通过统一元数据确定查询请求的请求方是否具有访问指定查询引擎的访问权限;其中,在具有访问权限的情况下,根据与指定查询引擎对应的元数据从指定查询引擎中获取数据。
结合第一方面及其各可能的实施方式之一,本发明实施例提供了第一方面的第六种可能的实施方式,还包括:通过统一元数据确定第二指定查询引擎中数据的使用热度;根据使用热度确定是否将数据进行转存。
结合第一方面及其各可能的实施方式之一,本发明实施例提供了第一方面的第七种可能的实施方式,还包括:在接收到指定查询引擎的元数据发生改变的情况下,同步改变统一元数据中指定查询引擎的元数据。
第二方面,本发明实施例提供了一种数据获取系统,包括:统一元数据模块和统一查询引擎;统一查询引擎与多个查询引擎分别连接;统一元数据模块,用于通过预设的映射规则将多个查询引擎的元数据映射到多层存储空间,多层存储空间中存储的元数据组成统一元数据;统一查询引擎,用于接收查询请求,并根据查询请求在统一元数据模块中查询统一元数据;其中,查询请求中携带有指定查询引擎的信息;统一查询引擎,还用于根据指定查询引擎对应的元数据,从指定查询引擎中获取数据。
第三方面,本发明实施例提供了一种数据获取装置,包括:接收模块,用于通过统一查询引擎接收查询请求;其中,查询请求中携带有指定查询引擎的信息;其中,统一查询引擎与多个查询引擎分别连接;查询模块,用于根据查询请求,查询统一元数据,得到与指定查询引擎对应的元数据;其中,统一元数据为通过预设的映射规则将多个查询引擎的元数据映射得到的一个元数据;数据获取模块,用于根据与指定查询引擎对应的元数据从指定查询引擎中获取数据。
第四方面,本发明实施例提供了一种电子设备,电子设备包括存储器以及处理器,存储器用于存储支持处理器执行上述第一方面及其各可能的实施方式任一项提供的方法的程序,处理器被配置为用于执行存储器中存储的程序。
第五方面,本发明实施例提供了一种计算机存储介质,该计算机存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述第一方面及其各可能的实施方式任一项提供的方法的程序。
本发明实施例带来了以下有益效果:
本发明实施例提供的数据获取方法、装置、系统及电子设备,可以通过统一查询引擎接收查询请求,并根据查询请求在统一元数据中进行查询,该统一元数据为通过预设的映射规则将多个查询引擎的元数据映射得到的一个元数据,可以将各种引擎的元数据进行规范统一,统一数据管理和统一查询引擎,避免数据冗余、数据孤岛或遗失,并降低使用成本。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的现有大数据场景下多引擎的处理示意图;
图2为本发明实施例提供的一种数据获取方法的流程图;
图3为本发明实施例提供的统一元数据映射规则示意图;
图4为本发明实施例提供的统一元数据的架构示意图;
图5为本发明实施例提供的统一元数据和数据存储路径的示意图;
图6为本发明实施例提供的一种数据获取装置的结构示意图;
图7为本发明实施例提供的另一种数据获取装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
参见图1所示的现有大数据场景下多引擎的处理示意图,每个引擎包括独立的权限系统、独立的查询语句以及独立的可视化分析界面。以下对图1中的技术方案做详细说明:
(1)独立的权限系统
每种引擎自身有单独的权限管理,有单独的管理员和对应的专业运维人员。用户在使用数据时,需要单独申请权限,比如对数据库的权限通常有INSERT(插入)/UPDATE(更新)/DELETE(删除)/SELECT(选择)/EXECUTE(执行)等,每个引擎要单独维护一套权限内容。
(2)独立的查询语句
每种引擎有自己的特色,有的是高效的OLAP(Online Analytical Processing,联机分析处理)系统,有的是大规模处理的离线计算引擎。各种引擎的查询方式不尽相同,有的引擎采用标准sql,例如mysql/orcle,而spark、elasticsearch、Greenplum采用自己的特色查询方式,研发人员需要掌握不同引擎的开发方式。
(3)独立的可视化分析界面
正因为(2)的原因,每种引擎的查询方式不一样,需要使用不同的配置、不同的API/jdbc-driver等,各引擎的数据内容独立展示,不能整合在一起统一展示。比如mysql的内容不能和spark的内容出现在一个可视化界面里,如果想让二者数据出现一起,就需要让数据汇聚在一个引擎中,比如把Spark里面的数据转到mysql,或将数据从mysql导入到spark,然后再做内部关联。
(4)其它方面
各引擎独立运维,相关数据存储也因查询引擎的不同而独立存在单机或集群内部,没有统一的数据地图来查询数据的分布情况。
基于此,本发明实施例提供的一种数据获取方法、装置、系统及电子设备,可以统一数据管理和统一查询引擎,避免数据冗余、数据孤岛、遗失并降低使用成本。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种数据获取方法进行详细介绍。
实施例1
本发明实施例提供了一种数据获取方法,参见图2所示的一种数据获取方法的流程图,该方法具体包括如下步骤:
步骤S202,通过统一查询引擎接收查询请求。
其中,统一查询引擎与多个查询引擎分别连接,用户可以通过该统一查询引擎在上述多个查询引擎中任意一个或者多个中进行数据查询。在上述查询请求中携带有指定查询引擎的信息。统一查询引擎,作用是各查询引擎的adaptor(适配器)。
步骤S204,根据查询请求,查询统一元数据,得到与指定查询引擎对应的元数据。其中,统一元数据为通过预设的映射规则将多个查询引擎的元数据映射得到的一个元数据。
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data aboutdata),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。在多种文件系统中的数据一般都可以分为数据和元数据。数据是指普通文件中的实际数据,而元数据指用来描述文件特征的系统数据,例如访问权限、文件拥有者以及文件数据块的分布信息等等。在集群文件系统中,分布信息包括文件在磁盘上的位置以及磁盘在集群中的位置。用户在操作一个文件前需要先得到它的元数据,才能定位到文件的位置并且得到文件的内容或相关属性。在本实施例中,可以通过上述映射规则将多个查询引擎的元数据映射到统一元数据系统的多层存储空间,多层存储空间中存储的元数据组成上述统一元数据。
上述统一元数据系统可以将各个独立的引擎的元数据通过预设的映射规则映射为统一元数据,具体可以通过接口与各个引擎分别连接,将多种引擎的数据映射到统一元数据系统的存储空间的不同位置处,并进行规范、统一,得到统一元数据。统一元数据系统还提供标准的元数据接口,即统一的出口或入口供查询或存储,将各个独立的引擎的所有数据打通,避免数据孤岛、避免数据遗失。统一元数据可以采用预设的存储规范和层级策略,例如可以根据各个引擎的元数据形式确定统一元数据采用的存储规范和层级策略,也可以采用适应各个引擎的元数据的数据存储规范和策略,目的是规范化各个引擎的元数据至统一元数据。
步骤S206,根据与指定查询引擎对应的元数据从指定查询引擎中获取数据。
在得到指定查询引擎对应的元数据后,可以按照该元数据从指定查询引擎中获取所需数据。在各引擎的元数据均映射为统一元数据情况下,各引擎的数据可以支持数据地图,从而可以方便对各引擎的数据进行全局查找,而非只能去每个引擎分别查询。为了方便用户使用并降低使用成本,统一查询引擎可以采用标准SQL查询。
需要说明的是,通过上述标准SQL查询,可以是在统一查询引擎中输入标准SQL查询语句后,形成上述查询请求,但并不限于此。
通过上述统一元数据,即可以通过全局感知每个引擎内部数据的位置,进而可以统一管理各引擎的数据存储,减少数据之间的重复,例如同一数据存储在不同数据文件中的现象,最终减少数据冗余。
本发明实施例提供的数据获取方法,可以通过统一查询引擎接收查询请求,并根据查询请求在统一元数据中进行查询,该统一元数据为通过预设的映射规则将多个查询引擎的元数据映射得到的一个元数据,可以将各种引擎的元数据进行规范统一,统一数据管理和统一查询引擎,避免数据冗余、数据孤岛或遗失,并降低使用成本。
上述统一元数据系统可以包括多层存储空间,包括:第一层空间,第二层空间,第三层空间。在本实施例中以定义三级策略为例,包括第一层空间namespace(命名空间)、第二层空间database(数据库)、第三层空间table(表)。可以将多个引擎的元数据分别映射至统一元数据系统的命名空间、数据库和表,上述元数据包括结构化元数据和非结构化元数据。
参见图3所示的统一元数据映射规则示意图,其中示出了统一元数据的规范,定义三级策略,分别为namespace(命名空间)、database(数据库)、table(表),通过这三级规范,将所有的查询引擎元数据映射到统一元数据内。同时也支持非结构化元数据的映射(比如图片、音频、视频的元数据等)。
在图3中左侧示出了统一元数据的示例性结构,包括namespace1、namespace2和namespace3,分别对应于图5中间示出的结构化数据系统GreenPlum引擎、Spark/Hive和非结构化数据系统ElasticSearch引擎,即上述数据系统的元数据分别映射至namespace1、namespace2和namespace3。在namespace1中还包括n1-db1和n1-db2,即上述database数据库,在n1-db1中还包括table1和table2,即上述表。在图5中命名空间、数据库和表,分别代表了三级统一元数据规范,通过这三级规范可以将所有的查询引擎元数据映射到统一元数据内。
参见图4所示的统一元数据的架构示意图,示出了统一查询引擎、统一元数据系统以及与统一元数据系统连接的多个引擎。其中,该统一元数据系统提供标准的元数据接口,分别与各引擎连接,并且可以与各系统进行元数据同步以及统一权限管理。该统一查询引擎使用标准SQL(即统一查询方式),支持不同引擎的联合查询,并为可视化提供统一接口。
本实施提供的统一元数据系统还支持多引擎的联合查询,在查询请求中携带有至少两个查询引擎的信息的情况下,可以根据至少两个查询引擎的信息,查询统一元数据,分别得到至少两个查询引擎中每个查询引擎对应的元数据。由于上述统一元数据是由各个引擎的元数据映射而来,且上述统一查询系统可以进行各个引擎存储的数据源的查询,因此可以通过两者进行多引擎联合查询。在不同的数据源间做关联(join)操作,达到联合查询的效果,现有的技术方案不支持不同引擎的联合查询,只能把某一引擎的数据导入到另一引擎后,才可以通过该另一引擎对两者的数据进行查询,操作复杂效率低。
现有的每种引擎自身有单独的权限管理,通过单独的管理员和对应的专业运维人员管理维护,用户在使用某引擎的数据时,需要向该引擎单独申请权限,每个引擎要单独维护一套权限内容,使用不便,因此存在对各个引擎的权限进行统一控制的需要。在上述统一元数据中包括多个查询引擎的访问权限。上述方法在获取数据之前还可以包括:通过统一元数据确定查询请求的请求方是否具有访问指定查询引擎的访问权限。在具有访问权限的情况下,根据与指定查询引擎对应的元数据从指定查询引擎中获取数据。当接收到权限控制指令时,通过统一查询引擎分别设置多个引擎的权限。通过将多个引擎的权限放到统一元数据中,可以统一权限的控制,如果每个系统有单独的权限,管理困难,时间长容易出现数据安全隐患,通过统一权限控制可以避免权限失控现象。参见图5所示的统一元数据和数据存储路径的示意图,可以通过全局感知每个引擎内部数据的存储位置,进而可以进一步统一管理数据存储,避免数据冗余。通过统一元数据,可以对引擎后面的存储做统一管理。如图5中所示,部分引擎的数据存储在s3对象存储或HDFS(Hadoop Distributed FileSystem,分布式文件系统)中,在上述存储位置的数据即可以供多个引擎以内部表或外部表的方式查询,因此不再需要每个引擎均存储上述数据,只需在其中某一个引擎存储即可,其他引擎可以通过统一元数据查询到上述数据并进行操作。通过统一管理,可以记录每个表、每个分区的位置,从而可以避免数据冗余的现象,减少数据存储量。
在大数据领域还有数据血缘的需求,即需要知道每个数据的来源、去向,原有方案因存在数据孤岛的问题,不可能将数据血缘、关系体现出来,有了统一元数据后对数据血缘的支持就会更全面。通过统一元数据,可以按照数据的使用热度做一些数据自动转移的操作,比如把热度低的数据由Greenplum转移到低成本的hadoop上,或者把热度高的数据由低效查询引擎转移到高效查询引擎。因此上述方法还可以包括:通过统一元数据确定指定查询引擎中数据的使用热度;根据使用热度确定是否将数据进行转存。上述根据数据的使用热度确定是否进行数据转存的方式,还可以结合查询引擎的查询效率综合判断数据是否需要转存以及转存到哪个查询引擎中,例如在查询效率较高的查询引擎中的数据可以先不进行转存,优先转存查询效率较低的查询引擎中的数据;还可以结合查询引擎的成本综合判断数据是否转存以及转存到哪个查询引擎中,为节约成本可以将高成本查询引擎中的数据转存到低成本查询引擎中。
上述统一元数据系统还提供元数据同步机制,当引擎的元数据发生改变时,可以同步改变统一元数据。统一元数据系统通过标准的元数据接口提供各种引擎元数据同步机制,例如元数据检测机制,在接收到指定查询引擎的元数据发生改变的情况下,同步改变统一元数据中指定查询引擎的元数据。
需要说明的是,上述方法的执行主体可以是电子设备,比如可以是大数据平台,也可以是云计算的平台或者相关设备,但并不限于此。
实施例2
对应于上述方法实施例,本发明实施例提供了一种数据获取装置,参见图6所示的一种数据获取装置的结构示意图,该装置包括:
接收模块61,用于通过统一查询引擎接收查询请求;其中,查询请求中携带有指定查询引擎的信息;其中,统一查询引擎与多个查询引擎分别连接;
查询模块62,用于根据查询请求,查询统一元数据,得到与指定查询引擎对应的元数据;其中,统一元数据为通过预设的映射规则将多个查询引擎的元数据映射得到的一个元数据;
数据获取模块63,用于根据与指定查询引擎对应的元数据从指定查询引擎中获取数据。
在一种实施方式中,上述装置还包括:映射模块,用于通过映射规则将多个查询引擎的元数据映射到统一元数据系统的多层存储空间,其中,多层存储空间中存储的元数据组成统一元数据。
在另一种实施方式中,多层存储空间包括:第一层空间,第二层空间,第三层空间,其中,第一层空间为命名空间,第二层空间为数据库,第三层空间为表。
在另一种实施方式中,在查询请求中携带有至少两个查询引擎的信息的情况下,查询模块还用于:根据至少两个查询引擎的信息,查询统一元数据,分别得到至少两个查询引擎中每个查询引擎对应的元数据。
在另一种实施方式中,统一元数据中包括多个查询引擎的访问权限。
在另一种实施方式中,上述还包括:权限控制模块,用于通过统一元数据确定查询请求的请求方是否具有访问指定查询引擎的访问权限;其中,在具有访问权限的情况下,根据与指定查询引擎对应的元数据从指定查询引擎中获取数据。
在另一种实施方式中,上述装置还包括:转移模块,用于通过统一元数据确定第二指定查询引擎中数据的使用热度;根据使用热度确定是否将数据进行转存。
在另一种实施方式中,上述装置还包括还包括:同步模块,用于在接收到指定查询引擎的元数据发生改变的情况下,同步改变统一元数据中指定查询引擎的元数据。本发明实施例还提供了一种数据获取系统,包括:统一元数据模块和统一查询引擎;统一查询引擎与多个查询引擎分别连接;统一元数据模块,用于通过预设的映射规则将多个查询引擎的元数据映射到多层存储空间,多层存储空间中存储的元数据组成统一元数据;统一查询引擎,用于接收查询请求,并根据查询请求在统一元数据模块中查询统一元数据;其中,查询请求中携带有指定查询引擎的信息;统一查询引擎,还用于根据指定查询引擎对应的元数据,从指定查询引擎中获取数据。
需要说明的是,上述装置可以位于电子设备中,比如大数据平台云计算的平台或者相关设备,但并不限于此。
本发明实施例还提供了一种数据获取系统,该系统可以包括:统一元数据模块和统一查询引擎;统一查询引擎与多个查询引擎分别连接;
其中,统一元数据模块,用于通过预设的映射规则将多个查询引擎的元数据映射到多层存储空间,多层存储空间中存储的元数据组成统一元数据;
统一查询引擎,用于接收查询请求,并根据查询请求在统一元数据模块中查询统一元数据;其中,查询请求中携带有指定查询引擎的信息;
统一查询引擎,还用于根据指定查询引擎对应的元数据,从指定查询引擎中获取数据。
需要说明的是,上述多层存储空间的解释可参考上述方法实施例的解释,上述系统可以实现联合查询以及统一的权限管理等,具体的方式可以参考上述方法实施例的解释,此处不再赘述。
本发明实施例所提供的数据获取装置和数据获取系统,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例还提供了一种电子设备,该电子设备包括存储器以及处理器,存储器用于存储支持处理器执行前述实施例所提供的大数据场景下的统一元数据的方法的程序,处理器被配置为用于执行存储器中存储的程序。
参见图7,本发明实施例还提供一种数据获取装置,包括:处理器70,存储器71,总线72和通信接口73,处理器70、通信接口73和存储器71通过总线72连接;处理器70用于执行存储器71中存储的可执行模块,例如计算机程序。
其中,存储器71可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口73(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线72可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图XX中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器71用于存储程序,处理器70在接收到执行指令后,执行程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器70中,或者由处理器70实现。
处理器70可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器70中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器70可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器71,处理器70读取存储器71中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种数据获取方法,其特征在于,包括:
通过统一查询引擎接收查询请求;其中,所述查询请求中携带有指定查询引擎的信息;其中,所述统一查询引擎与多个查询引擎分别连接;
根据所述查询请求,查询统一元数据,得到与所述指定查询引擎对应的元数据;其中,所述统一元数据为通过预设的映射规则将多个查询引擎的元数据映射得到的一个元数据;根据与所述指定查询引擎对应的元数据从所述指定查询引擎中获取数据。
2.根据权利要求1所述的方法,其特征在于,在通过统一查询引擎接收查询请求之前,所述方法还包括:
通过所述映射规则将所述多个查询引擎的元数据映射到所述统一元数据系统的多层存储空间,其中,所述多层存储空间中存储的元数据组成所述统一元数据。
3.根据权利要求2所述的方法,其特征在于,所述多层存储空间包括:第一层空间,第二层空间,第三层空间,其中,所述第一层空间为命名空间,所述第二层空间为数据库,所述第三层空间为表。
4.根据权利要求1-3中任一项所述的方法,其特征在于,在所述查询请求中携带有至少两个查询引擎的信息的情况下,根据所述查询请求,查询统一元数据,得到与所述指定查询引擎对应的元数据包括:根据所述至少两个查询引擎的信息,查询所述统一元数据,分别得到所述至少两个查询引擎中每个查询引擎对应的元数据。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述统一元数据中包括所述多个查询引擎的访问权限。
6.根据权利要求5所述的方法,其特征在于,在根据与所述指定查询引擎对应的元数据从所述指定查询引擎中获取数据之前,所述方法还包括:
通过所述统一元数据确定所述查询请求的请求方是否具有访问所述指定查询引擎的访问权限;其中,在具有所述访问权限的情况下,根据与所述指定查询引擎对应的元数据从所述指定查询引擎中获取数据。
7.根据权利要求1-3中任一项所述的方法,其特征在于,还包括:
通过所述统一元数据确定所述指定查询引擎中数据的使用热度;
根据所述使用热度确定是否将所述数据进行转存。
8.根据权利要求1-3中任一项所述的方法,其特征在于,还包括:
在接收到所述指定查询引擎的元数据发生改变的情况下,同步改变所述统一元数据中所述指定查询引擎的元数据。
9.一种数据获取系统,其特征在于,包括:统一元数据模块和统一查询引擎;所述统一查询引擎与多个查询引擎分别连接;
所述统一元数据模块,用于通过预设的映射规则将多个查询引擎的元数据映射到多层存储空间,所述多层存储空间中存储的元数据组成统一元数据;
所述统一查询引擎,用于接收查询请求,并根据所述查询请求在所述统一元数据模块中查询所述统一元数据;其中,所述查询请求中携带有指定查询引擎的信息;
所述统一查询引擎,还用于根据所述指定查询引擎对应的元数据,从所述指定查询引擎中获取数据。
10.一种数据获取装置,其特征在于,包括:
接收模块,用于通过统一查询引擎接收查询请求;其中,所述查询请求中携带有指定查询引擎的信息;其中,所述统一查询引擎与多个查询引擎分别连接;
查询模块,用于根据所述查询请求,查询统一元数据,得到与所述指定查询引擎对应的元数据;其中,所述统一元数据为通过预设的映射规则将多个查询引擎的元数据映射得到的一个元数据;
数据获取模块,用于根据与所述指定查询引擎对应的元数据从所述指定查询引擎中获取数据。
11.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储支持处理器执行权利要求1至8任一项所述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
12.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811248468.7A CN109408689B (zh) | 2018-10-24 | 2018-10-24 | 数据获取方法、装置、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811248468.7A CN109408689B (zh) | 2018-10-24 | 2018-10-24 | 数据获取方法、装置、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109408689A CN109408689A (zh) | 2019-03-01 |
CN109408689B true CN109408689B (zh) | 2020-11-24 |
Family
ID=65469778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811248468.7A Active CN109408689B (zh) | 2018-10-24 | 2018-10-24 | 数据获取方法、装置、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109408689B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032642B (zh) * | 2019-12-24 | 2024-02-09 | 医渡云(北京)技术有限公司 | 针对目标对象的数据处理方法、装置、介质及电子设备 |
CN111241211A (zh) * | 2020-01-16 | 2020-06-05 | 青岛特来电云科技有限公司 | 一种适配多类大数据库的多维分析方法 |
CN113377550A (zh) * | 2020-02-25 | 2021-09-10 | 西安诺瓦星云科技股份有限公司 | 用于内容复用的引擎工具、引擎系统及编辑工具 |
CN113568931A (zh) * | 2020-04-29 | 2021-10-29 | 盛趣信息技术(上海)有限公司 | 一种数据访问请求的路由解析系统及方法 |
CN112685433B (zh) * | 2021-01-07 | 2022-08-05 | 网易(杭州)网络有限公司 | 元数据更新方法、装置、电子设备及计算机可读存储介质 |
CN114254081B (zh) * | 2021-12-22 | 2024-06-04 | 中冶赛迪信息技术(重庆)有限公司 | 企业大数据搜索系统、方法及电子设备 |
CN114265814B (zh) * | 2022-03-01 | 2022-06-07 | 天津安锐捷技术有限公司 | 一种基于对象存储的数据湖文件系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1349080A1 (en) * | 2002-03-26 | 2003-10-01 | Deutsche Thomson-Brandt Gmbh | Methods and apparatus for using metadata from different sources |
CN101431425B (zh) * | 2007-11-09 | 2013-04-24 | 百视通网络电视技术发展有限责任公司 | 一种基于网络共享数据中心的分布式epg系统及其业务流程 |
US20110225133A1 (en) * | 2010-03-09 | 2011-09-15 | Microsoft Corporation | Metadata-aware search engine |
US20140351278A1 (en) * | 2013-05-23 | 2014-11-27 | Basis Technologies International Limited | Method and apparatus for searching a system with multiple discrete data stores |
CN103425780B (zh) * | 2013-08-19 | 2016-08-17 | 曙光信息产业股份有限公司 | 一种数据的查询方法和装置 |
CN105786918B (zh) * | 2014-12-26 | 2020-08-04 | 亿阳信通股份有限公司 | 基于数据载入存储空间的数据查询方法和装置 |
CN104750853A (zh) * | 2015-04-14 | 2015-07-01 | 浪潮集团有限公司 | 一种异构数据搜索方法及装置 |
CN107066546B (zh) * | 2017-03-20 | 2021-03-09 | 国家计算机网络与信息安全管理中心 | 一种基于mpp引擎的跨数据中心快速查询方法和系统 |
CN108052611A (zh) * | 2017-12-14 | 2018-05-18 | 太仓鼎诚电子科技有限公司 | 一种基于元数据库集成检索系统 |
-
2018
- 2018-10-24 CN CN201811248468.7A patent/CN109408689B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109408689A (zh) | 2019-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408689B (zh) | 数据获取方法、装置、系统及电子设备 | |
US11816126B2 (en) | Large scale unstructured database systems | |
US9411840B2 (en) | Scalable data structures | |
EP2752779B1 (en) | System and method for distributed database query engines | |
US9229960B2 (en) | Database management delete efficiency | |
US11494395B2 (en) | Creating dashboards for viewing data in a data storage system based on natural language requests | |
CN114265945A (zh) | 血缘关系提取方法、装置及电子设备 | |
CN109902101B (zh) | 基于SparkSQL的透明分区方法及装置 | |
US10901811B2 (en) | Creating alerts associated with a data storage system based on natural language requests | |
US20140019454A1 (en) | Systems and Methods for Caching Data Object Identifiers | |
US9483523B2 (en) | Information processing apparatus, distributed processing system, and distributed processing method | |
WO2023103626A1 (zh) | 数据降采样和数据查询方法、系统及存储介质 | |
US20150066975A1 (en) | Reporting tools for object-relational databases | |
CN113032356A (zh) | 一种客舱分布式文件存储系统及实现方法 | |
CN109117426B (zh) | 分布式数据库查询方法、装置、设备及存储介质 | |
CN109388651A (zh) | 一种数据处理方法和装置 | |
CN109063061B (zh) | 跨分布式系统数据处理方法、装置、设备及存储介质 | |
WO2019174558A1 (zh) | 一种数据索引方法及装置 | |
CN116578614A (zh) | 一种管道设备的数据管理方法、系统、介质及设备 | |
US11847121B2 (en) | Compound predicate query statement transformation | |
US11907197B2 (en) | Volume placement failure isolation and reporting | |
CN115905313A (zh) | 一种MySQL大表关联查询系统及方法 | |
CN112749189A (zh) | 数据查询方法及装置 | |
US10891274B2 (en) | Data shuffling with hierarchical tuple spaces | |
CN117390040B (zh) | 基于实时宽表的业务请求处理方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |