CN112579705A

CN112579705A - 元数据采集方法、装置、计算机设备和存储介质

Info

Publication number: CN112579705A
Application number: CN201910924072.8A
Authority: CN
Inventors: 李丹琦
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2021-03-30
Anticipated expiration: 2039-09-27
Also published as: CN112579705B

Abstract

本申请涉及大数据处理技术领域，特别是涉及一种元数据采集方法、装置、计算机设备和存储介质。一个实施例中的方法包括：获取用户输入的SQL语句，并根据用户的指令选取与Hive数据仓库对应的SQL引擎；继承Hive数据仓库的事件监听抽象类，当通过事件监听抽象类监听到Hive数据仓库执行元数据服务时，采集SQL引擎对应的元数据，元数据由选取的SQL引擎分析SQL语句产生。由于Hive数据仓库对应的SQL引擎均需通过元数据服务对元数据进行操作，这样就可以在元数据服务阶段采集到不同SQL引擎对应的元数据，而无需针对不同SQL引擎分别设计不同的采集器进行元数据采集，从而实现了元数据的兼容采集。

Description

元数据采集方法、装置、计算机设备和存储介质

技术领域

本申请涉及大数据处理技术领域，特别是涉及一种元数据采集方法、装置、计算机设备和存储介质。

背景技术

元数据是指描述数据的数据，主要是描述数据属性的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。在数据仓库领域中，元数据能提供基于用户的信息，如记录数据项的业务描述信息的元数据能帮助用户使用数据。元数据还能支持系统对数据的管理和维护，如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。

因此，对元数据进行采集具有很重要的实际应用价值。传统的元数据采集方法一般需要选择采集器，根据不同的数据源选择不同的采集器进行采集，比如Apache开源的atlas的采集器只能采集到通过Hive SQL引擎产生的元数据，而无法采集到其它SQL引擎产生的元数据，比如，Spark和Impala SQL引擎，其它SQL引擎需要设计新的采集器进行元数据采集。即传统的元数据采集方法不具有兼容性。

发明内容

基于此，有必要针对上述技术问题，提供一种具有兼容性的元数据采集方法、装置、计算机设备和存储介质。

一种元数据采集方法，所述方法包括：

获取用户输入的SQL语句，并根据用户的指令选取与Hive数据仓库对应的SQL引擎；

继承所述Hive数据仓库的事件监听抽象类；

当通过所述事件监听抽象类监听到所述Hive数据仓库进入元数据服务时，采集所述SQL引擎对应的元数据，所述元数据由选取的所述SQL引擎分析所述SQL语句产生。

在一个实施例中，所述采集所述SQL引擎对应的元数据之后，还包括：

继承所述Hive数据仓库的预设接口；

通过所述预设接口获取执行元数据服务采集到的元数据信息；

对所述元数据信息中的元数据插入数据来源字段以及数据来源字段信息，得到元数据标签类。

在一个实施例中，所述方法还包括：

调用所述元数据标签类，获取对数据来源进行标记后的元数据；

当监听到发生元数据变更时，连接所述元数据服务，根据所述标记后的元数据进行元数据更新。

在一个实施例中，所述方法还包括：

接收配置项配置添加请求，所述配置项配置添加请求携带待添加至配置项中的元数据标签类；

响应所述配置项配置添加请求，将所述元数据标签类添加至所述Hive数据仓库的配置项中。

在一个实施例中，所述方法还包括：

接收配置项配置添加请求，所述配置项配置添加请求携带待添加至配置项中的元数据采集类；

响应所述配置项配置添加请求，将所述元数据采集类添加至所述Hive数据仓库的配置项中；

所述当监听到进入元数据服务时，采集所述SQL引擎对应的元数据，包括：

当监听到执行元数据服务时，调用所述元数据采集类，采集所述SQL引擎对应的元数据。

将采集到的元数据存储至预设数据库。

在一个实施例中，所述SQL引擎包括Hive、Spark SQL、Impala三种分布式SQL引擎中的至少两种。

一种元数据采集装置，所述装置包括：

信息获取模块，用于获取用户输入的SQL语句，并根据用户的指令选取与Hive数据仓库对应的SQL引擎；

元数据采集模块，用于继承所述Hive数据仓库的事件监听抽象类，当通过所述事件监听抽象类监听到所述Hive数据仓库执行元数据服务时，采集所述SQL引擎对应的元数据，所述元数据由选取的所述SQL引擎分析所述SQL语句产生。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

继承所述Hive数据仓库的事件监听抽象类，当通过所述事件监听抽象类监听到所述Hive数据仓库执行元数据服务时，采集所述SQL引擎对应的元数据，所述元数据由选取的所述SQL引擎分析所述SQL语句产生。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述元数据采集方法、装置、计算机设备和存储介质，通过获取用户输入的SQL语句，并根据用户的指令选取与Hive数据仓库对应的SQL引擎，继承Hive数据仓库的事件监听抽象类，当监听到承Hive数据仓库执行元数据服务时，采集SQL引擎对应的元数据，元数据由选取的SQL引擎分析SQL语句产生，由于Hive数据仓库对应的SQL引擎均需通过元数据服务对元数据进行操作，这样就可以在元数据服务阶段采集到不同SQL引擎对应的元数据，而无需针对不同的SQL引擎分别设计不同的采集器进行元数据采集，从而实现了元数据的兼容采集。

附图说明

图1为一个实施例中元数据采集方法的应用环境图；

图2为一个实施例中元数据采集方法的流程示意图；

图3为另一个实施例中元数据采集方法的流程示意图；

图4为一个实施例中元数据采集装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文本数据处理方法，可以应用于如图1所示的应用环境中。其中，客户终端102通过网络与服务器104进行通信。用户通过客户终端102输入SQL(StructuredQuery Language，结构化查询语言)语句，并选择执行SQL语句的SQL引擎。服务器104获取用户输入的SQL语句，并根据用户的指令选取与Hive数据仓库对应的SQL引擎；继承Hive数据仓库的事件监听抽象类，当通过事件监听抽象类监听到Hive数据仓库执行元数据服务时，采集SQL引擎对应的元数据，元数据由选取的SQL引擎分析SQL语句产生。其中，客户终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑，服务器104可以用独立的服务器或者是服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种元数据采集方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取SQL语句以及与Hive数据仓库对应的SQL引擎。其中，SQL语句由用户输入，这里的SQL引擎是用户选取的SQL引擎。

SQL可以用于存取数据以及查询、更新和管理关系数据库系统，SQL语句是对数据库进行操作的一种语言。数据仓库目的是构建面向分析的集成化数据环境，为企业提供决策支持，出于分析性报告和决策支持目的而创建。数据仓库的数据来源于外部，并且开放给外部应用。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。其中，主要的SQL引擎包括Hive、Spark SQL和Impala三种分布式SQL查询引擎。具体地，SQL引擎包括Hive SQL引擎、Spark SQL引擎以及Impala SQL引擎中的至少两种。

步骤204，继承Hive数据仓库的事件监听抽象类。

Hive数据仓库中，要实现某个类时需要对其进行初始化，如果一个类中没有定义任何的构造函数，那么编译器在类有虚拟成员函数或者虚拟继承父类、类的基类有构造函数(可以是用户定义的构造函数，或编译器提供的默认构造函数)以及类中的所有非静态的对象数据成员，对应的类中有构造函数(可以是用户定义的构造函数，或编译器提供的默认构造函数)这三种情况，会提供默认的构造函数。因此，要实现监听功能，可以通过继承Hive数据仓库的事件监听抽象类。Hive中存在一个事件监听抽象类MetaStoreEventListener，在Hive源码的Metastore模块下。

步骤206，当通过事件监听抽象类监听到Hive数据仓库执行元数据服务时，采集SQL引擎对应的元数据，元数据由选取的SQL引擎分析SQL语句产生。

Hive引擎获得的元数据在Hive Server2中生成，然后通过Hive MetaStore(元数据服务)将元数据存储至数据库，而Spark引擎和Impala引擎需要通过Hive MetaStore处理元数据，将在其内部发生的元数据变化映射至实际存储。因此，在Hive MetaStore阶段，不同SQL引擎对应的元数据同时存在，此时，可以同时采集到不同SQL引擎对应的元数据。

上述元数据采集方法，通过获取用户输入的SQL语句，并根据用户的指令选取与Hive数据仓库对应的SQL引擎，继承Hive数据仓库的事件监听抽象类，当监听到Hive数据仓库执行元数据服务时，采集SQL引擎对应的元数据，元数据由选取的SQL引擎分析SQL语句产生，由于Hive数据仓库对应的SQL引擎均需通过元数据服务对元数据进行操作，这样就可以在元数据服务阶段采集到不同SQL引擎对应的元数据，而无需针对不同SQL引擎分别设计不同的采集器进行元数据采集，从而实现了元数据的兼容采集。

在一个实施例中，如图3所示，采集SQL引擎对应的元数据之后，还包括：步骤304，继承Hive数据仓库的预设接口；步骤305，通过预设接口获取执行元数据服务采集到的元数据信息；步骤306，对元数据信息中的元数据插入数据来源字段以及数据来源字段信息，得到元数据标签类。继承Hive提供的接口AbstractSemanticAnalyzerHook，通过该接口可以获取Hive数据仓库执行一次元数据服务采集到的所有元数据信息，该元数据信息包括不同SQL引擎对应的元数据。在获取到所有元数据信息后，可以编辑元数据信息对元数据进行修改，比如插入数据来源字段以及数据来源字段信息，具体形式可以是source：hive，用以表征该元数据的数据来源为Hive。同理，可以通过上述方式实现对来自不同数据来源的元数据，比如Spark、Impala，进行自定义Hook，由此得到了元数据标签类。

在一个实施例中，元数据采集方法还包括：调用元数据标签类，获取对数据来源进行标记后的元数据；当监听到发生元数据变更时，连接元数据服务，根据标记后的元数据进行元数据更新。在建立元数据标签类后，后续再对进行元数据采集时，可以通过调用该元数据标签类，根据数据来源字段判断元数据的数据来源。

在一个实施例中，元数据采集方法还包括：接收配置项配置添加请求，配置项配置添加请求携带待添加至配置项中的元数据标签类；响应配置项配置添加请求，将元数据标签类添加至Hive数据仓库的配置项中。这样可以使元数据标签类生效，从而保证对元数据标签类的调用有效。具体可以通过hive.semantic.analyzer.hook实现。

在一个实施例中，元数据采集方法还包括：接收配置项配置添加请求，配置项配置添加请求携带待添加至配置项中的元数据采集类；响应配置项配置添加请求，将元数据采集类添加至Hive数据仓库的配置项中；当监听到执行元数据服务时，采集SQL引擎对应的元数据，包括：当监听到执行元数据服务时，调用元数据采集类，采集SQL引擎对应的元数据。将元数据采集类添加至Hive数据仓库的配置项中。这样使元数据采集类生效，从而保证对元数据标签类的调用有效。具体可以通过hive.metastore.event.listeners实现。

在一个实施例中，采集SQL引擎对应的元数据之后，还包括：将采集到的元数据存储至预设数据库。比如，将采集到的元数据存储至MySQL数据库。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种元数据采集装置，包括：信息获取模块402和元数据采集模块404。信息获取模块，用于获取用户输入的SQL语句，并根据用户的指令选取与Hive数据仓库对应的SQL引擎。元数据采集模块，用于继承Hive数据仓库的事件监听抽象类，当通过事件监听抽象类监听到Hive数据仓库执行元数据服务时，采集SQL引擎对应的元数据，元数据由选取的SQL引擎分析SQL语句产生。

在一个实施例中，元数据采集装置还包括标记模块，用于继承Hive数据仓库的预设接口，通过预设接口获取执行元数据服务采集到的元数据信息；对元数据信息中的元数据插入数据来源字段以及数据来源字段信息，得到元数据标签类。

在一个实施例中，元数据采集装置还包括更新模块，用于调用元数据标签类，获取对数据来源进行标记后的元数据；当监听到发生元数据变更时，连接元数据服务，根据标记后的元数据进行元数据更新。

在一个实施例中，元数据采集装置还包括第一配置模块，用于接收配置项配置添加请求，配置项配置添加请求携带待添加至配置项中的元数据标签类；响应配置项配置添加请求，将元数据标签类添加至Hive数据仓库的配置项中。

在一个实施例中，元数据采集装置还包括第二配置模块，用于接收配置项配置添加请求，配置项配置添加请求携带待添加至配置项中的元数据采集类；响应配置项配置添加请求，将元数据采集类添加至Hive数据仓库的配置项中；元数据采集模块还用于当监听到进入元数据服务时，调用元数据采集类，采集SQL引擎对应的元数据。

在一个实施例中，元数据采集装置还包括存储模块，用于将采集到的元数据存储至预设数据库。

在一个实施例中，元数据采集装置中的SQL引擎包括Hive、Spark SQL、Impala三种分布式SQL引擎中的至少两种。

关于元数据采集装置的具体限定可以参见上文中对于元数据采集方法的限定，在此不再赘述。上述元数据采集装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储元数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种元数据采集方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取用户输入的SQL语句，并根据用户的指令选取与Hive数据仓库对应的SQL引擎；继承Hive数据仓库的事件监听抽象类，当通过事件监听抽象类监听到Hive数据仓库执行元数据服务时，采集SQL引擎对应的元数据，元数据由选取的SQL引擎分析SQL语句产生。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：继承Hive数据仓库的预设接口，通过预设接口获取执行元数据服务采集到的元数据信息；对元数据信息中的元数据插入数据来源字段以及数据来源字段信息，得到元数据标签类。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：调用元数据标签类，获取对数据来源进行标记后的元数据；当监听到发生元数据变更时，连接元数据服务，根据标记后的元数据进行元数据更新。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：接收配置项配置添加请求，配置项配置添加请求携带待添加至配置项中的元数据标签类；响应配置项配置添加请求，将元数据标签类添加至Hive数据仓库的配置项中。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：接收配置项配置添加请求，配置项配置添加请求携带待添加至配置项中的元数据采集类；响应配置项配置添加请求，将元数据采集类添加至Hive数据仓库的配置项中；当监听到进入元数据服务时，调用元数据采集类，采集SQL引擎对应的元数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将采集到的元数据存储至预设数据库。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：SQL引擎包括Hive、Spark SQL、Impala三种分布式SQL引擎中的至少两种。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取用户输入的SQL语句，并根据用户的指令选取与Hive数据仓库对应的SQL引擎；继承Hive数据仓库的事件监听抽象类，当通过事件监听抽象类监听到Hive数据仓库执行元数据服务时，采集SQL引擎对应的元数据，元数据由选取的SQL引擎分析SQL语句产生。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：继承Hive数据仓库的预设接口，通过预设接口获取执行元数据服务采集到的元数据信息；对元数据信息中的元数据插入数据来源字段以及数据来源字段信息，得到元数据标签类。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：调用元数据标签类，获取对数据来源进行标记后的元数据；当监听到发生元数据变更时，连接元数据服务，根据标记后的元数据进行元数据更新。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：接收配置项配置添加请求，配置项配置添加请求携带待添加至配置项中的元数据标签类；响应配置项配置添加请求，将元数据标签类添加至Hive数据仓库的配置项中。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：接收配置项配置添加请求，配置项配置添加请求携带待添加至配置项中的元数据采集类；响应配置项配置添加请求，将元数据采集类添加至Hive数据仓库的配置项中；当监听到进入元数据服务时，调用元数据采集类，采集SQL引擎对应的元数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将采集到的元数据存储至预设数据库。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：SQL引擎包括Hive、Spark SQL、Impala三种分布式SQL引擎中的至少两种。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种元数据采集方法，所述方法包括：

继承所述Hive数据仓库的事件监听抽象类；

当通过所述事件监听抽象类监听到所述Hive数据仓库执行元数据服务时，采集所述SQL引擎对应的元数据，所述元数据由选取的所述SQL引擎分析所述SQL语句产生。

2.根据权利要求1所述的方法，其特征在于，所述采集所述SQL引擎对应的元数据之后，还包括：

继承所述Hive数据仓库的预设接口；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

当监听到进入元数据服务时，调用所述元数据采集类，采集所述SQL引擎对应的元数据。

6.根据权利要求1所述的方法，其特征在于，所述采集所述SQL引擎对应的元数据之后，还包括：

将采集到的元数据存储至预设数据库。

7.根据权利要求1所述的方法，其特征在于，所述SQL引擎包括Hive、Spark SQL以及Impala三种分布式SQL引擎中的至少两种。

8.一种元数据采集装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。