CN112667747B

CN112667747B - 支持自定义插件的动态配置多数据库分布式持久化方法

Info

Publication number: CN112667747B
Application number: CN202011634276.7A
Authority: CN
Inventors: 谢铭; 郑佳星; 蒲路
Original assignee: Beijing Scistor Technologies Co ltd
Current assignee: Beijing Scistor Technologies Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-09-21
Anticipated expiration: 2040-12-31
Also published as: CN112667747A

Abstract

本发明是一种支持自定义插件的动态配置多数据库分布式持久化方法，对多数据库引擎的海量数据存储提供自动化、可配置、统一化的高效数据接入。本发明方法包括：搭建包含多种存储引擎、配置生成工具loadtool、数据持久化工具Pasca、Zookeeper和Kafka集群的数据平台；loadtool实现自动化配置，上传配置文件到Zookeeper；Pasca监控Zookeeper以动态更新配置；将接入的实时数据或离线数据发往Kafka集群，Pasca启动数据持久化通道，对接入的数据持久化。本发明具有自动化、动态配置、统一化优点，能方便的简单、灵活、高效的持久化数据，充分利用大数据集群的存储和计算资源。

Description

支持自定义插件的动态配置多数据库分布式持久化方法

技术领域

本发明属于计算机技术领域，具体涉及一种支持自定义插件的动态配置多数据库引擎分布式持久化技术。

背景技术

随着计算机的不断发展和信息化程度的不断提高，数据量迅速增长，面向海量数据灵活采集应用也随之蓬勃发展。Mysql、Hive、HBase、ElasticSearch等存储引擎存储了结构化、半结构化、非结构化、文本等多种格式的海量数据，但随着多数据库引擎存储需求的迅猛提升，需要更加高效灵活全面的分布式数据持久化技术。

数据持久化认为每条数据都是有价值的，随着数据规模的增大，保证数据在采集和存储阶段的一致性，保障数据的高效流转，提高系统资源的使用率，实现不同格式数据的处理，在多种数据库引擎的存储落地，减少数据在流转过程中的价值损失，使数据在持久化的各个阶段中实现资源利用的最大化。因为随着数据规模的增大，数据落地需求的增多，高效数据持久化服务容灾能力有限，不同场景下数据采集的手动配置，多种数据格式的定制化二次开发，极大的限制了数据持久化的安全性、灵活性，所以做好数据通道的维护管理，提高不同场景下数据持久化服务适配能力，使数据持久化高效、安全、不间断。因此提出一种实现自动化的配置生成、动态的配置更新以及插件化处理不同格式数据的分布式持久化方法成为亟待解决的问题。

发明内容

为了对多数据库引擎的海量数据存储提供自动化、可配置、统一化的高效数据接入，本发明提供了一种支持自定义插件的动态配置多数据库分布式持久化方法，基于数据Schema 及Kafka，实现对Mysql、Hive、HBase、ElasticSearch等数据引擎数据接入过程中的自动化配置生成、动态配置更新以及插件化处理不同格式数据的分布式实现，符合当下大数据持久化的实际需求，具有较大的实际应用前景。

本发明提供的一种支持自定义插件的动态配置多数据库引擎分布式持久化方法，包括如下步骤：

步骤一，搭建大数据基础平台，包括多种存储引擎、配置生成工具loadtool、数据持久化工具Pasca、Zookeeper以及Kafka集群；

步骤二，监控Zookeeper以动态更新配置；

步骤三，进行持久化数据接入，接入的数据类型包括实时数据和离线数据；

步骤四，数据持久化工具Pasca启动数据持久化通道，对接入的数据持久化。

所述的步骤一中，配置生成工具loadtool接收到自动配置指令后，加载标准配置文件，实现配置的增加、删除和修改操作；loadtool将标准配置文件上传至Zookeeper，同时也存入 Mysql数据库备份；所述的标准配置文件包括kaf kaserver和loadserver。数据持久化工具Pasca 从Zookeeper读取配置文件，生成相应存储引擎的数据持久化通道。

所述的步骤二中，当对配置进行增加操作时，loadtool创建Kafka Topic，注册数据Schema，数据持久化工具Pasca生成相应存储引擎的数据持久化通道；当配置中出现新数据格式的配置时，Pasca根据自动配置指令中记载的数据类型jar包全路径名称，搜索调用对应的jar包，进行数据校验。当对配置进行修改操作时，从Mysql数据库中查询相应的配置文件并修改，上传更新后的配置文件到Zookeeper。当对配置进行删除操作时，从Mysql数据库中查询相应的配置文件并删除。当对配置进行查询操作时，从Mysql数据库中查询相应的配置的库表信息返回。

所述的步骤三中，设置多个实时数据接入服务端，以支持实时数据并行接入。步骤三进行数据接入的步骤包括：步骤31，首先对接入数据的服务端的权限进行查询，判断是否有权限发送数据到Kafka集群；若有权限，接入数据，继续执行下一步，否则终止数据接入；步骤32，判断数据类型是否为AVRO格式文件或者CSV格式文件，若是，继续执行下一步，否则终止数据接入；步骤33，判断数据校验级别，根据校验级别校验数据是否合法，若是记录数据条数并将数据发送Kafka集群，否则终止数据接入；所述的数据校验级别包括三种，分别是：不校验、基本数据类型校验以及复杂数据类型校验。

所述的步骤四中，数据持久化工具Pasca持久化数据的步骤包括：步骤41，首先判断需要发送的数据库，再判断是否使用默认格式的数据类型进行处理，若是使用默认格式的数据类型进行处理，否则，使用传入的新增数据类型进行处理；Pasca根据新增数据类型jar包全路径搜索调用对应的jar包，使用程序映射函数处理对应数据格式的接入数据；其中，默认格式的数据类型包括AVRO格式和CSV格式，所述的新增数据类型jar包中存储新增加的数据格式的处理逻辑的类；步骤42，Pasca从Kafka集群获取接入数据，对数据统计并校验数据格式，存入对应的数据库中。

相对于现有技术，本发明方法的优点和积极效果在于：(1)本发明方法搭建的大数据基础平台实现了持久化自动化生成配置、动态更新配置、插件化处理不同格式数据的分布式持久化，具有自动化、动态配置、统一化优点，能方便地简单灵活高效的持久化数据。(2)本发明方法实现了对数据持久化服务灵活配置，便捷开发，高效处理，充分利用大数据集群的存储、计算资源，为大数据中数据持久化方向。(3)本发明方法实现了自动生成配置文件，自动注册数据Schema，自动创建Kafka Topic，通过动态更新配置文件来创建相应持久化通道，并且可添加自定义插件完成针对不同格式数据的处理。

附图说明

图1是本发明的动态配置多数据库引擎分布式持久化方法的数据接入平台框架图；

图2是本发明自动化生成配置的流程图；

图3是本发明的进行数据接入的流程示意图；

图4是本发明中Pasca动态更新的流程图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了对数据持久化进行高效、自动化、统一的数据持久化管理，本发明提供的支持自定义插件的动态配置多数据库引擎分布式持久化方法，实现了自动化生成配置文件、动态更新配置、以及插件化处理不同格式数据的分布式实现方法，下面分四个步骤说明。

步骤一、搭建如图1所示的大数据基础平台，主要组件包括多种存储引擎、配置生成工具loadtool、数据持久化工具Pasca、Zookeeper集群以及Kafka集群。其中，图1所示的存储引擎包括Hive、HBase、ElasticSearch、Mysql等。所搭建的平台支持如HTTP、KAFKA等实时数据接入，以及FTP等离线数据接入的多种数据接入方式。

其中，Hive是基于Hadoop的一个数据仓库工具，包括服务端Hive MetaStore和Hive客户端，HBase是一个分布式的、面向列的开源数据库。Hadoop是一个分布式系统基础架构，是本发明对大量数据进行分布式处理的软件框架。Elasticsearch是一个基于Lucene的搜索服务器，图中简写为ES。Mysql是一个关系型数据库管理系统。Zookeeper是一个分布式的，开放源码的分布式应用程序协调服务。Kafka是一个基于Zookeeper协调的开源流处理平台， Kafka集群中包含多个消息中间件处理服务器broker，用一个topic表示一类消息的集合，Kafka 集群能够同时负责多个topic的分发。图1中loadtoolAH表示loadtool是高可用。本发明所使用的数据持久化工具命名为Pasca，实现将数据持久化入相应的数据库中。如图1所示，Pasca 将根据配置文件生成多个数据持久化通道，与存储引擎进行交互。数据持久化工具Pasca基于现有数据持久化技术实现，本发明不再赘述。

配置生成工具loadtool为数据持久化工具Pasca和Kafka集群提供配置文件。loadtool生成的配置文件将存入Mysql数据库中，同时也上传至Zookeeper。数据持久化工具Pasca从 Zookeeper读取配置文件，生成数据持久化通道。

配置生成工具loadtool支持配置文件的增加、删除、修改、查询等自动化的配置操作。配置的自动生成需要两个标准配置文件以及Hive的认证。安装loadtool工具时，将配置文件 hive-site.xml与认证证书放入conf文件夹，修改两个配置文件作为标准配置文件，两个配置文件分别为kaf kaserver、loadserver。hive-site.xml为Hive的配置文件。配置文件kafkaserver 配置要读取的Kafka topic的相关信息以及数据通道要发往的数据库。配置文件loadserver配置Hive的认证，数据存储的具体数据库和表名称，持久化一次数据的周期。通过工具loadtool 根据接收到的自动配置指令，读取两个配置文件kafkaserver、loadserver对配置进行增删改查。配置的增加对应是增加数据持久化通道，根据设置的数据类型对接入数据处理，存入相应的存储引擎。配置的删除对应是删除数据持久化通道。配置的修改相当于是更改数据持久化通道的配置。配置的读取是从Mysql数据库中查询相应配置的数据库和表信息。

对于增加配置的自动配置指令，本发明的loadtool读取已存在本地的标准配置文件，将配置文件上传至Mysql进行数据保存备份，并上传至Zookeeper。loadtool根据配置文件，创建Kafka Topic，注册数据Schema为数据持久化提供自动化配置。Pasca需要Schema的进行数据校验的工具来校验数据。

自动配置指令中包含的属性如表1所示。

表1自动配置的属性信息

其中，Type代表指定存储数据的存储引擎；Append代表进行增加配置还是删除配置，如上表，当取值false代表删除配置，取值ture代表增加配置。databaseName是指定存储数据的数据库名称，tableName是指定存储数据的数据表名称，数据库与表需要预先建好。jar是Java Archive File，是一种将多个文件压缩到一个文件的文件格式。

对于删除配置的自动配置指令，loadtool查询Mysql中对应的配置文件kafkaserver、 loadserver，并进行删除，将记载删除配置的配置文件上传Zookeeper中。

对于修改配置的自动配置指令，loadtool查询到Mysql中对应的配置文件kafkaserver、loadserver，进行修改更新后，上传到Zookeeper中，同时修改后的配置文件也存放在Mysql 数据库中。

安装Pasca需要hive-site.xml、core-site.xml、hdfs-site.xml和认证证书放入conf文件夹。 hive-site.xml、core-site.xml和hdfs-site.xml是hadoop的配置文件。core-site.xml指定namenode 的位置。hdfs-site.xml配置namenode和datanode存放文件的具体路径。hive-site.xml是Hive 的配置文件。

步骤二、启动loadtool工具，进行初始化配置，然后监控Zookeeper以动态更新配置。工具loadtool根据接收到的自动配置指令加载标准配置文件，Pasca执行对应的配置操作。

本发明通过监控Zookeeper来触发新配置的加载，当发现Zookeeper发生变化，数据持久化工具Pasca读取Zookeeper节点的配置文件来添加相应的持久化通道。当配置中出现新数据格式的配置时，只需把新的数据类型转换的jar包放入相应的路径下，Pasca将根据自动配置指令中的属性dataPluginName，自动搜索调用jar包，进行数据的校验。本发明的数据平台支持多种数据库如Hive、HBase、ElasticSearch、Mysql等的持久化，并支持入库数据的条数统计。

如图2所示，启动loadtool工具后，loadtool接收到自动配置指令，若收到指令为APPEND，判断配置文件是否已经存在配置，如果配置已经存在，表示当前执行的是配置修改操作，更新相应的配置文件，保存在Mysql中，并上传到Zookeeper中；如果历史配置中没有配置，表示当前执行的是配置新增操作，将配置文件发送至Zookeeper中，创建KafkaTopic，注册数据Schema，Pasca生成数据持久化通道。如果收到的指令为删除指令DELETE，首先判断是否配置是否已经存在，若存在，执行自动删除配置操作，从Mysql中删除对应的库表配置信息，若不存在，不需要进行删除操作。如果收到的指令为读取指令GET，判断是否存在对应的配置，若存在，从存储的数据库表中查询返回所要的库表信息；若不存在，返回未查询到数据结果。

步骤三、进行持久化数据接入。

如图1所示，本发明支持HTTP、KAFKA等实时数据接入，也支持FTP等离线数据接入。在数据接入过程中支持数据类型校验，包括基本数据类型和Date、Timestamp、Text、IPV4、IPV6等复杂数据类型校验。支持数据接入过程中的权限认证，支持实时的资源消耗统计，支持数据及异常数据条数统计的审计功能。

对于HTTP的实时数据接入，针对海量数据的高效数据接入需求，本发明设计了多HTTP 服务端并行数据接入，并根据不同服务端物理机性能，通过权重配比，采用优化的轮询算法进行负载均衡的数据接入处理，同时保证了HTTP数据接入服务的高可用，避免了单点故障。

对于数据的接入流程如图3所示，包括：

步骤31，首先对接入数据的服务端的权限进行查询，判断是否有权限发送数据到Kafka，包括：读取服务端配置文件检查权限，判断是否开启权限设置，若开启，判断输入的用户名和密码是否匹配，是否有权限发送数据到Kafka，若都是，则继续步骤32，否则，抛出权限不匹配或权限异常提示，终止数据接入；

步骤32，判断数据类型是否为AVRO格式文件或者CSV格式文件，如果不是，程序抛出异常，终止数据接入；若是，执行步骤33；

步骤33，判断数据校验级别，0为不校验，1为基本数据类型校验，2为复杂数据类型校验，复杂数据类型包括Date、Timestamp、Text、IPV4、IPV6等复杂数据类型的校验；根据数据校验级别，校验数据是否合法，若数据格式有误抛出异常，终止数据接入；若格式无误，数据合法，则记录数据条数并将数据发送Kafka集群。

步骤四、由Pasca工具进行动态更新并持久化数据。

如图4所示，启动Pasca，不间断监控Zookeeper节点更新的配置文件，若配置文件有变化，读取上传到Zookeeper节点的配置文件，进行配置动态更新，并启动相对的数据持久化通道线程进行持久化操作。

Pasca工具进行持久化数据包括如下步骤：

步骤41，先判断需要发送的数据库，是Hive还是Hbase还是ElasticSearch还是其他类型数据库，后判断是否使用默认函数来处理数据信息，即图4中判断data.type是否为空null，若是，使用默认格式的数据类型进行处理，否则，使用传入的数据类型进行处理；Pasca根据自动配置指令中记载的数据类型jar包全路径，搜索调用对应的jar包，然后使用程序映射函数处理相应的数据格式的接入数据。

默认格式的数据类型是指AVRO格式和CSV格式，但是随着数据类型的增加还需要修改源码来处理数据，因此，本发明设置了新增数据类型方式，只需要将新增加的一种数据格式的处理逻辑的类放入指定的位置，通过自动配置指令发送给Pasca，Pasca在执行时从指定的位置调用类进行相应数据格式文件的处理。本发明的这种操作省去了原始的每增加一种数据类型处理就要修改源码的操作。

步骤42，统计并校验数据格式，最后数据存入对应的数据库。Pasca读取的数据以Kafka 集群为数据源，其中Kafka集群的数据可以是步骤三采集读入，也可其他方式发送至Kafka 集群中。

Claims

1.一种支持自定义插件的动态配置多数据库分布式持久化方法，其特征在于，包括：

步骤1，搭建大数据基础平台，包括存储引擎、配置生成工具loadtool、数据持久化工具Pasca、Zookeeper以及Kafka集群；

其中，配置生成工具loadtool接收到自动配置指令后，读取标准配置文件，对配置进行增加、删除、修改或查询操作；loadtool将标准配置文件上传至Zookeeper，同时也存入Mysql数据库备份；Pasca从Zookeeper读取配置文件；

所述的标准配置文件包括配置文件kaf kaserver和loadserver，其中，kafkaserver用于配置要读取的Kafka topic的信息以及数据持久化通道要发往的数据库；配置文件loadserver用于配置Hive的认证，数据存储的数据库名称和表名称，以及持久化数据的周期；

步骤2，监控Zookeeper以动态更新配置；

当对配置进行增加操作时，loadtool创建Kafka Topic，注册数据Schema，数据持久化工具Pasca生成相应存储引擎的数据持久化通道；当配置中出现新数据格式的配置时，Pasca根据自动配置指令中记载的数据类型jar包全路径名称，搜索调用对应的jar包，进行数据校验处理；

当对配置进行修改操作时，从Mysql数据库中查询相应的配置文件并修改，上传更新后的配置文件到Zookeeper；

当对配置进行删除操作时，从Mysql数据库中查询相应的配置文件并删除；

当对配置进行查询操作时，从Mysql数据库中查询相应的配置的库表信息返回；

步骤3，进行持久化数据接入，接入的数据类型包括实时数据和离线数据；设置多个实时数据接入服务端，以支持实时数据并行接入；

步骤4，数据持久化工具Pasca启动数据持久化通道，对接入的数据持久化。

2.根据权利要求1所述的方法，其特征在于，所述的步骤1中，存储引擎包括Hive、HBase、ElasticSearch以及Mysql。

3.根据权利要求1所述的方法，其特征在于，所述的步骤1中，配置生成工具loadtool接收到的自动配置指令包含的属性如下：

Type，表示指定存储数据的存储引擎；

Append，表示增加配置或删除配置，取值false时为删除配置，取值ture时为增加配置；

databaseName，表示指定存储数据的数据库名称；

tableName，表示指定存储数据的数据表名称；

schemaIP，表示Schenma的服务端口地址；

datasourceTopic，表示Kafka需要创建的topic名称；

dataPluginName，表示要动态添加的数据类型jar包的全路径名称。

4.根据权利要求1或2所述的方法，其特征在于，所述的步骤3中，进行数据接入的步骤包括：

步骤31，首先对接入数据的服务端的权限进行查询，判断是否有权限发送数据到Kafka集群；若有权限，接入数据，继续执行下一步，否则终止数据接入；

步骤32，判断数据类型是否为AVRO格式文件或者CSV格式文件，若是，继续执行下一步，否则终止数据接入；

步骤33，判断数据校验级别，根据校验级别校验数据是否合法，若是记录数据条数并将数据发送Kafka集群，否则终止数据接入；所述的数据校验级别包括三种，分别是：不校验、基本数据类型校验以及复杂数据类型校验。

5.根据权利要求1所述的方法，其特征在于，所述的步骤4中，数据持久化工具Pasca持久化数据的步骤包括：

步骤41，首先判断需要发送的数据库类型，再判断是否使用默认格式的数据类型进行处理，若是使用默认格式的数据类型进行处理，否则，使用传入的新增数据类型进行处理；Pasca根据新增数据类型jar包全路径搜索调用对应的jar包，使用程序映射函数处理对应数据格式的接入数据；其中，默认格式的数据类型包括AVRO格式和CSV格式，所述的新增数据类型jar包中存储新增加的数据格式的处理逻辑的类；

步骤42，Pasca从Kafka集群获取接入数据，对数据统计并校验数据格式，存入对应的数据库中。