CN114048260B

CN114048260B - 一种数据湖与关系型数据库互联的方法

Info

Publication number: CN114048260B
Application number: CN202210029283.7A
Authority: CN
Inventors: 刘昊; 张涛; 张磊; 王朋; 刘哲峰; 陈志凌; 王秋烨; 陈巍; 刘荫隆; 郁晨熹
Original assignee: Beijing Big Data Advanced Technology Research Institute; Nanhu Laboratory
Current assignee: Beijing Big Data Advanced Technology Research Institute; Nanhu Laboratory
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-09-09
Anticipated expiration: 2042-01-12
Also published as: NL2033754B1; CN114048260A; US20230222138A1; US11914609B2; NL2033754A

Abstract

本发明提供了一种数据湖与关系型数据库互联的方法，包括以下步骤：S1.在数据湖中添加关系型数据库的数据源类；S2.数据湖匹配使用关系型数据库的数据源类；S3.根据数据源类确定并加载相应驱动以与相应关系型数据库进行连接。本发明通过传参的方式将数据源注册配置文件、关系型数据库配置文件和驱动包目录串联起来，在启动数据湖时，不需要指定具体要使用哪个数据库，直接使用相应的数据库即可，也不需要遍历配置文件，用户按需通过传递参数的形式获取所需的配置信息即可，实现数据湖与关系型数据库之间的高效连接和双向读写。

Description

一种数据湖与关系型数据库互联的方法

技术领域

本发明属于数据湖技术领域，尤其是涉及一种数据湖与关系型数据库互联的方法。

背景技术

近年来，随着物联网、云计算、遥感、5G等技术的快速发展，各种数据呈现井喷式增长。从数据结构上说，数据可以分为四大类，结构化数据、半结构化数据、非结构化数据和二进制数据。为了存储这些数据，企事业单位一般会按业务或部门构建各自独立的数据库，这就导致了数据孤岛的问题，数据间共享困难，数据利用率低。

随着大数据时代的到来，结构化数据被运用得越来越多，但是很多领域的结构化数据被单一地存储在关系型数据库中，这部分数据往往无法和其他数据间进行共享，进而成为一个数据孤岛。

数据湖是一个用于存储企业的各种各样原始数据并保留原始数据内容的大规模存储系统架构，支持结构化数据、半结构化数据、非结构化数据和二进制数据等数据存储，其中的数据可供存取、处理、分析及传输，并且支持海量数据的分析处理，所以可以利用数据湖将关系型数据库中的数据与其他数据实现共享，但是目前没有一种实现数据湖直接与关系型数据库互联的高效方法。

发明内容

本发明的目的是针对上述问题，提供一种数据湖与关系型数据库互联的方法。

为达到上述目的，本发明采用了下列技术方案：

一种数据湖与关系型数据库互联的方法，包括以下步骤：

S1.在数据湖中添加关系型数据库的数据源类；

S2.数据湖匹配使用关系型数据库的数据源类；

S3.根据数据源类确定并加载相应驱动以与相应关系型数据库进行连接。

在上述的数据湖与关系型数据库互联的方法中，步骤S1中，通过以下方法添加关系型数据库的数据源类：

S11.确定所要添加的数据源类为关系型数据库的数据源类，并为该数据源类备注标识名称；

S12.将所述数据源类的包括标识名称的包路径添加到数据湖的数据源注册配置文件中。

在上述的数据湖与关系型数据库互联的方法中，步骤S2中，通过以下方式匹配使用关系型数据库的数据源类：

S21.数据湖通过接口参数传递关系型数据库的数据源类的标识名称；

S22.通过步骤S21中的标识名称与数据源注册配置文件中的数据源类的标识名称进行匹配；

S23.使用标识名称匹配上的数据源类。

在上述的数据湖与关系型数据库互联的方法中，步骤S3中，根据关系型数据库的数据源类匹配到关系型数据库配置文件，所述的关系型数据库配置文件中存储有各种关系型数据库的基础信息，数据湖根据当前使用的关系型数据库的基础信息确定并加载相应驱动以与当前关系型数据库进行连接。

在上述的数据湖与关系型数据库互联的方法中，各关系型数据库的基础信息包括相应关系型数据库的数据库名称；

步骤S3中，通过传递数据库名称在数据库配置文件中读取相应关系型数据库的基础信息。

在上述的数据湖与关系型数据库互联的方法中，每种关系型数据库对应有一个或多个数据库实例，关系型数据库配置文件中存储有各种数据库实例的基础信息；

各数据库实例的基础信息包括相应数据库实例的实例名称，且所述实例名称包含相应数据库实例所属关系型数据库的数据库名称；

步骤S3中，通过传递实例名称在数据库配置文件中读取相应数据库实例的基础信息并获取相应的数据库实例。

在上述的数据湖与关系型数据库互联的方法中，所述的基础信息包括驱动名称，步骤S3中，根据基础信息中的驱动名称确定并加载相应驱动。

在上述的数据湖与关系型数据库互联的方法中，所述的数据湖具有驱动包目录，用于存放各种关系型数据库的驱动包并记录有驱动包与驱动名称的对应关系；

步骤S3中，根据驱动名称通过传参方式匹配到驱动包目录中的驱动包后加载该驱动包，进而连接到相应的数据库实例。

在上述的数据湖与关系型数据库互联的方法中，所述的数据湖还包括数据字段类型转换配置文件，入湖时，将数据库实例的待入湖数据先转换为相应的JDBC类型，然后通过数据字段类型转换配置文件将JDBC类型转换为数据湖的字段类型；出湖时，将数据湖的待出湖数据通过数据字段类型转换配置文件转换为相应的JDBC类型，然后将JDBC类型转换为相应数据库实例的字段类型。

在上述的数据湖与关系型数据库互联的方法中，数据湖启动状态下检测到关系型数据库配置文件的修改信息时，锁定当前配置信息用于本次数据读写，并在下次执行数据读写时切换使用修改后的配置信息。

本发明的优点在于：

通过本发明方法使数据湖能够支持与关系型数据库之间的高效连接，并与关系型数据库之间进行双向读写，将关系型数据库中的数据通过数据湖与其他数据相连，使其避免成为数据孤岛；

提供数据源注册配置文件供注册数据源类，提供数据库配置文件配置数据库信息，提供驱动包目录存放数据库驱动，后续需要添加关系型数据库实例时，只需要依情况对数据库配置文件进行信息配置即可，使得数据湖对关系型数据库的连接具备灵活的可扩展性；

通过传参的方式将数据源注册配置文件、关系型数据库配置文件和驱动包目录串联起来，在启动数据湖时，不需要指定具体要使用哪个数据库，直接使用相应的数据库即可，也不需要遍历配置文件，用户按需通过传递参数的形式获取所需的配置信息即可；

在进行读写操作时，传递关系型数据库配置文件中的关系型数据库的实例名称，能够在不停止数据库的前提下，切换不同的数据库实例，使关系型数据库支持热切换；

目前数据类型转换均采用代码来进行转换，而本方案使用配置文件进行转换，无需写源代码，解析配置文件中的配置项就能够得到字段类型转换关系，简化转换流程，提高转换效率。

附图说明

图1为本发明多实例的关系型数据库配置文件的示意图；

图2为本发明数据湖与关系型数据库互联的方法流程图；

图3为本发明字段转换流程图；

图4为本发明JDBC驱动加载的示意图；

图5为本发明数据湖与关系型数据库之间双向读写的示意图一；

图6为本发明数据湖与关系型数据库之间双向读写的示意图二；

图7为基于本发明关系数据库与数据湖互联方法中关系型数据库数据入湖的耗时实验结果图；

图8为基于本发明关系数据库与数据湖互联方法中数据湖中数据进入关系型数据库的耗时实验结果图。

具体实施方式

下面结合附图本方案进行进一步说明：

本实施例公开了一种数据湖与关系型数据库互联的方法,包括以下步骤：

1、在数据湖中添加关系型数据库的数据源类，为该数据源类标注唯一的标识名称，如本实施例将关系型数据库取名为relationaldb；并且本方案中，每种关系型数据库可配置多个数据库实例，各数据库实例具有不同的实例名称，且实例名称包含其所属关系型数据库的数据库名称，比如配置了3个MySQL数据库，分别取名为mysql1,mysql2,mysql3，其中mysql为MySQL类关系型数据库的名称。本方案除了支持与MySQL关系型数据库的连接，还支持其他关系型数据库的连接，如支持与Oracle和 SQL Server关系型数据库的连接。

将关系型数据库的数据源类的包路径添加到数据湖的数据源注册配置文件中，包路径包括标识名称，如本实施例中关系型数据库的数据源类的包路径为

com.nanhulab.bigdata.skqs.structured.relational.RelationDBDataSource，当用户对关系型数据库操作时，传递RelationDBDataSource类的标识名称“relationaldb”即可。数据湖通过接口参数传递关系型数据库的数据源类的标识名称，与数据源注册配置文件中的数据源类的标识名称进行匹配，使用标识名称匹配上的数据源类。

2、如图1所示，数据湖中具有关系型数据库配置文件，且关系型数据库配置文件中存储有各数据库实例的基础信息，基础信息包括相应数据库实例的实例名称，实例名称包含相应数据库实例所属关系型数据库的数据库名称。此处为一种关系型数据库具有多种数据库实例的情况，在一种关系型数据库均只有一个数据库实例的场景，可以直接使基础信息包括相应关系型数据库的数据库名称而不单独对数据库实例取名或记录至基础信息中。

进一步地，数据库实例的基础信息还包括驱动（driver）名称，同种关系型数据库的数据库实例的基础信息中的驱动名称一样。此外，基础信息还包括url、user和password等信息，在使用数据库实例时，不需要填写上述信息。

数据湖通过接口参数传递关系型数据库数据源类的标识名称，从数据源注册配置文件匹配到关系型数据库数据源，然后根据实例名称通过传参的方式从关系型数据库配置文件中匹配到数据库实例，并在关系型数据库配置文件中读取相应数据库实例的基础信息以获取相应的数据库实例，并确定待连接数据库为该类数据库实例。关系型数据库配置文件放置于数据湖的运行目录的conf文件夹中。

3、关系型数据库的驱动主要是各种JDBC驱动，同一种类的关系型数据库实例使用相同的驱动，各种关系型数据库所使用的驱动版本可以参考各数据库官网信息。本实施例将关系型数据库的JDBC驱动Jar包（驱动包）作为一个依赖项。数据湖具有驱动包目录，在投入使用时，将各关系型数据库的驱动包放在驱动包目录中，同时各驱动包与驱动名称的对应关系也被记录在驱动包目录中，具体的记录形式不在此限制，例如可以将驱动包的名称改为驱动名称。

系统根据关系型数据库配置文件中当前数据库实例的的基础信息中确定驱动名称，然后根据驱动名称通过传参方式匹配到驱动包目录中相应的驱动包后加载该驱动包，进而连接到相应的数据库实例。

如图2，分析引擎从数据湖系统获取各种数据进行分析，具体地，分析引擎通过传参与数据源注册配置文件中配置的数据源类进行匹配，找到当前需要使用的数据源类，本方法用于与各种关系型数据库互联，所以数据源类都为关系型数据库数据源。通过读取并解析数据库配置文件，获取当前所要使用的关系型数据库的信息，之后通过字段映射以及传参匹配到具体的JDBC驱动，进而连接到相应的关系型数据库。

进一步地，从数据库实例中读取数据时，根据数据库实例各自的JDBC驱动规则，将数据库实例类型转为JDBC类型，转换为JDBC类型的方式采用常规手段即可，这里不进行赘述。此时，该类型的数据还需要转换为数据湖支持的数据类型，如图3所示，本方案同时配备数据字段类型转换配置文件，在将JDBC类型的数据转换为数据湖支持的数据类型时使用该数据字段类型转换配置文件，以下是数据字段类型转换配置文件的部分内容：

{

“relationdb”:[

{

“dbtype”:”oracle”,

“field”:[

{

“datalakeType”:BooleanType”,

“jdbcType”:”BOOLEAN”

},

{

“datalakeType”:”LongType”

“jdbcType”:”BIGINT”

}

…

]

},

{

“dbtype”.”sqlserver”,

“field”:[

{

“datalakeType”:”TimestampYype”,

“jdbcType”:”TIMESTAMP”

}

…

]

},

…

]

}

其中，dbtype表示数据库类型，包括mysql,oracle和sqlserver三种关系型数据库；field表示各字段，其中datalakeType表示数据湖的字段类型，jdbcType表示JDBC字段类型，通过jdbcType找到datalakeType，通过datalakeType找到jdbcType实现字段类型的转换。具体地，数据库实例中的字段类型需要转换为数据湖的字段类型时，首先根据数据库实例的url匹配数据库类型dbtype，找到字段映射集，然后在该field中匹配该数据库实例的字段类型名称和jdbcType,找到数据湖的字段类型的名称datalakeType，然后使用反射机制找到对应的字段类型。数据湖的字段类型转换为关系型数据库实例的字段类型时，也可以通过上述类似方法完成。

如图4所示，系统根据传参中的标识名称，如relationaldb.mysql1,从配置文件中获取该数据库实例的基础信息，然后根据基础信息中的驱动名称，从驱动包目录中加载该驱动，通过该驱动与相应的数据库实例连接，实现具体的数据库操作，如通过MySQL JDBC驱动与MySQL连接，通过Oracle JDBC驱动与Oracle连接。通过配置文件的形式，简化了数据湖连接关系型数据库时的参数输入，提高了易用性。

数据湖从数据库中获取到的数据可以供分析引擎使用，也可以通过数据湖的存储接口存储到数据湖中。另外，存储在数据湖中的数据，可以使用数据湖的读取接口，将数据读取出来，读取出来的数据可以供分析引擎使用，也可以通过数据湖存储接口存储到相应的数据库中，从而实现数据湖与数据库之间的双向读写。

如图6、图7所示，从关系型数据库中读取数据后，经过图3中的类型转换，转为数据湖支持的数据类型，可以供分析引擎使用。这些数据也可以通过数据湖的存储接口，存储到数据湖中。反向的，存储在数据湖中的结构化数据，可以使用数据湖的读取接口，将数据读取出来，供分析引擎使用。这些数据也可以通过数据湖的存储接口，存储到相应的数据库中。

本方案通过传参的方式将数据源注册配置文件、数据库配置文件和驱动包目录串联起来，在启动数据湖时，不需要指定具体要使用哪个数据库实例，直接根据需要进行传参进而使用相应的数据库实例即可，同样地，在切换数据库实例时，直接通过传参方式切换即可，能够实现数据库实例的热切换。

优选地，数据湖启动状态下检测到关系型数据库配置文件的修改信息时，锁定当前配置信息用于本次数据读写，并在下次执行数据读写时切换使用修改后的配置信息。通过该方式使本方案支持数据库配置文件进行热修改，不需要停止已启动的数据湖，修改配置文件后，在下一次执行数据读写时就会使用修改后的配置信息。

本方案专门对关系数据库和数据湖的双向读写进行了测试，以mysql为例，统计了从10万行到100万行数据的双向读写耗时统计：

如图7-8所示，基于本方案数据湖与关系型数据库互联的方法实现的关系型数据库数据的双向读写，即使是10万条数据，转为数据湖支持的格式也只要接近11000ms，转为关系数据库支持的格式也只要接近20000ms，具有极高的读写效率，而且随着数据量的增加，双向读写耗时是（接近）线性增加的，表明随着数据量的增加，耗时增加是很稳定的。可以看到，本方案通过采用配置文件的形式不仅能够实现关系数据库与数据湖之间的双向读写，而且由于具有高效稳定的数据类型转换速度而具有高效率的双向读写性能，从而实现数据湖与关系数据库互联的高效方法。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了数据湖、数据源类、数据库、数据库实例、标识名称、数据库配置文件、数据源注册配置文件等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种数据湖与关系型数据库互联的方法，其特征在于，包括以下步骤：

S1.在数据湖中添加关系型数据库的数据源类；

S2.数据湖匹配使用关系型数据库的数据源类；

S3.根据数据源类确定并加载相应驱动以与相应关系型数据库进行连接；

且步骤S1中，通过以下方法添加关系型数据库的数据源类：

S12.将所述数据源类的包括标识名称的包路径添加到数据湖的数据源注册配置文件中；

步骤S2中，通过以下方式匹配使用关系型数据库的数据源类：

S23.使用标识名称匹配上的数据源类；

步骤S3中，根据关系型数据库的数据源类匹配到关系型数据库配置文件，所述的关系型数据库配置文件中存储有各种关系型数据库的基础信息，数据湖根据当前使用的关系型数据库的基础信息确定并加载相应驱动以与当前关系型数据库进行连接；

数据湖启动状态下检测到关系型数据库配置文件的修改信息时，锁定当前配置信息用于本次数据读写，并在下次执行数据读写时切换使用修改后的配置信息。

2.根据权利要求1所述的数据湖与关系型数据库互联的方法，其特征在于，各关系型数据库的基础信息包括相应关系型数据库的数据库名称；

3.根据权利要求2所述的数据湖与关系型数据库互联的方法，其特征在于，每种关系型数据库对应有一个或多个数据库实例，关系型数据库配置文件中存储有各种数据库实例的基础信息；

4.根据权利要求2或3任意一项所述的数据湖与关系型数据库互联的方法，其特征在于，所述的基础信息包括驱动名称，步骤S3中，根据基础信息中的驱动名称确定并加载相应驱动。

5.根据权利要求4所述的数据湖与关系型数据库互联的方法，其特征在于，所述的数据湖具有驱动包目录，用于存放各种关系型数据库的驱动包并记录有驱动包与驱动名称的对应关系；

6.根据权利要求5所述的数据湖与关系型数据库互联的方法，其特征在于，所述的数据湖还包括数据字段类型转换配置文件，入湖时，将数据库实例的待入湖数据先转换为相应的JDBC类型，然后通过数据字段类型转换配置文件将JDBC类型转换为数据湖的字段类型；出湖时，将数据湖的待出湖数据通过数据字段类型转换配置文件转换为相应的JDBC类型，然后将JDBC类型转换为相应数据库实例的字段类型。