CN110865974B

CN110865974B - 一种基于kafka智能加载离线SQL表数据的方法

Info

Publication number: CN110865974B
Application number: CN201910925985.1A
Authority: CN
Inventors: 申晓青; 朱永芳
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2023-01-10
Anticipated expiration: 2039-09-27
Also published as: CN110865974A

Abstract

本发明提供一种基于kafka智能加载离线SQL表数据的方法：第一离线数据识别模块自动识别待加载离线SQL源数据信息，并根据待加载离线SQL源数据信息生成源数据配置文件；源数据连接器根据源数据配置文件为离线SQL源数据配置上游通道，并通过配置的上游通道将离线SQL源数据打包成kafka文件，同时将kafka文件发送到kafka平台；目标数据连接器从kafka平台获取kafka文件，并根据上游通道为kafka文件配置下游通道，再通过配置的下游通道将kafak文件还原成离线SQL源数据，同时将还原的离线SQL源数据发送到分布式文件存储系统；目标数据库从分布式文件存储系统加载离线SQL源数据。

Description

一种基于kafka智能加载离线SQL表数据的方法

技术领域

本发明属于数据迁移技术领域，具体涉及一种基于kafka智能加载离线SQL表数据的方法。

背景技术

离线SQL数据大致可以分为两类，一类为已导出数据，以csv或avro存储的离线文件，一类为区别于实时数据的离线数据。针对这两种数据的加载，传统方法常采用flume或logstash或ETL采集数据到目标存储地。源数据到目标存储系统需经过多个组件服务到达目的地，组件之间数据兼容性、可靠性难以保证，且工作流设计复杂且笨重。在发生数据丢失或脏数据时，诊断问题也变得困难。另外在一些场景如大量的源系统和目标系统时，使用传统方法进行数据加载比较复杂，且延迟性是不可估量的。

此为现有技术的不足，因此，针对现有技术中的上述缺陷，提供一种基于kafka智能加载离线SQL表数据的方法，是非常有必要的。

发明内容

针对现有技术的上述传统离线SQL数据加载工作不可靠，流程复杂，且延迟性大的缺陷，本发明提供一种基于kafka智能加载离线SQL表数据的方法，以解决上述技术问题。

本发明提供一种基于kafka智能加载离线SQL表数据的方法，包括如下步骤：

S1.第一离线数据识别模块自动识别待加载离线SQL源数据信息，并根据待加载离线SQL源数据信息生成源数据配置文件；

S2.源数据连接器根据源数据配置文件为离线SQL源数据配置相应的上游通道，并通过配置的上游通道将离线SQL源数据打包成kafka文件，同时将kafka文件发送到kafka平台；

S3.目标数据连接器从kafka平台获取kafka文件，并根据上游通道为kafka文件配置相应的下游通道，再通过配置的下游通道将kafak文件还原成离线SQL源数据，同时将还原的离线SQL源数据发送到分布式文件存储系统；

S4.目标数据库从分布式文件存储系统加载离线SQL源数据，离线数据加载完成。

进一步地，步骤S4之前还包括如下步骤：

S4A.第二离线数据识别模块自动从分布式文件存储系统识别还原的离线SQL源数据信息，并根据还原的离线SQL源数据信息生成还原数据配置文件；

S4B.验证源数据配置文件与还原数据配置文件的一致性。在数据加载完毕后，增加了数据信息一致性校验，以实现离线SQL源数据智能批量加载的同时，实现可靠性、便利性和容错性。

进一步地，步骤S4B具体步骤如下:

S4B1.通过MD5算法对源数据配置文件进行加密；

S4B2.通过MD5算法对还原数据配置文件进行加密；

S4B3.通过验证源数据配置文件的MD5文件与还原数据配置文件的MD5文件是否一致，判断源数据配置文件与还原数据配置文件是否一致。

进一步地，步骤S1中的SQL源数据信息包括SQL源数据对应类型的存储格式、SQL源数据的加载优先级以及数据量；

所述SQL源数据的存储格式包括CSV格式离线数据、Avro格式离线数据以及dat格式离线数据。

进一步地，步骤S2具体步骤如下：

S21.源数据连接器获取源数据配置文件；

S22.源数据连接器根据源数据配置文件中SQL源数据对应类型的存储格式，为离线SQL源数据配置上游通道的连接器和转换器；

S23.源数据连接器通过配置的上游通道的转换器将离线SQL源数据打包成kafka文件；

S24.源数据连接器将kafka文件通过上游通道的连接器发送到kafka平台。

进一步地，步骤S24具体步骤如下：

S241.源数据连接器判断离线SQL源数据的存储格式类型是否相同；

若相同，进入步骤S243；

若不同，进入步骤S242；

S242.源数据连接器将不同类型的存储格式的离线SQL源数据对应的kafka文件通过各自的上游通道的连接器以流的方式发送到kafka平台；

S243.源数据连接器将相同类型的存储格式的离线SQL源数据对应的kafka文件通过同一个连接器按照加载优先级顺序以流的方式发送到kafka平台。

进一步地，步骤S3具体步骤如下：

S31.目标数据连接器从kafka平台获取kafka文件；

S32.目标数据连接器根据上游通道的转换器将kafka文件还原成SQL源数据，并根据还原的SQL源数据对应类型的存储格式为其配置下游通道的连接器；

S33.目标数据连接器通过下游通道将还原的SQL源数据发送到分布式文件存储系统。

进一步地，步骤S33具体步骤如下：

S331.目标数据连接器判断还原的SQL源数据的存储格式类型是否相同；

若相同，进入步骤S333；

若不同，进入步骤S332；

S332.目标数据连接器将不同类型存储格式的还原的SQL源数据通过各自的下游通道的连接器以pull或push的方式发送到分布式文件存储系统；

S333.目标数据连接器将相同类型存储格式的还原的SQL源数据通过同一个下游通道的连接器安装加载优先级顺序以pull或push的方式发送到分布式文件存储系统。

进一步地，分布式文件存储系统采用HDFS类型的分布式文件存储系统。

进一步地，步骤S4中目标数据库通过外部表的方式从分布式文件存储系统加载离线SQL源数据。

本发明的有益效果在于，

本发明提供的基于kafka智能加载离线SQL表数据的方法，采用kafka connect建构围绕kafka平台构建一个可伸缩的，可靠的数据流通道，并根据作为源数据分类器的离线数据分类模块获取的数据优先级及数据类型，实现离线SQL表数据智能批量加载，打破了原有数据连接器和转换器一对一配置的局限性。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的方法流程示意图；

图2是本发明的方法流程示意图；

图3为本发明目标数据库从分布式文件存储系统加载离线SQL源数据的方法流程示意图；

图4为本发明的步骤S2的方法流程示意图；

图5为本发明的步骤S3的方法流程示意图；

图6为本发明的工作流程示意图；

图7为本发明的工作流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例1：

如图1所示，本发明提供一种基于kafka智能加载离线SQL表数据的方法，包括如下步骤：

S3.目标数据连接器从kafka平台获取kafka文件，并根据上游通道为kafka文件配置相应的下游通道，再通过配置的下游通道将kafak文件还原成离线SQL源数据，同时将还原的离线SQL源数据发送到分布式文件存储系统；分布式文件存储系统采用HDFS类型的分布式文件存储系统；

S4.目标数据库通过外部表的方式从分布式文件存储系统加载离线SQL源数据，离线数据加载完成。

实施例1中的待加载离线SQL源数据包含两类，一类是已导出数据，一类是仍存在数据库中的数据。因此第一步离线SQL源数据要经过第一离线数据识别器模块，对数据文件进行初步识别检测，目的为了获取源数据类型格式，以备后续自动匹配连接器，避免手动配置连接器带来的单一性和不灵活性。

实施例2：

如图1、图4、图5以及图6所示，本发明提供一种基于kafka智能加载离线SQL表数据的方法，包括如下步骤：

S2.源数据连接器根据源数据配置文件为离线SQL源数据配置相应的上游通道，并通过配置的上游通道将离线SQL源数据打包成kafka文件，同时将kafka文件发送到kafka平台；具体步骤如下：

S21.源数据连接器获取源数据配置文件；

S24.源数据连接器将kafka文件通过上游通道的连接器发送到kafka平台；具体步骤如下：

若相同，进入步骤S243；

若不同，进入步骤S242；

S243.源数据连接器将相同类型的存储格式的离线SQL源数据对应的kafka文件通过同一个连接器按照加载优先级顺序以流的方式发送到kafka平台；

S3.目标数据连接器从kafka平台获取kafka文件，并根据上游通道为kafka文件配置相应的下游通道，再通过配置的下游通道将kafak文件还原成离线SQL源数据，同时将还原的离线SQL源数据发送到分布式文件存储系统；分布式文件存储系统采用HDFS类型的分布式文件存储系统；具体步骤如下：

S31.目标数据连接器从kafka平台获取kafka文件；

S33.目标数据连接器通过下游通道将还原的SQL源数据发送到分布式文件存储系统；具体步骤如下：

若相同，进入步骤S333；

若不同，进入步骤S332；

S333.目标数据连接器将相同类型存储格式的还原的SQL源数据通过同一个下游通道的连接器安装加载优先级顺序以pull或push的方式发送到分布式文件存储系统；

上述实施例2中，步骤S22中，当待加载离线SQL源数据中两类数据（已导出和仍存于数据库中）均包含时，连接池中配置文件连接器和JDBC连接器；转换器池可配置json转换器、avro转换器以及自定义转换器。

实施例3：

如图2所示，本发明提供一种基于kafka智能加载离线SQL表数据的方法，包括如下步骤：

S4B.验证源数据配置文件与还原数据配置文件的一致性；

实施例4：

如图3所示，与实施例3不同的是，步骤S4B具体步骤如下:

S4B1.通过MD5算法对源数据配置文件进行加密；

S4B2.通过MD5算法对还原数据配置文件进行加密；

实施例5：

如图2、图3、如图4、图5和图7所示，本发明提供一种基于kafka智能加载离线SQL表数据的方法，包括如下步骤：

S1.第一离线数据识别模块自动识别待加载离线SQL源数据信息，并根据待加载离线SQL源数据信息生成源数据配置文件；SQL源数据信息包括SQL源数据对应类型的存储格式、SQL源数据的加载优先级以及数据量；所述SQL源数据的存储格式包括CSV格式离线数据、Avro格式离线数据以及dat格式离线数据；

S21.源数据连接器获取源数据配置文件；

若相同，进入步骤S243；

若不同，进入步骤S242；

S31.目标数据连接器从kafka平台获取kafka文件；

若相同，进入步骤S333；

若不同，进入步骤S332；

S4B.验证源数据配置文件与还原数据配置文件的一致性；具体步骤如下:

S4B1.通过MD5算法对源数据配置文件进行加密；

S4B2.通过MD5算法对还原数据配置文件进行加密；

S4B3.通过验证源数据配置文件的MD5文件与还原数据配置文件的MD5文件是否一致，判断源数据配置文件与还原数据配置文件是否一致；

上述实施例5中，SQL源数据的存储格式可通过识别文件后缀(.txt /.csv)，或者linux命令如file文件名识别，可根据源数据存储系统（windows/linux）不同而选择。

SQL源数据的加载优先级可根据优先级设置进行识别，SQL源数据默认加载顺序是根据特定命名规则（文件）或文件夹命名规则（文件）或表顺序（数据库数据）或数据库顺序（数据库数据）进行识别，用户可根据命名规则，结合数据库配置文件提前进行设定。文件/文件夹的命名可自定义，只要有规律可循即可；表顺序/数据库顺序亦可自定义，同样有规律可循；若做不到有迹可循，可将SQL源数据唯一ID信息以list形式手动配置值。

SQL源数据的数据量，统计时使用根据SQL源数据的类别分类统计；已导出数据统计文件数量、文件大小；仍存于数据库数据，则统计表数量，表数据记录数据及数据库数据总量。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于kafka智能加载离线SQL表数据的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于kafka智能加载离线SQL表数据的方法，其特征在于，步骤S4之前还包括如下步骤：

S4B.验证源数据配置文件与还原数据配置文件的一致性。

3.如权利要求2所述的基于kafka智能加载离线SQL表数据的方法，其特征在于，步骤S4B具体步骤如下:

S4B1.通过MD5算法对源数据配置文件进行加密；

S4B2.通过MD5算法对还原数据配置文件进行加密；

4.如权利要求1所述的基于kafka智能加载离线SQL表数据的方法，其特征在于，步骤S1中的SQL源数据信息包括SQL源数据对应类型的存储格式、SQL源数据的加载优先级以及数据量；

5.如权利要求4所述的基于kafka智能加载离线SQL表数据的方法，其特征在于，步骤S2具体步骤如下：

S21.源数据连接器获取源数据配置文件；

6.如权利要求5所述的基于kafka智能加载离线SQL表数据的方法，其特征在于，步骤S24具体步骤如下：

若相同，进入步骤S243；

若不同，进入步骤S242；

7.如权利要求6所述的基于kafka智能加载离线SQL表数据的方法，其特征在于，步骤S3具体步骤如下：

S31.目标数据连接器从kafka平台获取kafka文件；

8.如权利要求7所述的基于kafka智能加载离线SQL表数据的方法，其特征在于，步骤S33具体步骤如下：

若相同，进入步骤S333；

若不同，进入步骤S332；

9.如权利要求1或7或8所述的基于kafka智能加载离线SQL表数据的方法，其特征在于，分布式文件存储系统采用HDFS类型的分布式文件存储系统。

10.如权利要求1所述的基于kafka智能加载离线SQL表数据的方法，其特征在于，步骤S4中目标数据库通过外部表的方式从分布式文件存储系统加载离线SQL源数据。