CN114461596A

CN114461596A - 一种基于Spark平台的多源数据同步方法、装置及系统

Info

Publication number: CN114461596A
Application number: CN202111596760.XA
Authority: CN
Inventors: 杨连群; 张研
Original assignee: Anhui Aisino Corp
Current assignee: Anhui Aisino Corp
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-05-10

Abstract

本发明提供了一种基于Spark平台的多源数据同步方法、装置及系统，涉及数据同步技术领域。本发明所述的基于Spark平台的多源数据同步方法，包括：基于Spark框架封装多种数据源接口，构建通用同步工具类jar包；根据同步工具参数要求配置同步参数生成JSON参数文件，根据所述JSON参数文件创建同步任务；通过调用所述通用同步工具类jar包触发所述同步任务执行，获取与所述同步任务对应的执行日志信息，根据所述执行日志信息判断是否同步成功。本发明所述的技术方案，通过封装多种数据源接口并采用同步参数配置化方法来简化数据同步任务，有效提高了多源数据同步执行效率，且涵盖了Spark平台下所有支持数据源的接入和输出方式，使得跨数据源整合处理变得高效便捷。

Description

一种基于Spark平台的多源数据同步方法、装置及系统

技术领域

本发明涉及数据同步技术领域，具体而言，涉及一种基于Spark平台的多源数据同步方法、装置及系统。

背景技术

Spark是一个优秀的分布式数据处理工具，可以利用Spark提供的丰富的API对数据进行加工处理，但每个API读取都需要进行代码编写，整套逻辑的开发是个不小的工程，需要一定的Spark基础以及使用经验才能开发出稳定高效的Spark代码。除此之外，项目的编译、打包、部署以及测试都比较繁琐，会带来不少得时间成本和学习成本，最终会影响Spark在多源数据同步的效率。

发明内容

本发明解决的问题是如何提高Spark在多源数据同步的效率。

为解决上述问题，本发明提供一种基于Spark平台的多源数据同步方法，包括：基于Spark框架封装多种数据源接口，构建通用同步工具类jar包；根据同步工具参数要求配置同步参数生成JSON参数文件，根据所述JSON参数文件创建同步任务；通过调用所述通用同步工具类jar包触发所述同步任务执行，获取与所述同步任务对应的执行日志信息，根据所述执行日志信息判断是否同步成功。

本发明所述的基于Spark平台的多源数据同步方法，通过封装多种数据源接口并采用同步参数配置化方法来简化数据同步任务，有效提高了多源数据同步执行效率，且涵盖了Spark平台下所有支持数据源的接入和输出方式，并支持所有基于Spark平台下的数据处理和加工操作，在资源允许的情况下可以支持一个或N多个源端同步至一个或N多个目标端，使得跨数据源整合处理变得高效便捷。

可选地，所述数据源接口包括JDBC接口、Hive接口、ElasticSearch接口以及kafka接口。

本发明所述的基于Spark平台的多源数据同步方法，通过设置多种数据源接口，有利于实现Spark平台下的多源数据整合。

可选地，所述根据同步工具参数要求配置同步参数生成JSON参数文件包括：配置Spark运行参数、输入端Source参数、数据处理Fliter参数和结果输出Target参数，并生成对应的JSON参数文件。

本发明所述的基于Spark平台的多源数据同步方法，通过设置同步参数配置项，从而能够创建同步任务。

可选地，所述根据所述JSON参数文件创建同步任务包括：根据所述同步任务生成对应的同步任务信息，根据所述同步任务信息创建同步作业。

本发明所述的基于Spark平台的多源数据同步方法，根据同步任务生成的同步任务信息创建同步作业，从而可以实现同步任务的顺利执行。

可选地，所述根据所述JSON参数文件创建同步任务还包括：为所述同步任务配置调度时间和执行频率，以使所述同步任务按照设定时间执行。

本发明所述的基于Spark平台的多源数据同步方法，通过为同步任务配置调度时间和执行频率，使得同步任务安排制定的时间进行执行。

可选地，所述通过调用所述通用同步工具类jar包触发所述同步任务执行包括：将多源数据统一整合到Spark平台下，并在所述Spark平台上进行数据清洗、数据表JOIN以及数据分析。

本发明所述的基于Spark平台的多源数据同步方法，通过执行同步任务将多源数据统一整合到Spark平台下，实现了Spark平台下的多源数据整合。

可选地，所述根据所述执行日志信息判断是否同步成功包括：若所述执行日志信息被保存，则判断同步成功，若出现错误提示，则进行异常结果告警。

本发明所述的基于Spark平台的多源数据同步方法，根据执行日志信息判断同步成功或进行异常结果告警，实现了多源数据同步检查。

本发明还提供一种基于Spark平台的多源数据同步装置，包括：封装模块，用于基于Spark框架封装多种数据源接口，构建通用同步工具类jar包；创建模块，用于根据同步工具参数要求配置同步参数生成JSON参数文件，根据所述JSON参数文件创建同步任务；同步模块，用于通过调用所述通用同步工具类jar包触发所述同步任务执行，获取与所述同步任务对应的执行日志信息，根据所述执行日志信息判断是否同步成功。所述基于Spark平台的多源数据同步装置与上述基于Spark平台的多源数据同步方法相对于现有技术所具有的优势相同，在此不再赘述。

本发明还提供一种基于Spark平台的多源数据同步系统，包括存储有计算机程序的计算机可读存储介质和处理器，所述计算机程序被所述处理器读取并运行时，实现如上基于Spark平台的多源数据同步方法。所述基于Spark平台的多源数据同步系统与上述基于Spark平台的多源数据同步方法相对于现有技术所具有的优势相同，在此不再赘述。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器读取并运行时，实现如上基于Spark平台的多源数据同步方法。所述计算机可读存储介质上述基于Spark平台的多源数据同步方法相对于现有技术所具有的优势相同，在此不再赘述。

附图说明

图1为本发明实施例的基于Spark平台的多源数据同步方法的流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

如图1所示，本发明实施例提供一种基于Spark平台的多源数据同步方法，包括：基于Spark框架封装多种数据源接口，构建通用同步工具类jar包；根据同步工具参数要求配置同步参数生成JSON参数文件，根据所述JSON参数文件创建同步任务；通过调用所述通用同步工具类jar包触发所述同步任务执行，获取与所述同步任务对应的执行日志信息，根据所述执行日志信息判断是否同步成功。

具体地，在本实施例中，基于Spark平台的多源数据同步方法，包括：基于Spark框架封装多种数据源接口，构建通用同步工具类jar包，为了提高Spark在多源数据整合处理的执行效率和降低Spark同步任务的复杂度，需要对Spark各种API及插件进行整合优化，将Spark同步模块进行代码封装，形成通用同步工具包，集成到统一数据同步系统；通过配置同步任务信息，形成JSON参数文件，系统会根据参数文件自动创建同步任务，设置相应的调度时间，系统后台按时通过调用通用工具类jar包来触发同步任务的执行，将多源数据统一整合到Spark平台下，然后在Spark平台上进行数据的清洗，数据表的JOIN以及数据分析等操作，最后将相应的处理结果写入到目标端。由于无需编写Spark代码，直接通过页面简单的参数配置即可完成不同数据源间的同步和逻辑处理任务，大大提高工作效率，并支持同步任务的执行调度及详细日志监控功能。

其中，系统一般按照数据源-同步配置项-Spark数据整合-Spark数据处理-结果输出(结果输出端是数据同步的目标端，可将数据处理结果同步至一个或多个目标数据端)的步骤进行。

其中，本实施例支持多种数据源，可自定义JDBC方式，任意两种JDBC之间可以相互同步，通用性高，且灵活性较好。实现跨数据源(只要支持Spark的JDBC方式均可)的同步，不仅支持传统数据库之间的同步，也支持传统数据库与大数据数据库互相同步，同时还支持kafka消息队列方式的同步。

其中，本实施例支持多源数据表的整合，根据第一步配置的数据源表，将数据源表(例如数据源1表1、数据源2表2等等)统一汇总到spark内存中进行缓存，也即将不同数据源表整合到同一spark环境下。可以实现不同源数据表的整合，解决了跨数据库的表无法关联的问题。

其中，本实施例支持数据加工等过滤操作，在源和目标同步过程中，支持添加过滤条件自定义Filter，并支持多个表的关联过滤操作，比如数据源1的表1和数据源2的表2进行join和where条件的处理。优点在于灵活配置，可以自定义SQL过滤语句。

其中，本实施例支持输出多个目标数据库，通过加工处理后的结果表，可同时向多个目标端进行同步，支持一对多同步，同时还支持多对多同步。好处在于支持向多个目标多同时同步，而不是每次只能同步都一个目标端。

在本实施例中，通过封装多种数据源接口并采用同步参数配置化方法来简化数据同步任务，有效提高了多源数据同步执行效率，且涵盖了Spark平台下所有支持数据源的接入和输出方式，并支持所有基于Spark平台下的数据处理和加工操作，在资源允许的情况下可以支持一个或N多个源端同步至一个或N多个目标端，使得跨数据源整合处理变得高效便捷。

具体地，在本实施例中，数据源接口包括JDBC接口、Hive接口、ElasticSearch接口以及kafka接口，在封装时，需要封装Spark同步接口工具类，各种JDBC接口，Hive数据仓库，ElasticSearch以及kafka，同步工具需对上述数据源接口进行封装，包括SparkSQL访问如上几种类型的方法和读取源数据的方法以及访问JSON参数的方法等等，进行统一封装，并且支持后续数据源类型对于接口的扩展。

在本实施例中，通过设置多种数据源接口，有利于实现Spark平台下的多源数据整合。

具体地，在本实施例中，同步参数配置主要包括四部分：

(1)Spark基础配置：主要配置Spark运行的参数，控制Spark运行内存、核数以及执行器个数等资源配置信息。

(2)source输入数据源配置：配置相应的数据源信息，包括JDBC信息、数据表、用户名及密码等信息，该配置项支持同时配置一个或多个JDBC项，同一个任务支持同时读取多源数据表。

(3)Filter中间计算配置：该配置及相关处理均在Spark平台进行，所以所使用的的函数及方法都必须依赖于Spark平台，此配置主要是SQL语句，且支持变量参数作为查询条件。

(4)target输出数据源配置：配置相应的目标端数据源信息，包括JDBC信息、数据表、用户名及密码等信息，该配置项支持同时配置一个或多个JDBC项，同一个任务支持同时写多源数据表。

系统支持配置多个Source(多个数据源)，经过配置Filter(过滤条件)，可实现多源数据的整合处理。同时还支持多源输出，也即数据处理结果，可以同时分发到多个Target目标端。

在本实施例中，通过设置同步参数配置项，从而能够创建同步任务。

具体地，在本实施例中，在根据JSON参数文件创建同步任务后，任务会自动保存的同步任务信息，再根据同步任务信息创建同步作业。

在本实施例中，根据同步任务生成的同步任务信息创建同步作业，从而可以实现同步任务的顺利执行。

具体地，在本实施例中，根据JSON参数文件创建同步任务还包括：为同步任务配置调度时间和执行频率，使得同步任务安排制定的时间进行执行，系统对执行情况进行日志记录和监控。

在本实施例中，通过为同步任务配置调度时间和执行频率，使得同步任务安排制定的时间进行执行。

具体地，在本实施例中，Spark数据整合包括Spark缓存空间，可以将Source端配置的一个或多个数据源同步至Spark平台，进行临时缓存；Spark数据处理包括数据清洗、多表join和数据分析，可通过SQL进行过滤，踢重，关联JOIN以及数据分析等操作，也可留空不做处理。

在本实施例中，通过执行同步任务将多源数据统一整合到Spark平台下，实现了Spark平台下的多源数据整合。

具体地，在本实施例中，根据同步任务执行情况，查看对应的执行日志信息，若执行日志信息被保存，则判断同步成功，若出现错误提示，则说明存在异常同步，需要进行异常结果告警。

在本实施例中，根据执行日志信息判断同步成功或进行异常结果告警，实现了多源数据同步检查。

本发明另一实施例提供一种基于Spark平台的多源数据同步装置，包括：封装模块，用于基于Spark框架封装多种数据源接口，构建通用同步工具类jar包；创建模块，用于根据同步工具参数要求配置同步参数生成JSON参数文件，根据所述JSON参数文件创建同步任务；同步模块，用于通过调用所述通用同步工具类jar包触发所述同步任务执行，获取与所述同步任务对应的执行日志信息，根据所述执行日志信息判断是否同步成功。

本发明另一实施例提供一种基于Spark平台的多源数据同步系统，包括存储有计算机程序的计算机可读存储介质和处理器，所述计算机程序被所述处理器读取并运行时，实现如上基于Spark平台的多源数据同步方法。

本发明另一实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器读取并运行时，实现如上基于Spark平台的多源数据同步方法。

虽然本发明公开披露如上，但本发明公开的保护范围并非仅限于此。本领域技术人员在不脱离本发明公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

Claims

1.一种基于Spark平台的多源数据同步方法，其特征在于，包括：

基于Spark框架封装多种数据源接口，构建通用同步工具类jar包；

根据同步工具参数要求配置同步参数生成JSON参数文件，根据所述JSON参数文件创建同步任务；

通过调用所述通用同步工具类jar包触发所述同步任务执行，获取与所述同步任务对应的执行日志信息，根据所述执行日志信息判断是否同步成功。

2.根据权利要求1所述的基于Spark平台的多源数据同步方法，其特征在于，所述数据源接口包括JDBC接口、Hive接口、ElasticSearch接口以及kafka接口。

3.根据权利要求1所述的基于Spark平台的多源数据同步方法，其特征在于，所述根据同步工具参数要求配置同步参数生成JSON参数文件包括：

配置Spark运行参数、输入端Source参数、数据处理Fliter参数和结果输出Target参数，并生成对应的JSON参数文件。

4.根据权利要求1所述的基于Spark平台的多源数据同步方法，其特征在于，所述根据所述JSON参数文件创建同步任务包括：

根据所述同步任务生成对应的同步任务信息，根据所述同步任务信息创建同步作业。

5.根据权利要求4所述的基于Spark平台的多源数据同步方法，其特征在于，所述根据所述JSON参数文件创建同步任务还包括：

为所述同步任务配置调度时间和执行频率，以使所述同步任务按照设定时间执行。

6.根据权利要求1所述的基于Spark平台的多源数据同步方法，其特征在于，所述通过调用所述通用同步工具类jar包触发所述同步任务执行包括：

将多源数据统一整合到Spark平台下，并在所述Spark平台上进行数据清洗、数据表JOIN以及数据分析。

7.根据权利要求1所述的基于Spark平台的多源数据同步方法，其特征在于，所述根据所述执行日志信息判断是否同步成功包括：

若所述执行日志信息被保存，则判断同步成功，若出现错误提示，则进行异常结果告警。

8.一种基于Spark平台的多源数据同步装置，其特征在于，包括：

封装模块，用于基于Spark框架封装多种数据源接口，构建通用同步工具类jar包；

创建模块，用于根据同步工具参数要求配置同步参数生成JSON参数文件，根据所述JSON参数文件创建同步任务；

同步模块，用于通过调用所述通用同步工具类jar包触发所述同步任务执行，获取与所述同步任务对应的执行日志信息，根据所述执行日志信息判断是否同步成功。

9.一种基于Spark平台的多源数据同步系统，其特征在于，包括存储有计算机程序的计算机可读存储介质和处理器，所述计算机程序被所述处理器读取并运行时，实现如权利要求1至7任一项所述的基于Spark平台的多源数据同步方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器读取并运行时，实现如权利要求1至7任一项所述的基于Spark平台的多源数据同步方法。