CN117149873A

CN117149873A - 一种基于流批一体化的数据湖服务平台构建方法

Info

Publication number: CN117149873A
Application number: CN202311107986.8A
Authority: CN
Inventors: 李海伟; 朱斌; 张宝玉; 李宗倍; 窦康
Original assignee: China Telecom Digital Intelligence Technology Co Ltd
Current assignee: China Telecom Digital Intelligence Technology Co Ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-12-01

Abstract

本发明提出了一种基于流批一体化的数据湖服务平台构建方法，包括：采用Flink CDC方式将数据源统一接入数据作业底层；构建数据湖服务平台和数据总线接入作业任务，将数据源统一接入至数据湖中；由数据湖服务平台对数据进行分布式文件和元数据的统一存储，并对接入的数据采用统一的数据湖表格式；采用Flink作为流批一体计算引擎，基于Flink SQL GateWay构建统一数据湖服务平台的网关，并统一采用Flink SQL作为流批数据处理的开发语言，实现对接入后的数据根据业务时效性进行流批处理；作业监控中心判断metrics数据的指标是否达到预设告警阈值时，并在达到时发送告警通知给相关管理员。本发明提升了数据计算结果质量，还提升了企业研发效率及资源利用率，降低维护成本。

Description

一种基于流批一体化的数据湖服务平台构建方法

技术领域

本发明涉及计算机软件技术领域，特别涉及一种基于流批一体化的数据湖服务平台构建方法。

背景技术

大数据架构方案涉及流数据、批数据、湖数据等，来满足不同类型数据的处理需求，具体来说：

流数据一般指实时产生的数据流，例如传感器数据、日志数据等。为了处理流数据，可以使用流数据处理引擎，如Apache Kafka或Apache Flink等。这些引擎可以实时处理数据流，并将数据流转换为适合存储的格式。

批数据一般指离线处理的数据，例如从数据库中导出的数据、历史数据等。为了处理批数据，可以使用批处理引擎，如Apache Hadoop或Apache Spark等。这些引擎可以在集群中进行并行处理，并将处理结果存储到数据湖或数据仓库中。

数据湖一般指一种存储结构，用于存储各种原始数据和处理数据，例如批数据和流数据。数据湖通常采用分布式存储系统，如Hadoop HDFS或Amazon S3等。为了对数据湖中的数据进行管理和查询，可以使用查询引擎，如Apache Hive或Amazon Athena等。

传统的流处理和批处理分别采用两条链路，存在以下问题：

(1)对同一组数据处理存在数据重播的问题，数据重播会带来数据不一致，以及数据重算导致的数据口径不一致风险，业务指标在离线、实时任务产出容易不一致，导致数据质量低下。

(2)流处理和批处理分两条链路处理也会造成数据链路的冗余，从而导致数据处理延迟、资源利用率低、开发运维成本高等问题。

(3)流处理代码和批处理代码两套，无法复用。同一个处理逻辑流批采用两套代码，导致数据有效性和准确性都降低，数据质量低下。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种基于流批一体化的数据湖服务平台构建方法。

为了实现上述目的，本发明的实施例提供一种基于流批一体化的数据湖服务平台构建方法，包括如下步骤：

步骤S1，对每个数据源和数据接入行为进行抽象，根据抽象后的数据源和数据接入行为，采用Flink CDC方式将数据源统一接入数据作业底层；构建数据湖服务平台和数据总线接入作业任务，所述数据总线接入作业任务实现对数据接入的开发作业进行统一管理，将数据源统一接入至数据湖中；

步骤S2，由数据湖服务平台对接入到所述数据湖中的数据进行分布式文件和元数据的统一存储，并对接入的数据采用统一的数据湖表格式，以进行离线数据和实时数据的统一分层和统一存储；

步骤S3，所述数据湖服务平台采用Flink作为流批一体计算引擎，基于Flink SQLGateWay构建统一数据湖服务平台的网关，并统一采用Flink SQL作为流批数据处理的开发语言，实现对接入后的数据根据业务时效性进行流批处理,以构建基于流批一体的数据湖服务平台，所述基于流批一体的数据湖服务平台执行的Flink作业，在流和批两种执行模式之间自由进行切换并采用同一套代码；

步骤S4，作业监控中心采用被动推送来获取流处理及批处理的metrics数据，对metrics数据进行查询分析，当判断metrics数据的指标达到预设告警阈值时，发送告警通知给相关管理员，同时在作业监控展示工具中进行度量分析及仪表盘展示。

进一步，在所述步骤S1中，

所述对每个数据源进行抽象，包括如下步骤：对所述数据源配置轻量级开发界面及目录树形式的管理界面，以通过所述管理界面对所述数据源进行开发和管理；

所述对数据接入行为进行抽象，包括如下步骤：对每个所述数据源均抽象出任务运行配置、数据写入策略、脏数据过滤策略和接入任务运行时间策略的数据接入行为。

进一步，在所述步骤S2中，所述数据湖服务平台采用HDFS分布式文件系统对所述数据湖中的数据进行分布式文件存储。

进一步，在所述步骤S2中，所述数据湖服务平台采用Mysql数据库作为底层存储，利用Hive Metastore工件管理Flink On Iceberg表格式中的元数据并提供服务；

对接入的数据采用Iceberg表格式统一数据湖表格式，在所述Mysql数据库的底层存储基础上，以Iceberg表格式定义数据和元数据的组织格式，以进行离线数据和实时数据的统一分层和统一存储。

进一步，在所述步骤S3中，构建流批一体脚本开发控制台，利用所述流批一体脚本开发控制台所述数据湖服务平台进行流批一体开发脚本的配置，包括作业配置、执行配置、保存点配置和版本历史的配置。

进一步，所述流批一体脚本开发控制台对所述数据湖服务平台进行作业配置，包括：对FlinkSQL的执行模式、集群选择、任务并行度、报警组进行可视化配置，同时对保存点路径及创建时间进行展示，以在流式作业运行中断后进行恢复。

进一步，在所述步骤S3中，所述数据湖服务平台进行流批一体的用户自定义UDF函数管理。

进一步，在所述步骤S3中，所述数据湖服务平台发布流批一体代码，支持将批处理及流处理作业发布运行，以对接入后的数据根据业务时效性进行流批处理,构建基于流批一体的数据湖服务平台。

进一步，在所述步骤S4中，所述作业监控中心周期性采集流处理及批处理的metrics数据的指标，并对各项指标配置对应的预设告警阈值；

当判断metrics数据的指标达到所述预设告警阈值时，向所述管理员发送告警通知。

进一步，在所述步骤S4中，所述作业监控中心对所述metrics数据的指标停更查询、度量分析和图形可视化分析界面。

根据本发明实施例的基于流批一体化的数据湖服务平台构建方法，具有以下有益效果：

(1)数据湖服务平台支持离线与实时采用统一数据采集方式，批处理和流处理统一通过CDC方式，将数据实时捕获推送到kafka后载入到Iceberg，从而实现数据湖的统一存储，避免数据孤岛产生。

(2)数据湖服务平台使得流与批处理使用统一的ETL组件和SQL语法，通过底层解析再分别适配流与批计算引擎，使得Flink作业可以在流和批两种执行模式之间自由进行切换并只需要维护一套代码，从而增强作业的可复用性和可维护性。

(3)批处理和流处理使用同一套计算引擎，从根本上避免同一个处理逻辑流批两套代码问题，以此提高数据的有效性以及业务计算的准确性，提升数据质量。

(4)基于数据湖统一数据存储的基础之上，计算引擎使用Flink从而使数据的流处理和批处理使用同一套引擎、同一套SQL语法及同一套ETL组件，在保证高吞吐、低延迟的同时，减少数据链路冗余,降低数据重播带来的数据不一致及数据重算导致的数据口径不一致风险，同时节省开发和运维成本。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于流批一体化的数据湖服务平台构建方法的流程图；

图2为根据本发明实施例的基于流批一体化的数据湖服务平台的总体架构图；

图3为根据本发明实施例的基于流批一体化的数据湖服务平台的数据接入流程图；

图4为根据本发明实施例的基于流批一体化的数据湖服务平台的统一数据存储流程图；

图5为根据本发明实施例的基于流批一体化的数据湖服务平台的批流作业开发流程图；

图6为根据本发明实施例的基于流批一体化的数据湖服务平台的作业监控流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面首先对本发明的基于流批一体化的数据湖服务平台构建方法涉及的工具进行说明：

Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。同时FlinkSQLGateWay提供了一种简单的方法来提交Flink Job、查找元数据和在线分析数据，使来自远程的多个客户端能够并发执行SQL。

Apache Iceberg是用于庞大分析数据集的开放表格式，专为巨大的PB级表格而设计。Apache Iceberg旨在解决最终一致的云对象存储中的正确性问题，Iceberg可以在没有分布式SQL的情况下可快速读取PB级别的表。

本发明提供一种基于流批一体化的数据湖服务平台构建方法，该方法基于湖仓一体架构上融合FlinkSQL GateWay实现流批一体的的数据架构服务平台的构建。本发明通过采用Flink为流批一体计算引擎，基于FlinkSQLGateWay构建统一数据湖服务平台的网关，并统一采用FlinkSQL作为流批数据处理的开发语言，使其既能通过同步任务采集静态、动态的数据，又能对采集后的数据根据业务时效性进行流批处理,从而构建基于流批一体的数据湖服务平台。

如图1和图2所示，本发明实施例的基于流批一体化的数据湖服务平台构建方法，包括如下步骤：

步骤S1，对每个数据源和数据接入行为进行抽象，根据抽象后的数据源和数据接入行为，采用Flink CDC方式将数据源统一接入数据作业底层。构建数据湖服务平台和数据总线接入作业任务，数据总线接入作业任务实现对数据接入的开发作业进行统一管理，将数据源统一接入至数据湖中。

下面参考图3对步骤S1进行展开说明：

步骤S11，对每个数据源进行抽象，包括如下步骤：对数据源配置轻量级开发界面及目录树形式的管理界面，以通过管理界面对数据源进行开发和管理,。

具体来说，对于JDBC、文件系统、消息队列等通用数据源的读取提供轻量级开发界面及目录树形式的管理界面，方便用户对数据源进行统一开发及管理。

在本发明的一个实施例中，支持包括Mysql、Oreacle等关系型数据库，MongoDB、Elastic等非关系型数据库及Kafaka消息队列等数据源管理及接入。

需要说明的是，支持接入的数据源类型不限于上述举例，还可以包括其他类型，根据需要进行设置，在此不再赘述。

步骤S12，对数据接入行为进行抽象，包括如下步骤：对每个数据源均抽象出任务运行配置、数据写入策略、脏数据过滤策略和接入任务运行时间策略的等自定义行为，所有数据源统一采用FlinkCDC方式进行接入。

步骤S13，数据湖统一接入，对于数据湖的读写提供轻量级开发界面及目录树形式的管理界面，方便用户对数据湖存储进行统一开发及管理。

步骤S14，构建数据总线接入作业平台，提供适合人机交互的Web控制台。

通过数据总线业务数据能够快速汇入大数据系统，缩短数据分析周期，对于数据接入的开发作业进行统一管理，包括数据接入、数据发布、数据订阅等功能，简单配置即可将接入数据快速同步到下游存储系统，极大减轻了数据链路的工作量。

步骤S15，接入作业管理控制台。该作业管理控制台可以支持页面化的数据源管理、接入作业管理、任务监控告警等功能，并且支持使用低代码开发框架扩展接入作业管理控制台的功能。

综上，在本步骤中，通过统一的数据接入方式实现数据接入总线建设，将所有数据源及数据接入作业进行统一管理，支持包括Mysql、Oreacle等关系型数据库，MongoDB、Elastic等非关系型数据库及Kafaka消息队列等数据源管理及接入，数据接入作业底层统一通过Flink CDC方式实现。

步骤S2，由数据湖服务平台对接入到数据湖中的数据进行分布式文件和元数据的统一存储，并对接入的数据采用统一的数据湖表格式，以进行离线数据和实时数据的统一分层和统一存储。

下面参考图4对步骤S2进行展开说明：

步骤S21，数据湖服务平台采用HDFS分布式文件系统作为存储底座进行数据存储，对数据湖中的数据进行分布式文件存储。

步骤S22，数据湖服务平台采用Mysql数据库作为底层存储，利用Hive Metastore工件管理Flink On Iceberg表格式中的元数据并提供服务。

步骤S23，采用iceberg统一数据湖表格式，支持离线/实时数据的统一查询查询，支持扩展实时机器学习功能。

具体来说，对接入的数据采用Iceberg表格式统一数据湖表格式，在Mysql数据库的底层存储基础上，以Iceberg表格式定义数据和元数据的组织格式，以进行离线数据和实时数据的统一分层和统一存储。

综上，在本步骤中，通过统一将采集来的数据接入数据湖实现数据及元数据的统一存储，其中数据存储采用HDFS、元数据存储统一采用Mysql，从而实现实时数据与离线数据的统一分层及统一存储，同时兼容数据的实时性与一致性。

步骤S3，数据湖服务平台采用Flink作为流批一体计算引擎，基于Flink SQLGateWay构建统一数据湖服务平台的网关，并统一采用Flink SQL作为流批数据处理的开发语言，实现对接入后的数据根据业务时效性进行流批处理,以构建基于流批一体的数据湖服务平台，基于流批一体的数据湖服务平台执行的Flink作业，在流和批两种执行模式之间自由进行切换并采用同一套代码。

下面参考图5对步骤S3进行展开说明：

步骤S31，构建流批一体脚本开发控制台，该控制台支持交互式页面化的代码开发、代码检查、进程管理、执行历史等功能。

需要说明的是，流批一体脚本开发控制台为数据湖平台的其中一个模块，主要用来写SQL、Python等脚本语言的IDE，后续的UDF函数管理和代码发布是由数据湖平台执行。

步骤S32，利用流批一体脚本开发控制台对数据湖服务平台进行流批一体开发脚本的配置，包括作业配置、执行配置、保存点配置和版本历史的配置。

具体的，流批一体脚本开发控制台对流批一体开发脚本配置，对脚本运行时所需环境进行配置，包括作业配置、执行配置、保存点配置、版本历史等功能。即，为基于IDE直接发布开发脚本的配置流程，脚本发布时会进行作业配置、执行配置、保存点配置和版本历史的配置。

举例而言，流批一体脚本开发控制台对数据湖服务平台进行作业配置，包括：对FlinkSQL的执行模式、集群选择、任务并行度、报警组进行可视化配置，同时对保存点路径及创建时间进行展示，以在流式作业运行中断后进行恢复。

步骤S33，数据湖服务平台进行流批一体的用户自定义UDF函数管理。

具体的，在代码开发过程中支持使用Java、Scala、Python等不同类型的UDF函数，包括UDF函数的版本管理、编辑、删除等功能。

步骤S34，数据湖服务平台发布流批一体代码，支持将批处理及流处理作业发布运行，以对接入后的数据根据业务时效性进行流批处理,构建基于流批一体的数据湖服务平台。

在本发明的实施例中，支持将批处理及流处理作业发布运行，包括任务前置依赖、任务重试、任务上线、任务下线等功能。

综上，在本步骤中，通过统一的数据计算引擎及开发语言实现流计算和批计算开发API及开发范式的统一，数据开发作业底层计算引擎统一采用Flink、开发语言统一采用FlinkSQL，从而保证批计算和流计算在处理过程和结果的数据一致性，从根本上避免同一个处理逻辑批作业和流作业两套代码的问题。

在本发明的实施例中，作业监控中心包括：作业数据采集组件、作业监控告警组件和作业监控数据展示组件。

下面参考图6对步骤S4进行展开说明：

步骤S41，作业数据采集组件采用被动推送来获取流处理及批处理的metrics数据，并将数据暴露给作业监控告警组件。

步骤S42，作业监控中心周期性采集流处理及批处理的metrics数据的指标，并对各项指标配置对应的预设告警阈值。当判断metrics数据的指标达到预设告警阈值时，向管理员发送告警通知。

具体的，作业监控告警组件通过周期性拉取作业数据采集组件中暴露metrics指标并配置告警规则，以及触发告警阈值条件的告警发送。

需要说明的是，预设告警阈值可以根据metrics数据的指标经验值和过去发生需告警事件的状态进行综合设定。预设告警阈值可随实时状态和事件的变化进行更新。

在本步骤中，metrics数据的指标为多项，包括JM内存、TM内存、传输延时、Sink记录数、Source记录数、Checkpoint的数量和大小、State数据的大小等指标。

对每项指标均设有对应的告警阈值，当其中一项指标达到其所对应的告警阈值时，触发告警，通过内部通信进行告警通知。

在本发明的实施例中，告警通知包括不限于以下方式：短信、内部邮箱、内部通信设施等。

步骤S43，作业监控中心对metrics数据的指标停更查询、度量分析和图形可视化分析界面。

具体的，图形可视化分析界面提供丰富的可视化展示方式，包括热图、折线图、图表等。

综上，在本步骤中，通过建设监控指标中心来分析作业的运行状态及告警配置，作业监控中心将Flink作业运行时将Metrics数据接上报到作业数据采集组件中，作业监控告警组件通过拉取作业数据采集组件暴露的Metrics数据进行告警配置，使得作业运行时指标达到阈值时将发送相关告警信息给相关负责人，同时在作业监控展示工具中进行度量分析及仪表盘展示。

本发明在基于湖仓一体架构上融合FlinkSQLGateWay构建流批一体的数据服务湖平台，与传统的流处理和批处理两条链路处理相比，基于湖仓一体架构上融合FlinkSQLGateWay构建流批一体的数据湖服务平台，不仅提升了数据计算结果质量，还提升了企业研发效率及资源利用率，降低维护成本。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims

1.一种基于流批一体化的数据湖服务平台构建方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于流批一体化的数据湖服务平台构建方法，其特征在于，在所述步骤S1中，

3.如权利要求1所述的基于流批一体化的数据湖服务平台构建方法，其特征在于，在所述步骤S2中，所述数据湖服务平台采用HDFS分布式文件系统对所述数据湖中的数据进行分布式文件存储。

4.如权利要求1所述的基于流批一体化的数据湖服务平台构建方法，其特征在于，在所述步骤S2中，所述数据湖服务平台采用Mysql数据库作为底层存储，利用Hive Metastore工件管理Flink On Iceberg表格式中的元数据并提供服务；

5.如权利要求1所述的基于流批一体化的数据湖服务平台构建方法，其特征在于，在所述步骤S3中，构建流批一体脚本开发控制台，利用所述流批一体脚本开发控制台所述数据湖服务平台进行流批一体开发脚本的配置，包括作业配置、执行配置、保存点配置和版本历史的配置。

6.如权利要求5所述的基于流批一体化的数据湖服务平台构建方法，其特征在于，所述流批一体脚本开发控制台对所述数据湖服务平台进行作业配置，包括：对FlinkSQL的执行模式、集群选择、任务并行度、报警组进行可视化配置，同时对保存点路径及创建时间进行展示，以在流式作业运行中断后进行恢复。

7.如权利要求5所述的基于流批一体化的数据湖服务平台构建方法，其特征在于，在所述步骤S3中，所述数据湖服务平台进行流批一体的用户自定义UDF函数管理。

8.如权利要求1所述的基于流批一体化的数据湖服务平台构建方法，其特征在于，在所述步骤S3中，所述数据湖服务平台发布流批一体代码，支持将批处理及流处理作业发布运行，以对接入后的数据根据业务时效性进行流批处理,构建基于流批一体的数据湖服务平台。

9.如权利要求1所述的基于流批一体化的数据湖服务平台构建方法，其特征在于，在所述步骤S4中，所述作业监控中心周期性采集流处理及批处理的metrics数据的指标，并对各项指标配置对应的预设告警阈值；

10.如权利要求1所述的基于流批一体化的数据湖服务平台构建方法，其特征在于，在所述步骤S4中，所述作业监控中心对所述metrics数据的指标停更查询、度量分析和图形可视化分析界面。