CN115114266A

CN115114266A - 一种流批一体的数仓集成方法及系统

Info

Publication number: CN115114266A
Application number: CN202210750771.7A
Authority: CN
Inventors: 廉凯; 郭辉
Original assignee: XCMG Hanyun Technologies Co Ltd
Current assignee: XCMG Hanyun Technologies Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-09-27

Abstract

本发明公开了一种流批一体的数仓集成方法及系统，包括：通过Flink CDC将业务数据库中的业务数据实时同步到消息队列中；通过Flink SQL对消息队列中的业务数据进行打宽处理；根据实时数仓的链路，从ODS‑>DWD‑>DWS‑>OLAP进行实时数仓的分层设计，通过Flink SQL将业务数据存储至实时数仓每一层对应的Kafka中；通过Flink SQL将实时数仓中每一层的明细数据按照实时数仓的分层设计同步至离线数仓中，得到实时、离线一体的数仓。本发明基于FlinkSql在一套链路上实现实时、离线数仓建设，保证数据一致性、流批计算结果的一致性，降低了数仓运行成本。

Description

一种流批一体的数仓集成方法及系统

技术领域

本发明涉及一种流批一体的数仓集成方法及系统，属于大数据处理技术领域。

背景技术

随着大数据时代的来临，大数据处理技术受到了越来越高的关注，目前，最主流的大数据架构分为如下两类：实时离线两套代码链路的Lambda架构和在Lambda架构上简化的Kappa架构。在实际使用中，这两种架构都存在一些问题，Lambda架构主要的问题是：（1）实时、离线数仓采用两套一样的代码，造成重复工作和资源消耗，增加了开发运维测试的成本；（2）实时、离线底层数据模型不一致，数据一致性和质量难以保证。Kappa架构的主要问题是：（1）Kappa 架构只保留了实时层而缺少离线层，如果有数据更新出错的情况发生，需要花费更多的时间资源在处理错误异常上面；（2） Kappa 架构的批处理和流处理都放在了实时层上，导致了这种架构是使用同一套代码来处理算法逻辑，因此 Kappa 架构并不适用于批处理和流处理代码逻辑不一致的场景。目前，需要研究新的大数据架构来解决上述问题。

发明内容

为了解决现有技术中存在的问题，本发明提出了一种流批一体的数仓集成方法及系统，基于FlinkSql在一套链路上实现实时、离线数仓建设，保证数据一致性、流批计算结果的一致性，降低了数仓运行成本。

为解决上述技术问题，本发明采用了如下技术手段：

第一方面，本发明提出了一种流批一体的数仓集成方法，包括如下步骤：

通过Flink CDC将业务数据库中的业务数据实时同步到消息队列中；

通过Flink SQL对消息队列中的业务数据进行打宽处理；

根据实时数仓的链路，从 ODS->DWD->DWS->OLAP进行实时数仓的分层设计；

根据分层结果，通过Flink SQL将业务数据转化为实时数仓每一层的明细数据，并存储至实时数仓每一层对应的Kafka中；

通过Flink SQL将实时数仓中每一层的明细数据按照实时数仓的分层设计同步至离线数仓中，得到实时、离线一体的数仓。

结合第一方面，进一步的，所述方法还包括：

当实时数仓口径调整或实时任务计算错误时，根据离线数仓中的明细数据对实时数仓进行数据修正。

结合第一方面，进一步的，数据修正的方法如下：

利用离线数仓中的明细数据搭建一条备用链路；

当实时数仓口径调整或实时任务计算错误时，在备用链路上进行数据回溯，重新计算历史数据；

对备用链路的回溯结果进行验证，验证成功后，利用离线数仓和备用链路更新实时数仓。

结合第一方面，进一步的，在实时数仓中，数据服务层OLAP采用Aapche Doris数据库架构。

结合第一方面，进一步的，所述方法还包括作业异常诊断机制，所述作业异常诊断机制包括异常指标数据收集环节和人工排查经验累计环节。

结合第一方面，进一步的，所述异常指标数据收集环节的具体操作如下：

通过 Flink Reporter 上报 SQL 作业的运行指标和运行日志，并持久化到 ES中用于历史查询；

实时监控 SQL 作业上报的 Kafka Offset 指标，当消费的 Offset 落后于生产的 Offset 时，判定为作业发生消费积压，生成报警信号并下发异常事件。

结合第一方面，进一步的，所述方法还包括异常保障机制，异常保障机制包括watermark水位线机制和Checkpoint快照机制；当实时数仓在计算实时任务异常退出时，通过Checkpoint快照机制还原计算进度，基于异常退出前的计算结果继续计算实时任务。

第二方面，本发明提出了一种基于第一方面所述的数仓集成方法的数仓集成系统，包括：

数据接入模块，用于通过Flink CDC将业务数据库中的业务数据实时同步到消息队列中；

数据打宽模块，用于通过Flink SQL对消息队列中的业务数据进行打宽处理；

实时数仓构建模块，用于根据实时数仓的链路，从 ODS->DWD->DWS->OLAP进行实时数仓的分层设计；根据分层结果，通过Flink SQL将业务数据转化为实时数仓每一层的明细数据，并存储至实时数仓每一层对应的Kafka中；

离线数仓构建模块，用于通过Flink SQL将实时数仓中每一层的明细数据按照实时数仓的分层设计同步至离线数仓中；

数据修正模块，用于当实时数仓口径调整或实时任务计算错误时，根据离线数仓中的明细数据对实时数仓进行数据修正。

结合第二方面，进一步的，所述系统还包括作业异常诊断模块，所述作业异常诊断模块包括异常指标数据收集模块和人工排查经验累计模块；

其中，异常指标数据收集模块的操作如下：

结合第二方面，进一步的，所述系统还包括异常保障模块，所述异常保障模块通过watermark水位线机制和Checkpoint快照机制对实时数仓的数据接入、数据存储和实时任务计算进行异常保障。

采用以上技术手段后可以获得以下优势：

本发明提出了一种流批一体的数仓集成方法及系统，将实时数仓和离线数仓集成在一条链路上，实现了流批一体的数仓集成方法，通过FlinkSql同步实时数仓和离线数仓中的明细数据，不仅能够实时关联主流数据库中的维表数据，还能关联离线数仓Hive 和Kafka 中的维表数据，从而能够灵活满足不同工作负载和时效性的需求，保证了数据一致性和流批计算结果的一致性，且不需要维护离线计算和实时计算两套代码，减少了重复工作和资源消耗，降低了数仓运行成本。

本发明根据离线数仓的明细数据搭建临时的备用链路，在备用链路上进行数据回溯和计算，解决了数据重播问题，实现了数据修正效果，同时提升了离线数仓的时效性。

本发明还通过作业异常诊断机制实时诊断数仓作业异常现象，并进行报警，提高数仓运行的可靠性，同时提供丰富的异常保障机制，能够保证数据的准确性和高可靠性。

附图说明

图1为本发明一种流批一体的数仓集成方法的步骤流程图；

图2为本发明实施例中数仓集成方法的逻辑流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明：

实施例1：

本发明提出了一种流批一体的数仓集成方法，如图1、2所示，具体包括如下步骤：

步骤A、通过Flink CDC将业务数据库中的业务数据实时同步到消息队列中，即图2中的Binlog采集。

本发明方法主要针对车辆工况数据，通过车辆上的物联网终端实时采集车辆的工况信息，使用统一的数据清洗转换规则对数据进行接收和清洗转换，消除数据的二义性，得到统一标准的数据格式，然后存入业务数据库中，最后通过Flink CDC（变化数据捕获）技术实时同步业务数据库数据到消息队列里，以便后续处理。

步骤B、通过Flink SQL对消息队列中的业务数据进行打宽处理，即图2中的DIM。在本发明实施例中，Flink SQL 通过强大的维表 join 的能力，实时关联业务数据库中的维表数据或者 Kafka 中的维表数据，实现对数据进行打宽处理。

步骤C、根据实时数仓的链路，从 ODS->DWD->DWS->OLAP进行实时数仓的分层设计，其中，数据服务层OLAP采用预计算引擎架构，可计算选型Aapche Doris。Doris支持离线批量数据和实时流式数据高效导入，秒级实时性保证，高效的列存储引擎和现代MPP架构，结合智能物化视图、向量化执行和各种索引加速，实现极致的查询性能。基于此，Doris在多维报表、用户画像、即席查询、实时大屏等诸多业务领域都能得到很好应用，满足数仓的数据应用功能。

步骤D、根据分层结果，通过Flink SQL将业务数据转化为实时数仓每一层的明细数据，并存储至实时数仓每一层对应的Kafka中。

步骤E、通过Flink SQL将实时数仓中每一层的明细数据按照实时数仓的分层设计同步至离线数仓中，离线数仓与实时数仓的分层设计一样，离线数仓中的数据将用于数据修正和离线计算。

通过步骤C、D、E可以在同一链路上得到实时、离线一体（流批一体）的数仓。

步骤F、当实时数仓口径调整（如因新增聚合指标、修改原指标口径等口径调整）或实时任务计算错误时，根据离线数仓中的明细数据对实时数仓进行数据修正，具体操作如下：

步骤F01、利用离线数仓中的明细数据搭建一条备用链路，在备用链路上生成与实时任务相同的备用离线任务。

步骤F02、当实时数仓口径调整或实时任务计算错误时，在备用链路上进行数据回溯，并重新计算历史数据，实现数据重播。

步骤F03、对备用链路的回溯结果进行验证，如果验证成功，说明备用链路上的结果数据准确可靠，在链路最下游的数据服务层OLAP利用离线数仓和备用链路更新实时数仓的数据，完成数据修正、补偿操作。

步骤G、通过作业异常诊断机制对实时、离线数仓进行作业异常诊断，其中，作业异常诊断机制包括异常指标数据收集环节和人工排查经验累计环节。

异常指标数据收集环节的具体操作如下：

步骤G01、通过 Flink Reporter 上报 SQL 作业的运行指标和运行日志，并持久化到 ES 中用于历史查询。

步骤G02、实时监控 SQL 作业上报的 Kafka Offset 指标，当消费的 Offset 落后于生产的 Offset 时，判定为作业发生消费积压，生成报警信号并下发异常事件。

人工排查经验累计环节可以在发现异常时间后，基于火焰图、指标和运行日志等来分析异常的原因，并恢复作业，最后提出调优建议等。

步骤H、通过异常保障机制在数仓运行过程中进行异常保障，保障数仓正常运行。

异常保障机制包括watermark水位线机制和Checkpoint快照机制。依托流计算引擎Flink原生支持watermark水位线机制，可以基于数据实际发生时记录的事件时间，实现任意数据乱序情况的有效处理；支持双重保障处理迟到数据。Flink提供Checkpoint快照机制，当实时计算作业异常退出时，通过Checkpoint快照机制可以还原计算进度，保证基于退出前的计算结果继续计算，支持exactly-once（指系统保证在发生故障后得到的计数结果与正确值一致）。通过异常保障机制能够保证数据的准确性和高可靠性。

在传统的数据仓库中，实时和离线数仓是比较割裂的两套链路，比如实时链路通过 Flume和 Canal 实时同步日志和数据库数据到消息队列，离线链路通过 Flume 和Sqoop 定期同步日志和数据库数据到 Hive。本发明基于Flink SQL原生支持的 CDC技术，通过一套链路就可以同步数据库全量和增量数据到消息队列，进行实时、离线数仓建设；本发明一方面通过Flink SQL实时关联主流数据库中的维表数据，另一方面还关联了 Hive和 Kafka 中的维表数据，能灵活满足不同工作负载和时效性的需求。此外，本发明还拥有强大的流式 ETL 的能力，统一在实时层做数据接入和数据转换，然后使用FlinkSql流式写入离线数仓Hive中，减少了组件和链路的维护成本，提升了离线数仓的时效性。

本发明具有高可用、高吞吐、低延迟、强大的计算能力的特点，能够实时处理数据，不会产生数据的延迟，保证数据的实时性。

实施例2：

基于实施例1中的数仓集成方法，本发明还提出了一种流批一提的数仓集成系统，具体包括数据接入模块、数据打宽模块、实时数仓构建模块、离线数仓构建模块、数据修正模块、作业异常诊断模块和异常保障模块。

数据接入模块主要用于通过Flink CDC将业务数据库中的业务数据实时同步到消息队列中。

数据打宽模块主要用于通过Flink SQL对消息队列中的业务数据进行打宽处理。

实时数仓构建模块主要用于根据实时数仓的链路，从 ODS->DWD->DWS->OLAP进行实时数仓的分层设计；根据分层结果，通过Flink SQL将业务数据转化为实时数仓每一层的明细数据，并存储至实时数仓每一层对应的Kafka中。

离线数仓构建模块主要用于通过Flink SQL将实时数仓中每一层的明细数据按照实时数仓的分层设计同步至离线数仓中。

数据修正模块主要用于当实时数仓口径调整或实时任务计算错误时，根据离线数仓中的明细数据对实时数仓进行数据修正。数据修正模块的具体操作为：（1）利用离线数仓中的明细数据搭建一条备用链路，在备用链路上生成与实时任务相同的备用离线任务；（2）当实时数仓口径调整或实时任务计算错误时，在备用链路上进行数据回溯，并重新计算历史数据，实现数据重播；（3）对备用链路的回溯结果进行验证，如果验证成功，说明备用链路上的结果数据准确可靠，在链路最下游的数据服务层OLAP利用离线数仓和备用链路更新实时数仓的数据，完成数据修正、补偿操作。

作业异常诊断模块包括异常指标数据收集模块和人工排查经验累计模块；其中，异常指标数据收集模块的操作如下：（1）通过 Flink Reporter 上报 SQL 作业的运行指标和运行日志，并持久化到 ES 中用于历史查询；（2）实时监控 SQL 作业上报的 KafkaOffset 指标，当消费的 Offset 落后于生产的 Offset 时，判定为作业发生消费积压，生成报警信号并下发异常事件。人工排查经验累计模块用于在发现异常时间后，基于火焰图、指标和运行日志等来分析异常的原因，并恢复作业，最后提出调优建议等。

异常保障模块用于通过watermark水位线机制和Checkpoint快照机制对实时数仓的数据接入、数据存储和实时任务计算进行异常保障。具体的，watermark水位线机制，基于数据实际发生时记录的事件时间实现任意数据乱序情况的有效处理；Checkpoint快照机制，当实时计算作业异常退出时，保证基于退出前的计算结果继续计算。

本发明能够实现流批一体的数仓集成，不需要维护离线计算和实时计算两套代码，减少了重复工作和资源消耗，并且保证了数据一致性、流批计算结果的一致性。本发明通过离线数仓中的明细数据搭建临时的备用链路，解决了数据重播和数据修正问题，提升了离线数仓的时效性。Flink高吞吐量下支持exactly-once，提供丰富的异常保障机制，保证了数据的准确性和高可靠性。强大的MPP分析型数据数据仓库，不仅支持海量数据查询速度响应快，还支持高并发的点查询和高吞吐的负责分析场景，很好的应用在多维报表、用户画像、即席查询、实时大屏等诸多业务领域。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种流批一体的数仓集成方法，其特征在于，包括如下步骤：

通过Flink SQL对消息队列中的业务数据进行打宽处理；

2.根据权利要求1所述的一种流批一体的数仓集成方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的一种流批一体的数仓集成方法，其特征在于，数据修正的方法如下：

利用离线数仓中的明细数据搭建一条备用链路；

4.根据权利要求1所述的一种流批一体的数仓集成方法，其特征在于，在实时数仓中，数据服务层OLAP采用Aapche Doris数据库架构。

5.根据权利要求1所述的一种流批一体的数仓集成方法，其特征在于，所述方法还包括作业异常诊断机制，所述作业异常诊断机制包括异常指标数据收集环节和人工排查经验累计环节。

6.根据权利要求5所述的一种流批一体的数仓集成方法，其特征在于，所述异常指标数据收集环节的具体操作如下：

通过 Flink Reporter 上报 SQL 作业的运行指标和运行日志，并持久化到 ES 中用于历史查询；

实时监控 SQL 作业上报的 Kafka Offset 指标，当消费的 Offset 落后于生产的Offset 时，判定为作业发生消费积压，生成报警信号并下发异常事件。

7.根据权利要求1所述的一种流批一体的数仓集成方法，其特征在于，所述方法还包括异常保障机制，异常保障机制包括watermark水位线机制和Checkpoint快照机制；当实时数仓在计算实时任务异常退出时，通过Checkpoint快照机制还原计算进度，基于异常退出前的计算结果继续计算实时任务。

8.一种基于权利要求1~7任一项所述的数仓集成方法的数仓集成系统，其特征在于，包括：

9.根据权利要求8所述的一种流批一体的数仓集成系统，其特征在于，所述系统还包括作业异常诊断模块，所述作业异常诊断模块包括异常指标数据收集模块和人工排查经验累计模块；

其中，异常指标数据收集模块的操作如下：

10.根据权利要求8所述的一种流批一体的数仓集成系统，其特征在于，所述系统还包括异常保障模块，所述异常保障模块通过watermark水位线机制和Checkpoint快照机制对实时数仓的数据接入、数据存储和实时任务计算进行异常保障。