CN116431635A

CN116431635A - 基于湖仓一体的配电物联网数据实时处理系统及方法

Info

Publication number: CN116431635A
Application number: CN202310358302.5A
Authority: CN
Inventors: 王立旭; 何鸣一; 吕非; 吴子栋; 宗伟康; 陈凯旋; 周福; 陶定元; 胡振洲; 张艳; 张名扬
Original assignee: Nari Technology Co Ltd
Current assignee: Nari Technology Co Ltd
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-07-14

Abstract

本发明公开了一种基于湖仓一体的配电物联网数据实时处理系统及方法，所述系统包括物联前置采集模块和采用Docker容器化部署的湖仓一体核心处理模块；物联前置采集模块用于采集配电物联网数据并发送给所述湖仓一体核心处理模块；湖仓一体核心处理模块包括数据处理单元和多维分析单元；数据处理单元中包括原始数据处理单元、维度模型处理单元、事实数据处理单元、聚合关联处理单元以及应用数据处理单元；本发明能够对海量异构数据进行有效地数据处理和存储，从而改善数据计算分析和统计的混乱性，减少重复计算，实现计算结果的复用，提升数据的快速检索效率，同时能够为应用侧快速提供多维度数据支撑，确保大规模复杂数据计算时的响应性能。

Description

基于湖仓一体的配电物联网数据实时处理系统及方法

技术领域

本发明涉及一种，尤其是数据实时处理系统及方法，尤其是基于湖仓一体的配电物联网数据实时处理系统及方法。

背景技术

在国网智慧物联体系的建设背景下，配电物联网系统平台建设规模逐渐扩大，省级平台接入的物联智能终端设备数量也达到千万台级别，每日落盘数据量达到TB级。如此庞大的数据量对系统平台的实时处理计算、异构数据存储、多维度关联查询分析等方面都有较高要求。

传统的配电物联网数据处理系统是通过自建CDH集群作为各组件应用的技术平台，整体系统采用Lambda架构构建，以离线采集和离线数据仓库为主核心技术，通过不同的流式计算技术分别实现流批处理。现有技术中配电物联网数据处理系统采用湖仓分体方式，主要是通过数据湖、数据仓库和应用组件构成，为应用侧提供统一的数据管理和计算，但是本质物理层面数据湖和数据仓仍然是分离，只能一定程度上实现功能的互补，难于满足系统对海量数据的实时计算处理、存储、数据一致性、运维等方面的更高需求。

湖仓一体技术的出现提供了一个统一的、可共享的数据底座，避免传统的数据湖、数据仓库之间的数据移动，但使用传统的湖仓一体进行配电物联网数据处理却存在诸多问题，无法满足海量配电物联数据的处理：(1)配电物联网的交互数据按照流向分为上行数据和下行数据，并且不同专业场景的数据存在有序关系，海量交互数据有大量循环依赖或者复杂结构，但传统的数据处理对不同的数据不加以区分，全部进行统一处理，导致重复计算，检索效率低；(2)传统的数据分析多数是通过整合各类数据的方式进行宽表分析，由于宽表包含了所有相关的数据，所以数据质量较高，业务计算具备一定的准确性，但是在海量异构数据的场景下开发难度大且维护成本高，宽表依赖较多会导致系统稳定性不高，此外业务逻辑复杂的计算会导致宽表运行慢，资源占用多，性能低等问题。

发明内容

发明目的：本发明的目的是提供一种快速有效的基于湖仓一体的配电物联网数据实时处理系统及方法。

技术方案：本发明所述的基于湖仓一体的配电物联网数据实时处理系统，包括物联前置采集模块和采用Docker容器化部署的湖仓一体核心处理模块；

所述物联前置采集模块用于采集配电物联网数据并发送给所述湖仓一体核心处理模块；

所述湖仓一体核心处理模块包括数据处理单元；所述数据处理单元中包括用于将所述配电物联网数据写入数据湖表格中生成原始表的原始数据处理单元，用于将相关业务的不同数据表进行多流合并到同一张数据湖表格中生成维度表的维度模型处理单元，用于根据数据类型设定合理主键并对所述原始表进行关联操作生成事实表的事实数据处理单元，用于将所述维度表与所述事实表关联处理的聚合关联处理单元，以及用于对聚合关联处理单元处理后的数据进行业务分类输出到数据库中的应用数据处理单元。

进一步地，所述原始数据处理单元使用Flink SQL创建Flink临时表，并将Flink临时表中的数据全部写入Hudi表中；

所述模型维度处理单元使用Flink SQL创建Hudi维度模型处理公共数据库，将所有相关业务的原始表数据聚合成对应的维度表；

所述事实数据处理单元使用Flink SQL创建Hudi事实数据处理公共数据库，将所有表示统一业务类型的的原始表数据聚合成事实数据表；

所述聚合关联处理单元使用Flink SQL创建Hudi聚合关联处理数据库，通过对维度表和事实数表进行关联操作创建聚合关联Hudi表；

所述应用数据处理单元使用Flink SQL创建Hudi应用数据处理数据库，将所述聚合关联Hudi表中的数据进行业务分类输出到ClickHouse数据库中。

进一步地，所述湖仓一体核心处理模块还包括多维分析单元，所述多维分析单元用于根据ClickHouse列式存储对应用数据处理单元处理之后的数据表进行汇总和实时查询分析，将业务频繁的聚合操作通过物化试图进行预聚合并保存在物化试图内。

进一步地，所述湖仓一体核心处理模块还包括管控单元，所述管控单元用于对元数据和运行环境资源进行管控和调度。

进一步地，所述系统还包括用于将所述湖仓一体核心处理模块与应用侧连接的北向接口。

进一步地，所述物联前置采集模块通过数据传输中间件将配电物联网数据发送给所述湖仓一体核心处理模块；所述数据传输中间件为消息中间件Kafka构建的分布式的流处理中间件。

本发明所述的基于湖仓一体的配电物联网数据实时处理方法，采集配电物联网数据并传输到Docker容器化部署的湖仓一体核心处理模块进行实时处理，将所述配电物联网数据写入数据湖表格中生成原始表，将相关业务的不同数据表进行多流合并到同一张数据湖表格中生成维度表，根据数据类型设定合理主键并对所述原始表进行关联操作生成事实表，将所述维度表与所述事实表进行关联处理并进行业务分类输出到数据库中。

进一步地，基于ClickHouse列式存储对所述数据库中的数据表进行汇总和实时查询分析，将业务频繁的聚合操作通过物化试图进行预聚合并保存在物化试图内。

本发明所述的电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被加载至处理器时实现所述的基于湖仓一体的配电物联网数据实时处理方法。

本发明所述的计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现所述的基于湖仓一体的配电物联网数据实时处理方法。

有益效果：与现有技术相比，本发明的优点在于：(1)对海量异构数据进行有效地数据组织、处理和存储，从而改善数据处理、分析和统计的混乱性，减少重复计算，实现计算结果的复用，提升数据的快速检索效率；(2)多维分析以数据分析做为出发点，根据配电物联网的各个业务场景和专业方向的数据分类进行维度分析和数据建模，数据处理过程中的每个维度表格都能够在多维分析时进行全量、增量以及历史数据的查询修改，从而能够更快地为应用侧提供多维度数据支撑和确保系统在大规模复杂数据计算中具备足够的响应性能；(3)对物联前置采集模块和湖仓一体核心处理模块的组件及应用进行Docker容器化部署，整体具备云原生能力，基于Kubernetes集群进行统一编排管控，能够自由增减计算和存储资源，实现动态弹性扩展，提高开发和运维效率；(4)针对传统配电物联系统在海量并发数据的存储、查阅以及分析方面出现的性能瓶颈问题，采用湖仓一体核心处理和存储架构，彻底规避数据孤岛、多类型数据无法整合，建模路劲冗长、性能瓶颈等难题；通过全量数据T+0的流处理和实时计算，更灵活的实现数据建模、应用构建、数据查询等操作，使得系统具备全实时T+0处理能力，弥补基于Hadoop技术体系对于数据实时处理能力的缺失；(5)对数据湖和数据仓的实时计算阶段性和过程中的数据进行统一落盘存储，所有阶段计算状态和原始数据都保证一份存储全局访问，结合统一的事务机制，确保用户侧不同业务场景查询和更新的数据具有强一致性。

附图说明

图1为本发明的配电物联网数据实时处理系统结构图。

图2为本发明的数据处理单元数据处理逻辑框图。

图3为本发明的多维数据映射示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1所示，所述基于湖仓一体的配电物联网数据实时处理系统，包括物联前置采集模块、湖仓一体核心处理模块和北向接口。湖仓一体核心处理模块包括数据处理、存储、管控、多维分析单元实现对数据进行实时计算、分析、存储以及对外访问等操作。北向接口对湖仓核心处理的业务数据以及元数据通过统一接口方式对外暴露给应用侧，提供数据支持和业务支撑等操作。物联前置采集模块和湖仓一体核心处理模块的所有组件、应用、程序等等都是以Docker容器化的实现，通过Kubernetes进行整体容器编排和集群化管控，并且具备支持云上环境迁移和运行。

为了保证湖仓一体整体功能实现的泛用性，基于Flink SQL实现数据入湖、计算和输出等操作，基于Hudi的表格格式围绕物联实时数据时间线进行数据存储。Flink中核心计算任务基于SavePoint实现回退点，在任务异常退出或者重启时通过SavePoint恢复。

物联前置采集模块采集配电物联网数据，通过数据传输中间件将数据实时地发送至湖仓一体核心处理模块；本实施例中数据传输中间件为消息中间件Kafka构建的分布式的流处理中间件。

湖仓一体核心处理模块的数据处理单元包括原始数据处理单元、维度模型处理单元、事实数据处理单元、聚合关联处理单元以及应用数据处理单元。如图2所示为原始数据处理单元、维度模型处理单元、事实数据处理单元、聚合关联处理单元以及应用数据处理单元的数据处理逻辑示意图。

原始数据处理单元是将不同类型数据分别处理映射写入数据湖表格中，如图3所示为多维数据映射示意图，写入数据湖表格通过使用Flink SQL创建Flink临时表的公共数据库db_flink_temp和Hudi原始数据的公共数据库db_hudi_ods。

基于Flink配置Kafka连接器的数据源信息后，通过创建Flink流式任务直接将数据传输中间件中的相关主题数据映射到Flink临时表中。构建Flink的输出任务，在db_hudi_ods中创建源数据存储的Hudi表，将Flink临时表中的数据全部写入Hudi表中，完成原始数据全部映射到Hudi表格中。

基于FlinkCDC实现对关系数据库所有数据表进行实时监控，通过mysql-cdc连接器配置相关数据源信息，将原始数据直接转化成流式数据，映射到db_flink_temp中的Flink临时业务表中；所述Flink CDC使用表数据时必须设置主键。构建业务数据的Flink的输出任务，在db_hudi_ods中创建业务数据存储的Hudi表，将对应的Flink临时业务表中的数据全部写入到Hudi表中。

关系数据库MySQL中的每张业务数据表分别对应一个Flink处理任务，最终N张关系表对应N各Flink处理任务写入N个Hudi表格中。

在db_hudi_ods中创建Hudi表时，基于Hudi连接器配置数据存储位置、表格类型、合并主键、合并字段、并发数量、流读模式；所述合并字段是通过设置"compaction.delta_seconds"延后合并时间，并且要大于Flink检查点CheckPoint设置的时间；所述表格类型设置实时处理MOR模式。

所述在db_hudi_ods中创建Hudi表时，在原始数据基础上根据设备ID新增主键字段、分区字段、开窗时间戳作为Hudi存储的附属字段。

在db_hudi_ods中创建Hudi表时，当重启Flink数据映射任务时要基于Flink检查点Checkpoint执行，避免出现重复数据写入Hudi表格中。

维度模型处理单元是将原始数据处理中的不同业务数据表join到同一张数据湖表格中，主要包括物联交互的业务数据、工况数据、应答数据、管理数据四个主要聚合表，统一构建出相应的维度表；具体地，通过使用Flink SQL创建Hudi维度模型处理公共数据库db_hudi_dim，再根据业务场景创建对应的维度表。

从db_hudi_ods库中将所有相关业务的原始表数据聚合成对应的维度表，在字段组合过程涉及大量的关联操作时，根据实际资源大小设置并发度"read.tasks"个数。

为了避免多次导入原始数据后进行关联操作出现数据不完整，需要对聚合操作时在每个原始Hudi表查询操作都指定“read.start-commit＝'earliest'”参数。

事实数据处理单元是通过使用Flink SQL创建Hudi事实数据处理公共数据库db_hudi_dwd，再根据业务场景创建对应的事实表。

从db_hudi_ods库中将所有表示统一业务类型的的原始表数据聚合成事实表。

多张Hudi表做聚合操作并且用到groupby语法，需要进行过滤分组字段不为空。在大量Hudi表做聚合操作时通过"table.exec.state.ttl"设置Flink的状态过期时间，避免Flink状态存储空间过多导致任务异常。

聚合关联处理单元是通过使用Flink SQL创建Hudi聚合关联处理数据库db_hudi_dws，通过对维度模型表和事实数据处理表进行关联操作创建聚合关联Hudi表。

基于Flink的Lookup Join方式查询维度模型表和事实数据处理表的数据来充实聚合关联表数据，统计周期设置为一日聚合。

为了保证并发操作的性能问题，通过设置"lookup.cache.ttl"控制访问数据库的频率从而保证稳定性。

计算过程中聚合操作时使用Flink原生聚合函数避免状态数据判断导致数据不统一。

应用数据处理单元是通过使用Flink SQL创建Hudi应用数据处理数据库db_hudi_ads，通过对聚合关联处理数据相关表数据进行业务分类输出到OLAP型数据库ClickHouse中。

具体地，通过ClickHouse连接器配置相关数据源信息，将聚合关联处理数据Hudi表中的数据全部写入到ClickHouse对应表中。

聚合关联处理数据的不同表需要单独启动一个Flink任务进行计算处理。

湖仓一体核心处理模块的多维分析单元是基于ClickHouse列式存储对应用数据处理计算之后的数据表进行汇总和实时查询分析，主要包括物联工况、应答、管理、业务四个主要专业类型数据。

为了提升写入性能，通过Flink任务进行批量写入数据到ClickHouse中，防止MergeDataPart过多影响性能和减少客户端的内存压力。

为了提高对外接口的查询性能，将业务频繁的聚合操作通过物化试图提前预聚合好，保存在物化试图内，这样应用侧查询可以直接命中之前预聚合的物化试图从而加快查询速度。

湖仓一体核心处理模块的存储单元是基于分布式文件系统存储数据处理每个阶段的原始数据、状态数据、计算结果以及所有数据湖表格数据。本实施例只存储一份业务数据和一份元数据，全局计算、分析、处理共享数据，节省存储成本，提高开发和运维效率。为了保证数据访问的高效性，可以在分布式文件系统上层可以使用加速引擎对数据进行统一加速。

湖仓一体核心处理模块的管控单元对数据湖和数据仓的元数据进行统一管理以及系统云原生环境资源的统一管理。所述统一元数据管理通过对数据湖和数据仓的元数据注册、管理、同步、多维度共享，解决数据孤岛问题，实现高效的数据查询，主要的元模型包括通用元数据、Hudi元数据、Schema模型。统一资源管理是运用Kubernetes集群环境作为数据湖、数据仓、OLAP计算引擎和应用服务组件等运行环境，统一进行资源管控和调度，以及应用容器的生命周期管理，能够快速构建湖仓一体核心平台。

数据处理在任务计算过程中，首先根据元数据Schema模型判断创建所有表格；进一步地，分别启动维度模型处理、事实数据处理、聚合关联处理和应用数据处理的所有实时任务，最后再运行原始数据处理实时任务，从而防止数据重复计算或者出现不一致性。

北向接口连接湖仓一体核心处理模块及应用侧，提供北向对外访问服务提供统一RESTful接口，所述RESTful接口用于对应用侧提供数据处理、查询展示等操作的HTTP接口。北向接口包括OLAP统一接口、SQL统一接口、声明式数据访问统一接口以、元数据统一接口以及全局同步统一接口；其中OLAP统一接口和声明式数据访问统一接口基于WebFlux实现的响应式接口，能够通过异步非阻塞的方式快交互，提高接口在网络传输中的效率。

本发明所述基于湖仓一体的配电物联网数据实时处理方法，采集配电物联网数据并传输到Docker容器化部署的湖仓一体核心处理模块进行实时处理，将所述配电物联网数据写入数据湖表格中生成原始表，将相关业务的不同数据表进行多流合并到同一张数据湖表格中生成维度表，根据数据类型设定合理主键并对所述原始表进行关联操作生成事实表，将所述维度表与所述事实表进行关联处理并进行业务分类输出到数据库中。基于ClickHouse列式存储对数据库中的数据表进行汇总和实时查询分析，主要包括物联工况、应答、管理、业务四个主要专业类型数据；业务频繁的聚合操作通过物化试图提前预聚合好，保存在物化试图内，提高对外接口的查询性能。

所述计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储指令或数据结构的形式的所要程序代码并且可由计算机存取的任何其它媒体。

处理器用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。

Claims

1.一种基于湖仓一体的配电物联网数据实时处理系统，其特征在于，所述系统包括物联前置采集模块和采用Docker容器化部署的湖仓一体核心处理模块；

2.根据权利要求1所述的基于湖仓一体的配电物联网数据实时处理系统，其特征在于，所述原始数据处理单元使用Flink SQL创建Flink临时表，并将Flink临时表中的数据全部写入Hudi表中；

3.根据权利要求1所述的基于湖仓一体的配电物联网数据实时处理系统，其特征在于，所述湖仓一体核心处理模块还包括多维分析单元，所述多维分析单元用于根据ClickHouse列式存储对应用数据处理单元处理之后的数据表进行汇总和实时查询分析，将业务频繁的聚合操作通过物化试图进行预聚合并保存在物化试图内。

4.根据权利要求1所述的基于湖仓一体的配电物联网数据实时处理系统，其特征在于，所述湖仓一体核心处理模块还包括管控单元，所述管控单元用于对元数据和运行环境资源进行管控和调度。

5.根据权利要求1所述的基于湖仓一体的配电物联网数据实时处理系统，其特征在于，所述系统还包括用于将所述湖仓一体核心处理模块与应用侧连接的北向接口。

6.根据权利要求1所述的基于湖仓一体的配电物联网数据实时处理系统，其特征在于，所述物联前置采集模块通过数据传输中间件将配电物联网数据发送给所述湖仓一体核心处理模块；所述数据传输中间件为消息中间件Kafka构建的分布式的流处理中间件。

7.一种基于湖仓一体的配电物联网数据实时处理方法，其特征在于，采集配电物联网数据并传输到Docker容器化部署的湖仓一体核心处理模块进行实时处理，将所述配电物联网数据写入数据湖表格中生成原始表，将相关业务的不同数据表进行多流合并到同一张数据湖表格中生成维度表，根据数据类型设定合理主键并对所述原始表进行关联操作生成事实表，将所述维度表与所述事实表进行关联处理并进行业务分类输出到数据库中。

8.根据权利要求1所述的基于湖仓一体的配电物联网数据实时处理方法，其特征在于，基于ClickHouse列式存储对所述数据库中的数据表进行汇总和实时查询分析，将业务频繁的聚合操作通过物化试图进行预聚合并保存在物化试图内。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求7-8任一项所述的基于湖仓一体的配电物联网数据实时处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现根据权利要求7-8任一项所述的基于湖仓一体的配电物联网数据实时处理方法。