CN116955337A

CN116955337A - 一种基于流批一体的数据湖构建系统、方法及装置

Info

Publication number: CN116955337A
Application number: CN202310949987.0A
Authority: CN
Inventors: 钟秋; 万文兵; 杨颖�
Original assignee: Jiangsu Suning Bank Co Ltd
Current assignee: Jiangsu Suning Bank Co Ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-10-27

Abstract

本发明公开了一种基于流批一体的数据湖构建系统、方法及装置，包括数据获取模块，用于获取流数据和批数据；标准化模块，用于对流数据和批数据分别进行数据清洗，得到标准流数据和标准批数据，将标准流数据和标准批数据进行持久化；数据整合模块，用于对持久化的数据进行数据建模，生成实时数仓与离线数仓，并关联实时数仓与离线数仓；数据访问模块，用于获取关联的实时数仓与离线数仓，生成数据湖，对数据湖的数据进行数据聚合。本发明提供的基于流批一体的数据湖构建系统、方法及装置，通过数据湖的构建，提高数据的利用率和处理效率，关联实时数据和离线数据对业务数据进行处理和管理。

Description

一种基于流批一体的数据湖构建系统、方法及装置

技术领域

本发明属于互联网银行技术领域，具体涉及一种基于流批一体的数据湖构建系统、方法及装置。

背景技术

在银行系统内产生了海量的客户数据、存款数据、贷款数据等，随着业务的发展和创新越来越依赖于对数据的高效处理和分析。然而，银行业务相关数据呈现出规模大、多源异构、结构复杂等特点，传统的数据处理方法往往难以应对。

目前，基于数据湖的处理方法已成为银行业务数据处理的一种重要方式。数据湖作为一种非结构化的数据存储方式，可以将多种类型、来源和格式的数据整合到一个统一的存储环境中，以便进行数据分析和预测。然而，在实际应用过程中，传统数据湖方式往往无法满足银行业务处理的实时性和效率需求，特别是在快速变化的业务场景中，传统的批处理方法需要大量的时间和资源。

综上所述，现有技术存在的问题，有待解决。

发明内容

本发明的目的在于提供一种基于流批一体的数据湖构建系统、方法及装置，以解决传统数据湖方式无法满足业务处理的实时性和效率需求的问题。

为实现上述目的，本发明提供如下技术方案：一种基于流批一体的数据湖构建系统，包括：

数据获取模块，用于获取流数据和批数据；

标准化模块，用于对流数据和批数据分别进行数据清洗，得到标准流数据和标准批数据，将标准流数据和标准批数据进行持久化；

数据整合模块，用于对持久化的数据进行数据建模，生成实时数仓与离线数仓，并关联实时数仓与离线数仓；

数据访问模块，用于获取关联的实时数仓与离线数仓，生成数据湖，对数据湖的数据进行数据聚合。

优选的，所述标准化模块包括：

流数据标准化模块：用于实时获取的流数据进行数据清洗，生成标准流数据，将处理后的标准流数据保存到实时数据存储层；

批数据标准化模块：用于对批数据进行数据清洗，生成标准批数据，并保存处理后的标准批数据更新至实时计算数据平台；

数据存储模块：用于持久化标准流数据和标准批数据，并采用T+1方式将标准批数据保存至临时性的数据源中。

优选的，标准化模块还包括数据清洗模块，数据清洗模块包括以下子模块：

数据归并模块，用于合并两个或多个数据源中的流数据和批数据；

数据分流模块，用于分别存储流数据和批数据；

数据去重模块，用于判断流数据和批数据的数据重复情况，对重复的数据进行删除，确保流数据和批数据的唯一性；

脏数据处理模块：用于对流数据和批数据中的数据进行数据初始化，保留准确数据和完整数据，删除无效数据；

数据类型格式化模块，用于转换流数据和批数据数据类型，得到标准流数据和标准批数据。

优选的，所述数据整合模块包括：

数据退化模块：用于对标准流数据和标准批数据进行不变维度的退化，将原本标准流数据和标准批数据作为维度的数据合并到主要事实表；

核心字段提取模块：用于提取主要事实表中的关键字段，建立维度表；

信息关联模块：用于读取核心字段提取模块的数据，生成实时数仓与离线数仓，根据实时数仓与离线数仓之间的对应关系建立关联，存储所关联的实时数仓与离线数仓。

一种基于流批一体的数据湖构建方法，包括：

获取流数据和批数据；

基于流数据和批数据，对流数据和批数据分别进行数据清洗，得到标准流数据和标准批数据，将标准流数据和标准批数据进行持久化；

基于持久化后的标准流数据和标准批数据，进行数据建模，生成实时数仓与离线数仓，并关联实时数仓与离线数仓；

基于关联的实时数仓与离线数仓，生成数据湖，对数据湖的数据进行数据聚合。

优选的，将标准流数据和标准批数据持久化包括：

对流数据标准化的处理：对实时获取的流数据进行数据清洗，生成标准流数据，保存标准流数据到实时数据存储层；

对批数据标准化的处理：对批数据进行数据清洗，生成标准批数据，将标准批数据更新至实时计算数据平台；

数据存储：对标准流数据和标准批数据持久化，并采用T+1方式将标准批数据保存至临时性的数据源中。

优选的，所述数据清洗包括以下步骤：

数据归并，合并两个或多个数据源中的流数据和批数据；

数据分流，分别存储流数据和批数据

数据去重，判断流数据和批数据的数据重复情况，对重复的数据进行删除，确保流数据和批数据的唯一性；

脏数据处理：对流数据和批数据中的数据进行数据初始化，保留准确数据和完整数据，删除无效数据；

数据类型格式化，转换流数据和批数据的数据类型，得到标准流数据和标准批数据。

优选的，所述数据建模包括：

数据退化：对标准流数据和标准批数据进行不变维度的退化，将原本标准流数据和标准批数据作为维度的数据合并到主要事实表；

核心字段提取：提取主要事实表中的关键字段，建立维度表。

一种基于流批一体的数据湖构建装置，包括：处理器和存储器，所述存储器存储有所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

本发明的技术效果和优点：

通过数据存储模块将标准流数据和标准批数据的处理结果持久化存储，实现数据的增量更新和查询，从而提高数据的处理效率和可靠性；

通过对数据进行建模，使得提高数据分析和预测的准确性，进而提高业务决策的精度和效果，通过数据整合模块关联实时数仓与离线数仓，使得数据可自由调度，实现数据的高度复用，减少重复加工，节约了时间和成本；

通过数据湖的构建，提高数据的利用率和处理效率，提高数据湖的可用性，通过关联实时数据和离线数据，提高数据处理和实时分析的效率。

附图说明

图1为本发明的系统示意图；

图2为本发明的方法示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了如图1-2中所示的一种基于流批一体的数据湖构建系统、方法及装置，该系统包括：数据获取模块、标准化模块、数据整合模块和数据访问模块，本发明的方法通过使用前述模块来执行，运行的环境可以在互联网银行中，包括如下步骤：

S1：通过数据获取模块采集互联网银行业务数据，业务数据分为流数据和批数据，通过分别获取流数据和批数据以进行后续的数据处理；

其中，流数据以时间序列的方式产生，具有较高的时效性要求，需要在一定时间内进行实时处理和分析，例如账户余额、日志记录、监测指标等，可通过Kafka处理和分析多个节点上的分布式消息，并通过Kafka-Connect实现生产者和消费者之间的数据传输；

批数据则是不要求实时处理，属于一种间歇性、周期性操作，常常需要对历史数据进行分析和处理，可通过定时任务进行获取，例如客户交易记录、客户信用评估、市场需求分析等。

基于所获取的流数据和批数据，通过标准化模块对不同的业务数据进行区别处理，其中，流数据通过流数据标准模块进行处理，批数据通过批数据标准模块进行处理，在流数据标准模块与批数据标准模块中均包括数据清洗模块，通过数据清洗模块可选择性对流数据或批数据进行归一、分流、去重、脏数据处理等处理，以确保流数据和批数据符合数据规范。

S2：在标准化模块中包括流数据标准化模块和批数据标准化模块，流数据与批数据的处理分别通过流数据标准模块和批数据标准模块对数据进行处理，

针对流数据的处理过程如下：

通过流数据标准模块使用Apache Flink流计算框架进行实时获取流数据，并调用数据清洗模块对流数据进行清洗，生成标准流数据，以使数据能够在第一时间内得到处理和分析，并将标准流数据保存到实时数据存储层，供后续的查询和更新使用。

针对批数据的处理过程如下：调用数据清洗模块对流数据进行清洗，生成标准批数据，通过Apache Spark大数据处理框架将标准批数据更新到Apache Hudi中，以供流数据使用。

数据清洗时，通过流数据标准模块和批数据标准模块分别对所获取的流数据和批数据进行数据清洗，其中，数据清洗包括如下步骤，在数据清洗时，根据所获取的流数据和批数据的实际需要，对流数据和批数据进行择一、或多个步骤的处理：

若数据为多方数据汇集形成，则通过数据合并模块合并两个或多个流数据和批数据；

针对获取的流数据和批数据，通过数据分流模块分别对流数据和批数据进行存储；

针对获取的流数据和批数据，可通过数据去重模块分别通过DISTINCT关键字、Hash技术判断流数据和批数据的重复情况，将重复的数据进行删除，确保流数据和批数据的唯一性；

对于不完整、空值或无效的流数据和批数据，可分别通过脏数据处理模块对流数据和批数据中的数据进行数据初始化，保留准确数据和完整数据，删除无效数据；

对数据类型不一致的流数据和批数据，通过数据类型格式化模块中的数据转换库，自动转换流数据和批数据的数据类型，得到标准流数据和标准批数据，数据转换库的转换如下：将输入数据中的日期字符串转换为日期型数据。

通过数据标准模块对流数据和批数据进行数据清洗，使得数据获取模块中的原始数据得到标准化加工，输出标准流数据和标准批数据，保证数据的质量和规范。

经过上述操作后，通过数据存储模块将标准流数据和标准批数据的处理结果持久化存储到Apache Hudi中，同时采用T+1方式将标准批数据保存至临时性的数据源中，在流数据的处理过程中，使用Spark批量更新临时数据源中的数据到Apache Hudi中，实现对数据存储模块内的数据进行增量更新和查询，从而提高对业务数据的处理效率和可靠性。

S3：对获取数据存储模块内的标准流数据和标准批数据进行数据建模，具体步骤如下：

数据退化：对标准流数据和保准批数据进行不变维度的退化，将原本作为维度的数据直接合并到主要事实表中；通过数据退化以减少数据冗余和存储空间的占用，提升查询效率。

核心字段提取：提取事实表中的关键字段，比如存款明细事实表中的产品代码、存款类型等重要信息，将其单独建立为维度表，并丰富其它相关信息，如产品描述、利率、期限等，从而提高数据的质量和精度。

通过数据建模，标准流数据生成实时数仓，标准批数据生成离线数仓，对数据存储模块内的数据进行提炼和精细化数据，通过关联实时数仓和离线数仓，以供后续的查询与使用，降低下游应用系统的数据加工压力，实现数据复用，减少数据重复加工带来的资源浪费，节约时间和成本；并且通过数据建模，使得数据可以进行更加准确的数据分析和预测，提高业务决策的精度和效果。

在数据建模后，使用Apache Flink流计算框架，将实时数仓与离线数仓关联，并将结果存储到数据整合模块中，通过Apache Flink自由调度联结实时数仓与离线数仓，对银行业务数据进行处理和管理，实现对数据的高效处理和实时分析，进一步提高数据湖的可用性和效率。

S4：根据业务需求和数据要求，在数据访问模块内对数据整合模块的数据进行聚合操作，如分组聚合、过滤聚合、节点嵌套聚合等。

通过数据聚合获取符合业务需求的子数据集，将子数据集进行多维度、多指标的计算；其中，多维度和多指标的计算(例如贷款数据)分别指：根据产品维度、地域维度、客户类型维度对数据进行观察和分析，并通过统计余额、逾期率、利润率等多个评估标准，对数据进行描述和衡量；再根据业务需求提供合适的统计指标计算方式，例如计算平均值、总和、最大值、最小值计算方式，以实现对聚合数据的深入分析，并保存计算出的结果，将数据以统一数据服务形式对外提供。

其中，统一数据服务为通过API接口对外实时数据服务，在对外服务过程中，结合网站和APP等平台，提供对银行业务数据的实时展示和分析，便于银行管理者和用户进行数据分析和决策制定。通过API接口的形式实现数据的快速交互，在数据的访问控制和权限管理方面做好保密性和安全性措施，通过数据交互，完成互联网银行海量数据的实时分析和预测的同时，可实现数据的访问控制和权限管理，确保数据的保密性和安全性。

总的来说，通过对所获取的数据进行数据清洗，并对标准流数据和标准批数据持久化存储，实现对数据存储模块内的数据进行增量更新和查询，从而提高数据的处理效率和可靠性；持久化流数据到数据存储模块中实现数据的实时处理和分析，同时利用数据整合模块对数据的数据建模以及数据的关联，使得在通过API对外提供统一服务时，得到更加准确的数据分析和预测，提高决策的精度和效果；通过上述方法所构建的数据湖，实现对数据的高利用率和高效率，并且通过所关联实时数据和离线数据对银行业务数据进行处理和管理，提高数据处理和数据实时分析的效率。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于流批一体的数据湖构建系统，其特征在于，包括：

数据获取模块，用于获取流数据和批数据；

2.根据权利要求1所述的一种基于流批一体的数据湖构建系统，其特征在于，

所述标准化模块包括：

流数据标准化模块：用于对实时获取的流数据进行数据清洗，生成标准流数据，将处理后的标准流数据保存到实时数据存储层；

3.根据权利要求1所述的一种基于流批一体的数据湖构建系统，其特征在于，

标准化模块还包括数据清洗模块，数据清洗模块包括以下子模块：

数据分流模块，用于分别存储流数据和批数据；

脏数据处理模块：用于对流数据和批数据进行数据初始化，保留准确数据和完整数据，删除无效数据；

4.根据权利要求1所述的一种基于流批一体的数据湖构建系统，其特征在于，

所述数据整合模块包括：

5.一种基于流批一体的数据湖构建方法，其特征在于，包括如下步骤：

获取流数据和批数据；

6.根据权利要求5所述的一种基于流批一体的数据湖构建方法，其特征在于，

将标准流数据和标准批数据持久化包括：

7.根据权利要求5所述的一种基于流批一体的数据湖构建方法，其特征在于，

所述数据清洗包括以下步骤：

数据归并，合并两个或多个数据源中的流数据和批数据；

数据分流，分别存储流数据和批数据

8.根据权利要求5所述的一种基于流批一体的数据湖构建方法，其特征在于，

所述数据建模包括：

9.一种基于流批一体的数据湖构建装置，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时实现权利要求5-8中任一项所述的方法。