CN117056308A

CN117056308A - 一种基于OpenLineage数据库生成金融大数据血缘关系的方法

Info

Publication number: CN117056308A
Application number: CN202311009721.4A
Authority: CN
Inventors: 陆皓; 秦婷婷
Original assignee: Su Yin Kaiji Consumer Finance Co ltd
Current assignee: Su Yin Kaiji Consumer Finance Co ltd
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-11-14

Abstract

本发明公开了一种基于OpenLineage数据库生成金融大数据血缘关系的方法，包括S1)：数据建模；S2)：改造处理系统；S3)：定义血缘表述；S4)：存储元数据信息；S5)：查询元数据；S6)：可视化血缘关系；S7)：血缘分析；S8)：数据治理。本发明更直观的展现数据的来源和路径，可以清晰地了解数据之间的血缘关系，有助于更好地管理大数据系统；同时，血缘图谱还可以提供数据分析的依据，帮助用户发现潜在的问题并进行优化。

Description

一种基于OpenLineage数据库生成金融大数据血缘关系的方法

技术领域

本发明属于数据管理领域，特别是涉及一种基于OpenLineage数据库生成金融大数据血缘关系的方法。

背景技术

数据管理是指对数据的收集、存储、处理、分析和保护等一系列活动进行管理和控制的过程。数据管理的目标是确保数据的准确性、可靠性、可用性和安全性，以便更好地支持组织的业务需求。

现有的数据管理模式只是将大量数据放入一个大集合中统一储存，但是无法清晰的了解各数据之间的来源和去向，无法直观的理解数据结构和背景信息，因此管理和保护比较繁琐。

发明内容

本发明主要解决的技术问题是无法清晰的了解各数据之间的来源和去向，无法直观的理解数据结构和背景信息，因此管理和保护比较繁琐。

为解决上述技术问题，本发明采用的一个技术方案是：

一种基于OpenLineage数据库生成金融大数据血缘关系的方法，包括以下步骤

S1)：数据建模：对数据进行建模以确定每个数据表之间的关系；

S2)：改造处理系统：配置数据库连接、元数据存储位置、目标表、血缘关系类型，将数据源连接到OpenLineage中，在Apache Flink和Kafka环境中配置OpenLineage SDK，并注册hooks以捕获所需的元数据；

所述的元数据包括数据库、文件系统、API；

S3)：定义血缘表述：以json的格式为数据处理流程中涉及的每个任务定义数据血缘描述，包括输入数据源、处理过程和输出数据源；具有多级变换的处理过程，血缘描述需要在每个阶段中保留输入和输出数据源的引用；

S4)：存储元数据信息：正确配置OpenLineage服务和数据库，存储OpenLineage数据血缘信息到元数据存储引擎，以跟踪数据的来源和变换过程；

S5)：查询元数据：使用OpenLineage Query工具查询数据血缘信息并生成血缘视图；

S6)：可视化血缘关系：使用OpenLineage提供的可视化工具，构建一个数据血缘关系图，以更直观的方式展现数据的来源和路径；

S7)：血缘分析：使用OpenLineage进行数据血缘分析，包括输入和输出数据源以及处理过程，以确定数据的来源和去向；

S8)：数据治理：建立数据治理规则和流程，以确保数据的准确性和可靠性；

所述治理规则和流程包括数据质量检查、数据备份和恢复。

进一步的，所述S1步骤中的数据建模包括以下步骤：

S1-1)：确定业务需求：明确需要分析的数据内容、指标、维度和关系；

S1-2)：识别业务过程：识别业务过程和事实，确定待建模的业务实体、活动和交互情况，确定事实表和维度表所需的数据元素；

S1-3)：设计事实表：确定事实表的粒度，即每个事实表行对应的业务事件或交易的级别，选择适当的度量，并确定与其关联的维度；

S1-4)：设计维度表：识别需要分析的维度元素，包括时间、地理位置、产品和客户及以上的基本属性，还包括层次结构、层级关系和衍生属性，每个维度都应具有一个唯一的主键，并包含用于描述和过滤的属性；

S1-5)：建立事实表和维度表之间的关系：在事实表和维度表之间建立关联，使用外键关系；

S1-6)：进行反复迭代和验证；

S1-7)：实施物理数据模型：维度模型设计完成后，将其映射到物理数据模型，并根据目标数据库管理系统的要求，创建相应的表和索引结构；

S1-8)：通过ETL加载数据：使用ETL工具将业务数据从源系统提取到数据仓库，并根据维度模型的结构进行转换和加载；

进一步的，所述S2步骤中需要在HDFS和Hive中部署OpenLineage服务，以捕获在数据处理过程中生成的数据血缘信息，包括以下步骤：

S2-1)：调用OpenLineage服务器的URL，通过调用OpenLineage.OpenLineageClient方法初始化OpenLineage客户端；

S2-2)：通过调用OpenLineage.sendJobMetadata方法发送作业的元数据；

S2-3)：输入作业的实际名称和命名空间；

S2-4)：待Flink作业在完成时调用OpenLineage.sendJobMetadata方法，发送作业的元数据到OpenLineage服务器。

进一步的，所述S3步骤包括以下步骤：

S3-1)：调用OpenLineage服务器的URL；

S3-2)：创建输入和输出数据集，并使用这些数据集创建输入和输出事件；

S3-3)：创建作业，并将输入和输出事件添加到作业中；

S3-4)：用作业和运行ID创建作业运行对象，通过调用client.serialize.jobRun方法，将作业运行对象序列化为JSON格式的数据血缘描述；

S3-5)：通过调用client.sendAsync.jsonMetadata方法，将数据血缘描述发送到OpenLineage服务器。

进一步的，所述S4步骤中元数据存储引擎为PostgreSQL或MySQL或Oracle。

进一步的，所述S5步骤中OpenLineage Query工具支持SQL和PostgreSQL查询方式和语法，以便轻松地进行数据查询，在此视图下会清晰地展现数据血缘关系。

进一步的，所述S6步骤中可视化工具为dagre-d3.js或mxGraph或Graphiz。

进一步的，所述S7步骤中血缘分析包括以下步骤：

S7-1)：选择需要分析的数据表或数据集；

S7-2)：在OpenLineage中打开“血缘图”视图；

S7-3)：点击数据表或数据集或字段，查看其血缘关系；

S7-4)：根据血缘关系，追溯数据的来源和去向；

S7-5)：根据分析结果，优化配置参数，提高血缘分析的准确性和效率。

进一步的，所述可视化为图表或者地图。

进一步的，所述OpenLineage需要根据使用的计算机语言的环境需求安装插件和扩展，所述的语言包括python、Java、Scala。

本发明的有益效果：

1.本发明基于OpenLineage定义了统一的数据结构来描述数据血缘，这使得不同的数据处理系统可以共享数据血缘信息。

2.本发明基于OpenLineage提供了一个可视化的血缘关系图，用户可以通过图表直观地了解数据的来源和去向。这使得用户可以更加方便地理解数据的结构和背景信息，更好地理解数据的生命周期和质量，从而更好地管理和保护数据。

3.本发明基于OpenLineage可以自动识别数据表之间的关系，并生成血缘关系图。这使得用户可以快速地进行数据血缘分析，而无需手动维护血缘关系表。

4.本发明基于OpenLineage可支持多种数据源，包括数据库、文件系统、API等。这使得用户可以方便地将不同类型的数据集成到同一个血缘分析系统中。

5.本发明的OpenLineage是基于Apache Spark开发的，支持多种语言包括Python、Java、Scala等，方便不同语言的用户使用，因此具有很好的可扩展性。用户可以根据自己的需求自定义插件和扩展，以满足不同的数据分析需求。

6.开源社区支持：OpenLineage是一个开源项目，由全球各地的开发者和用户共同维护和支持，保证了项目的长期发展和更新。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的生成金融大数据血缘关系步骤示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

具体实施例1：

如图1所示，一种基于OpenLineage数据库生成金融大数据血缘关系的方法，包括以下步骤：

S1)：数据建模：通过手动或自动方式对数据进行建模以确定每个数据表之间的关系；

S2)：改造处理系统：配置数据库连接、元数据存储位置、目标表、血缘关系类型，将数据源连接到OpenLineage(开源血缘)中，在Apache Flink(边界数据流有状态计算)和Kafka环境中配置OpenLineage SDK(Software Development Kit，软件开发工具包)，并注册hooks(钩子)以捕获所需的元数据；

所述的元数据包括数据库、文件系统、API(Application ProgrammingInterface，应用程序接口)；

S3)：定义血缘表述：以json的格式为数据处理流程中涉及的每个任务定义数据血缘描述，包括输入数据源、处理过程和输出数据源，如果具有多级变换的处理过程，血缘描述需要在每个阶段中保留输入和输出数据源的引用；

S5)：查询元数据：使用OpenLineage Query(查询)工具查询数据血缘信息并生成血缘视图；

所述治理规则和流程包括数据质量检查、数据备份和恢复。

具体的，所述S1步骤中的建模包括以下步骤：

S1-2)：识别业务过程：识别业务过程和事实，确定待建模的业务实体、活动和交互情况，确定事实表和维度表所需的数据元素，理解业务过程是维度建模的关键，这有助于确定事实表和维度表所需的数据元素；

S1-3)：设计事实表：确定事实表的粒度，即每个事实表行对应的业务事件或交易的级别，选择适当的度量，并确定与其关联的维度，所述事实表用于存储数值型度量和指标；

S1-4)：设计维度表：识别需要分析的维度元素，包括时间、地理位置、产品和客户及以上的基本属性，还包括层次结构、层级关系和衍生属性，每个维度都应具有一个唯一的主键，并包含用于描述和过滤的属性，这些属性可以提供更多的上下文和分析功能，增强维度表的灵活性和可用性。所述维度表用于存储描述性文本数据，以提供事实表中度量的上下文；

S1-5)：建立事实表和维度表之间的关系：在事实表和维度表之间建立关联，使用外键关系。将事实表与适当的维度表关联，以便能够通过维度属性对事实进行切片和分析。

S1-6)：进行反复迭代和验证，与业务用户和技术团队紧密合作，获取反馈并进行调整和改进。确保维度模型能够准确地反映业务需求，并满足分析和查询的要求

S1-7)：实施物理数据模型：维度模型设计完成后，将其映射到物理数据模型，并根据目标数据库管理系统的要求，创建相应的表和索引结构，优化性能和查询速度

S1-8)：通过ETL加载数据：使用ETL(Extract-Transform-Load，提取、转换、加载)工具将业务数据从源系统提取到数据仓库，并根据维度模型的结构进行转换和加载。确保数据的准确性和一致性，并保持维度模型的更新；

S1-9)：进行数据分析和查询：一旦数据加载到维度模型中，可以开始执行数据分析和查询操作。通过使用OLAP(on-linetransactionprocessing，联机分析处理)工具或SQL(Structured Query Language，数据库语言)查询，对事实表和维度表进行切片、钻取、过滤和聚合操作，以满足业务用户的需求。

具体的，S1步骤参考代码如下：

具体的，所述S2步骤中需要在HDFS(Hadoop Distributed File System，分布式文件系统)和Hive(数据仓库工具)中部署OpenLineage服务，以捕获在数据处理过程中生成的数据血缘信息，包括以下步骤：

S2-1)：将<OpenLineage_server_url>替换为OpenLineage服务器的URL(UniformResource Locator，统一资源定位符)，通过调用OpenLineage.OpenLineageClient方法初始化OpenLineage客户端；

S2-3)：将<job_name>和<job_namespace>替换为你的作业的实际名称和命名空间；

具体的，S2步骤参考代码如下：

具体的，所述S3步骤包括以下步骤：

S3-1)：将<OpenLineage_server_url>替换为OpenLineage服务器的URL；

S3-3)：创建作业，并将输入和输出事件添加到作业中；

S3-4)：用作业和运行ID(identity，身份)创建作业运行对象，通过调用client.serialize.jobRun方法，将作业运行对象序列化为json格式的数据血缘描述；

具体的，所述S4步骤中元数据存储引擎为PostgreSQL(数据库)或MySQL(关系型数据库管理系统)或Oracle(甲骨文)。

具体的，所述S5步骤中OpenLineage Query工具支持SQL(Structured QueryLanguage，结构化查询语言)和PostgreSQL查询方式和语法，以便轻松地进行数据查询，在此视图下会清晰地展现数据血缘关系。

具体的，所述S6步骤中可视化工具为dagre-d3.js(流程图工具)或mxGraph(可视化工具)或Graphiz(可视化工具)。

具体的，所述S7步骤中血缘分析包括以下步骤：

S7-1)：选择需要分析的数据表或数据集；

S7-2)：在OpenLineage中打开“血缘图”视图；

S7-3)：点击数据表或数据集或字段，查看其血缘关系；

S7-4)：根据血缘关系，追溯数据的来源和去向；

具体的，所述可视化为图表或者地图。

具体的，所述OpenLineage需要根据使用的计算机语言的环境需求安装插件和扩展，所述的编程语言包括python、Java、Scala。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于OpenLineage数据库生成金融大数据血缘关系的方法，其特征在于：包括以下步骤

所述的元数据包括数据库、文件系统、API；

所述治理规则和流程包括数据质量检查、数据备份和恢复。

2.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法，其特征在于：所述S1步骤中的数据建模包括以下步骤：

S1-6)：进行反复迭代和验证；

S1-8)：通过ETL加载数据：使用ETL工具将业务数据从源系统提取到数据仓库，并根据维度模型的结构进行转换和加载。

3.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法，其特征在于：所述S2步骤中需要在HDFS和Hive中部署OpenLineage服务，以捕获在数据处理过程中生成的数据血缘信息，包括以下步骤：

S2-3)：输入作业的实际名称和命名空间；

4.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法，其特征在于：所述S3步骤包括以下步骤：

S3-1)：调用OpenLineage服务器的URL；

S3-3)：创建作业，并将输入和输出事件添加到作业中；

5.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法，其特征在于：所述S4步骤中元数据存储引擎为PostgreSQL或MySQL或Oracle。

6.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法，其特征在于：所述S5步骤中OpenLineage Query工具支持SQL和PostgreSQL查询方式和语法，以便轻松地进行数据查询，在此视图下会清晰地展现数据血缘关系。

7.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法，其特征在于：所述S6步骤中可视化工具为dagre-d3.js或mxGraph或Graphiz。

8.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法，其特征在于：所述S7步骤中血缘分析包括以下步骤：

S7-1)：选择需要分析的数据表或数据集；

S7-2)：在OpenLineage中打开“血缘图”视图；

S7-3)：点击数据表或数据集或字段，查看其血缘关系；

S7-4)：根据血缘关系，追溯数据的来源和去向；

9.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法，其特征在于：所述可视化为图表或者地图。

10.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法，其特征在于：所述OpenLineage需要根据使用的计算机语言的环境需求安装插件和扩展，所述的语言包括python、Java、Scala。