CN117056308A - 一种基于OpenLineage数据库生成金融大数据血缘关系的方法 - Google Patents
一种基于OpenLineage数据库生成金融大数据血缘关系的方法 Download PDFInfo
- Publication number
- CN117056308A CN117056308A CN202311009721.4A CN202311009721A CN117056308A CN 117056308 A CN117056308 A CN 117056308A CN 202311009721 A CN202311009721 A CN 202311009721A CN 117056308 A CN117056308 A CN 117056308A
- Authority
- CN
- China
- Prior art keywords
- data
- openlinear
- blood
- steps
- following
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000008280 blood Substances 0.000 claims abstract description 53
- 210000004369 blood Anatomy 0.000 claims abstract description 53
- 238000013523 data management Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 16
- 238000012800 visualization Methods 0.000 claims description 14
- 238000013499 data model Methods 0.000 claims description 6
- 238000007726 management method Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 2
- 238000000844 transformation Methods 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于OpenLineage数据库生成金融大数据血缘关系的方法,包括S1):数据建模;S2):改造处理系统;S3):定义血缘表述;S4):存储元数据信息;S5):查询元数据;S6):可视化血缘关系;S7):血缘分析;S8):数据治理。本发明更直观的展现数据的来源和路径,可以清晰地了解数据之间的血缘关系,有助于更好地管理大数据系统;同时,血缘图谱还可以提供数据分析的依据,帮助用户发现潜在的问题并进行优化。
Description
技术领域
本发明属于数据管理领域,特别是涉及一种基于OpenLineage数据库生成金融大数据血缘关系的方法。
背景技术
数据管理是指对数据的收集、存储、处理、分析和保护等一系列活动进行管理和控制的过程。数据管理的目标是确保数据的准确性、可靠性、可用性和安全性,以便更好地支持组织的业务需求。
现有的数据管理模式只是将大量数据放入一个大集合中统一储存,但是无法清晰的了解各数据之间的来源和去向,无法直观的理解数据结构和背景信息,因此管理和保护比较繁琐。
发明内容
本发明主要解决的技术问题是无法清晰的了解各数据之间的来源和去向,无法直观的理解数据结构和背景信息,因此管理和保护比较繁琐。
为解决上述技术问题,本发明采用的一个技术方案是:
一种基于OpenLineage数据库生成金融大数据血缘关系的方法,包括以下步骤
S1):数据建模:对数据进行建模以确定每个数据表之间的关系;
S2):改造处理系统:配置数据库连接、元数据存储位置、目标表、血缘关系类型,将数据源连接到OpenLineage中,在Apache Flink和Kafka环境中配置OpenLineage SDK,并注册hooks以捕获所需的元数据;
所述的元数据包括数据库、文件系统、API;
S3):定义血缘表述:以json的格式为数据处理流程中涉及的每个任务定义数据血缘描述,包括输入数据源、处理过程和输出数据源;具有多级变换的处理过程,血缘描述需要在每个阶段中保留输入和输出数据源的引用;
S4):存储元数据信息:正确配置OpenLineage服务和数据库,存储OpenLineage数据血缘信息到元数据存储引擎,以跟踪数据的来源和变换过程;
S5):查询元数据:使用OpenLineage Query工具查询数据血缘信息并生成血缘视图;
S6):可视化血缘关系:使用OpenLineage提供的可视化工具,构建一个数据血缘关系图,以更直观的方式展现数据的来源和路径;
S7):血缘分析:使用OpenLineage进行数据血缘分析,包括输入和输出数据源以及处理过程,以确定数据的来源和去向;
S8):数据治理:建立数据治理规则和流程,以确保数据的准确性和可靠性;
所述治理规则和流程包括数据质量检查、数据备份和恢复。
进一步的,所述S1步骤中的数据建模包括以下步骤:
S1-1):确定业务需求:明确需要分析的数据内容、指标、维度和关系;
S1-2):识别业务过程:识别业务过程和事实,确定待建模的业务实体、活动和交互情况,确定事实表和维度表所需的数据元素;
S1-3):设计事实表:确定事实表的粒度,即每个事实表行对应的业务事件或交易的级别,选择适当的度量,并确定与其关联的维度;
S1-4):设计维度表:识别需要分析的维度元素,包括时间、地理位置、产品和客户及以上的基本属性,还包括层次结构、层级关系和衍生属性,每个维度都应具有一个唯一的主键,并包含用于描述和过滤的属性;
S1-5):建立事实表和维度表之间的关系:在事实表和维度表之间建立关联,使用外键关系;
S1-6):进行反复迭代和验证;
S1-7):实施物理数据模型:维度模型设计完成后,将其映射到物理数据模型,并根据目标数据库管理系统的要求,创建相应的表和索引结构;
S1-8):通过ETL加载数据:使用ETL工具将业务数据从源系统提取到数据仓库,并根据维度模型的结构进行转换和加载;
进一步的,所述S2步骤中需要在HDFS和Hive中部署OpenLineage服务,以捕获在数据处理过程中生成的数据血缘信息,包括以下步骤:
S2-1):调用OpenLineage服务器的URL,通过调用OpenLineage.OpenLineageClient方法初始化OpenLineage客户端;
S2-2):通过调用OpenLineage.sendJobMetadata方法发送作业的元数据;
S2-3):输入作业的实际名称和命名空间;
S2-4):待Flink作业在完成时调用OpenLineage.sendJobMetadata方法,发送作业的元数据到OpenLineage服务器。
进一步的,所述S3步骤包括以下步骤:
S3-1):调用OpenLineage服务器的URL;
S3-2):创建输入和输出数据集,并使用这些数据集创建输入和输出事件;
S3-3):创建作业,并将输入和输出事件添加到作业中;
S3-4):用作业和运行ID创建作业运行对象,通过调用client.serialize.jobRun方法,将作业运行对象序列化为JSON格式的数据血缘描述;
S3-5):通过调用client.sendAsync.jsonMetadata方法,将数据血缘描述发送到OpenLineage服务器。
进一步的,所述S4步骤中元数据存储引擎为PostgreSQL或MySQL或Oracle。
进一步的,所述S5步骤中OpenLineage Query工具支持SQL和PostgreSQL查询方式和语法,以便轻松地进行数据查询,在此视图下会清晰地展现数据血缘关系。
进一步的,所述S6步骤中可视化工具为dagre-d3.js或mxGraph或Graphiz。
进一步的,所述S7步骤中血缘分析包括以下步骤:
S7-1):选择需要分析的数据表或数据集;
S7-2):在OpenLineage中打开“血缘图”视图;
S7-3):点击数据表或数据集或字段,查看其血缘关系;
S7-4):根据血缘关系,追溯数据的来源和去向;
S7-5):根据分析结果,优化配置参数,提高血缘分析的准确性和效率。
进一步的,所述可视化为图表或者地图。
进一步的,所述OpenLineage需要根据使用的计算机语言的环境需求安装插件和扩展,所述的语言包括python、Java、Scala。
本发明的有益效果:
1.本发明基于OpenLineage定义了统一的数据结构来描述数据血缘,这使得不同的数据处理系统可以共享数据血缘信息。
2.本发明基于OpenLineage提供了一个可视化的血缘关系图,用户可以通过图表直观地了解数据的来源和去向。这使得用户可以更加方便地理解数据的结构和背景信息,更好地理解数据的生命周期和质量,从而更好地管理和保护数据。
3.本发明基于OpenLineage可以自动识别数据表之间的关系,并生成血缘关系图。这使得用户可以快速地进行数据血缘分析,而无需手动维护血缘关系表。
4.本发明基于OpenLineage可支持多种数据源,包括数据库、文件系统、API等。这使得用户可以方便地将不同类型的数据集成到同一个血缘分析系统中。
5.本发明的OpenLineage是基于Apache Spark开发的,支持多种语言包括Python、Java、Scala等,方便不同语言的用户使用,因此具有很好的可扩展性。用户可以根据自己的需求自定义插件和扩展,以满足不同的数据分析需求。
6.开源社区支持:OpenLineage是一个开源项目,由全球各地的开发者和用户共同维护和支持,保证了项目的长期发展和更新。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的生成金融大数据血缘关系步骤示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
具体实施例1:
如图1所示,一种基于OpenLineage数据库生成金融大数据血缘关系的方法,包括以下步骤:
S1):数据建模:通过手动或自动方式对数据进行建模以确定每个数据表之间的关系;
S2):改造处理系统:配置数据库连接、元数据存储位置、目标表、血缘关系类型,将数据源连接到OpenLineage(开源血缘)中,在Apache Flink(边界数据流有状态计算)和Kafka环境中配置OpenLineage SDK(Software Development Kit,软件开发工具包),并注册hooks(钩子)以捕获所需的元数据;
所述的元数据包括数据库、文件系统、API(Application ProgrammingInterface,应用程序接口);
S3):定义血缘表述:以json的格式为数据处理流程中涉及的每个任务定义数据血缘描述,包括输入数据源、处理过程和输出数据源,如果具有多级变换的处理过程,血缘描述需要在每个阶段中保留输入和输出数据源的引用;
S4):存储元数据信息:正确配置OpenLineage服务和数据库,存储OpenLineage数据血缘信息到元数据存储引擎,以跟踪数据的来源和变换过程;
S5):查询元数据:使用OpenLineage Query(查询)工具查询数据血缘信息并生成血缘视图;
S6):可视化血缘关系:使用OpenLineage提供的可视化工具,构建一个数据血缘关系图,以更直观的方式展现数据的来源和路径;
S7):血缘分析:使用OpenLineage进行数据血缘分析,包括输入和输出数据源以及处理过程,以确定数据的来源和去向;
S8):数据治理:建立数据治理规则和流程,以确保数据的准确性和可靠性;
所述治理规则和流程包括数据质量检查、数据备份和恢复。
具体的,所述S1步骤中的建模包括以下步骤:
S1-1):确定业务需求:明确需要分析的数据内容、指标、维度和关系;
S1-2):识别业务过程:识别业务过程和事实,确定待建模的业务实体、活动和交互情况,确定事实表和维度表所需的数据元素,理解业务过程是维度建模的关键,这有助于确定事实表和维度表所需的数据元素;
S1-3):设计事实表:确定事实表的粒度,即每个事实表行对应的业务事件或交易的级别,选择适当的度量,并确定与其关联的维度,所述事实表用于存储数值型度量和指标;
S1-4):设计维度表:识别需要分析的维度元素,包括时间、地理位置、产品和客户及以上的基本属性,还包括层次结构、层级关系和衍生属性,每个维度都应具有一个唯一的主键,并包含用于描述和过滤的属性,这些属性可以提供更多的上下文和分析功能,增强维度表的灵活性和可用性。所述维度表用于存储描述性文本数据,以提供事实表中度量的上下文;
S1-5):建立事实表和维度表之间的关系:在事实表和维度表之间建立关联,使用外键关系。将事实表与适当的维度表关联,以便能够通过维度属性对事实进行切片和分析。
S1-6):进行反复迭代和验证,与业务用户和技术团队紧密合作,获取反馈并进行调整和改进。确保维度模型能够准确地反映业务需求,并满足分析和查询的要求
S1-7):实施物理数据模型:维度模型设计完成后,将其映射到物理数据模型,并根据目标数据库管理系统的要求,创建相应的表和索引结构,优化性能和查询速度
S1-8):通过ETL加载数据:使用ETL(Extract-Transform-Load,提取、转换、加载)工具将业务数据从源系统提取到数据仓库,并根据维度模型的结构进行转换和加载。确保数据的准确性和一致性,并保持维度模型的更新;
S1-9):进行数据分析和查询:一旦数据加载到维度模型中,可以开始执行数据分析和查询操作。通过使用OLAP(on-linetransactionprocessing,联机分析处理)工具或SQL(Structured Query Language,数据库语言)查询,对事实表和维度表进行切片、钻取、过滤和聚合操作,以满足业务用户的需求。
具体的,S1步骤参考代码如下:
具体的,所述S2步骤中需要在HDFS(Hadoop Distributed File System,分布式文件系统)和Hive(数据仓库工具)中部署OpenLineage服务,以捕获在数据处理过程中生成的数据血缘信息,包括以下步骤:
S2-1):将<OpenLineage_server_url>替换为OpenLineage服务器的URL(UniformResource Locator,统一资源定位符),通过调用OpenLineage.OpenLineageClient方法初始化OpenLineage客户端;
S2-2):通过调用OpenLineage.sendJobMetadata方法发送作业的元数据;
S2-3):将<job_name>和<job_namespace>替换为你的作业的实际名称和命名空间;
S2-4):待Flink作业在完成时调用OpenLineage.sendJobMetadata方法,发送作业的元数据到OpenLineage服务器。
具体的,S2步骤参考代码如下:
具体的,所述S3步骤包括以下步骤:
S3-1):将<OpenLineage_server_url>替换为OpenLineage服务器的URL;
S3-2):创建输入和输出数据集,并使用这些数据集创建输入和输出事件;
S3-3):创建作业,并将输入和输出事件添加到作业中;
S3-4):用作业和运行ID(identity,身份)创建作业运行对象,通过调用client.serialize.jobRun方法,将作业运行对象序列化为json格式的数据血缘描述;
S3-5):通过调用client.sendAsync.jsonMetadata方法,将数据血缘描述发送到OpenLineage服务器。
具体的,所述S4步骤中元数据存储引擎为PostgreSQL(数据库)或MySQL(关系型数据库管理系统)或Oracle(甲骨文)。
具体的,所述S5步骤中OpenLineage Query工具支持SQL(Structured QueryLanguage,结构化查询语言)和PostgreSQL查询方式和语法,以便轻松地进行数据查询,在此视图下会清晰地展现数据血缘关系。
具体的,所述S6步骤中可视化工具为dagre-d3.js(流程图工具)或mxGraph(可视化工具)或Graphiz(可视化工具)。
具体的,所述S7步骤中血缘分析包括以下步骤:
S7-1):选择需要分析的数据表或数据集;
S7-2):在OpenLineage中打开“血缘图”视图;
S7-3):点击数据表或数据集或字段,查看其血缘关系;
S7-4):根据血缘关系,追溯数据的来源和去向;
S7-5):根据分析结果,优化配置参数,提高血缘分析的准确性和效率。
具体的,所述可视化为图表或者地图。
具体的,所述OpenLineage需要根据使用的计算机语言的环境需求安装插件和扩展,所述的编程语言包括python、Java、Scala。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于OpenLineage数据库生成金融大数据血缘关系的方法,其特征在于:包括以下步骤
S1):数据建模:对数据进行建模以确定每个数据表之间的关系;
S2):改造处理系统:配置数据库连接、元数据存储位置、目标表、血缘关系类型,将数据源连接到OpenLineage中,在Apache Flink和Kafka环境中配置OpenLineage SDK,并注册hooks以捕获所需的元数据;
所述的元数据包括数据库、文件系统、API;
S3):定义血缘表述:以json的格式为数据处理流程中涉及的每个任务定义数据血缘描述,包括输入数据源、处理过程和输出数据源;具有多级变换的处理过程,血缘描述需要在每个阶段中保留输入和输出数据源的引用;
S4):存储元数据信息:正确配置OpenLineage服务和数据库,存储OpenLineage数据血缘信息到元数据存储引擎,以跟踪数据的来源和变换过程;
S5):查询元数据:使用OpenLineage Query工具查询数据血缘信息并生成血缘视图;
S6):可视化血缘关系:使用OpenLineage提供的可视化工具,构建一个数据血缘关系图,以更直观的方式展现数据的来源和路径;
S7):血缘分析:使用OpenLineage进行数据血缘分析,包括输入和输出数据源以及处理过程,以确定数据的来源和去向;
S8):数据治理:建立数据治理规则和流程,以确保数据的准确性和可靠性;
所述治理规则和流程包括数据质量检查、数据备份和恢复。
2.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法,其特征在于:所述S1步骤中的数据建模包括以下步骤:
S1-1):确定业务需求:明确需要分析的数据内容、指标、维度和关系;
S1-2):识别业务过程:识别业务过程和事实,确定待建模的业务实体、活动和交互情况,确定事实表和维度表所需的数据元素;
S1-3):设计事实表:确定事实表的粒度,即每个事实表行对应的业务事件或交易的级别,选择适当的度量,并确定与其关联的维度;
S1-4):设计维度表:识别需要分析的维度元素,包括时间、地理位置、产品和客户及以上的基本属性,还包括层次结构、层级关系和衍生属性,每个维度都应具有一个唯一的主键,并包含用于描述和过滤的属性;
S1-5):建立事实表和维度表之间的关系:在事实表和维度表之间建立关联,使用外键关系;
S1-6):进行反复迭代和验证;
S1-7):实施物理数据模型:维度模型设计完成后,将其映射到物理数据模型,并根据目标数据库管理系统的要求,创建相应的表和索引结构;
S1-8):通过ETL加载数据:使用ETL工具将业务数据从源系统提取到数据仓库,并根据维度模型的结构进行转换和加载。
3.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法,其特征在于:所述S2步骤中需要在HDFS和Hive中部署OpenLineage服务,以捕获在数据处理过程中生成的数据血缘信息,包括以下步骤:
S2-1):调用OpenLineage服务器的URL,通过调用OpenLineage.OpenLineageClient方法初始化OpenLineage客户端;
S2-2):通过调用OpenLineage.sendJobMetadata方法发送作业的元数据;
S2-3):输入作业的实际名称和命名空间;
S2-4):待Flink作业在完成时调用OpenLineage.sendJobMetadata方法,发送作业的元数据到OpenLineage服务器。
4.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法,其特征在于:所述S3步骤包括以下步骤:
S3-1):调用OpenLineage服务器的URL;
S3-2):创建输入和输出数据集,并使用这些数据集创建输入和输出事件;
S3-3):创建作业,并将输入和输出事件添加到作业中;
S3-4):用作业和运行ID创建作业运行对象,通过调用client.serialize.jobRun方法,将作业运行对象序列化为JSON格式的数据血缘描述;
S3-5):通过调用client.sendAsync.jsonMetadata方法,将数据血缘描述发送到OpenLineage服务器。
5.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法,其特征在于:所述S4步骤中元数据存储引擎为PostgreSQL或MySQL或Oracle。
6.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法,其特征在于:所述S5步骤中OpenLineage Query工具支持SQL和PostgreSQL查询方式和语法,以便轻松地进行数据查询,在此视图下会清晰地展现数据血缘关系。
7.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法,其特征在于:所述S6步骤中可视化工具为dagre-d3.js或mxGraph或Graphiz。
8.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法,其特征在于:所述S7步骤中血缘分析包括以下步骤:
S7-1):选择需要分析的数据表或数据集;
S7-2):在OpenLineage中打开“血缘图”视图;
S7-3):点击数据表或数据集或字段,查看其血缘关系;
S7-4):根据血缘关系,追溯数据的来源和去向;
S7-5):根据分析结果,优化配置参数,提高血缘分析的准确性和效率。
9.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法,其特征在于:所述可视化为图表或者地图。
10.根据权利要求1所述的一种基于OpenLineage数据库生成金融大数据血缘关系的方法,其特征在于:所述OpenLineage需要根据使用的计算机语言的环境需求安装插件和扩展,所述的语言包括python、Java、Scala。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311009721.4A CN117056308A (zh) | 2023-08-11 | 2023-08-11 | 一种基于OpenLineage数据库生成金融大数据血缘关系的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311009721.4A CN117056308A (zh) | 2023-08-11 | 2023-08-11 | 一种基于OpenLineage数据库生成金融大数据血缘关系的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117056308A true CN117056308A (zh) | 2023-11-14 |
Family
ID=88667181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311009721.4A Pending CN117056308A (zh) | 2023-08-11 | 2023-08-11 | 一种基于OpenLineage数据库生成金融大数据血缘关系的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117056308A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648388A (zh) * | 2024-01-29 | 2024-03-05 | 成都七柱智慧科技有限公司 | 一种可视化的安全实时的数据仓库实现方法及其系统 |
CN117931898B (zh) * | 2024-03-25 | 2024-06-07 | 成都同步新创科技股份有限公司 | 一种基于大模型的多维数据库统计分析方法 |
CN118467175A (zh) * | 2024-07-09 | 2024-08-09 | 北京枫清科技有限公司 | 一种数据血缘分析系统及分析方法 |
CN118503247A (zh) * | 2024-07-17 | 2024-08-16 | 山东浪潮智能生产技术有限公司 | 一种离散制造业数据血缘分析方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010037228A1 (en) * | 2000-05-05 | 2001-11-01 | Iaf Consulting, Inc. | System and method for using metadata to flexibly analyze data |
CN109582660A (zh) * | 2018-12-06 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 数据血缘分析方法、装置、设备、系统及可读存储介质 |
CN111694858A (zh) * | 2020-04-28 | 2020-09-22 | 平安科技(深圳)有限公司 | 数据血缘分析方法、装置、设备及计算机可读存储介质 |
CN114036130A (zh) * | 2021-11-09 | 2022-02-11 | 中国建设银行股份有限公司 | 一种元数据分析处理方法及装置 |
WO2022143045A1 (zh) * | 2020-12-30 | 2022-07-07 | 中兴通讯股份有限公司 | 数据血缘关系的确定方法及装置、存储介质、电子装置 |
-
2023
- 2023-08-11 CN CN202311009721.4A patent/CN117056308A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010037228A1 (en) * | 2000-05-05 | 2001-11-01 | Iaf Consulting, Inc. | System and method for using metadata to flexibly analyze data |
CN109582660A (zh) * | 2018-12-06 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 数据血缘分析方法、装置、设备、系统及可读存储介质 |
CN111694858A (zh) * | 2020-04-28 | 2020-09-22 | 平安科技(深圳)有限公司 | 数据血缘分析方法、装置、设备及计算机可读存储介质 |
WO2022143045A1 (zh) * | 2020-12-30 | 2022-07-07 | 中兴通讯股份有限公司 | 数据血缘关系的确定方法及装置、存储介质、电子装置 |
CN114036130A (zh) * | 2021-11-09 | 2022-02-11 | 中国建设银行股份有限公司 | 一种元数据分析处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
合肥北大青鸟: "10分钟搞懂 Data Fabric 和 Data Mesh的区别!", pages 1 - 14, Retrieved from the Internet <URL:《https://baijiahao.baidu.com/s?id=1757860627167314601&wfr=spider&for=pc》> * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648388A (zh) * | 2024-01-29 | 2024-03-05 | 成都七柱智慧科技有限公司 | 一种可视化的安全实时的数据仓库实现方法及其系统 |
CN117648388B (zh) * | 2024-01-29 | 2024-04-12 | 成都七柱智慧科技有限公司 | 一种可视化的安全实时的数据仓库实现方法及其系统 |
CN117931898B (zh) * | 2024-03-25 | 2024-06-07 | 成都同步新创科技股份有限公司 | 一种基于大模型的多维数据库统计分析方法 |
CN118467175A (zh) * | 2024-07-09 | 2024-08-09 | 北京枫清科技有限公司 | 一种数据血缘分析系统及分析方法 |
CN118503247A (zh) * | 2024-07-17 | 2024-08-16 | 山东浪潮智能生产技术有限公司 | 一种离散制造业数据血缘分析方法及系统 |
CN118503247B (zh) * | 2024-07-17 | 2024-09-27 | 山东浪潮智能生产技术有限公司 | 一种离散制造业数据血缘分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
González López de Murillas et al. | Connecting databases with process mining: a meta model and toolset | |
US20200125530A1 (en) | Data management platform using metadata repository | |
CN117056308A (zh) | 一种基于OpenLineage数据库生成金融大数据血缘关系的方法 | |
EP2577507B1 (en) | Data mart automation | |
CN111444256A (zh) | 一种数据可视化的实现方法和装置 | |
US9165049B2 (en) | Translating business scenario definitions into corresponding database artifacts | |
Yulianto | Extract transform load (ETL) process in distributed database academic data warehouse | |
US11269867B2 (en) | Generating data retrieval queries using a knowledge graph | |
CN111125068A (zh) | 一种元数据治理方法和系统 | |
US10459987B2 (en) | Data virtualization for workflows | |
US9727550B2 (en) | Presenting a selected table of data as a spreadsheet and transforming the data using a data flow graph | |
US9824081B2 (en) | Manipulating spreadsheet data using a data flow graph | |
US11615061B1 (en) | Evaluating workload for database migration recommendations | |
Petermann et al. | Graph mining for complex data analytics | |
Fana et al. | Data Warehouse Design With ETL Method (Extract, Transform, And Load) for Company Information Centre | |
US10002120B2 (en) | Computer implemented systems and methods for data usage monitoring | |
CN112231380A (zh) | 采集数据的综合处理方法、系统、存储介质及电子设备 | |
Kassem et al. | Matching of business data in a generic business process warehousing | |
US11308115B2 (en) | Method and system for persisting data | |
US10552455B2 (en) | Analytics enablement for engineering records | |
Madhikerrni et al. | Data discovery method for Extract-Transform-Load | |
Ahmed et al. | Generating data warehouse schema | |
CN111399838A (zh) | 一种基于SparkSQL和物化视图的数据建模方法及装置 | |
CN113946632A (zh) | 一种敏捷数据仓库架构及其构建方法和应用 | |
Silva et al. | Enhancing Organizational Data Integrity and Efficiency through Effective Data Lineage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |