CN111694858A - 数据血缘分析方法、装置、设备及计算机可读存储介质 - Google Patents

数据血缘分析方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111694858A
CN111694858A CN202010350107.4A CN202010350107A CN111694858A CN 111694858 A CN111694858 A CN 111694858A CN 202010350107 A CN202010350107 A CN 202010350107A CN 111694858 A CN111694858 A CN 111694858A
Authority
CN
China
Prior art keywords
data
entity object
blood relationship
service
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010350107.4A
Other languages
English (en)
Inventor
黄祥铮
李钊
万书武
李均
赵素群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010350107.4A priority Critical patent/CN111694858A/zh
Publication of CN111694858A publication Critical patent/CN111694858A/zh
Priority to PCT/CN2020/118135 priority patent/WO2021218021A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据技术领域,公开了一种数据血缘分析方法、装置、设备及计算机可读存储介质,用于满足生产实践中对不同类型数据库的数据血缘分析需求。该方法包括:获取当前在大数据平台上执行的结构化查询语言SQL语句的输入表、输出表,以及输入表和输出表之间的血缘关系;将输入表和输出表分别转化为预设类型系统下的实体对象,将实体对象存储至预设的图形数据库中;根据血缘关系,在图形数据库中构建实体对象之间的血缘关系图谱;接收数据接入平台发送的业务源表与大数据表之间的映射关系;根据映射关系,在血缘关系图谱中确定待添加祖先节点的目标实体对象节点;为目标实体对象节点添加对应的祖先节点,得到目标血缘关系图谱。

Description

数据血缘分析方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及知识关系分析技术领域,尤其涉及数据血缘分析方法、装置、设备及计算机可读存储介质。
背景技术
随着互联网技术的飞速发展,每天都会产生海量的业务数据,面对日益增长的海量数据,对数据的治理愈发成为各大公司的重要关注点,尤其在大数据走进各大公司日常经营分析决策系统的当下,当某些数据发生变化的时候,如何准确回溯数据的源头以及如何进行数据影响分析,成为了一个重要课题。
血缘分析是数据治理领域一种较为普遍的手段,血缘分析通过对数据处理过程的全面追踪,找到某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系,能够实现数据融合处理的可追溯。关于数据血缘治理,目前市面上有基于关系型数据库的,或者基于大数据平台的数据血缘分析工具,这些分析工具仅能够对单一类型数据库中的数据进行血缘分析,无法满足生产实践中对不同类型数据库的数据血缘分析需求。
发明内容
本发明的主要目的在于提出一种数据血缘分析方法、装置、设备及计算机可读存储介质,旨在满足生产实践中对不同类型数据库的数据血缘分析需求。
本发明第一方面提供了一种数据血缘分析方法,所述数据血缘分析方法包括如下步骤:
获取当前在大数据平台上执行的结构化查询语言SQL语句的输入表、输出表,以及所述输入表和所述输出表之间的血缘关系;
将所述输入表和所述输出表分别转化为预设类型系统下的实体对象,将所述实体对象存储至预设的图形数据库中;
根据所述血缘关系,在所述图形数据库中构建所述实体对象之间的血缘关系图谱;
接收数据接入平台发送的业务源表与大数据表之间的映射关系,其中,所述数据接入平台用于从关系型业务数据库的业务源表抽取业务数据转存至大数据平台的大数据表,并在抽取业务数据的过程中,记录所述业务源表与所述大数据表之间的映射关系;
根据所述映射关系,在所述血缘关系图谱中确定待添加祖先节点的目标实体对象节点;
为所述目标实体对象节点添加对应的祖先节点,得到目标血缘关系图谱,其中,所述祖先节点用于表示由所述目标实体对象的业务源表转化得到的实体对象。
可选的,在本发明第一方面的第一种实现方式中,所述获取当前在大数据平台上执行的结构化查询语言SQL语句的输入表、输出表,以及所述输入表和所述输出表之间的血缘关系的步骤包括:
通过预设的钩子程序,监听当前在大数据平台上执行的结构化查询语言SQL语句;
通过预设的语法解析器和词法解析器,对监听到的所述SQL语句进行解析,得到所述SQL语句的输入表、输出表,以及所述输入表和所述输出表之间的血缘关系。
可选的,在本发明第一方面的第二种实现方式中,所述根据所述血缘关系,在所述图形数据库中构建所述实体对象之间的血缘关系图谱的步骤包括:
调用预设的图处理引擎,通过所述图处理引擎在所述图形数据库中创建与所述输入表和所述输出表一一对应的实体对象节点;
根据所述血缘关系,在创建的所述实体对象节点之间添加有向边,生成所述实体对象之间的血缘关系图谱。
可选的,在本发明第一方面的第三种实现方式中,所述根据所述映射关系,在所述血缘关系图谱中确定待添加祖先节点的目标实体对象节点的步骤包括:
获取所述映射关系中的大数据表的表名;
判断所述血缘关系图谱中是否存在与所述表名对应的实体对象节点;
若所述血缘关系图谱中存在与所述表名对应的实体对象节点,则将与所述表名对应的实体对象节点确定为待添加祖先节点的目标实体对象节点。
可选的,在本发明第一方面的第四种实现方式中,所述为所述目标实体对象节点添加对应的祖先节点,得到目标血缘关系图谱,其中,所述祖先节点用于表示由所述目标实体对象的业务源表转化得到的实体对象的步骤之后,还包括:
在所述目标血缘关系图谱中确定待分析的实体对象节点;
获取所述待分析的实体对象节点所关联的业务,并统计包含所述待分析的实体对象节点的血缘关系链的链条数;
将所述链条数分别与第一预设阈值和第二预设阈值进行比较,所述第一预设阈值大于所述第二预设阈值;
当所述链条数大于或等于所述第一预设阈值时,将所述待分析的实体对象节点所关联的业务标记为热门业务;
当所述链条数小于或等于所述第二预设阈值时,将所述待分析的实体对象节点所关联的业务标记为冷门业务。
可选的,在本发明第一方面的第五种实现方式中,所述为所述目标实体对象节点添加对应的祖先节点,得到目标血缘关系图谱,其中,所述祖先节点用于表示由所述目标实体对象的业务源表转化得到的实体对象的步骤之后,还包括:
通过预设的用户交互页面,接收基于所述目标血缘关系图谱的查询指令;
根据所述查询指令,将所述目标数据血缘分析图谱发送至所述用户交互页面进行可视化展示。
可选的,在本发明第一方面的第六种实现方式中,所述根据所述查询指令,将所述目标数据血缘分析图谱发送至所述用户交互页面进行可视化展示的步骤之后,还包括:
根据预设的接收频率,接收所述数据接入平台发送的业务源表与大数据表之间的映射关系;
判断所述映射关系是否存在更新,并检测所述大数据平台上是否执行了新的SQL语句;
若所述映射关系存在更新,或所述大数据平台上执行了新的SQL语句,则对应更新所述目标血缘关系图谱。
本发明第二方面提供了一种数据血缘分析装置,所述数据血缘分析装置包括:
获取模块,用于获取当前在大数据平台上执行的结构化查询语言SQL语句的输入表、输出表,以及所述输入表和所述输出表之间的血缘关系;
转化模块,用于将所述输入表和所述输出表分别转化为预设类型系统下的实体对象,将所述实体对象存储至预设的图形数据库中;
构建模块,用于根据所述血缘关系,在所述图形数据库中构建所述实体对象之间的血缘关系图谱;
接收模块,用于接收数据接入平台发送的业务源表与大数据表之间的映射关系,其中,所述数据接入平台用于从关系型业务数据库的业务源表抽取业务数据转存至大数据平台的大数据表,并在抽取业务数据的过程中,记录所述业务源表与所述大数据表之间的映射关系;
确定模块,用于根据所述映射关系,在所述血缘关系图谱中确定待添加祖先节点的目标实体对象节点;
添加模块,用于为所述目标实体对象节点添加对应的祖先节点,得到目标血缘关系图谱,其中,所述祖先节点用于表示由所述目标实体对象的业务源表转化得到的实体对象。
可选的,在本发明第二方面的第一种实现方式中,所述获取模块还用于:
通过预设的钩子程序,监听当前在大数据平台上执行的结构化查询语言SQL语句;
通过预设的语法解析器和词法解析器,对监听到的所述SQL语句进行解析,得到所述SQL语句的输入表、输出表,以及所述输入表和所述输出表之间的血缘关系。
可选的,在本发明第二方面的第二种实现方式中,所述构建模块还用于:
调用预设的图处理引擎,通过所述图处理引擎在所述图形数据库中创建与所述输入表和所述输出表一一对应的实体对象节点;
根据所述血缘关系,在创建的所述实体对象节点之间添加有向边,生成所述实体对象之间的血缘关系图谱。
可选的,在本发明第二方面的第三种实现方式中,所述确定模块还用于:
获取所述映射关系中的大数据表的表名;
判断所述血缘关系图谱中是否存在与所述表名对应的实体对象节点;
若所述血缘关系图谱中存在与所述表名对应的实体对象节点,则将与所述表名对应的实体对象节点确定为待添加祖先节点的目标实体对象节点。
可选的,在本发明第二方面的第四种实现方式中,所述数据血缘分析装置还包括业务标记模块,所述业务标记模块用于:
在所述目标血缘关系图谱中确定待分析的实体对象节点;
获取所述待分析的实体对象节点所关联的业务,并统计包含所述待分析的实体对象节点的血缘关系链的链条数;
将所述链条数分别与第一预设阈值和第二预设阈值进行比较,所述第一预设阈值大于所述第二预设阈值;
当所述链条数大于或等于所述第一预设阈值时,将所述待分析的实体对象节点所关联的业务标记为热门业务;
当所述链条数小于或等于所述第二预设阈值时,将所述待分析的实体对象节点所关联的业务标记为冷门业务。
可选的,在本发明第二方面的第五种实现方式中,所述数据血缘分析装置还包括查询模块,所述查询模块用于:
通过预设的用户交互页面,接收基于所述目标血缘关系图谱的查询指令;
根据所述查询指令,将所述目标数据血缘分析图谱发送至所述用户交互页面进行可视化展示。
可选的,在本发明第二方面的第六种实现方式中,所述数据血缘分析装置还包括更新模块,所述更新模块用于:
根据预设的接收频率,接收所述数据接入平台发送的业务源表与大数据表之间的映射关系;
判断所述映射关系是否存在更新,并检测所述大数据平台上是否执行了新的SQL语句;
若所述映射关系存在更新,或所述大数据平台上执行了新的SQL语句,则对应更新所述目标血缘关系图谱。
本发明第三方面提供了一种数据血缘分析设备,所述数据血缘分析设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述数据血缘分析设备执行上述的数据血缘分析方法。
本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的数据血缘分析方法。
本发明获取当前在大数据平台上执行的结构化查询语言SQL语句的输入表、输出表,以及所述输入表和所述输出表之间的血缘关系;将所述输入表和所述输出表分别转化为预设类型系统下的实体对象,将所述实体对象存储至预设的图形数据库中;根据所述血缘关系,在所述图形数据库中构建所述实体对象之间的血缘关系图谱;接收数据接入平台发送的业务源表与大数据表之间的映射关系,其中,所述数据接入平台用于从关系型业务数据库的业务源表抽取业务数据转存至大数据平台的大数据表,并在抽取业务数据的过程中,记录所述业务源表与所述大数据表之间的映射关系;根据所述映射关系,在所述血缘关系图谱中确定待添加祖先节点的目标实体对象节点;为所述目标实体对象节点添加对应的祖先节点,得到目标血缘关系图谱,其中,所述祖先节点用于表示由所述目标实体对象的业务源表转化得到的实体对象。这种方式通过结合关系型业务数据库的业务源表、大数据平台的大数据表,以及它们之间的血缘关系生成目标血缘关系图谱,实现了把关系型数据和大数据类型的数据的元数据治理整合在一起,满足了生产实践中对不同类型数据库的数据血缘分析需求。
附图说明
图1为本发明数据血缘分析方法的一个实施例的流程示意图;
图2为本发明实施例中数据血缘分析平台与其他业务平台之间的通信架构示意图;
图3为本发明实施例中大数据表的血缘关系图谱示意图;
图4为对图3中的血缘关系图谱进行更新的示意图;
图5为本发明数据血缘分析装置的一个实施例的模块示意图;
图6为本发明实施例提供的数据血缘分析设备的结构示意图。
具体实施方式
本发明实施例提供了一种数据血缘分析方法、装置、设备及计算机可读存储介质,通过结合关系型业务数据库的业务源表、大数据平台的大数据表,以及它们之间的血缘关系生成目标血缘关系图谱,实现了把关系型数据和大数据类型的数据的元数据治理整合在一起,满足了生产实践中对不同类型数据库的数据血缘分析需求。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明数据血缘分析方法实施例的具体流程进行描述。
参照图1,图1为本发明数据血缘分析方法的一个实施例的流程示意图,该方法包括:
步骤101,获取当前在大数据平台上执行的结构化查询语言SQL语句的输入表、输出表,以及输入表和输出表之间的血缘关系;
在本实施例中,数据血缘分析方法应用于服务器,该服务器上搭载有一数据血缘分析平台。参照图2,图2为本发明实施例中数据血缘分析平台与其他业务平台之间的通信架构示意图,该通信架构包括数据血缘分析平台、数据接入平台、大数据平台和关系型业务数据库,其中:
数据接入平台,负责从关系型业务数据库抽取业务数据转存至大数据平台,同时记录下业务源表与大数据表之间的映射关系,并把映射关系存储在数据接入平台的支撑数据库中,定时同步到数据血缘分析平台;
大数据平台,负责通过当前在大数据平台上执行的结构化查询语言(structuredquery language,SQL)语句,获取大数据平台里的各个大数据表之间的流转关系并发送到数据血缘分析平台;
数据血缘分析平台,负责根据业务源表与大数据表之间的映射关系,以及大数据平台里的各个大数据表之间的流转关系生成血缘关系图谱,以通过可视化的方式展示数据血缘关系。
需要说明的是,关系型数据库是企业生产实践中广泛使用的数据库,本实施例中的关系型数据库和大数据平台根据实际业务需求而定,比如关系型数据库可以是MySQL、Oracle、SQL Server、Postgre SQL等关系型数据库,大数据平台可以是Hadoop、Spark、Storm等大数据平台。
首先,服务器获取在Hadoop大数据平台上执行的SQL语句的输入表、输出表,以及输入表和输出表之间的血缘关系,其中输入表表示执行SQL语句时输入的源表,输出表表示执行SQL语句时输出的目标表,输入表和输出表之间的血缘关系可以通过解析SQL语句得到。
在一实施方式中,上述步骤101可以包括:通过预设的钩子程序,监听当前在大数据平台上执行的结构化查询语言SQL语句;通过预设的语法解析器和词法解析器,对监听到的SQL语句进行解析,得到SQL语句的输入表、输出表,以及输入表和输出表之间的血缘关系。
具体地,可以预先在服务器中设置一个钩子程序,通过该钩子程序监听当前在大数据平台上执行的SQL语句,之后,服务器通过预设的语法解析器和词法解析器,将SQL语句解析为“Input”(输入)和“Output”(输出)两个数据集,进而从这两个数据集中获取到SQL语句的输入表、输出表,以及输入表和输出表之间的血缘关系。
例如,若钩子程序监听到当前在大数据平台上执行的SQL语句为:“insertoverwrite table T1 select*from T2”(将表T2中的数据覆盖插入到表T1中),则通过预设的语法解析器和词法解析器,可以将该SQL语句解析为:输入表T2,输出表T1,且T2为T1的源表。
步骤102,将输入表和输出表分别转化为预设类型系统下的实体对象,将实体对象存储至预设的图形数据库中;
在计算机科学中,类型系统(Type System)用于定义如何将编程语言中的数值和表达式归类为许多不同的类型,如何操作这些类型,这些类型如何互相作用。图形数据库是一种非关系型数据库,它应用图形理论存储实体之间的关系信息。
该步骤中,服务器将输入表和输出表分别转化为预设类型系统下的实体对象,并将该实体对象存储至预设的图形数据库中,以图形数据库JanusGraph为例,JanusGraph主要由2部分组成:
1、Hbase,Hbase是一个分布式的,面向列的,高性能的,支持实时读写的非关系型数据库,通过Hbase,可以实时存储类型系统生成的具体实体对象,及实体对象的血缘关系;
2、ElasticSearch,ElasticSearch是一个分布式的可扩展的实时搜索和分析引擎,通过ElasticSearch,给Hbase中的实体对象创建索引,可以实时快速检索到实体对象及其血缘关系。
在本实施例中,服务器可以将实体对象存储至Hbase中。
步骤103,根据血缘关系,在图形数据库中构建实体对象之间的血缘关系图谱;
该步骤中,服务器根据输入表和输出表之间的血缘关系,在图形数据库中构建实体对象之间的血缘关系图谱。
进一步地,该步骤103可以包括:调用预设的图处理引擎,通过图处理引擎在图形数据库中创建与输入表和输出表一一对应的实体对象节点;根据血缘关系,在创建的实体对象节点之间添加有向边,生成实体对象之间的血缘关系图谱。
本实施例中,图处理引擎可以是Graph Engine,Graph Engine是一个基于内存的分布式大规模图数据处理引擎,通过Graph Engine,可以在图形数据库中创建与输入表和输出表一一对应的实体对象节点,然后根据表之间的血缘关系,在创建的各实体对象节点之间添加有向边,可生成可视化的大数据表的血缘关系图谱。
例如,当前在大数据平台上先后执行了以下2条SQL语句:
1、insert overwrite table test_org_info select*from tmp1_org_info(将表“tmp1_org_info”中的数据覆盖插入到表“test_org_info”中);
2、insert overwrite table tmp1_org_info select*from tmp2_org_info(将表“tmp2_org_info”中的数据覆盖插入到表“tmp1_org_info”中)。
则构建的血缘关系图谱可以参照图3,图3为本发明实施例中大数据表的血缘关系图谱示意图,图中表“tmp1_org_info”的祖先节点是表“tmp2_org_info”,子孙节点是表“test_org_info”,整个血缘关系一目了然。
步骤104,接收数据接入平台发送的业务源表与大数据表之间的映射关系,其中,数据接入平台用于从关系型业务数据库的业务源表抽取业务数据转存至大数据平台的大数据表,并在抽取业务数据的过程中,记录业务源表与大数据表之间的映射关系;
该步骤中,数据接入平台从关系型业务数据库的业务源表抽取业务数据转存至大数据平台的大数据表的过程中,记录业务源表与大数据表之间的映射关系,并将该映射关系定时同步到数据血缘分析平台,数据血缘分析平台接收数据接入平台发送的业务源表与大数据表之间的映射关系,从而为后续生成目标血缘关系图谱提供前提保证。
步骤105,根据映射关系,在血缘关系图谱中确定待添加祖先节点的目标实体对象节点;
该步骤中,服务器根据业务源表与大数据表之间的映射关系,在上述生成的血缘关系图谱中确定待添加祖先节点的目标实体对象节点。
进一步地,该步骤105可以包括:获取映射关系中的大数据表的表名;判断血缘关系图谱中是否存在与表名对应的实体对象节点;若血缘关系图谱中存在与表名对应的实体对象节点,则将与表名对应的实体对象节点确定为待添加祖先节点的目标实体对象节点。
在本实施例中,服务器获取业务源表与大数据表之间的映射关系中的大数据表的表名,然后判断血缘关系图谱中是否存在与该表名对应的实体对象节点,若存在,说明该实体对象节点的表数据来源于关系型业务数据库的业务源表,此时将该实体对象节点确定为待添加祖先节点的目标实体对象节点,若不存在,则直接将该血缘关系图谱确定为目标血缘关系图谱。
步骤106,为目标实体对象节点添加对应的祖先节点,得到目标血缘关系图谱,其中,祖先节点用于表示由目标实体对象的业务源表转化得到的实体对象。
该步骤中,服务器获取与目标实体对象节点对应的业务源表,将该业务源表分别转化为预设类型系统下的实体对象,并将该实体对象作为上述目标实体对象节点的祖先节点添加到血缘关系图谱中,得到目标血缘关系图谱,由此完成了完整的从关系型业务数据库表到大数据表的全链路血缘关系链接。
本实施例通过结合关系型业务数据库的业务源表、大数据平台的大数据表,以及它们之间的血缘关系生成目标血缘关系图谱,实现了把关系型数据和大数据类型的数据的元数据治理整合在一起,满足了生产实践中对不同类型数据库的数据血缘分析需求。
进一步地,基于本发明中数据血缘分析方法的第一实施例,提出本发明中数据血缘分析方法的第二实施例。
在本实施例中,上述步骤106之后,还可以包括:
在目标血缘关系图谱中确定待分析的实体对象节点;
该步骤中,服务器可以接收用户触发的选择指令,从而在目标血缘关系图谱中选取待分析的实体对象节点;当然,服务器也可以将预设的实体对象节点作为待分析的实体对象节点,其中,分析指的是对实体对象节点所涉及的业务进行分析。
获取待分析的实体对象节点所关联的业务,并统计包含待分析的实体对象节点的血缘关系链的链条数;
该步骤中,服务器可以读取预设的业务配置文件,从而获取到待分析的实体对象节点所关联的业务,此外,由于一个实体对象节点可能存在多条血缘关系链接,服务器可以定时统计包含待分析的实体对象节点的血缘关系链的链条数,该链条数表示待分析的实体对象节点的引用情况,链条数越多,说明实体对象节点所涉及的业务越热门。
将链条数分别与第一预设阈值和第二预设阈值进行比较,第一预设阈值大于第二预设阈值;当链条数大于或等于第一预设阈值时,将待分析的实体对象节点所关联的业务标记为热门业务;当链条数小于或等于第二预设阈值时,将待分析的实体对象节点所关联的业务标记为冷门业务。
该步骤中,服务器将获取到的链条数分别与第一预设阈值和第二预设阈值进行比较,当链条数大于或等于第一预设阈值时,说明待分析的实体对象节点被经常引用,与其关联的业务也越热门,此时服务器将该待分析的实体对象节点所关联的业务标记为热门业务,反之,当链条数小于或等于第二预设阈值时,说明待分析的实体对象节点被引用得较少,与其关联的业务相对冷淡,此时服务器将该待分析的实体对象节点所关联的业务标记为冷门业务。此外,服务器还可以将被标记的热门业务和冷门业务发送至前端页面进行展示,对于热门业务,在生产中可以加强相关业务维护及关注,对于冷门业务,则可能需要进行改良。
通过上述方式,实现了对目标血缘关系图谱中的实体对象节点所关联的业务进行热门程度分析,方便管理人员了解业务部门的冷热情况,及时调整业务部门生产规划。
进一步地,基于本发明中数据血缘分析方法的第一实施例,提出本发明中数据血缘分析方法的第三实施例。
在本实施例中,上述步骤106之后,还可以包括:通过预设的用户交互页面,接收基于目标血缘关系图谱的查询指令;根据查询指令,将目标数据血缘分析图谱发送至用户交互页面进行可视化展示。
在本实施例中,数据血缘分析平台可以提供用户交互页面和开放的应用程序编程接口,以对管理人员,或者对外部其他系统提供实时的查询和搜索服务。具体地,服务器可以通过预设的用户交互页面接收基于目标血缘关系图谱的查询指令,进而根据该查询指令,将目标数据血缘分析图谱发送至用户交互页面进行可视化展示。
通过数据血缘的可视化展示,可以清晰的了解到业务数据的祖亲数据,临时生产发生情况时候可以快速追溯到准确的源头,及时分析事件原因改善生产措施。
进一步地,根据查询指令,将目标数据血缘分析图谱发送至用户交互页面进行可视化展示的步骤之后,还可以包括:
根据预设的接收频率,接收数据接入平台发送的业务源表与大数据表之间的映射关系;判断映射关系是否存在更新,并检测大数据平台上是否执行了新的SQL语句;若映射关系存在更新,或大数据平台上执行了新的SQL语句,则对应更新目标血缘关系图谱。
在本实施例中,服务器可以根据预设的接收频率,接收数据接入平台发送的业务源表与大数据表之间的映射关系,并判断该映射关系是否存在更新,同时,检测大数据平台上是否执行了新的SQL语句,若映射关系存在更新,或大数据平台上执行了新的SQL语句,则对应更新目标血缘关系图谱。
参照图4,图4为对图3中的血缘关系图谱进行更新的示意图。当检测到大数据平台上执行了新的SQL语句:“insert overwrite table test_org_info select*from delta1_org_info”(将表“delta1_org_info”中的数据覆盖插入到表“test_org_info”中)时,表“test_org_info”的血缘关系链变为了2条,汇聚于表“test_org_info”节点。
通过上述方式,实现了目标血缘关系图谱的实时更新,为精准化的业务溯源及影响分析提供了保证。
本发明实施例还提供一种数据血缘分析装置。
参照图5,图5为本发明数据血缘分析装置的一个实施例的模块示意图。本实施例中,所述数据血缘分析装置包括:
获取模块501,用于获取当前在大数据平台上执行的结构化查询语言SQL语句的输入表、输出表,以及所述输入表和所述输出表之间的血缘关系;
转化模块502,用于将所述输入表和所述输出表分别转化为预设类型系统下的实体对象,将所述实体对象存储至预设的图形数据库中;
构建模块503,用于根据所述血缘关系,在所述图形数据库中构建所述实体对象之间的血缘关系图谱;
接收模块504,用于接收数据接入平台发送的业务源表与大数据表之间的映射关系,其中,所述数据接入平台用于从关系型业务数据库的业务源表抽取业务数据转存至大数据平台的大数据表,并在抽取业务数据的过程中,记录所述业务源表与所述大数据表之间的映射关系;
确定模块505,用于根据所述映射关系,在所述血缘关系图谱中确定待添加祖先节点的目标实体对象节点;
添加模块506,用于为所述目标实体对象节点添加对应的祖先节点,得到目标血缘关系图谱,其中,所述祖先节点用于表示由所述目标实体对象的业务源表转化得到的实体对象。
可选的,所述获取模块501还用于:
通过预设的钩子程序,监听当前在大数据平台上执行的结构化查询语言SQL语句;
通过预设的语法解析器和词法解析器,对监听到的所述SQL语句进行解析,得到所述SQL语句的输入表、输出表,以及所述输入表和所述输出表之间的血缘关系。
可选的,所述构建模块503还用于:
调用预设的图处理引擎,通过所述图处理引擎在所述图形数据库中创建与所述输入表和所述输出表一一对应的实体对象节点;
根据所述血缘关系,在创建的所述实体对象节点之间添加有向边,生成所述实体对象之间的血缘关系图谱。
可选的,所述确定模块505还用于:
获取所述映射关系中的大数据表的表名;
判断所述血缘关系图谱中是否存在与所述表名对应的实体对象节点;
若所述血缘关系图谱中存在与所述表名对应的实体对象节点,则将与所述表名对应的实体对象节点确定为待添加祖先节点的目标实体对象节点。
可选的,所述数据血缘分析装置还包括业务标记模块,所述业务标记模块用于:
在所述目标血缘关系图谱中确定待分析的实体对象节点;
获取所述待分析的实体对象节点所关联的业务,并统计包含所述待分析的实体对象节点的血缘关系链的链条数;
将所述链条数分别与第一预设阈值和第二预设阈值进行比较,所述第一预设阈值大于所述第二预设阈值;
当所述链条数大于或等于所述第一预设阈值时,将所述待分析的实体对象节点所关联的业务标记为热门业务;
当所述链条数小于或等于所述第二预设阈值时,将所述待分析的实体对象节点所关联的业务标记为冷门业务。
可选的,所述数据血缘分析装置还包括查询模块,所述查询模块用于:
通过预设的用户交互页面,接收基于所述目标血缘关系图谱的查询指令;
根据所述查询指令,将所述目标数据血缘分析图谱发送至所述用户交互页面进行可视化展示。
可选的,所述数据血缘分析装置还包括更新模块,所述更新模块用于:
根据预设的接收频率,接收所述数据接入平台发送的业务源表与大数据表之间的映射关系;
判断所述映射关系是否存在更新,并检测所述大数据平台上是否执行了新的SQL语句;
若所述映射关系存在更新,或所述大数据平台上执行了新的SQL语句,则对应更新所述目标血缘关系图谱。
上述数据血缘分析装置中各个模块的功能实现及有益效果与上述数据血缘分析方法实施例中各步骤相对应,此处不再赘述。
上面从模块化功能实体的角度对本发明实施例中的数据血缘分析装置进行了详细描述,下面从硬件处理的角度对本发明实施例中数据血缘分析设备进行详细描述。
参照图6,图6为本发明实施例提供的数据血缘分析设备的结构示意图。该数据血缘分析设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序533或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据血缘分析设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在数据血缘分析设备600上执行存储介质630中的一系列指令操作。
数据血缘分析设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图6示出的数据血缘分析设备结构并不构成对数据血缘分析设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有数据血缘分析程序,所述数据血缘分析程序被处理器执行时实现如上所述的数据血缘分析方法的步骤。
其中,在所述处理器上运行的数据血缘分析程序被执行时所实现的方法及有益效果可参照本发明数据血缘分析方法的各个实施例,此处不再赘述。
本领域技术人员可以理解,上述集成的模块或单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种数据血缘分析方法,其特征在于,所述数据血缘分析方法包括如下步骤:
获取当前在大数据平台上执行的结构化查询语言SQL语句的输入表、输出表,以及所述输入表和所述输出表之间的血缘关系;
将所述输入表和所述输出表分别转化为预设类型系统下的实体对象,将所述实体对象存储至预设的图形数据库中;
根据所述血缘关系,在所述图形数据库中构建所述实体对象之间的血缘关系图谱;
接收数据接入平台发送的业务源表与大数据表之间的映射关系,其中,所述数据接入平台用于从关系型业务数据库的业务源表抽取业务数据转存至大数据平台的大数据表,并在抽取业务数据的过程中,记录所述业务源表与所述大数据表之间的映射关系;
根据所述映射关系,在所述血缘关系图谱中确定待添加祖先节点的目标实体对象节点;
为所述目标实体对象节点添加对应的祖先节点,得到目标血缘关系图谱,其中,所述祖先节点用于表示由所述目标实体对象的业务源表转化得到的实体对象。
2.如权利要求1所述的数据血缘分析方法,其特征在于,所述获取当前在大数据平台上执行的结构化查询语言SQL语句的输入表、输出表,以及所述输入表和所述输出表之间的血缘关系的步骤包括:
通过预设的钩子程序,监听当前在大数据平台上执行的结构化查询语言SQL语句;
通过预设的语法解析器和词法解析器,对监听到的所述SQL语句进行解析,得到所述SQL语句的输入表、输出表,以及所述输入表和所述输出表之间的血缘关系。
3.如权利要求1所述的数据血缘分析方法,其特征在于,所述根据所述血缘关系,在所述图形数据库中构建所述实体对象之间的血缘关系图谱的步骤包括:
调用预设的图处理引擎,通过所述图处理引擎在所述图形数据库中创建与所述输入表和所述输出表一一对应的实体对象节点;
根据所述血缘关系,在创建的所述实体对象节点之间添加有向边,生成所述实体对象之间的血缘关系图谱。
4.如权利要求1所述的数据血缘分析方法,其特征在于,所述根据所述映射关系,在所述血缘关系图谱中确定待添加祖先节点的目标实体对象节点的步骤包括:
获取所述映射关系中的大数据表的表名;
判断所述血缘关系图谱中是否存在与所述表名对应的实体对象节点;
若所述血缘关系图谱中存在与所述表名对应的实体对象节点,则将与所述表名对应的实体对象节点确定为待添加祖先节点的目标实体对象节点。
5.如权利要求1-4中任一项所述的数据血缘分析方法,其特征在于,所述为所述目标实体对象节点添加对应的祖先节点,得到目标血缘关系图谱,其中,所述祖先节点用于表示由所述目标实体对象的业务源表转化得到的实体对象的步骤之后,还包括:
在所述目标血缘关系图谱中确定待分析的实体对象节点;
获取所述待分析的实体对象节点所关联的业务,并统计包含所述待分析的实体对象节点的血缘关系链的链条数;
将所述链条数分别与第一预设阈值和第二预设阈值进行比较,所述第一预设阈值大于所述第二预设阈值;
当所述链条数大于或等于所述第一预设阈值时,将所述待分析的实体对象节点所关联的业务标记为热门业务;
当所述链条数小于或等于所述第二预设阈值时,将所述待分析的实体对象节点所关联的业务标记为冷门业务。
6.如权利要求1-4中任一项所述的数据血缘分析方法,其特征在于,所述为所述目标实体对象节点添加对应的祖先节点,得到目标血缘关系图谱,其中,所述祖先节点用于表示由所述目标实体对象的业务源表转化得到的实体对象的步骤之后,还包括:
通过预设的用户交互页面,接收基于所述目标血缘关系图谱的查询指令;
根据所述查询指令,将所述目标数据血缘分析图谱发送至所述用户交互页面进行可视化展示。
7.如权利要求6所述的数据血缘分析方法,其特征在于,所述根据所述查询指令,将所述目标数据血缘分析图谱发送至所述用户交互页面进行可视化展示的步骤之后,还包括:
根据预设的接收频率,接收所述数据接入平台发送的业务源表与大数据表之间的映射关系;
判断所述映射关系是否存在更新,并检测所述大数据平台上是否执行了新的SQL语句;
若所述映射关系存在更新,或所述大数据平台上执行了新的SQL语句,则对应更新所述目标血缘关系图谱。
8.一种数据血缘分析装置,其特征在于,所述数据血缘分析装置包括:
获取模块,用于获取当前在大数据平台上执行的结构化查询语言SQL语句的输入表、输出表,以及所述输入表和所述输出表之间的血缘关系;
转化模块,用于将所述输入表和所述输出表分别转化为预设类型系统下的实体对象,将所述实体对象存储至预设的图形数据库中;
构建模块,用于根据所述血缘关系,在所述图形数据库中构建所述实体对象之间的血缘关系图谱;
接收模块,用于接收数据接入平台发送的业务源表与大数据表之间的映射关系,其中,所述数据接入平台用于从关系型业务数据库的业务源表抽取业务数据转存至大数据平台的大数据表,并在抽取业务数据的过程中,记录所述业务源表与所述大数据表之间的映射关系;
确定模块,用于根据所述映射关系,在所述血缘关系图谱中确定待添加祖先节点的目标实体对象节点;
添加模块,用于为所述目标实体对象节点添加对应的祖先节点,得到目标血缘关系图谱,其中,所述祖先节点用于表示由所述目标实体对象的业务源表转化得到的实体对象。
9.一种数据血缘分析设备,其特征在于,所述数据血缘分析设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述数据血缘分析设备执行如权利要求1-7中任一项所述的数据血缘分析方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的数据血缘分析方法。
CN202010350107.4A 2020-04-28 2020-04-28 数据血缘分析方法、装置、设备及计算机可读存储介质 Pending CN111694858A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010350107.4A CN111694858A (zh) 2020-04-28 2020-04-28 数据血缘分析方法、装置、设备及计算机可读存储介质
PCT/CN2020/118135 WO2021218021A1 (zh) 2020-04-28 2020-09-27 数据血缘分析方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010350107.4A CN111694858A (zh) 2020-04-28 2020-04-28 数据血缘分析方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111694858A true CN111694858A (zh) 2020-09-22

Family

ID=72476738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010350107.4A Pending CN111694858A (zh) 2020-04-28 2020-04-28 数据血缘分析方法、装置、设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN111694858A (zh)
WO (1) WO2021218021A1 (zh)

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100201A (zh) * 2020-09-30 2020-12-18 东莞市盟大塑化科技有限公司 基于大数据技术的数据监测方法、装置、设备和存储介质
CN112256720A (zh) * 2020-10-21 2021-01-22 平安科技(深圳)有限公司 数据成本计算方法、系统、计算机设备和存储介质
CN112328575A (zh) * 2020-11-12 2021-02-05 杭州数梦工场科技有限公司 数据资产血缘生成方法、装置、电子设备
CN112363713A (zh) * 2020-11-30 2021-02-12 杭州玳数科技有限公司 一种绑定式的sql血缘解析数据流可视化交互方法
CN112434071A (zh) * 2020-12-15 2021-03-02 北京三维天地科技股份有限公司 一种基于数据图谱的元数据血缘关系与影响分析平台
CN112540970A (zh) * 2020-12-07 2021-03-23 航天信息股份有限公司 一种基于版本管理的元数据血缘分析方法及系统
CN112634004A (zh) * 2020-12-30 2021-04-09 中国农业银行股份有限公司 征信数据的血缘图谱分析方法与系统
CN112685439A (zh) * 2020-12-29 2021-04-20 平安普惠企业管理有限公司 针对风控系统的造数方法、系统、装置及存储介质
CN112749186A (zh) * 2021-01-22 2021-05-04 广州虎牙科技有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN112800149A (zh) * 2021-02-18 2021-05-14 浪潮云信息技术股份公司 基于数据血缘分析的数据治理方法及系统
CN112818015A (zh) * 2021-01-21 2021-05-18 广州汇通国信科技有限公司 基于数据血缘分析的数据追踪方法、系统及存储介质
CN112860662A (zh) * 2021-01-22 2021-05-28 平安科技(深圳)有限公司 数据血缘关系建立方法、装置、计算机设备及存储介质
CN113204594A (zh) * 2021-05-28 2021-08-03 平安国际智慧城市科技股份有限公司 数据血缘关系生成方法、装置、存储介质和计算机设备
CN113312410A (zh) * 2021-06-10 2021-08-27 平安证券股份有限公司 数据图谱的构建方法、数据查询方法及终端设备
CN113326261A (zh) * 2021-04-29 2021-08-31 上海淇馥信息技术有限公司 数据血缘关系提取方法、装置及电子设备
CN113360720A (zh) * 2021-06-24 2021-09-07 平安普惠企业管理有限公司 基于数据血缘关系的数据资产可视化方法、装置及设备
CN113485715A (zh) * 2021-07-30 2021-10-08 浙江大华技术股份有限公司 一种基于数据中台的代码提示方法、系统及数据计算平台
CN113486008A (zh) * 2021-06-30 2021-10-08 平安信托有限责任公司 数据血缘分析方法、装置、设备及存储介质
CN113505970A (zh) * 2021-06-07 2021-10-15 广发银行股份有限公司 基于表级血缘关系的数据批次处理方法及系统
WO2021218021A1 (zh) * 2020-04-28 2021-11-04 平安科技(深圳)有限公司 数据血缘分析方法、装置、设备及计算机可读存储介质
CN113672674A (zh) * 2021-07-15 2021-11-19 浙江大华技术股份有限公司 一种自动编排业务流的方法、电子装置和存储介质
CN113918571A (zh) * 2021-10-29 2022-01-11 平安银行股份有限公司 血缘数据读写方法、装置、电子设备及可读存储介质
CN114238375A (zh) * 2021-12-16 2022-03-25 中国平安财产保险股份有限公司 指标查询方法、装置、电子设备及存储介质
CN114329082A (zh) * 2021-11-19 2022-04-12 海纳致远数字科技(上海)有限公司 一种基于hugegraph的数据血缘关系分析方法和系统
WO2022188331A1 (zh) * 2021-03-11 2022-09-15 北京锐安科技有限公司 数据血缘关系展示方法、装置、电子设备及存储介质
CN115145919A (zh) * 2022-06-30 2022-10-04 中冶赛迪信息技术(重庆)有限公司 一种业务系统间数据血缘生成方法、装置、设备及介质
CN116932656A (zh) * 2023-09-18 2023-10-24 中孚安全技术有限公司 基于区块链的数据血缘存储方法、系统、设备及介质
CN117056308A (zh) * 2023-08-11 2023-11-14 苏银凯基消费金融有限公司 一种基于OpenLineage数据库生成金融大数据血缘关系的方法
WO2023231341A1 (zh) * 2022-06-02 2023-12-07 蚂蚁区块链科技(上海)有限公司 数据资产风险发现方法和装置
CN117238398A (zh) * 2023-09-19 2023-12-15 昆仑数智科技有限责任公司 数据血缘关系的确定方法、装置、设备及可读存储介质
CN117273131A (zh) * 2023-11-22 2023-12-22 四川三合力通科技发展集团有限公司 一种跨节点数据关系发现系统及方法
CN117421462A (zh) * 2023-12-18 2024-01-19 中信证券股份有限公司 一种数据处理方法、装置及电子设备
CN117688217A (zh) * 2024-02-02 2024-03-12 北方健康医疗大数据科技有限公司 基于有向图实现数据血缘关系结构的系统、方法及介质
CN118035204A (zh) * 2024-01-25 2024-05-14 深圳市前海研祥亚太电子装备技术有限公司 数据血缘显示方法、分布式任务调度系统及存储介质
CN118467175A (zh) * 2024-07-09 2024-08-09 北京枫清科技有限公司 一种数据血缘分析系统及分析方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064752A (zh) * 2021-11-09 2022-02-18 珠海市新德汇信息技术有限公司 基于记录级血缘关系的数据影响分析方法、存储介质及设备
CN114297236A (zh) * 2021-11-30 2022-04-08 厦门市美亚柏科信息股份有限公司 一种数据血缘分析方法、终端设备及存储介质
CN114265945B (zh) * 2021-12-30 2024-07-26 多点生活(武汉)科技有限公司 血缘关系提取方法、装置及电子设备
CN114428822B (zh) * 2022-01-27 2022-07-29 云启智慧科技有限公司 一种数据处理的方法、装置、电子设备及存储介质
CN114328471B (zh) * 2022-03-14 2022-07-12 杭州半云科技有限公司 一种基于数据虚拟化引擎的数据模型及其构建方法
CN114911785A (zh) * 2022-05-16 2022-08-16 北京航空航天大学 一种数据血缘管理方法、装置及电子设备
CN116166718B (zh) * 2023-04-25 2023-07-14 北京捷泰云际信息技术有限公司 一种数据血缘获取方法和装置
CN116450908B (zh) * 2023-06-19 2023-10-03 北京大数据先进技术研究院 基于数据湖的自助式数据分析方法、装置和电子设备
CN116541887B (zh) * 2023-07-07 2023-09-15 云启智慧科技有限公司 一种大数据平台数据安全保护方法
CN116662308B (zh) * 2023-07-28 2023-11-03 恩核(北京)信息技术有限公司 基于数仓日志文件的血缘数据提取方法
CN117131477B (zh) * 2023-08-14 2024-03-29 南昌大学 一种基于局部数据血缘数字水印的全链路数据溯源方法
CN118113689A (zh) * 2023-12-26 2024-05-31 北京宇信科技集团股份有限公司 一种数据质量分析方法及系统
CN117555950B (zh) * 2024-01-12 2024-04-02 山东再起数据科技有限公司 基于数据中台的数据血缘关系构建方法
CN118427186B (zh) * 2024-07-05 2024-09-24 北京枫清科技有限公司 数据血缘追溯方法、装置、设备和介质
CN118503247B (zh) * 2024-07-17 2024-09-27 山东浪潮智能生产技术有限公司 一种离散制造业数据血缘分析方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10025878B1 (en) * 2014-11-11 2018-07-17 Google Llc Data lineage analysis
CN109446279A (zh) * 2018-10-15 2019-03-08 顺丰科技有限公司 基于neo4j大数据血缘关系管理方法、系统、设备及存储介质
CN109582660B (zh) * 2018-12-06 2021-08-10 深圳前海微众银行股份有限公司 数据血缘分析方法、装置、设备、系统及可读存储介质
CN109739894B (zh) * 2019-01-04 2022-12-09 深圳前海微众银行股份有限公司 补充元数据描述的方法、装置、设备及存储介质
CN111694858A (zh) * 2020-04-28 2020-09-22 平安科技(深圳)有限公司 数据血缘分析方法、装置、设备及计算机可读存储介质

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021218021A1 (zh) * 2020-04-28 2021-11-04 平安科技(深圳)有限公司 数据血缘分析方法、装置、设备及计算机可读存储介质
CN112100201B (zh) * 2020-09-30 2024-02-06 东莞盟大集团有限公司 基于大数据技术的数据监测方法、装置、设备和存储介质
CN112100201A (zh) * 2020-09-30 2020-12-18 东莞市盟大塑化科技有限公司 基于大数据技术的数据监测方法、装置、设备和存储介质
CN112256720A (zh) * 2020-10-21 2021-01-22 平安科技(深圳)有限公司 数据成本计算方法、系统、计算机设备和存储介质
CN112328575A (zh) * 2020-11-12 2021-02-05 杭州数梦工场科技有限公司 数据资产血缘生成方法、装置、电子设备
CN112363713A (zh) * 2020-11-30 2021-02-12 杭州玳数科技有限公司 一种绑定式的sql血缘解析数据流可视化交互方法
CN112363713B (zh) * 2020-11-30 2024-06-11 杭州玳数科技有限公司 一种绑定式的sql血缘解析数据流可视化交互方法
CN112540970A (zh) * 2020-12-07 2021-03-23 航天信息股份有限公司 一种基于版本管理的元数据血缘分析方法及系统
CN112434071A (zh) * 2020-12-15 2021-03-02 北京三维天地科技股份有限公司 一种基于数据图谱的元数据血缘关系与影响分析平台
CN112685439A (zh) * 2020-12-29 2021-04-20 平安普惠企业管理有限公司 针对风控系统的造数方法、系统、装置及存储介质
CN112685439B (zh) * 2020-12-29 2023-09-22 上海豹云网络信息服务有限公司 针对风控系统的造数方法、系统、装置及存储介质
CN112634004A (zh) * 2020-12-30 2021-04-09 中国农业银行股份有限公司 征信数据的血缘图谱分析方法与系统
CN112634004B (zh) * 2020-12-30 2023-10-13 中国农业银行股份有限公司 征信数据的血缘图谱分析方法与系统
CN112818015A (zh) * 2021-01-21 2021-05-18 广州汇通国信科技有限公司 基于数据血缘分析的数据追踪方法、系统及存储介质
CN112749186B (zh) * 2021-01-22 2024-02-09 广州虎牙科技有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN112860662A (zh) * 2021-01-22 2021-05-28 平安科技(深圳)有限公司 数据血缘关系建立方法、装置、计算机设备及存储介质
CN112860662B (zh) * 2021-01-22 2023-10-17 平安科技(深圳)有限公司 自动化生产数据血缘关系建立方法、装置、计算机设备及存储介质
CN112749186A (zh) * 2021-01-22 2021-05-04 广州虎牙科技有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN112800149A (zh) * 2021-02-18 2021-05-14 浪潮云信息技术股份公司 基于数据血缘分析的数据治理方法及系统
CN112800149B (zh) * 2021-02-18 2023-08-08 浪潮云信息技术股份公司 基于数据血缘分析的数据治理方法及系统
WO2022188331A1 (zh) * 2021-03-11 2022-09-15 北京锐安科技有限公司 数据血缘关系展示方法、装置、电子设备及存储介质
CN113326261A (zh) * 2021-04-29 2021-08-31 上海淇馥信息技术有限公司 数据血缘关系提取方法、装置及电子设备
CN113326261B (zh) * 2021-04-29 2024-03-08 奇富数科(上海)科技有限公司 数据血缘关系提取方法、装置及电子设备
CN113204594A (zh) * 2021-05-28 2021-08-03 平安国际智慧城市科技股份有限公司 数据血缘关系生成方法、装置、存储介质和计算机设备
CN113505970A (zh) * 2021-06-07 2021-10-15 广发银行股份有限公司 基于表级血缘关系的数据批次处理方法及系统
CN113312410A (zh) * 2021-06-10 2021-08-27 平安证券股份有限公司 数据图谱的构建方法、数据查询方法及终端设备
CN113312410B (zh) * 2021-06-10 2023-11-21 平安证券股份有限公司 数据图谱的构建方法、数据查询方法及终端设备
CN113360720B (zh) * 2021-06-24 2023-11-21 湖北华中电力科技开发有限责任公司 基于数据血缘关系的数据资产可视化方法、装置及设备
CN113360720A (zh) * 2021-06-24 2021-09-07 平安普惠企业管理有限公司 基于数据血缘关系的数据资产可视化方法、装置及设备
CN113486008A (zh) * 2021-06-30 2021-10-08 平安信托有限责任公司 数据血缘分析方法、装置、设备及存储介质
CN113672674A (zh) * 2021-07-15 2021-11-19 浙江大华技术股份有限公司 一种自动编排业务流的方法、电子装置和存储介质
CN113485715A (zh) * 2021-07-30 2021-10-08 浙江大华技术股份有限公司 一种基于数据中台的代码提示方法、系统及数据计算平台
CN113918571A (zh) * 2021-10-29 2022-01-11 平安银行股份有限公司 血缘数据读写方法、装置、电子设备及可读存储介质
CN114329082A (zh) * 2021-11-19 2022-04-12 海纳致远数字科技(上海)有限公司 一种基于hugegraph的数据血缘关系分析方法和系统
CN114238375A (zh) * 2021-12-16 2022-03-25 中国平安财产保险股份有限公司 指标查询方法、装置、电子设备及存储介质
CN114238375B (zh) * 2021-12-16 2024-05-28 中国平安财产保险股份有限公司 指标查询方法、装置、电子设备及存储介质
WO2023231341A1 (zh) * 2022-06-02 2023-12-07 蚂蚁区块链科技(上海)有限公司 数据资产风险发现方法和装置
CN115145919A (zh) * 2022-06-30 2022-10-04 中冶赛迪信息技术(重庆)有限公司 一种业务系统间数据血缘生成方法、装置、设备及介质
CN117056308A (zh) * 2023-08-11 2023-11-14 苏银凯基消费金融有限公司 一种基于OpenLineage数据库生成金融大数据血缘关系的方法
CN116932656A (zh) * 2023-09-18 2023-10-24 中孚安全技术有限公司 基于区块链的数据血缘存储方法、系统、设备及介质
CN116932656B (zh) * 2023-09-18 2024-01-09 中孚安全技术有限公司 基于区块链的数据血缘存储方法、系统、设备及介质
CN117238398A (zh) * 2023-09-19 2023-12-15 昆仑数智科技有限责任公司 数据血缘关系的确定方法、装置、设备及可读存储介质
CN117273131A (zh) * 2023-11-22 2023-12-22 四川三合力通科技发展集团有限公司 一种跨节点数据关系发现系统及方法
CN117273131B (zh) * 2023-11-22 2024-02-13 四川三合力通科技发展集团有限公司 一种跨节点数据关系发现系统及方法
CN117421462B (zh) * 2023-12-18 2024-03-08 中信证券股份有限公司 一种数据处理方法、装置及电子设备
CN117421462A (zh) * 2023-12-18 2024-01-19 中信证券股份有限公司 一种数据处理方法、装置及电子设备
CN118035204A (zh) * 2024-01-25 2024-05-14 深圳市前海研祥亚太电子装备技术有限公司 数据血缘显示方法、分布式任务调度系统及存储介质
CN117688217A (zh) * 2024-02-02 2024-03-12 北方健康医疗大数据科技有限公司 基于有向图实现数据血缘关系结构的系统、方法及介质
CN118467175A (zh) * 2024-07-09 2024-08-09 北京枫清科技有限公司 一种数据血缘分析系统及分析方法

Also Published As

Publication number Publication date
WO2021218021A1 (zh) 2021-11-04

Similar Documents

Publication Publication Date Title
CN111694858A (zh) 数据血缘分析方法、装置、设备及计算机可读存储介质
AU2017101864A4 (en) Method, device, server and storage apparatus of reviewing SQL
US10339038B1 (en) Method and system for generating production data pattern driven test data
US9104720B2 (en) Generation of technical description of report from functional description of report
KR101790793B1 (ko) 컴퓨터 분석을 위해 텍스트 문서를 표현하는 그래픽 모델
CN104899295B (zh) 一种异构数据源数据关联分析方法
CN104700190B (zh) 一种用于项目与专业人员匹配的方法和装置
US9098630B2 (en) Data selection
KR101505858B1 (ko) 대용량 데이터를 용이하게 분석하기 위하여 테이블 관계 및 참조의 템플릿을 검색하여 제공하는 템플릿 기반 온라인 분석보고서 작성 지원 시스템
US10474675B2 (en) Explain tool for optimizing SPARQL queries
CN113312191A (zh) 数据分析方法、装置、设备及存储介质
CN109684402A (zh) 一种基于大数据平台元数据血缘关系实现方法
US20160154778A1 (en) Automatic modeling of column and pivot table layout tabular data
CN107622068A (zh) 一种基于json格式的日志管理方法及装置
CN109376153A (zh) 一种基于NiFi的数据写入图数据库的系统及方法
CN115080765A (zh) 一种航天质量知识图谱构建方法、系统、介质和设备
CN117076742A (zh) 数据血缘追踪方法、装置及电子设备
CN112634004B (zh) 征信数据的血缘图谱分析方法与系统
US7844601B2 (en) Quality of service feedback for technology-neutral data reporting
CN118245614A (zh) 一种基于知识图谱的矿井提升机故障诊断及预防方法
CN110879824A (zh) 一种基于物理数据库的核电工程业务数据挖掘系统及方法
Dakrory et al. Automated ETL testing on the data quality of a data warehouse
US20210406263A1 (en) Knowledge graph-based lineage tracking
CN111221894B (zh) 基于配置的时序数据库存储方法、装置及服务器
CN116561114A (zh) 一种基于元数据的管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40030814

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination