CN116166718A - 一种数据血缘获取方法和装置 - Google Patents

一种数据血缘获取方法和装置 Download PDF

Info

Publication number
CN116166718A
CN116166718A CN202310452193.3A CN202310452193A CN116166718A CN 116166718 A CN116166718 A CN 116166718A CN 202310452193 A CN202310452193 A CN 202310452193A CN 116166718 A CN116166718 A CN 116166718A
Authority
CN
China
Prior art keywords
blood
data
level
field
edges
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310452193.3A
Other languages
English (en)
Other versions
CN116166718B (zh
Inventor
陈梦月
郭彪
杜梅
赵普
熊肖
刘珂
周宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yizhirui Information Technology Co ltd
Original Assignee
Beijing Jietai Yunji Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jietai Yunji Information Technology Co ltd filed Critical Beijing Jietai Yunji Information Technology Co ltd
Priority to CN202310452193.3A priority Critical patent/CN116166718B/zh
Publication of CN116166718A publication Critical patent/CN116166718A/zh
Application granted granted Critical
Publication of CN116166718B publication Critical patent/CN116166718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据血缘获取方法和装置,属于大数据处理技术领域,包括:将数据处理脚本注册到监听器,监听数据处理脚本的逻辑执行计划;解析逻辑执行计划得到表级血缘、字段级血缘的血缘关系表和字段数据之间的逻辑关系,将血缘关系表和逻辑关系存储至图数据库;设计字段的规则模型,基于规则模型生成逆推关系算子,并将逆推关系算子存储至图数据库;基于图数据库中的逆推关系算子查询得到记录级数据血缘,基于血缘关系表查询表级血缘和字段级血缘。本方案能够实时查询得到记录级的数据血缘,节省数据溯源时间。

Description

一种数据血缘获取方法和装置
技术领域
本发明涉及大数据处理技术领域,具体涉及一种数据血缘获取方法、装置、计算设备及存储介质。
背景技术
数据从产生、处理、流转到消亡的过程中,由于进行了清洗、加工、转换,并生成新的数据,数据之间的流向关系越来越复杂,可能导致数据的异常,如果某个环节出现问题,追溯成本很高。理清当前数据的血缘关系和影响,有助于在发现问题数据时,能够快速追踪到异常发生的原因。为快速修复问题数据提供参考依据。
常见的数据血缘关系都是基于表级、字段级的,只能描述数据之间的大致关系,很难追溯到表内某条数据记录的数据血缘,无法进行更加精细化的数据评估。
目前获取记录级数据血缘的方案,是将源数据的记录生成数据记录的特征因子,并存储到下游目标表中,在进行数据血缘追溯时,通过特征因此进行比对,从而找到数据源头。这种方案只适用于整条数据记录不做更改的情况。当数据进行处理、融合或关联转换后,通过特征因子无法实现多表关联和融合计算,还需要进一步的处理。
因此,需要一种数据血缘获取方法,能够精准定位到某条数据记录的具体某个值,从而减少数据治理人员的追溯定位时间,以解决现有技术中存在的问题。
发明内容
本方案提出了一种数据血缘获取方法,通过监听数据处理脚本的方式自动获取数据流转过程中字段数据之间的映射关系;根据sql的标识特征设计字段的规则模型并根据字段的规则模型自动逆推、拼接生成逆推关系算子,并存储到图数据库中;最终以可视化的方式呈现表级、字段级和记录级的数据血缘。因此,本方案能够在数据血缘追溯时,实时逆推查询源头数据,节省存储空间和数据溯源时间。
根据本发明的第一方面,提供一种数据血缘获取方法,包括:将数据处理脚本注册到监听器,监听数据处理脚本的逻辑执行计划;解析逻辑执行计划得到表级血缘、字段级血缘的血缘关系表和字段数据之间的逻辑关系,将血缘关系表和逻辑关系存储至图数据库;设计字段的规则模型,基于规则模型生成逆推关系算子,并将逆推关系算子存储至图数据库;基于图数据库中的逆推关系算子查询得到记录级数据血缘,基于血缘关系表查询表级血缘和字段级血缘。
通过上述技术方案,可以监听并解析数据处理脚本获取字段数据之间的映射关系,通过字段的规则模型可以自动逆推、拼接生成数据血缘的逆推映射关系,在数据血缘查询时,能够实时查询源头数据,节省数据溯源的时间。
可选地,在上述方法中,数据处理脚本为基于Spark、HBase、Hive、Sqooq中任意一种数据库的sql脚本,当数据处理脚本为sparksql脚本时,可以定义记录级血缘获取的类,并在记录级血缘获取的方法中将逻辑计划检查规则注入SparkSessionExtensions类中;修改spark.sql.extensions的配置使记录级血缘获取的类在启动spark任务时生效;当数据处理脚本运行时,触发记录级血缘获取的方法,将数据处理脚本内容传递至脚本解析方法中。
可选地,在上述方法中,在apply方法中将表级血缘、字段级血缘、sql解析器注入SparkSessionExtensions类中;定义表级血缘和字段级血缘的方法,判断sql脚本中是否包含数据插入语句,如果包含数据插入语句则输入sql脚本;定义sql解析器的方法,调用sparksql编译器中的sqlparser语法分析器和词法分析器将输入的sql脚本转换为语法树,作为脚本的逻辑执行计划。
可选地,在上述方法中,通过Analyzer、Optimizer、SparkPlanner分别对逻辑执行计划进行解析、优化和生成可执行的物理计划;对不同的物理计划节点进行迭代处理,根据sqlParser语法分析器构造语法分析树;根据所述语法分析树的结果进行节点内容划分,得到表级血缘关系、字段级血缘关系和字段数据之间的逻辑关系;将所述表级血缘关系、字段级血缘关系和字段数据之间的逻辑关系按照节点、关系、路径、映射关系的方式存储至图数据库,图数据库为NOSQL图形数据库。
可选地,在上述方法中,根据sql脚本的标识特征和语法分析树内容,设计字段的规则模型;根据规则模型中的sql脚本标识特征设计逆推关系规则,逆推关系规则包括查询语句和过滤语句;根据生成的查询语句和过滤语句进行逆推关系算子拼接,根据规则模型进行逆推关系转换,生成逆推关系算子;将逆推关系算子存储至图数据库。
可选地,在上述方法中,通过图数据库中类型标记为表的血缘数据进行表级数据来源查询,得到表级血缘;通过图数据库中类型标记为字段的血缘数据进行字段级数据来源查询,得到字段级血缘;通过图数据库中字段的逆推关系算子查询来源数据,得到记录级数据血缘。
可选地,在上述方法中,以节点和表级之间的关系箭头展示表级血缘,以节点和字段之间的关系箭头展示字段级血缘,以来源数据记录展示记录级数据血缘。
根据本发明的第二方面,提供了一种数据血缘获取装置,包括:监听模块、解析模块、生成模块、查询模块和图数据库。
其中,监听模块,用于将数据处理脚本注册到监听器,监听数据处理脚本的逻辑执行计划;解析模块,用于解析逻辑执行计划得到表级血缘、字段级血缘的血缘关系表和字段数据之间的逻辑关系,将血缘关系表和逻辑关系存储至图数据库; 生成模块,用于设计字段的规则模型,基于规则模型生成逆推关系算子,并将逆推关系算子存储至图数据库;查询模块,用于基于图数据库中的逆推关系算子查询得到记录级数据血缘,基于血缘关系表查询表级血缘和字段级血缘。
根据本发明的第三方面,提供一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,其中,程序指令被配置为适于由至少一个处理器执行,程序指令包括用于执行上述数据血缘获取方法的指令。
根据本发明的第四方面,提供一种存储有程序指令的可读存储介质,当程序指令被计算设备读取并执行时,使得计算设备执行上述的数据血缘获取方法。
根据本发明的方案,通过监听脚本的方式自动获取数据流转过程中字段数据之间的映射关系;根据字段的规则模型自动逆推、拼接生成字段的逆推映射关系,并记录到图数据库中,最终以可视化的方式呈现表级血缘、字段级血缘和数据记录级血缘,能够在数据血缘追溯时,实时逆推查询源头数据,节省存储空间和数据溯源时间。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的计算设备100的结构示意图;
图2示出了根据本发明一个实施例的数据血缘获取方法200的流程示意图;
图3示出了根据本发明一个实施例的根据字段的规则模型生成逆推关系算子的示意图;
图4示出了根据本发明一个实施例的表级血缘展示图;
图5示出了根据本发明一个实施例的字段级血缘展示图;
图6示出了根据本发明一个实施例的记录级数据血缘展示图;
图7示出了根据本发明一个实施例的数据血缘获取装置700的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在数据中台的大背景下,数据仓库的开发者和数据使用者经常需要理清数据从产生、加工、处理、融合、流转到消亡的关系。数据血缘就是自动获取数据流转过程中的关系,并记录到图数据库中,最终以可视化的方式呈现。但是传统的数据血缘往往是表级、字段级的,这种粗粒度的血缘关系可以满足一部分数据分析的场景,但无法获取更精确的数据记录的链路情况。
为了细化数据血缘追溯的粒度,本方案提供了一种数据血缘获取方法,能够通过解析数据处理脚本获取字段之间的映射关系,并存储到图数据库中;通过图数据库中的记录,自动逆推、拼接形成数据血缘的逆推映射关系,在查询数据血缘时,能够节省存储空间,并达到记录级数据血缘追溯效果;通过可视化展示表级、字段级、记录级数据血缘,可实现数据血缘的上卷下钻,既可从粗粒度到细粒度观察数据又可从细粒度到粗粒度观察数据。
图1示出了根据本发明一个实施例的计算设备100的结构示意图。如图1所示,在基本配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理器,包括但不限于:微处理器(µP)、微控制器(µC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。计算设备中的物理内存通常指的是易失性存储器RAM,磁盘中的数据需要加载至物理内存中才能够被处理器104读取。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。操作系统120例如可以是Linux、Windows等,其包括用于处理基本系统服务以及执行依赖于硬件的任务的程序指令。应用122包括用于实现各种用户期望的功能的程序指令,应用122例如可以是浏览器、即时通讯软件、软件开发工具(例如集成开发环境IDE、编译器等)等,但不限于此。当应用122被安装到计算设备100中时,可以向操作系统120添加驱动模块。
在计算设备100启动运行时,处理器104会从存储器106中读取操作系统120的程序指令并执行。应用122运行在操作系统120之上,利用操作系统120以及底层硬件提供的接口来实现各种用户期望的功能。当用户启动应用122时,应用122会加载至存储器106中,处理器104从存储器106中读取并执行应用122的程序指令。
计算设备100还包括储存设备132,储存设备132包括可移除储存器136和不可移除储存器138,可移除储存器136和不可移除储存器138均与储存接口总线134连接。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在根据本发明的计算设备100中,应用122包括用于执行本发明的数据血缘获取方法200的指令。
图2示出了根据本发明一个实施例的数据血缘获取方法200的流程示意图。如图2所示,该方法始于步骤S210,将数据处理脚本注册到监听器,监听数据处理脚本的逻辑执行计划。
其中数据处理脚本可以是基于SQL结构化查询语言对数据进行插入、读取、更新、删除等操作,创建数据库对象(如表、视图)的多个语句。数据处理脚本为基于Spark、HBase、Hive、Sqooq中任意一种数据库的sql脚本,由于spark SQL通常效率较高,并且spark支持扩展,例如,允许用户对sparkSQL的SQL解析、逻辑计划的分析和检查、逻辑计划的优化、物理计划的形成等进行扩展。
在本发明的一个实施例中,数据处理脚本为sparksql脚本。具体地,首先,定义记录级血缘获取的类,并在记录级血缘获取的方法中将逻辑计划检查规则注入SparkSessionExtensions类中。
参照SparkSessionExtensions类中定义的注入规则的方法,包括【AnalyzerRules】逻辑计划分析规则、【Check Analysis Rules】逻辑计划检查规则、【OptimizerRules.】 逻辑计划优化规则、【Planning Strategies】形成物理计划的策略、【CustomizedParser】自定义的sql解析器、【(External) Catalog listeners catalog】监听器。
可以选择基于Spark的Check Analysis Rules(逻辑计划检查规则)的方法进行扩展。此检查规则在方法调用的时候不需要有返回值,也就是不需要对当前遍历的逻辑计划树进行修改,以方便扩展的解析器可以迭代整个逻辑执行计划。
在本发明的一个实施例中,定义一个新的数据记录级血缘获取的类(ConsanguinitySparkExtension),并在apply方法中把需要的规则(表级血缘/字段级血缘、sql解析器)注入到SparkSessionExtensions中:
class ExtralSparkExtension extends (SparkSessionExtensions =>Unit){override def apply(spark: SparkSessionExtensions): Unit = { //字段血缘
spark.injectCheckRule(FieldLineageCheckRuleV3)
//sql解析器
spark.injectParser{case(_,parser)=>newExtraSparkParser(parser) }}}
定义表级血缘和字段级血缘的方法,判断sql脚本中是否包含数据插入语句,如果包含数据插入语句则输入sql脚本。定义sql解析器的方法,调用sparksql编译器中的sqlparser语法分析器和词法分析器将输入的sql脚本转换为语法树,作为脚本的逻辑执行计划。
例如,调用原始的SparkSql编译器中的parseExpression、parseTableIdentifier、parseFunctionIdentifier、parseTableSchema、parseDataType,将输入的sql语句转换为一个语法树。
然后,修改spark.sql.extensions的配置使记录级血缘获取的类在启动spark任务时生效:
spark.sql.extensions=org.apache.spark.sql.hive.ExtralSparkExtension
当数据处理脚本运行时,spark监听器即可自动发现此脚本,触发记录级血缘获取的方法,将数据处理脚本内容传递至脚本解析方法中。
随后就可以执行步骤S220,解析逻辑执行计划得到表级血缘、字段级血缘的血缘关系表和字段数据之间的逻辑关系,将血缘关系表和逻辑关系存储至图数据库。
在SQL脚本运行过程中,通过spark脚本监听器,可以自动监听脚本的逻辑执行计划并解析,得到表级血缘、字段级血缘,同时解析字段数据之间的逻辑或映射关系,将数据存储至图数据库中。
具体地,通过Analyzer、Optimizer、SparkPlanner分别对逻辑执行计划进行解析、优化和生成可执行的物理计划。
Sqlparser进行词法和语法分析后得到逻辑计划logicalplan,此时表名、函数等都没有解析,还不能执行;经过Analyzer会分析一些绑定信息,例如表验证、字段信息、函数信息,对logicalplan进行解析;经过Optimizer 后logicalplan会根据既定规则进行优化;经过SparkPlanner根据定义好的策略生成可执行的物理计划。
得到物理计划后,可以对不同的物理计划节点进行迭代处理,根据SqlParser语法分析器构造语法分析树。其中,迭代关系从树的顶端开始迭代,直到树的叶子节点,叶子节点即为原始表。通过迭代物理计划,根据不同执行计划进行相应的转换,可以得到字段之间的对应关系。
根据语法分析树的结果进行节点内容划分,得到表级血缘关系、字段级血缘关系和字段数据之间的逻辑关系。内容如表1所示:
表1 表级血缘关系、字段级血缘关系和字段数据之间的逻辑关系
将表级血缘关系、字段级血缘关系和字段数据之间的逻辑关系按照节点、关系、路径、映射关系的方式存储至NOSQL图形数据库。
其中,基于图论实现的NOSQL图形数据库,擅长处理点和边组成的复杂关系网络,执行和查询效率较传统关系型数据库具有无可比拟的优势。将表/字段级血缘按照节点(表/字段)、关系(来源/去向)、路径、映射关系(映射关系json)的方式进行存储。
接着执行步骤S230,设计字段的规则模型,基于规则模型生成逆推关系算子,并将逆推关系算子存储至图数据库。
首先,根据sql脚本的标识特征和语法分析树内容,设计字段的规则模型。参照sqlparser语法分析器,可以基于词法分析构造的语法分析树内容,根据sql的标识特征,进行规则模型设计,如下表2所示:
表2 字段的规则模型
需要说明的是,当使用groupby时,目标表中有groupby字段时,逆推映射关系准确率会提升。
图3示出了根据本发明一个实施例的根据字段的规则模型生成逆推关系算子的示意图。如图3所示,在得到字段的规则模型之后,就可以根据规则模型中的sql标识特征,进行逆推关系规则设计,逆推关系规则分为查询语句和过滤语句两类。
查询语句中,分为单表查询和多表关联查询;过滤语句中,按照mapping_relation_field、function_aggregate、function_scalar、function_regular_expression、function_distinct、function_where、function_groupby生成where过滤条件,根据function_having,生成having条件。
根据生成的查询语句和过滤语句,按照sql语句执行过程(from->where->groupby ->having ->select->order by)进行逆推关系算子拼接,当mapping_relation_field存在,have_aggregate、have_scalar、have_regular_expression、have_distinct、have_where、have_groupby、have_having值为true时,进行逆推关系算子的拼接。
当have_aggregate、have_scalar、have_regular_expression、have_distinct、have_where、have_groupby、have_having值为false时,对应的函数不进行逆推关系算子中的where条件拼接。
通过规则模型进行逆推关系转换,并生成逆推关系算子的映射如图3所示,最终得到的是某个字段中任意值的逆推关系算子。
最后,将得到的逆推关系算子存储至图数据库中。在图数据库中增加逆推关系算子的属性列,并将逆推关系算子的结果直接存储至此属性列中,方便后续使用时,直接进行查询,以提高效率。
最后执行步骤S240,基于图数据库中的逆推关系算子查询得到记录级数据血缘,基于血缘关系表查询表级血缘和字段级血缘。
对于表级血缘查询与展示,可以通过图数据库中类型标记为表的血缘数据进行数据来源查询。在数据血缘展示时,数据表以节点方式展示,血缘之间的关系箭头标识数据处理流向。
图4示出了根据本发明一个实施例的表级血缘展示图。如图4所示,table_A和table_B指向table_D,table_D指向user_info,user_info一条数据来源指向dw_user_info和dm_user_info,一条数据来源指向用户使用数据。
对于字段级血缘查询与展示,可以通过图数据库中类型标记为字段的血缘数据进行字段级数据来源查询。在数据血缘展示时,先选择数据表中的某个字段,以这个字段为查询出发点,血缘关系中的字段以节点方式展示,字段之间的关系箭头标识字段的数据处理流向。图5示出了根据本发明一个实施例的字段级血缘展示图。如图5所示,在表级血缘的基础上展示了表中字段name的数据血缘。
对于记录级血缘查询与展示,可以通过图数据库中字段的逆推关系算子进行记录级数据血缘的实时查询。在记录级数据血缘展示时,先选择需要查询的数据记录,通过此记录值对应的字段逆推关系算子实时查询来源数据,得到来源数据记录并进行展示。
图6示出了根据本发明一个实施例的记录级数据血缘展示图。如图6所示,可以从水库名称res_name、中心库水库编码guid、水利部注册码res_code、水利部水库编码fhgc_res_code、防洪工程库编码yzxk_res_code、原中心库编码res_reg_code多个数据维度对数据来源进行追溯。每个数据记录值都能找到对应的来源数据。图6中所示的各个数据维度的数据值仅是示例性的,根据相同的数据值对记录级数据血缘进行追溯。
在完成上述表级、字段级和记录级数据血缘的追溯后,可以通过人工校验、补录、核查反馈等方式,进行脚本监听器、规则模型设计、字段的逆推关系规则、逆推关系算子的校验与调整。
图7示出了根据本发明一个实施例的数据血缘获取装置700 的结构示意图。如图7所示,记录级数据血缘获取装置700可以包括监听模块710、解析模块720、生成模块730和查询模块740以及图数据库。
其中,监听模块710可以将数据处理脚本注册到监听器,监听数据处理脚本的逻辑执行计划。
在本发明的一个实施例中,可以通过各种数据库的sql脚本对数据进行关联或处理,并将数据处理的sql脚本注册到spark监听器监听脚本的逻辑执行计划。
解析模块720可以解析监听模块710坚监听到的逻辑执行计划得到表级血缘、字段级血缘的血缘关系表和字段数据之间的逻辑关系,将血缘关系表和逻辑关系存储至图数据库。
在得到逻辑执行计划后,可以对逻辑计划进行解析得到表验证信息、字段信息、函数信息等一些绑定信息,然后对解析后的逻辑计划进行优化,最终生成可执行的物理计划。通过对物理计划进行迭代处理和语法分析,得到语法分析树,以便基于语法分析树对节点内容划分得到表、字段之间的对应关系和字段之间的逻辑关系。
生成模块730可以设计字段的规则模型,基于规则模型生成逆推关系算子,并将逆推关系算子存储至图数据库。
可以通过sqlparser语法分析器构造的语法分析树进行规则模型设计,并根据规则模型中的sql标识特征进行逆推关系规则设计,生成查询语句和过滤语句。最后根据生成的查询语句和过滤语句按照sql语句执行过程进行逆推关系算子拼接,最终得到某个字段中任意值的逆推关系算子。
查询模块740可以基于生成模块730生成的逆推关系算子从图数据库中查询得到记录级数据血缘,基于解析模块720解析得到的血缘关系表从图数据库中查询表级血缘和字段级血缘。
查询得到的表级血缘和字段级血缘可以通过节点和关系箭头的方式进行可视化展示,记录级数据血缘可以通过数据记录值对应的字段逆推关系算子展示来源数据。
根据本发明提供的方案,通过监听脚本的方式自动获取数据流转过程中字段数据之间的映射关系,根据字段的规则模型自动逆推、拼接生成字段的逆推映射关系,并记录到图数据库中,最终以可视化的方式呈现,能够在数据血缘追溯时,实时逆推查询源头数据,节省存储空间和数据溯源时间。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
此外,实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。

Claims (10)

1.一种数据血缘获取方法,其特征在于,包括:
将数据处理脚本注册到监听器,监听所述数据处理脚本的逻辑执行计划;
解析所述逻辑执行计划得到表级血缘、字段级血缘的血缘关系表和字段数据之间的逻辑关系,将所述血缘关系表和逻辑关系存储至图数据库;
设计字段的规则模型,基于所述规则模型生成逆推关系算子,并将所述逆推关系算子存储至所述图数据库;
基于所述图数据库中的所述逆推关系算子查询得到记录级数据血缘,基于所述血缘关系表查询表级血缘和字段级血缘。
2.根据权利要求1所述的数据血缘获取方法,其特征在于,所述数据处理脚本为基于Spark、HBase、Hive、Sqooq中任意一种数据库的sql脚本,当所述数据处理脚本为sparksql脚本时,所述将数据处理脚本注册到监听器,监听所述数据处理脚本的逻辑执行计划的步骤包括:
定义记录级血缘获取的类,并在记录级血缘获取的方法中将逻辑计划检查规则注入SparkSessionExtensions类中;
修改spark.sql.extensions的配置使所述记录级血缘获取的类在启动spark任务时生效;
当数据处理脚本运行时,触发所述记录级血缘获取的方法,将数据处理脚本传递至脚本解析方法中。
3.根据权利要求2所述的数据血缘获取方法,其特征在于,所述定义记录级血缘获取的类,并在记录级血缘获取的方法中将逻辑计划检查规则注入SparkSessionExtensions类中的步骤包括:
在apply方法中将表级血缘、字段级血缘、sql解析器注入SparkSessionExtensions类中;
定义表级血缘和字段级血缘的方法,判断sql脚本中是否包含数据插入语句,如果包含数据插入语句则输入sql脚本;
定义sql解析器的方法,调用sparksql编译器中的sqlparser语法分析器和词法分析器将输入的sql脚本转换为语法树。
4.根据权利要求3所述的数据血缘获取方法,其特征在于,所述解析所述逻辑执行计划得到表级血缘、字段级血缘的血缘关系表和字段数据之间的逻辑关系,将所述血缘关系表和逻辑关系存储至图数据库的步骤包括:
通过Analyzer、Optimizer、SparkPlanner分别对所述逻辑执行计划进行解析、优化和生成可执行的物理计划;
对不同的物理计划节点进行迭代处理,根据sqlparser语法分析器构造语法分析树;
根据所述语法分析树的结果进行节点内容划分,得到表级血缘关系、字段级血缘关系和字段数据之间的逻辑关系;
将所述表级血缘关系、字段级血缘关系和字段数据之间的逻辑关系按照节点、关系、路径、映射关系的方式存储至图数据库,所述图数据库为NOSQL图形数据库。
5.根据权利要求4所述的数据血缘获取方法,其特征在于,所述设计字段的规则模型,基于所述规则模型生成逆推关系算子,并将所述逆推关系算子存储至所述图数据库的步骤包括:
根据sql脚本的标识特征和语法分析树内容,设计字段的规则模型;
根据所述规则模型中的sql脚本标识特征设计逆推关系规则,所述逆推关系规则包括查询语句和过滤语句;
根据生成的查询语句和过滤语句进行逆推关系算子拼接,根据所述规则模型进行逆推关系转换,生成逆推关系算子;
将所述逆推关系算子存储至所述图数据库。
6.根据权利要求1所述的数据血缘获取方法,其特征在于,所述基于所述图数据库中的所述逆推关系算子查询得到记录级数据血缘,基于所述血缘关系表查询表级血缘和字段级血缘的步骤包括:
通过图数据库中类型标记为表的血缘数据进行表级数据来源查询,得到表级血缘;
通过图数据库中类型标记为字段的血缘数据进行字段级数据来源查询,得到字段级血缘;
通过图数据库中字段的逆推关系算子查询来源数据,得到记录级数据血缘。
7.根据权利要求6所述的数据血缘获取方法,其特征在于,所述方法还包括:
以节点和表级之间的关系箭头展示所述表级血缘,以节点和字段之间的关系箭头展示所述字段级血缘,以来源数据记录展示所述记录级数据血缘。
8.一种数据血缘获取装置,其特征在于,包括:
监听模块,用于将数据处理脚本注册到监听器,监听所述数据处理脚本的逻辑执行计划;
解析模块,用于解析所述逻辑执行计划得到表级血缘、字段级血缘的血缘关系表和字段数据之间的逻辑关系,将所述血缘关系表和逻辑关系存储至图数据库;
生成模块,用于设计字段的规则模型,基于所述规则模型生成逆推关系算子,并将所述逆推关系算子存储至所述图数据库;
查询模块,用于基于所述图数据库中的所述逆推关系算子查询得到记录级数据血缘,基于所述血缘关系表查询表级血缘和字段级血缘。
9.一种计算设备,包括:
至少一个处理器;和
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-7中任一项所述的数据血缘获取方法的指令。
10.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-7中任一项所述数据血缘获取方法。
CN202310452193.3A 2023-04-25 2023-04-25 一种数据血缘获取方法和装置 Active CN116166718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310452193.3A CN116166718B (zh) 2023-04-25 2023-04-25 一种数据血缘获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310452193.3A CN116166718B (zh) 2023-04-25 2023-04-25 一种数据血缘获取方法和装置

Publications (2)

Publication Number Publication Date
CN116166718A true CN116166718A (zh) 2023-05-26
CN116166718B CN116166718B (zh) 2023-07-14

Family

ID=86416733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310452193.3A Active CN116166718B (zh) 2023-04-25 2023-04-25 一种数据血缘获取方法和装置

Country Status (1)

Country Link
CN (1) CN116166718B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688217A (zh) * 2024-02-02 2024-03-12 北方健康医疗大数据科技有限公司 基于有向图实现数据血缘关系结构的系统、方法及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144755A (zh) * 2019-12-26 2020-05-12 安徽朋德信息科技有限公司 一种科研仪器实验结果溯源管理系统及方法
WO2021218021A1 (zh) * 2020-04-28 2021-11-04 平安科技(深圳)有限公司 数据血缘分析方法、装置、设备及计算机可读存储介质
CN114064640A (zh) * 2021-11-09 2022-02-18 珠海市新德汇信息技术有限公司 应用于数据溯源的血缘关系构造方法、存储介质及设备
CN114329082A (zh) * 2021-11-19 2022-04-12 海纳致远数字科技(上海)有限公司 一种基于hugegraph的数据血缘关系分析方法和系统
WO2022143045A1 (zh) * 2020-12-30 2022-07-07 中兴通讯股份有限公司 数据血缘关系的确定方法及装置、存储介质、电子装置
CN115292347A (zh) * 2022-07-19 2022-11-04 武汉理工大学 一种基于规则的主动式sql算法性能检查装置及方法
CN115934855A (zh) * 2022-11-29 2023-04-07 广发银行股份有限公司 一种全链路字段级血缘解析方法、系统、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144755A (zh) * 2019-12-26 2020-05-12 安徽朋德信息科技有限公司 一种科研仪器实验结果溯源管理系统及方法
WO2021218021A1 (zh) * 2020-04-28 2021-11-04 平安科技(深圳)有限公司 数据血缘分析方法、装置、设备及计算机可读存储介质
WO2022143045A1 (zh) * 2020-12-30 2022-07-07 中兴通讯股份有限公司 数据血缘关系的确定方法及装置、存储介质、电子装置
CN114064640A (zh) * 2021-11-09 2022-02-18 珠海市新德汇信息技术有限公司 应用于数据溯源的血缘关系构造方法、存储介质及设备
CN114329082A (zh) * 2021-11-19 2022-04-12 海纳致远数字科技(上海)有限公司 一种基于hugegraph的数据血缘关系分析方法和系统
CN115292347A (zh) * 2022-07-19 2022-11-04 武汉理工大学 一种基于规则的主动式sql算法性能检查装置及方法
CN115934855A (zh) * 2022-11-29 2023-04-07 广发银行股份有限公司 一种全链路字段级血缘解析方法、系统、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李旭风;罗强;: "面向数据字段的血缘关系分析", 中国金融电脑, no. 07, pages 14 - 21 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688217A (zh) * 2024-02-02 2024-03-12 北方健康医疗大数据科技有限公司 基于有向图实现数据血缘关系结构的系统、方法及介质

Also Published As

Publication number Publication date
CN116166718B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN111522816B (zh) 基于数据库引擎的数据处理方法、装置、终端及介质
CN108959433B (zh) 一种从软件项目数据中提取知识图谱并问答的方法与系统
Hueske et al. Opening the black boxes in data flow optimization
CN110555032A (zh) 一种基于元数据的数据血缘关系分析方法及系统
US11726969B2 (en) Matching metastructure for data modeling
US8417690B2 (en) Automatically avoiding unconstrained cartesian product joins
US9928288B2 (en) Automatic modeling of column and pivot table layout tabular data
US20200104241A1 (en) Behavior driven development integration with test tool
US20060122973A1 (en) Mechanism for defining queries in terms of data objects
CN116166718B (zh) 一种数据血缘获取方法和装置
CN115543402B (zh) 一种基于代码提交的软件知识图谱增量更新方法
US20210073655A1 (en) Rule mining for rule and logic statement development
US20130060753A1 (en) Optimization Method And Apparatus
CN114253995B (zh) 数据溯源方法、装置、设备及计算机可读存储介质
Krause et al. graphannis: A fast query engine for deeply annotated linguistic corpora
CN113934750A (zh) 基于编译方式的数据血缘关系分析方法
CN113934786A (zh) 一种构建统一etl的实施方法
Boukhari et al. The role of user requirements in data repository design
CN117076742A (zh) 数据血缘追踪方法、装置及电子设备
CN113836164A (zh) 统一sql的方法、系统、设备及介质
Schlegel et al. MLflow2PROV: extracting provenance from machine learning experiments
CN108008947B (zh) 一种编程语句的智能提示方法、装置、服务器及存储介质
CN112784143B (zh) 基于可视化计算引擎的数据处理方法、系统和计算机设备
Anderson Modeling and analysis of SQL queries in PHP systems
CN115952203B (zh) 数据查询方法、设备、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240122

Address after: Room 105, 1st Floor, Building 5, No. 8 Dongbei Wangxi Road, Haidian District, Beijing, 100193

Patentee after: Yizhirui Information Technology Co.,Ltd.

Country or region after: China

Address before: 601, Unit 6, 3rd Floor, No. 25 Shangdi East Road, Haidian District, Beijing, 100089

Patentee before: Beijing Jietai Yunji Information Technology Co.,Ltd.

Country or region before: China