CN113326261B

CN113326261B - 数据血缘关系提取方法、装置及电子设备

Info

Publication number: CN113326261B
Application number: CN202110473718.2A
Authority: CN
Inventors: 田继龙; 王凯
Original assignee: Qifu Shuke Shanghai Technology Co ltd
Current assignee: Qifu Shuke Shanghai Technology Co ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2024-03-08
Anticipated expiration: 2041-04-29
Also published as: CN113326261A

Abstract

本公开涉及一种数据血缘关系提取方法、装置、电子设备及计算机可读介质。该方法包括：通过多个方式由数据仓库中提取源数据，所述源数据为表格形式；将所述源数据进行解析生成多个初始表，初始表中存储作业名称、标识、SQL语句、创建时间；对所述多个初始表进行数据清洗处理，生成多个中间表；基于血缘提取函数对所述多个中间表进行血缘提取处理，生成输入表和输出表和其对应的链路关系。本公开涉及的数据血缘关系提取方法、装置、电子设备及计算机可读介质，能够快速的对数据仓库中所有业务数据进行解析，并进行血缘关系的提取，节约了数据仓库的计算资源、减少了重复计算数量，提升了工作效率。

Description

数据血缘关系提取方法、装置及电子设备

技术领域

本公开涉及计算机信息处理领域，具体而言，涉及一种数据血缘关系提取方法、装置、电子设备及计算机可读介质。

背景技术

在人类社会中，血缘关系是指由婚姻或生育而产生的人际关系。如父母与子女的关系，兄弟姐妹关系，以及由此而派生的其他亲属关系。它是人先天的与生俱来的关系，在人类社会产生之初就已存在，是最早形成的一种社会关系。

大数据时代，数据爆发性增长，海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息，通过联姻融合、转换变换、流转流通，又生成新的数据，汇聚成数据的海洋。数据的产生、加工融合、流转流通，到最终消亡，数据之间自然会形成一种关系。我们借鉴人类社会中类似的一种关系来表达数据之间的这种关系，称之为数据的血缘关系。与人类社会中的血缘关系不同，数据的血缘关系还包含了一些特有的特征：1.归属性。一般来说，特定的数据归属特定的组织或者个人，数据具有归属性。2.多源性。同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的，而且这种加工过程可以是多个。3.可追溯性。数据的血缘关系，体现了数据的生命周期，体现了数据从产生到消亡的整个过程，具备可追溯性。4.层次性。数据的血缘关系是有层次的。对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据，不同程度的描述信息形成了数据的层次。数据血缘关系提取方法对于用户分析公司产品和业务，优化用户策略具有极其现实的意义。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开提供一种数据血缘关系提取方法、装置、电子设备及计算机可读介质，能够快速的对数据仓库中所有业务数据进行解析，并进行血缘关系的提取，节约了数据仓库的计算资源、减少了重复计算数量，提升了工作效率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提出一种数据血缘关系提取方法，该方法包括：通过多个方式由数据仓库中提取源数据，所述源数据为表格形式；将所述源数据进行解析生成多个初始表，初始表中存储作业名称、标识、SQL语句、创建时间；对所述多个初始表进行数据清洗处理，生成多个中间表；基于血缘提取函数对所述多个中间表进行血缘提取处理，生成输入表和输出表和其对应的链路关系。

可选地，通过多个方式由数据仓库中提取源数据，包括：由报表开发系统中提取所述源数据；由业务流监控系统中提取所述源数据；基于服务器定时命令提取所述源数据；基于日志收集指令提取所述源数据。

可选地，基于服务器定时命令提取所述源数据，包括：基于服务器的crontab命令提取所述源数据。

可选地，基于日志收集指令提取所述源数据，包括：基于YARN资源管理器中的日志收集指令提取所述源数据。

可选地，将所述源数据进行解析生成多个初始表，包括：提取所述源数据中的SQL语言和表格形式的数据并写入所述多个初始表中。

可选地，对所述多个初始表进行数据清洗处理，生成多个中间表，包括：对所述多个初始表进行关键字提取处理以生成所述多个中间表；和/或对所述多个初始表进行注释清除处理以生成所述多个中间表；和/或对所述多个初始表进行补充查询名处理以生成所述多个中间表。

可选地，对所述多个初始表进行补充查询名处理以生成所述多个中间表，包括：根据第一关键词确定所述多个初始表中的子查询的左括号；根据第二关键词确定所述多个初始表中的子查询的右括号；根据所述右括号后的数据确定所述子查询是否需要补充；在需要进行补充时，对所述子查询名称进行补充。

可选地，还包括：采用递归的方式对所述多个初始表中所有的子查询进行补充查询名处理。

可选地，基于血缘提取函数对所述多个中间表进行血缘提取处理，生成输入表和输出表和其对应的链路关系。，包括：基于LineageInfo方法对所述多个中间表进行血缘提取处理以生成输入表和输出表和其对应的链路关系。

可选地，还包括：基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的使用情况；和/或基于所述输入表、所述输出表、所述链路关系确定所述数据仓库中多个业务仓库的使用情况；和/或基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的数据热点表；和/或基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的操作热点表。

根据本公开的一方面，提出一种数据血缘关系提取装置，该装置包括：数据模块，用于通过多个方式由数据仓库中提取源数据，所述源数据为表格形式；初始表模块，用于将所述源数据进行解析生成多个初始表，初始表中存储作业名称、标识、SQL语句、创建时间；中间表模块，用于对所述多个初始表进行数据清洗处理，生成多个中间表；提取模块，用于基于血缘提取函数对所述多个中间表进行血缘提取处理，生成输入表和输出表和其对应的链路关系。

可选地，所述数据模块，包括：报表单元，用于由报表开发系统中提取所述源数据；业务单元，用于由业务流监控系统中提取所述源数据；定时单元，用于基于服务器定时命令提取所述源数据；收集单元，用于基于日志收集指令提取所述源数据。

可选地，定时单元，还用于基于服务器的crontab命令提取所述源数据。

可选地，收集单元，还用于基于YARN资源管理器中的日志收集指令提取所述源数据。

可选地，所述初始表模块，还用于提取所述源数据中的SQL语言和表格形式的数据并写入所述多个初始表中。

可选地，所述中间表模块，包括：关键字单元，用于对所述多个初始表进行关键字提取处理以生成所述多个中间表；和/或清除单元，用于对所述多个初始表进行注释清除处理以生成所述多个中间表；和/或补充单元，用于对所述多个初始表进行补充查询名处理以生成所述多个中间表。

可选地，所述补充单元，还用于根据第一关键词确定所述多个初始表中的子查询的左括号；根据第二关键词确定所述多个初始表中的子查询的右括号；根据所述右括号后的数据确定所述子查询是否需要补充；在需要进行补充时，对所述子查询名称进行补充。

可选地，所述补充单元，还用于采用递归的方式对所述多个初始表中所有的子查询进行补充查询名处理。

可选地，所述提取模块，还用于基于LineageInfo方法对所述多个中间表进行血缘提取处理以生成输入表和输出表和其对应的链路关系。

可选地，还包括：分析模块，用于基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的使用情况；和/或基于所述输入表、所述输出表、所述链路关系确定所述数据仓库中多个业务仓库的使用情况；和/或基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的数据热点表；和/或基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的操作热点表。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本公开的数据血缘关系提取方法、装置、电子设备及计算机可读介质，通过多个方式由数据仓库中提取源数据，所述源数据为表格形式；将所述源数据进行解析生成多个初始表，初始表中存储作业名称、标识、SQL语句、创建时间；对所述多个初始表进行数据清洗处理，生成多个中间表；基于血缘提取函数对所述多个中间表进行血缘提取处理，生成输入表和输出表和其对应的链路关系。的方式，能够快速的对数据仓库中所有业务数据进行解析，并进行血缘关系的提取，节约了数据仓库的计算资源、减少了重复计算数量，提升了工作效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种数据血缘关系提取方法及装置的系统框图。

图2是根据一示例性实施例示出的一种数据血缘关系提取方法的流程图。

图3是根据另一示例性实施例示出的一种数据血缘关系提取方法的流程图。

图4是根据另一示例性实施例示出的一种数据血缘关系提取方法的流程图。

图5是根据一示例性实施例示出的一种数据血缘关系提取装置的框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

图7是根据一示例性实施例示出的一种计算机可读介质的框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

本公开的发明人发现，在现有技术中的血缘解析模式中，将需要解析的SQL放到指定目录下，通过在SQL中匹配，hive各个库名的关键字来解析定位输入表和输出表，现有技术中的方式存在以下缺陷：

1、只能解析放置到服务器指定目录下的SQL，即数仓层的逻辑解析，无法抓取整个数据仓库中的SQL；

2、如果一个SQL文件中存在多段SQL,或者使用with as等语法，则会造成无法解析等情况；

3、由于无法拿到全部数据的上下游关系，所以无法构建表关系的完整上下游血缘，并且没有办法统计数据仓库的使用情况，造成了极大的资源浪费。

根据现有技术中的技术困境，本公开提出了一种新的数据血缘关系提取方法，下面借助于具体的实施例对本公开中的方法进行详细描述。

如图1所示，系统架构10可以包括数据仓库101、终端设备102、103、104、105，网络106和服务器107。网络106用以在终端设备102、103、104、105和服务器107之间提供通信链路的介质。网络106可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备102、103、104、105通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。终端设备102、103、104、105中的每一个可安装有一种数据采集渠道，可例如，终端设备102、103、104、105安装有报表开发应用、业务流监控应用、定时命令应用、日志收集应用等。

服务器107可以是提供各种服务的服务器，例如对终端设备102、103、104、105所采集的数据仓库101中的数据进行分析的后台服务器。后台服务器可以对接收到的数据仓库101中的数据进行分析等处理，并将处理结果(例如数据间的血缘关系)反馈给金融服务网站的管理员。

服务器107可例如通过终端设备102、103、104、105由数据仓库101中提取源数据，所述源数据为表格形式；服务器107可例如所述源数据进行解析生成多个初始表，初始表中存储作业名称、标识、SQL语句、创建时间；服务器107可例如对所述多个初始表进行数据清洗处理，生成多个中间表；服务器107可例如基于血缘提取函数对所述多个中间表进行血缘提取处理，生成输入表和输出表和其对应的链路关系。

服务器107还可例如基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的使用情况；服务器107还可例如基于所述输入表、所述输出表、所述链路关系确定所述数据仓库中多个业务仓库的使用情况；服务器107还可例如基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的数据热点表；服务器107还可例如基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的操作热点表。

服务器107、终端设备102、103、104、105均可以是一个实体的服务器，还可例如为多个服务器组成，需要说明的是，本公开实施例所提供的数据血缘关系提取方法可以由服务器105和终端设备102、103、104、105执行，相应地，数据血缘关系提取装置可以设置于服务器105和终端设备102、103、104、105中。

图2是根据一示例性实施例示出的一种数据血缘关系提取方法的流程图。数据血缘关系提取方法20至少包括步骤S202至S208。

如图2所示，在S202中，通过多个方式由数据仓库中提取源数据，所述源数据为表格形式。包括：由报表开发系统中提取所述源数据；由业务流监控系统中提取所述源数据；基于服务器定时命令提取所述源数据；基于日志收集指令提取所述源数据。

其中，基于服务器定时命令提取所述源数据，包括：基于服务器的crontab命令提取所述源数据。在crontab命令设置完成之后，自动生效，定时任务写入/var/spool/cron/目录中，每个用户的定时任务用自己的用户名进行区分。

其中，基于日志收集指令提取所述源数据，包括：基于YARN资源管理器中的日志收集指令提取所述源数据。YARN(Yet Another Resource Negotiator，另一种资源协调者)是一种Hadoop资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

在S204中，将所述源数据进行解析生成多个初始表，初始表中存储作业名称、标识、SQL语句、创建时间。包括：提取所述源数据中的SQL语言和表格形式的数据并写入所述多个初始表中。

可例如，通过Druid解析器进行解析，Druid解析器由Parser(词法分析，语法分析)、AST(抽象语法树)，Visitor三部分组成。

在S206中，对所述多个初始表进行数据清洗处理，生成多个中间表。包括：对所述多个初始表进行关键字提取处理以生成所述多个中间表；和/或对所述多个初始表进行注释清除处理以生成所述多个中间表；和/或对所述多个初始表进行补充查询名处理以生成所述多个中间表。

在S208中，基于血缘提取函数对所述多个中间表进行血缘提取处理，生成输入表和输出表和其对应的链路关系。基于LineageInfo方法对所述多个中间表进行血缘提取处理以生成输入表和输出表和其对应的链路关系。

调用LineageInfo方法对多个中间表进行处理，将解析出输入表和输出表以json的方式返回。为了避免写入出现冲突，还可并在间隔0.5秒之后将输入表和输出表和链路关系写入服务器本地。

其中，得到的将链路关系文件上传至预设表存储，还可基于此表开发血缘图谱所需json数据，以及以下数据对数据治理提供数据支撑。

根据本公开的数据血缘关系提取方法，通过多个方式由数据仓库中提取源数据，所述源数据为表格形式；将所述源数据进行解析生成多个初始表，初始表中存储作业名称、标识、SQL语句、创建时间；对所述多个初始表进行数据清洗处理，生成多个中间表；基于血缘提取函数对所述多个中间表进行血缘提取处理，生成输入表和输出表和其对应的链路关系。的方式，能够快速的对数据仓库中所有业务数据进行解析，并进行血缘关系的提取，节约了数据仓库的计算资源、减少了重复计算数量，提升了工作效率。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

图3是根据另一示例性实施例示出的一种数据血缘关系提取方法的流程图。图3所示的流程30是对图2所示的流程中S206“对所述多个初始表进行数据清洗处理，生成多个中间表”的详细描述。

如图3所示，在S302中，对所述多个初始表进行关键字提取处理。由于初始表的数据可能存在乱码，会影响解析，所以可对SQL按行切分根据“--”关键字符区分将SQL中的注释去除。

在S304中，对所述多个初始表进行注释清除处理。可将清除多余注释后的SQL，转换为全小写并清除非SQL关键字的关键字符{“from”,“double”,“string”,“left”,“right”,“right”,“group”,“user”,“date”,“time”,“row”,“char”,“begin”,“end”}。

在S306中，对所述多个初始表进行补充查询名处理。包括：根据第一关键词确定所述多个初始表中的子查询的左括号；根据第二关键词确定所述多个初始表中的子查询的右括号；根据所述右括号后的数据确定所述子查询是否需要补充；在需要进行补充时，对所述子查询名称进行补充。

还可补全子查询别名，首先根据from关键字定位子查询括号，然后根据压栈出栈的方式匹配右侧括号，并且根据右侧括号的后续长度，字符。确定该子查询是否需要补充关键字

其中，子查询就是指的在一个完整的查询语句之中，嵌套若干个不同功能的小查询，从而一起完成复杂查询的一种编写形式。

在一个实施例中，还包括：采用递归的方式对所述多个初始表中所有的子查询进行补充查询名处理。

在S308中，生成所述多个中间表。数据采集完成后，由于部分SQL的复杂性较高，并且并不是完全标准的SQL(例如：子查询缺少表别名，SQL中存在关键字等)，使得无法正常解析，可对SQL语句进行规范化处理，针对缺少别名的情况，使用from关键字定位子查询左括号，然后通过压栈出栈的方式定位右括号，判断是否缺少子查询别名后补全。另外对SQL中字段别名，表别名使用group，double等关键字区分是否关键字并替换为非关键字。

数据血缘解析完成，落地到数据库时，可记录为jt_dw格式为：任务名，执行计划名，输入表名，输出表名，运行时间等字段。存储为一对多的方式(一段SQL中每个输入表存储一条)。

图4是根据另一示例性实施例示出的一种数据血缘关系提取方法的流程图。图4所示的流程40是对图2所示的流程中的补充描述。

如图4所示，在S402中，获取并展示输入表和输出表和其对应的链路关系。

在S404中，确定所述数据仓库的使用情况。可对数据仓库中任务使用数仓层表的比例进行统计，即数仓覆盖率＝使用数仓表的输出表个数/使用ODS或数仓表的输出表个数，用来观察数据仓库的使用情况。

在S406中，确定所述数据仓库中多个业务仓库的使用情况。可以观察到表与表之间的血缘关系，方便业务人员在进行业务开发时，定位所需要什么表，以及某个表异常的时候会影响到哪些下游作业。

在S408中，确定所述数据仓库的数据热点表。确定被使用最多的数据表格，以便业务人员针对该数据表格进行业务处理，或者在使用和该表格相关的业务时，直接调用热点表格(对应着底层数据)进行处理。由于数据仓库中的业务体系庞大，造成部分ODS表相关有数仓表存在但是业务方并不知情依然在使用多个ODS表进行同样的关联处理，这样既影响了业务产出效率，又造成了集群资源的浪费。通过输入表和输出表，可以分析出这部分任务，优化之后对集群的资源利用率有很大提升。

在S410中，确定所述数据仓库的操作热点表。确定被调用最多的数据表格。以便业务人员针对该数据表格进行数据维护处理，或者在使用和该表格相关的业务时，直接调用热点表格(对应着底层数据)进行处理。

根据本公开的数据血缘关系提取方法，生成了数据之间的血缘信息，血缘解析本身价值仅限于输入表和输出表的血缘图谱，但是基于这些数据产出的数据是数据仓库数据治理的很大依据，通过数据之间的血缘关系，可以对数据治理，集群优化提升很大的帮助。能够基于血缘信息了解表与表的关系，对数据的使用更加有信任感，业务人员也可以通过血缘图谱对该表的逻辑进行验证。

根据本公开的数据血缘关系提取方法，辅助业务人员对数据仓库有具体数字化的了解和掌握，方便工作内容的重心决策。

根据本公开的数据血缘关系提取方法，保护了大数据集群的资源，减少了重复的计算，并且增加了用户的体验感。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是根据一示例性实施例示出的一种数据血缘关系提取装置的框图。如图5所示，数据血缘关系提取装置50包括：数据模块502，初始表模块504，中间表模块506，提取模块508，分析模块510。

数据模块502用于通过多个方式由数据仓库中提取源数据，所述源数据为表格形式；所述数据模块502包括：报表单元，用于由报表开发系统中提取所述源数据；业务单元，用于由业务流监控系统中提取所述源数据；定时单元，用于基于服务器定时命令提取所述源数据；定时单元，还用于基于服务器的crontab命令提取所述源数据。收集单元，用于基于日志收集指令提取所述源数据。收集单元，还用于基于YARN资源管理器中的日志收集指令提取所述源数据。

初始表模块504用于将所述源数据进行解析生成多个初始表，初始表中存储作业名称、标识、SQL语句、创建时间；所述初始表模块504还用于提取所述源数据中的SQL语言和表格形式的数据并写入所述多个初始表中。

中间表模块506用于对所述多个初始表进行数据清洗处理，生成多个中间表；所述中间表模块506包括：关键字单元，用于对所述多个初始表进行关键字提取处理以生成所述多个中间表；和/或清除单元，用于对所述多个初始表进行注释清除处理以生成所述多个中间表；和/或补充单元，用于对所述多个初始表进行补充查询名处理以生成所述多个中间表。所述补充单元，还用于根据第一关键词确定所述多个初始表中的子查询的左括号；根据第二关键词确定所述多个初始表中的子查询的右括号；根据所述右括号后的数据确定所述子查询是否需要补充；在需要进行补充时，对所述子查询名称进行补充。所述补充单元，还用于采用递归的方式对所述多个初始表中所有的子查询进行补充查询名处理。

提取模块508用于基于血缘提取函数对所述多个中间表进行血缘提取处理，生成输入表和输出表和其对应的链路关系。所述提取模块，还用于基于LineageInfo方法对所述多个中间表进行血缘提取处理以生成输入表和输出表和其对应的链路关系。

分析模块510用于基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的使用情况；和/或基于所述输入表、所述输出表、所述链路关系确定所述数据仓库中多个业务仓库的使用情况；和/或基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的数据热点表；和/或基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的操作热点表。

根据本公开的数据血缘关系提取装置，通过多个方式由数据仓库中提取源数据，所述源数据为表格形式；将所述源数据进行解析生成多个初始表，初始表中存储作业名称、标识、SQL语句、创建时间；对所述多个初始表进行数据清洗处理，生成多个中间表；基于血缘提取函数对所述多个中间表进行血缘提取处理，生成输入表和输出表和其对应的链路关系。的方式，能够快速的对数据仓库中所有业务数据进行解析，并进行血缘关系的提取，节约了数据仓库的计算资源、减少了重复计算数量，提升了工作效率。

图6是根据一示例性实施例示出的一种电子设备的框图。

下面参照图6来描述根据本公开的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书中的根据本公开各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图2，图3，图4中所示的步骤。

所述存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备600’(例如键盘、指向设备、蓝牙设备等)通信，使得用户能与该电子设备600交互的设备通信，和/或该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，如图7所示，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：通过多个方式由数据仓库中提取源数据，所述源数据为表格形式；将所述源数据进行解析生成多个初始表，初始表中存储作业名称、标识、SQL语句、创建时间；对所述多个初始表进行数据清洗处理，生成多个中间表；基于血缘提取函数对所述多个中间表进行血缘提取处理，生成输入表和输出表和其对应的链路关系。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种数据血缘关系提取方法，其特征在于，包括：

由报表开发系统中提取源数据，所述源数据为表格形式；

由业务流监控系统中提取所述源数据；

基于服务器的crontab命令提取所述源数据；

基于YARN资源管理器中的日志收集指令提取所述源数据；

通过Druid解析器提取所述源数据中的SQL语言和表格形式的数据并写入多个初始表中以对数据仓库中所有业务数据进行解析，初始表中存储作业名称、标识、SQL语句、创建时间；

对多个初始表依次进行关键字提取处理、注释清除处理、补充查询名处理以生成多个中间表；其中，补充查询名处理具体包括：根据from关键字定位所述多个初始表中的子查询的左括号，根据压栈出栈的方式确定所述多个初始表中的子查询的右括号，并且根据右括号的后续长度及字符确定该子查询是否需要补充关键字；此外，对SQL语句中字段别名、表别名使用group或double关键字区分是否是关键字，并将关键字替换为非关键字；

调用LineageInfo方法对多个中间表进行血缘提取处理，将获取的输入表、输出表、链路关系文件以json的方式在预设时间后以一对多的方式写入本地服务器；同时，将所述链路关系文件上传至预设表存储，基于所述预设表开发血缘图谱所需json数据以对数据治理提供数据支撑。

2.如权利要求1所述的方法，其特征在于，对多个初始表进行补充查询名处理以生成多个中间表，包括：

根据第一关键词确定多个初始表中的子查询的左括号；

根据第二关键词确定多个初始表中的子查询的右括号；

根据所述右括号后的数据确定所述子查询是否需要补充；

在需要进行补充时，对所述子查询名称进行补充。

3.如权利要求2所述的方法，其特征在于，还包括：

采用递归的方式对多个初始表中所有的子查询进行补充查询名处理。

4.如权利要求1所述的方法，其特征在于，还包括：

基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的使用情况；和/或

基于所述输入表、所述输出表、所述链路关系确定所述数据仓库中多个业务仓库的使用情况；和/或

基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的数据热点表；和/或

基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的操作热点表。

5.一种数据血缘关系提取装置，其特征在于，包括：

数据模块，包括：报表单元，用于由报表开发系统中提取源数据；业务单元，用于由业务流监控系统中提取所述源数据；定时单元，用于基于服务器的crontab命令提取所述源数据；收集单元，用于基于YARN资源管理器中的基于日志收集指令提取所述源数据；

初始表模块，用于通过Druid解析器提取所述源数据中的SQL语言和表格形式的数据并写入多个初始表中以对数据仓库中所有业务数据进行解析，初始表中存储作业名称、标识、SQL语句、创建时间；

中间表模块，用于对多个初始表依次进行关键字提取处理、注释清除处理、补充查询名处理以生成多个中间表；其中，补充查询名处理具体包括：根据from关键字定位所述多个初始表中的子查询的左括号，根据压栈出栈的方式确定所述多个初始表中的子查询的右括号，并且根据右括号的后续长度及字符确定该子查询是否需要补充关键字；此外，对SQL语句中字段别名、表别名使用group或double关键字区分是否是关键字，并将关键字替换为非关键字；

提取模块，用于调用LineageInfo方法对多个中间表进行血缘提取处理，将获取的输入表、输出表、链路关系文件以json的方式在预设时间后以一对多的方式写入本地服务器；同时，将所述链路关系文件上传至预设表存储，基于所述预设表开发血缘图谱所需json数据以对数据治理提供数据支撑。

6.如权利要求5所述的装置，其特征在于，所述中间表模块，还用于

根据第一关键词确定多个初始表中的子查询的左括号；根据第二关键词确定多个初始表中的子查询的右括号；根据所述右括号后的数据确定所述子查询是否需要补充；在需要进行补充时，对所述子查询名称进行补充。

7.如权利要求5所述的装置，其特征在于，所述中间表模块，还用于

8.如权利要求5所述的装置，其特征在于，还包括：

分析模块，用于基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的使用情况；和/或基于所述输入表、所述输出表、所述链路关系确定所述数据仓库中多个业务仓库的使用情况；和/或基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的数据热点表；和/或基于所述输入表、所述输出表、所述链路关系确定所述数据仓库的操作热点表。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。