CN116303743A - 数据血缘分析方法、装置、计算机设备及存储介质 - Google Patents

数据血缘分析方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN116303743A
CN116303743A CN202310269463.7A CN202310269463A CN116303743A CN 116303743 A CN116303743 A CN 116303743A CN 202310269463 A CN202310269463 A CN 202310269463A CN 116303743 A CN116303743 A CN 116303743A
Authority
CN
China
Prior art keywords
data node
data
node
blood
upstream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310269463.7A
Other languages
English (en)
Inventor
罗晓波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202310269463.7A priority Critical patent/CN116303743A/zh
Publication of CN116303743A publication Critical patent/CN116303743A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请属于数据分析技术领域,涉及一种数据血缘分析方法、装置、计算机设备及存储介质,该方法包括通过获取需要可视化的目标数据节点,判断目标数据节点是否存在上游数据节点和下游数据节点;若存在,获取上游数据节点和下游数据节点的数据血缘关系,基于数据血缘关系,对上游数据节点和下游数据节点进行数据溯源,获取目标数据节点的最初数据节点以及目标数据节点的最终数据节点,得到目标数据节点的全链路流转血缘图,利用可视化界面展示目标数据节点的全链路流转血缘图。本申请还提供一种数据血缘分析。本申请通过可视化界面展示全链路流转血缘图,以将一次性地目标数据节点及其上、下游节点全部呈现出来,更加直观、友好。

Description

数据血缘分析方法、装置、计算机设备及存储介质
技术领域
本申请涉及数据分析技术领域,尤其涉及数据血缘分析方法、装置、计算机设备及存储介质。
背景技术
大数据时代,数据爆发性增长,海量的、各种类型的数据均在快速地产生,而这些庞大且复杂的数据信息经过抽取、转换、加载后又生成新的数据。在这个过程中,数据与数据之间产生的链接,称为大数据血缘,它具有归属性、多源性、可追溯性和多样性的特征,可用于数据溯源、数据价值评估、数据归档和销毁的参考,可为企业对大数据资产的治理提供价值。而可视化技术是利用计算机图形学和图像技术,将数据转化为图形或图像在屏幕上展示出来,再通过交互处理,从而帮助企业分析、获取有效信息的理论、方法和技术。通过将可视化技术应用到数据血缘的分析上,能够帮助企业直观地展示数据是如何流转的,为数据管理提供依据。
现有的数据血缘可视化方法中,一般是基于单个数据节点的血缘可视化,即只展示待观察数据节点和其上下游节点,而不呈现其上下游节点本身的上下游关系,这种方法虽然直观清晰,但是展示的血缘信息有限。
发明内容
本申请实施例的目的在于提出一种数据血缘分析方法、装置、计算机设备及存储介质,以解决目前可视化技术展示的血缘信息有限的技术问题。
为了解决上述技术问题,本申请实施例提供一种数据血缘分析方法,包括下述步骤:
获取需要可视化的目标数据节点;
判断所述目标数据节点是否存在上游数据节点和下游数据节点;
若存在,获取所述上游数据节点和所述下游数据节点的数据血缘关系;
基于所述数据血缘关系,对所述上游数据节点和所述下游数据节点进行数据溯源,并获取所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点,得到所述目标数据节点的全链路流转血缘图;
利用可视化界面展示所述目标数据节点的全链路流转血缘图。
进一步的,在所述判断所述目标数据节点是否存在上游数据节点和下游数据节点的步骤之后,还包括:
若不存在所述上游数据节点且存在所述下游数据节点,则获取所述下游数据节点的数据血缘关系,其中,所述目标数据节点作为所述最初数据节点;
若存在所述上游数据节点且不存在所述下游数据节点,则获取所述上游数据节点的数据血缘关系,其中,所述目标数据节点作为最终数据节点;
若不存在所述上游数据节点和所述下游数据节点,所述目标数据节点作为所述最初数据节点和所述最终数据节点。
进一步的,在所述上游数据节点和所述下游数据节点均为多个时,所述基于所述数据血缘关系,对所述上游数据节点和所述下游数据节点进行数据溯源,并获取所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点的步骤,具体包括:
基于所述数据血缘关系,对各个所述上游数据节点进行向上溯源的操作,并获取各个所述上游数据节点的所述最初数据节点;
基于所述数据血缘关系,对各个所述下游数据节点进行向下探测的操作,并获取各个所述下游数据节点的所述最终数据节点。
进一步的,在利用可视化界面展示所述目标数据节点的全链路流转血缘图的步骤之后,还包括:
获取可视化界面的显示阈值;
判断所述目标数据节点的所述上游数据节点和所述下游数据节点是否超过所述显示阈值;
若超过,则在可视化界面显示符合所述显示阈值的所述上游数据节点和所述下游数据节点,并将剩余的所述上游数据节点和所述下游数据节点进行分页,其中,处于分页状态的所述上游数据节点和所述下游数据节点在当前显示页面为隐藏状态,并可通过点击切换按钮进行切换显示。
进一步的,在在可视化界面显示符合所述显示阈值的所述上游数据节点和所述下游数据节点的步骤之后,还包括:
获取所述目标数据节点的节点表信息,所述节点表信息包括表名称、表注释、所述目标数据节点对应的所有上游数据节点的上游表和所有下游数据节点的下游表;
根据所述节点表数据创建目标数据表,并将所述目标数据表以弹窗的形式在可视化界面进行展示。
进一步的,在获取需要可视化的目标数据节点的步骤之后,还包括:
判断所述目标数据节点是否存在关联节点;
若存在,获取所述关联节点的数据信息,所述数据信息包括开始时间、结束时间、输入值、输出值以及与所述目标数据节点的映射关系;
根据所数据信息创建数据信息表,并将所述数据信息表以弹窗的形式在可视化界面进行展示。
进一步的,所述基于所述数据血缘关系,对所述上游数据节点和所述下游数据节点进行数据溯源,并获取所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点,得到所述目标数据节点的全链路流转血缘图的步骤之后,还包括:
获取所述目标数据节点的全链路流转血缘图对应的所有数据库信息,并利用可视化界面展示所有数据库信息;
从可视化界面展示的所有数据库信息选取与预设数据库对应的数据库信息,并在可视化界面中进行高亮显示。
为了解决上述技术问题,本申请实施例还提供一种数据血缘分析装置,采用了如下所述的技术方案:
第一获取模块,用于获取需要可视化的目标数据节点;
判断模块,用于判断所述目标数据节点是否存在上游数据节点和下游数据节点;
第二模块,用于若存在,获取所述上游数据节点和所述下游数据节点的数据血缘关系;
数据溯源模块,用于基于所述数据血缘关系,对所述上游数据节点和所述下游数据节点进行数据溯源,并获取所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点,得到所述目标数据节点的全链路流转血缘图;
展示模块,用于利用可视化界面展示所述目标数据节点的全链路流转血缘图。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上任意所述的数据血缘分析方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上任意所述的数据血缘分析方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请提供的技术方案中,通过获取需要可视化的目标数据节点,并判断所述目标数据节点是否存在上游数据节点和下游数据节点;若存在,获取所述上游数据节点和所述下游数据节点的数据血缘关系,然后再基于所述数据血缘关系,对所述上游数据节点和所述下游数据节点进行数据溯源,并获取所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点,得到所述目标数据节点的全链路流转血缘图,最后利用可视化界面展示所述目标数据节点的全链路流转血缘图。即本申请通过可视化界面展示全链路流转血缘图,以将一次性地目标数据节点及其上、下游节点全部呈现出来;并且,可视化界面也能够完整地呈现了目标数据节点的全链路流转血缘图,同时可视化界面的显示更加直观、友好。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2根据本申请的数据血缘分析方法的一个实施例的流程图;
图3根据本申请的数据血缘分析方法的另一个实施例的流程图;
图4是根据本申请的数据血缘分析装置的一个实施例的结构示意图;
图5是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的数据血缘分析方法一般由服务器/终端设备执行,相应地,数据血缘分析装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的数据血缘分析的方法的一个实施例的流程图。所述的数据血缘分析方法,包括以下步骤:
步骤S201,获取需要可视化的目标数据节点。
在本实施例中,数据血缘分析方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收可视化请求。需要指出的是,上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
本申请的技术方案可以应用于对具有血缘关系的各节点所组成的关系网有可视化需求的场景中。例如,用户选中任意一个数据节点作为目标数据节点,并以该目标数据节点的数据血缘关系,生成可视化请求,并向电子设备发送可视化请求。电子设备响应所述可视化请求,从所述可视化请求中确定需要可视化的目标数据节点,并根据所述目标数据节点从数据对象表中确定对应的血缘数据对象,作为当前血缘数据对象。
具体地,电子设备接收到可视化请求后,做出响应,从该可视化请求中确定需要进行可视化的目标数据节点。其中,该目标数据节点是用户选定的对应的数据对象表中的任意一个血缘数据对象,即目标数据节点。需说明的是,用户可以通过与电子设备相连接的客户端选定目标数据节点,或者,还可以通过其他方式选定目标数据节点,在此并不进行限定。
步骤S202,判断所述目标数据节点是否存在上游数据节点和下游数据节点。
在本实施例中,电子设备会判断所述目标数据节点是否存在上游数据节点和下游数据节点。即,电子设备获取与目标数据节点相对应的数据对象表,其中,所述数据对象表包括目标数据节点的映射关系。然后根据目标数据节点的映射关系确定目标数据节点是否存在上游数据节点和下游数据节点。
其中,不同数据节点之间具有关联关系或者依赖关系的数据节点。例如,各数据节点之间的血缘关系映射是已知的,且所有的血缘映射关系都可以用点线形式来描述:节点表示数据表,如果节点A表示数据表A;线表示数据表间的依赖关系,一般的,可以写成如下形式(节点A,节点B),表示节点A生成节点B,即,数据表A生成了数据表B,数据表B依赖于数据表A。并且,数据表A为数据表B的上游数据表,数据表B为数据表A的下游数据表。
本申请一般应用于对某节点进行溯源或者查询某节点的后继节点之间关系的场景,以要查询的节点为起始节点进行血缘关系展示的场景。例如,在实际应用中,查询表A的数据来源,即哪些表生成了表A,哪些表发生变化,会影响到表A,或者查询表A的后继影响,即表A生成了哪些表,表A变化时,会影响哪些表。
进一步地,上游数据节点是指目标数据节点的上一节点,即前驱节点,该目标数据节点的前驱节点可以是零,也可以是1个或多个。而下游数据节点是指目标数据节点的下一节点,即后继节点,该目标数据节点的后继节点可以是零,也可以是1个或多个。若慕目标数据节点的前驱节点为零时,该目标数据节点作为目标数据节点的最初数据节点;若目标数据节点的后继节点为零时,该目标数据节点作为目标数据节点的最终数据节点。
步骤S203,若存在,获取所述上游数据节点和所述下游数据节点的数据血缘关系。
在本实施例中,若不存在所述上游数据节点和所述下游数据节点,则获取所述上游数据节点和所述下游数据节点的数据血缘关系。
所述上游数据节点的数据血缘关系是指所述目标数据节点通过前驱节点逐层向上,查找到最初数据节点的递归关系,其中,最初数据节点是指所述目标数据节点的源节点。所述下游数据节点的数据血缘关系是指所述目标数据节点通过后续节点逐层向下,查找到最终数据节点的递归关系,其中,最终数据节点是指所述目标数据节点的终节点。而本步骤中,所述上游数据节点和所述下游数据节点的数量至少为一个,若所述上游数据节点和所述下游数据节点的数量为多个时,每一所述上游数据节点和每一所述下游数据节点均具有一个最初数据节点和一个最终数据节点。即,所述上游数据节点的数量与源节点的数量相等,所述下游数据节点的数量与终节点的数量相等。
步骤S204,基于所述数据血缘关系,对所述上游数据节点和所述下游数据节点进行数据溯源,并获取所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点,得到所述目标数据节点的全链路流转血缘图。
在本实施例中,在获取到数据血缘关系后,对所述上游数据节点和所述下游数据节点进行数据溯源,即,根据所述上游数据节点的数据血缘关系逐层向上,查找并得到最初数据节点。并且,根据所述下游数据节点的数据血缘关系逐层向下,查找并得到最终数据节点,从而获取到所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点,基于最初数据节点和最终数据节点,得到所述目标数据节点的全链路流转血缘图。需说明的是,所述目标数据节点的全链路流转血缘图包括从最初数据节点和最终数据节点所有的数据节点,即,从源节点(源数据表)到终节点(终数据表)之间的所有节点信息。
进一步地,在所述上游数据节点和所述下游数据节点均为多个时,基于各个所述上游数据节点的数据血缘关系,对各个所述上游数据节点进行向上溯源(递归向上)的操作,并获取各个所述上游数据节点的所述最初数据节点,其中,每一上游数据节点对应一个最初数据节点。并且,基于各个所述下游数据节点的数据血缘关系,对各个所述下游数据节点进行向下探测(递归向下)的操作,并获取各个所述下游数据节点的所述最终数据节点,其中,每一下游数据节点对应一个最终数据节点。
步骤S205,利用可视化界面展示所述目标数据节点的全链路流转血缘图。
获取到所述目标数据节点的全链路流转血缘图,利用可视化界面展示所述目标数据节点的全链路流转血缘图。即通过可视化界面展示全链路流转血缘图,以将一次性地目标数据节点及其上、下游节点全部呈现出来;并且,可视化界面也能够完整地呈现了目标数据节点的全链路流转血缘图,同时可视化界面的显示更加直观、友好。
本申请提供的技术方案中,通过获取需要可视化的目标数据节点,并判断所述目标数据节点是否存在上游数据节点和下游数据节点;若存在,获取所述上游数据节点和所述下游数据节点的数据血缘关系,然后再基于所述数据血缘关系,对所述上游数据节点和所述下游数据节点进行数据溯源,并获取所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点,得到所述目标数据节点的全链路流转血缘图,最后利用可视化界面展示所述目标数据节点的全链路流转血缘图。即本申请通过可视化界面展示全链路流转血缘图,以将一次性地目标数据节点及其上、下游节点全部呈现出来;并且,可视化界面也能够完整地呈现了目标数据节点的全链路流转血缘图,同时可视化界面的显示更加直观、友好。
在本实施例的一些可选的实现方式中,在判断所述目标数据节点是否存在上游数据节点和下游数据节点的步骤之后,上述电子设备还可以执行以下步骤:
若不存在所述上游数据节点且存在所述下游数据节点,则获取所述下游数据节点的数据血缘关系,其中,所述目标数据节点作为所述最初数据节点。即,若不存在所述上游数据节点且存在所述下游数据节点,所述目标数据节点作为所述最初数据节点,此时,获取所述下游数据节点的数据血缘关系,并通过所述下游数据节点的数据血缘关系递归向下,从而获取所述目标数据节点的最终数据节点。
若存在所述上游数据节点且不存在所述下游数据节点,则获取所述上游数据节点的数据血缘关系,其中,所述目标数据节点作为最终数据节点。即,若存在所述上游数据节点且不存在所述下游数据节点,所述目标数据节点作为最终数据节点,此时,获取所述上游数据节点的数据血缘关系,并通过所述上游数据节点的数据血缘关系递归向上,从而获取所述目标数据节点的最初数据节点。
若不存在所述上游数据节点和所述下游数据节点,所述目标数据节点作为所述最初数据节点和所述最终数据节点。即,可视化界面显示所述目标数据节点无所述上游数据节点和所述下游数据节点。
进一步地,如图3所示,在利用可视化界面展示所述目标数据节点的全链路流转血缘图的步骤之后,还包括:
步骤S206,获取可视化界面的显示阈值;
步骤S207,判断所述目标数据节点的所述上游数据节点和所述下游数据节点是否超过所述显示阈值;
步骤S208,若超过,则在可视化界面显示符合所述显示阈值的所述上游数据节点和所述下游数据节点,并将剩余的所述上游数据节点和所述下游数据节点进行分页,其中,处于分页状态的所述上游数据节点和所述下游数据节点在当前显示页面为隐藏状态,并可通过点击切换按钮进行切换显示。
以上步骤具体如下:由于目标数据节点存在所述上游数据节点和所述下游数据节点,且所述上游数据节点和所述下游数据节点为多个时,可视化界面可能不能完全展示多个所述上游数据节点和所述下游数据节点。
通过获取可视化界面的显示阈值,本实施例中,显示阈值为5个上游数据节点和5个下游数据节点,这里,可视化界面的显示阈值为可视化界面当前页面的显示阈值,即,当前页面可显示5个上游数据节点和5个下游数据节点。需说明的是,其他实施例中,当前页面可显示的上游数据节点和下游数据节点可以设置为其他数据数值,具体可以根据实际需求设定。
进一步地,再获取到显示阈值后,判断所述目标数据节点的所述上游数据节点和所述下游数据节点是否超过所述显示阈值;若超过,则在可视化界面显示符合所述显示阈值的所述上游数据节点和所述下游数据节点(比如,显示5个上游数据节点和5个下游数据节点)。并且,将剩余的所述上游数据节点和所述下游数据节点进行分页,其中,处于分页状态的所述上游数据节点和所述下游数据节点在当前显示页面为隐藏状态,并可通过点击切换按钮进行切换显示。
比如,当所述上游数据节点(7个)和所述下游数据节点(6个)分别超过5个时,将第6个和第7个上游数据节点、第6个下游数据节点进行分页显示。并且,在可视化界面设置由切换按钮(类似于“1/2”字样的按钮),点击切换按钮时,可将当前页面显示的上游数据节点和/或下游数据节点进行隐藏,而将下一页的上游数据节点和/或下游数据节点进行显示。
具体地,在当前页面的页数小于等于上游数据节点的总页数时,可通过点击切换按钮对上游数据节点进行切换显示;在当前页面的页数小于等于下游数据节点的总页数时,可通过点击切换按钮对下游数据节点进行切换显示。
如此,可通过分页和分层设计减少了大数据量下后端数据请求和前端可视化压力,平衡了上游数据节点和下游数据节点的节点位置,使得上游数据节点和下游数据节点之间的交叉线条大大减少,明显改善了复杂血缘关系的可视化效果,简化了可视化界面,大大地提高了分析人员血缘分析的有效性。
在一实际应用场景中,可视化界面上设置有上游按钮和下游按钮,用户也可以通过交互操作实现对上游或下游血缘的显示或隐藏,实现只展示上游血缘或只展示下游血缘,用于各种定制化分析场景。比如,勾选上游按钮时,即可视化界面只显示上游数据节点;勾选下游按钮时,即可视化界面只显示下游数据节点。
进一步地,在在可视化界面显示符合所述显示阈值的所述上游数据节点和所述下游数据节点的步骤之后,还包括获取所述目标数据节点的节点表信息,所述节点表信息包括表名称、表注释、所述目标数据节点对应的所有上游数据节点的上游表和所有下游数据节点的下游表,并根据所述节点表数据创建目标数据表,并将所述目标数据表以弹窗的形式在可视化界面进行展示。
在实际应用场景中,可通过双击目标数据节点,以将所述目标数据节点对应的目标数据表以弹窗的形式在可视化界面进行展示。比如:目标数据表中的上游表展示了所述目标数据节点(目标数据表)的上游表总数量为44,总层数为4层,这44张上游表分布在5个数据库,其中,数据库cx_delta_safe中包含18张上游表,数据库cx_outer_safe中包含2张上游表,数据库cx_dim_safe中包含5张上游表,数据库cx_ods_safe中包含18张上游表,数据库cx_ods_mask中包含1张上游表。同理,下游表展示的内容与上游表类似,只是所包含的数量、层数以及其数据库不相同。
进一步地,在获取需要可视化的目标数据节点的步骤之后,还包括判断所述目标数据节点是否存在关联节点,若存在,获取所述关联节点的数据信息,所述数据信息包括开始时间、结束时间、输入值、输出值以及与所述目标数据节点的映射关系,并根据所数据信息创建数据信息表,并将所述数据信息表以弹窗的形式在可视化界面进行展示。
比如,对两个具有直接关联关系的数据节点node_a和数据节点node_b,其中,以数据节点node_a为目标数据节点,可视化界面上定义了一个操作节点processNode_a_b,并可将其标记为绿色,用户可以在可视化界面中选择对其展示与隐藏。当勾选可视化界面上的操作节点时,则会将全链路流转血缘图中所有的操作节点显示出来,在显示状态下,当用户交互点击某个操作节点(如processNode_a_b)时,会出现弹窗展示该操作节点对应的SQL语句,也即让数据节点node_a和数据node_b产生关联关系的数据库处理语句,即,数据节点node_a中的数据是如何转化处理成数据节点node_b中的数据,从而帮助用户获取更多有效信息,进行更加深入地分析。
进一步地,在所述基于所述数据血缘关系,对所述上游数据节点和所述下游数据节点进行数据溯源,并获取所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点,得到所述目标数据节点的全链路流转血缘图的步骤之后,还包括获取所述目标数据节点的全链路流转血缘图对应的所有数据库信息,并利用可视化界面展示所有数据库信息,从可视化界面展示的所有数据库信息选取与预设数据库对应的数据库信息,并在可视化界面中进行高亮显示。
比如,对于目标数据节点node_a的完整全链路数据血缘图中涉及到的数据库信息,即node_a的所有上游表和下游表分布的数据库集合,用户可下拉选择该数据库集合中的数据库(可视化界面中设有数据库下拉框,该数据库下拉框内具有数据库集合中的所有数据库),当用户选中某个数据库时,可视化界面会高亮该数据库下对应的所有表,从而帮助用户实现分数据库场景的分析。
因此,通过提供各种简单快速的交互式操作,能够帮助用户针对各种定制化场景进行有效分析,提取有价值的信息,为企业对数据资产的管理和治理提供有效的依据,促进数据价值资产的体现和升级。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图4,作为对上述图2所示方法的实现,本申请提供了一种数据血缘分析装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例所述的数据血缘分析装置400包括:第一获取模块401、判断模块402、第二获取模块403、数据溯源模块404以及展示模块405。其中:
第一获取模块401用于获取需要可视化的目标数据节点;
判断模块402用于判断所述目标数据节点是否存在上游数据节点和下游数据节点;
第二获取模块403用于若存在,获取所述上游数据节点和所述下游数据节点的数据血缘关系;
数据溯源模块404用于基于所述数据血缘关系,对所述上游数据节点和所述下游数据节点进行数据溯源,并获取所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点,得到所述目标数据节点的全链路流转血缘图;
展示模块405用于利用可视化界面展示所述目标数据节点的全链路流转血缘图。
本申请提供的技术方案中,通过第一获取模块401获取需要可视化的目标数据节点,并提供判断模块402判断所述目标数据节点是否存在上游数据节点和下游数据节点;若存在,则通过第二获取模块403获取所述上游数据节点和所述下游数据节点的数据血缘关系,然后再基于所述数据血缘关系,通过数据溯源模块404对所述上游数据节点和所述下游数据节点进行数据溯源,并获取所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点,得到所述目标数据节点的全链路流转血缘图,最后利用可视化界面的展示模块405展示所述目标数据节点的全链路流转血缘图。即本申请通过可视化界面展示全链路流转血缘图,以将一次性地目标数据节点及其上、下游节点全部呈现出来;并且,可视化界面也能够完整地呈现了目标数据节点的全链路流转血缘图,同时可视化界面的显示更加直观、友好。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。
所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有组件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件,例如数据血缘分析方法的计算机可读指令等。此外,所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的计算机可读指令或者处理数据,例如运行所述数据血缘分析方法的计算机可读指令。
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
本申请提供的技术方案中,通过获取需要可视化的目标数据节点,并判断所述目标数据节点是否存在上游数据节点和下游数据节点;若存在,获取所述上游数据节点和所述下游数据节点的数据血缘关系,然后再基于所述数据血缘关系,对所述上游数据节点和所述下游数据节点进行数据溯源,并获取所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点,得到所述目标数据节点的全链路流转血缘图,最后利用可视化界面展示所述目标数据节点的全链路流转血缘图。即本申请通过可视化界面展示全链路流转血缘图,以将一次性地目标数据节点及其上、下游节点全部呈现出来;并且,可视化界面也能够完整地呈现了目标数据节点的全链路流转血缘图,同时可视化界面的显示更加直观、友好。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的数据血缘分析方法的步骤。
本申请提供的技术方案中,通过获取需要可视化的目标数据节点,并判断所述目标数据节点是否存在上游数据节点和下游数据节点;若存在,获取所述上游数据节点和所述下游数据节点的数据血缘关系,然后再基于所述数据血缘关系,对所述上游数据节点和所述下游数据节点进行数据溯源,并获取所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点,得到所述目标数据节点的全链路流转血缘图,最后利用可视化界面展示所述目标数据节点的全链路流转血缘图。即本申请通过可视化界面展示全链路流转血缘图,以将一次性地目标数据节点及其上、下游节点全部呈现出来;并且,可视化界面也能够完整地呈现了目标数据节点的全链路流转血缘图,同时可视化界面的显示更加直观、友好。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种数据血缘分析方法,其特征在于,包括下述步骤:
获取需要可视化的目标数据节点;
判断所述目标数据节点是否存在上游数据节点和下游数据节点;
若存在,获取所述上游数据节点和所述下游数据节点的数据血缘关系;
基于所述数据血缘关系,对所述上游数据节点和所述下游数据节点进行数据溯源,并获取所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点,得到所述目标数据节点的全链路流转血缘图;
利用可视化界面展示所述目标数据节点的全链路流转血缘图。
2.根据权利要求1所述的数据血缘分析方法,其特征在于,在所述判断所述目标数据节点是否存在上游数据节点和下游数据节点的步骤之后,还包括:
若不存在所述上游数据节点且存在所述下游数据节点,则获取所述下游数据节点的数据血缘关系,其中,所述目标数据节点作为所述最初数据节点;
若存在所述上游数据节点且不存在所述下游数据节点,则获取所述上游数据节点的数据血缘关系,其中,所述目标数据节点作为最终数据节点;
若不存在所述上游数据节点和所述下游数据节点,所述目标数据节点作为所述最初数据节点和所述最终数据节点。
3.根据权利要求2所述的数据血缘分析方法,其特征在于,在所述上游数据节点和所述下游数据节点均为多个时,所述基于所述数据血缘关系,对所述上游数据节点和所述下游数据节点进行数据溯源,并获取所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点的步骤,具体包括:
基于所述数据血缘关系,对各个所述上游数据节点进行向上溯源的操作,并获取各个所述上游数据节点的所述最初数据节点;
基于所述数据血缘关系,对各个所述下游数据节点进行向下探测的操作,并获取各个所述下游数据节点的所述最终数据节点。
4.根据权利要求1所述的数据血缘分析方法,其特征在于,在利用可视化界面展示所述目标数据节点的全链路流转血缘图的步骤之后,还包括:
获取可视化界面的显示阈值;
判断所述目标数据节点的所述上游数据节点和所述下游数据节点是否超过所述显示阈值;
若超过,则在可视化界面显示符合所述显示阈值的所述上游数据节点和所述下游数据节点,并将剩余的所述上游数据节点和所述下游数据节点进行分页,其中,处于分页状态的所述上游数据节点和所述下游数据节点在当前显示页面为隐藏状态,并可通过点击切换按钮进行切换显示。
5.根据权利要求4所述的数据血缘分析方法,其特征在于,在在可视化界面显示符合所述显示阈值的所述上游数据节点和所述下游数据节点的步骤之后,还包括:
获取所述目标数据节点的节点表信息,所述节点表信息包括表名称、表注释、所述目标数据节点对应的所有上游数据节点的上游表和所有下游数据节点的下游表;
根据所述节点表数据创建目标数据表,并将所述目标数据表以弹窗的形式在可视化界面进行展示。
6.根据权利要求1所述的数据血缘分析方法,其特征在于,在获取需要可视化的目标数据节点的步骤之后,还包括:
判断所述目标数据节点是否存在关联节点;
若存在,获取所述关联节点的数据信息,所述数据信息包括开始时间、结束时间、输入值、输出值以及与所述目标数据节点的映射关系;
根据所数据信息创建数据信息表,并将所述数据信息表以弹窗的形式在可视化界面进行展示。
7.根据权利要求1所述的数据血缘分析方法,其特征在于,所述基于所述数据血缘关系,对所述上游数据节点和所述下游数据节点进行数据溯源,并获取所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点,得到所述目标数据节点的全链路流转血缘图的步骤之后,还包括:
获取所述目标数据节点的全链路流转血缘图对应的所有数据库信息,并利用可视化界面展示所有数据库信息;
从可视化界面展示的所有数据库信息选取与预设数据库对应的数据库信息,并在可视化界面中进行高亮显示。
8.一种数据血缘分析装置,其特征在于,包括:
第一获取模块,用于获取需要可视化的目标数据节点;
判断模块,用于判断所述目标数据节点是否存在上游数据节点和下游数据节点;
第二模块,用于若存在,获取所述上游数据节点和所述下游数据节点的数据血缘关系;
数据溯源模块,用于基于所述数据血缘关系,对所述上游数据节点和所述下游数据节点进行数据溯源,并获取所述目标数据节点的最初数据节点以及所述目标数据节点的最终数据节点,得到所述目标数据节点的全链路流转血缘图;
展示模块,用于利用可视化界面展示所述目标数据节点的全链路流转血缘图。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的数据血缘分析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的数据血缘分析方法的步骤。
CN202310269463.7A 2023-03-14 2023-03-14 数据血缘分析方法、装置、计算机设备及存储介质 Pending CN116303743A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310269463.7A CN116303743A (zh) 2023-03-14 2023-03-14 数据血缘分析方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310269463.7A CN116303743A (zh) 2023-03-14 2023-03-14 数据血缘分析方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN116303743A true CN116303743A (zh) 2023-06-23

Family

ID=86784804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310269463.7A Pending CN116303743A (zh) 2023-03-14 2023-03-14 数据血缘分析方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN116303743A (zh)

Similar Documents

Publication Publication Date Title
WO2021184571A1 (zh) 动态表单生成方法、装置、计算机设备和存储介质
WO2018072071A1 (zh) 知识图谱构建系统及方法
CN111522927B (zh) 基于知识图谱的实体查询方法和装置
US20210374195A1 (en) Information processing method, electronic device and storage medium
CN107133263B (zh) Poi推荐方法、装置、设备及计算机可读存储介质
CN113010542B (zh) 业务数据处理方法、装置、计算机设备及存储介质
CN111553556A (zh) 业务数据分析方法、装置、计算机设备及存储介质
CN109710939B (zh) 用于确定主题的方法和装置
CN112966756A (zh) 一种可视化的准入规则的生成方法、装置、机器可读介质及设备
CN114880498B (zh) 事件信息展示方法及装置、设备和介质
CN116594628A (zh) 数据溯源方法、装置和计算机设备
CN115221290A (zh) 标签前置数据查询方法、装置、电子设备及可读存储介质
CN116303743A (zh) 数据血缘分析方法、装置、计算机设备及存储介质
CN111723177B (zh) 信息提取模型的建模方法、装置及电子设备
CN114186147A (zh) 数据处理方法、装置、电子设备和存储介质
CN113420042A (zh) 基于演示文稿的数据统计方法、装置、设备及存储介质
CN111143328A (zh) 一种敏捷商业智能数据构建方法、系统、设备、存储介质
CN111984839A (zh) 绘制用户画像的方法和装置
CN112306312A (zh) 数据处理方法、数据处理系统、信息创建方法及设备
CN112016017A (zh) 确定特征数据的方法和装置
CN113706209B (zh) 运营数据处理方法及相关装置
CN116089459B (zh) 数据检索方法、装置、电子设备及存储介质
CN115145449B (zh) 书单生成方法、电子设备及计算机存储介质
CN113704593B (zh) 一种运营数据处理方法及相关装置
CN113176878B (zh) 自动查询方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination