CN113434312A - 数据血缘关系处理方法及装置 - Google Patents

数据血缘关系处理方法及装置 Download PDF

Info

Publication number
CN113434312A
CN113434312A CN202110731558.7A CN202110731558A CN113434312A CN 113434312 A CN113434312 A CN 113434312A CN 202110731558 A CN202110731558 A CN 202110731558A CN 113434312 A CN113434312 A CN 113434312A
Authority
CN
China
Prior art keywords
data
target data
blood
information
message queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110731558.7A
Other languages
English (en)
Inventor
张雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Original Assignee
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Haier Technology Co Ltd, Haier Smart Home Co Ltd filed Critical Qingdao Haier Technology Co Ltd
Priority to CN202110731558.7A priority Critical patent/CN113434312A/zh
Publication of CN113434312A publication Critical patent/CN113434312A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Abstract

本发明公开了一种数据血缘关系处理方法及装置。其中,该方法包括:获取由消息队列输出的目标数据,其中,目标数据为待进行血缘分析的数据;对目标数据进行血缘分析,得到目标数据的血缘信息;将血缘信息同步至目标数据所在数据资产中。本发明解决了相关技术中由于数据来源和目标数据源的差异较大,血缘信息采集无法获取统一而完整的数据的技术问题。

Description

数据血缘关系处理方法及装置
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据血缘关系处理方法及装置。
背景技术
目前,企业对大数据的需求逐渐加深,数据仓库规模越来越大,数据血缘和业务模型血缘的建设显得尤为重要,开发人员需要知道数据的影响范围,数仓管理人员需要知道数据及业务关系。
其中,数据血缘描述了数据在生产、传输、使用、存储、共享和销毁的生命周期中数据之间的关联关系和数据的流向,并且其在数据应用和治理中可以用于数据的溯源分析、影响分析和重要程度等分析
然而目前数据血缘方案,由于数据来源和目标数据源的差异巨大,难以做到数据输送方式的统一,血缘信息采集无法获取统一而完整的数据。
针对上述弊端,现行的方案通常是在大数据平台内针对各组件进行监控记录,并将信息写入数据库。但大数据平台不可能只处理大数据组件间的数据,还会涉及关系型数据库、接口传输数据、文档数据(ftp类)等等,这些数据也需要。
此外,普通数据血缘的构建,功能只局限在一个大数据平台上的HiveSQL、Impala、Sqoop等大数据组件,且只支持同一集群内的数据处理行为,但实际的大数据数仓的构建以及业务中,涉及的数据来源广泛,数据交换方式也是多种多样。而目前的血缘的采集并不能满足上述要求。
针对上述相关技术中由于数据来源和目标数据源的差异较大,血缘信息采集无法获取统一而完整的数据的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据血缘关系处理方法及装置,以至少解决相关技术中由于数据来源和目标数据源的差异较大,血缘信息采集无法获取统一而完整的数据的技术问题。
根据本发明实施例的一个方面,提供了一种数据血缘关系处理方法,包括:获取由消息队列输出的目标数据,其中,所述目标数据为待进行血缘分析的数据;对所述目标数据进行血缘分析,得到所述目标数据的血缘信息;将所述血缘信息同步至所述目标数据所在数据资产中。
可选地,在获取由消息队列输出的目标数据之前,该数据血缘关系处理方法还包括:在数据处理端产生所述目标数据时,所述目标数据被传输至所述消息队列中,以利用所述消息队列缓存所述目标数据;在所述消息队列输出所述目标数据时,接收所述消息队列输出的所述目标数据。
可选地,所述目标数据被所述数据处理端通过预定应用接口传输至所述消息队列中。
可选地,对所述目标数据进行血缘分析,得到所述目标数据的血缘信息,包括:获取所述目标数据中的数据血缘;对所述数据血缘进行分析,得到多种指标数据;基于所述多种指标数据得到所述目标数据的血缘信息。
可选地,在对所述目标数据进行血缘分析,得到所述目标数据的血缘信息之后,该数据血缘关系处理方法还包括:将所述血缘信息写入图数据库中。
可选地,在将所述血缘信息同步至所述目标数据所在数据资产中之后,该数据血缘关系处理方法还包括:利用所述血缘信息对数据仓库进行更新;以及,利用所述血缘信息对原始血缘信息进行优化,得到优化后的血缘信息。
可选地,在将所述血缘信息同步至所述目标数据所在数据资产中之后,该数据血缘关系处理方法还包括:将所述优化后的血缘信息反馈至数据处理端,以触发所述数据处理端利用所述优化后的血缘信息对所述数据资产所在业务系统进行更新。
根据本发明实施例的另外一个方面,还提供了一种数据血缘关系处理装置,包括:获取单元,用于获取由消息队列输出的目标数据,其中,所述目标数据为待进行血缘分析的数据;分析单元,用于对所述目标数据进行血缘分析,得到所述目标数据的血缘信息;同步单元,用于将所述血缘信息同步至所述目标数据所在数据资产中。
可选地,该数据血缘关系处理装置还包括:缓存单元,用于在获取由消息队列输出的目标数据之前,在数据处理端产生所述目标数据时,所述目标数据被传输至所述消息队列中,以利用所述消息队列缓存所述目标数据;接收单元,用于在所述消息队列输出所述目标数据时,接收所述消息队列输出的所述目标数据。
可选地,所述目标数据被所述数据处理端通过预定应用接口传输至所述消息队列中。
可选地,所述分析单元,包括:第一获取模块,用于获取所述目标数据中的数据血缘;分析模块,用于对所述数据血缘进行分析,得到多种指标数据;第二获取模块,用于基于所述多种指标数据得到所述目标数据的血缘信息。
可选地,该数据血缘关系处理装置还包括:写入单元,用于在对所述目标数据进行血缘分析,得到所述目标数据的血缘信息之后,将所述血缘信息写入图数据库中。
可选地,该数据血缘关系处理装置还包括:第一更新单元,用于在将所述血缘信息同步至所述目标数据所在数据资产中之后,利用所述血缘信息对数据仓库进行更新;以及,优化单元,用于利用所述血缘信息对原始血缘信息进行优化,得到优化后的血缘信息。
可选地,该数据血缘关系处理装置还包括:第二更新单元,用于在将所述血缘信息同步至所述目标数据所在数据资产中之后,将所述优化后的血缘信息反馈至数据处理端,以触发所述数据处理端利用所述优化后的血缘信息对所述数据资产所在业务系统进行更新。
根据本发明实施例的另外一个方面,还提供了一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述任一项中所述的数据血缘关系处理方法。
根据本发明实施例的另外一个方面,还提供了一种数据血缘关系处理系统,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行上述任一项中所述的数据血缘关系处理方法。
在本发明实施例中,获取由消息队列输出的目标数据,其中,目标数据为待进行血缘分析的数据;对目标数据进行血缘分析,得到目标数据的血缘信息;将血缘信息同步至目标数据所在数据资产中。通过本发明实施例提供的数据血缘关系处理方法,实现了通过使用消息队列做中转对目标数据进行传输的目的,提高了可承受数据处理并发量的技术效果,进而解决了相关技术中由于数据来源和目标数据源的差异较大,血缘信息采集无法获取统一而完整的数据的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种数据血缘关系处理方法的计算机终端的硬件结构框图;
图2是根据本发明实施例的数据血缘关系处理方法的流程图;
图3是根据本发明实施例的可选的数据血缘关系处理方法的流程图
图4是根据本发明实施例的数据血缘关系处理方法的时序图;
图5是根据本发明实施例的另一可选的数据血缘关系处理方法的流程图;
图6是根据本发明实施例的数据血缘关系处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例所提供的方法实施例可以在计算机终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种数据血缘关系处理方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,在一个示例性实施例中,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的数据血缘关系处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Control ler,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
根据本发明实施例,提供了一种数据血缘关系处理方法的方法实施例,需要说明的是,该方法即可以应用于开发侧,也可以应用于业务侧。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本发明实施例的数据血缘关系处理方法的流程图,如图2所示,该数据血缘关系处理方法包括如下步骤:
步骤S202,获取由消息队列输出的目标数据,其中,所述目标数据为待进行血缘分析的数据。
可选的,上述消息队列可以为卡夫卡kafka消息队列。Kafka主要用于处理活跃的流式数据,活跃的流式数据在web网站应用中非常常见,这些数据可以包括网站的pv、用户访问了什么内容、搜索了什么内容等。这些数据通常以日志的形式记录下来,然后每隔一段时间进行一次统计处理。
另外,kafka对消息保存时根据topic进行归类,发送消息者称为producer,消息接受者成为consumer,此外kafka集群中有多个kafka实例组成,每个实例成为broker。无论是kafka集群,还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。
由于实际的大数据仓库构建以及业务中,涉及的数据来源广泛,数据交换方式也是多种多样,对血缘的采集提出了较高的要求。因此,在本发明实施例中通过代理模式屏蔽掉数据处理过程中车差异,通过使用消息队列做中转传输,以提高可承受的数据处理并发量。
步骤S204,对所述目标数据进行血缘分析,得到所述目标数据的血缘信息。
可选的,这里的目标数据可以为不同业务系统之间数据资产里的数据,
步骤S206,将所述血缘信息同步至所述目标数据所在数据资产中。
可选的,这里的数据资产可以为多个业务系统对应的数据仓库中存储的业务数据,例如,业务类型、业务对应的数据、数据的来源、数据的用途等信息,这里的数据资产可以以不同的类型呈现、例如,数字类型、文字类型、字母类型等。
这里的血缘数据可以描述数据的来源、数据的用途、数据被哪些对象使用、数据的归属、数据的使用时间、数据的生命周期等。在本发明实施例中,可以通过不同业务之间的数据交互来确定数据的流向、使用状态信息。
由上可知,在本发明实施例中,可以通过获取由消息队列输出的目标数据,对所述目标数据进行血缘分析,得到所述目标数据的血缘信息,将所述血缘信息同步至所述目标数据所在数据资产中,实现了通过使用消息队列做中转对目标数据进行传输的目的,提高了可承受数据处理并发量的技术效果。
值得注意的是,由于在本发明实施例中,使用第三方数据传输、存储管道,对数据处理的元数据信息进行转储,并统一存储到图数据库中,从而可以支持多维度、高效的数据关系查看。
因此,通过本发明实施例提供的数据血缘关系处理方法,解决了相关技术中由于数据来源和目标数据源的差异较大,血缘信息采集无法获取统一而完整的数据的技术问题。
作为一种可选的实施例,在获取由消息队列输出的目标数据之前,该数据血缘关系处理方法还可以包括:在数据处理端产生所述目标数据时,所述目标数据被传输至所述消息队列中,以利用所述消息队列缓存所述目标数据;在所述消息队列输出所述目标数据时,接收所述消息队列输出的所述目标数据。
在该实施例中,可以通过数据处理端将目标数据发送至传输端(即,消息队列),消息队列在接收到目标数据后,会进行消息队列信息的生产。
例如,在本发明实施例中,数据处理端可以根据统一应用程序接口API规范将目标数据通过调用web结构写入消息队列中;接着web接口内部可进行消息队列信息的生产。
通过该消息队列可以有效避免由于突然断电或者其他意外状态而导致目标数据丢失,有效确保了数据安全性。
作为一种可选的实施例中,所述目标数据被所述数据处理端通过预定应用接口传输至所述消息队列中。
由上可知,在本发明实施例中,数据处理端可以通过统一应用程序结构API将目标数据传输至消息队列中。
作为一种可选的实施例,在本发明实施例中提供了一种数据血缘关系处理方法,图3是根据本发明实施例的可选的数据血缘关系处理方法的流程图,如图3所示,具体包括如下步骤:
步骤S302,获取所述目标数据中的数据血缘。
步骤S304,对所述数据血缘进行分析,得到多种指标数据。
步骤S306,基于所述多种指标数据得到所述目标数据的血缘信息。
其中,上述目标数据为资产数据对应的数据,因此,其中携带有数据血缘。当存储端接收到目标数据后,可以对目标数据进行解析以得到数据血缘,接着可以对数据血缘进行分析,以得到多种指标数据,从而可以根据多种指标数据得到目标数据的血缘信息。
上述指标数据指示了预定平台中哪些指标数据可以量化,例如不同的业务数据施工相同的数据源,那么这里的数据中哪些数据存在问题、对于存在问题的户数可以采用哪种方式进行优化。
作为一种可选的实施例,在对所述目标数据进行血缘分析,得到所述目标数据的血缘信息之后,该数据血缘关系处理方法还包括:将所述血缘信息写入图数据库中。
在该实施例中,在得到血缘信息后,可以将血缘信息写入到图数据库中,需要说明的是,在本发明实施例中,需要确定数据资产的类型,具体地,可以从多个业务系统的数据库中分别提取元数据信息,该元数据信息可以为多种业务系统的数据资产的元数据信息,接着,可以根据提取的元数据信息,从对应的数据库中进行数据采集。这里的数据采集可以利用提取的元数据信息,从对应的数据库中获取对应的数据资产,从而可以得到数据资产的类型。
此处,由于元数据信息具有网状结构特征,因此可以适用于图数据库,即,可以利用图数据库对其进行存储。
作为一种可选的实施例,在将所述血缘信息同步至所述目标数据所在数据资产中之后,该数据血缘关系处理方法还可以包括:利用所述血缘信息对数据仓库进行更新;以及,利用所述血缘信息对原始血缘信息进行优化,得到优化后的血缘信息。
在该实施例中,当得到目标数据的血缘信息后,可以利用血缘信息改进原始血缘信息以及数据仓库,从而可以让数据处理与血缘、数据仓库建设新村正向反馈。
作为一种可选的实施例,在将所述血缘信息同步至所述目标数据所在数据资产中之后,该数据血缘关系处理方法还包括:将所述优化后的血缘信息反馈至数据处理端,以触发所述数据处理端利用所述优化后的血缘信息对所述数据资产所在业务系统进行更新。
在该实施例中,存储端可以将优化后的血缘信息发送至数据处理端,以使得数据处理端了解当前业务数据存在哪些问题,从而对业务数据进行更新。例如,不同业务均存在目标数据A,而不同的业务均将目标数据A存储至了数据仓库中的不同分区,这就增加了数据仓库的开销,此时,就需要将相同的数据进行冗余处理,以降低数据仓库的开销,也便于业务数据的管理。
图4是根据本发明实施例的数据血缘关系处理方法的时序图,如图4所示,数据处理端可以将目标数据发送至传输端,接着传输端web接口内部会进行消息队列信息的生产,并将其缓存至kafka消息队列中;当kafka消息队列输出该目标数据后,存储端会消费该目标数据;具体地,存储端先将接收到的目标数据存储起来,接着对其进行血缘分析,得到血缘信息;并在得到血缘信息后将其同步至数据资产中;同时可以利用血缘信息改进原始血缘和数据仓库。为了业务端和开发端更好地对数据进行完善以及维护,可以将优化后的血缘信息反馈至数据处理端,以使得开发端和业务端可以基于优化后的血缘信息对数据进行完善以及维护。
由上可知,在本发明实施例中,对各个业务系统进行数据维护与管理,可以包括采集生产业务系统的业务信息,待采集到的业务信息通过代理(例如,消息队列)进行缓存,在存储端处理到该业务信息时,由消息队列将其输出到存储端,从而利用存储端的各个功能模块对数据血缘进行分析,例如,可以利用数据血缘分析模块可以对业务信息进行分析处理,以使得业务系统的数据资产到数据仓库的血缘链路关系可视化,并对数据仓库的血缘关系进行管理。当得到血缘信息后,存储端可以将血缘信息同步到数据资产中,并利用血缘信息对原始血缘信息进行更新,同时利用血缘信息对数据仓库进行完善。
下面结合附图对本发明实施例提供的数据血缘关系处理方法的一个优选实施例进行说明。图5是根据本发明实施例的另一可选的数据血缘关系处理方法的流程图,如图5所示具体步骤如下:
步骤S501,在数据处理端产生目标数据时,目标数据被传输至消息队列中,以利用消息队列缓存目标数据;
步骤S502,在消息队列输出目标数据时,接收消息队列输出的目标数据;
步骤S503,获取由消息队列输出的目标数据,(即上述步骤S202);
步骤S504,获取目标数据中的数据血缘;
步骤S505,对数据血缘进行分析,得到多种指标数据;
步骤S506,基于多种指标数据得到目标数据的血缘信息;
步骤S507,将血缘信息写入图数据库中。
步骤S508,将血缘信息同步至目标数据所在数据资产中(即上述步骤S206);
步骤S509,利用血缘信息对数据仓库进行更新;以及,
步骤S510,利用血缘信息对原始血缘信息进行优化,得到优化后的血缘信息;
步骤S511,将优化后的血缘信息反馈至数据处理端,以触发数据处理端利用优化后的血缘信息对数据资产所在业务系统进行更新。
由上可知,在本发明实施例中,在数据处理端产生目标数据时,目标数据会被传输至消息队列中,以利用消息队列缓存目标数据;在消息队列输出目标数据时,存储端会接收消息队列输出的目标数据;当存储端获取到由消息队列输出的目标数据后,会对目标数据进行分析,以得到目标数据中的数据血缘,并对数据血缘进行分析,以得到数据血缘所包含的多种指标数据;接着可以基于多种指标数据得到目标数据的血缘信息,并将血缘信息写入图数据库中。此时,可以将血缘信息同步至目标数据所在的数据资产中,以利用血缘信息对数据仓库进行更新,并可以利用血缘信息对原始血缘信息进行优化,得到优化后的血缘信息;在将优化后的血缘信息反馈至数据处理端,以触发数据处理端利用优化后的血缘信息对数据资产所在业务系统进行更新,从而实现了通过使用消息队列做中转对目标数据进行传输的目的,提高了可承受数据处理并发量的技术效果。
另外,由于一些企业比较庞大,业务部分比较多,此时,业务系统也相应的比较多,对于业务数据的管理就提出了更大的挑战。例如,对于每一个业务数据的来源以及去处、使用状态、使用数据、数据生命周期等这些信息都需要合理的管理,以便于企业后续对业务信息的追踪,这就需要对业务数据的好好维护。由于在大数据平台内针对各组件进行监控记录,并将信息写入数据的方式可靠性较低。而且当数据请求量较大时,会存在数据拥堵、混乱等,就会使其企业业务数据管理存在混乱,最终造成比较严重的后果。所以,为了提高数据处理并发量,在本发明实施例中,可使用消息队列做中转进行数据传输,提高数据资产的管理效率,也使得数据资产管理更加安全。
此外,对于开发人员,由于企业业务信息是不断变化以及更新的,因此,开发人员也需要对企业业务数据管理进行不断的完善。因此,这就不仅需要对企业中新产生的业务数据进行分析,而且也要对现有的数据仓库有比较清晰的了解。因此,在本发明实施例中,存储端在利用其分析出的血缘信息对原始血缘信息进行分析,并进行数据仓库的更新后,也需要将优化后的血缘信息反馈至数据处理端,从而使得数据处理端的开发人员能够基于企业新增或有变换的业务数据、以及优化后的数据血缘信息对企业业务数据管理进行优化管理。
因此,通过本发明实施例提供的数据血缘关系处理方法,使得血缘数据以代理模式在数据处理端产生并传输到存储端,从而血缘数据在存储端进行分析整理后,再反馈到数据处理端,并改进数据处理。
而且,通过本发明实施例提供的数据血缘关系处理方法,也适应了大数据产业和工业互联网产业的发展,满足了企业对大数据的需求逐渐加深的需求以及数据仓库规模越来越大的状况。通过使用第三方数据传输、存储管道,对数据处理的元数据信息进行转储,并统一存储到图数据库,进行不断的分析以及改进,以支持多维度、高效的数据关系查看。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
本发明实施例还提供了一种数据血缘关系处理装置,需要说明的是,本申请实施例的数据血缘关系处理装置可以用于执行本申请实施例所提供的数据血缘关系处理方法。以下对本发明实施例提供的数据血缘关系处理装置进行介绍。
图6是根据本发明实施例的数据血缘关系处理装置的示意图,如图6所示,该数据血缘关系处理装置可以包括:获取单元61、分析单元63以及同步单元65。下面对该数据血缘关系处理装置进行说明。
获取单元61,用于获取由消息队列输出的目标数据,其中,所述目标数据为待进行血缘分析的数据。
分析单元63,用于对所述目标数据进行血缘分析,得到所述目标数据的血缘信息。
同步单元65,用于将所述血缘信息同步至所述目标数据所在数据资产中。
此处需要说明的是,上述获取单元61、分析单元63以及同步单元65对应于实施例中的步骤S202至S206,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
由上可知,在本申请上述实施例中,可以利用获取单元获取由消息队列输出的目标数据,其中,所述目标数据为待进行血缘分析的数据;接着利用分析单元对所述目标数据进行血缘分析,得到所述目标数据的血缘信息;以及利用同步单元将所述血缘信息同步至所述目标数据所在数据资产中。通过本发明实施例提供的数据血缘关系处理装置,实现了通过使用消息队列做中转对目标数据进行传输的目的,提高了可承受数据处理并发量的技术效果,进而解决了相关技术中由于数据来源和目标数据源的差异较大,血缘信息采集无法获取统一而完整的数据的技术问题。
作为一种可选的实施例,该数据血缘关系处理装置还包括:缓存单元,用于在获取由消息队列输出的目标数据之前,在数据处理端产生所述目标数据时,所述目标数据被传输至所述消息队列中,以利用所述消息队列缓存所述目标数据;接收单元,用于在所述消息队列输出所述目标数据时,接收所述消息队列输出的所述目标数据。
作为一种可选的实施例,所述目标数据被所述数据处理端通过预定应用接口传输至所述消息队列中。
作为一种可选的实施例,所述分析单元,包括:第一获取模块,用于获取所述目标数据中的数据血缘;分析模块,用于对所述数据血缘进行分析,得到多种指标数据;第二获取模块,用于基于所述多种指标数据得到所述目标数据的血缘信息。
作为一种可选的实施例,该数据血缘关系处理装置还包括:写入单元,用于在对所述目标数据进行血缘分析,得到所述目标数据的血缘信息之后,将所述血缘信息写入图数据库中。
作为一种可选的实施例,该数据血缘关系处理装置还包括:第一更新单元,用于在将所述血缘信息同步至所述目标数据所在数据资产中之后,利用所述血缘信息对数据仓库进行更新;以及,优化单元,用于利用所述血缘信息对原始血缘信息进行优化,得到优化后的血缘信息。
作为一种可选的实施例,该数据血缘关系处理装置还包括:第二更新单元,用于在将所述血缘信息同步至所述目标数据所在数据资产中之后,将所述优化后的血缘信息反馈至数据处理端,以触发所述数据处理端利用所述优化后的血缘信息对所述数据资产所在业务系统进行更新。
根据本发明实施例的另外一个方面,还提供了一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述任一项中所述的数据血缘关系处理方法。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:获取由消息队列输出的目标数据,其中,所述目标数据为待进行血缘分析的数据;对所述目标数据进行血缘分析,得到所述目标数据的血缘信息;将所述血缘信息同步至所述目标数据所在数据资产中。
可选地,在本实施例中,上述存储介质还可以被设置为存储用于执行以下步骤的程序代码:在获取由消息队列输出的目标数据之前,在数据处理端产生所述目标数据时,所述目标数据被传输至所述消息队列中,以利用所述消息队列缓存所述目标数据;在所述消息队列输出所述目标数据时,接收所述消息队列输出的所述目标数据。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:获取所述目标数据中的数据血缘;对所述数据血缘进行分析,得到多种指标数据;基于所述多种指标数据得到所述目标数据的血缘信息。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:在对所述目标数据进行血缘分析,得到所述目标数据的血缘信息之后,将所述血缘信息写入图数据库中。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:在将所述血缘信息同步至所述目标数据所在数据资产中之后,利用所述血缘信息对数据仓库进行更新;以及,利用所述血缘信息对原始血缘信息进行优化,得到优化后的血缘信息。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:在将所述血缘信息同步至所述目标数据所在数据资产中之后,将所述优化后的血缘信息反馈至数据处理端,以触发所述数据处理端利用所述优化后的血缘信息对所述数据资产所在业务系统进行更新。
根据本发明实施例的另外一个方面,还提供了一种数据血缘关系处理系统,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行上述任一项中所述的数据血缘关系处理方法。
可选地,上述数据血缘关系处理系统还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:获取由消息队列输出的目标数据,其中,所述目标数据为待进行血缘分析的数据;对所述目标数据进行血缘分析,得到所述目标数据的血缘信息;将所述血缘信息同步至所述目标数据所在数据资产中。
可选地,在本实施例中,上述处理器还可以被设置为通过计算机程序执行以下步骤:在获取由消息队列输出的目标数据之前,在数据处理端产生所述目标数据时,所述目标数据被传输至所述消息队列中,以利用所述消息队列缓存所述目标数据;在所述消息队列输出所述目标数据时,接收所述消息队列输出的所述目标数据。
可选地,在本实施例中,上述处理器还可以被设置为通过计算机程序执行以下步骤:对所述目标数据进行血缘分析,得到所述目标数据的血缘信息,包括:获取所述目标数据中的数据血缘;对所述数据血缘进行分析,得到多种指标数据;基于所述多种指标数据得到所述目标数据的血缘信息。
可选地,在本实施例中,上述处理器还可以被设置为通过计算机程序执行以下步骤:在对所述目标数据进行血缘分析,得到所述目标数据的血缘信息之后,将所述血缘信息写入图数据库中。
可选地,在本实施例中,上述处理器还可以被设置为通过计算机程序执行以下步骤:在将所述血缘信息同步至所述目标数据所在数据资产中之后,利用所述血缘信息对数据仓库进行更新;以及,利用所述血缘信息对原始血缘信息进行优化,得到优化后的血缘信息。
可选地,在本实施例中,上述处理器还可以被设置为通过计算机程序执行以下步骤:在将所述血缘信息同步至所述目标数据所在数据资产中之后,将所述优化后的血缘信息反馈至数据处理端,以触发所述数据处理端利用所述优化后的血缘信息对所述数据资产所在业务系统进行更新。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种数据血缘关系处理方法,其特征在于,包括:
获取由消息队列输出的目标数据,其中,所述目标数据为待进行血缘分析的数据;
对所述目标数据进行血缘分析,得到所述目标数据的血缘信息;
将所述血缘信息同步至所述目标数据所在数据资产中。
2.根据权利要求1所述的方法,其特征在于,在获取由消息队列输出的目标数据之前,所述方法还包括:
在数据处理端产生所述目标数据时,所述目标数据被传输至所述消息队列中,以利用所述消息队列缓存所述目标数据;
在所述消息队列输出所述目标数据时,接收所述消息队列输出的所述目标数据。
3.根据权利要求2所述的方法,其特征在于,所述目标数据被所述数据处理端通过预定应用接口传输至所述消息队列中。
4.根据权利要求1所述的方法,其特征在于,对所述目标数据进行血缘分析,得到所述目标数据的血缘信息,包括:
获取所述目标数据中的数据血缘;
对所述数据血缘进行分析,得到多种指标数据;
基于所述多种指标数据得到所述目标数据的血缘信息。
5.根据权利要求1所述的方法,其特征在于,在对所述目标数据进行血缘分析,得到所述目标数据的血缘信息之后,所述方法还包括:
将所述血缘信息写入图数据库中。
6.根据权利要求2所述的方法,其特征在于,在将所述血缘信息同步至所述目标数据所在数据资产中之后,所述方法还包括:
利用所述血缘信息对数据仓库进行更新;以及,
利用所述血缘信息对原始血缘信息进行优化,得到优化后的血缘信息。
7.根据权利要求6所述的方法,其特征在于,在将所述血缘信息同步至所述目标数据所在数据资产中之后,所述方法还包括:
将所述优化后的血缘信息反馈至数据处理端,以触发所述数据处理端利用所述优化后的血缘信息对所述数据资产所在业务系统进行更新。
8.一种数据血缘关系处理装置,其特征在于,包括:
获取单元,用于获取由消息队列输出的目标数据,其中,所述目标数据为待进行血缘分析的数据;
分析单元,用于对所述目标数据进行血缘分析,得到所述目标数据的血缘信息;
同步单元,用于将所述血缘信息同步至所述目标数据所在数据资产中。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的数据血缘关系处理方法。
10.一种数据血缘关系处理系统,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的数据血缘关系处理方法。
CN202110731558.7A 2021-06-29 2021-06-29 数据血缘关系处理方法及装置 Pending CN113434312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110731558.7A CN113434312A (zh) 2021-06-29 2021-06-29 数据血缘关系处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110731558.7A CN113434312A (zh) 2021-06-29 2021-06-29 数据血缘关系处理方法及装置

Publications (1)

Publication Number Publication Date
CN113434312A true CN113434312A (zh) 2021-09-24

Family

ID=77757856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110731558.7A Pending CN113434312A (zh) 2021-06-29 2021-06-29 数据血缘关系处理方法及装置

Country Status (1)

Country Link
CN (1) CN113434312A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868253A (zh) * 2021-09-28 2021-12-31 中通服创立信息科技有限责任公司 一种数据关系捕获及大数据关系树构建方法
CN114428822A (zh) * 2022-01-27 2022-05-03 云启智慧科技有限公司 一种数据处理的方法、装置、电子设备及存储介质
CN116070268A (zh) * 2023-01-04 2023-05-05 北京夏石科技有限责任公司 隐私数据识别监控方法、装置和设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582660A (zh) * 2018-12-06 2019-04-05 深圳前海微众银行股份有限公司 数据血缘分析方法、装置、设备、系统及可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582660A (zh) * 2018-12-06 2019-04-05 深圳前海微众银行股份有限公司 数据血缘分析方法、装置、设备、系统及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阿里集团: "《阿里云云原生架构实践》", 机械工业出版社, pages: 142 - 151 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868253A (zh) * 2021-09-28 2021-12-31 中通服创立信息科技有限责任公司 一种数据关系捕获及大数据关系树构建方法
CN113868253B (zh) * 2021-09-28 2024-04-23 中通服创立信息科技有限责任公司 一种数据关系捕获及大数据关系树构建方法
CN114428822A (zh) * 2022-01-27 2022-05-03 云启智慧科技有限公司 一种数据处理的方法、装置、电子设备及存储介质
CN114428822B (zh) * 2022-01-27 2022-07-29 云启智慧科技有限公司 一种数据处理的方法、装置、电子设备及存储介质
CN116070268A (zh) * 2023-01-04 2023-05-05 北京夏石科技有限责任公司 隐私数据识别监控方法、装置和设备
CN116070268B (zh) * 2023-01-04 2024-01-26 北京夏石科技有限责任公司 隐私数据识别监控方法、装置和设备

Similar Documents

Publication Publication Date Title
CN113434312A (zh) 数据血缘关系处理方法及装置
CN112507029B (zh) 数据处理系统及数据实时处理方法
KR101871383B1 (ko) 계층적 데이터 구조의 노드 상에서 재귀적 이벤트 리스너를 사용하기 위한 방법 및 시스템
US8095495B2 (en) Exchange of syncronization data and metadata
US8489694B2 (en) Peer-to-peer collaboration of publishers in a publish-subscription environment
CN112765152B (zh) 用于合并数据表的方法和装置
CN110532493B (zh) 数据的处理方法及装置、存储介质和电子装置
CN110837423A (zh) 一种自动导引运输车数据采集的方法和装置
CN113127732A (zh) 业务数据的获取方法、装置、计算机设备和存储介质
US20190146839A1 (en) Distributed data platform resource allocator
CN111460038A (zh) 一种数据准实时同步方法及装置
CN111338834A (zh) 数据存储方法和装置
CN104079663A (zh) 分布式实时同步网络系统及其通告数据的方法
CN115982133A (zh) 数据处理方法及装置
US8458326B2 (en) Sampling from distributed streams of data
CN113422739A (zh) 数据传输方法、发送端及数据传输系统
CN113407629A (zh) 数据同步的方法、装置、电子设备及存储介质
CN112417015A (zh) 数据分发方法和装置、存储介质及电子装置
CN111506646A (zh) 数据同步方法、装置、系统、存储介质及处理器
CN112433891A (zh) 数据处理方法、装置和服务器
CN115210694A (zh) 数据传输方法及装置
US20190050216A1 (en) Systems and methods for maintaining operating consistency for multiple users during firmware updates
CN108737522A (zh) 一种消息的处理方法、装置和系统
CN115604667B (zh) 消息发送方法、装置、计算机设备和存储介质
CN116112336A (zh) 一种告警数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination