CN115705348A

CN115705348A - 大数据血缘数据动态管理方法、系统、设备及介质

Info

Publication number: CN115705348A
Application number: CN202110919707.2A
Authority: CN
Inventors: 张世鸣
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2023-02-17

Abstract

本公开涉及一种大数据血缘数据动态管理方法、系统、介质及设备，涉及大数据技术领域，其中，所述方法包括：采集大数据血缘数据并按采集的血缘元数据类型分别存储；根据kafka中写入的点属性变更元数据和新增元数据分别进行数据处理；其中，所述新增元数据包括：新增点属性元数据和新增边属性元数据；根据数据处理后的结果更新图数据库中的大数据血缘数据；根据更新后的大数据血缘数据进行大数据血缘关系图展示。本公开的技术方案支持大数据平台的全局血缘获取和展示，扩展性强，自定义程度低，对于新的组件接入开发成本低。本公开的结束方案对于新增的血缘关系，可能存在误采集的情况，系统支持AI和人工校验双重校验机制来保证准确性。

Description

大数据血缘数据动态管理方法、系统、设备及介质

技术领域

本公开涉及大数据技术领域，更为具体来说，本公开涉及大数据血缘数据动态管理方法、系统、设备及介质。

背景技术

大数据领域的血缘管理一般采用开源的技术方案，比如ApacheAtlas，但是开源方案注重的是元数据的收集和管理，对于数据血缘的支持非常有限，目前的开源方案普遍都只支持Hive数据仓库的数据血缘解析，而随着业务场景和需求的越来越复杂，大数据会应用更多地存储引擎去解决问题，比如Hive，HBase、Kafka、ElasticSearch、Redis、MySQL等等，此时仅仅展示Hive的数据血缘就暴露出了明显问题，无法看见整个大数据平台上下游全局的依赖关系，也无法迅速地做数据溯源定位异常。血缘的变更也是非常常见的场景，用户需要知道变更对象的上下游关系并判断变更对上下游关系的影响。除此之外，采集而来的血缘关系对于准确性也存在比较大的问题，对于错误血缘关系或者错误元数据没有很好的处理方案。

发明内容

为解决现有技术的大数据血缘管理系统不能满足用户的数据管理需求的技术问题。

为实现上述技术目的，本公开提供了一种大数据血缘数据动态管理方法，包括：

采集大数据血缘数据并按采集的血缘元数据类型分别存储；

根据kafka中写入的点属性变更元数据和新增元数据分别进行数据处理；其中，所述新增元数据包括：新增点属性元数据和新增边属性元数据；

根据数据处理后的结果更新图数据库中的大数据血缘数据；

根据更新后的大数据血缘数据进行大数据血缘关系图展示。

进一步，所述根据kafka中写入的点属性变更元数据和新增元数据分别进行数据处理具体包括：

对点属性变更元数据进行变更解析处理以及离线矫正处理以及，

对新增元数据进行新增元数据准确性实时性判断处理。

进一步，所述对新增元数据进行新增元数据准确性实时性判断处理具体包括：

根据预设阈值对新增元数据的准确性进行实时性判断，若大于等于预设阈值则直接继续后续更新图数据库中的大数据血缘数据的步骤；

若小于预设阈值，则需进行人工审核，将人工审核通过的数据更新图数据库中的大数据血缘数据。

进一步，所述根据预设阈值对新增元数据的准确性进行实时性判断具体为：

以初始化的且准确的图数据库中的血缘原始数据作为训练集，对新增元数据的准确性进行实时性判断。

进一步，所述变更解析处理具体包括：

从图数据库中获取变更的点属性元数据的数据上下游关系，对变更的点属性元数据上下游关系对应的实体进行数据变更预警，预警结束后将变更的点属性元数据信息更新到图数据库中。

进一步，所述离线矫正处理具体包括：

从数据采集组件中采集变更后的血缘元数据，对图数据库中不准确的血缘元数据进行矫正处理以保证大数据血缘数据动态管理系统展示的元数据与组件本身获取的血缘元数据完全一致。

进一步，所述采集大数据血缘数据具体包括：

通过Hbase、hive和/或kafka采集点属性元数据以及通过spark、hive、kafka和/或Flume采集边属性元数据。

为实现上述技术目的，本公开还能够提供一种大数据血缘数据动态管理系统，包括：

血缘数据采集模块，用于采集大数据血缘数据并按采集的血缘元数据类型分别存储；

血缘数据处理模块，用于根据kafka中写入的点属性变更元数据和新增元数据分别进行数据处理；其中，所述新增元数据包括：新增点属性元数据和新增边属性元数据；

血缘数据更新模块，用于根据数据处理后的结果更新图数据库中的大数据血缘数据；

血缘关系展示模块，用于根据更新后的大数据血缘数据进行大数据血缘关系图展示。

为实现上述技术目的，本公开还能够提供一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时用于实现上述的大数据血缘数据动态管理方法的步骤。

为实现上述技术目的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的大数据血缘数据动态管理方法的步骤。

本公开的有益效果为：

1.本公开的技术方案支持大数据平台的全局血缘获取和展示，扩展性强，自定义程度低，对于新的组件接入开发成本低。

2.本公开的结束方案支持血缘动态变更的场景下，上下游相关血缘的实时预警和动态实时更新血缘视图，且动态更新异常场景下，有离线矫正机制。

3.本公开的结束方案对于新增的血缘关系，可能存在误采集的情况，系统支持AI和人工校验双重校验机制来保证准确性。

附图说明

图1示出了本公开的实施例1的方法的流程示意图；

图2示出了本公开的实施例2的系统的结构示意图；

图3示出了本公开的实施例2的系统的结构示意图；

图4示出了本公开的实施例4的结构示意图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在附图中示出了根据本公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

在人类社会中，血缘关系是指由婚姻或生育而产生的人际关系，是最早形成的一种社会关系。今天，人类进入了大数据时代。每天，世界上都有海量的，各种类型的，关系复杂的数据在快速产生。这些庞大复杂的数据汇聚又产生新的数据。数据在产生、融合、流转，消亡过程中形成一种逻辑关系。我们借鉴人类社会中的血缘关系来表达数据之间的这种关系，称之为数据的血缘关系。

数据的血缘关系包含了一些特有的特征：数据的归属性(数据所属组织或个人)，数据的来源多样性(相同数据来源不止一个)，数据的可追溯性(数据从产生到消亡的整个过程)，数据的层次性(数据的分类、归纳、总结形成了数据层次)等。

现有技术方案具有如下缺陷：

1.仅支持Hive血缘，无法覆盖大数据的其他存储组件，无法形成全局的血缘视图。扩展性差，可自定义程度低，对于新的组件接入开发成本高。

2.在血缘关系变更的场景下，无法做到动态实时更新血缘视图，且若动态更新存在数据丢失情况，会导致元数据不一致的问题。

3.血缘关系时常会存在误采集的情况，没有高效有用的机制保证血缘的准确性。

大数据中的数据血缘图(graph)分为两部分，点数据(vertex)和边数据(edge)。“点”为元数据，包括数据库表信息，字段信息，负责人，描述等信息，“边”为元数据之间的依赖关系，包含上游和下游存储类型信息，库表信息，依赖字段等等。对于不同的存储引擎，本系统提供不同的可自定义的插件来实现vertex和edge的数据采集汇总，使相关数据在处理过程中就将元数据信息发送至血缘系统中，保证了系统数据的时效性。

实施例一：

如图1所示：

本公开提供了一种大数据血缘数据动态管理系统，包括：

S101：采集大数据血缘数据并按采集的血缘元数据类型分别存储。

进一步，所述采集大数据血缘数据具体包括：

通过Hbase、hive和/或kafka采集点属性元数据；

1.HBase Hook采用协处理器(Coprocessor)实现，每次对表结构数据的增删改都会触发Coprocessor中采集元数据的操作指令。

2.Hive Hook使用的是Hive自身提供的Hook接口实现，Hook会在Hive解析完SQL之后触发，所以相比手动解析SQL或使用开源SQL解析工具，Hook拥有更高的解析准确度。Hook可以收集所有对Hive表结构的增删改查信息(即本系统所需的元数据信息)。

3.对于无法将Hook集成进系统的存储引擎实时触发的上报元数据的存储引擎，采用定时轮训的方式获取元数据，比如Kafka、ElasticSearch、MySQL等。

以及通过spark、hive、kafka和/或Flume采集边属性元数据。

1.Hive Hook在本系统中是个特例，它兼具了数据存储和数据处理的属性，所以它可以同时收集vertex和edge信息，DDL和DML的SQL都会触发Hook，DDL触发的是vertex元数据采集，DML触发的是edge依赖关系采集。

2.Spark用户开发的代码中内嵌数据上报的Hook代码，记录并上报Spark的数据来源，写入的目标存储，以及字段信息等数据。

3.Flume使用拦截器获取数据源和目标存储并上报。

4.Datax、Canal、Sqoop等通过解析配置文件的方式获取上下游的存储依赖关系。

S102：根据kafka中写入的点属性变更元数据和新增元数据分别进行数据处理；其中，所述新增元数据包括：新增点属性元数据和新增边属性元数据。

其中，Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作(网页浏览，搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

对新增元数据进行新增元数据准确性实时性判断处理。

具体地，所述对新增元数据进行新增元数据准确性实时性判断处理具体包括：

其中，所述预设阈值优选数值0.6。

具体地，所述离线矫正处理具体包括：

具体地，所述变更解析处理具体包括：

S103：根据数据处理后的结果更新图数据库中的大数据血缘数据；

S104：根据更新后的大数据血缘数据进行大数据血缘关系图展示。

实施例二：

如图2所示，

本公开还能够提供一种大数据血缘数据动态管理系统，包括：

血缘数据采集模块201，用于采集大数据血缘数据并按采集的血缘元数据类型分别存储；

血缘数据处理模块202，用于根据kafka中写入的点属性变更元数据和新增元数据分别进行数据处理；其中，所述新增元数据包括：新增点属性元数据和新增边属性元数据；

血缘数据更新模块203，用于根据数据处理后的结果更新图数据库中的大数据血缘数据；

血缘数据展示模块204，用于根据更新后的大数据血缘数据进行大数据血缘关系图展示。

所述血缘数据采集模块201依次与所述血缘数据处理模块202、所述血缘数据更新模块203、所述血缘数据展示模块204相连接。

如图3所示，作为实施例二的一种优选实施方式：

一种基于异构存储的大数据血缘动态管理系统，能够展现大数据平台从数据产生到数据应用整个完整链路的元数据以及血缘关系图；并提供实时新增点边关系血缘的准确性预测，准确率达标则入库展示，不达标则需人工审核；另外对于动态变更数据会实时解析并获取变更对象的上下游关系，并进行变更预警，对于实时变更解析过程可能存在的异常或者数据丢失情况，会提供离线矫正模块，将直接获取变更后的元数据对原有数据做离线矫正。

血缘数据采集模块(01)即对应血缘数据采集模块201的功能。分为vertex元数据和edge元数据的收集，对于不同类型的存储和计算组件，系统提供不同的插件用于采集和上报元数据。

此外，本公开的系统规定了统一的数据上报口径，第三方组件可以自定义插件实现元数据采集上报功能，提高了扩展性。

vertex元数据(02)的采集对象主要为数据存储引擎，具体采集内容包括存储类型、库名、表名、字段信息、描述信息等等。

在没有采集edge元数据之前，vertex元数据还只是一个个独立的毫无关系的点。

下面举几个插件实现的例子：

edge元数据采集(03)的对象主要为数据处理引擎，具体采集内容包括上游和下游存储类型信息，库表信息，依赖字段等等。

采集edge元数据的目的是把vertex元数据串联起来，从而展现出一副完整的数据血缘图。

3.Flume使用拦截器获取数据源和目标存储并上报。

从控制血缘数据的准确性的角度出发：

对于点属性元数据与边属性元数据新增的数据(04)，首先血缘数据采集模块(01)会将数据写入Kafka，AI模块(05)从Kafka拉取数据并进行血缘关系准确性的预测，以初始化的且确认准确的血缘原始数据作为训练集(06)，预测血缘关系的准确率，如果准确率大于0.6则数据存入图数据库(08)供前端(09)展示，如果准确率小于0.6则需进行人工审核(07)血缘的准确性，以此保证血缘的准确性。

对于点属性动态变更的数据：

本公开的系统同样会通过血缘数据采集模块(01)将血缘数据写入Kafka，变更解析模块(11)从Kafka读取血缘数据，解析变更对象。

然后从图数据库(08)中获取变更对象的上下游关系，对这些关系对应的实体进行变更预警(12)，及时通知到负责人，降低数据变更带来的风险。

预警结束后将变更信息更新到图数据库(08)中，供前端(09)展示。

由于变更数据是可能存在异常场景的，比如流转过程中的数据丢失，同一时间多项更新操作并发执行，可能会导致数据更新的时序性问题，离线矫正模块(13)提供了元数据矫正的功能，它会直接对接组件，获取变更后的元数据，保证血缘系统展示的元数据与组件本身元数据完全一致。

本公开的系统支持大数据平台的全局血缘获取和展示，扩展性强，自定义程度低，对于新的组件接入开发成本低。

本公开的系统支持血缘动态变更的场景下，上下游相关血缘的实时预警和动态实时更新血缘视图，且动态更新异常场景下，有离线矫正机制。

本公开的系统对于新增的血缘关系，可能存在误采集的情况，系统支持AI和人工校验双重校验机制来保证准确性。

实施例三：

本公开还能够提供一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时用于实现上述的大数据血缘数据动态管理系统的步骤。

本公开的计算机存储介质可以采用半导体存储器、磁芯存储器、磁鼓存储器或磁盘存储器实现。

半导体存储器，主要用于计算机的半导体存储元件主要有Mos和双极型两种。Mos元件集成度高、工艺简单但速度较慢。双极型元件工艺复杂、功耗大、集成度低但速度快。NMos和CMos问世后，使Mos存储器在半导体存储器中开始占主要地位。NMos速度快，如英特尔公司的1K位静态随机存储器的存取时间为45ns。而CMos耗电省，4K位的CMos静态存储器存取时间为300ns。上述半导体存储器都是随机存取存储器(RAM),即在工作过程中可随机进行读出和写入新内容。而半导体只读存储器(ROM)在工作过程中可随机读出但不能写入，它用来存放已固化好的程序和数据。ROM又分为不可改写的熔断丝式只读存储器──PROM和可改写的只读存储器EPROM两种。

磁芯存储器，具有成本低，可靠性高的特点，且有20多年的实际使用经验。70年代中期以前广泛使用磁芯存储器作为主存储器。其存储容量可达10位以上，存取时间最快为300ns。国际上典型的磁芯存储器容量为4MS～8MB，存取周期为1.0～1.5μs。在半导体存储快速发展取代磁芯存储器作为主存储器的位置之后，磁芯存储器仍然可以作为大容量扩充存储器而得到应用。

磁鼓存储器，一种磁记录的外存储器。由于其信息存取速度快，工作稳定可靠，虽然其容量较小，正逐渐被磁盘存储器所取代，但仍被用作实时过程控制计算机和中、大型计算机的外存储器。为了适应小型和微型计算机的需要，出现了超小型磁鼓，其体积小、重量轻、可靠性高、使用方便。

磁盘存储器，一种磁记录的外存储器。它兼有磁鼓和磁带存储器的优点，即其存储容量较磁鼓容量大，而存取速度则较磁带存储器快，又可脱机贮存，因此在各种计算机系统中磁盘被广泛用作大容量的外存储器。磁盘一般分为硬磁盘和软磁盘存储器两大类。

硬磁盘存储器的品种很多。从结构上，分可换式和固定式两种。可换式磁盘盘片可调换，固定式磁盘盘片是固定的。可换式和固定式磁盘都有多片组合和单片结构两种，又都可分为固定磁头型和活动磁头型。固定磁头型磁盘的容量较小，记录密度低存取速度高，但造价高。活动磁头型磁盘记录密度高(可达1000～6250位/英寸)，因而容量大,但存取速度相对固定磁头磁盘低。磁盘产品的存储容量可达几百兆字节，位密度为每英寸6 250位,道密度为每英寸475道。其中多片可换磁盘存储器由于盘组可以更换,具有很大的脱体容量,而且容量大,速度高,可存储大容量情报资料，在联机情报检索系统、数据库管理系统中得到广泛应用。

实施例四：

本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的大数据血缘数据动态管理系统的步骤。

图4为一个实施例中电子设备的内部结构示意图。如图4所示，该电子设备包括通过系统总线连接的处理器、存储介质、存储器和网络接口。其中，该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种大数据血缘数据动态管理系统。该电设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种大数据血缘数据动态管理系统。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

该电子设备包括但不限于智能电话、计算机、平板电脑、可穿戴智能设备、人工智能设备、移动电源等。

所述处理器在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器内的程序或者模块(例如执行远端数据读写程序等)，以及调用存储在所述存储器内的数据，以执行电子设备的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器以及至少一个处理器等之间的连接通信。

图4仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图4示出的结构并不构成对所述电子设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备与其他电子设备之间建立通信连接。

可选地，该电子设备还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(OrganicLight-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

进一步地，所述计算机可用存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。本公开的范围由所附权利要求及其等价物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种大数据血缘数据动态管理方法，其特征在于，包括：

采集大数据血缘数据并按采集的血缘元数据类型分别存储；

根据数据处理后的结果更新图数据库中的大数据血缘数据；

根据更新后的大数据血缘数据进行大数据血缘关系图展示。

2.根据权利要求1所述的方法，其特征在于，所述根据kafka中写入的点属性变更元数据和新增元数据分别进行数据处理具体包括：

对新增元数据进行新增元数据准确性实时性判断处理。

3.根据权利要求2所述的方法，其特征在于，所述对新增元数据进行新增元数据准确性实时性判断处理具体包括：

4.根据权利要求3所述的方法，其特征在于，所述根据预设阈值对新增元数据的准确性进行实时性判断具体为：

5.根据权利要求2所述的方法，其特征在于，所述变更解析处理具体包括：

6.根据权利要求2所述的方法，其特征在于，所述离线矫正处理具体包括：

7.根据权利要求1～6任一项中所述的方法，其特征在于，所述采集大数据血缘数据具体包括：

8.一种大数据血缘数据动态管理系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现权利要求1～7任一项中所述的大数据血缘数据动态管理方法对应的步骤。

10.一种计算机存储介质，其上存储有计算机程序指令，其特征在于，所述程序指令被处理器执行时用于实现权利要求1～7任一项中所述的大数据血缘数据动态管理方法对应的步骤。