CN115080570A - 一种基于图数据库的字段血缘处理方法及系统 - Google Patents

一种基于图数据库的字段血缘处理方法及系统 Download PDF

Info

Publication number
CN115080570A
CN115080570A CN202210745321.9A CN202210745321A CN115080570A CN 115080570 A CN115080570 A CN 115080570A CN 202210745321 A CN202210745321 A CN 202210745321A CN 115080570 A CN115080570 A CN 115080570A
Authority
CN
China
Prior art keywords
data
field
blood relationship
graph database
consanguinity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210745321.9A
Other languages
English (en)
Inventor
濮正凯
张巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202210745321.9A priority Critical patent/CN115080570A/zh
Publication of CN115080570A publication Critical patent/CN115080570A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2291User-Defined Types; Storage management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种基于图数据库的字段血缘处理方法及系统,涉及数据分析技术领域。该方法包括:获取查询请求信息和任务参数信息;根据预设数据查询引擎对所述查询请求信息进行字段血缘分析,生成字段血缘关系数据;将所述任务参数信息和所述字段血缘关系数据发送至Kafka流处理平台;通过所述Kafka流处理平台分析所述字段血缘关系数据中字段之间的继承关系,生成字段血缘图数据;根据所述字段血缘图数据生成图数据库,所述图数据库用于查询并展示所述查询请求信息的血缘信息。该方法可以实现提高字段血缘查询的处理效率的技术效果。

Description

一种基于图数据库的字段血缘处理方法及系统
技术领域
本申请涉及数据分析技术领域,具体而言,涉及一种基于图数据库的字段血缘处理方法、系统、电子介质及计算机可读存储介质。
背景技术
目前,数据治理已经进入智能化的时代,对于数据的精准追踪溯源可以有效的提升大数据系统中数据问题的定位同时提高数据质量,传统的数据血缘的分析方法是开发人员根据开发平台中任务的脚本人工的去分析SQL找出数据的血缘关系,这个对于数据开发人员是一项非常复杂的事务,给相关的排错也带来了巨大的挑战。
现有技术中,业内的互联网公司大体实现的数据血缘一般在表级别,对于更加准确的字段级别的数据血缘关系,目前只有现有的开源框架Atlas可以支持相关的功能,但是Atlas至少存在以下问题:只能支持hive引擎,spark相关支持不成熟;结构化查询语言数据库(SQL,Structured Query Language server database)级别的没有版本的概念,无法和平台的z+平台有效的打通,无法准确地反映出z+平台血缘的运行逻辑。
发明内容
本申请实施例的目的在于提供一种基于图数据库的字段血缘处理方法、系统、电子介质及计算机可读存储介质,可以实现提高字段血缘查询的处理效率的技术效果。
第一方面,本申请实施例提供了一种基于图数据库的字段血缘处理方法,包括:
获取查询请求信息和任务参数信息;
根据预设数据查询引擎对所述查询请求信息进行字段血缘分析,生成字段血缘关系数据;
将所述任务参数信息和所述字段血缘关系数据发送至Kafka流处理平台;
通过所述Kafka流处理平台分析所述字段血缘关系数据中字段之间的继承关系,生成字段血缘图数据;
根据所述字段血缘图数据生成图数据库,所述图数据库用于查询并展示所述查询请求信息的血缘信息。
在上述实现过程中,该基于图数据库的字段血缘处理方法通过查询请求信息进行字段血缘分析、生成字段血缘关系数据,并根据Kafka流处理平台分析所述字段血缘关系数据中字段之间的继承关系、生成字段血缘图数据,再根据字段血缘图数据生成图数据库,从而将更具底层引擎的查询语句实时的将所有的血缘关系添加到图数据库中,且图数据库对于查询请求信息可以快速响应;从而,该基于图数据库的字段血缘处理方法实现基于图数据库的查询功能,可以实现提高字段血缘查询的处理效率的技术效果。
进一步地,所述任务参数信息包括标识信息和执行编号信息,在所述通过所述Kafka流处理平台分析所述字段血缘关系数据中字段之间的继承关系,生成字段血缘图数据的步骤之前,所述方法还包括:
记录所述标识信息和所述执行编号信息,根据所述标识信息启动预设线程;
根据所述执行编号信息检测所述预设线程处于完成状态时,将所述字段血缘关系数据对应的数据模型反序列化并加载至所述Kafka流处理平台对应的预设内存。
进一步地,所述通过所述Kafka流处理平台分析所述字段血缘关系数据中字段之间的继承关系,生成字段血缘图数据的步骤,包括:
根据预设内存分析所述字段血缘关系数据中字段之间的继承关系,生成所述字段血缘图数据,所述字段血缘图数据中的一个点代表一个字段,点和点之间的边代表字段和字段的转换关系。
在上述实现过程中,通过将字段血缘关系数据转换为字段血缘图数据,其中字段血缘图数据中的一个点代表一个字段,点和点之间的边代表字段和字段的转换关系,可以更直观的显示字段和字段之间的血缘关系。
进一步地,在所述根据所述字段血缘图数据生成图数据库的步骤之前,包括:
将所述任务参数信息添加至所述字段血缘图数据。
在上述实现过程中,可以在字段血缘图数据的边上添加任务参数信息,如任务标识信息、执行编号信息等。
进一步地,在所述根据所述字段血缘图数据生成图数据库的步骤之后,所述方法还包括:
获取预设查询接口发送的接口数据;
根据所述接口数据在所述图数据库进行查询,获得与所述接口数据对应的字段血缘图数据。
在上述实现过程中,基于图数据库可以实现对字段血缘关系的快速查询。
进一步地,所述Kafka流处理平台用于将所述字段血缘关系数据序列化到本地磁盘。
进一步地,所述预设数据查询引擎包括Presto数据引擎、Hive数据引擎、Spark数据引擎中的一种或多种。
第二方面,本申请实施例提供了一种基于图数据库的字段血缘处理系统,包括:
获取模块,用于获取查询请求信息和任务参数信息;
血缘分析模块,用于根据预设数据查询引擎对所述查询请求信息进行字段血缘分析,生成字段血缘关系数据;
发送模块,用于将所述任务参数信息和所述字段血缘关系数据发送至Kafka流处理平台;
血缘图模块,用于通过所述Kafka流处理平台分析所述字段血缘关系数据中字段之间的继承关系,生成字段血缘图数据;
图数据库模块,用于根据所述字段血缘图数据生成图数据库,所述图数据库用于查询并展示所述查询请求信息的血缘信息。
进一步地,所述任务参数信息包括标识信息和执行编号信息,所述基于图数据库的字段血缘处理系统还包括:
记录模块,用于记录所述标识信息和所述执行编号信息,根据所述标识信息启动预设线程;
加载模块,用于根据所述执行编号信息检测所述预设线程处于完成状态时,将所述字段血缘关系数据对应的数据模型反序列化并加载至所述Kafka流处理平台对应的预设内存。
进一步地,所述血缘图模块具体用于:
根据预设内存分析所述字段血缘关系数据中字段之间的继承关系,生成所述字段血缘图数据,所述字段血缘图数据中的一个点代表一个字段,点和点之间的边代表字段和字段的转换关系。
进一步地,所述血缘图模块还用于:
将所述任务参数信息添加至所述字段血缘图数据。
进一步地,所述基于图数据库的字段血缘处理系统还包括查询模块,所述查询模块用于:
获取预设查询接口发送的接口数据;
根据所述接口数据在所述图数据库进行查询,获得与所述接口数据对应的字段血缘图数据。
第三方面,本申请实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
第四方面,本申请实施例提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
第五方面,本申请实施例提供的一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一项所述的方法。
本申请公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本申请公开的上述技术即可得知。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种基于图数据库的字段血缘处理方法的流程示意图;
图2为本申请实施例提供的另一种基于图数据库的字段血缘处理的流程示意图;
图3为本申请实施例提供的字段血缘分析引擎的结构示意图;
图4为本申请实施例提供的基于图数据库的字段血缘处理系统的结构框图;
图5为本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本申请实施例提供了一种基于图数据库的字段血缘处理方法、系统、电子介质及计算机可读存储介质,可以应用于多个数据查询引擎的场合;该基于图数据库的字段血缘处理方法通过查询请求信息进行字段血缘分析、生成字段血缘关系数据,并根据Kafka流处理平台分析所述字段血缘关系数据中字段之间的继承关系、生成字段血缘图数据,再根据字段血缘图数据生成图数据库,从而将更具底层引擎的查询语句实时的将所有的血缘关系添加到图数据库中,且图数据库对于查询请求信息可以快速响应;从而,该基于图数据库的字段血缘处理方法实现基于图数据库的查询功能,可以实现提高字段血缘查询的处理效率的技术效果。
在一些实施场景中,图数据库对于血缘查询的性能相较于当前银行的解决方案可以提高2个数量级,对于敏感数据的打标可以达到秒级的响应。
请参见图1,图1为本申请实施例提供的一种基于图数据库的字段血缘处理方法的流程示意图,该基于图数据库的字段血缘处理方法包括如下步骤:
S100:获取查询请求信息和任务参数信息。
示例性地,查询请求信息可以是adhoc、Zplus、Bplus、Label等类型。
示例性地,任务参数信息与所述查询请求信息对应;在一些实施场景中,在z+平台中可以定义与所述查询请求信息对应的任务参数信息。
S200:根据预设数据查询引擎对所述查询请求信息进行字段血缘分析,生成字段血缘关系数据。
示例性地,预设数据查询引擎的数量可以包括多个,如当前主流的Presto数据引擎、Hive数据引擎、Spark数据引擎等。
示例性地,Presto数据引擎是Facebook开发的数据查询引擎,可对250PB以上的数据进行快速地交互式分析;Hive数据引擎是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;Spark数据引擎是专为大规模数据处理而设计的快速通用的计算引擎,Spark是加州大学伯克利分校的AMP实验室开源的类hadoopMapReducec的通用并行框架,Spark具有Hadoop MapReduce具有的优点,但不同于MapReduce的是——job中间输出可以保存在内存中,从而不在需要读写HDFS,因此Spark更加适合机器学习和数据挖掘等需要迭代的MapReduce的算法。
S300:将所述任务参数信息和所述字段血缘关系数据发送至Kafka流处理平台。
示例性地,Kafka流处理平台是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写;Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。
S400:通过所述Kafka流处理平台分析所述字段血缘关系数据中字段之间的继承关系,生成字段血缘图数据。
S500:根据所述字段血缘图数据生成图数据库,所述图数据库用于查询并展示所述查询请求信息的血缘信息。
示例性地,基于图数据库,可以实现对字段血缘关系的快速查询。
在一些实施场景中,该基于图数据库的字段血缘处理方法通过查询请求信息进行字段血缘分析、生成字段血缘关系数据,并根据Kafka流处理平台分析所述字段血缘关系数据中字段之间的继承关系、生成字段血缘图数据,再根据字段血缘图数据生成图数据库,从而将更具底层引擎的查询语句实时的将所有的血缘关系添加到图数据库中,且图数据库对于查询请求信息可以快速响应;从而,该基于图数据库的字段血缘处理方法实现基于图数据库的查询功能,可以实现提高字段血缘查询的处理效率的技术效果。
请参见图2,图2为本申请实施例提供的另一种基于图数据库的字段血缘处理的流程示意图。
示例性地,所述任务参数信息包括标识信息和执行编号信息,在S400:通过所述Kafka流处理平台分析所述字段血缘关系数据中字段之间的继承关系,生成字段血缘图数据的步骤之前,所述方法还包括:
S310:记录所述标识信息和所述执行编号信息,根据所述标识信息启动预设线程;
S320:根据所述执行编号信息检测所述预设线程处于完成状态时,将所述字段血缘关系数据对应的数据模型反序列化并加载至所述Kafka流处理平台对应的预设内存。
示例性地,任务标识信息即任务标识号(ID,Identity document)。
示例性地,所述S400:通过所述Kafka流处理平台分析所述字段血缘关系数据中字段之间的继承关系,生成字段血缘图数据的步骤,包括:
S401:根据预设内存分析所述字段血缘关系数据中字段之间的继承关系,生成所述字段血缘图数据,所述字段血缘图数据中的一个点代表一个字段,点和点之间的边代表字段和字段的转换关系。
示例性地,通过将字段血缘关系数据转换为字段血缘图数据,其中字段血缘图数据中的一个点代表一个字段,点和点之间的边代表字段和字段的转换关系,可以更直观的显示字段和字段之间的血缘关系。
示例性地,在S500:根据所述字段血缘图数据生成图数据库的步骤之前,包括:
S410:将所述任务参数信息添加至所述字段血缘图数据。
示例性地,可以在字段血缘图数据的边上添加任务参数信息,如任务标识信息、执行编号信息等。
示例性地,在S500:根据所述字段血缘图数据生成图数据库的步骤之后,所述方法还包括:
S510:获取预设查询接口发送的接口数据;
S520:根据所述接口数据在所述图数据库进行查询,获得与所述接口数据对应的字段血缘图数据。
示例性地,基于图数据库可以实现对字段血缘关系的快速查询。
示例性地,所述Kafka流处理平台用于将所述字段血缘关系数据序列化到本地磁盘。
示例性地,所述预设数据查询引擎包括Presto数据引擎、Hive数据引擎、Spark数据引擎中的一种或多种。
请参见图3,图3为本申请实施例提供的字段血缘分析引擎的结构示意图,该字段血缘分析引擎与图1、图2所示方法实施例相对应。
在一些实施场景中,结合图1至图3,本申请实施例提供的基于图数据库的字段血缘处理方法的基本流程示例如下:
1)实现Presto、Hive、Spark的Hook分析,将提交的查询请求信息通过hook分析出对应的字段血缘关系数据,同时将z+平台中定义的任务参数信息,传递到数据模型、然后推送到kafka流处理平台中;
其中,Hook分析是Windows中提供的一种用以替换DOS下“中断”的系统机制,中文译为“挂钩”或“钩子”;在对特定的系统事件进行Hook后,一旦发生已Hook事件,对该事件进行Hook的程序就会收到系统的通知,这时程序就能在第一时间对该事件做出响应;
2)消费kafka流处理平台的数据,将kafka流处理平台中的数据序列化到本地磁盘,记录当前z+平台任务的任务标识信息和执行编号信息,异步启动一个预设线程,根据执行编号信息检测该预设线程是否处于完成状态,如果已经完成则将数据模型反序列化出来加载到预设内存中;
3)预设内存分析生成字段和字段的继承关系后,构造成对应的点和对应的边,一个点代表一个字段,点和点之前的边代表字段和字段的转换关系,在边上添加z+平台的任务参数信息,最后落入到图数据库中;
4)提供查询接口,用户通过该查询接口,可以从图数据库中快速的将血缘信息获取出来用于展示;
5)历史数据通过单独的进程消费kafka流流处理平台的数据,直接落入到hive表中。
示例性地,本申请实施例提供的字段血缘分析引擎,从更具底层引擎的查询语句实时的将所有SQL的血缘关系落地到图数据库中;因为基于图数据库,对于血缘查询的性能相较于当前银行的解决方案提高了2个数量级,对于敏感数据的打标可以达到秒级的响应。
请参见图4,图4为本申请实施例提供的基于图数据库的字段血缘处理系统的结构框图,该基于图数据库的字段血缘处理系统包括:
获取模块100,用于获取查询请求信息和任务参数信息;
血缘分析模块200,用于根据预设数据查询引擎对所述查询请求信息进行字段血缘分析,生成字段血缘关系数据;
发送模块300,用于将所述任务参数信息和所述字段血缘关系数据发送至Kafka流处理平台;
血缘图模块400,用于通过所述Kafka流处理平台分析所述字段血缘关系数据中字段之间的继承关系,生成字段血缘图数据;
图数据库模块500,用于根据所述字段血缘图数据生成图数据库,所述图数据库用于查询并展示所述查询请求信息的血缘信息。
示例性地,所述任务参数信息包括标识信息和执行编号信息,所述基于图数据库的字段血缘处理系统还包括:
记录模块,用于记录所述标识信息和所述执行编号信息,根据所述标识信息启动预设线程;
加载模块,用于根据所述执行编号信息检测所述预设线程处于完成状态时,将所述字段血缘关系数据对应的数据模型反序列化并加载至所述Kafka流处理平台对应的预设内存。
示例性地,所述血缘图模块400具体用于:
根据预设内存分析所述字段血缘关系数据中字段之间的继承关系,生成所述字段血缘图数据,所述字段血缘图数据中的一个点代表一个字段,点和点之间的边代表字段和字段的转换关系。
示例性地,所述血缘图模块400还用于:
将所述任务参数信息添加至所述字段血缘图数据。
示例性地,所述基于图数据库的字段血缘处理系统还包括查询模块,所述查询模块用于:
获取预设查询接口发送的接口数据;
根据所述接口数据在所述图数据库进行查询,获得与所述接口数据对应的字段血缘图数据。
示例性地,图4所示的基于图数据库的字段血缘处理系统与图1、图2所示的方法实施例相对应,为避免重复说明,此处不再赘述。
本申请还提供一种电子设备,请参见图5,图5为本申请实施例提供的一种电子设备的结构框图。电子设备可以包括处理器510、通信接口520、存储器530和至少一个通信总线540。其中,通信总线540用于实现这些组件直接的连接通信。其中,本申请实施例中电子设备的通信接口520用于与其他节点设备进行信令或数据的通信。处理器510可以是一种集成电路芯片,具有信号的处理能力。
上述的处理器510可以是通用处理器,包括中央处理器(CPU,Central ProcessingUnit)、网络处理器(NP,Network Processor)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器510也可以是任何常规的处理器等。
存储器530可以是,但不限于,随机存取存储器(RAM,Random Access Memory),只读存储器(ROM,Read Only Memory),可编程只读存储器(PROM,Programmable Read-OnlyMemory),可擦除只读存储器(EPROM,Erasable Programmable Read-Only Memory),电可擦除只读存储器(EEPROM,Electric Erasable Programmable Read-Only Memory)等。存储器530中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器510执行时,电子设备可以执行上述图1至图2方法实施例涉及的各个步骤。
可选地,电子设备还可以包括存储控制器、输入输出单元。
所述存储器530、存储控制器、处理器510、外设接口、输入输出单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线540实现电性连接。所述处理器510用于执行存储器530中存储的可执行模块,例如电子设备包括的软件功能模块或计算机程序。
输入输出单元用于提供给用户创建任务以及为该任务创建启动可选时段或预设执行时间以实现用户与服务器的交互。所述输入输出单元可以是,但不限于,鼠标和键盘等。
可以理解,图5所示的结构仅为示意,所述电子设备还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例还提供一种存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,所述计算机程序被处理器执行时实现方法实施例所述的方法,为避免重复,此处不再赘述。
本申请还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种基于图数据库的字段血缘处理方法,其特征在于,包括:
获取查询请求信息和任务参数信息;
根据预设数据查询引擎对所述查询请求信息进行字段血缘分析,生成字段血缘关系数据;
将所述任务参数信息和所述字段血缘关系数据发送至Kafka流处理平台;
通过所述Kafka流处理平台分析所述字段血缘关系数据中字段之间的继承关系,生成字段血缘图数据;
根据所述字段血缘图数据生成图数据库,所述图数据库用于查询并展示所述查询请求信息的血缘信息。
2.根据权利要求1所述的基于图数据库的字段血缘处理方法,其特征在于,所述任务参数信息包括标识信息和执行编号信息,在所述通过所述Kafka流处理平台分析所述字段血缘关系数据中字段之间的继承关系,生成字段血缘图数据的步骤之前,所述方法还包括:
记录所述标识信息和所述执行编号信息,根据所述标识信息启动预设线程;
根据所述执行编号信息检测所述预设线程处于完成状态时,将所述字段血缘关系数据对应的数据模型反序列化并加载至所述Kafka流处理平台对应的预设内存。
3.根据权利要求2所述的基于图数据库的字段血缘处理方法,其特征在于,所述通过所述Kafka流处理平台分析所述字段血缘关系数据中字段之间的继承关系,生成字段血缘图数据的步骤,包括:
根据预设内存分析所述字段血缘关系数据中字段之间的继承关系,生成所述字段血缘图数据,所述字段血缘图数据中的一个点代表一个字段,点和点之间的边代表字段和字段的转换关系。
4.根据权利要求3所述的基于图数据库的字段血缘处理方法,其特征在于,在所述根据所述字段血缘图数据生成图数据库的步骤之前,包括:
将所述任务参数信息添加至所述字段血缘图数据。
5.根据权利要求1所述的基于图数据库的字段血缘处理方法,其特征在于,在所述根据所述字段血缘图数据生成图数据库的步骤之后,所述方法还包括:
获取预设查询接口发送的接口数据;
根据所述接口数据在所述图数据库进行查询,获得与所述接口数据对应的字段血缘图数据。
6.根据权利要求1所述的基于图数据库的字段血缘处理方法,其特征在于,所述Kafka流处理平台用于将所述字段血缘关系数据序列化到本地磁盘。
7.根据权利要求1所述的基于图数据库的字段血缘处理方法,其特征在于,所述预设数据查询引擎包括Presto数据引擎、Hive数据引擎、Spark数据引擎中的一种或多种。
8.一种基于图数据库的字段血缘处理系统,其特征在于,包括:
获取模块,用于获取查询请求信息和任务参数信息;
血缘分析模块,用于根据预设数据查询引擎对所述查询请求信息进行字段血缘分析,生成字段血缘关系数据;
发送模块,用于将所述任务参数信息和所述字段血缘关系数据发送至Kafka流处理平台;
血缘图模块,用于通过所述Kafka流处理平台分析所述字段血缘关系数据中字段之间的继承关系,生成字段血缘图数据;
图数据库模块,用于根据所述字段血缘图数据生成图数据库,所述图数据库用于查询并展示所述查询请求信息的血缘信息。
9.一种电子设备,其特征在于,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于图数据库的字段血缘处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如权利要求1至7任一项所述的基于图数据库的字段血缘处理方法的步骤。
CN202210745321.9A 2022-06-27 2022-06-27 一种基于图数据库的字段血缘处理方法及系统 Pending CN115080570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210745321.9A CN115080570A (zh) 2022-06-27 2022-06-27 一种基于图数据库的字段血缘处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210745321.9A CN115080570A (zh) 2022-06-27 2022-06-27 一种基于图数据库的字段血缘处理方法及系统

Publications (1)

Publication Number Publication Date
CN115080570A true CN115080570A (zh) 2022-09-20

Family

ID=83254941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210745321.9A Pending CN115080570A (zh) 2022-06-27 2022-06-27 一种基于图数据库的字段血缘处理方法及系统

Country Status (1)

Country Link
CN (1) CN115080570A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076430A (zh) * 2023-10-09 2023-11-17 北京数语科技有限公司 一种通过数据网关获取数据模型的方法、系统、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076430A (zh) * 2023-10-09 2023-11-17 北京数语科技有限公司 一种通过数据网关获取数据模型的方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11537370B2 (en) System and method for ontology induction through statistical profiling and reference schema matching
Kranjc et al. Active learning for sentiment analysis on data streams: Methodology and workflow implementation in the ClowdFlows platform
US20200097601A1 (en) Identification of an entity representation in unstructured data
US9119056B2 (en) Context-driven application information access and knowledge sharing
Milev Conceptual approach for development of web scraping application for tracking information
US11501111B2 (en) Learning models for entity resolution using active learning
AU2019201821B2 (en) Generating an execution script for configuration of a system
US11379499B2 (en) Method and apparatus for executing distributed computing task
US20220291966A1 (en) Systems and methods for process mining using unsupervised learning and for automating orchestration of workflows
Shehab et al. Big data analytics and preprocessing
US20210200819A1 (en) Determining associations between services and computing assets based on alias term identification
US11507447B1 (en) Supervised graph-based model for program failure cause prediction using program log files
CN115080570A (zh) 一种基于图数据库的字段血缘处理方法及系统
CN112948478A (zh) 基于链路的代码分析方法、装置、电子设备及存储介质
CN113032256A (zh) 自动化测试方法、装置、计算机系统和可读存储介质
CN116483888A (zh) 程序评估方法及装置、电子设备和计算机可读存储介质
CN116185856A (zh) 一种软件系统健康检测方法、装置、存储介质及设备
US20220405065A1 (en) Model Document Creation in Source Code Development Environments using Semantic-aware Detectable Action Impacts
US11645283B2 (en) Predictive query processing
CN115237706A (zh) 埋点数据处理方法、装置、电子设备及存储介质
US20220122038A1 (en) Process Version Control for Business Process Management
CN116483735B (zh) 一种代码变更的影响分析方法、装置、存储介质及设备
Graf et al. Frost: a platform for benchmarking and exploring data matching results
Diakun et al. Splunk Operational Intelligence Cookbook: Over 80 recipes for transforming your data into business-critical insights using Splunk
WO2024156113A1 (en) Runtime error attribution for database queries specified using a declarative database query language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination