CN113032579A - 一种元数据血缘分析方法、装置、电子设备和介质 - Google Patents

一种元数据血缘分析方法、装置、电子设备和介质 Download PDF

Info

Publication number
CN113032579A
CN113032579A CN202110321295.2A CN202110321295A CN113032579A CN 113032579 A CN113032579 A CN 113032579A CN 202110321295 A CN202110321295 A CN 202110321295A CN 113032579 A CN113032579 A CN 113032579A
Authority
CN
China
Prior art keywords
metadata
blood
log
analysis
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110321295.2A
Other languages
English (en)
Other versions
CN113032579B (zh
Inventor
刘冰冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202110321295.2A priority Critical patent/CN113032579B/zh
Publication of CN113032579A publication Critical patent/CN113032579A/zh
Application granted granted Critical
Publication of CN113032579B publication Critical patent/CN113032579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/2448Query languages for particular applications; for extensibility, e.g. user defined types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种元数据血缘分析方法、装置、电子设备和存储介质,涉及人工智能技术领域,包括:获取元数据以及与元数据所对应的日志;根据元数据和日志获取元数据知识图谱;基于知识图谱进行元数据血缘分析。根据元数据和日志获取元数据知识图谱,并基于元数据知识图谱进行元数据血缘分析,从而避免了采用传统关系型数据库所造成的血缘分析的局限性,能够根据需求获取较细粒度的数据间的血缘分析。

Description

一种元数据血缘分析方法、装置、电子设备和介质
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种元数据血缘分析方法、装置、电子设备和介质。
背景技术
数据血缘,指的是数据的产生、加工融合、流转流通,到最终消亡的过程中,数据之间形成的一种关系。数据血缘分析,可用于分析上游数据发生变化会给下游数据带来哪些影响,下游数据发生变化时追踪上游问题的源头等问题。
但目前所采用的数据血缘分析技术,绝大部分是基于已经获知的表间依赖关系以及字段间加工逻辑等要素,进行血缘关系的显性分析,且由于传统关系型数据库的技术壁垒,此类血缘分析的程度相当局限,也极少能够完整的获取较细粒度的数据间的血缘分析。
发明内容
本发明实施例提供了一种元数据血缘分析方法、装置、电子设备和存储介质,以实现基于知识图谱元数据血缘分析。
第一方面,本发明实施例提供了一种元数据血缘分析方法,包括:
获取元数据以及与元数据所对应的日志;
根据元数据和日志获取元数据知识图谱;
基于知识图谱进行元数据血缘分析。
第二方面,本发明实施例提供了一种元数据血缘分析装置,包括:
元数据和日志获取模块,用于获取元数据以及与元数据所对应的日志;
元数据知识图谱获取模块,用于根据元数据和日志获取元数据知识图谱;
数据血缘分析模块,用于基于知识图谱进行元数据血缘分析。
第三方面,本发明实施例还提供了一种电子设备,电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本发明任意实施例的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例的方法。
在本发明实施例中,根据元数据和日志获取元数据知识图谱,并基于元数据知识图谱进行元数据血缘分析,从而避免了采用传统关系型数据库所造成的血缘分析的局限性,能够根据需求获取较细粒度的数据间的血缘分析。
附图说明
图1A是本发明实施例一提供的元数据血缘分析方法的流程图;
图1B是本发明实施例一提供的元数据血缘分析方法的应用场景图;
图1C是本发明实施例一提供的实现元数据血缘分析的平台架构图;
图1D是本发明实施例一提供的日志解析原理示意图;
图2是本发明实施例二提供的元数据血缘分析方法的流程图;
图3是本发明实施例三提供的元数据血缘分析装置的结构示意图;
图4是本发明实施例四提供的一种电子设备的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1A是本发明实施例提供的元数据血缘分析方法的流程图,本实施例可适用于对元数据进行血缘分析的情况,该方法可以由本发明实施例中的元数据血缘分析装置来执行,该装置可以通过软件和/或硬件的方式实现,本发明实施例的方法具体包括如下步骤:
步骤S101,获取元数据以及与元数据所对应的日志。
具体的说,如图1B是本申请实施例提供的血缘分析方法的应用场景图,本实施方式所采用的图数据库可以为TigerGraph,底层依赖于大数据平台,可以使用开源的分布式系统基础架构Hadoop产品,如Cloudera版本的大数据平台(Cloudera’s DistributionIncluding Apache Hadoop,CDH)等主流产品。并且本实施方式中的图数据库和大数据平台可以混合部署,提高服务器资源使用率,并且本实施方式中最少使用3个服务器节点即可部署使用,当然,本实施方式中仅是举例说明而并不对应用场景中所使用的服务器和大数据平台的具体类型进行限定。
其中,如图1C所示为本申请实施例提供的实现元数据血缘分析的平台架构图,在平台架构中主要包括六个模块分别是:自然语言处理(Natural Language Processing,NLP)分类引擎、SQL解析引擎、元数据关联、元数据仓库、元数据应用和应用算法组件。并且本实施方式中在获取到元数据和元数据所对应的日志之后,是首先通过NLP分类引擎对元数据进行处理,通过SQL解析引擎对日志进行处理。并且所获取的元数据具体可以包括:技术元数据、业务元数据、管理元数据、监管元数据、质量元数据和安全元数据。所获取的日志具体包括:模型类日志、数据库日志和查询类日志,本实施方式中并不限定所获取的元数据和日志的具体类型。
步骤S102,根据元数据和日志获取元数据知识图谱。
可选的,根据元数据和日志获取元数据知识图谱,可以包括:对元数据进行分类获取分类后的元数据,以及对日志进行解析获取元数据间的血缘关系;根据分类后的元数据以及血缘关系获取知识图谱。
可选的,对元数据进行分类获取分类后的元数据,可以包括:获取资产分类模型;采用资产分类模型对元数据进行标签标注,获取分类后的元数据。
可选的,采用资产分类模型对元数据进行标签标注,可以包括:基于自然语言处理分类引擎采用资产分类模型对元数据类别,以及元数据间的关系进行标签标注。
具体的说,本实施方式中会首先获取资产分类模型,然后基于NLP分类引擎采用之前所获取的资产分类模型对所获取的元数据进行分类,以及元数据间的关系进行标签标注,例如,元数据1和元数据2是技术元数据,并且技术元数据2属于A类型,而技术元数据2是从属于A类型下的小类,并且具体是a1类型,因此技术元数据1和技术元数据2两者之间具有关联关系,并且具体是从属关系,因此在获得元数据1和元数据2的类型之后,进一步对元数据1和元数据2之间的从属关系进行标签标注。
需要说明的是,本实施方式中在获取资产分类模型时涉及到了机器学习,具体是通过预先所获取的样本数据按照预设分类规则通过训练所获取的,因此可以得出本实施方式中在对元数据进行分类时具体是通过规则引擎和机器学习结合所实现的。
可选的,对日志进行解析获取元数据间的血缘关系,可以包括:基于SQL解析引擎确定SQL日志中产生血缘的环节;基于确定的环节对SQL日志进行解析获取元数据间的血缘关系。
其中,在通过对日志进行解析获取元数据间的血缘关系时,具体是从物理层面进行确定的,并且在对SQL日志进行解析之前,首先需要确定SQL日志中产生血缘的环节,如下表1所示为日志解析中产生血缘的环节:
表1
Figure BDA0002992994250000051
Figure BDA0002992994250000061
其中,表1中仅是对日志解析中产生血缘的环节进行举例说明,在实际应用中并不对产生血缘的具体环节进行限定,可以根据实际情况进行确定。
可选的,基于确定的环节对SQL日志进行解析获取元数据间的血缘关系,可以包括:基于确定的环节对SQL日志进行词法分析和语法分析获取抽象语法树;对抽象语法树进行语义分析获取元数据间的血缘关系。
具体的说,本实施方式中在确定出SQL日志中产生血缘的环节之后,可以基于所确定的环节对SQL日志进行解析获取元数据间的血缘关系,并且具体是基于确定的环节参照如图1D所示的日志解析原理示意图进行解析,以对SQL日志进行词法分析和语法分析获取抽象语法树(Abstract Syntax Tree,AST)。其中,抽象语法树是源代码语法结构的一种抽象表示,并以树状的形式表现变成语言的语法结构,树上的每个节点都表示源代码中的一种结构,通过对抽象语法树进行语义分析在物理层面获取元数据间的血缘关系。本实施方式中所支持的SQL的类型可以包括:Oracle、MySQL、Hive和PostgreSQL等,但并不对所支持的SQL的类型进行具体限定。
可选的,根据分类后的元数据以及血缘关系获取知识图谱,可以包括:将分类后的元数据和血缘关系进行关联确定元数据及关系的归集;根据元数据及关系的归集获取知识图谱。
可选的,根据元数据归集获取知识图谱之后,还可以包括:将知识图谱在元数据仓库中进行保存。
具体的说,在通过NLP分类引擎获取分类后的元数据,以及通过SQL解析引擎获取血缘关系之后,会基于图1C中的元数据关联模块中的元数据抽取功能将分类后的元数据和血缘关系进行关联确定元数据及关系的归集;通过元数据关联模块中的元数据转换功能根据元数据及关系的归集获取知识图谱;并且本实施方式中会通过元数据关联模块中的元数据加载功能,将所获取的知识图谱加载到元数据仓库中进行保存。
步骤S103,基于知识图谱进行元数据血缘分析。
可选的,基于知识图谱进行元数据血缘分析,可以包括确定元数据应用场景的类型,其中,元数据应用场景的类型包括:全图数据血缘、数据体检、管理驾驶舱和元数据检索;基于知识图谱按照类型确定的元数据应用场景进行元数据血缘分析。
可选的,基于知识图谱按照类型确定的元数据应用场景进行元数据血缘分析,可以包括:确定应用算法组件,其中,应用算法组件包括元数据诊断组件、正反向寻源组件、元关系推理组件和元图谱维护组件;通过应用算法组件基于知识图谱按照类型确定的元数据应用场景进行元数据血缘分析。
具体的说,本实施方式中的元数据仓库包括元数据Scheme、元数据场景应用域和Scheme管理/维护,并且元数据Scheme位于元数据存储层,元数据场景应用位于元数据访问层,Scheme管理/维护位于元数据管理层。而位于元数据访问层的元数据场景应用域可以支持元数据应用场景下对知识图谱的访问,并根据知识图谱进行不同类型的元数据应用场景的数据血缘分析。
在本发明实施例中,根据元数据和日志获取元数据知识图谱,并基于元数据知识图谱进行元数据血缘分析,从而避免了采用传统关系型数据库所造成的血缘分析的局限性,能够根据需求获取较细粒度的数据间的血缘分析。
实施例二
图2是本发明实施例所提供的元数据血缘分析方法的流程图,本实施例以上述实施例为基础,对实施例一中对基于知识图谱进行元数据血缘分析的过程进行具体说明。
如图2所示,本公开实施例的方法具体包括:
步骤S201,获取元数据以及与元数据所对应的日志。
步骤S202,根据元数据和日志获取元数据知识图谱。
可选的,根据元数据和日志获取元数据知识图谱,可以包括:对元数据进行分类获取分类后的元数据,以及对日志进行解析获取元数据间的血缘关系;根据分类后的元数据以及血缘关系获取知识图谱。
可选的,对元数据进行分类获取分类后的元数据,可以包括:获取资产分类模型;采用资产分类模型对元数据进行标签标注,获取分类后的元数据。
可选的,采用资产分类模型对元数据进行标签标注,可以包括:基于自然语言处理分类引擎采用资产分类模型对元数据类别,以及元数据间的关系进行标签标注。
可选的,对日志进行解析获取元数据间的血缘关系,可以包括:基于SQL解析引擎确定SQL日志中产生血缘的环节;基于确定的环节对SQL日志进行解析获取元数据间的血缘关系。
可选的,根据分类后的元数据以及血缘关系获取知识图谱,可以包括:将分类后的元数据和血缘关系进行关联确定元数据及关系的归集;根据元数据及关系的归集获取知识图谱。
步骤S203,确定元数据应用场景的类型。
具体的说,本实施方式中的元数据应用场景的类型包括:全图数据血缘、数据体检、管理驾驶舱和元数据检索,当然还可以包括数字资产目录和数据资产地图等,本实施方式中并不对元数据应用场景的类型进行限定。并且在实际应用中可以根据用户的需求指令确定所需要实现的元数据应用场景的类型。
步骤S204,确定应用算法组件。
具体的说,本实施方式中的应用算法组件包括元数据诊断组件、正反向寻源组件、元关系推理组件和元图谱维护组件。并且每一个元数据应用场景的实现需要对应不同的应用算法组件来执行,因此可以根据提前所保存的元数据应用场景的类型与应用算法组件的对应关系,以及根据用户指令所确定的元数据应用场景的类型,直接确定所需要使用的应用算法组件。
其中,元数据诊断组件用于对同类数据进行差异分析,识别数据标准执行偏差等;对相似数据进行识别,明确相似数据标准差异。并且可识别同源同构、同源异构、异源同构和异源异构等情况;正反向寻源组件用于,基于知识图谱实现以业务应用为出发点的正向数据追踪、反向数据溯源功能;元关系推理组件用于,针对同构输入的数据集需求检索并确定数据获取路径或规则,满足用户数据集需求和模糊需求的检索,并且还可以通过智能关系溯源,实现从数据需求溯源到业务数据,并通过元数据索引,实现智能关系识别和相关实体关系的可视化;元图谱维护组件用于,实现图谱的在线增、删、改、查等维护功能,以及维护审批功能。
步骤S205,通过应用算法组件基于知识图谱按照类型确定的元数据应用场景进行元数据血缘分析。
具体的说,在元数据应用场景以及所使用的应用算法组件已经确定的情况下,可以通过所确定的应用算法组件通过元数据访问层对元数据仓库进行访问,并从元数据存储层中获取知识图谱。
在一个具体实现中,在确定元数据应用场景的类型为全图数据血缘时,可以通过元数据诊断组件和正反向寻源组件基于知识图谱进行血缘分析,以进行跨业务条线、跨系统和跨数据库的全图血缘查证,支撑数据问题的快速定位和查证,异常指标的溯源分析,针对确定的指标或任务,只能分析数据处理链路和性能瓶颈产生的环节并给出调整建议。
在另一个具体实现中,在确定元数据应用场景的类型为数据体检时,可以通过元数据诊断组件、正反向寻源组件、元关系推理最贱和元图谱维护组件基于知识图谱进行血缘分析,以进行识别并监控数据是否按照企业定义的标准进行开发和修正处理;判断系统和数据健康状况是否存在大量冗余、无源和重复计算的情况造成资源浪费;从数据的集成度、分布、冗余度、热点和重要性等方面进行数据评估判断数据价值;识别和动态监控数据价值变化,及时进行必要的资源分配调整,包括不限于:数据冗余、数据复制等措施,以及为新建系统提供必要的规划指导建议。
在本发明实施例中,根据元数据和日志获取元数据知识图谱,并基于元数据知识图谱进行元数据血缘分析,从而避免了采用传统关系型数据库所造成的血缘分析的局限性,能够根据需求获取较细粒度的数据间的血缘分析。并且具体是通过应用算法组件基于知识图谱按照类型确定的元数据应用场景进行元数据血缘分析,从而使得血缘分析的场景更具有个性化,以满足用户在不同场景下的血缘分析的需求。
实施例三
图3是本发明实施例提供的一种元数据血缘分析装置的结构示意图,具体包括:元数据和日志获取模块310、元数据知识图谱获取模块320和元数据知识图谱获取模块330。
其中,元数据和日志获取模块310,用于获取元数据以及与元数据所对应的日志;
元数据知识图谱获取模块320,用于根据元数据和日志获取元数据知识图谱;
数据血缘分析模块330,用于基于知识图谱进行元数据血缘分析。
可选的,元数据知识图谱获取模块包括:元数据分类子模块,用于对元数据进行分类获取分类后的元数据,
日志解析子模块,用于对日志进行解析获取元数据间的血缘关系;
知识图谱获取子模块,用于根据分类后的元数据以及血缘关系获取知识图谱。
可选的,元数据分类子模块用于获取资产分类模型;
采用资产分类模型对元数据进行标签标注,获取分类后的元数据。
可选的,元数据分类子模块还用于,基于自然语言处理分类引擎采用资产分类模型对元数据类别,以及元数据间的关系进行标签标注。
可选的,元数据包括:技术元数据、业务元数据、管理元数据、监管元数据、质量元数据和安全元数据。
可选的,日志解析子模块,用于基于SQL解析引擎确定SQL日志中产生血缘的环节;
基于确定的环节对SQL日志进行解析获取元数据间的血缘关系。
可选的,日志解析子模块还用于,基于确定的环节对SQL日志进行词法分析和语法分析获取抽象语法树;
对抽象语法树进行语义分析获取元数据间的血缘关系。
可选的,日志包括:模型类日志、数据库日志和查询类日志。
可选的,知识图谱获取子模块用于,将分类后的元数据和血缘关系进行关联确定元数据及关系的归集;
根据元数据及关系的归集获取知识图谱。
可选的,装置还包括知识图谱保存模块,用于将知识图谱在元数据仓库中进行保存。
可选的,数据血缘分析模块包括,应用场景的类型确定子模块,用于确定元数据应用场景的类型,其中,元数据应用场景的类型包括:全图数据血缘、数据体检、管理驾驶舱和元数据检索;
血缘分析子模块,用于基于知识图谱按照类型确定的元数据应用场景进行元数据血缘分析。
可选的,血缘分析子模块,用于确定应用算法组件,其中,应用算法组件包括元数据诊断组件、正反向寻源组件、元关系推理组件和元图谱维护组件;
通过应用算法组件基于知识图谱按照类型确定的元数据应用场景进行元数据血缘分析。
上述装置可执行本发明任意实施例所提供的元数据血缘分析方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的方法。
实施例四
图4是本发明实施例提供的一种电子设备的结构示意图。图4示出了适用于用来实现本发明实施方式的示例性电子设备412的框图。图4显示的电子设备412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备412以通用计算设备的形式出现。电子设备412的组件可以包括但不限于:一个或者多个处理器416,存储器428,连接不同系统组件(包括存储器428和处理器416)的总线418.
总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器428用于存储指令。存储器428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)430和/或高速缓存存储器432。电子设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储器428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块442的程序/实用工具440,可以存储在例如存储器428中,这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。
电子设备412也可以与一个或多个外部设备414(例如键盘、指向设备、显示器424等)通信,还可与一个或者多个使得用户能与该电子设备412交互的设备通信,和/或与使得该电子设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且,电子设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与电子设备412的其它模块通信。应当明白,尽管图4中未示出,可以结合电子设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器416通过运行存储在存储器428中的指令,从而执行各种功能应用以及数据处理,例如执行以下操作:
获取元数据以及与元数据所对应的日志;根据元数据和日志获取元数据知识图谱;基于知识图谱进行元数据血缘分析。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行元数据血缘分析方法,该方法包括:
获取元数据以及与元数据所对应的日志;根据元数据和日志获取元数据知识图谱;基于知识图谱进行元数据血缘分析。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的元数据血缘分析方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的元数据血缘分析方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (15)

1.一种元数据血缘分析方法,其特征在于,包括:
获取元数据以及与所述元数据所对应的日志;
根据所述元数据和所述日志获取元数据知识图谱;
基于所述知识图谱进行元数据血缘分析。
2.根据权利要求1所述的方法,其特征在于,所述根据所述元数据和所述日志获取元数据知识图谱,包括:
对所述元数据进行分类获取分类后的元数据,以及对所述日志进行解析获取元数据间的血缘关系;
根据所述分类后的元数据以及所述血缘关系获取知识图谱。
3.根据权利要求2所述的方法,其特征在于,所述对所述元数据进行分类获取分类后的元数据,包括:
获取资产分类模型;
采用所述资产分类模型对所述元数据进行标签标注,获取所述分类后的元数据。
4.根据权利要求3所述的方法,其特征在于,所述采用所述资产分类模型对所述元数据进行标签标注,包括:
基于自然语言处理分类引擎采用所述资产分类模型对所述元数据类别,以及元数据间的关系进行标签标注。
5.根据权利要求4所述的方法,其特征在于,所述元数据包括:技术元数据、业务元数据、管理元数据、监管元数据、质量元数据和安全元数据。
6.根据权利要求2所述的方法,其特征在于,所述对所述日志进行解析获取元数据间的血缘关系,包括:
基于SQL解析引擎确定SQL日志中产生血缘的环节;
基于确定的环节对SQL日志进行解析获取元数据间的血缘关系。
7.根据权利要求6所述的方法,其特征在于,所述基于确定的环节对SQL日志进行解析获取元数据间的血缘关系,包括:
基于确定的环节对所述SQL日志进行词法分析和语法分析获取抽象语法树;
对所述抽象语法树进行语义分析获取元数据间的血缘关系。
8.根据权利要求7所述的方法,其特征在于,所述日志包括:模型类日志、数据库日志和查询类日志。
9.根据权利要求2所述的方法,其特征在于,所述根据所述分类后的元数据以及所述血缘关系获取知识图谱,包括:
将所述分类后的元数据和所述血缘关系进行关联确定元数据及关系的归集;
根据所述元数据及关系的归集获取知识图谱。
10.根据权利要求9所述的方法,其特征在于,所述根据所述元数据归集获取知识图谱之后,还包括:
将所述知识图谱在元数据仓库中进行保存。
11.根据权利要求1所述的方法,其特征在于,所述基于所述知识图谱进行元数据血缘分析,包括:
确定元数据应用场景的类型,其中,所述元数据应用场景的类型包括:全图数据血缘、数据体检、管理驾驶舱和元数据检索;
基于所述知识图谱按照类型确定的元数据应用场景进行元数据血缘分析。
12.根据权利要求11所述的方法,其特征在于,所述基于所述知识图谱按照类型确定的元数据应用场景进行元数据血缘分析,包括:
确定应用算法组件,其中,所述应用算法组件包括元数据诊断组件、正反向寻源组件、元关系推理组件和元图谱维护组件;
通过所述应用算法组件基于所述知识图谱按照类型确定的元数据应用场景进行元数据血缘分析。
13.一种元数据血缘分析装置,其特征在于,包括:
元数据和日志获取模块,用于获取元数据以及与所述元数据所对应的日志;
元数据知识图谱获取模块,用于根据所述元数据和所述日志获取元数据知识图谱;
数据血缘分析模块,用于基于所述知识图谱进行元数据血缘分析。
14.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-12中任一所述的方法。
CN202110321295.2A 2021-03-25 2021-03-25 一种元数据血缘分析方法、装置、电子设备和介质 Active CN113032579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110321295.2A CN113032579B (zh) 2021-03-25 2021-03-25 一种元数据血缘分析方法、装置、电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110321295.2A CN113032579B (zh) 2021-03-25 2021-03-25 一种元数据血缘分析方法、装置、电子设备和介质

Publications (2)

Publication Number Publication Date
CN113032579A true CN113032579A (zh) 2021-06-25
CN113032579B CN113032579B (zh) 2022-11-25

Family

ID=76473825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110321295.2A Active CN113032579B (zh) 2021-03-25 2021-03-25 一种元数据血缘分析方法、装置、电子设备和介质

Country Status (1)

Country Link
CN (1) CN113032579B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468257A (zh) * 2021-07-05 2021-10-01 乐融致新电子科技(天津)有限公司 基于数据仓库的数据质量监控方法及装置
CN113626423A (zh) * 2021-06-29 2021-11-09 欧电云信息科技(江苏)有限公司 业务数据库的日志管理方法、装置、系统
CN114356848A (zh) * 2022-03-11 2022-04-15 中国信息通信研究院 元数据管理方法、计算机存储介质及电子设备
CN114356940A (zh) * 2021-12-20 2022-04-15 云南电网有限责任公司信息中心 电网数据治理平台及方法
CN114493531A (zh) * 2022-01-27 2022-05-13 广州智算信息技术有限公司 一种基于ai大数据的智模多人协作管理平台
CN114817270A (zh) * 2022-05-24 2022-07-29 中国农业银行股份有限公司 一种基于知识图谱的表字段血缘关系可视化方法及装置
CN115374106A (zh) * 2022-07-15 2022-11-22 北京三维天地科技股份有限公司 一种基于知识图谱技术的数据智能分级方法
CN116450908A (zh) * 2023-06-19 2023-07-18 北京大数据先进技术研究院 基于数据湖的自助式数据分析方法、装置和电子设备
CN117493641A (zh) * 2024-01-02 2024-02-02 中国电子科技集团公司第二十八研究所 一种基于语义元数据的二次模糊搜索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180131803A1 (en) * 2016-11-08 2018-05-10 Microsoft Technology Licensing, Llc Mobile data insight platforms for data analysis
CN111324781A (zh) * 2020-03-03 2020-06-23 南京领行科技股份有限公司 一种数据分析方法、装置及设备
CN112131273A (zh) * 2020-09-23 2020-12-25 南京数云信息科技有限公司 一种基于Mysql数据库日志的数据关系挖掘方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180131803A1 (en) * 2016-11-08 2018-05-10 Microsoft Technology Licensing, Llc Mobile data insight platforms for data analysis
CN111324781A (zh) * 2020-03-03 2020-06-23 南京领行科技股份有限公司 一种数据分析方法、装置及设备
CN112131273A (zh) * 2020-09-23 2020-12-25 南京数云信息科技有限公司 一种基于Mysql数据库日志的数据关系挖掘方法及装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626423A (zh) * 2021-06-29 2021-11-09 欧电云信息科技(江苏)有限公司 业务数据库的日志管理方法、装置、系统
CN113626423B (zh) * 2021-06-29 2024-01-30 欧电云信息科技(江苏)有限公司 业务数据库的日志管理方法、装置、系统
CN113468257A (zh) * 2021-07-05 2021-10-01 乐融致新电子科技(天津)有限公司 基于数据仓库的数据质量监控方法及装置
CN114356940A (zh) * 2021-12-20 2022-04-15 云南电网有限责任公司信息中心 电网数据治理平台及方法
CN114356940B (zh) * 2021-12-20 2024-05-14 云南电网有限责任公司信息中心 电网数据治理系统及方法
CN114493531A (zh) * 2022-01-27 2022-05-13 广州智算信息技术有限公司 一种基于ai大数据的智模多人协作管理平台
CN114356848A (zh) * 2022-03-11 2022-04-15 中国信息通信研究院 元数据管理方法、计算机存储介质及电子设备
CN114817270A (zh) * 2022-05-24 2022-07-29 中国农业银行股份有限公司 一种基于知识图谱的表字段血缘关系可视化方法及装置
CN115374106A (zh) * 2022-07-15 2022-11-22 北京三维天地科技股份有限公司 一种基于知识图谱技术的数据智能分级方法
CN116450908A (zh) * 2023-06-19 2023-07-18 北京大数据先进技术研究院 基于数据湖的自助式数据分析方法、装置和电子设备
CN116450908B (zh) * 2023-06-19 2023-10-03 北京大数据先进技术研究院 基于数据湖的自助式数据分析方法、装置和电子设备
CN117493641A (zh) * 2024-01-02 2024-02-02 中国电子科技集团公司第二十八研究所 一种基于语义元数据的二次模糊搜索方法
CN117493641B (zh) * 2024-01-02 2024-03-22 中国电子科技集团公司第二十八研究所 一种基于语义元数据的二次模糊搜索方法

Also Published As

Publication number Publication date
CN113032579B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN113032579B (zh) 一种元数据血缘分析方法、装置、电子设备和介质
US11847574B2 (en) Systems and methods for enriching modeling tools and infrastructure with semantics
US20200183995A1 (en) Discovery of linkage points between data sources
US10430469B2 (en) Enhanced document input parsing
US20210303783A1 (en) Multi-layer graph-based categorization
CN110569369A (zh) 银行金融系统知识图谱的生成方法及装置、应用方法及装置
US11423072B1 (en) Artificial intelligence system employing multimodal learning for analyzing entity record relationships
US11106719B2 (en) Heuristic dimension reduction in metadata modeling
US20130275392A1 (en) Solving problems in data processing systems based on text analysis of historical data
US20120246175A1 (en) Annotating schema elements based on associating data instances with knowledge base entities
CN112000773B (zh) 基于搜索引擎技术的数据关联关系挖掘方法及应用
JP2018506775A (ja) トランザクションアクセスパターンに基づいた結合関係の識別
Ilyas et al. Saga: A platform for continuous construction and serving of knowledge at scale
US20150127631A1 (en) Best available alternative dialog
US11514321B1 (en) Artificial intelligence system using unsupervised transfer learning for intra-cluster analysis
Zhang et al. Openki: Integrating open information extraction and knowledge bases with relation inference
CN115422155A (zh) 一种数据湖元数据模型的建模方法
US20160070707A1 (en) Keyword search on databases
Draschner et al. Ethical and sustainability considerations for knowledge graph based machine learning
CN112328599A (zh) 基于元数据的字段血缘分析方法及装置
Zdepski et al. New Perspectives for NoSQL Database Design: A Systematic Review
Kilias et al. INDREX: In-database relation extraction
US20230281212A1 (en) Generating smart automated data movement workflows
US20220188512A1 (en) Maintenance of a data glossary
US20240220876A1 (en) Artificial intelligence (ai) based data product provisioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant