CN111159184A - 元数据追溯方法、装置及服务器 - Google Patents

元数据追溯方法、装置及服务器 Download PDF

Info

Publication number
CN111159184A
CN111159184A CN201911374317.0A CN201911374317A CN111159184A CN 111159184 A CN111159184 A CN 111159184A CN 201911374317 A CN201911374317 A CN 201911374317A CN 111159184 A CN111159184 A CN 111159184A
Authority
CN
China
Prior art keywords
metadata
database
data
tracing
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911374317.0A
Other languages
English (en)
Other versions
CN111159184B (zh
Inventor
张曙华
杨安荣
成扬
李仡
李刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhongxin Information Development Co ltd
Original Assignee
Shanghai Zhongxin Information Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhongxin Information Development Co ltd filed Critical Shanghai Zhongxin Information Development Co ltd
Priority to CN201911374317.0A priority Critical patent/CN111159184B/zh
Publication of CN111159184A publication Critical patent/CN111159184A/zh
Application granted granted Critical
Publication of CN111159184B publication Critical patent/CN111159184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Abstract

本发明提供了一种元数据追溯方法、装置及服务器;其中,该方法包括:获取数据追溯请求后,根据数据追溯请求以及预先建立的专题数据库与预设的汇总数据库的第一映射关系,确定该数据追溯请求对应的目标元数据;进而根据目标元数据及预先建立的汇总数据库与业务系统数据库的第二映射关系,确定数据追溯请求对应的追溯结果。本发明基于预设的业务系统数据库建立的汇总数据库的类型为图形数据库,可以在该汇总数据库中快速确定该数据追溯请求对应的目标元数据,进而根据该目标元数据可以在业务系统数据库中确定追溯结果,实现对专题数据库中的元数据的实时追溯,提高了追溯效率。

Description

元数据追溯方法、装置及服务器
技术领域
本发明涉及数据库领域,尤其是涉及一种元数据追溯方法、装置及服务器。
背景技术
相关技术中,为了解决各个专题数据库中元数据追溯的问题,一般采用关系型数据库维护元数据的层级关系,该情况下可以通过表与表的连接查询最终追溯到业务系统数据库;然而该方式只适用于一定关系深度范围的元数据的追溯,超过该范围无法追溯或追溯效率较差。
发明内容
有鉴于此,本发明的目的在于提供一种元数据追溯方法、装置及服务器,以实现对专题数据库中的元数据的实时追溯,提高追溯效率。
第一方面,本发明实施例提供了一种元数据追溯方法,包括:获取数据追溯请求;数据追溯请求包括待追溯元数据;待追溯元数据属于预先建立的专题数据库;根据数据追溯请求以及预先建立的专题数据库与预设的汇总数据库的第一映射关系,确定数据追溯请求对应的目标元数据;汇总数据库基于预设的业务系统数据库建立;汇总数据库的类型为图形数据库;根据目标元数据及预先建立的汇总数据库与业务系统数据库的第二映射关系,确定数据追溯请求对应的追溯结果。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,上述汇总数据库通过以下方式建立:获取业务系统数据库的初始元数据;初始元数据包括多个;根据初始元数据的属性,确定各个初始元数据之间的相关关系;基于各个初始元数据之间的相关关系,剔除初始元数据中的冗余数据,得到精简元数据及各个精简元数据之间的相关关系;以精简元数据作为第一节点,基于各个精简元数据之间的相关关系,建立第一节点之间的连接关系,生成第一元数据网状图;将第一元数据网状图以数据湖的方式存储,生成汇总数据库。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,上述数据追溯请求还包括待追溯关系深度;根据数据追溯请求以及预先建立的专题数据库与预设的汇总数据库的第一映射关系,确定数据追溯请求对应的目标元数据的步骤,包括:根据第一映射关系,确定待追溯元数据在第一元数据网状图中对应的第一节点;将待追溯元数据对应的第一节点作为中心节点,在预先建立的汇总数据库中查找目标节点;目标节点与中心节点的关系深度为待追溯关系深度;将目标节点对应的精简元数据作为数据追溯请求对应的目标元数据。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,该方法还包括:以业务系统数据库中的各个初始元数据为第二节点,基于各个初始元数据之间的相关关系,建立第二节点之间的连接关系,生成业务系统数据库对应的第二元数据网状图;基于预设的数据抽取规则,建立第一元数据网状图中的第一节点与第二元数据网状图中的第二节点之间的第二映射关系。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,根据预先建立的汇总数据库与业务系统数据库的第二映射关系及目标元数据,确定数据追溯请求对应的追溯结果的步骤,包括:根据第二映射关系,确定目标元数据在第二元数据网状图对应的第二节点;将第二节点对应的初始元数据确定为数据追溯请求对应的追溯结果。
第二方面,本发明实施例还提供一种元数据追溯装置,包括:请求获取模块,用于获取数据追溯请求;数据追溯请求包括待追溯元数据;待追溯元数据属于预先建立的专题数据库;目标元数据确定模块,用于根据数据追溯请求以及预先建立的专题数据库与预设的汇总数据库的第一映射关系,确定数据追溯请求对应的目标元数据;汇总数据库基于预设的业务系统数据库建立;汇总数据库的类型为图形数据库;追溯结果确定模块,用于根据目标元数据及预先建立的汇总数据库与业务系统数据库的第二映射关系,确定数据追溯请求对应的追溯结果。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,上述汇总数据库通过以下方式建立:获取业务系统数据库的初始元数据;初始元数据包括多个;根据初始元数据的属性,确定各个初始元数据之间的相关关系;基于各个初始元数据之间的相关关系,剔除初始元数据中的冗余数据,得到精简元数据及各个精简元数据之间的相关关系;以精简元数据作为第一节点,基于各个精简元数据之间的相关关系,建立第一节点之间的连接关系,生成第一元数据网状图;将第一元数据网状图以数据湖的方式存储,生成汇总数据库。
结合第二方面第一种可能的实施方式,本发明实施例提供了第二方面的第二种可能的实施方式,其中,上述数据追溯请求还包括待追溯关系深度;上述目标元数据确定模块还用于:根据第一映射关系,确定待追溯元数据在第一元数据网状图中对应的第一节点;将待追溯元数据对应的第一节点作为中心节点,在预先建立的汇总数据库中查找目标节点;目标节点与中心节点的关系深度为待追溯关系深度;将目标节点对应的精简元数据作为数据追溯请求对应的目标元数据。
第三方面,本发明实施例还提供一种服务器,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述方法。
第四方面,本发明实施例还提供一种机器可读存储介质,机器可读存储介质存储有机器可执行指令,机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述方法。
本发明实施例带来了以下有益效果:
本发明实施例提供了一种元数据追溯方法、装置及服务器,获取数据追溯请求后,根据数据追溯请求以及预先建立的专题数据库与预设的汇总数据库的第一映射关系,确定该数据追溯请求对应的目标元数据;进而根据目标元数据及预先建立的汇总数据库与业务系统数据库的第二映射关系,确定数据追溯请求对应的追溯结果。该方式中,基于预设的业务系统数据库建立的汇总数据库的类型为图形数据库,可以在该汇总数据库中快速确定该数据追溯请求对应的目标元数据,进而根据该目标元数据可以在业务系统数据库中确定追溯结果,实现对专题数据库中的元数据的实时追溯,提高了追溯效率。
本发明的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本发明的上述技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施方式,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种元数据追溯方法的流程图;
图2为本发明实施例提供的一种元数据管理示意图;
图3为本发明实施例提供的一种元数据管理方法中的单表边数量示意图;
图4为本发明实施例提供的一种元数据管理方法中的双表边数量示意图;
图5为本发明实施例提供的一种元数据管理方法中的多表边示意图;
图6为本发明实施例提供的以顶点name根节点的层级图;
图7为本发明实施例提供的另一种元数据追溯方法的流程图;
图8为本发明实施例提供的一种业务系统字段汇总过程示意图;
图9为本发明实施例提供的一种生成数据湖过程示意图;
图10为本发明实施例提供的一种生成专题数据库程示意图;
图11为本发明实施例提供的一种专题库A的元数据网状图;
图12为本发明实施例提供的一种数据湖的元数据网状图;
图13为本发明实施例提供的一种业务数据库元数据网状图;
图14为本发明实施例提供的一种连接专题库与数据湖元数据网状图;
图15为本发明实施例提供的一种最终元数据网状图;
图16为本发明实施例提供的一种基于最终元数据网状图的追溯路径示意图;
图17为本发明实施例提供的一种元数据追溯装置的结构示意图;
图18为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
元数据(Metadata),又称中介数据、中继数据,是描述数据的数据(data aboutdata),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
为了加快业务系统数据开发共享、推动资源整合,提升治理能力,相关机构逐步将正在使用的系统数据进行集中整合,形成多个专题数据库对外开放利用,而专题数据库中如果出现数据问题就需要对问题元数据进行追溯,解决源头业务系统问题。而元数据追溯是否快速、准确直接影响到专题数据库的有效利用。目前元数据一般使用关系型数据库进行管理,这种方式进行元数据追溯效率较差,无法解决超过一定层级的元数据追溯需求,无法满足对元数据进行实时追溯的需求。
随着公共数据开放进程的发展,为了解决各个专题数据库(也可以称为专题库)中元数据追溯的问题,一般采用关系型数据库维护元数据的层级关系,通过表与表的连接查询最终追溯到业务系统数据库;具体地,可以配置数据构成追溯模块,用于追溯数据构成,并且多次循环调用,层层追溯数据构成并展示源数据信息。该方式能够对元数据进行追溯,但在实际使用过程当中也存在一定的限制和缺陷。首先该方式无法追溯关系深度大于4的元数据,在关系深度小于4的元数据追溯时,运行效率较差,其次需要开发技术接口配合数据追溯,有比较高的技术门槛。
基于此,本发明实施例提供了一种元数据追溯方法、装置及服务器,可以应用于专题数据库或其他基于业务系统数据库生成的数据库的元数据的追溯过程。
为便于对本实施例进行理解,首先对本发明实施例所公开的元数据追溯方法进行详细介绍。
首先参见图1所示的一种元数据追溯方法的流程图,该方法包括以下步骤:
步骤S100,获取数据追溯请求;数据追溯请求包括待追溯元数据;待追溯元数据属于预先建立的专题数据库。
上述数据追溯请求可以为用户通过用户终端发送的,也可以为在对专题数据库中的元数据分析的过程中,由系统生成的。上述数据追溯请求可以包括待追溯元数据;该待追溯元数据可以为专题数据库中保存的一个或多个元数据。上述专题数据库可以为根据设定主题,在基于汇总数据库中选择与设定主题相契合的元数据而生成的。
步骤S102,根据数据追溯请求以及预先建立的专题数据库与预设的汇总数据库的第一映射关系,确定数据追溯请求对应的目标元数据;汇总数据库基于预设的业务系统数据库建立;汇总数据库的类型为图形数据库。
由于专题数据库通常是基于汇总数据库生成的,因此专题数据库中的元数据与汇总数据库中的元数据有对应的映射关系,即上述第一映射关系;该映射关系可以通过ETL(Extract-Transform-Load,数据仓库技术)数据抽取原则实现。该技术用来实现将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
上述汇总数据库的类型为图形数据库,图形数据库(Graph Database)用于存储丰富的关系数据,Neo4j是目前最流行的图形数据库,支持完整的事务,在属性图中,图是由顶点(Vertex),边(Edge)和属性(Property)组成的,顶点和边都可以设置属性,顶点也称作节点,边也称作关系,每个节点和关系都可以包括一个或多个属性。在汇总数据库中,可以以元数据为节点,以各个元数据之间的相关关系作为边,以元数据的属性作为节点的属性。通过汇总数据库,可以很清晰明了地确定与某个元数据相关的其他元数据,也可以确定两个元数据之间需要经过几条边才能连接(边的数量也称为关系深度)。
上述数据追溯请求可以为确定与待追溯元数据的关系深度为设定值的元数据,则在汇总数据库确定与待追溯元数据对应的元数据后,与该元数据的深度关系为设定值的其他元数据即为上述目标元数据。
步骤S104,根据目标元数据及预先建立的汇总数据库与业务系统数据库的第二映射关系,确定数据追溯请求对应的追溯结果。
在汇总数据库中确定了目标元数据后,可以基于汇总数据库与业务系统数据库之间的映射关系,在业务系统数据库中确定与目标元数据对应的元数据;该元数据的数量可能为一个或多个,与目标元数据的数量相同;在业务系统数据库中确定与目标元数据对应的元数据即为数据追溯请求对应的追溯结果。上述汇总数据库与业务系统数据库之间的映射关系也可以通过ETL(Extract-Transform-Load,数据仓库技术)数据抽取原则实现。
本发明实施例提供了一种元数据追溯方法,获取数据追溯请求后,根据数据追溯请求以及预先建立的专题数据库与预设的汇总数据库的第一映射关系,确定该数据追溯请求对应的目标元数据;进而根据目标元数据及预先建立的汇总数据库与业务系统数据库的第二映射关系,确定数据追溯请求对应的追溯结果。该方式中,基于预设的业务系统数据库建立的汇总数据库的类型为图形数据库,可以在该汇总数据库中快速确定该数据追溯请求对应的目标元数据,进而根据该目标元数据可以在业务系统数据库中确定追溯结果,实现对专题数据库中的元数据的实时追溯,提高了追溯效率。
在实际实现过程中,上述汇总数据库可以通过以下方式建立:
(1)获取业务系统数据库的初始元数据;初始元数据包括多个。
(2)根据初始元数据的属性,确定各个初始元数据之间的相关关系。
如可以在业务系统数据库中,根据特定的属性生成数据库表,在同一个数据库表中的初始元数据具有相关关系;依据不同的属性生成不同的数据库表,可以确定初始元数据中的相关关系。
(3)基于各个初始元数据之间的相关关系,剔除初始元数据中的冗余数据,得到精简元数据及各个精简元数据之间的相关关系;该过程中,可以去掉重复的数据库表和属性重复的初始元数据等。
(4)以精简元数据作为第一节点,基于各个精简元数据之间的相关关系,建立第一节点之间的连接关系,生成第一元数据网状图;该过程中,以图形数据库的形式表示各个精简元数据及它们之间的关系,简洁明了。
(5)将第一元数据网状图以数据湖的方式存储,生成汇总数据库。
上述数据湖(Data Lake)是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据。可以按原样存储数据,并运行不同类型的分析–从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。由于业务系统数据库可以为多个,各个业务系统数据库的存储形式可能不同,采用数据湖的方式生成汇总数据库可以兼容各种数据库形式。
以上述方式生成的汇总数据库可以兼容各种业务系统数据库,清晰明了地展示了元数据,以及各个元数据之间的相关关系,从而提高了元数据追溯的效率。
以下述实施例简要介绍,在采用图形数据库对元数据进行存储过程中的部分参数,该过程也可以被称为元数据管理方法。具体地,以元数据为顶点(Vertex),元数据所在数据库的表为边(Edge),元数据的本征性质为属性(Property)构建图形数据管理容器。从图2中可以看出,name、dno、province是三个顶点,同时也是数据库表A和表B中的字段,而每个顶点之间的连线就是边,顶点province其实是一个数据字典字段,该字典项的值1河北;2…就是该顶点的本征性质。
(1)顶点(Vertex)
根据每个元数据创建一个顶点的原则,如表1所示,数据库表A中的元数据字段gender就是顶点(Vertex)名称,顶点用圆圈来表示,而数据库字段类型int、以及值域1男;2女;就是它的属性;其中顶点类型为int,顶点值域为:1男;2女。
表1数据库表A
字段名称 字段类型 备注
gender int 1男;2女
(2)边(Edge)
表2数据库表A
字段名称 字段类型 备注
name char
gender int 1男;2女
如果数据库表A中有2个字段,分别是name和gender,如表2所示;根据每个元数据创建一个顶点的原则,name和gender都是顶点,根据元数据所在数据库的表为边(Edge)的原则,而数据库表A就是他们两个顶点的边。
a.单表边
表3数据库表A
字段名称 字段类型 备注
name char
dno char
age char
gender int 1男;2女
设数据库表A有元数据字段N个,如表3所示,N=4,则元数据顶点就有N个;如图3所示,每2个元数据之间都会有一条边相连,则每个元数据顶点就有N-1条边,因为都是同一张表,则所有的边名称都是A。
b.双表边
当数据库中存在两张表时,假设数据库表A(如表3所示)和数据库表B(如表4所示),表A的字段元数据个数为N,表B字段元数据个数为M(在表4中,M=4),表A中存在外键元数据dno,则顶点dno有N+M-2条边,则表A中其他字段有N-1条边,表B中其他字段有M-1条边,如图4所示。
表4数据库表B
字段名称 字段类型 备注
dno char
provice int 1河北;2湖北;3…
city char
ano char
c.多表边
当数据库中存在多张表时,假设有数据库表A(如表3所示)、B(如表4所示)和C(如表5所示),表A中存在外键元数据dno指向表B,表B有外键元数据ano指向表C,则三张表的元数据构成一张元数据网状关系网,如图5所示。
表5数据库表B
字段名称 字段类型 备注
ano char
type int 1住宅;2写字楼;3…
opentime char
collection char
(3)关系深度(Depth of relationship)
两点顶点之间最少的边数为该两个顶点的关系深度,从图5多表边示意图中可以看出,顶点name和顶点collection的关系深度为3。可以将网状关系图转换为层级图,更为清晰的展示各点之间的关系深度,如图6所示为以顶点name根节点的层级图。
从图6可以看出来,该方式最大优势在于处理关系。比如元数据的关联关系,通过元数据的关联关系,可以获知该信息项,可以获取到的最大信息量。在这个关系网中,进行元数据追溯是,可以获取需要的信息项,设置查询以及关联条件,获取最终的数据信息。
本发明实施例还提供了另一种元数据追溯方法,该方法在上述实施例方法的基础上实现;该方法重点描述基于上述汇总数据库,根据数据追溯请求以及预先建立的专题数据库与预设的汇总数据库的第一映射关系,确定数据追溯请求对应的目标元数据的具体过程,以及根据预先建立的汇总数据库与业务系统数据库的第二映射关系及目标元数据,确定数据追溯请求对应的追溯结果的具体过程;如图7所示,该方法包括以下步骤:
步骤S700,获取数据追溯请求;数据追溯请求包括待追溯元数据及待追溯关系深度;待追溯元数据属于预先建立的专题数据库。
步骤S702,根据第一映射关系,确定待追溯元数据在第一元数据网状图中对应的第一节点;上述第一元数据网状图为汇总数据库的一种表现形式。
步骤S704,将待追溯元数据对应的第一节点作为中心节点,在预先建立的汇总数据库中查找目标节点;目标节点与中心节点的关系深度为待追溯关系深度;如待追溯关系深度为5,则在第一元数据网状图中查找与中心节点的关系深度为5的节点作为目标节点。
步骤S706,将目标节点对应的精简元数据作为数据追溯请求对应的目标元数据;该精简元数据为汇总数据库汇总存储的元数据。
步骤S708,根据第二映射关系,确定目标元数据在第二元数据网状图对应的第二节点。
在具体实现过程中,上述方法还包括根据业务系统数据库建立第二元数据网状图,从而建立汇总数据库与业务系统数据库的映射关系的过程,具体包括以下步骤:
(1)以业务系统数据库中的各个初始元数据为第二节点,基于各个初始元数据之间的相关关系,建立第二节点之间的连接关系,生成业务系统数据库对应的第二元数据网状图。
(2)基于预设的数据抽取规则,建立第一元数据网状图中的第一节点与第二元数据网状图中的第二节点之间的第二映射关系。上述预设的数据抽取规则可以为ETL数据抽取原则。
上述第一元数据网状图中的第一节点与第二元数据网状图中的第二节点之间的第二映射关系,即为汇总数据库与业务系统数据库的映射关系。根据该映射关系,可以在业务系统数据库对应的第二元数据网状图中查找到与目标节点对应的第二节点。
步骤S710,将上述第二节点对应的初始元数据确定为数据追溯请求对应的追溯结果;具体而言,业务系统数据库中查找到的第二节点对应的初始元数据为与待追溯元数据为带追溯关系深度的元数据,即追溯结果。
该方式中,可以在汇总数据库中快速确定该数据追溯请求对应的目标元数据,进而根据该目标元数据可以在业务系统数据库中确定对应的初始元数据,实现对专题数据库中的元数据的实时追溯,提高了追溯效率。
本发明实施例还提出另一种元数据追溯方法(也称为基于图形数据库的元数据关系管理方法);该方法主要利用基于图形数据库构建元数据管理容器(可以以元数据网状图表示),提升在企业级大规模数据管理与应用过程中元数据识别、建模、元数据关系管理与数据视图生成的效率与直观性,解决无法对元数据进行实时追溯的问题。
该方法首先需要整理现有业务系统数据库表结构,再分析业务系统字段之间的关联关系和真实的字段含义并形成数据湖,然后根据字段含义对各个业务系统的字段进行去重整合并形成专题数据库,最后根据专题数据库对元数据进行设计,从而保证字段的高效追溯,具体通过以下步骤实现:
(1)业务系统字段汇总
首先要对现有业务系统数据库进行汇总整理,由于客户现场可能存在多个业务系统,不同业务系统有可能涉及不同的数据库,所以要将所有业务系统的所有数据库的表结构都进行汇总,形成总体非常完整数据库表结构信息,汇总过程示意图如图8所示。
设汇总之前每个业务系统数据库的表结构数量为T,字段数量为C,数据库数量为N,则汇总之前第i个数据库的表结构数量和字段数量分别记作:Ti和Ci,则汇总之后的数据库表结构数量T总和字段数量C总的计算公式如下:
Figure BDA0002336098540000141
Figure BDA0002336098540000142
(2)生成数据湖
对于汇总好的数据库结构信息,分析每张表、每个字段的真实含义,保证每张表、每个字段含义的独特性,去掉重复的数据库表和字段,从而形成数据湖(相当于上述汇总数据库),该过程示意图如图9所示。
设数据湖中表结构数量和字段数量分别记作T湖,和C湖,则数据湖的表结构数量与字段数量与汇总库中的表结构和字段数量有如下关系:
T<T,并且C<C
(3)生成专题数据库
为了更好的推动公共数据对外开放利用,需要将数据湖中的表结构字段进行重新分析、梳理和整合,针对每个业务领域形成特定的专题数据库,再将各个专题数据库对外开放,该过程如图10所示。
(4)元数据设计
具体而言,涉及元数据设计的总体原则为:以元数据为顶点(Vertex),元数据所在数据库的表为边(Edge),元数据的本征性质为属性(Property)构建图形数据管理容器。具体元数据设计的步骤如下:
A.生成3张独立的元数据网状图
按照元数据设计原则,分别对业务系统数据库、数据湖、专题数据库这3个数据库生成3张相互独立的元数据库网状图。假设专题数据库A中存在数据库表H、K,表H中存在外键元数据dno指向表K,元数据的边由实线连接,则专题库A的元数据网状图的生成过程如图11所示。
同理生成数据湖和业务数据库元数据网状图,如下图12及图13所示;其中,数据湖中包括数据库表E、F及G中的元数据,具体不做赘述;业务库元数据网状图中包括数据库表A、B、C及D中的元数据,具体不做赘述。
B.连接专题库与数据湖元数据网状图
根据ETL数据抽取规则,从专题库向数据湖进行追溯,找到的关系字段用虚线进行连接,以第1次找到的数据湖的表名作为边的名称将专题库与数据湖两个元数据网状图连通,连接后的网状图如图14所示。
C.生成最终元数据网状图
根据ETL数据抽取规则,从数据湖向业务库进行追溯,找到关系字段也用虚线进行连接,以第1次找到的以业务库的表名作为边的名称;最终将专题库、数据湖和业务库三个网状图连通,最终元数据网状图如图15所示。
基于最终元数据网状图的追溯过程具体如下:当专题库数据出现异常时,以专题库元数据为顶点,沿虚线向业务系统数据库进行追溯,当追溯到业务系统字段时,即找到业务系统源头数据,以专题库name顶点追溯为例,追溯路径如下图16所示:
采用上述方法的追溯过程与采用关系型数据库的追溯过程进行了对比,结果具体如下:
(1)方案执行时间对比测试
我们通过在相同运行环境下,在关系深度2到5的范围内对传统基于关系型数据库的元数据关系管理方法,以及本发明方法进行了对比测试。
在一个元数据关系网络里找到关联深度为5的两元数据。假设随机选择两个元数据,是否存在一条路径,使得关联他们的关系深度最多为5,对于一个包含100万元数据,每个元数据约有50个一层关联的元数据关系网络,此方法与传统的关系型数据库执行时间对比如下表6所示:
表6执行时间对比结果
Figure BDA0002336098540000161
由此可见在关系深度越大,此方法的优势越明显。在元数据管理应用过程中,数据的深度,同时反应了数据的价值。而处理数据深度也是构建元数据模型的基础。
上述明基于图形数据库,实现了对元数据的设计管理,能够成功追溯到源头业务系统数据,同时在保证能够追溯到源头业务系统数据的前期下,极大的提升追溯效率;此外,以图形的方式展示元数据之间的关系,展示效果更加更加直观、清晰。
对应于上述元数据追溯方法实施例,本发明实施例还提供一种元数据追溯装置,如图17所示,该装置包括:请求获取模块1700,用于获取数据追溯请求;数据追溯请求包括待追溯元数据;待追溯元数据属于预先建立的专题数据库;目标元数据确定模块1702,用于根据数据追溯请求以及预先建立的专题数据库与预设的汇总数据库的第一映射关系,确定数据追溯请求对应的目标元数据;汇总数据库基于预设的业务系统数据库建立;汇总数据库的类型为图形数据库;追溯结果确定模块1704,用于根据目标元数据及预先建立的汇总数据库与业务系统数据库的第二映射关系,确定数据追溯请求对应的追溯结果。
本发明实施例提供了一种元数据追溯装置,获取数据追溯请求后,根据数据追溯请求以及预先建立的专题数据库与预设的汇总数据库的第一映射关系,确定该数据追溯请求对应的目标元数据;进而根据目标元数据及预先建立的汇总数据库与业务系统数据库的第二映射关系,确定数据追溯请求对应的追溯结果。该方式中,基于预设的业务系统数据库建立的汇总数据库的类型为图形数据库,可以在该汇总数据库中快速确定该数据追溯请求对应的目标元数据,进而根据该目标元数据可以在业务系统数据库中确定追溯结果,实现对专题数据库中的元数据的实时追溯,提高了追溯效率。
具体地,上述汇总数据库通过以下方式建立:获取业务系统数据库的初始元数据;初始元数据包括多个;根据初始元数据的属性,确定各个初始元数据之间的相关关系;基于各个初始元数据之间的相关关系,剔除初始元数据中的冗余数据,得到精简元数据及各个精简元数据之间的相关关系;以精简元数据作为第一节点,基于各个精简元数据之间的相关关系,建立第一节点之间的连接关系,生成第一元数据网状图;将第一元数据网状图以数据湖的方式存储,生成汇总数据库。
具体地,上述数据追溯请求还包括待追溯关系深度;上述目标元数据确定模块还用于:根据第一映射关系,确定待追溯元数据在第一元数据网状图中对应的第一节点;将待追溯元数据对应的第一节点作为中心节点,在预先建立的汇总数据库中查找目标节点;目标节点与中心节点的关系深度为待追溯关系深度;将目标节点对应的精简元数据作为数据追溯请求对应的目标元数据。
进一步地,该装置还包括:网状图生成模块,用于以业务系统数据库中的各个初始元数据为第二节点,基于各个初始元数据之间的相关关系,建立第二节点之间的连接关系,生成业务系统数据库对应的第二元数据网状图;第二映射关系及建立模块,用于基于预设的数据抽取规则,建立第一元数据网状图中的第一节点与第二元数据网状图中的第二节点之间的第二映射关系。
具体地,上述追溯结果确定模块还用于:根据第二映射关系,确定目标元数据在第二元数据网状图对应的第二节点;将第二节点对应的初始元数据确定为数据追溯请求对应的追溯结果。
本发明实施例提供的元数据追溯装置,与上述实施例提供的元数据追溯方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例还提供一种服务器,参见图18所示,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述元数据追溯方法。
本发明实施例还提供一种服务器,其结构与上述服务器相同,参见图18所示,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述元数据追溯方法。
进一步地,图18所示的服务器还包括总线132和通信接口133,处理器130、通信接口133和存储器131通过总线132连接。
其中,存储器131可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口133(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线132可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图18中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器130可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器131,处理器130读取存储器131中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,该机器可执行指令促使处理器实现上述元数据追溯方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的元数据追溯方法及装置和服务器的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种元数据追溯方法,其特征在于,包括:
获取数据追溯请求;所述数据追溯请求包括待追溯元数据;所述待追溯元数据属于预先建立的专题数据库;
根据所述数据追溯请求以及预先建立的所述专题数据库与预设的汇总数据库的第一映射关系,确定所述数据追溯请求对应的目标元数据;所述汇总数据库基于预设的业务系统数据库建立;所述汇总数据库的类型为图形数据库;
根据所述目标元数据及预先建立的所述汇总数据库与所述业务系统数据库的第二映射关系,确定所述数据追溯请求对应的追溯结果。
2.根据权利要求1所述的方法,其特征在于,所述汇总数据库通过以下方式建立:
获取所述业务系统数据库的初始元数据;所述初始元数据包括多个;
根据所述初始元数据的属性,确定各个初始元数据之间的相关关系;
基于各个初始元数据之间的相关关系,剔除所述初始元数据中的冗余数据,得到精简元数据及各个精简元数据之间的相关关系;
以所述精简元数据作为第一节点,基于各个精简元数据之间的相关关系,建立所述第一节点之间的连接关系,生成第一元数据网状图;
将所述第一元数据网状图以数据湖的方式存储,生成汇总数据库。
3.根据权利要求2所述的方法,其特征在于,所述数据追溯请求还包括待追溯关系深度;根据所述数据追溯请求以及预先建立的所述专题数据库与预设的汇总数据库的第一映射关系,确定所述数据追溯请求对应的目标元数据的步骤,包括:
根据所述第一映射关系,确定所述待追溯元数据在所述第一元数据网状图中对应的第一节点;
将所述待追溯元数据对应的第一节点作为中心节点,在预先建立的汇总数据库中查找目标节点;所述目标节点与所述中心节点的关系深度为待追溯关系深度;
将所述目标节点对应的精简元数据作为所述数据追溯请求对应的目标元数据。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
以所述业务系统数据库中的各个初始元数据为第二节点,基于各个初始元数据之间的相关关系,建立所述第二节点之间的连接关系,生成所述业务系统数据库对应的第二元数据网状图;
基于预设的数据抽取规则,建立所述第一元数据网状图中的第一节点与所述第二元数据网状图中的第二节点之间的第二映射关系。
5.根据权利要求4所述的方法,其特征在于,根据预先建立的所述汇总数据库与所述业务系统数据库的第二映射关系及所述目标元数据,确定所述数据追溯请求对应的追溯结果的步骤,包括:
根据所述第二映射关系,确定所述目标元数据在所述第二元数据网状图对应的第二节点;
将所述第二节点对应的初始元数据确定为所述数据追溯请求对应的追溯结果。
6.一种元数据追溯装置,其特征在于,包括:
请求获取模块,用于获取数据追溯请求;所述数据追溯请求包括待追溯元数据;所述待追溯元数据属于预先建立的专题数据库;
目标元数据确定模块,用于根据所述数据追溯请求以及预先建立的所述专题数据库与预设的汇总数据库的第一映射关系,确定所述数据追溯请求对应的目标元数据;所述汇总数据库基于预设的业务系统数据库建立;所述汇总数据库的类型为图形数据库;
追溯结果确定模块,用于根据所述目标元数据及预先建立的所述汇总数据库与所述业务系统数据库的第二映射关系,确定所述数据追溯请求对应的追溯结果。
7.根据权利要求6所述的装置,其特征在于,所述汇总数据库通过以下方式建立:
获取所述业务系统数据库的初始元数据;所述初始元数据包括多个;
根据所述初始元数据的属性,确定各个初始元数据之间的相关关系;
基于各个初始元数据之间的相关关系,剔除所述初始元数据中的冗余数据,得到精简元数据及各个精简元数据之间的相关关系;
以所述精简元数据作为第一节点,基于各个精简元数据之间的相关关系,建立所述第一节点之间的连接关系,生成第一元数据网状图;
将所述第一元数据网状图以数据湖的方式存储,生成汇总数据库。
8.根据权利要求7所述的装置,其特征在于,所述数据追溯请求还包括待追溯关系深度;所述目标元数据确定模块还用于:
根据所述第一映射关系,确定所述待追溯元数据在所述第一元数据网状图中对应的第一节点;
将所述待追溯元数据对应的第一节点作为中心节点,在预先建立的汇总数据库中查找目标节点;所述目标节点与所述中心节点的关系深度为待追溯关系深度;
将所述目标节点对应的精简元数据作为所述数据追溯请求对应的目标元数据。
9.一种服务器,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1至5任一项所述的方法。
10.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1至5任一项所述的方法。
CN201911374317.0A 2019-12-25 2019-12-25 元数据追溯方法、装置及服务器 Active CN111159184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911374317.0A CN111159184B (zh) 2019-12-25 2019-12-25 元数据追溯方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911374317.0A CN111159184B (zh) 2019-12-25 2019-12-25 元数据追溯方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN111159184A true CN111159184A (zh) 2020-05-15
CN111159184B CN111159184B (zh) 2024-03-08

Family

ID=70558532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911374317.0A Active CN111159184B (zh) 2019-12-25 2019-12-25 元数据追溯方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN111159184B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708779A (zh) * 2020-06-11 2020-09-25 中国建设银行股份有限公司 一种数据管理方法、系统、管理设备及存储介质
CN111951238A (zh) * 2020-08-04 2020-11-17 上海微亿智造科技有限公司 产品缺陷检测方法
CN112199352A (zh) * 2020-10-14 2021-01-08 武汉第二船舶设计研究所(中国船舶重工集团公司第七一九研究所) 一种产品数据溯源方法及系统
CN112612778A (zh) * 2020-12-25 2021-04-06 上海航空工业(集团) 有限公司 一种企业数据架构方法
CN113296891A (zh) * 2021-05-25 2021-08-24 和美(深圳)信息技术股份有限公司 基于平台的多场景知识图谱处理方法及装置
CN117032906A (zh) * 2023-10-09 2023-11-10 新立讯科技股份有限公司 农产品基础数据资源池管理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060230063A1 (en) * 2005-04-08 2006-10-12 International Business Machines Corporation Method and apparatus for mapping structured query language schema to application specific business objects in an integrated application environment
CN109101632A (zh) * 2018-08-15 2018-12-28 中国人民解放军海军航空大学 基于制造大数据的产品质量异常数据追溯分析方法
CN110019116A (zh) * 2017-09-26 2019-07-16 中兴通讯股份有限公司 数据追溯方法、装置、数据处理设备及计算机存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060230063A1 (en) * 2005-04-08 2006-10-12 International Business Machines Corporation Method and apparatus for mapping structured query language schema to application specific business objects in an integrated application environment
CN110019116A (zh) * 2017-09-26 2019-07-16 中兴通讯股份有限公司 数据追溯方法、装置、数据处理设备及计算机存储介质
CN109101632A (zh) * 2018-08-15 2018-12-28 中国人民解放军海军航空大学 基于制造大数据的产品质量异常数据追溯分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王洪波;郧文聚;吴次芳;程锋;薛剑;: "农用地分等图形数据库的追溯法汇总技术" *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708779A (zh) * 2020-06-11 2020-09-25 中国建设银行股份有限公司 一种数据管理方法、系统、管理设备及存储介质
CN111951238A (zh) * 2020-08-04 2020-11-17 上海微亿智造科技有限公司 产品缺陷检测方法
CN112199352A (zh) * 2020-10-14 2021-01-08 武汉第二船舶设计研究所(中国船舶重工集团公司第七一九研究所) 一种产品数据溯源方法及系统
CN112612778A (zh) * 2020-12-25 2021-04-06 上海航空工业(集团) 有限公司 一种企业数据架构方法
CN112612778B (zh) * 2020-12-25 2024-05-07 上海航空工业(集团)有限公司 一种企业数据架构方法
CN113296891A (zh) * 2021-05-25 2021-08-24 和美(深圳)信息技术股份有限公司 基于平台的多场景知识图谱处理方法及装置
CN113296891B (zh) * 2021-05-25 2024-04-19 和美(深圳)信息技术股份有限公司 基于平台的多场景知识图谱处理方法及装置
CN117032906A (zh) * 2023-10-09 2023-11-10 新立讯科技股份有限公司 农产品基础数据资源池管理方法及系统
CN117032906B (zh) * 2023-10-09 2023-12-19 新立讯科技股份有限公司 农产品基础数据资源池管理方法及系统

Also Published As

Publication number Publication date
CN111159184B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
CN111159184B (zh) 元数据追溯方法、装置及服务器
US10762561B2 (en) Systems and methods for improving computation efficiency in the detection of fraud indicators for loans
CN108197132B (zh) 一种基于图数据库的电力资产画像构建方法及装置
US20170357710A1 (en) Clustering log messages using probabilistic data structures
CN111581949A (zh) 学者人名的消歧方法、装置、存储介质及终端
CN115905630A (zh) 一种图数据库查询方法、装置、设备及存储介质
US8650180B2 (en) Efficient optimization over uncertain data
CN116719822B (zh) 一种海量结构化数据的存储方法及系统
CN108334532B (zh) 一种基于Spark的Eclat并行化方法、系统及装置
Chen et al. An optimized data integration model based on reverse cleaning for heterogeneous multi-media data
CN115203435A (zh) 基于知识图谱的实体关系生成方法及数据查询方法
Wen et al. Measuring 3D process plant model similarity based on topological relationship distribution
CN116186297A (zh) 一种基于图流形学习的文献关系发现方法及系统
CN115048469A (zh) 数据查询方法、装置、电子设备及存储介质
Wen et al. Computing k-cores in large uncertain graphs: An index-based optimal approach
CN114880308A (zh) 一种基于大数据的元数据处理方法、装置、介质
CN114490667A (zh) 多维度的数据分析方法、装置、电子设备及介质
CN113742344A (zh) 电力系统数据的索引方法及装置
CN113641705A (zh) 一种基于计算引擎的营销处置规则引擎方法
CN107391533A (zh) 生成图形数据库查询结果的方法及装置
CN112541069A (zh) 一种结合关键词的文本匹配方法、系统、终端及存储介质
CN112185568A (zh) 信息处理方法、装置、计算机设备及存储介质
CN117634894B (zh) 生态环境风险评估方法、装置、电子设备及存储介质
Long Qualitative spatial and temporal representation and reasoning: efficiency in time and space
CN110096529B (zh) 一种基于多维矢量数据的网络数据挖掘方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 200040, room 710, 302 Changping Road, Shanghai, Jingan District

Applicant after: Shanghai Xinlian Information Development Co.,Ltd.

Address before: 200040, room 710, 302 Changping Road, Shanghai, Jingan District

Applicant before: SHANGHAI ZHONGXIN INFORMATION DEVELOPMENT Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant