CN109213747B - 一种数据管理方法及装置 - Google Patents

一种数据管理方法及装置 Download PDF

Info

Publication number
CN109213747B
CN109213747B CN201810894520.XA CN201810894520A CN109213747B CN 109213747 B CN109213747 B CN 109213747B CN 201810894520 A CN201810894520 A CN 201810894520A CN 109213747 B CN109213747 B CN 109213747B
Authority
CN
China
Prior art keywords
data
target
root node
target data
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810894520.XA
Other languages
English (en)
Other versions
CN109213747A (zh
Inventor
张志勇
王李平
李涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilin Hesheng Network Technology Inc
Original Assignee
Qilin Hesheng Network Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilin Hesheng Network Technology Inc filed Critical Qilin Hesheng Network Technology Inc
Priority to CN201810894520.XA priority Critical patent/CN109213747B/zh
Publication of CN109213747A publication Critical patent/CN109213747A/zh
Application granted granted Critical
Publication of CN109213747B publication Critical patent/CN109213747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种数据管理方法及装置,该方法包括:针对数据仓库中的每个目标数据,根据该目标数据对应的存储路径,确定与该目标数据相关的多个指定属性信息,以及根据该目标数据对应的数据内容,确定该目标数据包含的至少一个字段名称;基于预设图数据库根据各目标数据的多个指定属性信息和至少一个字段名称,构建数据仓库的元数据关系图谱;基于该元数据关系图谱,对各目标数据进行数据管理。采用图数据库的形式对数据仓库的元数据进行表示,构建相应的元数据关系图谱,提高了数据仓库的元数据的管理效率,同时后续结合该元数据关系图谱能够更加高效地对目标数据的数据质量进行监管,提高了目标数据的管理效率,降低了管理成本。

Description

一种数据管理方法及装置
技术领域
本申请涉及计算机领域,尤其涉及一种数据管理方法及装置。
背景技术
目前,随着互联网技术的快速发展,线上业务处理的需求越来越多,因此,业务处理过程中产生的数据也越来越多,为了便于对数据仓库中的存储数据进行管理,通过预先构建数据仓库的元数据,再基于该元数据对数据仓库中的存储数据进行生命周期管理和数据质量管理,其中,在数据仓库领域中,元数据被定义为描述数据及其环境的数据,元数据是指从信息资源中抽取出来的用于说明其特征、内容的结构化的数据,元数据主要用来描述数据属性的信息,能够支持如指示存储位置、业务相关属性、历史数据、资源查找、文件记录等功能,可将元数据视为数据仓库的电子式目录。
当前,相关技术中针对元数据的构建过程,主要包括:基于关系型数据库构建数据仓库的元数据,具体的,需要利用预先生成的查询算法多次查询数据库获取各目标数据的属性信息之间的依赖关系,尤其针对各属性信息之间的依赖关系比较复杂的情况,不仅耗时比较长,而且容易出现关联错误的情况;另外,针对存储数据的管理过程,主要包括:由于一个关系型数据库是由多个表组成的矩形网格的信息,每个表可以有不同数量的行和列,如果需要获取待管理的目标数据,需要遍历每个信息表中的每条信息,整个过程耗时比较长。
由此可知,基于关系型数据库来构建元数据的过程中,存在效率低且维护成本高的问题,同时,基于关系型数据库构建的元数据进行目标数据管理的过程中,存在目标数据的查找与管理难度大的问题。
发明内容
本申请实施例的目的是提供一种数据管理方法及装置,采用图数据库的形式对数据仓库的元数据进行表示,构建相应的元数据关系图谱,提高了数据仓库的元数据的管理效率,同时后续结合该元数据关系图谱能够更加高效地对目标数据的数据质量进行监管,提高了目标数据的管理效率,降低了管理成本。
为解决上述技术问题,本申请实施例是这样实现的:
本申请实施例提供了一种数据管理方法,包括:
获取数据仓库中各目标数据的存储路径和数据内容,其中,所述存储路径包括:按照预设排布顺序排布的多个属性信息,所述目标数据包括:针对业务处理过程产生的业务数据;
针对每个所述目标数据,根据该目标数据对应的所述存储路径,确定与该目标数据相关的多个指定属性信息,以及根据该目标数据对应的所述数据内容,确定该目标数据包含的至少一个字段名称;
基于预设图数据库根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,构建所述数据仓库的元数据关系图谱,其中,所述元数据关系图谱用于表征所述数据仓库中目标数据的元数据间关联关系的图数据库;
基于所述元数据关系图谱,对各所述目标数据进行数据管理,其中,所述数据管理包括:生命周期监控和/或数据质量监控。
本申请实施例提供了一种数据管理装置,包括:
信息获取模块,用于获取数据仓库中各目标数据的存储路径和数据内容,其中,所述存储路径包括:按照预设排布顺序排布的多个属性信息,所述目标数据包括:针对业务处理过程产生的业务数据;
信息提取模块,用于针对每个所述目标数据,根据该目标数据对应的所述存储路径,确定与该目标数据相关的多个指定属性信息,以及根据该目标数据对应的所述数据内容,确定该目标数据包含的至少一个字段名称;
关系图谱构建模块,用于基于预设图数据库根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,构建所述数据仓库的元数据关系图谱,其中,所述元数据关系图谱用于表征所述数据仓库中目标数据的元数据间关联关系的图数据库;
数据管理模块,用于基于所述元数据关系图谱,对各所述目标数据进行数据管理,其中,所述数据管理包括:生命周期监控和/或数据质量监控。
本申请实施例提供了一种数据管理设备,包括:处理器;以及
被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器实现以下流程:
获取数据仓库中各目标数据的存储路径和数据内容,其中,所述存储路径包括:按照预设排布顺序排布的多个属性信息,所述目标数据包括:针对业务处理过程产生的业务数据;
针对每个所述目标数据,根据该目标数据对应的所述存储路径,确定与该目标数据相关的多个指定属性信息,以及根据该目标数据对应的所述数据内容,确定该目标数据包含的至少一个字段名称;
基于预设图数据库根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,构建所述数据仓库的元数据关系图谱,其中,所述元数据关系图谱用于表征所述数据仓库中目标数据的元数据间关联关系的图数据库;
基于所述元数据关系图谱,对各所述目标数据进行数据管理,其中,所述数据管理包括:生命周期监控和/或数据质量监控。
本申请实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现以下流程:
获取数据仓库中各目标数据的存储路径和数据内容,其中,所述存储路径包括:按照预设排布顺序排布的多个属性信息,所述目标数据包括:针对业务处理过程产生的业务数据;
针对每个所述目标数据,根据该目标数据对应的所述存储路径,确定与该目标数据相关的多个指定属性信息,以及根据该目标数据对应的所述数据内容,确定该目标数据包含的至少一个字段名称;
基于预设图数据库根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,构建所述数据仓库的元数据关系图谱,其中,所述元数据关系图谱用于表征所述数据仓库中目标数据的元数据间关联关系的图数据库;
基于所述元数据关系图谱,对各所述目标数据进行数据管理,其中,所述数据管理包括:生命周期监控和/或数据质量监控。
本申请实施例中的数据管理方法及装置,针对数据仓库中的每个目标数据,根据该目标数据对应的存储路径,确定与该目标数据相关的多个指定属性信息,以及根据该目标数据对应的数据内容,确定该目标数据包含的至少一个字段名称;基于预设图数据库根据各目标数据的多个指定属性信息和至少一个字段名称,构建数据仓库的元数据关系图谱;基于该元数据关系图谱,对各目标数据进行数据管理。采用图数据库的形式对数据仓库的元数据进行表示,构建相应的元数据关系图谱,提高了数据仓库的元数据的管理效率,同时后续结合该元数据关系图谱能够更加高效地对目标数据的数据质量进行监管,提高了目标数据的管理效率,降低了管理成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供数据管理方法的第一种流程示意图;
图2为本申请实施例提供数据管理方法的第二种流程示意图;
图3为本申请实施例提供数据管理方法中构标记节点和边信息得到元数据关系图谱的具体流程示意图;
图4为本申请实施例提供数据管理方法中元数据关系图谱的展示示意图;
图5a为本申请实施例提供数据管理方法的第四种流程示意图;
图5b为本申请实施例提供数据管理方法的第五种流程示意图;
图6为本申请实施例提供数据管理方法中数据质量评估的实现原理示意图;
图7为本申请实施例提供的数据管理装置的第一种模块组成示意图;
图8为本申请实施例提供的数据管理装置的第二种模块组成示意图;
图9为本申请实施例提供的数据管理设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请实施例提供了一种数据管理方法及装置,采用图数据库的形式对数据仓库的元数据进行表示,构建相应的元数据关系图谱,提高了数据仓库的元数据的管理效率,同时后续结合该元数据关系图谱能够更加高效地对目标数据的数据质量进行监管,提高了目标数据的管理效率,降低了管理成本。
图1为本申请一实施例提供的数据管理方法的第一种流程示意图,图1中的方法能够由数据管理服务器执行,如图1所示,该方法至少包括以下步骤:
S101,获取数据仓库中各目标数据的存储路径和数据内容,其中,该存储路径包括:按照预设排布顺序排布的多个属性信息,该目标数据包括:针对业务处理过程产生的业务数据;
具体的,数据仓库中存储有多个真实数据(即目标数据),采用数据仓库存储全量扫描的方式,遍历数据仓库所有日期属性以及业务属性等各维度,获取各真实数据对应的存储路径,例如:
/user/hive/warehouse/ods_events.db/ods_xal_event_hour/dt=2018-01-01/pn=product_1/ptl=protocol_1/hour=00/et=event_type_1;
其中,基于上述存储路径可知,该真实数据对应的各存储属性信息:库(ods_events.db)、表(ods_xal_event_hour)、存储日期(dt=2018-01-01)、产品类型(product_1),协议类型(protocol_1),日志类型(event_type_1)等等;
目标数据的数据内容是指真实数据包含的内容信息,例如,真实数据包含的字段名称可以是年龄、姓名、性别等等。
S102,针对每个目标数据,根据该目标数据对应的存储路径,确定与该目标数据相关的多个指定属性信息;
具体的,在获取到各目标数据的存储路径后,需要从存储路径中提取所需的多个指定属性信息,例如,库名称、表名称、业务相关属性,该业务相关属性包括:产品类型、协议类型和日志类型。
S103,针对每个目标数据,根据该目标数据对应的数据内容,确定该目标数据包含的至少一个字段名称;
具体的,在获取到各目标数据的数据内容后,需要从数据内容中提取包含的至少一个字段名称,例如,年龄、姓名、性别等等,两个目标数据所包含的字段名称可以相同或不同。
S104,基于预设图数据库根据各目标数据的多个指定属性信息和至少一个字段名称,构建数据仓库的元数据关系图谱,其中,该元数据关系图谱用于表征所述数据仓库中目标数据的元数据间关联关系的图数据库;
具体的,预设图数据库中包含多个节点信息和边信息,需要根据各目标数据的多个指定属性信息和至少一个字段名称,填充该多个节点信息和边信息,得到用于表征数据仓库的元数据关系的目标图数据库,即得到数据仓库的元数据关系图谱。进一步的,在后续数据查询的过程中,可以采用跨节点检索数据,即以节点为基本单元,快速锁定与该节点相关联的所有节点,或者以边信息为基本单元,快速锁定与该边信息相关联的节点或边,进而查询到所需的所有目标数据,同时,基于该目标图数据库能够快速查找到目标数据以及目标数据之间的关联关系。
S105,基于所构建的元数据关系图谱,对各目标数据进行数据管理,其中,该数据管理包括:生命周期监控和/或数据质量监控。
具体的,由于结合基于图数据库所构建的元数据关系图谱,可以直观并清晰地得知图数据库中各节点之间的关联关系,以目标节点为基本单元,快速锁定与该节点相关联的所有关联节点,生成多个存储路径,进而根据该存储路径查询到对应的目标数据,对查询到的目标数据进行相应的数据管理操作,例如,对于超期的数据执行删除操作,又如,对于质量评估指标异常的数据执行删除或修改操作,以及数据质量评估告警。
本申请实施例中,采用图数据库的形式对数据仓库的元数据进行表示,构建相应的元数据关系图谱,提高了数据仓库的元数据的管理效率,同时后续结合该元数据关系图谱能够更加高效地对目标数据的数据质量进行监管,提高了目标数据的管理效率,降低了管理成本。尤其,针对数据之间关联关系比较复杂的情况,基于元数据关系图谱还能够获取真实数据之间的依赖关系。
其中,针对从目标数据对应的存储路径中提取指定属性信息的过程,上述S102针对每个目标数据,根据该目标数据对应的存储路径,确定与该目标数据相关的多个指定属性信息,具体包括:
步骤一,针对每个目标数据,根据预设排布顺序,确定待提取的指定属性信息在存储路径中的位置信息;
步骤二,根据各指定属性信息的位置信息,在该目标数据对应的存储路径中提取指定属性信息。
具体的,每个目标数据的存储路径均是将各属性信息按照预设排布顺序生成的,例如,存储路径中库名称之后是表名称、表名称之后是存储日期、存储日期之后是产品类型、产品类型之后是协议类型、协议类型之后是日志类型等等,这样需要提取哪个属性信息,结合预设排布顺序,确定该属性信息在存储路径中的位置信息,再基于该位置信息即可提取出对应的属性信息。
其中,针对元数据关系图谱的构建过程,如图2所示,上述S104基于预设图数据库根据各目标数据的多个指定属性信息和至少一个字段名称,构建数据仓库的元数据关系图谱,具体包括:
S1041,根据各目标数据的多个指定属性信息和至少一个字段名称,确定与数据仓库相关的多个具体表,其中,每个具体表存储的目标数据具有相同的表名属性、库名属性以及字段名称;
具体的,多个指定属性信息至少包括:库名称、表名称、业务相关属性,该业务相关属性包括:产品类型、协议类型和日志类型,在获取到各目标数据分别对应的指定属性信息和字段名称后,基于库名称、表名称和字段名称,对目标数据进行分类,分别划分到对应的具体表中,例如,将库名称为1111、表名称为AAAA、同时具有字段T1、T2和T3的真实数据划分到一个具体表中。
S1042,根据各目标数据的多个指定属性信息和至少一个字段名称,确定与数据仓库相关的指定属性种类和字段种类;
具体的,各目标数据可能具有相同的指定属性信息或者相同的字段名称,由于在图数据库中标记节点时,按照指定属性信息的类型进行标记,例如,以协议类型为例,如果所有目标数据的协议类型为P1或P2,此时,将协议类型P1作为一个节点,将协议类型P2作为另一个节点;同样的,按照字段名称的类型进行标记,例如,将姓名作为一个节点,将年龄作为另一个节点,因此,需要确定与数据仓库相关的指定属性种类和字段种类,例如,指定属性种类中的协议类型包括:P1和P2,字段种类包括:姓名、年龄和性别。
S1043,根据确定出的多个具体表、多个指定属性种类和至少一个字段种类,标记预设图数据库中多个节点和两两节点之间的边信息,得到数据仓库的元数据关系图谱。
具体的,在确定出具体表、指定属性种类和字段种类之后,需要在预设图数据库中标记对应的节点和边信息,如图3所示,上述S1043根据确定出的多个具体表、多个指定属性种类和至少一个字段种类,标记预设图数据库中多个节点和两两节点之间的边信息,得到数据仓库的元数据关系图谱,具体包括:
S10431,将每个具体表标记为预设图数据库中的根节点,以及将每个指定属性种类和每个字段种类分别标记为预设图数据库中的子节点;
其中,由于具体表是基于库名称和表名称划分确定的,因此,标记为子节点的指定属性种类不包括库属性和表属性,该标记为子节点的指定属性种类可以包括:业务相关属性中的产品类型、协议类型和日志类型,例如,在一个具体实施例中,如图4所示,具体表包括:表A、表B、表C、表E、表F、表G,产品类型包括:N1、N2、N3,协议类型包括:P1、P2,日志类型包括:Y1、Y2、Y3、Y4,字段种类包括:T1、T2、T3,则根节点的数量为6个、子节点的数量为12个。
S10432,将标记好根节点和子节点的预设图数据库,确定为针对数据仓库的初始图数据库;
具体的,在确定出针对数据仓库的具体表、指定属性种类和字段种类后,需要将这些信息作为节点在预设图数据库中进行标记,在预设图数据库中标记完根节点和子节点后,还需要在图数据库中填充边信息。
S10433,根据根节点和子节点之间的关联关系,标记初始图数据库中的边信息,得到针对数据仓库的目标图数据库;
具体的,按照预设边信息标记规则,结合两两节点之间的关联关系,在标记完多个节点的图数据库中填充边信息,进而得到标记完节点和边信息的图数据库,例如,在图4中,标记根节点A、B、C、E、F、G之间的有向线段,以及标记根节点A、B、C、E、F、G与子节点N1、N2、N3、P1、P2、Y1、Y2、Y3、Y4、T1、T2、T3之间的有向线段。
S10434,将得到的目标图数据库确定为数据仓库的元数据关系图谱;
具体的,基于标记完节点和边信息的图数据库,在后续数据查询的过程中,可以采用跨节点检索数据,即以目标节点为基本单元,快速锁定与该目标节点相关联的所有关联节点,根据目标节点和关联节点生成多个目标存储路径,进而根据该目标存储路径查找到所需的所有目标数据,同时,基于该目标图数据库能够快速查找到目标数据以及目标数据之间的关联关系。其中,生成目标存储路径的过程,具体为:
(1)如果目标节点为根节点,则根据关联节点填充目标节点对应的具体表的标签属性,生成多个目标存储路径;例如,目标节点为A,关联节点为表征协议类型的P1,此时,具体表A的标签属性中协议类型填充为P1,同样的,将所有关联节点表征的指定属性信息均填充至具体表A的标签属性中对应的位置处,进而得到多个目标存储路径。
(2)如果目标节点为子节点,则在关联节点中选取根节点,并根据目标节点和除根节点之外的其他关联节点填充选取出的根节点对应的具体表的标签属性,生成多个目标存储路径。
其中,针对图数据库中边信息的标记过程,上述S10433根据根节点和子节点之间的关联关系,标记初始图数据库中的边信息,得到针对数据仓库的目标图数据库,具体包括:
步骤一,针对任意两个根节点,根据该任意两个根节点之间依赖关系,标记该任意两个根节点之间的有向线段,其中,该有向线段的指向方向为由被依赖的根节点指向另一个根节点;
例如,在图4中,根节点B依赖于根节点A,因此,在根节点A和根节点B之间标记一条由根节点A指向根节点B的有向线段;根节点C依赖于根节点B,因此,在根节点B和根节点C之间标记一条由根节点B指向根节点C的有向线段;根节点E依赖于根节点C,因此,在根节点C和根节点E之间标记一条由根节点C指向根节点E的有向线段;根节点G依赖于根节点B,因此,在根节点B和根节点G之间标记一条由根节点B指向根节点G的有向线段;
步骤二,针对每个根节点和每个子节点,根据根节点与子节点之间的包含关系,标记根节点与子节点之间的有向线段,其中,该有向线段的指向方向为由根节点指向子节点。
例如,在图4中,根节点A对应的具体表包含的目标数据的协议类型有P1,因此,在根节点A和子节点P1之间标记一条由根节点A指向子节点P1的有向线段。
具体的,基于步骤一和步骤二中提供的边信息标记方式,逐一标记图4中根节点与根节点之间的有向线段、以及子节点与根节点之间的有向线段,即可得到针对数据仓库的元数据关系图谱,在该元数据关系图谱中可以直观地获取表与表、表与字段、表与业务相关属性之间的关联关系。
进一步的,在构建好数据仓库的元数据关系图谱后,基于该元数据关系图谱对数据仓库中的目标数据进行数据管理,具体为:
其中,针对数据管理为对生命周期进行监控的情况;如图5a所示,上述S105基于所构建的元数据关系图谱,对各目标数据进行数据管理,具体包括:
S1051,确定用于评估数据生命周期满足预设超期条件的参考属性信息,具体的,该参数属性信息可以是目标存活时间,还可以是任一指定属性种类,例如,如果产品N1需要下线,即需要删除所有产品类型为N1的目标数据,此时,产品类型N1为参考属性种类;
S1052,根据所构建的元数据关系图谱,删除当前属性信息与参考属性信息一致的目标数据;
具体的,如果目标数据的当前属性信息与确定出的参考属性信息一致,则说明该目标数据属于超期数据,因此,可以基于所构建的元数据关系图谱,查询当前属性信息与参考属性信息一致的目标数据,需要对查询到的目标数据进行删除处理。
对应的,上述S1052根据所构建的元数据关系图谱,删除当前属性信息与参考属性信息一致的目标数据,具体包括:
(1)若参考属性信息为目标存活时间,则将所构建的元数据关系图谱中各根节点的生命周期属性更新为目标存活时间;根据各根节点之间的有向线段的指向方向的反方向,依次删除各根节点下当前数据存活时间与目标存活时间一致的目标数据,其中,每个根节点用于表征确定出的一个具体表,该有向线段的指向方向为两个具有依赖关系的根节点中由被依赖的根节点指向另一个根节点;
其中,针对以目标存活时间为依据来判断数据是否超期的情况,需要查询所有当前存活时间大于等于该目标存活时间的真实数据,具体的,在所构建的元数据关系图谱中,将各根节点的标签属性中生命周期属性填充为该目标存活时间,例如,针对图4中所示的元数据关系图谱,将根节点A、B、C、E、F、G的标签属性中生命周期属性填充为该目标存活时间;
在填充各根节点对应的具体表的标签属性中生命周期属性后,在元数据关系图谱中的多个根节点中,按照自位于后端的根节点至位于前端的根节点的顺序,根据各根节点之间的依赖关系,依次对各根节点对应的具体表中的目标数据进行超期判断,确定各根节点对应的多个目标存储路径,进而根据该目标存储路径查找并删除超期的目标数据。其中,生成目标存储路径的过程,具体为:
针对每个根节点,将与该根节点之间标记有有向线段的子节点作为该根节点的关联节点,根据关联节点对应的指定属性种类和目标存活时间填充该根节点对应的具体表的标签属性,生成多个针对该具体表中超期的真实数据的目标存储路径。
其中,考虑到如果先删除被依赖的真实数据,可能会对依赖于该真实数据的下游数据产生一定影响,并且,由于两两根节点之间的有向线段的方向是由被依赖的根节点指向另一个根节点,因此,在对超期数据进行删除时,根据各根节点之间的有向线段的指向方向的反方向,依次对各根节点对应的具体表中的目标数据进行超期判断并删除超期数据。例如,在图4中,超期判断及删除顺序为:根节点F→E→C→G→B→A,由于业务使用的数据所对应的根节点在元数据关系图谱中的根节点关系链路的后端,越基础的数据在根节点关系链路的前端,因此,在删除超期数据的过程中,依次由后端的根节点向前端的根节点对应的超期数据进行删除。
(2)若参考属性信息为所构建的关系图谱中任一子节点表征的目标属性种类,则根据该元数据关系图谱,确定指向子节点的至少一个目标根节点;根据至少一个目标根节点之间的有向线段的指向方向的反方向,依次删除各目标根节点下具有目标属性种类的目标数据,其中,每个子节点用于表征一个字段种类或一个指定属性种类,该有向线段的指向方向为两个具有依赖关系的根节点中由被依赖的根节点指向另一个根节点。
其中,针对以目标子节点表征的目标属性种类为依据来判断数据是否超期的情况,需要查询所有具有该目标属性种类的真实数据,具体的,在所构建的元数据关系图谱中,确定指向该目标子节点的至少一个目标根节点。例如,产品N1下线,需要删除所有产品类型为N1的目标数据,此时,子节点N1为目标根节点,产品类型N1为目标属性种类,基于图4所示的元数据关系图谱,可知至少一个目标根节点包括:根节点A、B、C。
在确定出目标根节点后,生成各目标根节点下具有目标属性种类的目标数据对应的目标存储路径,具体为:
针对每个目标根节点,将与该目标根节点之间标记有有向线段的子节点作为该目标根节点的关联节点,其中,该关联节点为除与该目标属性种类属于同一大类的其他属性种类的子节点之外的子节点,根据关联节点对应的指定属性种类填充该目标根节点对应的具体表的标签属性,生成多个针对该具体表中超期的真实数据的目标存储路径。
例如,目标属性种类为产品类型N1,则该目标属性种类属于同一大类的其他属性种类包括:产品类型N2和N3,基于图4所示的元数据关系图谱,可知,目标根节点A的关联节点包括:子节点N1、P1、P2、Y1、Y2、Y3、Y4。
在确定出满足超期条件的目标数据的目标存储路径后,按照自位于后端的根节点至位于前端的根节点的顺序,根据各目标根节点之间的依赖关系和各目标根节点对应的目标存储路径,查找并删除各目标根节点下具有目标属性种类的超期的目标数据。
其中,考虑到如果先删除被依赖的真实数据,可能会对依赖于该真实数据的下游数据产生一定影响,并且,由于两两根节点之间的有向线段的方向是由被依赖的根节点指向另一个根节点,因此,在对超期数据进行删除时,根据各目标根节点之间的有向线段的指向方向的反方向,依次删除各目标根节点对应的超期数据。例如,在图4中,超期数据的删除顺序为:根节点C→B→A,由于业务使用的数据所对应的根节点在元数据关系图谱中的根节点关系链路的后端,越基础的数据在根节点关系链路的前端,因此,在删除超期数据的过程中,依次由后端的根节点向前端的根节点对应的超期数据进行删除。
在本申请实施例中,在删除超期数据的过程中,由后端的根节点向前端的根节点依次删除,即最后删除被依赖的目标数据,这样能够避免因删除被依赖的基础数据而造成依赖于该基础数据的下游数据出现异常的情况,同时,还能够提高超期数据删除的准确度,避免出现超期数据遗漏未删除的情况。
对应的,针对数据管理为对数据质量进行监控的情况;如图5b所示,上述S105基于所构建的元数据关系图谱,对各目标数据进行数据管理,具体包括:
S1053,根据所构建的元数据关系图谱中各根节点之间的有向线段的指向方向,确定各根节点的质量检测顺序,其中,每个根节点用于表征确定的一个具体表,该有向线段的指向方向为两个具有依赖关系的根节点中由被依赖的根节点指向另一个根节点;
S1054,根据确定出的质量检测顺序和所构建的元数据关系图谱,依次确定各根节点的质量评估指标;
具体的,在对目标数据进行质量评估的过程中,按照自位于前端的根节点至位于后端的根节点的顺序,根据各根节点之间的依赖关系,依次对各根节点对应的具体表中的目标数据进行质量评估,其中,考虑到两个根节点之间的依赖关系与对应的目标数据的产生顺序直接相关,并且,由于两两根节点之间的有向线段的方向是由被依赖的根节点指向另一个根节点,因此,在对目标数据进行质量评估时,根据各根节点之间的有向线段的指向方向,依次对各根节点对应的具体表中的目标数据进行质量评估。例如,在图4中,数据质量评估顺序为:根节点A→B→C→E→F→G,由于业务使用的数据所对应的根节点在元数据关系图谱中的根节点关系链路的后端,越基础的数据在根节点关系链路的前端,前端的基础数据的数据质量与该基础数据对后端的下游数据是否具有可用性直接相关,因此,在对目标数据进行质量评估的过程中,依次由前端的根节点向后端的根节点对应的目标数据进行质量评估。
S1055,针对每个根节点,若确定出的质量评估指标满足预设指标异常条件,则按照预设告警方式进行数据质量异常警报,其中,该预设告警方式可以是声音警报的方式,还可以是发送即时通信消息的方式,也可以是邮件告警的方式,或者是以电话通报的方式。
具体的,如图6所示,以图4所示的元数据关系图谱为例,在对目标数据进行质量评估的过程中,数据质量评估顺序为:根节点A→B→C→E→F→G,即由下至上依次确定各根节点对应的质量评估指标,其中,根节点A对应的质量评估指标包括:源数据延时、数据条数、字段填充率、异常值覆盖率,根节点B对应的质量评估指标包括:字段转换失败率、字段填充率、全日志覆盖率,该字段转换失败率还能够用于确定是否需要对字段转换算法进行优化,根节点C对应的质量评估指标包括:统计层质检指标、阈值检测、同比检测、环比检测,根节点E对应的质量评估指标包括:结果趋势检测。其中,在具体实施时,可以根据实际业务要求,预先定义各根节点对应的质量评估指标,在构建好针对数据库的元数据关系图谱后,通过确定各根节点对应的预设质量评估质量来对该根节点下具体表对应的目标数据进行数据质量监控。
其中,上述S1054根据确定出的质量检测顺序和所构建的元数据关系图谱,依次确定各根节点的质量评估指标,具体包括:
步骤一,针对所构建的元数据关系图谱中每个根节点,将与该根节点之间标记有有向线段的子节点作为该根节点的关联节点,根据关联节点对应的指定属性种类填充该根节点对应的具体表的标签属性,生成多个该具体表对应的真实数据的目标存储路径;
步骤二,根据生成的多个目标存储路径,查询各具体表下的多个目标数据;
步骤三,按照确定出的质量检测顺序并根据各具体表下的多个目标数据的字段填充情况,依次确定各具体表对应的根节点的质量评估指标。
进一步的,为了便于管控人员更加直观地对数据的质量评估指标进行监控,在根据质量检测顺序和所构建的元数据关系图谱,依次确定各根节点的质量评估指标之后,还包括:
针对每个根节点,根据确定出的质量评估指标,绘制该根节点对应的指标达成曲线图,其中,以曲线图的方式展示各质量评估指标,使得管控人员更加直观地了解质量评估指标的变化趋势,另外,可以在曲线图上标记最大值警戒线和最小值警戒线,这样管控人员还能够在质量评估指标接近警戒线之前及时响应、及时采取相应的处理措施,达到事先预防的目的;
在数据质量监控界面上,展示各根节点的指标达成曲线图,其中,可以按照不同颜色标记不同质量评估指标的方式,以便管控人员能够直观地对质量评估指标对应的指标达成曲线图进行区分,具体的,根据预设指标与展示颜色之间的对应关系,确定待展示的质量评估指标对应的目标展示颜色,在数据质量监控界面上,基于各质量评估指标对应的目标展示颜色,展示各根节点对应的各质量评估指标的指标达成曲线图。
在本申请实施中,由于考虑到前端的基础数据的数据质量与该基础数据对后端的下游数据是否具有可用性直接相关,因此,在对目标数据进行质量评估的过程中,按照自位于前端的根节点至位于后端的根节点的顺序,依次对各根节点对应的具体表下的目标数据进行质量检测,这样能够及时发现导致质量评估指标异常的根源,进一步提高数据质量管控效率;同时,在数据质量监控界面上,展示各根节点的指标达成曲线图,使得管控人员更加直观地了解质量评估指标的变化趋势,以便管控人员第一时间发现异常并采取相应的处理措施。
本申请实施例中的数据管理方法,针对数据仓库中的每个目标数据,根据该目标数据对应的存储路径,确定与该目标数据相关的多个指定属性信息,以及根据该目标数据对应的数据内容,确定该目标数据包含的至少一个字段名称;基于预设图数据库根据各目标数据的多个指定属性信息和至少一个字段名称,构建数据仓库的元数据关系图谱;基于该元数据关系图谱,对各目标数据进行数据管理。采用图数据库的形式对数据仓库的元数据进行表示,构建相应的元数据关系图谱,提高了数据仓库的元数据的管理效率,同时后续结合该元数据关系图谱能够更加高效地对目标数据的数据质量进行监管,提高了目标数据的管理效率,降低了管理成本。
对应上述图1至图6描述的数据管理方法,基于相同的技术构思,本申请实施例还提供了一种数据管理装置,图7为本申请实施例提供的数据管理装置的第一种模块组成示意图,该装置用于执行图1至图6描述的数据管理方法,如图7所示,该装置包括:
信息获取模块701,用于获取数据仓库中各目标数据的存储路径和数据内容,其中,所述存储路径包括:按照预设排布顺序排布的多个属性信息,所述目标数据包括:针对业务处理过程产生的业务数据;
信息提取模块702,用于针对每个所述目标数据,根据该目标数据对应的所述存储路径,确定与该目标数据相关的多个指定属性信息,以及根据该目标数据对应的所述数据内容,确定该目标数据包含的至少一个字段名称;
关系图谱构建模块703,用于基于预设图数据库根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,构建所述数据仓库的元数据关系图谱,其中,所述元数据关系图谱用于表征所述数据仓库中目标数据的元数据间关联关系的图数据库;
数据管理模块704,用于基于所述元数据关系图谱,对各所述目标数据进行数据管理,其中,所述数据管理包括:生命周期监控和/或数据质量监控。
可选地,所述关系图谱构建模块703,具体用于:
根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,确定与所述数据仓库相关的多个具体表,其中,每个所述具体表存储的所述目标数据具有相同的表名属性、库名属性以及字段名称;以及,
根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,确定与所述数据仓库相关的指定属性种类和字段种类;
根据所述具体表、所述指定属性种类和所述字段种类,标记预设图数据库中多个节点和两两所述节点之间的边信息,得到所述数据仓库的元数据关系图谱。
可选地,所述关系图谱构建模块703,进一步具体用于:
将每个所述具体表标记为预设图数据库中的根节点,以及将每个所述指定属性种类和每个所述字段种类分别标记为预设图数据库中的子节点;
将标记好所述根节点和所述子节点的所述预设图数据库,确定为针对所述数据仓库的初始图数据库;
根据所述根节点和所述子节点之间的关联关系,标记所述初始图数据库中的边信息,得到针对所述数据仓库的目标图数据库;
将得到的所述目标图数据库确定为所述数据仓库的元数据关系图谱。
可选地,所述关系图谱构建模块703,更进一步具体用于:
针对两个所述根节点,根据两个所述根节点之间依赖关系,标记两个所述根节点之间的有向线段,其中,所述有向线段的指向方向为由被依赖的所述根节点指向另一个所述根节点;
针对每个所述根节点和每个所述子节点,根据所述根节点与所述子节点之间的包含关系,标记所述根节点与所述子节点之间的有向线段,其中,所述有向线段的指向方向为由所述根节点指向所述子节点。
可选地,所述信息提取模块702,具体用于:
针对每个所述目标数据,根据所述预设排布顺序,确定待提取的指定属性信息在所述存储路径中的位置信息;
根据各所述指定属性信息的所述位置信息,在该目标数据对应的所述存储路径中提取所述指定属性信息。
可选地,所述数据管理为对生命周期进行监控;所述数据管理模块704,具体用于:
确定用于评估数据生命周期满足预设超期条件的参考属性信息;
根据所述元数据关系图谱,删除当前属性信息与所述参考属性信息一致的所述目标数据。
可选地,所述数据管理模块704,进一步具体用于:
若所述参考属性信息为目标存活时间,则将所述元数据关系图谱中各根节点的生命周期属性更新为所述目标存活时间;根据各所述根节点之间的有向线段的指向方向的反方向,依次删除各所述根节点下当前数据存活时间与所述目标存活时间一致的目标数据;
若所述参考属性信息为所述元数据关系图谱中任一子节点表征的目标属性种类,则根据所述元数据关系图谱,确定指向子节点的至少一个目标根节点;根据所述至少一个目标根节点之间的有向线段的指向方向的反方向,依次删除各所述目标根节点下具有所述目标属性种类的目标数据。
可选地,所述数据管理为对数据质量进行监控;所述数据管理模块704,还具体用于:
根据所述元数据关系图谱中各根节点之间的有向线段的指向方向,确定各所述根节点的质量检测顺序;
根据所述质量检测顺序和所述元数据关系图谱,依次确定各所述根节点的质量评估指标;
针对每个所述根节点,若确定出的所述质量评估指标满足预设指标异常条件,则按照预设告警方式进行数据质量异常警报。
可选地,如图8所示,所述装置还包括指标展示模块705;所述指标展示模块705,用于:
针对每个所述根节点,根据确定出的所述质量评估指标,绘制该根节点对应的指标达成曲线图;
在数据质量监控界面上,展示各所述根节点的所述指标达成曲线图。
本申请实施例中的数据管理装置,针对数据仓库中的每个目标数据,根据该目标数据对应的存储路径,确定与该目标数据相关的多个指定属性信息,以及根据该目标数据对应的数据内容,确定该目标数据包含的至少一个字段名称;基于预设图数据库根据各目标数据的多个指定属性信息和至少一个字段名称,构建数据仓库的元数据关系图谱;基于该元数据关系图谱,对各目标数据进行数据管理。采用图数据库的形式对数据仓库的元数据进行表示,构建相应的元数据关系图谱,提高了数据仓库的元数据的管理效率,同时后续结合该元数据关系图谱能够更加高效地对目标数据的数据质量进行监管,提高了目标数据的管理效率,降低了管理成本。
需要说明的是,本申请实施例提供的数据管理装置与本申请实施例提供的数据管理方法基于同一发明构思,因此该实施例的具体实施可以参见前述数据管理方法的实施,重复之处不再赘述。
进一步地,对应上述图1至图6所示的方法,基于相同的技术构思,本申请实施例还提供了一种数据管理设备,该设备用于执行上述的数据管理方法,图9为本申请实施例提供的数据管理设备的结构示意图。
如图9所示,数据管理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器901和存储器902,存储器902中可以存储有一个或一个以上存储应用程序或数据。其中,存储器902可以是短暂存储或持久存储。存储在存储器902的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对数据管理设备中的一系列计算机可执行指令。更进一步地,处理器901可以设置为与存储器902通信,在数据管理设备上执行存储器902中的一系列计算机可执行指令。数据管理设备还可以包括一个或一个以上电源903,一个或一个以上有线或无线网络接口904,一个或一个以上输入输出接口905,一个或一个以上键盘906等。
在一个具体的实施例中,数据管理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对数据管理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取数据仓库中各目标数据的存储路径和数据内容,其中,所述存储路径包括:按照预设排布顺序排布的多个属性信息,所述目标数据包括:针对业务处理过程产生的业务数据;
针对每个所述目标数据,根据该目标数据对应的所述存储路径,确定与该目标数据相关的多个指定属性信息,以及根据该目标数据对应的所述数据内容,确定该目标数据包含的至少一个字段名称;
基于预设图数据库根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,构建所述数据仓库的元数据关系图谱,其中,所述元数据关系图谱用于表征所述数据仓库中目标数据的元数据间关联关系的图数据库;
基于所述元数据关系图谱,对各所述目标数据进行数据管理,其中,所述数据管理包括:生命周期监控和/或数据质量监控。
可选地,计算机可执行指令在被执行时,所述基于预设图数据库根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,构建所述数据仓库的元数据关系图谱,包括:
根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,确定与所述数据仓库相关的多个具体表,其中,每个所述具体表存储的所述目标数据具有相同的表名属性、库名属性以及字段名称;以及,
根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,确定与所述数据仓库相关的指定属性种类和字段种类;
根据所述具体表、所述指定属性种类和所述字段种类,标记预设图数据库中多个节点和两两所述节点之间的边信息,得到所述数据仓库的元数据关系图谱。
可选地,计算机可执行指令在被执行时,所述根据所述具体表、所述指定属性种类和所述字段种类,标记预设图数据库中多个节点和两两所述节点之间的边信息,得到所述数据仓库的元数据关系图谱,包括:
将每个所述具体表标记为预设图数据库中的根节点,以及将每个所述指定属性种类和每个所述字段种类分别标记为预设图数据库中的子节点;
将标记好所述根节点和所述子节点的所述预设图数据库,确定为针对所述数据仓库的初始图数据库;
根据所述根节点和所述子节点之间的关联关系,标记所述初始图数据库中的边信息,得到针对所述数据仓库的目标图数据库;
将得到的所述目标图数据库确定为所述数据仓库的元数据关系图谱。
可选地,计算机可执行指令在被执行时,所述根据所述根节点和所述子节点之间的关联关系,标记所述初始图数据库中的边信息,得到针对所述数据仓库的目标图数据库,包括:
针对两个所述根节点,根据两个所述根节点之间依赖关系,标记两个所述根节点之间的有向线段,其中,所述有向线段的指向方向为由被依赖的所述根节点指向另一个所述根节点;
针对每个所述根节点和每个所述子节点,根据所述根节点与所述子节点之间的包含关系,标记所述根节点与所述子节点之间的有向线段,其中,所述有向线段的指向方向为由所述根节点指向所述子节点。
可选地,计算机可执行指令在被执行时,所述针对每个所述目标数据,根据该目标数据对应的所述存储路径,确定与该目标数据相关的多个指定属性信息,包括:
针对每个所述目标数据,根据所述预设排布顺序,确定待提取的指定属性信息在所述存储路径中的位置信息;
根据各所述指定属性信息的所述位置信息,在该目标数据对应的所述存储路径中提取所述指定属性信息。
可选地,计算机可执行指令在被执行时,所述数据管理为对生命周期进行监控;
所述基于所述元数据关系图谱,对各所述目标数据进行数据管理,包括:
确定用于评估数据生命周期满足预设超期条件的参考属性信息;
根据所述元数据关系图谱,删除当前属性信息与所述参考属性信息一致的所述目标数据。
可选地,计算机可执行指令在被执行时,所述根据所述元数据关系图谱,删除当前属性信息与所述参考属性信息一致的所述目标数据,包括:
若所述参考属性信息为目标存活时间,则将所述元数据关系图谱中各根节点的生命周期属性更新为所述目标存活时间;根据各所述根节点之间的有向线段的指向方向的反方向,依次删除各所述根节点下当前数据存活时间与所述目标存活时间一致的目标数据;
若所述参考属性信息为所述元数据关系图谱中任一子节点表征的目标属性种类,则根据所述元数据关系图谱,确定指向子节点的至少一个目标根节点;根据所述至少一个目标根节点之间的有向线段的指向方向的反方向,依次删除各所述目标根节点下具有所述目标属性种类的目标数据。
可选地,计算机可执行指令在被执行时,所述数据管理为对数据质量进行监控;
所述基于所述元数据关系图谱,对各所述目标数据进行数据管理,包括:
根据所述元数据关系图谱中各根节点之间的有向线段的指向方向,确定各所述根节点的质量检测顺序;
根据所述质量检测顺序和所述元数据关系图谱,依次确定各所述根节点的质量评估指标;
针对每个所述根节点,若确定出的所述质量评估指标满足预设指标异常条件,则按照预设告警方式进行数据质量异常警报。
可选地,计算机可执行指令在被执行时,还包含用于进行以下计算机可执行指令:
针对每个所述根节点,根据确定出的所述质量评估指标,绘制该根节点对应的指标达成曲线图;
在数据质量监控界面上,展示各所述根节点的所述指标达成曲线图。
本申请实施例中的数据管理设备,针对数据仓库中的每个目标数据,根据该目标数据对应的存储路径,确定与该目标数据相关的多个指定属性信息,以及根据该目标数据对应的数据内容,确定该目标数据包含的至少一个字段名称;基于预设图数据库根据各目标数据的多个指定属性信息和至少一个字段名称,构建数据仓库的元数据关系图谱;基于该元数据关系图谱,对各目标数据进行数据管理。采用图数据库的形式对数据仓库的元数据进行表示,构建相应的元数据关系图谱,提高了数据仓库的元数据的管理效率,同时后续结合该元数据关系图谱能够更加高效地对目标数据的数据质量进行监管,提高了目标数据的管理效率,降低了管理成本。
优选的,本申请实施例还提供一种数据管理设备,包括处理器901,存储器902,存储在存储器902上并可在处理器901上运行的计算机程序,该计算机程序被处理器901执行时实现上述数据管理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
进一步地,对应上述图1至图6所示的方法,基于相同的技术构思,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据管理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (15)

1.一种数据管理方法,其特征在于,包括:
获取数据仓库中各目标数据的存储路径和数据内容,其中,所述存储路径包括:按照预设排布顺序排布的多个属性信息,所述目标数据包括:针对业务处理过程产生的业务数据;
针对每个所述目标数据,根据该目标数据对应的所述存储路径,确定与该目标数据相关的多个指定属性信息,以及根据该目标数据对应的所述数据内容,确定该目标数据包含的至少一个字段名称;
基于预设图数据库根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,构建所述数据仓库的元数据关系图谱,其中,所述元数据关系图谱用于表征所述数据仓库中目标数据的元数据间关联关系的图数据库;
基于所述元数据关系图谱,对各所述目标数据进行数据管理,其中,所述数据管理包括:生命周期监控和/或数据质量监控。
2.根据权利要求1所述的方法,其特征在于,所述基于预设图数据库根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,构建所述数据仓库的元数据关系图谱,包括:
根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,确定与所述数据仓库相关的多个具体表,其中,每个所述具体表存储的所述目标数据具有相同的表名属性、库名属性以及字段名称;以及,
根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,确定与所述数据仓库相关的指定属性种类和字段种类;
根据所述具体表、所述指定属性种类和所述字段种类,标记预设图数据库中多个节点和两两所述节点之间的边信息,得到所述数据仓库的元数据关系图谱。
3.根据权利要求2所述的方法,其特征在于,所述根据所述具体表、所述指定属性种类和所述字段种类,标记预设图数据库中多个节点和两两所述节点之间的边信息,得到所述数据仓库的元数据关系图谱,包括:
将每个所述具体表标记为预设图数据库中的根节点,以及将每个所述指定属性种类和每个所述字段种类分别标记为预设图数据库中的子节点;
将标记好所述根节点和所述子节点的所述预设图数据库,确定为针对所述数据仓库的初始图数据库;
根据所述根节点和所述子节点之间的关联关系,标记所述初始图数据库中的边信息,得到针对所述数据仓库的目标图数据库;
将得到的所述目标图数据库确定为所述数据仓库的元数据关系图谱。
4.根据权利要求3所述的方法,其特征在于,所述根据所述根节点和所述子节点之间的关联关系,标记所述初始图数据库中的边信息,得到针对所述数据仓库的目标图数据库,包括:
针对两个所述根节点,根据两个所述根节点之间依赖关系,标记两个所述根节点之间的有向线段,其中,所述有向线段的指向方向为由被依赖的所述根节点指向另一个所述根节点;
针对每个所述根节点和每个所述子节点,根据所述根节点与所述子节点之间的包含关系,标记所述根节点与所述子节点之间的有向线段,其中,所述有向线段的指向方向为由所述根节点指向所述子节点。
5.根据权利要求1所述的方法,其特征在于,所述针对每个所述目标数据,根据该目标数据对应的所述存储路径,确定与该目标数据相关的多个指定属性信息,包括:
针对每个所述目标数据,根据所述预设排布顺序,确定待提取的指定属性信息在所述存储路径中的位置信息;
根据各所述指定属性信息的所述位置信息,在该目标数据对应的所述存储路径中提取所述指定属性信息。
6.根据权利要求1所述的方法,其特征在于,所述数据管理为对生命周期进行监控;
所述基于所述元数据关系图谱,对各所述目标数据进行数据管理,包括:
确定用于评估数据生命周期满足预设超期条件的参考属性信息;
根据所述元数据关系图谱,删除当前属性信息与所述参考属性信息一致的所述目标数据。
7.根据权利要求6所述的方法,其特征在于,所述根据所述元数据关系图谱,删除当前属性信息与所述参考属性信息一致的所述目标数据,包括:
若所述参考属性信息为目标存活时间,则将所述元数据关系图谱中各根节点的生命周期属性更新为所述目标存活时间;根据各所述根节点之间的有向线段的指向方向的反方向,依次删除各所述根节点下当前数据存活时间与所述目标存活时间一致的目标数据;
若所述参考属性信息为所述元数据关系图谱中任一子节点表征的目标属性种类,则根据所述元数据关系图谱,确定指向子节点的至少一个目标根节点;根据所述至少一个目标根节点之间的有向线段的指向方向的反方向,依次删除各所述目标根节点下具有所述目标属性种类的目标数据。
8.根据权利要求1所述的方法,其特征在于,所述数据管理为对数据质量进行监控;
所述基于所述元数据关系图谱,对各所述目标数据进行数据管理,包括:
根据所述元数据关系图谱中各根节点之间的有向线段的指向方向,确定各所述根节点的质量检测顺序;
根据所述质量检测顺序和所述元数据关系图谱,依次确定各所述根节点的质量评估指标;
针对每个所述根节点,若确定出的所述质量评估指标满足预设指标异常条件,则按照预设告警方式进行数据质量异常警报。
9.根据权利要求8所述的方法,其特征在于,还包括:
针对每个所述根节点,根据确定出的所述质量评估指标,绘制该根节点对应的指标达成曲线图;
在数据质量监控界面上,展示各所述根节点的所述指标达成曲线图。
10.一种数据管理装置,其特征在于,包括:
信息获取模块,用于获取数据仓库中各目标数据的存储路径和数据内容,其中,所述存储路径包括:按照预设排布顺序排布的多个属性信息,所述目标数据包括:针对业务处理过程产生的业务数据;
信息提取模块,用于针对每个所述目标数据,根据该目标数据对应的所述存储路径,确定与该目标数据相关的多个指定属性信息,以及根据该目标数据对应的所述数据内容,确定该目标数据包含的至少一个字段名称;
关系图谱构建模块,用于基于预设图数据库根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,构建所述数据仓库的元数据关系图谱,其中,所述元数据关系图谱用于表征所述数据仓库中目标数据的元数据间关联关系的图数据库;
数据管理模块,用于基于所述元数据关系图谱,对各所述目标数据进行数据管理,其中,所述数据管理包括:生命周期监控和/或数据质量监控。
11.根据权利要求10所述的装置,其特征在于,所述关系图谱构建模块,具体用于:
根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,确定与所述数据仓库相关的多个具体表,其中,每个所述具体表存储的所述目标数据具有相同的表名属性、库名属性以及字段名称;以及,
根据各所述目标数据的所述多个指定属性信息和所述至少一个字段名称,确定与所述数据仓库相关的指定属性种类和字段种类;
根据所述具体表、所述指定属性种类和所述字段种类,标记预设图数据库中多个节点和两两所述节点之间的边信息,得到所述数据仓库的元数据关系图谱。
12.根据权利要求11所述的装置,其特征在于,所述关系图谱构建模块,进一步具体用于:
将每个所述具体表标记为预设图数据库中的根节点,以及将每个所述指定属性种类和每个所述字段种类分别标记为预设图数据库中的子节点;
将标记好所述根节点和所述子节点的所述预设图数据库,确定为针对所述数据仓库的初始图数据库;
根据所述根节点和所述子节点之间的关联关系,标记所述初始图数据库中的边信息,得到针对所述数据仓库的目标图数据库;
将得到的所述目标图数据库确定为所述数据仓库的元数据关系图谱。
13.根据权利要求10所述的装置,其特征在于,所述数据管理为对生命周期进行监控;所述数据管理模块,具体用于:
确定用于评估数据生命周期满足预设超期条件的参考属性信息;
根据所述元数据关系图谱,删除当前属性信息与所述参考属性信息一致的所述目标数据。
14.根据权利要求13所述的装置,其特征在于,所述数据管理模块,进一步具体用于:
若所述参考属性信息为目标存活时间,则将所述元数据关系图谱中各根节点的生命周期属性更新为所述目标存活时间;根据各所述根节点之间的有向线段的指向方向的反方向,依次删除各所述根节点下当前数据存活时间与所述目标存活时间一致的目标数据;
若所述参考属性信息为所述元数据关系图谱中任一子节点表征的目标属性种类,则根据所述元数据关系图谱,确定指向子节点的至少一个目标根节点;根据所述至少一个目标根节点之间的有向线段的指向方向的反方向,依次删除各所述目标根节点下具有所述目标属性种类的目标数据。
15.根据权利要求10所述的装置,其特征在于,所述数据管理为对数据质量进行监控;所述数据管理模块,还具体用于:
根据所述元数据关系图谱中各根节点之间的有向线段的指向方向,确定各所述根节点的质量检测顺序;
根据所述质量检测顺序和所述元数据关系图谱,依次确定各所述根节点的质量评估指标;
针对每个所述根节点,若确定出的所述质量评估指标满足预设指标异常条件,则按照预设告警方式进行数据质量异常警报。
CN201810894520.XA 2018-08-08 2018-08-08 一种数据管理方法及装置 Active CN109213747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810894520.XA CN109213747B (zh) 2018-08-08 2018-08-08 一种数据管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810894520.XA CN109213747B (zh) 2018-08-08 2018-08-08 一种数据管理方法及装置

Publications (2)

Publication Number Publication Date
CN109213747A CN109213747A (zh) 2019-01-15
CN109213747B true CN109213747B (zh) 2021-11-16

Family

ID=64988218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810894520.XA Active CN109213747B (zh) 2018-08-08 2018-08-08 一种数据管理方法及装置

Country Status (1)

Country Link
CN (1) CN109213747B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134663B (zh) * 2019-04-02 2020-04-28 北京三快在线科技有限公司 组织结构数据处理方法、装置、电子设备
CN112241443B (zh) * 2019-07-16 2023-11-21 中国移动通信集团浙江有限公司 数据质量监测方法、装置、计算设备及计算机存储介质
CN110472068B (zh) * 2019-08-20 2020-04-24 星环信息科技(上海)有限公司 基于异构分布式知识图谱的大数据处理方法、设备及介质
CN110765100B (zh) * 2019-09-09 2022-08-02 天云软件技术有限公司 标签的生成方法、装置、计算机可读存储介质及服务器
CN110851663B (zh) * 2019-11-05 2023-07-25 北京明略软件系统有限公司 管理元数据的方法和装置
CN111817903B (zh) * 2020-09-02 2020-12-01 湖南双菱电子科技有限公司 一种数字信号传输处理设备链路故障分析与报警方法
CN112199359B (zh) * 2020-09-18 2024-07-23 中国建设银行股份有限公司 数据检核方法、装置、电子设备和存储介质
CN112433888B (zh) * 2020-12-02 2023-06-30 网易(杭州)网络有限公司 数据处理方法及装置、存储介质和电子设备
CN112434071B (zh) * 2020-12-15 2021-07-20 北京三维天地科技股份有限公司 一种基于数据图谱的元数据血缘关系与影响分析平台
CN113760847A (zh) * 2021-01-28 2021-12-07 北京沃东天骏信息技术有限公司 日志数据处理方法、装置、设备及存储介质
CN113238646B (zh) * 2021-04-20 2024-04-09 北京易华录信息技术股份有限公司 一种光存储集群的节能存储方法及装置
CN113420025A (zh) * 2021-06-11 2021-09-21 广联达科技股份有限公司 构件数据的处理方法、装置及电子设备
CN113536054A (zh) * 2021-07-15 2021-10-22 中国工商银行股份有限公司 一种基于图数据的业务监控方法、装置、设备及存储介质
CN113918774A (zh) * 2021-10-28 2022-01-11 中国平安财产保险股份有限公司 一种数据治理方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2317194A1 (en) * 1999-09-03 2001-03-03 Cognos Incorporated Query engine and method for querying data using metadata model
CN102855332A (zh) * 2012-09-24 2013-01-02 上海天玑科技股份有限公司 一种基于图形数据库的图形配置管理数据库
CN104615425A (zh) * 2015-01-16 2015-05-13 贾志东 一种基于功件和功件树开发软件系统的方法和系统
AU2015207828A1 (en) * 2008-02-26 2015-08-20 Ab Initio Technology Llc Graphic representations of data relationships
CN105320690A (zh) * 2014-07-30 2016-02-10 北京中海纪元数字技术发展股份有限公司 一种基于元数据的统计表单快速生成方法及系统
CN105930465A (zh) * 2016-04-21 2016-09-07 成都数联铭品科技有限公司 一种数据挖掘处理方法
CN106547809A (zh) * 2015-09-18 2017-03-29 邻客音公司 将复合关系表示在图数据库中
CN107103025A (zh) * 2017-01-05 2017-08-29 北京亚信智慧数据科技有限公司 一种数据处理方法及数据处理平台
CN107766377A (zh) * 2016-08-19 2018-03-06 华为技术有限公司 一种监控数据查询方法及装置
CN107862075A (zh) * 2017-11-29 2018-03-30 浪潮软件股份有限公司 一种基于医疗卫生大数据的知识图谱构建方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2317194A1 (en) * 1999-09-03 2001-03-03 Cognos Incorporated Query engine and method for querying data using metadata model
AU2015207828A1 (en) * 2008-02-26 2015-08-20 Ab Initio Technology Llc Graphic representations of data relationships
CN102855332A (zh) * 2012-09-24 2013-01-02 上海天玑科技股份有限公司 一种基于图形数据库的图形配置管理数据库
CN105320690A (zh) * 2014-07-30 2016-02-10 北京中海纪元数字技术发展股份有限公司 一种基于元数据的统计表单快速生成方法及系统
CN104615425A (zh) * 2015-01-16 2015-05-13 贾志东 一种基于功件和功件树开发软件系统的方法和系统
CN106547809A (zh) * 2015-09-18 2017-03-29 邻客音公司 将复合关系表示在图数据库中
CN105930465A (zh) * 2016-04-21 2016-09-07 成都数联铭品科技有限公司 一种数据挖掘处理方法
CN107766377A (zh) * 2016-08-19 2018-03-06 华为技术有限公司 一种监控数据查询方法及装置
CN107103025A (zh) * 2017-01-05 2017-08-29 北京亚信智慧数据科技有限公司 一种数据处理方法及数据处理平台
CN107862075A (zh) * 2017-11-29 2018-03-30 浪潮软件股份有限公司 一种基于医疗卫生大数据的知识图谱构建方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Generating cultural heritage metadata as linked open data;Nurul Fajrin Ariyani等;《2015 International Conference on Information Technology Systems and Innovation (ICITSI)》;20160324;1-6 *
Hive元数据在MySQL的存储逻辑及关系;A_ChunUnique;《https://blog.csdn.net/Gavin_chun/article/details/78411677》;20171101;1-6 *
企业级数据中心优化治理体系的研究与应用;范叶平;《微型电脑应用》;20151220;第31卷(第12期);51-56 *
面向ETC用户的位置服务系统及关键技术研究;何源浩;《国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》;20170515(第5期);C034-347 *

Also Published As

Publication number Publication date
CN109213747A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN109213747B (zh) 一种数据管理方法及装置
CN108628929B (zh) 用于智能存档和分析的方法和装置
Yang et al. A system architecture for manufacturing process analysis based on big data and process mining techniques
JP2020017302A (ja) 分散型工業パフォーマンス監視及び分析プラットフォーム
CN103562863A (zh) 创建定义事件类型之间关系的相关规则
CN114791846B (zh) 一种针对云原生混沌工程实验实现可观测性的方法
US20130006888A1 (en) Autotagging Business Processes
US9727663B2 (en) Data store query prediction
CN115630923A (zh) 业务审查处理方法、装置及计算机可读存储介质
US20240104462A1 (en) Supply chain management system and supply chain management method
CN114303134A (zh) 用于维护视觉一致性的方法、装置和计算机可读介质
CN111340404A (zh) 构建指标体系的方法、装置及计算机存储介质
US11138221B1 (en) Data aggregation and reporting environment for data center infrastructure management
CN113297044A (zh) 一种运维风险预警方法及装置
CN113779261B (zh) 知识图谱的质量评价方法、装置、计算机设备及存储介质
KR101555927B1 (ko) 프로세스 구간의 소요시간 측정을 통한 작업 지연 원인 분석방법
CN111078988A (zh) 一种电力服务信息热点检索方法、装置和电子设备
Dang-Ha et al. Graph of virtual actors (gova): A big data analytics architecture for IoT
Heine et al. Automated detection and monitoring of advanced data quality rules
Kumar Software Engineering for Big Data Systems
CN114880316B (zh) 客户数据处理方法、系统、电子设备及可读存储介质
CN115334354B (zh) 视频标注方法和装置
US11017008B2 (en) Method and system for contextualizing process data
CN118861104A (zh) 一种问题数据溯源方法、装置、设备及存储介质
CN117541406A (zh) 业务预警方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant