CN111125269A

CN111125269A - 一种数据管理方法、血缘关系显示方法和相关装置

Info

Publication number: CN111125269A
Application number: CN201911422270.0A
Authority: CN
Inventors: 贺智超; 张金铭; 潘诗颖; 肖兮; 姚孟君虹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-08
Anticipated expiration: 2039-12-31
Also published as: CN111125269B

Abstract

本申请实施例公开一种数据管理方法，获取来自第一数据源和第二数据源的数据信息，数据信息体现了数据之间的依赖关系。基于第一数据源中数据信息得到的数据之间依赖关系确定数据之间的第一血缘关系，以及基于第二数据源中数据信息得到的数据之间依赖关系确定数据之间的第二血缘关系。由于不同数据源中的数据具有不同特点，不同数据源中所缺失的数据间的依赖关系完全相同几率较小，故将第一血缘关系与第二血缘关系进行拼接得到的目标血缘关系可以弥补基于单个数据源确定血缘关系的不足，从而确定出较为完整的血缘关系。利用目标血缘关系在图形数据库中构建血缘关系图，得到的血缘关系图能够完整的体现数据之间的依赖关系，以便对数据进行全面管理。

Description

一种数据管理方法、血缘关系显示方法和相关装置

技术领域

本申请涉及数据处理领域，特别是涉及一种数据管理方法、血缘关系显示方法和相关装置。

背景技术

大数据时代，数据爆发性增长，海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息，通过联姻融合、转换变换、流转流通，又生成新的数据，汇聚成数据的海洋。数据的产生、加工融合、流转流通，到最终消亡，数据之间自然会形成一种关系，这种关系被称为数据的血缘关系。根据数据血缘关系，可以很清楚地了解数据的迁徙流转，为数据价值的评估、数据销毁、数据定位等数据管理提供依据。

然而，目前的相关技术中通常会出现血缘关系覆盖不全面，进而导致针对某个数据查看血缘关系时，无法得到该数据完整的血缘关系。

发明内容

为了解决上述技术问题，本申请提供了一种数据管理方法、血缘关系显示方法和相关装置，可以弥补基于单个数据源确定血缘关系的不足，从而能够确定出较为完整的血缘关系。同时，由于图像数据库的特性，针对单个数据查看血缘关系时，可以实现一次性展开该数据的完整的血缘关系图。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供一种数据管理方法，所述方法包括：

获取来自第一数据源和第二数据源的数据信息；所述数据信息体现了数据之间的依赖关系；

基于所述第一数据源中数据信息得到的数据之间的依赖关系确定数据之间的第一血缘关系，以及基于所述第二数据源中数据信息得到的数据之间的依赖关系确定数据之间的第二血缘关系；

将所述第一血缘关系和所述第二血缘关系进行拼接得到目标血缘关系；

利用所述目标血缘关系在图形数据库中构建血缘关系图。

第二方面，本申请实施例提供一种数据管理装置，所述装置包括获取单元、第一确定单元、拼接单元和构建单元：

所述获取单元，用于获取来自第一数据源和第二数据源的数据信息；所述数据信息体现了数据之间的依赖关系；

所述第一确定单元，用于基于所述第一数据源中数据信息得到的数据之间的依赖关系确定数据之间的第一血缘关系，以及基于所述第二数据源中数据信息得到的数据之间的依赖关系确定数据之间的第二血缘关系；

所述拼接单元，用于将所述第一血缘关系和所述第二血缘关系进行拼接得到目标血缘关系；

所述构建单元，用于利用所述目标血缘关系在图形数据库中构建血缘关系图。

第三方面，本申请实施例提供一种血缘关系显示方法，所述方法包括：

发送针对待查询数据的血缘关系查询请求，所述血缘关系查询请求中包括所述待查询数据的目标标识；

显示所述待查询数据的血缘关系图；所述血缘关系图是服务器根据所述目标标识确定的，所述血缘关系图是根据第一方面任一项所述的方法构建的。

第四方面，本申请实施例提供一种血缘关系显示装置，所述装置包括发送单元和显示单元：

所述发送单元，用于发送针对待查询数据的血缘关系查询请求，所述血缘关系查询请求中包括所述待查询数据的目标标识；

所述显示单元，用于显示所述待查询数据的血缘关系图；所述血缘关系图是服务器根据所述目标标识确定的，所述血缘关系图是根据第一方面任一项所述的方法构建的。

第五方面，本申请实施例提供一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面或第三方面任一项所述的方法。

第六方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面或第三方面任一项所述的方法。

由上述技术方案可以看出，本申请基于多维度的数据源进行构建血缘关系，从而实现数据管理，多维度的数据源例如第一数据源和第二数据源，获取来自第一数据源和第二数据源的数据信息，数据信息体现了数据之间的依赖关系。然后，基于第一数据源中数据信息得到的数据之间的依赖关系确定数据之间的第一血缘关系，以及基于第二数据源中数据信息得到的数据之间的依赖关系确定数据之间的第二血缘关系。由于不同数据源中的数据具有不同的特点，不同数据源中所缺失的数据间的依赖关系完全相同几率较小，故将第一血缘关系与第二血缘关系进行拼接得到的目标血缘关系可以弥补基于单个数据源确定血缘关系的不足，从而能够确定出较为完整的血缘关系。之后，利用目标血缘关系在图形数据库中构建血缘关系图，得到的血缘关系图能够完整的体现数据之间的依赖关系，以便对数据进行全面管理。同时，由于图像数据库的特性，针对单个数据查看血缘关系时，可以实现一次性展开该数据的完整的血缘关系图。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的数据管理方法的应用场景示意图；

图2为本申请实施例提供的一种数据管理方法的流程图；

图3为本申请实施例提供的构建的血缘关系图示例图；

图4为本申请实施例提供的构建的索引树示例图；

图5为本申请实施例提供的一种血缘关系显示方法的流程图；

图6为本申请实施例提供的查询血缘关系图的用户界面示例图；

图7为本申请实施例提供的用户查看血缘关系图的交互流程图；

图8为本申请实施例提供的待查询数据的血缘关系图；

图9为本申请实施例提供的数据管理的系统框架图；

图10为本申请实施例提供的数据管理流程图；

图11a为本申请实施例提供的一种数据管理装置的结构图；

图11b为本申请实施例提供的一种数据管理装置的结构图；

图11c为本申请实施例提供的一种数据管理装置的结构图；

图12a为本申请实施例提供的一种血缘关系显示装置的结构图；

图12b为本申请实施例提供的一种血缘关系显示装置的结构图；

图13为本申请实施例提供的一种终端设备的结构图；

图14为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

通过数据血缘关系可以实现为数据管理提供依据，然而，目前的相关技术中通常会出现血缘关系覆盖不全面，进而导致针对某个数据查看血缘关系时，无法得到该数据完整的血缘关系。

例如，基于结构化查询语言(Structured Query Language，SQL)执行记录构建数据血缘关系，由于该执行记录中仅记录通过SQL语句表达的数据信息，然而有很多数据信息并未通过SQL语句表达，从而导致构建得到的血缘关系覆盖的数据不够全面，难以得到数据的完整血缘关系。

为此，本申请实施例提供一种数据管理方法，该方法基于多维度的数据源进行构建血缘关系，从而实现数据管理。由于不同数据源中所缺失的数据间的依赖关系完全相同几率较小，从而可以相互弥补基于单个数据源确定血缘关系的不足，确定出较为完整的血缘关系。

本申请实施例提供的方法可以应用于数据处理设备，数据处理设备可以是终端设备，该终端设备还应具有媒体数据播放功能，终端设备例如可以是智能终端、计算机、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑等设备。

数据处理设备还可以是终端设备和服务器，该服务器可以为独立服务器，也可以为集群服务器。服务器可以构建出血缘关系图，在用户通过终端设备查询某个数据的血缘关系图时，将该数据的血缘关系图发送至终端设备进行显示。

为了便于理解本申请的技术方案，下面结合实际应用场景，以服务器为例对本申请实施例提供的数据管理方法进行介绍。

参见图1，图1为本申请实施例提供的数据管理方法的应用场景示意图。该应用场景中包括服务器101和终端设备102。服务器101可以用于构建数据的血缘关系图，血缘关系图通过网状结构表示数据之间的血缘关系，其中，数据可以通过网状结构中的数据节点表示，带有箭头的边表示数据之间的依赖关系。

在通过构建血缘关系对数据进行管理时，服务器101可以获取来自多个不同的数据源的数据信息，以多个不同数据源中的第一数据源和第二数据源为例，服务器101获取第一数据源和第二数据源的数据信息，数据信息体现了数据之间的依赖关系。

服务器101基于第一数据源中数据信息得到的数据之间的依赖关系确定数据之间的第一血缘关系，例如得到第一血缘关系为A→B，且A→E(参见图1所示)，以及基于第二数据源中数据信息得到的数据之间的依赖关系确定数据之间的第二血缘关系A→B→C→D(参见图1所示)。由于不同数据源中的数据具有不同的特点，不同数据源中所缺失的数据间的依赖关系完全相同几率较小，故将第一血缘关系与第二血缘关系进行拼接得到的目标血缘关系A→B→C→D，且A→E(参见图1所示)，可以弥补基于单个数据源确定血缘关系的不足，从而使得服务器101利用目标血缘关系在图形数据库中构建出较为完整的血缘关系图。

在用户通过终端设备102发送血缘关系查询请求以查询某个数据的血缘关系图时，服务器101可以将该数据的血缘关系图发送至终端设备102上进行显示。

接下来，将结合附图，以处理设备为服务器为例对本申请实施例提供的数据管理方法进行详细介绍。

参见图2，图2示出了一种数据管理方法的流程图，所述方法包括：

S201、获取来自第一数据源和第二数据源的数据信息。

服务器可以从多个数据源获取数据信息，以第一数据源和第二数据源为例，服务器获取来自第一数据源和第二数据源的数据信息。其中，数据信息体现了数据之间的依赖关系。

需要说明的是第一数据源和第二数据源分别可以为不同类型的数据平台，在本申请实施例中，第一数据源可以是日志数据，例如可以是工厂/维纳斯(Venus)的Hadoop分布式文件系统(Hadoop Distributed File System，HDFS)的日志数据，第二数据源可以SQL执行记录，例如可以是腾讯分布式数据仓库(Tencent distributed Data Warehouse，TDW)的SQL执行记录。

在一些情况下，在实际数据迁移流转过程中，同一个作业(例如进行搜索词分析的作业)的文件可以存储在一个数据表中，为了使得后续构建出的血缘关系图更能够体现实际任务意义，可以基于数据信息确定数据表，进而以构建血缘关系图。

在这种情况下，服务器在得到第一数据源和第二数据源的数据信息后，可以对数据信息进行解析得到数据表，数据表例如可以是HIVE表，HIVE是一种数据仓库工具。若第一数据源是日志数据，服务器可以对数据信息进行表名解析，得到HIVE表；若第二数据源是SQL执行记录，服务器可以对数据信息进行SQL解析，得到HIVE表。

S202、基于所述第一数据源中数据信息得到的数据之间的依赖关系确定数据之间的第一血缘关系，以及基于所述第二数据源中数据信息得到的数据之间的依赖关系确定数据之间的第二血缘关系。

服务器可以基于第一数据源中的数据信息，从中确定出第一血缘关系，例如A→B，且A→E，并且基于第二数据源中数据信息，从中确定出第二血缘关系，例如A→B→C→D。

其中，血缘关系的确定可以是在图形数据库中进行的，图形数据库的种类有很多种，在本实施例中，图形数据库例如可以是Neo4J图形数据库。

在一些情况下，HIVE表的配置信息例如表名、表所属的数据库、表的拥有者、列/分区字段、表的类型、表的数据所在目录等元数据需要存放在数据库中，为了使得数据库支持多用户并发访问，则该数据库可以是外置公用数据库，例如MySQL，MySQL是一种关系型数据库管理系统。因此，在得到HIVE表后，可以将HIVE表导入至MySQL中，而后在将MySQL中的数据信息导入至图形数据库例如Neo4J图形数据库中进行血缘关系计算。

S203、将所述第一血缘关系和所述第二血缘关系进行拼接得到目标血缘关系。

在得到第一血缘关系和第二血缘关系后，为了弥补基于单个数据源确定血缘关系可能存在的不足，确定出较为完整的血缘关系，服务器可以将第一血缘关系与第二血缘关系进行拼接得到目标血缘关系。

可以理解的是，将第一血缘关系与第二血缘关系进行拼接得到目标血缘关系的方式有很多，在一种可能的实现方式中，服务器可以确定第一血缘关系和第二血缘关系之间具有的相同子血缘关系和不同子血缘关系，从而将相同子血缘关系和不同子血缘关系进行拼接得到一个完整的目标血缘关系。

例如第一血缘关系为A→B，且A→E，第二血缘关系为A→B→C→D，第一血缘关系与第二血缘关系之间的相同子血缘关系为A→B，不同子血缘关系为A→E、B→C→D，将A→B、A→E和B→C→D进行拼接得到目标血缘关系A→B→C→D且A→E(参见图1中目标血缘关系所示)。

S204、利用所述目标血缘关系在图形数据库中构建血缘关系图。

由于图形数据库以网络结构的形式存储血缘关系，当需要查询某个数据的血缘关系时，根据该数据的存储位置，依照网络结构中数据节点之间的连接关系进行搜索，便可以确定出该数据的完整血缘关系，因此，为了使得在用户针对单个数据例如数据表查看血缘关系时，可以实现一次性展开该数据的完整血缘关系图，在本实施例中可以在图形数据库中构建血缘关系图(如图1中的血缘关系图所示)。

其中，在对某个数据的血缘关系图进行搜索时，可以根据数据的标识和索引关系确定数据的存储位置。索引关系可以是在图形数据库中建立的。

血缘关系图(血缘树)中包括数据节点和带有箭头的边，数据节点表征数据，带有箭头的边表示其连接的两个数据节点之间的依赖关系，箭头方向表示数据流向，箭头所指向的数据节点可以作为子数据节点，箭头所远离的数据节点可以作为父数据节点，例如血缘关系图中A→B，则数据节点A为父数据节点，数据节点B为子数据节点。

需要说明的是，实现本申请实施例所提供方法的系统框架可以通过SpringBoot(是一种开源应用框架)、MyBatis(是一种持久层框架)、Neo4J来搭建。

由上述技术方案可以看出，本申请基于多维度的数据源进行构建血缘关系，从而实现数据管理，多维度的数据源例如第一数据源和第二数据源，获取来自第一数据源和第二数据源的数据信息，数据信息体现了数据之间的依赖关系。然后，基于第一数据源中数据信息得到的数据之间的依赖关系确定数据之间的第一血缘关系，以及基于第二数据源中数据信息得到的数据之间的依赖关系确定数据之间的第二血缘关系。由于不同数据源中的数据具有不同的特点，不同数据源中所缺失的数据间的依赖关系完全相同几率较小，故将第一血缘关系与第二血缘关系进行拼接得到的目标血缘关系可以弥补基于单个数据源确定血缘关系的不足，从而能够确定出较为完整的血缘关系。之后，利用目标血缘关系在图形数据库中构建血缘关系图，得到的血缘关系图能够完整的体现数据之间的依赖关系，以便对数据进行全面管理。同时，由于图像数据库的特性，针对单个数据查看血缘关系时，可以实现一次性展开该数据的完整的血缘关系图，大幅度提升用户寻找数据的效率，免去从前繁琐的过程。

需要说明的是，在海量数据中有些数据可能是经常被使用的、具有较高价值的数据，而有些数据可能是很久没有使用的、价值较低的数据，对于很久没有使用的、价值较低的数据，为了降低数据维护成本，可以将这些数据优化删除。因此，为了使得用户可以直观的感受到数据的价值，以确定哪些数据可能需要被优化删除，在本实施例中，血缘关系图中还可以包括体现数据价值的信息。

由于热度信息可以反映血缘关系图中数据节点所表征数据的数据活跃程度，数据活跃程度越高表示数据可能经常被使用，其价值越高，因此，在一种可能的实现方式中体现数据价值的信息可以是热度信息，即血缘关系图中还包括数据节点的热度信息。其中，热度信息也可以是在图形数据库中计算得到的。

由于血缘关系图中数据节点之间具有依赖关系，因此在计算每个数据节点的热度信息时，还需考虑数据节点之间的依赖关系对热度信息的影响。通常情况下，子数据节点的热度信息将会影响父数据节点的热度信息，因此，在一种可能的实现方式中，针对血缘关系图中任一数据节点例如目标数据节点，若目标数据节点为血缘关系图中的父数据节点，目标数据节点的热度信息确定方式可以是服务器根据目标数据节点所表征数据的属性信息计算初始热度，初始热度可以体现目标数据节点独立的热度信息。然而在血缘关系图中，目标数据节点的热度会受到其子数据节点热度的影响，其子数据节点的热度可以增加目标数据节点的热度。为此，服务器进一步根据初始热度、目标数据节点的子数据节点的热度信息以及目标数据节点与子数据节点之间的关系传递比例计算目标数据节点的热度信息。此时，目标数据节点的热度信息可以是递归热度。

另外，本申请实施例提供的方法可以辅助用户找出没有配置的依赖关系，通过查看数据血缘关系图可以有效避免用户的配置疏忽，防范在作业运行时读取了一个空数据导致作业失败等情况。

在本申请实施例中，计算初始热度时所使用的数据的属性信息可以包括目标数据节点所表征数据的总访问量、最近访问时间、创建时间、当前时间等信息。初始热度的计算公式可以是：

Heat＝{total*(latest()-create())/(datetime()-create())}(1)

其中，Heat表示目标数据节点的初始热度，total表示目标数据节点所表征数据的总访问量，latest()表示目标数据节点所表征数据的最近访问时间，create()表示目标数据节点所表征数据的创建时间，datetime()表示当前时间。

目标数据节点的热度信息的计算公式可以表示为：

其中，Father.heat表示目标数据节点所表征数据的递归热度，Heat表示目标数据节点的初始热度，Z表示预定衰减比例，Zε(0,1]，son_i.heat表示目标数据节点对应的第i个子数据节点的热度信息，n表示子数据节点的个数，job_i.rate表示目标数据节点与第i个子数据节点之间的关系传递比例。

在一种可能的实现方式中，job_i.rate的计算公式可以表示为：

job_i.rate＝Z*job_i.times/son_i.all_in_degree (3)

job_i.rate表示目标数据节点与第i个子数据节点之间的关系传递比例，Z表示预定衰减比例，Zε(0,1]，job_i.times表示目标数据节点与第i个子数据节点之间依赖关系的单位时间访问次数，son_i.all_in_degree表示第i个子数据节点所有入度依赖关系单位时间访问次数之和。

例如图3所示，当计算目标数据节点的热度信息时，该目标数据节点可以作为父数据节点，其具有两个子数据节点，分别是子数据节点1和子数据节点2，则目标数据节点的热度信息可以根据子数据节点1和子数据节点2的热度信息进行计算。在公式(3)中，若job_i.rate表示的是目标数据节点与子数据节点1之间的关系传递比例，则job_i.times表示的是目标数据节点与子数据节点1之间的依赖关系的单位时间访问次数，son_i.all_in_degree表示子数据节点1所有入度依赖关系单位时间访问次数之和(即图3中指向子数据节点1的所有带有箭头的边表征的依赖关系单位时间访问次数之和)。

若目标数据节点不会作为父数据节点，则目标数据节点的热度信息可以是通过上述公式(1)计算得到的初始热度。

应理解，本申请实施例通过构建血缘关系图，可以实现对数据进行管理。对数据进行的管理可以包括优化数据，例如删除已经没有价值的数据，从而降低数据维护成本。为此，在本实施例中，还可以确定待删除数据节点集合，以便给出存储优化建议。

由于数据是否有价值可以通过数据节点的热度信息体现，另外数据的大小对数据的价值也有重要影响，数据的大小如果非常小，则该数据可能是没有价值的数据，例如一个数据的大小只有1B，则该数据可能是没有价值的数据。因此，在一种可能的实现方式中，服务器可以根据数据节点的热度信息和数据节点所表征数据的大小，确定待删除数据节点集合。

其中，热度信息和数据大小对数据价值影响程度不同，可以通过设置权重来体现热度信息和数据大小对数据价值的影响程度。例如可以设置热度信息的权重为95％，数据带下的权重为5％，计算数据节点的待删除级别，若数据节点的待删除级别大于预设阈值，则会建议优化删除该数据节点，该数据节点属于待删除数据节点集合。

需要说明的是，在实际应用场景中通常需要完成各种业务例如浏览器业务，而业务又可以划分成不同的应用组，例如浏览器业务可以划分为小说模块、搜索功能等，而在某个应用组下则需要通过作业流完成一件事例如进行搜索词分析，作业流中包括多个作业，数据之间的依赖关系通过作业产生。基于业务、应用组、作业流、作业之间的关系，可以在图形数据库中构建图4所示的索引树，索引树可以体现某一业务包括哪些应用组，某个应用组包括哪些作业流或作业，某个作业流包括哪些作业等。

在这种情况下，可以基于数据的血缘关系图自下而上逐层聚合数据节点构建更上层的血缘关系图，从而实现构建不同粒度的血缘关系图。具体的，服务器可以根据图2实施例得到的血缘关系图中数据节点所表征数据的类型，对属于同一类型的数据节点进行聚合得到数据节点集合，该数据节点集合可以作为更粗粒度的血缘关系图的数据节点。这样，服务器根据聚合前数据节点之间的目标血缘关系可以确定聚合后的数据节点集合之间的血缘关系图。此时得到的可以是作业流层的血缘关系图，其中，数据节点表征作业。

以此类推，在作业流层的血缘关系图的基础上进行数据节点聚合，可以得到应用组层的血缘关系图，其中，数据节点表征作业流。进一步的，在应用组层的血缘关系图的基础上进行数据节点聚合，可以得到业务层的血缘关系图，其中，数据节点表征应用组。

由此可见，通过上述数据节点逐层聚合，可以构建不同粒度的血缘关系图，从而方便用户从不同粒度进行血缘关系图查看。

在构建出血缘关系图后，用户可能会对血缘关系图进行查看，用户可以根据显示的血缘关系图对数据进行分析、存储优化等。接下来，将以服务器中构建并在其图形数据库中存储血缘关系图为例，结合附图对本申请实施例提供的血缘关系显示方法进行介绍。

参见图5，图5示出了一种血缘关系显示方法的流程图，所述方法包括：

S501、终端设备发送针对待查询数据的血缘关系查询请求。

当用户需要对某个数据进行查询时，用户可以通过终端设备触发血缘关系查询请求。其中，血缘关系查询请求中可以包括待查询数据的目标标识，目标标识可以是身份标识(Identification，ID)，例如可以数字、符号等唯一标识待查询数据身份的标识。

可以理解的是，用户可以通过终端设备上图6所示的用户界面触发血缘关系查询请求。在该用户界面上，用户触发生成血缘关系查询请求的方式可以包括多种，第一种方式是用户输入字符串，从而触发血缘关系查询请求。参见图7所示，图7示出了用户查看血缘关系图的交互流程图，用户输入的字符串可以包括多种形式，参见图6中601所示，当601对应位置显示的是ID时，则用户输入的字符串是数据的ID(对应S701)，当用户点击602所示的功能键时，触发生成血缘关系查询请求；若经过用户选择，在601对应位置显示的是名称时，则用户输入的字符串是数据的名称(对应S702)，当用户点击602所示的功能键时，向用户展示所有同名称的数据的属性信息，进而使得用户可以根据属性信息选择待查询数据(对应S703)，进而触发根据该数据的ID生成血缘关系查询请求。其中，属性信息除了包括数据的总访问量、最近访问时间、创建时间、当前时间等信息，还可以包括数据的大小、数据的所有者、创建者等信息。

当然，也可以通过图6所示的用户界面直接针对应用组进行搜索，例如输入应用组ID，点击“搜索”，得到该应用组的血缘关系图。

若当用户进入图6所示的用户界面，默认展示给用户的是业务层的血缘关系图，则用户可以在业务层的血缘关系图中选择业务(对应S704)。用户对选择的业务进行触发操作例如双击操作，得到应用组层的血缘关系图，用户可以在应用组层的血缘关系图中选择应用组(对应S705)。用户对选择的应用组进行触发操作例如双击操作，得到作业流层的血缘关系图，用户可以在作业流层的血缘关系图中选择作业(对应S706)。用户对选择的作业进行触发操作例如双击操作，最后在多个数据中选择待查询数据(S707)。用户对待查询数据进行触发操作例如双击操作，生成血缘关系查询请求。

S502、服务器根据所述目标标识确定所述待查询数据的血缘关系图。

服务器在接收到血缘关系查询请求后，可以从中提取出待查询数据的目标标识，并根据该目标标识确定出待查询数据的血缘关系图。所述血缘关系图是根据图2所对应的实施例的方法构建的。

其中，服务器中存储有索引关系，索引关系可以体现数据的标识与数据的存储位置之间的对应关系，服务器可以根据索引关系和目标标识确定出待查询数据的存储位置，进而得到待查询数据完整的血缘关系图。

S503、服务器向终端设备发送所述待查询数据的血缘关系图。

S504、终端设备显示所述待查询数据的血缘关系图。

终端设备接收到服务器发送的待查询数据的血缘关系图后，可以将该血缘关系图向用户显示(对应S708)。

其中，终端设备显示血缘关系图的系统框架可以通过Vue.js(用于构建用户界面的渐进式JavaScript框架)、element UI(是一种桌面端组件库)、d3.js(JavaScript格式的被数据驱动的文档)来搭建，使用可缩放矢量图形(Scalable Vector Graphics，SVG)绘制血缘关系图能够满足完整血缘关系展示，绘制渲染时间在1～7s内，能够满足用户的基本需求。

需要说明的是，为了使得用户可以了解到数据的价值，以确定哪些数据可能需要被优化删除，在本实施例中，血缘关系图中还可以包括体现数据价值的信息，例如热度信息和数据大小。在一种可能的实现方式中，为了使得用户可以更加直观的了解数据的价值，血缘关系图中可以通过数据节点的颜色表示数据节点的热度信息，通过数据节点的大小表示数据节点所对应数据的大小；所述热度信息反映了所述血缘关系图中数据节点所表征数据的数据活跃程度。

显示的待查询数据的血缘关系图可以参见图8所示，其中，数据节点的颜色越深表示其对应的数据热度越高，数据的价值可能越大；数据节点越大，表示其对应数据可能价值越大。

在一些情况下，血缘关系图中所体现的从一个数据得到另一个数据的血缘关系可能包括多种，有些血缘关系中数据节点的热度可能都比较高，这些血缘关系体现的是数据之间较为常用的依赖关系，可以称为关键血缘关系。而有些血缘关系中数据节点的热度可能比较低，这些血缘关系体现的是数据之间较为少用的依赖关系。在这种情况下，终端设备在展示待查询数据的血缘关系图后，若用户希望查看某个数据节点例如第一数据节点与待查询数据节点之间的关键血缘关系，用户可以针对第一数据节点执行第一触发操作，终端设备响应于针对第一数据节点的第一触发操作，根据第一数据节点与待查询数据节点之间所有数据节点的热度信息，显示第一数据节点与待查询数据节点之间关键血缘关系(对应S709)，第一数据节点为除所述待查询数据节点之外的其他节点，待查询数据节点为表征待查询数据的数据节点。

其中，关键血缘关系可以进行高亮显示，使得用户可以清楚的看到两个数据节点之间的关键血缘关系。

第一触发操作可以是任意操作，例如在数据节点上悬停、单击或双击数据节点等操作。

由于服务器中存储了反映所有数据之间依赖关系的血缘关系图，而针对待查询数据进行查询时，展示的血缘关系图反映的与待查询数据具有依赖关系的完整的血缘关系图，对于与待查询数据无依赖关系数据的血缘关系则不会展示。因此，在本实施例中，在终端设备展示待查询数据的血缘关系图后，还可以在该血缘关系图的基础上，根据用户的需求进一步显示其他血缘关系图。

在待查询数据的血缘关系图基础上，当用户希望进一步查看该血缘关系图中某个对象例如目标对象的血缘关系图时，用户可以对该目标对象执行第二触发操作，终端设备获取针对目标对象的第二触发操作，从而根据第二触发操作生成针对目标对象的血缘关系查询请求，以便根据该血缘关系查询请求查看目标对象的血缘关系图(对应S710)。

其中，目标对象可以为血缘关系图中的数据节点或数据节点之间的边。第二触发操作可以是悬停、单击、双击等操作。参见图8所示，当用户双击某个数据节点时，终端设备展示该数据节点所表征数据的完整血缘关系图；当用户双击某个边时，终端设备展示该边所表征作业的血缘关系图。

另外，在待查询数据的血缘关系图基础上，用户还可以通过对目标对象执行第三触发操作，查看目标对象的属性信息(对应S711)。其中，第三触发操作可以是悬停、单击、双击等操作。参见图8所示，当用户单击某个数据节点时，终端设备展示该数据节点所表征数据的属性信息；当用户单击某个边时，终端设备展示该边所表征作业的属性信息。

在本申请实施例中，为了对用户的触发操作进行区分，以便可以根据触发操作知晓用户的需求，正确的展示用户所需的内容(例如关键血缘关系、属性信息、血缘关系图)，第一触发操作、第二触发操作和第三触发操作互不相同，例如第一触发操作为悬停、第二触发操作为双击、第三触发操作为单击等。

在一种可能的实现方式中，为了实现对数据的优化管理，终端设备在显示待查询数据的血缘关系图的同时，还可以显示血缘关系图中待删除数据节点集合。待删除数据节点集合是根据数据节点的热度信息和数据节点所表征数据的大小确定的，例如可以设置热度信息的权重为95％，数据带下的权重为5％，计算数据节点的待删除级别，若数据节点的待删除级别大于预设阈值，则会建议优化删除该数据节点，该数据节点属于待删除数据节点集合。

具体的，该待删除数据节点集合可以以排行榜的形式进行展示，从而给出优化建议。例如图6所示，其对待删除数据节点集合中的各个数据节点所表征数据进行排序展示，其中，排行榜中每一行中数字表示的是排序号，排序号后边的为数据的名称，数据节点的待删除级别越高，则其对应的数据在排行榜中的排序号越靠前。

用户根据给出的优化建议，可以进行数据存储优化。可见，本申请实施例提供的方法可以辅助用户进行优化管理，在数据管理等方面都有一定的实际应用场景。

在一种可能的实现方式中，由于血缘关系图中所包括的数据量可能比较大，为了在一定程度上提高血缘关系图的查询效率，当通过一次查询得到某个血缘关系图后，可以缓存该血缘关系图，从而在下一次查询该血缘关系图时，可以直接从缓存中查询到该血缘关系图，提高查询效率。在一些情况下，查询效率可以提升10-400倍。其中，缓存血缘关系图可以通过ehcache实现，ehcache是一种缓存框架，具有快速、精干等特点。

接下来，将结合实际应用场景对本申请实施例提供的数据管理方法进行介绍。在该应用场景中数据以数据表的形式进行存储，以数据表为最小粒度构建血缘关系图，并且根据血缘关系图实现优化管理。其所采用的系统框架可以参见图9所示，其数据管理流程可以参见图10所示：

S1001、从日志数据901和SQL执行记录中采集数据信息。

S1002、对来自日志数据901的数据信息进行表名解析得到HIVE表903，对来自SQL执行记录的数据信息进行SQL解析，得到HIVE表903。

S1003、将HIVE表903导入至MySQL 904中。

S1004、MySQL 904中的数据导入至Neo4J 905中。

S1005、在Neo4J 905中确定目标血缘关系和热度信息计算。

S1006、在Neo4J 905中存储根据目标血缘关系构建的血缘关系图和热度信息。

S1007、通过ehcache 906缓存血缘关系图。

S1008、当对某个数据表进行查询时，在终端设备的显示界面907上显示查询到的血缘关系图、热度信息及属性信息。

基于前述实施例提供的数据管理方法，本申请实施例还提供一种数据管理装置，参见图11a，所述装置包括获取单元1101、第一确定单元1102、拼接单元1103和构建单元1104：

所述获取单元1101，用于获取来自第一数据源和第二数据源的数据信息；所述数据信息体现了数据之间的依赖关系；

所述第一确定单元1102，用于基于所述第一数据源中数据信息得到的数据之间的依赖关系确定数据之间的第一血缘关系，以及基于所述第二数据源中数据信息得到的数据之间的依赖关系确定数据之间的第二血缘关系；

所述拼接单元1103，用于将所述第一血缘关系和所述第二血缘关系进行拼接得到目标血缘关系；

所述构建单元1104，用于利用所述目标血缘关系在图形数据库中构建血缘关系图。

在一种可能的实现方式中，所述拼接单元1103，用于：

确定所述第一血缘关系和所述第二血缘关系之间具有的相同子血缘关系和不同子血缘关系；

将所述相同子血缘关系和所述不同子血缘关系进行拼接得到所述目标血缘关系。

在一种可能的实现方式中，所述血缘关系图中还包括数据节点的热度信息，所述热度信息反映了所述血缘关系图中数据节点所表征数据的数据活跃程度。

在一种可能的实现方式中，目标数据节点为所述血缘关系图中任一数据节点，若所述目标数据节点为血缘关系图中的父数据节点，所述目标数据节点的热度信息确定方式为：

根据所述目标数据节点所表征数据的属性信息计算初始热度；

根据所述初始热度、所述目标数据节点的子数据节点的热度信息以及所述目标数据节点与所述子数据节点之间的关系传递比例计算所述目标数据节点的热度信息。

在一种可能的实现方式中，参见图11b，所述装置还包括第二确定单元1105：

所述第二确定单元1105，用于根据所述数据节点的热度信息和所述数据节点所表征数据的大小，确定待删除数据节点集合。

在一种可能的实现方式中，参见图11c，所述装置还包括聚合单元1106和第三确定单元1107：

所述聚合单元1106，用于根据所述血缘关系图中数据节点所表征数据的类型，对属于同一类型的数据节点进行聚合得到数据节点集合；

所述第三确定单元1107，用于根据聚合前数据节点之间的目标血缘关系确定聚合后的数据节点集合之间的血缘关系图。

基于前述实施例提供的血缘关系显示方法，本申请实施例还提供一种血缘关系显示装置，参见图12a，所述装置包括发送单元1201和显示单元1202：

所述发送单元1201，用于发送针对待查询数据的血缘关系查询请求，所述血缘关系查询请求中包括所述待查询数据的目标标识；

所述显示单元1202，用于显示所述待查询数据的血缘关系图；所述血缘关系图是服务器根据所述目标标识确定的，所述血缘关系图是根据图2对应实施例中任一项所述的方法构建的。

在一种可能的实现方式中，所述血缘关系图中通过数据节点的颜色表示数据节点的热度信息，通过数据节点的大小表示数据节点所对应数据的大小；所述热度信息反映了所述血缘关系图中数据节点所表征数据的数据活跃程度。

在一种可能的实现方式中，所述显示单元1202还用于：

响应于针对第一数据节点的第一触发操作，根据所述第一数据节点与待查询数据节点之间所有数据节点的热度信息，显示所述第一数据节点与所述待查询数据节点之间关键血缘关系，所述第一数据节点为除所述待查询数据节点之外的其他节点，所述待查询数据节点为表征所述待查询数据的数据节点。

在一种可能的实现方式中，参见图12b，所述装置还包括获取单元1203和生成单元1204：

所述获取单元1203，用于获取针对目标对象的第二触发操作；

所述生成单元1204，用于根据所述第二触发操作生成针对所述目标对象的血缘关系查询请求。

在一种可能的实现方式中，所述目标对象为所述血缘关系图中的数据节点或数据节点之间的边。

在一种可能的实现方式中，所述显示单元1202还用于：

显示所述待查询数据的血缘关系图和所述血缘关系图中待删除数据节点集合。

本申请实施例还提供了一种设备，下面结合附图对该设备进行介绍。请参见图13所示，本申请实施例提供了一种设备1300，该设备1300可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图13示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图13，手机包括：射频(Radio Frequency，简称RF)电路1310、存储器1320、输入单元1330、显示单元1340、传感器1350、音频电路1360、无线保真(wireless fidelity，简称WiFi)模块1370、处理器1380、以及电源1390等部件。本领域技术人员可以理解，图13中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图13对手机的各个构成部件进行具体的介绍：

RF电路1310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1380处理；另外，将设计上行的数据发送给基站。通常，RF电路1310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1320可用于存储软件程序以及模块，处理器1380通过运行存储在存储器1320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1330可包括触控面板1331以及其他输入设备1332。触控面板1331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1331上或在触控面板1331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1380，并能接收处理器1380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1331。除了触控面板1331，输入单元1330还可以包括其他输入设备1332。具体地，其他输入设备1332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1340可包括显示面板1341，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1341。进一步的，触控面板1331可覆盖显示面板1341，当触控面板1331检测到在其上或附近的触摸操作后，传送给处理器1380以确定触摸事件的类型，随后处理器1380根据触摸事件的类型在显示面板1341上提供相应的视觉输出。虽然在图13中，触控面板1331与显示面板1341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1331与显示面板1341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1360、扬声器1361，传声器1362可提供用户与手机之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号，传输到扬声器1361，由扬声器1361转换为声音信号输出；另一方面，传声器1362将收集的声音信号转换为电信号，由音频电路1360接收后转换为音频数据，再将音频数据输出处理器1380处理后，经RF电路1310以发送给比如另一手机，或者将音频数据输出至存储器1320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块1370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1320内的软件程序和/或模块，以及调用存储在存储器1320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1380可包括一个或多个处理单元；优选的，处理器1380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1380中。

手机还包括给各个部件供电的电源1390(比如电池)，优选的，电源可以通过电源管理系统与处理器1380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器1380还具有以下功能：

利用所述目标血缘关系在图形数据库中构建血缘关系图。

或，

显示所述待查询数据的血缘关系图；所述血缘关系图是服务器根据所述目标标识确定的，所述血缘关系图是根据图2对应实施例中任一项所述的方法构建的。

本申请实施例提供的用于图像处理设备可以是服务器，请参见图14所示，图14为本申请实施例提供的服务器1400的结构图，服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

利用所述目标血缘关系在图形数据库中构建血缘关系图。

本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述实施例所述的方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种数据管理方法，其特征在于，所述方法包括：

利用所述目标血缘关系在图形数据库中构建血缘关系图。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一血缘关系和所述第二血缘关系进行拼接得到目标血缘关系，包括：

3.根据权利要求1所述的方法，其特征在于，所述血缘关系图中还包括数据节点的热度信息，所述热度信息反映了所述血缘关系图中数据节点所表征数据的数据活跃程度。

4.根据权利要求3所述的方法，其特征在于，目标数据节点为所述血缘关系图中任一数据节点，若所述目标数据节点为血缘关系图中的父数据节点，所述目标数据节点的热度信息确定方式为：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据所述数据节点的热度信息和所述数据节点所表征数据的大小，确定待删除数据节点集合。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述血缘关系图中数据节点所表征数据的类型，对属于同一类型的数据节点进行聚合得到数据节点集合；

根据聚合前数据节点之间的目标血缘关系确定聚合后的数据节点集合之间的血缘关系图。

7.一种数据管理装置，其特征在于，所述装置包括获取单元、第一确定单元、拼接单元和构建单元：

8.一种血缘关系显示方法，其特征在于，所述方法包括：

显示所述待查询数据的血缘关系图；所述血缘关系图是服务器根据所述目标标识确定的，所述血缘关系图是根据权利要求1-6任一项所述的方法构建的。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.根据权利要求8所述的方法，其特征在于，在所述根据所述目标标识显示所述待查询数据的血缘关系图后，所述方法还包括：

获取针对目标对象的第二触发操作；

根据所述第二触发操作生成针对所述目标对象的血缘关系查询请求。

11.根据权利要求10所述的方法，其特征在于，所述目标对象为所述血缘关系图中的数据节点或数据节点之间的边。

12.根据权利要求8所述的方法，其特征在于，所述显示所述待查询数据的血缘关系图，包括：

13.一种血缘关系显示装置，其特征在于，所述装置包括发送单元和显示单元：

所述显示单元，用于显示所述待查询数据的血缘关系图；所述血缘关系图是服务器根据所述目标标识确定的，所述血缘关系图是根据权利要求1-6任一项所述的方法构建的。

14.一种设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-6或8-12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-6或8-12任一项所述的方法。