CN111008192A

CN111008192A - 一种数据管理方法、装置、设备及介质

Info

Publication number: CN111008192A
Application number: CN201911114575.5A
Authority: CN
Inventors: 杨君
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-04-14
Anticipated expiration: 2039-11-14
Also published as: CN111008192B

Abstract

本发明关于一种数据管理方法、装置、设备及介质，用以提升数据血缘关系数据库中的数据质量。所述数据管理方法，包括：统计所述分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数；确定使用所述目标字段的字段值的任务列表，统计所述任务列表中的任务数量和最短任务时限；基于所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限，确定所述目标字段的质量评分；在确定所述目标字段的质量评分小于预设评分阈值时，将所述目标字段移出所述分布式数据血缘关系数据库。

Description

一种数据管理方法、装置、设备及介质

技术领域

本发明涉及信息技术领域，尤其涉及一种数据管理方法、装置、设备及介质。

背景技术

随着大数据时代的到来，企业生产经营相关的数据规模日益膨胀，运用数据仓库管理业务数据也日趋流行，相关技术逐渐成熟复杂。数据血缘描述的是数据产生来源的路径，是指在完成某项数据调用业务的过程中，涉及到的数据进入不同的数据库系统或者文件等存储设备，于是这些存储下的数据之间就具有数据血缘关系。

目前，企业数据血缘关系数据库中，存储有大量由萃取、转置、加载(extracttransform load，ETL)操作，衍生出大量数据表，如果管理缺失或维护不及时，都会造成数据关系不准确，难以提升数据血缘关系数据库中的数据质量或数据价值。

发明内容

本发明提供一种数据管理方法、装置、设备及介质，用以提升数据血缘关系数据库中的数据质量。

第一方面，本发明实施例提供一种数据管理方法，应用于分布式数据血缘关系数据库，包括：

统计分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数；

确定使用目标字段的字段值的任务列表，统计任务列表中的任务数量和最短任务时限；

基于历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限，确定目标字段的质量评分；

在确定目标字段的质量评分小于预设评分阈值时，将目标字段移出分布式数据血缘关系数据库。

在一种可能的实施方式中，本发明实施例提供的上述数据管理方法，还包括：

分别为历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限设置权重系数；

将历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限中每个与对应的权重系数的乘积之和作为目标字段的质量评分。

提取分布式数据血缘关系数据库中任一目标数据血缘关系表中衍生数据表标识、历史萃取、转置、加载ETL操作、底层数据源标识、数据表字段操作记录，目标数据血缘关系表为数据表字段操作记录中含有目标字段的数据血缘关系表中的任一个；

根据底层数据源标识对应的目标数据表、历史ETL操作，生成校验数据；

逐条确定校验数据与衍生数据表标识对应的目标衍生数据表中目标字段的字段值的一致性；

计算校验数据与目标衍生数据表中目标字段的字段值一致的数量与校验数据总数量的比值。

在确定比值小于预设比例阈值时，删除目标衍生数据表。

确定将删除的目标衍生数据表录入分布式数据血缘关系数据库的节点设备；

确定由节点设备录入分布式数据血缘关系数据库的衍生数据表中，被删除的数量大于预设数量阈值时，拒绝节点设备向分布式数据血缘关系数据库录入数据表。

在目标字段录入分布式数据血缘关系数据库中的时长超过预先设置的生命周期阈值、且目标字段在预设更新周期内的更新速度为零时，生成含有目标字段的数据生命周期管理报告。

第二方面，本发明实施例提供一种数据管理装置，应用于分布式数据血缘关系数据库，包括：

统计单元，用于统计分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数；

第一确定单元，用于确定使用目标字段的字段值的任务列表，统计任务列表中的任务数量和最短任务时限；

第一计算单元，用于基于历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限，确定目标字段的质量评分；

处理单元，用于在确定目标字段的质量评分小于预设评分阈值时，将目标字段移出分布式数据血缘关系数据库。

在一种可能的实施方式中，本发明实施例提供的上述数据管理装置中，第一计算单元，具体用于：

在一种可能的实施方式中，本发明实施例提供的上述数据管理装置，还包括：

提取单元，用于提取分布式数据血缘关系数据库中任一目标数据血缘关系表中衍生数据表标识、历史萃取、转置、加载ETL操作、底层数据源标识、数据表字段操作记录，目标数据血缘关系表为数据表字段操作记录中含有目标字段的数据血缘关系表中的任一个；

校验单元，用于根据底层数据源标识对应的目标数据表、历史ETL操作，生成校验数据；

第二确定单元，还用于逐条确定校验数据与衍生数据表标识对应的目标衍生数据表中目标字段的字段值的一致性；

第二计算单元，还用于计算校验数据与目标衍生数据表中目标字段的字段值一致的数量与校验数据总数量的比值。

删除单元，用于在确定比值小于预设比例阈值时，删除目标衍生数据表。

第三确定单元，还用于确定将删除的目标衍生数据表录入分布式数据血缘关系数据库的节点设备；

控制单元，用于确定由节点设备录入分布式数据血缘关系数据库的衍生数据表中，被删除的数量大于预设数量阈值时，拒绝节点设备向分布式数据血缘关系数据库录入数据表。

报告单元，用于在目标字段录入分布式数据血缘关系数据库中的时长超过预先设置的生命周期阈值、且目标字段在预设更新周期内的更新速度为零时，生成含有目标字段的数据生命周期管理报告。

第三方面，本发明实施例提供一种数据管理设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现第一方面中任一项的数据管理方法。

第四方面，本发明实施例提供一种计算机可读存储介质，当存储介质中的指令由数据管理设备的执行器执行时，使得数据管理电子设备能够执行第一方面中任一项的数据管理方法。

本发明的实施例提供的技术方案至少带来以下有益效果：

统计分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数，确定使用目标字段的字段值的任务列表，统计任务列表中的任务数量和最短任务时限，基于历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限，确定目标字段的质量评分，在确定目标字段的质量评分小于预设评分阈值时，将目标字段移出分布式数据血缘关系数据库。从数据库和使用数据库的任务两方面，根据目标字段的历史调用次数、更新速度、预设时长内的调用次数、任务数量和最短任务时限，进行多维度数据质量评分，并从数据血缘关系数据库中移出质量评分低于预设评分阈值的目标字段，实现提升数据血缘关系数据库中的数据质量或数据价值，同时实现及时管理和维护数据血缘关系数据库。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理，并不构成对本发明的不当限定。

图1是根据一示例性实施例示出的数据血缘关系示意图。

图2是根据一示例性实施例示出的一种数据管理方法的示意图。

图3是根据一示例性实施例示出的另一数据管理方法的示意图。

图4是根据一示例性实施例示出的一种数据管理装置的结构示意图。

图5是根据一示例性实施例示出的一种数据管理设备的结构示意图。

图6是根据一示例性实施例示出的另一数据管理设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本发明的技术方案，下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

目前，企业的数据血缘关系数据库中，存储有大量由萃取、转置、加载(extracttransform load，ETL)操作，衍生出大量数据表，如图1所示，图1示出了源数据库与数据库1-7之间的数据血缘关系，例如数据库7中的表7是通过数据库6中的表6和数据库3中的表3经过ETL操作衍生出的数据表，若数据库3中的表3中数据为错误数据，或者数据质量过低，会直接影响数据库7中表7的准确性和数据质量。

现有技术管理数据血缘关系有三种方式。

第一种方式是依靠人工梳理，或根据系统设计时留存的文档得到，需要花费大量的人工成本，并且后期在维护数据血缘关系时效果不理想。

第二种方式是利用抽象语法树技术静态的扫描系统代码(如java工程代码)，根据代码逻辑进行数据链路梳理，得到数据血缘关系，由于依赖于工作代码，受到系统代码风格差异等因素影响，实施时约束条件过多，通用难度较大。

第三种方式，对于具有字段中具有显著数据特征的数据库，根据字段分布信息与其他数据表(或数据库)中的一个或多个字段的数据分布信息进行比较，但该方法对于相似分布的字段组(如均值、方差等用于辨别的特征统计量相似)判别准确性较差，且依赖数据具备显著统计特征这一条件，在大规模数据库中应用价值有限。也因此导致，在使用数据血缘关系数据库中记录的数据时，存在数据不准确，数据质量不高等问题。

在使用数据血缘关系数据库中的数据时，数据质量或数据价值对能够实现数据的目的，具有关键作用。影响数据质量或数据价值，有多方面因素，例如，数据准确性，数据产生时间等，因此，维护数据血缘关系数据库，对保障数据关系准确，提升数据质量具有重要作用。

图2根据一示例性实施例示出的一种数据管理方法示意流程图。如图2所示，本实施例提供的数据管理方法，可以包括以下步骤：

步骤S201，统计分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数。

具体实施时，可以根据分布式数据血缘关系数据库中的，全部数据血缘关系表中的数据表字段操作记录，统计数据表字段操作记录包含目标字段的总数，并确定为历史总调用次数。

更新速度为，预设时长内添加入分布式数据血缘关系数据库，且包含目标字段的底层数据表和衍生数据表总数，与预设时长内添加入分布式数据血缘关系数据库的底层数据表总数和衍生数据表总数的比值。

预设时长内调用次数为，在预设时长内被录入分布式数据血缘关系数据库的，全部数据血缘关系表中数据表字段操作记录，统计数据表字段操作记录包含目标字段的总数。

分布式数据血缘关系数据库可以由多个节点设备通过智能合约规定的录入规则，进入数据血缘关系数据库，录入数据血缘关系表和数据表(例如，底层数据表和衍生数据表)，也可以从数据血缘关系数据库中获得数据血缘关系表、底层数据表、衍生数据表、以及数据表中字段的字段值，还可以在各个节点设备之间进行登记信息广播，换句话说，节点设备具有向数据血缘关系数据库中录入的权限，各节点设备也可以独立备份数据血缘关系数据表和数据表(例如，底层数据表和衍生数据表)。

在数据血缘关系数据表中，包含衍生数据表标识、底层数据表标识、ETL操作、字段对应操作记录。

在底层数据表中，包含至少一个字段，以及至少一个字段值，例如，字段可以是“姓名”，字段值可以是“张三”、“李四”等，再例如，字段为“月薪”，字段值可以是“5000”、“7500”等，每一底层数据表有唯一底层数据表标识相对应。

在衍生数据表中，包含至少一个字段，以及至少一个字段值，衍生数据表可以是，由底层数据表进行ETL操作后生成的衍生数据表，也可以是由其他衍生数据表进行ETL操作后生成的衍生数据表，所进行ETL操作和使用的字段对应操作都被记录在数据血缘关系表中，每一衍生数据表有唯一衍生数据表标识相对应。

统计分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数时，可以统计所有包含目标字段的数据表中的历史总调用次数、更新速度、以及预设时长内的调用次数，也可以确定数据血缘关系数据库中的数据表均布不包含目标字段时，目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数为零。

任一目标字段可以是预先设定的字段，也可以是当前需要评价数据质量的字段。

步骤S202，确定使用目标字段的字段值的任务列表，统计任务列表中的任务数量和最短任务时限。

具体实施时，任务列表为使用分布式数据血缘关系数据库中目标字段的任务列表，在任务列表中记录有任务需要的字段中的字段值，以及处理任务时限，或者各任务开始及结束时间。

例如，多个任务需要相同字段中的字段值，例如，任务1需要字段为“年龄”中的字段值，任务5也需要字段为“年龄”中的字段值，确定使用目标字段的字段值的任务列表，例如，将全部使用字段“年龄”中的字段值的任务组成任务列表，统计任务列表中任务数量，也即任务列表中总数，任务数量，可反映出目标字段的重要程度，任务数量多的，可以反映出目标字段的重要程度为重要，反之，任务数量少的，可以反映出目标字段的重要程度为非重要。

比较任务列表中各任务的处理任务时限，将最小的处理时限确定为最短任务时限，例如，任务2的处理时限为3天，其他任务的处理时限均为5天，确定目标字段的最短任务时限为3天，也可以根据任务开始及结束时间确定任务的处理时限，例如，任务1的开始时间为8月1日，结束时间为8月7日，任务1的处理时限为7天，目标字段对应的最短任务时限，可以反映出目标字段的紧急程度，最短任务时限小的，可以反映出字段的紧急程度为紧急，反之，最短任务时限大的，可以反映出字段的紧急程度为非紧急。

步骤S203，基于历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限，确定目标字段的质量评分。

具体实施时，根据目标字段的历史总调用次数、预设时长内的调用次数、更新速度、任务数量以及最短任务时限，确定目标字段的质量评分，也可以根据目标字段的历史总调用次数、预设时长内的调用次数、更新速度、任务数量以及最短任务时限中的一种或者几种，确定目标字段的质量评分，时限从数据需求、业务支持、存量更新速度三个方面评价数据质量。

在一个示例中，可以分别为历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限设置权重系数；将历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限中每个与对应的权重系数的乘积之和作为目标字段的质量评分。

具体实施时，可以预先确定使用历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限一种或几种数据，确定目标字段的质量评分时的权重系数。例如，使用历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限的数据确定目标字段的质量评分时，可以设置权重系数分别为，0.15、0.15、0.2、0.3、0.2，再例如，使用历史总调用次数、预设时长内的调用次数、以及最短任务时限的数据确定目标字段的质量评分时，可以设置权重系数分别为，0.25、0.25、0.25、0.25，又例如，使用预设时长内的调用次数、以及任务数量的数据确定目标字段的质量评分时，可以设置权重系数分别为0.3、0.7，也即使用的数据种类数目和设置权重系数的数目是一致的。

具体实施时，可以对目标字段各类用于确定质量评分的数据进行归一化处理，例如将目标字段的历史总调用次数与全部字段的历史总调用次数的比值，作为目标字段的历史总调用次数，再将进行归一化处理后的历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限中每个与对应的权重系数的乘积之和作为目标字段的质量评分。

具体实施时，还可以对目标字段各类用于确定质量评分的数据进行统一定级处理，例如，字段的预设时长内的调用次数为“5000次-6700次”的预设时长内的调用次数均为3，再将进行统一定级处理后的历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限中每个与对应的权重系数的乘积之和作为目标字段的质量评分。

具体实施时，也可以，直接将历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限中每个与对应的权重系数的乘积之和作为目标字段的质量评分。例如，目标字段“姓名”的历史总调用次数为5000、预设时长内的调用次数为1200、更新速度为600、任务数量为500、以及最短任务时限为1.5天，设置的权重系数分别为0.2、0.15、0.25、0.2、0.2时，目标字段“姓名”的质量评分为1430.3(0.2×5000+0.15×1200+0.25×600+0.2×500+0.2×1.5＝1430.3)。

步骤S204，在确定目标字段的质量评分小于预设评分阈值时，将目标字段移出分布式数据血缘关系数据库。

具体实施时，将质量评分小于预设评分阈值的字段，从分布式数据血缘关系数据库中移出，或者移入低质量数据血缘关系数据库中，提升分布式数据血缘关系库中数据质量，实现管理和维护分布式数据血缘关系数据库。

根据实际应用场景，可以通过删除错误数据表的方式，提升分布式数据血缘关系数据库中的数据质量，维护数据血缘关系数据库。

在一个示例中，提取分布式数据血缘关系数据库中任一目标数据血缘关系表中衍生数据表标识、历史萃取、转置、加载ETL操作、底层数据源标识、数据表字段操作记录，目标数据血缘关系表为数据表字段操作记录中含有目标字段的数据血缘关系表中的任一个；根据底层数据源标识对应的目标数据表、历史ETL操作，生成校验数据；逐条确定校验数据与衍生数据表标识对应的目标衍生数据表中目标字段的字段值的一致性；计算校验数据与目标衍生数据表中目标字段的字段值一致的数量与校验数据总数量的比值。

具体实施时，提取由多个节点设备录入的任一数据表字段操作记录中含有目标字段的数据血缘关系表中的衍生数据表标识、历史ETL操作、底层数据源标识、数据表字段操作记录，所提取的数据血缘关系表为目标数据血缘关系数据表，可以根据底层数据源标识，可以确定对应的底层数据表(目标数据表)，结合历史ETL操作，生成校验数据，校验数据可以是校验数据表，在目标数据血缘关系数据表没有错误时且衍生数据标识对应的衍生数据表没有错误的字段值时，生成的校验数据或校验数据表和衍生数据表是对应的衍生数据表中目标字段的字段值为完全相同的。

生成校验数据后，逐条确定校验数据是否与衍生数据表标识对应的目标衍生数据表中的目标字段的字段值相同(一致)，若相同，目标衍生数据表该条目标字段的字段值为正确，若不同，目标衍生数据表该条目标字段的字段值为错误，并统计目标字段的字段值正确的条数，与校验数据总条数的比值，可以反映出录入目标字段的准确度或可用度。

根据实际应用场景，可以预设比例阈值，删除校验数据与目标衍生数据表中目标字段的字段值一致的数量与校验数据总数量的比值小于预设比例阈值的目标衍生数据表，也即删除的目标衍生数据表中关于目标字段的字段值存在一定数量的错误数据(字段值)。

具体实施时，还可以确定将删除的目标衍生数据表录入分布式数据血缘关系数据库的节点设备；确定由该节点设备录入分布式数据血缘关系数据库的衍生数据表中，被删除的数量大于预设数量阈值时，拒绝节点设备向分布式数据血缘关系数据库录入数据表。

具体实施时，确定各被删除的衍生数据表中的录入数据血缘关系库时的节点设备，在该节点设备录入的被删除的衍生数据表超过预设数量阈值时，可以认为该节点设备录入的数据表存在较大降低数据血缘关系数据库中数据质量的风险，可以拒绝该节点设备向分布式数据血缘关系数据库录入数据表。

当然，在本发明其它实施例中，也可以为该节点设备录入的数据表进行风险值标记，用于指示使用带有风险值标记的数据表进行任务时存在信任风险。

一种可能的实施方式中，在目标字段录入分布式数据血缘关系数据库中的时长超过预先设置的生命周期阈值、且目标字段在预设更新周期内的更新速度为零时，生成含有目标字段的数据生命周期管理报告。

具体实施时，为目标字段设置生命周期，从被录入分布式数据血缘关系数据库开始计算，并同时确定目标字段在预设更新周期内(例如，目标字段被录入开始的1年内、或者距离当前时间之前的2年内)的更新速度，在目标字段录入分布式血缘关系数据库中的时长超过预先设置的生命周期阈值，并且预设更新周期内的更速度为零时，生成含有目标字段的数据生命周期管理报告，可以以自动弹出的对话框的方式提醒管理者，还可以以下载生命周期管理报告的提示框的方式，提醒管理者下载，本发明对此不作过多限定。

图3根据一示例性实施例示出的一种数据管理方法示意流程图。如图3所示，本实施例提供的数据管理方法，可以包括以下步骤：

步骤S301，存储数据血缘关系表、底层数据表、衍生数据表。

具体实施时，可以通过多个节点设备将各数据表录入分布式数据血缘关系数据库，节点设备也可以具有采集并处理数据的功能，利用采集的数据，生成底层数据表，也可以进行ETL操作，生成衍生数据表，以及生成数据血缘关系表，或者生成新的数据库。

在生成数据表或新的数据库时，在数据血缘关系表中记录获得数据血缘关系数据库中数据表，并处理ETL任务过程中所形成的关系，包括数据表之间、数据表与操作记录之间、数据表字段之间的关系，形成数据血缘关系记录，并向数据血缘关系数据库录入衍生数据表标识、历史ETL操作、底层数据源表标识、字段对应操作记录。

节点设备由智能合约规定的录入规则下进入分布式数据血缘关系数据库，可以从数据血管关系数据库中获得数据库、数据表和相关字段的标识，并在各个节点之间进行登记信息广播，各节点设备可以独立备份和具有修改权限。

步骤S302，校验存入的数据血缘关系表及衍生数据表。

具体实施时，可以通过定期运行核对规则，基于数据血缘关系对应数据源字段，判断数据的一致性。具体来说，针对含有目标字段的数据表，首先调取数据血缘关系数据库中的数据血缘关系表中数据表字段操作记录中由目标字段的数据血缘关系表，并确定该条数据表字段操作记录对应的底层数据表标识、衍生数据表标识、历史ETL操作；其次通过试算，也即根据该条历史ETL操作和底层数据表标识对应的底层数据表，形成校验数据(标准数据)，并与该条衍生数据标识对应的衍生数据表，进行目标字段的字段值一致性校验，若衍生数据表中的字段值为错误，将其修改为校验数据的字段值，若衍生数据表中的字段值为空，将校验数据对应的字段值补入衍生数据表中，实现对已有的数据表进行校准和补齐。

例如，调取数据血缘关系表中数据字段操作记录中含有目标字段y的数据血缘关系表，并根据底层数据表标识和历史ETL操作，生成临时校验字段y'，对已有数据字段y进行定期校准和补齐。同时，对于存在错误的数据字段，计算误差数据比例e，并形成定期质量跟踪，检测数据治理情况。

需要说明的是，校验存入的数据血缘关系表及衍生数据表时，可按照一定时间周期进行校验，可以在节点设备向分布式数据血缘关系数据库中录入时，随机选取字段进行校验，可以随机选取数据血缘关系表中某条数据血缘关系，进行校验，用以提升分布式数据血缘关系数据库中数据的准确性或可信度。

步骤S303，统计目标字段历史总调用次数、预设时长内的调用次数、更新速度，并确定使用目标字段的字段值的任务列表，统计任务列表中的任务数量和最短任务时限。

具体实施时，获取预设时长(例如90个工作日)内，数据字段i的调用次数，包括通过所有ETL操作生成的衍生数据表，记录次数值，记为a，获得数据字段i的历史累计的调用次数值，记为b，根据预设次数分段，次数值为a的统计分位A，次数值为b的统计分位为B，确定目标字段的统计分位，可以记录数据字段i的统计分位Ai、Bi。

可以根据任务数量和最短任务时限，基于预设定值规则，确定数据字段i的统计分位为Ci。

统计更新速度时，可在每90个工作日中，计算数据字段的更新、增加比例，获得更新速度百分数，确定统计分位为Di。

步骤S304，基于历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限，确定目标字段的质量评分。

具体实施时，可以对历史总调用次数、预设时长内的调用次数、更新速度、以及任务数量和最短任务时限的统计分为设置质量评分权值，例如，wb、wa、wc、wd，其中，权重可以根据数据库整体的业务支持和相关特征设定。数据质量评分vi＝waAi+wbBi+wcCi+wdDi。

步骤S305，在确定目标字段的质量评分小于预设评分阈值时，将目标字段移出分布式数据血缘关系数据库。

步骤S306，在目标字段录入分布式数据血缘关系数据库中的时长超过预先设置的生命周期阈值、且目标字段在预设更新周期内的更新速度为零时，生成含有目标字段的数据生命周期管理报告。

具体实施时，预先设置生命阈值周期和预设更新周期，例如，预先设置数据生命周期阈值f为5年，更新周期g为3年。对于留存时长超过f值的、停止更新时长超过g的字段，定期自动生成数据生命周期管理报告。并根据此进行相应的考察和处理，合理进行归档或销毁管理，节约相关时间和人力成本。

图4是根据一示例性实施例示出的一种数据管理装置框图，如图4所示，该装置包括统计单元401，第一确定单元402，第一计算单元403，处理单元404。

统计单元401，用于统计分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数；

第一确定单元402，用于确定使用目标字段的字段值的任务列表，统计任务列表中的任务数量和最短任务时限；

第一计算单元403，用于基于历史总调用次数、预设时长内的调用次数、更新速度、任务数量、以及最短任务时限，确定目标字段的质量评分；

处理单元404，用于在确定目标字段的质量评分小于预设评分阈值时，将目标字段移出分布式数据血缘关系数据库。

一种可能的实施方式中，第一计算单元403，具体用于：

一种可能的实施方式中，该装置还包括提取单元405、校验单元406、第二确定单元407和第二计算单元408。

提取单元405，用于提取分布式数据血缘关系数据库中任一目标数据血缘关系表中衍生数据表标识、历史萃取、转置、加载ETL操作、底层数据源标识、数据表字段操作记录，目标数据血缘关系表为数据表字段操作记录中含有目标字段的数据血缘关系表中的任一个；

校验单元406，用于根据底层数据源标识对应的目标数据表、历史ETL操作，生成校验数据；

第二确定单元407，还用于逐条确定校验数据与衍生数据表标识对应的目标衍生数据表中目标字段的字段值的一致性；

第二计算单元408，还用于计算校验数据与目标衍生数据表中目标字段的字段值一致的数量与校验数据总数量的比值。

一种可能的实施方式中，该装置还包括删除单元409。

删除单元409，用于在确定比值小于预设比例阈值时，删除目标衍生数据表。

一种可能的实施方式中，该装置还包括第三确定单元410和控制单元411。

第三确定单元410，还用于确定将删除的目标衍生数据表录入分布式数据血缘关系数据库的节点设备；

控制单元411，用于确定由节点设备录入分布式数据血缘关系数据库的衍生数据表中，被删除的数量大于预设数量阈值时，拒绝节点设备向分布式数据血缘关系数据库录入数据表。

一种可能的实施方式中，该装置还包括报告单元412。

报告单元412，用于在目标字段录入分布式数据血缘关系数据库中的时长超过预先设置的生命周期阈值、且目标字段在预设更新周期内的更新速度为零时，生成含有目标字段的数据生命周期管理报告。

基于上述本发明实施例相同构思，图5是根据一示例性实施例示出的数据管理设备500的结构示意图，如图5所示，本发明实施例示出的数据管理设备500包括：

处理器510；

用于存储处理器510可执行指令的存储器520；

其中，处理器510被配置为执行指令，以实现本发明实施例中数据管理方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器520，上述指令可由数据管理装置的处理器510执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

另外，结合图2和图3所描述的本发明实施例的数据管理方法及装置可以由数据管理设备来实现。图6示出了本发明实施例提供的数据管理设备结构示意图。

该数据管理设备可以包括处理器601以及存储有计算机程序指令的存储器602。

具体地，上述处理器601可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器602可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器602可在数据处理装置的内部或外部。在特定实施例中，存储器602是非易失性固态存储器。在特定实施例中，存储器602包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器601通过读取并执行存储器602中存储的计算机程序指令，以实现上述实施例中的数据管理方法。

在一个示例中，该数据管理设备还可包括通信接口603和总线610。其中，如图6所示，处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。

通信接口603，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线610包括硬件、软件或两者，将该数据管理设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其它图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其它合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线610可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

另外，结合上述实施例中的数据管理方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一项数据管理方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种数据管理方法，应用于分布式数据血缘关系数据库，其特征在于，包括：

统计所述分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数；

确定使用所述目标字段的字段值的任务列表，统计所述任务列表中的任务数量和最短任务时限；

基于所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限，确定所述目标字段的质量评分；

在确定所述目标字段的质量评分小于预设评分阈值时，将所述目标字段移出所述分布式数据血缘关系数据库。

2.根据权利要求1所述的方法，其特征在于，所述基于所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限，确定所述目标字段的质量评分，包括：

分别为所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限设置权重系数；

将所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限中每个与对应的权重系数的乘积之和作为所述目标字段的质量评分。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

提取所述分布式数据血缘关系数据库中任一目标数据血缘关系表中衍生数据表标识、历史萃取、转置、加载ETL操作、底层数据源标识、数据表字段操作记录，所述目标数据血缘关系表为所述数据表字段操作记录中含有目标字段的数据血缘关系表中的任一个；

根据所述底层数据源标识对应的目标数据表、所述历史ETL操作，生成校验数据；

逐条确定所述校验数据与所述衍生数据表标识对应的目标衍生数据表中所述目标字段的字段值的一致性；

计算所述校验数据与所述目标衍生数据表中所述目标字段的字段值一致的数量与所述校验数据总数量的比值。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

在确定所述比值小于预设比例阈值时，删除所述目标衍生数据表。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

确定将删除的目标衍生数据表录入所述分布式数据血缘关系数据库的节点设备；

确定由所述节点设备录入所述分布式数据血缘关系数据库的衍生数据表中，被删除的数量大于预设数量阈值时，拒绝所述节点设备向所述分布式数据血缘关系数据库录入数据表。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述目标字段录入所述分布式数据血缘关系数据库中的时长超过预先设置的生命周期阈值、且所述目标字段在预设更新周期内的更新速度为零时，生成含有所述目标字段的数据生命周期管理报告。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述方法还包括：

在确定所述质量评分小于预设评分阈值时，删除所述目标字段。

8.一种数据管理装置，应用于分布式数据血缘关系数据库，其特征在于，包括：

统计单元，用于统计所述分布式数据血缘关系数据库中任一目标字段的历史总调用次数、更新速度、以及预设时长内的调用次数；

第一确定单元，用于确定使用所述目标字段的字段值的任务列表，统计所述任务列表中的任务数量和最短任务时限；

第一计算单元，用于基于所述历史总调用次数、所述预设时长内的调用次数、所述更新速度、所述任务数量、以及所述最短任务时限，确定所述目标字段的质量评分；

处理单元，用于在确定所述目标字段的质量评分小于预设评分阈值时，将所述目标字段移出所述分布式数据血缘关系数据库。

9.一种数据管理设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的数据管理方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由数据管理设备的执行器执行时，使得数据管理电子设备能够执行如权利要求1至7中任一项所述的数据管理方法。