CN111159169B

CN111159169B - 数据治理方法及设备

Info

Publication number: CN111159169B
Application number: CN201911407168.3A
Authority: CN
Inventors: 宋雨伦; 谢云龙; 樊利安; 崔凌逍
Original assignee: China United Network Communications Group Co Ltd; Unicom Big Data Co Ltd
Current assignee: China United Network Communications Group Co Ltd; Unicom Big Data Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-07-14
Anticipated expiration: 2039-12-31
Also published as: CN111159169A

Abstract

本发明实施例提供一种数据治理方法及设备，该方法包括：获取待治理的业务数据集；对所述业务数据集进行质量指标化处理，得到所述业务数据集对应的质量基准值集合；将所述质量基准值集合输入目标网络模型中，以使所述目标网络模型根据所述质量基准值集合进行价值基准值预测，得到所述业务数据集对应的价值基准值集合，并输出；根据所述目标网络模型输出的价值基准值集合生成优化调整指令，并发送给目标终端，以使所述目标终端根据所述优化调整指令进行相应的优化调整操作，实现数据自动治理，无需人工编写相应的数据治理脚本，减少相关开发人员的工作量，并可以降低人工成本，提高数据治理的效率。

Description

数据治理方法及设备

技术领域

本发明实施例涉及大数据处理技术领域，尤其涉及一种数据治理方法及设备。

背景技术

随着大数据技术的快速发展，越来越多的企业开始关注自身的数据问题，开始在企业数据管理和数据规划中使用一定手段进行数据管控，实现大数据的治理，得到治理结果，相关用户可以根据治理结果进行相关的数据优化调整操作。

现有技术中，在进行大数据的治理时，一般是相关数据治理开发人员按照治理规则手工开发数据治理脚本，然后通过该治理脚本对数据进行治理。

然而，发明人发现现有技术中至少存在如下问题：由于需要相关开发人员手工开发相应的数据治理脚本，增加开发人员的工作量，人工成本高。

发明内容

本发明实施例提供一种数据治理方法及设备，以减少开发人员的工作量。

第一方面，本发明实施例提供一种数据治理方法，包括：

获取待治理的业务数据集；

对所述业务数据集进行质量指标化处理，得到所述业务数据集对应的质量基准值集合；

将所述质量基准值集合输入目标网络模型中，以使所述目标网络模型根据所述质量基准值集合进行价值基准预测，得到所述业务数据集对应的价值基准值集合，并输出；

根据所述目标网络模型输出的价值基准值集合生成优化调整指令，并发送给目标终端，以使所述目标终端根据所述优化调整指令进行相应的优化调整操作。

在一种可能的设计中，在所述将所述质量基准值集合输入目标网络模型中之前，还包括：

获取样本数据集；

对所述样本数据集进行质量指标化处理，得到所述样本数据集对应的样本质量基准值集合，并对所述样本数据集进行价值指标化处理，得到所述样本数据集对应的样本价值基准值集合；

根据所述样本质量基准值集合对初始网络模型进行训练，并获取所述初始网络模型输出的预测价值基准值集合；

根据所述样本价值基准值集合，判断所述预测价值基准值集合是否满足预设停止训练条件；

若满足所述预设停止训练条件，则将所述初始网络模型作为所述目标网络模型。

在一种可能的设计中，所述质量指标化处理包括完整性处理，所述质量基准值集合包括完整性基准值；

所述对所述业务数据集进行质量指标化处理，得到所述业务数据集对应的质量基准值集合，包括：

从所述业务数据集中统计第一预设数据类型的记录的上传数量，并获取所述第一预设数据类型的记录对应的平均上传数量；

获取所述上传数量与所述平均上传数量的比值，得到所述完整性基准值。

在一种可能的设计中，所述价值基准值集合包括冗余基准值，所述优化调整指令包括数据冗余调整指令；

所述根据所述目标网络模型输出的价值基准值集合生成优化调整指令，包括：

若所述冗余基准值大于预设冗余程度值，则生成所述数据冗余调整指令。

在一种可能的设计中，所述根据所述样本价值基准值集合，判断所述预测价值基准值集合是否满足预设停止训练条件，包括：

获取所述样本价值基准值集合与所述预测价值基准值集合的误差值；

若所述误差值小于或等于预设误差阈值，则确定所述预测价值基准值集合满足预设停止训练条件；

若所述误差值大于所述预设误差阈值，则确定所述预测价值基准值集合不满足预设停止训练条件。

在一种可能的设计中，所述价值指标化处理包括调用度处理，所述样本价值基准值集合包括样本调用基准值；

所述对所述样本数据集进行价值指标化处理，得到所述样本数据集对应的样本价值基准值集合，包括：

从所述业务数据集中统计第二预设数据类型的记录的总数量以及所述第二预设数据类型的记录所对应的调用数量；

获取所述调用数量与所述总数量的比值，得到所述样本调用基准值。

在一种可能的设计中，在所述得到所述业务数据集对应的质量基准值集合之后，还包括：

对所述质量基准值集合进行归一化处理。

第二方面，本发明实施例提供一种数据治理设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得执行所述计算机程序时实现如下步骤：

获取待治理的业务数据集；

在一种可能的设计中，所述处理器执行所述计算机程序时还实现如下步骤：

获取样本数据集；

对所述质量基准值集合进行归一化处理。

第三方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的数据治理方法。

本发明实施例提供了一种数据治理方法及设备，该方法通过对待治理的业务数据集进行质量指标化处理，得到可以更好地表征该业务数据集质量的质量基准值集合，将该质量基准值集合输入到已经训练好的目标网络模型中，以使该目标网络模型对该质量基准值集合进行价值基准预测，得到该业务数据集对应的价值基准值集合，即得到数据的治理结果，根据该治理结果生成相应的优化调整指令，并发送给目标终端，目标终端根据该优化调整指令执行相应的优化调整操作，实现数据自动治理，无需人工编写相应的数据治理脚本，减少相关开发人员的工作量，并可以降低人工成本，提高数据治理的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的数据治理系统的架构示意图；

图2为本发明实施例提供的数据治理方法的流程图一；

图3为本发明实施例提供的数据治理方法的流程图二；

图4为本发明实施例提供的数据治理设备的结构示意图；

图5为本发明实施例提供的数据治理设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术中，在进行大数据的治理时，一般是相关数据治理开发人员按照治理规则手工开发数据治理脚本，然后通过该治理脚本对数据进行治理，但由于需要相关开发人员手工开发相应的数据治理脚本，会增加开发人员的工作量，人工成本较高。

针对现有技术中存在的问题，本申请提供一种数据治理系统，如图1所示，本实施例提供的系统包括终端设备101和目标终端102。其中，终端101可以为电脑终端，手机终端等。本实施例对终端101的实现方式不做任何特别限制。

终端设备101获取需要进行治理的业务数据，得到相应的待治理的业务数据集，对待治理的业务数据集进行质量指标化处理，得到可以更好地表征该业务数据集质量的质量基准值集合，将该质量基准值集合输入到已经训练好的目标网络模型中，以使该目标网络模型对该质量基准值集合进行价值基准预测，得到该业务数据集对应的价值基准值集合，即得到数据的治理结果，根据该治理结果生成相应的优化调整指令，并发送给目标终端102，目标终端根据该优化调整指令执行相应的优化调整操作，实现数据自动治理，无需人工编写相应的数据治理脚本，减少相关开发人员的工作量，并可以降低人工成本，提高数据治理的效率下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明实施例提供的数据治理方法的流程图一，本实施例的执行主体可以为图1所示实施例中的终端设备，本实施例此处不做特别限制。如图2所示，本实施例的方法，可以包括：

S201：获取待治理的业务数据集。

在本实施例中，获取需要进行治理的业务数据集，即待治理的业务数据集，该待治理的业务数据集可以为终端设备本身运行业务所产生的数据，或者是其它终端运行业务所产生的数据，例如，进行充值业务时所产生的数据。

其中，业务数据集包括多个描述数据的基准元，例如，基准元T1，T1＝{“数据集名称”，“数据集关系”，“数据集字段”，“数据集关系约束”，...}，代表“码表规范”的基准元T2，T2＝{“编码名称”，“编码规则”，“编码含义”，“编码层级”，…}。

S202：对业务数据集进行质量指标化处理，得到业务数据集对应的质量基准值集合。

在本实施例中，对待治理的业务数据集进行质量指标化处理，得到该业务数据集对应的质量基准值集合。该质量基准值集合包括至少一个质量基准值，即该质量基准值集合包括完整性基准值、规范性基准值、一致性基准值、准确性基准值、唯一性基准值和关联性基准值中的至少一个。

相应地，质量指标化处理包括完整性处理、规范性处理、一致性处理、准确性处理、唯一性处理和关联性处理中的至少一个。

当质量指标化处理包括完整性处理，对业务数据集进行完整性处理，得到完整性基准值的过程包括：从业务数据集中统计第一预设数据类型的记录的上传数量，并获取第一预设数据类型的记录对应的平均上传数量。获取上传数量与平均上传数量的比值，得到完整性基准值。

在本实施例中，完整性评估某种记录是否存在缺失状况，缺失情况可以为整条数据记录的缺失。因此，可以从业务数据集中统计第一预设数据类型的记录的上传数量，该上传数量为在指定时间段(例如，10点-22点)上传的第一预设数据类型的记录的数量，然后获取该第一预设数据类型的记录对应的平均上传数量，将上传数据除以平均上传数量，得到完整性基准值。

其中，第一预设数据类型的记录可以为用户预先指定的某种类型的记录，数据记录是包括多个字段值，例如，第一预设数据类型为用户账户，则该第一预设数据类型的记录中包括用户账户和用户密码这两个字段值，即包括用户账户和用户密码这两个字段值的整条数据为一条记录。在指定时间段上传的用户账户记录的数量为800条，即上传数量为800条，用户账户记录对应的平均上传数量为1000条，因此，完整性基准值为0.8。

可选的，完整性也可以评估记录中某个字段的缺失情况。

其中，准确性表示业务数据集中的数据是否准确，例如，位置是否正确。

当质量指标化处理包括准确性处理，对业务数据集进行准确性处理，得到准确性基准值的过程包括：从业务数据集中统计第三预设数据类型的记录的第一总数量，并获取存在错误的第三预设数据类型的记录的错误数量。获取错误数据与第一总数量的比值，得到准确性基准值。

在本实施例中，第三数据类型的记录可以为包括指定字段对应的字段值的记录，例如，将包括地点A位置这个字段对应的字段值的记录作为第三数据类型的记录，检测第三数据类型的记录中的该指定字段对应的字段值是否存在错误，并记录指定字段对应的字段值存在错误的第三数据类型的记录的数量，得到错误数量，例如，统计地点A位置存在错误的第三数据类型的记录的数量，得到错误数量。

规范性表示业务数据集中的数据是否规范，即是否符合要求。一致性表示业务数据集中的数据是否相互一致，唯一性表示业务数据集中的数据是否是唯一的，例如，某条数据是否出现在多个地方。关联性表示业务数据集中的数据与其它数据的关联程度。

在计算规范性基准值、一致性基准值、唯一性基准值和关联性基准值时，可以按照相应的预设计算方式进行计算。

在本实施例中，在得到业务数据集对应的质量基准值集合之后，为了方便后续的数据处理，可以通过归一化将质量基准值集合中的质量基准值限制在一定的范围内，即对质量基准值集合中的各个质量基准值进行归一化处理。

在进行归一化处理时，是根据

来进行归一化处理的，X^*为进行归一化处理后的质量基准值，x为进行归一化处理前的质量基准值，min为质量基准值集合中的最小的质量基准值，max为质量基准值集合中的最大的质量基准值。

以一个具体应用场景为例，质量基准值集合包括完整性基准值、规范性基准值和一致性基准值，完整性基准值为0.8，即归一化处理前的完整性基准值为0.8，规范性基准值为0.9，即归一化处理前的规范性基准值为0.9，一致性基准值为0.5，即归一化处理前的规范性基准值为0.9，即最大的质量基准值为0.9，最小的质量基准值为0.5，分别对各个质量基准值进行归一化处理，即分别对完整性基准值、规范性基准值和一致性基准值进行归一化处理，在对完整性基准值进行归一化处理时，根据(0.8-0.5)/(0.9-0.5)得到归一化处理后的完整性基准值。

S203：将质量基准值集合输入目标网络模型中，以使目标网络模型根据质量基准值集合进行价值基准预测，得到业务数据集对应的价值基准值集合，并输出。

在本实施例中，在得到质量基准值集合后，将该质量基准值集合输入到目标网络模型中，该目标网络模型为已经训练好的网络模型，该目标网络模型对该质量基准值集合进行价值基准预测，预测该质量基准值集合对应的价值基准值集合，得到该业务数据集对应的价值基准值集合，并输出该价值基准值集合。

S204：根据目标网络模型输出的价值基准值集合生成优化调整指令，并发送给目标终端，以使目标终端根据优化调整指令进行相应的优化调整操作。

在本实施例中，获取目标网络模型输出的价值基准值集合，并判断该价值基准值集合是否存在异常，当确定该价值基准值集合存在异常时，便生成相应的优化调整指令，并发送给目标终端，以使目标终端根据该优化调整指令进行相应的优化调整操作。

其中，在判断价值基准值集合是否存在异常时，可以通过判断价值基准值集合中的价值基准值是否存在异常来确定，即判断价值基准值是否小于对应的判断值。

其中，价值基准值集合包括至少一个价值基准值，即价值基准值集合包括冗余基准值、调用基准值、时效基准值、应用范围基准值和应用效果基准值中的至少一个。

相应地，优化调整指令包括数据冗余调整指令、数据调用调整指令、数据时效调整指令、数据应用范围调整指令和数据应用效果调整指令中的至少一个。

可选的，根据所述目标网络模型输出的价值基准值集合生成优化调整指令，包括：

若所述冗余基准值大于冗余程度值，则生成数据冗余调整指令。

在本实施例中，当确定价值基准值集合中的冗余基准值大于预设冗余程度值时，表示数据冗余程度高，需生成相应的数据冗余调整指令，并将该数据冗余调整指令发送给目标终端，以使目标终端根据该数据冗余调整指令进行相应的降低数据冗余操作，从而降低后续业务数据的冗余程度。

可选的，也可以对业务数据集进行价值指标化处理，得到业务数据集对应的价值基准值集合，将价值基准值集合输入目标网络模型中，以使目标网络模型根据价值基准值集合进行质量基准预测，得到业务数据集对应的质量基准值集合，并输出，根据目标网络模型输出的质量基准值集合生成优化调整指令，并发送给目标终端，以使目标终端根据优化调整指令进行相应的优化调整操作，从而实现数据质量和数据价值双向治理。

从上述描述可知，通过对待治理的业务数据集进行质量指标化处理，得到可以更好地表征该业务数据集质量的质量基准值集合，将该质量基准值集合输入到已经训练好的目标网络模型中，以使该目标网络模型对该质量基准值集合进行价值基准预测，得到该业务数据集对应的价值基准值集合，即得到数据的治理结果，根据该治理结果生成相应的优化调整指令，并发送给目标终端，目标终端根据该优化调整指令执行相应的优化调整操作，实现数据自动治理，无需人工编写相应的数据治理脚本，减少相关开发人员的工作量，并可以降低人工成本，提高数据治理的效率。

在利用目标网络模型进行价值基准值预测时，需要先对初始网络模型进行训练以得到初始网络模型，下面结合一个具体的实施例对训练初始网络模型的过程进行详细描述。

图3为本发明实施例提供的数据治理方法的流程图二，如图3所示，在上述实施例的基础上，对训练初始模型的具体实现过程进行了详细描述，如图3所示，该方法包括：

S301：获取待治理的业务数据集。

S302：对业务数据集进行质量指标化处理，得到业务数据集对应的质量基准值集合。

其中，S301-S302的实现过程与图2实施例中S201-S202的实现过程类似，在此不再对其进行赘述。

S303：获取样本数据集。

在本实施例中，获取可以作为训练样本的数据集，该数据集也是由业务元数据组成。该样本数据集可以是用户直接发送的，或者是由终端设备自身采集的。

S304：对样本数据集进行质量指标化处理，得到样本数据集对应的样本质量基准值集合，并对样本数据集进行价值指标化处理，得到样本数据集对应的样本价值基准值集合。

在本实施例中，在得到样本数据集后，需要对该样本数据集进行质量指标化处理，得到该样本数据集对应的样本质量基准值集合，并需要对该样本数据集进行价值指标化处理，得到该样本数据集对应的样本质量基准值集合。

其中，在对样本数据集进行质量指标化处理的过程与图2实施例中的对业务数据集进行质量指标化处理的过程类似，在此，不再对其进行赘述。

其中，预测价值基准值集合包括至少一个预测价值基准值，该样本价值基准值集合包括样本调用基准值。相应地，价值指标化处理包括调用度处理。

可选的，对样本数据集进行价值指标化处理，得到样本数据集对应的样本价值基准值集合，包括：

从业务数据集中统计第二预设数据类型的记录的总数量以及第二预设数据类型的记录所对应的调用数量；

获取调用数量与总数量的比值，得到样本调用基准值。

在本实施例中，在对样本数据集进行调用度处理时，从业务数据集中统计数据类型为第二预设数据类型的记录的数目，得到相应的总数量，并且从该业务数据集中获取该第二预设数据类型的记录所对应的调用数量，该调用数量为在预设调用时间段内，调用的第二预设数据类型的记录的数量。

其中，第二预设数据类型可以为包括指定的某个字段值的记录。在计算样本调用基准值时，从样本数据集中统计包括字段A对应的字段值的记录，得到总数量，统计在2:00-14:00内，被调用的该记录的数量，得到调用数量，将调用数量除以总数量，得到样本调用基准值，例如，共有100包括字段A的记录，则总数量为100，在2:00-14:00内，有80条包括字段A的记录被调用，则调用数量为80，样本调用基准值为80/100＝0.8。

其中，预测价值基准值集合包还可以包括预测冗余基准值、预测时效基准值、预测应用范围基准值和预测应用效果基准值中的至少一个。

在计算预测冗余基准值、预测时效基准值、预测应用范围基准值或预测应用效果基准值时，可以按照预先设定的计算公式进行计算，在此，不再对其进行赘述。

可选的，在得到样本数据集对应的样本质量基准值集合和样本价值基准值集合后，可以对该样本质量基准值集合和样本价值基准值集合进行归一化处理，以将样本质量基准值集合中的质量基准值和样本价值基准值集合中的价值基准值限定在一定范围内。

S305：根据样本质量基准值集合对初始网络模型进行训练，并获取初始网络模型输出的预测价值基准值集合。

在本实施例中，将样本数据集对应的样本质量基准值集合输入至初始网络模型中，该初始网络模型利用该样本质量基准值集合进行训练，并输出该样本数据集对应的预测价值基准值集合。

其中，初始网络模型可以为的全卷积神经网络模型。

S306：根据样本价值基准值集合，判断预测价值基准值集合是否满足预设停止训练条件。

在本实施例中，在对初始网络模型进行训练得到预测价值基准值集合后，需要利用预测价值基准值集合以及样本价值基准值集合验证训练后的初始网络模型是否满足需求，若满足需求，则可以停止训练，将训练后的初始网络模型作为目标网络模型，若不满足需求，则需要继续利用获取样本数据集，并对该训练后的初始网络模型进行训练。

在利用预测价值基准值集合以及样本价值基准值集合验证训练后的初始网络模型是否满足需求时，需要根据该样本价值基准值集合，确定预测价值基准值集合是否满足预设停止训练条件，其具体过程为：获取样本价值基准值集合与预测价值基准值集合的误差值。若误差值小于或等于预设误差阈值，则确定预测价值基准值集合满足预设停止训练条件。若误差值大于预设误差阈值，则确定预测价值基准值集合不满足预设停止训练条件。

在本实施例中，计算样本价值基准值集合与预测价值基准值集合的误差值，当该误差值小于或等于预设误差阈值时，表示通过训练后的初始网络模型预测的价值基准值集合与实际的样本价值基准值集合的相似度较高，可以停止对网络模型进行训练，即该预测价值基准值集合满足预设停止训练条件。当该误差值大于预设误差阈值时，表示通过训练后的初始网络模型预测的价值基准值集合与实际的样本价值基准值集合的相似度较低，需继续对网络模型进行训练，即该预测价值基准值集合不满足预设停止训练条件。

可选的，当确定预测价值基准值结合不满足预设停止训练条件时，可以通过反向传播算法，调整初始网络模型的网络参数，更新该初始网络模型的网络参数，该网络参数包括权重和偏置。

其中，样本价值基准值集合包括至少一个样本价值基准值，其可以表示为V＝{V₁，V₂，…V_k}，例如，V₁可以表示样本冗余基准值，V₂表示样本调用基准值，预测价值基准值集合包括至少一个预测价值基准值，其可以表示为S＝{S₁，S₂，…S_k}，例如，S₁可以表示预测冗余基准值，S₂表示预测调用基准值。S_k与V_k一一对应，例如，V₁表示的为冗余基准值，则S₁也表示的为冗余基准值。

在计算样本价值基准值集合与预测价值基准值集合的误差值时，可以根据方差进行计算，即

其中，J(w)为误差值，V_k为样本价值基准值，S_k为V_k所对应的预测价值基准值，c为样本价值基准值集合所包括的样本价值基准值的数量或为预测价值基准值集合所包括的预测价值基准值的数量。例如，样本价值基准值集合包括样本冗余基准值和样本调用基准值，相应地，预测价值基准值集合包括预测冗余基准值和预测调用基准值，则样本价值基准值集合所包括的样本价值基准值的数量为2，即c为2，样本冗余基准值为a1，即V₁为a1，预测冗余基准值为b1，即S₁为b1，样本调用基准值为a2，即V₂为a2，预测调用基准值为b2，即S₂为b2，则误差值为/>

可选的，也可以将样本价值基准值集合作为输入，利用样本价值基准值集合对初始神经网络模型进行训练，获取初始网络模型输出的预测质量基准值集合，根据样本质量基准值集合和预测质量基准值集合确定该初始网络模型是否满足需求，若满足需求，可以停止进行训练，将该初始网络模型作为目标网络模型，以使利用该目标网络模型可以进行数据质量和数据价值的双向治理。

S307：若满足预设停止训练条件，则将初始网络模型作为目标网络模型。

在本实施例中，当确定预测价值基准值结合满足预设停止训练条件时，表示可以停止对初始网络模型进行训练，该初始网络模型已经可以满足精度需求，可以将该初始网络模型作为目标网络模型。

S308：将质量基准值集合输入目标网络模型中，以使目标网络模型根据质量基准值集合进行价值基准预测，得到业务数据集对应的价值基准值集合，并输出。

S309：根据目标网络模型输出的价值基准值集合生成优化调整指令，并发送给目标终端，以使目标终端根据优化调整指令进行相应的优化调整操作。

其中，S308-S309的实现过程与图2实施例中S203-S204的实现过程类似，在此不再对其进行赘述。

在本实施例中，分别对样本数据集进行质量指标化处理和价值指标话处理得到相应的样本质量基准值集合和样本价值基准值集合，利用该样本质量基准值集合指导初始网络模型的训练，并利用该样本价值基准值集合确定该初始网络模型输出的预测价值基准值集合是否满足满足预设停止训练条件，即验证该初始网络模型是否满足需求，当确定该初始网络模型不满足需求时，继续进行训练，直至训练后的初始网络模型可以满足需求，从而可以保证输出的预测价值基准值集合的准确度，即保证数据治理的精度。

图4为本发明实施例提供的数据治理设备的结构示意图，如图4所示，本实施例提供的数据治理设备400，可以包括：数据获取模块401、质量指标处理模块402、价值预测值输出模块403和处理模块404。

数据获取模块401，用于获取待治理的业务数据集。

质量指标处理模块402，用于对业务数据集进行质量指标化处理，得到业务数据集对应的质量基准值集合。

价值预测值输出模块403，用于将质量基准值集合输入目标网络模型中，以使目标网络模型根据质量基准值集合进行价值基准值预测，得到业务数据集对应的价值基准值集合，并输出。

处理模块404，用于根据目标网络模型输出的价值基准值集合生成优化调整指令，并发送给目标终端，以使目标终端根据优化调整指令进行相应的优化调整操作。

在一种可能的设计中，价值预测值输出模块403还用于：在将质量基准值集合输入目标网络模型中之前，获取样本数据集。

对样本数据集进行质量指标化处理，得到样本数据集对应的样本质量基准值集合，并对样本数据集进行价值指标化处理，得到样本数据集对应的样本价值基准值集合。

根据样本质量基准值集合对初始网络模型进行训练，并获取初始网络模型输出的预测价值基准值集合。

根据样本价值基准值集合，判断预测价值基准值集合是否满足预设停止训练条件。

若满足预设停止训练条件，则将初始网络模型作为目标网络模型。

在一种可能的设计中，质量指标化处理包括完整性处理，质量基准值集合包括完整性基准值。

质量指标处理模块402具体用于：

从业务数据集中统计第一预设数据类型的记录的上传数量，并获取第一预设数据类型的记录对应的平均上传数量。

获取上传数量与平均上传数量的比值，得到完整性基准值。

在一种可能的设计中，价值基准值集合包括冗余基准值，优化调整指令包括数据冗余调整指令。

处理模块404具体用于：

若冗余基准值大于预设冗余程度值，则生成数据冗余调整指令。

在一种可能的设计中，价值预测值输出模块403还用于：

获取样本价值基准值集合与预测价值基准值集合的误差值。

若误差值小于或等于预设误差阈值，则确定预测价值基准值集合满足预设停止训练条件。

若误差值大于预设误差阈值，则确定预测价值基准值集合不满足预设停止训练条件。

在一种可能的设计中，价值指标化处理包括调用度处理，样本价值基准值集合包括样本调用基准值。

价值预测值输出模块403还用于：

从业务数据集中统计第二预设数据类型的记录的总数量以及第二预设数据类型的记录所对应的调用数量。

获取调用数量与总数量的比值，得到样本调用基准值。

在一种可能的设计中，质量指标处理模块402还用于：在得到业务数据集对应的质量基准值集合之后，对质量基准值集合进行归一化处理。

本发明实施例提供的数据治理设备，可以实现上述实施例的肿瘤图像分割方法，其实现原理和技术效果类似，此处不再赘述。

图5为本发明实施例提供的数据治理设备的硬件结构示意图。如图5所示，本实施例提供的数据治理设备500包括：至少一个处理器501和存储器502。其中，处理器501、存储器502通过总线503连接。

在具体实现过程中，至少一个处理器501执行存储器502存储的计算机执行指令，至少一个处理器执行存储器存储的计算机执行指令，使得执行计算机程序时实现如下步骤：

获取待治理的业务数据集。

对业务数据集进行质量指标化处理，得到业务数据集对应的质量基准值集合。

将质量基准值集合输入目标网络模型中，以使目标网络模型根据质量基准值集合进行价值基准预测，得到业务数据集对应的价值基准值集合，并输出。

根据目标网络模型输出的价值基准值集合生成优化调整指令，并发送给目标终端，以使目标终端根据优化调整指令进行相应的优化调整操作。

在一种可能的设计中，处理器执行计算机程序时还实现如下步骤：

获取样本数据集。

对业务数据集进行质量指标化处理，得到业务数据集对应的质量基准值集合，包括：

获取上传数量与平均上传数量的比值，得到完整性基准值。

根据目标网络模型输出的价值基准值集合生成优化调整指令，包括：

在一种可能的设计中，根据样本价值基准值集合，判断预测价值基准值集合是否满足预设停止训练条件，包括：

获取样本价值基准值集合与预测价值基准值集合的误差值。

对样本数据集进行价值指标化处理，得到样本数据集对应的样本价值基准值集合，包括：

获取调用数量与总数量的比值，得到样本调用基准值。

对质量基准值集合进行归一化处理。

处理器501的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图5所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述方法实施例的数据治理方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种数据治理方法，其特征在于，包括：

获取待治理的业务数据集；

将所述质量基准值集合输入目标网络模型中，以使所述目标网络模型根据所述质量基准值集合进行价值基准值预测，得到所述业务数据集对应的价值基准值集合，并输出；

根据所述目标网络模型输出的价值基准值集合生成优化调整指令，并发送给目标终端，以使所述目标终端根据所述优化调整指令进行相应的优化调整操作；

所述质量指标化处理包括完整性处理，所述质量基准值集合包括完整性基准值；

获取所述上传数量与所述平均上传数量的比值，得到所述完整性基准值；

在所述将所述质量基准值集合输入目标网络模型中之前，还包括：

获取样本数据集；

2.根据权利要求1所述的方法，其特征在于，所述价值基准值集合包括冗余基准值，所述优化调整指令包括数据冗余调整指令；

3.根据权利要求1所述的方法，其特征在于，所述根据所述样本价值基准值集合，判断所述预测价值基准值集合是否满足预设停止训练条件，包括：

4.根据权利要求1所述的方法，其特征在于，所述价值指标化处理包括调用度处理，所述样本价值基准值集合包括样本调用基准值；

5.根据权利要求1所述的方法，其特征在于，在所述得到所述业务数据集对应的质量基准值集合之后，还包括：

对所述质量基准值集合进行归一化处理。

6.一种数据治理设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得执行所述计算机指令时实现如下步骤：

获取待治理的业务数据集；

所述处理器执行所述计算机程序时还实现如下步骤：

获取样本数据集；

若满足所述预设停止训练条件，则将所述初始网络模型作为所述目标网络模型；

所述处理器执行所述计算机程序时还实现如下步骤：

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至5任一项所述的数据治理方法。