CN116991951A

CN116991951A - 一种根因质差指标的确定方法、装置和计算机设备

Info

Publication number: CN116991951A
Application number: CN202210945799.6A
Authority: CN
Inventors: 赵忠鲁; 邱伟娜; 宋巨红; 牟雨; 朱玉涵
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shandong Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shandong Co Ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2023-11-03

Abstract

本发明实施例提供了一种根因质差指标的确定方法、装置和计算机设备。该方法包括：获取质差元数据的依赖关系；根据所述质差元数据和所述依赖关系确定出与所述质差元数据相关的依赖元数据；确定出与所述质差元数据和所述依赖元数据对应的多个元数据指标；通过关系图谱算法，根据所述多个元数据指标生成数据分析图；响应于用户输入的选取指令，从所述数据分析图中选取出根因质差指标。计算机设备通过数据分析图确定根因质差指标，有利于快速定位数据问题，提高了数据问题的处理效率，降低了数据问题的处理成本。

Description

一种根因质差指标的确定方法、装置和计算机设备

【技术领域】

本发明涉及计算机技术领域，尤其涉及一种根因质差指标的确定方法、装置和计算机设备。

【背景技术】

数据资产有助于提高企业决策能力，提升竞争力，企业通过有效管理数据资产，能够提供更好的产品和服务，降低数据资产管理成本，规避数据风险。随着数据资产的规模越来越庞大，数据资产的类型越来越复杂，数据资产的管理难度也不断增大，但企业对数据资产的依赖性不断增强，企业对数据管理的需求也不断增长。由于企业的数据资产一般分布在企业的多个系统中，因此数据资产中的数据存在数据标准混乱，数据质量参差、各系统的数据之间孤岛化严重的问题。数据资产出现问题时，企业无法分析出该问题对后续环节产生的影响以及影响范围，为企业有效管理数据资产造成了障碍。

在数据的处理过程中，从数据源头到最终的数据生成，每个环节都可能会导致数据质量出现问题。例如，数据源头的数据质量较低时，在后续的处理环节中如果没有对该数据进行数据质量的检测和处理，那么根据该数据生成的数据的质量也较低。或者，在某个环节的数据处理中，对数据进行了一些不恰当的处理，也可能导致后续环节生成的数据质量较低。

合理有效的管理数据资产，是充分释放数据价值的关键。目前数据资源分布在企业的多个系统中，且缺乏统一的数据视图，数据管理人员无法快速准确的找到自己需要的数据，无法宏观的获取到所拥有的数据资产的数量以及数据资产的分布。当需要稽核数据质量时，如何快速定位问题数据源并预测问题数据源的影响范围，是困扰当前数据运营者的难题。

【发明内容】

有鉴于此，本发明实施例提供了一种根因质差指标的确定方法、装置和计算机设备，用以解决现有技术中数据处理过程中的数据质量较低，数据风险较大的问题。

第一方面，本发明实施例提供了一种根因质差指标的确定方法，所述方法包括：

获取质差元数据的依赖关系；

根据所述质差元数据和所述依赖关系确定出与所述质差元数据相关的依赖元数据；

确定出与所述质差元数据和所述依赖元数据对应的多个元数据指标；

通过关系图谱算法，根据所述多个元数据指标生成数据分析图；

响应于用户输入的选取指令，从所述数据分析图中选取出根因质差指标。

在一种可能的实现方式中，所述响应于用户输入的选取指令，从所述数据分析图中选取出根因质差指标之后，还包括：

根据所述根因质差指标生成预警信息。

在一种可能的实现方式中，所述数据分析图包括影响分析图，所述根因质差指标包括所述影响分析图中连接分支数量最多的元数据指标。

在一种可能的实现方式中，所述数据分析图包括血缘分析图；

所述响应于用户输入的选取指令，从所述数据分析图中选取出根因质差指标，包括：

从所述血缘分析图中选取出根节点；

判断所述根节点是否为质差指标；

若判断出所述根节点为质差指标，则确定出所述根节点为根因质差指标。

在一种可能的实现方式中，所述数据分析图包括至少一个元数据指标之间的数据关系；

所述通过关系图谱算法，根据所述多个元数据指标生成数据分析图之后，还包括：

通过反向传播BP神经网络算法，根据数据分析图生成可视化数据分析图；

响应于用户输入的查询指令，通过所述可视化数据分析图查询所述至少一个元数据指标之间的数据关系。

在一种可能的实现方式中，还包括：

根据所述质差元数据、所述依赖元数据和所述依赖关系生成端到端元数据信息链。

在一种可能的实现方式中，所述质差元数据包括第一技术元数据或第一业务元数据，所述依赖元数据包括第二技术元数据或第二业务元数据；

所述根据所述质差元数据、所述依赖元数据和所述依赖关系生成所述端到端元数据信息链，包括：

根据所述第一技术元数据和/或所述第二技术元数据生成技术元数据链；

根据所述第一业务元数据和/或所述第二业务元数据生成业务元数据链；

根据所述依赖关系对所述技术元数据链和所述业务元数据链进行融合；

若融合成功，生成端到端元数据信息链；

若融合失败，通过深度学习模型，对融合失败的技术元数据链和/或业务元数据链进行修复，生成修复后的技术元数据链和/或业务元数据链；

根据修复后的技术元数据链和/或业务元数据链生成端到端元数据信息链。

第二方面，本发明实施例提供了一种根因质差指标的确定装置，所述装置包括：

获取模块，用于获取质差元数据的依赖关系；

第一确定模块，用于根据所述质差元数据和所述依赖关系确定出与所述质差元数据相关的依赖元数据；

第二确定模块，用于确定出与所述质差元数据和所述依赖元数据对应的多个元数据指标；

第一生成模块，用于通过关系图谱算法，根据所述多个元数据指标生成数据分析图；

选取模块，用于响应于用户输入的选取指令，从所述数据分析图中选取出根因质差指标。

第三方面，本发明实施例提供了一种计算机设备，包括：一个或多个处理器；存储器；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述计算机设备执行时，使得所述计算机设备执行第一方面或第一方面任一可能的实现方式中的根因质差指标的确定方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行第一方面或第一方面任一可能的实现方式中的根因质差指标的确定方法。

本发明实施例提供的技术方案中，获取质差元数据的依赖关系；根据质差元数据和依赖关系确定出与质差元数据相关的依赖元数据；确定出与质差元数据和依赖元数据相关对应的多个元数据指标；通过关系图谱算法，根据多个元数据指标生成数据分析图；响应于用户输入的选取指令，从数据分析图中选取出根因质差指标。计算机设备通过数据分析图确定根因质差指标，有利于快速定位数据问题，提高了数据问题的处理效率，降低了数据问题的处理成本。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种根因质差指标的确定方法的流程图；

图2为本发明实施例提供的一种端到端元数据信息链的生成方法的流程图；

图3为本发明实施例提供的一种预测三元组的确定方法的流程图；

图4为本发明实施例提供的一种三元组的示意图；

图5为本发明实施例提供的一种最短路径的确定方法的流程图；

图6为本发明实施例提供的一种中心指标与终点指标的示意图；

图7为本发明实施例提供的一种元数据指标重要性的确定方法的流程图；

图8为本发明实施例提供的一种元数据指标连接分支的示意图；

图9为本发明实施例提供的一种影响分析图的示意图；

图10为本发明实施例提供的一种根因质差指标的确定装置的结构示意图；

图11为本发明实施例提供的一种选取模块的结构示意图；

图12为本发明实施例提供的一种第四生成模块的结构示意图；

图13为本发明实施例提供的一种计算机设备的示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，甲和/或乙，可以表示：单独存在甲，同时存在甲和乙，单独存在乙这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本发明实施例提供的一种根因质差指标的确定方法的流程图，如图1所示，该方法包括：

步骤101、采集至少一个元数据。

本发明实施例中各步骤由计算机设备执行。具体地，本发明实施例中各步骤由计算机设备通过元数据治理工具执行。元数据治理工具可以提供直观的可视化界面，数据管理人员和使用人员可以按照不同的分类和使用场景对元数据进行搜索和浏览，实现元数据信息的共享。

本步骤中，AKKA调度器控制计算机设备从分布式文件系统(Hadoop DistributedFile System，简称HDFS)、数据库或抽取、转换、装载(Extract-Transform-Load，简称ETL)调度系统中采集至少一个元数据，并控制计算机设备根据存储规则将至少一个元数据存储到MySQL数据库中。存储规则包括MySQL数据库存储规则。至少一个元数据包括数据集、数据模型、流数据或操作数据。计算机设备提供用户界面(User Interface，简称UI)和应用程序接口(Application Programming Interface，简称API)与用户进行交互。

步骤102、从至少一个元数据中选取出质差元数据。

本步骤中，计算机设备依次对每个元数据进行数据质量检测，生成元数据的质量评分，判断质量评分是否小于设定阈值。若判断出质量评分小于设定阈值，则确定出该元数据为质差元数据；若判断出质量评分大于或等于设定阈值，则确定出该元数据为正常元数据。

步骤103、获取质差元数据的依赖关系。

本步骤中，通过对质差元数据的元数据信息进行分析，得到质差元数据的依赖关系。元数据信息包括元数据的数据加工过程、数据表和字段依赖关系。

步骤104、根据质差元数据和依赖关系确定出与质差元数据相关的依赖元数据。

本步骤中，依赖元数据包括在质差元数据的数据加工过程中与质差元数据存在依赖关系的元数据。具体地，依赖元数据包括在质差元数据的数据加工过程中，质差元数据上游的元数据中与质差元数据之间存在依赖关系的元数据，以及质差元数据下游的元数据中与质差元数据之间存在依赖关系的元数据。

作为一种可选方案，步骤104之后，计算机设备还可以执行步骤S1。

步骤S1、根据质差元数据、依赖元数据和依赖关系生成端到端元数据信息链。

图2为本发明实施例提供的一种端到端元数据信息链的生成方法的流程图，如图2所示，步骤S1具体包括：

步骤S11、根据第一技术元数据和/或第二技术元数据生成技术元数据链。

本步骤中，若质差元数据包括第一技术元数据，依赖元数据包括第二业务元数据，则根据第一技术元数据生成技术元数据链。

步骤S12、根据第一业务元数据和/或第二业务元数据生成业务元数据链。

本步骤中，若质差元数据包括第一技术元数据，依赖元数据包括第二业务元数据，则根据第二业务元数据生成业务元数据链。

步骤S13、根据依赖关系对技术元数据链和业务元数据链进行融合，若融合成功，则执行步骤S14；若融合失败，则执行步骤S15。

步骤S14、生成端到端元数据信息链。

本步骤中，计算机设备生成端到端元数据信息链后，可通过元数据治理工具对元数据信息链进行展示。作为一种可选方案，计算机设备可以根据用户查看元数据的习惯偏好对深度学习模型进行训练，生成训练后的深度学习模型，通过训练后的深度学习模型展示用户关心的元数据。

本发明实施例中，深度学习模型可包括递归神经网络(Recurrent NeuralNetworks，简称RNN)模型或卷积神经网络(Convolutional Neural Networks，简称CNN)模型。

步骤S15、通过深度学习模型，对融合失败的技术元数据链和/或业务元数据链进行修复，生成修复后的技术元数据链和/或业务元数据链。

步骤S16、根据修复后的技术元数据链和/或业务元数据链生成端到端元数据信息链。

本发明实施例提供的端到端元数据信息链的生成方法的技术方案中，根据第一业务元数据和/或第二业务元数据生成业务元数据链；根据依赖关系对技术元数据链和业务元数据链进行融合；若融合成功，生成端到端元数据信息链；若融合失败，通过深度学习模型，对融合失败的技术元数据链和/或业务元数据链进行修复，生成修复后的技术元数据链和/或业务元数据链，根据修复后的技术元数据链和/或业务元数据链生成端到端元数据信息链。通过深度学习模型修复融合失败的技术元数据链和/或业务元数据链，提高了修复效率，降低了修复成本。

作为一种可选方案，步骤S1之后，计算机设备还可以执行步骤S2。

步骤S2、通过转换嵌入(Translating Embedding，简称TransE)算法，根据端到端元数据信息链确定出预测三元组。

图3为本发明实施例提供的一种预测三元组的确定方法的流程图，如图3所示，步骤S2具体包括：

步骤S21、判断三元组的实体部分是否存在缺失，若判断出三元组的实体部分存在缺失，则执行步骤S22；若判断出三元组的实体部分不存在缺失，则流程结束。

本步骤中，端到端元数据信息链中包括至少一个三元组，一个完整的三元组包括两个实体以及两个实体之间的依赖关系，两个实体包括两个存在依赖关系的元数据，两个存在依赖关系的元数据分别构成三元组的头实体和尾实体，两个实体之间的依赖关系包括两个存在依赖关系的元数据之间的依赖关系。

图4为本发明实施例提供的一种三元组的示意图，如图4所示，该三元组包括三元组(h，r，t)。其中，h、r和t均为低维向量，h为头实体，t为尾实体，r为头实体与尾实体之间的依赖关系，此时三元组满足关系式：t≈h+r，即头实体≈尾实体+头实体与尾实体之间的依赖关系。

步骤S22、将端到端元数据信息链中的元数据指标按照三元组实体属性进行排序。

本步骤中，三元组实体属性包括头实体或尾实体。计算机设备将端到端元数据信息链中的元数据按照头实体在前、尾实体在后的顺序进行排序。

步骤S23、将排列后的元数据指标依次作为三元组缺失的实体，生成至少一个预测三元组。

步骤S24、根据预测三元组生成三元组得分。

本步骤中，根据至少一个预测三元组生成至少一个三元组得分，每个预测三元组对应一个三元组得分。若预测三元组中头实体、尾实体和头实体与尾实体之间的依赖关系更接近三元组的关系式，则预测三元组的三元组得分越高。

步骤S25、判断三元组得分是否大于或等于设定阈值，若判断出三元组得分大于或等于设定阈值，则执行步骤S26；若判断出三元组得分小于设定阈值，则执行步骤S27。

步骤S26、确定出预测三元组是正确的三元组。

步骤S27、确定出预测三元组不是正确的三元组。

本发明实施例提供的预测三元组的确定方法的技术方案中，根据预测三元组生成三元组得分，判断三元组得分是否大于或等于设定阈值，若判断出三元组得分大于或等于设定阈值，则确定出预测三元组是正确的三元组；若判断出三元组得分小于设定阈值，则确定出预测三元组不是正确的三元组。根据二分类方法确定三元组是否正确，提高了判断效率。

步骤105、确定出与质差元数据和依赖元数据的多个元数据指标。

本步骤中，多个元数据指标包括质差元数据对应的元数据指标和依赖元数据对应的元数据指标。其中，元数据指标为元数据的数据信息。作为一种可选方案，数据信息可以通过数据表进行展示。例如，每个元数据对应一个数据表，每个数据表中包括该元数据对应的至少一个元数据指标。

步骤106、通过关系图谱算法，根据多个元数据指标生成数据分析图。

本步骤中，数据分析图包括血缘分析图和影响分析图，数据分析图包括至少一个元数据指标之间的数据关系，数据关系包括血缘关系或影响关系。数据分析图的生成过程中结合了多个元数据指标之间的时间顺序以及递进关系，因此数据分析图可以充分体现多个元数据指标之间的数据关系。

作为一种可选方案，步骤106之后，计算机设备还可以执行步骤S3。

步骤S3、根据数据分析图查询出至少一个元数据指标之间的数据关系。

例如，计算机设备可以通过反向传播(Back Propagation，简称BP)神经网络算法，根据数据分析图查询出至少一个元数据指标之间的数据关系。

本发明实施例中，步骤S3具体包括：

步骤S31、通过反向传播神经网络算法，根据数据分析图生成可视化数据分析图。

步骤S32、响应于用户输入的查询指令，通过可视化数据分析图查询至少一个元数据指标之间的数据关系。

本步骤中，计算机设备基于BP神经网络算法为用户提供查询服务。BP神经网络为多层神经网络，BP神经网络包括三层或三层以上的神经网络，每一层都由若干个神经元组成。具体地，计算机设备响应于用户输入的查询指令，通过可视化数据分析图查询出元数据指标之间的数据关系。查询指令包括查询数据分析图中某一个元数据指标的数据关系的指令，或者，查询指令包括查询数据分析图中的根因质差指标的指令，本发明实施例中对此不作限定。

本发明实施例中，通过反向传播神经网络算法，根据数据分析图生成可视化数据分析图；响应于用户输入的查询指令，通过可视化数据分析图查询至少一个元数据指标之间的数据关系。计算机设备通过BP神经网络算法，可视化查询不同元数据指标之间的数据关系，使数据在使用过程中的流向更加清晰和智能，提高了查询效率。

作为另一种可选方案，步骤106之后，计算机设备还可以执行步骤S4。

S4、根据数据分析图确定出选取出的中心指标与各个终点指标之间的最短路径。

例如，计算机设备可以通过迪杰斯特拉算法，根据数据分析图确定出选取出的中心指标与各个终点指标之间的最短路径。

图5为本发明实施例提供的一种最短路径的确定方法的流程图，如图5所示，步骤S4具体包括：

步骤S41、响应于用户输入的选取指令，从多个元数据指标中选取出中心指标。

本步骤中，计算机设备响应于用户输入的选取指令，从数据分析图中的多个元数据指标中选取出中心指标，中心指标包括需要确定与数据分析图中其它元数据指标之间的最短路径的元数据指标。计算机设备对中心指标进行编号，生成中心指标编号。

图6为本发明实施例提供的一种中心指标与终点指标的示意图，如图6所示，中心指标编号包括指标1，终点指标编号包括指标2、指标3、指标4、指标5和指标6。指标1与指标2之间的最短路径为1，指标1与指标3之间的最短路径为12，指标2与指标3之间的最短路径为9，指标2与指标4之间的最短路径为3，指标3与指标4之间的最短路径为4，指标4与指标5之间的最短路径为13，指标4与指标6之间的最短路径为15，指标5与指标6之间的最短路径为4。

步骤S42、根据中心指标生成中心指标编号，根据中心指标编号构建第一数组。

本步骤中，第一数组包括已经确定出最短路径的元数据指标的编号。初始状态下，第一数组中仅包括中心指标编号。例如，中心指标编号包括指标1，则根据指标1构建第一数组。

步骤S43、根据中心指标确定出终点指标。

本步骤中，终点指标包括数据分析图中除中心指标之外的元数据指标。

步骤S44、根据终点指标生成终点指标编号，根据终点指标编号构建第二数组。

本步骤中，计算机设备对终点指标进行编号，生成终点指标编号。第二数组包括尚未确定出最短路径的元数据指标的编号。初始状态下，第二数组中包括全部的终点指标编号。例如，终点指标编号包括指标2、指标3、指标4、指标5和指标6，则根据指标2、指标3、指标4、指标5和指标6构建第二数组。

步骤S45、从终点指标编号中选取出近距离指标编号。

步骤S46、根据近距离指标编号对第一数组和第二数组进行更新。

本步骤中，计算机设备将近距离指标编号从第二数组中移除，将近距离指标编号加入第一数组。

由于本发明实施例中根据近距离指标同时对第一数组和第二数组进行更新，因此当第一数组中包含全部的终点指标编号时，第二数组为空数组。

步骤S47、判断中心指标与终点指标之间的最短路径是否均已确定。若判断出中心指标与终点指标之间的最短路径均已确定，则执行步骤S48；若判断出中心指标与终点指标之间的最短路径并未全部确定，则执行步骤S45。

作为一种可选方案，计算机设备判断第一数组中是否包含全部的终点指标编号，若判断出第一数组中包含全部的终点指标编号，则执行步骤S48；若判断出第一数组中并未包含全部的终点指标编号，则执行步骤S45。

作为另一种可选方案，计算机设备判断第二数组是否为空数组，若判断出第二数组为空数组，则执行步骤S48；若判断出第二数组不是空数组，则执行步骤S45。

S48、根据中心指标与近距离指标之间的最短路径确定出中心指标与各个终点指标之间的最短路径。

本发明实施例中，响应于用户输入的选取指令，从多个元数据指标中选取出中心指标；根据中心指标构建第一数组；根据中心指标确定出终点指标；根据终点指标构建第二数组；从终点指标中选取出近距离指标；根据近距离指标对第一数组和第二数组进行更新。计算机设备通过对第一数组和第二数组进行更新，确定中心指标与终点指标之间的最短路径，避免了重复确定最短路径的问题，提高了确定最短路径的效率。

作为另一种可选方案，步骤106之后，计算机设备还可以执行步骤S5。

步骤S5、根据数据分析图确定出元数据指标的重要性评分。

例如，计算机设备可以通过PageRank算法，根据数据分析图确定出元数据指标的重要性评分。

图7为本发明实施例提供的一种元数据指标重要性的确定方法的流程图，如图7所示，步骤S5具体包括：

步骤S51、赋予数据分析图中的每个元数据指标相同的初始评分。

步骤S52、通过PageRank算法，根据每个元数据指标的连接分支数量生成多个数量评分。

本步骤中，若元数据指标的连接分支数量越多，则元数据指标的数量评分越高，该元数据指标越重要。

图8为本发明实施例提供的一种元数据指标连接分支的示意图，如图8所示，元数据指标包括node0、node1、node2、node3和node4。其中，node0包括1个连接分支，node1包括4个连接分支，node2包括1个连接分支，node3包括2个连接分支，node4包括3个连接分支。node1的连接分支数量最多，则在该五个元数据指标中，node1的数量评分最高，node1最重要。

步骤S53、通过PageRank算法，根据每个元数据指标的连接分支质量生成多个质量评分。

本步骤中，若元数据指标的连接分支质量越高，则元数据指标的质量评分越高，该元数据指标越重要。

步骤S54、根据数量评分和质量评分对每个元数据指标的初始评分进行迭代更新，将更新后的元数据指标评分作为元数据指标的重要性评分。

本步骤中，计算机设备通过迭代递归算法，根据数量评分和质量评分对每个元数据指标的初始评分进行更新，直到评分稳定，将最后一次更新后的评分作为元数据指标最终的重要性评分。

本发明实施例提供的元数据指标重要性的确定方法的技术方案中，根据数量评分和质量评分对每个元数据指标的初始评分进行迭代更新，将更新后的元数据指标评分作为元数据指标的重要性评分。根据多个因素确定元数据指标的重要性，使得元数据指标的重要性评分更加准确。

步骤107、响应于用户输入的选取指令，从数据分析图中选取出根因质差指标。

本步骤中，用户对数据分析图进行分析后，确定出根因质差指标。计算机设备响应于用户输入的选取指令，从数据分析图中选取出根因质差指标。根因质差指标的数量可以为一个或多个。

作为一种可选方案，数据分析图包括血缘分析图，质差元数据为血缘关系图的终点，因此血缘分析图可以体现数据的来源，以及质差元数据之前的数据加工过程。血缘分析图包括在质差元数据的数据加工过程中，质差元数据与处于质差元数据上游的依赖元数据之间的数据关系。从血缘分析图中选取出根节点，判断根节点是否为质差指标，若判断出根节点为质差指标，则确定出根节点为根因质差指标；若判断出根节点不是质差指标，则确定出根节点不是根因质差指标。

作为另一种可选方案，数据分析图包括影响分析图，质差元数据为影响分析图的起点，因此影响分析图可以体现数据的流向，以及质差元数据之后的数据加工过程。影响分析图包括在质差元数据的数据加工过程中，质差元数据与处于质差元数据下游的依赖元数据之间的数据关系。根因质差指标包括影响分析图中连接分支数量最多的元数据指标，连接分支数量包括直接连接分支数量与间接连接分支数量。直接连接分支数量包括与根因质差指标直接连接的连接分支数量，直接连接分支两端分别连接根因质差指标与直接影响指标；间接连接分支数量包括与根因质差指标间接连接的连接分支数量，间接连接分支两端分别连接直接影响指标与间接影响指标。

图9为本发明实施例提供的一种影响分析图的示意图，如图9所示，影响分析图中包括1个根因质差指标、7个影响指标和8个连接分支。具体地，指标1为根因质差指标。7个影响指标包括4个直接影响指标和3个间接影响指标，其中，指标2、指标3、指标4和指标5为直接影响指标；指标6、指标7和指标8为间接影响指标。8个连接分支包括4个直接连接分支和4个间接连接分支。由于影响指标为根因质差指标下游的元数据指标，受根因质差指标的影响，因此影响指标的数据质量较差的可能性较大。

本发明实施例中，计算机设备还可以通过数据分析图对元数据指标进行差异分析，得到元数据指标之间的差异情况。例如，差异情况包括名字之间的差异情况或属性之间的差异情况。通过差异分析，业务人员可以对差异较小的多个元数据指标从业务定义、数据生成等多个方向进行分析，确定出该多个元数据指标之间的差异；技术人员可以针对差异较小的元数据指标进行信息辨别。

步骤108、根据根因质差指标生成预警信息。

本步骤中，若数据分析图包括血缘分析图，则根据根因质差指标生成预警信息，预警信息包括根因质差指标；若数据分析图包括影响分析图，则根据根因质差指标和影响指标生成预警信息，预警信息包括根因质差指标和影响指标。

本发明实施例提供的根因质差指标的确定方法的技术方案中，获取质差元数据的依赖关系；根据质差元数据和依赖关系确定出与质差元数据相关的依赖元数据；确定出与质差元数据和依赖元数据相关对应的多个元数据指标；通过关系图谱算法，根据多个元数据指标生成数据分析图；响应于用户输入的选取指令，从数据分析图中选取出根因质差指标。计算机设备通过确定根因质差指标，有利于快速定位数据问题，提高了数据问题的处理效率，降低了数据问题的处理成本。

本发明实施例中，根据根因质差指标生成预警信息，提前预警数据风险，有利于数据管理人员快速定位到可能发生问题的元数据指标，并及时进行处理，规避了可能出现的数据问题，避免了数据问题带来的损失，提高了数据问题的处理效率。

作为一种可选方案，元数据治理工具还可以用于完善对数据资产的描述，将数据加工组织成无歧义的数据资产，保证数据的可懂性。数据资产描述包括基本属性、指标业务口径、指标技术口径、相关报表、依赖模型、依赖指标、版本变更历史、字段属性、数据分布中至少一个。如下表1所示，表1示出了数据资产描述中的相关报表描述。

表1

序号	报表名称	报表路径	报表描述	报表编码
					1	小区设备资源合格率报表	资源数据准确率	描述1	TA098766
2	小区地址资源合格率报表	资源数据准确率	描述2	TA986544

如上表1所示，数据资产描述中的相关报表描述包括序号、报表名称、报表路径、报表描述和报表编码。如表1所示，相关报表描述中，序号1对应的报表名称为小区设备资源合格率报表、报表路径为资源数据准确率、报表描述为描述1、报表编码为TA098766。

作为一种可选方案，元数据治理工具还可以用于生成数据资产目录。计算机设备通过元数据治理工具将数据按照数据类型、数据分布以及数据来源进行划分，生成数据资产目录，向数据资产开发者提供合适的资产目录，使数据资产开发者可以通过资产目录进行数据资产发布，掌握数据资产的全局情况，满足数据资产使用者快速定位到自己需要的数据资产。数据资产目录包括序号、资产编号、资产类型、资产名称、所属分类、所属子类、来源系统、所属分层、注册人、资产上线时间中至少一个。如下表2所示，表2示出了数据资产目录。

表2

序号

资产编号

资产类型

资产名称

所属分类

注册人

资产上线时间

1

20190907

数据模型

模型一

资源

王一一

2020-02-01

2

20190908

指标

指标一

资源

李一一

2020-03-01

3

20190909

指标

指标二

业务

赵一一

2020-05-01

如上表2所示，数据资产目录包括序号、资产编号、资产类型、资产名称、所属分类、注册人和资产上线时间。如上表2所示，数据资产目录中，序号1对应的资产编号为20190907、资产类型为数据模型、资产名称为模型一、所属分类为资源、注册人为王一一、资产上线时间为2020-02-01。

作为一种可选方案，元数据治理工具还可以用于生成资产地图。数据资产地图可从资产类型、资产分类、资产分层等多维度进行数据展示，提供数据总量、数据增长量等数据、数据资产的分布情况，各系统之间的数据关系等多层次、多视角的数据资产。数据资产地图包括资产总量、数据模型、指标资产量、数据源接口、数据共享服务、数据模型与指标的分类管理数据、多数据源系统、业务资产变化、资产每日访问量中至少一个。计算机设备可以通过任意数据表达形式对数据资产地图进行展示，本发明实施例对此不作限定。例如，计算机设备可以通过表格、柱状图或折线图对数据资产地图进行展示，本发明实施例中以计算机设备通过表格形式对数据资产地图进行展示为例进行描述。如下表3所示，表3示出了数据资产地图中的数据模型与指标的分类管理数据。

表3

如上表3所示，数据资产地图中的数据模型与指标的分类管理数据包括序号、数据类型、数据名称和数据数量。如上表3所示，数据资产地图中的数据模型与指标的分类管理数据中，序号2对应的数据类型为指标、数据名称为性能业务指标、数据数量为80876。

作为一种可选方案，元数据治理工具还可以用于数据资产价值评估。计算机设备通过元数据治理工具建立数据资产评估体系，自动统计并获取数据资产的使用情况、资产的访问频次以及资产的调用情况和调用趋势，评估数据资产现今的存在价值，并根据评估结果给出对应的数据资产处理建议。数据资产价值评估数据包括序号、模型中文名称、模型英文名称、主题域、主题子域、近2年调用次数、近1年调用次数、年前记录数、年前存储统计、下线原因分析、下线操作中至少一个。如下表4所示，表4示出了数据资产价值评估数据，使得计算机设备可以通过数据资产价值评估数据完成数据资产价值评估。

表4

如上表4所示，数据资产价值评估数据包括序号、模型中文名称、模型英文名称、主题域、主题子域、2019年前记录数、2019年前存储统计和下线原因分析。如上表4所示，数据资产价值评估数据中，序号2对应的模型中文名称为网格人员信息表、模型英文名称为BROADBAND、主题域为资源、主题子域为资源、2019年前记录数为0、2019年前存储统计为15、下线原因分析为2019年没有记录数。

作为一种可选方案，元数据治理工具还可以用于数据检索。计算机设备可以通过元数据治理工具为用户提供快速检索服务和数据集分享服务，提高系统的信息搜索和分享深度，盘活数据资产。

图10为本发明实施例提供的一种根因质差指标的确定装置的结构示意图，如图10所示，该装置包括：获取模块11、第一确定模块12、第二确定模块13、第一生成模块14和选取模块15，获取模块11与第一确定模块12连接，第一确定模块12与第二确定模块13连接，第二确定模块13与第一生成模块14连接，第一生成模块14与选取模块15连接。获取模块11用于获取质差元数据的依赖关系；第一确定模块12用于根据质差元数据和依赖关系确定出与质差元数据相关的依赖元数据；第二确定模块13用于确定出与质差元数据和依赖元数据对应的多个元数据指标；第一生成模块14用于通过关系图谱算法，根据多个元数据指标生成数据分析图；选取模块15用于响应于用户输入的选取指令，从数据分析图中选取出根因质差指标。

本发明实施例中，该装置还包括第二生成模块16。第二生成模块16与选取模块15连接。第二生成模块16用于根据根因质差指标生成预警信息。

图11为本发明实施例提供的一种选取模块的结构示意图，如图11所示，选取模块15包括选取单元151、判断单元152、确定单元153，选取单元151与判断单元152连接，判断单元152与确定单元153连接。选取单元151用于从血缘分析图中选取出根节点；判断单元152用于判断根节点是否为质差指标；确定单元153用于若判断模块152判断出根节点为质差指标，则确定出根节点为根因质差指标。

本发明实施例中，该装置还包括第三生成模块17和查询模块18，第三生成模块17与第一生成模块14和查询模块18连接。第三生成模块17用于通过反向传播BP神经网络算法，根据数据分析图生成可视化数据分析图；查询模块18用于响应于用户输入的查询指令，通过可视化数据分析图查询至少一个元数据指标之间的数据关系。

本发明实施例中，该装置还包括第四生成模块19，第四生成模块19与获取模块11和第一确定模块12连接。第四生成模块19用于根据质差元数据、依赖元数据和依赖关系生成端到端元数据信息链。

图12为本发明实施例提供的一种第四生成模块的结构示意图，如图12所示，第四生成模块19包括第一生成单元191、第二生成单元192、融合单元193、第三生成单元194、第四生成单元195和第五生成单元196，第一生成单元191与融合单元193连接，第二生成单元192与融合单元193连接，融合单元193与第三生成单元194和第四生成单元195连接，第四生成单元195与第五生成单元196连接。第一生成单元191用于根据第一技术元数据和/或第二技术元数据生成技术元数据链；第二生成单元192用于根据第一业务元数据和/或第二业务元数据生成业务元数据链；融合单元193用于根据依赖关系对技术元数据链和业务元数据链进行融合；第三生成单元194用于若融合单元193融合成功，生成端到端元数据信息链；第四生成单元195用于若融合单元193融合失败，通过深度学习模型，对融合失败的技术元数据链和/或业务元数据链原因进行修复，生成修复后的技术元数据链和/或业务元数据链；第五生成单元196用于根据修复后的技术元数据链和/或业务元数据链生成端到端元数据信息链。

本发明实施例提供的根因质差指标的确定装置的技术方案中，获取质差元数据的依赖关系；根据质差元数据和依赖关系确定出与质差元数据相关的依赖元数据；确定出与质差元数据和依赖元数据相关对应的多个元数据指标；通过关系图谱算法，根据多个元数据指标生成数据分析图；响应于用户输入的选取指令，从数据分析图中选取出根因质差指标。计算机设备通过数据分析图确定根因质差指标，有利于快速定位数据问题，提高了数据问题的处理效率，降低了数据问题的处理成本。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行上述根因质差指标的确定方法的实施例。

图13为本发明实施例提供的一种计算机设备的示意图，如图13所示，该实施例的计算机设备3包括：处理器31、存储器32以及存储在存储器32中并可在处理器31上运行的计算机程序33，该计算机程序33被处理器31执行时实现实施例中的根因质差指标的确定方法，为避免重复，此处不一一赘述。

计算机设备3包括，但不仅限于，处理器31、存储器32。本领域技术人员可以理解，图13仅仅是计算机设备3的示例，并不构成对计算机设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如网络设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器31可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器32可以是计算机设备3的内部存储单元，例如计算机设备3的硬盘或内存。存储器32也可以是计算机设备3的外部存储设备，例如计算机设备3上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。进一步地，存储器32还可以既包括计算机设备3的内部存储单元也包括外部存储设备。存储器32用于存储计算机程序以及网络设备所需的其他程序和数据。存储器32还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种根因质差指标的确定方法，其特征在于，所述方法包括：

获取质差元数据的依赖关系；

2.根据权利要求1所述的方法，其特征在于，所述响应于用户输入的选取指令，从所述数据分析图中选取出根因质差指标之后，还包括：

根据所述根因质差指标生成预警信息。

3.根据权利要求1所述的方法，其特征在于，所述数据分析图包括影响分析图，所述根因质差指标包括所述影响分析图中连接分支数量最多的元数据指标。

4.根据权利要求1所述的方法，其特征在于，所述数据分析图包括血缘分析图；

从所述血缘分析图中选取出根节点；

判断所述根节点是否为质差指标；

5.根据权利要求1所述的方法，其特征在于，所述数据分析图包括至少一个元数据指标之间的数据关系；

6.根据权利要求1所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，所述质差元数据包括第一技术元数据或第一业务元数据，所述依赖元数据包括第二技术元数据或第二业务元数据；

若融合成功，生成端到端元数据信息链；

8.一种根因质差指标的确定装置，其特征在于，所述装置包括：

获取模块，用于获取质差元数据的依赖关系；

9.一种计算机设备，其特征在于，包括：一个或多个处理器；存储器；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述计算机设备执行时，使得所述计算机设备执行权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7任一项所述的方法。