CN115543973B

CN115543973B - 一种基于知识谱图与机器学习的数据质量规则推荐方法

Info

Publication number: CN115543973B
Application number: CN202211136980.9A
Authority: CN
Inventors: 金震; 张京日; 穆宇浩
Original assignee: Beijing SunwayWorld Science and Technology Co Ltd
Current assignee: Beijing SunwayWorld Science and Technology Co Ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2023-06-13
Anticipated expiration: 2042-09-19
Also published as: CN115543973A

Abstract

本发明提供了一种基于知识谱图与机器学习的数据质量规则推荐方法，包括：获取历史数据质量规则数据集；基于历史数据质量规则数据集，生成数据质量规则知识图谱；根据数据质量规则知识图谱，获得数据质量规则与数据物理表的映射规律；根据所述映射规律，获取当前数据物理表所对应的当前数据质量规则数据集；基于预设的机器学习数据质量检查模型，生成数据质量检查方案；根据所述数据质量检查方案，检查当前数据质量规则数据集，获得数据物理表质量检查结果；获取符合用户要求的数据质量检查结果，将该数据质量检查结果所对应的数据质量规则推荐给用户。本发明将多个规则组合形成物理表的质量检查方案，可有效提高数据质量检查方案的执行过程。

Description

一种基于知识谱图与机器学习的数据质量规则推荐方法

技术领域

本发明涉及增强数据管理技术领域，具体涉及一种基于知识谱图与机器学习的数据质量规则推荐方法。

背景技术

数据质量是数据治理的核心关键，数据质量的好坏，能够决定数据分析结果的最终有效性，并将引导管理者作出相应决策。一旦数据质量恶劣，达不到要求和标准，必将对决策产生误导，甚至可能会对企业、社会与科学研究造成非常不利影响。但对于不同的数据，如何建立不同的质量规则，以及对那些物理表，该添加何种模式的规则，在实际工作时，通常是由数据管理人员结合质量计划生成。相对来说，管理周期较长，时效性较低，需要更加敏捷、智能的数据质量处理能力，帮助企业提高数据治理的效率。

发明内容

本发明提供了一种基于知识谱图与机器学习的数据质量规则推荐方法，根据数据物理表特征与级别、根据历史的数据质量规则与数据物理表的映射规律，将多个数据质量规则形成数据物理表的质量检查方案，可有效提高数据质量检查方案的执行过程。

一种基于知识谱图与机器学习的数据质量规则推荐方法，包括：

S1：获取历史数据质量规则数据集；

S2：基于历史数据质量规则数据集，生成数据质量规则知识图谱；

S3：根据数据质量规则知识图谱，获得数据质量规则与数据物理表的映射规律；根据所述映射规律，获取当前数据物理表所对应的当前数据质量规则数据集；

S4：基于预设的机器学习数据质量检查模型，生成数据质量检查方案；根据所述数据质量检查方案，检查当前数据质量规则数据集，获得数据物理表质量检查结果；

S5：获取符合用户要求的数据质量检查结果，将该数据质量检查结果所对应的数据质量规则推荐给用户。

进一步地，S1包括：

S101：设置历史数据质量规则对数据质量进行校核的校核效果值；所述校核效果值为衡量数据质量规则对数据质量进行校核的标量参数；

S102：比较全部历史数据质量规则的校核效果值与预设校核效果值的大小；将校核效果值大于预设校核效果值的历史数据质量规则保留，生成第一历史数据质量规则数据集；

S103：将校核效果值小于等于预设校核效果值的历史数据质量规则进行汇总，生成第二历史数据质量规则数据集；

S104：获取备用历史数据质量规则数据库，根据预设的备用匹配条件，获取与第二历史数据质量规则数据集相匹配的第三历史数据质量规则数据集；

S105：汇总第一历史数据质量规则数据集和第三历史数据质量规则数据集，生成历史数据质量规则数据集。

进一步地，S2包括：

S201：对历史数据质量规则数据集中的历史数据质量规则逐一编码，生成数据质量规则编码数据集；

S202：基于数据质量规则编码数据集，获取实体、实体之间的关系以及实体的属性；

S203：根据实体、实体之间的关系以及实体的属性，生成实体-实体关系-实体属性的三元组结构化数据集；

S204：处理三元组结构化数据集，生成数据质量规则知识图谱。

进一步地，S3包括：

S301：根据数据质量规则知识图谱，获取数据质量规则与数据物理表的映射规律；

S302：获取当前数据的物理表特征与级别，基于数据质量规则与数据物理表的映射规律，获得与数据物理表相映射的映射数据质量规则；

S303：汇总所述映射数据质量规则,获得当前数据质量规则数据集。

进一步地，S4包括：

S401：将当前数据质量规则数据集划分为训练数据集和测试数据集；

S402：构建基于逻辑回归的机器学习模型，采用训练数据集训练该机器学习模型，并采用测试数据集测试机器学习模型；

S403：基于测试过的机器学习模型，结合数据物理表特征，生成数据质量检查方案；

S404：利用数据质量检查方案，检查当前数据质量规则数据集，获得数据物理表质量检查结果。

进一步地，S403包括：

S4031：所述数据质量检查方案包括多个独立、且可以删减的子方案，所述子方案根据用户的使用要求进行删减处理；

S4032：执行步骤S4031后，删减处理后的子方案归入预设的闲置方案库，以备误删或再次使用时进行调用。

进一步地，S5包括：

S501：将数据质量检查结果与预设的检查结果阈值进行比较，若数据质量检查结果大于预设的检查结果阈值，则标记所述数据质量检查结果对应的数据质量规则，生成标记数据质量规则；

S502：基于预设的评估方法，对标记数据质量规则进行准确率评估；所述评估方法包括设置准确率阈值以及阈值的浮动区间范围，判断准确率与准确率阈值的差值是否位于所述浮动区间范围内；

S503：将准确率位于所述浮动区间范围内的数据质量规则推荐给用户。

进一步地，S402包括测量机器学习模型识别的准确度，具体步骤为：

S4021：获取正确识别目标类别的第一数据数量；

S4022：获取被错误识别为目标类别的第二数据数量；

S4023：获取正确识别为非目标类别的第三数据数量；

S4024：获取被错误识别为非目标类别的第四数据数量；

S4025：对第一数据数量、第三数据数量求和计算，得到正确识别数据数量总和；对第一数据数量、第二数据数量、第三数据数量、第四数据数量求和计算，得到全部识别数据数量总和；对正确识别数据数量总和、全部识别数据数量总和求商计算，得到机器学习模型识别的准确度。

进一步地，还包括S6，生成数据质量检查报告：

S601：获取衡量数据质量的一个或多个核检维度，以及相对应的核检维度标准；

S602：根据核检维度标准和历史数据质量规则，生成第一核检维度报告模板；

S603：根据预设的指导决策评价条件对核检维度报告模板进行衡量，生成第一评价值；根据预设的追溯效果评价条件对检维度报告模板进行衡量，生成第二评价值；将第一评价值大于预设第一评价值阈值，并且第二评价值大于第二预设评价值阈值的核检维度报告模板保留，生成第二核检维度报告模板；

S604：基于第二核检维度报告模板，生成单维度单项报告模板；汇总多个第二核检维度报告模板，生成多维度综合报告模板；

S605：利用推荐给用户的数据质量规则，代入单维度单项报告模板或多维度综合报告模板，生成单项数据质量检查报告或综合数据质量检查报告。

进一步地，还包括S7，对不合格检查结果的数据进行治理；

S701：根据预设的评分条件，计算得到数据质量的不合格检查结果的得分值；

S702：设置得分值区间，根据得分值区间设置相应的数据质量风险等级；所述得分值区间包括高分值区间、中分值区间、低分值区间，所述数据质量风险等级包括低风险等级、中风险等级、高风险等级；

S703：对低风险等级所对应的数据，调用预设的数据治理方案进行数据治理；对中风险等级对应的数据，结合预设的数据治理方案和预设的数据追溯修正方案进行数据治理；针对高风险等级对应的数据，在对数据弃用的同时进行错误解析，生成解析报告。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明的一种基于知识谱图与机器学习的数据质量规则推荐方法步骤示意图；

图2为本发明的一种基于知识谱图与机器学习的数据质量规则推荐方法生成知识图谱的步骤示意图；

图3为本发明的一种基于知识谱图与机器学习的数据质量规则推荐方法的获得当前数据质量规则数据集的步骤示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

一种基于知识谱图与机器学习的数据质量规则推荐方法，如图1所示，包括：

S1：获取历史数据质量规则数据集；

上述技术方案的工作原理为：数据质量的规则定义，主要还是定位在数据治理事后的检测中，能够反馈出数据质量好坏的变化，产生数据质量评估结果，进而能够反馈到业务源头当中进行标准的迭代维护。

获取历史数据质量规则数据集；基于历史数据质量规则数据集，生成数据质量规则知识图谱；根据数据质量规则知识图谱，获得数据质量规则与数据物理表的映射规律；根据所述映射规律，获取当前数据物理表所对应的当前数据质量规则数据集；基于预设的机器学习数据质量检查模型，生成数据质量检查方案；根据所述数据质量检查方案，检查当前数据质量规则数据集，获得数据物理表质量检查结果；获取符合用户要求的数据质量检查结果，将该数据质量检查结果所对应的数据质量规则推荐给用户。

上述技术方案的有益效果为：采用本实施例提供的方案，根据数据物理表特征与级别、根据历史的数据质量规则与数据物理表的映射规律，将多个数据质量规则形成数据物理表的质量检查方案，可有效提高数据质量检查方案的执行过程。

在一个实施例中，S1包括：

上述技术方案的工作原理为：S1包括：

上述技术方案的有益效果为：采用本实施例提供的方案，通过校核效果值的校核以及利用备用历史数据质量规则数据库进行匹配调用，可以保证历史数据质量规则数据集中数据的质量。

在一个实施例中，如图2所示，S2包括：

上述技术方案的工作原理为：S2包括：

上述技术方案的有益效果为：采用本实施例提供的方案，通过逐一编码，并生成数据质量规则知识图谱，保证了知识图谱的精确性。

在一个实施例中，如图3所示，S3包括：

上述技术方案的工作原理为：S3包括：

上述技术方案的有益效果为：采用本实施例提供的方案，通过数据质量规则知识图谱的映射保证获得相对应的可靠的数据质量规则数据集。

在一个实施例中，S4包括：

上述技术方案的工作原理为：在基于机器学习的方法选择上，通过数据驱动来学习如何评估数据物理表的质量，不仅能够制定一个合理定量的评估方法来评估，还能够一定程度上减少工作人员的工作量；在统计学中，逻辑模型被用来建模某个类别或事件存在的概率；逻辑回归的目标是找到一个有区分度的决策边界，将两类很好的分开，找到分类概率与输入向量的直接关系，然后通过比较概率值来判断类别；本实施例采集逻辑回归的方法；具体包括：

上述技术方案的有益效果为：采用本实施例提供的方案，通过对机器学习模型的训练和测试，可以保证机器学习模型的效果，从而保证数据物理表的质量检查效果的真实、可靠。

在一个实施例中，S403包括：

上述技术方案的工作原理为：S403包括：

上述技术方案的有益效果为：采用本实施例提供的方案，可以保证灵活地、根据实际需要使用数据质量检查方案，从而保证数据质量检查的效果。

在一个实施例中，S5包括：

上述技术方案的工作原理为：S5包括：

上述技术方案的有益效果为：采用本实施例提供的方案，通过对数据质量规则的进一步评估，可以保证为用户推荐准确率高、效果有效的数据质量规则。

在一个实施例中，S402包括测量机器学习模型识别的准确度，具体步骤为：

S4021：获取正确识别目标类别的第一数据数量；

S4022：获取被错误识别为目标类别的第二数据数量；

S4023：获取正确识别为非目标类别的第三数据数量；

S4024：获取被错误识别为非目标类别的第四数据数量；

上述技术方案的工作原理为：S402包括测量机器学习模型识别的准确度，具体步骤为：

S4021：获取正确识别目标类别的第一数据数量H_t；

S4022：获取被错误识别为目标类别的第二数据数量H_f；

S4023：获取正确识别为非目标类别的第三数据数量Q_t；

S4024：获取被错误识别为非目标类别的第四数据数量Q_f；

S4025：对第一数据数量、第三数据数量求和计算，得到正确识别数据数量总和；对第一数据数量、第二数据数量、第三数据数量、第四数据数量求和计算，得到全部识别数据数量总和；对正确识别数据数量总和、全部识别数据数量总和求商计算，得到机器学习模型识别的准确度，其计算公式为：

其中，H_t表示获取正确识别目标类别的第一数据数量；H_f表示被错误识别为目标类别的第二数据数量；Q_t表示正确识别为非目标类别的第三数据数量；Q_f表示被错误识别为非目标类别的第四数据数量。

为了更好的体现机器学习模型识别的准确度，本实施例使用预设的f个分类器对数据质量规则进行预测，预测的结果为准确度分值；高质量的数据物理表具有其相应清晰的特征，从而使所有分类器都能更准确地对其进行预测。即相应的分类器更有可能将其预测为1，而其他分类器则更能预测为0。相反，低质量的数据物理表的特征不明显；因此，相应的分类器将更有可能将其预测为0，而其他分类器将其预测为1；当多个分类器在数据物理表的特征类别存在分歧时，需要一种方法来权衡它们的意见；将分类器的敏感度设置为其决策权重来获得矩阵，然后按敏感度加权并归一化到区间[0,10]后，计算准确性分值，计算公式如下：

其中，B_s为准确度分值；R_α是分类器第α个分类器所对应的敏感度；1≤α≤f；f是分类器的个数；

是分类器的敏感度决策权重与相应类别中最高质量数据物理表的决策权重之间的欧式距离；从公式可以得出，

值越小，则B_s的值越大，即数据物理表的质量越好，则分值越高。

上述技术方案的有益效果为：采用本实施例提供的方案，采用作为质量意见的分类器计算准确度得分，以及利用获取的识别目标类别、非目标类别的数据数量，计算准确度值，可以确保生成的机器学习模型识别的准确度。

在一个实施例中，还包括S6，生成数据质量检查报告：

上述技术方案的工作原理为：数据质量检查报告可以全面地、系统地反映数据质量状况，通过对数据质量的维度进行分类，从而形成单维或综合维度的数据质量检查报告，可以为用户提供参考；具体为：

上述技术方案的有益效果为：采用本实施例提供的方案，通过生成单项或综合数据质量检查报告，可以为数据治理管理工作人员提供详细地数据治理工作参考。

在一个实施例中，还包括S7，对不合格检查结果的数据进行治理；

上述技术方案的工作原理为：数据质量风险类别动态调整是数据治理工作的重要内容，根据数据质量的得分，从而确定其风险等级，然后根据不同的风险等级进行有针对性的数据治理，可以提高数据治理的效果。具体为：

上述技术方案的有益效果为：采用本实施例提供的方案，通过对数据质量进行风险等级分级，并确定不同的治理方法，可以提高数据治理的效果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。