CN115543973B - 一种基于知识谱图与机器学习的数据质量规则推荐方法 - Google Patents

一种基于知识谱图与机器学习的数据质量规则推荐方法 Download PDF

Info

Publication number
CN115543973B
CN115543973B CN202211136980.9A CN202211136980A CN115543973B CN 115543973 B CN115543973 B CN 115543973B CN 202211136980 A CN202211136980 A CN 202211136980A CN 115543973 B CN115543973 B CN 115543973B
Authority
CN
China
Prior art keywords
data
data quality
rule
quality rule
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211136980.9A
Other languages
English (en)
Other versions
CN115543973A (zh
Inventor
金震
张京日
穆宇浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SunwayWorld Science and Technology Co Ltd
Original Assignee
Beijing SunwayWorld Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SunwayWorld Science and Technology Co Ltd filed Critical Beijing SunwayWorld Science and Technology Co Ltd
Priority to CN202211136980.9A priority Critical patent/CN115543973B/zh
Publication of CN115543973A publication Critical patent/CN115543973A/zh
Application granted granted Critical
Publication of CN115543973B publication Critical patent/CN115543973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • General Factory Administration (AREA)

Abstract

本发明提供了一种基于知识谱图与机器学习的数据质量规则推荐方法,包括:获取历史数据质量规则数据集;基于历史数据质量规则数据集,生成数据质量规则知识图谱;根据数据质量规则知识图谱,获得数据质量规则与数据物理表的映射规律;根据所述映射规律,获取当前数据物理表所对应的当前数据质量规则数据集;基于预设的机器学习数据质量检查模型,生成数据质量检查方案;根据所述数据质量检查方案,检查当前数据质量规则数据集,获得数据物理表质量检查结果;获取符合用户要求的数据质量检查结果,将该数据质量检查结果所对应的数据质量规则推荐给用户。本发明将多个规则组合形成物理表的质量检查方案,可有效提高数据质量检查方案的执行过程。

Description

一种基于知识谱图与机器学习的数据质量规则推荐方法
技术领域
本发明涉及增强数据管理技术领域,具体涉及一种基于知识谱图与机器学习的数据质量规则推荐方法。
背景技术
数据质量是数据治理的核心关键,数据质量的好坏,能够决定数据分析结果的最终有效性,并将引导管理者作出相应决策。一旦数据质量恶劣,达不到要求和标准,必将对决策产生误导,甚至可能会对企业、社会与科学研究造成非常不利影响。但对于不同的数据,如何建立不同的质量规则,以及对那些物理表,该添加何种模式的规则,在实际工作时,通常是由数据管理人员结合质量计划生成。相对来说,管理周期较长,时效性较低,需要更加敏捷、智能的数据质量处理能力,帮助企业提高数据治理的效率。
发明内容
本发明提供了一种基于知识谱图与机器学习的数据质量规则推荐方法,根据数据物理表特征与级别、根据历史的数据质量规则与数据物理表的映射规律,将多个数据质量规则形成数据物理表的质量检查方案,可有效提高数据质量检查方案的执行过程。
一种基于知识谱图与机器学习的数据质量规则推荐方法,包括:
S1:获取历史数据质量规则数据集;
S2:基于历史数据质量规则数据集,生成数据质量规则知识图谱;
S3:根据数据质量规则知识图谱,获得数据质量规则与数据物理表的映射规律;根据所述映射规律,获取当前数据物理表所对应的当前数据质量规则数据集;
S4:基于预设的机器学习数据质量检查模型,生成数据质量检查方案;根据所述数据质量检查方案,检查当前数据质量规则数据集,获得数据物理表质量检查结果;
S5:获取符合用户要求的数据质量检查结果,将该数据质量检查结果所对应的数据质量规则推荐给用户。
进一步地,S1包括:
S101:设置历史数据质量规则对数据质量进行校核的校核效果值;所述校核效果值为衡量数据质量规则对数据质量进行校核的标量参数;
S102:比较全部历史数据质量规则的校核效果值与预设校核效果值的大小;将校核效果值大于预设校核效果值的历史数据质量规则保留,生成第一历史数据质量规则数据集;
S103:将校核效果值小于等于预设校核效果值的历史数据质量规则进行汇总,生成第二历史数据质量规则数据集;
S104:获取备用历史数据质量规则数据库,根据预设的备用匹配条件,获取与第二历史数据质量规则数据集相匹配的第三历史数据质量规则数据集;
S105:汇总第一历史数据质量规则数据集和第三历史数据质量规则数据集,生成历史数据质量规则数据集。
进一步地,S2包括:
S201:对历史数据质量规则数据集中的历史数据质量规则逐一编码,生成数据质量规则编码数据集;
S202:基于数据质量规则编码数据集,获取实体、实体之间的关系以及实体的属性;
S203:根据实体、实体之间的关系以及实体的属性,生成实体-实体关系-实体属性的三元组结构化数据集;
S204:处理三元组结构化数据集,生成数据质量规则知识图谱。
进一步地,S3包括:
S301:根据数据质量规则知识图谱,获取数据质量规则与数据物理表的映射规律;
S302:获取当前数据的物理表特征与级别,基于数据质量规则与数据物理表的映射规律,获得与数据物理表相映射的映射数据质量规则;
S303:汇总所述映射数据质量规则,获得当前数据质量规则数据集。
进一步地,S4包括:
S401:将当前数据质量规则数据集划分为训练数据集和测试数据集;
S402:构建基于逻辑回归的机器学习模型,采用训练数据集训练该机器学习模型,并采用测试数据集测试机器学习模型;
S403:基于测试过的机器学习模型,结合数据物理表特征,生成数据质量检查方案;
S404:利用数据质量检查方案,检查当前数据质量规则数据集,获得数据物理表质量检查结果。
进一步地,S403包括:
S4031:所述数据质量检查方案包括多个独立、且可以删减的子方案,所述子方案根据用户的使用要求进行删减处理;
S4032:执行步骤S4031后,删减处理后的子方案归入预设的闲置方案库,以备误删或再次使用时进行调用。
进一步地,S5包括:
S501:将数据质量检查结果与预设的检查结果阈值进行比较,若数据质量检查结果大于预设的检查结果阈值,则标记所述数据质量检查结果对应的数据质量规则,生成标记数据质量规则;
S502:基于预设的评估方法,对标记数据质量规则进行准确率评估;所述评估方法包括设置准确率阈值以及阈值的浮动区间范围,判断准确率与准确率阈值的差值是否位于所述浮动区间范围内;
S503:将准确率位于所述浮动区间范围内的数据质量规则推荐给用户。
进一步地,S402包括测量机器学习模型识别的准确度,具体步骤为:
S4021:获取正确识别目标类别的第一数据数量;
S4022:获取被错误识别为目标类别的第二数据数量;
S4023:获取正确识别为非目标类别的第三数据数量;
S4024:获取被错误识别为非目标类别的第四数据数量;
S4025:对第一数据数量、第三数据数量求和计算,得到正确识别数据数量总和;对第一数据数量、第二数据数量、第三数据数量、第四数据数量求和计算,得到全部识别数据数量总和;对正确识别数据数量总和、全部识别数据数量总和求商计算,得到机器学习模型识别的准确度。
进一步地,还包括S6,生成数据质量检查报告:
S601:获取衡量数据质量的一个或多个核检维度,以及相对应的核检维度标准;
S602:根据核检维度标准和历史数据质量规则,生成第一核检维度报告模板;
S603:根据预设的指导决策评价条件对核检维度报告模板进行衡量,生成第一评价值;根据预设的追溯效果评价条件对检维度报告模板进行衡量,生成第二评价值;将第一评价值大于预设第一评价值阈值,并且第二评价值大于第二预设评价值阈值的核检维度报告模板保留,生成第二核检维度报告模板;
S604:基于第二核检维度报告模板,生成单维度单项报告模板;汇总多个第二核检维度报告模板,生成多维度综合报告模板;
S605:利用推荐给用户的数据质量规则,代入单维度单项报告模板或多维度综合报告模板,生成单项数据质量检查报告或综合数据质量检查报告。
进一步地,还包括S7,对不合格检查结果的数据进行治理;
S701:根据预设的评分条件,计算得到数据质量的不合格检查结果的得分值;
S702:设置得分值区间,根据得分值区间设置相应的数据质量风险等级;所述得分值区间包括高分值区间、中分值区间、低分值区间,所述数据质量风险等级包括低风险等级、中风险等级、高风险等级;
S703:对低风险等级所对应的数据,调用预设的数据治理方案进行数据治理;对中风险等级对应的数据,结合预设的数据治理方案和预设的数据追溯修正方案进行数据治理;针对高风险等级对应的数据,在对数据弃用的同时进行错误解析,生成解析报告。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明的一种基于知识谱图与机器学习的数据质量规则推荐方法步骤示意图;
图2为本发明的一种基于知识谱图与机器学习的数据质量规则推荐方法生成知识图谱的步骤示意图;
图3为本发明的一种基于知识谱图与机器学习的数据质量规则推荐方法的获得当前数据质量规则数据集的步骤示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
一种基于知识谱图与机器学习的数据质量规则推荐方法,如图1所示,包括:
S1:获取历史数据质量规则数据集;
S2:基于历史数据质量规则数据集,生成数据质量规则知识图谱;
S3:根据数据质量规则知识图谱,获得数据质量规则与数据物理表的映射规律;根据所述映射规律,获取当前数据物理表所对应的当前数据质量规则数据集;
S4:基于预设的机器学习数据质量检查模型,生成数据质量检查方案;根据所述数据质量检查方案,检查当前数据质量规则数据集,获得数据物理表质量检查结果;
S5:获取符合用户要求的数据质量检查结果,将该数据质量检查结果所对应的数据质量规则推荐给用户。
上述技术方案的工作原理为:数据质量的规则定义,主要还是定位在数据治理事后的检测中,能够反馈出数据质量好坏的变化,产生数据质量评估结果,进而能够反馈到业务源头当中进行标准的迭代维护。
获取历史数据质量规则数据集;基于历史数据质量规则数据集,生成数据质量规则知识图谱;根据数据质量规则知识图谱,获得数据质量规则与数据物理表的映射规律;根据所述映射规律,获取当前数据物理表所对应的当前数据质量规则数据集;基于预设的机器学习数据质量检查模型,生成数据质量检查方案;根据所述数据质量检查方案,检查当前数据质量规则数据集,获得数据物理表质量检查结果;获取符合用户要求的数据质量检查结果,将该数据质量检查结果所对应的数据质量规则推荐给用户。
上述技术方案的有益效果为:采用本实施例提供的方案,根据数据物理表特征与级别、根据历史的数据质量规则与数据物理表的映射规律,将多个数据质量规则形成数据物理表的质量检查方案,可有效提高数据质量检查方案的执行过程。
在一个实施例中,S1包括:
S101:设置历史数据质量规则对数据质量进行校核的校核效果值;所述校核效果值为衡量数据质量规则对数据质量进行校核的标量参数;
S102:比较全部历史数据质量规则的校核效果值与预设校核效果值的大小;将校核效果值大于预设校核效果值的历史数据质量规则保留,生成第一历史数据质量规则数据集;
S103:将校核效果值小于等于预设校核效果值的历史数据质量规则进行汇总,生成第二历史数据质量规则数据集;
S104:获取备用历史数据质量规则数据库,根据预设的备用匹配条件,获取与第二历史数据质量规则数据集相匹配的第三历史数据质量规则数据集;
S105:汇总第一历史数据质量规则数据集和第三历史数据质量规则数据集,生成历史数据质量规则数据集。
上述技术方案的工作原理为:S1包括:
S101:设置历史数据质量规则对数据质量进行校核的校核效果值;所述校核效果值为衡量数据质量规则对数据质量进行校核的标量参数;
S102:比较全部历史数据质量规则的校核效果值与预设校核效果值的大小;将校核效果值大于预设校核效果值的历史数据质量规则保留,生成第一历史数据质量规则数据集;
S103:将校核效果值小于等于预设校核效果值的历史数据质量规则进行汇总,生成第二历史数据质量规则数据集;
S104:获取备用历史数据质量规则数据库,根据预设的备用匹配条件,获取与第二历史数据质量规则数据集相匹配的第三历史数据质量规则数据集;
S105:汇总第一历史数据质量规则数据集和第三历史数据质量规则数据集,生成历史数据质量规则数据集。
上述技术方案的有益效果为:采用本实施例提供的方案,通过校核效果值的校核以及利用备用历史数据质量规则数据库进行匹配调用,可以保证历史数据质量规则数据集中数据的质量。
在一个实施例中,如图2所示,S2包括:
S201:对历史数据质量规则数据集中的历史数据质量规则逐一编码,生成数据质量规则编码数据集;
S202:基于数据质量规则编码数据集,获取实体、实体之间的关系以及实体的属性;
S203:根据实体、实体之间的关系以及实体的属性,生成实体-实体关系-实体属性的三元组结构化数据集;
S204:处理三元组结构化数据集,生成数据质量规则知识图谱。
上述技术方案的工作原理为:S2包括:
S201:对历史数据质量规则数据集中的历史数据质量规则逐一编码,生成数据质量规则编码数据集;
S202:基于数据质量规则编码数据集,获取实体、实体之间的关系以及实体的属性;
S203:根据实体、实体之间的关系以及实体的属性,生成实体-实体关系-实体属性的三元组结构化数据集;
S204:处理三元组结构化数据集,生成数据质量规则知识图谱。
上述技术方案的有益效果为:采用本实施例提供的方案,通过逐一编码,并生成数据质量规则知识图谱,保证了知识图谱的精确性。
在一个实施例中,如图3所示,S3包括:
S301:根据数据质量规则知识图谱,获取数据质量规则与数据物理表的映射规律;
S302:获取当前数据的物理表特征与级别,基于数据质量规则与数据物理表的映射规律,获得与数据物理表相映射的映射数据质量规则;
S303:汇总所述映射数据质量规则,获得当前数据质量规则数据集。
上述技术方案的工作原理为:S3包括:
S301:根据数据质量规则知识图谱,获取数据质量规则与数据物理表的映射规律;
S302:获取当前数据的物理表特征与级别,基于数据质量规则与数据物理表的映射规律,获得与数据物理表相映射的映射数据质量规则;
S303:汇总所述映射数据质量规则,获得当前数据质量规则数据集。
上述技术方案的有益效果为:采用本实施例提供的方案,通过数据质量规则知识图谱的映射保证获得相对应的可靠的数据质量规则数据集。
在一个实施例中,S4包括:
S401:将当前数据质量规则数据集划分为训练数据集和测试数据集;
S402:构建基于逻辑回归的机器学习模型,采用训练数据集训练该机器学习模型,并采用测试数据集测试机器学习模型;
S403:基于测试过的机器学习模型,结合数据物理表特征,生成数据质量检查方案;
S404:利用数据质量检查方案,检查当前数据质量规则数据集,获得数据物理表质量检查结果。
上述技术方案的工作原理为:在基于机器学习的方法选择上,通过数据驱动来学习如何评估数据物理表的质量,不仅能够制定一个合理定量的评估方法来评估,还能够一定程度上减少工作人员的工作量;在统计学中,逻辑模型被用来建模某个类别或事件存在的概率;逻辑回归的目标是找到一个有区分度的决策边界,将两类很好的分开,找到分类概率与输入向量的直接关系,然后通过比较概率值来判断类别;本实施例采集逻辑回归的方法;具体包括:
S401:将当前数据质量规则数据集划分为训练数据集和测试数据集;
S402:构建基于逻辑回归的机器学习模型,采用训练数据集训练该机器学习模型,并采用测试数据集测试机器学习模型;
S403:基于测试过的机器学习模型,结合数据物理表特征,生成数据质量检查方案;
S404:利用数据质量检查方案,检查当前数据质量规则数据集,获得数据物理表质量检查结果。
上述技术方案的有益效果为:采用本实施例提供的方案,通过对机器学习模型的训练和测试,可以保证机器学习模型的效果,从而保证数据物理表的质量检查效果的真实、可靠。
在一个实施例中,S403包括:
S4031:所述数据质量检查方案包括多个独立、且可以删减的子方案,所述子方案根据用户的使用要求进行删减处理;
S4032:执行步骤S4031后,删减处理后的子方案归入预设的闲置方案库,以备误删或再次使用时进行调用。
上述技术方案的工作原理为:S403包括:
S4031:所述数据质量检查方案包括多个独立、且可以删减的子方案,所述子方案根据用户的使用要求进行删减处理;
S4032:执行步骤S4031后,删减处理后的子方案归入预设的闲置方案库,以备误删或再次使用时进行调用。
上述技术方案的有益效果为:采用本实施例提供的方案,可以保证灵活地、根据实际需要使用数据质量检查方案,从而保证数据质量检查的效果。
在一个实施例中,S5包括:
S501:将数据质量检查结果与预设的检查结果阈值进行比较,若数据质量检查结果大于预设的检查结果阈值,则标记所述数据质量检查结果对应的数据质量规则,生成标记数据质量规则;
S502:基于预设的评估方法,对标记数据质量规则进行准确率评估;所述评估方法包括设置准确率阈值以及阈值的浮动区间范围,判断准确率与准确率阈值的差值是否位于所述浮动区间范围内;
S503:将准确率位于所述浮动区间范围内的数据质量规则推荐给用户。
上述技术方案的工作原理为:S5包括:
S501:将数据质量检查结果与预设的检查结果阈值进行比较,若数据质量检查结果大于预设的检查结果阈值,则标记所述数据质量检查结果对应的数据质量规则,生成标记数据质量规则;
S502:基于预设的评估方法,对标记数据质量规则进行准确率评估;所述评估方法包括设置准确率阈值以及阈值的浮动区间范围,判断准确率与准确率阈值的差值是否位于所述浮动区间范围内;
S503:将准确率位于所述浮动区间范围内的数据质量规则推荐给用户。
上述技术方案的有益效果为:采用本实施例提供的方案,通过对数据质量规则的进一步评估,可以保证为用户推荐准确率高、效果有效的数据质量规则。
在一个实施例中,S402包括测量机器学习模型识别的准确度,具体步骤为:
S4021:获取正确识别目标类别的第一数据数量;
S4022:获取被错误识别为目标类别的第二数据数量;
S4023:获取正确识别为非目标类别的第三数据数量;
S4024:获取被错误识别为非目标类别的第四数据数量;
S4025:对第一数据数量、第三数据数量求和计算,得到正确识别数据数量总和;对第一数据数量、第二数据数量、第三数据数量、第四数据数量求和计算,得到全部识别数据数量总和;对正确识别数据数量总和、全部识别数据数量总和求商计算,得到机器学习模型识别的准确度。
上述技术方案的工作原理为:S402包括测量机器学习模型识别的准确度,具体步骤为:
S4021:获取正确识别目标类别的第一数据数量Ht
S4022:获取被错误识别为目标类别的第二数据数量Hf
S4023:获取正确识别为非目标类别的第三数据数量Qt
S4024:获取被错误识别为非目标类别的第四数据数量Qf
S4025:对第一数据数量、第三数据数量求和计算,得到正确识别数据数量总和;对第一数据数量、第二数据数量、第三数据数量、第四数据数量求和计算,得到全部识别数据数量总和;对正确识别数据数量总和、全部识别数据数量总和求商计算,得到机器学习模型识别的准确度,其计算公式为:
Figure BDA0003851822470000121
/>
其中,Ht表示获取正确识别目标类别的第一数据数量;Hf表示被错误识别为目标类别的第二数据数量;Qt表示正确识别为非目标类别的第三数据数量;Qf表示被错误识别为非目标类别的第四数据数量。
为了更好的体现机器学习模型识别的准确度,本实施例使用预设的f个分类器对数据质量规则进行预测,预测的结果为准确度分值;高质量的数据物理表具有其相应清晰的特征,从而使所有分类器都能更准确地对其进行预测。即相应的分类器更有可能将其预测为1,而其他分类器则更能预测为0。相反,低质量的数据物理表的特征不明显;因此,相应的分类器将更有可能将其预测为0,而其他分类器将其预测为1;当多个分类器在数据物理表的特征类别存在分歧时,需要一种方法来权衡它们的意见;将分类器的敏感度设置为其决策权重来获得矩阵,然后按敏感度加权并归一化到区间[0,10]后,计算准确性分值,计算公式如下:
Figure BDA0003851822470000131
其中,Bs为准确度分值;Rα是分类器第α个分类器所对应的敏感度;1≤α≤f;f是分类器的个数;
Figure BDA0003851822470000132
是分类器的敏感度决策权重与相应类别中最高质量数据物理表的决策权重之间的欧式距离;从公式可以得出,/>
Figure BDA0003851822470000133
值越小,则Bs的值越大,即数据物理表的质量越好,则分值越高。
上述技术方案的有益效果为:采用本实施例提供的方案,采用作为质量意见的分类器计算准确度得分,以及利用获取的识别目标类别、非目标类别的数据数量,计算准确度值,可以确保生成的机器学习模型识别的准确度。
在一个实施例中,还包括S6,生成数据质量检查报告:
S601:获取衡量数据质量的一个或多个核检维度,以及相对应的核检维度标准;
S602:根据核检维度标准和历史数据质量规则,生成第一核检维度报告模板;
S603:根据预设的指导决策评价条件对核检维度报告模板进行衡量,生成第一评价值;根据预设的追溯效果评价条件对检维度报告模板进行衡量,生成第二评价值;将第一评价值大于预设第一评价值阈值,并且第二评价值大于第二预设评价值阈值的核检维度报告模板保留,生成第二核检维度报告模板;
S604:基于第二核检维度报告模板,生成单维度单项报告模板;汇总多个第二核检维度报告模板,生成多维度综合报告模板;
S605:利用推荐给用户的数据质量规则,代入单维度单项报告模板或多维度综合报告模板,生成单项数据质量检查报告或综合数据质量检查报告。
上述技术方案的工作原理为:数据质量检查报告可以全面地、系统地反映数据质量状况,通过对数据质量的维度进行分类,从而形成单维或综合维度的数据质量检查报告,可以为用户提供参考;具体为:
S601:获取衡量数据质量的一个或多个核检维度,以及相对应的核检维度标准;
S602:根据核检维度标准和历史数据质量规则,生成第一核检维度报告模板;
S603:根据预设的指导决策评价条件对核检维度报告模板进行衡量,生成第一评价值;根据预设的追溯效果评价条件对检维度报告模板进行衡量,生成第二评价值;将第一评价值大于预设第一评价值阈值,并且第二评价值大于第二预设评价值阈值的核检维度报告模板保留,生成第二核检维度报告模板;
S604:基于第二核检维度报告模板,生成单维度单项报告模板;汇总多个第二核检维度报告模板,生成多维度综合报告模板;
S605:利用推荐给用户的数据质量规则,代入单维度单项报告模板或多维度综合报告模板,生成单项数据质量检查报告或综合数据质量检查报告。
上述技术方案的有益效果为:采用本实施例提供的方案,通过生成单项或综合数据质量检查报告,可以为数据治理管理工作人员提供详细地数据治理工作参考。
在一个实施例中,还包括S7,对不合格检查结果的数据进行治理;
S701:根据预设的评分条件,计算得到数据质量的不合格检查结果的得分值;
S702:设置得分值区间,根据得分值区间设置相应的数据质量风险等级;所述得分值区间包括高分值区间、中分值区间、低分值区间,所述数据质量风险等级包括低风险等级、中风险等级、高风险等级;
S703:对低风险等级所对应的数据,调用预设的数据治理方案进行数据治理;对中风险等级对应的数据,结合预设的数据治理方案和预设的数据追溯修正方案进行数据治理;针对高风险等级对应的数据,在对数据弃用的同时进行错误解析,生成解析报告。
上述技术方案的工作原理为:数据质量风险类别动态调整是数据治理工作的重要内容,根据数据质量的得分,从而确定其风险等级,然后根据不同的风险等级进行有针对性的数据治理,可以提高数据治理的效果。具体为:
S701:根据预设的评分条件,计算得到数据质量的不合格检查结果的得分值;
S702:设置得分值区间,根据得分值区间设置相应的数据质量风险等级;所述得分值区间包括高分值区间、中分值区间、低分值区间,所述数据质量风险等级包括低风险等级、中风险等级、高风险等级;
S703:对低风险等级所对应的数据,调用预设的数据治理方案进行数据治理;对中风险等级对应的数据,结合预设的数据治理方案和预设的数据追溯修正方案进行数据治理;针对高风险等级对应的数据,在对数据弃用的同时进行错误解析,生成解析报告。
上述技术方案的有益效果为:采用本实施例提供的方案,通过对数据质量进行风险等级分级,并确定不同的治理方法,可以提高数据治理的效果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于知识谱图与机器学习的数据质量规则推荐方法,其特征在于,包括:
S1:获取历史数据质量规则数据集;
S2:基于历史数据质量规则数据集,生成数据质量规则知识图谱;
S3:根据数据质量规则知识图谱,获得数据质量规则与数据物理表的映射规律;根据所述映射规律,获取当前数据物理表所对应的当前数据质量规则数据集;
S4:基于预设的机器学习数据质量检查模型,生成数据质量检查方案;根据所述数据质量检查方案,检查当前数据质量规则数据集,获得数据质量检查结果;
S5:获取符合用户要求的数据质量检查结果,将该数据质量检查结果所对应的数据质量规则推荐给用户;
S4包括:
S401:将当前数据质量规则数据集划分为训练数据集和测试数据集;
S402:构建基于逻辑回归的机器学习模型,采用训练数据集训练该机器学习模型,并采用测试数据集测试机器学习模型;
S403:基于测试过的机器学习模型,结合数据物理表特征,生成数据质量检查方案;
S404:利用数据质量检查方案,检查当前数据质量规则数据集,获得数据质量检查结果;
S402包括测量机器学习模型识别的准确度,具体步骤为:
S4021:获取正确识别目标类别的第一数据数量;
S4022:获取被错误识别为目标类别的第二数据数量;
S4023:获取正确识别为非目标类别的第三数据数量;
S4024:获取被错误识别为非目标类别的第四数据数量;
S4025:对第一数据数量、第三数据数量求和计算,得到正确识别数据数量总和;对第一数据数量、第二数据数量、第三数据数量、第四数据数量求和计算,得到全部识别数据数量总和;对正确识别数据数量总和、全部识别数据数量总和求商计算,得到机器学习模型识别的准确度;
使用预设的f个分类器对数据质量规则进行预测,预测的结果为准确度分值;当多个分类器在数据物理表的特征类别存在分歧时,将分类器的敏感度设置为其决策权重来获得矩阵,然后按敏感度加权并归一化到区间[0,10]后,计算准确性分值,计算公式如下:
Figure QLYQS_1
其中,
Figure QLYQS_2
为准确度分值;/>
Figure QLYQS_3
是分类器第/>
Figure QLYQS_4
个分类器所对应的敏感度;1≤/>
Figure QLYQS_5
≤f;f是分类器的个数;/>
Figure QLYQS_6
是分类器的敏感度决策权重与相应类别中最高质量数据物理表的决策权重之间的欧式距离;从公式可以得出,/>
Figure QLYQS_7
值越小,则/>
Figure QLYQS_8
的值越大,即数据物理表的质量越好,则分值越高。
2.根据权利要求1所述的一种基于知识谱图与机器学习的数据质量规则推荐方法,其特征在于,S1包括:
S101:设置历史数据质量规则对数据质量进行校核的校核效果值;所述校核效果值为衡量数据质量规则对数据质量进行校核的标量参数;
S102:比较全部历史数据质量规则的校核效果值与预设校核效果值的大小;将校核效果值大于预设校核效果值的历史数据质量规则保留,生成第一历史数据质量规则数据集;
S103:将校核效果值小于等于预设校核效果值的历史数据质量规则进行汇总,生成第二历史数据质量规则数据集;
S104:获取备用历史数据质量规则数据库,根据预设的备用匹配条件,获取与第二历史数据质量规则数据集相匹配的第三历史数据质量规则数据集;
S105:汇总第一历史数据质量规则数据集和第三历史数据质量规则数据集,生成历史数据质量规则数据集。
3.根据权利要求2所述的一种基于知识谱图与机器学习的数据质量规则推荐方法,其特征在于,S2包括:
S201:对历史数据质量规则数据集中的历史数据质量规则逐一编码,生成数据质量规则编码数据集;
S202:基于数据质量规则编码数据集,获取实体、实体之间的关系以及实体的属性;
S203:根据实体、实体之间的关系以及实体的属性,生成实体-实体关系-实体属性的三元组结构化数据集;
S204:处理三元组结构化数据集,生成数据质量规则知识图谱。
4.根据权利要求1所述一种基于知识谱图与机器学习的数据质量规则推荐方法,其特征在于,S3包括:
S301:根据数据质量规则知识图谱,获取数据质量规则与数据物理表的映射规律;
S302:获取当前数据的物理表特征与级别,基于数据质量规则与数据物理表的映射规律,获得与数据物理表相映射的映射数据质量规则;
S303:汇总所述映射数据质量规则,获得当前数据质量规则数据集。
5.根据权利要求1所述一种基于知识谱图与机器学习的数据质量规则推荐方法,其特征在于,S403包括:
S4031:所述数据质量检查方案包括多个独立的子方案,所述子方案根据用户的使用要求进行删减处理;
S4032:执行步骤S4031后,删减处理后的子方案归入预设的闲置方案库,以备误删或再次使用时进行调用。
6.根据权利要求1所述一种基于知识谱图与机器学习的数据质量规则推荐方法,其特征在于,S5包括:
S501:将数据质量检查结果与预设的检查结果阈值进行比较,若数据质量检查结果大于预设的检查结果阈值,则标记所述数据质量检查结果对应的数据质量规则,生成标记数据质量规则;
S502:基于预设的评估方法,对标记数据质量规则进行准确率评估;所述评估方法包括设置准确率阈值以及阈值的浮动区间范围,判断准确率与准确率阈值的差值是否位于所述浮动区间范围内;
S503:将准确率位于所述浮动区间范围内的数据质量规则推荐给用户。
7.根据权利要求1所述一种基于知识谱图与机器学习的数据质量规则推荐方法,其特征在于,还包括S6,生成数据质量检查报告:
S601:获取衡量数据质量的一个或多个核检维度,以及相对应的核检维度标准;
S602:根据核检维度标准和历史数据质量规则,生成第一核检维度报告模板;
S603:根据预设的指导决策评价条件对核检维度报告模板进行衡量,生成第一评价值;根据预设的追溯效果评价条件对检维度报告模板进行衡量,生成第二评价值;将第一评价值大于预设第一评价值阈值,并且第二评价值大于第二预设评价值阈值的核检维度报告模板保留,生成第二核检维度报告模板;
S604:基于第二核检维度报告模板,生成单维度单项报告模板;汇总多个第二核检维度报告模板,生成多维度综合报告模板;
S605:利用推荐给用户的数据质量规则,代入单维度单项报告模板或多维度综合报告模板,生成单项数据质量检查报告或综合数据质量检查报告。
8.根据权利要求1所述一种基于知识谱图与机器学习的数据质量规则推荐方法,其特征在于,还包括S7,对不合格检查结果的数据进行治理;
S701:根据预设的评分条件,计算得到数据质量的不合格检查结果的得分值;
S702:设置得分值区间,根据得分值区间设置相应的数据质量风险等级;所述得分值区间包括高分值区间、中分值区间、低分值区间,所述数据质量风险等级包括低风险等级、中风险等级、高风险等级;
S703:对低风险等级所对应的数据,调用预设的数据治理方案进行数据治理;对中风险等级对应的数据,结合预设的数据治理方案和预设的数据追溯修正方案进行数据治理;针对高风险等级对应的数据,在对数据弃用的同时进行错误解析,生成解析报告。
CN202211136980.9A 2022-09-19 2022-09-19 一种基于知识谱图与机器学习的数据质量规则推荐方法 Active CN115543973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211136980.9A CN115543973B (zh) 2022-09-19 2022-09-19 一种基于知识谱图与机器学习的数据质量规则推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211136980.9A CN115543973B (zh) 2022-09-19 2022-09-19 一种基于知识谱图与机器学习的数据质量规则推荐方法

Publications (2)

Publication Number Publication Date
CN115543973A CN115543973A (zh) 2022-12-30
CN115543973B true CN115543973B (zh) 2023-06-13

Family

ID=84727821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211136980.9A Active CN115543973B (zh) 2022-09-19 2022-09-19 一种基于知识谱图与机器学习的数据质量规则推荐方法

Country Status (1)

Country Link
CN (1) CN115543973B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116362761B (zh) * 2023-03-06 2024-04-05 北京三维天地科技股份有限公司 基于数据聚合推荐算法的检验检测机构推荐方法及系统
CN117648388B (zh) * 2024-01-29 2024-04-12 成都七柱智慧科技有限公司 一种可视化的安全实时的数据仓库实现方法及其系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809230A (zh) * 2015-05-08 2015-07-29 东北大学 一种基于多分类器集成的卷烟感官质量评估方法
CN113570000A (zh) * 2021-09-08 2021-10-29 南开大学 一种基于多模型融合的海洋单要素观测质量控制方法
CN114691662A (zh) * 2022-03-31 2022-07-01 云南电网有限责任公司信息中心 一种数据质量检查规则自适应方法、存储介质及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434485B (zh) * 2020-11-27 2021-12-07 北京三维天地科技股份有限公司 一种基于多维分析技术的数据质量健康度分析方法及系统
CN112650762B (zh) * 2021-03-15 2021-07-02 腾讯科技(深圳)有限公司 数据质量监控的方法、装置、电子设备以及存储介质
CN113987190B (zh) * 2021-11-16 2023-02-28 国网智能电网研究院有限公司 一种数据质量校验规则提取方法及系统
CN114356940B (zh) * 2021-12-20 2024-05-14 云南电网有限责任公司信息中心 电网数据治理系统及方法
CN114926057A (zh) * 2022-05-31 2022-08-19 云南电网有限责任公司信息中心 一种数据质量检查规则有效性评估及反馈优化方法、存储介质及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809230A (zh) * 2015-05-08 2015-07-29 东北大学 一种基于多分类器集成的卷烟感官质量评估方法
CN113570000A (zh) * 2021-09-08 2021-10-29 南开大学 一种基于多模型融合的海洋单要素观测质量控制方法
CN114691662A (zh) * 2022-03-31 2022-07-01 云南电网有限责任公司信息中心 一种数据质量检查规则自适应方法、存储介质及系统

Also Published As

Publication number Publication date
CN115543973A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN115543973B (zh) 一种基于知识谱图与机器学习的数据质量规则推荐方法
US7849062B1 (en) Identifying and using critical fields in quality management
US9390121B2 (en) Analyzing large data sets to find deviation patterns
US7844641B1 (en) Quality management in a data-processing environment
CN115409395B (zh) 一种水利施工工程的质量验收检查方法及系统
CN112860769A (zh) 一种能源规划数据管理系统
CN116414815A (zh) 数据质量检测方法、装置、计算机设备和存储介质
CN110569363A (zh) 一种决策流组件生成方法、装置、电子设备及存储介质
CN113919932A (zh) 一种基于贷款申请评分模型的客户评分偏移检测方法
CN112836750A (zh) 一种系统资源分配方法、装置及设备
CN116167659B (zh) 一种碳市场碳排放数据质量评价方法
WO2011149608A1 (en) Identifying and using critical fields in quality management
CN114219245B (zh) 基于大数据的乡村电力指数评价方法、装置及存储介质
Yip Business failure prediction: a case-based reasoning approach
Azzalini et al. Data Quality and Data Ethics: Towards a Trade-off Evaluation
CN116227995B (zh) 一种基于机器学习的指标分析方法及系统
Babaei et al. How fair is machine learning in credit lending?
CN115619292B (zh) 一种问题管理的方法及装置
CN113326310B (zh) 基于nlp的调研数据标准化方法及系统
WO2023029065A1 (zh) 数据集质量评估方法、装置、计算机设备及存储介质
Menghani et al. Insufficiently Justified Disparate Impact: A New Criterion for Subgroup Fairness
CN117853225A (zh) 一种发债主体信用评价方法
Chen et al. Construction of Bank Credit White List Access System Based on Grey Clustering Algorithm
Norberg Editing at Statistics Sweden–Yesterday, today and tomorrow
CN118135321A (zh) 一种基于样本标注质量修正的图像分类算法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant