CN117951128A - 一种基于人工智能的数据质量稽查方法 - Google Patents

一种基于人工智能的数据质量稽查方法 Download PDF

Info

Publication number
CN117951128A
CN117951128A CN202410132137.6A CN202410132137A CN117951128A CN 117951128 A CN117951128 A CN 117951128A CN 202410132137 A CN202410132137 A CN 202410132137A CN 117951128 A CN117951128 A CN 117951128A
Authority
CN
China
Prior art keywords
data
quality
abnormal
rules
checking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410132137.6A
Other languages
English (en)
Inventor
曹益陆
吴昌健
孙和平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Sixingda Information Technology Co ltd
Original Assignee
Jiangsu Sixingda Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Sixingda Information Technology Co ltd filed Critical Jiangsu Sixingda Information Technology Co ltd
Priority to CN202410132137.6A priority Critical patent/CN117951128A/zh
Publication of CN117951128A publication Critical patent/CN117951128A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种基于人工智能的数据质量稽查方法,包括以下步骤:步骤一:在进行数据质量稽查之前,需要先从各个数据源收集数据,通过普查工具对数据进行采集,将采集到的数据放入数据集,形成一套全新的数据质量管理体系;步骤二:数据收集后,在进行数据质量稽查时,需要首先制定相应的质量核查规则,质量核查规则是对数据进行校验的依据,包括数据类型、数据值、数据一致性方面的约束,提供了表级、字段级的规则模板,并支持通过SQL进行自定义的规则及规则模板的创建。本发明自动化程度高,可以自动地进行数据质量评估和异常检测,减少了人工干预和提高了工作效率,更快地处理大量数据,并实时提供结果和反馈,支持实时监控和决策。

Description

一种基于人工智能的数据质量稽查方法
技术领域
本发明涉及数据治理稽查的技术领域,尤其涉及一种基于人工智能的数据质量稽查方法。
背景技术
数据作为国家战略资源的重要性,凸显了其在推动数字经济进步中的核心作用。在这一背景下,对于现代企业而言,数据已经成为企业的一项重要资产,数据的真实性、准确性和完整性对于企业的决策和发展至关重要。然而,由于数据来源的多样性、数据产生方式的复杂性和数据存储的分散性等特点,数据质量问题一直困扰着企业。而由传统的数据质量稽查有以下缺陷:
1、效率低下:数据质量稽查通常需要大量的人力,耗时且容易出错。
2、主观性强:稽查人员的经验、技能和判断会影响稽查结果,导致结果的不准确。
3、实时性差:人工稽查通常按周期进行,无法及时发现和处理问题。
4、一致性差:由于人员更替和标准理解的不同,导致前后稽查结果不一致。
为了解决这些问题,基于人工智能的数据质量稽查技术逐渐成为研究热点,基于人工智能的数据质量稽查技术主要依赖于机器学习、深度学习等人工智能技术,通过构建智能化的数据质量评估模型和异常检测算法,对企业的数据进行全面、快速、准确的质量评估和异常检测,这种技术可以自动化地发现数据中的异常和错误,为企业提供数据治理和数据质量提升的依据,为此,我们提出一种基于人工智能的数据质量稽查方法来解决上述提出的问题。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有基于人工智能的数据质量稽查方法存在的问题,提出了本发明。
因此,本发明目的是提供一种基于人工智能的数据质量稽查方法,其自动化程度高,可以自动地进行数据质量评估和异常检测,减少了人工干预和提高了工作效率,更快地处理大量数据,并实时提供结果和反馈,支持实时监控和决策。
为解决上述技术问题,本发明提供如下技术方案:一种基于人工智能的数据质量稽查方法,包括以下步骤:
步骤一:在进行数据质量稽查之前,需要先从各个数据源收集数据,通过普查工具对数据进行采集,将采集到的数据放入数据集,形成一套全新的数据质量管理体系;
步骤二:数据收集后,在进行数据质量稽查时,需要首先制定相应的质量核查规则,质量核查规则是对数据进行校验的依据,包括数据类型、数据值、数据一致性方面的约束,提供了表级、字段级的规则模板,并支持通过SQL进行自定义的规则及规则模板的创建;
步骤三:确定质量核查规则后,需按照需求建立核查任务,根据待稽查数据集的属性及建立的对应关系确定执行核验任务,创建任务时设置任务执行的开始时间和结束时间,灵活设置执行周期,如按月、按周或按日执行,能够根据数据集的特性和变化进行调整;
步骤四:在对数据进行质量核查后,会有大量数据质量问题的存在并会对进一步的数据分析和应用产生不良影响,通过异常模块进行异常结果检测,分析数据质量问题的特征、异常模式和相关业务场景信息,并识别出问题的来源和原因,及时采取修复措施;
步骤五:在数据质量稽查过程中,需要对所核查的数据进行质量评估,以确认数据的质量水平,并为后续的数据应用提供依据,综合考虑数据的完整性、准确性、一致性、可解释性多个方面,生成全面且准确的数据质量评估结果。
作为本发明所述基于人工智能的数据质量稽查方法的一种优选方案,其中:所述步骤一中数据源收集数据的步骤如下:
S1:明确定义数据需求,确定所需数据的类型、质量标准、频率和用途;
S2:选择合适的数据源,支持多种数据源mysql、oracle建立连接,选择合适的接口和方法进行数据获取;
S3:通过适当的工具提取数据,进行清洗和转换以保证数据质量;
S4:进行数据集成以获取全面视图,在数据集成阶段进行数据标准化,确保不同数据源的数据能够统一格式和结构;
S5:定时任务和自动触发机制,确保数据收集流程的自动运行,并根据需求定期更新数据;
S6:维护数据文档,定期备份和存储数据。
作为本发明所述基于人工智能的数据质量稽查方法的一种优选方案,其中:所述步骤二中质量核查规则制定的步骤如下:
A1:与业务团队密切合作,明确业务需求和数据质量的关键指标,明确核查规则的目的;
A2:对待核查的数据进行深入分析,理解数据的结构、含义和业务上下文,与数据所有者和业务专家合作,确定关键数据元素和期望的数据状态;
A3:通过数据分析和业务专家的经验,识别潜在的数据质量问题,包括数据不一致、缺失、重复、异常值问题,将这些问题纳入核查规则的考虑范围;
A4:基于业务需求和潜在问题,开始定义核查规则,明确定义数据应该遵循的标准和条件,包括数据格式、范围、唯一性;
A5:对核查规则进行分类,以便更好地组织和管理,分类包括数据准确性规则、完整性规则、一致性规则、时效性规则、唯一性规则和有效性规则;
A6:了解数据存储结构,包括数据库表的设计、字段类型、关联关系,编写质量核查规则的Aql查询语句;
A7:文档化核查规则,内容包括规则分类、规则类型、核查级别、规则名称、规则编码、规则描述。
作为本发明所述基于人工智能的数据质量稽查方法的一种优选方案,其中:所述步骤四中异常处理流程包括以下步骤:
B1:异常问题工单生成:使用机器学习模型,训练系统识别数据中的异常情况,例如缺失值、重复项,将异常信息记录在系统里,形成问题工单;
B2:异常分类:用机器学习模型,训练系统识别和分类数据中的异常情况,通过模型学习数据的模式,对异常进行简单分类,以确定其影响程度;
B3:根本原因分析:利用自然语言处理或深度学习模型,自动分析异常的语境和相关信息,提供更深入的原因分析,减轻人工负担,提高分析的准确性;
B4:处理策略生成:利用强化学习或决策树技术,让系统学习历史数据处理的经验,生成智能化的异常处理策略;
B5:自动处理异常:对于重复性和简单性较高的问题,使用自动化工具和算法,对已知问题执行自动修复策略,如自动填充缺失值、去重,提高异常处理的速度,减轻人工干预的工作量;
B6:人工介入辅助:对于无法自动处理的异常,系统通知相关的数据管理员进行人工介入,提供详细上下文信息;
B7:修复记录:数据管理员手动修复异常,并将修复的过程和结果记录在系统中;
B8:监控和反馈:系统监控修复后的数据,确保异常得到有效处理,并提供基本的反馈机制;
B9:改进流程:数据管理员定期审查异常处理的效果,并根据实际情况调整处理策略和流程。
作为本发明所述基于人工智能的数据质量稽查方法的一种优选方案,其中:所述采用机器学习模型和大数据技术进行异常结果检测过程包括以下步骤:
C1:获取数据集;
C2:人工确定选择、转换和构建数据特征,使用数据特征构建机器学习模型,用以识别异常数据;
C3:将数据集划分为训练集和测试集,训练集用来训练模型,测试集则用于评估模型对新数据的泛化能力;
C4:选择适用于异常结果检测的机器学习算法:孤立森林、支持向量机、聚类算法,利用不同的算法构建不同的模型;
C5:利用训练集对选定的模型进行训练,使得它能够识别正常数据和异常数据;
C6:使用测试集对训练好的模型进行评估,以确定模型的性能,评估指标包括准确率、召回率、精确率;
C7:根据模型输出的异常概率或分数,通过设定阈值来判断数据是否异常,阈值的选择能够根据业务需求和模型性能进行调整;
C8:持续监控新数据并使用训练好的模型进行实时异常检测,如果模型检测到异常,系统能够触发相应的报警、修复机制或其他操作;
C9:定期对模型进行调优,包括重新训练模型、更新特征工程,以确保模型能够适应数据分布的变化和新的异常模式。
作为本发明所述基于人工智能的数据质量稽查方法的一种优选方案,其中:所述步骤C4中的孤立森林算法适用于检测数据集中的异常值,且在数据中存在离群点,缺失值或错误数据的情况下,适用于数据质量监测、异常数据识别的场景;所述支持向量机算法适用于数据集中只有正常样本的情况,用于检测异常数据,例如在数据仓库中检测异常记录、异常行为或数据分布的变化。
作为本发明所述基于人工智能的数据质量稽查方法的一种优选方案,其中:所述步骤五中质量评估规则有以下三个维度评分:
数据质量评分=参与评估的各质量维度评分总和/参与评估维度项;
数据库某个维度质量评分=参与该维度评分的表该维度评分总和/参与该维度评分的表数量;
表某个维度评分=该维度下参与评分的各项规则评分总和。
本发明的有益效果:
1、自动化程度高:可以自动地进行数据质量评估和异常检测,大大减少了人工干预和提高了工作效率。
2、准确性高:通过机器学习和深度学习等技术,可以对数据进行多维度、多层次的质量评估和异常检测,提高了检测的准确性和可靠性。
3、实时性和响应性高:可以更快地处理大量数据,并实时提供结果和反馈,支持实时监控和决策。
4、可扩展性强:可以针对不同行业、不同业务场景的数据进行定制化开发,满足企业的个性化需求,继续拓展到更多的行业和应用场景。
5、自主学习和自适应能力强:可以通过不断学习和优化算法,适应新的数据和环境,实现更加智能和灵活的功能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明基于人工智能的数据质量稽查方法的数据质量稽查功能架构图。
图2为本发明基于人工智能的数据质量稽查方法的数据质量稽查管理流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
再其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
参照图1-2,提供了一种基于人工智能的数据质量稽查方法,其特征在于,包括以下步骤:
步骤一:在进行数据质量稽查之前,需要先从各个数据源收集数据,通过普查工具对数据进行采集,将采集到的数据放入数据集,形成一套全新的数据质量管理体系;
步骤二:数据收集后,在进行数据质量稽查时,需要首先制定相应的质量核查规则,质量核查规则是对数据进行校验的依据,包括数据类型、数据值、数据一致性方面的约束,提供了表级、字段级的规则模板,并支持通过SQL进行自定义的规则及规则模板的创建;
步骤三:确定质量核查规则后,需按照需求建立核查任务,根据待稽查数据集的属性及建立的对应关系确定执行核验任务,创建任务时设置任务执行的开始时间和结束时间,灵活设置执行周期,如按月、按周或按日执行,能够根据数据集的特性和变化进行调整;
步骤四:在对数据进行质量核查后,会有大量数据质量问题的存在并会对进一步的数据分析和应用产生不良影响,通过异常模块进行异常结果检测,分析数据质量问题的特征、异常模式和相关业务场景信息,并识别出问题的来源和原因,及时采取修复措施;
步骤五:在数据质量稽查过程中,需要对所核查的数据进行质量评估,以确认数据的质量水平,并为后续的数据应用提供依据,综合考虑数据的完整性、准确性、一致性、可解释性多个方面,生成全面且准确的数据质量评估结果。
其中,数据收集后,在进行数据质量稽查时,需要首先制定相应的质量核查规则。质量核查规则是用于评估和确保数据质量的一组定义,它们定义了数据应该满足的标准和条件。这些规则通常涵盖数据的准确性、完整性、一致性、时效性、唯一性和有效性等方面。质量核查规则是对数据进行校验的依据,包括数据类型、数据值、数据一致性等方面的约束。提供了表级、字段级的规则模板,并支持通过SQL进行自定义的规则及规则模板的创建,步骤一中数据源收集数据的步骤如下:
S1:明确定义数据需求,确定所需数据的类型、质量标准、频率和用途;
S2:选择合适的数据源,支持多种数据源mysql、oracle建立连接,选择合适的接口和方法进行数据获取;
S3:通过适当的工具提取数据,进行清洗和转换以保证数据质量;
S4:进行数据集成以获取全面视图,在数据集成阶段进行数据标准化,确保不同数据源的数据能够统一格式和结构;
S5:定时任务和自动触发机制,确保数据收集流程的自动运行,并根据需求定期更新数据;
S6:维护数据文档,定期备份和存储数据。
进一步的,确定质量核查规则后,需按照需求建立核查任务,核查任务管理是数据质量管理中的一个至关重要的环节。其核心职责在于按照事先制定的核查规则,对数据对象的质量进行全面检查。此模块包括质量核查任务和任务执行监控等业务。根据待稽查数据集的属性及建立的对应关系确定执行核验任务,创建任务时设置任务执行的开始时间和结束时间,灵活设置执行周期,如按月、按周或按日执行,可根据数据集的特性和变化进行调整。通过监控业务模块实时查看核查任务的执行结果,包括任务完成情况、发现的问题和异常情况等。这些监控结果可用于及时调整核查规则、优化任务执行计划,确保数据质量得到有效提升,步骤二中质量核查规则制定的步骤如下:
A1:与业务团队密切合作,明确业务需求和数据质量的关键指标,明确核查规则的目的;
A2:对待核查的数据进行深入分析,理解数据的结构、含义和业务上下文,与数据所有者和业务专家合作,确定关键数据元素和期望的数据状态;
A3:通过数据分析和业务专家的经验,识别潜在的数据质量问题,包括数据不一致、缺失、重复、异常值问题,将这些问题纳入核查规则的考虑范围;
A4:基于业务需求和潜在问题,开始定义核查规则,明确定义数据应该遵循的标准和条件,包括数据格式、范围、唯一性;
A5:对核查规则进行分类,以便更好地组织和管理,分类包括数据准确性规则、完整性规则、一致性规则、时效性规则、唯一性规则和有效性规则;
A6:了解数据存储结构,包括数据库表的设计、字段类型、关联关系,编写质量核查规则的Aql查询语句;
A7:文档化核查规则,内容包括规则分类、规则类型、核查级别、规则名称、规则编码、规则描述。
其中,在对数据进行质量核查后,可能会有大量数据质量问题的存在。这些问题可能会对进一步的数据分析和应用产生不良影响。本发明提供了异常管理模块,异常模块采用了机器学习和大数据技术进行异常结果检测,分析数据质量问题的特征、异常模式和相关业务场景等信息,并识别出问题的来源和原因。有助于开发人员快速定位问题,并及时采取修复措施。同时,异常管理模块还可以记录问题发生的历史数据,以便进行长期的趋势分析和预测。异常管理模块分为异常通知和异常处理两部分。异常通知有两种方式:一种是查看稽核问题报告,另一种是异常告警短信。
步骤四中异常处理流程包括以下步骤:
B1:异常问题工单生成:使用机器学习模型,训练系统识别数据中的异常情况,例如缺失值、重复项,将异常信息记录在系统里,形成问题工单;
B2:异常分类:用机器学习模型,训练系统识别和分类数据中的异常情况,通过模型学习数据的模式,对异常进行简单分类,以确定其影响程度;
B3:根本原因分析:利用自然语言处理或深度学习模型,自动分析异常的语境和相关信息,提供更深入的原因分析,减轻人工负担,提高分析的准确性;
B4:处理策略生成:利用强化学习或决策树技术,让系统学习历史数据处理的经验,生成智能化的异常处理策略;
B5:自动处理异常:对于重复性和简单性较高的问题,使用自动化工具和算法,对已知问题执行自动修复策略,如自动填充缺失值、去重,提高异常处理的速度,减轻人工干预的工作量;
B6:人工介入辅助:对于无法自动处理的异常,系统通知相关的数据管理员进行人工介入,提供详细上下文信息;
B7:修复记录:数据管理员手动修复异常,并将修复的过程和结果记录在系统中;
B8:监控和反馈:系统监控修复后的数据,确保异常得到有效处理,并提供基本的反馈机制;
B9:改进流程:数据管理员定期审查异常处理的效果,并根据实际情况调整处理策略和流程。
具体的,采用机器学习模型和大数据技术进行异常结果检测过程包括以下步骤:
C1:获取数据集;
C2:人工确定选择、转换和构建数据特征,使用数据特征构建机器学习模型,用以识别异常数据;
C3:将数据集划分为训练集和测试集,训练集用来训练模型,测试集则用于评估模型对新数据的泛化能力;
C4:选择适用于异常结果检测的机器学习算法:孤立森林、支持向量机、聚类算法,利用不同的算法构建不同的模型;
C5:利用训练集对选定的模型进行训练,使得它能够识别正常数据和异常数据;
C6:使用测试集对训练好的模型进行评估,以确定模型的性能,评估指标包括准确率、召回率、精确率;
C7:根据模型输出的异常概率或分数,通过设定阈值来判断数据是否异常,阈值的选择能够根据业务需求和模型性能进行调整;
C8:持续监控新数据并使用训练好的模型进行实时异常检测,如果模型检测到异常,系统能够触发相应的报警、修复机制或其他操作;
C9:定期对模型进行调优,包括重新训练模型、更新特征工程,以确保模型能够适应数据分布的变化和新的异常模式。
其中,步骤C4中的孤立森林算法适用于检测数据集中的异常值,且在数据中存在离群点,缺失值或错误数据的情况下,适用于数据质量监测、异常数据识别的场景;支持向量机算法适用于数据集中只有正常样本的情况,用于检测异常数据,例如在数据仓库中检测异常记录、异常行为或数据分布的变化。
更进一步的,步骤五中质量评估规则有以下三个维度评分:
数据质量评分=参与评估的各质量维度评分总和/参与评估维度项;
数据库某个维度质量评分=参与该维度评分的表该维度评分总和/参与该维度评分的表数量;
表某个维度评分=该维度下参与评分的各项规则评分总和;
具体的,针对简单重复的并且容错率比较高的数据质量比对和评估操作,可以直接利用流程机器人RPA进行替代处理,为避免治理产生的二次数据质量问题,以分区为单位进行备份,对备份数据使用RPA比对,RPA找到所有的问题数据所在位置,对备份数据进行纠正,并对纠正后的位置进行指出,由审核人员进行审核,审核成功后方可由专门人员走单子,对真实分区进行修改,保留修改的sql语句和sql运行日志,该分区的备份数据、修改后的数据、修改的sql代码、导出的sql运行日志这四个文件需要放在同一个目录,进行留存。
其中,对于一些验证规则缺乏的数据,需要先把验证规则进行补全,才能使用RPA进行数据治理;而对于非结构化数据和半结构化数据,需要先将数据结构化,再结合规则用RPA进行辅助治理。
另外,对于一些容错率比较低,且对系统运行影响比较大的字段数据,则不宜采用RPA治理,还是需要人工亲自核对治理。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于人工智能的数据质量稽查方法,其特征在于,包括以下步骤:
步骤一:在进行数据质量稽查之前,需要先从各个数据源收集数据,通过普查工具对数据进行采集,将采集到的数据放入数据集,形成一套全新的数据质量管理体系;
步骤二:数据收集后,在进行数据质量稽查时,需要首先制定相应的质量核查规则,质量核查规则是对数据进行校验的依据,包括数据类型、数据值、数据一致性方面的约束,提供了表级、字段级的规则模板,并支持通过SQL进行自定义的规则及规则模板的创建;
步骤三:确定质量核查规则后,需按照需求建立核查任务,根据待稽查数据集的属性及建立的对应关系确定执行核验任务,创建任务时设置任务执行的开始时间和结束时间,灵活设置执行周期,如按月、按周或按日执行,能够根据数据集的特性和变化进行调整;
步骤四:在对数据进行质量核查后,会有大量数据质量问题的存在并会对进一步的数据分析和应用产生不良影响,通过异常模块进行异常结果检测,分析数据质量问题的特征、异常模式和相关业务场景信息,并识别出问题的来源和原因,及时采取修复措施;
步骤五:在数据质量稽查过程中,需要对所核查的数据进行质量评估,以确认数据的质量水平,并为后续的数据应用提供依据,综合考虑数据的完整性、准确性、一致性、可解释性多个方面,生成全面且准确的数据质量评估结果。
2.根据权利要求1所述的基于人工智能的数据质量稽查方法,其特征在于:所述步骤一中数据源收集数据的步骤如下:
S1:明确定义数据需求,确定所需数据的类型、质量标准、频率和用途;
S2:选择合适的数据源,支持多种数据源mysql、oracle建立连接,选择合适的接口和方法进行数据获取;
S3:通过适当的工具提取数据,进行清洗和转换以保证数据质量;
S4:进行数据集成以获取全面视图,在数据集成阶段进行数据标准化,确保不同数据源的数据能够统一格式和结构;
S5:定时任务和自动触发机制,确保数据收集流程的自动运行,并根据需求定期更新数据;
S6:维护数据文档,定期备份和存储数据。
3.根据权利要求2所述的基于人工智能的数据质量稽查方法,其特征在于:所述步骤二中质量核查规则制定的步骤如下:
A1:与业务团队密切合作,明确业务需求和数据质量的关键指标,明确核查规则的目的;
A2:对待核查的数据进行深入分析,理解数据的结构、含义和业务上下文,与数据所有者和业务专家合作,确定关键数据元素和期望的数据状态;
A3:通过数据分析和业务专家的经验,识别潜在的数据质量问题,包括数据不一致、缺失、重复、异常值问题,将这些问题纳入核查规则的考虑范围;
A4:基于业务需求和潜在问题,开始定义核查规则,明确定义数据应该遵循的标准和条件,包括数据格式、范围、唯一性;
A5:对核查规则进行分类,以便更好地组织和管理,分类包括数据准确性规则、完整性规则、一致性规则、时效性规则、唯一性规则和有效性规则;
A6:了解数据存储结构,包括数据库表的设计、字段类型、关联关系,编写质量核查规则的Aql查询语句;
A7:文档化核查规则,内容包括规则分类、规则类型、核查级别、规则名称、规则编码、规则描述。
4.根据权利要求1所述的基于人工智能的数据质量稽查方法,其特征在于:所述步骤四中异常处理流程包括以下步骤:
B1:异常问题工单生成:使用机器学习模型,训练系统识别数据中的异常情况,例如缺失值、重复项,将异常信息记录在系统里,形成问题工单;
B2:异常分类:用机器学习模型,训练系统识别和分类数据中的异常情况,通过模型学习数据的模式,对异常进行简单分类,以确定其影响程度;
B3:根本原因分析:利用自然语言处理或深度学习模型,自动分析异常的语境和相关信息,提供更深入的原因分析,减轻人工负担,提高分析的准确性;
B4:处理策略生成:利用强化学习或决策树技术,让系统学习历史数据处理的经验,生成智能化的异常处理策略;
B5:自动处理异常:对于重复性和简单性较高的问题,使用自动化工具和算法,对已知问题执行自动修复策略,如自动填充缺失值、去重,提高异常处理的速度,减轻人工干预的工作量;
B6:人工介入辅助:对于无法自动处理的异常,系统通知相关的数据管理员进行人工介入,提供详细上下文信息;
B7:修复记录:数据管理员手动修复异常,并将修复的过程和结果记录在系统中;
B8:监控和反馈:系统监控修复后的数据,确保异常得到有效处理,并提供基本的反馈机制;
B9:改进流程:数据管理员定期审查异常处理的效果,并根据实际情况调整处理策略和流程。
5.根据权利要求4所述的基于人工智能的数据质量稽查方法,其特征在于:所述采用机器学习模型和大数据技术进行异常结果检测过程包括以下步骤:
C1:获取数据集;
C2:人工确定选择、转换和构建数据特征,使用数据特征构建机器学习模型,用以识别异常数据;
C3:将数据集划分为训练集和测试集,训练集用来训练模型,测试集则用于评估模型对新数据的泛化能力;
C4:选择适用于异常结果检测的机器学习算法:孤立森林、支持向量机、聚类算法,利用不同的算法构建不同的模型;
C5:利用训练集对选定的模型进行训练,使得它能够识别正常数据和异常数据;
C6:使用测试集对训练好的模型进行评估,以确定模型的性能,评估指标包括准确率、召回率、精确率;
C7:根据模型输出的异常概率或分数,通过设定阈值来判断数据是否异常,阈值的选择能够根据业务需求和模型性能进行调整;
C8:持续监控新数据并使用训练好的模型进行实时异常检测,如果模型检测到异常,系统能够触发相应的报警、修复机制或其他操作;
C9:定期对模型进行调优,包括重新训练模型、更新特征工程,以确保模型能够适应数据分布的变化和新的异常模式。
6.根据权利要求5所述的基于人工智能的数据质量稽查方法,其特征在于:所述步骤C4中的孤立森林算法适用于检测数据集中的异常值,且在数据中存在离群点,缺失值或错误数据的情况下,适用于数据质量监测、异常数据识别的场景;所述支持向量机算法适用于数据集中只有正常样本的情况,用于检测异常数据,例如在数据仓库中检测异常记录、异常行为或数据分布的变化。
7.根据权利要求1所述的基于人工智能的数据质量稽查方法,其特征在于:所述步骤五中质量评估规则有以下三个维度评分:
数据质量评分=参与评估的各质量维度评分总和/参与评估维度项;
数据库某个维度质量评分=参与该维度评分的表该维度评分总和/参与该维度评分的表数量;
表某个维度评分=该维度下参与评分的各项规则评分总和。
CN202410132137.6A 2024-01-31 2024-01-31 一种基于人工智能的数据质量稽查方法 Pending CN117951128A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410132137.6A CN117951128A (zh) 2024-01-31 2024-01-31 一种基于人工智能的数据质量稽查方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410132137.6A CN117951128A (zh) 2024-01-31 2024-01-31 一种基于人工智能的数据质量稽查方法

Publications (1)

Publication Number Publication Date
CN117951128A true CN117951128A (zh) 2024-04-30

Family

ID=90801034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410132137.6A Pending CN117951128A (zh) 2024-01-31 2024-01-31 一种基于人工智能的数据质量稽查方法

Country Status (1)

Country Link
CN (1) CN117951128A (zh)

Similar Documents

Publication Publication Date Title
EP3798846B1 (en) Operation and maintenance system and method
US11093519B2 (en) Artificial intelligence (AI) based automatic data remediation
US11429614B2 (en) Systems and methods for data quality monitoring
CN109711659B (zh) 一种工业生产的良率提升管理系统和方法
US20090327208A1 (en) Discovering transformations applied to a source table to generate a target table
CN109146279B (zh) 基于工艺规则与大数据的全流程产品质量溯源分析方法
Bandi et al. Empirical evidence of code decay: A systematic mapping study
CN113221960A (zh) 一种高质量漏洞数据收集模型的构建方法及收集方法
CN115657890A (zh) 一种pra机器人可定制方法
CN113064873B (zh) 一种高召回率的日志异常检测方法
Gupta et al. Process cube for software defect resolution
CN109886434B (zh) 一种智能钻井平台维护保养系统及方法
CN117951128A (zh) 一种基于人工智能的数据质量稽查方法
CN116069628A (zh) 一种智能处置的软件自动化回归测试方法、系统及设备
CN113641573A (zh) 基于修订日志的程序分析软件自动化测试方法及系统
Ramler et al. Noise in bug report data and the impact on defect prediction results
CN107402920A (zh) 确定关系数据库表关联复杂度的方法和装置
TWI230349B (en) Method and apparatus for analyzing manufacturing data
CN115576958B (zh) 一种生产设备监管报表的数据校验方法、设备及介质
CN117076454B (zh) 一种工程质量验收表单数据结构化存储方法及系统
CN117472641B (zh) 数据质量的检测方法、装置、电子设备及存储介质
CN114817171B (zh) 一种埋点数据质量治理方法
CN117591594A (zh) 一种站控层监控信息表规范化审查及比对校验方法及工具
CN113378907A (zh) 增强数据预处理过程的自动化软件可追踪性恢复方法
CN117893019A (zh) 投放企业信息化管控系统及操作风险管控方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination