CN112800044B

CN112800044B - 数据质量判定及监测方法、管理系统、存储介质、终端

Info

Publication number: CN112800044B
Application number: CN202110171425.9A
Authority: CN
Inventors: 黄静; 李雄峰; 丁建伟; 陈周国; 周伟中; 朱永川; 胡瑞雪
Original assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Current assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2024-01-19
Anticipated expiration: 2041-02-04
Also published as: CN112800044A

Abstract

本发明公开一种数据质量判定及监测方法、管理系统、存储介质、终端，涉及数据处理技术领域。对不同来源的数据，根据每个字段配置的质量判定规则，进行数据质量判定，并对每一项质量要求进行逐一核查，所有检测项均判定合格后入库；对于数据质量判定过程中发现的不合格数据，根据所述不合格数据异常类型配置对应的处理程序，保留有价值的数据，去除无用的数据；对数据持续进行质量监测，进行重复率、缺失率、错误率相关指标统计分析，最终输出数据质量报告。本发明在质量判定的过程中，持续监测各个数据源的质量，形成数据质量报告，反馈到数据源处进行整改，有效提高数据质量管理的效率。

Description

数据质量判定及监测方法、管理系统、存储介质、终端

技术领域

本发明公开涉及数据处理技术领域，尤其涉及一种数据质量判定及监测方法、管理系统、存储介质、终端。

背景技术

目前，随着互联网的发展，各行各业产生的网络数据成指数增长，企业愈发重视数据资产的管理，尤其是数据治理。对于采集的数据，发现由于数据来源众多，而且质量参差不齐，容易造成入库数据内容不准确、格式不统一、逻辑不合理、某些字段数据缺失、数据重复、数据延时等问题，为后续的数据处理和分析工作带来很多困扰。在这种情况下，数据一旦批量入库，不仅可利用率不高，而且会造成资源的浪费，所以制定一套数据质量判定方法及管理系统非常有必要。

另一方面，由于采集数据量高达百万级甚至千万级，传统的人工检查方式不可行，必须实现数据质量判定过程自动化。目前有关数据质量管理系统的研究相对较少，在已发表论文或专利中，数据质量管理系统的设计基本上都是围绕质量评价和质量报告这两项功能的实现，并未考虑异常数据的处理问题。

通过上述分析，现有技术存在的问题及缺陷为：

(1)当前的数据质量管理系统的功能模块有限，局限于仅对数据源进行质量判定以及形成质量报告，忽略了异常追溯、处理和反馈环节，无法覆盖数据源质量管理的整个生命周期。

(2)对于质量检测过程中发现的异常数据，现有的数据质量管理系统通常只是将异常问题记录下来并列入数据质量报告。本质上这部分数据会被系统直接过滤，而不推送到数据库，极有可能造成关键信息丢失。尤其是对于网络信息等行业，每一条数据都至关重要。

(3)对于判定异常的数据，直接过滤或是重新采集都不可取，现有的数据质量管理系统未考虑根据异常类型对数据进行修复处理以及修复后质量检查，以最大程度地保证采集数据的完整性。

解决以上问题及缺陷的难度为：

在确认异常数据能否修复之前，需要先对数据进行异常类型标注，按照异常类型以及字段的具体要求配置相应的异常处理规则。由于数据的异常类型多种多样，包括格式错误、逻辑错误、记录重复、记录缺失等，因此异常处理规则的设置较为复杂。

解决以上问题及缺陷的意义为：

(1)在数据管理前期阶段，数据源不可避免地存在各种各样的质量问题。及时对异常数据进行修复处理，可以有效规避大量可修复数据(比如数据类型错误)因系统自动过滤而未能推送数据库的问题，以免影响后续数据分析的准确性。

(2)通过对比异常处理前后的数据质量，可以有效识别数据源管理过程中存在的问题以及改进方向，尽可能将数据异常处理过程前置，通过在数据采集阶段增加相应的限定规则，促进数据源的质量改善，从而提高数据管理的效率。

发明内容

为克服相关技术中存在的问题，本发明公开实施例提供了一种数据质量判定及监测方法、管理系统、存储介质、终端。所述技术方案如下：

根据本发明公开实施例的第一方面，提供一种数据质量判定及监测方法，所述数据质量判定及监测方法包括：

对不同来源的数据，根据每个字段配置的质量判定规则，进行数据质量判定，并对每一项质量要求进行逐一核查，所有检测项均判定合格后入库；

对于数据质量判定过程中发现的不合格数据，根据所述不合格数据异常类型配置对应的处理程序，保留有价值的数据，去除无用的数据；

对数据持续进行质量监测，进行重复率、缺失率、错误率相关指标统计分析，最终输出数据质量报告。

优选地，所述数据质量判定方法包括：

步骤1：导入已采集数据；

步骤2：对导入数据表进行确认，根据数据表的类型调用对应的数据质量判定规则；

步骤3：启动数据质量判定程序，自动检测数据质量是否满足要求；

步骤4：检查数据唯一性，使用md5计算公式生成唯一索引id，通过程序判定此id是否重复，id唯一的数据直接流入下一核查环节；所述md5计算公式为：数据来源+数据产生时间+数据内容；

步骤5：检查数据完整性，设置非空字段，任意非空字段出现缺失值，判定为不合格；所有非空字段数据完整，判定为合格，进入下一核查环节；

步骤6：检查数据准确性，包括数据的采集内容与字段要求一一对应、数据格式符合要求、数据时间或内容之间逻辑性合理；判定数据正确后，直接存入数据库；

步骤7：对于步骤4～6中判定不合格的数据会进行异常类型标注；

步骤8：根据步骤7标注的异常类型，对不合格数据执行对应的处理程序，修复或过滤不合格数据。

步骤9：异常数据处理后重新进行数据质量判定，经过唯一性、完整性和准确性三项检测后判定合格的数据入库存储，不合格数据则被过滤掉。

优选地，所述步骤2中数据质量判定规则包括：

(1)唯一性的总体要求是每条数据都是唯一的，不存在重复记录。这里以索引id为主键，索引id不允许重复。

(2)完整性的总体要求是数据记录完整，所有必要字段都不存在数据缺失的情况。

(3)准确性的总体要求是根据业务需求进行数据采集，包括内容准确、格式准确、逻辑准确。常见错误类型有采集数据与字段不匹配、包含特殊字符、字符乱码、格式不统一、逻辑冲突等情况。

优选地，所述步骤3数据质量判定程序包括：唯一性、完整性和准确性检测，通过每一项检测后，判定为合格数据；

所述唯一性检测是通过自动化脚本判定数据源的索引id是否重复出现，索引id重复出现则判定为唯一性检测不合格。

所述完整性检测是通过自动化脚本判定数据源的所有必要字段是否存在缺失值，任一必要字段存在缺失值则判定为完整性检测不合格。

所述准确性检测是通过自动化脚本判定数据源的所有字段格式是否符合要求，以及通过设置判断条件(例如，数据采集时间不早于数据产生时间)判定不同字段之间是否存在逻辑冲突。出现内容不匹配、格式错误、逻辑不合理等错误类型则判定为准确性检测不合格。

优选地，所述步骤8具体包括：

(1)对于id重复的数据，通过自动去重程序进行去重处理，保留第一个数据；

(2)对于非空字段缺失的数据，首先分析填充数据，填充方式包括：重新确认原始数据、使用平均值/中位数/众数填充缺失值、使用插值法填充缺失值；其次分析删除数据，在原始数据无法确认或者填充无意义的情况下，直接剔除数据；

(3)根据数据的错误类型，选择不同的数据修复方法；对于内容采集错误、逻辑不合理的数据，重新确认原始数据，无法确认则删除；对于格式错误的数据，通过自动转换格式程序进行格式转换。

优选地，所述监测数据质量的方法包括：

第一步：导入已采集数据，统计全部的数据量；

第二步：质量判定为不合格的数据，纳入异常数据统计，并按照标记的异常类型进行分类汇总；

第三步：根据公式完成数据质量相关的指标计算，包括数据重复率、缺失率、错误率指标；其中，缺失率分为整体缺失率和某一字段的缺失率，整体缺失率反映了整体的数据完整性，而某一字段的缺失率则反映了某一字段的数据完整性；错误率分为整体错误率和某种错误类型的错误率，整体错误率反映了整体的数据准确性，而某种错误类型的错误率则反映了各种错误类型的分类统计情况；重复率＝重复数据记录条数/总数据记录条数；整体缺失率＝任一必要字段缺失的数据记录条数/总数据记录条数，某一字段的缺失率＝所有某一字段缺失的数据记录条数/总数据记录条数；整体错误率＝错误数据记录条数/总数据记录条数，某种错误类型的错误率＝某种错误类型的数据记录条数/总数据记录条数；

第四步：自动生成数据质量报告。

根据本发明公开实施例的第二方面，提供一种数据管理系统，包括：

数据采集模块，用于采集原始数据并导入；

数据质量判定模块，用于对导入的数据进行质量判定，根据数据质量判定规则模块提供的数据质量判定规则，对数据的唯一性、完整性、准确性进行全方位的评价；

数据异常处理模块，用于对判定不合格的数据进行确认和处理，根据数据异常处理规则模块提供的数据异常处理规则，可修复数据经判定合格后继续流转到下一环节，不可修复数据直接过滤；

数据质量监测模块，用于数据判定结果的统计分析，计算得出数据质量相关指标的具体数值，形成数据质量报告。

根据本发明公开实施例的第三方面，提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

同时对数据持续进行质量监测，进行重复率、缺失率、错误率相关指标统计分析，最终输出数据质量报告。

根据本发明公开实施例的第四方面，提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述的数据质量判定及监测方法。

根据本发明公开实施例的第五方面，提供一种企业数据资产的管理数据处理终端，所述企业数据资产的管理数据处理终端用于实现所述的数据质量判定及监测方法。

本发明公开的实施例提供的技术方案可以包括以下有益效果：

本发明制定了一套更加全面的数据质量判定方法及管理系统，除了由数据质量判定规则支撑的质量判定模块以及用于统计分析和生成报告的质量监测模块，还创新性地引入了异常处理模块，对判定不合格的数据及时修复和再利用，避免重要数据丢失。而且整个管理系统实现了质量判定、异常处理以及质量监测过程的自动化，提高了数据质量管理的效率。

相比于现有技术，本发明的优点进一步包括：

本发明针对不同来源的数据，根据每个字段配置的质量判定规则，设计自动化判定程序，对每一项质量要求进行逐一核查，所有检测项均判定合格后方可入库。对于质量判定过程中发现的不合格数据，根据其异常类型配置对应的处理程序，保留有价值的数据，去除无用的数据。整个过程持续监测数据质量，对重复率、缺失率、错误率等相关指标进行统计分析，最终输出数据质量报告。

本发明根据实际的数据采集需求，开发数据质量判定规则库，及时识别数据在唯一性、完整性和准确性方面存在的问题，保证入库数据的质量。

对于判定不合格的数据，设计特定的异常处理模块，去除重复数据、填充/删除缺失数据、修复错误数据，最大可能地保留有价值的数据。

在质量判定的过程中，持续监测各个数据源的质量，形成数据质量报告，反馈到数据源处进行整改，有效提高数据质量管理的效率。

结合实验或试验数据和现有技术对比得到的效果和优点：

本发明涉及数据质量管理的全生命周期，实现了数据采集、数据质量判定、异常数据处理、数据质量报告生成一体化，确保入库数据满足唯一性、完整性、准确性要求。对于发现的异常数据，摒弃了传统的全部过滤的处理方式，按照异常类型实施相应的修复策略，修复后再重新进行质量评价，避免关键数据大量丢失，保证后续数据分析的准确性。同时，基于数据异常类型及其修复策略，尽可能地推动数据问题在数据采集阶段解决，从而改善数据源的质量，提高数据管理的效率。

当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本发明实施例提供的数据质量判定及监测方法流程图。

图2是本发明实施例提供的数据质量管理系统示意图。

图中：1、数据采集模块；2、数据质量判定模块；3、数据质量判定规则模块；4、数据异常处理模块；5、数据异常处理规则模块；6、数据质量监测模块。

图3是本发明实施例提供的数据质量判定方法流程图。

图4是本发明实施例提供的数据质量监测方法流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

如图1所示，本发明提供一种数据质量判定及监测方法，包括：

S101，对不同来源的数据，根据每个字段配置的质量判定规则，进行数据质量判定，并对每一项质量要求进行逐一核查，所有检测项均判定合格后入库。

S102，对于数据质量判定过程中发现的不合格数据，根据所述不合格数据异常类型配置对应的处理程序，保留有价值的数据，去除无用的数据。

S103，对数据持续进行质量监测，进行重复率、缺失率、错误率相关指标统计分析，最终输出数据质量报告。

如图2所示，本发明公开实施例所提供的数据质量管理系统包括：

数据采集模块1用于采集原始数据并导入；

数据质量判定模块2用于对导入的数据进行质量判定，根据数据质量判定规则模块3提供的数据质量判定规则，对数据的唯一性、完整性、准确性进行全方位的评价；

数据异常处理模块4用于对判定不合格的数据进行确认和处理，根据数据异常处理规则模块5提供的数据异常处理规则，可修复数据经判定合格后继续流转到下一环节，不可修复数据直接过滤；

数据质量监测模块6用于数据判定结果的统计分析，计算得出数据质量相关指标的具体数值，形成数据质量报告，从而推动数据源进行改善，提高采集数据的合格率。

如图3所示，本发明实施例提供的数据质量判定方法，包括：

步骤1：导入已采集数据。

步骤2：对导入数据表进行确认，根据数据表的类型调用对应的数据质量判定规则。在数据质量管理系统中，内置了一套数据质量判定规则，对各种数据表的各个字段设置不同的规则。以输入用户信息表为例，需要从库中调取用户信息表数据质量判定规则。

步骤3：启动数据质量判定程序，自动检测数据质量是否满足要求。程序包含3个检测项：唯一性、完整性和准确性检测，通过每一项检测后，才能判定为合格数据。

步骤4：检查数据唯一性，使用md5计算方式对规定字段进行计算生成唯一索引id，通过程序判定此id是否重复，id唯一的数据直接流入下一核查环节。

步骤5：检查数据完整性，设置非空字段，任意非空字段出现缺失值，即判定为不合格；所有非空字段数据完整，方可判定为合格，进入下一核查环节。

步骤6：检查数据准确性，包括数据的采集内容与字段要求一一对应、数据格式符合要求、数据时间或内容之间逻辑性合理。判定数据正确后，直接存入数据库。

步骤7：对于步骤4～6中判定不合格的数据会进行异常类型标注，例如：数据重复、数据缺失、数据错误等，并且流入异常数据处理模块。

步骤8：根据步骤7标注的异常类型，对不合格数据执行对应的处理程序，修复或过滤不合格数据。具体如下：

(1)对于id重复的数据，通过自动去重程序进行去重处理，保留第一个数据。

(2)对于非空字段缺失的数据，首先考虑填充数据，填充方式包括：重新确认原始数据、使用平均值/中位数/众数填充缺失值、使用插值法填充缺失值等；其次考虑删除数据，一般是在原始数据无法确认或者填充无意义的情况下，才会直接剔除数据。

(3)根据数据的错误类型，选择不同的数据修复方法。对于内容采集错误、逻辑不合理的数据，必须重新确认原始数据，如无法确认则删除；对于格式错误的数据，可以通过自动转换格式程序进行格式转换。以格式错误为例，要求采集数据为整型，实际存储为字符型，可以对该字段进行格式转换。

步骤9：异常数据处理后会重新进行数据质量判定，经过唯一性、完整性和准确性三项检测后判定合格的数据可以入库存储，不合格数据则会被过滤掉。

本发明中的数据质量监测过程描述如下，流程图如图4所示：

步骤1：导入已采集数据，统计全部的数据量。

步骤2：质量判定为不合格的数据，纳入异常数据统计，并按照标记的异常类型进行分类汇总；

步骤3：根据公式完成数据质量相关的指标计算，包括数据重复率、缺失率、错误率等指标。

步骤4：自动生成数据质量报告。

根据实际的数据采集需求，开发数据质量判定规则库，及时识别数据在唯一性、完整性和准确性方面存在的问题。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围应由所附的权利要求来限制。

Claims

1.一种数据质量判定及监测方法，其特征在于，所述数据质量判定及监测方法包括：

对数据持续进行质量监测，进行重复率、缺失率、错误率相关指标统计分析，最终输出数据质量报告；

所述数据质量判定方法包括：

步骤1：导入已采集数据；

步骤8：根据步骤7标注的异常类型，对不合格数据执行对应的处理程序，修复或过滤不合格数据；

步骤9：异常数据处理后重新进行数据质量判定，经过唯一性、完整性和准确性三项检测后判定合格的数据入库存储，不合格数据则被过滤掉；

所述步骤2中数据质量判定规则包括：

(1)唯一性：以索引id为主键，索引id不重复；

(2)完整性：所有必要字段不存在数据缺失；

(3)准确性：根据业务需求进行数据采集，包括内容准确、格式准确、逻辑准确；错误类型包括采集数据与字段不匹配、包含特殊字符、字符乱码、格式不统一、逻辑冲突；

所述步骤3数据质量判定程序包括：唯一性、完整性和准确性检测，通过每一项检测后，判定为合格数据；

所述唯一性检测包括：通过自动化脚本判定数据源的索引id是否重复出现，索引id重复出现则判定为唯一性检测不合格；

所述完整性检测包括：通过自动化脚本判定数据源的所有必要字段是否存在缺失值，任一必要字段存在缺失值则判定为完整性检测不合格；

所述准确性检测包括：通过自动化脚本判定数据源的所有字段格式是否符合要求，以及通过设置判断条件判定不同字段之间是否存在逻辑冲突；出现内容不匹配、格式错误、逻辑不合理错误类型则判定为准确性检测不合格；

所述步骤8具体包括：

2.根据权利要求1所述的数据质量判定及监测方法，其特征在于，所述监测数据质量的方法包括：

第一步：导入已采集数据，统计全部的数据量；

第三步：根据公式完成数据质量相关的指标计算，包括数据重复率、缺失率、错误率指标；

所述数据重复率指标计算公式为：

重复率＝重复数据记录条数/总数据记录条数；

所述缺失率指标计算公式为：

整体缺失率＝任一必要字段缺失的数据记录条数/总数据记录条数，某一字段的缺失率＝所有某一字段缺失的数据记录条数/总数据记录条数；

所述错误率指标计算公式为：

整体错误率＝错误数据记录条数/总数据记录条数，某种错误类型的错误率＝某种错误类型的数据记录条数/总数据记录条数；

第四步：自动生成数据质量报告。

3.一种数据管理系统，其特征在于，所述数据管理系统包括：

数据采集模块，用于采集原始数据并导入；

数据质量监测模块，用于数据判定结果的统计分析，计算得出数据质量相关指标的具体数值，形成数据质量报告；

所述数据质量判定方法包括：

步骤1：导入已采集数据；

所述步骤2中数据质量判定规则包括：

(1)唯一性：以索引id为主键，索引id不重复；

(2)完整性：所有必要字段不存在数据缺失；

所述步骤8具体包括：

4.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

同时对数据持续进行质量监测，进行重复率、缺失率、错误率相关指标统计分析，最终输出数据质量报告；

所述数据质量判定方法包括：

步骤1：导入已采集数据；

所述步骤2中数据质量判定规则包括：

(1)唯一性：以索引id为主键，索引id不重复；

(2)完整性：所有必要字段不存在数据缺失；

所述步骤8具体包括：

5.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1～2任意一项所述的数据质量判定及监测方法。

6.一种企业数据资产的管理数据处理终端，其特征在于，所述企业数据资产的管理数据处理终端用于实现权利要求1～2任意一项所述的数据质量判定及监测方法。