CN109656812A - 数据质量检测方法、装置及存储介质 - Google Patents
数据质量检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN109656812A CN109656812A CN201811373534.3A CN201811373534A CN109656812A CN 109656812 A CN109656812 A CN 109656812A CN 201811373534 A CN201811373534 A CN 201811373534A CN 109656812 A CN109656812 A CN 109656812A
- Authority
- CN
- China
- Prior art keywords
- data
- tested
- rule
- detected
- quality checking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000001514 detection method Methods 0.000 claims description 30
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 22
- 230000002159 abnormal effect Effects 0.000 description 16
- 238000003062 neural network model Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 4
- 238000007689 inspection Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012372 quality testing Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3684—Test management for test design, e.g. generating new test cases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3688—Test management for test execution, e.g. scheduling of test suites
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3692—Test management for test results analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据技术,提供了一种数据质量检测方法、装置及计算机可读存储介质。该方法包括:从数据源中获取至少一条待检测数据,其中,每条待检测数据包括内容数据和元数据;根据预设的匹配规则在预先建立的检测规则库中为所述每条待检测数据匹配至少一条检测规则;利用匹配的检测规则对所述待检测数据进行检测,得到数据质量检测结果。利用本发明,可以实现数据质量检测自动化,提高数据质量检测效率,降低人工和时间成本。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据质量检测方法、装置及计算机可读存储介质。
背景技术
随着信息技术的发展和大数据时代的到来,数据信息朝着海量、多样化的方向发展,数据质量日益受到各企业以及政府部门的重视。其中,如何对数据质量进行灵活、准确、高效的检测是一个非常值得关注的研究方向。
目前,对于数据质量的检测,通常需要测试人员根据业务逻辑,对每个字段构造全面的测试用例,即由测试人员编写测试用例的代码和执行逻辑,并由测试人员判断执行结果中是否存在异常、是否满足业务需求。如果测试完成后涉及到对异常数据的修复,还需要在数据修复后再次人工测试回归,反复编写和执行测试用例。因为这种方式是人为参与,测试用例的覆盖率有限,所以对异常数据存在漏检的可能,由于对不同的字段以及修复后的数据需要重复执行测试用例,检测效率也难以得到保证。
发明内容
鉴于以上原因,有必要提供一种数据质量检测方法、装置及计算机可读存储介质,实现自动化的数据质量检测,提高数据质量检测的效率和通用性,减少人为因素对数据质量检测结果造成的影响。
为实现上述目的,本发明提供一种数据质量检测方法,应用于电子装置,该方法包括:
获取步骤:从数据源中获取至少一条待检测数据,其中,每条待检测数据包括内容数据和元数据;
匹配步骤:根据预设的匹配规则在预先建立的检测规则库中为所述每条待检测数据匹配至少一条检测规则;及
检测步骤:利用匹配的检测规则对所述待检测数据进行检测,得到数据质量检测结果。
优选地,所述元数据包括该条待检测数据的重要程度、默认值、时间戳、所属字段以及该字段的数据类型中的一种或多种。
优选地,该方法还包括:
将属于同一字段的待检测数据归为一个待检测数据组,为每个待检测数据组中的待检测数据统一匹配检测规则。
优选地,所述检测规则为基于MapReduce的并行化检测规则,每个检测规则包括规则名称、规则描述和预期结果。
优选地,在所述检测步骤之后,该方法还包括:
若所述数据质量检测结果为异常且数据异常率大于预设告警阈值,则以预设方式对异常问题发出警示。
本发明还提供一种电子装置,该电子装置包括存储器和处理器,所述存储器中包括数据质量检测程序,该数据质量检测程序被所述处理器执行时实现如下步骤:
获取步骤:从数据源中获取至少一条待检测数据,其中,每条待检测数据包括内容数据和元数据;
匹配步骤:根据预设的匹配规则在预先建立的检测规则库中为所述每条待检测数据匹配至少一条检测规则;及
检测步骤:利用匹配的检测规则对所述待检测数据进行检测,得到数据质量检测结果。
优选地,所述元数据包括该条待检测数据的重要程度、默认值、时间戳、所属字段以及该字段的数据类型中的一种或多种。
优选地,该方法还包括:
将属于同一字段的待检测数据归为一个待检测数据组,为每个待检测数据组中的待检测数据统一匹配检测规则。
优选地,所述检测规则为基于MapReduce的并行化检测规则,每个检测规则包括规则名称、规则描述和预期结果。
优选地,在所述检测步骤之后,该方法还包括:
若所述数据质量检测结果为异常且数据异常率大于预设告警阈值,则以预设方式对异常问题发出警示。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质中存储有数据质量检测程序,该数据质量检测程序被所述处理器执行时实现如下步骤:
获取步骤:从数据源中获取至少一条待检测数据,其中,每条待检测数据包括内容数据和元数据;
匹配步骤:根据预设的匹配规则在预先建立的检测规则库中为所述每条待检测数据匹配至少一条检测规则;及
检测步骤:利用匹配的检测规则对所述待检测数据进行检测,得到数据质量检测结果。
本发明提供的数据质量检测方法、装置及计算机可读存储介质,通过从数据源中获取包括内容数据和元数据的至少一条待检测数据,然后根据预设的匹配规则在预先建立的检测规则库中为每条待检测数据匹配至少一条检测规则,最后利用匹配的检测规则对所述待检测数据进行检测,得到数据质量检测结果。通过扩展和维护所述检测规则库,可以提高数据质量检测的覆盖率和准确度,因为整个数据质量检测过程可以自动化完成,无需人工干预,所以利用本发明,还可以降低人工和时间成本,提高检测效率,避免人为因素对数据质量检测结果造成的影响。
附图说明
图1为本发明电子装置一实施例的示意图;
图2为图1中数据质量检测程序一实施例的程序模块图;
图3为本发明数据质量检测方法第一实施例的流程图;
图4为本发明数据质量检测方法第二实施例的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚明白,下面将结合若干附图及实施例,对本发明进行进一步的详细说明。应当理解的是,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种电子装置。参照图1所示,为本发明电子装置1一实施例的示意图。在该实施例中,所述电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有存储和运算功能的终端设备。在一个实施例中,当所述电子装置1为服务器时,该服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等的一种或几种。
所述电子装置1包括存储器11、处理器12及网络接口13。
其中,所述存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11的可读存储介质通常用于存储获取的待检测数据、预先建立的检测规则库以及数据质量检测程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器12可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或处理数据,例如执行所述数据质量检测程序10等。
所述网络接口13可以包括标准的有线接口、无线接口(如WI-FI接口)。通常用于在该电子装置1与其他电子设备或系统之间建立通信连接,例如与数据源建立通信连接。
图1仅示出了具有组件11-13以及数据质量检测程序10的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括输入单元比如键盘(Keyboard),语音输入装置比如麦克风(Microphone)等具有语音识别功能的设备以及语音输出装置比如扬声器、耳机等。其中,所述输入单元可用于向所述预先建立的检测规则库中增添新建的数据检测规则。
可选地,该电子装置1还可以包括显示器,也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(OrganicLight-Emitting Diode,OLED)显示器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面,例如显示数据质量检测结果。
该电子装置1还可以包括射频(Radio Frequency,RF)电路、传感器、音频电路等等,在此不再赘述。
在上述实施例中,所述处理器12执行所述存储器11中存储的所述数据质量检测程序10时可以实现如下步骤:
获取步骤:从数据源中获取至少一条待检测数据,其中,每条待检测数据包括内容数据和元数据;
匹配步骤:根据预设的匹配规则在预先建立的检测规则库中为所述每条待检测数据匹配至少一条检测规则;及
检测步骤:利用匹配的检测规则对所述待检测数据进行检测,得到数据质量检测结果。
关于上述步骤的详细介绍,请参照下述图2关于数据质量检测程序10一实施例的程序模块图以及图3关于数据质量检测方法第一实施例的流程图的说明。
在其他实施例中,所述数据质量检测程序10可以被分割为多个模块,该多个模块被存储于所述存储器12中,并由所述处理器13执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
参照图2所示,为图1中数据质量检测程序10一实施例的程序模块图。在本实施例中,所述数据质量检测程序10可以被分割为:获取模块110、匹配模块120和检测模块130。
所述获取模块110,用于从数据源中获取至少一条待检测数据。所述数据源包括本地数据库和外地数据库,通常地,获取模块110将从数据源中成批量地获取待检测数据。例如,获取某神经网络模型的所有入模变量或者样本数据作为待检测数据。又如,通过监控数据接口获取该数据接口的实时数据。再如,通过接收用户输入的表名,获取该表名对应的数据表。进一步地,获取模块110还可以接收用户选择检测的分区,获取该分区对应的分区表,将其作为待检测数据。其中,分区表作为一个数据表的子集,也就是说,一个数据表可以分为多个分区,每个分区为一个分区表。总之,所述获取模块110可以从任意数据源中获取包括内容数据和元数据的至少一条待检测数据,所述元数据为用于描述所述内容数据的数据,主要用于描述数据属性(property),用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。在一个实施例中,所述元数据包括待检测数据的重要程度、默认值、时间戳、所属字段以及该字段的数据类型等信息。其中,数据类型包括但不限于布尔类型(Boolean)、字符串类型(String)、日期类型(Data time)、双精度浮点类型(Double)、整数类型(Bigint)以及精确值类型(Decimal)。重要程度包括高、中、低。默认值为每条待检测数据的期望值或合理值,通常用于数值型数据。时间戳用于表示一条待检测数据在某个特定时间之前已经存在的、完整的、可验证的数据,通常是一个字符序列,唯一地标识某一刻的时间。
所述获取模块110还用于根据元数据信息确认对待检测数据的获取频率,并将属于同一字段的待检测数据归为一个待检测数据组。例如,假设以某神经网络模型的入模变量为待检测数据,所述入模变量的重要程度为高,则所述获取模块110将实时监控该神经网络模型的数据接口,获取输入该神经网络模型的实时数据,将其作为待检测数据,并将该待检测数据中属于同一字段的数据归为一个待检测数据组。类似地,对于重要程度为中或重要程度为低的候选变量,所述获取模块110可以根据实际需要以预设的获取频率从该神经网络模型的数据接口获取历史数据。
在一个实施例中,所述获取模块110还用于从官方发布的数据中获取与所述待检测数据相对应的权威数据。所述官方发布的数据包括相关政府部门发布的数据以及被相关用户广泛承认的数据源发布的数据,通常默认政府部门发布的数据为质量最高的权威数据,对于企业数据,则以企业官网发布的数据为权威数据。
所述匹配模块120,用于根据预设的匹配规则在预先建立的检测规则库中为每条待检测数据匹配至少一条检测规则。在一个实施例中,所述检测规则为基于MapReduce的并行化检测规则,电子装置1通过对所述检测规则进行并行化处理提升数据质量检测效率。其中,每个检测规则包括规则名称、规则描述和预期结果。可以理解的是,对于无明确预期结果或不需要明确预期结果的检测规则,其对应的预期结果可为N/A。例如,假设待检测数据为表示水位高低的数据,通常,对水位数据的数值并没有明确的要求,因此,与水位数值数据相匹配的检测规则的预期结果可以设定为N/A。
在所述获取模块110可用于将同一字段的待检测数据归为一个待检测数据组时,匹配模块120还用于根据待检测数据组的数据特征为同一待检测数据组中的待检测数据统一匹配检测规则。举例来说,当以某神经网络模型的所有入模变量为待检测数据时,将同一入模变量的不同取值作为一个待检测数据组,假设该入模变量的数据类型为String,则与该待检测数据组相匹配的检测规则可以包括:检测零值占比、检测平均值、检测标准差、检测最大值、检测最小值等的检测规则。可以理解的是,通过将同一字段的待检测数据归为一个待检测数据组,可以提高为待检测数据匹配检测规则的速度,从而提高数据质量检测的效率。
所述预设的匹配规则可以是预先根据常用的数据质量检测的测试用例进行统计分析得到的。例如,可以统计出哪些数据类型的待检测数据在数据质量检测过程中需要使用哪些检测规则,然后为检测规则添加相应的数据类型的标签。于是,在获取一条待检测数据之后,可以根据该待检测数据的数据类型在所述预先建立的检测规则库中找出具有该数据类型标签的所有检测规则,将其作为与该条待检测数据相匹配的检测规则。
所述预设的匹配规则还可以由开发人员根据实际需求进行定制。例如,开发人员可以设置这样的匹配规则:某神经网络模型的入模变量与数据缺失率、零值占比、标准差等的检测规则相匹配,则为数据缺失率、零值占比、标准差等的检测规则添加该神经网络模型入模变量的标签。于是,在所述获取模块110获取该神经网络模型的入模变量后,匹配模块120自动找出如上所述针对数据缺失率、零值占比、标准差等的检测规则,将其作为与该神经网络模型的入模变量相匹配的检测规则。
所述检测模块130,用于利用匹配的检测规则对所述每条待检测数据进行质量检测,得到数据质量检测结果。具体的,对于每条待检测数据或每个待检测数据组来说,可根据为该条待检测数据匹配的检测规则或为该待检测数据组匹配的检测规则,对每条待检测数据的内容数据与匹配的检测规则的预期结果进行比较,如果每个内容数据都符合所述预期结果,则表明该条待检测数据该待检测数据组未出现异常,否则,则表明该条待检测数据该待检测数据组出现异常。例如,假设一条待检测数据的数据类型在元数据中定义为Double,而获取的待检测数据的数据类型为Bigint,又如,若待检测数据长度大于预期结果(例如身份证号码大于18位),则数据质量检测结果为异常,检测模块130可以记录该数据质量检测结果以及具体的描述信息。
在所述获取模块110可用于从官方发布的数据中获取与所述待检测数据相对应的权威数据时,检测模块130还用于将所述待检测数据与所述权威数据进行对比,得到数据比对检测结果,综合所述数据质量检测结果和该数据比对检测结果,得到数据质量综合评价结果。所述官方发布的数据包括相关政府部门发布的数据以及被相关用户广泛承认的数据源发布的数据,通常默认政府部门发布的数据为质量最高的权威数据,对于企业数据,则以企业官网发布的数据为权威数据。例如,当待检测数据为机动车违章数据时,交通安全服务管理平台发布的数据即为权威数据。当用人单位调查员工交通违章情况时,将员工录入的违章数据作为待检测数据,将根据员工身份证号码或机动车驾驶证证号从当地政府的交通安全服务管理平台调取的数据作为权威数据,通过对该待检测数据和该权威数据进行对比,根据得到的数据比对检测结果验证数据一致性,通过综合所述数据质量检测结果和该数据比对检测结果,可以更准确地判断待检测数据有无异常,得到待检测数据的数据质量综合评价结果。
在一个实施例中,可以为数据质量检测设置告警阈值。例如,当待检测数据的缺失率高于30%时,以预设方式对异常问题发出警示。所述预设方式包括在所述数据质量检测结果中高亮显示异常问题以及将异常问题以邮件或短信的方式发送给检测人员。
此外,本发明还提供一种数据质量检测方法。参照图3所示,为本发明数据质量检测方法的第一实施例的流程图。电子装置1的处理器12执行存储器11中存储的数据质量检测程序10时实现数据质量检测方法的如下步骤:
步骤S300,获取模块110从数据源中获取至少一条待检测数据。其中,每条待检测数据包括内容数据和元数据。在一个实施例中,所述元数据包括一条待检测数据的重要程度、默认值、时间戳、所属字段以及该字段的数据类型中的一种或多种。当待检测数据的元数据包括待检测数据的重要程度信息时,若重要程度为高,则获取模块110对数据源进行实时监测,从该数据源的数据接口获取实时数据,若重要程度为中,则根据实际需要设置从数据源获取数据的频率,若重要程度为低,则可根据具体情况合理调低从数据源中获取数据的概率,以此减少数据质量检测对相关系统性能造成的影响。
步骤S301,匹配模块120根据预设的匹配规则在预先建立的检测规则库中为所述每条待检测数据匹配至少一条检测规则。具体地,所述检测规则为基于MapReduce的并行化检测规则,通过并行处理检测规则,可以提升数据质量检测的效率。
示例性地,所述预设的匹配规则可以是预先根据常用的数据质量检测的测试用例进行统计分析得到的。例如,可以统计出哪些数据类型的待检测数据在数据质量检测过程中需要使用哪些检测规则,然后为检测规则添加相应的数据类型的标签。于是,在获取一条待检测数据之后,可以根据该待检测数据的数据类型在所述预先建立的检测规则库中找出具有该数据类型标签的所有检测规则,将其作为与该条待检测数据相匹配的检测规则。所述匹配规则还可以通过设置映射关系等其他方法得到,在此不再赘述。
在本实施例中,所述预先建立的检测规则库中的检测规则可以灵活地增删。当需要增添新的数据检测规则时,可以按照保持已有检测规则独立性的原则,来增加新的检测规则的脚本代码。
步骤S302,检测模块130利用匹配的检测规则对所述待检测数据进行质量检测,得到数据质量检测结果。具体的,对于每条待检测数据来说,可根据为该条待检测数据匹配的至少一条检测规则,得到至少一个检测结果,将所述检测结果与匹配的检测规则的预期结果进行比较,如果每个检测结果都符合所述预期结果,则表明该条待检测数据未出现异常,否则,则表明该条待检测数据出现异常。例如,若特定的待检测数据存在负值(如年龄、金额等)、待检测数据长度大于预期结果(例如身份证号码大于18位)、待检测数据分布比例异常、待检测数据的数据类型与元数据中定义的数据类型不符等,则数据质量检测结果为异常,检测模块130可以记录该数据质量检测结果以及具体的描述信息,包括待检测数据存储位置等。
参照图4所示,为本发明数据质量检测方法的第二实施例的流程图。在本实施例中,属于同一字段的待检测数据被归为一个待检测数据组,具体步骤如下:
步骤S400,获取模块110从数据源中获取至少一条待检测数据并将属于同一字段的待检测数据归为一个待检测数据组。在该实施例中,每条待检测数据包括内容数据和元数据,所述元数据包括待检测数据的所属字段、该字段的数据类型以及待检测数据的重要程度、默认值、时间戳等信息。
步骤S401,匹配模块120根据预设的匹配规则在预先建立的检测规则库中为所述每个待检测数据组中的待检测数据统一匹配至少一个检测规则。
步骤S402,检测模块130利用匹配的检测规则对所述待检测数据进行质量检测,得到数据质量检测结果。
在该实施例中,可以为数据质量检测设置告警阈值。例如,当待检测数据的缺失率高于30%时,以预设方式对异常问题发出警示。所述预设方式包括在所述数据质量检测结果中高亮显示异常问题以及将异常问题以邮件或短信的方式发送给检测人员。在该实施例中,在检测到待检测数据存在异常,并向检测人员发送警示后,检测人员可根据实际情况判断待检测数据出现的异常是否合理,在检测人员对异常数据进行处理后,可自动重复步骤S400-S402,以对处理后的数据再次进行检测。
本实施例通过将属于同一字段的待检测数据归为一个待检测数据组,提高为待检测数据匹配检测规则的速度,从而提高数据质量检测的效率。
此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中存储有数据质量检测程序10,该数据质量检测程序10被所述处理器12执行时实现如下操作:
获取步骤:从数据源中获取至少一条待检测数据,其中,每条待检测数据包括内容数据和元数据;
匹配步骤:根据预设的匹配规则在预先建立的检测规则库中为所述每条待检测数据匹配至少一条检测规则;及
检测步骤:利用匹配的检测规则对所述待检测数据进行检测,得到数据质量检测结果。
本发明之计算机可读存储介质的具体实施方式与上述数据质量检测方法和电子装置1的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质中,包括若干指令用以使得电子装置执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据质量检测方法,应用于电子装置,其特征在于,该方法包括:
获取步骤:从数据源中获取至少一条待检测数据,其中,每条待检测数据包括内容数据和元数据;
匹配步骤:根据预设的匹配规则在预先建立的检测规则库中为所述每条待检测数据匹配至少一条检测规则;及
检测步骤:利用匹配的检测规则对所述待检测数据进行检测,得到数据质量检测结果。
2.如权利要求1所述的数据质量检测方法,其特征在于,所述元数据包括该条待检测数据的重要程度、默认值、时间戳、所属字段以及该字段的数据类型中的一种或多种。
3.如权利要求2所述的数据质量检测方法,其特征在于,该方法还包括:
将属于同一字段的待检测数据归为一个待检测数据组,为每个待检测数据组中的待检测数据统一匹配检测规则。
4.如权利要求1所述的数据质量检测方法,其特征在于,所述检测规则为基于MapReduce的并行化检测规则,每个检测规则包括规则名称、规则描述和预期结果。
5.如权利要求1所述的数据质量检测方法,其特征在于,所述检测步骤还包括:
若所述数据质量检测结果为异常且数据异常率大于预设告警阈值,则以预设方式对异常问题发出警示。
6.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中包括数据质量检测程序,该数据质量检测程序被所述处理器执行时实现如下步骤:
获取步骤:从数据源中获取至少一条待检测数据,其中,每条待检测数据包括内容数据和元数据;
匹配步骤:根据预设的匹配规则在预先建立的检测规则库中为所述每条待检测数据匹配至少一条检测规则;及
检测步骤:利用匹配的检测规则对所述待检测数据进行检测,得到数据质量检测结果。
7.如权利要求6所述的电子装置,其特征在于,所述元数据包括该条待检测数据的重要程度、默认值、时间戳、所属字段以及该字段的数据类型中的一种或多种。
8.如权利要求6所述的电子装置,其特征在于,所述数据质量检测程序被所述处理器执行时还实现如下步骤:
将属于同一字段的待检测数据归为一个待检测数据组,为每个待检测数据组中的待检测数据统一匹配检测规则。
9.如权利要求6至8中任意一项所述的电子装置,其特征在于,所述检测规则为基于MapReduce的并行化检测规则,每个检测规则包括规则名称、规则描述和预期结果。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括数据质量检测程序,该数据质量检测程序被处理器执行时实现如权利要求1至5中任意一项所述的数据质量检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811373534.3A CN109656812A (zh) | 2018-11-19 | 2018-11-19 | 数据质量检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811373534.3A CN109656812A (zh) | 2018-11-19 | 2018-11-19 | 数据质量检测方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109656812A true CN109656812A (zh) | 2019-04-19 |
Family
ID=66111348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811373534.3A Pending CN109656812A (zh) | 2018-11-19 | 2018-11-19 | 数据质量检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109656812A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737650A (zh) * | 2019-09-27 | 2020-01-31 | 北京明略软件系统有限公司 | 数据质量检测方法及装置 |
CN110837469A (zh) * | 2019-11-06 | 2020-02-25 | 恩亿科(北京)数据科技有限公司 | 数据测试方法和装置、测试服务器和存储介质 |
CN111177176A (zh) * | 2019-11-18 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 数据检测方法、装置及存储介质 |
CN111427928A (zh) * | 2020-03-26 | 2020-07-17 | 京东数字科技控股有限公司 | 一种数据质量检测方法及装置 |
CN111563074A (zh) * | 2020-04-28 | 2020-08-21 | 厦门市美亚柏科信息股份有限公司 | 一种基于多维标签的数据质量检测方法和系统 |
CN112052138A (zh) * | 2020-08-31 | 2020-12-08 | 平安科技(深圳)有限公司 | 业务数据质量检测方法、装置、计算机设备及存储介质 |
CN112256682A (zh) * | 2020-10-22 | 2021-01-22 | 佳都新太科技股份有限公司 | 一种多维异构数据的数据质量检测方法及装置 |
WO2021059122A1 (en) * | 2019-09-27 | 2021-04-01 | International Business Machines Corporation | Anomaly and drift detection using domain-indexed constraint repository |
CN116028481A (zh) * | 2023-03-30 | 2023-04-28 | 紫金诚征信有限公司 | 一种数据质量检测方法、装置、设备和存储介质 |
CN116701383A (zh) * | 2023-08-03 | 2023-09-05 | 中航信移动科技有限公司 | 一种数据实时质量监测方法、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820720A (zh) * | 2015-05-26 | 2015-08-05 | 北京京东尚科信息技术有限公司 | 一种数据质量检测方法和装置 |
CN106202110A (zh) * | 2015-05-06 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 数据质量检测的方法和装置 |
CN106708909A (zh) * | 2015-11-18 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 数据质量的检测方法和装置 |
-
2018
- 2018-11-19 CN CN201811373534.3A patent/CN109656812A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202110A (zh) * | 2015-05-06 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 数据质量检测的方法和装置 |
CN104820720A (zh) * | 2015-05-26 | 2015-08-05 | 北京京东尚科信息技术有限公司 | 一种数据质量检测方法和装置 |
CN106708909A (zh) * | 2015-11-18 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 数据质量的检测方法和装置 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2603398A (en) * | 2019-09-27 | 2022-08-03 | Ibm | Anomaly and drift detection using domain-indexed constraint repository |
WO2021059122A1 (en) * | 2019-09-27 | 2021-04-01 | International Business Machines Corporation | Anomaly and drift detection using domain-indexed constraint repository |
CN110737650A (zh) * | 2019-09-27 | 2020-01-31 | 北京明略软件系统有限公司 | 数据质量检测方法及装置 |
US11321304B2 (en) | 2019-09-27 | 2022-05-03 | International Business Machines Corporation | Domain aware explainable anomaly and drift detection for multi-variate raw data using a constraint repository |
CN110837469A (zh) * | 2019-11-06 | 2020-02-25 | 恩亿科(北京)数据科技有限公司 | 数据测试方法和装置、测试服务器和存储介质 |
CN110837469B (zh) * | 2019-11-06 | 2023-08-25 | 恩亿科(北京)数据科技有限公司 | 数据测试方法和装置、测试服务器和存储介质 |
CN111177176A (zh) * | 2019-11-18 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 数据检测方法、装置及存储介质 |
CN111177176B (zh) * | 2019-11-18 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 数据检测方法、装置及存储介质 |
CN111427928A (zh) * | 2020-03-26 | 2020-07-17 | 京东数字科技控股有限公司 | 一种数据质量检测方法及装置 |
CN111563074A (zh) * | 2020-04-28 | 2020-08-21 | 厦门市美亚柏科信息股份有限公司 | 一种基于多维标签的数据质量检测方法和系统 |
CN111563074B (zh) * | 2020-04-28 | 2022-05-31 | 厦门市美亚柏科信息股份有限公司 | 一种基于多维标签的数据质量检测方法和系统 |
WO2021147559A1 (zh) * | 2020-08-31 | 2021-07-29 | 平安科技(深圳)有限公司 | 业务数据质量检测方法、装置、计算机设备及存储介质 |
CN112052138A (zh) * | 2020-08-31 | 2020-12-08 | 平安科技(深圳)有限公司 | 业务数据质量检测方法、装置、计算机设备及存储介质 |
CN112256682B (zh) * | 2020-10-22 | 2022-09-20 | 佳都科技集团股份有限公司 | 一种多维异构数据的数据质量检测方法及装置 |
CN112256682A (zh) * | 2020-10-22 | 2021-01-22 | 佳都新太科技股份有限公司 | 一种多维异构数据的数据质量检测方法及装置 |
CN116028481A (zh) * | 2023-03-30 | 2023-04-28 | 紫金诚征信有限公司 | 一种数据质量检测方法、装置、设备和存储介质 |
CN116701383A (zh) * | 2023-08-03 | 2023-09-05 | 中航信移动科技有限公司 | 一种数据实时质量监测方法、电子设备及存储介质 |
CN116701383B (zh) * | 2023-08-03 | 2023-10-27 | 中航信移动科技有限公司 | 一种数据实时质量监测方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109656812A (zh) | 数据质量检测方法、装置及存储介质 | |
CN103793315B (zh) | 监视和改善软件开发质量方法、系统和计算机可读介质 | |
CN107810500A (zh) | 数据质量分析 | |
CN109960635B (zh) | 实时计算平台的监控和报警方法、系统、设备及存储介质 | |
CN109635564A (zh) | 一种检测暴力破解行为的方法、装置、介质及设备 | |
CN110163457A (zh) | 一种业务指标的异常定位方法和装置 | |
CN112860556A (zh) | 覆盖率统计方法、装置、计算机系统和可读存储介质 | |
CN110471912B (zh) | 一种员工属性信息校验方法、装置及终端设备 | |
CN117571742B (zh) | 基于人工智能实现芯片质检的方法及装置 | |
CN108897765A (zh) | 一种数据批量导入方法及其系统 | |
CN114742412A (zh) | 一种软件技术服务系统及方法 | |
CN111523764B (zh) | 业务架构检测方法、装置、工具、电子设备和介质 | |
CN116401113B (zh) | 一种异构众核架构加速卡的环境验证方法、装置及介质 | |
US11244235B2 (en) | Data analysis device and analysis method | |
CN115576831A (zh) | 一种测试案例推荐方法、装置、设备及存储介质 | |
CN114513334B (zh) | 风险管理方法和风险管理装置 | |
CN115344495A (zh) | 批量任务测试的数据分析方法、装置、计算机设备及介质 | |
CN114312930A (zh) | 基于日志数据的列车运行异常诊断方法和装置 | |
CN112363915A (zh) | 用于页面性能测试的方法、装置、终端设备及存储介质 | |
CN113419916B (zh) | 风控检查程序不间断运行方法、装置、设备及存储介质 | |
CN117372047B (zh) | 基于ldpc纠错算法实现电子产品的数据回溯方法及系统 | |
CN116991364B (zh) | 基于大数据的软件开发系统管理方法 | |
CN117391261B (zh) | 一种基于低功耗超声波测量的物联网ai智慧水务系统 | |
CN111414398B (zh) | 数据分析模型确定方法、装置及存储介质 | |
CN116881291A (zh) | 检测系统的检定效果评估方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |