CN109241043A - 一种数据质量检测方法及装置 - Google Patents

一种数据质量检测方法及装置 Download PDF

Info

Publication number
CN109241043A
CN109241043A CN201810917668.0A CN201810917668A CN109241043A CN 109241043 A CN109241043 A CN 109241043A CN 201810917668 A CN201810917668 A CN 201810917668A CN 109241043 A CN109241043 A CN 109241043A
Authority
CN
China
Prior art keywords
attribute value
data
detection field
value section
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810917668.0A
Other languages
English (en)
Other versions
CN109241043B (zh
Inventor
曾伟雄
莫卉星
刘晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bee Wisdom (beijing) Technology Co Ltd
Original Assignee
Bee Wisdom (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bee Wisdom (beijing) Technology Co Ltd filed Critical Bee Wisdom (beijing) Technology Co Ltd
Priority to CN201810917668.0A priority Critical patent/CN109241043B/zh
Publication of CN109241043A publication Critical patent/CN109241043A/zh
Application granted granted Critical
Publication of CN109241043B publication Critical patent/CN109241043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Automatic Analysis And Handling Materials Therefor (AREA)

Abstract

本发明公开了一种数据质量检测方法及装置,所述方法包括:针对待检测数据集合中的每个检测字段,根据检测字段预先设置的每个属性值区间,及待检测数据集合中每个数据的检测字段的属性值,确定属性值位于检测字段的每个属性值区间的数据的第一数量;根据每个属性值区间对应数据的第一数量与待检测数据集合中数据的第一总数量的比值,确定每个属性值区间对应的当前占比;并根据每个属性值区间对应的当前占比与保存的属性值区间对应的历史占比,确定的每个属性值区间对应的子波动值的和,确定检测字段的波动值,并在波动值小于设定的波动阈值时,确定待检测数据集合在检测字段的质量达标。用以提供一种从数据的稳定性出发,确定数据质量的方案。

Description

一种数据质量检测方法及装置
技术领域
本发明涉及大数据科学技术领域,尤其涉及一种数据质量检测方法及装置。
背景技术
随着信息化的高速发展,大数据应运而生,大数据指的是一种规模达到在获取、存储、管理、分析等方面大大超出了传统数据库软件工具能力范围的数据集合,通过对大数据进行分析,可以为企业的决策等提供强有力的支持。目前大数据不仅成为各大互联网公司的战略方向,其它行业也开始探索大数据,但是伴随大数据而来的数据质量问题也比传统数据库中的问题要严峻的多。大数据每天有拍字节(petabyte,PB)级别的数据计算量,如果无法对数据质量进行检测,错误的采用低劣的数据可能会导致对数据的利用出现错误,企业决策出现偏差等问题,企业不得不投入大量的资源来弥补采用低劣的数据产生的问题,因此数据质量检测对数据的应用至关重要。
然而,现有数据质量检测方案通常对数据集合中的数据进行缺失值、异常值及规范性的检测,无法对数据集合中数据的稳定性进行检测,例如:针对性别字段,历史数据集合中男女性别比例为1:1,待检测数据集合中男女性别比例为100:1,待检测数据集合中男女比例较历史数据集合中男女比例存在较大的波动,待检测数据集合中数据不稳定,存在质量问题,但是待检测数据集合不存在缺失值、异常值及不规范性的问题,现有数据质量检测方案会认为待检测数据集合的质量不存在问题,待检测数据集合的质量达标,会对待检测数据集合的应用产生误导,因此急需一种能够从数据的稳定性出发,确定数据质量的数据质量检测方案。
发明内容
本发明提供一种数据质量检测方法及装置,用以解决现有技术中存在无法从数据的稳定性出发,确定数据质量的问题。
第一方面,本发明公开了一种数据质量检测方法,所述方法包括:
针对待检测数据集合中的每个检测字段,根据所述检测字段预先设置的每个属性值区间,及所述待检测数据集合中每个数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的数据的第一数量;
针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应数据的第一数量与所述待检测数据集合中数据的第一总数量的比值,确定所述检测字段的每个属性值区间对应的当前占比;并针对所述检测字段的每个属性值区间,根据所述属性值区间对应的当前占比与保存的所述属性值区间对应的历史占比,确定所述属性值区间对应的子波动值;
针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应的子波动值的和,确定所述检测字段的波动值,并判断所述检测字段的波动值是否小于设定的波动阈值;如果是,确定所述待检测数据集合在所述检测字段的质量达标。
进一步地,所述根据所述属性值区间对应的当前占比与所述属性值区间对应的历史占比,确定所述属性值区间对应的子波动值包括:
根据S=(X-Y)*ln(X/Y)确定属性值区间对应的子波动值,其中S为属性值区间对应的子波动值,X为属性值区间对应的当前占比,Y为属性值区间对应的历史占比。
进一步地,针对所述检测字段预先设置每个属性值区间的过程包括:
识别所述检测字段是否为分类型字段;
如果是,将所述检测字段对应的每个分类类别作为一个属性值区间;
如果否,对所述检测字段对应的取值范围进行等宽分箱,将每个分箱对应的子取值范围作为一个属性值区间,其中,分箱的数量为至少两个。
进一步地,确定所述检测字段的每个属性值区间对应的历史占比包括:
根据预设的抽样比例,从历史数据集合中抽取所述抽样比例的样本数据生成历史样本数据集合;并根据所述历史样本数据集合中每个样本数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的样本数据的第二数量;
针对所述检测字段的每个属性值区间,根据所述属性值区间对应样本数据的第二数量与所述历史样本数据集合中样本数据的第二总数量的比值,确定所述属性值区间对应的历史占比。
进一步地,如果所述检测字段的波动值不小于设定的波动阈值,所述方法还包括:
将所述待检测数据集合的所述检测字段标记为不达标,并发出告警信息。
第二方面,本发明公开了一种数据质量检测装置,所述装置包括:
第一确定模块,用于针对待检测数据集合中的每个检测字段,根据所述检测字段预先设置的每个属性值区间,及所述待检测数据集合中每个数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的数据的第一数量;
第二确定模块,用于针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应数据的第一数量与所述待检测数据集合中数据的第一总数量的比值,确定所述检测字段的每个属性值区间对应的当前占比;并针对所述检测字段的每个属性值区间,根据所述属性值区间对应的当前占比与保存的所述属性值区间对应的历史占比,确定所述属性值区间对应的子波动值;
检测模块,用于针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应的子波动值的和,确定所述检测字段的波动值,并判断所述检测字段的波动值是否小于设定的波动阈值;如果是,确定所述待检测数据集合在所述检测字段的质量达标。
进一步地,所述第二确定模块,具体用于根据S=(X-Y)*ln(X/Y)确定属性值区间对应的子波动值,其中S为属性值区间对应的子波动值,X为属性值区间对应的当前占比,Y为属性值区间对应的历史占比。
进一步地,所述装置还包括:
识别配置模块,用于识别所述检测字段是否为分类型字段;如果是,将所述检测字段对应的每个分类类别作为一个属性值区间;如果否,对所述检测字段对应的取值范围进行等宽分箱,将每个分箱对应的子取值范围作为一个属性值区间,其中,分箱的数量为至少两个。
进一步地,所述装置还包括:
第三确定模块,用于根据预设的抽样比例,从历史数据集合中抽取所述抽样比例的样本数据生成历史样本数据集合;并根据所述历史样本数据集合中每个样本数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的样本数据的第二数量;针对所述检测字段的每个属性值区间,根据所述属性值区间对应样本数据的第二数量与所述历史样本数据集合中样本数据的第二总数量的比值,确定所述属性值区间对应的历史占比。
进一步地,所述装置还包括:
告警模块,用于如果所述检测字段的波动值不小于设定的波动阈值,将所述待检测数据集合的所述检测字段标记为不达标,并发出告警信息。
本发明有益效果如下:
由于在本发明实施例中,针对检测字段的每个属性值区间,根据该属性值区间对应数据的第一数量与待检测数据集合中数据的第一总数量的比值确定的当前占比,与保存的该属性值区间对应的历史占比,确定该属性值区间对应的子波动值,并在根据检测字段的每个属性值区间对应的子波动值的和,确定的检测字段的波动值小于设定的波动阈值时,确定待检测数据集合在检测字段的质量达标,提供了一种从数据的稳定性出发,确定数据质量的数据质量检测方案。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据质量检测过程示意图;
图2为本发明实施例提供的一种数据质量检测装置结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要理解的是,本发明中所涉及的多个,是指两个或两个以上,在本发明的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
实施例1:
图1为本发明实施例提供的一种数据质量检测过程示意图,所述过程包括:
S101:针对待检测数据集合中的每个检测字段,根据所述检测字段预先设置的每个属性值区间,及所述待检测数据集合中每个数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的数据的第一数量。
本发明实施例提供的数据质量检测方法应用于电子设备,所述电子设备可以为手机、个人电脑(PC)、平板电脑等设备,也可以是服务器、服务器集群等设备。
在对某一类型的数据的数据集合进行分析之前,通常会对所述类型的数据的数据集合进行数据质量检测,在本发明实施例中,在电子设备中预先针对待检测数据集合中的每个检测字段,保存有所述检测字段对应的每个属性值区间。例如:针对检测字段“分数”保存有“分数”对应的属性值区间1[0,10]、属性值区间2(10,20]、属性值区间3(20,30]、属性值区间4(30,40]、属性值区间5(40,50]、属性值区间6(50,60]、属性值区间7(60,70]、属性值区间8(70,80]、属性值区间9(80,90]、属性值区间10(90,100]。
较佳的,电子设备还提供有对待检测数据集合进行检测字段及检测字段对应的每个属性值区间进行设置的操作界面,用户可以通过所述操作界面,针对待检测的数据集合,进行检测字段及检测字段对应的每个属性值区间的设置,其中,用户针对待检测数据集合可以设置一个检测字段,也可以设置多个检测字段,针对每个检测字段设置的属性值区间为至少两个。
具体的,电子设备针对待检测数据集合中的每个检测字段,根据所述检测字段预先设置的每个属性值区间,及待检测数据集合中每个数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的数据的第一数量。示例性的:检测字段为“性别”,“性别””对应的属性值区间包括属性值区间1[男]、属性值区间2[女],待检测数据集合中包括:数据1“性别”对应的属性值为男、数据2“性别”对应的属性值为男、数据3“性别”对应的属性值为男、数据4“性别”对应的属性值为男、数据5“性别”对应的属性值为男、数据6“性别”对应的属性值为女、数据7“性别”对应的属性值为男、数据8“性别”对应的属性值为男、数据9“性别”对应的属性值为男、数据10“性别”对应的属性值为女,确定位于检测字段“性别”属性值区间1[男]的数据的第一数量为8、属性值区间2[女]的数据的第一数量为2。
另外,对于大数据而言,通常情况下待检测数据集合中包含大量的数据,如果对待检测数据集合中全部数据进行数据质量检测,电子设备需要进行的计算量很大,对电子设备软硬件的要求很高,因此在本发明实施例中,待检测数据集合中可以仅包含部分待检测的数据,例如:可以按照预设的抽样比例如百分之一,对所有待检测的数据进行抽样,生成待检测数据集合。
S102:针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应数据的第一数量与所述待检测数据集合中数据的第一总数量的比值,确定所述检测字段的每个属性值区间对应的当前占比;并针对所述检测字段的每个属性值区间,根据所述属性值区间对应的当前占比与保存的所述属性值区间对应的历史占比,确定所述属性值区间对应的子波动值。
具体的,在电子设备中预先保存有待检测数据集合中的每个检测字段的每个属性值区间对应的历史占比。电子设备针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应数据的第一数量与所述待检测数据集合中数据的第一总数量的比值,确定所述检测字段的每个属性值区间对应的当前占比后,针对所述待检测字段的每个属性值区间,根据所述属性值区间对应的当前占比与保存的所述属性值区间对应的历史占比,确定所述属性值区间对应的子波动值。例如:可以将属性值区间对应的当前占比与保存的属性值区间对应的历史占比差的绝对值,作为属性值区间对应的子波动值。
较佳的,所述根据所述属性值区间对应的当前占比与所述属性值区间对应的历史占比,确定所述属性值区间对应的子波动值包括:
根据S=(X-Y)*ln(X/Y)确定属性值区间对应的子波动值,其中S为属性值区间对应的子波动值,X为属性值区间对应的当前占比,Y为属性值区间对应的历史占比。
仍以检测字段为“性别”为例进行说明,属性值区间1[男]对应数据的第一数量为8、属性值区间2[女]对应数据的第一数量为2,待检测数据集合中数据的第一总数量为10,确定属性值区间1[男]对应的当前占比为0.8、属性值区间2[女]对应的当前占比为0.2,保存的属性值区间1[男]对应的历史占比为0.4、属性值区间2[女]对应的历史占比为0.6。确定属性值区间1[男]对应的子波动值S1=(0.8-0.4)*ln(0.8/0.4)、属性值区间2[女]对应的子波动值S2=(0.2-0.6)*ln(0.2/0.6)。
S103:针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应的子波动值的和,确定所述检测字段的波动值,并判断所述检测字段的波动值是否小于设定的波动阈值;如果是,进行S104,如果否,进行S105。
S104:确定所述待检测数据集合在所述检测字段的质量达标。
S105:将所述待检测数据集合的所述检测字段标记为不达标,并发出告警信息。
在进行数据分析时,如果进行数据分析的数据集合中数据的波动值大于一定阈值时,会导致数据分析结果出现严重偏差,影响通过数据分析做出的决策。因此在本发明实施例中,电子设备针对待检测数据集合中每个检测字段,根据所述检测字段对应的每个属性值区间对应的子波动值的和,确定所述检测字段的波动值,并判断所述检测字段的波动值是否小于设定的波动阈值,如果所述检测字段的波动值小于设定的波动阈值,则说明待检测数据集合中在所述检测字段存在的波动较小,不会导致数据分析结果出现严重偏差,确定待检测数据集合在所述检测字段的质量达标;如果所述检测字段的波动值不小于设定的波动阈值,则说明待检测数据集合中在所述检测字段存在的波动较大,可能会导致数据分析结果出现严重偏差,将所述待检测数据集合的所述检测字段标记为不达标,并发出告警信息,提示用户注意待检测数据集合中在所述检测字段存在问题,在本发明实施例中,所述波动阈值可以为0.1、0.2等。
在本发明实施例中检测字段的波动值也可以称为群体稳定性指标(populationstability index,PSI),并用PSI表示。仍以上述检测字段为“性别”为例进行说明,检测字段“性别”的PSI=(0.8-0.4)*ln(0.8/0.4)+(0.2-0.6)*ln(0.2/0.6)=0.717,大于波动阈值0.2,确定待检测数据集合的检测字段“性别”存在质量问题,不达标。
较佳的,在本发明实施例中,还可以针对波动值设置多个目标波动阈值,用于区分待检测数据集合中的数据在检测字段存在的波动的严重性,例如:可以设置第一目标波动阈值为0.2、第二目标波动阈值为0.5,如果检测字段的波动值大于等于0.2且小于0.5,确定待检测数据集合中的数据在检测字段存在的波动问题较轻,如果检测字段的波动值大于等于0.5,确定待检测数据集合中的数据在检测字段存在的波动问题非常严重。
由于在本发明实施例中,针对检测字段的每个属性值区间,根据该属性值区间对应数据的第一数量与待检测数据集合中数据的第一总数量的比值确定的当前占比,与保存的该属性值区间对应的历史占比,确定该属性值区间对应的子波动值,并在根据检测字段的每个属性值区间对应的子波动值的和,确定的检测字段的波动值小于设定的波动阈值时,确定待检测数据集合在检测字段的质量达标,提供了一种从数据的稳定性出发,确定数据质量的数据质量检测方案。
实施例2:
为了减小用户的工作量,电子设备也可以根据检测字段的类型,对检测字段对应的属性值区间进行设置,具体的,针对所述检测字段预先设置每个属性值区间的过程包括:
识别所述检测字段是否为分类型字段;
如果是,将所述检测字段对应的每个分类类别作为一个属性值区间;
如果否,对所述检测字段对应的取值范围进行等宽分箱,将每个分箱对应的子取值范围作为一个属性值区间,其中,分箱的数量为至少两个。
通常情况下,数据集合中的字段可以分为两类,分类型字段,如“性别”包括“男”、“女”两个分类类别;连续型字段,如“分数”对应的取值范围为[0-100]”,在本发明实施例中,电子设备还可以根据检测字段的类型,进行属性值区间的设置,具体的,电子设备识别检测字段是否为分类型字段,如果是,将所述检测字段对应的每个分类类别作为一个属性值区间,如果否,对所述检测字段对应的取值范围进行等宽分箱,将每个分箱对应的子取值范围作为一个属性值区间,其中,分箱的数量为至少两个。在本发明实施例中,对取值范围进行等宽分箱是现有技术,不再进行赘述。
实施例3:
在上述各实施例的基础上,在本发明实施例中,确定所述检测字段的每个属性值区间对应的历史占比包括:
根据预设的抽样比例,从历史数据集合中抽取所述抽样比例的样本数据生成历史样本数据集合;并根据所述历史样本数据集合中每个样本数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的样本数据的第二数量;
针对所述检测字段的每个属性值区间,根据所述属性值区间对应样本数据的第二数量与所述历史样本数据集合中样本数据的第二总数量的比值,确定所述属性值区间对应的历史占比。
因为选取的历史数据量过大时,会造成计算量过大等问题,在本发明实施例中,可以按照预设的抽样比例,如百分之一、千分之一等,从历史数据集合中抽取所述抽样比例的样本数据生成历史样本数据集合;并根据所述历史样本数据集合中每个样本数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的样本数据的第二数量;根据所述属性值区间对应样本数据的第二数量与所述历史样本数据集合中样本数据的第二总数量的比值,确定所述属性值区间对应的历史占比。
较佳的,为了防止历史数据集合中的样本数据量过大,还可以限制历史数据集合中包含的数据对应的历史长度,如限制历史长度为365天。例如:待检测数据集合对应的时间为2018年4月5日,可以确定历史数据集合中仅包含2017年4月5日至2018年4月4日的每天对应的数据集合,其中,还可以通过sampledata_yyyyMMdd的格式标记每天对应的数据集合,确定sampledata_20170405至sampledata_20180404共365份数据集合的合集为历史数据集合。
较佳的,在按照预设的抽样比例,从历史数据集合中抽取所述抽样比例的样本数据生成历史样本数据集合时,可以针对历史数据集合中每天的数据集合按照预设的抽样比例进行抽样,以保证生成的历史样本数据集合中数据的全面性与准确性。
实施例4:
图2为本发明实施例提供的一种数据质量检测装置结构示意图,所述装置包括:
第一确定模块21,用于针对待检测数据集合中的每个检测字段,根据所述检测字段预先设置的每个属性值区间,及所述待检测数据集合中每个数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的数据的第一数量;
第二确定模块22,用于针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应数据的第一数量与所述待检测数据集合中数据的第一总数量的比值,确定所述检测字段的每个属性值区间对应的当前占比;并针对所述检测字段的每个属性值区间,根据所述属性值区间对应的当前占比与保存的所述属性值区间对应的历史占比,确定所述属性值区间对应的子波动值;
检测模块23,用于针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应的子波动值的和,确定所述检测字段的波动值,并判断所述检测字段的波动值是否小于设定的波动阈值;如果是,确定所述待检测数据集合在所述检测字段的质量达标。
所述第二确定模块22,具体用于根据S=(X-Y)*ln(X/Y)确定属性值区间对应的子波动值,其中S为属性值区间对应的子波动值,X为属性值区间对应的当前占比,Y为属性值区间对应的历史占比。
所述装置还包括:
识别配置模块24,用于识别所述检测字段是否为分类型字段;如果是,将所述检测字段对应的每个分类类别作为一个属性值区间;如果否,对所述检测字段对应的取值范围进行等宽分箱,将每个分箱对应的子取值范围作为一个属性值区间,其中,分箱的数量为至少两个。
所述装置还包括:
第三确定模块25,用于根据预设的抽样比例,从历史数据集合中抽取所述抽样比例的样本数据生成历史样本数据集合;并根据所述历史样本数据集合中每个样本数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的样本数据的第二数量;针对所述检测字段的每个属性值区间,根据所述属性值区间对应样本数据的第二数量与所述历史样本数据集合中样本数据的第二总数量的比值,确定所述属性值区间对应的历史占比。
所述装置还包括:
告警模块26,用于如果所述检测字段的波动值不小于设定的波动阈值,将所述待检测数据集合的所述检测字段标记为不达标,并发出告警信息。
本发明公开了一种数据质量检测方法及装置,所述方法包括:针对待检测数据集合中的每个检测字段,根据所述检测字段预先设置的每个属性值区间,及所述待检测数据集合中每个数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的数据的第一数量;针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应数据的第一数量与所述待检测数据集合中数据的第一总数量的比值,确定所述检测字段的每个属性值区间对应的当前占比;并针对所述检测字段的每个属性值区间,根据所述属性值区间对应的当前占比与保存的所述属性值区间对应的历史占比,确定所述属性值区间对应的子波动值;针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应的子波动值的和,确定所述检测字段的波动值,并在判断所述检测字段的波动值是否小于设定的波动阈值;如果是,确定所述待检测数据集合在所述检测字段的质量达标。由于在本发明实施例中,针对检测字段的每个属性值区间,根据该属性值区间对应数据的第一数量与待检测数据集合中数据的第一总数量的比值确定的当前占比,与保存的该属性值区间对应的历史占比,确定该属性值区间对应的子波动值,并根据检测字段的每个属性值区间对应的子波动值的和,确定的检测字段的波动值小于设定的波动阈值时,确定待检测数据集合在检测字段的质量达标,提供了一种从数据的稳定性出发,确定数据质量的数据质量检测方案。
对于系统/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种数据质量检测方法,其特征在于,所述方法包括:
针对待检测数据集合中的每个检测字段,根据所述检测字段预先设置的每个属性值区间,及所述待检测数据集合中每个数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的数据的第一数量;
针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应数据的第一数量与所述待检测数据集合中数据的第一总数量的比值,确定所述检测字段的每个属性值区间对应的当前占比;并针对所述检测字段的每个属性值区间,根据所述属性值区间对应的当前占比与保存的所述属性值区间对应的历史占比,确定所述属性值区间对应的子波动值;
针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应的子波动值的和,确定所述检测字段的波动值,并判断所述检测字段的波动值是否小于设定的波动阈值;如果是,确定所述待检测数据集合在所述检测字段的质量达标。
2.如权利要求1所述的方法,其特征在于,所述根据所述属性值区间对应的当前占比与所述属性值区间对应的历史占比,确定所述属性值区间对应的子波动值包括:
根据S=(X-Y)*ln(X/Y)确定属性值区间对应的子波动值,其中S为属性值区间对应的子波动值,X为属性值区间对应的当前占比,Y为属性值区间对应的历史占比。
3.如权利要求1所述的方法,其特征在于,针对所述检测字段预先设置每个属性值区间的过程包括:
识别所述检测字段是否为分类型字段;
如果是,将所述检测字段对应的每个分类类别作为一个属性值区间;
如果否,对所述检测字段对应的取值范围进行等宽分箱,将每个分箱对应的子取值范围作为一个属性值区间,其中,分箱的数量为至少两个。
4.如权利要求1所述的方法,其特征在于,确定所述检测字段的每个属性值区间对应的历史占比包括:
根据预设的抽样比例,从历史数据集合中抽取所述抽样比例的样本数据生成历史样本数据集合;并根据所述历史样本数据集合中每个样本数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的样本数据的第二数量;
针对所述检测字段的每个属性值区间,根据所述属性值区间对应样本数据的第二数量与所述历史样本数据集合中样本数据的第二总数量的比值,确定所述属性值区间对应的历史占比。
5.如权利要求1所述的方法,其特征在于,如果所述检测字段的波动值不小于设定的波动阈值,所述方法还包括:
将所述待检测数据集合的所述检测字段标记为不达标,并发出告警信息。
6.一种数据质量检测装置,其特征在于,所述装置包括:
第一确定模块,用于针对待检测数据集合中的每个检测字段,根据所述检测字段预先设置的每个属性值区间,及所述待检测数据集合中每个数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的数据的第一数量;
第二确定模块,用于针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应数据的第一数量与所述待检测数据集合中数据的第一总数量的比值,确定所述检测字段的每个属性值区间对应的当前占比;并针对所述检测字段的每个属性值区间,根据所述属性值区间对应的当前占比与保存的所述属性值区间对应的历史占比,确定所述属性值区间对应的子波动值;
检测模块,用于针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应的子波动值的和,确定所述检测字段的波动值,并判断所述检测字段的波动值是否小于设定的波动阈值;如果是,确定所述待检测数据集合在所述检测字段的质量达标。
7.如权利要求6所述的装置,其特征在于,所述第二确定模块,具体用于根据S=(X-Y)*ln(X/Y)确定属性值区间对应的子波动值,其中S为属性值区间对应的子波动值,X为属性值区间对应的当前占比,Y为属性值区间对应的历史占比。
8.如权利要求6所述的装置,其特征在于,所述装置还包括:
识别配置模块,用于识别所述检测字段是否为分类型字段;如果是,将所述检测字段对应的每个分类类别作为一个属性值区间;如果否,对所述检测字段对应的取值范围进行等宽分箱,将每个分箱对应的子取值范围作为一个属性值区间,其中,分箱的数量为至少两个。
9.如权利要求6所述的装置,其特征在于,所述装置还包括:
第三确定模块,用于根据预设的抽样比例,从历史数据集合中抽取所述抽样比例的样本数据生成历史样本数据集合;并根据所述历史样本数据集合中每个样本数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的样本数据的第二数量;针对所述检测字段的每个属性值区间,根据所述属性值区间对应样本数据的第二数量与所述历史样本数据集合中样本数据的第二总数量的比值,确定所述属性值区间对应的历史占比。
10.如权利要求6所述的装置,其特征在于,所述装置还包括:
告警模块,用于如果所述检测字段的波动值不小于设定的波动阈值,将所述待检测数据集合的所述检测字段标记为不达标,并发出告警信息。
CN201810917668.0A 2018-08-13 2018-08-13 一种数据质量检测方法及装置 Active CN109241043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810917668.0A CN109241043B (zh) 2018-08-13 2018-08-13 一种数据质量检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810917668.0A CN109241043B (zh) 2018-08-13 2018-08-13 一种数据质量检测方法及装置

Publications (2)

Publication Number Publication Date
CN109241043A true CN109241043A (zh) 2019-01-18
CN109241043B CN109241043B (zh) 2022-10-14

Family

ID=65070516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810917668.0A Active CN109241043B (zh) 2018-08-13 2018-08-13 一种数据质量检测方法及装置

Country Status (1)

Country Link
CN (1) CN109241043B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111200A (zh) * 2019-04-23 2019-08-09 北京淇瑀信息科技有限公司 一种基于psi的数据异常智能监控方法及智能监控装置
CN110399903A (zh) * 2019-06-28 2019-11-01 上海上湖信息技术有限公司 异常数据的检测方法及装置、计算机可读存储介质
CN111090644A (zh) * 2019-12-26 2020-05-01 成都康赛信息技术有限公司 基于数据分布波动率的数据一致性评估方法
CN111427928A (zh) * 2020-03-26 2020-07-17 京东数字科技控股有限公司 一种数据质量检测方法及装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060110A (ja) * 1999-08-20 2001-03-06 Toshiba Eng Co Ltd プラント異常事象評価装置とその方法、ならびに記憶媒体
CN102339288A (zh) * 2010-07-21 2012-02-01 中国移动通信集团辽宁有限公司 数据仓库异常数据的检测方法及装置
EP2743735A2 (en) * 2012-12-17 2014-06-18 CGG Services SA A 4D Repeatability Indicator Based on Shot Illumination For Seismic Acquisition
CN105447323A (zh) * 2015-12-11 2016-03-30 百度在线网络技术(北京)有限公司 一种数据异常波动检测方法和装置
CN106080655A (zh) * 2016-08-24 2016-11-09 中车株洲电力机车研究所有限公司 一种列车轴温异常的检测方法、装置以及列车
CN106452931A (zh) * 2016-12-27 2017-02-22 中国建设银行股份有限公司 监控指标及域值发现方法、域值调整方法及自动监控系统
US20170068920A1 (en) * 2015-09-04 2017-03-09 International Business Machines Corporation Summarization of a recording for quality control
CN106708909A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 数据质量的检测方法和装置
CN106815458A (zh) * 2015-12-02 2017-06-09 阿里巴巴集团控股有限公司 数据处理方法及装置
CN106991145A (zh) * 2017-03-23 2017-07-28 中国银联股份有限公司 一种监测数据的方法及装置
CN107016398A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 数据处理方法及装置
CN107423435A (zh) * 2017-08-04 2017-12-01 电子科技大学 多维时空数据的多层次异常检测方法
CN107766299A (zh) * 2017-10-24 2018-03-06 携程旅游信息技术(上海)有限公司 数据指标异常的监控方法及其系统、存储介质、电子设备
CN107843745A (zh) * 2017-09-20 2018-03-27 新疆金风科技股份有限公司 风力发电机组的风速仪的故障诊断方法和装置、存储介质
CN108322347A (zh) * 2018-02-09 2018-07-24 腾讯科技(深圳)有限公司 数据检测方法、装置、检测服务器及存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060110A (ja) * 1999-08-20 2001-03-06 Toshiba Eng Co Ltd プラント異常事象評価装置とその方法、ならびに記憶媒体
CN102339288A (zh) * 2010-07-21 2012-02-01 中国移动通信集团辽宁有限公司 数据仓库异常数据的检测方法及装置
EP2743735A2 (en) * 2012-12-17 2014-06-18 CGG Services SA A 4D Repeatability Indicator Based on Shot Illumination For Seismic Acquisition
US20170068920A1 (en) * 2015-09-04 2017-03-09 International Business Machines Corporation Summarization of a recording for quality control
CN106708909A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 数据质量的检测方法和装置
CN106815458A (zh) * 2015-12-02 2017-06-09 阿里巴巴集团控股有限公司 数据处理方法及装置
CN105447323A (zh) * 2015-12-11 2016-03-30 百度在线网络技术(北京)有限公司 一种数据异常波动检测方法和装置
CN107016398A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 数据处理方法及装置
CN106080655A (zh) * 2016-08-24 2016-11-09 中车株洲电力机车研究所有限公司 一种列车轴温异常的检测方法、装置以及列车
CN106452931A (zh) * 2016-12-27 2017-02-22 中国建设银行股份有限公司 监控指标及域值发现方法、域值调整方法及自动监控系统
CN106991145A (zh) * 2017-03-23 2017-07-28 中国银联股份有限公司 一种监测数据的方法及装置
CN107423435A (zh) * 2017-08-04 2017-12-01 电子科技大学 多维时空数据的多层次异常检测方法
CN107843745A (zh) * 2017-09-20 2018-03-27 新疆金风科技股份有限公司 风力发电机组的风速仪的故障诊断方法和装置、存储介质
CN107766299A (zh) * 2017-10-24 2018-03-06 携程旅游信息技术(上海)有限公司 数据指标异常的监控方法及其系统、存储介质、电子设备
CN108322347A (zh) * 2018-02-09 2018-07-24 腾讯科技(深圳)有限公司 数据检测方法、装置、检测服务器及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾昭文: "数据质量检测方法及应用", 《电脑编程技巧与维护》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111200A (zh) * 2019-04-23 2019-08-09 北京淇瑀信息科技有限公司 一种基于psi的数据异常智能监控方法及智能监控装置
CN110399903A (zh) * 2019-06-28 2019-11-01 上海上湖信息技术有限公司 异常数据的检测方法及装置、计算机可读存储介质
CN110399903B (zh) * 2019-06-28 2021-07-13 上海上湖信息技术有限公司 异常数据的检测方法及装置、计算机可读存储介质
CN111090644A (zh) * 2019-12-26 2020-05-01 成都康赛信息技术有限公司 基于数据分布波动率的数据一致性评估方法
CN111427928A (zh) * 2020-03-26 2020-07-17 京东数字科技控股有限公司 一种数据质量检测方法及装置

Also Published As

Publication number Publication date
CN109241043B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN109241043A (zh) 一种数据质量检测方法及装置
US7843450B2 (en) System and method for filtering point clouds
CN109934268A (zh) 异常交易检测方法及系统
CN115409395A (zh) 一种水利施工工程的质量验收检查方法及系统
CN114978877A (zh) 一种异常处理方法、装置、电子设备及计算机可读介质
CN115098740A (zh) 一种基于多源异构数据源的数据质量检测方法及装置
CN107066302A (zh) 缺陷检测方法、装置及服务终端
CN107480126B (zh) 一种工程材料类别智能识别方法
CN115314424B (zh) 一种快速检测网络信号方法及装置
CN109271377A (zh) 一种数据质量检测方法及装置
CN109409091B (zh) 检测Web页面的方法、装置、设备以及计算机存储介质
CN111240978A (zh) 数据报告生成与分析方法
CN115344495A (zh) 批量任务测试的数据分析方法、装置、计算机设备及介质
CN115756919A (zh) 一种面向多维数据的根因定位方法及系统
CN110633466B (zh) 基于语义分析的短信犯罪识别方法、系统和可读存储介质
CN114334696A (zh) 质量检测方法及装置、电子设备和计算机可读存储介质
CN105763397A (zh) 一种性能检测方法及装置
CN105653649A (zh) 海量文本中低占比信息识别方法及装置
KR20200123891A (ko) 애플리케이션의 품질 정보 제공 방법 및 장치
CN109558418A (zh) 一种自动识别信息的方法
CN109858814A (zh) 疲劳程度认知方法及空中交通管理风险分析方法
CN117973566B (zh) 训练数据处理方法、装置及相关设备
CN108595516A (zh) 电能表误差稳定性分析方法、装置、存储介质及设备
CN115685171A (zh) 雷达测试方法、装置、电子设备、介质及计算机程序产品
CN115392222A (zh) 一种电力施工文档校验方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Guo Fanghong

Inventor after: Mo Huixing

Inventor after: Liu Xiaodong

Inventor before: Zeng Weixiong

Inventor before: Mo Huixing

Inventor before: Liu Xiaodong

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant