CN109271377A - 一种数据质量检测方法及装置 - Google Patents

一种数据质量检测方法及装置 Download PDF

Info

Publication number
CN109271377A
CN109271377A CN201810911590.1A CN201810911590A CN109271377A CN 109271377 A CN109271377 A CN 109271377A CN 201810911590 A CN201810911590 A CN 201810911590A CN 109271377 A CN109271377 A CN 109271377A
Authority
CN
China
Prior art keywords
data
detection field
field
attribute value
tested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810911590.1A
Other languages
English (en)
Inventor
曾伟雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bee Wisdom (beijing) Technology Co Ltd
Original Assignee
Bee Wisdom (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bee Wisdom (beijing) Technology Co Ltd filed Critical Bee Wisdom (beijing) Technology Co Ltd
Priority to CN201810911590.1A priority Critical patent/CN109271377A/zh
Publication of CN109271377A publication Critical patent/CN109271377A/zh
Pending legal-status Critical Current

Links

Landscapes

  • General Factory Administration (AREA)

Abstract

本发明公开了一种数据质量检测方法及装置,所述方法包括:针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量;针对待检测数据集合中每个检测字段,确定该检测字段对应不满足逻辑关系的数据的数量与所述待检测数据集合中数据的总数量的比值,并判断该检测字段对应的比值是否小于设定的阈值;如果是,确定所述待检测数据集合在该检测字段的质量达标,提供了一种能够反映数据内在实际意义的质量的数据质量检测方案。

Description

一种数据质量检测方法及装置
技术领域
本发明涉及大数据科学技术领域,尤其涉及一种数据质量检测方法及装置。
背景技术
随着信息化的高速发展,大数据应运而生,大数据指的是一种规模达到在获取、存储、管理、分析等方面大大超出了传统数据库软件工具能力范围的数据集合,通过对大数据进行分析,可以为企业的决策等提供强有力的支持。目前大数据不仅成为各大互联网公司的战略方向,其它行业也开始探索大数据,但是伴随大数据而来的数据质量问题也比传统数据库中的问题要严峻的多。
数据质量检测是数据分析的前提和基础,因此能从不同方面对数据质量进行检测显得尤为重要,现有数据质量检测主要是对数据集合中数据的完整性、有效性等进行检测,并没有考虑到数据自身所表示的实际意义,只是从数据的完整性、有效性等浅层次对数据的质量进行检测,不能反映数据内在的实际意义的质量,因此急需一种能够反映数据内在实际意义的质量的数据质量检测方案。
发明内容
本发明提供一种数据质量检测方法及装置,用以解决现有技术不能反映数据内在实际意义的质量的问题。
第一方面,本发明公开了一种数据质量检测方法,所述方法包括:
针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量;
针对待检测数据集合中每个检测字段,确定该检测字段对应不满足逻辑关系的数据的数量与所述待检测数据集合中数据的总数量的比值,并判断该检测字段对应的比值是否小于设定的阈值;如果是,确定所述待检测数据集合在该检测字段的质量达标。
进一步地,所述根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量之前,所述方法还包括:
去除所述待检测数据集合中在该检测字段存在缺失值的数据。
进一步地,如果该检测字段对应的比值不小于设定的阈值,所述方法还包括:
将所述待检测数据集合的该检测字段标记为存在逻辑问题,并发出告警信息。
进一步地,所述针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量之前,所述方法还包括:
识别所述待检测数据集合中数据的总数量是否大于设定的数量阈值;
如果是,按照预设的抽样比例,抽取所述待检测数据集合中的数据对所述待检测数据集合进行更新。
第二方面,本发明公开了一种数据质量检测装置,所述装置包括:
确定模块,用于针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量;
检测模块,用于针对待检测数据集合中每个检测字段,确定该检测字段对应不满足逻辑关系的数据的数量与所述待检测数据集合中数据的总数量的比值,并判断该检测字段对应的比值是否小于设定的阈值;如果是,确定所述待检测数据集合在该检测字段的质量达标。
进一步地,所述装置还包括:
去除模块,用于去除所述待检测数据集合中在该检测字段存在缺失值的数据。
进一步地,所述装置还包括:
告警模块,用于如果该检测字段对应的比值不小于设定的阈值,将所述待检测数据集合的该检测字段标记为存在逻辑问题,并发出告警信息。
进一步地,所述装置还包括:
识别抽样模块,用于识别所述待检测数据集合中数据的总数量是否大于设定的数量阈值;并在所述待检测数据集合中数据的总数量大于设定的数量阈值时,按照预设的抽样比例,抽取所述待检测数据集合中的数据对所述待检测数据集合进行更新。
本发明公开了一种数据质量检测方法及装置,所述方法包括:针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量;针对待检测数据集合中每个检测字段,确定该检测字段对应不满足逻辑关系的数据的数量与所述待检测数据集合中数据的总数量的比值,并判断该检测字段对应的比值是否小于设定的阈值;如果是,确定所述待检测数据集合在该检测字段的质量达标。由于在本发明实施例中,针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足逻辑关系的数据的数量,进而确定待检测数据集合中在该检测字段数据内在实际意义不准确的数据的数量,并在所述数量与待检测数据集合中数据的总数量的比值,小于设定的阈值时,确定待检测数据集合在该检测字段的质量达标,提供了一种能够反映数据内在实际意义的质量的数据质量检测方案。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据质量检测过程示意图;
图2为本发明实施例提供的一种数据质量检测过程示意图;
图3为本发明实施例提供的一种数据质量检测装置结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要理解的是,本发明中所涉及的多个,是指两个或两个以上,在本发明的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
实施例1:
图1为本发明实施例提供的一种数据质量检测过程示意图,该过程包括:
S101:针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量。
本发明实施例提供的数据质量检测方法应用于电子设备,该电子设备可以为手机、个人电脑(PC)、平板电脑等设备,也可以是服务器、服务器集群等设备。
通常情况下,在数据的不同字段间普遍存在着或多或少的逻辑关系,因此在本发明实施例中,可以从数据存在逻辑关系的字段出发,对数据的质量进行检测。
具体的,以金融领域的连续型数据为例对数据的不同字段间可能存在的逻辑关系进行示例性说明:
逻辑关系中的等于关系:
逻辑“=”关系,通常表示数据的一个特定字段的属性值与一个或者多个目标字段的属性值的之和或之积相等。例如:数据的字段“储蓄卡2018年8月出账金额”的属性值=字段“储蓄卡2018年8月1日出账金额”的属性值+字段“储蓄卡2018年8月2日出账金额”的属性值+字段“储蓄卡2018年8月3日出账金额”的属性值+…+字段“储蓄卡2018年8月30日出账金额”的属性值+字段“储蓄卡2018年8月31日出账金额”的属性值,即储蓄卡2018年8月出账金额=SUM(2018年8月1日至2018年8月31日每天的出账金额)、数据的字段“交易金额(人民币)”的属性值=字段“交易金额(外币)”的属性值*字段“汇率”的属性值等。
逻辑关系中的小于等于或大于等于关系:
逻辑“<=”关系,表示数据的一个特定字段的属性值小于等于一个目标字段的属性值,或小于等于多个目标字段的属性值之和;
逻辑关系中的提前关系:
逻辑“提前”关系,表示数据的一个特定字段的属性值是一个目标字段的属性值的前提。例如:数据的字段“储蓄卡还款出账笔数”的属性值不为0,是字段“储蓄卡还款出账金额”的属性值不为0的前提。
当然了,数据的不同字段间还可以存在其它逻辑关系,不再进行赘述。
在对某一类型的数据的数据集合进行分析之前,通常会对该类型的数据的数据集合进行数据质量检测,在本发明实施例中,在电子设备中预先针对待检测数据集合保存有该待检测数据集合中每个检测字段对应的逻辑关系。例如:针对检测字段“账户总额”保存有字段“账户总额”的属性值=字段“本金”的属性值+字段“利息”的属性值的逻辑关系,其中“本金”和“利息”为与检测字段“账户总额”存在逻辑关系的目标字段。
较佳的,电子设备还提供有对待检测数据集合进行检测字段及检测字段对应的逻辑关系进行配置的操作界面,用户可以通过该操作界面针对待检测的数据集合,进行检测字段及检测字段对应的逻辑关系的配置,其中用户针对待检测数据集合可以配置一个检测字段,也可以配置多个检测字段,不进行具体限定。
具体的,电子设备针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量。示例性的:数据集合中包括:数据1“字段“账户总额”的属性值为20160、字段“本金”的属性值为20000、字段“利息”的属性值为160”;数据2“字段“账户总额”的属性值为1080、字段“本金”的属性值为1000、字段“利息”的属性值为80”、数据3“字段“账户总额”的属性值为17200、字段“本金”的属性值为17000、字段“利息”的属性值为120”其中检测字段为账户总额、目标字段为本金和利息,逻辑关系为检测字段“账户总额”的属性值等于目标字段“本金”的属性值和“利息”的属性值之和,存在数据3检测字段“账户总额”的属性值不等于目标字段“本金”的属性值和“利息”的属性值之和,存在逻辑问题,确定待检测数据集合中检测字段“账户总额”不满足逻辑关系的数据的数量为1。
S102:针对待检测数据集合中每个检测字段,确定该检测字段对应不满足逻辑关系的数据的数量与所述待检测数据集合中数据的总数量的比值,并判断该检测字段对应的比值是否小于设定的阈值;如果是,进行S103,如果否,进行S104。
S103:确定所述待检测数据集合在该检测字段的质量达标。
S104:将所述待检测数据集合的该检测字段标记为存在逻辑问题,并发出告警信息。
在进行数据分析时,如果进行数据分析的数据集合中存在逻辑问题的数据在数据集合的比例大于一定阈值时,会导致数据分析结果出现严重偏差,影响通过数据分析做出的决策。因此在本发明实施例中,电子设备针对待检测数据集合中每个检测字段,确定该检测字段对应不满足逻辑关系的数据的数量与所述待检测数据集合中数据的总数量的比值,并判断该检测字段对应的比值是否小于设定的阈值,如果该检测字段对应的比值小于设定的阈值,则说明待检测数据集合中在该检测字段存在逻辑问题的数据所占比例,对数据分析结果的影响较小,不会导致数据分析结果出现严重偏差,确定待检测数据集合在该检测字段的质量达标;如果该检测字段对应的比值不小于设定的阈值,则说明待检测数据集合中在该检测字段存在逻辑问题的数据所占比例,对数据分析结果的影响较大,可能会导致数据分析结果出现严重偏差,将待检测数据集合的该检测字段标记为存在逻辑问题,并发出告警信息,提示用户注意待检测数据集合中在该检测字段存在问题,在本发明实施例中,所述设定的阈值可以为0.01、0.02等,具体的可以通过如spark、python等应用工具软件统计待检测数据集合中数据的总数量,不再进行赘述。
由于在本发明实施例中,针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足逻辑关系的数据的数量,进而确定待检测数据集合中在该检测字段数据内在实际意义不准确的数据的数量,并在所述数量与待检测数据集合中数据的总数量的比值,小于设定的阈值时,确定待检测数据集合在该检测字段的质量达标,提供了一种能够反映数据内在实际意义的质量的数据质量检测方案。
实施例2:
为了更准确的反映进行数据集合中每个检测字段的数据质量,在上述实施例的基础上,在本发明实施例中,所述根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量之前,所述方法还包括:
去除所述待检测数据集合中在该检测字段存在缺失值的数据。
通常情况下,对于缺失值等数据问题,电子设备能够快速的识别,并在对数据集合某一检测字段进行数据分析之前,能够快速的去除数据集合中在该检测字段存在缺失值的数据,因此如果数据集合中部分数据在该检测字段存在缺失值,通常不会对该检测字段的数据分析结果产生影响。为了更好的反映待检测数据集合中用于对检测字段进行数据分析的数据的质量,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量之前,电子设备去除待检测数据集合中在该检测字段存在缺失值的数据。
实施例3:
对于大数据而言,通常情况下待检测数据集合中包含大量的数据,如果对待检测数据集合中全部数据进行数据质量检测,电子设备需要进行的计算量很大,对电子设备软硬件的要求很高,因此在上述各实施例的基础上,在本发明实施例中,为了降低计算量,所述针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量之前,所述方法还包括:
识别所述待检测数据集合中数据的总数量是否大于设定的数量阈值;
如果是,按照预设的抽样比例,抽取所述待检测数据集合中的数据对所述待检测数据集合进行更新。
具体的,在本发明实施例中,电子设备在确定数据集合中检测字段对应不满足逻辑关系的数据的数量之前,识别待检测数据集合中数据的总数量是否大于设定的数量阈值,如果是,则按照预设的抽样比例如百分之一、千分之一、万分之一等,抽取待检测数据集合中的数据,对待检测数据集合进行更新,确定更新后的待检测数据集合的数据质量,从而降低计算量。
图2为本发明实施例提供的一种数据质量检测过程示意图,该过程包括:
S201:识别待检测数据集合中数据的总数量是否大于设定的数量阈值;如果是,进行S202,如果否,进行S203。
S202:按照预设的抽样比例,抽取所述待检测数据集合中的数据对所述待检测数据集合进行更新。
S203:针对待检测数据集合中任一检测字段,去除所述待检测数据集合中在该检测字段存在缺失值的数据。
S204:根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量。
S205:确定该检测字段对应不满足逻辑关系的数据的数量与所述待检测数据集合中数据的总数量的比值,并判断该检测字段对应的比值是否小于设定的阈值,如果是,进行S206,如果否,进行S207。
S206:确定所述待检测数据集合在该检测字段的质量达标。
S207:将所述待检测数据集合的该检测字段标记为存在逻辑问题,并发出告警信息。
实施例4:
图3为本发明实施例提供的一种数据质量检测装置结构示意图,该装置包括:
确定模块31,用于针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量;
检测模块32,用于针对待检测数据集合中每个检测字段,确定该检测字段对应不满足逻辑关系的数据的数量与所述待检测数据集合中数据的总数量的比值,并判断该检测字段对应的比值是否小于设定的阈值;如果是,确定所述待检测数据集合在该检测字段的质量达标。
所述装置还包括:
去除模块33,用于去除所述待检测数据集合中在该检测字段存在缺失值的数据。
所述装置还包括:
告警模块34,用于如果该检测字段对应的比值不小于设定的阈值,将所述待检测数据集合的该检测字段标记为存在逻辑问题,并发出告警信息。
所述装置还包括:
识别抽样模块35,用于识别所述待检测数据集合中数据的总数量是否大于设定的数量阈值;并在所述待检测数据集合中数据的总数量大于设定的数量阈值时,按照预设的抽样比例,抽取所述待检测数据集合中的数据对所述待检测数据集合进行更新。
本发明公开了一种数据质量检测方法及装置,所述方法包括:针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量;针对待检测数据集合中每个检测字段,确定该检测字段对应不满足逻辑关系的数据的数量与所述待检测数据集合中数据的总数量的比值,并判断该检测字段对应的比值是否小于设定的阈值;如果是,确定所述待检测数据集合在该检测字段的质量达标。由于在本发明实施例中,针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足逻辑关系的数据的数量,进而确定待检测数据集合中在该检测字段数据内在实际意义不准确的数据的数量,并在所述数量与待检测数据集合中数据的总数量的比值,小于设定的阈值时,确定待检测数据集合在该检测字段的质量达标,提供了一种能够反映数据内在实际意义的质量的数据质量检测方案。
对于系统/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种数据质量检测方法,其特征在于,所述方法包括:
针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量;
针对待检测数据集合中每个检测字段,确定该检测字段对应不满足逻辑关系的数据的数量与所述待检测数据集合中数据的总数量的比值,并判断该检测字段对应的比值是否小于设定的阈值;如果是,确定所述待检测数据集合在该检测字段的质量达标。
2.如权利要求1所述的方法,其特征在于,所述根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量之前,所述方法还包括:
去除所述待检测数据集合中在该检测字段存在缺失值的数据。
3.如权利要求1所述的方法,其特征在于,如果该检测字段对应的比值不小于设定的阈值,所述方法还包括:
将所述待检测数据集合的该检测字段标记为存在逻辑问题,并发出告警信息。
4.如权利要求1所述的方法,其特征在于,所述针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量之前,所述方法还包括:
识别所述待检测数据集合中数据的总数量是否大于设定的数量阈值;
如果是,按照预设的抽样比例,抽取所述待检测数据集合中的数据对所述待检测数据集合进行更新。
5.一种数据质量检测装置,其特征在于,所述装置包括:
确定模块,用于针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量;
检测模块,用于针对待检测数据集合中每个检测字段,确定该检测字段对应不满足逻辑关系的数据的数量与所述待检测数据集合中数据的总数量的比值,并判断该检测字段对应的比值是否小于设定的阈值;如果是,确定所述待检测数据集合在该检测字段的质量达标。
6.如权利要求5所述的装置,其特征在于,所述装置还包括:
去除模块,用于去除所述待检测数据集合中在该检测字段存在缺失值的数据。
7.如权利要求5所述的装置,其特征在于,所述装置还包括:
告警模块,用于如果该检测字段对应的比值不小于设定的阈值,将所述待检测数据集合的该检测字段标记为存在逻辑问题,并发出告警信息。
8.如权利要求5所述的装置,其特征在于,所述装置还包括:
识别抽样模块,用于识别所述待检测数据集合中数据的总数量是否大于设定的数量阈值;并在所述待检测数据集合中数据的总数量大于设定的数量阈值时,按照预设的抽样比例,抽取所述待检测数据集合中的数据对所述待检测数据集合进行更新。
CN201810911590.1A 2018-08-10 2018-08-10 一种数据质量检测方法及装置 Pending CN109271377A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810911590.1A CN109271377A (zh) 2018-08-10 2018-08-10 一种数据质量检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810911590.1A CN109271377A (zh) 2018-08-10 2018-08-10 一种数据质量检测方法及装置

Publications (1)

Publication Number Publication Date
CN109271377A true CN109271377A (zh) 2019-01-25

Family

ID=65153404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810911590.1A Pending CN109271377A (zh) 2018-08-10 2018-08-10 一种数据质量检测方法及装置

Country Status (1)

Country Link
CN (1) CN109271377A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111427928A (zh) * 2020-03-26 2020-07-17 京东数字科技控股有限公司 一种数据质量检测方法及装置
CN113569005A (zh) * 2021-06-17 2021-10-29 国家电网有限公司 一种基于数据内容的大规模数据特征智能化提取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720822B1 (en) * 2005-03-18 2010-05-18 Beyondcore, Inc. Quality management in a data-processing environment
CN101957748A (zh) * 2009-07-17 2011-01-26 中国移动通信集团黑龙江有限公司 一种数据逻辑分析方法、装置及系统
CN104268686A (zh) * 2014-09-23 2015-01-07 史文中 一种基于xml的空间数据质量检查方法及系统
CN105787089A (zh) * 2016-03-15 2016-07-20 国家电网公司 一种配电网规划基础数据集成方法
CN107092694A (zh) * 2017-04-25 2017-08-25 杭州数梦工场科技有限公司 数据质量的稽查任务生成方法以及装置
CN107545349A (zh) * 2016-06-28 2018-01-05 国网天津市电力公司 一种面向电力大数据的数据质量分析评价模型

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720822B1 (en) * 2005-03-18 2010-05-18 Beyondcore, Inc. Quality management in a data-processing environment
CN101957748A (zh) * 2009-07-17 2011-01-26 中国移动通信集团黑龙江有限公司 一种数据逻辑分析方法、装置及系统
CN104268686A (zh) * 2014-09-23 2015-01-07 史文中 一种基于xml的空间数据质量检查方法及系统
CN105787089A (zh) * 2016-03-15 2016-07-20 国家电网公司 一种配电网规划基础数据集成方法
CN107545349A (zh) * 2016-06-28 2018-01-05 国网天津市电力公司 一种面向电力大数据的数据质量分析评价模型
CN107092694A (zh) * 2017-04-25 2017-08-25 杭州数梦工场科技有限公司 数据质量的稽查任务生成方法以及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗雄飞 著: "《《马克思经济学的方法论思想:以科学实证主义为核心》》", 31 August 2016 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111427928A (zh) * 2020-03-26 2020-07-17 京东数字科技控股有限公司 一种数据质量检测方法及装置
CN113569005A (zh) * 2021-06-17 2021-10-29 国家电网有限公司 一种基于数据内容的大规模数据特征智能化提取方法
CN113569005B (zh) * 2021-06-17 2024-02-20 国家电网有限公司 一种基于数据内容的大规模数据特征智能化提取方法

Similar Documents

Publication Publication Date Title
CN107545422B (zh) 一种套现检测方法及装置
US10482093B2 (en) Data mining method
CN110895758B (zh) 存在作弊交易的信用卡账户的筛选方法、装置及系统
CN102567993B (zh) 基于主成分分析的指纹图像质量评价方法
CN112100164A (zh) 一种智能审计方法、系统和可读存储介质
CN103593470B (zh) 一种双度集成的不均衡数据流分类算法
CN109934268A (zh) 异常交易检测方法及系统
CN104951842A (zh) 一种新的油田产量预测方法
CN112598294A (zh) 在线建立评分卡模型的方法、装置、机器可读介质及设备
CN109241043A (zh) 一种数据质量检测方法及装置
CN109102396A (zh) 一种用户信用评级方法、计算机设备及可读介质
CN112613569A (zh) 图像识别方法、图像分类模型的训练方法及装置
CN109242165A (zh) 一种模型训练及基于模型训练的预测方法及装置
CN109190907A (zh) 基于大数据的供电所小微权力廉洁风险指数构建方法
CN109271377A (zh) 一种数据质量检测方法及装置
CN113034046A (zh) 一种数据风险计量方法、装置、电子设备及存储介质
CN113158777A (zh) 质量评分方法、质量评分模型的训练方法及相关装置
CN110458571A (zh) 一种信息泄露的风险识别方法、装置及设备
CN112750038B (zh) 交易风险的确定方法、装置和服务器
CN112163019B (zh) 基于区块链的可信电子批记录处理方法及区块链服务平台
CN110287114B (zh) 一种数据库脚本性能测试的方法及装置
CN109409091B (zh) 检测Web页面的方法、装置、设备以及计算机存储介质
CN109858814A (zh) 疲劳程度认知方法及空中交通管理风险分析方法
CN108985350A (zh) 一种基于梯度幅值稀疏特征信息识别模糊图像的方法和装置、计算设备及存储介质
CN115277165A (zh) 一种车辆网络风险确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190125