CN117195119A - 一种数据质量检测方法、装置、电子设备和可读存储介质 - Google Patents
一种数据质量检测方法、装置、电子设备和可读存储介质 Download PDFInfo
- Publication number
- CN117195119A CN117195119A CN202311087534.8A CN202311087534A CN117195119A CN 117195119 A CN117195119 A CN 117195119A CN 202311087534 A CN202311087534 A CN 202311087534A CN 117195119 A CN117195119 A CN 117195119A
- Authority
- CN
- China
- Prior art keywords
- data
- sampling
- data quality
- time
- quality detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 167
- 238000003860 storage Methods 0.000 title claims abstract description 24
- 238000005070 sampling Methods 0.000 claims abstract description 196
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000005856 abnormality Effects 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 230000002159 abnormal effect Effects 0.000 claims description 36
- 238000004422 calculation algorithm Methods 0.000 claims description 30
- 230000009467 reduction Effects 0.000 claims description 14
- 238000005520 cutting process Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000011897 real-time detection Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004445 quantitative analysis Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Testing Or Calibration Of Command Recording Devices (AREA)
Abstract
本发明实施例提供一种数据质量检测方法、装置、电子设备和可读存储介质,所述方法包括:在数据质量检测周期内的每个采样时刻,从待检测数据源中采样指定数量的采样数据;所述数据质量检测周期包括至少一个采样时刻;对每个采样时刻的指定数量的采样数据进行预处理,得到所述采样时刻对应的时序数据;对每个采样时刻对应的时序数据进行异常检测,得到所述采样时刻对应的数据质量标签,所述数据质量标签包括异常或正常;基于所述数据质量检测周期内所有采样时刻各自对应的数据质量标签,确定所述数据质量检测周期对应的数据质量异常率。
Description
技术领域
本发明涉及数据质量检测领域,尤其涉及一种数据质量检测方法、装置、电子设备和可读存储介质。
背景技术
数据质量对于数据指导业务,有重要作用。如果数据质量不好,会导致大数据计算出来的各项指标失真,无法反应业务的真实情况。比如,因为某些和成功率相关的字段,数据缺失,就会导致计算出来的成功率下降,会让业务做出错误的决策。对于互联网企业,有大量的系统,不断的产生数据。如果能对数据质量进行检测,及时发现数据质量的变化,是很有价值的工作。目前市面上常见的数据质量检测系统如griffin等,都需要人工配置检测规则。比如SQL语句的片段,或者正则表达式。要逐个字段配置检测规则,费时费力,容易出错。
在实现本发明过程中,申请人发现现有技术中至少存在如下问题:
现有技术中的数据质量检测系统需要人工配置检测规则且实时性差不适合在线实时检测。
发明内容
本发明实施例提供一种数据质量检测方法、装置、电子设备和可读存储介质,用以解决现有数据质量检测过程中需要人工配置检测规则且实时性差不适合在线实时检测的问题。
为达上述目的,第一方面,本发明实施例提供一种数据质量检测方法,包括:
在数据质量检测周期内的每个采样时刻,从待检测数据源中采样指定数量的采样数据;所述数据质量检测周期包括至少一个采样时刻;
对每个采样时刻的指定数量的采样数据进行预处理,得到所述采样数据对应的时序数据;
对每个采样时刻对应的时序数据进行异常检测,得到所述采样时刻对应的数据质量标签,所述数据质量标签包括异常和正常;
基于所述数据质量检测周期内的所有采样时刻各自对应的数据质量标签,确定所述数据质量检测周期对应的数据质量异常率。
第二方面,本发明实施例提供一种数据质量检测装置,包括:
采样数据获取单元,用于在数据质量检测周期内的每个采样时刻,从待检测数据源中采样指定数量的采样数据;所述数据质量检测周期包括至少一个采样时刻;
时序数据获取单元,用于对每个采样时刻的指定数量的采样数据进行预处理,得到所述采样时刻对应的时序数据;
数据质量标签确定单元,用于对每个采样时刻对应的时序数据进行异常检测,得到所述采样时刻对应的数据质量标签,所述数据质量标签包括异常或正常;
数据质量异常率确定单元,用于基于所述数据质量检测周期内所有采样时刻各自对应的数据质量标签,确定所述数据质量检测周期对应的数据质量异常率。
第三方面,本发明实施例提供一种电子设备,包括:处理器,适于执行各种指令;以及
存储设备,适于存储多条指令,所述指令适于由处理器加载并执行包括如前所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,所述指令适于由处理器加载并执行如前所述的方法。
上述技术方案具有如下有益效果:通过在数据质量检测周期内的每个采样时刻对待检测数据源进行采样得到采样数据,并对采样数据进行异常检测,并计算数据质量检测周期内的异常率,从而针对异常检测进行定量分析,整个检测过程无需人工预先配置检测规则,达到可实时、准确地对待检测数据源的数据质量进行检测的技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例之一的一种数据质量检测方法的流程图;
图2是本发明实施例之一的一种数据质量检测装置的架构图;
图3是本发明实施例之一的一种数据质量检测装置的另一架构图;
图4是本发明实施例之一的一种数据质量检测方法的另一流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一方面,如图1所示,本发明实施例提供一种数据质量检测方法,包括:
步骤S100,在数据质量检测周期内的每个采样时刻,从待检测数据源中采样指定数量的采样数据;所述数据质量检测周期包括至少一个采样时刻;
步骤S101,针对每个采样时刻的指定数量的采样数据进行预处理,得到所述采样时刻对应的时序数据;
步骤S102,针对每个采样时刻对应的时序数据进行异常检测,得到所述采样时刻对应的数据质量标签,所述数据质量标签包括异常和正常;
步骤S103,基于所述数据质量检测周期内所有采样时刻各自对应的数据质量标签,确定所述数据质量检测周期对应的数据质量异常率。
在一些实施例中,在对待检测数据源进行在线检测时,可以按照预设时间间隔的数据质量检测周期,周期性的对待检测数据源进行数据质量检测。在数据质量检测周期中,可以指定至少一个采样时刻,例如以5分钟为预设时间间隔,则每5分钟作为一个数据质量检测周期,将数据质量检测周期中的每秒定义为采样时刻,即在5分钟中的每秒采样一次,则5分钟共采样300次,每次采样都采样指定数量的采样数据;对每个采样时刻采样得到的指定数量的采样数据进行预处理得到时序数据可以有很多种方法,例如,将当前采样时刻的时间戳或者经变换得到的数值或向量值与采样数据的向量值进行拼接,构成具有时间信息的时序数据;再例如,将时间戳的字符串与采样数据的字符串拼接作为时序数据,或者将拼接后的字符串变换(例如向量化)后得到的数据作为时序数据;再例如,利用包含时间戳字段和数据字段的数据结构(例如Key-Value结构)进行一一对应的存储记录;上述关于预处理的举例不作为对本发明实施例中的预处理的具体实现方式的限制,预处理的具体实现方式还包括除此3种举例之外的多种方式;对每个采样时刻对应的时序数据进行异常检测的方法也可以有很多种方法,例如对时序数据进行离群点分析,还可以利用时序数据的时序特征将分析时序数据的趋势变化,还可以将趋势变化与离群点相结合确定该采样时刻对应的时序数据的异常情况,并建立该采样时刻对应的数据质量标签。上述关于异常检测方法的举例不作为对本发明实施例中的异常检测的具体实现方式的限制,异常检测的具体实现方式还包括除此处举例之外的多种方式;通过统计数据质量检测周期内所有采样时刻采样对应的数据质量标签,从而得到每个数据质量检测周期对应的异常率。
本发明实施例具有如下技术效果:通过在数据质量检测周期内的每个采样时刻对待检测数据源进行采样得到采样数据,并对采样数据进行异常检测,并计算数据质量检测周期内的异常率,从而针对异常检测进行定量分析,整个检测过程无需人工预先配置检测规则,达到可实时、准确地对待检测数据源的数据质量进行检测的技术效果。
优选地,所述对每个采样时刻对应的时序数据进行异常检测,得到所述采样时刻对应的数据质量标签,包括:
针对每个采样时刻,将所述采样时刻对应的时序数据输入随机切割森林算法模型进行异常检测,得到所述时序数据对应的检测得分;
根据所述检测得分,建立所述采样时刻对应的数据质量标签。
在一些实施例中,随机切割森林算法(Random Cut Forest,简称RCF)可以根据输入的时序数据自动发现异常数据实现对输入时序数据的异常检测,无需人工预先建立检测规则,且可用于实时在线检测,随机切割森林算法原本用于定性的异常检测以确定输入的时序数据是否存在异常的定性检测,本发明实施例将随机切割森林算法应用于定量的数据质量检测,在实时在线的数据质量检测过程中,随着新的采样数据的输入,本发明实施例基于随机切割森林算法的检测方法可以自动更新随机切割森林的参数实现了对检测规则的自动更新,无需人工配置检测规则。
本发明实施例具有如下技术效果:本发明实施例提供了一种数据质量检测方法,也是一种在线数据质量检测方法,也是一种在线数据质量实时检测方法,也是一种基于RCF算法的在线数据质量实时检测方法,通过在当前数据质量检测周期内的每个采样时刻对待检测数据源进行采样得到采样数据,并对采样数据使用随机切割森林算法进行异常检测,并计算当前数据质量检测周期内的异常率,从而将本来用于针对异常检测进行定性分析的随机切割森林算法应用于进行定量分析的数据质量检测,达到了无需人工预先配置检测规则,且可实时、准确地对待检测数据源的数据质量进行检测的技术效果。
进一步地,所述基于所述数据质量检测周期内所有采样时刻各自对应的数据质量标签,确定所述数据质量检测周期对应的数据质量异常率,包括:
统计所述数据质量检测周期内所有采样时刻各自对应的数据质量标签,得到数据质量标签为异常的异常个数和数据质量标签为正常的正常个数;
根据所述异常个数和所述正常个数计算所述数据质量检测周期对应的数据质量异常率。
在一些实施例中,可以使用异常个数与正常个数的比值作为异常率,或者可以使用异常个数除以异常个数和正常个数的总数得到的比值最为异常率,前述举例不作为对本发明实施例中的异常率计算的具体实现方式的限制,异常率的具体实现方式可以有很多种;本发明实施例通过对计算异常率将系统的异常问题定量化为可比较的具体数值,有利于对系统的稳定性进行更准确的评估比较,例如对多个可选业务系统进行评估,可以根据各业务系统的异常率准确的选择最稳定的业务系统作为最终上线的业务系统。
进一步地,所述在数据质量检测周期内的每个采样时刻,从待检测数据源中采样指定数量的采样数据,包括:
在每个采样时刻,从待检测数据源中随机采样指定数量的采样数据;所述指定数量小于待检测数据源的全部数据量。
在一些实施例中,当待检测数据源中包含的数据量巨大,在线检测期间,若将待检测数据源中的全部数据都进行检测,由于计算设备的资源限制,检测过程实时性会显著下降,并且将会导致计算设备资源负荷过大,影响计算设备的响应速度,甚至对其他业务模块的正常响应造成影响。若固定检测待检测数据源中的指定部分数据,则存在检测覆盖范围不完整,容易漏掉异常情况的问题。在本实施例中,通过对待检测数据源进行随机采样,可以在不同采样时刻中获取到待检测数据源中的不同部分的数据,从而以分时的方式对待检测数据源中的数据进行全面的采样覆盖,避免遗漏异常情况,同时在随机采样时,仅采样指定数量的采样数据,可以约束每个采样时刻的采样数据的规模,从而使后续步骤有足够的能力完成对采样数据的处理,从而保证可在线部署实时的进行检测,具体指定数量可以根据计算设备的资源情况结合对异常检测的实时性要求进行设定,资源充足则可以将指定数量设置的大些,否则小些;实时性要求高,则将指定数量设置的小些,否则可以大些;
本发明实施例具有如下技术效果:通过随机采样和指定数量的采样,达到以分时的方式对待检测数据源进行全面的采样覆盖,同时约束了每次采样的数据量,在大数据分析场景下,可以避免大规模数据对计算设备以及后续步骤的资源和计算压力,从而保证了检测的可用性、实时性、和准确性。
进一步地,每条采样数据包括至少一个字段、且各采样数据包含的字段类型相同;
对每个采样时刻的指定数量的采样数据进行预处理,得到所述采样时刻对应的时序数据,包括:
将所述采样时刻的所有采样数据中,每个相同字段类型对应的所有字段内容进行合并处理,得到所述采样时刻的一条合并采样数据;
将所述合并采样数据向量化,得到合并采样数据向量;
对所述合并采样数据向量进行降维处理,得到待检测向量;
将所述采样时刻的时间戳与所述待检测向量绑定,得到所述采样时刻对应的时序数据。
在一些实施例中,待检测数据源中的每条采样数据记录中包括一个或多个字段,将同一采样时刻采样的所有采样数据的同一字段类型对应的内容相互合并的方式可以有很多种,例如同一字段类型对应的内容直接相加、相乘、或首尾拼接、或都输入给指定的映射函数获取映射函数的结果、或者取其中的最大值或最小值或中值或平均值等。上述举例不作为对合并方法的限制。将多条采样数据合并为一条合并采样数据,根据数据本身的特点通过选择合适的合并方法可以在保证精度需要的情况下显著减少后续步骤的处理压力。可以通过多种向量化方法对得到的合并采样数据向量化,得到合并采样数据向量,例如对文本数据可以使用word2vec,对于数值类型,可以先字符串化再使用word2vec。优选地,对合并采样数据中的每个字段计算CRC校验值,使用计算得到的CRC校验值作为合并采样数据向量中的元素,从而得到合并采样数据向量。此时,合并采样数据中有多少个字段,合并采样数据向量就有多少维(元素);对于大规模数据的待检测数据源,其一条采样数据中的字段数可能非常多,例如可能会有几百条,通过降维例如PCA降维,可以显著降低感兴趣的字段数,并且降维过程中还会将对异常检测不敏感的字段去除,保留对异常检测敏感的字段,从而得到待检测向量;将采样时刻的时间戳与待检测向量绑定,得到时序数据。
本发明实施例具有如下技术效果:通过合并、降维显著减少了后续步骤需要处理的数据量,并且将对异常检测不敏感的字段去除,保留对异常检测敏感的字段,可以提高在线实时检测的效率以及准确性。
进一步地,所述将所述采样时刻的所有采样数据中,每个相同字段类型对应的所有字段内容进行合并处理,得到所述采样时刻的一条合并采样数据,包括:
针对所述采样时刻的所有采样数据中每个相同字段类型,将所述相同字段类型对应的所有字段内容求平均值,作为所述合并采样数据中所述相同字段类型的字段内容。
在一些实施例中,对同一采样时刻对应的所有采样数据种的相同字段类型对应的字段内容求平均值,类似于对过采样数据进行滤波,使数据更平滑,忽略偶发的单次短时异常值,检测出长期存在或数值显著异常的异常值,避免系统进行频繁的无意义的异常报告。
进一步地,在所述对每个采样时刻对应的时序数据进行异常检测,得到所述采样时刻对应的数据质量标签之后,将数据质量标签为异常的采样时刻所采样的指定数量的采样数据进行存储。考虑到时序数据是向量化的,无法给人阅读,因此存储原始的采样数据,以便分析异常原因。
在一些实施例中,将异常数据保存,可以为后续分析异常问题积累数据,为应用本方法的系统的持续改进提供数据支持。
第二方面,如图2所示,本发明实施例提供一种数据质量检测装置,包括:
采样数据获取单元200,用于在数据质量检测周期内的每个采样时刻,从待检测数据源中采样指定数量的采样数据;所述数据质量检测周期包括至少一个采样时刻;
时序数据获取单元201,用于对每个采样时刻的指定数量的采样数据进行预处理,得到所述采样时刻对应的时序数据;
数据质量标签确定单元202,用于对每个采样时刻对应的时序数据进行异常检测,得到所述采样时刻对应的数据质量标签,所述数据质量标签包括异常或正常;
数据质量异常率确定单元203,用于基于所述数据质量检测周期内所有采样时刻各自对应的数据质量标签,确定所述数据质量检测周期对应的数据质量异常率。
进一步地,所述数据质量标签确定单元202,包括:
检测得分确定模块,用于针对每个采样时刻,将所述采样时刻对应的时序数据输入随机切割森林算法模型进行异常检测,得到所述时序数据对应的检测得分;
数据质量标签确定模块,用于根据所述检测得分,建立所述采样时刻对应的数据质量标签。
进一步地,所述数据质量异常率确定单元203,包括:
统计模块,用于统计所述数据质量检测周期内所有采样时刻各自对应的数据质量标签,得到数据质量标签为异常的异常个数和数据质量标签为正常的正常个数;
数据质量异常率确定模块,用于根据所述异常个数和所述正常个数计算所述数据质量检测周期对应的数据质量异常率。
进一步地,所述采样数据获取单元200,具体用于在每个采样时刻,从待检测数据源中随机采样指定数量的采样数据;所述指定数量小于待检测数据源的全部数据量。
进一步地,每条采样数据包括至少一个字段、且各采样数据包含的字段类型相同;
所述时序数据获取单元201,包括:
合并处理模块,用于将所述采样时刻的所有采样数据中,每个相同字段类型对应的所有字段内容进行合并处理,得到所述采样时刻的一条合并采样数据;
向量化模块,用于将所述合并采样数据向量化,得到合并采样数据向量;
降维模块,用于对所述合并采样数据向量进行降维处理,得到待检测向量;
时间绑定模块,用于将所述采样时刻的时间戳与所述待检测向量绑定,得到所述采样时刻对应的时序数据。
进一步地,所述合并处理模块,具体用于针对所述采样时刻的所有采样数据中每个相同字段类型,将所述相同字段类型对应的所有字段内容求平均值,作为所述合并采样数据中所述相同字段类型的字段内容。
进一步地,所述装置还包括:异常数据存储单元,用于在数据质量标签确定单元202检测到某采样时刻的数据质量标签为异常时触发,以便将数据质量标签为异常的采样时刻所采样的指定数量的采样数据进行存储。
本发明实施例是与前述的方法实施例一一对应的装置实施例,可依据前述的方法实施例理解本发明实施例,在此不再赘述。
第三方面,本发明实施例提供一种电子设备,包括:处理器,适于执行各种指令;以及
存储设备,适于存储多条指令,所述指令适于由处理器加载并执行包括如前所述的方法。
本发明实施例是用于加载并执行前述的方法实施例的电子设备实施例,可依据前述的方法实施例理解本发明实施例,在此不再赘述。
第四方面,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,所述指令适于由处理器加载并执行如前所述的方法。
本发明实施例是用于存储前述的方法对应的指令的计算机可读存储介质实施例,可依据前述的方法实施例理解本发明实施例,在此不再赘述。
下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。
名词解释:
RCF算法:又叫随机切割森林算法,是一种开源的时序数据异常检测算法。可以实时的对时序数据进行异常检测。
数据质量:是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。通常,因为各种原因,会导致数据的完整性或一致性出问题,此时数据质量就下降了。(比如,某些字段出现空值,或者某些字段出现异常值)
先对业务数据进行向量化,然后通过PCA降维,把向量维度降低,再通过RCF算法,对数据进行异常检测。根据异常检测的结果,能够高速、实时、准确的实现数据质量检测。
通过把数据转化成向量数据,再通过PCA降维,基于RCF算法进行异常检测的方式,可以自动的发现数据质量的变化。省时省力,是一种实用性强的数据质量检测方法。
首先描述一下对数据的向量化方案:
互联网公司生产出来的数据,往往字段数非常多。可能多达数百个字段。
以视频播放器日志举例,会记录“uid”、“mediaid”、“ip”、“视频播放时长”、“视频编码类型”等等,200多个字段。
本系统使用的向量化方案,首先是把这些字段,每个字段是一个维度,组装成一个多维向量。
这样数据的每一行,就是一个多维向量了。
但是,这样组装出来的多维向量,维度非常多,可能会有几百维。
RCF算法,虽然可以对多维时序数据进行检测,但是不适合对这么多维度的向量数据进行检测。因此需要对初始的多维向量进行降维。
本系统使用的降维算法是PCA降维。
PCA又叫主成分分析,它有下面三个优点。
(1)通过PCA降维之后的各个主成分之间是正交的,可以消除原始数据之间相互影响的因素。
(2)PCA降维的计算过程并不复杂,因为主要就是对一个协方差矩阵做特征值分解,因此实现起来较简单容易。
(3)在保留大部分主要信息的前提下,起到了降维效果。
本系统会通过PCA降维,把初始向量降到8维,就适合RCF算法进行异常检测了。
接着介绍一下异常检测:
异常检测,是使用亚马逊开源的RCF算法(随机切割森林算法)
这个算法,可以对时序数据进行异常检测。
时序数据,是由时间和value组成的数据。
虽然我们对数据向量化,得到了向量。但是却缺少时间数据。
这里,我们为了能够提取时间数据,是采用每秒随机采样一条数据的方式来实现的。
每秒随机采样一条数据,然后把时间戳和向量数据绑定,就组成了时序数据。
接着,我们用RCF算法对其进行异常检测。
森林数量设置为250。这样,系统需要运行250秒(4分钟多)之后,才能正式开始进行异常检测。
实时异常检测系统,是用Flink开发出来的。其中,Flink是一个框架和分布式处理引擎,用于处理有界和无界的数据流进行有状态计算,Flink还提供了数据分布、容错机制和资源管理等核心功能。
基于持续不断的数据质量检测,我们可以方便的跟进数据质量是保持恒定,还是不断变差了。还可以获取到数据质量不好的样本。
可以及时针对数据质量的变化,进行数据质量排查。
如图3所示,是本发明实施例的数据质量检测装置的另一种架构示意图,本数据质量检测系统主要由两大模块组成,分别是向量初始化模块300、和数据质量检测模块301。
向量初始化模块300,按秒采样数据,并把数据进行向量化,再PCA降维到8维,和时间戳组装再一起。提供被检测的数据。
数据质量检测模块301,负责用RCF算法,检测向量初始化模块提供的按秒采样时序数据。
图4是另一实施例的一种数据质量检测的另一种流程图,流程描述如下:
步骤S400,先把要检测的数据集,按秒随机采样,得到采样数据;
步骤S401,对采样数据进行向量化处理,转化成向量数据,PCA降维,转换为时序数据;
步骤S402,把时序数据提交给数据质量检测模块,用RCF算法去进行异常检测。
步骤S403,如果RCF算法没有发现异常,表明数据质量没有问题,数据顺利通过。
步骤S404,如果RCF算法检测出异常,记录异常,并提取异常数据的样板,供后续分析使用。
步骤S405,基于正常的数量和异常的数量,就可以计算出异常率即(数据质量)
针对森林数量设置为250的情况,本实施例需要提前提前预热250秒,即在持续采样并检测数据250秒后开始输出可用的数据质量检测数据;
本发明实施例具有如下技术效果:可以自动的对海量数据进行数据质量检测,无需人工设定各种复杂的检测规则。能自动的发现异常数据。在实际使用中,更具实用性。通过创新的对多维数据向量化,并且进行PCA降维,使得大数据适合RCF算法的技术规格。然后通过RCF算法进行异常检测,可以对数据异常的情况进行量化。能够对数据质量的走势实现智能、自动、长期监控。无需人工设定数据质量的规则。是一种快速、准确,容错好的智能数据质量检测系统。在数据质量检测领域具有独创性。采样后再做向量化,将RCF异常检测用于数据质量检测,并且,通过一系列时序数据的变换,把日志转换为时序数据,从而可以用RCF算法来进行检测,解决了数据质量检测的问题,同时还可以实时检测。本发明实施例运算速度快,可以实时运算,而传统的数据质量系统都是离线运算,无法实时检测。本方实施例无需人工设定数据质量规则,可以自动进行数据质量的检测。无需人工设定数据质量检测的规则。现有技术的数据质量检测引擎,比如Griffin(一种开源的大数据数据质量解决方案),必须人工设定检测规则,才能工作,其检测规则是SQL语句或正则表达式,非常复杂。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据质量检测方法,其特征在于,包括:
在数据质量检测周期内的每个采样时刻,从待检测数据源中采样指定数量的采样数据;所述数据质量检测周期包括至少一个采样时刻;
对每个采样时刻的指定数量的采样数据进行预处理,得到所述采样时刻对应的时序数据;
对每个采样时刻对应的时序数据进行异常检测,得到所述采样时刻对应的数据质量标签,所述数据质量标签包括异常或正常;
基于所述数据质量检测周期内所有采样时刻各自对应的数据质量标签,确定所述数据质量检测周期对应的数据质量异常率。
2.如权利要求1所述的数据质量检测方法,其特征在于,所述对每个采样时刻对应的时序数据进行异常检测,得到所述采样时刻对应的数据质量标签,包括:
针对每个采样时刻,将所述采样时刻对应的时序数据输入随机切割森林算法模型进行异常检测,得到所述时序数据对应的检测得分;
根据所述检测得分,建立所述采样时刻对应的数据质量标签。
3.如权利要求1所述的数据质量检测方法,其特征在于,所述基于所述数据质量检测周期内所有采样时刻各自对应的数据质量标签,确定所述数据质量检测周期对应的数据质量异常率,包括:
统计所述数据质量检测周期内所有采样时刻各自对应的数据质量标签,得到数据质量标签为异常的异常个数和数据质量标签为正常的正常个数;
根据所述异常个数和所述正常个数计算所述数据质量检测周期对应的数据质量异常率。
4.如权利要求1所述的数据质量检测方法,其特征在于,所述在数据质量检测周期内的每个采样时刻,从待检测数据源中采样指定数量的采样数据,包括:
在每个采样时刻,从待检测数据源中随机采样指定数量的采样数据;所述指定数量小于待检测数据源的全部数据量。
5.如权利要求1所述的数据质量检测方法,其特征在于,每条采样数据包括至少一个字段、且各采样数据包含的字段类型相同;
对每个采样时刻的指定数量的采样数据进行预处理,得到所述采样时刻对应的时序数据,包括:
将所述采样时刻的所有采样数据中,每个相同字段类型对应的所有字段内容进行合并处理,得到所述采样时刻的一条合并采样数据;
将所述合并采样数据向量化,得到合并采样数据向量;
对所述合并采样数据向量进行降维处理,得到待检测向量;
将所述采样时刻的时间戳与所述待检测向量绑定,得到所述采样时刻对应的时序数据。
6.如权利要求5所述的数据质量检测方法,其特征在于,所述将所述采样时刻的所有采样数据中,每个相同字段类型对应的所有字段内容进行合并处理,得到所述采样时刻的一条合并采样数据,包括:
针对所述采样时刻的所有采样数据中每个相同字段类型,将所述相同字段类型对应的所有字段内容求平均值,作为所述合并采样数据中所述相同字段类型的字段内容。
7.如权利要求1所述的数据质量检测方法,其特征在于,还包括:
在所述对每个采样时刻对应的时序数据进行异常检测,得到所述采样时刻对应的数据质量标签之后,将数据质量标签为异常的采样时刻所采样的指定数量的采样数据进行存储。
8.一种数据质量检测装置,其特征在于,包括:
采样数据获取单元,用于在数据质量检测周期内的每个采样时刻,从待检测数据源中采样指定数量的采样数据;所述数据质量检测周期包括至少一个采样时刻;
时序数据获取单元,用于对每个采样时刻的指定数量的采样数据进行预处理,得到所述采样时刻对应的时序数据;
数据质量标签确定单元,用于对每个采样时刻对应的时序数据进行异常检测,得到所述采样时刻对应的数据质量标签,所述数据质量标签包括异常或正常;
数据质量异常率确定单元,用于基于所述数据质量检测周期内所有采样时刻各自对应的数据质量标签,确定所述数据质量检测周期对应的数据质量异常率。
9.一种电子设备,其特征在于,包括:处理器,适于执行各种指令;以及
存储设备,适于存储多条指令,所述指令适于由处理器加载并执行包括如权利要求1-7所述的方法。
10.一种计算机可读存储介质,其特征在于,其中存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-7所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311087534.8A CN117195119A (zh) | 2023-08-28 | 2023-08-28 | 一种数据质量检测方法、装置、电子设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311087534.8A CN117195119A (zh) | 2023-08-28 | 2023-08-28 | 一种数据质量检测方法、装置、电子设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117195119A true CN117195119A (zh) | 2023-12-08 |
Family
ID=88986181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311087534.8A Pending CN117195119A (zh) | 2023-08-28 | 2023-08-28 | 一种数据质量检测方法、装置、电子设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117195119A (zh) |
-
2023
- 2023-08-28 CN CN202311087534.8A patent/CN117195119A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106656536B (zh) | 一种用于处理服务调用信息的方法与设备 | |
US20170109657A1 (en) | Machine Learning-Based Model for Identifying Executions of a Business Process | |
US20170109668A1 (en) | Model for Linking Between Nonconsecutively Performed Steps in a Business Process | |
US8904350B2 (en) | Maintenance of a subroutine repository for an application under test based on subroutine usage information | |
US20170109667A1 (en) | Automaton-Based Identification of Executions of a Business Process | |
CN111210842B (zh) | 语音质检方法、装置、终端及计算机可读存储介质 | |
US20180046956A1 (en) | Warning About Steps That Lead to an Unsuccessful Execution of a Business Process | |
US20170109636A1 (en) | Crowd-Based Model for Identifying Executions of a Business Process | |
CN109002391A (zh) | 自动检测嵌入式软件接口测试数据的方法 | |
CN110609740A (zh) | 一种确定任务间依赖关系的方法及装置 | |
CN114880240B (zh) | 一种物联网设备自动化测试系统、方法、存储介质及设备 | |
US20170109638A1 (en) | Ensemble-Based Identification of Executions of a Business Process | |
CN113360722A (zh) | 一种基于多维数据图谱的故障根因定位方法及系统 | |
CN115328784A (zh) | 一种面向敏捷接口的自动化测试方法及系统 | |
CN111427928A (zh) | 一种数据质量检测方法及装置 | |
CN115757150A (zh) | 一种生产环境测试方法、装置、设备及存储介质 | |
US20170109640A1 (en) | Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process | |
CN113138906A (zh) | 一种调用链数据采集方法、装置、设备及存储介质 | |
US20170109637A1 (en) | Crowd-Based Model for Identifying Nonconsecutive Executions of a Business Process | |
US20170109670A1 (en) | Crowd-Based Patterns for Identifying Executions of Business Processes | |
CN117194242A (zh) | 交易系统的日志回放方法及其装置、电子设备、存储介质 | |
CN117195119A (zh) | 一种数据质量检测方法、装置、电子设备和可读存储介质 | |
CN116701187A (zh) | 一种json数据的校验方法及装置 | |
CN115309661A (zh) | 一种应用测试方法、装置、电子设备及可读存储介质 | |
KR101039874B1 (ko) | 정보통신 통합플랫폼 테스트 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |