CN113986898A - 一种数据质量检测方法、装置、设备及可读存储介质 - Google Patents

一种数据质量检测方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113986898A
CN113986898A CN202111250244.1A CN202111250244A CN113986898A CN 113986898 A CN113986898 A CN 113986898A CN 202111250244 A CN202111250244 A CN 202111250244A CN 113986898 A CN113986898 A CN 113986898A
Authority
CN
China
Prior art keywords
data
rule
detection
data source
alarm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111250244.1A
Other languages
English (en)
Inventor
胡永森
陈飞
巫林壕
李安乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202111250244.1A priority Critical patent/CN113986898A/zh
Publication of CN113986898A publication Critical patent/CN113986898A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种数据质量检测方法、装置、设备及可读存储介质。本申请公开的方法包括:获取需要检测数据质量的数据源;基于数据源确定相应的检测规则和告警规则;利用检测规则检测数据源得到规则命中数据,并在利用告警规则确定规则命中数据中存在告警数据的情况下,生成包括告警数据的数据质量检测结果。该方案为待检测的各种数据源预设有检测规则和告警规则,因此针对不同数据源,都可以基于相应的检测规则和告警规则直接进行数据质量检测,提高了数据质量检测效率。相应地,本申请提供的一种数据质量检测装置、设备及可读存储介质,也同样具有上述技术效果。

Description

一种数据质量检测方法、装置、设备及可读存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种数据质量检测方法、装置、设备及可读存储介质。
背景技术
目前,对于计算机设备收集的各种类型的数据,需要检测其中是否有空值、错误值等无效数据,从而评估所收集数据的质量好坏。例如:针对矿井环境中各种传感器所采集的数据,检测其中是否有明显错误的数据。
当前需要检测的数据源众多,由于不同数据源所检测的数据维度等内容差异较大,导致需要针对每个数据源都相应开发检测代码,且不同数据源的检测代码无法复用,从而降低了数据质量检测的效率,也不利于数据质量的管理。数据源如:湿度传感器数据源、温度传感器数据源、人员信息数据源等。
因此,如何提高数据质量检测效率,是本领域技术人员需要解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种数据质量检测方法、装置、设备及可读存储介质,以提高数据质量检测效率。其具体方案如下:
第一方面,本申请提供了一种数据质量检测方法,包括:
获取需要检测数据质量的数据源;
基于所述数据源确定相应的检测规则和告警规则;
利用所述检测规则检测所述数据源得到规则命中数据,并在利用所述告警规则确定所述规则命中数据中存在告警数据的情况下,生成包括所述告警数据的数据质量检测结果。
优选地,所述基于所述数据源确定相应的检测规则和告警规则,包括:
基于所述数据源的预设检测配置信息确定所述检测规则和所述告警规则。
优选地,所述数据源支持HIVE数据库表格式。
优选地,所述基于所述数据源确定相应的检测规则和告警规则之前,还包括:
接收用户基于人机交互界面为所述数据源配置的预设检测配置信息。
优选地,在所述获取需要检测数据质量的数据源之前,还包括:
判断是否到达所述数据源的检测时间点;
相应地,所述获取需要检测数据质量的数据源具体为:
在到达所述数据源的检测时间点的情况下,获取所述数据源。
优选地,还包括:
若未到达所述数据源的检测时间点,则等待预设时长后,再次执行所述判断是否到达所述数据源的检测时间点的步骤。
优选地,在所述利用所述检测规则检测所述数据源得到规则命中数据之后,还包括:
记录所述规则命中数据得到目标文件,以便用户查看目标文件中的规则命中数据,从而检查告警规则设置的是否合理。
优选地,还包括:
在预设时间段内对所述数据源重复检测多次后,确定所述数据源在所述预设时间段内的检测波动信息;所述检测波动信息表示:所述数据源的多次检测情况之间的差异。
第二方面,本申请提供了一种数据质量检测装置,包括:
获取模块,用于获取需要检测数据质量的数据源;
确定模块,用于基于所述数据源确定相应的检测规则和告警规则;
检测模块,用于利用所述检测规则检测所述数据源得到规则命中数据,并在利用所述告警规则确定所述规则命中数据中存在告警数据的情况下,生成包括所述告警数据的数据质量检测结果。
第三方面,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现前述公开的数据质量检测方法。
第四方面,本申请提供了一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述公开的数据质量检测方法。
通过以上方案可知,本申请提供了一种数据质量检测方法,包括:获取需要检测数据质量的数据源;基于所述数据源确定相应的检测规则和告警规则;利用所述检测规则检测所述数据源得到规则命中数据,并在利用所述告警规则确定所述规则命中数据中存在告警数据的情况下,生成包括所述告警数据的数据质量检测结果。
可见,本申请在获取到需要检测数据质量的数据源后,可确定数据源对应的检测规则和告警规则,从而可利用检测规则检测数据源得到规则命中数据,并在利用告警规则确定规则命中数据中存在告警数据的情况下,生成包括告警数据的数据质量检测结果,完成了该数据源的质量检测。该方案为待检测的各种数据源预设有检测规则和告警规则,因此针对不同数据源,都可以基于相应的检测规则和告警规则直接进行数据质量检测,而无需针对每个数据源相应开发检测代码,从而提高了数据质量检测效率。同时,以规则形式呈现的检测规则和告警规则可灵活修改,有利于数据质量的管理和检测。
相应地,本申请提供的一种数据质量检测装置、设备及可读存储介质,也同样具有上述技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种数据质量检测方法流程图;
图2为本申请公开的一天波动率的计算方式示意图;
图3为本申请公开的七天波动率的计算方式示意图;
图4为本申请公开的七天平均值波动率的计算方式示意图;
图5为本申请公开的另一种数据质量检测方法流程图;
图6为本申请公开的一种数据质量检测装置示意图;
图7为本申请公开的一种电子设备示意图;
图8为本申请公开的另一种电子设备示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,需要检测的数据源众多,由于不同数据源所检测的数据维度等内容差异较大,导致需要针对每个数据源都相应开发检测代码,且不同数据源的检测代码无法复用,从而降低了数据质量检测的效率,也不利于数据质量的管理。数据源如:湿度传感器数据源、温度传感器数据源、人员信息数据源等。为此,本申请提供了一种数据质量检测方案,能够提高数据质量检测效率。
参见图1所示,本申请实施例公开了一种数据质量检测方法,包括:
S101、获取需要检测数据质量的数据源。
需要检测数据质量的数据源可能有多个,本实施例为各种数据源都预设有检测规则和告警规则,这些检测规则和告警规则可由用户基于人机交互界面进行修改和设计。因此在一种具体实施方式中,基于数据源确定相应的检测规则和告警规则之前,还包括:接收用户基于人机交互界面为数据源配置的预设检测配置信息;预设检测配置信息包括:检测规则和告警规则。可见,将检测规则和告警规则设置在预设检测配置信息中,可方便用户对各个数据源进行检测规则和告警规则的配置。因此在一种具体实施方式中,基于数据源确定相应的检测规则和告警规则,包括:基于数据源的预设检测配置信息确定检测规则和告警规则。
各个数据源如:湿度传感器数据源、温度传感器数据源、人员信息数据源等。为了将不同数据源进行统一管理,本实施例采用HIVE等工具对各个数据源进行存储和管理。因此在一种具体实施方式中,任意数据源支持HIVE数据库表格式。
HIVE是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。Hadoop提供有YARN(Yet Another Resource Negotiator,集群资源管理器系统),利用此系统可方便管理所存储的数据。
S102、基于数据源确定相应的检测规则和告警规则。
需要说明的是,不同数据源的检测规则和告警规则可以相同,也可以不同,具体根据数据源中的具体数据字段确定。任一个数据源对应的检测规则和告警规则都至少有一个。
示例性地,检测规则可以按照如下内容进行设计:
(1)空值数:选中字段为NULL的数据条数;
(2)空值率:选中字段为NULL的数据条数和与总数据量的比值;
(3)空串数:选中字段为空字符的数据条数;
(4)空串率:选中字段为空字符的数据条数与总数据条数的比值;
(5)重复数:选中字段所有重复数据的数据条数;
(6)重复率:选中字段所有重复数据的数据条数与总数据条数的比值;
(7)非重复数:选中字段所有不重复数据的数据条数;
(8)非重复率:选中字段所有不重复数据的数据条数与总数据条数的比值;
(9)负值比:选中字段数据值小于0的数据条数与总数据条数的比值;
(10)零值比:选中字段数据值等于0的数据条数与总数据条数的比值;
(11)正值比:选中字段数据值大于0的数据条数与总数据条数的比值;
(12)身份证号码:选中字段数据是否符合国内身份证号的格式;
(13)手机号:选中字段数据是否符合国内手机号;
(14)邮箱:选中字段数据是否符合常用邮箱格式;
(15)邮政编码:选中字段数据是否符合国内邮政编码格式;
(16)字符串最大长度:选中字段数据字符串长度是否满足约束;
(17)字符串最小长度:选中字段数据字符串长度是否满足约束;
(18)最大值:选中字段数据值是否满足约束;
(19)最小值:选中字段数据值是否满足约束;
(20)正则表达式:选中字段数据字符串是否满足约束正则表达式。
一个告警规则里具体可以包括告警维度和告警阈值。示例性地,假设当前所检测的数据源为多个人员的年龄和ID,那么“年龄”、“ID”就可以作为告警维度,而针对“年龄”、“ID”这两个维度,可分别设置告警阈值。例如:“年龄”维度的告警阈值为3,表示:该数据源中有超过3个人的年龄异常,则进行告警;“ID”维度的告警阈值为1,表示:该数据源中有超过1个人的ID异常,则进行告警。至于年龄和ID是否异常,具体利用相应的检测规则进行判断,被检测规则命中的数据项即为异常数据项。反之,未被检测规则命中的数据项即为正常数据项。因此本实施例中的“规则命中数据”即为:存在异常的数据。
当然,告警维度还可以针对全量数据进行设定。例如:若规则命中数据与数据源中的全量数据的数据量比值较大,则进行告警,具体可以统计被规则命中的数据量大小后进行计算,从而确定被规则命中的数据量的占比。
S103、利用检测规则检测数据源得到规则命中数据,并在利用告警规则确定规则命中数据中存在告警数据的情况下,生成包括告警数据的数据质量检测结果。
本实施例针对任一个数据源,可直接基于该数据源的预设检测配置信息确定相应的检测规则和告警规则,之后便可以利用检测规则检测数据源得到规则命中数据(即数据源中的异常数据),并在利用告警规则确定规则命中数据中存在告警数据的情况下,生成包括告警数据的数据质量检测结果。
一般地,一个数据源中是允许存在少量异常数据的,这些少量的异常数据可能不会影响整个数据源的质量和后续使用,因此可以忽略。但若是一个数据源中的异常数据较多,那么就极有可能影响整个数据源的质量和后续使用,因此需要基于告警规则确定规则命中数据中的告警数据,以便对这些告警数据进行修复。
需要说明的是,在规则命中数据中有告警数据的情况下,生成包括告警数据的数据质量检测结果。在规则命中数据中没有告警数据的情况下,因为没有告警数据,可以不输出数据质量检测结果。但无论规则命中数据中是否有告警数据,都可以汇总所有的规则命中数据,以便用户查看规则命中数据。因此在一种具体实施方式中,在所述利用所述检测规则检测所述数据源得到规则命中数据之后,可以记录规则命中数据得到目标文件,以便用户查看目标文件中的规则命中数据,从而检查告警规则设置的是否合理。
当然,数据质量检测结果中也可以包括规则命中数据,但为了使数据质量检测结果保持轻量型,一般将规则命中数据单独记录至预设的目标文件。若规则命中数据较多,可以示例性地列举部分。具体的,规则命中数据不仅含异常数据本身,还对应记录有命中该异常数据所使用的检测规则。相应地,告警数据不仅含告警数据本身,还对应记录有命中该告警数据所使用的检测规则,以及对其进行告警所使用的告警规则等相关信息。当然,若告警数据较多,可以在数据质量检测结果中示例性地列举部分。
可见,本申请实施例在获取到需要检测数据质量的数据源后,可确定数据源对应的检测规则和告警规则,从而可利用检测规则检测数据源得到规则命中数据,并在利用告警规则确定规则命中数据中存在告警数据的情况下,生成包括告警数据的数据质量检测结果,完成了该数据源的质量检测。该方案为待检测的各种数据源预设有检测规则和告警规则,因此针对不同数据源,都可以基于相应的检测规则和告警规则直接进行数据质量检测,而无需针对每个数据源相应开发检测代码,从而提高了数据质量检测效率。同时,以规则形式呈现的检测规则和告警规则可灵活修改,有利于数据质量的管理和检测。
基于上述实施例,需要说明的是,针对任一个数据源可以设定定时检测任务,也就是多次循环检测任一个数据源。如:针对数据源A,在每天中午12点时启动检测,即:针对数据源A每天检测一次。当然,所有数据源中的具体数据字段都会随着时间的推移更新,具体更新包括:数据增多、数据减少、数据修复等操作。
因此在检测任一数据源之前,还包括:判断是否到达该数据源的检测时间点;若是,获取该数据源(即获取数据源中的具体数据字段);基于该数据源确定相应的检测规则和告警规则;利用检测规则检测数据源得到规则命中数据,并在利用告警规则确定规则命中数据中存在告警数据的情况下,生成包括告警数据的数据质量检测结果。若未到达数据源的检测时间点,则等待预设时长后,再次执行判断是否到达数据源的检测时间点的步骤,从而实现定时检测。
如此经过一段时间,某一数据源就被检测了多次,那么在预设时间段内对数据源重复检测多次后,可以确定数据源在预设时间段内的检测波动信息;检测波动信息表示:同一数据源的多次检测情况之间的差异。也即:基于检测波动信息可以查看同一数据源在不同日期的检测情况差异,具体可以是:同一数据源在不同日期的规则命中率高低,规则命中率越高,表明该数据源中的异常数据越多。检测波动信息还可以是:同一数据源在不同日期所检测到的告警数据的占比。
具体的,检测波动信息可以是:一天波动率:每天规则命中率的数据波动率;七天波动率:每七天规则命中率的数据波动率;月度波动率:每个月规则命中率的数据波动率;七天平均值波动率:每七天平均规则命中率的波动情况;月度平均值波动率:每个月平均规则命中率的波动情况。当然,也可以是基于其他角度计算得到的波动信息。
一天波动率的计算方式可参见图2,在图2中,S1表示5月1日的规则命中率,S2表示5月2日的规则命中率,规则命中率为当天被规则命中的数据量与当天被检测全部数据量的比值。
相应的,七天波动率的计算方式可参见图3,在图3中,S1表示5月1日的规则命中率,S2表示5月8日的规则命中率,规则命中率为当天被规则命中的数据量与当天被检测全部数据量的比值。
相应的,月度波动率的计算方式可参照图2和图3以及相关公式进行设计实现,在此不再赘述。
七天平均值波动率的计算方式可参见图4,在图4中,需要计算7天内(5月1日-5月7日)每天的规则命中率,即图4中的7个S1,这7个S1取平均值得到avg,而第8天(5月8日)的规则命中率为S2,那么按照图4所示的七天平均值波动率的计算公式即可计算得到七天平均值波动率。
相应的,月度平均值波动率的计算方式可参照图4以及相关公式进行设计实现,在此不再赘述。
当然,还可以据此计算每2个月的月度波动率等信息,以评估数据源的质量。
请参见图5,本申请实施例公开了另一种数据质量检测方案,该方案包括:
1、选择HIVE数据库表数据作为需要进行数据质量监控的数据源。
2、为该数据源选择选择质量规则(即检测规则),用以检测数据源中的具体数据字段是否是空值、重复值等。
3、为该数据源选择选择告警维度和告警阈值,以构成告警规则。
4、基于所选择的质量规则构建该数据源的质量规则模型,并基于该质量规则模型封装Griffin任务对应的JSON参数,以便将JSON参数提供给Griffin,使Griffin对该数据源进行规则计算。Griffin是一种数据质量监控的解决方案,其提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。
5、定时调度Griffin任务,根据配置的定时调度策略,将步骤4生成的质量规则模型中的各种规则提交给Griffin任务,并在YARN集群中执行该Griffin任务,执行完成后,将Griffin计算的结果存储到ElasticSearch中,以便后续查询。
6、质量规则模型计算成功之后,根据告警维度和告警阈值统计Griffin计算的结果,以确定告警信息。如果质量规则计算结果达到告警设置的阈值,即生成告警信息;否则只统计质量规则命中的数据信息。
7、最后生成本次的质量检测报告,其中包含规则告警信息的样例数据10条。
可见,本实施例能够为某一数据源自由选择质量规则、告警规则,并基于所选择的规则对该数据源进行快速、准确地质量检测,对异常数据能够计算产生告警信息和问题报告。且一次配置之后就可持续使用,降低了重复开发代码和人工检查告警信息的误差,自动化对hive数据库中数据进行质量监控、告警和展示。
下面对本申请实施例提供的一种数据质量检测装置进行介绍,下文描述的一种数据质量检测装置与上文描述的一种数据质量检测方法可以相互参照。
参见图6所示,本申请实施例公开了一种数据质量检测装置,包括:
获取模块601,用于获取需要检测数据质量的数据源;
确定模块602,用于基于数据源确定相应的检测规则和告警规则;
检测模块603,用于利用检测规则检测数据源得到规则命中数据,并在利用告警规则确定规则命中数据中存在告警数据的情况下,生成包括告警数据的数据质量检测结果。
在一种具体实施方式中,确定模块具体用于:
基于数据源的预设检测配置信息确定检测规则和告警规则。
在一种具体实施方式中,数据源支持HIVE数据库表格式。
在一种具体实施方式中,还包括:
接收模块,用于接收用户基于人机交互界面为数据源配置的预设检测配置信息。
在一种具体实施方式中,还包括:
判断模块,用于判断是否到达数据源的检测时间点;
相应地,获取需要检测数据质量的数据源具体为:在到达数据源的检测时间点的情况下,获取数据源。
在一种具体实施方式中,还包括:
等待模块,用于若未到达数据源的检测时间点,则等待预设时长后,再次执行判断是否到达数据源的检测时间点的步骤。
在一种具体实施方式中,还包括:
汇总模块,用于记录规则命中数据得到目标文件,以便用户查看目标文件中的规则命中数据,从而检查告警规则设置的是否合理。
在一种具体实施方式中,还包括:
对比模块,用于在预设时间段内对数据源重复检测多次后,确定数据源在预设时间段内的检测波动信息;检测波动信息表示:数据源的多次检测情况之间的差异。
其中,关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本实施例提供了一种数据质量检测装置,该装置能够针对不同数据源,基于相应的检测配置信息直接进行数据质量检测,而无需针对每个数据源相应开发检测代码,从而提高了数据质量检测效率。
下面对本申请实施例提供的一种电子设备进行介绍,下文描述的一种电子设备与上文描述的一种数据质量检测方法及装置可以相互参照。
参见图7所示,本申请实施例公开了一种电子设备,包括:
存储器701,用于保存计算机程序;
处理器702,用于执行所述计算机程序,以实现上述任意实施例公开的方法。
请参考图8,图8为本实施例提供的另一种电子设备示意图,该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在电子设备301上执行存储介质330中的一系列指令操作。
电子设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。例如,Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
在图8中,应用程序342可以是执行数据质量检测方法的程序,数据344可以是执行数据质量检测方法所需的或产生的数据。
上文所描述的数据质量检测方法中的步骤可以由电子设备的结构实现。
下面对本申请实施例提供的一种可读存储介质进行介绍,下文描述的一种可读存储介质与上文描述的一种数据质量检测方法、装置及设备可以相互参照。
一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述实施例公开的数据质量检测方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种数据质量检测方法,其特征在于,包括:
获取需要检测数据质量的数据源;
基于所述数据源确定相应的检测规则和告警规则;
利用所述检测规则检测所述数据源得到规则命中数据,并在利用所述告警规则确定所述规则命中数据中存在告警数据的情况下,生成包括所述告警数据的数据质量检测结果。
2.根据权利要求1所述的数据质量检测方法,其特征在于,所述基于所述数据源确定相应的检测规则和告警规则,包括:
基于所述数据源的预设检测配置信息确定所述检测规则和所述告警规则。
3.根据权利要求1所述的数据质量检测方法,其特征在于,所述数据源支持HIVE数据库表格式。
4.根据权利要求2所述的数据质量检测方法,其特征在于,所述基于所述数据源确定相应的检测规则和告警规则之前,还包括:
接收用户基于人机交互界面为所述数据源配置的预设检测配置信息。
5.根据权利要求1所述的数据质量检测方法,其特征在于,在所述获取需要检测数据质量的数据源之前,还包括:
判断是否到达所述数据源的检测时间点;
相应地,所述获取需要检测数据质量的数据源具体为:
在到达所述数据源的检测时间点的情况下,获取所述数据源。
6.根据权利要求5所述的数据质量检测方法,其特征在于,还包括:
若未到达所述数据源的检测时间点,则等待预设时长后,再次执行所述判断是否到达所述数据源的检测时间点的步骤。
7.根据权利要求1所述的数据质量检测方法,其特征在于,在所述利用所述检测规则检测所述数据源得到规则命中数据之后,还包括:
记录所述规则命中数据得到目标文件。
8.根据权利要求1至7任一项所述的数据质量检测方法,其特征在于,还包括:
在预设时间段内对所述数据源重复检测多次后,确定所述数据源在所述预设时间段内的检测波动信息;所述检测波动信息表示:所述数据源的多次检测情况之间的差异。
9.一种数据质量检测装置,其特征在于,包括:
获取模块,用于获取需要检测数据质量的数据源;
确定模块,用于基于所述数据源确定相应的检测规则和告警规则;
检测模块,用于利用所述检测规则检测所述数据源得到规则命中数据,并在利用所述告警规则确定所述规则命中数据中存在告警数据的情况下,生成包括所述告警数据的数据质量检测结果。
10.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至8任一项所述的数据质量检测方法。
11.一种可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的数据质量检测方法。
CN202111250244.1A 2021-10-26 2021-10-26 一种数据质量检测方法、装置、设备及可读存储介质 Pending CN113986898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111250244.1A CN113986898A (zh) 2021-10-26 2021-10-26 一种数据质量检测方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111250244.1A CN113986898A (zh) 2021-10-26 2021-10-26 一种数据质量检测方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113986898A true CN113986898A (zh) 2022-01-28

Family

ID=79741882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111250244.1A Pending CN113986898A (zh) 2021-10-26 2021-10-26 一种数据质量检测方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113986898A (zh)

Similar Documents

Publication Publication Date Title
JP6707564B2 (ja) データ品質分析
EP2344962B1 (en) Detection of confidential information
JP2012504920A5 (zh)
CN112804079B (zh) 云计算平台告警分析方法、装置、设备及存储介质
AU2019340705B2 (en) Optimized execution of fraud detection rules
CN111737244A (zh) 数据质量检查方法、装置、计算机系统及存储介质
CN116126843A (zh) 一种数据质量评估方法、装置、电子设备和存储介质
US9009161B2 (en) Data processing
CN107330031B (zh) 一种数据存储的方法、装置及电子设备
CN113342608A (zh) 流式计算引擎任务的监控方法及装置
CN113986898A (zh) 一种数据质量检测方法、装置、设备及可读存储介质
CN107273293B (zh) 大数据系统性能测试方法、装置及电子设备
CN114495137A (zh) 票据异常检测模型生成方法与票据异常检测方法
US10558647B1 (en) High performance data aggregations
CN116795656B (zh) 埋点出错的预警提示方法、装置、设备及存储介质
CN117541378A (zh) 指标计算的监测方法及装置
CN111309623B (zh) 一种坐标类数据分类测试方法及装置
CN115277468B (zh) 基于Nginx对网站各二级域名实际流量统计的方法
CN112100229B (zh) 数据状态多维度监控方法及系统、设备及存储介质
CN109508318B (zh) 一种存储量统计方法、装置、电子设备和可读存储介质
CN116260601A (zh) 网络威胁监测方法及装置、存储介质、终端
CN117792769A (zh) Api资产统计、状态分析、告警方法、装置及系统
CN117596253A (zh) 数据处理方法、装置及存储介质
CN112699169A (zh) 基于慢日志的隐患挖掘方法、装置、计算机设备和介质
CN104978268A (zh) 软件功能点实时自动化分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination