CN113760874A - 数据质量检测的方法、装置、电子设备和存储介质 - Google Patents

数据质量检测的方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113760874A
CN113760874A CN202011358887.3A CN202011358887A CN113760874A CN 113760874 A CN113760874 A CN 113760874A CN 202011358887 A CN202011358887 A CN 202011358887A CN 113760874 A CN113760874 A CN 113760874A
Authority
CN
China
Prior art keywords
data
changed
changed data
quality detection
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011358887.3A
Other languages
English (en)
Inventor
蒋佰言
兰国宾
秘熙超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202011358887.3A priority Critical patent/CN113760874A/zh
Publication of CN113760874A publication Critical patent/CN113760874A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了数据质量检测的方法、装置、电子设备和存储介质,涉及计算机技术领域。该方法的一具体实施方式包括:获取数据源的变更数据信息;根据变更数据项的标识查询预设检测规则库,得出变更数据对应的目标检测规则;根据目标检测规则,检测变更数据,得出质量检测结果;若质量检测结果为数据异常,则根据变更数据项的标识查询变更数据项的告警等级和订阅用户;根据告警等级和质量检测结果生成变更数据项的告警信息,并向订阅用户发送告警信息。该实施方式能够解决定时对数据源中存储的数据进行检测,无法及时发现数据源中异常数据,降低数据质量检测的质量和效率的问题。

Description

数据质量检测的方法、装置、电子设备和存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据质量检测的方法、装置、电子设备和存储介质。
背景技术
目前,数据已成为各大互联网企业非常重要的资产,而数据质量的好坏,会直接影响到基于数据的数据分析与数据挖掘等处理的结果,所以数据质量成为衡量数据自身价值的一个重要因素,数据质量的检测也成为一种需求,现有数据质量检测的方式通常为定时对数据源中存储的数据进行检测。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
由于数据源中通常存储的数据量很大,定时对数据源中存储的数据进行检测的方式中,每次进行数据检测会花费较长时间,所以很难及时发现数据源中的异常数据,从而导致基于这些异常数据的数据分析和数据挖掘等处理的处理结果不准确,降低数据质量检测的准确性和效率。
发明内容
有鉴于此,本发明实施例提供一种数据质量检测的方法、装置、系统和存储介质,能够解决定时对数据源中存储的数据进行检测,无法及时发现数据源中异常数据,降低数据质量检测的质量和效率的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种数据质量检测的方法。
本发明实施例的一种数据质量检测的方法包括:获取数据源的变更数据信息,所述变更数据信息包括变更数据项的标识和所述变更数据项的变更数据;根据所述变更数据项的标识查询预设检测规则库,得出所述变更数据对应的目标检测规则;根据所述目标检测规则,检测所述变更数据,得出质量检测结果;若所述质量检测结果为数据异常,则根据所述变更数据项的标识查询所述变更数据项的告警等级和订阅用户;根据所述告警等级和所述质量检测结果生成所述变更数据项的告警信息,并向所述订阅用户发送所述告警信息。
在一个实施例中,在所述获取数据源的变更数据信息,包括:
监控所述数据源的变更日志;
当所述变更日志更新时,确定所述变更日志更新的内容;
根据所述变更日志更新的内容,获取所述数据源的变更数据信息。
在又一个实施例中,所述获取数据源的变更数据信息,包括:
监控所述数据源中各数据项的修改时间;
当所述各数据项的修改时间更新时,根据所述各数据项在所述修改时间更新前包括的数据和所述各数据项在所述修改时间更新后包括的数据,获取所述变更数据信息。
在又一个实施例中,所述根据所述变更数据项的标识查询所述变更数据项的告警等级和订阅用户,包括:
查询所述变更数据项的订阅信息;
根据所述订阅信息,判断所述变更数据项是否被订阅告警信息;
若是,则根据所述变更数据项的标识查询所述变更数据项的告警等级和订阅用户。
在又一个实施例中,所述向所述订阅用户发送所述告警信息,包括:
获取预设时间段内生成的各告警信息;
统计对应相同变更数据项的第一告警信息集,并将所述第一告警信息集发送至对应的订阅用户;或者,
统计对应相同订阅用户的第二告警信息集,并将所述第二告警信息集发送至对应的订阅用户。
在又一个实施例中,所述目标检测规则包括预设算法和目标数据组;
所述根据所述目标检测规则,检测所述变更数据,得出质量检测结果,包括:
对所述目数据组中的数据按照所述预设算法处理,得出计算结果;
判断所述计算结果与所述变更数据是否一致;
若是,则确定所述质量检测结果为数据正常;若否,则确定所述质量检测结果为数据异常。
为实现上述目的,根据本发明实施例的另一方面,提供了一种数据质量检测的装置。
本发明实施例的一种数据质量检测的装置包括:获取单元,用于获取数据源的变更数据信息,所述变更数据信息包括变更数据项的标识和所述变更数据项的变更数据;查询单元,用于根据所述变更数据项的标识查询预设检测规则库,得出所述变更数据对应的目标检测规则;检测单元,用于根据所述目标检测规则,检测所述变更数据,得出质量检测结果;所述查询单元,还用于若所述质量检测结果为数据异常,则根据所述变更数据项的标识查询所述变更数据项的告警等级和订阅用户;告警单元,用于根据所述告警等级和所述质量检测结果生成所述变更数据项的告警信息,并向所述订阅用户发送所述告警信息。
在一个实施例中,所述获取单元,具体用于:
监控所述数据源的变更日志;
当所述变更日志更新时,确定所述变更日志更新的内容;
根据所述变更日志更新的内容,获取所述数据源的变更数据信息。
在又一个实施例中,所述获取单元,具体用于:
监控所述数据源中各数据项的修改时间;
当所述各数据项的修改时间更新时,根据所述各数据项在所述修改时间更新前包括的数据和所述各数据项在所述修改时间更新后包括的数据,获取所述变更数据信息。
在又一个实施例中,所述查询单元,具体用于:
查询所述变更数据项的订阅信息;
根据所述订阅信息,判断所述变更数据项是否被订阅告警信息;
若是,则根据所述变更数据项的标识查询所述变更数据项的告警等级和订阅用户。
在又一个实施例中,所述告警单元,具体用于:
获取预设时间段内生成的各告警信息;
统计对应相同变更数据项的第一告警信息集,并将所述第一告警信息集发送至对应的订阅用户;或者,
统计对应相同订阅用户的第二告警信息集,并将所述第二告警信息集发送至对应的订阅用户。
在又一个实施例中,所述目标检测规则包括预设算法和目标数据组;
所述检测单元,具体用于:
对所述目数据组中的数据按照所述预设算法处理,得出计算结果;
判断所述计算结果与所述变更数据是否一致;
若是,则确定所述质量检测结果为数据正常;若否,则确定所述质量检测结果为数据异常。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种电子设备。
本发明实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例提供的数据质量检测的方法。
为实现上述目的,根据本发明实施例的又一个方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例提供的数据质量检测的方法。
上述发明中的一个实施例具有如下优点或有益效果:本发明实施例中,首先获取数据源中变更数据信息,然后从预设检测规则库中查询出与变更数据项对应的目标检测规则,并基于目标检测规则对变更数据进行数据检测得出检测结果,并在检测结果为数据异常时,可以查询该变更数据项的告警等级和订阅用户,并向订阅用户发送告警信息。如此,本发明实施例中,可以只对数据源中变更数据进行质量检测,而不需要对数据源中存储的全部数据,减少了进行数据检测的数据量和每次数据检测所花费的时间,并且可以实时获取数据源中变更数据,从而可以及时发现数据源中的数据异常,避免导致基于这些数据异常的数据分析和数据挖掘等处理的处理结果不准确,提高数据质量检测的准确性和效率。同时还可以按照变更数据项的告警等级向订阅用户发送告警信息,从而可以及时提醒用户进行数据修复,以及基于告警等级合理安排修复任务。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的数据流向的一种示意图;
图2是根据本发明实施例的数据质量检测的方法的一种主要流程的示意图;
图3是根据本发明实施例的获取数据变更信息方法的一种主要流程的示意图;
图4是根据本发明实施例的获取数据变更信息方法的又一种主要流程的示意图;
图5是根据本发明实施例的数据质量检测的装置的主要单元的示意图;
图6是本发明实施例可以应用于其中的又一种示例性系统架构图;
图7是适于用来实现本发明实施例的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明中的实施例以及实施例中的特征可以互相组合。
数据质量的好坏,通常会直接关系到与数据对应系统或业务等的系统质量,也会间接影响对应企业的生存和竞争力。因此,检测数据质量的好坏十分关键,并且在检测出异常数据时通常需要及时通知相应负责人,以便于及时响应并且尽快修复。如果数据质量无法保证,那么基于数据之上的数据分析与数据挖掘等工作,就是毫无意义的。
一般来说,系统的通常存储于数据源中,数据源具体可以为数据库。数据源的大部分数据的来源为外部输入。如,在系统的开发过程中,由于疏忽等原因未对外部输入数据进行校验导致输入异常数据,或者由于用户录入错误的数据等原因输入异常数据。这些异常数据在输入数据源后通常是无感知的,导致数据源了中存储数据的质量下降。另外,对于需要冗余存储的数据,由于数据同步机制以及多个数据源节点的可用性差异,或者数据同步的延迟等等,均会导致数据源中数据质量下降。
总体来说,由于数据异常的产生基本对人是无感知的,所以在大多数情况下,数据本身开始出现异常与用户真正感知到数据存在异常之间会存在相当长时间的延迟。如果数据异常一直没有被发现,可能随着时间的推移,该数据异常的关联数据也会连带着产生异常,从而会造成更严重的数据质量问题,进而给数据修复工作带来更大的困难,整体数据修复效率较低,所以及时对数据进行质量检查,及时发现数据源中异常数据成为重要需求。
本发明实施例提供一种数据质量检测的系统,该系统可以用于对数据源中数据质量的检测。
本发明实施例中,可以预先设置需要进行数据质量检测的数据源,数据源中存储的数据为需要进行数据质量检测的数据,数据源中的数据可以通过用户输入、系统数据接入等方式变更,数据变更方式可以包括数据新增、数据修改、数据删除等等。本发明实施例中可以对数据源中数据变更进行监控,从而在数据源中数据发生变更时,能够及时获取数据源中的变更数据,并及时对变更数据进行质量检测,从而实现及时发现数据源中异常数据,同时还可以在发现数据源中异常数据后进行通知告警,以便于及时对异常数据进行修复。
具体的,如图1所示为本发明实施例中工作流向图。在图1中,数据接入层表示数据源中存储数据的来源,可以包括用户输入、修改,或者数据接入;数据层表示需要进行数据质量检测的数据源,即存储需要进行质量检测的数据的数据源,数据源可以包括多个,具体可以为各类型数据库;本系统为本发明实施例中数据质量检测的系统,可以实现对数据源中数据变更的监控、对变更数据的质量检测、以及在发现数据异常时通知告警。具体的,在本系统中可以预先设置检查资源范围、检测规则和问题分级,检查资源范围表示需要进行数据质量检测的数据范围,检测规则表示对各检查资源范围内的数据进行质量检测的规则,问题分级表示对各数据出现异常时的告警分级,以实现在各异常数据进行不同等级的通知告警。
本发明实施例提供了一种数据质量检测的方法,该方法可由数据质量检测的系统执行,如图2所示,该方法包括以下步骤。
S201:获取数据源的变更数据信息。
其中,变更数据信息包括变更数据项的标识和变更数据项的变更数据。
本发明实施例中可以预先设置检查范围,即需要进行数据质量检测的数据源,并对数据源中数据的变更进行监控,以便于在数据发生变更时,可以及时获取到变更数据信息。数据源中数据存储通常以数据项为索引来存储数据,具体的,数据源为数据库为例,数据项可以为数据库中数据表的字段。变更数据信息包括变更数据项的标识和变更数据项的变更数据。变更数据项表示发生数据变更的数据项,变更数据项的变更数据表示发生数据变更的数据项中变更的数据。本发明实施例中,由于为发生变更的数据已经完成数据检测,所以本步骤可以只获取变更数据进行数据检测。
S202:根据变更数据项的标识查询预设检测规则库,得出变更数据对应的目标检测规则。
其中,检测规则库为预先设置,检测规则库中可以设置用于数据检测的检测规则,并设置各数据项与检测规则之间的对应关系,以表示该数据项的数据在质量检测时所需要执行的检测规则。
本发明实施例中,数据质量检测的检测类型可以包括完整性、正确性、一致性、逻辑性、唯一性的检测,并且在预设的检测类型不能满足数据质量检测的需求时,还可以上传自定义数据检测脚本、或自定义SQL语句等方式添加检测类型。
具体的,数据的完整性检测表示检测数据项中的数据是否存在缺失、或者为空值,根据此可以设置检测完整性的检测规则,例如,判断变更数据项的变更数据是否为空,若是,则确定质量测试结果为数据异常。
数据的一致性检测表示检测数据项是否与配置的目标数据值、或者目标数据组中数据的计算值相同,其中,目标数据值和目标数据组均为从预先配置的目标数据源中获取的,目标数据源为用于检验数据一致性的数据源,不同数据源的数据进行一致性验证所使用的目标数据源可以不同,据此可以设置检测一致性的检测规则,例如,判断变更数据项的变更数据与目标数据值是否一致,或者判断变更数据项的变更数据与目标数据组中数据的计算值是否一致,若否,则确定质量测试结果为数据异常。
需要说明的是,目标数据组中数据的计算值可以根据预设算法计算得出,预设算法可以包括平均、加权、最大、最小、求和等算法,本发明实施例不做限定。
数据的唯一性检测表示检测数据项的数据是否在特定的数据集中唯一、不可重复,据此可以设置检测唯一性的检测规则,例如,判断变更数据项的变更数据在特定数据集中是否存在重复数据,若是,则确定质量测试结果为数据异常。其中,特定数据集为预先配置。
数据的正确性检测表示检测数据的长度、类型、格式、值域、非空等是够存在错误,据此可以设置检测正确性的检测规则,例如,判断变更数据项的变更数据的数据长度是否为预设长度值、判断变更数据项的变更数据的数据类型是否为预设类型等,若否,则确定质量测试结果为数据异常。
数据的逻辑性检测表示检测数据是否不符合正常逻辑、基本的业务逻辑等,正常逻辑、业务逻辑通常为符合自然规律、业务运行规律等的逻辑,例如,对个人数据,如果年龄为30,目前是否为学生项的值为是,则通常可以认为不符合正常逻辑,所以据此可以设置检测规则。
需要说明的是,由于不同数据项在使用检测规则时会利用不同的参数,例如数据的一致性检测时,不同数据项可以对应不同的目标数据,所以本发明实施例中,设置对应各数据项的检测规则时还需要设置于执行该检测规则时所使用的数据,以便于数据质量检测能够正确执行。
预设检测规则库中可以通过建立检测规则与数据项的标识之间的对应关系来设置各数据项对应的检测规则,所以本步骤中可以根据变更数据项的标识来查询预设检测规则库,从而得出变更数据对应的目标检测规则。
S203:根据目标检测规则,检测变更数据,得出质量检测结果。
其中,在得出变更数据项对应的目标检测规则后,可以使用目标检测规则来对变更数据进行质量检测,从而可以得出质量检测结果。
目标检测规则为一个检测规则时,如果检测结果为数据异常,则可以确定变更数据的质量检测结果为数据异常;如果检测结果不为数据异常,则可以确定变更数据的质量检测结果为数据正常。目标检测规则可以包括多个检测规则,此时对目标检测规则包括的每个检测规则,均会对应一个检测结果。如果目标检测规则中有一个检测规则的检测结果为数据异常,则可以确定变更数据的质量检测结果为数据异常,通常只有目标检测规则中各检测规则的检测结果均不为数据异常时,才可以确定变更数据的质量检测结果为数据正常。在目标检测规则包括多个检测规则时,质量检测结果中可以包括每个检测规则的执行结果,以便于对异常数据的异常类型、所属问题进行统计和汇总。
本发明实施例中,数据质量检测系统可以根据设置的检测数据项对应的检测规则对变更数据项进行质量检测。具体的,可以根据数据源对应的调用接口来执行质量检测,因为通过接口执行质量检测可以屏蔽底层的存储系统的细节,拥有较低的开发复杂度。数据质量检测系统通过接口获取对应数据源中各数据项的变更数据,然后执行对应目标检测规则完成完整性、一致性等的检测,得出质量检测结果。
S204:若质量检测结果为数据异常,则根据变更数据项的标识查询变更数据项的告警等级和订阅用户。
其中,在得出变更数据的质量检测结果后,可以根据质量检测结果判断变更数据是否为异常数据。如果质量检测结果为数据异常,则说明变更数据存在质量问题;如果质量检测结果不为数据异常,则说明变更数据不存在质量问题。在确定变更数据不存在质量问题后,可以不再进行操作;在确定变更数据存在质量问题后,本发明实施例中可以进行告警。
数据源中各数据项在出现问题时通常需要进行修复,所以工作人员或其他用户可以根据需求订阅一些数据项的告警信息,以便于在该数据项的数据出现异常数据时能够及时获知,并进行相应的处理。用户订阅某数据项的告警信息后,可以存储此数据项的订阅信息,具体可以为存储数据项的标识和订阅用户信息之间的对应关系,订阅信息可以包括订阅用户的相关信息,如地址、名称等,以便于将告警信息发送给订阅用户。同时,对于不同的数据项,还可以根据重要程度等设置并存储数据项的告警等级,例如可以设置低、中、高三个告警等级,以便于订阅用户根据告警等级合理安排数据修复的工作。所以本步骤中,在确定质量检测结果为数据异常后,可以根据变更数据项的标识查询变更数据项的告警等级和订阅用户。
需要说明的是,由于有些数据项可能没有用户订阅对应的告警信息,此时该数据项的订阅信息为空,所以本步骤在确定变更数据的质量检测结果为数据异常后,还可以先查询变更数据项的订阅信息,然后根据订阅信息来判断该变更数据项是否被订阅告警信息,即该数据项的订阅信息是否不为空;若是,说明该变更数据项被订阅了告警信息,则可以根据变更数据项的标识查询变更数据项的告警等级和订阅用户;若否,说明该变更数据项没有被订阅了告警信息,则可以不执行后续操作。
S205:根据告警等级和质量检测结果生成变更数据项的告警信息,并向订阅用户发送告警信息。
其中,在查询出变更数据项的告警等级后,可以结合告警等级和质量检测结果生成告警信息,即告警信息包括告警等级和质量检测结果,然后将告警信息发送给订阅用户。如果订阅用户为多个,则可以向每个订阅用户均发送告警信息。
本发明实施例中,为了减少告警信息的发送次数,对告警信息可以按照周期发送。具体的,可以获取预设时间段内生成的各告警信息;然后按照变更数据项统计出相同变更数据项的第一告警信息集,再将该数据项的第一告警信息集一次性发送给该数据项的订阅用户;或者按照订阅用户统计同一订阅用户的第二告警信息集,即对应相同订阅用户的第二告警信息集,再将第二告警信息集一次性发送至该订阅用户。
本发明实施例中,可以只对数据源中变更数据进行质量检测,而不需要对数据源中存储的全部数据,减少了进行数据检测的数据量和每次数据检测所花费的时间,并且可以实时获取数据源中变更数据,从而可以及时发现数据源中的数据异常,避免导致基于这些数据异常的数据分析和数据挖掘等处理的处理结果不准确,提高数据质量检测的准确性和效率。同时还可以按照变更数据项的告警等级向订阅用户发送告警信息,从而可以及时提醒用户进行数据修复,以及基于告警等级合理安排修复任务。
下面结合图2所示的系统架构,对图2所示实施例中步骤S201的一种执行方式进行具体说明,如图3所示,该方法包括以下步骤。
S301:监控数据源的变更日志。
其中,数据源中通常包括变更日志,在数据源中存储数据发生变换时,均会在变更日志中留下对应的记录,所以本发明实施例中为了实时获取变更数据,可以对变更日志进行监控。
具体的,本发明实施例中可以通过监控程序伪装成为数据源的一个从库,如此当数据源中数据发生变化时会记录变更日志和日志的日志位置信息,从库可以同步这些变更日志和日志位置信息,进而根据日志位置信息不断的增量同步变更日志,从而可以获取到数据源的变更数据信息。
S302:当变更日志更新时,确定变更日志更新的内容。
其中,变更日志更新说明变更日志发生了变化,本步骤中可以同步这些变更日志更新的内容。
S303:根据变更日志更新的内容,获取数据源的变更数据信息。
在确定变更日志更新的内容后,变更日志中记录了哪些数据项中数据变更,以及变更了哪些数据,所以可以基于这些日志内容,从数据源中获取到变更数据信息。
本发明实施例中,通过监控数据源中变更日志的方式,可以实时获取到数据源的变更数据信息,进而可以实现对数据源中变更数据进行实时的数据质量检测,检测异常数据。
下面结合图2所示的系统架构,对图2所示实施例中步骤S201的一种执行方式进行具体说明,如图4所示,该方法包括以下步骤。
S401:监控数据源中各数据项的修改时间。
数据源中各数据项的属性通常会包括修改时间,通过监控修改时间即可判断出数据项中的数据是否发生了变更。
S402:当各数据项的修改时间更新时,根据各数据项在修改时间更新前包括的数据和各数据项在修改时间更新后包括的数据,获取变更数据信息。
在数据项的修改时间更新时,说明数据项的数据发生了变更,则数据项在修改时间更新前包括的数据为变更前存储的数据,数据项在修改时间更新后包括的数据为变更后存储的数据,所以根据各数据项在修改时间更新前包括的数据和各数据项在修改时间更新后包括的数据,即可获取到变更数据信息。
本发明实施例中,通过监控数据源中各数据项的修改时间,可以实时确定数据项是否发生了变化,进而可以实时获取到数据源的变更数据信息,进而可以实现对数据源中变更数据进行实时的数据质量检测,检测异常数据。
为了解决现有技术存在的问题,本发明实施例提供了一种数据质量检测的装置500,如图5所示,该装置500包括:
获取单元501,用于获取数据源的变更数据信息,所述变更数据信息包括变更数据项的标识和所述变更数据项的变更数据;
查询单元502,用于根据所述变更数据项的标识查询预设检测规则库,得出所述变更数据对应的目标检测规则;
检测单元503,用于根据所述目标检测规则,检测所述变更数据,得出质量检测结果;
所述查询单元502,还用于若所述质量检测结果为数据异常,则根据所述变更数据项的标识查询所述变更数据项的告警等级和订阅用户;
告警单元504,用于根据所述告警等级和所述质量检测结果生成所述变更数据项的告警信息,并向所述订阅用户发送所述告警信息。
应理解的是,实施本发明实施例的方式与实施图2所示实施例的方式相同,在此不再赘述。
本发明实施例的一种实现方式中,所述获取单元,具体用于:
监控所述数据源的变更日志;
当所述变更日志更新时,确定所述变更日志更新的内容;
根据所述变更日志更新的内容,获取所述数据源的变更数据信息。
本发明实施例的又一种实现方式中,所述获取单元,具体用于:
监控所述数据源中各数据项的修改时间;
当所述各数据项的修改时间更新时,根据所述各数据项在所述修改时间更新前包括的数据和所述各数据项在所述修改时间更新后包括的数据,获取所述变更数据信息。
本发明实施例的又一种实现方式中,所述查询单元,具体用于:
查询所述变更数据项的订阅信息;
根据所述订阅信息,判断所述变更数据项是否被订阅告警信息;
若是,则根据所述变更数据项的标识查询所述变更数据项的告警等级和订阅用户。
本发明实施例的又一种实现方式中,所述告警单元,具体用于:
获取预设时间段内生成的各告警信息;
统计对应相同变更数据项的第一告警信息集,并将所述第一告警信息集发送至对应的订阅用户;或者,
统计对应相同订阅用户的第二告警信息集,并将所述第二告警信息集发送至对应的订阅用户。
本发明实施例的又一种实现方式中,所述目标检测规则包括预设算法和目标数据组;
所述检测单元,具体用于:
对所述目数据组中的数据按照所述预设算法处理,得出计算结果;
判断所述计算结果与所述变更数据是否一致;
若是,则确定所述质量检测结果为数据正常;若否,则确定所述质量检测结果为数据异常。
应理解的是,实施本发明实施例的方式与实施图2、图3或图4所示实施例的方式相同,在此不再赘述。
本发明实施例中,可以只对数据源中变更数据进行质量检测,而不需要对数据源中存储的全部数据,减少了进行数据检测的数据量和每次数据检测所花费的时间,并且可以实时获取数据源中变更数据,从而可以及时发现数据源中的数据异常,避免导致基于这些数据异常的数据分析和数据挖掘等处理的处理结果不准确,提高数据质量检测的准确性和效率。同时还可以按照变更数据项的告警等级向订阅用户发送告警信息,从而可以及时提醒用户进行数据修复,以及基于告警等级合理安排修复任务。
根据本发明的实施例,本发明还提供了一种电子设备和一种可读存储介质。
本发明的电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例所提供的数据质量检测的方法。
图6示出了可以应用本发明实施例的数据质量检测的方法或数据质量检测的装置的示例性系统架构600。
如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种客户端应用,具体的终端601、602、603中可以设置需要进行数据质量检测的数据源。终端设备601、602、603可以是但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,具体可以为数据质量检测服务器,可以对接收到的变更数据信息,并进行数据质量检测等处理。
需要说明的是,本发明实施例所提供的数据质量检测的方法一般由服务器605执行,相应地,数据质量检测的装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的计算机系统700的结构示意图。图7示出的计算机系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分,上述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、查询单元、检测单元和告警单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取单元的功能的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行本发明所提供的数据质量检测的方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种数据质量检测的方法,其特征在于,包括:
获取数据源的变更数据信息,所述变更数据信息包括变更数据项的标识和所述变更数据项的变更数据;
根据所述变更数据项的标识查询预设检测规则库,得出所述变更数据对应的目标检测规则;
根据所述目标检测规则,检测所述变更数据,得出质量检测结果;
若所述质量检测结果为数据异常,则根据所述变更数据项的标识查询所述变更数据项的告警等级和订阅用户;
根据所述告警等级和所述质量检测结果生成所述变更数据项的告警信息,并向所述订阅用户发送所述告警信息。
2.根据权利要求1所述的方法,其特征在于,在所述获取数据源的变更数据信息,包括:
监控所述数据源的变更日志;
当所述变更日志更新时,确定所述变更日志更新的内容;
根据所述变更日志更新的内容,获取所述数据源的变更数据信息。
3.根据权利要求1所述的方法,其特征在于,所述获取数据源的变更数据信息,包括:
监控所述数据源中各数据项的修改时间;
当所述各数据项的修改时间更新时,根据所述各数据项在所述修改时间更新前包括的数据和所述各数据项在所述修改时间更新后包括的数据,获取所述变更数据信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述变更数据项的标识查询所述变更数据项的告警等级和订阅用户,包括:
查询所述变更数据项的订阅信息;
根据所述订阅信息,判断所述变更数据项是否被订阅告警信息;
若是,则根据所述变更数据项的标识查询所述变更数据项的告警等级和订阅用户。
5.根据权利要求1所述的方法,其特征在于,所述向所述订阅用户发送所述告警信息,包括:
获取预设时间段内生成的各告警信息;
统计对应相同变更数据项的第一告警信息集,并将所述第一告警信息集发送至对应的订阅用户;或者,
统计对应相同订阅用户的第二告警信息集,并将所述第二告警信息集发送至对应的订阅用户。
6.根据权利要求1所述的方法,其特征在于,所述目标检测规则包括预设算法和目标数据组;
所述根据所述目标检测规则,检测所述变更数据,得出质量检测结果,包括:
对所述目数据组中的数据按照所述预设算法处理,得出计算结果;
判断所述计算结果与所述变更数据是否一致;
若是,则确定所述质量检测结果为数据正常;若否,则确定所述质量检测结果为数据异常。
7.一种数据质量检测的装置,其特征在于,包括:
获取单元,用于获取数据源的变更数据信息,所述变更数据信息包括变更数据项的标识和所述变更数据项的变更数据;
查询单元,用于根据所述变更数据项的标识查询预设检测规则库,得出所述变更数据对应的目标检测规则;
检测单元,用于根据所述目标检测规则,检测所述变更数据,得出质量检测结果;
所述查询单元,还用于若所述质量检测结果为数据异常,则根据所述变更数据项的标识查询所述变更数据项的告警等级和订阅用户;
告警单元,用于根据所述告警等级和所述质量检测结果生成所述变更数据项的告警信息,并向所述订阅用户发送所述告警信息。
8.根据权利要求7所述的装置,其特征在于,所述获取单元还用于:
监控所述数据源的变更日志;
当所述变更日志更新时,确定所述变更日志更新的内容;
根据所述变更日志更新的内容,获取所述数据源的变更数据信息。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN202011358887.3A 2020-11-27 2020-11-27 数据质量检测的方法、装置、电子设备和存储介质 Pending CN113760874A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011358887.3A CN113760874A (zh) 2020-11-27 2020-11-27 数据质量检测的方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011358887.3A CN113760874A (zh) 2020-11-27 2020-11-27 数据质量检测的方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113760874A true CN113760874A (zh) 2021-12-07

Family

ID=78786161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011358887.3A Pending CN113760874A (zh) 2020-11-27 2020-11-27 数据质量检测的方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113760874A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023123755A1 (zh) * 2021-12-30 2023-07-06 中国民航信息网络股份有限公司 信息推送的方法及装置、电子设备、存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023123755A1 (zh) * 2021-12-30 2023-07-06 中国民航信息网络股份有限公司 信息推送的方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN105095056A (zh) 一种数据仓库数据监控的方法
CN113312341A (zh) 一种数据质量监控方法、系统和计算机设备
CN111782502A (zh) 一种自动化测试的方法及装置
CN110737655A (zh) 用于上报数据的方法和装置
CN113760874A (zh) 数据质量检测的方法、装置、电子设备和存储介质
CN112966056A (zh) 一种信息处理方法、装置、设备、系统及可读存储介质
US20200028733A1 (en) Method and apparatus for processing information
CN112559233B (zh) 识别故障类型的方法、装置、设备和计算机可读介质
CN110489208B (zh) 虚拟机配置参数核查方法、系统、计算机设备和存储介质
CN113961565A (zh) 数据检测方法、系统、计算机系统及可读存储介质
CN114003497A (zh) 业务系统的测试方法、装置、设备及存储介质
CN114443437A (zh) 告警根因输出方法、装置、设备、介质和程序产品
CN109508356B (zh) 数据异常预警方法、装置、计算机设备及存储介质
CN110362464B (zh) 软件分析方法及设备
CN117130945B (zh) 一种测试方法和装置
CN111831534A (zh) 一种对数据报表进行准确性验证的方法和装置
CN112131077A (zh) 故障节点的定位方法和定位装置、以及数据库集群系统
CN111427878A (zh) 数据监控告警方法、装置、服务器和存储介质
CN110688295A (zh) 数据测试方法和装置
CN111290870A (zh) 一种检测异常的方法和装置
CN114089712B (zh) 一种数据处理方法和装置
CN113595870B (zh) 推送消息的处理方法、装置、电子设备及存储介质
US20230359190A1 (en) Process capability index warning system and warning method for the same
US10686645B1 (en) Scalable subscriptions for virtual collaborative workspaces
CN111930704B (zh) 业务报警设备控制方法、装置、设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination