CN113641628B - 数据质量检测方法、装置、设备及存储介质 - Google Patents

数据质量检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113641628B
CN113641628B CN202110928664.4A CN202110928664A CN113641628B CN 113641628 B CN113641628 B CN 113641628B CN 202110928664 A CN202110928664 A CN 202110928664A CN 113641628 B CN113641628 B CN 113641628B
Authority
CN
China
Prior art keywords
file
detected
directed acyclic
acyclic graph
data quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110928664.4A
Other languages
English (en)
Other versions
CN113641628A (zh
Inventor
张进
李逍遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202110928664.4A priority Critical patent/CN113641628B/zh
Publication of CN113641628A publication Critical patent/CN113641628A/zh
Application granted granted Critical
Publication of CN113641628B publication Critical patent/CN113641628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据质量检测方法、装置、设备及存储介质,该方法获取待检测有向无环图文件和待检测有向无环图文件的存储位置;根据存储位置,判断待检测有向无环图文件的文件来源;根据文件来源,确定待检测有向无环图文件的调用接口;根据调用接口进行接口调用处理,获取待检测有向无环图文件的校验信息;对校验信息进行数据质量校验,得到校验结果;若校验结果不符合预设校验规则,则发出数据质量告警,解决了现有技术Airflow只能完成数据计算的功能,不支持对数据进行质量检测,数据的准确性和可靠性低的技术问题。

Description

数据质量检测方法、装置、设备及存储介质
技术领域
本发明涉及通信技术领域,尤其涉及一种数据质量检测方法、装置、设备及存储介质。
背景技术
在大数据时代,数据成为了很多企业的核心资产,企业需要在大量的数据中找到有效的数据进行分析和挖掘。然而在数据采集、存储和传输过程中,难免会出现数据缺失、错误等问题,而数据一旦发生问题就会影响到后续的数据分析和挖掘,降低其本身的价值,因此确保数据的准确可靠是能够发掘出数据潜在价值的基础。
现有技术中,通常采用编排、调度和监控工作流workflow的平台Airflow来实现对数据的管控,Airflow是通过有向无环图(Directed acyclic graph,DAG)来管理任务流程的任务调度工具,不需要知道业务数据的具体内容,设置任务的依赖关系即可实现任务调度。
然而现有技术中,Airflow只能完成数据计算的功能,不支持对数据进行质量检测,数据的准确性和可靠性低。
发明内容
本申请提供一种数据质量检测方法、装置、设备及存储介质,从而解决现有技术中,Airflow只能完成数据计算的功能,不支持对数据进行质量检测,数据的准确性和可靠性低的技术问题。
第一方面,本申请提供了一种数据质量检测方法,包括:
获取待检测有向无环图文件和所述待检测有向无环图文件的存储位置;
根据所述存储位置,判断所述待检测有向无环图文件的文件来源;
根据所述文件来源,确定所述待检测有向无环图文件的调用接口;
根据所述调用接口进行接口调用处理,获取所述待检测有向无环图文件的校验信息;
对所述校验信息进行数据质量校验,得到校验结果;
若所述校验结果不符合预设校验规则,则发出数据质量告警。
这里,本申请提供了一种基于Airflow完成的,对有向无环图(Directedacyclicgraph,DAG)文件的数据质量检测方法,让数据在调度过程中就完成数据质量的检测,起到事前预防的作用,首先在任务开始,用户书写任务运行逻辑的DAG文件时判断DAG文件的存储位置,根据存储位置可以确定不同存储位置中DAG文件的文件来源,针对不同的文件来源调用不同的调用接口,以获取进行数据质量校验的校验信息,通过此校验信息,可完成对DAG文件的数据质量校验,并在数据质量不过关时发出告警信息,以提示进行数据检查、修改等,实现了Airflow的数据质量检测功能,保证了数据的准确性及可靠性。
可选地,所述待检测有向无环图文件的存储位置包括文件系统的文件和数据库中的二维表;
相应的,所述根据所述存储位置,判断所述待检测有向无环图文件的文件来源包括:
若所述待检测有向无环图文件的存储位置为文件系统的文件,则判断存储所述待检测有向无环图文件的文件系统类型;
若所述待检测有向无环图文件的存储位置为数据库中的二维表,则判断存储所述待检测有向无环图文件的数据库类型。
这里,本申请中DAG文件的存储位置包括文件系统的文件和数据库中的二维表,可针对不同的存储位置确定DAG文件对应的文件来源,如果DAG文件的存储位置为文件系统的文件,那么可以判断DAG文件的文件系统类型,例如,来自本地文件系统、文件传输协议(File Transfer Protocol,FTP)文件系统或者是安全文件传送协议(SSH File TransferProtocol,SFTP)文件系统;如果DAG文件的存储位置为数据库中的二维表,那么可以判断DAG文件的数据库类型,例如关系型数据库管理系统MySQL、Oracle还是新型查询系统Impala、数据仓库工具Hive等,本申请可针对不同的文件存储位置确定不同的文件来源获取方式,进而准确确定文件来源,以针对文件来源确定文件的调用接口,从而能够获取校验信息,以实现基于Airflow的数据质量检测,保证了数据的准确性和稳定性。
可选地,所述根据所述文件来源,确定所述待检测有向无环图文件的调用接口,包括:
若所述待检测有向无环图文件的存储位置为文件系统的文件,则根据所述文件系统类型,确定所述文件系统类型对应的文件系统接口;
若所述待检测有向无环图文件的存储位置为数据库中的二维表,则根据所述数据库类型,确定所述数据库类型对应的数据库查询接口。
这里,本申请针对不同的DAG文件的文件来源,确定了其对于的调用接口,包括对应于文件系统类型的文件系统接口和针对于数据库类型的数据库查询接口,以精准调用接口,实现校验信息的准确获取。
可选地,所述获取所述待检测有向无环图文件的校验信息,包括:
若所述待检测有向无环图文件的存储位置为文件系统的文件,则根据预设文件判断条件,获取所述待检测有向无环图文件的文件数据和元信息;
若所述待检测有向无环图文件的存储位置为数据库中的二维表,则获取所述待检测有向无环图文件的表的元信息。
这里,本申请基于文件的不同存储位置,选择了不用的校验信息,针对文件系统的文件,会根据给定的文件判断条件,获取满足条件的文件系统中的文件数据和文件相关的元信息;针对数据库中的二维表,通过数据库接口访问需要校验的表的元信息,比如表字段、表结构等等数据,实现了对不同存储位置数据的精准校验,进一步地提高了数据质量检测的准确性,提高了数据的稳定性。
可选地,所述若所述校验结果不符合预设校验规则,则发出数据质量告警,包括:
若所述校验结果不符合预设校验规则,则发送告警短信或者发送告警邮件。
这里,本申请可发送告警短信或者发送告警邮件以提示用户数据质量不合格,便于用户及时了解数据情况,针对数据质量进行数据检查和调整,进一步地保证了数据的准确性及可靠性,提高了用户体验。
可选地,所述对所述校验信息进行数据质量校验,包括:
根据数据质量校验的一致性、及时性和准确性要求,对所述校验信息进行数据质量校验。
这里,本申请根据数据质量校验的一致性、及时性和准确性要求对文件里的数据或者是对文件数量进行校验,或者根据数据质量校验的一致性、及时性和准确性要求对数据库表进行校验,能够全面、准确地确定数据质量,进一步地提高了数据质量检测的准确性。
第二方面,本申请提供了一种数据质量检测装置,包括:
获取模块,用于获取待检测有向无环图文件和所述待检测有向无环图文件的存储位置;
判断模块,用于根据所述存储位置,判断所述待检测有向无环图文件的文件来源;
确定模块,用于根据所述文件来源,确定所述待检测有向无环图文件的调用接口;
调用模块,用于根据所述调用接口进行接口调用处理,获取所述待检测有向无环图文件的校验信息;
校验模块,用于对所述校验信息进行数据质量校验,得到校验结果;
告警模块,用于若所述校验结果不符合预设校验规则,则发出数据质量告警。
可选地,所述待检测有向无环图文件的存储位置包括文件系统的文件和数据库中的二维表;
相应的,所述判断模块具体用于:
若所述待检测有向无环图文件的存储位置为文件系统的文件,则判断存储所述待检测有向无环图文件的文件系统类型;
若所述待检测有向无环图文件的存储位置为数据库中的二维表,则判断存储所述待检测有向无环图文件的数据库类型。
可选地,所述确定模块具体用于:
若所述待检测有向无环图文件的存储位置为文件系统的文件,则根据所述文件系统类型,确定所述文件系统类型对应的文件系统接口;
若所述待检测有向无环图文件的存储位置为数据库中的二维表,则根据所述数据库类型,确定所述数据库类型对应的数据库查询接口。
可选地,所述调用模块具体用于:
若所述待检测有向无环图文件的存储位置为文件系统的文件,则根据预设文件判断条件,获取所述待检测有向无环图文件的文件数据和元信息;
若所述待检测有向无环图文件的存储位置为数据库中的二维表,则获取所述待检测有向无环图文件的表的元信息。
可选地,所述告警模块具体用于:
若所述校验结果不符合预设校验规则,则发送告警短信或者发送告警邮件。
可选地,所述校验模块具体用于:
根据数据质量校验的一致性、及时性和准确性要求,对所述校验信息进行数据质量校验。
第三方面,本申请提供一种数据质量检测设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的数据质量检测方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的数据质量检测方法。
第五方面,本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上第一方面以及第一方面各种可能的设计所述的数据质量检测方法。
本申请提供的数据质量检测方法、装置、设备及存储介质,其中该方法是基于Airflow完成的,对DAG文件的数据质量检测方法,让数据在调度过程中就完成数据质量的检测,首先在任务开始,用户书写任务运行逻辑的DAG文件时判断DAG文件的存储位置,根据存储位置可以确定不同存储位置中DAG文件的文件来源,针对不同的文件来源调用不同的调用接口,以获取进行数据质量校验的校验信息,通过此校验信息,可完成对DAG文件的数据质量校验,并在数据质量不过关时发出告警信息,以提示进行数据检查、修改等,实现了Airflow的数据质量检测功能,保证了数据的准确性及可靠性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据质量检测系统架构示意图;
图2为本申请实施例提供的一种数据质量检测方法的流程示意图;
图3为本申请实施例提供的一种FS Operator节点数据质量检测方法的流程示意图;
图4为本申请实施例提供的一种SQL Operator节点数据质量检测方法的流程示意图;
图5为本申请实施例提供的一种数据质量检测装置的结构示意图;
图6为本申请实施例提供的一种数据质量检测设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
数据是企业最重要的资源之一,它可以用来帮助企业顺利进行,实施新的策略等等,数据一直是组织的核心,它是组织日常业务顺利进行和实施新战略的基石,分析数据和做出数据驱动决策的能力变得越来越重要。Airflow是Apache基金会托管的一款Workflow开源软件,Airflow的核心理念就是DAG,即有向无环图,Airflow将将数据从来源端经过抽取、转换、加载至目的端(Extract Transform Load,ETL)过程抽象成一个DAG有向无环图,一个任务依赖于另一个任务,在运行过程中,记录启动时间,运行时长,处理数据量的趋势变化,优化慢结构化查询语言(Structured Query Language,SQL),收集并记录任务运行过程中产生的标准输出和标准错误,类似Airflow的数据调度系统在大数据技术内占据着重要的地位,并且广泛应用于通信、金融等各个商业领域,但是Airflow本身是不支持对数据进行质量检测,只是完成数据计算的功能。因此现有技术存在Airflow只能完成数据计算的功能,不支持对数据进行质量检测,数据的准确性和可靠性低的技术问题。
为了解决上述问题,本申请实施例提供一种数据质量检测方法、装置、设备及存储介质,其中该方法实现了基于Airflow完成的,对DAG文件的数据质量检测方法,让数据在调度过程中就完成数据质量的检测的目的,在任务开始,用户书写任务运行逻辑的DAG文件时判断DAG文件的存储位置,根据存储位置可以确定不同存储位置中DAG文件的文件来源,针对不同的文件来源调用不同的调用接口,以获取进行数据质量校验的校验信息,通过此校验信息,可完成对DAG文件的数据质量校验,并在数据质量不过关时发出告警信息,以提示进行数据检查、修改等。
可选的,图1为本申请实施例提供的一种数据质量检测系统架构示意图。在图1中,上述架构包括接收装置101、处理器102和显示装置103中至少一种。
可以理解的是,本申请实施例示意的结构并不构成对数据质量检测系统架构的具体限定。在本申请另一些可行的实施方式中,上述架构可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,具体可根据实际应用场景确定,在此不做限制。图1所示的部件可以以硬件,软件,或软件与硬件的组合实现。
在具体实现过程中,接收装置101可以是输入/输出接口,也可以是通信接口。
处理器102可以在任务开始,用户书写任务运行逻辑的DAG文件时判断DAG文件的存储位置,根据存储位置可以确定不同存储位置中DAG文件的文件来源,针对不同的文件来源调用不同的调用接口,以获取进行数据质量校验的校验信息,通过此校验信息,可完成对DAG文件的数据质量校验,并在数据质量不过关时发出告警信息,以提示进行数据检查、修改等。
显示装置103可以用于对上述结果等进行显示,也可以通过显示装置与用户进行交互。
显示装置还可以是触摸显示屏,用于在显示的上述内容的同时接收用户指令,以实现与用户的交互。
应理解,上述处理器可以通过处理器读取存储器中的指令并执行指令的方式实现,也可以通过芯片电路实现。
另外,本申请实施例描述的网络架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着网络架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
下面结合具体的实施例对本申请的技术方案进行详细的说明:
可选地,图2为本申请实施例提供的一种数据质量检测方法的流程示意图。本申请实施例的执行主体可以为图1中的处理器102,具体执行主体可以根据实际应用场景确定。如图2所示,该方法包括如下步骤:
S201:获取待检测有向无环图文件和待检测有向无环图文件的存储位置。
可选地,DAG文件的存储位置包括文件系统的文件和数据库中的二维表。
其中,在任务开始时,用户书写任务运行逻辑的DAG文件,判断需要校验的数据是文件系统里的文件还是在数据库里的二维表。如果数据是在文件系统里,那么用户可以选择FS Operator;如果是在数据库里,那么用户可以选择SQL Operator。
Operator是Airflow里独有的概念,是具体的工作节点。
本申请实施例的可以基于不同的工作节点执行不同的调用操作。
S202:根据存储位置,判断待检测有向无环图文件的文件来源。
根据存储位置,判断待检测有向无环图文件的文件来源包括:
若待检测有向无环图文件的存储位置为文件系统的文件,则判断存储待检测有向无环图文件的文件系统类型;若待检测有向无环图文件的存储位置为数据库中的二维表,则判断存储待检测有向无环图文件的数据库类型。
这里,本申请实施例中DAG文件的存储位置包括文件系统的文件和数据库中的二维表,可针对不同的存储位置确定DAG文件对应的文件来源,如果DAG文件的存储位置为文件系统的文件,那么可以判断DAG文件的文件系统类型,例如,来自本地文件系统、文件传输协议(File Transfer Protocol,FTP)文件系统或者是安全文件传送协议(SSH FileTransfer Protocol,SFTP)文件系统;如果DAG文件的存储位置为数据库中的二维表,那么可以判断DAG文件的数据库类型,例如关系型数据库管理系统MySQL、Oracle还是新型查询系统Impala、数据仓库工具Hive等,本申请实施例可针对不同的文件存储位置确定不同的文件来源获取方式,进而准确确定文件来源,以针对文件来源确定文件的调用接口,从而能够获取校验信息,以实现基于Airflow的数据质量检测,保证了数据的准确性和稳定性。
S203:根据文件来源,确定待检测有向无环图文件的调用接口。
可选地,根据文件来源,确定待检测有向无环图文件的调用接口,包括:
若待检测有向无环图文件的存储位置为文件系统的文件,则根据文件系统类型,确定文件系统类型对应的文件系统接口;
若待检测有向无环图文件的存储位置为数据库中的二维表,则根据数据库类型,确定数据库类型对应的数据库查询接口。
这里,本申请实施例针对不同的DAG文件的文件来源,确定了其对于的调用接口,包括对应于文件系统类型的文件系统接口和针对于数据库类型的数据库查询接口,以精准调用接口,实现校验信息的准确获取。
S204:根据调用接口进行接口调用处理,获取待检测有向无环图文件的校验信息。
可选地,获取待检测有向无环图文件的校验信息,包括:
若待检测有向无环图文件的存储位置为文件系统的文件,则根据预设文件判断条件,获取待检测有向无环图文件的文件数据和元信息;
若待检测有向无环图文件的存储位置为数据库中的二维表,则获取待检测有向无环图文件的表的元信息。
这里,本申请实施例基于文件的不同存储位置,选择了不用的校验信息,针对文件系统的文件,会根据给定的文件判断条件,获取满足条件的文件系统中的文件数据和文件相关的元信息;针对数据库中的二维表,通过数据库接口访问需要校验的表的元信息,比如表字段、表结构等等数据,实现了对不同存储位置数据的精准校验,进一步地提高了数据质量检测的准确性,提高了数据的稳定性。
S205:对校验信息进行数据质量校验,得到校验结果。
可选地,对校验信息进行数据质量校验,包括:根据数据质量校验的一致性、及时性和准确性要求,对校验信息进行数据质量校验。
这里,本申请实施例根据数据质量校验的一致性、及时性和准确性要求对文件里的数据或者是对文件数量进行校验,或者根据数据质量校验的一致性、及时性和准确性要求对数据库表进行校验,能够全面、准确地确定数据质量,进一步地提高了数据质量检测的准确性。
S206:若校验结果不符合预设校验规则,则发出数据质量告警。
可选地,若校验结果不符合预设校验规则,则发出数据质量告警,包括:若校验结果不符合预设校验规则,则发送告警短信或者发送告警邮件。
可选地,若校验结果符合预设校验规则,则继续后续的数据处理任务。
可以理解的是,这里的预设校验规则可以根据实际情况确定,本申请实施例对此不做具体限制。
这里,本申请实施例可发送告警短信或者发送告警邮件以提示用户数据质量不合格,便于用户及时了解数据情况,针对数据质量进行数据检查和调整,进一步地保证了数据的准确性及可靠性,提高了用户体验。
本申请实施例提供了一种基于Airflow完成的,对DAG文件的数据质量检测方法,让数据在调度过程中就完成数据质量的检测,起到事前预防的作用,首先在任务开始,用户书写任务运行逻辑的DAG文件时判断DAG文件的存储位置,根据存储位置可以确定不同存储位置中DAG文件的文件来源,针对不同的文件来源调用不同的调用接口,以获取进行数据质量校验的校验信息,通过此校验信息,可完成对DAG文件的数据质量校验,并在数据质量不过关时发出告警信息,以提示进行数据检查、修改等,实现了Airflow的数据质量检测功能,保证了数据的准确性及可靠性。
下面针对不同的存储位置进行数据质量检测方法的详细说明,图3为本申请实施例提供的一种FS Operator节点数据质量检测方法的流程示意图,这里的DAG文件存储位置为文件系统的文件,如图3所示,该方法包括:
S301:判断存储待检测有向无环图文件的文件系统类型。
其中,这里的文件系统类型可以为本地文件系统、FTP文件系统或者SFTP文件系统。
可选地,这里使用探针判断数据存放的文件系统是本地文件系统、FTP文件系统还是SFTP文件系统。
S302:根据文件系统类型,确定文件系统类型对应的文件系统接口。
具体地,如果是本地文件系统,则会调用OS包;如果是FTP文件系统,则会调用ftplib包,以此类推。
S303:根据调用接口进行接口调用处理,根据预设文件判断条件,获取待检测有向无环图文件的文件数据和元信息。
其中,这里的预设文件判断条件可以根据实际情况确定,本申请实施例对比不做具体限制。
可选地,确定调用接口后,FS Operator连接文件系统后,会根据给定的文件判断条件,根据接口,获取满足条件的文件系统中的文件数据和文件相关的元信息。
S304:对文件数据和元信息进行数据质量校验,得到校验结果。
可选地,可以根据数据质量校验的一致性、及时性和准确性要求对文件里的数据或者是对文件数量进行校验。
一致性是指文件名、文件大小是否符合给定的预期值,及时性是指文件在指定的时间内是否生成,准确性是指文件里包含的数据是否符合预期值。
这里的预期值可以根据实际情况确定,本申请实施例对此不作具体限制。
S305:若校验结果不符合预设校验规则,则发出数据质量告警。
图4为本申请实施例提供的一种SQL Operator节点数据质量检测方法的流程示意图,这里的DAG文件存储位置为数据库中的二维表,如图4所示,该方法包括:
S401:判断存储待检测有向无环图文件的数据库类型。
可选地,可以根据Airflow的元数据库信息判断数据库是哪种类型的数据库,比如是MySQL、Oracle、Impala或者Hive等。
S402:根据数据库类型,确定数据库类型对应的数据库查询接口。
具体地,如果是二维表所在的数据库在Impala上,则会调用impala.dbapi包;如果二维表在Oracle上,则会调用cx_Oracle包,以此类推。
S403:根据调用接口进行接口调用处理,获取待检测有向无环图文件的表的元信息。
可选地,可以通过数据库接口访问需要校验的表的元信息,比如表字段、表结构等等数据,将其存储在内存里,以方便下一步的数据质量校验。
S404:对表的元信息进行数据质量校验,得到校验结果。
可选地,可以根据数据质量校验的一致性、及时性和准确性要求对数据库表进行校验。
其中,一致性指的是抽样数据是否与预期数据相符,及时性包括检测数据库表数据是否存在,是否在任务运行时生成了,准确性是指数据库表的数据量是否符合预期。例如,使用者可以使用SQL Operator判断绑定用户数量是否满足最小阈值,如果满足的话,则进行下一步计算。
其中,这里的预期数据、最小阈值可以根据实际情况确定,本申请实施例对此不作具体限制。
S405:若校验结果不符合预设校验规则,则发出数据质量告警。
图5为本申请实施例提供的一种数据质量检测装置的结构示意图,如图5所示,本申请实施例的装置包括:获取模块501、判断模块502、确定模块503、调用模块504、校验模块505和创建模块506。这里的数据质量检测装置可以是上述处理器102本身,或者是实现处理器102的功能的芯片或者集成电路。这里需要说明的是,获取模块501、判断模块502、确定模块503、调用模块504、校验模块505和创建模块506的划分只是一种逻辑功能的划分,物理上两者可以是集成的,也可以是独立的。
其中,获取模块,用于获取待检测有向无环图文件和待检测有向无环图文件的存储位置;
判断模块,用于根据存储位置,判断待检测有向无环图文件的文件来源;
确定模块,用于根据文件来源,确定待检测有向无环图文件的调用接口;
调用模块,用于根据调用接口进行接口调用处理,获取待检测有向无环图文件的校验信息;
校验模块,用于对校验信息进行数据质量校验,得到校验结果;
告警模块,用于若校验结果不符合预设校验规则,则发出数据质量告警。
可选地,待检测有向无环图文件的存储位置包括文件系统的文件和数据库中的二维表;
相应的,判断模块具体用于:
若待检测有向无环图文件的存储位置为文件系统的文件,则判断存储待检测有向无环图文件的文件系统类型;
若待检测有向无环图文件的存储位置为数据库中的二维表,则判断存储待检测有向无环图文件的数据库类型。
可选地,确定模块具体用于:
若待检测有向无环图文件的存储位置为文件系统的文件,则根据文件系统类型,确定文件系统类型对应的文件系统接口;
若待检测有向无环图文件的存储位置为数据库中的二维表,则根据数据库类型,确定数据库类型对应的数据库查询接口。
可选地,调用模块具体用于:
若待检测有向无环图文件的存储位置为文件系统的文件,则根据预设文件判断条件,获取待检测有向无环图文件的文件数据和元信息;
若待检测有向无环图文件的存储位置为数据库中的二维表,则获取待检测有向无环图文件的表的元信息。
可选地,告警模块具体用于:
若校验结果不符合预设校验规则,则发送告警短信或者发送告警邮件。
可选地,校验模块具体用于:
根据数据质量校验的一致性、及时性和准确性要求,对校验信息进行数据质量校验。
图6为本申请实施例提供的一种数据质量检测设备的结构示意图,该数据质量检测设备可以为处理器102。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该数据质量检测设备包括:处理器601和存储器602,各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器601可以对在数据质量检测设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。图6中以一个处理器601为例。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的数据质量检测设备的方法对应的程序指令/模块(例如,附图5所示的,获取模块501、判断模块502、确定模块503、调用模块504、校验模块505和创建模块506)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行认证平台的各种功能应用以及数据处理,即实现上述方法实施例中的数据质量检测设备的方法。
数据质量检测设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与数据质量检测设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以是数据质量检测设备的显示设备等输出设备。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
本申请实施例的数据质量检测设备,可以用于执行本申请上述各方法实施例中的技术方案,其实现原理和技术效果类似,此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一项的数据质量检测方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时,用于实现上述任一项的数据质量检测方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (7)

1.一种数据质量检测方法,其特征在于,包括:
获取待检测有向无环图文件和所述待检测有向无环图文件的存储位置;
根据所述存储位置,判断所述待检测有向无环图文件的文件来源;
根据所述文件来源,确定所述待检测有向无环图文件的调用接口;
根据所述调用接口进行接口调用处理,获取所述待检测有向无环图文件的校验信息;
对所述校验信息进行数据质量校验,得到校验结果;
若所述校验结果不符合预设校验规则,则发出数据质量告警;
所述待检测有向无环图文件的存储位置包括文件系统的文件和数据库中的二维表;
相应的,所述根据所述存储位置,判断所述待检测有向无环图文件的文件来源包括:
若所述待检测有向无环图文件的存储位置为文件系统的文件,则判断存储所述待检测有向无环图文件的文件系统类型;
若所述待检测有向无环图文件的存储位置为数据库中的二维表,则判断存储所述待检测有向无环图文件的数据库类型;
所述获取所述待检测有向无环图文件的校验信息,包括:
若所述待检测有向无环图文件的存储位置为文件系统的文件,则根据预设文件判断条件,获取所述待检测有向无环图文件的文件数据和元信息;
若所述待检测有向无环图文件的存储位置为数据库中的二维表,则获取所述待检测有向无环图文件的表的元信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文件来源,确定所述待检测有向无环图文件的调用接口,包括:
若所述待检测有向无环图文件的存储位置为文件系统的文件,则根据所述文件系统类型,确定所述文件系统类型对应的文件系统接口;
若所述待检测有向无环图文件的存储位置为数据库中的二维表,则根据所述数据库类型,确定所述数据库类型对应的数据库查询接口。
3.根据权利要求1至2任一项所述的方法,其特征在于,所述若所述校验结果不符合预设校验规则,则发出数据质量告警,包括:
若所述校验结果不符合预设校验规则,则发送告警短信或者发送告警邮件。
4.根据权利要求1至2任一项所述的方法,其特征在于,所述对所述校验信息进行数据质量校验,包括:
根据数据质量校验的一致性、及时性和准确性要求,对所述校验信息进行数据质量校验。
5.一种数据质量检测装置,其特征在于,包括:
获取模块,用于获取待检测有向无环图文件和所述待检测有向无环图文件的存储位置;所述待检测有向无环图文件的存储位置包括文件系统的文件和数据库中的二维表;
判断模块,用于根据所述存储位置,判断所述待检测有向无环图文件的文件来源;
确定模块,用于根据所述文件来源,确定所述待检测有向无环图文件的调用接口;
调用模块,用于根据所述调用接口进行接口调用处理,获取所述待检测有向无环图文件的校验信息;
校验模块,用于对所述校验信息进行数据质量校验,得到校验结果;
告警模块,用于若所述校验结果不符合预设校验规则,则发出数据质量告警;
所述判断模块,具体用于若所述待检测有向无环图文件的存储位置为文件系统的文件,则判断存储所述待检测有向无环图文件的文件系统类型;若所述待检测有向无环图文件的存储位置为数据库中的二维表,则判断存储所述待检测有向无环图文件的数据库类型;
所述调用模块,具体用于若所述待检测有向无环图文件的存储位置为文件系统的文件,则根据预设文件判断条件,获取所述待检测有向无环图文件的文件数据和元信息;若所述待检测有向无环图文件的存储位置为数据库中的二维表,则获取所述待检测有向无环图文件的表的元信息。
6.一种数据质量检测设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的数据质量检测方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至4中任一项所述的数据质量检测方法。
CN202110928664.4A 2021-08-13 2021-08-13 数据质量检测方法、装置、设备及存储介质 Active CN113641628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110928664.4A CN113641628B (zh) 2021-08-13 2021-08-13 数据质量检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110928664.4A CN113641628B (zh) 2021-08-13 2021-08-13 数据质量检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113641628A CN113641628A (zh) 2021-11-12
CN113641628B true CN113641628B (zh) 2023-06-16

Family

ID=78421599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110928664.4A Active CN113641628B (zh) 2021-08-13 2021-08-13 数据质量检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113641628B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116627958A (zh) * 2023-07-21 2023-08-22 中邮消费金融有限公司 大数据质量校验方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761162A (zh) * 2014-01-11 2014-04-30 深圳清华大学研究院 分布式文件系统的数据备份方法
CN105793859A (zh) * 2013-09-30 2016-07-20 七桥基因公司 用于检测序列变异体的方法和系统
CN108780418A (zh) * 2016-03-29 2018-11-09 安立公司 用于使用流分析实时测量网络问题的有效客户影响的系统和方法
CN112328619A (zh) * 2020-09-24 2021-02-05 杭州小电科技股份有限公司 数据质量监控方法、装置、系统、电子装置和存储介质
CN112540975A (zh) * 2020-12-29 2021-03-23 中科院计算技术研究所大数据研究院 一种基于petri网的多源异构数据质量检测方法
CN112579626A (zh) * 2020-09-28 2021-03-30 京信数据科技有限公司 多源异构sql查询引擎的构建方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10275298B2 (en) * 2016-10-12 2019-04-30 Salesforce.Com, Inc. Alerting system having a network of stateful transformation nodes
US11379349B2 (en) * 2020-01-03 2022-07-05 International Business Machines Corporation Verifiable testcase workflow

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105793859A (zh) * 2013-09-30 2016-07-20 七桥基因公司 用于检测序列变异体的方法和系统
CN103761162A (zh) * 2014-01-11 2014-04-30 深圳清华大学研究院 分布式文件系统的数据备份方法
CN108780418A (zh) * 2016-03-29 2018-11-09 安立公司 用于使用流分析实时测量网络问题的有效客户影响的系统和方法
CN112328619A (zh) * 2020-09-24 2021-02-05 杭州小电科技股份有限公司 数据质量监控方法、装置、系统、电子装置和存储介质
CN112579626A (zh) * 2020-09-28 2021-03-30 京信数据科技有限公司 多源异构sql查询引擎的构建方法及装置
CN112540975A (zh) * 2020-12-29 2021-03-23 中科院计算技术研究所大数据研究院 一种基于petri网的多源异构数据质量检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Metadata-Driven Industrial-Grade ETL System;Alexander Suleykin et al.;《2020 IEEE International Conference on Big Data》;2433-2442 *
大数据质量检测与修复方法及系统平台研究;齐扬;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-791 *

Also Published As

Publication number Publication date
CN113641628A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN107193750B (zh) 一种脚本录制方法和装置
CN108519967B (zh) 图表可视化方法、装置、终端和存储介质
CN108984388B (zh) 一种生成自动化测试用例的方法及终端设备
CN107885660B (zh) 基金系统自动化测试管理方法、装置、设备及存储介质
US9946628B2 (en) Embedding and executing trace functions in code to gather trace data
CN111522728A (zh) 自动化测试用例的生成方法、电子设备及可读存储介质
CN112286806A (zh) 自动化测试方法、装置、存储介质及电子设备
CN110471787A (zh) 线上问题捕获方法、系统、装置、电子设备及存储介质
CN113641628B (zh) 数据质量检测方法、装置、设备及存储介质
CN115016321A (zh) 一种硬件在环自动化测试方法、装置及系统
CN111666201A (zh) 回归测试方法、装置、介质及电子设备
CN114185791A (zh) 一种数据映射文件的测试方法、装置、设备及存储介质
CN107729341B (zh) 电子装置、信息查询控制方法和计算机可读存储介质
US9104573B1 (en) Providing relevant diagnostic information using ontology rules
CN112559525A (zh) 数据检查系统、方法、装置和服务器
CN110245166A (zh) 数据核对方法及装置
CN115309730A (zh) 数据审核方法、装置、电子设备及存储介质
CN114185656A (zh) 一种测试任务处理方法、装置、设备及存储介质
CN114003497A (zh) 业务系统的测试方法、装置、设备及存储介质
CN113448867A (zh) 一种软件压力测试方法及装置
CN109697141B (zh) 用于可视化测试的方法及装置
US8321844B2 (en) Providing registration of a communication
CN106326094A (zh) 检查指针异常的方法及系统
US8949819B2 (en) Rationalizing functions to identify re-usable services
US11461088B2 (en) Software transport check integration in upgrade context

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant