CN116303380A - 一种监测业务中的数据质量校验方法、设备及介质 - Google Patents

一种监测业务中的数据质量校验方法、设备及介质 Download PDF

Info

Publication number
CN116303380A
CN116303380A CN202310036632.2A CN202310036632A CN116303380A CN 116303380 A CN116303380 A CN 116303380A CN 202310036632 A CN202310036632 A CN 202310036632A CN 116303380 A CN116303380 A CN 116303380A
Authority
CN
China
Prior art keywords
data
verification
rule
task
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310036632.2A
Other languages
English (en)
Other versions
CN116303380B (zh
Inventor
张健
张厚森
刘翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Intelligent Technology Co Ltd
Original Assignee
Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Intelligent Technology Co Ltd filed Critical Inspur Intelligent Technology Co Ltd
Priority to CN202310036632.2A priority Critical patent/CN116303380B/zh
Publication of CN116303380A publication Critical patent/CN116303380A/zh
Application granted granted Critical
Publication of CN116303380B publication Critical patent/CN116303380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种监测业务中的数据质量校验方法、设备及介质,属于数据采集与治理技术领域,用于解决现有的监测业务数据难以结合业务数据的整体性及数据之间内在的业务逻辑关系,难以满足不同的业务需求,降低了数据质量的可信度的技术问题。方法包括:通过预设校验算法,对监测业务数据之间的数据逻辑关系进行规则判断,根据业务数据之间生成的判断逻辑,确定出校验业务数据的规则模板;通过规则模板中的校验参数,与业务数据类型进行相应的规则匹配,得到与业务数据类型对应的规则实施例;并通过预设分布式任务调度框架,确定出校验执行任务;将校验执行任务的任务执行结果进行数据汇总分析,得到业务数据的质量校验结果。

Description

一种监测业务中的数据质量校验方法、设备及介质
技术领域
本申请涉及数据采集与治理领域,尤其涉及一种监测业务中的数据质量校验方法、设备及介质。
背景技术
随着社会的发展,数据已成为一种新型资产,有效的数据能够支撑业务的分析和决策,但错误的数据却可能会影响数据分析的准确性,保证数据质量是数据开发分析工作中的重中之重,而数据质量检验可以提前发现数据质量问题,提高数据的可信度。
监测业务中的数据质量校验技术可以分为前端和后端。前端校验主要是在数据采集时进行校验,当校验不通过及时拦截,主要通过正则表达式等方法,验证输入的字段格式是否规范,例如身份证号码、手机号码等格式进行校验。后端校验主要是通过配置数据库表的校验规则,实现离线校验。现有的数据质量校验方法主要是针对从字段本身合法性做校验,没有考虑业务数据的整体性及数据之间内在的业务逻辑关系,在对数据质量要求高的场景中,难以对监测业务数据进行准确的质量监测。
发明内容
本申请实施例提供了一种监测业务中的数据质量校验方法、设备及介质,用于解决如下技术问题:现有的监测业务数据难以结合业务数据的整体性及数据之间内在的业务逻辑关系,难以满足不同的业务需求,降低了数据质量的可信度。
本申请实施例采用下述技术方案:
一方面,本申请实施例提供了一种监测业务中的数据质量校验方法,包括:通过预设校验参数,对业务数据之间的数据逻辑关系进行规则判断,并根据所述业务数据之间生成的判断逻辑,确定出校验所述业务数据的规则模板;通过所述规则模板中的校验参数,与业务数据类型进行相应的规则匹配,得到与所述业务数据类型对应的规则实施例;根据所述规则实施例,并通过预设分布式任务调度框架,确定出校验执行任务;将所述校验执行任务的任务执行结果进行数据汇总分析,得到所述业务数据的质量校验结果。
本申请实施例通过在监测业务的后端数据质量校验的基础上,融合了数据之间的业务逻辑关系,并构建新的校验规则,可以根据不同的业务场景进行规则的灵活配置。基于分布式任务调度技术构建质量校验任务引擎,保证质量校验任务的高可靠性,同时兼顾了业务数据内在的逻辑关系,从而提高数据质量的可信度,构建能够支持配置规则模板,更能满足不同的实际业务需求场景,再基于分布式任务调度技术,保证了数据质量校验任务执行的高准确性。
在一种可行的实施方式中,在通过预设校验参数,对业务数据之间的数据逻辑关系进行规则判断之前,所述方法还包括:对所述业务数据进行数据源的核验参数定义,得到所述业务数据的数据源参数;将所述业务数据进行字段验证,得到所述业务数据的字段参数;其中,所述字段验证包括:单一字段的验证以及具有逻辑关系关联字段的验证;根据预设比对值,将所述业务数据进行共性关联的判断,确定出所述业务数据的比对参数;其中,所述比对参数用来表示共性关联的比较值;将所述数据源参数、所述字段参数以及所述比对参数进行参数组合,得到所述校验参数;并根据预设SQL定义模板,生成能执行所述校验参数的SQL语法。
本申请实施例通过对SQL语法以及其对应的校验参数提前构建,能够对具体业务领域数据质量的检验提供检验判断的标准,以及有利于构建出规则模板。
在一种可行的实施方式中,通过预设校验参数,对业务数据之间的数据逻辑关系进行规则判断,并根据所述业务数据之间生成的判断逻辑,确定出校验所述业务数据的规则模板,具体包括:根据所述SQL语法以及其对应的校验参数,生成所述业务数据的数据质量校验规则;其中,所述数据质量校验规则为业务数据质量校验的逻辑关系体现;对所述数据质量校验规则进行分类整理,得到不同分类结果的数据质量校验规则;将所述不同分类结果的数据质量校验规则中内在的逻辑关系进行逻辑相似性提炼,得到与所述业务数据统一对应的判断逻辑;将所述判断逻辑进行有关逻辑关系的固定化校验处理,得到可对所述业务数据进行校验的规则模板;其中,所述规则模板包括:单表校验模板以及多表校验模板。
本申请实施例通过构建的规则模板,让不同的业务数据能够使用同一个规则逻辑,通用性更高并且能够让同一个规则逻辑实现复用。
在一种可行的实施方式中,将所述判断逻辑进行有关逻辑关系的固定化校验处理,得到可对所述业务数据进行校验的规则模板,具体包括:若所述判断逻辑为单一表格的逻辑关系,则对所述单一表格的表格类型进行非空校验、格式校验、唯一性校验、值域校验以及对应逻辑关系校验,并生成与所述单一表格的表格类型所对应的单表校验模板;其中,所述非空校验、所述格式校验、所述唯一性校验以及所述值域校验均为字段自身的合规性校验,所述逻辑关系校验为对字段与字段之间的业务逻辑关系进行校验;若所述判断逻辑为多表格的逻辑关系,则对所述多表格进行对表格逻辑关系检验以及表格数据比对;其中,所述多表格逻辑关系校验为对相关联的表格中有业务关系的字段进行逻辑校验;所述表格数据比对为现有数据与历史数据的比对,用来判断所述现有数据的合理性。
本申请实施例通过对不同业务类型的分析,确定出单表校验模板或者多表校验模板,来针对不同的业务数据,使之更加匹配,得到更好的质量校验结果。
在一种可行的实施方式中,通过所述规则模板中的校验参数,与业务数据类型进行相应的规则匹配,得到与所述业务数据类型对应的规则实施例,具体包括:获取所述业务数据类型中数据的检查指标;将所述规则模板中的校验参数与所述检查指标进行规则匹配,得到校验后的规则模板;根据所述校验后的规则模板以及所述检查指标,生成与所述业务数据类型相对应的规则实施例;其中,所述规则实施例为所述规则模板中判断逻辑的具象表达。
在一种可行的实施方式中,根据所述规则实施例,并通过预设分布式任务调度框架的任务节点调度,确定出校验执行任务,具体包括:基于所述分布式任务调度框架以及所述规则实施例,构建任务执行引擎;其中,所述任务执行引擎用来执行所述规则实施例中的数据质量校验;所述任务执行引擎由master节点和worker节点组成;其中,所述master节点为负责整体任务的调度,所述worker节点为负责整体任务的执行;通过所述任务执行引擎中的master节点,将所述规则实施例对应的待执行任务发送到所述worker节点中,以进行所述待执行任务的执行处理,得到所述校验执行任务。
在一种可行的实施方式中,将所述规则实施例对应的待执行任务发送到所述worker节点中,以进行所述待执行任务的执行处理,具体包括:通过预设Reader执行器,将所述待执行任务的数据源与所述worker节点中的spark引擎进行相互连接;其中,所述worker节点由所述spark引擎组成;通过预设SqlExecutor执行器,将所述待执行任务中的校验参数进行SQL语法的构建,并根据构建后的SQL语法,将所述待执行任务中的数据进行数据质量检验处理,得到所述任务执行结果;其中,所述任务执行结果为待执行任务中的异常源数据以及异常指标数据通过预设Writer执行器,将所述任务执行结果存储到对应的存储引擎中;其中,所述spark引擎包括:Reader执行器、SqlExecutor执行器以及Writer执行器。
在一种可行的实施方式中,将所述校验执行任务的任务执行结果进行数据汇总分析,得到所述业务数据的质量校验结果,具体包括:提取存储引擎中所述任务执行结果的异常源数据以及异常指标数据;对所述异常源数据以及异常指标数据进行异常问题的统计分析,得到所述业务数据的质量校验结果;其中,所述质量校验结果包括:质量异常数据、质量异常数据的位置以及质量异常数据的分析结果。
第二方面,本申请实施例还提供了一种监测业务中的数据质量校验设备,所述设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有能够被所述至少一个处理器执行的指令,以使所述至少一个处理器能够执行上述任一实施方式所述的一种监测业务中的数据质量校验方法。
第三方面,本申请实施例还提供了一种非易失性计算机存储介质,其特征在于,所述存储介质为非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有至少一个程序,每个所述程序包括指令,所述指令当被终端执行时,使所述终端执行上述任一实施方式所述的一种监测业务中的数据质量校验方法。
本申请提供了一种监测业务中的数据质量校验方法、设备及介质,通过在监测业务的后端数据质量校验的基础上,融合了数据之间的业务逻辑关系,并构建新的校验规则,可以根据不同的业务场景进行规则的灵活配置。基于分布式任务调度技术构建质量校验任务引擎,保证质量校验任务的高可靠性,同时兼顾了业务数据内在的逻辑关系,从而提高数据质量的可信度,构建能够支持配置规则模板,更能满足不同的实际业务需求场景,再基于分布式任务调度技术,保证了数据质量校验任务执行的高准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本申请实施例提供的一种监测业务中的数据质量校验方法流程图;
图2为本申请实施例提供的一种数据质量校验的整体流程示意图;
图3为本申请实施例提供的一种监测业务中的数据质量校验设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请实施例提供了一种监测业务中的数据质量校验方法,如图1所示,监测业务中的数据质量校验方法具体包括步骤S101-S104:
S101、通过预设校验算法,对监测业务数据之间的数据逻辑关系进行规则判断,并根据业务数据之间生成的判断逻辑,确定出校验业务数据的规则模板。
具体地,对业务数据进行数据源的核验参数定义,得到业务数据的数据源参数。将业务数据进行字段验证,得到业务数据的字段参数。其中,字段验证包括:单一字段的验证以及具有逻辑关系关联字段的验证。
进一步地,根据预设比对值,将业务数据进行共性关联的判断,确定出业务数据的比对参数。其中,比对参数用来表示共性关联的比较值。将数据源参数、字段参数以及比对参数进行参数组合,得到校验参数。并根据预设SQL定义模板,生成能执行校验参数的SQL语法。
作为一种可行的实施方式,规则模板包括规则的SQL模板定义和校验参数定义等信息,SQL定义指定了需要执行的SQL语法,其内含的校验参数定义包括:数据源参数:定义要检查哪些参数;字段参数:定义需要验证的字段或逻辑关联的字段;比对参数:用来作为比较目标的值,比对值可以是固定值,也可以是由定义好的计算逻辑计算出来的值。
进一步地,根据SQL语法以及其对应的校验参数,生成业务数据的数据质量校验规则。其中,数据质量校验规则为业务数据质量校验的逻辑关系体现。
进一步地,对数据质量校验规则进行分类整理,得到不同分类结果的数据质量校验规则。将不同分类结果的数据质量校验规则中内在的逻辑关系进行逻辑相似性提炼,得到与业务数据统一对应的判断逻辑。
进一步地,将判断逻辑进行有关逻辑关系的固定化校验处理,得到可对业务数据进行校验的规则模板。其中,规则模板包括:单表校验模板以及多表校验模板。
在一个实施例中,图2为本申请实施例提供的一种数据质量校验的整体流程示意图,如图2所示,规则模板是对监测业务的具体业务领域数据质量校验规则的抽象,通过对数据质量校验规则进行分类整理,提炼各规则所依赖的相似判断逻辑,得到与业务数据统一一对应且相互统一的判断逻辑,然后将其固化为规则模板,以实现同一个规则逻辑关系达到复用的目的。规则模板包括单表校验模板和多表校验模板。
其中,若判断逻辑为单一表格的逻辑关系,则对单一表格的表格类型进行非空校验、格式校验、唯一性校验、值域校验以及对应逻辑关系校验,并生成与单一表格的表格类型所对应的单表校验模板。其中,非空校验、格式校验、唯一性校验以及值域校验均为对字段自身的合规性校验,逻辑关系校验为对字段与字段之间的业务逻辑关系进行校验。
作为一种可行的实施方式,单表校验模板按照类别可分为非空校验、格式校验、唯一性校验、值域校验和逻辑关系校验。其中非空校验、格式校验、唯一性校验、值域校验对字段自身的合规性进行验证,逻辑关系校验式对字段与字段之间的业务逻辑关系进行校验。
若判断逻辑为多表格的逻辑关系,则对多表格进行对表格逻辑关系检验以及表格数据比对。其中,多表格逻辑关系校验为对相关联的表格中有业务关系的字段进行逻辑校验。表格数据比对为现有数据与历史数据的比对,用来判断现有数据的合理性。
作为一种可行的实施方式,多表校验模板可分为逻辑关系校验和数据比对。其中,逻辑关系校验对相关联的表中有业务关系的字段进行逻辑校验。数据比对主要为现有数据与历史数据进行比对分析,来判断现有数据是否存在合理性问题,例如,在监测业务中,贫困户有工资性收入但无务工人员,两年的年收入数值相同这类问题。
S102、通过规则模板中的校验参数,与业务数据类型进行相应的规则匹配,得到与业务数据类型对应的规则实施例。
具体地,获取业务数据类型中数据的检查指标。将规则模板中的校验参数与检查指标进行规则匹配,得到校验后的规则模板。根据校验后的规则模板以及检查指标,生成与业务数据类型相对应的规则实施例。其中,规则实施例为规则模板中判断逻辑的具象表达。
在一个实施例中,如图2所示,规则实施例是基于规则模板创建的,是规则的具象表达,每一条规则对应一个检查指标。定义规则实施例的时候需要指定模板中与具体业务数据相关的检验参数。
S103、根据规则实施例,并通过预设分布式任务调度框架,确定出校验执行任务。
具体地,基于分布式任务调度框架以及规则实施例,构建任务执行引擎;其中,任务执行引擎用来执行规则实施例中的数据质量校验。任务执行引擎由master节点和worker节点组成。其中,master节点为负责整体任务的调度,worker节点为负责整体任务的执行。
进一步地,通过任务执行引擎中的master节点,将规则实施例对应的待执行任务发送到worker节点中,以进行待执行任务的执行处理,得到校验执行任务。
在一个实施例中,如图2所示,创建好规则实施例后,就可以创建待执行任务。任务执行引擎基于分布式任务调度框架进行构建,包括master节点和worker节点,master节点主要负责整体任务的调度,worker节点负责任务的具体执行,考虑到spark引擎支持连接多种数据源且计算速度快,所以基于spark引擎进行待执行任务的执行,根据整个待执行任务的执行处理过程,便可得到整体的校验执行任务。
其中,通过预设Reader执行器,将待执行任务的数据源与worker节点中的spark引擎进行相互连接;其中,worker节点由spark引擎组成。
进一步地,通过预设SqlExecutor执行器,将待执行任务中的校验参数进行SQL语法的构建,并根据构建后的SQL语法,将待执行任务中的数据进行数据质量检验处理,得到任务执行结果。其中,任务执行结果为待执行任务中的异常源数据以及异常指标数据。
进一步地,通过预设Writer执行器,将任务执行结果存储到对应的存储引擎中。其中,spark引擎包括:Reader执行器、SqlExecutor执行器以及Writer执行器。
作为一种可行的实施方式,Reader执行器用于连接数据源,SqlExecutor执行器通过输入参数构造执行SQL并执行SQL进行数据处理,Writer执行器将处理结果,即任务执行结果,输出到指定的存储引擎中。
S104、将校验执行任务的任务执行结果进行数据汇总分析,得到业务数据的质量校验结果。
具体地,提取存储引擎中任务执行结果的异常源数据以及异常指标数据。对异常源数据以及异常指标数据进行异常问题的统计分析,得到业务数据的质量校验结果。其中,质量校验结果包括:质量异常数据、质量异常数据的位置以及质量异常数据的分析结果。
作为一种可行的实施方式,全部校验任务执行完成后,writer执行器会将有问题的源数据以及异常指标数据输出到存储引擎中,通过对有问题的源数据以及异常指标数据进行汇总、统计,输出最终的结果,即包含质量异常数据、质量异常数据的位置以及其的分析结果的质量校验结果,例如,在农村人员财务收支的监测业务中,贫困户在全年结算时有工资性收入数据但无务工人员外出务工数据,即存在有问题的数据,对于这类存在数据质量的问题,能够根据质量校验结果,将实际的数据与采集的数据之间的差异问题识别出来,从而得到农村人员财务收支的业务数据中问题数据有哪些,进而知道该业务数据的数据质量。
另外,本申请实施例还提供了一种监测业务中的数据质量校验设备,如图3所示,监测业务中的数据质量校验设备300具体包括:
至少一个处理器301;以及,与至少一个处理器301通信连接的存储器302;其中,存储器302存储有能够被至少一个处理器301执行的指令,以使至少一个处理器301能够执行:
通过预设校验算法,对监测业务数据之间的数据逻辑关系进行规则判断,并根据业务数据之间生成的判断逻辑,确定出校验业务数据的规则模板;
通过规则模板中的校验参数,与业务数据类型进行相应的规则匹配,得到与业务数据类型对应的规则实施例;
根据规则实施例,并通过预设分布式任务调度框架,确定出校验执行任务;
将校验执行任务的任务执行结果进行数据汇总分析,得到业务数据的质量校验结果。
本申请实施例提供了一种监测业务中的数据质量校验方法、设备及介质,通过在监测业务的后端数据质量校验的基础上,融合了数据之间的业务逻辑关系,并构建新的校验规则,可以根据不同的业务场景进行规则的灵活配置。基于分布式任务调度技术构建质量校验任务引擎,保证质量校验任务的高可靠性,同时兼顾了业务数据内在的逻辑关系,从而提高数据质量的可信度,构建能够支持配置规则模板,更能满足不同的实际业务需求场景,保证了数据质量校验任务执行的高准确性。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种监测业务中的数据质量校验方法,其特征在于,所述方法包括:
通过预设校验算法,对监测业务数据之间的数据逻辑关系进行规则判断,并根据所述业务数据之间生成的判断逻辑,确定出校验所述业务数据的规则模板;
通过所述规则模板中的校验参数,与业务数据类型进行相应的规则匹配,得到与所述业务数据类型对应的规则实施例;
根据所述规则实施例,并通过预设分布式任务调度框架,确定出校验执行任务;
将所述校验执行任务的任务执行结果进行数据汇总分析,得到所述业务数据的质量校验结果。
2.根据权利要求1所述的一种监测业务中的数据质量校验方法,其特征在于,在通过预设校验算法,对监测业务数据之间的数据逻辑关系进行规则判断之前,所述方法还包括:
对所述业务数据进行数据源的核验参数定义,得到所述业务数据的数据源参数;
将所述业务数据进行字段验证,得到所述业务数据的字段参数;其中,所述字段验证包括:单一字段的验证以及具有逻辑关系关联字段的验证;
根据预设比对值,将所述业务数据进行共性关联的判断,确定出所述业务数据的比对参数;其中,所述比对参数用来表示共性关联的比较值;
将所述数据源参数、所述字段参数以及所述比对参数进行参数组合,得到所述校验参数;并根据预设SQL定义模板,生成能执行所述校验参数的SQL语法。
3.根据权利要求2所述的一种监测业务中的数据质量校验方法,其特征在于,通过预设校验算法,对监测业务数据之间的数据逻辑关系进行规则判断,并根据所述业务数据之间生成的判断逻辑,确定出校验所述业务数据的规则模板,具体包括:
根据所述SQL语法以及其对应的校验参数,生成所述业务数据的数据质量校验规则;其中,所述数据质量校验规则为业务数据质量校验的逻辑关系体现;
对所述数据质量校验规则进行分类整理,得到不同分类结果的数据质量校验规则;
将所述不同分类结果的数据质量校验规则中内在的逻辑关系进行逻辑相似性提炼,得到与所述业务数据统一对应的判断逻辑;
将所述判断逻辑进行有关逻辑关系的固定化校验处理,得到可对所述业务数据进行校验的规则模板;其中,所述规则模板包括:单表校验模板以及多表校验模板。
4.根据权利要求3所述的一种监测业务中的数据质量校验方法,其特征在于,将所述判断逻辑进行有关逻辑关系的固定化校验处理,得到可对所述业务数据进行校验的规则模板,具体包括:
若所述判断逻辑为单一表格的逻辑关系,则对所述单一表格的表格类型进行非空校验、格式校验、唯一性校验、值域校验以及对应逻辑关系校验,并生成与所述单一表格的表格类型所对应的单表校验模板;其中,所述非空校验、所述格式校验、所述唯一性校验以及所述值域校验均为字段自身的合规性校验,所述逻辑关系校验为对字段与字段之间的业务逻辑关系进行校验;
若所述判断逻辑为多表格的逻辑关系,则对所述多表格进行对表格逻辑关系检验以及表格数据比对;其中,所述多表格逻辑关系校验为对相关联的表格中有业务关系的字段进行逻辑校验;所述表格数据比对为现有数据与历史数据的比对,用来判断所述现有数据的合理性。
5.根据权利要求1所述的一种监测业务中的数据质量校验方法,其特征在于,通过所述规则模板中的校验参数,与业务数据类型进行相应的规则匹配,得到与所述业务数据类型对应的规则实施例,具体包括:
获取所述业务数据类型中数据的检查指标;
将所述规则模板中的校验参数与所述检查指标进行规则匹配,得到校验后的规则模板;
根据所述校验后的规则模板以及所述检查指标,生成与所述业务数据类型相对应的规则实施例;其中,所述规则实施例为所述规则模板中判断逻辑的具象表达。
6.根据权利要求1所述的一种监测业务中的数据质量校验方法,其特征在于,根据所述规则实施例,并通过预设分布式任务调度框架,确定出校验执行任务,具体包括:
基于所述分布式任务调度框架以及所述规则实施例,构建任务执行引擎;其中,所述任务执行引擎用来执行所述规则实施例中的数据质量校验;
所述任务执行引擎由master节点和worker节点组成;其中,所述master节点为负责整体任务的调度,所述worker节点为负责整体任务的执行;
通过所述任务执行引擎中的master节点,将所述规则实施例对应的待执行任务发送到所述worker节点中,以进行所述待执行任务的执行处理,得到所述校验执行任务。
7.根据权利要求6所述的一种监测业务中的数据质量校验方法,其特征在于,将所述规则实施例对应的待执行任务发送到所述worker节点中,以进行所述待执行任务的执行处理,具体包括:
通过预设Reader执行器,将所述待执行任务的数据源与所述worker节点中的spark引擎进行相互连接;其中,所述worker节点由所述spark引擎组成;
通过预设SqlExecutor执行器,将所述待执行任务中的校验参数进行SQL语法的构建,并根据构建后的SQL语法,将所述待执行任务中的数据进行数据质量检验处理,得到所述任务执行结果;其中,所述任务执行结果为待执行任务中的异常源数据以及异常指标数据;
通过预设Writer执行器,将所述任务执行结果存储到对应的存储引擎中;
其中,所述spark引擎包括:Reader执行器、SqlExecutor执行器以及Writer执行器。
8.根据权利要求1所述的一种监测业务中的数据质量校验方法,其特征在于,将所述校验执行任务的任务执行结果进行数据汇总分析,得到所述业务数据的质量校验结果,具体包括:
提取存储引擎中所述任务执行结果的异常源数据以及异常指标数据;
对所述异常源数据以及异常指标数据进行异常问题的统计分析,得到所述业务数据的质量校验结果;其中,所述质量校验结果包括:质量异常数据、质量异常数据的位置以及质量异常数据的分析结果。
9.一种监测业务中的数据质量校验设备,其特征在于,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有能够被所述至少一个处理器执行的指令,以使所述至少一个处理器能够执行根据权利要求1-8任一项所述的一种监测业务中的数据质量校验方法。
10.一种非易失性计算机存储介质,其特征在于,所述存储介质为非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有至少一个程序,每个所述程序包括指令,所述指令当被终端执行时,使所述终端执行根据权利要求1-8任一项所述的一种监测业务中的数据质量校验方法。
CN202310036632.2A 2023-01-10 2023-01-10 一种监测业务中的数据质量校验方法、设备及介质 Active CN116303380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310036632.2A CN116303380B (zh) 2023-01-10 2023-01-10 一种监测业务中的数据质量校验方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310036632.2A CN116303380B (zh) 2023-01-10 2023-01-10 一种监测业务中的数据质量校验方法、设备及介质

Publications (2)

Publication Number Publication Date
CN116303380A true CN116303380A (zh) 2023-06-23
CN116303380B CN116303380B (zh) 2024-01-23

Family

ID=86833186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310036632.2A Active CN116303380B (zh) 2023-01-10 2023-01-10 一种监测业务中的数据质量校验方法、设备及介质

Country Status (1)

Country Link
CN (1) CN116303380B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688217A (zh) * 2024-02-02 2024-03-12 北方健康医疗大数据科技有限公司 基于有向图实现数据血缘关系结构的系统、方法及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180150281A1 (en) * 2015-06-05 2018-05-31 Limbus Medical Technologies Gmbh Data quality management system and method
CN111475494A (zh) * 2020-03-05 2020-07-31 苏州浪潮智能科技有限公司 一种海量数据处理方法、系统、终端及存储介质
US20210124752A1 (en) * 2019-10-29 2021-04-29 501Ops, LLC System for Data Collection, Aggregation, Storage, Verification and Analytics with User Interface
CN113128848A (zh) * 2021-04-01 2021-07-16 广州虎牙科技有限公司 全业务指标的数据质量监控方法、电子设备及存储介质
CN114443039A (zh) * 2020-10-30 2022-05-06 中移(苏州)软件技术有限公司 输入参数校验方法、装置、电子设备及存储介质
CN115203339A (zh) * 2022-06-24 2022-10-18 平安银行股份有限公司 多数据源整合方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180150281A1 (en) * 2015-06-05 2018-05-31 Limbus Medical Technologies Gmbh Data quality management system and method
US20210124752A1 (en) * 2019-10-29 2021-04-29 501Ops, LLC System for Data Collection, Aggregation, Storage, Verification and Analytics with User Interface
CN111475494A (zh) * 2020-03-05 2020-07-31 苏州浪潮智能科技有限公司 一种海量数据处理方法、系统、终端及存储介质
CN114443039A (zh) * 2020-10-30 2022-05-06 中移(苏州)软件技术有限公司 输入参数校验方法、装置、电子设备及存储介质
CN113128848A (zh) * 2021-04-01 2021-07-16 广州虎牙科技有限公司 全业务指标的数据质量监控方法、电子设备及存储介质
CN115203339A (zh) * 2022-06-24 2022-10-18 平安银行股份有限公司 多数据源整合方法、装置、计算机设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688217A (zh) * 2024-02-02 2024-03-12 北方健康医疗大数据科技有限公司 基于有向图实现数据血缘关系结构的系统、方法及介质

Also Published As

Publication number Publication date
CN116303380B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN110232056A (zh) 一种结构化查询语言的血缘解析方法及其工具
CN110457294B (zh) 一种数据处理方法和装置
CN112181955B (zh) 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法
CN110909363A (zh) 基于大数据的软件第三方组件漏洞应急响应系统及方法
CN116303380B (zh) 一种监测业务中的数据质量校验方法、设备及介质
CN114880405A (zh) 一种基于数据湖的数据处理方法及系统
CN110287114B (zh) 一种数据库脚本性能测试的方法及装置
CN114070737B (zh) 设备的配置数据的检查方法、装置、存储介质及电子设备
CN115114275A (zh) 一种数据采集方法、设备及介质
CN113791980B (zh) 测试用例的转化分析方法、装置、设备及存储介质
CN115731066A (zh) 一种业务审计平台的数据治理系统及其方法
CN114490413A (zh) 测试数据的准备方法及装置、存储介质和电子设备
CN113297146A (zh) 地方监管报送数据的处理模型及方法
CN116610762B (zh) 一种企业数据资产的管理方法、设备及介质
CN114385698A (zh) 大数据的数据采集方法及执行其的系统
CN118093568A (zh) 一种数据质量的检核方法及装置、电子设备、存储介质
CN117632763A (zh) 测试方法、装置、计算设备及存储介质
CN118071488A (zh) 交易报告的生成方法、装置、计算机存储介质及电子设备
CN116227862A (zh) 一种基于高效的预算项目全流程监管方法和系统
CN115129579A (zh) 基于数据割接的数据稽核方法及装置
CN114461622A (zh) 一种数据质量检验的方法及装置
CN118170638A (zh) 银行测试环境问题分析方法及装置
CN114066170A (zh) 一种面向政府数据开放共享的问题反馈处理系统及方法
CN117272148A (zh) 一种金融个账的风险等级管理方法及系统
CN117391197A (zh) 一种用于符合性判断的规则推理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant