CN116955501A - 一种数据仓库拉链表数据验证方法、装置、设备及介质 - Google Patents

一种数据仓库拉链表数据验证方法、装置、设备及介质 Download PDF

Info

Publication number
CN116955501A
CN116955501A CN202310916040.XA CN202310916040A CN116955501A CN 116955501 A CN116955501 A CN 116955501A CN 202310916040 A CN202310916040 A CN 202310916040A CN 116955501 A CN116955501 A CN 116955501A
Authority
CN
China
Prior art keywords
data
zipper
primary key
check
data table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310916040.XA
Other languages
English (en)
Inventor
杨得力
杨晨
周锋
廖艺
曹闯
孙喜锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Zhongyuan Consumption Finance Co ltd
Original Assignee
Henan Zhongyuan Consumption Finance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Zhongyuan Consumption Finance Co ltd filed Critical Henan Zhongyuan Consumption Finance Co ltd
Priority to CN202310916040.XA priority Critical patent/CN116955501A/zh
Publication of CN116955501A publication Critical patent/CN116955501A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种数据仓库拉链表数据验证方法、装置、设备及存储介质,涉及数据校验技术领域,包括:获取满足预设异常数据判定规则的疑似异常日志数据;所述预设异常数据判定规则为判定拉链表跑批日志中目标数据组的读取记录条数与写入记录条数之间的比值为非正整数的规则;根据所述疑似异常日志数据对应的第一拉链表数据以及预设校验模板信息生成相应的主键重复校验语句;通过trino引擎执行所述主键重复校验语句,若相应的第一校验结果为空,则判定相应拉链表数据校验通过。这样一来,本申请可以通过预设异常数据判定规则对拉链表日志对应的数据进行快速校验,并且trino引擎可以提高校验速度,减少校验时间消耗。

Description

一种数据仓库拉链表数据验证方法、装置、设备及介质
技术领域
本发明涉及数据校验技术领域,特别涉及一种数据仓库拉链表数据验证方法、装置、设备及存储介质。
背景技术
市面上常用的离线数据仓库主要基于开源spark(分布式数据处理引擎)组件进行跑批,随着整个数据仓库数据量越来越大,在凌晨进行拉链表批量跑批时,可能会发生spark shuffle(数据汇集)异常但是作业执行不报错,导致历史层拉链表数据异常,因此必须对跑批完成后拉链表进行数据验证。而目前拉链表数据验证有两个问题:其一是整个数据仓库跑批拉链表全部进行验证耗时太久,无法满足后续应用数据时效;其二是上亿数据拉链表验证,耗时太久且所需资源太多导致严重超时;对应的常用解决方式为:其一,只验证部分关键作业,并在凌晨只验证部分数据;其二,只校验使用到拉链表的核心应用数据,从使用的角度来验证数据是否异常。这样会导致一些问题,第一种方式,能验证的数据表比较有限,可能会存在少验证的那部分表数据异常,导致应用数据异常;因为只验证部分数据,可能会存在出了问题没有验证出来,导致后续数据异常;第二种方式,在应用数据侧做校验,最终结果异常时,由于使用到的拉链表较多,无法快速定位到异常表。
由此可见,如何实现快速实现拉链表数据的校验过程是本领域要解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种数据仓库拉链表数据验证方法、装置、设备及存储介质,可以通过日志数据的读取和写入规律快速对拉链表数据进行校验,可以提高拉链表数据检验效率。其具体方案如下:
第一方面,本申请提供了一种数据仓库拉链表数据验证方法,包括:
获取满足预设异常数据判定规则的疑似异常日志数据;所述预设异常数据判定规则为判定拉链表跑批日志中目标数据组的读取记录条数与写入记录条数之间的比值为非正整数的规则;
根据所述疑似异常日志数据对应的第一拉链表数据以及预设校验模板信息生成相应的主键重复校验语句;
通过trino引擎执行所述主键重复校验语句,若相应的第一校验结果为空,则判定相应拉链表数据校验通过。
可选的,所述获取满足预设异常数据判定规则的疑似异常日志数据,包括:
通过SparkListener监听所述拉链表跑批日志,以获取满足预设异常数据判定规则的疑似异常日志数据。
可选的,所述根据所述疑似异常日志数据对应的第一拉链表数据以及预设校验模板信息生成相应的主键重复校验语句,包括:
确定所述疑似异常日志数据对应的拉链表跑批任务;
根据所述拉链表跑批任务从预设校验模板信息中确定出相应的主键校验模板信息;
基于所述疑似异常日志数据对应的第一拉链表数据以及所述主键校验模板信息生成相应的主键重复校验语句。
可选的,所述方法还包括:
通过预设人机交互接口获取目标历史时间周期;
根据所述目标历史时间周期对数据仓库中的所有拉链表数据进行初始化,以得到第一数据表和第二数据表;所述第一数据表包含当前时间周期之前所述数据仓库中所有所述拉链表数据,所述第二数据表包含所述第一数据表对应的主键数据条数;
统计所述当前时间周期内的拉链表跑批数据,得到当前数据表;
通过trino引擎在所述当前数据表中剔除存在于所述第一数据表中的拉链表数据,得到表征剔除数据后的当前数据表中主键数据条数的第三数据表;
通过所述trino引擎计算下一时间周期之前所述数据仓库中所有拉链表数据,得到表征相应主键数据条数的第四数据表,并对所述第四数据表、所述第三数据表和所述第二数据表之间主键数据条数进行校验,得到第二校验结果;
若所述第二校验结果表征校验通过,则利用所述第三数据表和所述第四数据表分别对所述第一数据表和所述第二数据表进行更新。
可选的,所述对所述第四数据表、所述第三数据表和所述第二数据表之间主键数据条数进行校验,得到第二校验结果,包括:
判断所述第四数据表中的主键数据条数是否等于所述第三数据表和所述第二数据表的主键数据条数之和,以得到第二校验结果。
可选的,所述利用所述第三数据表和所述第四数据表分别对所述第一数据表和所述第二数据表进行更新,包括:
在空闲期间,将所述第三数据表对应的主键数据补充至所述第一数据表,得到新的第一数据表;
将所述第四数据表确定为新的第二数据表,以便在下一时间周期利用新的第一数据表和新的第二数据表进行拉链表数据的校验过程。
可选的,所述方法还包括:
若所述第一校验结果和/或所述第二校验结果表征校验不通过,则触发终止当前拉链表数据跑批脚本的操作。
第二方面,本申请提供了一种数据仓库拉链表数据验证装置,包括:
日志数据获取模块,用于获取满足预设异常数据判定规则的疑似异常日志数据;所述预设异常数据判定规则为判定拉链表跑批日志中目标数据组的读取记录条数与写入记录条数之间的比值为非正整数的规则;
校验语句生成模块,用于根据所述疑似异常日志数据对应的第一拉链表数据以及预设校验模板信息生成相应的主键重复校验语句;
校验语句执行模块,用于通过trino引擎执行所述主键重复校验语句,若相应的第一校验结果为空,则判定相应拉链表数据校验通过。
第三方面,本申请提供了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序以实现如上述的数据仓库拉链表数据验证方法。
第四方面,本申请提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现如上述的数据仓库拉链表数据验证方法。
由此可见,本申请可以获取满足预设异常数据判定规则的疑似异常日志数据;所述预设异常数据判定规则为判定拉链表跑批日志中目标数据组的读取记录条数与写入记录条数之间的比值为非正整数的规则;然后根据所述疑似异常日志数据对应的第一拉链表数据以及预设校验模板信息生成相应的主键重复校验语句;再通过trino引擎执行所述主键重复校验语句,若相应的第一校验结果为空,则判定相应拉链表数据校验通过。这样一来,本申请可以通过预设异常数据判定规则对拉链表日志对应的数据进行快速校验,并且利用trino引擎可以提高校验速度,减少校验时间消耗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种数据仓库拉链表数据验证方法流程图;
图2为本申请公开的一种具体的异常数据判定规则流程图;
图3为本申请公开的一种具体的主键重复校验函数调用流程图;
图4为本申请公开的一种具体的数据仓库拉链表数据验证方法流程图;
图5为本申请公开的另一种具体的数据仓库拉链表数据验证方法流程图;
图6为本申请公开的一种数据仓库拉链表数据验证装置结构示意图;
图7为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1所示,本发明实施例公开了一种数据仓库拉链表数据验证方法,包括:
步骤S11、获取满足预设异常数据判定规则的疑似异常日志数据;所述预设异常数据判定规则为判定拉链表跑批日志中目标数据组的读取记录条数与写入记录条数之间的比值为非正整数的规则。
本申请中,首先可以获取满足预设异常数据判定规则的疑似异常日志数据;在一种具体的实施例中,所述获取满足预设异常数据判定规则的疑似异常日志数据,可以包括:通过SparkListener监听所述拉链表跑批日志,以获取满足预设异常数据判定规则的疑似异常日志数据。具体的,可以通过SparkListener(事件监听接口类)监听拉链表跑批日志,可以实现秒级获取日志,在进行日志事件解析判断是否存在疑似异常日志文件时,也可以在秒级完成,因此可以快速获取疑似存在异常的日志数据。需要指出的是本申请中的预设异常数据判定规则为判定拉链表跑批日志中某个目标数据组的读取记录条数与写入记录条数之间的比值为非正整数的规则;可以理解的是,存在拉链表跑批异常的spark sql(分布式SQL查询)日志中,每当Shuffle Read&Write的信息不呈现某个规律时,有很大的概率拉链表跑批异常。例如,日志中,第i组数据Shuffle Read records(读取记录)为r_i,Shuffle Write records(写入记录)为w_i,判断k_i是否为正整数,其中k_i=r_i/w_i,当k_i不是一个正整数时,则可以推理出第i组Shuffle Read(数据读取)和Shuffle Write(数据写入)所对应的数据可能出现了异常,推理得到拉链表数据可能跑批出现了异常。进一步的,为了保证spark history(日志解析)日志获取完整,当拉链表跑批完成时,在写入完成标志之前,可以调用spark session(Spark SQL的入口)的stop()(终止)函数,终止sparksession,这样可以保证获取到完整的拉链表跑批日志。
在一种具体的实施例中,如图2所示,首先可以基于python语言主动调用jar(一种文件格式)包,传递eventlog(事件日志)目录、application id(程序标识)等参数,然后可以通过SparkListener监听拉链表跑批的日志信息,对日志信息进行解析,可以得到与目标数据组对应的Shuffle Read和Shuffle Write的条数;然后利用Shuffle Read records为r_i,Shuffle Write records为w_i,判断k_i是否为正整数,若k_i为正整数,则说明目标数据组正常,不存在主键重复的异常情况;相应的,若k_i不为正整数,则说明存在数据异常的情况,可以采取相应的应对措施。
步骤S12、根据所述疑似异常日志数据对应的第一拉链表数据以及预设校验模板信息生成相应的主键重复校验语句。
本申请中,通过预设异常数据判定规则得到相应的疑似异常日志数据之后,可以进一步生成相关的校验语句,可以根据疑似异常日志数据对应的第一拉链表数据以及预设校验模板信息生成相应的主键重复校验语句。在具体的实施例中,所述根据所述疑似异常日志数据对应的第一拉链表数据以及预设校验模板信息生成相应的主键重复校验语句,可以包括:确定所述疑似异常日志数据对应的拉链表跑批任务;根据所述拉链表跑批任务从预设校验模板信息中确定出相应的主键校验模板信息;基于所述疑似异常日志数据对应的第一拉链表数据以及所述主键校验模板信息生成相应的主键重复校验语句。具体的,可以首先确定与疑似异常日志数据对应的拉链表跑批任务,可以理解的是,拉链表分区日期对应的是相应的跑批日期,对应拉链表跑批任务;然后可以从预设校验模板信息中确定出相应的主键校验模板信息,再基于第一拉链表数据以及相应的主键校验模板信息生成主键重复校验语句。
步骤S13、通过trino引擎执行所述主键重复校验语句,若相应的第一校验结果为空,则判定相应拉链表数据校验通过。
本申请中,得到与疑似异常日志数据对应的第一拉链表数据以及相应的主键重复校验语句之后,可以通过trino(一种查询引擎)引擎执行主键重复校验语句;可以理解的是,trino引擎相比于spark引擎有着更快的速度。这样可以得到相应的第一校验结果;需要指出的是,若第一校验结果为空,则表明不存在主键重复的情况,则对应的第一拉链表数据校验通过,不存在数据异常。
在一种具体的实施例中,如图3所示,调用主键重复校验函数的步骤中,获取校验规则(预设校验模板信息),再根据疑似异常日志数据对应的第一拉链表数据组装得到针对第一拉链表数据的主键重复校验语句(SQL,结构化查询语言);之后可以通过trino引擎执行主键重复校验语句,得到第一校验结果,若结果为空,表征不存在主键重复的数据,说明第一拉链表数据不存在异常,校验通过;相应的,若第一校验结果不为空,说明存在主键重复的数据,则第一拉链表数据存在异常,校验不通过。
由此可见,本申请可以利用拉链表数据跑批日志中的规律对相关拉链表数据进行快速判断,得到疑似异常的拉链表数据,然后再生成相关的校验语句,可以通过trino引擎快速执行,并根据校验语句执行结果确定相关拉链表数据是否存在异常。这样一来,本申请可以根据预设异常数据判定规则以及拉链表跑批日志对数据仓库中全部拉链表数据进行数据异常校验,可以减少全部拉链表进行数据校验的时间消耗,提高了效率。
上述实施例中介绍了可以通过拉链表跑批日志的一些规律对数据仓库中的拉链表数据进行数据异常校验,可以提高校验速度;下面实施例将具体介绍为进一步保证拉链表数据校验结果的准确性,对拉链表数据进行精准增量条数的校验过程,参见图4所示,本发明实施例公开了一种数据仓库拉链表数据验证方法,包括:
步骤S21、通过预设人机交互接口获取目标历史时间周期。
本申请实施例中,首先通过预设人机交互接口获取目标历史时间周期;需要指出的是,该目标历史时间周期可以是一个日期,在该日期之前保存在数据仓库中的拉链表数据为历史时间周期对应的数据。例如,数据仓库数据增量计算通常是被调整为在凌晨进行,因此,可以把从增量计算之后到下一次增量计算结束的时间段看作一个时间周期。
步骤S22、根据所述目标历史时间周期对数据仓库中的所有拉链表数据进行初始化,以得到第一数据表和第二数据表;所述第一数据表包含当前时间周期之前所述数据仓库中所有所述拉链表数据,所述第二数据表包含所述第一数据表对应的主键数据条数。
本申请中,通过预设人机交互接口获得目标历史时间周期后,可以根据该目标历史时间周期对数据仓库中的所有拉链表数据进行初始化,得到第一数据表和第二数据表。其中,第一数据表为包含当前时间周期(目标历史时间周期)之前数据仓库中所有拉链表数据,而第二数据表为表征目标历史时间周期之前数据仓库中所有拉链表数据对应的主键数据条数。例如,目标历史时间周期为11月25日;这种情况下,第一拉链表中的数据为11月26之前数据仓库中的所有拉链表主键数据;相应的,第二拉链表中数据表征11月25之前数据仓库中所有的拉链表主键数据的条数,记录的是主键数据条数。
步骤S23、统计所述当前时间周期内的拉链表跑批数据,得到当前数据表。
进一步的,根据目标历史时间周期对数据仓库中的拉链表数据进行初始化,先将该目标历史时间周期看作当前时间周期,再统计当前时间周期内的拉链表跑批数据,可以得到当前时间周期对应的当前数据表;可以理解的是,当前数据表仅包含当前时间周期内跑批的拉链表数据。
步骤S24、通过trino引擎在所述当前数据表中剔除存在于所述第一数据表中的拉链表数据,得到表征剔除数据后的当前数据表中主键数据条数的第三数据表。
可以理解的是,当前时间周期的跑批数据是有可能与数据仓库中已保存的数据出现重复的,包括新增数据和更新的数据。因此,本申请可以通过trino引擎在当前数据表中剔除掉已经存在于第一数据表中的拉链表数据,这样剔除后可以得到相应的剔除后数据表,然后可以得到表征剔除后数据表中主键数据条数的第三数据表。
步骤S25、通过所述trino引擎计算当前时间周期所述数据仓库中所有拉链表数据,得到表征相应主键数据条数的第四数据表,并对所述第四数据表、所述第三数据表和所述第二数据表之间主键数据条数进行校验,得到第二校验结果。
本申请实施例中,通过前述步骤可以利用表征当前时间周期之前数据仓库中拉链表主键数据条数的第二数据表和表征当前时间周期的增量的主键数据条数的第三数据表得到下一个时间周期之前数据仓库中所有拉链表主键数据条数。进一步的,本申请可以通过trino引擎计算下一个时间周期之前数据仓库中的拉链表主键数据条数,得到第四数据表;通过比较第四数据表和第三数据表、第二数据表之间的关系可以判断数据仓库中的拉链表数据是否存在异常。具体的,可以校验第四数据表与第三数据表、第二数据表之间的主键数据条数来判断是否存在异常数据(主键重复或丢失等情况),这样可以得到针对主键条数的第二校验结果。
在一种具体的实施例中,所述对所述第四数据表、所述第三数据表和所述第二数据表之间主键数据条数进行校验,得到第二校验结果,可以包括:判断所述第四数据表中的主键数据条数是否等于所述第三数据表和所述第二数据表的主键数据条数之和,以得到第二校验结果。具体的,可以判断第三数据表与第二数据表中所有主键数据条数的总和与第四数据表中主键数据条数之间是否相等,以得到第二校验结果。需要指出的是,若通过前述两种方式得到的主键数据条数相等,则说明拉链表数据不存在异常;相应的,若两者主键数据条数不相等,则说明数据仓库中拉链表数据存在主键重复或丢失等异常情况。
步骤S26、若所述第二校验结果表征校验通过,则利用所述第三数据表和所述第四数据表分别对所述第一数据表和所述第二数据表进行更新。
本申请实施例中,若第二校验结果表征校验通过,则数据仓库中的拉链表数据不存在异常,可以对相关的数据表进行更新,具体可以利用第三数据表和第四数据表分别对第一数据表和所第二数据表进行更新。在一种具体的实施例中,所述利用所述第三数据表和所述第四数据表分别对所述第一数据表和所述第二数据表进行更新,可以包括:在空闲期间,将所述第三数据表中对应的主键数据补充至所述第一数据表,得到新的第一数据表;将所述第四数据表确定为新的第二数据表,以便在下一时间周期利用新的第一数据表和新的第二数据表进行拉链表数据的校验过程。具体的,可以在空闲时间,比如凌晨跑批结束后,或者在白天资源空闲的时候,将第三数据表对应的拉链表主键数据补充至第一数据表,得到新的第一数据表,并直接将第四数据表确定为新的第二数据表;这样一来,在接下来的时间周期中,可以利用新的第一数据表和新的第二数据表完成相应拉链表数据的校验过程。
在一种具体的实施例中,得到第一校验结果和第二校验结果之后,还可以包括:若所述第一校验结果和/或所述第二校验结果表征校验不通过,则触发终止当前拉链表数据跑批脚本的操作。具体的,若第一校验结果与第二校验结果中有任意一个或者两个都表征数据校验不通过,则说明相应的拉链表跑批任务出现数据异常,应该立刻停止任务,由工作人员接手处理;本申请可以及时触发终止当前拉链表数据跑批脚本的操作,不再写入作业完成依赖标识。相应的,若第一校验结果和第二校验结果均表征数据校验通过,则可以更新相关数据表,并进入下一个时间周期,进行下一轮次的拉链表数据校验过程。
在一种具体的实施例中,如图5所示,确定目标历史时间周期之后,需要对数据仓库中的拉链表数据进行初始化,具体初始设置为将拉链表的在目标历史时间周期之前的有效分区主键数据记为key_tab表(第一数据表),将当前时间周期(目标历史时间周期)之前的有效数据主键条数记为yes_cnt表(第二数据表)。然后可以在凌晨进行精准增量条数校验过程,具体的,可以计算表征当前时间周期新增拉链表主键数据条数的day_cnt(第三数据表),获取yes_cnt,并计算下个时间周期之前所有拉链表主键数据条数valid_cnt(第四数据表);然后再根据公式:result=if(valid_cnt=day_cnt+yes_cnt,1,0)对主键数据条数进行校验;可以理解的是,当result为1时,第四数据表中的主键条数等于第三数据表与第二数据表中主键条数之和,校验通过;当result为0时,说明出现了数据主键重复或丢失的情况,校验不通过。在校验结束时,可以在白天空闲时间将新增主键数据补充至数据仓库的分区,以更新有效分区主键条数,以便进行下一个轮次的数据校验过程。
由此可见,本申请实施例中,可以从指定的目标历史时间周期开始,通过拉链表数据的增量统计的过程和trino引擎计算的过程判断拉链表数据是否存在主键条数的异常情况。这样一来,本申请可以在通过预设异常数据判定规则对拉链表数据进行快速校验的基础上,再结合针对增量数据的主键条数校验过程,可以得到更为精确的拉链表数据校验结果。
如图6所示,本申请实施例公开了一种数据仓库拉链表数据验证装置,包括:
日志数据获取模块11,用于获取满足预设异常数据判定规则的疑似异常日志数据;所述预设异常数据判定规则为判定拉链表跑批日志中目标数据组的读取记录条数与写入记录条数之间的比值为非正整数的规则;
校验语句生成模块12,用于根据所述疑似异常日志数据对应的第一拉链表数据以及预设校验模板信息生成相应的主键重复校验语句;
校验语句执行模块13,用于通过trino引擎执行所述主键重复校验语句,若相应的第一校验结果为空,则判定相应拉链表数据校验通过。
由此可见,本申请可以通过预设异常数据判定规则对拉链表日志对应的数据进行快速校验,并且利用trino引擎可以提高校验速度,减少校验时间消耗。
在一种具体的实施例中,所述日志数据获取模块11,可以包括:
日志数据获取单元,用于通过SparkListener监听所述拉链表跑批日志,以获取满足预设异常数据判定规则的疑似异常日志数据。
在一种具体的实施例中,所述校验语句生成模块12,可以包括:
任务确定单元,用于确定所述疑似异常日志数据对应的拉链表跑批任务;
校验模板确定单元,用于根据所述拉链表跑批任务从预设校验模板信息中确定出相应的主键校验模板信息;
校验语句生成单元,用于基于所述疑似异常日志数据对应的第一拉链表数据以及所述主键校验模板信息生成相应的主键重复校验语句。
在一种具体的实施例中,所述装置还可以包括:
时间周期获取单元,用于通过预设人机交互接口获取目标历史时间周期;
数据表初始化单元,用于根据所述目标历史时间周期对数据仓库中的所有拉链表数据进行初始化,以得到第一数据表和第二数据表;所述第一数据表包含当前时间周期之前所述数据仓库中所有所述拉链表数据,所述第二数据表包含所述第一数据表对应的主键数据条数;
跑批数据统计单元,用于统计所述当前时间周期内的拉链表跑批数据,得到当前数据表;
数据剔除单元,用于通过trino引擎在所述当前数据表中剔除存在于所述第一数据表中的拉链表数据,得到表征剔除数据后的当前数据表中主键数据条数的第三数据表;
数据表计算单元,用于通过所述trino引擎计算当前时间周期所述数据仓库中所有拉链表数据,得到表征相应主键数据条数的第四数据表;
主键条数校验子模块,用于对所述第四数据表、所述第三数据表和所述第二数据表之间主键数据条数进行校验,得到第二校验结果;
数据表更新子模块,用于当所述第二校验结果表征校验通过,利用所述第三数据表和所述第四数据表分别对所述第一数据表和所述第二数据表进行更新。
在另一种具体的实施例中,所述主键条数校验子模块,可以包括:
主键条数校验单元,用于判断所述第四数据表中的主键数据条数是否等于所述第三数据表和所述第二数据表的主键数据条数之和,以得到第二校验结果。
在又一种具体的实施例中,所述数据表更新子模块,可以包括:
第一数据表更新单元,用于在空闲期间,将所述第三数据表对应的主键数据补充至所述第一数据表,得到新的第一数据表;
第二数据表更新单元,用于将所述第四数据表确定为新的第二数据表,以便在下一时间周期利用新的第一数据表和新的第二数据表进行拉链表数据的校验过程。
在一种具体的实施例中,所述装置还可以包括:
跑批脚本终止单元,用于所述第一校验结果和/或所述第二校验结果表征校验不通过,则触发终止当前拉链表数据跑批脚本的操作。
进一步的,本申请实施例还公开了一种电子设备,图7是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图7为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的数据仓库拉链表数据验证方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的数据仓库拉链表数据验证方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的数据仓库拉链表数据验证方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种数据仓库拉链表数据验证方法,其特征在于,包括:
获取满足预设异常数据判定规则的疑似异常日志数据;所述预设异常数据判定规则为判定拉链表跑批日志中目标数据组的读取记录条数与写入记录条数之间的比值为非正整数的规则;
根据所述疑似异常日志数据对应的第一拉链表数据以及预设校验模板信息生成相应的主键重复校验语句;
通过trino引擎执行所述主键重复校验语句,若相应的第一校验结果为空,则判定相应拉链表数据校验通过。
2.根据权利要求1所述的数据仓库拉链表数据验证方法,其特征在于,所述获取满足预设异常数据判定规则的疑似异常日志数据,包括:
通过SparkListener监听所述拉链表跑批日志,以获取满足预设异常数据判定规则的疑似异常日志数据。
3.根据权利要求1所述的数据仓库拉链表数据验证方法,其特征在于,所述根据所述疑似异常日志数据对应的第一拉链表数据以及预设校验模板信息生成相应的主键重复校验语句,包括:
确定所述疑似异常日志数据对应的拉链表跑批任务;
根据所述拉链表跑批任务从预设校验模板信息中确定出相应的主键校验模板信息;
基于所述疑似异常日志数据对应的第一拉链表数据以及所述主键校验模板信息生成相应的主键重复校验语句。
4.根据权利要求1至3任一项所述的数据仓库拉链表数据验证方法,其特征在于,还包括:
通过预设人机交互接口获取目标历史时间周期;
根据所述目标历史时间周期对数据仓库中的所有拉链表数据进行初始化,以得到第一数据表和第二数据表;所述第一数据表包含当前时间周期之前所述数据仓库中所有所述拉链表数据,所述第二数据表包含所述第一数据表对应的主键数据条数;
统计所述当前时间周期内的拉链表跑批数据,得到当前数据表;
通过trino引擎在所述当前数据表中剔除存在于所述第一数据表中的拉链表数据,得到表征剔除数据后的当前数据表中主键数据条数的第三数据表;
通过所述trino引擎计算当前时间周期所述数据仓库中所有拉链表数据,得到表征相应主键数据条数的第四数据表,并对所述第四数据表、所述第三数据表和所述第二数据表之间主键数据条数进行校验,得到第二校验结果;
若所述第二校验结果表征校验通过,则利用所述第三数据表和所述第四数据表分别对所述第一数据表和所述第二数据表进行更新。
5.根据权利要求4所述的数据仓库拉链表数据验证方法,其特征在于,所述对所述第四数据表、所述第三数据表和所述第二数据表之间主键数据条数进行校验,得到第二校验结果,包括:
判断所述第四数据表中的主键数据条数是否等于所述第三数据表和所述第二数据表的主键数据条数之和,以得到第二校验结果。
6.根据权利要求4所述的数据仓库拉链表数据验证方法,其特征在于,所述利用所述第三数据表和所述第四数据表分别对所述第一数据表和所述第二数据表进行更新,包括:
在空闲期间,将所述第三数据表对应的主键数据补充至所述第一数据表,得到新的第一数据表;
将所述第四数据表确定为新的第二数据表,以便在下一时间周期利用新的第一数据表和新的第二数据表进行拉链表数据的校验过程。
7.根据权利要求4所述的数据仓库拉链表数据验证方法,其特征在于,还包括:
若所述第一校验结果和/或所述第二校验结果表征校验不通过,则触发终止当前拉链表数据跑批脚本的操作。
8.一种数据仓库拉链表数据验证装置,其特征在于,包括:
日志数据获取模块,用于获取满足预设异常数据判定规则的疑似异常日志数据;所述预设异常数据判定规则为判定拉链表跑批日志中目标数据组的读取记录条数与写入记录条数之间的比值为非正整数的规则;
校验语句生成模块,用于根据所述疑似异常日志数据对应的第一拉链表数据以及预设校验模板信息生成相应的主键重复校验语句;
校验语句执行模块,用于通过trino引擎执行所述主键重复校验语句,若相应的第一校验结果为空,则判定相应拉链表数据校验通过。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至7任一项所述的数据仓库拉链表数据验证方法。
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据仓库拉链表数据验证方法。
CN202310916040.XA 2023-07-21 2023-07-21 一种数据仓库拉链表数据验证方法、装置、设备及介质 Pending CN116955501A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310916040.XA CN116955501A (zh) 2023-07-21 2023-07-21 一种数据仓库拉链表数据验证方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310916040.XA CN116955501A (zh) 2023-07-21 2023-07-21 一种数据仓库拉链表数据验证方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116955501A true CN116955501A (zh) 2023-10-27

Family

ID=88444126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310916040.XA Pending CN116955501A (zh) 2023-07-21 2023-07-21 一种数据仓库拉链表数据验证方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116955501A (zh)

Similar Documents

Publication Publication Date Title
CN110287052B (zh) 一种异常任务的根因任务确定方法及装置
CN109299150B (zh) 一种可配置多数据源适配规则引擎解决方法
CN112613993B (zh) 交易数据处理方法、装置、计算机设备和存储介质
CN116560896B (zh) 一种异常补偿方法、装置、设备及存储介质
CN114706734A (zh) 业务应用的监控方法和监控系统
CN103440460A (zh) 一种应用系统变更验证方法及验证系统
EP1978465A1 (en) Unauthorized access monitor program, unauthorized monitor method, and unauthorized monitor system
CN109284331A (zh) 基于业务数据资源的制证信息获取方法、终端设备及介质
CN116955501A (zh) 一种数据仓库拉链表数据验证方法、装置、设备及介质
US20110246954A1 (en) Method and apparatus for analyzing fault behavior
CN110442466B (zh) 防止请求重复访问方法、装置、计算机设备及存储介质
CN110232069B (zh) 一种基于大数据的客户信息智能化录入方法和装置
CN109255238B (zh) 终端威胁检测与响应方法及引擎
CN116523661A (zh) 基于人工智能的理赔方法、装置、设备及存储介质
CN110347572A (zh) 一种性能日志输出方法、装置、系统、设备及介质
CN110689429B (zh) 一种存证交易数据的方法、装置及系统
CN114185854A (zh) 一种SaaS系统的离线记费方法及系统
CN113901153A (zh) 数据处理方法及相关设备
CN110515796B (zh) 一种基于皮质学习的异常检测方法、装置及终端设备
CN113986937A (zh) 一种客户端数据更新的方法、系统和介质
Arts et al. Applying rewriting techniques to the verification of Erlang processes
CN113805565B (zh) 一种计数器控制方法、装置、车辆及存储介质
CN114609985B (zh) 一种ems系统的控制方法、装置、介质及设备
CN111882310B (zh) 一种数据对比方法、装置、设备及计算机可读存储介质
CN114238055A (zh) 任务数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination