CN112328546B - 一种基于数据中台的增量数据核查方法 - Google Patents

一种基于数据中台的增量数据核查方法 Download PDF

Info

Publication number
CN112328546B
CN112328546B CN202011227556.6A CN202011227556A CN112328546B CN 112328546 B CN112328546 B CN 112328546B CN 202011227556 A CN202011227556 A CN 202011227556A CN 112328546 B CN112328546 B CN 112328546B
Authority
CN
China
Prior art keywords
data
checking
incremental
file
ogg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011227556.6A
Other languages
English (en)
Other versions
CN112328546A (zh
Inventor
顾峰
陈超
徐晓龙
应祚余
李亚国
骆明
李成龙
王梦黎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Mingsheng Hengzhuo Technology Co ltd
Original Assignee
Anhui Mingsheng Hengzhuo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Mingsheng Hengzhuo Technology Co ltd filed Critical Anhui Mingsheng Hengzhuo Technology Co ltd
Priority to CN202011227556.6A priority Critical patent/CN112328546B/zh
Publication of CN112328546A publication Critical patent/CN112328546A/zh
Application granted granted Critical
Publication of CN112328546B publication Critical patent/CN112328546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于数据中台的增量数据核查方法,具体包括如下步骤:步骤一:通过调研使用OGG提供的logdump工具来解析指定的trail文件,查询出文件中包含的所有表的增量数据信息;步骤二:将步骤一中查询到的数据信息进行汇总,写入日志文件中;步骤三:定时执行通过Linux系统提供的cron调度实现,设置每天凌晨12点30分;本发明涉及数据中台接入业务技术领域。该基于数据中台的增量数据核查方法,该基于数据中台的增量数据核查方法,通过与源端表记录数和中台贴源层全量表记录数的核查结果比较,保证了通过OGGtrail文件中解析出来的日增量数据是真实有效的,较之之前的核查源端表数据量与中台贴源层全量表的数据量方式。

Description

一种基于数据中台的增量数据核查方法
技术领域
本发明涉及数据中台接入业务技术领域,具体为一种基于数据中台的增量数据核查方法。
背景技术
数据中台接入业务系统数据通过两种方式:第一种:DataWorks数据集成,每天定时调度全量同步一次源库数据;第二种:OGG+DataHub增量方式,源端将增量数据通过OGG投递到目标端,目标端OGG将增量数据写入Datahub再同步至MaxCompute贴源层增量表中,最后通过每天的增量合并将增量数据合并到全量表中。
数据集成因为是每天同步源库全表数据,只需要关注调度任务是否运行正常即可,不需要额外核查数据量是否一致。而增量路线存在多处可能导致数据丢失的地方,如源端投递进程异常或延时、目标端抽取进程异常或延时、Datahub数据同步异常或延时,所以需要核查贴源层通过增量方式接入数据的全量表与源端的表数据量是否一致。
现阶段的核查方式主要是核对源端表记录数与中台贴源表的记录数,需要耗费人力每天查询源端的数据量和中台贴源表的数据量,这种做法主要有以下两点弊端:需要在源端进行多次count查询,占用源端数据库资源;需要耗费大量时间来执行两端的查询工作;因此想通过新的方案来降低对源端的影响以及减少人力的消耗,提升核查工作的效率。
据过往经验,增量链路的数据丢失一般发生在DataHub的数据同步环节,同步的延时会导致增量数据未能准点写入中台贴源层的分区表中,错过了增量合并执行时间,延时的增量数据就会丢失。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于数据中台的增量数据核查方法,解决了需要在源端进行多次count查询,占用源端数据库资源,且需要耗费大量时间来执行两端的查询工作的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种基于数据中台的增量数据核查方法,具体包括如下步骤:
步骤一:通过调研使用OGG提供的logdump工具来解析指定的trail文件,查询出文件中包含的所有表的增量数据信息;
步骤二:将步骤一中查询到的数据信息进行汇总,写入日志文件中;
步骤三:定时执行通过Linux系统提供的cron调度实现,设置每天凌晨12点30分;
步骤四:定时查询中台贴源层增量表T-1分区的数据量信息,依托于DataWorks的节点调度实现,设置凌晨12点30分与4点两个时间,第一次的结果与OGG日增量比对可以判断数据同步是否存在延时,第二次的结果与第一次比对可以判断是否需要进行补数据。
优选的,自动化OGG增量数据核查脚本最终会把OGG的trail文件解析后,将OGG日增量数据核查结果上传到中台的分区表中,以便日后对数据进行常态化核查。
优选的,自动化dhub增量数据核查脚本最终会把增量表日增量数据结果保存到中台的分区表中,以便日后对数据进行常态化核查。
(三)有益效果
本发明提供了一种基于数据中台的增量数据核查方法。具备以下有益效果:该基于数据中台的增量数据核查方法,通过与源端表记录数和中台贴源层全量表记录数的核查结果比较,保证了通过OGGtrail文件中解析出来的日增量数据是真实有效的,较之之前的核查源端表数据量与中台贴源层全量表的数据量方式,新的方案不需要占用源库资源,只需要在目标端进行trail的解析即可,避免了对源端的影响,每天核查任务的定时执行,只需要每天进行人工比对下查询结果,就能够得出增量链路中是否存在延时情况,减轻了人力、时间的投入,提升了工作效率,同时也减少了人为失误的干扰。
附图说明
图1为本发明系统构架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图,本发明实施例提供一种技术方案:一种基于数据中台的增量数据核查方法,具体包括如下步骤:
使用时,步骤一:通过调研使用OGG提供的logdump工具来解析指定的trail文件,查询出文件中包含的所有表的增量数据信息;
步骤二:将步骤一中查询到的数据信息进行汇总,写入日志文件中;
步骤三:定时执行通过Linux系统提供的cron调度实现,设置每天凌晨12点30分;
步骤四:定时查询中台贴源层增量表T-1分区的数据量信息,依托于DataWorks的节点调度实现,设置凌晨12点30分与4点两个时间,第一次的结果与OGG日增量比对可以判断数据同步是否存在延时,第二次的结果与第一次比对可以判断是否需要进行补数据。
自动化OGG增量数据核查脚本最终会把OGG的trail文件解析后,将OGG日增量数据核查结果上传到中台的分区表中,以便日后对数据进行常态化核查。
自动化dhub增量数据核查脚本最终会把增量表日增量数据结果保存到中台的分区表中,以便日后对数据进行常态化核查。
一、(1)、创建脚本部署目录;
(2)、修改配置文件;
修改配置文件conf.ini;
(3)、修改脚本部分参数;
、设置定时任务;
利用OGG自带的定时器,利用shell脚本作为,程序启动的执行入口。
设置开始解析trail文件的定时任务。
二、dhub增量数据核查脚本
将data_check.py中的代码,部署到dataworks的PYODPS中,设置定时调度任务,即可统计增量表数据,并保存到check_data_result表中。
核查结果展示。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.一种基于数据中台的增量数据核查方法,其特征在于:具体包括如下步骤:
步骤一:通过调研使用OGG提供的logdump工具来解析指定的trail文件,查询出文件中包含的所有表的增量数据信息;
步骤二:将步骤一中查询到的数据信息进行汇总,写入日志文件中;
步骤三:定时执行通过Linux系统提供的cron调度实现,设置每天凌晨12点30分;
步骤四:定时查询中台贴源层增量表T-1分区的数据量信息,依托于DataWorks的节点调度实现,设置凌晨12点30分与4点两个时间,第一次的结果与OGG日增量比对可以判断数据同步是否存在延时,第二次的结果与第一次比对可以判断是否需要进行补数据。
2.根据权利要求1所述的一种基于数据中台的增量数据核查方法,其特征在于:自动化OGG增量数据核查脚本最终会把OGG的trail文件解析后,将OGG日增量数据核查结果上传到中台的分区表中,以便日后对数据进行常态化核查。
3.根据权利要求1所述的一种基于数据中台的增量数据核查方法,其特征在于:自动化dhub增量数据核查脚本最终会把增量表日增量数据结果保存到中台的分区表中,以便日后对数据进行常态化核查。
CN202011227556.6A 2020-11-06 2020-11-06 一种基于数据中台的增量数据核查方法 Active CN112328546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011227556.6A CN112328546B (zh) 2020-11-06 2020-11-06 一种基于数据中台的增量数据核查方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011227556.6A CN112328546B (zh) 2020-11-06 2020-11-06 一种基于数据中台的增量数据核查方法

Publications (2)

Publication Number Publication Date
CN112328546A CN112328546A (zh) 2021-02-05
CN112328546B true CN112328546B (zh) 2022-09-06

Family

ID=74316101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011227556.6A Active CN112328546B (zh) 2020-11-06 2020-11-06 一种基于数据中台的增量数据核查方法

Country Status (1)

Country Link
CN (1) CN112328546B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961546B (zh) * 2021-10-27 2024-03-22 国网江苏省电力有限公司营销服务中心 一种支持在线分析统计的实时查询库设计方法
CN116361389B (zh) * 2023-03-17 2024-03-08 国网江苏省电力有限公司营销服务中心 一种基于国网营销采集系统的数据同步链路方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474695B1 (en) * 2016-12-20 2019-11-12 Gravic, Inc. Method for replacing a currently operating data replication engine with a new data replication engine without application downtime and while preserving target database consistency
CN111597257A (zh) * 2020-05-09 2020-08-28 远光软件股份有限公司 数据库的同步方法、装置、存储介质及终端

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573056A (zh) * 2015-01-22 2015-04-29 浪潮电子信息产业股份有限公司 一种基于oracle数据库大数据量在线迁移的方法
CN106126753B (zh) * 2016-08-23 2019-03-05 易联众信息技术股份有限公司 基于大数据的增量抽取的方法
CN107562883B (zh) * 2017-09-04 2018-10-26 马上消费金融股份有限公司 一种数据同步的方法及系统
CN107609188B (zh) * 2017-10-09 2020-08-11 上海新炬网络信息技术股份有限公司 基于GoldenGate的数据同步校验方法
CN109800269A (zh) * 2018-12-13 2019-05-24 中国平安财产保险股份有限公司 数据管理方法、装置、计算机设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474695B1 (en) * 2016-12-20 2019-11-12 Gravic, Inc. Method for replacing a currently operating data replication engine with a new data replication engine without application downtime and while preserving target database consistency
CN111597257A (zh) * 2020-05-09 2020-08-28 远光软件股份有限公司 数据库的同步方法、装置、存储介质及终端

Also Published As

Publication number Publication date
CN112328546A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112328546B (zh) 一种基于数据中台的增量数据核查方法
CN112000737B (zh) 基于多云管理的数据同步方法、系统、终端及存储介质
CN109918349B (zh) 日志处理方法、装置、存储介质和电子装置
CN101969386A (zh) 一种日志采集装置和日志采集方法
CN102117303A (zh) 一种专利数据分析方法和系统
CN110990432A (zh) 一种跨机房同步分布式缓存集群的装置和方法
CN110442651A (zh) 一种基于kettle实现excel数据自动上传并触发调度的方法
CN113242159B (zh) 应用访问关系确定方法及装置
CN103399289B (zh) 一种用于用电信息采集系统的自动化测试方法
CN114266235A (zh) 数据的处理方法及装置、存储介质、电子装置
CN112966025B (zh) 一种binlog日志挖掘字典实现方法
CN111782618B (zh) 一种数据同步系统
CN109710517A (zh) 基于自动化测试工具的集成测试方法、装置和计算机设备
CN112527564A (zh) 数据库的数据恢复演练方法、装置及存储介质
CN113157676A (zh) 一种数据质量管理方法、系统、装置及存储介质
CN108900497B (zh) 一种异构系统间的数据同步方法及系统
CN115168312A (zh) 基于交易日志重放的压力测试方法及装置
CN115757427A (zh) 一种航天器测试数据的存储方法和软件
CN111240981A (zh) 一种接口测试方法、系统及平台
CN111552639A (zh) 一种软件测试综合控制方法及系统
CN110245148A (zh) 一种数据存储方法、装置、系统及介质
CN116991691A (zh) 数据库测试方法、装置、电子设备及可读存储介质
CN109756570A (zh) 一种实现定制pypi镜像服务器的方法及电子设备
CN116303061A (zh) 数据测试方法、装置及非易失性存储介质
CN114926099A (zh) 电网调度ems数据的自动补缺方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant