CN113918636B - 一种基于etl的数据处理量分析方法 - Google Patents

一种基于etl的数据处理量分析方法 Download PDF

Info

Publication number
CN113918636B
CN113918636B CN202111229500.9A CN202111229500A CN113918636B CN 113918636 B CN113918636 B CN 113918636B CN 202111229500 A CN202111229500 A CN 202111229500A CN 113918636 B CN113918636 B CN 113918636B
Authority
CN
China
Prior art keywords
data
task
analysis
etl
processing amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111229500.9A
Other languages
English (en)
Other versions
CN113918636A (zh
Inventor
鞠佳
周钰
孔宁江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinaccs Information Industry Co ltd
Original Assignee
Chinaccs Information Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinaccs Information Industry Co ltd filed Critical Chinaccs Information Industry Co ltd
Priority to CN202111229500.9A priority Critical patent/CN113918636B/zh
Publication of CN113918636A publication Critical patent/CN113918636A/zh
Application granted granted Critical
Publication of CN113918636B publication Critical patent/CN113918636B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种基于ETL的数据处理量分析方法,属于ETL数据处理过程数据分析领域。其技术方案为:一种基于ETL的数据处理量分析方法,涉及数据ETL生产过程,在数据抽取、加载、转换、汇总、同步、共享、清理过程中,使用公共的任务执行引擎,记录数据处理量日志;根据日志记录结果,进行执行任务量分析、任务性能分析、处理量分析、处理量时段峰值分析、服务器任务处理量及性能分析,生成评估分析报告;预测未来时段数据处理量,用于监控预警;预测未来数据处理量增长,辅助硬件扩容;根据评估分析报告,进行任务及性能优化;比对数据处理量预测结果与实际数据处理量结果,支撑数据全生命周期可视化运营监控及告警。

Description

一种基于ETL的数据处理量分析方法
技术领域
本发明涉及ETL数据处理过程数据分析领域,尤其涉及一种基于ETL的数据处理量分析方法。
背景技术
目前,基于ETL任务特性,支持各类自定义脚本执行,脚本执行后存在日志格式混乱、无日志输出、日志不可分析等问题,导致无法进行数据全生命周期实时处理分析,运营人员无法宏观掌握动态数据处理量变化情况,往往只能掌握某一过程或任务处理量。
发明内容
针对上述现有技术中的问题,本发明的目的在于提供一种基于ETL的数据处理量分析方法。基于公共的所述任务执行引擎,本发明能够以规范统一的格式记录数据处理量日志,通过对数据处理量预测分析对ETL任务进行优化及硬件性能优化,实现全流程可视化运营监控和预警。
本发明是通过如下技术方案实现的:一种基于ETL的数据处理量分析方法,包括如下步骤:
S1、数据处理量记录流程:ETL执行器在数据处理任务过程中,通过公共的任务执行引擎统一调用相应的各类型任务脚本;所述任务脚本执行完毕后,通过任务执行引擎按规范字段记录对应的数据处理量日志;基于ETL任务特性,可以执行各类自定义任务脚本,任务脚本执行过程中存在日志格式混乱、无日志输出、日志不可分析等特点,因此需要公共的任务执行引擎,将各类任务脚本统一调用执行,返回执行引擎需要的参数,由所述任务执行引擎记录公共日志。任务执行引擎可以是一个,也可以是多个任务执行引擎对应不同类型的脚本,但最终记录任务脚本执行日志的过程及生成的日志对应的表结构是一致的。基于公共的所述任务执行引擎,本发明能够以规范统一的格式记录数据处理量日志。
S2、数据处理量预测分析流程:将ETL基础数据和服务器性能数据关联并汇总至数据处理量日志,根据汇总后的数据处理量日志进行数据分析和数据预测分别生成处理量分析结果及处理量预测结果;根据所述处理量分析结果和处理量预测结果生成评估分析报告;
S3、任务及硬件性能优化流程:根据评估分析报告,预测未来数据处理量增长,对ETL任务优化以及硬件性能优化;
S4、全流程可视化运营监控及告警流程:根据评估分析报告,预测未来时段数据处理量,根据数据分析结果获取实际时段处理量并与所述预测未来数据处理量进行对比,设定数据处理量预测阈值,对超预测阈值情况进行实时的可视化监控预警。
进一步,所述任务脚本的类型包括数据抽取、数据加载、数据转化、数据汇总、数据同步、数据共享、数据清理、数据稽核、数据同步;所述任务执行引擎根据ETL执行器的数据处理任务配置各类型的任务脚本的组合及调用顺序,且每个任务脚本执行完毕后均会记录相应的数据处理量日志。例如数据抽取任务处理量日志、数据加载任务处理量日志、数据汇总任务处理量日志等,其中如果某任务分多步骤执行,则每次执行完毕都记录数据处理量日志。
进一步,所述S1具体为:将ETL执行器执行参数传入所述任务执行引擎;所述任务执行引擎根据传入的参数匹配配置信息,调用对应的任务脚本,并将配置信息传入任务脚本;任务脚本执行后生成包含有数据处理量的配置信息返回任务执行引擎;所述任务执行引擎以所述配置信息生成规范字段,并按照规范字段记录数据处理量日志。
进一步,所述S1中的所述数据处理量日志包括:任务ID、执行周期、任务名称、任务类型、任务权重、开始时间、截止时间、处理数据量、执行主机IP、数据源目标表名称、抽取结果表名称,还根据任务脚本的不同,记录数据源目标表名称、抽取结果表名称、源文件名称、加载结果表、源表名称、同步表名称、清理表名称等。
进一步,所述S2中的所述数据分析具体为:通过调用脚本的方式,实现分析方法的执行,按时段区间进行任务量分析及数据处理量分析,生成数据分析结果;所述S2中的所述数据预测具体为:通过调用脚本的方式,实现预测方法的执行,按时段区间进行任务量分析及数据处理量进行预测,生成数据预测结果。
进一步,所述数据分析结果包括任务执行总量分析、按时段执行任务量分析、任务分布服务器分析、任务执行时长分析、数据处理总量分析、按时段处理量分析、处理量分布服务器分析、单任务处理最大数据量分析、任务平均处理量分析等。
进一步,所述数据预测结果包括数据处理量预测、任务执行量预测、服务器任务处理量及性能综合预测、时段区间处理量峰值预测、单任务处理量预测等。
进一步,所述ETL任务优化包括ETL任务执行时间优化(如通过调整任务执行开始时间,使数据处理量保持均衡)、任务执行时长优化(如按任务类型将执行时间超过平均时长的任务进行排序,由高到低进行任务优化,达到平均水平内,将任务执行时长超过同类任务平均值50%(可调数值)的任务进行优化)、任务脚本性能优化(如将脚本拆分成多个,SQL优化、降低数据处理量等方式);所述硬件性能优化包括根据时段内任务处理量、数据处理量与硬件性能的对应关系,以及执行情况分析、性能预测分析,对任务执行服务器进行调优、对服务器的硬件设备扩容或缩减(如对服务器存储、内存、CPU的规划及扩容)。
一种基于ETL的数据处理量分析系统,其特征在于,包括:
数据处理量记录模块:包括公共的任务执行引擎,能够统一调用ETL执行器在数据处理任务过程中的相应的各类型的任务脚本;所述任务脚本执行完毕后,通过任务执行引擎按规范字段记录对应的数据处理量日志;
数据处理量预测分析模块:能够将ETL基础数据和服务器性能数据关联并汇总至数据处理量日志,根据汇总后的数据处理量日志进行数据分析和数据预测分别生成处理量分析结果及处理量预测结果;根据所述处理量分析结果和处理量预测结果生成评估分析报告;
任务及硬件性能优化模块:根据评估分析报告,预测未来数据处理量增长,对ETL任务优化以及硬件性能优化;
全流程可视化运营监控及告警模块:根据评估分析报告,预测未来时段数据处理量,根据数据分析结果获取实际时段处理量并与所述预测未来数据处理量进行对比,设定数据处理量预测阈值,对超预测阈值情况进行实时的可视化监控预警
进一步,所述ETL的数据处理量分析系统中的所述任务脚本的类型包括数据抽取、数据加载、数据转化、数据汇总、数据同步、数据共享、数据清理、数据稽核、数据同步;所述任务执行引擎根据ETL执行器的数据处理任务配置各类型的任务脚本的组合及调用顺序。
本发明的有益效果为:本发明通过任务执行引擎规范了ETL数据处理任务过程中的各脚本日志的格式,实现日志统一管理,并实现了数据处理量的统计;通过数据处理量、执行任务分析,能够更清晰准确的评估ETL运营状况,生成评估分析报告,指导ETL任务优化及硬件性能优化;通过数据处理量预测分析,能够更直观对数据全生命周期进行监控,通过按时段数据生命周期处理量告警,保障运营稳定,在大数据平台海量数据运营监控告警时效果突出。
附图说明
图1为本发明实施例的整体流程图。
图2为本发明实施例的数据处理量日志记录流程图。
图3任务执行引擎处理量记录流程图
图4为本发明实施例的数据处理量分析、预测流程图。
图5为本发明实施例的任务及硬件性能优化流程图。
图6为本发明实施例的运营可视化监控及告警流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,在不冲突的情况下,本发明创造中的实施例及实施例中的特征可以相互组合。
在本发明创造的描述中,需要说明的是,除非另有明确的规定和限定,术语“ETL”“流程”“任务”、“脚本”、“算法”、“引擎”、“SQL”、“抽取”、“加载”、“转换”、“汇总”、“同步”、“共享”、“清理”应做广义理解。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明创造中的具体含义。
为了便于理解,现对本发明实施例中提到的一些名词进行解释。
ETL:在ETL工具抽取(extract)、转换(transform)、加载(load)至目的端的过程概念上,本例中还包含了汇总、同步、共享、清理过程。
抽取:数据抽取是说数据采集的过程,通常是由源系统数据抽取到目标数据库的过程。
清理:本例中指数据的删除、下线,包括物理删除和逻辑删除。
大数据平台:本例中指基于hadoop框架的数据运营监控处理平台。
算法:本例中指数据处理量预测过程使用的算法,包括时间序列、线性回归、环比、同比值、节假日、周期性等。
任务执行引擎:本例中指执行ETL任务调用的公共程序,公共程序根据任务传入的参数,在调用对应的不同类型的脚本,给脚本传入参数,并获取脚本执行过程中输出的参数,并记录日志的程序。
脚本:本例中指由python、perl、tcl、shell、bat、存储过程、java等语言编写的可执行程序,这些程序实现数据抽取、加载、转换、汇总、同步、共享、清理。
脚本日志:由脚本生成的日志,通常是TXT格式,日志内容因脚本语言及编写习惯原因,日志格式各异,无数据处理量记录,一个任务按执行周期生成一个日志TXT,内容用于展示脚本过程及结果。
数据处理量任务执行日志:由任务执行引擎,按照执行日志格式规范,在脚本执行结束时记录的日志。
实施例1
参照图1,本发明提供一种基于ETL的数据处理量分析方法,由四个子流程组成,包括:
S1、数据处理量记录流程:ETL执行器在数据处理任务过程中,通过公共的任务执行引擎统一调用相应的各类型任务脚本;所述任务脚本执行完毕后,通过任务执行引擎按规范字段记录对应的数据处理量日志;
S2、数据处理量预测分析流程:将ETL基础数据和服务器性能数据关联并汇总至数据处理量日志,根据汇总后的数据处理量日志进行数据分析和数据预测分别生成处理量分析结果及处理量预测结果;根据所述处理量分析结果和处理量预测结果生成评估分析报告;
S3、任务及硬件性能优化流程:根据评估分析报告,预测未来数据处理量增长,对ETL任务优化以及硬件性能优化;
S4、全流程可视化运营监控及告警流程:根据评估分析报告,预测未来时段数据处理量,根据数据分析结果获取实际时段处理量并与所述预测未来数据处理量进行对比,设定数据处理量预测阈值,对超预测阈值情况进行实时的可视化监控预警。
各子流程的具体如下:
S1、数据处理量记录流程:参照图2,
数据处理量记录流程:数据处理过程包括数据抽取、加载、转换、汇总、同步、共享、清理等环节,ETL执行器在数据处理任务过程中,通过公共的任务执行引擎统一调用相应的各类型任务脚本来完成相应的环节;所述任务脚本执行完毕后,通过任务执行引擎按规范字段记录对应的数据处理量日志。
数据处理过程涉及的这些环节,流程图以线性做直观展示,实际不仅是线性的,各环节之间还存在各种顺序的排列组合,例如数据生产不需要抽取、加载环节,例如数据不需要同步、共享环节,例如数据先同步后转换汇总,例如数据直接转换后进行共享。这些环节的顺序调整应包含在本专利保护范围内。
数据稽核:由于数据稽核是进行数据质量的检查,不进行数据的处理,不改变数据,因此在处理量统计时可以不进行分析,在进行优化时可以进行数据稽核处理量分析。
数据处理量日志的规范字段:包括任务ID、执行周期、任务名称、任务类型、任务权重、开始时间、截止时间、处理数据量、执行主机IP、数据源目标表名称、抽取结果表名称,还根据环节不同,记录数据源目标表名称、抽取结果表名称、源文件名称、加载结果表、源表名称、同步表名称、清理表名称等,用于对环节明细的分析。
具体地,参照图3,数据处理量日志记录流程如下:
ETL执行器执行传入参数:ETL执行器执行参数包含任务执行周期、任务名称,根据脚本名称、脚本路径,服务器地址等信息,将参数传入任务执行引擎。
相较于“原任务执行流程”,新增了“任务执行引擎任务匹配”:任务执行引擎读取传入的参数,根据参数匹配配置信息,将配置信息传入任务脚本,由任务执行引擎调用任务脚本执行,同时保存任务ID、执行周期、任务名称、开始时间、任务类型、任务权重。
配置信息:同类任务在页面实现配置化,实现调度任务配置可视化,降低任务脚本开发难度。
任务脚本执行:由ETL执行器传入参数执行脚本,执行过程如果分多步骤执行SQL引用公共执行方法记录处理量,改造量小,易实现。脚本通常包括python、perl、tcl、shell、bat、存储过程、java等语言编写的可执行程序。
脚本日志生成:脚本的日志通常是TXT格式,展示内容因脚本语言各异,且无数据处理量记录,一个任务按执行周期生成一个日志TXT,因此日志分析代价高昂。新流程脚本日志方式不变,TXT日志继续用于支撑单任务异常日志查询。
相较于“原任务执行流程”,新增了“任务执行引擎数据处理量日志记录”:脚本执行完毕后,生成截止时间、处理数据量、执行主机IP等日志字段信息,与执行前保存的任务ID、执行周期、任务名称、开始时间、任务类型、任务权重组合后,由执行引擎按规范字段记录处理量日志。
ETL执行器执行结果参数获取:从执行引擎获取结果参数,包括任务执行开始、截止时间、执行状态等。
S2、数据处理量分析预测流程:参照图4
ETL基础数据获取:任务配置表、服务器配置表进行关联,补充分析字段任务流分类、任务周期分类、服务器归属类型等。
服务器性能数据获取:获取ETL任务执行服务器硬件性能数据,包括磁盘、内存、CPU性能,用于分析数据执行任务量、数据处理量与硬件性能的关系。
数据处理量日志获取:获取流程一中记录的数据处理量日志。包括任务ID、执行周期、任务名称、任务类型、任务权重、开始时间、截止时间、处理数据量、执行主机IP、数据源目标表名称、抽取结果表名称,根据环节不同,记录数据源目标表名称、抽取结果表名称、源文件名称、加载结果表、源表名称、同步表名称、清理表名称等。这些数据可以跟ETL任务配置表、服务器性能表进行关联,补充分析字段任务流分类、任务周期分类、服务器归属、运营负责人、时段服务器性能等。
分析方法执行:通过调用脚本的方式,实现分析方法的执行,按时段区间进行任务量分析及数据处理量分析。包括任务分析及处理量分析,包括按时段的实时分析和历史日、月分析。
分析结果生成:生成任务分析结果、处理量分析结果。分析结果包括任务执行总量分析、按时段执行任务量分析、任务分布服务器分析、任务执行时长分析、数据处理总量分析、按时段处理量分析、处理量分布服务器分析、单任务处理最大数据量分析、任务平均处理量分析。分析方法详细说明见分析方法参照表1。
预测算法匹配:根据任务类型、脚本类型、匹配处理量预测算法,新的任务类型抽次预测按时间序列方法进行预测。
预测算法优化:对于预测结果与实际偏差大的任务,进行算法优化。调优后仍然不符合预测阀值,则换一种预测模型算法,直到适配到符合要求的算法。如果有多个算法都符合要求,则根据历史预测差异率,选择预测偏差最小的进行适配。
预测算法主要包括:时间序列、线性回归、环比、同比值、节假日、周期性等,详细算法说明先预测算法表3。
预测算法执行:通过调用脚本的方式,实现预测方法的执行,按时段区间进行任务量分析及数据处理量进行预测。
预测结果生成:生成处理量预测结果,预测结果包括数据处理量预测、任务执行量预测、服务器任务处理量及性能综合预测、时段区间处理量峰值预测、单任务处理量预测等。预测方法详细说明见预测算法参照表2。
评估分析报告生成:根据分析与预测结果,任务对应运营负责人,生成评估分析报告。评估分析报告包括历史任务执行情况、当月任务执行情况、异常情况分析、新增任务评估、任务处理量优化分析、服务器硬件性能峰值评估、服务器硬件扩容评估。
S3、任务及硬件性能优化流程,参照图5
评估分析报告数据获取、优化类型分类:获取S2中的评估分析报告,按照运营负责人,进行分析结论分配处理。
任务执行时间优化:通过时段及硬件性能情况,根据任务执行时间及任务紧急性,处理量综合分析结果,调整任务的开始时间,保证每个时间段任务执行均衡。
任务脚本性能优化:按任务类型将执行时间超过平均时长的任务进行排序,由高到低进行任务优化,达到平均水平内。优化方法包括将脚本拆分成多个,SQL优化、降低数据处理量等方式。
硬件性能优化:根据时段内任务处理量、数据处理量与硬件性能的对应关系,根据执行情况分析、根据性能预测分析,对任务执行服务器进行调优、对服务器的硬件设备扩容或缩减。
评估分析例外:对于评估结果中无法优化的任务及服务器硬件进行例外处理,不纳入下一次评估中。
S4、运营可视化监控及告警流程,参照图6
预测结果数据获取:获取S2中处理量未来预测结果、任务量未来预测结果、单任务处理量未来预测结果。
任务实时执行处理量数据获取:获取流程二中的任务处理量实时数据汇总结果。与预测结果对应,包括处理量执行结果、任务量执行结果,单任务处理量执行结果。
数据处理量对比分析:按任务类型、时段预测结果与实际结果进行比对,分析实际执行结果与预测结果的差异,设定差异的阀值。
运营监控数据可视化展示:通过报表、图标的方式展示数据处理量比对分析结果,包括预测结果展示、实际结果展示、历史执行情况展示。
异常预警数据可视化展示:通过报表、图标的方式展示数据处理量比对分析异常预警结果。对于异常预警数据可以匹配任务负责人进行高亮、弹窗、短信等方式进行预警。
异常处理:任务负责人根据异常预警结果,进行异常任务处理。异常处理完毕后异常预警消除,如果异常预警为无效预警,则优化调整预警阀值,或进行例外处理。
实施例二
一种基于ETL的数据处理量分析系统,其特征在于,包括:
数据处理量记录模块:包括公共的任务执行引擎,能够统一调用ETL执行器在数据处理任务过程中的相应的各类型的任务脚本;所述任务脚本执行完毕后,通过任务执行引擎按规范字段记录对应的数据处理量日志;
数据处理量预测分析模块:能够将ETL基础数据和服务器性能数据关联并汇总至数据处理量日志,根据汇总后的数据处理量日志进行数据分析和数据预测分别生成处理量分析结果及处理量预测结果;根据所述处理量分析结果和处理量预测结果生成评估分析报告;
任务及硬件性能优化模块:根据评估分析报告,预测未来数据处理量增长,对ETL任务优化以及硬件性能优化;
全流程可视化运营监控及告警模块:根据评估分析报告,预测未来时段数据处理量,根据数据分析结果获取实际时段处理量并与所述预测未来数据处理量进行对比,设定数据处理量预测阈值,对超预测阈值情况进行实时的可视化监控预警
其中,所述任务脚本的类型包括数据抽取、数据加载、数据转化、数据汇总、数据同步、数据共享、数据清理、数据稽核、数据同步;所述任务执行引擎根据ETL执行器的数据处理任务配置各类型的任务脚本的组合及调用顺序。
本发明创造的描述中,前面的详细描述已经通过使用框图、流程图和/或示例阐述了装置和/或过程的各种实施例。在这样的框图、流程图和/或示例包含一个或多个功能和/或操作的程度上,本领域技术人员将理解的是,这样的框图、流程图或示例内的每个功能和/或操作可通过许多各种不同的硬件、软件、固件或实际上它们的任何组合被单独地和/或集体地实现。
在系统的各方面的硬件和软件实施方式之间几乎没有差别;硬件或软件的使用通常是(但并不总是,因为在某些情景中在硬件和软件之间的选择可能变得重要)代表成本与效率折衷的设计选择。存在本文中所述的过程和/或系统和/或其它技术可借以被实现的各种手段(例如,硬件、软件和/或固件),并且优选的手段将随着其中过程和/或系统和/或其它技术被部署的情景的不同而改变。例如,如果实施者确定速度和准确性是极为重要的,那么实施者可选择主要为硬件和/或固件的手段;如果灵活性是极为重要的,那么实施者可选择主要为软件的实施方式;或者,但同样可替换地,实施者可选择硬件、软件和/或固件的某组合。
本发明未经描述的技术特征可以通过或采用现有技术实现,在此不再赘述,当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
分析方法表1
预测方法表2
预测算法表3

Claims (10)

1.一种基于ETL的数据处理量分析方法,其特征在于包括如下流程:
S1、数据处理量记录流程:ETL执行器在数据处理任务过程中,通过公共的任务执行引擎统一调用相应的各类型任务脚本;所述任务脚本执行完毕后,通过任务执行引擎按规范字段记录对应的数据处理量日志;
S2、数据处理量预测分析流程:将ETL基础数据和服务器性能数据关联并汇总至数据处理量日志,根据汇总后的数据处理量日志进行数据分析和数据预测分别生成处理量分析结果及处理量预测结果;根据所述处理量分析结果和处理量预测结果生成评估分析报告;
S3、任务及硬件性能优化流程:根据评估分析报告,预测未来数据处理量增长,对ETL任务优化以及硬件性能优化;
S4、全流程可视化运营监控及告警流程:根据评估分析报告,预测未来时段数据处理量,根据数据分析结果获取实际时段处理量并与所述预测未来数据处理量进行对比,设定数据处理量预测阈值,对超预测阈值情况进行实时的可视化监控预警。
2.根据权利要求1所述的基于ETL的数据处理量分析方法,其特征在于,所述任务脚本的类型包括数据抽取、数据加载、数据转化、数据汇总、数据同步、数据共享、数据清理、数据稽核、数据同步;所述任务执行引擎根据ETL执行器的数据处理任务配置各类型的任务脚本的组合及调用顺序。
3.根据权利要求1所述的基于ETL的数据处理量分析方法,其特征在于,所述S1具体为:将ETL执行器执行参数传入所述任务执行引擎;所述任务执行引擎根据传入的参数匹配配置信息,调用对应的任务脚本,并将配置信息传入任务脚本;任务脚本执行后生成包含有数据处理量的配置信息返回任务执行引擎;所述任务执行引擎以所述配置信息生成规范字段,并按照规范字段记录数据处理量日志。
4.根据权利要求3所述的基于ETL的数据处理量分析方法,其特征在于,所述S1中的所述数据处理量日志包括:任务ID、执行周期、任务名称、任务类型、任务权重、开始时间、截止时间、处理数据量、执行主机IP、数据源目标表名称、抽取结果表名称,还根据任务脚本的不同,记录数据源目标表名称、抽取结果表名称、源文件名称、加载结果表、源表名称、同步表名称、清理表名称。
5.根据权利要求1所述的基于ETL的数据处理量分析方法,其特征在于,所述S2中的所述数据分析具体为:通过调用脚本的方式,实现分析方法的执行,按时段区间进行任务量分析及数据处理量分析,生成数据分析结果;所述S2中的所述数据预测具体为:通过调用脚本的方式,实现预测方法的执行,按时段区间进行任务量分析及数据处理量进行预测,生成数据预测结果。
6.根据权利要求5所述的基于ETL的数据处理量分析方法,其特征在于,所述数据分析结果包括任务执行总量分析、按时段执行任务量分析、任务分布服务器分析、任务执行时长分析、数据处理总量分析、按时段处理量分析、处理量分布服务器分析、单任务处理最大数据量分析、任务平均处理量分析。
7.根据权利要求6所述的基于ETL的数据处理量分析方法,其特征在于,所述数据预测结果包括数据处理量预测、任务执行量预测、服务器任务处理量及性能综合预测、时段区间处理量峰值预测、单任务处理量预测。
8.根据权利要求7所述的基于ETL的数据处理量分析方法,其特征在于,所述ETL任务优化包括ETL任务执行时间优化、任务执行时长优化、任务脚本性能优化;所述硬件性能优化包括根据时段内任务处理量、数据处理量与硬件性能的对应关系,以及执行情况分析、性能预测分析,对任务执行服务器进行调优、对服务器的硬件设备扩容或缩减。
9.一种基于ETL的数据处理量分析系统,其特征在于,包括:
数据处理量记录模块:包括公共的任务执行引擎,能够统一调用ETL执行器在数据处理任务过程中的相应的各类型的任务脚本;所述任务脚本执行完毕后,通过任务执行引擎按规范字段记录对应的数据处理量日志;
数据处理量预测分析模块:能够将ETL基础数据和服务器性能数据关联并汇总至数据处理量日志,根据汇总后的数据处理量日志进行数据分析和数据预测分别生成处理量分析结果及处理量预测结果;根据所述处理量分析结果和处理量预测结果生成评估分析报告;
任务及硬件性能优化模块:根据评估分析报告,预测未来数据处理量增长,对ETL任务优化以及硬件性能优化;
全流程可视化运营监控及告警模块:根据评估分析报告,预测未来时段数据处理量,根据数据分析结果获取实际时段处理量并与所述预测未来数据处理量进行对比,设定数据处理量预测阈值,对超预测阈值情况进行实时的可视化监控预警。
10.根据权利要求9所述的基于ETL的数据处理量分析系统,其特征在于,所述任务脚本的类型包括数据抽取、数据加载、数据转化、数据汇总、数据同步、数据共享、数据清理、数据稽核、数据同步;所述任务执行引擎根据ETL执行器的数据处理任务配置各类型的任务脚本的组合及调用顺序。
CN202111229500.9A 2021-10-21 2021-10-21 一种基于etl的数据处理量分析方法 Active CN113918636B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111229500.9A CN113918636B (zh) 2021-10-21 2021-10-21 一种基于etl的数据处理量分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111229500.9A CN113918636B (zh) 2021-10-21 2021-10-21 一种基于etl的数据处理量分析方法

Publications (2)

Publication Number Publication Date
CN113918636A CN113918636A (zh) 2022-01-11
CN113918636B true CN113918636B (zh) 2024-04-19

Family

ID=79242312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111229500.9A Active CN113918636B (zh) 2021-10-21 2021-10-21 一种基于etl的数据处理量分析方法

Country Status (1)

Country Link
CN (1) CN113918636B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443025B (zh) * 2022-01-28 2023-10-24 悦锦数字科技(上海)股份有限公司 用于数据治理平台的模块化etl任务处理系统和etl任务处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019000630A1 (zh) * 2017-06-25 2019-01-03 平安科技(深圳)有限公司 多任务调度方法、系统、应用服务器及计算机可读存储介质
CN109947746A (zh) * 2017-10-26 2019-06-28 亿阳信通股份有限公司 一种基于etl流程的数据质量管控方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019000630A1 (zh) * 2017-06-25 2019-01-03 平安科技(深圳)有限公司 多任务调度方法、系统、应用服务器及计算机可读存储介质
CN109947746A (zh) * 2017-10-26 2019-06-28 亿阳信通股份有限公司 一种基于etl流程的数据质量管控方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于大数据机器学习技术的IT运营分析系统建设;陈俊;;计算机时代;20180315(第03期);全文 *
新疆维吾尔自治区昌吉州医疗保险信息决策支持分析研究;韩永琴;;黑龙江科技信息;20160525(第15期);全文 *

Also Published As

Publication number Publication date
CN113918636A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN105608758B (zh) 一种基于算法组态和分布式流计算的大数据分析平台装置及方法
CN109739929A (zh) 数据同步方法、装置及系统
CN110187838B (zh) 数据io信息处理方法、分析方法、装置和相关设备
CN107038218B (zh) 报表处理方法和系统
JP5699715B2 (ja) データ保存装置、データ保存方法
CN113448812A (zh) 微服务场景下的监控告警方法及装置
CN113282611B (zh) 一种流数据同步的方法、装置、计算机设备及存储介质
CN110647531A (zh) 数据同步方法、装置、设备及计算机可读存储介质
CN113918636B (zh) 一种基于etl的数据处理量分析方法
CN115033646B (zh) 一种基于Flink&Doris构建实时数仓系统的方法
CN105069029B (zh) 一种实时etl系统及方法
CN110895506A (zh) 测试数据的构造方法和构造系统
CN107871055B (zh) 一种数据分析方法和装置
CN111782901A (zh) 数据采集方法以及装置
CN114385378A (zh) 物联网设备的活跃数据处理方法、装置及存储介质
CN112365239A (zh) 一种基于事件的云服务管理处置方法及系统
CN111209314A (zh) 一种电力信息系统海量日志数据实时处理系统
CN116010388A (zh) 数据校验方法、数据采集服务端及数据校验系统
CN114661563B (zh) 基于流处理框架的数据处理方法以及系统
CN115081679A (zh) 基于cdc的工业数据动态变化自动感知处理系统
CN113407491A (zh) 数据处理方法及装置
CN110750608B (zh) 一种基于规则库的空间数据分析自动调度方法
CN111552674A (zh) 日志处理方法及设备
CN115576732B (zh) 根因定位方法以及系统
CN115686583B (zh) 海量物联网设备升级方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant