CN110262945A - 一种智能监控数据仓库调度系统的方法 - Google Patents

一种智能监控数据仓库调度系统的方法 Download PDF

Info

Publication number
CN110262945A
CN110262945A CN201910552238.8A CN201910552238A CN110262945A CN 110262945 A CN110262945 A CN 110262945A CN 201910552238 A CN201910552238 A CN 201910552238A CN 110262945 A CN110262945 A CN 110262945A
Authority
CN
China
Prior art keywords
monitoring
scheduling system
data warehouse
monitoring data
ods
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910552238.8A
Other languages
English (en)
Inventor
王德敏
董磊
张程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Consumption Finance Co Ltd
Original Assignee
Suning Consumption Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Consumption Finance Co Ltd filed Critical Suning Consumption Finance Co Ltd
Priority to CN201910552238.8A priority Critical patent/CN110262945A/zh
Publication of CN110262945A publication Critical patent/CN110262945A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/328Computer systems status display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种智能监控数据仓库调度系统的方法,具体包含以下步骤:(1)监控调度系统软硬件资源的可用性;(2)监控ODS自动化系统,并提供异常处理机制;(3)监控应用系统的查询效率,并提供优化建议;(4)监控ETL跑批过程。本发明的一种智能监控数据仓库调度系统的方法,使得对调度系统的监控全方位、全流程的覆盖到每一个场景;还对可能出现的问题提前预防,让已经出现的问题立即自动修复,让无法自动修复的报错定位到问题并及时通知运维人员处理,并不断完善系统修复的功能。本发明的监控方法每天输出系统监控报告,报告中详细描述系统监控指标情况及建议。

Description

一种智能监控数据仓库调度系统的方法
技术领域
本发明涉及智能监控技术领域,具体涉及一种智能监控数据仓库调度系统的方法。
背景技术
大数据仓库是一个庞大的业务系统,包含ETL调度、多个模型层、若干应用系统等,管理和维护很不方便,缺乏有效的告警。业务数据出现问题都是后知后觉,常常是等到出现问题,再由人工处理问题,耗时较长并效率较低。准确、稳定的业务数据是公司业务开展的前提和保障,为了提高大数据系统的稳定性,需要对监控机制进行优化改进。
发明内容
本发明所要解决的技术问题是提供一种智能监控数据仓库调度系统的方法。
为解决以上技术问题,本发明的技术方案为:提供一种智能监控数据仓库调度系统的方法,其创新点在于:具体包含以下步骤:
(1)监控调度系统软硬件资源的可用性;
(2)监控ODS自动化系统,并提供异常处理机制;
(3)监控应用系统的查询效率,并提供优化建议;
(4)监控ETL跑批过程。
进一步的,所述步骤(1)中的监控调度系统软硬件资源的可用性主要是通过系统定时扫描大数据相关机器的带宽、磁盘IO、CPU、内存、数据库的状态以及数据库表空间使用情况来实现,将扫描结果和预先设置的阈值进行比较,若不在预先设置的阈值范围内,则自动触发告警,显示触发告警的资源不可用。
进一步的,所述步骤(2)主要是通过以下步骤实现:
1)调度系统辅助ODS自动化系统,并同步监控ODS自动化全流程,记录ODS自动化每一步的操作日志;
2)当ODS自动化出现报错,调度系统自动捕获异常,通过自身程序修复异常问题,并提供异常回滚机制;
3)当出现无法处理的问题立即告警,通知运维人员处理。
进一步的,所述步骤(3)中监控应用系统的查询效率主要表现在:调度系统每天定时扫描每张报表的查询效率性能,通过预先设置的阈值,当查询耗时超过阈值,触发告警并将查询SQL的执行计划和优化建议发送给开发人员进行性能优化。
进一步的,所述步骤(4)中对ETL跑批过程监控包括:
1)通过全流程监控ETL跑批、记录任务运行过程中产生的日志和检查当天所有调度任务的执行情况;
2)针对对调度系统的监控情况提供任务失败告警、超时未完成告警、任务成功提示等功能;
3)监控并分析Hive任务运行情况,包括内存消耗、CPU消耗、HDFS读写次数、Map数和平均耗时等,系统提供优化建议;
4)定时备份ETL任务代码,提供代码异常恢复机制;
5)提供任务上下游依赖关系分析。
进一步的,所述步骤1)中检查当天所有调度任务的所述执行情况包括任务的报错、延迟和重跑情况。
本发明和现有技术相比,产生的有益效果为:
(1)本发明的一种智能监控数据仓库调度系统的方法,使得对调度系统的监控全方位、全流程的覆盖到每一个场景;
(2)本发明还对可能出现的问题提前预防,让已经出现的问题立即自动修复,让无法自动修复的报错定位到问题并及时通知运维人员处理,并不断完善系统修复的功能。
(3)本发明的监控方法每天输出系统监控报告,报告中详细描述系统监控指标情况及建议。
具体实施方式
下面将通过具体实施方式对本发明的技术方案进行清楚、完整地描述。
提供一种智能监控数据仓库调度系统的方法,其创新点在于:具体包含以下步骤:
(1)监控调度系统软硬件资源的可用性;其中监控调度系统软硬件资源的可用性主要是通过系统定时扫描大数据相关机器的带宽、磁盘IO、CPU、内存、数据库的状态以及数据库表空间使用情况来实现,将扫描结果和预先设置的阈值进行比较,若不在预先设置的阈值范围内,则自动触发告警,显示触发告警的资源不可用;
(2)监控ODS自动化系统,并提供异常处理机制,其中,监控ODS自动化系统主要是通过以下步骤实现:
1)调度系统辅助ODS自动化系统,并同步监控ODS自动化全流程,记录ODS自动化每一步的操作日志;
2)当ODS自动化出现报错,调度系统自动捕获异常,通过自身程序修复异常问题,并提供异常回滚机制;
3)当出现无法处理的问题立即告警,通知运维人员处理;
(3)监控应用系统的查询效率,并提供优化建议,监控应用系统的查询效率主要表现在:调度系统每天定时扫描每张报表的查询效率性能,通过预先设置的阈值,当查询耗时超过阈值,触发告警并将查询SQL的执行计划和优化建议发送给开发人员进行性能优化;
(4)监控ETL跑批过程,其中,对ETL跑批过程监控包括:
1)通过全流程监控ETL跑批、记录任务运行过程中产生的日志和检查当天所有调度任务的执行情况,检查当天所有调度任务的所述执行情况包括任务的报错、延迟和重跑情况;
2)针对对调度系统的监控情况提供任务失败告警、超时未完成告警、任务成功提示等功能;
3)监控并分析Hive任务运行情况,包括内存消耗、CPU消耗、HDFS读写次数、Map数和平均耗时等,系统提供优化建议;
4)定时备份ETL任务代码,提供代码异常恢复机制;
5)提供任务上下游依赖关系分析。
本发明的一种智能监控数据仓库调度系统的方法,使得对调度系统的监控全方位、全流程的覆盖到每一个场景;还对可能出现的问题提前预防,让已经出现的问题立即自动修复,让无法自动修复的报错定位到问题并及时通知运维人员处理,并不断完善系统修复的功能。本发明的监控方法每天输出系统监控报告,报告中详细描述系统监控指标情况及建议。
上面所述的实施例仅仅是本发明的优选实施方式进行描述,并非对本发明的构思和范围进行限定,在不脱离本发明设计构思的前提下,本领域中普通工程技术人员对本发明的技术方案作出的各种变型和改进均应落入本发明的保护范围,本发明的请求保护的技术内容,已经全部记载在技术要求书中。

Claims (6)

1.一种智能监控数据仓库调度系统的方法,其特征在于:具体包含以下步骤:
(1)监控调度系统软硬件资源的可用性;
(2)监控ODS自动化系统,并提供异常处理机制;
(3)监控应用系统的查询效率,并提供优化建议;
(4)监控ETL跑批过程。
2.根据权利要求1所述的一种智能监控数据仓库调度系统的方法,其特征在于:所述步骤(1)中的监控调度系统软硬件资源的可用性主要是通过系统定时扫描大数据相关机器的带宽、磁盘IO、CPU、内存、数据库的状态以及数据库表空间使用情况来实现,将扫描结果和预先设置的阈值进行比较,若不在预先设置的阈值范围内,则自动触发告警,显示触发告警的资源不可用。
3.根据权利要求1所述的一种智能监控数据仓库调度系统的方法,其特征在于:所述步骤(2)主要是通过以下步骤实现:
1)调度系统辅助ODS自动化系统,并同步监控ODS自动化全流程,记录ODS自动化每一步的操作日志;
2)当ODS自动化出现报错,调度系统自动捕获异常,通过自身程序修复异常问题,并提供异常回滚机制;
3)当出现无法处理的问题立即告警,通知运维人员处理。
4.根据权利要求1所述的一种智能监控数据仓库调度系统的方法,其特征在于:所述步骤(3)中监控应用系统的查询效率主要表现在:调度系统每天定时扫描每张报表的查询效率性能,通过预先设置的阈值,当查询耗时超过阈值,触发告警并将查询SQL的执行计划和优化建议发送给开发人员进行性能优化。
5.根据权利要求1所述的一种智能监控数据仓库调度系统的方法,其特征在于:所述步骤(4)中对ETL跑批过程监控包括:
1)通过全流程监控ETL跑批、记录任务运行过程中产生的日志和检查当天所有调度任务的执行情况;
2)针对对调度系统的监控情况提供任务失败告警、超时未完成告警、任务成功提示等功能;
3)监控并分析Hive任务运行情况,包括内存消耗、CPU消耗、HDFS读写次数、Map数和平均耗时等,系统提供优化建议;
4)定时备份ETL任务代码,提供代码异常恢复机制;
5)提供任务上下游依赖关系分析。
6.根据权利要求5所述的一种智能监控数据仓库调度系统的方法,其特征在于:所述步骤1)中检查当天所有调度任务的所述执行情况包括任务的报错、延迟和重跑情况。
CN201910552238.8A 2019-06-25 2019-06-25 一种智能监控数据仓库调度系统的方法 Pending CN110262945A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910552238.8A CN110262945A (zh) 2019-06-25 2019-06-25 一种智能监控数据仓库调度系统的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910552238.8A CN110262945A (zh) 2019-06-25 2019-06-25 一种智能监控数据仓库调度系统的方法

Publications (1)

Publication Number Publication Date
CN110262945A true CN110262945A (zh) 2019-09-20

Family

ID=67921099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910552238.8A Pending CN110262945A (zh) 2019-06-25 2019-06-25 一种智能监控数据仓库调度系统的方法

Country Status (1)

Country Link
CN (1) CN110262945A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111722981A (zh) * 2020-06-15 2020-09-29 武汉达梦数据库有限公司 一种hadoop集群运行ETL流程的实时监控方法及装置
CN111881143A (zh) * 2020-07-30 2020-11-03 四川长虹电器股份有限公司 一种管理etl任务的方法
WO2023239847A1 (en) * 2022-06-10 2023-12-14 Capital One Services, Llc Sharing data across cloud regions and cloud platforms of cloud-based data warehousing systems

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN105989137A (zh) * 2015-02-27 2016-10-05 中国移动通信集团河北有限公司 一种结构化查询语言性能优化方法及系统
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989137A (zh) * 2015-02-27 2016-10-05 中国移动通信集团河北有限公司 一种结构化查询语言性能优化方法及系统
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111722981A (zh) * 2020-06-15 2020-09-29 武汉达梦数据库有限公司 一种hadoop集群运行ETL流程的实时监控方法及装置
CN111722981B (zh) * 2020-06-15 2021-05-07 武汉达梦数据库有限公司 一种hadoop集群运行ETL流程的实时监控方法及装置
CN111881143A (zh) * 2020-07-30 2020-11-03 四川长虹电器股份有限公司 一种管理etl任务的方法
WO2023239847A1 (en) * 2022-06-10 2023-12-14 Capital One Services, Llc Sharing data across cloud regions and cloud platforms of cloud-based data warehousing systems

Similar Documents

Publication Publication Date Title
CN110262945A (zh) 一种智能监控数据仓库调度系统的方法
CN106126403B (zh) Oracle数据库故障分析方法和装置
US20100082708A1 (en) System and Method for Management of Performance Fault Using Statistical Analysis
CN106406993A (zh) 一种定时任务管理方法和系统
US10817532B2 (en) Scientific computing process management system
CN102479113B (zh) 异常自适应处理方法及系统
CN111400011B (zh) 一种实时任务调度方法、系统、设备及可读存储介质
US20060095914A1 (en) System and method for job scheduling
CN102209100A (zh) 一种任务调度云处理系统及其方法
CN108491254A (zh) 一种数据仓库的调度方法及装置
CN101685452B (zh) 数据仓库调度方法及调度系统
CN110245053A (zh) 故障预测诊断方法及系统
CN114443435A (zh) 一种面向容器微服务的性能监控告警方法及告警系统
CN104780220A (zh) 面向证券期货行业大型分布式系统的智能监控系统及监控方法
US11966214B2 (en) Industrial internet of things systems for intelligent repair of manufacturing equipment and control methods thereof
CN110569142A (zh) 一种oracle数据增量同步系统及方法
CN106777126A (zh) 一种支持异构时序数据库的数据在线迁移方法
CN111860667A (zh) 设备故障的确定方法及装置、存储介质、电子装置
CN104407919A (zh) 一种数据处理任务调度系统及方法
CN105069029B (zh) 一种实时etl系统及方法
CN109299121A (zh) 一种scada系统历史报警高效查询方法
CN111913943A (zh) 适用于工厂自动排产的数据采集与处理的方法及系统
CN102081757A (zh) 一种报表制作方法及其系统
CN115017235B (zh) 数据同步方法及电子设备、存储介质
CN114579280B (zh) 一种准实时调度方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190920

RJ01 Rejection of invention patent application after publication