CN104410512A - 一种适用于云计算的资源监控告警框架及其方法 - Google Patents

一种适用于云计算的资源监控告警框架及其方法 Download PDF

Info

Publication number
CN104410512A
CN104410512A CN201410588469.1A CN201410588469A CN104410512A CN 104410512 A CN104410512 A CN 104410512A CN 201410588469 A CN201410588469 A CN 201410588469A CN 104410512 A CN104410512 A CN 104410512A
Authority
CN
China
Prior art keywords
alarm
monitoring
data
module
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410588469.1A
Other languages
English (en)
Inventor
汤碧君
杨松
莫展鹏
季统凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
G Cloud Technology Co Ltd
Original Assignee
G Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by G Cloud Technology Co Ltd filed Critical G Cloud Technology Co Ltd
Priority to CN201410588469.1A priority Critical patent/CN104410512A/zh
Publication of CN104410512A publication Critical patent/CN104410512A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明涉及云计算领域,特别是指一种适用于云计算的资源监控告警框架及其方法。本发明包括监控告警控制器、告警数据收集器和告警数据处理器三个部分;监控告警控制器在监控程序启动之后读取节点的监控资源配置信息,生成相应的告警规则;然后调用告警数据收集器进行数据收集,并将收集完成的事件发送给告警数据处理器;告警数据处理器根据告警规则中的上下阈值进行判断,按照告警规则中的告警通知方式对超出了上下阈值包含范围的数据进行处理。本发明实现了统一的地方进行不同资源的监控告警配置,便于维护;而且复用性高;可以用于云计算的资源监控告警上。

Description

一种适用于云计算的资源监控告警框架及其方法
技术领域
本发明涉及云计算领域,特别是指一种适用于云计算的资源监控告警框架及其方法。
背景技术
在云计算系统中,除了云计算本身可以支配的计算资源、存储资源和网络资源以外,还需要对承载这些资源的实体——服务器进行监控告警,除此之外,电源、存储设备等也是监控告警的对象。
监控告警至少应包括四个步骤:收集告警信息、设置告警规则、处理告警信息和检索告警信息。传统的资源监控告警模式,需要通过对不同类型的资源分别进行程序开发来实现,具有以下弊端:
一是监控告警的配置信息分散,难以维护;
二是开发重复较多,人力资源浪费,且复用性不强。
为了能够简单高效地展开云计算平台的资源监控告警,需要一种既能实现统一配置维护,又能减少开发工作量、实现高复用性的监控告警框架。
发明内容
本发明所解决的技术问题之一在于提供一种适用于云计算的资源监控告警框架;解决监控告警配置信息分散、重复开发的问题。
本发明所解决的技术问题之二在于提供一种适用于云计算的资源监控告警方法;解决监控告警配置信息分散、重复开发的问题。
本发明解决上述技术问题之一的技术方案是:
所述的框架包括监控告警控制器、告警数据收集器和告警数据处理器三个部分;
所述的监控告警控制器是整个资源监控告警框架的核心调度模块,通过读取节点关于监控资源的配置信息,生成具体的告警规则;
所述的告警数据收集器是根据告警规则收集监控指标数据的模块,包括告警数据收集模块和告警数据处理器选择模块两个部分;
所述的告警数据处理器是对收集到的监控指标数据进行上下阈值判断并进行告警通知等处理的模块,包括告警规则处理引擎、告警数据持久化模块和告警通知模块三个部分。
所述的告警数据处理器选择模块是指根据收集到的数据类型选择具体告警数据处理器的模块。
告警规则处理引擎是负责读取动态的监控阈值表达式,并通过表达式结合监控数据进行计算的模块;
所述的告警数据持久化模块是负责将监控数据存储到监控历史数据库中,以便进行监控信息检索的模块;
所述的告警通知模块是负责以监控规则中指定的方式通知资源管理者的模块。
本发明解决上述技术问题之二的技术方案是:
所述的方法包括以下步骤:
步骤1:监控程序启动以后,监控告警控制器读取节点关于具体监控资源的配置信息,包括监控指标、上下阈值和告警通知方式;
步骤2:根据配置信息,生成相应告警规则;
步骤3:调用告警数据收集器,依据告警规则中的监控指标收集相应数据;
步骤4:完成收集后,向告警数据处理器发送一个收集完成的事件;
步骤5:告警数据处理器接收到监控告警数据收集完成的事件后,根据告警规则中的上下阈值进行判断,若数据超出上下阈值范围,执行步骤6,反之完成本次资源监控告警;
步骤6:按照告警规则中的告警通知方式对超出上下阈值包含范围的数据进行处理;
步骤7:将监控数据存储到监控历史数据库中,以便进行监控信息检索。
本发明通过监控告警控制器、告警数据收集器和告警数据处理器三个部分,在监控程序启动后,由监控告警控制器读取节点配置信息并生成告警规则,告警数据处理器选择模块根据收集到的数据类型选择具体的告警数据处理器,告警数据处理器的告警规则处理引擎负责读取动态的监控阈值表达式,并通过表达式结合监控数据进行计算,告警通知模块负责以监控规则中指定的方式通知资源管理者。本发明将不同类型资源的监控告警配置归入了统一的监控告警控制器中,简化方便了维护工作;而且对于云计算平台新增资源只需要少量的开发即可支持自动化的监控告警,具有很高的复用性。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明方法流程图。
具体实施方式
见图1所示,本发明系统通过quantz工具,实现用户自定义扫描间隔,每次扫描时检测云计算平台的cpu、存储、内存、回收站空间等资源大小,使用BaseCollectData数据收集基类收集多种告警信息,;并将多种告警信息归入数据收集的集合CollectDatas,在收集完成的时候时候发送一个EventType.Monitor_Collect事件;根据BaseCollectData提供的告警规则处理类BaseCollectHandler,调用其process处理,返回处理结果,并对超出阈值的进行邮件短信告警。
代码如下:
此处以节点失去连接为例,将节点失去连接数据封装入数据包中,调用收据收集完成事件进行处理。
接收到数据收集完成事件后,首先调用告警规则中的阈值进行判断,若接收人邮箱地址或电话不为空,则发送“由于某些原因失去连接,请及时排查故障。”信息进行告警,同时将此告警信息保存在数据库中。

Claims (5)

1.一种适用于云计算的资源监控告警框架,其特征在于:所述的框架包括监控告警控制器、告警数据收集器和告警数据处理器三个部分;
所述的监控告警控制器是整个资源监控告警框架的核心调度模块,通过读取节点关于监控资源的配置信息,生成具体的告警规则;
所述的告警数据收集器是根据告警规则收集监控指标数据的模块,包括告警数据收集模块和告警数据处理器选择模块两个部分;
所述的告警数据处理器是对收集到的监控指标数据进行上下阈值判断并进行告警通知等处理的模块,包括告警规则处理引擎、告警数据持久化模块和告警通知模块三个部分。
2.根据权利要求1所述的资源监控告警框架,其特征在于:所述的告警数据处理器选择模块是指根据收集到的数据类型选择具体告警数据处理器的模块。
3.根据权利要求1所述的资源监控告警框架,其特征在于:告警规则处理引擎是负责读取动态的监控阈值表达式,并通过表达式结合监控数据进行计算的模块;
所述的告警数据持久化模块是负责将监控数据存储到监控历史数据库中,以便进行监控信息检索的模块;
所述的告警通知模块是负责以监控规则中指定的方式通知资源管理者的模块。
4.根据权利要求2所述的资源监控告警框架,其特征在于:告警规则处理引擎是负责读取动态的监控阈值表达式,并通过表达式结合监控数据进行计算的模块;
所述的告警数据持久化模块是负责将监控数据存储到监控历史数据库中,以便进行监控信息检索的模块;
所述的告警通知模块是负责以监控规则中指定的方式通知资源管理者的模块。
5.一种权利要求1-4任一项所述的资源监控告警框架的资源监控告警方法,其特征在于:所述的方法包括以下步骤:
步骤1:监控程序启动以后,监控告警控制器读取节点关于具体监控资源的配置信息,包括监控指标、上下阈值和告警通知方式;
步骤2:根据配置信息,生成相应告警规则;
步骤3:调用告警数据收集器,依据告警规则中的监控指标收集相应数据;
步骤4:完成收集后,向告警数据处理器发送一个收集完成的事件;
步骤5:告警数据处理器接收到监控告警数据收集完成的事件后,根据告警规则中的上下阈值进行判断,若数据超出上下阈值范围,执行步骤6,反之完成本次资源监控告警;
步骤6:按照告警规则中的告警通知方式对超出上下阈值包含范围的数据进行处理;
步骤7:将监控数据存储到监控历史数据库中,以便进行监控信息检索。
CN201410588469.1A 2014-10-28 2014-10-28 一种适用于云计算的资源监控告警框架及其方法 Pending CN104410512A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410588469.1A CN104410512A (zh) 2014-10-28 2014-10-28 一种适用于云计算的资源监控告警框架及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410588469.1A CN104410512A (zh) 2014-10-28 2014-10-28 一种适用于云计算的资源监控告警框架及其方法

Publications (1)

Publication Number Publication Date
CN104410512A true CN104410512A (zh) 2015-03-11

Family

ID=52648110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410588469.1A Pending CN104410512A (zh) 2014-10-28 2014-10-28 一种适用于云计算的资源监控告警框架及其方法

Country Status (1)

Country Link
CN (1) CN104410512A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105376100A (zh) * 2015-12-09 2016-03-02 国云科技股份有限公司 一种适用于云平台资源监控的分布式告警规则评估方法
CN105471671A (zh) * 2015-11-10 2016-04-06 国云科技股份有限公司 一种云平台资源自定义监控规则的方法
CN105553717A (zh) * 2015-12-14 2016-05-04 上海携程商务有限公司 呼叫中心及其监控系统
CN106168970A (zh) * 2016-07-08 2016-11-30 北京光年无限科技有限公司 面向问答机器人的功能模块检测方法及系统
CN106201835A (zh) * 2016-07-14 2016-12-07 浪潮软件股份有限公司 一种预警自动管理的实现方法置的方法
CN106301919A (zh) * 2016-08-17 2017-01-04 浪潮电子信息产业股份有限公司 一种私有化云平台的告警系统及其实现方法
CN107241203A (zh) * 2016-03-28 2017-10-10 中移(苏州)软件技术有限公司 一种基础设施云中的实时告警处理方法及系统
CN107291868A (zh) * 2017-06-14 2017-10-24 郑州云海信息技术有限公司 一种监控数据处理装置及监控数据处理方法
CN108494622A (zh) * 2018-03-13 2018-09-04 新华三云计算技术有限公司 监控规则配置方法、装置及服务器
CN108920327A (zh) * 2018-06-27 2018-11-30 郑州云海信息技术有限公司 一种云计算告警方法及装置
CN110868338A (zh) * 2019-11-21 2020-03-06 北京高因科技有限公司 一种预警监控方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336510A (zh) * 2013-06-27 2013-10-02 山东华戎信息产业有限公司 一种物联网综合运维管理系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336510A (zh) * 2013-06-27 2013-10-02 山东华戎信息产业有限公司 一种物联网综合运维管理系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105471671A (zh) * 2015-11-10 2016-04-06 国云科技股份有限公司 一种云平台资源自定义监控规则的方法
CN105376100A (zh) * 2015-12-09 2016-03-02 国云科技股份有限公司 一种适用于云平台资源监控的分布式告警规则评估方法
CN105376100B (zh) * 2015-12-09 2019-05-21 国云科技股份有限公司 一种适用于云平台资源监控的分布式告警规则评估方法
CN105553717A (zh) * 2015-12-14 2016-05-04 上海携程商务有限公司 呼叫中心及其监控系统
CN105553717B (zh) * 2015-12-14 2019-07-26 上海携程商务有限公司 呼叫中心及其监控系统
CN107241203A (zh) * 2016-03-28 2017-10-10 中移(苏州)软件技术有限公司 一种基础设施云中的实时告警处理方法及系统
CN106168970A (zh) * 2016-07-08 2016-11-30 北京光年无限科技有限公司 面向问答机器人的功能模块检测方法及系统
CN106201835A (zh) * 2016-07-14 2016-12-07 浪潮软件股份有限公司 一种预警自动管理的实现方法置的方法
CN106301919A (zh) * 2016-08-17 2017-01-04 浪潮电子信息产业股份有限公司 一种私有化云平台的告警系统及其实现方法
CN107291868A (zh) * 2017-06-14 2017-10-24 郑州云海信息技术有限公司 一种监控数据处理装置及监控数据处理方法
CN108494622A (zh) * 2018-03-13 2018-09-04 新华三云计算技术有限公司 监控规则配置方法、装置及服务器
CN108920327A (zh) * 2018-06-27 2018-11-30 郑州云海信息技术有限公司 一种云计算告警方法及装置
CN110868338A (zh) * 2019-11-21 2020-03-06 北京高因科技有限公司 一种预警监控方法
CN110868338B (zh) * 2019-11-21 2021-05-25 北京高因科技有限公司 一种预警监控方法

Similar Documents

Publication Publication Date Title
CN104410512A (zh) 一种适用于云计算的资源监控告警框架及其方法
CN108564181A (zh) 电力设备故障检测与维修方法及终端设备
CN102346725B (zh) 更改设备配置文件的消息通知装置及方法
JP2019517040A (ja) クラウドプラットフォームベースのクライアントアプリケーション情報統計方法および装置
EP3398064A1 (en) Distributed task system and service processing method based on internet of things
CN103905533A (zh) 基于云存储的分布式告警监控方法和系统
CN102226890A (zh) 一种主机批量作业数据监控方法及装置
CN108256813B (zh) 任务提醒方法和服务器
CN103678090A (zh) 数据处理的监控方法和装置
US20180253313A1 (en) Operation instruction response control method and terminal for human-machine interface
CN105373118A (zh) 一种智能设备数据采集方法
CN111130867B (zh) 一种基于物联网的智能家居设备告警方法及装置
CN105471938A (zh) 服务器负载管理方法及装置
CN202084026U (zh) 一种主机批量作业数据监控系统
CN104977887A (zh) 一种基于scada系统的信息监控系统及其监控方法
CN102541563A (zh) 一种监控界面生成方法及系统
CN105357026A (zh) 一种资源信息收集方法和计算节点
CN111376255B (zh) 机器人数据采集方法、装置及终端设备
CN112506154A (zh) 一种生活污水处理站物联网监控系统
CN112622690A (zh) 一种动力电池安全充电的监测方法及系统
CN110609758A (zh) 基于队列的设备运行方法、计算机设备及可读存储介质
CN109362042A (zh) 一种告警信息的传输方法和装置
CN111211938B (zh) 生物信息软件监控系统及方法
CN116416764A (zh) 报警阈值的生成方法和装置、电子设备和存储介质
CN114356713A (zh) 线程池监控方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150311