CN104410535B - 一种云资源智能监控告警方法 - Google Patents

一种云资源智能监控告警方法 Download PDF

Info

Publication number
CN104410535B
CN104410535B CN201410806959.4A CN201410806959A CN104410535B CN 104410535 B CN104410535 B CN 104410535B CN 201410806959 A CN201410806959 A CN 201410806959A CN 104410535 B CN104410535 B CN 104410535B
Authority
CN
China
Prior art keywords
alarm
resource
layer
performance
virtualization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410806959.4A
Other languages
English (en)
Other versions
CN104410535A (zh
Inventor
吕广杰
刘正伟
朱波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410806959.4A priority Critical patent/CN104410535B/zh
Publication of CN104410535A publication Critical patent/CN104410535A/zh
Application granted granted Critical
Publication of CN104410535B publication Critical patent/CN104410535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种云资源智能监控告警方法,其具体实现过程包括:定义云资源实体,异构资源架构,性能采集,告警策略,其中:定义云资源实体是该方案实现云资源监控告警的前提;异构资源架构是该方案兼容各类异构虚拟化平台的核心环节;性能采集是该方案的数据采集环节;告警策略是体现本方案智能告警的环节。该一种云资源智能监控告警方法与现有技术相比,方便用户及时发现资源异常并进行修复,具备高扩展性、兼容性、适用性、科学性,实用性强。

Description

一种云资源智能监控告警方法
技术领域
本发明涉及计算机技术领域,具体地说是一种实用性强、云资源智能监控告警方法。
背景技术
随着信息科技的发展,云计算逐步成为业界的发展热点,国内外各大厂商的云计算服务平台也开始纷纷投入到科学、教育、文化、卫生、政府、高性能计算、电子商务、物联网等多个领域进行使用。
在云计算的竞争大潮中,VMware、亚马逊、微软等厂家逐渐崭露头角,它们的产品由于具有稳定性高、性能好等优势,逐步发展成为云计算的主流虚拟化产品。然而,由于云计算缺乏统一的设计标准,不同厂家开发的虚拟化产品大相径庭,很难被统一管理、监控起来。
在云服务平台中,高效的资源监控不仅是必需的,而且已经成为企业成功的先决条件。主机、虚拟机、存储或软件出现故障,将对企业的整个经营活动产生巨大影响。
传统的云数据中心,对于不同厂商、类型的云资源,都需要进行单独的性能监控,甚至需要人工手动记录,步骤十分繁琐复杂。而且不同厂商、不同型号、不同类型的资源,监控方法截然不同,每次采集性能信息时,运维人员都需要在各个资源上进行采集,操作过程异常繁琐,更不要说统一监控管理。
为了有效的降低运维成本,统一监控异构云计算资源,更早地发现资源异常,减轻运维者在管理数据中心时的繁琐工作,现提出了一种易扩展、易开发、易维护的云数据中心资源智能监控告警方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、云资源智能监控告警方法。
一种云资源智能监控告警方法,其具体实现过程为:
首先定义云资源实体:抽象各类云数据中心资源,定义虚拟控制中心、集群、虚拟数据中心、主机、存储、虚拟机六大资源实体,为各种虚拟化平台的云资源统一定义资源类型格式,分类监控和告警;
搭建异构资源架构:设置虚拟化适配器,且该架构从下到上划分为虚拟化层、虚拟化适配层、业务层三大层,对下层虚拟化层适配虚拟化类型、对上层业务层暴露统一的调用接口;
进行性能采集:每个采集线程只与数据库交互;当数据中心有若干资源时,配置多个采集线程共存,以降低采集压力;通过配置文件,设置每个采集线程采集的云资源实体类型,实现采集线程无状态特性及资源采集对象的自定义;
设置告警策略:设置告警阈值,达到该告警阈值时自动报警并处理。
所述定义云资源实体的具体过程为:
S1、定义虚拟控制中心,即虚拟化软件的管理端;
S2、定义集群,该集群为若干主机的集合;
S3、定义虚拟数据中心,该虚拟数据中心为CPU、内存、存储容量的集合,即资源池;
S4、定义主机,该主机位安装虚拟化操作系统的物理机;
S5、定义存储,该存储为挂载在主机上,保存虚拟机磁盘文件的数据存储设备;
S6、定义虚拟机,该虚拟机为运行在主机上的,用软件模拟的计算机系统。
所述异构管理架构中,虚拟化层包含各虚拟化厂商的接口API,通过调用API,采集各类资源的性能信息;虚拟化适配层对下层虚拟化层的虚拟化资源接口进行封装,并对上层业务层暴露统一的资源管理接口,实现异构虚拟化适配的功能;业务层通过调用下层虚拟化适配层提供的统一接口,实现虚拟控制中心、集群、虚拟数据中心、主机、存储、虚拟机各类云资源的性能监控。
所述性能采集是云资源监控的数据采集环节,其具体实现过程为:
1)对每个性能采集线程初始化,通过读取配置文件中的配置属性,确定本线程采集的资源实体类型;通过修改配置文件,动态调配各采集线程的监控实体;
2)为每个采集线程配备守护线程,采集线程与守护线程定时相互检测对方状态,一方宕掉后,另一方将其重启;
3)采集线程定时采集性能信息并直接保存到性能数据库;
4)其余API服务器直接调用业务层的接口管理数据库中的信息,与底层采集线程解耦。
所述告警策略详细设置过程为:
设置各类资源各类监测项的告警阈值设置,且告警比对符设置大于、小于或等于某个阈值;
告警处理程序在性能数据库中读取资源性能数据,与相应资源类型的监控项阈值进行比对;
性能数据符合告警阈值时,仅记录最高级别的告警信息,更新到实时告警数据库中;
性能数据不符合告警阈值时,自动确认之前保存的实时告警信息,并移至历史告警中记录;
上述告警记录表中只保存告警参数,不保存告警详情,以缓解数据库存储压力。
本发明的一种云资源智能监控告警方法,具有以下优点:
该发明的一种云资源智能监控告警方法通过引入虚拟化适配器,将异构厂商、型号的云计算资源进行抽象,在上层统一监控管理。屏蔽底层资源的差异,使得运维人员不必关心底层资源的具体情况,直接通过界面操作即可监控管理整个云数据中心的资源,管理更加简便快捷;通过智能的告警策略和数据分析,方便用户及时发现资源异常并进行修复,简单、通用、科学、实用;易于推广。
附图说明
附图1为本方法的系统架构图。
附图2为云资源实体示意图。
附图3为异构管理层次图。
附图4为性能采集流程示意图。
附图5为守护线程示意图。
附图6为告警流程图。
附图7为告警阈值表。
附图8为告警记录表。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明提出一种云资源智能监控告警方法,通过引入自主设计的异构资源适配器,将不同厂商、品牌、类型的云资源接口进行封装,对外暴露统一的管理接口,屏蔽虚拟化层差异,节省系统运维成本;通过使用智能的告警策略和数据分析方法,方便用户及时发现资源异常并进行修复,具备高扩展性、兼容性、适用性、科学性。
如附图1所示,其具体实现过程为:
首先定义云资源实体:抽象各类云数据中心资源,定义虚拟控制中心、集群、虚拟数据中心、主机、存储、虚拟机六大资源实体,为各种虚拟化平台的云资源统一定义资源类型格式,分类监控和告警;
搭建异构资源架构:设置虚拟化适配器,且该架构从下到上划分为虚拟化层、虚拟化适配层、业务层三大层,对下层虚拟化层适配虚拟化类型、对上层业务层暴露统一的调用接口,实现对各种虚拟化平台的无缝兼容;
进行性能采集:每个采集线程只与数据库交互,具有无状态特性;对于资源多的数据中心,可以配置多个采集线程共存,以降低采集压力;通过配置文件,可设置每个采集线程采集的云资源实体类型,使得性能采集过程更加简单化、灵活化;
设置告警策略:通过灵活的告警阈值策略,实现对不同资源类型、不同监测项的告警阈值设置;通过自动的告警发现、处理机制,便于用户及时发现并解决资源异常。
其中,定义云资源实体描述云数据中心的监控资源集合,是该方案的实施基础。通过广泛调研各大云计算厂商的虚拟化产品,将云资源实体划分为六大类:虚拟控制中心、集群、虚拟数据中心、主机、存储、虚拟机。如附图2,各实体定义如下:
S1 虚拟控制中心:虚拟化软件的管理端,如VMware的vCenter Server;
S2 集群:若干主机的集合;
S3 虚拟数据中心:CPU、内存、存储容量的集合,即资源池;
S4 主机:安装虚拟化操作系统的物理机;
S5 存储:挂载在主机上,保存虚拟机磁盘文件的数据存储;
S6 虚拟机:运行在主机上的,用软件模拟的计算机系统。
异构管理架构实现统一管理异构资源的功能,是本发明的基础系统架构。如附图3,整个资源监控架构从下到上划分为虚拟化层、虚拟化适配层、业务层三大层,其中各层次的功能职责如下:
S1 虚拟化层:包含各虚拟化厂商的接口API,通过调用API,采集各类资源的性能信息;
S2 虚拟化适配层:对下层(虚拟化层)的虚拟化资源接口进行封装,并对上层(业务层)暴露统一的资源管理接口,实现异构虚拟化适配的功能;
S3 业务层:通过调用下层(虚拟化适配层)提供的统一接口,实现虚拟控制中心、集群、虚拟数据中心、主机、存储、虚拟机等各类云资源的性能监控。
性能采集是云资源监控的数据采集环节,其实现流程示意图如附图4:
S1 对于每个性能采集线程,初始化时通过读取配置文件中的配置属性,确定本线程采集的资源实体类型。通过修改配置文件,可以动态调配各采集线程的监控实体,灵活易扩展;
S2 如附图5,采用双保险的守护策略,为每个采集线程配备守护线程,采集线程与守护线程定时相互检测对方状态,一方宕掉后,另一方将其重启,达到高可靠效果;
S3 采集线程定时采集性能信息并直接保存到性能数据库,具有无状态的特性,因此可实现多采集线程的共存、多活;
S4 Rest API Server直接调用业务层的接口管理数据库中的信息,与底层采集线程解耦。
告警策略是体现本方案智能、自动告警的环节。如附图6,告警流程如下:
S1 如附图7的告警阈值表,本方案提供灵活的告警策略,支持各类资源各类监测项的告警阈值设置,且告警比对符可设置大于、小于或等于某个阈值;
S2 告警处理程序在性能数据库中读取资源性能数据,与相应资源类型的监控项阈值进行比对;
S3 性能数据符合告警阈值时,仅记录最高级别的告警信息,更新到实时告警数据库中;
S4 性能数据不符合告警阈值时,自动确认之前保存的实时告警信息,并移至历史告警中记录;
S5 如附图8,告警记录表中只保存告警参数,不保存告警详情,以缓解数据库存储压力。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种云资源智能监控告警方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (3)

1.一种云资源智能监控告警方法,其特征在于,其具体实现过程为:
首先定义云资源实体:抽象各类云数据中心资源,定义虚拟控制中心、集群、虚拟数据中心、主机、存储、虚拟机六大资源实体,为各种虚拟化平台的云资源统一定义资源类型格式,分类监控和告警;
搭建异构资源架构:设置虚拟化适配器,且该架构从下到上划分为虚拟化层、虚拟化适配层、业务层三大层,对下层虚拟化层适配虚拟化类型、对上层业务层暴露统一的调用接口;
进行性能采集:每个采集线程只与数据库交互;当数据中心有若干资源时,配置多个采集线程共存,以降低采集压力;通过配置文件,设置每个采集线程采集的云资源实体类型,实现采集线程无状态特性及资源采集对象的自定义;
所述性能采集是云资源监控的数据采集环节,其具体实现过程为:
1)对每个性能采集线程初始化,通过读取配置文件中的配置属性,确定本线程采集的资源实体类型;通过修改配置文件,动态调配各采集线程的监控实体;
2)为每个采集线程配备守护线程,采集线程与守护线程定时相互检测对方状态,一方宕掉后,另一方将其重启;
3)采集线程定时采集性能信息并直接保存到性能数据库;
4)其余API服务器直接调用业务层的接口管理数据库中的信息,与底层采集线程解耦;
设置告警策略:设置告警阈值,达到该告警阈值时自动报警并处理,详细设置过程为:
设置各类资源各类监测项的告警阈值设置,且告警比对符设置大于、小于或等于某个阈值;
告警处理程序在性能数据库中读取资源性能数据,与相应资源类型的监控项阈值进行比对;
性能数据符合告警阈值时,仅记录最高级别的告警信息,更新到实时告警数据库中;
性能数据不符合告警阈值时,自动确认之前保存的实时告警信息,并移至历史告警中记录;
上述告警记录表中只保存告警参数,不保存告警详情,以缓解数据库存储压力。
2.根据权利要求1所述的一种云资源智能监控告警方法,其特征在于,所述定义云资源实体的具体过程为:
S1、定义虚拟控制中心,即虚拟化软件的管理端;
S2、定义集群,该集群为若干主机的集合;
S3、定义虚拟数据中心,该虚拟数据中心为CPU、内存、存储容量的集合,即资源池;
S4、定义主机,该主机为 安装虚拟化操作系统的物理机;
S5、定义存储,该存储为挂载在主机上,保存虚拟机磁盘文件的数据存储设备;
S6、定义虚拟机,该虚拟机为运行在主机上的,用软件模拟的计算机系统。
3.根据权利要求1所述的一种云资源智能监控告警方法,其特征在于,所述异构管理架构中,虚拟化层包含各虚拟化厂商的接口API,通过调用API,采集各类资源的性能信息;虚拟化适配层对下层虚拟化层的虚拟化资源接口进行封装,并对上层业务层暴露统一的资源管理接口,实现异构虚拟化适配的功能;业务层通过调用下层虚拟化适配层提供的统一接口,实现虚拟控制中心、集群、虚拟数据中心、主机、存储、虚拟机各类云资源的性能监控。
CN201410806959.4A 2014-12-23 2014-12-23 一种云资源智能监控告警方法 Active CN104410535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410806959.4A CN104410535B (zh) 2014-12-23 2014-12-23 一种云资源智能监控告警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410806959.4A CN104410535B (zh) 2014-12-23 2014-12-23 一种云资源智能监控告警方法

Publications (2)

Publication Number Publication Date
CN104410535A CN104410535A (zh) 2015-03-11
CN104410535B true CN104410535B (zh) 2018-03-30

Family

ID=52648133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410806959.4A Active CN104410535B (zh) 2014-12-23 2014-12-23 一种云资源智能监控告警方法

Country Status (1)

Country Link
CN (1) CN104410535B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10042697B2 (en) 2015-05-28 2018-08-07 Oracle International Corporation Automatic anomaly detection and resolution system
CN106331024A (zh) * 2015-06-30 2017-01-11 中兴通讯股份有限公司 访问云数据的方法及装置
CN105446815A (zh) * 2015-10-30 2016-03-30 浪潮(北京)电子信息产业有限公司 虚拟化系统的监控方法和装置
CN106712992A (zh) * 2015-11-16 2017-05-24 中兴通讯股份有限公司 一种云管理方法和系统
CN105357310A (zh) * 2015-11-20 2016-02-24 中国石油天然气股份有限公司华北油田分公司 一种能源云平台及基于能源云平台的数据交互方法
CN105472001A (zh) * 2015-12-08 2016-04-06 浪潮电子信息产业股份有限公司 一种云平台虚拟化管理节点自动切换方案
CN105515875A (zh) * 2015-12-25 2016-04-20 广东亿迅科技有限公司 一种总机管理的方法
CN106095638A (zh) * 2016-05-30 2016-11-09 浪潮电子信息产业股份有限公司 一种服务器资源告警的方法、装置及系统
CN106210124B (zh) * 2016-08-03 2019-03-05 浪潮电子信息产业股份有限公司 一种统一的云数据中心监控系统
CN106453544B (zh) * 2016-09-30 2020-02-07 苏州浪潮智能科技有限公司 一种云环境及其监控方法、系统
CN106844165B (zh) * 2016-12-16 2020-09-29 华为技术有限公司 告警方法及装置
CN106886477B (zh) * 2017-02-20 2021-06-29 郑州云海信息技术有限公司 一种云系统中监控阈值设定方法及装置
CN106899436A (zh) * 2017-02-22 2017-06-27 郑州云海信息技术有限公司 一种云平台故障预测诊断系统
CN107172643A (zh) * 2017-05-05 2017-09-15 电子科技大学 一种基于数据库触发器实现告警的基站监控方法
CN106973119A (zh) * 2017-05-17 2017-07-21 国网山东省电力公司信息通信公司 一种电力企业存储资源管理系统
CN107370625A (zh) * 2017-07-24 2017-11-21 北京哈工大计算机网络与信息安全技术研究中心 一种云平台运行状态监控方法及监控平台
CN107391350A (zh) * 2017-07-28 2017-11-24 郑州云海信息技术有限公司 一种监控视图的显示方法、装置及系统
CN107733712A (zh) * 2017-10-18 2018-02-23 郑州云海信息技术有限公司 云计算系统中服务资源的监控方法和装置
CN107612755A (zh) * 2017-10-31 2018-01-19 郑州云海信息技术有限公司 一种云资源的管理方法及其装置
CN107707413A (zh) * 2017-11-10 2018-02-16 郑州云海信息技术有限公司 一种集群容灾方法及装置
CN109818998B (zh) * 2017-11-22 2021-05-25 中国电信股份有限公司 信息同步方法和装置
CN107894944A (zh) * 2017-11-30 2018-04-10 三盟科技股份有限公司 一种基于大数据和云计算业务下的智能监控方法及系统
CN107992951A (zh) * 2017-12-11 2018-05-04 上海市信息网络有限公司 云管理平台的容量告警方法、系统、存储器及电子设备
CN110071820A (zh) * 2018-01-24 2019-07-30 北京云集智造科技有限公司 一种支持多场景的it系统监控装置和方法
CN108508874B (zh) * 2018-05-08 2019-12-31 网宿科技股份有限公司 一种监控设备故障的方法和装置
CN108920327A (zh) * 2018-06-27 2018-11-30 郑州云海信息技术有限公司 一种云计算告警方法及装置
CN109582464B (zh) * 2018-12-03 2021-04-30 郑州云海信息技术有限公司 一种云平台管理多种虚拟化平台的方法和装置
CN109660388A (zh) * 2018-12-03 2019-04-19 郑州云海信息技术有限公司 一种基于云平台的告警管理方法及装置
CN109903175A (zh) * 2019-03-26 2019-06-18 众安在线财产保险股份有限公司 一种保险核心系统监控平台
CN110336889B (zh) * 2019-07-15 2021-05-25 山东省气象科学研究所 一种数值天气预报模式运行智能监控平台和监控方法
CN110704283A (zh) * 2019-09-05 2020-01-17 北京浪潮数据技术有限公司 一种统一生成告警信息的方法、装置和介质
CN111343017B (zh) * 2020-02-22 2022-12-09 苏州浪潮智能科技有限公司 一种云平台资源告警的方法、系统、设备及介质
CN112866020A (zh) * 2021-01-12 2021-05-28 浪潮云信息技术股份公司 一种云中心智能告警处理系统及方法
CN113032217B (zh) * 2021-03-26 2023-03-10 山东英信计算机技术有限公司 一种集群监控方法及相关装置
CN113760668A (zh) * 2021-08-30 2021-12-07 浪潮电子信息产业股份有限公司 一种云平台的故障告警方法、系统及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916507A (zh) * 2010-08-10 2010-12-15 广东省建筑科学研究院 桥梁健康监测系统
CN102739452A (zh) * 2012-06-28 2012-10-17 浪潮(北京)电子信息产业有限公司 资源监控方法和系统
CN103051710A (zh) * 2012-12-20 2013-04-17 中国科学院深圳先进技术研究院 一种虚拟云平台管理系统及方法
CN103414579A (zh) * 2013-07-24 2013-11-27 广东电子工业研究院有限公司 一种适用于云计算的跨平台监控系统及其监控方法
CN103780696A (zh) * 2014-01-23 2014-05-07 北京荣之联科技股份有限公司 基于分布式推送的云监控方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916507A (zh) * 2010-08-10 2010-12-15 广东省建筑科学研究院 桥梁健康监测系统
CN102739452A (zh) * 2012-06-28 2012-10-17 浪潮(北京)电子信息产业有限公司 资源监控方法和系统
CN103051710A (zh) * 2012-12-20 2013-04-17 中国科学院深圳先进技术研究院 一种虚拟云平台管理系统及方法
CN103414579A (zh) * 2013-07-24 2013-11-27 广东电子工业研究院有限公司 一种适用于云计算的跨平台监控系统及其监控方法
CN103780696A (zh) * 2014-01-23 2014-05-07 北京荣之联科技股份有限公司 基于分布式推送的云监控方法、装置及系统

Also Published As

Publication number Publication date
CN104410535A (zh) 2015-03-11

Similar Documents

Publication Publication Date Title
CN104410535B (zh) 一种云资源智能监控告警方法
US9275172B2 (en) Systems and methods for analyzing performance of virtual environments
US9471462B2 (en) Proactive risk analysis and governance of upgrade process
US8738972B1 (en) Systems and methods for real-time monitoring of virtualized environments
US10656968B2 (en) Managing a set of wear-leveling data using a set of thread events
US20200175395A1 (en) Interactive design and support of a reference architecture
CN105404581B (zh) 一种数据库的评测方法和装置
CN206515814U (zh) 一种硬盘状态监测装置
CN1988549A (zh) 生成用于应用会话的资源使用简档的方法和系统
US20200089533A1 (en) Methods and systems for cloud application optimization
CN107533503A (zh) 在部署期间选择虚拟化环境的方法和装置
CN105224888B (zh) 一种基于安全预警技术的磁盘阵列数据保护系统
JP2012059063A5 (zh)
CN102722431A (zh) 进程监控方法及装置
US10078457B2 (en) Managing a set of wear-leveling data using a set of bus traffic
EP3238102A1 (en) Techniques to generate a graph model for cloud infrastructure elements
US20180165584A1 (en) Predicting application response time based on metrics
CN103069749A (zh) 虚拟环境中的问题的隔离
US10528407B2 (en) Integrated statistical log data mining for mean time auto-resolution
CN108153590A (zh) 管理硬件资源
US10127017B2 (en) Devops management
WO2018118379A1 (en) Systems and methods for real time computer fault evaluation
CN107305487A (zh) 一种基于vmware虚拟化助手管理软件系统
CN108009004A (zh) 基于Docker的业务应用可用度测量监控的实现方法
US11334410B1 (en) Determining aberrant members of a homogenous cluster of systems using external monitors

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant