CN110764961A - 大数据分析的数据中心告警管理系统 - Google Patents

大数据分析的数据中心告警管理系统 Download PDF

Info

Publication number
CN110764961A
CN110764961A CN201810828434.9A CN201810828434A CN110764961A CN 110764961 A CN110764961 A CN 110764961A CN 201810828434 A CN201810828434 A CN 201810828434A CN 110764961 A CN110764961 A CN 110764961A
Authority
CN
China
Prior art keywords
alarm
data
module
monitoring
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810828434.9A
Other languages
English (en)
Inventor
邓玉成
王宣
肖建龙
吉正继
葛莉莉
朱晓华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Science And Technology Network Communication Co Ltd
Original Assignee
Shanghai Science And Technology Network Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Science And Technology Network Communication Co Ltd filed Critical Shanghai Science And Technology Network Communication Co Ltd
Priority to CN201810828434.9A priority Critical patent/CN110764961A/zh
Publication of CN110764961A publication Critical patent/CN110764961A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了一种大数据分析的数据中心告警管理系统,其包括相互连接的服务器端和移动端;服务器端包括以下模块:数据获取模块,通过API接口和各监控子系统集成对接,实时获取到各个模块的告警信息;配置管理模块,同样通过API接口和各监控子系统集成对接等。本发明将数据中心中各个监控子系统的告警统一收集,实现在一个平台中接收各个监控子系统的告警,让运维人员集中处理IT事件,避免多平台参与和切换,提升运维效率。

Description

大数据分析的数据中心告警管理系统
技术领域
本发明涉及一种数据中心告警管理系统,特别是涉及一种大数据分析的数据中心告警管理系统。
背景技术
现有的数据中心监控系统主要是针对机房所有的设备及环境进行监控和管理的,其监控对象构成整个机房的各个子系统:网络系统、动力系统、环境控制系统、消防系统、安保系统。机房监控系统基于网络综合布线系统,采用集散监控,在机房监视室放置监控主机,运行监控软件,以统一的界面对各个子系统集中监控。机房监控系统实时监控各系统设备的运行状态及工作参数,发现部件故障或参数异常,采取多媒体动画、语音、电话、短消息等多种报警方式,并记录历史数据和报警事件。可以说机房监控系统就是机房的眼睛,时刻注意着数据中心的各种状态,为数据中心的安全可靠的保障。但是机房监控各个子系统只监控各自系统模块单元,并对告警信息进行单独处理,缺乏统一的集中管理平台,其缺点如下:一、各个子系统告警数据多且分散,造成监控告警信息无法覆盖用户最需要的数据;二、各个子系统间未打通,无法完成跨系统故障分析;三、各个子监控系统告警模式单一,无故障根源分析能力;四、没有运维管理体系,问题发生了无人进行处理;五、扩展能力不足,无法提供与用户的其他系统集成。
发明内容
本发明所要解决的技术问题是提供一种大数据分析的数据中心告警管理系统,其将数据中心中各个监控子系统的告警统一收集,实现在一个平台中接收各个监控子系统的告警,让运维人员集中处理IT事件,避免多平台参与和切换,提升运维效率。
本发明是通过下述技术方案来解决上述技术问题的:一种大数据分析的数据中心告警管理系统,其特征在于,所述大数据分析的数据中心告警管理系统包括相互连接的服务器端和移动端;服务器端包括以下模块:
数据获取模块,通过API接口和各监控子系统集成对接,实时获取到各个模块的告警信息;
配置管理模块,同样通过API接口和各监控子系统集成对接,获取到各个监控子系统的监控项的配置信息,将相关配置信息存储在告警集中管理系统数据中,同时配置管理模块录入相关运维人员数据,供后续模块的使用,方便后续相关告警数据的处理、分析及关联;
数据处理及分析模块,对获取到的各个监控子系统的告警数据进行汇聚处理,将大量重复的告警事件压缩为一条有真正意义的告警,并通过关联将告警合并起来,为运维人员提供分析、甄选之后的最重要的告警;同时对告警数据进行大数据分析,对后续数据中心设备的维护工作提供指导意见;
数据分配推送模块,将处理后的告警数据通过分派策略分配给不同的运维人员,对应接收到的告警数据,后续形成事件进入事件管理模块进行流程流转和处理;
第一事件管理模块,用于监控系统产生的告警事件的处理,以保障正常工作以及发现并升级异常情况;
移动端包括:
告警查看模块,查看相关监控系统推送过来的告警信息;
第二事件管理模块,与告警查看模块连接,进行告警事件的处理和流转。
优选地,所述数据获取模块、配置管理模块、数据分配推送模块都与数据处理及分析模块连接,数据分配推送模块与第一事件管理模块连接。
优选地,所述大数据分析的数据中心告警管理系统通过至少一个API接口分别和一个网络监控系统、一个环控监控系统、一个动力监控系统、一个消防监控系统、一个安保监控系统进行集成对接,进行数据同步,实时获取到各个子系统对应级别的告警数据。
优选地,所述告警数据至少包括监控配置项、设备名称、时间、类型、级别、内容的字段数据。
本发明的积极进步效果在于:
一,将数据中心中各个监控子系统的告警统一收集,实现在一个平台中接收各个监控子系统的告警,让运维人员集中处理IT事件,避免多平台参与和切换,提升运维效率。
二,使用时间序列规则,将大量重复的告警事件压缩为一条有真正意义的告警。而后通过属性关联、机器学习等大数据分析方法把相关的告警合并起来,为运维人员提供分析、甄选之后的最重要的告警,更快地定位告警和问题根源,可实现高达98%的告警压缩率。
三,利用配置管理数据库,并通过对告警数据的处理及分析,建立智能的监控配置项、告警数据、运维人员关联关系,从而提供灵活的告警分派策略,可以将不同应用、级别、内容的告警分配给不同的运维人员。
四,本系统除了告警的集中管理外,还建立了告警事件的后续处理机制及流程,组织起一线、二线、外线的阶梯式团队,建立起7x 24小时的应急响应机制,提升了数据中心运维服务水平。
五,采用了移动应用、移动浏览器、桌面浏览器相结合的方式,能够适应移动的工位、固定的工位,可以提高系统的运行效率。
附图说明
图1为本发明大数据分析的数据中心告警管理系统的原理框图。
图2为本发明中服务器端的原理框图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
如图1和图2所示,本发明大数据分析的数据中心告警管理系统包括相互连接的服务器端和移动端;
服务器端包括以下模块:
数据获取模块,通过API接口和各监控子系统集成对接(网络监控系统、环控监控系统、动力监控系统、消防监控系统、安保监控系统),实时获取到各个模块的告警信息。
配置管理模块,同样通过API接口和各监控子系统集成对接,获取到各个监控子系统的监控项(如交换机、空调、UPS等)的配置信息,将相关配置信息存储在告警集中管理系统数据中,同时配置管理模块录入相关运维人员数据,供后续模块的使用,方便后续相关告警数据的处理、分析及关联。
数据处理及分析模块,对获取到的各个监控子系统的告警数据进行汇聚处理,将大量重复的告警事件压缩为一条有真正意义的告警,并通过关联将告警合并起来,为运维人员提供分析、甄选之后的最重要的告警。同时对告警数据进行大数据分析,对后续数据中心设备的维护工作提供指导意见。
数据分配推送模块,将处理后的告警数据通过分派策略分配给不同的运维人员,同时告警通知的途径具有多种形式-邮件、短信、微信、电话(自动外呼)等,对应接收到的告警数据,后续形成事件进入事件管理模块进行流程流转和处理。
第一事件管理模块,用于监控系统产生的告警事件的处理,以保障正常工作以及发现并升级异常情况。
移动端包括:
告警查看模块,查看相关监控系统推送过来的告警信息;
第二事件管理模块,与告警查看模块连接,进行告警事件的处理和流转。
数据获取模块、配置管理模块、数据分配推送模块都与数据处理及分析模块连接,数据分配推送模块与第一事件管理模块连接,这样方便连接。
本系统平台主要包括服务器端和移动端。服务器端主要实现对告警数据的获取、处理、分析、推送及告警事件处理,可以是基于APACHE或者TOMCAT 的WEB服务器,也可以是其他的专门开发的网络端服务软件。移动终端主要实现方便快捷的查看相关告警信息,同事进行告警事件的处理和流转,可以是手机APP应用,也可以是基于HTML5协议的WEB应用,也可以是微信企业号应用。
系统通过至少一个API接口分别和一个网络监控系统、一个环控监控系统、一个动力监控系统、一个消防监控系统、一个安保监控系统等监控子系统进行集成对接,进行数据同步,实时获取到各个子系统对应级别(对部分不需要接入集中管理的数据根据优先级等字段进行过滤)的告警数据。
所获取的告警数据所包括的字段信息可配置,应该至少包括监控配置项、设备名称、时间、类型、级别、内容等字段数据。
系统通过API接口和各监控子系统集成对接,获取到各个监控子系统的监控项(如交换机、空调、UPS等)的配置信息,将相关配置信息存储在告警集中管理系统数据中,系统录入相关运维人员数据,供后续模块的使用,方便后续相关告警数据的处理、分析及关联。
对系统获取到的告警数据进行汇聚,使用时间序列规则,将同一监控子项大量重复的告警事件压缩为一条有真正意义的告警,而后通过属性关联、机器学习等大数据分析方法把可以把不同监控子系统的相关的告警合并起来,最终展现出来的是一条告警信息(包括相关提炼的字段数据),告警关联子菜单展示出关联合并前的所有告警信息。系统同时对于监控配置项(交换机、空调、UPS等)、告警信息、运维人员(网络组、电力组、空调组、服务器组、消防组等)进行相关联,方便后续告警数据的推送,告警事件的处理和流转。另外系统对告警数据进行大数据分析,生成相关配置项、相关设备的告警分析报告,对后续数据中心设备的维护工作提供指导意见。
系统将处理后的告警数据通过分派策略分配给不同的运维人员,具体根据告警对应的监控配置项,通过监控配置项关联到对应的运维人员,具体可参考关联模式,如对应交换机的告警分配推送给网络组运维人员。同时,系统与邮件、短信、微信企业号、呼叫中心系统进行集成对接,实现多种形式的告警通知,如邮件、短信、微信、电话(自动外呼)等。
第一事件管理模块和第二事件管理模块还用于监控系统产生的告警事件,以保障正常工作以及发现并升级异常情况。在事件管理中,告警事件会经过三线组成的处理流程进行处理和流转,首先告警分配推送给一线工程师 (值班工程师),一线工程师负责处理事件或将不能处理的事件转派二线工程师(高级工程师);二线工程师负责对一线转派过来的事件进行处理,对于需要外线处理的转派外线;外线工程师负责解决二线处理不了且需要去相关现场处理的告警事件(如运营商上联端或者用户端),最终实现告警事件的解决。同时,事件管理模块记录告警的来源,有助于后续事件数据的整体分析和统计,生成相关报表及报告。
本系统不仅提供事件处理生命周期管理,还提供事件解决后的分析回顾功能。通过告警排行分析,可以知道哪些应用、哪些告警是频发的,以针对性优化解决。通过MTTA/MTTR事件处理时间分析,可以了解大到团队、小到个人的工作效率、解决能力。通过对告警压缩的分析,可以发现产生告警风暴的原因,优化告警规则,提高处理效率。
以上所述的具体实施例,对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种大数据分析的数据中心告警管理系统,其特征在于,所述大数据分析的数据中心告警管理系统包括相互连接的服务器端和移动端;服务器端包括以下模块:
数据获取模块,通过API接口和各监控子系统集成对接,实时获取到各个模块的告警信息;
配置管理模块,同样通过API接口和各监控子系统集成对接,获取到各个监控子系统的监控项的配置信息,将相关配置信息存储在告警集中管理系统数据中,同时配置管理模块录入相关运维人员数据,供后续模块的使用,方便后续相关告警数据的处理、分析及关联;
数据处理及分析模块,对获取到的各个监控子系统的告警数据进行汇聚处理,将大量重复的告警事件压缩为一条有真正意义的告警,并通过关联将告警合并起来,为运维人员提供分析、甄选之后的最重要的告警;同时对告警数据进行大数据分析,对后续数据中心设备的维护工作提供指导意见;
数据分配推送模块,将处理后的告警数据通过分派策略分配给不同的运维人员,对应接收到的告警数据,后续形成事件进入事件管理模块进行流程流转和处理;
第一事件管理模块,用于监控系统产生的告警事件的处理,以保障正常工作以及发现并升级异常情况;
移动端包括:
告警查看模块,查看相关监控系统推送过来的告警信息;
第二事件管理模块,与告警查看模块连接,进行告警事件的处理和流转。
2.如权利要求1所述的大数据分析的数据中心告警管理系统,其特征在于,所述数据获取模块、配置管理模块、数据分配推送模块都与数据处理及分析模块连接,数据分配推送模块与第一事件管理模块连接。
3.如权利要求1所述的大数据分析的数据中心告警管理系统,其特征在于,所述大数据分析的数据中心告警管理系统通过至少一个API接口分别和一个网络监控系统、一个环控监控系统、一个动力监控系统、一个消防监控系统、一个安保监控系统进行集成对接,进行数据同步,实时获取到各个子系统对应级别的告警数据。
4.如权利要求3所述的大数据分析的数据中心告警管理系统,其特征在于,所述告警数据至少包括监控配置项、设备名称、时间、类型、级别、内容的字段数据。
CN201810828434.9A 2018-07-25 2018-07-25 大数据分析的数据中心告警管理系统 Pending CN110764961A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810828434.9A CN110764961A (zh) 2018-07-25 2018-07-25 大数据分析的数据中心告警管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810828434.9A CN110764961A (zh) 2018-07-25 2018-07-25 大数据分析的数据中心告警管理系统

Publications (1)

Publication Number Publication Date
CN110764961A true CN110764961A (zh) 2020-02-07

Family

ID=69328192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810828434.9A Pending CN110764961A (zh) 2018-07-25 2018-07-25 大数据分析的数据中心告警管理系统

Country Status (1)

Country Link
CN (1) CN110764961A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111769977A (zh) * 2020-06-17 2020-10-13 广州嘉为科技有限公司 一种基于企业监控告警事件的处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102447570A (zh) * 2010-09-30 2012-05-09 中国移动通信集团福建有限公司 一种基于健康度分析的监控装置及方法
CN106897193A (zh) * 2017-02-28 2017-06-27 郑州云海信息技术有限公司 一种基于itil的云数据中心的监控运维管理系统
CN107070726A (zh) * 2017-05-22 2017-08-18 郑州云海信息技术有限公司 一种基于mdc的综合管理方法
CN107302466A (zh) * 2017-08-25 2017-10-27 郑州云海信息技术有限公司 一种动环监控系统大数据分析平台及方法
WO2018064843A1 (zh) * 2016-10-09 2018-04-12 深圳中兴力维技术有限公司 数据中心基础设施管理系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102447570A (zh) * 2010-09-30 2012-05-09 中国移动通信集团福建有限公司 一种基于健康度分析的监控装置及方法
WO2018064843A1 (zh) * 2016-10-09 2018-04-12 深圳中兴力维技术有限公司 数据中心基础设施管理系统及方法
CN106897193A (zh) * 2017-02-28 2017-06-27 郑州云海信息技术有限公司 一种基于itil的云数据中心的监控运维管理系统
CN107070726A (zh) * 2017-05-22 2017-08-18 郑州云海信息技术有限公司 一种基于mdc的综合管理方法
CN107302466A (zh) * 2017-08-25 2017-10-27 郑州云海信息技术有限公司 一种动环监控系统大数据分析平台及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111769977A (zh) * 2020-06-17 2020-10-13 广州嘉为科技有限公司 一种基于企业监控告警事件的处理方法

Similar Documents

Publication Publication Date Title
CN102447570B (zh) 一种基于健康度分析的监控装置及方法
CN111007433B (zh) 基于物联网的智慧用电安全监管系统
CN107508722B (zh) 一种业务监控方法和装置
CN110535711B (zh) 一种视频监控故障诊断系统及诊断方法
CN102457390B (zh) 一种基于qoe的故障定位方法和系统
CN104486673A (zh) 一种故障处理平台系统及故障处理方法
CN101714930A (zh) 一种实现网络监控的方法及系统
CN104468220A (zh) 电力通信网预警管控平台
CN111431754A (zh) 配用电通信网故障分析方法和系统
CN110969341A (zh) 一种配电终端智能维护方法、装置及系统
CN105099763A (zh) 设备掉线提醒方法和装置
CN103455569B (zh) 即时通信记录外通信数据的方法及系统
CN107070744A (zh) 服务器监控方法
CN102904762B (zh) 资源节点的监控方法及装置
CN110764961A (zh) 大数据分析的数据中心告警管理系统
CN105373055A (zh) 一种机组故障监测方法、装置和空调系统
KR100285952B1 (ko) 비대칭가입자라인전송시스템의시스템유지보수장치
CN106781917A (zh) 一种支持一对多模式的配电自动化培训仿真系统
JP2014233060A (ja) プラント遠隔監視制御装置
CN111291905B (zh) 一种基于云平台的设备维修管理系统
CN205583840U (zh) 一种电力设备监控装置
CN203054587U (zh) 一种一体化信息机房环境监控系统
CN105071986A (zh) 一种监控系统运行状态的方法
CN103581300A (zh) 互动会议系统信息资料在线保全方法
CN105656700B (zh) 一种分散式机房综合监控及自动应急决策处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200207

RJ01 Rejection of invention patent application after publication