CN108829558A - 一种数据中心告警智能运维管理方法及系统 - Google Patents

一种数据中心告警智能运维管理方法及系统 Download PDF

Info

Publication number
CN108829558A
CN108829558A CN201810494931.XA CN201810494931A CN108829558A CN 108829558 A CN108829558 A CN 108829558A CN 201810494931 A CN201810494931 A CN 201810494931A CN 108829558 A CN108829558 A CN 108829558A
Authority
CN
China
Prior art keywords
alarm
warning information
data center
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810494931.XA
Other languages
English (en)
Inventor
李俊山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810494931.XA priority Critical patent/CN108829558A/zh
Publication of CN108829558A publication Critical patent/CN108829558A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3082Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved by aggregating or compressing the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/109Time management, e.g. calendars, reminders, meetings or time accounting
    • G06Q10/1093Calendar-based scheduling for persons or groups
    • G06Q10/1097Task assignment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Alarm Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种数据中心告警智能运维管理方法及系统。该方法包括:获取告警信息;对告警信息进行压缩、关联和过滤处理,生成预测告警数据;根据预测告警数据,对数据中心智能运维人力进行排班管理,获取告警处理结果;将告警信息、预测告警数据和告警处理结果生成报表;对告警信息、预测告警数据和告警处理结果进行实时告警展现。该系统包括告警信息收集模块、告警管理模块、排班管理模块、报表输出模块和实时告警展现模块五个部分。通过本申请,能够在统一的界面上反映数据中心告警智能运维系统的运行状态、性能和故障状况,从而为不同角色的工作人员呈现其需要了解的各种数据,有利于快速查找故障根据,故障定位效率高。

Description

一种数据中心告警智能运维管理方法及系统
技术领域
本申请涉及数据中心综合管理技术领域,特别是涉及一种数据中心告警智能运维管理方法及系统。
背景技术
MDC(Module Data Center,模块化数据中心)是基于云计算的新一代数据中心部署形式,为了应对云计算、虚拟化、集中化、高密化等服务器发展的趋势,其采用模块化设计理念,最大程度的降低基础设施对机房环境的耦合。对MDC进行运维管理的数据中心运维管理系统,集成了供配电、制冷、机柜、气流遏制、综合布线、动环监控等子系统,提高数据中心的整体运营效率,实现快速部署、弹性扩展和绿色节能。
目前的数据中心运维管理系统,对不同的数据源进行分别统计汇总,形成不同的报表,这些不同的报表分别在数据源所在的模块中进行显示。当需要某个报表时,根据相应的业务调用关系,进入相应的模块查找需要的报表。
然而,目前的数据中心运维管理系统,由于对不同的数据源分别进行统计汇总,各种监控信息无法在统一的界面进行集中的呈现,而且各种信息之间没有直接关联,需要通过各种复杂的调用关系来查找故障根据。因此,目前的数据中心综合管理系统综合性较差,不便于快速查找故障根源,故障定位效率低。
发明内容
本申请提供了一种数据中心告警智能运维管理方法及系统,以解决现有技术中的数据中心运维管理系统综合性较差、不便于快速查找故障根源和故障定位效率低的问题。
为了解决上述技术问题,本申请实施例公开了如下技术方案:
一种数据中心告警智能运维管理方法,所述方法包括:
获取告警信息,所述告警信息包括:用户电话故障报警信息、客户端故障报警信息、数据中心基础设施报警信息以及IT基础设施报警信息;
利用专家知识库和/或配置管理的方法,对告警信息进行压缩、关联和过滤处理,生成预测告警数据;
根据预测告警数据,对数据中心智能运维人力进行排班管理,获取告警处理结果;
将告警信息、预测告警数据和告警处理结果生成报表;
根据报表内容,对告警信息、预测告警数据和告警处理结果进行实时告警展现。
可选地,所述获取告警信息,包括如下过程:
利用服务目录的方式,收集用户电话故障报警信息和客户端故障报警信息;
利用综合监控的方式,收集数据中心基础设施报警信息和IT基础设施报警信息。
可选地,所述专家知识库包括用户输入的信息、推理的中间结果、推理过程的记录以及数据中心管理系统运行中所产生的所有信息。
可选地,所述方法还包括:对专家知识库进行建立、修改和扩充。
可选地,所述利用配置管理的方法,对告警信息进行压缩、关联和过滤处理,生成预测告警数据,包括:对告警信息采用告警标准格式进行编辑、通过采集周期及存储周期控制对告警信息的综合监控频率、对告警信息的告警配置进行优化、制定告警升级规则以及设置告警指标基线。
一种数据中心告警智能运维管理系统,所述系统包括:告警信息收集模块、告警管理模块、排班管理模块、报表输出模块和实时告警展现模块;
所述告警信息收集模块,用于获取告警信息,所述告警信息包括:用户电话故障报警信息、客户端故障报警信息、数据中心基础设施报警信息以及IT基础设施报警信息;
所述告警管理模块,用于利用专家知识库和/或配置管理的方法,对告警信息进行压缩、关联和过滤处理,生成预测告警数据;
所述排班管理模块,用于根据预测告警数据,对数据中心智能运维人力进行排班管理,获取告警处理结果;
所述报表输出模块,用于将告警信息、预测告警数据和告警处理结果生成报表;
实时告警展现模块,用于根据报表内容,对告警信息、预测告警数据和告警处理结果进行实时告警展现。
可选地,所述告警信息收集模块包括:服务目录单元和综合监控单元;
所述服务目录单元,用于以服务目录的方式收集用户电话故障报警信息和客户端故障报警信息;
所述综合监控单元,用于以综合监控的方式收集数据中心基础设施报警信息和IT基础设施报警信息。
可选地,所述告警管理模块包括:告警压缩单元、告警关联单元和告警过滤单元;
所述告警压缩单元,用于自动屏蔽重复的告警信息;
所述告警关联单元,用于利用专家知识库和/或配置管理的方法,汇总相关的告警信息;
所述告警过滤单元,用于根据维护要求、预设的管理规定、告警发生网元以及告警级别设定告警规则,且当单位时间内发生大量告警信息时,按照告警规则过滤掉告警信息收集模块中不符合告警规则的告警信息。
可选地,所述报表输出模块支持按站点、按设备或者按时间生成报表。
可选地,所述告警管理模块,还用于对专家知识库进行建立、修改和扩充。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请提供一种数据中心告警智能运维管理方法,该方法首先获取告警信息,由于本申请所收集的告警信息包括了数据中心相关的各种软件和硬件资源的报警信息,为后续进行告警信息的关联提供基础。获取到告警信息后,对告警信息进行压缩、关联和过滤处理生成预测告警数据,利用专家知识库和配置管理的方法对告警信息的这些告警管理,能够使各种告警信息之间建立关系,有利于对故障进行定位,并有助于快速查找故障根源。其次根据预测告警数据间对数据中心智能运维人力进行排班管理,获取告警处理结果。告警管理对告警信息的处理是基于历史数据,通过排班管理,能够对智能运维人力提出预测,也就是获取到告警处理结果。然后将告警信息、预测告警数据即告警处理结果生成报表,在统一的界面上反映数据中心告警智能运维系统的运行状态、性能和故障状况。最后根据报表内容进行实时告警展现,从而为不同角色的工作人员呈现其需要了解的各种数据。本申请中数据中心告警智能运维管理方法能够汇总各种告警信息并进行处理和展示,因此,该方法综合性较强,有利于相关工作人员快速查找故障根源和提高故障定位效率。
本申请提供一种数据中心告警智能运维管理系统,该系统包括告警信息收集模块、告警管理模块、排班管理模块、报表输出模块和实时告警展现模块五个部分,通过告警信息收集模块获取数据中心的各种软件和硬件资源的告警信息,通过告警管理模块对告警信息进行压缩、关联和过滤处理,生成预测告警数据,然后通过排班管理模块根据告警预测数据对智能运维人力进行排班管理,获取告警处理结果,最后通过报表输出模块和实时告警展现模块对告警信息、预测告警数据即告警处理结果生成报表并进行实时告警展现,在统一的界面上反映数据中心告警智能运维系统的运行状态、性能和故障状况,从而为不同角色的工作人员呈现其需要了解的各种数据。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种数据中心告警智能运维管理方法的流程示意图;
图2为本申请实施例所提供的一种数据中心告警智能运维管理系统的结构示意图;
图3为本申请实施例中数据中心告警智能运维管理系统工作原理图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
为了更好地理解本申请,下面结合附图来详细解释本申请的实施方式。
实施例一
参见图1,图1为本申请实施例所提供的一种数据中心告警智能运维管理方法的流程示意图。由图1可知,本实施例中数据中心告警智能运维管理方法主要包括如下步骤:
S1:获取告警信息。
根据不同的告警源,本申请中告警信息包括:用户电话故障报警信息、客户端故障报警信息、数据中心基础设施报警信息以及IT基础设施报警信息。其中,用户电话故障报警信息是主要包括由数据中心电话客服中心初始汇总到的告警信息;客户端故障报警信息主要包括由数据中心综合管理系统APP初始汇总到的告警信息;数据中心基础设施指的是风、火、水、电等基础设施,主要包括UPS、配电柜、精密空调、门禁、温湿度传感器、烟雾探测器、温感探测器、漏水传感器、翻转天窗及网络摄像机等多种监控对象;IT基础设施主要包括服务器、存储设备、网络设备以及及各种虚拟化资源。
本实施例中获取告警信息的方法主要包括两种:一种是采用服务目录的方式,该方式用于收集用户电话故障报警信息和客户端故障报警信息;另一种是采用综合监控的方式,该方式用于收集数据中心基础设施报警信息和IT基础设施报警信息。
利用服务目录的方式获取告警信息,包括电话呼叫中心服务台收集方式和自动服务台收集方式。服务目录通过标准化的输出预处理方式,把初始告警信息转化成标准格式的告警信息,标准格式的告警信息中包括告警站点、告警产生时间、告警结束时间、告警等级、告警名称、可能引起的原因以及可能引发的后果。
利用综合监控的方式获取告警信息,是指由数据中心管理系统自主、自动采集告警信息。该方法能够获取的数据包括:数据中心基础设施的报警信息和IT基础设施的报警信息,其中IT基础设施的数据包括:网络设备,如:交换机、防火墙、路由器、安全设备等;主机,如Solaris、RASPX、Windows、Linux等;数据库,如:SQLServer、MySQL、Oracle等;J2EE平台,如:WebSphere、WebLogic、Tomcat、JBOSS等;LDAP(Lightweight Directory AccessProtocol,轻量目录访问协议),如:IBM Tivoli Directory Server、SUN JES DirectoryServer等;Web服务器,如:Apache、IIS等;存储,如:EMC存储平台等;各种虚拟资源,如:CPU、内存、硬盘等信息。
S2:利用专家知识库和/或配置管理的方法,对告警信息进行压缩、关联和过滤处理,生成预测告警数据。
在告警发生时,收集到告警信息后,对告警信息进行压缩、关联和过滤处理,从而实现告警根本原因分析,生成预测告警数据。
对告警信息进行压缩处理,指的是自动屏蔽重复的故障告警信息,例如:设备宕机了十个小时,收集告警信息时会获取到设备宕机的十条告警信息,通过对告警信息进行压缩处理,把数十条重复性告警压缩至一条,最终IT管理员只会收到一条告警,有利于减轻管理员的工作量。
对告警信息进行关联处理,指的是利用专家知识库和/或配置管理的方法,对告警信息进行分析,把相关的告警信息组织在一起,通过对告警信息进行关联,有利于后续向相关人员发送报警,以便于及时处理故障。
对告警信息进行过滤处理,指的是针对单位时间内发生大量告警的情况,按照预先设定的告警规则,从底层提取的告警信息中滤掉不重要的信息,减少轻微告警的干扰,以提高监控与处理的效率。其中,预设的告警规则可以根据实际情况灵活设置,可以根据维护要求、管理部门要求及实际管理情况,按照告警发生网元、告警级别等设置过滤规则。
当电源等设备出现故障后,会引发连锁反应,导致其他的应用或者主机全部都不可访问,此时管理人员看到的将是大量的故障告警,管理人员很难迅速从这样大量的告警信息中发现真正的故障根源。本申请通过对告警信息进行压缩、关联和过滤处理,能够对告警信息提供根本原因分析,从而快速发现故障根源,最大限度地避免经济损失。
本申请中的专家知识库是告警管理求解所需要的数据中心智能运维知识的集合,通常包括基本事实、规则和其他与数据中心智能运维相关的信息。专家知识库中的综合数据库也称为动态库或工作存储器,是当前问题求解状态的集合。综合数据库用于存放数据中心管理系统运行过程中所产生的所有信息,以及数据中心管理系统运行所需要的原始数据。原始数据包括用户输入的信息、推理的中间结果、推理过程的记录等。
专家知识库中知识的表示形式可以是多种多样的,例如:框架、规则、语义网络等。专家知识库中的知识源于数据中心专家经验积累和具体实践,这些经验积累和具体实践知识是专家知识库系统的核心组成部分。
本申请中利用专家知识库对告警信息进行压缩、关联和过滤处理也就是告警管理过程。告警管理中的推理机制是实施问题求解的核心执行机构,推理机制是对知识进行解释的程序,根据知识的语义,对按一定策略找到的知识进行解释执行,并把结果记录到专家知识库的适当空间中。其中,告警管理的推理机制的程序与专家知识库的具体内容无关,即告警管理的推理机制和专家知识库是分离的,因此,对专家知识库的修改无须改动告警管理的推理机制。将告警管理的推理机制和专家知识库结合,能够生成更加有效的预测告警数据,从而有利于故障的处理。
进一步地,本实施例中利用配置管理的方法,对告警信息进行压缩、关联和过滤处理,生成预测告警数据,包括:
(a)对告警信息采用告警标准格式进行编辑。
(b)通过采集周期及存储周期控制对告警信息的综合监控频率。
(c)对告警信息的告警配置进行优化。
对告警配置的优化包括告警信息的告警属性的增加、修改和删除。
(d)制定告警升级规则以及设置告警指标基线。
本方法对于持续时间较长的告警,例如:没有开始处理的未确认告警或没有解决的未清除告警,或者告警重复发生次数较多的告警,能够提供告警升级规则定义的功能。其中告警升级规则包含有触发告警升级处理流程的条件,如:持续时长或重复次数。
本方法对于某些特定的设备可以进行个性化的监控设置。以某台服务器为例,在周一至周三期间的早高峰使用比较频繁,可以设置较高的报警阈值;而周四和周五该服务器使用频率不高,可以设置较低的报警阈值。本方法通过设置告警指标基线来实现个性化的监控设置。
进一步地,本实施例中告警指标基线包括天基线、周基线和自定义告警基线。
以CPU利用率这个指标为例,如果设置天基线在9点至10点之间,则表示该时间段内的CPU利用率阈值与其他时间段不同;如果设置周基线在周一至周三早10点至11点,则表示该时间段内的CPU利用率阈值与其他时间段不同;如果设置自定义基线,则选定日期内的CPU利用率与其他时间段内的指标阈值不同,指标阈值不同也就意味着告警产生也将不同,因此可以实现更加灵活的告警控制。
进一步地,本申请中数据中心告警智能运维管理方法中还包括:对专家知识库进行建立、修改和扩充。
本申请可以利用专家知识库对告警信息进行告警管理,生成预测告警数据。同时,根据实际应用中有效的预测告警数据,对有效的预测告警数据进行智能学习,改变、完善专家知识库中的知识内容,从而提高数据中心专家系统的性能,以便于更好地处理后续的告警信息。
S3:根据预测告警数据,对数据中心智能运维人力进行排班管理,获取告警处理结果。
智能运维人力需求是基于预测生成的告警数据结合数据中心运维人力状况生成人力需求,也可以根据数据中心业务实际状况配置,也可以多种业务数据相结合的方式来生成人力需求进行排班管理。
通过以上步骤S1-S3获取到告警信息、预测告警数据和告警处理结果后,执行步骤S4:将告警信息、预测告警数据和告警处理结果生成报表。
本实施例中报表内容可以定制,支持Execel格式和PPT格式的报表。
本实施中报表的输出支持多种维度的输出方式,包括:按站点输出报表,按设备输出报表,按时间输出报表。
S5:根据报表内容,对告警信息、预测告警数据和告警处理结果进行实时告警展现。
本实施例中对告警信息进行实时告警展现的方式包括:邮件告警、短信告警和微信告警。
具体地,邮件告警的方法为:通过任意邮件服务器来实现邮件告警,既可以通过企业内部的邮件服务器,也可以通过外网的公用服务器,并提供了灵活的定制策略来配置告警内容。
短信告警的方法为:提供短信告警功能,可通过安装短信Modem轻松实现短信手机告警。
微信告警的方法为:提供微信告警功能通知,可通过申请企业微信账号,利用微信应用配置实现手机微信告警通知。
实施例二
在图1所示实施例的基础之上参见图2,图2为本申请实施例所提供的一种数据中心告警智能运维管理系统的结构示意图。由图2可知,本申请中数据中心告警智能运维管理系统主要包括:告警信息收集模块、告警管理模块、排班管理模块、报表输出模块和实时告警展现模块五个部分。
其中,告警信息收集模块用于获取告警信息,告警信息包括:用户电话故障报警信息、客户端故障报警信息、数据中心基础设施报警信息以及IT基础设施报警信息;告警管理模块用于利用专家知识库和/或配置管理的方法,对告警信息进行压缩、关联和过滤处理,生成预测告警数据;排班管理模块用于根据预测告警数据,对数据中心智能运维人力进行排班管理,获取告警处理结果;报表输出模块用于将告警信息、预测告警数据和告警处理结果生成报表;实时告警展现模块用于根据报表内容,对告警信息、预测告警数据和告警处理结果进行实时告警展现。
进一步地,告警信息收集模块包括:服务目录单元和综合监控单元。服务目录单元用于以服务目录的方式收集用户电话故障报警信息和客户端故障报警信息;综合监控单元用于以综合监控的方式收集数据中心基础设施报警信息和IT基础设施报警信息。
告警管理模块包括:告警压缩单元、告警关联单元和告警过滤单元。告警压缩单元用于自动屏蔽重复的告警信息;告警关联单元用于利用专家知识库和/或配置管理的方法,汇总相关的告警信息;告警过滤单元用于根据维护要求、预设的管理规定、告警发生网元以及告警级别设定告警规则,且当单位时间内发生大量告警信息时,按照告警规则过滤掉告警信息收集模块中不符合告警规则的告警信息。
告警管理模块还用于对专家知识库进行建立、修改和扩充。从而加强专家知识库的功能,以便用于后续的告警信息处理。
本实施例中数据中心告警智能运维管理系统的工作原理,可以参见图3。
本实施例中未详细描述的部分可以参见图1所示的实施例,两个实施例之间可以互相参照,在此不再赘述。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据中心告警智能运维管理方法,其特征在于,所述方法包括:
获取告警信息,所述告警信息包括:用户电话故障报警信息、客户端故障报警信息、数据中心基础设施报警信息以及IT基础设施报警信息;
利用专家知识库和/或配置管理的方法,对告警信息进行压缩、关联和过滤处理,生成预测告警数据;
根据预测告警数据,对数据中心智能运维人力进行排班管理,获取告警处理结果;
将告警信息、预测告警数据和告警处理结果生成报表;
根据报表内容,对告警信息、预测告警数据和告警处理结果进行实时告警展现。
2.根据权利要求1所述的一种数据中心告警智能运维管理方法,其特征在于,所述获取告警信息,包括如下过程:
利用服务目录的方式,收集用户电话故障报警信息和客户端故障报警信息;
利用综合监控的方式,收集数据中心基础设施报警信息和IT基础设施报警信息。
3.根据权利要求1所述的一种数据中心告警智能运维管理方法,其特征在于,所述专家知识库包括用户输入的信息、推理的中间结果、推理过程的记录以及数据中心管理系统运行中所产生的所有信息。
4.根据权利要求1所述的一种数据中心告警智能运维管理方法,其特征在于,所述方法还包括:对专家知识库进行建立、修改和扩充。
5.根据权利要求1所述的一种数据中心告警智能运维管理方法,其特征在于,所述利用配置管理的方法,对告警信息进行压缩、关联和过滤处理,生成预测告警数据,包括:对告警信息采用告警标准格式进行编辑、通过采集周期及存储周期控制对告警信息的综合监控频率、对告警信息的告警配置进行优化、制定告警升级规则以及设置告警指标基线。
6.一种数据中心告警智能运维管理系统,其特征在于,所述系统包括:告警信息收集模块、告警管理模块、排班管理模块、报表输出模块和实时告警展现模块;
所述告警信息收集模块,用于获取告警信息,所述告警信息包括:用户电话故障报警信息、客户端故障报警信息、数据中心基础设施报警信息以及IT基础设施报警信息;
所述告警管理模块,用于利用专家知识库和/或配置管理的方法,对告警信息进行压缩、关联和过滤处理,生成预测告警数据;
所述排班管理模块,用于根据预测告警数据,对数据中心智能运维人力进行排班管理,获取告警处理结果;
所述报表输出模块,用于将告警信息、预测告警数据和告警处理结果生成报表;
实时告警展现模块,用于根据报表内容,对告警信息、预测告警数据和告警处理结果进行实时告警展现。
7.根据权利要求6所述的一种数据中心告警智能运维管理系统,其特征在于,所述告警信息收集模块包括:服务目录单元和综合监控单元;
所述服务目录单元,用于以服务目录的方式收集用户电话故障报警信息和客户端故障报警信息;
所述综合监控单元,用于以综合监控的方式收集数据中心基础设施报警信息和IT基础设施报警信息。
8.根据权利要求6所述的一种数据中心告警智能运维管理系统,其特征在于,所述告警管理模块包括:告警压缩单元、告警关联单元和告警过滤单元;
所述告警压缩单元,用于自动屏蔽重复的告警信息;
所述告警关联单元,用于利用专家知识库和/或配置管理的方法,汇总相关的告警信息;
所述告警过滤单元,用于根据维护要求、预设的管理规定、告警发生网元以及告警级别设定告警规则,且当单位时间内发生大量告警信息时,按照告警规则过滤掉告警信息收集模块中不符合告警规则的告警信息。
9.根据权利要求6所述的一种数据中心告警智能运维管理系统,其特征在于,所述报表输出模块支持按站点、按设备或者按时间生成报表。
10.根据权利要求6-9中任意一项所述的一种数据中心告警智能运维管理系统,其特征在于,所述告警管理模块,还用于对专家知识库进行建立、修改和扩充。
CN201810494931.XA 2018-05-22 2018-05-22 一种数据中心告警智能运维管理方法及系统 Pending CN108829558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810494931.XA CN108829558A (zh) 2018-05-22 2018-05-22 一种数据中心告警智能运维管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810494931.XA CN108829558A (zh) 2018-05-22 2018-05-22 一种数据中心告警智能运维管理方法及系统

Publications (1)

Publication Number Publication Date
CN108829558A true CN108829558A (zh) 2018-11-16

Family

ID=64149070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810494931.XA Pending CN108829558A (zh) 2018-05-22 2018-05-22 一种数据中心告警智能运维管理方法及系统

Country Status (1)

Country Link
CN (1) CN108829558A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110493348A (zh) * 2019-08-26 2019-11-22 山东融为信息科技有限公司 一种基于物联网的智能监控报警系统
CN111221702A (zh) * 2019-11-18 2020-06-02 上海维谛信息科技有限公司 基于日志分析的异常处理方法、系统、终端及介质
CN111258798A (zh) * 2020-01-14 2020-06-09 平安壹钱包电子商务有限公司 监控数据的故障定位方法、装置、计算机设备及存储介质
CN112396194A (zh) * 2020-10-30 2021-02-23 四川天翼网络服务有限公司 一种故障检测综合运维管理系统
CN112866020A (zh) * 2021-01-12 2021-05-28 浪潮云信息技术股份公司 一种云中心智能告警处理系统及方法
CN113821412A (zh) * 2021-09-26 2021-12-21 中国建设银行股份有限公司 一种设备运维管理方法及装置
CN113965452A (zh) * 2021-11-02 2022-01-21 烽火通信科技股份有限公司 一种设备倒换状态获取方法及装置
CN114118824A (zh) * 2021-11-30 2022-03-01 中国建设银行股份有限公司 一种值班管理方法与系统
CN114189423A (zh) * 2021-12-08 2022-03-15 兴业银行股份有限公司 全面兼容扩展的智能问诊告警系统、方法及介质
CN114553560A (zh) * 2022-02-25 2022-05-27 国网山东省电力公司临沂供电公司 一种基于大数据技术的网络安全告警智能分析平台
CN114816943A (zh) * 2022-07-01 2022-07-29 锐盈云科技(天津)有限公司 企业智能云运维系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120221901A1 (en) * 2011-02-28 2012-08-30 Ricoh Company, Ltd. Error report management
CN103324128A (zh) * 2013-05-30 2013-09-25 国家电网公司 电力调度自动化系统中一次设备故障告警综合压缩方法
CN104517194A (zh) * 2014-12-30 2015-04-15 国家电网公司 基于动态规划的电力运维派工单生成方法
CN107046481A (zh) * 2017-04-18 2017-08-15 国网福建省电力有限公司 一种信息系统综合网管系统综合分析平台

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120221901A1 (en) * 2011-02-28 2012-08-30 Ricoh Company, Ltd. Error report management
CN103324128A (zh) * 2013-05-30 2013-09-25 国家电网公司 电力调度自动化系统中一次设备故障告警综合压缩方法
CN104517194A (zh) * 2014-12-30 2015-04-15 国家电网公司 基于动态规划的电力运维派工单生成方法
CN107046481A (zh) * 2017-04-18 2017-08-15 国网福建省电力有限公司 一种信息系统综合网管系统综合分析平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王文明: ""面向BOSS的运维安全保障系统的研究与实现"", 《中国优秀博硕士学位论文全文数据库》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110493348B (zh) * 2019-08-26 2023-02-28 山东融为信息科技有限公司 一种基于物联网的智能监控报警系统
CN110493348A (zh) * 2019-08-26 2019-11-22 山东融为信息科技有限公司 一种基于物联网的智能监控报警系统
CN111221702A (zh) * 2019-11-18 2020-06-02 上海维谛信息科技有限公司 基于日志分析的异常处理方法、系统、终端及介质
CN111221702B (zh) * 2019-11-18 2024-02-27 上海维谛信息科技有限公司 基于日志分析的异常处理方法、系统、终端及介质
CN111258798A (zh) * 2020-01-14 2020-06-09 平安壹钱包电子商务有限公司 监控数据的故障定位方法、装置、计算机设备及存储介质
CN112396194A (zh) * 2020-10-30 2021-02-23 四川天翼网络服务有限公司 一种故障检测综合运维管理系统
CN112866020A (zh) * 2021-01-12 2021-05-28 浪潮云信息技术股份公司 一种云中心智能告警处理系统及方法
CN113821412A (zh) * 2021-09-26 2021-12-21 中国建设银行股份有限公司 一种设备运维管理方法及装置
CN113965452A (zh) * 2021-11-02 2022-01-21 烽火通信科技股份有限公司 一种设备倒换状态获取方法及装置
CN113965452B (zh) * 2021-11-02 2023-11-03 烽火通信科技股份有限公司 一种设备倒换状态获取方法及装置
CN114118824A (zh) * 2021-11-30 2022-03-01 中国建设银行股份有限公司 一种值班管理方法与系统
CN114189423A (zh) * 2021-12-08 2022-03-15 兴业银行股份有限公司 全面兼容扩展的智能问诊告警系统、方法及介质
CN114553560A (zh) * 2022-02-25 2022-05-27 国网山东省电力公司临沂供电公司 一种基于大数据技术的网络安全告警智能分析平台
CN114553560B (zh) * 2022-02-25 2024-01-30 国网山东省电力公司临沂供电公司 一种基于大数据技术的网络安全告警智能分析平台
CN114816943A (zh) * 2022-07-01 2022-07-29 锐盈云科技(天津)有限公司 企业智能云运维系统

Similar Documents

Publication Publication Date Title
CN108829558A (zh) 一种数据中心告警智能运维管理方法及系统
CN107196804B (zh) 电力系统终端通信接入网告警集中监控系统及方法
CN101483545B (zh) 一种金融业务监控方法及系统
CN110493348A (zh) 一种基于物联网的智能监控报警系统
CN110445856B (zh) 一种支持多协议接入的物联网通讯组件管控系统及方法
CN111176879A (zh) 设备的故障修复方法及装置
CN103491354A (zh) 一种系统运行监控可视化平台
CN102521781A (zh) 一种基于独立监控服务的跨安全区的设备统一监控方法及其监控系统
CN104407964A (zh) 一种基于数据中心的集中监控系统及方法
CN102567531B (zh) 一种通用的轻量级数据库状态监控方法
CN108924007B (zh) 通信运营信息的大数据采集及存储系统和方法
CN110224865A (zh) 一种基于流式处理的日志告警系统
CN108833148A (zh) 通信网络告警信息处理方法和系统
CN109471778A (zh) 一种电力系统的监控方法、装置及设备
CN111431754A (zh) 配用电通信网故障分析方法和系统
CN103441868A (zh) 一种基于电力通信传输网告警的方法
CN113179173A (zh) 一种用于高速公路系统的运维监控系统
CN105554320A (zh) 呼叫中心话务量的监控方法及系统
CN107463490B (zh) 一种应用于平台开发中的集群日志集中收集方法
CN201022199Y (zh) 一种综合网管装置
CN115460051A (zh) 一种基于行业物联网场景的设备联动模型配置方法
CN114490053A (zh) 基于边缘计算和监督学习方法的情景感知策略推荐系统
CN115208059A (zh) 一种变电站动力与环境监控告警处理系统及方法
CN108156017A (zh) 一种输变电设备状态告警管理方法
CN102736604A (zh) 指挥通信要素集中监控管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181116

RJ01 Rejection of invention patent application after publication