CN109086189A - 一种物理基础设施管理器pim告警处理方法及设备 - Google Patents

一种物理基础设施管理器pim告警处理方法及设备 Download PDF

Info

Publication number
CN109086189A
CN109086189A CN201810811400.9A CN201810811400A CN109086189A CN 109086189 A CN109086189 A CN 109086189A CN 201810811400 A CN201810811400 A CN 201810811400A CN 109086189 A CN109086189 A CN 109086189A
Authority
CN
China
Prior art keywords
rabbitmq
alarm
trap
queue
monitored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810811400.9A
Other languages
English (en)
Inventor
谢芝茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810811400.9A priority Critical patent/CN109086189A/zh
Publication of CN109086189A publication Critical patent/CN109086189A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种PIM告警处理方法及设备,涉及大规模数据中心的云监控技术。本发明公开的PIM告警处理方法,包括:PIM平台中告警监听模块监听被监控设备的陷阱Trap告警消息,将监听到的Trap告警消息实时保存到RabbitMQ队列中;PIM平台中数据处理模块监听所述RabbitMQ队列,并处理RabbitMQ队列中的Trap告警消息。本申请技术方案大大降低了其他模块与数据监听、处理模块间的耦合性,同时由于采用了RabbitMQ队列因此可以满足分布式部署的要求。

Description

一种物理基础设施管理器PIM告警处理方法及设备
技术领域
本发明涉及大规模数据中心的云监控技术,特别涉及一种基于RabbitMQ的PIM(Physical Infrastructure Manager,物理基础设施管理器)告警处理优化方案。
背景技术
随着云计算、大数据、互联网的快速发展,大中型企业数据中心设施投入及建设规模日益扩大,服务器是数据中心的基础设施,当前数据中心服务器规模从几万台到几十万台,甚至几百万台不等,且塔式、机架式、刀片式等各种形态的服务器加剧了数据往往中心的复杂度,大量服务器的管理、监控、运营、维护给管理人员的维护水平提出了更高的要求。运维人员急需一款基础设施的统一管理、及时发现并处理数据中心故障的管理工具。
发明内容
本发明公开了一种PIM告警处理方法及设备,可以解决现有PIM无法满足分布式部署要求的问题。
本发明公开了一种物理基础设施管理器PIM告警处理方法,包括:
PIM平台中告警监听模块监听被监控设备的陷阱Trap告警消息,将监听到的Trap告警消息实时保存到RabbitMQ队列中;
PIM平台中数据处理模块监听所述RabbitMQ队列,并处理RabbitMQ队列中的Trap告警消息。
可选地,上述方法中,所述PIM平台中数据处理模块监听所述RabbitMQ队列,包括:
所述告警监听模块将监听到的Trap告警消息保存到RabbitMQ队列后,发送广播消息,所述广播消息中携带所述RabbitMQ队列;
所述数据处理模块接收所述广播消息,并监听所述广播消息中携带的所述RabbitMQ队列。
可选地,上述方法中,所述PIM平台中的告警监听模块和数据处理模块为两个相互独立的模块。
可选地,上述方法中,所述告警监听模块置于任一节点的RabbitMQ客户端侧。
可选地,上述方法中,所述数据处理模块置于任一节点的RabbitMQ服务端侧。
本文还公开了一种PIM告警处理设备,包括:
告警监听模块,监听被监控设备的陷阱Trap告警消息,将监听到的Trap告警消息实时保存到RabbitMQ队列中;
数据处理模块,监听所述RabbitMQ队列,并处理RabbitMQ队列中的Trap告警消息。
可选地,上述设备中:
所述告警监听模块,将监听到的Trap告警消息保存到RabbitMQ队列后,还发送广播消息,所述广播消息中携带所述RabbitMQ队列;
所述数据处理模块,接收所述广播消息,并监听所述广播消息中携带的所述RabbitMQ队列。
可选地,上述设备中,所述告警监听模块和数据处理模块为两个相互独立的模块。
可选地,上述设备中,所述告警监听模块置于任一节点的RabbitMQ客户端侧。
可选地,上述设备中,所述数据处理模块置于任一节点的RabbitMQ服务端侧。
本申请技术方案提出了一种基于RabbitMQ的PIM告警处理优化方案,将数据监听模块,监听到的告警数据实时保存到RabbitMQ队列中,RabbitMQ发送广播消息,而部署在其他节点上的数据处理模块,则实时监听该消息队列,并处理监听到的数据。即将告警监听和处理这两大操作进行分离,由不同的模块执行操作(相当于告警接收和告警解析可以在不同节点处理),大大降低了其他模块与数据监听处理模块间的耦合性,同时由于采用了RabbitMQ队列因此可以满足分布式部署的要求。
附图说明
图1为本发明实施例中PIM告警处理设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文将结合具体实施方式对本发明技术方案作进一步详细说明。需要说明的是,在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
实施例1
浪潮物理基础设施管理平台(ISPIM)提供了一个统一的、集中的、可视化的和跨平台的深度管理方案,能够将不同品牌不同类型的物理基础设施设备(服务器、存储、交换机等)统一集中式管理,并及时发现安全隐患,排查设备故障,控制机房能耗,降低管理成本,提高运维效率,使数据中心基础设施的管理工作更加轻松、智能,此外,浪潮ISPIM遵循NFV标准,支持不同厂商、不同品牌的服务器、存储、网络、机房等基础设施的统一管理。
其中,硬件设备告警管理是PIM平台重要的功能之一,目前的监控资源的告警管理逻辑是,在被监控设备设置Trap(陷阱)告警转发,PIM平台开启Trap告警消息监听,当被监控资源产生告警时,PIM平台监听该Trap告警消息,并将该消息交由数据处理模块加以解析,数据显示模块负责呈现告警,在大规模数据中心应用中,考虑单台服务器的处理性能,常常要求PIM采用分布式部署。
因此,本申请发明人提出一种可以基于RabbitMQ的PIM告警处理方法,主要包括如下操作:
PIM平台中在数据监听模块,监听被监控设备的Trap告警消息(例如UDP数据报文等),并将监听到的告警消息实时保存到RabbitMQ队列中;
所述PIM平台中数据处理模块监听所述RabbitMQ队列,并解析处理监听到的Trap告警消息。
这样将告警监听和告警处理这两大操作进行分离,由不同的模块(或节点)执行操作可以满足PIM分布式部署的需求,这对大规模数据中心的资源监控起到了很好的优化作用。
其中,PIM平台中的告警监听模块监听Trap告警消息的操作可参照现有监听流程进行操作,本实施例对此不做特别限制。相应地,数据处理模块处理RabbitMQ队列中的告警数据的操作可参照现有告警处理流程进行操作,本实施例对此不做特别限制。
本实施例中,告警监听模块将监听到的Trap告警消息存入RabbitMQ队列后,可以以广播方式发送RabbitMQ消息队列(即发送携带有RabbitMQ消息队列的广播消息),这样,可以由PIM平台中的数据处理模块实时监听告警监听模块发送的广播消息(即相当于数据处理模块监听RabbitMQ消息队列),并处理RabbitMQ队列中的告警消息即可。
要注意的是,为了更好的满足PIM分布式部署的需求,以及提高集群服务器的性能,因此PIM平台中的告警监听模块和数据处理模块是两个相互独立的模块。其可以分别位于不同的节点上,例如,告警监听模块可以置于任一节点的RabbitMQ客户端侧。数据处理模块可以置于任一节点的RabbitMQ服务端侧。
还要说明的是,本申请中告警监听消息监听Trap告警消息时,可以是实时监听,或者周期性监听,而其将监听到的Trap告警消息保存至RabbitMQ消息队列后,也可以实时广播或周性广播所述RabbitMQ消息队列。对应地,数据处理模块监听RabbitMQ消息队列时,也可以是实时监听或周期性监听,对此本申请均不做特别限制。
下面结合具体应用场景及附图,说明上述方法基于RabbitMQ实现PIM告警处理的完整过程。其中涉及的云监控模块资源性能数据获取过程:(1)监控资源配置Trap转发、(2)告警监听模块开启监听、(3)数据处理模块解析告警消息、(4)告警数据的展示。
具体执行过程是如图1所示:硬件设备被纳管后,在硬件设备上开启并配置SnmpTrap转发所需的IP地址和端口,PIM平台开启监听,当硬件设备产生告警并进行Trap转发后,PIM平台中告警监听模块监听到Trap告警消息,并将该告警消息放入指定的消息队列(即RabbitMQ队列),数据处理模块开启RabbitMQ队列监听进程,当监听到RabbitMQ队列后解析其中的Trap告警消息并存入数据库,最后可以交由告警展示模块(图1中未标识)读取并加以展示即可。
实施例2
本实施例提供一种物理基础设施管理器PIM告警处理设备,主要包括告警监听模块和数据处理模块。
告警监听模块,实时监听被监控设备的陷阱Trap告警消息,在监听到Trap告警消息时,将监听到的告警数据实时保存到RabbitMQ队列中;
数据处理模块,实时监听所述RabbitMQ队列,并处理RabbitMQ队列中的Trap告警消息。在上述设备的基础架构上,还可以增加存储单元,用于建立RabbitMQ队列,该RabbitMQ队列中保存有告警监听模块监听到的告警数据。
上述告警监听模块和数据处理模块可以是两个相互独立的模块。可以分别位于不同的节点上,例如,告警监听模块可以置于任一节点的RabbitMQ客户端侧。数据处理模块可以置于任一节点的RabbitMQ服务端侧。
具体地,告警监听模块将实时监听到的Trap告警消息存入RabbitMQ队列后,可以以广播方式发送RabbitMQ消息队列(即发送携带有RabbitMQ消息队列的广播消息)。而数据处理模块,则通过实时监听告警监听模块发送的广播消息,即相当于监听RabbitMQ消息队列,对监听到的RabbitMQ队列中的Trap告警消息进行处理即可。
由于上述设备可实现上述实施例1的方法,故该设备的其他详细介绍,可参见上述实施例1的相应内容,在此不再赘述。
本申请技术方案采用RabbitMQ来实现监听和处理的解耦机制,可以有效满足PIM平台的分布式部署要求,这对大规模数据中心的云监控起到了很好的优化作用。与之前的告警监听和处理放在同一模块处理相比,本发明能够充分利用RabbitMQ健壮、稳定、易用、跨平台、支持多种语言、有消息确认机制和持久化机制,可靠性高优点,适用于集群服务器。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。
以上所述,仅为本发明的较佳实例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种物理基础设施管理器PIM告警处理方法,其特征在于,包括:
PIM平台中告警监听模块监听被监控设备的陷阱Trap告警消息,将监听到的Trap告警消息实时保存到RabbitMQ队列中;
PIM平台中数据处理模块监听所述RabbitMQ队列,并处理RabbitMQ队列中的Trap告警消息。
2.如权利要求1所述的方法,其特征在于,所述PIM平台中数据处理模块监听所述RabbitMQ队列,包括:
所述告警监听模块将监听到的Trap告警消息保存到RabbitMQ队列后,发送广播消息,所述广播消息中携带所述RabbitMQ队列;
所述数据处理模块接收所述广播消息,并监听所述广播消息中携带的所述RabbitMQ队列。
3.如权利要求1或2所述的方法,其特征在于,
所述PIM平台中的告警监听模块和数据处理模块为两个相互独立的模块。
4.如权利要求3所述的方法,其特征在于,
所述告警监听模块置于任一节点的RabbitMQ客户端侧。
5.如权利要求3所述的方法,其特征在于,
所述数据处理模块置于任一节点的RabbitMQ服务端侧。
6.一种物理基础设施管理器PIM告警处理设备,其特征在于,包括:
告警监听模块,监听被监控设备的陷阱Trap告警消息,将监听到的Trap告警消息实时保存到RabbitMQ队列中;
数据处理模块,监听所述RabbitMQ队列,并处理RabbitMQ队列中的Trap告警消息。
7.如权利要求6所述的设备,其特征在于,
所述告警监听模块,将监听到的Trap告警消息保存到RabbitMQ队列后,还发送广播消息,所述广播消息中携带所述RabbitMQ队列;
所述数据处理模块,接收所述广播消息,并监听所述广播消息中携带的所述RabbitMQ队列。
8.如权利要求6或7所述的设备,其特征在于,
所述告警监听模块和数据处理模块为两个相互独立的模块。
9.如权利要求8所述的设备,其特征在于,
所述告警监听模块置于任一节点的RabbitMQ客户端侧。
10.如权利要求8所述的设备,其特征在于,
所述数据处理模块置于任一节点的RabbitMQ服务端侧。
CN201810811400.9A 2018-07-23 2018-07-23 一种物理基础设施管理器pim告警处理方法及设备 Pending CN109086189A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810811400.9A CN109086189A (zh) 2018-07-23 2018-07-23 一种物理基础设施管理器pim告警处理方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810811400.9A CN109086189A (zh) 2018-07-23 2018-07-23 一种物理基础设施管理器pim告警处理方法及设备

Publications (1)

Publication Number Publication Date
CN109086189A true CN109086189A (zh) 2018-12-25

Family

ID=64838492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810811400.9A Pending CN109086189A (zh) 2018-07-23 2018-07-23 一种物理基础设施管理器pim告警处理方法及设备

Country Status (1)

Country Link
CN (1) CN109086189A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112202925A (zh) * 2020-11-09 2021-01-08 山东融为信息科技有限公司 一种ARM环境下的SNMP Trap数据处理方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106100894A (zh) * 2016-07-11 2016-11-09 华南理工大学 一种高可靠的集群运维管理方法
CN107291595A (zh) * 2017-07-06 2017-10-24 成都睿胜科技有限公司 分布式应用系统监控管理方法
CN107832200A (zh) * 2017-10-24 2018-03-23 平安科技(深圳)有限公司 告警处理方法、装置、计算机设备及存储介质
CN108199896A (zh) * 2018-01-16 2018-06-22 中电福富信息科技有限公司 基于RabbitMQ的分布式消息发布系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106100894A (zh) * 2016-07-11 2016-11-09 华南理工大学 一种高可靠的集群运维管理方法
CN107291595A (zh) * 2017-07-06 2017-10-24 成都睿胜科技有限公司 分布式应用系统监控管理方法
CN107832200A (zh) * 2017-10-24 2018-03-23 平安科技(深圳)有限公司 告警处理方法、装置、计算机设备及存储介质
CN108199896A (zh) * 2018-01-16 2018-06-22 中电福富信息科技有限公司 基于RabbitMQ的分布式消息发布系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S. HUSSAIN ET AL.: "Enhanced adaptive, convergent and intelligent fault monitoring in distributed systems (eACID): Working and analysis", 《2008 IEEE INTERNATIONAL MULTITOPIC CONFERENCE》 *
周强 等: "分布式监控系统数据服务器结构设计", 《计算机系统应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112202925A (zh) * 2020-11-09 2021-01-08 山东融为信息科技有限公司 一种ARM环境下的SNMP Trap数据处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110224894B (zh) 一种智能变电站过程层网络监测管理系统
CN109784508A (zh) 一种基于云平台的电网全景监测运维管理方法及系统
US8891403B2 (en) Inter-cluster communications technique for event and health status communications
CN106443345B (zh) 一种用于架空配电线路的故障定位系统及方法
CN102014403B (zh) 一种传输网络拓扑信息的方法及系统
CN105790990B (zh) 一种监管配用电通信业务的方法及其系统
CN107046481A (zh) 一种信息系统综合网管系统综合分析平台
CN107124315B (zh) 基于snmp及ipmi协议的多服务器监测系统及监测方法
CN105262210A (zh) 一种变电站网络安全性分析预警系统和方法
CN102111310A (zh) Cdn设备状态监控方法和系统
CN108521457B (zh) 一种设备控制命令的跟踪方法及系统
CN105049253B (zh) 一种获取移动网络故障定位和故障预警的方法
CN104394011A (zh) 一种通过告警信息支持服务器虚拟化运维的方法
CN108234150A (zh) 用于数据中心监控系统的数据采集和处理方法及系统
CN109361576A (zh) 一种pim监控数据处理方法及系统
CN101707528B (zh) 一种对集中监控系统的告警数据的传送方法
CN108134453A (zh) 一种智能配电房监控系统的预警告警方法
CN109698766A (zh) 通信电源故障分析的方法及系统
CN104270434A (zh) 一种基于云服务的服务状态监视系统
CN107633307A (zh) 供配电系统根源告警检测方法、装置、终端及计算机存储介质
CN108572634A (zh) 智能化选煤厂全网通信息系统及其数据采集与交换的方法
JP2023506239A (ja) ハイブリッドエネルギー管理における自律的モニタリング及びリカバリのためのシステム及び方法
CN102571436A (zh) 一种snmp的综合监控设备及其管理办法
CN115033450A (zh) 一种基于分布式的贝叶斯集群监控预警分析方法
CN105743695A (zh) 一种基于iec104 规约的监听方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181225

RJ01 Rejection of invention patent application after publication