CN109933489A - 应用于类unix系统的硬件监控体系 - Google Patents

应用于类unix系统的硬件监控体系 Download PDF

Info

Publication number
CN109933489A
CN109933489A CN201910175262.4A CN201910175262A CN109933489A CN 109933489 A CN109933489 A CN 109933489A CN 201910175262 A CN201910175262 A CN 201910175262A CN 109933489 A CN109933489 A CN 109933489A
Authority
CN
China
Prior art keywords
hardware
acquisition module
operating system
disposition
ipmi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910175262.4A
Other languages
English (en)
Inventor
吴树霖
肖传奇
陈少钦
陈其泽
孔美美
陈功伯
陈新星
王川丰
姚文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Fujian Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Original Assignee
State Grid Fujian Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Fujian Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd filed Critical State Grid Fujian Electric Power Co Ltd
Priority to CN201910175262.4A priority Critical patent/CN109933489A/zh
Publication of CN109933489A publication Critical patent/CN109933489A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提出一种应用于类unix系统的硬件监控体系,包括:分别与处置告警模块连接的操作系统采集模块和IPMI采集模块;所述操作系统采集模块以系统工具包的形式运行于操作系统,通过操作系统调取硬件状态数据;所述IPMI采集模块设置在外置板卡上,通过IPMI协议连接计算机设备,并获取硬件状态数据;所述操作系统采集模块和IPMI采集模块实时将获取的硬件状态数据上传至处置告警模块;所述处置告警模块将收到的硬件状态数据与预设的阈值进行比较,并对异常数据启动告警。本发明通过自动化的系统采集,可以极大的提高监控采集数据颗粒度、增强采集告警精度。可实现实时的硬件级监控,替代人工巡检的重复劳动和发现不及时等问题。

Description

应用于类unix系统的硬件监控体系
技术领域
本发明属于硬件状态监控领域,尤其涉及一种机房硬件监控体系及方法。
背景技术
随着近年信息化进程的加快,目前机房设备种类和数量越来越多,相应的运维工作也越来越重,几乎每天都有硬件老化或者设备失电故障发生,如何又快又准确的发现硬件故障问题,成为运维运维中心亟需解决的问题。
目前,对于这些设备的监控主要集中在常规性能如CPU、内存、连通性等软件层面的监控,但对于硬件层面的故障监控,仍然停留在由人工的每天机房一台台面板巡检完成,不仅效率低下,且存在告警漏看、错看、发现不及时等隐患,缺乏科学的管理与现代技术手段,不利于中心机房硬件的科学运营。
发明内容
本发明基于现有的PC服务器品牌基本都支持的IPMI协议,用以监控设备硬件内部的传感器状态,以SNMP协议接收设备的硬件的主动告警,将机房设备的硬件健康状态纳入到调度监控来,极大的提高了监控的完整性和故障隐患的及时性,节约了服务器等设备的人工巡检时间,将日常机房巡检工作向机房动力、环境、消防巡检方向倾斜;同时,弥补了因设备安装、标示阻挡、光线明暗等原因造成的人工巡检发现不及时的问题,提升信息化运维的自动化和智能化水平。
本发明提出的方案能够实现远程实时的监控计算机设备(服务器)的各种在运行硬件的状态数据,并产生告警,从而有效的降低人工每天巡检的工作强度。本发明具体采用以下技术方案:
一种应用于类unix系统的硬件监控体系,其特征在于,包括:分别与处置告警模块连接的操作系统采集模块和IPMI采集模块;所述操作系统采集模块以系统工具包的形式运行于操作系统,通过操作系统调取硬件状态数据;所述IPMI采集模块设置在外置板卡上,通过IPMI协议连接计算机设备,并获取硬件状态数据;所述操作系统采集模块和IPMI采集模块实时将获取的硬件状态数据上传至处置告警模块;所述处置告警模块将收到的硬件状态数据与预设的阈值进行比较,并对异常数据启动告警。
优选地,所述操作系统采集模块通过操作系统的底层调用获取CPU和内存运行状态数据。
优选地,所述外置板卡与计算机设备采用不同的供电设备,并搭载有UPS供电系统。
优选地,所述硬件状态数据包括计算机设备的CPU、内存、硬盘、电源、温度的状态数据,其中任一种硬件状态数据出现异常,处置告警模块均产生告警。
优选地,硬盘异常数据包括:硬盘RAID卡链路状态异常、硬盘故障RAID降级。
优选地,电源异常数据包括:电源失电和故障。
优选地,温度异常数据包括:CPU温度、主板温度、风扇温度、以及硬盘温度;所述IPMI采集模块自身的温度状态数据也上传至处置告警模块。
优选地,所述处置告警模块设置在远端监控中心。
本发明具有以下突出优点:通过自动化的系统采集,可以极大的提高监控采集数据颗粒度、增强采集告警精度。可实现实时的硬件级监控,替代人工巡检的重复劳动和发现不及时等问题,提升信息化的自动化运维水平,从而降低人工巡检的强度,并准确实时的发现系统的硬件故障,避免系统带病作业。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
图1是本发明实施例整体结构示意图。
具体实施方式
为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
本实施例旨在提供一种计算机设备(主要针对服务器)的硬件监控装置,能够远程实时的监控服务器的各种在运运行硬件运行状态数据,并产生告警,从而有效的降低人工每天巡检的工作强度,最终实现以下目标:
1)提高硬件监控颗粒度;
2)提升监控频率,基本可以达到故障的实时监控;
3)降低人工重复巡检的劳动,提升信息化运维的自动化水平。
如图1所示,本实施例提供了一套有别于现有技术方案的体系,包括:分别与处置告警模块连接的操作系统采集模块和IPMI采集模块。
其中,操作系统采集模块根植于底层操作系统,位于计算机设备所构成体系的内部,以系统工具包的形式运行于操作系统,通过操作系统调取硬件状态数据。操作系统采集模块主要通过操作系统的底层调用获取CPU、硬盘和内存运行状态等数据。由于该种采集依赖于操作系统调用,故目前仅对类unix系统支持性较好。
与之相对的,IPMI采集模块设置在外置板卡上,通过IPMI协议经BMC模块连接计算机设备,并获取硬件状态数据,可以采集硬件的CPU、内存、硬盘RAID、温度、风扇、电源、BIOS等软硬件运行状态数据。该外置板卡与计算机设备采用不同的供电设备,并搭载有UPS供电系统,能够保证即使CPU、内存、BIOS、OS出现故障,均不影响该模块的数据采集。同时,IPMI采集模块能够补充无法通过操作系统采集模块采集的运行于操作系统之上的一些硬件状态数据。
通过上述两种采集模块的设置,可互相弥补各自的采集短板,提升监控系统的整体监控颗粒度。
如,可以采集的硬盘状态信息包括:RAID卡的芯片版本、状态、缓存状态数据、RAID级别状态、温度等数据采集。可以采集的电源状态信息包括:电压、功耗、电源运行状态、出现失电、电源在位数量等。
操作系统采集模块和IPMI采集模块实时将获取的硬件状态数据上传至处置告警模块;处置告警模块将收到的硬件状态数据与预设的阈值进行比较,并对异常数据启动告警。处置告警模块设置在远端监控中心,能够保证无需现场巡检即实现现场设备的监控。
在本实施例中,硬件状态数据主要包括计算机设备的CPU、内存、硬盘、电源、温度的状态数据,其中任一种硬件状态数据出现异常,处置告警模块均产生告警。
硬盘异常数据主要包括:硬盘RAID卡链路状态异常、硬盘故障RAID降级。
电源异常数据主要包括:电源失电和故障。
温度异常数据主要包括:CPU温度、主板温度、风扇温度、以及硬盘温度;IPMI采集模块自身的温度状态数据也上传至处置告警模块。
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的应用于类unix系统的硬件监控体系,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。

Claims (8)

1.一种应用于类unix系统的硬件监控体系,其特征在于,包括:分别与处置告警模块连接的操作系统采集模块和IPMI采集模块;所述操作系统采集模块以系统工具包的形式运行于操作系统,通过操作系统调取硬件状态数据;所述IPMI采集模块设置在外置板卡上,通过IPMI协议连接计算机设备,并获取硬件状态数据;所述操作系统采集模块和IPMI采集模块实时将获取的硬件状态数据上传至处置告警模块;所述处置告警模块将收到的硬件状态数据与预设的阈值进行比较,并对异常数据启动告警。
2.根据权利要求1所述的应用于类unix系统的硬件监控体系,其特征在于:所述操作系统采集模块通过操作系统的底层调用获取CPU和内存运行状态数据。
3.根据权利要求1所述的应用于类unix系统的硬件监控体系,其特征在于:所述外置板卡与计算机设备采用不同的供电设备,并搭载有UPS供电系统。
4.根据权利要求1所述的应用于类unix系统的硬件监控体系,其特征在于:所述硬件状态数据包括计算机设备的CPU、内存、硬盘、电源、温度的状态数据,其中任一种硬件状态数据出现异常,处置告警模块均产生告警。
5.根据权利要求4所述的应用于类unix系统的硬件监控体系,其特征在于,硬盘异常数据包括:硬盘RAID卡链路状态异常、硬盘故障RAID降级。
6.根据权利要求4所述的应用于类unix系统的硬件监控体系,其特征在于,电源异常数据包括:电源失电和故障。
7.根据权利要求4所述的应用于类unix系统的硬件监控体系,其特征在于,温度异常数据包括:CPU温度、主板温度、风扇温度、以及硬盘温度;所述IPMI采集模块自身的温度状态数据也上传至处置告警模块。
8.根据权利要求1所述的应用于类unix系统的硬件监控体系,其特征在于:所述处置告警模块设置在远端监控中心。
CN201910175262.4A 2019-03-08 2019-03-08 应用于类unix系统的硬件监控体系 Pending CN109933489A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910175262.4A CN109933489A (zh) 2019-03-08 2019-03-08 应用于类unix系统的硬件监控体系

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910175262.4A CN109933489A (zh) 2019-03-08 2019-03-08 应用于类unix系统的硬件监控体系

Publications (1)

Publication Number Publication Date
CN109933489A true CN109933489A (zh) 2019-06-25

Family

ID=66986872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910175262.4A Pending CN109933489A (zh) 2019-03-08 2019-03-08 应用于类unix系统的硬件监控体系

Country Status (1)

Country Link
CN (1) CN109933489A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794251A (zh) * 2010-01-18 2010-08-04 浪潮(北京)电子信息产业有限公司 一种计算机健康监控管理系统及方法
US20120158890A1 (en) * 2010-12-17 2012-06-21 Dell Products L.P. Native bi-directional communication for hardware management
CN106815119A (zh) * 2016-12-20 2017-06-09 曙光信息产业(北京)有限公司 服务器的硬件监控装置
CN107124315A (zh) * 2017-05-19 2017-09-01 国网安徽省电力公司淮南供电公司 基于snmp及ipmi协议的多服务器监测系统及监测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794251A (zh) * 2010-01-18 2010-08-04 浪潮(北京)电子信息产业有限公司 一种计算机健康监控管理系统及方法
US20120158890A1 (en) * 2010-12-17 2012-06-21 Dell Products L.P. Native bi-directional communication for hardware management
CN106815119A (zh) * 2016-12-20 2017-06-09 曙光信息产业(北京)有限公司 服务器的硬件监控装置
CN107124315A (zh) * 2017-05-19 2017-09-01 国网安徽省电力公司淮南供电公司 基于snmp及ipmi协议的多服务器监测系统及监测方法

Similar Documents

Publication Publication Date Title
CN103245912B (zh) 一种风电机组运行状态分析诊断方法和系统
US20220191719A1 (en) Network connectivity performance determination on computing devices
WO2020253417A1 (zh) 一种基于LoRaWAN的输电线路监测装置及系统
US8397053B2 (en) Multi-motherboard server system
CN103200050A (zh) 服务器的硬件状态监控方法和系统
CN111176939B (zh) 一种基于cpld的多节点服务器的管理系统及方法
US9069618B1 (en) Updating kernal affinity for applications executing in a multiprocessor system
CN111611114A (zh) 综合航空电子phm系统
CN106708707A (zh) 一种基于服务器架构的服务器监控系统
CN106445055A (zh) 一种Rack服务器电源保护机制
CN104317682A (zh) 一种实现风扇停转的异常状态快速区分识别的设计方法
CN111611254A (zh) 设备能耗异常监测方法、装置、终端设备及存储介质
CN112882901A (zh) 一种分布式处理系统健康状态智能监控器
CN107943670A (zh) 一种ups电源设备监控系统
CN210515178U (zh) 一种基于国产cpu实现的刀片服务器的管理板
CN110163535A (zh) 一种能源管理综合分析系统
CN201576280U (zh) 智能平台管理接口
CN109933489A (zh) 应用于类unix系统的硬件监控体系
CN105527914A (zh) 一种双cpu可靠设计的基站动环监控装置及方法
CN104485991A (zh) 一种光模块故障自动报警方法及系统
CN207817501U (zh) 一种基于大数据的机房环境监控系统
CN104571098A (zh) 基于Atom平台的远程自诊断方法
CN108234154B (zh) 一种机载交换网络设备故障监控方法
CN104363120A (zh) 服务器的运行环境监控、保护方法和系统
CN211015480U (zh) 基于fpga的边缘计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190625

RJ01 Rejection of invention patent application after publication