CN105528273A - 一种服务器主机硬件的监控方法、装置及电子设备 - Google Patents

一种服务器主机硬件的监控方法、装置及电子设备 Download PDF

Info

Publication number
CN105528273A
CN105528273A CN201410521395.XA CN201410521395A CN105528273A CN 105528273 A CN105528273 A CN 105528273A CN 201410521395 A CN201410521395 A CN 201410521395A CN 105528273 A CN105528273 A CN 105528273A
Authority
CN
China
Prior art keywords
server
hardware
cli
bios level
monitoring information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410521395.XA
Other languages
English (en)
Inventor
卢卓君
周平
张卷
蒋熠
裴达兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Group Zhejiang Co Ltd
Priority to CN201410521395.XA priority Critical patent/CN105528273A/zh
Publication of CN105528273A publication Critical patent/CN105528273A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供一种服务器主机硬件的监控方法、装置及电子设备。服务器基于预设规范提供命令行接口,所述监控端与所述服务器通过所述命令行接口进行数据传输,所述方法包括:接收所述服务器通过所述命令行接口发送的第一基本输入输出系统BIOS级行命令CLI,所述第一BIOS级CLI携带有所述服务器的内嵌监控部件采集到的硬件监控信息;从所述第一BIOS级CLI中解析出所述硬件监控信息;根据所述硬件监控信息,生成硬件监控报告。本发明实施例支持大量不同厂商服务器的主机硬件监控的快速部署。

Description

一种服务器主机硬件的监控方法、装置及电子设备
技术领域
本发明涉及硬件监控领域,尤其涉及一种服务器主机硬件的监控方法、装置及电子设备。
背景技术
当前X86服务器硬件监控使用的主要方式包括:操作系统脚本命令、代理探针(Agent)、简单网络管理协议(SimpleNetworkManagementProtocol,SNMP)、基于WBEM(Web-BasedEnterpriseManagement,基于Web的企业管理规范)/WS-Management(WebServices-Management,Web方式管理)规范的厂商自带工具和IPMI。其中:
操作系统脚本命令(script)是最早使用的服务器常规监控方式,使用按一定格式编写的操作系统行命令,获得被管系统返回的文本格式命令响应结果,并加以解析后达到设备监控目的。
代理探针方式需要在被监控服务器主机上逐台安装常驻内存的第三方程序(Agent),通过操作系统和应用程序API来采集获取服务器工况和告警信息。
SNMP方式是通过SNMP协议,基于MIB视图与被管设备上的SNMP代理通信,周期性地从各被管设备获取(GET)网管信息,或者监听来自被管设备上SNMP代理的TRAP消息来实现设备带内监控的方式。
WBEM/WS-Management规范均由DMTF(DistributedManagementTaskForce)---分布式管理任务组)组织提出。WBEM规范将已有的SNMP、DMI(DesktopManagementInterface,桌面计算机管理接口)/WMI(WindowsManagementInstrumentation,Windows管理规范)等采集接口予以集成,在统一信息建模环境(CIM,CommonInformationMode,公共信息模型)基础上完成监控信息的实例化与整合,并通过Web方式实现分布式IT环境的统一管理。WBEM的提出是为了重点解决SNMP、DMI等规范不能以统一通用的数据描述格式提交和获取被管理资源标识、状态和配置等信息的问题。
WS管理(WS-Management)是在WBEM基础上,基于SOAP(SimpleObjectAccessProtocol,简单对象访问协议)规范定义的一组核心WebService规则和通用管理操作集,支持与WBEM/CIM间的相互映射,由于增强了防火墙穿越能力,便于实现网络远程监控。
WBEM和WS-Management规范均未定义全新的信息采集方式,只是对已有SNMP、DMI、WMI、IPMI采集方式予以融合和信息模型加以规范,具有接口类型丰富、管理层面覆盖较为完备等特点,HPSIM、IBMdirector/Tivoli、DellOpenManage等服务器厂商自有主机管理工具均使用了WBEM/WS-Management方式,并在此基础上继承和发展后续升级版本。但由于接口适配复杂性和上层数据融合技术实现难度等原因,当前实用化的工具并未有效实现厂商的硬件监控。
智能平台管理接口(IntelligentPlatformManagementInterface,IPMI)晚于WBEM提出,是英特尔(Intel)及PICMG组织(PCIIndustrialComputerManufacturersGroup,全球PCI工业计算机制造组织)为实现带外硬件监控而制订。IPMI方式是一种通过向X86服务器内置专用芯片/基板管理控制器(BMC,BaseboardManagementController)发送IPMI规范指定的命令,不依靠被管服务器操作系统采集获取服务器工况、告警,实现远程上下电等操作的X86服务器硬件带外监控手段。
现有的X86服务器硬件监控方案存在如下缺点:
1、操作系统脚本命令
a)监控内容受限于操作系统厂商和版本,获取信息未使用CIM信息模型和数据描述,信息规范性不够理想,解析适配工作量很大,互操作性差;
b)采集依靠操作系统,操作系统未安装或故障时不能正常上报监控信息。
2、代理探针方式
a)该种方式需要在被监控服务器主机上逐台安装第三方程序、占用被监控主机的部分处理资源,一定程序上会对重要生产系统的运行造成影响。
b)该种方式需要通过操作系统进行数据传输带来了不必要的操作系统负担,生产系统与监控系统在业务数据流和监控信息流上存在相互影响,且在操作系统故障时监控信息无法正常上报。
3、SNMP方式
a)SNMP方式则存在部分监测内容受厂商私有MIB库不开放限制难以获取监控指标,导致监控信息不全;
b)SNMP方式使用被动采集机制、采用用户数据报协议(UserDatagramProtocol,UDP)方式转送,容易出现丢包情况,存在信息上报机制不足、重要告警可能漏报等缺点;
c)SNMP由于需要通过操作系统进行数据传输带来了不必要的操作系统负担,生产系统与监控系统在业务数据流和监控信息流上存在相互影响,且在操作系统未安装或故障时监控信息无法正常上报;
d)SNMP从实际运行看存在较多安全漏洞,安全性较低。
4、WBEM/WS-Management方式
a)WBEM/WS-Management方式对被管X86服务器主机预先安装操作系统、打开SNMP服务、开启多个管理端口(dmi/wmi、ipmi、操作系统行命令)的依赖性较大,导致生产系统的监控操作和生产系统的日常业务运行不能完全隔离,生产系统与监控系统不能在作业流和信息流上存在相互影响,在对“不能中断的关键生产系统”监控中仍存在盲点。
b)WBEM/WS-MAN(WS-Management)方式受厂商私有资源库开放性的限制存在难以获取监控指标,导致监控信息不全、软件维护工作量大等问题;
c)监控消息封装-效率低的问题。
5、IPMI监控方式
a)IPMI消息封装层次多、命令响应慢,也存在命令采集效率偏低问题;
b)获取Intel定义IPMB消息,不能全面获取服务器厂商自有部件诊断信息;
c)不支持多用户操作,在大规模X86服务器硬件监控应用中受限较大。
IPMI监控信息采集方式如图1A所示。IPMI消息按会话序号被封装为RMCP(RemoteManagementControlProtocol,远程管理控制协议)包并最终被封装成以太网帧通过IP网络发送,具体的封装结构如图1B所示,其中,各域的说明见表1。
表1
表1中,Netfn可翻译为功能类别,LUN可翻译为子组件号,cmd可翻译为命令代码,Seq就是序列号。
图1B中,TCP为传输控制协议(TransmissionControlProtocol)的英文缩写,IP为因特网协议(InternetProtocol)的英文缩写。
发明内容
有鉴于此,本发明实施例的目的是提供一种服务器主机硬件的监控方法、装置及电子设备,以支持大量不同厂商服务器的主机硬件监控的快速部署。
为解决上述技术问题,本发明实施例提供方案如下:
本发明实施例提供一种服务器主机硬件的监控方法,用于监控端,服务器基于预设规范提供命令行接口,所述监控端与所述服务器通过所述命令行接口进行数据传输,所述方法包括:
接收所述服务器通过所述命令行接口发送的第一基本输入输出系统BIOS级行命令CLI,所述第一BIOS级CLI携带有所述服务器的内嵌监控部件采集到的硬件监控信息;
从所述第一BIOS级CLI中解析出所述硬件监控信息;
根据所述硬件监控信息,生成硬件监控报告。
优选地,所述预设规范为服务器硬件系统管理架构SMASH规范集中服务器硬件系统管理命令行SM-CLP规范。
优选地,所述服务器为X86服务器。
优选地,所述接收所述服务器通过所述命令行接口发送的第一基本输入输出系统BIOS级行命令CLI之前,还包括:
通过所述命令行接口向所述服务器发送携带有硬件监控信息采集命令的第二BIOS级CLI,所述第二BIOS级CLI用于触发所述服务器获取所述硬件监控信息。
优选地,所述第二BIOS级CLI为所述监控端通过所述命令行接口以轮询方式向所述服务器发送的多个BIOS级CLI中的一个,所述监控端按照预设轮询时间周期向所述服务器发送所述多个BIOS级CLI。
优选地,所述硬件监控报告包括工况告警信息,所述根据所述硬件监控信息,生成硬件监控报告包括:
根据所述硬件监控信息,确定发生故障硬件的硬件标识;
生成针对所述硬件标识的工况告警信息。
本发明实施例还提供一种服务器主机硬件的监控方法,用于服务器,服务器基于预设规范提供命令行接口,所述方法包括:
通过所述命令行接口接收所述监控端发送的携带有硬件监控信息采集命令的第二BIOS级CLI;
根据所述第二BIOS级CLI获取所述硬件监控信息;
将所述硬件监控信息携带在所述第一BIOS级CLI中通过所述命令行接口发送给所述监控端。
优选地,所述根据所述第二BIOS级CLI获取所述硬件监控信息,包括:
从所述第二BIOS级CLI中解析出所述硬件监控信息采集命令;
根据所述硬件监控信息采集命令,获取所述服务器的内嵌监控部件采集到的所述硬件监控信息。
本发明实施例还提供一种服务器主机硬件的监控装置,用于监控端,服务器基于预设规范提供命令行接口,所述监控端与所述服务器通过所述命令行接口进行数据传输,所述装置包括:
第一接收模块,用于接收所述服务器通过所述命令行接口发送的第一基本输入输出系统BIOS级行命令CLI,所述第一BIOS级CLI携带有所述服务器的内嵌监控部件采集到的硬件监控信息;
第一解析模块,用于从所述第一BIOS级CLI中解析出所述硬件监控信息;
生成模块,用于根据所述硬件监控信息,生成硬件监控报告。
优选地,还包括:
第一发送模块,用于所述接收模块接收所述服务器通过所述命令行接口发送的第一基本输入输出系统BIOS级行命令CLI之前,通过所述命令行接口向所述服务器发送携带有硬件监控信息采集命令的第二BIOS级CLI,所述第二BIOS级CLI用于触发所述服务器获取所述硬件监控信息。
优选地,所述第二BIOS级CLI为所述监控端通过所述命令行接口以轮询方式向所述服务器发送的多个BIOS级CLI中的一个,所述监控端按照预设轮询时间周期向所述服务器发送所述多个BIOS级CLI。
优选地,所述硬件监控报告包括工况告警信息,所述生成模块包括:
确定单元,用于根据所述硬件监控信息,确定发生故障硬件的硬件标识;
生成单元,用于生成针对所述硬件标识的工况告警信息。
本发明实施例还提供一种服务器主机硬件的监控装置,用于服务器,服务器基于预设规范提供命令行接口,所述装置包括:
第二接收模块,用于通过所述命令行接口接收所述监控端发送的携带有硬件监控信息采集命令的第二BIOS级CLI;
获取模块,用于根据所述第二BIOS级CLI获取所述硬件监控信息;
第二发送模块,用于将所述硬件监控信息携带在所述第一BIOS级CLI中通过所述命令行接口发送给所述监控端。
优选地,所述获取模块包括:
解析单元,用于从所述第二BIOS级CLI中解析出所述硬件监控信息采集命令;
获取单元,用于根据所述硬件监控信息采集命令,获取所述服务器的内嵌监控部件采集到的所述硬件监控信息。
本发明实施例还提供一种包括以上所述的服务器主机硬件的监控装置的电子设备。
从以上所述可以看出,本发明实施例至少具有如下有益效果:
无论服务器主机硬件架构如何以及服务器主机硬件与服务器操作系统的交互关系如何,只要服务器基于预设规范提供了支持BIOS级行命令交互的命令行接口,监控端就能对其进行监控,从而能够对各种不同的服务器提供统一的部署方式,从而也就支持了大量不同厂商服务器的主机硬件监控的快速部署。
附图说明
图1A表示IPMI监控信息采集方式示意图;
图1B表示IPMI消息报文封装层级示意图;
图2表示本发明实施例提供的一种服务器主机硬件的监控方法的步骤流程图;
图3表示本发明实施例提供的另一种服务器主机硬件的监控方法的步骤流程图;
图4表示本发明实施例的较佳实施方式的服务器各层监控层次定义示意图;
图5A表示本发明实施例的较佳实施方式的BIOS级行命令硬件监控实现层级示意图;
图5B表示本发明实施例的较佳实施方式的BIOS级行命令硬件监控实现层级的采集信息范围示意图;
图6表示本发明实施例提供的一种服务器主机硬件的监控装置的结构框图;
图7表示本发明实施例提供的另一种服务器主机硬件的监控装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明实施例进行详细描述。
图2表示本发明实施例提供的一种服务器主机硬件的监控方法的步骤流程图,参照图2,本发明实施例提供一种服务器主机硬件的监控方法,服务器基于预设规范提供命令行接口,所述监控端与所述服务器通过所述命令行接口进行数据传输,所述方法包括如下步骤:
步骤201,接收所述服务器通过所述命令行接口发送的第一基本输入输出系统BIOS级行命令CLI,所述第一BIOS级CLI携带有所述服务器的内嵌监控部件采集到的硬件监控信息;
步骤202,从所述第一BIOS级CLI中解析出所述硬件监控信息;
步骤203,根据所述硬件监控信息,生成硬件监控报告。
所述方法用于监控端。
可见,通过上述方式,无论服务器主机硬件架构如何以及服务器主机硬件与服务器操作系统的交互关系如何,只要服务器基于预设规范提供了支持BIOS级行命令交互的命令行接口,监控端就能对其进行监控,从而能够对各种不同的服务器提供统一的部署方式,从而也就支持了大量不同厂商服务器的主机硬件监控的快速部署。此外,相对于IPMI方式来说,BIOS级行命令方式效率也更高。
其中,所述硬件监控信息例如:服务器工况、硬件告警信息;电源、风扇等公共模块工况、硬件告警信息;服务器的事件日志信息等。
所述内嵌监控部件例如:内嵌监控管理部件。
所述硬件监控报告例如:工况告警信息。相应地,所述根据所述硬件监控信息,生成硬件监控报告可以包括:
根据所述硬件监控信息,确定发生故障硬件的硬件标识;
生成针对所述硬件标识的工况告警信息。
这里,所述根据所述硬件监控信息,确定发生故障硬件的硬件标识可以包括:
在所述硬件监控信息中包括所述第一硬件标识和所述第一硬件标识对应的故障指示信息时,将所述第一硬件标识确定为发生故障硬件的硬件标识;
或者,在所述硬件监控信息中包括所述第一硬件标识和所述第一硬件标识对应的硬件监控数据时,判断所述硬件监控数据是否满足设定的工况告警条件,如果是,将所述第一硬件标识确定为发生故障硬件的硬件标识。
所述预设规范可以为服务器硬件系统管理架构SMASH规范集中服务器硬件系统管理命令行SM-CLP规范。
所述服务器可以为X86服务器。
本发明实施例中,所述接收所述服务器通过所述命令行接口发送的第一基本输入输出系统BIOS级行命令CLI之前,还可以包括:
通过所述命令行接口向所述服务器发送携带有硬件监控信息采集命令的第二BIOS级CLI,所述第二BIOS级CLI用于触发所述服务器获取所述硬件监控信息。
由此,监控端就能根据需要进行特定硬件信息的监控,从而避免了服务器到监控端方向上所述命令行接口的不必要的流量开销。
其中,可以有:
所述第二BIOS级CLI为所述监控端通过所述命令行接口以轮询方式向所述服务器发送的多个BIOS级CLI中的一个,所述监控端按照预设轮询时间周期向所述服务器发送所述多个BIOS级CLI。
这种轮询方式提高了监控效率。
图3表示本发明实施例提供的另一种服务器主机硬件的监控方法的步骤流程图,参照图3,本发明实施例还提供一种服务器主机硬件的监控方法,服务器基于预设规范提供命令行接口,所述方法包括如下步骤:
步骤301,通过所述命令行接口接收所述监控端发送的携带有硬件监控信息采集命令的第二BIOS级CLI;
步骤302,根据所述第二BIOS级CLI获取所述硬件监控信息;
步骤303,将所述硬件监控信息携带在所述第一BIOS级CLI中通过所述命令行接口发送给所述监控端。
所述方法用于服务器。
可见,通过上述方式,无论服务器主机硬件架构如何以及服务器主机硬件与服务器操作系统的交互关系如何,只要服务器基于预设规范提供了支持BIOS级行命令交互的命令行接口,监控端就能对其进行监控,从而能够对各种不同的服务器提供统一的部署方式,从而也就支持了大量不同厂商服务器的主机硬件监控的快速部署。此外,相对于IPMI方式来说,BIOS级行命令方式效率也更高。
本发明实施例中,所述根据所述第二BIOS级CLI获取所述硬件监控信息,可以包括:
从所述第二BIOS级CLI中解析出所述硬件监控信息采集命令;
根据所述硬件监控信息采集命令,获取所述服务器的内嵌监控部件采集到的所述硬件监控信息。
<较佳实施方式>
为将本发明实施例阐述得更加清楚明白,下面提供本发明实施例的较佳实施方式。
本较佳实施方式涉及X86服务器主机硬件监控管理领域。
寻找一种能够避免在被管设备上安装第三方程序、不受厂商私有库限制、不依赖操作系统、告警上报及时的监控方式,对X86服务器硬件的实时多维度监管至关重要。
X86服务器硬件监控需要解决的技术问题:
1、支持跨越多厂商、多平台和多型号:屏蔽HP、IBM、Dell等多个厂商各款刀片服务器型号和机架式服务器型号的X86服务器间硬件差异,从芯片、总线、固件等底层层级实现统一的硬件监控信息采集。
2、完全的带外监控管理模式:在被监控设备系统及BIOS设置工作量、监控设备电源关闭状态下可监控度、被监控设备操作系统依赖程度、被监控设备处理资源占用程度和管理控制信息与业务数据传输通道隔离程度等五个方面,实现完全的X86服务器硬件监控管理带外化、消灭硬件监控盲点,摆脱被管X86服务器主机操作系统的影响、将生产系统与监控系统完全隔离。
3、监控信息全面性:可获取包括机箱电源、风扇、温度传感器、刀卡、处理器、内存等在内的重要部件硬件工况和告警信息,更加地实现基础资源的监控。
综上所述,X86服务器硬件监控技术迫切需要解决的问题可以概括为:采集底层化、信息完备化、监控带外化、管理无扰化。近年来,随着硬件制造商对DMTFSM-CLP规范遵从度的提升、芯片制造业的高度聚集整合以及固件支持能力的逐步完善,从芯片、总线和BIOS层面上,为实现上述跨厂商X86服务器硬件监控需求提供了可能。
DMTF制订的SMASH(SystemsManagementArchitectureforServerHardware)服务器硬件系统管理架构规范集中的SM-CLP(SystemsManagement-CommandLineProtocol)服务器硬件系统管理命令行规范对服务器各层监控层次定义见图4。
BIOS级行命令(BIOS级CLI)是利用各X86服务器厂商基于SMASHSM-CLP规范提供的命令行接口,由服务器的内嵌监控管理部件执行命令解释和采集操作,获取服务器硬件工况、告警消息与事件日志等监控信息。
近年来DMTF制订发布了SM-CLP服务器硬件系统管理命令行协议规范,定义了一套统一的、与服务器厂商型号、服务器状态、操作系统、服务器系统拓扑结构无关的硬件BIOS级行命令集合,支持获取当前工况信息、打开和关闭系统电源、提取系统日志和硬件告警、配置引导次序等操作,命令响应中的信息格式遵从CIM模型,为实现跨厂商服务器系统监控管理提供了指导规范基础。
由于X86服务器厂商的BIOS级行命令响应结果在IPMB消息和基板管理控制器(BMC)采集信息基础上扩充了内部传感器的I2C和RS-485等总线传送消息,丰富了X86服务器硬件监控信息内容,更加便于智能化告警-障碍关联分析的实现。同时监控信息由内嵌监控管理部件聚合后返回,克服了基于UDP/RMCP协议的IPMI消息封装开销大、BMC响应速度慢,不支持多用户并发操作的问题。
图5A表示本较佳实施方式的BIOS级行命令硬件监控实现层级示意图,参照图5A,由从设备角度来看BIOSCLI监控管理模式,命令解释器通过CIM公共信息模型与多个管理单元交互,而每个管理单元又与多个被管单元交互。
图5B表示本较佳实施方式的BIOS级行命令硬件监控实现层级的采集信息范围示意图,参照图5B,监控端通过带外管理方式对被监控X86服务器进行监控,被监控X86服务器中的BIOSCLI命令解释器对来自监控端的BIOSCLI命令报文进行处理,BIOSCLI命令解释器与被监控X86服务器中的IPMI硬件接口、BMC硬件接口、I2C总线接口和RS-485接口均能够进行交互,从而支持被监控X86服务器各种硬件信息的采集。
X86服务器BIOS级CLI硬件监控采集执行流程如下:
1、监控管理端与被监控服务器的BMC/管理模块网口建立SSH/Telnet连接,使用Telnet或SecureShell(SSH)文本消息协议启动符合SMASHCLP规范的BIOS级CLI交互;
2、监控管理端按预设轮询时间周期建立BIOS级CLI命令任务队列,完成命令发送的调度管理;
3、被监控目标X86服务器为多台时,监控管理端采用多线程并发轮询机制;
4、首先向被监控目标X86服务器发送配置查询命令,目标X86服务器BMC/管理模块内的嵌入式BIOSCLI解释器接收并执行命令,返回命令响应结果,监控管理端解析命令响应结果并获取目标设备的详细配置参数信息,动态构建后续命令,执行批量信息采集;
5、执行相关BIOS级CLI命令,完成被监控目标X86服务器工况、硬件告警信息的采集;
6、执行相关BIOS级CLI命令,完成电源、风扇等公共模块工况、硬件告警信息的采集;
7、执行相关BIOS级CLI命令,采集被监控目标X86服务器的事件日志信息;
8、对符合CIM模型的采集结果信息实施解析,实时完成信息融合,并按预设门限触发生成工况告警;
9、如果监控端与被监控目标X86服务器BMC/管理模块间不能建立SSH/Telnet连接,以及发送命令无响应、超过重试次数门限后,监控端生成目标不可达或目标无响应等告警。
10、命令执行结束,结束本轮命令任务队列周期;
11、等待定时器到达,开始下一轮命令轮询。
使用BIOS命令行实施X86服务器硬件监控的优点:
遵照DMTF组织SMASHSM-CLP(服务器硬件系统管理命令行协议)规范;
工况和告警信息来源于芯片和总线,跨厂商跨平台、信息内容一致性好;
采集获取的监控信息内容更加完备,轮询间隔粒度可以更小——单次命令返回的参数信息聚合度高于其他方式,采集效率高;
无需安装代理探针程序,系统架构层级简单,系统部署和实施效率高——避免了监控服务器用于XML解析的开销;避免了监控服务器用于XML解析的开销;轮询过程中命令响应速度快,监控采集信息带宽占用小;资源消耗低,监测采集服务器的资源监控容量大,适合大规模部署;
支持多用户并发操作、命令调用与服务松耦合,易于实现自动化;
彻底的带外管理,监控操作对被管服务器的资源消耗和影响降至最小——将对生产系统的监控操作和生产系统的日常业务运行分离;
受防火墙影响很小,CLIoverSSH的安全性与https相当。
通过综合比较,可以发现服务器硬件监控的技术趋势是逐步采用更为底层的芯片和总线信息,实现跨平台、标准化和带外化,BIOS级行命令轮询方式在跨平台监控支持能力、监控指标项完整性、告警处理转发能力、主动检测可控性、方案实施难度和二次开发和后续维护便捷性等方面,具有较突出的优势。使用BIOS级行命令采集技术构建大容量、集中化主机管理X86服务器硬件监控平台是技术创新性较好、应用前景较好的一种手段。
本发明提供一种适用于跨厂商X86主机服务器硬件监控管理系统,通过使用BIOS级行命令实现对X86服务器在关机和开机状态下的监控;此管理系统能够读取硬件配置信息,实现对HP、IBM、DELL等跨厂商多型号X86服务器机箱电源、风扇、温度传感器、刀卡、处理器、内存等重要部件的监控,收集服务器实时运行工况和事件日志,并实现告警处理和转发能力。此管理系统遵循DMTF的SM-CLP规范,层级少,不仅适用于X86服务器(包含ATCA/ATAE刀片服务器),扩展后也可适用于MIPS架构和RISC服务器。
本较佳实施方式中,基于SMASH-CLP/SM-CLP规范和服务器BIOS级行命令,脱离服务器操作系统获取服务器主板、电源模块、风扇模块和机箱硬件信息,采集监控操作不占用被管服务器的处理资源和网络通信资源,实现了全带外、无扰化的X86服务器硬件工况、告警事件的实时获取;服务器硬件监控信息在IPMB消息和基板管理控制器(BMC)采集信息基础上扩充了内部传感器的I2C总线消息和RS-485总线传送消息,丰富了X86服务器硬件监控信息内容。
本较佳实施方式通过采用BIOS级行命令,可实现完全无扰化、监控内容更完备的跨厂商X86服务器硬件统一监控,规避了服务器硬件监控安全风险,解决了高效监控、快速部署难题。
参考资料:
ISO/IEC13187-2011信息技术SM-CLP(ServerManagement-CommandLineProtocol)服务器管理命令行协议规范;
DMTFSMASH(SystemsManagementArchitectureforServerHardware)SM-CLP2.0(SystemsManagement-CommandLineProtocol)服务器硬件系统管理架构-命令行协议规范V2.0。
图6表示本发明实施例提供的一种服务器主机硬件的监控装置的结构框图,参照图6,本发明实施例还提供一种服务器主机硬件的监控装置,服务器基于预设规范提供命令行接口,所述监控端与所述服务器通过所述命令行接口进行数据传输,所述装置包括:
第一接收模块601,用于接收所述服务器通过所述命令行接口发送的第一基本输入输出系统BIOS级行命令CLI,所述第一BIOS级CLI携带有所述服务器的内嵌监控部件采集到的硬件监控信息;
第一解析模块602,用于从所述第一BIOS级CLI中解析出所述硬件监控信息;
生成模块603,用于根据所述硬件监控信息,生成硬件监控报告。
所述装置用于监控端。
可见,通过上述方式,无论服务器主机硬件架构如何以及服务器主机硬件与服务器操作系统的交互关系如何,只要服务器基于预设规范提供了支持BIOS级行命令交互的命令行接口,监控端就能对其进行监控,从而能够对各种不同的服务器提供统一的部署方式,从而也就支持了大量不同厂商服务器的主机硬件监控的快速部署。此外,相对于IPMI方式来说,BIOS级行命令方式效率也更高。
本发明实施例中,还可以包括:
第一发送模块,用于所述接收模块接收所述服务器通过所述命令行接口发送的第一基本输入输出系统BIOS级行命令CLI之前,通过所述命令行接口向所述服务器发送携带有硬件监控信息采集命令的第二BIOS级CLI,使得所述服务器能够:
从所述第二BIOS级CLI中解析出所述硬件监控信息采集命令;
根据所述硬件监控信息采集命令,获取所述服务器的内嵌监控部件采集到的所述硬件监控信息;以及,
将所述硬件监控信息携带在所述第一BIOS级CLI中通过所述命令行接口发送给所述服务器。
其中,所述第二BIOS级CLI可以为所述监控端通过所述命令行接口以轮询方式向所述服务器发送的多个BIOS级CLI中的一个,所述监控端可以按照预设轮询时间周期向所述服务器发送所述多个BIOS级CLI。
本发明实施例中,所述硬件监控报告可以包括工况告警信息,所述生成模块可以包括:
确定单元,用于根据所述硬件监控信息,确定发生故障硬件的硬件标识;
生成单元,用于生成针对所述硬件标识的工况告警信息。
图7表示本发明实施例提供的另一种服务器主机硬件的监控装置的结构框图,参照图7,本发明实施例还提供一种服务器主机硬件的监控装置,服务器基于预设规范提供命令行接口,所述装置包括:
第二接收模块701,用于通过所述命令行接口接收所述监控端发送的携带有硬件监控信息采集命令的第二BIOS级CLI;
获取模块702,用于根据所述第二BIOS级CLI获取所述硬件监控信息;
第二发送模块703,用于将所述硬件监控信息携带在所述第一BIOS级CLI中通过所述命令行接口发送给所述监控端。
所述装置用于服务器。
可见,通过上述方式,无论服务器主机硬件架构如何以及服务器主机硬件与服务器操作系统的交互关系如何,只要服务器基于预设规范提供了支持BIOS级行命令交互的命令行接口,监控端就能对其进行监控,从而能够对各种不同的服务器提供统一的部署方式,从而也就支持了大量不同厂商服务器的主机硬件监控的快速部署。此外,相对于IPMI方式来说,BIOS级行命令方式效率也更高。
本发明实施例中,所述获取模块可以包括:
解析单元,用于从所述第二BIOS级CLI中解析出所述硬件监控信息采集命令;
获取单元,用于根据所述硬件监控信息采集命令,获取所述服务器的内嵌监控部件采集到的所述硬件监控信息。
本发明实施例还提供一种电子设备,所述电子设备包括以上所述的服务器主机硬件的监控装置。
以上所述仅是本发明实施例的实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明实施例原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明实施例的保护范围。

Claims (15)

1.一种服务器主机硬件的监控方法,用于监控端,其特征在于,服务器基于预设规范提供命令行接口,所述监控端与所述服务器通过所述命令行接口进行数据传输,所述方法包括:
接收所述服务器通过所述命令行接口发送的第一基本输入输出系统BIOS级行命令CLI,所述第一BIOS级CLI携带有所述服务器的内嵌监控部件采集到的硬件监控信息;
从所述第一BIOS级CLI中解析出所述硬件监控信息;
根据所述硬件监控信息,生成硬件监控报告。
2.根据权利要求1所述的方法,其特征在于,所述预设规范为服务器硬件系统管理架构SMASH规范集中服务器硬件系统管理命令行SM-CLP规范。
3.根据权利要求1所述的方法,其特征在于,所述服务器为X86服务器。
4.根据权利要求1所述的方法,其特征在于,所述接收所述服务器通过所述命令行接口发送的第一基本输入输出系统BIOS级行命令CLI之前,还包括:
通过所述命令行接口向所述服务器发送携带有硬件监控信息采集命令的第二BIOS级CLI,所述第二BIOS级CLI用于触发所述服务器获取所述硬件监控信息。
5.根据权利要求4所述的方法,其特征在于,所述第二BIOS级CLI为所述监控端通过所述命令行接口以轮询方式向所述服务器发送的多个BIOS级CLI中的一个,所述监控端按照预设轮询时间周期向所述服务器发送所述多个BIOS级CLI。
6.根据权利要求1所述的方法,其特征在于,所述硬件监控报告包括工况告警信息,所述根据所述硬件监控信息,生成硬件监控报告包括:
根据所述硬件监控信息,确定发生故障硬件的硬件标识;
生成针对所述硬件标识的工况告警信息。
7.一种服务器主机硬件的监控方法,用于服务器,其特征在于,服务器基于预设规范提供命令行接口,所述方法包括:
通过所述命令行接口接收所述监控端发送的携带有硬件监控信息采集命令的第二BIOS级CLI;
根据所述第二BIOS级CLI获取所述硬件监控信息;
将所述硬件监控信息携带在所述第一BIOS级CLI中通过所述命令行接口发送给所述监控端。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第二BIOS级CLI获取所述硬件监控信息,包括:
从所述第二BIOS级CLI中解析出所述硬件监控信息采集命令;
根据所述硬件监控信息采集命令,获取所述服务器的内嵌监控部件采集到的所述硬件监控信息。
9.一种服务器主机硬件的监控装置,用于监控端,其特征在于,服务器基于预设规范提供命令行接口,所述监控端与所述服务器通过所述命令行接口进行数据传输,所述装置包括:
第一接收模块,用于接收所述服务器通过所述命令行接口发送的第一基本输入输出系统BIOS级行命令CLI,所述第一BIOS级CLI携带有所述服务器的内嵌监控部件采集到的硬件监控信息;
第一解析模块,用于从所述第一BIOS级CLI中解析出所述硬件监控信息;
生成模块,用于根据所述硬件监控信息,生成硬件监控报告。
10.根据权利要求9所述的装置,其特征在于,还包括:
第一发送模块,用于所述接收模块接收所述服务器通过所述命令行接口发送的第一基本输入输出系统BIOS级行命令CLI之前,通过所述命令行接口向所述服务器发送携带有硬件监控信息采集命令的第二BIOS级CLI,所述第二BIOS级CLI用于触发所述服务器获取所述硬件监控信息。
11.根据权利要求10所述的装置,其特征在于,所述第二BIOS级CLI为所述监控端通过所述命令行接口以轮询方式向所述服务器发送的多个BIOS级CLI中的一个,所述监控端按照预设轮询时间周期向所述服务器发送所述多个BIOS级CLI。
12.根据权利要求9所述的装置,其特征在于,所述硬件监控报告包括工况告警信息,所述生成模块包括:
确定单元,用于根据所述硬件监控信息,确定发生故障硬件的硬件标识;
生成单元,用于生成针对所述硬件标识的工况告警信息。
13.一种服务器主机硬件的监控装置,用于服务器,其特征在于,服务器基于预设规范提供命令行接口,所述装置包括:
第二接收模块,用于通过所述命令行接口接收所述监控端发送的携带有硬件监控信息采集命令的第二BIOS级CLI;
获取模块,用于根据所述第二BIOS级CLI获取所述硬件监控信息;
第二发送模块,用于将所述硬件监控信息携带在所述第一BIOS级CLI中通过所述命令行接口发送给所述监控端。
14.根据权利要求13所述的方法,其特征在于,所述获取模块包括:
解析单元,用于从所述第二BIOS级CLI中解析出所述硬件监控信息采集命令;
获取单元,用于根据所述硬件监控信息采集命令,获取所述服务器的内嵌监控部件采集到的所述硬件监控信息。
15.一种电子设备,其特征在于,包括如权利要求9至14中任一权利要求所述的服务器主机硬件的监控装置。
CN201410521395.XA 2014-09-30 2014-09-30 一种服务器主机硬件的监控方法、装置及电子设备 Pending CN105528273A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410521395.XA CN105528273A (zh) 2014-09-30 2014-09-30 一种服务器主机硬件的监控方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410521395.XA CN105528273A (zh) 2014-09-30 2014-09-30 一种服务器主机硬件的监控方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN105528273A true CN105528273A (zh) 2016-04-27

Family

ID=55770516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410521395.XA Pending CN105528273A (zh) 2014-09-30 2014-09-30 一种服务器主机硬件的监控方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN105528273A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886475A (zh) * 2017-01-23 2017-06-23 北京思特奇信息技术股份有限公司 一种监控服务器及基于命令行的主机监控方法
CN108255622A (zh) * 2018-01-17 2018-07-06 郑州云海信息技术有限公司 一种smash clp功能实现的方法及系统
CN111176958A (zh) * 2019-12-26 2020-05-19 联想(北京)有限公司 信息监测方法、系统和存储介质
CN111181970A (zh) * 2019-12-31 2020-05-19 广州邦讯信息系统有限公司 一种使用国密算法应用于国产化fsu的方法和系统
CN111580868A (zh) * 2019-02-18 2020-08-25 纬创资通股份有限公司 设定配置控制方法及其相关电脑系统
CN111767184A (zh) * 2020-09-01 2020-10-13 苏州浪潮智能科技有限公司 一种故障诊断方法、装置及电子设备和存储介质
WO2021212748A1 (zh) * 2020-04-23 2021-10-28 苏州浪潮智能科技有限公司 一种服务器传感器的轮循方法、系统及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6651190B1 (en) * 2000-03-14 2003-11-18 A. Worley Independent remote computer maintenance device
US20040255000A1 (en) * 2001-10-03 2004-12-16 Simionescu Dan C. Remotely controlled failsafe boot mechanism and remote manager for a network device
CN101140540A (zh) * 2007-10-19 2008-03-12 中兴通讯股份有限公司 一种自动监控磁阵故障的方法和系统
US7543048B2 (en) * 2002-11-22 2009-06-02 Intel Corporation Methods and apparatus for enabling of a remote management agent independent of an operating system
CN103793239A (zh) * 2012-11-02 2014-05-14 台达电子工业股份有限公司 云端丛集系统及其开机部署方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6651190B1 (en) * 2000-03-14 2003-11-18 A. Worley Independent remote computer maintenance device
US20040255000A1 (en) * 2001-10-03 2004-12-16 Simionescu Dan C. Remotely controlled failsafe boot mechanism and remote manager for a network device
US7543048B2 (en) * 2002-11-22 2009-06-02 Intel Corporation Methods and apparatus for enabling of a remote management agent independent of an operating system
CN101140540A (zh) * 2007-10-19 2008-03-12 中兴通讯股份有限公司 一种自动监控磁阵故障的方法和系统
CN103793239A (zh) * 2012-11-02 2014-05-14 台达电子工业股份有限公司 云端丛集系统及其开机部署方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CARLA SCHRODER: "《LINUX Networking Cookboook 中文版》", 30 April 2009, 东南大学出版社 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886475A (zh) * 2017-01-23 2017-06-23 北京思特奇信息技术股份有限公司 一种监控服务器及基于命令行的主机监控方法
CN108255622A (zh) * 2018-01-17 2018-07-06 郑州云海信息技术有限公司 一种smash clp功能实现的方法及系统
CN111580868A (zh) * 2019-02-18 2020-08-25 纬创资通股份有限公司 设定配置控制方法及其相关电脑系统
CN111580868B (zh) * 2019-02-18 2023-05-23 纬创资通股份有限公司 设定配置控制方法及其相关电脑系统
CN111176958A (zh) * 2019-12-26 2020-05-19 联想(北京)有限公司 信息监测方法、系统和存储介质
CN111176958B (zh) * 2019-12-26 2023-11-21 联想(北京)有限公司 信息监测方法、系统和存储介质
CN111181970A (zh) * 2019-12-31 2020-05-19 广州邦讯信息系统有限公司 一种使用国密算法应用于国产化fsu的方法和系统
CN111181970B (zh) * 2019-12-31 2022-03-11 广州邦讯信息系统有限公司 一种使用国密算法应用于国产化fsu的方法和系统
WO2021212748A1 (zh) * 2020-04-23 2021-10-28 苏州浪潮智能科技有限公司 一种服务器传感器的轮循方法、系统及相关装置
US11706050B2 (en) 2020-04-23 2023-07-18 Inspur Suzhou Intelligent Technology Co., Ltd. Polling method and system for server sensors, and related apparatus
CN111767184A (zh) * 2020-09-01 2020-10-13 苏州浪潮智能科技有限公司 一种故障诊断方法、装置及电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN105528273A (zh) 一种服务器主机硬件的监控方法、装置及电子设备
CN104506393B (zh) 一种基于云平台的系统监控方法
CN101282237B (zh) 一种基于snmp协议的综合网管系统
CN102480749B (zh) 一种远程采集主机进程信息的方法、装置和系统
CN104022904B (zh) 分布式机房it设备统一管理平台
US20080098454A1 (en) Network Management Appliance
CN107070726A (zh) 一种基于mdc的综合管理方法
CN102523140A (zh) 一种用于电力客户服务系统运维的实时监测装置
JP2008519498A (ja) サービスプロセッサゲートウェイシステム及び機器
CN103905253A (zh) 一种基于Nagios和BMC的服务器监控管理方法
CN102014020A (zh) 一种用于对网络设备进行网络监控的设备及其方法
CN102215132A (zh) 基于数据库嵌入式snmp管理端数据采集装置、系统及方法
CN102820993A (zh) 网络资源监控系统和网络资源监控方法
EP3051750B1 (en) Collection adaptor management method and system
WO2018010176A1 (zh) 获取故障信息的方法及设备
CN114244676A (zh) 一种智能it综合网关系统
CN103973484A (zh) 一种基于网络拓扑结构的运维管理系统
CN109547257B (zh) 网络流量控制方法、装置、设备、系统及存储介质
KR20180086919A (ko) 네트워크 보안 기능 가상화 기반의 클라우드 보안 분석 장치, 보안 정책 관리 장치 및 보안 정책 관리 방법
WO2016177054A1 (zh) 充电设备的管理方法及装置
US20060053021A1 (en) Method for monitoring and managing an information system
CN115102730B (zh) 多种设备的一体化监控方法、装置及电子设备
CN106161112A (zh) 一种基于web界面的分布式idc网络监控系统
CN111817865A (zh) 一种监控网管设备的方法及监控系统
EP4030691A1 (en) Data processing method, device, and system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160427