CN106407081A - 一种机箱管理系统及服务器 - Google Patents

一种机箱管理系统及服务器 Download PDF

Info

Publication number
CN106407081A
CN106407081A CN201610875045.2A CN201610875045A CN106407081A CN 106407081 A CN106407081 A CN 106407081A CN 201610875045 A CN201610875045 A CN 201610875045A CN 106407081 A CN106407081 A CN 106407081A
Authority
CN
China
Prior art keywords
module
service
server
management module
hardware
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610875045.2A
Other languages
English (en)
Other versions
CN106407081B (zh
Inventor
黄玉龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201610875045.2A priority Critical patent/CN106407081B/zh
Publication of CN106407081A publication Critical patent/CN106407081A/zh
Application granted granted Critical
Publication of CN106407081B publication Critical patent/CN106407081B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer And Data Communications (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了机箱管理系统,包括:异常监控模块,监控和控制服务器的硬件和服务,获取硬件和服务的状态信息,根据状态信息确定告警信息,将告警信息发送至状态管理模块;状态管理模块,根据告警信息,利用最高错误裁决确定服务器的运行模式,将运行模式发送给快速节点重置模块,并通过IPC管理模块通告其他业务当前服务器的硬件和服务的状态,与外部IO进程联动;快速节点重置模块,根据运行模式对服务器对应硬件和/或服务进行重置;IPC管理模块,管理进程间的通信及注册消息服务;初始化模块,初始化各模块;该机箱管理系统能够保护服务器硬件和数据,让业务更具有稳定性、持续性、可服务性;本发明还公开了服务器,具有上述效果。

Description

一种机箱管理系统及服务器
技术领域
本发明涉及服务器领域,特别涉及一种机箱管理系统及服务器。
背景技术
从事存储服务器的机箱管理设计时,会发现大型的存储服务器机箱管理,因为设备比较多、服务多、业务复杂、快速重置等综合功能,所以健壮的管理系统非常重要,从而达到可维护性、可持续性、可服务性。然而一般的存储服务器设备管理比较独立,而且功能比较简单,只是简单的处理监控硬件,没有服务管理,没有进程间通信联动机制、也不能进行节点服务恢复,也不能进行体系管理命令,从根本上达不到保护硬件、保护数据的目的。因此,如何提高机箱管理的可维护性、可持续性、可服务性,是本领域技术人员需要解决的技术问题。
发明内容
本发明的目的是提供一种机箱管理系统,能够保护服务器硬件和数据,让业务更具有稳定性、持续性、可服务性;本发明的另一目的是提供一种服务器。
为解决上述技术问题,本发明提供一种机箱管理系统,包括:
异常监控模块,用于监控和控制服务器的硬件和服务,获取所述硬件和服务的状态信息,根据所述状态信息确定告警信息,并将所述告警信息发送至状态管理模块;
所述状态管理模块,用于根据所述告警信息,利用最高错误裁决确定所述服务器的运行模式,将所述运行模式发送给快速节点重置模块,并通过IPC管理模块通告其他业务当前所述服务器的硬件和服务的状态,与外部IO进程联动;
所述快速节点重置模块,用于根据所述运行模式对所述服务器对应硬件和/或服务进行重置;
所述IPC管理模块,用于管理进程间的通信及注册消息服务;
初始化模块,用于初始化所述异常监控模块、所述状态管理模块、所述快速节点重置模块及所述IPC管理模块。
其中,所述异常监控模块,包括:
传感器管理单元,用于获取预设传感器的数据信息,根据所述数据信息进行传感器管理;
电源管理单元,用于获取预设电源装置的状态信息,根据所述状态信息进行电源管理;
服务管理单元,用于通过xml配置文件来配置服务,启动系统内的服务。
其中,所述预设电源装置至少包括不间断电源、应急后备电源、电池;所述服务至少包括ssh服务,cron服务。
其中,运行模式包括:正常模式、维护模式和关机模式。
其中,所述状态管理模块还用于将所述服务器的硬件和服务对应的告警信息记录到日志中。
其中,该系统还包括:
Exec管理模块,用于管理环境变量配置,接收用户指令并执行对应操作。
其中,该系统还包括:
Admin管理模块,用于管理和维护所述异常监控模块,所述状态管理模块,所述快速节点重置模块,所述IPC管理模块及Exec管理模块。
本发明还提供一种服务器,包括:根据上述任一项所述的机箱管理系统。
其中,所述服务器具体为存储服务器。
本发明所提供的机箱管理系统,包括:异常监控模块,用于监控和控制服务器的硬件和服务,获取所述硬件和服务的状态信息,根据所述状态信息确定告警信息,并将所述告警信息发送至状态管理模块;所述状态管理模块,用于根据所述告警信息,利用最高错误裁决确定所述服务器的运行模式,将所述运行模式发送给快速节点重置模块,并通过IPC管理模块通告其他业务当前所述服务器的硬件和服务的状态,与外部IO进程联动;所述快速节点重置模块,用于根据所述运行模式对所述服务器对应硬件和/或服务进行重置;所述IPC管理模块,用于管理进程间的通信及注册消息服务;初始化模块,用于初始化所述异常监控模块、所述状态管理模块、所述快速节点重置模块及所述IPC管理模块;该机箱管理系统能够保护服务器硬件和数据,让业务更具有稳定性、持续性、可服务性;本发明还提供了服务器,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的机箱管理系统的结构框图。
具体实施方式
本发明的核心是提供一种机箱管理系统,能够保护服务器硬件和数据,让业务更具有稳定性、持续性、可服务性;本发明的另一核心是提供一种服务器。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例所提供的机箱管理系统的结构框图;该系统可以包括:
异常监控模块100,用于监控和控制服务器的硬件和服务,获取所述硬件和服务的状态信息,根据所述状态信息确定告警信息,并将所述告警信息发送至状态管理模块;
具体的,主要负责对服务器硬件和服务的监控和控制,将硬件和服务的告警信息或者硬件和服务的状态信息及告警信息发送给状态管理模块200,以便状态管理模块200能够及时对告警信息进行处理,及时掌握硬件及服务的状态,从而为服务器的硬件和服务及业务的稳定性、持续性、可服务性提供保证。
为了对服务器的硬件和服务进行全面监控,这里的异常监控模块100具体可以包括:
传感器管理单元(即Sensor管理)110,用于获取预设传感器的数据信息,根据所述数据信息进行传感器管理;
具体的,主要负责传感器管理:包括电压、温度等。例如采集设置在重要预设硬件的传感器的检测数值,根据采集到的数据对各个硬件进行监控。可以通过监控线程实现监控。
电源管理单元(即power管理)120,用于获取预设电源装置的状态信息,根据所述状态信息进行电源管理;
具体的,主要负责电源管理:至少包括不间断电源ups、应急后备电源bbu、电池battery等设备。具体监控的电源可以根据用户实际需求进行确定。可以通过监控线程实现监控。
服务管理单元(即Service管理)130,用于通过xml配置文件来配置,启动系统内的服务。
具体的,主要负责通过xml配置文件来配置启动系统内的服务,如ssh服务,cron服务等。可以通过监控线程实现监控。其中,cron服务是用来控制循环执行的例行性工作的,ssh服务的英文全称是secure sHell,通过使用ssh可以把所有传输的数据进行加密,这样“中间人”这种攻击方式就不可能实现了,而且也能够防止DNS和IP欺骗。
通过上述三个单元可以对服务器的重要硬件例如电源进行监控,还可以对服务器上的服务进行监控,从而实现对服务器全面的监控。
异常监控模块100通过Power管理、Sensor管理、Service管理来监控硬件和服务的可靠性,并将异常在状态管理模块中进行日志记录,便于问题的分析。
所述状态管理模块(即状态管理)200,用于根据所述告警信息,利用最高错误裁决确定所述服务器的运行模式,将所述运行模式发送给快速节点重置模块,并通过IPC管理模块通告其他业务当前所述服务器的硬件和服务的状态,与外部IO进程联动;
具体的,状态管理负责裁决,通过快速节点重置模块进行异常处理,并通过IPC和外部IO进程联动,达到保护数据的目的,具体执行过程可以通过状态处理线程进行。
其中,运行模式可以包括:正常模式、维护模式和关机模式。
正常模式:设备和服务一切正常。
维护模式:比较严重告警,如:温度过高、电压过低等。
关机模式:断电,温度超高。
优选的,状态管理模块200还用于将所述服务器的硬件和服务对应的告警信息记录到日志中。以便于技术人员对故障问题的排查分析。
即状态管理通过IPC告知其他业务当前状况硬件状态,以及应该怎么处理,可以通过快速节点重置将硬件或者服务进行恢复,达到可维护性,实现系统联动。状态管理会将所有状态信息进行综合评定,采用最高错误裁决,最后决定系统运行正常、维护和关机模式中的一种,达到保护数据和硬件的目的。
所述快速节点重置模块(即快速节点重置)300,用于根据所述运行模式对所述服务器对应硬件和/或服务进行重置;
具体的,主要负责当前存储服务器设备的重置、服务的重启,通过重置线程进行操作。即快速节点重置:负责硬件的重置,如果是冗余设备,会重置异常设备,存储服务器一般为多电源管理,以及服务的快速重启。
所述IPC管理模块(即IPC管理)400,用于管理进程间的通信及注册消息服务;
具体的,负责进程间的通信,注册消息服务,将接收到的消息进行类型判断,交给相应的服务进行处理。通过接收线程进行操作。其中,IPC(Inter-Process Communication,进程间通信)。
初始化模块500,用于初始化所述异常监控模块、所述状态管理模块、所述快速节点重置模块及所述IPC管理模块。
具体的,初始化模块500是机箱管理模块的程序入口。负责进行初始化,将所有的模块初始化。
基于上述技术方案,本发明实施例提供的机箱管理系统可以克服传统的机箱管理系统设计简单,且独立的设计理念,可以因为机箱的一些故障导致数据的丢失,直接影响着数据的安全性、可靠性、完整性的问题,该机箱管理系统通过一整套软件模块来管理服务器的硬件和服务,从而达到保护硬件保护数据的目的,让业务更具有稳定性、持续性、可服务性。
基于上述实施例,请参考图1该系统还可以包括:
Exec管理模块(即Exec管理)600,用于管理环境变量配置,接收用户指令并执行对应操作。
具体的,Exec管理负责环境变量维护,主要负责执行命令行的一些命令。
基于上述任意实施例,请参考图1该系统还可以包括:
Admin管理模块700,用于管理和维护所述异常监控模块,所述状态管理模块,所述快速节点重置模块,所述IPC管理模块及Exec管理模块。
具体的,Admin管理模块是所有管理的总入口,负责所有管理的维护,包含启动、停止、事件转发。初始化模块500初始化各模块后将各模块送到Admin管理模块700进行统一的管理。
基于上述技术方案,本发明实施例提供的机箱管理系统主要负责服务器或者存储设备的硬件和服务的控制、监控、异常处理、日志记录、设备重置恢复功能,通过一套体系软件来管理这些设备硬件,从而达到保护硬件保护数据的目的,让业务更具有稳定性、持续性、可服务性。
下面对本发明实施例提供的服务器进行介绍,下文描述的服务器与上文描述的机箱管理系统可相互对应参照。
基于上述实施例,本发明还提供一种服务器,包括:根据上述任意实施例所述的机箱管理系统。
具体的,所述服务器具体为存储服务器。
以上对本发明所提供的机箱管理系统及服务器进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (9)

1.一种机箱管理系统,其特征在于,包括:
异常监控模块,用于监控和控制服务器的硬件和服务,获取所述硬件和所述服务的状态信息,根据所述状态信息确定告警信息,并将所述告警信息发送至状态管理模块;
所述状态管理模块,用于根据所述告警信息,利用最高错误裁决确定所述服务器的运行模式,将所述运行模式发送给快速节点重置模块,并通过IPC管理模块通告其他业务当前所述服务器的硬件和服务的状态,与外部IO进程联动;
所述快速节点重置模块,用于根据所述运行模式对所述服务器对应硬件和/或服务进行重置;
所述IPC管理模块,用于管理进程间的通信及注册消息服务;
初始化模块,用于初始化所述异常监控模块、所述状态管理模块、所述快速节点重置模块及所述IPC管理模块。
2.根据权利要求1所述的机箱管理系统,其特征在于,所述异常监控模块,包括:
传感器管理单元,用于获取预设传感器的数据信息,根据所述数据信息进行传感器管理;
电源管理单元,用于获取预设电源装置的状态信息,根据所述状态信息进行电源管理;
服务管理单元,用于通过xml配置文件来配置服务,启动系统内的服务。
3.根据权利要求2所述的机箱管理系统,其特征在于,所述预设电源装置至少包括不间断电源、应急后备电源、电池;
所述服务至少包括ssh服务,cron服务。
4.根据权利要求3所述的机箱管理系统,其特征在于,运行模式包括:正常模式、维护模式和关机模式。
5.根据权利要求4所述的机箱管理系统,其特征在于,所述状态管理模块还用于将所述服务器的硬件和服务对应的告警信息记录到日志中。
6.根据权利要求1-5任一项所述的机箱管理系统,其特征在于,还包括:
Exec管理模块,用于管理环境变量配置,接收用户指令并执行对应操作。
7.根据权利要求6所述的机箱管理系统,其特征在于,还包括:
Admin管理模块,用于管理和维护所述异常监控模块,所述状态管理模块,所述快速节点重置模块,所述IPC管理模块及Exec管理模块。
8.一种服务器,其特征在于,包括:根据权利要求1-7任一项所述的机箱管理系统。
9.根据权利要求8所述的服务器,其特征在于,所述服务器具体为存储服务器。
CN201610875045.2A 2016-09-30 2016-09-30 一种机箱管理系统及服务器 Active CN106407081B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610875045.2A CN106407081B (zh) 2016-09-30 2016-09-30 一种机箱管理系统及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610875045.2A CN106407081B (zh) 2016-09-30 2016-09-30 一种机箱管理系统及服务器

Publications (2)

Publication Number Publication Date
CN106407081A true CN106407081A (zh) 2017-02-15
CN106407081B CN106407081B (zh) 2020-05-26

Family

ID=59228082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610875045.2A Active CN106407081B (zh) 2016-09-30 2016-09-30 一种机箱管理系统及服务器

Country Status (1)

Country Link
CN (1) CN106407081B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844162A (zh) * 2017-02-25 2017-06-13 郑州云海信息技术有限公司 基于bmc的存储服务器机箱管理系统及方法
CN107612748A (zh) * 2017-10-13 2018-01-19 郑州云海信息技术有限公司 一种多节点服务器功耗管理系统
WO2021109432A1 (zh) * 2019-12-06 2021-06-10 苏州浪潮智能科技有限公司 一种数据传输方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329564A (zh) * 2008-07-25 2008-12-24 北京劲源信科技有限公司 一种机房管理系统
US20090300407A1 (en) * 2008-05-29 2009-12-03 Sandeep Kamath Systems and methods for load balancing via a plurality of virtual servers upon failover using metrics from a backup virtual server
CN103354503A (zh) * 2013-05-23 2013-10-16 浙江闪龙科技有限公司 一种可自动检测及替换故障节点的云存储系统及其方法
CN103763143A (zh) * 2014-01-23 2014-04-30 北京华胜天成科技股份有限公司 基于存储服务器的设备异常报警的方法及系统
CN103905255A (zh) * 2014-04-11 2014-07-02 国家电网公司 服务器内部硬件运行故障远程自动告警系统及方法
CN105323113A (zh) * 2015-11-19 2016-02-10 国网江西省电力公司信息通信分公司 一种基于可视化技术的系统故障应急处置系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090300407A1 (en) * 2008-05-29 2009-12-03 Sandeep Kamath Systems and methods for load balancing via a plurality of virtual servers upon failover using metrics from a backup virtual server
CN101329564A (zh) * 2008-07-25 2008-12-24 北京劲源信科技有限公司 一种机房管理系统
CN103354503A (zh) * 2013-05-23 2013-10-16 浙江闪龙科技有限公司 一种可自动检测及替换故障节点的云存储系统及其方法
CN103763143A (zh) * 2014-01-23 2014-04-30 北京华胜天成科技股份有限公司 基于存储服务器的设备异常报警的方法及系统
CN103905255A (zh) * 2014-04-11 2014-07-02 国家电网公司 服务器内部硬件运行故障远程自动告警系统及方法
CN105323113A (zh) * 2015-11-19 2016-02-10 国网江西省电力公司信息通信分公司 一种基于可视化技术的系统故障应急处置系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李波: "UNIX服务器集中监控系统的设计与实现", 《中国优秀硕士学位论文全文数据库》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844162A (zh) * 2017-02-25 2017-06-13 郑州云海信息技术有限公司 基于bmc的存储服务器机箱管理系统及方法
CN107612748A (zh) * 2017-10-13 2018-01-19 郑州云海信息技术有限公司 一种多节点服务器功耗管理系统
CN107612748B (zh) * 2017-10-13 2021-03-09 苏州浪潮智能科技有限公司 一种多节点服务器功耗管理系统
WO2021109432A1 (zh) * 2019-12-06 2021-06-10 苏州浪潮智能科技有限公司 一种数据传输方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN106407081B (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
CN107995049B (zh) 电力安全区跨区同步故障监测方法、装置和系统
CN103607297B (zh) 一种计算机集群系统的故障处理方法
CN107147540A (zh) 高可用性系统中的故障处理方法和故障处理集群
CN105323113B (zh) 一种基于可视化技术的系统故障应急处置方法
US20070168088A1 (en) Power distribution load shedding system and method of use
US7093013B1 (en) High availability system for network elements
CN112073262B (zh) 一种云平台监控方法、装置、设备及系统
US20130159039A1 (en) Data center infrastructure management system for maintenance
CN106407081A (zh) 一种机箱管理系统及服务器
US10317985B2 (en) Shutdown of computing devices
CN109257564A (zh) 一种电气设备运行状态监控系统
CN108616428A (zh) 一种远程管理rack机房的移动app实施方法
CN114090184B (zh) 一种虚拟化集群高可用性的实现方法和设备
CN109240863A (zh) 一种cpu故障定位方法、装置、设备及存储介质
CN105119746A (zh) 一种基于rmc管理的smartrack整机柜服务器配置智能监控的方法
CN112882901A (zh) 一种分布式处理系统健康状态智能监控器
CN116016123A (zh) 故障处理方法、装置、设备及介质
JP6138216B2 (ja) 電池キャビネット管理方法、装置及び電池管理システム
US20080216057A1 (en) Recording medium storing monitoring program, monitoring method, and monitoring system
CN115102838B (zh) 服务器宕机风险的应急处理方法和装置、电子设备
CN104346233A (zh) 一种用于计算机系统的故障恢复方法及装置
Mondal et al. On dependability, cost and security trade-off in cloud data centers
CN113946465A (zh) 一种大数据的故障处理方法及其相关设备
CN111447329A (zh) 呼叫中心中状态服务器的监控方法、系统、设备及介质
KR101505491B1 (ko) Pod 기반의 모듈형 데이터 센터 및 그의 모니터링 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200424

Address after: 215100 No. 1 Guanpu Road, Guoxiang Street, Wuzhong Economic Development Zone, Suzhou City, Jiangsu Province

Applicant after: SUZHOU LANGCHAO INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: 450018 Henan province Zheng Dong New District of Zhengzhou City Xinyi Road No. 278 16 floor room 1601

Applicant before: ZHENGZHOU YUNHAI INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant