CN102495786A - 服务器系统 - Google Patents

服务器系统 Download PDF

Info

Publication number
CN102495786A
CN102495786A CN201110452935XA CN201110452935A CN102495786A CN 102495786 A CN102495786 A CN 102495786A CN 201110452935X A CN201110452935X A CN 201110452935XA CN 201110452935 A CN201110452935 A CN 201110452935A CN 102495786 A CN102495786 A CN 102495786A
Authority
CN
China
Prior art keywords
server
information
server system
parts
identification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110452935XA
Other languages
English (en)
Other versions
CN102495786B (zh
Inventor
郑谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Systems (Liaoning) Co., Ltd.
Original Assignee
Dawning Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Co Ltd filed Critical Dawning Information Industry Co Ltd
Priority to CN201110452935.XA priority Critical patent/CN102495786B/zh
Publication of CN102495786A publication Critical patent/CN102495786A/zh
Application granted granted Critical
Publication of CN102495786B publication Critical patent/CN102495786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种服务器系统,包括:至少一个服务器组,每个所述服务器组均包括至少一个服务器;传感器,用于感测每个所述服务器中的至少一个部件并发送感测信息;处理模块,用于接收所述感测信息,根据所述感测信息确定与所述部件的工作状态相对应的标识信息,并发送所述标识信息;以及管理模块,用于接收所述标识信息,以获取所述部件的所述工作状态。利用本发明的服务器系统,至少一个服务器组通过多条I2C总线主动向管理芯片发送信息,管理模块能够及时响应所发送的信息。同时减小了管理模块获取服务器运行状态信息的复杂性和时间开销,可以及时断开故障的服务器组,从而提高了系统的稳定性。

Description

服务器系统
技术领域
本发明一般地涉及计算机领域,更具体地来说,涉及一种服务器系统。
背景技术
现在的刀片服务器系统为一种高密度系统,通常可容纳好几片至十几片、二十片计算机刀片,其可靠性直接关系着整个系统的性能。计算刀片作为刀片服务器系统中的关键部件,对刀片服务器系统管理员来说,对计算刀片的运行状态进行有效的监控与报警至关重要。
现有技术中提供了一种服务器系统,管理模块通过232/485总线与刀片服务器系统中的所有计算机相连(如图1所示)。管理模块周期性地轮询刀片服务器系统中的各个计算机刀片的状态,主要包括温度、电压等,如果其中某个状态不正常(如温度过高,电压超出阈值等),则根据管理策略触发相应管理操作(如增加系统风扇速度,关闭出现故障的计算刀片等)。本技术方案可以在一定程度上保证系统正常运行。
然而,管理模块采用轮询方式,当系统中刀片数量较多时,会导致管理模块监控单个刀片状态的时间间隔变长。当计算机刀片发生故障时,管理模块需要等到下一次轮询到故障刀片时才能监控到故障状态,从而导致管理模块触发的管理操作不及时,而影响系统的正常运行。此外,由于管理模块通过单一总线与计算机刀片相连,并且通过一个数据信号,管理模块仅仅能获得某个部件的故障指示。当多处故障出现时,由于需要传输多个数据信号,使得用于传输数据的单一总线的负担大大增加,可能会导致整条总线无法正常工作,从而导致管理模块无法与所有计算机刀片通信,影响刀片服务器系统的正常运行。
发明内容
针对现有技术中当多处故障出现时由于需要传输多个数据信号而使得用于传输数据的单一总线的负担大大增加的缺陷,本发明提出了能够解决上述缺陷的服务器系统。
本发明提供了一种服务器系统,包括:至少一个服务器组,每个服务器组均包括至少一个服务器;传感器,用于感测每个服务器中的至少一个部件并发送感测信息;处理模块,用于接收感测信息,根据感测信息确定与部件的工作状态相对应的标识信息,并发送标识信息;以及管理模块,用于接收标识信息,以获取部件的工作状态。
优选地,在该服务器系统中,感测信息包含部件的部件参数,或者感测信息为部件的故障指示信息。
优选地,在该服务器系统中,部件参数包括温度、电压以及电流。
优选地,在该服务器系统中,标识信息为具有多个数据位的数据信息。
优选地,在该服务器系统中,处理模块被配置为将部件参数与阈值进行比较,当部件参数超过阈值时,改变与相应部件的工作状态相对应的数据位的值。
优选地,在该服务器系统中,处理模块被配置为当接收到故障指示信息时,改变与相应部件的工作状态相对应的数据位的值。
优选地,在该服务器系统中,处理模块与管理模块通过I2C总线进行信息交互。
优选地,在该服务器系统中,管理模块被设置为根据数据位的值来获取相应部件的工作状态。
优选地,在该服务器系统中,处理模块向管理模块主动发送标识信息;或者当处理模块接收到来自管理模块的轮询信息时,向管理模块发送标识信息。
优选地,在该服务器系统中,在传感器向部件发送信息后的预定时间内,未收到来自部件的响应,则传感器发送故障指示信息。
优选地,在该服务器系统中,至少一个部件选自由硬盘、风扇、存储器及其组合所构成的组。
利用本发明的服务器系统,至少一个服务器组通过多条I2C总线主动向管理芯片发送信息,管理模块能够及时响应所发送的信息。同时减小了管理模块获取服务器运行状态信息的复杂性和时间开销,可以及时断开故障的服务器组,从而提高了系统的稳定性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。在附图中:
图1为现有的服务器系统的结构图;
图2为根据本发明的实施例的服务器系统的结构图;以及
图3为根据本发明的实施例的服务器与管理芯片的连接示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图2为根据本发明的实施例的服务器系统的结构图。服务器系统200包括:服务器组1 202至服务器组N 204(其中,N大于或等于1),每个服务器组均包括至少一个服务器,例如,N可以为5,5个服务器组中的每个服务器组均包括至少一个服务器,并且每个服务器组中的服务器数量可以相同或者不同。
服务器系统200还包括:传感器206,用于感测每个服务器中的至少一个部件并发送感测信息。每个服务器中可以具有多个服务器,每个服务器感测一个部件并将感测到的相应部件的信息发送给处理模块。
处理模块208,用于接收感测信息,根据感测信息确定与部件的工作状态相对应的标识信息,并发送标识信息。处理模块从传感器接收到相应部件的信息以后,可以确定与相应部件的相对应的比特位的信息,该比特位信息为标识信息,例如,当比特位置1时,与该比特为相对应的部件故障,并将该标识信息发送至管理模块。
管理模块210,用于接收标识信息,以获取部件的工作状态。管理模块210从处理模块接收标识信息,从而管理模块210通过标识信息获取部件的工作状态后,进行进一步的处理,以确保服务器系统的安全稳定运行。
该技术方案能够通过服务器中的处理模块主动向管理模块发送运行状态信息,克服了轮询不能及时掌握服务器运行信息和耗时的缺陷,从而管理芯片能够及时掌握服务器运行信息,并进行及时处理,进一步从整体上保服务器的稳定运行。
下面,将详细描述该服务器系统。
该服务器系统200包括服务器组1 202至服务器组N 204(其中,N大于或等于1),每个服务器组均包括至少一个服务器。如图3所示,该示图中示出了两个服务器组,一个服务器组包括3个计算刀片(也称为刀片服务器),另一个服务器组包括2个刀片,每个服务器组通过一条I2C总线连接至管理模块。如图所示,服务器系统还包括其他服务器组,每个服务器组包括至少一个计算刀片。
该服务器系统200包括传感器206,用于感测每个服务器中的至少一个部件并且发送感测信息。例如,至少一个部件选自由硬盘、风扇、存储器及其组合所构成的组。例如,传感器可以为温度传感器、电压传感器、以及电流传感器等,可以分别用于感测硬盘、风扇、或存储器等的温度、电压、以及电流等。
该服务器系统200包括处理模块208,用于接收感测信息,根据感测信息确定与部件的工作状态相对应的标识信息,并发送标识信息。标识信息为具有多个数据位的数据信息。例如,该标识信息可以为8比特位、16比特位、32比特位等。将处理模块208配置为将部件参数与阈值进行比较,当部件参数超过阈值时,改变与相应部件的工作状态相对应的数据位的值。即,将处理模块208配置为当接收到故障指示信息时,改变与相应部件的工作状态相对应的数据位的值。例如,8比特位中的第一位对应于硬盘电压,当硬盘电压运行正常时,该标识信息为“00000000”,但是当硬盘电压大于阈值时,将标识信息的相应比特为置1,例如,为“00000001”。
该服务器系统200包括管理模块210,用于接收标识信息,以获取部件的工作状态。处理模块208与管理模块210通过I2C总线进行信息交互。从而使处理模块208和管理模块210之间的信息交互更简单方便。而避免了使用通信模块进行通信的复杂性。其中,处理模块208向管理模块210主动发送标识信息;或者当处理模块208接收到来自管理模块210的轮询信息时,向管理模块210发送标识信息。当管理模块210通过I2C总线接收到处理模块208的标识信息以后,将管理模块210设置为根据数据位的值来获取相应部件的工作状态。即,如果相应部件的标识信息的比特位置1时,可以判定该部件出现故障。此外,在传感器206向部件发送信息后的预定时间内,未收到来自部件的响应,则传感器206发送故障指示信息。
该技术方案通过I2C总线在处理模块和管理模块之间进行信息交互,即,标识信息交互,而不是通过管理总线RS232/485信息交互,从而提高了系统的故障响应速度,在服务器系统发生故障时,可以及时切断故障服务器组,而不会影响其他服务器组的正常工作。
通过利用本发明的除湿方法和装置可以获得以下技术效果:(1)至少一个服务器组通过多条I2C总线主动向管理芯片发送信息,管理模块能够实时响应所发送的信息。同时减小了管理模块获取服务器运行状态信息的复杂性和时间开销,可以及时断开故障的服务器组,从而提高了系统的稳定性;(2)利用标识信息对各个部件的运行状态进行标识,从而通过管理芯片对整个服务器系统中的部件进行集中管理,提高了服务器系统的整体性能和稳定性,并且在一组服务器发生故障时,可以及时端口该服务器组,而不会影响其他服务器组的正常工作;以及(3)当传感器在预定时间内未感测到部件的运行状态信息时,向处理模块发送故障信息,通过处理模块与管理模块的信息交互,接收到故障信息的管理模块可以及时进行处理,而避免了服务器中的故障部件继续运行,来及时断开故障服务器,从而保证整个系统的稳定运行。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种服务器系统,包括:
至少一个服务器组,每个所述服务器组均包括至少一个服务器;
传感器,用于感测每个所述服务器中的至少一个部件并发送感测信息;
处理模块,用于接收所述感测信息,根据所述感测信息确定与所述部件的工作状态相对应的标识信息,并发送所述标识信息;以及
管理模块,用于接收所述标识信息,以获取所述部件的所述工作状态。
2.根据权利要求1所述的服务器系统,其特征在于,所述感测信息包含所述部件的部件参数,或者所述感测信息为所述部件的故障指示信息。
3.根据权利要求2所述的服务器系统,其特征在于,所述部件参数包括温度、电压以及电流。
4.根据权利要求2所述的服务器系统,其特征在于,所述标识信息为具有多个数据位的数据信息。
5.根据权利要求4所述的服务器系统,其特征在于,所述处理模块被配置为将所述部件参数与阈值进行比较,当所述部件参数超过所述阈值时,改变与相应所述部件的工作状态相对应的数据位的值。
6.根据权利要求4所述的服务器系统,其特征在于,所述处理模块被配置为当接收到所述故障指示信息时,改变与相应所述部件的工作状态相对应的数据位的值。
7.根据权利要求1所述的服务器系统,其特征在于,所述处理模块与所述管理模块通过I2C总线进行信息交互。
8.根据权利要求5或6所述的服务器系统,其特征在于,所述管理模块被设置为根据所述数据位的值来获取相应部件的工作状态。
9.根据权利要求1所述的服务器系统,其特征在于,所述处理模块向所述管理模块主动发送所述标识信息;或者
当所述处理模块接收到来自所述管理模块的轮询信息时,向所述管理模块发送所述标识信息。
10.根据权利要求2所述的服务器系统,其特征在于,在所述传感器向所述部件发送信息后的预定时间内,未收到来自所述部件的响应,则所述传感器发送所述故障指示信息。
11.根据上述权利要求中任一项所述的服务器系统,其特征在于,所述至少一个部件选自由硬盘、风扇、存储器及其组合所构成的组。
CN201110452935.XA 2011-12-30 2011-12-30 服务器系统 Active CN102495786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110452935.XA CN102495786B (zh) 2011-12-30 2011-12-30 服务器系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110452935.XA CN102495786B (zh) 2011-12-30 2011-12-30 服务器系统

Publications (2)

Publication Number Publication Date
CN102495786A true CN102495786A (zh) 2012-06-13
CN102495786B CN102495786B (zh) 2015-07-22

Family

ID=46187612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110452935.XA Active CN102495786B (zh) 2011-12-30 2011-12-30 服务器系统

Country Status (1)

Country Link
CN (1) CN102495786B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103532762A (zh) * 2013-10-22 2014-01-22 浪潮电子信息产业股份有限公司 基于i2c链路交换的服务器资产信息管理设计方法
CN104680087A (zh) * 2013-11-27 2015-06-03 深圳中电长城信息安全系统有限公司 一种刀片服务器热插拔的控制电路和装置
CN105740182A (zh) * 2014-12-12 2016-07-06 深圳富泰宏精密工业有限公司 防止传感器失效的系统及方法
CN106155859A (zh) * 2015-03-30 2016-11-23 联想(北京)有限公司 一种监控管理系统、信息处理方法及高密度服务器
CN108170234A (zh) * 2017-12-18 2018-06-15 曙光信息产业(北京)有限公司 一种服务器管理系统及方法
CN108628231A (zh) * 2018-07-05 2018-10-09 郑州云海信息技术有限公司 云数据中心中设备监控方法和装置
CN112256628A (zh) * 2020-10-26 2021-01-22 山东超越数控电子股份有限公司 一种基于国产单片机的多单元服务器故障管理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110119424A1 (en) * 2009-11-18 2011-05-19 Inventec Corporation Server management system
CN102073570A (zh) * 2009-11-23 2011-05-25 英业达股份有限公司 服务器系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110119424A1 (en) * 2009-11-18 2011-05-19 Inventec Corporation Server management system
CN102073570A (zh) * 2009-11-23 2011-05-25 英业达股份有限公司 服务器系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李娜: "基于IPMI技术的服务器管理系统的设计与实现", 《中国优秀硕士学位论文全文数据库》, 15 March 2010 (2010-03-15) *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103532762A (zh) * 2013-10-22 2014-01-22 浪潮电子信息产业股份有限公司 基于i2c链路交换的服务器资产信息管理设计方法
CN104680087A (zh) * 2013-11-27 2015-06-03 深圳中电长城信息安全系统有限公司 一种刀片服务器热插拔的控制电路和装置
CN104680087B (zh) * 2013-11-27 2018-02-27 深圳中电长城信息安全系统有限公司 一种刀片服务器热插拔的控制电路和装置
CN105740182A (zh) * 2014-12-12 2016-07-06 深圳富泰宏精密工业有限公司 防止传感器失效的系统及方法
CN106155859A (zh) * 2015-03-30 2016-11-23 联想(北京)有限公司 一种监控管理系统、信息处理方法及高密度服务器
CN106155859B (zh) * 2015-03-30 2020-01-31 联想(北京)有限公司 一种监控管理系统、信息处理方法及高密度服务器
CN108170234A (zh) * 2017-12-18 2018-06-15 曙光信息产业(北京)有限公司 一种服务器管理系统及方法
CN108628231A (zh) * 2018-07-05 2018-10-09 郑州云海信息技术有限公司 云数据中心中设备监控方法和装置
CN112256628A (zh) * 2020-10-26 2021-01-22 山东超越数控电子股份有限公司 一种基于国产单片机的多单元服务器故障管理方法

Also Published As

Publication number Publication date
CN102495786B (zh) 2015-07-22

Similar Documents

Publication Publication Date Title
CN102495786A (zh) 服务器系统
CN202285113U (zh) 配电单元控制系统
US8656003B2 (en) Method for controlling rack system using RMC to determine type of node based on FRU's message when status of chassis is changed
CN102724065B (zh) 一种网络通信系统及包括该系统的工程机械设备
CN103135732B (zh) 服务器机柜系统
US20150019711A1 (en) Server system and a data transferring method thereof
CN104320311A (zh) 一种scada分布式平台下的心跳检测方法
CN103490919A (zh) 故障管理系统和故障管理方法
US20150019671A1 (en) Information processing system, trouble detecting method, and information processing apparatus
US10325474B2 (en) Method, device, and system for fault unit indication
CN112882901A (zh) 一种分布式处理系统健康状态智能监控器
CN104660440A (zh) 一种刀片服务器管理系统及其控制方法
US20090006902A1 (en) Methods, systems, and computer program products for reporting fru failures in storage device enclosures
CN102811145A (zh) 一种网络中板卡的温度监测方法及温度监测系统
CN109162953A (zh) 一种风扇控制装置及服务器
CN108683542A (zh) 一种分布式存储系统的故障自诊断方法、系统及装置
US20170256158A1 (en) Method for the reliable transport of alarm messages in a distributed computer system
CN102006190B (zh) 一种高可用集群备份系统及其备份方法
CN206460446U (zh) 一种针对加固计算机主板的监控装置
US9519322B2 (en) Server
US9018797B2 (en) Power distribution management
WO2015117395A1 (zh) 通信异常处理方法及网元设备
CN104680087A (zh) 一种刀片服务器热插拔的控制电路和装置
CN108153690A (zh) 一种基于以太网和i2c双冗余总线的健康管理方法
JP2018136882A (ja) 情報処理装置、情報処理システム及び情報処理装置制御方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20170213

Address after: 124000 Panjin, Liaoning Province, coastal economic zone in the coastal area of the crown building, building 3018, room 3, Liaoning

Patentee after: Dawning Information Systems (Liaoning) Co., Ltd.

Address before: 300384 Tianjin city Xiqing District Huayuan Industrial Zone (outer ring) Haitai Huake Street No. 15 1-3

Patentee before: Sugon Information Industry Co., Ltd.