CN101741600A - 服务器系统、与其记录装置与管理方法 - Google Patents
服务器系统、与其记录装置与管理方法 Download PDFInfo
- Publication number
- CN101741600A CN101741600A CN200810181633A CN200810181633A CN101741600A CN 101741600 A CN101741600 A CN 101741600A CN 200810181633 A CN200810181633 A CN 200810181633A CN 200810181633 A CN200810181633 A CN 200810181633A CN 101741600 A CN101741600 A CN 101741600A
- Authority
- CN
- China
- Prior art keywords
- server system
- supervising device
- new record
- record shelves
- shelves
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明提出一种服务器系统、与其记录装置与管理方法。其中服务器系统包括主系统和监控装置。主系统具有一资料交换接口,并且具有一记录软件。另外,监控装置可以耦接主系统,以记录主系统所发生的事件,并且在主系统发生事件时产生一记录档。其中,记录软件可以每隔一预设时间呼叫监控装置,并且记录即时的系统时间。此外,记录软件更可以检查监控装置是否产生新的记录档。而当记录软件发现监控装置产生新的记录档时,则可以将新的记录档载至主系统中的一储存区域中。
Description
技术领域
本发明是有关于一种服务器系统的管理方法,特别是有关于一种可以记录服务器系统错误的管理方法。
背景技术
图1绘示为一种现有的服务器系统的架构图。请参照图1,在现有的服务器系统100中,可以包括基板管理控制器(Baseboard Management Controller,以下简称BMC)102及操作系统104。BMC 102可以耦接操作系统104。其中,BMC102可以检测服务器系统100中各硬件的状态,例如系统温度、风扇转数、CPU效能,存储器利用情形等。另外,BMC102可以将这些状态储存。
然而,在现有的服务器系统100中,若是有其中一硬件有问题,产生了相关的事件(event),如温度过高,风扇转速异常等,会将的记录在系统事件日志(System Event Log)中。而产生相关的事件,后续可能会使得服务器系统100无法正常运作,亦可能会导致BMC102同时无法正常运作,而无法即时记录导致服务器系统100无法正常运作的问题点。即使BMC 102同时可正常运作,因为记录的事件繁多,亦无法在众多事件中,找到真正影响系统运作的事件,使工程师无从判断系统何时停止正常运作,增加了技术人员除错的困难度。
发明内容
本发明提供一种服务器系统,其可以在有硬件发生错误时,方便技术人员进行除错。
本发明提供一种记录装置,可以记录一服务器系统内所发生的事件及发生事件的时间。
另外,本发明更提供一种服务器系统的管理方法,可以管理服务器系统的运作,并且在服务器系统无法正常运作时,提供给技术人员相关的信息,以便进行除错。
本发明提供一种服务器系统,包括主系统和监控装置。主系统具有一资料交换接口,并且具有一记录软件。另外,监控装置可以耦接主系统,以记录主系统所发生的事件,并且在主系统发生事件时产生一记录档。其中,记录软件可以每隔一预设时间呼叫监控装置,并且记录即时的系统时间。此外,记录软件更可以检查监控装置是否产生新的记录档。而当记录软件发现监控装置产生新的记录档时,则可以将新的记录档载至主系统中的一储存区域中。
从另一观点来看,本发明提供一种记录装置,适用于具有一监控装置的一服务器系统。监控装置可以在服务器系统发生事件时产生一记录档,其包括一计时器、一核心模组、一收发模组及一记录单元。计时器可以每隔一预设时间输出一致能信息给核心模组。另外,收发模组可以耦接核心模组,借此,当核心模组接收到所述致能信息时,可以使收发模组透过一资料交换接口呼叫监控装置,并且检查是否有新的记录档。若是收发模组发现有新的记录档时,则进行一下载作业,以下载新的记录档。此时,记录单元可以耦接可以将所下载新的记录档储存在一储存区域中,并且记录收发模组在呼叫所述监控装置时的系统时间。
在本发明的一实施例中,收发模组包括一呼叫单元、一检查单元及一下载单元。呼叫单元可以透过资料交换接口呼叫监控装置。另外,检查元可以检查监控装置是否产生新的记录档。当检查单元发现监控装置产生新的记录档时,下载单元可以从监控装置下载新的记录档。
从另一观点来看,本发明更提供一种服务器系统的管理方法,包括监控服务器系统的运作,并且在服务器系统发生一事件时,在一本地监控端产生一记录档。另外,每隔一预设时间产生一呼叫至本地监控端,并且将即时的系统时间记录至一储存区域中。当本地监控端响应呼叫时,则检查本地监控端是否产生新的记录档。当发现本地监控端有新的记录档时,则将新的记录档下载至储存区域中。相对地,当本地监控端没有回应呼叫时,则判断服务器系统无法正常运作。
由于本发明可以记录系统的即时时间,以及记录当事件发生所产生的记录档。因此,本发明可以方便技术人员对服务器系统进行除错。
附图说明
为让本发明的上述目的、特征和优点能更明显易懂,以下结合附图对本发明的具体实施方式作详细说明,其中:
图1绘示为一种现有的服务器系统的架构图。
图2绘示为依照本发明的一较佳实施例的一种服务器系统的系统方块图。
图3绘示为依照本发明的一较佳实施例的一种主系统的系统方块图。
图4绘示为依照本发明的一较佳实施例的一种记录装置的系统方块图。
图5绘示为依照本发明的一较佳实施例的一种服务器系统的管理方法的步骤流程图。
主要元件符号说明:
100、200:服务器系统
102、212:基板管理控制器(BMC)
104:操作系统
106:存储器
202:主系统
204:监控装置
206:资料交换接口
214:系统事件日志(SEL)
310:软件层
312:操作系统
314:记录装置
320:硬件层
322:中央处理器(CPU)
324:存储器
326:风扇
328:硬件装置
330:接口控制器
402:计时器
404:核心模组
406:收发模组
408:记录单元
410:同步模组
412:储存区域
422:下载单元
424:呼叫单元
426:检查单元
EN:致能信号
S502、S504、S506、S508、S510:服务器系统的管理方法的步骤流程
具体实施方式
图2绘示为依照本发明的一较佳实施例的一种服务器系统的系统方块图。请参照图2,本实施例所提供的服务器系统200,包括主系统202和监控装置204。其中,主系统202可以透过资料交换接口206耦接至监控装置204。在本实施例中,监控装置204可以包括基板管理控制器(BMC)212,其可以依据主系统的状态而产生一系统事件日志(System Event Log,以下简称SEL)214,而此SEL 214即是一记录档。另外,资料交换接口206则例如是智能平台管理接口(Intelligent Platform Management Interface,简称IPMI)。
图3绘示为依照本发明的一较佳实施例的一种主系统的系统方块图。请参照图3,本实施例中的主系统202可以包括软件层310和硬件层320。软件层310包括操作系统312,其可以安装有多个应用程序。特别的是,在本实施例中,一记录装置314可以安装在操作系统312中。而记录装置314可以利用软件的方式来实现。
另外,硬件层320则可以包括中央处理器(CPU)322、存储器324、风扇326,以及其他的硬件装置,例如328。而上述的硬件装置都可以分别耦接至软件层310的操作系统312,且具有相对应的感测器耦接至监控装置204。另外,在硬件层320中,还包括接口控制器330,其可以耦接记录装置314,并且透过资料交换接口206而耦接至监控装置204。借此,监控装置204可透过各硬件装置的感测器以监控主系统202硬件层320中不同硬件装置的状态,例如CPU 322的工作频率和温度、风扇326的转速等。而当硬件层320中的硬件装置有任何重大事件发生,例如CPU 322的温度过高,则监控装置204可以产生相对应的记录档,即SEL 214,以记录这些事件。
图4绘示为依照本发明的一较佳实施例的一种记录装置的系统方块图。请参照图4,本实施例所提供的记录装置314,可以包括计时器402、核心模组404、收发模组406、记录单元408和同步模组410。计时器402可以耦接核心模组404,而核心模组404则可以耦接收发模组406和记录单元408和同步模组410。另外,收发模组406则可以耦接接口控制器330。
请继续参照图4,当记录装置314被启动时,同步模组410可以将记录装置314的时间与主系统202的系统时间进行同步化。另外,当记录装置314被启动后,计时器402可以每隔一预设时间产生一致能信号EN给核心模组404。在一些实施例中,上述的预设时间例如是1秒钟。当致能信号EN被送至核心模组404后,核心模组404就会被触发。此时,核心模组404就会呼叫收发模组406,以控制收发模组404检查监控装置204是否产生新的记录档。另一方面,当核心模组404被致能信号EN触发时,可以呼叫记录单元408,将即时的系统时间记录在一储存区域412中。在一些实施例中,储存区域412可以是硬盘或是图3中的存储器324。
在本实施例中,收发模组426可以包括下载单元422、呼叫单元424和检查单元426。当核心模组404被触发并且呼叫收发模组426时,呼叫单元424可以先呼叫监控装置204。若是监控装置204响应呼叫单元424,则检查单元426就可以检查监控装置204是否产生新的记录档。若是检查单元426确认,监控装置204并未产生新的记录档,则可以回报核心模组,并且可以不进行动作。
相对地,当检查单元426发现监控装置204产生新的记录档,则代表例如图3的硬件层320中的硬件可能发生新的事件。此时,下载单元422可以控制接口控制器330,透过资料交换接口206向监控装置204下达一指令,例如是智慧平台管理接口指令,以从监控装置204下载新的记录档。当记录档下载至记录装置414时,核心模组404可以控制记录单元408将此新的记录档写入储存区域412中。借此,若是服务器系统无法正常运作时,技术人员就可以依据存在储存区域412中的信息,而准确地判断服务器系统的问题点,并且加以除错。
虽然在以上的实施例中,记录装置314可以利用软件来实现,然而本领域的技术人员当知本发明并不以此为限。在其他的实施例中,记录装置314也可以利用硬件来实现,例如一远端监控的服务器。
将上述的说明作一整理,本发明于图5也提供一种服务器系统的管理方法的步骤流程图。请参照图5,在本实施例中,可以如步骤S502所述,提供一本地监控端来监控服务器系统的运作情形。在一些实施例中,此本地监控端可以是上述的监控装置204,例如以基板管理控制器达成。当服务器系统有其中一硬件装置发生事件时,例如工作温度上升,则本地监控端可以依据所发生的事件而产生对应的记录档。
另外,在本实施例中,还可以如步骤S504所述,将本地监控端的时间与操作系统的时间进行同步化。接着,可以进行步骤S506,就是每隔一预设时间就检查本地监控端是否产生新的记录档。而在本实施例中,此预设时间可以是1秒钟,然而本发明并不以此为限。
若是在进行步骤S506时,确认在本地监控端并没有产生新的记录档时(就是步骤S506所标示的“否”),则可以进行步骤S508,就是将即时系统时间储存在一储存区域中。相对地,若是在进行步骤S506时,发现本地监控端产生新的记录档(就是步骤S506所标示的“是”),这代表着服务器系统的硬件可能发生事件。因此,本实施例可以如步骤S510所述,从本地监控端下载新的记录档,并将新的记录档与即时系统时间储存在一储存区域中。借此,若是服务器系统因为此次事件而无法正常运作时,技术人员就可以依据储存在储存区域中的信息来对服务器系统进行除错。
综上所述,由于本发明每隔一预设时间即记录即时系统时间,并且在本地监控端产生新的记录档时,一并下载新的记录档,再与即时系统时间一起储存在储存区域中。因此,本发明可以方便技术人员分析服务器系统出错的原因,并且能够有效地对服务器系统进行除错。即使在服务器系统已当机的情况下,仍可以本发明概念不间断记录的时间点,而得知服务器系统不正常关机的接近时间点。更可凭借此时间点,推断出真正影响服务器系统不正常运作的事件,而有助于研发设计人员除错。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。
Claims (10)
1.一种服务器系统,其特征在于,包括:
一主系统,具有一资料交换接口,并具有一记录软件;以及
一监控装置,耦接所述主系统,以记录所述主系统所发生的事件,并在主系统发生事件时产生一记录档,其中所述记录软件每隔一预设时间呼叫所述监控装置,并记录即时的系统时间,且所述记录软件更检查是否有新的记录档,而当所述记录软件发现有新的记录档时,则将新的记录档载至所述主系统中的一储存区域中。
2.根据权利要求1所述的服务器系统,其特征在于,所述监控装置为基板管理控制器。
3.根据权利要求1所述的服务器系统,其特征在于,所述资料交换接口为智能平台管理接口。
4.根据权利要求3所述的服务器系统,其特征在于,所述主系统更包括一智能平台管理接口工具,透过所述智能平台管理接口耦接所述监控装置。
5.一种记录装置,适用于具有一监控装置的一服务器系统,而该监控装置用以在所述服务器系统发生事件时产生一记录档,而所述记录装置的特征在于,包括:
一计时器,每隔一预设时间输出一致能信息;
一核心模组,耦接所述计时器,并接收所述致能信息;
一收发模组,耦接所述核心单元,且所述核心单元在接收到所述致能信息时,则使所述收发模组透过一资料交换接口呼叫所述监控装置,并检查是否有新的记录档,而所述收发模组在发现有新的记录档时,则进行一下载作业,以下载新的记录档;以及
一记录单元,耦接所述核心模组,用以将所下载新的记录档储存在一储存区域中,并记录所述收发模组在呼叫所述监控装置时的系统时间。
6.根据权利要求5所述的记录装置,其特征在于,其中所述收发模组包括:
一呼叫单元,用以透过所述资料交换接口呼叫所述监控装置;
一检查单元,用以检查所述监控装置是否产生新的记录档;以及
一下载单元,用以在所述检查单元发现监控装置产生新的记录档时,下载新的记录档。
7.根据权利要求5所述的记录装置,其特征在于,所述资料交换接口为智能平台管理接口。
8.根据权利要求5所述的记录装置,其特征在于,记录更包括一同步模组,以在所述记录装置被启动时,将所述服务器系统的系统时间与所述监控装置进行一同步化作业。
9.一种服务器系统的管理方法,其特征在于,包括下列步骤:
监控所述服务器系统的运作,并在所述服务器系统发生一事件时,在一本地监控端产生一记录档;
每隔一预设时间检查所述本地监控端是否产生新的记录档,并将所述服务器系统的即时系统时间记录至一储存区域中;以及
当发现本地监控端有新的记录档时,则将新的记录档下载至所述储存区域中。
10.根据权利要求9所述的管理方法,其特征在于,更包括将所述本地监控端的时间与所述服务器系统的系统时间进行同步化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101816331A CN101741600B (zh) | 2008-11-27 | 2008-11-27 | 服务器系统与其记录装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101816331A CN101741600B (zh) | 2008-11-27 | 2008-11-27 | 服务器系统与其记录装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101741600A true CN101741600A (zh) | 2010-06-16 |
CN101741600B CN101741600B (zh) | 2012-01-25 |
Family
ID=42464537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101816331A Expired - Fee Related CN101741600B (zh) | 2008-11-27 | 2008-11-27 | 服务器系统与其记录装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101741600B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467438A (zh) * | 2010-11-12 | 2012-05-23 | 英业达股份有限公司 | 利用基板管理控制器取得储存装置故障信号的方法 |
CN102609350A (zh) * | 2012-02-15 | 2012-07-25 | 浪潮电子信息产业股份有限公司 | 一种服务器内存故障报警方法 |
CN106201769A (zh) * | 2014-11-14 | 2016-12-07 | 广达电脑股份有限公司 | 服务器系统、非临时计算机可读存储介质以及用以增强服务器系统中的存储器容错率的方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1317642C (zh) * | 2002-03-15 | 2007-05-23 | 联想(北京)有限公司 | 远程告警信息实时和准确定位的监控方法 |
CN100347674C (zh) * | 2004-06-09 | 2007-11-07 | 宏正自动科技股份有限公司 | 智能平台管理接口系统及其执行方法 |
CN100431304C (zh) * | 2005-09-09 | 2008-11-05 | 环达电脑(上海)有限公司 | 基于远程的智能平台管理接口测试系统及方法 |
-
2008
- 2008-11-27 CN CN2008101816331A patent/CN101741600B/zh not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467438A (zh) * | 2010-11-12 | 2012-05-23 | 英业达股份有限公司 | 利用基板管理控制器取得储存装置故障信号的方法 |
CN102609350A (zh) * | 2012-02-15 | 2012-07-25 | 浪潮电子信息产业股份有限公司 | 一种服务器内存故障报警方法 |
CN106201769A (zh) * | 2014-11-14 | 2016-12-07 | 广达电脑股份有限公司 | 服务器系统、非临时计算机可读存储介质以及用以增强服务器系统中的存储器容错率的方法 |
CN106201769B (zh) * | 2014-11-14 | 2019-02-01 | 广达电脑股份有限公司 | 服务器系统、非临时计算机可读存储介质以及用以增强服务器系统中的存储器容错率的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101741600B (zh) | 2012-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5160085B2 (ja) | ストレージ・デバイスの障害を予測するための装置、システム、および方法 | |
EP2472402B1 (en) | Remote management systems and methods for mapping operating system and management controller located in a server | |
US8806278B2 (en) | Method and device for autonomously diagnosing and remotely controlling a computer or computer-aided system | |
CN102999716B (zh) | 虚拟机器监控系统及方法 | |
US20070174719A1 (en) | Storage control device, and error information management method for storage control device | |
CN106557145A (zh) | 断电保护系统及其方法 | |
CN104063305A (zh) | 智能终端软件的压力测试方法、装置和系统 | |
CN104951395A (zh) | 一种嵌入式系统调试信息处理方法及装置 | |
TWI512490B (zh) | 擷取控制台訊息的系統及其方法及非暫態電腦可讀媒體 | |
CN111522703A (zh) | 监控访问请求的方法、设备和计算机程序产品 | |
CN101582046A (zh) | 一种高可用的系统状态监控、预测以及智能管理方法 | |
US10296431B2 (en) | Generation of debugging log list in a blade server environment | |
CN105446657A (zh) | 一种监控raid卡的方法 | |
US11640377B2 (en) | Event-based generation of context-aware telemetry reports | |
CN101339515A (zh) | 传感器程序管理方法及系统 | |
CN106294176A (zh) | Mac OS系统中应用程序故障定位的方法及系统 | |
CN102331959A (zh) | 伺服器系统 | |
CN117112474B (zh) | 一种通用可信的基板管理方法和系统 | |
CN111817921A (zh) | 移动测试设备、测试方法、装置、系统及组网方法 | |
CN107070747A (zh) | 一种在网卡绑定模式下自动化测试网卡网络连接稳定性的方法 | |
TWI468922B (zh) | 電子裝置及其管理方法與機櫃伺服系統 | |
CN112463538A (zh) | 一种漏液检测及报警系统、方法、装置和设备 | |
CN101741600B (zh) | 服务器系统与其记录装置 | |
CN101094091B (zh) | 一种会议电视系统中的多点控制装置 | |
CN107026759A (zh) | 一种基于bmc的远程管理bbu模块的固件及其开发方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20181115 Address after: No. 1, Chunhui South Road, Dadukou District, Chongqing, 5-1 (No. 1, 5th floor) Patentee after: Chongqing Zhonghe Netstar Information Technology Co., Ltd. Address before: Taipei City, Taiwan Chinese Shilin District Hougang Street No. 66 Patentee before: Inventec Corporation |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120125 Termination date: 20191127 |