JP5689783B2 - Computer, computer system, and failure information management method - Google Patents

Computer, computer system, and failure information management method Download PDF

Info

Publication number
JP5689783B2
JP5689783B2 JP2011256512A JP2011256512A JP5689783B2 JP 5689783 B2 JP5689783 B2 JP 5689783B2 JP 2011256512 A JP2011256512 A JP 2011256512A JP 2011256512 A JP2011256512 A JP 2011256512A JP 5689783 B2 JP5689783 B2 JP 5689783B2
Authority
JP
Japan
Prior art keywords
computer
failure information
failure
storage unit
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011256512A
Other languages
Japanese (ja)
Other versions
JP2013109722A (en
Inventor
和哉 長澤
和哉 長澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2011256512A priority Critical patent/JP5689783B2/en
Publication of JP2013109722A publication Critical patent/JP2013109722A/en
Application granted granted Critical
Publication of JP5689783B2 publication Critical patent/JP5689783B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明の実施形態は、コンピュータに生じたハードウェア障害を確実に記録するためのコンピュータ、コンピュータシステム、および障害情報管理方法に関する。   Embodiments described herein relate generally to a computer, a computer system, and a failure information management method for reliably recording a hardware failure that has occurred in a computer.

コンピュータに発生した障害を管理するためのシステム管理コントローラをマザーボード上に設けることが行われている。障害が発生した場合に、システム管理コントローラは、障害の内容を示す障害情報を不揮発性メモリに格納する。後に、管理者が障害情報を解析することによって、障害の原因を容易に特定することが可能になる。   A system management controller for managing a failure occurring in a computer is provided on a motherboard. When a failure occurs, the system management controller stores failure information indicating the content of the failure in the nonvolatile memory. Later, the administrator can easily identify the cause of the failure by analyzing the failure information.

特開2011−48534号公報JP 2011-48534 A 特開平10−247911号公報Japanese Patent Laid-Open No. 10-247911 特開2009−252006号公報JP 2009-252006 A

管理コントローラが故障したり、不揮発性メモリが故障したりすると、障害情報を不揮発性メモリに記録することができず、障害情報を管理することができない。そこで、障害情報を管理することができない場合であっても、後に発生した障害を解析するために障害を障害の情報を管理することが望まれている。   If the management controller fails or the nonvolatile memory fails, failure information cannot be recorded in the nonvolatile memory, and failure information cannot be managed. Therefore, even when failure information cannot be managed, it is desired to manage failure information for failure in order to analyze a failure that occurred later.

本発明の目的は、システム管理コントローラが障害の情報を管理することができない場合であっても、障害の情報を管理することが可能なコンピュータ、コンピュータシステム、および障害情報管理方法を提供することにある。   An object of the present invention is to provide a computer, a computer system, and a failure information management method capable of managing failure information even when the system management controller cannot manage the failure information. is there.

実施形態によれば、コンピュータは、ネットワークに接続される第1のコンピュータと管理用コンピュータとを含むコンピュータシステムであって、前記第1のコンピュータは、第1の記憶部と、前記第1のコンピュータにハードウェア障害が発生した場合に第1の割り込み通知を発行する第1の発行手段と、前記第1の割り込み通知の発行に応じて前記ハードウェア障害の内容を収集し、前記収集された内容に基づいた第1の障害情報を生成する生成手段と、前記第1の障害情報が生成された場合に第2の割り込み命令を発行する第2の発行手段と、前記第2の割り込み命令が発行された場合に、前記第1の障害情報を取得し、前記第1の障害情報を前記第1の記憶部に記録するシステム管理コントローラと、前記システム管理用コントローラが前記第1の障害情報を前記第1の記憶部に記録できなかった場合に前記第1の障害情報を前記管理用コンピュータに通知する通知手段とを具備し、前記管理用コンピュータは、第2の記憶部と、前記第1の障害情報が通知された場合に、前記第1の障害情報を前記第2の記憶部に書き込むシステム管理手段を具備する。   According to the embodiment, the computer is a computer system including a first computer connected to a network and a management computer, wherein the first computer includes a first storage unit and the first computer. First issue means for issuing a first interrupt notification when a hardware failure occurs, collecting the content of the hardware failure in response to the issue of the first interrupt notification, and collecting the collected content Generating means for generating first failure information based on the first issue information, second issue means for issuing a second interrupt instruction when the first failure information is generated, and issuing the second interrupt instruction A system management controller that acquires the first failure information and records the first failure information in the first storage unit, and the system management controller. And a notification means for notifying the management computer of the first failure information when the first failure information cannot be recorded in the first storage unit. Two storage units, and system management means for writing the first failure information into the second storage unit when the first failure information is notified.

実施形態のコンピュータシステムの構成の一例を示すブロック図。The block diagram which shows an example of a structure of the computer system of embodiment. 実施形態のサーバコンピュータの構成の一例を示すブロック図。The block diagram which shows an example of a structure of the server computer of embodiment. 図2に示すSMIハンドラの構成の一例を示すブロック図。The block diagram which shows an example of a structure of the SMI handler shown in FIG. 実施形態のサーバコンピュータの構成の一例を示すブロック図。The block diagram which shows an example of a structure of the server computer of embodiment. 実施形態の管理用サーバコンピュータの構成の一例を示すブロック図。The block diagram which shows an example of a structure of the management server computer of embodiment. SMIハンドラによって実行される処理の手順を示すフローチャート。The flowchart which shows the procedure of the process performed by a SMI handler. BMC代理プログラムによって実行される処理の手順を示すフローチャート。The flowchart which shows the procedure of the process performed by the BMC proxy program.

以下、実施の形態について図面を参照して説明する。   Hereinafter, embodiments will be described with reference to the drawings.

図1は、一実施形態のコンピュータシステムの構成を示すブロック図である。
図1に示すように、コンピュータシステムは、LAN(Local Area Network)に接続された管理用サーバコンピュータ10、第1のサーバコンピュータ20A、および第2のサーバコンピュータ20B等から構成されている。
FIG. 1 is a block diagram illustrating a configuration of a computer system according to an embodiment.
As shown in FIG. 1, the computer system includes a management server computer 10, a first server computer 20A, a second server computer 20B, and the like connected to a LAN (Local Area Network).

サーバコンピュータ20(第1のサーバコンピュータ20A、第2のサーバコンピュータ20B)の構成を図2を参照して説明する。
サーバコンピュータ20は、第1のNIC(Network Interface Card)21、第2のNIC22、ネットワークコントローラ23、システム管理コントローラとしてのBMC(Baseboard Management Controller)24、不揮発性メモリ(NVRAM:Non-volatile memory)25、およびフラッシュROM26等を備えている。
The configuration of the server computer 20 (first server computer 20A, second server computer 20B) will be described with reference to FIG.
The server computer 20 includes a first NIC (Network Interface Card) 21, a second NIC 22, a network controller 23, a BMC (Baseboard Management Controller) 24 as a system management controller, and a non-volatile memory (NVRAM) 25. And a flash ROM 26 and the like.

ネットワークコントローラ23は、OSI参照モデルのデータリンク層に相当する機能を有する。第1のNIC21および第2のNIC22は、例えばOSI参照モデルの物理層チップである。第2のNIC22は、後述するBMC24に設けられている。なお、第1のNIC21は、サーバコンピュータ20によって実行されるアプリケーションプログラム等が使用する。   The network controller 23 has a function corresponding to the data link layer of the OSI reference model. The first NIC 21 and the second NIC 22 are, for example, OSI reference model physical layer chips. The second NIC 22 is provided in a BMC 24 described later. Note that the first NIC 21 is used by an application program executed by the server computer 20.

BMC24は、サーバコンピュータ20内に設けられたセンサを用いてハードウェアを常時監視する。そして、ハードウェア障害が発生した場合に、発生した障害の内容をNVRAM25内のSEL(System Event Log)251に書き込む。また、BMC24は、発生した障害の内容を予め設定された管理者端末30に通知する。BMC24は、例えば管理者のメールアドレス宛にメールを送ることで、発生した障害の内容を管理者に通知する。また、BMC24は、発生した障害の内容を含むメッセージをSNMP(Simple Network Management Protocol)で送ることで、発生した障害の内容を予め設定された管理者端末30に通知する。   The BMC 24 constantly monitors hardware using a sensor provided in the server computer 20. When a hardware failure occurs, the content of the failure that has occurred is written to a SEL (System Event Log) 251 in the NVRAM 25. In addition, the BMC 24 notifies the administrator terminal 30 set in advance of the content of the failure that has occurred. The BMC 24 notifies the administrator of the content of the failure that has occurred, for example, by sending an e-mail to the e-mail address of the administrator. Further, the BMC 24 notifies the administrator terminal 30 set in advance of the content of the failure that has occurred by sending a message including the content of the failure that has occurred using SNMP (Simple Network Management Protocol).

BMC24はコンピュータ(サーバ)のマザーボード上に配置され、IPMI(Intelligent Platform Management Interface)アーキテクチャに基づく特殊なマイクロコントローラである。BMC24は、CPU(OS)が動作していなくても、電源さえあれば動作する。図示しないコンピュータに内蔵された異なるタイプのセンサは、温度、冷却ファン回転速度、電源状態、OS状態等に関するパラメータをBMC24に報告する。BMC24はセンサを監視し、いずれかのパラメータが許容範囲外となると、システムの動作不良の可能性を、ネットワークを介して管理者端末30に通知する。   The BMC 24 is a special microcontroller that is arranged on a motherboard of a computer (server) and is based on an IPMI (Intelligent Platform Management Interface) architecture. Even if the CPU (OS) is not operating, the BMC 24 operates as long as there is a power source. Different types of sensors built into the computer (not shown) report parameters related to temperature, cooling fan rotation speed, power supply state, OS state, etc. to the BMC 24. The BMC 24 monitors the sensor, and when any parameter falls outside the allowable range, the BMC 24 notifies the administrator terminal 30 of the possibility of system malfunction via the network.

NVMRAM25には、SEL(System Event Log)251、SDR(Sensor Data Records)252、およびPEF(Platform Event Filtering)253が書き込まれている。NVRAM25は、シリアルバス接続タイプのEEPROM(Electrically Erasable and Programmable Read Only Memory)またはフラッシュメモリである。SEL251には、例えばBMC24により情報処理装置の異常を検出した場合、又はセンサで閾値を超えるエラーを検出した場合、障害の内容が記録される。SDR252には、BMC24が管理しているセンサの種類(温度や電圧等)や、異常を識別する為の閾値などが製造時に記録されている。PEF253には、障害が発生した場合に、管理者端末30に通知を行う障害の種類の設定が記録されている。   In the NVMRAM 25, a system event log (SEL) 251, a sensor data record (SDR) 252, and a platform event filtering (PEF) 253 are written. The NVRAM 25 is a serial bus connection type EEPROM (Electrically Erasable and Programmable Read Only Memory) or flash memory. For example, when an abnormality of the information processing apparatus is detected by the BMC 24 or when an error exceeding a threshold is detected by the sensor, the content of the failure is recorded in the SEL 251. In the SDR 252, the type of sensor (temperature, voltage, etc.) managed by the BMC 24, a threshold value for identifying an abnormality, and the like are recorded at the time of manufacture. In the PEF 253, the setting of the type of failure to be notified to the administrator terminal 30 when a failure occurs is recorded.

フラッシュROM26内には、BIOS(基本入出力システム:Basic Input Output System)261が格納されている。BIOS261は、CPUによって実行されるハードウェア制御のためのシステムプログラムである。BIOS261は、SMI(System Management Interrupt)イベントの発行時に、CPUによって実行されるSMIハンドラ262を有する。   A BIOS (Basic Input / Output System) 261 is stored in the flash ROM 26. The BIOS 261 is a system program for hardware control executed by the CPU. The BIOS 261 has an SMI handler 262 that is executed by the CPU when an SMI (System Management Interrupt) event is issued.

なお、SMIハンドラ262は、図3に示すように、障害情報生成モジュール2621、障害情報格納指示モジュール2622、および障害情報送信モジュール2623等のプログラムを有する。   As shown in FIG. 3, the SMI handler 262 has programs such as a failure information generation module 2621, a failure information storage instruction module 2622, and a failure information transmission module 2623.

障害情報生成モジュール2621は、サーバコンピュータにハードウェア障害が発生した場合に、ハードウェア障害の内容に基づいて障害情報を生成する。障害情報が生成された場合に、指示発行モジュール2622は、BMC24に対して障害情報のNVRAM25への格納を指示するための指示信号を送信する。障害情報送信モジュール2623は、障害情報のNVRAM25への格納に失敗した場合に、障害情報を管理用サーバコンピュータ10によって管理させるために、障害情報を管理用サーバコンピュータ10に送信する。   The failure information generation module 2621 generates failure information based on the content of the hardware failure when a hardware failure occurs in the server computer. When the failure information is generated, the instruction issue module 2622 transmits an instruction signal for instructing the BMC 24 to store the failure information in the NVRAM 25. The failure information transmission module 2623 transmits the failure information to the management server computer 10 in order to manage the failure information by the management server computer 10 when the failure information has failed to be stored in the NVRAM 25.

サーバコンピュータ20のより詳細なシステム構成を、図4を参照して説明する。
本コンピュータ20は、図3に示されているように、CPU101、ノースブリッジ102、主メモリ103、サウスブリッジ104、グラフィクスプロセッシングユニット(GPU)105、ビデオメモリ(VRAM)105A、サウンドコントローラ106、フラッシュROM26、ネットワークコントローラ23、BMC24、NVRAM25、ハードディスクドライブ(HDD)111、およびPCIデバイス115等を備えている。
A more detailed system configuration of the server computer 20 will be described with reference to FIG.
As shown in FIG. 3, the computer 20 includes a CPU 101, a north bridge 102, a main memory 103, a south bridge 104, a graphics processing unit (GPU) 105, a video memory (VRAM) 105A, a sound controller 106, and a flash ROM 26. , Network controller 23, BMC 24, NVRAM 25, hard disk drive (HDD) 111, PCI device 115, and the like.

CPU101は本コンピュータ10の動作を制御するプロセッサである。CPU101は、ハードディスクドライブ(HDD)111から主メモリ103にロードされる、オペレーティングシステムや各種アプリケーションプログラムを実行する。また、CPU101は、フラッシュROM109に格納されたBIOS(Basic Input Output System)261も実行する。BIOS261はハードウェア制御のためのプログラムである。   The CPU 101 is a processor that controls the operation of the computer 10. The CPU 101 executes an operating system and various application programs loaded from the hard disk drive (HDD) 111 to the main memory 103. The CPU 101 also executes a basic input output system (BIOS) 261 stored in the flash ROM 109. The BIOS 261 is a program for hardware control.

ノースブリッジ102は、CPU101のローカルバスとサウスブリッジ104との間を接続するブリッジデバイスである。ノースブリッジ102には、主メモリ103をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ102は、PCI EXPRESS規格のシリアルバスなどを介して、GPU105との通信を実行する機能も有している。   The north bridge 102 is a bridge device that connects the local bus of the CPU 101 and the south bridge 104. The north bridge 102 also includes a memory controller that controls access to the main memory 103. The north bridge 102 also has a function of executing communication with the GPU 105 via a PCI EXPRESS standard serial bus or the like.

GPU105は、本コンピュータ10のディスプレイモニタを制御する表示コントローラである。GPU105は、VRAM105Aをワークメモリとして使用する。このGPU105によって生成される映像信号は、ディスプレイモニタに送られる。   The GPU 105 is a display controller that controls the display monitor of the computer 10. The GPU 105 uses the VRAM 105A as a work memory. The video signal generated by the GPU 105 is sent to the display monitor.

サウスブリッジ104は、LPC(Low Pin Count)バス上の各デバイス、およびPCI(Peripheral Component Interconnect)バス上の各デバイス115A、115Bを制御する。また、サウスブリッジ104は、ハードディスクドライブ(HDD)111およびDVDドライブ112を制御するためのIDE(Integrated Drive Electronics)コントローラを内蔵している。さらに、サウスブリッジ104は、サウンドコントローラ106との通信を実行する機能も有している。   The south bridge 104 controls each device 115A and 115B on each LPC (Low Pin Count) bus and each PCI (Peripheral Component Interconnect) bus. The south bridge 104 includes an IDE (Integrated Drive Electronics) controller for controlling the hard disk drive (HDD) 111 and the DVD drive 112. Further, the south bridge 104 has a function of executing communication with the sound controller 106.

更に、第1の発行手段としてのサウスブリッジ104は、PCIバス14上のPERR(パリティエラー)信号やSERR(システムエラー)信号の検出に伴い、SMI(System Management Interrupts)イベントをCPUに発行する回路を内蔵する。   Further, the south bridge 104 as the first issuing means is a circuit that issues an SMI (System Management Interrupts) event to the CPU upon detection of a PERR (parity error) signal or SERR (system error) signal on the PCI bus 14. Built in.

サウンドコントローラ106は音源デバイスであり、再生対象のオーディオデータをスピーカ18A,18Bに出力する。   The sound controller 106 is a sound source device and outputs audio data to be reproduced to the speakers 18A and 18B.

センサ241は、サウスブリッジ104から発行されたシステムエラー信号(SERR信号)/パリティエラー信号(PERR信号)の発行やCPUの温度等を監視する。センサ241は、BMC24により、所定間隔毎にポーリングされる。   The sensor 241 monitors the issuance of a system error signal (SERR signal) / parity error signal (PERR signal) issued from the south bridge 104, the temperature of the CPU, and the like. The sensor 241 is polled by the BMC 24 at predetermined intervals.

次に、管理用サーバコンピュータ10のCPUによって実行されるソフトウェアプログラムの構成について図5を参照して説明する。管理用サーバコンピュータ10内では、BMC代理プログラム501が実行される。BMC代理プログラム501では、BMCマネージャ502、第1の仮想BMC503A、および第2の仮想BMC503Bが実行される。また、管理用サーバコンピュータ10は、記憶装置510を有する。   Next, the configuration of the software program executed by the CPU of the management server computer 10 will be described with reference to FIG. In the management server computer 10, the BMC proxy program 501 is executed. In the BMC proxy program 501, the BMC manager 502, the first virtual BMC 503A, and the second virtual BMC 503B are executed. The management server computer 10 also has a storage device 510.

第1の仮想BMC503Aは、第1のサーバコンピュータ20A内のBMCの機能を実行する。第2の仮想BMC503Bは、第2のサーバコンピュータ20B内のBMCの機能を実行する。管理マネージャは501、障害情報を送信したサーバに対応する仮想BMCに送信する。   The first virtual BMC 503A executes the function of the BMC in the first server computer 20A. The second virtual BMC 503B executes the function of the BMC in the second server computer 20B. The management manager 501 sends it to the virtual BMC corresponding to the server that sent the failure information.

正常運用時、BMCマネージャ502は、各サーバコンピュータの第2のNIC22を経由して、BMC24からSDR252、PEF253、BMC専用LANポートの構成情報(トラップの送信先など)をポーリングして取得する。   During normal operation, the BMC manager 502 polls and obtains configuration information (such as a trap transmission destination) of the SDR 252, PEF 253, and BMC dedicated LAN port from the BMC 24 via the second NIC 22 of each server computer.

BMCマネージャ502は、取得したSDRおよびPEFを、取得したサーバコンピュータに対応する仮想BMCに関連づけられた記憶装置510内のフォルダ(511Aまたは511B)内に記録する。また、BMCマネージャ502は、BMC専用LANポートの構成情報を対応する仮想BMCに設定する。
BMCマネージャ502は、SMIハンドラ262に、BMC故障時のSMIイベントの送信先として、管理用サーバコンピュータ10を登録しておく。
The BMC manager 502 records the acquired SDR and PEF in a folder (511A or 511B) in the storage device 510 associated with the virtual BMC corresponding to the acquired server computer. Further, the BMC manager 502 sets the configuration information of the BMC dedicated LAN port in the corresponding virtual BMC.
The BMC manager 502 registers the management server computer 10 in the SMI handler 262 as the transmission destination of the SMI event when the BMC fails.

サーバコンピュータにハードウェア障害が発生し、正常にNVRAMに障害情報が書き込まれる場合の動作を説明する。   An operation when a hardware failure occurs in the server computer and the failure information is normally written in the NVRAM will be described.

センサ241は、PCIバス114上のPCIデバイスが発行したSERR信号/PERR信号を検出する。センサ241は、SERR信号/PERR信号を検出した場合、サウスブリッジ104に対して、SMI信号をCPU101に出力するように指示する。サウスブリッジ104は、センサ241からの指示に従い、CPU101に対して、SMI信号を出力する。SMI信号に応じて、SMIハンドラ262が起動する。   The sensor 241 detects the SERR signal / PERR signal issued by the PCI device on the PCI bus 114. When the sensor 241 detects the SERR signal / PERR signal, the sensor 241 instructs the south bridge 104 to output the SMI signal to the CPU 101. The south bridge 104 outputs an SMI signal to the CPU 101 in accordance with an instruction from the sensor 241. The SMI handler 262 is activated in response to the SMI signal.

SMI信号に応答して、起動されたSMIハンドラ262内の障害情報生成モジュール2621は、PCIバス114上のどのデバイスが、SERR信号/PERR信号を出力したかを示す情報を検出する。   In response to the SMI signal, the fault information generation module 2621 in the activated SMI handler 262 detects information indicating which device on the PCI bus 114 has output the SERR signal / PERR signal.

障害情報生成モジュール2621は、検出された情報に基づいて、エラーの種類(SERR信号/PERR信号)、エラーを発行・検出したデバイスのバス番号、ファンクション番号、デバイス番号を含む第1の障害情報を生成する。   Based on the detected information, the failure information generation module 2621 generates first failure information including the type of error (SERR signal / PERR signal), the bus number, function number, and device number of the device that issued and detected the error. Generate.

第1の障害情報が生成されると、障害情報格納指示モジュール2622は、BMC24に第1の障害情報のNVRAM25への格納を指示するための指示信号を送信する。   When the first failure information is generated, the failure information storage instruction module 2622 transmits an instruction signal for instructing the BMC 24 to store the first failure information in the NVRAM 25.

BMC24は、指示信号の受信に応じて、第1の障害情報をSMIハンドラ262から取得する。そして、第1の障害情報に、エラーイベントとして、イベントの通し番号、センサの種類と時刻等の付加情報を付加した第2の障害情報をSEL251に記録する。   The BMC 24 acquires first failure information from the SMI handler 262 in response to receiving the instruction signal. Then, second failure information in which additional information such as an event serial number, sensor type, and time is added to the first failure information as an error event is recorded in the SEL 251.

BMC24は、PEF253に発生した障害が設定されている場合に、第2のNIC22から予め設定されている管理者端末30にトラップを送信する。   The BMC 24 transmits a trap to the administrator terminal 30 set in advance from the second NIC 22 when the failure that has occurred in the PEF 253 is set.

以上が、BMCおよびNVRAMが故障していない状態で、サーバコンピュータのハードウエアに障害が生じた場合の動作である。   The above is the operation when a failure occurs in the hardware of the server computer while the BMC and NVRAM are not broken down.

BMCまたはNVRAMが故障している状態で、SMIイベントが発行された場合のSMIハンドラの動作を、図6のフローチャートを参照して説明する。   The operation of the SMI handler when an SMI event is issued in a state where the BMC or NVRAM is faulty will be described with reference to the flowchart of FIG.

センサ241は、PCIバス114上のPCIデバイスが発行したSERR信号/PERR信号を検出する。センサ241は、SERR信号/PERR信号を検出した場合、サウスブリッジ104に対して、SMI信号をCPU101に出力するように指示する。サウスブリッジ104は、センサ241からの指示に従い、CPU101に対して、SMI信号を出力する。SMI信号に応じて(ステップB601)、SMIハンドラ262が起動する。   The sensor 241 detects the SERR signal / PERR signal issued by the PCI device on the PCI bus 114. When the sensor 241 detects the SERR signal / PERR signal, the sensor 241 instructs the south bridge 104 to output the SMI signal to the CPU 101. The south bridge 104 outputs an SMI signal to the CPU 101 in accordance with an instruction from the sensor 241. In response to the SMI signal (step B601), the SMI handler 262 is activated.

SMI信号に応答して、起動されたSMIハンドラ262内の障害情報生成モジュール2621は、PCIバス114上のどのデバイスが、SERR信号/PERR信号を出力したかを検出する(ステップB602)。   In response to the SMI signal, the fault information generation module 2621 in the activated SMI handler 262 detects which device on the PCI bus 114 has output the SERR signal / PERR signal (step B602).

障害情報生成モジュール2621は、収集された情報に基づいて、エラーの種類(SERR信号/PERR信号)、エラーを発行・検出したデバイスのバス番号、ファンクション番号、デバイス番号を含む第1の障害情報を生成する(ステップB603)。   The failure information generation module 2621 generates first failure information including the type of error (SERR signal / PERR signal), the bus number of the device that issued / detected the error, the function number, and the device number based on the collected information. Generate (step B603).

第1の障害情報が生成されると、障害情報格納指示モジュール2622は、BMC24に第1の障害情報を記録を指示するためのSMIイベントを発行する(ステップB604)。   When the first failure information is generated, the failure information storage instruction module 2622 issues an SMI event for instructing the BMC 24 to record the first failure information (step B604).

NVRAM25が故障している場合、BMCがSMIハンドラにSEL251に第1の障害情報が記録できなかったことを示すエラー通知を発行する。また、BMCが故障している場合、SMIハンドラが第1の障害情報を記録するように指示してから一定時間経過するまでにBMCからの応答が無い場合に、SMIハンドラは、SELに障害情報が書き込まれなかったと判断する(ステップB605)。   If the NVRAM 25 has failed, the BMC issues an error notification indicating that the first failure information could not be recorded in the SEL 251 to the SMI handler. In addition, when the BMC is faulty, the SMI handler displays the fault information in the SEL when there is no response from the BMC until a predetermined time elapses after the SMI handler instructs to record the first fault information. Is not written (step B605).

SEL251に障害情報が書き込まれなかった場合、SMIハンドラ262の障害情報送信モジュール2623は、通常のLANポート(NIC1)を経由して、管理用サーバコンピュータ10のアプリケーションプログラムに、第1の障害情報を含むメッセージを送信する(ステップB606)。メッセージ内には、当該メッセージを送ったサーバを示す送信元情報が格納されている。   When failure information is not written in the SEL 251, the failure information transmission module 2623 of the SMI handler 262 sends the first failure information to the application program of the management server computer 10 via the normal LAN port (NIC 1). A message including the message is transmitted (step B606). In the message, transmission source information indicating the server that sent the message is stored.

次に、メッセージを受け取ったBMC代理プログラム501の動作を、図7のフローチャートを参照して説明する。   Next, the operation of the BMC proxy program 501 that has received the message will be described with reference to the flowchart of FIG.

BMCマネージャ502が、第1のサーバコンピュータ20Aから送信された第1の障害情報を含むメッセージを受け取る(ステップB701)。   The BMC manager 502 receives a message including the first failure information transmitted from the first server computer 20A (step B701).

BMCマネージャは、メッセージから第1の障害情報と送信元情報とをそれぞれ抽出し、メッセージに含まれる送信元情報に基づいて、第1の障害情報を第1の仮想BMCに送る(ステップB702)。   The BMC manager extracts the first failure information and the transmission source information from the message, and sends the first failure information to the first virtual BMC based on the transmission source information included in the message (step B702).

第1の仮想BMCは、第1の障害情報を含む第3の障害情報を、第1のサーバコンピュータに対応する第1の仮想BMC503Aに関連づけられているフォルダ511A内のSEL251Aに書き込む(ステップB703)。   The first virtual BMC writes the third failure information including the first failure information to the SEL 251A in the folder 511A associated with the first virtual BMC 503A corresponding to the first server computer (step B703). .

第1の仮想BMC503Aは、第1のサーバコンピュータ20Aに発生した障害が、PEFに設定されているかを判定する(ステップB704)。障害が、設定されていると判定した場合(ステップB704のYes)、第1の障害情報に含まれている情報の内、少なくとも一部を含む第4の障害情報にトラップを送信する(ステップB705)。障害が、設定されていないと判定した場合(ステップB704のNo)は、処理を終了する。また、トラップを送信した場合(ステップB705)も、処理を終了する。   The first virtual BMC 503A determines whether the failure that has occurred in the first server computer 20A is set in the PEF (step B704). If it is determined that a failure has been set (Yes in step B704), a trap is transmitted to the fourth failure information including at least a part of the information included in the first failure information (step B705). ). If it is determined that the failure has not been set (No in step B704), the process ends. Also, when the trap is transmitted (step B705), the process is terminated.

本実施形態によれば、BMCまたはNVRAMが故障し、サーバコンピュータに発生した障害の内容をNVRAMに記録することができ無い状態であっても、管理用サーバコンピュータ10内の記憶装置に障害の内容を書き込むことが出来る。このため、障害発生時の解析に有効となる。また、トラップを管理者端末30に送信することが可能になる。   According to this embodiment, even if the BMC or NVRAM fails and the content of the failure that has occurred in the server computer cannot be recorded in the NVRAM, the content of the failure in the storage device in the management server computer 10 Can be written. Therefore, it is effective for analysis when a failure occurs. In addition, the trap can be transmitted to the administrator terminal 30.

なお、上記実施形態では、センサがサウスブリッジにSMIイベントの発行を指示していたが、センサによって検出された値が閾値を超えた場合に、BMCがサウスブリッジにSMIイベントの発行を指示するように構成しても良い。この場合、障害情報生成モジュール2621は、BMC24からハードウェア障害の内容を取得する。   In the above embodiment, the sensor instructs the South Bridge to issue an SMI event. However, when the value detected by the sensor exceeds a threshold, the BMC instructs the South Bridge to issue an SMI event. You may comprise. In this case, the failure information generation module 2621 acquires the content of the hardware failure from the BMC 24.

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。   Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.

10…管理用サーバコンピュータ、20A…第1のサーバコンピュータ、20B…第2のサーバコンピュータ、21…第1のNIC、22…第2のNIC、23…ネットワークコントローラ、24…BMC(システム管理コントローラ)、25…不揮発性メモリ(第1の記憶部)、101…CPU、104…サウスブリッジ、115A.115B…PCIデバイス、116…キーボードコントローラIC、262…SMIハンドラ、501…BMC代理プログラム、502…BMCマネージャ、503A…第1の仮想BMC、503B…第2の仮想BMC、510…記憶装置(第2の記憶部)。   DESCRIPTION OF SYMBOLS 10 ... Management server computer, 20A ... 1st server computer, 20B ... 2nd server computer, 21 ... 1st NIC, 22 ... 2nd NIC, 23 ... Network controller, 24 ... BMC (system management controller) , 25... Nonvolatile memory (first storage unit), 101... CPU, 104. 115B ... PCI device, 116 ... Keyboard controller IC, 262 ... SMI handler, 501 ... BMC proxy program, 502 ... BMC manager, 503A ... First virtual BMC, 503B ... Second virtual BMC, 510 ... Storage device (second Storage section).

Claims (7)

ネットワークを介して管理用コンピュータに接続されたコンピュータであって、
記憶部と、
前記コンピュータにハードウェア障害が発生した場合に前記ハードウェア障害の内容を示す障害情報を生成する生成手段と、
前記障害情報が生成された場合に第1の指示信号を発行する発行手段と、
前記発行手段からの前記第1の指示信号の受信に応じて前記障害情報を前記記憶部に格納するシステム管理コントローラと、
前記障害情報の前記記憶部への格納に失敗した場合に前記障害情報を前記管理用コンピュータに送信する送信手段とを具備するコンピュータ。
A computer connected to a management computer via a network,
A storage unit;
Generating means for generating failure information indicating the content of the hardware failure when a hardware failure occurs in the computer;
Issuing means for issuing a first instruction signal when the failure information is generated;
A system management controller that stores the failure information in the storage unit in response to reception of the first instruction signal from the issuing means;
A computer comprising: transmission means for transmitting the failure information to the management computer when storage of the failure information in the storage unit fails.
前記システム管理コントローラは、
前記障害情報が通知設定によって指定された障害を示す情報を含む場合に、送信先情報に基づいて前記障害情報の少なくとも一部を管理者端末に送信する請求項1に記載のコンピュータ。
The system management controller
2. The computer according to claim 1, wherein when the failure information includes information indicating a failure designated by notification setting, at least a part of the failure information is transmitted to an administrator terminal based on transmission destination information.
ネットワークに接続される第1のコンピュータと前記ネットワークに接続される管理用コンピュータとを含むコンピュータシステムであって、
前記第1のコンピュータは、
第1の記憶部と、
前記第1のコンピュータにハードウェア障害が発生した場合に前記ハードウェア障害の内容を示す障害情報を生成する生成手段と、
前記障害情報が生成された場合に第1の指示信号を発行する発行手段と、
前記発行手段からの前記第1の指示信号の受信に応じて前記障害情報を前記第1の記憶部に格納するシステム管理コントローラと、
前記障害情報の前記第1の記憶部への格納に失敗した場合に前記障害情報を前記管理用コンピュータに送信する送信手段とを具備し、
前記管理用コンピュータは、
第2の記憶部と、
前記障害情報を前記第2の記憶部に格納するシステム管理手段を具備するコンピュータシステム。
A computer system comprising a first computer connected to a network and a management computer connected to the network,
The first computer is
A first storage unit;
Generating means for generating fault information indicating the contents of the hardware fault when a hardware fault occurs in the first computer;
Issuing means for issuing a first instruction signal when the failure information is generated;
A system management controller that stores the failure information in the first storage unit in response to reception of the first instruction signal from the issuing means;
Transmission means for transmitting the failure information to the management computer when storage of the failure information in the first storage unit fails,
The management computer is:
A second storage unit;
A computer system comprising system management means for storing the failure information in the second storage unit.
前記システム管理コントローラは、
前記障害情報が通知設定によって指定された障害を示す情報を含む場合に、送信先情報に基づいて前記障害情報の少なくとも一部を管理者端末に送信する請求項に記載のコンピュータシステム。
The system management controller
The computer system according to claim 3 , wherein when the failure information includes information indicating a failure specified by notification setting, at least a part of the failure information is transmitted to an administrator terminal based on transmission destination information.
前記管理用コンピュータは、前記通知設定と前記送信先情報とを取得する取得手段を更に具備し、
前記システム管理手段は、前記障害情報が前記取得した通知設定によって指定された障害を示す情報を含む場合に、前記取得した送信先情報に基づいて前記障害情報の少なくとも一部を前記管理者端末に送信する請求項に記載のコンピュータシステム。
The management computer further comprises acquisition means for acquiring the notification setting and the transmission destination information,
When the failure information includes information indicating a failure specified by the acquired notification setting, the system management unit sends at least a part of the failure information to the administrator terminal based on the acquired transmission destination information. The computer system according to claim 4 for transmitting.
前記コンピュータシステムは、前記ネットワークに接続される第2のコンピュータを更に具備し、
前記第2のコンピュータは、
第3の記憶部と、
前記第2のコンピュータにハードウェア障害が発生した場合に前記ハードウェア障害の内容を示す第2の障害情報を生成する生成手段と、
前記第2の障害情報が生成された場合に第2の指示信号を発行する第1の発行手段と、
前記第1の発行手段からの前記第2の指示信号の受信に応じて前記第2の障害情報を前記第3の記憶部に格納する第2のシステム管理コントローラと、
前記第2の障害情報の前記第3の記憶部への格納に失敗した場合に前記第2の障害情報を前記管理用コンピュータに送信する送信手段とを具備し、
前記管理用コンピュータは、前記第2の障害情報を前記第2の記憶部に格納する請求項記載のコンピュータシステム。
The computer system further comprises a second computer connected to the network,
The second computer is
A third storage unit;
Generating means for generating second fault information indicating a content of the hardware fault when a hardware fault occurs in the second computer;
First issuing means for issuing a second instruction signal when the second failure information is generated;
A second system management controller that stores the second failure information in the third storage unit in response to reception of the second instruction signal from the first issuing means;
Transmission means for transmitting the second failure information to the management computer when storage of the second failure information in the third storage unit fails,
The computer system according to claim 3 , wherein the management computer stores the second failure information in the second storage unit.
ネットワークに接続される第1のコンピュータと前記ネットワークに接続される管理用コンピュータとを含むコンピュータシステムによる障害情報管理方法であって、
前記第1のコンピュータが、前記第1のコンピュータにハードウェア障害が発生した場合に前記ハードウェア障害の内容を示す障害情報を生成し、
前記第1のコンピュータが、前記障害情報が生成された場合に第1の指示信号を発行し、
前記第1のコンピュータに設けられたシステム管理コントローラが、前記第1の指示信号の受信に応じて前記障害情報を前記第1のコンピュータに設けられた第1の記憶部に格納し、
前記障害情報の前記第1の記憶部への格納に失敗した場合に、前記システム管理コントローラが、前記障害情報を前記管理用コンピュータに送信し、
前記管理用コンピュータが、前記障害情報を前記管理用コンピュータに設けられた第2の記憶部に格納する障害情報管理方法。
A failure information management method by a computer system including a first computer connected to a network and a management computer connected to the network,
The first computer generates failure information indicating a content of the hardware failure when a hardware failure occurs in the first computer;
The first computer issues a first instruction signal when the failure information is generated;
A system management controller provided in the first computer stores the failure information in a first storage unit provided in the first computer in response to receiving the first instruction signal;
When storing the failure information in the first storage unit fails, the system management controller sends the failure information to the management computer,
A failure information management method in which the management computer stores the failure information in a second storage unit provided in the management computer.
JP2011256512A 2011-11-24 2011-11-24 Computer, computer system, and failure information management method Expired - Fee Related JP5689783B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011256512A JP5689783B2 (en) 2011-11-24 2011-11-24 Computer, computer system, and failure information management method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011256512A JP5689783B2 (en) 2011-11-24 2011-11-24 Computer, computer system, and failure information management method

Publications (2)

Publication Number Publication Date
JP2013109722A JP2013109722A (en) 2013-06-06
JP5689783B2 true JP5689783B2 (en) 2015-03-25

Family

ID=48706377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011256512A Expired - Fee Related JP5689783B2 (en) 2011-11-24 2011-11-24 Computer, computer system, and failure information management method

Country Status (1)

Country Link
JP (1) JP5689783B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018173854A (en) * 2017-03-31 2018-11-08 日本電気株式会社 Information processing device, computer system, monitoring system architecture method and computer program

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6352627B2 (en) * 2013-12-11 2018-07-04 Necプラットフォームズ株式会社 Computer system and operation method thereof
US9043638B1 (en) * 2014-11-14 2015-05-26 Quanta Computer Inc. Method for enhancing memory fault tolerance
CN110502399B (en) * 2019-08-23 2023-09-01 广东浪潮大数据研究有限公司 Fault detection method and device

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7594144B2 (en) * 2006-08-14 2009-09-22 International Business Machines Corporation Handling fatal computer hardware errors
WO2008035766A1 (en) * 2006-09-21 2008-03-27 Autonetworks Technologies, Ltd. Electronic control system and electronic control device
JP5003313B2 (en) * 2007-07-02 2012-08-15 日本電気株式会社 Log collection system, log collection method, and node
JP4909870B2 (en) * 2007-10-26 2012-04-04 株式会社日立製作所 Fault log management method
JP5050014B2 (en) * 2009-07-30 2012-10-17 富士通テレコムネットワークス株式会社 Network monitoring system
JP2011070655A (en) * 2009-08-24 2011-04-07 Toshiba Corp Information processing apparatus, memory dump system and memory dump method
JP2011210064A (en) * 2010-03-30 2011-10-20 Nec Corp Log information collection system, device, method and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018173854A (en) * 2017-03-31 2018-11-08 日本電気株式会社 Information processing device, computer system, monitoring system architecture method and computer program

Also Published As

Publication number Publication date
JP2013109722A (en) 2013-06-06

Similar Documents

Publication Publication Date Title
US9954727B2 (en) Automatic debug information collection
TWI632462B (en) Switching device and method for detecting i2c bus
TWI229796B (en) Method and system to implement a system event log for system manageability
US7594144B2 (en) Handling fatal computer hardware errors
US7373551B2 (en) Method to provide autonomic boot recovery
KR101540129B1 (en) Remote access diagnostic device and methods thereof
US20150106660A1 (en) Controller access to host memory
US8108582B2 (en) Notifying asynchronous events to a host of a data storage system and apparatus for the same
US8667337B2 (en) Storage apparatus and method of controlling the same
CN104639380A (en) Server monitoring method
US8560688B2 (en) Monitoring sensors for systems management
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
JP2015114873A (en) Information processor and monitoring method
CN114600088A (en) Server state monitoring system and method using baseboard management controller
JP5689783B2 (en) Computer, computer system, and failure information management method
US20130166894A1 (en) Computer system and detecting-alarming method thereof
WO2017072904A1 (en) Computer system and failure detection method
TWI529525B (en) System and method for handling system failure
US11226862B1 (en) System and method for baseboard management controller boot first resiliency
JP2010003132A (en) Information processor, and fault detection method of input/output device thereof, and program thereof
US20240012651A1 (en) Enhanced service operating system capabilities through embedded controller system health state tracking
US20230112143A1 (en) Rapid appraisal of nic status for high-availability servers
US11797368B2 (en) Attributing errors to input/output peripheral drivers
JP5832408B2 (en) Virtual computer system and control method thereof
US20240086288A1 (en) Privacy and security assurance during operating system crash events

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131205

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131212

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131219

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131226

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140930

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150129

LAPS Cancellation because of no payment of annual fees