JP5689783B2 - Computer, computer system, and failure information management method - Google Patents
Computer, computer system, and failure information management method Download PDFInfo
- Publication number
- JP5689783B2 JP5689783B2 JP2011256512A JP2011256512A JP5689783B2 JP 5689783 B2 JP5689783 B2 JP 5689783B2 JP 2011256512 A JP2011256512 A JP 2011256512A JP 2011256512 A JP2011256512 A JP 2011256512A JP 5689783 B2 JP5689783 B2 JP 5689783B2
- Authority
- JP
- Japan
- Prior art keywords
- computer
- failure information
- failure
- storage unit
- management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
本発明の実施形態は、コンピュータに生じたハードウェア障害を確実に記録するためのコンピュータ、コンピュータシステム、および障害情報管理方法に関する。 Embodiments described herein relate generally to a computer, a computer system, and a failure information management method for reliably recording a hardware failure that has occurred in a computer.
コンピュータに発生した障害を管理するためのシステム管理コントローラをマザーボード上に設けることが行われている。障害が発生した場合に、システム管理コントローラは、障害の内容を示す障害情報を不揮発性メモリに格納する。後に、管理者が障害情報を解析することによって、障害の原因を容易に特定することが可能になる。 A system management controller for managing a failure occurring in a computer is provided on a motherboard. When a failure occurs, the system management controller stores failure information indicating the content of the failure in the nonvolatile memory. Later, the administrator can easily identify the cause of the failure by analyzing the failure information.
管理コントローラが故障したり、不揮発性メモリが故障したりすると、障害情報を不揮発性メモリに記録することができず、障害情報を管理することができない。そこで、障害情報を管理することができない場合であっても、後に発生した障害を解析するために障害を障害の情報を管理することが望まれている。 If the management controller fails or the nonvolatile memory fails, failure information cannot be recorded in the nonvolatile memory, and failure information cannot be managed. Therefore, even when failure information cannot be managed, it is desired to manage failure information for failure in order to analyze a failure that occurred later.
本発明の目的は、システム管理コントローラが障害の情報を管理することができない場合であっても、障害の情報を管理することが可能なコンピュータ、コンピュータシステム、および障害情報管理方法を提供することにある。 An object of the present invention is to provide a computer, a computer system, and a failure information management method capable of managing failure information even when the system management controller cannot manage the failure information. is there.
実施形態によれば、コンピュータは、ネットワークに接続される第1のコンピュータと管理用コンピュータとを含むコンピュータシステムであって、前記第1のコンピュータは、第1の記憶部と、前記第1のコンピュータにハードウェア障害が発生した場合に第1の割り込み通知を発行する第1の発行手段と、前記第1の割り込み通知の発行に応じて前記ハードウェア障害の内容を収集し、前記収集された内容に基づいた第1の障害情報を生成する生成手段と、前記第1の障害情報が生成された場合に第2の割り込み命令を発行する第2の発行手段と、前記第2の割り込み命令が発行された場合に、前記第1の障害情報を取得し、前記第1の障害情報を前記第1の記憶部に記録するシステム管理コントローラと、前記システム管理用コントローラが前記第1の障害情報を前記第1の記憶部に記録できなかった場合に前記第1の障害情報を前記管理用コンピュータに通知する通知手段とを具備し、前記管理用コンピュータは、第2の記憶部と、前記第1の障害情報が通知された場合に、前記第1の障害情報を前記第2の記憶部に書き込むシステム管理手段を具備する。 According to the embodiment, the computer is a computer system including a first computer connected to a network and a management computer, wherein the first computer includes a first storage unit and the first computer. First issue means for issuing a first interrupt notification when a hardware failure occurs, collecting the content of the hardware failure in response to the issue of the first interrupt notification, and collecting the collected content Generating means for generating first failure information based on the first issue information, second issue means for issuing a second interrupt instruction when the first failure information is generated, and issuing the second interrupt instruction A system management controller that acquires the first failure information and records the first failure information in the first storage unit, and the system management controller. And a notification means for notifying the management computer of the first failure information when the first failure information cannot be recorded in the first storage unit. Two storage units, and system management means for writing the first failure information into the second storage unit when the first failure information is notified.
以下、実施の形態について図面を参照して説明する。 Hereinafter, embodiments will be described with reference to the drawings.
図1は、一実施形態のコンピュータシステムの構成を示すブロック図である。
図1に示すように、コンピュータシステムは、LAN(Local Area Network)に接続された管理用サーバコンピュータ10、第1のサーバコンピュータ20A、および第2のサーバコンピュータ20B等から構成されている。
FIG. 1 is a block diagram illustrating a configuration of a computer system according to an embodiment.
As shown in FIG. 1, the computer system includes a
サーバコンピュータ20(第1のサーバコンピュータ20A、第2のサーバコンピュータ20B)の構成を図2を参照して説明する。
サーバコンピュータ20は、第1のNIC(Network Interface Card)21、第2のNIC22、ネットワークコントローラ23、システム管理コントローラとしてのBMC(Baseboard Management Controller)24、不揮発性メモリ(NVRAM:Non-volatile memory)25、およびフラッシュROM26等を備えている。
The configuration of the server computer 20 (
The
ネットワークコントローラ23は、OSI参照モデルのデータリンク層に相当する機能を有する。第1のNIC21および第2のNIC22は、例えばOSI参照モデルの物理層チップである。第2のNIC22は、後述するBMC24に設けられている。なお、第1のNIC21は、サーバコンピュータ20によって実行されるアプリケーションプログラム等が使用する。
The
BMC24は、サーバコンピュータ20内に設けられたセンサを用いてハードウェアを常時監視する。そして、ハードウェア障害が発生した場合に、発生した障害の内容をNVRAM25内のSEL(System Event Log)251に書き込む。また、BMC24は、発生した障害の内容を予め設定された管理者端末30に通知する。BMC24は、例えば管理者のメールアドレス宛にメールを送ることで、発生した障害の内容を管理者に通知する。また、BMC24は、発生した障害の内容を含むメッセージをSNMP(Simple Network Management Protocol)で送ることで、発生した障害の内容を予め設定された管理者端末30に通知する。
The BMC 24 constantly monitors hardware using a sensor provided in the
BMC24はコンピュータ(サーバ)のマザーボード上に配置され、IPMI(Intelligent Platform Management Interface)アーキテクチャに基づく特殊なマイクロコントローラである。BMC24は、CPU(OS)が動作していなくても、電源さえあれば動作する。図示しないコンピュータに内蔵された異なるタイプのセンサは、温度、冷却ファン回転速度、電源状態、OS状態等に関するパラメータをBMC24に報告する。BMC24はセンサを監視し、いずれかのパラメータが許容範囲外となると、システムの動作不良の可能性を、ネットワークを介して管理者端末30に通知する。
The BMC 24 is a special microcontroller that is arranged on a motherboard of a computer (server) and is based on an IPMI (Intelligent Platform Management Interface) architecture. Even if the CPU (OS) is not operating, the BMC 24 operates as long as there is a power source. Different types of sensors built into the computer (not shown) report parameters related to temperature, cooling fan rotation speed, power supply state, OS state, etc. to the BMC 24. The BMC 24 monitors the sensor, and when any parameter falls outside the allowable range, the BMC 24 notifies the
NVMRAM25には、SEL(System Event Log)251、SDR(Sensor Data Records)252、およびPEF(Platform Event Filtering)253が書き込まれている。NVRAM25は、シリアルバス接続タイプのEEPROM(Electrically Erasable and Programmable Read Only Memory)またはフラッシュメモリである。SEL251には、例えばBMC24により情報処理装置の異常を検出した場合、又はセンサで閾値を超えるエラーを検出した場合、障害の内容が記録される。SDR252には、BMC24が管理しているセンサの種類(温度や電圧等)や、異常を識別する為の閾値などが製造時に記録されている。PEF253には、障害が発生した場合に、管理者端末30に通知を行う障害の種類の設定が記録されている。
In the NVMRAM 25, a system event log (SEL) 251, a sensor data record (SDR) 252, and a platform event filtering (PEF) 253 are written. The NVRAM 25 is a serial bus connection type EEPROM (Electrically Erasable and Programmable Read Only Memory) or flash memory. For example, when an abnormality of the information processing apparatus is detected by the BMC 24 or when an error exceeding a threshold is detected by the sensor, the content of the failure is recorded in the
フラッシュROM26内には、BIOS(基本入出力システム:Basic Input Output System)261が格納されている。BIOS261は、CPUによって実行されるハードウェア制御のためのシステムプログラムである。BIOS261は、SMI(System Management Interrupt)イベントの発行時に、CPUによって実行されるSMIハンドラ262を有する。
A BIOS (Basic Input / Output System) 261 is stored in the
なお、SMIハンドラ262は、図3に示すように、障害情報生成モジュール2621、障害情報格納指示モジュール2622、および障害情報送信モジュール2623等のプログラムを有する。
As shown in FIG. 3, the
障害情報生成モジュール2621は、サーバコンピュータにハードウェア障害が発生した場合に、ハードウェア障害の内容に基づいて障害情報を生成する。障害情報が生成された場合に、指示発行モジュール2622は、BMC24に対して障害情報のNVRAM25への格納を指示するための指示信号を送信する。障害情報送信モジュール2623は、障害情報のNVRAM25への格納に失敗した場合に、障害情報を管理用サーバコンピュータ10によって管理させるために、障害情報を管理用サーバコンピュータ10に送信する。
The failure
サーバコンピュータ20のより詳細なシステム構成を、図4を参照して説明する。
本コンピュータ20は、図3に示されているように、CPU101、ノースブリッジ102、主メモリ103、サウスブリッジ104、グラフィクスプロセッシングユニット(GPU)105、ビデオメモリ(VRAM)105A、サウンドコントローラ106、フラッシュROM26、ネットワークコントローラ23、BMC24、NVRAM25、ハードディスクドライブ(HDD)111、およびPCIデバイス115等を備えている。
A more detailed system configuration of the
As shown in FIG. 3, the
CPU101は本コンピュータ10の動作を制御するプロセッサである。CPU101は、ハードディスクドライブ(HDD)111から主メモリ103にロードされる、オペレーティングシステムや各種アプリケーションプログラムを実行する。また、CPU101は、フラッシュROM109に格納されたBIOS(Basic Input Output System)261も実行する。BIOS261はハードウェア制御のためのプログラムである。
The
ノースブリッジ102は、CPU101のローカルバスとサウスブリッジ104との間を接続するブリッジデバイスである。ノースブリッジ102には、主メモリ103をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ102は、PCI EXPRESS規格のシリアルバスなどを介して、GPU105との通信を実行する機能も有している。
The
GPU105は、本コンピュータ10のディスプレイモニタを制御する表示コントローラである。GPU105は、VRAM105Aをワークメモリとして使用する。このGPU105によって生成される映像信号は、ディスプレイモニタに送られる。
The GPU 105 is a display controller that controls the display monitor of the
サウスブリッジ104は、LPC(Low Pin Count)バス上の各デバイス、およびPCI(Peripheral Component Interconnect)バス上の各デバイス115A、115Bを制御する。また、サウスブリッジ104は、ハードディスクドライブ(HDD)111およびDVDドライブ112を制御するためのIDE(Integrated Drive Electronics)コントローラを内蔵している。さらに、サウスブリッジ104は、サウンドコントローラ106との通信を実行する機能も有している。
The
更に、第1の発行手段としてのサウスブリッジ104は、PCIバス14上のPERR(パリティエラー)信号やSERR(システムエラー)信号の検出に伴い、SMI(System Management Interrupts)イベントをCPUに発行する回路を内蔵する。
Further, the
サウンドコントローラ106は音源デバイスであり、再生対象のオーディオデータをスピーカ18A,18Bに出力する。
The
センサ241は、サウスブリッジ104から発行されたシステムエラー信号(SERR信号)/パリティエラー信号(PERR信号)の発行やCPUの温度等を監視する。センサ241は、BMC24により、所定間隔毎にポーリングされる。
The
次に、管理用サーバコンピュータ10のCPUによって実行されるソフトウェアプログラムの構成について図5を参照して説明する。管理用サーバコンピュータ10内では、BMC代理プログラム501が実行される。BMC代理プログラム501では、BMCマネージャ502、第1の仮想BMC503A、および第2の仮想BMC503Bが実行される。また、管理用サーバコンピュータ10は、記憶装置510を有する。
Next, the configuration of the software program executed by the CPU of the
第1の仮想BMC503Aは、第1のサーバコンピュータ20A内のBMCの機能を実行する。第2の仮想BMC503Bは、第2のサーバコンピュータ20B内のBMCの機能を実行する。管理マネージャは501、障害情報を送信したサーバに対応する仮想BMCに送信する。
The first
正常運用時、BMCマネージャ502は、各サーバコンピュータの第2のNIC22を経由して、BMC24からSDR252、PEF253、BMC専用LANポートの構成情報(トラップの送信先など)をポーリングして取得する。
During normal operation, the
BMCマネージャ502は、取得したSDRおよびPEFを、取得したサーバコンピュータに対応する仮想BMCに関連づけられた記憶装置510内のフォルダ(511Aまたは511B)内に記録する。また、BMCマネージャ502は、BMC専用LANポートの構成情報を対応する仮想BMCに設定する。
BMCマネージャ502は、SMIハンドラ262に、BMC故障時のSMIイベントの送信先として、管理用サーバコンピュータ10を登録しておく。
The
The
サーバコンピュータにハードウェア障害が発生し、正常にNVRAMに障害情報が書き込まれる場合の動作を説明する。 An operation when a hardware failure occurs in the server computer and the failure information is normally written in the NVRAM will be described.
センサ241は、PCIバス114上のPCIデバイスが発行したSERR信号/PERR信号を検出する。センサ241は、SERR信号/PERR信号を検出した場合、サウスブリッジ104に対して、SMI信号をCPU101に出力するように指示する。サウスブリッジ104は、センサ241からの指示に従い、CPU101に対して、SMI信号を出力する。SMI信号に応じて、SMIハンドラ262が起動する。
The
SMI信号に応答して、起動されたSMIハンドラ262内の障害情報生成モジュール2621は、PCIバス114上のどのデバイスが、SERR信号/PERR信号を出力したかを示す情報を検出する。
In response to the SMI signal, the fault
障害情報生成モジュール2621は、検出された情報に基づいて、エラーの種類(SERR信号/PERR信号)、エラーを発行・検出したデバイスのバス番号、ファンクション番号、デバイス番号を含む第1の障害情報を生成する。
Based on the detected information, the failure
第1の障害情報が生成されると、障害情報格納指示モジュール2622は、BMC24に第1の障害情報のNVRAM25への格納を指示するための指示信号を送信する。
When the first failure information is generated, the failure information
BMC24は、指示信号の受信に応じて、第1の障害情報をSMIハンドラ262から取得する。そして、第1の障害情報に、エラーイベントとして、イベントの通し番号、センサの種類と時刻等の付加情報を付加した第2の障害情報をSEL251に記録する。
The
BMC24は、PEF253に発生した障害が設定されている場合に、第2のNIC22から予め設定されている管理者端末30にトラップを送信する。
The
以上が、BMCおよびNVRAMが故障していない状態で、サーバコンピュータのハードウエアに障害が生じた場合の動作である。 The above is the operation when a failure occurs in the hardware of the server computer while the BMC and NVRAM are not broken down.
BMCまたはNVRAMが故障している状態で、SMIイベントが発行された場合のSMIハンドラの動作を、図6のフローチャートを参照して説明する。 The operation of the SMI handler when an SMI event is issued in a state where the BMC or NVRAM is faulty will be described with reference to the flowchart of FIG.
センサ241は、PCIバス114上のPCIデバイスが発行したSERR信号/PERR信号を検出する。センサ241は、SERR信号/PERR信号を検出した場合、サウスブリッジ104に対して、SMI信号をCPU101に出力するように指示する。サウスブリッジ104は、センサ241からの指示に従い、CPU101に対して、SMI信号を出力する。SMI信号に応じて(ステップB601)、SMIハンドラ262が起動する。
The
SMI信号に応答して、起動されたSMIハンドラ262内の障害情報生成モジュール2621は、PCIバス114上のどのデバイスが、SERR信号/PERR信号を出力したかを検出する(ステップB602)。
In response to the SMI signal, the fault
障害情報生成モジュール2621は、収集された情報に基づいて、エラーの種類(SERR信号/PERR信号)、エラーを発行・検出したデバイスのバス番号、ファンクション番号、デバイス番号を含む第1の障害情報を生成する(ステップB603)。
The failure
第1の障害情報が生成されると、障害情報格納指示モジュール2622は、BMC24に第1の障害情報を記録を指示するためのSMIイベントを発行する(ステップB604)。
When the first failure information is generated, the failure information
NVRAM25が故障している場合、BMCがSMIハンドラにSEL251に第1の障害情報が記録できなかったことを示すエラー通知を発行する。また、BMCが故障している場合、SMIハンドラが第1の障害情報を記録するように指示してから一定時間経過するまでにBMCからの応答が無い場合に、SMIハンドラは、SELに障害情報が書き込まれなかったと判断する(ステップB605)。
If the
SEL251に障害情報が書き込まれなかった場合、SMIハンドラ262の障害情報送信モジュール2623は、通常のLANポート(NIC1)を経由して、管理用サーバコンピュータ10のアプリケーションプログラムに、第1の障害情報を含むメッセージを送信する(ステップB606)。メッセージ内には、当該メッセージを送ったサーバを示す送信元情報が格納されている。
When failure information is not written in the
次に、メッセージを受け取ったBMC代理プログラム501の動作を、図7のフローチャートを参照して説明する。
Next, the operation of the
BMCマネージャ502が、第1のサーバコンピュータ20Aから送信された第1の障害情報を含むメッセージを受け取る(ステップB701)。
The
BMCマネージャは、メッセージから第1の障害情報と送信元情報とをそれぞれ抽出し、メッセージに含まれる送信元情報に基づいて、第1の障害情報を第1の仮想BMCに送る(ステップB702)。 The BMC manager extracts the first failure information and the transmission source information from the message, and sends the first failure information to the first virtual BMC based on the transmission source information included in the message (step B702).
第1の仮想BMCは、第1の障害情報を含む第3の障害情報を、第1のサーバコンピュータに対応する第1の仮想BMC503Aに関連づけられているフォルダ511A内のSEL251Aに書き込む(ステップB703)。
The first virtual BMC writes the third failure information including the first failure information to the
第1の仮想BMC503Aは、第1のサーバコンピュータ20Aに発生した障害が、PEFに設定されているかを判定する(ステップB704)。障害が、設定されていると判定した場合(ステップB704のYes)、第1の障害情報に含まれている情報の内、少なくとも一部を含む第4の障害情報にトラップを送信する(ステップB705)。障害が、設定されていないと判定した場合(ステップB704のNo)は、処理を終了する。また、トラップを送信した場合(ステップB705)も、処理を終了する。
The first
本実施形態によれば、BMCまたはNVRAMが故障し、サーバコンピュータに発生した障害の内容をNVRAMに記録することができ無い状態であっても、管理用サーバコンピュータ10内の記憶装置に障害の内容を書き込むことが出来る。このため、障害発生時の解析に有効となる。また、トラップを管理者端末30に送信することが可能になる。
According to this embodiment, even if the BMC or NVRAM fails and the content of the failure that has occurred in the server computer cannot be recorded in the NVRAM, the content of the failure in the storage device in the
なお、上記実施形態では、センサがサウスブリッジにSMIイベントの発行を指示していたが、センサによって検出された値が閾値を超えた場合に、BMCがサウスブリッジにSMIイベントの発行を指示するように構成しても良い。この場合、障害情報生成モジュール2621は、BMC24からハードウェア障害の内容を取得する。
In the above embodiment, the sensor instructs the South Bridge to issue an SMI event. However, when the value detected by the sensor exceeds a threshold, the BMC instructs the South Bridge to issue an SMI event. You may comprise. In this case, the failure
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.
10…管理用サーバコンピュータ、20A…第1のサーバコンピュータ、20B…第2のサーバコンピュータ、21…第1のNIC、22…第2のNIC、23…ネットワークコントローラ、24…BMC(システム管理コントローラ)、25…不揮発性メモリ(第1の記憶部)、101…CPU、104…サウスブリッジ、115A.115B…PCIデバイス、116…キーボードコントローラIC、262…SMIハンドラ、501…BMC代理プログラム、502…BMCマネージャ、503A…第1の仮想BMC、503B…第2の仮想BMC、510…記憶装置(第2の記憶部)。
DESCRIPTION OF
Claims (7)
記憶部と、
前記コンピュータにハードウェア障害が発生した場合に前記ハードウェア障害の内容を示す障害情報を生成する生成手段と、
前記障害情報が生成された場合に第1の指示信号を発行する発行手段と、
前記発行手段からの前記第1の指示信号の受信に応じて前記障害情報を前記記憶部に格納するシステム管理コントローラと、
前記障害情報の前記記憶部への格納に失敗した場合に前記障害情報を前記管理用コンピュータに送信する送信手段とを具備するコンピュータ。 A computer connected to a management computer via a network,
A storage unit;
Generating means for generating failure information indicating the content of the hardware failure when a hardware failure occurs in the computer;
Issuing means for issuing a first instruction signal when the failure information is generated;
A system management controller that stores the failure information in the storage unit in response to reception of the first instruction signal from the issuing means;
A computer comprising: transmission means for transmitting the failure information to the management computer when storage of the failure information in the storage unit fails.
前記障害情報が通知設定によって指定された障害を示す情報を含む場合に、送信先情報に基づいて前記障害情報の少なくとも一部を管理者端末に送信する請求項1に記載のコンピュータ。 The system management controller
2. The computer according to claim 1, wherein when the failure information includes information indicating a failure designated by notification setting, at least a part of the failure information is transmitted to an administrator terminal based on transmission destination information.
前記第1のコンピュータは、
第1の記憶部と、
前記第1のコンピュータにハードウェア障害が発生した場合に前記ハードウェア障害の内容を示す障害情報を生成する生成手段と、
前記障害情報が生成された場合に第1の指示信号を発行する発行手段と、
前記発行手段からの前記第1の指示信号の受信に応じて前記障害情報を前記第1の記憶部に格納するシステム管理コントローラと、
前記障害情報の前記第1の記憶部への格納に失敗した場合に前記障害情報を前記管理用コンピュータに送信する送信手段とを具備し、
前記管理用コンピュータは、
第2の記憶部と、
前記障害情報を前記第2の記憶部に格納するシステム管理手段を具備するコンピュータシステム。 A computer system comprising a first computer connected to a network and a management computer connected to the network,
The first computer is
A first storage unit;
Generating means for generating fault information indicating the contents of the hardware fault when a hardware fault occurs in the first computer;
Issuing means for issuing a first instruction signal when the failure information is generated;
A system management controller that stores the failure information in the first storage unit in response to reception of the first instruction signal from the issuing means;
Transmission means for transmitting the failure information to the management computer when storage of the failure information in the first storage unit fails,
The management computer is:
A second storage unit;
A computer system comprising system management means for storing the failure information in the second storage unit.
前記障害情報が通知設定によって指定された障害を示す情報を含む場合に、送信先情報に基づいて前記障害情報の少なくとも一部を管理者端末に送信する請求項3に記載のコンピュータシステム。 The system management controller
The computer system according to claim 3 , wherein when the failure information includes information indicating a failure specified by notification setting, at least a part of the failure information is transmitted to an administrator terminal based on transmission destination information.
前記システム管理手段は、前記障害情報が前記取得した通知設定によって指定された障害を示す情報を含む場合に、前記取得した送信先情報に基づいて前記障害情報の少なくとも一部を前記管理者端末に送信する請求項4に記載のコンピュータシステム。 The management computer further comprises acquisition means for acquiring the notification setting and the transmission destination information,
When the failure information includes information indicating a failure specified by the acquired notification setting, the system management unit sends at least a part of the failure information to the administrator terminal based on the acquired transmission destination information. The computer system according to claim 4 for transmitting.
前記第2のコンピュータは、
第3の記憶部と、
前記第2のコンピュータにハードウェア障害が発生した場合に前記ハードウェア障害の内容を示す第2の障害情報を生成する生成手段と、
前記第2の障害情報が生成された場合に第2の指示信号を発行する第1の発行手段と、
前記第1の発行手段からの前記第2の指示信号の受信に応じて前記第2の障害情報を前記第3の記憶部に格納する第2のシステム管理コントローラと、
前記第2の障害情報の前記第3の記憶部への格納に失敗した場合に前記第2の障害情報を前記管理用コンピュータに送信する送信手段とを具備し、
前記管理用コンピュータは、前記第2の障害情報を前記第2の記憶部に格納する請求項3記載のコンピュータシステム。 The computer system further comprises a second computer connected to the network,
The second computer is
A third storage unit;
Generating means for generating second fault information indicating a content of the hardware fault when a hardware fault occurs in the second computer;
First issuing means for issuing a second instruction signal when the second failure information is generated;
A second system management controller that stores the second failure information in the third storage unit in response to reception of the second instruction signal from the first issuing means;
Transmission means for transmitting the second failure information to the management computer when storage of the second failure information in the third storage unit fails,
The computer system according to claim 3 , wherein the management computer stores the second failure information in the second storage unit.
前記第1のコンピュータが、前記第1のコンピュータにハードウェア障害が発生した場合に前記ハードウェア障害の内容を示す障害情報を生成し、
前記第1のコンピュータが、前記障害情報が生成された場合に第1の指示信号を発行し、
前記第1のコンピュータに設けられたシステム管理コントローラが、前記第1の指示信号の受信に応じて前記障害情報を前記第1のコンピュータに設けられた第1の記憶部に格納し、
前記障害情報の前記第1の記憶部への格納に失敗した場合に、前記システム管理コントローラが、前記障害情報を前記管理用コンピュータに送信し、
前記管理用コンピュータが、前記障害情報を前記管理用コンピュータに設けられた第2の記憶部に格納する障害情報管理方法。 A failure information management method by a computer system including a first computer connected to a network and a management computer connected to the network,
The first computer generates failure information indicating a content of the hardware failure when a hardware failure occurs in the first computer;
The first computer issues a first instruction signal when the failure information is generated;
A system management controller provided in the first computer stores the failure information in a first storage unit provided in the first computer in response to receiving the first instruction signal;
When storing the failure information in the first storage unit fails, the system management controller sends the failure information to the management computer,
A failure information management method in which the management computer stores the failure information in a second storage unit provided in the management computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011256512A JP5689783B2 (en) | 2011-11-24 | 2011-11-24 | Computer, computer system, and failure information management method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011256512A JP5689783B2 (en) | 2011-11-24 | 2011-11-24 | Computer, computer system, and failure information management method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013109722A JP2013109722A (en) | 2013-06-06 |
JP5689783B2 true JP5689783B2 (en) | 2015-03-25 |
Family
ID=48706377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011256512A Expired - Fee Related JP5689783B2 (en) | 2011-11-24 | 2011-11-24 | Computer, computer system, and failure information management method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5689783B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018173854A (en) * | 2017-03-31 | 2018-11-08 | 日本電気株式会社 | Information processing device, computer system, monitoring system architecture method and computer program |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6352627B2 (en) * | 2013-12-11 | 2018-07-04 | Necプラットフォームズ株式会社 | Computer system and operation method thereof |
US9043638B1 (en) * | 2014-11-14 | 2015-05-26 | Quanta Computer Inc. | Method for enhancing memory fault tolerance |
CN110502399B (en) * | 2019-08-23 | 2023-09-01 | 广东浪潮大数据研究有限公司 | Fault detection method and device |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7594144B2 (en) * | 2006-08-14 | 2009-09-22 | International Business Machines Corporation | Handling fatal computer hardware errors |
WO2008035766A1 (en) * | 2006-09-21 | 2008-03-27 | Autonetworks Technologies, Ltd. | Electronic control system and electronic control device |
JP5003313B2 (en) * | 2007-07-02 | 2012-08-15 | 日本電気株式会社 | Log collection system, log collection method, and node |
JP4909870B2 (en) * | 2007-10-26 | 2012-04-04 | 株式会社日立製作所 | Fault log management method |
JP5050014B2 (en) * | 2009-07-30 | 2012-10-17 | 富士通テレコムネットワークス株式会社 | Network monitoring system |
JP2011070655A (en) * | 2009-08-24 | 2011-04-07 | Toshiba Corp | Information processing apparatus, memory dump system and memory dump method |
JP2011210064A (en) * | 2010-03-30 | 2011-10-20 | Nec Corp | Log information collection system, device, method and program |
-
2011
- 2011-11-24 JP JP2011256512A patent/JP5689783B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018173854A (en) * | 2017-03-31 | 2018-11-08 | 日本電気株式会社 | Information processing device, computer system, monitoring system architecture method and computer program |
Also Published As
Publication number | Publication date |
---|---|
JP2013109722A (en) | 2013-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9954727B2 (en) | Automatic debug information collection | |
TWI632462B (en) | Switching device and method for detecting i2c bus | |
TWI229796B (en) | Method and system to implement a system event log for system manageability | |
US7594144B2 (en) | Handling fatal computer hardware errors | |
US7373551B2 (en) | Method to provide autonomic boot recovery | |
KR101540129B1 (en) | Remote access diagnostic device and methods thereof | |
US20150106660A1 (en) | Controller access to host memory | |
US8108582B2 (en) | Notifying asynchronous events to a host of a data storage system and apparatus for the same | |
US8667337B2 (en) | Storage apparatus and method of controlling the same | |
CN104639380A (en) | Server monitoring method | |
US8560688B2 (en) | Monitoring sensors for systems management | |
US10275330B2 (en) | Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus | |
JP2015114873A (en) | Information processor and monitoring method | |
CN114600088A (en) | Server state monitoring system and method using baseboard management controller | |
JP5689783B2 (en) | Computer, computer system, and failure information management method | |
US20130166894A1 (en) | Computer system and detecting-alarming method thereof | |
WO2017072904A1 (en) | Computer system and failure detection method | |
TWI529525B (en) | System and method for handling system failure | |
US11226862B1 (en) | System and method for baseboard management controller boot first resiliency | |
JP2010003132A (en) | Information processor, and fault detection method of input/output device thereof, and program thereof | |
US20240012651A1 (en) | Enhanced service operating system capabilities through embedded controller system health state tracking | |
US20230112143A1 (en) | Rapid appraisal of nic status for high-availability servers | |
US11797368B2 (en) | Attributing errors to input/output peripheral drivers | |
JP5832408B2 (en) | Virtual computer system and control method thereof | |
US20240086288A1 (en) | Privacy and security assurance during operating system crash events |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131205 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131212 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131219 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131226 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140109 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140924 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140930 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150129 |
|
LAPS | Cancellation because of no payment of annual fees |