JP5495310B2 - 情報処理装置、障害解析方法及び障害解析プログラム - Google Patents

情報処理装置、障害解析方法及び障害解析プログラム Download PDF

Info

Publication number
JP5495310B2
JP5495310B2 JP2010005023A JP2010005023A JP5495310B2 JP 5495310 B2 JP5495310 B2 JP 5495310B2 JP 2010005023 A JP2010005023 A JP 2010005023A JP 2010005023 A JP2010005023 A JP 2010005023A JP 5495310 B2 JP5495310 B2 JP 5495310B2
Authority
JP
Japan
Prior art keywords
processor
failure
log
identification information
acquired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010005023A
Other languages
English (en)
Other versions
JP2011145824A (ja
Inventor
寿 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP2010005023A priority Critical patent/JP5495310B2/ja
Publication of JP2011145824A publication Critical patent/JP2011145824A/ja
Application granted granted Critical
Publication of JP5495310B2 publication Critical patent/JP5495310B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、情報処理装置、障害解析方法及び障害解析プログラムに関する。
プロセッサ、メモリ、ホストブリッジ、I/O(Input/Output)ブリッジ、I/O(Input/Output)デバイス等のハードウェア部品と、それらのハードウェア部品を管理・制御するBMC(Baseboard Management Controller)とを搭載したコンピュータサーバがある。コンピュータサーバは、例えば、1つのOS(Operating System)を動作させることによって、所望の処理を行う。このようなコンピュータサーバは、障害発生時に、障害原因となった故障個所を特定する事で高可用性、高保守性を実現することが求められている。
このようなコンピュータサーバにおいて、致命的な単一障害が発生した場合、コンピュータサーバ内の主要ハードウェア部品のログを収集して保持する。これは、収集したログを解析して、障害原因となった故障個所を特定して、特定した故障個所を縮退等することによって、OSレベルでのリカバリ処理を可能とするためである。ここで、単一障害とは、コンピュータサーバ内の特定の1箇所が故障したことによって、コンピュータサーバに引き起こされる障害のことである。
ハードウェア部品のログを収集・保持する場合、一般的に、プロセッサ上で動作するBIOS(Basic Input/Output System)がプロセッサのログを収集して保持し、プロセッサ以外の主要ハードウェア部品については、BMCがログを収集して保持する。これは、プロセッサのログに関しては、BIOSだけでしか収集することできない情報があるためである。例えば、プロセッサに含まれるコアの情報がこれに該当する。
そして、BIOSは、プロセッサから収集したログから故障個所を解析する。また、BMCは、プロセッサ以外のハードウェア部品から収集したログから故障個所を解析する。しかし、このように、単一障害が発生したときに、BMCとBIOSがハードウェア部品のログを分担して分散収集して保持し、BMCとBIOSが互いに独立して障害原因の解析を行う場合、障害原因となった故障個所を適確に特定することができない場合がある。例えば、プロセッサと、このプロセッサと通信するハードウェア部品の間のバスが故障している場合、BIOSが動作するプロセッサ側のログのみでは、通信相手のハードウェア部品が故障しているのか、バスが故障しているのか、特定することができない。
ここで、特許文献1には、情報ハンドリングシステムにおける回復可能なエラーをロギングするための装置が開示されている。この装置は、BIOSがステータスレジスタにおけるエラーを見つけた場合に、そのエラーをBMCに通信し、BMCを介してそのエラーをメモリユニットにログしている。
また、特許文献2には、関連する事象通知を容易に検索したり、さらに検索条件を付加して、診断情報と照合したりする作業を効率よく行うことを可能とするエラー情報処理装置が開示されている。エラー情報処理装置は、プログラムBの所定の処理中に何らかのエラーが検出されると、識別子を獲得した後、所定の診断情報を収集して識別子を付加して診断情報ファイルに書き出すとともに、識別子を設定した事象通知bをログファイルに格納する。また、獲得した識別子を復帰情報として呼び出し元のプログラムAに通知し、呼び出し元のプログラムAで副次的なエラーを認識すると、復帰情報として渡された識別子を設定した事象通知aをログファイルに格納する。
しかし、特許文献1、2に開示の技術は、いずれもハードウェア部品のログを分散して収集・保持する場合における問題を解決する具体的な手段を開示したものではない。
特許第2560892号公報 特開2007−109238号公報
背景技術として説明したように、プロセッサと、プロセッサ以外のハードウェア部品とで、別々にログを収集して故障個所を解析する場合、障害原因となった故障個所を適確に特定することができない場合があるという問題がある。
本発明の目的は、このような課題を解決するために、障害原因となった故障個所を適確に特定することを可能とする情報処理装置、障害解析方法及び障害解析プログラムを提供することである。
本発明の第1の態様にかかる情報処理装置は、第1の記憶部と、第2の記憶部と、プロセッサと、周辺デバイスと、管理部と、を備えた情報処理装置であって、前記管理部は、前記情報処理装置における障害を検出した場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、ログ取得要求とを前記プロセッサに出力するとともに、前記周辺デバイスから第1のログを取得して、取得した第1のログと、前記識別情報とを対応付けて前記第1の記憶部に格納し、前記プロセッサは、前記管理部から出力されたログ取得要求に応じて、自身から第2のログを取得して、取得した第2のログと、前記管理部から出力された識別情報とを対応付けて第2の記憶部に格納するものである。
本発明の第2の態様にかかる障害解析方法は、プロセッサと、周辺デバイスと、管理部と、を備えた情報処理装置における障害の原因を解析する障害解析方法であって、前記管理部が、前記情報処理装置における障害を検出した場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、ログ取得要求とを前記プロセッサに出力するステップと、前記管理部が、前記周辺デバイスから第1のログを取得して、取得した第1のログと、前記識別情報とを対応付けて前記第1の記憶部に格納するステップと、前記プロセッサが、前記管理部から出力されたログ取得要求に応じて、自身から第2のログを取得して、取得した第2のログと、前記管理部から出力された識別情報とを対応付けて第2の記憶部に格納するステップと、を備えたものである。
本発明の第3の態様にかかる障害解析方法は、プロセッサと、周辺デバイスと、を備えた情報処理装置における障害の原因を解析する障害解析プログラムであって、前記情報処理装置における障害を検出した場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、ログ取得要求とを前記プロセッサに出力するステップと、前記周辺デバイスから第1のログを取得して、取得した第1のログを解析して生成した第1の解析結果と、前記識別情報とを対応付けて記憶部に格納するステップと、前記プロセッサが、前記出力されたログ取得要求及び識別情報を取得して、当該ログ取得要求に応じて、自身から第2のログを取得して、取得した第2のログを解析して生成した第2の解析結果と、前記取得した識別情報とを出力した場合に、当該第2の解析結果及び識別情報を取得するステップと、前記取得した識別情報に対応付けられた第1の解析結果と、前記取得した第2の解析結果とを解析して、前記障害の原因となった故障個所を特定するステップと、を備えたものである。
本発明の第4の態様にかかる障害解析プログラムは、プロセッサと、周辺デバイスと、を備えた情報処理装置における障害の原因を解析する障害解析プログラムであって、前記情報処理装置における障害を検出した場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、ログ取得要求とを前記プロセッサに出力するステップと、前記周辺デバイスから第1のログを取得して、取得した第1のログを解析して生成した第1の解析結果と、前記識別情報とを対応付けて記憶部に格納するステップと、前記プロセッサが、前記出力されたログ取得要求及び識別情報を取得して、当該ログ取得要求に応じて、自身から第2のログを取得して、取得した第2のログを解析して生成した第2の解析結果と、前記取得した識別情報とを出力した場合に、当該第2の解析結果及び識別情報を取得するステップと、前記取得した識別情報に対応付けられた第1の解析結果と、前記取得した第2の解析結果とを解析して、前記障害の原因となった故障個所を特定するステップと、をコンピュータに実行させるものである。
上述した本発明の各態様により、障害原因となった故障個所を適確に特定することを可能とする情報処理装置、障害解析方法及び障害解析プログラムを提供することができる。
本発明の実施の形態にかかる情報処理装置の構成図である。 本発明の実施の形態にかかるコンピュータサーバの構成図である。 本発明の実施の形態にかかるコンピュータサーバの処理を示すフローチャートである。 本発明の実施の形態にかかるコンピュータサーバの処理を説明するための図である。 本発明の実施の形態にかかるログの格納例を示す図である。
図1を参照して、本発明の実施の形態にかかるコンピュータサーバの概要となる情報処理装置の構成について説明する。図1は、本発明の実施の形態にかかる情報処理装置の構成図である。
情報処理装置2は、管理部51と、プロセッサ52と、周辺デバイス53と、第1の記憶部54と、第2の記憶部55とを有する。
管理部51は、情報処理装置2における障害を検出した場合に、この障害と対応付けられた識別情報を生成する。そして、生成した識別情報と、ログ取得要求とをプロセッサ52に出力する。また、管理部51は、周辺デバイス53から第1のログを取得して、取得した第1のログと、生成した識別情報とを対応付けて第1の記憶部54に格納する。
プロセッサ52は、管理部51から出力されたログ取得要求に応じて、自身から第2のログを取得する。そして、取得した第2のログと、管理部51から出力された識別情報とを対応付けて第2の記憶部55に格納する。
周辺デバイス53は、例えば、ホストブリッジやI/Oブリッジ等のプロセッサ以外のLSIである。
第1の記憶部54は、管理部51が取得したログが格納される。
第2の記憶部55は、プロセッサ52が取得したログが格納される。
続いて、本発明の実施の形態にかかる情報処理装置の処理について説明する。
管理部51は、情報処理装置2における障害を検出した場合に、検出した障害と対応付けられた識別情報を生成する。そして、管理部51は、生成した識別情報と、ログ取得要求とをプロセッサ52に出力する。また、管理部51は、周辺デバイス53から第1のログを取得して、取得した第1のログと、生成した識別情報とを対応付けて第1の記憶部54に格納する。
プロセッサ52は、管理部51から出力されたログ取得要求と、識別情報とを取得する。プロセッサ52は、管理部51から出力されたログ取得要求を取得した場合、自身から第2のログを取得する。そして、プロセッサ52は、取得した第2のログと、管理部51から出力された識別情報とを対応付けて第2の記憶部55に格納する。
続いて、図2を参照して、本発明の実施の形態にかかるコンピュータサーバの構成について説明する。図2は、本発明の実施の形態にかかるコンピュータサーバの構成図である。
コンピュータサーバ1は、BMC(Baseboard Management Controller)10と、プロセッサ11、12と、メモリ13と、ホストブリッジ14と、I/Oブリッジ(Input/Output)15と、不揮発性メモリ16、17とを有する。
ホストブリッジ14は、プロセッサ11、12及びメモリ13と、システムバス31によって相互に接続されている。BMC10は、プロセッサ11、12、ホストブリッジ14及びI/Oブリッジ15と、管理バス32によって相互に接続されている。また、ホストブリッジ14は、拡張I/Oデバイス20、21と接続されている。また、I/Oブリッジ15は、ホストブリッジ14、I/Oデバイス22、23と接続されている。
BMC10は、コンピュータサーバ1に含まれるプロセッサ11、12、メモリ13、ホストブリッジ14及びI/Oブリッジ15等の主要ハードウェア部品を管理・制御する。BMC10は、例えば、CPU、メモリ等を有し、CPUによって所定のプログラムを実行することによって、ハードウェア部品を管理・制御する。つまり、BMC10は、所定のプログラムを実行することによって、後述するログの収集及び解析を行う。BMC10は、管理部51に相当する。
プロセッサ11、12は、メモリ13に格納されるOSやアプリケーションプログラム等の任意のプログラムを実行する。また、プロセッサ11、12は、BMC10からのログ取得要求に応じて、自身からログを収集する。ログには、例えば、自身が有するレジスタ等のハードウェアの値が含まれる。
メモリ13は、プロセッサ11、12が実行する任意のプログラムが格納される。
ホストブリッジ14は、プロセッサ11、12、メモリ13、I/Oブリッジ15及び拡張I/Oデバイス20、21間のデータ伝送を行う。
I/Oブリッジ15は、ホストブリッジ14、不揮発性メモリ17、I/Oデバイス22、23間のデータ転送を行う。プロセッサ11、12以外のホストブリッジ14、I/Oブリッジ15等のハードウェア部品は、周辺デバイス53に相当する。
不揮発性メモリ16、17は、BMC10又はプロセッサ11、12が収集したログが格納される。不揮発性メモリ16は、BMCによって管理される。不揮発性メモリ17は、BIOSによって管理される。不揮発性メモリ16は、第1の記憶部54に相当し、不揮発性メモリ17は、第2の記憶部55に相当する。
拡張I/Oデバイス20、21は、コンピュータサーバ1に追加される任意のI/Oデバイスである。
I/Oデバイス22、23は、例えば、ネットワークデバイス、DISKデバイス等の入出力装置である。
続いて、図3〜5を参照して、本発明の実施の形態にかかるコンピュータサーバの処理を説明する。図3は、本発明の実施の形態にかかるコンピュータサーバの処理を示すフローチャートである。より詳細には、図3は、本発明の実施の形態にかかるコンピュータサーバの分散ログ管理及び故障個所の解析(以下、「故障解析」とする)方法における、致命的な障害発生から故障解析までの処理を示すフローチャートである。図4は、本発明の実施の形態にかかるコンピュータサーバの処理順序を示す図である。なお、ここでは、プロセッサ11において致命的な障害を検知した場合の動作について説明する。
プロセッサ11は、致命的な障害を検出すると、管理バス32を介して、BMC10に障害発生を通知する(S100)。
BMC10は、プロセッサ11から障害発生が通知されると、自身が管理・保持しているevent tableに障害発生eventを登録すると共に、この障害発生eventに対応したevent IDを算出する(S101)。つまり、BMC10は、プロセッサ11から出力された障害発生の通知によって、プロセッサ11において発生した障害を検出する。ここで、event tableは、コンピュータサーバ1内で発生した様々なeventを時系列に保持しておくものである。したがって、例えば、障害発生eventとして、障害発生時刻、障害内容等を含んだ情報が格納される。また、event tableは、BMC10が有するメモリ等の記憶装置に格納するようにしてもよいし、不揮発性メモリ16に格納するようにしてもよい。
event IDは、event table内に保持された様々なeventを識別するためのIDである。event IDは、例えば、event tableのエントリ番号が使用される。しかし、event IDの算出方法はこれに限られず、一意な番号又は文字列等の情報を任意に生成するようにしてもよい。
BMC10は、event IDを算出した後、管理バス32を介して、ホストブリッジ14及びI/Oブリッジ15のログを収集する(S102)。つまり、BMC10は、プロセッサ11、12以外のログ(以下、「chipsetログ」とする)を収集する。chipsetログには、例えば、ホストブリッジ14及びI/Oブリッジ15が有するレジスタ等のハードウェアの値が含まれる。
BMC10は、chipsetログの収集を完了すると、管理バス32を介して、プロセッサ11、12に対し、BIOS呼び出しを行う。BIOS呼び出しは、例えば、BMC10が割り込み信号線(図示せず)を介して、BIOSの起動を要求する割り込み信号をプロセッサ11、12に出力し、その出力を受けたプロセッサ11、12がBIOSを起動することによって行う。また、BMC10が管理バス32を介して、BIOSの起動を要求する情報を出力するようにしてもよい。
また、BMC10は、ステップS101で算出したevent IDをプロセッサ11、12において起動されたBIOSに通知する(S103)。BMC10は、例えば、管理バス32を介して、event IDをプロセッサ11、12に出力することによって、event IDをBIOSに通知する。
BMC10は、ステップS102でホストブリッジ14、I/Oブリッジ15から収集したchipsetログについて故障解析を行う(S104)。そして、BMC10は、その解析結果を、ステップS101で算出したevent IDと対応付けて、一時的に保持しておく。ここで、解析結果は、BMC10が有する記憶装置に格納することによって保持するようにしてもよく、不揮発性メモリ16に格納することによって保持するようにしてもよい。
BMC10は、ステップS102でホストブリッジ14、I/Oブリッジ15から収集したchipsetログを、不揮発性メモリ16に格納する(S105)。この際、ステップS101で算出したevent IDをchipsetログと対応付けて格納する。これによって、後述するように、同一障害発生を契機にBIOSが収集したプロセッサのログと、chipsetログとを対応付けできるようにしている。
プロセッサ11、12で呼び出されたBIOSは、自身が動作するプロセッサのログ(以下、「Processorログ」とする)を収集する(S110)。Processorログには、例えば、プロセッサ11、12が有するレジスタ等のハードウェアの値が含まれる。
プロセッサ11、12で動作するBIOSは、ステップS110で収集したProcessorログに対して故障解析を行う。そして、BIOSは、管理バス32を介して、BMC10に解析結果を通知する(S111)。この際、ステップS103でBMC10から渡されたevent IDも同時に通知する。つまり、BIOSには、プロセッサに対してログの収集及び故障解析を行わせる命令が含まれており、プロセッサ11、12は、BIOSに含まれる命令を実行することによって、自身のログの収集及び故障解析を行う。なお、BIOSは、例えば、不揮発性メモリ17又はコンピュータサーバ1が有するROM(Read Only Memory)(図示せず)等の記憶装置に格納されており、プロセッサ11、12が記憶装置からロードすることによって実行される。
プロセッサ11、12で動作するBIOSは、自身が収集したProcessorログを、不揮発性メモリ17に格納する(S112)。この際、ステップS103でBMC10から渡されたevent IDをProcessorログと対応付けて同時に格納する。これによって、同一障害発生を契機にBMC10が収集したchipsetログと、Processorログとを対応付けできるようにしている。
BMC10は、ステップS104で自身が生成した解析結果と、ステップS111でプロセッサ11、12から渡された解析結果とに基づいて、再度故障解析を行う(S106)。具体的には、ステップS104で記憶装置に格納した解析結果のうち、ステップS111で解析結果とともに渡されたevent IDに対応付けられた解析結果と、プロセッサ11、12から渡された解析結果とに基づいて、再度故障解析を行う。これにより、同一障害発生契機に収集された全てのハードウェア部品を総合的・横断的に判断した故障解析が可能となり、故障解析における精度を向上することができる。
ここで、ステップS106の処理における例を詳細に説明する。まず、解析結果には、ログを故障解析によって特定した故障個所を示す情報と、特定した被疑箇所の確実性を示す補助的な中間情報を含む。例えば、プロセッサ11がホストブリッジ14間のシステムバス31が故障している場合、プロセッサ11は、ホストブリッジ14と通信できていなかったことをProcessorログから判断するが、システムバス31が故障している可能性もあるため、ホストブリッジ14を故障個所とし、故障個所が確実ではないとする中間情報を含んだ解析結果を生成する。また、その場合、BMC10は、プロセッサ11と通信できていなかったことをchipsetログから判断するが、プロセッサ11を故障個所とし、故障個所が確実ではないとする中間情報を含んだ解析結果を生成する。
よって、ステップS106で、双方の解析結果を突き合わせることによって、プロセッサ11とホストブリッジ14のそれぞれが相手と通信できていなかったことが判断できるため、プロセッサ11がホストブリッジ14間のシステムバス31が故障していると判断することができ、システムバス31を故障個所と特定することができる。また、この例における中間情報として、次に故障個所として可能性のあるシステムバス31を示す情報を解析結果に含めてもよい。このように、同一障害発生契機に収集された全てのハードウェア部品のログを総合的・横断的、かつ、自動的に判断した故障解析が可能となり、故障解析における精度を向上することができる。
続いて、図5を参照して、本発明の実施の形態にかかるログの格納例について説明する。図5は、本発明の実施の形態にかかるログの格納例を示す図である。
図5は、ステップS105、S112で、ハードウェア部品のログを格納する不揮発性メモリ16、17のそれぞれに格納されたログのデータ構造の一例を示したものである。このように、ログと対応付けてevent IDを格納しておくことで、後に不揮発性メモリ16、17からコンピュータサーバ1外へログを回収した場合でも、どのログ同士が同一障害発生に起因して収集されたものなのかを即座に判断することができる。つまり、対応付けられたevent IDが一致するログが同一障害発生に起因して収集されたものと判断することができる。その結果、同一障害発生契機に収集された全てのハードウェア部品のログが容易かつ確実に判断可能となるため、人手による故障解析時間を短縮することができ、総合的・横断的に判断する場合における故障解析における精度を向上することができる。
以上に説明したように、本実施の形態によれば、コンピュータサーバ内の単一障害に起因してBMCとBIOSが分担して分散収集・保持したログを同一のevent IDで対応付けて管理するようにしている。よって、分散収集・保持されたログをコンピュータサーバ外へ回収し、人手による障害原因究明を行う場合でも、どのログが同一障害発生に起因して収集されたものなのかevent IDを用いて容易かつ確実に判断することができる。そのため、人手による障害原因となった故障個所究明の時間短縮を図ることができ、総合的・横断的に故障解析する場合に、障害原因となった故障個所を適確に特定することを可能とする。
また、本実施の形態によれば、BMCとBIOSが分担して分散収集・保持したログのうち、同一のevent IDで対応付けたものから生成した解析結果のそれぞれに基づいて、再度故障解析を行うようにしている。そのため、同一障害発生契機に収集された全てのハードウェア部品のログを総合的・横断的、かつ、自動的に判断した故障解析が可能となり、故障解析における精度を向上することができる。つまり、今まで自動的に故障原因を特定できなかった障害に対しても障害原因となった故障個所を適確に特定することを可能とする。
したがって、本発明は、特に、上述した実施の形態において例示したように、自身でしか収集することができない情報をログとして収集して解析する機能を有するプロセッサと、ログを収集して解析する機能を有さず、BMCによってログが収集される周辺デバイスとで、別々にログの収集及び解析を行う必要がある場合であっても故障個所を適確に特定することができる点で有効である。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
本実施の形態では、プロセッサ11において障害が発生した場合について例示したが、BMC10がプロセッサ以外のハードウェア部品における障害の発生を検出した場合についても上述した処理を実行するようにしてもよい。例えば、ホストブリッジ14、I/Oブリッジ15において障害の発生した場合に、ホストブリッジ14、I/Oブリッジ15から、その旨を示す割り込み信号をBMC10に出力することによってプロセッサ以外のハードウェア部品における障害の発生を検出する。
また、本実施の形態では、プロセッサ11、12がProcessorログの解析結果とevent IDをBMC10に出力するようにしているが、BMC10とプロセッサ11、12で共有してアクセス可能な記憶装置を用意して、プロセッサ11、12が解析結果及びevent IDをその記憶装置に格納して、BMC10が記憶装置から解析結果及びevent IDを取得するようにしてもよい。
また、BMC10がプロセッサ11、12からProcessorログとevent IDを取得して、取得したProsessorログと、取得したevent IDと対応付けられたchipsetログとを解析して、故障個所を特定するようにしてもよい。
また、本実施の形態において例示したように、Processorログとchipsetログが1つのevent IDで対応付けられていなくてもよい。例えば、BMC10で、event IDとして"1"及び"2"を生成して、chipsetログとevent ID="2"とを対応付けて格納するようにし、event ID="2"をプロセッサ11、12に出力して、Processorログとevent ID="2"とを対応付けて格納するようにしてもよい。つまり、Processorログ及びchipsetログを複数のevent IDで対応付けてもよい。
以上に説明した本発明にかかるBMCで実行されるプログラムや、プロセッサで実行されるBIOS等のプログラムは様々な種類の記憶媒体に格納することが可能であり、通信媒体を介して伝達されることが可能である。ここで、記憶媒体には、例えば、フレキシブルディスク、ハードディスク、磁気ディスク、光磁気ディスク、CD−ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)、BD(Blu-ray(登録商標) Disc)、ROMカートリッジ、バッテリバックアップ付きRAM(Random Access Memory)、メモリカートリッジ、フラッシュメモリカートリッジ、不揮発性RAMカートリッジを含む。また、通信媒体には、電話回線等の有線通信媒体、マイクロ波回線等の無線通信媒体を含む。また、上述のプログラムは、インターネットを介して伝達することも可能である。
また、コンピュータが上述のプログラムを実行することにより、上述の実施の形態の機能が実現されるだけではなく、このプログラムの指示に基づき、コンピュータ上で稼動しているOSもしくはアプリケーションソフトと共同して上述の実施の形態の機能が実現される場合も、発明の実施の形態に含まれる。さらに、このプログラムの処理の全てもしくは一部がコンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットにより行われて上述の実施の形態の機能が実現される場合も、発明の実施の形態に含まれる。
1 コンピュータサーバ
2 情報処理装置
10 BMC
11、12、52 プロセッサ
13 メモリ
14 ホストブリッジ
15 I/Oブリッジ
16、17 不揮発性メモリ
20、21 拡張I/Oデバイス
22、23 I/Oデバイス
31 システムバス
32 管理バス
51 管理部
53 周辺デバイス
54 第1の記憶部
55 第2の記憶部

Claims (10)

  1. 第1の記憶部と、第2の記憶部と、プロセッサと、前記プロセッサと通信する周辺デバイスと、管理部と、を備えた情報処理装置であって、
    前記プロセッサは、当該プロセッサと前記周辺デバイスとの通信異常に関する障害を検出した場合、前記管理部に障害発生を通知し、
    前記管理部は、前記プロセッサから障害発生が通知された場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、BIOS(Basic Input/Output System)起動要求とを前記プロセッサに出力するとともに、前記周辺デバイスから第1のログを取得して、取得した第1のログと、前記識別情報とを対応付けて前記第1の記憶部に格納し、
    前記プロセッサは、前記管理部から出力されたBIOS起動要求に応じて起動したBIOSによって自身から第2のログを取得して、取得した第2のログと、前記管理部から出力された識別情報とを対応付けて第2の記憶部に格納する、情報処理装置。
  2. 前記プロセッサは、前記第2のログを解析して第2の解析結果を生成し、
    前記管理部は、前記第1のログを解析して第1の解析結果を生成するとともに、前記プロセッサが生成した第2の解析結果と、当該第2の解析結果の生成に用いられた第2のログに対応付けられた識別情報とを取得して、取得した識別情報に対応付けられた第1のログから生成した第1の解析結果と、前記取得した第2の解析結果とを解析して、前記障害の原因となった故障個所を特定する請求項1に記載の情報処理装置。
  3. 前記プロセッサは、前記第2のログを解析して生成した第2の解析結果と、当該第2のログに対応付けられた識別情報とを前記管理部に出力し、
    前記管理部は、前記プロセッサから出力された第2の解析結果及び識別情報を取得して、前記障害の原因となった故障個所を特定する請求項2に記載の情報処理装置。
  4. 前記プロセッサは、前記第2のログと、当該第2のログに対応付けられた識別情報とを取得して、取得した識別情報に対応付けられた第1のログと、前記取得した第2のログとを解析して、前記障害の原因となった故障個所を特定する請求項1に記載の情報処理装置。
  5. 前記プロセッサは、前記BIOSを実行することによって、前記第2の解析結果を生成する請求項2又は3に記載の情報処理装置。
  6. 前記第1及び第2の解析結果は、前記障害の原因となった故障箇所を示す情報である請求項2、3、又は5項に記載の情報処理装置。
  7. 前記管理部は、BMC(Baseboard Management Controller)であり、
    前記周辺デバイスは、ホストブリッジ及びI/O(Input/Output)ブリッジを含み、
    前記第1及び第2の記憶部は、1つ又は複数の不揮発性メモリに含まれる請求項1乃至のいずれか1項に記載の情報処理装置。
  8. プロセッサと、前記プロセッサと通信する周辺デバイスと、管理部と、を備えた情報処理装置における障害の原因を解析する障害解析方法であって、
    前記プロセッサが、当該プロセッサと前記周辺デバイスとの通信異常に関するを検出した場合、前記管理部に障害発生を通知するステップと、
    前記管理部が、前記プロセッサから障害発生が通知された場合に、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、BIOS(Basic Input/Output System)起動要求とを前記プロセッサに出力するステップと、
    前記管理部が、前記周辺デバイスから第1のログを取得して、取得した第1のログと、前記識別情報とを対応付けて第1の記憶部に格納するステップと、
    前記プロセッサが、前記管理部から出力されたBIOS起動要求に応じて起動したBIOSによって自身から第2のログを取得して、取得した第2のログと、前記管理部から出力された識別情報とを対応付けて第2の記憶部に格納するステップと、を備えた障害解析方法。
  9. プロセッサと、前記プロセッサと通信する周辺デバイスと、を備えた情報処理装置における障害の原因を解析する障害解析方法であって、
    前記プロセッサが当該プロセッサと前記周辺デバイスとの通信異常に関する障害を検出して障害発生の通知を出力した場合に、前記プロセッサから出力された障害発生の通知に応じて、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、BIOS(Basic Input/Output System)起動要求とを前記プロセッサに出力するステップと、
    前記周辺デバイスから第1のログを取得して、取得した第1のログを解析して生成した第1の解析結果と、前記識別情報とを対応付けて記憶部に格納するステップと、
    前記プロセッサが、前記出力されたBIOS起動要求及び識別情報を取得して、当該BIOS起動要求に応じて起動したBIOSによって自身から第2のログを取得して、取得した第2のログを解析して生成した第2の解析結果と、前記取得した識別情報とを出力した場合に、当該プロセッサから出力された第2の解析結果及び識別情報を取得するステップと、
    前記取得した識別情報に対応付けられた第1の解析結果と、前記取得した第2の解析結果とを解析して、前記障害の原因となった故障個所を特定するステップと、を備えた障害解析方法。
  10. プロセッサと、前記プロセッサと通信する周辺デバイスと、を備えた情報処理装置における障害の原因を解析する障害解析プログラムであって、
    前記プロセッサが当該プロセッサと前記周辺デバイスとの通信異常に関する障害を検出して障害発生の通知を出力した場合に、前記プロセッサから出力された障害発生の通知に応じて、当該障害と対応付けられた識別情報を生成して、生成した識別情報と、BIOS(Basic Input/Output System)起動要求とを前記プロセッサに出力するステップと、
    前記周辺デバイスから第1のログを取得して、取得した第1のログを解析して生成した第1の解析結果と、前記識別情報とを対応付けて記憶部に格納するステップと、
    前記プロセッサが、前記出力されたBIOS起動要求及び識別情報を取得して、当該BIOS起動要求に応じて起動したBIOSによって自身から第2のログを取得して、取得した第2のログを解析して生成した第2の解析結果と、前記取得した識別情報とを出力した場合に、当該プロセッサから出力された第2の解析結果及び識別情報を取得するステップと、
    前記取得した識別情報に対応付けられた第1の解析結果と、前記取得した第2の解析結果とを解析して、前記障害の原因となった故障個所を特定するステップと、をコンピュータに実行させる障害解析プログラム。
JP2010005023A 2010-01-13 2010-01-13 情報処理装置、障害解析方法及び障害解析プログラム Expired - Fee Related JP5495310B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010005023A JP5495310B2 (ja) 2010-01-13 2010-01-13 情報処理装置、障害解析方法及び障害解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010005023A JP5495310B2 (ja) 2010-01-13 2010-01-13 情報処理装置、障害解析方法及び障害解析プログラム

Publications (2)

Publication Number Publication Date
JP2011145824A JP2011145824A (ja) 2011-07-28
JP5495310B2 true JP5495310B2 (ja) 2014-05-21

Family

ID=44460629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010005023A Expired - Fee Related JP5495310B2 (ja) 2010-01-13 2010-01-13 情報処理装置、障害解析方法及び障害解析プログラム

Country Status (1)

Country Link
JP (1) JP5495310B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014147699A1 (ja) * 2013-03-18 2014-09-25 富士通株式会社 管理装置、方法及びプログラム
JP6515462B2 (ja) * 2014-08-22 2019-05-22 富士通株式会社 情報処理装置、情報処理装置の設定方法及び設定プログラム
JP6447167B2 (ja) * 2015-01-23 2019-01-09 株式会社リコー 半導体デバイス、ログ取得方法及び電子機器
JP7063445B2 (ja) * 2017-03-22 2022-05-09 Necプラットフォームズ株式会社 障害情報処理プログラム、コンピュータ、障害通知方法、コンピュータシステム
JP6880961B2 (ja) * 2017-04-14 2021-06-02 富士通株式会社 情報処理装置、およびログ記録方法
CN111694719B (zh) * 2020-06-10 2024-09-10 腾讯科技(深圳)有限公司 服务器故障处理方法、装置、存储介质及电子设备
CN112905373B (zh) * 2021-02-04 2024-09-24 苏州源控电子科技有限公司 Ops设备的开机异常检测方法、装置、系统以及交互平板
CN113900872A (zh) * 2021-10-11 2022-01-07 江苏欧迈科技有限公司 一种硬件故障检测系统、方法及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112790A (ja) * 1998-10-02 2000-04-21 Toshiba Corp 障害情報収集機能付きコンピュータ
JP2005165653A (ja) * 2003-12-02 2005-06-23 Hitachi Ltd 情報処理装置の障害情報採取システム
JP4868204B2 (ja) * 2005-01-04 2012-02-01 オリンパス株式会社 障害監視装置および方法
US7743274B2 (en) * 2007-09-12 2010-06-22 International Business Machines Corporation Administering correlated error logs in a computer system
US7788520B2 (en) * 2007-09-14 2010-08-31 International Business Machines Corporation Administering a system dump on a redundant node controller in a computer system

Also Published As

Publication number Publication date
JP2011145824A (ja) 2011-07-28

Similar Documents

Publication Publication Date Title
JP5495310B2 (ja) 情報処理装置、障害解析方法及び障害解析プログラム
KR102268355B1 (ko) 클라우드 배치 기반구조 검증 엔진
US8397104B2 (en) Creation of test plans
US20120331449A1 (en) Device, method and computer program product for evaluating a debugger script
JPH0432417B2 (ja)
US20150006961A1 (en) Capturing trace information using annotated trace output
US20080276129A1 (en) Software tracing
US9852051B2 (en) Second failure data capture in co-operating multi-image systems
JP2015011372A (ja) デバッグ支援システム、方法、プログラム及び記録媒体
US8799716B2 (en) Heap dump occurrence detection
US7478283B2 (en) Provisional application management with automated acceptance tests and decision criteria
US9009537B2 (en) Diagnostic data capture in a computing environment
US9251028B2 (en) Managing code instrumentation in a production computer program
CN113360389A (zh) 一种性能测试方法、装置、设备及存储介质
WO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
US9916192B2 (en) Thread based dynamic data collection
JP5541519B2 (ja) 情報処理装置、故障部位判別方法および故障部位判別プログラム
CN111694724B (zh) 分布式表格系统的测试方法、装置、电子设备及存储介质
CN113282496B (zh) 接口自动测试方法、装置、设备及存储介质
CN102023916B (zh) 电脑系统的检测方法
CN108845932B (zh) 一种网络库的单元测试方法、装置、存储介质及终端
JP5440673B1 (ja) プログラマブルロジックデバイス、情報処理装置、被疑箇所指摘方法およびプログラム
CN114253846B (zh) 自动化测试异常定位方法、装置、设备及可读存储介质
JP2017151511A (ja) 情報処理装置、動作ログ取得方法および動作ログ取得プログラム
CN117234852A (zh) 一种异常服务检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140227

R150 Certificate of patent or registration of utility model

Ref document number: 5495310

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees