JP2017091077A - 擬似故障の発生プログラム、発生方法、及び発生装置 - Google Patents

擬似故障の発生プログラム、発生方法、及び発生装置 Download PDF

Info

Publication number
JP2017091077A
JP2017091077A JP2015218286A JP2015218286A JP2017091077A JP 2017091077 A JP2017091077 A JP 2017091077A JP 2015218286 A JP2015218286 A JP 2015218286A JP 2015218286 A JP2015218286 A JP 2015218286A JP 2017091077 A JP2017091077 A JP 2017091077A
Authority
JP
Japan
Prior art keywords
failure
processor
pseudo
mmb
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015218286A
Other languages
English (en)
Inventor
裕嗣 平野
Hirotsugu Hirano
裕嗣 平野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015218286A priority Critical patent/JP2017091077A/ja
Priority to US15/298,291 priority patent/US10275330B2/en
Publication of JP2017091077A publication Critical patent/JP2017091077A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2236Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2215Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test error correction or detection circuits

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

【課題】汎用コンポーネント等の部品を搭載した情報処理装置において、物理的な専用機器や使用環境に依存せず、簡易かつ汎用的に擬似故障、あるいは故障の予兆を発生させる。
【解決手段】
プログラムは、プロセッサおよび前記プロセッサに接続される部品のいずれかでの故障がシステム管理モードでアクセス可能なシステム空間に記録されるとともに、前記故障の発生が割り込みハンドラに割り込みで通知されるプロセッサおよび前記部品を有する情報処理装置を監視する監視機構を検証する。プログラムは、情報処理装置を管理する管理コンピュータに、プロセッサをシステム管理モードに移行させ、システム空間に擬似故障を示す情報を設定し、設定後にプロセッサをシステム管理モードから非システム管理モード移行させ、プロセッサに擬似故障に対応する割り込みを発生させ、割り込みによって起動される割り込みハンドラが出力した故障情報を取得することを実行させる。
【選択図】図4

Description

本発明は、擬似故障の発生プログラム、発生方法、及び発生装置に関する。
ユーザの業務を支援する情報システム、例えば、基幹システムでは、信頼性確保のため、故障の発生、あるいは故障の予兆を監視する仕組みである監視機構が導入されている。例えば、基幹システムを管理する管理端末が設けられ、監視プログラムにより、監視対象である基幹システム内のサーバ等の情報処理装置の監視を行っている。一方、監視対象の情報処理装置には故障、あるいは故障の予兆を通知・記録する手段が備わっている。そして、管理端末と故障等を通知・記録する手段とが連携して監視機構を形成している。これら監視機構の動作を確認し、あるいは機能を検証することで、情報処理装置、あるいは情報処理装置を含む基幹システムの信頼性が確保できる。ここで、監視機構の動作を確認し、あるいは機能を検証するとは、監視機構が情報処理装置の故障、あるいは故障の予兆を検知し、管理端末等の外部装置に通知する処理が正常に動作することを確認することをいう。また、故障の予兆とは、例えば、訂正可能なエラーの発生、情報処理装置の停止に至らない回復可能な故障の発生、または訂正可能なエラー等の発生回数がある閾値を超えること等をいう。管理端末が故障の予兆を検知することにより、情報処理装置の管理者が情報処理装置保守作業、部品交換等の時期をある程度判断可能になる情報が提供される。以下、監視機構の動作を確認し、あるいは機能を検証することを単に、監視機構の検証と呼ぶ。
ところで、情報処理装置のベンダが情報処理装置に搭載されるプロセッサを含めて情報処理装置、あるいは基幹システム等を開発する場合には、ベンダの事業所等から出荷され、情報処理装置がユーザサイトに設置された後も、ベンダの作業員、管理者等が監視機構の検証を行うことは可能である。例えば、情報処理装置のベンダは、独自のプロセッサに、擬似故障発生回路等の専用機器を組み込むことで、ユーザサイトにおいても、擬似故障、あるいは故障の予兆を発生させ、情報処理装置を監視する監視機構の検証が可能となる。
特開平2−196345号公報 特開昭62−82439号公報 特開2010−97357号公報 特開昭63−296146号公報
しかし、情報処理装置がインテル社のx86系のプロセッサのような汎用プロセッサ等、
専業メーカで製造された汎用コンポーネントを搭載する場合には、各コンポーネントには擬似故障発生回路のような機器、あるいは、仕組みがない場合がほとんどである。また、仮に擬似故障あるいは故障の予兆を発生する機器や仕組みが設けられたとしても、コンポーネント毎にインターフェースが異なり、擬似故障等の発生の手順が相違することが予想される。そして、コンポーネント毎にインターフェースが異なり、擬似故障等の発生の手順が相違する場合には、作業者等には、擬似故障等を発生させるための専門的な知識を有することが望まれることなる。したがって、専業メーカで製造された汎用コンポーネントを搭載する情報処理装置が、一旦、情報処理装置のベンダ外に設置されると、簡易に擬似
故障、あるいは故障の予兆を発生させることが困難になる場合がある。
さらに、また、x86系のプロセッサのような汎用プロセッサでは、複数のOSが使用可
能であるため、OS等の使用環境に依存せずに、擬似故障あるいは故障の予兆を発生させる仕組みが望ましい。
そこで、本発明は、汎用コンポーネント等の部品を搭載した情報処理装置において、物理的な専用機器や使用環境に依存せず、簡易かつ汎用的に擬似故障、あるいは故障の予兆を発生させることができる技術を提供することを目的とする。
本発明の一側面は、情報処理装置において、擬似故障を発生させるプログラムによって例示される。情報処理装置は、プロセッサおよび前記プロセッサに接続される部品を有する。このプロセッサでは、プロセッサ自身およびプロセッサ自身に接続される部品のいずれかでの故障がシステム管理モードでアクセス可能なシステム空間に記録されるとともに、前記故障の発生が割り込みハンドラに割り込みで通知される。そして、本プログラムは、前記情報処理装置を管理する管理コンピュータに、前記プロセッサをシステム管理モードに移行させ、システム空間に擬似故障を示す情報を設定し、前記設定後に前記プロセッサをシステム管理モードから非システム管理モード移行させ、前記プロセッサに前記擬似故障に対応する割り込みを発生させることを実行させる。
本プログラムによれば、汎用コンポーネント等の部品を搭載した情報処理装置において、物理的な専用機器や使用環境に依存せず、簡易かつ汎用的に擬似故障、あるいは故障の予兆を発生させることができる。
CPUが搭載されたサーバの故障監視の処理を例示する図である。 DIMMでの故障予兆処理を例示する図である。 入出力部での故障予兆処理を例示する図である。 監視対象のサーバ と管理端末 を含む情報システムを例示する図である。 情報システムの処理シーケンスを示すタイムチャートである。 管理端末 に表示されるMMBのコマンド入力画面を例示する図である。 擬似故障予兆発生コマンドに対する処理を例示するフローチャートである。 擬似故障予兆発生コマンドに対する処理を例示するフローチャートである。
以下、図面を参照して一実施形態に係る情報システムについて説明する。本情報システムは、情報処理装置と、情報処理装置を管理する管理端末を含む。本情報処理装置として、例えば、サーバが例示される。また、本情報システムは、情報処理装置を監視する監視機構を有する。監視機構は、情報処理装置内のプロセッサその他のコンポーネントに故障あるいは故障の予兆が発生したときに、故障あるいは故障の予兆を処理する。故障はエラーとも呼ばれる。また、故障の予兆は、システム停止に至らない事象で、将来の故障発生を示唆し、予期させる事象をいう。故障の予兆としては、例えば、訂正可能なエラー等で例示できる。
また、本情報システムは、監視機構の検証ため、擬似的なハードウェアの故障、あるいは擬似的な故障の予兆を発生する発生機構を有する。擬似的なハードウェアの故障、ある
いは擬似的な故障の予兆を総称して、擬似故障予兆と呼ぶことにする。擬似故障予兆は、実際に情報処理装置のハードウェアが故障あるいは故障の予兆を発生したものではなく、発生機構によって擬似的に生成されたハードウェア故障あるいは故障の予兆を示す情報ということができる。擬似故障予兆は単に擬似故障ということもできる。
また、本情報システムのうち、情報処理装置は、内部に情報処理装置を管理する管理ユニットを含む。本実施形態では、管理ユニットには、擬似故障予兆の発生を示す予兆情報をシステム空間に書き込む制御が設けられる。管理ユニットは、例えば、情報処理装置を管理する管理端末が発行した特定のコマンドを受信する。そして、管理ユニットは特定のコマンドの指示内容にしたがって、システム空間に予兆情報を書き込むとともに、擬似故障予兆の発生をBIOSの割り込みハンドラに割り込みで通知する。すると割り込みハンドラはシステム空間に書き込まれた予兆情報を取得し、管理ユニットに通知する。さらに、管理ユニットは、予兆情報を管理端末に通知する。このように、本情報システムの監視機構は、BIOSの割り込みハンドラ、管理ユニット及び管理端末を含む。そして、予兆情報が監視機構によって正常に処理することできた場合に、監視機構の機能が検証されることになる。このようにして、本実施形態の情報システムは、管理端末からの特定のコマンドの入力にしたがって、監視機構を汎用的に検証する。
[比較例]
図1から図3を参照して、比較例の情報システムを例示する。図1はインテル社製のx86アーキテクチャのCentral Processing Unit (CPU)が搭載されたサーバの故障監視の処理
を例示する図である。図1は、監視対象のサーバと、Local Area Network(LAN)を通じて
監視対象のサーバに接続される管理端末が例示されている。監視対象のサーバは、複数のシステムボードと、システムボードを管理するサーバ管理ユニット(Management Board、以下「MMB」)とを有する。また、各システムボードは、CPU、DIMM(Dual Inline Memory Module)と、Basic input/output system (BIOS)を格納したRead Only Memory (ROM)と、Baseboard Management Controller(BMC)とを有する。
図1の監視対象のサーバはエラーを通知・記録する手段を有している。例えばCPU、DIMMのようなコンポーネントでエラーが発生した場合には、次のようにエラー処理が行われ
る。エラーが検知されると、各コンポーネントはCPUにシステム管理割り込み(System Management Interrupt、以下「SMI」)という割り込みの一種を通してエラーをCPUに通知する。CPUはSMIを受信すると動作モードの一つであるシステム管理モード(System Management Mode、以下「SMM」)に移行する。SMMに移行すると、CPUはBIOS 内のSMIハンドラを
実行する。SMIハンドラは、システム管理ランダムアクセスメモリ(System Management Random Access Memory、以下「SMRAM」)空間内でSMIを処理するプログラムである。SMRAMは、メモリ空間内の独立したアドレス空間であり、SMM以外の他の動作モードにおいては
アクセスできない。SMIハンドラの処理を通じて、エラー箇所が特定され、被疑箇所がBIOSに通知される。SMIの処理が終了すると、CPUはSMMモードを終了し、移行前の動作モードに戻る。
BIOSはCPUで起動され、BMCにエラーのログを記録させる。また、BIOSはMMBに故障ラン
プ等を点灯させることで、管理者に視覚的に報知する。また、BIOSは、管理端末上のサーバ監視ソフト上にログ/通知を行う。また、MMBは、例えば、Local Area Network (LAN)
を通じて、管理端末と接続される。MMBは、管理端末に、ハードの異常ログ(温度・電圧など)、ハードの故障ログ(CPU/DIMM/HDD/PSU/FANなど)、ハードの故障予兆ログ(CPU / DIMM
/ PCIeなどの故障予兆)を通知する。
BMC は、システムボード10に搭載されるサーバ管理用のコントローラチップである。BMCは、例えば、電源が本体とは別管理とされており、ハードウェア(CPU、メモリ、温度セ
ンサ等)の監視、リモートコントロール、ハードウェアイベントの記録などを行い、管理
端末と通信する。すなわち、BMC 107は、外部、例えば、MMB、管理端末等から、サーバの稼動状態に依存しない基本的なリモート操作を可能にする。IPMI(Intelligent Platform Management Interface)がBMCの標準仕様を定義している。
高信頼性が要求されるサーバになると、より高い信頼性を実現するために、BMCあるい
はBIOSは、CPUやDIMM などのコンポーネントに対して、訂正可能エラーの閾値監視を行うことができる。訂正可能エラーは、例えば、誤り訂正可能なデータエラー等である。
BMCあるいはBIOSは、訂正可能エラーの発生回数が一定期間中に閾値を超えたコンポー
ネントを検知すると、該当するコンポーネントに関するログあるいは通知を管理端末に送信し、該当するコンポーネントの交換等を促す。このような閾値監視により、図1の監視対象のサーバは、致命的なハードウェア故障による情報システムの停止を未然に防ぐことができるようになっている。このような閾値監視は、予兆監視とも呼ばれる。
訂正可能エラーの閾値監視を実現するためにインテル社の高性能サーバ向けのCPUはCPU及びDIMMなどのエラーをOSに通知する前に、BIOSに通知する機能を備えている。通知を受け取ったBIOSはリカバリー手段を講じるかBMCのようなファームウェアにエラーログを記
録できる。すなわち、BIOSまたはBMC内で訂正可能なエラーの閾値監視ができる。
図2はDIMMでの故障予兆処理を例示する。図2の監視対象のサーバは、図1と同様、x86のような汎用CPUを使用する。図2では、BIOSを格納したROMおよびBMCは、チップセットPlatform Controller Hub (PCH)を通じてCPUに接続される。CPUは、DIMMの訂正可能エラ
ーを検出すると、DIMMの訂正可能エラーの発生回数をカウントする(矢印Z1)。発生回数が閾値を越えると、CPUは、SMI割り込みをBIOSのSMIハンドラに通知する(矢印Z2)。SMIハンドラは、SMRAMにアクセスし、発生回数が閾値を越えたDIMMの箇所を特定して(矢印Z3-1)、BMC内のSystem Event Log(SEL)に、DIMM内の特定された箇所に関する故障予兆を示す
ログを記録する(矢印Z3-2)。MMBはBMCのSELを定期的に収集しているので、故障予兆を示
すログがMMBに記録される(矢印Z4)。MMBは管理端末にSimple Network Management Protocol (SNMP)トラップを通じて、故障予兆を通報する(矢印Z5)。
図3はCPUまたはPeripheral Component Interconnect(PCI) Express (PCIe)等の入出力部での故障予兆処理を例示する。図3の監視対象のサーバは、図1、図2と同様、x86の
ような汎用CPUを使用する。CPUあるいはPCIe等の入出力部は、訂正可能エラーを検出すると、SMI割り込みをSMIハンドラに通知する(矢印Z1)。BIOS内のSMIハンドラはSMI割り込みを受け付けると、SMRAMにアクセスし、訂正可能エラーの発生箇所を特定し、BIOSに報告
する(Z2)。BIOSは、発生可能エラーのカウンタにより、CPU、入出力部等、それぞれの訂
正可能エラーの発生回数をカウントする。発生回数が閾値を越えると、BIOSはBMC内のSELに故障予兆のログを記録する(矢印Z3)。MMBはBMCのログを定期的に収集しているので、故障予兆のログがMMBに記録される(矢印Z4)。MMBは管理端末にSNMPトラップを通じて、故障予兆を通報する(矢印Z5)。
図1から図3に例示したように、x86アーキテクチャの汎用CPUを搭載したサーバには、故障や予兆を監視する機能が備わっている。しかし、サーバがこれらの機能の検証、例えば、CPUやDIMMの故障あるいは予兆を監視する監視機能の検証を行う場合、サーバ内で擬
似的に訂正可能なエラーが発生させられる。そのため、例えば、擬似故障、擬似予兆等の発生機能がCPU、DIMM、入出力部等の回路に組み込まれる。また、擬似故障、擬似予兆等
を発生させるための専用機器がCPUのインターフェース、あるいは入出力部に接続される
しかし、ユーザサイトにおいてシステムを構築する場合などのように、情報システムのベンダの事業所以外の現場では、以下のような問題点がある。
故障予兆の通知の検証においては、専用機器や擬似発生回路の使用が簡単ではない。なぜなら、従来の専用機器や擬似発生回路は、誰でも使用できるような汎用性がないことが多い。このため、専用機器や擬似発生回路の使用では、専用機器や擬似発生回路に関する知識を有する作業員、管理者等が機器の取り付けや取り外しといった作業を行う。つまり、作業員、管理者等は、エラー発生時のハードウェアの処理、インターフェースの仕様等を理解した上で作業を行うことになる。
また、専用機器ではなく、コンピュータプログラムによって擬似故障、あるいは擬似予兆を発生させる手法が考えられる。例えば、正規の障害のエラーコードとは別の擬似エラーコードを別途用意し、コンピュータプログラムを実行する情報処理装置のCPUがその擬
似エラーコードを生成し、情報処理装置のOSあるいは監視機構に通知することが想定される。しかし、擬似エラーコードを用いる場合には、正規のハードウェアでのエラー発生時とは異なる擬似エラー専用の処理ルーチンで処理することとなる。このため、監視機構中の正規のハードウェアのエラー処理が再現できない場合がある。また、コンピュータプログラムでそのような機構を用意すると、OS毎に擬似コードの処理ルーチンを用意する必要があり、様々なOSをサポートするx86アーキテクチャのCPUを使用するサーバでは、大きな開発工数増になってしまう。
そこで、ユーザサイト等情報処理装置のベンダの事業所以外の外部において利用可能で、専門的な知識・スキルが無くても、汎用的に利用可能で、かつ実際のエラーと同様な仕組みで擬似故障予兆を発生できる仕組みが望ましい。
以下の実施形態においては、物理的な専用機器や使用環境(OS)に依存しないように、サーバの外部からMMB等の管理ユニットに指示し、MMBが監視対象のサーバに擬似故障、あるいは擬似予兆を発生させる機能が設けられる。サーバの外部からMMBに指示をするために
は、管理端末のような別装置がネットワーク経由で監視対象のMMBに対して擬似故障を発
生させるための指示コマンドを発行できるようにする。
さらに、以下の実施形態では、擬似故障用の専用メッセージ表示や擬似故障用の専用ルーチンではなく、正規の故障処理、正規の予兆処理と同じ処理部が擬似故障予兆を処理するようにする。そのために、以下の実施形態では、専用機器や専用回路を組み込まないで、正規のエラー処理が行われる仕組みが追加される。
例えば、一般的なインテル社のx86アーキテクチャのCPUを使用したサーバはBIOSのSMI
ハンドラが故障処理を行う。そこで、以下の実施形態では、監視対象のサーバのMMBが擬
似故障に対する割り込みを通知し、SMIハンドラが処理を開始し、擬似故障箇所を特定す
るようにする。SMIハンドラによる被疑箇所特定以降の処理は正規の故障予兆処理と同じ
である。
[実施形態]
以下、図4から図7Bを参照して、本実施形態の情報システムを説明する。本情報システムは、監視対象のサーバ 1と管理端末 2を有する。
<構成>
図4は、本実施形態の監視対象のサーバ 1と管理端末 2を含む情報システムを例示する図である。監視対象のサーバ 1は、1つまたは複数のシステムボード 10と、MMB 11を有
する。また、システムボード 10は、CPU 101と、DIMM 102と、PCI Expressのインターフ
ェース(PCIe) 103と、PCH 103と、BIOSを格納するROM 105と、BMC 107とを有する。
CPU 101は、プロセッサの一例である。DIMM 102とPCIe 103とPCIe 103に接続される周
辺装置のうちの少なくとも一つがプロセッサに接続される部品の一例である。MMB 11が管理コンピュータの一例である。MMB 11は擬似故障の発生装置の一例でもある。サーバ1は情報処理装置の一例である。管理端末 2は外部装置の一例である。
MMB 11は、監視対象のサーバ 1内の1つまたは複数のシステムボード 10を管理し、シ
ステムボード 10内の故障あるいは故障予兆の情報を取得する。MMB 11は専用のCPUやメモリ(RAM, ROM)を持ち、MMBファームウェアが動作する。MMBファームウェアはネットワークを通じてWebユーザインターフェイスを提供しており、接続した管理端末 2から監視対象
のサーバ 1の管理操作を可能にする。また、MMB 11は例えば、BMC 107からのログ採取と管理端末 2へのログ表示、管理端末 2へのイベントの通報(E-mail通知、SNMP トラップ
)などを実行する。なお、MMB 11内のファームウェアは例えば、ネットワークを通じてアップデートしてもよい。
システムボード 10にはCPU 101が搭載されており、DIMM 102やPCIe 103等の各コンポーネントに接続されている。また、CPU 101はPCH 104に接続されており、PCH 104はBIOSを
格納したROM 105 やBMC 107に接続されている。なお、PCH 104はチップセットとも呼ばれる。BMC 107とMMB 11のそれぞれには監視対象のサーバ 1のシステムイベントログ(System Event Log、以下「SEL」)を記録する領域が備わっている。MMB 11は定期的にBMC 107
のログ情報を取得しており、MMB 11内にそのログが記録される。MMB 11は、装置間のネットワーク用の外部通信部を有し、管理端末 2と通信可能となっている。したがって、管理端末2は、ネットワークとMMB 11を通じて、監視対象のサーバ 1の状態を監視することが
できる。BMC 107については、図1から図3と同様であるので、詳細な説明を省略する。
管理端末 2には監視対象のサーバ 1を監視するための監視プログラムがインストールされている。また、MMB 11はサーバ1の電源が起動した際、搭載されているコンポーネント
情報(搭載スロット位置情報も含む)を取得し、取得した情報を保持しておく機能を有しているものとする。
擬似故障あるいは擬似予兆を発生させるためには、情報システムの管理者は管理端末 2上よりMMB 11のコマンドプロントを開き、コマンドを入力して、擬似予兆発生の指示を入力する(図6参照)。
図5は、図4の情報システムの処理シーケンスを示すタイムチャートである。以下、コマンド発行後の処理は図4の模式図と図5のタイムチャート内の符号順(An, n=1, 2, …)に従って説明される。なお、図5のシーケンス上の符号が付された矢印は、図4内の符号が付された矢印と同一の処理を示す。
矢印 A1:管理者の操作を受け付けた管理端末 2は擬似故障予兆発生コマンドをMMB 11へ発行する。擬似故障予兆発生コマンドには、擬似故障予兆を発生させる対象のコンポーネント(CPU、部品、デバイスともいう)と、ロケーションが指定される。ロケーションは、
例えば、CPU 101が有するインターフェースの番号、PCIeの識別情報、バスのアドレス、DIMMのスロットを指定する識別情報等である。ロケーションは、搭載位置情報とも呼ばれ
る。矢印 A1の処理は、管理コンピュータに接続される外部装置から前記擬似故障を発生
させる擬似故障発生箇所を指定した指令を受け付けることの一例である。
矢印 A2:コマンドを受けたMMB 11は自身が持っているコンポーネントの搭載位置情報とコマンド指定のロケーションと照会する。この照会によって、MMB 11はコマンド指定のコ
ンポーネントが実搭載コンポーネントか否かを判定する。コマンド指定のコンポーネントが実搭載コンポーネントであれば、MMB 11はBIOS経由でCPU 101のレジスタをSMRAM領域へのアクセスが可能な状態に変更する。より具体的には、インテル社のアーキテクチャのCPUの場合、MMB 11はSystem Management RAM Controlレジスタ(SMRAMC)のD_OPENのビットをセットする。SMRAM制御レジスタのD_OPENビットが1にセットされると、メモリー・アク
セスの転送先がSMRAM領域に変更される。矢印 A2の処理は、プロセッサをシステム管理モードに移行させることの一例である。SMRAM領域は、システム空間の一例である。
矢印 A3:MMB 11はアクセス可能になったSMRAM領域に擬似故障予兆の情報を書き込む。
擬似故障予兆の情報は、どのコンポーネットでどのようなエラーがあったかを特定する要素を含む。矢印 A3の処理は、システム空間に擬似故障を示す情報を設定することの一例
である。
矢印 A4:MMB 11は矢印 A2の処理で書き換えたCPUのSMRAM制御レジスタを再度書き換えSMRAM領域アクセス不可状態に変更する。矢印 A4の処理は、プロセッサをシステム管理モ
ードから非システム管理モードに移行させることの一例である。
矢印 A5:MMB 11はBIOS経由でSMI割り込みを発生させ、SMMモードに移行させる。インテル社のPCHの場合、APM(advanced power management)制御ポートレジスタ(APM_CNT−Advanced Power Management Control Port Register)をセットするこことで、SMI割り込みが
発生し、CPU 101がSMMモードに移行する。矢印 A5の処理は、プロセッサに前記擬似故障
に対応する割り込みを発生させることの一例である。
矢印 A6: SMI割り込みにより、BIOSのSMIハンドラ106がCPU 101で起動され、SMIハンドラ106は故障個所の特定を開始する。以降は正規のエラー処理と同じである。SMIハンドラ106が割り込みハンドラの一例である。
矢印 A7:SMIハンドラ106は矢印 A3で書き込まれた擬似故障予兆の情報をSMRAM領域から読み取り、擬似の故障個所を特定し、BMC 107に、BMC 107内のSELに故障予兆ログを記録
させる。
矢印 A8:MMB 11はBMC 107のログを定期的に収集しているので、BMC 107から故障予兆ログを取得し、MMB 11内のSELに記録する。図5では、矢印 A8によって、MMB 11がBMC 107
のログを定期的に収集することが示されている。矢印 A8の処理は、割り込みによって起
動される割り込みハンドラが出力した故障情報を取得することの一例である。
矢印 A9:MMB 11はSNMPトラップを通じて、管理端末 2の監視プログラムに故障予兆を通報する。SNMPトラップは、ネットワーク上の機器を監視する際に、監視下の機器側から管理用コンピュータに向けて能動的に発信される通知である。SNMPは、TCP/IPネットワークにおいて、管理用コンピュータがルータやコンピュータ、端末など様々な機器をネットワーク経由で監視・制御するためのプロトコルである。ネットワーク上のノードで予め指定した異常事態が発生したときや、ノードの状態を表すパラメータが予め設定された閾値を超える事象が発生したときに、発生ノードがノードを監視するコンピュータ等にSNMPトラップを発行する。A9の処理は、取得した故障情報を前記外部装置に通知することの一例である。
図6は、管理端末 2に表示されるMMB 11のコマンド入力画面を例示する図である。擬似故障予兆を発生させたい管理者は、MMB 11のコマンド入力画面に、擬似故障予兆発生コマンドを入力する。コマンドのフォーマットは、例えば、コマンド名 −発生させたいデバ
イス名−ロケーション−である。例えば、複数存在するCPUのうち、2つ目のCPUに擬似故
障予兆を発生させる場合には、管理者は>PDA_Emu −CPU−2のように入力する。また、DIMMのスロットA3に擬似故障予兆を発生させる場合には、管理者は>PDA_Emu −DIMM−A3のように入力する。PCIeのスロット1に擬似故障予兆を発生させる場合には、管理者は>PDA_Emu −PCIE−slot1−のように入力する。PCIeのバス0に擬似故障予兆を発生させる場合には、管理者は>PDA_Emu −PCIE−bus0のように入力する。
管理者が擬似故障予兆発生コマンドを入力すると、MMB 11は応答メッセージを管理端末
2に出力する。擬似故障予兆発生コマンドの実行が成功した時の応答メッセージは、コマンド実行成功(Command Successful!!)の文言、発生した擬似故障予兆のレベル(Severity : Error)、擬似故障予兆のイベントのID、発生箇所のコンポーネントのユニット識別情報(UNIT:SB#0)、発生元のロケーション(DIMM#0A0)、説明(Description:”DIMM#0A0”Memory Correctable error(ECC))等である。また、擬似故障予兆発生コマンドの実行が失敗した時の応答メッセージは、コマンド実行失敗(Command Failure!!)の文言、失敗の原因(Component not installed)等である。擬似故障予兆発生コマンドが失敗するのは、例えば
、存在しないデバイス、あるいはロケーションが指定された場合等である。
図7A、図7Bは、擬似故障予兆発生コマンドに対する処理を例示するフローチャートである。図7AはMMB 11の処理を例示し、図7Bは、MMB 11, BIOS, 及びBMC 107の処理
を例示する。まず、MMB 11は、コマンドを受け付ける(S1)。S1の処理は、図4,図5の矢印A1に対応する。S1の処理は、管理コンピュータに接続される外部装置から前記擬似故障を発生させる擬似故障発生箇所を指定した指令を受け付けることの一例である。次に、MMB 11は、受け付けたコマンドが擬似故障予兆発生コマンドか否かを判定する。
受け付けたコマンドが擬似故障予兆発生コマンドの場合には、MMB 11は、コマンドで指定されたロケーション(コンポーネント搭載位置情報ともいう)とMMB 11が保持している搭載情報を照会する(S3)。そして、MMB 11は、コマンドで指定されたコンポーネントが情報処理装置1に実際に搭載されているか否かを判別する。指定されたコンポーネントがDIMM(S4でYES)、CPU(S5でYES)、入出力部(S6でYES)のいずれかの場合には、MMB 11は、S9の処理に進む。入出力部はI/Oとも呼ばれる。指定されたコンポーネントがS4からS6のい
ずれにも該当しない場合には、MMB 11は、S10の処理に進む。
そして、S9の処理では、MMB 11は、コマンドで指定されたロケーションに指定されたコンポーネントが搭載されているか否かを判定する。MMB 11が保持している搭載情報にしたがって、指定されたロケーションに指定されたコンポーネントが搭載されているか否かが確認される。確認ができた場合(S9でYES)、MMB 11は、CPU 101のSMRAMCレジスタを書き換え、D_OPENのビットをセットする。上述のように、SMRAM制御レジスタのD_OPENビットが
1にセットされると、メモリー・アクセスの転送先がSMRAM領域に変更される。S3からS6,
S9, 及びS11の処理は、図4,図5の矢印A2に対応するS11の処理は、プロセッサをシス
テム管理モードに移行させることの一例である。また、MMB 11は、プロセッサをシステム管理モードに移行させる手段としてS11の処理を実行する。
次に、MMB 11は、SMRAM領域に擬似故障予兆情報を書き込む(S12)。S12の処理は、図4
,図5の矢印A3に対応する。S12の処理は、システム空間に擬似故障を示す情報を設定す
ることの一例である。また、MMB 11は、システム空間に擬似故障を示す情報を設定する手段としてS12の処理を実行する。
さらに、MMB 11は、CPU 101のSMRAMCレジスタを書き換え、D_OPENのビットを元に戻す(S13)。S13の処理により、MMB 11からのSMRAM領域へのアクセスができなくなる。S13の処
理は、図4,図5の矢印A4に対応する。S13の処理は、プロセッサをシステム管理モード
から非システム管理モードに移行させることの一例である。また、MMB 11は、プロセッサ
をシステム管理モードから非システム管理モードに移行させる手段としてS13の処理を実
行する。
さらに、MMB 11は、PCH 104のAPM制御ポートレジスタをセットし、SMI(割り込み)を
発生させる(S14)。S14の処理は、図4,図5の矢印A5に対応する。S14の処理は、プロセ
ッサに前記擬似故障に対応する割り込みを発生させることの一例である。また、MMB 11は、プロセッサに前記擬似故障に対応する割り込みを発生させる手段としてS14の処理を実
行する。
すると、BIOS内のSMIハンドラ106に制御が移り、故障(擬似故障あるいは擬似予兆)が検出される。SMIハンドラ106は、SMRAM領域を検索し、擬似故障箇所あるいは擬似予兆箇
所を特定する(S16)。S16の処理は、図4,図5の矢印A6に対応する。そして、SMIハンド
ラ106は、BMC 107に対してBMC 107内のSELに故障予兆ログを記録させる(S17)。S17の処理は、図4,図5の矢印A7に対応する。そして、SMIハンドラ106は、処理を終了する。
一方、MMB11は、定期的にBMC 107のSELを収集している(S18, S19, S20, S21)。そして
、MMB 11は、BMC 107内の故障予兆ログを取得し、自身のSELに記録する(S22)。S18からS22の処理は、図4,図5の矢印A8に対応する。S18からS22の処理は、割り込みによって起
動される割り込みハンドラが出力した故障情報を取得することの一例である。さらに、MMB 11は、SNMPトラップにより管理端末 2に、擬似故障予兆を通報する(S23)。S23の処理は、図4,図5の矢印A9に対応する。S23の処理は、取得した故障情報を前記外部装置に通
知することの一例である。そして、MMB 11は、コマンドの正常終了の結果を管理端末 2に表示する(S24)。
一方、図7AのS2の判定で、受け付けたコマンドが擬似故障予兆発生コマンドでない場合に、MMB 11は、その他のコマンドを実行する。すなわち、MMB 11のコマンドプロントは、擬似故障予兆発生コマンド以外のコマンドを入力可能である。入力されたコマンドが図6にあるような擬似故障予兆発生コマンドでなかった場合は、MMB 11は、入力されたコマ
ンドに対応する処理を実行する。そして、コマンドが正常終了した場合には、MMB 11は、コマンドの正常終了の結果を管理端末 2に表示する(S24)。コマンドが異常終了した場合
には、MMB 11は、S10の処理に進む。
さらに、図7BのS9の判定で、指定されたロケーションに指定されたコンポーネントが搭載されていないと判断された場合、MMB 11は、S10の処理に進む。そして、MMB 11は、
エラー結果を表示する。S10, S24の処理の後、MMB 11は、処理を終了する。
<実施形態の効果>
本実施形態のMMB 11は、SMRAM領域に、擬似故障予兆の情報を記録する。擬似故障予兆
の情報は、例えば、擬似故障予兆の対象となるコンポーネントとロケーションとエラーの内容等をSMIハンドラ106が処理可能な情報を含む。そして、MMB 11は、SMIを通じて、BIOSのSMIハンドラ106を起動する。SMIハンドラ106起動後の処理は、サーバ1本来のエラー
処理であるため、MMB 11は、サーバ1本来の故障あるいは故障予兆の監視機構に対して、擬似故障予兆を投入できる。すなわち、サーバ1のCPU 101が故障を検知した場合には、SMRAM領域に故障の情報が書き込まれ、SMIハンドラ106が処理する。このような故障の処理は、OS等のサーバ1の使用環境に依存しないものであり、MMB 11は、サーバ1の使用環境に依存せずに、擬似故障予兆を発生できる。
また、管理端末 2のように、MMB 11に対して擬似故障予兆発生コマンドを発行する手段が設けられることにより、管理者は、物理的な専用機器や使用環境(Operating System(OS))に依存せず、管理端末 2上から擬似故障、あるいは擬似予兆を発生させることが可能に
なる。したがって、管理者は、コマンドの使用方法を理解できれば、CPU 101内部のエラ
ー処理等の専門知識や、各コンポーネントへの故障発生回路等の専用機器を扱う専門の作業スキルへの依存が少なくなる。
また、擬似故障予兆発生コマンドを発行する手段の使用場所が限定されないので、ユーザサイトのようなシステム開発現場でも擬似故障予兆発生コマンドを発行する手段の使用が可能であり、擬似故障予兆を発生させるMMB11の汎用的な利用が可能になる。
また、本実施形態では、擬似故障予兆発生コマンドによって、擬似故障を発生させる対象のコンポーネントとロケーションが指定される。擬似故障予兆発生コマンドを受け付けることによって、MMB 11は、検証作業を行う管理者や作業者所望のコンポーネット、所望のロケーションに擬似故障予兆を発生させることができる。
また、本実施形態では、MMB 11は、図7BのS18からS22の処理によって、SMIハンドラ106からBIOSを通じて出力されたBMC 107内の故障予兆ログを取得する。したがって、MMB 11は、擬似故障予兆の発生に加えて、さらに、サーバ1において擬似故障予兆を監視する
仕組みである監視機構を検証することが可能となる。
また、本実施形態では、MMB 11は、例えば、SNMPトラップにより、収集した擬似故障、擬似予兆の情報を管理端末 2に通知でき、ユーザサイトで作業を実行するベンダの管理者等に適切に擬似故障、擬似予兆の情報を報知できる。
<記録媒体>
コンピュータその他の機械、装置(以下、コンピュータ等)に上記いずれかの機能を実現させるプログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、Compact Disc(CD)−Read Only Memory(ROM)、CD−Recordable(R)、Digital Versatile Disk(DVD)、ブルーレイディスク、Digital Audio Tape(DAT)、8mmテープ、フラッシュメモリなどのメモリカード等がある。また、コンピュータ等に固定された記録媒体としてハードディスク、ROM(リードオンリーメモリ)等がある。さらに、Solid State Drive(SSD)は、コンピュータ等から取り外し可能な記録媒体としても
、コンピュータ等に固定された記録媒体としても利用可能である。
1 サーバ
2 管理端末
10 システムボード
11 MMB
12 OS
101 CPU
102 DIMM
103 PCIe
104 PCH
105 BIOSのROM
106 SMIハンドラ
107 BMC
100 回路

Claims (5)

  1. プロセッサおよび前記プロセッサに接続される部品のいずれかでの故障がシステム管理モードでアクセス可能なシステム空間に記録されるとともに、前記故障の発生が割り込みハンドラに割り込みで通知されるプロセッサおよび前記部品を有する情報処理装置での擬似故障を発生させるためのプログラムであり、前記情報処理装置を管理する管理コンピュータに、
    前記プロセッサをシステム管理モードに移行させ、
    前記システム空間に擬似故障を示す情報を設定し、
    前記設定後に前記プロセッサをシステム管理モードから非システム管理モードに移行させ、
    前記プロセッサに前記擬似故障に対応する割り込みを発生させること、
    を実行させるためのプログラム。
  2. 前記割り込みによって起動される割り込みハンドラが出力した故障情報を取得することをさらに実行させるための請求項1に記載のプログラム。
  3. 前記管理コンピュータに接続される外部装置から前記擬似故障を発生させる擬似故障発生箇所を指定した指令を受け付け、前記取得した故障情報を前記外部装置に通知することをさらに実行させるための請求項1または2に記載のプログラム。
  4. プロセッサおよび前記プロセッサに接続される部品のいずれかでの故障がシステム管理モードでアクセス可能なシステム空間に記録されるとともに、前記故障の発生が割り込みハンドラに割り込みで通知されるプロセッサおよび前記部品を有する情報処理装置での擬似故障の発生方法であり、前記情報処理装置を管理する管理コンピュータが、
    前記プロセッサをシステム管理モードに移行させ、
    前記システム空間に擬似故障を示す情報を設定し、
    前記設定後に前記プロセッサをシステム管理モードから非システム管理モードに移行させ、
    前記プロセッサに前記擬似故障に対応する割り込みを発生させることを実行する擬似故障の発生方法。
  5. プロセッサおよび前記プロセッサに接続される部品のいずれかでの故障がシステム管理モードでアクセス可能なシステム空間に記録されるとともに、前記故障の発生が割り込みハンドラに割り込みで通知されるプロセッサおよび前記部品を有する情報処理装置での擬似故障の発生装置であり、
    前記プロセッサをシステム管理モードに移行させる手段と、
    前記システム空間に擬似故障を示す情報を設定する手段と、
    前記設定後に前記プロセッサをシステム管理モードから非システム管理モードに移行させる手段と、
    前記プロセッサに前記擬似故障に対応する割り込みを発生させる手段と、
    を備える擬似故障の発生装置。
JP2015218286A 2015-11-06 2015-11-06 擬似故障の発生プログラム、発生方法、及び発生装置 Pending JP2017091077A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015218286A JP2017091077A (ja) 2015-11-06 2015-11-06 擬似故障の発生プログラム、発生方法、及び発生装置
US15/298,291 US10275330B2 (en) 2015-11-06 2016-10-20 Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015218286A JP2017091077A (ja) 2015-11-06 2015-11-06 擬似故障の発生プログラム、発生方法、及び発生装置

Publications (1)

Publication Number Publication Date
JP2017091077A true JP2017091077A (ja) 2017-05-25

Family

ID=58663432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015218286A Pending JP2017091077A (ja) 2015-11-06 2015-11-06 擬似故障の発生プログラム、発生方法、及び発生装置

Country Status (2)

Country Link
US (1) US10275330B2 (ja)
JP (1) JP2017091077A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3314516B1 (en) * 2016-01-26 2022-04-13 Hewlett-Packard Development Company, L.P. System management mode privilege architecture
US10761919B2 (en) * 2018-02-23 2020-09-01 Dell Products, L.P. System and method to control memory failure handling on double-data rate dual in-line memory modules
US10705901B2 (en) 2018-02-23 2020-07-07 Dell Products, L.P. System and method to control memory failure handling on double-data rate dual in-line memory modules via suspension of the collection of correctable read errors
CN108776633B (zh) * 2018-05-22 2021-07-02 深圳壹账通智能科技有限公司 监控进程运行的方法、终端设备及计算机可读存储介质
US10579572B2 (en) * 2018-07-20 2020-03-03 Dell Products, Lp Apparatus and method to provide a multi-segment I2C bus exerciser/analyzer/fault injector and debug port system
US11392441B2 (en) * 2019-12-30 2022-07-19 Advanced Micro Devices, Inc. Error reporting for non-volatile memory modules

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6282439A (ja) 1985-10-08 1987-04-15 Nec Corp 擬似障害発生方式
JPS63296146A (ja) 1987-05-27 1988-12-02 Nec Corp 擬似障害発生方法
JPH02196345A (ja) 1989-01-26 1990-08-02 Nec Corp マイクロプログラム制御装置
US5787270A (en) * 1995-11-15 1998-07-28 Advanced Micro Devices Method and apparatus for intrusive testing of the performance-enhancing features of an advanced microprocessor
JP2010097357A (ja) 2008-10-15 2010-04-30 Fujitsu Ltd 異常通報システム及び診断方法

Also Published As

Publication number Publication date
US10275330B2 (en) 2019-04-30
US20170132102A1 (en) 2017-05-11

Similar Documents

Publication Publication Date Title
WO2022160756A1 (zh) 服务器故障定位方法、装置、系统及计算机可读存储介质
JP2017091077A (ja) 擬似故障の発生プログラム、発生方法、及び発生装置
JP6333410B2 (ja) 障害処理方法、関連装置、およびコンピュータ
TWI632462B (zh) 開關裝置及偵測積體電路匯流排之方法
US9389937B2 (en) Managing faulty memory pages in a computing system
US9021317B2 (en) Reporting and processing computer operation failure alerts
US20140122931A1 (en) Performing diagnostic tests in a data center
US10037238B2 (en) System and method for encoding exception conditions included at a remediation database
WO2009110111A1 (ja) サーバ装置及びサーバ装置の異常検知方法及びサーバ装置の異常検知プログラム
CN104639380A (zh) 服务器监控方法
JP5370591B2 (ja) システムおよび障害処理方法
TWI261748B (en) Policy-based response to system errors occurring during OS runtime
CN108292342B (zh) 向固件中的侵入的通知
TW201415213A (zh) 故障自檢系統及方法
JP7436737B1 (ja) マルチベンダーを支援するサーバ管理システム
JP5689783B2 (ja) コンピュータ、コンピュータシステム、および障害情報管理方法
WO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
WO2017072904A1 (ja) 計算機システム、及び、障害検知方法
JP5909948B2 (ja) 情報処理装置および情報処理装置の試験方法
CN115599617B (zh) 总线检测方法、装置、服务器及电子设备
US11126486B2 (en) Prediction of power shutdown and outage incidents
JP2017151511A (ja) 情報処理装置、動作ログ取得方法および動作ログ取得プログラム
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法
Eldor Stability Issues in On-Premises Kafka Data Centers
CN114356708A (zh) 一种设备故障监控方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190514

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190716

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190806

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191106

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20191114

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20191129