JP5141381B2 - 情報処理装置、エラー通知プログラム、エラー通知方法 - Google Patents

情報処理装置、エラー通知プログラム、エラー通知方法 Download PDF

Info

Publication number
JP5141381B2
JP5141381B2 JP2008144250A JP2008144250A JP5141381B2 JP 5141381 B2 JP5141381 B2 JP 5141381B2 JP 2008144250 A JP2008144250 A JP 2008144250A JP 2008144250 A JP2008144250 A JP 2008144250A JP 5141381 B2 JP5141381 B2 JP 5141381B2
Authority
JP
Japan
Prior art keywords
information
error
unit
value
error notification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008144250A
Other languages
English (en)
Other versions
JP2009289234A (ja
Inventor
保 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008144250A priority Critical patent/JP5141381B2/ja
Priority to KR1020090023773A priority patent/KR101017296B1/ko
Priority to EP09156120A priority patent/EP2131283A3/en
Priority to CN2009101339784A priority patent/CN101599031B/zh
Priority to US12/427,168 priority patent/US7992056B2/en
Publication of JP2009289234A publication Critical patent/JP2009289234A/ja
Application granted granted Critical
Publication of JP5141381B2 publication Critical patent/JP5141381B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit

Description

ハードウェアエラーが頻発することによりエラー通知が抑止されているハードウェアを、システム動作中に交換(ホットリプレース)した際、エラー通知を有効にする情報処理装置、エラー通知プログラム、エラー通知方法に関する。
ハードウェアにエラーが起きた場合、発生したエラーの情報をSRAMやNVRAM等の不揮発性メモリやハードディスク等記憶装置の記憶領域に格納する。ユーザは格納されたエラー情報を参照することで、ハードウェアエラーの発生を知り、部品交換などの参考にする。
一方、同一内容のエラーが頻発した場合、全てのエラー情報を記憶領域に格納すると、以下の問題が発生する。
・多くのエラー情報を記憶領域に格納するため、記憶領域不足が発生しやすくなる。
・記憶領域が同一内容のエラーで一杯となり、ユーザは他のエラーが発生しているか否かを確認するのに時間がかかる。
・多くのエラーを通知するため、エラー通知時間が長くなりエラー通知以外の処理の性能が劣化する。
したがって、同一内容のエラーが頻発した場合など、エラー発生履歴を記録し、一定数以上のエラー情報を格納するのを抑止する機能が一般的に用いられている。
一方、一部のコンピュータシステムは、システムを動作中にハードウェアの一部のモジュールを交換することが可能なホットリプレース機能を有する。ホットリプレース機能は、システムを止めることなくエラーが頻発したハードウェアを交換する場合などに使用される。
ハードウェアを交換した場合、交換後のハードウェアは、エラーが発生したことのないハードウェアである。したがって、交換後のハードウェアにてエラーが発生した場合、再交換の検討などを行う必要があるためエラーを通知しなければならない。つまり、システムを動作中にハードウェア交換が行われた後に、ハードウェアエラーが発生した場合はエラーを通知する必要がある。
一般的には、以下の2種類の方法によってハードウェア交換後のエラー通知を抑止しないようにしている。
1つ目の方法は、ハードウェア交換を行うタイミングに、「エラー通知を抑止している」という情報をクリアすることで、エラー通知を有効にする方法である。
ハードウェアの交換を管理しているサーバ管理ソフトウェア、サービスプロセッサなどのソフトウェアにてエラー通知の抑止等の設定がなされている場合、ユーザはハードウェア交換のタイミングを知ることができるため、ハードウェア交換時に「エラー通知を抑止している」という情報をクリアする方法が用いられている。
2つ目の方法は、交換対象のハードウェア上にエラーの発生履歴を管理する領域を設ける方法である。
まず、交換対象のハードウェア上にエラー発生回数や「エラー通知を抑止している」という情報を格納する領域を設ける。エラーが頻発し、「エラー通知を抑止している」状態のハードウェアを交換すると、交換後のハードウェアのエラー履歴を管理する領域は初期状態である「エラー通知を抑止していない」という情報となっているため、ハードウェア交換後のエラー通知を抑止しないようにすることが可能である。
特開昭61−282944号公報 特開平4−003233号公報 特開昭57−161949号公報
ここで、上述のハードウェア交換後のエラー通知を抑止しないようにする一般的な2種類の方法について、問題点を説明する。
1つ目の方法である、ハードウェア交換を行うタイミングに「エラー通知を抑止している」という情報をクリアする方法の問題点は以下のとおりである。
通常、サーバ管理ソフトウェア、サービスプロセッサなどはシステムのCPU(Central Processing Unit)、メモリ等へのアクセスを行うことができないため、CPU、メモリ等で発生したエラーを検出できない。一方、BIOS(Basic Input Output System)等ファームウェアは、システムのCPU、メモリ等へのアクセスを行うことができるため、CPU、メモリ等で発生したエラーを検出できる。
BIOS等ファームウェアが検出するエラーについては、BIOS等ファームウェアがエラー通知抑止等の管理を行う場合が一般的である。
BIOS等ファームウェアが検出するエラーについても、BIOS等ファームウェアはエラー通知抑止を行わず、サーバ管理ソフトウェア、サービスプロセッサなどがエラー通知抑止等の管理を行う方法もあるが、システム内部においてエラー頻発時には多くのエラーが通知されるため、エラー通知時間が長くなりエラー通知以外の処理の性能が劣化する等、問題が発生する。
また、一般的にBIOS等ファームウェアは、ハードウェア交換時にハードウェア交換のための処理を行う必要がなく、よってハードウェア交換時に呼び出されることはない。つまり、BIOS等ファームウェアがエラー通知抑止等の管理を行うシステムの場合、ハードウェア交換時に「エラー通知を抑止している」という情報をクリアするためには、ハードウェア交換を行うタイミングでBIOS等ファームウェアを呼び出してもらうよう処理を追加する必要がある。
また、一般的に使用されている汎用OSによってシステム動作中のハードウェア交換を行う場合、OSおよびOSドライバが交換処理を行う。ハードウェア交換を行うタイミングでBIOS等ファームウェア呼び出しを行うためには、システムに依存した処理が必要となる。例えば、チップセットにファームウェア割込みを発行するためのレジスタを準備しておき、OSドライバが交換処理時にチップセットレジスタへのライトすることで、ファームウェア呼び出しを行う必要がある。
つまり、エラー通知処理をBOIS等ファームウェアで行っているコンピュータシステムでは、ハードウェア交換時に「エラー通知を抑止している」という情報をクリアするためには、専用のハードウェアを準備し、OSまたはOSドライバにて、システム依存した処理を行う必要がある。また、システムに依存した処理をOSまたはOSドライバで実現するためには、OSまたはOSドライバをシステム毎に変更する必要があるなどの問題がある。
上述の2つ目の方法である、交換対象のハードウェア上にエラーの発生履歴を管理する領域を設ける方法の問題点は以下のとおりである。
エラーの発生履歴を管理する領域は、ある程度大きなサイズが必要である。例えば交換対象ハードウェア上の部品ごとに、エラー発生回数やエラー発生時間、エラーを抑止しているかどうかのフラグなどの情報を格納する必要がある。
しかし、市販のチップセットを組合せて構築するシステムにおいては、交換対象ハードウェア上に専用のメモリ領域を持つなどの対応なしに、交換対象ハードウェア上にエラーの発生履歴を管理する領域を確保することは難しい。市販のチップセットは、大きなサイズの記憶領域を内蔵していないことが多いためである。
交換対象ハードウェア上に専用のメモリ領域を持つ場合は、部品コストアップ、部品実装面積が大きくなるなどの問題がある。
上述した問題点を解決するため、交換対象となるユニットに交換情報というサイズの小さい情報を保持させることで、システム動作中にユニットが交換された際、エラー通知の抑止を解除することができる情報処理装置、エラー通知プログラム、エラー通知方法を提供することを目的とする。
情報処理装置は、演算処理装置を有するユニットを備えた情報処理装置であって、前記ユニットが交換された旨の交換情報が格納されるとともに、前記情報処理装置の起動時又は前記ユニットの交換時に前記交換情報が初期化される交換情報記憶部を有し、前記ユニットに実装される制御装置と、前記制御装置におけるエラーの発生に基づくエラー情報が格納されるとともに、前記情報処理装置の起動時に前記エラー情報が初期化される第1の記憶装置と、前記情報処理装置の初期化を行う初期化制御部と、前記記憶装置に格納されるエラー情報の監視を行うエラー監視部を備え、前記ユニットの制御を行うユニット制御部を有することを特徴とする。
また、エラー通知プログラムは、情報処理装置が稼動中でも交換可能なユニットの内部でエラーが発生した際のエラー通知をコンピュータに実行させるエラー通知プログラムであって、前記ユニットが交換された際に、該ユニットに備えられた記憶装置に保持された情報であって、前記ユニットが交換された旨を示す情報である交換情報を初期化するステップと、前記交換情報が初期化されている場合にエラーが発生した際、エラーの通知を抑止する旨を示す情報である抑止情報を初期化するとともに、前記交換情報に所定の値を設定するステップと、エラーの発生頻度に基づき、前記抑止情報に所定の値を設定するステップと、前記抑止情報に前記所定の値が設定されている場合、エラーの通知を抑止し、前記抑止情報に前記所定の値が設定されていない場合、エラーを通知するステップと、をコンピュータに実行させる。
さらに、エラー通知方法は、情報処理装置が稼動中でも交換可能なユニットの内部でエラーが発生した際のエラー通知方法であって、前記ユニットが交換された際に、該ユニットに備えられた記憶装置に保持された情報であって、前記ユニットが交換された旨を示す情報である交換情報を初期化するステップと、前記交換情報が初期化されている場合にエラーが発生した際、エラーの通知を抑止する旨を示す情報である抑止情報を初期化するとともに、前記交換情報に所定の値を設定するステップと、エラーの発生頻度に基づき、前記抑止情報に所定の値を設定するステップと、前記抑止情報に前記所定の値が設定されている場合、エラーの通知を抑止し、前記抑止情報に前記所定の値が設定されていない場合、エラーを通知するステップと、を実行する。
ユニット上に保持された交換情報に基づき、エラー通知の抑止、および抑止の解除を制御できる。
本実施の形態におけるコンピュータシステム(情報処理装置)について説明する。尚、本実施の形態では、ハードウェア交換対象品がCPUボード(ユニット)である場合を例に説明する。また、本実施の形態のコンピュータシステムは、予め稼動、非稼動のCPUボードを少なくとも2枚備え、CPUボード上にエラーが生じた際、稼動中のCPUボードの通電をオフにするとともに非稼動のCPUボードの通電をオンにすることで、CPUボードの交換がなされるものとする。尚、本実施の形態は、CPUボードを物理的に取り替える形態(エラーのあったCPUボードを物理的に取り出し、新しいCPUボードをコンピュータシステムに物理的に組み込む形態)に対しても適用可能である。
図1に本実施の形態のコンピュータシステムの構成図を示す。コンピュータシステム100は、システム動作中であっても交換可能とするホットリプレース機能を有するCPUボード1(ユニット)、コンピュータシステム100の制御およびエラーが発生した場合の通知先であるサービスプロセッサ2(システム制御装置)を備える。
また、コンピュータシステム100は、周辺機器のデータ入出力を制御するIOコントローラ3を備え、IOコントローラ3は、図示しないモニターの表示制御を行うビデオコントローラ6、ネットワークへの通信制御を行うLANコントローラ7、およびハードディスク5への入出力制御を行うハードディスクコントローラ8と接続されている。
また、コンピュータシステム100は、不揮発性の記憶装置であり、コンピュータシステム100の全体の制御に係るBIOSである制御ファームウェア41を保持するROM4を備える。また、コンピュータシステム100はハードディスク5を備え、ハードディスク5には、OSおよびOSドライバ51(以下、OS/OSドライバ51と記す)が保持されている。またハードディスク5はハードディスクコントローラ8と接続している。
CPUボード1について説明する。CPUボード1は、制御装置としてCPU11(演算処理装置)、記憶装置であるメモリ13を備える。また、CPUボード1は、CPUボード用のBIOSである初期化ファームウェア17を保持するROM14を備える。また、CPUボード1は、CPU11、メモリ13、およびROM14のデータ入出力を制御するCPUボードコントローラ12を備える。CPUボードコントローラ12は、サービスプロセッサ2、CPU11、メモリ13、ROM14、IOコントローラ3とそれぞれ接続されている。
尚、図1中に交換先のCPUボードとしてCPUボード1Aも図示しているが、CPUボード1Aに備えられた制御装置の構成はCPUボード1と同様であるため、説明を省略する。
メモリ13は、エラーの発生履歴を管理するためのエラー履歴管理領域15を備え、CPUボードコントローラ12はハードウェアが変更されたかどうかを管理するハードウェア交換管理領域16(交換情報記憶部)を備える。ここで、エラー履歴管理領域15およびハードウェア交換管理領域16について説明する。
エラー履歴管理領域15は、以下の特徴を有する。
・エラー履歴を記録する領域である。
・コンピュータシステム100の起動時に、初期化ファームウェア17により初期化される。
・エラー発生時に、制御ファームウェア41により、エラー履歴としてエラー発生箇所、エラー発生回数、エラー発生時間、エラー通知抑止フラグ(エラー通知を抑止するか否かを示すフラグ)(抑止情報)を記録する。
・コンピュータシステム100の動作中にCPUボード1からCPUボード1Aへ交換を行った際は、領域は初期化されない(ハードウェア交換前後で情報が変更されない)。
・比較的大きなサイズが必要である。
・存在する場所は、交換対象のユニット上(CPUボード1上)でもよいし、交換対象のユニット上でなくてもよい。
また、ハードウェア交換管理領域16は、以下の特徴を有する。
・CPUボードが交換されたかどうかを管理する領域である。
・交換対象のユニット上(CPUボード1、1A上)に存在する必要がある。
・コンピュータシステム100の起動時に、初期化ファームウェア17により初期化される。
・エラー発生時に、制御ファームウェア41により、ユニットでエラーが発生したことを示す情報が記録される。
・コンピュータシステム100の動作中にハードウェア交換が行われた際は、初期化ファームウェア17により初期化される。
・1ビット以上のサイズがあればよい。例えば、チップセットのレジスタ領域などが使用される。
制御ファームウェア41と初期化ファームウェア17は、エラー履歴管理領域15とハードウェア交換管理領域16を制御することで、エラー通知抑止等の管理を行う。
次に、制御ファームウェア41および初期化ファームウェア17について説明する。
まず、制御ファームウェア41の特徴を以下に示す。
・存在する場所は、交換対象のユニット上(CPUボード1、1A上)でもよいし、交換対象のユニット上でなくてもよい。
・制御ファームウェア41は、エラー発生時のエラー通知処理等、システムの制御を行うユニット制御部45として機能する。尚、ユニット制御部45は、さらに細分化すると、エラー履歴管理領域に格納されるエラー情報の監視を行うエラー監視部、エラー情報をサービスプロセッサ2に通知するエラー通知部43、およびエラーの発生頻度が所定の頻度を超えた場合に、エラー通知部43によるエラー情報のサービスプロセッサ2への通知を抑止するエラー通知抑止部44として機能する。
次に、初期化ファームウェア17の特徴を以下に示す。
・コンピュータシステム100の起動時に、ハードウェアの初期化を行い、CPUボード1の交換時に、交換先(追加される)CPUボード1Aの初期化を行う初期化制御部18として機能する。
・交換対象のハードウェア上(CPUボード1、1A上)に存在する必要がある。
尚、ユニット制御部45、エラー監視部42、エラー通知部43、エラー通知抑止部44、および初期化制御部18で行われる各機能は、それぞれ上述のファームウェアがCPU11等の演算処理装置により実行されることで(すなわち、ソフトウェア資源とハードウェア資源とが協働することで)実現される。
次に、コンピュータシステム100が動作中にエラーが頻発しているCPUボード1をCPUボード1Aに交換する場合の流れを図2から図6を参照しつつ説明する。
まず、コンピュータシステム100の起動後エラー発生前の状態を図2に示す。エラー履歴管理領域15とハードウェア交換管理領域16は、初期化ファームウェア17(初期化制御部18)により、コンピュータシステム100の起動時に以下に設定される。
・エラー履歴管理領域15のエラー通知抑止フラグ=初期値
・ハードウェア交換管理領域16=初期値
次に、CPUボード1上のCPUボードコントローラ12にエラーが頻発したときの状態を図3に示す。エラーが頻発しているため、エラー履歴管理領域15とハードウェア交換管理領域16は、制御ファームウェア41のエラー通知部43およびエラー通知抑止部44により以下に設定される。
・エラー履歴管理領域15のエラー通知抑止フラグ=「エラー抑止」
・ハードウェア交換管理領域16=「エラー発生あり」
尚、エラー履歴管理領域15のエラー通知抑止フラグが「エラー抑止」に設定されることで、以降のエラー通知は抑止される。
図4は、エラーが頻発したCPUボード1を、動作中にCPUボード1Aに交換するときの状態を示す図である。ハードウェア交換時には、OS/OSドライバ51により、メモリ情報が交換元(削除される)CPUボード1から交換先(追加される)CPUボード1Aにコピーされる。よって、メモリ上に存在するエラー履歴管理領域15はハードウェア交換前と同じ以下の設定のままである。
・エラー履歴管理領域15のエラー通知抑止フラグ=「エラー抑止」
一方、ハードウェア交換管理領域16は、交換先の初期化ファームウェア17(初期化制御部18)により以下に設定される。尚、交換されたCPUボード1Aが通電したときに、初期化ファームウェア17が起動する。
・ハードウェア交換管理領域16=初期値
図5は、ハードウェア交換後の状態を示す図である。CPUボード1Aのエラー履歴管理領域15とハードウェア交換管理領域16は、図4の設定のままである。
図6は、CPUボード1の交換後にエラーが発生したときの状態を示す図である。ハードウェア交換管理領域16が初期値(「エラー発生なし」)であるため、制御ファームウェア41のエラー通知部43は、CPUボード1が交換されたと判定する。すなわち、ハードウェア交換管理領域16に保持される情報は、エラーが発生したか否かを判定する以外に、ユニットが交換されたか否かの情報(交換情報)としても機能するといえる。
その後、CPUボードが交換されたと判定したエラー通知部43は、エラー履歴管理領域15を初期化することでエラー通知抑止フラグを解除し、またハードウェア交換管理領域16を「エラー発生あり」旨のフラグにし、発生したエラーを通知する。
次に、エラー履歴管理領域15、ハードウェア交換管理領域16を使用することによるエラー通知の抑止および抑止解除の方法を図7、図8のフローチャートを参照しつつ説明する。
まず、コンピュータシステム100の起動時またはハードウェア交換時の処理について、図7に基づき説明する。
ユーザ等より、コンピュータシステム100の起動またはハードウェア交換が指示された場合(ステップS1)、サービスプロセッサ2は、コンピュータシステム100の起動と、ハードウェア交換のどちらの起動であるかを示すフラグを、初期化ファームウェア17から参照可能な箇所(例えばCPUボードコントローラ12の内部)に設定する(ステップS2)。
次に、サービスプロセッサ2は、初期化ファームウェア17を起動し、初期化ファームウェア17の処理が開始される(ステップS3)。
初期化ファームウェア17は、ステップS2によって設定されたフラグを参照することで、コンピュータシステム100の起動か、または交換したときに生ずるCPUボード1の起動かを判定する(ステップS4)。
ここで、CPUボード1の交換起動の場合(ステップS4、CPUボード交換起動)、初期化制御部18は、ハードウェア交換管理領域16を初期化することで(ステップS9)、交換先のハードウェアの初期化が完了する(ステップS10)。
一方、コンピュータシステム100の起動である場合(ステップS4、システム起動)、初期化制御部18は、エラー履歴管理領域15を初期化し(ステップS5)、ハードウェア交換管理領域16を初期化する(ステップS6)。
その後、OSが起動し(ステップS7)、コンピュータシステム100の起動が完了する(ステップS8)。
次に、コンピュータシステム100の起動後にエラーが発生した場合における制御ファームウェア41の処理を図8のフローチャートに基づき説明する。
まず、エラーが発生した際(ステップS21)、エラー通知部43は、ハードウェア交換管理領域16のフラグが初期値のものであるかを判定する(ステップS22)。
ここで、ハードウェア交換管理領域16のフラグが初期値である場合(ステップS22、Yes)、エラー通知部43は、エラー履歴管理領域15を初期化する(ステップS27)。またエラー通知部43は、ハードウェア交換管理領域16のフラグを「エラー発生あり」旨の値に設定する(ステップS28)。その後、エラー通知部43は、エラー履歴管理領域15にエラー発生箇所、エラー発生回数、エラー発生時間の各情報を追記することで更新する(ステップS23)。
一方、ハードウェア交換管理領域16のフラグが初期値でない(すなわち、「エラー発生あり」旨の値)である場合(ステップS22、No)、エラー通知部43はそのままステップS23の処理を実行する。
次に、エラー監視部42は、メモリ13のエラー履歴管理領域15のエラー情報が追記されたか否かの監視を行うことで、エラーが発生したことを検知し、エラー通知抑止部44に対し処理実行依頼をする。
エラー通知抑止部44は、エラー履歴管理領域15に格納された上述のエラー発生箇所、エラー発生回数、およびエラー発生時間に基づき、同一箇所で短時間のうちに何回エラーが発生しているかの指標であるエラー発生頻度を求め、予め設定された所定の頻度と比較することで、エラーが頻発しているかを判定する(ステップS24)。エラー発生頻度は、例えば当該発生箇所で、所定の時間間隔内にエラーが何回発生したかで算出される。
エラー通知抑止部44は、エラーが頻発していると判定した場合(ステップS25、Yes)、エラー履歴管理領域15のエラー通知抑止フラグを「エラー抑止」旨の値に設定する(ステップS29)。
一方、エラー通知抑止部44によってエラーが頻発していると判定されない場合(ステップS25、No)、処理はそのままステップS26へ進む。
次に、エラー通知部43は、エラー履歴管理領域15のエラー通知抑止フラグが「エラー抑止」旨の値であるか否かを判定する(ステップS26)。ここで「エラー抑止」旨の値でない場合(ステップS26、No)、エラー通知部43は、エラー情報をサービスプロセッサ2に通知し(ステップS30)、処理は終了する(ステップS31)。一方、「エラー抑止」旨の値である場合(ステップS26、Yes)、そのまま処理は終了する(ステップS31)。
上述に記載の他の配置例として、図9、図10に示す。図9は、制御ファームウェア41が交換対象のユニット上(CPUボード1、1A上)に存在する場合の配置例である。また、図10は、エラー履歴管理領域15が交換対象のユニットであるCPUボード1、1Aの外(図10においては、交換対象でないCPUボード1B上のメモリ13B内)に存在する場合の配置例である。かかる配置構成でも、上述同様の処理および対処を行うことができる。
尚、第1の記憶装置は、本実施の形態におけるエラー履歴管理領域15として使用されるメモリまたはROMに対応し、第2の記憶装置は、本実施の形態における初期化ファームウェア17が格納されるROMに対応する。また第3の記憶装置は、制御ファームウェア41が格納されるROMに対応する。
本実施の形態により、汎用OSにてシステム動作中にユニットの交換を行う場合、交換後のユニットで生ずるエラーを通知抑止しないようにするため、システムに依存したOSまたはOSドライバを使用する必要がなくなる。したがって、OSまたはOSドライバの開発工数削減、開発スピード向上などの効果がある。
尚、コンピュータシステム(情報処理装置)を構成するコンピュータにおいて上述した各ステップを実行させるプログラムを、エラー通知プログラムとして提供することができる。上述したプログラムは、コンピュータにより読取り可能な記録媒体に記憶させることによって、情報処理装置を構成するコンピュータに実行させることが可能となる。ここで、上記コンピュータにより読取り可能な記録媒体としては、ROMやRAM等のコンピュータに内部実装される内部記憶装置、CD−ROMやフレキシブルディスク、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータベースや、更に回線上の伝送媒体をも含むものである。
本実施の形態に係るコンピュータシステムの構成の一例を示す図である。 本実施の形態に係るエラー発生前の状態を示す図である。 本実施の形態に係るCPUボードコントローラにエラーが頻発したときの状態を示す図である。 本実施の形態に係るエラーが頻発したCPUボードを、コンピュータシステム動作中に交換した状態の一例を示す図である。 本実施の形態に係るCPUボード交換後の状態を示す図である。 本実施の形態に係るCPUボードの交換後にエラーが発生したときの状態の一例を示す図である。 本実施の形態に係るコンピュータシステムの起動時またはハードウェア交換時の処理の一例を示すフローチャートである。 本実施の形態に係るエラーが発生した場合の制御ファームウェアの処理を示すフローチャートである。 本実施の形態に係る、制御ファームウェアがCPUボードに存在する場合の配置の一例を示す図である。 本実施の形態に係る、エラー履歴管理領域がCPUボードの外に存在する場合の配置の一例を示す図である。
符号の説明
1 CPUボード、1A CPUボード、1B CPUボード、2 サービスプロセッサ、3 IOコントローラ、4 ROM、5 ハードディスク、6 ビデオコントローラ、7 LANコントローラ、8 ハードディスクコントローラ
11 CPU、12 CPUボードコントローラ、13 メモリ、14 ROM
15 エラー履歴管理領域、16 ハードウェア交換管理領域、17 初期化ファームウェア、18 初期化制御部、41 制御ファームウェア、42 エラー監視部、43 エラー通知部、44 エラー通知抑止部、45 ユニット制御部、51 OS/OSドライバ、100 コンピュータシステム。

Claims (9)

  1. 演算処理装置を有するユニットを備えた情報処理装置であって、
    前記ユニットが交換された旨の交換情報が格納されるとともに、前記情報処理装置の起動時又は前記ユニットの交換時に前記交換情報が初期化される交換情報記憶部を有し、前記ユニットに実装される制御装置と、
    前記制御装置におけるエラーの発生に基づくエラー情報と、該エラー情報の通知が抑止されているか否かを示す抑止情報とが格納されるとともに、前記情報処理装置の起動時に前記エラー情報が初期化される第1の記憶装置と、
    エラーが発生した場合、前記交換情報の値が初期値であるか否かの判断を行い、前記交換情報の値が初期値である場合、前記抑止情報を初期化し、前記交換情報の値を前記初期値以外の値に設定するエラー通知部と、
    前記制御装置における前記エラーの発生頻度が所定の頻度を超えた場合に、前記抑止情報に前記エラー情報の通知を抑止することを示す所定値を設定するエラー通知抑止部と、
    前記情報処理装置の初期化を行う初期化制御部と、
    前記第1の記憶装置に格納される前記エラー情報の監視を行うエラー監視部を備え、前記ユニットの制御を行うユニット制御部を有し、
    前記エラー通知部は、
    前記抑止情報に前記所定値が設定されているか否かを判断し、前記所定値がセットされていない場合、前記エラー情報を通知し、前記所定値がセットされている場合、前記エラー情報を通知しないことを特徴とする情報処理装置。
  2. 前記第1の記憶装置に格納される前記エラー情報は、前記情報処理装置の起動時に、前記初期化制御部により初期化されることを特徴とする請求項1記載の情報処理装置。
  3. 前記第1の記憶装置に格納される前記エラー情報は、前記制御装置におけるエラーの発生時に、前記エラー通知部により格納されることを特徴とする請求項1または請求項2のいずれか1項に記載の情報処理装置。
  4. 前記情報処理装置はさらに、前記第1の記憶装置とは異なる第2の記憶装置を有し、
    前記第2の記憶装置に格納された初期化ファームウェアを実行させることにより、前記演算処理装置を初期化制御部として機能させることを特徴とする請求項1乃至のいずれか1項に記載の情報処理装置。
  5. 前記情報処理装置はさらに、前記第1の記憶装置と前記第2の記憶装置とは異なる第3の記憶装置を有し、
    前記第3の記憶装置に格納された制御ファームウェアを実行させることにより、前記演算処理装置を前記ユニット制御部として機能させることを特徴とする請求項記載の情報処理装置。
  6. 前記第3の記憶装置は、前記ユニットに実装されることを特徴とする請求項記載の情報処理装置。
  7. 情報処理装置が稼動中でも交換可能なユニットの内部でエラーが発生した際のエラー通知をコンピュータに実行させるエラー通知プログラムであって、
    前記ユニットが交換された際に、該ユニットに備えられた記憶装置に保持された情報であって、前記ユニットが交換された旨を示す情報である交換情報を初期化するステップと、
    エラーが発生した場合、前記交換情報の値が初期値であるか否かの判断を行い、前記交換情報の値が初期値である場合、エラーの通知が抑止されているか否かを示す抑止情報を初期化し、前記交換情報の値を前記初期値以外の値に設定するステップと、
    エラーの発生頻度に基づき、前記抑止情報に所定の値を設定するステップと、
    前記抑止情報に前記所定の値が設定されている場合、エラーの通知を抑止し、前記抑止情報に前記所定の値が設定されていない場合、エラーを通知するステップと、
    をコンピュータに実行させるエラー通知プログラム。
  8. さらに、前記情報処理装置の起動かユニットの交換に伴う起動かを判定するステップをコンピュータに実行させ、
    前記交換情報を初期化するステップは、前記判定結果が前記情報処理装置の起動である場合、さらに、前記抑止情報を初期化することを特徴とする請求項記載のエラー通知プログラム。
  9. 情報処理装置が稼動中でも交換可能なユニットの内部でエラーが発生した際のエラー通知方法であって、
    前記ユニットが交換された際に、該ユニットに備えられた記憶装置に保持された情報であって、前記ユニットが交換された旨を示す情報である交換情報を初期化するステップと、
    エラーが発生した場合、前記交換情報の値が初期値であるか否かの判断を行い、前記交換情報の値が初期値である場合、エラーの通知が抑止されているか否かを示す抑止情報を初期化し、前記交換情報の値を前記初期値以外の値に設定するステップと、
    エラーの発生頻度に基づき、前記抑止情報に所定の値を設定するステップと、
    前記抑止情報に前記所定の値が設定されている場合、エラーの通知を抑止し、前記抑止情報に前記所定の値が設定されていない場合、エラーを通知するステップと、
    を実行するエラー通知方法。
JP2008144250A 2008-06-02 2008-06-02 情報処理装置、エラー通知プログラム、エラー通知方法 Expired - Fee Related JP5141381B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2008144250A JP5141381B2 (ja) 2008-06-02 2008-06-02 情報処理装置、エラー通知プログラム、エラー通知方法
KR1020090023773A KR101017296B1 (ko) 2008-06-02 2009-03-20 정보 처리 장치, 에러 통지 프로그램, 에러 통지 방법
EP09156120A EP2131283A3 (en) 2008-06-02 2009-03-25 Information processing apparatus, program, and medium for recording error notification
CN2009101339784A CN101599031B (zh) 2008-06-02 2009-04-16 信息处理设备和错误通知方法
US12/427,168 US7992056B2 (en) 2008-06-02 2009-04-21 Error monitoring and notification for a replaceable unit

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008144250A JP5141381B2 (ja) 2008-06-02 2008-06-02 情報処理装置、エラー通知プログラム、エラー通知方法

Publications (2)

Publication Number Publication Date
JP2009289234A JP2009289234A (ja) 2009-12-10
JP5141381B2 true JP5141381B2 (ja) 2013-02-13

Family

ID=41181056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008144250A Expired - Fee Related JP5141381B2 (ja) 2008-06-02 2008-06-02 情報処理装置、エラー通知プログラム、エラー通知方法

Country Status (5)

Country Link
US (1) US7992056B2 (ja)
EP (1) EP2131283A3 (ja)
JP (1) JP5141381B2 (ja)
KR (1) KR101017296B1 (ja)
CN (1) CN101599031B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8819498B2 (en) * 2011-09-09 2014-08-26 Xerox Corporation Fault-based unit replacement
JP5518021B2 (ja) * 2011-09-19 2014-06-11 三菱電機株式会社 情報処理装置
CN107656855B (zh) * 2016-07-26 2020-06-30 佛山市顺德区顺达电脑厂有限公司 提醒用户放错cpu的系统及其方法
US10009482B1 (en) * 2017-02-28 2018-06-26 Kyocera Document Solutions Inc. System and method for diagnosing parts of a printing device to be replaced based on an incident rate
KR102413096B1 (ko) * 2018-01-08 2022-06-27 삼성전자주식회사 전자 장치 및 그 제어 방법
US10542159B1 (en) * 2018-11-20 2020-01-21 Kyocera Document Solutions Inc. System and method for diagnosing parts of a printing device to be replaced based on an incident rate
JP7338354B2 (ja) * 2019-09-20 2023-09-05 富士通株式会社 情報処理装置,情報処理システム及び通信管理プログラム

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57161949A (en) 1981-03-30 1982-10-05 Fujitsu Ltd Method for diagnosis and repairment of package
JPS61282944A (ja) 1985-06-07 1986-12-13 Fujitsu Ltd ログ縮小方式
CN1168004C (zh) * 1989-05-17 2004-09-22 国际商业机器公司 在数据处理系统中提供容错环境和体系结构的装置
JPH043233A (ja) 1990-04-20 1992-01-08 Nec Corp 情報処理システムの故障診断結果表示方式
JP3255934B2 (ja) * 1991-01-25 2002-02-12 株式会社日立製作所 ベーシックプロセッシングユニット及び高信頼化コンピュータシステム
JPH0520251A (ja) * 1991-07-16 1993-01-29 Meidensha Corp 二重化プロセス入出力装置の切換方式
US5293556A (en) * 1991-07-29 1994-03-08 Storage Technology Corporation Knowledge based field replaceable unit management
JPH06139112A (ja) * 1992-10-23 1994-05-20 Fujitsu Ltd フラグコード作成方法及びフラグコード作成装置
JP3269582B2 (ja) * 1992-12-16 2002-03-25 株式会社インテック ユニット式多重化システムのための制御方式
JPH1011319A (ja) * 1996-06-25 1998-01-16 Hitachi Ltd マルチプロセッサシステムの保守方法
AU2001288352A1 (en) * 2000-09-01 2002-03-22 Interwave Communications, Inc. Alternate fault notification system in a communication network
US6684180B2 (en) * 2001-03-08 2004-01-27 International Business Machines Corporation Apparatus, system and method for reporting field replaceable unit replacement
KR100461555B1 (ko) * 2001-11-19 2004-12-14 에스케이 텔레콤주식회사 네트워크상에서의 컨텐츠 서비스 감시 장치 및 그 방법
JP3891004B2 (ja) * 2002-02-26 2007-03-07 日本電気株式会社 情報処理システム及び該システムの制御方法並びにプログラム
US6892159B2 (en) * 2002-05-17 2005-05-10 Sun Microsystems, Inc. Method and system for storing field replaceable unit operational history information
US7168007B2 (en) * 2002-05-17 2007-01-23 Sun Microsystems, Inc. Field replaceable unit (FRU) identification system tool
US7131030B2 (en) * 2002-05-17 2006-10-31 Sun Microsystems, Inc. Method and system for storing field replaceable unit repair history information
US20040064620A1 (en) * 2002-09-30 2004-04-01 Kaushik Shivnandan D. Device representation apparatus and methods
US20040221198A1 (en) * 2003-04-17 2004-11-04 Vecoven Frederic Louis Ghislain Gabriel Automatic error diagnosis
US7415634B2 (en) * 2004-03-25 2008-08-19 International Business Machines Corporation Method for fast system recovery via degraded reboot
JP2005301593A (ja) * 2004-04-09 2005-10-27 Fujitsu Ltd マルチプロセッサシステム、プロセッサ装置
JP4479959B2 (ja) * 2004-12-24 2010-06-09 株式会社富士通エフサス 診断システムおよび診断方法
JP4297056B2 (ja) * 2005-01-19 2009-07-15 トヨタ自動車株式会社 故障診断データ記録システム及び故障診断データ記録方法
KR100676462B1 (ko) * 2005-06-07 2007-01-30 서울통신기술 주식회사 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법
EP1986068A1 (en) * 2006-01-26 2008-10-29 Fujitsu Ltd. Information processing device parts history management system
JP4836732B2 (ja) * 2006-09-27 2011-12-14 富士通株式会社 情報処理装置
US7770048B2 (en) * 2007-05-17 2010-08-03 International Business Machines Corporation Calculating and indicating a number of times a device is inserted into a slot

Also Published As

Publication number Publication date
US7992056B2 (en) 2011-08-02
KR20090125689A (ko) 2009-12-07
EP2131283A3 (en) 2010-09-22
CN101599031B (zh) 2012-07-04
CN101599031A (zh) 2009-12-09
KR101017296B1 (ko) 2011-02-28
JP2009289234A (ja) 2009-12-10
EP2131283A2 (en) 2009-12-09
US20090300433A1 (en) 2009-12-03

Similar Documents

Publication Publication Date Title
JP5141381B2 (ja) 情報処理装置、エラー通知プログラム、エラー通知方法
EP2510439B1 (en) Managing errors in a data processing system
US8713350B2 (en) Handling errors in a data processing system
JP5925803B2 (ja) リソースアクセスパターンに基づくアプリケーションの障害の予測、診断、および障害からの復旧
JP4870047B2 (ja) エラーハンドリング及びファームウェア更新を調停するための方法及びシステム
US9026865B2 (en) Software handling of hardware error handling in hypervisor-based systems
US20170149925A1 (en) Processing cache data
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
JP2011108201A (ja) 情報処理装置、診断方法および診断プログラム
JP2007286859A (ja) 制御装置および画像形成装置
US8024604B2 (en) Information processing apparatus and error processing
JP5768503B2 (ja) 情報処理装置、ログ記憶制御プログラムおよびログ記憶制御方法
JP2009176139A (ja) Os優先度変更装置及びos優先度変更プログラム
JP5840290B2 (ja) ソフトウェア操作性サービス
JP5145910B2 (ja) 情報処理装置及び情報処理方法
US20240143431A1 (en) Managing audit logs in a production environment
JP2009020545A (ja) コンピュータの異常監視装置
JP2008269383A (ja) 業務プログラム監視制御システム
JP2009230522A (ja) システム監視装置およびプログラム
JP2010044701A (ja) メモリパトロール障害検出システム、メモリパトロール検出障害報告抑止方法、bmc、及び集積回路
WO2010116514A1 (ja) Raid制御装置
KR20080027717A (ko) 화상형성장치의 셧다운 처리방법 및 장치
Pettis et al. Implementation Guides for a Homogeneous Architecture for Power Policy Integration in Operating Systems
JP2005301382A (ja) ファームウェア診断装置
JP2008276491A (ja) 業務プログラム監視制御システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121023

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121105

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5141381

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees