JP6035878B2 - 監視装置、情報処理装置、監視プログラム、及び監視方法 - Google Patents

監視装置、情報処理装置、監視プログラム、及び監視方法 Download PDF

Info

Publication number
JP6035878B2
JP6035878B2 JP2012123346A JP2012123346A JP6035878B2 JP 6035878 B2 JP6035878 B2 JP 6035878B2 JP 2012123346 A JP2012123346 A JP 2012123346A JP 2012123346 A JP2012123346 A JP 2012123346A JP 6035878 B2 JP6035878 B2 JP 6035878B2
Authority
JP
Japan
Prior art keywords
abnormality
unit
holding
power supply
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012123346A
Other languages
English (en)
Other versions
JP2013250650A (ja
Inventor
あゆみ 伊延
あゆみ 伊延
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012123346A priority Critical patent/JP6035878B2/ja
Priority to US13/847,635 priority patent/US20130325375A1/en
Publication of JP2013250650A publication Critical patent/JP2013250650A/ja
Application granted granted Critical
Publication of JP6035878B2 publication Critical patent/JP6035878B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/08Locating faults in cables, transmission lines, or networks
    • G01R31/088Aspects of digital computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Power Sources (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、監視装置、情報処理装置、監視プログラム、及び監視方法に関する。
複数のデバイスを有するコンピュータシステム(情報処理装置)において、各デバイスへの電源供給系は階層化されている。例えば、交流電源からの交流を直流に変換する一以上のAC−DC変換ユニットが、上位階層の電源ユニットとして実装される。また、AC−DC変換ユニットからの直流の電圧を変換して各デバイスに供給する複数のDC−DC変換ユニットが、下位階層の電源ユニットとして実装される。
このように階層化された電源供給系において上位階層の電源ユニットで異常が発生すると、下位階層の電源ユニットや各デバイスにおいて当該異常に起因した異常が発生する。その際、上位階層の電源ユニットよりも先に、下位階層の電源ユニットや各デバイスで異常が検出される場合がある。異常の発生順序(検出順序)は、各電源ユニットの特性のバラツキや各デバイスの使用負荷により変化するため、保証されない。このため、下位階層の異常が監視処理部に通知された後に上位階層の異常が監視処理部に通知されたり、下位階層の異常と上位階層の異常とが同時に監視処理部に通知されたりする。
異常を通知された監視処理部が、通知された異常を順に処理し、通知された異常毎にログを生成すると、コンピュータシステム内で複数の異常が発生したように見えてしまう。したがって、監視処理部は、今回、一連の異常を発生させた最上位階層の電源ユニットを被疑箇所として特定することが困難になり、電源供給系の安定した稼動、ひいてはコンピュータシステムの安定した稼動を保証することができない。
そこで、監視処理部は、最初に異常を通知されてから所定期間の間に通知された一連の異常のうち、最も上位の階層における電源ユニットまたはデバイスで発生した異常に関する情報だけをログする。そして、監視処理部は、このようにログされた情報に基づき、当該最も上位の階層における電源ユニットまたはデバイスを、今回の一連の異常を発生させた被疑箇所として特定している。上記所定期間は、最初に異常を通知されてから当該異常に関連する複数の異常を通知されるまでに要すると推定される期間である。換言すると、監視処理部は、上位階層の異常を検出する前後の所定期間中に発生しうる下位階層の異常の検出を考慮し、異常を検出された電源ユニットやデバイスの中で最も上位の階層の異常だけをログし、ログされた異常の発生箇所を被疑箇所として特定している。
特開2008−71201号公報 実公平3−14923号公報 特開平4−125716号公報
近年のコンピュータシステムでは、実装されるデバイスが多種多様化し、デバイスの実装台数が増加している。これに伴い、多数のデバイスに電源を供給する電源ユニット(AC−DC変換ユニットやDC−DC変換ユニット)の実装台数も増加する傾向にある。このようにDC−DC変換ユニットやデバイスの実装台数が増加し、監視処理部への電源供給が、DC−DC変換ユニットへの電源供給を行なうAC−DC変換ユニットと同一のユニットから行なわれる場合、以下の課題が生じる。
上位階層のAC−DC変換ユニットで異常が発生すると、上記所定期間中に下位階層のDC−DC変換ユニットやデバイスから監視処理部への異常通知が多発する。このため、上記所定期間中にAC−DC変換ユニットで異常が発生しても、監視処理部がDC−DC変換ユニットやデバイスの異常を処理しているうちに、監視処理部への電源供給がダウンし、AC−DC変換ユニットを被疑箇所として特定することができない。
一つの側面で、本発明は、電源ユニットやデバイスの実装台数が増加しても、電源供給系で異常を発生させた被疑箇所を容易に特定できるようにすることを目的とする。
一つの案において、監視装置は、デバイスと、第1電源ユニットと、前記第1電源ユニットからの電源を変換して前記デバイスに供給する第2電源ユニットとを監視する装置であって、前記第1電源ユニットで検出された第1異常と前記第2電源ユニットまたは前記デバイスで検出された第2異常とを保持する保持部と、前記保持部が一の異常を保持してから当該一の異常に関連する異常を前記保持部に保持するまでに要すると推定される所定期間を計時するタイマと、処理部と、前記保持部が前記第2異常を保持したことを示す信号を前記保持部から前記処理部へ送信する送信動作の許可状態/抑止状態を切り換える切換部とを有し、前記処理部は、前記保持部が前記第1異常または前記第2異常を保持したことを示す信号を前記保持部から受信すると、前記タイマを起動するとともに、前記切換部により前記送信動作を抑止状態に切り換え、前記タイマが起動されてから前記所定期間を計時するまで、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する。
一つの案において、情報処理装置は、デバイスと、第1電源ユニットと、前記第1電源ユニットからの電源を変換して前記デバイスに供給する第2電源ユニットと、前記デバイス,前記第1電源ユニットおよび前記第2電源ユニットを監視する監視部とを有し、前記監視部は、上述した監視装置である。
一つの案において、監視プログラムは、デバイスと、第1電源ユニットと、前記第1電源ユニットからの電源を変換して前記デバイスに供給する第2電源ユニットとを監視するプロセッサに、前記第1電源ユニットで検出された第1異常と前記第2電源ユニットまたは前記デバイスで検出された第2異常とを保持する保持部が一の異常を保持してから当該一の異常に関連する異常を前記保持部に保持するまでに要すると推定される所定期間を計時するタイマとしての機能と、前記保持部が前記第2異常を保持したことを示す信号を前記保持部から前記プロセッサへ送信する送信動作の許可状態/抑止状態を切り換える切換部としての機能とを実行させるとともに、前記保持部が前記第1異常または前記第2異常を保持したことを示す信号を前記保持部から受信すると、前記タイマを起動するとともに、前記切換部により前記送信動作を抑止状態に切り換え、前記タイマが起動されてから前記所定期間を計時するまで、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する処理を、前記プロセッサに実行させる。
一つの案において、監視方法は、デバイスと、第1電源ユニットと、前記第1電源ユニットからの電源を変換して前記デバイスに供給する第2電源ユニットとを、プロセッサにより監視する方法であって、前記プロセッサが、前記第1電源ユニットで検出された第1異常と前記第2電源ユニットまたは前記デバイスで検出された第2異常とを保持する保持部が一の異常を保持してから当該一の異常に関連する異常を前記保持部に保持するまでに要すると推定される所定期間を計時するタイマ、および前記保持部が前記第2異常を保持したことを示す信号を前記保持部から前記プロセッサへ送信する送信動作の許可状態/抑止状態を切り換える切換部、として機能するとともに、前記保持部が前記第1異常または前記第2異常を保持したことを示す信号を前記保持部から受信すると、前記タイマを起動するとともに、前記切換部により前記送信動作を抑止状態に切り換え、前記タイマが起動されてから前記所定期間を計時するまで、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する。
一実施形態によれば、電源ユニットやデバイスの実装台数が増加しても、電源供給系で異常を発生させた被疑箇所を容易に特定することができる。
第1実施形態の監視装置を含む情報処理装置の構成を示すブロック図である。 図1に示す監視装置の処理部による監視処理手順を説明するフローチャートである。 第2実施形態の監視装置を含む情報処理装置の構成を示すブロック図である。 図3に示す監視装置の処理部による監視処理手順を説明するフローチャートである。 第3実施形態の監視装置で用いられる被疑箇所特定テーブルの例を示す図である。 第3実施形態の監視装置を含む情報処理装置の構成を示すブロック図である。 図6に示す監視装置の処理部による監視処理手順を説明するフローチャートである。 第4実施形態の監視装置を含む情報処理装置の構成を示すブロック図である。 図8に示す監視装置の処理部による監視処理手順を説明するフローチャートである。 電源供給系の構成および同電源供給系の監視装置の構成を示すブロック図である。 図10に示す監視装置の処理部による監視処理手順を説明するフローチャートである。 被疑箇所特定テーブルの例を示す図である。
以下、図面を参照して実施の形態を説明する。
〔1〕情報処理装置の電源供給系の監視装置
〔1−1〕電源供給系および同電源供給系の監視装置の構成
まず、図10を参照しながら、本実施形態(第1〜第4実施形態)の前提となる技術(電源供給系および同電源供給系の監視装置)について説明する。図10は、電源供給系の構成および同電源供給系の監視装置10の構成を示すブロック図である。
図10に示すように、複数(図中2台)のデバイス4−1,4−2を有する情報処理装置(コンピュータシステム)100において、各デバイス4−1,4−2への電源供給系は階層化されている。図10に示す例では、交流電源1からの交流を直流に変換するAC−DC変換ユニット2が、上位階層の電源ユニット(第1電源ユニット)として実装される。また、AC−DC変換ユニット2からの直流の電圧を変換して各デバイス4−1,4−2にそれぞれ供給する複数(図中2台)のDC−DC変換ユニット3−1,3−2が、下位階層の電源ユニット(第2電源ユニット)として実装される。なお、2台のデバイスうちの一つを特定する場合には符号4−1,4−2が用いられ、任意のデバイスを指す場合には符号4が用いられる。同様に、2台のDC−DC変換ユニットの一方を特定する場合には符号3−1,3−2が用いられ、任意のDC−DC変換ユニットを指す場合には符号が用いられる。また、図中において、AC−DC変換ユニット2は「AC-DC Unit」と記載され、DC−DC変換ユニット3−1,3−2はそれぞれ「DC-DC Unit-1」,「DC-DC Unit-2」と記載され、デバイス4−1,4−2はそれぞれ「デバイス-1」,「デバイス-2」と記載される。
このようなAC−DC変換ユニット2,DC−DC変換ユニット3およびデバイス4の異常を監視する監視装置(監視部)10は、保持部20,処理部(監視処理部)30およびRAM(Random Access Memory;記憶部)40を含む。
保持部20は、ユニット2,3およびデバイス4から通知される異常信号を受信して保持する異常保持レジスタ21を有する。異常保持レジスタ21は、処理部30が処理を完了するまで異常を保持する。
ここで、AC−DC変換ユニット2,DC−DC変換ユニット3およびデバイス4は、それぞれ、AC−DC変換ユニット2,DC−DC変換ユニット3およびデバイス4で生じた異常を検出すると、異常検出信号を監視装置10に送信する機能を有している。
AC−DC変換ユニット2は、入力異常(1)および内部異常(2)を検出可能で、入力異常(1)または内部異常(2)を検出すると異常信号を保持部20に送信する。入力異常(1)に係る異常信号を受信した保持部20は、異常保持レジスタ21において、入力異常(1)に対応するビット21aの値を“0”から“1”に切り換える。内部異常(2)に係る異常信号を受信した保持部20は、異常保持レジスタ21において、内部異常(2)に対応するビット21bの値を“0”から“1”に切り換える。
DC−DC変換ユニット3−1は、内部異常(3)を検出可能で、内部異常(3)を検出すると異常信号を保持部20に送信する。内部異常(3)に係る異常信号を受信した保持部20は、異常保持レジスタ21において、内部異常(3)に対応するビット21cの値を“0”から“1”に切り換える。同様に、DC−DC変換ユニット3−2は、内部異常(6)を検出可能で、内部異常(6)を検出すると異常信号を保持部20に送信する。内部異常(6)に係る異常信号を受信した保持部20は、異常保持レジスタ21において、内部異常(6)に対応するビット21fの値を“0”から“1”に切り換える。なお、DC−DC変換ユニット3では、内部異常(3)または(6)を検出しているが、入力異常を検出するように構成してもよい。
デバイス4−1は、入力異常(4)および内部異常(5)を検出可能で、入力異常(4)または内部異常(5)を検出すると異常信号を保持部20に送信する。入力異常(4)に係る異常信号を受信した保持部20は、異常保持レジスタ21において、入力異常(4)に対応するビット21dの値を“0”から“1”に切り換える。内部異常(5)に係る異常信号を受信した保持部20は、異常保持レジスタ21において、内部異常(5)に対応するビット21eの値を“0”から“1”に切り換える。
同様に、デバイス4−2は、入力異常(7)および内部異常(8)を検出可能で、入力異常(7)または内部異常(8)を検出すると異常信号を保持部20に送信する。入力異常(7)に係る異常信号を受信した保持部20は、異常保持レジスタ21において、入力異常(7)に対応するビット21gの値を“0”から“1”に切り換える。内部異常(8)に係る異常信号を受信した保持部20は、異常保持レジスタ21において、内部異常(8)に対応するビット21hの値を“0”から“1”に切り換える。
保持部20は、定期的に、もしくは、割込み信号に応じて、ビット21a〜21hの値の論理和を異常検出信号として生成し処理部30へ送信し、電源供給系で異常が発生している旨を処理部30に報告する。つまり、ビット21a〜21hのうちの一つでも“1”である場合、処理部30が被疑箇所の特定処理を完了しレジスタ21に保持された異常を全てリセットするまで(ビット21a〜21hの値を全て“0”にリセットするまで)、保持部20は、異常検出信号を処理部30へ送出する。
処理部30は、保持部20に保持された異常や、RAM40に保持された被疑箇所特定テーブル(後述)に基づき異常の発生したユニット2,3またはデバイス4を特定する。処理部30は、保持部20から異常検出信号を受信すると所定期間を計時するタイマ(図10では図示略)を有している。所定期間は、前述した通り、最初に異常を通知されてから(異常検出信号を受信してから)当該異常に関連する一以上の異常を全て通知されるまでに要すると推定される期間である。処理部30は、上位階層の異常を検出する前後の所定期間中に発生しうる下位階層の異常の検出を考慮し、異常を検出されたユニット2,3やデバイス4の中で最も上位の階層の異常だけをRAM40のログ領域41にログし、ログされた異常の発生箇所を被疑箇所として特定する。
処理部30は、保持部20の異常保持レジスタ21(ビット21a〜21h)に保持される個々の異常に対し、ユニークな番号であるアラーム番号を付与する。処理部30は、保持部20から異常検出信号を受信した時、異常保持レジスタ21に保持される異常をアラーム番号に置き換えて、被疑箇所の特定処理を実行する。
ここで、処理部30が被疑箇所の特定処理を実行する際に用いる被疑箇所特定テーブルの例を図12に示す。被疑箇所特定テーブルは、処理部30によって生成され、RAM40のテーブル領域42に予め保存される。図12に示す被疑箇所特定テーブルは、N個の階層テーブルT1〜TNを含み、コンピュータシステム100の電源供給系の階層に従って、ユニット2,3またはデバイス4が通知する異常(1)〜(11)に関する登録情報を、階層化して表現した配列テーブルである。なお、図12の異常(1)〜(8)はそれぞれ図10に示した異常(1)〜(8)に対応し、図12に示すテーブルでは、図10に図示されていない異常(9)〜(11)の登録情報が定義されている。
階層テーブルT1では、階層的に連続する異常(1)〜(5)の登録情報が階層順に配列されている。階層テーブルT2では、階層的に連続する異常(1), (2), (6)〜(8)の登録情報が階層順に配列されている。階層テーブルTNでは、階層的に連続する異常(1), (2), (9)〜(11)の登録情報が階層順に配列されている。
被疑箇所特定テーブルにおける、各異常(1)〜(11)の登録情報には、1)被疑箇所,2)異常の詳細および3)アラーム番号が含まれている。
図12において、異常の発生箇所がAC−DC変換ユニット2である場合、1)被疑箇所には「AC-DC Unit」が登録される。異常の発生箇所がDC−DC変換ユニット3−1である場合、1)被疑箇所には「DC-DC Unit-1」が登録され、異常の発生箇所がDC−DC変換ユニット3−2である場合、1)被疑箇所には「DC-DC Unit-2」が登録される。異常の発生箇所がデバイス4−1である場合、1)被疑箇所には「デバイス-1」が登録され、異常の発生箇所がデバイス4−2である場合、1)被疑箇所には「デバイス-2」が登録される。
図12において、2)異常の詳細には「入力異常」または「内部異常」が登録される。
図12において、3)アラーム番号には、異常(1)〜(11)のそれぞれに対し付与された、01,02,04,14,24,05,15,25,N,N+1,N+2が登録される。
〔1−2〕監視装置の動作(被疑箇所の特定処理)
次に、保持部20からの異常検出信号の受信後に処理部30が実行する、被疑箇所の特定処理について、図11に示すフローチャート(ステップS101〜S113)に従って詳細に説明する。
監視装置10の初期状態では、異常保持レジスタ21の各ビット21a〜21hに“0”が設定され、被疑箇所を特定する時間(上述した所定期間)を計時するタイマ(被疑箇所特定タイマ)は未起動状態となっている。また、RAM40のログ領域41におけるログ情報は全て消去されている。
処理部30は、保持部20から送出される信号を、常時、待ち受ける(ステップS101)。
処理部30は、最初に保持部20から異常検出信号を受信した時、被疑箇所特定タイマは未起動状態であるので(ステップS102のNOルート)、被疑箇所特定タイマを起動してから(ステップS103)、ステップS104の処理に移行する。被疑箇所特定タイマが既に起動されている場合(ステップS102のYESルート)、処理部30は、ステップS103の処理を行なうことなく、ステップS104の処理に移行する。被疑箇所特定タイマは、上述した所定期間を定める。
そして、以下の処理を行なうことで、所定期間中に異常を検出された電源ユニットやデバイスの中で最も上位の階層の異常だけがログされ、ログされた異常の発生箇所が被疑箇所として特定される。つまり、被疑箇所特定タイマがタイムアウトした時にRAM40のログ領域41に保持されているログ情報によって指摘される被疑箇所が、コンピュータシステム100の電源供給系で発生した異常の被疑箇所(ユニット2,3またはデバイス4)として特定される。
1回の異常検出信号の受信で複数の異常の通知が行なわれていることが考えられる。このため、処理部30は、一度、異常検出信号を受信すると、異常保持レジスタ21が保持する異常を最初から最後まで(例えばビット21aからビット21hまで)検索し、被疑箇所の特定処理(ステップS105〜S112)を行なう。つまり、処理部30は、一度、異常検出信号を受信すると、異常保持レジスタ21の検索を最終ビットまで一巡して完了したか否かを判断する(ステップS104)。そして、異常保持レジスタ21の検索を最終ビットまで完了している場合(ステップS104のYESルート)、処理部30は、ステップS101の処理に戻り、保持部20からの異常検出信号を待ち受ける。一方、異常保持レジスタ21の検索を最終ビットまで完了していない場合(ステップS104のNOルート)、処理部30は、被疑箇所の特定処理(ステップS105〜S112)を行なう。
処理部30は、異常保持レジスタ21から一の異常が検索されると、当該異常を当該異常に付与されたアラーム番号に変換し、得られたアラーム番号をキーにして被疑箇所特定テーブルを検索する。これにより、処理部30は、得られたアラーム番号に一致するアラーム番号を含む登録情報を取得し、当該登録情報の階層、つまり今回の異常の階層を決定する(ステップS105)。なお、図12に示す被疑箇所特定テーブルでは、異常(1)〜(11)には、それぞれアラーム番号01,02,04,14,24,05,15,25,N,N+1,N+2が付与されている。
この後、処理部30は、検出済み異常(ログ領域41に保存されているログ情報)と今回の異常との階層比較処理を開始する(ステップS106)。
まず、処理部30は、検出済み異常のアラーム番号があるか否か、つまりログ領域41にログ情報が保存されているか否かを判断する(ステップS107)。検出済み異常のアラーム番号が無い場合(ステップS107のNOルート)、初めて異常が検出されたことを示し、処理部30は、RAM40のログ領域41に新たなログ情報を生成する(ステップS110)。ログ情報には、今回の異常のアラーム番号と、今回の異常について被疑箇所特定テーブルから読み出された登録情報が示す被疑箇所および異常の詳細とが含まれる。なお、ここで生成された「ログ情報」のことを、以下、「生成中のログ情報」と呼ぶ場合がある。処理部30は、ログ情報を生成すると、ステップS104の処理に移行する。
検出済み異常のアラーム番号が有る場合(ステップS107のYESルート)、処理部30は、生成中のログ情報における検出済み異常のアラーム番号を参照する。そして、処理部30は、参照したアラーム番号が被疑箇所特定テーブルにおいて今回の異常の階層(ステップS105で決定された階層)よりも上位の階層に属しているか否かを判断する(ステップS108)。
検出済み異常のアラーム番号が被疑箇所特定テーブルにおいて今回の異常の階層よりも上位の階層に属している場合(ステップS108のYESルート)、今回の異常は生成中のログ情報における異常よりも下位の階層に属する。このため、処理部30は、階層比較処理を終了し、ログ生成やログ更新を行なうことなく、ステップS104の処理に戻る。
検出済み異常のアラーム番号が被疑箇所特定テーブルにおいて今回の異常の階層よりも上位の階層に属していない場合(ステップS108のNOルート)、処理部30は、生成中のログ情報における検出済み異常のアラーム番号を参照する。そして、処理部30は、参照したアラーム番号が被疑箇所特定テーブルにおいて今回の異常の階層(ステップS105で決定された階層)よりも下位の階層に属しているか否かを判断する(ステップS109)。
検出済み異常のアラーム番号が被疑箇所特定テーブルにおいて今回の異常の階層よりも下位の階層に属している場合(ステップS109のYESルート)、今回の異常は生成中のログ情報における異常よりも上位の階層に属する。このため、処理部30は、ログ領域41における生成中のログ情報を更新する(ステップS111)。つまり、処理部30は、生成中のログ情報における検出済みアラーム番号を、今回の異常のアラーム番号に書き換える。また、処理部30は、生成中のログ情報における被疑箇所および異常の詳細を、今回の異常について被疑箇所特定テーブルから読み出された登録情報が示す被疑箇所および異常に書き換える。処理部30は、ログ情報を更新すると、ステップS104の処理に戻る。
検出済み異常のアラーム番号が被疑箇所特定テーブルにおいて今回の異常の階層よりも下位の階層に属していない場合(ステップS109のNOルート)、今回の異常は、生成中のログ情報における異常と同じ階層に属しているが、異なる電源供給系統に属している状態であると考えられる。この状態は、例えば、生成中のログ情報における異常が異常(4)であり、且つ、今回の異常が異常(4)と同じ階層の異常(7)である状態(図12参照)に相当する。このような場合、処理部30は、ステップS110で生成したログ情報とは異なるログ情報を生成する(ステップS112)。ログ情報には、今回の異常のアラーム番号と、今回の異常について被疑箇所特定テーブルから読み出された登録情報が示す被疑箇所および異常の詳細とが含まれる。処理部30は、ログ情報を生成すると、ステップS104の処理に戻る。
上述した処理を繰り返し実行している状態で、被疑箇所特定タイマがタイムアウトすると、ログ領域41には、上記所定期間中に検出された最上位階層のアラーム番号と、当該アラーム番号に対応する被疑箇所および異常の詳細とがログ情報として保存される。つまり、生成中のログ情報が、コンピュータシステム100の電源供給系で発生した異常の被疑箇所(ユニット2,3またはデバイス4)を示す。したがって、処理部30は、生成中のログ情報が示す被疑箇所を、コンピュータシステム100の電源供給系で発生した異常の被疑箇所として特定する(ステップS113)。
以下に、複数異常の検出事例と処理部30の具体的な動作とについて説明する。
ここでは、図10に示すAC−DC変換ユニット2で入力異常(1)が発生したが、ユニット2,3の特性のバラツキにより、先に、図10に示すDC−DC変換ユニット3−1の出力電圧が低下し、処理部30が以下の順序[1]〜[3]で保持部20から異常を受信する場合について説明する。
[1] 図10に示すDC−DC変換ユニット3−1の内部異常(3)
[2] 図10に示すデバイス4−1の入力異常(4)
[3] 図10に示すAC−DC変換ユニット2の入力異常(1)
[1] DC−DC変換ユニット3−1の内部異常(3)についての処理
処理部30は、異常保持レジスタ21のビット21cへの“1”の設定に伴い、異常検出信号を受信し(ステップS101)、被疑箇所の特定処理を開始し、被疑箇所特定タイマを起動する(ステップS103)。
処理部30は、異常保持レジスタ21を検索し、“1”を設定されているビット21c(異常(3))を見い出す。そして、処理部30は、当該異常(3)に付与されたアラーム番号“04”を取得し、アラーム番号“04”をキーにして被疑箇所特定テーブルを検索する。これにより、処理部30は、アラーム番号“04”に一致するアラーム番号を含む登録情報を取得し、検出された異常(3)の階層(最上位から3番目)を決定する(ステップS105)。
この時点で、検出済み異常のアラーム番号は無いので(ステップS107のNOルート)、処理部30は、RAM40のログ領域41に新たなログ情報を生成する(ステップS110)。
処理部30は、保持部20の異常保持レジスタ21を最終ビットまで検索すると(ステップS104のYESルート)、異常保持レジスタ21が他の異常を保持していないため、異常検出信号の受信を待ち受ける(ステップS101)。
この時点での生成中のログ情報の内容は、
・被疑箇所 :DC-DC Unit-1
・異常の詳細:内部異常
・検出済み異常のアラーム番号:04
となる。
[2] デバイス4−1の入力異常(4)についての処理
ついで、処理部30は、異常保持レジスタ21のビット21dへの“1”の設定に伴い、異常検出信号を受信し(ステップS101)、被疑箇所の特定処理を開始する。このとき、被疑箇所特定タイマは起動されているので、処理部30は、ステップS10の処理をスキップする。
処理部30は、異常保持レジスタ21を検索し、“1”を設定されているビット21d(異常(4))を見い出す。そして、処理部30は、当該異常(4)に付与されたアラーム番号“14”を取得し、アラーム番号“14”をキーにして被疑箇所特定テーブルを検索する。これにより、処理部30は、アラーム番号“14”に一致するアラーム番号を含む登録情報を取得し、検出された異常(4)の階層(最上位から4番目)を決定する(ステップS105)。
この後、処理部30は、今回検出した異常の階層(最上位から4番目)から上位階層へ向かって、生成中のログにおける検出済み異常のアラーム番号“04”と一致するアラーム番号を含む登録情報を検索する。このとき、処理部30は、最上位から3番目の階層において、検出済み異常のアラーム番号“04”と一致するアラーム番号を含む登録情報を発見する。このため、今回の異常は、生成中のログにおける検出済み異常の階層よりも下位の階層に属しており(ステップS108のYESルート)、処理部30は、ログ生成やログ更新を行なわない。
処理部30は、保持部20の異常保持レジスタ21を最終ビットまで検索すると(ステップS104のYESルート)、異常保持レジスタ21が他の異常を保持していないため、異常検出信号の受信を待ち受ける(ステップS101)。
この時点での生成中のログ情報の内容は、
・被疑箇所 :DC-DC Unit-1
・異常の詳細:内部異常
・検出済み異常のアラーム番号:04
となる。
[3] AC−DC変換ユニット2の入力異常(1)についての処理
ついで、処理部30は、異常保持レジスタ21のビット21aへの“1”の設定に伴い、異常検出信号を受信し(ステップS101)、被疑箇所の特定処理を開始する。このとき、被疑箇所特定タイマは起動されているので、処理部30は、ステップS10の処理をスキップする。
処理部30は、異常保持レジスタ21を検索し、“1”を設定されているビット21a(異常(1))を見い出す。そして、処理部30は、当該異常(1)に付与されたアラーム番号“01”を取得し、アラーム番号“01”をキーにして被疑箇所特定テーブルを検索する。これにより、処理部30は、アラーム番号“01”に一致するアラーム番号を含む登録情報を取得し、検出された異常(1)の階層(最上位)を決定する(ステップS105)。
処理部30は、今回検出した異常(1)の階層(最上位)から下位階層へ向かって、生成中のログにおける検出済み異常のアラーム番号“04”と一致するアラーム番号を含む登録情報を検索する。このとき、処理部30は、最上位から3番目の階層において、検出済み異常のアラーム番号“04”と一致するアラーム番号を含む登録情報を発見する。このため、今回の異常は、生成中のログにおける検出済み異常の階層よりも上位の階層に属しており(ステップS109のYESルート)、処理部30は、ログ領域41における生成中のログ情報を更新する(ステップS111)。つまり、処理部30は、生成中のログ情報における検出済みアラーム番号“04”を、今回の異常(1)のアラーム番号“01”に書き換える。また、処理部30は、生成中のログ情報における被疑箇所および異常の詳細を、今回の異常(1)について被疑箇所特定テーブルから読み出された登録情報が示す被疑箇所および異常に書き換える。
処理部30は、保持部20の異常保持レジスタ21を最終ビットまで検索すると(ステップS104のYESルート)、異常保持レジスタ21が他の異常を保持していないため、異常検出信号の受信を待ち受ける(ステップS101)。
この時点での生成中のログ情報の内容は、
・被疑箇所 :AC-DC Unit
・異常の詳細:入力異常
・検出済みアラーム番号:01
となる。
[4] 最終的なログ情報の内容
被疑箇所特定タイマがタイムアウトすると、処理部30は、被疑箇所の特定処理を完了し、RAM40のログ領域41に保存されたログ情報に基づき、被疑箇所を特定し、最終的なログ情報を生成する(ステップS113)。
処理部30が生成した最終的なログの内容は、例えば以下の通りである。
・被疑箇所 :AC-DC Unit(AC−DC変換ユニット2)
・異常の詳細:入力異常
・AC-DC Unitの異常を検出した時のコンピュータシステムの電源供給状態
ところで、近年のコンピュータシステム100では、実装されるデバイス4が多種多様化し、デバイス4の実装台数が増加している。これに伴い、多数のデバイス4に電源を供給する電源ユニット2,3の実装台数も増加する傾向にある。
このようにDC−DC変換ユニット3やデバイス4の実装台数が増加し、監視部10への電源供給が、DC−DC変換ユニット3への電源供給を行なうAC−DC変換ユニット2から行なわれる場合、以下のような状況が生じる。
上位階層のAC−DC変換ユニット2で異常が発生すると、所定期間中に下位階層のDC−DC変換ユニット3やデバイス4から監視部10への異常通知が多発する。異常通知が多発すると、保持部20が複数階層の異常を同時に保持し、処理部30は被疑箇所の特定処理を繰り返し行なう。このため、所定期間中に最上位階層のAC−DC変換ユニット2で異常が発生しても、処理部30は、異常保持レジスタ21を一巡検索するまで、最上位階層のAC−DC変換ユニット2の異常を検出できない場合がある。この場合、処理部30がDC−DC変換ユニット3やデバイス4の異常を処理しているうちに、監視部10への電源供給がダウンし、処理部30は、AC−DC変換ユニット2を被疑箇所として特定することができなくなる。
一方、監視部10への電源供給が、DC−DC変換ユニット3への電源供給を行なうAC−DC変換ユニット2とは異なるユニットから行なわれる場合、以下のような状況が生じる。
監視部10への電源供給は上記異なるユニットから正常に行なわれるがDC−DC変換ユニット3への電源供給を行なうAC−DC変換ユニット2で異常が発生した場合、当該AC−DC変換ユニット2よりも下位の階層のDC−DC変換ユニット3やデバイス4から監視部10への異常通知が多発する。処理部30がユニット2,3およびデバイス4の異常監視以外の処理も担っている場合に異常通知が多発すると、処理部30は、被疑箇所の特定処理に負荷を取られ、それ以外の処理を実行できず、コンピュータシステム100の稼動が停止する可能性もある。例えば、処理部30がコンピュータシステム100内の上位装置と定期的に通信する場合、処理部30が被疑箇所の特定処理に負荷を取られると、上位装置との通信処理を実行できず、上位装置は監視部10が異常と判断しコンピュータシステム100の稼動を停止する。
同様の状況は、監視部10への電源供給が、DC−DC変換ユニット3への電源供給を行なうAC−DC変換ユニット2と同一のユニットから行なわれる場合にも生じる。例えば、AC−DC変換ユニット2が瞬停を起こしたため、監視部10への電源供給は正常に行なわれるがデバイス4側の負荷が大きくDC−DC変換ユニット3やデバイス4への入力電圧が低下すると、上述と同様の状況が生じ得る。
また、処理部30による被疑箇所の特定処理において、AC−DC変換ユニット2,DC−DC変換ユニット3やデバイス4の実装台数が増加すると、これらのユニット2,3やデバイス4に付与されるユニークなアラーム番号の数や階層テーブルの数も増加する。これに伴い、処理部30は、検出した異常の階層を決定する処理に時間を要し、異常の階層を決定する処理つまりは被疑箇所の特定処理が、処理部30の大きな負荷となる。
〔2〕第1実施形態
〔2−1〕第1実施形態の構成
以下、図1を参照しながら、第1実施形態の監視装置10Aを含む情報処理装置100Aの構成について説明する。図1は、第1実施形態の監視装置10Aを含む情報処理装置100Aの構成を示すブロック図である。なお、図中、既述の符号と同一の符号は、同一またはほぼ同一の部分を示しているので、その詳細な説明は省略する。
第1実施形態の監視装置(監視部)10Aも、図10に示す監視装置10と同様、情報処理装置(コンピュータシステム)100Aにおいてデバイス4および同デバイス4への電源供給系の異常を監視する。
図10に示した例と同様、第1実施形態においても、デバイス4への電源供給系は階層化されており、交流電源1からの交流を直流に変換するAC−DC変換ユニット2が、上位階層の電源ユニット(第1電源ユニット)として実装される。また、AC−DC変換ユニット2からの直流の電圧を変換して各デバイス4−1,4−2にそれぞれ供給するDC−DC変換ユニット3−1,3−2が、下位階層の電源ユニット(第2電源ユニット)として実装される。なお、監視部10Aへの電源供給は、DC−DC変換ユニット3への電源供給を行なうAC−DC変換ユニット2から行なわれる。
監視部10Aは、保持部20A,処理部(監視処理部)30AおよびRAM(記憶部)40Aを含む。
保持部20Aは、上述した保持部20と同様、ユニット2,3およびデバイス4から通知される異常信号を受信して保持する異常保持レジスタ21を有する。
ここで、AC−DC変換ユニット2,DC−DC変換ユニット3およびデバイス4は、それぞれ、AC−DC変換ユニット2,DC−DC変換ユニット3およびデバイス4で生じた異常を検出すると、異常検出信号を監視装置10に送信する機能を有している。
また、第1実施形態においても、図10と同様の異常(1)〜(8)が取り扱われ、異常(1)〜(8)が発生した場合、保持部20Aの異常保持レジスタ21のビット21a〜21hにそれぞれ“1”が設定される。
また、保持部20Aは、論理和回路22a,22b,24および要因保持レジスタ23を有している。
論理和回路22aは、AC−DC変換ユニット2の異常(1), (2)(第1異常)をそれぞれ保持する2つのビット21a,21bの値の論理和を「AC-DC_Unit異常」(第1異常)として要因保持レジスタ23のビット23aに設定する。つまり、AC−DC変換ユニット2の異常(1), (2)の少なくとも一方が発生すると、論理和回路22aの出力である「AC-DC_Unit異常」が“1”になり、要因保持レジスタ23のビット23aの値が“1”に設定される。
論理和回路22bは、DC−DC変換ユニット3およびデバイス4の異常(3)〜(8)(第2異常)をそれぞれ保持するビット21c〜21hの値の論理和を「その他異常」(第2異常)として要因保持レジスタ23のビット23bに設定する。つまり、DC−DC変換ユニット3およびデバイス4の異常(3)〜(8)のうちの少なくとも一つが発生すると、論理和回路22bの出力である「その他異常」が“1”になり、要因保持レジスタ23のビット23bの値が“1”に設定される。なお、以降、DC−DC変換ユニット3およびデバイス4の異常(3)〜(8)を総称して「その他異常」と呼ぶ。
論理和回路24は、定期的に、もしくは、割込み信号に応じて、要因保持レジスタ23の2つのビット23a,23bの値の論理和を「異常検出信号」として生成し処理部30Aへ送信し、電源供給系で異常が発生している旨を処理部30Aに報告する。つまり、ビット21a〜21hのうちの一つでも“1”である場合、処理部30Aが被疑箇所の特定処理を完了しレジスタ21に保持された異常を全てリセットするまで(ビット21a〜21hの値を全て“0”にリセットするまで)、保持部20Aは、異常検出信号を処理部30Aへ送出する。
処理部30Aは、後述するステップS11〜S19に従って、保持部20Aに保持された異常や、RAM40Aのテーブル領域42に保持された被疑箇所特定テーブル(階層テーブルT1〜TN;図12参照)に基づき異常の発生したユニット2,3またはデバイス4を特定する。
処理部30Aは、異常検出信号、つまり保持部20Aが「AC-DC_Unit異常」または「その他異常」を保持したことを示す信号を保持部20Aから受信すると所定期間を計時する被疑箇所特定タイマ31を有している。所定期間は、前述した通り、最初に異常を通知されてから(異常検出信号を受信してから)当該異常に関連する1以上の異常を全て通知されるまでに要すると推定される期間である。つまり、所定期間は、保持部20Aが一の異常を保持してから当該一の異常に関連する一以上の異常を全て保持部20Aに保持するまでに要すると推定される期間であると言い換えることもできる。
処理部30Aは、異常検出信号を保持部20Aから受信するとタイマ31を起動する。処理部30Aは、タイマ31が起動されてから上記所定期間を計時するまでの間、保持部20Aが「AC-DC_Unit異常」を保持している場合、「その他異常」よりも優先的に「AC-DC_Unit異常」を発生させた被疑箇所(第1被疑箇所)を特定する。一方、処理部30Aは、保持部20Aが「AC-DC_Unit異常」を保持しておらず且つ「その他異常」を保持している場合、「その他異常」を発生させた被疑箇所(第2被疑箇所)を特定する。
このとき、処理部30Aは、要因保持レジスタ23のビット23aの値を参照することで「AC-DC_Unit異常」(第1異常)が保持されているか否かを、要因保持レジスタ23のビット23bの値を参照することで「その他異常」(第2異常)が保持されているか否かを判断する。
また、処理部30Aは、上述した処理部30と同様、保持部20Aの異常保持レジスタ21(ビット21a〜21h)に保持される個々の異常に対し、ユニークな番号であるアラーム番号を付与する。処理部30Aは、保持部20Aから異常検出信号を受信した時、異常保持レジスタ21に保持される異常をアラーム番号に置き換えて、被疑箇所の特定処理を実行する。
〔2−2〕第1実施形態の動作
次に、保持部20Aからの異常検出信号の受信後に処理部30Aが実行する、被疑箇所の特定処理(監視処理手順)について、図2に示すフローチャート(ステップS11〜S19)に従って詳細に説明する。
監視装置10Aの初期状態では、レジスタ21,23の各ビット21a〜21h,23a,23bに“0”が設定され、被疑箇所を特定する時間(上述した所定期間)を計時するタイマ31は未起動状態となっている。また、RAM40Aのログ領域41におけるログ情報は全て消去されている。
処理部30Aは、保持部20Aから送出される信号を、常時、待ち受ける(ステップS11)。
処理部30Aは、最初に保持部20Aから異常検出信号を受信した時、被疑箇所特定タイマ31は未起動状態であるので(ステップS12のNOルート)、タイマ31を起動してから(ステップS13)、ステップS14の処理に移行する。タイマ31が既に起動されている場合(ステップS12のYESルート)、処理部30Aは、ステップS13の処理を行なうことなく、ステップS14の処理に移行する。
処理部30Aは、保持部20Aの要因保持レジスタ23のビット23aを参照し、ビット23aに“1”が設定されている場合、保持部20Aに「AC-DC_Unit異常」が保持されていると判断する(ステップS14のYESルート)。この場合、処理部30Aは、異常保持レジスタ21における「AC-DC_Unit異常」に係るビット21a,21bから一の異常を検索する。そして、処理部30Aは、検索した異常を当該異常に付与されたアラーム番号に変換し、得られたアラーム番号をキーにして被疑箇所特定テーブル(図12参照)を検索する。これにより、処理部30Aは、得られたアラーム番号に一致するアラーム番号を含む登録情報を取得し、当該登録情報の階層、つまり今回検索された「AC-DC_Unit異常」の階層を決定する(ステップS15)。この後、処理部30Aは、今回検索された「AC-DC_Unit異常」について、図11のステップS106〜S112と同様の被疑箇所の特定処理を行ない(ステップS18)、ステップS11の待ち受け処理に戻る。
ビット23aに“0”が設定されている場合、処理部30Aは、保持部20Aに「AC-DC_Unit異常」が保持されていないと判断し(ステップS14のNOルート)、保持部20Aの要因保持レジスタ23のビット23bを参照する。ビット23bに“0”が設定されている場合、処理部30Aは、保持部20Aに何ら異常が保持されていないと判断し(ステップS16のNOルート)、被疑箇所の特定処理を行なうことなく、ステップS11の待ち受け処理に戻る。
また、ビット23bに“1”が設定されている場合、処理部30Aは、保持部20Aに「その他異常」が保持されていると判断する(ステップS16のYESルート)。この場合、処理部30Aは、異常保持レジスタ21における「その他異常」に係るビット21c〜21hから一の異常を検索し、検索された異常を当該異常に付与されたアラーム番号に変換し、得られたアラーム番号をキーにして被疑箇所特定テーブル(図12参照)を検索する。これにより、処理部30Aは、得られたアラーム番号に一致するアラーム番号を含む登録情報を取得し、当該登録情報の階層、つまり今回検索された「その他異常」の階層を決定する(ステップS17)。この後、処理部30Aは、今回検索された「その他異常」について、図11のステップS106〜S112と同様の被疑箇所の特定処理を行ない(ステップS18)、ステップS11の待ち受け処理に戻る。
上述した処理(ステップS11〜S18)を繰り返し実行している状態で、被疑箇所特定タイマ31が上記所定期間を計時しタイムアウトすると、ログ領域41には、上記所定期間中に検出された最上位階層のアラーム番号と、当該アラーム番号に対応する被疑箇所および異常の詳細とがログ情報として保存される。つまり、生成中のログ情報が、コンピュータシステム100Aの電源供給系で発生した異常の被疑箇所(ユニット2,3またはデバイス4)を示す。したがって、処理部30Aは、生成中のログ情報が示す被疑箇所を、コンピュータシステム100Aの電源供給系で発生した異常の被疑箇所として特定する(ステップS19)。
第1実施形態の監視部10A(処理部30A)によれば、上述した処理(ステップS11〜S18)により、異常検出信号を保持部20Aから受信した時点から上記所定期間、「その他異常」よりも「AC-DC_Unit異常」が優先して処理される。
また、図10に示す監視部10では、処理部30が異常保持レジスタ21の全ビット21a〜21hを一巡検索してから異常検出信号の受信待ち受けを行なっている(図11のステップS104のYESルートからステップS101参照)。これに対し、第1実施形態の処理部30Aでは、1つの異常について被疑箇所の特定処理を行なうと異常検出信号の待ち受けが行なわれ(ステップS18からステップS11のルート参照)、「AC-DC_Unit異常」が「その他異常」よりも優先して処理される。
したがって、第1実施形態の監視部10Aによれば、「その他異常」つまりDC−DC変換ユニット3やデバイス4の異常が多発しても、AC−DC変換ユニット2から監視部10Aへの電源供給がダウンする前に、被疑箇所がAC−DC変換ユニット2であることを特定することができる。つまり、第1実施形態の監視部10Aによれば、DC−DC変換ユニット3やデバイス4の実装台数が増加しても、電源供給系で異常を発生させた被疑箇所を容易かつ確実に特定することができる。
〔3〕第2実施形態
〔3−1〕第2実施形態の構成
以下、図3を参照しながら、第2実施形態の監視装置10Bを含む情報処理装置100Bの構成について説明する。図3は、第2実施形態の監視装置10Bを含む情報処理装置100Bの構成を示すブロック図である。なお、図中、既述の符号と同一の符号は、同一またはほぼ同一の部分を示しているので、その詳細な説明は省略する。
第2実施形態の監視装置(監視部)10Bも、上述した監視装置10,10Aと同様、情報処理装置(コンピュータシステム)100Bにおいてデバイス4および同デバイス4への電源供給系の異常を監視する。
第2実施形態においても、デバイス4への電源供給系は階層化されており、交流電源1からの交流を直流に変換するAC−DC変換ユニット2が、上位階層の電源ユニット(第1電源ユニット)として実装される。また、AC−DC変換ユニット2からの直流の電圧を変換して各デバイス4−1,4−2にそれぞれ供給するDC−DC変換ユニット3−1,3−2が、下位階層の電源ユニット(第2電源ユニット)として実装される。なお、第2実施形態において、監視部10Bへの電源供給は、DC−DC変換ユニット3への電源供給を行なうAC−DC変換ユニット2とは異なるAC−DC変換ユニット2′から行なわれる。
監視部10Bは、保持部20B,処理部(監視処理部)30BおよびRAM(記憶部)40Bを含む。
保持部20Bは、ユニット2,2′,3およびデバイス4から通知される異常信号を受信して保持する異常保持レジスタ21を有する。ただし、保持部20Bの異常保持レジスタ21には、上述した異常(1)〜(8)に対応するビット21a〜21hのほかに、AC−DC変換ユニット2′の入力異常(1)′および内部異常(2)′に対応するビット21a′,21b′が追加されている。異常(1)′,(2)′が発生した場合、保持部20Bの異常保持レジスタ21のビット21a′,21b′にそれぞれ“1”が設定される。
また、保持部20Bは、論理和回路22a,22a′,22b,27;要因保持レジスタ23;異常検出信号送出有効/無効レジスタ25および論理積回路26を有している。
論理和回路22a,22bは、図1を参照しながら上述したものと同様であるので、その説明は省略する。
論理和回路22a′は、AC−DC変換ユニット2′の異常(1)′, (2)′をそれぞれ保持する2つのビット21a′,21b分の値の論理和を「AC-DC_Unit異常」(第1異常)として要因保持レジスタ23のビット23a′に設定する。つまり、AC−DC変換ユニット2′の異常(1)′, (2)′の少なくとも一方が発生すると、論理和回路22a′の出力である「AC-DC_Unit異常」が“1”になり、要因保持レジスタ23のビット23a′の値が“1”に設定される。
異常検出信号送出有効/無効レジスタ25は、処理部30Bによって値“1”または“0”を設定される。処理部30Bは、「その他異常」(第2異常)についての異常検出信号を有効にする場合、つまり保持部20Bが「その他異常」を保持したことを示す信号を保持部20Bから処理部30Bへ送信する送信動作を許可する場合、レジスタ25に“1”を設定する。一方、処理部30Bは、「その他異常」についての異常検出信号を無効にする場合、つまり保持部20Bが「その他異常」を保持したことを示す信号を保持部20Bから処理部30Bへ送信する送信動作を抑止する場合、レジスタ25に“0”を設定する。なお、初期状態において、レジスタ25には“1”が設定される。
論理積回路26は、要因保持レジスタ23のビット23bの値とレジスタ25の値との論理積を出力する。
レジスタ25および論理積回路26は、保持部20Bが「その他異常」を保持したことを示す信号を保持部20Bから処理部30Bへ送信する送信動作の許可状態/抑止状態を切り換える切換部として機能する。
論理和回路27は、定期的に、もしくは、割込み信号に応じて、要因保持レジスタ23の2つのビット23a,23a′と論理積回路26からの値との論理和を「異常検出信号」として生成し処理部30Bへ送信する。つまり、論理和回路27は、レジスタ25に“0”が設定されている場合、「AC-DC_Unit異常」についての異常検出信号を処理部30Bへ送出するが、「その他異常」についての異常検出信号を処理部30Bへ送出することはない。また、論理和回路27は、レジスタ25に“1”が設定されている場合、「AC-DC_Unit異常」についての異常検出信号も「その他異常」についての異常検出信号も処理部30Bへ送出する。
処理部30Bは、後述するステップS21〜S32に従って、保持部20Bに保持された異常や、RAM40Bのテーブル領域42に保持された被疑箇所特定テーブル(図12参照)に基づき、異常の発生したユニット2,2′,3またはデバイス4を特定する。第2実施形態の被疑箇所特定テーブルには、上述した異常(1)〜(11)に関する登録情報についての配列テーブル(階層テーブルT1〜TN)のほかに、AC−DC変換ユニット2′の異常(1)′, (2)′に関する登録情報を階層化して表現した配列テーブル(図示略)も含まれている。
処理部30Bは、第1実施形態と同様の被疑箇所特定タイマ31を有している。
そして、処理部30Bは、異常検出信号、つまり保持部20Bが「AC-DC_Unit異常」または「その他異常」を保持したことを示す信号を保持部20Bから受信すると、タイマ31を起動するとともに、レジスタ25の値を“1”から“0”に書き換える。レジスタ25の値が“0”の間、保持部20Bが「その他異常」を保持したことを示す信号を保持部20Bから処理部30Bへ送信する送信動作が抑止される。
処理部30Bは、タイマ31が起動されてから上記所定期間を計時するまでの期間、異常保持レジスタ21の「AC-DC_Unit異常」に係るビット21a,21b,21a′,21b′を検索し、「AC-DC_Unit異常」を発生させた被疑箇所(第1被疑箇所)を特定する処理を行なう。当該処理に際し、処理部30Bは、被疑箇所特定テーブルのうちの、「AC-DC_Unit異常」の被疑箇所を特定する部分(図12左側の上位2階層分のテーブル)を用いる。
なお、当該期間、保持部20Bが「その他異常」を保持したことを示す信号を保持部20Bから処理部30Bへ送信する送信動作は抑止されているので、処理部30Bは、「その他異常」を発生させた被疑箇所(第2被疑箇所)を特定する処理を行なわない。つまり、当該期間、処理部30Bは、「その他異常」よりも優先的に「AC-DC_Unit異常」を発生させた被疑箇所を特定する。
一方、処理部30Bは、タイマ31が上記所定期間を計時した時点で「AC-DC_Unit異常」の被疑箇所が未特定の場合、「その他異常」を発生させた被疑箇所を特定する処理を行なう。当該処理に際し、処理部30Bは、被疑箇所特定テーブルのうちの、「その他異常」の被疑箇所を特定する部分(図12右側の下位3階層分のテーブル)を用いる。つまり、処理部30Bは、保持部20B(ビット21c〜21h)に保持されている「その他異常」を検索し、検索された「その他異常」を発生させた被疑箇所を特定してから、レジスタ25の値を“0”から“1”に書き換える。これにより、保持部20Bが「その他異常」を保持したことを示す信号を保持部20Bから処理部30Bへ送信する送信動作が許可される。また、タイマ31が上記所定期間を計時した時点で「AC-DC_Unit異常」の被疑箇所が特定されている場合、「その他異常」を発生させた被疑箇所を特定する処理を行なうことなく、レジスタ25の値を“0”から“1”に書き換える。
このとき、処理部30Bは、要因保持レジスタ23のビット23a,23a′の値を参照することで「AC-DC_Unit異常」(第1異常)が保持されているか否かを、要因保持レジスタ23のビット23bの値を参照することで「その他異常」(第2異常)が保持されているか否かを判断する。
また、処理部30Bは、上述した処理部30,30Aと同様、保持部20Bの異常保持レジスタ21(ビット21a〜21h,21a′,21b′)に保持される個々の異常に対し、ユニークな番号であるアラーム番号を付与する。処理部30Bは、保持部20Bから異常検出信号を受信した時、異常保持レジスタ21に保持される異常をアラーム番号に置き換えて、被疑箇所の特定処理を実行する。
〔3−2〕第2実施形態の動作
次に、保持部20Bからの異常検出信号の受信後に処理部30Bが実行する、被疑箇所の特定処理(監視処理手順)について、図4に示すフローチャート(ステップS21〜S32)に従って詳細に説明する。
監視装置10Bの初期状態では、レジスタ21,23の各ビット21a〜21h,21a′,21b′,23a,23a′,23bに“0”が設定され、レジスタ25に“1”が設定されている。被疑箇所を特定する時間(上記所定期間)を計時するタイマ31は未起動状態となっている。また、RAM40Bのログ領域41におけるログ情報は全て消去されている。
処理部30Bは、保持部20Bから送出される信号を、常時、待ち受ける(ステップS21)。
処理部30Bは、最初に保持部20Bから異常検出信号を受信した時、被疑箇所特定タイマ31は未起動状態である場合(ステップS22のNOルート)、以下の処理を行なう。つまり、処理部30Bは、レジスタ25の値を“1”から“0”に書き換え、「その他異常」についての異常検出信号を保持部20Bから処理部30Bへ送信する送信動作を抑止する(ステップS23)。また、処理部30Bは、タイマ31を起動する(ステップS24)。この後、処理部30Bは、ステップS25の処理に移行する。タイマ31が既に起動されている場合(ステップS22のYESルート)、処理部30Bは、ステップS23,S24の処理を行なうことなく、ステップS25の処理に移行する。なお、ステップS23,S24の実行順序は逆であってもよい。
処理部30Bは、保持部20Bの要因保持レジスタ23のビット23a,23a′を参照し、ビット23a,23a′の少なくとも一方に“1”が設定されている場合、保持部20Bに「AC-DC_Unit異常」が保持されていると判断する(ステップS25のYESルート)。この場合、処理部30Bは、異常保持レジスタ21における「AC-DC_Unit異常」に係るビット21a,21b,21a′,21b′から一の異常を検索する。そして、処理部30Bは、検索した異常を当該異常に付与されたアラーム番号に変換し、得られたアラーム番号をキーにして被疑箇所特定テーブル(図12参照)を検索する。これにより、処理部30Bは、得られたアラーム番号に一致するアラーム番号を含む登録情報を取得し、当該登録情報の階層、つまり今回検索された「AC-DC_Unit異常」の階層を決定する(ステップS26)。この後、処理部30Bは、今回検索された「AC-DC_Unit異常」について、図11のステップS106〜S112と同様の被疑箇所の特定処理を行ない(ステップS27)、ステップS21の待ち受け処理に戻る。当該特定処理に際し、処理部30Bは、上述した通り、被疑箇所特定テーブルのうちの、「AC-DC_Unit異常」の被疑箇所を特定する部分(図12左側の上位2階層分のテーブル)を用いる。
ビット23a,23a′の両方に“0”が設定されている場合、処理部30Bは、保持部20Bに「AC-DC_Unit異常」が保持されていないと判断し(ステップS25のNOルート)、被疑箇所の特定処理を行なうことなく、ステップS21の待ち受け処理に戻る。
上述した処理(ステップS21〜S27)を繰り返し実行している状態で、被疑箇所特定タイマ31が上記所定期間を計時しタイムアウトすると、処理部30Bは、ステップS28の処理に移行する。
ステップS28において、処理部30Bは、RAM40Bのログ領域41を参照し、「AC-DC_Unit異常」が検出されているか否か、つまり検出済みアラーム番号が登録されているか否かを判断する。
検出済みアラーム番号が登録されている場合(ステップS28のYESルート)、既に「AC-DC_Unit異常」の被疑箇所が特定されており、ログ領域41には、上記所定期間中に検出された「AC-DC_Unit異常」についてのログ情報が保存されている。このため、処理部30Bは、「その他異常」についての被疑箇所の特定処理を行なうことなく、レジスタ25の値を“0”から“1”に書き換える(ステップS32)。これにより、処理部30Bは、「その他異常」についての異常検出信号を保持部20Bから処理部30Bへ送信する送信動作を許可し、処理を終了する。
一方、処理部30Bは、検出済みアラーム番号が登録されていない場合(ステップS28のNOルート)、「その他異常」を発生させた被疑箇所を特定する処理を行なう。この場合、処理部30Bは、異常保持レジスタ21が保持する「その他異常」を一つずつ検索し(ステップS29のNOルート)、検索された異常を当該異常に付与されたアラーム番号に変換する。そして、処理部30Bは、得られたアラーム番号をキーにして被疑箇所特定テーブル(図12参照)を検索する。これにより、処理部30Bは、得られたアラーム番号に一致するアラーム番号を含む登録情報を取得し、当該登録情報の階層、つまり今回検索された「その他異常」の階層を決定する(ステップS30)。この後、処理部30Bは、今回検索された「その他異常」について、図11のステップS106〜S112と同様の被疑箇所の特定処理を行ない、ステップS29の処理に戻る。当該特定処理に際し、処理部30Bは、上述した通り、被疑箇所特定テーブルのうちの、「その他異常」の被疑箇所を特定する部分(図12右側の下位3階層分のテーブル)を用いる。
処理部30Bは、異常保持レジスタ21が保持する「その他異常」を全て検索するまで、ステップS30,S31の処理を繰り返し実行する。異常保持レジスタ21が保持する「その他異常」を全て検索すると(ステップS29のYESルート)、処理部30Bは、レジスタ25の値を“0”から“1”に書き換える(ステップS32)。これにより、処理部30Bは、「その他異常」についての異常検出信号を保持部20Bから処理部30Bへ送信する送信動作を許可し、処理を終了する。
「AC-DC_Unit異常」は、最上位階層の被疑箇所である。このため、「AC-DC_Unit異常」が検出された時は、被疑箇所特定タイマ31がタイムアウトするまでの期間に検出された「その他異常」について被疑箇所を特定する必要はない。
逆に、被疑箇所特定タイマ31がタイムアウトした時、「AC-DC_Unit異常」の検出が無ければ、検出した「その他異常」から最上位階層の被疑箇所を特定する必要がある。
コンピュータシステム100B内で「AC-DC_Unit異常」の検出はなく「その他異常」を検出する場合は、DC−DC変換ユニット3の異常発生に伴いデバイス4の異常を検出した事、もしくは、DC−DC変換ユニット3かデバイス4の異常が単独で発生した事を示す。このような場合、「その他異常」が多発することはない。
そこで、上述したように、第2実施形態の監視部10B(処理部30B)は、要因保持レジスタ21が保持した「その他異常」についての異常検出信号の送出を無効にするように構成される。また、被疑箇所を特定する処理が「AC-DC_Unit異常」と「その他異常」とに分離され、「AC-DC_Unit異常」についての特定処理が先に実行され、「その他異常」についての特定処理がタイマ31のタイムアウト後に実行される。このとき、被疑箇所特定テーブル(図12参照)が、「AC-DC_Unit異常」用の部分と「その他異常」用の部分とに分けて用いられる。
このような構成を用いて上述した処理(ステップS21〜S32)を実行することで、「その他異常」が多発したとしても、タイマ31がタイムアウトするまでは「AC-DC_Unit異常」の被疑箇所の特定処理のみが実行される。これにより、「その他異常」を多発させる「AC-DC_Unit異常」の被疑箇所が先に特定され、被疑箇所特定タイマ31がタイムアウトした時、既に「AC-DC_Unit異常」が検出済みならば「その他異常」の被疑箇所の特定処理は実行されない。「AC-DC_Unit異常」が検出されていない場合に「その他異常」の被疑箇所の特定処理が実行される。
したがって、処理部30Bは、「その他異常」が多発する期間に「その他異常」の被疑箇所の特定処理に負荷を取られることがなくなる。このため、処理部30Bが異常監視以外の処理を担っている場合に異常監視以外の処理を実行できずコンピュータシステム100Bの稼動が停止するということもなくなり、処理部30Bは、安定して動作を継続・保証することができる。また、第1実施形態と同様、第2実施形態の監視部10Bによっても、DC−DC変換ユニット3やデバイス4の実装台数が増加しても、電源供給系で異常を発生させた被疑箇所を容易かつ確実に特定することができる。
〔4〕第3実施形態
〔4−1〕第3実施形態の構成
以下、図5および図6を参照しながら、第3実施形態の監視装置10Cを含む情報処理装置100Cの構成について説明する。図5は、第3実施形態の監視装置10Cで用いられる被疑箇所特定テーブルの例を示す図、図6は、第3実施形態の監視装置10Cを含む情報処理装置100Cの構成を示すブロック図である。なお、図中、既述の符号と同一の符号は、同一またはほぼ同一の部分を示しているので、その詳細な説明は省略する。
まず、図5を参照しながら、第3実施形態の監視装置10Cで用いられる被疑箇所特定テーブルについて説明する。第3実施形態の監視装置10Cでは、第1および第2実施形態で用いられた被疑箇所特定テーブル(図12参照)に代えて、図5に示す被疑箇所特定テーブルが用いられる。図5に示す被疑箇所特定テーブルは、後述するRAM40Cのテーブル領域42に保存され、後述する処理部30Cが生成する複数の要因テーブルT10,T21〜T2Nを含む。
要因テーブルT10,T21〜T2Nは、要因保持レジスタ23(図6参照)に保持される要因毎に生成される。つまり、要因テーブルT10,T21〜T2Nは、それぞれ要因保持レジスタ23のビット23a,23b−1,23b−2に対応している。なお、図6では、要因テーブルT23〜T2Nに対応する、要因保持レジスタ23のビットの図示は省略されている。
要因テーブル(第1テーブル)T10は、AC−DC変換ユニット2の異常(1), (2)、つまり「AC-DC_Unit異常」(第1異常)に関連する異常の情報を階層的に規定する。要因テーブルT10では、階層的に連続する異常(1), (2)の登録情報が階層順に配列されている。
要因テーブル(第テーブル)T21〜T2Nは、DC−DC変換ユニット3やデバイス4の異常(3)〜(11)、つまり「その他異常」に関連する異常の情報を階層的に規定する。デバイス4−1用の要因テーブルT21では、階層的に連続する異常(3)〜(5)の登録情報が階層順に配列されている。デバイス4−2用の要因テーブルT22では、階層的に連続する異常(6)〜(8)の登録情報が階層順に配列されている。デバイス4−N用の要因テーブルT2Nでは、階層的に連続する異常(9)〜(11)の登録情報が階層順に配列されている。
図5に示す要因テーブルT10,T21〜T2Nにおける、各異常(1)〜(11)の登録情報には、1)被疑箇所,2)異常の詳細および3)異常保持レジスタ情報(アドレスとビット情報)が含まれている。ここで、1)被疑箇所および2)異常の詳細は、図12を参照しながら前述したものと同様であるので、その説明は省略する。図5に示す登録情報では、図12に示す「アラーム番号」に代えて「異常保持レジスタ情報(アドレスとビット情報)」が含まれている。この「異常保持レジスタ情報(アドレスとビット情報)」は、各異常(1)〜(11)に対応する、異常保持レジスタ21の各ビット21a〜21hを特定しうるアドレスやビット情報である。なお、図6では、異常(9)〜(11)に対応する、異常保持レジスタ21のビットの図示は省略されている。
図6に示すように、第3実施形態の監視装置(監視部)10Cも、上述した監視装置10,10A,10Bと同様、情報処理装置(コンピュータシステム)100Cにおいてデバイス4および同デバイス4への電源供給系の異常を監視する。なお、第3実施形態における監視部10Cやデバイス4への電源供給系は、第1実施形態の電源供給系と同様に構成されているので、その説明は省略する。
監視部10Cは、保持部20C,処理部(監視処理部)30CおよびRAM(記憶部)40Cを含む。
保持部20Cは、上述した保持部20,20Aと同様、ユニット2,3およびデバイス4から通知される異常信号を受信して保持する異常保持レジスタ21を有する。
また、保持部20Cは、論理和回路22a,22b−1,22b−2,27;要因保持レジスタ23;異常検出信号送出有効/無効レジスタ25および論理積回路26を有している。なお、論理和回路22aおよび異常検出信号送出有効/無効レジスタ25は、図1や図3を参照しながら上述したものと同様であるので、その説明は省略する。
論理和回路22b−1は、DC−DC変換ユニット3−1およびデバイス4−1の異常(3)〜(5)をそれぞれ保持するビット21c〜21eの値の論理和を「デバイス異常-1」(第2異常)として要因保持レジスタ23のビット23b−1に設定する。つまり、DC−DC変換ユニット3−1およびデバイス4−1の異常(3)〜(5)のうちの少なくとも一つが発生すると、論理和回路22b−1の出力である「デバイス異常-1」が“1”になり、要因保持レジスタ23のビット23b−1の値が“1”に設定される。
論理和回路22b−2は、DC−DC変換ユニット3−2およびデバイス4−2の異常(6)〜(8)をそれぞれ保持するビット21f〜21hの値の論理和を「デバイス異常-2」(第2異常)として要因保持レジスタ23のビット23b−2に設定する。つまり、DC−DC変換ユニット3−2およびデバイス4−2の異常(6)〜(8)のうちの少なくとも一つが発生すると、論理和回路22b−2の出力である「デバイス異常-2」が“1”になり、要因保持レジスタ23のビット23b−2の値が“1”に設定される。
論理積回路26は、要因保持レジスタ23のビット23b−1および23b−2の値とレジスタ25の値との論理積を出力する。
レジスタ25および論理積回路26は、第2実施形態と同様、保持部20Cが「デバイス異常-1」や「デバイス異常-2」を保持したことを示す信号を保持部20Cから処理部30Cへ送信する送信動作の許可状態/抑止状態を切り換える切換部として機能する。
論理和回路27は、定期的に、もしくは、割込み信号に応じて、要因保持レジスタ23のビット23aと論理積回路26からの値との論理和を「異常検出信号」として生成し処理部30Cへ送信する。つまり、論理和回路27は、レジスタ25に“0”が設定されている場合、「AC-DC_Unit異常」についての異常検出信号を処理部30Cへ送出するが、「その他異常」である「デバイス異常-1」や「デバイス異常-2」についての異常検出信号を処理部30Cへ送出することはない。また、論理和回路27は、レジスタ25に“1”が設定されている場合、「AC-DC_Unit異常」についての異常検出信号も「デバイス異常-1」や「デバイス異常-2」についての異常検出信号も処理部30Bへ送出する。
処理部30Cは、後述するステップS41〜S58に従って、保持部20Cに保持された異常や、RAM40Cのテーブル領域42に保持された要因テーブルT10,T21〜T2N(図5参照)に基づき、異常の発生したユニット2,3またはデバイス4を特定する。
処理部30Cは、第1,第2実施形態と同様の被疑箇所特定タイマ31を有している。
そして、処理部30Cは、異常検出信号、つまり保持部20Cが「AC-DC_Unit異常」,「デバイス異常-1」,「デバイス異常-2」の少なくとも一つを保持したことを示す信号を保持部20Cから受信すると、タイマ31を起動するとともに、レジスタ25の値を“1”から“0”に書き換える。レジスタ25の値が“0”の間、保持部20Cが「デバイス異常-1」や「デバイス異常-2」を保持したことを示す信号を保持部20Cから処理部30Cへ送信する送信動作が抑止される。
処理部30Cは、タイマ31が起動されてから上記所定期間を計時するまでの期間、異常保持レジスタ21の「AC-DC_Unit異常」に係るビット21a,21bを検索し、「AC-DC_Unit異常」を発生させた被疑箇所(第1被疑箇所)を特定する処理を行なう。当該処理に際し、処理部30Cは、要因テーブルT10をRAM40Cから取得し、要因テーブルT10に規定された上位階層の異常から順に異常保持レジスタ21のビット21a,21bを検索し、第1被疑箇所を特定する(図7のステップS46〜S50参照)。
なお、当該期間、保持部20Cが「デバイス異常-1」や「デバイス異常-2」を保持したことを示す信号を保持部20Cから処理部30Cへ送信する送信動作は抑止されているので、処理部30Cは、「デバイス異常-1」や「デバイス異常-2」を発生させた被疑箇所(第2被疑箇所)を特定する処理を行なわない。つまり、当該期間、処理部30Cは、「デバイス異常-1」や「デバイス異常-2」よりも優先的に「AC-DC_Unit異常」を発生させた被疑箇所を特定する。
一方、処理部30Cは、タイマ31が上記所定期間を計時した時点で「AC-DC_Unit異常」の被疑箇所が未特定の場合、「デバイス異常-1」や「デバイス異常-2」を発生させた被疑箇所を特定する処理を行なう。当該処理に際し、処理部30Cは、要因保持レジスタ23から検索した要因に対応した要因テーブルを要因テーブルT21〜T2Nから取得する。そして、処理部30Cは、取得した要因テーブルに規定された上位階層の異常から順に異常保持レジスタ21のビット21c〜21eまたはビット21f〜21hを検索し、第2被疑箇所を特定する(図7のステップS52〜S57参照)。
処理部30Cは、第2被疑箇所を特定すると、レジスタ25の値を“0”から“1”に書き換える。これにより、保持部20Cが「デバイス異常-1」や「デバイス異常-2」を保持したことを示す信号を保持部20Cから処理部30Cへ送信する送信動作が許可される。また、タイマ31が上記所定期間を計時した時点で「AC-DC_Unit異常」の被疑箇所が特定されている場合、処理部30Cは、「デバイス異常-1」や「デバイス異常-2」を発生させた被疑箇所を特定する処理を行なうことなく、レジスタ25の値を“0”から“1”に書き換える。
〔4−2〕第3実施形態の動作
次に、保持部20Cからの異常検出信号の受信後に処理部30Cが実行する、被疑箇所の特定処理(監視処理手順)について、図7に示すフローチャート(ステップS41〜S58)に従って詳細に説明する。
監視装置10Cの初期状態では、レジスタ21,23の各ビット21a〜21h,23a,23b−1,23b−2に“0”が設定され、レジスタ25に“1”が設定されている。被疑箇所を特定する時間(上記所定期間)を計時するタイマ31は未起動状態となっている。また、RAM40Cのログ領域41におけるログ情報は全て消去されている。
処理部30Cは、保持部20Cから送出される信号を、常時、待ち受ける(ステップS41)。
処理部30Cは、最初に保持部20Cから異常検出信号を受信した時、被疑箇所特定タイマ31は未起動状態である場合(ステップS42のNOルート)、以下の処理を行なう。つまり、処理部30Cは、レジスタ25の値を“1”から“0”に書き換え、「その他異常」である「デバイス異常-1」や「デバイス異常-2」についての異常検出信号を保持部20Cから処理部30Cへ送信する送信動作を抑止する(ステップS43)。また、処理部30Cは、タイマ31を起動する(ステップS44)。この後、処理部30Cは、ステップS45の処理に移行する。タイマ31が既に起動されている場合(ステップS42のYESルート)、処理部30Cは、ステップS43,S44の処理を行なうことなく、ステップS45の処理に移行する。なお、ステップS43,S44の実行順序は逆であってもよい。
処理部30Cは、保持部20Cの要因保持レジスタ23のビット23aを参照し、ビット23aに“1”が設定されている場合、保持部20Cに「AC-DC_Unit異常」が保持されていると判断する(ステップS45のYESルート)。この場合、処理部30Cは、「AC-DC_Unit異常」(異常(1), (2))に対応する要因テーブルT10をRAM40Cから取得する(ステップS46)。そして、処理部30Cは、後述するステップS45〜S50に従って、要因テーブルT10に規定された上位階層の異常から順に異常保持レジスタ21のビット21a,21bを検索し、第1被疑箇所を特定する。
つまり、処理部30Cは、要因テーブルT10の登録情報を上位階層から下位階層に向かって一つずつ検索し(ステップS47のNOルート)、検索された登録情報の異常保持レジスタ情報を参照する。そして、処理部30Cは、参照した異常保持レジスタ情報によって特定される、異常保持レジスタ21のビットの値をリードする(ステップS48)。
処理部30Cは、リードした値が“0”(偽)である場合(ステップS49のNOルート)、ステップS47に戻り、一つ下位の階層の登録情報を要因テーブルT10から検索し(ステップS47のNOルート)、ステップS48,S49を実行する。例えば図5に示す要因テーブルT10の場合、まず異常(1)に対応するビット21aの値がリードされ、次に異常(2)に対応するビット21bの値がリードされる。
処理部30Cは、要因テーブルT10の登録情報を全て検索すると(ステップS47のYESルート)、ステップS41の待ち受け処理に戻る。このとき、処理部30Cは、図5や図6には図示されていない、AC−DC変換ユニット2以外のAC−DC変換ユニットからの異常検出信号を待ち受けることになる。
処理部30Cは、ステップS48でリードした値が“1”(真)である場合(ステップS49のYESルート)、RAM40Cのログ領域41に新たなログ情報を生成する(ステップS50)。ログ情報は、要因テーブルT10の登録情報に登録された、被疑箇所と異常の詳細とに基づき生成される。この後、処理部30Cは、ステップS41の待ち受け処理に戻り、図5や図6には図示されていない、AC−DC変換ユニット2以外のAC−DC変換ユニットからの異常検出信号を待ち受ける。
上述した処理(ステップS41〜S50)を繰り返し実行している状態で、被疑箇所特定タイマ31が上記所定期間を計時しタイムアウトすると、処理部30Cは、ステップS51の処理に移行する。ステップS51において、処理部30Cは、RAM40Cのログ領域41を参照し、「AC-DC_Unit異常」が検出されているか否かを判断する。
「AC-DC_Unit異常」が検出されている場合(ステップS51のYESルート)、既に「AC-DC_Unit異常」の被疑箇所が特定されており、ログ領域41には、上記所定期間中に検出された「AC-DC_Unit異常」についてのログ情報が保存されている。このため、処理部30Cは、「デバイス異常-1」や「デバイス異常-2」についての被疑箇所の特定処理を行なうことなく、レジスタ25の値を“0”から“1”に書き換える(ステップS58)。これにより、処理部30Cは、「デバイス異常-1」や「デバイス異常-2」についての異常検出信号を保持部20Cから処理部30Cへ送信する送信動作を許可し、処理を終了する。
一方、処理部30Cは、「AC-DC_Unit異常」が検出されていない場合(ステップS51のNOルート)、「その他異常」つまり「デバイス異常-1」や「デバイス異常-2」を発生させた被疑箇所を特定する処理を行なう。この場合、処理部30Cは、要因保持レジスタ23が保持する要因(つまりのビット23b−1,23b−2)を一つずつ検索し(ステップS52のNOルート)、検索された要因に対応する要因テーブルをRAM40Cから取得する(ステップS53)。例えば、検索されたビット23b−1に“1”が設定されている場合、要因テーブルT21が取得され、検索されたビット23b−2に“1”が設定されている場合、要因テーブルT22が取得される。
処理部30Cは、検索された要因テーブルの登録情報を上位階層から下位階層に向かって一つずつ検索し(ステップS54のNOルート)、検索された登録情報の異常保持レジスタ情報を参照する。そして、処理部30Cは、参照した異常保持レジスタ情報によって特定される、異常保持レジスタ21のビットの値をリードする(ステップS55)。
処理部30Cは、リードした値が“0”(偽)である場合(ステップS56のNOルート)、ステップS54に戻り、一つ下位の階層の登録情報を要因テーブルから検索し(ステップS54のNOルート)、ステップS55,S56を実行する。例えば図5に示す要因テーブルT21の場合、まず異常(3)に対応するビット21cの値がリードされ、次に異常(4)に対応するビット21dの値がリードされ、次に異常(5)に対応するビット21eの値がリードされる。
処理部30Cは、要因テーブルの登録情報を全て検索すると(ステップS54のYESルート)、ステップS52の処理に戻る。
処理部30Cは、ステップS55でリードした値が“1”(真)である場合(ステップS56のYESルート)、RAM40Cのログ領域41に新たなログ情報を生成する(ステップS57)。ログ情報は、要因テーブルの登録情報に登録された、被疑箇所と異常の詳細とに基づき生成される。この後、処理部30Cは、ステップS52の処理に戻る。
そして、処理部30Cは、要因保持レジスタ23が保持する要因(つまりのビット23b−1,23b−2)を全て検索すると(ステップS52のYESルート)、レジスタ25の値を“0”から“1”に書き換える(ステップS58)。これにより、処理部30Cは、「デバイス異常-1」や「デバイス異常-2」についての異常検出信号を保持部20Cから処理部30Cへ送信する送信動作を許可し、処理を終了する。
第3実施形態の監視部10C(処理部30C)によれば、第1実施形態や第2実施形態と同様の作用効果が得られる。
また、第3実施形態の処理部30Cは、上述したように、被疑箇所特定テーブル(要因テーブル)の登録情報を上位階層から下位階層に向けて検索することで被疑箇所を特定できるように構成される。この構成により、要因テーブルの各登録情報における異常保持レジスタ情報で特定される、異常保持レジスタ21のビットの値が“1”(真)であった時点で、処理部30Cは、最上位階層の被疑箇所の特定を完了している。このため、処理部30Cは、要因テーブルの全ての階層の登録情報を検索する必要がない。したがって、「その他異常」が多発しても、処理部30Cは被疑箇所の特定処理のために負荷を取られることがなく、監視部10Cは安定した動作を継続できる。
さらに、図10や図11に示す処理部30による被疑箇所の特定処理において、AC−DC変換ユニット2,DC−DC変換ユニット3やデバイス4の実装台数が増加すると、これらのユニット2,3やデバイス4に付与されるユニークなアラーム番号の数や階層テーブルの数も増加する。これに伴い、異常の階層を決定する処理つまりは被疑箇所の特定処理が、処理部30の大きな負荷となっていた。これに対し、第3実施形態の処理部30Cによれば、アラーム番号を付与したり異常の階層を決定したりする必要がなく被疑箇所の特定処理にかかる負荷を確実に抑えながら、電源供給系で異常を発生させた被疑箇所を容易かつ確実に特定することができる。
また、コンピュータシステムの構造によっては、「AC-DC_Unit異常」が検出されないが「その他異常」が多発するような被疑箇所(AC−DC変換ユニット2の電源供給ケーブルの抜けや断線)が考えられる。このような被疑箇所で異常が発生した場合、被疑箇所特定タイマ31がタイムアウトした後の被疑箇所の特定処理の負荷が極めて大きくなる。これに対し、第3実施形態の処理部30Cによれば、異常の階層を決定する必要がなく被疑箇所の特定処理にかかる負荷を確実に抑えることができる。
〔5〕第4実施形態
以下、図8を参照しながら、第4実施形態の監視装置10Dを含む情報処理装置100Dの構成について説明する。図8は、第4実施形態の監視装置10Dを含む情報処理装置100Dの構成を示すブロック図である。なお、図中、既述の符号と同一の符号は、同一またはほぼ同一の部分を示しているので、その詳細な説明は省略する。
図8に示すように、第4実施形態の監視装置(監視部)10Dも、上述した監視装置10,10A〜10Cと同様、情報処理装置(コンピュータシステム)100Dにおいてデバイス4および同デバイス4への電源供給系の異常を監視する。なお、第4実施形態における監視部10Dおよびデバイス4への電源供給系は、第1実施形態や第3実施形態の電源供給系と同様に構成されているので、その説明は省略する。
監視部10Dは、保持部20D,処理部(監視処理部)30DおよびRAM(記憶部)40Dを含む。
第4実施形態の監視部10Dは、第3実施形態の監視部10Dと同様の機能を、汎用MPU(Micro Processing Unit)である処理部30Dによって実現し、汎用MPU30Dの割込み機能を用いて被疑箇所の特定処理を行なうように構成される。RAM40Dのテーブル領域42には、図5を参照しながら上述した要因テーブルT10,T21〜T2Nが予め保存されている。
保持部20Dは、上述した保持部20,20A,20Cと同様、ユニット2,3およびデバイス4から通知される異常信号を受信して保持する異常保持レジスタ21を有する。
また、保持部20Dは、論理和回路22a,22b−1,22b−2,28および要因保持レジスタ23を有している。
論理和回路22aは、AC−DC変換ユニット2の異常(1), (2)をそれぞれ保持する2 つのビット21a,21bの値の論理和を「AC-DC_Unit異常」として要因保持レジスタ23のビット23aに設定する。つまり、AC−DC変換ユニット2の異常(1), (2)の少なくとも一方が発生すると、論理和回路22aの出力である「AC-DC_Unit異常」が“1”になり、要因保持レジスタ23のビット23aの値が“1”に設定される。要因保持レジスタ23のビット23aの値は、「AC-DC_Unit異常」(第1異常)を示す異常検出信号として汎用MPU30Dに送出される。
論理和回路22b−1は、DC−DC変換ユニット3−1およびデバイス4−1の異常(3)〜(5)をそれぞれ保持するビット21c〜21eの値の論理和を「デバイス異常-1」として要因保持レジスタ23のビット23b−1に設定する。つまり、DC−DC変換ユニット3−1およびデバイス4−1の異常(3)〜(5)のうちの少なくとも一つが発生すると、論理和回路22b−1の出力である「デバイス異常-1」が“1”になり、要因保持レジスタ23のビット23b−1の値が“1”に設定される。
論理和回路22b−2は、DC−DC変換ユニット3−2およびデバイス4−2の異常(6)〜(8)をそれぞれ保持するビット21f〜21hの値の論理和を「デバイス異常-2」として要因保持レジスタ23のビット23b−2に設定する。つまり、DC−DC変換ユニット3−2およびデバイス4−2の異常(6)〜(8)のうちの少なくとも一つが発生すると、論理和回路22b−2の出力である「デバイス異常-2」が“1”になり、要因保持レジスタ23のビット23b−2の値が“1”に設定される。
論理和回路28は、要因保持レジスタ23のビット23b−1の値と23b−2の値との論理和を「その他異常」(第2異常の検出信号)として汎用MPU30Dに送出する。
なお、「その他異常(デバイス異常-1,デバイス異常-2)」を保持部20Dから処理部30Dへ送信する送信動作の許可状態/抑止状態を切り換える切換部としての機能は、第3実施形態ではレジスタ25および論理積回路26によって実現されていた。第4実施形態では、当該切換部としての機能は、汎用MPU30D側で、論理和回路28からの「その他異常」(異常検出信号)による割込みを有効/無効にする機能によって実現される。例えば、汎用MPU30Dは、所定MPUレジスタに「有効(1)」を設定することで「その他異常」による割込みを有効にし上記送信動作を許可する。また、汎用MPU30Dは、所定MPUレジスタに「無効(0)」を設定することで「その他異常」による割込みを無効にし上記送信動作を抑止する。
汎用MPU30Dは、後述するステップS61〜S69に従って、保持部20Dに保持された異常や、RAM40Dのテーブル領域42に保持された要因テーブルT10,T21〜T2N(図5参照)に基づき、異常の発生したユニット2,3またはデバイス4を特定する。
汎用MPU30Dは、第1〜第3実施形態と同様の被疑箇所特定タイマ31を有している。
汎用MPU30Dは、異常検出信号、つまり保持部20Dが「AC-DC_Unit異常」または「その他異常」を保持したことを示す信号を保持部20Dから受信すると、「AC-DC_Unit異常」の割込み処理または「その他異常」の割込み処理を起動する。割込み処理が起動されると、タイマ31が起動されるとともに所定MPUレジスタに「無効」が設定される。
「AC-DC_Unit異常」の割込み処理が起動された場合、汎用MPU30Dは、タイマ31が上記所定期間を計時するまでの期間、異常保持レジスタ21の「AC-DC_Unit異常」に係るビット21a,21bを検索し、「AC-DC_Unit異常」を発生させた被疑箇所(第1被疑箇所)を特定する処理を行なう。当該処理に際し、汎用MPU30Dは、要因テーブルT10をRAM40Dから取得し、要因テーブルT10に規定された上位階層の異常から順に異常保持レジスタ21のビット21a,21bを検索し、第1被疑箇所を特定する(図9のステップS64,S65参照)。
「その他異常」の割込み処理が起動された場合、汎用MPU30Dは、タイマ31の起動と所定MPUレジスタへの「無効」設定とを行なうだけで、上記所定期間中に「その他異常」の被疑箇所の特定処理を行なわない。つまり、上記所定期間中、汎用MPU30Dは「その他異常」よりも優先的に「AC-DC_Unit異常」を発生させた被疑箇所を特定する。
一方、汎用MPU30Dは、タイマ31が上記所定期間を計時した時点で「AC-DC_Unit異常」の被疑箇所が未特定の場合、第3実施形態の処理部30Cと同様、「その他異常」を発生させた被疑箇所(第2被疑箇所)を特定する処理を行なう。
汎用MPU30Dは、第2被疑箇所を特定すると、上記所定MPUレジスタに「有効」を設定する。これにより、汎用MPU30Dにおいて、保持部20Dが「その他異常」を保持したことを示す信号による割込みが有効になる。つまり、当該信号を保持部20Dから汎用MPU30Dへ送信する送信動作が許可される。また、タイマ31が上記所定期間を計時した時点で「AC-DC_Unit異常」の被疑箇所が特定されている場合、汎用MPU30Dは、「その他異常」を発生させた被疑箇所を特定する処理を行なうことなく、上記所定MPUレジスタに「有効」を設定する。
に、保持部20Dからの異常検出信号の受信後にMPU30Dが実行する割込み処理について、図9に示すフローチャート(ステップS61〜S69)に従って詳細に説明する。
監視装置10Dの初期状態では、レジスタ21,23の各ビット21a〜21h,23a,23b−1,23b−2に“0”が設定され、所定MPUレジスタに「有効」が設定されている。被疑箇所を特定する時間(上記所定期間)を計時するタイマ31は未起動状態となっている。また、RAM40Dのログ領域41におけるログ情報は全て消去されている。
汎用MPU30Dは、初期設定後、最初に、保持部20Dから「AC-DC_Unit異常」を受信し、「AC-DC_Unit異常」の割込み処理を起動すると、被疑箇所特定タイマ31は未起動状態である場合(ステップS61のNOルート)、以下の処理を実行する。つまり、汎用MPU30Dは、上記所定MPUレジスタに「無効」を設定し、以後、「その他異常」を受信しても割込み処理が起動されないようにする(ステップS62)。また、汎用MPU30Dは、タイマ31を起動する(ステップS63)。この後、汎用MPU30Dは、ステップS64の処理に移行する。タイマ31が既に起動されている場合(ステップS61のYESルート)、汎用MPU30Dは、ステップS62,S63の処理を行なうことなく、ステップS64の処理に移行する。なお、ステップS62,S63の実行順序は逆であってもよい。
一方、汎用MPU30Dは、初期設定後、最初に、保持部20Dから「その他異常」を受信し、「その他異常」の割込み処理を起動すると、被疑箇所特定タイマ31は未起動状態である場合(ステップS66のNOルート)、汎用MPU30Dは、上記所定MPUレジスタに「無効」を設定し、以後、「その他異常」を受信しても割込み処理が起動されないようにする(ステップS67)。また、汎用MPU30Dは、タイマ31を起動する(ステップS68)。この後、汎用MPU30Dは、「その他異常」の割込み処理を終了する。なお、ステップS67,S68の実行順序は逆であってもよい。
汎用MPU30Dは、「AC-DC_Unit異常」の割込み処理のステップS64において、「AC-DC_Unit異常」(異常(1), (2))に対応する要因テーブルT10をRAM40Dから取得する。そして、汎用MPU30Dは、要因テーブルT10に規定された上位階層の異常から順に異常保持レジスタ21のビット21a,21bを検索し、第1被疑箇所を特定し(ステップS65)、「AC-DC_Unit異常」の割込み処理を終了する。ステップS65で実行される第1被疑箇所の特定処理は、前述した図11のステップS47〜S50で実行される処理と同様であるので、その説明は省略する。
そして、被疑箇所特定タイマ31が上記所定期間を計時しタイムアウトすると、汎用MPU30Dは、ステップS69の処理に移行する。ステップS69で実行される処理は、前述した図7のステップS51〜S58で実行される処理と同様であるので、その説明は省略する。
第4実施形態の監視部10D(汎用MPU30D)によれば、第3実施形態と同様の作用効果が得られる。
また、第4実施形態では、「AC-DC_Unit異常」で起動される割込み処理と「その他異常」で起動される割込み処理とが汎用MPU30Dに登録されている。このため、汎用MPU30Dは異常検出信号を定期的に監視する必要がなくなるほか、「AC-DC_Unit異常」と「その他異常」とで起動される割込み処理の内容を、それぞれ必要な処理だけにすることができる。したがって、電源供給系の被疑箇所の特定処理を必要最低限の動作で実行することができる。
〔6〕その他
以上、本発明の好ましい実施形態について詳述したが、本発明は、係る特定の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲内において、種々の変形、変更して実施することができる。
上述した実施形態では、「AC-DC_Unit異常」が異常(1), (2), (1)′, (2)′の4種類であり、「その他異常」は異常(3)〜(11)の9種類である場合について説明しているが、本発明は、これらの数に限定されるものではない。同様に、AC−DC変換ユニット2,DC−DC変換ユニット3やデバイス4の台数についても、本発明は、上述した実施形態で実装される台数に限定されるものではない。
また、上述した実施形態において被疑箇所特定タイマ31が計時する上記所定期間の値(デフォルト値)は、コンピュータシステム100,100A〜100D内の構成(デバイスや使用する電源等)によって異なる。そのため、処理部30,30A〜30Dは、構成毎に被疑箇所特定タイマをそなえ、コンピュータシステム100,100A〜100Dの構成に応じたタイマを起動する。
上述した監視処理部30,30A〜30Dとしての機能の全部もしくは一部は、LSI10,20A〜20Cにおけるコンピュータ(CPU等)としての機能が所定のアプリケーションプログラム(監視プログラム)を実行することによって実現される。
そのプログラムは、例えばフレキシブルディスク,CD(CD−ROM,CD−R,CD−RWなど),DVD(DVD−ROM,DVD−RAM,DVD−R,DVD−RW,DVD+R,DVD+RWなど),ブルーレイディスク等のコンピュータ読取可能な記録媒体に記録された形態で提供される。この場合、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。
ここで、コンピュータとは、ハードウエアとOS(オペレーティングシステム)とを含む概念であり、OSの制御の下で動作するハードウエアを意味している。また、OSが不要でアプリケーションプログラム単独でハードウェアを動作させるような場合には、そのハードウェア自体がコンピュータに相当する。ハードウエアは、少なくとも、CPU等のマイクロプロセッサと、記録媒体に記録されたコンピュータプログラムを読み取る手段とをそなえている。上記監視プログラムは、上述のようなコンピュータに、上述した監視処理部30,30A〜30Dとしての機能の全部もしくは一部を実現させるプログラムコードを含んでいる。また、その機能の一部は、アプリケーションプログラムではなくOSによって実現されてもよい。
〔7〕付記
以上の第1〜第4実施形態を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
デバイスと、第1電源ユニットと、前記第1電源ユニットからの電源を変換して前記デバイスに供給する第2電源ユニットとを監視する監視装置であって、
前記第1電源ユニットで検出された第1異常と前記第2電源ユニットまたは前記デバイスで検出された第2異常とを保持する保持部と、
処理部とを有し、
前記処理部は、
前記保持部が前記第1異常を保持している場合、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する
ことを特徴とする監視装置。
(付記2)
前記保持部が一の異常を保持してから当該一の異常に関連する異常を前記保持部に保持するまでに要すると推定される所定期間を計時するタイマを有し、
前記処理部は、
前記保持部が前記第1異常または前記第2異常を保持したことを示す信号を前記保持部から受信すると、前記タイマを起動し、
前記タイマが起動されてから前記所定期間を計時するまで、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する
ことを特徴とする、付記1に記載の監視装置。
(付記3)
前記処理部は、
前記保持部が前記第1異常を保持しておらず且つ前記第2異常を保持している場合、前記第2異常を発生させた第2被疑箇所を特定する
ことを特徴とする、付記1または付記2に記載の監視装置。
(付記4)
前記保持部が一の異常を保持してから当該一の異常に関連する異常を前記保持部に保持するまでに要すると推定される所定期間を計時するタイマと、
前記保持部が前記第2異常を保持したことを示す信号を前記保持部から前記処理部へ送信する送信動作の許可状態/抑止状態を切り換える切換部とを有し、
前記処理部は、
前記保持部が前記第1異常または前記第2異常を保持したことを示す信号を前記保持部から受信すると、前記タイマを起動するとともに、前記切換部により前記送信動作を抑止状態に切り換え、
前記タイマが起動されてから前記所定期間を計時するまで、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する
ことを特徴とする、付記1に記載の監視装置。
(付記5)
前記処理部は、
前記タイマが前記所定期間を計時した時点で前記第1被疑箇所が未特定の場合、前記保持部に保持されている前記第2異常を検索し、検索された前記第2異常を発生させた第2被疑箇所を特定してから、前記切換部により前記送信動作を許可状態に切り換える一方、
前記タイマが前記所定期間を計時した時点で前記第1被疑箇所が特定されている場合、前記第2被疑箇所の特定を行なうことなく、前記切換部により前記送信動作を許可状態に切り換える
ことを特徴とする、付記4に記載の監視装置。
(付記6)
前記第1異常および前記第2異常に関連する異常の情報を階層的に規定するテーブルを保存する記憶部を有し、
前記処理部は、
前記テーブルに基づき、前記第1被疑箇所または前記第2被疑箇所を特定する
ことを特徴とする、付記3または付記5に記載の監視装置。
(付記7)
前記第1異常に関連する異常の情報を階層的に規定する第1テーブルと前記第2異常に関連する異常の情報を階層的に規定する第2テーブルとを保存する記憶部を有し、
前記処理部は、
前記第1テーブルに規定された上位階層の異常から順に前記保持部を検索し、前記第1被疑箇所を特定し、
前記第2テーブルに規定された上位階層の異常から順に前記保持部を検索し、前記第2被疑箇所を特定する
ことを特徴とする、付記5に記載の監視装置。
(付記8)
デバイスと、
第1電源ユニットと、
前記第1電源ユニットからの電源を変換して前記デバイスに供給する第2電源ユニットと、
前記デバイス,前記第1電源ユニットおよび前記第2電源ユニットを監視する監視部とを有し、
前記監視部は、
前記第1電源ユニットで検出された第1異常と前記第2電源ユニットまたは前記デバイスで検出された第2異常とを保持する保持部と、
処理部とを有し、
前記処理部は、
前記保持部が前記第1異常を保持している場合、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する
ことを特徴とする情報処理装置。
(付記9)
前記保持部が一の異常を保持してから当該一の異常に関連する異常を前記保持部に保持するまでに要すると推定される所定期間を計時するタイマを有し、
前記処理部は、
前記保持部が前記第1異常または前記第2異常を保持したことを示す信号を前記保持部から受信すると、前記タイマを起動し、
前記タイマが起動されてから前記所定期間を計時するまで、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する
ことを特徴とする、付記8に記載の情報処理装置。
(付記10)
前記処理部は、
前記保持部が前記第1異常を保持しておらず且つ前記第2異常を保持している場合、前記第2異常を発生させた第2被疑箇所を特定する
ことを特徴とする、付記8または付記9に記載の情報処理装置。
(付記11)
前記監視部は、
前記保持部が一の異常を保持してから当該一の異常に関連する異常を前記保持部に保持するまでに要すると推定される所定期間を計時するタイマと、
前記保持部が前記第2異常を保持したことを示す信号を前記保持部から前記処理部へ送信する送信動作の許可状態/抑止状態を切り換える切換部とを有し、
前記処理部は、
前記保持部が前記第1異常または前記第2異常を保持したことを示す信号を前記保持部から受信すると、前記タイマを起動するとともに、前記切換部により前記送信動作を抑止状態に切り換え、
前記タイマが起動されてから前記所定期間を計時するまで、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する
ことを特徴とする、付記8に記載の情報処理装置。
(付記12)
前記処理部は、
前記タイマが前記所定期間を計時した時点で前記第1被疑箇所が未特定の場合、前記保持部に保持されている前記第2異常を検索し、検索された前記第2異常を発生させた第2被疑箇所を特定してから、前記切換部により前記送信動作を許可状態に切り換える一方、
前記タイマが前記所定期間を計時した時点で前記第1被疑箇所が特定されている場合、前記第2被疑箇所の特定を行なうことなく、前記切換部により前記送信動作を許可状態に切り換える
ことを特徴とする、付記11に記載の情報処理装置。
(付記13)
前記監視部は、
前記第1異常および前記第2異常に関連する異常の情報を階層的に規定するテーブルを保存する記憶部を有し、
前記処理部は、
前記テーブルに基づき、前記第1被疑箇所または前記第2被疑箇所を特定する
ことを特徴とする、付記10または付記12に記載の情報処理装置。
(付記14)
前記監視部は、
前記第1異常に関連する異常の情報を階層的に規定する第1テーブルと前記第2異常に関連する異常の情報を階層的に規定する第2テーブルとを保存する記憶部を有し、
前記処理部は、
前記第1テーブルに規定された上位階層の異常から順に前記保持部を検索し、前記第1被疑箇所を特定し、
前記第2テーブルに規定された上位階層の異常から順に前記保持部を検索し、前記第2被疑箇所を特定する
ことを特徴とする、付記12に記載の情報処理装置。
(付記15)
デバイスと、第1電源ユニットと、前記第1電源ユニットからの電源を変換して前記デバイスに供給する第2電源ユニットとを監視するプロセッサに、
前記第1電源ユニットで検出された第1異常と前記第2電源ユニットまたは前記デバイスで検出された第2異常とを保持する保持部が前記第1異常を保持している場合、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する
処理を実行させることを特徴とする監視プログラム。
(付記16)
前記保持部が一の異常を保持してから当該一の異常に関連する異常を前記保持部に保持するまでに要すると推定される所定期間を計時するタイマとしての機能を、前記プロセッサに実行させるとともに、
前記保持部が前記第1異常または前記第2異常を保持したことを示す信号を前記保持部から受信すると、前記タイマを起動し、
前記タイマが起動されてから前記所定期間を計時するまで、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する
処理を、前記プロセッサに実行させることを特徴とする、付記15に記載の監視プログラム。
(付記17)
前記保持部が一の異常を保持してから当該一の異常に関連する異常を前記保持部に保持するまでに要すると推定される所定期間を計時するタイマとしての機能と、
前記保持部が前記第2異常を保持したことを示す信号を前記保持部から前記処理部へ送信する送信動作の許可状態/抑止状態を切り換える切換部としての機能とを、前記プロセッサに実行させるとともに、
前記保持部が前記第1異常または前記第2異常を保持したことを示す信号を前記保持部から受信すると、前記タイマを起動するとともに、前記切換部により前記送信動作を抑止状態に切り換え、
前記タイマが起動されてから前記所定期間を計時するまで、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する
処理を、前記プロセッサに実行させることを特徴とする、付記15に記載の監視プログラム。
(付記18)
前記タイマが前記所定期間を計時した時点で前記第1被疑箇所が未特定の場合、前記保持部に保持されている前記第2異常を検索し、検索された前記第2異常を発生させた第2被疑箇所を特定してから、前記切換部により前記送信動作を許可状態に切り換える一方、
前記タイマが前記所定期間を計時した時点で前記第1被疑箇所が特定されている場合、前記第2被疑箇所の特定を行なうことなく、前記切換部により前記送信動作を許可状態に切り換える
処理を、前記プロセッサに実行させることを特徴とする、付記17に記載の監視プログラム。
(付記19)
前記第1異常に関連する異常の情報を階層的に規定する第1テーブルに規定された上位階層の異常から順に前記保持部を検索し、前記第1被疑箇所を特定し、
前記第2異常に関連する異常の情報を階層的に規定する第2テーブルに規定された上位階層の異常から順に前記保持部を検索し、前記第2被疑箇所を特定する
処理を、前記プロセッサに実行させることを特徴とする、付記18に記載の監視プログラム。
(付記20)
デバイスと、第1電源ユニットと、前記第1電源ユニットからの電源を変換して前記デバイスに供給する第2電源ユニットとを、プロセッサにより監視する監視方法であって、
前記プロセッサが、前記第1電源ユニットで検出された第1異常と前記第2電源ユニットまたは前記デバイスで検出された第2異常とを保持する保持部が前記第1異常を保持している場合、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する
ことを特徴とする監視方法。
100,100A〜100D 情報処理装置(コンピュータシステム)
1 交流電源
2,2′ AC−DC変換ユニット(第1電源ユニット)
3,3−1,3−2 DC−DC変換ユニット(第2電源ユニット)
4,4−1,4−2 デバイス
10,10A〜10D 監視装置(監視部)
20,20A〜20D 保持部
21 異常保持レジスタ
21a〜21j,21a′,21b′ ビット
22a,22a′,22b,22b−1,22b−2,24,27,28 論理和回路
23 要因保持レジスタ
23a,23a′,23b,23b−1,23b−2 ビット
25 異常検出信号送出有効/無効設定レジスタ(切換部)
26 論理積回路
30,30A〜30C 処理部(監視処理部)
30D 処理部(監視処理部,汎用MPU)
31 被疑箇所特定タイマ(タイマ)
40,40A〜40D RAM(記憶部)
41 ログ領域
42 テーブル領域
T1〜TN 階層テーブル
T10 要因テーブル(第1テーブル)
T21〜T2N 要因テーブル(第2テーブル)

Claims (7)

  1. デバイスと、第1電源ユニットと、前記第1電源ユニットからの電源を変換して前記デバイスに供給する第2電源ユニットとを監視する監視装置であって、
    前記第1電源ユニットで検出された第1異常と前記第2電源ユニットまたは前記デバイスで検出された第2異常とを保持する保持部と、
    前記保持部が一の異常を保持してから当該一の異常に関連する異常を前記保持部に保持するまでに要すると推定される所定期間を計時するタイマと、
    処理部と
    前記保持部が前記第2異常を保持したことを示す信号を前記保持部から前記処理部へ送信する送信動作の許可状態/抑止状態を切り換える切換部とを有し、
    前記処理部は、
    前記保持部が前記第1異常または前記第2異常を保持したことを示す信号を前記保持部から受信すると、前記タイマを起動するとともに、前記切換部により前記送信動作を抑止状態に切り換え
    前記タイマが起動されてから前記所定期間を計時するまで、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する
    ことを特徴とする監視装置。
  2. 前記処理部は、
    前記タイマが前記所定期間を計時した時点で前記第1被疑箇所が未特定の場合、前記保持部に保持されている前記第2異常を検索し、検索された前記第2異常を発生させた第2被疑箇所を特定してから、前記切換部により前記送信動作を許可状態に切り換える一方、
    前記タイマが前記所定期間を計時した時点で前記第1被疑箇所が特定されている場合、前記第2被疑箇所の特定を行なうことなく、前記切換部により前記送信動作を許可状態に切り換える
    ことを特徴とする、請求項に記載の監視装置。
  3. 前記第1異常および前記第2異常に関連する異常の情報を階層的に規定するテーブルを保存する記憶部を有し、
    前記処理部は、
    前記テーブルに基づき、前記第1被疑箇所または前記第2被疑箇所を特定する
    ことを特徴とする、請求項2に記載の監視装置。
  4. 前記第1異常に関連する異常の情報を階層的に規定する第1テーブルと前記第2異常に関連する異常の情報を階層的に規定する第2テーブルとを保存する記憶部を有し、
    前記処理部は、
    前記第1テーブルに規定された上位階層の異常から順に前記保持部を検索し、前記第1被疑箇所を特定し、
    前記第2テーブルに規定された上位階層の異常から順に前記保持部を検索し、前記第2被疑箇所を特定する
    ことを特徴とする、請求項に記載の監視装置。
  5. デバイスと、
    第1電源ユニットと、
    前記第1電源ユニットからの電源を変換して前記デバイスに供給する第2電源ユニットと、
    前記デバイス,前記第1電源ユニットおよび前記第2電源ユニットを監視する監視部とを有し、
    前記監視部は、
    前記第1電源ユニットで検出された第1異常と前記第2電源ユニットまたは前記デバイスで検出された第2異常とを保持する保持部と、
    前記保持部が一の異常を保持してから当該一の異常に関連する異常を前記保持部に保持するまでに要すると推定される所定期間を計時するタイマと、
    処理部と
    前記保持部が前記第2異常を保持したことを示す信号を前記保持部から前記処理部へ送信する送信動作の許可状態/抑止状態を切り換える切換部とを有し、
    前記処理部は、
    前記保持部が前記第1異常または前記第2異常を保持したことを示す信号を前記保持部から受信すると、前記タイマを起動するとともに、前記切換部により前記送信動作を抑止状態に切り換え
    前記タイマが起動されてから前記所定期間を計時するまで、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する
    ことを特徴とする情報処理装置。
  6. デバイスと、第1電源ユニットと、前記第1電源ユニットからの電源を変換して前記デバイスに供給する第2電源ユニットとを監視するプロセッサに、
    前記第1電源ユニットで検出された第1異常と前記第2電源ユニットまたは前記デバイスで検出された第2異常とを保持する保持部が一の異常を保持してから当該一の異常に関連する異常を前記保持部に保持するまでに要すると推定される所定期間を計時するタイマとしての機能と、
    前記保持部が前記第2異常を保持したことを示す信号を前記保持部から前記プロセッサへ送信する送信動作の許可状態/抑止状態を切り換える切換部としての機能とを実行させるとともに、
    前記保持部が前記第1異常または前記第2異常を保持したことを示す信号を前記保持部から受信すると、前記タイマを起動するとともに、前記切換部により前記送信動作を抑止状態に切り換え
    前記タイマが起動されてから前記所定期間を計時するまで、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する
    処理を、前記プロセッサに実行させることを特徴とする監視プログラム。
  7. デバイスと、第1電源ユニットと、前記第1電源ユニットからの電源を変換して前記デバイスに供給する第2電源ユニットとを、プロセッサにより監視する監視方法であって、
    前記プロセッサが、
    前記第1電源ユニットで検出された第1異常と前記第2電源ユニットまたは前記デバイスで検出された第2異常とを保持する保持部が一の異常を保持してから当該一の異常に関連する異常を前記保持部に保持するまでに要すると推定される所定期間を計時するタイマ、および前記保持部が前記第2異常を保持したことを示す信号を前記保持部から前記プロセッサへ送信する送信動作の許可状態/抑止状態を切り換える切換部、として機能するとともに、
    前記保持部が前記第1異常または前記第2異常を保持したことを示す信号を前記保持部から受信すると、前記タイマを起動するとともに、前記切換部により前記送信動作を抑止状態に切り換え
    前記タイマが起動されてから前記所定期間を計時するまで、前記第2異常よりも優先的に前記第1異常を発生させた第1被疑箇所を特定する
    ことを特徴とする監視方法。
JP2012123346A 2012-05-30 2012-05-30 監視装置、情報処理装置、監視プログラム、及び監視方法 Expired - Fee Related JP6035878B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012123346A JP6035878B2 (ja) 2012-05-30 2012-05-30 監視装置、情報処理装置、監視プログラム、及び監視方法
US13/847,635 US20130325375A1 (en) 2012-05-30 2013-03-20 Monitoring device, information processing apparatus, and monitoring method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012123346A JP6035878B2 (ja) 2012-05-30 2012-05-30 監視装置、情報処理装置、監視プログラム、及び監視方法

Publications (2)

Publication Number Publication Date
JP2013250650A JP2013250650A (ja) 2013-12-12
JP6035878B2 true JP6035878B2 (ja) 2016-11-30

Family

ID=49671278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012123346A Expired - Fee Related JP6035878B2 (ja) 2012-05-30 2012-05-30 監視装置、情報処理装置、監視プログラム、及び監視方法

Country Status (2)

Country Link
US (1) US20130325375A1 (ja)
JP (1) JP6035878B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014188502A1 (ja) * 2013-05-21 2014-11-27 株式会社日立製作所 管理システム、管理プログラム及び管理方法
JP6392585B2 (ja) * 2014-08-26 2018-09-19 Necプラットフォームズ株式会社 電源装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0314923Y2 (ja) * 1980-05-09 1991-04-02
JPS60112109A (ja) * 1983-11-24 1985-06-18 Misuzu Erii:Kk 故障箇所検知装置
JPH04205441A (ja) * 1990-11-30 1992-07-27 Nec Corp 主原因判定処理方式
JP4219516B2 (ja) * 1999-12-20 2009-02-04 富士通株式会社 電源制御装置及び電源制御方法及び記憶媒体
JP2003032884A (ja) * 2001-07-19 2003-01-31 Oki Electric Ind Co Ltd 電源システム
JP2004086278A (ja) * 2002-08-23 2004-03-18 Hitachi Kokusai Electric Inc 装置障害監視方法および装置障害監視システム
JP4025216B2 (ja) * 2003-02-21 2007-12-19 株式会社日立製作所 無停電電源装置
WO2005015718A2 (en) * 2003-08-08 2005-02-17 Astec International Limited A circuit for maintaining hold-up time while reducing bulk capacitor size and improving efficiency in a power supply
US7379061B2 (en) * 2003-11-12 2008-05-27 Alcatel-Lucent Canada Inc. Method and system for fault isolation within a network element in an optical network
JP4349276B2 (ja) * 2004-12-22 2009-10-21 トヨタ自動車株式会社 異常判定システム
US7991520B2 (en) * 2006-04-25 2011-08-02 Mitsubishi Electric Corporation Control apparatus for electric car
JP4882621B2 (ja) * 2006-09-14 2012-02-22 富士通株式会社 電源障害監視方法および装置
CN102804589B (zh) * 2009-06-22 2015-08-26 三菱电机株式会社 电动机驱动装置
JP2011022651A (ja) * 2009-07-13 2011-02-03 Panasonic Corp システム障害解析方法
JP5743391B2 (ja) * 2009-09-24 2015-07-01 キヤノン株式会社 制御装置および画像形成装置
WO2011158294A1 (en) * 2010-06-17 2011-12-22 Hitachi, Ltd. Storage apparatus and method of detecting power failure in storage apparatus
JP5532143B2 (ja) * 2010-11-12 2014-06-25 富士通株式会社 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム

Also Published As

Publication number Publication date
US20130325375A1 (en) 2013-12-05
JP2013250650A (ja) 2013-12-12

Similar Documents

Publication Publication Date Title
US10223229B2 (en) System for monitoring a to-be-monitored unit of a rack/chassis management controller (RMC/CMC) according to heartbeat signals for determining operating modes
CN109538459B (zh) 基于联网的机泵设备故障监测运维系统及方法
US9071535B2 (en) Comparing node states to detect anomalies
US6772099B2 (en) System and method for interpreting sensor data utilizing virtual sensors
US9143412B1 (en) Proxy reporting for central management systems
US10591970B2 (en) Industrial asset management systems and methods thereof
US8443078B2 (en) Method of determining equivalent subsets of agents to gather information for a fabric
US20200174437A1 (en) Energy consumption management system and energy consumption management method
JP6035878B2 (ja) 監視装置、情報処理装置、監視プログラム、及び監視方法
US20060090087A1 (en) Apparatus and method for controlling power management
US11126490B2 (en) Apparatus and methods for fault detection in a system consisted of devices connected to a computer network
CN106586747B (zh) 电梯运行的监测方法及其装置
TW200910836A (en) Monitoring of computer network resources having service level objectives
US20190121413A1 (en) Power supplying method for computer system
KR101212496B1 (ko) 모니터링 자원의 사용량 표현 방법, 컴퓨팅 장치 및 그 방법을 실행시키기 위한 프로그램을 기록한 기록 매체
JP5696737B2 (ja) 蓄電池システム、蓄電池システムの状態通知方法およびプログラム
CN108959025A (zh) 一种服务器告警方法、装置及服务器
US20130167132A1 (en) System, electronic device with firmware updating function and method therefor
US11797370B2 (en) Optimized diagnostics plan for an information handling system
JP4973703B2 (ja) 故障検出方法及び監視装置
CN106291174B (zh) 一种寿命获得方法、装置、电子设备及服务器
US20190124525A1 (en) An apparatus for managing performance of a wi-fi network and the relate method
TWI439856B (zh) 具故障備援以管理共享資源之方法與多電腦系統
US8275865B2 (en) Methods, systems and computer program products for selecting among alert conditions for resource management systems
JP2014071495A (ja) データ管理方法、情報処理装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161017

R150 Certificate of patent or registration of utility model

Ref document number: 6035878

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees