JP2011034219A - 故障検出方法及び監視装置 - Google Patents

故障検出方法及び監視装置 Download PDF

Info

Publication number
JP2011034219A
JP2011034219A JP2009178129A JP2009178129A JP2011034219A JP 2011034219 A JP2011034219 A JP 2011034219A JP 2009178129 A JP2009178129 A JP 2009178129A JP 2009178129 A JP2009178129 A JP 2009178129A JP 2011034219 A JP2011034219 A JP 2011034219A
Authority
JP
Japan
Prior art keywords
failure
power supply
unit
detected
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009178129A
Other languages
English (en)
Other versions
JP4973703B2 (ja
Inventor
Daiya Nakamura
大也 仲村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009178129A priority Critical patent/JP4973703B2/ja
Priority to US12/845,850 priority patent/US8451019B2/en
Publication of JP2011034219A publication Critical patent/JP2011034219A/ja
Application granted granted Critical
Publication of JP4973703B2 publication Critical patent/JP4973703B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2015Redundant power supplies
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/40Testing power supplies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/263Arrangements for using multiple switchable power supplies, e.g. battery and AC
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/30Means for acting in the event of power-supply failure or interruption, e.g. power-supply fluctuations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Power Engineering (AREA)
  • Power Sources (AREA)

Abstract

【課題】故障検出方法及び監視装置において、電源供給ユニットの故障の誤検出を防止可能とすることを目的とする。
【解決手段】故障検出方法は、冗長化された電源系統のうち任意の1つの電源系統から電源電圧を供給される複数のユニット内の各々の電源供給ユニットにおいて対応する電源系統の停電又は前記電源供給ユニットの故障を検出し、前記任意の1つの電源系統から電源電圧を供給される前記複数のユニットにおいて検出された停電又は故障を監視装置で監視する。前記監視は、前記任意の1つの電源系統から電源電圧を供給される前記複数のユニットのうち、1つのユニットにおいて故障が検出され、且つ、他の1つユニットにおいて停電又は故障が検出されると、前記1つのユニット及び前記他の1つのユニットにおいて検出された故障は誤検出であると判定する。
【選択図】図7

Description

本発明は、故障検出方法及び監視装置に係り、電源供給ユニットの故障を検出する故障検出方法及び監視装置に関する。
電源供給ユニット(PSU:Power Supply Unit)は、入力電圧に整流や降圧等の処理を施し、PSUが属する装置内のハードディスク装置(HDD:Hard Disk Drive)等の各種ユニットに適した安定した電源電圧を供給する。PSUは高圧電流を扱うため、PSUが故障した場合には発熱が生じたり、装置内のユニットに供給される電源電圧に異常が生じることによりユニットの故障につながる可能性もある。これらの問題を避けるため、PSUは常時独立してPSU自身の状態を監視し、故障を検出した場合には直ちに自己縮退処理を行う機能を有する。又、PSUは、停電発生時に装置が直ちに電池等の二次電源を用いた動作への移行処理を行うために、入力電圧を監視して停電を装置内のユニットに通知する機能も有する。
このように、PSUの代表的機能には、入力電圧を装置内の各ユニットに適した安定した電源電圧に変換して供給する機能、PSU自身の状態を監視して故障検出時には直ちに自己縮退処理を行う機能、及び停電の発生を検出して装置内のユニットに通知する機能が含まれる。
大型記憶装置の一例であるRAID(Redundant Array of Independent Disks)装置は、拡張性と冗長性を維持するために、複数のコントローラユニットと複数のHDDユニットとをネットワークを介して接続し、各ユニット間で通信を行うことで1台の記憶装置として協調動作を行う。
図1は、代表的なRAID装置の構成の一例を示すブロック図である。図1に示すRAID装置1は、コントローラユニット2−1,2−2及びHDDユニット3−1〜3−N(Nは2以上の自然数)がネットワーク4−1,4−2を介して接続された構成を有する。各コントローラユニット2−1,2−2は、プログラムやデータを格納する記憶部とプログラムを実行するCPU等のプロセッサを含む周知の汎用コンピュータで形成可能で、コントローラユニット2−1は監視装置211を有し、コントローラユニット2−2は監視装置221を有する。各HDDユニット3−i(i=1〜N)は、2個のPSU3i1,3i2及び複数のHDD3i3を有する。例えば、HDDユニット3−1は、2個のPSU311,312及び複数のHDD313を有する。
各HDDユニット3−1〜3−Nの一方のPSU311〜3N1は、電源ケーブル5−1を介して得られる第1の電源系統21からの入力電圧を適切な電源電圧に変換してからHDDユニット3−1〜3−N内の各部に供給する。又、各HDDユニット3−1〜3−Nの他方のPSU312〜3N2は、電源ケーブル5−2を介して得られる第2の電源系統22からの入力電圧を適切な電源電圧に変換してからHDDユニット3−1〜3−N内の各部に供給する。又、各HDDユニット3−1〜3−Nの一方のPSU311〜3N1は、ネットワーク4−1を介して監視装置211により監視されており、各HDDユニット3−1〜3−Nの他方のPSU312〜3N2は、ネットワーク4−2を介して監視装置221により監視されている。
このように、各HDDユニット3−1〜3−Nでは、PSUが二重化(又は、冗長化)されているため、一方のPSUが故障しても他方のPSUから電源電圧を供給することができる。従って、一方のPSUが故障して自己縮退処理を行った場合であっても、RAID装置1全体としては動作を継続することができる。例えば、図1の第1の電源系統21で停電が発生した場合、一方のPSU311〜3N1は電源電圧を供給できなくなるが、電源系統22が正常であれば他方のPSU312〜3N2が電源電圧をHDDユニット3−1〜3−N内の各部に供給することができるので、RAID装置1としては正常に動作可能となる。
PSUは、入力電圧を監視して停電を検出するが、一時的に入力電圧が不安定となるような特殊な停電に対しては停電を検出できない場合がある。又、そのような不安定な入力電圧が原因でPSUが電圧変換を正常に行えないと、PSU自身が故障であると判断して自己縮退処理を行ってしまう。
図2は、通常の停電時の入力電圧の変化を説明する図であり、図3は、特殊な停電時の入力電圧の変化を説明する図である。図2及び図3において、縦軸は電源系統からPSUへの入力電圧を任意単位で示し、横軸は時間を任意単位で示す。
PSUは、図2に示す如く入力電圧が急激に一定電位まで低下する通常の停電を検出することができる。つまり、入力電圧が一定時間内に一定電位まで低下すると、PSUは停電を検出することができる。
しかし、例えば図3に示す如く入力電圧が一定時間不安定となり一定電位まで低下するのに一定期間より長い時間がかかると、PSUは不安定な入力電圧が原因で電圧変換を正常に行えない。PSUは、入力電圧の電圧変換を正常に行えないと、このPSU自身の故障を検出することができる。このため、実際には電圧変換が正常に行えない原因が特殊な停電にあり、PSU自身は故障していないにもかかわらず、PSU自身が故障していると判断して自己縮退処理を行う。このため、特殊な停電の原因が取り除かれても、自己縮退処理を行ったPSUが修理又は交換されるまではRAID装置1をPSUが冗長化された状態で使用することができない。
この問題を解決するための手段としては、PSU自身の故障検出精度をハード的に向上させるという方法が考えられるが、故障の誤検出が発生する頻度や、故障の誤検出が発生した際のペナルティ、即ち、一時的に冗長性が落ちるだけでRAID装置は正常に動作可能であることを考慮すると、PSUの故障検出精度の向上に要するコストに見合った効果は期待できない。更に、PSUの故障検出精度を向上させるとしても限界があるため、故障の誤検出を完全に防ぐことは困難である。
特開2005−301476号公報 特開2002−34177号公報
従来の故障検出方法では、電源供給ユニット故障の誤検出を防止することは難しいという問題があった。
そこで、本発明は、電源供給ユニットの故障の誤検出を防止可能な故障検出方法及び監視装置を提供することを目的とする。
本発明の一観点によれば、冗長化された電源系統のうち任意の1つの電源系統から電源電圧を供給される複数のユニット内の各々の電源供給ユニットにおいて対応する電源系統の停電又は前記電源供給ユニットの故障を検出する検出工程と、前記任意の1つの電源系統から電源電圧を供給される前記複数のユニットにおいて検出された停電又は故障を監視装置で監視する監視工程を含み、前記監視工程は、前記任意の1つの電源系統から電源電圧を供給される前記複数のユニットのうち、1つのユニットにおいて故障が検出され、且つ、他の1つユニットにおいて停電又は故障が検出されると、前記1つのユニット及び前記他の1つのユニットにおいて検出された故障は誤検出であると判定する故障検出方法が提供される。
本発明の一観点によれば、冗長化された電源系統から電源電圧を供給される複数のユニットを監視する監視装置であって、前記冗長化された電源系統のうち任意の1つの電源系統から電源電圧を供給される複数のユニット内の各々の電源供給ユニットにおいて検出された対応する電源系統の停電に関する停電通知又は前記電源供給ユニット自身の故障に関する故障通知に基づいて、前記任意の1つの電源系統から電源電圧を供給される前記複数のユニットにおいて検出された停電又は故障を監視装置で監視する手段を備え、前記手段は、前記任意の1つの電源系統から電源電圧を供給される前記複数のユニットのうち、1つのユニットにおいて故障が検出され、且つ、他の1つユニットにおいて停電又は故障が検出されると、前記1つのユニット及び前記他の1つのユニットにおいて検出された故障は誤検出であると判定する監視装置が提供される。
開示の故障検出方法及び監視装置によれば、電源供給ユニットの故障の誤検出を防止することが可能となる。
代表的なRAID装置の構成の一例を示すブロック図である。 通常の停電時の入力電圧の変化を説明する図である。 特殊な停電時の入力電圧の変化を説明する図である。 実施例の構成の一例を示すブロック図である。 実施例における故障検出の一例を説明する図である。 実施例における故障検出の他の例を説明する図である。 実施例の動作を説明するフローチャートである。
開示の故障検出方法及び監視装置では、電源系統が冗長化された複数のユニットで構成された装置において、電源系統からの入力電圧が原因で発生した電源供給ユニット(PSU)の故障の誤検出を、装置全体の状況から実際にはPSUの故障ではなく故障の誤検出であることを、各PSUの状態に基づいて監視装置が判定する。
以下に、開示の故障検出方法及び監視装置の各実施例を図面と共に説明する。
図4は、本発明の一実施例の構成の一例を示すブロック図である。この例では、実施例がRAID装置に適用されている。図4中、図1と同一部分には同一符号を付す。
図4に示すRAID装置11は、監視装置12−1,12−2及びHDDユニット3−1〜3−N(Nは2以上の自然数)がネットワーク4−1,4−2を介して接続された構成を有する。各監視装置12−1,12−2は、プログラムやデータを格納する記憶部とプログラムを実行するCPU等のプロセッサを含む周知の汎用コンピュータで形成可能である。各HDDユニット3−i(i=1〜N)は、2個のPSU3i1,3i2及び複数のHDD3i3を有する。例えば、HDDユニット3−1は、2個のPSU311,312及び複数のHDD313を有する。
各HDDユニット3−1〜3−Nの一方のPSU311〜3N1は、電源ケーブル5−1を介して得られる第1の電源系統21からの入力電圧を適切な電源電圧に変換してからHDDユニット3−1〜3−N内の各部に供給する。又、各HDDユニット3−1〜3−Nの他方のPSU312〜3N2は、電源ケーブル5−2を介して得られる第2の電源系統22からの入力電圧を適切な電源電圧に変換してからHDDユニット3−1〜3−N内の各部に供給する。又、各HDDユニット3−1〜3−Nの一方のPSU311〜3N1は、ネットワーク4−1を介して監視装置12−1により監視されており、各HDDユニット3−1〜3−Nの他方のPSU312〜3N2は、ネットワーク4−2を介して監視装置12−2により監視されている。監視装置12−1は、各HDDユニット3−1〜3−Nの一方のPSU311〜3N1からネットワーク4−1を介して故障検出通知、又は、停電検出通知を受ける。監視装置12−2は、各HDDユニット3−1〜3−Nの他方のPSU312〜3N2からネットワーク4−2を介して故障検出通知、又は、停電検出通知を受ける。
このように、各HDDユニット3−1〜3−Nでは、PSUが二重化(又は、冗長化)されているため、一方のPSUが故障しても他方のPSUから電源電圧を供給することができる。従って、一方のPSUが故障して自己縮退処理を行った場合であっても、RAID装置1全体としては動作を継続することができる。例えば、図1の第1の電源系統21で停電が発生した場合、一方のPSU311〜3N1は電源電圧を供給できなくなるが、電源系統22が正常であれば他方のPSU312〜3N2が電源電圧をHDDユニット3−1〜3−N内の各部に供給することができるので、RAID装置1としては正常に動作可能となる。尚、PSUの冗長化は、二重化に限定されず、3以上の電源系統の各々に対して各HDDユニット内で1つのPSUを設けても良いことは言うまでもない。
図3と共に説明したように、入力電圧が一定時間不安定となり一定電位まで低下するのに一定期間より長い時間がかかるような特殊な停電が発生した場合、PSU自身は故障していないにもかかわらず、PSU自身が故障していると判断して自己縮退処理を行う。PSU自身では、故障が誤検出であるか否かを判断することはできない。しかし、停電の原因は、特殊な停電を含め、RAID装置11の外部の電源系統21又は電源系統22にあり、RAID装置11内の複数のHDDユニット3−1〜3−Nが停電に影響される。そこで、本実施例では、RAID装置11内の全てのHDDユニット3−1〜3−Nを監視している監視装置12−1,12−2であれば、停電であるか否か、即ち、PSUの故障は誤検出であるか否かを判断可能である点に着目する。
図5は、実施例における故障検出の一例を説明する図である。図5中、図4と同一部分には同一符号を付し、その説明は省略する。
図5は、第2の電源系統22で特殊な停電が発生した例を示す。この場合、第2の電源系統22、即ち、同一の電源系統に属するPSU3−1〜3−Nのうち複数のPSUで故障が検出される。しかし、監視装置12−2は、複数のPSUが短時間で同時に故障するような確率が低いことから、複数のPSUで検出された故障は、第2の電源系統22が停電の原因で誤検出された故障であると判断することが可能である。
図6は、実施例における故障検出の他の例を説明する図である。図6中、図4と同一部分には同一符号を付し、その説明は省略する。
図6は、第2の電源系統22で特殊な停電が発生した例を示す。この場合、第2の電源系統22、即ち、同一の電源系統に属するPSU3−1〜3−Nのうち例えばPSU312で故障が検出され、他の複数のPSU(例えば、PSU322,3N2)で停電が検出される。しかし、監視装置12−2は、1つのPSU312で故障が検出されたのと同時期に複数のPSUで停電が検出される確率が低いことから、PSU312で検出された故障は第2の電源系統22が停電の原因で誤検出された故障であると判断することができる。
図7は、実施例の動作を説明するフローチャートである。図7に示す故障誤検出判定処理は、各監視装置12−1,12−2により実行される。具体的には、監視装置を形成するプロセッサが記憶部に格納された故障誤検出判定プログラムを実行することで、故障誤検出判定処理が実行される。監視装置12−1がHDDユニット3−1〜3−Nの各PSU311〜3N1に対して実行する故障誤検出判定処理は、監視装置12−2がHDDユニット3−1〜3−Nの各PSU312〜3N2に対して実行する故障誤検出判定処理と同様であるため、ここでは説明の便宜上、監視装置12−2が実行する故障誤検出判定処理を説明する。
図7において、ステップS1では、RAID装置11内の全てのHDDユニット3−1〜3−Nのうち、任意のPSUで故障が発生してこの任意のPSU自身で故障が検出されたか否かをこの任意のPSUからの故障検出通知があるか否かに基づいて判定する。各PSUは、例えば図3に示すように電源系統からの入力電圧が一定時間不安定となり一定電位まで低下するのに時間がかかるために不安定な入力電圧が原因で電圧変換を正常に行えない場合や、故障が原因で電圧変化を正常に行えない場合、更に内部温度が一定温度まで上昇したりした場合、周知の方法で故障が発生したと判断する。電圧変換が正常に行われているか否かは、例えばPSU内の検出回路により入力電圧を電圧変換した後の電圧が一定電位以上であるか否かを判定することで判断可能である。入力電圧を電圧変換した後の電圧が一定電位未満であれば、電圧変換が正常に行われていないと判定可能である。又、PSUの内部温度が一定温度まで上昇したか否かは、PSU内、或いは、PSU近傍に設けられた温度センサにより検出された温度が一定温度以上であるか否かを判定することで判断可能である。
ステップS1の判定結果がYESになると、ステップS2では、任意のPSUと同じ電源系統から電源電圧を供給されている、前記任意のPSU以外の一又は複数のPSUにおいても故障が発生して故障検出通知があるか否かを判定する。ステップS2の判定結果がNOであると、ステップS3では、任意のPSUと同じ電源系統から電源電圧を供給されている、前記任意のPSU以外の一又は複数のPSUにおいて停電が発生したか否かを前記任意のPSU以外の一又は複数のPSUからの停電検出通知があるか否かに基づいて判定する。各PSUは、例えば図2に示すように電源系統からの入力電圧が一定時間内に一定電位まで低下した場合、周知の方法で停電が発生したと判断する。電源系統からの入力電圧が一定時間内に一定電位まで低下したか否かは、例えばPSU内の検出回路により判定することで判断可能である。
ステップS3の判定結果がNOであると、ステップS4では、一定時間が経過したか否かを判定する。一定時間が経過したか否かは、PSU内のハードウェアタイマ又はソフトウェアタイマを用いた周知の方法で判定可能である。ステップS4の判定結果がNOであると、処理はステップS2へ戻る。他方、ステップS4の判定結果がYESであると、ステップS5では、ステップS1で故障が検出された任意のPSUは実際に故障していると判定し、故障誤検出判定処理は終了する。
又、ステップS2、ステップS3、及びステップS4のいずれかの判定結果がYESであると、ステップS6では、ステップS1で故障が検出された任意のPSU及び任意のPSUと同じ電源系統から電源電圧を供給されている前記任意のPSU以外の一又は複数のPSU、即ち、前記任意のPSUと同じ電源系統から電源電圧を供給されている全てのPSU(例えば、PSU312〜3N2)の故障は誤検出であると判定し、故障誤検出判定処理は終了する。尚、ステップS6で故障が誤検出であると判定された同じ電源系統から電源電圧を供給されている全てのPSUは、周知の方法でリセットすることで復旧可能である。
このように、上記実施例によれば、PSUは、PSU自身の故障を検出する機能と、停電を検出する機能を有するが、PSUの故障検出が誤検出であるか否かは、RAID装置全体を監視する監視装置により判断する。このため、監視装置を用いることで、容易、且つ、高精度にPSUによる故障の誤検出を判断可能となる。例えば、PSUが検出した故障が実際には電圧変換が正常に行えない原因が特殊な停電にありPSU自身は故障していない場合であれば、監視装置がPSU自身は故障していなと判定するので、PSU自身が故障を誤検出しても自己縮退処理を行うことはない。このため、特殊な停電の原因が取り除かれた後は、故障を誤検出したPSUを修理又は交換することなく、RAID装置をPSUが冗長化された状態で使用することができる。
上記実施例は、RAID装置に適用されているが、対象となる装置は、電源系統が冗長化された複数のユニットで構成されたものであれば特に限定されない。つまり、電源系統が冗長化された複数のユニットは、HDDユニット等の記憶装置で形成された記憶ユニットに限定されない。要は、電源系統からの入力電圧が原因で発生した電源供給ユニット(PSU)の故障の誤検出を、装置全体の状況から実際にはPSUの故障ではなく故障の誤検出であることを、各PSUの状態に基づいて監視装置が判定するものであれば、装置は特に限定されない。
以上の実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
冗長化された電源系統のうち任意の1つの電源系統から電源電圧を供給される複数のユニット内の各々の電源供給ユニットにおいて対応する電源系統の停電又は前記電源供給ユニットの故障を検出する検出工程と、
前記任意の1つの電源系統から電源電圧を供給される前記複数のユニットにおいて検出された停電又は故障を監視装置で監視する監視工程を含み、
前記監視工程は、前記任意の1つの電源系統から電源電圧を供給される前記複数のユニットのうち、1つのユニットにおいて故障が検出され、且つ、他の1つユニットにおいて停電又は故障が検出されると、前記1つのユニット及び前記他の1つのユニットにおいて検出された故障は誤検出であると判定する、故障検出方法。
(付記2)
前記検出工程は、前記任意の1つの電源系統からの電源電圧が一定時間内に一定電位まで低下した場合に停電を検出する、付記1記載の故障検出方法。
(付記3)
前記検出工程は、前記任意の1つの電源系統からの電源電圧の電圧変換後の電位が一定電位未満の場合、又は、内部温度が一定温度まで上昇した場合に故障を検出する、付記1又は2記載の故障検出方法。
(付記4)
前記電圧変換後の電位が前記一定電位未満となるのは、前記任意の1つの電源系統からの電源電圧が一定時間不安定となり一定電位まで低下するのに一定期間より長い時間がかかる場合である、付記3記載の故障検出方法。
(付記5)
冗長化された電源系統から電源電圧を供給される複数のユニットを監視する監視装置であって、
前記冗長化された電源系統のうち任意の1つの電源系統から電源電圧を供給される複数のユニット内の各々の電源供給ユニットにおいて検出された対応する電源系統の停電に関する停電通知又は前記電源供給ユニット自身の故障に関する故障通知に基づいて、前記任意の1つの電源系統から電源電圧を供給される前記複数のユニットにおいて検出された停電又は故障を監視装置で監視する手段を備え、
前記手段は、前記任意の1つの電源系統から電源電圧を供給される前記複数のユニットのうち、1つのユニットにおいて故障が検出され、且つ、他の1つユニットにおいて停電又は故障が検出されると、前記1つのユニット及び前記他の1つのユニットにおいて検出された故障は誤検出であると判定する、監視装置。
(付記6)
前記停電通知は、前記任意の1つの電源系統からの電源電圧が一定時間内に一定電位まで低下したことを示す、付記5記載の監視装置。
(付記7)
前故障通知は、前記任意の1つの電源系統からの電源電圧の電圧変換後の電位が一定電位未満の場合、又は、内部温度が一定温度まで上昇したことを示す、付記5又は6記載の監視装置。
(付記8)
前記電圧変換後の電位が前記一定電位未満となるのは、前記任意の1つの電源系統からの電源電圧が一定時間不安定となり一定電位まで低下するのに一定期間より長い時間がかかる場合である、付記7記載の監視装置。
(付記9)
前記手段は、前記1つのユニットにおいて故障が検出され、一定時間経過しても他の1つユニットにおいて停電又は故障が検出されないと、前記1つのユニットにおいて検出された故障は誤検出ではないと判定する、付記5乃至8のいずれか1項記載の監視装置。
(付記10)
前記複数のユニットの各々は、記憶装置を形成する、付記5乃至9のいずれか1項記載の監視装置。
(付記11)
各々が、第1の電源系統からの電源電圧を供給される第1の電源供給ユニットと、第2の電源系統から電源電圧を供給される第2の電源供給ユニットを有する複数のユニットと、
前記第1の電源供給ユニットにおいて検出された前記第1の電源系統の停電に関する停電通知又は前記第1の電源供給ユニット自身の故障に関する故障通知に基づいて、1つの第1の電源供給ユニットにおいて故障が検出され、且つ、他の第1の電源供給ユニットにおいて停電又は故障が検出されると、前記1つの第1のユニット及び前記他の第1のユニットにおいて検出された故障は誤検出であると判定する第1の監視装置と、
前記第2の電源供給ユニットにおいて検出された前記第2の電源系統の停電に関する停電通知又は前記第2の電源供給ユニット自身の故障に関する故障通知に基づいて、1つの第2の電源供給ユニットにおいて故障が検出され、且つ、他の第2の電源供給ユニットにおいて停電又は故障が検出されると、前記1つの第2のユニット及び前記他の第2のユニットにおいて検出された故障は誤検出であると判定する第2の監視装置を備えた、装置。
(付記12)
前記複数のユニットは、記憶装置を更に有する記憶ユニットを形成する、付記11記載の装置。
以上、開示の故障検出方法及び監視装置を実施例により説明したが、本発明は上記実施例に限定されるものではなく、本発明の範囲内で種々の変形及び改良が可能であることは言うまでもない。
3−1〜3−N HDDユニット
4−1,4−2 ネットワーク
5−1,5−2 電源ケーブル
11 RAID装置
12−1,12−2 監視装置
21,22 電源系統
311〜3N1,312〜3N2 PSU

Claims (5)

  1. 冗長化された電源系統のうち任意の1つの電源系統から電源電圧を供給される複数のユニット内の各々の電源供給ユニットにおいて対応する電源系統の停電又は前記電源供給ユニットの故障を検出する検出工程と、
    前記任意の1つの電源系統から電源電圧を供給される前記複数のユニットにおいて検出された停電又は故障を監視装置で監視する監視工程を含み、
    前記監視工程は、前記任意の1つの電源系統から電源電圧を供給される前記複数のユニットのうち、1つのユニットにおいて故障が検出され、且つ、他の1つユニットにおいて停電又は故障が検出されると、前記1つのユニット及び前記他の1つのユニットにおいて検出された故障は誤検出であると判定する、故障検出方法。
  2. 前記検出工程は、前記任意の1つの電源系統からの電源電圧が一定時間内に一定電位まで低下した場合に停電を検出する、請求項1記載の故障検出方法。
  3. 前記検出工程は、前記任意の1つの電源系統からの電源電圧の電圧変換後の電位が一定電位未満の場合、又は、内部温度が一定温度まで上昇した場合に故障を検出する、請求項1又は2記載の故障検出方法。
  4. 冗長化された電源系統から電源電圧を供給される複数のユニットを監視する監視装置であって、
    前記冗長化された電源系統のうち任意の1つの電源系統から電源電圧を供給される複数のユニット内の各々の電源供給ユニットにおいて検出された対応する電源系統の停電に関する停電通知又は前記電源供給ユニット自身の故障に関する故障通知に基づいて、前記任意の1つの電源系統から電源電圧を供給される前記複数のユニットにおいて検出された停電又は故障を監視装置で監視する手段を備え、
    前記手段は、前記任意の1つの電源系統から電源電圧を供給される前記複数のユニットのうち、1つのユニットにおいて故障が検出され、且つ、他の1つユニットにおいて停電又は故障が検出されると、前記1つのユニット及び前記他の1つのユニットにおいて検出された故障は誤検出であると判定する、監視装置。
  5. 前記手段は、前記1つのユニットにおいて故障が検出され、一定時間経過しても他の1つユニットにおいて停電又は故障が検出されないと、前記1つのユニットにおいて検出された故障は誤検出ではないと判定する、請求項4記載の監視装置。
JP2009178129A 2009-07-30 2009-07-30 故障検出方法及び監視装置 Expired - Fee Related JP4973703B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009178129A JP4973703B2 (ja) 2009-07-30 2009-07-30 故障検出方法及び監視装置
US12/845,850 US8451019B2 (en) 2009-07-30 2010-07-29 Method of detecting failure and monitoring apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009178129A JP4973703B2 (ja) 2009-07-30 2009-07-30 故障検出方法及び監視装置

Publications (2)

Publication Number Publication Date
JP2011034219A true JP2011034219A (ja) 2011-02-17
JP4973703B2 JP4973703B2 (ja) 2012-07-11

Family

ID=43763250

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009178129A Expired - Fee Related JP4973703B2 (ja) 2009-07-30 2009-07-30 故障検出方法及び監視装置

Country Status (2)

Country Link
US (1) US8451019B2 (ja)
JP (1) JP4973703B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843351A (zh) * 2015-01-06 2016-08-10 纬创资通股份有限公司 供电方法与供电系统及其承载模块

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201310218A (zh) * 2011-08-31 2013-03-01 Hon Hai Prec Ind Co Ltd 電源裝置
CN105247441A (zh) * 2013-04-03 2016-01-13 惠普发展公司,有限责任合伙企业 可分区功率调节
CN106483472A (zh) * 2015-08-20 2017-03-08 陕西千山航空电子有限责任公司 一种基于机载电源管理控制装置的电源系统故障诊断方法
JP2018196209A (ja) * 2017-05-15 2018-12-06 富士通株式会社 電源監視装置、ストレージ装置及び電源監視方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04125716A (ja) * 1990-09-17 1992-04-27 Fujitsu Ltd 電源断診断システム
JP2006172403A (ja) * 2004-12-20 2006-06-29 Fujitsu Ltd 電源制御装置、バックアップ電源を備えた装置、電源制御プログラム及び電源制御方法
JP2008158799A (ja) * 2006-12-22 2008-07-10 Fujitsu Ltd ストレージ装置、ストレージ装置の制御方法、及びストレージ装置の制御プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3949305B2 (ja) * 1999-01-14 2007-07-25 富士通株式会社 伝送装置及び通信ネットワーク
JP2002034177A (ja) 2000-07-13 2002-01-31 Hitachi Ltd 2系統入力電源装置
DE60022764T2 (de) * 2000-10-27 2006-07-13 Invensys Systems, Inc., Foxboro Busspannungsdetektor in einem Feldgerät
JP2005301476A (ja) 2004-04-08 2005-10-27 Hitachi Ltd 給電制御システム、及び記憶装置
JP4776368B2 (ja) * 2005-12-20 2011-09-21 矢崎総業株式会社 電力供給回路のオン故障検出装置
JP2008090354A (ja) * 2006-09-29 2008-04-17 Hitachi Ltd 電源障害監視方法及びその装置
FR2911731B1 (fr) * 2007-01-24 2009-02-20 Siemens Vdo Automotive Sas Dispositif de detection de defaillance d'alimentation electrique pour unite logique.

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04125716A (ja) * 1990-09-17 1992-04-27 Fujitsu Ltd 電源断診断システム
JP2006172403A (ja) * 2004-12-20 2006-06-29 Fujitsu Ltd 電源制御装置、バックアップ電源を備えた装置、電源制御プログラム及び電源制御方法
JP2008158799A (ja) * 2006-12-22 2008-07-10 Fujitsu Ltd ストレージ装置、ストレージ装置の制御方法、及びストレージ装置の制御プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843351A (zh) * 2015-01-06 2016-08-10 纬创资通股份有限公司 供电方法与供电系统及其承载模块
CN105843351B (zh) * 2015-01-06 2018-10-16 纬颖科技服务股份有限公司 供电方法与供电系统及其承载模块

Also Published As

Publication number Publication date
US20110187404A1 (en) 2011-08-04
US8451019B2 (en) 2013-05-28
JP4973703B2 (ja) 2012-07-11

Similar Documents

Publication Publication Date Title
JP4330547B2 (ja) 情報処理システムの制御方法、情報処理システム、情報処理システムの制御プログラム、冗長構成制御装置
TW202009705A (zh) 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統
JP4973703B2 (ja) 故障検出方法及び監視装置
US10114356B2 (en) Method and apparatus for controlling a physical unit in an automation system
JP5785477B2 (ja) ミラー化データ・ストレージ・システムにおけるエラーを検出するための方法、コンピュータ・プログラム及びシステム
US9244773B2 (en) Apparatus and method for handling abnormalities occurring during startup
KR101560497B1 (ko) 락스텝으로 이중화된 프로세서 코어들의 리셋 제어 방법 및 이를 이용하는 락스텝 시스템
US11099961B2 (en) Systems and methods for prevention of data loss in a power-compromised persistent memory equipped host information handling system during a power loss event
JP4655718B2 (ja) コンピュータシステム及びその制御方法
JP2011076344A (ja) 情報処理装置,情報処理装置の制御方法および制御プログラム
JP2011186664A (ja) バックアップシステム
JP2011022957A (ja) 電圧監視システムおよび電圧監視方法
JP4768574B2 (ja) 電源制御システム及び方法、電子装置、プログラム
JP2010003132A (ja) 情報処理装置、その入出力装置の故障検出方法及びプログラム
JP2015106226A (ja) 二重化システム
JP5696492B2 (ja) 故障検出装置、故障検出方法、及び、故障検出プログラム
JP5734107B2 (ja) プロセス障害判定復旧装置、プロセス障害判定復旧方法、プロセス障害判定復旧プログラム、および記録媒体
JP5729238B2 (ja) 管理サーバ、異常予測システム、異常予測方法、及び、異常予測プログラム
CN112084085B (zh) 系统断电记录方法
TWI709030B (zh) 系統斷電紀錄方法
JP5757276B2 (ja) 無停止演算処理装置、無停止演算処理システム、無停止演算処理方法、及び、無停止演算処理プログラム
US20120331334A1 (en) Multi-cluster system and information processing system
JP2016066238A (ja) 電子機器、電源装置および電源監視方法
WO2008072350A1 (ja) 二重化タイマを用いたシステム監視装置、および監視方法
JP2008052382A (ja) 2次記憶装置の故障検出方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120326

R150 Certificate of patent or registration of utility model

Ref document number: 4973703

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees