JP7144086B1 - コンピュータ装置、障害検出方法、プログラム - Google Patents

コンピュータ装置、障害検出方法、プログラム Download PDF

Info

Publication number
JP7144086B1
JP7144086B1 JP2021075980A JP2021075980A JP7144086B1 JP 7144086 B1 JP7144086 B1 JP 7144086B1 JP 2021075980 A JP2021075980 A JP 2021075980A JP 2021075980 A JP2021075980 A JP 2021075980A JP 7144086 B1 JP7144086 B1 JP 7144086B1
Authority
JP
Japan
Prior art keywords
hardware
target
failure
shared
index value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021075980A
Other languages
English (en)
Other versions
JP2022170091A (ja
Inventor
直樹 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2021075980A priority Critical patent/JP7144086B1/ja
Application granted granted Critical
Publication of JP7144086B1 publication Critical patent/JP7144086B1/ja
Publication of JP2022170091A publication Critical patent/JP2022170091A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

Figure 0007144086000001
【課題】コンピュータ装置における障害発生対象をより精度高く特定するコンピュータ装置を提供する。
【解決手段】制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数のハードウェア群を備える。制御装置は、他の制御装置と互いに通信して前記複数のハードウェア群で発生した障害情報を記録する。障害情報に基づいて共有ハードウェア装置に接続する対象ハードウェア装置の障害がハードウェア群の全てにおいて発生しているか否かを判定する。ハードウェア群の全てにおいて発生している場合に、対象ハードウェア装置の指標値を減じ、その対象ハードウェア装置に関連する共有ハードウェア装置の指標値を増やす。
【選択図】図1

Description

本発明は、コンピュータ装置、障害検出方法、プログラムに関する。
複数の部品又は装置が接続されているシステムにおいて発生した障害箇所を適切に処理するための障害検出方法の技術が特許文献1に開示されている。
特開2012-194790号公報
制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数のハードウェア群を備えたコンピュータ装置がある。なお当該コンピュータ装置における各ハードウェア群はそれぞれがパーティションと呼ばれることもある。一例としてコンピュータ装置となるサーバ装置の各ハードウェア群には、それぞれ、メモリやCPUなどの制御部を含むBMC(Baseboard Management Controller)、BMCと他のハードウェア装置との通信接続を管理する管理装置、HDD(Hard Disk Drive)などの記憶装置などが含まれる。各ハードウェア群ではそれぞれ別々にOSが起動されるなどして、当該コンピュータ装置は、1台で複数のコンピュータ装置の機能を発揮することができる。
このようなコンピュータ装置においては、共有ハードウェア装置の配下に、各ハードウェア群のハードウェア装置が接続されている場合などにおいて、共有ハードウェア装置と当該共有ハードウェア装置の配下に接続されるハードウェア装置の何れに障害が発生しているのかを管理者が明確に特定できない場合がある。
たとえば、複数のハードウェア群に共有して利用される共有ハードウェア装置となる共有バスに、各ハードウェア群に含まれるハードウェア装置としての記憶装置が接続しているとする。この時、記憶装置に障害が発生している場合も、共有バスに障害が発生している場合も、各ハードウェア群の制御装置は、記憶装置から送信された障害発生信号を、共有バスを介して取得し、または直接共有バスから送信された障害発生信号をも当該共有バスから取得する。そして各ハードウェア群の制御装置は取得した障害発生信号に基づいて障害が発生している装置を特定する。
しかしながら、制御装置は、障害発生信号が共有ハードウェア装置である共有バスと、その配下の記憶装置とを接続する接続部の共有バス側の接続ピンの不具合などにより障害発生として通知された信号であるような場合、その障害発生信号が記憶装置の障害であることを示す場合や、そのように認識することもあり、このような場合、実際には共有バスの障害であるが、記憶装置の障害として制御装置が認識する。コンピュータ装置の管理者が、その認識結果に従って、実際には障害の発生していないハードウェア装置の交換などの保守作業を行うと、結果として障害の発生している共有バスに対しての交換などの保守作業が行われず、障害が解消しない。
そこでこの発明は、上述の課題を解決するコンピュータ装置、障害検出方法、プログラムを提供することを目的としている。
本発明の第1の態様によれば、コンピュータ装置は、制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、前記ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数の前記ハードウェア群を備え、前記ハードウェア群それぞれに備わる前記制御装置が、他の制御装置と互いに通信して前記複数のハードウェア群で発生した障害情報を自装置のハードウェア群に含まれる記憶部に記録する障害情報記録手段と、前記障害情報に基づいて、前記ハードウェア装置のうち前記共有ハードウェア装置に接続する対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生しているか否かを判定する障害発生有無判定手段と、前記対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生している場合に、前記対象ハードウェア装置を障害発生対象とする指標値を減じ、前記対象ハードウェア装置に関連する前記共有ハードウェア装置障害発生対象とする指標値を増やす指標値更新手段と、を備える。
本発明の第2の態様によれば、障害検出方法は、制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、前記ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数の前記ハードウェア群を備え、前記ハードウェア群それぞれに備わる前記制御装置が、他の制御装置と互いに通信して前記複数のハードウェア群で発生した障害情報を自装置のハードウェア群に含まれる記憶部に記録し、前記障害情報に基づいて、前記ハードウェア装置のうち前記共有ハードウェア装置に接続する対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生しているか否かを判定し、前記対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生している場合に、前記対象ハードウェア装置を障害発生対象とする指標値を減じ、前記対象ハードウェア装置に関連する前記共有ハードウェア装置障害発生対象とする指標値を増やす。
本発明の第3の態様によれば、プログラムは、制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、前記ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数の前記ハードウェア群を備えたコンピュータ装置の前記ハードウェア群それぞれに備わる前記制御装置を、他の制御装置と互いに通信して前記複数のハードウェア群で発生した障害情報を自装置のハードウェア群に含まれる記憶部に記録する障害情報記録手段、前記障害情報に基づいて、前記ハードウェア装置のうち前記共有ハードウェア装置に接続する対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生しているか否かを判定する障害発生有無判定手段、前記対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生している場合に、前記対象ハードウェア装置を障害発生対象とする指標値を減じ、前記対象ハードウェア装置に関連する前記共有ハードウェア装置障害発生対象とする指標値を増やす指標値更新手段、として機能させる。
本発明によれば、コンピュータ装置における障害発生対象をより精度高く特定することのできるコンピュータ装置、障害検出方法、プログラムを提供する。
本実施形態によるコンピュータ装置の機能ブロック図である。 本実施形態による各パーティションに備わる制御部の機能ブロック図である。 本実施形態による指標値テーブルの例を示す図である。 本実施形態による第一障害情報テーブルを示す図である。 本実施形態による第二障害情報テーブルを示す図である。 本実施形態による指標値テーブルの更新例を示す図である。 本実施形態によるコンピュータ装置の処理フローを示す図である。 本実施形態によるコンピュータ装置の最小構成を示す図である。 本実施形態による最小構成のコンピュータ装置の処理フローを示す図である。
以下、本発明の一実施形態によるコンピュータ装置を、図面を参照して説明する。
図1は、本実施形態によるコンピュータ装置の機能ブロック図である。
コンピュータ装置100は、制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数のハードウェア群を備える。以下、コンピュータ装置100における各ハードウェア群はそれぞれをパーティションと呼ぶ。コンピュータ装置100には、第一パーティション1と第二パーティション2の2つのパーティションに対応する各ハードウェア群を備える。
第一パーティション1は、HDD11、HDD12、コントローラ13、BMC14を備える。第二パーティション2は、HDD21、HDD22、コントローラ23、BMC24を備える。コントローラ13、23は、BMC14、24とHDD11、12、21、22などの他のハードウェア装置との通信接続を管理する管理装置である。HDD11、HDD12、HDD21、HDD22はそれぞれ、各パーティションのハードウェア群で共有されるバックパネル4に接続される。またコントローラ13、コントローラ23も、各パーティションのハードウェア群で共有されるバックパネル4に接続される。バックパネル4は共有バスの機能を発揮する。コントローラ13、コントローラ23、BMC14、BMC24は、各パーティションのハードウェア群で共有されるハードウェア装置となるマザーボード3に搭載されている。なおバックパネル4はハードウェア装置の通信を繋ぐ中継装置の一態様である。
コントローラ13は、BMC14と通信インタフェース17を介して接続される。BMC14には、パーティション内の各ハードウェア装置を制御する制御装置としての機能を備える制御部15とメモリ16とが備わる。またコントローラ23は、BMC24と通信インタフェース27を介して接続される。BMC24には、パーティション内の各ハードウェア装置を制御する制御装置としての機能を備える制御部25とメモリ26とが備わる。BMC14とBMC24とは、互いのパーティションに含まれるハードウェア装置の障害情報を共有できるように、BMC間インタフェース5で通信接続される。
図2は各パーティションに備わる制御部の機能ブロック図である。
制御部15、制御部25は、それぞれが障害検出プログラムを実行する。これにより制御部15、25は、障害情報記録部51、障害発生有無判定部52、指標値更新部53、出力部54の機能を発揮する。
障害情報記録部51は、自パーティションの障害情報を記憶部に記録すると共に、他のパーティションに備わる制御装置と互いに通信して複数のハードウェア群でそれぞれ個別に発生した障害情報を自装置のハードウェア群に含まれる記憶部に記録する。
障害発生有無判定部52は、障害情報に基づいて、ハードウェア装置のうち共有ハードウェア装置に接続する共通の対象ハードウェア装置の障害が複数のハードウェア群の全てにおいて発生しているか否かを判定する。本実施形態において対象ハードウェア装置は障害検出対象のハードウェア装置であり、HDD11、12、21、22、コントローラ13、23、マザーボード3、バックパネル4を含んでよい。また共有ハードウェア装置は、バックパネル4、マザーボード3を含んでよい。
指標値更新部53は、対象ハードウェア装置の障害が複数のパーティションに対応するハードウェア群の全てにおいて発生している場合に、データテーブルで記憶している各ハードウェア装置の指標値のうち、対象ハードウェア装置を障害発生対象とする指標値を減じ、その対象ハードウェア装置に関連する共有ハードウェア装置障害発生対象とする指標値を増やす処理を少なくとも行う。指標値は、障害発生対象を特定するために用いる指標値である。本実施形態においては当該指標値の値が高いほど、障害発生対象であるとして処理を進める。出力部54は、指標値に基づいて対象ハードウェア装置または共有ハードウェア装置の何れかを障害発生対象として出力する。
なお第一パーティション1に備わる制御部15の各機能部については、障害情報記録部51-1、障害発生有無判定部52-1、指標値更新部53-1、出力部54-1と呼ぶこととする。また第二パーティション2に備わる制御部25の各機能部については、障害情報記録部51-2、障害発生有無判定部52-2、指標値更新部53-2、出力部54-2と呼ぶこととする。
図3は本実施形態による指標値テーブルの例を示す図である。
図3に示す指標値テーブルは、制御部15が障害発生対象として認識したハードウェア装置と、その認識結果である場合に実際に障害が発生している可能性のある被疑対象の候補となるハードウェア装置との組み合わせに応じた指標値を記憶する。制御部15は、あるハードウェア装置において障害が発生した認識した場合、そのハードウェア装置に対応する各被疑対象の候補となる各ハードウェア装置の指標値のうち最も指標値の高い値を示すハードウェア装置を、障害発生対象として特定してよい。制御部15は指標値テーブル151を、制御部25は指標値テーブル251を記憶する。指標値テーブル151、251において、ある障害発生対象のハードウェア装置に対応する複数の被疑対象の候補となる各ハードウェア装置に設定される指標値の合計は100とする。制御部15、25は、この指標値を更新する。具体的には、制御部15、25は、障害が発生したと認識したある対象ハードウェア装置の障害が、ハードウェア群の全てにおいて発生している場合に、その対象ハードウェア装置を障害発生の被疑対象とする指標値を減じ、共有ハードウェア装置を障害発生の被疑対象とする指標値を増やす更新処理を行う。これにより、コンピュータ装置100は、自装置に備わる複数のパーティションに対応する各ハードウェア群において、あるハードウェア装置に障害が発生している場合に、そのハードウェア装置それぞれを配下として直接接続している共有ハードウェア装置が障害発生対象と認識しやすくなるよう制御する。
図4は第一パーティションに含まれるメモリに記録される第一障害情報テーブルを示す図である。
図5は第二パーティションに含まれるメモリに記録される第二障害情報テーブルを示す図である。
メモリ16は、制御部15の処理に基づいて、第一障害情報テーブルを記憶する。メモリ26は、制御部25の処理に基づいて、第二障害情報テーブルを記憶する。各障害情報テーブルには障害情報が記録される。障害情報は、制御部15の認識した障害発生日を示す日付、障害発生時刻、障害発生対象の識別情報(障害箇所)を含む。
図6は本実施形態による指標値テーブルの更新例を示す図である。
図7は本実施形態によるコンピュータ装置の処理フローを示す図である。
次に、コンピュータ装置100が障害発生対象の候補を特定する処理について説明する。まず、制御部15が第一パーティション1の共有ハードウェア装置であるバックパネル4の配下に接続されている、あるハードウェア装置の障害を認識する(ステップS101)。例えば、HDD11での障害発生を通知する障害発生通知信号を制御部15がコントローラ13を介して取得する。この障害発生通知信号はHDD11が送信してバックパネル4、コントローラ13が中継して制御部15が取得した信号であってもよいし、バックパネル4やコントローラ13が送信して制御部15が取得した信号であってもよい。制御部15の障害情報記録部51-1は、障害発生通知信号から取得した障害情報161をメモリ16の第一障害情報テーブルに記録する(ステップS102)。また制御部15の障害情報記録部51-1は、障害情報161を、BMC間インタフェース5を介して第二パーティション2の制御部25へ送信する(ステップS103)。制御部25の障害情報記録部51-2は、取得した障害情報161をメモリ26の第二障害情報テーブルに記録する(ステップS104)。
また制御部25が第二パーティション2の共有ハードウェア装置であるバックパネル4の配下に接続されている、あるハードウェア装置の障害を認識する(ステップS201)。例えば、HDD22での障害発生を通知する障害発生通知信号を制御部25がコントローラ23を介して取得する。この障害発生通知信号はHDD22が送信してバックパネル4、コントローラ23が中継して制御部25が取得した信号であってもよいし、バックパネル4やコントローラ23が送信して制御部25が取得した信号であってもよい。制御部25の障害情報記録部51-2は、障害発生通知信号から取得した障害情報262をメモリ26の第二障害情報テーブルに記録する(ステップS202)。また制御部25の障害情報記録部51-2は、障害情報262を、BMC間インタフェース5を介して第一パーティション1の制御部15へ送信する(ステップS203)。制御部15の障害情報記録部51-1は、取得した障害情報262をメモリ26の第一障害情報テーブルに記録する(ステップS204)。
以上の処理により、第一パーティション1のBMC14内のメモリ16と、第二パーティション2のBMC24内のメモリ26とには、それぞれHDD11の障害を認識したことを示す障害情報161と、HDD22の障害を認識したことを示す障害情報262とが記録される。
以降は、制御部15、25でそれぞれ同じ処理が行われるため、制御部15の処理について説明する。制御部15の障害発生有無判定部52-1は、所定の間隔で、メモリ16の第一障害情報テーブルに記録されている障害情報161、262に基づいて、ハードウェア装置のうち共有ハードウェア装置であるバックパネル4の配下に接続される対象ハードウェア装置となるHDDの障害が各パーティションの全てにおいて発生しているか否かを判定する(ステップS301)。
障害発生有無判定部52-1は、障害情報161に含まれるHDD11の識別情報と、障害情報162に含まれるHDD22の識別情報に基づいて、第一パーティション1と第二パーティション2に対応するコンピュータ装置100に備わる全てのパーティションにおいて、共有ハードウェア装置であるバックパネル4の配下のHDDに障害が発生していると判定する。この場合、障害発生有無判定部52-1は、指標値更新部53-1に対して指標値更新指示を出力する。指標値更新指示には、障害情報161と障害情報262が示す障害発生対象と認識したハードウェア装置の識別情報が含まれる。
指標値更新部53-1は、指標値更新指示に含まれる障害発生対象と認識したハードウェア装置の識別情報に基づいて、その認識結果がHDDであり、HDDを各パーティションで障害が発生した共通の対象ハードウェア装置と特定する(ステップS302)。指標値更新部53-1は、制御部15で記憶する指標値テーブルの認識結果HDDに紐づいて記録される各被疑対象のうち、認識結果に一致する対象ハードウェア装置であるHDDの指標値を10ポイント減じる(ステップS303)。また指標値更新部53-1は、共有ハードウェア装置となるバックパネル4とマザーボード3の指標値を10ポイント増やす(ステップS304)。これにより、バックパネル4とマザーボード3の指標値が高くなる。
指標値の増加の値や、指標値を減じる値は、障害が発生したと認識した対象ハードウェア装置と、その対象ハードウェア装置に関連する共有ハードウェア装置の関係に基づいて予め設定される。指標値更新部53-1は、元々各ハードウェア装置に設定される指標値と、指標値更新指示に基づいて特定した障害が発生したと認識した対象ハードウェア装置と、その対象ハードウェア装置に関連する共有ハードウェア装置の関係に基づいて、障害が発生したと認識した対象ハードウェア装置に関連する共有ハードウェア装置の指標値を、障害が発生したと認識した対象ハードウェア装置の指標値の次に大きな値となるように更新する。これにより、変更後の指標値は、HDDが最も高く、次にHDDに関連する共有ハードウェア装置であるバックパネルの指標値が次に高い値となる。指標値更新部53-1は、元々各ハードウェア装置に設定される指標値と、指標値更新指示に基づいて特定した障害が発生したと認識した対象ハードウェア装置と、その対象ハードウェア装置に関連する共有ハードウェア装置の関係に基づいて、障害が発生したと認識した対象ハードウェア装置に関連する共有ハードウェア装置の指標値を、他のハードウェア装置の指標値よりも高い値となるように更新する処理を行うようにしてもよい。なお、本実施形態において、障害が発生したと認識した対象ハードウェア装置に関連するとは、信号ケーブルなどで直接接続する関係にあることと定義されてよい。
指標値更新部53-1は、指標値更新指示に基づいて特定した障害が発生したと認識した対象ハードウェア装置と、その対象ハードウェア装置に関連する共有ハードウェア装置の関係に基づいて、異なる量の増加または減少を各指標値に加えるようにしてもよい。例えば指標値更新部53-1は、指標値更新指示に基づいて特定した障害が発生したと認識した対象ハードウェア装置がコントローラ13であり、そのコントローラ13とコントローラ23にそれぞれ障害が発生している場合を想定する。この場合、指標値更新部53-1は、コントローラ13を対象ハードウェア装置とし、コントローラ13を配下として接続するマザーボード3を共有ハードウェア装置として、コントローラ13の指標値と、マザーボード3の指標値とを更新する。そして指標値更新部53-1は、コントローラ13の指標値が各ハードウェア装置の指標値のうち一番高く、マザーボード3の指標値が次に高い値となるよう各指標値の更新処理を行うようにしてよい。
制御部15の出力部54は、指標値更新部53が更新処理を行った後の、各ハードウェア装置の指標値の一覧を示す指標値一覧テーブルをモニタ等に出力する(ステップS305)。管理者は、この指標値一覧テーブルを確認して、指標値の順に、障害が発生している可能性を考慮して交換などの保守作業を行う。HDD(HDD11、12)の指標値が最も高いものの、バックパネル4の指標値が次に高い値となるため、管理者は過去のHDDの交換などの履歴に基づいて、次に指標値の高いバックパネル4の交換の保守作業を行う。これにより、全てのパーティションで障害が発生している共通のハードウェア装置が存在する場合、その共通のハードウェア装置が接続する各パーティションで共有される共有ハードウェア装置の交換についての検討がされる。これにより障害が発生しているハードウェア装置の特定の精度を高めることができる。なお、出力部54は、各ハードウェア装置の指標値を比較して、対象ハードウェア装置または共有ハードウェア装置のうち大きい指標値となる装置を障害発生対象としてその情報を出力先に出力するようにしてもよい。
第二パーティション2のBMC24に備わる制御部25においても同様の処理を行う。担当者は第一パーティション1が処理する情報をモニタに表示している場合には、第一パーティション1の制御部15における処理結果をモニタにおいて確認できる。または、担当者は第二パーティション2が処理する情報をモニタに表示している場合には、第二パーティション2の制御部25における処理結果をモニタにおいて確認できる。
上述の実施形態ではコンピュータ装置100は、制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数のハードウェア群に対応するパーティションを2つ備えた場合の例を示している。しかしながらコンピュータ装置100は3つ以上のパーティションを備えた装置であってよい。この場合もコンピュータ装置100は、上記と同様に、各パーティションの制御装置が、他の制御装置と互いに通信して複数のハードウェア群で発生した障害情報を自装置のハードウェア群に含まれる記憶部に記録し、障害情報に基づいて、ハードウェア装置のうち共有ハードウェア装置に接続する対象ハードウェア装置の障害がハードウェア群の全てにおいて発生しているか否かを判定する。そして障害装置は、対象ハードウェア装置の障害がハードウェア群の全てにおいて発生している場合に、対象ハードウェア装置を障害発生対象とする指標値を減じ、対象ハードウェア装置に関連する共有ハードウェア装置障害発生対象とする指標値を増やす更新処理を行う。
図8は本実施形態によるコンピュータ装置の最小構成を示す図である。
図9は本実施形態による最小構成のコンピュータ装置の処理フローを示す図である。
コンピュータ装置100は、制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数のハードウェア群を備える。そして、コンピュータ装置100の制御装置50は、少なくとも、障害情報記録部51と、障害発生有無判定部52と、指標値更新部53と、を備える。
障害情報記録部51は、他の制御装置と互いに通信して複数のハードウェア群で発生した障害情報を自装置のハードウェア群に含まれる記憶部に記録する(ステップS401)。
障害発生有無判定部52は、障害情報に基づいて、ハードウェア装置のうち共有ハードウェア装置に接続する対象ハードウェア装置の障害がハードウェア群の全てにおいて発生しているか否かを判定する(ステップS402)。
指標値更新部53は、対象ハードウェア装置の障害がハードウェア群の全てにおいて発生している場合に、対象ハードウェア装置を障害発生対象とする指標値を減じ、対象ハードウェア装置に関連する共有ハードウェア装置障害発生対象とする指標値を増やす更新処理を行う(ステップS403)。
上述の各装置は内部に、コンピュータシステムを有している。そして、上述した各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
1・・・第一パーティション
2・・・第二パーティション
3・・・マザーボード
4・・・バックパネル
5・・・BMC間インタフェース
11、12、21、22・・・HDD
13、23・・・コントローラ
14、24・・・BMC
15、25・・・制御部
16、26・・・メモリ
17、27・・・通信インタフェース
100・・・コンピュータ装置

Claims (7)

  1. 制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、前記ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数の前記ハードウェア群を備え、
    前記ハードウェア群それぞれに備わる前記制御装置が、
    他の制御装置と互いに通信して前記複数のハードウェア群で発生した障害情報を自装置のハードウェア群に含まれる記憶部に記録する障害情報記録手段と、
    前記障害情報に基づいて、前記ハードウェア装置のうち前記共有ハードウェア装置に接続する対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生しているか否かを判定する障害発生有無判定手段と、
    前記対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生している場合に、前記対象ハードウェア装置を障害発生対象とする指標値を減じ、前記対象ハードウェア装置に関連する前記共有ハードウェア装置障害発生対象とする指標値を増やす指標値更新手段と、
    を備えるコンピュータ装置。
  2. 前記指標値更新手段は、前記対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生している場合に、前記対象ハードウェア装置を障害発生対象とする指標値を減じ、前記対象ハードウェア装置に関連する前記共有ハードウェア装置障害発生対象とする指標値が、他のハードウェア装置の指標値よりも高くなる値にその指標値を増やす
    請求項1に記載のコンピュータ装置。
  3. 前記指標値の一覧を出力する出力手段と、を備える請求項1または請求項2に記載のコンピュータ装置。
  4. 前記出力手段は前記指標値を比較して、前記対象ハードウェア装置または前記共有ハードウェア装置のうち大きい指標値となる装置を前記障害発生対象として出力する
    請求項3に記載のコンピュータ装置。
  5. 前記対象ハードウェア装置が記憶装置であり、
    前記共有ハードウェア装置が前記制御装置と前記対象ハードウェア装置とを中継する中継装置である
    請求項1から請求項4の何れか一項に記載のコンピュータ装置。
  6. 制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、前記ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数の前記ハードウェア群を備え、
    前記ハードウェア群それぞれに備わる前記制御装置が、
    他の制御装置と互いに通信して前記複数のハードウェア群で発生した障害情報を自装置のハードウェア群に含まれる記憶部に記録し、
    前記障害情報に基づいて、前記ハードウェア装置のうち前記共有ハードウェア装置に接続する対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生しているか否かを判定し、
    前記対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生している場合に、前記対象ハードウェア装置を障害発生対象とする指標値を減じ、前記対象ハードウェア装置に関連する前記共有ハードウェア装置障害発生対象とする指標値を増やす
    障害検出方法。
  7. 制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、前記ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数の前記ハードウェア群を備えたコンピュータ装置の前記ハードウェア群それぞれに備わる前記制御装置を、
    他の制御装置と互いに通信して前記複数のハードウェア群で発生した障害情報を自装置のハードウェア群に含まれる記憶部に記録する障害情報記録手段、
    前記障害情報に基づいて、前記ハードウェア装置のうち前記共有ハードウェア装置に接続する対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生しているか否かを判定する障害発生有無判定手段、
    前記対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生している場合に、前記対象ハードウェア装置を障害発生対象とする指標値を減じ、前記対象ハードウェア装置に関連する前記共有ハードウェア装置障害発生対象とする指標値を増やす指標値更新手段、
    として機能させるプログラム。
JP2021075980A 2021-04-28 2021-04-28 コンピュータ装置、障害検出方法、プログラム Active JP7144086B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021075980A JP7144086B1 (ja) 2021-04-28 2021-04-28 コンピュータ装置、障害検出方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021075980A JP7144086B1 (ja) 2021-04-28 2021-04-28 コンピュータ装置、障害検出方法、プログラム

Publications (2)

Publication Number Publication Date
JP7144086B1 true JP7144086B1 (ja) 2022-09-29
JP2022170091A JP2022170091A (ja) 2022-11-10

Family

ID=83446932

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021075980A Active JP7144086B1 (ja) 2021-04-28 2021-04-28 コンピュータ装置、障害検出方法、プログラム

Country Status (1)

Country Link
JP (1) JP7144086B1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013073260A (ja) * 2011-09-26 2013-04-22 Hitachi Ltd 障害監視システムおよび障害監視ソフトウェアによる監視方法
WO2014174594A1 (ja) * 2013-04-23 2014-10-30 株式会社日立製作所 ストレージシステムおよびストレージシステムの障害管理方法
WO2016088254A1 (ja) * 2014-12-05 2016-06-09 株式会社日立製作所 ストレージシステム、方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013073260A (ja) * 2011-09-26 2013-04-22 Hitachi Ltd 障害監視システムおよび障害監視ソフトウェアによる監視方法
WO2014174594A1 (ja) * 2013-04-23 2014-10-30 株式会社日立製作所 ストレージシステムおよびストレージシステムの障害管理方法
WO2016088254A1 (ja) * 2014-12-05 2016-06-09 株式会社日立製作所 ストレージシステム、方法

Also Published As

Publication number Publication date
JP2022170091A (ja) 2022-11-10

Similar Documents

Publication Publication Date Title
US9575785B2 (en) Cluster system and method for providing service availability in cluster system
US11232007B2 (en) Server system and method of switching server
US8904055B2 (en) Switching control device and switching control method
US9575855B2 (en) Storage apparatus and failure location identifying method
US9049101B2 (en) Cluster monitor, method for monitoring a cluster, and computer-readable recording medium
US10445295B1 (en) Task-based framework for synchronization of event handling between nodes in an active/active data storage system
JP2005196490A (ja) データ多重化のためのシステム及び方法
US10235210B2 (en) Operation management method and operation management apparatus
US8635501B2 (en) Detecting memory hazards in parallel computing
JP6179119B2 (ja) 管理装置、管理方法、及び管理プログラム
JP7144086B1 (ja) コンピュータ装置、障害検出方法、プログラム
JP2007299213A (ja) Raid制御装置および障害監視方法
US11294591B2 (en) Apparatus configured to create extended configuration proposal of storage system including multiple notes
US9116859B2 (en) Disk array system having a plurality of chassis and path connection method
CN111078480B (zh) 一种异常恢复方法和服务器
US20160320993A1 (en) Control apparatus and storage system
US20190124145A1 (en) Method and apparatus for availability management
JP5760585B2 (ja) ストレージシステムおよび異常発生箇所判定方法
CN104618191A (zh) 一种主机与裸存储块之间的通信故障检测方法和装置
US20160266985A1 (en) Method, information processing apparatus, and computer readable medium
US20150268882A1 (en) Storage controlling apparatus and controlling method
US20160259695A1 (en) Storage and control method of the same
CN107104810A (zh) 一种基于ha双机热备技术
JP7334423B2 (ja) メモリ制御装置、メモリ制御プログラム、及びメモリ制御方法
JP7002486B2 (ja) 電子基板および監視方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220908

R150 Certificate of patent or registration of utility model

Ref document number: 7144086

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150