JP7144086B1 - コンピュータ装置、障害検出方法、プログラム - Google Patents
コンピュータ装置、障害検出方法、プログラム Download PDFInfo
- Publication number
- JP7144086B1 JP7144086B1 JP2021075980A JP2021075980A JP7144086B1 JP 7144086 B1 JP7144086 B1 JP 7144086B1 JP 2021075980 A JP2021075980 A JP 2021075980A JP 2021075980 A JP2021075980 A JP 2021075980A JP 7144086 B1 JP7144086 B1 JP 7144086B1
- Authority
- JP
- Japan
- Prior art keywords
- hardware
- target
- failure
- shared
- index value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
【解決手段】制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数のハードウェア群を備える。制御装置は、他の制御装置と互いに通信して前記複数のハードウェア群で発生した障害情報を記録する。障害情報に基づいて共有ハードウェア装置に接続する対象ハードウェア装置の障害がハードウェア群の全てにおいて発生しているか否かを判定する。ハードウェア群の全てにおいて発生している場合に、対象ハードウェア装置の指標値を減じ、その対象ハードウェア装置に関連する共有ハードウェア装置の指標値を増やす。
【選択図】図1
Description
図1は、本実施形態によるコンピュータ装置の機能ブロック図である。
コンピュータ装置100は、制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数のハードウェア群を備える。以下、コンピュータ装置100における各ハードウェア群はそれぞれをパーティションと呼ぶ。コンピュータ装置100には、第一パーティション1と第二パーティション2の2つのパーティションに対応する各ハードウェア群を備える。
制御部15、制御部25は、それぞれが障害検出プログラムを実行する。これにより制御部15、25は、障害情報記録部51、障害発生有無判定部52、指標値更新部53、出力部54の機能を発揮する。
障害情報記録部51は、自パーティションの障害情報を記憶部に記録すると共に、他のパーティションに備わる制御装置と互いに通信して複数のハードウェア群でそれぞれ個別に発生した障害情報を自装置のハードウェア群に含まれる記憶部に記録する。
障害発生有無判定部52は、障害情報に基づいて、ハードウェア装置のうち共有ハードウェア装置に接続する共通の対象ハードウェア装置の障害が複数のハードウェア群の全てにおいて発生しているか否かを判定する。本実施形態において対象ハードウェア装置は障害検出対象のハードウェア装置であり、HDD11、12、21、22、コントローラ13、23、マザーボード3、バックパネル4を含んでよい。また共有ハードウェア装置は、バックパネル4、マザーボード3を含んでよい。
図3に示す指標値テーブルは、制御部15が障害発生対象として認識したハードウェア装置と、その認識結果である場合に実際に障害が発生している可能性のある被疑対象の候補となるハードウェア装置との組み合わせに応じた指標値を記憶する。制御部15は、あるハードウェア装置において障害が発生した認識した場合、そのハードウェア装置に対応する各被疑対象の候補となる各ハードウェア装置の指標値のうち最も指標値の高い値を示すハードウェア装置を、障害発生対象として特定してよい。制御部15は指標値テーブル151を、制御部25は指標値テーブル251を記憶する。指標値テーブル151、251において、ある障害発生対象のハードウェア装置に対応する複数の被疑対象の候補となる各ハードウェア装置に設定される指標値の合計は100とする。制御部15、25は、この指標値を更新する。具体的には、制御部15、25は、障害が発生したと認識したある対象ハードウェア装置の障害が、ハードウェア群の全てにおいて発生している場合に、その対象ハードウェア装置を障害発生の被疑対象とする指標値を減じ、共有ハードウェア装置を障害発生の被疑対象とする指標値を増やす更新処理を行う。これにより、コンピュータ装置100は、自装置に備わる複数のパーティションに対応する各ハードウェア群において、あるハードウェア装置に障害が発生している場合に、そのハードウェア装置それぞれを配下として直接接続している共有ハードウェア装置が障害発生対象と認識しやすくなるよう制御する。
図5は第二パーティションに含まれるメモリに記録される第二障害情報テーブルを示す図である。
メモリ16は、制御部15の処理に基づいて、第一障害情報テーブルを記憶する。メモリ26は、制御部25の処理に基づいて、第二障害情報テーブルを記憶する。各障害情報テーブルには障害情報が記録される。障害情報は、制御部15の認識した障害発生日を示す日付、障害発生時刻、障害発生対象の識別情報(障害箇所)を含む。
図7は本実施形態によるコンピュータ装置の処理フローを示す図である。
次に、コンピュータ装置100が障害発生対象の候補を特定する処理について説明する。まず、制御部15が第一パーティション1の共有ハードウェア装置であるバックパネル4の配下に接続されている、あるハードウェア装置の障害を認識する(ステップS101)。例えば、HDD11での障害発生を通知する障害発生通知信号を制御部15がコントローラ13を介して取得する。この障害発生通知信号はHDD11が送信してバックパネル4、コントローラ13が中継して制御部15が取得した信号であってもよいし、バックパネル4やコントローラ13が送信して制御部15が取得した信号であってもよい。制御部15の障害情報記録部51-1は、障害発生通知信号から取得した障害情報161をメモリ16の第一障害情報テーブルに記録する(ステップS102)。また制御部15の障害情報記録部51-1は、障害情報161を、BMC間インタフェース5を介して第二パーティション2の制御部25へ送信する(ステップS103)。制御部25の障害情報記録部51-2は、取得した障害情報161をメモリ26の第二障害情報テーブルに記録する(ステップS104)。
図9は本実施形態による最小構成のコンピュータ装置の処理フローを示す図である。
コンピュータ装置100は、制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数のハードウェア群を備える。そして、コンピュータ装置100の制御装置50は、少なくとも、障害情報記録部51と、障害発生有無判定部52と、指標値更新部53と、を備える。
障害情報記録部51は、他の制御装置と互いに通信して複数のハードウェア群で発生した障害情報を自装置のハードウェア群に含まれる記憶部に記録する(ステップS401)。
障害発生有無判定部52は、障害情報に基づいて、ハードウェア装置のうち共有ハードウェア装置に接続する対象ハードウェア装置の障害がハードウェア群の全てにおいて発生しているか否かを判定する(ステップS402)。
指標値更新部53は、対象ハードウェア装置の障害がハードウェア群の全てにおいて発生している場合に、対象ハードウェア装置を障害発生対象とする指標値を減じ、対象ハードウェア装置に関連する共有ハードウェア装置を障害発生対象とする指標値を増やす更新処理を行う(ステップS403)。
2・・・第二パーティション
3・・・マザーボード
4・・・バックパネル
5・・・BMC間インタフェース
11、12、21、22・・・HDD
13、23・・・コントローラ
14、24・・・BMC
15、25・・・制御部
16、26・・・メモリ
17、27・・・通信インタフェース
100・・・コンピュータ装置
Claims (7)
- 制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、前記ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数の前記ハードウェア群を備え、
前記ハードウェア群それぞれに備わる前記制御装置が、
他の制御装置と互いに通信して前記複数のハードウェア群で発生した障害情報を自装置のハードウェア群に含まれる記憶部に記録する障害情報記録手段と、
前記障害情報に基づいて、前記ハードウェア装置のうち前記共有ハードウェア装置に接続する対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生しているか否かを判定する障害発生有無判定手段と、
前記対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生している場合に、前記対象ハードウェア装置を障害発生対象とする指標値を減じ、前記対象ハードウェア装置に関連する前記共有ハードウェア装置を障害発生対象とする指標値を増やす指標値更新手段と、
を備えるコンピュータ装置。 - 前記指標値更新手段は、前記対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生している場合に、前記対象ハードウェア装置を障害発生対象とする指標値を減じ、前記対象ハードウェア装置に関連する前記共有ハードウェア装置を障害発生対象とする指標値が、他のハードウェア装置の指標値よりも高くなる値にその指標値を増やす
請求項1に記載のコンピュータ装置。 - 前記指標値の一覧を出力する出力手段と、を備える請求項1または請求項2に記載のコンピュータ装置。
- 前記出力手段は前記指標値を比較して、前記対象ハードウェア装置または前記共有ハードウェア装置のうち大きい指標値となる装置を前記障害発生対象として出力する
請求項3に記載のコンピュータ装置。 - 前記対象ハードウェア装置が記憶装置であり、
前記共有ハードウェア装置が前記制御装置と前記対象ハードウェア装置とを中継する中継装置である
請求項1から請求項4の何れか一項に記載のコンピュータ装置。 - 制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、前記ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数の前記ハードウェア群を備え、
前記ハードウェア群それぞれに備わる前記制御装置が、
他の制御装置と互いに通信して前記複数のハードウェア群で発生した障害情報を自装置のハードウェア群に含まれる記憶部に記録し、
前記障害情報に基づいて、前記ハードウェア装置のうち前記共有ハードウェア装置に接続する対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生しているか否かを判定し、
前記対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生している場合に、前記対象ハードウェア装置を障害発生対象とする指標値を減じ、前記対象ハードウェア装置に関連する前記共有ハードウェア装置を障害発生対象とする指標値を増やす
障害検出方法。 - 制御装置と当該制御装置により制御される複数のハードウェア装置とにより構成されるハードウェア群であって、前記ハードウェア装置の少なくとも一つとして他のハードウェア群と共有する共有ハードウェア装置を含む複数の前記ハードウェア群を備えたコンピュータ装置の前記ハードウェア群それぞれに備わる前記制御装置を、
他の制御装置と互いに通信して前記複数のハードウェア群で発生した障害情報を自装置のハードウェア群に含まれる記憶部に記録する障害情報記録手段、
前記障害情報に基づいて、前記ハードウェア装置のうち前記共有ハードウェア装置に接続する対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生しているか否かを判定する障害発生有無判定手段、
前記対象ハードウェア装置の障害が前記ハードウェア群の全てにおいて発生している場合に、前記対象ハードウェア装置を障害発生対象とする指標値を減じ、前記対象ハードウェア装置に関連する前記共有ハードウェア装置を障害発生対象とする指標値を増やす指標値更新手段、
として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021075980A JP7144086B1 (ja) | 2021-04-28 | 2021-04-28 | コンピュータ装置、障害検出方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021075980A JP7144086B1 (ja) | 2021-04-28 | 2021-04-28 | コンピュータ装置、障害検出方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7144086B1 true JP7144086B1 (ja) | 2022-09-29 |
JP2022170091A JP2022170091A (ja) | 2022-11-10 |
Family
ID=83446932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021075980A Active JP7144086B1 (ja) | 2021-04-28 | 2021-04-28 | コンピュータ装置、障害検出方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7144086B1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013073260A (ja) * | 2011-09-26 | 2013-04-22 | Hitachi Ltd | 障害監視システムおよび障害監視ソフトウェアによる監視方法 |
WO2014174594A1 (ja) * | 2013-04-23 | 2014-10-30 | 株式会社日立製作所 | ストレージシステムおよびストレージシステムの障害管理方法 |
WO2016088254A1 (ja) * | 2014-12-05 | 2016-06-09 | 株式会社日立製作所 | ストレージシステム、方法 |
-
2021
- 2021-04-28 JP JP2021075980A patent/JP7144086B1/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013073260A (ja) * | 2011-09-26 | 2013-04-22 | Hitachi Ltd | 障害監視システムおよび障害監視ソフトウェアによる監視方法 |
WO2014174594A1 (ja) * | 2013-04-23 | 2014-10-30 | 株式会社日立製作所 | ストレージシステムおよびストレージシステムの障害管理方法 |
WO2016088254A1 (ja) * | 2014-12-05 | 2016-06-09 | 株式会社日立製作所 | ストレージシステム、方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2022170091A (ja) | 2022-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9575785B2 (en) | Cluster system and method for providing service availability in cluster system | |
US11232007B2 (en) | Server system and method of switching server | |
US8904055B2 (en) | Switching control device and switching control method | |
US9575855B2 (en) | Storage apparatus and failure location identifying method | |
US9049101B2 (en) | Cluster monitor, method for monitoring a cluster, and computer-readable recording medium | |
US10445295B1 (en) | Task-based framework for synchronization of event handling between nodes in an active/active data storage system | |
JP2005196490A (ja) | データ多重化のためのシステム及び方法 | |
US10235210B2 (en) | Operation management method and operation management apparatus | |
US8635501B2 (en) | Detecting memory hazards in parallel computing | |
JP6179119B2 (ja) | 管理装置、管理方法、及び管理プログラム | |
JP7144086B1 (ja) | コンピュータ装置、障害検出方法、プログラム | |
JP2007299213A (ja) | Raid制御装置および障害監視方法 | |
US11294591B2 (en) | Apparatus configured to create extended configuration proposal of storage system including multiple notes | |
US9116859B2 (en) | Disk array system having a plurality of chassis and path connection method | |
CN111078480B (zh) | 一种异常恢复方法和服务器 | |
US20160320993A1 (en) | Control apparatus and storage system | |
US20190124145A1 (en) | Method and apparatus for availability management | |
JP5760585B2 (ja) | ストレージシステムおよび異常発生箇所判定方法 | |
CN104618191A (zh) | 一种主机与裸存储块之间的通信故障检测方法和装置 | |
US20160266985A1 (en) | Method, information processing apparatus, and computer readable medium | |
US20150268882A1 (en) | Storage controlling apparatus and controlling method | |
US20160259695A1 (en) | Storage and control method of the same | |
CN107104810A (zh) | 一种基于ha双机热备技术 | |
JP7334423B2 (ja) | メモリ制御装置、メモリ制御プログラム、及びメモリ制御方法 | |
JP7002486B2 (ja) | 電子基板および監視方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220802 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220816 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220908 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7144086 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |