JP6212947B2

JP6212947B2 - 情報処理装置、制御装置及び制御プログラム

Info

Publication number: JP6212947B2
Application number: JP2013104098A
Authority: JP
Inventors: 明三瓶; 文夫榛澤; 佐藤　弘章; 弘章佐藤; 経道原田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-05-16
Filing date: 2013-05-16
Publication date: 2017-10-18
Anticipated expiration: 2033-05-16
Also published as: JP2014225133A; US9459943B2; US20140344630A1

Description

本発明は、情報処理装置、制御装置及び制御プログラムに関する。

近年のRedundant Arrays of Inexpensive Disks（ＲＡＩＤ）コントローラにおける装置内の部品数は増加する一方であり、装置内の構成も複雑化している。特に、エンタープライズ系のＲＡＩＤコントローラにおいては、コントローラと記憶装置との間の通信経路が冗長化され、ルータ等の複数の中継ノードの実装により複雑な構成となっている。このように複雑な構成を有するＲＡＩＤコントローラにおいて、記憶装置アクセスエラーの発生原因である故障箇所の特定手法が知られている。

例えば、エラーが発生した記憶装置に対してエラー加点値を加算し、このエラー加点値が閾値に達した記憶装置を故障箇所として特定する手法が知られている。この手法においては、所定のエラー監視期間が経過すると、エラー加点値がリセットされる。

特開２００９−２８２８４８号公報特開２００９−１７００３４号公報特開平１１−３５３８１９号公報特開平１−２７１８２８号公報

しかしながら、上述した故障箇所の特定手法においては、故障箇所としていずれかの記憶装置を特定することしかできず、Control Module（ＣＭ）やルータが故障箇所である際にそれらを特定できないという課題がある。また、複数のエラー発生箇所においてエラー加点値が同値となった場合に、故障箇所を特定できないという課題もある。
１つの側面では、本発明は、故障箇所の特定における信頼性を向上させることを目的とする。

なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本発明の他の目的の１つとして位置付けることができる。

このため、この情報処理装置は、複数の構成部品を備える情報処理装置であって、前記複数の構成部品のうちのいずれかの構成部品における異常を検知すると、前記構成部品毎の異常発生回数を計測する異常監視部と、前記異常監視部が前記いずれかの構成部品について前記異常発生回数の計測を開始すると、当該構成部品についてのアクセス処理値の計測を開始するアクセス処理値監視部と、前記構成部品における前記異常発生回数と前記アクセス処理値との比率に基づいて、故障箇所としての構成部品を特定する故障箇所特定部と、を備える。

開示の情報処理装置によれば、故障箇所の特定における信頼性を向上させることができる。

実施形態の一例としてのストレージシステムの機能構成を模式的に示す図である。実施形態の一例としてのストレージシステムにおける共有情報を例示する図である。実施形態の一例としてのストレージシステムにおける異常発生回数及びアクセス処理値の計測手法を例示する図である。実施形態の一例としてのストレージシステムにおける故障箇所の特定処理を例示するフローチャートである。実施形態の一例としてのストレージシステムにおける異常発生回数及びアクセス処理値のリセット処理を例示するフローチャートである。

〔Ａ〕一実施形態
以下、図面を参照して情報処理装置、制御装置及び制御プログラムに係る一実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。

また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。
〔Ａ−１〕システム構成
図１は実施形態の一例としてのストレージシステムの機能構成を模式的に示す図である。

以下、図中において、同一の各符号は同様の部分を示しているので、その説明は省略する。
本実施形態の一例としてのストレージシステム１は、図１に示すようにＲＡＩＤ装置（情報処理装置）１０及びホスト装置７０を備える。
図１に示すように、これらのＲＡＩＤ装置１０とホスト装置７０とは、例えば、Local Area Network（ＬＡＮ）で互いに通信可能に接続されている。

ホスト装置７０は、例えば、サーバ機能を備えたコンピュータである。図１に示す例では、１つのホスト装置７０を備えているが、２つ以上のホスト装置７０を備えることとしても良い。
ＲＡＩＤ装置１０は、複数（図１に示す例では２つ）のＣＭ（制御装置）２０ａ，２０ｂ、共有メモリ３０、複数（図１に示す例では２つ）のルータ４０ａ，４０ｂ、複数（図１に示す例では３つ）の記憶装置５０ａ〜５０ｃ及びチャネルインタフェース６０を備える。本ＲＡＩＤ装置１０は、複数の記憶装置５０ａ〜５０ｃを仮想的に１つの記憶装置として管理し、ホスト装置７０に対して記憶領域を提供するものである。

以下、ＣＭを示す符号としては、複数のＣＭのうち１つを特定する必要があるときには符号２０ａ，２０ｂを用いるが、任意のＣＭを指すときには符号２０を用いる。また、以下、ルータを示す符号としては、複数のルータのうち１つを特定する必要があるときには符号４０ａ，４０ｂを用いるが、任意のルータを指すときには符号４０を用いる。更に、以下、記憶装置を示す符号としては、複数の記憶装置のうち１つを特定する必要があるときには符号５０ａ〜５０ｃを用いるが、任意の記憶装置を指すときには符号５０を用いる。

以下、ＣＭ２０ａをＣＭ＃０と、ＣＭ２０ｂをＣＭ＃１という場合がある。また、以下、ルータ４０ａをルータ＃０と、ルータ４０ｂをルータ＃１という場合がある。更に、以下、記憶装置５０ａを記憶装置＃０と、記憶装置５０ｂを記憶装置＃１と、記憶装置５０ｃを記憶装置＃２という場合がある。
図１に示すように、ＣＭ２０とチャネルインタフェース６０との間、ＣＭ２０と共有メモリ３０との間、ＣＭ２０とルータ４０との間及びルータ４０と記憶装置５０との間は、例えば、バス線で互いに通信可能に接続されている。

なお、図１に示す本ＲＡＩＤ装置１０が備えるＣＭ２０，ルータ４０及び記憶装置５０の数はこれに限定されるものではなく、例えば、ＣＭ２０，ルータ４０及び記憶装置５０がそれぞれ図１に示す数より多くもしくはより少なく備えられても良い。
以下、ＣＭ２０，ルータ４０及び記憶装置５０をまとめてＲＡＩＤ装置１０の構成部品もしくは単に構成部品という場合がある。そして、本ＲＡＩＤ装置１０は、これらの構成部品における異常を検知し、異常が検知された構成部品の中から故障箇所を特定する機能を備える。

チャネルインタフェース６０は、ホスト装置７０と通信可能に接続するインタフェースコントローラである。チャネルインタフェース６０は、ホスト装置７０から送信されたデータを受信してＣＭ２０に受け渡し、又、ＣＭ２０から受け取ったデータをホスト装置７０に送信する。
ルータ４０は、ＣＭ２０と記憶装置５０とを中継する既知の装置である。これらのルータ４０は、互いに同様の機能構成を備える。

記憶装置５０は、データを読み書き可能に格納する既知の装置であり、例えば、Hard Disk Drive（ＨＤＤ）やSolid State Drive（ＳＳＤ）である。これらの記憶装置５０は、互いに同様の機能構成を備える。
本実施形態の一例においては、ＣＭ＃０はルータ＃０又はルータ＃１を介して各記憶装置５０にアクセスできるように冗長化されて構成されており、ＣＭ＃１もルータ＃０又はルータ＃１を介して各記憶装置５０にアクセスできるように冗長化されて構成されている。

図２は、実施形態の一例としてのストレージシステムにおける共有情報を例示する図である。
共有メモリ３０は、ＣＭ＃０及びＣＭ＃１に共有される記憶装置である。本実施形態の一例においては、共有メモリ３０は、図２に示すように、ＲＡＩＤ装置１０の構成部品であるＣＭ＃０，＃１、ルータ＃０，＃１及び記憶装置＃０〜＃２における異常発生回数とアクセス処理値（ともに詳細は図３を用いて後述）とを対応づけた情報を共有情報３００として保持している。本ＲＡＩＤ装置１０の起動時には、各構成部品の異常発生回数及びアクセス処理値は、図２に示すように、それぞれ初期値としての０が設定されている。また、異常発生回数及びアクセス処理値の閾値についても、図３を用いて後述する。

なお、図１に示す例においては、１つの共有メモリ３０が各ＣＭ２０の外部に備えられているが、これに限定されるものではない。例えば、各ＣＭ２０が共有メモリ３０をそれぞれ備え、ＣＭ２０間の通信によって互いの共有メモリ３０に格納されたデータを同期して一致させても良い。
ＣＭ２０は、種々の制御を行なう制御装置であり、ホスト装置７０からのストレージアクセス要求に従って、各種制御を行なう。

ＣＭ＃０は、Central Processing Unit（ＣＰＵ；コンピュータ）２１ａ及びメモリ２２を備える。
メモリ２２は、Read Only Memory（ＲＯＭ）及びRandom Access Memory（ＲＡＭ）を含む記憶装置である。メモリ２２のＲＯＭには、Operating System（ＯＳ）、故障箇所特定の制御に係るソフトウェアプログラム（制御プログラム）やこのプログラム用のデータ類が書き込まれている。メモリ２２上のソフトウェアプログラムは、ＣＰＵ２１ａに適宜読み込まれて実行される。また、メモリ２２のＲＡＭは、一次記録メモリあるいはワーキングメモリとして利用される。

ＣＰＵ２１ａは、種々の制御や演算を行なう処理装置であり、メモリ２２に格納されたＯＳやプログラムを実行することにより、種々の機能を実現する。すなわち、ＣＰＵ２１ａは、図１に示すように、異常監視部２１１，アクセス処理値監視部２１２，故障箇所特定部２１３及びリセット処理部２１４として機能する。
なお、異常監視部２１１，アクセス処理値監視部２１２，故障箇所特定部２１３及びリセット処理部２１４としての機能を実現するためのプログラム（制御プログラム）は、例えばフレキシブルディスク，ＣＤ（ＣＤ−ＲＯＭ，ＣＤ−Ｒ，ＣＤ−ＲＷ等），ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−ＲＡＭ，ＤＶＤ−Ｒ，ＤＶＤ＋Ｒ，ＤＶＤ−ＲＷ，ＤＶＤ＋ＲＷ，ＨＤＤＶＤ等），ブルーレイディスク，磁気ディスク，光ディスク，光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータはその記録媒体から図示しない読取装置を介してプログラムを読み取って内部記録装置または外部記録装置に転送し格納して用いる。又、そのプログラムを、例えば磁気ディスク，光ディスク，光磁気ディスク等の記憶装置（記録媒体）に記録しておき、その記憶装置から通信経路を介してコンピュータに提供してもよい。

異常監視部２１１，アクセス処理値監視部２１２，故障箇所特定部２１３及びリセット処理部２１４としての機能を実現する際には、内部記憶装置（本実施形態ではメモリ２２）に格納されたプログラムがコンピュータのマイクロプロセッサ（本実施形態ではＣＰＵ２１ａ）によって実行される。このとき、記録媒体に記録されたプログラムをコンピュータが読み取って実行してもよい。

なお、本実施形態において、コンピュータとは、ハードウェアとＯＳとを含む概念であり、ＯＳの制御の下で動作するハードウェアを意味している。又、ＯＳが不要でアプリケーションプログラム単独でハードウェアを動作させるような場合には、そのハードウェア自体がコンピュータに相当する。ハードウェアは、少なくとも、ＣＰＵ等のマイクロプロセッサと、記録媒体に記録されたコンピュータプログラムを読み取るための手段とをそなえており、本実施形態においては、ＣＭ２０がコンピュータとしての機能を有しているのである。

ＣＭ＃１はＣＰＵ２１ｂ及びメモリ２２を備える点でＣＭ＃０と同様であるが、ＣＰＵ２１ｂは、図１に示すように、故障箇所特定部２１３及びリセット処理部２１４として機能しない点でＣＰＵ２１ａとは異なる。すなわち、本実施形態の一例においては、ＣＭ＃０がマスタＣＭとして機能し、ＣＭ＃１がスレーブＣＭとして機能する。なお、ＣＰＵ２１ｂは、故障箇所特定部２１３及びリセット処理部２１４として機能しない点以外は、ＣＰＵ２１ａと同様の機能構成を備えるため、その詳細な説明は省略する。

図３は、実施形態の一例としてのストレージシステムにおける異常発生回数及びアクセス処理値の計測手法を例示する図である。
異常監視部２１１は、各構成部品における異常を検知し、又、構成部品毎の異常発生回数を計測する。
具体的には、異常監視部２１１は、図１に示したＲＡＩＤ装置１０の構成部品であるＣＭ＃０，＃１、ルータ＃０，＃１及び記憶装置＃０〜＃２のいずれかで発生した異常を検知する。

この異常監視部２１１による異常検知手法は、既知の種々の手法によって実現可能なため、その詳細な説明は省略する。
図３に示す例においては、ＣＭ＃０，ルータ＃０及び記憶装置＃０で異常が発生している。このように複数の構成部品で異常が検知されるのは、例えば、ＣＭ＃０がルータ＃０を介して記憶装置＃０に対するアクセス処理を行なっている場合である。なお、構成部品における異常の原因は、例えば、回路故障やソフトウェアエラー、記憶装置５０内のチップにおける断線である。例えば、ＣＭ＃０がルータ＃０を介して記憶装置＃０に対するアクセス処理を行なっている場合に、これらのいずれかの構成部品において回路故障等が発生すると、図３に示すようにＣＭ＃０，ルータ＃０及び記憶装置＃０において異常が検知される。そして、異常監視部２１１は、図３に示すように、これらの異常を検知する毎に対応する構成部品の異常発生回数を１ずつ加算（累計）し、共有情報３００として共有メモリ３０に上書きしていく。なお、異常監視部２１１は、後述するリセット処理部２１４によるリセット処理が行なわれるまで、異常発生回数の計数を継続する。

アクセス処理値監視部２１２は、構成部品毎のアクセス処理値を計測する。
具体的には、アクセス処理値監視部２１２は、異常監視部２１１がいずれかの構成部品について異常発生回数の計測を開始すると、その構成部品についてのアクセス処理値の計測を開始する。
図３に示す例においては、異常監視部２１１がＣＭ＃０，ルータ＃０及び記憶装置＃０について異常発生回数の計測を開始したため、アクセス処理値監視部２１２は、これらＣＭ＃０，ルータ＃０及び記憶装置＃０についてアクセス処理値の計測を開始する。なお、アクセス処理値とは、例えば、各構成部品が処理するデータ量やコマンド（Read/Writeコマンド）発行数である。以下、特筆しない限りアクセス処理値は各構成部品が処理するデータ量であるものとする。本実施形態の一例においては、アクセス処理値として各構成部品が処理するデータ量を用いた方が高い精度での故障箇所の特定を期待できる。そして、アクセス処理値監視部２１２は、各構成部品が処理するデータ量が増加する毎に対応する構成部品のアクセス処理値を加算（累計）し、共有情報３００として共有メモリ３０に上書きしていく。なお、アクセス処理値監視部２１２は、異常が検知されているアクセス処理に限らず、正常なアクセス処理についても計測する。また、アクセス処理値監視部２１２は、後述するリセット処理部２１４によるリセット処理が行なわれるまで、アクセス処理値の計測を継続する。

このアクセス処理値監視部２１２によるアクセス処理値の計測手法は、既知の種々の手法によって実現可能なため、その詳細な説明は省略する。
上述したように、異常監視部２１１及びアクセス処理値監視部２１２は２つのＣＭ２０がともに備える機能であるため、２つのＣＭ２０はともに上述した異常監視及びアクセス処理値監視を行ない、共有メモリ２０の共有情報３００を更新していく。

図１に示す例においては、ＣＭ＃０はルータ＃０又はルータ＃１を介して３つの記憶装置５０にアクセス可能であり、ＣＭ＃１もルータ＃０又はルータ＃１を介して３つの記憶装置５０にアクセス可能な冗長構成を有する。よって、ＣＭ＃０の異常監視部２１１及びアクセス処理値監視部２１２は、自ＣＭ＃０と２つのルータ４０と３つの記憶装置５０との異常監視及びアクセス処理値監視をそれぞれ行なう。一方、ＣＭ＃１の異常監視部２１１及びアクセス処理値監視部２１２は、自ＣＭ＃１と２つのルータ４０と３つの記憶装置５０との異常監視及びアクセス処理値監視をそれぞれ行なう。

故障箇所特定部２１３は、各構成部品における異常発生回数とアクセス処理値との比率に基づいて、故障箇所としての構成部品を特定する。
具体的には、故障箇所特定部２１３は、異常監視部２１１が計測するいずれかの構成部品についての異常発生回数が閾値に達すると、その構成部品における異常発生回数とアクセス処理値との比率を算出する。例えば、故障箇所特定部２１３は、異常発生回数をアクセス処理値で除算して比率を算出する。そして、故障箇所特定部２１３は、この比率が最も大きい構成部品を故障箇所として特定する。

図３に示す例においては、異常発生回数の閾値が10回に設定されている。つまり、異常監視部２１１が計測した異常発生回数が閾値である10回に同時に達した構成部品（被疑箇所）が複数ある場合には、故障箇所特定部２１３は、それらの被疑箇所における異常発生回数をアクセス処理値で除算した比率をそれぞれ求める。そして、故障箇所特定部２１３は、算出した比率が最も大きい被疑箇所（構成部品）を故障箇所として特定する。一方、異常監視部２１１が計測した異常発生回数が閾値である10回に達した構成部品（被疑箇所）が１つのみである場合には、故障箇所特定部２１３は、比率の算出をせずに、その被疑箇所（構成部品）を故障箇所として特定する。なお、故障箇所特定部２１３は、故障箇所を特定した際に、その故障箇所を図示しないディスプレイ等に表示させ、オペレータに提示しても良い。

例えば、ＣＭ＃０，ルータ＃０及び記憶装置＃０における異常発生回数がそれぞれ同時に10回、10回及び10回に達し、これらの構成部品におけるアクセス処理値がそれぞれ80GB，30GB及び50Gである場合について、故障箇所の特定手法を説明する。故障箇所特定部２１３は、異常発生回数が図３に例示する閾値としての10回に達したＣＭ＃０，ルータ＃０及び記憶装置＃０を被疑箇所と判断する。また、故障箇所特定部２１３は、ＣＭ＃０，ルータ＃０及び記憶装置＃０における比率をそれぞれ算出して、10/80，10/30及び10/50を得る。そして、故障箇所特定部２１３は、算出した比率の中で最も大きい値10/30であるルータ＃０を故障箇所として特定する。

リセット処理部２１４は、異常発生回数とアクセス処理値との計測をリセットさせる。
具体的には、リセット処理部２１４は、アクセス処理値監視部２１３が計測するいずれかの構成部品についてのアクセス処理値が閾値に達すると、共有情報３００におけるその構成部品についての異常発生回数とアクセス処理値とをリセットする。
図３に示す例においては、アクセス処理値の閾値（単位アクセス処理値）が100GBに設定されている。つまり、アクセス処理値監視部２１１が計測したアクセス処理値が閾値である100GBに達した構成部品がある場合には、リセット処理部２１４は、共有情報３００におけるその構成部品についての異常発生回数とアクセス処理値とをリセットする。なお、上述したようにアクセス処理値としてコマンド発行数を用いる場合には、アクセス処理値の閾値にはコマンド発行数が設定される。

すなわち、故障箇所特定部２１３は、アクセス処理値が単位アクセス処理値に達するまでに異常発生回数が閾値に達した構成部品を被疑箇所と判定する。言い換えれば、故障箇所特定部２１３は、単位アクセス処理値当たりの異常発生回数が閾値に達した構成部品を被疑箇所と判定する。
〔Ａ−２〕動作
上述の如く構成された実施形態の一例としてのストレージシステム１における故障箇所の特定処理の一例を図４に示すフローチャート（ステップＳ１０〜Ｓ１００）に従って説明する。

故障箇所特定部２１３は、異常監視部２１１が計測するいずれかの構成部品についての異常発生回数が閾値に達したことを検知する（ステップＳ１０）。
故障箇所特定部２１３は、異常監視部２１１が計測した異常発生回数が閾値に達した構成部品（被疑箇所）が１箇所のみであるかを判定する（ステップＳ２０）。
被疑箇所が１箇所のみである場合には（ステップＳ２０のＹＥＳルート参照）、故障箇所特定部２１３は、閾値に達した構成部品を故障箇所として特定する（ステップＳ３０）。

被疑箇所が１箇所のみでない場合には（ステップＳ２０のＮＯルート参照）、故障箇所特定部２１３は、それらの被疑箇所における異常発生回数をアクセス処理値で除算した比率をそれぞれ求める。
以下のステップＳ４０〜Ｓ１００においては、被疑箇所がＣＭ＃０，ルータ＃０及び記憶装置＃０である場合について説明する。

故障箇所特定部２１３は、被疑箇所のうちＣＭ＃０の比率が最大であるかを判定する（ステップＳ４０）。
被疑箇所のうちＣＭ＃０の比率が最大である場合には（ステップＳ４０のＹＥＳルート参照）、故障箇所特定部２１３は、ＣＭ＃０を故障箇所として特定する（ステップＳ５０）。例えば、正常なＣＭ＃１と異常なＣＭ＃０とが正常な１つの記憶装置＃０に対してアクセスした場合には、このステップＳ５０に到達する。

被疑箇所のうちＣＭ＃０の比率が最大でない場合には（ステップＳ４０のＮＯルート参照）、故障箇所特定部２１３は、被疑箇所のうちルータ＃０の比率が最大であるかを判定する（ステップＳ６０）。
被疑箇所のうちルータ＃０の比率が最大である場合には（ステップＳ６０のＹＥＳルート参照）、故障箇所特定部２１３は、ルータ＃０を故障箇所として特定する（ステップＳ７０）。

被疑箇所のうちルータ＃０の比率が最大でない場合には（ステップＳ６０のＮＯルート参照）、故障箇所特定部２１３は、被疑箇所のうち記憶装置＃０の比率が最大であるかを判定する（ステップＳ８０）。
被疑箇所のうち記憶装置＃０の比率が最大である場合には（ステップＳ８０のＹＥＳルート参照）、故障箇所特定部２１３は、記憶装置＃０を故障箇所として特定する（ステップＳ９０）。例えば、正常な１つのＣＭ＃０が正常な複数の記憶装置＃１，＃２と異常な１つの記憶装置＃０とに対してアクセスした場合には、このステップＳ９０に到達する。

被疑箇所のうち記憶装置＃０の比率が最大でない場合、つまり、２以上の被疑箇所における比率が同値の場合には（ステップＳ８０のＮＯルート参照）、故障箇所特定部２１３は、故障箇所は不定であると判断する（ステップＳ１００）。例えば、１つのＣＭ＃０が１つの記憶装置＃０に対してのみアクセスした場合には、このステップＳ１００に到達する。ＣＭ＃０から他の記憶装置＃１，＃２へのアクセスや他のＣＭ＃１から記憶装置＃０へのアクセスが一切ないため、統計的に故障箇所を特定することは困難である。ただし、大規模なＲＡＩＤ装置においては、複数の記憶装置を使用したＲＡＩＤ構成で運用するのが通常であり、１つの記憶装置のみにアクセスが集中するのはＲＡＩＤ０（１つの記憶装置）のみでの運用ということとなり、通常はありえないケースとなる。

以上のステップＳ３０，Ｓ５０，Ｓ７０，Ｓ９０又はＳ１００に到達すると、本故障箇所の特定処理の一例は終了する。
なお、故障箇所特定部２１３による比率が最大であるかについての判定（ステップＳ４０，Ｓ６０，Ｓ８０）の回数は被疑箇所の数によって決まるため、図４に示した例に限定されるものではない。また、障箇所特定部２１３による比率が最大であるかについての判定（ステップＳ４０，Ｓ６０，Ｓ８０）の順序も図４に示した例に限定されるものではなく、故障箇所特定部２１３は、例えば、ステップＳ８０，Ｓ６０，Ｓ４０の順に判定しても良い。更に、故障箇所特定部２１３は、故障箇所を特定した際には（ステップＳ３０，Ｓ５０，Ｓ７０，Ｓ９０）、その故障箇所を図示しないディスプレイ等に表示させ、オペレータに提示しても良い。一方、故障箇所特定部２１３は、故障箇所は不定であると判断した際には（ステップＳ１００）、故障箇所が不定であるというメッセージを図示しないディスプレイ等に表示させ、オペレータに提示しても良い。

次に、上述の如く構成された実施形態の一例としてのストレージシステム１における異常発生回数及びアクセス処理値のリセット処理の一例を図５に示すフローチャート（ステップＳ１１０〜Ｓ１８０）に従って説明する。図５に示す例においては、図１に示したようにＲＡＩＤ装置１０が構成部品として２つのＣＭ２０，２つのルータ４０及び３つの記憶装置５０を備える例について説明する。

リセット処理部２１４は、アクセス処理値監視部２１２が計測するいずれかの構成部品についてのアクセス処理値が閾値に達したことを検知する（ステップＳ１１０）。
リセット処理部２１４は、アクセス処理値監視部２１２が計測したＣＭ＃０におけるアクセス処理値が閾値に達したかを判定する（ステップＳ１２０）。
アクセス処理値監視部２１２が計測したＣＭ＃０におけるアクセス処理値が閾値に達した場合には（ステップＳ１２０のＹＥＳルート参照）、リセット処理部２１４は、ＣＭ＃０における異常発生回数及びアクセス処理値の計測をリセットさせ（ステップＳ１３０）、ステップＳ１４０に移行する。

アクセス処理値監視部２１２が計測したＣＭ＃０におけるアクセス処理値が閾値に達していない場合には（ステップＳ１２０のＮＯルート参照）、直接ステップＳ１４０に移行する。
リセット処理部２１４は、アクセス処理値監視部２１２が計測したＣＭ＃１におけるアクセス処理値が閾値に達したかを判定する（ステップＳ１４０）。

アクセス処理値監視部２１２が計測したＣＭ＃１におけるアクセス処理値が閾値に達した場合には（ステップＳ１４０のＹＥＳルート参照）、リセット処理部２１４は、ＣＭ＃１における異常発生回数及びアクセス処理値の計測をリセットさせ（ステップＳ１５０）、次の処理に移行する。
アクセス処理値監視部２１２が計測したＣＭ＃１におけるアクセス処理値が閾値に達していない場合には（ステップＳ１４０のＮＯルート参照）、次の構成部品についての判定処理に移行する。

そして、リセット処理部２１４は、同様にルータ＃０及び記憶装置＃０，＃１についての判定処理及びリセット処理を行なう。
更に、リセット処理部２１４は、アクセス処理値監視部２１２が計測した記憶装置＃２におけるアクセス処理値が閾値に達したかを判定する（ステップＳ１６０）。
アクセス処理値監視部２１２が計測した記憶装置＃２におけるアクセス処理値が閾値に達した場合には（ステップＳ１６０のＹＥＳルート参照）、リセット処理部２１４は、記憶装置＃２における異常発生回数及びアクセス処理値の計測をリセットさせ（ステップＳ１７０）、ステップＳ１８０に移行する。

アクセス処理値監視部２１２が計測した記憶装置＃２におけるアクセス処理値が閾値に達していない場合には（ステップＳ１６０のＮＯルート参照）、直接ステップＳ１８０に移行する。
以上で、リセットが完了し（ステップＳ１８０）、本リセット処理の一例が終了する。
なお、リセット処理部２１４によるアクセス処理値が閾値に達したかの判定（ステップＳ１２０，Ｓ１４０，…，Ｓ１６０）の順序は図５に示した例に限定されるものではない。リセット処理部２１４は、例えば、ステップＳ１６０，…，Ｓ１４０，Ｓ１２０の順に判定しても良い。

〔Ａ−３〕効果
このように、実施形態の一例としてのストレージシステム１によれば、以下のような効果を奏することができる。
すなわち、１つの構成部品の故障により複数の構成部品において異常が検知された場合でも、故障箇所を特定することができる。

例えば、正常なＣＭ＃１と異常なＣＭ＃０とが正常な１つの記憶装置＃０に対してアクセスした場合には、故障したＣＭ＃０が正常な記憶装置＃０へアクセスすることになる。そのため、ＣＭ＃０と記憶装置＃０との異常発生回数は互いに同値となり、単に異常発生が検知された構成部品の異常発生回数を計数し、この異常発生回数が多い構成部品を故障箇所とする手法では故障箇所が特定できない。本ストレージシステム１によれば、アクセス処理値監視部２１２が正常なＣＭ＃１から正常な記憶装置＃０に対するアクセス処理値の計測をする。そして、記憶装置＃０におけるアクセス処理値が増加し、記憶装置＃０における比率が減少する。従って、故障箇所特定部２１３は、故障したＣＭ＃０の比率が正常な記憶装置＃０の比率よりも大きいと判定することができ、故障箇所を特定することができる。このため、故障箇所の特定における信頼性を向上させることができる。

また、例えば、正常な１つのＣＭ＃０が正常な複数の記憶装置＃１，＃２と異常な１つの記憶装置＃０とに対してアクセスした場合には、正常なＣＭ＃０が故障した記憶装置＃０へアクセスすることになる。このために、単に異常発生が検知された構成部品の異常発生回数を計数するだけでは、ＣＭ＃０と記憶装置＃０との異常発生回数は互いに同値となり、故障箇所が特定できない。本ストレージシステム１によれば、アクセス処理値監視部２１２が正常なＣＭ＃０から正常な記憶装置＃１，＃２に対するアクセス処理値の計測をする。そして、ＣＭ＃０におけるアクセス処理値が増加し、ＣＭ＃０における比率が減少する。従って、故障箇所特定部２１３は、故障した記憶装置＃０の比率が正常なＣＭ＃０の比率よりも大きいと判定することができ、故障箇所を特定することができる。このため、故障箇所の特定における信頼性を向上させることができる。なお、一般的なＲＡＩＤ装置においては、複数の記憶装置を使用したＲＡＩＤ構成での運用を行なうため、１つのＣＭが複数の記憶装置へ同時にアクセスするケースが多い。よって、正常な１つのＣＭ＃０が正常な複数の記憶装置＃１，＃２と異常な１つの記憶装置＃０とに対してアクセスする場合において、故障箇所の特定ができるという効果は特に有効である。

更に、故障した１つのＣＭ２０が正常な１つの記憶装置５０に集中的にアクセスした場合でも、他の正常なＣＭ２０からその記憶装置５０へアクセスが行なわれれば、正常な記憶装置５０における比率が低下する。そして、故障箇所特定部２１３は、記憶装置アクセスエラーの発生原因（故障箇所）を特定することができる。このため、故障箇所の特定における信頼性を向上させることができる。

また、正常な１つのＣＭ２０から故障した１つの記憶装置５０にアクセスを行なった場合でも、正常なＣＭ２０から他の正常な記憶装置５０へのアクセスが行なわれていれば、正常なＣＭ２０における比率が低下する。そして、故障箇所特定部２１３は、記憶装置アクセスエラーの発生原因（故障箇所）を特定することができる。このため、故障箇所の特定における信頼性を向上させることができる。

所定のエラー監視期間が経過したことにより異常発生回数及びアクセス処理値をリセットすると、アクセス頻度が少ない被疑箇所（構成部品）を故障箇所として特定することは困難である。本ストレージシステム１によれば、リセット処理部２１４がアクセス処理値が閾値に達した被疑箇所（構成部品）についての異常発生回数及びアクセス処理値をリセットさせることにより、アクセス頻度が少ない被疑箇所（構成部品）についても故障箇所として特定することができる。このため、故障箇所の特定における信頼性を向上させることができる。

〔Ｂ〕その他
開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成及び各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
上述した実施形態の一例においては、ＣＭ＃１がＣＰＵ２１ｂを備えることとしたが、これに限定されるものではなく、例えば、ＣＭ＃１がＣＭ＃０と同様のＣＰＵ２１ａを備えることとしても良い。これにより、例えば、ＣＭ＃０が故障した際にも、ＣＭ＃１によって故障箇所の特定を行なうことができる。

また、上述した実施形態の一例においては、故障箇所特定部２１３が被疑箇所における異常発生回数をアクセス処理値で除算した比率を求めることとしたが、これに限定されるものではない。例えば、故障箇所特定部２１３が被疑箇所におけるアクセス処理値を異常発生回数で除算した比率を求めることとしても良い。この場合には、故障箇所特定部２１３は、求めた比率が最も小さい被疑箇所を故障箇所として特定する。

更に、上述した実施形態の一例においては、ＲＡＩＤ装置について説明したが、これに限定されるものではない。上述した実施形態の一例は、例えば、ネットワーク等の通信回線を介して接続された種々の電子機器を構成部品としたシステムに適用することができる。
〔Ｃ〕付記
（付記１）
複数の構成部品を備える情報処理装置であって、
前記構成部品における異常を検知すると、前記構成部品毎の異常発生回数を計測する異常監視部と、
前記構成部品毎のアクセス処理値を計測するアクセス処理値監視部と、
前記構成部品における前記異常発生回数と前記アクセス処理値との比率に基づいて、故障箇所としての構成部品を特定する故障箇所特定部と、
を備えることを特徴とする情報処理装置。

（付記２）
前記アクセス処理値監視部は、
前記異常監視部がいずれかの構成部品について前記異常発生回数の計測を開始すると、当該構成部品についての前記アクセス処理値の計測を開始することを特徴とする付記１記載の情報処理装置。

（付記３）
前記故障箇所特定部は、
前記異常監視部が計測するいずれかの構成部品についての前記異常発生回数が閾値に達すると、当該構成部品における前記比率を算出することを特徴とする付記１又は２に記載の情報処理装置。

（付記４）
前記故障箇所特定部は、
前記複数の構成部品のうち、前記異常発生回数を前記アクセス処理値で除算して求める前記比率が最も大きい構成部品を前記故障箇所として特定することを特徴とする付記１〜３のいずれか１項に記載の情報処理装置。

（付記５）
前記アクセス処理値監視部が計測するいずれかの構成部品についての前記アクセス処理値が閾値に達すると、当該構成部品についての前記異常発生回数と前記アクセス処理値との計測をリセットさせるリセット処理部
を備えることを特徴とする付記１〜４のいずれか１項に記載の情報処理装置。

（付記６）
前記アクセス処理値は、前記複数の構成部品が処理するデータ量であることを特徴とする付記１〜５のいずれか１項に記載の情報処理装置。
（付記７）
前記アクセス処理値は、前記複数の構成部品が処理するコマンド数であることを特徴とする付記１〜５のいずれか１項に記載の情報処理装置。

（付記８）
複数の構成部品を備える情報処理装置に備えられ、
前記構成部品における異常を検知すると、前記構成部品毎の異常発生回数を計測する異常監視部と、
前記構成部品毎のアクセス処理値を計測するアクセス処理値監視部と、
前記構成部品における前記異常発生回数と前記アクセス処理値との比率に基づいて、故障箇所としての構成部品を特定する故障箇所特定部と、
を備えることを特徴とする制御装置。

（付記９）
前記アクセス処理値監視部は、
前記異常監視部がいずれかの構成部品について前記異常発生回数の計測を開始すると、当該構成部品についての前記アクセス処理値の計測を開始することを特徴とする付記８記載の制御装置。

（付記１０）
前記故障箇所特定部は、
前記異常監視部が計測するいずれかの構成部品についての前記異常発生回数が閾値に達すると、当該構成部品における前記比率を算出することを特徴とする付記８又は９に記載の制御装置。

（付記１１）
前記故障箇所特定部は、
前記複数の構成部品のうち、前記異常発生回数を前記アクセス処理値で除算して求める前記比率が最も大きい構成部品を前記故障箇所として特定することを特徴とする付記８〜１０のいずれか１項に記載の制御装置。

（付記１２）
前記アクセス処理値監視部が計測するいずれかの構成部品についての前記アクセス処理値が閾値に達すると、当該構成部品についての前記異常発生回数と前記アクセス処理値との計測をリセットさせるリセット処理部
を備えることを特徴とする付記８〜１１のいずれか１項に記載の制御装置。

（付記１３）
前記アクセス処理値は、前記複数の構成部品が処理するデータ量であることを特徴とする付記８〜１２のいずれか１項に記載の制御装置。
（付記１４）
前記アクセス処理値は、前記複数の構成部品が処理するコマンド数であることを特徴とする付記８〜１２のいずれか１項に記載の制御装置。

（付記１５）
複数の構成部品を備える情報処理装置に備えられるコンピュータに、
前記構成部品における異常を検知すると、前記構成部品毎の異常発生回数を計測し、
前記構成部品毎のアクセス処理値を計測し、
前記構成部品における前記異常発生回数と前記アクセス処理値との比率に基づいて、故障箇所としての構成部品を特定する
処理を実行させることを特徴とする制御プログラム。

（付記１６）
いずれかの構成部品について前記異常発生回数の計測を開始すると、当該構成部品についての前記アクセス処理値の計測を開始する処理を前記コンピュータに実行させることを特徴とする付記１５記載の制御プログラム。
（付記１７）
いずれかの構成部品についての前記異常発生回数が閾値に達すると、当該構成部品における前記比率を算出する処理を前記コンピュータに実行させることを特徴とする付記１５又は１６に記載の制御プログラム。

（付記１８）
前記複数の構成部品のうち、前記異常発生回数を前記アクセス処理値で除算して求める前記比率が最も大きい構成部品を前記故障箇所として特定する処理を前記コンピュータに実行させることを特徴とする付記１５〜１７のいずれか１項に記載の制御プログラム。
（付記１９）
いずれかの構成部品についての前記アクセス処理値が閾値に達すると、当該構成部品についての前記異常発生回数と前記アクセス処理値との計測をリセットさせる
処理を前記コンピュータに実行させることを特徴とする付記１５〜１８のいずれか１項に記載の制御プログラム。

（付記２０）
前記アクセス処理値は、前記複数の構成部品が処理するデータ量であることを特徴とする付記１５〜１９のいずれか１項に記載の制御プログラム。
（付記２１）
前記アクセス処理値は、前記複数の構成部品が処理するコマンド数であることを特徴とする付記１５〜１９のいずれか１項に記載の制御プログラム。

１ストレージシステム
１０ＲＡＩＤ装置（情報処理装置）
２０ＣＭ（制御装置，構成部品）
２１ＣＰＵ（コンピュータ）
２１１異常監視部
２１２アクセス処理値監視部
２１３故障箇所特定部
２１４リセット処理部
２２メモリ
３０共有メモリ
３００共有情報
４０ルータ（構成部品）
５０記憶装置（構成部品）
６０チャネルインタフェース
７０ホスト装置

Claims

複数の構成部品を備える情報処理装置であって、
前記複数の構成部品のうちのいずれかの構成部品における異常を検知すると、前記構成部品毎の異常発生回数を計測する異常監視部と、
前記異常監視部が前記いずれかの構成部品について前記異常発生回数の計測を開始すると、当該構成部品についてのアクセス処理値の計測を開始するアクセス処理値監視部と、
前記構成部品における前記異常発生回数と前記アクセス処理値との比率に基づいて、故障箇所としての構成部品を特定する故障箇所特定部と、
を備えることを特徴とする情報処理装置。
前記故障箇所特定部は、
前記アクセス処理値監視部が前記アクセス処理値を計測する前記いずれかの構成部品について、前記異常監視部によって計測された前記異常発生回数が閾値に達すると、当該構成部品における前記比率を算出することを特徴とする請求項１に記載の情報処理装置。
前記故障箇所特定部は、
前記複数の構成部品のうち、前記異常発生回数を前記アクセス処理値で除算して求める前記比率が最も大きい構成部品を前記故障箇所として特定することを特徴とする請求項１又は２に記載の情報処理装置。
前記アクセス処理値監視部が計測する前記いずれかの構成部品についての前記アクセス処理値が閾値に達すると、当該構成部品についての前記異常発生回数と前記アクセス処理値との計測をリセットさせるリセット処理部
を備えることを特徴とする請求項１〜３のいずれか１項に記載の情報処理装置。
前記アクセス処理値は、前記複数の構成部品が処理するデータ量であることを特徴とする請求項１〜４のいずれか１項に記載の情報処理装置。
前記アクセス処理値は、前記複数の構成部品が処理するコマンド数であることを特徴とする請求項１〜４のいずれか１項に記載の情報処理装置。
複数の構成部品を備える情報処理装置であって、
第１の制御装置に備えられ、前記複数の構成部品のうち前記第１の制御装置に接続された構成部品における異常を検知すると、当該構成部品毎の異常発生回数を計測するとともに、当該構成部品毎のアクセス処理値を計測する第１の監視部と、
第２の制御装置に備えられ、前記複数の構成部品のうち前記第２の制御装置に接続された構成部品における異常を検知すると、当該構成部品毎の異常発生回数を計測するとともに、当該構成部品毎のアクセス処理値を計測する第２の監視部と、
前記第１の監視部によって計測された異常発生回数及びアクセス処理値と、前記第２の監視部によって計測された異常発生回数及びアクセス処理値と、を記憶する記憶部と、
前記記憶部に記憶された前記異常発生回数と前記アクセス処理値との比率に基づいて、故障箇所としての構成部品を特定する故障箇所特定部と、
を備えることを特徴とする情報処理装置。
複数の構成部品を備える情報処理装置に備えられ、
前記複数の構成部品のうちのいずれかの構成部品における異常を検知すると、前記構成部品毎の異常発生回数を計測する異常監視部と、
前記異常監視部が前記いずれかの構成部品について前記異常発生回数の計測を開始すると、当該構成部品についてのアクセス処理値の計測を開始するアクセス処理値監視部と、
前記構成部品における前記異常発生回数と前記アクセス処理値との比率に基づいて、故障箇所としての構成部品を特定する故障箇所特定部と、
を備えることを特徴とする制御装置。
複数の構成部品を備える情報処理装置に備えられるコンピュータに、
前記複数の構成部品のうちのいずれかの構成部品における異常を検知すると、前記構成部品毎の異常発生回数を計測し、
前記いずれかの構成部品について前記異常発生回数の計測を開始すると、当該構成部品についてのアクセス処理値の計測を開始し、
前記構成部品における前記異常発生回数と前記アクセス処理値との比率に基づいて、故障箇所としての構成部品を特定する
処理を実行させることを特徴とする制御プログラム。