JP2006119878A - ディスクアレイ装置及びディスクアレイ装置の故障検出方法 - Google Patents

ディスクアレイ装置及びディスクアレイ装置の故障検出方法 Download PDF

Info

Publication number
JP2006119878A
JP2006119878A JP2004306674A JP2004306674A JP2006119878A JP 2006119878 A JP2006119878 A JP 2006119878A JP 2004306674 A JP2004306674 A JP 2004306674A JP 2004306674 A JP2004306674 A JP 2004306674A JP 2006119878 A JP2006119878 A JP 2006119878A
Authority
JP
Japan
Prior art keywords
data
disk array
storage devices
ecc
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004306674A
Other languages
English (en)
Inventor
Daisuke Kondo
大輔 近藤
Yasushi Ueda
泰志 上田
Takao Inoue
貴生 井上
Takuya Suzuki
拓也 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2004306674A priority Critical patent/JP2006119878A/ja
Publication of JP2006119878A publication Critical patent/JP2006119878A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ディスクアレイ装置のような複数の記憶装置が備わったシステムにおけるバスやインターフェイス回路の、効率的な故障診断を行うための装置と方法を提供する。
【解決手段】N台の記憶装置2の各々の内部にランダムデータを生成するランダムデータ生成回路24と、ECCを生成するECC生成回路23と、生成されたランダムデータおよびECCから該当するデータを保持するデータ保持回路22を備え、N台の記憶装置2の各々が保持しているデータをECC演算器12によってECC演算を行うことで、N台の記憶装置2とメモリ14の間の伝送経路の故障箇所を検出する。
【選択図】図1

Description

本発明は、ディスクアレイ装置に関し、より詳細には複数の記憶装置が接続されたディスクアレイ装置におけるバスおよびインターフェイス回路の故障箇所を検出するために好適な技術に関する。
複数の記憶装置によって構成されるディスクアレイは、高信頼かつ大記憶容量を実現している。ディスクアレイの最も一般的な形式は、RAID(Redundant Array of Inexpensive Disks)である。例えばRAIDレベル5であれば、データからECCと呼ばれる誤り訂正符号を生成し、データとともに分散して記録するので、記憶装置が1台故障しても新しい記憶装置と交換後、他の正常な記憶装置のデータから誤り訂正処理を行うことで、故障した記憶装置のデータを復元することが可能である(例えば、非特許文献1参照)。
ところでこのディスクアレイ装置においては、記憶装置の故障だけではなく、記憶装置とそれらを制御する回路を接続しているバスやインターフェイス回路の故障に関しても対応する必要がある。たとえ記憶装置が正しくデータのリード/ライトをできたとしても、そのデータが伝送経路の異常によりホストと正常に通信できなければ、データの信頼性が低下してしまう。そこでバスやインターフェイス回路の故障を診断するための機能が必要となってくる。
以下、バスやインターフェイス回路の故障診断方法の一例について説明する。
図5は、故障診断機能を有するmビットで構成された従来のバスインターフェイス回路の全体構成図の一例である。回路A100と回路B110の双方がデータバス120を介してデータの送受信を行うとする。
回路A100は双方向バッファA101を有し、双方向バッファA101は回路A100の内部側のデータバスA104のデータをデータバス120へ送出し、またはデータバス120のデータを回路A100の内部側のデータバスA104へ送出する。それらの転送方向は方向制御回路A102から方向制御信号A105を入力することで制御する。また回路A100は障害検出回路A103を有し、障害検出回路A103は故障検出用のテストデータを生成し、生成されたテストデータを回路A100の内部側のデータバスA104に出力し、双方向バッファA101を経由してデータバス120に出力されたデータを入力し、その入力したデータとテストデータを比較する。あるいは生成されたテストデータをデータバス120に出力し、双方向バッファA101を経由して回路A100の内部側のデータバスA104に出力されたデータを入力し、その入力したデータとテストデータを比較する。この比較結果を障害通知信号線130を経由して回路B110に通知する。
一方回路B110も回路A100と同様の構成であり、双方向バッファB111と方向制御回路B112、障害検出回路B113、内部側データバスB114、方向制御信号B115を有する。それぞれの動作は回路Aの双方向バッファA101と方向制御回路A102、障害検出回路A103、内部側データバスA104、方向制御信号A105と同様である。
はじめにバスインターフェイス回路の通常動作時の説明を行う。回路A100の内部側のデータバスA104のデータを回路B110の内部側のデータバスB114にデータを転送する場合、まず方向制御回路A102は双方向バッファA101に対し方向制御信号A105を出力し、回路A100の内部側のデータバスA104のデータをデータバス120に出力する方向に設定する。一方、方向制御回路B112は双方向バッファB111に対し方向制御信号B115を出力し、データバス120のデータを回路B110の内部側のデータバスB114に出力する方向に設定する。上記の設定を行った後、回路A100から回路B110へデータを転送する。
逆に回路B110の内部側のデータバスB114のデータを回路A100の内部側のデータバスA104にデータを転送する場合、まず方向制御回路B112は双方向バッファB111に対し方向制御信号B115を出力し、回路B110の内部側のデータバスB114のデータをデータバス120に出力する方向に設定する。一方、方向制御回路A102は双方向バッファA101に対し方向制御信号A105を出力し、データバス120のデータを回路A100の内部側のデータバスA104に出力する方向に設定する。その後、回路B110から回A100へデータを転送する。
ここでデータバス120を介して回路A100と回路B110の間で正確にデータが伝送されなかった場合、その原因となった障害箇所を診断する方法について説明する。
はじめに方向制御回路A102は双方向バッファA101に対し、回路A100の内部側のデータバスA104のデータをデータバス120に出力する方向に設定する。障害検出回路A103はテストデータを生成し、そのテストデータを双方向バッファA101の内部側のデータバスA104に送出し、データバス120に出力されたデータを入力し、そのデータと最初に生成したテストデータの値を比較する。その逆方向も同様である。それらの判定結果を障害通知信号線130を介して障害検出回路B113に通知する。
その後、回路B110でも同様のことを行う。障害検出回路B113はテストデータを生成し、そのテストデータを双方向バッファB111の内部側のデータバスB114へ送出し、データバス120に出力されたデータを入力する。そのデータと最初に生成したテストデータの値を比較する。その逆方向も同様である。
障害検出回路A103および障害検出回路B113で行ったこれら4種類の比較判定結果がいずれも一致した場合、つまり双方向バッファA101および双方向バッファB111は正常にデータを伝送できることが確認された場合、データバス120が切断あるいは短絡していると診断することができる。
一方、4種類の比較判定結果のうち少なくともどれかが異常であった場合、その異常判定が出た回路側の双方向バッファが故障していることを診断することが可能となる(例えば、特許文献1参照)。
以上のように、テストデータを用いて双方向バッファの動作を確認することで、データバス120の切断や短絡、または双方向バッファの故障を診断することが可能となる。
特開平9−34749号公報(第3−4頁、第1図) 「A Case for Redundant Arrays of Inexpensive Disks(RAID)」(Patterson et al.、Report No.UCB/CSD 87/391、Computer Science Division(EECS)、Univ. of California、Berkely、CA、December 1987)
しかしながら前記従来の構成では、双方向バッファの内部側およびデータバス側のバスと、障害検出回路を接続する必要がある。また障害検出回路で生成したテストデータをレジスタ等に記憶しておき、そのテストデータと双方向バッファから出力されたデータとを比較する処理が必要となる。
そのためディスクアレイ装置のような多数の記憶装置を備えたシステムの場合、記憶装置の数に比例して接続すべき配線量が増える。また伝送経路にこのような故障診断用の配線を施すことは、通常の動作において遅延を発生する要因となり、最悪の場合には故障の原因を作ることにもなり兼ねない。
本発明は前記従来の課題を解決するもので、ディスクアレイ装置のような多数の記憶装置が備わったシステムにおけるバスやインターフェイス回路の、効率的な故障診断を行うための装置と方法を提供することを目的としたものである。
前記従来の課題を解決するために、本発明のディスクアレイ装置は、複数の記憶装置と、前記複数の記憶装置を接続し制御するディスクアレイ制御部と、前記複数の記憶装置と前記ディスクアレイ制御部とを接続する伝送経路からなるディスクアレイ装置であって、前記複数の記憶装置は、それぞれが固有の番号を割り当てられた記憶装置番号通知信号を受信し、所定のデータを生成するデータ生成手段と、前記所定のデータに対する誤り訂正符号(Error Correction Code:以下、ECCと称す)を生成するECC生成手段と、前記記憶装置番号通知信号と前記所定のデータおよび前記ECCから構成されるNシンボル(Nは整数)のデータから所定のシンボル位置のデータを保持するデータ保持手段と、故障診断時を示す故障診断制御信号を受信すると前記保持したデータを出力する出力データ選択手段とをそれぞれ有し、前記ディスクアレイ制御部は、前記複数の記憶装置の各々から受信したデータの誤り訂正演算を行うECC演算手段と、故障診断時には前記複数の記憶装置に保持した前記所定のシンボル位置のデータを出力するように前記故障診断制御信号を出力し、前記所定のシンボル位置のデータに対する前記誤り訂正演算により、前記複数の記憶装置と前記ディスクアレイ制御部との間のアクセスを仲介するインターフェイス回路および伝送経路の故障箇所を検出する故障診断手段とを有し、前記複数の記憶装置の各々が出力する前記保持したデータを、前記ECC演算器が所定の順番で連接することにより一つの符号語を構成し、前記ECC演算器が前記符号語に対して誤り訂正演算を行うことにより、前記インターフェイス回路および前記伝送経路の故障検出を行うことを特徴とするものである。
さらにディスクアレイ装置において、前記データ生成手段が出力する前記所定のデータがランダムデータであることを特徴とするものである。
さらにディスクアレイ装置において、前記データ保持手段は、前記Nシンボルのデータのうち前記所定のシンボル位置を前記記憶装置番号通知信号により決定することを特徴とするものである。
さらにディスクアレイ装置において、前記故障診断手段は、故障箇所を外部に開示するための表示手段をさらに有することを特徴とするものである。
さらにディスクアレイ装置において、前記複数の記憶装置が磁気ディスクドライブあるいは光ディスクドライブあるいは光磁気ディスクドライブあるいは半導体メモリであることを特徴とするものである。
さらに本発明のディスクアレイ装置の故障検出方法は、複数の記憶装置と前記複数の記憶装置を接続し制御するディスクアレイ制御部と、前記複数の記憶装置と前記ディスクアレイ制御部とを接続する伝送経路からなるディスクアレイ装置の故障検出の方法であって、前記複数の記憶装置の各記憶装置は、所定のデータを生成するステップと、前記所定のデータに対するECCを生成するステップと、前記ディスクアレイ制御部から受信したそれぞれが固有の番号を割り当てられた記憶装置番号通知信号と前記所定のデータおよび前記ECCから構成されるNシンボル(Nは整数)のデータから所定のシンボル位置のデータを保持するステップと、故障診断制御信号を受信すると故障診断時において前記保持したデータを出力するステップを有し、前記ディスクアレイ制御部は、前記複数の記憶装置の各々から受信したデータの誤り訂正演算を行うステップと、前記誤り訂正演算により、前記複数の記憶装置と前記ディスクアレイ制御部との間のアクセスを仲介するインターフェイス回路および伝送経路の故障箇所を検出するステップを有し、故障診断時には前記複数の記憶装置に保持した前記所定のシンボル位置のデータを出力するように前記故障診断制御信号を出力するステップと、前記複数の記憶装置の各々が出力する前記保持したデータを、前記誤り訂正演算を行うステップにおいて所定の順番で連接することにより一つの符号語を構成するステップと、前記誤り訂正演算を行うステップにおいて前記符号語に対して前記誤り訂正演算を行うステップと、前記誤り訂正演算の結果が誤りありとなった場合に、前記インターフェイス回路および前記伝送経路が故障したと判断するステップからなることを特徴とするものである。
さらにディスクアレイ装置の故障検出方法において、前記所定のデータを生成するステップにおいて、前記所定のデータとしてランダムデータを生成することを特徴とするものである。
さらにディスクアレイ装置の故障検出方法において、前記データを保持するステップにおいて、前記Nシンボルのデータの中の前記所定のシンボル位置は前記記憶装置番号通知信号により決定されることを特徴とするものである。
以上のように請求項1、7に記載の発明によれば、本発明のディスクアレイ装置およびディスクアレイ装置の故障検出方法によれば、複数の記憶装置が備わったシステムにおけるバスやインターフェイス回路の、効率的な故障診断を行うための装置および方法を提供することができる。
以下に、本発明のディスクアレイ装置及びディスクアレイ装置の故障検出方法の実施の形態を図面とともに詳細に説明する。
図1に本発明におけるディスクアレイ装置の全体構成図を示す。ディスクアレイ装置とは複数の記憶装置をまとめて1台の記憶装置として管理する技術であり、通常動作においては、ホストコンピュータから転送されたデータを分散して複数の記憶装置へ格納したり、また複数の記憶装置に分割して格納されているデータを結合し、ホストコンピュータへ出力する。ディスクアレイ装置の大きな特徴として1台の記憶装置が故障してもそれ以外の記憶装置から故障した記憶装置の内容を再構築でき、そのためのECCが生成されて記憶装置の一部に格納される。
本発明のディスクアレイ装置は、ホストコンピュータからのデータを記録再生する通常動作モードと、バスやインターフェイス回路の故障箇所を診断する故障診断モードを有する。
図1において、ディスクアレイ制御部1はN台の記憶装置2(Nは整数であり、記憶装置番号1〜Nと識別されているとする)およびホストコンピュータ5と接続されている。ディスクアレイ制御部1は、ディスクアレイ制御部1とN台の記憶装置2とを接続しているバスやインターフェイス回路の故障診断モード時に必要な信号を生成したり故障判定を行う故障診断制御部11と、通常動作モード時においてホストコンピュータ5から送られてきたデータをRAIDの構成に基づいてデータを分割したり、結合したりするデータ分割/結合部17と、同じく通常動作モード時においてホストコンピュータ5との間でデータの受け渡しを行う際、RAIDの構成に基づいてECCを生成したりECCチェックを行ったり、故障診断モード時に故障箇所検出のためのECC演算を行うECC演算器12と、N台の記憶装置2にライトするデータを格納したり、N台の記憶装置2からリードしたデータを格納するメモリ14と、N台の記憶装置2などメモリ14へのアクセス権を有するブロックの調停を行い、リード/ライトの仲介を行うメモリI/F13と、N台の記憶装置2とメモリI/F13との間のアクセスの仲介を行う記憶装置I/F15と、N台の記憶装置2をディスクアレイ制御部1と接続するためのコネクタ16からなる。またN台の記憶装置2はそれぞれコネクタ16との間で、記憶装置番号通知信号3がデータバスとは別に接続されている。これはコネクタ16側でプルアップあるいはプルダウン処理されており、N台の記憶装置2のそれぞれに対して記憶装置番号を通知することができる。さらに故障診断モード時であることを通知したり、故障診断モード時に必要な制御を行うための故障診断制御信号4が故障診断制御部11との間で接続されている。
図2にN台の記憶装置2の内の1台における、故障診断モードに必要な回路を含めた全体構成図を示す。通常動作モード時において、記憶装置2は記憶領域25に格納されているデータをホストコンピュータ5に出力したり、ホストコンピュータ5から入力したデータを記憶領域25に格納したりする。一方故障診断モード時においては、記憶領域25のデータを外部との間で受け渡しするのではなく、故障診断モード時に必要なデータの入出力を行う。通常動作モード時と故障診断モード時のデータの伝送路を切り替えるためのセレクタ21を記憶装置2には備えており、セレクタ21の切り替えには故障診断制御信号4を用いる。また記憶装置2には、故障診断モード時に必要なランダムデータを生成するランダムデータ生成回路24と、そのランダムデータをもとにECCを生成するECC生成回路23と、生成されたランダムデータあるいはECCから必要なデータを記憶装置番号通知信号3によって選択し保持しておくデータ保持回路22からなる。ここでECCとは誤り訂正符号のことで、記憶装置などからデータを読み出す際、データの誤りを訂正するために本来のデータとは別に付加される冗長なデータのことである。このECCにより、データが本来の値と異なる値に誤っていた場合でも、ECCのデータ長で決まる訂正能力の範囲内であれば、誤った値を正しい値に訂正することができる(ECCのデータ数が多ければ多いほど訂正できる誤りの個数は増えるが、その分冗長なデータ数が増えることになる)。ここでランダムデータ生成回路24とECC生成回路23、データ保持回路22には故障診断制御信号4が接続されており、故障診断モード時に必要な制御が行われるようになっている。これらの構成はすべてのディスク2において同様の構成をとっている。
以下、故障診断モードについて説明する。
図3は本発明の実施例1における故障診断モードの一連の動作を示したフローチャート図である。
図4はランダムデータ生成回路24とECC生成回路23が、図3のフローチャートのステップ2からステップ3において生成するランダムデータとECCデータの構成を示した図である。
ディスクアレイ装置の通常動作モード時のデータのながれを簡単に説明する。まずホストコンピュータ5がN台の記憶装置2にデータを格納する場合、ホストコンピュータ5から送られてきたデータをデータ分割/結合部17によって分割する。その分割されたデータに対してECC演算器12によってECCを生成し、メモリI/F13を経由して一旦メモリ14に分割されたデータおよびECCを格納する。その後メモリI/F13や記憶装置I/F15、コネクタ16を介してN台の記憶装置2の所定の領域にデータおよびECCを格納する。一方N台の記憶装置2に格納されているデータをホストコンピュータ5に転送する場合は、その逆の動作を行うことになる。メモリ14にN台の記憶装置2から読み出した分割されているデータおよびECCを格納し、ECC演算器12によって整合がとれているかECCチェックを行い、データ分割/結合部17によって結合し、ホストコンピュータ5に出力する(ここでECCチェックを省略しても良い)。もしN台の記憶装置2の内1台が故障していても、それ以外の記憶装置2のデータを用いてECC演算器12によって故障した記憶装置2のデータを再構築し、ホストコンピュータ5に出力することができる。この際、同時にホストコンピュータ5に対し、故障した記憶装置2の交換を促すこともできる。
以下、本発明の実施例1における故障診断モード時の動作について図3のフローチャートのステップに沿って説明する。
(ステップ0)故障診断モードを開始する際、故障診断制御部11は記憶装置2に対して、故障診断制御信号4を出力する。
(ステップ1)記憶装置2内部のランダムデータ生成回路24とECC生成回路23、データ保持回路22は故障診断制御信号4により初期化される。
(ステップ2)ランダムデータ生成回路24により図4(a)に示すようにKシンボル長(Kは整数)のランダムデータが生成される。ここで1シンボル長は1バイトであっても1ワードであってもかまわない。
(ステップ3)ECC生成回路23はそのKシンボル長のランダムデータを入力し、図4(b)に示すようにランダムデータに対するMシンボル長(Mは整数)のECCを生成する。これにより合計Nシンボル長(N=K+M)のデータが生成される。このランダムデータ生成回路24やECC生成回路23はN台の記憶装置2すべて同様の回路構成をとっており、故障診断制御信号4により同じタイミングで動作するため、このNシンボル長のデータはどの記憶装置2も同じ値のデータが生成されることになる。この生成されたデータのシンボル長は記憶装置2の台数と同じNである。
(ステップ4)データ保持回路22は生成されたNシンボル長のデータの中から1シンボルのみを選択して保持しておく。この選択基準として、データ保持回路22が入力する記憶装置番号通知信号3を用いる。各記憶装置2のデータ保持回路22は、生成されたNシンボル長のデータの先頭から、自記憶装置の番号に相当した箇所の1シンボル長のデータを選択して保持する。例えば記憶装置番号=1の記憶装置2のデータ保持回路22は、1シンボル目のデータ(図4(b)中のDT_1)を保持する。記憶装置番号=2の記憶装置2であれば、2シンボル目のデータ(同図DT_2)、記憶装置番号=3の記憶装置2なら、3シンボル目のデータ(同図DT_3)、以下同様で、記憶装置番号=Nの記憶装置2はNシンボル目のデータ(同図ECC_M)というように、記憶装置番号通知信号3により決定されるシンボル位置の1シンボル長のデータのみを保持する。このため、各記憶装置2はNシンボル長のデータを重複しないように1シンボルずつデータを保持するため、ランダムデータとECCの全シンボル長は、記憶装置2の台数と同じNとしている。
(ステップ5)ステップ2からステップ4において、ランダムデータおよびECCが生成されるのに十分な時間が経過した後、故障診断制御部11はディスクアレイ制御部1がN台の記憶装置2に対してアクセスしていない時間帯に、N台の記憶装置2に対して故障診断制御信号4を出力する。これにより各記憶装置2内部のセレクタ21はデータ保持回路22が保持しているデータを出力する経路が選択され、ディスクアレイ制御部1はそれぞれのデータ保持回路22が保持している1シンボル長のデータを読み出し、一旦メモリ14に格納する。
(ステップ6)ECC演算器12はメモリ14に格納されているNシンボル長のデータを読み出し、そのデータの中に誤りが存在しないかECC演算を行う。Nシンボル長のデータは一つのECCブロックを構成することになり、誤りが存在したり、データに過不足があった場合は、誤りありと判定することができる。正常にNシンボル長のデータが読み出せれば誤りなしという結果となる。
(ステップ7)ECC演算の結果が誤りありか誤りなしかを判定し、誤りなしの場合は、Nシンボル長のデータがN台の記憶装置2から正常に読み出されメモリ14に格納されていることになり、伝送経路に異常がないことを示す。一方誤りありと判定された場合は、記憶装置2からメモリ14に至るまでの伝送経路に故障が発生しており、データ保持回路22が保持しているデータ値とは異なる値のデータがメモリ14に格納されていることを示す。この場合、例えばNシンボル長のデータの中の誤っているシンボルの位置が1シンボル目であれば記憶装置番号=1の記憶装置2のデータ保持回路22が出力したデータがメモリ14に格納されるまでの間のI/F回路を含む伝送経路に異常があると判断することができる。前述したようにECCのシンボル長で決定される誤り訂正能力の範囲内であれば、複数のシンボル位置の誤り、つまりそれに該当する伝送経路の異常を検出することが可能となる。
なお、本実施例1では、記憶装置番号通知信号3はコネクタ16が生成しN台の記憶装置2のそれぞれに対して出力していたが、記憶装置番号通知信号3を設けずに、記憶装置I/F15が生成しコネクタ16を介して記憶装置2とディスクアレイ制御部1を接続しているバスを用いて通知する構成であってもよい。
また、コネクタ16にLEDを内蔵しておき、伝送経路の異常個所を検出した際にその伝送経路につながっているコネクタ16のLEDを表示させることで管理者に通知する構成であってもよい。あるいはホストコンピュータ5に対して異常を示すステータスを転送する構成であってもよい。
またN台の記憶装置2それぞれにランダムデータ生成回路24やECC生成回路23、データ保持回路22を設けたことにより本発明を実現したが、これらは記憶装置2内部の記憶領域25にデータを格納したり、データを読み出したりする際の制御を行うために備わっている演算処理装置(CPU)を用いて、ソフトウェア処理で生成したランダムデータおよびECCを出力する構成をとってもよい。これにより、ディスクアレイ制御部1に接続されるディスクの数がN台以上あるいはN台以下に変更になった場合でも、CPUの制御プログラムの更新により比較的容易に対応することが可能となる。
また本実施例1の説明で示したN台の記憶装置2はハードディスクドライブなどの磁気ディスクドライブや、DVDなどの光ディスクドライブ、MOなどの光磁気ディスクドライブ、あるいは半導体メモリなどで構成されたものであってもよい。
以上のように本実施例1においては、記憶装置2の台数Nと同じ数のシンボル長で構成されるデータ(ランダムデータ+ECC)をN台の記憶装置2のそれぞれで生成し、該当するシンボル位置のデータのみをディスクアレイ制御部1に出力し、それらをECC演算器12でECC演算することで、誤っているシンボルの位置、すなわち故障しているI/Fや伝送経路を特定することができる。
これにより、従来ならば通常動作モード時に使用する伝送経路に故障診断用の信号線類を接続しなければならなかったがその必要はなく、またディスクアレイ制御部1はN台の記憶装置2のそれぞれが生成したランダムデータやECCが、それぞれどのような値をとっているか把握する必要がないことから、データ比較等が不要となり故障診断モード時における処理を簡略化することができる。
本発明にかかる故障検出装置および方法は、ディスクアレイ装置のような複数の記憶装置が備わったシステムにおけるバスやインターフェイス回路の、効率的な故障診断を行うための装置および方法を有し、バスおよびインターフェイス回路の故障診断方法等として有用である。
本発明の実施例1におけるディスクアレイ装置の全体構成図 本発明の実施例1における記憶装置の内部構成図 本発明の実施例1の故障診断モード時の動作を示したフローチャート 本発明の実施例1で生成されるランダムデータおよびECCの構成図 従来のバスインターフェイス回路の全体構成図
符号の説明
1 ディスクアレイ制御部
2 N台のディスク(ディスク番号1〜N)
3 ディスク番号通知信号
4 故障診断制御信号
5 ホストコンピュータ
11 故障診断制御部
12 ECC演算器
13 メモリI/F
14 メモリ
15 記憶装置I/F
16 コネクタ
17 データ分割/結合部
21 セレクタ
22 データ保持回路
23 ECC生成回路
24 ランダムデータ生成回路
25 記憶領域
100 回路A
101 バッファA
102 方向制御回路A
103 障害検出回路A
104 内部側データバスA
105 方向制御信号A
110 回路B
111 バッファB
112 方向制御回路B
113 障害検出回路B
114 内部側データバスB
115 方向制御信号B
120 データバス
130 障害通知信号線

Claims (8)

  1. 複数の記憶装置と、
    前記複数の記憶装置を接続し制御するディスクアレイ制御部と、
    前記複数の記憶装置と前記ディスクアレイ制御部とを接続する伝送経路からなるディスクアレイ装置であって、
    前記複数の記憶装置は、
    それぞれが固有の番号を割り当てられた記憶装置番号通知信号を受信し、
    所定のデータを生成するデータ生成手段と、
    前記所定のデータに対する誤り訂正符号(Error Correction Code:以下、ECCと称す)を生成するECC生成手段と、
    前記記憶装置番号通知信号と前記所定のデータおよび前記ECCから構成されるNシンボル(Nは整数)のデータから所定のシンボル位置のデータを保持するデータ保持手段と、
    故障診断時を示す故障診断制御信号を受信すると前記保持したデータを出力する出力データ選択手段とをそれぞれ有し、
    前記ディスクアレイ制御部は、
    前記複数の記憶装置の各々から受信したデータの誤り訂正演算を行うECC演算手段と、
    故障診断時には前記複数の記憶装置に保持した前記所定のシンボル位置のデータを出力するように前記故障診断制御信号を出力し、前記所定のシンボル位置のデータに対する前記誤り訂正演算により、前記複数の記憶装置と前記ディスクアレイ制御部との間のアクセスを仲介するインターフェイス回路および伝送経路の故障箇所を検出する故障診断手段とを有し、
    前記複数の記憶装置の各々が出力する前記保持したデータを、前記ECC演算手段が所定の順番で連接することにより一つの符号語を構成し、前記ECC演算手段が前記符号語に対して誤り訂正演算を行うことにより、前記インターフェイス回路および前記伝送経路の故障検出を行う
    ことを特徴とするディスクアレイ装置。
  2. 前記データ生成手段が出力する前記所定のデータがランダムデータである
    ことを特徴とする請求項1記載のディスクアレイ装置。
  3. 前記データ保持手段は、前記Nシンボルのデータのうち前記所定のシンボル位置を前記記憶装置番号通知信号により決定する
    ことを特徴とする請求項1記載のディスクアレイ装置。
  4. 前記故障診断手段は、故障箇所を外部に開示するための表示手段をさらに有する
    ことを特徴とする請求項1記載のディスクアレイ装置。
  5. 前記複数の記憶装置が磁気ディスクドライブあるいは光ディスクドライブあるいは光磁気ディスクドライブあるいは半導体メモリである
    ことを特徴とする請求項1記載のディスクアレイ装置。
  6. 複数の記憶装置と前記複数の記憶装置を接続し制御するディスクアレイ制御部と、前記複数の記憶装置と前記ディスクアレイ制御部とを接続する伝送経路からなるディスクアレイ装置の故障検出の方法であって、
    前記複数の記憶装置の各記憶装置は、
    所定のデータを生成するステップと、
    前記所定のデータに対するECCを生成するステップと、
    前記ディスクアレイ制御部から受信したそれぞれが固有の番号を割り当てられた記憶装置番号通知信号と前記所定のデータおよび前記ECCから構成されるNシンボル(Nは整数)のデータから所定のシンボル位置のデータを保持するステップと、
    故障診断制御信号を受信すると故障診断時において前記保持したデータを出力するステップを有し、
    前記ディスクアレイ制御部は、
    前記複数の記憶装置の各々から受信したデータの誤り訂正演算を行うステップと、
    前記誤り訂正演算により、前記複数の記憶装置と前記ディスクアレイ制御部との間のアクセスを仲介するインターフェイス回路および伝送経路の故障箇所を検出するステップを有し、
    故障診断時には前記複数の記憶装置に保持した前記所定のシンボル位置のデータを出力するように前記故障診断制御信号を出力するステップと、
    前記複数の記憶装置の各々が出力する前記保持したデータを、前記誤り訂正演算を行うステップにおいて所定の順番で連接することにより一つの符号語を構成するステップと、
    前記誤り訂正演算を行うステップにおいて前記符号語に対して前記誤り訂正演算を行うステップと、
    前記誤り訂正演算の結果が誤りありとなった場合に、前記インターフェイス回路および前記伝送経路が故障したと判断するステップからなる
    ことを特徴とするディスクアレイ装置の故障検出方法。
  7. 前記所定のデータを生成するステップにおいて、前記所定のデータとしてランダムデータを生成する
    ことを特徴とする請求項6記載のディスクアレイ装置の故障検出方法。
  8. 前記データを保持するステップにおいて、前記Nシンボルのデータの中の前記所定のシンボル位置は前記記憶装置番号通知信号により決定される
    ことを特徴とする請求項6記載のディスクアレイ装置の故障検出方法。
JP2004306674A 2004-10-21 2004-10-21 ディスクアレイ装置及びディスクアレイ装置の故障検出方法 Pending JP2006119878A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004306674A JP2006119878A (ja) 2004-10-21 2004-10-21 ディスクアレイ装置及びディスクアレイ装置の故障検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004306674A JP2006119878A (ja) 2004-10-21 2004-10-21 ディスクアレイ装置及びディスクアレイ装置の故障検出方法

Publications (1)

Publication Number Publication Date
JP2006119878A true JP2006119878A (ja) 2006-05-11

Family

ID=36537710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004306674A Pending JP2006119878A (ja) 2004-10-21 2004-10-21 ディスクアレイ装置及びディスクアレイ装置の故障検出方法

Country Status (1)

Country Link
JP (1) JP2006119878A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015072028A1 (ja) * 2013-11-18 2015-05-21 株式会社日立製作所 ストレージ制御装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015072028A1 (ja) * 2013-11-18 2015-05-21 株式会社日立製作所 ストレージ制御装置
US9495235B2 (en) 2013-11-18 2016-11-15 Hitachi, Ltd. Identifying a physical device in which a fault has occurred in a storage system

Similar Documents

Publication Publication Date Title
US7444540B2 (en) Memory mirroring apparatus and method
EP0532514B1 (en) Failure-tolerant mass storage system
US8090976B2 (en) Error correction for digital systems
US10606713B2 (en) Using dual channel memory as single channel memory with command address recovery
KR100640037B1 (ko) 파일 제어 시스템 및 파일 제어 장치
CN101477480B (zh) 内存控制方法、装置及内存读写系统
US8966338B2 (en) Cyclic redundancy check code generating circuit, semiconductor memory device, and method of driving semiconductor memory device
EP0948770B1 (en) Error detection device and method
CN102467975A (zh) 数据错误检查方法、数据传输方法和半导体存储装置
US9037948B2 (en) Error correction for memory systems
US20090066361A1 (en) Semiconductor integrated circuit device and storage apparatus having the same
US7526714B2 (en) Apparatus for checking data coherence, raid controller and storage system having the same, and method therefor
JPH10312340A (ja) 半導体記憶装置におけるエラー検出,訂正方式
JP2006119878A (ja) ディスクアレイ装置及びディスクアレイ装置の故障検出方法
JP3638773B2 (ja) ディスクアレイ装置
JP2868003B1 (ja) 磁気ディスク装置
JP4921216B2 (ja) メモリ制御回路、記憶システム、情報処理装置、および、メモリ制御方法
JP2002251332A (ja) ディスク制御装置
JP3913221B2 (ja) 情報処理装置
JP2011129039A (ja) Raidシステム
JPH05298193A (ja) メモリアクセス障害検出回路
TW202240392A (zh) 用於測試錯誤校正電路的半導體裝置和半導體系統
JPS61125651A (ja) エラ−報告処理方式
JP2004234204A (ja) 電子機器
JP2012048775A (ja) 半導体装置、半導体装置におけるメモリの試験方法および試験プログラム