JP2000003255A - ディスクアレイ装置 - Google Patents
ディスクアレイ装置Info
- Publication number
- JP2000003255A JP2000003255A JP10165054A JP16505498A JP2000003255A JP 2000003255 A JP2000003255 A JP 2000003255A JP 10165054 A JP10165054 A JP 10165054A JP 16505498 A JP16505498 A JP 16505498A JP 2000003255 A JP2000003255 A JP 2000003255A
- Authority
- JP
- Japan
- Prior art keywords
- magnetic disk
- retry
- disk device
- data
- array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1435—Saving, restoring, recovering or retrying at system level using file system or storage system metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1658—Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
- G06F11/1662—Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit the resynchronized component or unit being a persistent storage device
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
(57)【要約】
【課題】 ディスクアレイ装置における磁気ディスク媒
体の不良交代ブロックの割り付け処理を、訂正不能のメ
ディア障害を契機に行う際に、磁気ディスクの不良交代
ブロックの消費を削減する。 【解決手段】 アレイを構成する磁気ディスク装置3−
1〜3−5のいずれかにおいて訂正不能メディア障害が
発生したときに、ウエイトタイマ17により一定時間の
間隔をおいて、訂正不能エラーリトライカウンタ16の
示す回数の再試行を行い、それでも訂正不能のメディア
障害が回復しないときにのみ、不良交代ブロックの割付
け処理を行う。
体の不良交代ブロックの割り付け処理を、訂正不能のメ
ディア障害を契機に行う際に、磁気ディスクの不良交代
ブロックの消費を削減する。 【解決手段】 アレイを構成する磁気ディスク装置3−
1〜3−5のいずれかにおいて訂正不能メディア障害が
発生したときに、ウエイトタイマ17により一定時間の
間隔をおいて、訂正不能エラーリトライカウンタ16の
示す回数の再試行を行い、それでも訂正不能のメディア
障害が回復しないときにのみ、不良交代ブロックの割付
け処理を行う。
Description
【0001】
【発明の属する技術分野】本発明は、ディスクアレイ装
置に関し、特に訂正不能メディア障害を検出したとき
に、装置内で自動的に不良交代ブロックの割付け処理を
行うディスクアレイ装置に関する。
置に関し、特に訂正不能メディア障害を検出したとき
に、装置内で自動的に不良交代ブロックの割付け処理を
行うディスクアレイ装置に関する。
【0002】
【従来の技術】磁気ディスク装置の信頼性を高める技術
として、複数の磁気ディスク装置にデータや、それらか
ら計算されるパリティデータ等の冗長データを記憶しア
クセスするディスクアレイ装置の技術が知られている。
一方コンピュータの領域ではCPUの性能の向上や、コ
ンピュータシステムで扱うデータ量の増大により、デー
タを記憶蓄積する磁気ディスク装置にも、より高信頼、
より大容量化、より高性能化が求められている。ディス
クアレイ技術は、これらの要求を実現する、磁気ディス
クの利用技術として注目されている。
として、複数の磁気ディスク装置にデータや、それらか
ら計算されるパリティデータ等の冗長データを記憶しア
クセスするディスクアレイ装置の技術が知られている。
一方コンピュータの領域ではCPUの性能の向上や、コ
ンピュータシステムで扱うデータ量の増大により、デー
タを記憶蓄積する磁気ディスク装置にも、より高信頼、
より大容量化、より高性能化が求められている。ディス
クアレイ技術は、これらの要求を実現する、磁気ディス
クの利用技術として注目されている。
【0003】ディスクアレイ装置は、ディスク故障が発
生しても、パリティデータ等の冗長データを用いて故障
した磁気ディスクに記憶されていたデータを復元し、ホ
ストコンピュータに対してデータの入出力を正常に行う
ことができる。ディスクアレイ装置のこの特徴を利用し
て、ホストコンピュータからの読み出し命令の処理に際
し、磁気ディスク装置内で訂正不能のメディア障害リト
ライにより応答の遅延しているディスクを一時的に切り
離し、残る磁気ディスク装置データを用いて読み出しデ
ータを生成してホストコンピュータに送り、ホストコン
ピュータへの応答性能を保証する技術が既に考案されて
いる。特開平7―200191では、応答の遅れている
ディスクを一次的に切り離し、さらにディスク装置から
訂正不能のメディア障害が報告されたときに、装置内で
不良交代ブロックの設定処理を行う技術が考案されてい
る。
生しても、パリティデータ等の冗長データを用いて故障
した磁気ディスクに記憶されていたデータを復元し、ホ
ストコンピュータに対してデータの入出力を正常に行う
ことができる。ディスクアレイ装置のこの特徴を利用し
て、ホストコンピュータからの読み出し命令の処理に際
し、磁気ディスク装置内で訂正不能のメディア障害リト
ライにより応答の遅延しているディスクを一時的に切り
離し、残る磁気ディスク装置データを用いて読み出しデ
ータを生成してホストコンピュータに送り、ホストコン
ピュータへの応答性能を保証する技術が既に考案されて
いる。特開平7―200191では、応答の遅れている
ディスクを一次的に切り離し、さらにディスク装置から
訂正不能のメディア障害が報告されたときに、装置内で
不良交代ブロックの設定処理を行う技術が考案されてい
る。
【0004】
【発明が解決しようとする課題】第1の問題点は、ディ
スク装置で訂正不能なメディア障害が発生すると、直ち
に不良交代ブロックの割付け処理が実行されてしまう点
にある。
スク装置で訂正不能なメディア障害が発生すると、直ち
に不良交代ブロックの割付け処理が実行されてしまう点
にある。
【0005】ディスク装置において訂正不能なメディア
障害が発生する要因としては、磁気ディスク媒体面のキ
ズや損傷によるもの、媒体面や記録再生ヘッドにゴミや
異物が付着したことによるもの、記録再生ヘッドの温度
変化により再生特性が悪化したことによるもの等が考え
られる。このうち磁気ディスク媒体面のキズや損傷によ
り、訂正不能のメディア障害であるならば、直ちにメデ
ィア障害の発生したブロックを不良交代領域に割り付け
ても問題はない。しかしながら、媒体面のゴミや記録再
生ヘッドの温度が要因で訂正不能のメディア障害が発生
した場合には、その障害は一時的なものであり、媒体面
のゴミがとれたり、記録再生ヘッドの温度が変化する
と、正常に再生可能になる場合がある。
障害が発生する要因としては、磁気ディスク媒体面のキ
ズや損傷によるもの、媒体面や記録再生ヘッドにゴミや
異物が付着したことによるもの、記録再生ヘッドの温度
変化により再生特性が悪化したことによるもの等が考え
られる。このうち磁気ディスク媒体面のキズや損傷によ
り、訂正不能のメディア障害であるならば、直ちにメデ
ィア障害の発生したブロックを不良交代領域に割り付け
ても問題はない。しかしながら、媒体面のゴミや記録再
生ヘッドの温度が要因で訂正不能のメディア障害が発生
した場合には、その障害は一時的なものであり、媒体面
のゴミがとれたり、記録再生ヘッドの温度が変化する
と、正常に再生可能になる場合がある。
【0006】このような場合、実際には媒体の障害でな
いにも関わらず、不良交代処理が実行され、交代用のブ
ロックが消費されてしまう可能性がある。
いにも関わらず、不良交代処理が実行され、交代用のブ
ロックが消費されてしまう可能性がある。
【0007】本発明の目的は、ディスクアレイ装置にお
ける磁気ディスク媒体の不良交代ブロックの割り付け処
理を、訂正不能のメディア障害を契機に行う際に、磁気
ディスクの不良交代ブロックの消費を削減できるディス
クアレイ装置を提供することにある。
ける磁気ディスク媒体の不良交代ブロックの割り付け処
理を、訂正不能のメディア障害を契機に行う際に、磁気
ディスクの不良交代ブロックの消費を削減できるディス
クアレイ装置を提供することにある。
【0008】
【課題を解決するための手段】本発明の特徴は、磁気デ
ィスク装置から訂正不能メディア障害が報告されたとき
に、不良交代ブロックの割付け処理を行う前に、リトラ
イを行う手段(図1の16)と、リトライを行う前に一
定時間経過するのを待つ手段(図1の17)と、リトラ
イの結果により真の磁気ディスク媒体の障害か否かを判
断する手段(図3のステップ306)を有する点であ
る。
ィスク装置から訂正不能メディア障害が報告されたとき
に、不良交代ブロックの割付け処理を行う前に、リトラ
イを行う手段(図1の16)と、リトライを行う前に一
定時間経過するのを待つ手段(図1の17)と、リトラ
イの結果により真の磁気ディスク媒体の障害か否かを判
断する手段(図3のステップ306)を有する点であ
る。
【0009】磁気ディスク装置から訂正不能のメディア
障害が報告された時に、不良交代ブロックの割付け処理
をおこなう前に、リトライを行う手段により、磁気媒体
上のゴミによる一時的な訂正不能障害か真の磁気媒体の
障害かを判断する。また、リトライ動作を行う前に、一
定時間経過するのを待つ手段により磁気ヘッドの温度を
変化させ、磁気ヘッドの温度特性による訂正不能障害か
真の磁気媒体の障害かを判断する。そして、真の磁気媒
体障害の時にのみ不良交代ブロックの割付け処理を行
う。
障害が報告された時に、不良交代ブロックの割付け処理
をおこなう前に、リトライを行う手段により、磁気媒体
上のゴミによる一時的な訂正不能障害か真の磁気媒体の
障害かを判断する。また、リトライ動作を行う前に、一
定時間経過するのを待つ手段により磁気ヘッドの温度を
変化させ、磁気ヘッドの温度特性による訂正不能障害か
真の磁気媒体の障害かを判断する。そして、真の磁気媒
体障害の時にのみ不良交代ブロックの割付け処理を行
う。
【0010】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。
て図面を参照して詳細に説明する。
【0011】図1のブロック図に示す本発明のディスク
アレイ装置1は、マイクロプロセッサ11と、上位装置
接続部12と、アレイ制御部13と、磁気ディスク装置
接続部14−1〜14−5と、命令実行タイマ15と、
訂正不能エラーリトライカウンタ16と、ウエイトタイ
マ17と、磁気ディスク装置3−1〜3−5によって構
成され、上位装置2に接続される。
アレイ装置1は、マイクロプロセッサ11と、上位装置
接続部12と、アレイ制御部13と、磁気ディスク装置
接続部14−1〜14−5と、命令実行タイマ15と、
訂正不能エラーリトライカウンタ16と、ウエイトタイ
マ17と、磁気ディスク装置3−1〜3−5によって構
成され、上位装置2に接続される。
【0012】ディスクアレイ装置1は、上位装置2の指
示より、装置内の磁気ディスク装置3―1〜3−5をア
クセスしデータを記録再生する。上位装置2はホストコ
ンピュータであり、ディスクアレイ装置1にデータの記
録再生の指示を行う。
示より、装置内の磁気ディスク装置3―1〜3−5をア
クセスしデータを記録再生する。上位装置2はホストコ
ンピュータであり、ディスクアレイ装置1にデータの記
録再生の指示を行う。
【0013】マイクロプロセッサ11は、ディスクアレ
イ装置1全体を監視し指示を行う。上位装置接続部12
は、ディスクアレイ装置1と上位装置2とのインタフェ
ースを制御する。アレイ制御部13は、記録データ及び
再生データに対し、データの分割/合成を行う。磁気デ
ィスク装置接続部14−1〜14−5は、それぞれの磁
気ディスク装置3−1〜3−5とのインタフェースを制
御する。命令実行タイマ15は、ディスクアレイ装置1
が上位装置2からの記録/再生命令の実行を開始した時
点からの経過時間を監視する。訂正不能エラーリトライ
カウンタ16は、磁気ディスク装置3−1〜3―5で発
生した訂正不能エラーをリトライするときのリトライカ
ウンタである。ウエイトタイマ17は、リトライ処理を
行う時間間隔を作るためのタイマである。
イ装置1全体を監視し指示を行う。上位装置接続部12
は、ディスクアレイ装置1と上位装置2とのインタフェ
ースを制御する。アレイ制御部13は、記録データ及び
再生データに対し、データの分割/合成を行う。磁気デ
ィスク装置接続部14−1〜14−5は、それぞれの磁
気ディスク装置3−1〜3−5とのインタフェースを制
御する。命令実行タイマ15は、ディスクアレイ装置1
が上位装置2からの記録/再生命令の実行を開始した時
点からの経過時間を監視する。訂正不能エラーリトライ
カウンタ16は、磁気ディスク装置3−1〜3―5で発
生した訂正不能エラーをリトライするときのリトライカ
ウンタである。ウエイトタイマ17は、リトライ処理を
行う時間間隔を作るためのタイマである。
【0014】アレイ制御部13の機能をさらに詳しく説
明する。アレイ制御部13は、上位装置2から送られる
書き込みデータを4つに分割し、さらにこの4つのデー
タから冗長データを生成して磁気ディスク装置3−1〜
3−5に送る。磁気ディスク装置3−1〜3−5から読
み出された読み出しデータを合成して上位装置2に送
る。このとき読み出されたデータと冗長データを比較し
データの正常性をチェックすることもできる。さらに、
アレイ制御部13ではデータの読み出し時に1台の磁気
ディスク装置が故障していると、残りの磁気ディスク装
置から読み出されたデータと冗長データから欠損したデ
ータを復元し、上位装置に送ることができる。また、磁
気ディスク装置の故障により欠損したデータを故障修理
した磁気ディスク装置に復元するときも、それ以外の磁
気ディスク装置から読み出されたデータから復元したデ
ータを、故障修理した磁気ディスク装置に送る機能を持
つ。これらアレイ制御部の動作モードの指定は、マイク
ロプロセッサ11が行う。
明する。アレイ制御部13は、上位装置2から送られる
書き込みデータを4つに分割し、さらにこの4つのデー
タから冗長データを生成して磁気ディスク装置3−1〜
3−5に送る。磁気ディスク装置3−1〜3−5から読
み出された読み出しデータを合成して上位装置2に送
る。このとき読み出されたデータと冗長データを比較し
データの正常性をチェックすることもできる。さらに、
アレイ制御部13ではデータの読み出し時に1台の磁気
ディスク装置が故障していると、残りの磁気ディスク装
置から読み出されたデータと冗長データから欠損したデ
ータを復元し、上位装置に送ることができる。また、磁
気ディスク装置の故障により欠損したデータを故障修理
した磁気ディスク装置に復元するときも、それ以外の磁
気ディスク装置から読み出されたデータから復元したデ
ータを、故障修理した磁気ディスク装置に送る機能を持
つ。これらアレイ制御部の動作モードの指定は、マイク
ロプロセッサ11が行う。
【0015】尚、本構成の説明においては、アレイを構
成する磁気ディスク装置の数は5台であるが、この数は
2台以上のn台であっても良い。磁気ディスク装置の台
数をn台とする場合、少なくとも1台にはパリティデー
タ等の冗長データを記録し、残りの磁気ディスク装置に
データを記録する。
成する磁気ディスク装置の数は5台であるが、この数は
2台以上のn台であっても良い。磁気ディスク装置の台
数をn台とする場合、少なくとも1台にはパリティデー
タ等の冗長データを記録し、残りの磁気ディスク装置に
データを記録する。
【0016】次に、本発明の動作を図面を参照して説明
する。
する。
【0017】図2は、本発明における上位装置2から発
行される読み出し命令におけるマイクロプロセッサ11
の動作を示している。先ず、通常の読み出し動作につい
て図を参照しながら説明する。上位装置2が、データの
読み出し命令をディスクアレイ装置1に発行すると、そ
の読み出し命令は、上位装置接続部12を介してマイク
ロプロセッサ11によって認識される(ステップ20
1)。マイクロプロセッサ11は命令受信を契機に、命
令実行タイマ15をリセットしタイマ監視を起動する
(ステップ202)。続いてマイクロプロセッサ11
は、磁気ディスク装置接続部14−1〜14−5を介し
て、磁気ディスク装置3−1〜3−5にデータの読み出
し命令をを発行する(ステップ203)。次に、アレイ
制御部13に対し磁気ディスク装置接続部14−1〜1
4−5から送られる読み出しデータを合成して上位装置
接続部12に送る動作モードを設定する(ステップ20
4)。これにより磁気ディスク装置3−1〜3−5でデ
ータの読み出しが開始され、それぞれの読み出しデータ
が磁気ディスク装置接続部14−1〜14−5を介し
て、アレイ制御部13に送られる。アレイ制御部13
は、送られたデータを合成して上位装置接続部12に送
る。マイクロプロセッサ11はこの間、命令実行タイマ
15において命令の実行開始後の経過時間を監視してい
る(ステップ205)。また、アレイ制御部13におい
てデータ合成の進捗を監視する。合成された読み出しデ
ータは、上位接続部12を介して上位装置2に送られ
る。合成された読み出しデータの最後のデータの転送が
完了するまで待つ(ステップ206)。磁気ディスク装
置3−1〜3−5からの読み出しが完了し、続いて磁気
ディスク装置3−1〜3−5から読み出し命令の終了報
告が送られると、マイクロプロセッサ11はそれを確認
する(ステップ207)。次に、上位装置接続部12を
介して上位装置2に対して、読み出し命令の終了報告を
行う(ステップ208)。
行される読み出し命令におけるマイクロプロセッサ11
の動作を示している。先ず、通常の読み出し動作につい
て図を参照しながら説明する。上位装置2が、データの
読み出し命令をディスクアレイ装置1に発行すると、そ
の読み出し命令は、上位装置接続部12を介してマイク
ロプロセッサ11によって認識される(ステップ20
1)。マイクロプロセッサ11は命令受信を契機に、命
令実行タイマ15をリセットしタイマ監視を起動する
(ステップ202)。続いてマイクロプロセッサ11
は、磁気ディスク装置接続部14−1〜14−5を介し
て、磁気ディスク装置3−1〜3−5にデータの読み出
し命令をを発行する(ステップ203)。次に、アレイ
制御部13に対し磁気ディスク装置接続部14−1〜1
4−5から送られる読み出しデータを合成して上位装置
接続部12に送る動作モードを設定する(ステップ20
4)。これにより磁気ディスク装置3−1〜3−5でデ
ータの読み出しが開始され、それぞれの読み出しデータ
が磁気ディスク装置接続部14−1〜14−5を介し
て、アレイ制御部13に送られる。アレイ制御部13
は、送られたデータを合成して上位装置接続部12に送
る。マイクロプロセッサ11はこの間、命令実行タイマ
15において命令の実行開始後の経過時間を監視してい
る(ステップ205)。また、アレイ制御部13におい
てデータ合成の進捗を監視する。合成された読み出しデ
ータは、上位接続部12を介して上位装置2に送られ
る。合成された読み出しデータの最後のデータの転送が
完了するまで待つ(ステップ206)。磁気ディスク装
置3−1〜3−5からの読み出しが完了し、続いて磁気
ディスク装置3−1〜3−5から読み出し命令の終了報
告が送られると、マイクロプロセッサ11はそれを確認
する(ステップ207)。次に、上位装置接続部12を
介して上位装置2に対して、読み出し命令の終了報告を
行う(ステップ208)。
【0018】次に、磁気ディスク装置において、訂正不
能メディア障害が発生した場合の動作について説明す
る。例としてデータを格納する磁気ディスク装置3−1
で訂正不能メディア障害が発生したことを想定して説明
する。このとき磁気ディスク装置3−2〜3−5のうち
少なくとも1台に冗長データを格納しており、残りの磁
気ディスク装置に3−1に格納する以外の分割されたデ
ータが格納されているものとする。磁気ディスク装置に
おいてデータの読み出し途中のブロックで訂正不能のメ
ディア障害が発生した場合、磁気ディスク装置3―1は
障害回復のためのリトライ動作を開始するため、磁気デ
ィスク装置3−1からアレイ制御部13への読み出しデ
ータの供給が停止する。従って、アレイ制御部13はデ
ータの合成ができなくなり磁気ディスク装置3−1から
のデータの供給待ちになる。この状態で一定時間が経過
すると、図2の判断ボックス205の処理で、マイクロ
プロセッサ11が命令実行タイマ15のタイムアウトを
検出する。マイクロプロセッサ11は、アレイ制御部1
3及び磁気ディスク装置接続部14―1〜14−5の状
態をチェックし、磁気ディスク装置3−1からのデータ
供給が停止していることを認識する(ステップ20
9)。マイクロプロセッサ11は、磁気ディスク装置3
−1を一時的にアレイ管理から切り離し、アレイ制御部
13に対し、磁気ディスク装置3−2〜3−5からの上
位装置に送る読み出しデータを生成するモードを設定
し、後続の読み出しデータを処理する(ステップ21
0)。マイクロプロセッサ11は、全てのデータ転送の
完了を待つ(ステップ211)。その後、マイクロプロ
セッサ11は、磁気ディスク装置3−2〜3−5からの
読み出しコマンドの完了報告の確認を行ない(ステップ
212)、上位装置2に読み出し命令の終了報告を行う
(ステップ208)。
能メディア障害が発生した場合の動作について説明す
る。例としてデータを格納する磁気ディスク装置3−1
で訂正不能メディア障害が発生したことを想定して説明
する。このとき磁気ディスク装置3−2〜3−5のうち
少なくとも1台に冗長データを格納しており、残りの磁
気ディスク装置に3−1に格納する以外の分割されたデ
ータが格納されているものとする。磁気ディスク装置に
おいてデータの読み出し途中のブロックで訂正不能のメ
ディア障害が発生した場合、磁気ディスク装置3―1は
障害回復のためのリトライ動作を開始するため、磁気デ
ィスク装置3−1からアレイ制御部13への読み出しデ
ータの供給が停止する。従って、アレイ制御部13はデ
ータの合成ができなくなり磁気ディスク装置3−1から
のデータの供給待ちになる。この状態で一定時間が経過
すると、図2の判断ボックス205の処理で、マイクロ
プロセッサ11が命令実行タイマ15のタイムアウトを
検出する。マイクロプロセッサ11は、アレイ制御部1
3及び磁気ディスク装置接続部14―1〜14−5の状
態をチェックし、磁気ディスク装置3−1からのデータ
供給が停止していることを認識する(ステップ20
9)。マイクロプロセッサ11は、磁気ディスク装置3
−1を一時的にアレイ管理から切り離し、アレイ制御部
13に対し、磁気ディスク装置3−2〜3−5からの上
位装置に送る読み出しデータを生成するモードを設定
し、後続の読み出しデータを処理する(ステップ21
0)。マイクロプロセッサ11は、全てのデータ転送の
完了を待つ(ステップ211)。その後、マイクロプロ
セッサ11は、磁気ディスク装置3−2〜3−5からの
読み出しコマンドの完了報告の確認を行ない(ステップ
212)、上位装置2に読み出し命令の終了報告を行う
(ステップ208)。
【0019】以上の動作により、アレイを構成する1台
の磁気ディスク装置が故障により、データの転送が遅れ
ているときでも、一定時間で上位装置2へ読み出しデー
タを転送し、読み出し命令を完了することができる。
の磁気ディスク装置が故障により、データの転送が遅れ
ているときでも、一定時間で上位装置2へ読み出しデー
タを転送し、読み出し命令を完了することができる。
【0020】次に、本発明の特徴である、訂正不能メデ
ィア障害の発生した磁気ディスク装置に対する動作につ
いて説明する。図2のステップ210で訂正不能メディ
ア障害により応答の遅れている磁気ディスク装置3−1
を切り離した後も当該磁気ディスク装置3−1では内部
でリトライ処理を継続している。磁気ディスク装置3−
1は既にアレイから切り離されているので、マイクロプ
ロセッサ11は、磁気ディスク装置3−1を、上位装置
2からの命令とは非同期に管理する。
ィア障害の発生した磁気ディスク装置に対する動作につ
いて説明する。図2のステップ210で訂正不能メディ
ア障害により応答の遅れている磁気ディスク装置3−1
を切り離した後も当該磁気ディスク装置3−1では内部
でリトライ処理を継続している。磁気ディスク装置3−
1は既にアレイから切り離されているので、マイクロプ
ロセッサ11は、磁気ディスク装置3−1を、上位装置
2からの命令とは非同期に管理する。
【0021】図3は、本発明の特徴である、応答の遅延
により切り離された磁気ディスク装置に対するマイクロ
プロセッサ11の動作を示している。マイクロプロセッ
サ11は、磁気ディスク装置3−1からの読み出し命令
の終了報告を確認する(ステップ301)。このときの
終了報告には最終的に磁気ディスク装置3−1内でのリ
トライ処理が成功して正常終了が報告される場合と、リ
トライ処理が失敗して訂正不能メディア障害が報告され
るケースがあるが、正常終了の場合には、マイクロプロ
セッサ11は磁気ディスク装置3−1を再度アレイに組
み込む(ステップ309)。なぜなら、正常終了した場
合には、媒体のゴミなどが、磁気ディスク装置の内部リ
トライ動作中に取れたと考えられるためである。次に、
マイクロプロセッサ11は、訂正不能エラーリトライカ
ウンタ16に所定のリトライカウントをセットする(ス
テップ303)。このリトライカウントは、磁気ディス
ク装置の品質や、ディスクアレイ装置1に求められる性
能要求によって決定されるべきパラメータである。本説
明では例として1をセットするものとする。つまり一回
の再試行処理を行うことを意味する。次に、マイクロプ
ロセッサ11は、ウエイトタイマ17を使用し一定時間
経過するまで待つ(ステップ304)。この時間は、磁
気ディス装置の温度変化により訂正不能メディア障害が
報告された場合に対応する処理で、磁気ディスク装置を
静的状態にして、磁気ディスクドライブの温度を変化さ
せるためである。続いてマイクロプロセッサ11は、磁
気ディスク装置接続部14−1を介し、磁気ディスク装
置3―1にリトライのための読み出し命令を発行する
(ステップ305)。実際に読み出されるデータは、磁
気ディスク装置接続部14−1で読み捨てられる。マイ
クロプロセッサ11は、磁気ディスク装置3−1からの
読み出し命令の終了報告をチェックし(ステップ30
6)、正常終了が報告された場合には、先に報告された
訂正不能メディア障害は、ゴミによるものか温度特性な
どが原因であり、磁気ディスク媒体の固定的な障害でな
いと考えて、磁気ディスク装置3―1を再度アレイに組
み込む(ステップ309)。繰り返し訂正不能メディア
障害が報告された場合には、マイクロプロセッサ11
は、訂正不能エラーリトライカウンタ16を減数し(ス
テップ307)、リトライカウント値が0の場合に、磁
気ディスク媒体の固定障害と判断し不良交代ブロックの
割付け処理を行う。
により切り離された磁気ディスク装置に対するマイクロ
プロセッサ11の動作を示している。マイクロプロセッ
サ11は、磁気ディスク装置3−1からの読み出し命令
の終了報告を確認する(ステップ301)。このときの
終了報告には最終的に磁気ディスク装置3−1内でのリ
トライ処理が成功して正常終了が報告される場合と、リ
トライ処理が失敗して訂正不能メディア障害が報告され
るケースがあるが、正常終了の場合には、マイクロプロ
セッサ11は磁気ディスク装置3−1を再度アレイに組
み込む(ステップ309)。なぜなら、正常終了した場
合には、媒体のゴミなどが、磁気ディスク装置の内部リ
トライ動作中に取れたと考えられるためである。次に、
マイクロプロセッサ11は、訂正不能エラーリトライカ
ウンタ16に所定のリトライカウントをセットする(ス
テップ303)。このリトライカウントは、磁気ディス
ク装置の品質や、ディスクアレイ装置1に求められる性
能要求によって決定されるべきパラメータである。本説
明では例として1をセットするものとする。つまり一回
の再試行処理を行うことを意味する。次に、マイクロプ
ロセッサ11は、ウエイトタイマ17を使用し一定時間
経過するまで待つ(ステップ304)。この時間は、磁
気ディス装置の温度変化により訂正不能メディア障害が
報告された場合に対応する処理で、磁気ディスク装置を
静的状態にして、磁気ディスクドライブの温度を変化さ
せるためである。続いてマイクロプロセッサ11は、磁
気ディスク装置接続部14−1を介し、磁気ディスク装
置3―1にリトライのための読み出し命令を発行する
(ステップ305)。実際に読み出されるデータは、磁
気ディスク装置接続部14−1で読み捨てられる。マイ
クロプロセッサ11は、磁気ディスク装置3−1からの
読み出し命令の終了報告をチェックし(ステップ30
6)、正常終了が報告された場合には、先に報告された
訂正不能メディア障害は、ゴミによるものか温度特性な
どが原因であり、磁気ディスク媒体の固定的な障害でな
いと考えて、磁気ディスク装置3―1を再度アレイに組
み込む(ステップ309)。繰り返し訂正不能メディア
障害が報告された場合には、マイクロプロセッサ11
は、訂正不能エラーリトライカウンタ16を減数し(ス
テップ307)、リトライカウント値が0の場合に、磁
気ディスク媒体の固定障害と判断し不良交代ブロックの
割付け処理を行う。
【0022】以上の磁気ディスク媒体の固定障害の判断
処理は時間を要する処理であるが、上位装置からの命令
とは非同期の処理であり、その間に上位装置2から発行
される命令は、残る4台の磁気ディスク装置で実行でき
るので、上位装置2に対して応答の遅延は発生しない。
処理は時間を要する処理であるが、上位装置からの命令
とは非同期の処理であり、その間に上位装置2から発行
される命令は、残る4台の磁気ディスク装置で実行でき
るので、上位装置2に対して応答の遅延は発生しない。
【0023】図4は、訂正不能のメディア障害に対する
不良交代処理におけるマイクロプロセッサ11の動作を
示している。不良交代ブロック割付け処理では、マイク
ロプロセッサ11は、磁気ディスク装置3−1に対し不
良交代ブロックの割付け命令を発行する(ステップ40
1)。その命令が完了した後、マイクロプロセッサ11
は、アレイ制御部13に対し磁気ディスク装置3−2〜
3−5のデータから磁気ディスク装置3−1のデータを
再生しそれを磁気ディスク装置3−1に送るモードを設
定する(ステップ402)。続いて、マイクロプロセッ
サ11は、磁気ディスク装置3―1には不良交代処理を
行ったブロックへの書き込み命令を、磁気ディスク装置
3−2〜3−5には、それに対応するブロックの読み出
し命令を発行する(ステップ403)。これらの命令が
完了すると、マイクロプロセッサ11は磁気ディスク装
置3−1をアレイに組み込み(ステップ404)、不良
交代ブロックの割付け処理を完了する。
不良交代処理におけるマイクロプロセッサ11の動作を
示している。不良交代ブロック割付け処理では、マイク
ロプロセッサ11は、磁気ディスク装置3−1に対し不
良交代ブロックの割付け命令を発行する(ステップ40
1)。その命令が完了した後、マイクロプロセッサ11
は、アレイ制御部13に対し磁気ディスク装置3−2〜
3−5のデータから磁気ディスク装置3−1のデータを
再生しそれを磁気ディスク装置3−1に送るモードを設
定する(ステップ402)。続いて、マイクロプロセッ
サ11は、磁気ディスク装置3―1には不良交代処理を
行ったブロックへの書き込み命令を、磁気ディスク装置
3−2〜3−5には、それに対応するブロックの読み出
し命令を発行する(ステップ403)。これらの命令が
完了すると、マイクロプロセッサ11は磁気ディスク装
置3−1をアレイに組み込み(ステップ404)、不良
交代ブロックの割付け処理を完了する。
【0024】
【発明の効果】本発明の効果は、磁気ディスク装置の不
良交代のためのブロックの消費を少なくすることであ
る。
良交代のためのブロックの消費を少なくすることであ
る。
【0025】その理由は、磁気ディスク装置から訂正不
能のメディア障害が報告された時に、直ちに不良交代ブ
ロックの割付け処理を行わずに、一定時間経過後にリト
ライを行うことで、磁気ヘッドの温度特性による訂正不
能のメディア障害が報告される場合や媒体面のゴミが原
因で一時的にメディア障害が報告される場合と、真の磁
気媒体の障害による訂正不能障害とを切り分けて、真の
磁気媒体の障害時にのみ不良交代ブロックの割付け処理
を行うためである。
能のメディア障害が報告された時に、直ちに不良交代ブ
ロックの割付け処理を行わずに、一定時間経過後にリト
ライを行うことで、磁気ヘッドの温度特性による訂正不
能のメディア障害が報告される場合や媒体面のゴミが原
因で一時的にメディア障害が報告される場合と、真の磁
気媒体の障害による訂正不能障害とを切り分けて、真の
磁気媒体の障害時にのみ不良交代ブロックの割付け処理
を行うためである。
【図1】本発明の実施の形態であるディスクアレイ装置
の構成を示すブロック図である。
の構成を示すブロック図である。
【図2】上位装置からの読み出し命令に対する本発明の
動作を示すフローチャートである。
動作を示すフローチャートである。
【図3】応答の遅れた磁気ディスク装置に対する本発明
の動作を示すフローチャートである。
の動作を示すフローチャートである。
【図4】不良交代ブロックの割付け処理に関する本発明
の動作を示すフローチャートである。
の動作を示すフローチャートである。
1 ディスクアレイ装置 2 上位装置 3−1〜3−5 磁気ディスク装置 11 マイクロプロセッサ 12 上位装置接続部 13 アレイ制御部 14−1〜14−5 磁気ディスク装置接続部 15 命令実行タイマ 16 訂正不能エラーリトライカウンタ 17 ウエイトタイマ
Claims (6)
- 【請求項1】 データの読み出し処理で応答の遅延して
いる磁気ディスク装置を切り離して処理を継続すること
のできるディスクアレイ装置において、 応答の遅延している前記磁気ディスク装置にリトライの
命令を発行する手段と、 リトライの命令を発行する前に一定時間経過するのを待
つ手段とを有し、 応答の遅延した前記磁気ディスク装置が、磁気ディスク
媒体の障害と看做される場合のみ不良交代ブロックの割
付け処理を行うことを特徴とするディスクアレイ装置。 - 【請求項2】 応答の遅延している前記磁気ディスク装
置を一時的にアレイから切り離し、切り離された後も、
前記磁気ディスク装置内部でリトライ処理を継続し、上
位装置からの命令とは非同期に管理するマイクロプロセ
ッサを有することを特徴とする請求項1記載のディスク
アレイ装置。 - 【請求項3】 前記マイクロプロセッサが、 前記磁気ディスク装置内でのリトライ処理が成功して正
常終了が報告される場合に、前記磁気ディスク装置を再
度アレイに組み込むことを特徴とする請求項2記載のデ
ィスクアレイ装置。 - 【請求項4】 前記マイクロプロセッサが、 前記磁気ディスク装置内でのリトライ処理時に繰り返し
訂正不能メディア障害が報告された場合には、前記磁気
ディスク装置のディスク媒体を固定障害と判断し不良交
代ブロックの割付け処理を行うことを特徴とする請求項
2記載のディスクアレイ装置。 - 【請求項5】 前記リトライの命令を発行する手段が、 再試行回数を設定するリトライカウンタを有する請求項
1乃至4の何れかに記載のディスクアレイ装置。 - 【請求項6】 前記一定時間経過するのを待つ手段が、 少なくとも前記磁気ディスク装置を静的状態にするに十
分な時間経過を待つウエイトタイマを有する請求項1乃
至4の何れかに記載のディスクアレイ装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10165054A JP2000003255A (ja) | 1998-06-12 | 1998-06-12 | ディスクアレイ装置 |
US09/328,447 US6434711B1 (en) | 1998-06-12 | 1999-06-09 | Disk array apparatus that avoids premature declarations of faults |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10165054A JP2000003255A (ja) | 1998-06-12 | 1998-06-12 | ディスクアレイ装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000003255A true JP2000003255A (ja) | 2000-01-07 |
Family
ID=15804975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10165054A Pending JP2000003255A (ja) | 1998-06-12 | 1998-06-12 | ディスクアレイ装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6434711B1 (ja) |
JP (1) | JP2000003255A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007257472A (ja) * | 2006-03-24 | 2007-10-04 | Nec Engineering Ltd | データ移行装置 |
WO2014045691A1 (ja) * | 2012-09-18 | 2014-03-27 | 三菱電機株式会社 | Raid障害自己修復装置 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000137584A (ja) * | 1998-10-30 | 2000-05-16 | Nec Software Ltd | 外部記憶装置の制御装置及び不良ブロック代替方法並びに不良ブロック代替制御プログラムを格納した記憶媒体 |
JP2002108573A (ja) * | 2000-09-28 | 2002-04-12 | Nec Corp | ディスクアレイ装置、そのエラー制御方法、ならびにその制御プログラムを記録した記録媒体 |
JP3634809B2 (ja) * | 2002-02-28 | 2005-03-30 | 株式会社東芝 | Av用途のディスク記憶装置及び同装置におけるセクタエラー時の処理方法 |
JP2003288252A (ja) * | 2002-03-27 | 2003-10-10 | Nec Corp | 記憶装置における不良ブロックの復旧処理方法 |
JP3778171B2 (ja) * | 2003-02-20 | 2006-05-24 | 日本電気株式会社 | ディスクアレイ装置 |
US7275179B1 (en) * | 2003-04-24 | 2007-09-25 | Network Appliance, Inc. | System and method for reducing unrecoverable media errors in a disk subsystem |
JP4317436B2 (ja) * | 2003-12-16 | 2009-08-19 | 株式会社日立製作所 | ディスクアレイシステム及びインターフェイス変換装置 |
GB2416912B8 (en) * | 2003-12-16 | 2007-04-12 | Hitachi Ltd | Disk array system and interface converter |
US7913108B1 (en) * | 2006-03-28 | 2011-03-22 | Emc Corporation | System and method for improving disk drive performance during high frequency vibration conditions |
US20080209254A1 (en) * | 2007-02-22 | 2008-08-28 | Brian Robert Bailey | Method and system for error recovery of a hardware device |
US8898536B2 (en) * | 2007-04-27 | 2014-11-25 | Netapp, Inc. | Multi-core engine for detecting bit errors |
US7840837B2 (en) * | 2007-04-27 | 2010-11-23 | Netapp, Inc. | System and method for protecting memory during system initialization |
US7836331B1 (en) | 2007-05-15 | 2010-11-16 | Netapp, Inc. | System and method for protecting the contents of memory during error conditions |
JP5251142B2 (ja) * | 2008-01-25 | 2013-07-31 | 富士通株式会社 | 転送装置、転送装置の制御方法及び情報処理装置 |
US9158579B1 (en) | 2008-11-10 | 2015-10-13 | Netapp, Inc. | System having operation queues corresponding to operation execution time |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3771143A (en) * | 1972-06-01 | 1973-11-06 | Burroughs Corp | Method and apparatus for providing alternate storage areas on a magnetic disk pack |
US3987490A (en) * | 1975-03-03 | 1976-10-19 | International Business Machines Corporation | Rotating read/write system for NRZI data |
US4914656A (en) * | 1988-06-28 | 1990-04-03 | Storage Technology Corporation | Disk drive memory |
JP2554743B2 (ja) * | 1989-05-19 | 1996-11-13 | シャープ株式会社 | 再生のための誤り訂正装置 |
US5072378A (en) * | 1989-12-18 | 1991-12-10 | Storage Technology Corporation | Direct access storage device with independently stored parity |
JPH0731582B2 (ja) * | 1990-06-21 | 1995-04-10 | インターナショナル・ビジネス・マシーンズ・コーポレイション | パリティ保護データを回復するための方法および装置 |
US5166936A (en) * | 1990-07-20 | 1992-11-24 | Compaq Computer Corporation | Automatic hard disk bad sector remapping |
US5271012A (en) * | 1991-02-11 | 1993-12-14 | International Business Machines Corporation | Method and means for encoding and rebuilding data contents of up to two unavailable DASDs in an array of DASDs |
US5303244A (en) * | 1991-03-01 | 1994-04-12 | Teradata | Fault tolerant disk drive matrix |
US5278838A (en) * | 1991-06-18 | 1994-01-11 | Ibm Corp. | Recovery from errors in a redundant array of disk drives |
JPH07134635A (ja) * | 1993-11-10 | 1995-05-23 | Nec Eng Ltd | ディスクアレイ装置 |
JP3681766B2 (ja) | 1994-01-10 | 2005-08-10 | 富士通株式会社 | ディスクアレイ装置 |
US5778167A (en) * | 1994-06-14 | 1998-07-07 | Emc Corporation | System and method for reassigning a storage location for reconstructed data on a persistent medium storage system |
US5623595A (en) * | 1994-09-26 | 1997-04-22 | Oracle Corporation | Method and apparatus for transparent, real time reconstruction of corrupted data in a redundant array data storage system |
US5826001A (en) * | 1995-10-13 | 1998-10-20 | Digital Equipment Corporation | Reconstructing data blocks in a raid array data storage system having storage device metadata and raid set metadata |
KR100244836B1 (ko) * | 1995-11-02 | 2000-02-15 | 포만 제프리 엘 | 컴퓨터시스템 및 다수의 기능카드 중 한개의 기능카드를 격리하는 방법 |
JP3140957B2 (ja) * | 1996-02-16 | 2001-03-05 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | デイスク装置およびデイスク装置におけるエラー処理方法 |
JPH09231014A (ja) | 1996-02-23 | 1997-09-05 | Sony Corp | 記憶媒体の欠陥処理装置 |
US5968182A (en) * | 1997-05-12 | 1999-10-19 | International Business Machines Corporation | Method and means for utilizing device long busy response for resolving detected anomalies at the lowest level in a hierarchical, demand/response storage management subsystem |
JPH1195933A (ja) | 1997-09-19 | 1999-04-09 | Hitachi Ltd | ディスクアレイ装置 |
US6032217A (en) * | 1997-11-04 | 2000-02-29 | Adaptec, Inc. | Method for reconfiguring containers without shutting down the system and with minimal interruption to on-line processing |
-
1998
- 1998-06-12 JP JP10165054A patent/JP2000003255A/ja active Pending
-
1999
- 1999-06-09 US US09/328,447 patent/US6434711B1/en not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007257472A (ja) * | 2006-03-24 | 2007-10-04 | Nec Engineering Ltd | データ移行装置 |
WO2014045691A1 (ja) * | 2012-09-18 | 2014-03-27 | 三菱電機株式会社 | Raid障害自己修復装置 |
Also Published As
Publication number | Publication date |
---|---|
US6434711B1 (en) | 2002-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2000003255A (ja) | ディスクアレイ装置 | |
US6397347B1 (en) | Disk array apparatus capable of dealing with an abnormality occurring in one of disk units without delaying operation of the apparatus | |
US5491816A (en) | Input/ouput controller providing preventive maintenance information regarding a spare I/O unit | |
JP2002108573A (ja) | ディスクアレイ装置、そのエラー制御方法、ならびにその制御プログラムを記録した記録媒体 | |
US6735672B2 (en) | Data storage array device and data access method | |
JP4499193B2 (ja) | 記録再生装置及び記録再生方法 | |
JPH09269871A (ja) | ディスクアレイ装置におけるデータ再冗長化方式 | |
JPH1195933A (ja) | ディスクアレイ装置 | |
JP2000200157A (ja) | ディスクアレイ装置およびディスクアレイ装置におけるデ―タ復旧方法 | |
JP4968078B2 (ja) | 故障診断装置及び故障診断方法 | |
JP2913840B2 (ja) | 集合ディスク装置 | |
JPH02291011A (ja) | 記憶装置 | |
JPH10275060A (ja) | アレイディスク制御装置 | |
JPH08171459A (ja) | 情報処理システム | |
JPH0962461A (ja) | ディスクアレイ装置における自動データ復旧方法 | |
JPH09258914A (ja) | コンピュータシステムのデータ転送方式 | |
JP4190756B2 (ja) | 磁気テープアレイ制御装置及びこれによる書き込みデータの復旧方法 | |
JP5585930B2 (ja) | ディスクアレイ装置、及びデータ制御方法 | |
JP2868003B1 (ja) | 磁気ディスク装置 | |
KR101048997B1 (ko) | 디스크 어레이 기록 장치 및 그 기록 제어 방법 | |
JPH08147112A (ja) | ディスクアレイ装置のエラー回復装置 | |
JPH05127837A (ja) | デイスクアレイ装置 | |
JPH11306644A (ja) | ディスクアレイ装置 | |
JPH11305945A (ja) | データ記憶制御装置およびデータ記憶制御方法 | |
JP2000339103A (ja) | 記憶媒体ライブラリアレイ装置 |