JP4176908B2 - ディスクアレイ装置 - Google Patents
ディスクアレイ装置 Download PDFInfo
- Publication number
- JP4176908B2 JP4176908B2 JP09732899A JP9732899A JP4176908B2 JP 4176908 B2 JP4176908 B2 JP 4176908B2 JP 09732899 A JP09732899 A JP 09732899A JP 9732899 A JP9732899 A JP 9732899A JP 4176908 B2 JP4176908 B2 JP 4176908B2
- Authority
- JP
- Japan
- Prior art keywords
- error
- set time
- time
- disk array
- media
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
【発明の属する技術分野】
ハードディスク装置のタイムアウトエラーとして検出されるメディアエラーを救済するディスクアレイ装置に関する。
【0002】
【従来の技術】
従来、大記憶容量と共に、高信頼性に対する要求の強い大規模な装置に適用する記憶装置として、冗長性を有するRAID(Redundant Arrays of Independent Disks)で構成されるディスクアレイ装置が開発されている。ディスクアレイ装置では、ディスクアレイを構成する複数のハードディスク装置のうち何らかの障害等により、仮にその中の一台が停止してしまってもディスクアレイを構成する残りのハードディスク装置のデータとパリティを使用して容易に元の状態に回復させることができる。
図1に一般的なディスクアレイ装置の構成を示す。1はサーバ、2はディスクアレイ装置、3はハードディスク装置を制御するディスクアレイコントローラ、4はデータが格納されているハードディスク装置、5はハードディスク装置にあるデータを記憶するブロックである。
図8に従来のディスクアレイ装置の動作を示すフローチャートを示す。ディスクアレイコントローラ3は、ハードディスク装置4のブロック5のエラーを検出するために、サーバ1からのアクセスとは独自にハードディスク装置4にあるブロック5のメディアチェック(監視)を行う(ステップ80)。
【0003】
ブロック5にメディアエラーがなければ通常動作へ戻る(ステップ83)。
タイムアウトエラーにはならなかったがブロック5にメディア系エラーが発生した場合には、エラーが発生したブロック5の代替処理を行い(ステップ85)、ディスクアレイコントローラ3はエラーが発生したブロック5以外のデータを読み出し、これらのデータからデータを復元するRAIDの機能を使ってブロック5のデータを復元する(ステップ86)。ブロック5は代替処理されていて使用可能であるので復元したデータを書き込み、ブロック5のデータを復元し終了する(ステップ87)。
ここでメディア系エラーについて説明する。メディア系エラーにはメディアエラーとリカバードエラーがある。ハードディスク装置4のメディアにエラーが発生するとハードディスク装置はエラーが発生したブロック5のリトライ処理を行う。リトライ処理により救済されないとメディアエラーとなり、リトライ処理により救済されるとリカバードエラーとなる。
ブロック5のメディアチェックでハードディスク装置4から応答がなくタイムアウトエラーとなった場合にはエラー終了する(ステップ84)。タイムアウトエラーには、ハードディスク装置4のメディアエラーに関する要因以外で監視時間によらずタイムアウトエラーとなった場合と、ハードディスク装置4がエラーの発生したブロック5のリトライ処理を実施していて監視時間の設定値よりもリトライ時の処理時間のほうが長くなったため、ディスクアレイコントローラ3に読み出しができずにタイムアウトエラーとなった場合がある。
【0004】
従来のディスクアレイ装置2のディスクアレイコントローラ3によるハードディスク装置4の監視時間は、必ずしもハードディスク装置がリトライ処理を行う際に必要とする最大限の時間が設定されているわけではない。システムで要求される障害検出の応答性により監視時間が決定されるためハードディスク装置のリトライ処理進行中であるが処理時間がコントローラの時間監視の設定値を超えてしまい、リトライ処理で救済できるようなメディアエラーの場合にもタイムアウトエラーとして検出される場合がある。
【0005】
【発明が解決しようとする課題】
従来のディスクアレイ装置では、メディアエラー発生によるハードディスク故障発生を低減するための、ハードディスク装置のメディアチェックの機能において、監視時間内にメディアエラーのリトライ処理を完了できずにタイムアウトエラーとして検出されてしまう。このためリトライ処理で救済できるメディアエラーを救済することができない。
本発明はハードディスク装置のリトライ処理で救済できるメディアエラーをタイムアウトエラーとして検出することを低減して、その結果ハードディスク装置の故障となる現象を低減させることを目的としている。
【0006】
【課題を解決するための手段】
上記目的を達成するために本発明においては、データを記憶する複数の記憶媒体と、前記記憶媒体へのデータの書き込み及び読み出しを制御する制御部を有するディスクアレイ装置において、前記制御部は、前記記憶媒体にエラー領域があるかを検出するメディアチェック手段と、前記メディアチェック手段による前記記憶媒体におけるエラー領域の検出動作が設定時間としてあらかじめ設定された第1の設定時間内に終了したか否かを監視し、前記第1の設定時間内に前記メディアチェック手段によるエラー領域の検出動作が終了しなかった場合、タイムアウトエラーと判定するタイムアウトエラー監視手段と、前記タイムアウトエラー監視手段がタイムアウトエラーと判定した場合、前記設定時間として前記第1の設定時間よりも時間が延長された第2の設定時間を設定する設定時間延長手段と、前記設定時間延長手段で設定された前記第2の設定時間が最大設定時間を上回ったか否かを判定する延長時間チェック手段と、前記延長時間チェック手段が前記第2の設定時間が最大設定時間を上回ったと判定した場合、エラーが発生したと判定するエラー判定手段と、前記延長時間チェック手段が前記第2の設定時間が最大設定時間を上回っていないと判定した場合、前記設定時間として前記第2の設定時間が設定された前記タイムアウトエラー監視手段を再度実行させる再実行制御手段とを具備することを特徴とするディスクアレイ装置を提供する。
【0007】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を詳細に説明する。ディスクアレイ装置はRAID5の方式である。図1に示すディスクアレイ装置において、1はサーバ、2はディスクアレイ装置、3はアレイ型ディスクを制御するディスクアレイコントローラ、4はデータが格納されているハードディスク装置、5はハードディスク装置内にありデータを記憶するブロックである。
次に本発明に関わるディスクアレイ装置の動作の流れを図で説明する。ディスクアレイコントローラ3は、サーバ1からのアクセスとは独自にハードディスク装置4にあるブロック5のエラーを検出するためにブロック5のディスクのトラックを読み込むメディアチェック(監視)を行う(ステップ70)。各ブロックはディスクアレイコントローラ3へ読み出しを行う。
ブロック5にメディアエラーが発生し、ハードディスク装置4がエラーの発生したブロック5のリトライ処理を実施していてディスクアレイコントローラ3に読み出しができずにタイムアウトエラー(ステップ71)となった場合には、ハードディスク装置4がリトライ処理を実施しているので通常のアクセス時間より長い時間が必要である。監視時間を延長すれば監視時間内にリトライ処理が完了しタイムアウトエラーを救済できるので、図3のようにディスクアレイコントローラ3がタイムアウトエラーとなると時間監視の設定値を増加させ(ステップ74)、監視時間を延長して再びメディアチェックを行う(ステップ70)。監視時間が最大延長時間を上回るまで時間監視の設定値を段階的に増加させてメディアチェックを繰り返し行う。監視時間を延長しているのでディスクアレイコントローラへの読み出しができ、図4のようにタイムアウトエラーとならずメディア系エラーとなる。監視時間の延長により読み出しはできたが、リトライ不可のメディアエラーに発展する可能性があるので、図5のようにディスクアレイコントローラ3がブロック5のエラーが発生したディスク領域を代替処理するように命令する。ブロック5のエラーが発生したディスク領域はCE領域にある代替領域を使って代替処理される(ステップ77)。ディスクアレイコントローラ3は図6のようにエラーが発生したブロック5以外のデータを読み出し、これらのデータからデータを復元するRAIDの機能を使ってブロック5のデータを復元する(ステップ78)。ブロック5は代替処理されていて使用可能であるので復元したデータを書き込み、ブロック5のデータを復元し終了する(ステップ79)。
【0008】
ブロック5がメディアエラーに関する要因以外で故障し監視時間によらないでタイムアウトエラーとなった場合、図3のように監視時間が最大延長時間を上回るまで時間監視の設定値を段階的に増加させて(ステップ74)メディアチェックを繰り返し行い(ステップ70)、監視時間が最大延長時間を上回ったら時点でエラー終了する(ステップ76)。
タイムアウトエラーにはならなかったが、ブロック5にメディアエラーが発生しハードディスク装置4がエラーの発生したブロック5のリトライ処理を実施したが救済できなかった場合には、ハードディスク装置4からディスクアレイコントローラ3にメディアエラー発生のエラー通知があり、図5のようにディスクアレイコントローラ3がブロック5のエラーが発生したディスク領域を代替処理するように命令する。ブロック5のエラーが発生したディスク領域はCE領域にある代替領域を使って代替処理される(ステップ77)。ディスクアレイコントローラ3は図6のようにエラーが発生したブロック5以外のデータを読み出し、これらのデータからデータを復元するRAIDの機能を使ってブロック5のデータを復元する(ステップ78)。プロックは代替処理されていて使用可能であるので、復元したデータを書き込みブロック5のデータを復元し終了する(ステップ79)。
【0009】
タイムアウトエラーにはならなかったが、ブロック5にメディアエラーが発生しハードディスク装置4がエラーの発生したブロック5のリトライ処理の実施により救済できた場合には、ハードディスク装置4からディスクアレイコントローラ3にリカバードエラー発生の通知があり、リカバードエラー発生の通知をされたブロック5でも将来的にはメディアエラーとなる可能性が高いので、図5のようにディスクアレイコントローラ3がエラーが発生したディスク領域を代替処理するように命令する。ブロック5のエラーが発生したディスク領域は補修領域を使って代替処理される(ステップ77)。ディスクアレイコントローラ3は図6のようにエラーが発生したブロック5以外のデータを読み出し、これらのデータからデータを復元するRAIDの機能を使ってブロック5のデータを復元する(ステップ78)。プロックは代替処理されていて使用可能であるので、復元したデータを書き込みブロック5のデータを復元し終了する(ステップ79)。
ディスクアレイコントローラ3からのメディアチェック(ステップ70)に対して、ハードディスク装置4から正常に読み出しが行われれば通常動作へ戻る(ステップ73)。
【0010】
なお、ディスクアレイ装置2をRAID3の方式で構成しても同等の効果が得られる。
以上のことからハードディスク装置4の時間監視の設定値を段階的に増加させることでリトライ処理で救済できるメディアエラーをタイムアウトエラーとして検出することがなくなる。
またタイムアウト監視時間を延長することによりハードディスク装置4のリトライ処理で救済された場合にも、そのブロック5が将来メディアエラーとなる可能性があり代替処理とデータの復元を行うため、メディアエラー発生の確率がさらに低減する。
【0011】
【発明の効果】
本発明によれば、データ用記憶媒体装置のメディアエラーが発生した場合、時間監視の値を延長して再度メディアチェックすることによって、メディアエラーが救済でき、データ用記憶媒体装置の故障によるシステムへの悪影響を低減できる。
【図面の簡単な説明】
【図1】一般的なディスクアレイ装置のブロック図。
【図2】本発明のディスクアレイ装置の読み出し動作を示す図。
【図3】本発明のディスクアレイ装置の再度メディアチェックを示す図。
【図4】本発明のディスクアレイ装置の読み出し動作を示す図。
【図5】本発明のディスクアレイ装置の代替処理を示す図。
【図6】本発明のディスクアレイ装置のデータ復元処理を示す図。
【図7】本発明のディスクアレイ装置の動作の処理を示すフローチャート。
【図8】従来のディスクアレイ装置の動作の処理を示すフローチャート。
【符号の説明】
1…サーバ
2…ディスクアレイ装置
3…ディスクアレイコントローラ
4…ハードディスク装置
5…ブロック
Claims (1)
- データを記憶する複数の記憶媒体と、前記記憶媒体へのデータの書き込み及び読み出しを制御する制御部を有するディスクアレイ装置において、
前記制御部は、
前記記憶媒体にエラー領域があるかを検出するメディアチェック手段と、
前記メディアチェック手段による前記記憶媒体におけるエラー領域の検出動作が設定時間としてあらかじめ設定された第1の設定時間内に終了したか否かを監視し、前記第1の設定時間内に前記メディアチェック手段によるエラー領域の検出動作が終了しなかった場合、タイムアウトエラーと判定するタイムアウトエラー監視手段と、
前記タイムアウトエラー監視手段がタイムアウトエラーと判定した場合、前記設定時間として前記第1の設定時間よりも時間が延長された第2の設定時間を設定する設定時間延長手段と、
前記設定時間延長手段で設定された前記第2の設定時間が最大設定時間を上回ったか否かを判定する延長時間チェック手段と、
前記延長時間チェック手段が前記第2の設定時間が最大設定時間を上回ったと判定した場合、エラーが発生したと判定するエラー判定手段と、
前記延長時間チェック手段が前記第2の設定時間が最大設定時間を上回っていないと判定した場合、前記設定時間として前記第2の設定時間が設定された前記タイムアウトエラー監視手段を再度実行させる再実行制御手段と
を具備することを特徴とするディスクアレイ装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09732899A JP4176908B2 (ja) | 1999-04-05 | 1999-04-05 | ディスクアレイ装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09732899A JP4176908B2 (ja) | 1999-04-05 | 1999-04-05 | ディスクアレイ装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000293318A JP2000293318A (ja) | 2000-10-20 |
JP4176908B2 true JP4176908B2 (ja) | 2008-11-05 |
Family
ID=14189428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09732899A Expired - Fee Related JP4176908B2 (ja) | 1999-04-05 | 1999-04-05 | ディスクアレイ装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4176908B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4409483B2 (ja) | 2005-06-30 | 2010-02-03 | 富士通株式会社 | ストレージシステム、ストレージ制御装置及びストレージ制御方法 |
JP5107096B2 (ja) * | 2008-02-29 | 2012-12-26 | 株式会社東芝 | 情報処理装置および起動制御方法 |
JP5153884B2 (ja) * | 2008-10-15 | 2013-02-27 | 三菱電機株式会社 | 情報記憶装置 |
EP2339066B1 (en) * | 2008-10-16 | 2017-07-19 | Maintech Co., Ltd. | Crepe composition and method for manufacturing crepe paper |
-
1999
- 1999-04-05 JP JP09732899A patent/JP4176908B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000293318A (ja) | 2000-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5078235B2 (ja) | 磁気ディスク記憶装置におけるトラック・データ完全性の維持方法 | |
JP4886209B2 (ja) | アレイコントローラ、当該アレイコントローラを含む情報処理装置及びディスクアレイ制御方法 | |
US7447938B1 (en) | System and method for reducing unrecoverable media errors in a disk subsystem | |
KR100711165B1 (ko) | 기억 제어 장치, 제어 방법 및 기록 매체 | |
US7761660B1 (en) | Identifying suspect disks | |
WO2002088922A2 (en) | Storage array employing scrubbing operations at the disk-controller level | |
JP2001228980A (ja) | ディスクアレイ用コントローラ | |
JP4852118B2 (ja) | ストレージ装置及び論理ディスク管理方法 | |
US8370688B2 (en) | Identifying a storage device as faulty for a first storage volume without identifying the storage device as faulty for a second storage volume | |
US20060215456A1 (en) | Disk array data protective system and method | |
US20060015769A1 (en) | Program, method and apparatus for disk array control | |
CN108170375B (zh) | 一种分布式存储系统中的超限保护方法和装置 | |
JP4176908B2 (ja) | ディスクアレイ装置 | |
JP2006079219A (ja) | ディスクアレイ制御装置およびディスクアレイ制御方法 | |
JPH1195933A (ja) | ディスクアレイ装置 | |
JP4143040B2 (ja) | ディスクアレイ制御装置、同装置に適用されるデータ欠損検出時の処理方法及びプログラム | |
JP2001075741A (ja) | ディスク制御システムおよびデータ保全方法 | |
JP3120753B2 (ja) | ディスクアレイ装置の障害復旧装置 | |
JP4947062B2 (ja) | 記憶装置、記録復旧方法、記録復旧プログラム | |
JPH09218754A (ja) | データ記憶システム | |
JP6734305B2 (ja) | ディスクアレイコントローラ、ストレージ装置、ストレージ装置の復旧方法、及びディスクアレイコントローラの復旧プログラム | |
JP2009169469A (ja) | 計算機システム | |
JP2002215336A (ja) | 記憶装置の制御方法および記憶サブシステム | |
JP2830840B2 (ja) | ディスクアレイ修復処理方式及び方法 | |
JPH0962461A (ja) | ディスクアレイ装置における自動データ復旧方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050131 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20050322 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20050328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071106 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080819 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080821 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110829 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120829 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120829 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130829 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |