JP6481490B2 - ストレージシステム、制御装置および制御プログラム - Google Patents
ストレージシステム、制御装置および制御プログラム Download PDFInfo
- Publication number
- JP6481490B2 JP6481490B2 JP2015093349A JP2015093349A JP6481490B2 JP 6481490 B2 JP6481490 B2 JP 6481490B2 JP 2015093349 A JP2015093349 A JP 2015093349A JP 2015093349 A JP2015093349 A JP 2015093349A JP 6481490 B2 JP6481490 B2 JP 6481490B2
- Authority
- JP
- Japan
- Prior art keywords
- error
- error score
- score
- storage
- control device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003860 storage Methods 0.000 title claims description 192
- 238000012545 processing Methods 0.000 claims description 106
- 238000012546 transfer Methods 0.000 claims description 53
- 238000001514 detection method Methods 0.000 claims description 28
- 230000004044 response Effects 0.000 claims description 13
- 238000000034 method Methods 0.000 description 33
- 230000008569 process Effects 0.000 description 30
- 230000002776 aggregation Effects 0.000 description 19
- 238000004220 aggregation Methods 0.000 description 19
- 238000000926 separation method Methods 0.000 description 19
- 230000005540 biological transmission Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000001186 cumulative effect Effects 0.000 description 10
- 230000007423 decrease Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0727—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/076—Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0781—Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/08—Error detection or correction by redundancy in data representation, e.g. by using checking codes
- G06F11/10—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
- G06F11/1076—Parity data used in redundant arrays of independent storages, e.g. in RAID systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0784—Routing of error reports, e.g. with a specific transmission path or data flow
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
- Human Computer Interaction (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Computer Security & Cryptography (AREA)
Description
[第1の実施の形態]
図1は、第1の実施の形態に係るストレージシステムの構成例および処理例を示す図である。図1に示すストレージシステムは、制御装置10,20,30および記憶装置41,42を有する。
制御装置10は、記憶部11および制御部12を有する。記憶部11は、例えば、RAM(Random Access Memory)、HDDなどの記憶装置である。制御部12は、例えば、プロセッサである。この場合、制御部12の処理は、所定のプログラムにしたがって実行される。
[第2の実施の形態]
図2は、第2の実施の形態に係るストレージシステムの構成例を示す図である。図2に示すストレージシステムは、CE(Controller Enclosure)100,200,300、DE(Device Enclosure)410,420,430、スイッチ510およびホスト装置520を含む。
RAM110bは、CM110の主記憶装置として使用される。RAM110bには、プロセッサ110aに実行させるOS(Operating System)プログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM110bには、プロセッサ110aによる処理に必要な各種データが格納される。
(課題1)CM間でエラー点数が転送されるため、CM間の伝送路のトラフィックが増大する。
図6は、エラー点数の集計担当CMの割り当て例を示す図である。この図6は、HDD421,422についてのRAID制御担当とディスクアクセス制御担当とが図5のように割り当てられた場合におけるエラー点数の集計の仕方を示す。
まず、図7は、RAID管理テーブルの構成例を示す図である。RAID管理テーブル114aは、RAIDグループ、メンバディスク、ステータス、RAID制御担当CM、ディスクアクセス制御担当CMおよび集計担当CMの各項目を有する。
ディスク番号の項目には、HDDの識別番号が登録される。ディスク番号の項目に登録されるHDDは、自装置(CM110)からアクセス可能なHDDである。より具体的には、このようなHDDには、CM110がRAID制御担当になっているHDDと、CM110がディスクアクセス制御担当になっているHDDとが含まれる。
ディスク番号の項目には、HDDの識別番号が登録される。ディスク番号の項目に登録されるHDDは、自装置(CM110)がエラー点数の集計担当になっているHDDである。累積エラー点数の項目には、対応するHDDについてのエラー点数の累積値が登録される。切り離し閾値の項目には、対応するHDDが故障かを判定するために累積エラー点数と比較される閾値が登録される。切り離し閾値の項目には、あらかじめ決められた値が設定される。なお、例えば、HDDの仕様や製造時期などによってHDDごとに異なる切り離し閾値が設定されてもよい。
まず、図10は、RAIDグループの設定処理例を示すフローチャートである。図10に示す処理は、CM110,120,210,220,310,320のいずれにおいて実行されてもよい。ここでは例として、CM110で実行されるものとして説明する。また、以下の説明では、例としてホスト装置520での入力操作に応じて処理が実行されるものとするが、例えば、ホスト装置520とは別の、CM110,120,210,220,310,320の管理専用の管理端末での入力操作に応じて処理が実行されてもよい。
(条件1)PがTh1/Cより小さい場合・・・Th2=Th1/C
(条件2)PがTh1/C以上の場合・・・Th2=0
エラー処理部113は、算出した転送閾値Th2を、ステップS21でのエラー点数の送信元CMに送信する。送信された転送閾値Th2を受信したCMのエラー処理部は、当該CMのエラー管理テーブルに登録された該当HDDについての転送閾値を、受信した転送閾値Th2で更新する。
図12は、エラー検出時の処理例を示すフローチャートである。この図12の処理は、該当HDDについてのRAID制御担当およびディスクアクセス制御担当のどちらのCMでも共通に実行される。ここでは例として、CM110での処理について説明する。図12の処理は、例えば、一定時間間隔で実行される。
[ステップS34]エラー処理部113は、RAID管理テーブル114aにおける該当HDDのレコードの集計担当CMの項目に基づいて、CM110がエラー点数の集計担当CMであるかを判定する。集計担当CMである場合、ステップS35の処理が実行される。集計担当CMでない場合、ステップS36の処理が実行される。
[ステップS36]エラー処理部113は、エラー管理テーブル114bにおける該当HDDのレコードを参照し、参照先のレコードに登録されたエラー点数と転送閾値とを比較する。エラー点数が転送閾値より大きい場合、ステップS37の処理が実行される。エラー点数が転送閾値以下の場合、処理が終了される。
図13は、転送閾値の更新処理例を示すフローチャートである。この図13の処理は、該当HDDについてのRAID制御担当のCMにおいて実行される。ここでは例として、CM110での処理について説明する。図13の処理は、例えば、一定時間間隔で実行される。
11,21,31 記憶部
11a,11b,21a,31a エラー点数
12,22,32 制御部
41,42 記憶装置
Claims (5)
- 第1の記憶装置と、第2の記憶装置と、第1の制御装置と、第2の制御装置と、第3の制御装置とを有し、
前記第1の制御装置は、
第1のエラー点数と第2のエラー点数とを記憶する第1の記憶部と、
前記第1の記憶装置に対する前記第2の制御装置を通じたアクセス時におけるエラーの検出状況に基づいて前記第1のエラー点数を算出して前記第1の記憶部に記憶し、前記第2の記憶装置に対する前記第3の制御装置を通じたアクセス時におけるエラーの検出状況に基づいて前記第2のエラー点数を算出して前記第1の記憶部に記憶し、前記第1のエラー点数を所定の第1のタイミングで前記第2の制御装置に送信し、前記第2のエラー点数を所定の第2のタイミングで前記第3の制御装置に送信する第1の制御部と、
を有し、
前記第2の制御装置は、
第3のエラー点数を記憶する第2の記憶部と、
前記第1の記憶装置へのアクセス時におけるエラーの検出状況に基づいて前記第3のエラー点数を算出して前記第2の記憶部に記憶し、前記第1の制御装置から受信した前記第1のエラー点数と前記第3のエラー点数との合計値に基づいて、前記第1の記憶装置が故障したかを判定する第2の制御部と、
を有し、
前記第3の制御装置は、
第4のエラー点数を記憶する第3の記憶部と、
前記第2の記憶装置へのアクセス時におけるエラーの検出状況に基づいて前記第4のエラー点数を算出して前記第3の記憶部に記憶し、前記第1の制御装置から受信した前記第2のエラー点数と前記第4のエラー点数との合計値に基づいて、前記第2の記憶装置が故障したかを判定する第3の制御部と、
を有する、ストレージシステム。 - 前記第1の記憶装置と前記第2の記憶装置は、論理ボリュームの物理記憶領域として割り当てられ、
前記第1の制御部は、前記論理ボリュームに対するアクセス要求に応じて前記第1の記憶装置と前記第2の記憶装置とにアクセスする、
請求項1記載のストレージシステム。 - 前記第1の記憶部は、第1の転送閾値と第2の転送閾値をさらに記憶し、
前記第1の制御部は、前記第1のエラー点数が前記第1の転送閾値を超えた場合に、前記第1のエラー点数を前記第2の制御装置に送信し、前記第2のエラー点数が前記第2の転送閾値を超えた場合に、前記第2のエラー点数を前記第3の制御装置に送信する、
請求項1または2記載のストレージシステム。 - 第1のエラー点数と第2のエラー点数とを記憶する記憶部と、
第1の記憶装置に対する第1の他の制御装置を通じたアクセス時におけるエラーの検出状況に基づいて前記第1のエラー点数を算出して前記記憶部に記憶し、第2の記憶装置に対する第2の他の制御装置を通じたアクセス時におけるエラーの検出状況に基づいて前記第2のエラー点数を算出して前記記憶部に記憶し、前記第1の他の制御装置における前記第1の記憶装置のエラー点数算出用に、前記第1のエラー点数を所定の第1のタイミングで前記第1の他の制御装置に送信し、前記第2の他の制御装置における前記第2の記憶装置のエラー点数算出用に、前記第2のエラー点数を所定の第2のタイミングで前記第2の他の制御装置に送信する制御部と、
を有する制御装置。 - コンピュータに、
第1の制御装置を通じて第1の記憶装置にアクセスし、
前記第1の記憶装置へのアクセス時におけるエラーの検出状況に応じて、第1のエラー点数を算出して記憶部に記憶し、
第2の制御装置を通じて第2の記憶装置にアクセスし、
前記第2の記憶装置へのアクセス時におけるエラーの検出状況に応じて、第2のエラー点数を算出して前記記憶部に記憶し、
前記第1の制御装置における前記第1の記憶装置のエラー点数算出用に、前記第1のエラー点数を所定の第1のタイミングで前記第1の制御装置に送信し、
前記第2の制御装置における前記第2の記憶装置のエラー点数算出用に、前記第2のエラー点数を所定の第2のタイミングで前記第2の制御装置に送信する、
処理を実行させる制御プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015093349A JP6481490B2 (ja) | 2015-04-30 | 2015-04-30 | ストレージシステム、制御装置および制御プログラム |
US15/080,748 US10409663B2 (en) | 2015-04-30 | 2016-03-25 | Storage system and control apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015093349A JP6481490B2 (ja) | 2015-04-30 | 2015-04-30 | ストレージシステム、制御装置および制御プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016212513A JP2016212513A (ja) | 2016-12-15 |
JP6481490B2 true JP6481490B2 (ja) | 2019-03-13 |
Family
ID=57204955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015093349A Expired - Fee Related JP6481490B2 (ja) | 2015-04-30 | 2015-04-30 | ストレージシステム、制御装置および制御プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10409663B2 (ja) |
JP (1) | JP6481490B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391351A (zh) * | 2017-07-04 | 2017-11-24 | 云南电网有限责任公司临沧供电局 | 一种计算机设备健康状态评估方法 |
CN111782141A (zh) * | 2020-06-19 | 2020-10-16 | 新华三技术有限公司成都分公司 | 一种数据巡检方法及装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS643746A (en) * | 1987-06-25 | 1989-01-09 | Fujitsu Ltd | Remote maintenance back-up system |
JPH0651915A (ja) | 1992-08-03 | 1994-02-25 | Hitachi Ltd | ディスク装置およびディスクアレイ管理方式 |
US6098179A (en) * | 1998-01-22 | 2000-08-01 | Digital Equipment Corporation | Method and apparatus for performing error detection |
JP3778171B2 (ja) | 2003-02-20 | 2006-05-24 | 日本電気株式会社 | ディスクアレイ装置 |
US7200770B2 (en) * | 2003-12-31 | 2007-04-03 | Hewlett-Packard Development Company, L.P. | Restoring access to a failed data storage device in a redundant memory system |
JP4786312B2 (ja) | 2005-11-22 | 2011-10-05 | 株式会社日立製作所 | 記憶制御装置及び記憶制御装置のエラー情報管理方法 |
JP2007249441A (ja) * | 2006-03-15 | 2007-09-27 | Hitachi Ltd | 仮想化システム及び障害対処方法 |
US8255639B2 (en) * | 2008-05-06 | 2012-08-28 | International Business Machines Corporation | Partition transparent correctable error handling in a logically partitioned computer system |
JP5958020B2 (ja) * | 2012-03-30 | 2016-07-27 | 富士通株式会社 | ストレージシステム |
JP6191346B2 (ja) * | 2013-09-09 | 2017-09-06 | 富士通株式会社 | ストレージ制御装置、ディスクアレイ装置の制御方法及びディスクアレイ装置の制御プログラム |
US20160283303A1 (en) * | 2015-03-27 | 2016-09-29 | Intel Corporation | Reliability, availability, and serviceability in multi-node systems with disaggregated memory |
JP2016212512A (ja) * | 2015-04-30 | 2016-12-15 | 富士通株式会社 | ストレージシステム、制御装置および制御プログラム |
-
2015
- 2015-04-30 JP JP2015093349A patent/JP6481490B2/ja not_active Expired - Fee Related
-
2016
- 2016-03-25 US US15/080,748 patent/US10409663B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US10409663B2 (en) | 2019-09-10 |
JP2016212513A (ja) | 2016-12-15 |
US20160321123A1 (en) | 2016-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7908445B2 (en) | Redundant controller dynamic logical media unit reassignment | |
US9047219B2 (en) | Storage system, storage control device, and storage control method | |
US8898385B2 (en) | Methods and structure for load balancing of background tasks between storage controllers in a clustered storage environment | |
US9395938B2 (en) | Storage control device and method for controlling storage devices | |
US8738975B2 (en) | Runtime dynamic performance skew elimination | |
US8677181B2 (en) | Storage apparatus and method of detecting power failure in storage apparatus | |
US8037368B2 (en) | Controller capable of self-monitoring, redundant storage system having the same, and method thereof | |
US8738854B2 (en) | Storage apparatus and control method of storage apparatus | |
US8495295B2 (en) | Mass storage system and method of operating thereof | |
JPWO2008136075A1 (ja) | ストレージ管理プログラム、ストレージ管理装置およびストレージ管理方法 | |
US10942835B2 (en) | Processing a health condition message on a health condition to determine whether to perform a swap operation | |
US8578073B2 (en) | Storage system and control method of storage system | |
US10229013B2 (en) | Generating a health condition message on a health condition detected at a server to send to a host system accessing the server | |
JP2017091456A (ja) | 制御装置、制御プログラムおよび制御方法 | |
US7886186B2 (en) | Storage system and management method for the same | |
US9760296B2 (en) | Storage device and method for controlling storage device | |
JP6481490B2 (ja) | ストレージシステム、制御装置および制御プログラム | |
US10642705B2 (en) | Storage system and storage method | |
JP2016212512A (ja) | ストレージシステム、制御装置および制御プログラム | |
JP5535343B1 (ja) | ディスクアレイ制御装置およびサーバ | |
JP2020038475A (ja) | ストレージ制御装置およびストレージ制御プログラム | |
JP4087387B2 (ja) | 記憶制御装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6481490 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |