JP4871729B2 - ストレージシェルフ内で発生するエラー及びイベントをハンドリングする方法 - Google Patents
ストレージシェルフ内で発生するエラー及びイベントをハンドリングする方法 Download PDFInfo
- Publication number
- JP4871729B2 JP4871729B2 JP2006533820A JP2006533820A JP4871729B2 JP 4871729 B2 JP4871729 B2 JP 4871729B2 JP 2006533820 A JP2006533820 A JP 2006533820A JP 2006533820 A JP2006533820 A JP 2006533820A JP 4871729 B2 JP4871729 B2 JP 4871729B2
- Authority
- JP
- Japan
- Prior art keywords
- storage shelf
- card
- shelf router
- error
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0727—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0781—Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2089—Redundant storage control functionality
- G06F11/2092—Techniques of failing over between control units
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
Description
本願は、2003年1月23日に出願された米国出願第10/341835号の一部継続出願である2003年6月23日に出願された米国出願第10/602529号の一部継続出願である2004年4月8日に出願された米国出願第10/822228号の一部継続出願である。
本願は、米国出願第10/341835号の一部継続出願であり、参照によって全体がここに組み込まれた米国出願第10/602529号、“Integrated-Circuit Implementation Of a Storage-Shelf Router And a Path Controller Card For Combined Use In High-Availability Mass-Storage-Device Shelves That May Be Incorporated Within Disk-Arrays”の一部継続出願である2004年4月8日に出願された米国出願第10/822228号の一部継続出願である。米国出願第10/341835号の一部継続出願である米国出願第10/602529号(以下「親出願」という)は、本発明の開示された実施形態が実施されるストレージシェルフ・ルータ、パス・コントローラ・カード、及び、高可用性ストレージシェルフに関係する広範囲に亘る背景情報を含む。親出願は、さらに、ファイバ・チャネル(Fibre Channel:FC)、スモール・コンピュータ・システム・インターフェイス(small computer system interface:SCSI)、アドバンスト・テクノロジ・アタッチメント(Advanced Technology Attachment:ATA)ディスクドライブ、及び、シリアルATA(Serial ATA:SATA)ディスクドライブに関係する広範囲に亘る背景情報を含む。
付録A
以下に示すテストフレームは、本発明の実施形態におけるFCループバック・テストに用いられる。SR−1216は、以下のテストを実行する。
CRPAT
CRPATは、有効FCフレームにおける、規格に準拠したランダム・データ・パターン(Compliant Random data Pattern)である。ランダムなテストパターンの意義は、コンポーネントおよびシステムのレベルテストに用いることができる広範囲のスペクトル成分および最小のピーク値をもつデータパターンを提供することである。スペクトル成分パターンは、TXジッタテストの間の任意のピークがコンポーネントのせいであり、データのスペクトル成分のせいではないことを保証するために用いられる。表1は、CRPATのテスト・ビット・シーケンスを示す。
CJTPATは、有効FCフレームにおける、規格に準拠したジッタ許容差パターン(Compliant Jitter Tolerance Pattern)である。レシーバのジッタ許容差テストのため、パターンは、レシーバのクロック・データ・リカバリ(Clock Data Recovery:CDR)メカニズムを瞬間的な位相のジャンプにさらさなければならない。そうするために、全体パターンは、低伝送密度パターンを高伝送密度パターンと繰り返し交互にする。10bキャラクタの繰り返し時間は、レシーバクロックリカバリ回路の時間定数より長い。この継続時間は、クロック位相がシステマティックパターンジッタに追従しており、データ変換回路がすシステマティック位相のジャンプにさらされることを保証する。これは、時間マージンを強調する。表2は、CJTPATのテスト・ビット・シーケンスを示す。
以下に示すテストフレームは、本発明の実施形態におけるSATAループバック・テストに用いられる。
テスト・ビット・パターンおよびシーケンス特性
テスト・ビット・シーケンスは、通信リンク性能と同様にシリアルATAインタフェースのジッタ・コンプライアンス(jitter compliance)をテストするために、シリアルリンク上で伝送されるビット・シーケンスである。
低伝送密度ビットパターンシーケンス
低伝送密度ビットパターンは、1および0の長ランを含むパターンである。これらのパターンは、符号間干渉のせいで高周波数ジッタを生成する。このことは、複合パターンの一部が以降のセクションで説明される際に再び強調される。表3は、低伝送密度パターン(SATA)を示す。
高伝送密度パターンは、1および0の短ランを含むパターンである。このパターンも、符号間干渉のせいで高周波数ジッタを生成する。このことは、複合パターンの一部が以降のセクションで説明される際に再び強調される。高伝送密度パターンは、a)ハーフレート(half rate)高伝送密度ビットパターンシーケンスおよびb)クォーターレート(quarter rate)高伝送密度ビットパターンシーケンスという2つのサブクラスを含む。高伝送密度ビットパターンの2つのサブクラスを混合したものが、高伝送密度テストパターンを表すのに用いられる。表4は、ハーフレート/クォーターレート高伝送密度ビットパターン(SATA)を示す。
低周波数スペクトルコンポーネントを含むビットパターンは、限界値の設計のせいで信号ひずみを生じさせる限り、入力ハイパスフィルタ回路のテストに適している。表5は、低周波数スペクトル成分パターン(SATA)を示す。
同時切替出力ビットパターンシーケンスは、Ldi/dtノイズを基板部位に誘導し、レシーバ回路のテストに適している。このパターンは、レシーバでのリカバリ用の1の相補的なビットパターン(10ビット)を交互に伝送することによって達成される。表6は、同時切替出力パターン(SATA)を示す。
ジッタの計測のために、低周波数、低伝送密度、および高伝送密度のパターンが合成されるべきである。低周波数スペクトル成分クラス以外のこれら全ての混合は、ジッタおよび性能計測のために、比較的短いテスト時間間隔で実施することができる。
Claims (16)
- シングルポートの複数の記憶デバイスを収容するストレージシェルフにおいて発生するエラー及びイベントをハンドリングする方法であって、該記憶デバイスは、ストレージシェルフ・ルータ・カード上に実装される集積回路であるストレージシェルフ・ルータに、パス・コントローラ・カードを介して相互接続されており、
前記ストレージシェルフ・ルータがエラー又はイベントを検出するステップと、
前記ストレージシェルフ・ルータが前記エラー又はイベントを診断するステップと、
ストレージシェルフ・ルータ・カードの交換によって救済されるべきエラー又はイベントについては、前記ストレージシェルフ・ルータが、交換されるべき前記ストレージシェルフ・ルータ・カード上の1つ以上のストレージシェルフ・ルータによって主として管理されていたパス・コントローラ・カードを、残存するストレージシェルフ・ルータ・カード上の1つ以上の別のストレージシェルフ・ルータへフェイルオーバするステップと、
前記シングルポートの複数の記憶デバイスまたはパス・コントローラ・カード内のエラー又はイベント、並びに、前記ストレージシェルフの外部にある外部装置によって管理されるべきエラー及びイベントについては、前記外部装置によるハンドリングのため、前記ストレージシェルフ・ルータが当該エラー又はイベントを報告し記録するステップと、
を含む方法。 - 前記検出されたエラーが、前記ストレージシェルフと前記外部管理用エレメントを接続する外部FCリンク(650)故障(EFCLF)であり、前記外部FC(650)のリンクダウン・イベント及び巡回冗長検査エラーの発生を含むイベントによって検出され、ストレージシェルフ・ルータ・カード上の内部FCミニハブの分離の後に続くループバック・テストによって診断され、ストレージ・ルータ・カードの自動的な又は命令されたフェイルオーバによって救済される、請求項1記載の方法。
- 前記検出されたエラーが、前記ストレージシェルフ・ルータ・カード内の前記ストレージシェルフ・ルータを接続する内部リンク(652)故障(ILF)であり、前記内部リンク(652)のリンクダウン・イベント及び巡回冗長検査エラーの発生を含むイベントによって検出され、ストレージシェルフ・ルータ・カード上の内部FCミニハブの分離の後に続くループバック・テストによって診断され、ストレージシェルフ・ルータ・カードの自動的な又は命令されたフェイルオーバによって救済される、請求項1記載の方法。
- 前記検出されたエラーが、前記ストレージシェルフ・ルータ・カード間ポート故障(ICPF)であり、該ストレージシェルフ・ルータ・カードのハートビートの損失によって検出され、代替的なパス・コントローラ・カード内のメールボックスに基づくストレージシェルフ・ルータ・カード間の通信とパッドテストとによって診断され、ストレージ・ルータ・カードのフェイルオーバによって救済される、請求項1記載の方法。
- 前記検出されたエラーが、前記ストレージシェルフ・ルータ・カード間のリンク(656)故障(ICLF)であり、該ストレージシェルフ・ルータ・カードのハートビートの損失によって検出され、代替的なパス・コントローラ・カード内のメールボックスに基づくストレージシェルフ・ルータ・カード間の通信とパッドテストとによって診断され、ストレージシェルフ・ルータ・カードのフェイルオーバによって救済される、請求項1記載の方法。
- 前記検出されたエラーが、前記ストレージシェルフ・ルータ・カードのSATAポート(658)故障(SPF)であり、前記SATAポート(658)のリンクダウン・イベント及び巡回冗長検査エラーの発生を含むイベントによって検出され、パッドテスト及びループバック・テストによって診断され、前記エラーが検出されたストレージシェルフ・ルータ・カードのフェイルオーバによって救済される、請求項1記載の方法。
- 前記検出されたエラーが、前記ストレージシェルフ・ルータ・カードの管理ポート(660)故障(MPF)であり、前記ストレージシェルフ・ルータを用いてパス・コントローラ・マイクロプロセッサのレジスタに周期的にアクセスすることによって検出され、内部ストレージ・ルータのループバックによって診断され、前記外部装置への前記エラーが報告される、請求項1記載の方法。
- 前記検出されたエラーが、前記ストレージシェルフ・ルータのファームウェア又はハードウェアの予期できない故障である制御されない致命的故障(UCF)であり、前記ストレージシェルフ・ルータ・カードのハートビートの損失によって検出され、ストレージシェルフ・ルータ・カードのフェイルオーバによって救済される、請求項1記載の方法。
- 前記検出されたエラーが、前記ストレージシェルフ・ルータのファームウェア内のパニック、アサート又はトラップのような故障である制御された致命的故障(CCF)であり、前記ストレージシェルフ・ルータ・カードのハートビートの損失によって検出され、ストレージシェルフ・ルータ・カードのフェイルオーバによって救済される、請求項1記載の方法。
- 前記検出されたエラーが、前記ストレージシェルフからの前記ストレージシェルフ・ルータ・カードの取り外し(PFR)であり、前記ストレージシェルフ・ルータ・カードの存在を示す信号のデアサートによって検出され、リンクテストによって診断され、ストレージシェルフ・ルータ・カードのフェイルオーバによって救済される、請求項1記載の方法。
- 前記検出されたエラーが、新たにストレージシェルフ・ルータ・カードを前記ストレージシェルフへ挿入する挿入フェイルバック(FBE)であり、前記ストレージシェルフ・ルータ・カードの存在を示す信号のアサートによって検出され、前記ストレージシェルフ・ルータ・カードの挿入が成功しているならば、前記新たに挿入されたストレージシェルフ・ルータ・カードへのフェイルバックによって救済される、請求項1記載の方法。
- 前記検出されたエラーが、前記シングルポートの記憶デバイスと前記ストレージシェルフ・ルータを接続するSATA管理リンク(668)故障(MLF)であり、前記ストレージシェルフ・ルータを用いてパス・コントローラ・マイクロプロセッサのレジスタに周期的にアクセスすることによって検出され、内部ストレージ・ルータ・ループバックによって診断され、前記外部装置へ前記エラーが報告される、請求項1記載の方法。
- 前記検出されたエラーが、前記シングルポートの記憶デバイス(670)故障(SDF)であり、前記シングルポートの記憶デバイスへ命令されたコマンドの失敗によって検出され、前記外部装置へ前記SDFが報告される、請求項1記載の方法。
- 前記検出されたエラーが、前記シングルポートの記憶デバイスおよび前記ストレージシェルフ・ルータ・カードを含むディスクドライブ・キャニスタ(672)の取り外し(FRE)であり、前記ディスクドライブ・キャニスタ(672)の存在を示す信号のデアサートによって検出され、前記外部装置へ前記FREが報告される、請求項1記載の方法。
- 前記検出されたエラーが、前記シングルポートの記憶デバイスおよび前記ストレージシェルフ・ルータ・カードを含むディスクドライブ・キャニスタ(672)の挿入(FIE)であり、前記ディスクドライブ・キャニスタ(672)の存在を示す信号のアサートによって検出され、前記挿入された前記シングルポートの記憶デバイスが初期化され、前記外部装置へ前記FIEが報告される、請求項1記載の方法。
- 単一のパス・コントローラ・カードをフェイルオーバすることによって救済されるエラー又はイベントについては、第1のストレージシェルフ・ルータ・カード上の第1のストレージシェルフ・ルータから第2のストレージシェルフ・ルータ・カード上の第2のストレージシェルフ・ルータへ前記パス・コントローラ・カードをフェイルオーバするステップをさらに含む、請求項1記載の方法。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/602,529 US7353321B2 (en) | 2003-01-13 | 2003-06-23 | Integrated-circuit implementation of a storage-shelf router and a path controller card for combined use in high-availability mass-storage-device shelves that may be incorporated within disk arrays |
US10/602,529 | 2003-06-23 | ||
US82222804A | 2004-04-08 | 2004-04-08 | |
US10/822,228 | 2004-04-08 | ||
US10/830,419 US7320084B2 (en) | 2003-01-13 | 2004-04-22 | Management of error conditions in high-availability mass-storage-device shelves by storage-shelf routers |
US10/830,419 | 2004-04-22 | ||
PCT/US2004/020395 WO2006022610A1 (en) | 2003-06-23 | 2004-06-23 | Management of error conditions in high-availability mass-storage-device shelves by storage-shelf routers |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007501986A JP2007501986A (ja) | 2007-02-01 |
JP4871729B2 true JP4871729B2 (ja) | 2012-02-08 |
Family
ID=45782015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006533820A Expired - Fee Related JP4871729B2 (ja) | 2003-06-23 | 2004-06-23 | ストレージシェルフ内で発生するエラー及びイベントをハンドリングする方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4871729B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5485500B2 (ja) * | 2007-04-20 | 2014-05-07 | テクトロニクス・インコーポレイテッド | デジタル信号分析装置及び方法 |
JP6773974B2 (ja) * | 2016-10-06 | 2020-10-21 | 富士通株式会社 | ストレージ制御装置およびストレージ装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5140592A (en) * | 1990-03-02 | 1992-08-18 | Sf2 Corporation | Disk array system |
JP4457184B2 (ja) * | 2001-02-13 | 2010-04-28 | ネットアップ,インコーポレイテッド | ストレージシステムにおけるフェイルオーバー処理 |
-
2004
- 2004-06-23 JP JP2006533820A patent/JP4871729B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007501986A (ja) | 2007-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7320084B2 (en) | Management of error conditions in high-availability mass-storage-device shelves by storage-shelf routers | |
US7281167B2 (en) | Multi-purpose network diagnostic modules | |
US6961767B2 (en) | Fibre channel diagnostics in a storage enclosure | |
US7571356B2 (en) | Storage control device, and error information management method for storage control device | |
JP3752150B2 (ja) | ストレージ・エリア・ネットワーク(san)内でのエラー処理方法及びデータ処理システム | |
US6192027B1 (en) | Apparatus, system, and method for dual-active fibre channel loop resiliency during controller failure | |
US7673185B2 (en) | Adaptive SAS PHY configuration | |
US7848232B2 (en) | Time division multiplexed communication bus and related methods | |
US8510606B2 (en) | Method and apparatus for SAS speed adjustment | |
US20070233821A1 (en) | Managing system availability | |
CA2419000A1 (en) | Method and apparatus for imparting fault tolerance in a switch or the like | |
US7912995B1 (en) | Managing SAS topology | |
IES20010395A2 (en) | Crosspoint switch for a fibre channel arbitrated loop | |
GB2376612A (en) | Fault location in a loop network | |
JP2006072717A (ja) | ディスクサブシステム | |
JP4045282B2 (ja) | 高可用性クラスタノードの除去および通信 | |
US7757123B1 (en) | Managing faults | |
US7861123B1 (en) | Managing loop interface failure | |
JP4871729B2 (ja) | ストレージシェルフ内で発生するエラー及びイベントをハンドリングする方法 | |
US20040168008A1 (en) | High speed multiple ported bus interface port state identification system | |
US7388843B2 (en) | Method and apparatus for testing loop pathway integrity in a fibre channel arbitrated loop | |
US6865689B1 (en) | Method and apparatus for fault isolation on network loops using low level error counters | |
US20030101020A1 (en) | Devices connected to fiber channels and margin test method for the devices, and method for specifying problems in system having devices connected to fiber channels | |
US20040153685A1 (en) | Detecting intermittent losses of synchronization in a fibre channel loop | |
US7765343B2 (en) | Method and system for robust elastic FIFO (EFIFO) in a port bypass controller |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090120 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090330 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091027 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100226 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20100304 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20101228 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20110204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110928 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4871729 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141125 Year of fee payment: 3 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |