JP5296878B2 - 1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための方法、装置、およびプログラム(交換ユニットのテストを管理するために交換可能ユニットを含むコンピュータ化ストレージ・システム) - Google Patents

1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための方法、装置、およびプログラム(交換ユニットのテストを管理するために交換可能ユニットを含むコンピュータ化ストレージ・システム) Download PDF

Info

Publication number
JP5296878B2
JP5296878B2 JP2011529553A JP2011529553A JP5296878B2 JP 5296878 B2 JP5296878 B2 JP 5296878B2 JP 2011529553 A JP2011529553 A JP 2011529553A JP 2011529553 A JP2011529553 A JP 2011529553A JP 5296878 B2 JP5296878 B2 JP 5296878B2
Authority
JP
Japan
Prior art keywords
test
storage system
unit
replacement
units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011529553A
Other languages
English (en)
Other versions
JP2012504808A (ja
Inventor
カシュマン、ポール、ニコラス
セトル、ジョナサン、イアン
マッカーシー、ティモシー、フィンバル
ムーア、ロデリック、ガイ
ショート、ジョナサン、ウィリアム、ルイス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2012504808A publication Critical patent/JP2012504808A/ja
Application granted granted Critical
Publication of JP5296878B2 publication Critical patent/JP5296878B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/27Built-in tests

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Hardware Redundancy (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、1つまたは複数の交換ユニット(replacement unit)のテストを管理するために1つまたは複数の交換可能ユニット(replaceable unit)を含むコンピュータ化ストレージ・システムで使用するための方法、装置、またはソフトウェアに関する。
コンピュータ・システムは一般に、相互接続された1組の別個のコンポーネントから構築される。ユニットは、障害のある状態になると、正しく機能するユニットと交換する必要がある。高可用性のストレージ・システムなどの何らかのコンピュータ・システムは、重要なユニットが二重になっている組み込み冗長性を備えている。重要なユニットは、ディスク・アレイ、インターフェース・カード、および接続ケーブルなどのユニットにすることができ、そのいずれも障害のある状態になり、交換を必要とする可能性がある。このようなシステムでは、障害のあるユニットを交換している間、重複ユニットによって提供される冗長性を使用して、連続サービスを提供することができる。たとえば、接続ケーブルを交換する必要があることを示唆する障害またはエラーが検出された場合、交換が実行されている間、ユーザ入出力(I/O)は重複ユニットに方向転換される。交換ユニットは、所定の位置に置かれると、ユーザ入出力による使用のために使用可能になる。しかし、障害またはエラーが誤診された場合、交換ユニットが障害のある状態である場合、または2つ以上のユニットが障害の一因となっている場合、障害またはエラーは再発する可能性がある。加えて、検出された障害またはエラーが交換されたユニットによって矯正されない場合、ユーザ入出力が混乱する可能性がある。
したがって、本発明は、第1の態様では、1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための方法を提供し、前記方法は、a)交換のためにストレージ・システム内の交換可能ユニットを識別し、前記ストレージ・システムをサービス・モードに切り替えるステップと、b)前記交換可能ユニットと交換ユニットとの交換に応答して、前記ストレージ・システムを自動的にテスト・モードに切り替えるステップと、c)前記交換ユニットの機能を検証するために、所定のテスト・ポリシーに応じて前記交換ユニットをテストするステップと、d)前記選択されたエレメントの前記テストが成功した場合に、前記ストレージ・システムをオンライン・モードに戻すステップとを含む。
好ましくは、前記ストレージ・システムからの1つまたは複数の追加のユニットは、前記テストのために前記交換ユニットと組み合わせて使用するために選択される。好ましくは、前記追加のユニットは、前記交換ユニットの全動作容量(full operational capacity)をテストするために適切な入出力(I/O)経路を提供するために前記交換ユニットと組み合わせて使用するために選択される。
好ましくは、前記追加のユニットは、前記テスト時に使用するために自動的に識別され選択される。
好ましくは、いかなる障害も前記テスト時に検出されない場合、前記ストレージ・システムは自動的に前記オンライン・モードに戻される。好ましくは、所定のレベルの障害が前記テスト中に検出された場合、前記ストレージ・システムは自動的に前記サービス・モードに戻される。
好ましくは、前記テスト・ポリシーは、前記交換ユニットにテスト・データを排他的に送信することを含む。好ましくは、前記テスト・ポリシーは、前記交換ユニットにテスト・データを送信することを含み、前記テスト・データのレベルは、前記交換ユニットに所定のレベルの入出力を提供するために前記交換ユニットへのユーザ・データのレベルを補完するように構成される。
好ましくは、前記テストが1つまたは複数のデータ・ストレージ・ユニットにデータを書き込むことを含むときに、前記データは前記ストレージ・ユニットの予約領域に書き込まれる。好ましくは、前記ストレージ・システムは、冗長性を提供するために複数の重複ストレージ・システムを含む。好ましくは、所与のストレージ・システム内の前記交換ユニットがテスト・モードであるときに、すべてのユーザ入出力は前記重複ストレージ・システムに方向転換される。好ましくは、前記ストレージ・システムは、1つまたは複数のファイバ・チャネル・アービトレーテッド・ループ(FCAL:Fibre Channel Arbitrated Loop)を含む。
第2の態様では、1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための装置が提供され、前記装置は、交換のためにストレージ・システム内の交換可能ユニットを識別し、前記ストレージ・システムをサービス・モードに切り替え、前記交換可能ユニットと交換ユニットとの交換に応答して、前記ストレージ・システムを自動的にテスト・モードに切り替え、前記交換ユニットの機能を検証するために、所定のテスト・ポリシーに応じて前記交換ユニットをテストし、前記選択されたエレメントの前記テストが成功した場合に、前記ストレージ・システムをオンライン・モードに戻すように動作可能である。
好ましくは、前記ストレージ・システムからの1つまたは複数の追加のユニットは、前記テストのために前記交換ユニットと組み合わせて使用するために選択される。好ましくは、前記追加のユニットは、前記交換ユニットの全動作容量をテストするために適切な入出力(I/O)経路を提供するために前記交換ユニットと組み合わせて使用するために選択される。好ましくは、前記追加のユニットは、前記テスト時に使用するために自動的に識別され選択される。
好ましくは、いかなる障害も前記テスト時に検出されない場合、前記ストレージ・システムは自動的に前記オンライン・モードに戻される。好ましくは、所定のレベルの障害が前記テスト中に検出された場合、前記ストレージ・システムは自動的に前記サービス・モードに戻される。
好ましくは、前記テスト・ポリシーは、前記交換ユニットにテスト・データを排他的に送信することを含む。好ましくは、前記テスト・ポリシーは、前記交換ユニットにテスト・データを送信することを含み、前記テスト・データのレベルは、前記交換ユニットに所定のレベルの入出力を提供するために前記交換ユニットへのユーザ・データのレベルを補完するように構成される。好ましくは、前記テストが1つまたは複数のデータ・ストレージ・ユニットにデータを書き込むことを含むときに、前記データは前記ストレージ・ユニットの予約領域に書き込まれる。好ましくは、前記ストレージ・システムは、冗長性を提供するために複数の重複ストレージ・システムを含む。好ましくは、所与のストレージ・システム内の前記交換ユニットがテスト・モードであるときに、すべてのユーザ入出力は前記重複ストレージ・システムに方向転換される。好ましくは、前記ストレージ・システムは、1つまたは複数のファイバ・チャネル・アービトレーテッド・ループ(FCAL)を含む。
第3の態様では、1つまたは複数のプログラマブル・デバイスからなるグループが第1の態様の方法を実行できるようにするかまたは第2の態様の装置を提供できるようにするように構成された1つまたは複数のプログラムからなるグループが提供される。
第4の態様では、コンピュータ・システムにロードされ、そこで実行されたときに、第1の態様による方法のすべてのステップを前記コンピュータ・システムに実行させるコンピュータ・プログラム・コードを含むコンピュータ・プログラムが提供される。
このコンピュータ・プログラムは、前記プログラムがコンピュータ上で実行されたときに第1の態様の方法を実行するためのソフトウェア・コード部分を含み、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラム(computer program product)の形で提供することができる。
本発明の一実施形態は、1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための方法を提供し、この方法は、
a)交換のためにストレージ・システム内の交換可能ユニットを識別し、ストレージ・システムをサービス・モードに切り替えるステップと、
b)交換可能ユニットと交換ユニットとの交換に応答して、ストレージ・システムを自動的にテスト・モードに切り替えるステップと、
c)交換ユニットの機能を検証するために、所定のテスト・ポリシーに応じて交換ユニットをテストするステップと、
d)選択されたエレメントのテストが成功した場合に、ストレージ・システムをオンライン・モードに戻すステップと、
を含む。
ストレージ・システムからの1つまたは複数の追加のユニットは、テストのために交換ユニットと組み合わせて使用するために選択することができる。追加のユニットは、交換ユニットの全動作容量をテストするために適切な入出力(I/O)経路を提供するために交換ユニットと組み合わせて使用するために選択することができる。追加のユニットは、テスト時に使用するために自動的に識別し選択することができる。いかなる障害もテスト時に検出されない場合、ストレージ・システムは自動的にオンライン・モードに戻すことができる。所定のレベルの障害がテスト中に検出された場合、ストレージ・システムは自動的にサービス・モードに戻すことができる。
テスト・ポリシーは、交換ユニットにテスト・データを排他的に送信することを含むことができる。テスト・ポリシーは、交換ユニットにテスト・データを送信することを含むことができ、テスト・データのレベルは、交換ユニットに所定のレベルの入出力を提供するために交換ユニットへのユーザ・データのレベルを補完するように構成される。テストが1つまたは複数のデータ・ストレージ・ユニットにデータを書き込むことを含むときに、データはストレージ・ユニットの予約領域に書き込むことができる。
ストレージ・システムは、冗長性を提供するために複数の重複ストレージ・システムを含むことができる。所与のストレージ・システム内の交換ユニットがテスト・モードであるときに、すべてのユーザ入出力は重複ストレージ・システムに方向転換することができる。ストレージ・システムは、1つまたは複数のファイバ・チャネル・アービトレーテッド・ループ(FCAL)を含むことができる。
他の実施形態は、1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための装置を提供し、この装置は、
交換のためにストレージ・システム内の交換可能ユニットを識別し、ストレージ・システムをサービス・モードに切り替え、
交換可能ユニットと交換ユニットとの交換に応答して、ストレージ・システムを自動的にテスト・モードに切り替え、
交換ユニットの機能を検証するために、所定のテスト・ポリシーに応じて交換ユニットをテストし、
選択されたエレメントのテストが成功した場合に、ストレージ・システムをオンライン・モードに戻す
ように動作可能である。
他の一実施形態は、1つまたは複数のプログラマブル・デバイスからなるグループが、1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための方法を実行できるようにするように構成された1つまたは複数のプログラムからなるグループを提供し、この方法は、
a)交換のためにストレージ・システム内の交換可能ユニットを識別し、ストレージ・システムをサービス・モードに切り替えるステップと、
b)交換可能ユニットと交換ユニットとの交換に応答して、ストレージ・システムを自動的にテスト・モードに切り替えるステップと、
c)交換ユニットの機能を検証するために、所定のテスト・ポリシーに応じて交換ユニットをテストするステップと、
d)選択されたエレメントのテストが成功した場合に、ストレージ・システムをオンライン・モードに戻すステップと、
を含む。
他の実施形態は、1つまたは複数のプログラマブル・デバイスからなるグループが、1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための装置を提供できるようにするように構成された1つまたは複数のプログラムからなるグループを提供し、この装置は、
交換のためにストレージ・システム内の交換可能ユニットを識別し、ストレージ・システムをサービス・モードに切り替え、
交換可能ユニットと交換ユニットとの交換に応答して、ストレージ・システムを自動的にテスト・モードに切り替え、
交換ユニットの機能を検証するために、所定のテスト・ポリシーに応じて交換ユニットをテストし、
選択されたエレメントのテストが成功した場合に、ストレージ・システムをオンライン・モードに戻す
ように動作可能である。
他の一実施形態は、プログラムがコンピュータ上で実行されたときに、1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための方法を実行するためのソフトウェア・コード部分を含み、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムを提供し、この方法は、
a)交換のためにストレージ・システム内の交換可能ユニットを識別し、ストレージ・システムをサービス・モードに切り替えるステップと、
b)交換可能ユニットと交換ユニットとの交換に応答して、ストレージ・システムを自動的にテスト・モードに切り替えるステップと、
c)交換ユニットの機能を検証するために、所定のテスト・ポリシーに応じて交換ユニットをテストするステップと、
d)選択されたエレメントのテストが成功した場合に、ストレージ・システムをオンライン・モードに戻すステップと、
を含む。
次に、添付図面に関連して、例としてのみ、本発明の諸実施形態について説明する。
コンピュータ化ストレージ・システムを含むコンピュータ・ネットワークの概略図である。 図1のコンピュータ化ストレージ・システムをより詳細に示す概略図である。 図2のコンピュータ化ストレージ・システム内のユニットの接続を示す表である。 図2のコンピュータ化ストレージ・システム用のテスト・ポリシーを示す表である。 図2のコンピュータ化ストレージ・システムによって実行される処理を示す流れ図である。 図2のコンピュータ化ストレージ・システムによって実行される他の処理を示す流れ図である。
図1に関連して説明すると、コンピュータ・システムは、ストレージ・サーバ・アプリケーション・プログラム103がロードされ、ストレージ・システム104に接続された第1のコンピュータ102を含む。第1のコンピュータ102は、ローカル・エリア・ネットワーク(LAN)106の形のネットワークを介して2つの第2のコンピュータ105に接続されている。第2のコンピュータ105にはそれぞれ、ストレージ・サーバ103を介してストレージ・システム104上にデータを保管し、そのデータにアクセスするように構成されたデータ処理アプリケーション・プログラム107がロードされている。換言すれば、データ処理アプリケーション・プログラム107は、ストレージ・サーバ103およびストレージ・システム104へのユーザ入出力(I/O)を提供する。
図2に関連して説明すると、ストレージ・サーバ・アプリケーション103は、より詳細に後述する通り、ユーザ・インターフェースを提供し、ユーザ入出力を処理するように構成されたストレージ・コントローラ201と、ストレージ・システム104の設置、サービス、およびテストを協力して管理するように構成された重複ストレージ・アダプタ202、203とを含む。ストレージ・システム104は、それぞれが4つのディスク207と2つのインターフェース・カード208、209とを含む、3つのディスク・アレイ204、205、206を含む。それぞれのインターフェース・カード208、209は、アダプタ202、203に接続するための接続ポートを提供する。それぞれのアダプタ202、203をそれぞれのディスク・アレイ204、205、206の両方のインターフェース・カード208、209に直列に接続するために、1組のリンク210、211が設けられている。図2には、リンク210、211など、何らかの重複項目の出現ごとのラベルは明瞭にするために省略されている。複数の重複アダプタ202、203、リンク210、211、ディスク207、およびインターフェース・カード208、209の設置により、ストレージ・システム104に複数の冗長性が提供されている。この実施形態では、各ユニット207、208、209、210、211は、事実上、2つの重複ストレージ・システムを提供することにより、冗長性を提供するために少なくとも1回重複されている。1つの重複ストレージ・システムがオフラインである場合、その重複ストレージ・システムは必要なサービスを提供するように構成されているので、ストレージ・コントローラ201は、重複ストレージ・システムを使用して高可用性を提供するように構成されている。
この実施形態では、複数のリンク210、211、ディスク207、およびインターフェース・カード208、209のそれぞれは、一般にフィールド交換可能ユニット(FRU:Field Replaceable Unit)と呼ばれ、個別に交換可能な別個のユニットとして設けられている。ストレージ・コントローラ201は、リンク210、211、ディスク207、およびインターフェース・カード208、209内の所定の範囲の障害およびエラーを検出するための機能性を含み、検出されると、エンジニアに警告する。障害のあるFRUを交換するために、関連重複ストレージ・システムはオンライン・モードからサービス・モードになり、可用性は冗長重複ストレージ・システムによって維持される。この実施形態では、所与の重複ストレージ・システムがサービス・モードであるときに、すべてのユーザ入出力は冗長重複ストレージ・システムに方向転換される。オンラインまたはサービス・モード切り替えは、両方が同時にサービス・モードにならず、その結果、可用性が維持されることを保証するために、それぞれのストレージ・アダプタ202、203の間で協力して実行される。
この実施形態では、ストレージ・アダプタ202、203は、サービス・モードとオンライン・モードとの中間モードであるテスト・モードの形の追加のモードによって構成されている。エンジニアがFRUを交換し、重複ストレージ・システムがオンライン・モードに戻れることを示すと、関連ストレージ・アダプタ202、203は、重複ストレージ・システムを自動的にテスト・モードにするように構成されている。テスト・モードでは、1組の1つまたは複数の所定のテストが交換FRU上で実行され、それが正しく機能していることと、検出された障害が交換によって修正されたことを保証する。この実施形態では、テストは、交換されたFRUのタイプに依存して選択される。この実施形態では、テスト・モードでは、所与の重複ストレージ・システム上でユーザ入出力が許可される。しかし、テスト・モード切り替えは、両方が同時にテスト・モードにならないことを保証するために、それぞれのストレージ・アダプタ202、203の間で協力して実行される。これは、両方のシステムが同時にサービス・モードにフェイルバックする(fail back)可能性を回避するように構成されている。
図3に関連して説明すると、テストは、ストレージ・システム104内の各タイプのFRUごとの適切なテストと、適用可能であれば、そのテストに関する持続時間を識別する、テスト・ポリシー301に定義されている。たとえば、交換されたFRUがリンクである場合、交換リンクは10分間、ストレス・テストが行われる。FRUがディスクである場合、完了するかまたは打ち切られるまでの不確定時間の間、実行される、ディスク検証テストが行われる。所与の重複ストレージ・システムがテスト・モードである間、そのシステムは新しい障害または障害の再発についてモニターされる。任意の障害が検出された場合、重複ストレージ・システムは自動的にサービス・モードに戻される。しかし、テストが完了し、いかなる障害も検出されない場合、重複ストレージ・システムは自動的にオンライン・モードに戻される。
上記の通り、図3に関連して説明すると、交換リンクについてストレス・テストが実行される。ストレス・テストは、リンクを介して適切なレベルのテスト入出力を供給し、テスト期間の間、そのパフォーマンスをモニターすることにより、交換されたリンクに関する最大データ転送速度をテストするように構成されている。しかし、リンクがディスクなど、そのすぐ下流のエレメントより大きい容量を有する場合、ストレス・テストを実行するための適切な帯域幅を提供するために、いくつかの下流のエレメントを選択する必要がある可能性がある。たとえば、交換されたリンクが2ギガビット/秒(Gb/s)という最大データ転送速度を有し、それぞれが50メガバイト/秒(MB/s)という最大データ転送速度を備えたディスクの上流に接続される場合、2Gb/sのテスト入出力の形のテスト・データを吸収するために、4つのディスクを使用することが必要になるであろう。
図4に関連して説明すると、それぞれのストレージ・アダプタ202、203は、ストレージ・システム104内の各FRUに関する固有のID(FRU ID)とともに所与のFRUのタイプならびにすぐ下流のユニットのFRU IDを記録する、FRU接続表の形の表302を維持するように構成されている。ストレージ・アダプタ202、203は、交換ユニットに関する適切なレベルのテスト入出力の提供を可能にするためにテスト入出力に適切なターゲットを提供する交換ユニットから下流のユニットを識別するためにFRU接続表302を使用するように構成されている。
次に、それぞれの重複ストレージ・システム上で障害を検出した結果としてサービス・モードになったことに応答してストレージ・アダプタ202、203によって実行される処理について、図5の流れ図に関連してさらに説明する。ステップ401では重複ストレージ・システムがサービス・モードになったことに応答して処理が開始され、処理はステップ402に移行して、障害のあるFRUの交換を待つ。インストール・エンジニアによって示された通り、障害のあるFRUが交換されると、処理は重複ストレージ・システムが自動的にテスト・モードに入るステップ403に移行し、さらに処理はステップ404に移行する。ステップ404では交換FRUのタイプが識別され、処理はステップ405に移行する。ステップ405では、識別されたFRUタイプを使用して、テスト・ポリシー301から適切なテストが識別され、処理はステップ406に移行する。ステップ406では識別されたテストが実行され、処理はステップ407に移行する。ステップ407では障害モニターが実行され、テストの持続時間の間、いかなる障害も検出されない場合、処理はステップ408に移行する。ステップ408では重複ストレージ・システムが自動的にオンライン・モードになり、処理はステップ409で終了する。ステップ407で所定の1組の1つまたは複数の障害が検出された場合、処理はステップ410に移行する。ステップ410ではそれぞれの障害がログに記録され、重複ストレージ・システムは自動的にサービス・モードに戻される。次に処理はステップ402に移行して追加のサービス・アクションを待ち、上述のように続行する。
次に、ストレス・テストを開始したことに応答してストレージ・アダプタ202、203によって実行される処理について、図6の流れ図に関連してさらに説明する。ステップ501では図5の流れ図のステップ405でストレス・テストを識別したことに応答して処理が開始され、処理はステップ502に移行する。ステップ502では交換FRUに関する最大動作データ転送速度がFRU接続表302から識別され、処理はステップ503に移行する。ステップ503では、交換FRUの最大動作データ転送速度で入出力を処理または吸収できるテスト・グループを形成するために、もう一度FRU接続表302を使用して、重複ストレージ・システムからの1組の接続ユニットが選択される。次に、処理は、ユーザ入出力の現行レベルが決定されるステップ504に移行する。上記の通り、この実施形態では、ユーザ入出力はテスト・モードの重複ストレージ・システム上で許可される。ユーザ入出力のレベルが決定されると、処理はステップ505に移行する。ステップ505では、必要な量の付加テスト入出力(top-up test I/O)、すなわち、交換FRUに関する最大動作データ転送速度に測定されたユーザ入出力を付加するために必要なテスト入出力が計算され、処理はステップ506に移行する。ステップ506では、付加テスト入出力が生成され、ストレス・テストに関する定義済み期間の間、ステップ503で選択されたテスト・グループのユニットに経路指定される。定義済み期間の間、テスト入出力が提供されると、処理はステップ507に移行して終了する。
この実施形態では、付加テスト入出力は、その目的のために予約された関連ディスク・ドライブの領域に送信される。換言すれば、任意のユーザ入出力がテスト入出力で上書きされるかまたは破損するのを回避するために、ユーザ入出力は特にテスト入出力ターゲット・ディスク・ドライブの予約領域から除外される。
重複ストレージ・システムがテスト・モードになると、ユーザ入出力の少なくとも一部は、冗長重複ストレージ・システムの使用から調査中の重複ストレージ・システムにフェイルバックするように構成される。ループまたは脱落フレーム(dropped frame)の予期せぬ認識など、任意のエラーが識別された場合、この結果として、テスト・モードの即時失敗およびサービス・モードへのフェイルバックが発生し、それにより、冗長重複ストレージ・システムの下のユーザ入出力だけを再駆動する。この結果、冗長ストレージ・システムはデータ用の良好な経路を維持するので、カスタマ・アクセスに対するリスクはまったく発生しない。テスト・モードが失敗した場合、交換FRUを再調査することができ、追加の修理アクションを実行することができる。これにより、たとえば、修正中の問題が断続的であり、単一FRU障害として容易に識別できなかったときに、所与の修理の信頼度が改善される。
他の実施形態では、システム内にいかなる冗長性も提供されず、システムがサービス・モードである間、いかなるユーザ入出力も処理することができない。他の実施形態では、部分冗長性が提供され、すなわち、システム内のすべてのユニットではなく一部のユニットについて冗長性が提供される。他の実施形態では、それぞれのFRU自体は、全体としてのシステムに関するグローバル・モードではなく、個々のサービス・モード、テスト・モード、およびオンライン・モードを有するように構成される。他の一実施形態では、テスト・モード中に所与のシステム上でいかなるユーザ入出力も使用されず、ストレス・テストが実行される場合、テスト・データは、交換FRUに関する最大動作データ転送速度を提供するように構成される。
当業者には理解されるように、交換ユニットは、既存のユニットまたは障害のあるユニットのための直接交換品ではない可能性があるが、たとえば、障害を修正するためまたは追加の機能性を提供するために、アップグレードされたユニットまたは新たにインストールされシステムに追加されるユニットにすることができる。さらに、所与のサービス・アクション中に2つ以上のFRUを交換することもでき、その結果、所与のテストで2つ以上のFRUをテストすることもできる。当業者には理解されるように、テスト入出力のフォーマットは、特に、テスト中の運搬機器のタイプに関して構成することができる。たとえば、ファイバ・チャネル・アービトレーテッド・ループ(FCAL)システムは、低周波数で値が変化するビット・ストリームを含む入出力のパターンによって最も良くストレスを加えることができる。
当業者であれば、本発明の一部または全部を実施する装置が、本発明の一実施形態の一部または全部を提供するように構成されたソフトウェアを有する汎用デバイスにすることができることを理解されるであろう。このデバイスは単一デバイスまたは複数デバイスのグループにすることができ、ソフトウェアは単一プログラムまたは複数プログラムのセットにすることができるであろう。さらに、本発明を実装するために使用されるソフトウェアの一部または全部は、そのソフトウェアを1つまたは複数のデバイス上にロードできるように、任意の適切な伝送手段または記憶手段を介して通信することができる。
本発明の諸実施形態の説明によって本発明を例示し、諸実施形態についてかなり詳細に説明してきたが、追加の利点および変更例は当業者にとって容易に明らかになるであろう。

Claims (9)

  1. 1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むストレージ・システムについて、コンピュータに各ステップを実行させる方法であって、前記方法が、
    a)交換のためにストレージ・システム内の交換可能ユニットを識別し、前記ストレージ・システムをサービス・モードに切り替えるステップと、
    b)前記交換可能ユニットと交換ユニットとの交換に応答して、前記ストレージ・システムを自動的にテスト・モードに切り替えるステップと、
    c)前記交換ユニットの機能を検証するために、所定のテスト・ポリシーに応じて前記交換ユニットをテストするステップと、
    d)選択されたエレメントの前記テストが成功した場合に、前記ストレージ・システムをオンライン・モードに戻すステップと、
    を含み、
    前記テスト・ポリシーが、前記交換ユニットにテスト・データを送信することを含み、前記テスト・データのレベルが、前記交換ユニットに所定のレベルの入出力を提供するために前記交換ユニットへのユーザ・データのレベルを補完するように構成され
    前記ストレージ・システムからの1つまたは複数の追加のユニットが、前記テストのために前記交換ユニットと組み合わせて使用するために選択され、
    前記追加のユニットが、前記交換ユニットの全動作容量をテストするために適切な入出力(I/O)経路を提供するために前記交換ユニットと組み合わせて使用するために選択される、方法。
  2. いかなる障害も前記テストにおいて検出されない場合、前記ストレージ・システムが自動的に前記オンライン・モードに戻され、所定のレベルの障害が前記テスト中に検出された場合、前記ストレージ・システムが自動的に前記サービス・モードに戻される、請求項に記載の方法。
  3. 前記テスト・ポリシーが、前記交換ユニットにテスト・データを排他的に送信することを含む、請求項1または2に記載の方法。
  4. 前記テストが1つまたは複数のデータ・ストレージ・ユニットにデータを書き込むことを含むときに、前記データが前記ストレージ・ユニットの予約領域に書き込まれる、請求項1ないし3のいずれかに記載の方法。
  5. 1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むストレージ・システムについて、コンピュータが動作を実行する装置であって、前記装置が、
    交換のためにストレージ・システム内の交換可能ユニットを識別し、前記ストレージ・システムをサービス・モードに切り替え、
    前記交換可能ユニットと交換ユニットとの交換に応答して、前記ストレージ・システムを自動的にテスト・モードに切り替え、
    前記交換ユニットの機能を検証するために、所定のテスト・ポリシーに応じて前記交換ユニットをテストし、
    選択されたエレメントの前記テストが成功した場合に、前記ストレージ・システムをオンライン・モードに戻す
    ように動作可能であり、
    前記テスト・ポリシーが、前記交換ユニットにテスト・データを送信することを含み、前記テスト・データのレベルが、前記交換ユニットに所定のレベルの入出力を提供するために前記交換ユニットへのユーザ・データのレベルを補完するように構成され
    前記ストレージ・システムからの1つまたは複数の追加のユニットが、前記テストのために前記交換ユニットと組み合わせて使用するために選択され、
    前記追加のユニットが、前記交換ユニットの全動作容量をテストするために適切な入出力(I/O)経路を提供するために前記交換ユニットと組み合わせて使用するために選択される、装置。
  6. いかなる障害も前記テストにおいて検出されない場合、前記ストレージ・システムが自動的に前記オンライン・モードに戻され、所定のレベルの障害が前記テスト中に検出された場合、前記ストレージ・システムが自動的に前記サービス・モードに戻される、請求項に記載の装置。
  7. 前記テスト・ポリシーが、前記交換ユニットにテスト・データを排他的に送信することを含む、請求項5または6に記載の装置。
  8. 前記テストが1つまたは複数のデータ・ストレージ・ユニットにデータを書き込むことを含むときに、前記データが前記ストレージ・ユニットの予約領域に書き込まれる、請求項5ないし7のいずれかに記載の装置。
  9. コンピュータ・システムにロードされ、そこで実行されたときに、請求項1ないしのいずれかに記載の方法のすべてのステップを前記コンピュータ・システムに実行させるコンピュータ・プログラム・コードを含むコンピュータ・プログラム。
JP2011529553A 2008-10-02 2009-10-01 1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための方法、装置、およびプログラム(交換ユニットのテストを管理するために交換可能ユニットを含むコンピュータ化ストレージ・システム) Active JP5296878B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP08165694 2008-10-02
EP08165694.4 2008-10-02
PCT/EP2009/062757 WO2010037814A1 (en) 2008-10-02 2009-10-01 A computerised storage system comprising replaceable units for managing testing of replacement units

Publications (2)

Publication Number Publication Date
JP2012504808A JP2012504808A (ja) 2012-02-23
JP5296878B2 true JP5296878B2 (ja) 2013-09-25

Family

ID=41651387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011529553A Active JP5296878B2 (ja) 2008-10-02 2009-10-01 1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための方法、装置、およびプログラム(交換ユニットのテストを管理するために交換可能ユニットを含むコンピュータ化ストレージ・システム)

Country Status (7)

Country Link
US (3) US8639466B2 (ja)
EP (1) EP2291743B1 (ja)
JP (1) JP5296878B2 (ja)
KR (1) KR20110065504A (ja)
CN (1) CN102171662B (ja)
TW (1) TW201028841A (ja)
WO (1) WO2010037814A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201028841A (en) 2008-10-02 2010-08-01 Ibm A method, apparatus or software for use in a computerised storage system comprising one or more replaceable units for managing testing of one or more replacement units
US8874817B2 (en) 2012-02-08 2014-10-28 Oracle International Corporation System for out of band management of rack-mounted field replaceable units
EP3118718B1 (en) * 2013-02-28 2022-12-21 Oracle International Corporation Power management of rack-mounted field replaceable units
US9256565B2 (en) * 2013-02-28 2016-02-09 Oracle International Corporation Central out of band management of field replaceable united of computing rack
US9268730B2 (en) * 2013-02-28 2016-02-23 Oracle International Corporation Computing rack-based virtual backplane for field replaceable units
US10338653B2 (en) 2013-02-28 2019-07-02 Oracle International Corporation Power delivery to rack-mounted field replaceable units using AC and/or DC input power sources
US9936603B2 (en) 2013-02-28 2018-04-03 Oracle International Corporation Backplane nodes for blind mate adapting field replaceable units to bays in storage rack
US9261922B2 (en) * 2013-02-28 2016-02-16 Oracle International Corporation Harness for implementing a virtual backplane in a computing rack for field replaceable units
US9335786B2 (en) 2013-02-28 2016-05-10 Oracle International Corporation Adapter facilitating blind-mate electrical connection of field replaceable units with virtual backplane of computing rack
US10831592B1 (en) 2018-09-27 2020-11-10 Juniper Networks, Inc Apparatus, system, and method for correcting slow field-replaceable units in network devices

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5293556A (en) * 1991-07-29 1994-03-08 Storage Technology Corporation Knowledge based field replaceable unit management
JPH07262100A (ja) * 1994-03-18 1995-10-13 Fujitsu Ltd バスの負荷試験装置
WO2001063311A2 (en) * 2000-02-22 2001-08-30 Don Mccord Method and system for wafer and device-level testing of an integrated circuit
AU2002306495A1 (en) * 2001-02-13 2002-08-28 Candera, Inc. Storage virtualization and storage management to provide higher level storage services
US6901534B2 (en) 2002-01-15 2005-05-31 Intel Corporation Configuration proxy service for the extended firmware interface environment
JP2003288279A (ja) * 2002-03-28 2003-10-10 Hitachi Ltd 記憶装置間の障害検出方法、及びこれに用いられる記憶装置
US7318116B2 (en) 2002-11-08 2008-01-08 International Business Machines Corporation Control path failover in an automated data storage library
US6901344B2 (en) * 2003-02-11 2005-05-31 Hewlett-Packard Development Company, L.P. Apparatus and method for verification of system interconnect upon hot-plugging of electronic field replaceable units
TWI256550B (en) 2004-06-09 2006-06-11 Omnidirectional Control Techno A storage system having real-time mirror backup function
US7409594B2 (en) * 2004-07-06 2008-08-05 Intel Corporation System and method to detect errors and predict potential failures
US7480840B2 (en) * 2004-10-12 2009-01-20 International Business Machines Corporation Apparatus, system, and method for facilitating port testing of a multi-port host adapter
JP2006155343A (ja) 2004-11-30 2006-06-15 Sanyo Electric Co Ltd 表示装置、及び、表示プログラム
JP2006185509A (ja) 2004-12-27 2006-07-13 Toshiba Corp 欠陥管理情報を格納する情報記憶媒体、欠陥管理情報の交替処理方法、および欠陥管理情報の交替処理を行なう装置
JPWO2006100760A1 (ja) * 2005-03-22 2008-08-28 富士通株式会社 記憶装置、記憶装置管理システムおよび記憶装置管理方法
US7676694B2 (en) 2006-03-31 2010-03-09 Emc Corporation Managing system components
JP4807172B2 (ja) * 2006-07-21 2011-11-02 富士通株式会社 ディスクアレイ装置及びパトロール診断方法及びパトロール診断制御プログラム
TW201028841A (en) 2008-10-02 2010-08-01 Ibm A method, apparatus or software for use in a computerised storage system comprising one or more replaceable units for managing testing of one or more replacement units

Also Published As

Publication number Publication date
US20120239983A1 (en) 2012-09-20
US9298527B2 (en) 2016-03-29
WO2010037814A4 (en) 2010-06-03
US20110144939A1 (en) 2011-06-16
CN102171662B (zh) 2014-07-30
JP2012504808A (ja) 2012-02-23
WO2010037814A1 (en) 2010-04-08
CN102171662A (zh) 2011-08-31
US8639466B2 (en) 2014-01-28
US9286151B2 (en) 2016-03-15
US20140089740A1 (en) 2014-03-27
KR20110065504A (ko) 2011-06-15
EP2291743B1 (en) 2016-11-23
TW201028841A (en) 2010-08-01
EP2291743A1 (en) 2011-03-09

Similar Documents

Publication Publication Date Title
JP5296878B2 (ja) 1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための方法、装置、およびプログラム(交換ユニットのテストを管理するために交換可能ユニットを含むコンピュータ化ストレージ・システム)
US7137020B2 (en) Method and apparatus for disabling defective components in a computer system
US7426554B2 (en) System and method for determining availability of an arbitrary network configuration
KR100570134B1 (ko) 자체 치유 칩과 칩 사이의 인터페이스
US7320084B2 (en) Management of error conditions in high-availability mass-storage-device shelves by storage-shelf routers
US20040210800A1 (en) Error management
US7890810B1 (en) Method and apparatus for deterministic fault injection of storage shelves in a storage subsystem
US8347142B2 (en) Non-disruptive I/O adapter diagnostic testing
US20070226537A1 (en) Isolating a drive from disk array for diagnostic operations
JP4387968B2 (ja) 障害検出装置および障害検出方法
CN103136075A (zh) 磁盘系统、数据保存装置以及磁盘设备
US7757123B1 (en) Managing faults
JP4635941B2 (ja) ディスクアレイサブシステム
JPH11203157A (ja) 冗長装置
US20070006166A1 (en) Code coverage for an embedded processor system
US20080027564A1 (en) System and method for providing increased availability of i/o drawers during concurrent i/o hub repair
US6865689B1 (en) Method and apparatus for fault isolation on network loops using low level error counters
US20190306012A1 (en) System and method for automatically repairing a network element
US7533297B2 (en) Fault isolation in a microcontroller based computer
CN112383462B (zh) 一种网络设备以及总线配置方法
JP2022036778A (ja) 監視システム、監視方法、プログラム、フォールトトレラントサーバ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120418

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130613

R150 Certificate of patent or registration of utility model

Ref document number: 5296878

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150