JP7064225B2 - 改善されたi/oエラー診断法 - Google Patents

改善されたi/oエラー診断法 Download PDF

Info

Publication number
JP7064225B2
JP7064225B2 JP2019566746A JP2019566746A JP7064225B2 JP 7064225 B2 JP7064225 B2 JP 7064225B2 JP 2019566746 A JP2019566746 A JP 2019566746A JP 2019566746 A JP2019566746 A JP 2019566746A JP 7064225 B2 JP7064225 B2 JP 7064225B2
Authority
JP
Japan
Prior art keywords
error
diagnostic information
diagnostic
job
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019566746A
Other languages
English (en)
Other versions
JP2020522811A (ja
Inventor
リード、デイヴィッド
ミラー、ダッシュ
マリノフスキー、ジョセフ
ポウエルソン、テイバー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2020522811A publication Critical patent/JP2020522811A/ja
Application granted granted Critical
Publication of JP7064225B2 publication Critical patent/JP7064225B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0745Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

本発明は、I/Oエラーに関連する診断情報を収集するためのシステムおよび方法に関する。
z/OS(R)オペレーティング・システムにおいて、制御ブロックは、ホスト・システムの作業およびリソースを管理するために使用される。これらの制御ブロックは、内部的には実の、仮想の、またはハードのあるいはその組合せのストレージ・エリアとして表され、一般に、ホスト・システム内で発生しているイベント、アクティビティ、およびステータスに関する特定の情報を含む。ほとんどの状況において、制御ブロックは、互いにチェーニング(chain)されており、z/OS(R)オペレーティング・システムの内部構造の多くのエリアにまたがることができる。制御ブロックの知識は、障害が発生したとき、ホスト・システムおよびそのステータスについての重要な情報を決定する際に役立つ。
入出力(I/O)要求が、ホスト・システムで実行中のアプリケーションによって生成されたとき、I/Oドライバは、入出力監視プログラム・ブロック(IOSB:I/O Supervisor Block)と呼ばれる制御ブロックを作る。IOSBは、I/O要求を記述して、入出力監視プログラム(IOS:Input/Output Supervisor)へとパラメータを渡し、入出力監視プログラム(IOS)から応答を受け取る。I/Oエラーが発生したとき、特定のデバイスに対するデータの読み込み/書き込みにどのチャネル・プログラムが使用されたのかを特定するために、IOSB制御ブロックの情報がしばしば必要とされる。残念なことに、IOSBの内容を確認するためにSVC(Supervisor Control)ダンプが取り込まれる頃には、IOSBは、しばしば既に別のアプリケーションに再利用されている。その結果、IOSBのデータは、SVCダンプが取り込まれる頃にはしばしば陳腐化しており、I/Oエラーの根本原因を確認するために役立たない。
トレース・データを収集するSVCダンプのような診断ツールは、通常の動作中はオーバーヘッドを減らすためにしばしば無効化されている。したがって、トレース・データは、I/Oエラーが最初に発生した際には収集されない場合がある。ユーザは、診断ツールを有効化した後に、I/Oエラーを再現しようするかもしれないが、I/Oエラーはしばしば再現され得ないか、所望の診断情報を収集したい時間内には再現され得ない。このことは、I/Oエラーの根本原因を決定することを困難あるいは不可能にし得る。
前述の観点から、I/Oエラーに関連する診断情報をより効果的に収集するシステムおよび方法が必要とされている。
本発明は現在の技術水準に応えて、特に、現在利用可能なシステムおよび方法によってはいまだ十分に解決されていない当技術分野の問題および必要性に応えて開発された。したがって、本発明は、I/Oエラーに関連する診断情報を収集するためのシステムおよび方法を提供するために開発された。好ましい実施形態による本発明の特徴および利点は、以下の説明および添付の特許請求の範囲から十分に明らかになるであろう、または以下に説明される解決策の実践によって理解されよう。
前述のことと一貫して、I/Oエラーに関連する診断情報を収集するための方法が開示される。一実施形態において、このような方法は、入出力(I/O)動作に関連するエラーを検出することを含む。方法は、エラーが再駆動され得るかどうかを決定し、再駆動され得る場合は、診断情報の収集を改善するために様々な診断機能を有効化する。方法は、次に、エラーを再現するためにエラーに関連するI/O動作を直ちに再駆動する。有効化された診断機能を使用して、方法は、再現されたエラーに関連する診断情報をキャプチャする。相応するシステムおよびコンピュータ・プログラム製品もまた開示され、ここに特許請求される。
1つの態様によれば、エラーに関連する診断情報を収集するための方法が提供され、方法は、入出力(I/O)動作に関連するエラーを検出すること、エラーが再駆動され得るかどうかを決定すること、エラーが再駆動され得る場合は、診断情報の収集を改善するために様々な診断機能を有効化すること、エラーを再現するためにエラーに関連するI/O動作を直ちに再駆動すること、および、有効化された診断情報を使用して、再現されたエラーに関連する診断情報をキャプチャすることを含む。
別の態様によれば、エラーに関連する診断情報を収集するためのコンピュータ・プログラム製品が提供され、コンピュータ・プログラム製品は、コンピュータによって使用可能なプログラム・コードが組み込まれた非一過性コンピュータ可読ストレージ・デバイスを含み、コンピュータによって使用可能なプログラム・コードは、少なくとも1つのプロセッサによって実行されるとき、以下の、入出力(I/O)動作に関連するエラーを検出すること、エラーが再駆動され得るかどうかを決定すること、エラーが再駆動され得る場合は、診断情報の収集を改善するために様々な診断機能を有効化すること、エラーを再現するためにエラーに関連するI/O動作を直ちに再駆動すること、および、有効化された診断機能を使用して、再現されたエラーに関連する診断情報をキャプチャすることを実行するように構成されている。
別の態様によれば、エラーに関連した診断情報を収集するためのシステムが提供され、システムは、少なくとも1つのプロセッサ、および少なくとも1つのプロセッサに動作可能に結合され、少なくとも1つのプロセッサで実行するための命令を記憶する少なくとも1つのメモリ・デバイスを含み、命令は、少なくとも1つのプロセッサに、入出力(I/O)動作に関連するエラーを検出すること、エラーが再駆動し得るかどうかを決定すること、エラーが再駆動され得る場合は、診断情報の収集を改善するために様々な診断機能を有効化すること、エラーを再現するためにエラーに関連するI/O動作を直ちに再駆動すること、および、有効化された診断情報を使用して、再現されたエラーに関連する診断情報をキャプチャすることを行わせる。
次に本発明の好ましい実施形態が、単に例として、以下の図面を参照して説明される。
本発明の好ましい実施形態によるシステムおよび方法が実施され得るネットワーク環境の一例を示す、ハイレベル・ブロック図である。 図1のネットワーク環境で使用するストレージ・システムの一例を示すハイレベル・ブロック図である。 本発明の好ましい実施形態による、様々な診断機能が無効化された状態でのI/Oエラーの発生を示すハイレベル・ブロック図である。 本発明の好ましい実施形態による、I/Oエラーの発生時の情報の収集を改善するために構成された情報収集モジュールを示すハイレベル・ブロック図である。 本発明の好ましい実施形態による、情報収集モジュールがどのようにして、再現されたI/Oエラーに関連する情報を集めるための診断機能を有効化するのかを示すハイレベル・ブロック図である。 本発明の好ましい実施形態による、情報収集モジュールおよび様々な関連サブモジュールを示すハイレベル・ブロック図である。 I/Oエラーに関連する診断情報を収集するための方法の一例を示す図である。
本明細書の図において一般的に説明され、例示されるように、本発明の構成品は、広く多様な異なる構成で配置、設計され得るということが容易に理解されよう。したがって、図に表されるように、以下の本発明の実施形態のより詳細な説明は、特許請求される本発明の範囲を限定することを意図するものではなく、本発明により現在企図される実施形態の特定の例の単なる代表にすぎない。現在説明されている実施形態は、全体を通して同様の部分は同様の数字で指示される、図面への参照により最もよく理解されるであろう。
本発明は、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せとして具体化され得る。コンピュータ・プログラム製品は、プロセッサに本発明の態様を遂行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体を含んでもよい。
コンピュータ可読ストレージ媒体は、命令実行デバイスによって使用される命令を保持し、記憶することができる有形デバイスであってよい。コンピュータ可読ストレージ媒体は、例えば、非限定的に、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイスまたは前述のものの任意の適切な組合せであってよい。より具体的なコンピュータ可読ストレージ媒体の非網羅的一覧には、以下の、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー(R)ディスク、パンチ・カードまたは命令が記録された溝中の隆起構造のような機械的に符号化されたデバイス、および前述のものの任意の適切な組合せが含まれる。本明細書で使用されるコンピュータ可読ストレージ媒体は、電波または他の自由に伝播する電磁波、導波管または他の伝送媒体を通じて伝播する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、またはケーブルを通じて送信される電気信号のような、一過性の信号それ自体として解釈されるべきではない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれの計算/処理デバイスへと、またはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワークまたはワイヤレス・ネットワークあるいはその組合せを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードされ得る。ネットワークは、銅伝送ケーブル、光学伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを含み得る。各計算/処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を、それぞれの計算/処理デバイスの中のコンピュータ可読ストレージ媒体に記憶のために転送する。
本発明の動作を遂行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk(R)、C++などのようなオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくは同様のプログラミング言語のような、従来の手続き型プログラミング言語を含む1つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードのいずれかであってよい。
コンピュータ可読プログラム命令は、スタンド・アロン型ソフトウェア・パッケージとして、全体的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上でかつ部分的にリモート・コンピュータ上で、または全体的にリモート・コンピュータ上もしくはサーバ上で実行され得る。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の型のネットワークを通じてユーザのコンピュータと接続されてよく、あるいは接続は、(例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて)外部コンピュータとなされてもよい。いくつかの実施形態において、例えば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して電子回路をカスタマイズし得る。
本発明の態様が、本発明の実施形態による方法、装置(システム)およびコンピュータ・プログラム製品についてのフローチャート図またはブロック図あるいはその両方を参照して、本明細書において説明される。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実施され得るということが理解されるであろう。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/動作を実施する手段を作り出すべく、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体に記憶された命令により、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/動作の態様を実施する命令を含んだ製品を含むべく、コンピュータ可読ストレージ媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに特定の方式で機能するように指示するものであってもよい。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置または他のデバイスで実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/動作を実施するように、コンピュータによって実施されるプロセスを作り出すべくコンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の演算ステップを実行させるものであってもよい。
図1を参照して、ネットワーク環境100の一例が例示される。ネットワーク環境100は、本発明によるシステムおよび方法が実施され得る環境の一例を示すために提示される。ネットワーク環境100は、例として提示されるがこれに限定されない。実際、本明細書に開示されるシステムおよび方法は、示されるネットワーク環境100に加えて、広く多様な異なるネットワーク環境に適用され得る。
示されるとおり、ネットワーク環境100は、ネットワーク104によって相互に接続された1つまたは複数のコンピュータ102、106を含む。ネットワーク104は、例えば、ローカル・エリア・ネットワーク(LAN)104、広域ネットワーク(WAN)104、インターネット104、イントラネット104などを含んでよい。特定の実施形態において、コンピュータ102、106は、クライアント・コンピュータ102およびサーバ・コンピュータ106(本明細書において「ホスト・システム」106とも呼ばれる)の両方を含んでよい。一般に、クライアント・コンピュータ102は、通信セッションを開始するのに対し、サーバ・コンピュータ106は、クライアント・コンピュータ102からの要求を待つ。特定の実施形態において、コンピュータ102またはサーバ106あるいはその両方は、1つまたは複数の内部または外部のダイレクト・アタッチト・ストレージ・システム109(例えば、ハードディスク・ドライブのアレイ、ソリッド・ステート・ドライブ、テープ・ドライブなど)と接続してもよい。これらのコンピュータ102、106およびダイレクト・アタッチト・ストレージ・システム109は、ATA、SATA、SCSI、SAS、ファイバ・チャネルなどのようなプロトコルを使用して通信してもよい。
ネットワーク環境100は、特定の実施形態において、サーバ106の背後に、ストレージ・エリア・ネットワーク(SAN)108またはLAN108(例えば、ネットワーク・アタッチト・ストレージを使用するとき)のようなストレージ・ネットワーク108を含み得る。このネットワーク108は、サーバ106をハードディスクまたはソリッド・ステート・ドライブのアレイ110、テープ・ライブラリ112、個別のハードディスク・ドライブ114、またはソリッド・ステート・ドライブ114、テープ・ドライブ116、CD-ROMライブラリなどのような1つまたは複数のストレージ・システムと接続してもよい。ストレージ・システム110、112、114、116にアクセスするために、ホスト・システム106は、ホスト106の1つまたは複数のポートからストレージ・システム110、112、114、116の1つまたは複数のポートへの物理的接続によって通信してもよい。接続は、スイッチ、ファブリック、直接接続などによってされてよい。特定の実施形態において、サーバ106およびストレージ・システム110、112、114、116は、ファイバ・チャネル(FC)のようなネットワークの規格を使用して通信してもよい。
図2を参照して、ハードディスク・ドライブ204またはソリッド・ステート・ドライブ204あるいはその両方のアレイを含むストレージ・システム110の一実施形態が例示される。示されるとおり、ストレージ・システム110は、ストレージ・コントローラ、200、1つまたは複数のスイッチ202、およびハードディスク・ドライブ204または(フラッシュメモリ・ベースのドライブ204のような)ソリッド・ステート・ドライブ204のような、1つまたは複数のストレージ・ドライブ204を含む。ストレージ・コントローラ200は、1つまたは複数のストレージ・ドライブ204のデータにアクセスするために、1つまたは複数のホスト106(例えば、z/OS(R)、zVMなどのようなオペレーティング・システムを実行するオープン・システムまたはメインフレーム・サーバ106あるいはその両方など)を有効化し得る。
選択された実施形態において、ストレージ・コントローラ200は、1つまたは複数のサーバ206を含む。ストレージ・コントローラ200は、また、ストレージ・コントローラ200をホスト・デバイス106およびストレージ・デバイス204のそれぞれに接続するために、ホスト・アダプタ208およびデバイス・アダプタ210を含んでもよい。複数のサーバ206a、206bは、接続されたホスト106が常にデータを利用できることを確実にするために冗長性を提供し得る。このように、一方のサーバ206aに障害が起きたとき、ホスト106とストレージ・デバイス204との間のI/Oが続けられることを確実にするため、他方のサーバ206bが、障害が起きたサーバ206aのI/O負荷を受け取り得る。この処理は、「フェイルオーバ」と呼ばれることがある。
選択された実施形態において、それぞれのサーバ206は1つまたは複数のプロセッサ212およびメモリ214を含んでもよい。メモリ214は、揮発性メモリ(例えば、RAM)ならびに、不揮発性メモリ(例えば、ROM、EPROM、EEPROM、ハードディスク、フラッシュメモリなど)を含んでもよい。揮発性メモリおよび不揮発性メモリは、特定の実施形態において、プロセッサ212で実行され、ストレージ・ドライブ204のデータにアクセスするために使用されるソフトウェア・モジュールを記憶し得る。これらのソフトウェア・モジュールは、ストレージ・ドライブ204の論理ボリュームへのすべての読み取りおよび書き込み要求を管理し得る。
図2に例示されたものと同様のアーキテクチャを有するストレージ・システム110の一例は、IBM(R)DS8000(TM)エンタープライズ・ストレージ・システムである。DS8000(TM)は、継続的動作をサポートするよう設計されたディスク・ストレージを提供する、高性能で大容量のストレージ・コントローラである。しかしながら、本明細書に開示されたシステムおよび方法は、IBM(R)DS8000(TM)エンタープライズ・ストレージ・システム110による動作に限定されることなく、システム110に関連する製造者、商品名、または部品もしくは部品名にかかわらず、任意の同等または類似のストレージ・システム110でも動作し得る。さらに、本発明の1つまたは複数の実施形態の恩恵を受けるであろういかなるストレージ・システムも、本発明の範囲内に入ることになる。したがって、IBM(R)DS8000(TM)は、例として提示されるだけであって、これに限定することは意図されていない。
図3を参照して、先に言及されたように、z/OS(R)のようなオペレーティング・システム300において、制御ブロック302は、z/OS(R)が実行されているホスト・システム106の作業およびリソースを管理するために使用される。これらの制御ブロック302は、内部的には実の、仮想の、またはハードのあるいはその組合せのストレージ・エリアとして表され、一般に、ホスト・システム106内で発生しているイベント、アクティビティ、およびステータスに関係する特定の情報を含む。ほとんどの状況において、制御ブロック302は、互いにチェーニングされており、z/OS(R)オペレーティング・システムの内部構造の多くのエリアにまたがることができる。制御ブロック302についての知識は、障害が発生したとき、ホスト・システム106およびそのステータスについての重要な情報を決定する際に役立つ。
ストレージ・システム110のボリューム304のデータにアクセスするために、入出力(I/O)要求が、ホスト・システム106で実行中のアプリケーションによって生成されたとき、I/Oドライバは、入出力監視プログラム・ブロック(IOSB)と呼ばれる制御ブロック302を作る。IOSB制御ブロック302は、I/O要求を記述して、入出力監視プログラム(IOS)へとパラメータを渡し、入出力監視プログラム(IOS)から応答を受け取る。I/Oエラー306が発生したとき、特定のデバイスに対するデータの読み込み/書き込みにどのチャネル・プログラムが使用されたのかを特定するために、IOSB制御ブロック302の情報がしばしば必要とされる。残念なことに、IOSB制御ブロック302の内容を確認するためにSVC(Supervisor Control)ダンプが取り込まれる頃には、IOSB制御ブロック302は、しばしば既に別のアプリケーションによって再利用されている。その結果、IOSB制御ブロック302のデータは、SVCダンプが取り込まれる頃にはしばしば陳腐化しており、I/Oエラー306の根本原因を確認するために役立たない。
トレース・データを収集するSVCダンプのような診断ツールは、通常の動作中はオーバーヘッドを減らすためにしばしば無効化されている(図3に示されるとおり)。したがって、トレース・データは、I/Oエラー306が最初に発生した際には収集されない場合がある。ユーザは、診断ツールを有効化した後に、I/Oエラー306を再現しようとするかもしれないが、I/Oエラー306はしばしば再現され得ないか、所望の診断情報を収集したい時間内に再現され得ない。このことは、I/Oエラー306の根本原因を決定することを遅らせたり、不可能にしたりする場合がある。
図4を参照して、I/Oエラー306に関連する診断情報をより効果的に集めるために、ホスト・システム106において、あるいはホスト・システム106に関連して、情報収集モジュール400が提供されてもよい。一般に、情報収集モジュール400は、I/O動作に関連して発生するI/Oエラー306をモニターする。図4に示されるとおり、通常の動作中、トレース機能などの診断機能は、ホスト・システム106またはストレージ・システム110あるいはその両方のオーバーヘッドを減らすために無効化されてもよい。I/Oエラー306が検出されたとき、情報収集モジュール400は、I/Oエラー306が再駆動(つまり、I/Oエラー306を再度発生させるであろう動作を実行すること)され得るかどうかを決定し得る。
図5で示されるとおり、I/Oエラー306が再駆動され得る場合は、情報収集モジュール400は、データ収集を改善するためにホスト・システム106またはストレージ・システム110あるいはその両方の様々な診断機能を有効化し、直ちにI/Oエラー306を引き起こしたI/Oを再駆動する。これにより、理論的には、I/Oエラー306が再発生させられる(再現されたエラー500で示されるとおり)。診断機能が有効化されているので、情報収集モジュール400は、有効化されていなければ収集されなかった様々なタイプの診断情報を収集することができる。例えば、SVCダンプによって生成されるようなトレース情報502が情報収集モジュール400によって収集され得る。情報収集モジュール400が、I/Oエラー306を引き起こしたI/Oを直ちに再駆動するので、制御ブロック302のようなデータ・ストラクチャから集められたデータは陳腐化しておらず有効であり得る。
上記の技術は、通常の動作中はオーバーヘッドを減らすために様々な診断機能を無効化できるという点で有利である。特定の実施形態において、I/Oエラー306が検出されたときにのみ、診断機能が有効化される。一旦I/Oエラー306が再現され、関連の診断情報が集められると、診断機能は、オーバーヘッドを減らすために再び無効化され得る。特定の実施形態において、診断機能は一定時間の後に無効化される。他の実施形態において、診断機能は所望の診断情報が集められた直後に無効化される。さらに他の実施形態において、診断機能は、選択された回数I/Oが再駆動された後、またはI/Oエラー306が再現されて診断情報が集められるまでの、どちらかが先に起こった際に無効化される。どのような場合でも、有効化された診断機能は、いくらかの時間またはある特定のイベントの後、ホスト・システム106またはストレージ・システム110あるいはその両方のオーバーヘッドを減らすために無効化されてよい。
図6を参照して、情報収集モジュール400は、様々な特徴および機能を提供する様々なサブモジュールを含み得る。これらのサブモジュールは、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組合せにおいて実施されてよい。サブモジュールは、例として提示されており、情報収集モジュール400に含まれ得るサブモジュールの包括的なリストを表すことは意図されない。情報収集モジュール400は、例示されているものよりも多いまたは少ないモジュールを含んでもよい。示されるとおり、情報収集モジュール400は、1つまたは複数の設定モジュール600、エラー検出モジュール602、チェック・モジュール604、再駆動決定モジュール606、診断有効化モジュール608、再駆動モジュール610、キャプチャ・モジュール612および診断無効化モジュール614を含む。
設定モジュール600は、特定のジョブまたはアドレス空間に対する改善された情報収集をユーザが手動でオンにすることを可能にし得る。特定の実施形態において、改善された情報収集は、ユーザが、重要であるまたはエラーになりやすいと感じるジョブに対してオンにされ得る。このことが遂行され得る様々な方法がある。例えば、ユーザはパラメータ(例えば、SYS1.PARMLIBメンバ)を設定して初期プログラムロード(IPL)の際、ジョブに対する情報収集を作動させてよく、または手動で、コンソール・コマンドを出して特定のジョブならびにアドレス空間識別子番号(ASID)に関する情報収集を作動させてもよい。これら技術のいずれかを使用して、設定モジュール600は、向上した情報収集(例えば、トレース)がアクティブになっていることを示すためにジョブの初期化時にアドレス空間制御ブロック302(ASCB)のビットをオンにし得る。
特定の実施形態において、設定モジュール600は、特定のアドレス空間でデータが変更されたり、ロジックが呼び出されたり、または他のイベントが発生したりするそれぞれの際に、診断情報が収集されるように、そのアドレス空間に対する情報収集を有効化するよう構成されてもよい。この情報収集の影響は、情報が収集されるたびに、収集されるまたは保存されるデータの量を減らすことによって最小限にし得る。作業負荷のピーク時の間には情報収集をオフにし、作業負荷の少ない期間の間にはオンに戻すよう、自動化が使用されてもよい。これらのそれぞれのオプションは、SYS1.PARMLIBパラメータを介して制御され得る。
エラー検出モジュール602は、いつI/Oエラー306が発生したかを検出し得る。I/Oエラー306が発生したとき、チェック・モジュール604は、ジョブに対する情報収集が有効化されているかどうかをチェックし得る。これは、例えば、ジョブに関連するASCBのビットをチェックすることによって遂行され得る。再駆動決定モジュール606はまた、I/Oエラー306が再駆動可能かどうかもチェックし得る。I/Oエラー306が再駆動可能であり、情報収集がジョブに対して有効化されていれば、診断有効化モジュール608は診断情報の収集を改善するために様々な診断機能を有効化し得る。例えば、診断有効化モジュール608は、トレース・データを収集するSVCダンプのような診断ツールを有効化し得る。
再駆動モジュール610は、次に、初期I/Oエラー306を引き起こしたI/O動作を直ちに再駆動してもよい。理論的には、これにより、I/Oエラー306が再現される。キャプチャ・モジュール612は、次に、診断機能によって集められた情報をキャプチャする。特定の実施形態において、キャプチャ・モジュール612は、先述のSYS1.PARMLIBパラメータにおいて示される情報をキャプチャし得る。特定の実施形態において、キャプチャされ、保存されるデフォルトの情報は、最新のIOSB制御ブロック302からのデータ、読み込み/書き込みされるデータの最初の128バイト、および読み込み/書き込みされるデータの最後の128バイトを含む。キャプチャ・モジュール612は、特定の実施形態において、I/Oエラー306が検出されたのと同じアドレス空間の定義済みのストレージ・エリアに診断情報を記憶する。
一旦所望の診断情報がキャプチャされると、診断無効化モジュール614は、診断有効化モジュール608によって有効化された診断機能を無効化し得る。あるいは、診断無効化モジュール614は、一定の時間が過ぎたとき、または、一定回数I/Oエラー306の再現が試みられた後で、診断機能を無効化してもよい。
特定の実施形態において、エラー検出モジュール602は、すべてのタイプのジョブのすべてのタイプのI/Oエラー306をモニターする。I/Oエラー306が再駆動可能であれば、診断有効化モジュール608は、診断機能を有効化し、再駆動モジュール610は、I/Oエラー306に関連するI/O動作を再駆動するであろう。これにより、理論的にはI/Oエラー306が再現される。キャプチャ・モジュール612は、次にI/Oエラー306に関連する診断情報をキャプチャする。特定の実施形態において、設定モジュール600はまた、I/Oエラー306が起こったジョブに関して情報収集を作動させるためのパラメータを自動的に設定してもよい。そうするとジョブに関連するその後のいかなるI/Oエラー306も、情報収集を起動し得る。I/Oエラー306が再駆動可能でない場合は、ユーザの設定に応じて、情報収集はまた、そのジョブの将来の実行に関するデータを保存し始めるよう自動的に起動され得る。このことは、情報収集が同じジョブのいかなる再実行に対しても確実にアクティブであるようにするために役立つであろう。収集された情報は、I/Oエラー306の性質に関する追加的詳細を提供するであろう。多くの場合、これらの詳細によって、再現されたI/Oエラー500による追加的なトレースまたは診断を必要とすることなく根本原因を決定することが可能となるであろう。
図7を参照して、I/Oエラー306に関連する診断情報を収集するための方法700の一実施形態が例示される。示されるとおり、方法700は、まずI/Oエラー306が検出されたかどうかを決定する702。検出されていれば、方法700は、I/Oエラー306に関連するジョブに対して情報収集を作動させるパラメータが設定されたかどうかを決定する704。設定されていれば、方法700は、I/Oエラー306が再駆動可能であるかどうかを決定する706。I/Oエラー306が再駆動可能であれば、方法700は、診断情報収集を改善するために診断機能を有効化し708、方法700は、初期I/Oエラー306を引き起こしたI/Oを再駆動する710。これにより、理論的にはI/Oエラー306が再現される。一旦再現されれば、方法700は、I/Oエラー306に関連する診断情報をキャプチャする712。方法700は、次に、オーバーヘッドを減らすために診断機能を無効化する714。
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能性、ならびに動作を例示する。この点に関し、フローチャートまたはブロック図の各ブロックは、指定された論理関数を実施するための1つまたは複数の実行可能な命令を含むモジュール、セグメント、またはコードの部分を表し得る。いくつかの代替的実装では、ブロックに記された機能は、図に記された順とは異なって生じ得ることにも注意されたい。例えば、連続して示された2つのブロックは、実際には、含まれる機能性によって、実質的に同時に実行されてよく、または、ブロックは、ときには逆順で実行されてよい。他の実装では、所望の機能性を実現するために開示されたステップのすべては必要とされない場合がある。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組合せは、特定の機能もしくは動作を実行する、専用ハードウェア・ベースのシステムによって、または、専用ハードウェアおよびコンピュータ命令の組合せによっても実施され得るということにも注意されたい。
100 ネットワーク環境
104 ネットワーク
102 クライアント・コンピュータ
106 サーバ・コンピュータ
108 ストレージ・ネットワーク
109 ダイレクト・アタッチト・ストレージ・システム
110 アレイ
112 テープ・ライブラリ
114 ハードディスク・ドライブ、ソリッド・ステート・ドライブ
116 テープ・ドライブ

Claims (9)

  1. エラーに関連する診断情報を収集するための方法であって、
    入出力(I/O)動作に関連するエラーを検出すること、
    前記I/O動作が特定のジョブまたは特定のアドレス空間に関連するかどうかを決定すること、
    前記I/O動作が特定のジョブまたは特定のアドレス空間に関連する場合は、
    診断情報の収集を改善するために様々な診断機能を有効化すること、
    前記エラーを再現するために前記エラーに関連する前記I/O動作を直ちに再駆動すること
    前記有効化された診断機能を使用して、前記再現されたエラーに関連する診断情報をキャプチャすること、
    前記特定のジョブまたは前記特定のアドレス空間の将来の実行のための前記診断機能を有効化すること、
    前記特定のジョブまたは前記特定のアドレス空間の将来の実行のためのモニターをすること、および
    前記特定のジョブまたは前記特定のアドレス空間の将来の実行を検出すると、前記診断機能を使用した診断情報の収集を起動すること、
    を含む、エラーに関連する診断情報を収集するための方法。
  2. 前記診断情報をキャプチャすることは、定義済みのストレージ・エリアにおける前記診断情報をキャプチャすることを含む、請求項1に記載の方法。
  3. 前記I/O動作はジョブに関連する、請求項2に記載の方法。
  4. 定義済みのストレージ・エリアにおける前記診断情報をキャプチャすることは、前記ジョブのアドレス空間における前記診断情報をキャプチャすることを含む、請求項3に記載の方法。
  5. エラーに関連する診断情報を収集するための方法であって、
    入出力(I/O)動作に関連するエラーを検出すること、
    前記エラーが再駆動され得るかどうかを決定すること、
    前記エラーが再駆動され得る場合は、診断情報の収集を改善するために様々な診断機能を有効化すること、
    前記エラーを再現するために前記エラーに関連する前記I/O動作を直ちに再駆動すること、および
    前記有効化された診断機能を使用して、前記再現されたエラーに関連する診断情報をキャプチャすること、
    を含み、
    前記エラーが再駆動され得ない場合は、ジョブの将来の実行のために前記診断機能を有効化する、エラーに関連する診断情報を収集するための方法。
  6. 前記ジョブの将来の実行をモニターすることをさらに含む、請求項5に記載の方法。
  7. 前記ジョブの将来の実行を検出すると、前記診断機能を使用した前記診断情報の収集を起動する、請求項6に記載の方法。
  8. エラーに関連する診断情報を収集するためのシステムであって、
    少なくとも1つのプロセッサ、および
    前記少なくとも1つのプロセッサに動作可能に結合され、前記少なくとも1つのプロセッサで実行するための命令を記憶する少なくとも1つのメモリ・デバイスを含み、前記命令は、前記少なくとも1つのプロセッサに、請求項1ないし7のいずれかに記載の方法を行わせる、
    エラーに関連する診断情報を収集するためのシステム。
  9. コンピュータ・プログラムであって、前記プログラムがコンピュータで実行されるとき、請求項1ないし7のいずれかに記載の方法を実行するように適合されたプログラム・コード手段を含む、コンピュータ・プログラム。
JP2019566746A 2017-06-08 2018-06-06 改善されたi/oエラー診断法 Active JP7064225B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/616,921 US10599508B2 (en) 2017-06-08 2017-06-08 I/O error diagnostics
US15/616,921 2017-06-08
PCT/IB2018/054042 WO2018224971A1 (en) 2017-06-08 2018-06-06 Improved i/o error diagnostics

Publications (2)

Publication Number Publication Date
JP2020522811A JP2020522811A (ja) 2020-07-30
JP7064225B2 true JP7064225B2 (ja) 2022-05-10

Family

ID=64564202

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019566746A Active JP7064225B2 (ja) 2017-06-08 2018-06-06 改善されたi/oエラー診断法

Country Status (5)

Country Link
US (1) US10599508B2 (ja)
JP (1) JP7064225B2 (ja)
DE (1) DE112018001444T5 (ja)
GB (1) GB2577219B (ja)
WO (1) WO2018224971A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11016862B2 (en) * 2017-05-23 2021-05-25 International Business Machines Corporation Error-initiated mirror redrive to collect diagnostic information
KR20220010303A (ko) * 2020-07-17 2022-01-25 에스케이하이닉스 주식회사 메모리 시스템 및 메모리 시스템의 동작방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050278706A1 (en) 2004-06-10 2005-12-15 International Business Machines Corporation System, method, and computer program product for logging diagnostic information

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2762816B2 (ja) * 1992-02-14 1998-06-04 日本電気株式会社 トランザクション実行トレース情報採取方式
US5699505A (en) 1994-08-08 1997-12-16 Unisys Corporation Method and system for automatically collecting diagnostic information from a computer system
JPH0895834A (ja) * 1994-09-28 1996-04-12 Toshiba Corp システムダンプ採取方法
JPH10207790A (ja) 1997-01-20 1998-08-07 Fuji Xerox Co Ltd 入出力制御装置
AU5774200A (en) * 1999-06-28 2001-01-31 Sangate Systems Inc. Intelligent splitter, system, and methods of use
US7320084B2 (en) * 2003-01-13 2008-01-15 Sierra Logic Management of error conditions in high-availability mass-storage-device shelves by storage-shelf routers
JP2004227645A (ja) 2003-01-22 2004-08-12 Sharp Corp メモリ試験装置及びフェイル情報取得装置並びにフェイル情報取得方法
US7290180B2 (en) 2004-09-02 2007-10-30 International Business Machines Corporation Method to use an alternate I/O debug path
US7373554B2 (en) * 2004-09-24 2008-05-13 Oracle International Corporation Techniques for automatic software error diagnostics and correction
US8458519B2 (en) * 2010-01-07 2013-06-04 International Business Machines Corporation Diagnostic data set component
GB2493242A (en) * 2010-05-18 2013-01-30 Ibm Transaction processing system
US9378116B2 (en) 2011-05-05 2016-06-28 International Business Machines Corporation Program subset execution and debug
US9400704B2 (en) 2013-06-12 2016-07-26 Globalfoundries Inc. Implementing distributed debug data collection and analysis for a shared adapter in a virtualized system
US10860465B2 (en) 2014-12-23 2020-12-08 Micro Focus Llc Automatically rerunning test executions
EP3245588A1 (en) 2015-01-16 2017-11-22 Entit Software LLC Root cause analysis of non-deterministic tests
US9690672B2 (en) * 2015-02-20 2017-06-27 International Business Machines Corporation Acquiring diagnostic data selectively
JP2016186719A (ja) 2015-03-27 2016-10-27 富士通株式会社 入出力制御装置、情報処理装置及び入出力制御装置の制御方法
US9734030B2 (en) 2015-10-01 2017-08-15 International Business Machines Corporation Synchronous input/output diagnostic controls
US10042688B2 (en) * 2016-03-02 2018-08-07 Western Digital Technologies, Inc. Self-diagnosis of device drive-detected errors and automatic diagnostic data collection
CN106708655B (zh) 2017-02-16 2021-07-16 中云信安(深圳)科技有限公司 基于二维纠错码的内存加固方法及电路

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050278706A1 (en) 2004-06-10 2005-12-15 International Business Machines Corporation System, method, and computer program product for logging diagnostic information

Also Published As

Publication number Publication date
DE112018001444T5 (de) 2019-12-12
GB2577219A (en) 2020-03-18
GB2577219B (en) 2020-08-26
US20180357115A1 (en) 2018-12-13
GB201917950D0 (en) 2020-01-22
US10599508B2 (en) 2020-03-24
WO2018224971A1 (en) 2018-12-13
JP2020522811A (ja) 2020-07-30

Similar Documents

Publication Publication Date Title
US7882393B2 (en) In-band problem log data collection between a host system and a storage system
US8214551B2 (en) Using a storage controller to determine the cause of degraded I/O performance
US10001929B2 (en) Method and systems for simulating a workload of a storage system
US9176847B2 (en) Managing diagnostic information
KR101949115B1 (ko) 디바이스 드라이버 검출 에러들의 자가 진단 및 자동 진단 데이터 수집
US11176020B2 (en) Server status monitoring system and method using baseboard management controller
JP7064225B2 (ja) 改善されたi/oエラー診断法
US20160259578A1 (en) Apparatus and method for detecting performance deterioration in a virtualization system
US9697113B2 (en) Partial release management
JP2007048017A (ja) ストレージシステム及び記憶制御方法
US20160266951A1 (en) Diagnostic collector for hadoop
US9710319B2 (en) Information processing apparatus and information collection method
US20200026596A1 (en) I/o recovery and diagnostics
US20180341540A1 (en) Call home message containing bundled diagnostic data
US11016862B2 (en) Error-initiated mirror redrive to collect diagnostic information
US20180088802A1 (en) Preemptive event-based data migration
US20240111557A1 (en) Collecting Diagnostic Information from a Failed Container
US11087009B2 (en) Authorization-based messaging
US10691609B2 (en) Concurrent data erasure and replacement of processors
CN112579000A (zh) 数据集覆盖保护

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200612

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211102

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20211215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220405

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20220408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220413

R150 Certificate of patent or registration of utility model

Ref document number: 7064225

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150