JP4012498B2 - 情報処理システム、情報処理装置、情報処理装置の制御方法及びプログラム - Google Patents

情報処理システム、情報処理装置、情報処理装置の制御方法及びプログラム Download PDF

Info

Publication number
JP4012498B2
JP4012498B2 JP2003387942A JP2003387942A JP4012498B2 JP 4012498 B2 JP4012498 B2 JP 4012498B2 JP 2003387942 A JP2003387942 A JP 2003387942A JP 2003387942 A JP2003387942 A JP 2003387942A JP 4012498 B2 JP4012498 B2 JP 4012498B2
Authority
JP
Japan
Prior art keywords
information processing
paths
switching
failure
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003387942A
Other languages
English (en)
Other versions
JP2005149281A (ja
Inventor
誠 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003387942A priority Critical patent/JP4012498B2/ja
Priority to US10/807,202 priority patent/US7093155B2/en
Publication of JP2005149281A publication Critical patent/JP2005149281A/ja
Application granted granted Critical
Publication of JP4012498B2 publication Critical patent/JP4012498B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2051Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant in regular structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media

Description

本発明は、情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラムに関し、特に、記憶装置の障害の検出に関する。
近年、情報処理システムで取り扱われるデータ量が増大している。大容量化した記憶装置では記憶容量に見合うだけの入出力性能と信頼性を確保する必要がある。そのため記憶装置への論理パス(入出力経路)を多重化し、記憶装置へのデータ入出力要求(IO要求)を論理パスに適宜割り当てるものが開発されている。
この論理パスに障害が発生したときに、全ノードの論理ディスク管理テーブルを書き換えることによってIOパスの切り替えを行うことによって、IOパス切り替えのために要する時間を短縮する技術が提案されている(例えば、特許文献1参照。)。
また、システムを構成し、切り離し可能な各部位毎に障害検出回数を記憶するカウンタを設け、またそのカウンタ値を総合的に判定する論理を具備することによって、故障部位を高精度に特定し、故障部位をシステムより排除し、正常部位を用いたシステム動作を継続可能とする技術も提案されている(例えば、特許文献2参照。)。
特開2002−49575号公報 特開平11−296311号公報
前述した従来の技術では、複数設けられた全てのパスに障害が発生して、何回かリトライを行ってIO処理が行えないことが検出されてからサーバを切り替えるものであり、障害検出期間中のスループットの低下については考慮されていなかった。
本発明は、全パスに障害が検出される前に予防的にサーバを切り替えることによって、検出期間中のスループットの低下を防止することを目的とする。
本発明は、物理デバイスに論理的に設定された論理ユニットを備える記憶装置と、前記記憶装置に切り替えて接続され、前記記憶装置に対してデータ入出力を要求する複数の情報処理装置と、を備え、前記論理ユニットと前記複数の情報処理装置との通信経路となる複数のパスを経由してデータ入出力を要求する情報処理システムにおいて、前記情報処理装置は、データ入出力要求の結果からパスに発生した障害を検出する障害検出部と、前記検出された障害の種類を特定する障害管理部と、前記特定された障害の種類によって前記情報処理装置の切り替えの実行の判定基準となるパス数を変更し、所定数のパスに障害が発生したことを検出し、前記所定数が前記判定基準となるパス数を超えた場合は、全てのパスに障害が発生して完全な遮断状態に至る前の段階で、前記記憶装置に接続される情報処理装置を切り替える判定するサーバ切替評価部と、前記切替評価部の判定結果に基づいて、前記論理ユニットに対してデータ入出力を要求する情報処理装置を切り替える切替部と、を備えることを特徴とする。
本発明によると、サーバを切り替える際のパス障害検出期間中のスループットを向上させることができる。
以下、本発明の実施の形態を図面を参照して説明する。
図1は、本実施の第1の形態の情報処理システムの全体構成を示すブロック図である。
情報処理システムは、複数のサーバ(情報処理装置)100a、100bがクラスタ構成をとっているクラスタシステム10、及び、少なくとも1台の記憶装置200を含んで構成される。なお、本実施の形態においては、1台のクラスタシステム10と1台の記憶装置200とを備える情報処理システムについて説明するが、複数台のクラスタシステム10及び複数台の記憶装置200を備える情報処理システムであってもよい。
サーバ100は、CPU(Central Processing Unit)やメモリ等を備え、クライアント端末20からの指示によって、記憶装置200に記憶されたデータにアクセスしながら、各種アプリケーションプログラムを実行する。また、サーバ100には、クラスタシステム10内での当該サーバの動作を管理し、サーバを切り替えるフェイルオーバ処理を行うクラスタ管理部115(クラスタソフトウェア)115が設けられている。また、サーバ100は、複数のパスを論理的に管理し、アプリケーションプログラム110からのIO要求を発行するパスを定めるパス管理部120を備えている。
サーバ100には、ネットワーク(例えば、SAN(Storage Area Network))を介して記憶装置200が接続されている。サーバ100と記憶装置200との間のSANを介する通信は、一般にファイバチャネルプロトコル(Fibre Channel Protocol)に従って行われる。すなわち、サーバ100からは、記憶装置200に対して、ファイバチャネルプロトコルに従ってブロック単位のデータアクセス要求が送信される。なお、サーバ100と記憶装置200とは、必ずしもSANで接続される必要はなく、LAN等のネットワークを介して接続されてもよいし、SCSI(Small Computer System Interface)インターフェースによって直接接続されてもよい。
サーバ100と記憶装置200との間を接続するSANには、サーバ100と記憶装置200とを接続するハードウェアによって物理的に構成される通信経路である物理パス300が設定されている。サーバ100は、複数の物理パス300を介して記憶装置200に記憶されているデータにアクセスする。パス管理部120は、記憶装置200へのIO要求を送信する物理パス300を多重化して、帯域幅を拡大することによって、データアクセスにおけるボトルネックを解消し、データ入出力処理性能を向上させる。なお、パス管理部120は、物理パス300に対応して設定される論理パスによって、物理パス300を管理する。
また、サーバ100は、ネットワーク(例えば、LAN:Local Area Network)を介して、記憶装置クライアント端末20と接続されている。
記憶装置200は、複数の論理ユニット(LU:LogicaI Unit)220を備え、サーバ100から送信されてくるIO要求に応じてデータの入出力を処理する。論理ユニット220は、記憶装置200に備わる記憶資源(物理デバイス)を論理的に設定した記憶領域である。図1において、記憶装置200は、二つの論理ユニットによって構成されているが、3以上の論理ユニットを備えてもよい。記憶資源としては、ハードディスク装置(ディスクアレイ装置)の他、フレキシブルディスク装置や半導体記憶装置等、様々な記憶媒体を用いることができる。
なお、本実施の形態では、サーバ100がコンピュータ(パーソナルコンピュータ、ワークステーション、メインフレームコンピュータ等)である場合について説明したが、サーバ100が、ルータ、ハブ等のネットワーク装置であってもよい。
図2は、本発明の第1の実施の形態のサーバ100の詳細を表した機能ブロック図である。
サーバ100は、クラスタ管理部115、サーバ切替指示部116、パス管理ドライバ130備えている。また、サーバ100には、ホスト・バス・アダプタ(HBA)及びHBAドライバで構成されるインターフェース(IF)140が設けられている。
パス管理ドライバ130は、IO送受信部131、パス選択部132、障害検出部133、障害管理部134、稼動統計管理部135及びサーバ切替評価部136が設けられている。
IO送受信部131は、パス管理部120が受け取ったIO要求を、パス選択部132によって選択されたパス(インターフェース140)に送出し、インターフェース140が受け取ったIO終了をアプリケーション110に通知する。
パス選択部132は、サーバ100と記憶装置200との間の物理パス300を論理的に管理する。また、パス選択132は、アプリケーション110が発行したIO要求を割り当てるIF140を決定して、当該IO要求に使用されるパス300を選択する。そして、IO要求を各物理パス300へ適宜振り分けることによって負荷分散処理も行う。さらに、パス選択部132は、ある物理パス300に障害が発生した場合に当該物理パス300を切り離して、正常な物理パス300を通じて記憶装置200へのデータアクセスを継続する機能も有している。これにより、物理パスの障害によるサービス停止を回避しシステムの信頼性を高めている。
障害検出部133は、IO要求に対して記憶装置200が発行したIO終了通知によって、IO処理が正常に終了したかを監視する。障害検出部133は、IO処理が異常終了したパスID、パスの状態(オンラインか、オフラインか)、障害の発生原因、異常終了が通知された時刻を記憶するIO管理テーブルを保持している。障害検出部133が、IO処理が異常に終了したことを検出すると、IO管理テーブルに障害が発生したパスに関する情報を記憶して、IO管理テーブルを更新する。
また、障害検出部133は、アプリケーション110からのIO要求及び記憶装置200からのIO終了通知から、正常に終了したIO要求のデータ量、当該IO要求に要した処理時間を取得する。
障害管理部134は、パス障害管理テーブル(図7)を保持している。障害管理部134は、IO管理テーブルを読み出すことによってパスの障害情報を取得する。そして、取得したパスの障害情報をパス障害管理テーブルに記憶し、パス毎、エラーの種類毎に計数されるエラーの検出回数(検出値)を更新する。
稼動統計管理部135は、稼動統計管理テーブル(図9)を保持している。稼動統計管理部135は、障害検出部133が取得したIO要求及びIO終了通知から、正常に終了したIO要求のデータ量、当該IO要求に要した処理時間を取得し、稼動統計管理テーブルの該当パス及び該当期間のデータ量(バイト数)及び時間のデータを更新する。
サーバ切替評価部136は、パスに発生したエラーの検出結果に基づいて、クラスタ内のサーバを切り替えるフェイルオーバを実行するかを決定し、その結果をサーバ切替指示部116に送る。このフェイルオーバを実行するかを判定するため、サーバ切替評価部136は、パスに発生するエラーを解析して、以下の3種類のエラー(瞬断エラー、累計エラー、性能エラー)を解析する。
瞬断エラーは、同一パスで一つのIOにおいてエラーが発生したが、続けて発行されるIOは正常に終了した場合に、瞬断エラーと判定される。瞬断エラーは、光ファイバの摩耗や、電源の不安定等の要因によって、伝送経路が不安定となった場合に生じる。
累計エラーは、一定期間内(例えば、一月間)に、所定回数を超えるエラーが発生した場合、累計エラーと判定される。なお、一定期間のエラー回数によって累計エラーを判定するのではなく、エラーを計数する期間を定めずに、一定回数のエラーが発生したら累計エラーと判断してもよい。また、連続した所定回数のIO要求の内でエラーとなった回数が所定の閾値を超えたり、全IO要求のうち所定割合のIO要求がエラーとなったら累計エラーと判断してもよい。
性能エラーは、このパスが設置された状態と比較して、所定の値だけ性能が劣化した場合に、性能エラーと判定される。後述するように、稼動統計管理部135においてIO処理のデータ量と処理時間を取得し、設置当初よりレスポンスが60%劣化した場合に性能エラーと判定することができる。
IF140は、記憶装置200との間で通信を行うためのインタフェースであり、ホスト・バス・アダプタ(HBA)及びHBAドライバを含んでいる。HBAは、例えば、SCSI(Small Computer System Interface)アダプタ、ファイバチャネルアダプタ等のHBA(Host Bus Adapter)である。IF140は、パス300に固有に設けられており、パス選択部132によって割り当てられたIO要求を処理し、記憶装置200に対してアクセスする。すなわち、サーバ100は、IF140によって、記憶装置200との間でデータ入出力要求(IO要求)等を授受することができる。
図3は、本発明の第1の実施の形態の障害検出部の動作を示すブロック図である。
アプリケーション110は、記憶装置200に記憶されているデータにアクセスするために、パス管理部120に入出力を要求する。パス管理部120は、IO要求受付部121によって、アプリケーション110によって発行されるIO要求を受け取る。受け取ったIO要求は、パス管理ドライバ130に送られ、物理パス301〜308が選択されて、IO要求が選択されたパスに対して送信される。
物理パスがオンライン状態(稼動時)であれば、アプリケーション110によって発行されたがIO要求は、記憶装置200によって処理され、IO処理が正常に終了した旨のIO終了通知が返送される。このIO処理通知は、IO終了通知部122によってアプリケーション110に通知される。
しかし、物理パスがオフライン状態(障害時)では、アプリケーション110によって発行されたがIO要求は、記憶装置200によって処理されることなく、記憶装置200までの経路においてタイムアウトし、パス管理ドライバ130に対してIO処理が異常終了した旨をIO終了通知が返送される。パス管理ドライバ130は、IO処理が異常終了した旨を検出すると、他のパスが選択されて、IO要求が記憶装置200に対して送信される。そして、IO要求が記憶装置200によって処理されると、IO処理が正常に終了した旨のIO終了通知が返送される。
例えば、図3に示すように、パス302に対してIO要求を送信したが、このときパス302に障害が生じていた場合、障害検出部133がこれを検出して、パス選択部132が他のパス303を選択して、IO要求を記憶装置200に対して送信する。そして、記憶装置200から返送されたIO終了通知は、アプリケーション110に対して送信される。
前述したパスのエラーは、主にパスを構成する伝送経路の一時的な断線によって生じる障害である。例えば、光ファイバの摩耗がによって瞬断が生じる。よって、同時期に設置された光ファイバは同時期に摩耗して一時的な断線状態(瞬断状態)となり、IO処理に一時的な障害が発生する。そして、何ら措置がとられないと、完全な断線状態に至ってIO障害となる。
サーバ切替部116は、サーバ切替評価部136による決定に基づいて、サーバを切り替えるクラスタフェイルオーバを実行させるためのサーバ切替指示をクラスタ管理部115に発行する。
図4は、本発明の第1の実施の形態のクラスタ切替判定に用いるテーブルの例を説明する図であり、8本のパスが設けられている場合に、サーバ切替部116が、前述した3種類のエラーの判定結果に基づいて、サーバを切り替える判定基準を示す。
テーブルの上段に示すケース1では、全パスのうち半数以上のパスに瞬断エラーが発生した場合に(正常なパスが半数未満となった場合に)、サーバを切り替えることを示す。なお、理解の容易のため図4では、パス1〜パス4に瞬断エラーが発生した場合を示したが、エラーが発止したパスが連続しない他の4本のパスの組み合わせである場合にもフェイルオーバを行うと判定される。
テーブルの中段に示すケース2では、全パスのうち70%以上のパスに累計エラーが発生した場合に(正常なパスが30%未満となった場合に)、サーバを切り替えることを示す。なお、理解の容易のため図4では、パス1〜パス6に累計エラーが発生した場合を示したが、エラーが発止したパスが連続しない他の6本のパスの組み合わせである場合にもフェイルオーバを行うと判定される。
テーブルの下段に示すケース3では、全パスのうち80%以上のパスに性能エラーが発生した場合に(正常なパスが20%未満となった場合に)、サーバを切り替えることを示す。なお、理解の容易のため図4では、パス1〜パス7に性能エラーが発生した場合を示したが、エラーが発止したパスが連続しない他の7本のパスの組み合わせである場合にもフェイルオーバを行うと判定される。
なお、一つのパスに複数のエラーが発生していると判定される場合には、スループットの低下への影響が大きく、情報処理システムが停止に至る可能性が高い重大なエラーを当該パスに生じたエラーであると判定する。図4に示す場合では、瞬断エラーは光ファイバの摩耗が主たる原因であり、同時期に設置された光ファイバは同時期に摩耗して故障する可能性が高いため、半数のパスにエラーが発生した場合にフェイルオーバを実行して、早めにサーバを切り替えて、スループットの低下を防止している。一方、性能エラーの場合には、IO処理に時間がかかるだけで、IOの処理が行えない訳ではないので、多くのパスに性能エラーが発生するまでフェイルオーバを行うことなく、現用のサーバ及びパスにて稼動させるようにしている。
図5は、本発明の第1の実施の形態のサーバ切替処理のフローチャートである。
まず、アプリケーション110が発行しIO要求受付部121が受信したIO要求は、パス選択部132が選択したパス301〜308に対して、IO送受信部131によって送信される。そして、記憶装置200によるIO処理が完了すると、IO処理が正常に終了した旨のIO終了通知が、記憶装置200から発行され、IO送受信部131及びIO終了通知部122を経由して、アプリケーション110に返される(S501)。なお、IO処理が正常に終了しなかった場合には、IO処理が異常終了した旨のIO終了通知は発行される。
IO処理が完了すると、当該IO処理に関するIO障害(エラー)を検出する(S502)。そして、当該検出された障害に関する情報を障害管理テーブルへ記載して、障害管理テーブルを更新し(S503)、ステップS505に進む。一方、IO障害「無」と判定されると、当該パスのIO処理の結果を稼動統計テーブルへ記載し、稼動統計テーブルの当該パスの性能情報を更新し(S504)、ステップS505に進む。
ステップS505では、図4において前述した方法(又は、図12において後述する方法)によって、全パスの障害状態を評価する。そして、所定の閾値との比較結果に基づいてサーバ切替の必要性を判定する(S506)。
図6は、本発明の第1の実施の形態の障害管理テーブル更新処理のフローチャートであり、サーバ切替処理(図5)のステップS503において実行される。
まず、障害検出部133が、記憶装置200等から発行されたIO終了通知によって、IO処理が正常に行われたか、IO処理の途中でエラーが生じたかを評価する(S601)。
そして、IO障害の有無を判定する(S602)。その結果、IO障害「無」と判定されると、累計エラーに関する処理(S603〜S606)を実行することなく、ステップS607へ移行する。一方、IO障害「有」と判定されると、ステップS603へ移行して、累計エラーに関する処理(S603〜S606)を実行する。
累計エラーに関する処理では、まず、障害管理テーブル内の当該パスの累計エラー欄における開始時刻と監視期間を参照して、現在時が所定の監視時間範囲内であるかによって、所定の監視時間内に生じたIO障害であるかを判定する(S603)。その結果、所定の監視時間内に生じたIO障害であれば、ステップS606に移行し、累計エラーの検出値にエラー回数(1回)を加算し、この処理を終了する。
一方、ステップS603による判定の結果、所定の監視時間外に発生したエラーであると判定されると、現在時刻を監視の開始時刻に設定し(S604)、累計エラーの検出値を”0”にして(S605)、新たな監視時間を開始する。そして、累計エラーの検出値にエラー回数(1回)を加算し(S606)、この処理を終了する。
次に、IO障害「無」と判定されステップS607へ移行すると、所定の瞬断監視時間(図6に示す例では1秒前)の間に実行されたIO処理における、IO障害の有無を判定する(S607)。その結果、過去1秒間にIO障害が発生していないと判定されると、瞬断エラーに関する処理(S608〜S611)を実行することなく、エラーは発生していないと判定して(ステップS612)、この処理を終了する。
一方、過去1秒間にIO障害が発生していると判定されると、ステップS603へ移行して、瞬断エラーに関する処理(S608〜S611)を実行する。
瞬断エラーに関する処理では、まず、障害管理テーブル内の当該パスの瞬断エラー欄における開始時刻と監視期間を参照して、現在時が所定の監視時間範囲内であるかによって、所定の監視時間内に生じたIO障害であるかを判定する(S608)。その結果、所定の監視時間内に生じたIO障害であれば、ステップS611に移行し、瞬断エラーの検出値にエラー回数(1回)を加算し、この処理を終了する。
一方、ステップS608による判定の結果、所定の監視時間外に発生したエラーであると判定されると、現在時刻を監視の開始時刻に設定し(S609)、瞬断エラーの検出値を”0”にして(S610)、新たな監視時間を開始する。そして、瞬断エラーの検出値にエラー回数(1回)を加算し(S611)、この処理を終了する。
図7は、本発明の第1の実施の形態のパス障害管理テーブルの説明図である。
パス障害管理テーブルには、パス毎、エラーの種類毎に、当該種類のエラーに関する監視開始時刻、監視期間、判定値、検出値が記憶されている。
例えば、瞬断エラーは、2003年9月1日10時20分30.02秒から30日間を監視時間として監視が行われる。その監視時間内に瞬断エラーの発生が検出されると検出値が1ずつ加算され、障害管理テーブルが更新される。また、監視時間内に、判定値(20回)の瞬断エラーの発生が検出されると、当該パスは瞬断エラーとであると判定される。なお、監視時間内に複数回の瞬断エラーが検出されたときに瞬断エラーが発生したと判定するのは、電源の不安定等の一時的な要因によるパスの不安定を瞬断エラーであると誤認することを避けるためである。
なお、性能エラーは複数回のIO処理の平均によって定められるので、1回でも性能の低下が認められると性能エラーであると判定することから、監視期間は定められていない。
図8は、本発明の第1の実施の形態の稼動統計テーブル更新処理のフローチャートであり、サーバ切替処理(図5)のステップS504において実行される。
まず、サーバ内に設けられたタイマから月日及び時間を取得して、当該月の特定の日時(図6に示す例では月初め、すなわち1日の0時)であるかを判定する(S801)。そして、月初めでなければステップS804に移行する。一方、月初めが検出されると、稼動統計テーブルに新たに始まる月のデータを記録する欄を追加し(S802)、IO処理において当該パスに送付したデータ量、及び当該IO処理に要した時間を”0”に初期設定して(S803)、新たな期間における性能の監視の準備をする。
そして、正常に終了したIO処理において使用したパスに送付したデータ量、及び当該IO処理に要した時間を稼動統計テーブルの該当する欄に加算する(S804)。
そして、所定の割合(図8に示す例では60%)だけ性能が劣化しているかを判定する(S805)。この判定は、定期的(例えば、1日1回)や、ユーザからの指示によって行われる。この判定の結果、60%の性能劣化が見られたら性能エラーと判定して(S806)、この処理を終了する。一方、60%までも性能が劣化していなかったら性能エラーと判定することなく、この処理を終了する。
なお、図8では、月単位で当該パスの性能(当該パスによるIO処理のレスポンス)を集計しているが、任意の期間を設定して性能を監視してもよい。
図9は、本発明の第1の実施の形態の稼動統計管理テーブルの説明図である。
稼動統計管理テーブルには、パス毎、月毎に、IO処理によって当該パスに送付したデータ量の累積値、及び当該パスにおけるIO処理に要した時間の累積値が記録されている。そして、累積データ量を累積処理時間で除することによって、当該監視期間のIO処理のレスポンスを求めることができる。
なお、稼動統計テーブルには、性能が最も良好であった期間(通常は設置時)のレスポンスと、現在の監視期間のIO処理のデータ量の累積値及びIO処理の所要時間の累積値を記録していれば足りる。
また、図9に示す稼動統計管理テーブルでは、IO処理のデータ量とIO処理の所要時間とを月毎に記録しているが、他の監視期間を定めて、パスの性能を監視してもよい。
図10は、本発明の第1の実施の形態のサーバ切替判定処理のフローチャートであり、サーバ切替処理(図5)のステップS506において実行される。
まず、障害管理テーブル(図7)を参照して、パス毎に検出値が判定値を超えているか否かを判定する(S1001)。検出値が判定値を超えていれば、エラーが発生したパスを特定する(S1002)。この判定値との比較作業を全てのパスについて行う。
そして、IO処理負荷が高い時間帯(日中)であるか否かを判定する(S1003)。本実施の形態のような情報処理システムでは、IO処理負荷が高い時間帯(高負荷時間帯)と、IO処理負荷が低い時間帯(低負荷時間帯))とが存在する。例えば、銀行のオンラインシステムや航空会社における座席予約システムの場合には日中の負荷が高くなるので、予めIO処理負荷を調査した結果に基づいて、高負荷時間帯と低負荷時間帯とを定めておく。
そして、日中(高負荷時間帯)であれば、サーバ切替閾値テーブル(図11)の日中欄を選択し(S1004)、夜間(低負荷時間帯)であれば、サーバ切替閾値テーブルの夜間欄を選択して(S1005)、判定閾値を定める。図11に示すサーバ切替閾値テーブルでは、エラーの種類毎に全パス数に対して判定閾値となるパス数の比率が定められている。
そして、ステップS1002で特定したエラーが発生しているパス数と、S1004又はS1005で選択した閾値とを比較して(S1006)、エラーパス数が閾値以上であれば、サーバ切替指示を発行する(S1007)。
すなわち、図11に示すサーバ切替閾値テーブルで、全パス数が8本であり、瞬断エラーの場合には、日中は4本(8本×0.5=4)が閾値となるが、夜間は3本(8本×0.4=3.2)が閾値となる。よって、夜間は日中より少ない本数のパスで瞬断エラーが検出されてもサーバの切替(フェイルオーバ)が発生することになる。よって、IO負荷が高い時間帯(日中)にはフェイルオーバを抑制して、IO負荷が低い時間帯(夜間)に優先してフェイルオーバをさせることができる。
なお、判定閾値を時間によって定めるのではなく、稼動統計管理部135が収集したIO処理量やスループットに基づいて、IO処理負荷が低い時間帯の判定閾値を緩和して定め、フェイルオーバを促進し、IO処理負荷が高い時間帯の判定基準を厳しく定め、フェイルオーバを抑制するようにしてもよい。
図12は、本発明の第2の実施の形態のパスの障害判定に用いるテーブルの例を説明する図である。
第2の実施の形態では、エラーが発生しているパスの、エラーの種類によって定められた点数を加算して、各パスで合計することによって点数を算出して、フェイルオーバをするかを判定するものであり、第1の実施の形態(図4)のようにパスに1種類のエラーが発生している場合の他、パスに複数種類のエラーが発生している場合も的確に障害を判定することができる。
具体的には、瞬断エラーの場合は”2”を、累計エラーの場合は”1.43”を、性能エラーの場合は”1.25”を加算して、合計点数を求める。そして、全パス本数と比較してフェイルオーバをするかを判定する。このエラーの種類毎のエラー点数は、スループットの低下に対する影響の大きさによって、そのエラーが重大であれば点数を高くして、早めにサーバを切り替えるようにしている。
例えば、テーブルの上段に示すケース4では、3本のパスに瞬断エラーが発生しており、2本のパスに累計エラーが発生しているので、合計点数は、
3×2+2×1.43=8.86 となり、全パス数(8本)を超えるのでフェイルオーバが必要と判定される。
同様に、テーブルの中段に示すケース5では、3本のパスに累計エラーが発生しており、4本のパスに性能エラーが発生しているので、合計点数は、
3×1.43+4×1.25=9.29 となり、全パス数(8本)を超えるのでフェイルオーバが必要と判定される。
さらに、テーブルの下段に示すケース6では、2本のパスに瞬断エラーが発生しており、2本のパスに累計エラーが発生しており、2本のパスに性能エラーが発生しているので、合計点数は、
2×2+2×1.43+2×1.25=9.36 となり、全パス数(8本)を超えるのでフェイルオーバが必要と判定される。
図13は、本発明の第2の実施の形態のサーバ切替判定処理のフローチャートであり、サーバ切替処理(図5)のステップS506において実行される。なお、第2の実施の形態では、サーバ切替処理が異なるのみで他の処理は前述した第1の実施の形態と同じなので、その詳細な説明は省略する。
まず、障害管理テーブル(図7)を参照して、パス毎に検出値が判定値を超えているか否かについて判定する(S1301)。検出値が判定値を超えていれば、閾値を超えているエラーの種類を求め、エラーの種類を特定する(S1302)。この判定値との比較作業を全てのパスについて行う。
このとき、複数の種類のエラーの検出値が判定値を超えていれば、その中で一番重要なエラーをそのパスのエラーの種類として特定する。エラーの重要度は、スループットの低下に対する影響等を考慮して予め定めておく。例えば、瞬断エラー、累計エラー、性能エラーの順に重要なエラーとして定めておくとよい。また、検出された複数の種類のエラーのポイントを加算してもよい。
そして、IO処理負荷が高い時間帯(日中)であるか否かを判定する(S1303)。本実施の形態のような情報処理システムでは時間帯によってIO処理負荷が異なることから、高負荷時間帯と低負荷時間帯とを定めておく。
そして、日中(高負荷時間帯)であれば、エラー点数テーブル(図14)の日中欄を選択し(S1304)、夜間(低負荷時間帯)であれば、エラー点数テーブルの夜間欄を選択して(S1305)、各エラーに関連して加算される点数を定める。図14に示すエラー点数テーブルでは、エラーの種類毎に、そのエラーが発生したパスに付与される点数が定められている。
そして、ステップS1302でパス毎に特定されたエラーの種類に対応して定まるエラー点数の合計値と、閾値(本実施の形態ではパス数)とを比較して(S1306)、エラー点数の合計値が閾値以上であれば、サーバ切替指示を発行する(S1307)。
以上説明したように、第2の実施の形態では、エラーの種類によって定められた点数を用いることによって、パスに発生したエラーが複数種類にわたっている場合にも的確に障害を判定することができる。また、8本のパス中の6本のパスに性能エラーが発生した場合、日中ではエラー点数が7.5(6本×1.25)となり、夜間ではエラー点数が8.28(6本×1.38)となり判定閾値(8本)を超える。よって、IO負荷が高い時間帯(日中)にはフェイルオーバを抑制して、IO負荷が低い時間帯(夜間)に優先してフェイルオーバをさせることができる。
なお、エラー点数を時間によって定めるのではなく、稼動統計管理部135が収集したIO処理量やスループットに基づいて、IO処理負荷が低い時間帯はエラー点数を高くし、IO処理負荷が高い時間帯はエラー点数を低く定めるようにしてもよい。
図15は、本発明の第3の実施の形態のサーバ切替判定処理のフローチャートであり、サーバ切替処理(図5)のステップS506において実行される。
第3の実施の形態では、時間帯(又は、IO処理負荷)によって判定閾値を変える第1の実施の形態と異なり、時間帯によって判定対象となるエラー種別を変えることによって、フェイルオーバを抑制する。なお、第3の実施の形態では、サーバ切替処理が異なるのみで他の処理は前述した第1の実施の形態と同じなので、その詳細な説明は省略する。
まず、障害管理テーブル(図7)を参照して、パス毎に検出値が判定値を超えているか否かについて判定する(S1501)。検出値が判定値を超えていれば、閾値を超えているエラーの種類を求め、エラーの種類を特定する(S1502)。この判定値との比較作業を全てのパスについて行う。このとき、一つのパスにおいて複数の種類のエラーの検出値が判定値を超えていれば、当該複数のエラーをそのパスのエラーの種類として特定する。
そして、IO処理負荷が高い時間帯(日中)であるか否かを判定する(S1503)。本実施の形態のような情報処理システムでは時間帯によってIO処理負荷が異なることから、高負荷時間帯と低負荷時間帯とを定めておく。
そして、日中(高負荷時間帯)であれば、性能エラーを除外して、パス毎のエラー種別を特定し直す(S1504)。すなわち、あるパスに性能エラーのみが発生している場合には、当該パスにはエラーが発生していないものとする。また、あるパスに性能エラー及び他のエラー(例えば、瞬断エラー)のみが発生している場合には、当該パスには当該他のエラー(瞬断エラー)が発生しているものとする。
そして、ステップS1002で特定したエラーが発生しているパス数と、予め定めた閾値(例えば、パス数の半分)とを比較して(S1505)、エラーパス数が閾値以上であれば、サーバ切替指示を発行する(S1506)。
なお、ステップS1502、S1504でパス毎に特定されたエラーの種類に対応して定まるエラー点数の合計値と、閾値(本実施の形態ではパス数)とを比較して、エラー点数の合計値が閾値以上であれば、サーバ切替指示を発行してもよい。
以上説明したように、第3の実施の形態では、一部の種類のエラーについてはエラーの判定をしないので(又は、一部の種類のエラーのみについてエラーの判定をするので)、IO負荷が高い時間帯(日中)にはフェイルオーバを抑制して、IO負荷が低い時間帯(夜間)に優先してフェイルオーバをさせることができる。
本発明の実施の形態では、情報処理装置は、データ入出力要求の結果からパスに発生した障害を検出する障害検出部と、所定数のパスに障害が発生したことを検出すると、全てのパスに障害が発生する前でも、前記記憶装置に接続される情報処理装置を切り替える情報処理装置の切り替えを実行するかを判定する切替評価部と、前記切替評価部の判定結果に基づいて、前記論理ユニットに対してデータ入出力を要求する情報処理装置を切り替える切替部と、を備えるので、サーバを切り替える際のパス障害検出期間中のスループットを向上させることができると共に、全パスに障害が検出される前に予防的にサーバを切り替えることによって、検出期間中のスループットの低下を防止することができる。
また、前記サーバ切替評価部は、前記障害検出部によって特定された障害の種類によって、前記情報処理装置の切り替えの実行の判定基準となるパス数を変更するので、障害の重大度に応じて適切な情報処理装置の切り替えの判定をすることができる。
また、前記サーバ切替評価部は、前記障害検出部によって特定された複数種類の障害の組み合わせに基づいて前記情報処理装置の切り替えの実行を判定するので、複数のパスに異なる種類の障害が発生しても適切に情報処理装置の切り替えの判定をすることができる。
また、前記サーバ切替評価部は、データ入出力要求の負荷状態に応じて前記情報処理装置の切り替えの実行の判定基準となるパス数を変更するので、高負荷時間帯における情報処理装置の切り替えを抑制し、低負荷時間帯における情報処理装置の切り替えを促進するので、業務に影響が少ない時間帯に情報処理装置の切り替えをさせることができる。
本発明の第1の実施の形態の情報処理システムの全体構成を示すブロック図である。 本発明の第1の実施の形態のサーバ100の詳細を表した機能ブロック図である。 本発明の第1の実施の形態の障害検出部133の動作を示すブロック図である。 本発明の第1の実施の形態のクラスタ切替判定に用いるテーブルの説明図である。 本発明の第1の実施の形態のサーバ切替処理のフローチャートである。 本発明の第1の実施の形態の障害管理テーブル更新処理のフローチャートである。 本発明の第1の実施の形態の障害管理テーブルの説明図である。 本発明の第1の実施の形態の稼動統計テーブル更新処理のフローチャートである。 本発明の第1の実施の形態の稼動統計管理テーブルの説明図である。 本発明の第1の実施の形態のサーバ切替判定処理のフローチャートである。 本発明の第1の実施の形態のサーバ切替閾値テーブルの説明図である。 本発明の第2の実施の形態のパスの障害判定に用いるテーブルの例の説明図である。 本発明の第2の実施の形態のサーバ切替判定処理のフローチャートである。 本発明の第2の実施の形態のエラー点数テーブルの説明図である。 本発明の第3の実施の形態のサーバ切替判定処理のフローチャートである。
符号の説明
10 クラスタシステム
100 情報処理装置
110 アプリケーション
115 クラスタ管理部
116 サーバ切替指示
120 パス管理部
130 パス管理ドライバ
131 IO送受信部
132 パス選択部
133 障害検出部
134 障害管理部
135 稼動統計管理部
136 サーバ切替評価部
140 インターフェース(IF)
200 記憶装置
210 ディスク制御部
220 論理ユニット(LU)
300 物理パス

Claims (17)

  1. 物理デバイスに論理的に設定された論理ユニットを備える記憶装置と、
    前記記憶装置に切り替えて接続され、前記記憶装置に対してデータ入出力を要求する複数の情報処理装置と、を備え、
    前記論理ユニットと前記複数の情報処理装置との通信経路となる複数のパスを経由してデータ入出力を要求する情報処理システムにおいて、
    前記情報処理装置は、
    データ入出力要求の結果からパスに発生した障害を検出する障害検出部と、
    前記検出された障害の種類を特定する障害管理部と、
    前記特定された障害の種類によって前記情報処理装置の切り替えの実行の判定基準となるパス数を変更し、所定数のパスに障害が発生したことを検出し、前記所定数が前記判定基準となるパス数を超えた場合は、全てのパスに障害が発生して完全な遮断状態に至る前の段階で、前記記憶装置に接続される情報処理装置を切り替えると判定するサーバ切替評価部と、
    前記切替評価部の判定結果に基づいて、前記論理ユニットに対してデータ入出力を要求する情報処理装置を切り替える切替部と、を備えることを特徴とする情報処理システム。
  2. 前記障害管理部は、パスの瞬断によって生じる瞬断エラーを特定し、
    前記サーバ切替評価部は、前記瞬断エラーによる情報処理装置の切り替えの実行の判定基準となるパス数を、他のエラーによる情報処理装置の切り替えの実行の判定基準となるパス数より大きく設定することを特徴とする請求項1に記載の情報処理システム。
  3. 前記障害管理部は、パスの性能の劣化によって生じる性能エラーを特定し、
    前記サーバ切替評価部は、前記性能エラーによる情報処理装置の切り替えの実行の判定基準となるパス数を、他のエラーによるフェイルオーバの実行の判定基準となるパス数より小さく設定することを特徴とする請求項1に記載の情報処理システム。
  4. 前記サーバ切替評価部は、前記特定された複数種類の障害の組み合わせに基づいて前記情報処理装置の切り替えの実行を判定することを特徴とする請求項1に記載の情報処理システム。
  5. 前記サーバ切替評価部は、パスに発生した種類の障害に応じて定められた点数の集計結果に基づいて、前記情報処理装置の切り替えを実行するかを判定することを特徴とする請求項4に記載の情報処理システム。
  6. 前記サーバ切替評価部は、データ入出力要求の負荷状態に応じて前記情報処理装置の切り替えの実行の判定基準となるパス数を変更することを特徴とする請求項1に記載の情報処理システム。
  7. 前記サーバ切替評価部は、データ入出力要求の負荷状態が高くなる時間帯には、前記情報処理装置の切り替えの実行の判定基準となるパス数を、他の時間帯より小さく設定することを特徴とする請求項1に記載の情報処理システム。
  8. 物理デバイスに論理的に設定された論理ユニットを備える記憶装置と、
    前記記憶装置に切り替えて接続され、前記記憶装置に対してデータ入出力を要求する複数の情報処理装置と、を備え、
    前記論理ユニットと前記複数の情報処理装置との通信経路となる複数のパスを経由してデータ入出力を要求する情報処理システムにおいて、
    前記情報処理装置は、
    前記記憶装置に送信されるデータ入出力要求を割り当てるパスを選択するパス選択部と、
    前記パス選択部によって選択されたパスに対して発生したデータ入出力要求を送出するIO送受信部と、
    正常に終了したデータ入出力要求の処理状態を集計する稼動統計管理部と、
    前記パスに発生した障害を検出する障害検出部と、
    前記検出された障害の種類を特定し、パス毎、エラーの種類毎にエラーの検出回数を集計する障害管理部と、
    前記特定された障害の種類によって前記情報処理装置の切り替えの実行の判定基準となるパス数を変更し、所定数のパスに障害が発生したことを検出し、前記所定数が前記判定基準となるパス数を超えた場合は、全てのパスに障害が発生して完全な遮断状態に至る前の段階で、前記記憶装置に接続される情報処理装置を切り替えると判定するサーバ切替評価部と
    前記切替評価部の判定結果に基づいて、前記論理ユニットに対してデータ入出力を要求する情報処理装置を切り替える切替部と、を備えることを特徴とする情報処理システム。
  9. 物理デバイスに論理的に設定された論理ユニットを備えた記憶装置に対して、前記記憶装置に対して切り替えて接続され、前記論理ユニットと複数の情報処理装置との通信経路となる複数のパスを経由してデータ入出力を要求する情報処理装置において、
    データ入出力要求の結果からパスに発生した障害を検出する障害検出部と、
    前記検出された障害の種類を特定する障害管理部と、
    前記特定された障害の種類によって前記情報処理装置の切り替えの実行の判定基準となるパス数を変更し、所定数のパスに障害が発生したことを検出し、前記所定数が前記判定基準となるパス数を超えた場合は、全てのパスに障害が発生して完全な遮断状態に至る前の段階で、前記記憶装置に接続される情報処理装置を切り替えると判定するサーバ切替評価部と、
    前記切替評価部の判定結果に基づいて、前記論理ユニットに対してデータ入出力を要求する情報処理装置を切り替える切替部と、を備えることを特徴とする情報処理装置。
  10. 前記サーバ切替評価部は、前記特定された複数種類の障害の組み合わせに基づいて前記情報処理装置の切り替えの実行を判定することを特徴とする請求項9に記載の情報処理装置。
  11. 前記サーバ切替評価部は、データ入出力要求の負荷状態に応じて前記情報処理装置の切り替えの実行の判定基準となるパス数を変更することを特徴とする請求項9に記載の情報処理装置。
  12. 物理デバイスに論理的に設定された論理ユニットを備えた記憶装置に対して、前記論理ユニットと複数の情報処理装置との通信経路となる複数のパスを経由してデータ入出力を要求する情報処理装置において、前記記憶装置に接続される複数の情報処理装置を切り替える情報処理装置の制御方法であって、
    データ入出力要求の結果からパスに発生した障害を検出し、
    前記検出された障害の種類を特定し、
    前記特定された障害の種類によって前記情報処理装置の切り替えの実行の判定基準となるパス数を変更し、
    所定数のパスに障害が発生したことを検出し、前記所定数が前記判定基準となるパス数を超えた場合は、全てのパスに障害が発生して完全な遮断状態に至る前の段階で、前記記憶装置に接続される情報処理装置の切り替えを実行すると判定し、
    前記切替評価部の判定結果に基づいて、前記論理ユニットに対してデータ入出力を要求する情報処理装置を切り替えることを特徴とする制御方法。
  13. 前記検出した障害の種類を特定し、
    前記特定された複数種類の障害の組み合わせに基づいて前記情報処理装置の切り替えの実行を判定することを特徴とする請求項12に記載の制御方法。
  14. データ入出力要求の負荷状態に応じて前記情報処理装置の切り替えの実行の判定基準となるパス数を変更することを特徴とする請求項12に記載の制御方法。
  15. 物理デバイスに論理的に設定された論理ユニットを備えた記憶装置に対して、前記論理ユニットと複数の情報処理装置との通信経路となる複数のパスを経由してデータ入出力を要求する情報処理装置を機能させるプログラムであって、
    データ入出力要求の結果からパスに発生した障害を検出する手段と、
    前記検出された障害の種類を特定する手段と、
    前記特定された障害の種類によって前記情報処理装置の切り替えの実行の判定基準となるパス数を変更する手段と、
    所定数のパスに障害が発生したことを検出し、前記所定数が前記判定基準となるパス数を超えた場合は、全てのパスに障害が発生して完全な遮断状態に至る前の段階で、前記記憶装置に接続される情報処理装置の切り替えを実行すると判定する手段と、
    前記切替評価部の判定結果に基づいて、前記論理ユニットに対してデータ入出力を要求する情報処理装置を切り替える手段として機能させることを特徴とするプログラム。
  16. 前記特定された複数種類の障害の組み合わせに基づいて前記情報処理装置の切り替えの実行を判定する手段として機能させることを特徴とする請求項15に記載のプログラム。
  17. データ入出力要求の負荷状態に応じて前記情報処理装置の切り替えの実行の判定基準となるパス数を変更する手段として機能することを特徴とする請求項15に記載のプログラム。
JP2003387942A 2003-11-18 2003-11-18 情報処理システム、情報処理装置、情報処理装置の制御方法及びプログラム Expired - Fee Related JP4012498B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003387942A JP4012498B2 (ja) 2003-11-18 2003-11-18 情報処理システム、情報処理装置、情報処理装置の制御方法及びプログラム
US10/807,202 US7093155B2 (en) 2003-11-18 2004-03-24 Information processing system and method for path failover

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003387942A JP4012498B2 (ja) 2003-11-18 2003-11-18 情報処理システム、情報処理装置、情報処理装置の制御方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2005149281A JP2005149281A (ja) 2005-06-09
JP4012498B2 true JP4012498B2 (ja) 2007-11-21

Family

ID=34616173

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003387942A Expired - Fee Related JP4012498B2 (ja) 2003-11-18 2003-11-18 情報処理システム、情報処理装置、情報処理装置の制御方法及びプログラム

Country Status (2)

Country Link
US (1) US7093155B2 (ja)
JP (1) JP4012498B2 (ja)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7469282B2 (en) 2003-01-21 2008-12-23 At&T Intellectual Property I, L.P. Method and system for provisioning and maintaining a circuit in a data network
US7639623B2 (en) * 2003-12-23 2009-12-29 At&T Intellectual Property I, L.P. Method and system for real time simultaneous monitoring of logical circuits in a data network
US8199638B2 (en) 2003-12-23 2012-06-12 At&T Intellectual Property I, L.P. Method and system for automatically rerouting logical circuit data in a data network
US7609623B2 (en) 2003-12-23 2009-10-27 At&T Intellectual Property I, L.P. Method and system for automatically rerouting data from an overbalanced logical circuit in a data network
US7350099B2 (en) * 2003-12-23 2008-03-25 At&T Bls Intellectual Property, Inc. Method and system for utilizing a logical failover circuit for rerouting data between data networks
US7646707B2 (en) 2003-12-23 2010-01-12 At&T Intellectual Property I, L.P. Method and system for automatically renaming logical circuit identifiers for rerouted logical circuits in a data network
US8203933B2 (en) 2003-12-23 2012-06-19 At&T Intellectual Property I, L.P. Method and system for automatically identifying a logical circuit failure in a data network
US7639606B2 (en) 2003-12-23 2009-12-29 At&T Intellectual Property I, L.P. Method and system for automatically rerouting logical circuit data in a virtual private network
US8223632B2 (en) * 2003-12-23 2012-07-17 At&T Intellectual Property I, L.P. Method and system for prioritized rerouting of logical circuit data in a data network
US7630302B2 (en) * 2003-12-23 2009-12-08 At&T Intellectual Property I, L.P. Method and system for providing a failover circuit for rerouting logical circuit data in a data network
US7231543B2 (en) * 2004-01-14 2007-06-12 Hewlett-Packard Development Company, L.P. Systems and methods for fault-tolerant processing with processor regrouping based on connectivity conditions
US7768904B2 (en) 2004-04-22 2010-08-03 At&T Intellectual Property I, L.P. Method and system for fail-safe renaming of logical circuit identifiers for rerouted logical circuits in a data network
US8339988B2 (en) 2004-04-22 2012-12-25 At&T Intellectual Property I, L.P. Method and system for provisioning logical circuits for intermittent use in a data network
US7460468B2 (en) 2004-04-22 2008-12-02 At&T Intellectual Property I, L.P. Method and system for automatically tracking the rerouting of logical circuit data in a data network
US7275192B2 (en) * 2004-04-22 2007-09-25 At&T Bls Intellectual Property, Inc. Method and system for on demand selective rerouting of logical circuit data in a data network
US7466646B2 (en) 2004-04-22 2008-12-16 At&T Intellectual Property I, L.P. Method and system for automatically rerouting logical circuit data from a logical circuit failure to dedicated backup circuit in a data network
JP2006107151A (ja) * 2004-10-06 2006-04-20 Hitachi Ltd ストレージシステム及びストレージシステムの通信パス制御方法
JP4617847B2 (ja) * 2004-11-04 2011-01-26 株式会社日立製作所 情報処理システム及びアクセス方法
US7437608B2 (en) 2004-11-15 2008-10-14 International Business Machines Corporation Reassigning storage volumes from a failed processing system to a surviving processing system
US7383473B2 (en) * 2005-03-01 2008-06-03 Time Warner Cable, Inc. System and method for identifying and isolating faults in a video on demand provisioning system
US7990847B1 (en) * 2005-04-15 2011-08-02 Cisco Technology, Inc. Method and system for managing servers in a server cluster
JP2007052509A (ja) * 2005-08-15 2007-03-01 Fujitsu Ltd ディスクアレイ装置における媒体エラーリカバリ装置、方法、及びプログラム
US7752488B2 (en) * 2006-01-06 2010-07-06 International Business Machines Corporation Method to adjust error thresholds in a data storage and retrieval system
JP5068023B2 (ja) * 2006-03-29 2012-11-07 株式会社日立製作所 計算機システム及び論理パス切替方法
JP4829670B2 (ja) * 2006-04-28 2011-12-07 株式会社日立製作所 San管理方法およびsan管理システム
US8295162B2 (en) 2006-05-16 2012-10-23 At&T Intellectual Property I, L.P. System and method to achieve sub-second routing performance
JP2007310656A (ja) * 2006-05-18 2007-11-29 Hitachi Ltd 計算機システム及び論理パス差分検出方法
JP5179031B2 (ja) * 2006-09-13 2013-04-10 株式会社日立製作所 空きポートを有効に活用したストレージシステム
JP4969972B2 (ja) * 2006-09-27 2012-07-04 株式会社日立製作所 論理的なパスの数を制御する装置及び方法
CN101529402B (zh) * 2006-12-20 2012-02-08 富士通株式会社 通信处理装置以及通信处理方法
US8209417B2 (en) * 2007-03-08 2012-06-26 Oracle International Corporation Dynamic resource profiles for clusterware-managed resources
JP2008269462A (ja) * 2007-04-24 2008-11-06 Hitachi Ltd ノードの管理装置及び方法
US7921324B2 (en) * 2007-07-12 2011-04-05 International Business Machines Corporation Providing file system availability during local path failure of a non-server node
JP2009181536A (ja) * 2008-02-01 2009-08-13 Dainippon Screen Mfg Co Ltd ソフトウェアの障害管理装置、テスト管理装置、ならびにそれらのプログラム
US8051335B1 (en) * 2008-06-02 2011-11-01 Network Appliance, Inc. Recovery from transitory storage area network component failures
JP4747203B2 (ja) 2009-01-30 2011-08-17 富士通株式会社 ディスクアレイ装置、ディスクアレイ装置制御プログラム及びディスクアレイ装置制御方法
JP2010205208A (ja) * 2009-03-06 2010-09-16 Nec Corp ホストコンピュータ、マルチパスシステム、パス割当方法およびプログラム
US8683108B2 (en) 2010-06-23 2014-03-25 International Business Machines Corporation Connected input/output hub management
US8645767B2 (en) * 2010-06-23 2014-02-04 International Business Machines Corporation Scalable I/O adapter function level error detection, isolation, and reporting
US8671287B2 (en) 2010-06-23 2014-03-11 International Business Machines Corporation Redundant power supply configuration for a data center
US8645606B2 (en) 2010-06-23 2014-02-04 International Business Machines Corporation Upbound input/output expansion request and response processing in a PCIe architecture
US8745292B2 (en) 2010-06-23 2014-06-03 International Business Machines Corporation System and method for routing I/O expansion requests and responses in a PCIE architecture
US8417911B2 (en) 2010-06-23 2013-04-09 International Business Machines Corporation Associating input/output device requests with memory associated with a logical partition
US8615622B2 (en) 2010-06-23 2013-12-24 International Business Machines Corporation Non-standard I/O adapters in a standardized I/O architecture
US8656228B2 (en) 2010-06-23 2014-02-18 International Business Machines Corporation Memory error isolation and recovery in a multiprocessor computer system
US8677180B2 (en) 2010-06-23 2014-03-18 International Business Machines Corporation Switch failover control in a multiprocessor computer system
US8918573B2 (en) 2010-06-23 2014-12-23 International Business Machines Corporation Input/output (I/O) expansion response processing in a peripheral component interconnect express (PCIe) environment
US8416834B2 (en) 2010-06-23 2013-04-09 International Business Machines Corporation Spread spectrum wireless communication code for data center environments
US8615586B2 (en) 2010-06-23 2013-12-24 International Business Machines Corporation Discovery of logical images at storage area network endpoints
JP2012027727A (ja) * 2010-07-23 2012-02-09 Fujitsu Ltd 記憶装置、ストレージシステム及び制御方法
US10015084B2 (en) * 2010-08-10 2018-07-03 International Business Machines Corporation Storage area network path management
US8930620B2 (en) * 2010-11-12 2015-01-06 Symantec Corporation Host discovery and handling of ALUA preferences and state transitions
US8619555B2 (en) * 2010-11-17 2013-12-31 Netapp, Inc. Method and system for path selection in a network
JP2012128697A (ja) * 2010-12-16 2012-07-05 Hitachi Ltd 情報処理装置
US8560628B2 (en) * 2011-01-11 2013-10-15 International Business Machines Corporation Supporting autonomous live partition mobility during a cluster split-brained condition
US8825981B2 (en) * 2011-01-25 2014-09-02 International Business Machines Corporation Allocating addressable memory regions to an adapter
US8707085B2 (en) * 2011-06-30 2014-04-22 International Business Machines Corporation High availability data storage systems and methods
JP5624954B2 (ja) * 2011-07-21 2014-11-12 エヌ・ティ・ティ・コムウェア株式会社 障害検出装置、障害検出方法及び障害検出プログラム
US9189320B2 (en) * 2012-08-15 2015-11-17 International Business Machines Corporation Handling intermittent recurring errors in a network
US20140229236A1 (en) * 2013-02-12 2014-08-14 Unify Square, Inc. User Survey Service for Unified Communications
JP6163855B2 (ja) * 2013-04-30 2017-07-19 富士通株式会社 ストレージシステム、制御装置、制御プログラムおよび制御方法
WO2015059804A1 (ja) * 2013-10-24 2015-04-30 株式会社日立製作所 ストレージシステムおよびその制御方法
JP6558012B2 (ja) * 2015-03-24 2019-08-14 日本電気株式会社 ストレージ管理装置、ストレージシステム、ストレージ管理方法及びプログラム
CN106708638B (zh) * 2015-11-12 2020-08-25 博雅网络游戏开发(深圳)有限公司 系统错误检测方法和装置
US11321160B2 (en) * 2019-11-01 2022-05-03 Splunk Inc. In a microservices-based application, mapping distributed error stacks across multiple dimensions
US11770328B2 (en) * 2021-02-08 2023-09-26 The Boeing Company Network including data integrity monitoring
US11573718B2 (en) * 2021-02-12 2023-02-07 Western Digital Technologies, Inc. Disaggregation of control path and data path

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2776841B2 (ja) 1988-09-28 1998-07-16 株式会社日立製作所 ディスク制御装置におけるディスクアクセス制御方法
US5944838A (en) * 1997-03-31 1999-08-31 Lsi Logic Corporation Method for fast queue restart after redundant I/O path failover
JPH10340243A (ja) 1997-06-06 1998-12-22 Hitachi Ltd 入出力データ転送システム
US6145028A (en) * 1997-12-11 2000-11-07 Ncr Corporation Enhanced multi-pathing to an array of storage devices
JPH11296311A (ja) 1998-04-08 1999-10-29 Hitachi Ltd 記憶装置の耐故障制御方式
US6434637B1 (en) * 1998-12-31 2002-08-13 Emc Corporation Method and apparatus for balancing workloads among paths in a multi-path computer system based on the state of previous I/O operations
US6341356B1 (en) * 1999-03-25 2002-01-22 International Business Machines Corporation System for I/O path load balancing and failure which can be ported to a plurality of operating environments
US6526521B1 (en) * 1999-06-18 2003-02-25 Emc Corporation Methods and apparatus for providing data storage access
JP3992427B2 (ja) 2000-08-01 2007-10-17 株式会社日立製作所 ファイルシステム
US6606630B1 (en) 2000-08-21 2003-08-12 Hewlett-Packard Development Company, L.P. Data structure and method for tracking network topology in a fiber channel port driver
US7876693B2 (en) 2002-06-04 2011-01-25 Alcatel-Lucent Usa Inc. Testing and error recovery across multiple switching fabrics
US7307948B2 (en) * 2002-10-21 2007-12-11 Emulex Design & Manufacturing Corporation System with multiple path fail over, fail back and load balancing
US6922754B2 (en) * 2002-12-09 2005-07-26 Infabric Technologies, Inc. Data-aware data flow manager
JP4492084B2 (ja) 2003-10-07 2010-06-30 株式会社日立製作所 ストレージパス制御方法

Also Published As

Publication number Publication date
US20050120259A1 (en) 2005-06-02
JP2005149281A (ja) 2005-06-09
US7093155B2 (en) 2006-08-15

Similar Documents

Publication Publication Date Title
JP4012498B2 (ja) 情報処理システム、情報処理装置、情報処理装置の制御方法及びプログラム
JP4617847B2 (ja) 情報処理システム及びアクセス方法
US9348724B2 (en) Method and apparatus for maintaining a workload service level on a converged platform
US10972335B2 (en) Designation of a standby node
JP4606455B2 (ja) ストレージ管理装置、ストレージ管理プログラムおよびストレージシステム
JP2006107151A (ja) ストレージシステム及びストレージシステムの通信パス制御方法
US20080126847A1 (en) Data-recovery control device
US20200042416A1 (en) Information processing system, information processing system management method, and program thereof
US10732873B1 (en) Timeout mode for storage devices
JP2012043304A (ja) ディスクアレイ装置およびディスクアレイ装置の制御方法
US20110208910A1 (en) Storage Control Device for Storage System Provided with Storage Device Coupled to Switch Network
US7506201B2 (en) System and method of repair management for RAID arrays
JP7364940B2 (ja) 系判定装置、系判定方法および系判定プログラム
CN111309515B (zh) 一种容灾控制方法、装置及系统
US10467113B2 (en) Executing programs through a shared NVM pool
CN114064362B (zh) 用于分布式存储中的数据恢复方法、系统及计算机可读存储介质
JP6558012B2 (ja) ストレージ管理装置、ストレージシステム、ストレージ管理方法及びプログラム
US20230195336A1 (en) Storage management system and storage management method
JP2830592B2 (ja) 情報処理システムにおける外部記憶装置の経路障害処理方式
CN113742173A (zh) 多设备集群的控制方法、设备主控装置及可读存储介质
WO2013073022A1 (ja) 計算機システム及び障害検出方法
JP3691316B2 (ja) 異常検出時の動作モードを決定する装置および方法
JP2022124054A (ja) ストレージシステム、ストレージ装置及びストレージ装置管理方法
JP2022011592A (ja) 監視システム、監視方法、および監視プログラム
CN102455878A (zh) 动态磁盘访问方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061016

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20061016

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20061101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070904

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070907

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110914

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120914

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120914

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130914

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees