JP3691316B2 - 異常検出時の動作モードを決定する装置および方法 - Google Patents

異常検出時の動作モードを決定する装置および方法 Download PDF

Info

Publication number
JP3691316B2
JP3691316B2 JP35578399A JP35578399A JP3691316B2 JP 3691316 B2 JP3691316 B2 JP 3691316B2 JP 35578399 A JP35578399 A JP 35578399A JP 35578399 A JP35578399 A JP 35578399A JP 3691316 B2 JP3691316 B2 JP 3691316B2
Authority
JP
Japan
Prior art keywords
mode
degeneration
abnormality
operation mode
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP35578399A
Other languages
English (en)
Other versions
JP2001175489A (ja
Inventor
浩 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP35578399A priority Critical patent/JP3691316B2/ja
Priority to US09/723,768 priority patent/US7117397B1/en
Publication of JP2001175489A publication Critical patent/JP2001175489A/ja
Application granted granted Critical
Publication of JP3691316B2 publication Critical patent/JP3691316B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、システムの動作中に異常が発生したとき、システムを停止するモードと異常が発生した装置をシステムから切り離して動作を継続するモードのいずれを選択すべきかを決定する装置およびその方法に関する。
【0002】
【従来の技術】
ネットワークコンピューティングの進展に伴い、今日のコンピュータシステムには、基幹業務に適用可能な高信頼性システムの実現に向けて、ハードウェアの異常によるコンピュータの停止率(システムダウン率)を低減することが望まれている。
【0003】
高信頼性システムを実現する技術としては、コンピュータのハードウェア資源である各装置を冗長化して、ハードウェアのフォールト・トレラント機能により故障装置をシステムから動的に切り離すフォールト・トレラント・コンピュータが挙げられる。ここで、装置を切り離すとは、その装置の使用を禁止することを意味する。また、他の技術として、複数のコンピュータの連携処理により相互バックアップ機能を実現するクラスタ・システム等も挙げられる。
【0004】
システム動作中に各種ハードウェア装置の異常を検出した場合、誤動作を防止するため、システムを緊急停止することが一般的であるが、ハードウェア装置の異常によるシステムの停止率を低減するため、異常が発生した装置をシステムから切り離して、動作を継続するコンピュータシステムもある。
【0005】
ただし、装置をシステムから切り離して動作を継続するコンピュータシステムの場合は、あらかじめ、コンピュータのハードウェア資源である各装置を冗長化しておく必要がある。なぜなら、異常が発生した装置が、そのコンピュータシステムにおいて唯一の存在であり、かつ、システムを運用する上で重要となる装置である場合は、その装置が使用できないと運用を継続できなくなるからである。
【0006】
また、装置を動的に切り離すには、装置を制御するドライバが、装置が切り離された場合の動作をサポートしている必要がある。例えば、装置の切り離しをドライバに通知するための特別なインタフェースを用意しておき、ドライバが、その特別なインタフェースを使用して、装置の切り離しを認識する機能をサポートしている必要がある。
【0007】
異常が発生した装置へのアクセスができないようにすることで、ドライバに装置の切り離しを通知する方法を採用しているコンピュータシステムの場合は、ドライバが装置へのアクセスに失敗することを想定して、装置へのアクセスでエラーが発生するかどうかを確認することが前提となる。
【0008】
【発明が解決しようとする課題】
しかしながら、上述した従来のシステムには、次のような問題がある。
一般的に、システム動作中に、ハードウェアの復旧不可能な異常を検出した場合、コンピュータを緊急停止するシステムダウンを選択するよりも、異常が発生した装置を切り離してシステムの動作を継続する動的縮退を選択する方が、高信頼性システムであると言える。
【0009】
しかし、動的縮退をサポートするコンピュータシステムの場合は、システム管理者の設定ミス等により、切り離すと運用を継続できなくなるような装置を切り離す事態が発生することが考えられる。この場合、その装置を切り離したことによる誤動作やシステムのハングアップ等の2次的被害が発生し、コンピュータを緊急停止するよりも、もっと被害が大きくなる可能性がある。
【0010】
本発明の課題は、システムから装置を誤って切り離すことによる被害を防止する装置およびその方法を提供することである。
【0011】
【課題を解決するための手段】
図1は、本発明の動作決定装置の原理図である。図1の動作決定装置は、決定手段(動作モード決定部)1と動作手段(動作部)2を備えると共に、図には示されていないがグループ設定部及び異常検出部を備え、システムに異常が発生した場合の動作モードを決定する。
ここで、上記グループ設定部(不図示)は、システムに含まれる装置グループ単位で動作モードの設定を行う。上記異常検出部(不図示)は、システムに含まれる装置の異常を検出する。
【0012】
また、決定手段1は、システムを停止するシステムダウンモードと、異常が発生した部分の使用を禁止して該システムの動作を継続する動的縮退モードのうちのいずれの動作モードを選択すべきかを決定するものであり、具体的には、上記異常検出部により、ある装置に異常が検出された場合、上記グループ設定部で設定された設定情報を基に該異常が発生した装置が属するグループの動作モードを確認し、動的縮退モードである場合には、更に、該グループに属する各装置が縮退モードに対応可能かを判定し、対象となる全ての装置が縮退モードに対応可能であると判定した場合には縮退モードを選択し、それ以外の場合はシステムダウンモードを選択する。動作手段2は、決定手段1により決定された動作モードに対応する動作を行う。
【0013】
決定手段1は、システムダウンモードまたは動的縮退モードをシステムの動作モードとして選択し、動作手段2は、選択された動作モードがシステムダウンモードのとき、システムを停止し、それが動的縮退モードのとき、異常が発生した装置等へのアクセスを禁止してシステムの動作を継続する。
【0014】
このように、本発明の要点は、システムダウンモードと動的縮退モードのうちのいずれの動作モードを選択すべきかを、自動的に決定することである。
このような動作決定装置によれば、システムに異常が発生した場合に、動的縮退モードが適用可能か否かが自動的に判定されるため、誤って動的縮退モードが選択される可能性が低減される。したがって、システムから装置を誤って切り離すことによる被害を防止することができる。
【0015】
また、このような動作モードの判定を行うことで、可能な限り動的縮退モードを選択することができるため、より信頼性の高いシステムを実現することが可能となる。
【0016】
例えば、図1の決定手段1は、後述する図2の動作モード決定部11に対応し、図1の動作手段2は、図2の情報処理装置10に対応する。また、図1に示されていない上記グループ設定部は、図2の装置グループ設定部26に対応し、図1に示されていない上記異常検出部は、図2のエラー検出機構13に対応する。
【0017】
【発明の実施の形態】
以下、図面を参照しながら、本発明の実施の形態を詳細に説明する。
本実施形態の情報処理装置は、エラー検出機構により、システム動作中に装置の異常を検出した場合、誤動作を防止するためにシステムを緊急停止するシステムダウンモードと、異常が発生した装置(部品)をシステムから切り離して動作を継続する動的縮退モードのいずれを選択すべきかを決定する。また、本実施形態は、高信頼性システムを実現するためのドライバインタフェースおよびその制御方法を含んでいる。
【0018】
動的縮退モードの場合は、切り離される装置を制御するドライバ等の装置制御部が、装置を切り離された場合の動作をサポートしており、かつ、その装置を切り離してもシステムの運用を継続できる場合のみ、その装置を切り離すようにする必要がある。
【0019】
また、ある装置で復旧不可能な異常が発生し、その装置の影響を受ける他の装置が存在する場合、動的縮退モードでは、影響を受ける装置も同時に切り離すべきである。例えば、あるI/O(入出力)バスに複数のI/O装置が接続されている状態でI/Oバスが故障した場合は、故障したI/Oバスに接続されているすべてのI/O装置を、同時に切り離す必要がある。
【0020】
この場合、同時に切り離すべき複数の装置の中に、切り離すと運用を継続できなくなるような装置、または、その装置を制御するドライバが装置を切り離された場合の動作をサポートしていないような装置が1つでも存在すると、誤って切り離すことによる2次的な被害が発生する可能性がある。
【0021】
そこで、このような様々な条件を優先度を付けて判定することで、システムダウンモードと動的縮退モードのいずれを選択すべきかを自動的に決定することができ、誤って切り離すことによる被害を防止することができる。
【0022】
図2は、本実施形態の情報処理装置の構成図である。図2の情報処理装置10(自システム)は、動作モード決定部11、複数の装置制御部12、各装置制御部12に付随したエラー検出機構13、装置制御部12により制御される装置14を備える。
【0023】
装置制御部12は、例えば、1つ以上の装置14を制御するドライバソフトウェアである。エラー検出機構13は、装置14の異常を検出し、それを動作モード決定部11に通知する。
【0024】
また、装置グループ15は、ある装置で異常が発生したとき、その装置の影響を受ける他の装置と異常が発生した装置の集合を表している。言い換えれば、装置グループ15は、特定の装置が切り離されるとき、その装置と同時に切り離すべき他の装置とその特定の装置の集合に対応する。一般に、ある装置グループ15に属する装置14を制御する装置制御部12は、他の装置グループ15に属する同じ種類の装置14を制御することもできる。
【0025】
動作モード決定部11は、例えば、メモリに格納されたプログラムに対応し、異常検出時の動作モードを決定する。動作モード決定部11は、エラー検出機構13から装置の異常を通知されると、装置の冗長性、重要性、装置を制御するドライバが装置を切り離された場合の動作をサポートしているかどうか等、様々な条件を自動的に判定することによって、システムダウンモードと動的縮退モードのいずれを選択すべきかを決定する。
【0026】
この動作モード決定部11は、確認部21、装置グループ判定部22、装置制御部判定部23、装置判定部24、および設定部25を含む。
装置グループ判定部22は、システムダウンモードと動的縮退モードのいずれを選択するかを、異常が発生した装置の影響を受ける装置グループ単位で自動的に決定する。
【0027】
このとき、装置グループ判定部22は、異常が発生した装置の影響を受ける装置グループに属する各装置の冗長性や重要性、装置を制御する装置制御部が装置が切り離された場合の動作をサポートしているかどうか等、装置グループの様々な条件を包括的に確認することによって、いずれのモードを選択すべきかを判定する。これにより、装置グループを誤って切り離すことによる被害が防止される。
【0028】
装置制御部判定部23は、装置を制御する装置制御部が装置が切り離された場合の動作をサポートしているかどうか等、装置制御部毎の様々な条件を自動的に確認することによって、いずれのモードを選択すべきかを装置制御部単位で決定する。
【0029】
装置判定部24は、装置の冗長性や重要性等、装置毎の様々な条件を自動的に確認することによって、いずれのモードを選択すべきかを装置単位で決定する。
確認部21は、装置グループに属する装置について、装置制御部単位および装置単位の判定を行う際に、異常が発生した装置の影響を受ける他の装置が存在するか否かを確認する。影響を受ける装置は、動的縮退モードにおいて、異常が発生した装置と同時に切り離す必要がある。
【0030】
影響を受けるすべての装置に関する判定でシステムダウンモードが選択されず、他に影響を受ける装置が存在しないことが確認できれば、動的縮退モードが選択される。他に影響を受ける装置が存在する場合は、次の装置についての判定処理が行われる。
【0031】
装置グループの中に、装置を制御する装置制御部が装置が切り離された場合の動作をサポートしていないような装置、または、切り離すとシステムの運用を継続できなくなるような装置が1つでも存在する場合は、切り離すことによる誤動作を防止するため、システムダウンモードが選択される。
【0032】
設定部25は、システム管理者により指定された動作モードを、例えば、メモリ上に設定する。これにより、システム管理者は、システムダウンモードと動的縮退モードのいずれでシステムを運用するかを選択して、そのモードを設定することができる。
【0033】
通常は、システム管理者の負荷を軽減するために、システム管理者による設定の必要はない。ただし、自動的に決定された動作モードでは不具合が発生する場合等、システム管理者が動作モードについての設定を変更すべきと判断した場合は、設定部25により設定を変更することができる。
【0034】
設定部25は、装置グループ設定部26、装置制御部設定部27、および装置設定部28を含む。
装置グループ設定部26は、異常が発生した装置の影響を受ける装置グループ単位で動作モードを設定する。これにより、システム管理者は、いずれのモードを選択するかを、装置グループ単位で設定することができる。
【0035】
装置制御部設定部27は、装置制御部単位で動作モードを設定する。これにより、システム管理者は、いずれのモードを選択するかを、装置制御部単位で設定することができる。
【0036】
装置設定部28は、装置単位で動作モードを設定する。これにより、システム管理者は、いずれのモードを選択するかを、個々の装置単位で設定することができる。
【0037】
次に、図3から図10までを参照しながら、図2の情報処理装置の動作をより詳細に説明する。
図3は、動作モード決定部11による動作モード判定処理のフローチャートである。この処理は、エラー検出機構13から異常の検出を通知されたときに開始される。
【0038】
まず、装置グループ判定部22は、異常が発生した装置の影響を受ける装置グループ単位で動作モードを判定する(ステップS1)。この判定で動的縮退モードと判定された場合、次に、装置制御部判定部23は、装置グループに属する装置の装置制御部単位で動作モードを判定する(ステップS2)。この判定で動的縮退モードと判定された場合、次に、装置判定部24は、装置グループに属する装置単位で動作モードを判定する(ステップS3)。
【0039】
この判定で動的縮退モードと判定された場合、次に、確認部21は、装置グループ内に、異常が発生した装置の影響を受ける他の装置が存在するか否かを確認する(ステップS4)。例えば、I/Oバスの異常が発生した場合、そのI/Oバスに接続されているすべての装置が影響を受ける装置となる。
【0040】
影響を受ける他の装置が存在すれば、動作モード決定部11は、次の装置についてステップS2以降の処理を繰り返し、ステップS4において他の装置が存在しなければ、動作モードは動的縮退モードとなる(ステップS5)。また、ステップS1、S2、またはS3においてシステムダウンモードと判定された場合、動作モードはシステムダウンモードとなる(ステップS6)。
【0041】
図4は、図3のステップS1の装置グループ単位の判定処理のフローチャートである。装置グループ判定部22は、まず、異常が発生した装置の影響を受ける装置グループについて、装置グループ設定部26により設定された情報を確認する(ステップS11)。ここで、動的縮退モードが設定されている場合は、動的縮退モードを選択し(ステップS13)、システムダウンモードが設定されている場合は、システムダウンモードを選択する(ステップS14)。
【0042】
装置グループ設定部26により動作モードが設定されていない場合は、次に、装置グループ全体として動的縮退をサポートしているか否かを自動的に確認する(ステップS12)。
【0043】
この確認は、例えば、図5に示すような装置グループの情報を参照して行われる。図5のoffline−enableは、例えば、メモリに格納された装置グループのプロパティに含まれ、その値が“0”のときシステムダウンモードを表し、“1”のとき装置グループを切り離し可能であることを表す。
【0044】
offline−enableの値は、異常が発生した装置の影響を受ける装置グループに属する各装置の冗長性や重要性、装置を制御する装置制御部が装置が切り離された場合の動作をサポートしているかどうか等、装置グループの様々な条件を考慮して設定される。
【0045】
装置グループ判定部22は、offline−enable=“1”のとき、動的縮退がサポートされていると判定して、動的縮退モードを選択する(ステップS13)。また、offline−enable=“0”またはoffline−enableが設定されていないとき、動的縮退がサポートされていないと判定して、システムダウンモードを選択する(ステップS14)。
【0046】
図6は、図3のステップS2の装置制御部単位の判定処理のフローチャートである。装置制御部判定部23は、まず、装置制御部設定部27により設定された情報を確認する(ステップS21)。ここで、動的縮退モードが設定されている場合は、動的縮退モードを選択し(ステップS23)、システムダウンモードが設定されている場合は、システムダウンモードを選択する(ステップS24)。
【0047】
装置制御部設定部27により動作モードが設定されていない場合は、次に、装置制御部が動的縮退をサポートしているか否かを自動的に確認する(ステップS22)。
【0048】
この確認は、例えば、図7に示すような装置制御部の情報を参照して行われる。図7のreg−access−check−enableは、例えば、メモリに格納された装置制御部のプロパティに含まれる。この値が“00”のときシステムダウンモードを表し、“10”のときこの装置制御部により制御される装置が切り離し可能であることを表し、“11”のとき装置が切り離し可能かつ装置制御部に対して疑似割り込み可能であることを表す。疑似割り込みは、他のプログラムから装置制御部に対する割り込みを表す。
【0049】
reg−access−check−enableの値は、装置を制御する装置制御部が装置が切り離された場合の動作をサポートしているかどうか等、装置制御部の様々な条件を考慮して設定される。
【0050】
装置制御部判定部23は、reg−access−check−enable=“10”または“11”のとき、動的縮退がサポートされていると判定して、動的縮退モードを選択する(ステップS23)。また、reg−access−check−enable=“00”またはreg−access−check−enableが設定されていないとき、動的縮退がサポートされていないと判定して、システムダウンモードを選択する(ステップS24)。
【0051】
図8は、図3のステップS3の装置単位の判定処理のフローチャートである。装置判定部24は、まず、装置設定部28により設定された情報を確認する(ステップS31)。ここで、動的縮退モードが設定されている場合は、動的縮退モードを選択する(ステップS33)。
【0052】
装置設定部28により動作モードが設定されていない場合は、次に、その装置の冗長性を確認する(ステップS12)。この確認は、例えば、システム内に存在している同一装置の数をチェックすることで行われる。その装置がシステム内に複数存在する場合等、その装置の代替装置が存在することが確認された場合は、装置判定部24は、動的縮退モードを選択する(ステップS33)。
【0053】
一方、その装置がシステム内で唯一の存在であり、代替装置が存在しないことが確認された場合は、次に、その装置を切り離してもシステムの運用が継続できるかどうかを確認する(ステップS34)。
【0054】
この確認は、例えば、図9に示すようなフラグを参照して行われる。図9の重要性フラグは、例えば、メモリに格納された装置のプロパティに含まれ、その値が“0”のとき重要性が低いことを表し、“1”のとき重要性が高いことを表す。
【0055】
装置判定部24は、重要性フラグの値が“0”のとき、運用継続可能と判定して、動的縮退モードを選択する(ステップS33)。また、重要性フラグの値が“1”のとき、装置の重要性が高いため運用継続不可能と判定して、次に、システム内でその装置が現在使用されているかどうかを確認する(ステップS35)。
【0056】
この確認は、例えば、図10に示すようなフラグを参照して行われる。図10の状態フラグは、例えば、装置のプロパティに含まれ、その値が“0”のとき装置が使用されていないことを表し、“1”のとき使用中であることを表す。
【0057】
装置判定部24は、状態フラグの値が“0”のとき、その装置が現在使用されていないため、装置の重要性が高くても切り離し可能と判定して、動的縮退モードを選択する(ステップS33)。また、状態フラグの値が“1”のとき、その装置が現在使用中であるため切り離し不可能と判定して、システムダウンモードを選択する(ステップS36)。
【0058】
ステップS31においてシステムダウンモードが設定されている場合は、ステップS35の判定を行う。そして、その装置が現在使用されていなければ、動的縮退モードを選択し(ステップS33)、使用中であれば、システムダウンモードを選択する(ステップS36)。
【0059】
以上説明したような動作モード判定処理によれば、異常が発生した装置の影響を受ける装置グループ内において、装置制御部単位の判定でシステムダウンモードと判定される装置が1つでもあれば、動作モードはシステムダウンモードとなる。また、装置グループ内において、装置単位の判定でシステムダウンモードと判定される装置が1つでもあれば、動作モードはシステムダウンモードとなる。
【0060】
つまり、装置制御部単位の判定または装置単位の判定で、システムダウンモードと判定される装置が1つでもあれば、動作モードはシステムダウンモードとなる。
【0061】
したがって、同時に切り離すべき装置グループの中に、装置制御部が装置が切り離された場合の動作をサポートしていないような装置、または、切り離すとシステムの運用を継続できなくなるような装置が存在する場合でも、その装置を誤って切り離すような事態の発生を防止することができる。
【0062】
また、可能な限り動的縮退モードが選択されるため、信頼性の高いシステムを実現することが可能となる。ただし、装置グループ内の装置を制御する装置制御部や装置の条件を自動的に確認することにより、動的縮退モードが適用できないことが分ると、システムダウンモードが選択される。したがって、誤って切り離すことによる被害を防止できる。
【0063】
また、異常が発生した部分毎に動作モードが決定されるため、動的縮退をサポートしているシステムとそれをサポートしていないシステムが混在するシステムを構築することが可能になる。
【0064】
次に、図11から図13までを参照しながら、コンピュータシステムの具体例を用いて動作モード判定処理を説明する。
図11は、システムダウンモードが適用されるシステムの例を示している。図11において、情報処理装置31(コンピュータ本体)は、I/Oバス32、ディスプレイアダプタ33、未実装スロット34、I/Oバス36、SCSI(small computer system interface )アダプタ37、およびLAN(local area network)アダプタ38を備える。
【0065】
I/Oバス32には、ディスプレイアダプタ33と未実装スロット34が接続され、I/Oバス36には、SCSIアダプタ37とLANアダプタ38が接続されている。このうち、スロット34にはアダプタが実装されていない。
【0066】
ディスプレイアダプタ33には、CRT(cathode-ray tube)ディスプレイ35が接続され、SCSIアダプタ37には、外部記憶装置であるDISK39が接続され、LANアダプタ38には、イーサネット(Ethernet)40が接続されている。
【0067】
このシステムにおいて、I/Oバス36に復旧不可能な異常が発生した場合、I/Oバス36に接続されているSCSIアダプタ37とLANアダプタ38は、I/Oバス36の異常の影響を受けるため、I/Oバス36、SCSIアダプタ37、およびLANアダプタ38は、1つの装置グループとみなされる。したがって、動的縮退モードにおいては、これらの装置を同時に切り離す必要がある。
【0068】
I/Oバス36を制御する不図示のバス制御部は、I/Oバス36に接続されている装置をメモリ上で管理しており、SCSIアダプタ37とLANアダプタ38がI/Oバス36の異常の影響を受けることを認識している。また、パスの切り替えを行う不図示のマルチパス制御部は、情報処理装置31からDISK39にアクセスするためのパスをメモリ上で管理している。
【0069】
図11では、DISK39にアクセスするためのパスは、SCSIアダプタ37を経由するパスのみであるため、SCSIアダプタ37が切り離されて使用できなくなると、DISK39にアクセスすることができなくなる。
【0070】
ここで、DISK39がシステムにとって重要性の高い装置である場合、SCSIアダプタ37を含むI/Oバス36の装置グループが切り離されると、システムの運用が継続できなくなる。そこで、I/Oバス36に復旧不可能な異常が発生した場合は、システムダウンモードが選択され、動的縮退は行われない。
【0071】
このとき、装置グループ判定部22は、図4のフローチャートに従って、I/Oバス36の装置グループについての判定を行う。そして、ステップS12において動的縮退モードがサポートされていると判定する。
【0072】
また、装置制御部判定部23は、図6のフローチャートに従って、I/Oバス36のドライバ、SCSIアダプタ37のドライバ、およびLANアダプタ38のドライバについての判定を行う。そして、ステップS22においてドライバが動的縮退モードをサポートしていると判定する。
【0073】
また、装置判定部24は、図8のフローチャートに従って、SCSIアダプタ37についての判定を行う。そして、ステップS32において冗長性がないと判定し、ステップS34において運用継続不可能と判定し、ステップS35において使用中と判定して、システムダウンモードを選択する。
【0074】
次に、図12は、動的縮退モードが適用されるシステムの例を示している。図12において、情報処理装置41(コンピュータ本体)は、I/Oバス42、ディスプレイアダプタ43、SCSIアダプタ44、I/Oバス46、SCSIアダプタ47、およびLANアダプタ48を備える。
【0075】
I/Oバス42には、ディスプレイアダプタ43とSCSIアダプタ44が接続され、I/Oバス46には、SCSIアダプタ47とLANアダプタ48が接続されている。
【0076】
ディスプレイアダプタ43には、CRTディスプレイ45が接続され、SCSIアダプタ44、47には、外部記憶装置であるDISK49が接続され、LANアダプタ48には、イーサネット40が接続されている。
【0077】
このシステムにおいて、I/Oバス46に復旧不可能な異常が発生した場合、図11のシステムと同様の理由で、I/Oバス46、SCSIアダプタ47、およびLANアダプタ48は、1つの装置グループとして同時に切り離す必要がある。
【0078】
しかし、図12では、情報処理装置41からDISK49にアクセスするためのパスとして、SCSIアダプタ44を経由するパスとSCSIアダプタ47を経由するパスの2つのパスが存在する。このため、異常が発生したときに、SCSIアダプタ47を使用してDISK49にアクセスしていた場合でも、SCSIアダプタ44を使用してアクセスするようにパスを切り替えれば、継続してDISK49にアクセスすることができる。
【0079】
また、このシステムでは、イーサネット40にアクセスする必要性があまりなく、LANアダプタ48は重要性は低いため、LANアダプタ48が切り離されても、システムの運用を継続することができる。そこで、I/Oバス36に復旧不可能な異常が発生した場合は、動的縮退モードが選択され、システムダウンは行われない。
【0080】
このとき、装置グループ判定部22および装置制御部判定部23は、図11のシステムと同様の判定を行う。
また、装置判定部24は、図8のフローチャートに従って、まず、SCSIアダプタ47についての判定を行う。そして、ステップS32において冗長性があると判定し、動的縮退モードを選択する。次に、LANアダプタ48についての判定を行う。そして、ステップS32において冗長性がないと判定し、ステップS34において運用継続可能と判定して、動的縮退モードを選択する。
【0081】
こうして、図13に示すように、SCSIアダプタ47を含むI/Oバス46の装置グループがシステムから動的に切り離され、DISK49にアクセスするためのパスがSCSIアダプタ44を経由するパスに切り替えられて、システムの運用が継続される。
【0082】
図14は、図2の情報処理装置10にプログラムとデータを供給することのできるコンピュータ読み取り可能な記録媒体を示している。
メモリ51は、例えば、ROM(read only memory)、RAM(random access memory)等を含み、処理に用いられるプログラムとデータを格納する。情報処理装置10は、メモリ51を利用してプログラムを実行することにより、必要な処理を行う。
【0083】
例えば、図2の動作モード決定部11、確認部21、装置グループ判定部22、装置制御部判定部23、装置判定部24、設定部25、装置グループ設定部26、装置制御部設定部27、および装置設定部28は、メモリ51に格納されたプログラムに対応する。
【0084】
可搬記録媒体52は、メモリカード、フロッピーディスク、CD−ROM(compact disk read only memory )、光ディスク、光磁気ディスク等の任意の記録媒体である。ユーザは、この可搬記録媒体52に上述のプログラムとデータを格納しておき、必要に応じて、それらをメモリ51にロードして使用することができる。
【0085】
また、情報処理装置は、外部の情報提供者のデータベース53に保存されたプログラムとデータを、必要に応じて、メモリ51にロードして使用することができる。
【0086】
以上説明した実施形態においては、主として、図2の動作モード決定部11をソフトウェアにより実施する場合について説明したが、これをハードウェアにより実施することも可能である。この場合、動作モード決定部11に含まれる各要素を、論理回路等を用いて構成すればよい。
【0087】
また、以上説明した実施形態には、以下のような形態が含まれる。
(1)システムに異常が発生した場合の動作モードを決定する動作決定装置であって、
前記システムを停止するシステムダウンモードと、前記異常が発生した部分の使用を禁止して該システムの動作を継続する動的縮退モードのうちのいずれの動作モードを選択すべきかを決定する決定手段と、
決定された動作モードに対応する動作を行う動作手段と
を備えることを特徴とする動作決定装置。
(2)前記決定手段は、前記システムダウンモードと動的縮退モードのうちのいずれかの動作モードを設定する設定手段を含み、設定された動作モードを選択することを特徴とする(1)に記載の動作決定装置。
(3)前記設定手段は、前記システムに含まれる装置グループ毎に前記動作モードを設定する手段を含むことを特徴とする(2)に記載の動作決定装置。
(4)前記設定手段は、前記システムに含まれる装置を制御する装置制御部毎に前記動作モードを設定する手段を含むことを特徴とする(2)に記載の動作決定装置。
(5)前記設定手段は、前記システムに含まれる装置毎に前記動作モードを設定する手段を含むことを特徴とする(2)に記載の動作決定装置。
(6)システムに異常が発生した場合の動作モードを決定する動作決定装置であって、
前記システムを停止するシステムダウンモードと、前記異常が発生した部分の使用を禁止して該システムの動作を継続する動的縮退モードとを少なくとも含む複数の動作モードのうちのいずれの動作モードを選択すべきかを決定する決定手段と、
決定された動作モードに対応する動作を行う動作手段と
を備えることを特徴とする動作決定装置。
【0088】
【発明の効果】
本発明によれば、システム動作中の装置の異常を検出したとき、誤動作を防止するためにシステムを緊急停止するシステムダウンモードと、異常が発生した装置を切り離してシステムの運用を継続する動的縮退モードのいずれを選択すべきかを、自動的に決定することができる。
【0089】
このとき、可能な限り動的縮退モードが選択されるようになるため、信頼性の高いシステムを実現することが可能となる。また、装置や装置制御部等の様々な条件を自動的にチェックするため、装置を誤って切り離すことによる被害が防止される。
【0090】
また、システム管理者による設定が特にない場合は、自動的に動作モードが決定されるため、設定に要する時間の短縮と設定誤りの軽減が可能となる。また、システムの運用条件によっては、システム管理者が、装置グループ単位/装置制御部単位/装置単位で動作モードを変更できるため、柔軟な運用が可能となる。
【図面の簡単な説明】
【図1】本発明の動作決定装置の原理図である。
【図2】情報処理装置の構成図である。
【図3】動作モード判定処理のフローチャートである。
【図4】装置グループ単位の判定処理のフローチャートである。
【図5】装置グループの情報を示す図である。
【図6】装置制御部単位の判定処理のフローチャートである。
【図7】装置制御部の情報を示す図である。
【図8】装置単位の判定処理のフローチャートである。
【図9】重要性フラグを示す図である。
【図10】状態フラグを示す図である。
【図11】第1のシステムを示す図である。
【図12】第2のシステムを示す図である。
【図13】動的縮退を示す図である。
【図14】記録媒体を示す図である。
【符号の説明】
1 決定手段
2 動作手段
10、31、41 情報処理装置
11 動作モード決定部
12 装置制御部
13 エラー検出機構
14 装置
15 装置グループ
21 確認部
22 装置グループ判定部
23 装置制御部判定部
24 装置判定部
25 設定部
26 装置グループ設定部
27 装置制御部設定部
28 装置設定部
32、36、42、46 I/Oバス
33、43 ディスプレイアダプタ
34 未実装スロット
35、45 CRTディスプレイ
37、44、47 SCSIアダプタ
38、48 LANアダプタ
39、49 DISK
40 イーサネット
51 メモリ
52 可搬記録媒体
53 データベース

Claims (9)

  1. システムに異常が発生した場合の動作モードを決定する動作決定装置であって、
    前記システムに含まれる装置グループ単位で動作モードの設定を行うグループ設定部と、
    前記システムに含まれる装置の異常を検出する異常検出部と、
    前記異常検出部により、ある装置に異常が検出された場合、前記グループ設定部で設定された設定情報を基に該異常が発生した装置が属するグループの動作モードを確認し、動的縮退モードである場合には、更に、該グループに属する各装置が縮退モードに対応可能かを判定し、対象となる全ての装置が縮退モードに対応可能であると判定した場合には縮退モードを選択し、それ以外の場合はシステムダウンモードを選択する動作モード決定部と、
    前記動作モード決定部により決定された動作モードに対応する動作を行う動作
    を備えることを特徴とする動作決定装置。
  2. 前記システムに含まれる装置単位で動作モードの設定を行う装置設定部を有し、前記動作モード決定部は、装置が縮退モードに対応可能かを判定する場合に、前記装置設定部の設定情報を確認し、対象装置の設定情報が縮退モードで設定されていれば、該装置は縮退モードに対応可能であると判定することを特徴とする請求項1記載の動作決定装置。
  3. 前記動作モード決定部は、装置が縮退モードに対応可能かを判定する場合に、前記装置設定部の設定情報を確認し、対象装置の設定情報が縮退モードで設定されていない場合、該装置に対する冗長性の判断を行い、冗長性があると判断された場合には、該装置は縮退モードに対応可能であると判定することを特徴とする請求項記載の動作決定装置。
  4. 前記動作モード決定部は、更に装置が縮退モードに対応可能かを判定する場合に、該装置に対する冗長性の判断を行い、冗長性があると判断された場合には、該装置は縮退モードに対応可能であると判定することを特徴とする請求項1記載の動作決定装置。
  5. 前記動作モード決定部は、更に、装置に冗長性があると判断されなかった場合、該装置を切り離してもシステムの運用を継続できるかを判断し、継続可能と判断した場合には、該装置は縮退モードに対応可能であると判定することを特徴とする請求項3または請求項4記載の動作決定装置。
  6. 前記動作モード決定部は、装置が縮退モードに対応可能かを判定する場合に、該装置を切り離してもシステムの運用を継続できるかを判断し、継続可能と判断した場合には、該装置は縮退モードに対応可能であると判定することを特徴とする請求項1記載の動作決定装置。
  7. 前記動作モード決定部は、前記異常検出部により、ある装置に異常が検出された場合、前記グループ設定手段で設定された設定情報を基に該異常が発生した装置が属するグループの動作モードを確認し、動的縮退モードである場合には、更に該グループに属する各装置制御部が縮退モードに対応可能かを判定し、対象となる全ての装置制御部が縮退モードに対応可能であると判定した場合には、更に、該グループに属する各装置が縮退モードに対応可能かを判定し、対象となる全ての装置が縮退モードに対応可能であると判定した場合には縮退モードを選択し、それ以外の場合はシステムダウンモードを選択する、ことを特徴とする請求項1記載の動作決定装置。
  8. システムに異常が発生した場合の動作モードを決定する処理を情報処理装置が実行する動作決定方法であって、
    前記情報処理装置が、
    前記システムに含まれる装置の異常を検出する検出ステップと、
    前記異常検出ステップにより、ある装置に異常が検出された場合、該異常が発生した装置が属するグループの動作モードを確認し、動的縮退モードである場合には、更に、該グ ループに属する各装置が縮退モードに対応可能かを判定し、対象となる全ての装置が縮退モードに対応可能であると判定した場合には縮退モードを選択し、それ以外の場合はシステムダウンモードを選択する動作モード決定ステップと、
    前記動作モード決定ステップにより決定された動作モードに対応する動作を行う動作ステップと、
    を実行することを特徴とする動作決定方法。
  9. システムに異常が発生した場合の動作モードを情報処理装置に決定させる動作決定プログラムを格納した、情報処理装置が読み取り可能な記録媒体であって、
    前記情報処理装置に、
    前記システムに含まれる装置の異常を検出する検出ステップと、
    前記異常検出ステップにより、ある装置に異常が検出された場合、該異常が発生した装置が属するグループの動作モードを確認し、動的縮退モードである場合には、更に、該グループに属する各装置が縮退モードに対応可能かを判定し、対象となる全ての装置が縮退モードに対応可能であると判定した場合には縮退モードを選択し、それ以外の場合はシステムダウンモードを選択する動作モード決定ステップと、
    前記動作モード決定ステップにより決定された動作モードに対応する動作を行う動作ステップと、
    を実行させるプログラムを記録した、情報処理装置が読み取り可能な記録媒体。
JP35578399A 1999-12-15 1999-12-15 異常検出時の動作モードを決定する装置および方法 Expired - Fee Related JP3691316B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP35578399A JP3691316B2 (ja) 1999-12-15 1999-12-15 異常検出時の動作モードを決定する装置および方法
US09/723,768 US7117397B1 (en) 1999-12-15 2000-11-28 Apparatus and method for preventing an erroneous operation at the time of detection of a system failure

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35578399A JP3691316B2 (ja) 1999-12-15 1999-12-15 異常検出時の動作モードを決定する装置および方法

Publications (2)

Publication Number Publication Date
JP2001175489A JP2001175489A (ja) 2001-06-29
JP3691316B2 true JP3691316B2 (ja) 2005-09-07

Family

ID=18445739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35578399A Expired - Fee Related JP3691316B2 (ja) 1999-12-15 1999-12-15 異常検出時の動作モードを決定する装置および方法

Country Status (1)

Country Link
JP (1) JP3691316B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007099606A1 (ja) 2006-02-28 2007-09-07 Fujitsu Limited プロセサ制御方法

Also Published As

Publication number Publication date
JP2001175489A (ja) 2001-06-29

Similar Documents

Publication Publication Date Title
EP0747822B1 (en) External storage system with redundant storage controllers
JP4039794B2 (ja) マルチパス計算機システム
US7051233B2 (en) Method for backing up power supply of disk array device and system thereof
KR920003497B1 (ko) 억세스 손실 처리용 시스템 및 그 보호방법
US7565567B2 (en) Highly available computing platform
US6009535A (en) SCSI adaptor failover for a disk drive system
US20050086544A1 (en) Method and apparatus for correlating system resources to a particular line cord
US7047439B2 (en) Enhancing reliability and robustness of a cluster
US20040153728A1 (en) Storage system, management server, and method of managing application thereof
JP2009199478A (ja) メモリミラーリング自動構成制御方式
JPH09269871A (ja) ディスクアレイ装置におけるデータ再冗長化方式
US7117397B1 (en) Apparatus and method for preventing an erroneous operation at the time of detection of a system failure
CN111240903A (zh) 数据恢复方法及相关设备
JP2017146833A (ja) 監視装置、フォールトトレラントシステムおよび方法
JP3691316B2 (ja) 異常検出時の動作モードを決定する装置および方法
JP2006189963A (ja) ストレージアクセス制御方法、クラスタシステム、パス接続スイッチおよびストレージアクセス制御プログラム
US5621887A (en) Fault tolerant disk management system which tests failed disks during varied time intervals which are based upon the criticality associated with the failed disks
CN115695156A (zh) 通信前置机端口管理系统、端口故障应对方法及介质
JP6654662B2 (ja) サーバ装置およびサーバシステム
JP2009245076A (ja) コンピュータシステム
JPH07121395A (ja) 予備装置優先選択方法
JP5532687B2 (ja) 情報処理システム、情報処理システムの障害対応機構、及び情報処理システムの障害対応方法
JP2001027972A (ja) ディスク制御装置
JP3156654B2 (ja) 二重化コンピュータシステムおよびその運用方法
JP3647700B2 (ja) 装置の切り離しを通知する通知装置および方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050208

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050615

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090624

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100624

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110624

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120624

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120624

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130624

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140624

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees