JP5719316B2 - 計算機システム及び障害処理方法 - Google Patents

計算機システム及び障害処理方法 Download PDF

Info

Publication number
JP5719316B2
JP5719316B2 JP2012000834A JP2012000834A JP5719316B2 JP 5719316 B2 JP5719316 B2 JP 5719316B2 JP 2012000834 A JP2012000834 A JP 2012000834A JP 2012000834 A JP2012000834 A JP 2012000834A JP 5719316 B2 JP5719316 B2 JP 5719316B2
Authority
JP
Japan
Prior art keywords
software
primary
computer
virtual machine
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012000834A
Other languages
English (en)
Other versions
JP2013140526A (ja
Inventor
将幸 五明
将幸 五明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2012000834A priority Critical patent/JP5719316B2/ja
Publication of JP2013140526A publication Critical patent/JP2013140526A/ja
Application granted granted Critical
Publication of JP5719316B2 publication Critical patent/JP5719316B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、物理計算機上に構築される仮想計算機を制御するためのソフトウェアであるハイパバイザにおける障害を検知する機能を有する計算機システム及び障害処理方法に関する。
基幹システムに利用される計算機システムには、高い可用性が要求される。このため、物理計算機上に構築される複数の仮想計算機を有する仮想計算機システムにおいて、システムを構成するハードウェアで発生した障害が発生した場合、その障害をハイパバイザで検知し、ハイパバイザによって障害部位を仮想計算機システムから切り離し、仮想計算機システムの可用性を向上させる手法が提案されている(特許文献1参照)。
特開2010−39987号公報
前記従来技術では、ハードウェアで発生した障害をハイパバイザで検知することはできるが、ハイパバイザ自身で発生する障害を検知することが困難である。特に、ハイパバイザの動作速度が慢性的に低下する障害が発生した場合、その障害をハイパバイザ自身で検知することが困難であり、仮想計算機システムの可用性が低下する。
この際、解決方法として、例えば、仮想計算機システムの外部で動作する監視ソフトウェアと、仮想計算機上で動作する監視ソフトウェアとが互いに定期的に通信し、この通信内容を基に、仮想計算機システムの動作速度が低下する障害を検知する方法が、挙げられる。
しかし、上記解決方法では、障害発生から障害検知までに時間を要し、障害発生時間と障害検知時間との間には、最大数10秒間の開きが生じる。この場合、監視ソフトウェア間の通信間隔を短くすることで、より迅速な障害検知が可能となるが、仮想計算機システム自体の負荷が高くなる。結果として、上記解決方法では、計算機システムの可用性が低下する。
本発明の目的は、ハイパバイザでの障害を確実に検知し、計算機システムの可用性を向上させることにある。
前記目的を達成するために、本発明は、データを処理する物理計算機と、前記物理計算機上に仮想的に構成される正仮想計算機と、前記物理計算機上に仮想的に構成される1以上の副仮想計算機と、前記正仮想計算機上で動作すると共に、前記正仮想計算機又は前記副仮想計算機からのアクセス要求を基に記憶装置にアクセスする正ソフトウェアと、前記副仮想計算機上で動作すると共に、ハイパバイザを介して前記正ソフトウェアと通信を行う1以上の副ソフトウェアと、を有し、前記副ソフトウェアは、前記正ソフトウェアとの通信時に、その通信時間を監視し、前記正ソフトウェアとの通信に要する通信時間が、前記正ソフトウェアに設定された正タイムアウト監視時間よりも長い副タイムアウト監視時間を超えたことを条件に、前記ハイパバイザで遅延障害が発生したことを検出することを特徴とする。
本発明によれば、ハイパバイザでの障害を確実に検知し、計算機システムの可用性を向上させることができる。
計算機システムの全体構成図である。 仮想計算機の詳細を説明するための構成図である。 管理テーブルの構成図である。 管理テーブルの構成図である。 管理テーブルの構成図である。 エラーログの構成図である。 アプリケーションからデータをリード/ライトする際の処理を説明するためのフローチャートである。 副デバイスドライバのデータ転送処理を説明するためのフローチャートである。 正デバイスドライバのデータ転送処理を説明するためのフローチャートである。 クラスタソフトウェアの処理を説明するためのフローチャートである。
(実施例)
以下、本発明の一実施例を図面に基づいて説明する。
図1は、本発明に係る計算機システムの全体構成図である。図1において、計算機システムは、#1の物理計算機10と、#2の物理計算機10を有し、各物理計算機10が、LAN(Local Area Network)40を介して互いに接続されるとともに、SAN(Storage Area Network)41を介して、複数のストレージ装置42に接続される。各ストレージ装置42は、複数の記憶デバイスを有する記憶装置として構成される。なお、各物理計算機10は、同一の構成であるため、以下、#1の物理計算機10の構成を主に説明する。
#1の物理計算機10は、CPU(Central Processing Unit)、記憶装置などのコンピュータ資源を有する計算機であって、物理計算機10上に仮想的に構成される複数の仮想計算機20、30と、各仮想計算機の実行を制御するハイパバイザ14と、FC-HBA(Fibre Channel−Host Bus Adapter)12と、複数のNIC(Network Interface Card)から構成される。
各仮想計算機20、30と、ハイパバイザ14は、図2に示すように、主記憶装置11に搭載され、FC-HBA12は、SAN41を介して各ストレージ装置42に接続され、各NIC13は、それぞれLAN40に接続される。
仮想計算機20は、各仮想計算機30からのアクセス要求を処理するI/O(Input/Output)サーバであって、正仮想計算機として機能する。この仮想計算機20には、正デバイスドライバ21が動作する。正デバイスドライバ21は、FC-HBA12を制御し、FC-HBA12を介して、各ストレージ装置42をリードアクセス又はライトアクセスする正ソフトウェアとして機能する。また、正デバイスドライバ21は、ストレージ装置42に対するアクセスを実行する際には、管理テーブル22を参照し、データ転送要求のタイムアウト監視を実行する。
各仮想計算機30は、仮想計算機20に対してアクセス要求を発行するI/Oクライアントであって、副仮想計算機として機能する。各仮想計算機30上では、副デバイスドライバ31と、アプリケーション32と、クラスタソフトウェア33が、それぞれ副ソフトウェアとして動作する。
各副デバイスドライバ31は、ハイパバイザ14を介して、正デバイスドライバ21と通信し、正デバイスドライバ21に処理を依頼することで、例えば、各ストレージ装置42にリードアクセスまたはライトアクセスする。また、副デバイスドライバ31は、正ドライバ21とハイパバイザ14を介して通信を行う際に、管理テーブル34、35を参照し、データ転送要求のタイムアウト監視を実行し、エラーが発生した際には、リソースおよびエラーの詳細をエラーログ36に記録する。
各仮想計算機30のアプリケーション32は、各副デバイスドライバ31に対するアクセス要求として、例えば、データのリード要求またはライト要求を発行する。各クラスタソフトウェア33は、仮想計算機30の冗長化を行うための処理を実行する。例えば、各クラスタソフトウェア33は、複数の仮想計算機30のうちいずれかの仮想計算機上で障害が発生した場合、各クラスタソフトウェア間で互いに通信を行い、フェルオーバ先として、例えば、#2の物理計算機10を決定し、その後、系の切り替え指示50を、NIC13とLAN40を介して#2の物理計算機10に送信する処理を実施する。
なお、本実施例では、各ストレージ装置42にアクセスするためのデバイスとして、FC-HBA12を用いているが、各ストレージ装置42にアクセス可能なデバイスであれば、任意のインタフェースおよびプロトコルを用いたデバイスが利用可能である。
また、各物理計算機10上で、2つの仮想計算機30が動作しているが、仮想計算機30としては、1つまたは3つ以上の仮想計算機をI/Oクライアントとして動作させることもできる。
また、各物理計算機10は、LAN40とSAN41で互いに接続されているため、全ての物理計算機10から同一のストレージ装置42へアクセスすることが可能である。また、同一のLAN40で各仮想計算機30が互いに接続されているので、クラスタソフトウェア33同士で通信を行うことが可能であるとともに、各物理計算機10をクラスタ構成にすることで、冗長化が可能となる。なお、クラスタソフトウェア33は、仮想計算機20上に配置することも可能である。
次に、図3に管理テーブルの構成図を示す。図3において、管理テーブル22は、正デバイスドライバ21が、データ転送要求のタイムアウト監視時間を管理するためのテーブルであって、番号フィールド22Aと、項目フィールド22Bと、値フィールド22Cから構成される。
番号は、正デバイスドライバ21の監視項目を特定する番号である。項目は、正デバイスドライバ21が監視する項目に関する情報である。この項目フィールド22Bのエントリには、例えば、データ転送要求のタイムアウト監視を行う場合には、「タイムアウト監視時間」が、正タイムアウト監視時間として格納される。値は、タイムアウト監視時間として設定された固定値である。この値フィールド22Cのエントリには、例えば、タイムアウト監視時間の固定値として、「14」が格納される。
次に、図4に、管理テーブル34の構成図を示す。図4において、管理テーブル34は、副デバイスドライバ31が、データ転送要求のタイムアウト監視時間を管理するためのテーブルであって、番号フィールド34Aと、項目フィールド34Bと、値フィールド34Cから構成される。
番号は、副デバイスドライバ31の監視項目を特定する番号である。項目は、副デバイスドライバ31の監視項目を特定する情報である。副デバイスドライバ31が、データ転送要求のタイムアウト監視を行う場合には、この項目フィールド34Bのエントリには、「タイムアウト監視時間」が、副タイムアウト監視時間として格納される。また、データ転送要求のタイムアウト閾値(タイムアウト回数の閾値)が設定される場合、項目フィールド34Bのエントリには、「タイムアウト閾値」が格納される。値フィールド34Cのエントリには、タイムアウト監視時間を示す固定値またはタイムアウト閾値を示す固定値が格納される。
この際、副デバイスドライバ31のタイムアウト監視時間=15であって、正デバイスドライバ21に設定されたタイムアウト監視時間=14よりも長い時間に設定されている。これは、副デバイスドライバ31がデータ転送要求した場合のデータ転送時間が、正デバイスドライバ21がデータ転送要求を発行した場合のデータ転送時間よりも、長くかかるためである。
次に、図5に、管理テーブル35の構成図を示す。図5において、管理テーブル35は、副デバイスドライバ31が、タイムアウト回数を管理するためのテーブルであって、番号フィールド35Aと、項目フィールド35Bと、値フィールド35Cから構成される。
番号は、副デバイスドライバ31が監視する項目を特定する番号である。項目は、副デバイスドライバ31が監視する項目を特定する情報であり、項目フィールド35Bのエントリには、例えば、副デバイスドライバ31がタイムアウトの回数を監視する場合には、「タイムアウト回数」の情報が格納される。値は、副デバイスドライバ31がタイムアウト回数をカウントした値であって、値フィールド35Cには副デバイスドライバ31がタイムアウトを検出する回数毎に更新される値が格納される。
次に、図6に、エラーログ36の構成図を示す。図6において、エラーログ36は、副デバイスドライバ31が、仮想計算機20、30に関連するエラーを管理するためのテーブルであって、IDフィールド36Aと、タイムスタントフィールド36Bと、リソース名フィールド36Cと、詳細フィールド36Dから構成される。
ID(Identifier)は、エラーログを一意に特定するための識別子である。IDフィールド36Aには、エラーログ46を特定する識別子として、例えば、「4BE53A52」が格納される。
タイムスタンプは、エラーログが発生した時刻を示す情報である。タイムスタンプフィールド36Bのエントリには、エラーログ36が発生した時刻に関する情報として、例えば、「0903150011」が格納される。
リソース名は、エラーログが発生したリソースを特定する情報である。リソース名フィールド36Cのエントリには、例えば、エラーログが発生したリソースが、副デバイスドライバ31である場合には、「副デバイスドライバ」の情報が格納される。
詳細は、エラーが発生した場合、エラーの内容を特定する情報である。詳細フィールド36Dのエントリには、エラーの詳細として、例えば、「デバイスの閉塞」の情報が格納される。
次に、アプリケーションからデータをリードまたはライトする際の処理を図7のフローチャートに従って説明する。
まず、仮想計算機30のアプリケーション32は、データのリード/ライト要求を副デバイスドライバ31に発行する(S701)。副デバイスドライバ31は、リード/ライト要求を基に、データ転送要求をハイパバイザ14に対して発行する(S702)。この際、副デバイスドライバ31は、タイムアウト監視を開始する(S703)。
ハイパバイザ14は、データ転送要求を受信したことを条件に、メッセージを副デバイスドライバ31から転送する(S704)。正デバイスドライバ21は、ハイパバイザ14からメッセージを受信したことを条件に、ストレージ装置42に対して、データ転送要求を発行し(S705)、タイムアウト監視を開始する(S706)。
データ転送要求を受信したストレージ装置42は、正デバイスドライバ21に対するデータ転送を実行し(S707)、データ転送にエラーが発生したか否かを判定する(S708)。ストレージ装置42は、ステップS708で肯定の判定結果を得た場合には、データ転送にエラーが生じたことを示すエラー応答を実行し(S709)、ステップS708で否定の判定結果を得た場合には、データ転送が完了した旨の応答を実行する(S710)。
正デバイスドライバ21は、ストレージ装置42からエラー応答または完了応答を受信した場合には、タイムアウト監視を停止し(S711)、データ転送結果をハイパバイザ14に応答する(S712)。ハイパバイザ14は、正デバイスドライバ21からの応答をメッセージとして副デバイスドライバ31に転送する(S713)。
一方、正デバイスドライバ21は、タイムアウト監視をする過程で、例えば、データ転送に要する時間が、タイムアウト監視時間=14を超えた場合、タイムアウトを検出し(S714)、エラーをハイパバイザ14に応答する(S715)。この場合、ハイパバイザ14は、正デバイスドライバ21でエラーが発生した旨のメッセージを副デバイスドライバ31に転送する(S716)。
副デバイスドライバ31は、ハイパバイザ14からメッセージを受信した場合には、タイムアウト監視を停止し(S716)、データ転送に成功したか否かを判定する(S718)。
副デバイスドライバ31は、ステップS718で否定の判定結果を得た場合には、エラーハンドリングとして、リトライするための処理を実行し(S719)、ステップS718で肯定の判定結果を得た場合には、データ転送が完了した旨の応答をアプリケーション32に出力する(S720)。
一方、副デバイスドライバ31は、タイムアウト監視を実行している過程で、例えば、データ転送に要する時間が、タイムアウト監視時間=15を超えた場合、タイムアウトを検出し(S721)、タイムアウト回数を+1とし(S722)、タイムアウト回数がタイムアウト閾値を超過したか否かを判定する(S723)。
副デバイスドライバ31は、ステップS723で否定の判定結果を得た場合には、エラーハンドリング処理として、リトライを行うための処理を実行し(S724)、S723で肯定の判定結果を得た場合、即ち、タイムアウト回数が、タイムアウト閾値(=10)を超過した場合には、エラーログを出力する(S725)。
次に、副デバイスドライバ31は、受付済みの要求に対してエラー応答し(S726)、副デバイスドライバ31自身をデバイス閉塞状態に遷移させる(S727)。
アプリケーション32は、副デバイスドライバ31からデータ転送完了の応答を受信した場合、または副デバイスドライバ31から、受付済みの要求に対するエラー応答を受信した場合、データのリード/ライトの結果を受信する(S728)。
一方、エラーログを受信したクラスタソフトウェア33は、エラーログ36の中から、デバイス閉塞状態に遷移した旨の情報を検出した場合(S729)、系の切り替え処理を実行する(S730)。
次に、副デバイスドライバにおけるデータ転送処理を図8のフローチャートに従って説明する。
まず、副デバイスドライバ31は、ハイパバイザ14にデータ転送要求を発行し(S801)、データ転送要求のタイムアウト監視を開始し(S802)、タイムアウトが検出されたか否かを判定する(S803)。
副デバイスドライバ31は、ステップS803で否定の判定結果を得た場合には、データ転送の応答を受信したか否かを判定し(S804)、ステップS804で否定の判定結果を得た場合には、ステップS803の処理に戻り、ステップS803〜ステップS804の処理を繰り返す。ステップS804で肯定の判定結果を得た場合には、副デバイスドライバ31は、タイムアウト監視を停止する(S805)。
次に、副デバイスドライバ31は、データ転送に成功したか否かを判定し(S806)、ステップS806で否定の判定結果を得た場合には、エラーハンドリングとして、リトライ処理を実行し(S807)、その後、このルーチンでの処理を終了し、ステップS806で肯定の判定結果を得た場合には、データ転送が完了した旨の応答を実行し(S808)、その後、このルーチンでの処理を終了する。
一方、ステップS803で肯定の判定結果を得た場合、副デバイスドライバ31は、タイムアウト回数を+1として、テーブル35の値35Cを更新し(S809)、更新したタイムアウト回数が、タイムアウト閾値を超過したか否かを判定する(S810)。
副デバイスドライバ31は、ステップS810で否定の判定結果を得た場合には、ステップS807の処理に移行し、ステップS810で肯定の判定結果を得た場合には、エラーログ36を出力し(S811)、受付済みの要求に対して、全てエラー応答し(S812)、副デバイスドライバ31自身をデバイス閉塞状態に遷移させ(S813)、その後、このルーチンでの処理を終了する。
この際、副デバイスドライバ31は、正デバイスドライバ21との通信時に、その通信時間を監視し、正デバイスドライバ21との通信に要する通信時間が、正デバイスドライバ21に設定されたタイムアウト監視時間よりも長いタイムアウト監視時間を超えたことを条件に、ハイパバイザ14で遅延障害が発生したことを検出することになる。
次に、正デバイスドライバ21のデータ転送処理を図9のフローチャートに従って説明する。
正デバイスドライバ21は、ストレージ装置42にデータ転送要求を発行し(S901)、データ転送要求のタイムアウト監視を開始し(S902)、タイムアウトを検出したか否かを判定する(S903)。
正デバイスドライバ21は、ステップS903で肯定の判定結果を得た場合には、データ転送応答を受信したか否かを判定し(S904)、ステップS904で否定の判定結果を得た場合には、ステップS903の処理に戻り、ステップS903〜ステップS904の処理を繰り返す。ステップS904で肯定の判定結果を得た場合には、正デバイスドライバ21は、タイムアウト監視を停止する(S905)。
この後、正デバイスドライバ21は、データ転送結果をストレージ装置42に応答し(S906)、その後、このルーチンでの処理を終了する。
一方、ステップS903で否定の判定結果を得た場合、正デバイスドライバ21は、ストレージ装置42にエラーを応答し(S907)、その後、このルーチンでの処理を終了する。
次に、クラスタソフトウェアの処理を図10のフローチャートに従って説明する。
クラスタソフトウェア33は、副デバイスドライバ31からエラーログを取得し(S1001)、取得したエラーログの内容からデバイスが閉塞されたか否かを検出する(S1002)。
クラスタソフトウェア33は、ステップS1002で否定の判定結果を得た場合には、ステップS1001の処理に戻り、ステップS1001〜ステップS1002の処理を繰り返す。ステップS1002で肯定の判定結果を得た場合には、クラスタソフトウェア33は、系切り替え処理を実行し(S1003)、その後、このルーチンでの処理を終了する。
本実施例において、副デバイスドライバ31で用いるタイムアウト監視時間は、正デバイスドライバ21で用いるタイムアウト監視時間よりも長く設定されているので、正デバイスドライバ21からタイムアウトのエラーが応答されず、副デバイスドライバ31でタイムアウトを検出した場合、正デバイスドライバ21と副デバイスドライバ31との間、即ち、ハイパバイザ14に遅延要因があると判断することができる。
従って、副デバイスドライバ31でタイムアウトを検出した場合、ハイパバイザ14で遅延障害が発生した判断することができ、結果として、ハイパバイザ14での障害を確実に検知することができる。ここで、遅延障害とは、単純に処理が遅延している状況と、ハイパバイザ14が転送するメッセージが欠落し、見かけ上遅延している状況とを含む。
本実施例によれば、ハイパバイザ14での障害を確実に検知し、計算機システムの可用性を向上させることができる。
また、本実施例によれば、仮想計算機20、30の負荷を最小限に留めた上で、ハイパバイザ14での障害を確実に検知することができる。さらに、ハイパバイザ14での障害を検知したことを契機として、系の切り替えを実施することで、障害の生じた仮想計算機における処理を、他の物理計算機10の仮想計算機で継続することができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、上記の各構成、機能等は、それらの一部又は全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、IC(Integrated Circuit)カード、SD(Secure Digital)メモリカード、DVD(Digital Versatile Disc)等の記録媒体に記録して置くことができる。
10 物理計算機、11 主記憶装置、12 FC-HBA、13 NIC、14 ハイパバイザ、20 仮想計算機、21 正デバイスドライバ、30 仮想計算機、31 副デバイスドライバ、32 アプリケーション、33 クラスタソフトウェア、42 ストレージ装置。

Claims (8)

  1. データを処理する物理計算機と、
    前記物理計算機上に仮想的に構成される正仮想計算機と、
    前記物理計算機上に仮想的に構成される1以上の副仮想計算機と、
    前記正仮想計算機上で動作すると共に、前記正仮想計算機又は前記副仮想計算機からのアクセス要求を基に記憶装置にアクセスする正ソフトウェアと、
    前記副仮想計算機上で動作すると共に、ハイパバイザを介して前記正ソフトウェアと通信を行う1以上の副ソフトウェアと、を有し、
    前記副ソフトウェアは、
    前記正ソフトウェアとの通信時に、その通信時間を監視し、前記正ソフトウェアとの通信に要する通信時間が、前記正ソフトウェアに設定された正タイムアウト監視時間よりも長い副タイムアウト監視時間を超えたことを条件に、前記ハイパバイザで遅延障害が発生したことを検出することを特徴とする計算機システム。
  2. 請求項1に記載の計算機システムであって、
    前記副ソフトウェアは、
    前記正ソフトウェアと通信を行う過程で、前記正ソフトウェアとの通信に要する通信時間が、前記副タイムアウト監視時間を超えた回数を記録し、前記記録した回数が、タイムアウト閾値を超えたことを条件に、エラーログを出力することを特徴とする計算機システム。
  3. 請求項に記載の計算機システムであって、
    前記副ソフトウェアは、
    前記エラーログを出力したことを条件に、自副ソフトウェアを閉塞するための処理に遷移することを特徴とする計算機システム。
  4. 請求項1に記載の計算機システムであって、
    前記物理計算機を複数台有し、
    前記各物理計算機は、前記正仮想計算機と、前記副仮想計算機から構成され、前記各正仮想計算機は、前記正ソフトウェアを有し、前記各副仮想計算機は、前記各副ソフトウェアを有し、
    前記各副ソフトウェアのうち前記ハイパバイザで遅延障害が発生したことを検出した副ソフトウェアは、当該副ソフトウェアが動作する副仮想計算機を管理する物理計算機とは異なる他の物理計算機の副仮想計算機上で動作する副ソフトウェアに、エラーログを送信し、
    前記エラーログを受信した副ソフトウェアは、前記エラーログを送信した前記副ソフトウェアの処理を継続することを特徴とする計算機システム。
  5. データを処理する物理計算機と、
    前記物理計算機上に仮想的に構成される正仮想計算機と、
    前記物理計算機上に仮想的に構成される1以上の副仮想計算機と、
    前記正仮想計算機上で動作すると共に、前記正仮想計算機又は前記副仮想計算機からのアクセス要求を基に記憶装置にアクセスする正ソフトウェアと、
    前記副仮想計算機上で動作すると共に、ハイパバイザを介して前記正ソフトウェアと通信を行う1以上の副ソフトウェアと、を有する計算機システムにおける障害処理方法であって、
    前記副ソフトウェアは、
    前記正ソフトウェアとの通信時に、その通信時間を監視するステップと、
    前記正ソフトウェアとの通信に要する通信時間が、前記正ソフトウェアに設定された正タイムアウト監視時間よりも長い副タイムアウト監視時間を超えたことを条件に、前記ハイパバイザで遅延障害が発生したことを検出するステップと、を実行することを特徴とする障害処理方法。
  6. 請求項5に記載の障害処理方法であって、
    前記副ソフトウェアは、
    前記正ソフトウェアと通信を行う過程で、前記正ソフトウェアとの通信に要する通信時間が、前記副タイムアウト監視時間を超えた回数を記録するステップと、
    前記記録した回数が、タイムアウト閾値を超えたことを条件に、エラーログを出力するステップと、を実行することを特徴とする障害処理方法。
  7. 請求項に記載の障害処理方法であって、
    前記副ソフトウェアは、
    前記エラーログを出力したことを条件に、自副ソフトウェアを閉塞するための処理に遷移するステップを実行することを特徴とする障害処理方法。
  8. 請求項5に記載の障害処理方法であって、
    前記物理計算機を複数台有し、
    前記各物理計算機は、前記正仮想計算機と、前記副仮想計算機から構成され、前記各正仮想計算機は、前記正ソフトウェアを有し、前記各副仮想計算機は、前記各副ソフトウェアを有し、
    前記各副ソフトウェアのうち前記ハイパバイザで遅延障害が発生したことを検出した副ソフトウェアは、当該副ソフトウェアが動作する副仮想計算機を管理する物理計算機とは異なる他の物理計算機の副仮想計算機上で動作する副ソフトウェアに、エラーログを送信するステップを実行し、
    前記エラーログを受信した副ソフトウェアは、前記エラーログを送信した前記副ソフトウェアの処理を継続するステップを実行することを特徴とする障害処理方法。
JP2012000834A 2012-01-05 2012-01-05 計算機システム及び障害処理方法 Active JP5719316B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012000834A JP5719316B2 (ja) 2012-01-05 2012-01-05 計算機システム及び障害処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012000834A JP5719316B2 (ja) 2012-01-05 2012-01-05 計算機システム及び障害処理方法

Publications (2)

Publication Number Publication Date
JP2013140526A JP2013140526A (ja) 2013-07-18
JP5719316B2 true JP5719316B2 (ja) 2015-05-13

Family

ID=49037895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012000834A Active JP5719316B2 (ja) 2012-01-05 2012-01-05 計算機システム及び障害処理方法

Country Status (1)

Country Link
JP (1) JP5719316B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8209683B2 (en) * 2007-04-17 2012-06-26 International Business Machines Corporation System and method for probing hypervisor tasks in an asynchronous environment
JP2009080704A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 仮想計算機システム及び同システムにおけるサービス引き継ぎ制御方法
JP2009294758A (ja) * 2008-06-03 2009-12-17 Hitachi Ltd 仮想計算機システム及びホストバスアダプタ用ドライバプログラム
JP5245961B2 (ja) * 2009-03-19 2013-07-24 富士通株式会社 タイマ値管理システムおよびサーバ装置
JP5477047B2 (ja) * 2010-02-25 2014-04-23 富士通株式会社 情報処理装置、仮想計算機接続方法、プログラム及び記録媒体

Also Published As

Publication number Publication date
JP2013140526A (ja) 2013-07-18

Similar Documents

Publication Publication Date Title
JP5851503B2 (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
US9933946B2 (en) Fibre channel storage array methods for port management
JP4744480B2 (ja) 仮想計算機システム
US8495412B2 (en) Autonomous propagation of virtual input/output (VIO) operation(s) to second VIO server (VIOS) due to a detected error condition at a first VIOS
JP5536878B2 (ja) ファイバ・チャネル・ファブリックへのアクセスの変更
JP5873489B2 (ja) ゲスト仮想機械とやり取りするための方法およびシステム
US8726274B2 (en) Registration and initialization of cluster-aware virtual input/output server nodes
US10656877B2 (en) Virtual storage controller
US9823955B2 (en) Storage system which is capable of processing file access requests and block access requests, and which can manage failures in A and storage system failure management method having a cluster configuration
US10114688B2 (en) System and method for peripheral bus device failure management
JP5561622B2 (ja) 多重化システム、データ通信カード、状態異常検出方法、及びプログラム
US9806959B2 (en) Baseboard management controller (BMC) to host communication through device independent universal serial bus (USB) interface
JP2014522052A (ja) ハードウェア故障の軽減
WO2013101082A1 (en) Reset of processing core in multi-core processing system
EP3449350A1 (en) Dynamically configuring a storage system to facilitate independent scaling of resources
WO2017041671A1 (zh) 故障恢复的方法和装置
US10938703B1 (en) Status monitoring system and method
JPWO2012023183A1 (ja) 計算機管理装置、計算機管理システム及び計算機システム
JP5719316B2 (ja) 計算機システム及び障害処理方法
US8935695B1 (en) Systems and methods for managing multipathing configurations for virtual machines
US9400605B2 (en) Efficient management of a virtual tape library cluster
JP5422705B2 (ja) 仮想計算機システム
TW202016687A (zh) 一種叢集作業過程中的電源請求管理方法
EP2307969B1 (en) Connecting a storage subsystem and an electronic device with a control device that hides details of the storage subsystem
JP5422706B2 (ja) 管理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150320

R150 Certificate of patent or registration of utility model

Ref document number: 5719316

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150