JP5285045B2 - 仮想環境における故障復旧方法及びサーバ及びプログラム - Google Patents
仮想環境における故障復旧方法及びサーバ及びプログラム Download PDFInfo
- Publication number
- JP5285045B2 JP5285045B2 JP2010252891A JP2010252891A JP5285045B2 JP 5285045 B2 JP5285045 B2 JP 5285045B2 JP 2010252891 A JP2010252891 A JP 2010252891A JP 2010252891 A JP2010252891 A JP 2010252891A JP 5285045 B2 JP5285045 B2 JP 5285045B2
- Authority
- JP
- Japan
- Prior art keywords
- machine
- cluster
- failure
- sby
- spare
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Description
現用機の故障推定手段が、現用機のログ記憶手段から検索した結果に基づいて、該現用機の故障箇所を推定する故障箇所推定ステップと、
故障箇所推定ステップにおいて、現用機の故障箇所がネットワーク故障であると推定された場合には、該現用機の導通確認手段が、該現用機に接続されたルータまでの導通を確認する導通確認ステップと、
ルータまでの導通確認が成功した場合に、現用機のクラスタ構成起動手段が、該現用機のクラスタ状態を、NONEからSBY[online]へ遷移させ、予備機のクラスタ状態をACTのままとするクラスタ構成起動ステップと、
自身の稼動状態を外部に通知するための高可用性クラスタソフトが起動されると、予備機のクラスタ状態をACTからSBY[standby]に遷移させ、系切り替えのため、現用機のクラスタ状態をSBY[online]からACTに遷移させ、該予備機のクラスタ状態をSBY[standby]からSBY[online]に遷移させる復旧ステップと、を行う。
導通確認ステップにおいてホストマシンとゲストマシン間の通信故障であると特定された場合には、
導通確認ステップにおいて、
ゲストマシンからホストマシンへの導通不良を確認し、
クラスタ構成起動ステップにおいて、
ゲストマシンからホストマシンへの導通が成功した場合には、現用機のクラスタ状態を、NONEからSBY[online]へ遷移させ、予備機のクラスタ状態をACTのままとする。
クラスタ構成起動ステップにおいて、現用機のクラスタ状態を、NONEからSBY[online]へ遷移させ、予備機のクラスタ状態をACTのままとする。
導通確認ステップにおいて、
予備機から現用機の電源制御手段に対して導通確認を行い、
クラスタ構成起動ステップにおいて、
導通確認ステップにて電源制御手段への導通が成功した場合には、現用機のクラスタ状態を、NONEからSBY[online]に遷移させ、前記予備機のクラスタ状態をACTのままとし、導通不良であると判った場合には、エラー出力し、前記予備機のクラスタ状態をACTのままとする。
ログ記憶手段から検索した結果に基づいて、該現用機の故障箇所を推定する故障箇所推定手段と、
故障箇所推定手段において、現用機の故障箇所がネットワーク故障であると推定された場合には、該現用機に接続されたルータまでの導通を確認する導通確認手段と、
ルータまでの導通確認が成功した場合に、当該現用機のクラスタ状態を、NONEからSBY[online]へ遷移させるクラスタ構成起動手段と、
自身の稼動状態を外部に通知するための高可用性クラスタソフトが起動されると、予備機のクラスタ状態をACTからSBY[standby]に遷移させ、系切り替えのため、現用機のクラスタ状態をSBY[online]からACTに遷移させ、該予備機のクラスタ状態をSBY[standby]からSBY[online]に遷移させる復旧手段と、を有することを特徴とする。
クラスタ構成起動手段に、導通確認手段にてゲストマシンからホストマシンへの導通が成功した場合には、現用機のクラスタ状態を、NONEからSBY[online]へ遷移させる手段を含む。
クラスタ構成起動手段に、予備機にて強制電源断機能に関するエラーが検出され、かつ、予備機の導通確認手段が予備機から現用機の電源制御手段への導通確認を行い、導通が成功している場合は、当該サーバのクラスタ状態をNONEからSBY[online]に遷移させ、導通不良の場合には、エラーを出力する手段を含む。
複数サーバを相互に接続し、ユーザや他サーバに対して全体で1台のサーバであるかのように振舞わせる技術であり、複数サーバを1台のサーバを扱うように管理することができる。1台が停止してもシステム全体が止まることはなく、処理を続行したまま修理や交換が可能である。
サービスを提供するために必要な構成要素を指す。クラスタ構成におけるリソースとは、高可用性クラスタソフトが起動、停止、監視等の制御対象とするアプリケーションを指す。アプリケーションには、データベース(DB)などが含まれる。
サーバでサービス稼働中のことを指す。クラスタ構成において、DBなどサービスを提供するリソースが稼動しているサーバの状態を"ACT"と記す。
"ACT"へ遷移できる状態のことをいう。クラスタ構成において、故障などによる系切り替えが発生した場合、"ACT"からリソースを切り替えることが可能なサーバを"SBY[online]"と記す。
クラスタ構成において、故障などによる系切り替えが発生した場合でも、"ACT"にならないように抑制されている状態のサーバを"SBY[standby]"と記す。
"ACT"へ遷移しようとしている状態(系切り替え中の状態)を指す。クラスタ構成において、故障などによる系切り替えが発生し"ACT"へ遷移しようとしているが、現用機側で実施されているリソースの停止処理が正常終了するのを待っている状態のサーバを"SBY[遷移中]"と記す。
サーバがクラスタ構成に組み込まれていない状態を指す。サーバや高可用性クラスタソフト停止が停止していることにより、クラスタ構成に組み込まれていないサーバを"NONE"と記す。
クラスタ状態:"NONE"
故障回数:0
エラーステータス:0
リソース状態:0
(予備機の状態)
クラスタ状態:"ACT"
故障回数:0
エラーステータス:0
リソース状態:1(Started)
ステップ102) 次に、図10に示すように、現用機10のゲストマシン110の制御実行部130のログ検索部131からOS機能である検索のコマンドを実行し、該当するエラーメッセージを取得する。ルータに対するエラーメッセージを取得した場合は、現用機10とルータ3間のエラーとしてステップ103に移行して導通確認処理を行う。
クラスタ状態:"NONE"
故障回数:0
エラーステータス:0
リソース状態:0
(予備機の状態)
クラスタ状態:"ACT"
故障回数:0
エラーステータス:0
リソース状態:1(Started)
ステップ107) 現用機10の故障推定部137では、ログ検索結果によりホストマシン150、ゲストマシン110間の通信に問題が発生したと推測できる場合は、ステップ108に移行し、特定できない場合は、ステップ109に移行する。
・ステップ104で故障発生箇所が「リソース」であるとき;
・ステップ105で強制電源断機能(リセット)が失敗したが、ステップ106において現用機10のハードウェア制御ボード17への導通が成功した(失敗でも許容可)場合、または、ステップ107でルータ3への導通が成功し、かつ、ゲストマシンからホストマシンへの導通が成功した場合;
図14に示すように、以下の復旧処理を行う。以下の括弧内の数字と図14中の括弧内の数字が示す処理が対応する。
クラスタ状態:"SBY[online]"
故障回数:0
エラーステータス:0
リソース状態:0
(予備機の状態)
クラスタ状態:"ACT"
故障回数:0
エラーステータス:0
リソース状態:1(Started)
ステップ110) 現用機10は、図15に示すように、ゲストマシン110の制御実行部130のコマンド実行部136において、高可用性クラスタソフト140の状態確認コマンドを実行し、状態管理情報記憶部164からクラスタ状態を取得し、"SBY[online]"であることを確認する。この状態でない場合は、エラーを出力する。
クラスタ状態:"ACT"
故障回数:0
エラーステータス:0
リソース状態:1(Started)
(予備機の状態)
クラスタ状態:"SBY[standby]"
故障回数:0
エラーステータス:0
リソース状態:0
ステップ113) 現用機10において、図18に示す終了処理を行う。以下の括弧内の数字と図18中の括弧内の数字が示す処理が対応する。
クラスタ状態:"ACT"
故障回数:0
エラーステータス:0
リソース状態:1(Started)
(予備機の状態)
クラスタ状態:"SBY[online]"
故障回数:0
エラーステータス:0
リソース状態:0
ステップ115) 現用機10からログアウトする。
2 サービスLAN
3 ルータ
4 保守端末
5 管理LAN
10 サーバ(現用機)
11,21 サービスLANネットワークインタフェース
12,22 管理LANネットワークインタフェース
13,23 管理LANネットワーク仮想インタフェース
14,24 サービスLANネットワーク仮想インタフェース
15,25 管理LANネットワーク仮想インタフェース
16,26 サービスLANネットワーク仮想インタフェース
17,27 ハードウェア制御ボード
20 サーバ(予備機)
30 共有ディスク
110、210 ゲストマシン
151,251 デバイス一括監視部
120,220 リソース
130,230 制御実行部
131,231 ログ検索部
132,232 導通確認部
133,233 系切り替え部
134,234 状態確認実行部
135,235 起動実行部
136,236 コマンド実行部
137,237 故障箇所推定部
140,240 高可用性クラスタソフト
141,241 ネットワーク監視結果取得部
142,242 ディスク監視結果取得部
160,260 内蔵ディスク
161,261 ホストマシン割当ディスク
162,262 ゲストマシン割当ディスク
163,263 ログ記憶部
164,264 状態管理情報記憶部
170,270 ハイパーバイザ
Claims (9)
- ハイパーバイザが導入された仮想環境における現用機及び予備機から構成されるクラスタシステムにおいて、該現用機及び該予備機が、該現用機及び該予備機のクラスタ状態及び故障状態を格納する状態管理情報記憶手段、故障箇所を示す故障ログを格納するログ記憶手段をそれぞれ含み、クラスタ状態を、サービス稼動中(ACT)、該ACTに遷移できる状態(SBY[online])、故障などによる系切り替えが発生しても、“ACT”にならないよう抑制されている状態(SBY[standby])、クラスタ構成に組み込まれていない状態(NONE)とするとき、該予備機がサービス稼動中(ACT)であり、該現用機がクラスタ構成に組み込まれていない状態(NONE)である場合に、障害原因を特定するための仮想環境における故障復旧方法であって、
前記現用機の故障推定手段が、前記現用機のログ記憶手段から検索した結果に基づいて、該現用機の故障箇所を推定する故障箇所推定ステップと、
前記故障箇所推定ステップにおいて、前記現用機の故障箇所がネットワーク故障であると推定された場合には、該現用機の導通確認手段が、該現用機に接続されたルータまでの導通を確認する導通確認ステップと、
前記ルータまでの導通確認が成功した場合に、前記現用機のクラスタ構成起動手段が、該現用機のクラスタ状態を、NONEからSBY[online]へ遷移させ、前記予備機のクラスタ状態をACTのままとするクラスタ構成起動ステップと、
自身の稼動状態を外部に通知するための高可用性クラスタソフトが起動されると、前記予備機のクラスタ状態をACTからSBY[standby]に遷移させ、系切り替えのため、前記現用機のクラスタ状態をSBY[online]からACTに遷移させ、該予備機のクラスタ状態をSBY[standby]からSBY[online]に遷移させる復旧ステップと、
を有することを特徴とする仮想環境における故障復旧方法。 - 前記現用機に、ホストマシンとゲストマシンが導入されている環境において、
前記導通確認ステップにおいて前記ホストマシンと前記ゲストマシン間の通信故障であると特定された場合には、
前記導通確認ステップにおいて、
前記ゲストマシンから前記ホストマシンへの導通不良を確認し、
前記クラスタ構成起動ステップにおいて、
前記ゲストマシンから前記ホストマシンへの導通が成功した場合には、前記現用機のクラスタ状態を、NONEからSBY[online]へ遷移させ、前記予備機のクラスタ状態をACTのままとする
請求項1記載の仮想環境における故障復旧方法。 - 前記故障箇所推定ステップにおいて故障箇所のカテゴリがリソースであると推定された場合は、
前記クラスタ構成起動ステップにおいて、前記現用機のクラスタ状態を、NONEからSBY[online]へ遷移させ、前記予備機のクラスタ状態をACTのままとする
請求項1または2記載の仮想環境における故障復旧方法。 - 前記故障箇所推定ステップにおいて、前記現用機及び前記予備機に、故障時に他サーバの電源を強制的に切断する強制電源断機能が導入されており、該予備機のログ記憶手段から強制電源断機能に関するエラーが検索された場合には、該現用機に重大なエラーが検出されたものと判定し、
前記導通確認ステップにおいて、
前記予備機から前記現用機の電源制御手段に対して導通確認を行い、
前記クラスタ構成起動ステップにおいて、
前記導通確認ステップにて前記電源制御手段への導通が成功した場合には、前記現用機のクラスタ状態を、NONEからSBY[online]に遷移させ、前記予備機のクラスタ状態をACTのままとし、導通不良であると判った場合には、エラー出力し、前記予備機のクラスタ状態をACTのままとする
請求項3記載の仮想環境における故障復旧方法。 - ハイパーバイザが導入された仮想環境における現用機及び予備機から構成されるクラスタシステムにおいて、該現用機及び該予備機のクラスタ状態及び故障状態を格納する状態管理情報記憶手段、故障箇所を示す故障ログを格納するログ記憶手段をそれぞれ含み、クラスタ状態を、サービス稼動中(ACT)、該ACTに遷移できる状態(SBY[online])、故障などによる系切り替えが発生しても、“ACT”にならないよう抑制されている状態(SBY[standby])、クラスタ構成に組み込まれていない状態(NONE)とするとき、該予備機がサービス稼動中(ACT)であり、該現用機がクラスタ構成に組み込まれていない状態(NONE)である場合に、障害原因を特定するための現用機として動作するサーバであって、
前記ログ記憶手段から検索した結果に基づいて、該現用機の故障箇所を推定する故障箇所推定手段と、
前記故障箇所推定手段において、前記現用機の故障箇所がネットワーク故障であると推定された場合には、該現用機に接続されたルータまでの導通を確認する導通確認手段と、
前記ルータまでの導通確認が成功した場合に、当該現用機のクラスタ状態を、NONEからSBY[online]へ遷移させるクラスタ構成起動手段と、
自身の稼動状態を外部に通知するための高可用性クラスタソフトが起動されると、前記予備機のクラスタ状態をACTからSBY[standby]に遷移させ、系切り替えのため、前記現用機のクラスタ状態をSBY[online]からACTに遷移させ、該予備機のクラスタ状態をSBY[standby]からSBY[online]に遷移させる復旧手段と、
を有することを特徴とするサーバ。 - 前記導通確認手段は、
当該サーバに、ホストマシンとゲストマシンが導入されている環境において、該ホストマシンと該ゲストマシン間の通信故障であると特定された場合には、該ゲストマシンから該ホストマシンへの導通を確認する手段を含み、
前記クラスタ構成起動手段は、
前記導通確認手段にて前記ゲストマシンから前記ホストマシンへの導通が成功した場合には、現用機のクラスタ状態を、NONEからSBY[online]へ遷移させる手段を含む請求項5記載のサーバ。 - 前記クラスタ構成起動手段は、
前記故障箇所推定手段において、故障箇所のカテゴリがリソースである場合は、当該サーバのクラスタ状態を、NONEからSBY[online]へ遷移させる手段を
更に有する請求項5または6記載のサーバ。 - 前記現用機及び前記予備機に、故障時に他サーバの電源を強制的に切断する強制電源断機能が導入されている環境において、
前記クラスタ構成起動手段は、
前記予備機にて強制電源断機能に関するエラーが検出され、かつ、予備機の導通確認手段が予備機から現用機の電源制御手段への導通確認を行い、導通が成功している場合は、当該サーバのクラスタ状態をNONEからSBY[online]に遷移させ、導通不良の場合には、エラーを出力する手段を含む
請求項7記載のサーバ。 - 請求項5乃至8のいずれか1項に記載のサーバを構成する各手段としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010252891A JP5285045B2 (ja) | 2010-06-04 | 2010-11-11 | 仮想環境における故障復旧方法及びサーバ及びプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010128892 | 2010-06-04 | ||
JP2010128892 | 2010-06-04 | ||
JP2010252891A JP5285045B2 (ja) | 2010-06-04 | 2010-11-11 | 仮想環境における故障復旧方法及びサーバ及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012014674A JP2012014674A (ja) | 2012-01-19 |
JP5285045B2 true JP5285045B2 (ja) | 2013-09-11 |
Family
ID=45600976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010252891A Active JP5285045B2 (ja) | 2010-06-04 | 2010-11-11 | 仮想環境における故障復旧方法及びサーバ及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5285045B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220247813A1 (en) * | 2021-02-01 | 2022-08-04 | Hitachi, Ltd. | Server management system, method of managing server, and program of managing server |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6020273B2 (ja) | 2013-03-19 | 2016-11-02 | 富士通株式会社 | 監視装置,情報処理システム,監視方法および監視プログラム |
JP2015156168A (ja) | 2014-02-21 | 2015-08-27 | 株式会社日立製作所 | データセンタのリソース配分システム及びデータセンタのリソース配分方法 |
JP6288275B2 (ja) * | 2014-07-22 | 2018-03-07 | 日本電気株式会社 | 仮想化基盤管理装置、仮想化基盤管理システム、仮想化基盤管理方法、及び、仮想化基盤管理プログラム |
KR102239177B1 (ko) * | 2014-09-03 | 2021-04-09 | 주식회사 케이티 | 클라우드 서버 관리 방법, 이를 수행하는 클라우드 서버 관리 장치 및 클라우드 서비스 관리 시스템 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4353005B2 (ja) * | 2004-06-29 | 2009-10-28 | 株式会社日立製作所 | クラスタ構成コンピュータシステムの系切替方法 |
JP5262145B2 (ja) * | 2008-02-04 | 2013-08-14 | 日本電気株式会社 | クラスタシステムおよび情報処理方法 |
JP5392594B2 (ja) * | 2008-03-05 | 2014-01-22 | 日本電気株式会社 | 仮想計算機冗長化システム、コンピュータシステム、仮想計算機冗長化方法、及びプログラム |
-
2010
- 2010-11-11 JP JP2010252891A patent/JP5285045B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220247813A1 (en) * | 2021-02-01 | 2022-08-04 | Hitachi, Ltd. | Server management system, method of managing server, and program of managing server |
US11659030B2 (en) * | 2021-02-01 | 2023-05-23 | Hitachi, Ltd. | Server management system, method of managing server, and program of managing server |
Also Published As
Publication number | Publication date |
---|---|
JP2012014674A (ja) | 2012-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6622261B1 (en) | Process pair protection for complex applications | |
JP4572250B2 (ja) | 計算機切り替え方法、計算機切り替えプログラム及び計算機システム | |
US7788524B2 (en) | Fault-tolerant networks | |
US20110271140A1 (en) | Method and computer system for failover | |
JP5548647B2 (ja) | 計算機システムでの部分障害処理方法 | |
JP2005209191A (ja) | 高可用性システムの遠隔エンタープライズ管理 | |
US20080307254A1 (en) | Information-processing equipment and system therefor | |
JP5285045B2 (ja) | 仮想環境における故障復旧方法及びサーバ及びプログラム | |
CN110109772B (zh) | 一种cpu的重启方法、通信设备及可读存储介质 | |
WO2007051901A1 (en) | Methods and apparatus for automatically multi-booting a computer system | |
CN107071189B (zh) | 一种通讯设备物理接口的连接方法 | |
JP5285044B2 (ja) | クラスタシステム復旧方法及びサーバ及びプログラム | |
US7437445B1 (en) | System and methods for host naming in a managed information environment | |
KR20140140719A (ko) | 가상 머신 동기화 장치 및 시스템과 이를 이용한 장애 처리 방법 | |
JP6856574B2 (ja) | サービス継続システムおよびサービス継続方法 | |
JP5277228B2 (ja) | クラスタシステム復旧方法、サーバ及びソフトウェア | |
JP6773345B1 (ja) | フォールトトレラントシステム、サーバ、及びそれらの運用方法 | |
JP2018169920A (ja) | 管理装置、管理方法及び管理プログラム | |
JP2020205121A (ja) | フォールトトレラントシステム、サーバ、それらの運用方法、及びプログラム | |
CN115499296B (zh) | 一种云桌面热备管理方法、装置及系统 | |
JPH05314075A (ja) | オンラインコンピュータ装置 | |
US20130198377A1 (en) | Control method, control system, information processing apparatus, and computer-readable non-transitory medium | |
JP5277229B2 (ja) | クラスタシステム復旧方法、サーバ及びソフトウェア | |
JPH10133963A (ja) | 計算機の故障検出・回復方式 | |
JP6042139B2 (ja) | サーバの単独切替システム及びその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130430 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130530 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5285045 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |