JP5548647B2 - 計算機システムでの部分障害処理方法 - Google Patents
計算機システムでの部分障害処理方法 Download PDFInfo
- Publication number
- JP5548647B2 JP5548647B2 JP2011096689A JP2011096689A JP5548647B2 JP 5548647 B2 JP5548647 B2 JP 5548647B2 JP 2011096689 A JP2011096689 A JP 2011096689A JP 2011096689 A JP2011096689 A JP 2011096689A JP 5548647 B2 JP5548647 B2 JP 5548647B2
- Authority
- JP
- Japan
- Prior art keywords
- lpar
- failure
- hypervisor
- failover
- physical computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0712—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2028—Failover techniques eliminating a faulty processor or activating a spare
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2038—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Description
本発明を適用した計算機システムについて、図面により説明する。
403を「あり」に、停止可否フラグ404を「否」に設定し、実行継続可能であるがハードウェア障害が発生している旨を通知するマシンチェック(Correctable Machine Check)を送信する(ステップ504)。
本発明では、クラスタ制御と組み合わせたが、クラスタ制御に限定するものではない。マシンチェック割り込みの通知を受けて、ハイパバイザ250の障害通知テーブル252を更新するプログラムが実行していれば、将来の停止に向けた処理を実行することが可能である。
次に、本発明を適用した第二の計算機システムについて説明する。図9は、本発明の第二の実施の形態のシステム構成図である。
Claims (14)
- クラスタを構成する第一の物理計算機及び第二の物理計算機上に、ハイパバイザの制御により前記第一の物理計算機及び前記第二の物理計算機の資源を論理分割してなる複数のLPARが生成された仮想計算機システムにおけるハードウェア障害処理方法であって、
前記第一の物理計算機が有する第一のハイパバイザは、前記第一の物理計算機上の複数のLPARそれぞれについて、当該LPARが停止してよい状態であるかどうかを管理する障害通知情報を備え、
前記第一の物理計算機でハードウェア障害が発生すると、
前記第一のハイパバイザは、前記第一の物理計算機上の複数のLPARのうち当該ハードウェア障害の影響で実行継続が不可能となる第一のLPARを特定し、
前記第一のLPARについて、前記第一のハイパバイザは、第一のLPARを停止するための命令を送信し、当該命令を受領した第一のLPARは第一のLPARを停止するとともに前記第一のLPARが停止してよい状態であることを示すよう前記障害通知情報を更新し、
前記第一のLPARとクラスタを構成する前記第二の物理計算機上に生成された第二のLPARが有するクラスタ制御部は、前記第一のLPARの業務を前記第二のLPARへフェイルオーバーする第一のフェイルオーバーを行い、
前記第一の物理計算機上の複数のLPARのうち前記ハードウェア障害の影響で実行継続が不可能となる第一のLPARとは異なる実行の継続が可能な第三のLPARについて、当該第三のLPARとクラスタを構成する前記第二の物理計算機上に生成された第四のLPARが有するクラスタ制御部は、前記第三のLPARの業務を前記第四のLPARへフェイルオーバーする第二のフェイルオーバーを行い、前記第三のLPARは前記第二のフェイルオーバーが成功した後、前記第三のLPARが停止してよい状態であることを示すよう前記障害通知情報を更新することを特徴とするハードウェア障害処理方法。 - 前記障害通知情報は、さらに、前記第一の物理計算機上の複数のLPARそれぞれについて、障害通知の要求有無を管理し
前記第一のハイパバイザは、前記第一のハイパバイザが有する障害通知情報を参照し、前記第三のLPARにおけるハードウェア障害通知の要求がある場合、前記第三のLPARに前記障害通知を送信し、
前記障害通知を受信した前記第三のLPARが有するクラスタ制御部は、前記第二のフェイルオーバーの状況を管理するフェイルオーバー要求情報を有し、前記フェイルオーバー要求情報に前記第二のフェイルオーバーの要求ありを設定することを特徴とする請求項1記載のハードウェア障害処理方法。 - 前記第三のLPARが有するクラスタ制御部は、
前記フェイルオーバー要求情報を参照し、前記フェイルオーバー要求がある場合、前記第二のフェイルオーバーを行うことを特徴とする請求項2記載のハードウェア障害処理方法。 - 前記仮想計算機システムは、障害状況表示部を有し、
前記障害状況表示部は、前記システムに存在するLPAR毎に、稼動状況及び停止可否を表示し、
前記障害状況表示部で表示される停止可否は、前記障害通知情報に基づくことを特徴とする請求項3記載のハードウェア障害処理方法。 - 前記第三のLPARのクラスタ制御部は、前記フェイルオーバー要求情報の参照を、所定の時間毎に行うことを特徴とする請求項3記載のハードウェア障害処理方法。
- 前記第一の物理計算機及び第二の物理計算機のハイパバイザは、
LPARが実行継続可能なハードウェア障害の通知を要求することを登録するインタフェイスを有し、
前記インタフェイスでの登録状況に合わせて、通知を要求したLPARに実行継続可能なハードウェア障害を通知することを特徴とする請求項1記載のハードウェア障害処理方法。 - 前記第一のハイパバイザ及び前記第二の物理計算機が有する第二のハイパバイザは、
前記第三のLPARが第二のフェイルオーバーを実行したことを通知するためのインタフェイスを有し、
LPARの障害対応処理の通知状況を前記第一ハイパバイザ、前記第二のハイパバイザのうち少なくとも一方が保持し、
その通知状況を取得するためのインタフェイスを前記第一ハイパバイザ、前記第二のハイパバイザのうち少なくとも一方が有することを特徴とする請求項1記載のハードウェア障害処理方法。 - 前記第一のハイパバイザ、前記第二のハイパバイザのうち少なくとも一方の保持する障害対応状況を取得して表示する手順と装置を備えていることを特徴とする請求項7記載のハードウェア障害処理方法。
- 前記第一ハイパバイザ、前記第二のハイパバイザのうち少なくとも一方からの継続実行可能なハードウェア障害通知を受けて系切り替えを実行する手順と、
系切り替え完了後に障害対応処理を実行した旨を、前記第一ハイパバイザ、前記第二のハイパバイザのうち少なくとも一方のインタフェイスで通知する手順とを有し、
系切り替えの完了状況を、前記第一ハイパバイザ、前記第二のハイパバイザのうち少なくとも一方より取得できることを特徴とする請求項7記載のハードウェア障害処理方法。 - クラスタを構成する第一の物理計算機及び第二の物理計算機上に、ハイパバイザの制御により前記第一の物理計算機及び前記第二の物理計算機の資源を論理分割してなる複数のLPARが生成された仮想計算機システムにおいて、
前記第一の物理計算機が有する第一のハイパバイザは、前記第一の物理計算機上の複数のLPARそれぞれについて、当該LPARが停止してよい状態であるかどうかを管理する障害通知情報を備え、
前記第一の物理計算機でハードウェア障害が発生すると、
前記第一のハイパバイザは、前記第一の物理計算機上の複数のLPARのうち当該ハードウェア障害の影響で実行継続が不可能となる第一のLPARを特定し、
前記第一のLPARについて、前記第一のハイパバイザは第一のLPARを停止するための命令を送信し、当該命令を受領した第一のLPARは第一のLPARを停止するとともに前記第一のLPARが停止してよい状態であることを示すよう前記障害通知情報を更新し、
前記第一のLPARとクラスタを構成する前記第二の物理計算機上に生成された第二のLPARが有するクラスタ制御部は、前記第一のLPARの業務を前記第二のLPARへフェイルオーバーする第一のフェイルオーバーを行い、
前記第一の物理計算機上の複数のLPARのうち前記ハードウェア障害の影響で実行継続が不可能となる第一のLPARとは異なる実行の継続が可能な第三のLPARについて、当該第三のLPARとクラスタを構成する前記第二の物理計算機上に生成された第四のLPARが有するクラスタ制御部は、前記第三のLPARの業務を前記第四のLPARへフェイルオーバーする第二のフェイルオーバーを行い、前記第三のLPARは前記第二のフェイルオーバーが成功した後、記第三のLPARが停止してよい状態であることを示すよう前記障害通知情報を更新することを特徴とする仮想計算機システム。 - 前記障害通知情報は、さらに、前記第一の物理計算機上の複数のLPARそれぞれについて、障害通知の要求有無を管理し
前記第一のハイパバイザは、前記第一のハイパバイザが有する障害通知情報を参照し、
前記第三のLPARにおけるハードウェア障害通知の要求がある場合、前記第三のLPARに前記障害通知を送信し、することを特徴とする請求項10記載の仮想計算機システム。 - 前記第三のLPARが有するクラスタ制御部は、
前記フェイルオーバー要求情報を参照し、前記フェイルオーバー要求がある場合、前記第二のフェイルオーバーを行うことを特徴とする請求項11記載の仮想計算機システム。 - 前記仮想計算機システムは、障害状況表示装置を有し、
前記障害状況表示装置は、前記システムに存在するLPAR毎に、稼動状況及び停止可否を表示し、
前記障害状況表示装置で表示される停止可否は、前記障害通知情報に基づくことを特徴とする請求項12記載の仮想計算機システム。 - 前記第三のLPARのクラスタ制御部は、前記フェイルオーバー要求情報の参照を、所定の時間毎に行うことを特徴とする請求項12記載の仮想計算機システム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011096689A JP5548647B2 (ja) | 2011-04-25 | 2011-04-25 | 計算機システムでの部分障害処理方法 |
US13/453,049 US8868968B2 (en) | 2011-04-25 | 2012-04-23 | Partial fault processing method in computer system |
EP20120165177 EP2518627B8 (en) | 2011-04-25 | 2012-04-23 | Partial fault processing method in computer system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011096689A JP5548647B2 (ja) | 2011-04-25 | 2011-04-25 | 計算機システムでの部分障害処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012230444A JP2012230444A (ja) | 2012-11-22 |
JP5548647B2 true JP5548647B2 (ja) | 2014-07-16 |
Family
ID=46045828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011096689A Expired - Fee Related JP5548647B2 (ja) | 2011-04-25 | 2011-04-25 | 計算機システムでの部分障害処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8868968B2 (ja) |
EP (1) | EP2518627B8 (ja) |
JP (1) | JP5548647B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9262289B2 (en) * | 2013-10-11 | 2016-02-16 | Hitachi, Ltd. | Storage apparatus and failover method |
US20160110277A1 (en) * | 2014-10-16 | 2016-04-21 | Siemens Aktiengesellshaft | Method for Computer-Aided Analysis of an Automation System |
JP2017045084A (ja) * | 2015-08-24 | 2017-03-02 | 日本電信電話株式会社 | 障害検知装置及び障害検知方法 |
JP6535572B2 (ja) * | 2015-10-26 | 2019-06-26 | 日立オートモティブシステムズ株式会社 | 車両制御装置、車両制御システム |
US9798641B2 (en) * | 2015-12-22 | 2017-10-24 | Intel Corporation | Method to increase cloud availability and silicon isolation using secure enclaves |
US20180150331A1 (en) * | 2016-11-30 | 2018-05-31 | International Business Machines Corporation | Computing resource estimation in response to restarting a set of logical partitions |
CN108959063A (zh) * | 2017-05-25 | 2018-12-07 | 北京京东尚科信息技术有限公司 | 一种程序执行的方法和装置 |
US10496351B2 (en) * | 2017-06-07 | 2019-12-03 | Ge Aviation Systems Llc | Automatic display unit backup during failures of one more display units through the utilization of graphic user interface objects defined for control transfer and reversion after resolution of the failures |
JP7006461B2 (ja) * | 2018-04-02 | 2022-01-24 | 株式会社デンソー | 電子制御装置および電子制御システム |
US11061785B2 (en) | 2019-11-25 | 2021-07-13 | Sailpoint Technologies, Israel Ltd. | System and method for on-demand warm standby disaster recovery |
CN117389790B (zh) * | 2023-12-13 | 2024-02-23 | 苏州元脑智能科技有限公司 | 可恢复故障的固件检测系统、方法、存储介质及服务器 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4123942B2 (ja) * | 2003-01-14 | 2008-07-23 | 株式会社日立製作所 | 情報処理装置 |
US7134052B2 (en) * | 2003-05-15 | 2006-11-07 | International Business Machines Corporation | Autonomic recovery from hardware errors in an input/output fabric |
US7774785B2 (en) * | 2005-06-28 | 2010-08-10 | International Business Machines Corporation | Cluster code management |
US7937616B2 (en) * | 2005-06-28 | 2011-05-03 | International Business Machines Corporation | Cluster availability management |
JP2007279890A (ja) * | 2006-04-04 | 2007-10-25 | Hitachi Ltd | バックアップシステム及びバックアップ方法 |
JP4923990B2 (ja) * | 2006-12-04 | 2012-04-25 | 株式会社日立製作所 | フェイルオーバ方法、およびその計算機システム。 |
JP4809209B2 (ja) * | 2006-12-28 | 2011-11-09 | 株式会社日立製作所 | サーバ仮想化環境における系切り替え方法及び計算機システム |
JP5032191B2 (ja) * | 2007-04-20 | 2012-09-26 | 株式会社日立製作所 | サーバ仮想化環境におけるクラスタシステム構成方法及びクラスタシステム |
JP4980792B2 (ja) * | 2007-05-22 | 2012-07-18 | 株式会社日立製作所 | 仮想計算機の性能監視方法及びその方法を用いた装置 |
JP4744480B2 (ja) * | 2007-05-30 | 2011-08-10 | 株式会社日立製作所 | 仮想計算機システム |
JP4995015B2 (ja) * | 2007-09-13 | 2012-08-08 | 株式会社日立製作所 | 仮想計算機の実行可否検査方法 |
US8141094B2 (en) * | 2007-12-03 | 2012-03-20 | International Business Machines Corporation | Distribution of resources for I/O virtualized (IOV) adapters and management of the adapters through an IOV management partition via user selection of compatible virtual functions |
JP5353378B2 (ja) * | 2009-03-31 | 2013-11-27 | 沖電気工業株式会社 | Haクラスタシステムおよびそのクラスタリング方法 |
JP5856925B2 (ja) * | 2012-08-21 | 2016-02-10 | 株式会社日立製作所 | 計算機システム |
-
2011
- 2011-04-25 JP JP2011096689A patent/JP5548647B2/ja not_active Expired - Fee Related
-
2012
- 2012-04-23 US US13/453,049 patent/US8868968B2/en not_active Expired - Fee Related
- 2012-04-23 EP EP20120165177 patent/EP2518627B8/en not_active Not-in-force
Also Published As
Publication number | Publication date |
---|---|
EP2518627B8 (en) | 2015-03-04 |
EP2518627B1 (en) | 2014-08-27 |
US8868968B2 (en) | 2014-10-21 |
JP2012230444A (ja) | 2012-11-22 |
US20120272091A1 (en) | 2012-10-25 |
EP2518627A2 (en) | 2012-10-31 |
EP2518627A3 (en) | 2013-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5548647B2 (ja) | 計算機システムでの部分障害処理方法 | |
JP4572250B2 (ja) | 計算機切り替え方法、計算機切り替えプログラム及び計算機システム | |
US7941810B2 (en) | Extensible and flexible firmware architecture for reliability, availability, serviceability features | |
JP5305040B2 (ja) | サーバ計算機の切替方法、管理計算機及びプログラム | |
WO2015169199A1 (zh) | 分布式环境下虚拟机异常恢复方法 | |
JP4529767B2 (ja) | クラスタ構成コンピュータシステム及びその系リセット方法 | |
WO2017067484A1 (zh) | 一种虚拟化数据中心调度系统和方法 | |
JP2009258978A (ja) | 計算機システム及び通信経路の監視方法 | |
KR20000011835A (ko) | 네트워크의분산애플리케이션에대한고장검출및소정의복제스타일로복구하는방법및장치 | |
US20170147422A1 (en) | External software fault detection system for distributed multi-cpu architecture | |
US7925922B2 (en) | Failover method and system for a computer system having clustering configuration | |
JP2012018556A (ja) | 計算機システム及び計算機システムの系切替制御方法 | |
WO2013190694A1 (ja) | 計算機の復旧方法、計算機システム及び記憶媒体 | |
JP5285045B2 (ja) | 仮想環境における故障復旧方法及びサーバ及びプログラム | |
JPH09251443A (ja) | 情報処理システムのプロセッサ障害回復処理方法 | |
JP2014048933A (ja) | プラント監視システム、プラント監視方法およびプラント監視プログラム | |
JP6828558B2 (ja) | 管理装置、管理方法及び管理プログラム | |
JP2009026182A (ja) | プログラム実行システム及び実行装置 | |
JP2006252429A (ja) | コンピュータシステム、コンピュータシステムの診断方法およびコンピュータシステムの制御プログラム | |
JPH10116261A (ja) | 並列計算機システムのチェックポイントリスタート方法 | |
JP3325785B2 (ja) | 計算機の故障検出・回復方式 | |
JP6654662B2 (ja) | サーバ装置およびサーバシステム | |
JPH02132529A (ja) | 自動監視切替制御装置 | |
KR101883251B1 (ko) | 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법 | |
JP2015106226A (ja) | 二重化システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130806 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140304 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140422 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140519 |
|
LAPS | Cancellation because of no payment of annual fees |