JP5503512B2 - 計算機システムおよびその障害発生時制御方法 - Google Patents
計算機システムおよびその障害発生時制御方法 Download PDFInfo
- Publication number
- JP5503512B2 JP5503512B2 JP2010262616A JP2010262616A JP5503512B2 JP 5503512 B2 JP5503512 B2 JP 5503512B2 JP 2010262616 A JP2010262616 A JP 2010262616A JP 2010262616 A JP2010262616 A JP 2010262616A JP 5503512 B2 JP5503512 B2 JP 5503512B2
- Authority
- JP
- Japan
- Prior art keywords
- computer
- failure
- processing unit
- switching control
- computers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000012545 processing Methods 0.000 claims description 132
- 230000004083 survival effect Effects 0.000 claims description 47
- 238000004891 communication Methods 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 21
- 238000012544 monitoring process Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 10
- 238000007726 management method Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 8
- 230000007257 malfunction Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
Images
Description
(実施形態1)
図1は、本発明の実施形態1の計算機システムの例を示す構成図である。図1において、計算機システムは、演算処理を行う複数台の計算機101〜計算機104を備える。n台(nは3以上の自然数)からなる複数の計算機101〜計算機104は、それぞれ系切換え制御ネットワーク105(第2のネットワーク)と外部ネットワーク106(第1のネットワーク)に接続している。
系切換え制御ネットワーク105から送信された生存通知電文は、他計算機の構成制御用通信インタフェース部135を介して直接送信されるので、外部ネットワーク106が高負荷状態でも、障害監視ができる。
以下では、実施形態2として、生存情報の伝達を全計算機で同期させて実施させる方式について説明する。実施形態2の計算機システムの構成は、実施形態1と同様である。実施形態2においては、メモリ132(図1参照)内に各計算機の生存情報を受信した日時を記録する時刻管理情報137を有している。実施形態2においては、個々の計算機の処理部111が生存情報を同期して更新し、時刻管理情報137を参照して、生存情報が更新されない計算機を障害と判定するのが特徴である。
105 系切換え制御ネットワーク(第2のネットワーク)
106 外部ネットワーク(第1のネットワーク)
111 処理部(CPU1)
112 メインメモリ
113,133 入出力制御部(I/O)
114 記憶部
115 一般用通信インタフェース部(一般用通信I/F)
130 系切換え制御ボード
131 系切換え制御処理部(CPU2)
132 メモリ
135 構成制御用通信インタフェース部(構成制御用I/F)
137 時刻管理情報
201 基本OS
202 他系監視プログラム
203 状態管理情報
204 サブシステム
205 アプリケーション
206 システムサービス
211 イーサネットドライバ
301 再起動制御部
302 電文比較部
303 系切換え制御ドライバ
Claims (5)
- 複数の計算機が稼働系または待機系として組み合わされ、各計算機に備えられた他系監視プログラムにより相互監視して稼働系計算機の障害発生時に当該計算機が実行している処理を待機系計算機が引き継ぐ計算機システムにおいて、
前記複数の計算機は、
前記他系監視プログラムを実行する処理部と、
他計算機とデータを送受信する一般用通信インタフェース部と、
系切換え制御処理部および構成制御用通信インタフェース部を有する、前記他系監視プログラムが発行する生存情報を送受信ならびに系切換えに関連する情報を送受信する系切換え制御ボードとを備え、
各計算機の前記一般用通信インタフェース部は、第1のネットワークに互いに通信可能に接続され、
各計算機の前記構成制御用通信インタフェース部は、第1のネットワークから独立した第2のネットワークに互いに通信可能に接続され、
前記処理部は、相互監視している他計算機からの生存情報が所定時間受信できないとき、障害が発生したとして判定し、前記受信できない他計算機に障害時処理要求を前記系切換え制御ボードを介して送信し、
前記系切換え制御処理部は、他計算機から障害時処理要求を受信した際、該障害時処理要求が複数の計算機から送信されているか否かを判定し、前記障害時処理要求が複数の計算機から送信された場合に、自身の前記処理部に前記障害時処理要求を送信する
ことを特徴とする計算機システム。 - 前記障害時処理要求は、再起動要求であり、
前記処理部は、前記再起動要求を受信すると、前記再起動要求の受信回答を前記系切換え制御処理部に送信するとともに、障害情報を収集し、前記障害情報の収集を終了すると、前記障害情報の収集の終了の旨を前記系切換え制御処理部に送信し、
前記系切換え制御処理部は、前記障害情報の収集の終了の旨を受信すると、前記処理部に再起動指令を送信する
ことを特徴とする請求項1に記載の計算機システム。 - 前記系切換え制御処理部は、前記処理部から前記再起動要求の受信回答を受信せず、かつ、前記複数の計算機から停止要求を受信すると、計算機の入出力制御部に停止指令を送信する
ことを特徴とする請求項2に記載の計算機システム。 - 前記各計算機の前記系切換え制御ボードの記憶部には、前記各計算機からの生存情報を受信した時刻を記憶する時刻管理情報が記憶されており、
前記各計算機の処理部は、相互監視している各計算機へ同期して生存情報を前記系切換え制御ボードを介して送信し、
前記系切換え制御処理部は、受信した各計算機の生存情報の受信時刻を前記時刻管理情報に更新し、
前記各計算機の処理部は、前記時刻管理情報を参照して、相互監視している他計算機からの生存情報が所定時間更新されない場合、障害が発生したとして判定し、前記更新されない他計算機に前記障害時処理要求を前記系切換え制御ボードを介して送信する
ことを特徴とする請求項1に記載の計算機システム。 - 複数の計算機が稼働系または待機系として組み合わされ、各計算機に備えられた他系監視プログラムにより相互監視して稼働系計算機の障害発生時に当該計算機が実行している処理を待機系計算機が引き継ぐ計算機システムにおいて、前記複数の計算機は、前記他系監視プログラムを実行する処理部と、他計算機とデータを送受信する一般用通信インタフェース部と、系切換え制御処理部および構成制御用通信インタフェース部を有する、前記他系監視プログラムが発行する生存情報を送受信ならびに系切換えに関連する情報を送受信する系切換え制御ボードとを備え、各計算機の前記一般用通信インタフェース部は、第1のネットワークに互いに通信可能に接続され、各計算機の前記構成制御用通信インタフェース部は、第1のネットワークから独立した第2のネットワークに互いに通信可能に接続される計算機システムの障害発生時制御方法であって、
前記処理部は、相互監視している他計算機からの生存情報が所定時間受信できないとき、障害が発生したとして判定し、前記受信できない他計算機に障害時処理要求を前記系切換え制御ボードを介して送信し、
前記系切換え制御処理部は、他計算機から障害時処理要求を受信した際、該障害時処理要求が複数の計算機から送信されているか否かを判定し、前記障害時処理要求が複数の計算機から送信された場合に、自身の前記処理部に前記障害時処理要求を送信する
ことを特徴とする計算機システムの障害発生時制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010262616A JP5503512B2 (ja) | 2010-11-25 | 2010-11-25 | 計算機システムおよびその障害発生時制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010262616A JP5503512B2 (ja) | 2010-11-25 | 2010-11-25 | 計算機システムおよびその障害発生時制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012113545A JP2012113545A (ja) | 2012-06-14 |
JP5503512B2 true JP5503512B2 (ja) | 2014-05-28 |
Family
ID=46497686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010262616A Expired - Fee Related JP5503512B2 (ja) | 2010-11-25 | 2010-11-25 | 計算機システムおよびその障害発生時制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5503512B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3506099A4 (en) | 2016-08-25 | 2019-09-04 | Fujitsu Limited | MAINTENANCE MANAGEMENT PROGRAM, MAINTENANCE MANAGEMENT METHOD, AND MAINTENANCE MANAGEMENT DEVICE |
JP7328907B2 (ja) | 2020-01-31 | 2023-08-17 | 株式会社日立製作所 | 制御システム、制御方法 |
-
2010
- 2010-11-25 JP JP2010262616A patent/JP5503512B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012113545A (ja) | 2012-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6409229B2 (ja) | 複数のモジュールを備えるサーバ | |
CN103262044B (zh) | 虚拟机失效转移管理的方法及其支持系统 | |
US20180150501A1 (en) | Database system, server device, computer program product, and information processing method | |
WO2012063294A1 (ja) | 計算機システム | |
JP5858144B2 (ja) | 情報処理システム、障害検知方法および情報処理装置 | |
CN109769001A (zh) | 一种物联网数据传输方法及系统 | |
US8717167B2 (en) | Event detection control method and system | |
JP5503512B2 (ja) | 計算機システムおよびその障害発生時制御方法 | |
US20130205162A1 (en) | Redundant computer control method and device | |
JP2007058708A (ja) | 多重系システム | |
TWI784379B (zh) | 控制系統、控制方法 | |
CN105765546A (zh) | 使用隔绝的分区的弹性虚拟多路径资源访问 | |
JP2008003731A (ja) | 情報処理システム | |
JP2021120827A5 (ja) | ||
WO2013084305A1 (ja) | 仮想化多重系構成制御方法及び計算機システム | |
JP6036690B2 (ja) | 分散実行システム及び分散プログラム実行方法 | |
US11853175B2 (en) | Cluster system and restoration method that performs failover control | |
JP2019522436A (ja) | 通信装置、システム、ロールバック方法及びプログラム | |
JP2015070452A (ja) | パケット補完方法および監視システム | |
JP2021082052A (ja) | 制御装置及び制御プログラム | |
JP6037903B2 (ja) | 処理システム及びデータのバックアップ方法 | |
WO2014200006A1 (ja) | ネットワーク管理システム、ネットワーク管理方法、及びそのプログラム | |
JP4476190B2 (ja) | 多重系計算機システム | |
JP5819881B2 (ja) | 通信装置、通信システム、通信方法、および、プログラム | |
US20170288997A1 (en) | Management system and management method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140304 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5503512 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |