JP2006172050A - ホットスタンバイ式2重化システム - Google Patents

ホットスタンバイ式2重化システム Download PDF

Info

Publication number
JP2006172050A
JP2006172050A JP2004362422A JP2004362422A JP2006172050A JP 2006172050 A JP2006172050 A JP 2006172050A JP 2004362422 A JP2004362422 A JP 2004362422A JP 2004362422 A JP2004362422 A JP 2004362422A JP 2006172050 A JP2006172050 A JP 2006172050A
Authority
JP
Japan
Prior art keywords
server computer
heartbeat
module
abnormality
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004362422A
Other languages
English (en)
Inventor
Tsunetake Ishida
常竹 石田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yaskawa Electric Corp
YE Digital Co Ltd
Original Assignee
Yaskawa Electric Corp
Yaskawa Information Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yaskawa Electric Corp, Yaskawa Information Systems Co Ltd filed Critical Yaskawa Electric Corp
Priority to JP2004362422A priority Critical patent/JP2006172050A/ja
Publication of JP2006172050A publication Critical patent/JP2006172050A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

【課題】 ホットスタンバイ式2重化システムを汎用性が有り安価で柔軟性に富むシステムに構築する。
【解決手段】 サーバ計算機100、101の各々に、他方のサーバ計算機の状態を監視すると共に、自サーバ計算機の状態を他方のサーバ計算機に通知するハートビートモジュール201、301と、自サーバ計算機内のプロセスを監視し、プロセスの異常を検出した場合はハートビートモジュール201、301にプロセス異常の検出を通知するプロセス監視モジュール202、302と、自サーバ計算機内のログを監視し、異常ログを検出した場合は前記ハートビートモジュール201、301に異常ログの検出を通知するログ監視モジュール203、303とを備える。
【選択図】図1

Description

本発明は、計算機システムのシステム構成装置であるサーバ計算機の運用切替方式に特徴を有するホットスタンバイ式2重化システムに関するものである。
高信頼性が必要とされる計算機システムでは、システム構成装置のサーバ計算機2台を同じ構成にし、片方を作動させもう片方は同じ動作をしながら待機させておくことがある。このとき作動しているサーバ計算機をマスタといい、待機しているサーバ計算機をスレーブという。特にサーバ計算機2台を全く同一の動作をさせ、マスタに障害が発生した場合、即座にスレーブに動作が引き継がれるようにしたシステムをホットスタンバイ式2重化システムという。特許文献1では、他方のシステム構成装置の状態を監視するために専用のハードウェアを準備し、システムの高信頼性を実現している。
特開平5−233579号公報(第1図)
従来のホットスタンバイ式2重化システムは、専用のハードウェアを準備する必要があるために、汎用性が低く、かつ非常に高価なシステムとなる。さらに、ハードウェアまたはソフトウェアを監視する回路等の障害に備え、回路自体を冗長化する必要がある。また、業務アプリケーションの動作の監視をする場合、業務アプリケーションプロセスの追加があると、ハードウェアの追加や変更または業務アプリケーションプロセス自体の改造が必要となり、柔軟性に欠けるという問題がある。
本発明は、上記課題に鑑みてなされたものであり、ホットスタンバイ式2重化システムを汎用性が高く安価で柔軟性に富むシステムを構築することを目的とする。
上記課題を解決するため、本発明は、ネットワークにより接続されている同一の動作をする2つのサーバ計算機を有するホットスタンバイ式2重化システムにおいて、前記2つのサーバ計算機の各々に、前記ネットワークに接続された他方のサーバ計算機が正常に動作しているかどうかの状態を監視すると共に、自サーバ計算機の状態を前記他方のサーバ計算機に通知するハートビートモジュールと、前記自サーバ計算機内のプロセスを監視し、プロセスの異常を検出した場合は前記ハートビートモジュールにプロセス異常の検出を通知するプロセス監視モジュールと、前記自サーバ計算機内のログを監視し、異常ログを検出した場合は前記ハートビートモジュールに異常ログの検出を通知するログ監視モジュールとを備えることを特徴としている。
また、前記ハートビートモジュールは、前記他方のサーバ計算機のハートビートモジュールが送信するハートビート信号を受信し、該ハートビート信号を一定時間内に受信できなかった場合は前記他方のサーバ計算機が正常に動作していないと判断して前記自サーバ計算機をマスタとし、前記ハートビート信号を一定時間内に受信できた場合は前記他方のサーバ計算機の状態が正常に動作していると判断して前記自サーバ計算機をスレーブとすることを特徴としている。
また、前記ハートビートモジュールは、前記プロセス監視モジュールが送信するハートビート信号を受信し、該ハートビート信号を一定時間内に受信できなかった場合、
および前記ログ監視モジュールからの異常通知を受信した場合は前記ホットスタンバイ式2重化システム全体を管理する管理計算機に異常を通知することを特徴としている。
また、前記プロセス監視モジュールは、、前記ハートビートモジュールが送信するハートビート信号を受信し、該ハートビート信号を一定時間内に受信できなかった場合、
および監視対象のプロセスが異常かどうかチェックしプロセスの異常を検出した場合は前記ホットスタンバイ式2重化システム全体を管理する管理計算機に異常を通知することを特徴としている。
また、前記ログ監視モジュールは、常時監視しているログに異常があった場合、前記ハートビートモジュールに異常を通知することを特徴としている。
本発明によれば、ホットスタンバイ式2重化システムを、サーバ計算機が正常に動作しているかを監視するハートビートモジュールと、サーバ計算機内のプロセスを監視するプロセス監視モジュールと、サーバ計算機内のログを監視するログ監視モジュールで実現することにより汎用性が高く安価で柔軟なシステムを構築することができる。
以下、図面を参照して、本発明の実施例の詳細を説明する。
図1は、本発明のホットスタンバイ式2重化システムの構成図である。図1において、10はシステム全体を管理する管理計算機、100、101はそれぞれ第1サーバ計算機、第2サーバ計算機である。それぞれのサーバ計算機100、101には、ハートビートモジュール201、301、プロセス監視モジュール202、302、ログ監視モジュール203、303がある。これら各モジュールはソフトウエアである。また、これら各モジュールの動作は同一であるので、第1サーバ計算機100を中心に説明する。
ハートビートモジュール201は、ハートビート信号bを第2サーバ計算機101上のハートビートモジュール301に送信する。同様に第2サーバ計算機101上のハートビートモジュール301は、ハートビート信号aを第1サーバ計算機100上のハートビートモジュール201へ送信する。
ここでハートビート信号とは、計算機やプロセスが正常に稼動していることを外部に知らせる信号で、ネットワークで送信可能なデータである。ハートビート信号を使用する複数の計算機やプロセスが相互に取り決めた一定時間の周期でハートビート信号を送信する。ハートビート信号を受信する計算機やプロセスは、取り決めた一定時間内に信号が受信できることで送信元の正常動作を確認する。
第1サーバ計算機100と第2サーバ計算機101はハートビート信号a、bを使用し相互監視を行い、どちらがマスタ動作をするかを決定する。
また、ハートビートモジュール201とプロセス監視モジュール202はハートビート信号c、dを使用し相互監視を行い、異常が発生すれば管理計算機10へ異常を通知し、ネットワークを遮断する。
プロセス監視モジュール202は、監視対象のプロセスが存在するかどうかと正常な状態であるかどうかを定期的に確認する。監視対象のプロセスが存在しない、または、消滅せずにシステム内に残っているのに動作しない、いわゆるゾンビプロセスのような異常な状態となった場合は、管理計算機10へ異常を通知し、ネットワークを遮断する。
なお、監視対象のプロセスはシステム管理者がシステムを起動する前にあらかじめ設定しておく。
プロセス監視モジュール202がハートビートモジュール201の異常を検出した場合は、管理計算機10へ異常を通知し、ネットワークを遮断する。
ログ監視モジュール203は、第1サーバ計算機内のオペレーティングシステムが出力するシステムに関するログとハートビートモジュール201とプロセス監視モジュール202が出力するログを監視する。監視しているログに事前に収集した異常ログに関する文字列が出現した場合、ハートビートモジュールに異常を通知する。
異常ログの文字列はシステム管理者がシステムを起動する前にあらかじめ設定しておく。どの文字列が異常ログであるかはオペレーティングシステムや監視するプロセスにより異なる。
図2はハートビートモジュール201の初期処理のフローチャートである。
ハートビート信号a、bを使用して、第1サーバ計算機100と第2サーバ計算機101のどちらがマスタとして動作するかを決定する。
ステップS1でハートビートモジュール201は第2サーバ計算機からのハートビート信号aを受信する。ステップS2で一定時間内に受信できたかどうかチェックし、一定時間に受信できなかった場合はステップS3に進み第1サーバ計算機をマスタとする。すなわち、ステップS3に進む場合は第2サーバ計算機101が正常に動作していないと判断する。ステップS2でハートビート信号を一定時間内に受信できた場合は、第2サーバ計算機101が正常に動作していると判断しステップS4に進み、第1サーバ計算機をスレーブとする。
このフローチャートはハートビートモジュール201について記載してあるが、ハートビートモジュール301も同様の処理を行う。
なお、第1サーバ計算機100と第2サーバ計算機101がほぼ同時に電源が投入され、ハートビートモジュール201、301がほぼ同時に初期処理を開始すると2つのサーバ計算機のどちらがマスタとなるか分らないため、最初にマスタとしたいサーバ計算機が決まっている場合は、タイマ等を利用してマスタとしたいサーバ計算機の電源を先に投入する。
図3は、第1サーバ計算機100がマスタとして動作する場合のプロセス監視モジュールとハートビートモジュールとログ監視モジュールのフローチャートである。
ハートビートモジュール201はステップS11でプロセス監視モジュール202と第2サーバ計算機101上で動作するハートビートモジュール301にハートビート信号d、bを送信する。また、プロセス監視モジュール202からのハートビート信号cを受信する。第2サーバ計算機101からのハートビート信号aは受信しない。これは、第2サーバ計算機がどういう状態でもマスタとして動き続けるためである。
ステップS12でプロセス監視モジュール202からのハートビート信号cが一定時間内に受信できたかどうかチェックし、できなかった場合ステップS15に進み管理計算機10に異常を通知し、ステップS16でネットワークを遮断する。
ステップS12で一定時間内にプロセス監視モジュール202からのハートビート信号cを受信した場合は、ステップS13、S14でログ監視モジュール203から異常通知が到着しているかどうか確認する。異常通知を受信した場合はステップS15に進み異常処理を実施する。異常通知を受信しなかった場合は、ステップS11へ戻る。
プロセス監視モジュール202は、ステップS21でハートビートモジュール201との間でハートビート信号c、dを送受信する。ステップS22でハートビートモジュール201からのハートビート信号dをチェックし、信号が一定時間内に受信できなかった場合は、ステップS24に進み、管理計算機に異常を通知し、ステップS25でネットワークを遮断する。ハートビート信号dを一定時間内に受信できた場合は、ステップS23で監視対象のプロセスが異常かどうかをチェックし、プロセスの異常を検出した場合はステップS24に進み異常処理を実施する。
ログ監視モジュール203は、常時監視しているログに異常ログが発生した場合、ステップS31で異常通知をハートビートモジュール201に送信する。
図4は、第1サーバ計算機100がスレーブとして動作する場合のプロセス監視モジュールとハートビートモジュールとログ監視モジュールのフローチャートである。
図3のフローチャートと異なる点はハートビートモジュール201のステップS51、S52、S53だけである。
ハートビートモジュール201はステップS51でプロセス監視モジュール202と第2サーバ計算機101上で動作するハートビートモジュール301にハートビート信号d、bを送信する。また、プロセス監視モジュール202からのハートビート信号cと第2サーバ計算機101からのハートビート信号aを受信する。
ステップS52でプロセス監視モジュール202からのハートビート信号c、第2サーバ計算機101からのハートビート信号aが一定時間内に受信できたかどうかチェックし、第2サーバ計算機101からのハートビート信号aが受信できなかった場合はステップS53に進み、第1サーバ計算機をマスタに切換える。
ステップS52でプロセス監視モジュール202からのハートビート信号cが受信できなかった場合、ハートビート信号c、aどちらも正常に受信できた場合の処理は図3と同一である。
なお、図3、図4共第1サーバ計算機100側の説明をしたが、第2サーバ計算機101の処理も同一である。
このように、ホットスタンバイ式2重化システムを、サーバ計算機が正常に動作しているかを監視するハートビートモジュールと、サーバ計算機内のプロセスを監視するプロセス監視モジュールと、サーバ計算機内のログを監視するログ監視モジュールで実現することにより汎用性が高く安価で柔軟なシステムを構築することができる。
本発明のホットスタンバイ式2重化システムの構成図 ハートビートモジュールの初期処理のフローチャート 第1サーバ計算機がマスタとして動作する場合のプロセス監視モジュールとハートビートモジュールとログ監視モジュールのフローチャート 第1サーバ計算機100がスレーブとして動作する場合のプロセス監視モジュールとハートビートモジュールとログ監視モジュールのフローチャート
符号の説明
10 管理計算機
100、101 第1、第2サーバ計算機
201、301 ハートビートモジュール
202、302 プロセス監視モジュール
203、303 ログ監視モジュール

Claims (5)

  1. ネットワークにより接続されている同一の動作をする2つのサーバ計算機を有するホットスタンバイ式2重化システムにおいて、
    前記2つのサーバ計算機の各々に、
    前記ネットワークに接続された他方のサーバ計算機が正常に動作しているかどうかの状態を監視すると共に、自サーバ計算機の状態を前記他方のサーバ計算機に通知するハートビートモジュールと、
    前記自サーバ計算機内のプロセスを監視し、プロセスの異常を検出した場合は前記ハートビートモジュールにプロセス異常の検出を通知するプロセス監視モジュールと、
    前記自サーバ計算機内のログを監視し、異常ログを検出した場合は前記ハートビートモジュールに異常ログの検出を通知するログ監視モジュールとを備えることを特徴とするホットスタンバイ2重化システム。
  2. 前記ハートビートモジュールは前記他方のサーバ計算機のハートビートモジュールが送信するハートビート信号を受信し、
    該ハートビート信号を一定時間内に受信できなかった場合は前記他方のサーバ計算機が正常に動作していないと判断して前記自サーバ計算機をマスタとし、前記ハートビート信号を一定時間内に受信できた場合は前記他方のサーバ計算機の状態が正常に動作していると判断して前記自サーバ計算機をスレーブとすることを特徴とする請求項1記載のホットスタンバイ式2重化システム。
  3. 前記ハートビートモジュールは前記プロセス監視モジュールが送信するハートビート信号を受信し、該ハートビート信号を一定時間内に受信できなかった場合、
    および前記ログ監視モジュールからの異常通知を受信した場合は前記ホットスタンバイ式2重化システム全体を管理する管理計算機に異常を通知することを特徴とする請求項1記載のホットスタンバイ式2重化システム。
  4. 前記プロセス監視モジュールは、前記ハートビートモジュールが送信するハートビート信号を受信し、該ハートビート信号を一定時間内に受信できなかった場合、
    および監視対象のプロセスが異常かどうかチェックしプロセスの異常を検出した場合は前記ホットスタンバイ式2重化システム全体を管理する管理計算機に異常を通知することを特徴とする請求項1記載のホットスタンバイ式2重化システム。
  5. 前記ログ監視モジュールは、常時監視しているログに異常があった場合、前記ハートビートモジュールに異常を通知することを特徴とする請求項1に記載のホットスタンバイ式2重化システム。
JP2004362422A 2004-12-15 2004-12-15 ホットスタンバイ式2重化システム Pending JP2006172050A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004362422A JP2006172050A (ja) 2004-12-15 2004-12-15 ホットスタンバイ式2重化システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004362422A JP2006172050A (ja) 2004-12-15 2004-12-15 ホットスタンバイ式2重化システム

Publications (1)

Publication Number Publication Date
JP2006172050A true JP2006172050A (ja) 2006-06-29

Family

ID=36672748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004362422A Pending JP2006172050A (ja) 2004-12-15 2004-12-15 ホットスタンバイ式2重化システム

Country Status (1)

Country Link
JP (1) JP2006172050A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008139521A1 (ja) 2007-04-27 2008-11-20 Fujitsu Limited リモートファイルシステム、端末装置およびサーバ装置
JP2013073289A (ja) * 2011-09-27 2013-04-22 Nec Corp 多重化システム、データ通信カード、状態異常検出方法、及びプログラム
WO2013111240A1 (ja) * 2012-01-25 2013-08-01 株式会社 東芝 二重化制御システムおよびその制御方法
CN103425553A (zh) * 2013-09-06 2013-12-04 哈尔滨工业大学 一种双机热备份系统及该系统的故障检测方法
CN106682486A (zh) * 2016-12-19 2017-05-17 交控科技股份有限公司 安全计算机平台及信息处理方法
CN107342917A (zh) * 2017-07-04 2017-11-10 百度在线网络技术(北京)有限公司 用于检测网络设备性能的方法和装置
JP2020149580A (ja) * 2019-03-15 2020-09-17 アイコム株式会社 サーバシステムおよびプロセスの冗長化方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008139521A1 (ja) 2007-04-27 2008-11-20 Fujitsu Limited リモートファイルシステム、端末装置およびサーバ装置
JP2013073289A (ja) * 2011-09-27 2013-04-22 Nec Corp 多重化システム、データ通信カード、状態異常検出方法、及びプログラム
US8990632B2 (en) 2011-09-27 2015-03-24 Nec Corporation System for monitoring state information in a multiplex system
WO2013111240A1 (ja) * 2012-01-25 2013-08-01 株式会社 東芝 二重化制御システムおよびその制御方法
JP2013152631A (ja) * 2012-01-25 2013-08-08 Toshiba Corp 二重化制御システムおよびその制御方法
CN103425553A (zh) * 2013-09-06 2013-12-04 哈尔滨工业大学 一种双机热备份系统及该系统的故障检测方法
CN106682486A (zh) * 2016-12-19 2017-05-17 交控科技股份有限公司 安全计算机平台及信息处理方法
CN107342917A (zh) * 2017-07-04 2017-11-10 百度在线网络技术(北京)有限公司 用于检测网络设备性能的方法和装置
JP2020149580A (ja) * 2019-03-15 2020-09-17 アイコム株式会社 サーバシステムおよびプロセスの冗長化方法
WO2020189002A1 (ja) * 2019-03-15 2020-09-24 アイコム株式会社 サーバシステムおよびプロセスの冗長化方法
CN113557695A (zh) * 2019-03-15 2021-10-26 艾可慕株式会社 服务器系统以及进程的冗余化方法
CN113557695B (zh) * 2019-03-15 2023-10-27 艾可慕株式会社 服务器系统以及进程的冗余化方法
JP7421052B2 (ja) 2019-03-15 2024-01-24 アイコム株式会社 サーバシステムおよびプロセスの冗長化方法

Similar Documents

Publication Publication Date Title
US20020152425A1 (en) Distributed restart in a multiple processor system
JP2008172592A (ja) クラスタシステム、コンピュータおよびその異常検出方法
JP2006172050A (ja) ホットスタンバイ式2重化システム
JP6830608B2 (ja) 通信システム、被制御機器、及び、通信システムの制御方法
JP2011145208A (ja) 基板
JP2009075719A (ja) 冗長構成装置及びその自己診断方法
JPWO2006075403A1 (ja) 伝送装置および障害通知方法
US11221926B2 (en) Information processing system and information processing apparatus
KR100832543B1 (ko) 계층적 다중 백업 구조를 갖는 고가용성 클러스터 시스템및 이를 이용한 고가용성 구현 방법
JP6654662B2 (ja) サーバ装置およびサーバシステム
JP2010136038A (ja) 伝送装置及び冗長構成部の系切替え方法
CN102638369A (zh) 一种主备倒换的仲裁方法、装置和系统
JP2017183905A (ja) 通信装置、通信障害復旧方法および通信障害復旧プログラム
JP4863984B2 (ja) 監視処理プログラム、方法及び装置
JP2008287632A (ja) 制御装置復帰システム
JP4692419B2 (ja) ネットワーク装置及びそれに用いる冗長切替え方法並びにそのプログラム
JP2013254333A (ja) 多重系制御システム及びその制御方法
JP2015088124A (ja) 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法
JP2005267051A (ja) 通信システム異常検出方法および計算機システム
JP2019079288A (ja) 受信盤
JP2013025365A (ja) 二重化システムにおける予備装置の障害通知方法
JP5082147B2 (ja) マルチノードシステム、ノード間スイッチ及びデータ中継方法
JP2010003141A (ja) 二重化システム
JP2012150555A (ja) 監視システム
JP6234388B2 (ja) 2重系制御装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090819

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091217