JP2008172592A - クラスタシステム、コンピュータおよびその異常検出方法 - Google Patents
クラスタシステム、コンピュータおよびその異常検出方法 Download PDFInfo
- Publication number
- JP2008172592A JP2008172592A JP2007004601A JP2007004601A JP2008172592A JP 2008172592 A JP2008172592 A JP 2008172592A JP 2007004601 A JP2007004601 A JP 2007004601A JP 2007004601 A JP2007004601 A JP 2007004601A JP 2008172592 A JP2008172592 A JP 2008172592A
- Authority
- JP
- Japan
- Prior art keywords
- computer
- abnormality
- counterpart
- packet
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】コンピュータ異常監視部51は、相手方コンピュータから送信される生存パケットを常時監視し、相手方コンピュータの異常を検出する。通信監視部52は、通信機器30から返信される応答パケットを常時受信し、所定時間当たりの応答パケットの受信数をカウントする。運転モード管理部53は、コンピュータ異常監視部51が相手方コンピュータの異常を検出すると、直ちに、通信監視部52から所定時間当たりの応答パケットの受信数を取得し、その受信数が所定の閾値以上のときには、相手方コンピュータに実際に異常があると判定し、さらに、そのときの自らの運転モードが待機状態であったときには、その運転モードを実行状態に更新し、サービスアプリケーション14を起動する。
【選択図】図1
Description
図1は、本発明の第1の実施形態に係るクラスタシステムの構成の例を示した図である。図1において、クラスタシステム1は、コンピュータ10として2台のコンピュータ10−1,10−2を含み、いわゆるホットスペアと呼ばれる高信頼コンピュータシステムを構成している。すなわち、コンピュータ10−1は、稼働コンピュータであり、通常状態では、クライアントに対し所定のサービスを提供している。また、コンピュータ10−2は、スペアコンピュータであり、通常状態では、クライアントに対するサービスは提供していないが、コンピュータ10−1の異常を監視し、コンピュータ10−1に動作不能などの異常が発生したことを検出した場合には、コンピュータ10−1が提供していたサービスを肩代わりしてクライアントに提供する。
次に、第1の実施形態の変形例について説明する。第1の実施形態においては、クラスタシステム1は、2つのコンピュータ10−1,10−2によって構成されているものとしたが、その変形例では、クラスタシステムは、3つ以上のコンピュータによって構成されているものとする。
図11は、本発明の第2の実施形態に係るクラスタシステムの構成の例を示した図である。図11に示すように、クラスタシステム1Aの構成は、図1の第1の実施形態のクラスタシステム1とほとんど同じ構成であるが、次のような相違がある。
10,10A コンピュータ
11 ネットワークドライバ
12 オペレーティングシステム
13,13A クラスタ管理システム
14 サービスアプリケーション
20,20a,20b ネットワーク
30 通信機器
51,51a,51b コンピュータ異常監視部
52 通信監視部
53 運転モード管理部
Claims (9)
- 所定のサービスアプリケーションを実行している稼働コンピュータと、その稼働コンピュータにネットワークを介して接続され、前記所定のサービスアプリケーションを実行可能な状態で待機しているスペアコンピュータと、を含んで構成されたクラスタシステムであって、
前記稼働コンピュータおよび前記スペアコンピュータのそれぞれは、
動作開始後、前記ネットワークを介して接続された相手方コンピュータに対し、自らが動作していることを示す生存パケットを所定の時間間隔で繰り返し送信するとともに、前記相手方コンピュータから送信される生存パケットの受信を監視し、所定時間内に所定数に達する前記生存パケットを受信しなかったとき、それを前記相手方コンピュータの異常として検出するコンピュータ異常監視手段と、
動作開始後、前記通信機器に対して所定の時間間隔で繰り返し通信監視パケットを送信するとともに、その応答として前記ネットワークに接続された通信機器から送信される応答パケットを受信して、その応答パケットの所定時間当たりの受信数をカウントする通信監視手段と、
を備え、
前記コンピュータ異常監視手段により前記相手方コンピュータの異常を検出したときには、前記通信監視手段から前記所定時間当たりの応答パケットの受信数を取得し、その受信数に基づき、前記検出した相手方コンピュータの異常が、前記相手方コンピュータに実際に生じた異常であるのか、または、前記ネットワークの通信障害により生じた見かけの異常であるのか、を区別して判定すること
を特徴とするクラスタシステム。 - 前記稼働コンピュータおよび前記スペアコンピュータのそれぞれは、
前記検出した相手方コンピュータの異常を区別して判定する場合、前記通信監視部から取得した前記所定時間当たりの応答パケットの受信数が所定の閾値以上であったとき、相手方コンピュータに実際に生じた異常であると判定し、前記応答パケットの受信数が前記所定の閾値に達していなかったとき、前記ネットワークの通信障害により生じた見かけの異常であると判定すること
を特徴とする請求項1に記載のクラスタシステム。 - 前記スペアコンピュータは、
前記検出した相手方コンピュータの異常が前記相手方コンピュータに実際に生じた異常であると判定したときには、さらに、前記相手方コンピュータが実行していた前記サービスアプリケーションを、前記相手方コンピュータに代わって自らが実行すること
を特徴とする請求項1または請求項2に記載のクラスタシステム。 - 所定のサービスアプリケーションを実行している稼働コンピュータと、その稼働コンピュータにネットワークを介して接続され、前記所定のサービスアプリケーションを実行可能な状態で待機しているスペアコンピュータと、を含んで構成されたクラスタシステムに用いられるコンピュータであって、
動作開始後、前記ネットワークを介して接続された相手方コンピュータに対し、自らが動作していることを示す生存パケットを所定の時間間隔で繰り返し送信するとともに、前記相手方コンピュータから送信される生存パケットの受信を監視し、所定時間内に所定数に達する前記生存パケットを受信しなかったとき、それを前記相手方コンピュータの異常として検出するコンピュータ異常監視手段と、
動作開始後、前記通信機器に対して所定の時間間隔で繰り返し通信監視パケットを送信するとともに、その応答として前記ネットワークに接続された通信機器から送信される応答パケットを受信して、その応答パケットの所定時間当たりの受信数をカウントする通信監視手段と、
を備え、
前記コンピュータ異常監視手段により前記相手方コンピュータの異常を検出したときには、前記通信監視手段から前記所定時間当たりの応答パケットの受信数を取得し、その受信数に基づき、前記検出した相手方コンピュータの異常が、前記相手方コンピュータに実際に生じた異常であるのか、または、前記ネットワークの通信障害により生じた見かけの異常であるのか、を区別して判定すること
を特徴とするコンピュータ。 - 前記検出した相手方コンピュータの異常を区別して判定する場合、前記通信監視部から取得した前記所定時間当たりの応答パケットの受信数が所定の閾値以上であったとき、相手方コンピュータに実際に生じた異常であると判定し、前記応答パケットの受信数が前記所定の閾値に達していなかったとき、前記ネットワークの通信障害により生じた見かけの異常であると判定すること
を特徴とする請求項4に記載のコンピュータ。 - 前記検出した相手方コンピュータの異常が前記相手方コンピュータに実際に生じた異常であると判定したときに、自らがスペアコンピュータとして動作していた場合には、さらに、前記相手方コンピュータが実行していた前記サービスアプリケーションを、前記相手方コンピュータに代わって実行すること
を特徴とする請求項4または請求項5に記載のコンピュータ。 - 所定のサービスアプリケーションを実行している稼働コンピュータと、その稼働コンピュータにネットワークを介して接続され、前記所定のサービスアプリケーションを実行可能な状態で待機しているスペアコンピュータと、を含んで構成されたクラスタシステムにおける異常検出方法あって、
前記稼働コンピュータおよび前記スペアコンピュータのそれぞれは、
動作開始後、前記ネットワークを介して接続された相手方コンピュータに対し、自らが動作していることを示す生存パケットを所定の時間間隔で繰り返し送信するとともに、前記相手方コンピュータから送信される生存パケットの受信を監視し、
さらに、動作開始後、前記通信機器に対して所定の時間間隔で繰り返し通信監視パケットを送信するとともに、その応答として前記ネットワークに接続された通信機器から送信される応答パケットを受信して、その応答パケットの所定時間当たりの受信数をカウントし、
前記相手方コンピュータから送信される生存パケットを所定時間内に所定数に達する前記生存パケットを受信しなかったときには、それを前記相手方コンピュータの異常として検出すると、前記カウント中の所定時間当たりの応答パケットの受信数に基づき、前記検出した相手方コンピュータの異常が、前記相手方コンピュータに実際に生じた異常であるのか、または、前記ネットワークの通信障害により生じた見かけの異常であるのか、を区別して判定すること
を特徴とする異常検出方法。 - 前記稼働コンピュータおよび前記スペアコンピュータのそれぞれは、
前記検出した相手方コンピュータの異常を区別して判定する場合、前記カウント中の所定時間当たりの応答パケットの受信数が所定の閾値以上であったとき、相手方コンピュータに実際に生じた異常であると判定し、前記応答パケットの受信数が前記所定の閾値に達していなかったとき、前記ネットワークの通信障害により生じた見かけの異常であると判定すること
を特徴とする請求項7に記載の異常検出方法。 - 前記スペアコンピュータは、
前記検出した相手方コンピュータの異常が前記相手方コンピュータに実際に生じた異常であると判定したときには、さらに、前記相手方コンピュータが実行していた前記サービスアプリケーションを、前記相手方コンピュータに代わって自らが実行すること
を特徴とする請求項7または請求項8に記載の異常検出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007004601A JP2008172592A (ja) | 2007-01-12 | 2007-01-12 | クラスタシステム、コンピュータおよびその異常検出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007004601A JP2008172592A (ja) | 2007-01-12 | 2007-01-12 | クラスタシステム、コンピュータおよびその異常検出方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008172592A true JP2008172592A (ja) | 2008-07-24 |
Family
ID=39700256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007004601A Pending JP2008172592A (ja) | 2007-01-12 | 2007-01-12 | クラスタシステム、コンピュータおよびその異常検出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008172592A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010103695A (ja) * | 2008-10-22 | 2010-05-06 | Ntt Data Corp | クラスタシステム、クラスタサーバ及びクラスタ制御方法 |
JP2011146877A (ja) * | 2010-01-13 | 2011-07-28 | Eliiy Power Co Ltd | 監視対象物の集中管理システム |
JP2012064248A (ja) * | 2011-12-27 | 2012-03-29 | Bank Of Tokyo-Mitsubishi Ufj Ltd | 冗長状態検証装置 |
JP2012080426A (ja) * | 2010-10-05 | 2012-04-19 | Nec Corp | 通信装置、通信システム、通信方法、および通信プログラム |
JP2013123114A (ja) * | 2011-12-09 | 2013-06-20 | Hitachi Ltd | 通信システム及び通信システムでの統計情報管理方法 |
JP2015222588A (ja) * | 2015-07-23 | 2015-12-10 | スミス アンド ネフュー インコーポレーテッド | 医療装置間での確実な相互運用のための方法およびシステム |
US10102088B2 (en) | 2013-12-25 | 2018-10-16 | Nec Solution Innovators, Ltd. | Cluster system, server device, cluster system management method, and computer-readable recording medium |
JPWO2018151290A1 (ja) * | 2017-02-20 | 2019-12-19 | 日本電気株式会社 | 情報処理装置、情報処理方法および記憶媒体 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003173299A (ja) * | 2001-12-06 | 2003-06-20 | Mitsubishi Electric Corp | データ受信装置、データ送信装置、データ受信方法及びデータ送信方法 |
JP2005073277A (ja) * | 2003-08-27 | 2005-03-17 | Internatl Business Mach Corp <Ibm> | クラスタにおける信頼性の高い障害解決 |
-
2007
- 2007-01-12 JP JP2007004601A patent/JP2008172592A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003173299A (ja) * | 2001-12-06 | 2003-06-20 | Mitsubishi Electric Corp | データ受信装置、データ送信装置、データ受信方法及びデータ送信方法 |
JP2005073277A (ja) * | 2003-08-27 | 2005-03-17 | Internatl Business Mach Corp <Ibm> | クラスタにおける信頼性の高い障害解決 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010103695A (ja) * | 2008-10-22 | 2010-05-06 | Ntt Data Corp | クラスタシステム、クラスタサーバ及びクラスタ制御方法 |
JP2011146877A (ja) * | 2010-01-13 | 2011-07-28 | Eliiy Power Co Ltd | 監視対象物の集中管理システム |
JP2012080426A (ja) * | 2010-10-05 | 2012-04-19 | Nec Corp | 通信装置、通信システム、通信方法、および通信プログラム |
JP2013123114A (ja) * | 2011-12-09 | 2013-06-20 | Hitachi Ltd | 通信システム及び通信システムでの統計情報管理方法 |
JP2012064248A (ja) * | 2011-12-27 | 2012-03-29 | Bank Of Tokyo-Mitsubishi Ufj Ltd | 冗長状態検証装置 |
US10102088B2 (en) | 2013-12-25 | 2018-10-16 | Nec Solution Innovators, Ltd. | Cluster system, server device, cluster system management method, and computer-readable recording medium |
JP2015222588A (ja) * | 2015-07-23 | 2015-12-10 | スミス アンド ネフュー インコーポレーテッド | 医療装置間での確実な相互運用のための方法およびシステム |
JPWO2018151290A1 (ja) * | 2017-02-20 | 2019-12-19 | 日本電気株式会社 | 情報処理装置、情報処理方法および記憶媒体 |
JP7110990B2 (ja) | 2017-02-20 | 2022-08-02 | 日本電気株式会社 | 情報処理装置、情報処理方法および記憶媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10715411B1 (en) | Altering networking switch priority responsive to compute node fitness | |
JP2008172592A (ja) | クラスタシステム、コンピュータおよびその異常検出方法 | |
US10693813B1 (en) | Enabling and disabling links of a networking switch responsive to compute node fitness | |
US7225356B2 (en) | System for managing operational failure occurrences in processing devices | |
US8467303B2 (en) | Method and apparatus for preventing network conflict | |
US20090249115A1 (en) | Method and system for dynamic link failover management | |
CN103297396A (zh) | 群集系统中管理故障转移的装置和方法 | |
JP2010103695A (ja) | クラスタシステム、クラスタサーバ及びクラスタ制御方法 | |
JP2004171370A (ja) | 冗長構成におけるクライアント/サーバ間のアドレス制御方式および方法 | |
US10721135B1 (en) | Edge computing system for monitoring and maintaining data center operations | |
JP5625605B2 (ja) | Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム | |
WO2019049433A1 (ja) | クラスタシステム、クラスタシステムの制御方法、サーバ装置、制御方法、及びプログラムが格納された非一時的なコンピュータ可読媒体 | |
JP6551111B2 (ja) | 情報処理装置、ダウン判定方法、クラスタシステム、及びプログラム | |
JP2011203941A (ja) | 情報処理装置、監視方法、および監視プログラム | |
US8917609B2 (en) | Line monitoring apparatus and line monitoring method | |
CN103001832B (zh) | 分布式文件系统中节点的检测方法和装置 | |
JP2009003491A (ja) | クラスタシステムにおけるサーバ切り替え方法 | |
JP2009110218A (ja) | 仮想化スイッチおよびそれを用いたコンピュータシステム | |
JP4511455B2 (ja) | ファイバーチャネルスイッチおよびそれを用いたコンピュータシステム | |
KR20200101117A (ko) | 노드장애를 감지할 수 있는 네트워크 시스템 및 노드장애 감지방법 | |
JP5005425B2 (ja) | 制御装置復帰システム | |
JP2014532236A (ja) | 接続方法 | |
JP2017183905A (ja) | 通信装置、通信障害復旧方法および通信障害復旧プログラム | |
JP2006172050A (ja) | ホットスタンバイ式2重化システム | |
JP2010087834A (ja) | ネットワーク監視システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100907 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101108 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101130 |