JP4246248B2 - クラスタシステムのコンピュータにおいて実行されるネットワークモニタ・プログラム、情報処理方法及びコンピュータ - Google Patents

クラスタシステムのコンピュータにおいて実行されるネットワークモニタ・プログラム、情報処理方法及びコンピュータ Download PDF

Info

Publication number
JP4246248B2
JP4246248B2 JP2007544030A JP2007544030A JP4246248B2 JP 4246248 B2 JP4246248 B2 JP 4246248B2 JP 2007544030 A JP2007544030 A JP 2007544030A JP 2007544030 A JP2007544030 A JP 2007544030A JP 4246248 B2 JP4246248 B2 JP 4246248B2
Authority
JP
Japan
Prior art keywords
cluster
computer
relay device
node
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007544030A
Other languages
English (en)
Other versions
JPWO2007055014A1 (ja
Inventor
隆裕 佐山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Application granted granted Critical
Publication of JP4246248B2 publication Critical patent/JP4246248B2/ja
Publication of JPWO2007055014A1 publication Critical patent/JPWO2007055014A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)

Description

本発明は、クラスタシステムにおける障害対応技術に関する。
クラスタ運用ノードとクラスタ待機ノードとを含むクラスタシステムにおいて、クラスタ運用ノードで実行されているネットワークモニタは、例えばイントラネットやインターネットと接続し且つインターネット等に接続された他のコンピュータからの業務リクエストをクラスタ運用ノードに中継するネットワーク中継装置に対して、定期的に生存確認メッセージを送信するようになっている。ネットワーク中継装置とクラスタ運用ノードの間の業務LAN(Local Area Network)が正常に機能していれば、ネットワーク中継装置は生存確認メッセージに対して応答を返すが、クラスタ運用ノード等のネットワーク・インターフェース・カード(NIC:Network Interface Card)の故障、ネットワーク中継装置の故障等により通信障害が発生した場合は、ネットワーク中継装置から応答が返ってこなくなる。一定回数ネットワーク中継装置から応答が得られない場合、ネットワークモニタは、クラスタ運用ノードにおいて実行されているクラスタマネージャに対してネットワーク障害の発生を通知する。そうすると、クラスタ運用ノードにおけるクラスタマネージャは、クラスタ運用ノードにおいて実行されている業務アプリケーションを停止した後、ネットワークモニタに使用中の引継IPアドレスを不活性化させる。次に、クラスタ待機ノードにおけるネットワークモニタがクラスタ運用ノードにおけるクラスタマネージャからの要求に応じて引継IPアドレスを活性化し、クラスタ待機ノードにおける業務アプリケーションを起動することで以降の業務をクラスタ待機ノードに引き継がせる。
なお、特開平4−291628号公報には、複合サブシステム形オンラインシステムにおいて、複合サブシステムコントローラに障害が発生した場合、自動的に障害を回復するための技術が開示されている。具体的には、コントローラの障害発生を検知したコントローラモニタは、待機ジョブが存在する場合はホットスタンバイ開始を指示する。待機ジョブが存在しない場合は、コントローラ配下の全サブシステムを停止した後コントローラを起動し、最新のチェックポイントとそのチェックポイント以降にとられたジャーナル情報から、実行系のプロセッサがダウンした状況まで戻して処理を続行するものである。これにより、複合サブシステムコントローラにハード的な原因によるものではなく一時的且つタイミング的な原因による障害が発生した場合、自動的に障害を回復し処理を続行することができるとされる。但し、ネットワークにおける障害発生について対応するものではない。
上で述べた従来技術では、クラスタ待機ノードにおいてクラスタマネージャにネットワーク障害が通知された場合、それ以降当該クラスタ待機ノードは切り捨てられる、すなわち動作不能状態になる。この動作不能状態はクラスタ運用ノードのクラスタマネージャにも通知される。その後、クラスタ運用ノードにおいてクラスタマネージャにネットワーク障害が通知されると、切り換え先のノードがないとみなされ、ノード切り換えが行われなくなる。クラスタ運用ノードでは、業務アプリケーションが停止され、引継IPアドレスも不活性化されるため、その時点で業務停止となってしまう。発生した障害が、クラスタ待機ノードやクラスタ運用ノードのNIC、ネットワーク中継装置等のハードウエアの故障によるものである場合、上記のような制御で問題ない。
しかし、業務LANにおける通信量の増大によりネットワーク中継装置が高負荷状態となった場合、ネットワークモニタからの生存確認メッセージに対して、一時的に応答が返せなくなったり、応答が遅延したりする。また、ネットワーク中継装置によっては、トラフィックに優先度付けを行い、高負荷状態の場合、優先度の低いトラフィックを破棄し、優先度の高いもののみを処理するといった制御を行っているものがあり、生存確認メッセージに対する応答を返さなくなる場合がある。このように一時的に業務LANにおいて輻輳が発生した場合、ある程度時間が経過すれば通信可能な状態に回復することが見込まれる。一方でクラスタ運用ノードとクラスタ待機ノードの双方においてネットワークモニタによりネットワーク障害の発生が検出され、クラスタマネージャに通知されると、(1)クラスタ運用ノードからクラスタ待機ノードへの切り換えが行われた直後に、クラスタ待機ノードでも障害を検出し業務アプリケーションが停止する。又は(2)クラスタ待機ノード側において障害が検出されたためクラスタ待機ノードの切捨てが行われ、ノード切り換えが行われずにクラスタ運用ノードの業務アプリケーションが停止する。
このように、クラスタ運用ノードとクラスタ待機ノードの双方がリソース異常となるため、その後ネットワークが復旧しても、オペレータが管理コンソールから各ノードのクラスタマネージャを操作し、業務アプリケーションを再起動しなければ業務を再開することができないという問題がある。また、業務アプリケーションの再起動を行う前には、業務の停止が発生した原因を調査するためのデータ採取や、業務の再開を問題なく行うことができるかどうかを確認するための点検作業などが必要となり、時間や手間がかかるという問題もある。
このように、ネットワークにおける通信量の増大により一時的にネットワーク障害が発生した場合、ノードの切り換えを行い、業務をクラスタ運用ノードからクラスタ待機ノードに引き継いでも、業務が継続される保証はない。また、ネットワーク中継装置のファームウェアをアップデートするといった保守作業を行う際に、誤ってネットワークモニタによる監視を停止せずにネットワーク中継装置の再起動を行うといったオペレーションミスが発生した場合も、クラスタ運用ノード及びクラスタ待機ノードの両方が停止してしまい、再起動に時間や手間がかかってしまうということも生じていた。
一般に、クラスタシステムで動作するアプリケーションにおいて致命的なエラーが発生した場合におけるノード切り換え制御は、そのクラスタシステムに依存する。エラーが発生した場合、ネットワークモニタは、単に当該エラーをクラスタマネージャに通知するのみで、他のノードで業務の継続が可能であるかどうかは考慮していない。また、一般的なクラスタシステムでは、各ノードのアプリケーションの状態を参照し、既にノードが動作不能状態となっているかどうかを判断するためのインタフェース(コマンド、API(Application Program Interface)など)を備えてはいるが、各ノードでエラーがほぼ同時に検出されたような場合に、他のノードで業務が継続できるかどうかを正しく判断することができない。
特開平4−291628号公報
従って、本発明の目的は、一時的なネットワーク障害が発生したような場合においても、クラスタシステム全体として可能な限り業務中断又は停止を引き起こさないようにするための障害対応技術を提供することである。
本発明に係る、クラスタシステムに含まれるコンピュータに実行される情報処理方法は、上記コンピュータへの業務リクエストを中継する中継装置から生存確認メッセージに対する応答を受信できなかった場合、上記クラスタシステムに含まれる他のコンピュータの状況データを取得するステップと、上記他のコンピュータの状況データが上記他のコンピュータのいずれかが使用可能な状態(動作不能状態とも記す)であることを示している場合、当該使用可能な状態のコンピュータが上記中継装置と通信可能か確認する確認ステップと、上記使用可能な状態のコンピュータが上記中継装置と通信可能であると確認できた場合に、クラスタマネージャに通信障害の発生を通知するステップとを含む。
このように自コンピュータだけが通信障害を検知していることが確認できた場合には、クラスタマネージャに通信障害を通知して例えばノード切り替えを行うようにする。そうすれば、クラスタ運用ノード及びクラスタ待機ノードの両方が稼働停止状態に移行して業務中断又は停止となることを防止することができる。なお、確認ステップにおける確認は、中継装置が接続されたネットワークとは別の経路を用いて行われる。
また、上記他のコンピュータの状況データが上記他のコンピュータのいずれもが使用不能な状態であることを示している場合、上記中継装置へ第2の生存確認メッセージを送信して、当該中継装置からの応答を待つステップをさらに含むようにしても良い。クラスタシステム内のいずれのコンピュータにおいても中継装置と通信不能であると確認された場合、自コンピュータを稼働不能状態に移行させると、クラスタシステム全体として業務が中断又は停止してしまうおそれがあるため、中継装置に対して再度生存確認を行うものである。そして、応答を受信できれば、一時的なネットワーク障害であったことが確認できるので、通常状態に移行する。
さらに、上記使用可能状態のコンピュータのいずれもが中継装置と通信不能であると確認された場合、中継装置へ第2の生存確認メッセージを送信して、中継装置からの応答を待つステップをさらに含むようにしても良い。使用可能状態のコンピュータのいずれもが中継装置と通信不能ということは、自コンピュータを稼働不能状態に移行させてノードの切り換えを行っても、クラスタシステム全体として業務を継続実施することはできないので、中継装置に再度生存確認を行って、一時的なネットワーク障害であるかを確認するものである。そして、応答を受信できれば、通常状態に移行する。
上で述べた情報処理方法をコンピュータに実行させるためのネットワークモニタ・プログラムを作成することができ、このネットワークモニタ・プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、ネットワークなどを介してデジタル信号として配信される場合もある。尚、中間的な処理結果はメモリ等の記憶装置に一時保管される。
図1は、本発明の実施の形態における機能ブロック図である。 図2は、ネットワークモニタの処理フローを示す図である。 図3は、コンピュータ装置の機能ブロック図である。
図1に本発明の一実施の形態における機能ブロック図を示す。インターネット又はイントラネットであるネットワーク1には、ルータやスイッチなどのネットワーク中継装置3及び9などが接続されている。ネットワーク中継装置3は、ネットワーク1と業務用LAN(Local Area Network)19とを接続する接続機器であって、業務用LAN19を介して、業務処理を通常実行するコンピュータであるクラスタ運用ノード5と、クラスタ運用ノード5において障害が発生した場合にクラスタ運用ノード5の業務処理を引き継ぐコンピュータであるクラスタ待機ノード7と接続されている。ここではクラスタ運用ノード5とクラスタ待機ノード7との2つのコンピュータでクラスタシステムが構成される例が示されているが、3台以上のコンピュータによりクラスタシステムが構成されるようにしても良い。クラスタ運用ノード5とクラスタ待機ノード7とは、プライベートLAN17で各々が接続されている。プライベートLAN17では、以下で述べる引継IPアドレスとは異なるIPアドレスが各ノードに付与されており、このIPアドレスを用いて通信することができる。また、クラスタシステムの管理者が操作する管理用コンソール15は、管理用LAN23を介してクラスタ運用ノード5とクラスタ待機ノード7と接続されている。さらに、ネットワーク中継装置9は、ネットワーク1と業務用LAN21とを接続する接続機器であって、業務用LAN21を介してリモートノード11及び13と接続されている。
クラスタ運用ノード5は、クラスタシステム上で動作するアプリケーション・プログラムであって引継IPアドレスを使用して通信を行う業務アプリケーション51と、ネットワークモニタ52と、クラスタマネージャ53と、ノード状態格納部54と、引継アドレス格納部55とを含む。クラスタ運用ノード5において、業務アプリケーション51とネットワークモニタ52とクラスタマネージャ53とが起動されている。また、クラスタ運用ノード5は、引継アドレス格納部55に格納されている引継アドレスを用いて、ネットワーク1及びネットワーク中継装置3を介して他のコンピュータと通信する。
一方、クラスタ待機ノード7は、業務アプリケーション71と、ネットワークモニタ72と、クラスタマネージャ73と、ノード状態格納部74と、引継アドレス格納部75とを含む。なお、待機系なので、クラスタ待機ノード7では、ネットワークモニタ72及びクラスタマネージャ73のみが起動されている。また、引継アドレス格納部75には、引継アドレスが格納されているが不活性化されているか、引継アドレスが格納されていない。
クラスタマネージャ53及び73は、互いにプライベートLAN17を介して通信を行って、クラスタシステム上で動作するアプリケーションの切替えを制御すると共に、クラスタシステムを構成するノードの状態をノード状態格納部54又は74に格納するようになっている。ネットワークモニタ52及び72は、クラスタシステム上の各ノードで実行されるアプリケーション・プログラムであって、業務用LAN19の通信状態を監視し、通信障害を検出した場合には、クラスタマネージャ53又は73に通知を行う。また、クラスタマネージャ53又は73からの指示により、引継IPアドレスの活性化又は不活性化を行う。
リモートノード11及び13は、業務アプリケーション11a又は13aを実行し、クラスタシステムのクラスタ運用ノード5、場合によってはクラスタ待機ノード7に対して業務リクエストを送信して、クラスタ運用ノード5又はクラスタ待機ノード7から応答を受信する。業務アプリケーション11a又は13aは、例えばウェブ(Web)ブラウザであってもよい。
本実施の形態では、ネットワークモニタ52及び72の構成のみを変更することによって、業務用LAN19に一時的に障害が発生した場合に、クラスタシステム全体が業務中断又は中止状態に陥るのを防止することを目的とする。すなわち、業務アプリケーション51及び71、クラスタマネージャ53及び73、ノード状態格納部54及び74、並びに引継アドレス格納部55及び75については、従来と変わらないものとする。
そこで図2を用いてネットワークモニタ52及び72の動作を説明する。なお、本実施の形態では、クラスタ運用ノード5におけるネットワークモニタ52も、クラスタ待機ノード7におけるネットワークモニタ72も、その動作は変わらない。
まず、ネットワークモニタ(52及び72。以下省略。)は、業務用LAN19に接続されたネットワーク中継装置3に対して生存確認メッセージを送信する(ステップS1)。生存確認メッセージには、TCP/IPプロトコルの1つであるICMP(Internet Control Message Protocol)を使用することができる。例えば、ICMP Echo Requestメッセージを生存確認メッセージとして送信すればよい。
そして、ネットワークモニタは、第1の所定時間以内にネットワーク中継装置3から応答を受信したか判断する(ステップS3)。もし、第1の所定時間以内にネットワーク中継装置3から応答を受信した場合には、特に問題はないので、第2の所定時間スリープし(ステップS5)、その後ステップS1に戻る。
一方、第1の所定時間以内にネットワーク中継装置3から応答を受信していない場合には、所定回数(例えば5回)以上連続して応答がないか判断する(ステップS7)。図2では示していないが、例えばステップS3とステップS7の間にカウンタを1インクリメントするステップを実行し、ステップS3とステップS5の間に当該カウンタの値をクリアするステップを実行すればよい。もし、応答を受信しない回数が所定回数に達していない場合にはステップS5に移行する。一方、応答を受信していない回数が所定回数に達した場合には、以下で再度生存確認メッセージをカウントする必要があるのでカウンタをクリアした後、自ノードのクラスタマネージャ53又は73に他のノードの状態を問い合わせる(ステップS9)。これに対してクラスタマネージャ53又は73は、ノード状態格納部54又は74に格納されている他のノード状態(稼働状態/動作不能状態など)に関するデータを読み出し、ネットワークモニタに出力する。ネットワークモニタは、クラスタマネージャ53又は73から他のノード状態に関するデータを受け取ると、他のノード全てが動作不能状態となっているか判断する(ステップS11)。
もし、クラスタシステムを構成する他のノード全てが動作不能状態となっている場合には、自ノードが動作不能となるとクラスタシステム全体が動作不能で業務停止又は中断ということになるので、ステップS17に移行して、再度、業務用LAN19に接続されたネットワーク中継装置3に対して生存確認メッセージを送信する。そして、ネットワークモニタは、第1の所定時間以内にネットワーク中継装置3から応答を受信したか判断する(ステップS19)。もし、第1の所定時間以内にネットワーク中継装置3から応答を受信した場合には、一時的に障害が発生したが現在は復旧したということであるから、特にクラスタマネージャ53又は73に通知する必要はない。従って、クラスタマネージャ53又は73への通信障害通知を中止して(ステップS23)、ステップS5に移行する。すなわち、通常の監視状態に戻る。このように一時的にネットワーク障害が発生した場合には、無駄に動作不能状態に移行することが無くなる。
一方、第1の所定時間以内にネットワーク中継装置3から応答を受信しない場合には、再度所定回数以上応答がないか判断する(ステップS21)。応答を受信しない回数が所定回数に達していない場合にはステップS25に移行し、第3の所定時間スリープして、ステップS9に戻る。上でも述べたが、例えばステップS19とステップS21の間でカウンタを1インクリメントし、ステップS19とステップS23の間でカウンタの値をクリアするようにしても良い。所定回数以上応答がない場合には、長期に渡るネットワーク障害であると考えられるので、端子Aを介してステップS27に移行する。但し、所定回数をステップS7における所定回数とは異なる値として、例えば無限ループのようにする場合もある。すなわち実質的にステップS27に移行しないようする場合もある。また、クラスタ待機ノード7とクラスタ運用ノード5では、所定回数を変えても良い。例えば、クラスタ運用ノード5の方の回数を多くするようにしても良い。
また、ステップS11で動作可能な他のノードが存在する場合には、当該他のノードに対し、当該他のノードからネットワーク中継装置3との通信が可能であるか確認する(ステップS13)。この確認の方法としては、プライベートLAN17を介して他のノードにおいて実行されているネットワークモニタに、例えばネットワーク中継装置3宛に生存確認メッセージを送信するように依頼する方法と、プライベートLAN17を介して他のノードをリモートプロシージャコールなどを用いて直接制御し、例えばネットワーク中継装置3宛に生存確認メッセージを送信させる方法とが存在する。前者の方法であれば他のノードのネットワークモニタから確認結果を受信し、後者の方法であれば自身で確認結果を得ることができる。
そして、ネットワーク中継装置3と通信を行うことができた、すなわちネットワーク中継装置3から応答を受信することができた他のノードが存在するか判断する(ステップS15)。ネットワーク中継装置3と通信を行うことができた他のノードが存在する場合には、自ノードに障害が発生しているか又はネットワーク中継装置3の自ノードと接続するポートに障害が発生している可能性があるので、ステップS27に移行する。
一方、ネットワーク中継装置3と通信を行うことができた他のノードが存在しない場合には、ネットワーク中継装置3の障害なのか、一時的なネットワークの輻輳が発生しているのかを判断できないので、とりあえずステップS17に移行する。
ステップS27では、通信可能な他のノードが存在するため、自ノードに関連する障害が発生していると判断できる場合(ステップS15:Yesルート)、又は長期に渡りネットワークに障害が発生していると判断される場合(ステップS21:Yesルート)、自ノードのクラスタマネージャに通信障害発生を通知する。
クラスタマネージャは、ネットワークモニタから通信障害が通知されると、通常の動作を行う。すなわち、クラスタ運用ノード5のネットワークモニタ52が通信障害発生をクラスタマネージャ53に通知した場合には、(1)クラスタ運用ノード5の業務アプリケーション51を停止し、(2)クラスタ運用ノード5のネットワークモニタ52に引継IPアドレスの不活性化を要求し、ネットワークモニタ52が引継IPアドレスを不活性化させ、(3)クラスタ待機ノード7のネットワークモニタ72に引継IPアドレスの活性化を要求し(例えば引継IPアドレスを含む活性化要求を送信)、ネットワークモニタ72が引継IPアドレスの活性化を行い(例えば、引継IPアドレス格納部75に格納し、業務用LAN19におけるIPアドレスとして設定)、(4)クラスタ待機ノード7の業務アプリケーション71を起動する。
一方、クラスタ待機ノード7のネットワークモニタ72が通信障害発生をクラスタマネージャ73に通知した場合には、ノードの状態を動作不能状態として他のノードのクラスタマネージャに通知する。
以上のような処理を実施することにより、業務LAN19の通信負荷の一時的な増大や保守作業時におけるオペレーションミスによる不要なノード切り替え、クラスタ待機ノード7の動作不能状態への移行が抑制される。一方、特定のノードにおいてのみ障害が発生していることも確認できるので、そのような障害発生時には従来通りノードの切り換え又は動作不能状態への移行が速やかに行われる。
さらに、他の全てのノードが動作不能状態で通信障害が発生した場合、他のノード復旧を待ち合わせた上で業務の引継ぎを行ったり、ネットワーク障害の復旧を待ち合わせて業務を再開したりすることが可能となる。
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、プライベートLAN17に、例えばデータベースを接続させてクラスタシステムにおいて共用するようにしてもよい。また、ステップS21においてステップS27へ移行するタイミングについては、様々な調整が可能である。
なお、上で述べたクラスタ運用ノード5、クラスタ待機ノード7、管理用コンソール15、リモートノード11及び13は、コンピュータ装置であって、図3に示すように、メモリ2501(記憶部)とCPU2503(処理部)とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。必要に応じてCPU2503は、表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ2501に格納され、必要があればHDD2505に格納される。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

Claims (5)

  1. クラスタシステムに含まれるコンピュータで動作するネットワークモニタ・プログラムであって、
    前記コンピュータへの業務リクエストを中継する中継装置から生存確認メッセージに対する応答を受信できなかった場合、前記クラスタシステムに含まれる他のコンピュータの状況データを取得するステップと、
    前記他のコンピュータの状況データが前記他のコンピュータのいずれかが使用可能な状態であることを示している場合、当該使用可能な状態のコンピュータが前記中継装置と通信可能か確認するステップと、
    前記使用可能な状態のコンピュータが前記中継装置と通信可能であると確認できた場合に、クラスタマネージャに通信障害の発生を通知するステップと、
    を上記コンピュータに実行させるためのネットワークモニタ・プログラム。
  2. 前記他のコンピュータの状況データが前記他のコンピュータのいずれもが使用不能な状態であることを示している場合、前記中継装置へ第2の生存確認メッセージを送信して、前記中継装置からの応答を待つステップ、
    をさらに実行させるための請求項1記載のネットワークモニタ・プログラム。
  3. 前記使用可能状態のコンピュータのいずれもが前記中継装置と通信不能であると確認された場合、前記中継装置へ第2の生存確認メッセージを送信して、前記中継装置からの応答を待つステップ、
    をさらに実行させるための請求項1記載のネットワークモニタ・プログラム。
  4. クラスタシステムに含まれるコンピュータに実行される情報処理方法であって、
    前記コンピュータへの業務リクエストを中継する中継装置から生存確認メッセージに対する応答を受信できなかった場合、前記クラスタシステムに含まれる他のコンピュータの状況データを取得するステップと、
    前記他のコンピュータの状況データが前記他のコンピュータのいずれかが使用可能な状態であることを示している場合、当該使用可能な状態のコンピュータが前記中継装置と通信可能か確認するステップと、
    前記使用可能な状態のコンピュータが前記中継装置と通信可能であると確認できた場合に、クラスタマネージャに通信障害の発生を通知するステップと、
    を含む情報処理方法。
  5. クラスタシステムに含まれるコンピュータであって、
    ネットワークモニタと、
    クラスタマネージャと、
    を有し、
    前記ネットワークモニタが、
    前記コンピュータへの業務リクエストを中継する中継装置から生存確認メッセージに対する応答を受信できなかった場合、前記クラスタシステムに含まれる他のコンピュータの状況データを取得する手段と、
    前記他のコンピュータの状況データが前記他のコンピュータのいずれかが使用可能な状態であることを示している場合、当該使用可能な状態のコンピュータが前記中継装置と通信可能か確認する手段と、
    前記使用可能な状態のコンピュータが前記中継装置と通信可能であると確認できた場合に、前記クラスタマネージャに通信障害の発生を通知する手段と、
    を有するコンピュータ。
JP2007544030A 2005-11-11 2005-11-11 クラスタシステムのコンピュータにおいて実行されるネットワークモニタ・プログラム、情報処理方法及びコンピュータ Expired - Fee Related JP4246248B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/020708 WO2007055014A1 (ja) 2005-11-11 2005-11-11 クラスタシステムのコンピュータにおいて実行されるネットワークモニタ・プログラム、情報処理方法及びコンピュータ

Publications (2)

Publication Number Publication Date
JP4246248B2 true JP4246248B2 (ja) 2009-04-02
JPWO2007055014A1 JPWO2007055014A1 (ja) 2009-04-30

Family

ID=38023025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007544030A Expired - Fee Related JP4246248B2 (ja) 2005-11-11 2005-11-11 クラスタシステムのコンピュータにおいて実行されるネットワークモニタ・プログラム、情報処理方法及びコンピュータ

Country Status (3)

Country Link
US (1) US8332506B2 (ja)
JP (1) JP4246248B2 (ja)
WO (1) WO2007055014A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007304687A (ja) * 2006-05-09 2007-11-22 Hitachi Ltd クラスタ構成とその制御手段
US8589534B2 (en) * 2007-09-13 2013-11-19 Ricoh Company, Ltd. Device information management apparatus, device information management method, and storage medium which operates during a failure
KR100956638B1 (ko) * 2007-12-11 2010-05-11 한국전자통신연구원 대규모 클러스터 모니터링 시스템과 그의 자동 구축 및복구 방법
FR2931970B1 (fr) * 2008-05-27 2010-06-11 Bull Sas Procede de generation de requetes de manipulation d'une base de donnees d'initialisation et d'administration d'une grappe de serveurs , support de donnees et grappe de serveurs correspondants
US8836515B2 (en) * 2009-03-26 2014-09-16 Denver Health and Hospital Authority Flexible head of bed elevation device and alarm
WO2013030908A1 (ja) * 2011-08-26 2013-03-07 富士通株式会社 スケジューリングシステム、データ処理システムおよびスケジューリング方法
JP5782925B2 (ja) * 2011-08-31 2015-09-24 富士通株式会社 情報処理装置、プログラム、および制御方法
JP6007522B2 (ja) * 2012-03-09 2016-10-12 日本電気株式会社 クラスタシステム
US20170255506A1 (en) * 2016-03-07 2017-09-07 Dell Software, Inc. Monitoring, analyzing, and mapping of computing resources
US11075925B2 (en) 2018-01-31 2021-07-27 EMC IP Holding Company LLC System and method to enable component inventory and compliance in the platform
US10754708B2 (en) 2018-03-28 2020-08-25 EMC IP Holding Company LLC Orchestrator and console agnostic method to deploy infrastructure through self-describing deployment templates
US10693722B2 (en) 2018-03-28 2020-06-23 Dell Products L.P. Agentless method to bring solution and cluster awareness into infrastructure and support management portals
US11086738B2 (en) * 2018-04-24 2021-08-10 EMC IP Holding Company LLC System and method to automate solution level contextual support
US10795756B2 (en) 2018-04-24 2020-10-06 EMC IP Holding Company LLC System and method to predictively service and support the solution
US11599422B2 (en) 2018-10-16 2023-03-07 EMC IP Holding Company LLC System and method for device independent backup in distributed system
US10862761B2 (en) 2019-04-29 2020-12-08 EMC IP Holding Company LLC System and method for management of distributed systems
US11301557B2 (en) 2019-07-19 2022-04-12 Dell Products L.P. System and method for data processing device management
JP7440747B2 (ja) * 2020-01-27 2024-02-29 富士通株式会社 情報処理装置、情報処理システムおよびネットワーク疎通確認方法
CN114928654A (zh) * 2022-06-07 2022-08-19 中国工商银行股份有限公司 节点状态监测方法、装置、设备、存储介质和程序产品

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04291628A (ja) 1991-03-20 1992-10-15 Hitachi Ltd 複合サブシステム形オンラインシステムの障害回復方式
JP2687927B2 (ja) 1995-05-24 1997-12-08 日本電気株式会社 外部バスの障害検出方法
JP3141746B2 (ja) * 1995-09-14 2001-03-05 横河電機株式会社 二重化制御装置
JP3248485B2 (ja) * 1998-05-29 2002-01-21 日本電気株式会社 クラスタシステム、クラスタシステムにおける監視方式およびその方法
US7284147B2 (en) * 2003-08-27 2007-10-16 International Business Machines Corporation Reliable fault resolution in a cluster
GB0410150D0 (en) * 2004-05-07 2004-06-09 Ibm Methods,apparatus and computer programs for recovery from failures in a computing environment

Also Published As

Publication number Publication date
JPWO2007055014A1 (ja) 2009-04-30
US20080201470A1 (en) 2008-08-21
WO2007055014A1 (ja) 2007-05-18
US8332506B2 (en) 2012-12-11

Similar Documents

Publication Publication Date Title
JP4246248B2 (ja) クラスタシステムのコンピュータにおいて実行されるネットワークモニタ・プログラム、情報処理方法及びコンピュータ
KR101099822B1 (ko) 액티브 라우팅 컴포넌트 장애 처리 방법 및 장치
US10911295B2 (en) Server apparatus, cluster system, cluster control method and program
JP4588262B2 (ja) ルータ及びネットワークにおける一時停止方法
JP4580372B2 (ja) ネットワークシステム
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
JP2007058708A (ja) 多重系システム
JP2010067115A (ja) データ記憶システム、データ記憶方法
JP4806382B2 (ja) 冗長化システム
KR0133337B1 (ko) 타켓 시스템 이중화 운용관리 장치 및 방법
JP2006246152A (ja) パケット転送装置、パケット転送ネットワークシステムおよびパケット転送方法
JP3493035B2 (ja) 動的パス切替方法
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
JPH1141282A (ja) 二重化中継装置
JP4863984B2 (ja) 監視処理プログラム、方法及び装置
JP2000020336A (ja) 二重化通信システム
JP2008117268A (ja) 情報管理システム
JP4191155B2 (ja) 監視制御プログラム、監視制御装置、監視制御方法
JP2008197907A (ja) 監視ネットワークシステムおよびデータバックアップ方法
JP2013254333A (ja) 多重系制御システム及びその制御方法
JP2007058679A (ja) プロセス管理システム、プロセス管理方法及び冗長システム
JP2008166886A (ja) 情報中継装置
JP6301762B2 (ja) 中継システムおよびスイッチ装置
JP2015138987A (ja) 通信システムおよび通信システムにおけるサービス復旧方法
JPH09160875A (ja) マルチエージェント相互バックアップ方式

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090107

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140116

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees