JP2005250641A

JP2005250641A - ネットワークコンピュータシステム

Info

Publication number: JP2005250641A
Application number: JP2004057533A
Authority: JP
Inventors: Satoshi Fukazawa; 敏深澤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-03-02
Filing date: 2004-03-02
Publication date: 2005-09-15
Anticipated expiration: 2024-03-02
Also published as: JP4061549B2

Abstract

【課題】ネットワークコンピュータシステムで稼働コンピュータのバックアップのために配設される予備コンピュータの台数を削減する。
【解決手段】予備コンピュータM1は、稼働コンピュータA-1、A-2、A-n、B-1、B-2、B-m...の障害発生の有無を監視する監視パーティションP1と、稼働コンピュータA-1、A-2、B-1、B-2、... のハードウエア及びソフトウエアリソースの複製が構築可能な待機パーティションP2とを有する。監視パーティションP1が、何れかの稼働コンピュータの障害発生を検出すると、その障害が発生した稼働コンピュータの構成の複製が、待機パーティションP2内に構築され、障害が発生した稼働コンピュータの業務を引き継いで実行する、バックアップ稼働を行う。
【選択図】図１

Description

本発明は、ネットワークコンピュータシステムに関し、更に詳しくは、ネットワークコンピュータシステムにおける待機系コンピュータの構成に関する。

ネットワークコンピュータシステムは、一般に、通信ネットワークで接続された複数台の運用系コンピュータ（稼働コンピュータ）と、稼働コンピュータが故障した際にバックアップとして使用される待機系コンピュータ（予備コンピュータ）とから構成される。従来は、稼働コンピュータと予備コンピュータとで冗長構成を取っていたため、必要とする稼働コンピュータの２倍の台数のコンピュータを必要としていた。

特許文献１には、複数台の稼働コンピュータと少なくとも一台の予備コンピュータとを、ネットワークにより互いに通信可能に接続し、予備コンピュータによって稼働コンピュータの故障診断を行うネットワークコンピュータシステムが記載されている。このシステムでは、予備コンピュータが稼働コンピュータの故障を発見した際には、当該予備コンピュータが、故障した稼働コンピュータに代わってその業務を引き継ぎ代行処理する。

特許文献１に記載のネットワークコンピュータシステムでは、複数台の稼働コンピュータと、最小限一台の予備コンピュータとを用意することで、予備コンピュータの台数を削減して稼働コンピュータの障害発生時に対応しようとしている。しかし、現在のネットワークコンピュータシステムでは、業務の細分化、稼働コンピュータの構成の多様化が進んでいるため、一台の予備コンピュータでネットワークコンピュータシステム全体を網羅するのは、各コンピュータの構成や性能の相違のため、現実的ではない。ここで、予備コンピュータを稼働コンピュータの構成の多様化に対応させるためには、予備コンピュータを多数用意しなければならなくなり、予備コンピュータの台数を削減するメリットが小さくなる。

特許文献２には、複数台の稼働コンピュータと、待機系コンピュータとを備えると共に、前記複数台の稼働コンピュータ自身が、実行系処理機能に加えて、障害連絡管理機能及び相互待機系処理機能を内部に持つネットワークコンピュータシステムが記載されている。
特開平４−２９９７４３号公報特開２０００−０４７８９３号公報

特許文献２に記載のネットワークコンピュータシステムで、稼働コンピュータに障害連絡管理機能や相互待機系処理機能を持たせるためには、処理負担が小さな特定のコンピュータを選択する必要がある。この場合、処理負担が小さなコンピュータの選択が容易ではなく、また、障害連絡管理機能及び相互待機系処理機能を持たせたコンピュータの実行処理系の負荷がその後に増大すると、持たせた機能が実際に発揮できなくなるという問題がある。更に、複数台の稼働コンピュータに、それぞれ障害連絡管理機能や相互待機系処理機能を持たせると、稼働コンピュータのハードウエア構成が複雑になり、コストが増大するという問題もある。

本発明は、上記に鑑み、稼働コンピュータの構成を複雑化させることなく、予備コンピュータの台数が削減可能な、簡素な構成を有するネットワークコンピュータシステムを提供することを目的とする。

上記目的を達成するために、本発明のネットワークコンピュータシステムは、複数の稼働コンピュータをネットワーク（通信ネットワーク）で接続して成るネットワークコンピュータシステムにおいて、
複数のパーティションで内部が区分可能な予備コンピュータを備え、前記複数のパーティションは、複数の稼働コンピュータの障害発生の有無を監視する機能を有する監視パーティションと、少なくとも１台の前記稼働コンピュータのリソースの複製を構築可能なリソースを内部に有する待機パーティションとを含むことを特徴とする。

本発明のネットワークコンピュータシステムによると、稼働コンピュータと予備コンピュータとを同数用意する必要がなく、システム構築費用の増加、システム保守費用の増加を防ぎ、経済性よくシステムを構築できるという効果を奏する。

また、稼働コンピュータがいかなるリソース（ハードウエア及びソフトウエア構成）を有する場合にも、予備コンピュータ内に稼働コンピュータのリソースの複製を構築できる。更に、システム内に、既存の稼働コンピュータとはハードウエア及びソフトウエア構成が異なる新規な稼働コンピュータを追加する場合にも、既存の稼働コンピュータと新規な稼働コンピュータとの構成における差分のリソースであるハードウエア部分及びソフトウエア部分を予備コンピュータ内に実装することによって、バックアップが可能となる。

更に、予備コンピュータを、パーティション構成とすることにより、各稼働コンピュータの規模の大小に拘わらず、１つの予備コンピュータのみによっても、多様な構成を有する様々な稼働コンピュータのリソースを再現できる。

ここで、本発明のネットワークコンピュータシステムでは、前記待機パーティションは、前記監視パーティションが稼働コンピュータの障害発生を検出した後に、当該障害発生が検出された稼働コンピュータのリソースの複製を構築し、次いで、当該障害が発生した稼働コンピュータのバックアップ稼働を行うことが出来る。この場合、障害が発生した稼働コンピュータの構成に合わせた、フレキシブルな複製の構築が可能となる。

上記に代えて、前記待機パーティションは、稼働コンピュータの障害の発生に先立って形成された複数の待機パーティションを含み、該複数の待機パーティションはそれぞれ、１台の稼働コンピュータのリソースの複製として構築されることも出来る。この場合、障害の発生後に速やかなバックアップ稼働が可能になる。

ここで、本発明の好ましい態様のネットワークコンピュータシステムでは、前記複数のパーティションは、予備コンピュータ内のソフトウエアによって相互に区分される。この場合、パーティションの構築が容易に行われる。或いは、これに代えて、前記複数のパーティションを、予備コンピュータ内のソフトウエア及びハードウエアが区分されることによって構築してもよい。この場合、故障発生からバックアップ稼働までの時間の短縮が可能になる。

以下に、添付図面を参照し、実施形態例を挙げて本発明の実施の形態について説明する。図１を参照すると、本発明の第１の実施形態例に係るネットワークコンピュータシステムは、通信ネットワークグループＡ(W1)と、通信ネットワークグループＡ（W1）に繋がるｎ台の稼働コンピュータA-1、A-2、A-3、…A-nと、通信ネットワークグループＢ(W2)と、通信ネットワークグループＢ(W2)に繋がるｍ台の稼働コンピュータB-1、B-2、B-3、…B-mと、通信ネットワークグループＡ（W1）及びＢ(W2)の双方に接続された１台の予備コンピュータM1とを含んで構成される。予備コンピュータM1内には、各ネットワークグループW1、W2配下の稼働コンピュータA-1、A-2、A-3、…A-n、B-1、B-2、B-3、…B-mの障害状態を監視する監視パーティションP1と、各稼働コンピュータと同じ構成を有するコンピュータ機能が内部で複数台構築可能なリソースを有する待機パーティションP2とが構築される。なお、ｎ＝ｍ又はｎ≠ｍの何れでもよい。

稼働コンピュータA-1、A-2、A-3、…A-n 、B-1、B-2、B-3、…B-mは、それぞれがネットワークW1、W2内で定められた特定の業務を実行している。予備コンピュータM1内の監視パーティションP1は、稼働コンピュータA-1、A-2、A-3、…A-n 、B-1、B-2、B-3、…B-mの障害状態を常に監視する診断監視プログラムを動作させ、稼働コンピュータA-1、A-2、A-3、…A-n 、B-1、B-2、B-3、…B-mがシステムダウンとなる前にその異常を検出する。監視パーティションP1は、稼働コンピュータにシステムダウンの原因となるような異常を検出した場合には、待機パーティションP2内に当該稼働コンピュータと同様なCPU構成、メモリ構成、IO構成、及び、ソフトウエア構成を有する、稼働コンピュータの複製を待機パーティションP2内に構築する。待機パーティションP2内に障害が発生した稼働コンピュータの複製が構築されると、そのコンピュータの複製が稼働コンピュータから業務を引き継ぎ、バックアップ稼働を行う。

監視パーティションP1が、複数台の稼働コンピュータがシステムダウンとなるような異常を検出した場合には、待機パーティションP2内に可能な限りの台数の稼働コンピュータの複製を構築する。待機パーティションP2の構成は、ネットワークグループ全体の稼働コンピュータの構成に基づいて、最大で何台の待機系コンピュータを用意する必要があるかで決定する。

上記実施形態例のネットワークコンピュータシステムの動作について、図２のフローチャートを参照して説明する。監視パーティションP1は、稼働コンピュータA-1、稼働コンピュータA-2、．．．、稼働コンピュータA-n、稼働コンピュータB-1、稼働コンピュータB-2、．．．、稼働コンピュータB-mと順次にアクセスする(ステップＳ１)。このアクセスにより、稼働コンピュータA-1、A-2、．．．A-n、B-1、B-2、．．．．B-mの内部情報、障害情報を採取するプログラムを各稼働コンピュータ上で起動する(ステップＳ２)。各稼働コンピュータで採取された情報を監視パーティションP1に転送する(ステップＳ３)。この情報を転送した稼働コンピュータをX-0とする。転送された情報を監視パーティションP1で解析を行い(ステップＳ４)、システムダウンに繋がるような障害があるか否かを判断する(ステップＳ５)。システムダウンに繋がるような障害が発生した場合には、稼働コンピュータX-0の複製を待機パーティションに構築する処理を行う(Ｓ７)。システムダウンに繋がるような障害がないと判断された場合には、システム内の全稼働コンピュータの台数（Ｚ）にアクセスしたか否かを判断し(ステップＳ６)、まだ、アクセスを行っていない稼働コンピュータがある場合には、次の稼働コンピュータをアクセスする(ステップＳ１)。この処理を繰り返し行って、システ内の全ての稼働コンピュータの障害発生の有無を判定する。

システムダウンとなるような障害を検出した場合には、その時点で、既に他の稼働コンピュータと待機パーティションとを入れ替えているか否かを確認し(ステップＳ７)、待機パーティションP2内に稼働コンピュータX-0と同様なCPU構成、メモリ構成、IO構成、及び、ソフトウエア構成となるように、予備コンピュータ内の資産（リソース）を選択して、待機パーティションP2-0を作成する(ステップＳ９)。待機パーティションP2-0で稼働コンピュータX-0の業務が開始可能状態となった時点で、稼働コンピュータX-0の業務を停止すると共に、待機パーティションP2-0で稼働コンピュータX-0の業務を引き継ぐ (ステップＳ１０)。

監視パーティションP1は、稼働コンピュータX-0が停止したことを、電子メール、保守用端末を経由して保守員に伝える(ステップＳ１１)。保守員は、監視パーティションP1の被擬指摘(障害発生)情報から、稼働コンピュータX-0のどの部分に障害があったかを判断し、被擬部品を排除する。次いで、被擬部品を排除したことで、稼働コンピュータX-0が問題なく動作する状態となったか否かを確認する。動作可能な状態と判断されたならば、監視パーティションP1の障害情報フラグを、保守員がクリアする(ステップＳ１２)。監視パーティションP1は、稼働コンピュータX-0に対する障害情報フラグがクリアされたことを確認する。監視パーティションP1は、待機パーティション(P2-0)で行っていた業務を稼働コンピュータ(X-0)に移行し(ステップＳ１３)、待機パーティションP2-0を削除することによって、待機パーティションP2-0で使用していた資産を解放する(ステップＳ１４)。ステップＳ９〜Ｓ１４までの処理をまとめて処理Ｚ−０と呼ぶ。

稼働コンピュータX-0から待機パーティションP2-0に業務が移行、処理している期間に、新たにシステムダウンとなる障害が稼働コンピュータX-nにが発生した場合(ステップＳ５)を考える。この場合には、その障害発生が監視パーティションP1によって検出され (ステップＳ７)、待機パーティション(P2)は、稼働コンピュータX-nと同様なCPU構成、メモリ構成、IO構成、ソフトウエア構成となるように待機パーティションP2内の資産を選択して、待機パーティションP2-nを作成する(ステップＳ１５)。次いで、待機パーティションP2-0を作成する際の処理Ｚ−０と同様の処理Ｚ−ｎを実行する（ステップＳ１６）。なお、待機パーティション P2-0、P2-ｎを構築するためのリソースは、予め待機パーティションP2内に配置しても、或いは、予備コンピュータM1の他の部分に配置してもよい。

図３は、本発明の第２の実施形態例に係るネットワークコンピュータシステムを示す。同図において、予備パーティションP2には、予め、ネットワークグループＡ（W1）に繋がる稼働コンピュータの複製を、予備コンピュータＭ１内に待機パーティションPA-0、PA-1として構築しておく。監視パーティションP1で、稼働コンピュータA-1、A-2、…、A-nの障害状態を監視し、システムダウンに繋がるような障害を検出した場合には、当該障害が発生した稼働コンピュータの業務を待機パーティションPA-0、又は、待機パーティションPA-1に引き継ぎ、業務を実行する。同じように、ネットワークグループＢに繋がる稼働コンピュータB-1、B-2、…、B-mも、監視パーティションP2によって監視され、障害が検出されれば、当該障害が発生した稼働コンピュータの業務は、待機パーティションPB-0、又は、待機パーティションPB-1に引き継がれる。

第２の実施形態例では、予め、複数の待機パーティションを構築し、それらを稼働コンピュータの複製として作成しておくことで、稼働コンピュータから待機パーティションへの業務の引継を迅速に行う。

本発明は、特に、稼働コンピュータの台数が多く、且つ、各コンピュータのハードウエア構成の種類が多く、或いは、複数のネットワークグループが存在する規模の大きなネットワークシステムに、特に好適に適用できる。また、将来コンピュータが増設されることが予想されるシステムにも好適に適用可能である。

以上、本発明をその好適な実施形態例に基づいて説明したが、本発明のネットワークコンピュータシステムは、上記実施形態例の構成にのみ限定されるものではなく、上記実施形態例の構成から種々の修正及び変更を施したものも、本発明の範囲に含まれる。

本発明の第１の実施形態例に係るネットワークコンピュータシステムのブロック図。第１の実施形態例のネットワークコンピュータシステムの処理を示すフローチャート。本発明の第２の実施形態例に係るネットワークコンピュータシステムのブロック図。

符号の説明

A-1、 A-2、 An:稼働コンピュータ
B-1、B-2、 B-m:稼働コンピュータ
P1:監視パーティション
P2:待機パーティション
M1:予備コンピュータ
W1、W2:ネットワークグループ
PA-0、PA-1、PB-1、PB-2:待機パーティション

Claims

複数の稼働コンピュータをネットワークで接続して成るネットワークコンピュータシステムにおいて、
複数のパーティションで内部が区分可能な予備コンピュータを備え、前記複数のパーティションは、複数の稼働コンピュータの障害発生の有無を監視する機能を有する監視パーティションと、少なくとも１台の前記稼働コンピュータのリソースの複製を構築可能なリソースを内部に有する待機パーティションとを含むことを特徴とするネットワークコンピュータシステム。
前記待機パーティションは、前記監視パーティションが稼働コンピュータの障害発生を検出した後に、当該障害発生が検出された稼働コンピュータのリソースの複製を構築し、次いで、当該障害が発生した稼働コンピュータのバックアップ稼働を行う、請求項１に記載のネットワークコンピュータシステム。
前記待機パーティションは、稼働コンピュータの障害の発生に先立って形成された複数の待機パーティションを含み、該複数の待機パーティションはそれぞれ、１台の稼働コンピュータのリソースの複製として構築されている、請求項１に記載のネットワークコンピュータシステム。
前記複数のパーティションは、予備コンピュータ内のソフトウエアによって相互に区分される、請求項１〜３の何れか一に記載のネットワークコンピュータシステム。
前記複数のパーティションは、予備コンピュータ内のソフトウエア及びハードウエアが区分されることによって構築される、請求項１〜３の何れか一に記載のネットワークコンピュータシステム。