JP2005250641A - ネットワークコンピュータシステム - Google Patents

ネットワークコンピュータシステム Download PDF

Info

Publication number
JP2005250641A
JP2005250641A JP2004057533A JP2004057533A JP2005250641A JP 2005250641 A JP2005250641 A JP 2005250641A JP 2004057533 A JP2004057533 A JP 2004057533A JP 2004057533 A JP2004057533 A JP 2004057533A JP 2005250641 A JP2005250641 A JP 2005250641A
Authority
JP
Japan
Prior art keywords
computer
operating
partition
standby
computers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004057533A
Other languages
English (en)
Other versions
JP4061549B2 (ja
Inventor
Satoshi Fukazawa
敏 深澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004057533A priority Critical patent/JP4061549B2/ja
Publication of JP2005250641A publication Critical patent/JP2005250641A/ja
Application granted granted Critical
Publication of JP4061549B2 publication Critical patent/JP4061549B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

【課題】 ネットワークコンピュータシステムで稼働コンピュータのバックアップのために配設される予備コンピュータの台数を削減する。
【解決手段】 予備コンピュータM1は、稼働コンピュータA-1、A-2、A-n、B-1、B-2、B-m...の障害発生の有無を監視する監視パーティションP1と、稼働コンピュータA-1、A-2、B-1、B-2、... のハードウエア及びソフトウエアリソースの複製が構築可能な待機パーティションP2とを有する。監視パーティションP1が、何れかの稼働コンピュータの障害発生を検出すると、その障害が発生した稼働コンピュータの構成の複製が、待機パーティションP2内に構築され、障害が発生した稼働コンピュータの業務を引き継いで実行する、バックアップ稼働を行う。
【選択図】 図1

Description

本発明は、ネットワークコンピュータシステムに関し、更に詳しくは、ネットワークコンピュータシステムにおける待機系コンピュータの構成に関する。
ネットワークコンピュータシステムは、一般に、通信ネットワークで接続された複数台の運用系コンピュータ(稼働コンピュータ)と、稼働コンピュータが故障した際にバックアップとして使用される待機系コンピュータ(予備コンピュータ)とから構成される。従来は、稼働コンピュータと予備コンピュータとで冗長構成を取っていたため、必要とする稼働コンピュータの2倍の台数のコンピュータを必要としていた。
特許文献1には、複数台の稼働コンピュータと少なくとも一台の予備コンピュータとを、ネットワークにより互いに通信可能に接続し、予備コンピュータによって稼働コンピュータの故障診断を行うネットワークコンピュータシステムが記載されている。このシステムでは、予備コンピュータが稼働コンピュータの故障を発見した際には、当該予備コンピュータが、故障した稼働コンピュータに代わってその業務を引き継ぎ代行処理する。
特許文献1に記載のネットワークコンピュータシステムでは、複数台の稼働コンピュータと、最小限一台の予備コンピュータとを用意することで、予備コンピュータの台数を削減して稼働コンピュータの障害発生時に対応しようとしている。しかし、現在のネットワークコンピュータシステムでは、業務の細分化、稼働コンピュータの構成の多様化が進んでいるため、一台の予備コンピュータでネットワークコンピュータシステム全体を網羅するのは、各コンピュータの構成や性能の相違のため、現実的ではない。ここで、予備コンピュータを稼働コンピュータの構成の多様化に対応させるためには、予備コンピュータを多数用意しなければならなくなり、予備コンピュータの台数を削減するメリットが小さくなる。
特許文献2には、複数台の稼働コンピュータと、待機系コンピュータとを備えると共に、前記複数台の稼働コンピュータ自身が、実行系処理機能に加えて、障害連絡管理機能及び相互待機系処理機能を内部に持つネットワークコンピュータシステムが記載されている。
特開平4−299743号公報 特開2000−047893号公報
特許文献2に記載のネットワークコンピュータシステムで、稼働コンピュータに障害連絡管理機能や相互待機系処理機能を持たせるためには、処理負担が小さな特定のコンピュータを選択する必要がある。この場合、処理負担が小さなコンピュータの選択が容易ではなく、また、障害連絡管理機能及び相互待機系処理機能を持たせたコンピュータの実行処理系の負荷がその後に増大すると、持たせた機能が実際に発揮できなくなるという問題がある。更に、複数台の稼働コンピュータに、それぞれ障害連絡管理機能や相互待機系処理機能を持たせると、稼働コンピュータのハードウエア構成が複雑になり、コストが増大するという問題もある。
本発明は、上記に鑑み、稼働コンピュータの構成を複雑化させることなく、予備コンピュータの台数が削減可能な、簡素な構成を有するネットワークコンピュータシステムを提供することを目的とする。
上記目的を達成するために、本発明のネットワークコンピュータシステムは、複数の稼働コンピュータをネットワーク(通信ネットワーク)で接続して成るネットワークコンピュータシステムにおいて、
複数のパーティションで内部が区分可能な予備コンピュータを備え、前記複数のパーティションは、複数の稼働コンピュータの障害発生の有無を監視する機能を有する監視パーティションと、少なくとも1台の前記稼働コンピュータのリソースの複製を構築可能なリソースを内部に有する待機パーティションとを含むことを特徴とする。
本発明のネットワークコンピュータシステムによると、稼働コンピュータと予備コンピュータとを同数用意する必要がなく、システム構築費用の増加、システム保守費用の増加を防ぎ、経済性よくシステムを構築できるという効果を奏する。
また、稼働コンピュータがいかなるリソース(ハードウエア及びソフトウエア構成)を有する場合にも、予備コンピュータ内に稼働コンピュータのリソースの複製を構築できる。更に、システム内に、既存の稼働コンピュータとはハードウエア及びソフトウエア構成が異なる新規な稼働コンピュータを追加する場合にも、既存の稼働コンピュータと新規な稼働コンピュータとの構成における差分のリソースであるハードウエア部分及びソフトウエア部分を予備コンピュータ内に実装することによって、バックアップが可能となる。
更に、予備コンピュータを、パーティション構成とすることにより、各稼働コンピュータの規模の大小に拘わらず、1つの予備コンピュータのみによっても、多様な構成を有する様々な稼働コンピュータのリソースを再現できる。
ここで、本発明のネットワークコンピュータシステムでは、前記待機パーティションは、前記監視パーティションが稼働コンピュータの障害発生を検出した後に、当該障害発生が検出された稼働コンピュータのリソースの複製を構築し、次いで、当該障害が発生した稼働コンピュータのバックアップ稼働を行うことが出来る。この場合、障害が発生した稼働コンピュータの構成に合わせた、フレキシブルな複製の構築が可能となる。
上記に代えて、前記待機パーティションは、稼働コンピュータの障害の発生に先立って形成された複数の待機パーティションを含み、該複数の待機パーティションはそれぞれ、1台の稼働コンピュータのリソースの複製として構築されることも出来る。この場合、障害の発生後に速やかなバックアップ稼働が可能になる。
ここで、本発明の好ましい態様のネットワークコンピュータシステムでは、前記複数のパーティションは、予備コンピュータ内のソフトウエアによって相互に区分される。この場合、パーティションの構築が容易に行われる。或いは、これに代えて、前記複数のパーティションを、予備コンピュータ内のソフトウエア及びハードウエアが区分されることによって構築してもよい。この場合、故障発生からバックアップ稼働までの時間の短縮が可能になる。
以下に、添付図面を参照し、実施形態例を挙げて本発明の実施の形態について説明する。図1を参照すると、本発明の第1の実施形態例に係るネットワークコンピュータシステムは、通信ネットワークグループA(W1)と、通信ネットワークグループA(W1)に繋がるn台の稼働コンピュータA-1、A-2、A-3、…A-nと、通信ネットワークグループB(W2)と、通信ネットワークグループB(W2)に繋がるm台の稼働コンピュータB-1、B-2、B-3、…B-mと、通信ネットワークグループA(W1)及びB(W2)の双方に接続された1台の予備コンピュータM1とを含んで構成される。予備コンピュータM1内には、各ネットワークグループW1、W2配下の稼働コンピュータA-1、A-2、A-3、…A-n、B-1、B-2、B-3、…B-mの障害状態を監視する監視パーティションP1と、各稼働コンピュータと同じ構成を有するコンピュータ機能が内部で複数台構築可能なリソースを有する待機パーティションP2とが構築される。なお、n=m又はn≠mの何れでもよい。
稼働コンピュータA-1、A-2、A-3、…A-n 、B-1、B-2、B-3、…B-mは、それぞれがネットワークW1、W2内で定められた特定の業務を実行している。予備コンピュータM1内の監視パーティションP1は、稼働コンピュータA-1、A-2、A-3、…A-n 、B-1、B-2、B-3、…B-mの障害状態を常に監視する診断監視プログラムを動作させ、稼働コンピュータA-1、A-2、A-3、…A-n 、B-1、B-2、B-3、…B-mがシステムダウンとなる前にその異常を検出する。監視パーティションP1は、稼働コンピュータにシステムダウンの原因となるような異常を検出した場合には、待機パーティションP2内に当該稼働コンピュータと同様なCPU構成、メモリ構成、IO構成、及び、ソフトウエア構成を有する、稼働コンピュータの複製を待機パーティションP2内に構築する。待機パーティションP2内に障害が発生した稼働コンピュータの複製が構築されると、そのコンピュータの複製が稼働コンピュータから業務を引き継ぎ、バックアップ稼働を行う。
監視パーティションP1が、複数台の稼働コンピュータがシステムダウンとなるような異常を検出した場合には、待機パーティションP2内に可能な限りの台数の稼働コンピュータの複製を構築する。待機パーティションP2の構成は、ネットワークグループ全体の稼働コンピュータの構成に基づいて、最大で何台の待機系コンピュータを用意する必要があるかで決定する。
上記実施形態例のネットワークコンピュータシステムの動作について、図2のフローチャートを参照して説明する。監視パーティションP1は、稼働コンピュータA-1、稼働コンピュータA-2、...、稼働コンピュータA-n、稼働コンピュータB-1、稼働コンピュータB-2、...、稼働コンピュータB-mと順次にアクセスする(ステップS1)。このアクセスにより、稼働コンピュータA-1、A-2、...A-n、B-1、B-2、....B-mの内部情報、障害情報を採取するプログラムを各稼働コンピュータ上で起動する(ステップS2)。各稼働コンピュータで採取された情報を監視パーティションP1に転送する(ステップS3)。この情報を転送した稼働コンピュータをX-0とする。転送された情報を監視パーティションP1で解析を行い(ステップS4)、システムダウンに繋がるような障害があるか否かを判断する(ステップS5)。システムダウンに繋がるような障害が発生した場合には、稼働コンピュータX-0の複製を待機パーティションに構築する処理を行う(S7)。システムダウンに繋がるような障害がないと判断された場合には、システム内の全稼働コンピュータの台数(Z)にアクセスしたか否かを判断し(ステップS6)、まだ、アクセスを行っていない稼働コンピュータがある場合には、次の稼働コンピュータをアクセスする(ステップS1)。この処理を繰り返し行って、システ内の全ての稼働コンピュータの障害発生の有無を判定する。
システムダウンとなるような障害を検出した場合には、その時点で、既に他の稼働コンピュータと待機パーティションとを入れ替えているか否かを確認し(ステップS7)、待機パーティションP2内に稼働コンピュータX-0と同様なCPU構成、メモリ構成、IO構成、及び、ソフトウエア構成となるように、予備コンピュータ内の資産(リソース)を選択して、待機パーティションP2-0を作成する(ステップS9)。待機パーティションP2-0で稼働コンピュータX-0の業務が開始可能状態となった時点で、稼働コンピュータX-0の業務を停止すると共に、待機パーティションP2-0で稼働コンピュータX-0の業務を引き継ぐ (ステップS10)。
監視パーティションP1は、稼働コンピュータX-0が停止したことを、電子メール、保守用端末を経由して保守員に伝える(ステップS11)。保守員は、監視パーティションP1の被擬指摘(障害発生)情報から、稼働コンピュータX-0のどの部分に障害があったかを判断し、被擬部品を排除する。次いで、被擬部品を排除したことで、稼働コンピュータX-0が問題なく動作する状態となったか否かを確認する。動作可能な状態と判断されたならば、監視パーティションP1の障害情報フラグを、保守員がクリアする(ステップS12)。監視パーティションP1は、稼働コンピュータX-0に対する障害情報フラグがクリアされたことを確認する。監視パーティションP1は、待機パーティション(P2-0)で行っていた業務を稼働コンピュータ(X-0)に移行し(ステップS13)、待機パーティションP2-0を削除することによって、待機パーティションP2-0で使用していた資産を解放する(ステップS14)。ステップS9〜S14までの処理をまとめて処理Z−0と呼ぶ。
稼働コンピュータX-0から待機パーティションP2-0に業務が移行、処理している期間に、新たにシステムダウンとなる障害が稼働コンピュータX-nにが発生した場合(ステップS5)を考える。この場合には、その障害発生が監視パーティションP1によって検出され (ステップS7)、待機パーティション(P2)は、稼働コンピュータX-nと同様なCPU構成、メモリ構成、IO構成、ソフトウエア構成となるように待機パーティションP2内の資産を選択して、待機パーティションP2-nを作成する(ステップS15)。次いで、待機パーティションP2-0を作成する際の処理Z−0と同様の処理Z−nを実行する(ステップS16)。なお、待機パーティション P2-0、P2-nを構築するためのリソースは、予め待機パーティションP2内に配置しても、或いは、予備コンピュータM1の他の部分に配置してもよい。
図3は、本発明の第2の実施形態例に係るネットワークコンピュータシステムを示す。同図において、予備パーティションP2には、予め、ネットワークグループA(W1)に繋がる稼働コンピュータの複製を、予備コンピュータM1内に待機パーティションPA-0、PA-1として構築しておく。監視パーティションP1で、稼働コンピュータA-1、A-2、…、A-nの障害状態を監視し、システムダウンに繋がるような障害を検出した場合には、当該障害が発生した稼働コンピュータの業務を待機パーティションPA-0、又は、待機パーティションPA-1に引き継ぎ、業務を実行する。同じように、ネットワークグループBに繋がる稼働コンピュータB-1、B-2、…、B-mも、監視パーティションP2によって監視され、障害が検出されれば、当該障害が発生した稼働コンピュータの業務は、待機パーティションPB-0、又は、待機パーティションPB-1に引き継がれる。
第2の実施形態例では、予め、複数の待機パーティションを構築し、それらを稼働コンピュータの複製として作成しておくことで、稼働コンピュータから待機パーティションへの業務の引継を迅速に行う。
本発明は、特に、稼働コンピュータの台数が多く、且つ、各コンピュータのハードウエア構成の種類が多く、或いは、複数のネットワークグループが存在する規模の大きなネットワークシステムに、特に好適に適用できる。また、将来コンピュータが増設されることが予想されるシステムにも好適に適用可能である。
以上、本発明をその好適な実施形態例に基づいて説明したが、本発明のネットワークコンピュータシステムは、上記実施形態例の構成にのみ限定されるものではなく、上記実施形態例の構成から種々の修正及び変更を施したものも、本発明の範囲に含まれる。
本発明の第1の実施形態例に係るネットワークコンピュータシステムのブロック図。 第1の実施形態例のネットワークコンピュータシステムの処理を示すフローチャート。 本発明の第2の実施形態例に係るネットワークコンピュータシステムのブロック図。
符号の説明
A-1、 A-2、 An:稼働コンピュータ
B-1、B-2、 B-m:稼働コンピュータ
P1:監視パーティション
P2:待機パーティション
M1:予備コンピュータ
W1、W2:ネットワークグループ
PA-0、PA-1、PB-1、PB-2:待機パーティション

Claims (5)

  1. 複数の稼働コンピュータをネットワークで接続して成るネットワークコンピュータシステムにおいて、
    複数のパーティションで内部が区分可能な予備コンピュータを備え、前記複数のパーティションは、複数の稼働コンピュータの障害発生の有無を監視する機能を有する監視パーティションと、少なくとも1台の前記稼働コンピュータのリソースの複製を構築可能なリソースを内部に有する待機パーティションとを含むことを特徴とするネットワークコンピュータシステム。
  2. 前記待機パーティションは、前記監視パーティションが稼働コンピュータの障害発生を検出した後に、当該障害発生が検出された稼働コンピュータのリソースの複製を構築し、次いで、当該障害が発生した稼働コンピュータのバックアップ稼働を行う、請求項1に記載のネットワークコンピュータシステム。
  3. 前記待機パーティションは、稼働コンピュータの障害の発生に先立って形成された複数の待機パーティションを含み、該複数の待機パーティションはそれぞれ、1台の稼働コンピュータのリソースの複製として構築されている、請求項1に記載のネットワークコンピュータシステム。
  4. 前記複数のパーティションは、予備コンピュータ内のソフトウエアによって相互に区分される、請求項1〜3の何れか一に記載のネットワークコンピュータシステム。
  5. 前記複数のパーティションは、予備コンピュータ内のソフトウエア及びハードウエアが区分されることによって構築される、請求項1〜3の何れか一に記載のネットワークコンピュータシステム。
JP2004057533A 2004-03-02 2004-03-02 ネットワークコンピュータシステム Expired - Fee Related JP4061549B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004057533A JP4061549B2 (ja) 2004-03-02 2004-03-02 ネットワークコンピュータシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004057533A JP4061549B2 (ja) 2004-03-02 2004-03-02 ネットワークコンピュータシステム

Publications (2)

Publication Number Publication Date
JP2005250641A true JP2005250641A (ja) 2005-09-15
JP4061549B2 JP4061549B2 (ja) 2008-03-19

Family

ID=35031089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004057533A Expired - Fee Related JP4061549B2 (ja) 2004-03-02 2004-03-02 ネットワークコンピュータシステム

Country Status (1)

Country Link
JP (1) JP4061549B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008305070A (ja) * 2007-06-06 2008-12-18 Hitachi Communication Technologies Ltd 情報処理装置および情報処理装置システム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010061446A1 (ja) * 2008-11-27 2010-06-03 富士通株式会社 情報処理装置,処理部切換方法及び処理部切換プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008305070A (ja) * 2007-06-06 2008-12-18 Hitachi Communication Technologies Ltd 情報処理装置および情報処理装置システム
US8032786B2 (en) 2007-06-06 2011-10-04 Hitachi, Ltd. Information-processing equipment and system therefor with switching control for switchover operation

Also Published As

Publication number Publication date
JP4061549B2 (ja) 2008-03-19

Similar Documents

Publication Publication Date Title
CN113014634B (zh) 集群选举处理方法、装置、设备及存储介质
JP2003114811A (ja) 自動障害復旧方法及びシステム並びに装置とプログラム
CN106095571B (zh) 多rac集群系统、数据访问方法及装置
CN105589756A (zh) 批处理集群系统以及方法
US7886181B2 (en) Failure recovery method in cluster system
CN113515408A (zh) 一种数据容灾方法、装置、设备及介质
CN111897697A (zh) 服务器硬件故障修复方法和装置
JP2008165531A (ja) 複数のノードを有するコンピュータ・システムの故障ノードをフェイルオーバー(修復)する方法
Trivedi et al. Modeling high availability
JP4061549B2 (ja) ネットワークコンピュータシステム
Oriol et al. Fault-tolerant fault tolerance for component-based automation systems
US7519857B2 (en) Method, apparatus, and system for a software based business continuity solution for a computing environment
CN109995554A (zh) 多级数据中心主备切换的控制方法及云调度指挥器
JP2009003537A (ja) 計算機
JP2012150657A (ja) 計算機システム
CN112269693B (zh) 一种节点自协调方法、装置和计算机可读存储介质
CN114124803B (zh) 设备管理方法、装置、电子设备及存储介质
Shah et al. Fault tolerance in cloud and fog computing—a holistic view
JP7474168B2 (ja) 監視システムおよび障害監視方法
JP2014078067A (ja) データベースシステム、データベース装置、データベースの障害回復方法およびプログラム
CN114328036A (zh) 一种硬件故障检测方法、系统及相关设备
JP6090335B2 (ja) 情報処理装置
JPH05314085A (ja) 複数計算機間の相互稼動待機方式
Oussane et al. Fault Tolerance in The IoT: A Taxonomy Based on Techniques
CN110262993B (zh) 输入信息的读取方法及电路、存储介质、电子装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070628

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071212

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110111

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees