JP2007133665A

JP2007133665A - 計算機システム、分散処理方法、計算機及び分散処理プログラム

Info

Publication number: JP2007133665A
Application number: JP2005326196A
Authority: JP
Inventors: Yuki Takahashi; 祐樹高橋; Teruyuki Yasunaga; 輝幸安永; Shuji Nishiyama; 修治西山
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2005-11-10
Filing date: 2005-11-10
Publication date: 2007-05-31

Abstract

【課題】ロードバランサ等の専用のハードウェアを用意せずに、ネットワーク上の計算機を自律的に負荷分散を行わせて、処理要求に速やかに応答し、適正なかつ故障に強い負荷分散を行えるようにすること。
【解決手段】各計算機100が、自身のRAS情報102を取得して他の各計算機100に送信し、他の各計算機100からのRAS情報102を受信して自身のRAS情報102と共に主記憶装置（又は自身に直接接続する補助記憶装置）に保存し、クライアント200からの業務要求を受け付けたときに、自らの主記憶装置のRAS情報102を参照して、負荷分散を行うこととしている。
【選択図】図１

Description

本発明は、任意のネットワークに接続した複数の計算機が分散処理を行うものに関する。

一般に、任意のネットワークに接続した複数の計算機の業務負荷の分散や業務引き継ぎ（負荷分散等）を行えるようにした計算機システムとしては、クラスタシステムと呼ばれるものが知られている。このようなクラスタシステムでは、負荷分散等を専用のロードバランサが行っている。このロードバランサは、負荷分散等を行う計算機とは別にネットワークに接続され、各計算機の負荷情報等を一元管理し、クライアントからの処理（業務）要求を受け付けている。そして、ロードバランサは、各計算機に処理（業務運用）の実行を振り分けることによって、負荷分散を行うようになっている。そのため、このようなクラスタシステム全体の性能は、ロードバランサに依存することから、ロードバランサを設けずに負荷分散を図ろうとするシステムも提案されてきている（例えば特許文献１〜５等参照）。

特許文献１では、計算機は接続要求を受けてから他の計算機へ問い合わせて応答に応じて負荷分散を行うようになっている。特許文献２では、計算機は自身の負荷が高くなってから他の計算機に問い合わせて応答に応じて負荷分散を行うようになっている。特許文献３では、計算機は、他の各計算機の状態情報を含めたテーブルをいずれの他の計算機から取得するかを設定しておき、順番に状態情報を伝達させて負荷分散を行うようになっている。特許文献４では、計算機はネットワーク上の他の計算機と共有する外部記憶装置に負荷情報を一定時間ごとに格納していき、その都度参照することで負荷分散を行うようになっている。特許文献５では、二重系システムの系切り替えにおいて、系切り替え制御手段において運用系の系切り替え要求レベルと待機系の系切り替え受付レベルを比較して、待機系の方が健全度が高い場合は待機系に切り替え、運用系の方が健全度が高い場合は運用系を再起動して復旧を行うようになっている。

特開２００４−４６４４２号公報特開２００２−２７８８２３号公報特開２００２−３１２１９９号公報特開平１０−７８９３７号公報特開平５−３１３９３２号公報

しかし、従来のように、計算機が接続要求を受けたとき（特許文献１）や自身の負荷が高くなったとき（特許文献２）に他の計算機に問い合わせているのでは、端末等からの業務等の処理要求の処理の応答時間がかかってしまう。また、計算機があらかじめ設定された順番に状態情報を伝達させる（特許文献３）のでは、リング状に伝達されるため伝達時間が掛かってタイムラグが生じるため、全ての計算機同士が共通の情報を共有しているとは言えず、適正に負荷分散を行えない。また、計算機が外部記憶装置で情報を共有している（特許文献４）のでは、外部記憶装置に掛かる負担が大きくロードバランサと同一であり、外部記憶装置が故障したときにはネットワーク全体に影響を与えてしまう。さらに、運用系と待機系との計算機の切り替えが、専用の系切り替え制御手段により行われている（特許文献５）のでは、実質的にロードバランサを設けているのと変わりがない。

そこで、本発明は、ロードバランサ等の専用のハードウェアを用意せずに、ネットワーク上の計算機を自律的に負荷分散を行わせて、処理要求に速やかに応答し、適正なかつ故障に強い負荷分散を行えるようにすることを目的とする。

そこで、本発明は、任意のネットワークに接続した複数の計算機間で分散処理を行うために、各計算機の各記憶装置には各計算機の識別情報とネットワーク上のアドレスとを関連付けてあらかじめ登録しておき、各計算機の各演算装置は、自らの運用状態を取得して、各通信装置によりネットワークを介してアドレス先の他の各計算機へ自らの運用情報として送信すると共に、各通信装置によりネットワークを介して他の各計算機から各運用情報を受信して、各計算機間で共通の各運用情報を各記憶装置に保存することとし、一の計算機の演算装置は、処理要求を受け付けたときに自らの記憶装置を参照して、各計算機の各運用情報に基づいて処理要求を他の計算機に割り振って、分散処理を行うようにした。

したがって、本発明によれば、ロードバランサ等の専用のハードウェアを用意せずに、ネットワーク上の計算機を自律的に負荷分散を行わせることができるため、処理要求に速やかに応答し、適正なかつ故障に強い負荷分散を行えるという効果が得られる。

以下、本発明の実施の形態について図面を参照して説明する。
最初に、図１を参照して、実施の形態の計算機システムのネットワーク構成の一例を説明する。この計算機システムは、LAN（Local Area Network）やインターネット等のネットワーク201と、このネットワーク201に接続され、業務運用を実行する複数の計算機100とからなるクラスタシステム200を備えている。また、このクラスタシステム200のネットワーク201には、複数のクライアント202が接続されている。なお、ここでは、クライアント202が、ネットワーク201に直接接続される場合を示しているが、ファイヤウォールサーバやルータ等の機器を介してネットワーク201に接続していてもよい。

計算機100やクライアント202（両者区別しないときは「計算機100等」という）は、一般的なコンピュータであり、図示しない中央演算装置（CPU（Central Processing Unit））（単に演算装置ともいう）や主記憶装置（単に記憶装置ともいう）や補助記憶装置（単に記憶装置ともいう）等を備えている。計算機100等は、CPUが、補助記憶装置に格納しているOS（Operating System）と各種アプリケーションプログラムとを主記憶装置にローディングさせて順に実行して、動作する。特に、計算機100では、後記するように、本発明に特有の分散処理プログラム（運用情報収集プログラムや診断プログラム等を含むものとする）や業務プログラム等との各種アプリケーションプログラムを実行する。なお、計算機100やクライアント202では、ＣＰＵがＴＣＰ／ＩＰ（Transmission Control Protocol Internet Protocol ））を実行して、データの送受信の信頼性を確保している。

分散処理プログラムは、運用情報プログラムにより収集された運用情報を基に、業務運用の実行が各計算機100に分散するように、計算機100ごとに自律的に動作する。運用情報収集プログラムは、クラスタシステム200に属する計算機100の運用情報を収集する。診断プログラムは、計算機100内の故障を識別し、つきとめるための故障診断を行うものである。故障診断の他に、機能試験や修理の結果の正当性確認のためにも用いられる。また、業務プログラムは、クライアント202や他の計算機100からの業務要求に従って業務の運用を実行する。

ここでは、運用情報は、その詳細を後記するように、クラスタシステム200に属する計算機100のRAS（Reliability（信頼性）、Availability（可用性）、Serviceability（保守性））情報とする。なお、RAS情報以外の情報であってもよい。例えば、業務要求を優先するクライアント202を識別する識別情報を、その優先登録を行った計算機100が、他の計算機100に送るようにしてもよい。この場合、優先登録されたクライアント202からの業務を優先させることとする。その他、計算機100のCPUの処理速度や主記憶装置の残容量等のハードウェア情報を含めてもよい。

なお、主記憶装置は、RAM（Random Access Memory）である。補助記憶装置は、HD（Hard Disk）やCD-ROM（Compact Disc Read Only Memory）等のメディアのドライブである。また、補助記憶装置は、計算機100等ごとに備えていなくても、任意の計算機100等のコンピュータに一括して備えていてもよい。また、補助記憶装置は、SAN（Storage Area Network）に接続されたRAID（Redundant Arrays of Independent (Inexpensive) Disks）構成により単一の仮想的な記憶装置で構築されたものであってもよい。また、計算機100やクライアント202には、ROM（Read Only Memory）が備えられ、さらに、I/O（Input Output）や各種デバイスが備えられている。

この実施の形態中では、補助記憶装置は、ネットワーク201上で各計算機100に共有される１台の機器とする。このとき、CPUは、計算機100を立ち上げたときに、分散処理プログラムと、遂行可能な業務として設定された業務プログラムとを補助記憶装置から主記憶装置にローディングを行うようにしておく。なお、業務プログラムは、必要なときにその都度ローディングが行われるようにしてもよい。また、計算機100ごとに異なる業務が設定されている場合には、計算機100ごとに異なる業務プログラムのローディングを行うこととする。なお、各計算機100への業務の設定は、クラスタシステム200の管理者等によりその都度行われることとする。

前記構成の計算機システムでは、後記するように、各計算機100が、自身のRAS情報を取得して他の各計算機100に送信し、他の各計算機100からのRAS情報を受信して自身のRAS情報と共に主記憶装置（又は自身に直接接続する補助記憶装置）に保存し、クライアント200からの業務要求を受け付けたときに、自らの主記憶装置のRAS情報を参照して、負荷分散を行うこととしている。

また、ここでは、計算機100は、クラスタシステム200に属する他の計算機100の全てのRAS情報を収集する場合を説明する。しかしながらこれに限らず、例えば、クラスタシステム200に属する計算機100を複数のグループに分け、グループごとにRAS情報を収集して共有し、分散処理を行うようにしてもよい。この場合、グループに属する計算機100の台数は、２台以上であればよい。

また、各計算機100は、全ての計算機100のRAS情報を収集する場合には、自らのRAS情報を適宜ブロードキャストにより送信すればよい。また、各計算機100は、グループごとにRAS情報を共有する場合には、マルチキャストによりグループごとにRAS情報を適宜送信するようにすればよい。特に、２台の計算機100でグループを形成する場合には、ユニキャストにより互いのRAS情報を送信して共有するようにすればよい。また、グループ分けは、例えば、遂行可能業務ごとに分けるようにしてもよい。また、１台の計算機100が複数のグループに属している場合に、ほぼ同時刻に異なるグループから同一又は異なる業務プログラムの業務要求がきたときには、いずれのグループの業務要求を優先させるかをあらかじめ設定しておくのが好ましい。

また、この実施の形態では、計算機100は一のクライアント202から業務要求を受けた場合に、クラスタシステム200上のいずれか一つの計算機202に処理を行わせることとするが、複数の計算機202に一つの処理を分割して分散させるようにしてもよい。

また、計算機100は、ブロードキャストでRAS情報を受信した場合、送信元の他の計算機100に対してユニキャストにより受信確認を応答するようにしてもよい。また、RAS情報を送信した計算機100は、所定時間経過後に応答の無かった他の計算機100を故障と判断するようにしてもよい。この場合、対象の計算機100に対して再度確認要求を送信後、所定時間経過後までに応答がなかったときに故障と判断するようにしてもよい。また、故障と判断したときには、他の計算機100に対して、対象の計算機100が故障の可能性がある旨をブロードキャストにより送信するようにしてもよい。

ところで、この実施の形態では、RAS情報等の運用情報を一括管理し、各計算機100に対して業務の分散を行わないため、従来のようにロードバランサを必要としていないが、クラスタシステム200内の計算機100のRAS情報を管理し、各計算機100からユニキャストによりRAS情報を収集し、クラスタシステム200内の各計算機100に共通のRAS情報をブロードキャストにより送信するようなハードウェアを設けてもよい。このようにしても、各計算機100自身が、自身以外の計算機100のRAS情報を取得できる。

なお、計算機100は、自身のRAS情報を取得するために、処理時間等を計測するタイマ、電源監視、CPU等の温度監視、外部リセットの受信やリセットの発生、割り込み発生等を計測する手段を備えることとする。
また、計算機100は、クライアント202からの業務要求の送信の同期には３秒程度掛かり、他計算機100からのRAS情報のブロードキャストの同期には１秒程度掛かる。

次に、図２を参照して、実施の形態の計算機の機能構成の概略を説明する。この計算機100は、クラスタシステム200（図１参照）内の計算機100同士で共有している共有ディスク125に接続している。この共有ディスク125には、計算機100上で実行する業務プログラム101等の各種アプリケーションプログラムが格納されている。つまり、この共有ディスクは、ネットワーク201上の前記した補助記憶装置に該当する。そして、クラスタシステム200（図１参照）での業務は、各計算機100が業務プログラム101を共有ディスク125から読み出して図示しない主記憶装置にローディングして順に実行することにより実現する。なお、共有ディスク125は、ネットワーク201に接続しているものとするが、ネットワーク201とは別のSAN等に接続していてもよい。

この計算機100は、CPUが主記憶装置にローディングした図示しない運用情報収集プログラムを実行することにより、ホスト名取得手段108と、稼動状態取得手段109と、遂行中業務取得手段110と、業務負荷取得手段111と、遂行可能業務取得手段112と、RAS情報収集手段113として機能するようになっている。また、この計算機100は、RAS情報送信手段（通信装置）114と、RAS情報受信手段（通信装置）115と、RAS情報保存手段130として機能するようになっている。

ホスト名取得手段108は、計算機100を識別する識別情報としてのホスト名103を取得する。稼動状態取得手段109は、計算機100の稼動状態104を取得する。遂行中業務取得手段110は、計算機100が遂行している遂行中業務105を取得する。業務負荷取得手段111は、計算機100の業務負荷106を取得する。遂行可能業務取得手段112は、計算機100の遂行できる遂行可能業務107を取得する。RAS情報収集手段113は、ホスト名取得手段108と、稼動状態取得手段109と、遂行中業務取得手段110と、業務負荷取得手段111と、遂行可能業務取得手段112とを用いて、RAS情報102を収集する。RAS情報保存手段130は、収集したRAS情報102を記憶装置に保存する。RAS情報送信手段114は、他の計算機100に向けて自身のRAS情報102を送信する。また、RAS情報受信手段115は、他の計算機100から送信されてくるRAS情報102を受信する。

また、この計算機100は、図示しないCPUが図示しない主記憶装置にローディングした図示しない分散処理プログラムを実行することにより、業務要求受信手段116と、業務負荷分散計算機判別手段117と、業務要求転送手段118として機能するようになっている。業務要求受信手段116は、ネットワーク201上のクライアント202等から計算機100に送信された業務要求を受信する。業務負荷分散計算機判別手段117は、業務要求受信手段116で受信した業務要求に基づいてRAS情報102を参照してクラスタシステム200内で一番要求業務負荷の低い計算機100を判別する。業務要求転送手段118は、業務負荷分散計算機判別手段117にて判別したシステム内の計算機100へ業務要求を転送する。

また、この計算機100は、図示しないCPUが図示しない主記憶装置にローディングした図示しない分散処理プログラムを実行することにより、異常検知手段119と、業務引継ぎ計算機判別手段120と、業務引継ぎ要求送信手段121と、業務引継ぎ要求受信手段122と、RAS情報監視手段123として機能するようになっている。これらの手段（119〜123）は、後記するフェイルオーバでの処理であるため、後記することとする。

また、この計算機100は、業務プログラム起動手段124として機能することにより、図示しないCPUが、共有ディスク125（補助記憶装置）から図示しない主記憶装置に業務プログラム101をローディングして起動して業務処理を実行させるようになっている。

また、この計算機100は、図示しない主記憶装置に、自身（自計算機100ともいう）及び他の計算機100（他計算機100ともいう）のRAS情報102を保存している。ここでは、RAS情報102には、ホスト名103と、稼動状態104と、遂行中業務105と、業務負荷106と、遂行可能業務107とが含まれている。RAS情報送信手段114は、RAS情報収集手段113を用いて収集した自計算機100のRAS情報102をネットワーク201経由で他計算機100に送信する。RAS情報受信手段115は、クラスタシステム200内の他計算機100から送信されたRAS情報102を受信し、RAS情報保存手段130に渡す。RAS情報保存手段130は、自計算機100のRAS情報102とRAS情報受信手段115で受信した他計算機100のRAS情報102とを合わせて記憶装置に保存する。なお、ここでは、自計算機100及び他計算機100の各RAS情報102を合わせて保存することとするが、別々に保存しておいてもよい。

次に、図３を参照して、RAS情報についてさらに詳細に説明する。図３（Ａ）に、RAS情報102の内容と各内容の説明とを対応付けた図を示し、図３（Ｂ）に稼動状態を区分したテーブルを示し、図３（Ｃ）に各計算機が共有するRAS情報のテーブルを示している。
図３（Ａ）では、テーブル126としてRAS情報102（図２参照）に含まれる項目ごとに説明を付記してRAS情報102の内容が表されている。ホスト名103は、クラスタシステム200上で計算機100を一意に識別する各計算機100の識別情報であり、他計算機100との通信を行うときの識別子として用いられる。

稼動状態104は、各計算機100の稼動状態を区別する値を表している。例えば、その値は、「０」で業務遂行可能な状態を示し、「１〜（N-1）」で一部機能が縮退した状態を示し、「N」で業務遂行が不可な状態を示すこととする。この稼動状態104は、計算機100の健全性を表すものである。なお、健全性とは、業務遂行可能か否かを値で示したものである。稼動状態104は、計算機100上で業務プログラムが動作しているか否かや、業務プログラムの稼動時間により求められる。

遂行中業務105は、現在遂行中の業務を識別する識別情報を表している。例えば、業務A,B,Cを区別するような各識別情報を示すこととする。この遂行中業務105は、計算機100が遂行中の業務を示す。遂行中業務105は、業務プログラムの名称及び業務プログラムの格納パスによって求められる。

業務負荷106は、各計算機100の業務負荷の状態を表しており、計算機100で遂行中の業務が計算機100にどの程度負荷を掛けているか示している。例えば、CPUや補助記憶装置等の入出力デバイスの稼働率・負荷率・使用率等で求められる。遂行可能業務107は、各計算機100が遂行可能な業務の識別情報を表している。

図３（Ｂ）では、テーブル127として、稼動状態104を示す区分ごとに説明を定義づけてある。このテーブル127は、各計算機100が、主記憶装置にロードされ、CPUからの呼び出しで参照される。なお、定義されている値は、前記したとおりである。但し、一部機能縮退を示す値は、「N-M」（N=2,3,…、M=1,2,…、N>M）としているが、テーブル126の「１〜（N-1）」と同一内容を表している。

図３（Ｃ）では、テーブル128として、（ホスト名，移動状態，遂行中業務，業務負荷，遂行可能業務）の組で計算機100ごとのRAS情報102（図２参照）を示している。３台の計算機100の場合には、例えば、（host1，0，A，90％，A、B）（host2，0，A，10％，A）（host3，1，B、C，0％，B、C）である。なお、A,B,C・・・は、業務A、業務B、業務C・・・の業務の種類を表すこととする。

なお、この計算機100は、図示しない主記憶装置及び／又は補助記憶装置に、自身（自計算機100ともいう）及び他の計算機100（他計算機100ともいう）のネットワーク201上のアドレスを保存している。各アドレスは、計算機100をネットワーク201に接続したときに登録すればよい。

次に、図４を参照して、この実施の形態のRAS情報収集手段113の処理を説明する。（Ａ）に示すRAS情報収集手段113は、（Ｂ）に示すホスト名取得手段108の計算機100のホスト名取得処理、（Ｃ）に示す稼動状態取得手段109の計算機100の稼動状態取得処理、（Ｄ）に示す遂行中業務取得手段110の計算機100の遂行中業務取得処理、（Ｅ）に示す業務負荷取得手段111の計算機100の業務負荷取得処理、及び、（Ｆ）に示す遂行可能業務取得手段112の計算機100の遂行可能業務取得処理を実行させる。なお、（Ｂ）〜（Ｆ）の順番は、この順番に限らない。

次に、図５を参照して、RAS情報の送受信処理について説明する。RAS情報送信手段114は、自計算機100のRAS情報102（図２参照）がRAS情報収集手段113（図４参照）により収集されると、自計算機100のRAS情報102をクラスタシステム200内の他計算機100にブロードキャストする（501）。一方、RAS情報受信手段115は、他計算機100からブロードキャストされてくる他計算機100のRAS情報102を受信すると（502）、自計算機100と他計算機100とのRAS情報102をRAS情報保存手段130により記憶装置に合わせて保存させる（503）。以上により、クラスタシステム200内の各計算機100が、クラスタシステム200内の各計算機100のRAS情報102を保存することとなる。なお、RAS情報102をブロードキャストするタイミングは、周期的あるいは自計算機100の負荷情報が変化したときなどに適宜行うこととしてもよい。この場合、周期的にRAS情報102の収集・保存が繰り返して行われるため、一定時間内のRAS情報102を各計算機100が保存し合うことになる。また、クライアント202からの業務要求の送信が約３秒おきにある場合には、RAS情報のブロードキャストを１秒程度で行うように同期をとるのが好ましい。

次に、図６を参照して、この実施の形態の各計算機100のRAS情報102の収集処理の概要について説明する。なお、ここでは、３台の計算機100がネットワーク201に接続され、その３台の計算機100が共通のRAS情報102を保存する場合を説明する。以下、この図６の説明において、３台の計算機100を計算機A,B,Cと呼ぶこととする。また、このとき、計算機AのみのRAS情報102をRAS情報A、計算機BのみのRAS情報102をRAS情報B、計算機CのみのRAS情報102をRAS情報Cとする。

計算機AがRAS情報Aをブロードキャストする場合を説明する。この場合、計算機Aでは、RAS情報収集手段113がRAS情報Aを収集すると、RAS情報送信手段114によってRAS情報Aをネットワーク201上の計算機B,Cにブロードキャストする。一方、計算機Bでは、RAS情報受信手段115が計算機AのRAS情報Aを受信し、自身のRAS情報BとRAS情報Aとを合わせてRAS情報102として記憶装置に保存する。なお、計算機Cについても同様にRAS情報AとRAS情報Cとを合わせてRAS情報102として記憶装置に保存する。また、計算機B,CがRAS情報B,Cをブロードキャストする場合も計算機B,C,Aにおいて同様にRAS情報102として記憶装置に保存される。このように計算機A,B,CがそれぞれRAS情報A,B,Cをネットワーク201上にブロードキャストすることで、各計算機A,B,Cがネットワーク201上の全計算機A,B,CのRAS情報A,B,Cを含む共通のRAS情報102を保存することとなる。

次に、図７を参照して、この実施の形態の業務要求の送受信処理の概要について説明する。クライアント202がいずれかの計算機100にアクセスして業務要求を送信すると（701）、アクセス先の計算機100の業務要求受信手段116が業務要求を受信する（703）。なお、アクセス先の計算機100の業務要求受信手段116が業務要求を受信した後に分散処理を行って、業務要求を分散すると判断した場合には、業務要求転送手段118が、転送先の計算機100に対して業務要求を転送し（702)、転送先の計算機100の業務要求受信手段116が受信することとなる（703）。

ここで、クライアント202には、特定の業務の受付先の計算機100のアドレスが公開されていることとする。例えば、図６に示した計算機A,B,Cでは、計算機Aが業務Aの受付先とし、計算機Bが業務Bの受付先とし、計算機Cが業務Cの受付先とするようにクライアント202に公開されていることとする。つまり、クライアント202は、業務Aの要求を行う場合には、計算機Aにアクセスし、業務要求を送信し、計算機Aが遂行可能業務107（図２参照）を参照して負荷分散処理を行うこととなる。この場合、計算機Aは、クライアント202に対してアクセス先が移動することを送信することが好ましい。

なお、クライアント202には、例えばクラスタシステム200のネットワーク201に接続された図示しないルータ機能の計算機のアドレスを公開しておき、そのルータに送信された業務要求が適宜いずれかの計算機100に業務要求を一旦受信し、負荷分散処理とは関係なく、無作為に又は順番に計算機100に業務要求を転送するようにしてもよい。

次に、図８を参照して、負荷分散処理の概要について説明する。なお、ここでも、計算機100を計算機A,B…と呼んで区別して説明する。
まず、クライアント202が計算機Aへ業務要求を送信すると（601）、計算機Aでは、業務要求受信手段116が業務要求を受信する。そして、計算機Aは、業務負荷分散計算機判別手段117（以下判別手段117ともいう）の処理を実行する（図７参照）。判別手段117が記憶装置に保存しているRAS情報102を参照して、自身（自計算機A）が一番負荷が低いと判別した場合には、共有ディスク125（図２参照）から読み出した対象の業務プログラム101を実行して業務を処理し、クライアント202に業務応答を行う（603）。クライアント202では、その業務応答を受信して（605）、処理を終了する。

一方、計算機Aでは、判別手段117が自身（自計算機A）より負荷が低い計算機B等があると判別した場合には、業務要求転送手段118の処理に移行し、業務要求転送手段118により計算機Bに対して業務要求を転送させる。そして、計算機Bでは、業務要求受信手段116が計算機Aから転送される業務要求を受信すると、判別手段117の処理を実行する。この判別手段117の処理は、クライアント202から直接業務要求を受け付けた計算機Aの場合と同様である。つまり、各計算機100は、業務要求を受信した場合には、自身が一番負荷が低いか否かにより自身が業務要求を実行するか否かを判断している。なお、クライアント202は、計算機Bから業務応答（604）を受信すると（605）、以降は計算機Bと業務やりとりを行うこととなる。また、計算機Bより負荷が低い計算機がある場合は、さらに業務要求転送手段118により他の計算機へ業務要求を転送する（606）。業務要求転送のループを避けるには転送回数の制限等が有効である。

次に、図９を参照して、業務負荷分散計算機判別手段117の処理についてさらに説明する。判別手段117は、まず、計算機Aで受信した業務要求がどの業務要求であるかを判別する（801）。続いて、判別手段117は要求業務遂行中の計算機100があるかを判別する（802）。判別手段117は、要求業務遂行中の計算機100がある場合（802,Yes）には、負荷は自分（自計算機100）より低いかを判別する（803）。そして、判別手段117は、低いと判別した場合（803,Yes）には、業務要求転送手段118の処理に移行させる。

一方、判別手段117は、要求業務遂行中の計算機100がない場合（802,No）には、業務プログラム起動手段124の処理を実行させて（図１０参照）、業務処理を実行させる。そして、前記したように、RAS情報収集手段113（図２参照）によりそのときの稼動状態104、遂行中業務105、業務負荷106を含むRAS情報102が収集されると、RAS情報送信手段114によりRAS情報102を送信させ、業務応答処理（604）へと移行する。

次に、図１０を参照して、業務プログラム起動手段124の処理について説明する。なお、図９を適宜参照する。前記したように、業務プログラム起動手段124は、判別手段117により要求業務遂行中の計算機100がないと判別されると（802,No）、まず起動業務を判別する（1301）。そして、業務プログラム起動手段124は、共有ディスク125から業務プログラム101をローディングして実行し（1302）、RAS情報送信手段114によりRAS情報102をブロードキャストさせ、自らがクライアント202へ業務応答を返す（604）。

以上説明した実施の形態の処理では、専用のロードバランサを設けずに、計算機100が自律的に業務遂行可否を判断することでクラスタシステム200の可用性を向上することが可能である。

次に、前記した構成・処理をフェイルオーバに応用した場合の構成・処理を説明する。フェイルオーバは、業務遂行中の運用系計算機がシステムダウンすると、待機系計算機が業務を引き継いで稼動する仕組みである。このフェイルオーバは、図２に示した異常検知手段119と、業務引継ぎ計算機判別手段120と、業務引継ぎ要求送信手段121と、業務引継ぎ要求受信手段122と、RAS情報監視手段123とが行う処理である。このフェイルオーバでは、前記したように、各運用系計算機及び各待機系計算機が、それぞれのRAS情報102を収集して記憶装置に保存していることとする。

図１１に、この実施の形態のフェイルオーバの概要を説明する図を示す。ここで、計算機Aを運用系計算機とし、計算機Bを待機系計算機として説明する。
計算機Aでは、異常検知手段119を実行させて、業務遂行不可となる異常が検知されると、業務引継ぎ計算機判別手段120により引継ぎ先の計算機B等を判別させる。そして、計算機Aでは、判別された計算機Bに対して業務引継ぎ要求を業務引継ぎ要求送信手段121により送信し、再起動させる（901）。この再起動は、例えば、計算機A自身が業務引継ぎ要求の送信後自動的に行うようにしても、計算機Aのオペレータ等に警報音等で報知して、オペレータ等の操作により行うようにしてもよい。

一方、計算機Bでは、業務引継ぎ要求受信手段122により計算機Aからの業務引継ぎ要求を受信すると、計算機Aの業務の引継ぎを行う（902）。なお、計算機Bでは、業務引継ぎ要求が含まれている計算機AのRAS情報Aを基にして業務を引継ぐようにしても、自身が記憶装置に保存しているRAS情報102を参照してRAS情報Aを取得して、業務を引継ぐようにしてもよい。

次に、図１２に従って、異常検知手段の処理及び業務引継ぎ要求の送受信処理の概要について、図１１を適宜参照しつつ説明する。図１２（Ａ）に異常検知手段の処理について示す。図１２（Ｂ）に業務引継ぎ要求受信手段及び業務引継ぎ要求送信手段の処理について示す。

図１２（Ａ）に示すように、異常検知手段119は、計算機Aが業務遂行不能となるような異常を検知すると、所定の判断基準を基にして業務遂行不能か否かを判断し（1004）、不能である場合（1004,Yes）、業務引継ぎ計算機判別手段120の処理を実行させる。また、異常検知手段119は、不能でないと判断すると（1004,No）、そのまま遂行中の業務を継続させる。ところで、所定の判断基準との比較は、例えば、遂行中業務の同一処理がループしている場合に、そのときのループ回数やループ時間を計測し、あらかじめ設定しておいた所定回数や所定時間と比較して、遂行中業務のループ処理を異常として検出するようにしてもよい。

図１２（Ｂ）に示すように、計算機Aの業務引継ぎ要求送信手段121は、業務引継ぎ計算機判別手段120により判別された計算機Bに対して、業務引継ぎ要求を送信する（1003）。計算機Bでは、計算機Aからの業務引継ぎ要求を受信すると（1001）、計算機Aの業務を引継いで実行する（1002）。

次に、図１３を参照して、業務引継ぎ計算機判別手段120（以下判別手段120ともいう）の処理について説明する。
判別手段120は、引継ぎ要求を受信すると、まず引継ぎ業務を判別する（1101）。続いて、判別手段120は、全引継ぎ業務を遂行中の計算機100があるかを判別する（1102）。判別手段120は、該当する計算機がある場合（1102,Yes）は、該当計算機B等が複数あるかどうかを判別する（1104）。そして、判別手段120は、該当計算機が複数ある場合（1104,Yes）は一番業務負荷の低い計算機を判別する（1105）。そして、判別手段120は、該当計算機Bが複数なくて１台の計算機Bのとき（1104,No）にはその計算機Bに対して、また、一番業務負荷の低い計算機Bとして判別されたときにはその計算機Bに対して、業務引継ぎ要求送信手段121により業務引継ぎ要求を送信させる。

その後、前記したように、業務引継ぎ要求を送信した計算機Aは再起動する（図１１の901）。したがって、業務引継ぎ要求受信手段122により業務引継ぎ要求を受信した計算機Bは業務を引き継いで運用系となる（図１１の902）。

一方、判別手段120は、全引継ぎ業務遂行中の計算機100がない場合（1102,No）は、業務を分割して各業務を引き継げる計算機100を判別し（1103）、業務引継ぎ要求送信手段121により、各計算機100へ業務引継ぎ要求を送信させる。なお、各業務引継ぎ計算機100の判断方法は１台で業務引継ぎを行うときと同様である。また、もし、ステップ1103に至っても業務引継ぎ可能計算機がない場合はシステムダウンとする。この場合は、計算機Aが再起動して再び運用系として稼動することになる。

なお、ここでは計算機Aがダウンしてから待機系の計算機Bを判別する流れで説明したが、あらかじめ稼動中に待機系計算機を判別しておいてもよい。
また、以上の処理は、計算機Aが自身で異常を検知して系切り替えを行う場合であるが、計算機Aが突然停止する場合も考えられる。その場合には、計算機AのRAS情報Aが一定時間更新されないことを監視する計算機100が、計算機Aがシステムダウンしたと判断して前記の方法で業務引継ぎ計算機を判別し業務引継ぎさせることが可能である。

ところで、そのようにRAS情報102を監視する計算機100は、例えば、計算機Aが予め判別した待機系計算機Bを計算機Aの監視計算機として定義しておくようにしてもよいが、その台数は、少なくとも１台が行えるように設定しておけばよい。特に、この実施の形態では、RAS情報監視手段123を全ての計算機100に備えているため、全ての計算機100が一定時間RAS情報102が更新されないことを監視することができるようになっている。なお、全ての計算機100が監視する場合には、監視結果を他の全ての計算機100に報知することが好ましい。

次に、図１４を参照して、RAS情報監視手段123の処理について説明する。RAS情報監視手段123は、RAS情報102において各計算機100のRAS情報102が更新された時間を記録する（1201）。そして、RAS情報監視手段123は、一定時間各計算機100の各RAS情報102の更新がない場合（1202,Yes）、RAS情報102の遂行中業務105よりその計算機100の業務引継ぎ情報（最新のRAS情報102を含めてもよい）を取得する（1203）。そして、RAS情報監視手段123は、業務引継ぎ計算機判別手段120により業務引継ぎを行わせる。一方、ステップ1202において、RAS情報監視手段123は、RAS情報の更新が有れば（1202,No）、その更新時点からステップ1201,1202の処理を繰り返すことになる。

以上説明したように、各計算機100が自律的に業務引継ぎ相手及び引継ぎ可否を判断し、また業務分散の判断をすることで、クラスタシステム200の可用性を向上することが可能である。

なお、この実施の形態は、前記した範囲を逸脱しない範囲で変更してもよい。以下に、他の処理として記載する。
[他の処理１]
計算機の演算装置が自らの運用状態を取得するタイミングは、所定時間ごとに周期的に行うようにしても、運用状態が変化したときに行うようにしてもよい。計算機の演算装置が通信装置によりネットワークを介して他の各計算機に自らの運用情報を周期的に送信する場合には、各計算機が周期的に共通の運用情報を共有できるようになる。特に、統計的に各計算機の運用状態が大きく異なる場合には、運用状態の異なる時間帯ごとに周期を変えることで時間帯によらずに適正に分散処理を行える。また、各計算機の各演算装置が自らの運用状態に変化が生じたときに運用情報を更新し、各通信装置により前記ネットワークを介して他の各計算機に自らの変更後の運用情報を送信する場合には、各計算機が運用情報の変化に対応して共通の運用情報をリアルタイムに共有できるようになる。なお、各計算機へ自らの運用情報として送信するタイミングは、運用情報を取得したときに続けて行うようにしても、その取得とは別に所定時間ごとに行うようにしてもよい。

[他の処理２]
計算機の演算装置は、記憶装置を参照して、各計算機の各運用情報に基づいて処理要求の転送先を決定する場合に、ネットワークに接続した他の計算機の運用情報と自らの運用情報とを比較し、運用情報の比較の結果に応じて処理要求による処理を実行する計算機の識別情報を特定し、特定した計算機がネットワークに接続する他の計算機の場合には、該当する他の計算機の識別情報を基に記憶装置からアドレスを参照し、通信装置により他の計算機に対して処理要求を転送することが、好ましい。

[他の処理３]
計算機の演算装置は、通信装置によりネットワークを介して処理要求を受け付けたときに、分散処理を行うものとして記憶装置に識別情報及びアドレスを登録してある他の計算機か否かを判定し、登録されていない計算機からの処理要求である場合には、記憶装置から処理要求に対応するアプリケーションプログラムを読み出して実行するようにしてもよい。

[他の処理４]
計算機の演算装置は、通信装置によりネットワークを介して受信した他の各計算機の運用情報を、自らの運用情報と合わせて各記憶装置に保存するようにしてもよい。これにより、各計算機の各演算装置は、処理要求を受け付けたときに、速やかに、運用情報を参照して、対応する各計算機を特定できるようになる。

[他の処理５]
計算機の演算装置は、運用情報としてRAS情報を各記憶装置に保存するようにしてもよい。なお、RAS情報には、ネットワーク上で各計算機を一意に識別するホスト名等の識別情報を含むようにしてもよい。また、RAS情報には、各計算機の各演算装置が業務プログラム等の対象のアプリケーションプログラムを実行しているか否かの情報を含む稼動状態とするようにしてもよい。また、これと共に、各計算機の各演算装置が、業務プログラム等の対象のアプリケーションプログラムの稼働時間を含む稼動状態とするようにしてもよい。また、RAS情報には、業務プログラム等の対象のアプリケーションプログラムの名称及びそのアプリケーションプログラムの格納場所に基づいて、各計算機の各演算装置が遂行中の業務の識別情報を取得するようにしてもよい。また、RAS情報には、各計算機の各演算装置が、実行中の業務負荷を取得するようにしてもよい。業務負荷は、例えば、負荷率で表すようにしてもよい。また、RAS情報としては、ホスト名と稼動状態と遂行中業務と業務負荷と遂行可能業務とを全て含むことが好ましい。

[他の処理６]
計算機の演算装置は、アプリケーションプログラムを読み出して実行する前に、記憶装置を参照して、ネットワークに接続した他の計算機の運用情報と自らの運用情報とを比較し、運用情報の比較の結果に応じて処理要求による処理を実行する計算機を特定し、特定した計算機が自らの場合には、記憶装置から処理要求に対応するアプリケーションプログラムを読み出して実行するようにしてもよい。

[他の処理７]
計算機は、さらにユーザインタフェースを備え、演算装置が、ユーザインタフェースを介して処理要求を受け付けたときに、記憶装置を参照して、ネットワークに接続した他の計算機の運用情報と自らの運用情報とを比較し、運用情報の比較の結果に応じて処理要求による処理を実行する計算機を特定するようにしてもよい。

[他の処理８]
計算機の演算装置は、特定した計算機が自らの場合には、記憶装置から処理要求に対応するアプリケーションプログラムを読み出して実行するようにしてもよい。

[他の処理９]
計算機の演算装置は、自らの運用状態に変更があった場合には、変更後の運用状態の運用情報に記憶装置の登録を更新すると共に、変更後の運用情報を、通信装置によりネットワークを介して他の各計算機に送信し、通信装置によりネットワークを介して受信した他の計算機の変更後の運用情報に記憶装置の登録を更新することとする。
これにより、計算機は、自らの運用状態に変更があった場合に、変更後の運用情報を自らの更新する共に他の計算機に送信するようにしたため、ネットワーク上の対象の計算機同士で運用情報を共有することができる。また、このように、ネットワーク上の計算機同士で同一の運用情報を共有しているため、同一の運用情報を参照して分散処理を同一の手順で行うことにより、いずれの計算機でも同一解を算出することができる。そのため、ネットワーク上であたかもロードバランサが稼動しているかのように、各計算機が自律的に分散処理を行うことができる。

なお、この実施の形態の分散処理は、ネットワーク上の計算機間で負荷を均等に分散する場合に限らず、一部の計算機に特定業務を集中させて割り振るようにしてもよい。特定業務とは、例えば、高いセキュリティ性が要求される決済処理などである。このときのRAS情報は、遂行可能業務により設定すればよい。

ところで、記憶装置の各運用情報の更新状態を監視し、所定数の運用系計算機の各運用情報が所定時間経過しても更新されない場合に、運用系のシステムダウンとして、運用系計算機による処理を待機系計算機に引き継がせるときの「所定数」「所定時間」というのは、複数の運用系計算機にクライアントからのアクセスが集中した場合にシステムダウンする恐れなどを考慮して設定することとすればよい。例えば、運用系計算機として１０台が稼動させている場合に、８台の運用系計算機の運用情報が３０分経過しても更新されないことを残りのうちの１台が判断したときを考える。この場合、２台の運用系計算機ではアクセスが集中したときにシステムダウンすることを回避するのが難しいために、８台の待機系計算機に処理を引き継がせる。この場合、２台の運用系計算機のいずれか一方が、処理の引き継ぎを行うこととなるが、その引き継ぎを行う旨を残りの一方の運用系計算機に報知することとすればよい。なお、このとき、２台の運用系計算機を引き続き処理を運用させることとしてもよい。

実施の形態の計算機システムのネットワーク構成の一例を説明する図である。実施の形態の計算機の機能構成の概略を説明する図である。 RAS情報について説明する図である。実施の形態のRAS情報収集処理の関係を説明する図である。 RAS情報の送受信処理について説明する図である。実施の形態の各計算機のRAS情報の収集処理の概要について説明する図である。実施の形態の業務要求の送受信処理の概要について説明する図である。負荷分散処理の概要について説明する図である。業務負荷分散計算機判別手段の処理についてさらに説明する図である。業務プログラム起動手段の処理について説明する図である。実施の形態のフェイルオーバの概要を説明する図である。異常検知手段の処理及び業務引継ぎ要求の送受信処理の概要について説明する図である。業務引継ぎ計算機判別手段の処理について説明する図である。 RAS情報監視手段の処理について説明する図である。

符号の説明

100 計算機
101 業務プログラム
102 RAS情報
103 ホスト名
104 稼動状態
105 遂行中業務
106 業務負荷
107 遂行可能業務
108 ホスト名取得手段
109 稼動状態取得手段
110 遂行中業務取得手段
111 業務負荷取得手段
112 遂行可能業務取得手段
113 RAS情報収集手段
114 RAS情報送信手段
115 RAS情報受信手段
116 業務要求受信手段
117 業務負荷分散計算機判別手段
118 業務要求転送手段
119 異常検知手段
120 業務引継ぎ計算機判別手段
121 業務引継ぎ要求送信手段
122 業務引継ぎ要求受信手段
123 RAS情報監視手段
124 業務プログラム起動手段
125 共有ディスク
130 RAS情報保存手段
200 クラスタシステム
201 ネットワーク
202 クライアント

Claims

任意のネットワークに接続した複数の計算機間で分散処理を行う計算機システムであって、
前記各計算機は、演算装置と記憶装置と通信装置とを備え、
前記各計算機の前記各記憶装置には、前記各計算機の識別情報と前記ネットワーク上のアドレスとを関連付けてあらかじめ登録しておき、
前記各計算機の前記各演算装置は、自らの運用状態を取得して、前記各通信装置により前記ネットワークを介して前記アドレス先の他の前記各計算機へ自らの運用情報として送信すると共に、前記各通信装置により前記ネットワークを介して他の前記各計算機から各運用情報を受信して、前記各計算機間で共通の各運用情報を前記各記憶装置に保存することとし、
一の前記計算機の前記演算装置は、処理要求を受け付けたときに自らの前記記憶装置を参照して、前記各計算機の各運用情報に基づいて前記処理要求を前記他の計算機に割り振って、分散処理を行うようにしたことを特徴とする計算機システム。
任意のネットワークに接続した複数の計算機間で行う分散処理方法であって、
前記各計算機の各記憶装置には、前記各計算機の識別情報と前記ネットワーク上のアドレスとを関連付けてあらかじめ登録しておき、
前記各計算機の各演算装置が、自らの運用状態を取得して、前記各通信装置により前記ネットワークを介して前記アドレス先の他の前記各計算機へ自らの運用情報として送信すると共に、前記各通信装置により前記ネットワークを介して他の前記各計算機から各運用情報を受信して、前記各計算機間で共通の各運用情報を前記各記憶装置に保存していき、
一の前記計算機の前記演算装置は、処理要求を受け付けたときに自らの前記記憶装置を参照して、前記各計算機の各運用情報に基づいて前記処理要求を前記他の計算機に割り振って、分散処理を行うようにしたことを特徴とする分散処理方法。
任意のネットワークに接続した複数の他の計算機との間で処理を分散する計算機であって、
演算装置と記憶装置と通信装置とを備え、
前記演算装置は、
前記他の計算機の識別情報と前記ネットワーク上のアドレスとを関連付けて前記記憶装置にあらかじめ登録しておき、
自らの運用状態を取得して、前記通信装置により前記ネットワークを介して前記アドレス先の他の前記各計算機へ前記自らの運用情報として送信すると共に、前記通信装置により前記ネットワークを介して他の前記各計算機から各運用情報を受信して、前記各計算機間で共通の各運用情報を前記記憶装置に保存することとし、
処理要求を受け付けたときに自らの前記記憶装置を参照して、前記各計算機の各運用情報に基づいて処理要求を前記他の計算機に前記通信装置により転送して、分散処理を行うようにしたことを特徴とする計算機。
前記演算装置は、前記記憶装置の運用情報を参照して、保存されている運用情報の中で最も処理要求負荷の低い前記計算機の識別情報を探索し、探索した識別情報の前記計算機に対して、前記通信装置により前記ネットワークを介して処理要求を転送するようにしたことを特徴とする請求項３に記載の計算機。
前記演算装置は、前記他の計算機から転送された処理要求を受け付けて、仮に処理を実行した場合に、自身の負荷が前記他の計算機の負荷よりも高くなるか否かを判定し、
自身の負荷が高くなる場合には、前記記憶装置を参照して、前記各計算機の各運用情報に基づいて処理要求を転送元以外の他の計算機に前記通信装置により転送して、分散処理を行うようにしたことを特徴とする請求項３に記載の計算機。
前記演算装置は、
対象の処理を通常運用している前記他の計算機を運用系計算機として識別する運用情報と、また、前記運用系計算機の運用している処理を引き継ぎ可能な待機中の前記他の計算機を待機系計算機として識別する運用情報とを、前記記憶装置に登録しておき、
自身が前記運用系計算機として登録されている場合には、自身の処理遂行異常を検知したときに、前記記憶装置の運用情報を参照して、処理を引き継ぎ可能な待機系計算機を判別し、判別した待機系計算機へ前記通信装置により前記ネットワークを介して処理引き継ぎ要求を送信して、待機系計算機に処理引き継ぎを行わせるようにしたことを特徴とする請求項３に記載の計算機。
前記演算装置は、
対象の処理を通常運用している前記他の計算機を運用系計算機として識別する運用情報と、また、前記運用系計算機の運用している処理を引き継ぎ可能な待機中の前記他の計算機を待機系計算機として識別する運用情報とを、前記記憶装置に登録しておき、
自身が前記待機系計算機として登録されている場合には、前記通信装置によりネットワークを介して前記運用系計算機から処理引き継ぎ要求を受信した場合には、運用系処理遂行異常時の処理引き継ぎとして、対象の処理を運用することを特徴とする請求項３に記載の計算機。
前記演算装置は、
自身が前記運用系計算機として登録されている場合に、前記記憶装置の運用情報を参照して、処理を引き継ぎ可能な待機系計算機の候補が複数存在するときには、処理負荷が最も低い待機系計算機に処理引き継ぎを行わせることを特徴とする請求項６に記載の計算機。
特徴とする請求項６に記載の計算機。
前記演算装置は、
自身が前記運用系計算機として登録されている場合に、前記記憶装置の各運用情報を参照して、処理引き継ぎ可能な前記待機系計算機での処理が不足しているか否かを判定すると共に、処理を引き継がせる１台の前記待機系計算機に高い負荷を与えるか否かを判定し、処理が不足しているか及び／又は高い負荷を与える場合には、複数の前記待機系計算機に対して処理引き継ぎ要求を前記通信装置により前記ネットワークを介して送信して、複数の前記待機系計算機に処理を割り振るようにしたことを特徴とする請求項６に記載の計算機。
前記演算装置は、
前記記憶装置の各運用情報の更新状態を監視し、所定数の前記運用系計算機の各運用情報が所定時間経過しても更新されない場合には、前記運用系計算機による処理を前記待機系計算機に引き継がせることを特徴とする請求項６に記載の計算機。
任意のネットワークに接続した複数の他の計算機との間で処理を分散する計算機に実行させる分散処理プログラムであって、
計算機の演算装置に、
前記他の計算機の識別情報と前記ネットワーク上のアドレスとを関連付けて前記記憶装置にあらかじめ登録させ、
自らの運用状態を取得して、前記通信装置により前記ネットワークを介して前記アドレス先の他の前記各計算機へ前記自らの運用情報として送信すると共に、前記通信装置により前記ネットワークを介して他の前記各計算機から各運用情報を受信して、前記各計算機間で共通の各運用情報を前記記憶装置に保存することとし、
処理要求を受け付けたときに前記記憶装置を参照して、前記各計算機の各運用情報に基づいて処理要求を前記他の計算機に前記通信装置により転送することを実行して、複数の前記他の計算機同士で分散処理を行わせるようにしたことを特徴とする分散処理プログラム。