JP2009128987A - Computer management system, computer management method and computer management control program - Google Patents
Computer management system, computer management method and computer management control program Download PDFInfo
- Publication number
- JP2009128987A JP2009128987A JP2007300386A JP2007300386A JP2009128987A JP 2009128987 A JP2009128987 A JP 2009128987A JP 2007300386 A JP2007300386 A JP 2007300386A JP 2007300386 A JP2007300386 A JP 2007300386A JP 2009128987 A JP2009128987 A JP 2009128987A
- Authority
- JP
- Japan
- Prior art keywords
- computer
- management
- manager
- node
- managed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Hardware Redundancy (AREA)
- Computer And Data Communications (AREA)
Abstract
Description
本発明は、ネットワークに接続された複数の計算機を管理する計算機管理システム、計算機管理方法および計算機管理制御プログラムに係わり、特に管理する側の計算機に障害が発生したときに好適な計算機管理システム、計算機管理方法および計算機管理制御プログラムに関する。 The present invention relates to a computer management system, a computer management method, and a computer management control program for managing a plurality of computers connected to a network. Particularly, a computer management system and a computer suitable for a failure in a managing computer. The present invention relates to a management method and a computer management control program.
多くのパーソナルコンピュータ、サーバあるいはファクシミリ装置、携帯電話機、PDA(Personal Digital Assistants)といったプロセッサを内蔵した機器(以下、単に計算機という。)がインターネットやLAN(Local Area Network)等のネットワークに接続されるようになってきている。これら計算機はネットワークで接続されることによって特定のグループの間でそのうちの1台の計算機が他の計算機を管理するといったことが可能となっている。 Many personal computers, servers or facsimile machines, mobile phones, PDA (Personal Digital Assistants) built-in processors (hereinafter simply referred to as computers) are connected to networks such as the Internet and LAN (Local Area Network). It is becoming. These computers are connected via a network, so that one computer among them can manage other computers among specific groups.
本明細書では、管理する側の計算機をマネージャと呼び、管理される側の計算機をエージェントと呼ぶことにする。たとえば複数のパーソナルコンピュータが1つのグループとしてインターネットによって接続されており、その中の1台あるいは同一のグループに配置された1台のサーバがマネージャであるとする。すると、マネージャはグループ内のその他のパーソナルコンピュータからなるエージェントの監視を行う。そして、その中の1台に障害が発生したような場合に、これをユーザに通知したり、そのパーソナルコンピュータの設定が許せば再起動処理等の適切な処理を行って障害から復旧するための対応を採ることができる。 In this specification, a managing computer is called a manager, and a managed computer is called an agent. For example, it is assumed that a plurality of personal computers are connected as one group via the Internet, and one of them or one server arranged in the same group is a manager. Then, the manager monitors agents composed of other personal computers in the group. And when a failure occurs in one of them, this is notified to the user, or if the setting of the personal computer permits, an appropriate process such as a restart process is performed to recover from the failure Action can be taken.
このような計算機管理システムを採用すると、マネージャにエージェントそれぞれの情報が集中する。したがって、マネージャはシステム全体を容易に把握することができるという利点が生じる。しかしながら、マネージャにシステム管理のための機能が集中すると、マネージャ自身に障害が発生した場合や、ネットワークに障害が発生してマネージャとエージェント間の通信が途絶えたような場合、エージェントを管理するノードが存在しなくなる。この結果として、マネージャにこのような障害が発生すると、計算機管理システム自体の信頼性が著しく低下することになる。 When such a computer management system is adopted, information of each agent is concentrated on the manager. Therefore, the manager can easily grasp the entire system. However, when the functions for system management are concentrated on the manager, if the manager itself fails or if communication between the manager and the agent is interrupted due to a network failure, the node that manages the agent No longer exists. As a result, when such a failure occurs in the manager, the reliability of the computer management system itself is significantly reduced.
そこで、マネージャとなるノードを二重化することが本発明の第1の関連技術として提案されている(たとえば特許文献1参照)。また、本発明の第2の関連技術では、マネージャとなるノードを二重化すると共に、これらのノードの1つに障害が発生したときにはエージェントをマネージャに仕立て常にマネージャのノードが二重化されている状態を維持する提案を行っている(たとえば特許文献2参照)。 Therefore, it has been proposed as a first related technique of the present invention to duplicate a node serving as a manager (see, for example, Patent Document 1). Further, in the second related technology of the present invention, the node serving as the manager is duplexed, and when one of these nodes fails, the agent is set as the manager and the manager node is always duplexed. (For example, refer to Patent Document 2).
これら第1および第2の関連技術ではマネージャのノードを現用系と予備系に二重化している。しかしながら二重化されたこれらのマネージャのノードに同時に障害が発生する可能性は否定できない。このような障害が発生したときには、これらの技術では通信の継続性への対応が不可能である。また、マネージャのノードを二重化することがリソースの制約上で不可能な計算機管理システムも存在する。 In these first and second related technologies, the manager node is duplicated into an active system and a standby system. However, it cannot be denied that there is a possibility of simultaneous failure of these duplicated manager nodes. When such a failure occurs, these technologies cannot cope with the continuity of communication. There is also a computer management system in which it is impossible to duplicate manager nodes due to resource constraints.
そこで、複数のクライアント端末を管理するクライアント端末用管理サーバの他に、ネットワーク監視サーバと管理サーバを設けるようにした本発明の第3の関連技術が提案されるに至っている(たとえば特許文献3参照)。この第3の関連技術は、管理サーバの負担を軽減することを目的として案出されたものであり、クライアント端末用管理サーバに複数のネットワーク監視サーバのアドレスを登録するようにしている。これにより、ネットワーク監視サーバの1つに障害が発生した場合でもクライアント端末用管理サーバは他のネットワーク監視サーバにアクセスして、所望のネットワーク監視サーバのアドレスを取得することができる。
ところが、この第3の関連技術はクライアント端末用管理サーバに障害が発生したときに、これに代わってネットワーク監視サーバがクライアント端末の管理を代行するような技術のものではない。すなわち、唯一のクライアント端末用管理サーバを介してネットワーク監視サーバが接続されているので、クライアント端末用管理サーバに障害が発生すると、クライアント端末の管理はこの時点で不可能になる。 However, the third related technique is not a technique in which, when a failure occurs in the client terminal management server, the network monitoring server takes over the management of the client terminal instead. That is, since the network monitoring server is connected via the only client terminal management server, if a failure occurs in the client terminal management server, management of the client terminal becomes impossible at this point.
また、第3の関連技術では、クライアント端末用管理サーバ、ネットワーク監視サーバおよび管理サーバという3層構造のサーバ組織を備えているが、中間に位置するネットワーク監視サーバがサーバリストを共通して備えることが特徴であって、ネットワーク監視サーバのすべてに障害が発生したときはクライアント端末用管理サーバがリスト自体にアクセスできなくなってしまう。 In the third related technology, a server organization having a three-layer structure of a client terminal management server, a network monitoring server, and a management server is provided. In the case where a failure occurs in all of the network monitoring servers, the client terminal management server cannot access the list itself.
そこで本発明の目的は、ネットワークに接続された計算機群におけるマネージャ側に障害が発生したときにエージェントを管理する新たなマネージャに早期に切り替えが可能な計算機管理システム、計算機管理方法および計算機管理制御プログラムを提供することにある。 Accordingly, an object of the present invention is to provide a computer management system, a computer management method, and a computer management control program capable of quickly switching to a new manager for managing an agent when a failure occurs on the manager side in a group of computers connected to a network. Is to provide.
本発明では、(イ)任意の数の管理される側の計算機と、(ロ)これら任意の数の管理される側の計算機とそれぞれネットワークを介して接続され、これら管理される側の計算機の管理に障害が発生する前の段階で障害が発生した時点における管理される側の計算機が実行する障害対応処理の内容を決定する障害対応決定手段を備えた、管理する側の計算機とを計算機管理システムに具備させる。 In the present invention, (b) any number of managed computers, and (b) any number of managed computers connected via a network, respectively, Computer management of the managing computer with failure response determining means for determining the content of the failure response processing executed by the managed computer at the time of the failure before the management failure occurs Provide in the system.
また、本発明では、(イ)ネットワークを介して自装置の管理下に置いた任意の数の計算機と通信を行ってこれらの計算機のそれぞれを自装置に代わって管理するのに適した計算機であるかを判別する管理側計算機判別ステップを計算機管理方法に具備させる。 In the present invention, (a) a computer suitable for managing each of these computers on behalf of the own device by communicating with an arbitrary number of computers under the control of the own device via a network. The computer management method includes a management computer discrimination step for discriminating whether or not there is a computer.
更に本発明では、ネットワークを介して任意の数の管理される側の計算機と接続された、これらの管理される側の計算機を管理する側のコンピュータに、計算機管理制御プログラムとして、(イ)自装置に障害が発生した時点における前記管理される側の計算機が実行する処理内容を時間を置いて逐次決定する決定処理と、(ロ)この決定処理による決定結果を前記管理される側の計算機に通知する通知処理とを実行させることを特徴としている。 Furthermore, according to the present invention, as a computer management control program, a computer management control program connected to an arbitrary number of managed computers connected via a network can be used as a computer management control program. (B) a determination process for sequentially determining the processing contents to be executed by the managed computer at the time when a failure occurs in the apparatus; and (b) a determination result by the determination process is transmitted to the managed computer. It is characterized by executing notification processing for notification.
以上説明したように本発明によれば、ネットワークを介して自装置の管理下に置いた任意の数の計算機と通信を行って管理される側の計算機が実行する障害対応処理の内容を決定することにした。したがって、管理される側にいた他の計算機が新たなマネージャ候補としての判別結果を取得することで、障害発生時に、管理される側の計算機同士でシステムの信頼性を早急に回復できる。また、管理される側の計算機同士が自律分散的に管理するシステムに移行することができる。 As described above, according to the present invention, the content of the failure handling process executed by the managed computer is determined by communicating with an arbitrary number of computers placed under the management of the own apparatus via the network. It was to be. Therefore, the other computers that have been managed acquire the determination result as a new manager candidate, so that the reliability of the system can be quickly recovered between the managed computers when a failure occurs. In addition, it is possible to shift to a system in which managed computers are managed in an autonomous and distributed manner.
次に、本発明の実施の最良の形態を詳細に説明する。 Next, the best mode for carrying out the present invention will be described in detail.
図1は、本実施の形態の計算機管理システムの原理的な構成を表わしたものである。本実施の形態の計算機管理システム100は、特定の計算機もしくは計算機群(以下、マネージャと呼ぶ。)101と、このマネージャ101によって管理される他の計算機(以下、エージェントと呼ぶ。)としての第1および第2のエージェント1021、1022によって構成されている。マネージャ101と第1および第2のエージェント1021、1022(エージェントの数は任意の正の整数である。)は、ネットワーク103によって接続されている。
FIG. 1 shows the basic configuration of the computer management system of this embodiment. The
マネージャ101は、その内部に障害の発生に対応するための処理部分として、障害対応決定部111と障害対応通知部112を配置している。ここで障害対応決定部111は、第1または第2のエージェント1021、1022に対する管理内容をマネージャ101の障害が発生していないなうちに決定する処理部分である。具体的には、マネージャ101の障害時に各エージェントが新たに管理を依頼する最適な他のエージェントをマネージャになるものとして、現在のマネージャ101の生存時に予め決定しておく処理部である。障害対応通知部112は、マネージャ101の障害時に障害対応決定部111の決定内容113の通知114を、第1および第2のエージェント1021、1022に対してネットワーク103を通じて行うようにする処理部である。
The
本実施の形態の計算機管理システム100は、このような構成をとることで、実際にマネージャ101に障害が発生した際に、各エージェント1021、1022は、決定された他の図示しないエージェントに対して即座に管理を依頼することができる。これにより、マネージャ101と第1および第2のエージェント1021、1022の構成による管理形態から、第1および第2のエージェント1021、1022同士の自律分散的な管理に早急に移行することができるので、マネージャ障害時にシステムの信頼性を早急に回復することができることになる。
With this configuration, the
図2は、本実施の形態の計算機管理システムの構成を具体的に表わしたものである。図2で図1と同一部分には同一の符号を付しており、これらの説明を適宜省略する。この計算機管理システム200は、マネージャ201と第1および第2のエージェント2021、2022がネットワーク203で接続された構成となっている。
FIG. 2 specifically shows the configuration of the computer management system of this embodiment. In FIG. 2, the same parts as those in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted as appropriate. The
このうち、マネージャ201は、図1における障害対応決定部111に対応する管理ノード決定部211と、障害対応通知部112に対応する管理ノード通知部212を備えている。ここで管理ノード決定部211は、マネージャ201の障害時に対応するものとして、各エージェントとしての第1および第2のエージェント2021、2022を代わって管理する最適な管理ノードの候補を決定する処理部をいう。すなわち、管理ノード決定部211で決定される最適な管理ノードとは、あるエージェントが管理する最適なノードではなく、あるエージェントを管理する最適なノードのことを指している。管理ノード通知部212は、管理ノード決定部211の決定事項を第1および第2のエージェント2021、2022に送信する処理部である。なお、この図では第1および第2のエージェント2021、2022を示しているが、計算機管理システム200を構成するエージェントの数はこれら2つに限定されるものではない。
Among these, the
第1および第2のエージェント2021、2022は、互いに同一の構成となっている。このため、第1のエージェント2021の構成を中心に説明し、第2のエージェント2022については、説明を適宜省略する。また、第2のエージェント2022については、第1のエージェント2021の構成部分を表わすのに用いた符号に付した数字の添え字の「1」を「2」に置き換えることにする。
The first and
第1のエージェント2021は、マネージャ201の監視を行うマネージャ監視部2211と、マネージャ201から通知された管理ノード情報2221を受け取る管理ノード受信部2231を備えている。マネージャ監視部2211の監視結果情報2241は、管理依頼部2251に入力されるようになっている。管理依頼部2251は監視結果としてマネージャ201の障害状態を検知すると、自ノードの管理依頼2261を他ノードとしての第2のエージェント2022に対して行う。
The
第1のエージェント2021は、管理ノード記憶部2271と、管理判定部2281も備えている。管理ノード記憶部2271は、管理ノード受信部2231で受け取った受信情報2291を保管するようになっている。管理判定部2281は、他ノードとしての第2のエージェント2022の管理依頼部2252から管理依頼2261があったときこれを判定するようになっている。
The
以上説明したマネージャ201と第1および第2のエージェント2021、2022は、共に計算機であるので当然であるが、CPU(Central Processing Unit)や、記憶媒体を備えている。記憶媒体にはCPUがこの計算機管理システム200を実現するための制御プログラムが格納されている。マネージャ201に障害が発生したときにその役割を交代する他ノードとしての計算機にも同様にCPUと所定の制御プログラムを格納した記憶媒体が備えられていることも当然である。
The
図3および図4は、以上のような構成の計算機管理システムでマネージャの管理移行を可能にするシステム動作の概要を示したものである。このうち、図3は、図2に示す現在のマネージャ201の障害対応として、第1および第2のエージェント2021、2022の管理を依頼する最適な他ノードの情報をこれらエージェント2021、2022が保管するまでの障害に対応するための事前の準備動作を示している。また、図4は現在のマネージャ201に障害が発生した時に、その管理を他のエージェントに依頼する障害発生時の動作を示している。
FIG. 3 and FIG. 4 show an outline of a system operation that enables managers to transfer management in the computer management system configured as described above. Of these, FIG. 3, as the corresponding fault
まず、計算機管理システム200全体がマネージャ201の障害に対応するための事前の準備動作を図3で説明する。図2と共に説明する。最初にマネージャ201は、自装置に障害が発生した場合の第1および第2のエージェント2021、2022に対する自装置以外で最適な管理ノードを、管理ノード決定部211で決定する(ステップS301)。この決定は、計算機管理システム200が最初に起動した場合や、第1および第2のエージェント2021、2022等のエージェント202の構成に変更があった場合に行われる。エージェント202の構成に変更があれば、最適な管理ノードも変化する場合があるからである。マネージャ201がこの処理を障害発生時まで定期的に行ってもよい。
First, a preparatory operation for the
マネージャ201はこの決定231を自装置内の管理ノード通知部212からネットワーク203を介して管理ノード情報2221、2222として送出し、第1および第2のエージェント2021、2022に通知される(ステップS302)。この最適な管理ノード(の候補)に関する通知は、第1および第2のエージェント2021、2022内の管理ノード受信部2231、2232で受信される(ステップS303)。これらの受信情報2291、2292は、それぞれ対応する管理ノード記憶部2271、2272に記憶される(ステップS304)。
The
すでに説明したようにエージェント202の構成に変更があった場合や定期的な処理として、この図3のステップS301からの処理が所定のタイミングで再度行われた場合には、最適な管理ノード(の候補)に関する受信情報2291、2292が管理ノード記憶部2271、2272に上書き保存されることになる。
As described above, when the configuration of the
次に図4の処理を図2と共に説明する。図2に示した第1および第2のエージェント2021、2022内のマネージャ監視部2211、2212は、マネージャ201に障害が発生するかを常に監視している(ステップS321)。そして、マネージャ201に障害が発生すると(Y)、第1および第2のエージェント2021、2022の管理依頼部2251、2252は、自装置の管理ノード記憶部2271、2272から自ノードの管理を依頼するノード情報2331、2332を読み出す(ステップS322)。
Next, the process of FIG. 4 will be described with reference to FIG. The
このノード情報2331、2332の取得に成功した場合(ステップS323:Y)、管理依頼部2251、2252はその取得したノードに対して管理依頼2261、2262を行う(ステップS324)。この場合、管理依頼の対象となった現時点ではエージェント202である装置の管理判定部228は、管理を行うかどうか判定を行う(ステップS325)。この結果として、その装置の管理判定部228が管理可能であると判定(あるいは同意)した場合には(ステップS326:Y)、この判定結果を依頼側に通知した後、そのエージェント202が新たなマネージャ201となり(ステップS327)、一連の処理を終了する(エンド)。
If the
たとえば第2のエージェント2022が第1のエージェント2021のマネージャ201になるのが最適であると管理ノード記憶部2271に記憶されており、第2のエージェント2022の管理判定部2282がこれを可とする判定を行ったとする。この場合にはマネージャ201の障害を第1のエージェント2021が検出した後、第2のエージェント2022が第1のエージェント2021のマネージャ201になることになる(ステップS327)。この例の場合には、マネージャ201の交代が迅速に行われることになる。
For example, it is stored in the management
これに対して、ステップS323で管理ノード記憶部2271(あるいは管理ノード記憶部2272)に最適な管理ノードの候補が記憶されておらず、取得できない場合がある(ステップS323:N)。このような場合には、従来から行われている一般的な手法で、マネージャ201となる管理ノードを探索する(ステップS328)。また、候補とされたエージェント202が管理可能ではないと判定した場合(ステップS326:N)も同様である。この場合には、新たなマネージャ201が定まるまで、管理が比較的長い時間にわたって不能になる可能性もある。
On the other hand, in step S323, the optimal management node candidate is not stored in the management node storage unit 227 1 (or the management node storage unit 227 2 ) and may not be acquired (step S323: N). In such a case, a management node to be the
このように本実施の形態によれば、マネージャ201の障害時に、すでに決定してある最適な管理ノードの情報を利用することで、マネージャ主導の管理から自律分散的な管理へ早急に切り替えることができるため、システムの信頼性が低下している時間を短縮することができるという効果がある。また、マネージャ201が新たなマネージャとなるべき候補を決定しても、その候補に決定されたエージェント202はマネージャとなるかを判定(あるいは同意)するようにしたので、マネージャとして無理のない移行が可能になる。
As described above, according to the present embodiment, at the time of failure of the
図5は、本発明の一実施例における計算機管理システムの構成を表わしたものである。この簡略化された図で示されるように本実施例の計算機管理システム400では、第1〜第3のノード401〜403が、インターネット等の共通のネットワーク404によって相互に接続されている。
FIG. 5 shows the configuration of the computer management system in one embodiment of the present invention. As shown in this simplified diagram, in the
図6は、本実施例の各ノードの共通した構成を示したものである。マネージャにもエージェントにもなり得るノードとしての計算機411は、マネージャとして機能するマネージャ部412と、エージェントとして機能するエージェント部413と、これらの機能を切り替える機能切替部414と、図5に示したネットワーク404と通信するネットワーク通信部415を備えている。この計算機411は、機能切替部414によってマネージャ部412の方を機能させたとき、マネージャとなる。また、機能切替部414によってエージェント部413の方を機能させたときには、エージェントとなる。
FIG. 6 shows a common configuration of each node in this embodiment. A
マネージャ部412は、図2に示した管理ノード決定部211と管理ノード通知部212で構成されている。管理ノード通知部212は機能切替部414を介してネットワーク通信部415と接続されている。管理ノード決定部211と管理ノード通知部212は具体的に説明したので、これらの説明は省略する。
The
エージェント部413は、機能切替部414を介してネットワーク通信部415と接続されたエージェント通信部421を備えている。エージェント通信部421はネットワーク通信部415と通信する部分であり、管理ノード受信部223、マネージャ監視部221、管理依頼部225および管理判定部228と接続されている。管理ノード記憶部227は計算機411内の図示しない不揮発性メモリの一部領域を構成しており、マネージャ監視部221および管理依頼部225と接続されている。また、マネージャ監視部221と管理依頼部225は直接接続されている。エージェント部413内のエージェント通信部421を除く各部は、図2に示した各処理部と内容が変わらないので、その詳細な説明は省略する。
The
機能切替部414は、前記した不揮発性メモリの他の領域で構成される機能分担テーブル416と接続されており、この内容に応じて、相手ノードとの関係でマネージャ部412とエージェント部413のいずれか一方が機能するように設定されている。
The
図7は、障害が発生する前の初期状態における機能分担テーブルの内容を表わしたものである。この時点を第1の時点t1とする。機能分担テーブル416には、第1の時点t1で、たとえば図5に示す計算機管理システム400の管理者が、それぞれ管理されるノードと管理するノードの割り当てを行っている。図5と共に説明する。
FIG. 7 shows the contents of the function sharing table in the initial state before the failure occurs. This time is defined as a first time t 1 . The function sharing table 416, at a first time point t 1, e.g. administrator of the
この機能分担テーブル416で、管理されるノードがエージェントとしてのノードであり、管理するノードがマネージャとしてのノードである。この例では、第1のノード401と第3のノード403の間では前者がエージェントであり、後者がマネージャとなっている。第2のノード402と第1のノード401との間では、前者がエージェントであり、後者がマネージャとなっている。第3のノード403と第2のノード402との間では前者がエージェントであり、後者がマネージャとなっている。
In the function sharing table 416, the managed node is a node as an agent, and the managed node is a node as a manager. In this example, the former is an agent and the latter is a manager between the
そこで、一例として第1のノード401と第3のノード403の関係について具体的に考察してみる。この例では、マネージャとしての第3のノード403が第1の時点t1よりも後の第2の時点t2で障害を発生させるものとする。この第2の時点t2よりも前の時点で、第3のノード403は第2のノード402がエージェントとしての第1のノード401を管理するのに最適なノードであると決定するものとする。
Therefore, as an example, the relationship between the
図8は、相手のノードとの関係で管理する側のマネージャとなるノードの処理の様子を表わしたものである。図5および図6と共に説明する。第3のノード403は機能分担テーブル416で第1のノード401との関係でマネージャとしての機能を備えているので、まず、自装置にエージェントとしての第1のノード401との関係で障害が発生したとき、マネージャとしての役割を果たすことのできるノードの決定を行う(ステップS501)。
FIG. 8 shows the state of processing of a node serving as a manager on the management side in relation to the partner node. This will be described with reference to FIGS. Since the
ここでまず、ノードの決定の様子を説明する。マネージャとしての第3のノード403の管理ノード決定部211は、エージェントとしての第1のノード401等の各エージェントに対して適宜通信を行い、各種の情報を収集することができる。この結果、得られた各エージェントのCPUの負荷やメモリの使用量といった情報を基にして、第3のノード403の管理ノード決定部211は自装置に障害が発生した際の第1のノード401に最適なノードの決定を行う。
First, the state of node determination will be described. The management
この決定のタイミングは、監視情報が収集された時であってもよいし、マネージャとしての第3のノード403の負荷が低い監視の行いやすい時で、各エージェントのCPU負荷の急激な上昇を行った場合のように状態が大幅に変化した時であってもよい。もちろん、これ以外の各種の場合でもよい。管理ノード決定部211がどのタイミングで決定を行うかは、システムの要件に応じて変更しうる。たとえば、監視情報が収集された時に決定する場合には、最新の監視情報を利用できるため、常に最新の状態での管理ノードの情報を維持することができる。これに対して、マネージャの負荷が低い時に決定することにすると、第3のノード403の本来の処理動作への影響を最小限とすることができる。
The timing of this determination may be when monitoring information is collected, or when the load of the
図8に戻って説明を続ける。第3のノード403が第1のノード401についての最適なマネージャとなるノードが存在すると判別した場合には(ステップS502:Y)、その最適なマネージャとなるノードを対応するエージェントとしての第1のノード401に通知する(ステップS503)。そして、次の決定のためのタイミングが到来するまで待機し(ステップS504:N)、先に説明したタイミングが到来したら(Y)、ステップS501の処理に戻る(リターン)。このようにして、環境の変化に対応して最適なマネージャとなるノードを適宜変更できるようにしている。
Returning to FIG. If the
ステップS502で最適なマネージャとなるノードが存在しないと判別された場合には(N)、該当するノードが存在しないとするエラーを対応するエージェントとしての第1のノード401に通知する(ステップS505)。この場合にもステップS504に進んで、次のタイミングでステップS501の判定を行うことになる。
If it is determined in step S502 that there is no optimal manager node (N), an error indicating that the corresponding node does not exist is notified to the
図9は、エージェント側の処理の流れを表わしたものである。図5および図6と共に説明する。この例でエージェントである第1のノード401は、マネージャとしての第3のノード403から図8のステップS503あるいはステップS505の通知が受信されるのを待機している(ステップS521)。そして、この通知を受信すると(Y)、自装置の管理ノード記憶部227に通知の内容を上書きして更新する(ステップS522)。たとえば第3のノード403から第2のノード402が最適なマネージャとなるノードであると通知を受けたものとすると、管理ノード記憶部227に「第2のノード」と上書きすることになる。エラーの通知が来た場合には、管理ノード記憶部227に「該当ノードなし」と上書きする。たとえば第2のノード402が過負荷の状態のときに第3のノード403によるチェックを受けたような場合がそれである。
FIG. 9 shows the flow of processing on the agent side. This will be described with reference to FIGS. In this example, the
エージェントである第1のノード401は、この他に他のマネージャからマネージャとしての管理依頼を受信する場合がある(ステップS523:Y)。この場合、第1のノード401は自装置の管理判定部228で自装置が指定されたノードをマネージャとして管理可能であるかを判定する(ステップS524)。この判定は、自装置の将来の負荷の状態の予測や自装置がすでに他のノードのマネージャとなっているかといった各種の状況を材料として行われる。
In addition, the
この判定でマネージャとしての管理が可能であると判定した場合には(ステップS525:Y)、管理依頼先に管理が可能である旨の通知を行う(ステップS526)。この場合には、すぐに管理が実行されるので自装置の機能分担テーブル416該当する欄の記載を変更する。たとえば、第3のノード403と第1のノード401との関係で、第3のノード403がマネージャとして管理できない状況になったとき、第1のノード401が第2のノード402にマネージャとしての管理を依頼してきたとする。この場合、第2のノード402が管理依頼を受ける場合には、自装置の機能分担テーブル416の該当する「管理するノード」を「第2のノード」に書き換える(ステップS527)。
If it is determined that management as a manager is possible (step S525: Y), the management request destination is notified that management is possible (step S526). In this case, since management is executed immediately, the description in the column corresponding to the function sharing table 416 of the own apparatus is changed. For example, when the
図10は、機能分担テーブルが図7の状態から書き換えられた状態を示したものである。図7と対比すれば分かるように第1のノード401を「管理するノード」が、第3のノード403から第2のノード402に変更されている。これにより、第2のノード402は、第1および第3のノード401、403の双方を管理するマネージャとなる。もちろん、たとえば第2のノード402が第3のノード403との関係でマネージャとしての適格性を欠いたような場合には、代わって第1のノード401が第3のノード403を管理するマネージャとなるといった変更が将来生じる可能性もある。
FIG. 10 shows a state where the function assignment table is rewritten from the state of FIG. As can be seen from comparison with FIG. 7, the “node that manages” the
図9に戻って説明を続ける。ステップS525で第1のノード401の管理が可能でないと判定された場合には(N)、管理が不可能であることの通知が管理依頼先のノードに通知される(ステップS528)。
Returning to FIG. 9, the description will be continued. If it is determined in step S525 that the
ところで、第3のノード403が第1のノード401を管理している図7に示す状態で、エージェントである第1のノード401は第3のノード403がマネージャとしての機能を果たしているかどうかをマネージャ監視部221で監視する。具体的にはマネージャの監視時機が到来すると(ステップS529:Y)、自装置との関係で、たとえばその生存を確認する(ステップS530)。そして、たとえば生存確認のメッセージに応答したことで生存が確認されれば(ステップS531:Y)、そのまま何もしないで処理を終了する(リターン)。
By the way, in the state shown in FIG. 7 in which the
これに対して生存が確認されなかった場合には(ステップS531:N)、マネージャを他のノードに代わって行ってもらう必要がある。そこで自装置の管理ノード記憶部227から最適な管理ノードの候補を読み出す(ステップS532)。このとき、マネージャとなるノードが読み出されないといったエラーが発生しなければ(ステップS533:N)、その読み出したノードに管理依頼を通知する(ステップS534)。先の例で第3のノード403に障害が発生した場合には、管理ノード記憶部227から第2のノード402を指定するデータが読み出され、これに管理依頼が通知されることになる。
On the other hand, if survival is not confirmed (step S531: N), it is necessary to have the manager take the place of another node. Therefore, an optimum management node candidate is read from the management
これに対して、ステップS533でエラーが発生した場合には(Y)、マネージャとなるノードが決定できない状態となる。そこでこの場合には、一般的な管理ノードの探索処理が実行される(ステップS535)。本実施例では、説明を簡略化するために第1〜第3のノード401〜403のみが計算機管理システム400を構成しているが、これよりも多いノードがシステムを構成している場合、残りのノードに対しても管理する側のノードに成り得るかのチェックが行われることになる。ステップS534で管理依頼を行った先のノード(この例の場合には第2のノード402)から管理が不可能である旨の受信があった場合(ステップS536:Y)も、同様にステップS535に進んで、一般的な管理ノードの探索処理が実行されることになる。
On the other hand, if an error has occurred in step S533 (Y), the manager node cannot be determined. Therefore, in this case, a general management node search process is executed (step S535). In the present embodiment, only the first to
以上説明したように本実施例によれば、マネージャとなったノードが自装置に代わる装置を次のマネージャとなるノードとして選択することにしたので、個々のエージェントにマネージャを選択させる場合と比べて複数の候補の間で1つのマネージャを選択するといった調整が不要となる。また、エージェント側のノードもマネージャの選択の仕事から解放されるので、自装置やネットワークの負荷を軽減することができるという長所がある。 As described above, according to this embodiment, since the node that becomes the manager selects the device that replaces the own device as the node that becomes the next manager, as compared with the case where each agent selects the manager. Adjustment such as selecting one manager among a plurality of candidates becomes unnecessary. In addition, since the agent side node is also freed from the task of manager selection, there is an advantage that the load on the own device and the network can be reduced.
なお、実施例ではマネージャに対して生存確認のメッセージを送信することにしたが、マネージャからの応答時間の遅延を測定したり、マネージャの負荷の状態の報告を受けることで、生存状態であっても他のエージェントをマネージャとして交代させるようにしてもよいことは当然である。 In the embodiment, it is decided to send a survival confirmation message to the manager. However, it is possible to measure the response time delay from the manager or to receive a report on the manager load status. Of course, other agents may be replaced as managers.
また、複数のエージェントの中からマネージャとなるノードを決定する際には、各エージェントがマネージャとなった割合といったような過去の実績をデータとして保存しておき、これを参考にしてもよい。 Further, when determining a node to be a manager from among a plurality of agents, past results such as the ratio of each agent becoming a manager may be stored as data and used as a reference.
更に実施例では各ノードが図6に示すようなマネージャとしての機能とエージェントとしての機能を予め持っているものとして説明したが、特定のノードについてはこれらの機能の一方のみを持ったノードとして構成されていてもよい。 Furthermore, in the embodiment, each node has been described as having a manager function and an agent function as shown in FIG. 6, but a specific node is configured as a node having only one of these functions. May be.
更にまた実施例では、マネージャが新たなマネージャとなり得る最適な1つのエージェントをその候補としたが、優先順位を付けて2以上の候補を通知するようにしてもよい。この場合、優先順位の最も高いエージェントに最初にマネージャへの依頼が行われ、同意が得られない場合には順位を繰り下げた依頼が行われる。これにより、管理依頼が拒絶された場合のリスクを軽減させることができる。 Furthermore, in the embodiment, the optimum agent that can become a new manager is selected as the candidate, but two or more candidates may be notified with priorities. In this case, the agent with the highest priority is first requested to the manager, and if the consent is not obtained, the request with a lower rank is made. Thereby, the risk when the management request is rejected can be reduced.
100、200、400 計算機管理システム
101、201 マネージャ
1021、2021 第1のエージェント
1022、2022 第2のエージェント
103、203、404 ネットワーク
111 障害対応決定部
112 障害対応通知部
211 管理ノード決定部
212 管理ノード通知部
221 マネージャ監視部
225 管理依頼部
227 管理ノード記憶部
228 管理判定部
401 第1のノード
402 第2のノード
403 第3のノード
411 計算機
412 マネージャ部
413 エージェント部
414 機能切替部
416 機能分担テーブル
100, 200, 400
Claims (10)
これら任意の数の管理される側の計算機とそれぞれネットワークを介して接続され、これら管理される側の計算機の管理に障害が発生する前の段階で障害が発生した時点における管理される側の計算機が実行する障害対応処理の内容を決定する障害対応決定手段を備えた、管理する側の計算機
とを具備することを特徴とする計算機管理システム。 Any number of managed computers, and
A computer on the managed side at the time when a failure occurs in the stage before a failure occurs in the management of the managed computer connected to any number of these managed computers via a network. And a managing computer having a failure response determining means for determining the content of the failure response process executed by the computer.
を具備することを特徴とする計算機管理方法。 It comprises a failure response determining step for communicating with an arbitrary number of computers placed under the management of its own device via a network and determining the processing contents to be executed when a failure occurs in each of these computers. Computer management method.
自装置に障害が発生した時点における前記管理される側の計算機が実行する処理内容を時間を置いて逐次決定する決定処理と、
この決定処理による決定結果を前記管理される側の計算機に通知する通知処理
とを実行させることを特徴とする計算機管理制御プログラム。 A computer that manages these managed computers connected to any number of managed computers via the network,
A determination process for sequentially determining the processing contents to be executed by the managed computer at the time when a failure occurs in the own device; and
A computer management control program for executing notification processing for notifying the managed computer of the determination result of the determination processing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007300386A JP2009128987A (en) | 2007-11-20 | 2007-11-20 | Computer management system, computer management method and computer management control program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007300386A JP2009128987A (en) | 2007-11-20 | 2007-11-20 | Computer management system, computer management method and computer management control program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009128987A true JP2009128987A (en) | 2009-06-11 |
Family
ID=40819884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007300386A Pending JP2009128987A (en) | 2007-11-20 | 2007-11-20 | Computer management system, computer management method and computer management control program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009128987A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020101875A (en) * | 2018-12-20 | 2020-07-02 | 富士通株式会社 | Communication device, communication method, and communication program |
-
2007
- 2007-11-20 JP JP2007300386A patent/JP2009128987A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020101875A (en) * | 2018-12-20 | 2020-07-02 | 富士通株式会社 | Communication device, communication method, and communication program |
JP7099305B2 (en) | 2018-12-20 | 2022-07-12 | 富士通株式会社 | Communication equipment, communication methods, and communication programs |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7225356B2 (en) | System for managing operational failure occurrences in processing devices | |
CN107153660B (en) | Fault detection processing method and system for distributed database system | |
US7603423B2 (en) | Communication system with primary device and standby device to prevent suspension of service of the system | |
JP2006253900A (en) | Method for ip address takeover, ip-address takeover program, server and network system | |
JP5819996B2 (en) | Printing system, printing control method and printing control program in cluster environment | |
JP2007164264A (en) | Load distribution program, load distribution device and service system | |
CN114124978B (en) | Video cloud service high-availability method and device based on distributed cooperation | |
JP4612714B2 (en) | Data processing method, cluster system, and data processing program | |
JP2007133542A (en) | Information handover system, information handover method, active system node and stand-by system node | |
JP5613119B2 (en) | Master / slave system, control device, master / slave switching method, and master / slave switching program | |
JP2011145833A (en) | Data distribution management system and data distribution management method | |
JP4806382B2 (en) | Redundant system | |
CN115794769B (en) | Method for managing high-availability database, electronic equipment and storage medium | |
JP2009223519A (en) | Cluster system and method for selecting master node in system | |
JPWO2009034994A1 (en) | Load distribution system, service processing server, load distribution method, and load distribution program | |
JP2009128987A (en) | Computer management system, computer management method and computer management control program | |
KR101793963B1 (en) | Remote Memory Data Management Method and System for Data Processing Based on Mass Memory | |
JP2010182017A (en) | Distributed computer system, manager succession method and manager succession program | |
JP6490167B2 (en) | COMMUNICATION DEVICE, COMMUNICATION METHOD, COMPUTER PROGRAM, AND COMMUNICATION SYSTEM | |
US9019964B2 (en) | Methods and systems for routing application traffic | |
JP6179981B2 (en) | Information processing system, information processing apparatus, information processing method, and program | |
JP4224385B2 (en) | Network monitoring system | |
JP2018136647A (en) | Cloud relay system and relay server | |
JP6282989B2 (en) | Database system and master / slave determination method thereof | |
JP2016134749A (en) | DHCP server |