JP2009128987A - Computer management system, computer management method and computer management control program - Google Patents

Computer management system, computer management method and computer management control program Download PDF

Info

Publication number
JP2009128987A
JP2009128987A JP2007300386A JP2007300386A JP2009128987A JP 2009128987 A JP2009128987 A JP 2009128987A JP 2007300386 A JP2007300386 A JP 2007300386A JP 2007300386 A JP2007300386 A JP 2007300386A JP 2009128987 A JP2009128987 A JP 2009128987A
Authority
JP
Japan
Prior art keywords
computer
management
manager
node
managed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007300386A
Other languages
Japanese (ja)
Inventor
Takahiro Sokogawa
貴裕 曽小川
Hirotatsu Osaki
寛達 大崎
Yoshifumi Kokado
能史 小角
Takahisa Iwama
隆寿 岩間
Hironobu Sugata
宏順 須賀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007300386A priority Critical patent/JP2009128987A/en
Publication of JP2009128987A publication Critical patent/JP2009128987A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a computer management system and method, and a computer management control program for quickly changing, if a manager of a computer group connected to a network fails, the manager to a new manager managing an agent. <P>SOLUTION: A management node determination section 211 of a manager 201 determines an agent which can serve as a manager between agents 202<SB>1</SB>and 202<SB>2</SB>before the manager 201 fails and stores it in a management node storage section 227 of the current agent. When a manager monitor section 221 detects a failure in the manager 201, a management request section 225 requests the agent 202 thereof to serve as a manager. Consequently, the manager 201 can speedily be switched. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、ネットワークに接続された複数の計算機を管理する計算機管理システム、計算機管理方法および計算機管理制御プログラムに係わり、特に管理する側の計算機に障害が発生したときに好適な計算機管理システム、計算機管理方法および計算機管理制御プログラムに関する。   The present invention relates to a computer management system, a computer management method, and a computer management control program for managing a plurality of computers connected to a network. Particularly, a computer management system and a computer suitable for a failure in a managing computer. The present invention relates to a management method and a computer management control program.

多くのパーソナルコンピュータ、サーバあるいはファクシミリ装置、携帯電話機、PDA(Personal Digital Assistants)といったプロセッサを内蔵した機器(以下、単に計算機という。)がインターネットやLAN(Local Area Network)等のネットワークに接続されるようになってきている。これら計算機はネットワークで接続されることによって特定のグループの間でそのうちの1台の計算機が他の計算機を管理するといったことが可能となっている。   Many personal computers, servers or facsimile machines, mobile phones, PDA (Personal Digital Assistants) built-in processors (hereinafter simply referred to as computers) are connected to networks such as the Internet and LAN (Local Area Network). It is becoming. These computers are connected via a network, so that one computer among them can manage other computers among specific groups.

本明細書では、管理する側の計算機をマネージャと呼び、管理される側の計算機をエージェントと呼ぶことにする。たとえば複数のパーソナルコンピュータが1つのグループとしてインターネットによって接続されており、その中の1台あるいは同一のグループに配置された1台のサーバがマネージャであるとする。すると、マネージャはグループ内のその他のパーソナルコンピュータからなるエージェントの監視を行う。そして、その中の1台に障害が発生したような場合に、これをユーザに通知したり、そのパーソナルコンピュータの設定が許せば再起動処理等の適切な処理を行って障害から復旧するための対応を採ることができる。   In this specification, a managing computer is called a manager, and a managed computer is called an agent. For example, it is assumed that a plurality of personal computers are connected as one group via the Internet, and one of them or one server arranged in the same group is a manager. Then, the manager monitors agents composed of other personal computers in the group. And when a failure occurs in one of them, this is notified to the user, or if the setting of the personal computer permits, an appropriate process such as a restart process is performed to recover from the failure Action can be taken.

このような計算機管理システムを採用すると、マネージャにエージェントそれぞれの情報が集中する。したがって、マネージャはシステム全体を容易に把握することができるという利点が生じる。しかしながら、マネージャにシステム管理のための機能が集中すると、マネージャ自身に障害が発生した場合や、ネットワークに障害が発生してマネージャとエージェント間の通信が途絶えたような場合、エージェントを管理するノードが存在しなくなる。この結果として、マネージャにこのような障害が発生すると、計算機管理システム自体の信頼性が著しく低下することになる。   When such a computer management system is adopted, information of each agent is concentrated on the manager. Therefore, the manager can easily grasp the entire system. However, when the functions for system management are concentrated on the manager, if the manager itself fails or if communication between the manager and the agent is interrupted due to a network failure, the node that manages the agent No longer exists. As a result, when such a failure occurs in the manager, the reliability of the computer management system itself is significantly reduced.

そこで、マネージャとなるノードを二重化することが本発明の第1の関連技術として提案されている(たとえば特許文献1参照)。また、本発明の第2の関連技術では、マネージャとなるノードを二重化すると共に、これらのノードの1つに障害が発生したときにはエージェントをマネージャに仕立て常にマネージャのノードが二重化されている状態を維持する提案を行っている(たとえば特許文献2参照)。   Therefore, it has been proposed as a first related technique of the present invention to duplicate a node serving as a manager (see, for example, Patent Document 1). Further, in the second related technology of the present invention, the node serving as the manager is duplexed, and when one of these nodes fails, the agent is set as the manager and the manager node is always duplexed. (For example, refer to Patent Document 2).

これら第1および第2の関連技術ではマネージャのノードを現用系と予備系に二重化している。しかしながら二重化されたこれらのマネージャのノードに同時に障害が発生する可能性は否定できない。このような障害が発生したときには、これらの技術では通信の継続性への対応が不可能である。また、マネージャのノードを二重化することがリソースの制約上で不可能な計算機管理システムも存在する。   In these first and second related technologies, the manager node is duplicated into an active system and a standby system. However, it cannot be denied that there is a possibility of simultaneous failure of these duplicated manager nodes. When such a failure occurs, these technologies cannot cope with the continuity of communication. There is also a computer management system in which it is impossible to duplicate manager nodes due to resource constraints.

そこで、複数のクライアント端末を管理するクライアント端末用管理サーバの他に、ネットワーク監視サーバと管理サーバを設けるようにした本発明の第3の関連技術が提案されるに至っている(たとえば特許文献3参照)。この第3の関連技術は、管理サーバの負担を軽減することを目的として案出されたものであり、クライアント端末用管理サーバに複数のネットワーク監視サーバのアドレスを登録するようにしている。これにより、ネットワーク監視サーバの1つに障害が発生した場合でもクライアント端末用管理サーバは他のネットワーク監視サーバにアクセスして、所望のネットワーク監視サーバのアドレスを取得することができる。
特開平06−197112号公報(第0013段落、図1) 特開2006−235837号公報(第0010段落、図1) 特開2003−256303号公報(第0029段落、第0045段落、第0060段落、図4)
Therefore, a third related technique of the present invention in which a network monitoring server and a management server are provided in addition to a client terminal management server that manages a plurality of client terminals has been proposed (see, for example, Patent Document 3). ). The third related technique has been devised for the purpose of reducing the burden on the management server, and addresses of a plurality of network monitoring servers are registered in the client terminal management server. Thus, even when a failure occurs in one of the network monitoring servers, the client terminal management server can access another network monitoring server and acquire the address of the desired network monitoring server.
Japanese Patent Laid-Open No. 06-197112 (paragraph 0013, FIG. 1) Japanese Patent Laying-Open No. 2006-235837 (paragraph 0010, FIG. 1) JP 2003-256303 A (paragraphs 0029, 0045, 0060, FIG. 4)

ところが、この第3の関連技術はクライアント端末用管理サーバに障害が発生したときに、これに代わってネットワーク監視サーバがクライアント端末の管理を代行するような技術のものではない。すなわち、唯一のクライアント端末用管理サーバを介してネットワーク監視サーバが接続されているので、クライアント端末用管理サーバに障害が発生すると、クライアント端末の管理はこの時点で不可能になる。   However, the third related technique is not a technique in which, when a failure occurs in the client terminal management server, the network monitoring server takes over the management of the client terminal instead. That is, since the network monitoring server is connected via the only client terminal management server, if a failure occurs in the client terminal management server, management of the client terminal becomes impossible at this point.

また、第3の関連技術では、クライアント端末用管理サーバ、ネットワーク監視サーバおよび管理サーバという3層構造のサーバ組織を備えているが、中間に位置するネットワーク監視サーバがサーバリストを共通して備えることが特徴であって、ネットワーク監視サーバのすべてに障害が発生したときはクライアント端末用管理サーバがリスト自体にアクセスできなくなってしまう。   In the third related technology, a server organization having a three-layer structure of a client terminal management server, a network monitoring server, and a management server is provided. In the case where a failure occurs in all of the network monitoring servers, the client terminal management server cannot access the list itself.

そこで本発明の目的は、ネットワークに接続された計算機群におけるマネージャ側に障害が発生したときにエージェントを管理する新たなマネージャに早期に切り替えが可能な計算機管理システム、計算機管理方法および計算機管理制御プログラムを提供することにある。   Accordingly, an object of the present invention is to provide a computer management system, a computer management method, and a computer management control program capable of quickly switching to a new manager for managing an agent when a failure occurs on the manager side in a group of computers connected to a network. Is to provide.

本発明では、(イ)任意の数の管理される側の計算機と、(ロ)これら任意の数の管理される側の計算機とそれぞれネットワークを介して接続され、これら管理される側の計算機の管理に障害が発生する前の段階で障害が発生した時点における管理される側の計算機が実行する障害対応処理の内容を決定する障害対応決定手段を備えた、管理する側の計算機とを計算機管理システムに具備させる。   In the present invention, (b) any number of managed computers, and (b) any number of managed computers connected via a network, respectively, Computer management of the managing computer with failure response determining means for determining the content of the failure response processing executed by the managed computer at the time of the failure before the management failure occurs Provide in the system.

また、本発明では、(イ)ネットワークを介して自装置の管理下に置いた任意の数の計算機と通信を行ってこれらの計算機のそれぞれを自装置に代わって管理するのに適した計算機であるかを判別する管理側計算機判別ステップを計算機管理方法に具備させる。   In the present invention, (a) a computer suitable for managing each of these computers on behalf of the own device by communicating with an arbitrary number of computers under the control of the own device via a network. The computer management method includes a management computer discrimination step for discriminating whether or not there is a computer.

更に本発明では、ネットワークを介して任意の数の管理される側の計算機と接続された、これらの管理される側の計算機を管理する側のコンピュータに、計算機管理制御プログラムとして、(イ)自装置に障害が発生した時点における前記管理される側の計算機が実行する処理内容を時間を置いて逐次決定する決定処理と、(ロ)この決定処理による決定結果を前記管理される側の計算機に通知する通知処理とを実行させることを特徴としている。   Furthermore, according to the present invention, as a computer management control program, a computer management control program connected to an arbitrary number of managed computers connected via a network can be used as a computer management control program. (B) a determination process for sequentially determining the processing contents to be executed by the managed computer at the time when a failure occurs in the apparatus; and (b) a determination result by the determination process is transmitted to the managed computer. It is characterized by executing notification processing for notification.

以上説明したように本発明によれば、ネットワークを介して自装置の管理下に置いた任意の数の計算機と通信を行って管理される側の計算機が実行する障害対応処理の内容を決定することにした。したがって、管理される側にいた他の計算機が新たなマネージャ候補としての判別結果を取得することで、障害発生時に、管理される側の計算機同士でシステムの信頼性を早急に回復できる。また、管理される側の計算機同士が自律分散的に管理するシステムに移行することができる。   As described above, according to the present invention, the content of the failure handling process executed by the managed computer is determined by communicating with an arbitrary number of computers placed under the management of the own apparatus via the network. It was to be. Therefore, the other computers that have been managed acquire the determination result as a new manager candidate, so that the reliability of the system can be quickly recovered between the managed computers when a failure occurs. In addition, it is possible to shift to a system in which managed computers are managed in an autonomous and distributed manner.

次に、本発明の実施の最良の形態を詳細に説明する。   Next, the best mode for carrying out the present invention will be described in detail.

図1は、本実施の形態の計算機管理システムの原理的な構成を表わしたものである。本実施の形態の計算機管理システム100は、特定の計算機もしくは計算機群(以下、マネージャと呼ぶ。)101と、このマネージャ101によって管理される他の計算機(以下、エージェントと呼ぶ。)としての第1および第2のエージェント1021、1022によって構成されている。マネージャ101と第1および第2のエージェント1021、1022(エージェントの数は任意の正の整数である。)は、ネットワーク103によって接続されている。 FIG. 1 shows the basic configuration of the computer management system of this embodiment. The computer management system 100 according to the present embodiment is a first as a specific computer or computer group (hereinafter referred to as a manager) 101 and another computer (hereinafter referred to as an agent) managed by the manager 101. And second agents 102 1 and 102 2 . The manager 101 and the first and second agents 102 1 and 102 2 (the number of agents is an arbitrary positive integer) are connected by the network 103.

マネージャ101は、その内部に障害の発生に対応するための処理部分として、障害対応決定部111と障害対応通知部112を配置している。ここで障害対応決定部111は、第1または第2のエージェント1021、1022に対する管理内容をマネージャ101の障害が発生していないなうちに決定する処理部分である。具体的には、マネージャ101の障害時に各エージェントが新たに管理を依頼する最適な他のエージェントをマネージャになるものとして、現在のマネージャ101の生存時に予め決定しておく処理部である。障害対応通知部112は、マネージャ101の障害時に障害対応決定部111の決定内容113の通知114を、第1および第2のエージェント1021、1022に対してネットワーク103を通じて行うようにする処理部である。 The manager 101 includes a failure handling determination unit 111 and a failure handling notification unit 112 as processing parts for dealing with the occurrence of a failure. Here, the failure handling determination unit 111 is a processing part that determines the management content for the first or second agent 102 1 , 102 2 while the manager 101 has not failed. Specifically, it is a processing unit that predetermines when the current manager 101 is alive, assuming that another optimal agent that each agent newly requests to manage when the manager 101 fails becomes the manager. The failure handling notification unit 112 is a processing unit that performs notification 114 of the determination content 113 of the failure handling determination unit 111 to the first and second agents 102 1 and 102 2 through the network 103 when the manager 101 fails. It is.

本実施の形態の計算機管理システム100は、このような構成をとることで、実際にマネージャ101に障害が発生した際に、各エージェント1021、1022は、決定された他の図示しないエージェントに対して即座に管理を依頼することができる。これにより、マネージャ101と第1および第2のエージェント1021、1022の構成による管理形態から、第1および第2のエージェント1021、1022同士の自律分散的な管理に早急に移行することができるので、マネージャ障害時にシステムの信頼性を早急に回復することができることになる。 With this configuration, the computer management system 100 according to the present embodiment allows each of the agents 102 1 and 102 2 to be determined other agents (not shown) when a failure occurs in the manager 101. On the other hand, management can be requested immediately. Thus, the management mode with the manager 101 according to the first and second agents 102 1, 102 2 configuration, that you immediately shifts to autonomous decentralized management of the first and second agents 102 1, 102 2 to each other Therefore, the reliability of the system can be quickly recovered in the event of a manager failure.

図2は、本実施の形態の計算機管理システムの構成を具体的に表わしたものである。図2で図1と同一部分には同一の符号を付しており、これらの説明を適宜省略する。この計算機管理システム200は、マネージャ201と第1および第2のエージェント2021、2022がネットワーク203で接続された構成となっている。 FIG. 2 specifically shows the configuration of the computer management system of this embodiment. In FIG. 2, the same parts as those in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted as appropriate. The computer management system 200 has a configuration in which a manager 201 and first and second agents 202 1 and 202 2 are connected via a network 203.

このうち、マネージャ201は、図1における障害対応決定部111に対応する管理ノード決定部211と、障害対応通知部112に対応する管理ノード通知部212を備えている。ここで管理ノード決定部211は、マネージャ201の障害時に対応するものとして、各エージェントとしての第1および第2のエージェント2021、2022を代わって管理する最適な管理ノードの候補を決定する処理部をいう。すなわち、管理ノード決定部211で決定される最適な管理ノードとは、あるエージェントが管理する最適なノードではなく、あるエージェントを管理する最適なノードのことを指している。管理ノード通知部212は、管理ノード決定部211の決定事項を第1および第2のエージェント2021、2022に送信する処理部である。なお、この図では第1および第2のエージェント2021、2022を示しているが、計算機管理システム200を構成するエージェントの数はこれら2つに限定されるものではない。 Among these, the manager 201 includes a management node determination unit 211 corresponding to the failure handling determination unit 111 in FIG. 1 and a management node notification unit 212 corresponding to the failure handling notification unit 112. Here, the management node determination unit 211 determines the optimal management node candidate to be managed on behalf of the first and second agents 202 1 , 202 2 as each agent as a response to the failure of the manager 201. Part. That is, the optimal management node determined by the management node determination unit 211 indicates not the optimal node managed by a certain agent but the optimal node that manages a certain agent. The management node notification unit 212 is a processing unit that transmits the determination items of the management node determination unit 211 to the first and second agents 202 1 and 202 2 . In this figure, the first and second agents 202 1 and 202 2 are shown, but the number of agents constituting the computer management system 200 is not limited to these two.

第1および第2のエージェント2021、2022は、互いに同一の構成となっている。このため、第1のエージェント2021の構成を中心に説明し、第2のエージェント2022については、説明を適宜省略する。また、第2のエージェント2022については、第1のエージェント2021の構成部分を表わすのに用いた符号に付した数字の添え字の「1」を「2」に置き換えることにする。 The first and second agents 202 1 and 202 2 have the same configuration. Therefore, the configuration of the first agent 202 1 will be mainly described, and the description of the second agent 202 2 will be omitted as appropriate. For the second agent 202 2 , the numerical subscript “1” attached to the reference numerals used to represent the components of the first agent 202 1 is replaced with “2”.

第1のエージェント2021は、マネージャ201の監視を行うマネージャ監視部2211と、マネージャ201から通知された管理ノード情報2221を受け取る管理ノード受信部2231を備えている。マネージャ監視部2211の監視結果情報2241は、管理依頼部2251に入力されるようになっている。管理依頼部2251は監視結果としてマネージャ201の障害状態を検知すると、自ノードの管理依頼2261を他ノードとしての第2のエージェント2022に対して行う。 The first agent 202 1 includes a manager monitoring unit 221 1 that monitors the manager 201 and a management node receiving unit 223 1 that receives management node information 222 1 notified from the manager 201. Monitoring result information 224 1 of a manager monitoring unit 221 1 is adapted to be inputted to the management request unit 225 1. When the management request unit 225 1 detects the failure state of the manager 201 as a monitoring result, it issues a management request 226 1 for its own node to the second agent 202 2 as another node.

第1のエージェント2021は、管理ノード記憶部2271と、管理判定部2281も備えている。管理ノード記憶部2271は、管理ノード受信部2231で受け取った受信情報2291を保管するようになっている。管理判定部2281は、他ノードとしての第2のエージェント2022の管理依頼部2252から管理依頼2261があったときこれを判定するようになっている。 The first agent 202 1 also includes a management node storage unit 227 1 and a management determination unit 228 1 . The management node storage unit 227 1 stores the reception information 229 1 received by the management node reception unit 223 1 . The management determination unit 228 1 determines this when there is a management request 226 1 from the management request unit 225 2 of the second agent 202 2 as another node.

以上説明したマネージャ201と第1および第2のエージェント2021、2022は、共に計算機であるので当然であるが、CPU(Central Processing Unit)や、記憶媒体を備えている。記憶媒体にはCPUがこの計算機管理システム200を実現するための制御プログラムが格納されている。マネージャ201に障害が発生したときにその役割を交代する他ノードとしての計算機にも同様にCPUと所定の制御プログラムを格納した記憶媒体が備えられていることも当然である。 The manager 201 and the first and second agents 202 1 and 202 2 described above are naturally computers, and are of course provided with a CPU (Central Processing Unit) and a storage medium. The storage medium stores a control program for the CPU to realize the computer management system 200. Of course, a computer as another node that changes its role when a failure occurs in the manager 201 is similarly provided with a storage medium storing a CPU and a predetermined control program.

図3および図4は、以上のような構成の計算機管理システムでマネージャの管理移行を可能にするシステム動作の概要を示したものである。このうち、図3は、図2に示す現在のマネージャ201の障害対応として、第1および第2のエージェント2021、2022の管理を依頼する最適な他ノードの情報をこれらエージェント2021、2022が保管するまでの障害に対応するための事前の準備動作を示している。また、図4は現在のマネージャ201に障害が発生した時に、その管理を他のエージェントに依頼する障害発生時の動作を示している。 FIG. 3 and FIG. 4 show an outline of a system operation that enables managers to transfer management in the computer management system configured as described above. Of these, FIG. 3, as the corresponding fault current manager 201 shown in FIG. 2, the first and second agents 202 1, 202 of these agents 202 1 information optimal other nodes to request the management of 2, 202 2 shows pre-preparation operations for dealing with failures until storage. FIG. 4 shows an operation at the time of occurrence of a failure in which when a failure occurs in the current manager 201, the management is requested to another agent.

まず、計算機管理システム200全体がマネージャ201の障害に対応するための事前の準備動作を図3で説明する。図2と共に説明する。最初にマネージャ201は、自装置に障害が発生した場合の第1および第2のエージェント2021、2022に対する自装置以外で最適な管理ノードを、管理ノード決定部211で決定する(ステップS301)。この決定は、計算機管理システム200が最初に起動した場合や、第1および第2のエージェント2021、2022等のエージェント202の構成に変更があった場合に行われる。エージェント202の構成に変更があれば、最適な管理ノードも変化する場合があるからである。マネージャ201がこの処理を障害発生時まで定期的に行ってもよい。 First, a preparatory operation for the computer management system 200 as a whole to cope with a failure of the manager 201 will be described with reference to FIG. This will be described with reference to FIG. First, the manager 201 uses the management node determination unit 211 to determine an optimal management node other than the own device for the first and second agents 202 1 and 202 2 when a failure occurs in the own device (step S301). . This determination is performed when the computer management system 200 is activated for the first time or when the configuration of the agent 202 such as the first and second agents 202 1 and 202 2 is changed. This is because if the configuration of the agent 202 is changed, the optimum management node may also change. The manager 201 may perform this process periodically until a failure occurs.

マネージャ201はこの決定231を自装置内の管理ノード通知部212からネットワーク203を介して管理ノード情報2221、2222として送出し、第1および第2のエージェント2021、2022に通知される(ステップS302)。この最適な管理ノード(の候補)に関する通知は、第1および第2のエージェント2021、2022内の管理ノード受信部2231、2232で受信される(ステップS303)。これらの受信情報2291、2292は、それぞれ対応する管理ノード記憶部2271、2272に記憶される(ステップS304)。 The manager 201 sends this decision 231 as management node information 222 1 , 222 2 from the management node notification unit 212 in the own apparatus via the network 203 and notifies the first and second agents 202 1 , 202 2. (Step S302). The notification regarding this optimal management node (candidate) is received by the management node receivers 223 1 and 223 2 in the first and second agents 202 1 and 202 2 (step S303). The received information 229 1 and 229 2 are stored in the corresponding management node storage units 227 1 and 227 2 (step S304).

すでに説明したようにエージェント202の構成に変更があった場合や定期的な処理として、この図3のステップS301からの処理が所定のタイミングで再度行われた場合には、最適な管理ノード(の候補)に関する受信情報2291、2292が管理ノード記憶部2271、2272に上書き保存されることになる。 As described above, when the configuration of the agent 202 is changed or as a periodic process, when the process from step S301 in FIG. 3 is performed again at a predetermined timing, the optimum management node ( The received information 229 1 , 229 2 regarding the candidate) is overwritten and saved in the management node storage units 227 1 , 227 2 .

次に図4の処理を図2と共に説明する。図2に示した第1および第2のエージェント2021、2022内のマネージャ監視部2211、2212は、マネージャ201に障害が発生するかを常に監視している(ステップS321)。そして、マネージャ201に障害が発生すると(Y)、第1および第2のエージェント2021、2022の管理依頼部2251、2252は、自装置の管理ノード記憶部2271、2272から自ノードの管理を依頼するノード情報2331、2332を読み出す(ステップS322)。 Next, the process of FIG. 4 will be described with reference to FIG. The manager monitoring units 221 1 and 221 2 in the first and second agents 202 1 and 202 2 shown in FIG. 2 always monitor whether a failure occurs in the manager 201 (step S321). When a failure occurs in the manager 201 (Y), the management requesting units 225 1 , 225 2 of the first and second agents 202 1 , 202 2 are notified from the management node storage units 227 1 , 227 2 of the own device. Node information 233 1 and 233 2 for requesting node management is read (step S322).

このノード情報2331、2332の取得に成功した場合(ステップS323:Y)、管理依頼部2251、2252はその取得したノードに対して管理依頼2261、2262を行う(ステップS324)。この場合、管理依頼の対象となった現時点ではエージェント202である装置の管理判定部228は、管理を行うかどうか判定を行う(ステップS325)。この結果として、その装置の管理判定部228が管理可能であると判定(あるいは同意)した場合には(ステップS326:Y)、この判定結果を依頼側に通知した後、そのエージェント202が新たなマネージャ201となり(ステップS327)、一連の処理を終了する(エンド)。 If the node information 233 1 , 233 2 has been successfully acquired (step S323: Y), the management request units 225 1 , 225 2 make management requests 226 1 , 226 2 to the acquired nodes (step S324). . In this case, the management determination unit 228 of the device that is the agent 202 at the present time that is the target of the management request determines whether to perform management (step S325). As a result, when the management determination unit 228 of the device determines (or agrees) that it can be managed (step S326: Y), after notifying the determination result to the requesting side, the agent 202 has a new one. The manager 201 is reached (step S327), and a series of processing ends (end).

たとえば第2のエージェント2022が第1のエージェント2021のマネージャ201になるのが最適であると管理ノード記憶部2271に記憶されており、第2のエージェント2022の管理判定部2282がこれを可とする判定を行ったとする。この場合にはマネージャ201の障害を第1のエージェント2021が検出した後、第2のエージェント2022が第1のエージェント2021のマネージャ201になることになる(ステップS327)。この例の場合には、マネージャ201の交代が迅速に行われることになる。 For example, it is stored in the management node storage unit 227 1 that it is optimal that the second agent 202 2 becomes the manager 201 of the first agent 202 1 , and the management determination unit 228 2 of the second agent 202 2 Suppose that it is determined that this is acceptable. In this case, after the first agent 202 1 detects the failure of the manager 201, the second agent 202 2 becomes the manager 201 of the first agent 202 1 (step S327). In the case of this example, the manager 201 is quickly replaced.

これに対して、ステップS323で管理ノード記憶部2271(あるいは管理ノード記憶部2272)に最適な管理ノードの候補が記憶されておらず、取得できない場合がある(ステップS323:N)。このような場合には、従来から行われている一般的な手法で、マネージャ201となる管理ノードを探索する(ステップS328)。また、候補とされたエージェント202が管理可能ではないと判定した場合(ステップS326:N)も同様である。この場合には、新たなマネージャ201が定まるまで、管理が比較的長い時間にわたって不能になる可能性もある。 On the other hand, in step S323, the optimal management node candidate is not stored in the management node storage unit 227 1 (or the management node storage unit 227 2 ) and may not be acquired (step S323: N). In such a case, a management node to be the manager 201 is searched for by a general method conventionally used (step S328). The same applies to the case where it is determined that the candidate agent 202 cannot be managed (step S326: N). In this case, management may be disabled for a relatively long time until a new manager 201 is determined.

このように本実施の形態によれば、マネージャ201の障害時に、すでに決定してある最適な管理ノードの情報を利用することで、マネージャ主導の管理から自律分散的な管理へ早急に切り替えることができるため、システムの信頼性が低下している時間を短縮することができるという効果がある。また、マネージャ201が新たなマネージャとなるべき候補を決定しても、その候補に決定されたエージェント202はマネージャとなるかを判定(あるいは同意)するようにしたので、マネージャとして無理のない移行が可能になる。   As described above, according to the present embodiment, at the time of failure of the manager 201, it is possible to quickly switch from manager-led management to autonomous distributed management by using the information of the optimal management node that has already been determined. Therefore, there is an effect that the time during which the reliability of the system is lowered can be shortened. Even if the manager 201 determines a candidate to become a new manager, the agent 202 determined as the candidate determines (or agrees) whether to become a manager. It becomes possible.

図5は、本発明の一実施例における計算機管理システムの構成を表わしたものである。この簡略化された図で示されるように本実施例の計算機管理システム400では、第1〜第3のノード401〜403が、インターネット等の共通のネットワーク404によって相互に接続されている。   FIG. 5 shows the configuration of the computer management system in one embodiment of the present invention. As shown in this simplified diagram, in the computer management system 400 of this embodiment, the first to third nodes 401 to 403 are connected to each other by a common network 404 such as the Internet.

図6は、本実施例の各ノードの共通した構成を示したものである。マネージャにもエージェントにもなり得るノードとしての計算機411は、マネージャとして機能するマネージャ部412と、エージェントとして機能するエージェント部413と、これらの機能を切り替える機能切替部414と、図5に示したネットワーク404と通信するネットワーク通信部415を備えている。この計算機411は、機能切替部414によってマネージャ部412の方を機能させたとき、マネージャとなる。また、機能切替部414によってエージェント部413の方を機能させたときには、エージェントとなる。   FIG. 6 shows a common configuration of each node in this embodiment. A computer 411 as a node that can be a manager or an agent includes a manager unit 412 that functions as a manager, an agent unit 413 that functions as an agent, a function switching unit 414 that switches these functions, and the network illustrated in FIG. A network communication unit 415 that communicates with 404 is provided. The computer 411 becomes a manager when the function switching unit 414 causes the manager unit 412 to function. Also, when the function switching unit 414 causes the agent unit 413 to function, it becomes an agent.

マネージャ部412は、図2に示した管理ノード決定部211と管理ノード通知部212で構成されている。管理ノード通知部212は機能切替部414を介してネットワーク通信部415と接続されている。管理ノード決定部211と管理ノード通知部212は具体的に説明したので、これらの説明は省略する。   The manager unit 412 includes the management node determination unit 211 and the management node notification unit 212 shown in FIG. The management node notification unit 212 is connected to the network communication unit 415 via the function switching unit 414. Since the management node determination unit 211 and the management node notification unit 212 have been specifically described, description thereof will be omitted.

エージェント部413は、機能切替部414を介してネットワーク通信部415と接続されたエージェント通信部421を備えている。エージェント通信部421はネットワーク通信部415と通信する部分であり、管理ノード受信部223、マネージャ監視部221、管理依頼部225および管理判定部228と接続されている。管理ノード記憶部227は計算機411内の図示しない不揮発性メモリの一部領域を構成しており、マネージャ監視部221および管理依頼部225と接続されている。また、マネージャ監視部221と管理依頼部225は直接接続されている。エージェント部413内のエージェント通信部421を除く各部は、図2に示した各処理部と内容が変わらないので、その詳細な説明は省略する。   The agent unit 413 includes an agent communication unit 421 connected to the network communication unit 415 via the function switching unit 414. The agent communication unit 421 is a part that communicates with the network communication unit 415, and is connected to the management node reception unit 223, the manager monitoring unit 221, the management request unit 225, and the management determination unit 228. The management node storage unit 227 constitutes a partial area of a nonvolatile memory (not shown) in the computer 411 and is connected to the manager monitoring unit 221 and the management request unit 225. The manager monitoring unit 221 and the management request unit 225 are directly connected. Since the components other than the agent communication unit 421 in the agent unit 413 are the same as the respective processing units illustrated in FIG. 2, detailed description thereof is omitted.

機能切替部414は、前記した不揮発性メモリの他の領域で構成される機能分担テーブル416と接続されており、この内容に応じて、相手ノードとの関係でマネージャ部412とエージェント部413のいずれか一方が機能するように設定されている。   The function switching unit 414 is connected to a function sharing table 416 configured by other areas of the nonvolatile memory described above, and depending on the contents, either of the manager unit 412 or the agent unit 413 is related to the counterpart node. Either one is set to work.

図7は、障害が発生する前の初期状態における機能分担テーブルの内容を表わしたものである。この時点を第1の時点t1とする。機能分担テーブル416には、第1の時点t1で、たとえば図5に示す計算機管理システム400の管理者が、それぞれ管理されるノードと管理するノードの割り当てを行っている。図5と共に説明する。 FIG. 7 shows the contents of the function sharing table in the initial state before the failure occurs. This time is defined as a first time t 1 . The function sharing table 416, at a first time point t 1, e.g. administrator of the computer management system 400 shown in FIG. 5, and assigns node managing a node to be managed respectively. This will be described with reference to FIG.

この機能分担テーブル416で、管理されるノードがエージェントとしてのノードであり、管理するノードがマネージャとしてのノードである。この例では、第1のノード401と第3のノード403の間では前者がエージェントであり、後者がマネージャとなっている。第2のノード402と第1のノード401との間では、前者がエージェントであり、後者がマネージャとなっている。第3のノード403と第2のノード402との間では前者がエージェントであり、後者がマネージャとなっている。   In the function sharing table 416, the managed node is a node as an agent, and the managed node is a node as a manager. In this example, the former is an agent and the latter is a manager between the first node 401 and the third node 403. Between the second node 402 and the first node 401, the former is an agent and the latter is a manager. Between the third node 403 and the second node 402, the former is an agent and the latter is a manager.

そこで、一例として第1のノード401と第3のノード403の関係について具体的に考察してみる。この例では、マネージャとしての第3のノード403が第1の時点t1よりも後の第2の時点t2で障害を発生させるものとする。この第2の時点t2よりも前の時点で、第3のノード403は第2のノード402がエージェントとしての第1のノード401を管理するのに最適なノードであると決定するものとする。 Therefore, as an example, the relationship between the first node 401 and the third node 403 will be specifically considered. In this example, it is assumed that the third node 403 as a manager generates a failure at a second time t 2 after the first time t 1 . It is assumed that the third node 403 determines that the second node 402 is the most suitable node for managing the first node 401 as an agent at a time before the second time t 2. .

図8は、相手のノードとの関係で管理する側のマネージャとなるノードの処理の様子を表わしたものである。図5および図6と共に説明する。第3のノード403は機能分担テーブル416で第1のノード401との関係でマネージャとしての機能を備えているので、まず、自装置にエージェントとしての第1のノード401との関係で障害が発生したとき、マネージャとしての役割を果たすことのできるノードの決定を行う(ステップS501)。   FIG. 8 shows the state of processing of a node serving as a manager on the management side in relation to the partner node. This will be described with reference to FIGS. Since the third node 403 has a function as a manager in relation to the first node 401 in the function sharing table 416, first, a failure occurs in the own device in relation to the first node 401 as an agent. Then, a node that can play a role as a manager is determined (step S501).

ここでまず、ノードの決定の様子を説明する。マネージャとしての第3のノード403の管理ノード決定部211は、エージェントとしての第1のノード401等の各エージェントに対して適宜通信を行い、各種の情報を収集することができる。この結果、得られた各エージェントのCPUの負荷やメモリの使用量といった情報を基にして、第3のノード403の管理ノード決定部211は自装置に障害が発生した際の第1のノード401に最適なノードの決定を行う。   First, the state of node determination will be described. The management node determination unit 211 of the third node 403 as a manager can appropriately communicate with each agent such as the first node 401 as an agent and collect various types of information. As a result, based on the obtained information such as the CPU load and memory usage of each agent, the management node determination unit 211 of the third node 403 first node 401 when a failure occurs in the own device. The most suitable node is determined.

この決定のタイミングは、監視情報が収集された時であってもよいし、マネージャとしての第3のノード403の負荷が低い監視の行いやすい時で、各エージェントのCPU負荷の急激な上昇を行った場合のように状態が大幅に変化した時であってもよい。もちろん、これ以外の各種の場合でもよい。管理ノード決定部211がどのタイミングで決定を行うかは、システムの要件に応じて変更しうる。たとえば、監視情報が収集された時に決定する場合には、最新の監視情報を利用できるため、常に最新の状態での管理ノードの情報を維持することができる。これに対して、マネージャの負荷が低い時に決定することにすると、第3のノード403の本来の処理動作への影響を最小限とすることができる。   The timing of this determination may be when monitoring information is collected, or when the load of the third node 403 as a manager is low and it is easy to perform monitoring, and the CPU load of each agent increases rapidly. It may be when the state has changed drastically as in the case of. Of course, various other cases may be used. The timing at which the management node determination unit 211 determines can be changed according to system requirements. For example, when determining when monitoring information is collected, since the latest monitoring information can be used, the information of the management node in the latest state can always be maintained. On the other hand, if the decision is made when the manager load is low, the influence on the original processing operation of the third node 403 can be minimized.

図8に戻って説明を続ける。第3のノード403が第1のノード401についての最適なマネージャとなるノードが存在すると判別した場合には(ステップS502:Y)、その最適なマネージャとなるノードを対応するエージェントとしての第1のノード401に通知する(ステップS503)。そして、次の決定のためのタイミングが到来するまで待機し(ステップS504:N)、先に説明したタイミングが到来したら(Y)、ステップS501の処理に戻る(リターン)。このようにして、環境の変化に対応して最適なマネージャとなるノードを適宜変更できるようにしている。   Returning to FIG. If the third node 403 determines that there is a node that is the optimal manager for the first node 401 (step S502: Y), the node that is the optimal manager is the first agent as the corresponding agent. The node 401 is notified (step S503). And it waits until the timing for the next determination arrives (step S504: N), and if the timing demonstrated previously comes (Y), it will return to the process of step S501 (return). In this way, the node serving as the optimum manager can be changed as appropriate in response to changes in the environment.

ステップS502で最適なマネージャとなるノードが存在しないと判別された場合には(N)、該当するノードが存在しないとするエラーを対応するエージェントとしての第1のノード401に通知する(ステップS505)。この場合にもステップS504に進んで、次のタイミングでステップS501の判定を行うことになる。   If it is determined in step S502 that there is no optimal manager node (N), an error indicating that the corresponding node does not exist is notified to the first node 401 as the corresponding agent (step S505). . Also in this case, the process proceeds to step S504, and the determination in step S501 is performed at the next timing.

図9は、エージェント側の処理の流れを表わしたものである。図5および図6と共に説明する。この例でエージェントである第1のノード401は、マネージャとしての第3のノード403から図8のステップS503あるいはステップS505の通知が受信されるのを待機している(ステップS521)。そして、この通知を受信すると(Y)、自装置の管理ノード記憶部227に通知の内容を上書きして更新する(ステップS522)。たとえば第3のノード403から第2のノード402が最適なマネージャとなるノードであると通知を受けたものとすると、管理ノード記憶部227に「第2のノード」と上書きすることになる。エラーの通知が来た場合には、管理ノード記憶部227に「該当ノードなし」と上書きする。たとえば第2のノード402が過負荷の状態のときに第3のノード403によるチェックを受けたような場合がそれである。   FIG. 9 shows the flow of processing on the agent side. This will be described with reference to FIGS. In this example, the first node 401 serving as an agent waits for the notification of step S503 or step S505 in FIG. 8 to be received from the third node 403 serving as a manager (step S521). When this notification is received (Y), the management node storage unit 227 of the own apparatus is overwritten with the notification content and updated (step S522). For example, if the third node 403 is notified that the second node 402 is the optimum manager node, the management node storage unit 227 is overwritten with “second node”. If an error notification is received, the management node storage unit 227 is overwritten with “no corresponding node”. For example, the second node 402 is checked by the third node 403 when it is overloaded.

エージェントである第1のノード401は、この他に他のマネージャからマネージャとしての管理依頼を受信する場合がある(ステップS523:Y)。この場合、第1のノード401は自装置の管理判定部228で自装置が指定されたノードをマネージャとして管理可能であるかを判定する(ステップS524)。この判定は、自装置の将来の負荷の状態の予測や自装置がすでに他のノードのマネージャとなっているかといった各種の状況を材料として行われる。   In addition, the first node 401 as an agent may receive a management request as a manager from another manager (step S523: Y). In this case, the first node 401 determines whether or not the management determination unit 228 of the own device can manage the node designated by the own device as a manager (step S524). This determination is made using various situations such as prediction of the future load state of the own device and whether the own device is already a manager of another node.

この判定でマネージャとしての管理が可能であると判定した場合には(ステップS525:Y)、管理依頼先に管理が可能である旨の通知を行う(ステップS526)。この場合には、すぐに管理が実行されるので自装置の機能分担テーブル416該当する欄の記載を変更する。たとえば、第3のノード403と第1のノード401との関係で、第3のノード403がマネージャとして管理できない状況になったとき、第1のノード401が第2のノード402にマネージャとしての管理を依頼してきたとする。この場合、第2のノード402が管理依頼を受ける場合には、自装置の機能分担テーブル416の該当する「管理するノード」を「第2のノード」に書き換える(ステップS527)。   If it is determined that management as a manager is possible (step S525: Y), the management request destination is notified that management is possible (step S526). In this case, since management is executed immediately, the description in the column corresponding to the function sharing table 416 of the own apparatus is changed. For example, when the third node 403 cannot be managed as a manager due to the relationship between the third node 403 and the first node 401, the first node 401 manages the second node 402 as a manager. Suppose that In this case, when the second node 402 receives the management request, the corresponding “node to be managed” in the function sharing table 416 of the own device is rewritten to “second node” (step S527).

図10は、機能分担テーブルが図7の状態から書き換えられた状態を示したものである。図7と対比すれば分かるように第1のノード401を「管理するノード」が、第3のノード403から第2のノード402に変更されている。これにより、第2のノード402は、第1および第3のノード401、403の双方を管理するマネージャとなる。もちろん、たとえば第2のノード402が第3のノード403との関係でマネージャとしての適格性を欠いたような場合には、代わって第1のノード401が第3のノード403を管理するマネージャとなるといった変更が将来生じる可能性もある。   FIG. 10 shows a state where the function assignment table is rewritten from the state of FIG. As can be seen from comparison with FIG. 7, the “node that manages” the first node 401 is changed from the third node 403 to the second node 402. Accordingly, the second node 402 becomes a manager that manages both the first and third nodes 401 and 403. Of course, for example, in the case where the second node 402 lacks eligibility as a manager in relation to the third node 403, the first node 401 is replaced with the manager that manages the third node 403. Such changes may occur in the future.

図9に戻って説明を続ける。ステップS525で第1のノード401の管理が可能でないと判定された場合には(N)、管理が不可能であることの通知が管理依頼先のノードに通知される(ステップS528)。   Returning to FIG. 9, the description will be continued. If it is determined in step S525 that the first node 401 cannot be managed (N), the management request destination node is notified that the management is impossible (step S528).

ところで、第3のノード403が第1のノード401を管理している図7に示す状態で、エージェントである第1のノード401は第3のノード403がマネージャとしての機能を果たしているかどうかをマネージャ監視部221で監視する。具体的にはマネージャの監視時機が到来すると(ステップS529:Y)、自装置との関係で、たとえばその生存を確認する(ステップS530)。そして、たとえば生存確認のメッセージに応答したことで生存が確認されれば(ステップS531:Y)、そのまま何もしないで処理を終了する(リターン)。   By the way, in the state shown in FIG. 7 in which the third node 403 manages the first node 401, the first node 401 as an agent determines whether the third node 403 functions as a manager. Monitoring is performed by the monitoring unit 221. Specifically, when the manager's monitoring time comes (step S529: Y), for example, the existence of the manager is confirmed in relation to the own device (step S530). For example, if survival is confirmed by responding to a survival confirmation message (step S531: Y), the processing is terminated without doing anything (return).

これに対して生存が確認されなかった場合には(ステップS531:N)、マネージャを他のノードに代わって行ってもらう必要がある。そこで自装置の管理ノード記憶部227から最適な管理ノードの候補を読み出す(ステップS532)。このとき、マネージャとなるノードが読み出されないといったエラーが発生しなければ(ステップS533:N)、その読み出したノードに管理依頼を通知する(ステップS534)。先の例で第3のノード403に障害が発生した場合には、管理ノード記憶部227から第2のノード402を指定するデータが読み出され、これに管理依頼が通知されることになる。   On the other hand, if survival is not confirmed (step S531: N), it is necessary to have the manager take the place of another node. Therefore, an optimum management node candidate is read from the management node storage unit 227 of the own apparatus (step S532). At this time, if an error that a node serving as a manager cannot be read does not occur (step S533: N), a management request is notified to the read node (step S534). If a failure occurs in the third node 403 in the previous example, data specifying the second node 402 is read from the management node storage unit 227, and a management request is notified to this.

これに対して、ステップS533でエラーが発生した場合には(Y)、マネージャとなるノードが決定できない状態となる。そこでこの場合には、一般的な管理ノードの探索処理が実行される(ステップS535)。本実施例では、説明を簡略化するために第1〜第3のノード401〜403のみが計算機管理システム400を構成しているが、これよりも多いノードがシステムを構成している場合、残りのノードに対しても管理する側のノードに成り得るかのチェックが行われることになる。ステップS534で管理依頼を行った先のノード(この例の場合には第2のノード402)から管理が不可能である旨の受信があった場合(ステップS536:Y)も、同様にステップS535に進んで、一般的な管理ノードの探索処理が実行されることになる。   On the other hand, if an error has occurred in step S533 (Y), the manager node cannot be determined. Therefore, in this case, a general management node search process is executed (step S535). In the present embodiment, only the first to third nodes 401 to 403 constitute the computer management system 400 for the sake of simplification. However, if more nodes than this constitute the system, the rest This node is also checked whether it can become a managing node. Similarly, when a message indicating that management is impossible is received from the previous node (the second node 402 in this example) that has made the management request in step S534 (step S536: Y), step S535 is also performed. Then, a general management node search process is executed.

以上説明したように本実施例によれば、マネージャとなったノードが自装置に代わる装置を次のマネージャとなるノードとして選択することにしたので、個々のエージェントにマネージャを選択させる場合と比べて複数の候補の間で1つのマネージャを選択するといった調整が不要となる。また、エージェント側のノードもマネージャの選択の仕事から解放されるので、自装置やネットワークの負荷を軽減することができるという長所がある。   As described above, according to this embodiment, since the node that becomes the manager selects the device that replaces the own device as the node that becomes the next manager, as compared with the case where each agent selects the manager. Adjustment such as selecting one manager among a plurality of candidates becomes unnecessary. In addition, since the agent side node is also freed from the task of manager selection, there is an advantage that the load on the own device and the network can be reduced.

なお、実施例ではマネージャに対して生存確認のメッセージを送信することにしたが、マネージャからの応答時間の遅延を測定したり、マネージャの負荷の状態の報告を受けることで、生存状態であっても他のエージェントをマネージャとして交代させるようにしてもよいことは当然である。   In the embodiment, it is decided to send a survival confirmation message to the manager. However, it is possible to measure the response time delay from the manager or to receive a report on the manager load status. Of course, other agents may be replaced as managers.

また、複数のエージェントの中からマネージャとなるノードを決定する際には、各エージェントがマネージャとなった割合といったような過去の実績をデータとして保存しておき、これを参考にしてもよい。   Further, when determining a node to be a manager from among a plurality of agents, past results such as the ratio of each agent becoming a manager may be stored as data and used as a reference.

更に実施例では各ノードが図6に示すようなマネージャとしての機能とエージェントとしての機能を予め持っているものとして説明したが、特定のノードについてはこれらの機能の一方のみを持ったノードとして構成されていてもよい。   Furthermore, in the embodiment, each node has been described as having a manager function and an agent function as shown in FIG. 6, but a specific node is configured as a node having only one of these functions. May be.

更にまた実施例では、マネージャが新たなマネージャとなり得る最適な1つのエージェントをその候補としたが、優先順位を付けて2以上の候補を通知するようにしてもよい。この場合、優先順位の最も高いエージェントに最初にマネージャへの依頼が行われ、同意が得られない場合には順位を繰り下げた依頼が行われる。これにより、管理依頼が拒絶された場合のリスクを軽減させることができる。   Furthermore, in the embodiment, the optimum agent that can become a new manager is selected as the candidate, but two or more candidates may be notified with priorities. In this case, the agent with the highest priority is first requested to the manager, and if the consent is not obtained, the request with a lower rank is made. Thereby, the risk when the management request is rejected can be reduced.

本実施の形態の計算機管理システムの原理図である。It is a principle figure of the computer management system of this Embodiment. 本実施の形態の計算機管理システムの構成を具体的に表わしたブロック図である。It is a block diagram showing concretely the composition of the computer management system of this embodiment. 本実施の形態で障害に対応するためのマネージャの事前の準備動作を示す流れ図である。It is a flowchart which shows the manager's advance preparation operation | movement for responding to a failure in this Embodiment. 本実施の形態で障害が発生した時の管理を他のエージェントに依頼するエージェント側の動作を示す流れ図である。6 is a flowchart showing an operation on the agent side that requests another agent to perform management when a failure occurs in the present embodiment. 本発明の一実施例における計算機管理システムの構成の概要を表わしたシステム構成図である。1 is a system configuration diagram showing an outline of a configuration of a computer management system in an embodiment of the present invention. 本実施例の各ノードの共通した構成を示したブロック図である。It is the block diagram which showed the common structure of each node of a present Example. 障害が発生する前の初期状態における機能分担テーブルの内容を表わした説明図である。It is explanatory drawing showing the content of the function allocation table in the initial state before a failure generate | occur | produces. 本実施例で相手のノードとの関係で管理する側のマネージャとなるノードの処理の様子を表わした流れ図である。It is a flowchart showing the mode of processing of the node which becomes the manager of the side which manages in relation to the partner node in the present embodiment. 本実施例でエージェント側の処理の流れを表わした流れ図である。It is a flowchart showing the flow of processing on the agent side in the present embodiment. 機能分担テーブルが図7の状態から書き換えられた状態を示した説明図である。It is explanatory drawing which showed the state by which the function allocation table was rewritten from the state of FIG.

符号の説明Explanation of symbols

100、200、400 計算機管理システム
101、201 マネージャ
1021、2021 第1のエージェント
1022、2022 第2のエージェント
103、203、404 ネットワーク
111 障害対応決定部
112 障害対応通知部
211 管理ノード決定部
212 管理ノード通知部
221 マネージャ監視部
225 管理依頼部
227 管理ノード記憶部
228 管理判定部
401 第1のノード
402 第2のノード
403 第3のノード
411 計算機
412 マネージャ部
413 エージェント部
414 機能切替部
416 機能分担テーブル
100, 200, 400 Computer management system 101, 201 Manager 102 1 , 202 1 First agent 102 2 , 202 2 Second agent 103, 203, 404 Network 111 Failure response determination unit 112 Failure response notification unit 211 Management node determination Unit 212 management node notification unit 221 manager monitoring unit 225 management request unit 227 management node storage unit 228 management determination unit 401 first node 402 second node 403 third node 411 computer 412 manager unit 413 agent unit 414 function switching unit 416 Function sharing table

Claims (10)

任意の数の管理される側の計算機と、
これら任意の数の管理される側の計算機とそれぞれネットワークを介して接続され、これら管理される側の計算機の管理に障害が発生する前の段階で障害が発生した時点における管理される側の計算機が実行する障害対応処理の内容を決定する障害対応決定手段を備えた、管理する側の計算機
とを具備することを特徴とする計算機管理システム。
Any number of managed computers, and
A computer on the managed side at the time when a failure occurs in the stage before a failure occurs in the management of the managed computer connected to any number of these managed computers via a network. And a managing computer having a failure response determining means for determining the content of the failure response process executed by the computer.
前記管理する側の計算機は、前記障害対応決定手段の決定結果を前記管理される側の計算機に通知する通知手段を具備することを特徴とする請求項1記載の計算機管理システム。   2. The computer management system according to claim 1, wherein the managing computer includes notification means for notifying the managed computer of the determination result of the failure handling determining means. 前記管理する側の計算機の前記障害対応決定手段は、自装置が管理する側の計算機になった時点から間隔を置いて自装置と代替可能な計算機を判別する処理を繰り返すことを特徴とし、前記通知手段はこの障害対応決定手段の決定のたびに該当する管理される側の計算機に決定結果を通知することを特徴とする請求項2記載の計算機管理システム。   The failure response determining means of the managing computer repeats the process of determining a computer that can replace the own device at an interval from the time when the own device becomes the managing computer. 3. The computer management system according to claim 2, wherein the notification means notifies the determination result to the corresponding managed computer every time the failure response determination means determines. 前記障害対応決定手段は、前記管理する側の計算機と代替可能な計算機として前記管理される側の計算機の中から前記管理する側の計算機を選択することを特徴とする請求項1〜請求項3いずれかに記載の計算機管理システム。   4. The failure handling determining means selects the managing computer from the managed computers as a computer that can replace the managing computer. The computer management system described in any one. 前記障害対応決定手段の決定した前記代替可能な計算機は、前記管理される側の計算機の管理に障害が発生した時点でこの管理される側の計算機の依頼を受けて、自装置が前記管理する側の計算機に移行する同意を行うことで移行が行われることを特徴とする請求項1〜請求項4いずれかに記載の計算機管理システム。   The replaceable computer determined by the failure response determining means receives the request from the managed computer when a failure occurs in the management of the managed computer, and is managed by the own apparatus. The computer management system according to claim 1, wherein the migration is performed by consenting to the migration to the computer on the side. 前記障害対応決定手段の決定した前記代替可能な計算機は、優先順位が付けられた複数のものであり、前記管理する側の計算機に移行する同意を優先順位の高い方から得ることを特徴とする請求項5記載の計算機管理システム。   The replaceable computers determined by the failure handling determining means are a plurality of prioritized computers, and the consent to move to the managing computer is obtained from the one with the higher priority. The computer management system according to claim 5. ネットワークを介して自装置の管理下に置いた任意の数の計算機と通信を行ってこれらの計算機のそれぞれの障害発生時に実行する処理内容を決定する障害対応決定ステップ
を具備することを特徴とする計算機管理方法。
It comprises a failure response determining step for communicating with an arbitrary number of computers placed under the management of its own device via a network and determining the processing contents to be executed when a failure occurs in each of these computers. Computer management method.
前記障害対応決定ステップで管理側の計算機に障害が発生したときに実行する処理内容を管理される側の計算機に前記ネットワークを介して通知する通知ステップを具備することを特徴とする請求項7記載の計算機管理方法。   8. The notification step of notifying, via the network, the processing contents to be executed when a failure occurs in a management computer in the failure handling determination step. Computer management method. 前記管理側計算機判別ステップでは、管理する側の計算機が間隔を置いて障害対応処理の内容を決定する処理を繰り返すことを特徴とし、この決定する処理が行われるたびに前記通知ステップで決定結果が該当する管理される側の計算機に通知されることを特徴とする請求項8記載の計算機管理方法。   The management computer determining step is characterized in that the managing computer repeats the process of determining the content of the failure handling process at intervals, and the determination result is obtained in the notification step each time the determination process is performed. 9. The computer management method according to claim 8, wherein the computer is notified to the corresponding managed computer. ネットワークを介して任意の数管理される側の計算機と接続された、これらの管理される側の計算機を管理する側のコンピュータに、
自装置に障害が発生した時点における前記管理される側の計算機が実行する処理内容を時間を置いて逐次決定する決定処理と、
この決定処理による決定結果を前記管理される側の計算機に通知する通知処理
とを実行させることを特徴とする計算機管理制御プログラム。
A computer that manages these managed computers connected to any number of managed computers via the network,
A determination process for sequentially determining the processing contents to be executed by the managed computer at the time when a failure occurs in the own device; and
A computer management control program for executing notification processing for notifying the managed computer of the determination result of the determination processing.
JP2007300386A 2007-11-20 2007-11-20 Computer management system, computer management method and computer management control program Pending JP2009128987A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007300386A JP2009128987A (en) 2007-11-20 2007-11-20 Computer management system, computer management method and computer management control program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007300386A JP2009128987A (en) 2007-11-20 2007-11-20 Computer management system, computer management method and computer management control program

Publications (1)

Publication Number Publication Date
JP2009128987A true JP2009128987A (en) 2009-06-11

Family

ID=40819884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007300386A Pending JP2009128987A (en) 2007-11-20 2007-11-20 Computer management system, computer management method and computer management control program

Country Status (1)

Country Link
JP (1) JP2009128987A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020101875A (en) * 2018-12-20 2020-07-02 富士通株式会社 Communication device, communication method, and communication program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020101875A (en) * 2018-12-20 2020-07-02 富士通株式会社 Communication device, communication method, and communication program
JP7099305B2 (en) 2018-12-20 2022-07-12 富士通株式会社 Communication equipment, communication methods, and communication programs

Similar Documents

Publication Publication Date Title
US7225356B2 (en) System for managing operational failure occurrences in processing devices
CN107153660B (en) Fault detection processing method and system for distributed database system
US7603423B2 (en) Communication system with primary device and standby device to prevent suspension of service of the system
JP2006253900A (en) Method for ip address takeover, ip-address takeover program, server and network system
JP5819996B2 (en) Printing system, printing control method and printing control program in cluster environment
JP2007164264A (en) Load distribution program, load distribution device and service system
CN114124978B (en) Video cloud service high-availability method and device based on distributed cooperation
JP4612714B2 (en) Data processing method, cluster system, and data processing program
JP2007133542A (en) Information handover system, information handover method, active system node and stand-by system node
JP5613119B2 (en) Master / slave system, control device, master / slave switching method, and master / slave switching program
JP2011145833A (en) Data distribution management system and data distribution management method
JP4806382B2 (en) Redundant system
CN115794769B (en) Method for managing high-availability database, electronic equipment and storage medium
JP2009223519A (en) Cluster system and method for selecting master node in system
JPWO2009034994A1 (en) Load distribution system, service processing server, load distribution method, and load distribution program
JP2009128987A (en) Computer management system, computer management method and computer management control program
KR101793963B1 (en) Remote Memory Data Management Method and System for Data Processing Based on Mass Memory
JP2010182017A (en) Distributed computer system, manager succession method and manager succession program
JP6490167B2 (en) COMMUNICATION DEVICE, COMMUNICATION METHOD, COMPUTER PROGRAM, AND COMMUNICATION SYSTEM
US9019964B2 (en) Methods and systems for routing application traffic
JP6179981B2 (en) Information processing system, information processing apparatus, information processing method, and program
JP4224385B2 (en) Network monitoring system
JP2018136647A (en) Cloud relay system and relay server
JP6282989B2 (en) Database system and master / slave determination method thereof
JP2016134749A (en) DHCP server