JP2007265333A - Operation restoration support system - Google Patents
Operation restoration support system Download PDFInfo
- Publication number
- JP2007265333A JP2007265333A JP2006092977A JP2006092977A JP2007265333A JP 2007265333 A JP2007265333 A JP 2007265333A JP 2006092977 A JP2006092977 A JP 2006092977A JP 2006092977 A JP2006092977 A JP 2006092977A JP 2007265333 A JP2007265333 A JP 2007265333A
- Authority
- JP
- Japan
- Prior art keywords
- host
- agent
- manager
- standby
- business
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Abstract
Description
本発明は、電子計算機での業務運用における、システム障害時の業務復旧を遠隔地で迅速に行うことを可能にする業務復旧支援システムに関する。 The present invention relates to a business recovery support system that enables a business recovery in the event of a system failure in a business operation on an electronic computer to be quickly performed at a remote location.
電子計算機を使用した業務運用管理システムでは、様々な要因によるシステムの障害が発生する危険性がある。このため、企業の基幹業務で運用中のシステムについて、障害発生時の対応システムの構築が実施されてきている。 In a business operation management system using an electronic computer, there is a risk of system failure due to various factors. For this reason, the construction of a response system in the event of a failure has been implemented for a system that is operating in a company's core business.
近年では、重要データのバックアップだけでなく、冗長構成を持つ(クラスタ)システムによる障害時の対応システムが構築されてきている。また、広域災害に対しても遠隔地でのディスクミラーリングやデータレプリケーションにより、拠点全体が破壊された場合でも、別拠点でシステムを再構築し業務を再開できるようになってきている。 In recent years, not only backup of important data but also a response system in the event of a failure by a (cluster) system having a redundant configuration has been constructed. In addition, even in the event of a wide-area disaster, even if the entire site is destroyed by remote disk mirroring or data replication, it is now possible to reconstruct the system at another site and resume operations.
下記特許文献1に記載のものは、冗長構成を持つコンピューターシステムにおいて、システム障害自動復旧処理を、障害監視装置を用いて統合的に管理し、発生した障害の種別により、その復旧動作を自動的に実施可能とすることで、システム保守のための工数を削減するものである。 In the computer system having the redundant configuration, the system failure automatic recovery processing is integratedly managed by using a failure monitoring apparatus, and the recovery operation is automatically performed according to the type of the failure that occurred. By making it feasible, the man-hours for system maintenance are reduced.
また、遠隔地へのデータの複製を行う遠隔データ・シャドーイング・システムの方法として、例えば、下記特許文献2に記載のものが知られている。
しかしながら、これまでの技術は、遠隔地に必要データを転送したり退避したりすることは、設定により自動的にできるものの、障害時にシステム構成を再構築して障害復旧を図ることについては、迅速かつ容易に実行できるとは言い難い。システム構成の再構築のためには、元のシステムと同じシステム構成を準備しておく必要がある、または人手による元のシステムと同様の業務が実行できる環境の再構築が必要である、などの事情があるためである。 However, while the conventional technology can automatically transfer and save necessary data to remote locations by setting, it is quick to rebuild the system configuration at the time of failure and to recover from the failure. And it's hard to say that it can be done easily. In order to reconstruct the system configuration, it is necessary to prepare the same system configuration as the original system, or it is necessary to reconstruct an environment where the same operations as the original system can be performed manually. This is because there are circumstances.
上記特許文献2で示される技術は、遠隔地にデータを転送しておく技術であり、そのままでは遠隔地でのシステム再開が可能とはならない。また、上記特許文献1で示される技術は、システムの部品については、障害の種別に応じて自動的に復旧できるものの、コンピューターのOSについては、冗長構成(クラスタ)システムを前提としているため、遠隔地のまったく異なる別コンピューターでの業務復旧には対応できない。例えば、マネージャー、エージェント構成で業務運用管理を行っている場合は、業務の定義情報中に、業務を実行するエージェントマシン情報を持っているため、別システム上で同一の業務を実行させるには、業務定義中で指定してあるホスト名(コンピューター名)で動作が可能でなければならない。このためには、元のシステムとまったく同じマシン環境を準備しておく必要がある。または、別システムで業務を再開させるときに、各業務が問題なく動作できるよう、マシン間の通信設定情報を変更するか、別システムで動作可能なように、すべての業務定義を変更しなければならない。
The technique disclosed in
本発明は、業務運用管理システムでのシステム構成や環境構築を、例えば遠隔地にある別のシステムにマッピングし、元のシステムに障害が発生した場合に、元のシステムとはホスト名(コンピューター名)が異なるマシン上でも、業務定義を変更することなく、自動的な運用継続を可能とするとともに、迅速かつ容易に業務再開できるような技術を提供することを目的とする。 The present invention maps a system configuration and environment construction in a business operation management system to, for example, another system at a remote location, and when a failure occurs in the original system, the original system is different from the host name (computer name). The purpose of this technology is to provide a technology that enables automatic operation continuation without changing the business definition even on different machines, and that the business can be resumed quickly and easily.
上記目的を達成するため、本発明では、マネージャーホストと、そのマネージャーホストに管理されている任意の数のエージェントホストとを備え、前記マネージャーホストからの要求に応じて前記エージェントホストが実際の業務の実行を行う業務運用管理システムにおいて、障害が発生し、前記業務運用管理システムが停止した場合に、代替運用を行う、マネージャーホストと、そのマネージャーホストに管理される任意の数のエージェントホストとを備えた待機系業務運用管理システムを設ける。そして、前記業務運用管理システムのマネージャーホストおよびエージェントホストに障害が発生したとき、前記待機系業務運用管理システムのどのマネージャーホストおよびどのエージェントホストで業務代行を行うかをあらかじめ定義した構成管理テーブルを用意しておくとともに、前記業務運用管理システムでのマネージャーホストおよびエージェントホストの各ホスト名と、それらのホストを代替する前記待機系業務運用管理システムのホストを特定するIPアドレスとの対応関係を格納したホスト名解決テーブルを用意する。前記業務運用管理システムのマネージャーホストが停止したことを検知したとき、前記構成管理テーブルから、前記停止したマネージャーホストの代替となる前記待機系業務運用管理システムのマネージャーホストを割り当て、業務を継続させる。また、前記業務運用管理システムのエージェントホストが停止したことを検知したとき、前記ホスト名解決テーブルから、前記停止したエージェントホストの代替となる前記待機系業務運用管理システムのエージェントホストを割り当て、業務を継続させる。 In order to achieve the above object, the present invention comprises a manager host and an arbitrary number of agent hosts managed by the manager host, and the agent host responds to a request from the manager host. In the business operation management system to be executed, when a failure occurs and the business operation management system stops, a manager host that performs alternative operation and an arbitrary number of agent hosts managed by the manager host are provided. Establish a standby business operation management system. In addition, a configuration management table that defines in advance which manager host and which agent host of the standby business operation management system will perform business substitution when a failure occurs in the manager host and agent host of the business operation management system is prepared. In addition, the correspondence between the host names of the manager host and agent host in the business operation management system and the IP address that identifies the host of the standby business operation management system that substitutes for those hosts is stored. Prepare a host name resolution table. When it is detected that the manager host of the business operation management system has stopped, the manager host of the standby business operation management system, which replaces the stopped manager host, is assigned from the configuration management table, and the business is continued. Further, when detecting that the agent host of the business operation management system has stopped, assigns an agent host of the standby business operation management system as a substitute for the stopped agent host from the host name resolution table, Let it continue.
前記業務運用管理システムのマネージャーホストで、新たなエージェントホストが追加されたときには、自動的に構成管理情報を更新し、前記待機系業務運用管理システムに通知を行い、前記待機系業務運用管理システムのマネージャーでは、前記業務運用管理システムに追加されたエージェントが停止した場合に、前記業務運用管理システムでの業務を、前記待機系業務運用管理システムの各エージェントに、負荷を自動分散して、代替実行させるように構成定義設定を行うようにするとよい。また、前記待機系業務運用管理システムのマネージャーホストで、新たなエージェントホストが追加されたときに、自動的に構成管理情報を更新し、既存のエージェントホストのうち、最も多くのエージェントホストの代替実行が定義されているホストを検索し、新たに追加したエージェントホストに負荷を自動分散させるように構成定義設定を行うようにするとよい。 When a new agent host is added on the manager host of the business operation management system, the configuration management information is automatically updated, the standby business operation management system is notified, and the standby business operation management system In the manager, when an agent added to the business operation management system stops, the work in the business operation management system is automatically distributed to each agent in the standby business operation management system, and executed as an alternative. It is advisable to set the configuration definition so that In addition, when a new agent host is added on the manager host of the standby business operation management system, the configuration management information is automatically updated, and the largest number of existing agent hosts are replaced. It is advisable to search for a host that is defined and to perform configuration definition settings so that the load is automatically distributed to the newly added agent host.
本発明によれば、業務運用管理システムでのシステム構成や環境構築を、自動的に、例えば遠隔地にある別のシステムにマッピングし、元のシステムとはホスト名(コンピューター名)が異なるマシン上でも、ホスト名などの構成情報の変更や業務定義を変更することなく、自動的な運用継続を可能とし、大規模な障害が発生した場合でも、迅速かつ容易に業務再開できる。 According to the present invention, the system configuration and environment construction in the business operation management system are automatically mapped to another system at a remote location, for example, on a machine having a host name (computer name) different from that of the original system. However, automatic operation can be continued without changing the configuration information such as the host name or the business definition, and the business can be resumed quickly and easily even if a large-scale failure occurs.
以下、本発明を実施する場合の一形態を図面を参照して具体的に説明する。 Hereinafter, an embodiment for carrying out the present invention will be specifically described with reference to the drawings.
図1は、本発明の一実施形態のシステムの概略構成を表すブロック図である。この実施形態の遠隔地での業務復旧支援システムは、実行系システム1と待機系システム2で構成されている。実行系システム1は、拠点3と拠点4からなる。拠点3には、業務の定義情報を持ち業務実行をコントロールするマネージャー6と、マネージャー6からの要求により実際の業務を実行するエージェント7および8が設けられている。拠点4には、マネージャー6からの要求により実際の業務を実行するエージェント9が設けられている。待機系システム2は、拠点5からなる。拠点5には、実行系システム1のマネージャー6に障害が発生した場合に業務を引き継いで管理するマネージャー10と、実行系システム1のエージェント7、8、または9に障害が発生した場合に業務を引き継いで実行するエージェント11および12が設けられている。それぞれの拠点間は、ネットワーク13(例えばWAN(Wide Area Network))で接続されている。これらのマネージャーおよびエージェントは、それぞれ、1台のマシンと考えてよい。
FIG. 1 is a block diagram showing a schematic configuration of a system according to an embodiment of the present invention. The remote business recovery support system of this embodiment includes an
図2は、実行系システムと待機系システムとのマッピング構成を示すブロック図である。マッピングとは、実行系の各マシンに障害が発生したときに、待機系のどのマシンが業務を引き継ぐのかを関連づけた定義のことを指す。図2の例では、実行系システムのマネージャー21(図1の6)と待機系システムのマネージャー25(図1の10)とがマッピングされている。マネージャー21が障害により停止した場合には、マネージャー25が引き継いで業務を継続する。同様に、エージェント22(図1の7)とエージェント24(図1の9)がエージェント26(図1の11)と、エージェント23(図1の8)がエージェント27(図1の12)と、それぞれマッピングされている。それぞれのエージェントの何れかが障害により停止すると、マネージャーは、待機系システムのエージェントに業務の実行を要求する。エージェント26は、実行系の複数のエージェント22,24とマッピングされている。エージェント22とエージェント24の両方とも停止した場合には、2つのエージェント分の業務をエージェント26で実行する。
FIG. 2 is a block diagram showing a mapping configuration between the active system and the standby system. Mapping refers to a definition that associates which machine in the standby system takes over work when a failure occurs in each machine in the active system. In the example of FIG. 2, the
図3は、図2のマッピング構成を管理する構成管理テーブルの構成図である。本構成管理テーブルにより、実行系システムでのホスト名31と、該実行系システムでのホストにマッピングされている待機系システムのホスト名32と、該待機系システムのホストのIPアドレス33とを定義する。また、それぞれのホストがマネージャーなのかエージェントなのかを示す種別34と、マネージャーの場合における待機系の起動モード35を定義する。この構成管理テーブルは、予め管理者により作成され、実行系および待機系それぞれのマネージャー21,25上に格納されている。構成管理テーブルのデータ更新は、管理者の指示に基づいて、実行系マネージャー21にて実施される。実行系マネージャー21内の構成管理テーブルが更新されると、その更新データが待機系マネージャー25に転送され、該待機系マネージャー内の構成管理テーブルも同様に更新される。
FIG. 3 is a configuration diagram of a configuration management table that manages the mapping configuration of FIG. This configuration management table defines the
待機系への業務切り替えが発生した場合、本構成管理テーブルのデータを読み込み、起動モードが「自動」の場合、待機系で業務運用管理システムを起動した後、待機系に転送されている業務データを元に、自動的に業務を再開する。起動モードが「手動」の場合、待機系で業務運用管理システムを起動した後、業務は、中断状態となる。この場合、業務の実行状況を業務データ中の実行ログ等で確認し、手動で、業務を再開する。業務切り替えの処理手順については、後に詳しく説明する。 When a job switch to the standby system occurs, the data in this configuration management table is read. If the start mode is "Automatic", the business data transferred to the standby system after starting the business operation management system on the standby system Automatically resumes work based on When the start mode is “manual”, after starting the business operation management system in the standby system, the business is suspended. In this case, the execution status of the business is confirmed with an execution log in the business data, and the business is manually restarted. The process switching process will be described in detail later.
図4は、実行系と待機系の業務データの転送を表すブロック図である。実行系システム41(例えば図1の1)のマネージャー43(図1の6)には、業務定義データ、業務実行状態データ、業務実行結果データ、および構成管理データなどを格納したデータベース45が接続されている。データベース45に更新が発生すると、データベースソフトウェアのレプリケーション機能により、データベース45中のデータが待機系システム42(図1の2)のマネージャー44(図1の10)に接続されているデータベース46に反映される。これにより、業務運用中には、実行系システム41内のデータベース45と同じデータが、待機系システム42内のデータベース46に保持されることになる。
FIG. 4 is a block diagram showing transfer of business data between the active system and the standby system. A
図5は、ホスト名解決のためのデータテーブルであるホスト名解決テーブルの構成図である。実行系システムでのホスト名51とそれぞれのIPアドレス52、現在そのホストが使用中かどうかを示すフラグを格納するフラグ領域53(図5の例では、0が使用中、1が未使用を示すものとする)、および、IPアドレスの優先度54が格納されている。実行系システムが正常に運用されている状態では、ホスト名51が当該正常に運用されている実行系システムのホスト名であるレコードのうち、IPアドレス52が当該正常に運用されている実行系システムのホストのIPアドレスであるレコードのフラグ領域53が0(使用中)になっており、それ以外の同一ホスト名のレコードについては、IPアドレス52が待機系システムのホスト(上記実行系システムのホストにマッピングされているもの)のIPアドレスとなり、フラグ領域53は1(未使用)となっている。マネージャーとエージェント間の通信処理では、このホスト名解決テーブルの情報に従ってアドレス解決が行われる。マネージャーでは、ジョブの定義情報に設定されている実行先エージェントのアドレスを解決するときに、ホスト名51が実行先エージェントで、かつフラグ領域53が0(使用中)のレコードを入力する。このレコードに設定されているIPアドレス52を使用し、通信を行う。エージェントへの通信処理では、マネージャーのホスト名とIPアドレスをエージェントに連絡する。このときも、ホスト名解決テーブルの情報を参照する。IPアドレス52が自ホストと同じで、かつフラグ領域53が0(使用中)のレコードを入力する。このレコードに設定されているホスト名51とIPアドレス52をエージェントに連絡する。エージェントからマネージャーへの通信は、このホスト名とIPアドレスを使用し、通信を行う。
FIG. 5 is a configuration diagram of a host name resolution table that is a data table for host name resolution. A
例えば、図5のホスト名解決テーブルの先頭レコード(実行系システムが正常に運用されている状態であるとする)は、ホスト名51が「マネージャー21」、IPアドレス52が「1.0.0.1」、フラグ領域53が「0」、優先度54が「1」であるが、これは現在正常に運用されている実行系システムのホストを示している。次のレコードは、ホスト名51が「マネージャー21」、IPアドレス52が「2.0.0.1」、フラグ領域53が「1」、優先度54が「2」であるが、これは上記IPアドレス52が「1.0.0.1」の実行系のホストにマッピングされており、該実行系のホストに障害が発生したときに該「マネージャー21」を引き継ぐ待機系のホストを示すレコードである。実行系のホストで障害が発生した場合、「マネージャー21」のレコードを入力し、実行系のホストのレコードのフラグ領域53を1(未使用)に変更し、待機系のホストのレコードのフラグ領域53を0(使用中)に変更する。その後の通信処理では、待機系のホストのレコードが使用中となるため、ホスト名「マネージャー21」のIPアドレスは、待機系のホストである「2.0.0.1」が使用されるようになる。
For example, in the first record of the host name resolution table in FIG. 5 (assuming that the running system is operating normally), the
優先度54は、障害が発生して待機系のホストに引き継ぐ際の優先度(数値が低い程優先度が高いとする)を示す。実行系システムのホストに障害が発生すると、そのホストと同じホスト名51を持つ待機系システムのIPアドレス52のうち、優先度54が最も高いIPアドレス52を取得し、該IPアドレスの待機系ホストで上記障害が発生した実行系システムのホストを引き継ぐ。このとき、業務を引き継いだ待機系システムのホストを示すレコードのフラグ領域54は1(未使用)から0(使用中)に更新する。
The
図6は、実行系システムのマネージャーが停止した場合の、待機系マネージャーにおける復旧処理の概要を示すフローチャートである。 FIG. 6 is a flowchart showing an outline of the recovery process in the standby manager when the manager of the active system stops.
待機系のマネージャーは、定期的に実行系マネージャー(図2で説明したように、当該待機系マネージャーとマッピングされている実行系マネージャー)と通信を行い、実行系マネージャーが稼働中かどうかをチェックする。実行系マネージャーが稼働中であれば終了し、停止していた場合は次のステップに進む(ステップ601)。実行系マネージャーが停止していた場合、待機系マネージャーは、図3で説明した構成管理テーブルを読み込む(ステップ602)。図5のホスト名解決テーブルのマネージャーホスト名と同じホスト名51のレコードを入力し、実行系ホストのレコードのフラグ領域53を1(未使用)にし、待機系ホストのレコードのフラグ領域53を0(使用中)にする。これ以降、通信処理でマネージャーから通知されるマネージャーホストのIPアドレスは、待機系ホストのIPアドレスとなる(ステップ603)。読み込んだ構成管理テーブル中の実行ホスト名31が当該停止したマネージャーであるレコードの起動モード35が自動起動か手動起動かをチェックする(ステップ604)。自動起動の場合、当該待機系マネージャーで業務システムを起動し業務を再開する(ステップ611)。
The standby manager periodically communicates with the active manager (the active manager mapped to the standby manager as described in FIG. 2) to check whether the active manager is running. . If the active manager is running, the process is terminated, and if it is stopped, the process proceeds to the next step (step 601). If the active manager has stopped, the standby manager reads the configuration management table described in FIG. 3 (step 602). The record of the
ステップ604で手動起動の場合は、図3の構成管理テーブルの実行系ホスト名31に登録されている実行系システムの各エージェントのうちの先頭のエージェントを最初の処理対象のエージェントとして、ステップ605に進む。図5に示したホスト名解決テーブルを参照し、処理対象のエージェントのホスト名と同じホスト名51を持つレコードのうち、優先度54が最も高い(値が小さいもの)レコードを最初の対象レコードとする(ステップ605)。次に、対象レコードのIPアドレス52で特定されるエージェントが停止中か稼働中かをチェックする(ステップ606)。停止中であれば、当該対象レコードのフラグ領域53を1(未使用)とし(ステップ607)、図5のホスト名解決テーブルの当該対象レコードの次の優先度を持つレコード(処理対象のエージェントのホスト名と同じホスト名51を持つもの)を探索する(ステップ608)。あればそのレコードを新たに対象レコードとして、ステップ606に戻る(ステップ609)。ステップ609で次の優先度を持つレコードが無ければ、上記処理対象のエージェントを実現する稼働中のホストが無かったということであるから、エラーログを出力し(ステップ610)、処理を終了する。
In the case of manual activation at
ステップ606で対象レコードのIPアドレス52で特定されるエージェントが稼働中であれば、対象レコードのフラグ領域53を0(使用中)とする。以降の通信時にマネージャーがジョブ実行先エージェントのホスト名からIPアドレスを解決する場合、このレコードが参照され、ジョブの実行先が待機系のエージェントに切り替わる(ステップ612)。図3の構成管理テーブルの実行系ホスト名31に登録されている各エージェントの中から、未だ処理していない実行系のエージェントがあるか否か判定する(ステップ613)。未処理のエージェントがあれば、そのエージェントを新たな処理対象のエージェントとして、ステップ605に戻る。未処理のエージェントが無ければ、図3の構成管理テーブルの実行系ホスト名31に登録されている全エージェントについて処理を終えたということであるから、待機モードで業務システムを起動する(ステップ611)。
If the agent specified by the
待機モードでの業務システムの起動とは、業務の実行を抑止しつつシステム起動して待機する処理である。なお、自動起動の場合はステップ604からステップ611に進むが、この場合は自動モードで業務システムの起動を行いすぐに業務を再開する。また、図5のホスト名解決テーブル中のマネージャーのレコードのフラグ領域53については、停止した実行系マネージャーのフラグ領域53を1(未使用)とし、業務を引き継いだ待機系マネージャーのフラグ領域53を0(使用中)とする処理を行う必要があるが、この処理はステップ611のシステム起動処理の中で行うものとする。
The activation of the business system in the standby mode is a process of starting the system and waiting while suppressing execution of the business. In the case of automatic activation, the process proceeds from
以上のように、マネージャーの復旧処理では、自動起動の場合は、すぐに業務システムを起動して業務を再開し、手動起動の場合は、各エージェントの状態を確認し、構成を変更して業務システムを起動し、業務再開待機状態にする。 As described above, in the manager recovery process, in the case of automatic startup, the business system is started immediately and the business is restarted. In the case of manual startup, the status of each agent is checked, the configuration is changed, and the business is changed. Start the system and put it in a business restart standby state.
自動起動の場合の各エージェントの稼動/停止確認、および構成の変更は、実際に業務が再開し、該当するエージェントに対して、業務の実行要求が行われるときに、手動起動の場合と同様の処理(ステップ604〜610,612,613)が行われる。
Checking the operation / stop of each agent and changing the configuration in the case of automatic startup is the same as in the case of manual startup when the business is actually restarted and a business execution request is made to the corresponding agent. Processing (
図7は、実行系システムのエージェントが停止した場合の復旧処理の概要を示すフローチャートである。本処理は、マネージャーからエージェントに対して業務の実行要求を行った場合に、当該エージェントが停止だったとき、当該マネージャーにおいて起動される。 FIG. 7 is a flowchart showing an outline of recovery processing when the agent of the execution system stops. This process is started in the manager when the manager makes a business execution request to the agent and the agent is stopped.
まず、図5に示したホスト名解決テーブルから、IPアドレス52が当該停止したエージェントのIPアドレスに一致するレコードを探索する(ステップ701)。探索された当該停止エージェントのレコードのフラグ領域53を1(未使用)とする(ステップ702)。次に、図5のホスト名解決テーブルから、ホスト名51が上記停止したエージェントと同一で、優先度54が上記停止したエージェントの次に高いレコードを探索する(ステップ703)。優先度が次に高いレコードが無い場合は、停止したエージェントを引き継ぐ待機系エージェントが無いということであるから、エラーログを出力し、処理を終了する(ステップ704、708)。次の優先度のレコードがあれば、そのレコードのIPアドレス52で特定されるエージェントが稼働中かどうかチェックし(ステップ705)、稼働中であれば、そのレコードのフラグ領域53を0(使用中)にする。以降の通信時にマネージャーがジョブ実行先エージェントのホスト名からIPアドレスを解決する場合、このレコードが参照され、ジョブの実行先が待機系のエージェントに切り替わる(ステップ706)。業務実行要求を当該IPアドレスのエージェントに送る(ステップ707)。エージェントが停止中の場合は(ステップ705)、ステップ702に戻る。
First, a record in which the
以上のように、エージェント復旧処理では、エージェントが停止していた場合、マッピングされている稼働中の他のエージェント(優先度が高いものから順に割当てる)で業務を実行する。エージェントからマネージャーに対しての業務実行結果の通知についても、同様な処理が行われ、マッピングされている稼働中の他のマネージャーに通知を行う。 As described above, in the agent recovery process, when an agent is stopped, a task is executed by other active agents that are mapped (assigned in descending order of priority). The same processing is performed for notification of the business execution result from the agent to the manager, and notification is given to the other active managers that are mapped.
図8は、実行系システムにエージェントが追加された場合の構成変更処理の概要を示すフローチャートである。 FIG. 8 is a flowchart showing an outline of the configuration change process when an agent is added to the active system.
実行系マネージャーでは、新たにエージェントを追加し(ステップ801)、図3の構成管理テーブルに実行系のホスト名31だけを格納したレコードを追加する(ステップ802)。図4で説明したように、実行系マネージャーにおいて構成管理テーブルに追加・変更があると、その旨が待機系マネージャーに通知される。待機系マネージャーでは、自機内に保持している図3の構成管理テーブルに同様にして前記レコード追加を行うとともに、図10に示すエージェント一覧テーブルから、カレントフラグ104がONのデータを読み込む(ステップ803)。
The active manager adds a new agent (step 801), and adds a record storing only the
ここで図10のエージェント一覧テーブルについて説明する。エージェント一覧テーブルは、待機系マネージャーで保持しているテーブルである。エージェント一覧テーブルは、エージェントID101、エージェントホスト名102、IPアドレス103、カレントフラグ104、およびマッピングエージェント数105を持つ。エージェントID101は、ここでは通し番号である。エージェントホスト名102は、待機系ホスト名を記載する。IPアドレス103は、対応するエージェントホスト名102のホストのIPアドレスである。カレントフラグ104は、次に割り当てる待機系エージェントを示している。すなわち、マッピングする待機系エージェントが必要になったときには、カレントフラグ104がONのエージェントを使用する。エージェント一覧テーブルに登録されているエージェントの中で、カレントフラグ104がONのものは1つだけで、残りのエージェントのカレントフラグ104はOFFである。カレントフラグ104がONのエージェントを待機系エージェントとして割り当てたときには、そのエージェントのカレントフラグ104をOFFとし、エージェントID101が次の番号のエージェントのカレントフラグ104がONとされる。エージェント一覧テーブルの最後のエージェントの次は、エージェントID101が1の先頭エージェントに戻る。マッピングエージェント数105は、当該エージェントを待機系としてマッピングしている実行系エージェントの数を示す。
Here, the agent list table in FIG. 10 will be described. The agent list table is a table held by the standby manager. The agent list table has an
再び図8に戻って、ステップ803の後、待機系マネージャーでは、カレントフラグ104がONのエージェントのホスト名102とIPアドレス103を上記実行系マネージャーに通知し(ステップ804)、当該カレントフラグ104をOFFにし、次のIDのレコードのカレントフラグ104をONにする(ステップ805)。実行系マネージャーでは、ステップ804で通知されたエージェント情報(ホスト名とIPアドレス)を元に、図3の構成管理テーブルと図5のホスト名解決テーブルを更新する(ステップ806)。ここで更新された情報は、図4で示すように、待機系マネージャーに反映される。
Returning to FIG. 8 again, after
以上のように、新しいエージェントが追加されると、待機系のエージェントとのマッピングが自動的に行われ、データベースに反映される。本構成変更機能は、設定により、手動でのみ実施するようにすることが可能である。 As described above, when a new agent is added, mapping with the standby agent is automatically performed and reflected in the database. This configuration change function can be executed only manually by setting.
図9は、待機系システムにエージェントが追加された場合の構成変更処理の概要を示すフローチャートである。 FIG. 9 is a flowchart showing an overview of the configuration change process when an agent is added to the standby system.
待機系マネージャーでは、新たにエージェントを追加し(ステップ901)、図10のエージェント一覧テーブルにレコードを追加する(ステップ902)。エージェント一覧テーブルから、マッピングエージェント数105が最大のレコードを入力し、その値を1カウントダウンし、ステップ902で追加したレコードのマッピングエージェント数105を1にする(ステップ903)。次に、図3の構成管理テーブルから、ステップ903でマッピングエージェント数をカウントダウンしたエージェント名のレコードを読み込み、データの変更を実行系マネージャーに通知する(ステップ904、905)。
The standby manager adds a new agent (step 901), and adds a record to the agent list table of FIG. 10 (step 902). The record having the maximum number of
実行系マネージャーでは、通知されたエージェント情報を元に、構成管理テーブルのマッピングするエージェントを更新し、ホスト名解決テーブルの該当するIPアドレスを更新する(ステップ906)。 The active manager updates the agent to be mapped in the configuration management table based on the notified agent information, and updates the corresponding IP address in the host name resolution table (step 906).
以上のように、待機系で新しいエージェントが追加されると、実行系エージェントとのマッピングが更新され、複数のエージェントがマッピングされている待機系エージェントに対して、エージェントの分散が自動的に行われる。本構成変更機能は、設定により、手動でのみ実施するようにすることが可能である。 As described above, when a new agent is added in the standby system, the mapping with the active system agent is updated, and the agents are automatically distributed to the standby system to which multiple agents are mapped. . This configuration change function can be executed only manually by setting.
なお、上記実施形態では、待機系システムのマネージャーで、実行系システムのマネージャーの停止を検出し図6の処理を行うようにしているが、マネージャーの停止を検出する機能やシステムを起動する機能などを備えた別の装置でこれらの処理を行ってもよい。図7の処理も同様である。 In the above embodiment, the manager of the standby system detects the stop of the manager of the active system and performs the processing of FIG. 6, but the function of detecting the manager stop, the function of starting the system, etc. You may perform these processes with another apparatus provided with. The process in FIG. 7 is the same.
1…実行系システム、2…待機系システム、3、4、5…拠点、6…実行系システムのマネージャー、7、8、9…実行系システムのエージェント、10…待機系システムのマネージャー、11、12…待機系システムのエージェント、13…公衆回線網、21…実行系システムのマネージャー、22、23、24…実行系システムのエージェント、25…待機系システムのマネージャー、26、27…待機系システムのエージェント、31…実行系ホスト名、32…待機系ホスト名、33…待機系IPアドレス、34…種別、35…起動モード、41…実行系システム、42…待機系システム、43…実行系システムのマネージャー、44…待機系システムのマネージャー、45…実行系システムの業務運用管理システムDB、46…待機系システムの業務運用管理システムDB、51…ホスト名、52…IPアドレス、53…フラグ領域、54…優先度、101…エージェントID、102…エージェントホスト名、103…IPアドレス、104…カレントフラグ、105…マッピングエージェント数。
1 ... active system, 2 ... standby system, 3, 4, 5 ... base, 6 ... execution system manager, 7, 8, 9 ... active system agent, 10 ... standby system manager, 11, 12 ... Standby system agent, 13 ... Public network, 21 ... Active system manager, 22, 23,24 ... Active system agent, 25 ... Standby system manager, 26,27 ... Standby system Agent, 31 ... Execution host name, 32 ... Standby host name, 33 ... Standby IP address, 34 ... Type, 35 ... Startup mode, 41 ... Execution system, 42 ... Standby system, 43 ... Execution system Manager, 44 ... Standby system manager, 45 ... Execution system business operation management system DB, 46 ... Standby system business operation management system DB, 51 ... Host name, 52 ... IP address, 53 ...
Claims (1)
前記業務運用管理システムが停止した場合に、代替運用を行う、マネージャーホストと、そのマネージャーホストに管理される任意の数のエージェントホストとを備えた待機系業務運用管理システムを設けるとともに、
前記業務運用管理システムのマネージャーホストおよびエージェントホストに障害が発生したとき、前記待機系業務運用管理システムのどのマネージャーホストおよびどのエージェントホストで業務代行を行うかをあらかじめ定義した構成管理テーブルを記憶する手段と、
前記業務運用管理システムでのマネージャーホストおよびエージェントホストの各ホスト名と、それらのホストを代替する前記待機系業務運用管理システムのホストを特定するIPアドレスとの対応関係を格納したホスト名解決テーブルを記憶する手段と、
前記業務運用管理システムのマネージャーホストが停止したことを検知したとき、前記構成管理テーブルから、前記停止したマネージャーホストの代替となる前記待機系業務運用管理システムのマネージャーホストを割り当て、業務を継続させる手段と、
前記業務運用管理システムのエージェントホストが停止したことを検知したとき、前記ホスト名解決テーブルから、前記停止したエージェントホストの代替となる前記待機系業務運用管理システムのエージェントホストを割り当て、業務を継続させる手段と
を備えたことを特徴とする業務復旧支援システム。 In a business operation management system comprising a manager host and an arbitrary number of agent hosts managed by the manager host, the agent host executes an actual business in response to a request from the manager host. A business recovery support system that supports business recovery when it occurs,
In the case where the business operation management system is stopped, a standby business operation management system including a manager host that performs an alternative operation and an arbitrary number of agent hosts managed by the manager host is provided.
Means for storing in advance a configuration management table that defines which manager host and which agent host of the standby business operation management system perform business substitution when a failure occurs in the manager host and agent host of the business operation management system When,
Host name resolution table that stores the correspondence between the host names of the manager host and agent host in the business operation management system and the IP address that identifies the host of the standby business operation management system that substitutes for those hosts Means for storing;
Means for allocating a manager host of the standby business operation management system as a substitute for the stopped manager host from the configuration management table when detecting that the manager host of the business operation management system has stopped; When,
When it is detected that the agent host of the business operation management system has stopped, an agent host of the standby business operation management system that substitutes for the stopped agent host is assigned from the host name resolution table, and the business is continued. A business restoration support system characterized by comprising means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006092977A JP2007265333A (en) | 2006-03-30 | 2006-03-30 | Operation restoration support system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006092977A JP2007265333A (en) | 2006-03-30 | 2006-03-30 | Operation restoration support system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007265333A true JP2007265333A (en) | 2007-10-11 |
Family
ID=38638216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006092977A Pending JP2007265333A (en) | 2006-03-30 | 2006-03-30 | Operation restoration support system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007265333A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009265805A (en) * | 2008-04-23 | 2009-11-12 | Hitachi Ltd | Failover method, program, failover device and failover system |
JP2010067042A (en) * | 2008-09-11 | 2010-03-25 | Hitachi Ltd | Computer switching method, computer switching program, and computer system |
JP2010102468A (en) * | 2008-10-23 | 2010-05-06 | Nec Corp | Business construction infrastructure system and method of constructing business infrastructure |
-
2006
- 2006-03-30 JP JP2006092977A patent/JP2007265333A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009265805A (en) * | 2008-04-23 | 2009-11-12 | Hitachi Ltd | Failover method, program, failover device and failover system |
JP4659062B2 (en) * | 2008-04-23 | 2011-03-30 | 株式会社日立製作所 | Failover method, program, management server, and failover system |
JP2010067042A (en) * | 2008-09-11 | 2010-03-25 | Hitachi Ltd | Computer switching method, computer switching program, and computer system |
JP4572250B2 (en) * | 2008-09-11 | 2010-11-04 | 株式会社日立製作所 | Computer switching method, computer switching program, and computer system |
JP2010102468A (en) * | 2008-10-23 | 2010-05-06 | Nec Corp | Business construction infrastructure system and method of constructing business infrastructure |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4572250B2 (en) | Computer switching method, computer switching program, and computer system | |
JP2005084963A (en) | File-sharing device and method for transferring data between file-sharing devices | |
CN113391944B (en) | Delayed server recovery method and device in computing system | |
US20190138405A1 (en) | Data Loading Method and Apparatus | |
JP2005018510A (en) | Data center system and its control method | |
JP2002049575A (en) | File system | |
JP2007183701A (en) | Snapshot restart method | |
JP2007066216A (en) | Boot reconfiguration method | |
CN101689114B (en) | Dynamic cli mapping for clustered software entities | |
JP2006163963A (en) | Failover method due to disk takeover | |
JP5948933B2 (en) | Job continuation management apparatus, job continuation management method, and job continuation management program | |
JP6123626B2 (en) | Process resumption method, process resumption program, and information processing system | |
WO2011036707A1 (en) | Computer system for controlling backups using wide area network | |
JP3737810B2 (en) | Computer system and faulty computer alternative control program | |
CN106201773A (en) | The upgrading of instance system, cloud system and instance system or restoration methods | |
US7093163B2 (en) | Processing takeover method in multiple computer system | |
US10452321B2 (en) | Storage system and control method therefor | |
JP6124644B2 (en) | Information processing apparatus and information processing system | |
JP2007265333A (en) | Operation restoration support system | |
US7437445B1 (en) | System and methods for host naming in a managed information environment | |
JP2006185108A (en) | Management computer for managing data of storage system, and data management method | |
CN113986450A (en) | Virtual machine backup method and device | |
JP2011053780A (en) | Restoration system, restoration method and backup control system | |
JP2009265973A (en) | Data synchronization system, failure recovery method, and program | |
JP5947974B2 (en) | Information processing apparatus, information processing apparatus exchange support system, and exchange support method |