JP2006344061A - Scenario application support method, management server and management program - Google Patents
Scenario application support method, management server and management program Download PDFInfo
- Publication number
- JP2006344061A JP2006344061A JP2005169987A JP2005169987A JP2006344061A JP 2006344061 A JP2006344061 A JP 2006344061A JP 2005169987 A JP2005169987 A JP 2005169987A JP 2005169987 A JP2005169987 A JP 2005169987A JP 2006344061 A JP2006344061 A JP 2006344061A
- Authority
- JP
- Japan
- Prior art keywords
- business
- event
- scenario
- server
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、業務障害に対処するシナリオを適用する支援を行う技術に関するものである。 The present invention relates to a technique for providing support for applying a scenario for dealing with a business failure.
近年、複数の異なるプラットフォームを持つ計算機上で稼動する業務をスケジューリングして一元管理するシステムが開発されている。このシステムのサーバでは、計算機のハード障害等をあらわす障害情報をイベントとしてテーブルに集約する。集約されたイベントの内容は、ユーザによって、クライアント上のGUI(Graphical User Interface)を通じて確認され、計算機上で業務が正常に処理されているかどうか等の判断が行われる。そして、その判断により前記障害を検知した場合の対処が行われることになる。しかし、このような方法により対処を行うとしても、システムには、さまざまな種類のハードウェアやソフトウェアが搭載されていることが多いため、ユーザは、それらの対処法に関する高度なノウハウも知っておく必要がある。
このような状況下、従来、システム上のハードウェア・ソフトウェアの診断状況や障害の対処履歴を蓄積しておくことにより、蓄積した対処履歴の確信度等に基づき、その状況の近い過去の対処手順を適用する方法が開示されている(たとえば、特許文献1参照)。
Under these circumstances, by accumulating the diagnosis status of hardware and software on the system and the history of troubleshooting of the system in the past, based on the certainty of the accumulated handling history, etc. Has been disclosed (see, for example, Patent Document 1).
しかしながら、一般には業務といっても様々な業務があるため、それぞれの業務の重要性も多様である。そのため、障害が生じた場合、その障害により影響を受ける業務の重要度を考慮した個別具体的な障害の対処手順を適用することが望ましい。個別具体的とは、業務をそれぞれ別々に取り扱いかつ個々の障害の事実に着目することを意味する。
この点、特許文献1に開示された方法では、障害の種類に応じた一連の対処手順のみが定義されているのみで、業務の重要度を考慮した個別具体的な障害の対処手順を適用するように構成されていない。
そこで、本発明は、前記課題を解決するためになされたものであり、業務の重要度に応じた個別具体的な障害の対処手順を適用する支援を行うことを目的とする。
However, in general, there are various business operations, so the importance of each business is also diverse. Therefore, when a failure occurs, it is desirable to apply an individual specific failure handling procedure that takes into account the importance of the business affected by the failure. Individual concrete means that each business is handled separately and attention is paid to the facts of individual obstacles.
In this regard, in the method disclosed in
Therefore, the present invention has been made to solve the above-described problems, and an object thereof is to provide support for applying an individual specific failure handling procedure according to the importance of business.
前記課題を解決するため、本発明では、各種の業務を実行する複数の業務サーバとこれらの業務サーバからイベントの通知を受ける管理サーバとを含んで構成されるコンピュータシステムを用いて、前記イベントにより通知された障害に対処する一連の対処手順を表すシナリオの適用を支援するシナリオ適用支援方法であって、前記管理サーバは、情報の記憶部と処理部とを含み、前記記憶部は、前記業務毎に、前記イベントの通知により運用に支障を受けるおそれのある当該イベントの属性を変数にもつ業務監視条件を格納するとともに、前記業務に関し、前記イベントに応じた前記シナリオを格納する。前記管理サーバの処理部は、前記業務サーバから前記イベントを受信した場合、そのイベントの属性に基づいて、前記記憶部の業務監視条件の変数を満たす業務を特定し、前記特定した業務に関し、前記受信したイベントに応じたシナリオを前記記憶部から読み出し、前記読み出したシナリオの一覧を外部出力するステップを実行する。 In order to solve the above-described problem, the present invention uses a computer system including a plurality of business servers that execute various business operations and a management server that receives event notifications from these business servers. A scenario application support method for supporting application of a scenario representing a series of coping procedures for dealing with a notified failure, wherein the management server includes an information storage unit and a processing unit, and the storage unit includes the task Each time, a task monitoring condition having a variable having an attribute of the event that may hinder the operation due to the notification of the event is stored, and the scenario corresponding to the event is stored for the task. When the processing unit of the management server receives the event from the business server, the management server identifies a business that satisfies the variable of the business monitoring condition of the storage unit based on the attribute of the event, and relates to the identified business, A step corresponding to the received event is read from the storage unit, and a step of outputting the read list of scenarios to the outside is executed.
本発明によれば、業務の重要度に応じた個別具体的な障害の対処手順を適用する支援を行うことができる。 According to the present invention, it is possible to provide support for applying an individual specific failure handling procedure according to the importance of business.
図1は実施の形態におけるシナリオ適用支援システムの構成例を示す図である。シナリオ適用支援システムは、管理サーバ100と、クライアント111と、複数の業務サーバ114とを含んで構成され、これらはインターネット等のネットワークを介して相互に接続されている。図1では、2台の業務サーバ114が示されているが、3台以上の業務114をネットワークに接続するように構成してもよい。
FIG. 1 is a diagram illustrating a configuration example of a scenario application support system according to an embodiment. The scenario application support system includes a
(管理サーバの構成)
管理サーバ100は、各業務サーバ114における運用状況を収集して管理する計算機であり、メモリ(記憶部)10とCPU(処理部)11とを含んで構成されている。
メモリ10は、たとえば、後記する複数のテーブル101、102、103、108、109、110、118、119、121を登録している。
また、メモリ10は、イベント受信部104と、ガイド生成部105と、シナリオ制御部106と、業務監視部107と、業務制御部120とを有する。これら各部104、105、106、107、120は各種プログラム(ソフトウェア)を指し、各種プログラム(管理プログラムともいう)はCPU11によって実行される。
(Management server configuration)
The
For example, the
In addition, the
次に、各テーブルについて説明する(適宜図1参照)。
イベントテーブル101は、図5に示すように、通し番号500、イベントID501、通知事象502、緊急度503、受信時刻504およびサーバ名505を関連付けている。
通し番号500は、管理サーバ100で一意に決められるイベントの通し番号であり、イベントID501は、イベントを一意に識別するためのIDである。なお、本実施の形態におけるイベントは、業務サーバ114のハードウェアあるいはソフトウェア自身の状態の変化を示す通知を意味し、この通知には、イベントID501のほか、通知事象502、緊急度503およびサーバ名505を表す変数(パラメータ)が含まれている。なお、通し番号500、イベントID501、通知事象502、緊急度503およびサーバ名505を総称してイベントの属性ともいう。
Next, each table will be described (see FIG. 1 as appropriate).
As shown in FIG. 5, the event table 101 associates a
The
通知事象502は、イベントの通知内容を表す。具体的には、業務サーバ114のハードウェアあるいはソフトウェアの状態を表す事象(障害)である。図5では、たとえば、CPU利用率が危険域に達したとか、日次業務が正常に終了したことを表す内容の事象が示されている。
緊急度503は、イベントにより通知された障害のレベル(程度)を定量的にあらわしたものであり、たとえば、警戒以上(高レベル)、警告以上(中レベル)およびエラー以上(低レベル)の3つのレベルがある。このレベル数は、2つあるいは4つ以上にしてもよい。なお、緊急度503の値は、一般的には、製品たる業務サーバ114の仕様等で決まることになる。
受信時刻504は、イベントの受信時刻を表す。サーバ名505は、イベント発行元のサーバ名(業務サーバA等)を表す。つまり、業務サーバ114の識別情報である。
The notification event 502 represents the notification content of the event. Specifically, it is an event (failure) representing the hardware or software status of the
The
The reception time 504 represents the event reception time. A server name 505 represents a server name (business server A or the like) of an event issue source. That is, it is identification information of the
業務テーブル103は、業務の運用状況を管理するものであり、図6に示すように、業務ID600、業務名601、スケジュール602、業務603および実行サーバ名604を関連付けている。この関連付けは、シナリオ適用支援システムで用いられる業務の内容等をもとにして行われる。
業務ID600は、業務を識別するためのIDを表し、業務名601は、当該業務の名称を表す。たとえば、日次業務や月次業務等がある。
スケジュール602は、業務の実行スケジュールを表す。たとえば、毎日23時に実行することを表す「毎日23:00実行」等がある。
業務603は、業務内容を表す。図6では、たとえば、業務データ収集、業務データ集計等の内容が業務603に設定されている。
実行サーバ名604は、業務を実行するサーバのサーバ名(業務サーバA等)を表す。
The business table 103 manages the operational status of business, and as shown in FIG. 6, the
The
A
The
The
シナリオテーブル109は、図7に示すように、シナリオID700、シナリオ名称701および正規化コマンドリスト702を関連付けている。
シナリオID700は、シナリオを識別するためのIDを表し、シナリオ名称701は、スケールアウト等のシナリオの名称を表す。シナリオというのは、イベントで通知された障害(事象)に対する一連の対処手順を意味する。
正規化コマンドリスト702は、一連の対処手順を定義したもので、変数を含むコマンド(割り当て等)などのコマンド列(個々のコマンドを正規化コマンドともいう)により構成されている。変数としては、イベントの属性(通し番号、イベントID、通知事象、緊急度、サーバ名)や、業務テーブル103(図6参照)の業務情報(業務ID、業務名、スケジュール、業務、実行サーバ名)がある。
このようにすると、新規サーバ名等の値を変数に代入することにより、イベントとして通知された障害により影響を受ける業務サーバ114上の業務に対して、その障害に対処するための一連の対処手順を適用することが可能となる。つまり、汎用性のある一連の対処手順を正規化コマンドリストを用いて提供することが可能となる。
The scenario table 109 associates a
The
The
In this way, by substituting a value such as a new server name into a variable, a series of coping procedures for dealing with the failure on the
たとえば図7に示した「スケールアウト」のシナリオ名称701の場合、「新規サーバ名」と「業務名」とを変数に持つコマンドが正規化コマンドリスト702に定義付けられているので、それぞれの変数に値を代入することにより、スケールアウトという一連の対処手順を適用することが可能となる。
また図7では、「スケールアウト」のほかにも、「スケールイン」や「データベースのバックアップ」、「データベースのリストア」、「セキュリティパッチの配布」といったシナリオ名称701に関する正規化コマンドリスト702が定義付けられているので、それらの種類についての一連の対処手順を適用することも可能となる。
For example, in the case of the “scale-out”
In FIG. 7, in addition to “scale out”, a
なお、正規化コマンドリスト702中の変数に値が指定されて代入されると、それが対処コマンド列として対処コマンドリスト121(図1参照)に登録される。
When a value is specified and assigned to a variable in the normalized
業務・シナリオ関連テーブル102は、図8に示すように、業務ID800、シナリオID801および緊急度の条件802を関連付けている。
業務ID800は、業務テーブル103(図6参照)の業務ID600と同様の内容であり、シナリオID801は、シナリオテーブル109(図7参照)のシナリオID700と同様の内容である。
緊急度の条件802は、イベントの変数である緊急度503がどの値になったときに、当該業務に対する一連の対処手順(シナリオ)を適用するかを示す条件である。たとえば、エラー以上が緊急度の条件802に指定されている場合、エラー以上の値を持つ緊急度503のイベントが通知されたときに、当該業務に対する一連の対処手順が適用されることになる。
このようにすると、業務の重要性に応じて、緊急度の条件802の値を変更することが可能になるので、イベントの緊急度503の値(レベル)によっては、シナリオを適用しないように設定することが可能となる。たとえば、重要度の高い業務に関しては、緊急性が低い値(エラー以上)を持つイベントが通知されたとしても、緊急性が高い値(警戒以上)を持つイベントが通知されなければ、その通知されたイベントの障害に対するシナリオを適用させないように設定することが可能となる。
また逆に、重要度の低い業務に関しては、緊急性が高い値(警戒以上)を持つイベントが通知された場合にのみ、スケールアウト等のシナリオを適用させるように設定することも可能となる。
As shown in FIG. 8, the business / scenario relation table 102 associates a
The
The
In this way, the value of the
Conversely, for a less important task, it is possible to set a scenario such as a scale-out to be applied only when an event having a high urgency value (warning or higher) is notified.
業務監視テーブル108は、図9に示すように、業務ID900、業務監視名901および業務監視条件902を関連付けている。業務ID900は、業務テーブル103(図6参照)の業務ID600と同様の内容である。
業務監視名901は、業務の監視名を表す。たとえば、業務サーバAを監視することを表す「業務サーバA監視」等がある。
業務監視条件902は、業務の監視条件を表し、イベントの属性(図5の通し番号、イベントID、通知事象、緊急度、サーバ名)の一部あるいは全部が業務監視条件の変数に用いられる。つまり、イベントのどの属性に着目して業務の監視を行うのかが定義されている。
図9では、業務監視名901が「業務サーバA監視」の場合が例示されているが、この場合であれば、イベントID(1000の値)とサーバ名(業務サーバA)の2つの属性に着目して業務を監視することが定義されていることになる。
As shown in FIG. 9, the work monitoring table 108 associates a
The
The
FIG. 9 illustrates the case where the
なお、業務監視条件902内の変数は、業務実行中の業務サーバ114から通知されたイベントをもとに、決定するようにしてもよいし、あるいは、システム管理者が業務サーバ114の仕様や業務内容等をもとに、あらかじめ決定しておくようにしてもよい。
たとえば、イベントの通知事象として、発行元の業務サーバ114の異常(CPU温度異常等)が示されている場合、そのイベント発行時に稼働していた業務とその異常内容との関係を関連付けて、それらの値を業務監視条件902の変数に用いるようにしてもよい。
Note that the variables in the
For example, if the event notification event indicates an abnormality of the issuing business server 114 (CPU temperature abnormality, etc.), associate the relationship between the business that was operating when the event was issued and the content of the abnormality, and May be used as a variable of the
ガイドテーブル110は、図10に示すように、イベントID1000とガイダンス1001とを関連付けている。イベントID1000は、イベントテーブル101(図5参照)のイベントID501と同様の内容である。
ガイダンス1001は、イベントにより通知された障害の内容とその対処法(対処手順を含む)とを表す。図10では、たとえば、「CPU利用率がしきい値を超えています。(中略)再スケジューリングして下さい。」等のテキストデータがガイダンスに登録されている。これにより、障害に対する対処法をたとえばシステム管理者等に提示することが可能となる。
なお、ガイダンス1001の内容には、たとえば、イベントの発行元となる業務サーバ114(製品)から提供された内容を設定しているが、システム管理者がその内容を変更してもよい。
As shown in FIG. 10, the guide table 110 associates an
The
For example, the content provided from the business server 114 (product) that is the event issue source is set as the content of the
イベント・業務関連リスト118は、図11に示すように、通し番号1100と業務ID1101とを関連付けている。通し番号1100は、イベントテーブル101(図5参照)の通し番号500と同様の内容であり、業務ID1101は、業務テーブル103(図6参照)の業務ID600と同様の内容である。これにより、対応するイベントと業務との関係を一意に対応付けることが可能となる。
The event / business relation list 118 associates a serial number 1100 with a
イベント・シナリオ関連リスト119は、図12に示すように、通し番号1200とシナリオID1201とを関連付けている。通し番号1200は、イベントテーブル101(図5参照)の通し番号500と同様の内容であり、シナリオID1201は、シナリオテーブル109(図7参照)のシナリオID700と同様の内容である。これにより、対応するイベントとシナリオとの関係を一意に対応付けることが可能となる。
The event / scenario relation list 119 associates a
次に、各種プログラム(図1参照)の機能について概説する。
イベント受信部104は、業務サーバ114(イベント発行部116)で発行されたイベントをネットワーク経由で受信してイベントテーブル101に格納する機能を持つ。
ガイド生成部105は、業務・シナリオ関連テーブル102と業務監視部107が特定したイベントが影響する業務の情報をもとにイベント・シナリオ関連リスト119を生成し、ガイドテーブル110から取得したイベントに対応するガイダンスの情報とともに、クライアント111のガイドView112に送信する機能を持つ。
Next, the functions of various programs (see FIG. 1) will be outlined.
The
The
シナリオ制御部106は、クライアント111のガイドView112により選択されたシナリオに関する定義をシナリオテーブル109から取得し、対処コマンドリストを生成する。また、シナリオ制御部106は、業務サーバ114のシナリオ実行部117に対処コマンドの実行を指示する機能を持つ。なお、対処コマンドリスト121の実行状況はシナリオView113に表示される。
業務監視部107は、業務監視テーブル108の定義をもとにイベントテーブル101内のイベントと業務監視テーブル108内の業務とを関連付け、イベント・業務関連リスト118に格納する。また、業務監視部107は、通知されたイベントの事象により影響を受ける業務を特定する機能を持つ。
業務制御部120は、業務テーブル103の内容をもとに、業務サーバ114の業務実行部115に業務の実行を指示する機能を持つ。
The
The
The
(業務サーバの構成)
次に、業務サーバ114の構成について説明する。
業務サーバ114は、データ収集等の各種業務を遂行するための計算機であり、たとえばメールサーバやウェブサーバ、データベースサーバ、プロキシサーバなどがある。なお、1台の業務サーバ114は、複数の種類の業務を遂行してもよい。
業務サーバ114は、図1に示すように、メモリ30とCPU31とを含んで構成されている。メモリ30は、業務実行部115と、イベント発行部116と、シナリオ実行部117とを有する。これら各部115、116、117は、各種プログラムを指す。
(Business server configuration)
Next, the configuration of the
The
The
業務実行部115は、業務を実行し、イベント発行部116は、障害等の事象を通知するイベントを発行する機能がある。障害としては、たとえば、ウェブサーバとしての業務サーバにアクセスが集中した場合や、業務サーバのハードウェアに障害(CPUの温度異常等)が生じた場合等がある。
シナリオ実行部117は、障害対処のシナリオ(対処コマンド列)を実行する。これらを用いることにより、業務実行部115で実行中の業務が失敗した場合等、業務サーバ114に何らかの障害が発生した場合、イベント発行部116は、その障害の内容を通知するイベントを管理サーバ100に発行する。そして、この発行により、シナリオ実行部117は、障害に対するシナリオを実行してその障害を復旧することが可能となる。
The
The
(クライアントの構成)
次に、クライアント111の構成について説明する。
クライアント111は、ユーザが監視を行うための計算機(パーソナルコンピュータ等)であり、図1に示すように、メモリ20とCPU21とを含んで構成されている。
メモリ20は、ガイドView112と、シナリオView113とを有する。これら112、113は、各種プログラムを指す。
(Client configuration)
Next, the configuration of the
The
The
ガイドView112は、管理サーバ100が障害をイベントとして通知した場合にそのイベントに関するガイダンスとその障害に適用可能なシナリオの一覧を表示する機能を持つ。
ガイドView112の機能により、システム管理者は、シナリオを適切に選択することが可能となる。
シナリオView113は、シナリオの詳細と実行結果を表示する機能を持つ。
The
The function of the
The
次に、このようなシナリオ適用支援システムを用いて、業務サーバ114に障害が発生した場合のその障害を対処するためのシナリオを実行するまでの処理を説明する(適宜図1参照)。
図2は、シナリオ適用支援システムにおけるシナリオの実行に関する全体の処理手順を示す図である。ここでは、ある業務サーバ114の業務実行部115が業務を実行しているときにその業務に障害が発生し、その業務サーバ114のイベント発行部116がその障害を示すイベントを管理サーバ100に発行した場合を例に説明する。
ステップ200では、管理サーバ100のイベント受信部104(CPU11)が、業務サーバ114のイベント発行部116によって発行されたイベントをネットワークを介して受信する。受信したイベントには、イベントID、通知事象、緊急度および業務サーバ114のサーバ名の各値が変数として含まれている。
イベントの受信により、管理サーバ100では、イベント受信部104が、そのイベントのイベントID501と通知事象502と緊急度503とサーバ名505との各値をイベントテーブル101(図5参照)に登録する。このとき、イベントテーブル101の通し番号500には、イベント受信部104によって採番された値が登録される。また、受信時刻504には、イベント受信部104に受信されたイベントの受信時刻が登録される。これにより、以後、通し番号500の値をキーとして、管理サーバ100で受信したイベントの属性等(図5のイベントID、通知事象、緊急度、受信時刻、サーバ名)を一意に対応付けることが可能となる。
Next, a process until execution of a scenario for coping with a failure when a failure occurs in the
FIG. 2 is a diagram showing an overall processing procedure related to scenario execution in the scenario application support system. Here, when a
In
By receiving the event, in the
ステップ201では、管理サーバ100の業務監視部107(CPU11)が、受信したイベントと、そのイベントにより運用に支障が生じるおそれのある業務との組をあらわすイベント・業務関連リスト118を作成する(詳細は後記図3)。
In
ステップ202では、管理サーバ100のガイド生成部105(CPU11)が、ステップ201で作成したイベント・業務関連リスト118と、業務・シナリオ関連テーブル102とをもとに、イベント・シナリオ関連リスト119を作成する(詳細は後記図4)。
In
ステップ203では、管理サーバ100のガイド生成部105(CPU11)が、ガイドテーブル110(図10参照)から、対応するイベントID1000の値に対応するガイダンス1001を取得する。
In
ステップ204では、ガイド生成部105が、シナリオ一覧とイベントのガイダンスとを、ネットワークを介して、クライアント111に送信する。シナリオ一覧は、次のような処理により送信される。すなわち、ガイド生成部105は、ステップ202で作成されたイベント・シナリオ関連リスト119(図12参照)のシナリオID1201の値に対応するシナリオ名称をシナリオテーブル109(図7参照)から読み出し、それらのシナリオ名称をシナリオ一覧として送信する。送信されたシナリオ一覧のシナリオ名称には、シナリオIDが対応付けられている。
また、イベントのガイダンスは、次のような処理により送信される。すなわち、ガイド生成部105は、対応するイベントIDに対応するガイダンスをガイドテーブル110(図10参照)から読み出して送信する。
In
The event guidance is transmitted by the following process. That is, the
ステップ205では、当該送信を受け、クライアント111(CPU21)は、ガイドView112で、ガイダンスとシナリオ一覧とを表示する。この表示は、クライアント111のCPU21によって、たとえば、クライアント111に接続されたコンピュータディスプレイ等の表示装置に行われる。
表示例を図13に示す。この表示例では、「CPU利用率がしきい値を超えています。該当サーバで稼動する業務が正常に終了しない危険性があります。」という内容のガイダンスが表示されている。また、「スケールイン、スケールアウト」という内容のシナリオ一覧が「適用可能シナリオ」の項目に表示されている。これにより、たとえば、システム管理者は、障害の程度とその対処法を確認することが可能となる。
In
A display example is shown in FIG. In this display example, guidance indicating that “the CPU usage rate exceeds the threshold value. There is a risk that the operation running on the server may not be terminated normally” is displayed. In addition, a list of scenarios with the contents “scale in, scale out” is displayed in the “applicable scenario” item. As a result, for example, the system administrator can check the degree of failure and how to deal with it.
そして、たとえば、システム管理者が、マウス等の入力装置を用いて、表示されたシナリオ一覧の中から、1つのシナリオ(たとえばスケールアウト)を選択する。この選択方法としては、たとえば、1つのシナリオを残し、他のシナリオを削除する方法等がある。なお、システム管理者は、シナリオを選択する際、シナリオView113を用いて、各シナリオの具体例(スケールアウトの処理方法等)を表示装置に表示することができる。
このようにして、図2のステップ206では、クライアント111は、シナリオ一覧の中から、特定のシナリオを選択する。選択されたシナリオ(シナリオID)は、システム管理者による入力装置の操作により、クライアント111から管理サーバ100に送信される。
Then, for example, the system administrator uses the input device such as a mouse to select one scenario (for example, scale out) from the displayed scenario list. As this selection method, for example, there is a method of leaving one scenario and deleting another scenario. When selecting a scenario, the system administrator can use the
Thus, in
ステップ207では、管理サーバ100のシナリオ制御部106(CPU11)は、対処コマンド列を生成する(詳細は後記図14、図15)。
ステップ208では、管理サーバ100のシナリオ制御部106は、ネットワークを介して、業務サーバ114のシナリオ実行部117に対し、生成した対処コマンド列の実行を指示する。当該指示に受け、業務サーバ114のシナリオ実行部117が対処コマンド列の実行を完了すると、その旨を管理サーバ1000に通知する。なお、対処コマンド列の実行により、イベントで通知された障害が回復することになる。
ステップ209では、当該通知を受け、クライアント111は、業務サーバ114のシナリオ実行部117でのシナリオの実行結果(たとえば、図15の対処コマンドリストの実行内容等)をシナリオView113で表示する(ステップ209)。
In
In step 208, the
In
次に、ステップ201(図2参照)の作成処理の詳細手順を図3に示す。
ステップ300では、まず、業務監視部107が、イベントテーブル101(図5参照)から、対応するイベントの属性(図5の通し番号、イベントID、通知事象、緊急度、サーバ名)を取得する。そして、業務監視部107が、取得したイベントの属性に関して、業務監視テーブル108(図9参照)に未比較の項目(レコード)が存在するかどうかを判定する。たとえば、イベントの属性と、業務監視テーブル108の業務監視条件902の内容との比較を行っていなければ、未比較の項目が存在することになる。
Next, FIG. 3 shows a detailed procedure of the creation process in step 201 (see FIG. 2).
In
このような判定の結果、項目が存在しない場合(ステップ300のNo)、処理を終了し、他方、存在する場合(ステップ300のYes)、業務監視部107が、ステップ301に進み、業務監視テーブル108(図9参照)から、未比較の項目の業務監視条件を取得する。
As a result of such determination, if the item does not exist (No in Step 300), the process ends. On the other hand, if it exists (Yes in Step 300), the
ステップ302では、業務監視部107は、当該イベントの属性とステップ301で取得した業務監視条件とを比較する。たとえば、イベントの属性(通し番号、イベントID、通知事象、緊急度、サーバ名)の一部または全部が、業務監視テーブル108(図9参照)の業務監視条件902の変数(イベントID、サーバ名等)の値と一致する場合、ステップ302における判定は、一致するとの結果を得ることになる。
図9では、たとえば、業務監視条件902には、「1000」のイベントIDと「業務サーバA」のサーバ名が変数に含まれているので、これらの変数の値を属性に持つイベントであれば、ステップ302の判定は一致するとの結果を得ることになる。
In
In FIG. 9, for example, the
このような判定の結果、不一致の場合(ステップ302の不一致)、ステップ300に進んで処理を繰り返し、他方、一致の場合(ステップ302の一致)、ステップ303に進んだ後、ステップ300に戻って処理を繰り返す。
ステップ303では、業務監視部107は、イベントと業務の対応関係をイベント・業務関連リスト118に追加する。具体的には、業務監視部107は、ステップ302で一致した業務監視条件に対応する業務IDを業務監視テーブル108から読み出す。また、業務監視部107は、対応するイベントテーブル101(図5参照)の通し番号と、前記読み出した業務IDとを含むレコードをイベント・業務関連リスト118(図11参照)に追加する。
このようにして、イベントの通知により運用に影響するおそれのある業務とそのイベントとの関係をイベント・業務関連リスト118を用いて対応付けることとなる。
As a result of such determination, if they do not match (step 302 does not match), the process proceeds to step 300 and the process is repeated. On the other hand, if they match (step 302 matches), the process proceeds to step 303 and then returns to step 300. Repeat the process.
In step 303, the
In this way, the relationship between the business that may affect the operation due to the notification of the event and the event is associated using the event / business related list 118.
次に、ステップ202(図2参照)の作成処理の詳細手順を図4に示す(適宜図1参照)。
ステップ400では、まず、ガイド生成部105が、イベント・業務関連リスト118(図11参照)を参照し、後記するステップ402以降の処理が未処理の項目(レコード)が存在するかを確認する。
確認の結果、未処理の項目が存在しない場合(ステップ400のNo)、処理を終了し、他方、未処理の項目が存在した場合(ステップ400のYes)、ステップ401に進む。
ステップ401では、ガイド生成部105が、イベント・業務関連リスト118から、未処理の項目を取得する。
Next, FIG. 4 shows the detailed procedure of the creation process in step 202 (see FIG. 2) (see FIG. 1 as appropriate).
In
As a result of the confirmation, if there is no unprocessed item (No in step 400), the process ends. On the other hand, if an unprocessed item exists (Yes in step 400), the process proceeds to step 401.
In
ステップ402では、ガイド生成部105は、取得した項目の業務IDをキーとして、シナリオテーブル109に業務に対応するシナリオが存在するかどうかを確認する。具体的には、ガイド生成部105は、業務テーブル103(図6参照)から、キーとした業務IDに対応する、業務名601とスケジュール602と業務603と実行サーバ名604の各値を読み出す。そして、ガイド生成部105は、シナリオテーブル109(図7参照)の正規化コマンドリスト702中に、読み出した値を変数に持つ正規化コマンドリストが存在するかどうかを確認する。確認の結果、正規化コマンドリストが存在すれば、ステップ402では、シナリオが存在するとの結果を得る。
In
ステップ403において、シナリオが存在する場合(ステップ402のYes)、ガイド生成部105は、業務・シナリオ関連テーブル102(図8参照)から、キーとした業務IDの業務に対応するシナリオIDと緊急度の条件とを取得する。
ステップ404では、ガイド生成部105は、イベントの緊急度とシナリオの緊急度の条件とを比較する。たとえば、シナリオの緊急度の条件で指定された値が、イベントの緊急度を満たす場合には、比較の結果が一致するとの結果を得る。ここでいう一致というのは、シナリオの緊急度の条件を満たすことを意味する。たとえば、シナリオの緊急度の条件が、エラー以上(低レベル以上)の値の場合、シナリオの緊急度がどの値であっても、シナリオの緊急度の条件は満たされることとなる。したがって、双方は一致することになる。
In step 403, when a scenario exists (Yes in step 402), the
In
このようにして比較した結果、一致しなければ(ステップ404の不一致)、ステップ402に戻って処理を繰り返し、他方、一致すれば(ステップ404の一致)、ステップ405に進んだ後、ステップ402に戻って処理を繰り返す。
ステップ405では、ガイド生成部105は、当該シナリオをイベント・シナリオ関連リスト119に追加する。具体的には、ガイド生成部105は、一致した緊急度の条件に対応するシナリオIDと、対応するイベントの通し番号とを含むレコードをイベント・シナリオ関連リスト119(図12参照)に追加する。
このようにして、イベントにより通知された障害に対処するためのシナリオとそのイベントとの関係をイベント・シナリオ関連リスト119を用いて対応付けることとなる。
As a result of the comparison, if they do not match (disagreement in step 404), the process returns to step 402 to repeat the process. On the other hand, if they match (matching in step 404), the process proceeds to step 405 and then to step 402. Return and repeat the process.
In
In this way, the relationship between the scenario for dealing with the failure notified by the event and the event is associated using the event / scenario relation list 119.
次に、ステップ207(図2参照)の生成処理の詳細手順を図14に示す(適宜図1参照)。
ステップ1400では、シナリオ制御部106は、シナリオテーブル109(から、選択されたシナリオのシナリオID(図2のステップ206参照)に対応する正規化コマンドリストを取得する。
ステップ1401では、シナリオ制御部106は、イベントテーブル101(図5参照)から、対応するイベントの属性を取得する。
Next, FIG. 14 shows the detailed procedure of the generation process in step 207 (see FIG. 2) (see FIG. 1 as appropriate).
In
In
ステップ1402では、シナリオ制御部106は、シナリオテーブル109を参照し、ステップ1403以降の処理が未処理の正規化コマンドが存在するかどうかを確認する。
確認の結果、未処理の正規化コマンドが存在しない場合(ステップ1402のNo)、処理を終了する。他方、未処理の正規化コマンドが存在した場合(ステップ1402のYes)、ステップ1403で、シナリオ制御部106は、未代入の変数が存在しないかどうかを確認する。
In
As a result of the confirmation, if there is no unprocessed normalization command (No in step 1402), the process is terminated. On the other hand, when there is an unprocessed normalization command (Yes in Step 1402), in
そして、変数が存在しない場合(ステップ1403のNo)、シナリオ制御部106は、正規化コマンドリスト中の正規化コマンドのすべての変数に値を代入したこととなり、それを対処コマンド列として対処コマンドリスト121(図1参照)に追加(登録)し、ステップ1402に戻る。
If the variable does not exist (No in step 1403), the
対処コマンド列の例を図15に示す。この例では、図7に示したスケールアウトの正規化コマンドリストに「業務サーバC」と「日次業務」という値が変数に代入されている。このため、日次業務を業務サーバCに割り当てるスケールアウトを実行させることが可能となる。 An example of the handling command string is shown in FIG. In this example, the values “business server C” and “daily work” are assigned to variables in the scale-out normalization command list shown in FIG. For this reason, it is possible to execute the scale-out for assigning the daily work to the business server C.
図14に戻って、他方、未代入の変数が存在した場合(ステップ1403のYes)、シナリオ制御部106は、その変数に対応するイベントの属性(通し番号、イベントID、通知事象、緊急度、サーバ名)または業務情報(業務ID、業務名、スケジュール、業務、実行サーバ名)が存在するかどうかを確認する(ステップ1404)。つまり、変数に代入すべき値が存在するかどうかを確認する。
確認の結果、代入すべき値が存在しない場合(ステップ1404のNo)、シナリオ制御部106は、たとえば、正規化コマンドリストの変数の値の入力を促し、それを代入させるための処理を行う(ステップ1406)。この処理では、シナリオ制御部106は、たとえば、クライアント111にその旨の情報をネットワークを介して通知して、クライアント111の表示装置に表示させる。そして、システム管理者による入力装置の操作により、未代入の変数の値を指定させ、管理サーバ100に送信させることとなる。
Returning to FIG. 14, on the other hand, if an unassigned variable exists (Yes in step 1403), the
As a result of the confirmation, if there is no value to be substituted (No in Step 1404), the
これに対して、代入すべき値が存在する場合(ステップ1404のYes)、シナリオ制御部106は、その値を正規化コマンドの変数に代入する(ステップ1405)。このようにして、当該障害に対処するための一連の対処コマンドリストを生成することとなる。
On the other hand, when there is a value to be substituted (Yes in Step 1404), the
なお、本発明は、本実施の形態に限定されない。管理サーバ等を含むシナリオ適用支援システムのハードウェア構成、データ構造および処理手順は、本発明の趣旨を逸脱しない限り、変更して構成するようにしてもよい。たとえば、管理サーバ100は、1台のCPUで処理することとしたが、複数のCPUを用いて分散処理を行うように構成してもよい。また、複数台の管理サーバで分散処理を行うように構成してもよい。
Note that the present invention is not limited to the present embodiment. The hardware configuration, data structure, and processing procedure of the scenario application support system including the management server may be changed and configured without departing from the gist of the present invention. For example, although the
10 メモリ(記憶部)
11 CPU(処理部)
100 管理サーバ
111 クライアント
114 業務サーバ
10 Memory (storage unit)
11 CPU (Processor)
100
Claims (5)
前記管理サーバは、情報の記憶部と処理部とを含み、
前記記憶部は、前記業務毎に、前記イベントの通知により運用に支障を受ける可能性のある当該イベントの属性を変数にもつ業務監視条件を格納するとともに、前記業務に関し、前記イベントに応じた前記シナリオを格納し、
前記管理サーバの処理部は、
前記業務サーバから前記イベントを受信した場合、そのイベントの属性に基づいて、前記記憶部の業務監視条件の変数を満たす業務を特定し、
前記特定した業務に関し、前記受信したイベントに応じたシナリオを前記記憶部から読み出し、
前記読み出したシナリオの一覧を外部出力するステップを実行することを特徴とするシナリオ適用支援方法。 A procedure for dealing with a failure notified by an event using a computer system that includes a plurality of business servers that execute various types of business and a management server that receives event notifications from these business servers. A scenario application support method for supporting application of a scenario,
The management server includes an information storage unit and a processing unit,
The storage unit stores, for each job, a job monitoring condition having a variable having an attribute of the event that may be hindered in operation due to notification of the event, and relates to the job according to the event. Store scenarios,
The processing unit of the management server
When receiving the event from the business server, based on the attribute of the event, identify the business that satisfies the business monitoring condition variable of the storage unit,
Regarding the identified business, a scenario corresponding to the received event is read from the storage unit,
A scenario application support method comprising: executing a step of outputting the read list of scenarios to the outside.
前記外部出力したシナリオの一覧の中から選択された特定のシナリオを受信し、
受信した特定のシナリオを実行させるための対処コマンド列を生成し、
生成した対処コマンド列の実行を前記業務サーバに指示するステップをさらに実行するとともに、
前記業務サーバは、
前記対処コマンド列を実行するステップをさらに実行することを特徴とする請求項1に記載のシナリオ適用支援方法。 The processing unit of the management server
Receiving a specific scenario selected from the externally output scenario list;
Generate a response command string to execute the received specific scenario,
A further step of instructing the business server to execute the generated response command sequence;
The business server is
The scenario application support method according to claim 1, further comprising the step of executing the handling command string.
前記管理サーバは、情報の記憶部と処理部とを含み、
前記記憶部は、前記業務毎に、前記イベントの通知により運用に支障を受ける可能性のある当該イベントの属性を変数にもつ業務監視条件を格納するとともに、前記業務に関し、前記イベントに応じたシナリオを格納し、
前記処理部は、
前記業務サーバから前記イベントを受信した場合、そのイベントの属性に基づいて、前記記憶部の業務監視条件の変数を満たす業務を特定し、
前記特定した業務に関し、前記受信したイベントに応じたシナリオを前記記憶部から読み出し、
前記読み出したシナリオの一覧を外部出力することを特徴とする管理サーバ。 A management server that receives event notifications from multiple business servers that execute various business operations.
The management server includes an information storage unit and a processing unit,
The storage unit stores, for each business, a business monitoring condition having as a variable an attribute of the event that may be hindered in operation due to notification of the event, and a scenario corresponding to the event with respect to the business Store
The processor is
When receiving the event from the business server, based on the attribute of the event, identify the business that satisfies the business monitoring condition variable of the storage unit,
Regarding the identified business, a scenario corresponding to the received event is read from the storage unit,
A management server for outputting the list of read scenarios externally.
前記コンピュータは、情報の記憶部と処理部とを含み、
前記記憶部は、前記業務毎に、前記イベントの通知により運用に支障を受ける可能性のある当該イベントの属性を変数にもつ業務監視条件を格納するとともに、前記業務に関し、前記イベントに応じたシナリオを格納し、
前記処理部に、
前記業務サーバから前記イベントを受信した場合、そのイベントの属性に基づいて、前記記憶部の業務監視条件の変数を満たす業務を特定し、前記特定した業務に関し、前記受信したイベントに応じたシナリオを前記記憶部から読み出し、前記読み出したシナリオの一覧を外部出力させることを特徴とする管理プログラム。 Used for computers that receive event notifications from multiple business servers that execute various business operations.
The computer includes an information storage unit and a processing unit,
The storage unit stores, for each business, a business monitoring condition having as a variable an attribute of the event that may be hindered in operation due to notification of the event, and a scenario corresponding to the event with respect to the business Store
In the processing unit,
When the event is received from the business server, based on the event attribute, the business that satisfies the business monitoring condition variable of the storage unit is identified, and the scenario corresponding to the received event is identified for the identified business. A management program that reads from the storage unit and outputs a list of the read scenarios to the outside.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005169987A JP2006344061A (en) | 2005-06-09 | 2005-06-09 | Scenario application support method, management server and management program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005169987A JP2006344061A (en) | 2005-06-09 | 2005-06-09 | Scenario application support method, management server and management program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006344061A true JP2006344061A (en) | 2006-12-21 |
Family
ID=37640976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005169987A Pending JP2006344061A (en) | 2005-06-09 | 2005-06-09 | Scenario application support method, management server and management program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006344061A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008210151A (en) * | 2007-02-26 | 2008-09-11 | Sky Kk | Failure prediction system |
JP2009048403A (en) * | 2007-08-20 | 2009-03-05 | Hitachi Information Systems Ltd | System failure recovery device, command generation method therefor, and program thereof |
JP2009211618A (en) * | 2008-03-06 | 2009-09-17 | Nec Corp | Automatic fault recovery device |
JP2009276929A (en) * | 2008-05-13 | 2009-11-26 | Hitachi Electronics Service Co Ltd | Automatic fault handling system |
JP2018513500A (en) * | 2015-04-24 | 2018-05-24 | ゴールドマン サックス アンド カンパニー エルエルシー | System and method for handling events involving computing systems and networks using a fabric monitoring system |
-
2005
- 2005-06-09 JP JP2005169987A patent/JP2006344061A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008210151A (en) * | 2007-02-26 | 2008-09-11 | Sky Kk | Failure prediction system |
JP4679536B2 (en) * | 2007-02-26 | 2011-04-27 | Sky株式会社 | Failure occurrence prediction system |
JP2009048403A (en) * | 2007-08-20 | 2009-03-05 | Hitachi Information Systems Ltd | System failure recovery device, command generation method therefor, and program thereof |
JP2009211618A (en) * | 2008-03-06 | 2009-09-17 | Nec Corp | Automatic fault recovery device |
JP2009276929A (en) * | 2008-05-13 | 2009-11-26 | Hitachi Electronics Service Co Ltd | Automatic fault handling system |
JP2018513500A (en) * | 2015-04-24 | 2018-05-24 | ゴールドマン サックス アンド カンパニー エルエルシー | System and method for handling events involving computing systems and networks using a fabric monitoring system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105357038B (en) | Monitor the method and system of cluster virtual machine | |
JP5075736B2 (en) | System failure recovery method and system for virtual server | |
US8140591B2 (en) | Enabling workflow awareness within a business process management (BPM) system | |
TWI608344B (en) | Robust hardware fault management system, method and framework for enterprise devices | |
JP5223413B2 (en) | IT system troubleshooting device, troubleshooting method and program therefor | |
US10911447B2 (en) | Application error fingerprinting | |
JP2009245285A (en) | Computer system for managing progress of plurality of tasks, and its method and computer program | |
US10225155B2 (en) | Network anomaly detection | |
JP2007087232A (en) | Policy creation method for facilitating policy correction accompanying system configuration change and policy management method | |
JP5942481B2 (en) | Operation work management system, method, and program | |
JP2006344061A (en) | Scenario application support method, management server and management program | |
US9875140B2 (en) | System, method, and apparatus for coordinating distributed electronic discovery processing | |
JP5268589B2 (en) | Information processing apparatus and information processing apparatus operating method | |
US9280741B2 (en) | Automated alerting rules recommendation and selection | |
CN104321753B (en) | For the method for usage amount that monitoring resource is presented, computing device and record has the recording medium of the program for execution thereon | |
US11726819B2 (en) | Tool for viewing jobs managed by heterogeneous job schedulers | |
US20200380846A1 (en) | Alarm and notification generation devices, methods, and systems | |
JP6097666B2 (en) | Job management system | |
US20230261877A1 (en) | Blockchain-based collaborative maintenance platform | |
JP5028129B2 (en) | Facility business integrated management method and system and program thereof | |
JP5466740B2 (en) | System failure recovery method and system for virtual server | |
WO2011121681A1 (en) | Job schedule system, job schedule management method, and recording medium | |
JP7167749B2 (en) | Information processing device, information processing system, and information processing program | |
JP7372055B2 (en) | Information processing system and learning method | |
CN103189850A (en) | Method of provisioning additional storage to computer applications |