JP2006344061A - Scenario application support method, management server and management program - Google Patents

Scenario application support method, management server and management program Download PDF

Info

Publication number
JP2006344061A
JP2006344061A JP2005169987A JP2005169987A JP2006344061A JP 2006344061 A JP2006344061 A JP 2006344061A JP 2005169987 A JP2005169987 A JP 2005169987A JP 2005169987 A JP2005169987 A JP 2005169987A JP 2006344061 A JP2006344061 A JP 2006344061A
Authority
JP
Japan
Prior art keywords
business
event
scenario
server
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005169987A
Other languages
Japanese (ja)
Inventor
Kazunori Otsubo
一紀 大坪
Shuhei Sakai
周平 境
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2005169987A priority Critical patent/JP2006344061A/en
Publication of JP2006344061A publication Critical patent/JP2006344061A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To support application of an individual and concrete response procedure for failure according to an importance level of business. <P>SOLUTION: In this scenario application support method, when a management server 100 receives an event from a business server 114, the management server 100 specifies the business satisfying a variable of a business monitoring condition of a memory 10 on the basis of an attribute of the event. The management server 100 reads a scenario according to the received event from the memory 10 about the specified business, and outputs a list of the read scenario to a client 111 via a network. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、業務障害に対処するシナリオを適用する支援を行う技術に関するものである。   The present invention relates to a technique for providing support for applying a scenario for dealing with a business failure.

近年、複数の異なるプラットフォームを持つ計算機上で稼動する業務をスケジューリングして一元管理するシステムが開発されている。このシステムのサーバでは、計算機のハード障害等をあらわす障害情報をイベントとしてテーブルに集約する。集約されたイベントの内容は、ユーザによって、クライアント上のGUI(Graphical User Interface)を通じて確認され、計算機上で業務が正常に処理されているかどうか等の判断が行われる。そして、その判断により前記障害を検知した場合の対処が行われることになる。しかし、このような方法により対処を行うとしても、システムには、さまざまな種類のハードウェアやソフトウェアが搭載されていることが多いため、ユーザは、それらの対処法に関する高度なノウハウも知っておく必要がある。
このような状況下、従来、システム上のハードウェア・ソフトウェアの診断状況や障害の対処履歴を蓄積しておくことにより、蓄積した対処履歴の確信度等に基づき、その状況の近い過去の対処手順を適用する方法が開示されている(たとえば、特許文献1参照)。
特開平8−314751号公報
In recent years, a system for scheduling and centrally managing work running on computers having a plurality of different platforms has been developed. In the server of this system, failure information representing a hardware failure of the computer is collected as an event in a table. The contents of the aggregated event are confirmed by the user through a GUI (Graphical User Interface) on the client, and a determination is made as to whether or not the business is normally processed on the computer. Then, if the failure is detected based on the determination, a countermeasure is taken. However, even if this method is used, the system is often equipped with various types of hardware and software, so the user needs to know advanced know-how on how to deal with them. There is a need.
Under these circumstances, by accumulating the diagnosis status of hardware and software on the system and the history of troubleshooting of the system in the past, based on the certainty of the accumulated handling history, etc. Has been disclosed (see, for example, Patent Document 1).
JP-A-8-314751

しかしながら、一般には業務といっても様々な業務があるため、それぞれの業務の重要性も多様である。そのため、障害が生じた場合、その障害により影響を受ける業務の重要度を考慮した個別具体的な障害の対処手順を適用することが望ましい。個別具体的とは、業務をそれぞれ別々に取り扱いかつ個々の障害の事実に着目することを意味する。
この点、特許文献1に開示された方法では、障害の種類に応じた一連の対処手順のみが定義されているのみで、業務の重要度を考慮した個別具体的な障害の対処手順を適用するように構成されていない。
そこで、本発明は、前記課題を解決するためになされたものであり、業務の重要度に応じた個別具体的な障害の対処手順を適用する支援を行うことを目的とする。
However, in general, there are various business operations, so the importance of each business is also diverse. Therefore, when a failure occurs, it is desirable to apply an individual specific failure handling procedure that takes into account the importance of the business affected by the failure. Individual concrete means that each business is handled separately and attention is paid to the facts of individual obstacles.
In this regard, in the method disclosed in Patent Document 1, only a series of response procedures corresponding to the type of failure is defined, and an individual specific failure response procedure considering the importance of the business is applied. Is not configured to.
Therefore, the present invention has been made to solve the above-described problems, and an object thereof is to provide support for applying an individual specific failure handling procedure according to the importance of business.

前記課題を解決するため、本発明では、各種の業務を実行する複数の業務サーバとこれらの業務サーバからイベントの通知を受ける管理サーバとを含んで構成されるコンピュータシステムを用いて、前記イベントにより通知された障害に対処する一連の対処手順を表すシナリオの適用を支援するシナリオ適用支援方法であって、前記管理サーバは、情報の記憶部と処理部とを含み、前記記憶部は、前記業務毎に、前記イベントの通知により運用に支障を受けるおそれのある当該イベントの属性を変数にもつ業務監視条件を格納するとともに、前記業務に関し、前記イベントに応じた前記シナリオを格納する。前記管理サーバの処理部は、前記業務サーバから前記イベントを受信した場合、そのイベントの属性に基づいて、前記記憶部の業務監視条件の変数を満たす業務を特定し、前記特定した業務に関し、前記受信したイベントに応じたシナリオを前記記憶部から読み出し、前記読み出したシナリオの一覧を外部出力するステップを実行する。   In order to solve the above-described problem, the present invention uses a computer system including a plurality of business servers that execute various business operations and a management server that receives event notifications from these business servers. A scenario application support method for supporting application of a scenario representing a series of coping procedures for dealing with a notified failure, wherein the management server includes an information storage unit and a processing unit, and the storage unit includes the task Each time, a task monitoring condition having a variable having an attribute of the event that may hinder the operation due to the notification of the event is stored, and the scenario corresponding to the event is stored for the task. When the processing unit of the management server receives the event from the business server, the management server identifies a business that satisfies the variable of the business monitoring condition of the storage unit based on the attribute of the event, and relates to the identified business, A step corresponding to the received event is read from the storage unit, and a step of outputting the read list of scenarios to the outside is executed.

本発明によれば、業務の重要度に応じた個別具体的な障害の対処手順を適用する支援を行うことができる。   According to the present invention, it is possible to provide support for applying an individual specific failure handling procedure according to the importance of business.

図1は実施の形態におけるシナリオ適用支援システムの構成例を示す図である。シナリオ適用支援システムは、管理サーバ100と、クライアント111と、複数の業務サーバ114とを含んで構成され、これらはインターネット等のネットワークを介して相互に接続されている。図1では、2台の業務サーバ114が示されているが、3台以上の業務114をネットワークに接続するように構成してもよい。   FIG. 1 is a diagram illustrating a configuration example of a scenario application support system according to an embodiment. The scenario application support system includes a management server 100, a client 111, and a plurality of business servers 114, which are connected to each other via a network such as the Internet. In FIG. 1, two business servers 114 are shown, but three or more business servers 114 may be connected to the network.

(管理サーバの構成)
管理サーバ100は、各業務サーバ114における運用状況を収集して管理する計算機であり、メモリ(記憶部)10とCPU(処理部)11とを含んで構成されている。
メモリ10は、たとえば、後記する複数のテーブル101、102、103、108、109、110、118、119、121を登録している。
また、メモリ10は、イベント受信部104と、ガイド生成部105と、シナリオ制御部106と、業務監視部107と、業務制御部120とを有する。これら各部104、105、106、107、120は各種プログラム(ソフトウェア)を指し、各種プログラム(管理プログラムともいう)はCPU11によって実行される。
(Management server configuration)
The management server 100 is a computer that collects and manages the operational status of each business server 114, and includes a memory (storage unit) 10 and a CPU (processing unit) 11.
For example, the memory 10 registers a plurality of tables 101, 102, 103, 108, 109, 110, 118, 119, and 121 to be described later.
In addition, the memory 10 includes an event reception unit 104, a guide generation unit 105, a scenario control unit 106, a business monitoring unit 107, and a business control unit 120. Each of these units 104, 105, 106, 107, 120 indicates various programs (software), and various programs (also referred to as management programs) are executed by the CPU 11.

次に、各テーブルについて説明する(適宜図1参照)。
イベントテーブル101は、図5に示すように、通し番号500、イベントID501、通知事象502、緊急度503、受信時刻504およびサーバ名505を関連付けている。
通し番号500は、管理サーバ100で一意に決められるイベントの通し番号であり、イベントID501は、イベントを一意に識別するためのIDである。なお、本実施の形態におけるイベントは、業務サーバ114のハードウェアあるいはソフトウェア自身の状態の変化を示す通知を意味し、この通知には、イベントID501のほか、通知事象502、緊急度503およびサーバ名505を表す変数(パラメータ)が含まれている。なお、通し番号500、イベントID501、通知事象502、緊急度503およびサーバ名505を総称してイベントの属性ともいう。
Next, each table will be described (see FIG. 1 as appropriate).
As shown in FIG. 5, the event table 101 associates a serial number 500, an event ID 501, a notification event 502, an urgency level 503, a reception time 504, and a server name 505.
The serial number 500 is an event serial number uniquely determined by the management server 100, and the event ID 501 is an ID for uniquely identifying the event. Note that an event in the present embodiment means a notification indicating a change in the status of the hardware or software of the business server 114. This notification includes an event ID 501, a notification event 502, an urgency level 503, and a server name. A variable (parameter) representing 505 is included. The serial number 500, event ID 501, notification event 502, urgency 503, and server name 505 are collectively referred to as event attributes.

通知事象502は、イベントの通知内容を表す。具体的には、業務サーバ114のハードウェアあるいはソフトウェアの状態を表す事象(障害)である。図5では、たとえば、CPU利用率が危険域に達したとか、日次業務が正常に終了したことを表す内容の事象が示されている。
緊急度503は、イベントにより通知された障害のレベル(程度)を定量的にあらわしたものであり、たとえば、警戒以上(高レベル)、警告以上(中レベル)およびエラー以上(低レベル)の3つのレベルがある。このレベル数は、2つあるいは4つ以上にしてもよい。なお、緊急度503の値は、一般的には、製品たる業務サーバ114の仕様等で決まることになる。
受信時刻504は、イベントの受信時刻を表す。サーバ名505は、イベント発行元のサーバ名(業務サーバA等)を表す。つまり、業務サーバ114の識別情報である。
The notification event 502 represents the notification content of the event. Specifically, it is an event (failure) representing the hardware or software status of the business server 114. In FIG. 5, for example, an event having contents indicating that the CPU utilization rate has reached a critical range or that the daily work has been normally completed is shown.
The urgency level 503 quantitatively represents the level (degree) of the failure notified by the event. For example, the level of urgency or higher (high level), warning or higher (medium level), or error or higher (low level) is 3. There are two levels. The number of levels may be two or four or more. Note that the value of the urgency level 503 is generally determined by the specifications of the business server 114 as a product.
The reception time 504 represents the event reception time. A server name 505 represents a server name (business server A or the like) of an event issue source. That is, it is identification information of the business server 114.

業務テーブル103は、業務の運用状況を管理するものであり、図6に示すように、業務ID600、業務名601、スケジュール602、業務603および実行サーバ名604を関連付けている。この関連付けは、シナリオ適用支援システムで用いられる業務の内容等をもとにして行われる。
業務ID600は、業務を識別するためのIDを表し、業務名601は、当該業務の名称を表す。たとえば、日次業務や月次業務等がある。
スケジュール602は、業務の実行スケジュールを表す。たとえば、毎日23時に実行することを表す「毎日23:00実行」等がある。
業務603は、業務内容を表す。図6では、たとえば、業務データ収集、業務データ集計等の内容が業務603に設定されている。
実行サーバ名604は、業務を実行するサーバのサーバ名(業務サーバA等)を表す。
The business table 103 manages the operational status of business, and as shown in FIG. 6, the business ID 600, the business name 601, the schedule 602, the business 603, and the execution server name 604 are associated with each other. This association is performed based on the business contents used in the scenario application support system.
The business ID 600 represents an ID for identifying a business, and the business name 601 represents the name of the business. For example, there are daily operations and monthly operations.
A schedule 602 represents a business execution schedule. For example, there is “every day at 23:00” indicating execution at 23:00 every day.
The business 603 represents business content. In FIG. 6, for example, business data collection, business data aggregation, and the like are set in the business 603.
The execution server name 604 represents the server name (business server A or the like) of the server that executes the business.

シナリオテーブル109は、図7に示すように、シナリオID700、シナリオ名称701および正規化コマンドリスト702を関連付けている。
シナリオID700は、シナリオを識別するためのIDを表し、シナリオ名称701は、スケールアウト等のシナリオの名称を表す。シナリオというのは、イベントで通知された障害(事象)に対する一連の対処手順を意味する。
正規化コマンドリスト702は、一連の対処手順を定義したもので、変数を含むコマンド(割り当て等)などのコマンド列(個々のコマンドを正規化コマンドともいう)により構成されている。変数としては、イベントの属性(通し番号、イベントID、通知事象、緊急度、サーバ名)や、業務テーブル103(図6参照)の業務情報(業務ID、業務名、スケジュール、業務、実行サーバ名)がある。
このようにすると、新規サーバ名等の値を変数に代入することにより、イベントとして通知された障害により影響を受ける業務サーバ114上の業務に対して、その障害に対処するための一連の対処手順を適用することが可能となる。つまり、汎用性のある一連の対処手順を正規化コマンドリストを用いて提供することが可能となる。
The scenario table 109 associates a scenario ID 700, a scenario name 701, and a normalized command list 702 as shown in FIG.
The scenario ID 700 represents an ID for identifying the scenario, and the scenario name 701 represents the name of a scenario such as scale-out. A scenario means a series of coping procedures for a failure (event) notified by an event.
The normalization command list 702 defines a series of coping procedures, and includes a command sequence (each command is also referred to as a normalization command) such as a command including variables (assignment or the like). Variables include event attributes (serial number, event ID, notification event, urgency, server name) and business information (business ID, business name, schedule, business, execution server name) in the business table 103 (see FIG. 6). There is.
In this way, by substituting a value such as a new server name into a variable, a series of coping procedures for dealing with the failure on the business server 114 affected by the failure notified as an event. Can be applied. That is, it is possible to provide a series of versatile handling procedures using the normalized command list.

たとえば図7に示した「スケールアウト」のシナリオ名称701の場合、「新規サーバ名」と「業務名」とを変数に持つコマンドが正規化コマンドリスト702に定義付けられているので、それぞれの変数に値を代入することにより、スケールアウトという一連の対処手順を適用することが可能となる。
また図7では、「スケールアウト」のほかにも、「スケールイン」や「データベースのバックアップ」、「データベースのリストア」、「セキュリティパッチの配布」といったシナリオ名称701に関する正規化コマンドリスト702が定義付けられているので、それらの種類についての一連の対処手順を適用することも可能となる。
For example, in the case of the “scale-out” scenario name 701 shown in FIG. 7, the commands having “new server name” and “business name” as variables are defined in the normalized command list 702. By assigning a value to, it is possible to apply a series of coping procedures called scale-out.
In FIG. 7, in addition to “scale out”, a normalization command list 702 relating to a scenario name 701 such as “scale in”, “database backup”, “database restore”, and “security patch distribution” is defined. Therefore, it is possible to apply a series of coping procedures for these types.

なお、正規化コマンドリスト702中の変数に値が指定されて代入されると、それが対処コマンド列として対処コマンドリスト121(図1参照)に登録される。   When a value is specified and assigned to a variable in the normalized command list 702, it is registered in the countermeasure command list 121 (see FIG. 1) as a countermeasure command string.

業務・シナリオ関連テーブル102は、図8に示すように、業務ID800、シナリオID801および緊急度の条件802を関連付けている。
業務ID800は、業務テーブル103(図6参照)の業務ID600と同様の内容であり、シナリオID801は、シナリオテーブル109(図7参照)のシナリオID700と同様の内容である。
緊急度の条件802は、イベントの変数である緊急度503がどの値になったときに、当該業務に対する一連の対処手順(シナリオ)を適用するかを示す条件である。たとえば、エラー以上が緊急度の条件802に指定されている場合、エラー以上の値を持つ緊急度503のイベントが通知されたときに、当該業務に対する一連の対処手順が適用されることになる。
このようにすると、業務の重要性に応じて、緊急度の条件802の値を変更することが可能になるので、イベントの緊急度503の値(レベル)によっては、シナリオを適用しないように設定することが可能となる。たとえば、重要度の高い業務に関しては、緊急性が低い値(エラー以上)を持つイベントが通知されたとしても、緊急性が高い値(警戒以上)を持つイベントが通知されなければ、その通知されたイベントの障害に対するシナリオを適用させないように設定することが可能となる。
また逆に、重要度の低い業務に関しては、緊急性が高い値(警戒以上)を持つイベントが通知された場合にのみ、スケールアウト等のシナリオを適用させるように設定することも可能となる。
As shown in FIG. 8, the business / scenario relation table 102 associates a business ID 800, a scenario ID 801, and an urgency condition 802.
The business ID 800 has the same content as the business ID 600 of the business table 103 (see FIG. 6), and the scenario ID 801 has the same content as the scenario ID 700 of the scenario table 109 (see FIG. 7).
The urgency condition 802 is a condition indicating which value of the urgency 503 that is a variable of the event is to apply a series of handling procedures (scenarios) for the business. For example, if an error or higher is specified in the urgency level condition 802, a series of coping procedures for the task is applied when an urgency level 503 event having a value greater than or equal to the error is notified.
In this way, the value of the urgency condition 802 can be changed according to the importance of the business, so that the scenario is not applied depending on the value (level) of the event urgency 503. It becomes possible to do. For example, for highly important operations, even if an event with a low urgency value (error or higher) is notified, an event with a high urgency value (warning or higher) is not notified. It is possible to set so that a scenario for a failure of an event is not applied.
Conversely, for a less important task, it is possible to set a scenario such as a scale-out to be applied only when an event having a high urgency value (warning or higher) is notified.

業務監視テーブル108は、図9に示すように、業務ID900、業務監視名901および業務監視条件902を関連付けている。業務ID900は、業務テーブル103(図6参照)の業務ID600と同様の内容である。
業務監視名901は、業務の監視名を表す。たとえば、業務サーバAを監視することを表す「業務サーバA監視」等がある。
業務監視条件902は、業務の監視条件を表し、イベントの属性(図5の通し番号、イベントID、通知事象、緊急度、サーバ名)の一部あるいは全部が業務監視条件の変数に用いられる。つまり、イベントのどの属性に着目して業務の監視を行うのかが定義されている。
図9では、業務監視名901が「業務サーバA監視」の場合が例示されているが、この場合であれば、イベントID(1000の値)とサーバ名(業務サーバA)の2つの属性に着目して業務を監視することが定義されていることになる。
As shown in FIG. 9, the work monitoring table 108 associates a work ID 900, a work monitoring name 901, and a work monitoring condition 902. The business ID 900 has the same contents as the business ID 600 of the business table 103 (see FIG. 6).
The business monitoring name 901 represents a business monitoring name. For example, there is “business server A monitoring” indicating that the business server A is monitored.
The business monitoring condition 902 represents a business monitoring condition, and some or all of the event attributes (serial number, event ID, notification event, urgency, server name in FIG. 5) are used as a variable for the business monitoring condition. That is, it is defined which attribute of the event is focused on to monitor the business.
FIG. 9 illustrates the case where the business monitoring name 901 is “business server A monitoring”, but in this case, the two attributes of event ID (value of 1000) and server name (business server A) are included. It is defined to monitor the business with attention.

なお、業務監視条件902内の変数は、業務実行中の業務サーバ114から通知されたイベントをもとに、決定するようにしてもよいし、あるいは、システム管理者が業務サーバ114の仕様や業務内容等をもとに、あらかじめ決定しておくようにしてもよい。
たとえば、イベントの通知事象として、発行元の業務サーバ114の異常(CPU温度異常等)が示されている場合、そのイベント発行時に稼働していた業務とその異常内容との関係を関連付けて、それらの値を業務監視条件902の変数に用いるようにしてもよい。
Note that the variables in the business monitoring condition 902 may be determined based on an event notified from the business server 114 that is executing the business, or the system administrator may specify the business server 114 specifications or business You may make it determine beforehand based on the content etc.
For example, if the event notification event indicates an abnormality of the issuing business server 114 (CPU temperature abnormality, etc.), associate the relationship between the business that was operating when the event was issued and the content of the abnormality, and May be used as a variable of the work monitoring condition 902.

ガイドテーブル110は、図10に示すように、イベントID1000とガイダンス1001とを関連付けている。イベントID1000は、イベントテーブル101(図5参照)のイベントID501と同様の内容である。
ガイダンス1001は、イベントにより通知された障害の内容とその対処法(対処手順を含む)とを表す。図10では、たとえば、「CPU利用率がしきい値を超えています。(中略)再スケジューリングして下さい。」等のテキストデータがガイダンスに登録されている。これにより、障害に対する対処法をたとえばシステム管理者等に提示することが可能となる。
なお、ガイダンス1001の内容には、たとえば、イベントの発行元となる業務サーバ114(製品)から提供された内容を設定しているが、システム管理者がその内容を変更してもよい。
As shown in FIG. 10, the guide table 110 associates an event ID 1000 with a guidance 1001. The event ID 1000 has the same contents as the event ID 501 of the event table 101 (see FIG. 5).
The guidance 1001 represents the content of the failure notified by the event and a countermeasure (including a countermeasure procedure). In FIG. 10, for example, text data such as “CPU utilization exceeds the threshold. (Omitted) Please reschedule.” Is registered in the guidance. This makes it possible to present a countermeasure for the failure to, for example, a system administrator.
For example, the content provided from the business server 114 (product) that is the event issue source is set as the content of the guidance 1001, but the content may be changed by the system administrator.

イベント・業務関連リスト118は、図11に示すように、通し番号1100と業務ID1101とを関連付けている。通し番号1100は、イベントテーブル101(図5参照)の通し番号500と同様の内容であり、業務ID1101は、業務テーブル103(図6参照)の業務ID600と同様の内容である。これにより、対応するイベントと業務との関係を一意に対応付けることが可能となる。   The event / business relation list 118 associates a serial number 1100 with a business ID 1101 as shown in FIG. The serial number 1100 has the same content as the serial number 500 of the event table 101 (see FIG. 5), and the business ID 1101 has the same content as the business ID 600 of the business table 103 (see FIG. 6). As a result, the relationship between the corresponding event and the business can be uniquely associated.

イベント・シナリオ関連リスト119は、図12に示すように、通し番号1200とシナリオID1201とを関連付けている。通し番号1200は、イベントテーブル101(図5参照)の通し番号500と同様の内容であり、シナリオID1201は、シナリオテーブル109(図7参照)のシナリオID700と同様の内容である。これにより、対応するイベントとシナリオとの関係を一意に対応付けることが可能となる。   The event / scenario relation list 119 associates a serial number 1200 with a scenario ID 1201 as shown in FIG. The serial number 1200 has the same contents as the serial number 500 of the event table 101 (see FIG. 5), and the scenario ID 1201 has the same contents as the scenario ID 700 of the scenario table 109 (see FIG. 7). As a result, the relationship between the corresponding event and the scenario can be uniquely associated.

次に、各種プログラム(図1参照)の機能について概説する。
イベント受信部104は、業務サーバ114(イベント発行部116)で発行されたイベントをネットワーク経由で受信してイベントテーブル101に格納する機能を持つ。
ガイド生成部105は、業務・シナリオ関連テーブル102と業務監視部107が特定したイベントが影響する業務の情報をもとにイベント・シナリオ関連リスト119を生成し、ガイドテーブル110から取得したイベントに対応するガイダンスの情報とともに、クライアント111のガイドView112に送信する機能を持つ。
Next, the functions of various programs (see FIG. 1) will be outlined.
The event receiving unit 104 has a function of receiving an event issued by the business server 114 (event issuing unit 116) via the network and storing it in the event table 101.
The guide generating unit 105 generates an event / scenario related list 119 based on the business / scenario related table 102 and the business information affected by the event specified by the business monitoring unit 107, and corresponds to the event acquired from the guide table 110. A function to transmit to the guide view 112 of the client 111 together with the guidance information to be performed.

シナリオ制御部106は、クライアント111のガイドView112により選択されたシナリオに関する定義をシナリオテーブル109から取得し、対処コマンドリストを生成する。また、シナリオ制御部106は、業務サーバ114のシナリオ実行部117に対処コマンドの実行を指示する機能を持つ。なお、対処コマンドリスト121の実行状況はシナリオView113に表示される。
業務監視部107は、業務監視テーブル108の定義をもとにイベントテーブル101内のイベントと業務監視テーブル108内の業務とを関連付け、イベント・業務関連リスト118に格納する。また、業務監視部107は、通知されたイベントの事象により影響を受ける業務を特定する機能を持つ。
業務制御部120は、業務テーブル103の内容をもとに、業務サーバ114の業務実行部115に業務の実行を指示する機能を持つ。
The scenario control unit 106 acquires a definition related to the scenario selected by the guide view 112 of the client 111 from the scenario table 109, and generates a handling command list. In addition, the scenario control unit 106 has a function of instructing the scenario execution unit 117 of the business server 114 to execute a countermeasure command. The execution status of the handling command list 121 is displayed in the scenario view 113.
The task monitoring unit 107 associates an event in the event table 101 with a task in the task monitoring table 108 based on the definition of the task monitoring table 108 and stores it in the event / task related list 118. Further, the task monitoring unit 107 has a function of identifying a task that is affected by the notified event.
The business control unit 120 has a function of instructing the business execution unit 115 of the business server 114 to execute a business based on the contents of the business table 103.

(業務サーバの構成)
次に、業務サーバ114の構成について説明する。
業務サーバ114は、データ収集等の各種業務を遂行するための計算機であり、たとえばメールサーバやウェブサーバ、データベースサーバ、プロキシサーバなどがある。なお、1台の業務サーバ114は、複数の種類の業務を遂行してもよい。
業務サーバ114は、図1に示すように、メモリ30とCPU31とを含んで構成されている。メモリ30は、業務実行部115と、イベント発行部116と、シナリオ実行部117とを有する。これら各部115、116、117は、各種プログラムを指す。
(Business server configuration)
Next, the configuration of the business server 114 will be described.
The business server 114 is a computer for performing various business operations such as data collection, and includes, for example, a mail server, a web server, a database server, and a proxy server. One business server 114 may perform a plurality of types of business.
The business server 114 includes a memory 30 and a CPU 31 as shown in FIG. The memory 30 includes a business execution unit 115, an event issue unit 116, and a scenario execution unit 117. These units 115, 116, 117 indicate various programs.

業務実行部115は、業務を実行し、イベント発行部116は、障害等の事象を通知するイベントを発行する機能がある。障害としては、たとえば、ウェブサーバとしての業務サーバにアクセスが集中した場合や、業務サーバのハードウェアに障害(CPUの温度異常等)が生じた場合等がある。
シナリオ実行部117は、障害対処のシナリオ(対処コマンド列)を実行する。これらを用いることにより、業務実行部115で実行中の業務が失敗した場合等、業務サーバ114に何らかの障害が発生した場合、イベント発行部116は、その障害の内容を通知するイベントを管理サーバ100に発行する。そして、この発行により、シナリオ実行部117は、障害に対するシナリオを実行してその障害を復旧することが可能となる。
The business execution unit 115 executes a business, and the event issuing unit 116 has a function of issuing an event for notifying an event such as a failure. Examples of the failure include a case where access is concentrated on a business server as a web server, or a case where a failure (CPU temperature abnormality, etc.) occurs in the business server hardware.
The scenario execution unit 117 executes a failure handling scenario (handling command sequence). By using these, when a failure occurs in the business server 114, such as when the business being executed by the business execution unit 115 fails, the event issuing unit 116 sends an event for notifying the content of the failure to the management server 100. To issue. As a result of this issuance, the scenario execution unit 117 can execute the scenario for the failure and recover the failure.

(クライアントの構成)
次に、クライアント111の構成について説明する。
クライアント111は、ユーザが監視を行うための計算機(パーソナルコンピュータ等)であり、図1に示すように、メモリ20とCPU21とを含んで構成されている。
メモリ20は、ガイドView112と、シナリオView113とを有する。これら112、113は、各種プログラムを指す。
(Client configuration)
Next, the configuration of the client 111 will be described.
The client 111 is a computer (such as a personal computer) for the user to monitor, and includes a memory 20 and a CPU 21 as shown in FIG.
The memory 20 includes a guide view 112 and a scenario view 113. These 112 and 113 indicate various programs.

ガイドView112は、管理サーバ100が障害をイベントとして通知した場合にそのイベントに関するガイダンスとその障害に適用可能なシナリオの一覧を表示する機能を持つ。
ガイドView112の機能により、システム管理者は、シナリオを適切に選択することが可能となる。
シナリオView113は、シナリオの詳細と実行結果を表示する機能を持つ。
The guide view 112 has a function of displaying guidance regarding an event and a list of scenarios applicable to the failure when the management server 100 notifies the failure as an event.
The function of the guide view 112 allows the system administrator to appropriately select a scenario.
The scenario view 113 has a function of displaying the details of the scenario and the execution result.

次に、このようなシナリオ適用支援システムを用いて、業務サーバ114に障害が発生した場合のその障害を対処するためのシナリオを実行するまでの処理を説明する(適宜図1参照)。
図2は、シナリオ適用支援システムにおけるシナリオの実行に関する全体の処理手順を示す図である。ここでは、ある業務サーバ114の業務実行部115が業務を実行しているときにその業務に障害が発生し、その業務サーバ114のイベント発行部116がその障害を示すイベントを管理サーバ100に発行した場合を例に説明する。
ステップ200では、管理サーバ100のイベント受信部104(CPU11)が、業務サーバ114のイベント発行部116によって発行されたイベントをネットワークを介して受信する。受信したイベントには、イベントID、通知事象、緊急度および業務サーバ114のサーバ名の各値が変数として含まれている。
イベントの受信により、管理サーバ100では、イベント受信部104が、そのイベントのイベントID501と通知事象502と緊急度503とサーバ名505との各値をイベントテーブル101(図5参照)に登録する。このとき、イベントテーブル101の通し番号500には、イベント受信部104によって採番された値が登録される。また、受信時刻504には、イベント受信部104に受信されたイベントの受信時刻が登録される。これにより、以後、通し番号500の値をキーとして、管理サーバ100で受信したイベントの属性等(図5のイベントID、通知事象、緊急度、受信時刻、サーバ名)を一意に対応付けることが可能となる。
Next, a process until execution of a scenario for coping with a failure when a failure occurs in the business server 114 using such a scenario application support system will be described (see FIG. 1 as appropriate).
FIG. 2 is a diagram showing an overall processing procedure related to scenario execution in the scenario application support system. Here, when a business execution unit 115 of a business server 114 is executing a business, a failure occurs in the business, and the event issuing unit 116 of the business server 114 issues an event indicating the failure to the management server 100. An example will be described.
In step 200, the event receiving unit 104 (CPU 11) of the management server 100 receives the event issued by the event issuing unit 116 of the business server 114 via the network. The received event includes the event ID, notification event, urgency level, and server name of the business server 114 as variables.
By receiving the event, in the management server 100, the event receiving unit 104 registers the event ID 501, the notification event 502, the urgency 503, and the server name 505 of the event in the event table 101 (see FIG. 5). At this time, a value numbered by the event receiving unit 104 is registered in the serial number 500 of the event table 101. In the reception time 504, the reception time of the event received by the event reception unit 104 is registered. As a result, the attribute of the event received by the management server 100 (event ID, notification event, urgency, reception time, server name in FIG. 5) can be uniquely associated with the value of the serial number 500 as a key. Become.

ステップ201では、管理サーバ100の業務監視部107(CPU11)が、受信したイベントと、そのイベントにより運用に支障が生じるおそれのある業務との組をあらわすイベント・業務関連リスト118を作成する(詳細は後記図3)。   In step 201, the task monitoring unit 107 (CPU 11) of the management server 100 creates an event / task-related list 118 that represents a set of a received event and a task that may cause an operation problem due to the event (details). Figure 3).

ステップ202では、管理サーバ100のガイド生成部105(CPU11)が、ステップ201で作成したイベント・業務関連リスト118と、業務・シナリオ関連テーブル102とをもとに、イベント・シナリオ関連リスト119を作成する(詳細は後記図4)。   In step 202, the guide generation unit 105 (CPU 11) of the management server 100 creates an event / scenario relation list 119 based on the event / business relation list 118 created in step 201 and the business / scenario relation table 102. (Details will be described later in FIG. 4).

ステップ203では、管理サーバ100のガイド生成部105(CPU11)が、ガイドテーブル110(図10参照)から、対応するイベントID1000の値に対応するガイダンス1001を取得する。   In step 203, the guide generation unit 105 (CPU 11) of the management server 100 acquires the guidance 1001 corresponding to the value of the corresponding event ID 1000 from the guide table 110 (see FIG. 10).

ステップ204では、ガイド生成部105が、シナリオ一覧とイベントのガイダンスとを、ネットワークを介して、クライアント111に送信する。シナリオ一覧は、次のような処理により送信される。すなわち、ガイド生成部105は、ステップ202で作成されたイベント・シナリオ関連リスト119(図12参照)のシナリオID1201の値に対応するシナリオ名称をシナリオテーブル109(図7参照)から読み出し、それらのシナリオ名称をシナリオ一覧として送信する。送信されたシナリオ一覧のシナリオ名称には、シナリオIDが対応付けられている。
また、イベントのガイダンスは、次のような処理により送信される。すなわち、ガイド生成部105は、対応するイベントIDに対応するガイダンスをガイドテーブル110(図10参照)から読み出して送信する。
In step 204, the guide generation unit 105 transmits a scenario list and event guidance to the client 111 via the network. The scenario list is transmitted by the following process. That is, the guide generation unit 105 reads out scenario names corresponding to the values of the scenario IDs 1201 in the event / scenario relation list 119 (see FIG. 12) created in step 202 from the scenario table 109 (see FIG. 7). Send the name as a scenario list. The scenario name in the transmitted scenario list is associated with a scenario ID.
The event guidance is transmitted by the following process. That is, the guide generation unit 105 reads the guidance corresponding to the corresponding event ID from the guide table 110 (see FIG. 10) and transmits it.

ステップ205では、当該送信を受け、クライアント111(CPU21)は、ガイドView112で、ガイダンスとシナリオ一覧とを表示する。この表示は、クライアント111のCPU21によって、たとえば、クライアント111に接続されたコンピュータディスプレイ等の表示装置に行われる。
表示例を図13に示す。この表示例では、「CPU利用率がしきい値を超えています。該当サーバで稼動する業務が正常に終了しない危険性があります。」という内容のガイダンスが表示されている。また、「スケールイン、スケールアウト」という内容のシナリオ一覧が「適用可能シナリオ」の項目に表示されている。これにより、たとえば、システム管理者は、障害の程度とその対処法を確認することが可能となる。
In step 205, the client 111 (CPU 21) receives the transmission and displays a guidance and a scenario list on the guide view 112. This display is performed by the CPU 21 of the client 111 on a display device such as a computer display connected to the client 111, for example.
A display example is shown in FIG. In this display example, guidance indicating that “the CPU usage rate exceeds the threshold value. There is a risk that the operation running on the server may not be terminated normally” is displayed. In addition, a list of scenarios with the contents “scale in, scale out” is displayed in the “applicable scenario” item. As a result, for example, the system administrator can check the degree of failure and how to deal with it.

そして、たとえば、システム管理者が、マウス等の入力装置を用いて、表示されたシナリオ一覧の中から、1つのシナリオ(たとえばスケールアウト)を選択する。この選択方法としては、たとえば、1つのシナリオを残し、他のシナリオを削除する方法等がある。なお、システム管理者は、シナリオを選択する際、シナリオView113を用いて、各シナリオの具体例(スケールアウトの処理方法等)を表示装置に表示することができる。
このようにして、図2のステップ206では、クライアント111は、シナリオ一覧の中から、特定のシナリオを選択する。選択されたシナリオ(シナリオID)は、システム管理者による入力装置の操作により、クライアント111から管理サーバ100に送信される。
Then, for example, the system administrator uses the input device such as a mouse to select one scenario (for example, scale out) from the displayed scenario list. As this selection method, for example, there is a method of leaving one scenario and deleting another scenario. When selecting a scenario, the system administrator can use the scenario view 113 to display a specific example (such as a scale-out processing method) of each scenario on the display device.
Thus, in step 206 of FIG. 2, the client 111 selects a specific scenario from the scenario list. The selected scenario (scenario ID) is transmitted from the client 111 to the management server 100 by the operation of the input device by the system administrator.

ステップ207では、管理サーバ100のシナリオ制御部106(CPU11)は、対処コマンド列を生成する(詳細は後記図14、図15)。
ステップ208では、管理サーバ100のシナリオ制御部106は、ネットワークを介して、業務サーバ114のシナリオ実行部117に対し、生成した対処コマンド列の実行を指示する。当該指示に受け、業務サーバ114のシナリオ実行部117が対処コマンド列の実行を完了すると、その旨を管理サーバ1000に通知する。なお、対処コマンド列の実行により、イベントで通知された障害が回復することになる。
ステップ209では、当該通知を受け、クライアント111は、業務サーバ114のシナリオ実行部117でのシナリオの実行結果(たとえば、図15の対処コマンドリストの実行内容等)をシナリオView113で表示する(ステップ209)。
In step 207, the scenario control unit 106 (CPU 11) of the management server 100 generates a handling command sequence (details are shown in FIGS. 14 and 15 below).
In step 208, the scenario control unit 106 of the management server 100 instructs the scenario execution unit 117 of the business server 114 to execute the generated countermeasure command sequence via the network. In response to the instruction, when the scenario execution unit 117 of the business server 114 completes execution of the countermeasure command sequence, the management server 1000 is notified of this. It should be noted that the failure notified by the event is recovered by executing the countermeasure command sequence.
In step 209, upon receiving the notification, the client 111 displays the scenario execution result (for example, the execution contents of the handling command list in FIG. 15) in the scenario view 113 in the scenario execution unit 117 in the scenario server 113 (step 209). ).

次に、ステップ201(図2参照)の作成処理の詳細手順を図3に示す。
ステップ300では、まず、業務監視部107が、イベントテーブル101(図5参照)から、対応するイベントの属性(図5の通し番号、イベントID、通知事象、緊急度、サーバ名)を取得する。そして、業務監視部107が、取得したイベントの属性に関して、業務監視テーブル108(図9参照)に未比較の項目(レコード)が存在するかどうかを判定する。たとえば、イベントの属性と、業務監視テーブル108の業務監視条件902の内容との比較を行っていなければ、未比較の項目が存在することになる。
Next, FIG. 3 shows a detailed procedure of the creation process in step 201 (see FIG. 2).
In step 300, first, the task monitoring unit 107 acquires the corresponding event attributes (serial number, event ID, notification event, urgency, server name in FIG. 5) from the event table 101 (see FIG. 5). Then, the task monitoring unit 107 determines whether there is an uncompared item (record) in the task monitoring table 108 (see FIG. 9) regarding the acquired event attribute. For example, if the event attribute is not compared with the contents of the task monitoring condition 902 of the task monitoring table 108, there is an uncompared item.

このような判定の結果、項目が存在しない場合(ステップ300のNo)、処理を終了し、他方、存在する場合(ステップ300のYes)、業務監視部107が、ステップ301に進み、業務監視テーブル108(図9参照)から、未比較の項目の業務監視条件を取得する。   As a result of such determination, if the item does not exist (No in Step 300), the process ends. On the other hand, if it exists (Yes in Step 300), the task monitoring unit 107 proceeds to Step 301, and the task monitoring table From 108 (see FIG. 9), the task monitoring condition of the uncompared item is acquired.

ステップ302では、業務監視部107は、当該イベントの属性とステップ301で取得した業務監視条件とを比較する。たとえば、イベントの属性(通し番号、イベントID、通知事象、緊急度、サーバ名)の一部または全部が、業務監視テーブル108(図9参照)の業務監視条件902の変数(イベントID、サーバ名等)の値と一致する場合、ステップ302における判定は、一致するとの結果を得ることになる。
図9では、たとえば、業務監視条件902には、「1000」のイベントIDと「業務サーバA」のサーバ名が変数に含まれているので、これらの変数の値を属性に持つイベントであれば、ステップ302の判定は一致するとの結果を得ることになる。
In step 302, the task monitoring unit 107 compares the event attribute with the task monitoring condition acquired in step 301. For example, some or all of the event attributes (serial number, event ID, notification event, urgency, server name) are variables (event ID, server name, etc.) of the business monitoring condition 902 of the business monitoring table 108 (see FIG. 9). ), The result of the determination in step 302 is that it matches.
In FIG. 9, for example, the business monitoring condition 902 includes an event ID of “1000” and a server name of “business server A” as variables. Therefore, a result that the determinations in step 302 coincide is obtained.

このような判定の結果、不一致の場合(ステップ302の不一致)、ステップ300に進んで処理を繰り返し、他方、一致の場合(ステップ302の一致)、ステップ303に進んだ後、ステップ300に戻って処理を繰り返す。
ステップ303では、業務監視部107は、イベントと業務の対応関係をイベント・業務関連リスト118に追加する。具体的には、業務監視部107は、ステップ302で一致した業務監視条件に対応する業務IDを業務監視テーブル108から読み出す。また、業務監視部107は、対応するイベントテーブル101(図5参照)の通し番号と、前記読み出した業務IDとを含むレコードをイベント・業務関連リスト118(図11参照)に追加する。
このようにして、イベントの通知により運用に影響するおそれのある業務とそのイベントとの関係をイベント・業務関連リスト118を用いて対応付けることとなる。
As a result of such determination, if they do not match (step 302 does not match), the process proceeds to step 300 and the process is repeated. On the other hand, if they match (step 302 matches), the process proceeds to step 303 and then returns to step 300. Repeat the process.
In step 303, the task monitoring unit 107 adds the correspondence relationship between the event and the task to the event / task related list 118. Specifically, the task monitoring unit 107 reads the task ID corresponding to the task monitoring condition matched in step 302 from the task monitoring table 108. Further, the task monitoring unit 107 adds a record including the serial number of the corresponding event table 101 (see FIG. 5) and the read task ID to the event / task related list 118 (see FIG. 11).
In this way, the relationship between the business that may affect the operation due to the notification of the event and the event is associated using the event / business related list 118.

次に、ステップ202(図2参照)の作成処理の詳細手順を図4に示す(適宜図1参照)。
ステップ400では、まず、ガイド生成部105が、イベント・業務関連リスト118(図11参照)を参照し、後記するステップ402以降の処理が未処理の項目(レコード)が存在するかを確認する。
確認の結果、未処理の項目が存在しない場合(ステップ400のNo)、処理を終了し、他方、未処理の項目が存在した場合(ステップ400のYes)、ステップ401に進む。
ステップ401では、ガイド生成部105が、イベント・業務関連リスト118から、未処理の項目を取得する。
Next, FIG. 4 shows the detailed procedure of the creation process in step 202 (see FIG. 2) (see FIG. 1 as appropriate).
In step 400, first, the guide generation unit 105 refers to the event / business relation list 118 (see FIG. 11), and confirms whether there are items (records) that have not been processed in steps 402 and later.
As a result of the confirmation, if there is no unprocessed item (No in step 400), the process ends. On the other hand, if an unprocessed item exists (Yes in step 400), the process proceeds to step 401.
In step 401, the guide generation unit 105 acquires an unprocessed item from the event / business relation list 118.

ステップ402では、ガイド生成部105は、取得した項目の業務IDをキーとして、シナリオテーブル109に業務に対応するシナリオが存在するかどうかを確認する。具体的には、ガイド生成部105は、業務テーブル103(図6参照)から、キーとした業務IDに対応する、業務名601とスケジュール602と業務603と実行サーバ名604の各値を読み出す。そして、ガイド生成部105は、シナリオテーブル109(図7参照)の正規化コマンドリスト702中に、読み出した値を変数に持つ正規化コマンドリストが存在するかどうかを確認する。確認の結果、正規化コマンドリストが存在すれば、ステップ402では、シナリオが存在するとの結果を得る。   In step 402, the guide generation unit 105 checks whether there is a scenario corresponding to the business in the scenario table 109 using the business ID of the acquired item as a key. Specifically, the guide generation unit 105 reads the values of the business name 601, schedule 602, business 603, and execution server name 604 corresponding to the business ID as a key from the business table 103 (see FIG. 6). Then, the guide generation unit 105 checks whether or not there is a normalized command list having the read value as a variable in the normalized command list 702 of the scenario table 109 (see FIG. 7). If there is a normalized command list as a result of the confirmation, in step 402, a result that a scenario exists is obtained.

ステップ403において、シナリオが存在する場合(ステップ402のYes)、ガイド生成部105は、業務・シナリオ関連テーブル102(図8参照)から、キーとした業務IDの業務に対応するシナリオIDと緊急度の条件とを取得する。
ステップ404では、ガイド生成部105は、イベントの緊急度とシナリオの緊急度の条件とを比較する。たとえば、シナリオの緊急度の条件で指定された値が、イベントの緊急度を満たす場合には、比較の結果が一致するとの結果を得る。ここでいう一致というのは、シナリオの緊急度の条件を満たすことを意味する。たとえば、シナリオの緊急度の条件が、エラー以上(低レベル以上)の値の場合、シナリオの緊急度がどの値であっても、シナリオの緊急度の条件は満たされることとなる。したがって、双方は一致することになる。
In step 403, when a scenario exists (Yes in step 402), the guide generation unit 105 reads the scenario ID and urgency corresponding to the task with the task ID as the key from the task / scenario relation table 102 (see FIG. 8). Get the conditions and.
In step 404, the guide generation unit 105 compares the event urgency level with the scenario urgency level condition. For example, when the value specified in the scenario urgency condition satisfies the event urgency level, the result of comparison is obtained. Here, “match” means that the urgency of the scenario is satisfied. For example, if the scenario urgency condition is a value greater than or equal to an error (low level or greater), the scenario urgency condition is satisfied regardless of the scenario urgency value. Therefore, both agree.

このようにして比較した結果、一致しなければ(ステップ404の不一致)、ステップ402に戻って処理を繰り返し、他方、一致すれば(ステップ404の一致)、ステップ405に進んだ後、ステップ402に戻って処理を繰り返す。
ステップ405では、ガイド生成部105は、当該シナリオをイベント・シナリオ関連リスト119に追加する。具体的には、ガイド生成部105は、一致した緊急度の条件に対応するシナリオIDと、対応するイベントの通し番号とを含むレコードをイベント・シナリオ関連リスト119(図12参照)に追加する。
このようにして、イベントにより通知された障害に対処するためのシナリオとそのイベントとの関係をイベント・シナリオ関連リスト119を用いて対応付けることとなる。
As a result of the comparison, if they do not match (disagreement in step 404), the process returns to step 402 to repeat the process. On the other hand, if they match (matching in step 404), the process proceeds to step 405 and then to step 402. Return and repeat the process.
In step 405, the guide generation unit 105 adds the scenario to the event / scenario relation list 119. Specifically, the guide generation unit 105 adds a record including a scenario ID corresponding to the matched urgency condition and a serial number of the corresponding event to the event / scenario relation list 119 (see FIG. 12).
In this way, the relationship between the scenario for dealing with the failure notified by the event and the event is associated using the event / scenario relation list 119.

次に、ステップ207(図2参照)の生成処理の詳細手順を図14に示す(適宜図1参照)。
ステップ1400では、シナリオ制御部106は、シナリオテーブル109(から、選択されたシナリオのシナリオID(図2のステップ206参照)に対応する正規化コマンドリストを取得する。
ステップ1401では、シナリオ制御部106は、イベントテーブル101(図5参照)から、対応するイベントの属性を取得する。
Next, FIG. 14 shows the detailed procedure of the generation process in step 207 (see FIG. 2) (see FIG. 1 as appropriate).
In step 1400, the scenario control unit 106 acquires a normalized command list corresponding to the scenario ID of the selected scenario (see step 206 in FIG. 2) from the scenario table 109.
In step 1401, the scenario control unit 106 acquires the attribute of the corresponding event from the event table 101 (see FIG. 5).

ステップ1402では、シナリオ制御部106は、シナリオテーブル109を参照し、ステップ1403以降の処理が未処理の正規化コマンドが存在するかどうかを確認する。
確認の結果、未処理の正規化コマンドが存在しない場合(ステップ1402のNo)、処理を終了する。他方、未処理の正規化コマンドが存在した場合(ステップ1402のYes)、ステップ1403で、シナリオ制御部106は、未代入の変数が存在しないかどうかを確認する。
In step 1402, the scenario control unit 106 refers to the scenario table 109 and confirms whether there is a normalized command that has not been processed in step 1403 and subsequent steps.
As a result of the confirmation, if there is no unprocessed normalization command (No in step 1402), the process is terminated. On the other hand, when there is an unprocessed normalization command (Yes in Step 1402), in Step 1403, the scenario control unit 106 checks whether there is an unassigned variable.

そして、変数が存在しない場合(ステップ1403のNo)、シナリオ制御部106は、正規化コマンドリスト中の正規化コマンドのすべての変数に値を代入したこととなり、それを対処コマンド列として対処コマンドリスト121(図1参照)に追加(登録)し、ステップ1402に戻る。   If the variable does not exist (No in step 1403), the scenario control unit 106 substitutes values for all the variables of the normalization command in the normalization command list. 121 (see FIG. 1) is added (registered), and the process returns to step 1402.

対処コマンド列の例を図15に示す。この例では、図7に示したスケールアウトの正規化コマンドリストに「業務サーバC」と「日次業務」という値が変数に代入されている。このため、日次業務を業務サーバCに割り当てるスケールアウトを実行させることが可能となる。   An example of the handling command string is shown in FIG. In this example, the values “business server C” and “daily work” are assigned to variables in the scale-out normalization command list shown in FIG. For this reason, it is possible to execute the scale-out for assigning the daily work to the business server C.

図14に戻って、他方、未代入の変数が存在した場合(ステップ1403のYes)、シナリオ制御部106は、その変数に対応するイベントの属性(通し番号、イベントID、通知事象、緊急度、サーバ名)または業務情報(業務ID、業務名、スケジュール、業務、実行サーバ名)が存在するかどうかを確認する(ステップ1404)。つまり、変数に代入すべき値が存在するかどうかを確認する。
確認の結果、代入すべき値が存在しない場合(ステップ1404のNo)、シナリオ制御部106は、たとえば、正規化コマンドリストの変数の値の入力を促し、それを代入させるための処理を行う(ステップ1406)。この処理では、シナリオ制御部106は、たとえば、クライアント111にその旨の情報をネットワークを介して通知して、クライアント111の表示装置に表示させる。そして、システム管理者による入力装置の操作により、未代入の変数の値を指定させ、管理サーバ100に送信させることとなる。
Returning to FIG. 14, on the other hand, if an unassigned variable exists (Yes in step 1403), the scenario control unit 106 determines the event attributes (serial number, event ID, notification event, urgency, server) corresponding to the variable. Name) or business information (business ID, business name, schedule, business, execution server name) is checked (step 1404). In other words, check whether there is a value to be assigned to the variable.
As a result of the confirmation, if there is no value to be substituted (No in Step 1404), the scenario control unit 106 prompts the input of the value of the variable in the normalized command list and performs a process for substituting it (see, for example) Step 1406). In this processing, for example, the scenario control unit 106 notifies the client 111 of information to that effect via the network and causes the display device of the client 111 to display the information. Then, the value of the unassigned variable is designated by the operation of the input device by the system administrator, and is transmitted to the management server 100.

これに対して、代入すべき値が存在する場合(ステップ1404のYes)、シナリオ制御部106は、その値を正規化コマンドの変数に代入する(ステップ1405)。このようにして、当該障害に対処するための一連の対処コマンドリストを生成することとなる。   On the other hand, when there is a value to be substituted (Yes in Step 1404), the scenario control unit 106 substitutes the value for the variable of the normalization command (Step 1405). In this way, a series of handling command lists for dealing with the failure is generated.

なお、本発明は、本実施の形態に限定されない。管理サーバ等を含むシナリオ適用支援システムのハードウェア構成、データ構造および処理手順は、本発明の趣旨を逸脱しない限り、変更して構成するようにしてもよい。たとえば、管理サーバ100は、1台のCPUで処理することとしたが、複数のCPUを用いて分散処理を行うように構成してもよい。また、複数台の管理サーバで分散処理を行うように構成してもよい。   Note that the present invention is not limited to the present embodiment. The hardware configuration, data structure, and processing procedure of the scenario application support system including the management server may be changed and configured without departing from the gist of the present invention. For example, although the management server 100 performs processing with one CPU, the management server 100 may be configured to perform distributed processing using a plurality of CPUs. Further, a configuration may be adopted in which distributed processing is performed by a plurality of management servers.

実施の形態におけるシナリオ適用支援システムの構成例を示す図である。It is a figure which shows the structural example of the scenario application assistance system in embodiment. シナリオ適用支援システムにおけるシナリオの実行に関する全体の処理手順を示す図である。It is a figure which shows the whole process sequence regarding execution of the scenario in a scenario application support system. 図2のステップ201の作成処理の詳細手順を示す図である。It is a figure which shows the detailed procedure of the creation process of step 201 of FIG. 図2のステップ202の作成処理の詳細手順を示す図である。It is a figure which shows the detailed procedure of the creation process of step 202 of FIG. 図1のイベントテーブルの構成例を示す図である。It is a figure which shows the structural example of the event table of FIG. 図1の業務テーブルの構成例を示す図である。It is a figure which shows the structural example of the work table of FIG. 図1のシナリオテーブルの構成例を示す図である。It is a figure which shows the structural example of the scenario table of FIG. 図1の業務・シナリオ関連テーブルの構成例を示す図である。It is a figure which shows the structural example of the business / scenario relation table of FIG. 図1の業務監視テーブルの構成例を示す図である。It is a figure which shows the structural example of the work monitoring table of FIG. 図1のガイドテーブルの構成例を示す図である。It is a figure which shows the structural example of the guide table of FIG. 図1のイベント・業務関連リストの構成例を示す図である。FIG. 2 is a diagram illustrating a configuration example of an event / business relation list in FIG. 1. 図1のイベント・シナリオ関連テーブルの構成例を示す図である。It is a figure which shows the structural example of the event scenario related table of FIG. クライアントの表示例を示す図である。It is a figure which shows the example of a display of a client. 図2のステップ207の生成処理の詳細手順を示す図である。It is a figure which shows the detailed procedure of the production | generation process of step 207 of FIG. 対処コマンド列の例を示す図である。It is a figure which shows the example of a countermeasure command sequence.

符号の説明Explanation of symbols

10 メモリ(記憶部)
11 CPU(処理部)
100 管理サーバ
111 クライアント
114 業務サーバ
10 Memory (storage unit)
11 CPU (Processor)
100 management server 111 client 114 business server

Claims (5)

各種の業務を実行する複数の業務サーバとこれらの業務サーバからイベントの通知を受ける管理サーバとを含んで構成されるコンピュータシステムを用いて、前記イベントにより通知された障害に対処する対処手順を表すシナリオの適用を支援するシナリオ適用支援方法であって、
前記管理サーバは、情報の記憶部と処理部とを含み、
前記記憶部は、前記業務毎に、前記イベントの通知により運用に支障を受ける可能性のある当該イベントの属性を変数にもつ業務監視条件を格納するとともに、前記業務に関し、前記イベントに応じた前記シナリオを格納し、
前記管理サーバの処理部は、
前記業務サーバから前記イベントを受信した場合、そのイベントの属性に基づいて、前記記憶部の業務監視条件の変数を満たす業務を特定し、
前記特定した業務に関し、前記受信したイベントに応じたシナリオを前記記憶部から読み出し、
前記読み出したシナリオの一覧を外部出力するステップを実行することを特徴とするシナリオ適用支援方法。
A procedure for dealing with a failure notified by an event using a computer system that includes a plurality of business servers that execute various types of business and a management server that receives event notifications from these business servers. A scenario application support method for supporting application of a scenario,
The management server includes an information storage unit and a processing unit,
The storage unit stores, for each job, a job monitoring condition having a variable having an attribute of the event that may be hindered in operation due to notification of the event, and relates to the job according to the event. Store scenarios,
The processing unit of the management server
When receiving the event from the business server, based on the attribute of the event, identify the business that satisfies the business monitoring condition variable of the storage unit,
Regarding the identified business, a scenario corresponding to the received event is read from the storage unit,
A scenario application support method comprising: executing a step of outputting the read list of scenarios to the outside.
前記管理サーバの処理部は、
前記外部出力したシナリオの一覧の中から選択された特定のシナリオを受信し、
受信した特定のシナリオを実行させるための対処コマンド列を生成し、
生成した対処コマンド列の実行を前記業務サーバに指示するステップをさらに実行するとともに、
前記業務サーバは、
前記対処コマンド列を実行するステップをさらに実行することを特徴とする請求項1に記載のシナリオ適用支援方法。
The processing unit of the management server
Receiving a specific scenario selected from the externally output scenario list;
Generate a response command string to execute the received specific scenario,
A further step of instructing the business server to execute the generated response command sequence;
The business server is
The scenario application support method according to claim 1, further comprising the step of executing the handling command string.
前記イベントの属性には、当該イベントの事象、その事象に関する障害の緊急度、および当該イベントの受信元である前記業務サーバの識別情報が含まれていることを特徴とする請求項1に記載のシナリオ適用支援方法。   The attribute of the event includes the phenomenon of the event, the urgency of a failure related to the event, and identification information of the business server that is the reception source of the event. Scenario application support method. 各種の業務を実行する複数の業務サーバからイベントの通知を受ける管理サーバであって、
前記管理サーバは、情報の記憶部と処理部とを含み、
前記記憶部は、前記業務毎に、前記イベントの通知により運用に支障を受ける可能性のある当該イベントの属性を変数にもつ業務監視条件を格納するとともに、前記業務に関し、前記イベントに応じたシナリオを格納し、
前記処理部は、
前記業務サーバから前記イベントを受信した場合、そのイベントの属性に基づいて、前記記憶部の業務監視条件の変数を満たす業務を特定し、
前記特定した業務に関し、前記受信したイベントに応じたシナリオを前記記憶部から読み出し、
前記読み出したシナリオの一覧を外部出力することを特徴とする管理サーバ。
A management server that receives event notifications from multiple business servers that execute various business operations.
The management server includes an information storage unit and a processing unit,
The storage unit stores, for each business, a business monitoring condition having as a variable an attribute of the event that may be hindered in operation due to notification of the event, and a scenario corresponding to the event with respect to the business Store
The processor is
When receiving the event from the business server, based on the attribute of the event, identify the business that satisfies the business monitoring condition variable of the storage unit,
Regarding the identified business, a scenario corresponding to the received event is read from the storage unit,
A management server for outputting the list of read scenarios externally.
各種の業務を実行する複数の業務サーバからイベントの通知を受けるコンピュータに用いられ、
前記コンピュータは、情報の記憶部と処理部とを含み、
前記記憶部は、前記業務毎に、前記イベントの通知により運用に支障を受ける可能性のある当該イベントの属性を変数にもつ業務監視条件を格納するとともに、前記業務に関し、前記イベントに応じたシナリオを格納し、
前記処理部に、
前記業務サーバから前記イベントを受信した場合、そのイベントの属性に基づいて、前記記憶部の業務監視条件の変数を満たす業務を特定し、前記特定した業務に関し、前記受信したイベントに応じたシナリオを前記記憶部から読み出し、前記読み出したシナリオの一覧を外部出力させることを特徴とする管理プログラム。
Used for computers that receive event notifications from multiple business servers that execute various business operations.
The computer includes an information storage unit and a processing unit,
The storage unit stores, for each business, a business monitoring condition having as a variable an attribute of the event that may be hindered in operation due to notification of the event, and a scenario corresponding to the event with respect to the business Store
In the processing unit,
When the event is received from the business server, based on the event attribute, the business that satisfies the business monitoring condition variable of the storage unit is identified, and the scenario corresponding to the received event is identified for the identified business. A management program that reads from the storage unit and outputs a list of the read scenarios to the outside.
JP2005169987A 2005-06-09 2005-06-09 Scenario application support method, management server and management program Pending JP2006344061A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005169987A JP2006344061A (en) 2005-06-09 2005-06-09 Scenario application support method, management server and management program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005169987A JP2006344061A (en) 2005-06-09 2005-06-09 Scenario application support method, management server and management program

Publications (1)

Publication Number Publication Date
JP2006344061A true JP2006344061A (en) 2006-12-21

Family

ID=37640976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005169987A Pending JP2006344061A (en) 2005-06-09 2005-06-09 Scenario application support method, management server and management program

Country Status (1)

Country Link
JP (1) JP2006344061A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008210151A (en) * 2007-02-26 2008-09-11 Sky Kk Failure prediction system
JP2009048403A (en) * 2007-08-20 2009-03-05 Hitachi Information Systems Ltd System failure recovery device, command generation method therefor, and program thereof
JP2009211618A (en) * 2008-03-06 2009-09-17 Nec Corp Automatic fault recovery device
JP2009276929A (en) * 2008-05-13 2009-11-26 Hitachi Electronics Service Co Ltd Automatic fault handling system
JP2018513500A (en) * 2015-04-24 2018-05-24 ゴールドマン サックス アンド カンパニー エルエルシー System and method for handling events involving computing systems and networks using a fabric monitoring system

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008210151A (en) * 2007-02-26 2008-09-11 Sky Kk Failure prediction system
JP4679536B2 (en) * 2007-02-26 2011-04-27 Sky株式会社 Failure occurrence prediction system
JP2009048403A (en) * 2007-08-20 2009-03-05 Hitachi Information Systems Ltd System failure recovery device, command generation method therefor, and program thereof
JP2009211618A (en) * 2008-03-06 2009-09-17 Nec Corp Automatic fault recovery device
JP2009276929A (en) * 2008-05-13 2009-11-26 Hitachi Electronics Service Co Ltd Automatic fault handling system
JP2018513500A (en) * 2015-04-24 2018-05-24 ゴールドマン サックス アンド カンパニー エルエルシー System and method for handling events involving computing systems and networks using a fabric monitoring system

Similar Documents

Publication Publication Date Title
CN105357038B (en) Monitor the method and system of cluster virtual machine
JP5075736B2 (en) System failure recovery method and system for virtual server
US8140591B2 (en) Enabling workflow awareness within a business process management (BPM) system
TWI608344B (en) Robust hardware fault management system, method and framework for enterprise devices
JP5223413B2 (en) IT system troubleshooting device, troubleshooting method and program therefor
US10911447B2 (en) Application error fingerprinting
JP2009245285A (en) Computer system for managing progress of plurality of tasks, and its method and computer program
US10225155B2 (en) Network anomaly detection
JP2007087232A (en) Policy creation method for facilitating policy correction accompanying system configuration change and policy management method
JP5942481B2 (en) Operation work management system, method, and program
JP2006344061A (en) Scenario application support method, management server and management program
US9875140B2 (en) System, method, and apparatus for coordinating distributed electronic discovery processing
JP5268589B2 (en) Information processing apparatus and information processing apparatus operating method
US9280741B2 (en) Automated alerting rules recommendation and selection
CN104321753B (en) For the method for usage amount that monitoring resource is presented, computing device and record has the recording medium of the program for execution thereon
US11726819B2 (en) Tool for viewing jobs managed by heterogeneous job schedulers
US20200380846A1 (en) Alarm and notification generation devices, methods, and systems
JP6097666B2 (en) Job management system
US20230261877A1 (en) Blockchain-based collaborative maintenance platform
JP5028129B2 (en) Facility business integrated management method and system and program thereof
JP5466740B2 (en) System failure recovery method and system for virtual server
WO2011121681A1 (en) Job schedule system, job schedule management method, and recording medium
JP7167749B2 (en) Information processing device, information processing system, and information processing program
JP7372055B2 (en) Information processing system and learning method
CN103189850A (en) Method of provisioning additional storage to computer applications