JP2014157412A - Event aggregation device, event aggregation method, and event aggregation program - Google Patents
Event aggregation device, event aggregation method, and event aggregation program Download PDFInfo
- Publication number
- JP2014157412A JP2014157412A JP2013026859A JP2013026859A JP2014157412A JP 2014157412 A JP2014157412 A JP 2014157412A JP 2013026859 A JP2013026859 A JP 2013026859A JP 2013026859 A JP2013026859 A JP 2013026859A JP 2014157412 A JP2014157412 A JP 2014157412A
- Authority
- JP
- Japan
- Prior art keywords
- event
- metric
- history information
- computer
- sketch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、複数のコンポーネントから構成されるコンピュータシステムのイベント集約装置、イベント集約方法およびイベント集約プログラムに関し、特に、コンピュータシステムの障害事象ごとに各コンピュータの各部位におけるイベントを集約するイベント集約装置、イベント集約方法およびイベント集約プログラムに関する。 The present invention relates to an event aggregating apparatus, an event aggregating method and an event aggregating program for a computer system composed of a plurality of components, and in particular, an event aggregating apparatus for aggregating events in each part of each computer for each failure event of the computer system, The present invention relates to an event aggregation method and an event aggregation program.
複数のコンポーネントから構成されるコンピュータシステムの運用管理では、利用者がIT(Information Technology)サービスを安定して利用できるようにする必要がある。そのため、管理サーバは、障害と定義された状態、例えば、利用者がITサービスを正常に受けることができない状態や、正常に受けることができなくなる可能性がある状態を示すイベントを検証する機能を有する。 In operation management of a computer system composed of a plurality of components, it is necessary for a user to be able to use an IT (Information Technology) service stably. Therefore, the management server has a function of verifying an event indicating a state defined as a failure, for example, a state in which the user cannot normally receive the IT service or a state in which the user may not be able to normally receive the service. Have.
例えば、特許文献1に記載されているように、管理サーバは、コンピュータシステムの障害または障害の兆候を示す、複数のイベントを検出し、それらのイベントをデータベースに蓄積する。また、管理サーバは、複数のイベントの因果関係を解析するための解析機能を備える。
For example, as described in
管理サーバにおける解析方法は、障害に関連するイベント群(関連イベント)を条件とし、障害の原因を表現するイベント(原因イベント)を解析結果とする、ルールを用いる。そして、関連イベントと原因イベントとが含まれる複数のイベントから、原因イベントを抽出する。 The analysis method in the management server uses a rule that uses an event group (related event) related to a failure as a condition and an event (cause event) expressing the cause of the failure as an analysis result. Then, the cause event is extracted from a plurality of events including the related event and the cause event.
特許文献1に記載された方法は、ルールの条件に定義した関連イベントの発生割合を計算し、計算結果をルールの解析結果である原因イベントの確信度とする。特許文献1に記載された方法は、ルールの条件に定義したすべての関連イベントが発生しなくても、ルールの解析結果である原因イベントを推定できる。特許文献2に記載された方法は、複数の障害によって多数のイベントが発生した場合に、ルールの条件に定義した一部の関連イベントが含まれるルールの原因イベントを、関連イベントの発生割合順に、すべて列挙する。特許文献3に記載された方法は、同じ曜日の同じ時間帯におけるイベントのパターンをルールとし、そのパターンと異なる頻度で出現するイベントのパターンを検出する。
The method described in
特許文献1、特許文献2および特許文献3に記載された方法では、障害により発生するすべての関連イベントの組み合わせを表現したルールを、予め定義する必要がある。しかし、コンピュータシステムのコンポーネントの種類や規模が増えると、障害で発生する一部の関連イベントの組み合わせを定義することは可能であっても、障害により発生するすべての関連イベントの組み合わせを定義することは困難である。
In the methods described in
その結果、障害により発生する関連イベントのうち、ルールの条件に定義されていない関連イベントは、当該障害とは異なるイベントとして扱われる可能性がある。従って、管理者は、ルールに未定義の関連イベントに対して、新たな障害のイベントであるか既存障害の関連イベントであるかを、調査診断するために多くの作業負荷を費やすこととなる。 As a result, a related event that is not defined in the rule condition among related events that occur due to a failure may be handled as an event different from the failure. Therefore, the administrator spends a lot of work load to investigate and diagnose whether the event is a new failure event or an existing failure related event with respect to a related event not defined in the rule.
そこで、本発明は、コンピュータシステムにおいて発生したイベントがどの障害によるものであるかを容易に判断でき、イベントの調査診断に要する作業負荷を軽減することができるイベント集約装置、イベント集約方法およびイベント集約プログラムを提供することを目的とする。 Therefore, the present invention provides an event aggregating apparatus, an event aggregating method, and an event aggregating method that can easily determine which fault an event that has occurred in a computer system is caused, and that can reduce the work load required for event investigation and diagnosis. The purpose is to provide a program.
本発明によるイベント集約装置は、コンピュータシステムの障害または障害の兆候を示すイベントの発生履歴を示すイベント履歴情報と、コンピュータシステムにおけるリソースの使用状態をメトリックごとの計測値として表すメトリック履歴情報とを、コンピュータシステムから取得する情報取得部と、コンピュータシステムの障害発生時における各メトリックの状態を定義したシステムスケッチを記憶する記憶部と、イベント履歴情報から、メトリック履歴情報が示す各メトリックの計測結果と、システムスケッチが示す各メトリックの状態とが一致する時間帯に発生したイベントを抽出し、抽出した各イベントを当該システムスケッチに対応するイベントグループとして集約する集約部とを含むことを特徴とする。 An event aggregating apparatus according to the present invention includes event history information indicating an occurrence history of an event indicating a failure of a computer system or an indication of failure, and metric history information indicating a resource usage state in a computer system as a measured value for each metric. An information acquisition unit acquired from a computer system, a storage unit that stores a system sketch that defines the state of each metric when a failure occurs in the computer system, and a measurement result of each metric indicated by the metric history information from the event history information, And an aggregating unit that extracts events that occur in a time zone in which the state of each metric indicated by the system sketch matches, and aggregates the extracted events as an event group corresponding to the system sketch.
本発明によるイベント集約方法は、コンピュータシステムの障害または障害の兆候を示すイベントの発生履歴を示すイベント履歴情報と、コンピュータシステムにおけるリソースの使用状態をメトリックごとの計測値として表すメトリック履歴情報とを、コンピュータシステムから取得し、イベント履歴情報から、メトリック履歴情報が示す各メトリックの計測結果と、記憶部に格納されたシステムスケッチに定義されたコンピュータシステムの障害発生時における各メトリックの状態とが一致する時間帯に発生したイベントを抽出し、抽出した各イベントを、当該システムスケッチに対応するイベントグループとして集約することを特徴とする。 The event aggregation method according to the present invention includes event history information indicating an occurrence history of an event indicating a failure of a computer system or an indication of failure, and metric history information indicating a resource usage state in the computer system as a measured value for each metric. The measurement result of each metric indicated by the metric history information obtained from the computer system and the event history information matches the state of each metric at the time of failure of the computer system defined in the system sketch stored in the storage unit. It is characterized by extracting events that occurred in a time zone and collecting each extracted event as an event group corresponding to the system sketch.
本発明によるイベント集約プログラムは、コンピュータに、コンピュータシステムの障害または障害の兆候を示すイベントの発生履歴を示すイベント履歴情報と、コンピュータシステムにおけるリソースの使用状態をメトリックごとの計測値として表すメトリック履歴情報とを、コンピュータシステムから取得する処理と、イベント履歴情報から、メトリック履歴情報が示す各メトリックの計測結果と、記憶部に格納されたシステムスケッチに定義されたコンピュータシステムの障害発生時における各メトリックの状態とが一致する時間帯に発生したイベントを抽出し、抽出した各イベントを、当該システムスケッチに対応するイベントグループとして集約する処理とを実行させることを特徴とする。 An event aggregation program according to the present invention provides a computer with event history information indicating an occurrence history of an event indicating a failure of a computer system or a failure sign, and metric history information indicating a resource usage state in the computer system as a measured value for each metric. Are obtained from the computer system, the event history information, the measurement result of each metric indicated by the metric history information, and each metric at the time of failure of the computer system defined in the system sketch stored in the storage unit. It is characterized in that an event that occurs in a time zone that matches the state is extracted, and a process for aggregating the extracted events as an event group corresponding to the system sketch is executed.
本発明によれば、コンピュータシステムにおいて発生したイベントがどの障害によるものであるかを容易に判断でき、イベントの調査診断に要する作業負荷を軽減することができる。 According to the present invention, it is possible to easily determine which failure is caused by an event that has occurred in a computer system, and it is possible to reduce the work load required for event investigation and diagnosis.
実施形態1.
以下、本発明の第1の実施形態を図面を参照して説明する。
A first embodiment of the present invention will be described below with reference to the drawings.
本実施形態は、本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではない。 This embodiment is merely an example for realizing the present invention, and does not limit the technical scope of the present invention.
また、各図において共通の構成については同一の番号を付与して説明する。 Moreover, the same number is given and demonstrated about a common structure in each figure.
また、本実施形態の説明において、「ソフトウェア」、「プログラム」または「モジュール」を動作主体として説明する箇所がある。これらの箇所は、プロセッサを動作主体とした処理に読み替えてもよい。その理由は、ソフトウェア、プログラムまたはモジュールは、プロセッサによって実行されることで、定められた処理をメモリおよび通信インタフェース(通信制御装置)を用いながら行うためである。 Further, in the description of the present embodiment, there is a place where “software”, “program”, or “module” is described as an operation subject. These portions may be read as processing whose main operation is a processor. The reason is that software, a program, or a module is executed by a processor to perform a predetermined process using a memory and a communication interface (communication control device).
また、プログラムやモジュールを動作主体とする処理は、管理サーバ等のコンピュータ、情報処理装置が行う処理としてもよい。また、プログラムの一部または全てが、専用ハードウェアによって実現されてもよい。また、各種プログラムは、プログラム配布サーバや記憶メディアによって各コンピュータにインストールされてもよい。 In addition, the process whose main operation is a program or module may be a process performed by a computer such as a management server or an information processing apparatus. Further, part or all of the program may be realized by dedicated hardware. Various programs may be installed in each computer by a program distribution server or a storage medium.
図1は、イベント集約システムの第1の実施形態の構成を示すブロック図である。 FIG. 1 is a block diagram showing the configuration of the first embodiment of the event aggregation system.
ここでは、コンピュータシステムの障害ごとにイベントを集約する処理を説明する。 Here, processing for aggregating events for each failure of the computer system will be described.
図1に示す分散システムは、コンピュータシステム10と、管理サーバ20と、管理端末30と、利用者端末40−1〜40−nと、IP(Internet Protocol)スイッチ50−1、50−2とを有する。コンピュータシステム10と利用者端末40−1〜40−nとは、ネットワーク60−1を介して接続される。コンピュータシステム10と管理サーバ20と管理端末30とは、ネットワーク60−2を介して接続される。
The distributed system shown in FIG. 1 includes a
コンピュータシステム10は、利用者端末40−1〜40−nからのファイルI/O要求を受信し、ファイルI/O要求に応じて、磁気ディスク等の記憶装置へのアクセスを実行する。また、コンピュータシステム10は、リソースの使用状態や、アプリケーションやオペレーティングシステムの稼動状態を示す監視情報ログを生成する。
The
利用者端末40−1〜40−nは、利用者等によるサービスの実行要求を受け付けて、コンピュータシステム10にファイルI/O要求を送信する。また、利用者端末40−1〜40−nは、コンピュータシステム10によるファイルI/O要求の実行結果を受信する。
The user terminals 40-1 to 40-n receive a service execution request from a user or the like, and transmit a file I / O request to the
管理サーバ20は、コンピュータシステム10が保持する監視情報ログを参照して、コンピュータシステム10の障害または障害の兆候を示す、複数のイベントを取得する。管理サーバ20は、それらのイベントを障害ごとに集約し、その集約結果を記憶装置に格納する。
The
管理端末30は、ネットワーク60−2を介して、管理サーバのUI(User Interface)表示処理モジュールと通信する。管理端末30は、当該通信により取得した各種情報を、自端末の出力デバイスに表示する。管理者等は、管理端末30に表示された各種情報を参照し、管理端末30の入力デバイスを用いて、管理サーバ20、IPスイッチ60−1、60−2、および、コンピュータシステム10に対する各種設定作業を行う。
The
図2は、コンピュータシステム10の第1の実施形態の構成を示すブロック図である。
FIG. 2 is a block diagram illustrating a configuration of the
コンピュータシステム10は、フロントエンドノード11と、処理ノード12−1〜12−nとを含む。これらのノードは、本実施形態では、IPスイッチ13を含むネットワーク14を介して接続される。なお、図2には1つのフロントエンドノードが例示されているが、フロントエンドノードはいくつあってもよい。
The
フロントエンドノード11は、例えば、通信端末等のコンピュータである。フロントエンドノード11は、利用者端末40−1〜40−nと接続される。フロントエンドノード11は、利用者端末40−1〜40−nからサービスの実行要求を受け付け、処理ノードへ転送するコンピュータである。また、フロントエンドノード11は、処理ノード12−1〜12−nによるサービスの実行結果を利用者端末40−1〜40−nへ転送する。
The
処理ノード12−1〜12−nは、例えば、通信端末等のコンピュータである。処理ノード12−1〜12−nは、管理サーバ20および管理端末30と接続される。処理ノード12−1〜12−nは、サービスに対応する処理を実行する。なお、処理ノード12−1〜12−nは、コンピュータ上に構築される仮想的なコンピュータであってもよい。
The processing nodes 12-1 to 12-n are computers such as communication terminals, for example. The processing nodes 12-1 to 12-n are connected to the
コンピュータシステム10は、例えば、クラウドコンピューティングシステム、グリッドコンピューティングシステム、並列分散コンピュータ、スーパーコンピュータ、サーバコンピュータ、パーソナルコンピュータ、および、これらを任意に組み合わせたシステムによって実現される。
The
図3は、コンピュータシステム10が含むコンピュータ(フロントエンドノード、処理ノード)の第1の実施形態の構成を示すブロック図である。
FIG. 3 is a block diagram showing the configuration of the first embodiment of a computer (front end node, processing node) included in the
コンピュータ100は、通信I/F(インタフェース)110と、プロセッサ120と、メモリ130と、二次記憶装置140とを含む。なお、コンピュータ100は、処理結果を出力するためのディスプレイ等の出力デバイス150や、管理者等が指示を入力するためのキーボード等の入力デバイス160を含んでいてもよい。コンピュータ100の各構成要素は、内部バス等の回路を介して相互に接続される。
The
通信I/F110は、コンピュータ100をネットワークに接続する。
The communication I /
プロセッサ120は、例えば、CPUである。
The
メモリ130は、例えば、キャッシュメモリである。本実施形態では、メモリ130には、データ処理ソフトウェア131と、監視ソフトウェア132とが格納される。
The
データ処理ソフトウェア131は、サービスに対応する処理の一部または全部を実行する。データ処理ソフトウェア131は、本実施形態では、アプリケーションおよびオペレーティングシステムである。
The
アプリケーションは、オペレーティングシステムから提供された記憶領域を使用して、当該記憶領域に対しデータ入出力を行う。 The application uses the storage area provided by the operating system to input / output data to / from the storage area.
オペレーティングシステムは、プロセッサを複数の論理的なプロセッサとしてアプリケーションに認識させるための処理を実行する。また、オペレーティングシステムは、メモリを複数の論理的なメモリとしてアプリケーションに認識させるための処理を実行する。また、オペレーティングシステムは、二次記憶装置を複数の論理的な二次記憶領域としてアプリケーションに認識させるための処理を実行する。 The operating system executes processing for causing an application to recognize the processor as a plurality of logical processors. In addition, the operating system executes processing for causing the application to recognize the memory as a plurality of logical memories. The operating system also executes processing for causing the application to recognize the secondary storage device as a plurality of logical secondary storage areas.
監視ソフトウェア132は、所定周期ごとに、コンピュータ100のリソースの使用状態を監視し、監視結果を監視情報ログに格納する。ここで、リソースには、プロセッサ120または論理的なプロセッサ、メモリ130または論理的なメモリ、二次記憶装置140または論理的な二次記憶領域、通信I/F110が含まれる。
The
また、監視ソフトウェア132は、所定周期ごとに、データ処理ソフトウェア131、つまりアプリケーションやオペレーティングシステムの稼動状態を監視し、監視結果を監視情報ログに格納する。
In addition, the
二次記憶装置140は、ハードディスクドライブなどの記憶装置である。二次記憶装置140は、半導体メモリ、磁気ディスク、または、半導体メモリおよび磁気ディスクの両方から構成される。二次記憶装置140は、監視情報ログを記憶する。
The
監視情報ログは、メトリック履歴情報およびイベント履歴情報を含む情報である。メトリック履歴情報およびイベント履歴情報は、後述する、管理サーバ20が保持するメトリック履歴表およびイベント履歴表を更新するための情報である。以降、「xxx表」という表現を用いるが、これらは、特定のデータ構造に限定するものではない。そのため、「xxxテーブル」、「xxxリスト」、「xxxデータベース」、「xxxキュー」等の表現や、それ以外の表現を用いてもよい。
The monitoring information log is information including metric history information and event history information. The metric history information and the event history information are information for updating a metric history table and an event history table held by the
図4は、管理サーバ20の第1の実施形態の構成を示すブロック図である。
FIG. 4 is a block diagram illustrating a configuration of the
管理サーバ20は、通信I/F21と、プロセッサ22と、メモリ23と、二次記憶装置24とを含む。なお、管理サーバ20は、処理結果を出力するためのディスプレイ等の出力デバイス25や、管理者等が指示を入力するためのキーボード等の入力デバイス26を含んでいてもよい。なお、出力デバイス25と入力デバイス26とは、別々のデバイスであってもよいし、1つのデバイスに含まれていてもよい。管理サーバ20の各構成要素は、内部バス等の回路を介して相互に接続される。
The
通信I/F21は、管理サーバ20をネットワークに接続する。
The communication I /
プロセッサ22は、例えば、CPUである。
The
メモリ23は、例えば、キャッシュメモリである。
The
メモリ23は、プログラム制御モジュール231と、構成情報取得モジュール232と、性能情報取得モジュール233と、イベント取得モジュール234と、UI表示処理モジュール235と、システムスケッチ生成モジュール236と、イベント集約処理モジュール237とを格納する。
The
二次記憶装置24は、ハードディスクドライブなどの記憶装置である。二次記憶装置24は、半導体メモリ、磁気ディスク、または、半導体メモリおよび磁気ディスクの両方から構成される。
The
二次記憶装置24は、システムトポロジ管理表と、メトリック定義表と、運用トポロジ管理表と、メトリック履歴表と、イベント履歴表と、システムスケッチ管理表と、イベント集約結果表とを記憶する。
The
プログラム制御モジュール231は、所定周期ごとに、構成情報取得モジュール232に対し、管理対象となるコンピュータシステムのコンピュータやIPスイッチから、システムトポロジ管理情報を取得するように指示する。
The
また、プログラム制御モジュール231は、所定周期ごとに、性能情報取得モジュール233に対し、管理対象となるコンピュータシステムのコンピュータやIPスイッチから、メトリック履歴情報を取得するように指示する。
Further, the
また、プログラム制御モジュール231は、所定周期ごとに、イベント取得モジュール234に対し、管理対象となるコンピュータシステムのコンピュータやIPスイッチから、イベント履歴情報を取得するように指示する。
Further, the
また、プログラム制御モジュール231は、所定周期ごとに、システムスケッチ生成モジュール236に対し、システムスケッチ管理情報を生成するように指示する。
In addition, the
また、プログラム制御モジュール231は、所定周期ごとに、イベント集約処理モジュール237に対し、イベント集約結果情報を更新するように指示する。
Further, the
構成情報取得モジュール232は、管理対象となるコンピュータシステムのコンピュータおよびIPスイッチから、システムトポロジ管理情報を取得するとともに、システムトポロジ管理表を更新する。
The configuration
性能情報取得モジュール233は、管理対象となるコンピュータシステムのコンピュータおよびIPスイッチから、メトリック履歴情報を取得するとともに、メトリック履歴表を更新する。
The performance
イベント取得モジュール234は、管理対象となるコンピュータシステムのコンピュータおよびIPシステムから、イベント履歴情報を取得するとともに、イベント履歴表を更新する。
The
UI表示処理モジュール235は、入力デバイス26を介した管理者からの要求に応じ、二次記憶装置24に格納された各種情報を、出力デバイス25を介して表示する。
The UI
システムスケッチ生成モジュール236は、システムトポロジ管理表とメトリック定義表とメトリック履歴表とを参照し、後述するシステムスケッチ生成処理を実行し、システムスケッチ管理表を更新する。
The system
イベント集約処理モジュール237は、システムトポロジ管理表とメトリック定義表と運用トポロジ管理表とメトリック履歴表とイベント履歴表とシステムスケッチ管理表とイベント集約結果表とを参照し、後述するイベント集約処理を実行し、イベント集約結果表を更新する。
The event
なお、各モジュールは、メモリに格納するソフトウェアモジュールではなく、ハードウェアモジュールとして提供されてもよい。また、各モジュールが行う処理が一つ以上のプログラムコードとして提供されてもよいし、複数のモジュールが1つのプログラムードとして提供されてもよい。また、説明において「モジュール」を、「プログラム」と読み替えてもよい。 Each module may be provided as a hardware module instead of a software module stored in the memory. Further, the processing performed by each module may be provided as one or more program codes, or a plurality of modules may be provided as one programmed code. In the description, “module” may be read as “program”.
なお、管理サーバ20は、シリアルインタフェースやイーサネット(登録商標)インタフェースを通信I/F21として備え、通信I/F21に、ディスプレイ、キーボードまたはポインタデバイスを有する管理端末30を表示用計算機として接続してもよい。それにより、管理サーバ20は、表示用情報を表示用計算機に送信して、表示用計算機で表示を行ったり、入力用情報を表示用計算機から受信することで、入力を受け付けたりすることができる。
The
図5は、管理サーバ20の二次記憶装置24に格納されたシステムトポロジ管理表の一例を示す説明図である。
FIG. 5 is an explanatory diagram showing an example of a system topology management table stored in the
システムトポロジ管理表は、図5に示すように、「システムトポロジキーID」、「コンピュータグループID」、「コンピュータID」および「コンピュータ部位ID」を示す情報を含む。 As shown in FIG. 5, the system topology management table includes information indicating “system topology key ID”, “computer group ID”, “computer ID”, and “computer part ID”.
「システムトポロジキーID」は、システムトポロジ管理表のレコードの識別子である。「コンピュータグループID」は、管理サーバ20の管理対象となるコンピュータシステムのコンピュータグループの識別子である。「コンピュータID」は、管理サーバ20の管理対象となるコンピュータの識別子である。「コンピュータ部位ID」は、管理サーバ20の管理対象となるコンピュータの内部を構成する部位の識別子である。
“System topology key ID” is an identifier of a record in the system topology management table. “Computer group ID” is an identifier of a computer group of a computer system to be managed by the
例えば、図5に示す、システムトポロジキーIDが“STKeyID1”であるレコードは、コンピュータグループ“NODEGrp1”がコンピュータ“NODE1”を含み、コンピュータ“NODE1”がプロセッサを有することを示す。 For example, the record having the system topology key ID “STKeyID1” shown in FIG. 5 indicates that the computer group “NODEGrp1” includes the computer “NODE1” and the computer “NODE1” has a processor.
図6は、管理サーバ20の二次記憶装置24に格納されたメトリック定義表の一例を示す説明図である。
FIG. 6 is an explanatory diagram showing an example of a metric definition table stored in the
メトリック定義表は、計測項目(メトリック)を定義するための情報である。具体的には、図6に示すように、「メトリックキーID」、「メトリックグループID」、「コンピュータ部位ID」、「メトリックID」、「メトリック上限異常閾値」および「メトリック下限異常閾値」を示す情報を含む。 The metric definition table is information for defining measurement items (metrics). Specifically, as shown in FIG. 6, “metric key ID”, “metric group ID”, “computer part ID”, “metric ID”, “metric upper limit abnormal threshold” and “metric lower limit abnormal threshold” are indicated. Contains information.
「メトリックキーID」は、メトリック定義表のレコードの識別子である。「メトリックグループID」は、管理サーバ20の管理対象となるコンピュータの監視対象となるメトリックのグループの識別子である。「コンピュータ部位ID」は、管理サーバ20の管理対象となるコンピュータの内部を構成する部位の識別子である。「メトリック上限異常閾値」は、管理サーバ20の管理対象となるコンピュータの内部を構成する部位の監視対象となるメトリックの値の正常範囲の上限を示す閾値である。「メトリック下限異常閾値」は、管理サーバ20の管理対象となるコンピュータの内部を構成する部位の監視対象となるメトリックの値の正常範囲の下限を示す閾値である。
The “metric key ID” is an identifier of a record in the metric definition table. The “metric group ID” is an identifier of a metric group to be monitored by the computer to be managed by the
例えば、図6に示す、メトリックキーIDが“MKeyID1”であるレコードは、監視対象のメトリックが、リソースのメトリックグループに属し、且つプロセッサの単位時間使用率のメトリックであることを示す。また、プロセッサの単位時間使用率の値が80%を超えた場合に、上限異常が検出されることを示す。 For example, the record whose metric key ID is “MKeyID1” shown in FIG. 6 indicates that the metric to be monitored belongs to the metric group of the resource and is a metric of the unit time usage rate of the processor. Further, it indicates that an upper limit abnormality is detected when the value of the unit usage rate of the processor exceeds 80%.
図7は、管理サーバ20の二次記憶装置24に格納された運用トポロジ管理表の一例を示す説明図である。
FIG. 7 is an explanatory diagram illustrating an example of an operation topology management table stored in the
運用トポロジ管理表は、図7に示すように、「運用トポロジキーID」、「運用ドメイン」、「運用障害区分」および「システムスケッチマップID(SSMapID)」を示す情報を含む。 As shown in FIG. 7, the operation topology management table includes information indicating “operation topology key ID”, “operation domain”, “operation failure classification”, and “system sketch map ID (SSMap ID)”.
「運用トポロジキーID」は、運用トポロジ管理表のレコードの識別子である。「運用ドメイン」は、管理サーバ20の管理対象となるコンピュータシステムの運用領域の識別子である。「運用障害区分」は、管理サーバ20の管理対象となるコンピュータシステムで発生する障害の識別子である。「SSMapID」は、当該運用障害区分における各コンピュータの各メトリックの状態を表すシステムスケッチの識別子である。以下、識別子が“SSMapIDx−x”であるシステムスケッチを、システムスケッチ「SSMapIDx−x」と表現する。
“Operation topology key ID” is an identifier of a record in the operation topology management table. “Operation domain” is an identifier of the operation area of the computer system to be managed by the
システムスケッチは、障害発生時におけるメトリックの状態を表現するルールである。具体的には、システムスケッチは、管理サーバ20の管理対象となるコンピュータシステムの各コンピュータの障害発生時におけるメトリックの状態を定義する。本実施形態では、メトリックの状態として、“正常”、“上限異常”、“下限以上”、“全状態一致”、“対象外”がある。
A system sketch is a rule that expresses the state of a metric when a failure occurs. Specifically, the system sketch defines a metric state when a failure occurs in each computer of the computer system to be managed by the
“正常”は、メトリックの値が正常範囲である状態を示す。 “Normal” indicates a state where the metric value is in a normal range.
“上限異常”は、メトリックの値が正常範囲の上限を示す閾値を超えた状態を示す。 “Upper limit abnormality” indicates a state in which the metric value exceeds a threshold value indicating the upper limit of the normal range.
“下限異常”は、メトリックの値が正常範囲の下限を示す閾値を下回った状態を示す。 “Lower limit abnormality” indicates a state in which the metric value falls below a threshold value indicating the lower limit of the normal range.
“全状態一致”は、メトリックの値が“正常”、“上限異常”または“下限異常”のいずれかの状態であることを示す。なお、システムスケッチでは、“全状態一致”を“*”で表す。 “All state coincidence” indicates that the metric value is “normal”, “upper limit error”, or “lower limit error”. In the system sketch, “all state coincidence” is represented by “*”.
“対象外”は、メトリックがルールの対象外であることを示す。なお、システムスケッチでは、“対象外”を“−”で表す。 “Not applicable” indicates that the metric is not subject to the rule. In the system sketch, “not applicable” is represented by “−”.
例えば、図7に示す、運用トポロジキーIDが“OTKeyID1”であるレコードは、“Application”の運用領域における“応答劣化”の障害は、各コンピュータの各メトリックの状態が、システムスケッチ「SSMapID1−1」または「SSMapID1−2」で表現された状態であることを示す。 For example, in the record shown in FIG. 7 where the operation topology key ID is “OTKeyID1”, the failure of “response degradation” in the “Application” operation area indicates that the state of each metric of each computer is the system sketch “SSMapID1-1”. ”Or“ SSMapID1-2 ”.
図8および図9は、システムスケッチの一例を示す説明図である。 8 and 9 are explanatory diagrams illustrating an example of a system sketch.
図8は、“Application”の運用領域における応答劣化時における、各コンピュータのそれぞれのメトリックの状態を表現するルールである。 FIG. 8 is a rule that expresses the state of each metric of each computer at the time of response deterioration in the operation area of “Application”.
図8に示すシステムスケッチ「SSMapID1−1」は、管理サーバ20の管理対象となるコンピュータシステム10のデータ処理ソフトウェア「SW1」の応答劣化時における、コンピュータ「NODE1」の各メトリックの状態とコンピュータ「NODE2」の各メトリックの状態を表現するルールである。図8に示すシステムスケッチ「SSMapID1−2」は、管理サーバ20の管理対象となるコンピュータシステム10のデータ処理ソフトウェア「SW2」の応答劣化時における各コンピュータの各メトリックの状態を表現するルールである。
The system sketch “SSMapID1-1” shown in FIG. 8 indicates the state of each metric of the computer “NODE1” and the computer “NODE2” when the response processing of the data processing software “SW1” of the
例えば、図8に示すシステムスケッチ「SSMapID1−1」は、コンピュータ「NODE1」における、メトリック「MKeyID1」とメトリック「MKeyID2」とメトリック「MKeyID3」の値が“正常”であって、メトリック「MKeyID4」の値が“上限異常”であって、メトリック「MKeyID5」が“対象外”であることを示す。また、コンピュータ「NODE2」は、メトリック「MKeyID1」とメトリック「MKeyID2」とメトリック「MKeyID3」の値が“正常”あって、メトリック「MKeyID4」が“対象外”であって、メトリック“MKeyID5”の値が“正常”、“上限異常”または“下限異常”のいずれかの状態であることを示す。 For example, the system sketch “SMCapID1-1” shown in FIG. 8 has the values of the metric “MKeyID1”, the metric “MKeyID2”, and the metric “MKeyID3” in the computer “NODE1”, and the metric “MKeyID4”. This indicates that the value is “upper limit error” and the metric “MKeyID5” is “not applicable”. Further, the computer “NODE2” has the values of the metric “MKeyID1”, the metric “MKeyID2”, and the metric “MKeyID3” “normal”, the metric “MKeyID4” “not applicable”, and the metric “MKeyID5”. Indicates one of the following states: “Normal”, “Upper limit error”, or “Lower limit error”.
図9は、“Infrastructure”の運用領域におけるリソース障害時における各コンピュータのそれぞれのメトリックの状態を表現するルールである。 FIG. 9 is a rule representing the state of each metric of each computer at the time of a resource failure in the “Infrastructure” operation area.
図9に示すシステムスケッチ「SSMapID2−1」、「SSMapID2−4」は、管理サーバ20の管理対象となるコンピュータシステムのプロセッサ(CPU)のリソース障害時における、コンピュータ「NODE1」の各メトリックの状態とコンピュータ「NODE2」の各メトリックの状態を表現するルールである。図9に示すシステムスケッチ「SSMapID2−2」、「SSMapID2−5」は、管理サーバ20の管理対象となるコンピュータシステムのメモリのリソース障害時における各コンピュータの各メトリックの状態を表現するルールである。図9に示すシステムスケッチ「SSMapID2−3」、「SSMapID2−6」は、管理サーバ20の管理対象となるコンピュータシステムのディスクのリソース障害時における各コンピュータの各メトリックの状態を表現するルールである。
The system sketches “SSMapID2-1” and “SSMapID2-4” shown in FIG. 9 indicate the state of each metric of the computer “NODE1” at the time of a resource failure of the processor (CPU) of the computer system to be managed by the
例えば、図9に示すシステムスケッチ「SSMapID2−1」は、コンピュータ「NODE1」における、メトリック「MKeyID1」の値が上限異常であって、メトリック「MKeyID2」とメトリック「MKeyID3」とメトリック「MKeyID4」の値が“正常”、“上限異常”または“下限異常”のいずれかの状態であって、メトリック「MKeyID5」が“対象外”であることを示す。また、コンピュータ「NODE2」における、メトリック「MKeyID1」とメトリック「MKeyID2」とメトリック「MKeyID3」とメトリック「MKeyID5」の値が「正常」、「上限異常」または「下限異常」のいずれかの状態であって、メトリック「MKeyID4」が対象外であることを示す。 For example, in the system sketch “SSMapID2-1” shown in FIG. 9, the value of the metric “MKeyID1” in the computer “NODE1” has an upper limit abnormality, and the values of the metric “MKeyID2”, the metric “MKeyID3”, and the metric “MKeyID4” Indicates “normal”, “upper limit error”, or “lower limit error”, and the metric “MKeyID5” is “not applicable”. In addition, in the computer “NODE2”, the values of the metric “MKeyID1”, the metric “MKeyID2”, the metric “MKeyID3”, and the metric “MKeyID5” are either “normal”, “upper limit abnormal”, or “lower limit abnormal”. Thus, the metric “MKeyID4” is excluded.
なお、システムスケッチは、管理サーバ20の管理対象となるコンピュータシステムで発生する障害時において、各コンピュータグループのそれぞれのメトリックの状態を表現するルールであってもよい。図10は、コンピュータグループのメトリックの状態を表現するシステムスケッチの一例を示す説明図である。例えば、図10に示すように、システムスケッチは、コンピュータグループ「NODEGrp1」におけるそれぞれのメトリックの状態を表現するルールであってもよい。この場合、図10に示すシステムスケッチ「SSMapID1−3」は、図8に示すシステムスケッチ「SSMapID1−1」とシステムスケッチ「SSMapID1−2」とを表現するルールとなる。
The system sketch may be a rule that expresses the state of each metric of each computer group when a failure occurs in a computer system that is a management target of the
さらに、システムスケッチは、管理サーバの管理対象となるコンピュータシステムで発生する障害時において、各コンピュータグループのそれぞれのメトリックグループの状態を表現するルールであってもよい。図11は、コンピュータグループのメトリックグループの状態を表現するシステムスケッチの一例を示す説明図である。例えば、図11に示すように、コンピュータグループ「NODEGrp1」における、メトリックグループ「リソース」と、メトリック「MKeyID4」と、メトリック「MKeyID5」との状態を表現するルールであってもよい。この場合、図11に示すシステムスケッチ「SSMapID2−7」は、図9に示すシステムスケッチ「SSMapID2−1」からシステムスケッチ「SSMapID2−6」までのシステムスケッチを表現するルールとなる。 Furthermore, the system sketch may be a rule that expresses the state of each metric group of each computer group in the event of a failure that occurs in a computer system managed by the management server. FIG. 11 is an explanatory diagram showing an example of a system sketch expressing the state of a metric group of a computer group. For example, as shown in FIG. 11, the rule may represent a state of a metric group “resource”, a metric “MKeyID4”, and a metric “MKeyID5” in the computer group “NODEGrp1”. In this case, the system sketch “SSMapID2-7” shown in FIG. 11 is a rule expressing the system sketches from the system sketch “SSMapID2-1” to the system sketch “SSMapID2-6” shown in FIG.
図12は、管理サーバ20の二次記憶装置24に格納されたメトリック履歴表の一例を示す説明図である。
FIG. 12 is an explanatory diagram illustrating an example of a metric history table stored in the
メトリック履歴表は、図12に示すように、「メトリック履歴キーID」、「システムトポロジキーID」、「メトリックキーID」、「計測日時」、「計測値」および「システムスケッチ生成処理済みフラグ」を示す情報を含む。 As shown in FIG. 12, the metric history table includes “metric history key ID”, “system topology key ID”, “metric key ID”, “measurement date / time”, “measured value”, and “system sketch generation processed flag”. Contains information indicating.
「メトリック履歴キーID」は、メトリック履歴表のレコードの識別子である。「システムトポロジキーID」は、システムトポロジ管理表のレコードの識別子である。「メトリックキーID」は、メトリック定義表のレコードの識別子である。「計測日時」は、メトリックの計測日時である。「計測値」は、メトリックの計測値である。「システムスケッチ生成処理済みフラグ」は、メトリック履歴表レコードに対するシステムスケッチ生成処理が済んでいるか否かを示すフラグである。 The “metric history key ID” is an identifier of a record in the metric history table. “System topology key ID” is an identifier of a record in the system topology management table. The “metric key ID” is an identifier of a record in the metric definition table. “Measurement date and time” is the measurement date and time of the metric. “Measured value” is a measured value of a metric. The “system sketch generation process completed flag” is a flag indicating whether or not the system sketch generation process for the metric history table record has been completed.
例えば、図12に示す、メトリック履歴キーIDが“MHistory1”であるレコードは、コンピュータグループ「NODEGrp1」のコンピュータ「NODE1」におけるプロセッサの単位時間使用率の計測値が“40%”であって、システムスケッチ生成処理済みであることを示す。また、計測日時が“2012/1/1/13:00:00”であることを示す。
For example, the record having the metric history key ID “
図13は、管理サーバ20の二次記憶装置24に格納されたイベント履歴表の一例を示す説明図である。
FIG. 13 is an explanatory diagram illustrating an example of an event history table stored in the
イベント履歴表は、図13に示すように、「イベントキーID」、「発生日時」、「システムトポロジキーID」、「イベントID」、「イベントメッセージ」および「イベント集約処理済みフラグ」を示す情報を含む。 As shown in FIG. 13, the event history table is information indicating “event key ID”, “occurrence date / time”, “system topology key ID”, “event ID”, “event message”, and “event aggregation processing flag”. including.
「イベントキーID」は、イベント履歴表のレコードの識別子である。「発生日時」は、イベントの発生日時である。「システムトポロジキーID」は、当該イベントの発生個所に対応するシステムトポロジキーIDである。「イベントID」、「イベントメッセージ」は、当該イベントにより通知されるメッセージの識別子とその内容である。「イベント集約処理済みフラグ」は、当該イベントに対するイベント集約処理が済んでいるか否かを示すフラグである。 “Event key ID” is an identifier of a record in the event history table. “Occurrence date and time” is the occurrence date and time of the event. The “system topology key ID” is a system topology key ID corresponding to the occurrence location of the event. “Event ID” and “event message” are an identifier of the message notified by the event and its contents. The “event aggregation processing completed flag” is a flag indicating whether or not the event aggregation processing for the event has been completed.
例えば、図13に示す、イベントキーIDが“EventKeyID1”であるレコードは、“2012/1/1 13:05:00”にコンピュータグループ「NODEGrp1」のコンピュータ「NODE1」のデータ処理ソフトウェア「SW1」で発生したイベントの、イベントIDが“SW1Event4”であって、イベントメッセージが“SW1エラー”であることを示す。また、当該イベントがイベント集約処理済みであることを示す。以下、識別子が“EventKeyIDx”であるイベント履歴を、イベント履歴「EventKeyIDx」と表現する。 For example, the record with the event key ID “EventKeyID1” shown in FIG. 13 is the data processing software “SW1” of the computer “NODE1” in the computer group “NODEGRP1” at “2012/1/1 13:05:00”. It indicates that the event ID of the event that has occurred is “SW1Event4” and the event message is “SW1 error”. It also indicates that the event has been subjected to event aggregation processing. Hereinafter, an event history whose identifier is “EventKeyIDx” is expressed as an event history “EventKeyIDx”.
図14は、管理サーバ20の二次記憶装置24に格納されたシステムスケッチ管理表の一例を示す説明図である。
FIG. 14 is an explanatory diagram showing an example of a system sketch management table stored in the
システムスケッチ管理表は、図14に示すように、「RunTimeSystemSketch(RSS)キーID」、「メトリックキーIDリスト」、「開始日時」および「終了日時」を示す情報を含む。 As shown in FIG. 14, the system sketch management table includes information indicating “Run Time System Sketch (RSS) key ID”, “metric key ID list”, “start date and time”, and “end date and time”.
「RSSキーID」は、システムスケッチ管理表のレコードの識別子である。「メトリック履歴キーIDリスト」は、システムスケッチ生成処理の対象となるメトリック履歴レコードの集合である。「開始日時」は、当該システムスケッチ生成処理の開始日時である。「終了日時」は、当該システムスケッチ生成処理の終了日時である。 “RSS key ID” is an identifier of a record in the system sketch management table. The “metric history key ID list” is a set of metric history records that are targets of system sketch generation processing. The “start date / time” is the start date / time of the system sketch generation process. The “end date / time” is the end date / time of the system sketch generation process.
例えば、図14に示す、RSSキーIDが“RSSMapKeyID1”であるレコードは、“2012/1/1 13:00:00”から“2012/1/1 13:09:59”までの時間帯のメトリックが、“MHistory1”から“MHistory8”までのメトリックであることを示す。
For example, the record whose RSS key ID is “RSSMapKeyID1” shown in FIG. 14 is a time zone metric from “2012/1/1 13:00:00” to “2012/1/1 13:09:59”. Are metrics from “
図15および図16は、管理サーバ20の二次記憶装置24に格納されたイベント集約結果表の一例を示す説明図である。
15 and 16 are explanatory diagrams illustrating an example of an event aggregation result table stored in the
イベント集約結果表は、図15および図16に示すように、「イベント集約グループキーID」、「運用トポロジキーID」、「イベントキーID」および「ステータス」を示す情報を含む。 As shown in FIGS. 15 and 16, the event aggregation result table includes information indicating “event aggregation group key ID”, “operation topology key ID”, “event key ID”, and “status”.
「イベント集約グループキーID」は、イベント集約結果表のレコードの識別子である。「運用トポロジキーID」は、運用トポロジ管理表のレコードの識別子である。「イベントキーID」は、イベント履歴表のレコードの識別子である。「ステータス」は、当該イベント集約グループに対する管理者の着手状態を示す。 “Event aggregation group key ID” is an identifier of a record in the event aggregation result table. “Operation topology key ID” is an identifier of a record in the operation topology management table. “Event key ID” is an identifier of a record in the event history table. “Status” indicates the start state of the administrator for the event aggregation group.
例えば、図15に示す、イベント集約グループキーIDが“EventGroupKeyID1”であるレコードは、“Application”の運用領域の応答劣化におけるイベント群(イベントグループ)が、イベントキー履歴「EventKeyID1」に対応するイベントと、イベント履歴「EventKeyID2」に対応するイベントと、イベント履歴「EventKeyID3」に対応するイベントであることを示す。また、当該レコードに対して、管理者が未着手であることを示す。イベントキー履歴「EventKeyID1」に対応するイベントは、図13に示すように、コンピュータ「NODE1」のデータ処理ソフトウェア「SW1」で発生した、メッセージが「SW1エラー」であるイベントである。また、イベントキー履歴「EventKeyID2」に対応するイベントは、コンピュータ「NODE1」のデータ処理ソフトウェア「SW1」で発生した、メッセージが“レスポンス異常”であるイベントである。また、イベントキー履歴「EventKeyID3」に対応するイベントは、コンピュータ「NODE2」のデータ処理ソフトウェア「SW2」で発生した、メッセージが“SW2エラー”であるイベントである。 For example, in the record shown in FIG. 15 in which the event aggregation group key ID is “EventGroupKeyID1”, the event group (event group) in the response degradation in the operation area “Application” corresponds to the event corresponding to the event key history “EventKeyID1”. , The event corresponding to the event history “EventKeyID2” and the event corresponding to the event history “EventKeyID3”. Further, it indicates that the manager has not started the record. As shown in FIG. 13, the event corresponding to the event key history “EventKeyID1” is an event that occurs in the data processing software “SW1” of the computer “NODE1” and whose message is “SW1 error”. The event corresponding to the event key history “EventKeyID2” is an event that occurs in the data processing software “SW1” of the computer “NODE1” and whose message is “response abnormality”. The event corresponding to the event key history “EventKeyID3” is an event that occurs in the data processing software “SW2” of the computer “NODE2” and whose message is “SW2 error”.
次に、本実施形態の動作を説明する。 Next, the operation of this embodiment will be described.
図17は、管理サーバ20のシステムスケッチ生成モジュール236が実行するシステムスケッチ生成処理を示すフローチャートである。
FIG. 17 is a flowchart showing a system sketch generation process executed by the system
なお、本実施形態では、システムスケッチ生成モジュール236がシステムスケッチ生成処理を実行する前に、予め、管理者が、システムトポロジ管理表とメトリック定義表とを、それぞれ二次記憶装置24に格納する。
In the present embodiment, before the system
システムスケッチ生成モジュール236は、システムトポロジ管理表から、管理対象となるコンピュータのすべてのコンピュータ部位IDの一覧を取得する。また、システムスケッチ生成モジュール236は、メトリック定義表から、取得したコンピュータ部位IDに一致するメトリックキーIDを取得する(ステップS101)。
The system
システムスケッチ生成モジュール236は、メトリック履歴表から、システムスケッチ生成処理済みフラグが“No”であって、且つステップS101で取得したメトリックキーIDを含むメトリック履歴レコードを取得する。このとき、システムスケッチ生成モジュール236は、時系列が最も古い順から、メトリックキーIDごとに少なくとも1つのレコードを取得し、取得したレコードのシステムスケッチ生成処理済みフラグを“Yes”に更新する(ステップS102)。
The system
システムスケッチ生成モジュール236は、ステップS102におけるシステムスケッチ生成処理済みフラグ更新後のメトリック履歴表から、システムスケッチ生成処理済みフラグが“No”であって、ステップS101で取得したメトリックキーIDを含むメトリック履歴レコードを取得する。システムスケッチ生成モジュール236は、取得したレコードの中から、時系列が最も古いレコードを取得する(ステップS103)。
The system
システムスケッチ生成モジュール236は、ステップS102で取得したメトリック履歴レコードの集合を、システムスケッチ生成処理の対象とする。つまり、当該メトリック履歴レコードの集合をシステムスケッチ管理レコードのメトリックキーIDリストに登録する。また、システムスケッチ生成モジュール236は、ステップS102で取得したメトリック履歴レコードの集合のうち最も時系列の古いレコードのメトリック計測日時を、システムスケッチ管理レコードのシステムスケッチ開始日時に登録する。また、ステップS103で取得したメトリック履歴レコードのメトリック計測日時の1秒前の日時を、システムスケッチ管理レコードのシステムスケッチ終了日時に登録する。システムスケッチ生成モジュール236は、システムスケッチ管理レコードを、レコードの識別子とともにシステムスケッチ管理表に格納する(ステップS104)。
The system
図18は、管理サーバ20のイベント集約処理モジュール237が実行するイベント集約処理を示すフローチャートである。
FIG. 18 is a flowchart showing the event aggregation processing executed by the event
なお、イベント集約処理モジュール237がイベント集約処理を実行する前に、予め、管理者が、システムトポロジ管理表とメトリック定義表と運用トポロジ管理表とを、それぞれ二次記憶装置24に格納する。
Before the event
イベント集約処理モジュール237は、イベント履歴表から、イベント集約処理済みフラグが“No”であるイベント履歴レコードの一覧を取得する(ステップS201)。
The event
イベント集約処理モジュール237は、ステップS201で取得したそれぞれのレコードに対して、ステップS203〜S210に示す処理を繰り返し実行する(ステップS202)。処理対象となるレコードが存在しない場合は、イベント集約処理を終了する。
The event
イベント集約処理モジュール237は、イベント集約結果表を参照し、各イベント集約グループのイベントキーIDリストに登録されているイベント履歴レコードの中に、処理対象のレコードと一致するものがあるか否かを確認する(ステップS203)。このとき、イベント集約処理モジュール237は、処理対象のレコードが、システムトポロジ管理表に登録されているシステムトポロジキーIDを含んでいて、且つ、イベント集約グループのイベントキーIDリストに登録されているイベント履歴レコードと同じイベントIDを含む場合に、処理対象のレコードと一致するイベント履歴レコードがあると判断する。
The event
一致するイベント履歴レコードがある場合は(ステップS204のYES)、イベント集約処理モジュール237は、イベント集約結果表を更新する。具体的には、一致するイベント履歴レコードがあるイベント集約グループのイベントキーIDリストに、当該処理対象のレコードの識別子(イベントキーID)を追加する(ステップS205)。
If there is a matching event history record (YES in step S204), the event
一致するイベント履歴レコードがない場合は(ステップS204のNO)、イベント集約処理モジュール237は、システムスケッチ管理表から、処理対象のイベント履歴レコードの発生日時が含まれる、メトリック履歴キーIDリストを取得する(ステップS206)。
If there is no matching event history record (NO in step S204), the event
イベント集約処理モジュール237は、運用トポロジ管理表から、各運用トポロジキーIDに対応するSSMapIDを取得する。イベント集約処理モジュール237は、メトリック履歴キーIDリストの各メトリック履歴レコードのメトリック状態が、取得したSSMapIDに対応するシステムスケッチが示す状態と一致しているか否かを確認する(ステップS207)。例えば、システムスケッチ管理レコード「RSSMapKeyID1」のメトリック履歴レコード「MHistory1−MHistory8」が示すメトリック状態は、コンピュータ「NODE1」におけるメトリック「MKeyID4」のみが“上限異常”であるので、システムスケッチ「SSMAPID1−1」が示す状態と一致していると判断される。
The event
イベント集約処理モジュール237は、各メトリック履歴レコードのメトリック状態とシステムスケッチが示す状態とが一致する場合は(ステップS208のYES)、当該システムスケッチの識別子(SSMapID)が登録された運用トポロジの識別子(運用トポロジキーID)と、当該処理対象のイベント履歴レコードの識別子(イベントキーID)とを要素とする新たなイベント集約結果レコードを生成し、イベント集約結果表に登録する(ステップS209)。
If the metric state of each metric history record matches the state indicated by the system sketch (YES in step S208), the event
イベント集約処理モジュール237は、各メトリック履歴レコードのメトリック状態とシステムスケッチが示す状態とが一致しない場合は(ステップS208のNO)、障害区分が“その他障害”である運用トポロジに割り当てられる運用トポロジキーID(例えば、“OTKeyID99”)と、当該イベント履歴レコード(イベントキーID)とを要素とする新たなイベント集約結果レコードを、イベント集約結果表に登録する(ステップS210)。
When the metric state of each metric history record and the state indicated by the system sketch do not match (NO in step S208), the event
イベント集約処理モジュール237は、ステップS205の処理を実行後、またはステップS209の処理を実行後、またはステップS210の処理を実行後、ステップS203の処理に戻る(ステップS211)。
The event
図19は、イベント集約結果を示す表示画面の一例を示す説明図である。 FIG. 19 is an explanatory diagram illustrating an example of a display screen showing an event aggregation result.
管理サーバ20、具体的にはUI表示処理モジュール235は、表示用計算機に表示用情報を送信して、表示用計算機が備えるディスプレイ等にイベント集約結果を示す表示画面を表示する。
The
図19に示すように、イベント集約結果を示す表示画面には、イベント集約結果表に格納されたイベント集約結果が表示される。なお、管理サーバ20は、イベント集約結果の表示画面のイベントリスト欄に、イベント履歴表のレコードの識別子に該当するイベント履歴情報のいずれかを表示してもよい。また、管理サーバ20は、イベント集約結果の表示画面に、イベント履歴表のレコードの件数のみを表示する欄を設けてもよい。
As shown in FIG. 19, the event aggregation result stored in the event aggregation result table is displayed on the display screen showing the event aggregation result. The
以上に説明したように、本実施形態では、イベント集約処理によって、管理サーバの管理対象となるコンピュータシステムにおいて障害が発生するときの各メトリックの状態を表現したルール(システムスケッチ)に応じて、当該障害で発生するイベントを集約し、グループ化する。そして、イベント集約結果を管理者に提示する。それにより、管理者がどの障害のイベントであるかを容易に判断でき、イベントの調査診断に要する作業負荷を軽減することができる。 As described above, in the present embodiment, according to the rule (system sketch) expressing the state of each metric when a failure occurs in the computer system to be managed by the management server by the event aggregation processing, Aggregate and group events that occur due to failures. Then, the event aggregation result is presented to the administrator. As a result, it is possible for the administrator to easily determine which failure event, and to reduce the work load required for event investigation and diagnosis.
また、管理対象とするコンピュータシステムの規模が大きくなればなるほど、同時多発的に障害が複数個所で発生する可能性が高くなる。従って、大規模なコンピュータシステムに本発明を適用した場合には、本発明の効果をより享受できる。 In addition, as the scale of a computer system to be managed increases, the possibility of simultaneous failures occurring at a plurality of locations increases. Therefore, when the present invention is applied to a large-scale computer system, the effects of the present invention can be further enjoyed.
図20は、本発明によるイベント集約装置の最小構成を示すブロック図である。図21は、本発明によるイベント集約装置の他の最小構成を示すブロック図である。 FIG. 20 is a block diagram showing the minimum configuration of the event aggregation device according to the present invention. FIG. 21 is a block diagram showing another minimum configuration of the event aggregation device according to the present invention.
図20に示すように、イベント集約装置(図1および図4に示す管理サーバ20に相当。)は、コンピュータシステム(図1および図2に示すコンピュータシステム10に相当。)の障害または障害の兆候を示すイベントの発生履歴を示すイベント履歴情報と、コンピュータシステムにおけるリソースの使用状態をメトリックごとの計測値として表すメトリック履歴情報とを、コンピュータシステムから取得する情報取得部1(図4に示す管理サーバ20におけるメモリ23に格納されたプログラム制御モジュール231、性能情報取得モジュール232およびイベント取得モジュール234に相当。)と、コンピュータシステムの障害発生時における各メトリックの状態を定義したシステムスケッチを記憶する記憶部2(図4に示す管理サーバ20における二次記憶装置24に相当。)と、イベント履歴情報から、メトリック履歴情報が示す各メトリックの計測結果と、システムスケッチが示す各メトリックの状態とが一致する時間帯に発生したイベントを抽出し、抽出した各イベントを当該システムスケッチに対応するイベントグループとして集約する集約部3(図4に示す管理サーバ20におけるメモリ23に格納されたプログラム制御モジュール231およびイベント集約処理モジュール237に相当。)とを含む。
As shown in FIG. 20, the event aggregating apparatus (corresponding to the
そのような構成によれば、障害が発生するときの各メトリックの状態を表現したルールに応じて、当該障害で発生するイベントを集約することができる。従って、発生したイベントがどの障害によるものであるかを容易に判断でき、イベントの調査診断に要する作業負荷を軽減することができる。 According to such a configuration, events that occur due to the failure can be aggregated according to a rule that expresses the state of each metric when the failure occurs. Therefore, it is possible to easily determine which fault the generated event is caused by, and it is possible to reduce the work load required for the investigation and diagnosis of the event.
上記の実施形態には、以下のようなイベント集約装置も開示されている。 In the above embodiment, the following event aggregation device is also disclosed.
(1)図21に示すように、集約されたイベントグループを表示するための表示用情報を生成する表示処理部4(図4に示す管理サーバ20におけるメモリ23に格納されたUI表示処理モジュール235に相当。)を含むイベント集約装置。
(1) As shown in FIG. 21, a
そのような構成によれば、表示用情報を表示用計算機等に出力することにより、コンピュータシステムにおける障害で発生するイベントを管理者に提示することができる。このように、当該障害で発生するイベントを、当該障害の各メトリックの状態が一致するイベントグループに集約し、集約した結果を表示用計算機等に表示することにより、管理者がどの障害のイベントであるかを容易に判断でき、イベントの調査診断に要する作業負荷を軽減することができる。 According to such a configuration, by outputting the display information to a display computer or the like, an event that occurs due to a failure in the computer system can be presented to the administrator. In this way, events that occur in the failure are aggregated into event groups that match the status of each metric of the failure, and the result of the aggregation is displayed on a display computer, etc. It is possible to easily determine whether it is present, and it is possible to reduce the workload required for event investigation and diagnosis.
(2)図21に示すように、所定期間ごとに、当該所定期間に取得されたメトリック履歴情報の集合を含むシステムスケッチ管理レコードを生成するシステムスケッチ生成部5(図4に示す管理サーバ20におけるメモリ23に格納されたプログラム制御モジュール231およびシステムスケッチ生成モジュール236に相当。)を含み、集約部3は、システムスケッチ管理レコードに含まれるメトリック履歴情報の集合が示す各メトリックの計測結果と、記憶部2に格納されたいずれかのシステムスケッチが示す各メトリックの状態とが一致する場合に、当該システムスケッチ管理レコードが生成された時間帯に発生したイベントを、当該システムスケッチに対応するイベントグループとして集約するイベント集約装置。
(2) As shown in FIG. 21, for each predetermined period, the system sketch generation unit 5 (in the
そのような構成によれば、未定義の関連イベントに対して、新たな障害のイベントであるか既存障害の関連イベントであるかを正確に判断することができ、より効率的にイベントを集約することができる。 According to such a configuration, it is possible to accurately determine whether the event is a new failure event or an existing failure event with respect to an undefined related event, and the events are aggregated more efficiently. be able to.
1 情報取得部
2 記憶部
3 集約部
4 表示処理部
5 システムスケッチ生成部
10 コンピュータシステム
11 フロントエンドノード
12−1〜12−n 処理ノード
13 IPスイッチ
14 ネットワーク
20 管理サーバ
21 通信I/F
22 プロセッサ
23 メモリ
231 プログラム制御モジュール
232 構成情報取得モジュール
233 性能情報取得モジュール
234 イベント取得モジュール
235 UI表示処理モジュール
236 システムスケッチ生成モジュール
237 イベント集約処理モジュール
24 二次記憶装置
25 出力デバイス
26 入力デバイス
30 管理端末
40−1〜40−n 利用者端末
50−1、50−2 IPスイッチ
60−1、60−2 ネットワーク
100 コンピュータ
110 通信I/F
120 プロセッサ
130 メモリ
131 データ処理ソフトウェア
132 監視ソフトウェア
140 二次記憶装置
150 出力デバイス
160 入力デバイス
DESCRIPTION OF
DESCRIPTION OF
120
Claims (9)
前記コンピュータシステムの障害発生時における各メトリックの状態を定義したシステムスケッチを記憶する記憶部と、
前記イベント履歴情報から、前記メトリック履歴情報が示す各メトリックの計測結果と、前記システムスケッチが示す各メトリックの状態とが一致する時間帯に発生したイベントを抽出し、抽出した各イベントを当該システムスケッチに対応するイベントグループとして集約する集約部とを含む
ことを特徴とするイベント集約装置。 Information for acquiring from the computer system event history information indicating the occurrence history of an event indicating a failure or a sign of failure of the computer system, and metric history information representing a resource usage state in the computer system as a measured value for each metric. An acquisition unit;
A storage unit for storing a system sketch that defines the state of each metric when a failure occurs in the computer system;
From the event history information, an event that occurred in a time zone in which the measurement result of each metric indicated by the metric history information matches the state of each metric indicated by the system sketch is extracted, and each extracted event is extracted from the system sketch. An event aggregating apparatus comprising: an aggregating unit that aggregates as an event group corresponding to.
請求項1に記載のイベント集約装置。 The event aggregation device according to claim 1, further comprising: a display processing unit that generates display information for displaying the aggregated event group.
集約部は、前記システムスケッチ管理レコードに含まれるメトリック履歴情報の集合が示す各メトリックの計測結果と、記憶部に格納されたいずれかのシステムスケッチが示す各メトリックの状態とが一致する場合に、当該システムスケッチ管理レコードが生成された時間帯に発生したイベントを、当該システムスケッチに対応するイベントグループとして集約する
請求項1または請求項2に記載のイベント集約装置。 A system sketch generation unit that generates a system sketch management record including a set of metric history information acquired during the predetermined period for each predetermined period,
The aggregation unit, when the measurement result of each metric indicated by the set of metric history information included in the system sketch management record matches the state of each metric indicated by any one of the system sketches stored in the storage unit, The event aggregating apparatus according to claim 1 or 2, wherein events occurring in a time zone when the system sketch management record is generated are aggregated as an event group corresponding to the system sketch.
前記イベント履歴情報から、前記メトリック履歴情報が示す各メトリックの計測結果と、記憶部に格納されたシステムスケッチに定義された前記コンピュータシステムの障害発生時における各メトリックの状態とが一致する時間帯に発生したイベントを抽出し、抽出した各イベントを、当該システムスケッチに対応するイベントグループとして集約する
ことを特徴とするイベント集約方法。 Event history information indicating an occurrence history of an event indicating a failure of the computer system or an indication of a failure, and metric history information indicating a resource usage state in the computer system as a measured value for each metric are acquired from the computer system,
From the event history information, in a time zone in which the measurement result of each metric indicated by the metric history information matches the state of each metric at the time of failure of the computer system defined in the system sketch stored in the storage unit An event aggregation method characterized by extracting generated events and aggregating each extracted event as an event group corresponding to the system sketch.
請求項4に記載のイベント集約方法。 The event aggregation method according to claim 4, wherein screen information for displaying the aggregated event group is generated.
前記システムスケッチ管理レコードに含まれるメトリック履歴情報の集合が示す各メトリックの計測結果と、記憶部に格納されたいずれかのシステムスケッチが示す各メトリックの状態とが一致する場合に、当該システムスケッチ管理レコードが生成された時間帯に発生したイベントを、当該システムスケッチに対応するイベントグループとして集約する
請求項4または請求項5に記載のイベント集約方法。 For each predetermined period, generate a system sketch management record including a set of metric history information acquired during the predetermined period,
When the measurement result of each metric indicated by the set of metric history information included in the system sketch management record matches the state of each metric indicated by any one of the system sketches stored in the storage unit, the system sketch management concerned The event aggregation method according to claim 4 or 5, wherein events occurring in a time zone when the record is generated are aggregated as an event group corresponding to the system sketch.
コンピュータシステムの障害または障害の兆候を示すイベントの発生履歴を示すイベント履歴情報と、前記コンピュータシステムにおけるリソースの使用状態をメトリックごとの計測値として表すメトリック履歴情報とを、前記コンピュータシステムから取得する処理と、
前記イベント履歴情報から、前記メトリック履歴情報が示す各メトリックの計測結果と、記憶部に格納されたシステムスケッチに定義された前記コンピュータシステムの障害発生時における各メトリックの状態とが一致する時間帯に発生したイベントを抽出し、抽出した各イベントを、当該システムスケッチに対応するイベントグループとして集約する処理とを実行させる
ためのイベント集約プログラム。 On the computer,
Processing for acquiring event history information indicating an occurrence history of an event indicating a failure or an indication of a failure of the computer system, and metric history information indicating a resource usage state in the computer system as a measured value for each metric from the computer system When,
From the event history information, in a time zone in which the measurement result of each metric indicated by the metric history information matches the state of each metric at the time of failure of the computer system defined in the system sketch stored in the storage unit An event aggregation program for extracting generated events and executing the process of aggregating each extracted event as an event group corresponding to the system sketch.
集約されたイベントグループを表示するための画面情報を生成する処理を実行させる
請求項7に記載のイベント集約プログラム。 On the computer,
The event aggregation program according to claim 7, wherein a process of generating screen information for displaying the aggregated event group is executed.
所定期間ごとに、当該所定期間に取得されたメトリック履歴情報の集合を含むシステムスケッチ管理レコードを生成する処理と、
前記システムスケッチ管理レコードに含まれるメトリック履歴情報の集合が示す各メトリックの計測結果と、記憶部に格納されたいずれかのシステムスケッチが示す各メトリックの状態とが一致する場合に、当該システムスケッチ管理レコードが生成された時間帯に発生したイベントを、当該システムスケッチに対応するイベントグループとして集約する処理とを実行させる
請求項7または請求項8に記載のイベント集約プログラム。 On the computer,
For each predetermined period, a process of generating a system sketch management record including a set of metric history information acquired during the predetermined period;
When the measurement result of each metric indicated by the set of metric history information included in the system sketch management record matches the state of each metric indicated by any one of the system sketches stored in the storage unit, the system sketch management concerned The event aggregation program according to claim 7 or 8, wherein the event aggregation program executes a process of aggregating events that occurred in a time zone when a record is generated as an event group corresponding to the system sketch.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013026859A JP2014157412A (en) | 2013-02-14 | 2013-02-14 | Event aggregation device, event aggregation method, and event aggregation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013026859A JP2014157412A (en) | 2013-02-14 | 2013-02-14 | Event aggregation device, event aggregation method, and event aggregation program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014157412A true JP2014157412A (en) | 2014-08-28 |
Family
ID=51578264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013026859A Pending JP2014157412A (en) | 2013-02-14 | 2013-02-14 | Event aggregation device, event aggregation method, and event aggregation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014157412A (en) |
-
2013
- 2013-02-14 JP JP2013026859A patent/JP2014157412A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pitakrat et al. | Hora: Architecture-aware online failure prediction | |
JP5874936B2 (en) | Operation management apparatus, operation management method, and program | |
JP6025753B2 (en) | Computer-implemented method, computer-readable storage medium, and system for monitoring performance metrics | |
JP5267736B2 (en) | Fault detection apparatus, fault detection method, and program recording medium | |
JP2017126363A (en) | Operation management device, operation management method, and program | |
US20130305083A1 (en) | Cloud service recovery time prediction system, method and program | |
US20160378583A1 (en) | Management computer and method for evaluating performance threshold value | |
JP6413537B2 (en) | Predictive failure notification device, predictive notification method, predictive notification program | |
US20210366268A1 (en) | Automatic tuning of incident noise | |
JP2014102661A (en) | Application determination program, fault detection device, and application determination method | |
Ma et al. | Version-based microservice analysis, monitoring, and visualization | |
JP2022033685A (en) | Method, apparatus, electronic device, computer readable storage medium and computer program for determining robustness | |
CN113608964A (en) | Cluster automation monitoring method and device, electronic equipment and storage medium | |
US9021078B2 (en) | Management method and management system | |
CN115037597A (en) | Fault detection method and equipment | |
CN110011845B (en) | Log collection method and system | |
JPWO2017169949A1 (en) | Log analysis apparatus, log analysis method, and program | |
CN110851316A (en) | Abnormity early warning method, abnormity early warning device, abnormity early warning system, electronic equipment and storage medium | |
Alekseev et al. | The BigPanDA self-monitoring alarm system for ATLAS | |
JP2014238852A (en) | Operation management device, operation management system, information processing method, and operation management program | |
JP2014157412A (en) | Event aggregation device, event aggregation method, and event aggregation program | |
US11036561B2 (en) | Detecting device utilization imbalances | |
JP2019009726A (en) | Fault separating method and administrative server | |
CN114445162A (en) | Method for reversely tracing enterprise invoice system configuration | |
Sidhu | Machine Learning Based Datacenter Monitoring Framework |