JP2016029520A - Information processing apparatus, information processing method, and program - Google Patents
Information processing apparatus, information processing method, and program Download PDFInfo
- Publication number
- JP2016029520A JP2016029520A JP2014151385A JP2014151385A JP2016029520A JP 2016029520 A JP2016029520 A JP 2016029520A JP 2014151385 A JP2014151385 A JP 2014151385A JP 2014151385 A JP2014151385 A JP 2014151385A JP 2016029520 A JP2016029520 A JP 2016029520A
- Authority
- JP
- Japan
- Prior art keywords
- configuration information
- failure
- configuration
- estimation
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims description 15
- 238000003672 processing method Methods 0.000 title claims description 3
- 238000012544 monitoring process Methods 0.000 claims abstract description 67
- 238000004458 analytical method Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 10
- 238000012986 modification Methods 0.000 description 50
- 230000004048 modification Effects 0.000 description 50
- 239000011159 matrix material Substances 0.000 description 23
- 238000010586 diagram Methods 0.000 description 16
- 238000000034 method Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 230000009466 transformation Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
Images
Abstract
Description
本発明は、監視対象システム内の障害発生箇所を推定する技術に関する。 The present invention relates to a technique for estimating a fault occurrence location in a monitoring target system.
IT(Information Technology)サービスプロバイダでは、顧客が構築したシステムに対する運用監視サービスを提供している場合がある。
運用監視サービスでは、監視対象となるネットワーク機器またはサーバを監視装置で監視し、そこから通知されるアラームに基づいて顧客へ通知を行ったり、障害対応を行ったりする。
このようなITサービスでは、ITIL(Information Technology Infrastructure Library)やISO/IEC20000(ITSMS:Information Technology Service Management System)等の標準を導入するケースが多い。
このような標準を使用して、運用監視サービスの標準化、自動化を行う場合、監視対象となるネットワーク機器またはサーバの構成情報を格納する構成管理データベース(CMDB:Configuration Management Database)を整備することでアラーム対応を効率化することができる。
In some cases, an IT (Information Technology) service provider provides an operation monitoring service for a system built by a customer.
In the operation monitoring service, a network device or server to be monitored is monitored by a monitoring device, and a customer is notified or a failure is dealt with based on an alarm notified from there.
In such IT services, there are many cases in which standards such as Information Technology Infrastructure Library (ITIL) and ISO / IEC 20000 (Information Technology Service Management System) are introduced.
When standardizing and automating operation monitoring services using such a standard, an alarm is provided by preparing a configuration management database (CMDB) that stores configuration information of network devices or servers to be monitored. Response can be made more efficient.
アラーム対応は、次のような流れで行われる。
まず、運用監視センターにて、アラーム発生時にアラームの内容を確認する。
次に、アラームが発生したネットワーク機器またはサーバの構成情報を確認し、どの機器で障害が発生しているかを推定する。
その後、障害対応の手順書に従って障害の解析、対応等を行う。
運用監視センターで対応できない場合は、障害が発生しているネットワーク機器またはサーバを管理している部門または客先等の予め決められた連絡先へアラームを通知する。
障害箇所の推定に時間がかかった場合、運用監視サービスの品質は低下してしまう。
アラーム対応において、構成情報を確認し、効率的に障害箇所を推定する従来技術として、大きく2種類の方法が挙げられる。
Alarm handling is performed in the following manner.
First, the content of the alarm is confirmed at the operation monitoring center when an alarm occurs.
Next, the configuration information of the network device or server in which the alarm has occurred is confirmed, and it is estimated which device has the failure.
After that, failure analysis and response are performed according to the failure handling procedure manual.
If the operation monitoring center cannot cope, an alarm is notified to a predetermined contact such as a department or customer who manages the network device or server in which the failure has occurred.
If it takes time to estimate the fault location, the quality of the operation monitoring service will be degraded.
In response to an alarm, there are roughly two types of conventional techniques for confirming configuration information and estimating a fault location efficiently.
1つめは、相関ルールによる障害箇所の推定である(例えば、特許文献1)。
例えば、構成の接続条件、指標とその状態、何が原因か等を相関ルールとして定義し、それらを決められた時間内に発生している複数アラームに対して適用することで、障害箇所を推定する。
The first is estimation of a failure location by an association rule (for example, Patent Document 1).
For example, it is possible to estimate the location of failure by defining the connection conditions of the configuration, the indicators and their states, the cause, etc. as correlation rules and applying them to multiple alarms occurring within a set time. To do.
2つめは、隣接行列を用いた障害箇所の推定である(例えば、特許文献2)。
例えば、複数の階層からなるシステムの統合的な監視を行う場合において、機器間の接続関係を表す隣接行列を生成し、行列演算を行うことによって監視を行う。
The second is estimation of a fault location using an adjacency matrix (for example, Patent Document 2).
For example, in the case of performing integrated monitoring of a system composed of a plurality of hierarchies, monitoring is performed by generating an adjacency matrix representing a connection relationship between devices and performing matrix calculation.
図31は、監視対象システムの構成例とアラーム発生箇所を示す。
図31において、四角形はシステムの構成要素(CI:Configuration Item)、矢印はCI間の依存関係、稲妻は発生したアラーム、a〜kはCIの識別子である。
図31中のCIと依存関係は、監視対象システムの構成について、顧客である「A社」が「メールサービス」を利用しており、「メールサービス」は「メールシステム」で構成されており、「メールシステム」は「サーバ1」〜「サーバ7」で構成されており、「サーバ1」〜「サーバ7」は「FW(ファイアウォール)」に影響されていることを示している。
また、アラームは、「サーバ1」〜「サーバ7」、「FW」で発生していることを示している。
アラームを発生させたCIは、アラーム発生CI又はアラーム発生システム構成要素ともいう。
図31の例では、「FW」(識別子:k)で障害が発生し、「サーバ1」〜「サーバ7」がリンクダウンによって疎通確認が出来なくなったというアラームを発生したことを想定している。
図31において複数発生しているアラームの根本原因は、構成情報の依存関係を辿ることにより、依存関係先(矢印の先)にある「FW」(識別子:k)であると推定することができる。
FIG. 31 shows a configuration example of a monitoring target system and an alarm occurrence location.
In FIG. 31, a rectangle is a system configuration item (CI), an arrow is a dependency between CIs, a lightning bolt is an alarm generated, and a to k are CI identifiers.
In FIG. 31, the CI and the dependency relationship are that the customer “Company A” uses “mail service”, and “mail service” is configured by “mail system”. The “mail system” is composed of “
Further, the alarm indicates that the alarm has occurred in “
The CI that generated the alarm is also referred to as an alarm generation CI or an alarm generation system component.
In the example of FIG. 31, it is assumed that a failure has occurred at “FW” (identifier: k), and an alarm has occurred that “
In FIG. 31, the root cause of a plurality of generated alarms can be estimated to be “FW” (identifier: k) at the dependency destination (the tip of the arrow) by following the dependency relationship of the configuration information. .
図31で示した例に対し、前述した従来技術を活用することも可能である。
1つめの従来技術のように、FW障害が原因で他サーバに疎通アラームが発生する、という相関ルールを定義しておくことにより、根本原因を推定することも可能である。
また、2つめの従来技術のように、CI間の依存関係から隣接行列を作成して距離行列を求め、最上位にあるCI(図31では「A社」)から、アラームが発生しているCIの中で最も距離の遠いCIを根本原因として推定することも可能である。
図32は、図31を元に作成した距離行列に対してアラーム発生箇所をマッピングした例である。
図32のa〜kは、図31に示すCIの識別子であるa〜kを表している。
距離行列の列は距離を求める際の始点となるCI名、行は距離を求めるCI名である。
例えば、a列のb行の「1」は、aからbまでの距離が1であることを意味する。
この例では、表中の反転表示部分がアラーム発生CI(図31で稲妻が表示されているCI)を示している。
最上位CIであるa「A社」から、アラーム発生CIの中で最も距離の遠いk「FW」を根本原因として推定する。
For the example shown in FIG. 31, the above-described conventional technique can be used.
As in the first prior art, it is possible to estimate the root cause by defining a correlation rule that a communication alarm occurs in another server due to an FW failure.
Further, as in the second prior art, an adjacent matrix is created from the dependency relationship between CIs to obtain a distance matrix, and an alarm is generated from the CI at the highest level (“Company A” in FIG. 31). It is also possible to estimate the CI with the longest distance among the CIs as the root cause.
FIG. 32 is an example in which an alarm occurrence location is mapped to a distance matrix created based on FIG.
32 represent a to k which are identifiers of the CI shown in FIG.
The column of the distance matrix is the CI name that is the starting point for determining the distance, and the row is the CI name for determining the distance.
For example, “1” in b row of column a means that the distance from a to b is 1.
In this example, the reverse display portion in the table indicates the alarm occurrence CI (CI where lightning is displayed in FIG. 31).
Based on a “Company A”, which is the highest CI, k “FW”, which is the farthest among the alarm generation CIs, is estimated as a root cause.
相関ルールによって根本原因を推定する方式の場合、発生し得るアラームの種類、発生箇所ごとにルールを設定する必要があり、ルールの作成、メンテナンスのコストが膨大となる。 In the case of a method for estimating the root cause by using an association rule, it is necessary to set a rule for each type of alarm that can occur and for each occurrence location, and the cost for creating and maintaining the rule becomes enormous.
また、監視対象システムの一部または全てが自社の管理下でない等、詳細な構成情報を利用することができない場合、従来技術によって障害箇所を推定出来ないことがある。
詳細な構成情報や現在の接続状態の取得は、CMDB製品に付属しているオートディスカバリ機能等を利用することによっても実現できる。
自社システムの運用監視においては、オートディスカバリ機能等は問題なく利用できる場合が多い。
しかし、例えば、ITサービスプロバイダが、ハウジングサービスによって顧客資産のシステムをデータセンター内に預かっている場合や、仮想サーバの貸し出しサービスによって顧客がどのように仮想サーバを利用しているか関知していない場合においては、顧客の同意なくオートディスカバリ機能等を利用することができない。
顧客から開示される構成情報のみでは、従来技術を適用するためには不十分である場合が多い。
このような状況で従来技術を適用すると、サーバ間の依存関係、アプリケーション情報等の詳細な情報が不十分であり、根本原因を推定することができない。
In addition, when detailed configuration information cannot be used, for example, when some or all of the monitoring target systems are not under the control of the company, the failure location may not be estimated by the conventional technology.
Acquisition of detailed configuration information and the current connection state can also be realized by using an auto-discovery function attached to the CMDB product.
Auto-discovery functions can often be used without problems in monitoring the operation of in-house systems.
However, for example, when the IT service provider keeps the customer asset system in the data center by housing service, or does not know how the customer uses the virtual server by virtual server rental service Cannot use the auto-discovery function or the like without the customer's consent.
In many cases, the configuration information disclosed by the customer alone is insufficient for applying the conventional technology.
When the conventional technique is applied in such a situation, detailed information such as dependency relationships between servers and application information is insufficient, and the root cause cannot be estimated.
図33及び図34は、管理している構成情報によって、障害箇所を推定できないアラームが発生した場合の例である。
図33は、「サーバ1」と「サーバ2」でアラームが発生していることを示している。
図34は、図33を元に作成した距離行列に対してアラーム発生箇所をマッピングした例である。
この例では、最上位CI「A社」から「サーバ1」、「サーバ2」までの距離が同じであり、どちらが根本原因か推定することができない。
FIG. 33 and FIG. 34 are examples in the case where an alarm that cannot be used to estimate the failure location is generated by the managed configuration information.
FIG. 33 shows that an alarm has occurred in “
FIG. 34 is an example in which alarm occurrence locations are mapped to the distance matrix created based on FIG.
In this example, the distance from the highest CI “Company A” to “
更に、構成情報を格納するCMDBのデータ構造を容易に変更できないという課題もある。
CMDBのデータ構造は、運用監視システムの設計時に決定し、システム運用中には変更しないことが通常である。
監視対象システムの変更が発生した場合は、データ構造の変更は行わず、個々の構成情報を更新することによって対応する。
そのため、例えば、ある顧客の運用監視においてのみ、CMDBのデータ構造に無い新たな構成情報を管理したいという状況が発生した場合、それらの情報をCMDBに格納することができず、その情報を運用監視に活かしにくい。
Furthermore, there is a problem that the data structure of the CMDB that stores the configuration information cannot be easily changed.
The data structure of the CMDB is usually determined at the time of designing the operation monitoring system and is not changed during system operation.
When the monitoring target system changes, the data structure is not changed, and the individual configuration information is updated.
Therefore, for example, when a situation occurs in which it is desired to manage new configuration information that is not in the CMDB data structure only in the operation monitoring of a certain customer, such information cannot be stored in the CMDB, and the information is monitored. It is difficult to take advantage of.
本発明は上記のような課題を解決することを主な目的とし、構成情報が不十分な場合、または、構成情報の変更が難しい場合でも、精度よく障害発生箇所を推定できるようにすることを主な目的とする。 The main object of the present invention is to solve the above-described problems, and to enable accurate estimation of a fault occurrence location even when configuration information is insufficient or even when configuration information is difficult to change. Main purpose.
本発明に係る情報処理装置は、
監視対象システムのシステム構成を既定のデータ構造で定義する構成情報のコピーから、前記既定のデータ構造とは異なる障害発生箇所推定用のデータ構造で前記監視対象システムのシステム構成を定義する障害発生箇所推定用構成情報を生成する推定用構成情報生成部と、
前記監視対象システムで障害が発生した際に、前記障害発生箇所推定用構成情報で定義されているシステム構成を解析して、前記監視対象システム内の障害発生箇所を推定する解析推定部とを有することを特徴とする。
An information processing apparatus according to the present invention includes:
The location of failure where the system configuration of the monitored system is defined by a data structure for estimating the location of failure, which is different from the default data structure, from a copy of the configuration information that defines the system configuration of the monitored system with the default data structure A configuration information generator for estimation that generates configuration information for estimation;
An analysis estimating unit that analyzes a system configuration defined by the configuration information for estimating a failure occurrence location and estimates a failure occurrence location in the monitored system when a failure occurs in the monitored system It is characterized by that.
本発明によれば、構成情報が不十分な場合、または、構成情報の変更が難しい場合でも、構成情報のコピーに対して障害発生箇所推定用のデータ構造を適用して障害発生箇所推定用構成情報を生成し、構成情報を維持したまま、障害発生箇所推定用構成情報を用いて、精度よく障害発生箇所を推定することができる。 According to the present invention, even when the configuration information is insufficient or when it is difficult to change the configuration information, the failure location estimation configuration is applied to the configuration information copy by applying the failure location estimation data structure to the copy of the configuration information. While generating information and maintaining the configuration information, it is possible to accurately estimate the location of failure using the configuration information for failure location estimation.
実施の形態1.
本実施の形態及び以降の実施の形態では、構成情報が不十分な場合、または、CMDBのデータ構造の変更が難しい場合において、障害箇所推定の精度を向上させることが可能であり、また、メンテナンスコストを削減することが可能な構成を説明する。
In the present embodiment and subsequent embodiments, it is possible to improve the accuracy of fault location estimation when the configuration information is insufficient or when the data structure of the CMDB is difficult to change, and maintenance is also possible. A configuration capable of reducing the cost will be described.
より具体的には、CMDBに格納されている不十分な構成情報に対し、構成情報を変形させるルールによってCMDBの外部で構成情報を変形させ、変形後の構成情報を元にCI間の距離情報を求めることにより、障害箇所推定の精度を向上させる構成を説明する。 More specifically, with respect to insufficient configuration information stored in the CMDB, the configuration information is transformed outside the CMDB by a rule that transforms the configuration information, and the distance information between the CIs based on the transformed configuration information The structure which improves the precision of fault location estimation by calculating | requiring is demonstrated.
まず、構成について説明する。
図1は、本実施の形態に係るシステム構成例を示す。
本実施の形態に係るシステムは、クライアント装置10、監視システム20及び監視対象システム30から構成される。
監視対象システム30は、監視システム20が監視を行うシステムの一例であり、ネットワーク機器(FW:ファイアウォール、SW:スイッチ)、サーバ等から構成される。 監視システム20は、監視対象システム30をインターネットまたはイントラネットを経由して監視する。
クライアント装置10は、監視を行うオペレータが使用する端末装置である。
オペレータは、監視システム20が表示する情報を、クライアント装置10から確認する。
監視システム20は、監視対象システム30に対して監視を行い、障害を検知する。
また、検知した障害から、障害原因箇所を推定し、オペレータに対して推定結果を表示する。
監視システム20は、情報処理装置の例に相当する。
First, the configuration will be described.
FIG. 1 shows a system configuration example according to the present embodiment.
The system according to the present embodiment includes a
The
The
The operator confirms information displayed by the
The
Further, the cause of the failure is estimated from the detected failure, and the estimation result is displayed to the operator.
The
監視システム20において、画面表示部201は、オペレータが監視システム20を利用する際に、クライアント装置10へ表示する画面を生成する。
オペレータは、クライアント装置10を通して、画面表示部201が表示する画面を利用し、発生した障害の確認等を行う。
In the
The operator uses the screen displayed by the
障害箇所推定部202は、監視対象システム30で発生した障害情報と、監視対象システム30の構成情報を用いて障害原因箇所の推定を行う。
より具体的には、障害箇所推定部202は、最上位のCIからの距離が最も遠いアラーム発生CI(アラーム発生システム構成要素)を障害発生箇所として推定する。
つまり、障害箇所推定部202は、最上位階層のCIからの階層差数が最も多いアラーム発生CIを、障害を発生させたCIと推定する。
障害箇所推定部202は、後述する距離情報生成部204とともに解析推定部の例に相当する。
The failure
More specifically, the failure
That is, the failure
The failure
障害情報収集部203は、監視対象システム30を監視し、発生した障害情報を収集し、障害情報DB211に格納する。
障害情報をオペレータへ表示する場合には、障害情報収集部203は、障害情報DB211より障害情報を取得する。
障害情報収集部203は、一般的な監視システムで用いられている監視機能と同様の機能である。
The failure
When displaying the failure information to the operator, the failure
The failure
距離情報生成部204は、構成情報変形ルール適用部205から渡される構成情報を元に、CI間の距離情報を生成し、距離情報DB212に格納する。
距離情報生成部204は、前述の障害箇所推定部202とともに解析推定部の例に相当する。
The distance
The distance
構成情報変形ルール適用部205は、CMDB213に格納されている構成情報、予め定義しておいた構成情報変形ルール214を元に、構成情報を補完し、変形する。
より具体的には、CMDB213に格納されている構成情報のコピーを変形して、障害発生箇所の推定用の新たな構成情報(障害発生箇所推定用構成情報)を生成する。
変形後の新たな構成情報は、距離情報生成部204に渡され、距離情報が生成される。
構成情報変形ルール適用部205は、推定用構成情報生成部の例に相当する。
The configuration information modification
More specifically, a copy of the configuration information stored in the
The new configuration information after the deformation is transferred to the distance
The configuration information modification
なお、図1の監視システム20では、発生した障害の確認に必要最低限の機能のみを記載しているが、例えば、障害対応状況の記録機能や、従来技術として前述した相関ルールによる障害箇所の推定機能が含まれてもよい。
The
次に、監視システム20内の情報記憶装置について説明する。
障害情報DB211は、障害情報収集部203が収集した障害情報を保持する。
距離情報DB212は、距離情報生成部204が作成したCI間の距離情報を保持する。
距離情報の形式は、距離行列、リスト等、形式は問わない。
CMDB213は、構成管理モデルに定義されたデータ構造を持つ構成管理データベースである。
構成管理モデル、格納される構成情報の例は後述する。
構成情報変形ルール214は、CMDB213に格納された構成情報を補完し、変形させるためのルールである。
構成情報変形ルール214の例は後述する。
Next, the information storage device in the
The
The
The format of the distance information may be any format such as a distance matrix or a list.
The
An example of the configuration management model and stored configuration information will be described later.
The configuration
An example of the configuration
次に、CMDB213の構成管理モデル、格納される構成情報の例を説明する。
Next, an example of the configuration management model of the
図2及び図3は、構成管理モデルの一例である。
図2は、構成管理モデルとして定義するCI型の例である。
ここで定義したCI型の例を説明する。
「顧客」は、サービスを利用する顧客の属性を格納するCI型であり、例えば、顧客名、略称等の属性を持つ。
顧客情報をCMDB213に格納する場合、顧客CI型を用いてCIを作成する。
図3は、図2で定義したCI型間の依存関係の例である。
図中の矢印が依存関係を表す。
この例では、「顧客」は「サービス」に依存し、「サービス」は「システム」に依存し、「システム」は「ノード」に依存し、「ノード」は「ハードウェア」と「アプリケーション」に依存する。
CIを格納する際には、モデルで定義された依存関係の位置に、CI間の依存関係を定義することができる。
本明細書では、矢印の元を依存関係元、矢印の先を依存関係先と呼ぶこととする。
2 and 3 are examples of the configuration management model.
FIG. 2 shows an example of a CI type defined as a configuration management model.
An example of the CI type defined here will be described.
“Customer” is a CI type that stores attributes of customers who use the service, and has attributes such as customer name and abbreviation, for example.
When customer information is stored in the
FIG. 3 is an example of the dependency relationship between the CI types defined in FIG.
The arrows in the figure indicate dependency relationships.
In this example, “customer” depends on “service”, “service” depends on “system”, “system” depends on “node”, and “node” becomes “hardware” and “application”. Dependent.
When storing the CI, the dependency relationship between the CIs can be defined at the position of the dependency relationship defined in the model.
In this specification, the source of an arrow is called a dependency relationship source, and the tip of the arrow is called a dependency relationship destination.
図4及び図5及び図6は、CMDB213で管理される構成情報の例である。
ここでは図2及び図3で示した構成管理モデルが定義されている前提とする。
図4は、CI名とCI型名の対応の例であり、CIとして作成された構成情報とその型名の関係を示している。
aは、CI型名が「顧客」の「A社」というCIをCMDB213で管理していることを意味する。
bは、CI型名が「サービス」の「メールサービス」というCIをCMDB213で管理していることを意味する。
それ以降についても同様である。
図5は、図4で示したCI間の依存関係の例である。
この例では、「A社」は「メールサービス」を利用しており、「メールサービス」は「メールシステム」で構成されており、「メールシステム」は「サーバ1」〜「サーバ7」で構成されており、「サーバ1」〜「サーバ7」はFWに影響されていることを示している。
図6は、図4及び図5の情報を可視化したCIの関係図である。
4, 5, and 6 are examples of configuration information managed by the
Here, it is assumed that the configuration management model shown in FIGS. 2 and 3 is defined.
FIG. 4 is an example of correspondence between CI names and CI type names, and shows the relationship between configuration information created as CIs and their type names.
“a” means that the
b means that the
The same applies to the subsequent steps.
FIG. 5 is an example of the dependency relationship between CIs shown in FIG.
In this example, “Company A” uses “Mail Service”, “Mail Service” is composed of “Mail System”, and “Mail System” is composed of “
FIG. 6 is a relationship diagram of the CI that visualizes the information of FIGS. 4 and 5.
図4〜図6に示すように、構成情報変形ルール適用部205による変形前の構成情報は、既定のデータ構造である既定の階層構造で監視対象システム30のシステム構成が定義されている。
このような構成情報に対して、構成情報変形ルール適用部205は、構成情報変形ルールを適用して、障害発生箇所推定用の新たなデータ構造である新たな階層構造で監視対象システム30のシステム構成を定義する新たな構成情報(障害発生箇所推定用構成情報)を生成する。
As shown in FIGS. 4 to 6, the configuration information before transformation by the configuration information transformation
The configuration information modification
図7は、構成情報変形ルール214の例を示す。
Noはルール番号であり、構成情報変形ルール214は構成情報を変形するためのルール定義である。
構成情報変形ルールの記述方法は問わない。
例えば、述語論理でも、表形式でも構わない。
ルールの詳細は、図7、図8、図9と合わせて、構成情報変形ルールによる構成情報の変形方法として後述する。
FIG. 7 shows an example of the configuration
No is a rule number, and the configuration
The description method of the configuration information modification rule is not limited.
For example, predicate logic or tabular form may be used.
Details of the rule will be described later as a configuration information modification method based on the configuration information modification rule in conjunction with FIGS. 7, 8, and 9.
図8は、CMDB213に格納されている構成情報を補完するために追加したい属性の例を示す。
「サーバ1」のCIに対して「DBサーバ」、「サーバ2」のCIに対して「Webサーバ」という役割の属性を追加したい場合の例を示している。
図8の情報は、例えば、オペレータがクライアント装置10から監視システム20に設定する。
FIG. 8 shows an example of attributes to be added to complement the configuration information stored in the
The example shows a case where it is desired to add a role attribute of “DB server” to the CI of “
The information shown in FIG. 8 is set by the operator from the
図9、図10、図11は、構成情報変形ルールによって構成情報を変形した例を示す。
つまり、図9は、図6で示したCIの関係図を、図7の構成情報変形ルールによって変形した図である。
また、図10は、図4で示したCI名とCI型名の対応を、図7の構成情報変形ルールによって変形した図である。
また、図11は、図5で示したCI間の依存関係を、図7の構成情報変形ルールによって変形した図である。
9, FIG. 10 and FIG. 11 show examples in which the configuration information is modified by the configuration information modification rule.
That is, FIG. 9 is a diagram obtained by modifying the relationship diagram of the CI shown in FIG. 6 with the configuration information modification rule of FIG.
FIG. 10 is a diagram in which the correspondence between the CI name and the CI type name shown in FIG. 4 is modified by the configuration information modification rule of FIG.
FIG. 11 is a diagram in which the dependency relationship between the CIs shown in FIG. 5 is modified by the configuration information modification rule of FIG.
図7のNo.1のルールは、ノードの属性がDBサーバの場合、CI型がアプリケーションの「DB」というCIを追加し、追加した「DB」からDBサーバの属性を持つノードへの依存関係を追加する、というものである。
このルールに従った構成情報の変更は、図9中の点線の四角で囲んだ「1」の数字に該当する。
つまり、「DB」というCIからサーバ1への依存関係がルールのNo.1によって追加される。
図7のNo.2のルールは、ノードの属性がWebサーバの場合、CI型がアプリケーションの「Web」というCIを追加し、追加した「Web」からWebサーバの属性を持つノードへの依存関係を追加する、というものである。
このルールに従った構成情報を変更は、図9中の点線の四角で囲んだ「2」の数字に該当する。
つまり、「Web」というCIとサーバ2への依存関係がルールのNo.2によって追加される。
同様に、ルール3〜4についてもCIと依存関係を追加する。
このように、構成情報変形ルール適用部205は、監視対象システム30に含まれる複数のシステム構成要素(CI)に、構成情報変形ルール214に記述される特定の属性を有するシステム構成要素(CI)が含まれるか否かを判断し、そのようなCIが含まれる場合は、構成情報変形ルール214に従って新たなCIと新たな依存関係を追加する。
No. of FIG. The first rule is that, when the node attribute is a DB server, the CI type “DB” is added as the CI type, and a dependency relationship from the added “DB” to the node having the DB server attribute is added. Is.
The change of the configuration information according to this rule corresponds to the number “1” surrounded by a dotted-line square in FIG.
In other words, the dependency from the CI “DB” to the
No. of FIG. The second rule is that if the node attribute is a Web server, the CI type “Web” is added as a CI, and a dependency relationship from the added “Web” to the node having the Web server attribute is added. Is.
Changing the configuration information according to this rule corresponds to the number “2” surrounded by a dotted-line square in FIG.
In other words, the dependency relationship between the CI “Web” and the
Similarly, CIs and dependencies are added to
As described above, the configuration information modification
このようなCI及び依存関係の追加によって、構成情報変形ルール適用部205は、もとの構成情報では図6のように定義されていた監視対象システム30の階層構造を、障害発生箇所の推定に適した図9の階層構造に変化させることができる。
なお、前述したように、構成情報変形ルール適用部205は、CMDB213に格納されている構成情報のコピーに対して図9〜図11に例示するようなCI及び依存関係の追加を行う。
このため、CMDB213内の構成情報に変更を加えることなく、障害発生箇所の推定用に新たな構成情報を取得することができる。
By adding the CI and the dependency relationship, the configuration information modification
As described above, the configuration information modification
For this reason, new configuration information can be acquired for estimating the location of failure without changing the configuration information in the
次に動作について説明する。
図12は、監視システム20による障害箇所推定のフローチャートである。
Next, the operation will be described.
FIG. 12 is a flowchart of fault location estimation by the
S01は、構成情報変形ルール適用部205の動作であり、構成情報変形ルール214に従って構成情報の変形を行う。
S01の詳細フローは、図13にて説明する。
S 01 is an operation of the configuration information modification
The detailed flow of S01 will be described with reference to FIG.
S02は、距離情報生成部204の動作であり、S01で変形された構成情報、または、構成情報変形ルール214が設定されていない場合はCMDB213に格納されている構成情報を元に、距離情報を生成する。
S02の詳細フローは、図14にて説明する。
S02 is an operation of the distance
The detailed flow of S02 will be described with reference to FIG.
S03では、現在障害が発生しているかどうかを確認する。
障害が発生している場合は、S04に進む。
障害が発生していない場合は、終了する。
In S03, it is confirmed whether or not a failure has occurred.
If a failure has occurred, the process proceeds to S04.
If no failure has occurred, exit.
S04は、障害箇所推定部202の動作であり、現在発生している障害情報とS02で求めた距離情報を元に、障害箇所推定を行う。
S04の詳細フローは、図19にて説明する。
S04 is the operation of the failure
The detailed flow of S04 will be described with reference to FIG.
S05は、画面表示部の動作であり、イベント情報と障害箇所推定の結果を画面に表示する。 S05 is the operation of the screen display unit, and displays the event information and the result of failure location estimation on the screen.
図13は、構成情報変形ルール適用部205のフローチャートである。
FIG. 13 is a flowchart of the configuration information modification
S011では、構成情報変形ルール適用部205が構成情報変形ルール214を取得する。
S012では、構成情報変形ルール適用部205は、取得した構成情報変形ルール214を確認し、構成情報変形ルール214によって変形された構成情報から距離情報が生成されていないルールがあるかどうかを確認する。
つまり、変更(新規/修正/削除)されたルールや、変更されていないが距離情報の生成が行われていないルールの有無を確認する。
例えば、ルールが変更された際に、ルールに対して変更内容(新規/修正/削除)を表すフラグを付けたり、距離情報の生成が行われた際に、ルールに対して距離情報生成済であることを表すフラグを付ける仕組みにしておくことにより、判断することができる。
距離情報が生成されていない場合は、S013に進む。
距離情報が生成されていない構成情報変形ルールがない場合は、終了する。
S013では、構成情報変形ルール適用部205は、CMDB213に格納されている構成情報のコピーを取得する。
S014では、取得した構成情報のコピーを構成情報変形ルール214を元に変形し、変形された構成情報を一時的に作成する。
変形の方法については、図9〜図11で示した通りである。
In S011, the configuration information modification
In S012, the configuration information modification
That is, the presence / absence of a rule that has been changed (new / corrected / deleted) or a rule that has not been changed but for which distance information has not been generated is confirmed.
For example, when a rule is changed, a flag indicating a change content (new / correction / deletion) is attached to the rule, or distance information is generated for the rule when distance information is generated. This can be determined by providing a mechanism for attaching a flag representing a certain thing.
If no distance information has been generated, the process proceeds to S013.
If there is no configuration information transformation rule for which no distance information has been generated, the process ends.
In step S013, the configuration information modification
In S014, a copy of the acquired configuration information is transformed based on the configuration
The deformation method is as shown in FIGS.
図14は、距離情報生成部204のフローチャートである。
FIG. 14 is a flowchart of the distance
S021では、距離情報生成部204は、生成したい距離行列が既に生成済で距離情報DB212に格納されているかどうかを判断する。
生成済の場合は、終了する。
生成済でない場合は、S022に進む。
In S021, the distance
If it has been generated, the process ends.
If not generated, the process proceeds to S022.
S022では、距離情報生成部204は、距離を求めたい構成情報を取得する。
ここでの構成情報とは、構成情報変形ルール214が定義されている場合には、構成情報変形ルール適用部205にて変形された構成情報、ない場合には、CMDB213より取得された変形されていない構成情報を意味する。
In step S022, the distance
The configuration information here is the configuration information modified by the configuration information modification
S023では、距離情報生成部204は、取得した構成情報を元に、探索経路の異なる距離行列を生成する。
図15、図16、図17、図18は、図9の構成情報を元に生成した距離行列の例である。
図15は、通常(aからの最短経路の距離)の距離行列である。
図16は、a→b→c→m→e→kの経路を通る場合の距離行列である。
図17は、a→b→c→l→d→kの経路を通る場合の距離行列である。
図18は、a→b→c→m→l→d→kの経路を通る場合の距離行列である。
図中のアルファベットは、図9の識別子と対応する。
通常は図15の距離行列であるが、複数経路がある場合には、各経路に沿った距離を距離行列に反映させる。
図16の場合、経路はa→b→c→m→e→kであるため、図15と比較すると、eとkの距離が異なっている。
図16、図17、図18では、経路に関係ないCIについては、図15と同様に最短距離の値としている。
In S023, the distance
15, 16, 17, and 18 are examples of distance matrices generated based on the configuration information in FIG.
FIG. 15 is a normal distance matrix (distance of the shortest path from a).
FIG. 16 is a distance matrix when a route of a → b → c → m → e → k is passed.
FIG. 17 is a distance matrix when a route of a → b → c → l → d → k is passed.
FIG. 18 is a distance matrix when a route of a → b → c → m → l → d → k is passed.
The alphabet in the figure corresponds to the identifier in FIG.
Normally, the distance matrix of FIG. 15 is used, but when there are a plurality of routes, the distance along each route is reflected in the distance matrix.
In the case of FIG. 16, since the route is a → b → c → m → e → k, the distance between e and k is different from that in FIG.
In FIG. 16, FIG. 17, and FIG. 18, the CI not related to the route is set to the shortest distance value as in FIG.
S024では、距離情報生成部204は、生成した距離行列を距離情報DB212へ格納する。
In S024, the distance
図19は、障害箇所推定部202のフローチャートである。
FIG. 19 is a flowchart of the failure
S031では、障害箇所推定部202は、障害情報DB211から、現在発生している障害情報を取得する。
S032では、障害箇所推定部202は、距離情報DB212から、距離情報を取得する。
S033では、障害箇所推定部202は、複数の距離行列から、アラームが発生していて、かつ、最も距離の遠いCIを障害箇所として推定する。
In S031, the failure
In S032, the failure
In step S033, the failure
図15、図16、図17、図18を用いて説明を行う。
例えば、lとmでアラームが発生したとする。
図15の通常の距離行列ではlとmの距離が同じになり、どちらが障害箇所かを推定することが出来ない。
図16、図17、図18の各経路を通る場合の距離行列を確認すると、図16及び図17は図15と同様であるが、図18の場合、lの距離が4、mの距離が3となる。
これより、障害箇所推定部202は、アラームが発生していて、かつ、距離の遠いlが障害箇所であると推定することができる。
The description will be made with reference to FIGS. 15, 16, 17, and 18.
For example, assume that an alarm is generated at l and m.
In the normal distance matrix of FIG. 15, the distances l and m are the same, and it is impossible to estimate which is the fault location.
16 and 17 are the same as those in FIG. 15, but in FIG. 18, the distance of l is 4 and the distance of m is 4. 3
As a result, the failure
このように、障害箇所推定部202は、障害箇所を推定する際に、複数経路の距離行列を作成することにより、障害箇所を推定することができる。
As described above, the failure
以上のように、本実施の形態に係る監視システム20は、CMDB213に格納されていない情報を運用監視に活用することを可能とする。
そのため、CMDB213に格納されている構成情報のみよりも、精度の高い障害箇所推定を行うことができる。
また、CMDB213外部で構成情報を変形させるため、CMDB213の構造を変更する必要がない。
構成情報の変形ルールは、従来技術の相関ルールよりも設定数が少なくて済むと考えられるため、ルールのメンテナンスコストを抑えることも可能である。
As described above, the
Therefore, it is possible to estimate a fault location with higher accuracy than only the configuration information stored in the
Further, since the configuration information is deformed outside the
Since the configuration information modification rule is considered to require a smaller number of settings than the correlation rule of the prior art, it is possible to reduce the maintenance cost of the rule.
以上、本実施の形態では、既にCMDB等で管理されている構成情報に対し、CMDBのデータ構造や管理されている構成情報を変更することなく、構成情報変形ルールによって、CMDBの外側で構成情報を変形させることにより、障害箇所推定の精度を上げることが可能な監視システムを説明した。 As described above, in the present embodiment, configuration information that has already been managed in the CMDB or the like is configured outside the CMDB according to the configuration information modification rule without changing the data structure of the CMDB or the managed configuration information. A monitoring system has been described that can improve the accuracy of fault location estimation by transforming.
また、本実施の形態では、構成情報から経路が異なる複数の距離行列を生成し、アラーム発生CIの中で、最上位CIから最も遠く、一意になったCIを障害箇所と推定する監視システムを説明した。 Further, in the present embodiment, a monitoring system that generates a plurality of distance matrices having different paths from the configuration information and estimates the CI that is farthest from the highest CI and unique among the alarm generation CIs as a fault location. explained.
実施の形態2.
本実施の形態に係るシステム構成は、図1に示す通りであり、実施の形態1と同様である。
動作については、距離情報生成部204、障害箇所推定部202が実施の形態1と異なるため、差分のみを説明する。
The system configuration according to the present embodiment is as shown in FIG. 1 and is the same as that of the first embodiment.
As for the operation, since the distance
図20は、実施の形態2の距離情報生成部204のフローチャートである。
S043では、距離情報生成部204は、取得した構成情報を元に、構成情報の最上位のCIから最長経路までの距離ごとのCIリストを作成する。
図9の例では、最上位のCIは「A社」である。
最上位からの最短距離1はbの「メールサービス」である。
距離2はcの「メールシステム」である。
dの「サーバ1」は、依存関係がa→b→c→dの場合に距離3、a→b→c→l→dの場合に距離4、a→b→c→m→l→dの場合に距離5の3パターンがある。
最長距離6はkの「FW」である。
S022で作成するCIリストの例を図21に示す。
距離1のCIはbの「メールサービス」、距離6のCIはkの「FW」である。
FIG. 20 is a flowchart of the distance
In step S043, the distance
In the example of FIG. 9, the highest CI is “Company A”.
The
“
The
An example of the CI list created in S022 is shown in FIG.
The CI of
図22は、実施の形態2の障害箇所推定部202のフローチャートである。
FIG. 22 is a flowchart of the failure
S053では、障害箇所推定部202は、最長経路の距離リストから順にアラーム発生CIと比較し、最初に見つかったアラーム発生CIを障害発生箇所と推定する。
このように、本実施の形態でも、障害箇所推定部202は、最上位階層のCIからの階層差数が最も多いアラーム発生CIを、障害を発生させたCIと推定する。
In S053, the failure
As described above, also in the present embodiment, the failure
図21のCIリストを用いて障害箇所推定部202の動作の説明を行う。
dの「サーバ1」とeの「サーバ2」でアラームが発生しているとする。
最長経路の6のリストから比較を行った場合、距離5のリストにdが見つかり、「サーバ1」が障害箇所であると推定できる。
もし最短経路の1のリストから比較を行っていた場合、距離3のリストにdとeの両方が見つかり、これ以上、障害箇所を絞り込むことができない。
The operation of the fault
It is assumed that an alarm is generated in “
When comparison is made from the list of 6 of the longest path, d is found in the list of
If the comparison is made from the list of 1 of the shortest path, both d and e are found in the list of
以上のように、本実施の形態では、障害箇所を推定する際に、距離ごとのCIリストを作成し、最長距離からアラーム発生CIを検索することにより、障害箇所を推定することができる。 As described above, in the present embodiment, when estimating a failure location, a failure location can be estimated by creating a CI list for each distance and searching for an alarm occurrence CI from the longest distance.
以上、本実施の形態では、構成情報から距離毎のCIリストを作成し、最長距離のCIリストからアラーム発生CIを検索し、最も距離が長く、一意になったCIを障害箇所と推定する監視システムを説明した。 As described above, in the present embodiment, a CI list for each distance is created from the configuration information, an alarm occurrence CI is searched from the CI list with the longest distance, and the longest and unique CI is estimated as a fault location. Explained the system.
実施の形態3.
実施の形態1、2では、複数の経路がある場合に距離行列、距離ごとのCIリストを作成したが、ルート上でアラームが発生している数が多い経路において距離をカウントする方式も考えられる。
この方式では、距離行列や距離ごとのCIリストを使用せず、構成情報のグラフを辿ることにより障害箇所を推定する。
In the first and second embodiments, the distance matrix and the CI list for each distance are created when there are a plurality of routes. However, a method of counting the distance in a route having a large number of alarms on the route is also conceivable. .
In this method, a fault location is estimated by following a configuration information graph without using a distance matrix or a CI list for each distance.
本実施の形態に係るシステム構成例は、図23に示す通りである。
本実施の形態では、図1に示した距離情報生成部204、距離情報DB212が不要である。
動作については、障害箇所推定部202が実施の形態1、2と異なるため、差分のみを説明する。
A system configuration example according to the present embodiment is as shown in FIG.
In the present embodiment, the distance
As for the operation, since the failure
図24は、実施の形態3の障害箇所推定部202のフローチャートである。
S62では、障害箇所推定部202は、構成情報を辿り、アラーム発生CI数が多い経路において、最も距離の遠いアラーム発生CIを障害箇所として推定する。
FIG. 24 is a flowchart of the failure
In S62, the failure
S62の動作を、図25の構成情報のグラフを辿る例を用いて説明する。
この例では、最上位CIのaからアラームが発生しているlまたはmまでの経路として次の3つが考えられる。
・a→b→c→lの経路:距離が3、経路上のアラーム発生CI数が1
・a→b→c→mの経路:距離が3、経路上のアラーム発生CI数が1
・a→b→c→m→lの経路:距離が4、経路上のアラーム発生CI数が2
この場合、3番目の経路が最も経路上のアラーム数が多いので、その経路で最も距離の遠いアラーム発生CIであるlを障害箇所と推定する。
The operation of S62 will be described using an example of tracing the configuration information graph of FIG.
In this example, the following three routes are conceivable from the highest CI a to l or m where an alarm is generated.
A → b → c → l route: distance is 3, alarm occurrence CI number is 1 on route
A → b → c → m route: distance is 3 and number of alarm occurrence CIs on route is 1
A → b → c → m → l route: distance is 4 and number of alarm occurrence CIs on route is 2
In this case, since the third route has the largest number of alarms on the route, l, which is the alarm occurrence CI having the longest distance on the route, is estimated as the failure point.
以上のように、実施の形態では、障害箇所を推定する際に、アラーム発生CI数の多い経路を辿ることにより、障害箇所を推定することができる。 As described above, in the embodiment, when estimating a failure location, the failure location can be estimated by following a route with a large number of alarm occurrence CIs.
以上、本実施の形態では、構成情報のグラフを辿り、その経路上の発生アラーム数をカウントし、最も発生アラーム数が多い経路で最も遠いアラーム発生CIを障害箇所と推定する監視システムを説明した。 As described above, in the present embodiment, the monitoring system that traces the configuration information graph, counts the number of generated alarms on the route, and estimates the farthest alarm occurrence CI on the route with the largest number of generated alarms as the failure point has been described. .
実施の形態4.
依存関係に重みづけをして探索する障害箇所推定の方式も考えられる。
実施の形態1のように距離行列を使用する場合は、最上位のCIから対象とするCIまでの距離を使用した。
実施の形態4では、CIに距離の値を振るのではなく、依存関係を示す矢印の部分に重みづけを行う。
つまり、本実施の形態でも、障害箇所推定部202は、最上位階層のCIからの階層差数が最も多いアラーム発生CIを障害を発生させたCIと推定するが、本実施の形態では、階層差数として距離ではなく依存関係の重みを用いる。
A method of estimating a fault location that searches by weighting the dependency relationship is also conceivable.
When the distance matrix is used as in the first embodiment, the distance from the highest CI to the target CI is used.
In the fourth embodiment, the distance value is not assigned to the CI, but weighting is performed on the arrow portion indicating the dependency.
That is, also in the present embodiment, the failure
システム構成については、図23であり、実施の形態3と同様である。
動作については、障害箇所推定部202が実施の形態3と異なるため、差分のみを説明する。
図26は、実施の形態4における障害箇所推定部202のフローチャートである。
図27は、依存関係の重みづけの例である。
The system configuration is shown in FIG. 23 and is the same as that of the third embodiment.
As for the operation, since the failure
FIG. 26 is a flowchart of the failure
FIG. 27 is an example of dependency weighting.
S72では、障害箇所推定部202は、構成情報の依存関係に重みづけをする。
最上位CIを始点とする矢印の重みを1とする。
その終点であるCIを新たな始点とする矢印の重みは、1を足して2とする。
同様にして、矢印の重みを付けていく。
複数の終点があるCIの場合は、重みが大きい方を採用する。
S73では、障害箇所推定部202は、障害情報を元に各CIにマークを付ける。
S74では、障害箇所推定部202は、依存関係の矢印の両端にアラーム発生のマークがついており、その中で最も重みの値が大きい矢印の終点にあるCIを障害箇所として推定する。
図27では、塗りつぶされたCIが障害箇所と推定される。
In S72, the failure
The weight of the arrow starting from the highest CI is set to 1.
The weight of the arrow with the CI that is the end point as a new start point is set to 2 by adding 1.
Similarly, the weight of the arrow is added.
In the case of a CI having a plurality of end points, the larger weight is adopted.
In S73, the failure
In S74, the failure
In FIG. 27, the filled CI is estimated as a failure location.
以上のように、実施の形態では、障害箇所を推定する際に、依存関係への重みづけを行うことにより、障害箇所を推定することができる。 As described above, in the embodiment, when the failure location is estimated, the failure location can be estimated by weighting the dependency relationship.
以上、本実施の形態では、構成情報の依存関係への重みづけ、CIへのアラーム発生のマークづけを行い、依存関係を表す矢印の両端にアラーム発生マークが付いており、その中で最も重みの大きい矢印の終点にあるCIを障害箇所と推定する監視システムを説明した。 As described above, in the present embodiment, weighting of the dependency information of the configuration information and marking of the alarm occurrence to the CI are performed, and the alarm occurrence mark is attached to both ends of the arrow indicating the dependency relationship, and the weight is the highest among them. A monitoring system that estimates the CI at the end point of the large arrow as the fault location has been described.
実施の形態5.
実施の形態1〜4では、CIの役割の属性に応じて構成情報変形ルールを適用していた。
つまり、実施の形態1〜4では、図8の情報により、構成情報変形ルール(図7)で定義されている属性(DBサーバ、Webサーバ)を有するCIが特定されていた。
本実施の形態では、監視対象システム30内のCIから上げられたデータ(アラーム、イベント)に応じて、構成情報変形ルールを適用する。
In the first to fourth embodiments, the configuration information modification rule is applied according to the attribute of the CI role.
That is, in the first to fourth embodiments, the CI having the attributes (DB server, Web server) defined in the configuration information modification rule (FIG. 7) is specified by the information in FIG.
In the present embodiment, the configuration information transformation rule is applied according to data (alarm, event) raised from the CI in the
図28は、実施の形態5に係る構成図である。
以下では、実施の形態1〜4との相違点のみ説明する。
ログ抽出部221は、監視対象システム30から集められた障害情報(イベント情報、アラーム情報など)を障害情報収集部203から取得し、構成情報変形ルールを適用するための前提条件となるログを抽出して、構成情報変形ルール適用部205にその情報を渡す。
FIG. 28 is a configuration diagram according to the fifth embodiment.
Only differences from the first to fourth embodiments will be described below.
The
図29は、構成情報変形ルールの例である。
ルール適用条件は、ログ抽出部221がログを抽出する際に使用する、検索条件となる。
CIで生成されたログ、アラームに含まれる文字列がルール適用条件に合致する場合、CIで生成されたログファイルが保存されているフォルダのフォルダ名がルール適用条件に合致する場合に、対応する構成情報変形ルールが適用になる。
なお、図29では、他の実施の形態と同様に、発生した障害の確認に必要最低限の機能のみを記載しているが、例えば、障害対応状況の記録機能や、従来技術として前述した相関ルールによる障害箇所の推定機能が含まれてもよい。
FIG. 29 is an example of the configuration information modification rule.
The rule application condition is a search condition used when the
Corresponding when the character string included in the log and alarm generated by the CI matches the rule application condition, or when the folder name of the folder where the log file generated by the CI matches the rule application condition The configuration information transformation rule is applied.
In FIG. 29, as in the other embodiments, only the minimum necessary functions for confirming the failure that has occurred are described. For example, the failure response status recording function and the correlation described above as the conventional technology are described. A failure location estimation function based on rules may be included.
次に動作について説明する。
以下では、実施の形態1〜4との相違点のみ説明する。
ログ抽出部221は、構成情報変形ルール214から、ルール適用条件を取得する。
次に、ログ抽出部221は、障害情報収集部203から障害情報を取得し、ルール適用条件に合致するログがあるかどうかを検索する。
合致するログがあった場合、そのログを出力したCIを特定し、構成情報変形ルール適用部205にCI情報を渡す。
構成情報変形ルール適用部205は、そのCIに対して構成情報変形ルールを適用する。
適用の方法については、実施の形態1〜4と同様である。
Next, the operation will be described.
Only differences from the first to fourth embodiments will be described below.
The
Next, the
If there is a matching log, the CI that has output the log is specified, and the CI information is passed to the configuration information modification
The configuration information modification
The application method is the same as in the first to fourth embodiments.
以上のように、本実施の形態では、障害箇所を推定する際に、監視対象から集められた障害情報の内容によって、適用する構成情報変形ルールを変えることができる。
これにより、CIに対して属性を決定できない場合や、一つのCIに対して複数の属性が入る可能性がある場合に、障害情報に応じて動的に適切な構成情報変形ルールを適用し、障害箇所を推定することができる。
As described above, in the present embodiment, when estimating the failure location, the configuration information modification rule to be applied can be changed according to the content of the failure information collected from the monitoring target.
As a result, when the attribute cannot be determined for the CI, or when there is a possibility that a plurality of attributes may be entered for one CI, an appropriate configuration information transformation rule is dynamically applied according to the failure information, The fault location can be estimated.
以上、本実施の形態では、監視対象システムから上げられたアラーム、イベントなどの情報に応じて、構成情報変形ルールを適用する監視システムを説明した。 As described above, in the present embodiment, the monitoring system that applies the configuration information modification rule according to information such as alarms and events raised from the monitoring target system has been described.
また、本実施の形態1〜5では、CIと依存関係を追加するルールの例を説明したが、CIや依存関係を削除するルールを定義してもよい。
その場合、障害情報の内容に応じて、障害箇所の絞り込みを行うことができる。
また、元の構成情報の依存関係が循環参照していた場合に、障害情報に応じた構成情報変形ルールによって依存関係を削除し、循環が無い構成情報としたのち、障害箇所特定を行うことも可能である。
In the first to fifth embodiments, an example of a rule for adding a CI and a dependency relationship has been described. However, a rule for deleting a CI or a dependency relationship may be defined.
In that case, the failure location can be narrowed down according to the content of the failure information.
In addition, when the dependency of the original configuration information is cyclically referenced, it is possible to delete the dependency by the configuration information modification rule corresponding to the failure information and to make the configuration information without circulation, and then specify the failure location. Is possible.
実施の形態1〜5で示したように、構成情報のコピーに対してCMDBに格納されていない情報を付加することにより、CMDBのデータ構造や格納されている構成情報を変更することなく、障害箇所推定の精度を高めることができる。 As described in the first to fifth embodiments, by adding information that is not stored in the CMDB to the copy of the configuration information, it is possible to change the failure without changing the data structure of the CMDB or the stored configuration information. The accuracy of location estimation can be increased.
以上、本発明の実施の形態について説明したが、これらの実施の形態のうち、2つ以上を組み合わせて実施しても構わない。
あるいは、これらの実施の形態のうち、1つを部分的に実施しても構わない。
あるいは、これらの実施の形態のうち、2つ以上を部分的に組み合わせて実施しても構わない。
なお、本発明は、これらの実施の形態に限定されるものではなく、必要に応じて種々の変更が可能である。
As mentioned above, although embodiment of this invention was described, you may implement in combination of 2 or more among these embodiment.
Alternatively, one of these embodiments may be partially implemented.
Alternatively, two or more of these embodiments may be partially combined.
In addition, this invention is not limited to these embodiment, A various change is possible as needed.
最後に、実施の形態1〜5に示した監視システム20のハードウェア構成例を図30を参照して説明する。
監視システム20はコンピュータであり、監視システム20の各要素をプログラムで実現することができる。
監視システム20のハードウェア構成としては、バスに、演算装置901、外部記憶装置902、主記憶装置903、通信装置904、入出力装置905が接続されている。
Finally, a hardware configuration example of the
The
As a hardware configuration of the
演算装置901は、プログラムを実行するCPU(Central Processing Unit)である。
外部記憶装置902は、例えばROM(Read Only Memory)やフラッシュメモリ、ハードディスク装置である。
主記憶装置903は、RAM(Random Access Memory)である。
通信装置904は、例えば、NIC(Network Interface Card)である。
入出力装置905は、例えばマウス、キーボード、ディスプレイ装置等である。
The
The
The
The
The input /
プログラムは、通常は外部記憶装置902に記憶されており、主記憶装置903にロードされた状態で、順次演算装置901に読み込まれ、実行される。
プログラムは、図1に示す「〜部」として説明している機能を実現するプログラムである。
更に、外部記憶装置902にはオペレーティングシステム(OS)も記憶されており、OSの少なくとも一部が主記憶装置903にロードされ、演算装置901はOSを実行しながら、図1及び図23に示す「〜部」の機能を実現するプログラムを実行する。
また、実施の形態1〜5の説明において、「〜の判断」、「〜の判定」、「〜の解析」、「〜の推定」、「〜の生成」、「〜の算出」、「〜の抽出」、「〜の設定」、「〜の変形」、「〜の変更」、「〜の選択」、「〜の比較」等として説明している処理の結果を示す情報やデータや信号値や変数値が主記憶装置903にファイルとして記憶されている。
The program is normally stored in the
The program is a program that realizes a function described as “unit” shown in FIG.
Further, an operating system (OS) is also stored in the
In the description of the first to fifth embodiments, “determination of”, “determination of”, “analysis of”, “estimation of”, “generation of”, “calculation of”, “ Information, data and signal values indicating the results of the processing described as "extraction of", "setting of", "transformation of", "change of", "selection of", "comparison of", etc. And variable values are stored in the
なお、図30の構成は、あくまでも監視システム20のハードウェア構成の一例を示すものであり、監視システム20のハードウェア構成は図30に記載の構成に限らず、他の構成であってもよい。
Note that the configuration of FIG. 30 is merely an example of the hardware configuration of the
また、実施の形態1〜4に示す手順により、本発明に係る情報処理方法を実現可能である。 In addition, the information processing method according to the present invention can be realized by the procedure shown in the first to fourth embodiments.
10 クライアント装置、20 監視システム、30 監視対象システム、201 画面表示部、202 障害箇所推定部、203 障害情報収集部、204 距離情報生成部、205 構成情報変形ルール適用部、211 障害情報DB、212 距離情報DB、213 CMDB、214 構成情報変形ルール、221 ログ抽出部。
DESCRIPTION OF
Claims (11)
前記監視対象システムで障害が発生した際に、前記障害発生箇所推定用構成情報で定義されているシステム構成を解析して、前記監視対象システム内の障害発生箇所を推定する解析推定部とを有することを特徴とする情報処理装置。 The location of failure where the system configuration of the monitored system is defined by a data structure for estimating the location of failure, which is different from the default data structure, from a copy of the configuration information that defines the system configuration of the monitored system with the default data structure A configuration information generator for estimation that generates configuration information for estimation;
An analysis estimating unit that analyzes a system configuration defined by the configuration information for estimating a failure occurrence location and estimates a failure occurrence location in the monitored system when a failure occurs in the monitored system An information processing apparatus characterized by that.
前記監視対象システムのシステム構成を既定の階層構造で定義する構成情報のコピーから、前記既定の階層構造とは異なる障害発生箇所推定用の階層構造で前記監視対象システムのシステム構成を定義する障害発生箇所推定用構成情報を生成することを特徴とする請求項1に記載の情報処理装置。 The estimation configuration information generation unit
A failure occurrence that defines a system configuration of the monitored system in a hierarchical structure for estimating a failure occurrence location different from the default hierarchical structure, from a copy of configuration information that defines a system configuration of the monitored system in a default hierarchical structure The information processing apparatus according to claim 1, wherein the configuration information for location estimation is generated.
前記監視対象システムに含まれる複数のシステム構成要素が前記既定の階層構造で記述される前記構成情報のコピーに、システム構成要素の追加及び削除の少なくともいずれかを行って、前記障害発生箇所推定用の階層構造で前記監視対象システムのシステム構成を定義する障害発生箇所推定用構成情報を生成することを特徴とする請求項2に記載の情報処理装置。 The estimation configuration information generation unit
A plurality of system components included in the monitored system are added to and deleted from the copy of the configuration information described in the predetermined hierarchical structure, and the failure occurrence location is estimated. The information processing apparatus according to claim 2, further comprising: configuration information for estimating a fault occurrence location that defines a system configuration of the monitoring target system in a hierarchical structure.
前記複数のシステム構成要素に特定の属性を有するシステム構成要素が含まれるか否かを判断し、
前記複数のシステム構成要素に前記特定の属性を有するシステム構成要素が含まれる場合に、前記障害発生箇所推定用構成情報を生成することを特徴とする請求項3に記載の情報処理装置。 The estimation configuration information generation unit
Determining whether or not system components having specific attributes are included in the plurality of system components;
The information processing apparatus according to claim 3, wherein the failure location estimation configuration information is generated when the plurality of system configuration elements include a system configuration element having the specific attribute.
前記複数のシステム構成要素で生成されたデータを解析して、前記複数のシステム構成要素に前記特定の属性を有するシステム構成要素が含まれるか否かを判断することを特徴とする請求項4に記載の情報処理装置。 The estimation configuration information generation unit
The data generated by the plurality of system components is analyzed to determine whether or not the system components having the specific attribute are included in the plurality of system components. The information processing apparatus described.
前記複数のシステム構成要素で生成されたデータに含まれる文字列及び前記複数のシステム構成要素で生成されたデータが保存されているフォルダのフォルダ名の少なくともいずれかを解析して、前記複数のシステム構成要素に前記特定の属性を有するシステム構成要素が含まれるか否かを判断することを特徴とする請求項5に記載の情報処理装置。 The estimation configuration information generation unit
Analyzing at least one of a character string included in data generated by the plurality of system components and a folder name of a folder in which the data generated by the plurality of system components is stored, and the plurality of systems 6. The information processing apparatus according to claim 5, wherein it is determined whether or not a system component having the specific attribute is included in a component.
前記監視対象システムに含まれる複数のシステム構成要素が前記障害発生箇所推定用の階層構造で記述される前記障害発生箇所推定用構成情報を解析して、アラームを発生させた複数のアラーム発生システム構成要素について、アラーム発生システム構成要素ごとに、前記複数のシステム構成要素のうちの最上位階層のシステム構成要素からアラーム発生システム構成要素までの階層差数を算出し、
算出した階層差数に基づき、前記複数のアラーム発生システム構成要素の中から、前記障害を発生させたアラーム発生システム構成要素を推定することを特徴とする請求項3に記載の情報処理装置。 The analysis estimation unit
A plurality of alarm generation system configurations in which a plurality of system components included in the monitoring target system analyze the failure occurrence location estimation configuration information described in the failure occurrence location estimation hierarchical structure and generate an alarm About the element, for each alarm generation system component, calculate the hierarchy difference number from the highest level system component of the plurality of system components to the alarm generation system component,
The information processing apparatus according to claim 3, wherein the alarm generation system component that caused the failure is estimated from the plurality of alarm generation system components based on the calculated number of hierarchy differences.
前記複数のアラーム発生システム構成要素のうち、前記最上位階層のシステム構成要素からの階層差数が最も多いアラーム発生システム構成要素を、前記障害を発生させたアラーム発生システム構成要素と推定することを特徴とする請求項7に記載の情報処理装置。 The analysis estimation unit
Estimating the alarm generating system component having the highest number of hierarchical differences from the system component of the highest hierarchy among the plurality of alarm generating system components as the alarm generating system component that caused the failure The information processing apparatus according to claim 7.
前記最上位階層のシステム構成要素から各アラーム発生システム構成要素までの経路が複数存在する場合に、当該複数の経路のうちアラーム発生システム構成要素が最も多く含まれる経路を抽出し、
抽出した経路に含まれるアラーム発生システム構成要素のうち、前記最上位階層のシステム構成要素からの階層差数が最も多いアラーム発生システム構成要素を、前記障害を発生させたアラーム発生システム構成要素と推定することを特徴とする請求項7に記載の情報処理装置。 The analysis estimation unit
When there are a plurality of routes from the system component of the highest hierarchy to each alarm generating system component, extract a route including the most alarm generating system components from the plurality of routes,
Of the alarm generation system components included in the extracted route, the alarm generation system component having the largest number of hierarchy differences from the system component of the highest hierarchy is estimated as the alarm generation system component that caused the failure. The information processing apparatus according to claim 7.
前記監視対象システムで障害が発生した際に、前記コンピュータが、前記障害発生箇所推定用構成情報で定義されているシステム構成を解析して、前記監視対象システム内の障害発生箇所を推定する解析推定ステップとを有することを特徴とする情報処理方法。 The computer defines the system configuration of the monitored system from a copy of configuration information that defines the system configuration of the monitored system with a predetermined data structure, using a data structure for estimating a fault occurrence location that is different from the default data structure. An estimation configuration information generation step for generating fault location estimation configuration information;
When the failure occurs in the monitored system, the computer analyzes the system configuration defined by the failure location estimation configuration information, and estimates the failure location in the monitored system And an information processing method.
前記監視対象システムで障害が発生した際に、前記障害発生箇所推定用構成情報で定義されているシステム構成を解析して、前記監視対象システム内の障害発生箇所を推定する解析推定ステップとをコンピュータに実行させることを特徴とするプログラム。 The location of failure where the system configuration of the monitored system is defined by a data structure for estimating the location of failure, which is different from the default data structure, from a copy of the configuration information that defines the system configuration of the monitored system with the default data structure An estimation configuration information generation step for generating estimation configuration information;
An analysis and estimation step of analyzing a system configuration defined by the configuration information for estimating a fault occurrence location and estimating a fault occurrence location in the monitor target system when a fault occurs in the monitoring target system; A program characterized by being executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014151385A JP6305258B2 (en) | 2014-07-25 | 2014-07-25 | Information processing apparatus, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014151385A JP6305258B2 (en) | 2014-07-25 | 2014-07-25 | Information processing apparatus, information processing method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016029520A true JP2016029520A (en) | 2016-03-03 |
JP6305258B2 JP6305258B2 (en) | 2018-04-04 |
Family
ID=55435382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014151385A Active JP6305258B2 (en) | 2014-07-25 | 2014-07-25 | Information processing apparatus, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6305258B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11259331A (en) * | 1998-03-13 | 1999-09-24 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for detecting fault position on network and storage medium for storing network fault position detecting program |
WO2010016239A1 (en) * | 2008-08-04 | 2010-02-11 | 日本電気株式会社 | Failure analysis device |
JP2013161305A (en) * | 2012-02-06 | 2013-08-19 | Nippon Telegr & Teleph Corp <Ntt> | Resource monitoring device, resource monitoring system, method for monitoring resource, resource monitoring program |
-
2014
- 2014-07-25 JP JP2014151385A patent/JP6305258B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11259331A (en) * | 1998-03-13 | 1999-09-24 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for detecting fault position on network and storage medium for storing network fault position detecting program |
WO2010016239A1 (en) * | 2008-08-04 | 2010-02-11 | 日本電気株式会社 | Failure analysis device |
JP2013161305A (en) * | 2012-02-06 | 2013-08-19 | Nippon Telegr & Teleph Corp <Ntt> | Resource monitoring device, resource monitoring system, method for monitoring resource, resource monitoring program |
Also Published As
Publication number | Publication date |
---|---|
JP6305258B2 (en) | 2018-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11632383B2 (en) | Predictive model selection for anomaly detection | |
US11429627B2 (en) | System monitoring driven by automatically determined operational parameters of dependency graph model with user interface | |
US11799728B2 (en) | Multistage device clustering | |
US10860406B2 (en) | Information processing device and monitoring method | |
US9411673B2 (en) | Management server, management system, and management method | |
JP6919569B2 (en) | Log analysis systems, methods, and recording media | |
CN109213747B (en) | Data management method and device | |
WO2013186870A1 (en) | Service monitoring system and service monitoring method | |
US20110320540A1 (en) | Service model creation using monitored data of the performance management tool | |
JP5913145B2 (en) | Log visualization device, method, and program | |
US20130036214A1 (en) | System and method for managing environment configuration using snapshots | |
CN111160021A (en) | Log template extraction method and device | |
JP7081658B2 (en) | Information processing equipment, data management system, data management method and data management program | |
WO2017110720A1 (en) | Log analysis system, log analysis method, and recording medium storing program | |
CN109144964A (en) | log analysis method and device based on machine learning | |
Vervaet et al. | USTEP: Unfixed search tree for efficient log parsing | |
CN110661660B (en) | Alarm information root analysis method and device | |
US8543552B2 (en) | Detecting statistical variation from unclassified process log | |
CN115333966A (en) | Nginx log analysis method, system and equipment based on topology | |
CN114303134A (en) | Method, apparatus and computer readable medium for maintaining visual consistency | |
US10706108B2 (en) | Field name recommendation | |
US10644971B2 (en) | Graph search in structured query language style query | |
JP6305258B2 (en) | Information processing apparatus, information processing method, and program | |
US20150032749A1 (en) | Method of creating classification pattern, apparatus, and recording medium | |
US20140025840A1 (en) | Network analysis in a file transfer system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170116 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6305258 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |