JP2019066927A - Failure countermeasure system and failure countermeasure method - Google Patents
Failure countermeasure system and failure countermeasure method Download PDFInfo
- Publication number
- JP2019066927A JP2019066927A JP2017188663A JP2017188663A JP2019066927A JP 2019066927 A JP2019066927 A JP 2019066927A JP 2017188663 A JP2017188663 A JP 2017188663A JP 2017188663 A JP2017188663 A JP 2017188663A JP 2019066927 A JP2019066927 A JP 2019066927A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- cause
- fault
- information
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、障害対策システムおよび障害対策方法に係り、特に、障害の原因を分析して、自動的に適切な障害の対策レポートを生成するのに好適な障害対策システムおよび障害対策方法に関する。 The present invention relates to a fault countermeasure system and a fault countermeasure method, and more particularly, to a fault countermeasure system and a fault countermeasure method suitable for analyzing a cause of a fault and automatically generating a proper fault countermeasure report.
近年の情報処理技術の進展により、通信やデータ処理などのITシステムの重用性が増してきており、システムの安定性や障害が発生したときに、迅速にその原因を分析して、対策を講じることが求められてきている。このようなもと、ITシステムの障害分析に従来の原因分析の手法を応用する試みがされている。 Recent advances in information processing technology have increased the importance of IT systems such as communications and data processing, and when system stability and failures occur, the cause is quickly analyzed and measures taken Is being sought. Under such circumstances, attempts have been made to apply the conventional cause analysis method to failure analysis of IT systems.
例えば、特許文献1には、ITシステムにおいて発生する障害を特定する場合、ルールに基づき、不具合原因分析(根本原因分析、Root Cause Analysis:RCA)を行う技術が開示されている。また、特許文献2には、障害に関する既存データを活用し障害分析精度の向上を図る障害分析システムが開示されている。
For example,
ITシステムにおいて発生した障害原因を分析する場合、特許文献1に記載されるようなRCAでは、運用管理システムが管理対象システムから異常が発生していることを示す「イベント」を取得し、取得したイベントを所定の分析ルールに当てはめることにより障害原因や障害箇所を推定する。
When analyzing the cause of failure that has occurred in an IT system, in RCA as described in
この分析ルールは過去の障害情報やルール作成者の知見をもとに作成されるが、過去の障害情報が不足している場合や、ルール作成者の知見が不十分である場合には、発生した障害から正しい障害原因や障害箇所を推定するルールが作成できず、高精度な障害原因分析が困難である。 This analysis rule is created based on the past fault information and the knowledge of the rule creator, but it occurs when the past fault information is insufficient or the knowledge of the rule creator is insufficient. Can not create a rule to estimate the correct cause of failure or failure point from the failure, and high-precision failure cause analysis is difficult.
また、一般的にITシステムではシステム保守者や改修作業者によって、障害発生時の対象システム名、現象内容、対応内容、原因分析結果を記載した障害レポートが作成される。特許文献2では前述した障害レポートを活用することにより、障害発生時に現象内容と関連する過去の障害レポートを特定し、障害原因や障害の対処方法を保守者に提示するとしている。
In general, in the IT system, a system maintenance person or a repair worker creates a failure report describing the target system name at the time of failure occurrence, the contents of the phenomenon, the contents of correspondence, the cause analysis result. In
過去の障害レポートを活用する場合、障害発生時に入力された障害の現象内容をもとに障害レポートが格納されたデータベースに対し検索が実行されるが、現象内容があいまいな場合に多数の類似障害レポートが推薦されることや、現象内容とは無関係な障害レポートが推薦されることが考えられ、精度の高い障害対処推薦が困難になることが発生する事態が考えられうる。 When utilizing the past fault report, a search is performed on the database where the fault report is stored based on the fault phenomenon content input at the time of fault occurrence, but if the phenomenon content is ambiguous, many similar faults It may be considered that a report is recommended or a fault report unrelated to the contents of a phenomenon is recommended, and it may be considered that it becomes difficult to make a highly accurate fault countermeasure recommendation.
本発明の目的は、障害原因分析ルールの数や精度が不十分な場合、障害レポートの品質が十分に高くない場合でも、精度の高い障害原因推定および障害対処推薦が可能な障害対策システムを提供することにある。 The object of the present invention is to provide a failure countermeasure system capable of highly accurate failure cause estimation and failure countermeasure recommendation even if the number and accuracy of failure cause analysis rules are insufficient and the quality of failure report is not high enough. It is to do.
本発明の障害対策システムの構成は、好ましくは、分析対象システムの障害情報を入力として、その障害対策を出力する障害対策システムであって、障害情報から障害レポートに基づいて、障害原因を出力する障害対処推薦装置と、障害情報から障害原因分析ルールに基づいて、障害原因を出力する障害原因分析装置とを有し、障害対処推薦装置は、分析対象システムの障害情報と類似の障害現象に対応する障害レポートの障害原因を抽出し、障害原因分析装置は、分析対象システムの障害情報から障害原因分析ルールに基づいて、障害原因を抽出し、障害原因分析装置は、障害対処推薦装置から分析対象システムの障害情報と類似の障害現象に対応する障害レポートの障害原因を受信して、受信した障害レポートの障害原因から、障害原因分析ルールに基づいた障害原因と類似の障害原因を抽出して、出力し、障害対処推薦装置は、障害原因分析装置により障害レポートの障害原因から、障害原因分析ルールに基づいた障害原因と類似の障害原因として抽出され障害原因に対応する障害レポートの情報を出力するようにしたものである。 The configuration of the failure countermeasure system according to the present invention is preferably a failure countermeasure system which receives the failure information of the analysis target system and outputs the failure countermeasure, and outputs the failure cause based on the failure report based on the failure information. It has a failure handling recommendation device and a failure cause analysis device that outputs a failure cause based on failure information and failure cause analysis rules, and the failure handling recommendation device responds to failure phenomena similar to the failure information of the analysis target system. The failure cause analysis device extracts the failure cause from the failure information of the analysis target system based on the failure cause analysis rule, and the failure cause analysis device analyzes the failure cause recommendation device Receive the fault cause of the fault report corresponding to the fault information similar to the fault information of the system, and from the fault cause of the received fault report, the fault cause Based on the analysis rules, the fault cause similar to the fault cause is extracted and output, and the fault handling / recommendation device is similar to the fault cause based on the fault cause analysis rule from the fault cause of the fault report by the fault cause analyzer. Information of fault report extracted as fault cause and corresponding to fault cause is output.
本発明によれば、障害原因分析ルールの数や精度が不十分な場合、障害レポートの品質が十分に高くない場合でも、精度の高い障害原因推定および障害対処推薦が可能な障害対策システムを提供することができる。 According to the present invention, it is possible to provide a failure countermeasure system capable of highly accurate failure cause estimation and failure countermeasure recommendation even when the number and accuracy of failure cause analysis rules are insufficient and the quality of failure report is not high enough. can do.
以下、本発明に係る各実施形態を、図1ないし図12を用いて説明する。 Hereinafter, each embodiment according to the present invention will be described using FIGS. 1 to 12.
〔実施形態1〕
以下で詳しく述べるように、本実施形態では、障害発生時に障害対処推薦装置より推薦された障害レポート群に含まれる障害原因群と、障害原因分析装置より推定された障害原因群とを比較し、両システムの分析結果のうち共通する障害原因および共通する障害原因を含む障害レポートのみを抽出することにより、精度の高い障害対処推薦および障害原因分析を実現するものである。
As will be described in detail below, in this embodiment, the failure cause group included in the failure report group recommended by the failure handling / recommendation device at the time of failure occurrence is compared with the failure cause group estimated by the failure cause analysis device; By extracting only the failure report that includes the common failure cause and the common failure cause among the analysis results of both systems, it is possible to realize highly accurate failure countermeasure recommendation and failure cause analysis.
先ず、図1を用いて実施形態1の障害対策システムの機能構成について説明する。
障害対策システムは、障害対処推薦装置200、障害原因分析装置210、分析対象システム300および入出力端末290がインターネット、LAN(Local Area Network)などのネットワーク280を介して接続される。
First, the functional configuration of the failure countermeasure system according to the first embodiment will be described with reference to FIG.
In the failure countermeasure system, a failure
障害対処推薦装置200は、障害情報入力部201、類似障害収集部202、障害原因抽出部204、結果出力部205の各機能部を備え、データとして、障害レポート管理テーブル203を保持する。また、障害原因分析装置210は、障害情報入力部211、障害多段分析管理部212、障害詳細情報収集部213、障害詳細情報214、障害原因分析部215、共通障害原因抽出部218、障害分析結果出力部219の各機能部を備え、データとして、障害原因分析ルール216、分析結果管理テーブル217を保持する。
The fault handling / recommending
障害対処推薦装置200、障害原因分析装置210は、共に、一般的な情報処理装置、例えば、PC(Personal Computer)やサーバ装置により実現され、各機能部の機能は、HDD(Hard Disk Drive)やSDD(Solid State Drive)などの補助記憶装置に格納されたプログラムを、主記憶装置上にロードして、装置のプロセッサが命令語として実行することにより実現される。また、プログラムの一部または全ては、専用ハードウェアによって実現されてもよい
図1では、障害対処推薦装置200、障害原因分析装置210の装置で実現されているように図示されているが、一台の情報処理装置で実現されてもよいし、システム上にそれぞれ複数の障害対処推薦装置200、障害原因分析装置210が接続されている構成でもよい。
The failure
入出力端末290は、分析対象システム300、障害対処推薦装置200、障害原因分析装置210にデータを入力し、また、分析対象システム300、障害対処推薦装置200、障害原因分析装置210からのデータを表示する情報処理装置である。図1では、入出力端末290は1台であるように図示しているが複数台でもよい。
The input / output terminal 290 inputs data to the
分析対象システム300は、障害対処推薦装置200および障害原因分析装置210により分析されるシステムである。分析対象システム300は、例えばネットワークシステム、またはその他のシステムのコンポーネント(要素)であり、物理的なものでも仮想的なものでもよい。また、粒度も装置単位(例えばサーバ装置)、装置に実装されるボード単位、ボード内の回路単位等任意である。
The
次に、図2を用いて分析対象システムの具体例について説明する。
本実施形態では、障害対策システムが対象とする分析対象システム300の例として通信装置301〜303、通信路309〜311から構成されるネットワークシステムを想定する。
Next, a specific example of the analysis target system will be described using FIG.
In this embodiment, a network system configured of communication devices 301 to 303 and
ここでいうネットワークシステムとは、複数の通信装置、通信路からなるシステムである。また、通信装置とは、他の装置とデータ交換をするためのデータ送受信機能を有するものであり、例えば、クラウドサービス提供を目的に通信施設に設置されるルータであってもよい。 A network system here is a system which consists of a plurality of communication devices and communication paths. The communication device has a data transmission / reception function for exchanging data with another device, and may be, for example, a router installed in a communication facility for the purpose of providing a cloud service.
さらに、通信路とは装置同士がデータ交換を行うための通信媒体であり、本実施形態において通信路309〜311は、例えば、10ギガビット・イーサネット(登録商標、以下同じ)の光ファイバが想定するが、いかなる帯域および規格の通信路を用いてもよい。
Further, the communication path is a communication medium for devices to exchange data, and in this embodiment, the
通信装置301〜303は、トランシーバ306を備え、また、トランシーバ306は、受信部307、送信部308を備える。通信装置301〜303は、他装置からのデータを受信部307で受信して、他装置へのデータを送信部308から発信する。
The communication devices 301 to 303 include a
次に、図3ないし図6を用いて実施形態1の障害対策システムで使用されるデータ構造について説明する。 Next, a data structure used in the failure countermeasure system according to the first embodiment will be described with reference to FIGS. 3 to 6.
先ず、図3を用いて障害レポート管理テーブルについて説明する。
障害レポート管理テーブル203は、障害対処推薦装置200において障害レポートを格納するテーブルであり、障害レポートごとにレコードを構成する。この障害レポートは、障害現象内容ごとに原因と対策についてまとめられたデータである。
First, the fault report management table will be described with reference to FIG.
The failure report management table 203 is a table for storing failure reports in the failure handling /
障害レポート管理テーブル203は、図3に示されるように、障害レポートID501、報告者ID502、発生日時503、現象内容504、障害原因505、対策506、解消日時507、キーワード(現象内容)508、キーワード(障害原因)509、キーワード(対策)510の各フィールドを有する。
As shown in FIG. 3, the failure report management table 203 includes a
障害レポートID501は、障害レポートを一意に特定する識別情報を格納するフィールドである。
報告者ID502は、障害レポートを登録する報告者を一意に特定する識別情報を格納するフィールドである。
発生日時503は、障害対象において障害が発生した日時を格納するフィールドである。
現象内容504は、障害の現象内容情報を格納するフィールドである。現象内容情報は、例えば、「xx作業後にシステムダウン」など、障害の現象をシステム保守者が記述した情報である。
障害原因505は、障害原因情報を格納するフィールドである。障害原因情報は、障害の原因をシステム保守者が記述した情報である。
The
The
The date of
The
The
対策506は、対策情報を格納するフィールドである。対策情報は、障害に対してシステム保守者が行った対策を記述した情報である。
解消日時507は、解消日時を格納するフィールドである。解消日時は、対策により障害が解消した日時である。
キーワード(現象内容)508は、形態素解析により現象内容504の現象内容情報から得られた単語を格納するフィールドである。
キーワード(障害原因)509は、形態素解析により障害原因505の障害原因情報から得られた単語を格納するフィールドである。キーワード(障害原因)509は、障害対象推薦の結果得られた障害レポートに含まれる障害原因情報と、障害原因分析の結果得られた根本原因イベントの内容を比較するための、抽出単語として用いる。
キーワード(対策)510は、形態素解析により対策506の対策情報から得られた単語を格納するフィールドである。
The countermeasure 506 is a field for storing countermeasure information. The countermeasure information is information describing the countermeasure taken by the system maintainer for the fault.
The cancellation date and
A keyword (phenomenon content) 508 is a field for storing a word obtained from the phenomenon content information of the
A keyword (failure cause) 509 is a field for storing a word obtained from failure cause information of the
A keyword (measure) 510 is a field for storing a word obtained from the measure information of the measure 506 by morphological analysis.
なお、各キーワードの使用と意義については後に詳述する。
なお、システム保守者が操作する入出力端末290が、上述したキーワードを抽出する形態素解析を実行してもよく、また、障害レポート管理テーブル203を管理するサーバ(図示せず)が形態素解析を実行してもよい。
The use and meaning of each keyword will be described in detail later.
The input / output terminal 290 operated by the system maintenance person may execute morphological analysis for extracting the above-mentioned keyword, and a server (not shown) for managing the failure report management table 203 executes morphological analysis You may
次に、図4を用いて障害原因分析ルールについて説明する。
障害原因分析ルール216は、障害原因分析装置210が有する分析対象システム300の障害の原因を分析するためのIFTHEN形式のルールであり、複数のルール701から構成され、図4に示されるように、各ルールはIF部702およびTHEN部703を備える。THEN部には、分析によって推定される根本原因イベントが記載され、IF部702には、THEN部703に記載される根本原因イベントを推定するための条件イベントとして、分析対象システム300から障害原因分析装置210へ通知される障害イベントが記載される。
Next, the failure cause analysis rule will be described with reference to FIG.
The failure
図2に示した分析対象システム300の構成例においては、システム障害を検討する場合に、コンポーネントとしてトランシーバ306の故障と、通信装置301〜303の故障を想定し、これらの故障を根本原因イベントとしている。
In the configuration example of the
図4中のルール1、ルール2は、トランシーバ306の障害を推定するためのルール、ルール3、ルール4は、通信装置301〜303の障害を推定するためのルールである。
次に、図5を用いて障害イベント一覧について説明する。
障害イベント一覧2141は、図5に示されるように、障害イベント番号801、キーワード(障害イベント)802、障害イベント内容803の各フィールドを有する。キーワード(障害イベント)802は、形態素解析により障害イベント内容803の格納された障害の内容から得られた単語を格納するフィールドである。また、障害イベント一覧2141は、障害詳細情報214に含まれ、障害詳細情報収集部213は、障害情報入力部211が分析対象システム300から収集した障害イベント番号801をキーとして、障害イベント一覧2141を検索することにより発生した障害イベントの詳細を特定可能である。
Next, the failure event list will be described using FIG.
As shown in FIG. 5, the failure event list 2141 has respective fields of
次に、図6を用いて根本原因イベント一覧2142について説明する。
根本原因イベント一覧2142は、根本原因イベント番号901、キーワード(根本原因イベント)902、根本原因イベント内容903の各フィールドを有する。キーワード(根本原因イベント)902は、形態素解析により根本原因イベント内容903から得られた単語を格納するフィールドであり、障害対処推薦の結果得られた障害レポート管理テーブル203に含まれる障害原因情報と、障害原因分析の結果得られた根本原因イベントの内容を比較するための抽出単語として用いる(後に、詳述)。また、根本原因イベント一覧2142は、障害詳細情報214に含まれ、障害詳細情報収集部213は、根本原因イベント番号901をキーとして、根本原因イベント一覧2142を検索することにより特定した根本原因イベントの詳細を特定可能である。
Next, the root cause event list 2142 will be described using FIG.
The root cause event list 2142 has fields of a root
次に、図7ないし図10を用いて実施形態1の障害対策システムの処理について説明する。 Next, processing of the failure countermeasure system according to the first embodiment will be described with reference to FIGS. 7 to 10.
先ず、図7を用いて障害対処推薦装置および障害原因分析装置における各々の処理概要について説明する。なお、図7のゼネラルチャートにおいて、二重線は、並行処理を表している。 First, an outline of processing of each of the fault handling / recommending device and the fault cause analyzing device will be described with reference to FIG. In addition, in the general chart of FIG. 7, the double line represents parallel processing.
先ず、システム保守者が、障害対処推薦装置200に、分析対象システム300に関する障害情報を入力する(S101)。ここで、障害対処推薦装置200は、障害情報として、障害の現象内容が記載されたテキストデータである障害現象情報と、分析対象システムから取得する障害が発生したことを示す障害イベントが入力される。
First, a system maintenance person inputs fault information regarding the
次に、障害対処推薦装置200が障害対処推薦を実行する(S102)。障害対処推薦の詳細な処理手順については、後に図8を用いて説明する。
Next, the failure handling / recommending
そして、障害対処推薦装置200は、S102により推薦された障害レポート群(A)から障害原因群(a)を抽出し、障害原因分析装置210に送信する(S103)。
Then, the failure countermeasure /
一方、システム保守者が、障害原因分析装置210に分析対象システム300に関する障害イベントを入力する(S104)。ここで、障害原因分析装置210は、障害情報として、障害の現象内容が記載されたテキストデータである障害現象情報と、分析対象システムから取得する障害が発生したことを示す障害イベントが入力される。
On the other hand, a system maintenance person inputs a failure event related to the
次に、障害原因分析装置210が障害原因分析を行う(S105)。障害原因分析処理の詳細な処理手順については、後に図9を用いて説明する。そして、障害原因分析装置210は推定された障害原因群(b)と、S103で抽出された送信されてきた障害原因群(a)を比較し、共通する障害原因のみを、障害原因群(a・b)として抽出する(S106)。次に、障害原因分析装置210は、推定結果として障害原因群(a・b)を出力する(S109)。
Next, the failure
また、障害対処推薦装置200は、S106で抽出した障害原因群(a・b)を含む障害レポート群を抽出し(S107)、抽出結果として障害レポート群(A・B)を出力する(S108)。
In addition, the failure countermeasure /
次に、図7の障害対処推薦処理S102の詳細について説明する。
先ず、障害対処推薦装置200の障害情報入力部211が障害情報を受信する(S401)。ここで、障害情報は、障害発生時にシステム保守者によって入力される障害現象情報であり、障害現象情報には障害の発生日時および障害の現象内容が含まれている。
Next, the details of the failure handling recommendation process S102 in FIG. 7 will be described.
First, the fault
次に、類似障害収集部202は、障害情報に含まれる現象内容とキーワード出現傾向が類似する現象内容を含む障害レポートを障害レポート管理テーブル203から取得する(S402)。
Next, the similar
具体的には、類似障害収集部202は障害情報に含まれる現象内容を形態素解析して、現象内容に含まれている単語を抽出する。そして、類似障害収集部202は抽出単語の在否を示すベクトルを生成する。ここで抽出単語が、例えばW1〜W5の5個の単語である場合、ベクトルV0は、V0=(1,1,1,1,1)となる。このベクトルをベクトル要素の「1」は存在を示し、「0」は、不存在を示す。以下、このベクトルを単語分析ベクトルという。
Specifically, the similar
同様に、類似障害収集部202は、障害レポート管理テーブル203のエントリごとに、障害レポートの現象内容における抽出単語W1〜W5の在否を示す単語分析ベクトルV1を生成する。具体的には、例えば、類似障害収集部202は、障害レポート管理テーブル203のキーワード(現象内容)508に格納される単語群を用いて、障害レポートの現象内容における抽出単語W1〜W5の在否を示す単語分析ベクトルを生成する。例えば、あるエントリにおける単語分析ベクトルV1が、V1=(1,0,0,0,1)とする。このときには、単語分析ベクトルV1は抽出単語W1、W5が存在し、抽出単語W2〜W4が存在しないことを意味する。
Similarly, the similar
類似障害収集部202は、単語分析ベクトルV0と単語分析ベクトルV1を用いてベクトル間距離(例えば、ユークリッド距離)を求める。
単語分析ベクトルV0=(x1,x2,…,xn)、単語分析ベクトルV1=(y1,y2,…,yn)としたとき、V0とV1の距離d(V0,V1)は、以下の(式1)で求められる。
The similar
When the word analysis vector V0 = (x 1 , x 2 ,..., X n ) and the word analysis vector V 1 = (y 1 , y 2 ,..., Y n ), the distance d (V 0, V 1) between V 0 and
本実施形態では、ベクトル間距離が短いほど、障害情報に含まれる現象内容と、障害レポートの現象内容とは類似すると考える。類似障害収集部202は、障害レポート管理テーブル203のエントリごとにベクトル間距離を求め、ベクトル間距離がしきい値以下のエントリである障害レポートを取得する。取得した障害レポートを「類似障害レポート」と称する。ここでは、しきい値を用いて類似障害レポートを取得したが、類似障害収集部202は、ベクトル間距離の昇順で上位n個(nは1以上の整数)の障害レポートを類似障害レポートとして取得してもよい。
In the present embodiment, it is considered that the phenomenon content included in the failure information and the phenomenon content of the failure report are more similar as the inter-vector distance is shorter. The similar
次に、図7の共通障害原因群抽出処理へ移る(S403)。
ここで、図7に示したS102により推薦された障害レポート群(A)は、この類似障害レポートである。
Next, the process proceeds to common failure cause group extraction processing of FIG. 7 (S403).
Here, the failure report group (A) recommended by S102 shown in FIG. 7 is this similar failure report.
次に、図9を用いて障害原因分析処理S105の詳細について説明する。
先ず、障害原因分析装置210の障害情報入力部211は、分析対象システム300から障害情報を受信する(S601)。ここで、障害情報は、障害分析システムが分析対象システム300から取得する障害の発生を示す障害イベントである。
Next, details of the failure cause analysis processing S105 will be described with reference to FIG.
First, the fault
次に、障害原因分析部215は、障害原因分析ルール216のうち、IF部702に受信した障害イベントを含む分析ルールを抽出する(S602)。IF部702には、THEN部703に登録される根本原因イベントを推定するための条件イベントが登録されている。すなわち、S602の処理で、受信した障害イベントを条件とする根本原因イベントの候補を特定している。
Next, the failure
さらに、障害原因分析部215は、S603において抽出したルールのTHEN部703に登録される根本原因イベントの確信度判定を行ない(S603)、確信度判定を行った根本原因イベントのうち、確信度がしきい値以上の根本原因イベントのみを抽出する。確信度は、抽出したルールのIF部702に登録される障害イベントの数を分母に、抽出したルールのIF部702に登録される障害イベントのうちS602で受信した障害イベントの数を分子にして計算することにより算出する。
Furthermore, the failure
次に、図7の共通障害原因群抽出処理へ移る(S604)。 Next, the process proceeds to common failure cause group extraction processing of FIG. 7 (S604).
次に、図10を用いて共通障害原因群抽出処理の詳細について説明する。
共通障害原因群抽出処理の詳細とは、図7におけるS103、S106、S107の処理をより詳細に説明するものである。共通障害原因群抽出処理では、障害対処推薦装置200、障害原因分析装置の分析結果から、共通する障害原因を抽出することで、より確度の高い分析結果のみを出力する処理である。
Next, details of the common failure cause group extraction processing will be described using FIG.
The details of the common failure cause group extraction process are for describing the processes of S103, S106, and S107 in FIG. 7 in more detail. The common failure cause group extraction process is a process of outputting only a more accurate analysis result by extracting a common failure cause from the analysis results of the failure countermeasure /
先ず、障害対処推薦装置200の障害原因抽出部204は、S102で推薦された障害レポート管理テーブル203のキーワード(障害原因)509を抽出する(S1001)。
First, the failure
次に、障害原因分析装置210の共通障害原因抽出部218は、S105で推定された根本原因イベントのキーワード(根本原因イベント)902を抽出する(S1002)。
Next, the common failure
次に、共通障害原因抽出部218は、図3に示した障害レポート管理テーブル203の障害キーワード(障害原因)509に格納される単語群を用いて抽出単語W1〜Wnの在否を示す単語分析ベクトルV0を生成する(S1003)。同様に、図6に示した根本原因一覧2124のキーワード(根本原因イベント)902に格納される単語群を用いて抽出単語W1〜Wnの在否を示す単語分析ベクトルV1を生成する。
Next, the common failure
そして、共通障害原因抽出部218は、単語分析ベクトルV0と単語分析ベクトルV1を用いてベクトル間距離(例えば、ユークリッド距離)を求める(S1004)。ベクトル間距離が短いほど、障害レポートに含まれる障害原因内容と、根本原因イベントに含まれる根本原因イベント内容とは類似すると考える共通障害原因抽出部218は、ベクトル間距離がしきい値以下の場合、単語分析ベクトルV0の生成元であるキーワード(障害原因)509に格納される障害原因、および単語分析ベクトルV1の生成元であるキーワード(根本原因イベント)902に格納される根本原因イベント内容を共通障害原因と特定する。
Then, the common disorder
また、共通障害原因抽出部218は、S102、S105で抽出された障害レポートおよび根本原因イベントの全ての組み合わせに対して、S1001〜S1004の処理を行う。
Further, the common failure
すなわち、障害レポート管理テーブル203の抽出されたi番目のエントリの障害キーワード(障害原因)509の単語分析ベクトルを、V0iとし、根本原因一覧2124の抽出されたj番目のエントリのキーワード(根本原因イベント)902の単語分析ベクトルを、V1jとしたとき、全てのi,jの組合せについて、しきい値Tとしたとして、d(V0i,V1j)<Tなるi,jを取り出す。 That is, the word analysis vector of the failure keyword (failure cause) 509 of the extracted i-th entry in the failure report management table 203 is V0 i, and the keyword of the extracted j-th entry in the root cause list 2124 (root cause Assuming that the word analysis vector of event) 902 is V1 j , i and j such that d (V0 i , V1 j ) <T are extracted assuming that the threshold is T for all combinations of i and j.
そして、S1004で特定した共通障害原因を含む障害レポートを抽出する(S1005)。
また、共通障害原因抽出部218は、S1004で特定した共通障害原因を含む根本原因イベントを抽出する(S1006)。
Then, a fault report including the common fault cause identified in S1004 is extracted (S1005).
In addition, the common failure
以上をふまえて、図7、図8、図9および図10を用いて本実施形態の障害対策システムにおける具体的な事例における処理を説明する。 Based on the above, processing in a specific case in the failure countermeasure system of the present embodiment will be described using FIGS. 7, 8, 9 and 10. FIG.
なお、障害レポート管理テーブル203には、図3に記載されている内容が、障害原因分析ルール216には、図4に記載されるルールが、それぞれ格納されていることとする。
The contents described in FIG. 3 are stored in the failure report management table 203, and the rules described in FIG. 4 are stored in the failure
先ず、障害が発生し、システム保守者が障害対処推薦装置200に二つの障害情報を送信する(図7:S101)。このとき、第一の障害情報には、「通信路13で通信断、さらに通信装置1の送信部11Aおよび受信部11Zで異常警報が発生」という第一の現象内容が、第二の障害情報には、「通信路13および通信路23で通信断が発生」という第二の現象内容が含まれていることとする。
次に、障害対処推薦装置200は、障害対処推薦処理を開始する(図7:S102)。
First, a fault occurs, and a system maintenance person transmits two fault information to the fault handling / recommending device 200 (FIG. 7: S101). At this time, in the first fault information, the first phenomenon content “communication is disconnected in the
Next, the failure handling / recommending
一方、障害原因分析装置210の障害情報入力部211は、S101でシステム保守者が送信した障害情報を受信する(図8:S402)。
On the other hand, the failure
次に、障害対処推薦装置200の類似障害収集部202は、障害情報に含まれる現象内容を形態素解析して、現象内容に含まれている単語を抽出し抽出単語の在否を示すベクトルを生成する(図8:S403)。ここで第一の現象内容の抽出単語は、「通信路13」「通信断」「通信装置1」「送信部11A」「送信部11Z」「異常警報」の6個の単語となり、単語分析ベクトルV0は、V0=(1,1,1,1,1,1)となる。
Next, the similar
そして、類似障害収集部202は、障害レポート管理テーブル203のエントリごとに、障害レポートのキーワード(現象内容)508に格納される単語群を用いて、第一の現象内容の抽出単語の在否を示すベクトルV1を生成する。障害レポートIDがR1のキーワード(現象内容)は、「通信路13」「通信断」「通信装置1」「送信部11A」「送信部11Z」「異常警報」であり、単語分析ベクトルV1(R1)は、V1(R1)=(1,1,1,1,1,1)となる。ここで、障害レポートIDがR1のエントリにおける単語分析ベクトルを、V1(R1)と表記した。また、障害レポートIDがR2のキーワード(現象内容)は、「通信装置13」「通信路23」「通信断」であり、単語分析ベクトルV1(R2)は、V1(R2)=(1,1,0,0,0,0)となる。
Then, for each entry of the failure report management table 203, the similar
次に、類似障害収集部202は、単語分析ベクトルV0と単語分析ベクトルV1を用いてベクトル間距離を求め、ベクトル間距離がしきい値以下のエントリである障害レポートを取得する。ここでしきい値は0以下とする。ベクトル間距離は、ユークリッド距離をとることにより算出する場合、単語分析ベクトルV0と単語分析ベクトルV1の各要素の差の2乗の和に平方根をとることで算出する。すなわち単語分析ベクトルV0と単語分析ベクトルV1(R1)の距離は0、単語分析ベクトルV0と単語分析ベクトルV1(R2)の距離は2となる。しきい値が0以下であるのは単語分析ベクトルV1(R1)のみであるため、障害レポートIDがR1の障害レポートを、「類似障害レポート」として特定する。
Next, the similar
同様に、第二の現象内容についても抽出単語の在否を示すベクトルを生成する。ここで第二の現象内容の抽出単語は、「通信路13」「通信路23」「通信断」の3個の単語となり単語分析ベクトルV0は、V0=(1,1,1)となる。次に類似障害収集部202は、障害レポート管理テーブル203のエントリごとに、障害レポートのキーワード(現象内容)508に格納される単語群を用いて、第二の現象内容の抽出単語の在否を示す単語分析ベクトルV1を生成する。障害レポートIDがR1のキーワード(現象内容)は、「通信路13」「通信断」「通信装置1」「送信部11A」「送信部11Z」「異常警報」であり、単語分析ベクトルV1(R1)は、V1(R1)=(1,0,1)となる。また、障害レポートIDがR2のキーワード(現象内容)は、「通信装置13」「通信路23」「通信断」であり、単語分析ベクトルV1(R2)は、V1(R2)=(1,1,1)となる。
Similarly, a vector indicating the presence or absence of the extracted word is generated also for the second phenomenon content. Here, the extracted words of the second phenomenon content are three words of “
次に、類似障害収集部202は、単語分析ベクトルV0と単語分析ベクトルV1を用いてベクトル間距離を求め、ベクトル間距離がしきい値以下のエントリである障害レポートを取得する。単語分析ベクトルV0と単語分析ベクトルV1(R1)の距離は1、単語分析ベクトルV0と単語分析ベクトルV1(R2)の距離は0となる。しきい値が0以下であるのは単語分析ベクトルV1(R2)のみであるため、障害レポートIDがR2の障害レポートを、「類似障害レポート」として特定する。
そして、障害対処推薦処理を終了し、図7のS103の処理へ移る(図8:S404)。
Next, the similar
Then, the failure countermeasure recommendation process is ended, and the process proceeds to the process of S103 of FIG. 7 (FIG. 8: S404).
次に、障害対処推薦装置200は、S102にて特定した障害レポートR1およびR2からキーワード(障害原因)509を抽出する(図7:S103)。
Next, the failure countermeasure /
一方、障害が発生したときに、障害原因分析装置210が分析対象システム300より障害イベントを受信する(図7:S104)。ここで、障害原因分析装置210は、「EV−14」「EV−10」の2個の障害イベントを受信したこととする。
これを受けて、障害原因分析装置210は、障害原因分析処理を開始する(図7:S105)。
先ず、障害原因分析装置210の障害情報入力部211は、障害イベント「EV−14」「EV−10」を受信する(図9:S601)。
On the other hand, when a failure occurs, the failure
In response to this, the failure
First, the fault
次に、障害原因分析部215は、障害原因分析ルール216のうちIF部に受信した障害イベント「EV−10」または「EV−14」を含む分析ルールを抽出する(図9:S602)。ここでは、図4に記載される分析ルールのうち、ルール1、ルール2を抽出する。
Next, the failure
次に、障害原因分析部215は、抽出した障害原因分析ルール216の根本原因イベントの確信度判定を行い、確信度が一定以上の根本原因のみを抽出する(図9:S603)。本実施形態では、確信度1/3以上の根本原因イベントを抽出することとする。ルール1はIF部に記載される3個の障害イベントのうち、受信した障害イベントが1個含まれているため確信度は1/3となる。また、ルール2は、IF部に記載される3個の障害イベントのうち、受信した障害イベントが2個含まれているため確信度は2/3となる。確信度が1/3以上である、根本原因イベントCE−1、CE−5を抽出する。
そして、障害原因分析処理を完了し、図7のS106の処理へ移る(図9:S604)。
Next, the failure
Then, the failure cause analysis process is completed, and the process proceeds to the process of S106 of FIG. 7 (FIG. 9: S604).
次に、障害原因分析装置210はS103から抽出した障害原因群と、S105から抽出した障害原因群を比較し、障害原因内容が共通する障害原因のみを抽出する(図7:S106)。
Next, the failure
そして、障害対処推薦装置200は、S106にて抽出した共通する障害原因を含む障害レポートを抽出する。
Then, the failure countermeasure /
ここで、S103およびS106〜S107の共通障害原因群抽出処理について、図10の処理手順を基づき詳細に説明する。 Here, the common failure cause group extraction processing of S103 and S106 to S107 will be described in detail based on the processing procedure of FIG.
先ず、障害対処推薦装置200の障害原因抽出部204は、S102にて特定した障害レポートR1およびR2からキーワード(障害原因)509を抽出する(図10:S1001)。
First, the fault
一方、障害原因分析装置210の共通障害原因抽出部218は、S105で推定された根本原因イベントCE−1、CE−5のキーワード(根本原因イベント)902を抽出する(図10:S1002)。
On the other hand, the common failure
次に、共通障害原因抽出部218は、S1001にて抽出したキーワード(障害原因)509およびS1002にて抽出したキーワード(根本原因イベント)902およびキーワードに格納される単語群から、抽出単語の在否を示す単語分析ベクトルV0、およびV1を生成する(図10:S1003)。
Next, the common failure
S1001にて抽出した障害レポートR1のキーワード(障害原因)509の単語群は、「トランシーバ11」「ハードウェア故障」の2個の単語となり、単語分析ベクトルV0は、V0(R1)=(1,1)となる。
The word group of the keyword (failure cause) 509 of the failure report R1 extracted in S1001 becomes two words of “
次に、S1002にて抽出したキーワード(根本原因イベント)902ごとに、障害レポートの障害IDのR1のキーワード(障害原因)509の抽出単語の在否を示す単語分析ベクトルV1を生成する。根本原因イベントCE−1のキーワード(根本原因イベント)902の単語群は、「トランシーバ11」「ハードウェア故障」であり単語分析ベクトルV1(R1)(CE−1)=(1,1)となる。ここで、根本原因イベントCE−1の単語における障害レポートの障害IDのR1のキーワード(障害原因)509の抽出単語の在否を示す単語分析ベクトルを、V1(R1)(CE−1)と表記した。
Next, for each keyword (root cause event) 902 extracted in S1002, a word analysis vector V1 indicating the presence or absence of the extracted word of the keyword (failure cause) 509 of R1 of the failure ID of the failure report is generated. The word group of the keyword (root cause event) 902 of the root cause event CE-1 is "
また、根本原因イベントCE−5のキーワード(根本原因イベント)902の単語群は、「トランシーバ31」「ハードウェア故障」であり単語分析ベクトルV1(R1)(CE−5)=(0,1)となる。 Also, the word group of the keyword (root cause event) 902 of the root cause event CE-5 is “transceiver 31” “hardware failure”, and the word analysis vector V1 (R1) (CE-5) = (0, 1) It becomes.
同様に、S1001にて抽出した障害レポートR2のキーワード(障害原因)509の単語群は、「通信装置3」「ハードウェア故障」の2個の単語となり、単語分析ベクトルV0は、V0(R2)=(1,1)となる。
Similarly, the word group of the keyword (failure cause) 509 of the failure report R2 extracted in S1001 becomes two words of “
次に、S1002にて抽出したキーワード(根本原因イベント)902ごとに、障害レポートR2のキーワード(障害原因)509の抽出単語の在否を示す単語分析ベクトルV1を生成する。根本原因イベントCE−1のキーワード(根本原因イベント)902の単語群は、「トランシーバ11」「ハードウェア故障」であり単語分析ベクトルV1(R2)(CE−1)=(0,1)となる。また、根本原因イベントCE−5のキーワード(根本原因イベント)902の単語群は、「トランシーバ31」「ハードウェア故障」であり単語分析ベクトルV1(R2)(CE−5)=(0,1)となる。
Next, a word analysis vector V1 indicating the presence or absence of the extracted word of the keyword (failure cause) 509 of the failure report R2 is generated for each keyword (root cause event) 902 extracted in S1002. The word group of the keyword (root cause event) 902 of the root cause event CE-1 is “
次に、共通障害原因抽出部218は、S1003で生成した単語分析ベクトルV0と単語分析ベクトルV1を用いてベクトル間距離を求め、ベクトル間距離がしきい値が以下の場合、共通障害原因と特定する(図10:1004)。ここで、本実施形態では、しきい値を0とする。ベクトル間距離は、ユークリッド距離をとることにより算出することとし、単語分析ベクトルV0と単語分析ベクトルV1の各要素の差の2乗の和に平方根をとることで算出する。
Next, the common fault
ここで、ベクトル間距離はS1001で抽出したキーワード(障害原因)509から生成した単語分析ベクトルV0について、S1002で抽出したキーワード(根本原因イベント)902から生成した単語分析ベクトルV1ごとに算出する。まず、単語分析ベクトルV0(R1)と単語分析ベクトルV1(R1)(CE−1)の距離は0となる。次に、単語分析ベクトルV0(R1)と単語分析ベクトルV1(CE−5)の距離は1となる。また、単語分析ベクトルV0(R2)と単語分析ベクトルV1(R2)(CE−1)の距離は1となる。さらに単語分析ベクトルV0(R2)と単語分析ベクトルV1(R2)(CE−5)の距離は1となる。しきい値が0以下であるのは単語分析ベクトルV0(R1)と単語分析ベクトルV1(R1)(CE−1)であるため、単語分析ベクトルV0(R1)の生成元である障害レポートR1のキーワード(障害原因)509および、単語分析ベクトルV1(R1)(CE−1)の生成元である根本原因イベントCE−1のキーワード(根本原因イベント)902を共通障害原因と特定する。 Here, the inter-vector distance is calculated for each word analysis vector V1 generated from the keyword (root cause event) 902 extracted in S1002 with respect to the word analysis vector V0 generated from the keyword (failure cause) 509 extracted in S1001. First, the distance between the word analysis vector V0 (R1) and the word analysis vector V1 (R1) (CE-1) is zero. Next, the distance between the word analysis vector V0 (R1) and the word analysis vector V1 (CE-5) is 1. Further, the distance between the word analysis vector V0 (R2) and the word analysis vector V1 (R2) (CE-1) is one. Furthermore, the distance between the word analysis vector V0 (R2) and the word analysis vector V1 (R2) (CE-5) is 1. The threshold value is 0 or less because the word analysis vector V0 (R1) and the word analysis vector V1 (R1) (CE-1), the fault report R1 that is the generation source of the word analysis vector V0 (R1) A keyword (failure cause) 509 and a keyword (root cause event) 902 of the root cause event CE-1 which is a generation source of the word analysis vector V1 (R1) (CE-1) are specified as common failure causes.
そして、障害原因抽出部204は、共通障害原因を含む障害レポートR1を抽出する(図10:S1005)。
また、共通障害原因抽出部218は、共通障害原因を含む根本原因イベントCE−1を抽出する(図10:S1006)。
以上の処理により、障害対処推薦装置200は共通障害原因を含むレポート群として、障害レポートR1を出力し、障害原因分析装置210は、共通障害原因群として根本原因イベントCE−1を出力する(図7:S108、S109)。
Then, the failure
Further, the common failure
By the above processing, the failure
〔実施形態2〕
以下、本発明の実施形態2を、図11および図12を用いて説明する。
実施形態1では、障害対処推薦装置が推薦した障害レポートに含まれる障害原因群と、障害原因分析装置が推定した障害原因群とで、共通する障害原因群以外の障害原因群および障害原因を含む障害レポートを出力するものであった。
Second Embodiment
Hereinafter,
In the first embodiment, the failure cause group included in the failure report recommended by the failure handling / recommendation device and the failure cause group estimated by the failure cause analysis device include failure cause groups and failure causes other than the common failure cause group. It was to output a fault report.
本実施形態では、障害対処推薦装置が推薦した障害レポートに含まれる障害原因群と、障害原因分析装置が推定した障害原因群とで、共通する障害原因群以外の障害原因群および障害原因を含む障害レポートも出力する。これにより、システム保守者またはシステム管理者は共通する障害原因群が根本原因でなかった場合にも、第二の障害原因群として共通する障害原因群以外の障害原因群を参照することで、障害切り分けを効率的に実施することが可能となる。
本実施形態では、実施形態1と異なる所を中心にして説明するものとする。
In the present embodiment, the failure cause group included in the failure report recommended by the failure handling / recommendation device and the failure cause group estimated by the failure cause analysis device include failure cause groups and failure causes other than the common failure cause group. It also outputs fault reports. In this way, even when the common failure cause group is not the root cause, the system maintainer or the system administrator can refer to the failure cause group other than the common failure cause group as the second failure cause group. It becomes possible to carry out the segmentation efficiently.
In the present embodiment, description will be made focusing on differences from the first embodiment.
障害対策システムの構成は、実施形態1の図1で示したものと同様である。分析対象システム300も実施形態1の例を採ることにする。データ構造も実施形態1に示したものと同様である
ここでは、図11および図12を用いて実施形態1の障害対策システムの処理について説明する。
The configuration of the failure countermeasure system is the same as that shown in FIG. 1 of the first embodiment. The
先ず、図11を用いて実施形態2の障害対処推薦装置および障害原因分析装置における各々の処理概要について説明する。
図中S101〜S107については、実施形態1の図7に示したと処理と同様である。
ここで、障害対処推薦装置200は、S102にて抽出した障害レポート群(A)から、S107で抽出した共通障害原因を含む障害レポート群(A・B)を除いたものを障害レポート群{(A)−(A・B)}として出力する(S110)。
First, an outline of each process in the failure countermeasure / recommendation device and failure cause analysis device of the second embodiment will be described with reference to FIG.
About S101-S107 in the figure, it is the same as that of processing shown in FIG. 7 of
Here, the failure countermeasure /
また、障害原因分析装置210は、S103にて抽出された障害原因群(a)からS106にて抽出した共通する障害原因群(a・b)を除いたものを障害原因群{(a)−(a・b)}として出力する(S111)。
In addition, the failure
さらに、障害原因分析装置210は、S105にて抽出された障害原因群(b)からS106にて抽出した共通する障害原因群(a・b)を除いたものを障害原因群{(b)−(a・b)}として出力する(S112)。
以上の処理により、障害対処推薦装置200および障害原因分析装置210は、共通障害原因および共通障害原因を含む障害レポート以外の分析結果についても出力可能である。
Further, the failure
By the above-described processing, the failure
次に、図12を用いて実施形態2の図12における共通障害原因抽出・分離処理を詳細に説明する。
図中S1001〜S1006については、実施形態1の図10に示した処理と同様である。
ここで、障害原因分析装置210の共通障害原因抽出部218は、障害詳細情報214の根本原因イベント一覧に含まれる全てのエントリについて、キーワード(根本原因イベント)902に格納される単語群を抽出する(S1007)。
Next, the common failure cause extraction / separation processing in FIG. 12 of the second embodiment will be described in detail using FIG.
S1001 to S1006 in the figure are the same as the processing shown in FIG. 10 of the first embodiment.
Here, the common failure
次に、共通障害原因抽出部218は、S1001で抽出したキーワード(障害原因)509)に格納される単語群を用いて抽出単語W1〜Wnの在否を示す単語分析ベクトルV0を生成する(S1003−1)。同様に、S1007で抽出したキーワード(根本原因イベント)902に格納される単語群を用いて抽出単語W1〜Wnの在否を示す単語分析ベクトルV1を生成する(S1003−1)。
Next, the common failure
そして共通障害原因抽出部218は単語分析ベクトルV0と単語分析ベクトルV1を用いてベクトル間距離(例えばユークリッド距離)を求める。ベクトル間距離が短いほど、障害レポートに含まれる障害原因内容と、根本原因イベントに含まれる根本原因イベント内容とは類似すると考える。共通障害原因抽出部218は、ベクトル間距離がしきい値以下の場合、単語分析ベクトルV1の生成元であるキーワード(根本原因イベント)902を含む根本障害イベントを共通障害原因群(a)として特定する(S1008)。
Then, the common disorder
さらに、共通障害原因抽出部218は、S1008で特定した共通障害原因群(a)からS1004で特定した共通障害原因群(a・b)を除いたものを共通障害原因群{(a)−(a・b)}として特定する(S1009)。
S1003−0、S1004の処理は、図10のS1003、S1004の処理と同様である。
Furthermore, the common failure
The processes of S1003-0 and S1004 are the same as the processes of S1003 and S1004 in FIG.
また、障害原因抽出部204は、S102で抽出した障害レポート群(A)からS1005で障害レポート群(A・B)を除き、障害レポート群{(A)−(A・B)}として抽出する(S1010)。
Further, the fault
また、共通障害原因抽出部218は、S105で推定した共通障害原因群(b)からS1006で抽出した共通障害原因群(a・b)を除き、共通障害原因群{(b)−(a・b)}として特定する(S1011)。
Further, the common failure
以上をふまえて、実施形態1の図7、図8、図9および図10を用いて本実施形態の障害対策システムにおける具体的な事例における処理を説明する。 Based on the above, processing in a specific case in the failure countermeasure system of the present embodiment will be described using FIGS. 7, 8, 9 and 10 of the first embodiment.
なお、障害レポート管理テーブル203には、実施形態1の図3に記載されている内容が、障害原因分析ルール216には、図4に記載されるルールが、それぞれ格納されていることとする。
The contents described in FIG. 3 of the first embodiment are stored in the failure report management table 203, and the rules described in FIG. 4 are stored in the failure
障害が発生してから、図7:S101から、図S:S604の処理は、実施形態1の具体的な事例における処理の記述と同様である。 After the occurrence of a failure, the processing from FIG. 7: S101 to FIG. S: S604 is the same as the processing description in the specific case of the first embodiment.
次に、図11中のS103、S106〜S107、S110〜S112で構成される共通障害原因群抽出・分離処理については、図12の手順をもとに詳細に説明する。
ここで、障害原因抽出部204は、S102にて特定した障害レポートの障害レポートIDがR1およびR2のエントリのキーワード(障害原因)509を抽出する(図12:S1001)。
Next, common failure cause group extraction / separation processing configured of S103, S106 to S107, and S110 to S112 in FIG. 11 will be described in detail based on the procedure of FIG.
Here, the fault
次に、共通障害原因抽出部218は、S105で推定された根本原因イベントCE−1、CE−5のキーワード(根本原因イベント)902を抽出する(図12:S1002)。
Next, the common failure
次に、共通障害原因抽出部218は、S1001にて抽出したキーワード(障害原因)509およびS1002にて抽出したキーワード(根本原因イベント)902およびキーワードに格納される単語群から、抽出単語の在否を示す単語分析ベクトルV0、およびV1を生成する(図12:S1003−0)。
Next, the common failure
S1001にて抽出した障害レポートR1のキーワード(障害原因)509の単語群は、「トランシーバ11」「ハードウェア故障」の2個の単語となり、単語分析ベクトルV0は、V0(R1)=(1,1)となる。
The word group of the keyword (failure cause) 509 of the failure report R1 extracted in S1001 becomes two words of “
次に、S1002にて抽出したキーワード(根本原因イベント)902ごとに、障害レポートR1のキーワード(障害原因)509の抽出単語の在否を示す単語分析ベクトルV1を生成する。根本原因イベントCE−1のキーワード(根本原因イベント)902の単語群は、「トランシーバ11」「ハードウェア故障」であり単語分析ベクトルV1(R1)(CE−1)=(1,1)となる。また、根本原因イベントCE−5のキーワード(根本原因イベント)902の単語群は、「トランシーバ31」「ハードウェア故障」であり単語分析ベクトルV1(R1)(CE−5)=(0,1)となる。
Next, a word analysis vector V1 indicating the presence or absence of the extracted word of the keyword (failure cause) 509 of the failure report R1 is generated for each keyword (root cause event) 902 extracted in S1002. The word group of the keyword (root cause event) 902 of the root cause event CE-1 is "
同様に、S1001にて抽出した障害レポートR2のキーワード(障害原因)509の単語群は、「通信装置3」「ハードウェア故障」の2個の単語となり、単語分析ベクトルV0は、V0(R2)=(1,1)となる。
Similarly, the word group of the keyword (failure cause) 509 of the failure report R2 extracted in S1001 becomes two words of “
次に、S1002にて抽出したキーワード(根本原因イベント)902ごとに、障害レポートR2のキーワード(障害原因)509の抽出単語の在否を示す単語分析ベクトルV1を生成する。根本原因イベントCE−1のキーワード(根本原因イベント)902の単語群は、「トランシーバ11」「ハードウェア故障」であり単語分析ベクトルV1(R2)(CE−1)=(0,1)となる。また、根本原因イベントCE−5のキーワード(根本原因イベント)902の単語群は、「トランシーバ31」「ハードウェア故障」であり単語分析ベクトルV1(R2)(CE−5)=(0,1)となる。
Next, a word analysis vector V1 indicating the presence or absence of the extracted word of the keyword (failure cause) 509 of the failure report R2 is generated for each keyword (root cause event) 902 extracted in S1002. The word group of the keyword (root cause event) 902 of the root cause event CE-1 is “
次に、共通障害原因抽出部218は、S1003−0で生成した単語分析ベクトルV0と単語分析ベクトルV1を用いてベクトル間距離を求め、ベクトル間距離がしきい値が以下の場合、共通障害原因と特定する(図12:1004)。ここで、本実施形態ではしきい値を0とする。ベクトル間距離は、ユークリッド距離をとることにより算出することとし、単語分析ベクトルV0と単語分析ベクトルV1の各要素の差の2乗の和に平方根をとることで算出する。
Next, the common fault
ここで、ベクトル間距離はS1001で抽出したキーワード(障害原因)509から生成した単語分析ベクトルV0について、S1002で抽出したキーワード(根本原因イベント)902から生成した単語分析ベクトルV1ごとに算出する。まず、単語分析ベクトルV0(R1)と単語分析ベクトルV1(R1)(CE−1)の距離は0となる。次に、単語分析ベクトルV0(R1)と単語分析ベクトルV1(CE−5)の距離は1となる。また、単語分析ベクトルV0(R2)と単語分析ベクトルV1(R2)(CE−1)の距離は1となる。さらに単語分析ベクトルV0(R2)と単語分析ベクトルV1(R2)(CE−5)の距離は1となる。しきい値が0以下であるのは単語分析ベクトルV0(R1)と単語分析ベクトルV1(R1)(CE−1)であるため、単語分析ベクトルV0(R1)の生成元である障害レポートR1のキーワード(障害原因)509および、単語分析ベクトルV1(R1)(CE−1)の生成元である根本原因イベントCE−1を共通障害原因と特定する。 Here, the inter-vector distance is calculated for each word analysis vector V1 generated from the keyword (root cause event) 902 extracted in S1002 with respect to the word analysis vector V0 generated from the keyword (failure cause) 509 extracted in S1001. First, the distance between the word analysis vector V0 (R1) and the word analysis vector V1 (R1) (CE-1) is zero. Next, the distance between the word analysis vector V0 (R1) and the word analysis vector V1 (CE-5) is 1. Further, the distance between the word analysis vector V0 (R2) and the word analysis vector V1 (R2) (CE-1) is one. Furthermore, the distance between the word analysis vector V0 (R2) and the word analysis vector V1 (R2) (CE-5) is 1. The threshold value is 0 or less because the word analysis vector V0 (R1) and the word analysis vector V1 (R1) (CE-1), the fault report R1 that is the generation source of the word analysis vector V0 (R1) A keyword (failure cause) 509 and a root cause event CE-1 which is a generation source of the word analysis vector V1 (R1) (CE-1) are specified as common failure causes.
次に、共通障害原因抽出部218は図6の根本原因イベント一覧2142に登録される全てのエントリについて、キーワード(根本原因イベント)902に格納される単語群を抽出する(図12:S1007)。
Next, the common failure
次に、共通障害原因抽出部218は、S1001において抽出したキーワード(障害原因)509およびS1007にて抽出したキーワード(根本原因イベント)902およびキーワードに格納される単語群から、抽出単語の在否を示す単語分析ベクトルV0、およびV1を生成する(図12:S1003−1)。
Next, the common failure
S1001にて抽出した障害レポートR1のキーワード(障害原因)509の単語群は、「トランシーバ11」「ハードウェア故障」の2個の単語となり、単語分析ベクトルV0は、V0(R1)=(1,1)となる。
The word group of the keyword (failure cause) 509 of the failure report R1 extracted in S1001 becomes two words of “
次に、S1007にて抽出したキーワード(根本原因イベント)902ごとに、障害レポートR1のキーワード(障害原因)509の抽出単語の在否を示す単語分析ベクトルV1を生成する。根本原因イベントCE−1のキーワード(根本原因イベント)902の単語群は、「トランシーバ11」「ハードウェア故障」であり単語分析ベクトルV1(R1)(CE−1)=(1,1)となる。同様に、根本原因イベントCE−2〜CE−9についても単語分析ベクトルV1を生成すると、V1(R1)(CE−2)=(0,1)、V1(R1)(CE−3)=(0,1)
V1(R1)(CE−4)=(0,1)、V1(R1)(CE−5)=(0,1)、V1(R1)(CE−6)=(0,1)、V1(R1)(CE−7)=(0,1)、V1(R1)(CE−8)=(0,1)、V1(R1)(CE−9)=(0,1)となる。
Next, for each keyword (root cause event) 902 extracted in S1007, a word analysis vector V1 indicating the presence or absence of the extracted word of the keyword (failure cause) 509 of the failure report R1 is generated. The word group of the keyword (root cause event) 902 of the root cause event CE-1 is "
V1 (R1) (CE-4) = (0,1), V1 (R1) (CE-5) = (0,1), V1 (R1) (CE-6) = (0,1), V1 (V) R1) (CE-7) = (0, 1), V1 (R1) (CE-8) = (0, 1), V1 (R1) (CE-9) = (0, 1).
同様に、S1001にて抽出した障害レポートR2のキーワード(障害原因)509の単語群は、「通信装置3」「ハードウェア故障」の2個の単語となり、単語分析ベクトルV0は、V0(R2)=(1,1)となる。
Similarly, the word group of the keyword (failure cause) 509 of the failure report R2 extracted in S1001 becomes two words of “
次に、S1002にて抽出したキーワード(根本原因イベント)902ごとに、障害レポートR2のキーワード(障害原因)509の抽出単語の在否を示す単語分析ベクトルV1を生成する。根本原因イベントCE−1のキーワード(根本原因イベント)902の単語群は、「トランシーバ11」「ハードウェア故障」であり単語分析ベクトルV1(R2)(CE−1)=(0,1)となる。同様に根本原因イベントCE−2〜CE−9についても単語分析ベクトルV1を生成すると、V1(R2)(CE−2)=(0,1)、V1(R2)(CE−3)=(0,1)、V1(R2)(CE−4)=(0,1)、V1(R2)(CE−5)=(0,1)、V1(R2)(CE−6)=(0,1)、V1(R2)(CE−7)=(0,1)、V1(R2)(CE−8)=(0,1)、V1(R2)(CE−9)=(1,1)となる。
Next, a word analysis vector V1 indicating the presence or absence of the extracted word of the keyword (failure cause) 509 of the failure report R2 is generated for each keyword (root cause event) 902 extracted in S1002. The word group of the keyword (root cause event) 902 of the root cause event CE-1 is “
次に、共通障害原因抽出部218は、S1003−1で生成した単語分析ベクトルV0と単語分析ベクトルV1を用いてベクトル間距離を求め、ベクトル間距離がしきい値が以下の場合、共通障害原因と特定する(図12:1008)。ベクトル間距離は、S1004と同様に、ユークリッド距離をとることにより算出する。
Next, the common fault
また、ベクトル間距離はS1001で抽出したキーワード(障害原因)509から生成した単語分析ベクトルV0について、S1007で抽出したキーワード(根本原因イベント)902から生成した単語分析ベクトルV1ごとに算出する。 The inter-vector distance is calculated for each word analysis vector V1 generated from the keyword (root cause event) 902 extracted in S1007, with respect to the word analysis vector V0 generated from the keyword (failure cause) 509 extracted in S1001.
まず、単語分析ベクトルV0(R1)と単語分析ベクトルV1(R1)(CE−1)の距離は0となる。次に、単語分析ベクトルV0(R1)と単語分析ベクトルV1(R1)(CE−2)の距離は1となる。同様に、単語分析ベクトルV1(R1)(CE−3)〜V1(R1)(CE−9)について、単語分析ベクトルV0(R1)との距離は全て1となる。 First, the distance between the word analysis vector V0 (R1) and the word analysis vector V1 (R1) (CE-1) is zero. Next, the distance between the word analysis vector V0 (R1) and the word analysis vector V1 (R1) (CE-2) is one. Similarly, for the word analysis vectors V1 (R1) (CE-3) to V1 (R1) (CE-9), the distances to the word analysis vector V0 (R1) are all 1.
そして単語分析ベクトルV0(R2)と単語分析ベクトルV1(R2)(CE−1)の距離は1となる。また、単語分析ベクトルV1(R2)(CE−2)〜V1(R2)(CE−8)についても同様に単語分析ベクトルV0(R2)との距離は全て1となる。単語分析ベクトルV0(R2)と単語分析ベクトルV1(R2)(CE−9)との距離は0となる。 The distance between the word analysis vector V0 (R2) and the word analysis vector V1 (R2) (CE-1) is one. Similarly, the distances from the word analysis vectors V1 (R2) (CE-2) to V1 (R2) (CE-8) to the word analysis vectors V0 (R2) are all one. The distance between the word analysis vector V0 (R2) and the word analysis vector V1 (R2) (CE-9) is zero.
次に、ベクトル間距離がしきい値である0以下である単語分析ベクトルV1(R1)(CE−1)およびV1(R2)(CE−9)の生成元である根本原因イベントCE−1およびCE−9を、共通障害原因群(a)と特定する。 Next, root cause event CE-1 and word origin of word analysis vectors V1 (R1) (CE-1) and V1 (R2) (CE-9) whose inter-vector distance is less than or equal to 0 which is a threshold value CE-9 is identified as the common failure cause group (a).
次に、共通障害原因抽出部218は、S1008で特定した根本原因イベントCE−1、CE−9のうち、S1004で特定した共通障害原因群を含む根本原因イベントCE−1を除き、根本原因イベントCE−9を特定する(図12:S1009、出力C)
次に、共通障害原因抽出部218は、S1004で特定した根本原因イベントCE−1を抽出する(図12:S1006、出力D)
次に、共通障害原因抽出部218は、S105で特定した根本原因イベントCE−1、CE−5からS1006で抽出した根本原因イベントCE−1を除き、根本原因イベントCE−5を抽出する(図12:S1011、出力E)。
Next, among the root cause events CE-1 and CE-9 identified in S1008, the common fault
Next, the common failure
Next, the common failure
次に、障害原因抽出部204は、S1004で特定したキーワード(障害原因)509を含む障害レポートR1を抽出する(図12:S1005、出力B)。
Next, the failure
また、障害原因抽出部204はS102で特定した障害レポートR1、R2のうち、S1005で特定した障害レポートR1を除き、障害レポートR2を抽出する(図12:S1010、出力A)。
Further, the fault
200…障害対処推薦装置、210…障害原因分析装置、290…入出力端末、280…ネットワーク、300…分析対象システム、
201…障害情報入力部、202…類似障害収集部、203…障害レポート管理テーブル、204…障害原因抽出部、205…結果出力部、
211…障害情報入力部、212…障害多段分析管理部、213…障害詳細情報収集部、214…障害詳細情報、215…障害原因分析部、216…障害原因分析ルール、217…分析結果管理テーブル、218…共通障害原因抽出部、219…障害分析結果出力部
200 ... fault handling recommendation device, 210 ... fault cause analysis device, 290 ... input / output terminal, 280 ... network, 300 ... analysis target system,
201 ... fault information input unit, 202 ... similar fault collection unit, 203 ... fault report management table, 204 ... fault cause extraction unit, 205 ... result output unit,
211: Failure information input unit, 212: Failure multistage analysis management unit, 213: Failure detail information collection unit, 214: Failure detail information, 215: Failure cause analysis unit, 216: Failure cause analysis rule, 217: Analysis result management table, 218 ... common failure cause extraction unit, 219 ... failure analysis result output unit
Claims (8)
障害情報から障害レポートに基づいて、障害原因を出力する障害対処推薦装置と、
障害情報から障害原因分析ルールに基づいて、障害原因を出力する障害原因分析装置とを有し、
前記障害対処推薦装置は、分析対象システムの障害情報と類似の障害現象に対応する前記障害レポートの障害原因を抽出し、
前記障害原因分析装置は、分析対象システムの障害情報から前記障害原因分析ルールに基づいて、障害原因を抽出し、
前記障害原因分析装置は、前記障害対処推薦装置から分析対象システムの障害情報と類似の障害現象に対応する前記障害レポートの障害原因を受信して、受信した障害レポートの障害原因から、前記障害原因分析ルールに基づいた障害原因と類似の障害原因を抽出して、出力し、
前記障害対処推薦装置は、前記障害原因分析装置により障害レポートの障害原因から、前記障害原因分析ルールに基づいた障害原因と類似の障害原因として抽出され障害原因に対応する障害レポートの情報を出力することを特徴とする障害対策システム。 It is a failure countermeasure system which outputs the failure countermeasure based on the failure information of the analysis target system,
A fault handling and recommending device that outputs the fault cause based on the fault information from the fault information;
And a failure cause analysis device that outputs a failure cause based on failure information and failure cause analysis rules,
The failure countermeasure / recommendation device extracts the failure cause of the failure report corresponding to the failure phenomenon similar to the failure information of the analysis target system,
The failure cause analysis device extracts a failure cause from the failure information of the analysis target system based on the failure cause analysis rule,
The failure cause analysis device receives the failure cause of the failure report corresponding to the failure phenomenon similar to the failure information of the analysis target system from the failure countermeasure / recommendation device, and causes the failure cause from the failure cause of the received failure report. Extract and output failure cause similar to failure cause based on analysis rule
The fault countermeasure / recommendation device outputs information on a fault report corresponding to the fault cause extracted from the fault cause of the fault report by the fault cause analysis device as a fault cause similar to the fault cause based on the fault cause analysis rule. A fault countermeasure system characterized by
分析対象システムの障害現象を示す第一の現象内容を含む障害情報を受信する障害情報受理ステップと、
障害の現象を示す第二の現象内容、障害原因および障害対処方法を含む障害ごとの障害レポートから、前記障害情報に含まれる前記第一の現象内容と類似する前記第二の現象内容を含む障害レポートを第一の障害レポート情報として抽出する第一の障害対処推薦ステップと、
障害の発生を示す障害イベントと、予め定められた障害原因分析ルールに基づいて、第一の障害原因情報を抽出する第一の障害原因抽出ステップと、
前記第一の障害原因情報のうち前記第一の障害レポート情報に含まれる障害原因と類似する障害原因を第二の障害原因情報として抽出する第二の障害原因抽出ステップを有することを特徴する障害対策方法。 It is a failure countermeasure method which outputs failure countermeasure on the basis of failure information of an analysis target system as input.
A fault information receiving step of receiving fault information including a first phenomenon content indicating a fault phenomenon of the analysis target system;
From a fault report for each fault including a second symptom content indicating a fault phenomenon, a fault cause and a fault coping method, a fault including the second phenomenon content similar to the first phenomenon content included in the fault information A first failure countermeasure recommendation step of extracting a report as first failure report information;
A first failure cause extraction step of extracting first failure cause information based on a failure event indicating occurrence of a failure and a predetermined failure cause analysis rule;
A failure characterized in having a second failure cause extraction step of extracting a failure cause similar to the failure cause included in the first failure report information among the first failure cause information as a second failure cause information. Countermeasure.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017188663A JP2019066927A (en) | 2017-09-28 | 2017-09-28 | Failure countermeasure system and failure countermeasure method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017188663A JP2019066927A (en) | 2017-09-28 | 2017-09-28 | Failure countermeasure system and failure countermeasure method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019066927A true JP2019066927A (en) | 2019-04-25 |
Family
ID=66339662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017188663A Pending JP2019066927A (en) | 2017-09-28 | 2017-09-28 | Failure countermeasure system and failure countermeasure method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019066927A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021144401A (en) * | 2020-03-11 | 2021-09-24 | 富士通株式会社 | Control program, control method, and control apparatus |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007293489A (en) * | 2006-04-24 | 2007-11-08 | Mitsubishi Electric Corp | Failure diagnostic device for facility equipment and failure diagnostic method for facility equipment |
-
2017
- 2017-09-28 JP JP2017188663A patent/JP2019066927A/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007293489A (en) * | 2006-04-24 | 2007-11-08 | Mitsubishi Electric Corp | Failure diagnostic device for facility equipment and failure diagnostic method for facility equipment |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021144401A (en) * | 2020-03-11 | 2021-09-24 | 富士通株式会社 | Control program, control method, and control apparatus |
JP7401764B2 (en) | 2020-03-11 | 2023-12-20 | 富士通株式会社 | Control program, control method and control device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9317829B2 (en) | Diagnosing incidents for information technology service management | |
US9665420B2 (en) | Causal engine and correlation engine based log analyzer | |
CN107124289B (en) | Weblog time alignment method, device and host | |
Hossen et al. | Amalgamating source code authors, maintainers, and change proneness to triage change requests | |
CN111209472B (en) | Railway accident fault association and accident fault cause analysis method and system | |
US11418534B2 (en) | Threat analysis system and threat analysis method | |
JP6280862B2 (en) | Event analysis system and method | |
US11886818B2 (en) | Method and apparatus for detecting anomalies in mission critical environments | |
Saha et al. | Mining root cause knowledge from cloud service incident investigations for aiops | |
CN114792089A (en) | Method, apparatus and program product for managing computer system | |
CN112069818B (en) | Triplet prediction model generation method, relation triplet extraction method and relation triplet extraction device | |
CN113986643A (en) | Method, electronic device and computer program product for analyzing log file | |
KR101444250B1 (en) | System for monitoring access to personal information and method therefor | |
Zhang et al. | Automated Root Causing of Cloud Incidents using In-Context Learning with GPT-4 | |
CN103888506A (en) | Computer-implemented method and system for extracting rule of monitoring command-response pairs | |
CN113312258B (en) | Interface testing method, device, equipment and storage medium | |
US10489728B1 (en) | Generating and publishing a problem ticket | |
JP6078485B2 (en) | Operation history analysis apparatus, method, and program | |
JP2019066927A (en) | Failure countermeasure system and failure countermeasure method | |
CN112947959A (en) | Updating method and device of AI service platform, server and storage medium | |
JP2017123521A (en) | Failure cause specification device and program | |
KR101741108B1 (en) | Apparatus and method for analyzing system fault detection | |
CN112860496A (en) | Fault repair operation recommendation method and device and storage medium | |
JP2017153015A (en) | Failure analysis device, failure analysis program, and failure analysis method | |
CN114867052A (en) | Wireless network fault diagnosis method and device, electronic equipment and medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210525 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210528 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20211116 |