JP5521807B2 - 障害原因推定装置、障害原因推定プログラム及び障害原因推定方法 - Google Patents

障害原因推定装置、障害原因推定プログラム及び障害原因推定方法 Download PDF

Info

Publication number
JP5521807B2
JP5521807B2 JP2010137601A JP2010137601A JP5521807B2 JP 5521807 B2 JP5521807 B2 JP 5521807B2 JP 2010137601 A JP2010137601 A JP 2010137601A JP 2010137601 A JP2010137601 A JP 2010137601A JP 5521807 B2 JP5521807 B2 JP 5521807B2
Authority
JP
Japan
Prior art keywords
cause
condition
failure
unit
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010137601A
Other languages
English (en)
Other versions
JP2012003497A (ja
JP2012003497A5 (ja
Inventor
邦昭 嶋田
安英 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010137601A priority Critical patent/JP5521807B2/ja
Priority to US13/064,462 priority patent/US8499195B2/en
Publication of JP2012003497A publication Critical patent/JP2012003497A/ja
Publication of JP2012003497A5 publication Critical patent/JP2012003497A5/ja
Application granted granted Critical
Publication of JP5521807B2 publication Critical patent/JP5521807B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、障害原因推定装置、障害原因推定プログラム及び障害原因推定方法に関する。
近年、例えば、ITシステムの運用保守システムでは、障害の症状や原因を含む障害事例を管理し、その障害事例を利用して症状に対応する原因を検索して、その検索結果である原因を提示するシステムが広く知られている。更に、近年、運用保守の技術分野では、1980年代後半の英国商務局が作成したITIL(IT Infrastructure Library)が採用されつつある。ITILでは、障害発生から障害復旧までの時間を短縮化することでサービス品質の向上及びコスト低減を図ることが求められている。
そこで、従来の障害事例検索システムについて説明する。図18は、従来の障害事例検索システムの一例を示す説明図である。図18に示す障害事例検索システム300は、症状及び原因を対応付けた障害事例を登録したデータベース301と接続する。運用管理者は、端末302を利用して障害事例検索システム300にアクセスし、現在の障害事例の現象に関するキーワードを入力する。障害事例検索システム300は、このキーワードに対応した障害事例の原因をデータベース301から検索し、その検索結果である原因を端末302の表示画面上に一覧表示する。
運用管理者は、表示画面上の原因を参照して、現在の障害事例に類似する障害事例の原因を認識し、その原因に基づき、迅速な障害復旧を図ることができる。
しかしながら、上記従来の障害事例検索システム300では、運用管理者等がフリーフォーマットで障害事例を作成しているため、障害事例の検索時にキーワードが独自過ぎると、類似事例のヒット率が著しく低下して障害事例を絞り込むことができない。更に、上記従来の障害事例検索システム300では、検索時にキーワードが一般的過ぎると、類似する障害事例のヒット率が高くなって障害事例を絞り込むことができない。その結果、障害事例検索システム300では、障害事例を絞り込めないことで、現在の障害事例の原因を特定することができず、障害復旧までに時間を要する。
そこで、障害事例を検索しなくても、過去の障害事例の調査経過が記述されたレポートで作成した決定木から現在処理中の障害事例に類似する事例の原因を推定し、その推定した原因を提示する障害原因推定装置が知られている。
図19は、従来の障害原因推定装置に関わる障害事例登録段階の動作を示す説明図、図20は、従来の障害原因推定装置で使用する障害事例の一例を示す説明図である。図19では、障害原因推定装置のレポート登録部401は、運用管理者等のユーザから障害事例の調査経過を含むレポートの入力を受け付けると、そのレポートを障害事例として障害事例データベース(以下、単にDBと称する)402に登録する。尚、障害事例410には、障害事例を識別するID410Aと、症状等の質問事項410Bと、質問事項410Bに対する原因等の回答内容410Cと、やりとりの内容である調査経過を含むやりとりの詳細410D等とが記述してある。
図21は、従来の障害原因推定装置の障害事例学習段階における動作を示す説明図、図22は、障害事例学習段階における決定木構築までの一連の動作を示す説明図である。障害原因推定装置の形態素解析部403は、障害事例DB402に登録済みの障害事例410のテキストプレーンを単語単位に分割する。更に、重要単語抽出部404は、TF−IDF(Term Frequency, Inverse Document Frequency)や採取資料の辞書等を使用して、形態素解析部403にて分割された単語から重要単語を抽出する。
そして、決定木構築部405は、重要単語抽出部404にて抽出された重要単語、障害事例の原因に基づき、障害事例を整理して最適化する決定木405A(図22参照)を構築する。尚、決定木405Aは、障害事例に記述した採取資料を切り分け条件とした方が精度が高い。しかし、必ずしも採取資料の辞書が準備されている訳ではないため、辞書ではなく、TF−IDFで抽出した場合には単語のレア度に対する設定された閾値で重要単語を抽出するため、採取資料が抽出できるとは限らない。採取資料とは、資料採取依頼で取得したシステムログやソフトウェアログ等のエラーメッセージのログや、ソフトウェアが動作するための環境設定の定義ファイルや異常終了した際に出力するダンプ等に相当する。更に、決定木構築部405は、構築した決定木405Aを決定木DB406に登録する。尚、決定木構築部405は、所定タイミングで決定木405Aを自動生成する。
図23は、従来の障害原因推定装置の原因推定段階の動作を示す説明図、図24は、原因推定段階における原因推定までの一連の動作を示す説明図である。ユーザは、図24に示すように障害事例410内に原因410Cの記述がない場合、障害原因推定装置を使用して障害事例に類似する原因の提示を受ける。
障害原因推定装置の形態素解析部403は、原因を推定する障害事例の入力を受け付けると、障害事例のテキストプレーンを単語単位に分割する。更に、重要単語抽出部404は、TF−IDF等を使用して、形態素解析部403にて分割された単語から重要単語を抽出する。原因推定部407は、重要単語抽出部404にて抽出された重要単語を切り分け条件にし、その切り分け条件の有無に応じて障害事例の原因を決定木405Aから推定する。
例えば、原因推定部407は、現在処理中の障害事例の重要単語に「Web」及び「遅い」の切り分け条件が有るため、「ウィルススキャンソフトのリアルタイムスキャン」の原因を決定木405Aから推定する。そして、障害原因推定装置は、その原因推定部407の推定結果を原因候補として表示画面上に提示することになる。
特開2005−251091号公報 特開2007−323558号公報
Yixin Diao, Hani Jamjoom, David Loewenstern, "Rule-Based Problem Classification in IT Service Management," cloud, pp.221-228, 2009 IEEE International Conference on Cloud Computing, 2009
上記従来の障害原因推定装置では、採取資料がエラーメッセージ等の所定フォーマットであるため表記揺れを考慮する必要がなく、採取資料を切り分け条件とした場合でも障害事例の原因を決定木から推定できる。しかしながら、上記従来の障害原因推定装置では、採取資料では得られないヒアリング等で得た質問事項や回答内容等は一般的な言葉のために表記揺れが生じ、質問事項及び回答内容を切り分け条件とした場合、障害事例の原因を決定木から推定するのは困難である。その結果、ヒアリング等で得た質問事項や回答内容を得たとしても、採取資料を待たなければならず、原因推定から障害復旧までに時間を要する。
1つの側面では、ヒアリング等で得た追加の質問事項及び回答内容に対応した切り分け条件に対応することを目的とする。また、1つの側面では、追加の切り分け条件の表記揺れを吸収できる障害原因推定装置等を提供することを目的とする。
本願の開示する障害原因推定装置は、一つの態様において、過去の障害事例に関する原因、質問事項及び当該質問事項に対する回答内容を前記障害事例毎に管理するデータベースと、前記データベースに管理された前記質問事項と当該質問事項に対する前記回答内容との組合せを、前記障害事例の原因を区分する切り分け条件として表示画面上で提示する条件提示部と、前記条件提示部にて提示された前記切り分け条件の内、選択操作に応じて、少なくとも一つの切り分け条件を選択する条件選択部と、前記条件選択部にて選択された切り分け条件を満たす原因を前記データベースの内容から推定する原因推定部と、前記原因推定部にて推定された各原因を原因候補として前記表示画面上で提示する原因候補提示部とを有するようにした。
ヒアリング等で得た追加の質問事項及び回答内容に対応した切り分け条件に対応することができる。ひいては、追加の切り分け条件の表記揺れを吸収することもできるようになる。
図1は、実施例1の障害原因推定装置の内部構成を示すブロック図である。 図2は、実施例2の障害原因推定装置の内部構成を示すブロック図である。 図3は、障害事例のデータ構成の一例を示す説明図である。 図4は、ヒアリングDBのテーブル構成の一例を示す説明図である。 図5は、決定木の一例を示す説明図である。 図6は、入力インタフェース画面の一例を示す説明図である。 図7は、実施例2の障害原因推定装置に関わる障害事例登録段階の動作を示す説明図である。 図8は、実施例2の障害原因推定装置に関わる障害事例学習段階の動作を示す説明図である。 図9は、障害事例学習段階での決定木用障害事例及び決定木の一例を示す説明図である。 図10は、実施例2の障害原因推定装置に関わる原因推定段階の動作を示す説明図である。 図11は、原因推定段階での入力インタフェース画面の切替遷移の一例を示す説明図である。 図12は、切り分け条件登録処理に関わる制御部の処理動作を示すフローチャートである。 図13は、優先表示処理に関わる制御部の処理動作を示すフローチャートである。 図14は、優先表示処理に関わる入力インタフェース画面及び決定木用障害事例の関係を示す説明図である。 図15は、推定範囲調整処理に関わる制御部の処理動作を示すフローチャートである。 図16は、推定範囲調整処理に関わる動作の一例を示す説明図である。 図17は、障害原因推定プログラムを実行するコンピュータを示す説明図である。 図18は、従来の障害事例検索システムの一例を示す説明図である。 図19は、従来の障害原因推定装置に関わる障害事例登録段階の動作を示す説明図である。 図20は、従来の障害原因推定装置で使用する障害事例のデータ構成の一例を示す説明図である。 図21は、従来の障害原因推定装置に関わる障害事例学習段階の動作を示す説明図である。 図22は、障害事例学習段階における決定木構築までの一連の動作を示す説明図である。 図23は、従来の障害原因推定装置に関わる原因推定段階の動作を示す説明図である。 図24は、原因推定段階における原因推定までの一連の動作を示す説明図である。
以下、図面に基づいて、本願の開示する障害原因推定装置、障害原因推定プログラム及び障害原因推定方法の実施例を詳細に説明する。尚、本実施例により、開示技術が限定されるものではない。
図1は、実施例1の障害原因推定装置の内部構成を示すブロック図である。図1に示す障害原因推定装置1は、表示部2と、データベース(以下、単にDBと称する)3と、制御部4とを有する。DB3は、過去の障害事例に関する原因、質問事項及び当該質問事項に対する回答内容を障害事例毎に管理する。制御部4は、条件提示部5と、条件選択部6と、原因推定部7と、原因候補提示部8とを有する。
条件提示部5は、DB3に管理された質問事項と当該質問事項に対する回答内容との組合せを、障害事例の原因を区分する切り分け条件として、表示部2の表示画面上で提示する。条件選択部6は、条件提示部5にて提示された表示画面上の切り分け条件の内、ユーザの選択操作に応じて、少なくとも一つの切り分け条件を選択する。
原因推定部7は、条件選択部6にて選択された切り分け条件を満たす原因をDB3の内容から推定する。原因候補提示部8は、原因推定部7にて推定された各原因を原因候補として表示画面上で提示する。
実施例1では、DB3に登録済みの質問事項及び回答内容の組合せを切り分け条件として表示画面上で提示し、その表示画面上の切り分け条件を選択可能とし、その選択した切り分け条件を満たす原因候補を表示画面上に提示する。その結果、従来の採取資料のみでは得られない、ヒアリング等で得た追加の質問事項及び回答内容に対応した切り分け条件を表示画面上から選べることで、追加の切り分け条件の表記揺れを吸収できる。しかも、ヒアリング内容を反映した切り分け条件を使用することで原因候補に関する推定精度の向上を図ることができる。
図2は、実施例2の障害原因推定装置の内部構成を示すブロック図である。図2に示す障害原因推定装置10は、表示部11と、操作部12と、DB13と、制御部14とを有する。表示部11は、各種情報を表示画面上に画面表示する。操作部12は、各種情報や指令を入力する、例えば、キーボードやマウス等に相当する。DB13は、過去の障害事例に関する原因、質問事項及び当該質問事項に対する回答内容を障害事例毎に管理する。更に、DB13は、障害事例DB21と、ヒアリングDB22と、決定木DB23とを有する。
障害事例DB21は、過去の障害事例を管理する。図3は、障害事例のデータ構成の一例を示す説明図である。図3に示す障害事例24は、障害事例24を識別するID24Aと、障害事例24に関する症状等の質問事項24Bと、障害事例24に関する原因等の回答内容24Cと、やりとりの内容である調査経過を含むやりとりの詳細24Dと、後述する切り分け条件24Eとを管理する。
尚、切り分け条件24Eは、従来の採取資料では得られぬ、後述する入力インタフェース画面を使用して入力又は選択する追加の質問事項及び、当該質問事項に対する回答内容の組合せに相当する。切り分け条件24Eは、例えば、その質問事項が属性に相当し、その回答内容が属性値に相当する。図3の例では、切り分け条件24Eの質問事項「遅延している処理」に対して回答内容「両方」、質問事項「負荷の高低による影響」に対して回答内容「単体では早い」を示している。
ヒアリングDB22は、後述する入力インタフェース画面を使用して入力又は選択した切り分け条件を管理する。図4は、ヒアリングDB22のテーブル構成の一例を示す説明図である。図4に示すヒアリングDB22は、属性に相当する質問事項22Aと、属性値に相当する回答内容22Bとを対応付けて管理する。図4の例では、質問事項「遅延している処理」に対して、「両方」、「バッチ処理」及び「オンライン処理」の3種類の回答内容が存在することを示している。
更に、決定木DB23は、障害事例24の原因推定に使用する決定木25を管理する。図5は、決定木25の一例を示す説明図である。図5に示す決定木25は、例えば、質問事項「遅延している処理」の場合、2種類の回答内容「両方」又は「オンライン処理」に分岐する。更に、決定木25は、回答内容が「両方」の場合、質問事項「負荷の高低による影響」に対して2種類の回答内容「単体でも遅い」又は「単体でも早い」に分岐する。更に、決定木25は、回答内容「単体でも遅い」の場合、原因「ウィルススキャンソフトのリアルタイムスキャン」を推定するツリー構造となる。
図2に示す制御部14は、入力インタフェース生成部31と、レポート登録部32と、条件提示部33と、条件選択部34と、原因推定部35と、原因候補提示部36と、原因候補選択部37と、追加登録部38と、新規入力部39とを有する。入力インタフェース生成部31は、切り分け条件を入力又は選択する入力インタフェース画面50を生成し、その生成した入力インタフェース画面50を表示部11に画面表示する。レポート登録部32は、運用管理者等のユーザから障害事例の調査経過が記述されたレポートの入力を受け付けると、そのレポートを障害事例として障害事例DB21に登録する。
条件提示部33は、入力インタフェース画面50上にヒアリングDB22に登録済みの切り分け条件に関わる質問事項及び回答内容を提示する。条件選択部34は、ユーザ操作に応じて、入力インタフェース画面50上に提示された切り分け条件に関わる質問事項及び回答内容から現在の障害事例に該当する質問事項及び回答内容を選択する。原因推定部35は、条件選択部34にて選択された質問事項及び回答内容の切り分け条件を満たす原因を決定木25から推定する。
更に、原因候補提示部36は、原因推定部35にて推定された原因を入力インタフェース画面50上に原因候補として提示する。更に、原因候補選択部37は、ユーザ操作に応じて入力インタフェース画面50上に提示された原因候補から任意の原因を選択する。更に、追加登録部38は、ユーザ操作に応じて、原因候補選択部37にて選択された原因、その原因を満たした切り分け条件に関わる質問事項及び回答内容の組合せを入力インタフェース画面50に現在の障害事例として障害事例DB21に追加登録する。
また、新規入力部39は、入力インタフェース画面50上に提示された切り分け条件に現在の障害事例に該当する切り分け条件がない場合、新規の切り分け条件の入力を受付可能とする。尚、新規の切り分け条件としては、例えば、質問事項及び回答内容が共に新規の場合と、提示済みの質問事項に対して回答内容が新規の場合とがある。尚、原因推定部35では、新規入力部39で入力された切り分け条件が新規であるため、その切り分け条件を満たす原因が不明であるため、この新規の切り分け条件以外の切り分け条件を使用して原因を推定することになる。
図6は、入力インタフェース画面50の一例を示す説明図である。図6に示す入力インタフェース画面50は、障害事例番号入力欄51と、条件提示欄52と、原因候補提示欄53と、検索ボタン54と、終了ボタン55と、レポート出力ボタン56とを有する。障害事例番号入力欄51は、障害事例を識別するIDを入力する欄に相当する。条件提示欄52は、質問事項及び回答内容の組合せで障害事例を区分する切り分け条件を提示する欄に相当する。尚、条件提示部33は、例えば、1個の質問事項に対して回答内容が複数ある場合、条件提示欄52上の選択タブを使用して、その回答内容を複数提示する。尚、条件提示欄52に提示する切り分け条件は、ヒアリングDB22で管理した切り分け条件の質問事項及び回答内容である。尚、条件選択部34は、ユーザ操作に応じて、条件提示欄52に提示中の質問事項の内、現在の障害事例に該当した質問事項に対する回答内容を選択する。
また、条件提示欄52では、提示中の質問事項に該当する質問事項がない場合、新規の質問事項及び、この新規の質問事項に対する新規の回答内容を入力することも可能である。また、条件提示欄52では、提示中の質問事項に対する各回答内容に該当する回答内容がない場合、新規の回答内容を入力することも可能である。尚、新規入力部39は、条件提示欄52の新規入力欄に新規の質問事項や回答内容を入力することができる。
原因候補提示欄53は、原因推定部35の推定結果である原因を原因候補として提示する欄に相当する。尚、原因候補提示部53は、条件選択部34にて切り分け条件が未選択の場合、障害事例DB21に登録済みの全ての原因を原因候補として原因候補提示欄53に提示する。更に、原因候補提示部36は、条件選択部34にて切り分け条件が選択された場合、選択済みの切り分け条件を満たす全ての原因を原因候補として原因候補提示欄53に提示する。また、原因候補提示部36は、原因候補提示欄53に提示中の原因候補を事例件数の多い順に提示するものとする。尚、原因候補選択部37は、ユーザ操作に応じて、原因候補提示欄53に提示中の原因候補の内、障害事例に該当する原因を選択する。
検索ボタン54は、原因推定部35の推定動作を開始するボタンに相当する。終了ボタン55は、入力インタフェース画面50を終了するボタンに相当する。レポート出力ボタン56は、追加登録部38の追加登録動作を開始するボタンに相当する。尚、追加登録部38は、レポート出力ボタン56のボタン操作に応じて、原因候補選択部37にて選択された原因を現在の障害事例の最終原因として、その原因、その原因を導いた切り分け条件に関わる質問事項及び回答内容の組合せを障害事例DB21に登録する。その結果、原因が記述されていない障害事例の障害事例DB21への登録を確実に防止できる。
更に、制御部14は、決定木構築処理部40と、優先表示処理部41と、推定範囲調整処理部42とを有する。決定木構築処理部40は、形態素解析部61と、重要単語抽出部62と、切り分け条件抽出部63と、決定木構築部64とを有する。形態素解析部61は、障害事例DB21に登録済みの障害事例24のテキストプレーンを単語単位に分割する。更に、重要単語抽出部62は、形態素解析部61にて分割された単語から予め定めた重要単語を抽出する。尚、重要単語抽出部62は、例えば、TF−IDF(Term Frequency, Inverse Document Frequency)等を使用する。更に、切り分け条件抽出部63は、障害事例DB21に登録済みの全障害事例からヒアリングDB22に登録済みの切り分け条件(質問事項及び回答内容)を抽出する。
そして、決定木構築部64は、重要単語抽出部62にて抽出された単語と、切り分け条件抽出部63にて抽出された切り分け条件と、障害の原因等とに基づき、決定木25を構築し、その決定木25を決定木DB23に登録する。尚、決定木構築部64は、所定タイミング毎に決定木25を自動生成する。
優先表示処理部41は、入力インタフェース画面50の条件提示欄52に提示中の切り分け条件を選択する度に、次に選択する可能性の高い順に切り分け条件を条件提示欄52に提示すべく、条件提示部33に指示する。優先表示処理部41は、切り分け条件を選択する度に、次に選択する可能性の高さを示す評価値を切り分け条件の質問事項毎に、例えば、エントロピー(平均情報量)を用いて計算する。優先表示処理部41は、評価値が高い順に、切り分け条件を条件提示欄52に提示すべく、条件提示部33に指示する。また、優先表示処理部41は、評価値が基準閾値以下の質問事項に関わる切り分け条件を条件提示欄52への提示を禁止すべく、条件提示部33に指示する。
また、原因推定部35は、条件選択部34にて切り分け条件を順次選択し、順次選択された切り分け条件に応じて決定木35から原因を順次絞り込んで推定する。しかしながら、原因推定部35は、切り分け条件の誤選択によって現在の障害事例に該当しない原因を推定してしまう場合もある。そこで、推定範囲調整処理部42は、図示せぬ再検索ボタンのボタン操作に応じて、現在選択済みの切り分け条件の内、各切り分け条件を除外した切り分け条件の組合せで考え得る全ての原因を推定すべく、原因推定部35に指示する。推定範囲調整処理部42では、選択済みの切り分け条件毎に、その切り分け条件を除く、選択済みの全ての切り分け条件を満たす原因を順次推定すべく、原因推定部35に指示する。更に、推定範囲調整処理部42は、順次推定した原因を順次保持する。そして、推定範囲調整処理部42は、原因推定部35にて順次推定した原因候補の全てを原因候補提示欄53に提示すべく、原因候補提示部36に指示する。
次に、実施例2の障害原因推定装置10の動作について説明する。障害原因推定装置10には、例えば、障害事例登録段階、障害事例学習段階及び原因推定段階の三種類ある。障害事例登録段階とは、新たな障害事例を障害事例DB21に登録する段階である。障害事例学習段階は、障害事例DB21に登録済みの障害事例を反映した決定木25を構築する段階である。原因推定段階は、決定木25を使用して、現在の障害事例に対する原因を推定すると共に、その推定結果で得た原因等を現在の障害事例として障害事例DB21に追加登録する段階である。
図7は、実施例2の障害原因推定装置10に関わる障害事例登録段階の動作を示す説明図である。障害原因推定装置10のレポート登録部32は、運用管理者等のユーザから障害事例の調査経過を含むレポートの入力を受け付けると、そのレポートを障害事例として障害事例DB21に登録する。尚、障害事例24には、「切り分け条件」24Eを除く、「ID」24A、「質問(症状)」24B及び「回答(原因)」24C、調査経過等の「やりとりの詳細」24Dを記述したプレーンテキストがある。切り分け条件24Eは、追加の質問事項及び回答内容に関わる切り分け条件を入力又は選択した場合に記述されるものである。
更に、制御部14は、入力インタフェース画面50を表示部11に表示させる。条件提示部33は、入力インタフェース画面50の条件提示欄52上に、ヒアリングDB22に登録済みの質問事項及び回答内容の組合せとして切り分け条件を提示する。ユーザは、条件提示欄52に提示された切り分け条件を見て、現在の障害事例に関する追加の質問事項及び回答内容に該当する切り分け条件があるか否かを確認する。条件選択部34は、ユーザ操作に応じて、条件提示欄52に提示中の切り分け条件を選択する。そして、原因推定部35は、条件選択部34にて選択された切り分け条件を満たす原因を決定木25から推定する。そして、原因候補提示部36は、原因推定部35にて推定された原因を原因候補として原因候補提示欄53に提示する。
そして、原因候補選択部37は、ユーザ操作に応じて、原因候補提示欄53に提示中の原因候補を選択する。追加登録部38は、原因候補選択部37にて原因を選択すると、この原因を障害事例の原因とし、この原因を推定した切り分け条件に関わる質問事項及び回答内容の組合せを障害事例DB21に追加登録することになる。
また、条件選択部34は、障害事例に関する追加の質問事項及び回答内容に該当する切り分け条件が条件提示欄52にない場合、新規入力部39を通じて新規の切り分け条件を入力し、その新規の切り分け条件を選択することになる。尚、追加登録部38は、障害事例DB21に新規の切り分け条件を追加登録する際、その新規の切り分け条件をヒアリングDB22にも追加登録することになる。
次に、障害事例学習段階について説明する。図8は、実施例2の障害原因推定装置10に関わる障害事例学習段階の動作を示す説明図である。決定木構築処理部40は、障害事例DB21に登録済みの障害事例を取得する。形態素解析部61は、障害事例DB21に登録済みの障害事例のテキストプレーンを単語単位に分割する。更に、重要単語抽出部62は、形態素解析部61にて分割された単語から予め定めた重要単語を抽出する。
更に、切り分け条件抽出部63は、障害事例DB21に登録済みの障害事例からヒアリングDB22に登録済みの切り分け条件を抽出する。そして、決定木構築部64は、切り分け条件抽出部63にて抽出された切り分け条件、重要単語抽出部62にて抽出された重要単語、障害事例の原因に基づき、障害事例毎に、図9に示す決定木用障害事例26を生成する。図9に示す決定木用障害事例26は、障害事例の原因と、切り分け条件と含む。
決定木構築部64は、障害事例毎の決定木用障害事例26を生成し、これら決定木用障害事例26に基づき図9に示す決定木25を構築する。尚、決定木25は、障害事例に記述した採取資料を切り分け条件とするだけでなく、採取資料に記述なく、障害事例毎に新規の切り分け条件を追加可能にしたため、きめ細かい障害原因の推定精度の向上を図る決定木である。
次に、原因推定段階について説明する。図10は、実施例2の障害原因推定装置10に関わる原因推定段階における動作を示す説明図、図11は、原因推定段階での入力インタフェース画面50の切替遷移の一例を示す説明図である。障害原因推定装置10は、例えば、障害事例発生の問合せ電話によるヒアリング時に現在の障害事例の原因を推定する際、入力インタフェース画面50を表示部11に表示する。条件提示部33は、図11に示す条件提示欄52上にヒアリングDB22に登録済みの切り分け条件を提示する。ユーザは、条件提示欄52に提示された切り分け条件を視認しながら、現在の障害事例の質問事項及び回答内容に該当する切り分け条件があるか否かを確認する。
条件選択部34は、ユーザ操作に応じて、条件提示欄52に提示中の切り分け条件を選択する。尚、ユーザは、ヒアリング等で得た症状や状況を把握しながら、条件提示欄52に提示中の切り分け条件や原因候補提示欄53に提示中の原因候補を見て、現在の障害事例に該当する切り分け条件を選択する。そして、原因推定部35は、条件選択部34にて選択された切り分け条件を満たす原因を決定木25から推定する。そして、原因候補提示部36は、原因推定部35にて推定された原因を原因候補として原因候補提示欄53に提示する。その結果、ユーザは、条件提示欄52に提示中の切り分け条件を追加や選択し、その切り分け条件を満たした原因を絞り込む。図11の例では、条件提示欄52に提示中の質問事項「遅延している処理」として回答内容「オンライン処理」が追加選択されると、原因候補提示欄53上で「バッチ走行時のオンライン遅延」及び「KeepAliveによるコネクション数不足」の2種類の原因候補に絞り込むことができる。
そして、原因候補選択部37は、ユーザ操作に応じて、原因候補提示欄53に提示中の原因候補を選択する。更に、追加登録部38は、原因候補選択部37にて原因が選択されると、この原因を障害事例の原因とし、この原因を推定した切り分け条件に関わる質問事項及び回答内容の組合せを現在の障害事例として障害事例DB21に追加登録する。
次に、障害事例DB21の障害事例毎に切り分け条件を追加登録する際の障害原因推定装置10の動作について説明する。図12は、切り分け条件登録処理に関わる制御部14の処理動作を示すフローチャートである。追加登録部38は、レポート出力ボタン56のボタン操作を検出すると、条件提示欄52上の切り分け条件の内、質問事項に対する回答内容が選択又は入力済みの場合、その切り分け条件を現在の障害事例に追加登録する(ステップS11)。更に、追加登録部38は、この切り分け条件が新規入力であるか否かを判定する(ステップS12)。追加登録部38は、切り分け条件が新規入力の場合(ステップS12肯定)、この切り分け条件の質問事項及び回答内容をヒアリングDB22に追加登録する(ステップS13)。
更に、追加登録部38は、条件提示欄52上で選択又は入力した切り分け条件の内、未登録の切り分け条件が残っているか否かを判定する(ステップS14)。追加登録部38は、未登録の切り分け条件が残っている場合(ステップS14肯定)、その未登録の切り分け条件を障害事例DB21に追加登録すべく、ステップS11に移行する。
また、追加登録部38は、未登録の切り分け条件が残っていない場合(ステップS14否定)、原因候補提示欄53上の原因候補選択部37にて選択された原因を現在の障害事例に追加登録し(ステップS15)、この処理動作を終了する。この際、障害事例のレポートを出力しても良い。また、追加登録部38は、切り分け条件が新規入力でない場合(ステップS12否定)、未登録の切り分け条件が残っているか否かを判定すべく、ステップS14に移行する。
次に、優先表示処理部41の動作について説明する。図13は、優先表示処理に関わる制御部14の処理動作を示すフローチャートである。優先表示処理部41は、条件提示欄52に提示中の質問事項に対して回答内容を選択した場合、切り分け条件の属性値(回答内容)の変更を検知する(ステップS21)。更に、優先表示処理部41は、現在選択済みの各切り分け条件の入力状態を取得する(ステップS22)。
優先表示処理部41は、現在選択済みの全ての切り分け条件を満たした障害事例を推定し(ステップS23)、推定した障害事例の質問事項毎に選択可能性の高さを示すエントロピーを計算する(ステップS24)。更に、優先表示処理部41は、そのエントロピーの上位3位までの質問事項に関する切り分け条件を条件提示欄52に提示させるように条件提示部33に指示し(ステップS25)、この処理動作を終了する。その結果、条件提示欄52には、選択性の高い切り分け条件が上位3位まで優先的に提示できるため、その切り分け条件の選択作業性の向上を図ることができる。
図14は、優先表示処理に関わる入力インタフェース画面50及び決定木用障害事例26の関係を示す説明図である。尚、図14の例では、決定木用障害事例26を9種類とする。原因候補提示部36は、図示せぬが、条件選択部34にて切り分け条件が未選択の場合、9種類の障害事例に関する原因を原因候補として原因候補提示欄53に提示することになる。
更に、条件選択部34は、条件提示欄52上で、質問事項「特に遅延している処理」及び回答内容「更新・参照両方」の切り分け条件と、質問事項「遅くなった時期」及び回答内容「だんだん」の切り分け条件とを選択したとする。この際、原因候補提示部36は、「ウィルススキャンソフトのリアルタイムスキャン」、「大量ログ出力によるレスポンス遅延」、「KeepAliveによるコネクション数不足」及び「バッチ走行時のオンライン遅延」の4種類の原因を原因候補提示欄53上に提示する。この際、優先表示処理部41は、「遅延している処理」、「負荷の高低による影響」、「遅延しているサーバ」及び「APサーバのOS」の残りの質問事項毎にエントロピーを計算する。優先表示処理部41は、エントロピーが高い順に上位3位までの質問事項、「遅延している処理」、「負荷の高低による影響」及び「APサーバのOS」を条件提示欄52に提示させるべく、条件提示部33に指示する。尚、条件提示部33は、4位の「遅延しているサーバ」を提示しない。
また、優先表示処理部41は、エントロピーが基準閾値以下の場合、選択可能性が極めて低い質問事項と判断されるため、その質問事項に関わる切り分け条件の提示を禁止する。その結果、選択傾向の極めて低い切り分け条件の提示を禁止することで、その切り分け条件を選択する作業性の向上を図ることができる。
次に、推定範囲調整処理部42の動作について説明する。図15は、推定範囲調整処理に関わる制御部14の処理動作を示すフローチャートである。推定範囲調整処理部42は、図示せぬ再検索ボタンのボタン操作を検知すると(ステップS31)、現在選択済みの切り分け条件を取得する(ステップS32)。推定範囲調整処理部42は、現在選択済みの切り分け条件の内、1つの切り分け条件を除外対象に設定し(ステップS33)、除外対象の切り分け条件を除く、残りの切り分け条件を満たす原因を推定すべく、原因推定部35に指示する(ステップS34)。
推定範囲調整処理部42は、原因推定部35にて推定された原因候補を保持し(ステップS35)、除外対象の設定を解除し(ステップS36)、現在選択済みの切り分け条件の内、未だ除外対象未設定の切り分け条件が残っているか否かを判定する(ステップS37)。推定範囲調整処理部42は、除外対象未設定の切り分け条件が残っている場合(ステップS37肯定)、除外対象未設定の切り分け条件に対して除外対象を設定すべく、ステップS33に移行する。
また、推定範囲調整処理部42は、除外対象未設定の切り分け条件が残っていない場合(ステップS37否定)、保持中の全原因候補を原因候補提示欄53に提示させるべく、原因候補提示部36に指示し(ステップS38)、この処理動作を終了する。その結果、切り分け条件を順次選択して原因を絞り込むことで現在の障害事例に該当する原因がなくなったとしても、再検索を実行することで、現在選択済みの切り分け条件で考え得る原因を提示できる。
図16は、推定範囲調整処理部42に関わる動作の一例を示す説明図である。条件選択部34は、質問事項「遅延している処理」及び回答内容「オンライン処理」の切り分け条件、質問事項「特に遅延している処理」及び回答内容「両方」の切り分け条件、質問事項「遅くなった時期」及び回答内容「特定の時期から」の切り分け条件を選択したとする。
この場合、原因候補提示部36は、1個の原因「業務量増加に伴ったCPU過負荷」を原因候補提示欄53上に提示することになる。しかしながら、ユーザは、原因「業務量増加に伴ったCPU過負荷」について調査したものの、現在の障害事例の原因に該当しなかった。そこで、推定範囲調整処理部42は、再検索ボタンのボタン操作を検出すると、次の切り分け条件の組合せパターンで原因を順次推定すべく、原因推定部35に指示する。
原因推定部35は、「遅くなった時期:特定の時期から」を除く、「遅延している処理:オンライン処理」及び「特に遅延している処理:両方」の切り分け条件を満たす原因を推定する。その結果、原因推定部35は、「リテラル値使用による解析コスト増大」、「FullGCによるレスポンス遅延」、「KeepAliveによるコネクション数不足」、「バッチ走行時のオンライン遅延」及び「業務量増加に伴ったCPU過負荷」の5種類の原因を推定し、その推定原因を保持する。
更に、原因推定部35は、「特に遅延している処理:両方」を除く、「遅延している処理:オンライン処理」及び「遅くなった時期:特定の時期から」の切り分け条件を満たす原因を推定する。その結果、原因推定部35は、「DB環境(アクセスパス変更)」及び「業務量増加に伴ったCPU過負荷」の2種類の原因を推定し、その推定原因を保持する。
更に、原因推定部35は、「遅延している処理:オンライン処理」を除く、「特に遅延している処理:両方」及び「遅くなった時期:特定の時期から」の切り分け条件を満たす原因を推定する。その結果、原因推定部35は、「ウィルススキャンソフトのリアルタイムスキャン」、「大量ログ出力によるレスポンス遅延」及び「業務量増加に伴ったCPU過負荷」の3種類の原因を推定し、その推定原因を保持する。
そして、原因候補提示部36は、保持中の推定原因の論理積をとり、8種類の原因候補を原因候補提示欄53上に提示することになる。
また、実施例2の障害原因推定装置10を使用して、ソフトウェアパッケージの運用保守に関わる382件の障害事例に対して検証してみた。症状が38種類、問題のコンポーネントが7種類、直近の実行コマンドが31種類、エラーメッセージが90種類、連携しているアプリケーションが17種類の合計183種類の切り分け条件があった。全障害事例の内、古い282件から決定木を作成した。そして、新しい100件の内、古い282件と同一の障害事例30件に対して、作成した決定木を使用して原因を推定し、その解決率を評価した。更に、推定された原因は、切り分け条件を入力する度に絞り込まれ、最終的に複数存在し、そのうちに正しい原因が含まれるとして解決したとする。その結果、30件中の19件が提示された原因で解決し、従来の決定木による解決率がほぼ0%であったのに対し、本実施例の決定木による解決率は63%であった。その解決率が従来に比較して著しくアップしたことを証明している。
実施例2では、ヒアリングDB22に登録済みの質問事項及び回答内容を切り分け条件として条件提示欄52上に提示し、その条件提示欄52上の切り分け条件を選択可能にし、その選択した切り分け条件を満たす原因候補を原因候補提示欄53上に提示する。その結果、従来の採取資料では得られなかった、ヒアリング等で得た質問事項及び回答内容に対応した切り分け条件を条件提示欄52上から選べる、すなわち、切り分け条件を型決めすることで、追加の切り分け条件の表記揺れを吸収できる。しかも、ヒアリング内容を反映した切り分け条件を登録することで、原因候補における推定精度の向上を図ることができる。
実施例2では、原因候補提示欄53上に提示された原因から現在の障害事例に該当する原因を選択し、その選択した原因、当該原因を推定した全ての切り分け条件に関わる質問事項及び回答内容の組合せを現在の障害事例として障害事例DB21に追加登録する。その結果、ヒアリング内容を反映した切り分け条件に関する質問事項及び回答内容、原因を現在の障害事例として障害事例DB21に反映することでデータ内容の拡充を図ることができる。しかも、切り分け条件を選択しながら、現在の障害事例の原因を選択することになるため、従来のような原因の記述がないような障害事例の登録を確実に防止できる。その結果、ヒアリングによる切り分け条件と原因とを障害事例として障害事例DB21に登録することで、障害事例の再利用率の向上を図ることができる。
実施例2では、条件提示欄52上に該当する切り分け条件がない場合でも、新規の質問事項や新規の回答内容を新規入力して新規の切り分け条件を入力できる。その結果、条件提示欄52上に該当する切り分け条件がない場合でも、その新規の質問事項や新規の回答内容を反映した切り分け条件を入力できると共に、その新規の切り分け条件を満たした原因候補を提示することもできる。更に、新規の切り分け条件を反映した障害事例を障害事例DB21に登録することでデータ内容の拡充を図ることができる。
実施例2では、ヒアリングDB22に登録済みの切り分け条件を使用して、障害事例DB21に登録済みの障害事例毎の原因、質問事項及び回答内容を抽出し、これら障害事例毎の原因、質問事項及び回答内容に基づき決定木25を構築する。その結果、従来のような採取資料だけでなく、採取資料では得られなかったヒアリング内容を反映した決定木25を構築できる。
実施例2では、条件提示欄52上で切り分け条件を選択する度に、質問事項毎に選択可能性の高さを示す評価値を算出し、その評価値が高い順に質問事項の切り分け条件を条件提示欄52上に優先的に提示する。その結果、ユーザは、現時点での選択可能性の高い質問事項に関わる切り分け条件を条件提示欄52上で認識できるため、切り分け条件の選択作業性の向上を図ることができる。
実施例2では、条件提示欄52上で切り分け条件を選択する度に、質問事項毎に選択可能性の高さを示す評価値を算出し、その評価値が基準閾値以下の場合、その質問事項の切り分け条件の条件提示欄52上への提示を禁止する。その結果、現時点での選択可能性の極めて低い質問事項に関わる切り分け条件の提示を無くすことで、その切り分け条件の選択作業性の向上を図ることができる。
実施例2では、切り分け条件を順次選択して原因を絞り込むことで現在の障害事例に該当する原因がなくなったとしても、再検索を実行することで、選択済みの切り分け条件毎に、その切り分け条件を除く、選択済みの全ての切り分け条件を満たす原因を順次推定する。その結果、ワンタッチ操作で現在の選択済みの切り分け条件で考え得る原因を全て原因候補提示欄53上に提示できる。
尚、上記実施例では、優先表示処理部41にてエントロピーで評価するようにしたが、Giniインデックス等の他の指標を使用しても良い。また、上記実施例では、図13の優先表示処理のステップS22にて切り分け条件の入力状態を取得する際、取り得る入力状態の全てについて、それ以降の計算を行いエントロピーが高い上位3位までの質問事項を計算して保存した。その結果、保存内容に基づき、迅速に優先表示処理を実現できる。
また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
更に、各装置で行われる各種処理機能は、CPU(Central Processing Unit)(又はMPU(Micro Processing Unit)、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部又は任意の一部を実行するようにしても良い。また、各種処理機能は、CPU(又はMPU、MCU等のマイクロ・コンピュータ)で解析実行するプログラム上、又はワイヤードロジックによるハードウェア上で、その全部又は任意の一部を実行するようにしても良いことは言うまでもない。
ところで、本実施例で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することによって実現することができる。そこで、以下では、図17を用いて、上記の実施例と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図17は、障害原因推定プログラムを実行するコンピュータを示す説明図である。
同図に示すように、障害原因推定プログラムとしてのコンピュータ200は、HDD(Hard Disk Drive)210、RAM(Random Access Memory)220、ROM(Read Only Memory)230及びCPU240をバス250で接続して構成される。
そして、ROM230には、上記の実施例と同様の機能を発揮する障害原因推定プログラム、つまり、図17に示すように、管理プログラム231、条件提示プログラム232、条件選択プログラム233、原因推定プログラム234及び原因候補提示プログラム235が予め記憶されている。尚、プログラム231〜235については、図1に示した障害原因推定装置の各構成要素と同様、適宜統合又は分散してもよい。
そして、CPU240が、これらのプログラム231〜235をROM230から読み出して実行することで、図17に示すように、各プログラム231〜235は、管理プロセス241、条件提示プロセス242、条件選択プロセス243、原因推定プロセス244及び原因候補提示プロセス245として機能するようになる。
CPU240は、過去の障害事例に関する原因、質問事項及び当該質問事項に対する回答内容を前記障害事例毎にHDD210に管理する。更に、CPU240は、HDD210に管理された質問事項と当該質問事項に対する回答内容との組合せを、障害事例の原因を区分する切り分け条件として表示画面上で提示する。更に、CPU240は、提示された切り分け条件の内、選択操作に応じて、少なくとも一つの切り分け条件を選択する。更に、CPU240は、選択操作に応じて、選択された切り分け条件を満たす原因をHDD210の内容から推定する。更に、CPU240は、推定された各原因を原因候補として表示画面上で提示する。
その結果、従来の採取資料では得られなかった、ヒアリング等で得た質問事項及び回答内容に対応した切り分け条件を表示画面上から選べるため、切り分け条件の表記揺れを吸収できる。しかも、ヒアリング内容を反映した切り分け条件を取得することで原因候補の推定精度の向上が図れる。
以上、本実施例を含む実施の形態に関し、更に以下の付記を開示する。
(付記1)過去の障害事例に関する原因、質問事項及び当該質問事項に対する回答内容を前記障害事例毎に管理するデータベースと、
前記データベースに管理された前記質問事項と当該質問事項に対する前記回答内容との組合せを、前記障害事例の原因を区分する切り分け条件として表示画面上で提示する条件提示部と、
前記条件提示部にて提示された前記切り分け条件の内、選択操作に応じて、少なくとも一つの切り分け条件を選択する条件選択部と、
前記条件選択部にて選択された切り分け条件を満たす原因を前記データベースの内容から推定する原因推定部と、
前記原因推定部にて推定された各原因を原因候補として前記表示画面上で提示する原因候補提示部と
を有することを特徴とする障害原因推定装置。
(付記2)前記原因候補提示部にて提示された原因候補の内、選択操作に応じて任意の原因候補を原因として選択する原因候補選択部と、
追加登録操作に応じて、前記原因候補選択部にて選択された原因及び、当該原因を推定した切り分け条件に関わる前記質問事項及び前記回答内容の組合せを新規の障害事例として前記データベースに追加登録する追加登録部と
を有することを特徴とする付記1記載の障害原因推定装置。
(付記3)前記条件選択部は、
新規の質問事項又は新規の回答内容を入力可能とする新規入力部を有し、
前記新規入力部の入力操作に応じて、前記新規の質問事項と当該質問事項に対する新規の回答内容との組合せ又は、前記条件提示部にて提示された質問事項と当該質問事項に対する新規の回答内容との組合せを切り分け条件として選択することを特徴とする付記1又は2に記載の障害原因推定装置。
(付記4)前記データベースにて前記障害事例毎に管理された前記原因、前記質問事項及び前記回答内容に基づき、推定対象の障害事例の原因を推定する際に使用する決定木を構築する決定木構築部を有し、
前記原因推定部は、
前記条件選択部にて選択された切り分け条件を満たす原因を前記決定木から推定することを特徴とする付記1〜3の何れか一つに記載の障害原因推定装置。
(付記5)前記条件提示部は、
前記条件選択部にて切り分け条件を選択する毎に、選択可能性の高さを示す評価値を質問事項毎に算出し、前記評価値が高い順に、当該質問事項の切り分け条件を前記表示画面上で提示することを特徴とする付記1〜4の何れか一つに記載の障害原因推定装置。
(付記6)前記条件提示部は、
前記評価値が基準閾値以下の場合、当該評価値の質問事項に関わる切り分け条件の前記表示画面上への提示を禁止することを特徴とする付記5記載の障害原因推定装置。
(付記7)前記原因推定部は、
前記条件選択部にて選択された切り分け条件を満たす原因を推定した場合、再検索操作を検出すると、当該条件選択部にて選択された切り分け条件毎に、その切り分け条件を除く、当該条件選択部にて選択された切り分け条件を満たす原因を順次推定すると共に、
前記原因候補提示部は、
前記原因推定部にて順次推定された原因を原因候補として前記表示画面上で提示することを特徴とする付記1〜6の何れか一つに記載の障害原因推定装置。
(付記8)過去の障害事例に関する原因、質問事項及び当該質問事項に対する回答内容を前記障害事例毎にデータベースに管理する管理手順と、
前記データベースに管理された前記質問事項と当該質問事項に対する前記回答内容との組合せを、前記障害事例の原因を区分する切り分け条件として表示画面上で提示する条件提示手順と、
前記条件提示手順にて提示された前記切り分け条件の内、選択操作に応じて、少なくとも一つの切り分け条件を選択する条件選択手順と、
前記条件選択手順にて選択された切り分け条件を満たす原因を前記データベースの内容から推定する原因推定手順と、
前記原因推定手順にて推定された各原因を原因候補として前記表示画面上で提示する原因候補提示手順と
を含むプログラムをコンピュータに実行させることを特徴とする障害原因推定プログラム。
(付記9)過去の障害事例に関する原因、質問事項及び当該質問事項に対する回答内容を前記障害事例毎にデータベースに管理する管理ステップと、
前記データベースに管理された前記質問事項と当該質問事項に対する前記回答内容との組合せを、前記障害事例の原因を区分する切り分け条件として表示画面上で提示する条件提示ステップと、
前記条件提示ステップにて提示された前記切り分け条件の内、選択操作に応じて、少なくとも一つの切り分け条件を選択する条件選択ステップと、
前記条件選択ステップにて選択された切り分け条件を満たす原因を前記データベースの内容から推定する原因推定ステップと、
前記原因推定ステップにて推定された各原因を原因候補として前記表示画面上で提示する原因候補提示ステップと
を有することを特徴とする障害原因推定方法。
1 障害原因推定装置
2 表示部
3 DB
4 制御部
5 条件提示部
6 条件選択部
7 原因推定部
8 原因候補提示部
10 障害原因推定装置
11 表示部
12 操作部
13 DB
14 制御部
21 障害事例DB
22 ヒアリングDB
23 決定木DB
31 入力インタフェース生成部
33 条件提示部
34 条件選択部
35 原因推定部
36 原因候補提示部
37 原因候補選択部
38 追加登録部
39 新規追加部
40 決定木構築処理部
41 優先表示処理部
42 推定範囲調整処理部

Claims (7)

  1. 過去の障害事例に関する原因、質問事項及び質問事項に対する回答内容を前記障害事例毎に記憶した第1のデータベースと、
    前記障害事例の原因を区分するための前記質問事項と前記回答内容との組合せとして記憶した第2のデータベースと、
    前記第2のデータベースから前記質問事項と前記回答内容との組合せを切り分け条件として提示する条件提示部と、
    前記切り分け条件に提示されていない質問事項と回答内容との組合せである新規の切り分け条件の入力を受け付ける受付部と、
    前記新規の切り分け条件を前記第2のデータベースに記憶する記憶制御部と、
    前記提示された前記切り分け条件の中から選択した切り分け条件及び前記新規の切り分け条件を満たす障害事例の原因を前記第1のデータベースから推定する原因推定部と、
    前記推定された前記原因を原因候補として提示する原因候補提示部と
    前記原因候補提示部にて提示された原因候補の中から任意の原因候補を原因として選択する原因候補選択部と、
    追加登録操作に応じて、前記原因候補選択部にて選択された原因及び、当該原因を推定した切り分け条件の前記質問事項及び前記回答内容を新規の障害事例として前記第1のデータベースに記憶すると共に、前記新規の障害事例の原因を区分するための前記質問事項と前記回答内容との組合せを前記第2のデータベースに記憶する前記記憶制御部と
    を有することを特徴とする障害原因推定装置。
  2. 新規の質問事項又は新規の回答内容を入力可能とする新規入力部と、
    前記新規入力部の入力操作に応じて、前記新規の質問事項と当該質問事項に対する新規の回答内容との組合せ又は、前記条件提示部にて提示された質問事項と当該質問事項に対する新規の回答内容との組合せを切り分け条件として選択する条件選択部と
    を有することを特徴とする請求項に記載の障害原因推定装置。
  3. 前記条件提示部は、
    前記切り分け条件を選択する毎に、選択可能性の高さを示す評価値を質問事項毎に算出し、前記評価値が高い順に、当該質問事項の切り分け条件を提示することを特徴とする請求項1又は2に記載の障害原因推定装置。
  4. 前記条件提示部は、
    前記評価値が基準閾値以下の場合、当該評価値の質問事項に関わる切り分け条件の提示を禁止することを特徴とする請求項に記載の障害原因推定装置。
  5. 前記原因推定部は、
    前記選択された切り分け条件を満たす原因を推定した場合、再検索操作を検出すると、当該選択された切り分け条件毎に、その切り分け条件を除く、当該選択された切り分け条件を満たす原因を順次推定すると共に、
    前記原因候補提示部は、
    前記原因推定部にて順次推定された原因を原因候補として提示することを特徴とする請求項1〜の何れか一つに記載の障害原因推定装置。
  6. コンピュータに、
    過去の障害事例に関する原因、質問事項及び質問事項に対する回答内容を前記障害事例毎に記憶する第1のデータベースと、前記障害事例の原因を区分するための前記質問事項と前記回答内容との組合せとして記憶する第2のデータベースとをアクセス可能な状態にし、
    前記第2のデータベースから前記質問事項と前記回答内容との組合せを切り分け条件として提示し、
    前記切り分け条件に提示されていない質問事項と回答内容との組合せである新規の切り分け条件の入力を受け付け、
    前記新規の切り分け条件を前記第2のデータベースに記憶し、
    前記提示された前記切り分け条件の中から選択した切り分け条件及び前記新規の切り分け条件を満たす障害事例の原因を前記第1データベースから推定し、
    前記推定された前記原因を原因候補として提示し、
    前記提示された原因候補の中から任意の原因候補を原因として選択し、
    追加登録操作に応じて、前記選択された原因及び、当該原因を推定した切り分け条件の前記質問事項及び前記回答内容を新規の障害事例として前記第1のデータベースに記憶すると共に、前記新規の障害事例の原因を区分するための前記質問事項と前記回答内容との組合せを前記第2のデータベースに記憶する
    処理を実行させることを特徴とする障害原因推定プログラム。
  7. コンピュータが、
    過去の障害事例に関する原因、質問事項及び質問事項に対する回答内容を前記障害事例毎に記憶する第1のデータベースと、前記障害事例の原因を区分するための前記質問事項と前記回答内容との組合せとして記憶する第2のデータベースとをアクセス可能にし、
    前記第2のデータベースから前記質問事項と前記回答内容との組合せを切り分け条件として提示し、
    前記切り分け条件に提示されていない質問事項と回答内容との組合せである新規の切り分け条件の入力を受け付け、
    前記新規の切り分け条件を前記第2のデータベースに記憶し、
    前記提示された前記切り分け条件の中から選択した切り分け条件及び前記新規の切り分け条件を満たす障害事例の原因を前記第1データベースから推定し、
    前記推定された前記原因を原因候補として提示し、
    前記提示された原因候補の中から任意の原因候補を原因として選択し、
    追加登録操作に応じて、前記選択された原因及び、当該原因を推定した切り分け条件の前記質問事項及び前記回答内容を新規の障害事例として前記第1のデータベースに記憶すると共に、前記新規の障害事例の原因を区分するための前記質問事項と前記回答内容との組合せを前記第2のデータベースに記憶する
    処理を実行することを特徴とする障害原因推定方法。
JP2010137601A 2010-06-16 2010-06-16 障害原因推定装置、障害原因推定プログラム及び障害原因推定方法 Expired - Fee Related JP5521807B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010137601A JP5521807B2 (ja) 2010-06-16 2010-06-16 障害原因推定装置、障害原因推定プログラム及び障害原因推定方法
US13/064,462 US8499195B2 (en) 2010-06-16 2011-03-25 Failure cause estimation device and failure cause estimation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010137601A JP5521807B2 (ja) 2010-06-16 2010-06-16 障害原因推定装置、障害原因推定プログラム及び障害原因推定方法

Publications (3)

Publication Number Publication Date
JP2012003497A JP2012003497A (ja) 2012-01-05
JP2012003497A5 JP2012003497A5 (ja) 2013-06-20
JP5521807B2 true JP5521807B2 (ja) 2014-06-18

Family

ID=45329759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010137601A Expired - Fee Related JP5521807B2 (ja) 2010-06-16 2010-06-16 障害原因推定装置、障害原因推定プログラム及び障害原因推定方法

Country Status (2)

Country Link
US (1) US8499195B2 (ja)
JP (1) JP5521807B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9104572B1 (en) * 2013-02-11 2015-08-11 Amazon Technologies, Inc. Automated root cause analysis
JP6664072B2 (ja) * 2015-12-02 2020-03-13 パナソニックIpマネジメント株式会社 探索支援方法、探索支援装置、及び、プログラム
JP6803754B2 (ja) * 2017-01-16 2020-12-23 株式会社日立製作所 ログメッセージグループ化装置、ログメッセージグループ化システムおよびログメッセージグループ化方法
CN107679154B (zh) * 2017-09-27 2020-04-21 哈尔滨工业大学深圳研究生院 一种基于时间轴的历史题解题方法、系统及介质
CN107871004A (zh) * 2017-11-14 2018-04-03 国家电网公司 一种配电网造价分析管理系统
JP2020052857A (ja) * 2018-09-28 2020-04-02 大和ハウス工業株式会社 推定システム及び推定方法
US11042320B2 (en) * 2019-02-18 2021-06-22 International Business Machines Corporation Problem diagnosis in complex SAN environments
US11907057B2 (en) 2019-10-16 2024-02-20 Siemens Aktiengesellschaft Fault processing method and system
JP7333281B2 (ja) * 2020-02-06 2023-08-24 株式会社日立製作所 設計支援システム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4857918A (en) * 1986-02-25 1989-08-15 Kabushiki Kaisha Toshiba Fault diagnostic apparatus for electric appliance
JP3224226B2 (ja) * 1989-09-22 2001-10-29 株式会社リコー 故障診断エキスパートシステム
SE467026B (sv) * 1990-09-21 1992-05-11 Televerket Anordning foer strukturering av teknisk information vid uppraettande av en kunskapsdatabas och felsoekning i teknisk utrustning
JPH05282155A (ja) * 1992-03-31 1993-10-29 Nec Corp 知識情報処理システム
JPH0877260A (ja) * 1994-09-09 1996-03-22 Hitachi Electron Service Co Ltd 障害対策支援システム
JP2003108689A (ja) * 2001-09-26 2003-04-11 Nec Fielding Ltd 故障の問合せ処理システム、問合せ処理方法、及びプログラム
KR100429883B1 (ko) * 2001-12-20 2004-05-03 삼성전자주식회사 순수 결함에 의한 불량 발생 확률 측정방법, 순수 결함에서 추출한 패턴 파라미터의 분류를 이용한 결함 제한 수율 측정 방법, 순수 결함에 의한 불량 발생 확률 및 결함 제한 수율을 측정하기 위한 시스템
US20040260678A1 (en) * 2003-06-18 2004-12-23 Microsoft Corporation State based configuration failure detection using checkpoint comparison
JP2005251091A (ja) 2004-03-08 2005-09-15 Konica Minolta Holdings Inc データ処理装置、データ処理方法およびデータ処理プログラム
JP2005309077A (ja) * 2004-04-21 2005-11-04 Fuji Xerox Co Ltd 故障診断方法および故障診断装置、並びに搬送装置および画像形成装置、並びにプログラムおよび記憶媒体
US20050283682A1 (en) * 2004-06-18 2005-12-22 Hitachi, Ltd. Method for data protection in disk array systems
JP4314200B2 (ja) * 2005-02-02 2009-08-12 Necフィールディング株式会社 保守支援システム、保守管理装置およびプログラム
JP2006301820A (ja) * 2005-04-19 2006-11-02 Hitachi Ltd ストレージシステム及びストレージシステムのデータ移行方法
US7899638B2 (en) * 2005-10-18 2011-03-01 Lecroy Corporation Estimating bit error rate performance of signals
JP4055800B2 (ja) * 2005-12-29 2008-03-05 ダイキン工業株式会社 特定機器管理装置
JP2007323558A (ja) 2006-06-05 2007-12-13 Nippon Telegr & Teleph Corp <Ntt> キーワード生成装置、文書検索装置、その方法、およびそのプログラム
JP4562713B2 (ja) * 2006-10-05 2010-10-13 ルネサスエレクトロニクス株式会社 論理回路における多重故障の故障箇所推定システム、故障箇所推定方法および故障箇所推定用プログラム
DE102007000999B4 (de) * 2007-02-26 2012-06-28 Vistec Semiconductor Systems Gmbh Verfahren zur Beseitigung von Fehlerquellen der Systemkorrektur einer Koordinaten-Messmaschine
US8196004B1 (en) * 2007-03-27 2012-06-05 Marvell International Ltd. Fast erasure decoding for product code columns
US7656518B2 (en) * 2007-03-30 2010-02-02 Asml Netherlands B.V. Method of measuring asymmetry in a scatterometer, a method of measuring an overlay error in a substrate and a metrology apparatus
US7616007B2 (en) * 2007-07-23 2009-11-10 Advantest Corporation Device, method, program, and recording medium for error factor measurement, and output correction device and reflection coefficient measurement device provided with the device for error factor measurement
US9152530B2 (en) * 2009-05-14 2015-10-06 Oracle America, Inc. Telemetry data analysis using multivariate sequential probability ratio test
JP5270458B2 (ja) * 2009-06-12 2013-08-21 ルネサスエレクトロニクス株式会社 故障箇所推定装置
JP5447092B2 (ja) * 2010-03-30 2014-03-19 富士通株式会社 処理装置,データ移行方法及びデータ移行プログラム

Also Published As

Publication number Publication date
US8499195B2 (en) 2013-07-30
JP2012003497A (ja) 2012-01-05
US20110314332A1 (en) 2011-12-22

Similar Documents

Publication Publication Date Title
JP5521807B2 (ja) 障害原因推定装置、障害原因推定プログラム及び障害原因推定方法
US11928118B2 (en) Generating a correlation search
US11748394B1 (en) Using indexers from multiple systems
US11386109B2 (en) Sharing configuration information through a shared storage location
US10439922B2 (en) Service analyzer interface
US9612898B2 (en) Fault analysis apparatus, fault analysis method, and recording medium
US9621571B2 (en) Apparatus and method for searching for similar malicious code based on malicious code feature information
US10296616B2 (en) Generation of a search query to approximate replication of a cluster of events
US10860655B2 (en) Creating and testing a correlation search
US20150121136A1 (en) System and method for automatically managing fault events of data center
US20150026167A1 (en) Discovering fields to filter data returned in response to a search
US10635507B2 (en) Event monitoring apparatus and event monitoring method
JP5373870B2 (ja) 予測装置、予測方法、及び、プログラム
JP2018206316A (ja) プラント運転監視システム及びプラント運転監視方法
US10261998B2 (en) Search apparatus and search method
JP2007304796A (ja) データベース解析システム及びデータベース解析方法及びプログラム
JP5395719B2 (ja) 障害原因解析システムにおけるルール生成装置及びそのプログラム
JP6276668B2 (ja) 障害分析システム
JP2016224856A (ja) データベース装置、検索装置、部分グラフ構築方法、検索方法
JP2018190366A (ja) 検索装置、検索方法及び検索プログラム
JP2013077124A (ja) ソフトウェアテストケース生成装置
JP5623950B2 (ja) It障害予兆検知装置及びプログラム
JP2011186706A (ja) 情報処理装置、情報処理方法およびプログラム
US20200293290A1 (en) Template creation apparatus, computer readable medium and template creation method
JP6901533B2 (ja) 計算機システム及び業務の支援方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130501

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130507

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140324

R150 Certificate of patent or registration of utility model

Ref document number: 5521807

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees