JP2022045833A - 対処種別推定システム、方法、及びプログラム - Google Patents

対処種別推定システム、方法、及びプログラム Download PDF

Info

Publication number
JP2022045833A
JP2022045833A JP2020151656A JP2020151656A JP2022045833A JP 2022045833 A JP2022045833 A JP 2022045833A JP 2020151656 A JP2020151656 A JP 2020151656A JP 2020151656 A JP2020151656 A JP 2020151656A JP 2022045833 A JP2022045833 A JP 2022045833A
Authority
JP
Japan
Prior art keywords
type
coping
countermeasure
type estimation
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020151656A
Other languages
English (en)
Inventor
健太 森山
Kenta MORIYAMA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020151656A priority Critical patent/JP2022045833A/ja
Publication of JP2022045833A publication Critical patent/JP2022045833A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】保守員の負荷を軽減する。【解決手段】対処種別推定システム100は、監視サーバ103と、対処種別推定サーバ102と、を備える。監視サーバ103は、監視対象システム104で発生した障害に関する障害メッセージを送信する。対処種別推定サーバ102は、監視サーバ103から受信した障害メッセージに応じた対処種別を、複数の障害メッセージ毎に対処種別を格納した記憶部から機械学習手法を用いて推定する対処種別推定サーバ102と、を備える。【選択図】図1

Description

本発明は、対処種別推定システム、方法、及びプログラムに関する。
特許文献1には、事例DB(データベース)を検索することによって、被監視機器で発生するインシデントへの自動化対応の可否、及び運用形態によるエスカレーション先の分岐を可能とする方法が開示されている。
特開2014-032598号公報
対処種別推定システムは、被監視機器である各監視対象システムから送信された障害メッセージに基づいて、実機対処が必要か、または管理者にエスカレーションを実行するかを判断する。保守員は、対処種別推定システムの判断に応じた対処種別を実行する。対処種別推定システムは、すべての障害メッセージに基づいてすぐに対処種別を判別することができない。対処種別推定システムが対処種別を判別することができない障害メッセージを受信した場合、保守員は、膨大なマニュアルから該当する過去の対処種別の手順があるかを調べたうえで、対処種別を判断する必要がある。このため、監視対象システムの保守作業は、保守員にとって大きな負荷となっている。
特許文献1に記載の技術では、インシデントに基づいて障害に対する対処を決定することができる。しかし、特許文献1に記載の技術では、完全に一致する過去の対処事例が事例DBに格納されていなければ、対処を検索することができない。数多くの被監視機器を備えるデータセンタでは、考慮する要素も膨大になるため、十分な対処事例を事例DBに登録することが難しい。
本発明は、上記課題を解決するためのものであり、その目的は、保守員の負荷を軽減することができる技術を提供することである。
上記目的を達成するために、本発明は、監視対象システムで発生した障害に関する障害メッセージを送信する監視サーバと、前記監視サーバから受信した前記障害メッセージに応じた対処種別を、複数の前記障害メッセージ毎に前記対処種別を格納する記憶部から機械学習手法を用いて推定する対処種別推定サーバと、を備える。
本願発明では、保守員の負荷を低減することができる。
対処種別推定システムの全体構成図。 対処種別推定サーバの機能構成図。 対処推定処理を示すシーケンス図。 対処種別推定処理のフローチャート。 事例データDBの構成図。 対処種別推定機能に入力される入力データの構成図。 故障メッセージマスタの構成図。
以下、本願発明の実施例を、図面を用いて詳細に説明する。
図1は、対処種別推定システムの全体構成図である。
対処種別推定システム100は、「表示端末」の一例としての保守員端末101と、対処種別推定サーバ102と、監視サーバ103とを備えている。保守員端末101と、対処種別推定サーバ102と、監視サーバ103とは、監視対象システム群104とネットワークを介して相互に通信可能に接続されている。監視対象システム群104は、複数の監視対象システム1~nから構成されている。対処種別推定システム100は、複数の監視対象システム1~nの保守運用を実行する、データセンタであってよい。
保守員端末101は、画面を備えており、監視対象システム1~nの保守業務にあたる従業員等の保守員に画面が操作されて使用される。保守員端末101は、ノートPCであってよい。しかし、保守員端末101は、ノートPCに限定されるものではない。保守員端末101は、例えば、デスクトップPCまたはタブレット端末でもよい。
対処種別推定サーバ102は、保守員が実行する対処種別を推定する。対処種別推定サーバ102の機能の詳細は、図2に後述する。
監視サーバ103は、各監視対象システム1~nが有する複数の電子機器を監視する。監視サーバ103は、監視対象システム1~nでエラーが発生した場合、監視対象システム1~nから「障害メッセージ」の一例としてのエラー情報を受信する。
監視対象システム104は、サーバ、ストレージ及びスイッチを含む電子機器群から構成されている。各電子機器は、障害が発生した際、エラー情報及び監視対象システム104の状態を監視サーバ103に送信する。なお、電子機器が送信するメッセージ及び方法は、電子機器毎に異なる。
図2は、対処種別推定サーバの機能構成図である。
対処種別推定サーバ102は、演算部201と、記憶部202とを備えている。演算部201は、対処種別推定機能203を備えている。記憶部202は、事例データベース(以下、事例DB)204と、故障メッセージマスタ205とを備えている。
対処種別推定機能203は、エラー情報と、監視対象システム104の状態とに応じて、保守員が実行する対処種別を推定するための機能である。対処種別推定機能203の詳細は、図4で後述する。
事例DB204は、過去にエラーが発生したときのエラー情報及び監視対象システム104の状態と、実行した対処種別とを含むデータテーブルである。事例DB204の詳細は、図5で後述する。
故障メッセージマスタ205は、監視対象システム104のハードウェアで発生した「障害」の一例としての故障を表すイベントIDと、監視対象システム104のハードウェアで故障が発生したことが報告される連絡先ベンダとをまとめたデータテーブルである。障害は、故障に限定されない。障害は、例えば、通信障害でもよい。故障メッセージマスタ205の詳細は、図7で後述する。
図3は、対処種別推定処理を示すシーケンスである。
監視対象システム104は、電子機器でエラーが発生した場合、エラー情報を監視サーバ103に送信する(S301)。エラー情報には、OSイベントログ(エラーログ)と、SNMPトラップ(電子機器の情報)とが含まれてよい。監視サーバ103は、受信したエラー情報を入力データのフォーマットに変換し、変換した入力データを対処種別推定サーバ102に送信する(送信ステップ;S302)。入力データの詳細は、図6で後述する。
対処種別推定サーバ102は、受信した入力データに基づいて、機械学習手法を用いて、事例DB204に格納された複数の対処種別から保守員が実行する対処種別を推定し、推定した対処種別を保守員端末101に送信する(S303)。S303の詳細は、図4で後述する。保守員端末101は、対処種別推定サーバ102から送信された対処種別を画面に表示する。これにより、保守員は、画面に表示された対処種別を確認し、その対処種別を実行することができる。
図4は、対処種別推定処理のフローチャートである。
対処種別推定サーバ102は、管理さーな103から送信された入力データを受信する(401)。対処種別推定サーバ102は、まず、監視対象システム104のハードウェアの故障メッセージであるかを判別するために、入力データのメッセージIDを故障メッセージマスタ205と突合する(S402)。対処種別推定サーバ102は、メッセージIDが故障メッセージマスタ205に存在する否かを判定する(S403)。
S403の判定結果が真の場合(S403:YES)、監視対象システム104のハードウェアの故障であり、対処種別推定サーバ102は、以降の対処種別推定処理を実行しない。このため、対処種別推定サーバ102は、故障の内容と連絡先のベンダとを保守員端末101に送信する。保守員端末101は、受信した故障の内容と連絡先のベンダとを画面に表示し、対処種別推定処理を終了する(S404)。
S403の判定結果が偽の場合(S403:NO)、対処種別推定サーバ102は、入力データに基づいて、対処種別毎のスコアを計算する(選定ステップ:S405)。対処種別推定サーバ102は、事例DB204に格納された対処種別毎に機械学習手法による確率モデル(数式の例は別途説明する)を用いてスコアを算出する。スコアが高いほど、正しい対処種別である可能性が高い。このため、対処種別推定サーバ102は、スコアが最も高い対処種別を選定し、選定した対処種別を保守員端末101に送信する。保守員端末101は、受信した対処種別を画面に表示して、対処種別推定処理を終了する。
対処種別には、「対処不要」(S407)と、「実機対処」(S408)と、「エスカレーション」(S409)とが含まれる。「対処不要」は、保守員による対処が不要なメッセージであることを示す。「実機対処」は、マニュアルに沿った実機対処が必要であることを示す。「エスカレーション」は、管理者へのエスカレーションが必要であることを示す。
さらに、どのスコアも低い場合、学習データが不十分であり、正解率が低くなることが想定される。このため、スコアに閾値を設けて、どのスコアも閾値以下であった場合、最も安全である「エスカレーション」を表示する(S409)。閾値は、求められる正解率に応じて運用中にチューニングする必要がある。なお、対処種別は、実際の対処に応じて定義されてよく、前述の3種類以外の項目が含まれてもよい。
例えば、対処種別推定サーバ102は、実行した対処種別の対処結果に基づいて閾値を更新してよい。これにより、閾値の精度が高まり、対処種別の推定精度を高めることができる。
さらに、対処種別推定サーバ102は、新たに実行した対処種別の対処結果に基づいて記憶部202に格納された対処種別を更新してよい。これにより、記憶部202に格納された対処種別の精度が高まり、対処種別の推定精度を高めることができる。
図5は、事例DBの構成図である。
事例DB204のデータテーブル500には、過去に発生した障害の情報が格納されている。事例DB204のデータテーブル500には、項目値(カラム値)として、F1ログの種類501~F9サービス起動状態510と、C実行した対処種別511と、を含んでよい。
ログの種類501は、イベントログの種類を示す列である。レベル502は、イベントのレベルを示す列である。イベントID503は、イベントを一意に識別するIDを示す列である。ソース504は、イベントの発生元のプロセスを示す列である。エラーコード505は、エラーコードを示す列である。変数506は、詳細な区別をするための変数を示す列である。発生システム507は、発生システムの種類を示す列である。CPU状態508は、CPUの使用状況を表す列である。メモリ状態509は、メモリ使用状況を表す列である。サービス起動状態510は、サービスの起動状態を表す列である。実行した対処種別511は、OSイベントに対し過去に実行した対処種別512の列である。
一例として、事例DB204のデータテーブル500の1行目を説明する。1行目は、受信したログの種類501が「OS(アプリケーション)」に関するものである。そのときに発生していたイベントのレベル502は「警告」、そのイベントID503が「0x000A」、ソース504が「XXX.exe」、エラーコード505が「32」、変数506が「10」、発生システム507が「A」、CPU状態508が「80%未満」、メモリ状態509が「80%未満」、サービス起動状態510が「ON」であり、このイベントに対し「実機対処(C1)」の対処種別511が実行されたことを意味している。
なお、F1ログの種類501~F9サービス起動状態510は、エラーを検出したときに監視サーバ103が取得する情報である。対処種別推定システム100が取得できる情報に応じて項目は変更されてもよい。
図6は、対処種別推定機能に入力される入力データの構成図である。
データテーブル600には、障害が発生したときに監視サーバ103が取得したF1ログの種類601~F9サービス起動状態610が格納されている。F1ログの種類601~F9サービス起動状態610は、これらの項目値601~610を用いて事例データからスコアを算出するため、事例DB204のデータデータテーブル500のF1ログの種類501~F9サービス起動状態510と同じ項目である。
図7は、故障メッセージマスタの構成図である。
故障メッセージマスタのデータテーブル700は、監視対象システム204のハードウェアが故障したときのイベントIDの一覧が格納されている。故障メッセージマスタのデータテーブル700には、項目値(カラム値)として、ログの種類701と、イベントID702と、連絡先703と、障害内容704と、を含んでよい。ログの種類701は、イベントログが発生した出力機種の情報を示す列である。イベントID702は、発生したイベントのIDを示す列である。連絡先703は、保守員の上位者に報告する連絡先を示す列である。障害内容704は、障害内容を示す列である。
一例として、データテーブル701の1行目を説明する。1行目は、発生したログの種類701が「Server」で、イベントID702が「0x000D」、連絡先703がA社で、障害内容704が「マザーボード故障」であることを示している。
監視対象システム204のハードウェアの故障は、明確なメッセージIDで通知されることが多く、ベンダに保守交換の依頼する対処種別に限られる。このため、対処種別推定サーバ102は、対処種別を推定する前に、本データテーブルを用いてS403を実行する。
ここで、スコアの算出手法について説明する。スコアの算出は、例えば、代表的な確率モデルである、以下の数1~3を用いたナイーブベイズ分類機を採用してよい。
Figure 2022045833000002
Figure 2022045833000003
Figure 2022045833000004
ここで、C~Cは対処種別(例えば、Cは実機対処、Cは対処不要、Cはエスカレーション)、F~Fは入力データの各要素の値を表す。
それぞれの対処種別に応じて、入力データの各要素の値が事例データの中で発生している確率の総乗を求めることで、その対処種別のスコアを算出する。スコアが高い程、その対処種別が正解である確率が高いことを表す。このため、全ての対処種別の中で、最も高いスコアの対処種別を選定することによって、対処種別を推定できる。
尚、対処種別の推定手法は、ナイーブベイズ分類機に限定されない。対処種別の推定手法は、あらゆる機械学習手法、または統計手法でもよい。
100…、101…保守員端末、102…対処推定サーバ、103…監視サーバ、104…監視対象システム、202…記憶部

Claims (11)

  1. 監視対象システムで発生した障害に関する障害メッセージを送信する監視サーバと、
    前記監視サーバから受信した前記障害メッセージに応じた対処種別を、複数の前記障害メッセージ毎に前記対処種別を格納した記憶部から機械学習手法を用いて推定する対処種別推定サーバと、
    を備える対処種別推定システム。
  2. 前記対処種別推定サーバは、前記監視サーバから受信した前記障害メッセージのスコアを前記複数の対処種別毎に算出し、算出した前記スコアが最も高い対処種別を前記複数の対処種別から選定する、
    請求項1に記載の対処種別推定システム。
  3. 前記障害メッセージには、識別情報が含まれており、
    前記対処種別推定サーバは、前記監視サーバから受信した前記障害メッセージの識別情報が前記記憶部に格納された前記複数の障害メッセージのうちの何れかの障害メッセージの識別情報と一致する場合、
    前記対処種別推定サーバは、前記対処種別を推定する前に、前記識別情報が一致した対処種別を前記対処種別として選定する
    請求項1に記載の対処種別推定システム。
  4. 前記対処種別には、保守員の上位者に報告するエスカレーションが含まれており、
    前記対処種別推定サーバは、前記スコアが閾値未満の場合、前記エスカレーションを前記対処種別として選択する。
    請求項2に記載の対処種別推定システム。
  5. 前記対処種別推定サーバは、実行した前記対処種別の対処結果に基づいて前記閾値を更新する、
    請求項4に記載の対処種別推定システム。
  6. 前記対処種別推定サーバが選定した前記対処種別を受信し、受信した前記対処種別を保守員に表示する表示端末を更に備える、
    請求項1に記載の対処種別推定システム。
  7. 前記対処種別には、前記保守員による対応が必要な実機対処が含まれており、
    前記対処種別推定サーバは、推定した前記対処種別が前記実機対処であり、且つ前記スコアが前記閾値以上である場合、推定した前記対処種別を前記表示端末に送信する、
    請求項4に記載の対処種別推定システム。
  8. 前記対処種別には、前記保守員による対応が不要な対処不要が含まれており、
    前記対処種別推定サーバは、推定した前記対処種別が前記対処不要であり、且つ前記スコアが前記閾値以上である場合、前記対処不要である旨を前記表示端末に送信する、
    請求項4に記載の対処種別推定システム。
  9. 前記対処種別推定サーバは、新たに実行した前記対処種別の対処結果に基づいて前記記憶部に格納された前記対処種別を更新する、
    請求項1に記載の対処種別推定システム。
  10. 監視対象システムで発生した障害に関する障害メッセージを送信し、
    受信した前記障害メッセージのスコアを、複数の前記障害メッセージ毎に記憶部に格納された対処種別毎に算出し、算出した前記スコアが最も高い対処種別を前記記憶部から選定する対処種別推定方法。
  11. 監視サーバと、監視対象システムで発生した障害に関する複数の障害メッセージ毎に対応種別を格納する記憶部を有する対処種別推定サーバとを備える対処種別推定システムのプログラムであって、
    前記監視サーバに、前記障害メッセージを送信する送信ステップを実行させ、
    前記対処種別推定サーバに、受信した前記障害メッセージのスコアを複数の前記対処種別毎に算出し、算出した前記スコアが最も高い対処種別を前記記憶部から選定する選定ステップを実行させる対処種別推定システムのプログラム。

JP2020151656A 2020-09-09 2020-09-09 対処種別推定システム、方法、及びプログラム Pending JP2022045833A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020151656A JP2022045833A (ja) 2020-09-09 2020-09-09 対処種別推定システム、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020151656A JP2022045833A (ja) 2020-09-09 2020-09-09 対処種別推定システム、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2022045833A true JP2022045833A (ja) 2022-03-22

Family

ID=80774311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020151656A Pending JP2022045833A (ja) 2020-09-09 2020-09-09 対処種別推定システム、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2022045833A (ja)

Similar Documents

Publication Publication Date Title
JP4667412B2 (ja) 電子機器集中管理プログラム、電子機器集中管理装置および電子機器集中管理方法
US7756971B2 (en) Method and system for managing programs in data-processing system
US20090157455A1 (en) Instruction system and method for equipment problem solving
CN1954310A (zh) 用于网络报警类选的方法和装置
EP3926891B1 (en) Intelligent network operation platform for network fault mitigation
US9092958B2 (en) Alarm processing systems and methods
CN111897671A (zh) 故障恢复方法、计算机设备及存储介质
CN113328872A (zh) 故障修复方法、装置和存储介质
CN101567807A (zh) 基于知识的故障恢复支持系统
CN113537268A (zh) 一种故障检测方法、装置、计算机设备及存储介质
CN111510325B (zh) 报警信息推送方法、服务器、客户端及系统
CN113434327A (zh) 一种故障处理系统、方法、设备和存储介质
CN111565135A (zh) 监控服务器运行的方法、监控服务器和存储介质
CN112764956A (zh) 数据库的异常处理系统、数据库的异常处理方法及装置
CN113592337A (zh) 故障处理方法、装置、电子设备及存储介质
CN113656252A (zh) 故障定位方法、装置、电子设备以及存储介质
KR20190104759A (ko) 지능형 장비 이상 증상 사전 탐지 시스템 및 방법
US8677323B2 (en) Recording medium storing monitoring program, monitoring method, and monitoring system
JP2022045833A (ja) 対処種別推定システム、方法、及びプログラム
CN112966056B (zh) 一种信息处理方法、装置、设备、系统及可读存储介质
US20220130227A1 (en) Alarm control device and alarm control method
JP2007264907A (ja) 障害通報システム、障害通報方法及び障害通報プログラム
US20220334914A1 (en) Anomaly coping support apparatus, method, and program
CN111813872A (zh) 一种故障排查模型的生成方法、装置、设备
JP2015032068A (ja) 情報処理画面出力装置、情報処理画面出力プログラム、および情報処理画面出力システム