JP2021179830A - 監視システム、監視装置及び監視方法 - Google Patents

監視システム、監視装置及び監視方法 Download PDF

Info

Publication number
JP2021179830A
JP2021179830A JP2020085162A JP2020085162A JP2021179830A JP 2021179830 A JP2021179830 A JP 2021179830A JP 2020085162 A JP2020085162 A JP 2020085162A JP 2020085162 A JP2020085162 A JP 2020085162A JP 2021179830 A JP2021179830 A JP 2021179830A
Authority
JP
Japan
Prior art keywords
events
group
event
unit
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020085162A
Other languages
English (en)
Other versions
JP7012778B2 (ja
Inventor
あやめ 古賀
Ayame Koga
一紀 大坪
Kazunori Otsubo
安彰 齋藤
Yasuaki Saito
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020085162A priority Critical patent/JP7012778B2/ja
Priority to US17/207,264 priority patent/US20210357301A1/en
Publication of JP2021179830A publication Critical patent/JP2021179830A/ja
Application granted granted Critical
Publication of JP7012778B2 publication Critical patent/JP7012778B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】監視対象システムにおける障害発生時の状況把握、及び対処の迅速化できる監視システムを提供する。【解決手段】監視システム10は、ネットワークを介して監視対象システム20に接続され、表示部31、通知部32、優先度算出部33、イベント分析部34、対処履歴管理部35、構成管理部36、イベント管理部37を有する。イベント管理部は、監視対象システムで発生した複数のイベントを管理する。イベント分析部は、監視対象システムの構成、複数のイベントの発生タイミング及び過去に行った対処の実績に基づいて複数のイベントを分析し、関連して発生したイベントを同一のグループに分類する。通知部は、複数のイベントをグループ毎に通知する。【選択図】図1

Description

本発明は、監視対象システムを監視する監視システム、監視装置及び監視方法に関する。
従来、業務を支援するシステムとして、例えば特開2007‐213294号公報(特許文献1)に開示の技術がある。この公報には、「生産計画を立案する際に、生産職場に対して、各職場で生産能力が固定の期間、職場間で作業者の融通が可能な期間、人員の新規採用で生産能力を考慮しなくてよい期間を考慮しながら、生産能力を調整しながら実行可能な生産計画を作成する。」という記載がある。このように、様々な業務の自動化・最適化やスマート化、またそれを支えるインフラ機器の仮想化技術の発展に伴い、ITシステムは大規模・複雑化している。
特開2007‐213294号公報
上記特許文献1によれば、生産計画を立案する際に作業者の職場配置を考慮しながら実行可能な生産計画の立案を可能にすることができる。このようなシステムでは、システムの構成要素、例えばサーバやストレージで障害等が発生した場合に、異常を通知するイベントが生成される。
しかしながら、大規模なシステムでは、多くの構成要素が複雑に関係することになるため、複数のイベントが発生した場合に、障害箇所の把握やイベント間の関連の把握が困難となり、迅速な対処が難しくなるという課題があった。
そこで、本発明では、監視対象システムにおける障害発生時の状況把握、及び対処の迅速化を目的とする。
上記目的を達成するために、代表的な本発明の監視システム及び監視装置の一つは、監視対象システムで発生した複数のイベントを管理するイベント管理部と、前記監視対象システムの構成、前記複数のイベントの発生タイミング、及び過去に行った対処の実績に基づいて前記複数のイベントを分析し、関連して発生したイベントを同一のグループに分類するイベント分析部と、前記複数のイベントを前記グループごとに通知する通知部とを備える。
また、代表的な本発明の監視方法の一つは、監視対象システムで発生した複数のイベントを管理するイベント管理ステップと、前記監視対象システムの構成、前記複数のイベントの発生タイミング、及び過去に行った対処の実績に基づいて前記複数のイベントを分析し、関連して発生したイベントを同一のグループに分類するイベント分析ステップと、前記複数のイベントを前記グループごとに通知する通知ステップとを含む。
本発明によれば、監視対象システムにおける障害発生時の状況把握、及び対処の迅速化が実現できる。
上記した以外の課題、構成及び効果は以下の実施の形態の説明により明らかにされる。
実施例に係る監視システムの構成図。 監視対象システムの構成を示す構成図。 監視システムのデータの具体例を示す図。(その1) 監視システムのデータの具体例を示す図。(その2) 監視システムのデータの具体例を示す図。(その3) 監視システムのデータの具体例を示す図。(その4) 監視システムの処理手順を示すフローチャート。 図7に示したイベントのグルーピング処理の詳細を示すフローチャート。 図8に示した時間的距離の算出の詳細を示すフローチャート。 図8に示した対処履歴からの距離の算出の詳細を示すフローチャート。 図8に示した最終的な距離の算出とグルーピングの詳細を示すフローチャート。 図7に示した優先度の算出の詳細を示すフローチャート。 図12に示したファクターの値の算出の詳細を示すフローチャート。 図12に示した優先度の決定の詳細を示すフローチャート。 図7に示した表示出力の詳細を示すフローチャート。 表示の具体例についての説明図。 図7に示したパラメータ調整の詳細を示すフローチャート。
以下、本発明の実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。
以下の説明において、「xxxテーブル」といった表現により、入力に対して出力が得られる情報を説明することがあるが、この情報は、どのような構造のデータでもよい。従って、「xxxテーブル」を「xxx情報」と言うことができる。
また、以下の説明において、各テーブルの構成は一例であり、1つのテーブルは、2以上のテーブルに分割されてもよいし、2以上のテーブルの全部又は一部が1つのテーブルであってもよい。
また、以下の説明において、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサ部によって実行されることで、定められた処理を、適宜に記憶部及び/又はインタフェース部などを用いながら行うため、処理の主語が、プロセッサ部(或いは、そのプロセッサ部を有するコントローラのようなデバイス)とされてもよい。
プログラムは、計算機のような装置にインストールされてもよいし、例えば、プログラム配布サーバ又は計算機が読み取り可能な(例えば非一時的な)記録媒体にあってもよい。また、以下の説明において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
また、「プロセッサ部」は、1又は複数のプロセッサである。プロセッサは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサであるが、GPU(Graphics Processing Unit)のような他種のプロセッサでもよい。また、プロセッサは、シングルコアでもよいしマルチコアでもよい。また、プロセッサは、処理の一部又は全部を行うハードウェア回路(例えばFPGA(Field-Programmable Gate Array)又はASIC(Application Specific Integrated Circuit))といった広義のプロセッサでもよい。
また、以下の説明において、種々の対象の識別情報として、識別番号が使用されるが、識別番号以外の種類の識別情報(例えば、英字や符号を含んだ識別子)が採用されてもよい。
また、以下の説明において、同種の要素を区別しないで説明する場合には、参照符号(又は、参照符号のうちの共通符号)を使用し、同種の要素を区別して説明する場合は、要素の識別番号(又は参照符号)を使用することがある。
図1は、実施例に係る監視システムの構成図である。図1に示すように、監視システム10は、ネットワークを介して監視対象システム20に接続される。また、監視システム10は、その内部に表示部31、通知部32、優先度算出部33、イベント分析部34、対処履歴管理部35、構成管理部36、イベント管理部37を有する。さらに監視システム10は、構成情報DB(database)41、分析パラメータDB42、対処履歴DB43、人財管理DB44及びイベントDB45を有する。
構成情報DB41は、監視対象システム20の構成に関する情報を保持するデータベースである。分析パラメータDB42は、監視対象システム20で発生したイベントを分析する際に用いる各種パラメータを保持するデータベースである。対処履歴DB43は、監視対象システム20に生じたイベントの対処の履歴を保持するデータベースである。人財管理DB44は、監視システム10の操作者を含む人財に関する情報を保持するデータベースである。イベントDB45は、監視対象システム20で発生したイベントを保持するデータベースである。
表示部31は、例えば液晶パネルなどであり、操作者に対する表示出力に用いられる。通知部32は、表示部31における表示画面を生成することで、操作者に対する通知の内容を制御する処理部である。優先度算出部33は、イベントをグループ分けして通知する際に、グループごとの通知の優先度を算出する処理部である。
イベント分析部34は、イベントを分析してグループ分けを行う処理部である。対処履歴管理部35は、過去に行った対処の実績を対処履歴DB43に登録して管理する。構成管理部36は、監視対象システム20の構成を構成情報DB41に登録して管理する。イベント管理部37は、監視対象システム20で発生した複数のイベントをイベントDB45に登録して管理する。
イベント分析部34は、具体的には、監視対象システム20の構成、複数のイベントの発生タイミング、及び過去に行った対処の実績に基づいて複数のイベントを分析し、関連して発生したイベントを同一のグループに分類する。監視対象システム20は、複数のサービスをそれぞれ提供する複数のサービスシステムを含み、イベント分析部34は、異なるサービスシステムにまたがって発生した複数のイベントを同一のグループに分類可能である。
また、イベント分析部34、所定の条件を満たす操作者による操作に基づいて、グループへの分類に係るパラメータを調整し、分析パラメータDB42に登録することで、以降の分析に反映する。
優先度算出部33は、同一のグループに分類されたイベントの重大度、関連する機器の数、システムの重要度、対処の所要時間に基づいて、グループの優先度を算出する。
通知部32は、複数のイベントをグループごとに通知する。また、グループとともに優先度の通知を行う。通知の一例を挙げれば、監視対象システム20の構成をツリー構造として表示し、グループに分類されたイベントを含むツリー最上位のノードに対応付けて当該グループを表示する表示画面を生成する。
図2は、監視対象システム20の構成を示す構成図である。図2に示すように、監視対象システム20は、サービスシステムとして生産計画立案システム61、生産管理日次集計処理71、受発注管理システム81を有する。
生産計画立案システム61は、AIサーバ62及びストレージボリューム63を構成要素として有する。生産管理日次集計処理71は、生産管理DBサーバ72及びストレージボリューム73を構成要素として有する。受発注管理システム81は、受発注DBサーバ82及びストレージボリューム83を構成要素として有する。
さらに、生産計画立案システム61は、生産管理DBサーバ72にアクセスして生産管理日次集計処理71のデータを利用することができる。同様に、受発注管理システム81は、生産管理DBサーバ72にアクセスして生産管理日次集計処理71のデータを利用することができる。
また、図2では、監視対象システム20で発生する障害の具体例を示している。まず、生産計画立案システム61が過大な演算を実施すると(A1)、生産管理日次集計処理71の構成要素であるストレージボリューム73のI/O負荷が増大し(A2)、生産管理DB72のレスポンスが低下する(A3)。その結果、生産管理日次集計処理71のバッチ処理遅延が生じている(A4)。
さらに、図2では、生産計画立案システム61の過大な演算(A1)に起因する一連の障害(A2〜A4)とは独立した障害として、受発注DBサーバ82のCPUリソース不足(B1)が生じ、受発注管理市システム(B2)が引き起こされた状態を示している。
図3〜図6は、監視システム10のデータの具体例を示す図である。図3のイベントテーブルは、イベントDB45に格納されるテーブルである。イベントテーブルは、イベントに対して発生時刻順に付与された識別番号であるID、発生時刻である時間、イベントの深刻さを示す重大度、イベントがどの構成要素で発生したかを示す発生元、イベントの内容を示すメッセージなどを項目として有する。
図3のグルーピングパラメータテーブルは、分析パラメータDB42に格納されるテーブルである。グルーピングパラメータテーブルは、時間的な距離に対する係数、構成的な距離に対する係数、対処履歴からの距離に対する係数、グルーピングの係数を項目として有する。
図3の優先度パラメータテーブルは、分析パラメータDB42に格納されるテーブルである。優先度パラメータテーブルは、グループの重大度に対する係数、関連する機器の数に対する係数、システムの重要度に対する係数、対処の所要時間に対する係数を項目として有する。
対処履歴テーブルは、対処履歴DB43に格納されるテーブルである。対処履歴テーブルは、対処を行った日付、対処時の参照順序、対処に要した時間の項目を有する。対処時の参照順序は、イベントの対処に当たった識者が、どの順序でイベントの情報を参照したかを示すものである。参照したイベントは、その種類を識別可能な識別情報(E1〜E5)によって示す。識者とは、例えば所定以上のスキルを有する熟練の操作者である。
図4に示す構成情報テーブルは、構成情報DB41に格納されるテーブルである。構成情報テーブルは、ID、構成要素、重要度、関連の項目を有する。構成情報テーブルのIDは、監視対象システム20における構成要素を一意に識別する情報である。項目「構成要素」は、その構成要素の名称などである。重要度は、監視対象システムにおいてどれだけ重要な構成要素であるかを示す。項目「関連」には、その構成要素と直接接続された他の構成要素が列挙されている。
図4に示す人財管理テーブルは、人財管理DB44に格納されたテーブルである。人財管理テーブルは、ID、氏名、スキル評価の項目を有する。IDは、人財管理テーブルに登録された操作者などの人財を一意に特定する識別情報である。氏名は、登録された操作者などの人材の氏名を示す。スキル評価は、操作者としてのスキルの評価であり、「一般」であるか「識者」に該当するかを示す。
図5に示す距離テーブルは、複数のイベントの関係を評価した結果を示すテーブルである。評価の結果は「最終的な距離」として示される。例えば、「ID1」のイベントは、「ID2」のイベントとの距離が「5.39」、「ID3」のイベントとの距離が「0.64」、「ID4」のイベントとの距離が「0.99」、「ID5」のイベントとの距離が「6.03」である。
図5に示す優先度テーブルは、グループについて求めた、重大度、関連機器数、重要度、対処所要時間、スコア、優先度を示すデータである。
図6に示すイベントグループテーブルは、グループ分けの結果を示すテーブルである。図6では、グループG1に「ID1」、「ID3」、「ID4」のイベントが分類され、グループG2に「ID2」、「ID5」のイベントが分類されている。
図7は、監視システム10の処理手順を示すフローチャートである。まず、監視システム10のイベント分析部34が、イベントのグルーピングを実行し(ステップS101)、優先度算出部33がグループの優先度を算出する(ステップS102)。そして、通知部32が、監視対象システム20の構成ツリーにグループをマッピングして、表示部31に表示出力させる(ステップS103)。
イベント分析部34は、操作者が識者であるならば(ステップS104;Yes)、識者による操作を取得し、識者の知見を踏まえたパラメータ調整を行って(ステップS105)、処理を終了する。識者でなければ(ステップS104;No)、そのまま処理を終了する。
図8は、図7に示したイベントのグルーピング処理(S101)の詳細を示すフローチャートである。イベントのグルーピング処理が開始されると、イベント分析部34は、時間的距離の算出(ステップS201)、構成的な距離の算出(ステップS202)、対処履歴からの距離の算出(ステップS203)を順次実行し、最終的な距離の算出を行う(ステップS204)。そして、最終的な距離に基づいてイベントのグルーピングを行って(ステップS205)、元の処理に戻る。
図9は、図8に示した時間的距離の算出(S201)の詳細を示すフローチャートである。時間的距離の算出を開始すると、まず、イベント分析部34は、イベントテーブルよりイベント情報を参照する(ステップS301)。
ステップS302〜ステップS307は、ループ処理である。イベント分析部34は、変数iを用いてステップS302〜ステップS307をイベントの数だけ繰り返す。
同様に、ステップS303〜ステップS306は、ループ処理である。イベント分析部34は、変数jを用いてステップS303〜ステップS306をイベントの数だけ繰り返す。
ステップS304において、イベント分析部34は、次式によりイベントiとイベントjの時間的距離を求める。
時間的距離=絶対値(イベントiの時刻−イベントjの時刻)
ステップS305において、イベント分析部34は、算出した時間的距離を距離テーブルに格納する。
ステップS302〜ステップS307のループ処理が終了した後、イベント分析部34は、時間的距離の算出を終了し、元の処理に戻る。
図10は、図8に示した対処履歴からの距離の算出(S202)の詳細を示すフローチャートである。対処履歴からの距離の算出を開始すると、まず、イベント分析部34は、イベントテーブルよりイベント情報を参照する(ステップS401)。
ステップS402〜ステップS409は、ループ処理である。イベント分析部34は、変数iを用いてステップS402〜ステップS409をイベントの数だけ繰り返す。
ステップS403において、イベント分析部34は、対処履歴DB43よりイベントiを含む対処履歴一覧を抽出する。
ステップS404〜ステップS408は、ループ処理である。イベント分析部34は、変数jを用いてステップS404〜ステップS408をイベントの数だけ繰り返す。
ステップS405において、イベント分析部34は、イベント参照順序を特定する。そして、ステップS406において、イベント参照順序から距離を算出する。具体的には、イベントiとイベントjの参照順序の差分の絶対値を求め、その平均値を距離として算出する。例えば、イベントiとイベントjが2つの対処履歴で参照され、一方の対処履歴で1番目と2番目、他方の対処履歴で5番目と3番目なら、
(|1−2|+|5−3|)/2=1.5
となる。
ステップS407において、イベント分析部34は、算出した対処履歴からの距離を距離テーブルに格納する。
ステップS402〜ステップS409のループ処理が終了した後、イベント分析部34は、対処履歴からの距離の算出を終了し、元の処理に戻る。
図11は、図8に示した最終的な距離の算出(S204)とグルーピング(S205)の詳細を示すフローチャートである。図11のステップS501〜ステップSS506が最終的な距離の算出(S204)の詳細であり、図11のステップS507〜ステップSS512がグルーピング(S205)の詳細である。
ステップS501〜ステップS506は、ループ処理である。イベント分析部34は、変数iを用いてステップS501〜ステップS506をイベントの数だけ繰り返す。
同様に、ステップS502〜ステップS505は、ループ処理である。イベント分析部34は、変数jを用いてステップS502〜ステップS505をイベントの数だけ繰り返す。
ステップS503において、イベント分析部34は、距離テーブルより、イベントi,j間の時間的距離、構成的距離、対処履歴からの距離を参照する。
ステップS504において、イベント分析部34は、時間的距離、構成的距離、対処履歴からの距離からイベントi,j間の最終的距離を出して、距離テーブルに格納する。最終的距離は、時間的距離、構成的距離、対処履歴に対し、グルーピングパラメータテーブルに示された係数をかけて合計することで求める。
ステップS501〜ステップS506のループ処理が終了した後、イベント分析部34は、ステップS507〜ステップS512のループ処理を開始する。イベント分析部34は、変数iを用いてステップS507〜ステップS512をイベントの数だけ繰り返す。
同様に、ステップS508〜ステップS511は、ループ処理である。イベント分析部34は、変数jを用いてステップS508〜ステップS511をイベントの数だけ繰り返す。
ステップS509において、イベント分析部34は、最終的距離がグルーピングパラメータテーブルに示された閾値(例えば5)以下であるか否かを判定する。判定の結果、閾値以下であれば(ステップS509;Yes)、ステップS510に移行し、閾値を超えていれば(ステップS509;No)、ステップS511に移行する。
ステップS510において、イベント分析部34は、イベントi,jをイベントグループテーブルに登録し、ステップS511に移行する。
ステップS507〜ステップS512のループ処理が終了した後、イベント分析部34は、処理を終了する。
図12は、図7に示した優先度の算出(ステップS102)の詳細を示すフローチャートである。優先度算出部33は、優先度の算出を開始すると、まず、各ファクター(変数)の値を算出する(ステップS601)。このファクターは、具体的には、グループの重大度、関連機器数、重要度、対処所要時間である。
優先度算出部33は、学習モデルにより求めた係数を各ファクターに乗算して合計することで優先度を決定し(ステップS602)、処理を終了する。係数は、例えば、ニューラルネットワークやロジスティック回帰モデルを用いて機械学習により予め求められ、優先度パラメータテーブルとして分析パラメータDB42に格納されている。
図13は、図12に示したファクターの値の算出(S601)の詳細を示すフローチャートである。優先度算出部33は、まず、イベントグループテーブルよりイベントグループ情報を取得する(ステップS701)。
ステップS702〜ステップS707は、ループ処理である。優先度算出部33は、変数iを用いてステップS702〜ステップS707をイベントグループの数だけ繰り返す。
ステップS703において、優先度算出部33は、イベントグループに属するイベントの重大度を取得し、その最大値を「グループの重大度」として優先度テーブルに格納する。
ステップS704において、優先度算出部33は、構成情報テーブルより各イベントの発生元の構成要素の関連機器数を取得、最大の関連機器数を「グループの関連機器数」として優先度テーブルに格納する。
ステップS705において、優先度算出部33は、構成情報テーブルより各イベントの発生元の構成要素の重要度を取得、最も高い重要度を「グループの重要度」として優先度テーブルに格納する。
ステップS706において、優先度算出部33は、対処履歴DB43から関連イベントが50%以上一致する対処履歴を抽出し、対処所要時間の平均を「対処所要時間」として優先度テーブルに格納する。
ステップS702〜ステップS707のループ処理が終了した後、優先度算出部33は、処理を終了する。
図14は、図12に示した優先度の決定(S602)の詳細を示すフローチャートである。優先度算出部33は、まず、イベントグループテーブルよりイベントグループ情報を取得する(ステップS801)。
ステップS802〜ステップS806は、ループ処理である。優先度算出部33は、変数iを用いてステップS802〜ステップS806をイベントグループの数だけ繰り返す。
ステップS803において、優先度算出部33は、優先度テーブルよりイベントグループiのファクター(重大度、関連機器数 、重要度、対処所要時間)を取得する。
ステップS804において、優先度算出部33は、優先度パラメータテーブルより係数を取得する。
ステップS805において、優先度算出部33は、ファクターと係数からスコアを算出し、優先度テーブルに格納する。
ステップS802〜ステップS806のループ処理が終了した後、優先度算出部33は、優先度テーブルのスコアをソートして優先度を決定し、優先度テーブルに格納して(ステップS807)、処理を終了する。
図15は、図7に示した表示出力(ステップS103)の詳細を示すフローチャートである。通知部32は、まず、構成情報テーブルより全ての構成要素を取得する(ステップS901)。通知部32は、取得した構成要素の接続関係からツリーを生成する(ステップS902)。
通知部32は、優先度テーブルを参照し、生成したツリーにグループと優先度をマッピングすることで、優先度付きツリーを生成する(ステップS903)。具体的には、グループに分類されたイベントをすべて含むノードに対応付けてマッピングする。通知部32は、グループと優先度をマッピングしたツリーを表示部31に表示させ(ステップS904)、処理を終了する。
図16は、表示の具体例についての説明図である。図16では、生産管理日次集計処理のノードにグループG1がマッピングされている。このグループG1には、イベントID1,ID3,ID4が含まれ、優先度は1である。同様に、受発注管理システムのノードにグループG2がマッピングされている。このグループG2には、イベントID2,ID5が含まれ、優先度は2である。
図17は、図7に示したパラメータ調整(S105)の詳細を示すフローチャートである。イベント分析部34は、識者がグルーピングの判断の根拠として用いた画面における最終のソート状況を取得する(ステップS1001)。イベント分析部34は、識者が最後にソートしたフィールドのグルーピングパラメータの係数を10%増やしてグルーピングパラメータテーブルを更新する(ステップS1002)。
同様に、優先度算出部33は、識者が優先度の判断の根拠として用いた画面における最終のソート状況を取得する(ステップS1003)。優先度算出部33は、識者が最後にソートしたフィールドのグルーピングパラメータの係数を10%増やしてグルーピングパラメータテーブルを更新する(ステップS1002)。
監視システム10がグルーピング及び優先度の判定結果を出力した後、識者が最終的な距離やスコア以外のパラメータでソートを行ったとすれば、識者は監視システム10の判定結果とは異なる判断を行ったと推定できる。そして、この場合には識者がソートしたパラメータは、識者の判断の根拠として用いたものと考えられる。そこで、識者がソートしたパラメータの重みを上げることで、以降の監視システム10による判定は、より識者の判断に近づくと期待できるのである。なお、識者が最終的な距離やスコアでソートした場合には、監視システム10の判定の詳細を確認し、判定結果が妥当と考えたと推定できるので、パラメータの更新を行う必要はない。
上述してきたように、本実施例に係る監視システム10は、監視対象システム20で発生した複数のイベントを管理するイベント管理部37と、監視対象システム20の構成、複数のイベントの発生タイミング、及び過去に行った対処の実績に基づいて複数のイベントを分析し、関連して発生したイベントを同一のグループに分類するイベント分析部34と、複数のイベントをグループごとに通知する通知部32とを備える。かかる構成及び動作により、監視対象システム20における障害発生時の状況把握、及び対処の迅速化が実現できる。例えば、複数障害が同時に発生した場合であっても、迅速に対処することが可能となる。
また、本実施例に係る監視システム10は、各グループについて、該グループに分類されたイベントの重大度、関連する機器の数、システムの重要度、対処の所要時間に基づいて、グループの優先度を算出する優先度算出部33をさらに備える。また、本実施例に係る監視システム10では、通知部32は、監視対象システムの構成をツリー構造として表示し、グループに分類されたイベントを含むツリー最上位のノードに対応付けて当該グループを表示する。このため、操作者は、どのイベントから対処すべきであるかを適切に判断することができる。
また、本実施例に係る監視システム10において、イベント分析部34は、所定の条件を満たす操作者による操作に基づいて、グループへの分類に係るパラメータを調整する。このため、監視システム10による判定精度を徐々に向上することができる。
また、本実施例に係る監視システム10において、監視対象システム20は、複数のサービスをそれぞれ提供する複数のサービスシステムを含み、イベント分析部34は、異なるサービスシステムにまたがって発生した複数のイベントを同一のグループに分類可能である。このため、監視対象システムが大規模で複雑な構成であっても、障害発生時の状況把握、及び対処の迅速化が実現できる。
なお、本発明は上述の実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、かかる構成の削除に限らず、構成の置き換えや追加も可能である。
例えば、上述の実施例では、監視対象システムの構成に基づく距離の算出について詳細な説明を省略したが、構成要素間のホップ数を距離とするなど、任意の方法で構成に基づく距離を算出することができる。
また、上述の実施例では、過去の対処実績から距離を求めることで、イベントの内容に基づく評価を行っているが、イベントの種別間の距離を事前に定義して用いてもよい。
また、上述の実施例に開示した監視対象システムはあくまでも一例であり、任意のシステムを監視対象システムとして実施可能である。
10:監視システム、20:監視対象システム、31:表示部、32:通知部、33:優先度算出部、34:イベント分析部、35:対処履歴管理部、36:構成管理部、37:イベント管理部、41:構成情報DB、42:分析パラメータDB、43:対処履歴DB、44:人財管理DB、45:イベントDB

Claims (7)

  1. 監視対象システムで発生した複数のイベントを管理するイベント管理部と、
    前記監視対象システムの構成、前記複数のイベントの発生タイミング、及び過去に行った対処の実績に基づいて前記複数のイベントを分析し、関連して発生したイベントを同一のグループに分類するイベント分析部と、
    前記複数のイベントを前記グループごとに通知する通知部と
    を備えたことを特徴とする監視システム。
  2. 前記グループについて、該グループに分類されたイベントの重大度、関連する機器の数、システムの重要度、対処の所要時間に基づいて、前記グループの優先度を算出する優先度算出部をさらに備え、
    前記通知部は、前記グループとともに前記優先度を通知する
    ことを特徴とする請求項1に記載の監視システム。
  3. 前記通知部は、前記監視対象システムの構成をツリー構造として表示し、前記グループに分類されたイベントを含むツリー最上位のノードに対応付けて当該グループを表示することを特徴とする請求項1に記載の監視システム。
  4. 前記イベント分析部は、所定の条件を満たす操作者による操作に基づいて、前記グループへの分類に係るパラメータを調整することを特徴とする請求項1に記載の監視システム。
  5. 前記監視対象システムは、複数のサービスをそれぞれ提供する複数のサービスシステムを含み、
    前記イベント分析部は、異なるサービスシステムにまたがって発生した複数のイベントを同一のグループに分類可能であることを特徴とする請求項1に記載の監視システム。
  6. 監視対象システムで発生した複数のイベントを管理するイベント管理部と、
    前記監視対象システムの構成、前記複数のイベントの発生タイミング、及び過去に行った対処の実績に基づいて前記複数のイベントを分析し、関連して発生したイベントを同一のグループに分類するイベント分析部と、
    前記複数のイベントを前記グループごとに通知する通知部と
    を備えたことを特徴とする監視装置。
  7. 監視対象システムで発生した複数のイベントを管理するイベント管理ステップと、
    前記監視対象システムの構成、前記複数のイベントの発生タイミング、及び過去に行った対処の実績に基づいて前記複数のイベントを分析し、関連して発生したイベントを同一のグループに分類するイベント分析ステップと、
    前記複数のイベントを前記グループごとに通知する通知ステップと
    を含むことを特徴とする監視方法。
JP2020085162A 2020-05-14 2020-05-14 監視システム、監視装置及び監視方法 Active JP7012778B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020085162A JP7012778B2 (ja) 2020-05-14 2020-05-14 監視システム、監視装置及び監視方法
US17/207,264 US20210357301A1 (en) 2020-05-14 2021-03-19 Monitoring system, monitoring apparatus, and monitoring method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020085162A JP7012778B2 (ja) 2020-05-14 2020-05-14 監視システム、監視装置及び監視方法

Publications (2)

Publication Number Publication Date
JP2021179830A true JP2021179830A (ja) 2021-11-18
JP7012778B2 JP7012778B2 (ja) 2022-01-28

Family

ID=78511577

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020085162A Active JP7012778B2 (ja) 2020-05-14 2020-05-14 監視システム、監視装置及び監視方法

Country Status (2)

Country Link
US (1) US20210357301A1 (ja)
JP (1) JP7012778B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336139B1 (en) * 1998-06-03 2002-01-01 International Business Machines Corporation System, method and computer program product for event correlation in a distributed computing environment
JP2012059063A (ja) * 2010-09-09 2012-03-22 Hitachi Ltd 計算機システムの管理方法、及び管理システム
JP2018160186A (ja) * 2017-03-23 2018-10-11 富士通株式会社 監視プログラム、監視方法および監視装置
US20200127604A1 (en) * 2018-10-17 2020-04-23 Solaredge Technologies Ltd. Photovoltaic System Failure and Alerting

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336139B1 (en) * 1998-06-03 2002-01-01 International Business Machines Corporation System, method and computer program product for event correlation in a distributed computing environment
JP2012059063A (ja) * 2010-09-09 2012-03-22 Hitachi Ltd 計算機システムの管理方法、及び管理システム
JP2018160186A (ja) * 2017-03-23 2018-10-11 富士通株式会社 監視プログラム、監視方法および監視装置
US20200127604A1 (en) * 2018-10-17 2020-04-23 Solaredge Technologies Ltd. Photovoltaic System Failure and Alerting

Also Published As

Publication number Publication date
US20210357301A1 (en) 2021-11-18
JP7012778B2 (ja) 2022-01-28

Similar Documents

Publication Publication Date Title
Wong et al. Integrated process planning and scheduling/rescheduling—an agent-based approach
EP3226134B1 (en) A method and system for scaling resources, and a computer program product
WO2013042789A1 (ja) 運用管理装置、運用管理方法、及びプログラム
CN110740061B (zh) 故障预警方法、装置及计算机存储介质
US10679178B2 (en) Big data sourcing simulator
US10699225B2 (en) Production management support apparatus, production management support method, and production management support program
CN111338913B (zh) 分析设备相关数据以生成和/或抑制设备相关警报
KR20200122687A (ko) 상품 판매량 예측 방법, 장치 및 시스템
US11042823B2 (en) Business management system
JP2018063598A (ja) 業務支援システム、および、業務支援方法
CN104616173B (zh) 预测用户流失的方法以及设备
JPWO2017134758A1 (ja) 管理計算機及び管理対象計算機の管理方法
US10313457B2 (en) Collaborative filtering in directed graph
US11086585B2 (en) Information processing device, information processing method and storage medium
Lei et al. Distinguishing between common cause variation and special cause variation in a manufacturing system: A simulation of decision making for different types of variation
JP7012778B2 (ja) 監視システム、監視装置及び監視方法
US9356848B2 (en) Monitoring apparatus, monitoring method, and non-transitory storage medium
JPWO2014188638A1 (ja) 共有リスクグループ管理システム、共有リスクグループ管理方法および共有リスクグループ管理プログラム
US10909177B1 (en) Percentile determination system
US11762562B2 (en) Performance analysis apparatus and performance analysis method
JP6275542B2 (ja) 分析装置およびコンピュータプログラム
JP6436644B2 (ja) 分析装置およびコンピュータプログラム
Vinod et al. Development and analysis of scheduling decision rules for a dynamic flexible job shop production system: a simulation study
US10552485B1 (en) Performance percentile determination and display
CN117579626B (zh) 基于分布式实现边缘计算下的优化方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220118

R150 Certificate of patent or registration of utility model

Ref document number: 7012778

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150