JP2021015321A - 手順特定装置、計算モデル生成装置、手順特定方法、手順特定プログラム、計算モデル生成方法、計算モデル生成プログラム、学習データ生成装置及び計算プログラム - Google Patents

手順特定装置、計算モデル生成装置、手順特定方法、手順特定プログラム、計算モデル生成方法、計算モデル生成プログラム、学習データ生成装置及び計算プログラム Download PDF

Info

Publication number
JP2021015321A
JP2021015321A JP2019128063A JP2019128063A JP2021015321A JP 2021015321 A JP2021015321 A JP 2021015321A JP 2019128063 A JP2019128063 A JP 2019128063A JP 2019128063 A JP2019128063 A JP 2019128063A JP 2021015321 A JP2021015321 A JP 2021015321A
Authority
JP
Japan
Prior art keywords
failure
procedure
metrics
relevance
calculation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019128063A
Other languages
English (en)
Inventor
遼 古谷
Ryo Furuya
遼 古谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2019128063A priority Critical patent/JP2021015321A/ja
Publication of JP2021015321A publication Critical patent/JP2021015321A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】障害の原因が曖昧な場合にも復旧手順を特定可能にする。【解決手段】関連度計算部113は、システムに障害が発生した場合におけるシステムのメトリクスと、障害を復旧させる復旧手順との関連度を計算する計算モデルにより、監視対象のシステムである対象システムに障害が発生した場合における対象システムのメトリクスと、複数の復旧手順それぞれとの間の関連度を計算する。手順特定部114は、計算された関連度に基づき、対象システムで発生した障害に対する復旧手順を特定する。【選択図】図1

Description

この発明は、システムに障害が発生した場合における復旧手順を特定する技術に関する。
監視対象のシステムである対象システムに障害が発生すると、対象システムを監視する監視システムから保守担当者に通知がされる。保守担当者は、通知内容に基づき障害原因を調査し、復旧手順を特定する。そして、保守担当者は、特定された復旧手順を実施して、対象システムを復旧させる。
復旧手順を特定する方法として、過去の障害とその障害に対する復旧手順とを対応付けてデータベースに記憶しておき、新たな障害が発生すると障害情報に基づきデータベースを検索して復旧手順を特定する方法がある(特許文献1参照)。
特開2001−34509号公報
データベースを検索して復旧手順を特定する方法は、エラーコードが判明している場合のような、障害の情報から復旧手順が一意に定まる場合には有効である。しかし、この方法は、CPUの使用率が90%を超えたといった、障害の原因が曖昧で復旧手順が複数考えられる場合には、復旧手順を特定することは困難であり、有効ではない。
この発明は、障害の原因が曖昧な場合にも復旧手順を特定可能にすることを目的とする。
この発明に係る手順特定装置は、
システムに障害が発生した場合における前記システムのメトリクスと、前記障害を復旧させる復旧手順との関連度を計算する計算モデルにより、監視対象のシステムである対象システムに障害が発生した場合における前記対象システムのメトリクスと、複数の復旧手順それぞれとの間の関連度を計算する関連度計算部と、
前記関連度計算部によって計算された前記関連度に基づき、前記対象システムで発生した前記障害に対する復旧手順を特定する手順特定部と
を備える。
この発明では、システムのメトリクスと復旧手順との間の関連度を計算する計算モデルを導出しておき、対象システムのメトリクスとの関連度に基づき復旧手順を特定する。これにより、障害の原因が曖昧な場合にも復旧手順を特定可能である。
実施の形態1に係る手順特定システム100の構成図。 実施の形態1に係る手順特定装置10の構成図。 実施の形態1に係る計算モデル生成装置20の構成図。 実施の形態1に係る計算モデル生成処理のフローチャート。 実施の形態1に係る障害記憶部231に記憶されるデータを示す図。 実施の形態1に係る学習データの生成方法の例を示す図。 実施の形態1に係る手順特定処理のフローチャート。 実施の形態1に係る手順特定装置10の動作の具体例を示す図。 実施の形態1に係る手順特定装置10の動作の具体例を示す図。 変形例1に係る学習データ生成装置51の構成図。 変形例1に係る計算モデル生成装置52の構成図。 変形例3に係る手順特定装置10の構成図。 変形例3に係る計算モデル生成装置20の構成図。 実施の形態2に係る手順特定装置10の構成図。 実施の形態2に係る手順特定装置10の動作の具体例を示す図。
実施の形態1.
***構成の説明***
図1を参照して、実施の形態1に係る手順特定システム100の構成を説明する。
手順特定システム100は、手順特定装置10と、計算モデル生成装置20とを備える。手順特定装置10と計算モデル生成装置20とは伝送路30を介して接続されている。
図2を参照して、実施の形態1に係る手順特定装置10の構成を説明する。
手順特定装置10は、コンピュータである。
手順特定装置10は、プロセッサ11と、メモリ12と、ストレージ13と、通信インタフェース14とのハードウェアを備える。プロセッサ11は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
手順特定装置10は、通信インタフェース14を介して、監視対象のシステムである対象システム40と接続されている。
手順特定装置10は、機能構成要素として、監視部111と、前処理部112と、関連度計算部113と、手順特定部114とを備える。前処理部112は、障害情報取得部115と、データ生成部116とを備える。手順特定装置10の各機能構成要素の機能はソフトウェアにより実現される。
ストレージ13には、手順特定装置10の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ11によりメモリ12に読み込まれ、プロセッサ11によって実行される。これにより、手順特定装置10の各機能構成要素の機能が実現される。
また、ストレージ13は、モデル記憶部131を実現する。
図3を参照して、実施の形態1に係る計算モデル生成装置20の構成を説明する。
計算モデル生成装置20は、コンピュータである。
計算モデル生成装置20は、プロセッサ21と、メモリ22と、ストレージ23と、通信インタフェース24とのハードウェアを備える。プロセッサ21は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
計算モデル生成装置20は、機能構成要素として、前処理部211と、学習部212とを備える。前処理部211は、障害情報取得部213と、データ生成部214とを備える。学習部212は、学習データ取得部215と、モデル生成部216とを備える。計算モデル生成装置20の各機能構成要素の機能はソフトウェアにより実現される。
ストレージ23には、計算モデル生成装置20の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ21によりメモリ22に読み込まれ、プロセッサ21によって実行される。これにより、計算モデル生成装置20の各機能構成要素の機能が実現される。
また、ストレージ23は、障害記憶部231と、学習データ記憶部232とを実現する。
プロセッサ11,21は、プロセッシングを行うIC(Integrated Circuit)である。プロセッサ11,21は、具体例としては、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)である。
メモリ12,22は、データを一時的に記憶する記憶装置である。メモリ12,22は、具体例としては、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)である。
ストレージ13,23は、データを保管する記憶装置である。ストレージ13,23は、具体例としては、HDD(Hard Disk Drive)である。また、ストレージ13,23は、SD(登録商標,Secure Digital)メモリカード、CF(CompactFlash,登録商標)、NANDフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスク、DVD(Digital Versatile Disk)といった可搬記録媒体であってもよい。
通信インタフェース14,24は、外部の装置と通信するためのインタフェースである。通信インタフェース14,24は、具体例としては、Ethernet(登録商標)、USB(Universal Serial Bus)、HDMI(登録商標,High−Definition Multimedia Interface)のポートである。
図2では、プロセッサ11は、1つだけ示されていた。しかし、プロセッサ11は、複数であってもよく、複数のプロセッサ11が、手順特定装置10の各機能を実現するプログラムを連携して実行してもよい。同様に、プロセッサ21は、複数であってもよく、複数のプロセッサ21が、計算モデル生成装置20の各機能を実現するプログラムを連携して実行してもよい。
***動作の説明***
図4から図9を参照して、実施の形態1に係る手順特定システム100の動作を説明する。
実施の形態1に係る手順特定装置10の動作は、手順特定装置10によって実行される手順特定処理と、計算モデル生成装置によって実行される計算モデル生成処理とを含む。
図4を参照して、実施の形態1に係る計算モデル生成処理を説明する。
また、実施の形態1に係る計算モデル生成処理の動作手順は、実施の形態1に係る計算モデル生成方法に相当する。また、実施の形態1に係る計算モデル生成処理を実現するプログラムは、実施の形態1に係る計算モデル生成プログラムに相当する。
計算モデル生成処理は、定期的に、あるいは、障害記憶部231にデータが一定数以上追加された場合に実行される。障害記憶部231には、システムに障害が発生し、システムが障害から復旧すると、その障害に関するデータが追加される。
(ステップS11:データ読出処理)
前処理部211の障害情報取得部213は、障害記憶部231に記憶された各レコードを読み出す。障害情報取得部213は、読み出された各レコードをメモリ22に書き込む。
図5に示すように、障害記憶部231には、過去に発生した障害に関して、障害ID(IDentifier)毎に、発生日時と、障害が発生したシステムの構成を示す構成情報と、障害が発生した時点におけるシステムのメトリクスと、復旧手順IDとが記憶されている。
発生日時は、障害が発生した日時を示す。構成情報は、システムのハードウェア構成とソフトウェア構成との少なくともいずれかを示す。図5では、構成情報は、システム名と、OS(Operating System)と、ソフトウェアとである。システム名は、障害が発生したシステムの名称を示す。OSは、障害が発生したシステムに導入されたOSを示す。ソフトウェアは、障害が発生したシステムで使用されているソフトウェアである。メトリクスは、システムに関する様々な情報を定量化する等して加工したデータである。図5では、メトリクスは、CPUの使用率と、メモリの使用率と、ディスクの使用率と、アラートとである。アラートは、障害が発生した際にOS又はソフトウェアから出力されたメッセージを示す。復旧手順IDは、復旧手順の識別子である。
(ステップS12:学習データ生成処理)
前処理部211のデータ生成部214は、ステップS11で読み出された各レコードを対象として、対象のレコードのデータを加工して学習データを生成する。データ生成部214は、生成された学習データを学習データ記憶部232に書き込む。
ここでのデータの加工は、機械学習の学習データを生成する際に行われる前処理を行うといった方法により、データを成形することを意味する。具体的には、ここでのデータの加工は、レコードのデータを数値化することを意味する。
具体例としては、図6に示すように、データ生成部214は、対象のレコードの発生日時と構成情報とについては該当するビットに1を設定し、該当しないビットに0を設定してビット列を生成する。また、データ生成部214は、メトリクスについては数値化する。そして、データ生成部214は、発生日時及び構成情報から生成されたビット列と、メトリクスから生成された数値とを連結したデータを、復旧手順IDと対応付けて学習データとする。
(ステップS13:計算モデル生成処理)
学習部212の学習データ取得部215は、システムに障害が発生した場合におけるそのシステムの構成情報及びそのシステムのメトリクスと、障害を復旧させた復旧手順との複数の組を学習データとして取得する。具体的には、学習データ取得部215は、学習データ記憶部232に蓄積された学習データを取得する。
そして、学習部212のモデル生成部216は、学習データ取得部215によって取得された学習データを入力として、構成情報及びメトリクスと復旧手順との間の関連度を計算する計算モデルを導出する。この際、学習部212は、線形モデルと機械学習といった手法を用いて計算モデルを導出する。学習部212は、導出された計算モデルをモデル記憶部131に書き込む。
具体例としては、モデル生成部216は、線形モデルを用いて、数1に示すような計算モデルを導出する。
Figure 2021015321
数1では、nは、復旧手順の数を示す。mは、学習データの要素数を示す。yは、復旧手順iの関連度を示す。aijは、要素jの復旧手順iに対する重みを示す。xは、要素jの値を示す。bは、復旧手順iの関連度に対する初期値を示す。
この場合には、モデル生成部216は、数2に示すように、各学習データについて、関連度yを1とし、要素の値x,...,xを学習データが示す値として、複数の式を生成する。
Figure 2021015321
そして、モデル生成部216は、複数の式を用いて、最小二乗法等により、i=1,...,n;j=1,...,mの各整数i,jについての重みaijと、i=1,...nの各整数iについての初期値bとを計算する。これにより、重みaijと、初期値bとが得られる。そのため、構成情報及びメトリクスが与えられ、要素の値xが特定されれば、関連度yを計算することが可能になる。
なお、初期値bは、計算されるのではなく、ユーザによって設定されてもよい。この場合には、初期値bは、優先的に採用したい復旧手順ほど大きな値が設定される。また、全ての初期値bを0にしてもよい。
図7を参照して、実施の形態1に係る手順特定処理を説明する。
実施の形態1に係る手順特定処理の動作手順は、実施の形態1に係る手順特定方法に相当する。また、実施の形態1に係る手順特定処理を実現するプログラムは、実施の形態1に係る手順特定プログラムに相当する。
手順特定処理は、対象システム40に障害が発生した場合に実行される。
(ステップS21:データ取得処理)
監視部111は、対象システム40の構成情報と、対象システム40に障害が発生した場合における対象システム40のメトリクスとを、対象システム40から取得する。なお、監視部111は、対象システム40の構成情報については、事前に取得しておいてもよい。監視部111は、対象システム40の構成情報及びメトリクスを設定したレコードを障害記憶部231に追加する。
(ステップS22:計算データ生成処理)
前処理部112の障害情報取得部115は、ステップS21で障害記憶部231に追加されたレコードのデータを読み出す。そして、前処理部112のデータ生成部116は、読み出されたデータを加工して計算データを生成する。データ生成部116は、生成された計算データをメモリ12に書き込む。
計算データを生成する方法は、図4のステップS12で学習データを生成する方法と同じである。但し、計算データには、復旧手順IDが含まれていない点が学習データと異なる。
(ステップS23:関連度計算処理)
関連度計算部113は、ステップS13で導出された計算モデルにより、監視対象のシステムである対象システム40に障害が発生した場合における対象システム40の構成情報及びメトリクスと、複数の復旧手順それぞれとの間の関連度を計算する。
具体的には、関連度計算部113は、モデル記憶部131から計算モデルを読み出す。関連度計算部113は、ステップS22で生成された計算データを入力として、読み出された計算モデルにより、各復旧手順についての関連度を計算する。数1に示す計算モデルがモデル記憶部131に記憶されている場合には、関連度計算部113は、計算データが示す要素の値xを計算モデルに代入することにより、関連度yを計算する。
(ステップS24:手順特定処理)
手順特定部114は、ステップS23で計算された関連度に基づき、対象システム40の障害に対する復旧手順を特定する。具体的には、手順特定部114は、複数の復旧手順のうちの関連度が最も高い復旧手順を、対象システム40の障害に対する復旧手順として特定する。
手順特定部114は、特定された復旧手順の復旧手順IDを通信インタフェース14を介して出力する。これにより、対象システム40の保守を行う保守担当者に復旧手順が通知される。また、手順特定部114は、特定された復旧手順の復旧手順IDを、ステップS21で追加された障害記憶部231のレコードに書き込む。
図8及び図9を参照して、実施の形態1に係る手順特定装置10の動作の具体例を説明する。
図8に示すように障害記憶部231にデータが記憶されているものとする。このとき、対象システム40で障害ID“YYY”の障害が発生したとする。また、ここでは、関連度の計算に用いられる要素は、構成情報に含まれるOS及びソフトウェアと、メトリクスに含まれるCPUの使用率とであるとする。そして、データ生成部214によってOSがLinux(登録商標)であれば1が設定され、ソフトウェアがNginxであれば1が設定され、CPUの使用率が0以上1以下に正規化されるとする。
障害ID“YYY”の障害が発生する前に、計算モデル生成処理が実行されている。計算モデル生成処理では、障害記憶部231に記憶された障害ID“YYY”以外のレコードを入力として計算モデルが導出される。ここでは、図9に示すように数1における重みaij及び初期値bが計算されたとする。
このとき、障害ID“YYY”の障害の計算データの要素xは、図9に示すようになる。そして、図9に示すように、計算データの要素xを用いて関連度yが計算される。その結果、関連度yが最も高いことが分かり、関連度yに対応する復旧手順3が特定される。
***実施の形態1の効果***
以上のように、実施の形態1に係る手順特定装置10は、障害が発生したシステムの構成情報及びメトリクスと、復旧手順との関連度を計算する計算モデルを導出しておく。そして、実施の形態1に係る手順特定装置10は、対象システム40で障害が発生した場合に、計算モデルにより、各復旧手順についての関連度を計算し、関連度が高い復旧手順を特定する。これにより、障害の原因が曖昧な場合にも復旧手順を特定可能である。
ここで、CPUの使用率とメモリの使用率とディスクの使用率とアラートといった情報であるメトリクスと、復旧手順との間には相関関係がある。メトリクス以外の他の要因の影響も受けるため、メトリクスに含まれる情報の組合せによって完全に復旧手順が特定されるわけではない。しかし、障害発生時のメトリクスに含まれる情報の組合せが同じであれば、同じ復旧手順で復旧させられる可能性が高く、メトリクスと復旧手順との間には相関関係があると認められる。
例えば、CPUの使用率が閾値を超えている場合には、CPUの使用率の高いプロセスから順に停止させるといった復旧手順が考えられる。このとき、メモリの使用率が閾値は超えていないものの、閾値に近い値になっている場合には、CPUの使用率が基準よりも高いプロセスのうち、メモリの使用量が多いプロセスから順に停止させるといった復旧手順が考えられる。また、CPU使用率とメモリ使用率がともに閾値を超えている場合は、システムのリソースを追加するといった復旧手順が考えられる。また、CPU使用率は閾値を下回っているがメモリ使用率が閾値を超えている場合は、メモリ使用率が高いプロセスを再起動させるといった復旧手順が考えられる。また、アラートとして、あるプロセスに関するエラーが出ている場合には、CPUの使用率及びメモリの使用率に関わらず、まずエラーが出ているプロセスを停止させるといった復旧手順が考えられる。このように、メトリクスに含まれる情報の組合せによって復旧手順が特定される。
また、メトリクスだけでなく、システムの構成情報を用いることで、より適切な復旧手順を特定することが可能になる。例えば、OSによって、先に停止させるべきプロセスが異なる場合がある。したがって、上述したCPUの使用率が高い場面において、どのプロセスから順に停止させるかという手順がシステムで用いられるOSによって異なる可能性がある。また、例えば、同じソフトウェアであっても特定のOSで動作させる場合に限り、メモリリークが発生する場合がある。この場合、メモリ使用率が閾値を超えた際の復旧手順として再起動させるプロセスがOSによって異なる可能性がある。
つまり、システムの構成情報及びメトリクスの組合せと、復旧手順との間には相関関係がある。
***他の構成***
<変形例1>
実施の形態1では、手順特定装置10と計算モデル生成装置20は別の装置として実現された。しかし、手順特定装置10と計算モデル生成装置20とは1つの装置として実現されてもよい。
<変形例2>
実施の形態1では、計算モデル生成装置20は、障害記憶部231に記憶されたデータから学習データを生成し、学習データに基づき計算モデルを生成した。しかし、計算モデル生成装置20は、障害記憶部231に記憶されたデータから学習データを生成する学習データ生成装置51と、学習データ生成装置51によって生成された学習データに基づき計算モデルを生成する計算モデル生成装置52とに分けて構成されてもよい。
この場合には、図10に示すように、学習データ生成装置51は、機能構成要素として、前処理部211を備え、ストレージ513が障害記憶部231を実現する。また、図11に示すように、計算モデル生成装置52は、機能構成要素として、学習部212を備え、ストレージ523が学習データ記憶部232を実現する。
<変形例3>
実施の形態1では、各機能構成要素がソフトウェアで実現された。しかし、変形例3として、各機能構成要素はハードウェアで実現されてもよい。この変形例3について、実施の形態1と異なる点を説明する。
図12を参照して、変形例3に係る手順特定装置10の構成を説明する。
各機能構成要素がハードウェアで実現される場合には、手順特定装置10は、プロセッサ11とメモリ12とストレージ13とに代えて、電子回路15を備える。電子回路15は、各機能構成要素と、メモリ12と、ストレージ13との機能とを実現する専用の回路である。
図13を参照して、変形例3に係る計算モデル生成装置20の構成を説明する。
各機能構成要素がハードウェアで実現される場合には、計算モデル生成装置20は、プロセッサ21とメモリ22とストレージ23とに代えて、電子回路25を備える。電子回路25は、各機能構成要素と、メモリ22と、ストレージ23との機能とを実現する専用の回路である。
電子回路25としては、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックIC、GA(Gate Array)、ASIC(Application Specific Integrated Circuit)、FPGA(Field−Programmable Gate Array)が想定される。
各機能構成要素を1つの電子回路25で実現してもよいし、各機能構成要素を複数の電子回路25に分散させて実現してもよい。
<変形例4>
変形例4として、一部の各機能構成要素がハードウェアで実現され、他の各機能構成要素がソフトウェアで実現されてもよい。
プロセッサ11,21とメモリ12,22とストレージ13,23と電子回路15,25とを処理回路という。つまり、各機能構成要素の機能は、処理回路により実現される。
実施の形態2.
実施の形態2は、障害が発生した時点を基準とする参照期間のシステムのメトリクスの時系列データと、復旧手順との間の関連度を計算する点が実施の形態1と異なる。実施の形態2では、この異なる点を説明し、同一の点については説明を省略する。
***構成の説明***
図14を参照して、実施の形態2に係る計算モデル生成装置20の構成を説明する。
計算モデル生成装置20は、機能構成要素として、メトリクス取得部217を備える点と、ストレージ23がメトリクス記憶部233を実現する点とが図3と異なる。
メトリクス記憶部233には、定期的に収集されたシステムのメトリクスのログが記憶される。つまり、メトリクス記憶部233には、障害の発生とは無関係に、定期的に収集されたメトリクスが記憶される。
***動作の説明***
図4と図7と図15とを参照して、実施の形態2に係る手順特定装置10の動作を説明する。
図2を参照して、実施の形態2に係る計算モデル生成処理を説明する。
ステップS13の処理は、実施の形態1と同じである。
(ステップS11:データ読出処理)
前処理部211の障害情報取得部213は、実施の形態1と同様に、障害記憶部231に記憶された各レコードを読み出し、読み出された各レコードをメモリ22に書き込む。
また、前処理部211のメトリクス取得部217は、障害情報取得部213によって読み出された各レコードを対象として、対象のレコードにおける発生日時を基準とする参照期間におけるメトリクス記憶部233に記憶されたシステムのメトリクスの時系列データを読み出す。発生日時を基準とする参照期間は、事前に設定された期間であり、具体例としては、発生日時の前15分間である。そのため、メトリクスの時系列データは、例えば、発生日時の前15分間における1分毎のメトリクスである。メトリクス取得部217は、読み出されたメトリクスの時系列データを対象のレコードと対応付けてメモリ22に書き込む。
(ステップS12:学習データ生成処理)
前処理部211のデータ生成部214は、ステップS11で障害記憶部231から読み出された各レコードを対象として、対象のレコードのデータを加工して学習データを生成する。この際、データ生成部214は、メトリクス記憶部233から読み出されたメトリクスのうち、障害が発生した時点を基準とする参照期間のシステムのメトリクスの時系列データも用いて、学習データを生成する。つまり、データ生成部214は、対象のレコードについての学習データを生成する際、対象のレコードと対応付けてメモリ12に記憶されたメトリクスの時系列データも用いる。
具体例としては、データ生成部214は、実施の形態1と同様に、障害記憶部231から読み出された対象のレコードの発生日時と構成情報とからビット列を生成するとともに、メトリクスを数値化する。また、データ生成部214は、対象のレコードと対応付けてメモリ12に記憶されたメトリクスの時系列データについても数値化する。そして、データ生成部214は、障害記憶部231から読み出されたレコードの発生日時と構成情報とメトリクスとから生成されたデータと、メトリクス記憶部233から読み出されたメトリクスから生成されたデータとを結合したデータとを、復旧手順IDと対応付けて学習データとする。
図7を参照して、実施の形態2に係る手順特定処理を説明する。
ステップS24の処理は、実施の形態1と同じである。
(ステップS21:データ取得処理)
監視部111は、実施の形態1と同様に、対象システム40の構成情報と、対象システム40に障害が発生した場合における対象システム40のメトリクスとを、対象システム40から取得する。監視部111は、対象システム40の構成情報及びメトリクスを設定したレコードを障害記憶部231に追加する。
また、監視部111は、対象システム40に障害が発生した時点を基準とする参照期間におけるメトリクス記憶部233に記憶された対象システムのメトリクスの時系列データを読み出す。監視部111は、読み出されたメトリクスの時系列データを、障害記憶部231に追加したレコードと対応付けてメモリ12に書き込む。
(ステップS22:計算データ生成処理)
前処理部112の障害情報取得部115は、ステップS21で障害記憶部231に追加されたレコードのデータと、そのレコードと対応付けてメモリ12に記憶されたメトリクスの時系列データとを読み出す。そして、前処理部112のデータ生成部116は、読み出されたレコードのデータ及びメトリクスの時系列データを加工して計算データを生成する。データ生成部116は、生成された計算データをメモリ12に書き込む。
(ステップS23:関連度計算処理)
関連度計算部113は、ステップS13で導出された計算モデルにより、監視対象のシステムである対象システム40の構成情報、及び、参照期間の対象システム40のメトリクス時系列データと、複数の復旧手順それぞれとの間の関連度を計算する。
図15を参照して、実施の形態2に係る手順特定装置10の動作の具体例を説明する。
ここでは、障害が発生した時点におけるメトリクスに加えて、障害が発生した時点の1分前と、5分前と、15分前とのメトリクスも用いられる。つまり、メトリクスの時系列データは、障害が発生した時点と、障害が発生した時点の1分前と、5分前と、15分前とのメトリクスによって構成される。障害が発生した時点におけるメトリクスをxとし、障害が発生した時点の1分前におけるメトリクスをxとし、障害が発生した時点の5分前におけるメトリクスをxとし、障害が発生した時点の15分前におけるメトリクスをxとする。
また、ここでは、図15に示すように数1における重みaij及び初期値bが計算されたとする。
このとき、図15の(1)のようにメトリクスの変動が激しい場合には、メトリクスの時系列データ(x,x,x,x)は、図15の(A)のようになる。そして、この場合には、関連度は、図15の(a)のように計算され、関連度yに対応する復旧手順3が特定される。
また、図15の(2)のようにメトリクスが概ね一定の状態から障害発生の直前になって急に高くなった場合には、メトリクスの時系列データ(x,x,x,x)は、図15の(B)のようになる。そして、この場合には、関連度は、図15の(b)のように計算され、関連度yに対応する復旧手順2が特定される。
また、図15の(2)のようにメトリクスが徐々に高くなっている場合には、メトリクスの時系列データ(x,x,x,x)は、図15の(C)のようになる。そして、この場合には、関連度は、図15の(c)のように計算され、関連度yに対応する復旧手順1が特定される。
***実施の形態2の効果***
以上のように、実施の形態2に係る手順特定装置10は、障害が発生した時点を基準とする参照期間のシステムのメトリクスの時系列データと、復旧手順との間の関連度を計算する。これにより、障害が発生した時点におけるメトリクスだけでなく、一定期間のメトリクスも考慮して、復旧手順を特定可能である。その結果、より適切な復旧手順を特定可能である。
障害発生時のメトリクスだけでなく、メトリクスの時系列データを用いることでより適切な手順を特定することが可能になる。例えば、CPUの使用率が閾値を超えている場合に、CPUの使用率が高くなった原因のプロセスによって、CPUの使用率が閾値を超えるまでにCPUの使用率がどのように変化していたかが異なる場合がある。したがって、CPUの使用率が高い場面において、どのプロセスから順に停止させるかという手順がCPUの使用率の時系列データによって異なる可能性がある。その他にも、例えば、CPU使用率が不規則に急上昇、急降下を繰り返す場合は対象のサーバーを切り離す、CPU使用率が徐々に上昇していき閾値を超えた場合は、リソースを追加するといった復旧手順が考えられる。
100 手順特定システム、10 手順特定装置、11 プロセッサ、12 メモリ、13 ストレージ、14 通信インタフェース、15 電子回路、111 監視部、112 前処理部、113 関連度計算部、114 手順特定部、115 障害情報取得部、116 データ生成部、131 モデル記憶部、20 計算モデル生成装置、21 プロセッサ、22 メモリ、23 ストレージ、24 通信インタフェース、25 電子回路、211 前処理部、212 学習部、213 障害情報取得部、214 データ生成部、215 学習データ取得部、216 モデル生成部、217 メトリクス取得部、231 障害記憶部、232 学習データ記憶部、233 メトリクス記憶部、30 伝送路、40 対象システム、51 学習データ生成装置、511 プロセッサ、512 メモリ、513 ストレージ、514 通信インタフェース、52 計算モデル生成装置、521 プロセッサ、522 メモリ、523 ストレージ、524 通信インタフェース。

Claims (13)

  1. システムに障害が発生した場合における前記システムのメトリクスと、前記障害を復旧させる復旧手順との関連度を計算する計算モデルにより、監視対象のシステムである対象システムに障害が発生した場合における前記対象システムのメトリクスと、複数の復旧手順それぞれとの間の関連度を計算する関連度計算部と、
    前記関連度計算部によって計算された前記関連度に基づき、前記対象システムで発生した前記障害に対する復旧手順を特定する手順特定部と
    を備える手順特定装置。
  2. 前記計算モデルは、前記システムの構成情報及び前記システムのメトリクスと、前記復旧手順との関連度を計算するモデルであり、
    前記関連度計算部は、前記対象システムの構成情報及び前記対象システムのメトリクスと、前記複数の復旧手順それぞれとの間の関連度を計算する
    請求項1に記載の手順特定装置。
  3. 前記計算モデルは、前記システムに障害が発生した時点を基準とする参照期間の前記システムのメトリクスの時系列データと、前記復旧手順との間の関連度を計算するモデルであり、
    前記関連度計算部は、前記対象システムに障害が発生した時点を基準とする前記参照期間の前記対象システムのメトリクス時系列データと、前記複数の復旧手順それぞれとの間の関連度を計算する
    請求項1又は2に記載の手順特定装置。
  4. 前記手順特定部は、前記複数の復旧手順のうちの前記関連度が最も高い復旧手順を、前記対象システムの障害に対する復旧手順として特定する
    請求項1から3までのいずれか1項に記載の手順特定装置。
  5. システムに障害が発生した場合における前記システムのメトリクスと、前記障害を復旧させた復旧手順との複数の組を学習データとして取得する学習データ取得部と、
    前記学習データ取得部によって取得された前記学習データを入力として、前記メトリクスと前記復旧手順との間の関連度を計算する計算モデルを導出するモデル生成部と
    を備える計算モデル生成装置。
  6. 前記学習データは、前記システムの構成情報及び前記システムのメトリクスと、前記復旧手順との複数の組であり、
    前記モデル生成部は、前記構成情報及び前記メトリクスと前記復旧手順との間の関連度を計算する計算モデルを導出する
    請求項5に記載の計算モデル生成装置。
  7. 前記学習データは、前記システムに障害が発生した時点を基準とする参照期間の前記システムのメトリクスの時系列データと、前記復旧手順との複数の組であり、
    前記モデル生成部は、前記メトリクスの前記時系列データと前記復旧手順との間の関連度を計算する計算モデルを導出する
    請求項5又は6に記載の計算モデル生成装置。
  8. 関連度計算部が、システムに障害が発生した場合における前記システムのメトリクスと、前記障害を復旧させる復旧手順との関連度を計算する計算モデルにより、監視対象のシステムである対象システムに障害が発生した場合における前記対象システムのメトリクスと、複数の復旧手順それぞれとの間の関連度を計算し、
    手順特定部が、前記関連度に基づき、前記対象システムで発生した前記障害に対する復旧手順を特定する手順特定方法。
  9. システムに障害が発生した場合における前記システムのメトリクスと、前記障害を復旧させる復旧手順との関連度を計算する計算モデルにより、監視対象のシステムである対象システムに障害が発生した場合における前記対象システムのメトリクスと、複数の復旧手順それぞれとの間の関連度を計算する関連度計算処理と、
    前記関連度計算処理によって計算された前記関連度に基づき、前記対象システムで発生した前記障害に対する復旧手順を特定する手順特定処理と
    を行う手順特定装置としてコンピュータを機能させる手順特定プログラム。
  10. 学習データ取得部が、システムに障害が発生した場合における前記システムのメトリクスと、前記障害を復旧させた復旧手順との複数の組を学習データとして取得し、
    モデル生成部が、前記学習データを入力として、前記メトリクスと前記復旧手順との間の関連度を計算する計算モデルを導出する計算モデル生成方法。
  11. システムに障害が発生した場合における前記システムのメトリクスと、前記障害を復旧させた復旧手順との複数の組を学習データとして取得する学習データ取得処理と、
    前記学習データ取得処理によって取得された前記学習データを入力として、前記メトリクスと前記復旧手順との間の関連度を計算する計算モデルを導出するモデル生成処理と
    を行う計算モデル生成装置としてコンピュータを機能させる計算モデル生成プログラム。
  12. 過去に発生したシステムの障害についての情報を記憶した障害記憶部から、前記障害の発生日時と、前記障害を復旧させた復旧手順とを取得する障害情報取得部と、
    前記システムのメトリクスのログを記憶したメトリクス記憶部から、前記障害情報取得部によって取得された前記発生日時を基準とする参照期間における前記システムのメトリクスの時系列データを取得するメトリクス取得部と、
    前記メトリクス取得部によって取得された前記時系列データと、前記復旧手順との組を、メトリクスの時系列データと復旧手順との関連度を計算する計算モデルを生成するための学習データとして生成するデータ生成部と
    を備える学習データ生成装置。
  13. システムに障害が発生した場合における前記システムのメトリクスと、前記障害を復旧させた復旧手順との複数の組である学習データを入力として学習され、対象システムのメトリクスと複数の復旧手順それぞれとの間の関連度を計算するように、コンピュータを機能させる計算プログラム。
JP2019128063A 2019-07-10 2019-07-10 手順特定装置、計算モデル生成装置、手順特定方法、手順特定プログラム、計算モデル生成方法、計算モデル生成プログラム、学習データ生成装置及び計算プログラム Pending JP2021015321A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019128063A JP2021015321A (ja) 2019-07-10 2019-07-10 手順特定装置、計算モデル生成装置、手順特定方法、手順特定プログラム、計算モデル生成方法、計算モデル生成プログラム、学習データ生成装置及び計算プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019128063A JP2021015321A (ja) 2019-07-10 2019-07-10 手順特定装置、計算モデル生成装置、手順特定方法、手順特定プログラム、計算モデル生成方法、計算モデル生成プログラム、学習データ生成装置及び計算プログラム

Publications (1)

Publication Number Publication Date
JP2021015321A true JP2021015321A (ja) 2021-02-12

Family

ID=74531880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019128063A Pending JP2021015321A (ja) 2019-07-10 2019-07-10 手順特定装置、計算モデル生成装置、手順特定方法、手順特定プログラム、計算モデル生成方法、計算モデル生成プログラム、学習データ生成装置及び計算プログラム

Country Status (1)

Country Link
JP (1) JP2021015321A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023001999A (ja) * 2021-06-22 2023-01-10 株式会社日立製作所 情報システムを管理する管理システム及び管理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018103A (ja) * 2003-06-23 2005-01-20 Nec Corp 性能向上サービス提供システムおよび性能向上サービス提供方法
JP2006053728A (ja) * 2004-08-11 2006-02-23 Nec Corp 障害対処ルール伝播方法、障害復旧装置およびプログラム
WO2008012903A1 (fr) * 2006-07-27 2008-01-31 Fujitsu Limited Programme de gestion de système, dispositif de gestion de gestion de système, et procédé de gestion de système
JP2016015111A (ja) * 2014-06-13 2016-01-28 富士通株式会社 評価プログラム、評価方法、および評価装置
US20180314576A1 (en) * 2017-04-29 2018-11-01 Appdynamics Llc Automatic application repair by network device agent
JP2019057139A (ja) * 2017-09-21 2019-04-11 日本電気株式会社 運用管理システム、監視サーバ、方法およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018103A (ja) * 2003-06-23 2005-01-20 Nec Corp 性能向上サービス提供システムおよび性能向上サービス提供方法
JP2006053728A (ja) * 2004-08-11 2006-02-23 Nec Corp 障害対処ルール伝播方法、障害復旧装置およびプログラム
WO2008012903A1 (fr) * 2006-07-27 2008-01-31 Fujitsu Limited Programme de gestion de système, dispositif de gestion de gestion de système, et procédé de gestion de système
JP2016015111A (ja) * 2014-06-13 2016-01-28 富士通株式会社 評価プログラム、評価方法、および評価装置
US20180314576A1 (en) * 2017-04-29 2018-11-01 Appdynamics Llc Automatic application repair by network device agent
JP2019057139A (ja) * 2017-09-21 2019-04-11 日本電気株式会社 運用管理システム、監視サーバ、方法およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023001999A (ja) * 2021-06-22 2023-01-10 株式会社日立製作所 情報システムを管理する管理システム及び管理方法
JP7296426B2 (ja) 2021-06-22 2023-06-22 株式会社日立製作所 情報システムを管理する管理システム及び管理方法

Similar Documents

Publication Publication Date Title
US9804909B1 (en) Scalable predictive early warning system for data backup event log
Shang et al. Automated detection of performance regressions using regression models on clustered performance counters
JP6048038B2 (ja) 情報処理装置,プログラム,情報処理方法
US10037238B2 (en) System and method for encoding exception conditions included at a remediation database
CN111414268B (zh) 故障处理方法、装置及服务器
US8286034B2 (en) Accurate fault status tracking of variable access sensors
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
JP6988304B2 (ja) 運用管理システム、監視サーバ、方法およびプログラム
US11561875B2 (en) Systems and methods for providing data recovery recommendations using A.I
WO2019074687A1 (en) METHOD FOR COPYING PRODUCTION BEHAVIORS IN A DEVELOPMENT ENVIRONMENT
CN112579327B (zh) 一种故障检测方法、装置及设备
US10938623B2 (en) Computing element failure identification mechanism
JP2021015321A (ja) 手順特定装置、計算モデル生成装置、手順特定方法、手順特定プログラム、計算モデル生成方法、計算モデル生成プログラム、学習データ生成装置及び計算プログラム
US20190129781A1 (en) Event investigation assist method and event investigation assist device
JP5495310B2 (ja) 情報処理装置、障害解析方法及び障害解析プログラム
JP6405851B2 (ja) 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、
CN116126574A (zh) 一种系统故障诊断方法、装置、设备及存储介质
JP2019219473A (ja) 障害対応訓練装置、障害対応訓練方法および障害対応訓練プログラム
JP6622040B2 (ja) 分析システム、及び、分析方法
JP2016057658A (ja) 障害情報管理システムおよび障害情報管理方法
JP6787873B2 (ja) 異常種別判定装置、異常種別判定方法及びプログラム
JP7147495B2 (ja) 復旧支援装置、復旧支援方法及びプログラム
US20220342788A1 (en) Anomaly location estimating apparatus, method, and program
JP6579995B2 (ja) 静観候補特定装置、静観候補特定方法及び静観候補特定プログラム
CN117873408B (zh) 一种云打印机数据恢复方法以及相关装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200818

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210316