JP2020030628A - 監視システム、監視方法および監視プログラム - Google Patents
監視システム、監視方法および監視プログラム Download PDFInfo
- Publication number
- JP2020030628A JP2020030628A JP2018155984A JP2018155984A JP2020030628A JP 2020030628 A JP2020030628 A JP 2020030628A JP 2018155984 A JP2018155984 A JP 2018155984A JP 2018155984 A JP2018155984 A JP 2018155984A JP 2020030628 A JP2020030628 A JP 2020030628A
- Authority
- JP
- Japan
- Prior art keywords
- component
- information processing
- condition
- failure
- failure occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
[第1の実施の形態]
第1の実施の形態を説明する。
第1の実施の形態の監視システムは、情報処理装置10(第1の情報処理装置)と情報処理装置20(第2の情報処理装置)とを有する。
情報処理装置10は、情報処理システム1に含まれる部品を示す構成情報11(第1の構成情報)と、情報処理システム1に含まれる部品に発生した障害を示す障害情報12(第1の障害情報)とを取得する。例えば、情報処理装置10は、情報処理システム1を監視して情報処理システム1から構成情報11と障害情報12を収集する。構成情報11は、部品を製造したベンダ、部品の製造日、部品のファームウェアのバージョンなどを含んでもよい。障害情報12は、例えば、一定期間内に障害が発生した部品を示す。情報処理装置10は、情報処理システム1に含まれるセンサデバイスから、部品の使用状況を示すセンサ情報を更に取得するようにしてもよい。センサ情報は、部品の周辺の温度や湿度など使用環境の情報を含んでもよく、入出力エラー回数などログ情報を含んでもよい。
次に、第2の実施の形態を説明する。
図2は、第2の実施の形態の情報処理システムの例を示す図である。
図3は、管理サーバのハードウェア例を示すブロック図である。
管理サーバ51は、データ記憶部111、モデル記憶部112、データ収集部113、モデル学習部114、障害判定部115および障害情報共有部116を有する。データ記憶部111およびモデル記憶部112は、RAM102またはHDD103の記憶領域を用いて実現される。データ収集部113、モデル学習部114、障害判定部115および障害情報共有部116は、CPU101が実行するプログラムを用いて実現される。
データ記憶部111は、構成情報テーブル121に登録された構成情報を記憶する。構成情報テーブル121は、部品ID、ベンダ、製造日、FW(Firmware)版数および親部品IDの項目を含む。部品IDは、HDDなどの部品を識別する識別子である。ベンダは、部品を製造した製造者の名称である。製造日は、部品が製造された日である。FW版数は、部品の搭載されたファームウェアのバージョンである。親部品IDは、その部品を内部に含む別の部品または製品が存在する場合において、当該別の部品または製品を識別する識別子である。構成情報の一部または全部が管理者によって入力されてもよい。
図6は、決定木の生成例を示す第1の図である。
モデル学習部114は、構成情報テーブル121に登録された構成情報を用いて、第1段階目の決定木124を生成する。決定木124は、ノード130〜134,140〜142を含む。ノード130〜134は、部品を分類する部品条件を示すノードである。ノード140〜142は、データセンタ31が有する部品のうち、ルートノードからのパスに相当する部品条件を満たす部品の数を登録した葉ノードである。
モデル学習部114は、障害情報テーブル123に登録された障害情報を更に用いて、第1段階目の決定木124を第2段階目の決定木125に更新する。決定木125は、ノード130〜134に加えてノード135〜137を含み、ノード140〜142に代えてノード150〜154を含む。ノード135〜137は、部品を分類する部品条件を示すノードである。ノード150〜154は、ルートノードからのパスに相当する部品条件を満たす部品の数を登録した葉ノードである。
モデル学習部114は、センサ情報テーブル122に登録されたセンサ情報を更に用いて、第2段階目の決定木125を第3段階目の決定木126に更新する。決定木126は、ノード130〜137に加えてノード138,139を含み、ノード151,153に代えてノード155〜158を含む。ノード138,139は、部品を分類する部品条件を示すノードである。ノード155〜158は、ルートノードからのパスに相当する部品条件を満たす部品の数を登録した葉ノードである。
図9は、潜在障害判定の手順例を示すフローチャートである。
(S10)モデル学習部114は、データセンタ31で使用されている部品について、ベンダや製造日やファームウェアのバージョンなどの構成情報を取得する。
(S12)モデル学習部114は、ステップS11の分類方法に対応する決定木を生成し、各部品グループの部品数を決定木の葉ノードに記録する。
(S14)モデル学習部114は、クラスタリングにより、できる限り障害の有無との相関が大きくなるように製造日やファームウェアのバージョンなどの閾値を決定する。すなわち、閾値によって部品グループを細分化したときに、障害率が非常に高い部品グループと障害率が非常に低い部品グループとに分かれるように閾値を調整する。
(S17)モデル学習部114は、クラスタリングにより、できる限り障害の有無との相関が大きくなるように温度や湿度やIOエラー回数などの閾値を決定する。すなわち、閾値によって部品グループを細分化したときに、障害率が非常に高い部品グループと障害率が非常に低い部品グループとに分かれるように閾値を調整する。
(S19)障害判定部115は、データセンタ31(自DC)で生成された決定木の中から障害率が閾値以上である部品条件を検索する。障害率が閾値以上である部品条件は、正常部品数と異常部品数の合計に対する異常部品数の割合が閾値以上である葉ノードを探し、ルートノードから当該葉ノードに至るパスを抽出することで検索できる。障害率の閾値は、70%や90%など予め定めた十分大きな値とする。決定木において、ルートノードから障害率が閾値以上の葉ノードに至るパスをFailure Pathと言うことができる。
データセンタ31は、データセンタ31内で収集した構成情報、センサ情報および障害情報に基づいて、他のデータセンタとは独立に決定木を生成する(S30)。データセンタ32は、データセンタ32内で収集した構成情報、センサ情報および障害情報に基づいて、他のデータセンタとは独立に決定木を生成する(S31)。データセンタ33は、データセンタ33内で収集した構成情報、センサ情報および障害情報に基づいて、他のデータセンタとは独立に決定木を生成する(S32)。
(付記1) 第1の情報処理システムに含まれる第1の部品を示す第1の構成情報と、前記第1の部品に発生した障害を示す第1の障害情報とに基づいて、部品の条件と当該条件に該当する部品の障害発生確率との関係を示す第1のモデルを学習する処理と、ある部品条件を受信すると、前記受信した部品条件に対応する障害発生確率を前記第1のモデルを用いて算出し、前記算出した障害発生確率を送信する処理とを行う第1の情報処理装置と、
第2の情報処理システムに含まれる第2の部品を示す第2の構成情報と、前記第2の部品に発生した障害を示す第2の障害情報とに基づいて、部品の条件と当該条件に該当する部品の障害発生確率との関係を示す第2のモデルを学習する処理と、特定の部品条件に対応する第2の障害発生確率を前記第2のモデルを用いて算出し、前記特定の部品条件を前記第1の情報処理装置に送信して前記第1のモデルに基づく第1の障害発生確率を前記第1の情報処理装置から受信し、前記第1の障害発生確率と前記第2の障害発生確率とに基づいて前記特定の部品条件に該当する部品の将来の障害発生を判定する処理とを行う第2の情報処理装置と、
を有する監視システム。
付記1記載の監視システム。
前記第2の情報処理装置は、前記第2の情報処理システムに含まれる第2のセンサデバイスから前記第2の部品の使用状況を示す第2のセンサ情報を取得し、
前記第1のモデルおよび前記第2のモデルが規定する部品の条件は、構成情報が示す部品の種類に対する条件と、センサ情報が示す部品の使用状況に対する条件とを含む、
付記1記載の監視システム。
付記3記載の監視システム。
付記1記載の監視システム。
付記1記載の監視システム。
前記第2の情報処理システムに含まれる部品を示す構成情報と、前記第2の情報処理システムの部品に発生した障害を示す障害情報とに基づいて、部品の条件と当該条件に該当する部品の障害発生確率との関係を示すモデルを学習し、
前記モデルを用いて特定の部品条件に対応する第2の障害発生確率を算出し、
第1の情報処理システムに含まれる他のコンピュータに前記特定の部品条件を送信し、前記他のコンピュータにより算出された前記特定の部品条件に対応する第1の障害発生確率を前記他のコンピュータから受信し、
前記第1の障害発生確率と前記第2の障害発生確率とに基づいて前記特定の部品条件に該当する部品の将来の障害発生を判定する、
監視方法。
付記7記載の監視方法。
前記モデルが規定する部品の条件は、前記構成情報が示す部品の種類に対する条件と、前記センサ情報が示す部品の使用状況に対する条件とを含む、
付記7記載の監視方法。
前記第2の情報処理システムに含まれる部品を示す構成情報と、前記第2の情報処理システムの部品に発生した障害を示す障害情報とに基づいて、部品の条件と当該条件に該当する部品の障害発生確率との関係を示すモデルを学習し、
前記モデルを用いて特定の部品条件に対応する第2の障害発生確率を算出し、
第1の情報処理システムに含まれる他のコンピュータに前記特定の部品条件を送信し、前記他のコンピュータにより算出された前記特定の部品条件に対応する第1の障害発生確率を前記他のコンピュータから受信し、
前記第1の障害発生確率と前記第2の障害発生確率とに基づいて前記特定の部品条件に該当する部品の将来の障害発生を判定する、
処理を実行させる監視プログラム。
付記10記載の監視プログラム。
前記モデルが規定する部品の条件は、前記構成情報が示す部品の種類に対する条件と、前記センサ情報が示す部品の使用状況に対する条件とを含む、
付記10記載の監視プログラム。
10,20 情報処理装置
11,21 構成情報
12,22 障害情報
13,23 モデル
24 部品条件
15,25 障害発生確率
Claims (8)
- 第1の情報処理システムに含まれる第1の部品を示す第1の構成情報と、前記第1の部品に発生した障害を示す第1の障害情報とに基づいて、部品の条件と当該条件に該当する部品の障害発生確率との関係を示す第1のモデルを学習する処理と、ある部品条件を受信すると、前記受信した部品条件に対応する障害発生確率を前記第1のモデルを用いて算出し、前記算出した障害発生確率を送信する処理とを行う第1の情報処理装置と、
第2の情報処理システムに含まれる第2の部品を示す第2の構成情報と、前記第2の部品に発生した障害を示す第2の障害情報とに基づいて、部品の条件と当該条件に該当する部品の障害発生確率との関係を示す第2のモデルを学習する処理と、特定の部品条件に対応する第2の障害発生確率を前記第2のモデルを用いて算出し、前記特定の部品条件を前記第1の情報処理装置に送信して前記第1のモデルに基づく第1の障害発生確率を前記第1の情報処理装置から受信し、前記第1の障害発生確率と前記第2の障害発生確率とに基づいて前記特定の部品条件に該当する部品の将来の障害発生を判定する処理とを行う第2の情報処理装置と、
を有する監視システム。 - 前記第1のモデルは、階層的な部品の条件によって前記第1の部品を複数のグループに分類する第1の決定木であり、前記第2のモデルは、階層的な部品の条件によって前記第2の部品を複数のグループに分類する第2の決定木である、
請求項1記載の監視システム。 - 前記第1の情報処理装置は、前記第1の情報処理システムに含まれる第1のセンサデバイスから前記第1の部品の使用状況を示す第1のセンサ情報を取得し、
前記第2の情報処理装置は、前記第2の情報処理システムに含まれる第2のセンサデバイスから前記第2の部品の使用状況を示す第2のセンサ情報を取得し、
前記第1のモデルおよび前記第2のモデルが規定する部品の条件は、構成情報が示す部品の種類に対する条件と、センサ情報が示す部品の使用状況に対する条件とを含む、
請求項1記載の監視システム。 - 前記部品の種類に対する条件は、部品の製造日および部品が有するファームウェアのバージョンの少なくとも一方を含み、前記部品の使用状況に対する条件は、測定された温度および測定された湿度の少なくとも一方を含む、
請求項3記載の監視システム。 - 前記第2の情報処理装置は、前記第2のモデルを用いて算出される障害発生確率が閾値以上である部品の条件を前記特定の部品条件として選択する、
請求項1記載の監視システム。 - 前記第2の情報処理装置は、前記特定の部品条件に対して複数の第1の情報処理装置における前記第1の障害発生確率および前記第2の障害発生確率を含む複数の障害発生確率を取得し、前記複数の障害発生確率のうち閾値以上の障害発生確率の個数に基づいて、前記特定の部品条件に該当する部品に将来障害が発生するか否かを判定する、
請求項1記載の監視システム。 - 第2の情報処理システムに含まれるコンピュータが、
前記第2の情報処理システムに含まれる部品を示す構成情報と、前記第2の情報処理システムの部品に発生した障害を示す障害情報とに基づいて、部品の条件と当該条件に該当する部品の障害発生確率との関係を示すモデルを学習し、
前記モデルを用いて特定の部品条件に対応する第2の障害発生確率を算出し、
第1の情報処理システムに含まれる他のコンピュータに前記特定の部品条件を送信し、前記他のコンピュータにより算出された前記特定の部品条件に対応する第1の障害発生確率を前記他のコンピュータから受信し、
前記第1の障害発生確率と前記第2の障害発生確率とに基づいて前記特定の部品条件に該当する部品の将来の障害発生を判定する、
監視方法。 - 第2の情報処理システムに含まれるコンピュータに、
前記第2の情報処理システムに含まれる部品を示す構成情報と、前記第2の情報処理システムの部品に発生した障害を示す障害情報とに基づいて、部品の条件と当該条件に該当する部品の障害発生確率との関係を示すモデルを学習し、
前記モデルを用いて特定の部品条件に対応する第2の障害発生確率を算出し、
第1の情報処理システムに含まれる他のコンピュータに前記特定の部品条件を送信し、前記他のコンピュータにより算出された前記特定の部品条件に対応する第1の障害発生確率を前記他のコンピュータから受信し、
前記第1の障害発生確率と前記第2の障害発生確率とに基づいて前記特定の部品条件に該当する部品の将来の障害発生を判定する、
処理を実行させる監視プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018155984A JP7082285B2 (ja) | 2018-08-23 | 2018-08-23 | 監視システム、監視方法および監視プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018155984A JP7082285B2 (ja) | 2018-08-23 | 2018-08-23 | 監視システム、監視方法および監視プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020030628A true JP2020030628A (ja) | 2020-02-27 |
JP7082285B2 JP7082285B2 (ja) | 2022-06-08 |
Family
ID=69622578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018155984A Active JP7082285B2 (ja) | 2018-08-23 | 2018-08-23 | 監視システム、監視方法および監視プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7082285B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113064797A (zh) * | 2021-04-22 | 2021-07-02 | 平安国际智慧城市科技股份有限公司 | 前端监控方法、装置、电子设备及存储介质 |
JP2022138311A (ja) * | 2021-03-10 | 2022-09-26 | Necプラットフォームズ株式会社 | 情報処理装置、システム、プログラムおよび制御方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013094006A1 (ja) * | 2011-12-19 | 2013-06-27 | 富士通株式会社 | プログラム、情報処理装置および方法 |
JP2014052867A (ja) * | 2012-09-07 | 2014-03-20 | Canon Inc | アプリケーション管理システム、管理装置、アプリケーション実行端末、アプリケーション管理方法、アプリケーション実行端末の制御方法及びプログラム |
JP2016152011A (ja) * | 2015-02-19 | 2016-08-22 | ファナック株式会社 | 制御装置の故障予測システム |
-
2018
- 2018-08-23 JP JP2018155984A patent/JP7082285B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013094006A1 (ja) * | 2011-12-19 | 2013-06-27 | 富士通株式会社 | プログラム、情報処理装置および方法 |
JP2014052867A (ja) * | 2012-09-07 | 2014-03-20 | Canon Inc | アプリケーション管理システム、管理装置、アプリケーション実行端末、アプリケーション管理方法、アプリケーション実行端末の制御方法及びプログラム |
JP2016152011A (ja) * | 2015-02-19 | 2016-08-22 | ファナック株式会社 | 制御装置の故障予測システム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022138311A (ja) * | 2021-03-10 | 2022-09-26 | Necプラットフォームズ株式会社 | 情報処理装置、システム、プログラムおよび制御方法 |
JP7235346B2 (ja) | 2021-03-10 | 2023-03-08 | Necプラットフォームズ株式会社 | システム、および制御方法 |
CN113064797A (zh) * | 2021-04-22 | 2021-07-02 | 平安国际智慧城市科技股份有限公司 | 前端监控方法、装置、电子设备及存储介质 |
CN113064797B (zh) * | 2021-04-22 | 2023-02-03 | 平安国际智慧城市科技股份有限公司 | 前端监控方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP7082285B2 (ja) | 2022-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11513935B2 (en) | System and method for detecting anomalies by discovering sequences in log entries | |
JP6152788B2 (ja) | 障害予兆検知方法、情報処理装置およびプログラム | |
US10055275B2 (en) | Apparatus and method of leveraging semi-supervised machine learning principals to perform root cause analysis and derivation for remediation of issues in a computer environment | |
US9690645B2 (en) | Determining suspected root causes of anomalous network behavior | |
US11030038B2 (en) | Fault prediction and detection using time-based distributed data | |
US10147048B2 (en) | Storage device lifetime monitoring system and storage device lifetime monitoring method thereof | |
Ganguly et al. | A practical approach to hard disk failure prediction in cloud platforms: Big data model for failure management in datacenters | |
US20160378583A1 (en) | Management computer and method for evaluating performance threshold value | |
WO2020000404A1 (en) | Multi-factor cloud service storage device error prediction | |
US8543689B2 (en) | Apparatus and method for analysing a computer infrastructure | |
US20150067410A1 (en) | Hardware failure prediction system | |
US9860109B2 (en) | Automatic alert generation | |
US9658908B2 (en) | Failure symptom report device and method for detecting failure symptom | |
Di et al. | Exploring properties and correlations of fatal events in a large-scale hpc system | |
US20230016199A1 (en) | Root cause detection of anomalous behavior using network relationships and event correlation | |
US8032789B2 (en) | Apparatus maintenance system and method | |
CN110196792B (zh) | 故障预测方法、装置、计算设备及存储介质 | |
JP7082285B2 (ja) | 監視システム、監視方法および監視プログラム | |
JP2020004338A (ja) | 監視装置,監視制御方法および情報処理装置 | |
JP2020109636A (ja) | 互換性のあるモジュールを特定するシステムおよび方法 | |
CN115543665A (zh) | 一种内存可靠性评估方法、装置及存储介质 | |
JP6666489B1 (ja) | 障害予兆検知システム | |
US9953266B2 (en) | Management of building energy systems through quantification of reliability | |
CN117251327A (zh) | 模型训练方法、磁盘故障预测方法、相关装置及设备 | |
Chintalapati et al. | Improving Availability of Cloud Systems by Predicting Disk Error |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210513 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20210524 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20210524 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220426 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220509 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7082285 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |