JP7424194B2 - 障害予測装置および障害予測プログラム - Google Patents
障害予測装置および障害予測プログラム Download PDFInfo
- Publication number
- JP7424194B2 JP7424194B2 JP2020079849A JP2020079849A JP7424194B2 JP 7424194 B2 JP7424194 B2 JP 7424194B2 JP 2020079849 A JP2020079849 A JP 2020079849A JP 2020079849 A JP2020079849 A JP 2020079849A JP 7424194 B2 JP7424194 B2 JP 7424194B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- failure
- machine learning
- failure prediction
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005540 biological transmission Effects 0.000 claims description 156
- 230000003287 optical effect Effects 0.000 claims description 105
- 238000010801 machine learning Methods 0.000 claims description 82
- 238000004891 communication Methods 0.000 claims description 69
- 238000012545 processing Methods 0.000 claims description 67
- 238000012549 training Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 20
- 238000010586 diagram Methods 0.000 description 37
- 238000013528 artificial neural network Methods 0.000 description 15
- 229920005994 diacetyl cellulose Polymers 0.000 description 15
- 238000012423 maintenance Methods 0.000 description 15
- 230000002159 abnormal effect Effects 0.000 description 12
- 230000003449 preventive effect Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
- Maintenance And Management Of Digital Transmission (AREA)
Description
図1は、実施例に係る障害予測システムの機能構成を示すブロック図である。図1に示す障害予測システム9は、CPU間通信を行う並列処理装置における通信経路の障害を予測する。障害予測システム9は、通信経路の障害を予測する際、CPU間通信のログ情報のうちCPUの伝送波形自動調整パラメータのみを用いて光通信を由来とする障害および電気通信を由来とする障害を予測する機械学習モデルを生成する。そして、障害予測システム9は、機械学習モデルを用いて、CPU間通信のログ情報のうちCPUの伝送波形自動調整パラメータを入力し、通信経路の障害を予測する。なお、CPUの伝送波形自動調整パラメータは、CPUが受信する信号の伝送波形に関するパラメータであるため、実施例では、「受信波形自動調整パラメータ」と記載する場合がある。また、実施例では、光通信、電気通信をそれぞれ「光伝送」、「電気伝送」と記載する場合がある。
図6は、実施例に係る機械学習装置の機能構成を示すブロック図である。図6に示すように、機械学習装置1は、制御部10と、記憶部20とを有する。
図7は、実施例に係る教師データ生成の流れの一例を示す図である。図7に示すように、教師データ生成部12は、装置状態情報記憶DB21に記憶された装置状態情報から、CPUの受信波形自動調整パラメータおよびボードの位置を抽出する。そして、教師データ生成部12は、抽出した情報にエラー情報を連結させる。ここでは、図7左表が、CPUのボード位置、CPUの受信波形自動調整パラメータおよびエラー情報を対応付けた表である。なお、エラー情報には、障害が発生している場合の「error1」および「error2」、並びに、障害が発生していない場合の「Errorなし」が含まれている。「error1」は、一例として、光通信を由来とする訂正可能なエラー、「error2」は、一例として電気通信を由来とする訂正可能なエラーとする。エラー情報は、これに限定されず、光通信を由来とする訂正不可能なエラー、電気通信を由来とする訂正不可能なエラーおよびモニタリングオンリーの情報を含む。
図9は、実施例に係る管理装置の機能構成を示すブロック図である。図9に示すように、管理装置3は、制御部30と、記憶部40と、出力部50とを有する。
図10は、実施例に係る予測結果の一例を示す図である。図10に示すように、予測対象としてCPUのボード位置およびCPUの受信波形自動調整パラメータの値が入力された場合の予測結果の一例である。予測結果として、エラー種別ごとのそれぞれの障害発生確率が出力される。ここでは、CPUのボード位置が「0」、CPUの受信波形自動調整パラメータ値について、CTLEが「123」、DFEが「456」、VOSが「789」が入力された場合である。
図11は、管理画面の一例を示す図である。図11に示すように、管理画面は、出力部50に表示されている。管理画面には、部品ごとに、予防交換数、在庫数および必要補充数が表示されている。部品には、例えば、AOC部品としてのAOC1m、AOC3m、AOC5m、CPU部品としてのCPU(DAC)が示されている。また、予防交換数は、在庫管理部32によって集計された、部品ごとの予測件数である。在庫数は、部品ごとに現に管理されている在庫の数である。必要補充数は、部品ごとに現に補充が必要な予備の数である。
図12は、実施例に係る機械学習のフローチャートの一例を示す図である。
図13は、実施例に係る障害予測のフローチャートの一例を示す図である。なお、製品装置から複数の装置状態情報が定期的に送信されるとする。ここでいう製品装置は、並列処理装置7のことをいう。
図14は、実施例に係る在庫管理のフローチャートの一例を示す図である。
上記実施例によれば、管理装置3は、並列処理装置7に含まれる複数のノード間通信において、それぞれのノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび調整パラメータに対応する正解の障害情報を含む教師データを用いて機械学習させる学習モデル23を有する。そして、管理装置3は、予測対象の複数のログ情報の一部である調整パラメータを学習モデル23に順次入力し、学習モデル23からそれぞれの障害予測情報を出力する。かかる構成によれば、管理装置3は、並列処理装置7における各ノード間の伝送路の障害予測を、ノードにおける受信波形調整パラメータを用いた機械学習を利用して行うことができる。
なお、図示した管理装置3の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、管理装置3の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、管理装置3において、予測部31を、伝送障害を予測する第1の予測部と、光伝送障害および電気伝送障害の両方を予測する場合には光伝送障害と予測する第2の予測部とに分散しても良い。機械学習装置1において、装置状態情報蓄積部11と教師データ生成部12とを1つの部として統合しても良い。また、記憶部20を機械学習装置1の外部装置としてネットワーク経由で接続するようにしても良い。記憶部40を管理装置3の外部装置としてネットワーク経由で接続するようにしても良い。
予測対象の複数の前記ログ情報の一部である前記調整パラメータを前記機械学習モデルに順次入力し、前記機械学習モデルからそれぞれの障害予測情報を出力する予測部と、
を有することを特徴とする障害予測装置。
ことを特徴とする付記1に記載の障害予測装置。
ことを特徴とする付記1に記載の障害予測装置。
ことを特徴とする付記1または付記3に記載の障害予測装置。
部品の在庫情報から、光部品および電気部品の在庫数を取得する取得部と、
前記光伝送障害の予測件数が光部品の在庫数を上回ったとき、または、前記電気伝送障害の予測件数が電気部品の在庫数を上回ったとき、管理者に警告を出力する出力部と、
をさらに有することを特徴とする付記4に記載の障害予測装置。
前記機械学習モデルからそれぞれの障害予測情報を出力する
処理をコンピュータに実行させる障害予測プログラム。
前記機械学習モデルからそれぞれの障害予測情報を出力する
処理をコンピュータが実行する障害予測方法。
前記教師データを用いて、特定のノード間通信の前記調整パラメータを入力、前記障害情報を出力とする機械学習モデルを生成する生成部と、
を有することを特徴とする機械学習装置。
前記教師データを用いて、特定のノード間通信の前記調整パラメータを入力、前記障害情報を出力とする機械学習モデルを生成する、
処理をコンピュータに実行させる機械学習プログラム。
前記教師データを用いて、特定のノード間通信の前記調整パラメータを入力、前記障害情報を出力とする機械学習モデルを生成する、
処理をコンピュータが実行する機械学習方法。
10 制御部
11 装置状態情報蓄積部
12 教師データ生成部
13 学習モデル生成部
20 記憶部
21 装置状態情報記憶DB
22 教師データDB
23 学習モデル
3 管理装置
30 制御部
31 予測部
32 在庫管理部
40 記憶部
41 予測結果DB
42 AOC在庫DB
43 CPU在庫DB
50 出力部
5,7 並列処理装置
9 障害予測システム
Claims (6)
- 並列処理装置に含まれる複数のノード間通信において、それぞれのノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報を含む教師データを用いて機械学習させた機械学習モデルと、
予測対象の複数の前記ログ情報の一部である前記調整パラメータを前記機械学習モデルに順次入力し、前記機械学習モデルからそれぞれの障害予測情報を出力する予測部と、
を有することを特徴とする障害予測装置。 - 前記通信波形の調整パラメータは、CTLE(Continuous Time Linear Equalizer)、DFE(Decision Feedback Equalizer)およびVOS(Voltage OverScaling)である
ことを特徴とする請求項1に記載の障害予測装置。 - 前記機械学習モデルは、前記ノードにおける前記調整パラメータの値に対して正解ラベルを持ち、一度でもエラーになったことがある場合にはエラー時の障害情報を前記正解ラベルとし、一度もエラーになったことがない場合にはエラーがないことを示す情報を前記正解ラベルとする教師データを用いて機械学習させる
ことを特徴とする請求項1に記載の障害予測装置。 - 前記予測部は、複数の障害予測情報のうち特定のノードの障害予測情報が光伝送障害に由来する情報かつ電気伝送障害に由来する情報である場合には、前記特定のノードの障害予測情報を前記光伝送障害に由来する情報と予測する
ことを特徴とする請求項1または請求項3に記載の障害予測装置。 - 前記複数の障害予測情報を基に、前記並列処理装置における前記光伝送障害の予測件数と、前記電気伝送障害の予測件数を集計する集計部と、
部品の在庫情報から、光部品および電気部品の在庫数を取得する取得部と、
前記光伝送障害の予測件数が光部品の在庫数を上回ったとき、または、前記電気伝送障害の予測件数が電気部品の在庫数を上回ったとき、管理者に警告を出力する出力部と、
をさらに有することを特徴とする請求項4に記載の障害予測装置。 - 並列処理装置に含まれる複数のノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報からなる教師データを用いて機械学習させた機械学習モデルに、予測対象の複数の前記ログ情報の一部である前記調整パラメータを順次入力し、
前記機械学習モデルからそれぞれの障害予測情報を出力する
処理をコンピュータに実行させる障害予測プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020079849A JP7424194B2 (ja) | 2020-04-28 | 2020-04-28 | 障害予測装置および障害予測プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020079849A JP7424194B2 (ja) | 2020-04-28 | 2020-04-28 | 障害予測装置および障害予測プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021174409A JP2021174409A (ja) | 2021-11-01 |
JP7424194B2 true JP7424194B2 (ja) | 2024-01-30 |
Family
ID=78279924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020079849A Active JP7424194B2 (ja) | 2020-04-28 | 2020-04-28 | 障害予測装置および障害予測プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7424194B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006033249A (ja) | 2004-07-14 | 2006-02-02 | Canon Inc | 画像形成管理システム |
JP2016038850A (ja) | 2014-08-11 | 2016-03-22 | 富士通株式会社 | 電子機器、通信制御回路および通信制御方法 |
-
2020
- 2020-04-28 JP JP2020079849A patent/JP7424194B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006033249A (ja) | 2004-07-14 | 2006-02-02 | Canon Inc | 画像形成管理システム |
JP2016038850A (ja) | 2014-08-11 | 2016-03-22 | 富士通株式会社 | 電子機器、通信制御回路および通信制御方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2021174409A (ja) | 2021-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3439241B1 (en) | Using machine learning to monitor link quality and predict link faults | |
US20070011499A1 (en) | Methods for ensuring safe component removal | |
JP5296878B2 (ja) | 1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための方法、装置、およびプログラム(交換ユニットのテストを管理するために交換可能ユニットを含むコンピュータ化ストレージ・システム) | |
Jin et al. | Efficient board-level functional fault diagnosis with missing syndromes | |
CN112306766A (zh) | 用于错误检测的方法、电子设备、存储系统和计算机程序产品 | |
JPWO2009013790A1 (ja) | 信号伝送装置及び方法 | |
US20170221587A1 (en) | Sorting non-volatile memories | |
JP2010182015A (ja) | 品質管理システムおよび品質管理装置および品質管理プログラム | |
JP5204420B2 (ja) | システマティック欠陥に対応したルータにおける歩留まりの最適化 | |
Mishra et al. | Total fault exposing potential based test case prioritization using genetic algorithm | |
JP7424194B2 (ja) | 障害予測装置および障害予測プログラム | |
US7489626B2 (en) | Method of using cable test to modify teaming failover algorithm | |
JP5949785B2 (ja) | 情報処理方法、装置及びプログラム | |
Liu et al. | Knowledge transfer in board-level functional fault identification using domain adaptation | |
CN111858222A (zh) | 错误注入的方法、设备、数据存储系统和程序产品 | |
Zheng et al. | Reliability importance of components in a real-time computing system with standby redundancy schemes | |
CN116225809A (zh) | Pcie链路信号测试方法、系统、终端及存储介质 | |
JP5115025B2 (ja) | 故障診断システム及び故障診断プログラム | |
JPWO2010125752A1 (ja) | 電源設計システム、電源設計方法、及び電源設計用プログラム | |
US20210190853A1 (en) | Method for faster testing of manufactured pcb, apparatus, system, and storage medium used in method | |
TWI815722B (zh) | 利用伺服器日誌資料於測試前預先判斷伺服器狀態之判斷系統與判斷方法 | |
TW202420094A (zh) | 利用伺服器日誌資料於測試前預先判斷伺服器狀態之判斷系統與判斷方法 | |
Moldovan et al. | PCB Testing Using Infrared Thermal Signatures | |
US20100057389A1 (en) | Evaluating apparatus, a recording medium storing an evaluating program, and method for designing signal transmission system | |
CN112631892B (zh) | 预测服务器健康状态的方法、计算设备和计算机介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230112 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231213 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240101 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7424194 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |