JP7424194B2 - 障害予測装置および障害予測プログラム - Google Patents

障害予測装置および障害予測プログラム Download PDF

Info

Publication number
JP7424194B2
JP7424194B2 JP2020079849A JP2020079849A JP7424194B2 JP 7424194 B2 JP7424194 B2 JP 7424194B2 JP 2020079849 A JP2020079849 A JP 2020079849A JP 2020079849 A JP2020079849 A JP 2020079849A JP 7424194 B2 JP7424194 B2 JP 7424194B2
Authority
JP
Japan
Prior art keywords
information
failure
machine learning
failure prediction
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020079849A
Other languages
English (en)
Other versions
JP2021174409A (ja
Inventor
淳司 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020079849A priority Critical patent/JP7424194B2/ja
Publication of JP2021174409A publication Critical patent/JP2021174409A/ja
Application granted granted Critical
Publication of JP7424194B2 publication Critical patent/JP7424194B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Description

本発明は、障害予測装置などに関する。
大規模な並列処理装置では、高性能化のために複数の計算ノードが搭載される。計算ノードとは、情報処理を実行する処理部の単位であり、例えば、CPU(Central Processing Unit)が計算ノードの一例である。CPU同士は、多数の伝送路を通して接続する。
伝送路には、電気伝送と光伝送の2種類が使用される。電気伝送路には、銅ケーブル(DAC:Direct Attach Cable)、光伝送路には、アクティブ光ケーブル(AOC:Active Optical Cable)が使用される。各CPUには、DAC接続用ポートとAOC接続用ポートの両方があり、CPU同士を電気伝送と光伝送の両方で相互接続している。
図16は、並列処理装置におけるCPU間接続の参考例を示す図である。図16に示すように、並列処理装置は、CPUを搭載したボードを複数有している。各ボードには、コネクタとスロットが取り付けられている。コネクタにはDAC接続用ポートが接続され、スロットにはAOC接続用ポートが接続される。そして、DAC接続用ポートおよびAOC接続用ポートが、CPU同士を電気伝送と光伝送の両方で相互接続している。
CPU、DAC、AOCでは、使用される部品数が多いため、故障が頻発する。特に、AOCは、内部に発光素子、受光素子、レンズ、制御IC(Integrated Circuit)、光ケーブルなど部品の数が多く、保守部品を製造業者に発注しても、入手までに時間がかかる場合がある。このため、保守者は、保守すべき箇所を故障発生前に予測し、保守部品を事前に準備しておくことが重要である。
障害の予測方法には、以下の技術が知られている。
一例として、並列処理装置では、内部の制御ファームウェアが、自装置内の障害割り込み通知を受け付け、障害種別に応じて予め登録されている交換箇所を保守者に通知することが知られている。また、別の一例として、並列処理装置では、内部の制御ファームウェアが、定期的に各CPU間の通信装置から装置状態情報を採取し、外部のデータベースに蓄積する。装置状態情報には、装置内部温度、電圧、CPUの伝送波形自動調整パラメータ、AOCの光送信強度および光受信強度、並びに、AOCの波形調整パラメータ、内部温度、内部電圧およびクロック状態が含まれる。制御ファームウェアが採取したこれらの情報を、人間が解析し、障害予測を行う。ところが、情報量が多すぎるため、人間が解析するのは難しい。加えて、CPUの伝送波形自動調整パラメータなどは、人間が容易に識別することができない。
また、別の一例として、プロセッサが、稼働ログから故障予測モデルを構築し、故障予測モデルを用いて故障ログから故障の予兆を検出する技術が開示されている(例えば、特許文献1,2参照)。かかる技術を並列処理装置に適用して、解析装置が、装置状態情報を学習し、学習して得られたNN(Neural Network)に装置状態情報を入力して故障を予測することが想定される。
特開2019-153306号公報 特開2019-204345号公報
しかしながら、並列処理装置における各CPU間の伝送路の障害を、機械学習を利用して予測したいが、情報量が多く、機械学習の利用が困難であるという問題がある。かかる問題について説明する。
図17は、光伝送と電気伝送の複数の情報を用いた場合の機械学習の参考例を示す図である。図17に示すように、解析装置が、複数の装置状態情報をNNに入力し、装置状態情報を学習する。装置状態情報には、装置内部温度、電圧、CPUの伝送波形自動調整パラメータ、AOCの光送信強度、AOCの光受信強度、AOCの波形調整パラメータ、AOCの内部温度、AOCの内部電圧およびAOCのクロック状態が含まれる。これにより、CPUの伝送路波形自動調整パラメータなどの手動で識別できなかったパラメータは識別できるようになる。しかしながら、図17に示すように、複数の装置状態情報を機械学習に用いる場合、機械学習で用いるパラメータの数が膨大となる。NNによる機械学習では、パラメータの数が多くなると、機械学習が収束しない場合が多いことが知られている。加えて、同じパラメータの値であっても、障害になる場合と障害にならない場合があり、単純に複数のパラメータを機械学習させても障害を分類できない。
本発明は、1つの側面では、並列処理装置における各CPU間の伝送路の障害を、機械学習を利用して予測することを目的とする。
1つの態様では、障害予測装置は、並列処理装置に含まれる複数のノード間通信において、それぞれのノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報を含む教師データを用いて機械学習させた機械学習モデルと、予測対象の複数の前記ログ情報の一部である前記調整パラメータを前記機械学習モデルに順次入力し、前記機械学習モデルからそれぞれの障害予測情報を出力する予測部と、を有する。
1実施態様によれば、障害予測装置は、並列処理装置における各CPU間の伝送路の障害を、機械学習を利用して予測することができる。
図1は、実施例に係る障害予測システムの機能構成を示すブロック図である。 図2は、伝送異常時の受信波形自動調整パラメータの一例を示す図である。 図3は、筐体内のCPU間の電気接続の概略を示す図である。 図4は、ボード上のCPUとAOCとの間の電気接続の概略を示す図である。 図5は、MR規格とVSR規格の信号振幅の違いを説明する図である。 図6は、実施例に係る機械学習装置の機能構成を示すブロック図である。 図7は、実施例に係る教師データ生成の流れの一例を示す図である。 図8は、実施例に係る機械学習を説明する図である。 図9は、実施例に係る管理装置の機能構成を示すブロック図である。 図10は、実施例に係る予測結果の一例を示す図である。 図11は、管理画面の一例を示す図である。 図12は、実施例に係る機械学習のフローチャートの一例を示す図である。 図13は、実施例に係る障害予測のフローチャートの一例を示す図である。 図14は、実施例に係る在庫管理のフローチャートの一例を示す図である。 図15は、障害予測プログラムを実行するコンピュータの一例を示す図である。 図16は、並列処理装置におけるCPU間接続の参考例を示す図である。 図17は、光伝送と電気伝送の複数の情報を用いた場合の機械学習の参考例を示す図である。
以下に、本願の開示する障害予測装置および障害予測プログラムの実施例を図面に基づいて詳細に説明する。なお、本発明は、実施例により限定されるものではない。
[実施例に係る障害予測システムの構成]
図1は、実施例に係る障害予測システムの機能構成を示すブロック図である。図1に示す障害予測システム9は、CPU間通信を行う並列処理装置における通信経路の障害を予測する。障害予測システム9は、通信経路の障害を予測する際、CPU間通信のログ情報のうちCPUの伝送波形自動調整パラメータのみを用いて光通信を由来とする障害および電気通信を由来とする障害を予測する機械学習モデルを生成する。そして、障害予測システム9は、機械学習モデルを用いて、CPU間通信のログ情報のうちCPUの伝送波形自動調整パラメータを入力し、通信経路の障害を予測する。なお、CPUの伝送波形自動調整パラメータは、CPUが受信する信号の伝送波形に関するパラメータであるため、実施例では、「受信波形自動調整パラメータ」と記載する場合がある。また、実施例では、光通信、電気通信をそれぞれ「光伝送」、「電気伝送」と記載する場合がある。
CPUの伝送波形自動調整パラメータとは、イコライザ(CTLE:Continuous Time Linear Equalizer)、エンファシス(DFE:Decision Feedback Equalizer)、オフセット(VOS:Voltage OverScaling)のことをいう。DFE,CTLEおよびVOSは、伝送開始時に伝送波形を自動調整するパラメータであり、伝送波形を調整するための調整量を示す値である。伝送波形が悪い程、調整量は大きくなる。このため、発明者は、これらパラメータの値に基づいて障害であるか正常であるかが判断できるはずと考えた。さらに、伝送路は電気伝送路と光伝送路の2種類あるが、これらは伝送規格の違いから信号振幅や伝送距離が大きく異なる。このため、発明者は、伝送波形を調整するための調整量にもその違いは現れるはずであり、わざわざ機械学習モデルに光伝送路か電気伝送路かを人間が区別したものを入力して学習させるようなことをしなくても、これらパラメータの値のみで電気伝送か光伝送かを区別できるはずと考えた。すなわち、発明者は、DFE,CTLE,VOSのみで電気伝送の正常/異常、光伝送の正常/異常の4種類が区別できると考えた。さらに、発明者は、機械学習(Deep Learning)に基づいて大量のデータを学習させれば異常時はどのような種類の障害であるのかまで分類できるはずと考えた。
ここで、CPUの伝送波形自動調整パラメータを用いて光通信を由来とする障害および電気通信を由来とする障害を予測することが可能である理由を、図2~図5を参照して説明する。図2は、伝送異常時の受信波形自動調整パラメータの一例を示す図である。図2に示すように、CPUは、波形調整回路を備える。CPUは、伝送障害を、信号の受信失敗により検出する。受信失敗の場合には、受信波形が異常な波形になる。波形調整回路は、異常な受信波形を補正しようとするため、受信波形調整パラメータの値は正常時と乖離した値になる。
ここで、図2に示すように、CPUの受信波形自動調整パラメータには、イコライザ(CTLE)、エンファシス(DFE)、オフセット(VOS)がある。CTLEは、高周波数の調整値を示す。DFEは、波形の補正の割合を示す。VOSは、波形のオフセット値の補正の調整値を示す。受信波形自動調整パラメータには、波形調整回路によって受信波形が補正された結果が設定される。
図2では、上図が正常波形の受信波形自動調整パラメータのそれぞれの値を示す。下図が異常波形の受信波形自動調整パラメータのそれぞれの値を示す。すなわち、正常波形の場合には、調整量が、異常波形の場合と比べて小さい。これに対して、異常波形の場合には、調整量が、正常波形と比べて大きい。つまり、波形調整回路は、異常な受信波形を補正しようとするが、受信波形調整パラメータの値は正常時と乖離した値になる。
次に、CPUには、DACを接続する電気伝送ポートとAOCを接続する光伝送ポートの両方が存在する。電気伝送ポートと光伝送ポートとでは、伝送規格が異なる。図3は、筐体内のCPU間の電気接続の概略を示す図である。図3に示すように、DACを用いた電気伝送路では、CPU同士をDACで直接接続するため、筐体内の構成において伝送距離は約1m程度である。このため、DACを接続する電気伝送ポートは、ミドルレンジ(MR:Middle Range)と呼ばれる規格となる。これに対して、図4は、ボード上のCPUとAOCとの間の電気接続の概略を示す図である。図4に示すように、AOCを用いた光伝送路では、CPUからボード上に接続されたAOCまでは電気伝送となり、AOCより以遠では光ケーブル内の光伝送となるため、実質の電気伝送距離は基板配線の5cm程度である。このため、AOCを接続する光伝送ポートは、ベリーショートレンジ(VSR:Very Short Range)と呼ばれる規格となる。
図5は、MR規格とVSR規格の信号振幅の違いを説明する図である。MR規格とVSR規格とでは、電気伝送距離が異なり、伝送路伝播による信号減衰幅が異なる。このため、図5に示すように、信号振幅について、MR規格の方がVSR規格より大きくなる。
信号振幅が異なると、受信波形を調整するための調整量も異なる。このため、DACを用いた電気伝送とAOCを用いた光伝送とでは、CPUの受信波形自動調整パラメータの値が乖離する。したがって、電気通信(電気伝送と同義)の正常波形および異常波形、並びに、光通信(光伝送と同義)の正常波形および異常波形は、CPUの受信波形自動調整パラメータのみで判別できる。これにより、実施例に係る障害予測システム9は、CPUの受信波形自動調整パラメータ(CFE,CTLE,VOS)のみを用いて、光通信を由来とする障害および電気通信を由来とする障害を予測できる。
図1に戻って、障害予測システム9は、機械学習装置1と、管理装置3と、出荷前の試験装置としての並列処理装置5と、出荷後の製品装置としての並列処理装置7とを有する。並列処理装置5および並列処理装置7には、1筐体に例えば480本のCPU間の通信経路がある。
機械学習装置1は、並列処理装置5に含まれる複数のCPU間通信において、それぞれのログ情報の一部であるCPUの受信波形自動調整パラメータおよび当該パラメータに対応する正解のエラー情報を含む教師データを用いて機械学習させた学習モデルを生成する。エラー情報は、例えば、試験者によって解析されたエラー種別を示す情報であり、光通信を由来とするエラーおよび電気通信を由来とするエラーを区別できる情報である。なお、機械学習装置1の機能構成の一例は、後述する。
管理装置3は、予測対象の複数のCPU間通信のそれぞれのログ情報の一部であるCPUの受信波形自動調整パラメータを学習モデルに順次入力し、学習モデルからそれぞれの障害予測情報を出力する。障害予測情報は、例えば、エラー種別およびエラー種別に対応する障害発生確率を示す情報である。そして、管理装置3は、特定のCPU間通信の障害予測情報が光通信に由来かつ電気通信に由来する場合には、特定のCPU間通信の障害は光通信に由来する障害と予測する。光通信に関係する部品は、電気通信に関係する部品よりも圧倒的に多いからである。すなわち、光通信に関係する部品であるAOCは、内部に発光素子、受光素子、レンズ、制御IC、光ケーブルなど部品の数が多く、保守部品を製造業者に発注しても、入手までに時間がかかる場合がある。このため、管理装置3は、障害予測情報が光通信に由来かつ電気通信に由来する場合には、光通信に由来する障害と予測する。加えて、管理装置3は、光通信に由来する障害(または電気通信に由来する障害)と予測された場合には、光通信に関係する部品(または電気通信に関係する部品)の在庫の確認を行う。なお、管理装置3の機能構成の一例は、後述する。
[機械学習装置の機能構成]
図6は、実施例に係る機械学習装置の機能構成を示すブロック図である。図6に示すように、機械学習装置1は、制御部10と、記憶部20とを有する。
制御部10は、CPU(Central Processing Unit)などの電子回路に対応する。そして、制御部10は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部10は、装置状態情報蓄積部11、教師データ生成部12および学習モデル生成部13を有する。なお、教師データ生成部12は、取得部の一例である。学習モデル生成部13は、生成部の一例である。
記憶部20は、例えば、RAM、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。記憶部20は、装置状態情報記憶DB21、教師データDB22および学習モデル23を有する。
装置状態情報記憶DB21は、並列処理装置5に含まれる複数のCPUそれぞれを搭載するボードごとに、装置状態情報およびエラー情報を対応付けて記憶する。装置状態情報には、CPU間通信における通信経路にあるCPUのボードの位置に対応付けて、CPUの受信波形自動調整パラメータが含まれる。加えて、装置状態情報には、装置内部温度、電圧、AOCの光送信強度および光受信強度、並びに、AOCの波形調整パラメータ、内部温度、内部電圧およびクロック状態などの情報が含まれる。また、エラー情報は、試験者によって解析されたエラー種別を示す情報である。エラー種別は、例えば、光通信を由来とするエラーとして訂正可能なエラーおよび訂正不可能なエラー、並びに、電気通信を由来とするエラーとして訂正可能なエラーおよび訂正不可能なエラー、モニタリングオンリーの情報を含む。なお、装置状態情報は、並列処理装置5の出荷試験時に定期的に採取されるとともに、試験の際の障害時にも採取される。
教師データDB22は、教師データを記憶する。教師データは、CPUのボードの位置、CPUの受信波形自動調整パラメータおよび当該パラメータに対応するエラー情報を含んで構成される。なお、教師データは、後述する教師データ生成部12によって生成される。
学習モデル23は、CPUのボードの位置、CPUの受信波形自動調整パラメータおよび当該パラメータに対応する正解のエラー情報を教師データとして用いた機械学習により生成されるモデルである。つまり、学習モデル23は、CPUのボードの位置でCPUの受信波形自動調整パラメータの値であったときのエラー情報を判定するモデルである。機械学習は、NN(Neural Network)であるが、任意の種別の機械学習であれば良い。なお、学習モデル23は、学習モデル生成部13によって生成される。
装置状態情報蓄積部11は、装置状態情報を蓄積する。例えば、装置状態情報蓄積部11は、並列処理装置5の出荷試験時に、並列処理装置5から定期的に送信される装置状態情報を受信して、一時的に記憶部20に格納する。また、装置状態情報蓄積部11は、並列処理装置5の出荷試験時に、障害が発生した際の装置状態情報を受信して、一時的に記憶部20に格納する。そして、装置状態情報蓄積部11は、一時的に記憶したそれぞれの装置状態情報にエラー情報を対応付けて装置状態情報記憶DB21に蓄積する。エラー情報は、例えば、試験者によって解析されたエラー種別を示す情報である。
教師データ生成部12は、教師データを生成する。例えば、教師データ生成部12は、装置状態情報記憶DB21に記憶された装置状態情報から、CPUの受信波形自動調整パラメータおよびCPUのボードの位置を抽出する。そして、教師データ生成部12は、装置状態情報が障害発生時の情報の場合には、抽出した情報にエラー情報を連結させ、教師データを生成する際のルールに基づいて教師データを生成する。そして、教師データ生成部12は、生成した教師データを教師データDB22に格納する。
ここで、教師データを生成する際のルールについて説明する。並列処理装置5では、CPUの数が多い。このため、複数のCPUで同じ受信波形自動調整パラメータの値となる場合がある。複数のCPUのうちいずれかのCPUで障害が発生していたとしても、必ずしも同じ受信波形自動調整パラメータの値を持つ全てのCPUで障害が発生するわけではない。これは、例えば、CPUの材料であるシリコンの特性にバラツキがあるからである。よって、教師データ生成部12が、単純に受信波形自動調整パラメータの値を全て収集し、後述する学習モデル生成部13に機械学習させたとしても、生成される学習モデル23は、障害発生の有無を判定できない。そこで、教師データ生成部12は、並列処理装置5内の受信波形自動調整パラメータの値ごとに、障害が一度でも発生したことがあるものと障害が一度も発生したことがないものとに分類して教師データを生成する。すなわち、教師データ生成部12は、受信波形自動調整パラメータの値に対して障害が一度でも発生したことがある場合には、発生時のエラー情報を対応付けて、受信波形自動調整パラメータの値に対する教師データを生成する。
なお、教師データ生成部12は、並列処理装置5内の受信波形自動調整パラメータの値ごとに、障害が一度でも発生したことがあるものと障害が一度も発生したことがないものとに分類して教師データを生成すると説明した。しかしながら、教師データ生成部12は、並列処理装置5内のCPUのボードの位置および受信波形自動調整パラメータの値ごとに、障害が一度でも発生したことがあるものと障害が一度も発生したことがないものとに分類して教師データを生成しても良い。すなわち、教師データ生成部12は、CPUのボードの位置および受信波形自動調整パラメータの値に対して障害が一度でも発生したことがある場合には、発生時のエラー情報を対応付けて、CPUのボードの位置および受信波形自動調整パラメータの値に対する教師データを生成する。なお、以降、教師データは、CPUのボードの位置および受信波形自動調整パラメータの値に対するデータであるとして説明する。
学習モデル生成部13は、学習モデル23を生成する。例えば、学習モデル生成部13は、構築したNNに、教師データDB22に記憶された教師データを入力して、機械学習を実行する。この結果、学習モデル生成部13は、学習済みの学習モデル23を生成する。すなわち、学習モデル生成部13は、CPUのボードの位置および受信波形自動調整パラメータの値と、対応する正解ラベル(エラー情報)とを入力し、入力に応じて学習モデル23が出力する予測結果と正解ラベルとの差に基づいた機械学習によって学習モデル23を更新する。
[教師データ生成の流れ]
図7は、実施例に係る教師データ生成の流れの一例を示す図である。図7に示すように、教師データ生成部12は、装置状態情報記憶DB21に記憶された装置状態情報から、CPUの受信波形自動調整パラメータおよびボードの位置を抽出する。そして、教師データ生成部12は、抽出した情報にエラー情報を連結させる。ここでは、図7左表が、CPUのボード位置、CPUの受信波形自動調整パラメータおよびエラー情報を対応付けた表である。なお、エラー情報には、障害が発生している場合の「error1」および「error2」、並びに、障害が発生していない場合の「Errorなし」が含まれている。「error1」は、一例として、光通信を由来とする訂正可能なエラー、「error2」は、一例として電気通信を由来とする訂正可能なエラーとする。エラー情報は、これに限定されず、光通信を由来とする訂正不可能なエラー、電気通信を由来とする訂正不可能なエラーおよびモニタリングオンリーの情報を含む。
図7左表に示すように、同じCPU受信波形自動調整パラメータの値であっても、エラー情報が異なる場合がある。例えば、CPU受信波形自動調整パラメータについて、CTLEが「111」、DFEが「222」、VOSが「333」である場合に、エラー情報として「error1」と「Errorなし」の場合が存在する。同様に、CPU受信波形自動調整パラメータについて、CTLEが「444」、DFEが「555」、VOSが「666」である場合に、エラー情報として「error2」と「Errorなし」の場合が存在する。加えて、同じボード位置かつ同じCPU受信波形自動調整パラメータの値であっても、エラー情報が異なる場合がある。例えば、ボード位置が「0」、CPU受信波形自動調整パラメータについて、CTLEが「111」、DFEが「222」、VOSが「333」である場合に、エラー情報として「error1」と「Errorなし」の場合が存在する。
そこで、教師データ生成部12は、並列処理装置5内のボード位置およびCPU受信波形自動調整パラメータの値ごとに、障害が一度でも発生したことがあるものと障害が一度も発生したことがないものとに分類して教師データを生成する。すなわち、教師データ生成部12は、ボード位置およびCPU受信波形自動調整パラメータの値に対して障害が一度でも発生したことがある場合には、発生時のエラー情報を対応付けて、ボード位置およびCPU受信波形自動調整パラメータの値に対する教師データを生成する。
図7右表が、図7左表から生成された教師データの一例である。図7右表に示すように、教師データ生成部12は、ボード位置「0」、CPU受信波形自動調整パラメータについて、CTLE「111」、DFE「222」、VOS「333」である場合に、エラー情報として「error1」を対応付けて教師データを生成する。かかる場合には、エラー情報として「error1」と「Errorなし」とが存在し、障害が一度でも発生したことがある場合であるからである。なお、同じボード位置および同じCPU受信波形自動調整パラメータの値に対して、異なるエラー情報が存在する場合には、より重大なエラー情報が教師データに対応付けられれば良い。
なお、図7では、教師データ生成部12が、ボード位置およびCPU受信波形自動調整パラメータの値に対応する教師データを生成する処理の流れを説明した。しかしながら、教師データ生成部12は、これに限定されず、CPU受信波形自動調整パラメータの値に対応する教師データを生成する場合であっても良い。かかる場合には、教師データ生成部12は、CPU受信波形自動調整パラメータの値ごとにエラー情報を対応付けた教師データを生成すれば良い。図7右表では、タイトル行を除外した行のうち上から3行のレコードが教師データとして生成される。
図8は、実施例に係る機械学習を説明する図である。図8に示すように、実施例に係る機械学習で用いるパラメータは、CPUの伝送波形自動調整パラメータのみである。学習モデル生成部13は、構築したNNに、教師データDB22に記憶された教師データに含まれるCPUの伝送波形自動調整パラメータを入力して、機械学習を実行してNN(学習モデル23)を生成する。すなわち、学習モデル生成部13は、CPUの伝送波形自動調整パラメータの値と、対応する正解ラベル(エラー情報)とを入力し、入力に応じて学習モデル23が出力する予測結果と正解ラベルとの差に基づいた機械学習によってNN(学習モデル23)を更新する。この結果、機械学習は、学習回数に応じて予測結果と正解ラベルとの差が小さくなる。図8右図は、x軸が学習回数、y軸が伝播誤差を示す機械学習の結果を示すグラフである。図8右図に示すように、機械学習は、学習回数に応じて伝播誤差が小さくなり、零に収束することがわかる。これにより、実施例に係る障害予測システム9は、CPUの伝送波形自動調整パラメータのみを用いて、光通信を由来とする障害および電気通信を由来とする障害を予測することが可能な学習モデル23を生成することができる。
[管理装置の機能構成]
図9は、実施例に係る管理装置の機能構成を示すブロック図である。図9に示すように、管理装置3は、制御部30と、記憶部40と、出力部50とを有する。
制御部30は、CPUなどの電子回路に対応する。そして、制御部30は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部30は、予測部31および在庫管理部32を有する。なお、管理装置3は、障害予測装置の一例である。
記憶部40は、例えば、RAM、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。記憶部40は、学習モデル23、予測結果DB41、AOC在庫DB42およびCPU在庫DB43を有する。
出力部50は、各種の情報を出力する。なお、出力部50としては、各種の情報を表示するディスプレイを用いることができる。
学習モデル23は、機械学習装置1によって機械学習された機械学習済みの学習モデルである。例えば、学習モデル23は、並列処理装置7を製品として販売した顧客先の管理装置3に複製される。
予測結果DB41は、装置状態情報に含まれるCPUの受信波形自動調整パラメータに基づいて予測される予測結果を記憶する。装置状態情報は、並列処理装置7から例えば1日1回など定期的に採取される。
AOC在庫DB42は、AOC部品の在庫を管理するDBである。例えば、AOC在庫DB42は、光ケーブル長が1メートル(m)のAOC、光ケーブル長が3mのAOC、光ケーブル長が5mのAOCなどのAOC部品の在庫数を記憶する。
CPU在庫DB43は、DACを含むCPU部品の在庫を管理するDBである。例えば、CPU在庫DB43は、DACを含むCPUのボードなどのCPU部品の在庫数を記憶する。
予測部31は、予測対象の複数のCPUの受信波形自動調整パラメータを学習モデル23に順次入力し、学習モデル23から複数の障害予測情報を出力する。
例えば、予測部31は、並列処理装置7から定期的に送信される装置状態情報を受信する。予測部31は、受信した装置状態情報から、CPUの受信波形自動調整パラメータおよびCPUのボードの位置を抽出する。そして、予測部31は、抽出したCPUの受信波形自動調整パラメータおよびCPUのボードの位置を学習モデル23の入力段に入力し、学習モデル23から出力される障害予測情報に基づき、電気伝送障害または光伝送障害を予測する。障害予測情報には、例えば、エラー種別ごとのそれぞれの障害発生確率を示す情報および、光伝送障害であるか電気伝送障害であるかの分類が含まれる。一例として、学習済みの学習モデル23は、エラー種別ごとに対応した出力バッファを有し、それぞれの障害発生確率を出力バッファに出力する。障害発生確率には、あらかじめ閾値が設けられている。そして、学習済みの学習モデル23は、障害発生確率が閾値を超える場合には、将来的に障害が発生すると予測する。すなわち、学習済みの学習モデル23は、出力段に分類部を有し、電気伝送に対応するエラー種別の障害発生確率が閾値を超える場合には、電気伝送障害と予測し、光伝送に対応するエラー種別の障害発生確率が閾値を超える場合には、光伝送障害と予測する。そして、学習済みの学習モデル23は、エラー種別ごとのそれぞれの障害発生確率を示す情報および、光伝送障害であるか電気伝送障害であるかの分類を含む障害予測情報を出力する。
また、予測部31は、1つの装置状態情報から光伝送障害および電気伝送障害の両方を予測する場合には、光伝送障害を優先して予測する。光伝送障害を優先して予測するのは、次の理由による。光伝送路ではAOC内部は光伝送であるが、CPUからAOCまでの間は電気伝送である。このため、光伝送路では、光伝送障害と電気伝送障害の両方が発生し得る。AOCは、CPUの電気送受信回路や基盤配線に対して、内部に多数の部品を含んでいる。よって、予測部31は、光伝送路では部品の数が電気伝送部分より光伝送部分の方が圧倒的に多いため、電気伝送障害と光伝送障害の両方を予測する場合には、光伝送障害を優先して予測する。
また、予測部31は、複数の装置状態情報に対するそれぞれの障害予測情報を予測結果DB41に格納する。
[予測結果の一例]
図10は、実施例に係る予測結果の一例を示す図である。図10に示すように、予測対象としてCPUのボード位置およびCPUの受信波形自動調整パラメータの値が入力された場合の予測結果の一例である。予測結果として、エラー種別ごとのそれぞれの障害発生確率が出力される。ここでは、CPUのボード位置が「0」、CPUの受信波形自動調整パラメータ値について、CTLEが「123」、DFEが「456」、VOSが「789」が入力された場合である。
予測部31は、CPUのボード位置およびCPUの受信波形自動調整パラメータの値を学習モデル23に入力し、学習モデル23から障害予測情報に含まれるエラー種別ごとのそれぞれの障害発生確率を出力する。ここでは、エラー種別が「error1」の場合には、NNの予測結果としての障害発生確率が「0.452730」と出力されている。エラー種別が「error2」の場合には、NNの予測結果としての障害発生確率が「0.000125」と出力されている。エラー種別が「error3」の場合には、NNの予測結果としての障害発生確率が「0.000003」と出力されている。エラー種別が「Errorなし」の場合には、NNの予測結果としての障害発生確率が「0.547142」と出力されている。学習モデル23の障害発生確率には、あらかじめ閾値として「0.4」が設けられているとする。すると、学習モデル23は、「error1」が閾値を超えるので、「error1」の障害と予測し、障害予測情報に含んで出力する。すなわち、この予測対象は、現時点では障害なしであるが、将来的に「error1」の障害が発生すると予想される。
また、仮に、「error1」が光通信を由来とする訂正可能なエラー、「error2」が電気通信を由来とする訂正可能なエラーであるとする。そして、「error1」の障害発生確率が「0.4」、「error2」の障害発生確率が「0.4」、「error3」の障害発生確率が「0.1」、「Errorなし」の障害発生確率が「0.1」である場合とする。かかる場合には、学習モデル23は、「error1」の障害発生確率が「0.4」、「error2」の障害発生確率が「0.4」であり、どちらも閾値「0.4」を超えるので、「error1」の光伝送障害および「error2」の電気伝送障害の両方を予測する。そして、予測部31は、1つの予測対象から光伝送障害および電気伝送障害の両方を予測する場合であるので、光伝送障害を優先して予測する。
図9に戻って、在庫管理部32は、AOC部品の在庫やDACを含むCPU部品の在庫を管理する。
例えば、在庫管理部32は、予測結果DB41に記憶された複数の障害予測情報の予測結果に応じて、並列処理装置7全体の光伝送障害の部品ごとの予測件数と、電気伝送障害の部品ごとの予測件数を集計する。なお、障害予測情報の予測結果が光伝送障害である場合には、在庫管理部32は、予め定められたCPUのボードの位置とAOC部品の種類とを対応付けた情報に基づいて、光伝送障害の部品の種類を特定すれば良い。そして、在庫管理部32は、AOC在庫DB42からAOC部品の在庫数を取得する。在庫管理部32は、CPU在庫DB43からCPU部品の在庫数を取得する。そして、在庫管理部32は、AOC部品やCPU部品ごとに、取得した在庫数、障害の予測件数、必要な補充数を含む情報を管理画面に出力する。必要な補充数は、例えば、在庫数が5以下になると、予備の数が10となるように求められれば良い。
そして、在庫管理部32は、必要な補充数に基づいて、部品の補充が必要な場合には、管理者に警告を出力しても良い。また、在庫管理部32は、光伝送障害の予測件数がAOCの在庫数を上回ったとき、または、電気伝送障害の予測件数がCPUの在庫数を上回ったとき、管理者に警告を出力しても良い。また、保守者は、管理画面上で障害の予測件数、在庫数および必要な補充数を確認して、部品の補充が必要な場合には、管理者に連絡しても良い。この後、管理者は、補充が必要な部品をベンダーに追加発注することができる。
[管理画面の一例]
図11は、管理画面の一例を示す図である。図11に示すように、管理画面は、出力部50に表示されている。管理画面には、部品ごとに、予防交換数、在庫数および必要補充数が表示されている。部品には、例えば、AOC部品としてのAOC1m、AOC3m、AOC5m、CPU部品としてのCPU(DAC)が示されている。また、予防交換数は、在庫管理部32によって集計された、部品ごとの予測件数である。在庫数は、部品ごとに現に管理されている在庫の数である。必要補充数は、部品ごとに現に補充が必要な予備の数である。
ここでは、部品の種類が「AOC1m」である場合には、予防交換数として「5」、在庫数として「10」、必要補充数として「10」と表示されている。部品の種類が「AOC3m」である場合には、予防交換数として「3」、在庫数として「10」、必要補充数として「0」と表示されている。部品の種類が「AOC5m」である場合には、予防交換数として「8」、在庫数として「5」、必要補充数として「13」と表示されている。部品の種類がCPU(DAC)である場合には、予防交換数として「10」、在庫数として「8」、必要補充数として「12」と表示されている。なお、在庫管理部32は、必要補充数を、在庫数が5以下になると、予備の数が10となるように求めている。
そして、保守者は、管理画面上で予防交換数、在庫数および必要補充数を確認して、部品の補充が必要な場合には、管理画面上の例えば通知ボタン(図示しない)を押下することで、管理者に通知しても良い。この後、管理者は、補充が必要な部品をベンダーに追加発注を行うことができる。
[機械学習のフローチャート]
図12は、実施例に係る機械学習のフローチャートの一例を示す図である。
装置状態情報蓄積部11は、試験装置から受け付けた装置状態情報にエラー情報を対応付けて装置状態情報記憶DB21に蓄積する(ステップS11)。ここでいう試験装置は、並列処理装置5のことをいう。また、エラー情報は、試験者によって解析された情報である。
教師データ生成部12は、装置状態情報から、CPUの受信波形自動調整パラメータの値およびCPUのボードの位置を抽出する(ステップS12)。そして、教師データ生成部12は、受信波形自動調整パラメータの値およびCPUのボードの位置ごとに、教師データを生成する(ステップS13)。例えば、教師データ生成部12は、装置状態情報が障害発生時の情報の場合には、抽出した受信波形自動調整パラメータの値およびCPUのボードの位置にエラー情報を連結させ、教師データを生成する際のルールに基づいて教師データを生成する。すなわち、教師データ生成部12は、CPUのボードの位置および受信波形自動調整パラメータの値ごとに、障害が一度でも発生したことがあるものと障害が一度も発生したことがないものに分類する。そして、教師データ生成部12は、障害が一度でも発生したことがある場合には、発生時のエラー情報を対応付けて、CPUのボードの位置および受信波形自動調整パラメータの値に対する教師データを生成する。
そして、学習モデル生成部13は、NNで教師データを学習し、学習モデル23を生成する(ステップS14)。そして、学習モデル生成部13は、機械学習処理を終了する。
[障害予測のフローチャート]
図13は、実施例に係る障害予測のフローチャートの一例を示す図である。なお、製品装置から複数の装置状態情報が定期的に送信されるとする。ここでいう製品装置は、並列処理装置7のことをいう。
予測部31は、製品装置から複数の装置状態情報を受け付ける(ステップS21)。予測部31は、受け付けた複数の装置状態情報を記憶部40に保持する(ステップS22)。
予測部31は、装置状態情報を順次選択する(ステップS23)。そして、予測部31は、選択した装置状態情報からCPUの受信波形自動調整パラメータの値およびCPUのボードの位置を抽出する(ステップS24)。
そして、予測部31は、抽出したCPUの受信波形自動調整パラメータの値およびCPUのボードの位置を学習モデル23に入力する(ステップS25)。予測部31は、学習モデル23で解析し、障害予測を実行する(ステップS26)。例えば、予測部31は、学習モデル23によって解析された障害予測情報であって、エラー種別ごとのそれぞれの障害発生確率を示す情報および、光伝送障害であるか電気伝送障害であるかの分類を含む障害予測情報に基づき光伝送障害または電気伝送障害を予測する。なお、予測部31は、光伝送障害および電気伝送障害の両方を予測する場合には、光伝送障害を優先して予測する。そして、予測部31は、装置状態情報に対する障害予測情報を予測結果DB41に格納する。
そして、予測部31は、障害予測を終了するか否かを判定する(ステップS27)。障害予測を終了しないと判定した場合には(ステップS27;No)、予測部31は、次の装置状態情報を選択すべく、ステップS23に移行する。
一方、障害予測を終了したと判定した場合には(ステップS27;Yes)、予測部31は、障害予測処理を終了する。
[在庫管理のフローチャート]
図14は、実施例に係る在庫管理のフローチャートの一例を示す図である。
在庫管理部32は、障害予測された結果から保守部品の障害数を算出する(ステップS31)。例えば、在庫管理部32は、予測結果DB41に記憶された複数の障害予測情報の予測結果に応じて、製品装置(並列処理装置7)全体の光伝送障害の部品ごとの予測件数と、電気伝送障害の部品ごとの予測件数を集計する。
そして、在庫管理部32は、保守部品の障害数と在庫数とから保守部品の補充数を算出する(ステップS32)。例えば、在庫管理部32は、保守部品ごとに、在庫数から障害数を引いて得られる在庫数が5以下になると、予備の数が10となるように、必要な補充数を算出する。ここでは、保守部品とは、光伝送に関わるAOC部品および電気伝送に関わるCPU部品のことをいう。
そして、在庫管理部32は、保守部品の障害数、在庫数および補充数を管理画面に出力する(ステップS33)。例えば、在庫管理部32は、AOC部品やCPU部品ごとに、在庫数、障害の予測件数、必要な補充数を含む情報を管理画面に出力する。
そして、在庫管理部32は、補充数に基づき、補充が必要であれば、管理者に通知する(ステップS34)。そして、在庫管理部32は、在庫管理処理を終了する。
[実施例の効果]
上記実施例によれば、管理装置3は、並列処理装置7に含まれる複数のノード間通信において、それぞれのノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび調整パラメータに対応する正解の障害情報を含む教師データを用いて機械学習させる学習モデル23を有する。そして、管理装置3は、予測対象の複数のログ情報の一部である調整パラメータを学習モデル23に順次入力し、学習モデル23からそれぞれの障害予測情報を出力する。かかる構成によれば、管理装置3は、並列処理装置7における各ノード間の伝送路の障害予測を、ノードにおける受信波形調整パラメータを用いた機械学習を利用して行うことができる。
また、上記実施例によれば、通信波形の調整パラメータは、CTLE、DFEおよびVOSである。これにより、管理装置3は、並列処理装置7における各ノード間の伝送路の障害予測を、ノードにおけるCTLE,DFEおよびVOSを用いた機械学習を利用して行うことができる。
また、上記実施例によれば、学習モデル23は、ノードにおける調整パラメータの値に対して正解ラベルを持ち、一度でもエラーになったことがある場合にはエラー時の障害情報を正解ラベルとし、一度もエラーになったことがない場合にはエラーがないことを示す情報を正解ラベルとする教師データを用いて機械学習させる。かかる構成によれば、管理装置3は、以下の効果を奏する。ノードの材料の特性にバラツキが有る場合には、ノードにおける受信波形調整パラメータが同じでも異なるエラーになることがある。そこで、学習モデル23は、ノードにおける受信波形調整パラメータに対して、一度でもエラーになったことがある場合にはエラー時の障害情報を正解ラベルとする教師データを用いて機械学習させる。この結果、管理装置3は、単純に全ての受信波形調整パラメータを用いる場合と比べて機械学習によって障害発生の有無を識別することが可能となる。
また、上記実施例によれば、管理装置3は、複数の障害予測情報のうち特定のノードの障害予測情報が光伝送障害に由来する情報かつ電気伝送障害に由来する情報である場合には、特定のノードの障害予測情報を光伝送障害に由来する情報と予測する。かかる構成によれば、管理装置3は、以下の効果を奏する。光伝送路では、AOC内部は光伝送であるが、ノードからAOCまでの間は電気伝送であるので、光伝送障害と電気伝送障害の両方が発生し得る。そこで、管理装置3は、両方を予測する場合には、光伝送障害と予測することで、例えば、多数の部品を含んでいるAOCの保守を高速に行うことができる。
また、上記実施例によれば、管理装置3は、複数の障害予測情報を基に、並列処理装置7における光伝送障害の予測件数と、電気伝送障害の予測件数を集計する。管理装置3は、部品の在庫情報から、光部品および電気部品の在庫数を取得する。管理装置3は、光伝送障害の予測件数が光部品の在庫数を上回ったとき、または、電気伝送障害の予測件数が電気部品の在庫数を上回ったとき、管理者に警告を出力する。かかる構成によれば、管理装置3は、並列処理装置7で伝送障害があった場合の保守を迅速に行うことが可能となる。
[その他]
なお、図示した管理装置3の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、管理装置3の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、管理装置3において、予測部31を、伝送障害を予測する第1の予測部と、光伝送障害および電気伝送障害の両方を予測する場合には光伝送障害と予測する第2の予測部とに分散しても良い。機械学習装置1において、装置状態情報蓄積部11と教師データ生成部12とを1つの部として統合しても良い。また、記憶部20を機械学習装置1の外部装置としてネットワーク経由で接続するようにしても良い。記憶部40を管理装置3の外部装置としてネットワーク経由で接続するようにしても良い。
また、上記実施例では、機械学習処理を行う機械学習装置1と予測処理および在庫管理処理を行う管理装置3とに分離する構成で説明した。しかしながら、情報処理装置が、機械学習処理と予測処理および在庫管理処理とを含むような構成としても良い。
また、上記実施例では、管理装置3に予測処理および在庫管理処理を含む構成で説明した。しかしながら、第1の管理装置が予測処理を実行し、第2の管理装置が在庫管理処理を実行するような構成を採用しても良い。
また、上記実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図9に示した管理装置3と同様の機能を実現する障害予測プログラムを実行するコンピュータの一例を説明する。図15は、障害予測プログラムを実行するコンピュータの一例を示す図である。
図15に示すように、コンピュータ200は、各種演算処理を実行するCPU203と、ユーザからのデータの入力を受け付ける入力装置215と、表示装置209を制御する表示制御部207とを有する。また、コンピュータ200は、記憶媒体からプログラムなどを読取るドライブ装置213と、ネットワークを介して他のコンピュータとの間でデータの授受を行う通信制御部217とを有する。また、コンピュータ200は、各種情報を一時記憶するメモリ201と、HDD(Hard Disk Drive)205を有する。そして、メモリ201、CPU203、HDD205、表示制御部207、ドライブ装置213、入力装置215、通信制御部217は、バス219で接続されている。
ドライブ装置213は、例えばリムーバブルディスク210用の装置である。HDD205は、障害予測プログラム205aおよび障害予測処理関連情報205bを記憶する。
CPU203は、障害予測プログラム205aを読み出して、メモリ201に展開し、プロセスとして実行する。かかるプロセスは、管理装置3の各機能部に対応する。障害予測処理関連情報205bは、学習モデル23、予測結果DB41、AOC在庫DB42およびCPU在庫DB43に対応する。そして、例えばリムーバブルディスク210が、障害予測プログラム205aなどの各情報を記憶する。
なお、障害予測プログラム205aについては、必ずしも最初からHDD205に記憶させておかなくても良い。例えば、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD-ROM(Compact Disk Read Only Memory)、DVD(Digital Versatile Disk)、光磁気ディスク、IC(Integrated Circuit)カードなどの「可搬用の物理媒体」に当該プログラムを記憶させておく。そして、コンピュータ200がこれらから障害予測プログラム205aを読み出して実行するようにしても良い。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)並列処理装置に含まれる複数のノード間通信において、それぞれのノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報を含む教師データを用いて機械学習させた機械学習モデルと、
予測対象の複数の前記ログ情報の一部である前記調整パラメータを前記機械学習モデルに順次入力し、前記機械学習モデルからそれぞれの障害予測情報を出力する予測部と、
を有することを特徴とする障害予測装置。
(付記2)前記通信波形の調整パラメータは、CTLE(Continuous Time Linear Equalizer)、DFE(Decision Feedback Equalizer)およびVOS(Voltage OverScaling)である
ことを特徴とする付記1に記載の障害予測装置。
(付記3)前記機械学習モデルは、前記ノードにおける前記調整パラメータの値に対して正解ラベルを持ち、一度でもエラーになったことがある場合にはエラー時の障害情報を前記正解ラベルとし、一度もエラーになったことがない場合にはエラーがないことを示す情報を前記正解ラベルとする教師データを用いて機械学習させる
ことを特徴とする付記1に記載の障害予測装置。
(付記4)前記予測部は、前記複数の障害予測情報のうち特定のノードの障害予測情報が光伝送障害に由来する情報かつ電気伝送障害に由来する情報である場合には、前記特定のノードの障害予測情報を前記光伝送障害に由来する情報と予測する
ことを特徴とする付記1または付記3に記載の障害予測装置。
(付記5)前記複数の障害予測情報を基に、前記並列処理装置における前記光伝送障害の予測件数と、前記電気伝送障害の予測件数を集計する集計部と、
部品の在庫情報から、光部品および電気部品の在庫数を取得する取得部と、
前記光伝送障害の予測件数が光部品の在庫数を上回ったとき、または、前記電気伝送障害の予測件数が電気部品の在庫数を上回ったとき、管理者に警告を出力する出力部と、
をさらに有することを特徴とする付記4に記載の障害予測装置。
(付記6)並列処理装置に含まれる複数のノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報からなる教師データを用いて機械学習させた機械学習モデルに、予測対象の複数の前記ログ情報の一部である前記調整パラメータを順次入力し、
前記機械学習モデルからそれぞれの障害予測情報を出力する
処理をコンピュータに実行させる障害予測プログラム。
(付記7)並列処理装置に含まれる複数のノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報からなる教師データを用いて機械学習させた機械学習モデルに、予測対象の複数の前記ログ情報の一部である前記調整パラメータを順次入力し、
前記機械学習モデルからそれぞれの障害予測情報を出力する
処理をコンピュータが実行する障害予測方法。
(付記8)並列処理装置に含まれる複数のノード間通信において、それぞれのノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報を含む教師データを複数取得する取得部と、
前記教師データを用いて、特定のノード間通信の前記調整パラメータを入力、前記障害情報を出力とする機械学習モデルを生成する生成部と、
を有することを特徴とする機械学習装置。
(付記9)並列処理装置に含まれる複数のノード間通信において、それぞれのノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報を含む教師データを複数取得し、
前記教師データを用いて、特定のノード間通信の前記調整パラメータを入力、前記障害情報を出力とする機械学習モデルを生成する、
処理をコンピュータに実行させる機械学習プログラム。
(付記10)並列処理装置に含まれる複数のノード間通信において、それぞれのノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報を含む教師データを複数取得し、
前記教師データを用いて、特定のノード間通信の前記調整パラメータを入力、前記障害情報を出力とする機械学習モデルを生成する、
処理をコンピュータが実行する機械学習方法。
1 機械学習装置
10 制御部
11 装置状態情報蓄積部
12 教師データ生成部
13 学習モデル生成部
20 記憶部
21 装置状態情報記憶DB
22 教師データDB
23 学習モデル
3 管理装置
30 制御部
31 予測部
32 在庫管理部
40 記憶部
41 予測結果DB
42 AOC在庫DB
43 CPU在庫DB
50 出力部
5,7 並列処理装置
9 障害予測システム

Claims (6)

  1. 並列処理装置に含まれる複数のノード間通信において、それぞれのノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報を含む教師データを用いて機械学習させた機械学習モデルと、
    予測対象の複数の前記ログ情報の一部である前記調整パラメータを前記機械学習モデルに順次入力し、前記機械学習モデルからそれぞれの障害予測情報を出力する予測部と、
    を有することを特徴とする障害予測装置。
  2. 前記通信波形の調整パラメータは、CTLE(Continuous Time Linear Equalizer)、DFE(Decision Feedback Equalizer)およびVOS(Voltage OverScaling)である
    ことを特徴とする請求項1に記載の障害予測装置。
  3. 前記機械学習モデルは、前記ノードにおける前記調整パラメータの値に対して正解ラベルを持ち、一度でもエラーになったことがある場合にはエラー時の障害情報を前記正解ラベルとし、一度もエラーになったことがない場合にはエラーがないことを示す情報を前記正解ラベルとする教師データを用いて機械学習させる
    ことを特徴とする請求項1に記載の障害予測装置。
  4. 前記予測部は、複数の障害予測情報のうち特定のノードの障害予測情報が光伝送障害に由来する情報かつ電気伝送障害に由来する情報である場合には、前記特定のノードの障害予測情報を前記光伝送障害に由来する情報と予測する
    ことを特徴とする請求項1または請求項3に記載の障害予測装置。
  5. 前記複数の障害予測情報を基に、前記並列処理装置における前記光伝送障害の予測件数と、前記電気伝送障害の予測件数を集計する集計部と、
    部品の在庫情報から、光部品および電気部品の在庫数を取得する取得部と、
    前記光伝送障害の予測件数が光部品の在庫数を上回ったとき、または、前記電気伝送障害の予測件数が電気部品の在庫数を上回ったとき、管理者に警告を出力する出力部と、
    をさらに有することを特徴とする請求項4に記載の障害予測装置。
  6. 並列処理装置に含まれる複数のノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報からなる教師データを用いて機械学習させた機械学習モデルに、予測対象の複数の前記ログ情報の一部である前記調整パラメータを順次入力し、
    前記機械学習モデルからそれぞれの障害予測情報を出力する
    処理をコンピュータに実行させる障害予測プログラム。
JP2020079849A 2020-04-28 2020-04-28 障害予測装置および障害予測プログラム Active JP7424194B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020079849A JP7424194B2 (ja) 2020-04-28 2020-04-28 障害予測装置および障害予測プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020079849A JP7424194B2 (ja) 2020-04-28 2020-04-28 障害予測装置および障害予測プログラム

Publications (2)

Publication Number Publication Date
JP2021174409A JP2021174409A (ja) 2021-11-01
JP7424194B2 true JP7424194B2 (ja) 2024-01-30

Family

ID=78279924

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020079849A Active JP7424194B2 (ja) 2020-04-28 2020-04-28 障害予測装置および障害予測プログラム

Country Status (1)

Country Link
JP (1) JP7424194B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006033249A (ja) 2004-07-14 2006-02-02 Canon Inc 画像形成管理システム
JP2016038850A (ja) 2014-08-11 2016-03-22 富士通株式会社 電子機器、通信制御回路および通信制御方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006033249A (ja) 2004-07-14 2006-02-02 Canon Inc 画像形成管理システム
JP2016038850A (ja) 2014-08-11 2016-03-22 富士通株式会社 電子機器、通信制御回路および通信制御方法

Also Published As

Publication number Publication date
JP2021174409A (ja) 2021-11-01

Similar Documents

Publication Publication Date Title
EP3439241B1 (en) Using machine learning to monitor link quality and predict link faults
US20070011499A1 (en) Methods for ensuring safe component removal
JP5296878B2 (ja) 1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための方法、装置、およびプログラム(交換ユニットのテストを管理するために交換可能ユニットを含むコンピュータ化ストレージ・システム)
Jin et al. Efficient board-level functional fault diagnosis with missing syndromes
CN112306766A (zh) 用于错误检测的方法、电子设备、存储系统和计算机程序产品
JPWO2009013790A1 (ja) 信号伝送装置及び方法
US20170221587A1 (en) Sorting non-volatile memories
JP2010182015A (ja) 品質管理システムおよび品質管理装置および品質管理プログラム
JP5204420B2 (ja) システマティック欠陥に対応したルータにおける歩留まりの最適化
Mishra et al. Total fault exposing potential based test case prioritization using genetic algorithm
JP7424194B2 (ja) 障害予測装置および障害予測プログラム
US7489626B2 (en) Method of using cable test to modify teaming failover algorithm
JP5949785B2 (ja) 情報処理方法、装置及びプログラム
Liu et al. Knowledge transfer in board-level functional fault identification using domain adaptation
CN111858222A (zh) 错误注入的方法、设备、数据存储系统和程序产品
Zheng et al. Reliability importance of components in a real-time computing system with standby redundancy schemes
CN116225809A (zh) Pcie链路信号测试方法、系统、终端及存储介质
JP5115025B2 (ja) 故障診断システム及び故障診断プログラム
JPWO2010125752A1 (ja) 電源設計システム、電源設計方法、及び電源設計用プログラム
US20210190853A1 (en) Method for faster testing of manufactured pcb, apparatus, system, and storage medium used in method
TWI815722B (zh) 利用伺服器日誌資料於測試前預先判斷伺服器狀態之判斷系統與判斷方法
TW202420094A (zh) 利用伺服器日誌資料於測試前預先判斷伺服器狀態之判斷系統與判斷方法
Moldovan et al. PCB Testing Using Infrared Thermal Signatures
US20100057389A1 (en) Evaluating apparatus, a recording medium storing an evaluating program, and method for designing signal transmission system
CN112631892B (zh) 预测服务器健康状态的方法、计算设备和计算机介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230112

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231213

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240101

R150 Certificate of patent or registration of utility model

Ref document number: 7424194

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150