JP7424194B2

JP7424194B2 - 障害予測装置および障害予測プログラム

Info

Publication number: JP7424194B2
Application number: JP2020079849A
Authority: JP
Inventors: 淳司三木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2024-01-30
Anticipated expiration: 2040-04-28
Also published as: JP2021174409A

Description

本発明は、障害予測装置などに関する。

大規模な並列処理装置では、高性能化のために複数の計算ノードが搭載される。計算ノードとは、情報処理を実行する処理部の単位であり、例えば、ＣＰＵ（Central Processing Unit）が計算ノードの一例である。ＣＰＵ同士は、多数の伝送路を通して接続する。

伝送路には、電気伝送と光伝送の２種類が使用される。電気伝送路には、銅ケーブル（ＤＡＣ：Direct Attach Cable）、光伝送路には、アクティブ光ケーブル（ＡＯＣ：Active Optical Cable）が使用される。各ＣＰＵには、ＤＡＣ接続用ポートとＡＯＣ接続用ポートの両方があり、ＣＰＵ同士を電気伝送と光伝送の両方で相互接続している。

図１６は、並列処理装置におけるＣＰＵ間接続の参考例を示す図である。図１６に示すように、並列処理装置は、ＣＰＵを搭載したボードを複数有している。各ボードには、コネクタとスロットが取り付けられている。コネクタにはＤＡＣ接続用ポートが接続され、スロットにはＡＯＣ接続用ポートが接続される。そして、ＤＡＣ接続用ポートおよびＡＯＣ接続用ポートが、ＣＰＵ同士を電気伝送と光伝送の両方で相互接続している。

ＣＰＵ、ＤＡＣ、ＡＯＣでは、使用される部品数が多いため、故障が頻発する。特に、ＡＯＣは、内部に発光素子、受光素子、レンズ、制御ＩＣ（Integrated Circuit）、光ケーブルなど部品の数が多く、保守部品を製造業者に発注しても、入手までに時間がかかる場合がある。このため、保守者は、保守すべき箇所を故障発生前に予測し、保守部品を事前に準備しておくことが重要である。

障害の予測方法には、以下の技術が知られている。

一例として、並列処理装置では、内部の制御ファームウェアが、自装置内の障害割り込み通知を受け付け、障害種別に応じて予め登録されている交換箇所を保守者に通知することが知られている。また、別の一例として、並列処理装置では、内部の制御ファームウェアが、定期的に各ＣＰＵ間の通信装置から装置状態情報を採取し、外部のデータベースに蓄積する。装置状態情報には、装置内部温度、電圧、ＣＰＵの伝送波形自動調整パラメータ、ＡＯＣの光送信強度および光受信強度、並びに、ＡＯＣの波形調整パラメータ、内部温度、内部電圧およびクロック状態が含まれる。制御ファームウェアが採取したこれらの情報を、人間が解析し、障害予測を行う。ところが、情報量が多すぎるため、人間が解析するのは難しい。加えて、ＣＰＵの伝送波形自動調整パラメータなどは、人間が容易に識別することができない。

また、別の一例として、プロセッサが、稼働ログから故障予測モデルを構築し、故障予測モデルを用いて故障ログから故障の予兆を検出する技術が開示されている（例えば、特許文献１，２参照）。かかる技術を並列処理装置に適用して、解析装置が、装置状態情報を学習し、学習して得られたＮＮ（Neural Network）に装置状態情報を入力して故障を予測することが想定される。

特開２０１９－１５３３０６号公報特開２０１９－２０４３４５号公報

しかしながら、並列処理装置における各ＣＰＵ間の伝送路の障害を、機械学習を利用して予測したいが、情報量が多く、機械学習の利用が困難であるという問題がある。かかる問題について説明する。

図１７は、光伝送と電気伝送の複数の情報を用いた場合の機械学習の参考例を示す図である。図１７に示すように、解析装置が、複数の装置状態情報をＮＮに入力し、装置状態情報を学習する。装置状態情報には、装置内部温度、電圧、ＣＰＵの伝送波形自動調整パラメータ、ＡＯＣの光送信強度、ＡＯＣの光受信強度、ＡＯＣの波形調整パラメータ、ＡＯＣの内部温度、ＡＯＣの内部電圧およびＡＯＣのクロック状態が含まれる。これにより、ＣＰＵの伝送路波形自動調整パラメータなどの手動で識別できなかったパラメータは識別できるようになる。しかしながら、図１７に示すように、複数の装置状態情報を機械学習に用いる場合、機械学習で用いるパラメータの数が膨大となる。ＮＮによる機械学習では、パラメータの数が多くなると、機械学習が収束しない場合が多いことが知られている。加えて、同じパラメータの値であっても、障害になる場合と障害にならない場合があり、単純に複数のパラメータを機械学習させても障害を分類できない。

本発明は、１つの側面では、並列処理装置における各ＣＰＵ間の伝送路の障害を、機械学習を利用して予測することを目的とする。

１つの態様では、障害予測装置は、並列処理装置に含まれる複数のノード間通信において、それぞれのノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報を含む教師データを用いて機械学習させた機械学習モデルと、予測対象の複数の前記ログ情報の一部である前記調整パラメータを前記機械学習モデルに順次入力し、前記機械学習モデルからそれぞれの障害予測情報を出力する予測部と、を有する。

１実施態様によれば、障害予測装置は、並列処理装置における各ＣＰＵ間の伝送路の障害を、機械学習を利用して予測することができる。

図１は、実施例に係る障害予測システムの機能構成を示すブロック図である。図２は、伝送異常時の受信波形自動調整パラメータの一例を示す図である。図３は、筐体内のＣＰＵ間の電気接続の概略を示す図である。図４は、ボード上のＣＰＵとＡＯＣとの間の電気接続の概略を示す図である。図５は、ＭＲ規格とＶＳＲ規格の信号振幅の違いを説明する図である。図６は、実施例に係る機械学習装置の機能構成を示すブロック図である。図７は、実施例に係る教師データ生成の流れの一例を示す図である。図８は、実施例に係る機械学習を説明する図である。図９は、実施例に係る管理装置の機能構成を示すブロック図である。図１０は、実施例に係る予測結果の一例を示す図である。図１１は、管理画面の一例を示す図である。図１２は、実施例に係る機械学習のフローチャートの一例を示す図である。図１３は、実施例に係る障害予測のフローチャートの一例を示す図である。図１４は、実施例に係る在庫管理のフローチャートの一例を示す図である。図１５は、障害予測プログラムを実行するコンピュータの一例を示す図である。図１６は、並列処理装置におけるＣＰＵ間接続の参考例を示す図である。図１７は、光伝送と電気伝送の複数の情報を用いた場合の機械学習の参考例を示す図である。

以下に、本願の開示する障害予測装置および障害予測プログラムの実施例を図面に基づいて詳細に説明する。なお、本発明は、実施例により限定されるものではない。

［実施例に係る障害予測システムの構成］
図１は、実施例に係る障害予測システムの機能構成を示すブロック図である。図１に示す障害予測システム９は、ＣＰＵ間通信を行う並列処理装置における通信経路の障害を予測する。障害予測システム９は、通信経路の障害を予測する際、ＣＰＵ間通信のログ情報のうちＣＰＵの伝送波形自動調整パラメータのみを用いて光通信を由来とする障害および電気通信を由来とする障害を予測する機械学習モデルを生成する。そして、障害予測システム９は、機械学習モデルを用いて、ＣＰＵ間通信のログ情報のうちＣＰＵの伝送波形自動調整パラメータを入力し、通信経路の障害を予測する。なお、ＣＰＵの伝送波形自動調整パラメータは、ＣＰＵが受信する信号の伝送波形に関するパラメータであるため、実施例では、「受信波形自動調整パラメータ」と記載する場合がある。また、実施例では、光通信、電気通信をそれぞれ「光伝送」、「電気伝送」と記載する場合がある。

ＣＰＵの伝送波形自動調整パラメータとは、イコライザ（ＣＴＬＥ：Continuous Time Linear Equalizer）、エンファシス（ＤＦＥ：Decision Feedback Equalizer）、オフセット（ＶＯＳ：Voltage OverScaling）のことをいう。ＤＦＥ，ＣＴＬＥおよびＶＯＳは、伝送開始時に伝送波形を自動調整するパラメータであり、伝送波形を調整するための調整量を示す値である。伝送波形が悪い程、調整量は大きくなる。このため、発明者は、これらパラメータの値に基づいて障害であるか正常であるかが判断できるはずと考えた。さらに、伝送路は電気伝送路と光伝送路の２種類あるが、これらは伝送規格の違いから信号振幅や伝送距離が大きく異なる。このため、発明者は、伝送波形を調整するための調整量にもその違いは現れるはずであり、わざわざ機械学習モデルに光伝送路か電気伝送路かを人間が区別したものを入力して学習させるようなことをしなくても、これらパラメータの値のみで電気伝送か光伝送かを区別できるはずと考えた。すなわち、発明者は、ＤＦＥ，ＣＴＬＥ，ＶＯＳのみで電気伝送の正常/異常、光伝送の正常/異常の４種類が区別できると考えた。さらに、発明者は、機械学習（Deep Learning）に基づいて大量のデータを学習させれば異常時はどのような種類の障害であるのかまで分類できるはずと考えた。

ここで、ＣＰＵの伝送波形自動調整パラメータを用いて光通信を由来とする障害および電気通信を由来とする障害を予測することが可能である理由を、図２～図５を参照して説明する。図２は、伝送異常時の受信波形自動調整パラメータの一例を示す図である。図２に示すように、ＣＰＵは、波形調整回路を備える。ＣＰＵは、伝送障害を、信号の受信失敗により検出する。受信失敗の場合には、受信波形が異常な波形になる。波形調整回路は、異常な受信波形を補正しようとするため、受信波形調整パラメータの値は正常時と乖離した値になる。

ここで、図２に示すように、ＣＰＵの受信波形自動調整パラメータには、イコライザ（ＣＴＬＥ）、エンファシス（ＤＦＥ）、オフセット（ＶＯＳ）がある。ＣＴＬＥは、高周波数の調整値を示す。ＤＦＥは、波形の補正の割合を示す。ＶＯＳは、波形のオフセット値の補正の調整値を示す。受信波形自動調整パラメータには、波形調整回路によって受信波形が補正された結果が設定される。

図２では、上図が正常波形の受信波形自動調整パラメータのそれぞれの値を示す。下図が異常波形の受信波形自動調整パラメータのそれぞれの値を示す。すなわち、正常波形の場合には、調整量が、異常波形の場合と比べて小さい。これに対して、異常波形の場合には、調整量が、正常波形と比べて大きい。つまり、波形調整回路は、異常な受信波形を補正しようとするが、受信波形調整パラメータの値は正常時と乖離した値になる。

次に、ＣＰＵには、ＤＡＣを接続する電気伝送ポートとＡＯＣを接続する光伝送ポートの両方が存在する。電気伝送ポートと光伝送ポートとでは、伝送規格が異なる。図３は、筐体内のＣＰＵ間の電気接続の概略を示す図である。図３に示すように、ＤＡＣを用いた電気伝送路では、ＣＰＵ同士をＤＡＣで直接接続するため、筐体内の構成において伝送距離は約１ｍ程度である。このため、ＤＡＣを接続する電気伝送ポートは、ミドルレンジ（ＭＲ：Middle Range）と呼ばれる規格となる。これに対して、図４は、ボード上のＣＰＵとＡＯＣとの間の電気接続の概略を示す図である。図４に示すように、ＡＯＣを用いた光伝送路では、ＣＰＵからボード上に接続されたＡＯＣまでは電気伝送となり、ＡＯＣより以遠では光ケーブル内の光伝送となるため、実質の電気伝送距離は基板配線の５ｃｍ程度である。このため、ＡＯＣを接続する光伝送ポートは、ベリーショートレンジ（ＶＳＲ：Very Short Range）と呼ばれる規格となる。

図５は、ＭＲ規格とＶＳＲ規格の信号振幅の違いを説明する図である。ＭＲ規格とＶＳＲ規格とでは、電気伝送距離が異なり、伝送路伝播による信号減衰幅が異なる。このため、図５に示すように、信号振幅について、ＭＲ規格の方がＶＳＲ規格より大きくなる。

信号振幅が異なると、受信波形を調整するための調整量も異なる。このため、ＤＡＣを用いた電気伝送とＡＯＣを用いた光伝送とでは、ＣＰＵの受信波形自動調整パラメータの値が乖離する。したがって、電気通信（電気伝送と同義）の正常波形および異常波形、並びに、光通信（光伝送と同義）の正常波形および異常波形は、ＣＰＵの受信波形自動調整パラメータのみで判別できる。これにより、実施例に係る障害予測システム９は、ＣＰＵの受信波形自動調整パラメータ（ＣＦＥ，ＣＴＬＥ，ＶＯＳ）のみを用いて、光通信を由来とする障害および電気通信を由来とする障害を予測できる。

図１に戻って、障害予測システム９は、機械学習装置１と、管理装置３と、出荷前の試験装置としての並列処理装置５と、出荷後の製品装置としての並列処理装置７とを有する。並列処理装置５および並列処理装置７には、１筐体に例えば４８０本のＣＰＵ間の通信経路がある。

機械学習装置１は、並列処理装置５に含まれる複数のＣＰＵ間通信において、それぞれのログ情報の一部であるＣＰＵの受信波形自動調整パラメータおよび当該パラメータに対応する正解のエラー情報を含む教師データを用いて機械学習させた学習モデルを生成する。エラー情報は、例えば、試験者によって解析されたエラー種別を示す情報であり、光通信を由来とするエラーおよび電気通信を由来とするエラーを区別できる情報である。なお、機械学習装置１の機能構成の一例は、後述する。

管理装置３は、予測対象の複数のＣＰＵ間通信のそれぞれのログ情報の一部であるＣＰＵの受信波形自動調整パラメータを学習モデルに順次入力し、学習モデルからそれぞれの障害予測情報を出力する。障害予測情報は、例えば、エラー種別およびエラー種別に対応する障害発生確率を示す情報である。そして、管理装置３は、特定のＣＰＵ間通信の障害予測情報が光通信に由来かつ電気通信に由来する場合には、特定のＣＰＵ間通信の障害は光通信に由来する障害と予測する。光通信に関係する部品は、電気通信に関係する部品よりも圧倒的に多いからである。すなわち、光通信に関係する部品であるＡＯＣは、内部に発光素子、受光素子、レンズ、制御ＩＣ、光ケーブルなど部品の数が多く、保守部品を製造業者に発注しても、入手までに時間がかかる場合がある。このため、管理装置３は、障害予測情報が光通信に由来かつ電気通信に由来する場合には、光通信に由来する障害と予測する。加えて、管理装置３は、光通信に由来する障害（または電気通信に由来する障害）と予測された場合には、光通信に関係する部品（または電気通信に関係する部品）の在庫の確認を行う。なお、管理装置３の機能構成の一例は、後述する。

［機械学習装置の機能構成］
図６は、実施例に係る機械学習装置の機能構成を示すブロック図である。図６に示すように、機械学習装置１は、制御部１０と、記憶部２０とを有する。

制御部１０は、ＣＰＵ（Central Processing Unit）などの電子回路に対応する。そして、制御部１０は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部１０は、装置状態情報蓄積部１１、教師データ生成部１２および学習モデル生成部１３を有する。なお、教師データ生成部１２は、取得部の一例である。学習モデル生成部１３は、生成部の一例である。

記憶部２０は、例えば、ＲＡＭ、フラッシュメモリ（Flash Memory）などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。記憶部２０は、装置状態情報記憶ＤＢ２１、教師データＤＢ２２および学習モデル２３を有する。

装置状態情報記憶ＤＢ２１は、並列処理装置５に含まれる複数のＣＰＵそれぞれを搭載するボードごとに、装置状態情報およびエラー情報を対応付けて記憶する。装置状態情報には、ＣＰＵ間通信における通信経路にあるＣＰＵのボードの位置に対応付けて、ＣＰＵの受信波形自動調整パラメータが含まれる。加えて、装置状態情報には、装置内部温度、電圧、ＡＯＣの光送信強度および光受信強度、並びに、ＡＯＣの波形調整パラメータ、内部温度、内部電圧およびクロック状態などの情報が含まれる。また、エラー情報は、試験者によって解析されたエラー種別を示す情報である。エラー種別は、例えば、光通信を由来とするエラーとして訂正可能なエラーおよび訂正不可能なエラー、並びに、電気通信を由来とするエラーとして訂正可能なエラーおよび訂正不可能なエラー、モニタリングオンリーの情報を含む。なお、装置状態情報は、並列処理装置５の出荷試験時に定期的に採取されるとともに、試験の際の障害時にも採取される。

教師データＤＢ２２は、教師データを記憶する。教師データは、ＣＰＵのボードの位置、ＣＰＵの受信波形自動調整パラメータおよび当該パラメータに対応するエラー情報を含んで構成される。なお、教師データは、後述する教師データ生成部１２によって生成される。

学習モデル２３は、ＣＰＵのボードの位置、ＣＰＵの受信波形自動調整パラメータおよび当該パラメータに対応する正解のエラー情報を教師データとして用いた機械学習により生成されるモデルである。つまり、学習モデル２３は、ＣＰＵのボードの位置でＣＰＵの受信波形自動調整パラメータの値であったときのエラー情報を判定するモデルである。機械学習は、ＮＮ（Neural Network）であるが、任意の種別の機械学習であれば良い。なお、学習モデル２３は、学習モデル生成部１３によって生成される。

装置状態情報蓄積部１１は、装置状態情報を蓄積する。例えば、装置状態情報蓄積部１１は、並列処理装置５の出荷試験時に、並列処理装置５から定期的に送信される装置状態情報を受信して、一時的に記憶部２０に格納する。また、装置状態情報蓄積部１１は、並列処理装置５の出荷試験時に、障害が発生した際の装置状態情報を受信して、一時的に記憶部２０に格納する。そして、装置状態情報蓄積部１１は、一時的に記憶したそれぞれの装置状態情報にエラー情報を対応付けて装置状態情報記憶ＤＢ２１に蓄積する。エラー情報は、例えば、試験者によって解析されたエラー種別を示す情報である。

教師データ生成部１２は、教師データを生成する。例えば、教師データ生成部１２は、装置状態情報記憶ＤＢ２１に記憶された装置状態情報から、ＣＰＵの受信波形自動調整パラメータおよびＣＰＵのボードの位置を抽出する。そして、教師データ生成部１２は、装置状態情報が障害発生時の情報の場合には、抽出した情報にエラー情報を連結させ、教師データを生成する際のルールに基づいて教師データを生成する。そして、教師データ生成部１２は、生成した教師データを教師データＤＢ２２に格納する。

ここで、教師データを生成する際のルールについて説明する。並列処理装置５では、ＣＰＵの数が多い。このため、複数のＣＰＵで同じ受信波形自動調整パラメータの値となる場合がある。複数のＣＰＵのうちいずれかのＣＰＵで障害が発生していたとしても、必ずしも同じ受信波形自動調整パラメータの値を持つ全てのＣＰＵで障害が発生するわけではない。これは、例えば、ＣＰＵの材料であるシリコンの特性にバラツキがあるからである。よって、教師データ生成部１２が、単純に受信波形自動調整パラメータの値を全て収集し、後述する学習モデル生成部１３に機械学習させたとしても、生成される学習モデル２３は、障害発生の有無を判定できない。そこで、教師データ生成部１２は、並列処理装置５内の受信波形自動調整パラメータの値ごとに、障害が一度でも発生したことがあるものと障害が一度も発生したことがないものとに分類して教師データを生成する。すなわち、教師データ生成部１２は、受信波形自動調整パラメータの値に対して障害が一度でも発生したことがある場合には、発生時のエラー情報を対応付けて、受信波形自動調整パラメータの値に対する教師データを生成する。

なお、教師データ生成部１２は、並列処理装置５内の受信波形自動調整パラメータの値ごとに、障害が一度でも発生したことがあるものと障害が一度も発生したことがないものとに分類して教師データを生成すると説明した。しかしながら、教師データ生成部１２は、並列処理装置５内のＣＰＵのボードの位置および受信波形自動調整パラメータの値ごとに、障害が一度でも発生したことがあるものと障害が一度も発生したことがないものとに分類して教師データを生成しても良い。すなわち、教師データ生成部１２は、ＣＰＵのボードの位置および受信波形自動調整パラメータの値に対して障害が一度でも発生したことがある場合には、発生時のエラー情報を対応付けて、ＣＰＵのボードの位置および受信波形自動調整パラメータの値に対する教師データを生成する。なお、以降、教師データは、ＣＰＵのボードの位置および受信波形自動調整パラメータの値に対するデータであるとして説明する。

学習モデル生成部１３は、学習モデル２３を生成する。例えば、学習モデル生成部１３は、構築したＮＮに、教師データＤＢ２２に記憶された教師データを入力して、機械学習を実行する。この結果、学習モデル生成部１３は、学習済みの学習モデル２３を生成する。すなわち、学習モデル生成部１３は、ＣＰＵのボードの位置および受信波形自動調整パラメータの値と、対応する正解ラベル（エラー情報）とを入力し、入力に応じて学習モデル２３が出力する予測結果と正解ラベルとの差に基づいた機械学習によって学習モデル２３を更新する。

［教師データ生成の流れ］
図７は、実施例に係る教師データ生成の流れの一例を示す図である。図７に示すように、教師データ生成部１２は、装置状態情報記憶ＤＢ２１に記憶された装置状態情報から、ＣＰＵの受信波形自動調整パラメータおよびボードの位置を抽出する。そして、教師データ生成部１２は、抽出した情報にエラー情報を連結させる。ここでは、図７左表が、ＣＰＵのボード位置、ＣＰＵの受信波形自動調整パラメータおよびエラー情報を対応付けた表である。なお、エラー情報には、障害が発生している場合の「ｅｒｒｏｒ１」および「ｅｒｒｏｒ２」、並びに、障害が発生していない場合の「Ｅｒｒｏｒなし」が含まれている。「ｅｒｒｏｒ１」は、一例として、光通信を由来とする訂正可能なエラー、「ｅｒｒｏｒ２」は、一例として電気通信を由来とする訂正可能なエラーとする。エラー情報は、これに限定されず、光通信を由来とする訂正不可能なエラー、電気通信を由来とする訂正不可能なエラーおよびモニタリングオンリーの情報を含む。

図７左表に示すように、同じＣＰＵ受信波形自動調整パラメータの値であっても、エラー情報が異なる場合がある。例えば、ＣＰＵ受信波形自動調整パラメータについて、ＣＴＬＥが「１１１」、ＤＦＥが「２２２」、ＶＯＳが「３３３」である場合に、エラー情報として「ｅｒｒｏｒ１」と「Ｅｒｒｏｒなし」の場合が存在する。同様に、ＣＰＵ受信波形自動調整パラメータについて、ＣＴＬＥが「４４４」、ＤＦＥが「５５５」、ＶＯＳが「６６６」である場合に、エラー情報として「ｅｒｒｏｒ２」と「Ｅｒｒｏｒなし」の場合が存在する。加えて、同じボード位置かつ同じＣＰＵ受信波形自動調整パラメータの値であっても、エラー情報が異なる場合がある。例えば、ボード位置が「０」、ＣＰＵ受信波形自動調整パラメータについて、ＣＴＬＥが「１１１」、ＤＦＥが「２２２」、ＶＯＳが「３３３」である場合に、エラー情報として「ｅｒｒｏｒ１」と「Ｅｒｒｏｒなし」の場合が存在する。

そこで、教師データ生成部１２は、並列処理装置５内のボード位置およびＣＰＵ受信波形自動調整パラメータの値ごとに、障害が一度でも発生したことがあるものと障害が一度も発生したことがないものとに分類して教師データを生成する。すなわち、教師データ生成部１２は、ボード位置およびＣＰＵ受信波形自動調整パラメータの値に対して障害が一度でも発生したことがある場合には、発生時のエラー情報を対応付けて、ボード位置およびＣＰＵ受信波形自動調整パラメータの値に対する教師データを生成する。

図７右表が、図７左表から生成された教師データの一例である。図７右表に示すように、教師データ生成部１２は、ボード位置「０」、ＣＰＵ受信波形自動調整パラメータについて、ＣＴＬＥ「１１１」、ＤＦＥ「２２２」、ＶＯＳ「３３３」である場合に、エラー情報として「ｅｒｒｏｒ１」を対応付けて教師データを生成する。かかる場合には、エラー情報として「ｅｒｒｏｒ１」と「Ｅｒｒｏｒなし」とが存在し、障害が一度でも発生したことがある場合であるからである。なお、同じボード位置および同じＣＰＵ受信波形自動調整パラメータの値に対して、異なるエラー情報が存在する場合には、より重大なエラー情報が教師データに対応付けられれば良い。

なお、図７では、教師データ生成部１２が、ボード位置およびＣＰＵ受信波形自動調整パラメータの値に対応する教師データを生成する処理の流れを説明した。しかしながら、教師データ生成部１２は、これに限定されず、ＣＰＵ受信波形自動調整パラメータの値に対応する教師データを生成する場合であっても良い。かかる場合には、教師データ生成部１２は、ＣＰＵ受信波形自動調整パラメータの値ごとにエラー情報を対応付けた教師データを生成すれば良い。図７右表では、タイトル行を除外した行のうち上から３行のレコードが教師データとして生成される。

図８は、実施例に係る機械学習を説明する図である。図８に示すように、実施例に係る機械学習で用いるパラメータは、ＣＰＵの伝送波形自動調整パラメータのみである。学習モデル生成部１３は、構築したＮＮに、教師データＤＢ２２に記憶された教師データに含まれるＣＰＵの伝送波形自動調整パラメータを入力して、機械学習を実行してＮＮ（学習モデル２３）を生成する。すなわち、学習モデル生成部１３は、ＣＰＵの伝送波形自動調整パラメータの値と、対応する正解ラベル（エラー情報）とを入力し、入力に応じて学習モデル２３が出力する予測結果と正解ラベルとの差に基づいた機械学習によってＮＮ（学習モデル２３）を更新する。この結果、機械学習は、学習回数に応じて予測結果と正解ラベルとの差が小さくなる。図８右図は、ｘ軸が学習回数、ｙ軸が伝播誤差を示す機械学習の結果を示すグラフである。図８右図に示すように、機械学習は、学習回数に応じて伝播誤差が小さくなり、零に収束することがわかる。これにより、実施例に係る障害予測システム９は、ＣＰＵの伝送波形自動調整パラメータのみを用いて、光通信を由来とする障害および電気通信を由来とする障害を予測することが可能な学習モデル２３を生成することができる。

［管理装置の機能構成］
図９は、実施例に係る管理装置の機能構成を示すブロック図である。図９に示すように、管理装置３は、制御部３０と、記憶部４０と、出力部５０とを有する。

制御部３０は、ＣＰＵなどの電子回路に対応する。そして、制御部３０は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部３０は、予測部３１および在庫管理部３２を有する。なお、管理装置３は、障害予測装置の一例である。

記憶部４０は、例えば、ＲＡＭ、フラッシュメモリ（Flash Memory）などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。記憶部４０は、学習モデル２３、予測結果ＤＢ４１、ＡＯＣ在庫ＤＢ４２およびＣＰＵ在庫ＤＢ４３を有する。

出力部５０は、各種の情報を出力する。なお、出力部５０としては、各種の情報を表示するディスプレイを用いることができる。

学習モデル２３は、機械学習装置１によって機械学習された機械学習済みの学習モデルである。例えば、学習モデル２３は、並列処理装置７を製品として販売した顧客先の管理装置３に複製される。

予測結果ＤＢ４１は、装置状態情報に含まれるＣＰＵの受信波形自動調整パラメータに基づいて予測される予測結果を記憶する。装置状態情報は、並列処理装置７から例えば１日１回など定期的に採取される。

ＡＯＣ在庫ＤＢ４２は、ＡＯＣ部品の在庫を管理するＤＢである。例えば、ＡＯＣ在庫ＤＢ４２は、光ケーブル長が１メートル（ｍ）のＡＯＣ、光ケーブル長が３ｍのＡＯＣ、光ケーブル長が５ｍのＡＯＣなどのＡＯＣ部品の在庫数を記憶する。

ＣＰＵ在庫ＤＢ４３は、ＤＡＣを含むＣＰＵ部品の在庫を管理するＤＢである。例えば、ＣＰＵ在庫ＤＢ４３は、ＤＡＣを含むＣＰＵのボードなどのＣＰＵ部品の在庫数を記憶する。

予測部３１は、予測対象の複数のＣＰＵの受信波形自動調整パラメータを学習モデル２３に順次入力し、学習モデル２３から複数の障害予測情報を出力する。

例えば、予測部３１は、並列処理装置７から定期的に送信される装置状態情報を受信する。予測部３１は、受信した装置状態情報から、ＣＰＵの受信波形自動調整パラメータおよびＣＰＵのボードの位置を抽出する。そして、予測部３１は、抽出したＣＰＵの受信波形自動調整パラメータおよびＣＰＵのボードの位置を学習モデル２３の入力段に入力し、学習モデル２３から出力される障害予測情報に基づき、電気伝送障害または光伝送障害を予測する。障害予測情報には、例えば、エラー種別ごとのそれぞれの障害発生確率を示す情報および、光伝送障害であるか電気伝送障害であるかの分類が含まれる。一例として、学習済みの学習モデル２３は、エラー種別ごとに対応した出力バッファを有し、それぞれの障害発生確率を出力バッファに出力する。障害発生確率には、あらかじめ閾値が設けられている。そして、学習済みの学習モデル２３は、障害発生確率が閾値を超える場合には、将来的に障害が発生すると予測する。すなわち、学習済みの学習モデル２３は、出力段に分類部を有し、電気伝送に対応するエラー種別の障害発生確率が閾値を超える場合には、電気伝送障害と予測し、光伝送に対応するエラー種別の障害発生確率が閾値を超える場合には、光伝送障害と予測する。そして、学習済みの学習モデル２３は、エラー種別ごとのそれぞれの障害発生確率を示す情報および、光伝送障害であるか電気伝送障害であるかの分類を含む障害予測情報を出力する。

また、予測部３１は、１つの装置状態情報から光伝送障害および電気伝送障害の両方を予測する場合には、光伝送障害を優先して予測する。光伝送障害を優先して予測するのは、次の理由による。光伝送路ではＡＯＣ内部は光伝送であるが、ＣＰＵからＡＯＣまでの間は電気伝送である。このため、光伝送路では、光伝送障害と電気伝送障害の両方が発生し得る。ＡＯＣは、ＣＰＵの電気送受信回路や基盤配線に対して、内部に多数の部品を含んでいる。よって、予測部３１は、光伝送路では部品の数が電気伝送部分より光伝送部分の方が圧倒的に多いため、電気伝送障害と光伝送障害の両方を予測する場合には、光伝送障害を優先して予測する。

また、予測部３１は、複数の装置状態情報に対するそれぞれの障害予測情報を予測結果ＤＢ４１に格納する。

［予測結果の一例］
図１０は、実施例に係る予測結果の一例を示す図である。図１０に示すように、予測対象としてＣＰＵのボード位置およびＣＰＵの受信波形自動調整パラメータの値が入力された場合の予測結果の一例である。予測結果として、エラー種別ごとのそれぞれの障害発生確率が出力される。ここでは、ＣＰＵのボード位置が「０」、ＣＰＵの受信波形自動調整パラメータ値について、ＣＴＬＥが「１２３」、ＤＦＥが「４５６」、ＶＯＳが「７８９」が入力された場合である。

予測部３１は、ＣＰＵのボード位置およびＣＰＵの受信波形自動調整パラメータの値を学習モデル２３に入力し、学習モデル２３から障害予測情報に含まれるエラー種別ごとのそれぞれの障害発生確率を出力する。ここでは、エラー種別が「ｅｒｒｏｒ１」の場合には、ＮＮの予測結果としての障害発生確率が「０．４５２７３０」と出力されている。エラー種別が「ｅｒｒｏｒ２」の場合には、ＮＮの予測結果としての障害発生確率が「０．０００１２５」と出力されている。エラー種別が「ｅｒｒｏｒ３」の場合には、ＮＮの予測結果としての障害発生確率が「０．０００００３」と出力されている。エラー種別が「Ｅｒｒｏｒなし」の場合には、ＮＮの予測結果としての障害発生確率が「０．５４７１４２」と出力されている。学習モデル２３の障害発生確率には、あらかじめ閾値として「０．４」が設けられているとする。すると、学習モデル２３は、「ｅｒｒｏｒ１」が閾値を超えるので、「ｅｒｒｏｒ１」の障害と予測し、障害予測情報に含んで出力する。すなわち、この予測対象は、現時点では障害なしであるが、将来的に「ｅｒｒｏｒ１」の障害が発生すると予想される。

また、仮に、「ｅｒｒｏｒ１」が光通信を由来とする訂正可能なエラー、「ｅｒｒｏｒ２」が電気通信を由来とする訂正可能なエラーであるとする。そして、「ｅｒｒｏｒ１」の障害発生確率が「０．４」、「ｅｒｒｏｒ２」の障害発生確率が「０．４」、「ｅｒｒｏｒ３」の障害発生確率が「０．１」、「Ｅｒｒｏｒなし」の障害発生確率が「０．１」である場合とする。かかる場合には、学習モデル２３は、「ｅｒｒｏｒ１」の障害発生確率が「０．４」、「ｅｒｒｏｒ２」の障害発生確率が「０．４」であり、どちらも閾値「０．４」を超えるので、「ｅｒｒｏｒ１」の光伝送障害および「ｅｒｒｏｒ２」の電気伝送障害の両方を予測する。そして、予測部３１は、１つの予測対象から光伝送障害および電気伝送障害の両方を予測する場合であるので、光伝送障害を優先して予測する。

図９に戻って、在庫管理部３２は、ＡＯＣ部品の在庫やＤＡＣを含むＣＰＵ部品の在庫を管理する。

例えば、在庫管理部３２は、予測結果ＤＢ４１に記憶された複数の障害予測情報の予測結果に応じて、並列処理装置７全体の光伝送障害の部品ごとの予測件数と、電気伝送障害の部品ごとの予測件数を集計する。なお、障害予測情報の予測結果が光伝送障害である場合には、在庫管理部３２は、予め定められたＣＰＵのボードの位置とＡＯＣ部品の種類とを対応付けた情報に基づいて、光伝送障害の部品の種類を特定すれば良い。そして、在庫管理部３２は、ＡＯＣ在庫ＤＢ４２からＡＯＣ部品の在庫数を取得する。在庫管理部３２は、ＣＰＵ在庫ＤＢ４３からＣＰＵ部品の在庫数を取得する。そして、在庫管理部３２は、ＡＯＣ部品やＣＰＵ部品ごとに、取得した在庫数、障害の予測件数、必要な補充数を含む情報を管理画面に出力する。必要な補充数は、例えば、在庫数が５以下になると、予備の数が１０となるように求められれば良い。

そして、在庫管理部３２は、必要な補充数に基づいて、部品の補充が必要な場合には、管理者に警告を出力しても良い。また、在庫管理部３２は、光伝送障害の予測件数がＡＯＣの在庫数を上回ったとき、または、電気伝送障害の予測件数がＣＰＵの在庫数を上回ったとき、管理者に警告を出力しても良い。また、保守者は、管理画面上で障害の予測件数、在庫数および必要な補充数を確認して、部品の補充が必要な場合には、管理者に連絡しても良い。この後、管理者は、補充が必要な部品をベンダーに追加発注することができる。

［管理画面の一例］
図１１は、管理画面の一例を示す図である。図１１に示すように、管理画面は、出力部５０に表示されている。管理画面には、部品ごとに、予防交換数、在庫数および必要補充数が表示されている。部品には、例えば、ＡＯＣ部品としてのＡＯＣ１ｍ、ＡＯＣ３ｍ、ＡＯＣ５ｍ、ＣＰＵ部品としてのＣＰＵ（ＤＡＣ）が示されている。また、予防交換数は、在庫管理部３２によって集計された、部品ごとの予測件数である。在庫数は、部品ごとに現に管理されている在庫の数である。必要補充数は、部品ごとに現に補充が必要な予備の数である。

ここでは、部品の種類が「ＡＯＣ１ｍ」である場合には、予防交換数として「５」、在庫数として「１０」、必要補充数として「１０」と表示されている。部品の種類が「ＡＯＣ３ｍ」である場合には、予防交換数として「３」、在庫数として「１０」、必要補充数として「０」と表示されている。部品の種類が「ＡＯＣ５ｍ」である場合には、予防交換数として「８」、在庫数として「５」、必要補充数として「１３」と表示されている。部品の種類がＣＰＵ（ＤＡＣ）である場合には、予防交換数として「１０」、在庫数として「８」、必要補充数として「１２」と表示されている。なお、在庫管理部３２は、必要補充数を、在庫数が５以下になると、予備の数が１０となるように求めている。

そして、保守者は、管理画面上で予防交換数、在庫数および必要補充数を確認して、部品の補充が必要な場合には、管理画面上の例えば通知ボタン（図示しない）を押下することで、管理者に通知しても良い。この後、管理者は、補充が必要な部品をベンダーに追加発注を行うことができる。

［機械学習のフローチャート］
図１２は、実施例に係る機械学習のフローチャートの一例を示す図である。

装置状態情報蓄積部１１は、試験装置から受け付けた装置状態情報にエラー情報を対応付けて装置状態情報記憶ＤＢ２１に蓄積する（ステップＳ１１）。ここでいう試験装置は、並列処理装置５のことをいう。また、エラー情報は、試験者によって解析された情報である。

教師データ生成部１２は、装置状態情報から、ＣＰＵの受信波形自動調整パラメータの値およびＣＰＵのボードの位置を抽出する（ステップＳ１２）。そして、教師データ生成部１２は、受信波形自動調整パラメータの値およびＣＰＵのボードの位置ごとに、教師データを生成する（ステップＳ１３）。例えば、教師データ生成部１２は、装置状態情報が障害発生時の情報の場合には、抽出した受信波形自動調整パラメータの値およびＣＰＵのボードの位置にエラー情報を連結させ、教師データを生成する際のルールに基づいて教師データを生成する。すなわち、教師データ生成部１２は、ＣＰＵのボードの位置および受信波形自動調整パラメータの値ごとに、障害が一度でも発生したことがあるものと障害が一度も発生したことがないものに分類する。そして、教師データ生成部１２は、障害が一度でも発生したことがある場合には、発生時のエラー情報を対応付けて、ＣＰＵのボードの位置および受信波形自動調整パラメータの値に対する教師データを生成する。

そして、学習モデル生成部１３は、ＮＮで教師データを学習し、学習モデル２３を生成する（ステップＳ１４）。そして、学習モデル生成部１３は、機械学習処理を終了する。

［障害予測のフローチャート］
図１３は、実施例に係る障害予測のフローチャートの一例を示す図である。なお、製品装置から複数の装置状態情報が定期的に送信されるとする。ここでいう製品装置は、並列処理装置７のことをいう。

予測部３１は、製品装置から複数の装置状態情報を受け付ける（ステップＳ２１）。予測部３１は、受け付けた複数の装置状態情報を記憶部４０に保持する（ステップＳ２２）。

予測部３１は、装置状態情報を順次選択する（ステップＳ２３）。そして、予測部３１は、選択した装置状態情報からＣＰＵの受信波形自動調整パラメータの値およびＣＰＵのボードの位置を抽出する（ステップＳ２４）。

そして、予測部３１は、抽出したＣＰＵの受信波形自動調整パラメータの値およびＣＰＵのボードの位置を学習モデル２３に入力する（ステップＳ２５）。予測部３１は、学習モデル２３で解析し、障害予測を実行する（ステップＳ２６）。例えば、予測部３１は、学習モデル２３によって解析された障害予測情報であって、エラー種別ごとのそれぞれの障害発生確率を示す情報および、光伝送障害であるか電気伝送障害であるかの分類を含む障害予測情報に基づき光伝送障害または電気伝送障害を予測する。なお、予測部３１は、光伝送障害および電気伝送障害の両方を予測する場合には、光伝送障害を優先して予測する。そして、予測部３１は、装置状態情報に対する障害予測情報を予測結果ＤＢ４１に格納する。

そして、予測部３１は、障害予測を終了するか否かを判定する（ステップＳ２７）。障害予測を終了しないと判定した場合には（ステップＳ２７；Ｎｏ）、予測部３１は、次の装置状態情報を選択すべく、ステップＳ２３に移行する。

一方、障害予測を終了したと判定した場合には（ステップＳ２７；Ｙｅｓ）、予測部３１は、障害予測処理を終了する。

［在庫管理のフローチャート］
図１４は、実施例に係る在庫管理のフローチャートの一例を示す図である。

在庫管理部３２は、障害予測された結果から保守部品の障害数を算出する（ステップＳ３１）。例えば、在庫管理部３２は、予測結果ＤＢ４１に記憶された複数の障害予測情報の予測結果に応じて、製品装置（並列処理装置７）全体の光伝送障害の部品ごとの予測件数と、電気伝送障害の部品ごとの予測件数を集計する。

そして、在庫管理部３２は、保守部品の障害数と在庫数とから保守部品の補充数を算出する（ステップＳ３２）。例えば、在庫管理部３２は、保守部品ごとに、在庫数から障害数を引いて得られる在庫数が５以下になると、予備の数が１０となるように、必要な補充数を算出する。ここでは、保守部品とは、光伝送に関わるＡＯＣ部品および電気伝送に関わるＣＰＵ部品のことをいう。

そして、在庫管理部３２は、保守部品の障害数、在庫数および補充数を管理画面に出力する（ステップＳ３３）。例えば、在庫管理部３２は、ＡＯＣ部品やＣＰＵ部品ごとに、在庫数、障害の予測件数、必要な補充数を含む情報を管理画面に出力する。

そして、在庫管理部３２は、補充数に基づき、補充が必要であれば、管理者に通知する（ステップＳ３４）。そして、在庫管理部３２は、在庫管理処理を終了する。

［実施例の効果］
上記実施例によれば、管理装置３は、並列処理装置７に含まれる複数のノード間通信において、それぞれのノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび調整パラメータに対応する正解の障害情報を含む教師データを用いて機械学習させる学習モデル２３を有する。そして、管理装置３は、予測対象の複数のログ情報の一部である調整パラメータを学習モデル２３に順次入力し、学習モデル２３からそれぞれの障害予測情報を出力する。かかる構成によれば、管理装置３は、並列処理装置７における各ノード間の伝送路の障害予測を、ノードにおける受信波形調整パラメータを用いた機械学習を利用して行うことができる。

また、上記実施例によれば、通信波形の調整パラメータは、ＣＴＬＥ、ＤＦＥおよびＶＯＳである。これにより、管理装置３は、並列処理装置７における各ノード間の伝送路の障害予測を、ノードにおけるＣＴＬＥ，ＤＦＥおよびＶＯＳを用いた機械学習を利用して行うことができる。

また、上記実施例によれば、学習モデル２３は、ノードにおける調整パラメータの値に対して正解ラベルを持ち、一度でもエラーになったことがある場合にはエラー時の障害情報を正解ラベルとし、一度もエラーになったことがない場合にはエラーがないことを示す情報を正解ラベルとする教師データを用いて機械学習させる。かかる構成によれば、管理装置３は、以下の効果を奏する。ノードの材料の特性にバラツキが有る場合には、ノードにおける受信波形調整パラメータが同じでも異なるエラーになることがある。そこで、学習モデル２３は、ノードにおける受信波形調整パラメータに対して、一度でもエラーになったことがある場合にはエラー時の障害情報を正解ラベルとする教師データを用いて機械学習させる。この結果、管理装置３は、単純に全ての受信波形調整パラメータを用いる場合と比べて機械学習によって障害発生の有無を識別することが可能となる。

また、上記実施例によれば、管理装置３は、複数の障害予測情報のうち特定のノードの障害予測情報が光伝送障害に由来する情報かつ電気伝送障害に由来する情報である場合には、特定のノードの障害予測情報を光伝送障害に由来する情報と予測する。かかる構成によれば、管理装置３は、以下の効果を奏する。光伝送路では、ＡＯＣ内部は光伝送であるが、ノードからＡＯＣまでの間は電気伝送であるので、光伝送障害と電気伝送障害の両方が発生し得る。そこで、管理装置３は、両方を予測する場合には、光伝送障害と予測することで、例えば、多数の部品を含んでいるＡＯＣの保守を高速に行うことができる。

また、上記実施例によれば、管理装置３は、複数の障害予測情報を基に、並列処理装置７における光伝送障害の予測件数と、電気伝送障害の予測件数を集計する。管理装置３は、部品の在庫情報から、光部品および電気部品の在庫数を取得する。管理装置３は、光伝送障害の予測件数が光部品の在庫数を上回ったとき、または、電気伝送障害の予測件数が電気部品の在庫数を上回ったとき、管理者に警告を出力する。かかる構成によれば、管理装置３は、並列処理装置７で伝送障害があった場合の保守を迅速に行うことが可能となる。

［その他］
なお、図示した管理装置３の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、管理装置３の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、管理装置３において、予測部３１を、伝送障害を予測する第１の予測部と、光伝送障害および電気伝送障害の両方を予測する場合には光伝送障害と予測する第２の予測部とに分散しても良い。機械学習装置１において、装置状態情報蓄積部１１と教師データ生成部１２とを１つの部として統合しても良い。また、記憶部２０を機械学習装置１の外部装置としてネットワーク経由で接続するようにしても良い。記憶部４０を管理装置３の外部装置としてネットワーク経由で接続するようにしても良い。

また、上記実施例では、機械学習処理を行う機械学習装置１と予測処理および在庫管理処理を行う管理装置３とに分離する構成で説明した。しかしながら、情報処理装置が、機械学習処理と予測処理および在庫管理処理とを含むような構成としても良い。

また、上記実施例では、管理装置３に予測処理および在庫管理処理を含む構成で説明した。しかしながら、第１の管理装置が予測処理を実行し、第２の管理装置が在庫管理処理を実行するような構成を採用しても良い。

また、上記実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図９に示した管理装置３と同様の機能を実現する障害予測プログラムを実行するコンピュータの一例を説明する。図１５は、障害予測プログラムを実行するコンピュータの一例を示す図である。

図１５に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０３と、ユーザからのデータの入力を受け付ける入力装置２１５と、表示装置２０９を制御する表示制御部２０７とを有する。また、コンピュータ２００は、記憶媒体からプログラムなどを読取るドライブ装置２１３と、ネットワークを介して他のコンピュータとの間でデータの授受を行う通信制御部２１７とを有する。また、コンピュータ２００は、各種情報を一時記憶するメモリ２０１と、ＨＤＤ（Hard Disk Drive）２０５を有する。そして、メモリ２０１、ＣＰＵ２０３、ＨＤＤ２０５、表示制御部２０７、ドライブ装置２１３、入力装置２１５、通信制御部２１７は、バス２１９で接続されている。

ドライブ装置２１３は、例えばリムーバブルディスク２１０用の装置である。ＨＤＤ２０５は、障害予測プログラム２０５ａおよび障害予測処理関連情報２０５ｂを記憶する。

ＣＰＵ２０３は、障害予測プログラム２０５ａを読み出して、メモリ２０１に展開し、プロセスとして実行する。かかるプロセスは、管理装置３の各機能部に対応する。障害予測処理関連情報２０５ｂは、学習モデル２３、予測結果ＤＢ４１、ＡＯＣ在庫ＤＢ４２およびＣＰＵ在庫ＤＢ４３に対応する。そして、例えばリムーバブルディスク２１０が、障害予測プログラム２０５ａなどの各情報を記憶する。

なお、障害予測プログラム２０５ａについては、必ずしも最初からＨＤＤ２０５に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ（Digital Versatile Disk）、光磁気ディスク、ＩＣ（Integrated Circuit）カードなどの「可搬用の物理媒体」に当該プログラムを記憶させておく。そして、コンピュータ２００がこれらから障害予測プログラム２０５ａを読み出して実行するようにしても良い。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）並列処理装置に含まれる複数のノード間通信において、それぞれのノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報を含む教師データを用いて機械学習させた機械学習モデルと、
予測対象の複数の前記ログ情報の一部である前記調整パラメータを前記機械学習モデルに順次入力し、前記機械学習モデルからそれぞれの障害予測情報を出力する予測部と、
を有することを特徴とする障害予測装置。

（付記２）前記通信波形の調整パラメータは、ＣＴＬＥ（Continuous Time Linear Equalizer）、ＤＦＥ（Decision Feedback Equalizer）およびＶＯＳ（Voltage OverScaling）である
ことを特徴とする付記１に記載の障害予測装置。

（付記３）前記機械学習モデルは、前記ノードにおける前記調整パラメータの値に対して正解ラベルを持ち、一度でもエラーになったことがある場合にはエラー時の障害情報を前記正解ラベルとし、一度もエラーになったことがない場合にはエラーがないことを示す情報を前記正解ラベルとする教師データを用いて機械学習させる
ことを特徴とする付記１に記載の障害予測装置。

（付記４）前記予測部は、前記複数の障害予測情報のうち特定のノードの障害予測情報が光伝送障害に由来する情報かつ電気伝送障害に由来する情報である場合には、前記特定のノードの障害予測情報を前記光伝送障害に由来する情報と予測する
ことを特徴とする付記１または付記３に記載の障害予測装置。

（付記５）前記複数の障害予測情報を基に、前記並列処理装置における前記光伝送障害の予測件数と、前記電気伝送障害の予測件数を集計する集計部と、
部品の在庫情報から、光部品および電気部品の在庫数を取得する取得部と、
前記光伝送障害の予測件数が光部品の在庫数を上回ったとき、または、前記電気伝送障害の予測件数が電気部品の在庫数を上回ったとき、管理者に警告を出力する出力部と、
をさらに有することを特徴とする付記４に記載の障害予測装置。

（付記６）並列処理装置に含まれる複数のノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報からなる教師データを用いて機械学習させた機械学習モデルに、予測対象の複数の前記ログ情報の一部である前記調整パラメータを順次入力し、
前記機械学習モデルからそれぞれの障害予測情報を出力する
処理をコンピュータに実行させる障害予測プログラム。

（付記７）並列処理装置に含まれる複数のノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報からなる教師データを用いて機械学習させた機械学習モデルに、予測対象の複数の前記ログ情報の一部である前記調整パラメータを順次入力し、
前記機械学習モデルからそれぞれの障害予測情報を出力する
処理をコンピュータが実行する障害予測方法。

（付記８）並列処理装置に含まれる複数のノード間通信において、それぞれのノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報を含む教師データを複数取得する取得部と、
前記教師データを用いて、特定のノード間通信の前記調整パラメータを入力、前記障害情報を出力とする機械学習モデルを生成する生成部と、
を有することを特徴とする機械学習装置。

（付記９）並列処理装置に含まれる複数のノード間通信において、それぞれのノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報を含む教師データを複数取得し、
前記教師データを用いて、特定のノード間通信の前記調整パラメータを入力、前記障害情報を出力とする機械学習モデルを生成する、
処理をコンピュータに実行させる機械学習プログラム。

（付記１０）並列処理装置に含まれる複数のノード間通信において、それぞれのノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報を含む教師データを複数取得し、
前記教師データを用いて、特定のノード間通信の前記調整パラメータを入力、前記障害情報を出力とする機械学習モデルを生成する、
処理をコンピュータが実行する機械学習方法。

１機械学習装置
１０制御部
１１装置状態情報蓄積部
１２教師データ生成部
１３学習モデル生成部
２０記憶部
２１装置状態情報記憶ＤＢ
２２教師データＤＢ
２３学習モデル
３管理装置
３０制御部
３１予測部
３２在庫管理部
４０記憶部
４１予測結果ＤＢ
４２ＡＯＣ在庫ＤＢ
４３ＣＰＵ在庫ＤＢ
５０出力部
５，７並列処理装置
９障害予測システム

Claims

並列処理装置に含まれる複数のノード間通信において、それぞれのノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報を含む教師データを用いて機械学習させた機械学習モデルと、
予測対象の複数の前記ログ情報の一部である前記調整パラメータを前記機械学習モデルに順次入力し、前記機械学習モデルからそれぞれの障害予測情報を出力する予測部と、
を有することを特徴とする障害予測装置。
前記通信波形の調整パラメータは、ＣＴＬＥ（Continuous Time Linear Equalizer）、ＤＦＥ（Decision Feedback Equalizer）およびＶＯＳ（Voltage OverScaling）である
ことを特徴とする請求項１に記載の障害予測装置。
前記機械学習モデルは、前記ノードにおける前記調整パラメータの値に対して正解ラベルを持ち、一度でもエラーになったことがある場合にはエラー時の障害情報を前記正解ラベルとし、一度もエラーになったことがない場合にはエラーがないことを示す情報を前記正解ラベルとする教師データを用いて機械学習させる
ことを特徴とする請求項１に記載の障害予測装置。
前記予測部は、複数の障害予測情報のうち特定のノードの障害予測情報が光伝送障害に由来する情報かつ電気伝送障害に由来する情報である場合には、前記特定のノードの障害予測情報を前記光伝送障害に由来する情報と予測する
ことを特徴とする請求項１または請求項３に記載の障害予測装置。
前記複数の障害予測情報を基に、前記並列処理装置における前記光伝送障害の予測件数と、前記電気伝送障害の予測件数を集計する集計部と、
部品の在庫情報から、光部品および電気部品の在庫数を取得する取得部と、
前記光伝送障害の予測件数が光部品の在庫数を上回ったとき、または、前記電気伝送障害の予測件数が電気部品の在庫数を上回ったとき、管理者に警告を出力する出力部と、
をさらに有することを特徴とする請求項４に記載の障害予測装置。
並列処理装置に含まれる複数のノード間通信のログ情報の一部であるノードにおいて受信される通信波形の調整パラメータおよび前記調整パラメータに対応する正解の障害情報からなる教師データを用いて機械学習させた機械学習モデルに、予測対象の複数の前記ログ情報の一部である前記調整パラメータを順次入力し、
前記機械学習モデルからそれぞれの障害予測情報を出力する
処理をコンピュータに実行させる障害予測プログラム。