JP2019502969A

JP2019502969A - スーパーコンピュータの保守および最適化を支援するための方法およびシステム

Info

Publication number: JP2019502969A
Application number: JP2017568147A
Authority: JP
Inventors: ペレティエ，ブノワ; ベリーノ，ジュリアン
Original assignee: ブル・エス・アー・エス
Priority date: 2015-11-27
Filing date: 2016-11-24
Publication date: 2019-01-31
Also published as: CN108780417A; BR112017028159A2; EP3380942A1; FR3044437A1; WO2017089485A1; US20190004885A1; CA2989514A1; FR3044437B1; EP3380942B1

Abstract

本発明は、保守を支援するためのシステムに、少なくとも１つのセンサにより、スーパーコンピュータの少なくとも１つの計算ノードの統計データを表す信号を送出することと、統計データの将来の変化を、センサによって送出された統計データを表す信号に基づき、一定間隔で予測することと、予測ステップで予測された将来の変化に対する、センサによって送出された統計データを表す信号の変化の異常を検出することとを含む、スーパーコンピュータの保守および最適化を支援するための方法に関する。本発明はまた、保守および最適化を支援するためのシステムにも関する。

Description

本発明は、スーパーコンピュータの分野に関する。より詳細には、本発明は、リアルタイムで異常を検出してスーパーコンピュータの動作を最適化することを目的とした、スーパーコンピュータの保守および最適化を支援するための方法およびシステムを提案するものである。

複雑な問題を解決するため、企業がスーパーコンピュータに頼ることは稀ではない。実際に、企業は自社の要求に応えるため、計算を効果的に行う可能性を追い求めている。それには相当なインフラストラクチャが必要となる。好ましい計算能力を提供するため、スーパーコンピュータは時に数千ものマシンを備える。例えば、スーパーコンピュータであるＴＥＲＡ１００は、３，０００個を超える計算ノードを備えている。しかも、これらのマシンはすべて相互接続され、そのことが一層インフラストラクチャを複雑なものにしている。かかるインフラストラクチャは、特に高性能計算（ＨＰＣ）に使用される高速ネットワークであることから、各マシンのリンクも、それに見合って膨大なものとなる。

種々のスーパーコンピュータが複雑な問題を処理することの他に、クリティカルタスクが問題となることも多い。これにより、スーパーコンピュータの性能を検討することに加え、その信頼性を向上させることも重要になる。この種のインフラストラクチャにおいて、今日では実際に、３０分毎にクリティカルエラーが発生していると言うことができる。こうした潜在的ブレークダウンに加え、あるマシンから別のマシンへとネットワークパケットを送信するパスであるルーティングを恒常的に更新する必要がある。事実、スーパーコンピュータを介して起動するアプリケーションによっては輻輳現象も生じ得る。

上述の複雑性により、人間による分析は不可能であるか、または少なくとも非常に限定されたものとなる。実際に、この種の重要システムでは、エラーに続く復帰までの時間が長期化する場合も多く、それがサービス中断の原因となる。したがって、本発明の理念は、ネットワークの保守をリアルタイムで支援することでかかる復帰性を改善し、それによりサービスの中断を最小化するツールを提供することである。その目的は、スーパーコンピュータの信頼性を向上させることにある。スーパーコンピュータの信頼性を向上させるということは、その利用を最適化し、実行される計算動作を最適化するという意味でもある。

文献、ＵＳ２０１４／０３５８８３３Ａ１では、処理環境の保守処理、より正確には、将来のある時点における前記環境の異常状態を予測するための予測方法が開示されている。前記方法には、処理システムに関するパラメータのうちの１つまたは複数のパラメータの１つまたは複数の値を取得して、１つまたは複数の測定基準に関し、将来の１つまたは複数の時点について予測された１つまたは複数の値を決定し、予測された値に基づき、１つまたは複数の時点についての１つまたは複数の変化値を決定し、１つまたは複数の変化値に基づいて処理システム内に異常状態が存在するかどうかを決定することが含まれる。

しかし、処理すべきパラメータまたはデータの数が多ければ、異常検出処理に負担を強いる可能性がある。ＵＳ２０１４／０３５８８３３Ａ１に開示の方法では、誤り予測または異常検出につながり得る任意のパラメータがいくつか検討されてもいる。

米国特許出願公開第２０１４／０３５８８３３号明細書

したがって、本発明の目的は、スーパーコンピュータの保守および最適化を支援するための方法およびシステムを提案することにより、先行技術の１つまたは複数の欠点を取り除くことである。本方法および本システムは、スーパーコンピュータの信頼性を向上させるものである。スーパーコンピュータの信頼性を向上させるということは、その利用を最適化し、実行される計算動作を最適化するという意味でもある。

そのような理由から、本発明は、スーパーコンピュータの保守および最適化を支援するための方法であって：
− 少なくとも１つのセンサにより、スーパーコンピュータの少なくとも１つの計算ノードの統計データを表す信号を、保守を支援するためのシステムに送信するステップと、
− 保守を支援するためのシステムのプロセッサによって管理される予測アルゴリズムにより、センサによって送信されて保守を支援するためのシステムの記憶手段に記憶される統計データを表す信号から、統計データの将来の変化を一定間隔で予測するステップと、
− プロセッサによって管理される検出アルゴリズムにより、センサによって送信された統計データを表す信号の、予測ステップで予測された将来の変化に対しての変化の異常をリアルタイムで検出するステップと
を含み、将来の変化を予測するステップおよび異常の検出が、前記スーパーコンピュータの保守および最適化を実施するのに必要な前記信号を送信した前記センサに応じた、統計データを表す前記信号に関する少なくとも１つの第１のフィルタリングおよび少なくとも１つの第２のフィルタリングを含むことを特徴とする方法に関する。

別の特徴によれば、予測ステップは以下のステップを含む：
− 統計データを表す信号という形でセンサによって送信された統計データを、記憶手段に記憶するステップと、
− プロセッサによって管理されるモデル化アルゴリズムにより、記憶手段に記憶される予測数理モデルを統計データから構築するステップと、
− プロセッサによって管理される計算アルゴリズムにより、予測数理モデルから統計データの将来の変化、および統計データの将来の変化の範囲を定める信頼区間を計算するステップと、
− 将来の変化および信頼区間を、記憶手段に記憶するステップ。

別の特定の特徴によれば、予測数理モデルの構築が、プロセッサによって管理されるモデル化アルゴリズムにより、直近の２時間でセンサによって送信された統計データを表す信号からの統計データから計算される。

別の特定の特徴によれば、予測ステップは、６０分という一定間隔で実施される。

別の特定の特徴によれば、検出ステップは以下のステップを含む：
− プロセッサによって管理される検出アルゴリズムにより、統計データを表す信号を、記憶手段に最後に記憶された将来の変化および信頼区間と比較するステップと、
− 検出アルゴリズムによって検出された異常を、異常に関する表として、記憶手段に記憶するステップであって、異常は、統計データを表す信号が信頼区間を外れる、かつ／または将来の変化から逸脱した際に検出される、記憶するステップ。

別の特定の特徴によれば、予測ステップが、設定されたある時間間隔の間の、プロセッサによって管理される集計アルゴリズムによる、記憶手段に記憶される統計データの、第１の集計ステップを更に含み、検出ステップが、同一の時間間隔の間の、プロセッサによる、センサによってリアルタイムで送信された統計データを表す信号の、第２の集計ステップを更に含む。

別の特定の特徴によれば、予測ステップの間の、前記プロセッサによって管理されるフィルタリングアルゴリズムによる、統計データの、これらの統計データを表す前記信号を送信した前記センサに応じての、第１のフィルタリングが、構築ステップに先行し、検出ステップにおける、プロセッサによって管理されるフィルタリングアルゴリズムによる、統計データを表す信号であって、この表す信号を送信した前記センサから到来した統計データを表す信号の、第２のフィルタリングが、比較ステップに先行する。

別の特定の特徴によれば、フィルタリングステップが、異常の予測および／または検出に必要な信号を送信するセンサだけを残すようにセンサをフィルタリングする。

別の特定の特徴によれば、予測ステップが、保守を支援するためのシステムのプロセッサが将来の変化および信頼区間の値を表す信号を表示手段によって表示されるように表示手段に送信する、第１の表示ステップを含む。

別の特定の特徴によれば、検出ステップが、保守を支援するためのシステムのプロセッサが表示手段に検出アルゴリズムによって異常が検出された際に検出アルゴリズムによって検出された異常を表す信号を送信する、第２の表示ステップを含む。

別の特定の特徴によれば、スーパーコンピュータに関する情報、即ち、前記スーパーコンピュータの記憶領域に記憶された、前記情報を含む、保守を支援するためのシステムに送信されたデータから、予測ステップが更に実行される。

本発明はまた、スーパーコンピュータの保守および最適化を支援するためのシステムであって、少なくとも１つのプロセッサと、前記スーパーコンピュータの少なくとも１つの計算ノード内に位置する少なくとも１つのセンサによって送信された統計データを表す信号の記憶手段とを含む、コンピュータインフラストラクチャを備え、前記記憶手段はまた、少なくとも：
− 前記プロセッサ上で実行されることで、前記センサからの統計データを表す信号から統計データの将来の変化を一定間隔で予測するものである、予測アルゴリズムと、
− 前記プロセッサ上で実行されることで、予測アルゴリズムによって予測された変化に対する前記センサからの統計データを表す信号の変化の異常をリアルタイムで検出するものである、検出アルゴリズムと
を含み、プロセッサ上で実行されることで、統計データを表す前記信号を、保守および最適化の方法を実施するのに必要なこれらの統計データを表す前記信号を送信した前記センサに応じてフィルタリングするものである、少なくとも１つのアルゴリズムを更に含むことを特徴とするシステムに関する。

別の特定の特徴によれば、コンピュータインフラストラクチャは以下を更に含む：
− 記憶手段に記憶された統計データから予測数理モデルを構築することが可能な、記憶手段に記憶されるモデル化アルゴリズムと、
− 予測数理モデルから統計データの将来の変化、および統計データの将来の変化の範囲を定める信頼区間を計算することが可能な、記憶手段に記憶される計算アルゴリズム。

別の特定の特徴によれば、検出アルゴリズムは、統計データを表す信号を、記憶手段に最後に記憶された将来の変化および信頼区間と比較することができる。

別の特定の特徴によれば、コンピュータインフラストラクチャが、記憶手段に記憶される毎分の統計データを集計すること、およびセンサによってリアルタイムで送信された統計データを表す毎分の信号を集計することが可能な、記憶手段に記憶される少なくとも１つの集計アルゴリズムを含む。

別の特定の特徴によれば、コンピュータインフラストラクチャが、記憶手段に記憶された統計データおよび統計データを表す信号を、これらの統計データを表す信号を送信したセンサに応じてフィルタリングすることが可能な、記憶手段に記憶されるフィルタリングアルゴリズムを更に含む。

別の特定の特徴によれば、コンピュータインフラストラクチャが、各センサについて、異常の予測および／または検出に必要な信号のタイプを選択し、それらのセンサすべての中で、異常の予測および／または検出に必要な前記データまたは前記信号のフィルタリングに使用される特定の数のセンサを選択する、インタフェースを備える。

別の特定の特徴によれば、システムが、少なくとも将来の変化および信頼区間の値を表示可能な表示手段を更に備える。

その他、本発明が有する個々の特徴および利点については、添付図面に関連した以下の説明を読むことによって明瞭となろう。

一実施形態による、スーパーコンピュータの保守および最適化を支援するためのシステムを示す概略図である。一実施形態による、方法のフローチャートである。保守および最適化を支援するためのシステムのアーキテクチャの一例を示す概略図である。方法のフローチャートを要約した概略図である。

上で指定した図面を参照しながら、本発明を以下で説明する。

本発明は、スーパーコンピュータ（１）の保守および最適化を支援するための方法およびシステムに関する。

方法およびシステムは、例えば、スーパーコンピュータ（１）の各ノード（Ｎ１、Ｎ２、…、Ｎｎ）のネットワークカード上に存在する、物理センサ（Ｃ１、Ｃ２、…Ｃｎ）のセットに基づく。これらのセンサ（Ｃ１、Ｃ２、…、Ｃｎ）は、いくつかの統計データを表す信号（Ｓ）を生成することができる。

この統計データは、例えば、計算ノード（Ｎ１、Ｎ２、…、Ｎｎ）によって送信されたパケット数、計算ノード（Ｎ１、Ｎ２、…、Ｎｎ）が受信したパケット数、または計算ノード（Ｎ１、Ｎ２、…、Ｎｎ）がロスしたパケット数とすることができる。この統計データは、計算ノード（Ｎ１、Ｎ２、…、Ｎｎ）内で発見されたエラーコード、または計算ノード（Ｎ１、Ｎ２、…、Ｎｎ）の輻輳インジケータとすることもできる。

方法およびシステムは、スーパーコンピュータ（１）内に既に存在している特定のデータベースにも基づく。このデータベースは、スーパーコンピュータ（１）に関連する情報を統計的に含み得る。例えば、このデータベースには、各ノード（Ｎ１、Ｎ２、…、Ｎｎ）やそれらのリンクに関する物理情報および論理情報が含まれる。データベースおよび情報は、例えば、スーパーコンピュータの記憶領域に記憶される。

スーパーコンピュータ（１）の保守および最適化を支援するためのシステムには、同システムのビジネスロジックをホストする、仮想または実在のコンピュータインフラストラクチャ（２）が含まれる。

コンピュータ構造には、少なくとも１つのプロセッサ（４）および記憶手段（３）が含まれる。

記憶手段（３）は、センサ（Ｃ１、Ｃ２、…、Ｃｎ）によって送信されて記憶手段（３）に記憶される統計データを表す信号から、将来における統計データの変化を一定間隔で予測するための、少なくとも１つの予測アルゴリズム（１０）を記憶している。

また、記憶手段（３）には、センサ（Ｃ１、Ｃ２、…、Ｃｎ）によって送信された統計データを表す信号の、予測アルゴリズム（１０）が予測した変化に対しての変化の異常をリアルタイムで検出するための、検出アルゴリズム（９）が含まれる。

一実施形態によれば、検出アルゴリズム（９）は、統計データを表す信号を、記憶手段（３）に最後に記憶された将来の変化および信頼区間と比較することができる。非限定的な方法では、信頼区間は５％に固定され得る。

コンピュータインフラストラクチャ（２）は、記憶手段（３）に記憶された、モデル化アルゴリズム（１０ａ）を更に含み得る。モデル化アルゴリズム（１０ａ）は、記憶手段（３）に記憶された統計データから、予測数理モデルを構築する。

一実施形態によれば、モデル化アルゴリズム（１０ａ）は、先行値に応じて時系列の各値を決定するモデルを構築する。例えば、このモデルは、混合型ＡＲＩＭＡ（自己回帰和分移動平均）モデルである。モデルは記憶手段に記憶される。

コンピュータインフラストラクチャ（２）は、記憶手段（３）に記憶された、計算アルゴリズム（１０ｂ）を更に含み得る。計算アルゴリズム（１０ｂ）は、モデル化アルゴリズム（１０ａ）によって構築された予測数理モデルから、統計データの将来の変化、および統計データの将来の変化の範囲を定める信頼区間を計算する。

コンピュータインフラストラクチャ（２）は、記憶手段（３）に記憶される毎分の統計データを集計する、記憶手段（３）に記憶された少なくとも１つの集計アルゴリズム（７）を更に含み得る。また、集計アルゴリズム（７）は、センサ（Ｃ１、Ｃ２、…、Ｃｎ）によってリアルタイムで送信された統計データを表す毎分の信号を集計する。

集計アルゴリズム（７）は、例えば、一組の値の平均値または中央値を求める関数である。分析対象の統計データに適応した他の集計関数が用いられてもよい。

このような方法で、集計アルゴリズム（７）は、記憶手段（３）に記憶される統計データの毎分の平均値または中央値を求めて、毎分の統計データを集計することができる。集計アルゴリズム（７）は、センサ（Ｃ１、Ｃ２、…、Ｃｎ）によってリアルタイムで送信された統計データを表す信号の平均値または中央値を毎分求めることで、統計データを表す毎分の信号をリアルタイムで集計することもできる。

コンピュータインフラストラクチャ（２）は、記憶手段（３）に記憶されたフィルタリングアルゴリズム（６）を更に含み得る。フィルタリングアルゴリズム（６）は、記憶手段（３）に記憶された統計データおよび統計データを表す信号を、これらの統計データを表す信号を送信したセンサ（Ｃ１、Ｃ２、…、Ｃｎ）に応じてフィルタリングする。

システムは、将来の変化および信頼区間の値を表示する、表示手段（５）を更に備える。表示手段（５）が将来の変化および信頼区間の値を表示するよう、これらの値を表す信号がコンピュータインフラストラクチャ（２）のプロセッサ（４）によって送信される。

プロセッサ（４）は、異常を表す信号を、例えば、異常に関する表（１０２^ｅ）という形で送信することもできる。

プロセッサ（４）は、統計データを表す信号をリアルタイムで表示手段（５）に送信することもできる。それにより、その表示手段（５）は、統計データに関するこれらの値を表示する。

スーパーコンピュータ（１）の保守および最適化を支援するためのシステムによって実施される方法は、少なくとも１つのセンサ（Ｃ１、Ｃ２、…、Ｃｎ）により、保守を支援するためのシステムのプロセッサに、スーパーコンピュータ（１）の少なくとも１つの計算ノード（Ｎ１、Ｎ２、…、Ｎｎ）の統計データを表す信号を送信する、少なくとも１つのステップ（１００）を含む。非限定的な方法では、送信される統計データは、１５０Ｇｏ／ｈという速度で送信され得る。

一実施形態によれば、送信ステップ（１００）は、スーパーコンピュータのデータベースを介し、スーパーコンピュータに関連する情報を、保守を支援するためのシステムのプロセッサに送信するステップ（１００ａ）、および／または、スーパーコンピュータに関連する情報を検索するために、保守を支援するためのシステムのプロセッサによって、スーパーコンピュータのデータベースを調査するステップ（１００ａ）を含み得る。

方法は、センサ（Ｃ１、Ｃ２、…、Ｃｎ）によって送信されて保守を支援するためのシステムの記憶手段（３）に記憶される統計データを表す信号から、将来における統計データの変化を一定間隔で予測するステップ（１０２）を更に含む。予測ステップ（１０２）は、保守を支援するためのシステムのプロセッサ（４）によって管理される予測アルゴリズム（１０）によって実施される。

一実施形態によれば、予測ステップ（１０２）は、６０分という一定間隔で実施される。

方法は、センサ（Ｃ１、Ｃ２、…、Ｃｎ）によって送信された統計データを表す信号の、予測ステップで予測された将来の変化に対しての変化の異常をリアルタイムで検出するステップ（１０１）を更に含む。予測ステップは、プロセッサ（４）によって管理される検出アルゴリズム（９）によって実施される。

一実施形態によれば、検出ステップは、センサによって送信され、かつ／またはプロセッサによって調査された、統計データを表す信号を、スーパーコンピュータの記憶領域に記憶された情報と相関させるステップを更に含み得る。

予測ステップ（１０２）は、センサ（Ｃ１、Ｃ２、…、Ｃｎ）によって送信された統計データを、記憶手段（３）に記憶するステップ（１０２ａ）を含み得る。統計データは、これらの統計データを表す信号という形で、センサ（Ｃ１、Ｃ２、…、Ｃｎ）によって送信される。

予測ステップ（１０２）は、プロセッサ（４）によって管理されるモデル化アルゴリズムにより、記憶手段（３）に記憶された統計データから、予測数理モデルを構築するステップ（１０２ｂ）を更に含み得る。

一実施形態によれば、予測数理モデルの構築（１０２ｂ）は、モデル化アルゴリズム（１０ａ）により、直近の２時間でセンサ（Ｃ１、Ｃ２、…、Ｃｎ）によって送信された統計データを表す信号からの統計データから計算される。

予測ステップ（１０２）は、プロセッサ（４）によって管理される計算アルゴリズムにより、予測数理モデルから統計データの将来の変化、および統計データの将来の変化の範囲を定める信頼区間を計算するステップ（１０２ｃ）を更に含み得る。

予測ステップ（１０２）は、計算ステップで計算された、将来の変化および信頼区間を、記憶手段（３）に記憶するステップ（１０２ｄ）を更に含み得る。

検出ステップ（１０１）は、プロセッサ（４）によって管理される検出アルゴリズム（９）により、統計データを表す信号を、記憶手段（３）に最後に記憶された将来の変化および信頼区間と比較するステップ（１０１ａ）を含み得る。

検出ステップ（１０１）は、検出アルゴリズム（９）によって検出された異常を、それらの異常に関する表（１０２ｅ）として、記憶手段（３）に記憶するステップ（１０１ｂ）を更に含み得る。異常は、統計データを表す信号が信頼区間を外れる、かつ／または将来の変化から逸脱した際に検出される。

予測数理モデルの構築ステップ（１０２ｂ）の性能を向上させ、センサ（Ｃ１、Ｃ２、…、Ｃｎ）によって送信される信号の変化を制限する（例えば、正弦曲線）ために、予測ステップ（１０２）は、設定されたある時間間隔の間の、プロセッサ（４）によって管理される集計アルゴリズム（７）による、記憶手段（３）に記憶される統計データの、第１の集計ステップ（１０６ａ）を更に含む。同様に、検出ステップは、同一の時間間隔の間の、プロセッサ（４）による、センサ（Ｃ１、Ｃ２、…、Ｃｎ）によってリアルタイムで送信された統計データを表す信号の、第２の集計ステップ（１０５ａ）を更に含む。

非限定的な方法では、この時間間隔は１分とされる。

第２の集計ステップ（１０５ａ）では、リアルタイムで送信された統計データを表す信号からの真値を、予測ステップ中に第１の集計ステップ（１０６ａ）で集計された予測値と比較することができる。

方法は、フィルタリングステップ（１０５ｂ、１０６ｂ）を含み得る。これらのフィルタリングステップ（１０５ｂ、１０６ｂ）によって、センサ（Ｃ１、Ｃ２、…、Ｃｎ）によって送信された、異常の予測および／または検出に必要となる信号だけが残される。例えば、１つのセンサについて言えば、フィルタリングステップは、そのセンサ（Ｃ１、Ｃ２、…、Ｃｎ）によって送信された様々な信号を、予測および／または検出に必要な信号によって表されたデータに従ってフィルタリングする。別の例として、複数のセンサ（Ｃ１、Ｃ２、…、Ｃｎ）に関する場合は、フィルタリングステップは、異常の予測および／または検出に必要な信号を送信するセンサ（Ｃ１、Ｃ２、…、Ｃｎ）だけを残すように、センサ（Ｃ１、Ｃ２、…、Ｃｎ）をフィルタリングする。

よって、コンピュータインフラストラクチャ（２）は、各センサ（Ｃ１、Ｃ２、…、Ｃｎ）について、異常の予測および／または検出に必要な信号のタイプを選択し、それらのセンサ（Ｃ１、Ｃ２、…、Ｃｎ）すべての中で、異常の予測および／または検出に必要な前記データまたは前記信号のフィルタリングに使用されることになる特定の数のセンサ（Ｃ１、Ｃ２、…、Ｃｎ）を選択する、インタフェース（図示なし）を備え得る。

この方法において、予測ステップ（１０２）は、プロセッサ（４）によって管理されるフィルタリングアルゴリズム（６）による、統計データの、これらの統計データを表す信号を送信したセンサ（Ｃ１、Ｃ２、…、Ｃｎ）に応じての、第１のフィルタリングステップ（１０６ｂ）を更に含む。第１のフィルタリングステップ（１０６ｂ）は、構築ステップ（１０２ａ）に先行する。

検出ステップ（１０１）には、プロセッサ（４）によって管理されるフィルタリングアルゴリズム（６）による、統計データを表す信号の、この表す信号を送信したセンサ（Ｃ１、Ｃ２、…、Ｃｎ）に応じての、第２のフィルタリングステップ（１０５ｂ）が含まれる。第２のフィルタリングステップ（１０５ｂ）は、比較ステップ（１０１ａ）に先行する。

第１の表示ステップ（１０３）では、予測ステップ（１０２）を計算するためのステップ（１０２ｃ）の間に計算された将来の変化および信頼区間の値（１０３ａ）が、これらの値を表す信号という形で、プロセッサ（４）により、表示手段（５）で表示されるように、表示手段（５）に送信される。

第１のフィルタリングステップ（１０６ｂ）は、第１の集計ステップ（１０６ａ）に先行する。第２のフィルタリングステップ（１０５ｂ）は、第２の集計ステップ（１０５ａ）に先行する。

検出ステップは、第２の表示ステップ（１０４）を含む。第２の表示ステップ（１０４）では、保守を支援するためのシステムのプロセッサ（４）が、表示手段（５）に、検出アルゴリズム（９）によって異常が検出された際に検出アルゴリズム（９）によって検出された異常を表す少なくとも１つの信号を送信する。

プロセッサ（４）は、表示手段（５）に、異常を表す信号を、異常に関する表という形で送信することができる。送信される異常に関する表は、例えば、検出ステップ（１０２）中に記憶手段（３）に記憶された、検出された異常に関する表（１０２ｅ）となる。

保守および最適化を支援するためのシステムのユーザ（０）は、表示手段を確認して、表示手段に表示された情報に応じて、スーパーコンピュータの動作を最適化するためにとる動作を決定することができる。

保守および最適化を支援するためのシステムの想定されるアーキテクチャ（図３）を以下で説明する。かかるアーキテクチャは、予測ステップと検出ステップを同時に行うために、いくつかのレイヤへと分割されたソフトウェアアーキテクチャとなる。

データ採取レイヤ（２００）における、センサ（Ｃ１、Ｃ２、…、Ｃｎ）による統計データを表す信号を送信するステップについては、例えば、コネクタとして働く「ＬｏｇＳｔａｓｈ」（２０１）などのツールが、異なるログ出力プロトコルから、ログまたはログファイルを収集、分析、および記憶するために使用される。

「ログ」または「ログファイル」とは、実行されたイベントを時系列でリストしたテキストファイルのことを意味する。ログは、エラーまたは異常の発生源を知るのに有用なファイルである。

ツール「ＬｏｇＳｔａｓｈ」（２０１）は、データ管理を担う、「Ｋａｆｋａ」（２０２）などのメッセージ指向ツールにデータを送信する。本質的に、ツール「Ｋａｆｋａ」（２０２）は、多数のデータをスケーリングして緩和するためのキューをまとめるメッセージブローカである。

ツール「ＬｏｇＳｔａｓｈ」（２０１）は、入力されたデータに対するフィルタリングステップを実施することも可能である。

ツール「ＬｏｇＳｔａｓｈ」（２０１）により、データを収集および／またはフィルタリングするステップが実行されると、前記データは、「バッチ」と呼ばれる高負荷処理レイヤ（３００）において、予測ステップを実施するのに使用される。多数のログを収集、集計および転送するために、例えば、「Ｆｌｕｍｅ」（３０１）などのツールが使用される。ツール「Ｆｌｕｍｅ」（３０１）は、データ管理ツールである「Ｋａｆｋａ」（２０２）と、データがセーブされる「ＨＤＦＳ」（３０２）などの分散ファイルシステムとの間のコネクタである。データがセーブされた後、例えば「Ｓｐａｒｋ」（３０３）など、分散処理のためのプラットフォームにより、構築ステップおよび計算ステップが実施される。

「分散システム」、「分散プラットフォーム」、または一般に分散アーキテクチャとは、同一の場所または同一のマシンにリソースを持たず、リソースを通信手段によって相互接続しているアーキテクチャのことを意味する。例えば、コンピュータクラスタやスーパーコンピュータは、分散アーキテクチャまたは分散システムである。事実、定義によれば、スーパーコンピュータは、中央マシン、およびノードと呼ばれる自律的なセカンダリステーションまたはセカンダリマシンを備え、中央マシンとノードが通信ネットワークで接続されるものである。

ツール「Ｓｐａｒｋ」（３０３）は、この場合では統計数理モデルの構築ならびに予測値および信頼区間の計算にあたる、データ分析を支援する統計ツールを多数含む、Ｒ言語を使用する。

ツール「Ｓｐａｒｋ」は、例えば、集計ステップ（１０５ａ、１０６ａ）を実施する。

リアルタイム処理レイヤ（４００）における検出ステップについては、分散処理プラットフォームも使用されるが、処理はリアルタイムで実行される。ツール「Ｓｐａｒｋ」（３０３）のリアルタイムバージョンである、例えば「ＳｐａｒｋＳｔｒｅａｍｉｎｇ」（４０１）などが使用され得る。

予測ステップのための高負荷処理レイヤ（３００）および検出ステップのためのリアルタイム処理レイヤ（４００）で取得された結果は、例えば「ｅｌａｓｔｉｃｓｅａｒｃｈ」（５００）などの分散検索エンジンによってインデックス化される。

表示ステップに関しては、例えば、「Ｋｉｂａｎａ」（６００）などのウェブインタフェースが使用され得る。インタフェース「Ｋｉｂａｎａ」（６００）は、検索エンジン「ｅｌａｓｔｉｃｓｅａｒｃｈ」（５００）に要求を行うことで、結果をグラフィック表示することに焦点を当てている。

本説明は、図面および／または技術的特徴に関連して、種々の実施形態および構成を詳述するものである。当業者であれば、様々な様式や構成を持つ種々の技術的特徴は、別段の断りがないか、これらの技術的特徴同士が両立不可でない限り、相互に組み合わせ可能であることを理解されよう。同様に、一実施形態または一構成が持つ１つの技術的特徴は、特に断りのない限り、同実施形態が持つ他の技術的特徴から分離させることが可能である。本説明では、本発明を正確に詳述するために、非限定的に例証を用いて、特有の細部を数多く提示した。しかしながら、当業者であれば、本発明は、かかる特有の細部の１つまたは複数が欠けても実行可能であり、またはその別形を用いても実行可能であることは理解されよう。その他にも、説明が複雑化し過度な負担とならないよう、態様の一部は詳述されていないが、当業者であれば、多種多様な手段が利用可能であり、本発明は説明された単独の例に限定されないことは理解されよう。

本発明は、特許請求される発明の適用分野から逸脱することなく、他の多様な特定の形での実施形態を可能にするものであることは、当業者にとっては明白であろう。以上のことから、提示した実施形態は例証とみなすべきものであって、添付される特許請求の範囲によって定義された範囲内で修正可能であるとともに、本発明は本明細書で説明した細目に限定されてはならない。

Claims

スーパーコンピュータ（１）の保守および最適化を支援するための方法であって、
少なくとも１つのセンサ（Ｃ１、Ｃ２、…、Ｃｎ）により、スーパーコンピュータ（１）の少なくとも１つの計算ノード（Ｎ１、Ｎ２、…、Ｎｎ）の統計データを表す信号を、保守を支援するためのシステムに送信するステップ（１００）と、
保守を支援するためのシステムのプロセッサ（４）によって管理される予測アルゴリズム（１０）により、センサ（Ｃ１、Ｃ２、…、Ｃｎ）によって送信されて保守を支援するためのシステムの記憶手段（３）に記憶される統計データを表す信号から、統計データの将来の変化を一定間隔で予測するステップ（１０２）と、
プロセッサ（４）によって管理される検出アルゴリズム（９）により、センサ（Ｃ１、Ｃ２、…、Ｃｎ）によって送信された統計データを表す信号の、予測ステップ（１０２）で予測された将来の変化に対しての変化の異常をリアルタイムで検出するステップ（１０１）と
を含み、
将来の変化を予測するステップ（１０２）および異常の検出（１０１）が、前記スーパーコンピュータ（１）の保守および最適化を実施するのに必要な前記信号を送信した前記センサに応じた、統計データを表す前記信号に関する少なくとも１つの第１のフィルタリング（１０６ｂ）および少なくとも１つの第２のフィルタリング（１０５ｂ）を含むことを特徴とする、方法。
予測ステップ（１０２）が、
統計データを表す信号という形でセンサ（Ｃ１、Ｃ２、…、Ｃｎ）によって送信された統計データを、記憶手段（３）に記憶するステップ（１０２ａ）と、
プロセッサ（４）によって管理されるモデル化アルゴリズム（１０ａ）により、記憶手段（３）に記憶される予測数理モデルを統計データから構築するステップ（１０２ｂ）と、
プロセッサ（４）によって管理される計算アルゴリズム（１０ｂ）により、予測数理モデルから統計データの将来の変化、および統計データの将来の変化の範囲を定める信頼区間を計算するステップ（１０２ｃ）と、
将来の変化および信頼区間を、記憶手段（３）に記憶するステップ（１０２ｄ）と
を含むことを特徴とする、請求項１に記載の方法。
予測数理モデルの構築（１０２ｂ）が、プロセッサ（４）によって管理されるモデル化アルゴリズム（１０ａ）により、直近の２時間でセンサ（Ｃ１、Ｃ２、…、Ｃｎ）によって送信された統計データを表す信号からの統計データから計算されることを特徴とする、請求項１および２に記載の方法。
予測ステップ（１０２）が６０分という一定間隔で実施されることを特徴とする、請求項１および２に記載の方法。
検出ステップ（１０１）が、
プロセッサ（４）によって管理される検出アルゴリズム（９）により、統計データを表す信号を、記憶手段（３）に最後に記憶された将来の変化および信頼区間と比較するステップ（１０１ａ）と、
検出アルゴリズム（９）によって検出された異常を、異常に関する表として、記憶手段（３）に記憶するステップであって、異常は、統計データを表す信号が信頼区間を外れる、かつ／または将来の変化から逸脱した際に検出される、記憶するステップ（１０１ｂ）と
を含むことを特徴とする、請求項１から４のいずれか一項に記載の方法。
予測ステップ（１０２）が、設定されたある時間間隔の間の、プロセッサ（４）によって管理される集計アルゴリズム（７）による、記憶手段（３）に記憶される統計データの、第１の集計ステップ（１０６ａ）を更に含み、検出ステップが、同一の時間間隔の間の、プロセッサ（４）による、センサ（Ｃ１、Ｃ２、…、Ｃｎ）によってリアルタイムで送信された統計データを表す信号の、第２の集計ステップ（１０５ａ）を更に含むことを特徴とする、請求項１から５のいずれか一項に記載の方法。
予測ステップ（１０２）の間の、前記プロセッサ（４）によって管理されるフィルタリングアルゴリズム（６）による、統計データの、これらの統計データを表す前記信号を送信した前記センサ（Ｃ１、Ｃ２、…、Ｃｎ）に応じての、第１のフィルタリングステップ（１０６ｂ）が、構築ステップ（１０２ａ）に先行し、検出ステップにおける、プロセッサ（４）によって管理されるフィルタリングアルゴリズム（６）による、統計データを表す信号の、この表す信号を送信した前記センサ（Ｃ１、Ｃ２、…、Ｃｎ）に応じての、第２のフィルタリング（１０５ｂ）が、比較ステップ（１０１ａ）に先行することを特徴とする、請求項１から５のいずれか一項に記載の方法。
フィルタリングステップ（１０６ｂ、１０５ｂ）が、異常の予測および／または検出に必要な信号を送信するセンサ（Ｃ１、Ｃ２、…、Ｃｎ）だけを残すように、センサ（Ｃ１、Ｃ２、…、Ｃｎ）をフィルタリングすることを特徴とする、請求項１または７に記載の方法。
予測ステップ（１０２）が、保守を支援するためのシステムのプロセッサ（４）が将来の変化および信頼区間の値を表す信号を表示手段（５）によって表示されるように表示手段（５）に送信する、第１の表示ステップ（１０３）を含むことを特徴とする、請求項１から８のいずれか一項に記載の方法。
検出ステップ（１０１）が、保守を支援するためのシステムのプロセッサ（４）が表示手段（５）に検出アルゴリズム（９）によって異常が検出された際に検出アルゴリズム（９）によって検出された異常を表す信号を送信する、第２の表示ステップ（１０４）を含むことを特徴とする、請求項１から９のいずれか一項に記載の方法。
スーパーコンピュータ（１）に関する情報、即ち、スーパーコンピュータ（１）の記憶領域に記憶された、前記情報を含む、保守を支援するためのシステムに送信（１００ａ）されたデータから、予測ステップが更に実行されることを特徴とする、請求項１から１０のいずれか一項に記載の方法。
スーパーコンピュータ（１）の保守および最適化を支援するためのシステムであって、少なくとも１つのプロセッサ（４）と、前記スーパーコンピュータ（１）の少なくとも１つの計算ノード（Ｎ１、Ｎ２、…、Ｎｎ）内に位置する少なくとも１つのセンサ（Ｃ１、Ｃ２、…、Ｃｎ）によって送信された統計データを表す信号の記憶手段（３）とを含む、コンピュータインフラストラクチャ（２）を備え、前記記憶手段（３）はまた、少なくとも、
前記プロセッサ（４）上で実行されることで、前記センサからの統計データを表す信号から統計データの将来の変化を一定間隔で予測するものである、予測アルゴリズム（１０）と、
前記プロセッサ（４）上で実行されることで、予測アルゴリズム（１０）によって予測された変化に対する前記センサからの統計データを表す信号の変化の異常をリアルタイムで検出するものである、検出アルゴリズム（９）と
を含み、
プロセッサ（４）上で実行されることで、統計データを表す前記信号を、請求項１に記載の方法を実施するのに必要なこれらの統計データを表す前記信号を送信した前記センサ（Ｃ１、Ｃ２、…、Ｃｎ）に応じてフィルタリングするものである、少なくとも１つのアルゴリズム（６）を更に含むことを特徴とする、システム。
コンピュータインフラストラクチャ（２）が、
記憶手段（３）に記憶された統計データから予測数理モデルを構築することが可能な、記憶手段（３）に記憶されるモデル化アルゴリズム（１０ａ）と、
予測数理モデルから統計データの将来の変化、および統計データの将来の変化の範囲を定める信頼区間を計算することが可能な、記憶手段（３）に記憶される計算アルゴリズム（１０ｂ）と
を更に含むことを特徴とする、請求項１２に記載のシステム。
検出アルゴリズム（９）が、統計データを表す信号を、記憶手段（３）に最後に記憶された将来の変化および信頼区間と比較することが可能であることを特徴とする、請求項１２または１３に記載のシステム。
コンピュータインフラストラクチャ（２）が、記憶手段（３）に記憶される毎分の統計データを集計すること、およびセンサ（Ｃ１、Ｃ２、…、Ｃｎ）によってリアルタイムで送信された統計データを表す毎分の信号を集計することが可能な、記憶手段（３）に記憶される少なくとも１つの集計アルゴリズム（７）を含むことを特徴とする、請求項１２から１４のいずれか一項に記載のシステム。
コンピュータインフラストラクチャ（２）が、記憶手段に記憶された統計データおよび統計データを表す信号を、これらの統計データを表す信号を送信したセンサ（Ｃ１、Ｃ２、…、Ｃｎ）に応じてフィルタリングすることが可能な、記憶手段（３）に記憶されるフィルタリングアルゴリズム（６）を更に含むことを特徴とする、請求項１２から１５のいずれか一項に記載のシステム。
コンピュータインフラストラクチャ（２）が、各センサ（Ｃ１、Ｃ２、…、Ｃｎ）について、異常の予測および／または検出に必要な信号のタイプを選択し、それらのセンサ（Ｃ１、Ｃ２、…、Ｃｎ）すべての中で、異常の予測および／または検出に必要な前記データまたは前記信号のフィルタリングに使用される特定の数のセンサ（Ｃ１、Ｃ２、…、Ｃｎ）を選択する、インタフェースを備えることを特徴とする、請求項１２から１６のいずれか一項に記載のシステム。
少なくとも将来の変化および信頼区間の値を表示可能な表示手段（５）を更に備えることを特徴とする、請求項１２から１７のいずれか一項に記載のシステム。