JP2019502969A - スーパーコンピュータの保守および最適化を支援するための方法およびシステム - Google Patents

スーパーコンピュータの保守および最適化を支援するための方法およびシステム Download PDF

Info

Publication number
JP2019502969A
JP2019502969A JP2017568147A JP2017568147A JP2019502969A JP 2019502969 A JP2019502969 A JP 2019502969A JP 2017568147 A JP2017568147 A JP 2017568147A JP 2017568147 A JP2017568147 A JP 2017568147A JP 2019502969 A JP2019502969 A JP 2019502969A
Authority
JP
Japan
Prior art keywords
statistical data
algorithm
storage means
processor
sensors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017568147A
Other languages
English (en)
Inventor
ペレティエ,ブノワ
ベリーノ,ジュリアン
Original Assignee
ブル・エス・アー・エス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ブル・エス・アー・エス filed Critical ブル・エス・アー・エス
Publication of JP2019502969A publication Critical patent/JP2019502969A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3082Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved by aggregating or compressing the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本発明は、保守を支援するためのシステムに、少なくとも1つのセンサにより、スーパーコンピュータの少なくとも1つの計算ノードの統計データを表す信号を送出することと、統計データの将来の変化を、センサによって送出された統計データを表す信号に基づき、一定間隔で予測することと、予測ステップで予測された将来の変化に対する、センサによって送出された統計データを表す信号の変化の異常を検出することとを含む、スーパーコンピュータの保守および最適化を支援するための方法に関する。本発明はまた、保守および最適化を支援するためのシステムにも関する。

Description

本発明は、スーパーコンピュータの分野に関する。より詳細には、本発明は、リアルタイムで異常を検出してスーパーコンピュータの動作を最適化することを目的とした、スーパーコンピュータの保守および最適化を支援するための方法およびシステムを提案するものである。
複雑な問題を解決するため、企業がスーパーコンピュータに頼ることは稀ではない。実際に、企業は自社の要求に応えるため、計算を効果的に行う可能性を追い求めている。それには相当なインフラストラクチャが必要となる。好ましい計算能力を提供するため、スーパーコンピュータは時に数千ものマシンを備える。例えば、スーパーコンピュータであるTERA100は、3,000個を超える計算ノードを備えている。しかも、これらのマシンはすべて相互接続され、そのことが一層インフラストラクチャを複雑なものにしている。かかるインフラストラクチャは、特に高性能計算(HPC)に使用される高速ネットワークであることから、各マシンのリンクも、それに見合って膨大なものとなる。
種々のスーパーコンピュータが複雑な問題を処理することの他に、クリティカルタスクが問題となることも多い。これにより、スーパーコンピュータの性能を検討することに加え、その信頼性を向上させることも重要になる。この種のインフラストラクチャにおいて、今日では実際に、30分毎にクリティカルエラーが発生していると言うことができる。こうした潜在的ブレークダウンに加え、あるマシンから別のマシンへとネットワークパケットを送信するパスであるルーティングを恒常的に更新する必要がある。事実、スーパーコンピュータを介して起動するアプリケーションによっては輻輳現象も生じ得る。
上述の複雑性により、人間による分析は不可能であるか、または少なくとも非常に限定されたものとなる。実際に、この種の重要システムでは、エラーに続く復帰までの時間が長期化する場合も多く、それがサービス中断の原因となる。したがって、本発明の理念は、ネットワークの保守をリアルタイムで支援することでかかる復帰性を改善し、それによりサービスの中断を最小化するツールを提供することである。その目的は、スーパーコンピュータの信頼性を向上させることにある。スーパーコンピュータの信頼性を向上させるということは、その利用を最適化し、実行される計算動作を最適化するという意味でもある。
文献、US2014/0358833A1では、処理環境の保守処理、より正確には、将来のある時点における前記環境の異常状態を予測するための予測方法が開示されている。前記方法には、処理システムに関するパラメータのうちの1つまたは複数のパラメータの1つまたは複数の値を取得して、1つまたは複数の測定基準に関し、将来の1つまたは複数の時点について予測された1つまたは複数の値を決定し、予測された値に基づき、1つまたは複数の時点についての1つまたは複数の変化値を決定し、1つまたは複数の変化値に基づいて処理システム内に異常状態が存在するかどうかを決定することが含まれる。
しかし、処理すべきパラメータまたはデータの数が多ければ、異常検出処理に負担を強いる可能性がある。US2014/0358833A1に開示の方法では、誤り予測または異常検出につながり得る任意のパラメータがいくつか検討されてもいる。
米国特許出願公開第2014/0358833号明細書
したがって、本発明の目的は、スーパーコンピュータの保守および最適化を支援するための方法およびシステムを提案することにより、先行技術の1つまたは複数の欠点を取り除くことである。本方法および本システムは、スーパーコンピュータの信頼性を向上させるものである。スーパーコンピュータの信頼性を向上させるということは、その利用を最適化し、実行される計算動作を最適化するという意味でもある。
そのような理由から、本発明は、スーパーコンピュータの保守および最適化を支援するための方法であって:
− 少なくとも1つのセンサにより、スーパーコンピュータの少なくとも1つの計算ノードの統計データを表す信号を、保守を支援するためのシステムに送信するステップと、
− 保守を支援するためのシステムのプロセッサによって管理される予測アルゴリズムにより、センサによって送信されて保守を支援するためのシステムの記憶手段に記憶される統計データを表す信号から、統計データの将来の変化を一定間隔で予測するステップと、
− プロセッサによって管理される検出アルゴリズムにより、センサによって送信された統計データを表す信号の、予測ステップで予測された将来の変化に対しての変化の異常をリアルタイムで検出するステップと
を含み、将来の変化を予測するステップおよび異常の検出が、前記スーパーコンピュータの保守および最適化を実施するのに必要な前記信号を送信した前記センサに応じた、統計データを表す前記信号に関する少なくとも1つの第1のフィルタリングおよび少なくとも1つの第2のフィルタリングを含むことを特徴とする方法に関する。
別の特徴によれば、予測ステップは以下のステップを含む:
− 統計データを表す信号という形でセンサによって送信された統計データを、記憶手段に記憶するステップと、
− プロセッサによって管理されるモデル化アルゴリズムにより、記憶手段に記憶される予測数理モデルを統計データから構築するステップと、
− プロセッサによって管理される計算アルゴリズムにより、予測数理モデルから統計データの将来の変化、および統計データの将来の変化の範囲を定める信頼区間を計算するステップと、
− 将来の変化および信頼区間を、記憶手段に記憶するステップ。
別の特定の特徴によれば、予測数理モデルの構築が、プロセッサによって管理されるモデル化アルゴリズムにより、直近の2時間でセンサによって送信された統計データを表す信号からの統計データから計算される。
別の特定の特徴によれば、予測ステップは、60分という一定間隔で実施される。
別の特定の特徴によれば、検出ステップは以下のステップを含む:
− プロセッサによって管理される検出アルゴリズムにより、統計データを表す信号を、記憶手段に最後に記憶された将来の変化および信頼区間と比較するステップと、
− 検出アルゴリズムによって検出された異常を、異常に関する表として、記憶手段に記憶するステップであって、異常は、統計データを表す信号が信頼区間を外れる、かつ/または将来の変化から逸脱した際に検出される、記憶するステップ。
別の特定の特徴によれば、予測ステップが、設定されたある時間間隔の間の、プロセッサによって管理される集計アルゴリズムによる、記憶手段に記憶される統計データの、第1の集計ステップを更に含み、検出ステップが、同一の時間間隔の間の、プロセッサによる、センサによってリアルタイムで送信された統計データを表す信号の、第2の集計ステップを更に含む。
別の特定の特徴によれば、予測ステップの間の、前記プロセッサによって管理されるフィルタリングアルゴリズムによる、統計データの、これらの統計データを表す前記信号を送信した前記センサに応じての、第1のフィルタリングが、構築ステップに先行し、検出ステップにおける、プロセッサによって管理されるフィルタリングアルゴリズムによる、統計データを表す信号であって、この表す信号を送信した前記センサから到来した統計データを表す信号の、第2のフィルタリングが、比較ステップに先行する。
別の特定の特徴によれば、フィルタリングステップが、異常の予測および/または検出に必要な信号を送信するセンサだけを残すようにセンサをフィルタリングする。
別の特定の特徴によれば、予測ステップが、保守を支援するためのシステムのプロセッサが将来の変化および信頼区間の値を表す信号を表示手段によって表示されるように表示手段に送信する、第1の表示ステップを含む。
別の特定の特徴によれば、検出ステップが、保守を支援するためのシステムのプロセッサが表示手段に検出アルゴリズムによって異常が検出された際に検出アルゴリズムによって検出された異常を表す信号を送信する、第2の表示ステップを含む。
別の特定の特徴によれば、スーパーコンピュータに関する情報、即ち、前記スーパーコンピュータの記憶領域に記憶された、前記情報を含む、保守を支援するためのシステムに送信されたデータから、予測ステップが更に実行される。
本発明はまた、スーパーコンピュータの保守および最適化を支援するためのシステムであって、少なくとも1つのプロセッサと、前記スーパーコンピュータの少なくとも1つの計算ノード内に位置する少なくとも1つのセンサによって送信された統計データを表す信号の記憶手段とを含む、コンピュータインフラストラクチャを備え、前記記憶手段はまた、少なくとも:
− 前記プロセッサ上で実行されることで、前記センサからの統計データを表す信号から統計データの将来の変化を一定間隔で予測するものである、予測アルゴリズムと、
− 前記プロセッサ上で実行されることで、予測アルゴリズムによって予測された変化に対する前記センサからの統計データを表す信号の変化の異常をリアルタイムで検出するものである、検出アルゴリズムと
を含み、プロセッサ上で実行されることで、統計データを表す前記信号を、保守および最適化の方法を実施するのに必要なこれらの統計データを表す前記信号を送信した前記センサに応じてフィルタリングするものである、少なくとも1つのアルゴリズムを更に含むことを特徴とするシステムに関する。
別の特定の特徴によれば、コンピュータインフラストラクチャは以下を更に含む:
− 記憶手段に記憶された統計データから予測数理モデルを構築することが可能な、記憶手段に記憶されるモデル化アルゴリズムと、
− 予測数理モデルから統計データの将来の変化、および統計データの将来の変化の範囲を定める信頼区間を計算することが可能な、記憶手段に記憶される計算アルゴリズム。
別の特定の特徴によれば、検出アルゴリズムは、統計データを表す信号を、記憶手段に最後に記憶された将来の変化および信頼区間と比較することができる。
別の特定の特徴によれば、コンピュータインフラストラクチャが、記憶手段に記憶される毎分の統計データを集計すること、およびセンサによってリアルタイムで送信された統計データを表す毎分の信号を集計することが可能な、記憶手段に記憶される少なくとも1つの集計アルゴリズムを含む。
別の特定の特徴によれば、コンピュータインフラストラクチャが、記憶手段に記憶された統計データおよび統計データを表す信号を、これらの統計データを表す信号を送信したセンサに応じてフィルタリングすることが可能な、記憶手段に記憶されるフィルタリングアルゴリズムを更に含む。
別の特定の特徴によれば、コンピュータインフラストラクチャが、各センサについて、異常の予測および/または検出に必要な信号のタイプを選択し、それらのセンサすべての中で、異常の予測および/または検出に必要な前記データまたは前記信号のフィルタリングに使用される特定の数のセンサを選択する、インタフェースを備える。
別の特定の特徴によれば、システムが、少なくとも将来の変化および信頼区間の値を表示可能な表示手段を更に備える。
その他、本発明が有する個々の特徴および利点については、添付図面に関連した以下の説明を読むことによって明瞭となろう。
一実施形態による、スーパーコンピュータの保守および最適化を支援するためのシステムを示す概略図である。 一実施形態による、方法のフローチャートである。 保守および最適化を支援するためのシステムのアーキテクチャの一例を示す概略図である。 方法のフローチャートを要約した概略図である。
上で指定した図面を参照しながら、本発明を以下で説明する。
本発明は、スーパーコンピュータ(1)の保守および最適化を支援するための方法およびシステムに関する。
方法およびシステムは、例えば、スーパーコンピュータ(1)の各ノード(N1、N2、…、Nn)のネットワークカード上に存在する、物理センサ(C1、C2、…Cn)のセットに基づく。これらのセンサ(C1、C2、…、Cn)は、いくつかの統計データを表す信号(S)を生成することができる。
この統計データは、例えば、計算ノード(N1、N2、…、Nn)によって送信されたパケット数、計算ノード(N1、N2、…、Nn)が受信したパケット数、または計算ノード(N1、N2、…、Nn)がロスしたパケット数とすることができる。この統計データは、計算ノード(N1、N2、…、Nn)内で発見されたエラーコード、または計算ノード(N1、N2、…、Nn)の輻輳インジケータとすることもできる。
方法およびシステムは、スーパーコンピュータ(1)内に既に存在している特定のデータベースにも基づく。このデータベースは、スーパーコンピュータ(1)に関連する情報を統計的に含み得る。例えば、このデータベースには、各ノード(N1、N2、…、Nn)やそれらのリンクに関する物理情報および論理情報が含まれる。データベースおよび情報は、例えば、スーパーコンピュータの記憶領域に記憶される。
スーパーコンピュータ(1)の保守および最適化を支援するためのシステムには、同システムのビジネスロジックをホストする、仮想または実在のコンピュータインフラストラクチャ(2)が含まれる。
コンピュータ構造には、少なくとも1つのプロセッサ(4)および記憶手段(3)が含まれる。
記憶手段(3)は、センサ(C1、C2、…、Cn)によって送信されて記憶手段(3)に記憶される統計データを表す信号から、将来における統計データの変化を一定間隔で予測するための、少なくとも1つの予測アルゴリズム(10)を記憶している。
また、記憶手段(3)には、センサ(C1、C2、…、Cn)によって送信された統計データを表す信号の、予測アルゴリズム(10)が予測した変化に対しての変化の異常をリアルタイムで検出するための、検出アルゴリズム(9)が含まれる。
一実施形態によれば、検出アルゴリズム(9)は、統計データを表す信号を、記憶手段(3)に最後に記憶された将来の変化および信頼区間と比較することができる。非限定的な方法では、信頼区間は5%に固定され得る。
コンピュータインフラストラクチャ(2)は、記憶手段(3)に記憶された、モデル化アルゴリズム(10a)を更に含み得る。モデル化アルゴリズム(10a)は、記憶手段(3)に記憶された統計データから、予測数理モデルを構築する。
一実施形態によれば、モデル化アルゴリズム(10a)は、先行値に応じて時系列の各値を決定するモデルを構築する。例えば、このモデルは、混合型ARIMA(自己回帰和分移動平均)モデルである。モデルは記憶手段に記憶される。
コンピュータインフラストラクチャ(2)は、記憶手段(3)に記憶された、計算アルゴリズム(10b)を更に含み得る。計算アルゴリズム(10b)は、モデル化アルゴリズム(10a)によって構築された予測数理モデルから、統計データの将来の変化、および統計データの将来の変化の範囲を定める信頼区間を計算する。
コンピュータインフラストラクチャ(2)は、記憶手段(3)に記憶される毎分の統計データを集計する、記憶手段(3)に記憶された少なくとも1つの集計アルゴリズム(7)を更に含み得る。また、集計アルゴリズム(7)は、センサ(C1、C2、…、Cn)によってリアルタイムで送信された統計データを表す毎分の信号を集計する。
集計アルゴリズム(7)は、例えば、一組の値の平均値または中央値を求める関数である。分析対象の統計データに適応した他の集計関数が用いられてもよい。
このような方法で、集計アルゴリズム(7)は、記憶手段(3)に記憶される統計データの毎分の平均値または中央値を求めて、毎分の統計データを集計することができる。集計アルゴリズム(7)は、センサ(C1、C2、…、Cn)によってリアルタイムで送信された統計データを表す信号の平均値または中央値を毎分求めることで、統計データを表す毎分の信号をリアルタイムで集計することもできる。
コンピュータインフラストラクチャ(2)は、記憶手段(3)に記憶されたフィルタリングアルゴリズム(6)を更に含み得る。フィルタリングアルゴリズム(6)は、記憶手段(3)に記憶された統計データおよび統計データを表す信号を、これらの統計データを表す信号を送信したセンサ(C1、C2、…、Cn)に応じてフィルタリングする。
システムは、将来の変化および信頼区間の値を表示する、表示手段(5)を更に備える。表示手段(5)が将来の変化および信頼区間の値を表示するよう、これらの値を表す信号がコンピュータインフラストラクチャ(2)のプロセッサ(4)によって送信される。
プロセッサ(4)は、異常を表す信号を、例えば、異常に関する表(102)という形で送信することもできる。
プロセッサ(4)は、統計データを表す信号をリアルタイムで表示手段(5)に送信することもできる。それにより、その表示手段(5)は、統計データに関するこれらの値を表示する。
スーパーコンピュータ(1)の保守および最適化を支援するためのシステムによって実施される方法は、少なくとも1つのセンサ(C1、C2、…、Cn)により、保守を支援するためのシステムのプロセッサに、スーパーコンピュータ(1)の少なくとも1つの計算ノード(N1、N2、…、Nn)の統計データを表す信号を送信する、少なくとも1つのステップ(100)を含む。非限定的な方法では、送信される統計データは、150Go/hという速度で送信され得る。
一実施形態によれば、送信ステップ(100)は、スーパーコンピュータのデータベースを介し、スーパーコンピュータに関連する情報を、保守を支援するためのシステムのプロセッサに送信するステップ(100a)、および/または、スーパーコンピュータに関連する情報を検索するために、保守を支援するためのシステムのプロセッサによって、スーパーコンピュータのデータベースを調査するステップ(100a)を含み得る。
方法は、センサ(C1、C2、…、Cn)によって送信されて保守を支援するためのシステムの記憶手段(3)に記憶される統計データを表す信号から、将来における統計データの変化を一定間隔で予測するステップ(102)を更に含む。予測ステップ(102)は、保守を支援するためのシステムのプロセッサ(4)によって管理される予測アルゴリズム(10)によって実施される。
一実施形態によれば、予測ステップ(102)は、60分という一定間隔で実施される。
方法は、センサ(C1、C2、…、Cn)によって送信された統計データを表す信号の、予測ステップで予測された将来の変化に対しての変化の異常をリアルタイムで検出するステップ(101)を更に含む。予測ステップは、プロセッサ(4)によって管理される検出アルゴリズム(9)によって実施される。
一実施形態によれば、検出ステップは、センサによって送信され、かつ/またはプロセッサによって調査された、統計データを表す信号を、スーパーコンピュータの記憶領域に記憶された情報と相関させるステップを更に含み得る。
予測ステップ(102)は、センサ(C1、C2、…、Cn)によって送信された統計データを、記憶手段(3)に記憶するステップ(102a)を含み得る。統計データは、これらの統計データを表す信号という形で、センサ(C1、C2、…、Cn)によって送信される。
予測ステップ(102)は、プロセッサ(4)によって管理されるモデル化アルゴリズムにより、記憶手段(3)に記憶された統計データから、予測数理モデルを構築するステップ(102b)を更に含み得る。
一実施形態によれば、予測数理モデルの構築(102b)は、モデル化アルゴリズム(10a)により、直近の2時間でセンサ(C1、C2、…、Cn)によって送信された統計データを表す信号からの統計データから計算される。
予測ステップ(102)は、プロセッサ(4)によって管理される計算アルゴリズムにより、予測数理モデルから統計データの将来の変化、および統計データの将来の変化の範囲を定める信頼区間を計算するステップ(102c)を更に含み得る。
予測ステップ(102)は、計算ステップで計算された、将来の変化および信頼区間を、記憶手段(3)に記憶するステップ(102d)を更に含み得る。
検出ステップ(101)は、プロセッサ(4)によって管理される検出アルゴリズム(9)により、統計データを表す信号を、記憶手段(3)に最後に記憶された将来の変化および信頼区間と比較するステップ(101a)を含み得る。
検出ステップ(101)は、検出アルゴリズム(9)によって検出された異常を、それらの異常に関する表(102e)として、記憶手段(3)に記憶するステップ(101b)を更に含み得る。異常は、統計データを表す信号が信頼区間を外れる、かつ/または将来の変化から逸脱した際に検出される。
予測数理モデルの構築ステップ(102b)の性能を向上させ、センサ(C1、C2、…、Cn)によって送信される信号の変化を制限する(例えば、正弦曲線)ために、予測ステップ(102)は、設定されたある時間間隔の間の、プロセッサ(4)によって管理される集計アルゴリズム(7)による、記憶手段(3)に記憶される統計データの、第1の集計ステップ(106a)を更に含む。同様に、検出ステップは、同一の時間間隔の間の、プロセッサ(4)による、センサ(C1、C2、…、Cn)によってリアルタイムで送信された統計データを表す信号の、第2の集計ステップ(105a)を更に含む。
非限定的な方法では、この時間間隔は1分とされる。
第2の集計ステップ(105a)では、リアルタイムで送信された統計データを表す信号からの真値を、予測ステップ中に第1の集計ステップ(106a)で集計された予測値と比較することができる。
方法は、フィルタリングステップ(105b、106b)を含み得る。これらのフィルタリングステップ(105b、106b)によって、センサ(C1、C2、…、Cn)によって送信された、異常の予測および/または検出に必要となる信号だけが残される。例えば、1つのセンサについて言えば、フィルタリングステップは、そのセンサ(C1、C2、…、Cn)によって送信された様々な信号を、予測および/または検出に必要な信号によって表されたデータに従ってフィルタリングする。別の例として、複数のセンサ(C1、C2、…、Cn)に関する場合は、フィルタリングステップは、異常の予測および/または検出に必要な信号を送信するセンサ(C1、C2、…、Cn)だけを残すように、センサ(C1、C2、…、Cn)をフィルタリングする。
よって、コンピュータインフラストラクチャ(2)は、各センサ(C1、C2、…、Cn)について、異常の予測および/または検出に必要な信号のタイプを選択し、それらのセンサ(C1、C2、…、Cn)すべての中で、異常の予測および/または検出に必要な前記データまたは前記信号のフィルタリングに使用されることになる特定の数のセンサ(C1、C2、…、Cn)を選択する、インタフェース(図示なし)を備え得る。
この方法において、予測ステップ(102)は、プロセッサ(4)によって管理されるフィルタリングアルゴリズム(6)による、統計データの、これらの統計データを表す信号を送信したセンサ(C1、C2、…、Cn)に応じての、第1のフィルタリングステップ(106b)を更に含む。第1のフィルタリングステップ(106b)は、構築ステップ(102a)に先行する。
検出ステップ(101)には、プロセッサ(4)によって管理されるフィルタリングアルゴリズム(6)による、統計データを表す信号の、この表す信号を送信したセンサ(C1、C2、…、Cn)に応じての、第2のフィルタリングステップ(105b)が含まれる。第2のフィルタリングステップ(105b)は、比較ステップ(101a)に先行する。
第1の表示ステップ(103)では、予測ステップ(102)を計算するためのステップ(102c)の間に計算された将来の変化および信頼区間の値(103a)が、これらの値を表す信号という形で、プロセッサ(4)により、表示手段(5)で表示されるように、表示手段(5)に送信される。
第1のフィルタリングステップ(106b)は、第1の集計ステップ(106a)に先行する。第2のフィルタリングステップ(105b)は、第2の集計ステップ(105a)に先行する。
検出ステップは、第2の表示ステップ(104)を含む。第2の表示ステップ(104)では、保守を支援するためのシステムのプロセッサ(4)が、表示手段(5)に、検出アルゴリズム(9)によって異常が検出された際に検出アルゴリズム(9)によって検出された異常を表す少なくとも1つの信号を送信する。
プロセッサ(4)は、表示手段(5)に、異常を表す信号を、異常に関する表という形で送信することができる。送信される異常に関する表は、例えば、検出ステップ(102)中に記憶手段(3)に記憶された、検出された異常に関する表(102e)となる。
保守および最適化を支援するためのシステムのユーザ(0)は、表示手段を確認して、表示手段に表示された情報に応じて、スーパーコンピュータの動作を最適化するためにとる動作を決定することができる。
保守および最適化を支援するためのシステムの想定されるアーキテクチャ(図3)を以下で説明する。かかるアーキテクチャは、予測ステップと検出ステップを同時に行うために、いくつかのレイヤへと分割されたソフトウェアアーキテクチャとなる。
データ採取レイヤ(200)における、センサ(C1、C2、…、Cn)による統計データを表す信号を送信するステップについては、例えば、コネクタとして働く「LogStash」(201)などのツールが、異なるログ出力プロトコルから、ログまたはログファイルを収集、分析、および記憶するために使用される。
「ログ」または「ログファイル」とは、実行されたイベントを時系列でリストしたテキストファイルのことを意味する。ログは、エラーまたは異常の発生源を知るのに有用なファイルである。
ツール「LogStash」(201)は、データ管理を担う、「Kafka」(202)などのメッセージ指向ツールにデータを送信する。本質的に、ツール「Kafka」(202)は、多数のデータをスケーリングして緩和するためのキューをまとめるメッセージブローカである。
ツール「LogStash」(201)は、入力されたデータに対するフィルタリングステップを実施することも可能である。
ツール「LogStash」(201)により、データを収集および/またはフィルタリングするステップが実行されると、前記データは、「バッチ」と呼ばれる高負荷処理レイヤ(300)において、予測ステップを実施するのに使用される。多数のログを収集、集計および転送するために、例えば、「Flume」(301)などのツールが使用される。ツール「Flume」(301)は、データ管理ツールである「Kafka」(202)と、データがセーブされる「HDFS」(302)などの分散ファイルシステムとの間のコネクタである。データがセーブされた後、例えば「Spark」(303)など、分散処理のためのプラットフォームにより、構築ステップおよび計算ステップが実施される。
「分散システム」、「分散プラットフォーム」、または一般に分散アーキテクチャとは、同一の場所または同一のマシンにリソースを持たず、リソースを通信手段によって相互接続しているアーキテクチャのことを意味する。例えば、コンピュータクラスタやスーパーコンピュータは、分散アーキテクチャまたは分散システムである。事実、定義によれば、スーパーコンピュータは、中央マシン、およびノードと呼ばれる自律的なセカンダリステーションまたはセカンダリマシンを備え、中央マシンとノードが通信ネットワークで接続されるものである。
ツール「Spark」(303)は、この場合では統計数理モデルの構築ならびに予測値および信頼区間の計算にあたる、データ分析を支援する統計ツールを多数含む、R言語を使用する。
ツール「Spark」は、例えば、集計ステップ(105a、106a)を実施する。
リアルタイム処理レイヤ(400)における検出ステップについては、分散処理プラットフォームも使用されるが、処理はリアルタイムで実行される。ツール「Spark」(303)のリアルタイムバージョンである、例えば「Spark Streaming」(401)などが使用され得る。
予測ステップのための高負荷処理レイヤ(300)および検出ステップのためのリアルタイム処理レイヤ(400)で取得された結果は、例えば「elasticsearch」(500)などの分散検索エンジンによってインデックス化される。
表示ステップに関しては、例えば、「Kibana」(600)などのウェブインタフェースが使用され得る。インタフェース「Kibana」(600)は、検索エンジン「elasticsearch」(500)に要求を行うことで、結果をグラフィック表示することに焦点を当てている。
本説明は、図面および/または技術的特徴に関連して、種々の実施形態および構成を詳述するものである。当業者であれば、様々な様式や構成を持つ種々の技術的特徴は、別段の断りがないか、これらの技術的特徴同士が両立不可でない限り、相互に組み合わせ可能であることを理解されよう。同様に、一実施形態または一構成が持つ1つの技術的特徴は、特に断りのない限り、同実施形態が持つ他の技術的特徴から分離させることが可能である。本説明では、本発明を正確に詳述するために、非限定的に例証を用いて、特有の細部を数多く提示した。しかしながら、当業者であれば、本発明は、かかる特有の細部の1つまたは複数が欠けても実行可能であり、またはその別形を用いても実行可能であることは理解されよう。その他にも、説明が複雑化し過度な負担とならないよう、態様の一部は詳述されていないが、当業者であれば、多種多様な手段が利用可能であり、本発明は説明された単独の例に限定されないことは理解されよう。
本発明は、特許請求される発明の適用分野から逸脱することなく、他の多様な特定の形での実施形態を可能にするものであることは、当業者にとっては明白であろう。以上のことから、提示した実施形態は例証とみなすべきものであって、添付される特許請求の範囲によって定義された範囲内で修正可能であるとともに、本発明は本明細書で説明した細目に限定されてはならない。

Claims (18)

  1. スーパーコンピュータ(1)の保守および最適化を支援するための方法であって、
    少なくとも1つのセンサ(C1、C2、…、Cn)により、スーパーコンピュータ(1)の少なくとも1つの計算ノード(N1、N2、…、Nn)の統計データを表す信号を、保守を支援するためのシステムに送信するステップ(100)と、
    保守を支援するためのシステムのプロセッサ(4)によって管理される予測アルゴリズム(10)により、センサ(C1、C2、…、Cn)によって送信されて保守を支援するためのシステムの記憶手段(3)に記憶される統計データを表す信号から、統計データの将来の変化を一定間隔で予測するステップ(102)と、
    プロセッサ(4)によって管理される検出アルゴリズム(9)により、センサ(C1、C2、…、Cn)によって送信された統計データを表す信号の、予測ステップ(102)で予測された将来の変化に対しての変化の異常をリアルタイムで検出するステップ(101)と
    を含み、
    将来の変化を予測するステップ(102)および異常の検出(101)が、前記スーパーコンピュータ(1)の保守および最適化を実施するのに必要な前記信号を送信した前記センサに応じた、統計データを表す前記信号に関する少なくとも1つの第1のフィルタリング(106b)および少なくとも1つの第2のフィルタリング(105b)を含むことを特徴とする、方法。
  2. 予測ステップ(102)が、
    統計データを表す信号という形でセンサ(C1、C2、…、Cn)によって送信された統計データを、記憶手段(3)に記憶するステップ(102a)と、
    プロセッサ(4)によって管理されるモデル化アルゴリズム(10a)により、記憶手段(3)に記憶される予測数理モデルを統計データから構築するステップ(102b)と、
    プロセッサ(4)によって管理される計算アルゴリズム(10b)により、予測数理モデルから統計データの将来の変化、および統計データの将来の変化の範囲を定める信頼区間を計算するステップ(102c)と、
    将来の変化および信頼区間を、記憶手段(3)に記憶するステップ(102d)と
    を含むことを特徴とする、請求項1に記載の方法。
  3. 予測数理モデルの構築(102b)が、プロセッサ(4)によって管理されるモデル化アルゴリズム(10a)により、直近の2時間でセンサ(C1、C2、…、Cn)によって送信された統計データを表す信号からの統計データから計算されることを特徴とする、請求項1および2に記載の方法。
  4. 予測ステップ(102)が60分という一定間隔で実施されることを特徴とする、請求項1および2に記載の方法。
  5. 検出ステップ(101)が、
    プロセッサ(4)によって管理される検出アルゴリズム(9)により、統計データを表す信号を、記憶手段(3)に最後に記憶された将来の変化および信頼区間と比較するステップ(101a)と、
    検出アルゴリズム(9)によって検出された異常を、異常に関する表として、記憶手段(3)に記憶するステップであって、異常は、統計データを表す信号が信頼区間を外れる、かつ/または将来の変化から逸脱した際に検出される、記憶するステップ(101b)と
    を含むことを特徴とする、請求項1から4のいずれか一項に記載の方法。
  6. 予測ステップ(102)が、設定されたある時間間隔の間の、プロセッサ(4)によって管理される集計アルゴリズム(7)による、記憶手段(3)に記憶される統計データの、第1の集計ステップ(106a)を更に含み、検出ステップが、同一の時間間隔の間の、プロセッサ(4)による、センサ(C1、C2、…、Cn)によってリアルタイムで送信された統計データを表す信号の、第2の集計ステップ(105a)を更に含むことを特徴とする、請求項1から5のいずれか一項に記載の方法。
  7. 予測ステップ(102)の間の、前記プロセッサ(4)によって管理されるフィルタリングアルゴリズム(6)による、統計データの、これらの統計データを表す前記信号を送信した前記センサ(C1、C2、…、Cn)に応じての、第1のフィルタリングステップ(106b)が、構築ステップ(102a)に先行し、検出ステップにおける、プロセッサ(4)によって管理されるフィルタリングアルゴリズム(6)による、統計データを表す信号の、この表す信号を送信した前記センサ(C1、C2、…、Cn)に応じての、第2のフィルタリング(105b)が、比較ステップ(101a)に先行することを特徴とする、請求項1から5のいずれか一項に記載の方法。
  8. フィルタリングステップ(106b、105b)が、異常の予測および/または検出に必要な信号を送信するセンサ(C1、C2、…、Cn)だけを残すように、センサ(C1、C2、…、Cn)をフィルタリングすることを特徴とする、請求項1または7に記載の方法。
  9. 予測ステップ(102)が、保守を支援するためのシステムのプロセッサ(4)が将来の変化および信頼区間の値を表す信号を表示手段(5)によって表示されるように表示手段(5)に送信する、第1の表示ステップ(103)を含むことを特徴とする、請求項1から8のいずれか一項に記載の方法。
  10. 検出ステップ(101)が、保守を支援するためのシステムのプロセッサ(4)が表示手段(5)に検出アルゴリズム(9)によって異常が検出された際に検出アルゴリズム(9)によって検出された異常を表す信号を送信する、第2の表示ステップ(104)を含むことを特徴とする、請求項1から9のいずれか一項に記載の方法。
  11. スーパーコンピュータ(1)に関する情報、即ち、スーパーコンピュータ(1)の記憶領域に記憶された、前記情報を含む、保守を支援するためのシステムに送信(100a)されたデータから、予測ステップが更に実行されることを特徴とする、請求項1から10のいずれか一項に記載の方法。
  12. スーパーコンピュータ(1)の保守および最適化を支援するためのシステムであって、少なくとも1つのプロセッサ(4)と、前記スーパーコンピュータ(1)の少なくとも1つの計算ノード(N1、N2、…、Nn)内に位置する少なくとも1つのセンサ(C1、C2、…、Cn)によって送信された統計データを表す信号の記憶手段(3)とを含む、コンピュータインフラストラクチャ(2)を備え、前記記憶手段(3)はまた、少なくとも、
    前記プロセッサ(4)上で実行されることで、前記センサからの統計データを表す信号から統計データの将来の変化を一定間隔で予測するものである、予測アルゴリズム(10)と、
    前記プロセッサ(4)上で実行されることで、予測アルゴリズム(10)によって予測された変化に対する前記センサからの統計データを表す信号の変化の異常をリアルタイムで検出するものである、検出アルゴリズム(9)と
    を含み、
    プロセッサ(4)上で実行されることで、統計データを表す前記信号を、請求項1に記載の方法を実施するのに必要なこれらの統計データを表す前記信号を送信した前記センサ(C1、C2、…、Cn)に応じてフィルタリングするものである、少なくとも1つのアルゴリズム(6)を更に含むことを特徴とする、システム。
  13. コンピュータインフラストラクチャ(2)が、
    記憶手段(3)に記憶された統計データから予測数理モデルを構築することが可能な、記憶手段(3)に記憶されるモデル化アルゴリズム(10a)と、
    予測数理モデルから統計データの将来の変化、および統計データの将来の変化の範囲を定める信頼区間を計算することが可能な、記憶手段(3)に記憶される計算アルゴリズム(10b)と
    を更に含むことを特徴とする、請求項12に記載のシステム。
  14. 検出アルゴリズム(9)が、統計データを表す信号を、記憶手段(3)に最後に記憶された将来の変化および信頼区間と比較することが可能であることを特徴とする、請求項12または13に記載のシステム。
  15. コンピュータインフラストラクチャ(2)が、記憶手段(3)に記憶される毎分の統計データを集計すること、およびセンサ(C1、C2、…、Cn)によってリアルタイムで送信された統計データを表す毎分の信号を集計することが可能な、記憶手段(3)に記憶される少なくとも1つの集計アルゴリズム(7)を含むことを特徴とする、請求項12から14のいずれか一項に記載のシステム。
  16. コンピュータインフラストラクチャ(2)が、記憶手段に記憶された統計データおよび統計データを表す信号を、これらの統計データを表す信号を送信したセンサ(C1、C2、…、Cn)に応じてフィルタリングすることが可能な、記憶手段(3)に記憶されるフィルタリングアルゴリズム(6)を更に含むことを特徴とする、請求項12から15のいずれか一項に記載のシステム。
  17. コンピュータインフラストラクチャ(2)が、各センサ(C1、C2、…、Cn)について、異常の予測および/または検出に必要な信号のタイプを選択し、それらのセンサ(C1、C2、…、Cn)すべての中で、異常の予測および/または検出に必要な前記データまたは前記信号のフィルタリングに使用される特定の数のセンサ(C1、C2、…、Cn)を選択する、インタフェースを備えることを特徴とする、請求項12から16のいずれか一項に記載のシステム。
  18. 少なくとも将来の変化および信頼区間の値を表示可能な表示手段(5)を更に備えることを特徴とする、請求項12から17のいずれか一項に記載のシステム。
JP2017568147A 2015-11-27 2016-11-24 スーパーコンピュータの保守および最適化を支援するための方法およびシステム Pending JP2019502969A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1561465A FR3044437B1 (fr) 2015-11-27 2015-11-27 Procede et systeme d'aide a la maintenance et a l'optimisation d'un supercalculateur
FR1561465 2015-11-27
PCT/EP2016/078714 WO2017089485A1 (fr) 2015-11-27 2016-11-24 Procédé et système d'aide à la maintenance et à l'optimisation d'un supercalculateur

Publications (1)

Publication Number Publication Date
JP2019502969A true JP2019502969A (ja) 2019-01-31

Family

ID=55806439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017568147A Pending JP2019502969A (ja) 2015-11-27 2016-11-24 スーパーコンピュータの保守および最適化を支援するための方法およびシステム

Country Status (8)

Country Link
US (1) US20190004885A1 (ja)
EP (1) EP3380942B1 (ja)
JP (1) JP2019502969A (ja)
CN (1) CN108780417A (ja)
BR (1) BR112017028159A2 (ja)
CA (1) CA2989514A1 (ja)
FR (1) FR3044437B1 (ja)
WO (1) WO2017089485A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3050742B1 (fr) 2016-04-29 2018-05-04 Railtech International Moule de soudure aluminothermique d'un rail metallique et procede de reparation qui en fait usage
US11563640B2 (en) * 2018-12-13 2023-01-24 At&T Intellectual Property I, L.P. Network data extraction parser-model in SDN

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6574587B2 (en) * 1998-02-27 2003-06-03 Mci Communications Corporation System and method for extracting and forecasting computing resource data such as CPU consumption using autoregressive methodology
US7076397B2 (en) * 2002-10-17 2006-07-11 Bmc Software, Inc. System and method for statistical performance monitoring
US7774495B2 (en) * 2003-02-13 2010-08-10 Oracle America, Inc, Infrastructure for accessing a peer-to-peer network environment
CN100387901C (zh) * 2005-08-10 2008-05-14 东北大学 基于Internet网的锅炉传感器故障诊断和容错一体化方法及装置
US8648690B2 (en) * 2010-07-22 2014-02-11 Oracle International Corporation System and method for monitoring computer servers and network appliances
US20130246109A1 (en) * 2010-12-15 2013-09-19 Jhilmil Jain System, article, and method for annotating resource variation
US9218570B2 (en) * 2013-05-29 2015-12-22 International Business Machines Corporation Determining an anomalous state of a system at a future point in time
DE102014204251A1 (de) * 2014-03-07 2015-09-10 Siemens Aktiengesellschaft Verfahren zu einer Interaktion zwischen einer Assistenzvorrichtung und einem medizinischen Gerät und/oder einem Bedienpersonal und/oder einem Patienten, Assistenzvorrichtung, Assistenzsystem, Einheit und System
US9652354B2 (en) * 2014-03-18 2017-05-16 Microsoft Technology Licensing, Llc. Unsupervised anomaly detection for arbitrary time series
CN104639398B (zh) * 2015-01-22 2018-01-16 清华大学 基于压缩测量数据检测系统故障的方法及系统

Also Published As

Publication number Publication date
CN108780417A (zh) 2018-11-09
BR112017028159A2 (pt) 2018-08-28
EP3380942A1 (fr) 2018-10-03
FR3044437A1 (fr) 2017-06-02
WO2017089485A1 (fr) 2017-06-01
US20190004885A1 (en) 2019-01-03
CA2989514A1 (fr) 2017-06-01
FR3044437B1 (fr) 2018-09-21
EP3380942B1 (fr) 2023-02-15

Similar Documents

Publication Publication Date Title
US10318366B2 (en) System and method for relationship based root cause recommendation
CN109412870B (zh) 告警监控方法及平台、服务器、存储介质
US10339457B2 (en) Application performance analyzer and corresponding method
US10438124B2 (en) Machine discovery of aberrant operating states
US9832280B2 (en) User profile configuring method and device
US10469309B1 (en) Management of computing system alerts
US8930757B2 (en) Operations management apparatus, operations management method and program
US11847130B2 (en) Extract, transform, load monitoring platform
KR102440335B1 (ko) 이상 감지 관리 방법 및 그 장치
US20140053025A1 (en) Methods and systems for abnormality analysis of streamed log data
KR102117637B1 (ko) 데이터 전처리 장치 및 방법
JP2008009842A (ja) コンピュータシステムの制御方法及びコンピュータシステム
US20180211172A1 (en) Machine Discovery and Rapid Agglomeration of Similar States
US20110314138A1 (en) Method and apparatus for cause analysis configuration change
JP4506520B2 (ja) 管理サーバ、メッセージの抽出方法、及び、プログラム
US10684906B2 (en) Monitoring peripheral transactions
JP2017526040A (ja) システム活動に関する派生メトリックを相関付けるシステム及び方法
KR20220166760A (ko) 5g 분산 클라우드 시스템의 빅 데이터를 이용하여 장애를 관리하는 장치 및 방법
CN108664346A (zh) 分布式存储系统的节点异常的定位方法、装置和系统
CN118378155A (zh) 一种智能化中间件的故障检测方法及系统
JP6252309B2 (ja) 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置
JP2019502969A (ja) スーパーコンピュータの保守および最適化を支援するための方法およびシステム
EP3764232B1 (en) Business transactions impact analysis
KR20220020553A (ko) 멀티 클라우드 환경에서 애플리케이션 성능 모니터링 방법 및 장치
JP5435225B2 (ja) 運用管理装置、運用管理方法、及びプログラム

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20180227