JP2018530035A - トポロジカルデータを用いたスーパーコンピュータのための監視システム - Google Patents

トポロジカルデータを用いたスーパーコンピュータのための監視システム Download PDF

Info

Publication number
JP2018530035A
JP2018530035A JP2018504291A JP2018504291A JP2018530035A JP 2018530035 A JP2018530035 A JP 2018530035A JP 2018504291 A JP2018504291 A JP 2018504291A JP 2018504291 A JP2018504291 A JP 2018504291A JP 2018530035 A JP2018530035 A JP 2018530035A
Authority
JP
Japan
Prior art keywords
information
equipment
data
supercomputer
information item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018504291A
Other languages
English (en)
Inventor
セバスチャン ミク
セバスチャン ミク
ベン ブラトゥ
ベン ブラトゥ
ラザフィアリソン ラヴァカ アンドリアンベロ
ラザフィアリソン ラヴァカ アンドリアンベロ
Original Assignee
ブル・エス・アー・エス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ブル・エス・アー・エス filed Critical ブル・エス・アー・エス
Publication of JP2018530035A publication Critical patent/JP2018530035A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3082Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved by aggregating or compressing the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/323Visualisation of programs or trace data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/328Computer systems status display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/88Monitoring involving counting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

本発明は、複数の設備機器(E1,E2,E3…En)を含むスーパーコンピュータ(SC)アーキテクチャを監視する監視システム(SS)に関し、−これらの装置と関連付けられるプローブ(S1,S2,S3…Sn)に関するイベントを受け付け、イベントに含まれるデータに基づく少なくとも1つの設備機器での情報を決定することに適したイベント分析モジュール(AE)と、−スーパーコンピュータアーキテクチャのトポロジーでのデータに基づいて少なくとも1つの設備機器での情報から第2の情報項目を決定することに適した情報収集モジュール(AI)と、−第2の情報項目を少なくとも1つの監督データ閲覧ツールへ伝送することに適した情報伝送モジュール(TI)と、を備える。【選択図】図1

Description

本発明は、スーパーコンピュータの分野に関する。より具体的には、このようなスーパーコンピュータを監視することに関する。
スーパーコンピュータは、情報を処理するために取り得る最も高い性能レベルを実現することが意図される情報処理システムである。スーパーコンピュータは、天気予報、分子モデリング、物理又は機械シミュレーション、核分野での計算等の特定の分野での用途を有する高額なシステムである。金融分野、軍事領域での用途も存在する。
これらのスーパーコンピュータは、一般に、非常に多数の設備機器の相互接続からなる。これらの設備機器は、処理ノード(又はマイクロプロセッサ)、ルーティングノード(又はルータ)、マネジメントノード等を備える。
近年では、スーパーコンピュータは、ペタ−FLOPS(又はPFLOPS)のオーダーのパワーを実現しており、FLOP(Floating Point Operations Per Second)は、スーパーコンピュータのパワーを評価するために一般的に受容される測定単位である。このようなパワーレベルを実現するために、これらのスーパーコンピュータは、数十万の相互接続された設備機器を備えうる。
次世代のスーパーコンピュータは、exa−FLOPS、つまり、1018FLOPSのオーダーのものを実現することが期待される。このようなスーパーコンピュータは、数億の設備機器を備えるはずである。
管理及び監視システムは、オペレーターがスーパーコンピュータの異常を検出することを可能にするように製造されているが、異常の原因を理解し、それを是正することを可能にするべきでもある。
プローブは、一般的にはカウンタの形式で、動作データを収集するために、設備機器と関連付けられる。これらの動作データは、特に、ステータス(エラー率等)又は現在実行中のタスクの代表でありうる。
これらのプローブ又はカウンタからの値は、監視装置に対して利用可能となり、オペレーターがそれらを閲覧することを可能にする。従来、スーパーコンピュータのオペレーターのタスクは、問題を決定する又は問題の原因を探すために、利用可能なデータの周辺をナビゲートすることからなる。
プローブの数が非常に多いので、このタスクは、非常に複雑になり、オペレーターが、問題に対して迅速に反応することを可能にすることを望む場合にも不可能である。
例えば、Graphiteツールのような閲覧ツールが開発されている。このツールは、ウェブ型インターフェースを提示し、プローブからの全ての値の周辺をナビゲートすることを可能にする。Graphiteは、また、そこへのアクセスを容易にし、かつアップロードされる値に関数を適用するために、ツリー構造の形式でプローブを組織することができる。
しかし、このようなツールは、ウェブインターフェースを介してグラフィック閲覧を可能にするが、問題を決定するためにどのプローブを監視するかを決定することはできない。
グラフィカルインターフェース上又はダッシュボード上に、値が閲覧され、更新されるプローブの関連サブセットを定義することも可能である。このサブセットのプローブからの値の監視は、スーパーコンピュータの、ある瞬間の状態を決定し、問題を検出する及び/又はその原因を決定するために十分であると考えられる。
しかし、これを決定するタスクは、人間のオペレーターに委譲される。ここで、非常に大きなサイズのスーパーコンピュータの場合、このタスクは、利用可能な非常に多数のプローブから選択することからなる。この数は、数億のプローブ又はカウンタに達しうる。
このことから、このタスクは、人間のオペレーターにとって非常に複雑であり、最適な関連サブセットを定義することはほとんど不可能であるという結果になる。
更に、オペレーターが直面する別の問題は、分析される情報を供給する装置の異質性である。事実上、プローブ及びカウンタに加えて、スーパーコンピュータは、また、様々な種類の管理及び監視ツールと関連付けられる又は様々な種類の管理及び監視ツールを備える。これらのツールは、例えば、特定の基準に基づいて閲覧を得ることを可能にする、又はスーパーコンピュータの特定の設備機器に組み込まれる又は関連付けられることを可能にする。
スーパーコンピュータの状態を分析するために、オペレーターは、様々なツールと相互作用することを可能にしなければならず、ここで再び、監視タスクのために必要とされる情報を選択しなければならない。
したがって、スーパーコンピュータの増加するパワー及び複雑さは、少なくとも2つの技術的課題を挙げている。
−1つは、従来の方法論に基づいて監視を実行することがますます複雑になっていることである。
−もう1つは、スーパーコンピュータアーキテクチャの複雑さの増大が、それらに影響を与えうる問題の潜在的なソースを拡大しているため、監視がより重要な問題となっていることである。
本発明の目的は、上述された欠点を少なくとも部分的に軽減し、特に、この二つの技術的課題を解決することを可能にする方法及びシステムを提供することである。
この目的に向けて、本発明は、複数の設備機器を備えるスーパーコンピュータアーキテクチャを監視するための方法を提案し、前記方法は、
−設備機器と関連付けられるプローブに関するイベントを受け付けるステップと、
−イベントに含まれるデータに基づいて少なくとも1つの設備機器での情報を決定するステップと、
−スーパーコンピュータアーキテクチャのトポロジーでのデータに基づいて少なくとも1つの設備機器での情報から第2の情報項目を決定することを含む集約ステップと、
−第2の情報項目を少なくとも1つのスーパービジョンデータ閲覧ツールへ伝送するステップと、を備える。
好ましい実施形態によれば、本発明は、別々に又は互いに部分的に組み合わせて又は互いに全体的に組み合わせて用いられうる以下の構成のうちの1以上を備える:
−第2の情報項目は、情報項目及びトポロジーデータから決定された設備機器のセットから決定される;
−第2の情報項目は、設備機器のセットと関連付けられるプローブからのデータからも決定される;
−第2の情報項目は、ウェブサービスへ伝送される。
本発明の別の態様は、情報処理プラットフォームによってトリガされたとき、前述された方法を実装するために適したソフトウェア手段を備えるコンピュータプログラムに関する。
本発明の別の態様は、複数の設備機器を備えるスーパーコンピュータアーキテクチャを監視するための監視システムに関し、前記監視システムは、
−設備機器と関連付けられるプローブに関するイベントを受け付け、イベントに含まれるデータに基づいて少なくとも1つの設備機器での情報を決定することに適したイベント分析モジュールと、
−スーパーコンピュータアーキテクチャのトポロジーでのデータに基づいて少なくとも1つの設備機器での情報から第2の情報項目を決定することに適した情報集約モジュールと、
−第2の情報項目を少なくとも1つの監督データ閲覧ツールへ伝送することに適した情報伝送モジュールと、を備える。
好ましい実施形態によれば、本発明は、別々に又は互いに部分的に組み合わせて又は互いに全体的に組み合わせて用いられうる以下の構成のうちの1以上を備える:
−情報集約モジュールは、第2の情報項目を、情報項目及びトポロジーデータから決定された設備機器のセットから決定することに適する;
−第2の情報項目は、設備機器のセットと関連付けられるプローブからのデータからも決定される;
−トポロジーでのデータは、トポロジーマネージャーによって供給される。
本発明の別の態様は、前述された監視システム及びスーパーコンピュータを備えるシステムに関する。
本発明の他の特徴及び利点は、実施例として与えられた、本発明の好ましい実施形態の以下の説明を、添付の図面を参照しながら読むことで明らかとなるであろう。
図1は、本発明の実施形態に係る、スーパーコンピュータ及び監視システムを含む例示的なアーキテクチャを概略的に示す。
図1では、本発明の実施形態が実施される全体の状況が示される。この状況は、かなり一般的であるとみなされるが、本発明は、また、場合によっては、この例示的な状況のフレームワークの範囲内にない他の実施形態に基づいて実施されうる。
スーパーコンピュータSCは、複数の設備機器E1,E2,E3…Enを備える。本発明は、ハイパワーのスーパーコンピュータに適用し、よって、多数の設備機器を備える。よって、この数は、数十万、数億のオーダーのものでありうる。
設備機器は、処理ノードであることができ、スーパーコンピュータに任せられる実際の処理タスクを実行することが意図される1以上のマイクロプロセッサ、メモリのセット等を備える。
設備機器は、また、ルーティングノードであることができ、スーパーコンピュータ内のデータを適切にルーティングすることが可能である。
また、マネジメントノードも存在することができ、このルーティングを管理し、一連の処理ノード内のタスクの分配を可能にする。
これらの設備機器は、相互接続され、したがって、事前に決定され、かつ適合可能であるトポロジーに基づいてネットワークを形成する。
このようにして、スーパーコンピュータSCに任せられる処理タスクは、動作の異なるノードに基づいて一連の処理ノードで処理されうる(超並列、パイプライン等)
プローブS1,S2,S3…Snは、また、スーパーコンピュータ内に配備される。
これらのプローブは、設備機器と関連付けられる。異なる構成が可能である:プローブは、単一設備機器又はいくつかの設備機器と関連付けられうる;与えられた設備機器は、単一プローブ又はいくつかのプローブと関連付けられうる。よって、図1は、プローブと設備機器との間で1対1関係が導入される典型的な実施形態が示されるが、より一般的には、スーパーコンピュータSCを構成するプローブと設備機器との間でN対M関係が導入されうる。
用語「プローブ」は、1以上の設備機器の動作又は状態での情報を測定し、スーパーコンピュータ外の情報と通信することが可能な任意の存在を意味するために本明細書で用いられる。プローブは、したがって、関連付けられた設備機器に組み込まれるソフトウェアモジュール、又はハードウェア装置又は2つの組み合わせでありうる。
プローブは、簡素なカウンタであることができ、関連付けられた設備機器にリンクされた数量をリアルタイムで測定する:エラー率、温度、負荷等。
一部の設備機器は、より複雑な性質の情報を供給しうるより組織化された管理及び/又は監視システムと関連付けられうる。本発明が最も簡素かつ最も基本的なカウンタ及び最も組織化された管理システムの両方に適用されることができるので、2つのカテゴリ及び中間ソリューションは、用語「プローブ」下の文章において以下に共にグループ化される。
スーパーコンピュータの管理ツールは、一般的に、イベント発生器EGと、トポロジーマネージャーGTと、プローブマネージャーGSと、を備える。
イベント発生器EGは、1以上のプローブによって取られる値が、決定された基準に対応するとき、イベント又は通知を生成するために、各種プローブS1,S2,S3…Snと協働して動作する。イベント発生器GEによって生成されたイベントは、プローブS1,S2,S3…Snによって取られた値によってトリガされる。イベントは、また、ある設備機器及び/又はプローブを懸念する、人間のオペレーターによってトリガされうる。
主に、2つのタイプのソースが設備機器からイベントを生成しうる:
−ハードウェア故障又は劣化(部分故障、電源供給問題、欠陥ケーブル等);
−定義された期間中の過剰な多数かつ繰り返しのエラー。
ユーザが、ある設備機器のあるカウンタを参照及び表示することを望むので、非常に頻繁に、ユーザは、アクションをトリガしうる。
トポロジーマネージャーGTは、また、スーパーコンピュータアーキテクチャのトポロジー、すなわち、設備機器及びそれらの相互接続のアイデンティティ、を格納するために、利用可能である。よって、トポロジーマネージャーに問い合わせることによって、いつでも、どのように設備機器が互いに接続されているか、したがって、与えられた設備機器に対して、どれがその「トポロジー的な近傍」であるか、すなわち、それらが接続されているもの(物理的又は論理的に)、を解明することができる。
スーパーコンピュータSCは、また、プローブマネージャーGSと関連付けられうる。このデバイスは、決定されたプロトコルによって、プローブS1,S2,S3…Sn及びそれらの値にアクセスすることが可能であるサードパーティアプリケーションへのインターフェースを確実にすることができる。
プローブマネージャーGS、トポロジーマネージャーGT及びイベント発生器GEは、スーパーコンピュータに特有でありうる。それらの機能及びそれらの使用のモードは、したがって、ある製造者と別の製造者とで強固に変化しうる。一般的に、それらは、前述されたような従来技術のデバイスであり、本発明によって提案される、関連情報項目の組織された表示を直接的に可能にすることができない。
本発明は、プローブマネージャーGS、トポロジーマネージャーGT及びイベント発生器GEによって供給される情報項目を入力として取る監視システムSSにある。監視システムSSは、ある場合に、本発明のある実施形態に係る、プローブS1,S2,S3…Snに直接的にアクセスすることができる。
本発明に係る監視システムは、イベント分析モジュールAEと、情報集約モジュールAIと、情報伝送モジュールTIと、を備える。これらのモジュールは、機能的なモジュールである:物理的に、それらは、異なるデバイス、特に別々のソフトウェアアプリケーションによって実装されることができる、又は単一のデバイス又はソフトウェアアプリケーションによって実装されることができ、独立である又は独立でない形式でこれらの3つの機能を組み合わせる。3つの機能的なモジュールへの分割は、本発明の機構の明確な説明を可能にし、以下、本明細書で保持されるであろう。
イベント分析モジュールは、イベント発生器GEによって生成されたイベントを受け付けることを可能にする。イベントを受け付けると、イベント分析モジュールAEは、このイベントに含まれるデータを読み出す。
本発明の実施形態によれば、イベントによって供給されるデータを、イベント分析モジュールに理解可能なフォーマットに変換するために、アダプタは、イベント発生器GEとイベント分析モジュールAEとの間に挿入されうる。このアダプタは、独立モジュール又はプラグインP1の形式を取りうる。プラグインは、イベント発生器GEの各タイプに対して設計されうる。よって、その独自の管理ツール及び特にイベントマネージャーGEを有する各スーパーコンピュータに対して、生成されるイベント及びそれらのデータを、監視システムSSに適した「ユニバーサル」フォーマットに変換することに適したプラグインモジュールP1を設計することができる。
受け付けられたイベントから抽出されたこれらのデータから、イベント分析モジュールは、設備機器又は懸念される項目での情報を決定する。これ又はこれらの設備機器は、典型的には、イベントを生じるものである。このような情報は、設備機器の識別子、及び設備機器と関連付けられるプローブから生じる情報を含みうる。後者の情報は、プローブ識別子(測定された代表値)、値及び単位を含みうる。
例えば、イベントが、設備機器E1と関連付けられるカウンタS1によって交差した閾値によってトリガされる場合、イベント分析モジュールは、設備機器E1の識別子(又は名称)、プローブS1の識別子及び/又はプローブによって測定された数量の識別子(例えば、エラー率、負荷、電気消費等)、値及び単位を情報として読み出しうる。
このような情報は、決定されたフォーマットにフォーマット化され、情報集約モジュールAIに伝送されうる。このモジュールの目的は、イベント分析モジュールAEによって伝送される情報を集約することである。
集約モジュールによって実施されるステップは、スーパーコンピュータSCアーキテクチャのトポロジーでのデータにより、イベントからこの情報を集約することからなる。これらのトポロジーデータ(又はトポロジー的データ)は、トポロジーマネージャーGTから生じうる。
よって、イベントを介して受け付けられる情報は、設備機器の第1のセットを含みうる。この第1のセットは、イベントが単一設備機器Eiのみに関する場合、シングルトンであることができる。
この第1のセットは、この第1のセットを包含し、かつ及び設備機器に隣接する第2のセットを決定するために、アーキテクチャのトポロジーへ「投影」される。近傍の概念は、例えば、距離に依存することができ、よって、中間近傍のみ、又は第1のセットの設備機器からNホップに置かれた近傍における関心を定義することができる。
この投影及びこの第2のセットの決定は、第1のセットの各設備機器の近傍を情報集約モジュールへアップロードするために、トポロジーマネージャーGTへのリクエストを対処することによってなされることができ、その後、それの合併集合をなす。
情報集約モジュールは、その後、この第2のセットの設備機器と関連付けられるプローブによって供給される値に対してサーチしうる。このため、プローブマネージャーGSに問い合わせうる。
プローブ値に基づいて、設備機器の一部のみを保持し、それ以外を除外しうる。
例えば、設備機器又はイベントに関する項目と同種であるプローブを有する設備機器のみを保持しうる。よって、イベントが、過剰な負荷に関する問題を懸念する場合、電気消費のためのプローブのみが利用可能であることに対して、装備項目、更には近傍を考慮することは無意味である。一方、ルーティングでの情報は、この問題の原因及び結論を決定するために、関連性がある。
他のフィルタリング機構は、設備機器のこの第2のセット並びに関連付けられるプローブ及びプローブ値のセットを決定するために導入されうる。
例えば、ルール又は学習機構は、相関する設備機器/プローブのイベント及びパターンを相関するために導入されうる。例えば、ルール又は学習機構は、それらを決定するための設備機器又はルールの第2の典型的なセットを提供しうる。
このようにして、情報集約モジュールは、
−受け付けられたイベントによって決定された情報項目、及び
−スーパーコンピュータのアーキテクチャのトポロジーでのデータから、及び
−ある場合に、トポロジーでのデータから決定された設備機器のセットと関連付けられるプローブからのデータから、
作成される、第2の情報項目を決定しうる。
一般的に、初期のものに加えて、必要に応じて、見ることに関心があるであろう設備機器を、決定することができる。
例えば、設備機器が、過剰な温度問題を更新する場合、より全体的な問題が存在するかをチェックするために(例えば、空調故障)、その温度曲線及びその近傍の温度曲線を有することに関心がある。
正当に決定された第2の情報項目は、情報伝送モジュールTIへ伝送されうる。機能的なモジュールの目的は、構造へ、第2の情報項目をフォーマットすること、及び監督データ閲覧ツールVDSが第2の情報項目にアクセスすることを可能にする1以上のインターフェースを提示することである。
異なるツールは、本発明に係る監視システムSSの情報伝送モジュールTIとインターフェース接続することによって、利用可能な情報を収集しうる。
増加した相互運用を可能にするために、プラグインタイプの、変換ユニットP2は、第2の情報項目を任意の想定可能なフォーマットへ適合するために、情報伝送モジュールTIの下流に挿入されうる。
よって、実際の監視データ閲覧ツールVDSだけでなく、ウェブサービス等(例えば、XMLメタ言語での表現を介して)によっても、情報のエクスポートを提案することを可能にしうる。
よって、本発明は、監督データ閲覧ツールのより容易かつより自動的な構成を可能にする。この構成は、状況、つまり、受け付けられるイベントに適合されうる。
特に、状況に応じて関連サブセットに伝送される情報も制限すること、及び他の関連情報によりそれを強化することも可能にする。本発明に係る監視システムは、そのようにするために、トポロジー的なデータを用い、それが情報を強化することを可能にし、最も関連する情報を決定することを可能にする。
関連性の概念は、パラメータ化及び学習機構の主題となることができ、よって、監視システムが非常に高い性能レベルを実現することを可能にする。
したがって、オペレーターは、スーパーコンピュータによって伝送されるイベントに反応することができ、その独自の構想で、より迅速かつ効率的に、監視動作により単に処理することができる。スーパーコンピュータ上で生じる問題をより迅速に検出及び把握することができ、その原因も決定することができる。
明示的に、本発明は、説明及び示された実施例及び実施形態に限定されないが、当業者にとってアクセス可能な多数の変更に役立つ。

Claims (10)

  1. 複数の設備機器(E1,E2,E3…En)を含むスーパーコンピュータ(SC)アーキテクチャを監視するための方法であって、
    −前記設備機器と関連付けられるプローブ(S1,S2,S3…Sn)に関するイベントを受け付けるステップと、
    −前記イベントに含まれるデータに基づいて少なくとも1つの設備機器での情報を決定するステップと、
    −前記スーパーコンピュータアーキテクチャのトポロジーでのデータに基づいて前記少なくとも1つの設備機器での情報から第2の情報項目を決定することを含む集約ステップと、
    −前記第2の情報項目を少なくとも1つのスーパービジョンデータ閲覧ツールへ伝送するステップと、
    を備える方法。
  2. 前記第2の情報項目は、情報項目及びトポロジーデータから決定された設備機器のセットから決定される、請求項1に記載の方法。
  3. 前記第2の情報項目は、前記設備機器のセットと関連付けられるプローブからのデータからも決定される、請求項2に記載の方法。
  4. 前記第2の情報項目は、ウェブサービスへ伝送される、請求項1から3のいずれか一項に記載の方法。
  5. 情報処理プラットフォームによってトリガされたとき、請求項1から4のいずれか一項に記載の方法を実装するために適したソフトウェア手段を備えるコンピュータプログラム。
  6. 複数の設備機器(E1,E2,E3…En)を含むスーパーコンピュータ(SC)アーキテクチャを監視する監視システム(SS)であって、
    −前記設備機器と関連付けられるプローブ(S1,S2,S3…Sn)に関するイベントを受け付け、前記イベントに含まれるデータに基づいて少なくとも1つの設備機器での情報を決定することに適したイベント分析モジュール(AE)と、
    −前記スーパーコンピュータアーキテクチャのトポロジーでのデータに基づいて前記少なくとも1つの設備機器での情報から第2の情報項目を決定することに適した情報集約モジュール(AI)と、
    −前記第2の情報項目を少なくとも1つの監督データ閲覧ツールへ伝送することに適した情報伝送モジュール(TI)と、
    を備える監視システム(SS)。
  7. 前記情報集約モジュールは、前記第2の情報項目を、情報項目及びトポロジーデータから決定された設備機器のセットから決定することに適する、請求項6に記載の監視システム(SS)。
  8. 前記第2の情報項目は、前記設備機器のセットと関連付けられるプローブからのデータからも決定される、請求項7に記載の監視システム(SS)。
  9. 前記トポロジーでの前記データは、トポロジーマネージャー(GT)によって供給される、請求項6から8のいずれか一項に記載の監視システム(SS)。
  10. 請求項6から9のいずれか一項に記載の監視システム及びスーパーコンピュータ(SC)を備えるシステム。
JP2018504291A 2015-08-13 2016-07-19 トポロジカルデータを用いたスーパーコンピュータのための監視システム Pending JP2018530035A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1557708 2015-08-13
FR1557708A FR3040095B1 (fr) 2015-08-13 2015-08-13 Systeme de surveillance pour supercalculateur utilisant des donnees topologiques
PCT/FR2016/051861 WO2017025672A1 (fr) 2015-08-13 2016-07-19 Système de surveillance pour supercalculateur utilisant des données topologiques

Publications (1)

Publication Number Publication Date
JP2018530035A true JP2018530035A (ja) 2018-10-11

Family

ID=54366368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018504291A Pending JP2018530035A (ja) 2015-08-13 2016-07-19 トポロジカルデータを用いたスーパーコンピュータのための監視システム

Country Status (6)

Country Link
US (1) US11436121B2 (ja)
EP (1) EP3335122B1 (ja)
JP (1) JP2018530035A (ja)
FR (1) FR3040095B1 (ja)
IL (1) IL257100A (ja)
WO (1) WO2017025672A1 (ja)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8522248B1 (en) * 2007-09-28 2013-08-27 Emc Corporation Monitoring delegated operations in information management systems
US8289960B2 (en) * 2009-06-22 2012-10-16 Citrix Systems, Inc. Systems and methods for N-core tracing
WO2012047746A2 (en) * 2010-10-04 2012-04-12 Avocent System and method for monitoring and managing data center resources in real time
WO2012047757A1 (en) * 2010-10-04 2012-04-12 Avocent System and method for monitoring and managing data center resources in real time incorporating manageability subsystem
JP5659108B2 (ja) 2011-08-31 2015-01-28 富士通エフ・アイ・ピー株式会社 運用監視装置、運用監視プログラム及び記録媒体
US9246773B2 (en) * 2013-07-30 2016-01-26 Draios Inc. System, method, and graphical user interface for application topology mapping in hosted computing environments
WO2015020648A1 (en) * 2013-08-07 2015-02-12 Hitachi, Ltd. Method and apparatus for dynamic monitoring condition control
US20150378805A1 (en) 2013-11-29 2015-12-31 Hitachi, Ltd. Management system and method for supporting analysis of event root cause
FR3021138B1 (fr) * 2014-05-16 2017-10-06 Bull Architecture de correlation d'evenements pour la surveillance de supercalculateur
FR3041450B1 (fr) * 2015-09-17 2017-11-03 Bull Sas Architecture client/serveur pour l'administration d'un supercalculateur

Also Published As

Publication number Publication date
WO2017025672A1 (fr) 2017-02-16
EP3335122B1 (fr) 2019-11-27
US20190012253A1 (en) 2019-01-10
EP3335122A1 (fr) 2018-06-20
US11436121B2 (en) 2022-09-06
FR3040095A1 (fr) 2017-02-17
FR3040095B1 (fr) 2019-06-14
IL257100A (en) 2018-06-28

Similar Documents

Publication Publication Date Title
Golabchi et al. Automated building information modeling for fault detection and diagnostics in commercial HVAC systems
CN104137078A (zh) 操作管理设备、操作管理方法和程序
US8458117B2 (en) System and method for dependency and root cause discovery
KR20180108446A (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
Golabchi et al. Leveraging BIM for automated fault detection in operational buildings
CA2867253A1 (en) System and method for analyzing oscillatory stability in electrical power transmission systems
Tan et al. A novel approach of testability modeling and analysis for PHM systems based on failure evolution mechanism
CN109218048A (zh) 对部署在云上的一个工业系统的性能测试方法和装置
CN113010374A (zh) 一种基于监控平台的量子设备监控的方法、系统
Chen A novel reliability estimation method of complex network based on Monte Carlo
Atzmueller et al. Anomaly detection and structural analysis in industrial production environments
WO2015146100A1 (ja) 負荷推定システム、情報処理装置、負荷推定方法、及び、プログラムを記憶する記憶媒体
JP2004505364A (ja) 工業技術的プロセスの遠隔診断方法
Schachinger et al. An advanced data analytics framework for energy efficiency in buildings
Liu et al. The design and implementation of the enterprise level data platform and big data driven applications and analytics
JP2006059108A (ja) 情報システム開発試験支援システム
JP2018530035A (ja) トポロジカルデータを用いたスーパーコンピュータのための監視システム
US7778804B2 (en) Network system analysis
Qiu et al. IoTI: Internet of things instruments reconstruction model design
CN107121616B (zh) 一种用于对智能仪表进行故障定位的方法和装置
US20220035359A1 (en) System and method for determining manufacturing plant topology and fault propagation information
Santiago et al. Predictive Maintenance System for efficiency improvement of heating equipment
CN103782245A (zh) 技术系统的操控
US9229898B2 (en) Causation isolation using a configuration item metric identified based on event classification
Hu et al. Decision‐Level Defect Prediction Based on Double Focuses

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200331

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201104