JP2018530035A

JP2018530035A - トポロジカルデータを用いたスーパーコンピュータのための監視システム

Info

Publication number: JP2018530035A
Application number: JP2018504291A
Authority: JP
Inventors: セバスチャンミク; ベンブラトゥ; ラザフィアリソンラヴァカアンドリアンベロ
Original assignee: ブル・エス・アー・エス
Priority date: 2015-08-13
Filing date: 2016-07-19
Publication date: 2018-10-11
Also published as: IL257100A; FR3040095A1; EP3335122A1; FR3040095B1; US11436121B2; EP3335122B1; WO2017025672A1; US20190012253A1

Abstract

本発明は、複数の設備機器（Ｅ１，Ｅ２，Ｅ３…Ｅｎ）を含むスーパーコンピュータ（ＳＣ）アーキテクチャを監視する監視システム（ＳＳ）に関し、−これらの装置と関連付けられるプローブ（Ｓ１，Ｓ２，Ｓ３…Ｓｎ）に関するイベントを受け付け、イベントに含まれるデータに基づく少なくとも１つの設備機器での情報を決定することに適したイベント分析モジュール（ＡＥ）と、−スーパーコンピュータアーキテクチャのトポロジーでのデータに基づいて少なくとも１つの設備機器での情報から第２の情報項目を決定することに適した情報収集モジュール（ＡＩ）と、−第２の情報項目を少なくとも１つの監督データ閲覧ツールへ伝送することに適した情報伝送モジュール（ＴＩ）と、を備える。【選択図】図１

Description

本発明は、スーパーコンピュータの分野に関する。より具体的には、このようなスーパーコンピュータを監視することに関する。

スーパーコンピュータは、情報を処理するために取り得る最も高い性能レベルを実現することが意図される情報処理システムである。スーパーコンピュータは、天気予報、分子モデリング、物理又は機械シミュレーション、核分野での計算等の特定の分野での用途を有する高額なシステムである。金融分野、軍事領域での用途も存在する。

これらのスーパーコンピュータは、一般に、非常に多数の設備機器の相互接続からなる。これらの設備機器は、処理ノード（又はマイクロプロセッサ）、ルーティングノード（又はルータ）、マネジメントノード等を備える。

近年では、スーパーコンピュータは、ペタ−ＦＬＯＰＳ（又はＰＦＬＯＰＳ）のオーダーのパワーを実現しており、ＦＬＯＰ（ＦｌｏａｔｉｎｇＰｏｉｎｔＯｐｅｒａｔｉｏｎｓＰｅｒＳｅｃｏｎｄ）は、スーパーコンピュータのパワーを評価するために一般的に受容される測定単位である。このようなパワーレベルを実現するために、これらのスーパーコンピュータは、数十万の相互接続された設備機器を備えうる。

次世代のスーパーコンピュータは、ｅｘａ−ＦＬＯＰＳ、つまり、１０^１８ＦＬＯＰＳのオーダーのものを実現することが期待される。このようなスーパーコンピュータは、数億の設備機器を備えるはずである。

管理及び監視システムは、オペレーターがスーパーコンピュータの異常を検出することを可能にするように製造されているが、異常の原因を理解し、それを是正することを可能にするべきでもある。

プローブは、一般的にはカウンタの形式で、動作データを収集するために、設備機器と関連付けられる。これらの動作データは、特に、ステータス（エラー率等）又は現在実行中のタスクの代表でありうる。

これらのプローブ又はカウンタからの値は、監視装置に対して利用可能となり、オペレーターがそれらを閲覧することを可能にする。従来、スーパーコンピュータのオペレーターのタスクは、問題を決定する又は問題の原因を探すために、利用可能なデータの周辺をナビゲートすることからなる。

プローブの数が非常に多いので、このタスクは、非常に複雑になり、オペレーターが、問題に対して迅速に反応することを可能にすることを望む場合にも不可能である。

例えば、Ｇｒａｐｈｉｔｅツールのような閲覧ツールが開発されている。このツールは、ウェブ型インターフェースを提示し、プローブからの全ての値の周辺をナビゲートすることを可能にする。Ｇｒａｐｈｉｔｅは、また、そこへのアクセスを容易にし、かつアップロードされる値に関数を適用するために、ツリー構造の形式でプローブを組織することができる。

しかし、このようなツールは、ウェブインターフェースを介してグラフィック閲覧を可能にするが、問題を決定するためにどのプローブを監視するかを決定することはできない。

グラフィカルインターフェース上又はダッシュボード上に、値が閲覧され、更新されるプローブの関連サブセットを定義することも可能である。このサブセットのプローブからの値の監視は、スーパーコンピュータの、ある瞬間の状態を決定し、問題を検出する及び／又はその原因を決定するために十分であると考えられる。

しかし、これを決定するタスクは、人間のオペレーターに委譲される。ここで、非常に大きなサイズのスーパーコンピュータの場合、このタスクは、利用可能な非常に多数のプローブから選択することからなる。この数は、数億のプローブ又はカウンタに達しうる。

このことから、このタスクは、人間のオペレーターにとって非常に複雑であり、最適な関連サブセットを定義することはほとんど不可能であるという結果になる。

更に、オペレーターが直面する別の問題は、分析される情報を供給する装置の異質性である。事実上、プローブ及びカウンタに加えて、スーパーコンピュータは、また、様々な種類の管理及び監視ツールと関連付けられる又は様々な種類の管理及び監視ツールを備える。これらのツールは、例えば、特定の基準に基づいて閲覧を得ることを可能にする、又はスーパーコンピュータの特定の設備機器に組み込まれる又は関連付けられることを可能にする。

スーパーコンピュータの状態を分析するために、オペレーターは、様々なツールと相互作用することを可能にしなければならず、ここで再び、監視タスクのために必要とされる情報を選択しなければならない。

したがって、スーパーコンピュータの増加するパワー及び複雑さは、少なくとも２つの技術的課題を挙げている。
−１つは、従来の方法論に基づいて監視を実行することがますます複雑になっていることである。
−もう１つは、スーパーコンピュータアーキテクチャの複雑さの増大が、それらに影響を与えうる問題の潜在的なソースを拡大しているため、監視がより重要な問題となっていることである。

本発明の目的は、上述された欠点を少なくとも部分的に軽減し、特に、この二つの技術的課題を解決することを可能にする方法及びシステムを提供することである。

この目的に向けて、本発明は、複数の設備機器を備えるスーパーコンピュータアーキテクチャを監視するための方法を提案し、前記方法は、
−設備機器と関連付けられるプローブに関するイベントを受け付けるステップと、
−イベントに含まれるデータに基づいて少なくとも１つの設備機器での情報を決定するステップと、
−スーパーコンピュータアーキテクチャのトポロジーでのデータに基づいて少なくとも１つの設備機器での情報から第２の情報項目を決定することを含む集約ステップと、
−第２の情報項目を少なくとも１つのスーパービジョンデータ閲覧ツールへ伝送するステップと、を備える。

好ましい実施形態によれば、本発明は、別々に又は互いに部分的に組み合わせて又は互いに全体的に組み合わせて用いられうる以下の構成のうちの１以上を備える：
−第２の情報項目は、情報項目及びトポロジーデータから決定された設備機器のセットから決定される；
−第２の情報項目は、設備機器のセットと関連付けられるプローブからのデータからも決定される；
−第２の情報項目は、ウェブサービスへ伝送される。

本発明の別の態様は、情報処理プラットフォームによってトリガされたとき、前述された方法を実装するために適したソフトウェア手段を備えるコンピュータプログラムに関する。

本発明の別の態様は、複数の設備機器を備えるスーパーコンピュータアーキテクチャを監視するための監視システムに関し、前記監視システムは、
−設備機器と関連付けられるプローブに関するイベントを受け付け、イベントに含まれるデータに基づいて少なくとも１つの設備機器での情報を決定することに適したイベント分析モジュールと、
−スーパーコンピュータアーキテクチャのトポロジーでのデータに基づいて少なくとも１つの設備機器での情報から第２の情報項目を決定することに適した情報集約モジュールと、
−第２の情報項目を少なくとも１つの監督データ閲覧ツールへ伝送することに適した情報伝送モジュールと、を備える。

好ましい実施形態によれば、本発明は、別々に又は互いに部分的に組み合わせて又は互いに全体的に組み合わせて用いられうる以下の構成のうちの１以上を備える：
−情報集約モジュールは、第２の情報項目を、情報項目及びトポロジーデータから決定された設備機器のセットから決定することに適する；
−第２の情報項目は、設備機器のセットと関連付けられるプローブからのデータからも決定される；
−トポロジーでのデータは、トポロジーマネージャーによって供給される。

本発明の別の態様は、前述された監視システム及びスーパーコンピュータを備えるシステムに関する。

本発明の他の特徴及び利点は、実施例として与えられた、本発明の好ましい実施形態の以下の説明を、添付の図面を参照しながら読むことで明らかとなるであろう。

図１は、本発明の実施形態に係る、スーパーコンピュータ及び監視システムを含む例示的なアーキテクチャを概略的に示す。

図１では、本発明の実施形態が実施される全体の状況が示される。この状況は、かなり一般的であるとみなされるが、本発明は、また、場合によっては、この例示的な状況のフレームワークの範囲内にない他の実施形態に基づいて実施されうる。

スーパーコンピュータＳＣは、複数の設備機器Ｅ１，Ｅ２，Ｅ３…Ｅｎを備える。本発明は、ハイパワーのスーパーコンピュータに適用し、よって、多数の設備機器を備える。よって、この数は、数十万、数億のオーダーのものでありうる。

設備機器は、処理ノードであることができ、スーパーコンピュータに任せられる実際の処理タスクを実行することが意図される１以上のマイクロプロセッサ、メモリのセット等を備える。

設備機器は、また、ルーティングノードであることができ、スーパーコンピュータ内のデータを適切にルーティングすることが可能である。

また、マネジメントノードも存在することができ、このルーティングを管理し、一連の処理ノード内のタスクの分配を可能にする。

これらの設備機器は、相互接続され、したがって、事前に決定され、かつ適合可能であるトポロジーに基づいてネットワークを形成する。

このようにして、スーパーコンピュータＳＣに任せられる処理タスクは、動作の異なるノードに基づいて一連の処理ノードで処理されうる（超並列、パイプライン等）

プローブＳ１，Ｓ２，Ｓ３…Ｓｎは、また、スーパーコンピュータ内に配備される。

これらのプローブは、設備機器と関連付けられる。異なる構成が可能である：プローブは、単一設備機器又はいくつかの設備機器と関連付けられうる；与えられた設備機器は、単一プローブ又はいくつかのプローブと関連付けられうる。よって、図１は、プローブと設備機器との間で１対１関係が導入される典型的な実施形態が示されるが、より一般的には、スーパーコンピュータＳＣを構成するプローブと設備機器との間でＮ対Ｍ関係が導入されうる。

用語「プローブ」は、１以上の設備機器の動作又は状態での情報を測定し、スーパーコンピュータ外の情報と通信することが可能な任意の存在を意味するために本明細書で用いられる。プローブは、したがって、関連付けられた設備機器に組み込まれるソフトウェアモジュール、又はハードウェア装置又は２つの組み合わせでありうる。

プローブは、簡素なカウンタであることができ、関連付けられた設備機器にリンクされた数量をリアルタイムで測定する：エラー率、温度、負荷等。

一部の設備機器は、より複雑な性質の情報を供給しうるより組織化された管理及び／又は監視システムと関連付けられうる。本発明が最も簡素かつ最も基本的なカウンタ及び最も組織化された管理システムの両方に適用されることができるので、２つのカテゴリ及び中間ソリューションは、用語「プローブ」下の文章において以下に共にグループ化される。

スーパーコンピュータの管理ツールは、一般的に、イベント発生器ＥＧと、トポロジーマネージャーＧＴと、プローブマネージャーＧＳと、を備える。

イベント発生器ＥＧは、１以上のプローブによって取られる値が、決定された基準に対応するとき、イベント又は通知を生成するために、各種プローブＳ１，Ｓ２，Ｓ３…Ｓｎと協働して動作する。イベント発生器ＧＥによって生成されたイベントは、プローブＳ１，Ｓ２，Ｓ３…Ｓｎによって取られた値によってトリガされる。イベントは、また、ある設備機器及び／又はプローブを懸念する、人間のオペレーターによってトリガされうる。

主に、２つのタイプのソースが設備機器からイベントを生成しうる：
−ハードウェア故障又は劣化（部分故障、電源供給問題、欠陥ケーブル等）；
−定義された期間中の過剰な多数かつ繰り返しのエラー。

ユーザが、ある設備機器のあるカウンタを参照及び表示することを望むので、非常に頻繁に、ユーザは、アクションをトリガしうる。

トポロジーマネージャーＧＴは、また、スーパーコンピュータアーキテクチャのトポロジー、すなわち、設備機器及びそれらの相互接続のアイデンティティ、を格納するために、利用可能である。よって、トポロジーマネージャーに問い合わせることによって、いつでも、どのように設備機器が互いに接続されているか、したがって、与えられた設備機器に対して、どれがその「トポロジー的な近傍」であるか、すなわち、それらが接続されているもの（物理的又は論理的に）、を解明することができる。

スーパーコンピュータＳＣは、また、プローブマネージャーＧＳと関連付けられうる。このデバイスは、決定されたプロトコルによって、プローブＳ１，Ｓ２，Ｓ３…Ｓｎ及びそれらの値にアクセスすることが可能であるサードパーティアプリケーションへのインターフェースを確実にすることができる。

プローブマネージャーＧＳ、トポロジーマネージャーＧＴ及びイベント発生器ＧＥは、スーパーコンピュータに特有でありうる。それらの機能及びそれらの使用のモードは、したがって、ある製造者と別の製造者とで強固に変化しうる。一般的に、それらは、前述されたような従来技術のデバイスであり、本発明によって提案される、関連情報項目の組織された表示を直接的に可能にすることができない。

本発明は、プローブマネージャーＧＳ、トポロジーマネージャーＧＴ及びイベント発生器ＧＥによって供給される情報項目を入力として取る監視システムＳＳにある。監視システムＳＳは、ある場合に、本発明のある実施形態に係る、プローブＳ１，Ｓ２，Ｓ３…Ｓｎに直接的にアクセスすることができる。

本発明に係る監視システムは、イベント分析モジュールＡＥと、情報集約モジュールＡＩと、情報伝送モジュールＴＩと、を備える。これらのモジュールは、機能的なモジュールである：物理的に、それらは、異なるデバイス、特に別々のソフトウェアアプリケーションによって実装されることができる、又は単一のデバイス又はソフトウェアアプリケーションによって実装されることができ、独立である又は独立でない形式でこれらの３つの機能を組み合わせる。３つの機能的なモジュールへの分割は、本発明の機構の明確な説明を可能にし、以下、本明細書で保持されるであろう。

イベント分析モジュールは、イベント発生器ＧＥによって生成されたイベントを受け付けることを可能にする。イベントを受け付けると、イベント分析モジュールＡＥは、このイベントに含まれるデータを読み出す。

本発明の実施形態によれば、イベントによって供給されるデータを、イベント分析モジュールに理解可能なフォーマットに変換するために、アダプタは、イベント発生器ＧＥとイベント分析モジュールＡＥとの間に挿入されうる。このアダプタは、独立モジュール又はプラグインＰ１の形式を取りうる。プラグインは、イベント発生器ＧＥの各タイプに対して設計されうる。よって、その独自の管理ツール及び特にイベントマネージャーＧＥを有する各スーパーコンピュータに対して、生成されるイベント及びそれらのデータを、監視システムＳＳに適した「ユニバーサル」フォーマットに変換することに適したプラグインモジュールＰ１を設計することができる。

受け付けられたイベントから抽出されたこれらのデータから、イベント分析モジュールは、設備機器又は懸念される項目での情報を決定する。これ又はこれらの設備機器は、典型的には、イベントを生じるものである。このような情報は、設備機器の識別子、及び設備機器と関連付けられるプローブから生じる情報を含みうる。後者の情報は、プローブ識別子（測定された代表値）、値及び単位を含みうる。

例えば、イベントが、設備機器Ｅ１と関連付けられるカウンタＳ１によって交差した閾値によってトリガされる場合、イベント分析モジュールは、設備機器Ｅ１の識別子（又は名称）、プローブＳ１の識別子及び／又はプローブによって測定された数量の識別子（例えば、エラー率、負荷、電気消費等）、値及び単位を情報として読み出しうる。

このような情報は、決定されたフォーマットにフォーマット化され、情報集約モジュールＡＩに伝送されうる。このモジュールの目的は、イベント分析モジュールＡＥによって伝送される情報を集約することである。

集約モジュールによって実施されるステップは、スーパーコンピュータＳＣアーキテクチャのトポロジーでのデータにより、イベントからこの情報を集約することからなる。これらのトポロジーデータ（又はトポロジー的データ）は、トポロジーマネージャーＧＴから生じうる。

よって、イベントを介して受け付けられる情報は、設備機器の第１のセットを含みうる。この第１のセットは、イベントが単一設備機器Ｅｉのみに関する場合、シングルトンであることができる。

この第１のセットは、この第１のセットを包含し、かつ及び設備機器に隣接する第２のセットを決定するために、アーキテクチャのトポロジーへ「投影」される。近傍の概念は、例えば、距離に依存することができ、よって、中間近傍のみ、又は第１のセットの設備機器からＮホップに置かれた近傍における関心を定義することができる。

この投影及びこの第２のセットの決定は、第１のセットの各設備機器の近傍を情報集約モジュールへアップロードするために、トポロジーマネージャーＧＴへのリクエストを対処することによってなされることができ、その後、それの合併集合をなす。

情報集約モジュールは、その後、この第２のセットの設備機器と関連付けられるプローブによって供給される値に対してサーチしうる。このため、プローブマネージャーＧＳに問い合わせうる。

プローブ値に基づいて、設備機器の一部のみを保持し、それ以外を除外しうる。

例えば、設備機器又はイベントに関する項目と同種であるプローブを有する設備機器のみを保持しうる。よって、イベントが、過剰な負荷に関する問題を懸念する場合、電気消費のためのプローブのみが利用可能であることに対して、装備項目、更には近傍を考慮することは無意味である。一方、ルーティングでの情報は、この問題の原因及び結論を決定するために、関連性がある。

他のフィルタリング機構は、設備機器のこの第２のセット並びに関連付けられるプローブ及びプローブ値のセットを決定するために導入されうる。

例えば、ルール又は学習機構は、相関する設備機器／プローブのイベント及びパターンを相関するために導入されうる。例えば、ルール又は学習機構は、それらを決定するための設備機器又はルールの第２の典型的なセットを提供しうる。

このようにして、情報集約モジュールは、
−受け付けられたイベントによって決定された情報項目、及び
−スーパーコンピュータのアーキテクチャのトポロジーでのデータから、及び
−ある場合に、トポロジーでのデータから決定された設備機器のセットと関連付けられるプローブからのデータから、
作成される、第２の情報項目を決定しうる。

一般的に、初期のものに加えて、必要に応じて、見ることに関心があるであろう設備機器を、決定することができる。

例えば、設備機器が、過剰な温度問題を更新する場合、より全体的な問題が存在するかをチェックするために（例えば、空調故障）、その温度曲線及びその近傍の温度曲線を有することに関心がある。

正当に決定された第２の情報項目は、情報伝送モジュールＴＩへ伝送されうる。機能的なモジュールの目的は、構造へ、第２の情報項目をフォーマットすること、及び監督データ閲覧ツールＶＤＳが第２の情報項目にアクセスすることを可能にする１以上のインターフェースを提示することである。

異なるツールは、本発明に係る監視システムＳＳの情報伝送モジュールＴＩとインターフェース接続することによって、利用可能な情報を収集しうる。

増加した相互運用を可能にするために、プラグインタイプの、変換ユニットＰ２は、第２の情報項目を任意の想定可能なフォーマットへ適合するために、情報伝送モジュールＴＩの下流に挿入されうる。

よって、実際の監視データ閲覧ツールＶＤＳだけでなく、ウェブサービス等（例えば、ＸＭＬメタ言語での表現を介して）によっても、情報のエクスポートを提案することを可能にしうる。

よって、本発明は、監督データ閲覧ツールのより容易かつより自動的な構成を可能にする。この構成は、状況、つまり、受け付けられるイベントに適合されうる。

特に、状況に応じて関連サブセットに伝送される情報も制限すること、及び他の関連情報によりそれを強化することも可能にする。本発明に係る監視システムは、そのようにするために、トポロジー的なデータを用い、それが情報を強化することを可能にし、最も関連する情報を決定することを可能にする。

関連性の概念は、パラメータ化及び学習機構の主題となることができ、よって、監視システムが非常に高い性能レベルを実現することを可能にする。

したがって、オペレーターは、スーパーコンピュータによって伝送されるイベントに反応することができ、その独自の構想で、より迅速かつ効率的に、監視動作により単に処理することができる。スーパーコンピュータ上で生じる問題をより迅速に検出及び把握することができ、その原因も決定することができる。

明示的に、本発明は、説明及び示された実施例及び実施形態に限定されないが、当業者にとってアクセス可能な多数の変更に役立つ。

Claims

複数の設備機器（Ｅ１，Ｅ２，Ｅ３…Ｅｎ）を含むスーパーコンピュータ（ＳＣ）アーキテクチャを監視するための方法であって、
−前記設備機器と関連付けられるプローブ（Ｓ１，Ｓ２，Ｓ３…Ｓｎ）に関するイベントを受け付けるステップと、
−前記イベントに含まれるデータに基づいて少なくとも１つの設備機器での情報を決定するステップと、
−前記スーパーコンピュータアーキテクチャのトポロジーでのデータに基づいて前記少なくとも１つの設備機器での情報から第２の情報項目を決定することを含む集約ステップと、
−前記第２の情報項目を少なくとも１つのスーパービジョンデータ閲覧ツールへ伝送するステップと、
を備える方法。
前記第２の情報項目は、情報項目及びトポロジーデータから決定された設備機器のセットから決定される、請求項１に記載の方法。
前記第２の情報項目は、前記設備機器のセットと関連付けられるプローブからのデータからも決定される、請求項２に記載の方法。
前記第２の情報項目は、ウェブサービスへ伝送される、請求項１から３のいずれか一項に記載の方法。
情報処理プラットフォームによってトリガされたとき、請求項１から４のいずれか一項に記載の方法を実装するために適したソフトウェア手段を備えるコンピュータプログラム。
複数の設備機器（Ｅ１，Ｅ２，Ｅ３…Ｅｎ）を含むスーパーコンピュータ（ＳＣ）アーキテクチャを監視する監視システム（ＳＳ）であって、
−前記設備機器と関連付けられるプローブ（Ｓ１，Ｓ２，Ｓ３…Ｓｎ）に関するイベントを受け付け、前記イベントに含まれるデータに基づいて少なくとも１つの設備機器での情報を決定することに適したイベント分析モジュール（ＡＥ）と、
−前記スーパーコンピュータアーキテクチャのトポロジーでのデータに基づいて前記少なくとも１つの設備機器での情報から第２の情報項目を決定することに適した情報集約モジュール（ＡＩ）と、
−前記第２の情報項目を少なくとも１つの監督データ閲覧ツールへ伝送することに適した情報伝送モジュール（ＴＩ）と、
を備える監視システム（ＳＳ）。
前記情報集約モジュールは、前記第２の情報項目を、情報項目及びトポロジーデータから決定された設備機器のセットから決定することに適する、請求項６に記載の監視システム（ＳＳ）。
前記第２の情報項目は、前記設備機器のセットと関連付けられるプローブからのデータからも決定される、請求項７に記載の監視システム（ＳＳ）。
前記トポロジーでの前記データは、トポロジーマネージャー（ＧＴ）によって供給される、請求項６から８のいずれか一項に記載の監視システム（ＳＳ）。
請求項６から９のいずれか一項に記載の監視システム及びスーパーコンピュータ（ＳＣ）を備えるシステム。