JP2015022755A - フォールトトレラントな監視装置、方法及びシステム - Google Patents

フォールトトレラントな監視装置、方法及びシステム Download PDF

Info

Publication number
JP2015022755A
JP2015022755A JP2014092962A JP2014092962A JP2015022755A JP 2015022755 A JP2015022755 A JP 2015022755A JP 2014092962 A JP2014092962 A JP 2014092962A JP 2014092962 A JP2014092962 A JP 2014092962A JP 2015022755 A JP2015022755 A JP 2015022755A
Authority
JP
Japan
Prior art keywords
physical performance
information
monitoring
remote
computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014092962A
Other languages
English (en)
Other versions
JP6337598B2 (ja
Inventor
リ・マイケル
Michael Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2015022755A publication Critical patent/JP2015022755A/ja
Application granted granted Critical
Publication of JP6337598B2 publication Critical patent/JP6337598B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3096Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents wherein the means or processing minimize the use of computing system or of computing system component resources, e.g. non-intrusive monitoring which minimizes the probe effect: sniffing, intercepting, indirectly deriving the monitored data from other directly available data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】各コンピューティング要素が処理ユニット及び個々のメモリを含んだ複数のネットワーク化されたコンピューティング要素の物理性能特性を監視するフォールトトレラントな監視装置及び監視方法を提供する。
【解決手段】監視装置10は、各々が単一のコンピューティング要素16の物理性能特性を測定するように構成された複数の測定者装置12を含み、物理性能特性は測定が行われるコンピューティング要素の個々のメモリ内にローカル情報LIとして格納される。監視装置はまた、複数のコンピューティング要素の個々のメモリからの物理性能特性を表す遠隔物理性能情報RIの収集と、他のコンピューティング要素の個々のメモリ内への複製情報としての遠隔物理性能情報RIの記憶と、を制御するように構成された1つ以上の収集者装置14を含む。遠隔物理性能情報RIは、サードパーティアクセスを用いて収集される。
【選択図】図4

Description

本発明は、ネットワーク化されたコンピューティング要素(エレメント)のフォールトトレラントな(耐障害性の)監視に関する。
コンピューティングシステムがますます大きく且つ複雑に成長するにつれて、システムの監視が個々のコンピューティング要素における障害によって妨害される虞が増大している。フォールトトレラントな監視は、例えば、単純な計算から、センサネットワーク、画像レンダリング、そして、オンザフライのオフライン処理を含む大規模で複雑なシミュレーションまで、広範囲な応用分野で有用となり得る。一部の重要な例として、ミッションクリティカルなジョブ(例えば、業務天気予報)又は非常に多くのコンピューティング要素を有するシステム(例えば、インターネット)は、フォールトトレラントな監視の恩恵を受けることができる。本発明は、これらの応用分野の全域に対処するものであり、特には、多数のCPU上にデータが分散される非常に大規模な高性能コンピューティングシステム上で実行される分散並列コンピュータプログラムに焦点を当てる。
そのような分散並列アプリケーションの一例はシミュレーションである。多くのシミュレーションにおいて、各計算がその状況の単一要素に対応する反復計算又は反復計算セットが実行される。複数のシミュレーション要素が、シミュレーションの1つの要素に関する計算がシミュレーションのその他の要素からの値を必要とする場合があるように結び付けられ、故に、シミュレーションを実行する複数プロセス間のデータ転送はかなりの数である。そのようなシミュレーション又はその他の計算アプリケーションを実行するシステムの監視は、故障したコンピューティング要素の識別のみでなく、過負荷であり且つ/或いは過度なエネルギー量を消費しているコンピューティング要素の識別をも可能にし得る。しかしながら、コンピューティング要素がいったん故障すると、データを復元することができないことがある。
計算集中的なアプリケーションは通常、高性能コンピュータシステム上で実行される。そのような高性能コンピュータ(high performance computer;HPC)システムはしばしば、各々がそれ自身の個別のメモリを備えた複数の処理ユニット又はコアが存在し且つ実行ファイルの処理スレッドが自立的に並列実行されることが可能な分散環境を提供する。
高性能コンピューティングには、数多くの異なるハードウェア構成及びプログラミングモデルが適用可能である。現在において高性能コンピューティングに好まれている1つのアプローチは、各ノードが1つ以上のマルチコアあるいはシングルコアのプロセッサ(又は“チップ”)を有する複数のノードが高速ネットワークによって相互接続されるクラスタシステムである。各ノードは、該ノード内の全てのコアにとってアクセス可能な、該ノード自身のメモリ領域を有すると仮定される。クラスタシステムは、汎用関数を実行するように既存のコードライブラリを使用して人間のプログラマがソースコードを書くことによってプログラムされることができる。そして、ソースコードが低水準実行可能コードへとコンパイルされる(あるいは、コンパイルされ、次いでアセンブルされる)。この実行可能形態のアプリケーション(単純に“実行ファイル”と称することもある)が、オペレーティングシステム(OS)の管理下で実行される。
最新世代のスーパーコンピュータは、何十万あるいは更には何百万ものコアを含んでいる。2012年11月のトップ500ランキングリストにある10Pflops/sを超える持続性能を有する3つのシステムは、560,640個(Titan)、1,572,864個(Sequoia)、705,024個(K(京)コンピュータ)のコアを含んでいる。ペタスケールからエクサスケールへの移行において、主要な性能向上は、システム内のコアの総数の1億個以上までの増大に由来することになる(コアあたりのflopsが増大することは期待されていない)。システム内のノード数が増加するにつれ(そして特に、低コストで低エネルギーのノードを使用して許容可能なパワーエンベロープが維持される場合)、システムの平均コンポーネント故障時間は、最終的にはシステム上での平均シミュレーション実行(又は、その他のアプリケーション実行)より短い時間まで、縮まることになる。従って、コンポーネント故障に対する回復機能を有するようにエクサスケールのソフトウェアを監視する必要があることになる。
データのフォールトトレラント性提供の一般的原理は、障害が発生した場合にもデータがなおも何処かから利用可能であるようにするデータの冗長記憶である。この原理は、RAID(Redundant Array of Independent Discs)で使用されており、データ取り出しのためにiSER(RDMA(リモート・ダイレクト・メモリ・アクセス)向けiSCSIエクステンション)とともに使用され得る。
RAIDは、例えばディスクなどの複数の物理的なドライブ間でデータの分割及び複製を行うことができるコンピュータデータ記憶スキームの包括的用語である。ディスクのアレイが、オペレーティングシステムによって、1つの単一ディスクとしてアクセスされることができる。事実上、この技術は主として、複数ディスクにわたる“ストライピング”の恩恵を受ける大きいファイルを対処している。複数ディスクにわたってファイルを“ストライピング”するこの方法を用いて、フォールトトレラントなデータ提供を支援することができる。iSERは、RDMAを用いるようにインターネット・スモール・コンピュータ・システム・インタフェース(iSCSI)を拡張するコンピュータネットワークプロトコルである。これは、中間データコピーなしで直接的に、SCSIコンピュータメモリバッファとの間でデータを転送することを可能にする。
RDMA(リモート・ダイレクト・メモリ・アクセス)は、コンピューティング要素が自身のネットワークインタフェースコントローラ(又は、その他のネットワークアクセス機構)を用いて、第2のコンピューティング要素でのストレージを変更するよう、ネットワークを介して情報を伝送することを可能にする技術である。この技術は、高性能コンピューティングにおいて重要であり、コンピューティング要素がスーパーコンピュータの一部である場合、この技術はそのコンピューティング要素のプロセッサ上に置かれる作業を減少させる。RDMA技術はまた、ネットワーク内のコンピューティング要素が、第2のコンピューティング要素上に置かれる作業を最小化するように第2のコンピューティング要素にローカルなストレージを変更することができるので、ネットワーク・オン・チッププロセッサに有益である。
RDMAは、“サードパーティI/O”又は“ゼロコピーネットワーキング”とも称される片側通信をあてにしている。片側通信では、データを送るために、ソースプロセッサ又はイニシエータは(プロセッサによって実行されているプログラム又はプロセスの制御下で)、単に、宛先のプロセッサ又はターゲットのメモリ内にそのデータを置く(プットする)のみであり、同様に、プロセッサは別のプロセッサのメモリから、この遠隔プロセッサに割り込みを入れることなくデータを読み出すことができる。故に、遠隔プロセッサのオペレーティングシステムは通常、自身のメモリが読まれたり書かれたりしたことに気付かない。この書き込み又は読み出しは、オペレーティングシステムでのデータバッファに対する如何なるデータ複製もなしで(故に、“ゼロコピー”)、プロセッサのネットワークインタフェースコントローラ(又は、例えばネットワークアダプタといった等価物)によって取り扱われる。これはレイテンシを短縮してデータ転送の速度を高めるが、このことは高性能コンピューティングにおいて明らかに有益である。
従って、1つのコンピューティング要素又はノードから別の1つのコンピューティング要素又はノードへとデータが転送されることへの本明細書における言及は、それぞれのネットワークインタフェースコントローラ(又は等価物)が、必ずしもノード自体のホスト処理ユニットを関与させることなく、データを転送することを意味するとして理解されるべきである。
従来のRDMA命令は、“rdma_put”及び“rdma_get”を含んでいる。“rdma_put”は、1つのノードが、遠隔ノード(第1のノードに対する好適なアクセス権を前もって与えられており且つデータを受信する準備の整ったメモリ(又はバッファ)を有する)にあるメモリに直接的にデータを書き込むことを可能にする。“rdma_get”は、やはり必要とされる権利が既に与えられていると仮定して、1つのノードが遠隔ノードのメモリ(又はメモリバッファ)から直接的にデータを読み出すことを可能にする。
ネットワークコンピューティング要素のフォールトトレラントな監視を提供することが望まれる。
本発明の第1の態様の一実施形態によれば、複数のネットワーク化されたコンピューティング要素の物理性能特性を監視するように構成されたフォールトトレラントな監視装置であって、各コンピューティング要素は処理ユニット及び個々のメモリを含み、当該監視装置は、各々が単一のコンピューティング要素の物理性能特性を測定するように構成された複数の測定者装置であり、物理性能特性は測定が行われるコンピューティング要素の個々のメモリ内にローカル情報として格納される、複数の測定者装置と、複数の前記コンピューティング要素の個々のメモリからの物理性能特性を表す遠隔物理性能情報の収集と、他のコンピューティング要素の個々のメモリ内への複製情報としての遠隔物理性能情報の記憶と、を制御するように構成された1つ以上の収集者装置とを有し、遠隔物理性能情報は、サードパーティアクセスを用いて収集される、監視装置が提供される。
コンピューティング要素ごとに1つの複数の測定者装置と、コンピューティング要素の個々のメモリからの情報を、サードパーティアクセスを用いて、異なるコンピューティング要素に分配する少なくとも1つの収集者装置と、を有する監視装置を設けることにより、コンピューティング要素のうちの1つが機能しなくなった場合にもアクセス可能にするように監視データを格納することができる。
この態様におけるサードパーティアクセスの利点は、それから遠隔情報が収集されるコンピューティング要素が収集プロセスに関与せず、故に、そのコンピューティング要素に欠陥がある場合にも収集が継続可能なことである。サードパーティアクセスは、例えばレジスタ又は実行ユニット内のオンチップ欠陥などの、遠隔コンピューティング要素における多様な欠陥に耐えることができる。
ここでの物理性能特性への言及は、コンピューティング要素又はその一部の電圧、電流、電力、及びエネルギー使用に対するものである。
更なる特性は、場合により例えばコンピューティング要素への、及び/又はそれからの、遅延/レイテンシ、パケットロス、再送信及びスループットなどのネットワーク指標の形態をした、伝送特性を含む。
故に、本発明のこの態様は主として物理性能特性を参照するが、フォールトトレラントな監視装置はまた、例えばCPU性能指標(使用されるサイクル、コミットされる命令、実行される浮動小数点演算、ストールされるサイクル、実行される整数演算、キャッシュヒット及びキャッシュミス、並びにTLBヒット及びTLBミス)、及び/又はメモリ性能指標(レイテンシ、読み出し/書き込みスループットMB/s、ページフォールト数)などの、データ性能特性を監視してもよい。このようなデータ性能特性は、アプリケーションが自己監視(セルフモニタリング)を含むとき、個々のメモリに書き込まれ得る。
従って、一部の実施形態において、上記1つ以上の収集者装置はまた、複数のコンピューティング要素の個々のメモリからのデータ性能特性を表す遠隔データ性能情報の収集を制御し、且つ他のコンピューティング要素の個々のメモリ内への複製情報としての遠隔データ性能情報の記憶を制御するように構成される。遠隔データ性能情報も、サードパーティアクセスを用いて収集され得る。
なお、このフォールトトレラントな監視装置は、アプリケーションが個々のメモリに自己監視情報を書き込むときには関与せずに、後に複製記憶のためにこの種の情報を収集することにおいてのみ関与するようにし得る。
測定者装置が物理性能特性を読み出すことには、如何なる好適な技術も用いることができる。一実施形態において、各測定者装置は、コンピューティング要素の1つ以上のコンポーネントに供給される電圧、電流、電力、又はエネルギーのうちの1つ以上を評価するプローブ又はサンプリング抵抗を含む。
各コンピューティング要素内に存在する個々のメモリは、如何なる好適種類のメモリともし得るが、多くの実施形態において、例えばピン留めRAM(他のメモリ位置へと乗り換えられることができないRAM)、RAM、又はキャッシュメモリなどの揮発性メモリである。“非ピン留め”RAMが使用される場合、サードパーティアクセスは、正確な位置が利用可能になるように構成するよう適応され得る。キャッシュメモリは通常、RAMより高速であり且つCPUコアにより近く、故に、何れの形態のRAMに対しても良い代替となり得る。
サードパーティアクセスも、リモート・ダイレクト・メモリ・アクセス(RDMA)プット及び/又はリモート・ダイレクト・メモリ・アクセス(RDMA)ゲットを含む何らかの既知の方法によって可能である。
コンピューティング要素のネットワーク内の全てのコンピューティング要素に測定者装置が設けられることができ、また通常、複数の収集者装置も設けられることになるが、これら別々のコンポーネントの全てがオンに切り換えられる必要はない。例えば、実行中のアプリケーションに割り当てられたコンピューティング要素にて使用される収集者装置のみがオンに切り換えられてもよい。しかしながら、一部のアプリケーションは、割り当てられた全てのコンピューティング要素を使用しないことがある(典型的にはアプリケーションは全ての割り当てノードを使用するが、例えば冗長性のためなどの設計により、あるいはユーザエラーやシステムによって許容される最小割り当てユニットのために意図せずに、の何れかで一部のノードが使用されないままにされ得る)。故に、アプリケーションにて現在使用されている装置のみがオンに切り換えられてもよい。一実施形態において、監視装置は、アプリケーションにて現在使用されているコンピューティング要素に従って収集者装置又は測定者装置をオンに切り換えるように制御される。
また、2つ以上の収集者装置が存在する場合であっても、必ずしも全ての収集者装置が遠隔情報の収集に使用されるわけではない。例えば、監視装置は、収集者装置のうちのサブセット(又は、アプリケーションにて現在使用されている収集者装置のうちのサブセット)による収集をアクティブにするように制御され、複製情報はコンピューティング要素のうちのサブセットに格納される。
収集を実行する各収集者装置は、例えばアプリケーションにて使用される全てのノードからの、一組の複製情報を提供することになる。しかしながら、例えば更に詳細に後述するように他の役割を実行する場合など、或る収集者装置がオンに切り換えられながらも収集のためにはアクティブにされないことがある。
本発明は、単純に2つ以上のCPU又はその他の処理ユニットと2つ以上の対応するメモリ位置と接続目的の例えばネットワークインタフェースコントローラなどの2つ以上の接続手段とである態様に多少関連する如何なるコンピューティング要素のネットワークにも適用されることができる。故に、本発明は、“リソースプールアーキテクチャ”(手短に述べると、例えば高速ネットワークによって動的に結び付けられて提供されるCPU及びディスクなどのハードウェアコンポーネントのプール)に適用可能である。この場合、4個から10個のCPUごとに1つのFTMC装置(1つの収集者を有する)が存在し得る。
しかしながら、恐らくは、分散メモリを有する複数のノードの方が、より典型的な実施形態である。故に、多くの実施形態において、上記複数のネットワーク化されたコンピューティング要素は単一のコンピュータシステム又はクラスタを形成し、コンピューティング要素はノードとして機能し、各ノードは、少なくとも1つのCPUの形態の処理ユニットと、RAMメモリとしての個々のメモリと、ネットワークにリンクするためのネットワークインタフェースコントローラとを有する。
この種のシステムにおいて、監視装置は、ノードごとに測定者装置を有し且つ複数の収集者装置を有し、各収集者装置は、グループをなすノード間で共有され、且つ、そのグループのノード内の、及び他のグループのノードから、遠隔情報を収集するように構成される。当然ながら、上述のように、全ての収集者装置が収集のためにアクティブにされる必要はない。
各収集者装置は、複数のノード間で共有され、それらのノードの各々にネットワークインタフェースコントローラを介してリンクされ得る。システム内の“ドロワー”又はシステムボード当たり1つの収集者装置が設けられてもよいし、幾つかのドロワーが1つの収集者装置を共有してもよい。各測定者装置は、そのノード内のネットワークインタフェースコントローラ、個々のメモリ及びCPUのうちの1つ以上を監視し得る。各収集者装置は、単一の収集者装置に直接的にリンクされ得る。
必ずしもノードの全て(故に、測定者装置の全て)がアプリケーション内で使用されるわけではない。この理由及びその他の理由により、監視装置は、測定者装置のうちのサブセットによる測定をアクティブにするように制御されることができる。一構成において、アクティブにされた測定者装置は各々、収集のためにアクティブにされた収集者装置に直接的にリンクされる。故に、測定が行われるところで、収集者装置も遠隔情報を格納する。
当業者に認識されるように、この実施形態は、より少ない数の複製のみを設けるように、現在アクティブにされている測定者装置のサブセットが、収集のためにアクティブにされた収集者装置に直接的にリンクされるよう、他の実施形態と組み合わされることができる。
他の一構成においては、アクティブにされた測定者装置が、アクティブにされた収集者装置に直接にはリンクされないよう、遠隔情報は測定が行われないところで(ノードに)格納される。
これらのバリエーションの何れにおいても、上記サブセット内のノードは、(複数ノードが個別のコンピュータではあるが、並列アプリケーションが実行されるときに1つのコンピュータとして一緒に機能するのと同様にして)監視の期間にわたって1つのFTMC装置として機能する複数の異なるFTMC装置コンポーネントによって監視され得る。
或る一定の複製戦略では、データの複製の数は、複製監視データが監視されたノード又は監視されないノードの何れに保持されようが同じになる。監視されたノードに監視データが保持されるのと、監視されない異なるノードに監視データが保持されるのと、の間の相違は、後者の場合には、遠隔データの記憶位置が全てのローカルデータと別になるということである。故に、それらの位置の故障は相関を有しないことになるので、より多くの複製が生き残ることになる。これは、この変形を選択する主たる理由ではなく、より低い監視オーバーヘッドの方が良い理由といえる。オーバーヘッドがより低いのは、監視されるRAMがローカル記憶及び複製記憶の何れにも使用されないからである。複製データをローカルに保持するものである通常の構成は、さもなければ使用されないリソース(例えば、計算に関与しないCPUなど)を使用するという別の利点を有する。
測定者装置は、この段階では収集者装置が関与することなく、そのローカル情報を個々のメモリ(例えば、ピン留めRAM)に格納することができる。しかしながら、他の実施形態において、収集者装置は、測定者装置に対して、更に多くの制御任務を果たしてもよい。例えば、一部の実施形態において、収集者装置はコントローラ及びストレージを含み、該コントローラは、自身が直接的にリンクされた測定者装置からのデータ性能情報を用いて該ストレージを更新するとともに、サードパーティアクセスを用いて該ストレージからの情報を個々のメモリにローカル情報として書き込むように動作可能である。
本発明はまた、以上の装置態様の何れか及びその部分的な特徴の何らかの組み合わせと組み合わされ得る方法態様にも及ぶものである。
方法の態様の一実施形態によれば、複数のネットワーク化されたコンピューティング要素の物理性能特性を監視するフォールトトレラントな監視方法であって、各コンピューティング要素は処理ユニット及び個々のメモリを含み、当該監視方法は、測定者装置を用いてコンピューティング要素の物理性能特性を測定し、物理性能特性を表すローカル情報を該コンピューティング要素の個々のメモリ内に格納することと、収集者装置を用いて、特定のコンピューティング要素の個々のメモリから物理性能特性を表す遠隔物理性能情報を収集し、他のコンピューティング要素の個々のメモリ内に複製情報として遠隔物理性能情報を格納することとを有し、遠隔物理性能情報は、サードパーティアクセスを用いて収集される、監視方法が提供される。
このような方法において、アプリケーションの実行中にコンピューティング要素が故障し、あるいは選択を解かれ、アプリケーションが、該特定のコンピューティング要素を除外して続行あるいはチェックポイントから再スタートする場合、故障前の該特定のコンピューティング要素に関する物理性能データを、該データが複製情報として格納された他のコンピューティング要素によって提供することができる。
システムの態様の一実施形態によれば、複数のネットワーク化されたコンピューティング要素を有するコンピュータシステムであって、各コンピューティング要素は処理ユニット及び個々のメモリを含み、当該コンピュータシステムはまた、ネットワーク化されたコンピューティング要素の物理性能特性を監視するように構成されたフォールトトレラントな監視装置を含み、該監視装置は、複数の測定者装置であり、各々が、単一のコンピューティング要素の物理性能特性を、該コンピューティング要素の個々のメモリ内へのローカル情報としての記憶のために、測定するように構成された、複数の測定者装置と、複数のコンピューティング要素の個々のメモリから物理性能特性を表す遠隔物理性能情報を収集し、他のコンピューティング要素の個々のメモリ内に複製情報として遠隔物理性能情報を格納するように構成された収集者装置とを有し、遠隔物理性能情報は、サードパーティアクセスを用いて収集される、コンピュータシステムが提供される。
故に、監視されるコンピューティングシステムは、上述のネットワーク化されたコンピューティング要素と、上述のフォールトトレラントな監視装置とを含む。
更なる一態様によれば、分散メモリコンピュータシステム内の監視装置にロードされるときに、上述の方法の何れか又はそれらの組み合わせに係る方法ステップを実行するように該監視装置を構成するプログラムが提供される。本発明の様々な態様の何れかの特徴及び部分的な特徴は自由に組み合わされ得る。例えば、コンピュータシステムの好適実施形態は、装置態様のうちの1つ以上の1つ以上の好適な特徴に対応する機能を組み入れるように構成され得る。
本発明は、コンピュータハードウェア、ファームウェア、ソフトウェア、又はこれらの組み合わせにて実装されることができる。本発明は、1つ以上のハードウェアモジュールによって実行される、あるいはその動作を制御する、コンピュータプログラム、又はコンピュータプログラム製品、すなわち、例えば機械読み取り可能記憶媒体若しくは伝搬信号などの情報担体にて有形に具現化されたコンピュータプログラムとして実装され得る。
コンピュータプログラムは、コンピュータプログラムの一部分、又は2つ以上のコンピュータプログラムの形態であってもよく、コンパイラ型言語又はインタープリタ型言語を含め、如何なる形態のプログラミング言語で記述されてもよく、また、スタンドアローンのプログラムとしてや、モジュール、コンポーネント、サブルーチン、若しくはデータ処理環境での使用に適したその他の単位としてを含め、如何なる形態で配備されてもよい。コンピュータプログラムは、1つのサイトの1つ若しくは複数のモジュール、又は複数のサイトに分散されて通信ネットワークによって相互接続された1つ若しくは複数のモジュールの上で実行されるように配備され得る。
本発明に係る方法ステップは、入力データについて処理を行って出力を生成することによって本発明に係る機能を行うようにコンピュータプログラムを実行する1つ以上のプログラマブルプロセッサによって実行され得る。
コンピュータプログラムの実行に適したプロセッサは、例として、汎用及び専用双方のマイクロプロセッサ、並びに何らかの種類のデジタルコンピュータ若しくはバイオコンピュータの1つ以上のプロセッサを含む。一般に、プロセッサは、読み出し専用メモリ若しくはランダムアクセスメモリ又はこれら双方から命令及びデータを受信する。コンピュータの本質的要素は、命令及びデータを格納する1つ以上の記憶デバイスに結合されて命令を実行するプロセッサである。
本発明は、特定の実施形態に関して説明される。その他の実施形態も請求項の範囲内にある。例えば、本発明に係るステップ群は、異なる順序で実行されてもなお所望の結果を達成し得る。
好適実施形態に係る装置は、特定の機能を実行するように設定され、動作可能であり、あるいは構成されるものとして説明される。この設定又は構成は、ハードウェア若しくはミドルウェア又はその他の好適なシステムの使用によって為され得る。好適実施形態において、この設定又は構成はソフトウェアによって為される。
続いて、以下の図を含む図面に示した特定の非限定的な実施形態を参照して、本発明を説明する。
従来技術に係るソリューションと本発明の一実施形態に係るソリューションとを比較する概観図である。 従来技術に係る方法と本発明の一実施形態とを比較するフローチャートである。 従来技術と本発明の実施形態とを比較する更なる図である。 コンピューティング要素のネットワークにおける本発明の一実施形態に係る装置の概観図である。 図4の実施形態の変形を示す装置の概観図である。 本発明の実施形態に係るFTMC装置の模式図である。 RAID技術と本発明の実施形態の原理とを比較する図である。 iSER技術の使用と本発明の実施形態の原理とを比較する図である。 コンピュータシステム内のFTMC装置のコンポーネントを示す図である。
図1は、本発明の実施形態の効果を模式的に示している。
従来技術に係る監視方法(左側)においては、或るノードに隔絶された障害が発生すると、その障害ノードからの監視データを使用しようとする機能中のノードが影響を受ける。対照的に、図1の右側が示しているのは、同じノード隔絶障害が発生しているが、該障害の発生の前又は後のサードパーティアクセスの使用により、且つ/或いは非障害ノード又は依然としてアクセス可能な別のノードに格納された複製情報の使用により、非障害ノードは正確な監視データにアクセスすることができるということである。
図2は、左側に従来技術プロセスをフローチャートにて示すとともに、右側に本発明の一実施形態をフローチャートにて示している。従来技術プロセスにおいて、ステップS10にて実行中のアプリケーションにおいてこれが利用可能な場合に、詳細な自己監視が行われる。ステップS20にて、アドホック外部監視が行われ得る。
ステップS30にて、何れかのノードがそれ自身の監視データの読み取り(すなわち、格納)を行い得る。
ステップS40にて、該ノードはその監視データを遠隔ノードに通信することができる。如何なる障害もエラー又は故障をもたらすことになる。
図2の右側に示す本発明の一実施形態によれば、ステップS50にて、ソフトウェアが自己監視データをピン留めRAMに書き込む。ステップS60にて、本発明の実施形態に係る装置(フォールトトレラント測定者収集者;Fault-Tolerant Measurer Collector(FTMC)としても参照する)が、外部監視データ(例えば、システム動作に有用な物理データ)をピン留めRAMに書き込む。ステップS70にて、FTMC装置が、RDMAゲット()を発して、監視データを耐障害的に分配する。
ステップS80にて、例えばアプリケーション又はシステムユーティリティソフトウェアなどのソフトウェアが、障害を有するコンポーネント又はノードについてのデータを含む監視データにアクセスし得る。
図2の右側は、複数の収集者(コレクタ)及び複数の測定者(メジャラ)に適用可能である。すなわち、図2は、1つのFTMC(1つの収集者と1つ以上の測定者)に関するプロセスであるが、より重要なことには、複数のFTMC装置が1つのFTMC装置として共に稼働しているとき(通常の動作状況)のプロセスでもある。
図3は、左側に、多くの従来技術に係る監視方法がどのように機能するかを表し、右側に、本発明の実施形態がどのように機能するかを表している。
従来技術においては、現在実行中のアプリケーションによって命令される監視データの送信及び受信(プット/ゲット)を行うことにCPUが関与する。故に、監視データを管理するためにユーザ(アプリケーションプログラマ)に負担がかかるとともに、その正確さはCPUの複雑なきのうに依存する。
逆に、右側に示す本発明の状況においては、データを監視することにCPUはもはや必要とされない。何故なら、この機能は、ユーザ又はCPUの介在を必要とせずに、FTMC装置によって実行されるからである。例えば、図3に示すように、RDMAゲットが使用され、データを取り出す元となる遠隔ノードが正確に機能しているという仮定を行う必要はない。
図4は、本発明の一実施形態に係る装置の概観図である。FTMC装置10は、この例において、3つの測定者装置12と1つの収集者装置14とを有するものとして示されている。FTMC装置の様々な部分が別々に示されているが、それらは、コンピュータシステム又はネットワークが物理的にどのように構築されるかに従って、物理的に別々に設けられてもよいし、一緒に設けられてもよい。図4は、3つのコンピューティング要素16を示しており、各コンピューティング要素はその個々のメモリ内にローカル情報(LI)だけでなく遠隔(リモート)情報(RI)を格納する能力を有している。コンピューティング要素は各々、収集者によってサービス提供されるノードのグループのうちの1つのノードに対応し得る。図4は、情報を分配するためのRDMAゲットの使用を示している。収集者は、サードパーティアクセスを使用して、2つの上側のコンピューティング要素内に遠隔情報を格納する。RDMAゲットは、ターゲットからデータを取得する。この例において、この図の底部にあるコンピューティング要素16がターゲットノードであり、サードパーティアクセスは、RDMAゲットを用いて該コンピューティング要素内のローカル情報がこの図の頂部にある2つのコンピューティング要素に書き込まれることを可能にする。
対照的に、同じ物理配置を示す図5は、収集者によって開始されるRDMAプットを用いている。RDMAプットは、ターゲットにデータを書き込むものであり、故に図5においては、この図の底部にあるコンピューティング要素内に遠隔情報が収集されている。
図4及び5は、単純化のために一部のデータ複製を示すのみであるが、遠隔データはこれら複数のコンピューティング要素の何れか又は全てに格納されることができる。また、このノードグループの外部からのデータを、他のノード(図示せず)へのサードパーティアクセスの使用によって収集することができる。
例えば、FTMC収集者がNICに対してRMDAゲットを発し、該NICがドロワー外のノードから読み出しを行うことになる(そして、典型的なケースにおいて、ノード/ドロワー外の通信は通常のプロセスに従う)。特に、事前に結集されたデータ収集が行われる。図6(後述する)に示すデータ位置30が初期化時にデータ投入され、これにより、どのような(複製のための)収集が行われるかが完全に決定される。郵便局員が回収すべき郵便ポストのリストは物理的に類似しているといえる。図6のデータ位置28及び30の初期化を実行するよう、ドロワー外からFTMC収集者(ドロワーの外部からの読み出しを行っているのと同じ収集者)にメッセージが送信され得る(初期化がオンノードで行われない場合、単に、NICを介して再び初期化を実行する実行ファイルを起動することによる)。
図6は、FTMC装置の模式図であり、複数の測定者装置12とNIC18とに結び付けられた収集者装置14を示している。収集者装置14は、監視・通信ロジック20及び設定22を含んでおり、設定22は、カウンタ24、装置の起動状態26、書き込み位置28、読み出し位置30、及びアクティブモニタのビットマスク32を含んでいる。このビットマスクは単に、現在設定によって監視されているのがどのような種類の情報であるかを指し示す。
収集者装置は以下のように機能する。ソフトウェアが、起動状態26をオンに切り換える(例えば、ビットを0から1に変える、あるいは、整数を、オフ値から、適切なバージョンの監視戦略若しくは監視ソフトウェアに対応する値に設定する)ことによって、収集者装置14を初期化する。ソフトウェアが、使用されるモニタのビットマスク32を設定する。初期化はまた、カウンタ24をゼロに設定する。ソフトウェアが書き込み位置28及び読み出し位置30を設定する。監視・通信ロジック(monitoring and communication logic;MCL)が、起動状態を検査し、この収集者がアクティブでない場合はスリープ状態になる。この装置がアクティブである場合、MCLは、測定者装置からのデータ(NICではなく直接通信を用いる)でカウンタを更新する。周期的に、MCLは、NICを介して、(“書き込み位置”のうちの一部への)RMDAプットを用いてカウンタ情報をピン留めRAMに書き込む。周期的に、MCLは、“読み出し位置”からのRDMAゲットを実行し、このデータを残りの“書き込み位置”に置く。読み出し位置は、ローカル(例えば、この収集者装置がサービス提供しているノードのグループ内)であってもよいし、遠隔(例えば、上記グループの外部)であってもよい。その他のアクティブの測定者装置に対してこのプロセスが繰り返される。
装置の起動状態に従って、その他の挙動も提供され得る(例えば、カウンタは使用されないが自己監視は継続し得るように外部監視が無効にされ、測定者装置の不具合を検査してこれを例えばソフトウェア決定位置に既知の値を書き込むなどの所定の手法で信号伝達するなどの、他のデバッグスキームが使用され得る)。
本発明の実施形態を例証する1つの詳細な実施例は、1兆個のデータ点を与える100万×100万のサイズの格子点が存在するスカラー拡散用の2D有限差分コードを走らせるアプリケーションの実行を監視するものとし得る。各点の値が倍精度浮動小数点数であると仮定すると、8000ギガバイト(8000GB、すなわち、8テラバイト(8TB))のRAMが必要とされる。計算をもっと速く実行するため、各々が上記格子の断片を保持する1000個のノードを使用する。各ノードはまた“ゴースト点”を有する。ゴースト点は、計算には必要とされるが、そのノードがそれらの点を更新することを担わず、この例においては更に扱わない通信フェーズにおいて周期的に更新されるべき点である。また、一部のノードが機能しなくなることに備えて、20個の更なるノードが設けられる。ユーザは、アプリケーションによって計算(自己監視)される浮動小数点を監視するとともに測定者装置によって使用ジュールエネルギーを監視することを望んでいる。これら2つの特性を監視することは、1020個全てのノード上で起動され、周期的に瞬時データがピン留めRAMに書き込まれる(すなわち、ディスクへと乗り換えられない)。周期的に、このデータは1020個のノードの間で分配される。或る特定の時点において、ノードのうちの1つが機能しなくなり、ディスクに書き込まれている“チェックポイント”からアプリケーションが再スタートする。計算に1000個のノードが存在することを確保するよう、予備ノードのうちの1つが使用される。ノード故障の後であっても、残存しているアクティブノードの何れからも、監視データへの完全なるアクセスが可能である。
これについての1つの変形は、上記計算が監視データを用いて、1つのノードが莫大な量のエネルギーを使用しながらも非常に乏しくしか機能していないことを理解し、上記計算が、乏しくしか機能していないノードを完全に停止させて、計算が全体として、より速く終了し、より少ない総量の電気のみを使用し、ひいては、金銭上の観点で低コスト化されるようにするものである。
障害ノードと無関係のデータも、破損データを決定する上で有用である。例えば、ノードAが、何らかのモニタ(監視されるパラメータ)に関して10という正しい値を記録し得る。この値がノードB、ノードC及びノードDに複製される。ノードBが不具合を発現し、クエリされたときに23という正しくない値が返されるが、これは発見されることができる。ノードC及びDが10という正しい値を指定するからである。これは、障害ノードとは無関係の更なるデータである。しかしながら、この方策は、ノードAが32という正しくない値を記録する場合には役に立たない。FTMC測定者による独立監視がこれと同じモニタ(例えば、エネルギー使用)に関して利用可能である場合、この外部監視がノードAにおける10という正しい値を記録しており、これがノードB、C及びDに複製されることになる。ここでは効果的に、同じノードに対する同じパラメータの自己監視及び外部監視が存在する。これは、そのデータがどこかで入手可能となる機会を高める。実際、破損データは正しいデータから容易に区別可能であり、正しいデータを決定することは難しくないはずである。
図7は、左側にRAID技術の図式説明を示し、右側にと本発明の実施形態の原理を示している。
RAID手法によれば、複数のディスク又はその他のドライブにわたるメモリ(MEM)へのデータアクセスを提供するために、RAIDコントローラが使用される。それらのディスクのうちの1つが図示のように故障した場合、その他のディスク上の複製された情報が使用され得る。
本発明の実施形態においては、RAIDコントローラは必要でなく、代わりに、NICを用いて、遠隔メモリ内の多数の事前に決められた位置から遠隔データが複製される。故に、図7の右側の図の左から3番目のメモリブロックによって示されるように、それらのメモリ位置のうちの1つが故障した場合、装置に直接的に結ばれて示されたメモリブロックは、故障前又は故障後の何れかにRDMAゲットにより収集されたものから、故障したメモリブロックからの監視データにアクセスし得る。
図8は、左側にRAIDにて使用されるiSER技術に関して、そして、右側に本発明の実施形態に関して、読み出し及び書き込みの方法を示している。この図の上半分に、読み出しが示されている。iSERにおいては、ターゲットからイニシエータに結合されたメモリ内に書き込むために、RDMAプットが使用される。対照的に、本発明の実施形態によれば、NICが開始したRDMAゲットが、ターゲットからイニシエータへのデータを読み出す。なお、図8は本発明の実施形態におけるローカルメモリへの書き込みのためのNICの使用を示しているが、例えば、不均等メモリアクセス(Non-uniform Memory Access;NUMA)構成や、ハイパートランスポート又はインテル社のクイックパスインターコネクト(QPI)を用いるものなど、その他の方法も可能である。
同様に、書き込み方法において、iSER技術は、ターゲットからイニシエータに結合されたメモリへの読み出しを行うために、RDMAゲットを用いる。本発明の実施形態によれば、FTMC装置は、例えばRDMAプットを用いて、自身に結合されたメモリに書き込み、ターゲット内の遠隔メモリからデータが読み出すためにRDMAゲットが用いられる。
図9は、コンピュータシステム内のFTMC装置のコンポーネントを示している。図示したシステムは、16個のドロワー内の64個のノードを含む相互接続されたクラスタである。1つのシステムボードが拡大して、そのドロワー内の4個のノードを示している。図示したノードは単一CPUノードである。しかしながら、好ましくは浮動小数点アクセラレータを備えた複数のCPUを有するマルチソケットノードが存在してもよい。CPU、メモリ(MEM)、インターコネクトコントローラ(ICC)若しくはNIC(ここではICC)、及びFTMC収集者の間の実線は、双方向インタラクションを表している。FTMC測定者からの点線は監視を表している。新規部分を破線で囲んでいる。
当業者に認識されるように、1つのドロワーについて示されたこれらのコンポーネントは、システムの各ドロワー内にコンポーネントを有する単一のFTMC装置の一部とし得る。
この実施形態に係るフォールトトレラント測定者収集者(FTMC)装置及び方法は、関心あるコンポーネントの例えば電圧及びエネルギー使用量などの特性を監視し、この監視データを、障害の場合であっても、クラスタのその他のノードに提供する。例えば実行される浮動小数点演算又は送信されるパケットを監視するなどの更なる自己監視能力を有するコンポーネントが、収集されたデータへのフォールトトレラントなアクセスを実現するように操作される。
本発明の実施形態の監視データは、64ビットから128ビットにて記憶され得る整数値の小集合で構成され得る。HPCシステム内のノード群のサブセット(部分集合)を監視することができ、監視データを保持するためにノードのサブセットが選択され得る。監視データは、監視データを保持するために選択された全てのノードに複製されることができ、あるいは、削減された数の複製(例えば、2つに1つのデータ保持ノード、又は4つに1つのデータ保持ノード)が選択されて、それらの位置が装置に通信されてもよい。
以上の説明に関し、更に以下の付記を開示する。
(付記1) 複数のネットワーク化されたコンピューティング要素の物理性能特性を監視するように構成されたフォールトトレラントな監視装置であって、各コンピューティング要素は処理ユニット及び個々のメモリを含み、当該監視装置は、
各々が単一のコンピューティング要素の前記物理性能特性を測定するように構成された複数の測定者装置であり、前記物理性能特性は前記測定が行われるコンピューティング要素の前記個々のメモリ内にローカル情報として格納される、複数の測定者装置と、
複数の前記コンピューティング要素の個々のメモリからの物理性能特性を表す遠隔物理性能情報の収集と、他のコンピューティング要素の前記個々のメモリ内への複製情報としての前記遠隔物理性能情報の記憶と、を制御するように構成された1つ以上の収集者装置と
を有し、
前記遠隔物理性能情報は、サードパーティアクセスを用いて収集される、
監視装置。
(付記2) 前記1つ以上の収集者装置はまた、前記複数のコンピューティング要素の個々のメモリからのデータ性能特性を表す遠隔データ性能情報の収集と、前記他のコンピューティング要素の前記個々のメモリ内への複製情報としての前記遠隔データ性能情報の記憶と、を制御するように構成され、前記遠隔データ性能情報も、サードパーティアクセスを用いて収集される、付記1に記載の監視装置。
(付記3) 各測定者装置は、前記コンピューティング要素の1つ以上のコンポーネントに供給される電圧、電流、電力、又はエネルギーのうちの1つ以上を評価するプローブ又はサンプリング抵抗を含む、付記1に記載の監視装置。
(付記4) 前記個々のメモリは、ピン留めRAM、RAM、又はキャッシュメモリなどの揮発性メモリである、付記1に記載の監視装置。
(付記5) 前記サードパーティアクセスは、リモート・ダイレクト・メモリ・アクセス(RDMA)プット及び/又はリモート・ダイレクト・メモリ・アクセス(RDMA)ゲットによる、付記1に記載の監視装置。
(付記6) 当該監視装置は、アプリケーションにて現在使用されているコンピューティング要素に従って収集者装置又は測定者装置をオンに切り換えるように制御される、付記1に記載の監視装置。
(付記7) 2つ以上の収集者装置が存在し、当該監視装置は、前記収集者装置のうちのサブセットによる収集をアクティブにするように制御され、前記複製情報は前記コンピューティング要素のうちのサブセットに格納される、付記1に記載の監視装置。
(付記8) 前記複数のネットワーク化されたコンピューティング要素は単一のコンピュータシステムを形成し、前記コンピューティング要素はノードとして機能し、各ノードは、少なくとも1つのCPUの形態の処理ユニットと、RAMメモリとしての個々のメモリと、前記ネットワークにリンクするためのネットワークインタフェースコントローラとを有する、付記1に記載の監視装置。
(付記9) 当該監視装置は、ノードごとに測定者装置を有し且つ複数の収集者装置を有し、各収集者装置は、グループをなすノード間で共有され、且つ、そのグループのノード内の、及び他のグループのノードから、遠隔情報を収集するように構成される、付記8に記載の監視装置。
(付記10) 複数のノード間で共有される各収集者装置は、それらのノードの各々に前記ネットワークインタフェースコントローラを介してリンクされ、各測定者装置は、そのノード内の前記ネットワークインタフェースコントローラ、個々のメモリ及びCPUのうちの1つ以上を監視し、且つ収集者装置に直接的にリンクされる、付記9に記載の監視装置。
(付記11) 当該監視装置は、前記測定者装置のうちのサブセットによる測定をアクティブにするように制御され、アクティブにされた測定者装置が、アクティブにされた収集者装置に直接的にリンクされる、付記10に記載の監視装置。
(付記12) 前記収集者装置はコントローラ及びストレージを含み、該コントローラは、自身が直接的にリンクされた測定者装置からのデータ性能情報を用いて前記ストレージを更新するとともに、サードパーティアクセスを用いて前記ストレージからの情報を前記個々のメモリにローカル情報として書き込むように動作する、付記10に記載の監視装置。
(付記13) 複数のネットワーク化されたコンピューティング要素の物理性能特性を監視するフォールトトレラントな監視方法であって、各コンピューティング要素は処理ユニット及び個々のメモリを含み、当該監視方法は、
測定者装置を用いてコンピューティング要素の前記物理性能特性を測定し、前記物理性能特性を表すローカル情報を該コンピューティング要素の前記個々のメモリ内に格納することと、
収集者装置を用いて、特定のコンピューティング要素の個々のメモリから物理性能特性を表す遠隔物理性能情報を収集し、他のコンピューティング要素の前記個々のメモリ内に複製情報として前記遠隔物理性能情報を格納することと
を有し、
前記遠隔物理性能情報は、サードパーティアクセスを用いて収集される、
監視方法。
(付記14) アプリケーションの実行中に前記特定のコンピューティング要素が故障し、あるいは選択を解かれ、前記アプリケーションが、前記特定のコンピューティング要素を除外して、チェックポイントから再スタートあるいは続行するとき、故障前の前記特定のコンピューティング要素に関する物理性能データが、該データが複製情報として格納された前記他のコンピューティング要素によって提供される、付記13に記載の監視方法。
(付記15) コンピュータプログラムであって、各コンピューティング要素が処理ユニット及び個々のメモリを含んだ複数のネットワーク化されたコンピューティング要素を有する分散メモリコンピュータシステムにロードされるときに、
測定者装置を用いてコンピューティング要素の前記物理性能特性を測定し、前記物理性能特性を表すローカル情報を該コンピューティング要素の前記個々のメモリ内に格納し、且つ
収集者装置を用いて、特定のコンピューティング要素の個々のメモリから物理性能特性を表す遠隔物理性能情報を収集し、他のコンピューティング要素の前記個々のメモリ内に複製情報として前記遠隔物理性能情報を格納し、
前記遠隔物理性能情報は、サードパーティアクセスを用いて収集される、
ように前記分散メモリコンピュータシステムを構成する、コンピュータプログラム。
(付記16) 複数のネットワーク化されたコンピューティング要素を有するコンピュータシステムであって、各コンピューティング要素は処理ユニット及び個々のメモリを含み、当該コンピュータシステムはまた、前記ネットワーク化されたコンピューティング要素の物理性能特性を監視するように構成されたフォールトトレラントな監視装置を含み、該監視装置は、
複数の測定者装置であり、各々が、単一のコンピューティング要素の前記物理性能特性を、該コンピューティング要素の前記個々のメモリ内へのローカル情報としての記憶のために、測定するように構成された、複数の測定者装置と、
複数の前記コンピューティング要素の個々のメモリから物理性能特性を表す遠隔物理性能情報を収集し、他のコンピューティング要素の前記個々のメモリ内に複製情報として前記遠隔物理性能情報を格納するように構成された収集者装置と
を有し、
前記遠隔物理性能情報は、サードパーティアクセスを用いて収集される、
コンピュータシステム。
12 測定者(測定者装置)
14 収集者(収集者装置)
16 コンピューティング要素
18 ネットワークインタフェースコントローラ(NIC)
20 監視・通信ロジック
22 設定、内部情報
24 カウンタ
26 装置の起動状態
28 書き込み位置
30 読み出し位置
32 アクティブモニタのビットマスク
LI ローカル情報
RI 遠隔情報

Claims (14)

  1. 複数のネットワーク化されたコンピューティング要素の物理性能特性を監視するように構成されたフォールトトレラントな監視装置であって、各コンピューティング要素は処理ユニット及び個々のメモリを含み、当該監視装置は、
    各々が単一のコンピューティング要素の前記物理性能特性を測定するように構成された複数の測定者装置であり、前記物理性能特性は前記測定が行われるコンピューティング要素の前記個々のメモリ内にローカル情報として格納される、複数の測定者装置と、
    複数の前記コンピューティング要素の個々のメモリからの物理性能特性を表す遠隔物理性能情報の収集と、他のコンピューティング要素の前記個々のメモリ内への複製情報としての前記遠隔物理性能情報の記憶と、を制御するように構成された1つ以上の収集者装置と
    を有し、
    前記遠隔物理性能情報は、サードパーティアクセスを用いて収集される、
    監視装置。
  2. 前記1つ以上の収集者装置はまた、前記複数のコンピューティング要素の個々のメモリからのデータ性能特性を表す遠隔データ性能情報の収集と、前記他のコンピューティング要素の前記個々のメモリ内への複製情報としての前記遠隔データ性能情報の記憶と、を制御するように構成され、前記遠隔データ性能情報も、サードパーティアクセスを用いて収集される、請求項1に記載の監視装置。
  3. 各測定者装置は、前記コンピューティング要素の1つ以上のコンポーネントに供給される電圧、電流、電力、又はエネルギーのうちの1つ以上を評価するプローブ又はサンプリング抵抗を含む、請求項1に記載の監視装置。
  4. 前記サードパーティアクセスは、リモート・ダイレクト・メモリ・アクセス(RDMA)プット及び/又はリモート・ダイレクト・メモリ・アクセス(RDMA)ゲットによる、請求項1に記載の監視装置。
  5. 2つ以上の収集者装置が存在し、当該監視装置は、前記収集者装置のうちのサブセットによる収集をアクティブにするように制御され、前記複製情報は前記コンピューティング要素のうちのサブセットに格納される、請求項1に記載の監視装置。
  6. 前記複数のネットワーク化されたコンピューティング要素は単一のコンピュータシステムを形成し、前記コンピューティング要素はノードとして機能し、各ノードは、少なくとも1つのCPUの形態の処理ユニットと、RAMメモリとしての個々のメモリと、前記ネットワークにリンクするためのネットワークインタフェースコントローラとを有する、請求項1に記載の監視装置。
  7. 当該監視装置は、ノードごとに測定者装置を有し且つ複数の収集者装置を有し、各収集者装置は、グループをなすノード間で共有され、且つ、そのグループのノード内の、及び他のグループのノードから、遠隔情報を収集するように構成される、請求項6に記載の監視装置。
  8. 複数のノード間で共有される各収集者装置は、それらのノードの各々に前記ネットワークインタフェースコントローラを介してリンクされ、各測定者装置は、そのノード内の前記ネットワークインタフェースコントローラ、個々のメモリ及びCPUのうちの1つ以上を監視し、且つ収集者装置に直接的にリンクされる、請求項7に記載の監視装置。
  9. 当該監視装置は、前記測定者装置のうちのサブセットによる測定をアクティブにするように制御され、アクティブにされた測定者装置が、アクティブにされた収集者装置に直接的にリンクされる、請求項8に記載の監視装置。
  10. 前記収集者装置はコントローラ及びストレージを含み、該コントローラは、自身が直接的にリンクされた測定者装置からのデータ性能情報を用いて前記ストレージを更新するとともに、サードパーティアクセスを用いて前記ストレージからの情報を前記個々のメモリにローカル情報として書き込むように動作する、請求項8に記載の監視装置。
  11. 複数のネットワーク化されたコンピューティング要素の物理性能特性を監視するフォールトトレラントな監視方法であって、各コンピューティング要素は処理ユニット及び個々のメモリを含み、当該監視方法は、
    測定者装置を用いてコンピューティング要素の前記物理性能特性を測定し、前記物理性能特性を表すローカル情報を該コンピューティング要素の前記個々のメモリ内に格納することと、
    収集者装置を用いて、特定のコンピューティング要素の個々のメモリから物理性能特性を表す遠隔物理性能情報を収集し、他のコンピューティング要素の前記個々のメモリ内に複製情報として前記遠隔物理性能情報を格納することと
    を有し、
    前記遠隔物理性能情報は、サードパーティアクセスを用いて収集される、
    監視方法。
  12. アプリケーションの実行中に前記特定のコンピューティング要素が故障し、あるいは選択を解かれ、前記アプリケーションが、前記特定のコンピューティング要素を除外して、チェックポイントから再スタートあるいは続行するとき、故障前の前記特定のコンピューティング要素に関する物理性能データが、該データが複製情報として格納された前記他のコンピューティング要素によって提供される、請求項11に記載の監視方法。
  13. コンピュータプログラムであって、各コンピューティング要素が処理ユニット及び個々のメモリを含んだ複数のネットワーク化されたコンピューティング要素を有する分散メモリコンピュータシステムにロードされるときに、
    測定者装置を用いてコンピューティング要素の前記物理性能特性を測定し、前記物理性能特性を表すローカル情報を該コンピューティング要素の前記個々のメモリ内に格納し、且つ
    収集者装置を用いて、特定のコンピューティング要素の個々のメモリから物理性能特性を表す遠隔物理性能情報を収集し、他のコンピューティング要素の前記個々のメモリ内に複製情報として前記遠隔物理性能情報を格納し、
    前記遠隔物理性能情報は、サードパーティアクセスを用いて収集される、
    ように前記分散メモリコンピュータシステムを構成する、コンピュータプログラム。
  14. 複数のネットワーク化されたコンピューティング要素を有するコンピュータシステムであって、各コンピューティング要素は処理ユニット及び個々のメモリを含み、当該コンピュータシステムはまた、前記ネットワーク化されたコンピューティング要素の物理性能特性を監視するように構成されたフォールトトレラントな監視装置を含み、該監視装置は、
    複数の測定者装置であり、各々が、単一のコンピューティング要素の前記物理性能特性を、該コンピューティング要素の前記個々のメモリ内へのローカル情報としての記憶のために、測定するように構成された、複数の測定者装置と、
    複数の前記コンピューティング要素の個々のメモリから物理性能特性を表す遠隔物理性能情報を収集し、他のコンピューティング要素の前記個々のメモリ内に複製情報として前記遠隔物理性能情報を格納するように構成された収集者装置と
    を有し、
    前記遠隔物理性能情報は、サードパーティアクセスを用いて収集される、
    コンピュータシステム。
JP2014092962A 2013-07-23 2014-04-28 フォールトトレラントな監視装置、方法及びシステム Active JP6337598B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP13177709.6 2013-07-23
EP13177709.6A EP2829975B1 (en) 2013-07-23 2013-07-23 A fault-tolerant monitoring apparatus, method and system

Publications (2)

Publication Number Publication Date
JP2015022755A true JP2015022755A (ja) 2015-02-02
JP6337598B2 JP6337598B2 (ja) 2018-06-06

Family

ID=48900766

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014092962A Active JP6337598B2 (ja) 2013-07-23 2014-04-28 フォールトトレラントな監視装置、方法及びシステム

Country Status (3)

Country Link
US (1) US10069698B2 (ja)
EP (1) EP2829975B1 (ja)
JP (1) JP6337598B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10452579B2 (en) 2017-07-05 2019-10-22 Fujitsu Limited Managing input/output core processing via two different bus protocols using remote direct memory access (RDMA) off-loading processing system
JP2020198055A (ja) * 2019-06-05 2020-12-10 ファナック株式会社 制御装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105610904B (zh) * 2015-12-17 2018-12-18 四川物联亿达科技有限公司 一种统一接入设备的接入服务系统
US9858151B1 (en) * 2016-10-03 2018-01-02 International Business Machines Corporation Replaying processing of a restarted application
CN110795301A (zh) * 2018-08-01 2020-02-14 马上消费金融股份有限公司 作业监测方法、装置、终端以及计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009551A (ja) * 2008-06-30 2010-01-14 Birseas:Kk 管理サーバ、仮想記憶領域利用方法、仮想記憶領域利用プログラム及びメモリー領域管理プログラム
WO2012026041A1 (ja) * 2010-08-27 2012-03-01 富士通株式会社 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6405219B2 (en) * 1999-06-22 2002-06-11 F5 Networks, Inc. Method and system for automatically updating the version of a set of files stored on content servers
WO2003001333A2 (en) * 2001-06-20 2003-01-03 Arbor Networks, Inc., Detecting network misuse
US7181574B1 (en) * 2003-01-30 2007-02-20 Veritas Operating Corporation Server cluster using informed prefetching
US20050251564A1 (en) * 2004-04-15 2005-11-10 Tillotson Timothy N Remote instrument control by multiple clients
US20070041383A1 (en) * 2005-04-05 2007-02-22 Mohmmad Banikazemi Third party node initiated remote direct memory access
US8462109B2 (en) * 2007-01-05 2013-06-11 Invensense, Inc. Controlling and accessing content using motion processing on mobile devices
US8493231B2 (en) 2007-09-07 2013-07-23 Power Measurement Ltd. Power meter having fault tolerance
US8086728B2 (en) * 2009-03-12 2011-12-27 Hewlett-Packard Development Company, L.P. Method and apparatus of correlating power usage with traffic flow for a network device
US20110087767A1 (en) * 2009-10-14 2011-04-14 Microsoft Corporation Computer Environment Analysis Tool
US9032129B2 (en) 2009-10-14 2015-05-12 Silicon Laboratories Norway As Advanced energy profiler
US9992697B2 (en) * 2010-02-12 2018-06-05 Nokia Technologies Oy Method and apparatus for reporting of measurement data
US8843581B2 (en) * 2011-04-26 2014-09-23 Oracle International Corporation Live object pattern for use with a distributed cache
WO2013140529A1 (ja) * 2012-03-19 2013-09-26 富士通株式会社 情報処理方法、プログラム、および情報処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009551A (ja) * 2008-06-30 2010-01-14 Birseas:Kk 管理サーバ、仮想記憶領域利用方法、仮想記憶領域利用プログラム及びメモリー領域管理プログラム
WO2012026041A1 (ja) * 2010-08-27 2012-03-01 富士通株式会社 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
P.BALAJI, ET AL., EXPLOITING REMOTE MEMORY OPERATIONS TO DESIGN EFFICIENT RECONFIGURATION FOR SHARED DATA-CENTERS OVER, JPN6018001980, 20 September 2008 (2008-09-20), pages 1 - 10 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10452579B2 (en) 2017-07-05 2019-10-22 Fujitsu Limited Managing input/output core processing via two different bus protocols using remote direct memory access (RDMA) off-loading processing system
JP2020198055A (ja) * 2019-06-05 2020-12-10 ファナック株式会社 制御装置
JP7294895B2 (ja) 2019-06-05 2023-06-20 ファナック株式会社 制御装置

Also Published As

Publication number Publication date
JP6337598B2 (ja) 2018-06-06
EP2829975B1 (en) 2019-04-24
EP2829975A1 (en) 2015-01-28
US20150032877A1 (en) 2015-01-29
US10069698B2 (en) 2018-09-04

Similar Documents

Publication Publication Date Title
US12105584B2 (en) Acquiring failure information
US20210182190A1 (en) Intelligent die aware storage device scheduler
US8498967B1 (en) Two-node high availability cluster storage solution using an intelligent initiator to avoid split brain syndrome
JP6337598B2 (ja) フォールトトレラントな監視装置、方法及びシステム
US10067840B1 (en) Life expectancy data migration
US12067032B2 (en) Intervals for data replication
Ding et al. Scalog: Seamless reconfiguration and total order in a scalable shared log
JP6850771B2 (ja) 情報処理システム、情報処理システムの管理方法及びプログラム
US10114716B2 (en) Virtual failure domains for storage systems
US11150834B1 (en) Determining storage consumption in a storage system
WO2011057885A1 (en) Method and apparatus for failover of redundant disk controllers
US20170139605A1 (en) Control device and control method
US10782898B2 (en) Data storage system, load rebalancing method thereof and access control method thereof
JP2013196274A (ja) マルチノードストレージシステムのノード装置および処理速度管理方法
AU2022376963A1 (en) Coordinated checkpoints among storage systems implementing checkpoint-based replication
US9063854B1 (en) Systems and methods for cluster raid data consistency
EP4145265A2 (en) Storage system
US8108580B1 (en) Low latency synchronous replication using an N-way router
WO2021195187A1 (en) Managing host mappings for replication endpoints
US9729629B2 (en) Optimizing data transfer across multiple asynchronous data replication sessions using shared bandwidth
TW202134863A (zh) 用以進行全快閃記憶體陣列伺服器的高可用性管理的方法與設備
JP5941494B2 (ja) インメモリ管理システムおよびインメモリ管理用プログラム
Zhang et al. POCache: Toward robust and configurable straggler tolerance with parity-only caching
US12099719B2 (en) Cluster management in large-scale storage systems
US20240176739A1 (en) Fault tolerant systems and methods using shared memory configurations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180423

R150 Certificate of patent or registration of utility model

Ref document number: 6337598

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150