JP2024511077A

JP2024511077A - 多体シミュレーション

Info

Publication number: JP2024511077A
Application number: JP2023557730A
Authority: JP
Inventors: ブラノンバトソン，; ブライアンリーグレスカンプ，; ブルースエドワーズ，; ジェフリーアダムバッツ，; クリストファーハワードフェントン，; ジェフリーポールグロスマン，; ダクラスジョンイエラルディ，; アダムレラー，; ブライアンパトリックトールズ，; マイケルエドマンドバーグドルフ，; クリスチャンプリデスキュ，; ジョンケイ．サーモン，; アンドリューガービンタウベ，
Original assignee: DEShaw Research LLC
Current assignee: DEShaw Research LLC
Priority date: 2021-03-19
Filing date: 2022-03-18
Publication date: 2024-03-12
Also published as: WO2022198026A3; EP4309181A2; WO2022198026A2

Abstract

分子動力学シミュレータにおける改良は、計算中のエネルギーを削減するとともに集積回路に占めるダイ面積を削減する方法を提供する。そのような改良の例は、異なる距離に対する異なる相互作用モジュールと、相互作用モジュールのアレイにおける行に沿ったストリーミングおよび列に沿ったマルチキャストの使用と、計算コストと通信コストとの均衡化に基づく計算ユニットの選択と、計算ユニットを接続するネットワークにおけるフェンスの使用と、特殊な結合計算を行う結合計算器の使用と、を含む。

Description

関連出願
本出願は、２０２１年３月１９日出願の米国仮出願第６３／１６３，５５２号、２０２１年７月３０日出願の米国仮出願第６３／２２７，６７１号、および２０２１年１１月１６日出願の米国仮出願第６３／２７９，７８８号の利益を主張するものであり、その内容は参照により本明細書に組み込まれる。

発明者による先行開示の記載
ディヴィッド・Ｅ・ショー（Ｓｈａｗ，ＤａｖｉｄＥ．）、ピーター・Ｊ・アダムズ（ＰｅｔｅｒＪ．Ａｄａｍｓ）、アサフ・アザリア（ＡｓａｐｈＡｚａｒｉａ）、ジョゼフ・Ａ・バンク（ＪｏｓｅｐｈＡ．Ｂａｎｋ）、ブランノン・バトソン（ＢｒａｎｎｏｎＢａｔｓｏｎ）、アリステア・ベル（ＡｌｉｓｔａｉｒＢｅｌｌ）、マイケル・バーグドルフ（ＭｉｃｈａｅｌＢｅｒｇｄｏｒｆ）他、「アントン３：昼食前の２０マイクロ秒の分子動力学シミュレーション（Ａｎｔｏｎ３：ｔｗｅｎｔｙｍｉｃｒｏｓｅｃｏｎｄｓｏｆｍｏｌｅｃｕｌａｒｄｙｎａｍｉｃｓｓｉｍｕｌａｔｉｏｎｂｅｆｏｒｅｌｕｎｃｈ）」ハイパフォーマンスコンピューティング、ネットワーキング、ストレージ、およびアナリシスに関する国際会議会報、１～１１頁、２０２１年１１月、ＤＯＩ：１０．１１４５／３４５８８１７．３４８７３９７

クン・スプ・シム（ＫｅｕｎＳｕｐＳｈｉｍ）、ブライアン・グレスカンプ（ＢｒｉａｎＧｒｅｓｋａｍｐ）、ブライアン・タウルズ（ＢｒｉａｎＴｏｗｌｅｓ）、ブルース・エドワーズ（ＢｒｕｃｅＥｄｗａｒｄｓ）、Ｊ・Ｐ・グロスマン（Ｊ．Ｐ．Ｇｒｏｓｓｍａｎ）、ディヴィッド・Ｅ・ショー（ＤａｖｉｄＥ．Ｓｈａｗ）、「Ａｎｔｏｎ３上の特殊高性能ネットワーク（ＴｈｅＳｐｅｃｉａｌｉｚｅｄＨｉｇｈ－ＰｅｒｆｏｒｍａｎｃｅＮｅｔｗｏｒｋｏｎＡｎｔｏｎ３）」、arXiv:2201.08357v1、２０２２年１月

これらの文献は、本明細書に参照により組み込まれる。

本発明は、多体シミュレーションに関し、より詳しくは、分子動力学のシミュレーション用装置の回路実装に関する。

多体シミュレーション用装置の回路実装及びその動作手順の多数の例が、本明細書に参照により組み込まれる、以下の米国特許公報に記載されている。米国特許第７，７０７，０１６号「ＯＲＴＨＯＧＯＮＡＬＭＥＴＨＯＤ（直交法）」、米国特許第７，５２６，４１５号「ＧＲＩＤＢＡＳＥＤＣＯＭＰＵＴＡＴＩＯＮＦＯＲＭＵＬＴＩＰＬＥＢＯＤＹＳＩＭＵＬＡＴＩＯＮ（多体シミュレーションのためのグリッドベース計算）」、および米国特許第８，１２６，９５６号「ＡＰＰＲＯＡＣＨＥＳＡＮＤＡＲＣＨＩＴＥＣＴＵＲＥＳＦＯＲＣＯＭＰＵＴＡＴＩＯＮＯＦＰＡＲＴＩＣＬＥＩＮＴＥＲＡＣＴＩＯＮＳ（粒子相互作用の計算のためのアプローチおよびアーキテクチャ）」。

本文書では、先に記載されたアプローチとともに使用可能な多数の態様、例えば、サブシステムの実装またはサブシステムの変更をここで示される態様で代替すること、等を説明する。

多くの実施態様において、多体シミュレーションのための装置は、多数の粒子を含む物理的体積のシミュレーションを行う。分子動力学のシミュレーションにおいて、粒子は、原子を含み、その集合が分子を形成することもある。

この装置は、多数の相互接続処理ノードを含み、それらは３次元アレイに配置されていてもよい。この装置の多数の用途において、処理ノードとシミュレーションされている物理的体積の物理的領域との間には、一対一の対応関係が存在する。実施態様は、物理領域が立方体であるもの、物理領域が角柱のもの、物理領域が処理ノードと同様の隣接関係を持って配置されているものを含む。少なくともいくつかの実施態様において、処理ノードは、それらの直接隣接する処理ノードへの通信経路を有する。これらの経路は、トロイドを形成する。

先行特許に示されているように、特定の粒子のデータは、その粒子の物理的位置に関連付けられた処理ノードに保存されている。粒子相互作用の計算は、一般に、処理ノードがペアワイズ相互作用を計算できるように、粒子に関する情報を交換すること、および、少なくともいくつかの粒子について、処理ノードがそれら粒子の位置（および速度）を更新できるように力の情報を交換することを含む。

以下に記述する多くの新規な特徴は、単独または組み合わせて用いることができ、回路ベースシステムにおいて物理系を正確にシミュレートするという実際的な問題に対する技術的改善を提供する。

１つの改善は、あるシミュレーションで消費されるエネルキーの総量を削減することである。そのようなエネルギーの削減により、より高速、および／またはより小さなシステムを実現できる。

もう１つの改善は、単により高速な回路または汎用プロセッサを用いるのではなく、利用可能な回路をより有効に用いることができる計算およびノード間通信の特定の構成、例えば、処理要素の特定の組み合わせを導入し、待ち時間を減少させそれにより各シミュレーションサイクルに要する時間を削減するための通信及び計算の側面を用意し、プロセッサ間の通信リンクをより効率的に利用することにより、物理系をシミュレートするのに必要な時間を削減することである。

ここに記載されたすべての実施態様および方法は、非抽象的であり技術的効果をもたらすものである。出願人は自身の独自の用語作成者として、「非抽象的」とは本出願の出願日の時点において連邦巡回控訴裁判所および最高裁判所により定義されている「抽象的」の反対を意味するものとここに定義する。その結果、特許請求の範囲を抽象的であると解釈する者は、明細書とは正反対の方法で特許請求の範囲を解釈することになる。

１つの側面において、本発明は、一対の原子の２つの原子を相互作用させるためのハイブリッド方法を特徴とする。この方法によれば、一対の原子を相互作用させるのに１つ以上の計算ノードのセットが用いられる。そのセットは、セット内の通信ノード間で原子に関するデータを通信しなければならないコストと相互作用の計算に関連する計算の複雑さとの均衡をとることにより選択される。

ここで、「相互作用する」という動詞は、２つの原子間の相互作用から生じる当該２つの原子の状態（例えば、位置、運動量、電荷等）の変化を推定するのに必要な計算を実行することを意味するものとする。本開示全体を通して、「原子」および「粒子」という用語は、相互に交換可能に用いられるものとする。

ここで、「原子」という用語は、必ずしも原子核とそれに付随する電子を意味するものではない。分子動力学の分野において、「原子」は、シミュレーション中に分割不能な単位として扱われるものとしてその本来の意味において用いられる。そのため、「原子」は、原子核であってもよく、原子核及び１つ以上の電子であってもよく、分子または遥かに大きな分子の一部分である官能基等、月号した複数の原子核であってもよい。

分子動力学シミュレータにおいて、２つの原子を相互作用させるには、その２つの原子に関する情報が必要になる。この情報は、その相互作用を実行するいかなる計算ノードにおいても利用可能でなければならない。ある特定の計算ノードは、全てではなくいくつかの原子についての情報を持っている。そのノードが、ペアの原子両方に対応する情報を持っている場合には、その情報を転送することに伴う通信コストは生じない。一方、そのノードがいずれかの原子についての情報を持っていない場合、その結果として通信コストが生じる。また、そのノードが、いずれの原子に関する情報も持っていない場合もある。この場合、さらに大きな通信コストが生じる。

ここで説明する実施形態は、通信コストがより高く計算の複雑性がより低い第１の方法と、通信コストがより低く計算の複雑性がより高い第２の方法とを選択する。今回の場合、第１の方法はマンハッタン法（ＭａｎｈａｔｔａｎＭｅｔｈｏｄ）であり、第２の方法はフルシェル（ＦｕｌｌＳｈｅｌｌ）法である。各相互作用では、シミュレータは第２の方法のより高い通信コストに対して第１の方法の加算された通信コストを評価し、各相互作用に対してより高い性能を発揮する計算ノードのセットを選択する。

米国特許第７，７０７，０１６号等に記載されている既存のニュートラル・テリトリー（ＮｅｕｔｒａｌＴｅｒｒｉｔｏｒｙ）法に比べ、マンハッタン法では、ノード間のインポート量が少なくノード間での計算バランスが良く、その結果、性能を向上させられる。マンハッタン法は、物理空間において、ノードのうちでノード間境界から最も遠い粒子を含む１つのノード上の相互作用を計算する。そして、他のノードに共有結果を返す。

フルシェル法は、前述のいずれの方法よりも計算的に極めて複雑である。しかしながら、フルシェル法では、必要な通信がはるかに少ない。この通信の節約は、相互作用が両方の原子のホームノードにおいて計算されるためペアをなすノードには返されないことによる。

他の側面において、装置は、処理ノードに粒子間のペアワイズ相互作用を評価するための回路を含む。

一対の粒子の相互作用の計算には、粒子間の間隔によって異なる必要条件がある。例えば、互いに遠く離れた粒子では、それらが互いに近い場合に比べ相互作用がより単純なため、必要とされる計算はより少なくてすむ。相互作用の特性の大きさは小さくてもよい。相互作用の計算された特性は小さくてもよい。

このことに対応するには、ペアワイズ相互作用を計算するための、粒子間の間隔に応じて選択される複数種類の処理要素を持つことが有用である。

一例として、分子動力学のシミュレーションにおいて、非結合粒子は、互いに遠く離れているときよりも近いときのほうがより複雑な挙動をする。「近い」および「遠い」は、点粒子の周りの球のカットオフ半径により定義される。液体中に分散された粒子のほぼ均一な密度およびそのカットオフ範囲により、典型的には、遠領域内には近領域内に比べ３倍多くの粒子が存在する。装置はこのことを、互いに近くにある粒子のペアをより複雑な処理を行うことができる大きな相互作用モジュールの方へ誘導することにより利用する。反対に、互いに遠く離れている粒子のペアは、精度の低い計算を行い粒子同士が十分近くにある場合のみ意義のある特定の現象を無視する小さな相互作用モジュールの方へ誘導される。

大きな相互作用モジュールは物理的にサイズがより大きいので、「大きい」および「小さい」を用いるのは適切である。それはより大きなチップ面積を消費し、また各相互作用あたりでより大きなエネルギーを消費する。処理ノードは、シミュレーション体積内の粒子の空間分布を収容するため、「大きな」処理要素よりも多くの数の「小さな」処理要素を有していてもよい。

各集積回路の合計面積の一部は、計算パイプラインを形成するインタラクション回路が占める。このインタラクション回路が、前述の相互作用を実行する。

汎用コンピュータと異なり、計算パイプラインは、限られた機能しか持たない最小限の構成が可能ハードウェアモジュールである。しかしながら、扱えることに関しては、上手く扱える。インタラクション回路は、汎用コンピュータが同じ相互作用を実行するのに消費するエネルギーよりもはるかに少ないエネルギーしか消費しない。このインタラクション回路は、ペアワイズ粒子相互作用モジュールとみなすことができ、集積回路の中で主力の担い手である。

基板の他の部分には、論理回路が形成されている。このような論理回路は、典型的には、電圧を出力電圧に変換するよう相互に接続されたトランジスタを含む。このような変換の結果により、電圧により表される情報をインタラクション回路に送信または受信したり、情報の一時的な保存場所を提供したり、あるいは情報を調整したりできる。

他の側面において、一般に、粒子の２セットについてのデータが与えられたとすると、処理ノードは、（１）粒子間の相互作用を評価するか否か、および／または（２）粒子間の相互作用を計算するのに、どの計算要素を用いるべきか、を、粒子間距離にしたがって決定する。

いくつかの例では、粒子間の相互作用を評価するか否かを決定するにあたり、粒子間の距離についての厳密なしきい値が用いられる。これにより、例えば、相互作用（例えば、粒子にかかる力）が不注意に「二重カウント」されてしまうことが回避される。

他の例では、粒子間の距離により、相互作用に用いられるノードの異なるタイプの処理要素のうち、どの処理要素のどれを使用するかが決定される。これにより、異なる処理要素が異なるレベルの正確さの計算を実行するので、特に有利である。これにより、特定の相互作用に対してどのレベルの正確さが最も適切かを選ぶことが可能になる。

この側面において、距離ベースの決定（つまり、上記（１）および（２））は、精度を高めながら、および／または計算コストを高めながら、２段階で行われる。

例えば、第１段階では、粒子のペアは、それらが閾値間隔を超えることが保証されている場合には除外される。他の例として、第２段階では、第１段階で除外されなかった粒子のペアがそれらの間隔にしたがって処理され、例えば、閾値間隔を超える粒子のペアをさらに除外する、および／または間隔にしたがって処理要素を選択する。例えば、第２段階では、粒子のペアに対して以下の３種類の判定を行う。一方の粒子が第２の粒子の近傍領域内にあるか（例えば、その場合、そのペアは「大きな」処理要素を用いて評価される）、一方の粒子が第２の粒子の遠方領域内にあるか（例えば、その場合、そのペアは、「小さな」処理要素を用いて評価される）、または、一方の粒子が第２の粒子の遠方領域のカットオフ半径の外にあるか（例えば、その場合、そのペアの相互作用は、それ以上評価されない）。

原子間の相互作用は、その重要性が原子間の距離とともに変化する現象を考慮することを含む。このことを認識し、原子からの閾値距離を定義することは有益である。原子ペアのうち第１および第２原子間の原子間距離がこの閾値を超えた場合、第１相互作用モジュールが用いられ、そうでなければ、第２相互作用モジュールが用いられる。２つの相互作用モジュールは複雑性が異なり、第１相互作用モジュールは第２相互作用モジュールにおいて考慮される少なくとも１つの現象を無視する。例えば、距離が小さい場合、量子力学的効果は考慮するのに十分に重要である。このような効果は距離が大きい場合は無視できる。

第１相互作用モジュールは第２相互作用モジュールより物理的に大きいため、より多くのダイ面積を占有する。加えて、第１相互作用モジュールは、第２相互作用モジュールに比べて相互作用あたり消費するエネルギーがより多い。

一般に、第１原子を中心とした球が存在する。その球の外側にある原子は、全く相互作用が行われない。球の中にあるが閾値半径を超える原子は、第２相互作用モジュールを用いて相互作用を行う。他のすべての原子は、第１相互作用モジュールを用いて相互作用を行う。
相互作用を正しい相互作用モジュールへ導くには、原子間距離が閾値半径を上回るか下回るかに基づき、原子間距離を判定し、提案された相互作用を放棄するかあるいは相互作用を第１相互作用モジュールまたは第２相互作用モジュールへ導くマッチング回路を備えることが役立つ。

原子の均一な密度のためには、より多くの原子が球の閾値半径の外側の部分に存在することが期待される。その結果、２つ以上の第２相互作用モジュールを備ることが有益である。これにより、第２のタイプの相互作用に対しさらなる並列化が促進される。

いくつかの実施形態においては、原子はまずメモリに保存され、その後相互作用回路、特に、原子を適切な相互作用モジュールへ導くマッチング回路にストリーミングされる。マッチング回路は、低精度の段が粗く包括的な２段階フィルターを実装する。各クロックサイクルにおいて、低精度段は、各ストリーム原子および潜在的にストリーム原子と相互作用を行わせる多数の保存された原子との間の原子間距離を計算する。

各原子が「型」を持っていることが有用である。原子の「型」を知ることは、その原子が相互作用に参加する際に用いられるべき適切な相互作用の方法を選択するのに有用である。例えば、２つの原子の型が知られている際に、それら２つの原子の間のペアワイズ相互作用の情報を取得するのに参照テーブルを参照することができる。

大きなテーブルに伴う扱いにくさを回避するには、相互作用モジュールは、第１段が相互作用インデックスを有し、第２段が各相互作用インデックスに関連付けられた関連相互作用型を有する、２段階テーブルを備えていることが有用である。相互作用インデックスは、原子の型に関する情報よりも少ない量のデータを表している。そのため、ダイ上に物理的に存在しなければならない、テーブルの第１段は、ダイにおいて少ない面積を占有している。したがって、その情報を維持するのにより少ないエネルギーですむ。

上述のように、計算パイプラインを形成する相互作用回路は、限られた機能しか持たない。相互作用によっては、相互作用回路が実行できない操作を行う必要がある。そのような場合、参加する原子の一つに関連付けられた相互作用型は、特殊な操作が必要であることを示す。これを実行するため、相互作用回路は、ここで「ジオメトリコア」と称する、隣接する汎用コアへのトラップドアを実装する。ジオメトリコアは、一般に相互作用回路と比べてエネルギー効率が低い。しかしながら、ジオメトリコアは、より複雑な処理を行うことができる。そのため、この形態は、時折計算の一部をより非効率なジオメトリコアに任せる能力を備えながら、相互作用回路に伴うエネルギー効率を維持する。

上述したように、処理ノード間の通信は、粒子の状態についての情報を交換することを含む。このような情報は、粒子の位置、速度、および／または力のうち1つ以上を含む。連続し反復されるシミュレーションにおいて、処理ノードの特定のペアは、同じ粒子に関する情報を送ってもよい。

他の側面においては、一般に、先の通信された情報を参照することにより、通信要件を減らすことができる。例えば、受信ノードが情報（例えば、粒子の質量）をキャッシュしたり、送信ノードがその後の反復において、すべてのデータを再送せずに、キャッシュされたデータへの参照（例えば、タグ）を送信したりしてもよい。

他の側面では、一般に、送信ノードと受信ノードとが、先行した反復から、現在の情報中に送信されるべき情報を予測するのに用いられる情報を共有する。その後、送信ノードは、共有された予測に関して現在の反復で送信されるべき情報をエンコードし、それにより送信されるデータ量を抑制する。例えば、送信ノードと受信ノードとが以前の粒子の位置と速度を共有している限りにおいて、各々は、例えば、その以前の速度で粒子を移動させ、その速度が一定のままであると仮定することにより、現在の位置と速度を予測できる。そのため、送信ノードは、現在位置と予測位置との差分および/または現在速度と予測速度との差分を送信するだけでよい。同様に、力も同様の方法で予測され、予測された力と計算された力との差分が送信されてもよい。

別の側面において、システム内の処理ノードを接続する通信インフラストラクチャ（例えば、ノード間通信回路）は、ノード間の通信の同期するための回路を含む。前述のインフラストラクチャの実施形態の中には、一組のメッセージのすべてが送信されたこと、および／またはそのフェンスメッセージの後でそのノードから送信されたメッセージがフェンスメッセージの後の宛先に配信されなければならないこと、を示す「フェンス」メッセージを、ノードが発するようなものを含む。

前述のインフラストラクチャの実施形態の中には、また、一組の送信元ノードからすべてのメッセージが配信されたことを示すメッセージを宛先ノードにいつ送るべきかを、通信インフラストラクチャが決定するものを含む。これらの実施形態の中には、通信インフラストラクチャが一組の送信元ノードからのフェンスメッセージを処理し、送信元ノードからのすべてのフェンスメッセージが受信されたときにフェンスメッセージを宛先ノードに配信するものを含む。このようなインフラストラクチャベースのフェンスメッセージ処理により、処理ノードのペア間で「Ｎ２」メッセージを送らなければいけない必要性を回避することができる。

他の側面においては、ネットワークで接続された大規模マルチプロセッサコンピュータ用のプロセッサ同期メカニズムがフェンスを利用する。フェンスは、すべてのあり得る送信元から宛先プロセッサにこれ以上データが到達しないことを保証する防壁である。いくつかの実施形態では、フェンスはグローバル防壁であり、つまり、コンピュータ内のすべてのプロセッサを同期させる。いくつかの実施形態では、フェンスは、コンピュータの部分領域を同期させる選択的防壁である。

実施形態には、各送信元は、各宛先に最後のデータが送られたことを示すパケットを送り、各宛先は、各送信元からのパケットが受信されたときまで待機するようなものが含まれる。Ｎ個のプロセッサを備えるコンピュータにおいて、グローバル防壁は、すべての送信元から宛先プロセッサまでネットワークを横断するのにＯ（N^２）個のパケットを必要とする。別のフェンスメカニズムでは、エンドポイントプロセッサがＯ（Ｎ）個のパケットを送受信するだけでよい。さらの別の実施形態は、フェンスネットワークトラフィックとエンドポイントでの処理を削減するのにマルチキャストを用いるネットワークおよびカウンタを含み、それにより消費電力を抑制してシリコンチップ上で使用される物理的面積を減少させ、それにより製造コストを削減する。

他の側面において、本発明は、ここで「タイル」と称する計算ユニットが集積回路または「チップ」内で、行と列との２次元アレイを形成し、原子のペアの間の相互作用を計算するための、相互作用モジュールを含む。あるタイルは、同じ列の隣接するタイルまたは同じ行の隣接するタイルとの間で粒子に関する情報を送受信する。説明の便宜上、粒子に関する情報を単に「粒子」と称する。

タイルは、これ以降「保存セット粒子」と称する、粒子のセットを保存している。シミュレーションの間、そのタイルは、これ以降「ストリームセット粒子」と称する、粒子のストリームを受信する。シミュレーションの過程で、タイルは、各ストリームセット粒子を保存セット粒子と相互作用を行わせる。シミュレーションの各時間ステップで、タイルによって相互作用させられたストリームセット粒子は、当該タイルの行に沿って後続のタイルに移動し、その後続のタイルで保存セット粒子と相互作用させられる。一方、そのタイルは、当該タイルの行の中の先行するタイルから新たなストリームセット粒子を受け取る。

この行方向のストリーミングを実行するため、専用のストリーミングネットワークが存在する。この専用ストリーミングネットワークは、ポジションバスとフォースバスとを備える。ポジションバスは、チップの端部にあるメモリから粒子の位置に関する情報を取得し、相互作用回路を通じて１つのタイルから次のタイルへとストリーミングする。各粒子について、ポジションバスは、その粒子が通過する相互作用モジュールによって計算されたものとして、その粒子にかかる力を蓄積する。

上述のように、タイルは、その列内の他のタイルと通信できる。この通信には、ストリームセット粒子は関与しない。それには保存セット粒子が関与する。特に、あるタイルの保存セット粒子は、そのタイルの列内のタイルにマルチキャストされる。その結果、保存セット粒子は、同一の列内のすべてのタイルにわたって複製される。これにより、保存セット粒子を異なるストリームセット粒子と同時に相互作用させることが可能になる。

起こりうる問題は、１つの行のストリームセット粒子との相互作用の結果としてある保存セット粒子にかかる力は、必ずしも他の行において対応する保存セット粒子には適用できるとは限らないということである。この問題に対処するため、ある行内のストリームセット粒子について計算される力を、最初に保存セット粒子をマルチキャストに用いられたマルチキャストパターンの逆数に単に追従することにより、アンロードの際ネットワーク内で低減する。

加えて、同一の列のすべてのタイルがアンロードを開始する準備ができるまで、どのタイルも保存セット粒子のアンロードの開始が許可されない。これを実現するには、列内のすべてのタイルにわたって４線式同期バスの形態で列シンクロナイザを提供することが有用である。このような同期バスにより、ネットワークデッドロックが回避され、低レイテンシ同期が提供される。

別の側面では、本発明は、原子間の特定の型の結合、特に共有結合に関する特定の特殊な計算を行う際、汎用プロセッサを補助するためのコプロセッサとして機能する結合計算器を含む。汎用プロセッサは、原子および結合の性質に関する情報を結合計算器に提供し、そのような処理の結果を結合計算器の出力メモリから読み出すことにより、そのような計算を開始する。

結合計算機の実施形態は、力に対する結合の1つ以上の応答をサポートする。そのような応答は、結合距離の伸長または収縮のような結合距離の変化、３個の原子が結合している場合に発生し得るような結合角の変化、および４個の結合原子が存在する場合に生じ得るような結合の二面角またはねじれ角の変化、を含む。

こうした力に対する応答は、分子シミュレーションにおいては特に一般的なものである。結果として、このような応答の決定に伴う処理を、コンパクトな専用の回路に移行することが特に有用である。そうすることで、原子のこのような状態変化を計算するのに必要とされるエネルギーを削減できる。

いくつかの実施形態において、粒子間の相互作用は、指数関数の差という形、例えば、exp(－ax)－exp(－bx)という形、または電子雲分布の畳み込みを表す積分の評価としての形をとる。２つの指数を別々に計算し、その差を取ることは可能かもしれないが、そのような差は、数値的に不正確（例えば、非常に大きな数の差）であるかもしれない。好ましいアプローチは、この差の１つの級数表現を形成することである。例えば、その級数は、テイラー級数やガウス-ヤコビ求積法に基づく級数であってもよい。さらに、シミュレーション全体の精度を維持するのに必要な項の数は、一般に、ａｘとｂｘの値による。したがって、例えば、粒子－粒子－相互作用回路（ＰＰＩＭ）において、ペアワイズ項を計算する際、異なる特定の粒子のペア、またはａｘとｂｘの値の差（例えば、絶対差、比、等）に基づく異なる基準により、級数の項がどれだけ保持されるべきかを決定することができる。例えば、項の数を減らす（例えば、多数の粒子のペアに対し単一の項にする）ことにより、２つの値が近い場合、すべてのペアワイズ相互作用の計算全体を、全体の精度を維持しながら大幅に削減することができ、それにより、精度と性能との間（計算速度および／またはハードウェア要件）の制御可能なトレードオフを提供することができる。

いくつかの実施態様においては、同一の値（例えば、粒子にかかる力）が、例えば、通信コストを回避するため、異なるプロセッサで冗長に計算される。例えば、このような冗長な計算が「フルシェル」法において発生する可能性がある。また、体系的に切り捨てたり四捨五入したりした結果がシミュレーション全体にとって、例えば、一連の反復にわたってバイアスを導入することにより、有害となるかもしれないような状況がある。例えば、繰り返し切り捨てを行うと、時間積分は著しく小さくなりすぎることがある。

連続した時間ステップでの丸め処理により生じる累積されたバイアスを回避するための１つのアプローチは、粒子のセットについて計算された値を丸めたり切り捨てたりする前に、小さなゼロ平均乱数を加えることである。そのようなアプローチは、「ディザリング」と称される。しかしながら、異なるプロセッサで冗長計算を行う場合、例えば、乱数発生の順序の違いなどのため、異なるプロセッサで発生する疑似乱数が同じになる理由はない。異なる乱数を用いると、丸められり切り捨てられたりした値が異なるかもしれず、そのシミュレーションがプロセッサ間で完全に同期しないこともある。

１つの好ましいアプローチは、まったく同じデータが粒子のセットの値を計算するすべてのノードで用いられる、データ依存乱数生成を用いることである。乱数値を生成する方法の１つは、計算に関わる粒子の間の座標差を、丸めたり切り捨てたりする前に加えられるべき乱数値を生成するための乱数シードとして用いることである。いくつかの実施形態においては、３つの幾何学的座標方向のそれぞれにおける絶対差の低次ビットが、その出力が乱数値として用いられるかまたは1つ以上の乱数を生成する擬似乱数生成器の乱数シードとして用いられるハッシュ関数への入力として、保持され、組み合わせられる。粒子のセットに関わる多数の計算がある場合、異なる乱数を生成するのに同じハッシュが用いられ、計算結果に加算される。例えば、１つの乱数をいくつかに分割したり、同じシードから乱数列を生成するのに乱数発生器を用いたりする。座標距離の値はすべてのプロセッサでまったく同じであるため、ハッシュ値は同じになり、したがって、乱数も同じになる。粒子間の距離は、絶対位置よりも好ましい可能性があり、なぜなら、距離は、平行移動およびトロイダルラッピングに対し不変であるのに対し、絶対位置はそうでないかもしれないからである。座標方向における差の計算は、丸め誤差が生じさせないため、ユークリッド（スカラー）距離よりも好ましい場合がある。

実施形態、実施例、および／または実施態様は、上述のアプローチの様々な組合せを利用するとともに、送信される情報のビット数で測定される通信要件の削減、絶対時間または特定の計算を実行するのに必要な時間に対して測定される通信の待ち時間の削減、シミュレーションした時間およびシミュレーションした時間ステップの数にわたって所定のシミュレーションを行うための絶対時間（すなわち、「ウォールクロック」時間）の短縮、必要な計算時間および／または電力および／または回路面積を削減するための特定の計算モジュールへの計算の分配、および/または、より少ない通信リソースを用いた分散モジュール間の同期、および/またはネットワーク通信プリミティブを用いたより多くの同期動作を提供、を含む、個々のアプローチの利点は、他のアプローチと組合せて用いる必要なく達成され得る。さらに他の利点は、以下の説明から明らかになる。

図１は、３次元グリッドに配置された計算ノードを含む計算システムの論理ブロック図である。図２は、図１の計算ノードの特定用途向け集積回路の構造の説明図である。図３は、図２の回路のコアタイルの論理ブロック図である。図４は、図２の回路のエッジタイルの論理ブロック図である。図５Ａ～Ｃは、原子間の相互作用を計算するときの計算ノード間の通信の３つの異なる例を表す図である。図６は、図３のペアワイズ粒子相互作用モジュールコアタイルの論理ブロック図である。

１概説
１．１ハードウェアアーキテクチャ
以下の記載は、分子動力学（ＭＤ）シミュレーションを実行する、ハードウェアシステムならびにそのハードウェアシステム上で実行される計算および通信手順を開示する。このシミュレーションは、化学系における原子の３次元運動を、多数の個別時間ステップを通して予測する。各時間ステップにおいて、原子の間の原子間力は、物理学ベースのモデルを用いて計算される。これらの原子間力は、通常１～３個の共有結合で隔てられた原子の小さなグループの間の力をモデル化する結合項と、残りすべての原子ペアの間の非結合力と、で構成される。各時間ステップで、与えられた原子にかかる力が合計されて、その原子にかかる合計力が求められ、その合計力は、その原子の加速度を（ニュートンの第２法則により）直接決定し、それにより（時間積分により）原子の原子位置と速度とを次の時間ステップで使用する値に更新するのに用いることができる。一部の計算を近似することなく、各時間ステップで計算される原子間力の数値は、原子の数に２次関数的に対応するので、システムのサイズが大きくなるにしたがい解決への時間が膨大に増えることになる。さらに加えて、安定した正確な積分にはほぼフェムト秒単位の時間ステップが要求されるため、１マイクロ秒の原子運動をシミュレートするには、約１０億時間ステップが必要となる。

図１に示すように、計算システム１００は、分離したハードウェア要素として実装された計算ノード１２０の３次元配置を含む。例えば、５１２ノードが８×８×８アレイに配置されるが、異なる数のノードを用いてもよい。一般に、ノード１２０は、ノード内に統合された特殊用途または比較的汎用的なプロセッサ上で実行されるアプリケーション特有のハードウェアおよび／またはソフトウェアにおいて実現される計算および通信双方の機能を果たす。ノード１２０は、ノード間をつなぐ通信機能を提供する、ノード間通信ネットワークでリンクされている。図１に示す実施形態において、ノード間通信ネットワークは、３次元のノードアレイにおいてトロイダル配置で隣接ノードを接続する多数のノード－ｔｏ－ノード通信リンク１１０を含む。すなわち、図１に示されるように、各ノード１２０は、３次元の各々（例えば、ｘ、ｙ、およびｚ）において２つのリンク、つまり６つのリンクに接続されている。図１において、ノードは、その６面のそれぞれがリンクに接続されている立方体として示されているが、他の物理的配置（例えば、電子機器ラック等）が用いられてもよい。

各ノードは、隣接していないノード間の通信をサポートするルーターを含む通信要素を含んでいる。さらに後述するように、このようなルーターを「エッジルーター」と称する。さらに、各リンク１１０は、一般に、１つ以上のシリアル「レーン」で構成される複数の双方向チャンネルからなる。例えば、各リンク１１０は、１つのノードがシステムの他のノード１２０に接続されている６×１６＝９６レーンの集合体を有するよう、１６レーンで構成されていてもよい。したがって、エッジルーターは、ノードに接続された異なるレーン間の通信に用いられる通信経路を提供する。

図２に示すように、各ノード１２０は、コアタイル１２４からなる中央アレイと、該アレイの対向する２つの境界辺に配置されたエッジタイル１２２の線形アレイと、を含んだ２次元配列のコア(「タイル」とも称する）としてレイアウトされた特定用途向け集積回路（ＡＳＩＣ）を含んでいる。例えば、中央アレイは、１２×２４のコアタイルを含んでいるのに対し、エッジタイル１２２の各アレイは、１２タイルを有している。つまり、合計では２４のエッジタイルがある。各エッジタイル１２２は、多数のシリアルチャンネルに接続されており、例えば、各エッジタイルがそれぞれのシリアライザ－デシリアライザモジュール（ＳＥＲＤＥＳ）１１８を介して４つのシリアルチャンネルに接続されている。一般に、エッジタイル１２２は、ノード間通信のため、ならびにノード間通信ネットワークとノード内の１つ以上の内部ネットワークとの間のための通信サービスを提供し、コアタイル１２４は、シミュレーションのための通信サービスを提供するとともに、ノードの内部ネットワーク上での通信をサポートする。

図３は、コアタイル１２４の構成要素をより詳細に示す。ネットワークルーター（「コアルータ」とも称する)１４１は、タイル内の計算ブロックを、隣接するコアタイル１２４を接続するリンク１４２を含む、汎用２Ｄメッシュネットワーク・オン・チップ（network-on-chip）に接続する。メッシュネットワークに加え、シミュレーション計算のためのデータ入出力を分配するために専用バスが用いられる。これらのバスは、ポジションバス１５１およびフォースバス１５２を含む。以下に詳細に説明するように、計算の重要な部分は、原子のペア間に作用する力を求めることに関し、その計算は、各タイル上の２つのペアワイズ点相互作用モジュール（ＰＰＩＭｓ）１３２においてホストされ、これらのＰＰＩＭｓは、ポジションバス１５１を通じて位置情報を受け取るとともにフォースバス１５２通じて力情報を提供している。加えて、ＰＰＩＭｓは、各ＰＰＩＭがエッジタイル１２２と通信できるようにデータをＰＰＩＭ間で伝える役割を果たす。各コアタイル１２４は、また、結合原子に関する力の計算を扱う、結合計算器（ＢＣ）１３３と称する、さらなる計算モジュールを含んでいる。最後に、２つの比較的一般的な処理モジュールは、各時間ステップでＢＣ１３３またはＰＰＩＭｓ１３２によってまだ処理されていない残りのすべての計算を処理する。これらのモジュールは、ジオメトリコア（ＧＣｓ）１３４およびそれらに関連したメモリ１３５（図３では「フレックスＳＲＡＭ」と表す）と称されている。

図４に示すように、各エッジタイル１２２は、オフチップリンク１１０（channels）用のロジックを含んでおり、各チャンネルは３Ｄトーラス内の６つの隣接するものにＳＥＲＤＥＳ１１８のグループを用いて接続されている。各チャンネルはまた、ノード１２０の同一エッジ上のリンク１４４を介して（すなわち、図２に示されるようなノードの各端部で１２個のエッジタイル１２２のアレイに沿って）他のエッジタイルとともにエッジネットワークを形成するエッジルーター１４３に接続されており、トラフィックがノード間ネットワーク内で次元をわたって「曲がる」ことを可能にしている。エッジルーター１４３は、また、データの投入および放出のためにリンク１４２を介してコアタイルの２Ｄメッシュネットワークに接続されるとともに、ＳＥＲＤＥＳ１１８を介してインターノードリンク１１０に接続されているチャネルアダプタ１１５に接続される。最後に、インタラクション制御ブロック（ＩＣＢｓ）１５０は、エッジルーターを上述のようにコアタイル１２４のアレイにわたって伸びるフォースバス１５２およびポジションバス１５１に接続する。ＩＣＢｓ１５０は、ポジションバス１５１へ原子位置を送るのに用いられる、大容量バッファおよびプログラマブルダイレクトメモリアクセス（ＤＭＡ）エンジンを含む。それらはまた、原子間力をフォースバス１５２から受信し、フレックスＳＲＡＭｓ１３５へ届けるためエッジネットワークへ送る。

各ノードでの２Ｄメッシュネットワーク上の通信パケットのルーティングは、コアルータ１４１により実現される次元順ルーティングポリシーを用いる。３Ｄトーラスネットワークにおけるルーティングは、ランダム化された次元順（つまり、６つの異なる次元順のうち１つ）を利用する。例えば、順序は、ノードの各エンドポイントペアごとにランダムに選択される。

システム１００は、一般に、１つ以上の他の計算システムに接続されている。例えば、初期化データおよび／またはソフトウェアは、シミュレーションの前にシステム１００に提供され、得られた位置データは、シミュレーション中またはシミュレーションの完了後にシステム１００から提供される。デッドロックを回避するアプローチは、すべての応答パケットに特定の次元順を用いること、および仮想回路（ＶＣｓ）を用いることを含む。

１．２計算アーキテクチャ
分子動力学シミュレーションは、例えば、境界条件の問題を避けるため空間的に周期的に繰り返される直線的体積のような、３次元シミュレーション体積における原子の動きを求める。シミュレーション体積の全体は、一般に均一な寸法を持った、隣接する（つまり、重ならない）３次元の箱に分割される。これらの箱のそれぞれは、「ホームボックス」と称する。各ホームボックスは、システムのノード１２０のうち１つ（「ホームボックスのノード」と称することもある）と関連付けられ、最も典型的にはノードの幾何学的関係がホームボックスの幾何学的関係と同じであるような一対一の関係にある（そのため、一対一の関係の場合、「ノードのホームボックス」と称してもよい）。一対一の関係の場合、隣接するホームボックスは、隣接するノードと関連付けられている。なお、別の実施形態においては、例えば、各ノードの異なる部分が異なるホームボックスに割り当てられて（例えば、各ホームボックスに対して異なるタイルのサブセットを用いて）、各ノードが多数のホームボックスをホストするようにしてもよい。以下の説明は、説明の便宜のため、ノードとホームボックスが一対一の対応をしているものとする。

シミュレーションした時間内のどの点においても、シミュレーション体積内の各原子は、ホームボックスのうちの１つに存在する（すなわち、原子位置は、ホームボックスの体積内にある）。少なくともそのホームボックスのノードは、その原子の位置および速度情報を保存し、維持する役割を果たす。他のノードがその原子の位置および速度情報を有して信頼している限りにおいて、その情報は、その原子のホームボックスノードでの情報と同一（例えば、ｂｉｔｅｘａｃｔ）であることが保証される。シミュレーションは、一連の時間ステップ、例えば、各時間ステップが実時間のおよそフェムト秒の単位を表す時間ステップで進行する。

シミュレートされた各時間ステップにおいて、原子の間の原子間力は、物理学ベースのモデルを用いて計算される。これらの原子間力は、通常１～３個の共有結合で隔てられた原子の小さなグループの間の力をモデル化する結合項と、残りすべての原子ペアの間の非結合力と、で構成される。与えられた原子にかかる力が合計されて、その原子にかかる合計の力が求められ、その合計の力は、その原子の加速度を（ニュートンの第２法則により）直接決定し、それにより（時間積分により）原子位置と速度とを次の時間ステップで使用する値に更新するのに用いることができる。一部の計算を近似することなく、各時間ステップで計算される原子間力の数値は、原子の数に２次関数的に対応するので、システムのサイズが大きくなるにしたがい解決への時間が膨大に増えることになる。さらに加えて、安定した正確な積分にはほぼフェムト秒単位の時間ステップが要求されるため、１マイクロ秒の原子運動をシミュレートするには、約１０億時間ステップが必要となる。

そのようなシミュレーションを計算的に扱いやすくするには、非結合原子の間の力を、距離限定力と遠距離力との和として表す。距離限定力は、距離とともに急速に減衰し、カットオフ距離まで原子ペアの間で個別に計算される。遠距離力は、よりゆっくりと距離に応じて減衰し、格子点の規則的格子と原子との距離限定ペアワイズ相互作用、次いで格子上のたたみ込み、次いで格子点と原子との第２の距離限定ペアワイズ相互作用を用いて計算される。遠距離力の計算に対するアプローチのさらなる説明は、米国特許第７，５２６，４１５号、およびシャン、イービン（Ｓｈａｎ，Ｙｉｂｉｎｇ）、ジョン・Ｌ・クレピス（ＪｏｈｎＬ．Ｋｌｅｐｅｉｓ）、マイケル・Ｐ・イーストウッド（ＭｉｃｈａｅｌＰ．Ｅａｓｔｗｏｏｄ）、ロン・Ｏ・ドロア（ＲｏｎＯ．Ｄｒｏｒ）、ディヴィッド・Ｅ・ショー（ＤａｖｉｄＥ．Ｓｈａｗ）、「ＧａｕｓｓｉａｎｓｐｌｉｔＥｗａｌｄ：分子シミュレーションのための高速エヴァルトメッシュ法（ＡｆａｓｔＥｗａｌｄｍｅｓｈｍｅｔｈｏｄｆｏｒｍｏｌｅｃｕｌａｒｓｉｍｕｌａｔｉｏｎ）」、ＴｈｅＪｏｕｒｎａｌｏｆＣｈｅｍｉｃａｌＰｈｙｓｉｃｓｐ１２２，ｎｏ．５（２００５）：０５４１０１．に記載されている。

各原子への力の総和は、一般に、多数の異なるノードで計算される任意の特定の原子に対する合力を決定するための総和の項、および／または１つのノードおよび／または異なるモジュール（例えば、1つのタイルにおけるＰＰＩＭｓ）における異なるタイルで計算される、分散ハードウェア削減として実現される。各ノードでは、異なる型の力（例えば、結合力、距離限定力、および遠距離力）は、一般に、ノードで異なる型のハードウェアモジュールにおいて計算される。並列処理は、各ノード内の異なるノード１２０および異なるモジュール（例えば、異なるコアタイル１２４および／またはタイル内の異なるモジュール）で力計算を実行することによって行われる。さらに以下に説明するように、計算対通信のトレードオフは、パイプライン計算（例えば、「ストリーミング」）によって、シミュレーション時間全体（すなわち、定められたシミュレーション時間に対する実際の計算時間）を削減するように選択され、特定の力計算に必要な情報を１つのノードと通信し、その結果を引き換えに分配して総計算量を削減すし、および／または結果を返す待ち時間を削減するために多数のノードで同じ力の冗長計算を用いる。

各時間ステップは、一般に、システムのノード１２０および通信リンク１１０の間に分配された通信および計算を重複させることを含む。少なくともいくつかの実施形態では、時間ステップの開始時に、少なくともいくつかの計算が、例えば、ペアの原子の両方が同じホームボックス内に、したがって同じノードに位置する原子のペア間の相互作用に基づき、計算ノードで開始されてもよい。時間ステップの開始時にはまた、原子についての情報（例えば、原子の位置）が、近くのノードへ（例えば、エクスポートされた原子のカットオフ半径内に原子を持つ可能性のあるノードへ）、その情報が保存されている（でなければ知られている）ノードから伝達される（例えば「エクスポート」される）。原子についての情報が他のノードに到着した（それらのノートへ／により「インポート」されると称す）際、さらなる計算が開始され、異なるホームボックス内の原子間の相互作用（例えば、力の項）が決定されてもよい。位置が異なるホームボックスにある原子間の計算が行われると、その結果（例えば、力の項）が、原子情報をそこからインポートしたノードに送り返されてもよい。なお、計算は通信と重りあって行われてもよく、それにより、位置情報のインポートは、あるノードで、先にインポートされた原子の力情報のエクスポートと同時にインポートされた原子との相互作用の計算と同時に行われてもよい。結合力および距離限定力の計算と並行して、例えば、上述のグリッドベースアプローチを用いて、遠距離力が計算される。各原子は、その原子にかかる全ての力項が、あるノード（例えば、時間ステップの開始時にその原子が位置していたホームボックス内のノード）でわかると、その原子について合計力が計算され、その位置が更新されてもよい。システム全体中の原子のすべての位置が更新されると、時間ステップを終了し、次の時間ステップを開始することができる。

また、少なくともいくつかの実施形態において、計算需要を低減するため、近似が随意に用いられる。例えば、ある種類の力は他の種類の力よりも低い頻度で更新され、例えば、遠距離力は第２または第３のシミュレーション時間ステップごとにだけ計算される。加えて、加えて、水素原子の最速運動を除去するため、厳密な制約が任意に用いられてもよい。それにより２．５フェムト秒までの時間ステップが与えられる。任意に、水素原子の質量を人工的に増加させ、時間ステップを４～５フェムト秒まで長く与えることができる。

各時間ステップで原子あたり約１０^４回の数値演算が必要であり、これは、これらの最適化と近似とを組み合わせても、１００万個の原子のシステム上のシミュレーション時間１マイクロ秒あたり約１０^１８回の演算に置き換えられるものである。この計算強度は、部分的には、以下に説明する１つ以上の技術を用いることにより対処されるが、特段の言及がない限り、その技術のいずれもシステムの動作に必須なものではない。

２ペアワイズ計算
上述したように、計算手順の一部は、互いにカットオフ半径内にある原子のペア間の非結合相互作用（すなわち、距離限定相互作用）の効果の計算に関する。任意の１つの原子について、この計算は、すべてのこれらの非結合相互作用の合計（集合）力を定めるために、そのカットオフ半径内にある他の原子によって当該原子に加えられる力（すなわち、方向と大きさおよび／またはベクトル表現）を合計することを含む。

図５Ａ～Ｃに示すように、システムにおいて、２つの原子の間の相互作用を計算する方法には、少なくとも３つの方法がある。図５Ａに示すように、２つの原子Ｐ１およびP２（５３０）が同一のホームボックスＡ（５２０）内にある場合、原子Ｐ１およびP２の間の相互作用は、そのホームボックスのノードＡ（１２０）で計算され、Ｐ１にかかる合計力を計算するための力項と、Ｐ１との相互作用により生じるＰ２にかかる合計力（例えば、等しくそして反対向きの力）を計算するための力項とを得る。そのノードはすでに両方の原子のデータを持っているため、これらの項を計算するためのノード間通信は必要とされない。

図５Ｂに示すように、異なるホームボックス内にある２つの原子、例えば、ホームボックス（５２０）ＡおよびＢそれぞれの中の原子Ｐ１およびＰ３（５３０）の間の相互作用を計算する１つの方法では、Ｐ３の位置情報がノードＢからノードＡに伝達される。ノードＡは、ひとたび原子Ｐ１およびＰ３両方の情報を得ると、その２つの原子の間の相互作用を計算することができる。ノードＡは、Ｐ１にかかる合計力を集積するためＰ３によりＰ１に与えられる力を保持し、Ｐ３によりＰ１に与えられる力（「Ｐ１－Ｐ３」力と表記する）をノードＡからノードＢに送る。なお、１つのノードのみが、Ｐ１とＰ３との間の相互作用を計算し、ノードＡは、Ｐ１の位置情報をノードＢに送る必要が（少なくともＰ１－Ｐ３相互作用を計算する目的においては）ない。

図５Ｃに示すように、異なるホームボックスにある２つの原子、例えば、ホームボックスＡおよびＥそれぞれの中の原子Ｐ１およびＰ４（５３０）の間の相互作用を計算するための他の方法では、Ｐ１の位置情報は、ノードＡからノードＥへ伝達され、Ｐ４の位置情報はノードＥからノードＡへ伝達される。ノードＡは、Ｐ４－Ｐ１相互作用を計算し、ノードＥもＰ１－Ｐ４相互作用を計算する。ノードＡはその結果をＰ１にかかる合計力を集積するのに用い、ノードＥはその結果をＰ４にかかる合計力を集積するのに用いる。ノードＡがＰ１ーＰ４力項をノードＥに送る必要はなく、ノードＥがＰ４－Ｐ１力をノードＡに送る必要もない。なお、ホームボックスＡとＥとは、必ずしも隣接していないため、ノードＡとＥとの間の通信は間接的であり、例えば図示のように、他のノードＣを介する。

上記に示すように、例えば、図５Ｂおよび５Ｃに示すように、互いにカットオフ半径内にあるが同一のホームボックス内には位置していない原子間のペアワイズ相互作用を計算する１つのアプローチは、あるホームボックスのカットオフ半径内にあるすべての原子のデータを、そのノードのホームボックスにインポートすることである。なお、どの原子をインポートすべきか（または逆に、どの原子をそれらのホームボックスのノードからエクスポートすべきか）の決定は、原子がそこからインポートされなければならない領域の仕様に基づいて行うことができるこの領域は、インポートするノードのホームボックス内の原子の特定の位置や、インポート領域にインポートされる原子の特定の位置には関係なく、インポート領域がすべての原子をインポートすることが保証されるよう、保存的な（つまり、最悪条件）方法で定義することができる。そのため、あるノードのインポート領域は、カットオフ半径とホームボックスおよびその近傍のホームボックスの幾何学量に基づくことができ、一般に、シミュレーション体積内の原子の特定の位置を考慮することなく、シミュレーションの開始に先立って定められる。この例で用いられるインポート領域は、「フルシェル」インポート領域と称することができる。

この例において、あるノードのホームボックス内にすでに存在する２つの原子は、それらの相互作用が、図５Ａに示されるように、当該ノードで計算されるのであるが、そのノードは、異なるホームボックスからの原子の間の相互作用を計算するのに図５Ｃに示されるアプローチを用いるかあるいは図５Ｂに示されるアプローチを用いるかの判定に、ハイブリッドアプローチを適用する。図５Ｂのアプローチを用いる相互作用について、各原子のホームボックスのノードは相互作用を計算するのに十分な情報を持っているが、どちらのノードも、いずれのノードが相互作用を計算するかを決定するのに同一のルールを用いる。

特定の原子のペアの２つのノードのうちいずれが相互作用を計算すべきかを決定するルールの一例は、以下では「マンハッタン距離」ルールと称する。このルールは、以下のようなものであってもよい。２つの原子の間の相互作用は、２つの原子のうちで他方のノードのホームボックスの最も近い角までのマンハッタン距離（ｘ、ｙ、およびｚ距離成分の合計）が大きい方のノード上で計算される。図５Ｂに示す例では、原子Ｐ１はホームボックスＢの最も近い角までのマンハッタン距離が、原子Ｐ２のホームボックスＡの最も近い角までのマンハッタン距離よりも大きく、したがって、ノードＡはＰ１とＰ２の間の相互作用を計算し、ノードＢは相互作用を計算しない（または何らかの理由でそれを計算する場合は、少なくともそのような計算の結果を二重にカウントしない）。なお、マンハッタン距離ルールは、例えば図５ＣにおけるノードＡとＢとの間の選択を行うための、計算効率の良い分散ルールの１つに過ぎず、さらに他のルールを使用できることを認識すべきである。

２つの原子の間の相互作用の計算が２つのノードで計算されるという図５Ｃに示されるアプローチを用いるか、計算が１つのノードで実行されてその結果が他のノードに返されるという図５Ｂに示されるアプローチを用いるかの決定は、一般に、待ち時間の条件に基づいて行われる。例えば、１つのノードのみで相互作用を計算することで計算の総量は減らせるかもしれないが、それは計算の結果を他のノードに返すという通信コストを招く。このコストは総ノード間ネットワークトラフィックに影響するが、おそらくより重要なのは、待ち時間が発生することである。このような待ち時間は、２つのノードの間のパスに多数の「ホップ」がある場合、かなり大きくなりうる。

マンハッタン距離ルール（図５Ｂ）を適用するか図５Ｃに示すアプローチ（「フルシェル」ルールと呼ばれることもある）を適用するかをノードが決定するアプローチの１つは、ノード間のネットワーク近接性に基づく。特定のノードに対して、そのノードのインポート領域内の原子を提供するノードは、近隣接と遠隣接とに分けられる。一例において、あるノードの近隣接とは、直接的なノード間接続（例えば、図１のリンク１１０）を有するノードをいい、遠隣接とは、間接的（すなわち、多数のホップ接続（例えば、多数のリンク１１０を介した））な接続を有するノードをいう。近接性に基づく決定の例は、近隣接からインポートされたすべての原子にマンハッタン距離ルールを適用し、遠隣接からインポートされた原子にはフルシェルルールを適用するものである。近隣接および遠隣接ノードの決定は、例えば、計算やネットワークトラフィックや通信待ち時間の間で異なるトレードオフを得るため、異なる方法でなされてもよく、例えば、近隣接ノードを互いに１ホップ以内であると定義し、遠隣接ノードはそれらが互いに２ホップ以上であるなら遠方隣接ノードであると定義するなどしてもよい。また、少なくともいくつかの例においては、すべての隣接ノードが近隣接または遠隣接と判定されてもよい。一般に、近隣接と遠隣接の定義はすべてのノードで同一であるが、例えば、そのノードに近接する原子の期待数などを考慮し、ノードごとに異なる定義とすることも可能である。

したがって、一例として、ハイブリッドアプローチにおいて、あるノードに適用される方法は、以下のとおりである。

（ａ）２つの原子が同一のホームボックス内にある場合、それら２つの原子間の相互作用はそのホームボックスのノードで計算され、その計算によって、２つの原子各々の合計力に集約される、それぞれの力が得られる。

（ｂ）２つの原子が異なるホームボックス内にあり、それらのホームボックスのノードの間に直接通信リンクがある場合、その２つの原子の間の相互作用は、２つの原子のうち、他方のノードのホームボックスの最も近い角までのマンハッタン距離（ｘ、ｙ、およびｚ距離成分の合計）がより大きい方のノードで計算され、計算が行われないノードの原子のデータ（例えば、位置データ）は、そのノードのデータを維持しているノードから送られ、その原子にかかる力は、それを集約するノードに返される。

（ｃ）２つの原子が直接リンクされていない異なるホームボックスにある場合、その相互作用は２つのホームボックスの各々において、時間ステップの開始時に各原子のデータを交換することにより計算されるが、両方のノードで同じ結果の冗長計算になるため、計算された力を返す必要はない。

３特殊ペアワイズ計算
上述したように、所定のノード１２０は、例えば上記で示したハイブリッドルールによって、計算のために割り当てられたすべてのペアワイズ相互作用に必要なすべてのデータを有するよう、近傍ノードから原子のデータを受信する。また、上述したように、ノードに対するインポート領域が保存的に定義されていることにより、一般的に、２つの原子がカットオフ半径よりも離れているかどうかに関わらず、ノードで計算可能な原子の少なくともいくつかのペアが存在する。

一般に、ノードのホームボックス内の各原子について、ノードはカットオフ半径を超える他の原子（すなわち、インポートされた原子）とのペアワイズ計算を除外する。カットオフ半径の範囲内にある原子のペアに対して、ノードは、例えば上述のハイブリッドルールにより、計算をそのノードに割り当てるか否かを判定する。

各シミュレーション時間ステップの間、後述のノード内通信プロセスにおいて、第１セットの各原子が（通常全てのものより少ない）ＰＰＩＭｓのサブセットに保存されるとともに、第１セットの原子に対するデータがノードのＰＰＩＭｓ１３２に保存される。そして、第２セットの原子のデータがＰＰＩＭｓにストリーミングされる。この通信プロセスにより、潜在的に相互作用する原子、つまり第１セットからの１つの原子および第２セットからの１つの原子、各ペアが、きっちり１つのＰＰＩＭで計算のため考慮されることが保証される。いくつかの例においては、原子の第１セットは、ノードのホームボックス内の原子からなり、原子の第２セットは、ノードのホームボックス内の原子ならびにインポート領域からインポートされた原子からなる。より一般的には、何が第１セットおよび第２セットを構成するかの決定は、第１セットのある原子と第２セットのある原子との間の相互作用のすべてのペアが、ノードのきっちり１個のＰＰＩＭで考慮されるようにするものである。

図６に示すように、特定のＰＰＩＭ１３２（すなわち、多数のＰＰＩＭｓのうちの１つである、図６に示すＰＰＩＭ）に割り当てられた第１セットの原子は、マッチユニット６１０内に保存される（あるいは、マッチユニット６１０に接続されたメモリから取得可能である）。いくつかの実施形態では、マッチユニット６１０は、多数の別個のマッチユニット、例えば、９６個のそのようなユニットの並列配置として実現される。１つ又は並列マッチユニットの実現は、第２セットの原子のデータを受信し、カットオフ半径よりもさらに離れていることが保証されているようなペアを更なる考慮から除外しながら、更なる考慮のため、その原子と第１セットの原子とのマッチしたペアを形成することである。一般に、原子のマッチしたペアの少なくともいくつかは、カットオフ半径よりも大きく離れている。マッチユニット６１０は、間隔の厳密な計算よりも必要とされる演算の回数が少ない計算に従って、第２セットの到来する原子を第１のセットの各保存された原子とマッチングさせることによって保存的な決定を行うので、「レベル１（Ｌ１）」マッチユニットと称される。このような削減演算計算の一例は、第２の原子が第１セットの原子の位置を中心とする多面体内にあるか否かの判定である。この多面体は、カットオフ半径の球を完全に含むように選択され（すなわち、カットオフ半径に、またはカットオフ半径よりも互いに近い位置にある原子のいかなるセットも除外しないことが保証される）ため、どの原子のペアも間違って除外されることはないが、一般に、マッチしたセットがいく分か過度に存在することになる。第２セットの原子が多面体内にあるか否かの計算は、原子間の真の距離を正確に計算するために必要な３次元の原子間の二乗距離を合計するよりも少ない計算で済む。多面体の例は、下記の不等式で定義される：数１、数２、数３および数４。なお、これらの不等式のチェックは乗算を必要とせず、任意に低精度演算比較回路を用いてもよく、さらに他の低複雑度マッチング計算を用いてもよい（例えば、小さな多面体体積を作成するためのさらなる不等式を追加する等）。

マッチユニット６１０により保持された原子のペアのそれぞれは（すなわち、多面体を定義するすべての不等式を通過したので）、「レベル２（Ｌ２）」マッチユニットと称するマッチユニット６２０のセットのうち１つに渡される。ペアが渡される特定のＬ２マッチユニットは、負荷分散アプローチ（例えば、ラウンドロビン）に基づいて選択される。この例では、これらのＬ２マッチユニットの各々は、以下の３つの判定を行う。まず、高精度の原子間距離または二乗距離（例えば、ｄ＝（Δｘ）^２＋（Δｙ）^２＋（Δｚ）^２）を計算し、次に、（ａ）計算された距離がカットオフ半径よりも大きいことを判定する（すなわち、Ｌ１マッチユニット６１０が近似境界多面体に基づいてマッチするペアを見つける）、（ｂ）原子のペアが離れている距離が中間距離とカットオフ半径との間の距離であることを判定する、そして（ｃ）原子が離れている距離が中間距離未満であることを判定する。いくつかの例では、カットオフ半径は８オングストロームであってもよく、中間距離は５オングストロームであってもよい。

あるペアの原子間の距離がカットオフ半径より大きいと判定された場合、その原子のペアは、Ｌ２マッチユニット６２０によって破棄される。その距離が中間距離とカットオフ半径との間であると判定された場合、そのペアは、Ｌ２マッチユニットからマルチプレクサ６２２を介して「小型」粒子－粒子相互作用パイプライン（ＰＰＩＰ）６３０に渡される。その距離が中間距離より小さいと判定された場合、そのペアは、Ｌ２マッチユニットからマルチプレクサ６２４を介して「大型」ＰＰＩＰ６２４に渡される。ＰＰＩＰｓ６３０、６２４が原子の力項を計算すると、これらの力はＰＰＩＭから引き出される。

「小型」ＰＰＩＰ６３０と「大型」ＰＰＩＰ６２４との間には、１つ以上の相違点があってもよい。利用され得る１つの相違点は、小型ＰＰＩＰ６３０によって処理されるペアの原子の間の距離は少なくとも中間距離であるため、力の大きさが一般に原子同士がより近い場合よりも小さくなることである。したがって、小型ＰＰＩＰのハードウェア演算ユニットは、ある大きさを超える結果を収容する必要がないことにより、用いるビットがより少なくてすみ、その結果、論理ゲートの数がより少なくてすむ。例えば、乗算器はビット数の２乗（ｗ^２）としてスケールし、加算器は超線形的に（ｗｌｏｇｗ）をスケールする。例えば、大型ＰＰＩＰｓは２３ビットのデータパスを提供し、小型ＰＰＩＰｓは１４ビットのデータパスを有していてもよい。いくつかの実施形態では、例えば、力の計算の形式を単純化することによって、または得られた力の表示の精度を下げる（例えば、最下位ビットを除去する）ことによって、ハードウェアの複雑性の抑制が用いられてもよい。

反対に、大型ＰＰＩＰ６２４は、近傍の原子間の力の潜在的な大きさを表すためにより多くのビットを必要とする、近傍の原子間の相互作用の計算に対応する。いくつかの実施形態では、力の計算の形式は、例えば、原子が互いに非常に近接している場合でも精度を提供するために、より複雑で計算強度が高くでもよい。

中間半径の選択は、大型ＰＰＩＰと小型ＰＰＩＰとの間で負荷を分散するため負荷分散を考慮したり、またはＰＰＩＰｓの計算能力に基づくなど、様々な考慮事項に基づいて行ったりしてもよい。カットオフ半径の球の体積と中間半径の球の体積との８：５の比率に基づき、小型ＰＰＩＰｓ対大型ＰＰＩＰｓによって考慮されると予測される相互作用の数は約３：１であり、それは、１つのＰＰＩＭ１３２あたり３つの小型ＰＰＩＰ６３０と１つの大型ＰＰＩＰ６２４を実装する動機となる。ハードウェア実装においては、３つの小型ＰＰＩＰｓは、１つの大型ＰＰＩＰｓとほぼ同じ回路面積および／または同じ電力を使う。

いくつかの代替策では、マッチした原子のペアを大型ＰＰＩＰと小型ＰＰＩＰのいずれにルーティングするかという決定が、加えて、またはその代わりに、２つの原子間の相互作用の性質に基づいてもよい。例えば、Ｌ２マッチユニットは、原子のペアの特性に基づいて、その間隔が中間半径より大きい場合でも大型ＰＰＩＰが必要であると判定してもよい。

ＰＰＩＭに到着した第２セットの原子のＰＰＩＭ内での経路（すなわち、小型ＰＰＩＰまたは大型ＰＰＩＰのいずれを経由したか）にかかわらず、粒子用バス１５１であり、力計算の結果は、ＰＰＩＭからフォースバス１５２を介して放出される。

４粒子相互作用テーブル
上述したように、原子は、それらの位置や速度などの変化する（すなわち「動的な」）情報を持っており、それらは、異なる原子からそれらに加えられる力に基づいてシミュレーション時間ステップで更新される。原子はまた、シミュレーション期間中に変化しない静的な情報も持っている。この静的情報をノードの動的情報と一緒にノード間で受け渡すのではなく、ノード間で受け渡される原子のデータは、メタデータ、例えば、送信される動的情報ともなう、一意の識別子や原子の型（「atype」と称する）等を含む。ａｔｙｐｅフィールドは、例えば、ＰＰＩＭ内のある原子の電荷を検索するために用いることができる。同じ原子種でも、分子内の共有結合に基づき、異なるａｔｙｐｅを用いることができる。

２つの原子を、例えば、Ｌ１マッチユニット６１０でマッチングした後、２つの原子間の相互作用を計算する前に、間接的なテーブル検索を用いて相互作用の型を判定する。例えば、Ｌ１マッチユニット、またはＬ２マッチユニットは、各原子のａｔｙｐｅを判定し、各原子について別々に、例えばテーブル検索に基づいて、その原子の拡張識別子を判定する。そして、拡張識別子のペアは、（例えば、Ｌ１またはＬ２マッチユニット内に存在するか、またはＬ１またはＬ２マッチユニットにアクセス可能な）連想メモリにアクセスするのに用いられるインデックスの一部として一緒にされ、２つの原子間の相互作用をどうやって計算するかを決定するインデックスレコードを得る。例えば、列挙された計算関数のセットのうちの１つ（例えば、関数形）が、インデックスレコードのフィールド内で特定される。そして、関数形の識別子は、２つの原子が大型または小型ＰＰＩＰに渡されるときのそれらのメタデータに付随される。いくつかの例では、例えば、ある関数形は大型ＰＰＩＰで計算されうるが小型ＰＰＩＰでは計算されない場合、関数形によって、どのタイプのＰＰＩＰにマッチしたペアがルーティングされるかを決定されてもよい。

５通信の圧縮
上述のように、各シミュレーション時間ステップで、ノードは、すべてのノードがそれらのそれぞれのインポート領域内のすべての原子を受け取るように、そのエクスポート領域内の近傍のノードに原子位置情報をエクスポートする。なお、上記の例では、あるノードのエクスポート領域は、そのノードのインポート領域と同じである。

一般に、シミュレーションにおける原子位置は、時間とともにゆっくりと滑らかに変化し、データ圧縮の機会を与える。そのため、ノードが連続するシミュレーション時間ステップで原子位置情報を送る場合、一般に、その位置は時間ステップにつれてほとんど変化しない。様々な形でのデータの量（つまり、通信されるのに必要なビット数）の圧縮により、通信要件が軽減され、それによりノード間で原子情報を転送するのに必要な時間が短縮される。

圧縮に対する１つのアプローチは、受信ノードがそのインポート領域内のノードから受け取った一部またはすべての原子の以前の位置（より一般的には、多数の以前の位置の履歴）のキャッシュを維持することにより可能になる。送信ノードは、受信ノードがどの原子のキャッシュ情報を持つことが保証されているかを知っており、受信ノードでのキャッシュ情報は、受信ノードと送信ノードとの両方で正確に知られている。したがって、ノードＡがノードＢにある原子の位置情報を送信する（つまり「エクスポートする」）ときに、仮に、ノードＢが当該原子のキャッシュ情報を持っていないことをノードＡが知っている（あるいは少なくともそのようなキャッシュ情報を持っていることが明らかでない）場合、ノードＡは完全な情報を送信する。ノードＢが当該原子の位置情報を受信すると、後続のシミュレーション時間ステップで使用するための位置情報をノードＢはキャッシュする。一方、ノードＢがその原子のキャッシュ情報を持っていることをノードＡが知っている場合、新しい位置とその原子のキャッシュ情報との関数である圧縮情報がノードＢからノードＡへ送られてもよい。例えば、現在位置を送信する代わりに、ノードＡは、以前の位置と現在位置との差を計算し、その差を送信してもよい。受信ノードＢはその差を受信し、受信ノードＢで用いられる新しい位置を得るため、その差を以前の位置に加算する。さらに後述するように、一般的に、その差の大きさは、ノードＢのホームボックス内の絶対位置よりも実質的に小さく、そのため、その差を通信するために必要なビット数は（平均で）少なくなるかも知れない。例えば、単純にある原子の先行位置をキャッシュするよりも、他の圧縮も可能である。例えば、ある原子の先行位置が２つあれば、ノードは原子の速度を近似し、先行位置から予測を行い、そして予測と実際の位置との差を計算できる。そのような予測は、原子の位置の線形予測（外挿）であるとみなされうる。この差は、一般的に、平均で、以前の位置からの差よりも大きさが小さいことがある。送信ノードと受信ノードの両方が同じ予測関数を用い、両方のノードが、予測を行うための、同じ先行位置の記録（または先行位置から推測される他の要約／状態）を持っている限り、さまざまな別の予測関数を用いてもよい。例えば、３つの先行位置があれば、原子の位置の二次外挿が用いられてもよい。

受信ノードにおいてどの原子がキャッシュされているかを送信ノードが知る方法は、数多くある。１つの方法は、ノードが１つの時間ステップで位置情報を送信する場合、受信ノードが次の時間ステップでそのノードのキャッシュ情報を持っていることを保証できるように、各ノードに十分なメモリを提供することである。他の方法としては、送信ノードと受信ノードの両方が同一の方法でキャッシュとキャッシュ排出の決定を行うことであり、例えば、各ノードが互いのノードに対して固定された数のキャッシュ場所を持ち、その場所がすべての原子をキャッシュするのに十分でないときにはどの原子を排出するかまたはキャッシュしないかのルールを持つ。さらに他の方法としては、ノードは、例えば、原子のホームボックスノードに送り返される力情報とともに、原子がキャッシュされているか否かに関する明示的な情報を送信ノードに送り返すこともできる。さらに他の選択肢としては、ノード間ネットワークを介してより多くの「ホップ」を必要とする原子をキャッシュすることが優先され、それにより全体的なネットワークの使用量が減らされることも可能である。

あるノードでキャッシュ情報を維持する回路位置の別の例は、数多くある。１つの代替例では、キャッシュ情報はノードのエッジ、キャッシュ情報はノードのエッジ、例えば、エッジネットワークタイル１２２（例えば、図４参照）に維持される。例えば、キャッシュ情報は、チャネルアダプタ１１５に保持されてもよい。特定の原子が（例えば、タイムステップごとのルーティングの違いにより）異なるタイムステップで異なるリンク１１０を通して到着する例では、キャッシュ情報は、共有メモリを通じて、またはチャネルアダプタへの複製によって、多数のチャネルアダプタ１１５にアクセス可能であってもよい。いくつかの代替例では、キャッシュ情報は、他の場所、例えば、ＰＰＩＭのマッチユニット内に保存され適用されてもよい。

ノードからノードへ送らされる位置情報の大きさを減らしたため、大きさが小さいことを利用する１つの方法は、情報の可変長エンコーディングを用いることである。例えば、大きさの先行ゼロは抑制されるか、ランレングスエンコーディングされる（例えば、小さな負の量と小さな正の量とが先行ゼロを有するように、符号ビットエンコーディングがともなわれる大きさを用いることにより）。先行ゼロの数は、先行ゼロバイトの数を示すインジケータと、後続の非ゼロバイトによって表されてもよい。いくつかの例においては、異なる原子に対する多数の差分がビットインターリーブされ、先行ゼロ部分の長さをエンコードする処理がインターリーブされた表記に適用される。その差分は似たような大きさになる傾向があるため、先行ゼロ部分の長さは、インターリーブされた表記を用いて、より効率的にエンコードされてもよい。

この圧縮技術の実験的評価では、完全な位置情報を送る場合と比べて、必要な通信容量は、約２分の１であった。通信遅延が各時間ステップのシミュレーションに要する時間に寄与する範囲において、そのような通信の総量を削減により、所定のシミュレーション期間をシミュレートするのに必要な実時間の総量を削減できる。さらに、いくつかの実験評価においては、通信要件の削減によって、シミュレーション速度の制限要因から通信が排除される。

６ネットワークフェンス
理解されるように、システムのノードでの分散計算は、ある程度の同期を必要とする。例えば、特定のシミュレーション時間ステップに対してノードで計算を実行する際、入力（つまり、原子位置）がその時間ステップの開始時に関連付けられたものであり、その結果がその時間ステップの終了時に原子位置を更新するため正しく適用されることが重要である。同期に対するための１つのアプローチは、ノード間ネットワークに組み込まれたハードウェア同期機能（「プリミティブ」）を利用する。以下に説明するこのようなプリミティブの１つを、「ネットワークフェンス」と称する。

ネットワークフェンスは、フェンスパケットとともに実現される。ノードＡから送信されたフェンスパケットをノードＢが受信したことで、そのフェンスパケット以前にノードＡから送信されたすべてのパケットがノードＢに到着したことがノードＢに通知される。フェンスパケットは、システムのノード間で送信される他のパケットと同様に扱われる。パケットマージおよびマルチキャストサポートを含むネットワーク機能は、フェンスパケットの送信に要する総通信要件（例えば、「帯域幅」）を低減させる。

各送信元コンポーネントは、そのフェンスパケットに先んじて宛先に到着させたいパケットを送信した後、フェンスパケットを送信する。そして、ネットワークフェンスは、そのフェンスパケットより先にすべての送信元コンポーネントから送信されたすべてのパケットを宛先コンポーネントが受信した後で、宛先コンポーネントがそのフェンスパケットを受信することを保証する。ネットワークフェンスの順序の保証は、送信元から宛先へ所定の経路（例えば、特定の次元のルーティング順序）に沿って送信されたパケットは、常に送信された順序で届けられるという基本的順序特性と、特定の送信元からのフェンスパケットは、その送信元からのパケットがそのネットワークフェンスに対するすべてのあり得る宛先に到達するために取り得るすべての可能な経路に沿ってマルチキャストされるという事実と、の上に築かれている。

ネットワークにおけるアドレス指定により、パケットをノード内の特定のモジュールまたはモジュール群にアドレス指定することが可能になる。例えば、あるパケットは、ノードのジオメトリコア１３４にアドレス指定され、他のパケットは、ノードのＩＣＭモジュール１５０にアドレス指定されてもよい。いくつかの例では、あるノードから送信されるフェンスパケットは、ジオメトリコア－ジオメトリコア（ＧＣ－ｔｏ－ＧＣ）またはジオメトリコア－ＩＣＢ（ＧＣ－ｔｏ－ＩＣＢ）等の送信元－宛先パターン、およびホップ数を含む。そして、フェンスの機能は、そのパターンにマッチしたパケットに特有である。ホップ数は、フェンスメッセージがネットワークを通じてどこまで遠くへ伝搬されるかを示す。例えば、ＩＣＢによるＧＣ－ｔｏ－ＩＣＢパターンのフェンスパケットの受信は、ノード間（すなわち、トーラス）ホップの指定された数のうちのすべてのＧＣｓから、このフェンスパケットのより前に送信されたすべての原子位置パケットをそれが受信したことを示す。これは、ノードが原子情報を受信するインポート領域が、インポート領域内の任意の送信元ノードから最大ノード間ホップ数を有するシミュレーションにおいてよく用いられるケースである。ネットワークホップの数を制限することで、ネットワークフェンスは、限られた同期領域に対する待ち時間の短縮を実現できる。なお、最大ホップ数内の各送信元がフェンスパケットを送信するため、受信ノードには、ネットワーク内のノードの固定相互接続に基づいて、受信すると予想されるフェンスパケットの数がわかる。

フェンスパケットの伝播の通信要件を制限するため、ノード間ネットワークの例は、以下に説明するマージ機能および／またはマルチキャスト機能を実現する。

フェンスパケットがノードの入力ポートに到着すると（すなわち、ノードのエッジルーター１４３に到着すると）、パケットを出力ポートに転送する代わりに、ノードはフェンスパケットをマージする。このマージは、フェンスカウンタを増分することで実現される。フェンスカウンタが予想される値に達すると、単一のフェンスパケットが各出力ポートに送信される。いくつかの例では、フェンスがマルチキャストされるべき出力ポートのセットを決定するのに、フェンス出力マスクが用いられる。この決定の１つの方法としては、入力ポートｉついて、そのルーター内でフェンスパケットが入力ポートｉから出力ポートｊまで移動する必要がある場合、その出力マスクのビットｊがセットされる。フェンスパケットが送出されると、カウンタはゼロにリセットされる。ルーターは、最後に到着するフェンスパケットを待つ間、フェンスパケットではないパケットを転送し続けることができるので、フェンスパケットの後に送信された通常のトラフィックは、フェンスパケットよりも先に宛先に到達できる（つまり、ネットワークフェンスは一方通行のバリアとして機能する）。

予測されるカウントとフェンス出力マスクは、フェンスパターンごとにソフトウェアによりあらかじめ設定されている。例えば、特定の入力ポートの例では、上流ノードからの２つの異なるパスからのフェンスパケットが予測されうる。マージにより各パスからは１つのフェンスパケットが到着するので、入力ポートは合計で２つのフェンスパケットを受信することになり、それにより予測されるカウントは２に設定される。フェンスカウンタ幅（ビット数）は、ルーターのポートの数によって制限される（例えば、６ポートのルーターでは３ビット）。この例におけるフェンス出力マスクは、フェンスパケットがマルチキャストされる先の２つの出力ポートに対して設定される２ビットを有する。

ノード間トーラスネットワークのルーティングのアルゴリズムは、６つのあり得る次元オーダーからのパスの多様性ならびに各接続された隣接者のための２つの物理チャンネルスライスを利用する。さらに、ノード間ネットワークにおけるネットワークのデッドロックを回避するため、多数の仮想回路（ＶＣｓ）が採用されるが、これは、パケットが移動できる有効なルートに沿って、すべてのあり得るＶＣｓにフェンスパケッが送信されなければならないことを意味する。ネットワークフェンスがチャネルを横切る際、チャネルアダプタ１１５によってすべての可能な要求クラスＶＣｓ上でフェンスパケットがエッジネットワーク１４４に投入される。いくつかのホップは、必ずしもこれらのＶＣｓのうちすべてを利用するとは限らないが、パケットがたどったホップの数に関わらず関係なく同一のＶＣのセットを用いることができるので、このルールにより、ネットワークフェンスがネットワーク全体にわたってすべての可能な経路をカバーすることが確保され、フェンスの実現が簡単になる。エッジルーター１４３内では、各ＶＣｓに個別のフェンスカウンタを用いなければならず、そして、同じＶＣからのフェンスパケットのみをマージすることができる。

上の説明は、ネットワーク内の単一ネットワークフェンスに限定されている。ルーター内により多くのフェンスカウンタを追加することにより、ネットワークは同時未処理ネットワークフェンスをサポートし、ソフトウェアに多数（例えば、最大１４）のフェンス動作を重複させることができるようになる。エッジルーターのフェンスカウンターアレイのサイズ要件を低減するため、ネットワークアダプターは、新しいネットワークフェンスの投入を制限することにより、エッジネットワーク内の同時ネットワークフェンスの数を制御する、フロー制御メカニズムを実装する。これらのフロー制御メカニズムにより、エッジルーターの入力ポートあたり９６個のフェンスカウンタを用いるだけで、ネットワークフェンスを実装できる。

ジオメトリコア－ジオメトリコア（ＧＣ－ｔｏ－ＧＣ）パターンのネットワークフェンスは、所定の数のトーラスホップ内のすべてのＧＣｓを同期させるバリアとして用いられる。一旦ＧＣがフェンスを受信すると、他のすべてのＧＣｓがそれを送信したことがわかる。ＧＣ－ＧＣネットワークフェンスのノード間ホップ数がマシン直径（すなわち、すべてのノードに到達するための３Ｄトーラスネットワーク上の最大ホップ数）に設定されている場合、それはグローバルバリアとしての挙動を示す。

７ノード内データ通信
シミュレーション時間ステップの開始時、あるノードの各コアタイル１２４は、そのノードのホームボックス内にある原子について、以前の時間ステップ中に計算された原子位置のサブセットをそのメモリに保存している。時間ステップの計算中、これらの位置は、そのノードのＰＰＩＭｓで必要であり、そのノードのエクスポート領域内のノードでもまた必要とされる。上述のように、ノードは、リンク１４２とコアルータ１４１とを有する２Ｄメッシュネットワークを備えている。原子の位置は、各列内のＰＰＩＭｓが時間ステップの開始時にその列のいずれかのコアタイルに保存されたすべての原子を有するように、２Ｄメッシュネットワークの列にわたってブロードキャストされる。同時に、各コアタイルは、２Ｄネットワークの行に沿って、ノードの同じ行の各エッジ上のエッジタイル１２２に原子位置を送信する。エッジタイルは、それらの原子位置をノードのエクスポート領域の他のノードに転送する役割を果たす。

一旦すべてのＰＰＩＭｓが原子位置のコピーを持つと、一方のエッジから他方へポジションバス１５１を介して通過する他の原子は、ノードのホームボックス内の各原子に正確に１つのＰＰＩＭで遭遇することが保証され、上述のように、２つの原子が互いのカットオフ半径内にある場合に、マッチングされてもよい。したがって、ＰＰＩＭｓ内の原子間のペアワイズ相互作用の計算は、ノードにおいて開始されてもよい。

初期のＰＰＩＭ計算は、ノード特有な原子情報（すなわち、ノードのホームボックス内に両方とも存在する原子間の相互作用）のみを必要とし、各コアタイルが原子位置をポジションバス１５１を介してＰＰＩＭｓの列にわたってブロードキャストし、それにより、全てのノード特有な計算（例えば、図５Ａを参照）が実行される。その結果得られる力成分は、フォースバス１５２を通してブロードキャストされ、原子の情報が保存されているコア時間で回収される。

原子位置情報が他のノードからエッジタイルに到着すると、エッジタイルからコアタイルの列にわたって位置情報がストリーミングされ、それにより、インポートされる各原子がノードのホームボックス内の各原子に正確に１つのＰＰＩＭで遭遇する。これらの相互作用は、ノードが力の計算と蓄積を担う原子について、ＰＰＩＭに集積される力を生成し、および／または、相互作用のための位置情報を提供したノードに戻すため、フォースバス１５２を介して力をエッジタイルにストリーミングして戻す。ストリーミングが完了すると、ＰＰＩＭｓ内に蓄積された力は、コアタイルの列において通信され、原子の情報を保持するコアタイルに渡される。

同じノード上の他のコアタイルからか他のノードから返されたものかを問わず、コアタイルがすべての力項を受け取った後、コアタイルは、数値積分を実行するために合計の力を用いることができ、それにより各原子の位置を更新する。

上記の形態では、各列は１２個のコアタイルを有し、コアタイルあたりで２つのＰＰＩＭｓがあるので、各列あたりでは合計２４個のＰＰＩＭｓがあり、ノードのホームボックスには原子情報が２４倍複製される。この複製は、並列計算を提供するには有効であるが、別の案ではこの程度までの複製は必要とされない。例えば、完全な２４倍複製では、マッチングされるすべての原子が単一のポジションバス１５１上を通過し、ノードのホームボックス内のすべての原子と遭遇することが保証されるが、各原子を多数のポジションバスを通過させることで、より少ない複製も可能である。例えば、列のコアタイル上の複製がなく、コアタイルの原子をコアタイルの２つのＰＰＩＭｓ間で分割すると、各原子は、すべてのポジションバス１５１にわたって送信され、正確に１つのＰＰＩＭ内の各ホームボックス原子に遭遇することが保証される。中間レベルの複製が用いられてもよく、例えば、コアタイルをサブセットに分割し、各原子を各サブセットの１つのポジションバス上に送信して、すべてのホームボックス原子に遭遇するようにする。

さらに別の形態として、ホームボックスの原子のアクセスにページングアプローチを用いてもよい。このようなアプローチでは、ＩＣＢ１５０は、（例えば、異なるメモリ領域の「ページ」を用いて）保存された原子のセットをＰＰＩＭｓにロードおよびアンロードし、その後、各原子は、各セットについて１回、ＰＰＩＭｓを渡ってストリーミングされ得る。したがって、複数回ストリーミングされた後、原子は、ノードの各ホームボックスアトムにきっちり１回遭遇したことが保証される。各「ページ」の終わりに、ＰＰＩＭｓは、ホームボックスの原子に蓄積された力を流出させる。

８結合計算
図３を参照して上述したように、各コアタイルは、直接的に、あるいはいくつかの構成では間接的に、結合される原子の間の相互作用のためのタイルによって用いられる、結合計算モジュール（ＢＣ）１３３を含んでいる。すべての結合力がＢＣによって計算されるわけではない。むしろ、最も一般的で数値的に「行儀の良い」相互作用のみがＢＣで計算され、他のより複雑な結合計算は、ジオメトリコア１３４で計算される。なお、このことは、相互作用のサブセットを計算するために小型ＰＰＩＰｓを用い、より複雑な相互作用の定式化が必要な残りの相互作用を計算するために大型ＰＰＩＰを用いることにいくぶん類似している。

ＢＣは、伸縮、角度、ねじり力を含む力を判定する。各結合の種類ごとに、力は、結合に参加する原子の位置から計算されたスカラー内部座標（例えば、結合長や角度）の関数として計算される。タイルのＧＣ１３４（すなわち、タイルの２つのＧＣｓのうちの１つ）は、ある原子は複数の結合項に参画しているかも知れないので、これらの原子位置を小さなキャッシュに保存させるためにＢＣ１３３に送る。その後、ＧＣは、計算するべき結合項を指定するコマンドをＢＣへ送信し、その際、ＢＣは対応する原子位置をキャッシュから取得し、適切な内部座標を、またこのように結合力を計算する。得られた結合の各原子上の力は、ＢＣのローカルキャッシュに蓄積され、その原子のすべての結合項の計算が完了したときに、原子ごとに１回だけメモリに送り返される。

９指数差分
いくつかの実施例において、粒子間の相互作用は、指数関数の差という形、例えば、exp(－ax)－exp(－bx)という形、または電子雲分布の畳み込みを表す積分の評価としての形をとる。２つの指数を別々に計算し、その差を取ることは可能かもしれないが、そのような差は、数値的に不正確（例えば、非常に大きな数の差）であるかもしれない。好ましいアプローチは、この差の１つの級数表現を形成することである。例えば、その級数は、テイラー級数やガウス-ヤコビ求積法に基づく級数であってもよい。さらに、シミュレーション全体の精度を維持するのに必要な項の数は、一般に、ａｘとｂｘの値による。したがって、ペアワイズ項を計算する際（例えば、小型または大型ＰＰＩＰにおいて）、異なる特定の粒子のペア、ペアに対してインデックスレコードで取得される異なる情報、またはａｘとｂｘの値における差分に基づく異なる基準（例えば、絶対差、比、等）により、級数の項がどれだけ保持されるべきかを決定することができる。例えば、項の数を減らす（例えば、多数の粒子のペアに対し単一の項にする）ことにより、２つの値が近い場合、すべてのペアワイズ相互作用の計算全体を、全体の精度を維持しながら大幅に削減することができ、それにより、精度と性能との間（計算速度および／またはハードウェア要件）の制御可能なトレードオフを提供することができる。

１０分散ランダム化
いくつかの例においては、同一の値（例えば、原子にかかる力）が、例えば、通信コストを回避するため、異なるプロセッサで冗長に計算される。例えば、このような冗長計算が「フルシェル」法において発生する可能性がある（例えば、図５Ｃに示されるような相互作用において）。また、体系的に切り捨てたり四捨五入したりした結果がシミュレーション全体にとって、例えば、一連の反復にわたってバイアスを導入することにより、有害となるかもしれないような状況がある。例えば、繰り返し切り捨てを行うと、時間積分は著しく小さくなりすぎることがある。

連続した時間ステップでの丸め処理により生じる累積されたバイアスを回避するための１つのアプローチは、粒子のセットについて計算された値を丸めたり切り捨てたりする前に、小さなゼロ平均乱数を加えることである。そのようなアプローチは、「ディザリング」と称される。しかしながら、異なるプロセッサで冗長計算を行う場合、例えば、乱数発生の順序の違いなどのため、たとえ元のシードが同じであっても、異なるプロセッサで発生する疑似乱数が同じになる理由は必ずしもない。異なる乱数を用いると、丸められり切り捨てられた値が異なるかもしれず、そのシミュレーションがプロセッサ間で完全に同期（例えば、正確なビット表現での同期）しないこともある。

１つの好ましいアプローチは、まったく同じデータが粒子のセットの値を計算するすべてのノードで用いられる、データ依存乱数生成を用いることである。乱数値を生成する方法の１つは、計算に関わる粒子の間の座標差を、丸めたり切り捨てたりする前に加えられるべき乱数値（複数の乱数値でありうる）を生成するための乱数シードとして用いることである。いくつかの実施形態においては、３つの幾何学的座標方向のそれぞれにおける絶対差の低次ビットが、その出力が乱数値として用いられるかまたは1つ以上の乱数を生成する擬似乱数生成器の乱数シードとして用いられるハッシュ関数への入力として、保持され、組み合わせられる。粒子のセットに関わる多数の計算がある場合、異なる乱数を生成するのに同じハッシュが用いられ、計算結果に加算される。例えば、１つの乱数をいくつかに分割したり、同じシードから乱数列を生成するのに乱数発生器を用いたりする。座標距離の値はすべてのプロセッサでまったく同じであるため、ハッシュ値は同じになり、したがって、乱数も同じになる。粒子間の距離は、絶対位置よりも好ましい可能性があり、なぜなら、距離は、平行移動およびトロイダルラッピングに対し不変であるのに対し、絶対位置はそうでないかもしれないからである。座標方向における差の計算は、丸め誤差が生じさせないため、ユークリッド（スカラー）距離よりも好ましい場合がある。

１１まとめ
多数の異なる技術を上に説明し、例えば、上の異なる番号のセクションに説明した。特に説明しない限り、これらの技術は、革新的シミュレーションシステムおよび計算アプローチの特定の実施例に含めるために個別に選択されればよく、説明から明らかでない限り、特定の技術が必須ではない。さらに、これらの技術は、上記で特定された本出願人の先行特許に記載の関連技術と独立または関連して用いることができる。

上述のように、上記の詳細な説明は、その運動がシミュレートされる粒子が原子である分子シミュレーションの技術的問題に焦点を当てているが、その技術は、同様に惑星のシミュレーションのような他の多体（「N-Body（N体）」）シミュレーション問題にも適用可能である。また、上述のいくつかの技術は、多体シミュレーションを超える技術問題の解決にも適用可能である。例えば、一組の計算を精度および／または複雑性が異なるモジュール間（例えば、小型ＰＰＩＭと大型ＰＰＩＭの間、又はＢＣモジュールとＧＣモジュールの間）で分割するアプローチは、他の特殊用途において回路面積および／または消費電力の抑制が可能な回路設計技術である。ネットワークフェンスは、データ通信の順序付けや同期ポイントを表すネットワーク内プリミティブを提供するもので、多体シミュレーション問題以外にも、例えば、広範な分散計算システムにも広く適用可能であり、その結果、計算ノードにおける同期の複雑性を低減することができる。異なる計算ノードで擬似ランダム値の正確な同期を提供するためにデータ依存ランダム化を用いる技術は、このような同期によりアルゴリズム上の利益が得られる分散計算システムにも広範囲に適用可能である。

上述のような分子シミュレーションは、例えば、分子の予測特性を決定するためにシミュレーションが用いられ、シミュレーションされた分子のいくつかが物理的に合成され、さらに評価されるような、創薬のような全体的な技術的問題において１つのステップを提供することができるということが広く理解されるべきである。したがって、シミュレーションの後、所望の特性を有する物理的分子または分子系を同定するための実用的応用の一部として、少なくともいくつかの分子または分子系を合成および／または物理的に評価することができる。

本発明の多数の実施形態について説明した。しかしながら、前述の説明は、例示を意図しており、以下の特許請求の範囲によって定義される本発明の範囲を限定することを意図していないことが理解されるべきである。従って、他の実施形態もまた、以下の特許請求の範囲に含まれる。例えば、本発明の範囲から逸脱することなく、様々な変更を行うことができる。さらに、上述した工程のいくつかは順序に依存しない場合があり、従って、説明した順序とは異なる順序で実行することができる。

Claims

計算ノードと、前記計算ノードを接続する通信リンクと、を含む装置であって、
原子の各ペアに対して、前記原子を相互作用させることに関与する１つ以上の計算ノードのセットが存在し、
１つ以上の計算ノードのセットの各選択に対し、前記相互作用を行うことから発生する計算負荷および計算ノード間の通信から発生する通信負荷が存在し、
原子の各ペアに対して、前記原子を相互作用させるために選択される集積回路は、前記通信負荷および前記計算負荷を占める集約コストを最小化するものである、装置。
前記ノードは、前記原子のペアのうちいずれの原子についての情報も保存しないものである、請求項１に記載の装置。
前記１つ以上のノードのセットは、前記原子のペアのうち最大で１つの原子に関する情報を保存するノードを含む、請求項１に記載の装置。
前記１つ以上のノードのセットは、マンハッタン法（ＭａｎｈａｔｔａｎＭｅｔｈｏｄ）にともなう加算されたネットワーキングコストとフルシェル（Ｆｕｌｌ－ｓｈｅｌｌ）法にともなう高い計算コストとを評価することにより選択される、請求項１に記載の装置。
ネットワークリンクによってノードを備えたトロイダルネットワークに接続された集積回路を用いた、前記ノードはその各々が前記集積回路のうちの１つである、分子シミュレーションのための装置であって、
前記集積回路の各々は、化学系における原子の間の力を推定するよう構成されたコアタイルと、前記コアタイルを互いに接続するメッシュネットワークと、前記メッシュネットワークを用いてコアタイル間の運動通信を管理するエッジタイルと、を含み、
前記エッジタイルは他の集積回路との通信を管理するために前記ネットワークリンクに接続されており、前記装置は、前記コアタイルの各々に、ストリーミング原子を表す情報のストリームを受信するとともに保存された原子を表す情報を保存する相互作用回路を含み、
前記相互作用回路は、第１相互作用モジュールと、第２相互作用モジュールと、マッチング回路と、を含み、
前記第１および第２相互作用モジュールは、前記第１相互作用モジュールが前記第２相互作用モジュールよりも複雑な計算を行うように計算の複雑性が異なっており、
前記マッチング回路は、原子のペアの原子間距離を比較し、前記原子間距離が閾値未満のとき、前記第１相互作用モジュールを用いて前記原子の間の力を推定し、それ以外では前記第２相互作用モジュールを用いるように構成されている、
装置。
前記第２相互作用モジュールは、複数の同一の第２相互作用モジュールのうちの１つである、請求項５に記載の装置。
前記第２相互作用モジュールは、３つの第２相互作用モジュールのうちの１つであり、各第１相互作用モジュールに対して３つの第２相互作用モジュールがある、請求項５に記載の装置。
前記第２相互作用モジュールは、所定数の第２相互作用モジュールのうちの１つであり、その数は、前記閾値が現象するについて増加するルールにより決定される、請求項５に記載の装置。
前記第１相互作用モジュールは、静電効果と量子効果の両方に基づき前記力を推定するように構成されており、前記第２相互作用モジュールは、前記力を推定するとき前記量子効果を無視するように構成されている、請求項５に記載の装置。
前記第１相互作用モジュールは、前記集積回路上で前記第２相互作用モジュールよりも多くの面積を占める、請求項５に記載の装置。
前記第１相互作用モジュールは、相互作用計算あたりで前記第２相互作用モジュールよりも多くのエネルギーを消費する、請求項５に記載の装置。
前記マッチング回路は、第１段と第２段とを備え、両者は、前記閾値を、原子のペア内の原子の間の原子間距離と比較し、
前記第２段は、前記第１段よりも正確な原子間距離の判定を実行し、
前記第１段は、前記閾値を、原子の複数のペアのセット内の原子の間の原子間距離と比較した後、前記複数のペアを前記第２段に転送し、そして前記第２段が前記第１段よりも正確に前記原子間距離を判定する、請求項５に記載の装置。
前記マッチング回路は、前記閾値を、原子のペアのセット内の原子の間の原子間距離と比較することによって第１の量のエネルギーを消費し、
前記セットを、第１のサブセットと第２のサブセットとに分割し、前記第１のサブセット内のペアを破棄し、
前記閾値と、前記第２のサブセット内の原子の間の原子間距離との間での第２の比較を実行するため前記第２のサブセット内の前記ペアを転送するように構成され、前記第２の比較は、前記第１の比較よりも多くのエネルギーを消費する、請求項５に記載の装置。
各原子は、前記原子の特性に基づくタイプインデックスで類型化され、
前記集積回路は、第１および第２情報を記憶する第１および第２領域を含み、
前記第１情報は、相互作用インデックスを前記タイプインデックスに関連付け、前記第２領域は、力推定法を前記相互作用インデックスに関連付ける、請求項５に記載の装置。
各原子は、前記原子の特性に基づくタイプインデックスで類型化され、
前記集積回路上の半導体基板の領域が、２段階テーブルを格納するために確保されており、前記テーブルの第１段は相互作用インデックスを前記タイプインデックスに関連付け、前記テーブルの第２段は前記相互作用インデックスを複数の相互作用タイプのうちの１つに関連付ける情報を保存する、請求項５に記載の装置。
前記集積回路の基板の一部は、その上に形成されたジオメトリコアを含み、
前記ジオメトリコアは、前記相互作用回路と通信し、前記相互作用回路によってサポートされない原子の間の相互作用をサポートするように構成されており、
前記相互作用回路は、前記相互作用の推定を前記ジオメトリコアに委ねるように構成されている、請求項５に記載の装置。
前記集積回路の基板の一部は、その上に形成されたジオメトリコアを含み、前記ジオメトリコアは、前記相互作用回路と通信し、
前記相互作用回路は、原子のペアにおける原子の間の力を１回より多く推定し、その結果として冗長力が前記原子に作用し、
前記ジオメトリコアは、前記冗長力を減算するように構成されている、請求項５に記載の装置。
分子シミュレーションのための装置であって、
前記装置は、通信リンクによって相互接続された計算ノードを備え、
前記計算ノードは、原子を相互作用させるように構成され、
前記計算ノードの各々は、汎用プロセッサと、前記汎用プロセッサからデータを受信する結合計算器とを備え、
前記結合計算器は、前記データの受信に応じて、結合に近接する原子間の相互作用から生じる前記結合の状態の変化を計算する、装置。
前記結合計算器は、前記結合の長さの変化を計算するように構成されている、請求項１８に記載の装置。
前記結合計算器は、３つの原子の相互作用の結果としての前記結合の角度の変化を計算するように構成されている、請求項１８に記載の装置。
前記結合計算器は、４つの原子の相互作用の結果としての前記結合の二面角の変化を計算するように構成されている、請求項１８に記載の装置。
前記結合計算器は、前記計算を実行するために、前記汎用プロセッサが前記計算を行うのに使うエネルギーよりも少ないエネルギーを使うように構成されている、請求項１８に記載の装置。
分子動力学シミュレーションのための装置であって、
前記装置は、行と列とに配置されたタイルを含む集積回路を備え、
各タイルは、タイル行およびタイル列に配置され、
各タイルは、保存されたセット粒子を保存し、ストリーム化されたセット粒子を受信し、前記保存されたセット粒子を前記ストリーム化されたセット粒子と相互作用させ、
前記ストリーム化されたセット粒子は、前記タイル行に沿ってストリームされ、
各タイルは、その保存されたセット粒子を前記タイル列内の他のタイルにマルチキャストするように構成され、
それにより、前記保存されたセット粒子は、同時に多数のストリームセット粒子と相互作用を行う、装置。
シミュレーション装置の処理ノード間でデータを通信するための方法であって、
前記通信は、シミュレーションされる複数の物体のうちの第１物体に対応するデータの送信を含み、
前記送信は、前記第１物体の物理的状態情報の繰り返し送信を含み、
前記方法は：
前記第１物体の第１物理状態データを第１処理ノードおよび第２処理ノードに保存するステップと、
前記第１処理ノードで前記第１物体の更新済物理状態データを計算するステップと、
前記第１処理ノードおよび前記第２処理ノードで、前記第１物理的状態データから前記第１物体についての予測物理的状態データを計算するステップと、
前記第１処理ノードで前記予測物理状態データと前記更新済物理状態データとから状態データ更新を決定するステップと、
前記状態更新データを前記第１処理ノードから前記第２処理ノードへ送信するステップと、
前記第２ノードに記憶された前記第１物理状態データと、前記第１処理ノードから前記第２処理ノードで受信された前記状態更新データとから、前記第２処理ノードで前記更新済み物理状態を決定するステップと、
を含む、方法。
前記物理状態データは、前記第１物体の位置を含む、請求項２４に記載の方法。
前記物理状態データは、前記第１物体の速度を含むかまたは前記第１物体の速度を計算するのに用いられうる、請求項２５に記載の方法。
前記予測物理状態データは、前記第１物体の予測位置を含む、請求項２５に記載の方法。
前記予測物理状態データは、前記第１物体の予測速度を含む、請求項２６に記載の方法。
前記状態更新データを送信するステップは、前記更新済物理状態データを送信するのに必要なサイズよりも小さなメッセージで前記データを送信することを含む、請求項２４に記載の方法。
粒子のセットにおける粒子間の相互作用を計算するための方法であって、
各セットの粒子間の相互作用は、一連の計算を用いた近似の対象となり、
粒子の各セットに対して、
少なくともいくつかのセットは、他のセットとは異なる数の計算の選択を有しており、そのセットの粒子間の相互作用を近似するために行う計算の数を選択することと、
選択された数の計算に従って粒子間の相互作用を評価することと、
を含む、方法。
粒子のセットにおける粒子間の相互作用を分散計算する方法であって、
粒子の第１セットの粒子について、複数の分散プロセッサで第１セットの粒子についてのデータを集めるステップと、
前記分散プロセッサの各プロセッサで、前記粒子についての集められたデータを処理して１つ以上の同一の乱数を形成するステップと、
前記１つ以上の乱数を、集められたデータに基づいて計算の結果と組み合わせるステップと、
各プロセッサで同一の乱数化された計算結果を生み出す前記組み合わせの精度を制限し、前記粒子の動的シミュレーションにおいて前記乱数化された計算結果を用いるステップと、
を含む方法。
通信インフラストラクチャを介してシミュレーション装置の処理ノード間でデータを通信する方法であって、
前記通信は、連続するシミュレーション区間に関連づけられたメッセージの送信を含み、
第１シミュレーション区間において、第１受信処理ノードが、第１の複数の送信処理ノードから、そのシミュレーション区間のメッセージを受信し、
前記方法は：
第１の複数の処理ノードの各送信処理ノードで、第１シミュレーション区間に関連付けられたメッセージを第１受信処理ノードに送信し、第１シミュレーション区間に関連付けられたすべてのメッセージが送信されたことを示すメッセージを送信するステップを含み、
前記通信インフラストラクチャを用いて、前記第１の複数の処理ノードのうちすべての送信ノードから前記第１シミュレーション区間に関連付けられたすべてのメッセージが前記第１受信ノードへ配信された後、前記第１受信ノードにメッセージを配信するステップをさらに含む、
方法。