JPH065512B2

JPH065512B2 - アドレス写像方式

Info

Publication number: JPH065512B2
Application number: JP63232781A
Authority: JP
Inventors: ケビン・パトリツク・マクアーリイフ; エブリン・アー・メルトン; ヴアーン・アラン・ノートン; グレゴリイ・フランシス・フイスター; スコツト・フイリツプ・ウエイクフイールド
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1987-10-29
Filing date: 1988-09-19
Publication date: 1994-01-19
Anticipated expiration: 2009-01-19
Also published as: JPH01116850A; EP0313788B1; DE3854035T2; EP0313788A2; EP0313788A3; DE3854035D1; US5111389A

Description

【発明の詳細な説明】Ａ．産業上の利用分野本発明は、一般に、電子データ処理システムにおける多
重資源管理の分野に関する。より具体的には、高速並行
処理環境にある、たとえばインタリーブ式大型共用メモ
リ・システムなどにおいて論理アドレスを物理アドレス
に１対１写像することにより、データ処理中の任意の瞬
間にかかる全資源を有効に利用することに関する。Ｂ．従来技術現代の多くの高性能計算機システムでは、多重インタリ
ーブ式装置を用いて、メモリ及び入出力装置に対する帯
域幅が増大されている。インタリービングとは、ほぼ同
時に多くのアクセスができるようにする方法である。ｎ
＝２^ｄ個のデバイス・Ｄ_０、Ｄ_２、・・・、Ｄ_ｎ−１を
考えてみる。インタリービングを用いて、アドレスｍの
内容をＤ_ｑに記憶する。ただし、ｑ＝mod(m、n)。このよ
うにインタリービングを行なって、特に参照が近接メモ
リ・アドレスに対するものである場合、同時に最大ｎ個
までの参照を満足させることができる。これは、連続ア
ドレスに対して同時に多数のプロセッサが作用している
場合、高度の並列式共用メモリ・システムで大きな利益
をもたらす。アドレスが連続でなく、ｔとｎが公約数をもつ、すなわ
ちgcd(t、n)＞１のようなストライド（歩幅、間隔）ｔで
現われる場合には、このような状況で、問題が発生す
る。たとえば、ある起点アドレスａに対して、ａ、ａ＋
kn、ａ＋２kn、ａ＋３kn、・・・、ａ＋(n-1)knで与え
られるストライドkn（但し、ｋ≧１かつｋ∈Ｉ）のアド
レス列を考えてみる。上記のインタリービングを用いる
場合、これらの参照が、すべて、同じデバイスＤ
_mod(a、n)にアドレスされる。このようなストライドのア
クセスは、アプリケーション・プログラムで、たとえば
配列（アレイ）の行または列にアクセスするとき、頻繁
に行なわれる。このようなストライド・アクセスに起因
する性能低下は、プロセッサの数が非常に多くなるのに
応じて悪化し、このようなハードウエアにおける大きな
問題点となる得る。以下の考察では、通常のやり方で、大括弧〔〕を用い
て従来技術の刊行物を参照する。これらの刊行物のリス
トは、本節の直後に示す。このようなメモリの「ホットスポット」は「ツリーの閉
塞（tree-blcdkage）」をもたらしかねないので、メモ
リ・アクセスが不均一であるという問題は、高度の並列
システムでは重大な問題である〔１〕。すなわち、ネッ
トワークならびにメモリの争奪によって、システム全体
の性能が争奪中のデバイスによって決まる速度に制限さ
れる可能性がある。こうした参照は、通常、デバイス相
互間でインタリーブされ、その物理アドレスの２進表示
の形をとるフィールドによって相互接続ネットワークを
介して送られるので、このようなシステムは、特に、２
のべき乗ストライド・アクセス争奪に対して弱い。ＩＬＬＩＡＣ IV〔２〕などのＳＩＭＤ並列システムで
は、メモリ・アクセスの衝突のために、すべてのプロセ
ッサが並列動作における最後のメモリ・アクセスを待た
される可能性がある。こうした理由から、ストライド・
アクセスに付随する争奪を解消または減少させるための
方法を求めて、多大な努力が払われてきた。ＩＬＬＩＡＣ IV〔２〕、ＳＴＡＲＡＮ〔３〕、ＢＳＰ
〔４〕コンピュータについて、適用業務行列アレイの任
意の行、列、順方向対角線、逆方向対角線への無衝突ア
クセスを可能にするメモリ編成が開発されている。これ
らの論文の大部分では、同期されたＳＩＭＤマシンにつ
いて、決定論的無衝突方式でアレイがアクセスされ。〔２〕及び〔４〕で、素数個のメモリ・モジュールを必
要とするハードウエア及びソフトウエアによる解決策が
提案されている。〔６〕では、Ｍ個のメモリ・モジュー
ルを有するシステムが提案されている。ただし、Ｍ＝２
Ｎで、Ｎは処理ノードの数である。これらの解決策はす
べて、Ｍとストライド・アクセスが互いに素となるよう
に考えられている。〔３〕及び〔７〕では、アレイのイ
ンデックスに排他的論理和（ＸＯＲ）を行なって個々の
メモリ単位に写像するスキュー方式が使用されている。
〔８〕及び

〔９〕では、これらのスキュー方式の数学的
及び論理的限界が検討されている。〔６〕ではアラインメント・ネットワークがさらに研究
され、適切に位置合せされたデータにアクセスし、それ
を記憶するために、費用のかかるＮ×Ｍのクロスバー・
スイッチを構築するのとは別の、〔１０〕のシャッフル
交換動作に基づく解決策が示されている。その他、〔１
１〕などでは、データの動的置換を可能にする、相互接
続ネットワーク用の制御パターン行列が設計されてい
る。これらの方式には、いくつかの大きな弱点がある。それ
らは、主として専用の目的用に設計され、当初からアレ
イのサイズとメモリ・モジュールの個数に依存するの
で、より多様な制限を満足しなければならない汎用計算
環境には適していない。さらに、これらの設計のうちに
は、モジューロ演算及び整除用に高価で複雑なアドレッ
シング／位置合せハードウエアを必要とするものがあ
る。最後に、これらの方法によってアドレス空間中に
「ホール」ができるため、メモリ利用度が不十分になる
可能性がある。参照文献〔１〕G.F.フィスタ（Pfister）、V.A.ノートン（Norto
n）、「多段相互接続ネットワークにおけるホットスポ
ットの争奪と結合（Hot Spot Contention and Combinin
g in Multistage Interconnection Networks）」、ＩＥ
ＥＥコンピュータ紀要（ＩＥＥＥ Transaction on Com
puters）、Ｃ−３４、第１０号、１９８５年１０月、p
p.９４３−９４８。〔２〕P.ブドニク（Budnik）、D.J.クック（Kuck）、
“並列メモリの編成及び使用（The Organization and U
se of Parallel Memories）”、ＩＥＥＥコンピュータ
紀要、１９７１年１２月、pp.１５６６−１５６９。〔３〕K.E.バッチャー（Batcher）、“ＳＴＡＲＡＮ中
の多次元アクセス・メモリ（The Multidimensional Acc
ess Memory in STARAN）”、ＩＥＥＥコンピュータ紀
要、１９７７年２月、pp.１７４−１７７。〔４〕D.H.ローリー（Lawrie）、C.R.ヴォ−ラ（Vor
a）、“アレイ・アクセス用基本メモリ・システム（The
Prime Memory System for Array Access）”、ＩＥＥ
Ｅコンピュータ紀要、Ｃ−３１、第５号、１９８２年５
月、pp.４３５−４４２。〔５〕D.J.クック、“ＩＬＬＩＡＣ IVのソフトウエア
及び適用業務プログラミング（ＩＬＬＩＡＣ IV Ｓｏ
ｆｔｗａｒｅａｎｄＡｐｐｌｉｃａｔｉｏｎＰｒ
ｏｇｒａｍｍｉｎｇ）”、ＩＥＥＥコンピュータ紀要、
Ｃ−１７、１９６８年８月、pp.７５８−７７０。〔６〕D.H.ローリー、“アレイ・プロセッサにおけるデ
ータのアクセスと整列（Access and Alignment of Date
in an Array Processor）”、ＩＥＥＥコンピュータ紀
要、Ｃ−２４、第１２号、１９７５年１２月、pp.１１
４５−１１５０。〔７〕J.M.フレイロン（Frailong）、J.ランファン（Le
nfant），“排他的論理和方式：並列メモリにおける柔
軟なデータ構成（ＸＯＲ−Schemes:A Flexible Date Or
ganization in Parallel Memories）”、国際並列処理
会議発表要旨集（Proceedings、Internat Conf on Paral
lel Processing）、１９８５年８月、pp.２７６−２８
３。〔８〕H.A.ヴエイスホフ（Wijshoff）、J.レーヴェン
（Leeuwen）、“並列メモリ用周期的記憶方式の構造（T
he Structure of Periodic Schemes for Parallel Memo
ries）”、ＩＥＥＥコンピュータ紀要、Ｃ−３４、第６
号、１９８５年６月、pp.５０１−５０５。

〔９〕H.D.シャピーロ（Shapiro）、“並列メモリの効
率的使用における論理的限界（Theoretical Limitation
s on the Efficient Use of Parallel Memories）”、
ＩＥＥＥコンピュータ紀要、Ｃ−２７、第５号、１９７
８年５月、pp.４２１−４２８。〔１０〕H.S.ストーン（Stone）、“完全シャッフルに
よる並列処理（Parallel Processing with the Perfect
Shuffle）”、ＩＥＥＥコンピュータ紀要、Ｃ−２０、
１９７１年２月、pp.１５３−１６１。〔１１〕J.ランファン、“データの並列置換：頻繁に使
用される置換用のベネスネットワーク制御アルゴリズム
（Parallel Permutataions of Data:A Benes Network C
ontrol Algorithm for Frequently Used Permutation
s）”、ＩＥＥＥコンピュータ紀要、Ｃ−２７、第７
号、１９７８年７月、pp.６３７−６４７。〔１２〕G.F.フィスタ、W.C.ブラントリー（Brantle
y）、D.A.ジョージ（George）、Ｓ．Ｌ．クラインフェ
ルダ（Kleinfelder）、K.P.マコーリフ（McAuliffe）、
E.A.メルトン（Melton）、V.A.ノートン、J.ワイス（We
iss）、“ＩＢＭ研究用並列プロセッサ試作品（ＲＰ
３）：紹介及びアーキテクチャ（The IBM Research Par
allel Processor Prototype(RP3):Introduction and Ar
chitecture）”、国際並列処理会議発表要旨集、１９８
５年、pp.７６４−７７１。〔１３〕E.D.ブルックス（Brooks）、“ベクトル環境で
の蝶形プロセッサ・メモリ相互接続の性能（Performanc
e of the Butterfly Processor Memory Interconnectio
n in a Vector Environment）”、国際並列処理会議発
表要旨集、１９８５年、pp.２１−２５。〔１４〕B.B.マンデルブロート（Mandelbrot）、“自然
のフラクタル幾何学（The Fractal Geometry or Natur
e）”、W.H.フリーマン社（Freeman），ニューヨーク、
１９８３年刊。上記の参照刊行物の他に、以下のものは、本発明に関係
するが、本発明に先行するものではないと見なされる、
本発明者にとって既知のその他の現況技術の議論であ
る。サリヴアン（Sullivan）等の米国特許第４４８４２６２
号明細書は、関連するすべてのメモリ・モジュールに向
かう、アドレスを「スクランブル」するための、乱数発
生ルーチンの形のメモリ管理プログラムを開示してい
る。このメモリ管理プログラムは、ひとつの中心手順と
しても、または手順の階層としても実施できる。後者で
手順をシステム中に分散させる場合、異なる論理アドレ
スが同一の物理アドレスに対応しないようにするための
何らかの形の調整が可能でなければならない。これをコ
ンピュータ・システムで実施するには、かなりの量のハ
ードウエア及び（ネットワーク・メモリ管理プログラム
によりパケット・サイズが増大するという形の）オバヘ
ッドが必要である。これは、高度の並列システムでメモ
リ領域幅を増大させるための解決策としては非常に高価
につく。高度の並列コンピュータ・システムでシステム
構成ならびにソースとメモリ・ユニットの個数を変更す
る場合、本特許明細書中で提案するハードウエアは、ス
ケーリングし直すために完全に構築し直す必要がある。本発明の基礎となるアドレス変換機構は、並列デバイス
のアドレスの置換を行なうように設計されている。この
ような行列の特性により、異なる論理アドレスが同一の
物理アドレスに対応しないことが保証される。さらに、
本発明は、普通ならハッシングやランダム化といった他
の方法を用いてデータを利用可能なメモリ・モジュール
全体のサブセットにグループ分けする、２のべき乗のス
トライド・アクセスを解決するように、特別に設計され
ている。 R.N.ラングメイド（Langmaid）の論文、“汎用プログラ
マブル論理アレイ（Versatile Programmable Logic Arr
ay）”、ＩＢＭテクニカル・ディスクロージャ・ブルテ
ン、第２５巻、第８号、１９８３年１月、pp.４４４５
−４４４９では、ハッシングに使用できると称する（p.
４４４８）論理アレイすなわち行列が開示されている。
ただし、インタリーブ式大型共有メモリ編成を有する並
列処理コンピュータ・システムで、それをどのように使
ってアドレスをハッシュするかについては、何も示唆さ
れていない。この他にも多数の参照資料が発明者等にわかっている
が、背景的な性格のものにすぎないと考えられる。その
大多数は、アドレス変換機能にハッシングを利用する仮
想記憶システムを開示したものである。それらの米国特
許明細書の参照番号を、以下にリストしておく。３６９１５３１４４３３３８９４１５７５８７４４８４２７２４１６７７８２４５５０３６７４２４９２４２４５８７６１０４３９５７５７４５８８９８５下記の参照文献は、一般に、ある形式の乗法または論理
行列を開示したものであるが、ビット行の乗法やそのメ
モリ写像手順への適用を開示も示唆もしていない。１．マチアス（Matyas）等、“データ暗号化標準用の電
子署名（Electronic Signature for Use with Date Enc
ryption Standard）”、ＩＢＭテクニカル・ディスクロ
ージャ・ブルテン、第２４巻、第５号、１９８１年１０
月、pp.２３３５−２３３６。２．ルボルト（Luboid）等、“データ暗号化アルゴリズ
ム用の行列デジタル署名（Matrix Gigital Signature f
or Use with the Data Encryption Algorithm）”、Ｉ
ＢＭテクニカル・ディスクロージャ・ブルテン、第２８
巻、第２号、１９８５年７月、pp.６０３−６０４。３．アングリン（Auglin）等、“情報検索法（Informat
ion Retrieval Technique）”、ＩＢＭテクニカル・デ
ィスクロージャ・ブルテン、第１６巻、第７号、１９７
３年１２月、pp.２２２３−２２３４。４．マチアス等、“データ暗号化標準用電子署名（Elec
tronic Signature for Date Encryption Standar
d）”、ＩＢＭテクニカル・ディスクロージャ・ブルテ
ン、第２４巻、第５号、１９８１年１０月、pp.２２３
２−２２３４。Ｃ．発明が解決しようとする課題本発明の主目的は、特に、大型高度並列処理システムの
インタリーブ式共有メモリに関する２のべき乗のストラ
イドのアクセスにおけるメモリ帯域幅を改善するための
写像手続きを提供することにある。本発明のもう１つの目的は、多数のインタリーブ式ラン
ダム・アクセス・デバイスを備えた任意の計算システム
で有用性を発揮するこのような手続きを提供することに
ある。そのようなデバイスとしては、大型ＤＡＳＤシス
テム、ＳＩＭＤまたはＭＩＭＤ高度並列処理システムの
ランダム・アクセス・メモリ・モジュールなどの入出力
デバイスを含む並行アクセス可能なサーバがあり、事
実、ランダム・アクセス可能な階層的１次または２次メ
モリ・システムが、すべて適用可能である。本発明のもう１つの目的は、個々のメモリ・モジュール
の利用度をいつでもシステム全体にわたって高度に最適
化させるという全般的効果を有する、メモリ管理システ
ムに提示された論理アドレスを物理アドレスに置換する
このような手続き、とりわけ、２のべき乗のストライド
・アクセスの行なわれる論理アドレス用のものを提供す
ることにある。本発明のもう一つの目的は、所与の行列を用いて論理ア
ドレスのビット行列乗法によって置換（permutation）
を行ない、一意的な物理アドレスを生成するというこの
ような手続きを提供することにある。本発明の他の目的は、置換手続きにおいて利用される行
列が、その行列の上辺又は右辺のいずれかに接する全て
の正方部分行列が可逆又は正則であるような特性を有す
る置換手続きを提供することである。本発明の他の目的は、共有インタリーブ式メモリを有す
る高度並列処理システムにおいて特に適用性を有するそ
のような手続きを提供することである。本発明の他の目的は、高度並列処理システムが、インタ
リーブ式メモリ・モジュールと同数のプロセッサを有し
その数が２のべき乗であることを特徴とするような場合
におけるそのような手続きを提供することである。Ｄ．課題を解決するための手段本発明の目的は、インタリーブ式デバイスへのストライ
ド・アクセスに伴ない競合を減少させるための一群のア
ドレス置換方法又は手続きを含む、論理アドレスから物
理デバイス・アドレスへの写像のための方法によって達
成される。この方法を使うと、どんな２のべき乗ストライドでも均
一なアクセスが可能となり、他のストライドのアクセス
での争奪の問題も起こらない。それらは、ブール体ＧＦ
（２）上で線形である変換に基づいている。本発明は、ＳＩＭＤマシンやＭＩＭＤマシンの１次また
は２次メモリ・システムに適用でき、アプリケーション
のストライド・アクセス・パターンに付随するメモリ・
ホットスポットの問題を解消することができる。本明細
書に記載する手順は、ハードウエアまたはソフトウエア
で容易に実施できる。本明細書では、高度並列処理シス
テムのメモリ写像ユニット中にこのような変換を取り込
む方法を記載する。本発明は、主としてインタリーブ式
大型ランダム・アクセス・メモリ・システムに効用があ
るが、データベース適用業務用に高速データ検索を必要
とする直接アクセス記憶装置などの大型入出力システム
にも適用できる。Ｅ．実施例ここで提案する本発明の方法は、ハッシング技術を使っ
た従来のメモリ管理システムの欠点の多くを克服し、特
に２のべき乗のストライドのアクセスが頻繁に生じる大
規模インタリーブ・システムにおいてアドレス分配の改
善を達成する。この方法では、ブール（すなわち２進）
行列乗法を行なうことにより、アドレス空間を置換す
る。デバイス数が２のべき乗であるシステムで、２のべ
き乗ストライドのアクセスの争奪を解消するように行列
を選べることが、はっきりと実証される。このような写
像は、たとえば、２を基数とする並列高速フーリエ変換
でメモリ・アクセスに関連する争奪を解消するために使
用できる。この技法は特にすべての２のべき乗ストライ
ド・アクセスでネットワークとメモリの争奪を解消する
のに使われるものであるが、２のべき乗でないその他の
あらゆるストライド・アクセスの場合でも過剰争奪とい
う問題を引き起こすことはない。ＳＩＭＤマシンなどの同期システムで性能の利点は最大
となり、普通なら深刻なボトルネックとなるはずの所
で、２のべき乗の行と列のアクセス争奪がすべて本方法
で完全に解消できる。非同期ＭＩＭＤシステムまたは入
出力アクセスでは、改善はそれほど目ざましくはない
が、性能を損なうものとしてのストライド・アクセスを
解消するには十分である。この方法は、ハードウエア中で有効に実施することがで
き、並列システム中の個々のプロセッサのメモリ写像ま
たはアドレッシング用ハードウエアに組み込むのが適当
である。後節で説明するように、このようなハードウエ
アがＲＰ３設計〔１２〕に含まれている。マルチプロセ
ッサ環境で、処理要素中の設計中にページ翻訳機構とし
てこのようなハードウエアを含めると好都合である。まず２のべき乗ストライド・アクセスの改善を得るため
の一般的方法について説明する。代数的条件を誘導し、
メモリに対する２のべき乗ストライド・アクセスの衝突
を解消するのに十分であることを示す。この条件の変形
が、ネットワークの衝突を解消するのにも十分なことを
示す。指定条件を満足するビット行列の作成手順を示
す。１つこのような行列について、様々のストライドに
関連するアクセス衝突を示す、性能分析の結果を提出す
る。最後に、この方法をどのようにすれば上記で参照し
た試験的ＲＰ３システムなどインタリーブ式大型共用メ
モリ・システムで、ハードウエアまたはソフトウエアと
して具体化したハードウエア・アドレス変換機構の一部
として組み込めるかを示す。ブールｒ×ｓ行列は、ｒ行及びｓ列の形に配列された２
進ビットの矩形アレイである。このような行列は、ｓ−
tuple（ｓ組）ビットのベクトル空間Ｆ^ｓからｒ−tuple
（ｒ組）ビットのベクトル空間Ｆ^ｒへの線形写像を記述
する。これらは２要素｛０、１｝の体Ｆ＝ＧＦ（２）上
のベクトル空間である。この体中での加法と乗法が、そ
れぞれ「排他的論理和」及び「論理積」の論理（ブー
ル）演算であることに注意されたい。ブール行列Ｍ＝（ｍ_ij）にブールｓ×１ベクトルＶを乗
じる線形変換は、行列に整数を乗じるのと同じように実
行される。すなわち、積ＭＶのｉ番目の要素は、Ｍのｉ
行目とベクトルＶとの「ドット」積（内積）である。こ
のドット積は、各項目ｍ_ijにｖ_ｊを乗じる（論理積をと
る）ことによって得られるｓビットの和（排他的論理
和）である。本明細書に記載する方法は、ブール行列乗法を用いて、
アドレス空間に対して置換を行なうことに基づいてい
る。行列Ｍを正方可逆ｓ×ｓ行列とすると、Ｍを乗じる
ことにより、ｓ−tupleのビットに施す置換が定義され
る。ｓビットのアドレスをｓ成分ベクトルと見なすこと
により、２^ｓアドレスの空間に対する置換写像を定義す
る。この議論の大部分では、これらのアドレスをメモリ・ア
クセスと見なすこととし、論理アドレスから物理アドレ
スへの写像に行列乗法を用いることにする。ただし、こ
の同じ方法が、直接アクセス記憶媒体や高速ランダム・
アクセス・ディスク駆動機構などその他様々な物理デバ
イスにアクセスするのにも適用できる。明確にするため、２^ｄ個の物理デバイスからなるシステ
ムを仮定する。このシステム中の物理アドレスは、ｓビ
ットからなる（ただし、ｄ＜ｓ）。最初のｄビットはデ
バイス番号を識別し、あとのｓ−ｄ個のビットはデバイ
ス内の様々なアドレスを識別する。論理アドレスはｓ×
１ベクトルとして定義される。アドレスの最下位ビット
はビット・ストリング中の最終（「最下部」）要素であ
り、最上位ビットはビット・ストリング中の第１（「最
上部」）要素である。次に、ある２のべき乗ストライドに及ぼす行列の作用結
果を決定する代数的制約について説明することにする。
ある整数ｔ≧０に対して、２^ｄ好ましくは物理デバイス
全体にわたって、２^ｔストライドの無衝突アクセスが望
ましい。２^ｄ個のデバイスがそれぞれ１回参照されるま
で、同じデバイスが二度参照されることはないように、
異なるデバイスを連続的に参照するのが最適である。こ
れは、２^ｄ個のアドレス０、２^ｔ、２×２^ｔ、３×
２^ｔ、・・・、（２^ｄ−１）×２^ｔがすべて異なる物理
デバイスに写像されなければならないことを意味してい
る。論理アドレス空間を体Ｆ上のブール・ベクトル空間と見
なすと、上記アドレスの列はアドレス空間の線形部分空
間Ｓを形成している。この空間を物理メモリ・デバイス
全体に一様に写像するために、行列Ｍの最初のｄ行を考
える。これらの行が、論理アドレスに関連する物理デバ
イスを決定するためである。Ｍの最初のｄ行からなるｄ
×ｓ行列をＭ′と置く。２^ｔのストライドの場合、Ｍ′のｄ個の隣接する列、す
なわち列ｓ−ｔ−ｄ＋１、ｓ−ｔ−ｄ＋２、・・・、ｓ
−ｔから構成されるＭ′のｄ×ｄ部分行列によって、部
分空間Ｓの物理デバイスへの写像が決定される。この部
分行列が最大の階数を有する（階数＝ｄ）場合、部分空
間Ｓは２^ｄ個の異なるデバイスに写像される。そうでな
い場合には、Ｓはｆ^ｄのより小さな部分空間に写像さ
れ、これは２^ｋのメモリ・モジュールに写像される。た
だし、ｋ≦ｄ−１。様々な２のべき乗ストライド２^ｔ、ｔ＝０、１、２、・
・・を考えると、このようなストライド・アクセスを２
^ｄ個のデバイスに一様にアクセスさせるには、次の条件
を満足する必要がある。 ●(A)Ｍ′の連続するｄ行からなるすべてのｄ×ｄ部分
行列が正則である。ただし、行列式がゼロでない、また
は行列が可逆行列の場合にだけ、行列が正則であると定
義する。アドレス０から始まる２^ｄ個の連続する２のべき乗スト
ライド・アクセスを考えることから条件（Ａ）が誘導さ
れたことに注意されたい。これは、その他の起点アドレ
スからのアクセスが一様なことを意味するものではな
い。ただし、２^ｄ個のアクセスが別のアドレスａから開
始するとしても、結果はほとんど同じである。つまり、
２^ｄ個のアクセスは、どのデバイスをも２回以上参照す
ることはない。写像ＭがＳ上だけでなく、Ｓの任意の剰
余系ａＳ上でも無衝突であることに留意されたい。ａ≠ ０か
ら始まるストライド・アクセスの場合、高々２個のこの
ような剰余系、すなわちａる。は、論理的なビットごとの排他的論理和演算を表わす。条件（Ａ）を満足する行列の１例を、第１表に示す。上記の条件（Ａ）は、２のべき乗ストライド・アクセス
の下でメモリ争奪が減少することを意味している。多く
の並列システムでは、プロセッサとメモリとの間での争
奪に出会うこともあり得る。たとえば、第５図に示す反
転ベースライン・ネットワークを考えられたい。プロセ
ッサがあるメモリ・モジュールを参照するには、ネット
ワークを介して指定モジュールにまでメッセージを送ら
なければならない。２つのメッセージが異なる宛先に向
かう場合でも、それらの宛先への途中のスイッチで「衝
突」するかもしれない。アドレス変換行列を適当に選ぶ
ことにより、このような衝突も、解消または減少させる
ことができる。どのようにすれば適当な行列を選ぶことができるかを示
すのに、第５図に示すような反転ベースライン・ネット
ワークを利用する。この他のネットワークも、同様に選
んだ行列を用いることができる。途中にある様々なスイ
ッチで行なわれた１組の２進選択によって、プロセッサ
からメモリに達する一意的な経路が与えられることに留
意されたい。さらに、この経路指定に使うビットは宛先
メモリ・モジュールにだけ依存し、指定された経路が異
なることがあっても、発信元のプロセッサには依存しな
い。ネットワーク中で２のべき乗ストライド・アクセスの衝
突を解消する場合には、メモリへの様々の経路が一様に
アクセスされるようにすれば十分である。こうするた
め、アクセスのための経路に応じて様々なメモリ・モジ
ュールを番号付けする。つまり、第１（最上位）ビット
は第１ネットワーク段用の経路指定ビットであり、第２
ビットは第２段用の経路指定ビット、以下同様である。
この結果、第５図に示す番号付けが得られる。ここで使
用する物理アドレッシング方式によれば、これらはま
た、記憶位置の物理アドレスの最上位ビットでもある。ここで、Ｍ′の２^ｄ正方部分行列すべてに対してだけで
はなく、あらゆるｊ≦ｄについて、サイズ２^ｊの部分行
列に対しても条件（Ａ）が満足されるものと仮定する。
言い換えれば、 ●(G)Ｍ′の最上部と境を接するＭ′のあらゆる正方部
分行列は正則である。この条件（Ｂ）は、Ｓ＆ａ＝０となるような任意のアド
レスａから始まるどのような２のべき乗ストライド・ア
クセスも、アドレスの最初のｊビットで定義される物理
アドレス空間のどの部分空間にも一様なアクセスをもた
らすことを意味している。ただし、＆は論理的なビット
ごとの論理積演算を表わす。条件（Ｂ）を満足する行列
の例は、第２表を参照されたい。この事実を使って、同じストライドで連続する要素にす
べてのプロセッサが同時にアクセスする（ｉ番目のプロ
セッサがデータｉ×２^ｌにアクセスする）場合、ネット
ワークまたはメモリで衝突が起こらないことを示すこと
にする。また、２×２スイッチのｄ段の反転ベースライン・ネッ
トワークにより、２^ｄ個のメモリ・モジュールがアクセ
スされると仮定する。ネットワークの第１段にある任意のスイッチを考える。
このスイッチの出力は、アドレスの最上位ビットによっ
てアドレスされる。行列の第１行について条件（Ａ）が
満足されているので、データ項ｉ×２^ｌ及び（ｉ＋１）
×２^ｌにアドレスされたこのスイッチ中の２つの参照が
そのビット中で必ず異なっていなければならないと結論
できる。同様に、ネットワークの第ｋ段で、第ｋ段にある様々な
スイッチの入力ポートに２^ｄ個のメッセージが同時に到
着すると仮定する。この段の最初２^ｋ個のスイッチを考
える。行列の第ｋ行（ｋ≦ｄ）で条件（Ｂ）が成立する
ので、この行に到達する２^ｋ個の参照は争奪なしに異な
る出力ポートに必ず向かわなければならないことがわか
る。同様の議論が、第ｋ行にある２^ｋ個のスイッチの次
にグループにも当てはまる。２^ｄ個の参照がすべて衝突
することなくネットワーク中を通過するものと結論でき
る。ネットワークへのストライド・アクセスが（上記証明で
仮定したように）完全には同期されていなくても、この
方法には、かなりの利点がある。このようなネットワー
クでの争奪による遅延によって、ストライド１のベクト
ル・アクセスにおけるわずかの同期誤差が補正されるこ
とが観察されている〔１３〕。条件（Ｂ）を満足する行
列メモリの写像を利用すると、２のべき乗ストライド・
アクセスで同様の利益が生じるものと予期される。適当なブール行列を決定するための前記の判定規準
（Ａ）及び（Ｂ）は、このような行列の特性を与えるの
で非常に重要である。次に、（Ｂ）を満足するすべての
行列を作成するための一般的な手順について説明する。定理：ｄ行及びｓ列の行列が与えられているものとする
と、条件（Ｂ）を満足する行列Ｍが存在する。事実、下
部対角ビット｛ｍ_ｉｊ｜ｉ＞ｊ｝をどのように選んで
も、こうした下部対角要素を有し、（Ｂ）を満足する一
意的なブール行列Ｍが存在する。証明：（Ｂ）を満足する行列を得るために、行列の行に
ついての数学的帰納方で証明する。（Ｂ）を満足する最
初のｋ行（１≦ｋ≦ｓ−１）を選ぶと、可逆行列Ｍとな
る残りのｓ−ｋ行は、どのように選択することもでき
る。第１列の条件（Ｂ）が成立するということは、この行の
要素がちょうど１×１部分行列となるので、この行中の
あらゆる要素が１にならなければならないことを意味し
ている。ここで、最初のｋ−１個の行を選び、その結果得られる
（ｋ−１）×ｓ行列の隣接する列によって形成されるす
べての（ｋ−１）×（ｋ−１）正方部分行列が可逆行列
であるものと仮定する。第ｋ行における最初のｋ−１個
の項目に対して、任意のｋ−１個の値（０または１）を
選ぶ。要素ｍ_kkに対して、その結果得られるｋ×ｋ隅部
分行列が正則となるような値（０または１）が存在す
る。これを証明するため、この部分行列の行列式Ｄをそ
の最下行に沿って展開する。次式が得られる。Ｄ＝ｍ_k1Ｄ_k1＋ｍ_k2Ｄ_k2・・・＋ｍ_kkＤ_kk ただし、上式でＤ_ijは行列要素ｍ_ijの余因子を表わす。帰納的仮定により、行列式Ｄ_kkがゼロでない、したがっ
て１であることに注意されたい。ここで、ｍ_kkを選ぶこ
とが可能である。最初のｋ−１個の項の和がゼロになる
場合には、ｍ_kkは１に選ぶ。そうでない場合には、ｍ_kk
を０に選ぶ。どちらの場合にも、正方隅部分行列を正則
となるように選ぶことができる。第ｋ行に沿って進み、同様の議論を通用して、ｍ_k1をそ
の右下隅に有する正方部分行列が反転可能となるような
ｍ_k1（ただし１＞ｋ）を選ぶことができる。以上で証明
を終わる。上記の議論から、条件（Ｂ）を満足するすべての行列Ｍ
が構成される。行列Ｍの各第ｋ行について、最初のｋ−
１ビットは選ぶことが可能であり、その行の残りの項目
はそれから決定される。（Ｂ）を満足するｄ行の行列Ｍ
は正確に２^{（ｄ−１）ｄ／２}個存在する。対照的なパターンを示すこれらの行列の１つを、第２表
に示す。今、この行列中の１が三角形が繰り返し現われ
る反復パターンをなすことに留意されたい。このフラク
タル模様は「シエルピンスキー（Sirepinsky）ガスケッ
ト」と言われる〔１４〕。結果がわかってみると、この
行列を生成するより容易な手順を知ることができる。つ
まり、各要素は、すべてその右隣りと上隣りとの排他的
論理和である。こうしたビット配列は、パスカルの三角
形の２進等価配列である。条件（Ａ）及び条件（Ｂ）が満足されると、２のべき乗
ストライドでメモリにアクセスするとき、無衝突アクセ
スが保証される。他のストライドも重要であり、このよ
うなストライドでも同様に衝突を解消させることが望ま
しい。しかし、すべてのストライド・アクセス衝突を解
消することは可能でない。このシステムを汎用コンピュータ・システムで使用する
場合、ストライド・アクセスがメモリ・ホットスポット
を生じないということが重要である。あるいは、少なく
とも、ストライド・アクセスから生じるメモリ争奪問題
は、極めて稀である。この問題に対処するために、所与の置換が様々なストラ
イド・アクセスをどれほどうまく処理できるかを示す目
安を定義する。ｓビット・アドレス空間Ｆ^ｓを写像する
ｄ×ｓ行列をＭとし、ｄ個のデバイスからなるシステム
を仮定する。すなわち、Ｍは集合Ｆ^ｓから集合｛０、
１、２、・・・、ｄ−１｝への写像である。ｔとａを整
数であるとする。ただし、ｔはストライドであり、ａは
ストライドの起点アドレスであると定義する。ストライド中のアドレス、すなわちａ、ａ＋ｔ、ａ＋２
ｔ、・・・、ａ＋（ｄ−１）ｔからなる集合Ｖを考え
る。Ｍによってデバイスｉに写像されるＶの部分集合を
Ｃ_ｉと定義する。すなわち、Ｃ_ｉ＝｛ｘ∈Ｖ｜Ｍ（ｘ）＝ｉ｝（ａ、ｔ）に関するＭの非一様性を、最大Ｃ_ｉ中の要素
数であると定義する。これは、ｄ個のアドレス、ａ、ａ＋ｔ、ａ＋２ｔ、・・
・、ａ＋（ｄ−１）ｔに対するストライド・アクセス中
に任意の１個のデバイスがアクセスされる回数の最大数
を示す。少なくとも、無衝突アクセスの場合、非一様性
は１であり、多くてもｄである。条件（Ａ）を満足する
置換を利用する、どの２のべき乗ストライド・アクセス
でも、非一様性は１または２である。５１２個のメモリ・モジュールからなるシステムを仮定
し、第２表に定義するような９×２９行列を使って、様
々な起点アドレスａとストライドｔに対して、これらの
関数の非一様性（最大衝突数）を測定した。このような
システムで、乱数化関数を使ってデバイス番号を求める
と、非一様性は約5.１６となる。比較のため、この値を
第６、７、８図に含めた。「純粋の」インタリービング
も、このようなメモリ編成が不適当なことを示すために
含めてある。ランダムに発生させた１0,０００個の異な
る起点アドレスａ_ｉを使って、各ストライドごとに、起
点アドレスａとストライドｔに関連する非一様性Ｍａ
_ｉ、ｔを計算した。すべてのｉについてのＭａ_ｉ、ｔの
平均を、ストライドｔに対してプロットしてある。本技法の有効性を示すために、２^０から２^１０までの２
のべき乗ストライド・アクセスをすべて測定した。予想
通り、すべてのＡ_２は２より小さいかまたは２に等し
い。第６図のグラフは、ビット行列乗算法を、純粋のイ
ンタリービング及びランダム化と比較して示したもので
ある。１から１００までのストライドの場合に、同様のサンプ
ルを収集した。第７図及び第８図のグラフは、「純粋
の」インタリービングとビット行列乗算法の一般的挙動
の比較を示したものである。本方法の挙動は、多くの２
のべき乗以外のストライドの場合、「純粋の」インタリ
ービングよりもランダム関数の挙動に「より近い」挙動
を示すことを示している。ハードウエア実施例の説明ストライドなどに関連する潜在的衝突を減少させるテス
トの上記の結果は、上記の写像手順のソフトウエア・シ
ミュレーションを使って得たものである。そのようなソ
フトウエアによる実施が実用的且つ実現可能であること
を理解すべきである。しかし、メモリに対する全体的な
アクセス時間が重要な大規模メモリ・システムでは、ハ
ードウエアの実施例がより高速に動作できる事が当業者
に明らかであろう。従って、下記に、本発明の良好なハ
ードウエア実施例の詳細な説明及びアドレス写像のため
のビット行列乗算器が最小限のデバイス及び回路レベル
を用い、動作速度に大きく寄与するような、本発明の機
構を含むアドレス置換ユニットの可能な設計に独得の寄
与をする本発明の機構の簡単な説明を行なう。ブール行列Ｍと論理アドレス・ベクトルＶが与えられて
いるものとすると、ブール・ビット行列乗算過程の論理
的深さは行列の列数ｓと対数となる。積ベクトル中のす
べての要素が、並行して計算できる。積ベクトルの各要
素は、対応するＭの要素が１となるＶの要素の排他的論
理和である。この計算は、まずＶの各要素とＭの対応す
る要素との論理積を算出し、次にｓ個の結果を排他的論
理和の２進ツリーで組み合わせることにより、ハードウ
エア内で実行できる。この結果は、Ｍの当該行とベクト
ルＶのビットごとの論理積演算の結果のパリティであ
る。本発明のハードウエア実施例で必要な機能は簡単なもの
であるため、並列処理システムの個々の処理要素内部の
アドレス変換ハードウエアの一部としてブール行列乗算
を実施することが可能である。行列の選択又は設計は、
仮想記憶のページ又はセグメントの属性であり得る。前
記で参照した研究用並列処理システム（ＲＰ３）〔１
２〕では、すべてのインタリーブ式メモリが、デフォル
トにより、このような変換を受けるように設計されてい
る。上記の特徴を有する適当なハードウエア実施例の設計
が、図面に示されている。この実施例は、厳密に言えば
アドレス変換用に、より具体的には通常２のべき乗スト
ライドのアクセスに付随する問題を解決するように設計
されている。以前述べたように、ビット行列乗算による
アドレス又は他のデータの置換の概念を利用するという
より一般的な能力を有するハードウエア・システムが本
発明の関連出願に示されている。第１図は、上記参照のＲＰ３〔１２〕など高度並列処理
共用メモリ・システムの高水準機能構成図である。この
システムは、ネットワーク１８を介して相互接続された
複数個（最大５１２個）の処理メモリ要素１０を含んで
いる。各処理メモリ要素（ＰＭＥ）は、ほぼ同じものと
見なされ、マイクロプロセッサ１２、アドレス変換ユニ
ット１４、ネットワークインターフェース１６、メモリ
２２から構成される。マイクロプロセッサ１２は、通常
の機構を有し、必要なとき命令用またはデータ用あるい
はその両方用のシステム・メモリにアクセスする。アド
レス変換ユニット１４は、プロセッサが発行した論理ア
ドレスを、メモリの物理アドレスに変換する。ネットワ
ーク・インターフェース１６は、特定の物理アドレスが
ローカル・メモリ２２にあるか、それとも別のＰＭＥに
ある共有メモリ・システムの別のメモリ要素２２からア
クセスしなければならないかを決定する。別のＰＭＥ中
の他のメモリ２２へのアクセスはネットワーク１８を介
して行なわれる。ＲＰ３は、メモリが共有されすべての
プロセッサに物理的にアクセスできる、緊密に結合され
たマルチプロセッサ・システムであることを想起された
い。さらに、ＰＲ３では、各メモリ２２は、共用される
上に、特定のプロセッサに局部的に隣接している。本発明の詳細部分は、アドレス変換ユニット１４中にあ
る。このユニットに関する機能構成図及びデータ流れ
を、第２図に示す。第２図に示すように、２９ビットの
仮想アドレス（０、２８）が、セグメント／ページ・テ
ーブル変換ユニット３２の入力線３０上に現われる。こ
のような仮想アドレッシング・システムでよく知られて
いるように、仮想アドレスは、最も通常の仮想メモリ・
システムの場合と同様に装置３２内のページ及びセグメ
ントのテーブル・ルックアップを介して、実アドレスに
変換される。その結果、線３４上に実アドレスが生じ
る。このアドレスの第９ないし第２８ビットはオフセッ
トであり、第０ないし第８ビットは実アドレスのセグメ
ント及びページを指示する。行列乗算ユニット３４によ
るアドレス変換動作を通過しなければならないのはビッ
ト０〜８である。しかしビット９〜２８は信号線３６上
に現れる物理アドレスのオフセット部分を形成するが、
それらのビットも入力の一部として行列乗算ユニット３
４に供給されなければならない。行列乗算ユニットによ
って、第０ないし第８ビットを置換してノード番号とす
る。言い換えれば、特定のアドレスがシステム全体のど
のメモリに入っているかを指定する。この場合も、シス
テムは５１２個の異なるＰＭＥ及び関連する分離メモリ
２２を含んでいると仮定する。したがって、このような
ノード・アドレスを指定するのに、９個のビット（０、
８）が必要である。ノード・アドレスを決定するための
ビットの実際の数、及びオフセット・ビットの数、ある
特定システム構成に対して指定されたインタリーブ量に
依存する。すなわち、特定のシステムがたとえば２５６
個のＰＭＥだけを含む場合、ノード番号を指定するのに
８ビットしか必要でなく、行列乗算ユニット３４は８ビ
ットだけを生成する。図の線３６上にこれらの指定イン
タリーブ量が現われ、これが、置換した出力のビットが
どれだけ生成されたかを制御する（特に示さず）。実際
の置換行列が記憶され、または行列乗算ユニット３４が
それを利用できるものと仮定する。行列乗算ユニット３
４は、単に行列乗算ユニット内部のＲＯＭでもよい。置換アドレスの９ビットがシステムによって生成された
と仮定すると、２９ビットの実アドレス全体が置換行列
の２９ビットの行の最初の９行と次々に（９回）乗じら
れ、したがって線３８上に９ビットのノード・アドレス
を生成することが理解できる。この９ビットのノード番
号またはアドレスが、前４０上の第９ないし第２８ビッ
トと組み合わされ線４２上に２９ビットの物理アドレス
を生成する。第３図は、ここに開示された方法により要
求されるように置換アドレスを提供することのできる行
列乗算ユニットの１つのハードウエア実施例を示してい
る。実アドレスＳの２９ビット及び表２に示した行列Ａの各
行からの２９ビットが内積機構ユニットへの入力にな
る。実アドレスＳはレジスタ５０に記憶され、９個の２
９ビット行（Ａ_０・・・Ａ_８）が信号線５４〜５６を介
して内積ブロック５２に供給される。９ビットの置換が
行なわれると仮定すると、各々２９ビットの入力を内積
ブロック５２に与える５４〜５６等の９本の２９ビット
入力線が存在するであろう。以前に述べたように、内積
ブロック５２の各々は、信号線５２に現れる最終的なノ
ード番号の各ビットを発生する。図に示すように、また
第２図に関して以前に説明したように、実アドレスのビ
ットＳ_９〜Ｓ_２８は信号線６２を経て出力レジスタ６０
中のビット記憶位置Ｓ_９′〜Ｓ_２８′にそのままの形で
直接転送される。全部の２９個の実アドレス・ビットＳ_０からＳ_２８も信
号線６４を経て内積ブロック５２の各入力に供給されな
ければならない。各内積ブロック５２は２９ビットの実
アドレス及び行列の２９ビット行を受け取る。このよう
に、各内積ブロック５２は、必要な行列乗算を実行して
１つの出力ビット（Ｓ′_ｘ）を発生する。第４図は、第３図に示した内積ブロック５２をどのよう
にすれば具体化できるかの詳細な論理的概略図である。
この図は、入力として下記のものを使って最上位ビット
Ｓ_０′を生成する回路を特に示したものである。１．線７０を介してブロックに供給される２９ビットの
実アドレスＳ_{（０、２８）} ２．線７２を介してブロックに供給される行列Ａの２９
ビットの第ｏ行アドレス及び行ビットが２９個のＡＮＤ
回路７４に供給され、その際に、最上部のＡＮＤゲート
にはＳ_ｏ及びＡ_ｏが供給され、最下部のＡＮＤゲードに
はＳ_２８及びＡ_２８が供給される。線７６上に現われる
２９個の出力が全体でモジューロ２加算器７８への入力
を形成し、ここで論理的モジューロ２の加算機能により
これらの２９個の入力が組み合わされて単一の出力ビッ
トとなる。当業者なら理解できるように、これは「排他
的論理和」によって行なうことができる。もちろん、内
積機能は、多数の異なる論理回路構成によって実行でき
ることを理解されたい。これで、本発明のビット行列乗算置換手順全体を実行で
きる、ここに開示した好ましいハードウエア実施例の説
明を終える。当業者なら他の構成の容易に設計できるは
ずである。第５図は、高度並列共用メモリ・システムで使用される
タイプの相互接続ネットワークの代表である反転ベース
ライン・ネットワークを示す。このネットワークの構成
を用いると、経路指定に先立って本発明に基づいてこの
ようなアドレスを置換した場合にだけ、すべての２のべ
き乗ストライド・アクセスに対して無衝突データ経路決
定が可能となる。このシステムは、本発明の一部をなす
ものではなく、例示のために示したものにすぎない。当
業者には明らかなように、これは多段両面ブロッキング
・ネットワークである。ごく簡単に言うと、その動作は
次の通りである。アドレス・サブフィールドの設定に応
じて、Ａ、Ｂ、Ｃと記号を付けた３列のスイッチが２つ
の入力のどちらかを特定の出力に接続する。その際に、
フィールドが０の場合には、各スイットの上側の出力が
活動状態となり、アドレスまたはサブフィールドが１の
場合には、各スイッチの下側の出力が活動状態となる。
左側の２進数の列は、ソースすなわちユーザのアドレス
を表わし、右側の３稀の２進数の列は、宛先すなわちサ
ーバのアドレスを表わす。両方の列の同じ行に同じ数が
現われている場合には、ソースが宛先すなわちサーバで
もあることを示すことに留意されたい。つまり、この図
で、ソース０００が自分自身のメモリを利用したいと思
う場合には、宛先アドレスを０００とする。容易に理解
されるように、この結果、宛先アドレス０００がスイッ
チ制御行列に与えられるので、３列すべてで上側のスイ
ッチが上側の出力として選択される。さらにまた、図を
検討すると気がつくように、図中の小さなサブフィール
ドａ、ｂ、ｃがスイッチ列Ａ、Ｂ、Ｃを制御する特定の
サブフィールドを指定する。したがって、ソース０１１
を宛先１１１に接続したい場合、ソース０１１からアド
レス１１１が与えられ、３つのスイッチの下側の出力９
０、９２、９４を活動化させて、この接続が実現され
る。第２の例として、この場合にソース００１を宛先１１０
に接続したいと仮定すると、ソース００１からネットワ
ーク用のスイッチ制御行列にアドレスまたは行列スイッ
チ・コマンド１１０が提示されるので、スイッチ・ブロ
ック９６及び９２の下側の出力が活動状態になり、ブロ
ック９４の上側の出力が活動状態になって、所望の経路
指定が実現される。すなわち、ソースと宛先の間のどの
ような所望の相互接続でも、このシステムによって実現
できる。もちろん、上記のように、スイッチ争奪、すな
わち同時に２つの要求が同じスイッチを通過すること
が、本明細書で開示するアドレス置換手順を利用するこ
とによって軽減できるであろう。Ｆ．発明の効果物理装置に対する２のべき乗のストライドのアクセスを
改善するための本明細書に記載の手続きの説明を終えた
ので、何らかの結論を出すことができる。本方法は、ア
ドレスが２のべき乗だけ離れたデータを多数のプロセッ
サが参照するときに現われるメモリまたは入出力のホッ
トスポットを回避する点で、特に価値がある。写像機能
を適当に選択することにより、ネットワークの争奪も回
避できる。たとえば、あらゆる２のべき乗ストライド・
アクセスの場合に、反転ベースライン・ネットワークで
の争奪をすべて回避できることを示した。この方法は、
その他のストライド・アクセスの争奪を全面的には解消
できないものの、そのような争奪がランダムなメモリ参
照に付随する争奪と同程度になる。この手続きの重要な利点は、それが少数の排他的ＯＲゲ
ートで容易に実現できるという事実にある。従ってこの
方法は、汎用並列計算機のメモリ・アドレシング・ハー
ドウエアにおいて用いるに適している。２のべき乗スト
ライドのアクセスの競合の完全な除去が可能なので、こ
の方法は、２のべき乗の間隔で並列メモリに無競合にア
クセスすることに依存している専用マシン及びＳＩＭＤ
マシンにおいて実施するのにも適している。本明細書中で説明した本発明の使用の例は、限られた数
の応用しか提供していない。しかし本発明の使用は種々
のネットワーク・トポロジーに関してアクセス方法を改
善し、Ｉ／Ｏシステムの設計において有用であろう。本発明の手続きのハードウエア的実現を本発明の良好な
実施例として開示したが、以前述べたように本発明を容
易にソフトウエアで実現することができる。要約する
と、本発明は、ビット行列乗算手続きを利用したアドレ
ス置換を得るための新規な手続にあって、具体的な実施
の態様にはない。本発明の手続きの価値及び単純性は、ここで開示したビ
ット行列乗算が高度並列システムのプロセッサに関せる
メモリ写像ハードウエア中に含まれるべきことを明瞭に
示している。

【図面の簡単な説明】

第１図は、共用メモリを有する高度の並列処理システム
の機能的構成図である。各プロセッサには、他のすべて
のプロセッサから多段相互接続ネットワークを介してア
クセスできるメモリ・モジュールが付随している。第２図は、第１図のシステムで利用できる本発明の原理
を具体化した、アドレス変換ユニットの機能的構成図で
ある。第３図は、ビット行列乗算を実行するのに適したハード
ウエアの機能ブロック図である。第４図は、第３図の内積ブロックの詳細な機能的構成図
である。第５図は、この利用は本発明の利点を明快に示す、第１
図の並列処理共用メモリ・システムで多段相互接続ネッ
トワークとして使用できるような反転ベースライン・ネ
ットワークの機能的構成図である。第６図は、本発明に記載する行列乗算方法と、ハッシュ
処理のない純粋のインタリービングと、純粋なランダム
機能という異なる３つのインタリービング方法を比較し
たグラフである。このグラフは、ストライドのlog_２を
ｘ軸とし、最大衝突数（すなわち、各メモリ・モジュー
ルに対するアクセス合計の最大値）をｙ軸として、プロ
ットしてある。図に示した実験で使用したストライド・
アクセスは、様々な２のべき乗である。第７図は、純粋のインタリービング法と、第６図で使用
したものと同じ純粋のランダム機能とを比較したグラフ
である。このグラフは、ストライドをｘ軸とし、最大衝
突数（すなわち、各メモリ・モジュールに対するアクセ
ス合計の最大値）をｙ軸として、プロットしてある。こ
の実験で使用したストライド・アクセスは、１から１０
０までである。第８図は、本発明に記載する行列乗算方法と、第６図で
使用したものと同じ純粋なランダム機能とを比較したグ
ラフである。このグラフは、ストライドをｘ軸とし、最
大衝突数（すなわち、各メモリ・モジュールに対するア
クセス合計の最大値）をｙ軸として、プロットしてあ
る。この実験に使用したストライド・アクセスは、１か
ら１００までである。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ヴアーン・アラン・ノートンアメリカ合衆国ニユーヨーク州クロトン- オン‐ハドソン、リツヂ・ロード11番地 (72)発明者グレゴリイ・フランシス・フイスターアメリカ合衆国ニユーヨーク州ブライアークリーフ・マナー、プレゼントヴイル・ロード780番地 (72)発明者スコツト・フイリツプ・ウエイクフイールドアメリカ合衆国ニユーヨーク州クロトン- オン‐ハドソン、ハンター・プレス44番地

Claims

【特許請求の範囲】

【請求項１】ｎビットの論理アドレスにｄ×ｎビットの
行列Ｍ′を乗算してｄビットの物理アドレスを形成する
アドレス写像方式において、上記行列Ｍ′のうちｄ個の
連続した列より成るｄ×ｄの部分行列の各々が可逆であ
るように上記行列Ｍ′が構成されているアドレス写像方
式。
【請求項２】上記行列Ｍ′がｎ×ｎの正方行列Ｍの最初
のｄ行ｎ列より成り、上記行列Ｍの最上行又は最大行が
全て１であり、上記行列Ｍの最右列又は最左列が全て１
であり、上記行列Ｍの残りのビットが、上記全て１の行
及び列に近い側の２隣接ビットの排他的論理和であるよ
うに上記正方行列Ｍが構成されている、請求項(1)に記
載のアドレス写像方式。