JP2001117893A

JP2001117893A - 階層構造をもつ並列計算機

Info

Publication number: JP2001117893A
Application number: JP29743999A
Authority: JP
Inventors: Atsushi Kunimatsu; 敦国松; Yukio Watanabe; 幸男渡辺; Hideki Yasukawa; 英樹安川
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1999-10-19
Filing date: 1999-10-19
Publication date: 2001-04-27
Anticipated expiration: 2019-10-19
Also published as: KR100354467B1; KR20010051125A; JP3946393B2; US20060020771A1; EP1096378A2

Abstract

(57)【要約】【課題】最先端の技術による高速プロセッサを、所望
の個数並列に動作させることが可能な共有バス型並列計
算機を提供する。【解決手段】階層型共有バスマルチプロセッサシステ
ムの中間階層の処理ユニットは、通常のプロセッサと同
等のプログラマブル能力を持つプロセッサと、命令メモ
リと、データメモリを備えている。そこでは、下位プロ
セッサからのｓｔａｔｕｓ信号を受け、大容量の転送デ
ータ用メモリを持つＤＭＡコントローラによって、転送
データの圧縮・展開、プログラマブルな負荷分散、下位
のプロセッサの稼働状況に応じた負荷分散が行われる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、階層構造をもつ共
有バス型並列計算機に関し、特に、膨大な計算量が求め
られる画像処理や、コンピュータ・エンタテインメント
や、科学技術計算の実行に適した共有バス型並列計算機
に関するものである。

【０００２】

【従来の技術】従来の共有バス型並列計算機は、複数の
半導体を用いて、基板上の一つのバスに複数のプロセッ
サを配置していた。そこでは、バスのトラフィックを軽
減するためにバスを階層化した場合には、各階層にキャ
ッシュメモリを置いてさらにトラフィックを減らすとい
う方法を用いている。

【０００３】一般に、マルチプロセシング・コンピュー
タ・システムはコンピューティング・タスクを実行する
２つ又はそれ以上のプロセッサを含んでいる。そこで
は、特定のコンピューティング・タスクが１つのプロセ
ッサ上で実行されている間に、他のプロセッサが無関係
のコンピューティング・タスクを実行する。また、特定
のコンピューティング・タスクの複数の構成要素をマル
チプロセッサに分配して全体としてコンピューティング
・タスクの実行時間を短縮する。一般にプロセッサは１
つ以上のオペランドについて演算し、結果を生成するよ
うに構成された装置であり、演算はプロセッサによって
実行される命令に応答して行われる。

【０００４】市販のマルチプロセシング・コンピュータ
・システムにおける一般的構造は、対称型マルチ・プロ
セッサ（ＳＭＰ）構造である。典型的には、ＳＭＰコン
ピュータ・システムはキャッシュ階層を介して共用バス
に結合された複数のプロセッサを有する。更にこのバス
にはシステム内のプロセッサ間で共用されるメモリが結
合される。メモリ内の特定のメモリ位置に対するアクセ
スは、他のメモリ位置に対するアクセスと同様の時間で
行われる。メモリ内の各位置は均一にアクセスされるた
め、この構造は均一メモリ構造（ＵＭＡ）と呼ばれる。

【０００５】プロセッサはしばしば内部キャッシュと共
に構成される。ＳＭＰコンピュータ・システムでは、一
般に１つ以上のキャッシュがプロセッサと共用バスとの
間にキャッシュ階層型に構成される。特定のメイン・メ
モリ・アドレスに存在するデータの複数のコピーがこれ
らキャッシュにストアされる。どの時点においても特定
のアドレスが正確に１つのデータ値をストアしていると
いう共用メモリ・モデルを維持するために、共用バスの
コンピュータ・システムはキャッシュ・コヒーレンシー
を採用している。

【０００６】一般に、特定のメモリ・アドレスにストア
されているデータに対する演算の効果がキャッシュ階層
内のデータの各コピーに反映されていれば、演算はコヒ
ーレントである。例えば、特定のメモリ・アドレスにス
トアされているデータが更新されたとき、その更新は、
前のデータのコピーをストアしているキャッシュに供給
される。あるいは、前のデータのコピーはキャッシュ内
で無効化され、その特定のメモリ・アドレスに対する次
のアクセスでは更新されたコピーがメイン・メモリから
転送されるようにする。共用バス・システムでは、スヌ
ープ・バス・プロトコルが一般に用いられる。共用バス
上で実行される各コヒーレント・トランザクションは、
キャッシュ内のデータと対照して検査（スヌープ）され
る。影響を受けたデータのコピーが見つかると、そのデ
ータをストアしているキャッシュ・ラインの状態はその
コヒーレント・トランザクションに応答して更新され
る。

【０００７】

【発明が解決しようとする課題】しかし、共用バス構造
は、マルチプロセシング・コンピュータ・システムにお
いてその有効性を制約するいくつかの欠点を有する。即
ち、バスには、利用することができるピーク帯域幅（バ
ス上で転送される１秒当たりのバイト数）が存在する
が、バスに対して追加のプロセッサが接続されると、そ
のプロセッサにデータ及び命令を供給するのに要する帯
域幅はこのピーク帯域幅を超えてしまう。必要とされる
プロセッサの帯域幅が利用可能なバス帯域幅を超える
と、いくつかのプロセッサは帯域幅が利用可能になるの
を待たされることになり、コンピュータ・システムの性
能は低下される。一般に、一つのバス上に接続可能なプ
ロセッサ数は３２個くらいが限度である。

【０００８】更に、多くのプロセッサを共用バスに追加
すると、バスの容量負荷が増大し、バスの物理的長さも
増大する。容量負荷が増大し、バスの長さが増大する
と、バス上の信号伝搬遅延が増大する。伝搬遅延の増大
によってトランザクションの実行時間は長くなる。従っ
て、多くのプロセッサを追加するとバスのピーク帯域幅
は減少する。

【０００９】これらの問題はますます増大する動作周波
数及びプロセッサの性能向上によって更に増大される。
高周波化及びより進歩したプロセッサのマイクロ・アー
キテクチャによって、同一のプロセッサ数に対しても、
前のプロセッサ世代よりも高い帯域幅が要求されること
になる。従って、マルチプロセシング・コンピュータ・
システムに対して以前十分な帯域幅を提供していたバス
は、高性能のプロセッサを用いた同様のコンピュータ・
システムに対しては不十分となる。

【００１０】また、共有バス型以外のマルチプロセッサ
システムでは、プログラミングモデルやデバッグが難し
くなるという問題点がある。

【００１１】必要なのは、マイクロプロセッサ及び周辺
回路が高性能化しても、また、接続するプロセッサの必
要数が増加しても、破綻をきたさない、これまでにない
新しいマルチプロセッサ・システムのアーキテクチャー
である。

【００１２】本発明の目的は、最先端の技術による高速
プロセッサを、所望の個数並列に動作させることが可能
な共有バス型並列計算機を提供することである。

【００１３】

【課題を解決するための手段】即ち、上記目的を達成す
るため、本発明（請求項１）は、並列処理の可能な並列
処理タスクを実行する上位処理ユニットと、第１の共有
バスを介して前記上位処理ユニットに接続する複数の中
間処理ユニットと、前記複数の中間処理ユニットの夫々
に、第２の共有バスを介して接続する複数の下位処理ユ
ニットとを備え、前記上位処理ユニットは前記タスクを
分割して前記中間処理ユニットに割り当てると共に、前
記分割タスクの実行に必要なデータを夫々前記中間処理
ユニットに転送し、前記中間処理ユニットは前記分割タ
スクを分割して前記下位処理ユニットに割り当てると共
に、前記分割タスクの実行に必要なデータを夫々前記下
位処理ユニットに転送し、前記下位処理ユニットは、割
り当てられた前記分割タスクを実行し、実行が完了する
とその実行の完了を前記中間処理ユニットに通知し、前
記中間処理ユニットは、割り当てられた前記分割タスク
がすべて完了するとその実行の完了を前記上位処理ユニ
ットに通知し、すべての前記中間処理ユニットがその割
り当てられた前記分割タスクの完了を前記上位処理ユニ
ットに通知すると、前記並列処理タスクの処理が完了す
る共有バス型並列計算機を提供する。

【００１４】本発明（請求項２）は、上記請求項１にお
いて、前記第２の共有バスに接続されたユニット群は、
前記第１の共有パスに接続されたユニット群よりも物理
的に狭い領域に局在し、それぞれのユニットを接続する
信号線は小さい配線容量を持っており、前記第１の共有
パスに接続されたユニット群を同期させるための周波数
よりも、前記第２の共有バスに接続されたユニット群を
同期させるための周波数の方が高いことを特徴とする請
求項１に記載の階層構造を持つ共有バス型並列計算機を
提供する。

【００１５】本発明（請求項３）は、上記請求項２にお
いて、前記上位処理ユニット、前記中間処理ユニット及
び前記下位処理ユニットは、夫々プロセッサ及び前記プ
ロセッサに接続されたメモリを備えていることを特徴と
する階層構造をもつ共有バス型並列計算機を提供する。

【００１６】本発明（請求項４）は、上記請求項２にお
いて、前記分割タスクの実行完了は、前記中間処理ユニ
ット又は前記上位処理ユニットに、ｓｔａｔｕｓ入力信
号線を介して通知されることを特徴とする階層構造をも
つ共有バス型並列計算機を提供する。

【００１７】本発明（請求項５）は、上記請求項２にお
いて、前記中間処理ユニットは、夫々プロセッサ及び前
記プロセッサに接続されたメモリ及びＤＭＡコントロー
ラを備えていることを特徴とする階層構造をもつ共有バ
ス型並列計算機を提供する。

【００１８】本発明（請求項６）は、上記請求項２にお
いて、前記プロセッサと前記ＤＭＡコントローラは、コ
プロセッサ接続されていることを特徴とする階層構造を
もつ共有バス型並列計算機を提供する。

【００１９】本発明（請求項７）は、上記請求項２にお
いて、前記上位処理ユニットは、前記分割タスクの実行
に必要なデータを圧縮して、夫々前記中間処理ユニット
に転送することを特徴とする階層構造をもつ共有バス型
並列計算機を提供する。

【００２０】本発明（請求項８）は、上記請求項２にお
いて、前記中間処理ユニットは、前記分割タスクの実行
に必要なデータを圧縮して、夫々前記下位処理ユニット
に転送することを特徴とする階層構造をもつ共有バス型
並列計算機を提供する。

【００２１】本発明（請求項９）は、上記請求項２にお
いて、前記中間処理ユニットは、ＤＭＡ転送処理ユニッ
トであることを特徴とする階層構造をもつ共有バス型並
列計算機を提供する。

【００２２】本発明（請求項１０）は、上記請求項９に
おいて、前記ＤＭＡ転送処理ユニットは、プログラマブ
ルであることを特徴とする階層構造をもつ共有バス型並
列計算機を提供する。

【００２３】典型的な実施例では、階層型共有バスマル
チプロセッサシステムの中間階層の処理ユニットは、通
常のプロセッサと同等のプログラマブル能力を持つプロ
セッサと、命令メモリと、データメモリを備えている。
そこでは、下位プロセッサからのｓｔａｔｕｓ信号を受
け、大容量の転送データ用メモリを持つＤＭＡコントロ
ーラによって、転送データの圧縮・展開、プログラマブ
ルな負荷分散、下位のプロセッサの稼働状況に応じた負
荷分散が行われる。

【００２４】

【発明の実施の形態】図１は、本発明の第１の実施形態
による階層バス型マルチプロセッサシステムの全体像を
示すブロックダイアグラムである。この階層バス型マル
チプロセッサシステムは、１ＧバイトのＧＨＱ用メイン
メモリ１１１と、ＧＨＱプロセッサ１１３と、後述する
ように夫々複数のプロセッサを備えた４つのＳＱＵＡＤ
処理ユニット１２０とからなっている。このＳＱＵＡＤ
処理ユニット１２０は、マルチチップモジュールに実装
されている。これらＧＨＱプロセッサ１１３と４つのＳ
ＱＵＡＤ処理ユニット１２０及びＧＨＱ用メインメモリ
１１１は、第１レベルバスで接続されている。

【００２５】以上の５つの要素は、すなわち、ＧＨＱ用
メインメモリ１１１を形成するメモリモジュールと、Ｇ
ＨＱプロセッサ１１３及び４つのマルチチップモジュー
ルは、前記第１レベルバスが形成されているプリント配
線板１０１上で相互に接続される。

【００２６】一方、４つのＳＱＵＡＤ処理ユニット１２
０は、マルチチップモジュールとして実装される。マル
チチップモジュール（ＭＣＭ）は、通常の単一チップパ
ッケージのサブシステム内に組み込まれる複数のパッケ
ージされていない集積回路からなる。ある型のマルチチ
ップモジュールは、基板と、薄膜相互接続構造体と、こ
の薄膜相互接続構造体上に取り付けられ且つエポキシパ
ッシベーション材料にて包囲された複数の集積回路とを
含んでいる。

【００２７】ＭＣＭは、ユーザに対して、従来のメッキ
スルーホールおよびサーフェイスマウント技法によるプ
リント配線板よりも、より高い周波数性能を実現する、
すなわち、基板上にマルチチップを密集させてパッケー
ジングすることにより、配線容量と共に伝播距離が減少
させられ、このため、一般的に、性能の向上が可能とな
る。

【００２８】図２に本実施例で用いられるマルチチップ
モジュール（ＭＣＭ）を示す。ＭＣＭは、多数の層１０
２Ａ〜１０２Ｅから構成される共通基板上に取り付けら
れたＩＣチップ１０１a〜１０１ｆ間で信号を結合する
ために高ワイヤ密度を必要とする。なお、所与の設計に
より必要とされる特定の製造技術及び配線密度に適応さ
せるよう任意の数の層を用いることが可能である。

【００２９】ここでは、ＩＣチップ１０１ｃ及びＩＣチ
ップ１０１ｄは１チップのＤＭＡメモリモジュール及び
ＳＱＵＡＤプロセッサであり、ＩＣチップ１０１ａ、Ｉ
Ｃチップ１０１ｂ、ＩＣチップ１０１ｅ、ＩＣチップ１
０１ｆは、夫々ＦＬＩＧＨＴ処理ユニット１３０のチッ
プである。多数の層１０２Ａ〜１０２Ｅに、共有バスが
形成されている。

【００３０】図１に示す実施例では、特開平１０−５６
０３６に記載されているような従来のマルチレベルセラ
ミック基板技術が用いられるが、それと同等の任意の技
術を用いることも可能である。図１の場合、層１０２Ａ
〜１０２Ｊは、それぞれ、パターン化メタライゼーショ
ン層が形成された絶縁セラミック材料から構成される。
層１０２Ａ〜１０２Ｄは、それぞれ、一部が除去され
て、多層キャビティを形成しており、各層１０２Ｂ〜１
０２Ｅにおけるパターン化メタライゼーション層の一部
が該キャビティの周辺で露出している。層１０２Ｅの露
出部分は、チップ取付面を形成しており、導電性エポキ
シ、ハンダ、または同様のチップ取付技術によってＩＣ
チップ１０１a〜１０１ｆが取り付けられるメタライゼ
ーション接地面によってほぼ被覆されている。

【００３１】層１０２Ｂ〜１０２Ｄが、それぞれ、ＩＣ
チップ１０１a〜１０１ｆからＭＣＭ入出力（Ｉ／Ｏ）
ピンまたは端子（図示せず）にデジタルデータ信号を伝
送する信号配線を有している。層１０２Ａは、下方に位
置する層に対する化学的、機械的、及び電気的な保護を
行うと共にパッケージキャップのための取付面として働
く正面である。利用可能なＭＣＭ技術を用いて、層１０
２Ｂ〜１０２Ｄにプリント配線、Ｉ／Ｏピン及び端子を
形成し、これにより、ＭＣＭ１００を外部回路要素と結
合させることが可能となる。ワイヤボンドは、各ＩＣチ
ップ１０１a〜１０１ｆのエッジの１つに形成されたボ
ンドパッドを、層１０２Ｂ〜１０２Ｄの選択された導体
またはボンドパッドに結合させる。

【００３２】このような構成をとることにより、第２レ
ベルバスのバンド幅を、上位のプリント配線板に比較し
て格段に広くすることが可能となる。同様に、ＦＬＩＧ
ＨＴ処理ユニット１３０内部には、複数のＦＩＧＨＴＥ
Ｒ処理ユニット１４０が実装されているが、そこではＭ
ＣＭ構造よりも更に高速化に有利な単一シリコン基板上
の接続となっているために、更に広いバンド幅が達成さ
れる。このように、本発明では、下の階層程、処理ユニ
ットの実装の局在化がすすみ、動作周波数がより高周波
となるという特徴がある。

【００３３】システム全体の統括を行なっているのが最
上位のＧＨＱ処理ユニット１１０であり、ここでは１チ
ップのＧＨＱプロセッサ１１３及びＧＨＱ用メインメモ
リ１１１を含んでいる。この図では階層は４段、すなわ
ち、ＧＨＱ処理ユニット１１０，ＳＱＵＡＤ処理ユニッ
ト１２０、ＦＬＩＧＨＴ処理ユニット１３０，ＦＩＧＨ
ＴＥＲ処理ユニット１４０となっている。そして、ＧＨ
Ｑ処理ユニット１１０の直下には、ＦＬＩＧＨＴ処理ユ
ニット１３０及びＦＩＧＨＴＥＲ処理ユニット１４０を
実装する４つのＳＱＵＡＤ処理ユニット１２０が接続さ
れている。このＧＨＱ処理ユニット１１０と、ＳＱＵＡ
Ｄ処理ユニット１２０及びＧＨＱ用メインメモリ１１１
は、３２ビット幅の第１レベルバスで接続されており、
全体のバンド幅は２５６Ｍｂｙｔｅ／ｓｅｃ（周波数６
６ＭＨｚ）となっている。

【００３４】各ＳＱＵＡＤ処理ユニット１２０で、ユニ
ット内部の処理全体の統括を行なっているのがＳＱＵＡ
ＤＣｏｍｍａｎｄｅｒプロセッサ１２３であり、ＳＱ
ＵＡＤ用命令メモリ１２５及びＳＱＵＡＤ用データメモ
リ１２７と共に、ＳＱＵＡＤ用ＤＭＡメモリ１２１が接
続している。このＳＱＵＡＤ処理ユニット１２０も１チ
ップに集積されている。また、ＳＱＵＡＤＣｏｍｍａ
ｎｄｅｒプロセッサ１２３の直下には、１６個のＦＩＧ
ＨＴＥＲ処理ユニット１４０を統括する４個のＦＬＩＧ
ＨＴ処理ユニット１３０が接続されている。このＳＱＵ
ＡＤＣｏｍｍａｎｄｅｒプロセッサ１２３は、ＦＬＩ
ＧＨＴ処理ユニット１３０と、６４ビット幅の第２レベ
ルバスで接続されており、全体のバンド幅は８００Ｍｂ
ｙｔｅ／ｓｅｃ（周波数１００ＭＨｚ）となっている。

【００３５】各ＦＬＩＧＨＴ処理ユニット１３０で、ユ
ニット内部の処理全体の統括を行なっているのがＦＬＩ
ＧＨＴＣｏｍｍａｎｄｅｒプロセッサ１３３であり、
ＦＬＩＧＨＴ用命令メモリ１３５及びＦＬＩＧＨＴ用デ
ータメモリ１３７と共に、ＦＬＩＧＨＴ用ＤＭＡメモリ
１３１が接続している。このＦＬＩＧＨＴ処理ユニット
１３０は、ＳＱＵＡＤ処理ユニット１２０のチップに集
積されている。また、ＦＬＩＧＨＴＣｏｍｍａｎｄｅ
ｒプロセッサ１３３の直下には、夫々６４ＫbyteのＦＩ
ＧＨＴＥＲ用メモリ１４１を備えた１６個のＦＩＧＨＴ
ＥＲプロセッサ１４３が接続されている。このＦＬＩＧ
ＨＴ処理ユニット１３０とＦＩＧＨＴＥＲプロセッサ１
４３は、１２８ビット幅のバスで接続されており、全体
のバンド幅は２１２８Ｍｂｙｔｅ／ｓｅｃ（周波数１３
３ＭＨｚ）となっている。また、ＦＩＧＨＴＥＲプロセ
ッサ１４３の動作周波数は、５３３ＭＨｚである。

【００３６】ＧＨＱ処理ユニット１１０は処理する問題
を各ＳＱＵＡＤ処理ユニット１２０に割り当てるために
タスクに分割する。ＧＨＱ処理ユニット１１０はタスク
を分割すると、その内容を圧縮してＳＱＵＡＤ処理ユニ
ット１２０に転送する。圧縮アルゴリズムとしては、ラ
ンレングス法やハフマン符号法等、データの性質に適し
たものを利用する。圧縮が効果的でないか不要の場合に
は、生のタスクデータを転送する。本発明では、タスク
を分割し、下位にいくほど転送するタスクデータは減少
するので、動作周波数が高くなっても、要求されるバン
ド幅の増加は抑えられる。

【００３７】ＳＱＵＡＤ処理ユニット１２０はＧＨＱ処
理ユニット１１０からタスク（必要により圧縮されたタ
スクデータ）を受け取ると、そのＳＱＵＡＤ処理ユニッ
ト１２０のｓｔａｔｕｓがｂｕｓｙであることをＧＨＱ
処理ユニット１１０に通知する。それから、圧縮されて
いるう場合にはそのデータを展開する。

【００３８】一方、ＳＱＵＡＤ処理ユニット１２０は与
えられたタスクを、各ＦＬＩＧＨＴ処理ユニット１３０
に割り当てるためにタスクに分割する。ＳＱＵＡＤ処理
ユニット１２０はタスクを分割すると、その内容を圧縮
してＦＬＩＧＨＴ処理ユニット１３０に転送する。圧縮
が効果的でない場合や不要な場合には、生のタスクデー
タを転送する。ＦＬＩＧＨＴ処理ユニット１３０はＳＱ
ＵＡＤ処理ユニット１２０からタスク（必要により圧縮
されたタスクデータ）を受け取ると、そのＦＬＩＧＨＴ
処理ユニット１３０のｓｔａｔｕｓをｂｕｓｙにするよ
うにＳＱＵＡＤ処理ユニット１２０に依頼する。それか
ら、圧縮されている場合にはそのデータを展開する。

【００３９】ＦＬＩＧＨＴ処理ユニット１３０は、その
タスクをＦＩＧＨＴＥＲ処理ユニット１４０に割り当て
るために更に細かく分割し、各ＦＩＧＨＴＥＲ処理ユニ
ット１４０にその分割後のタスクデータを転送する。
尚、ここでタスクデータとは、処理の内容と、それに必
要なデータを意味する。

【００４０】すなわち、中間ノードとなるＳＱＵＡＤ処
理ユニット１２０及びＦＬＩＧＨＴ処理ユニット１３０
の主な役割はスケジューリングとデータ転送であり、実
際に問題を解くのは最下層に位置するＦＩＧＨＴＥＲ処
理ユニット１４０となる。ＦＩＧＨＴＥＲ処理ユニット
１４０がタスクを受け取ると、上位のＦＬＩＧＨＴ処理
ユニット１３０へ、そのＦＩＧＨＴＥＲ処理ユニット１
４０のｓｔａｔｕｓをｂｕｓｙにするように依頼してか
ら、そのタスクを処理する。与えられたタスクの処理が
終了すると、結果をＦＬＩＧＨＴ処理ユニット１３０に
報告し、ｓｔａｔｕｓがｉｄｌｅに戻される。

【００４１】ｉｄｌｅに戻ったＦＩＧＨＴＥＲ処理ユニ
ット１４０を発見すると、ＦＬＩＧＨＴ処理ユニット１
３０は、分割されてまだ未処理のタスクを、そのＦＩＧ
ＨＴＥＲ処理ユニット１４０に割り当てる。

【００４２】１つのＦＬＩＧＨＴ処理ユニット１３０で
分割された全てのタスクがＦＩＧＨＴＥＲ処理ユニット
１４０によって処理されると、ＦＬＩＧＨＴ処理ユニッ
ト１３０はＳＱＵＡＤ処理ユニット１２０に結果を転送
し、そのｓｔａｔｕｓがｉｄｌｅに戻される。ＳＱＵＡ
Ｄ処理ユニット１２０はＦＬＩＧＨＴ処理ユニット１３
０の処理と同様、ｉｄｌｅのＦＬＩＧＨＴ処理ユニット
１３０を発見すると未処理タスクをそのＦＬＩＧＨＴ処
理ユニット１３０に割り当てる。

【００４３】同様に、ＳＱＵＡＤ処理ユニット１２０で
は、その下位に属する全てのＦＬＩＧＨＴ処理ユニット
１３０から、処理結果が転送されると、ＧＨＱ処理ユニ
ット１１０に結果を転送し、そのＳＱＵＡＤ処理ユニッ
ト１２０のｓｔａｔｕｓがｉｄｌｅに戻される。

【００４４】やはり、ＧＨＱ処理ユニット１１０はＦＬ
ＩＧＨＴ処理ユニット１３０の処理と同様、ｉｄｌｅの
ＳＱＵＡＤ処理ユニット１２０を発見すると未処理タス
クがあれば、そのタスクをＳＱＵＡＤ処理ユニット１２
０に割り当てる。

【００４５】ＧＨＱ処理ユニット１１０が持っている全
てのタスクの処理がＳＱＵＡＤ処理ユニット１２０で完
了すると、与えられた問題全体の処理が完了することに
なる。

【００４６】以上のように、ＦＩＧＨＴＥＲ処理ユニッ
ト１４０と、その上位のＦＬＩＧＨＴ処理ユニット１３
０、ＳＱＵＡＤ処理ユニット１２０及び最上位のＧＨＱ
処理ユニット１１０とは、処理内容が異なる。ＦＩＧＨ
ＴＥＲ処理ユニット１４０は、実際の処理計算のみを行
うので、複雑な判断や込み入ったルーチンを実行する能
力は必要が無いが、計算能力は高いことが要求される。
従って、ＦＩＧＨＴＥＲプロセッサ１４３は、整数ユニ
ットと浮動小数点ユニットを複数有することが望まし
い。ここでは、演算ユニットとして、整数ユニット１つ
と浮動小数点ユニットを２つ持つものとする。また、高
速化を助ける目的で、ハザード処理や割り込み処理に要
する回路を省略している。従って、動作周波数が５３３
ＭＨｚとすると、１．０６６ＧＦＬＯＰＳの処理が可能
となる。

【００４７】一方、ＳＱＵＡＤ処理ユニット１２０やＦ
ＬＩＧＨＴ処理ユニット１３０は、ブローカーであり、
基本的に上位の階層及び下位の階層とのデータの送受信
の制御を行う。従って、ＳＱＵＡＤＣｏｍｍａｎｄｅ
ｒプロセッサ１２３やＦＬＩＧＨＴＣｏｍｍａｎｄｅ
ｒプロセッサ１３３が実装すべき演算ユニットは最も小
規模のものでも十分である。ここでは、整数ユニットを
１つ持つものとする。

【００４８】また、ＧＨＱ処理ユニット１１０は、メイ
ンのプログラムを実行するものであり、ＧＨＱＣｏｍｍ
ａｎｄｅｒプロセッサとしては汎用性のあるプロセッサ
が用いられる。従って、一般的な高性能マイクロプロセ
ッサを利用することができる。

【００４９】従って、以上のような構成は、次のような
技術的な思想が実装されている。先ず、ＧＨＱ用メイン
メモリ１１１を形成するメモリモジュールと、ＧＨＱプ
ロセッサ１１３及び４つのマルチチップモジュールの５
つの構成要素は、６６ＭＨｚのクロックで同期が取られ
る。ここでは、比較的広い領域にわたって、同期を取る
必要があり為、同期クロックは比較的低く抑えられてい
る。

【００５０】次に、ＳＱＵＡＤ処理ユニット１２０は、
夫々、ＧＨＱ処理ユニット１１０から６６ＭＨｚの同期
クロックを受け、これをＰＬＬ等で１．５倍にして１０
０ＭＨｚとし、これをユニット内の同期クロックとす
る。ここでは、４つのＦＬＩＧＨＴ処理ユニット１３
０、ＳＱＵＡＤＣｏｍｍａｎｄｅｒプロセッサ１２
３、ＳＱＵＡＤ用命令メモリ１２５、ＳＱＵＡＤ用デー
タメモリ１２７及びＳＱＵＡＤ用ＤＭＡメモリ１２１
が、この１００ＭＨｚの同期クロックに同期して動作す
る。ＳＱＵＡＤ処理ユニット１２０の１つの領域は、Ｇ
ＨＱ処理ユニット全体の領域の一部のみに局在化してお
り、信号の伝播距離やスキューもその分小さくなり、高
周波数での動作が可能となっている。

【００５１】次に、ＦＬＩＧＨＴ処理ユニット１３０
は、夫々、ＳＱＵＡＤ処理ユニット１２０から１００Ｍ
Ｈｚの同期クロックを受け、これをＰＬＬ等で１．５倍
にして１３３ＭＨｚとし、これをユニット内の同期クロ
ックとする。ここでは、１６個のＦＩＧＨＴＥＲ処理ユ
ニット１４０、ＦＬＩＧＨＴＣｏｍｍａｎｄｅｒプロ
セッサ１３３、ＦＬＩＧＨＴ用命令メモリ１２５及びＦ
ＬＩＧＨＴ用データメモリ１３７及びＦＬＩＧＨＴ用Ｄ
ＭＡメモリ１３１が、この１３３ＭＨｚの同期クロック
に同期して動作する。ＦＬＩＧＨＴ処理ユニット１３０
の１つの領域は、ＳＱＵＡＤ処理ユニット１２０全体の
領域の一部のみに局在化しており、更に高周波数での動
作が可能となっている。

【００５２】更に、ＦＩＧＨＴＥＲ処理ユニット１４０
は、夫々、ＦＬＩＧＨＴ処理ユニット１３０から１３３
ＭＨｚの同期クロックを受け、これをＰＬＬ等で２倍に
して２６６ＭＨｚとし、これをユニット内の同期クロッ
クとする。これをＰＬＬ等で２倍にして５３３ＭＨｚと
し、これをＦＬＩＧＨＴＣｏｍｍａｎｄｅｒプロセッ
サ１３３の動作クロックとする。ここでは、ＦＬＩＧＨ
ＴＣｏｍｍａｎｄｅｒプロセッサ１３３とＦＩＧＨＴ
ＥＲ用メモリ１４１が、この２６６ＭＨｚの同期クロッ
クに同期して動作する。ＦＩＧＨＴＥＲ処理ユニット１
４０は非常に小さな領域に集積されており、信号の伝播
距離やスキューも小さく、高周波数で動作が可能となっ
ている。

【００５３】次に、本発明の特徴部分の１つである、中
間階層の構成、すなわちＳＱＵＡＤ処理ユニット１２０
及びＦＬＩＧＨＴ処理ユニット１３０の構成を説明す
る。図５は、この中間階層の１つのユニットの構成を示
すブロックダイアグラムである。この中間階層ユニット
は、Ｃｏｍｍａｎｄｅｒプロセッサとしての汎用プロセ
ッサに、１０ｃｈのＤＭＡコントローラが接続されてい
る。このＤＭＡコントローラは、汎用プロセッサとコプ
ロセッサ接続をしており、既存のＤＭＡコントローラを
利用することもできる。

【００５４】このＤＭＡコントローラはバスに接続され
ており、そのバスには、ＤＭＡ転送用の大容量メモリ、
上位階層バスへの接続線、下位階層バスへの接続線が接
続されている。それぞれの接続線とバスの間にはＦＩＦ
Ｏが設けられている。またプロセッサコアには下位プロ
セッサからのｓｔａｔｕｓ情報を収集する信号線を有す
る。ＳＱＵＡＤ処理ユニット１２０を例とすれば、下位
の４個のＦＬＩＧＨＴ処理ユニット１３０から４つのｓ
ｔａｔｕｓ信号線が来ている。それぞれの信号線は１ｂ
ｉｔ以上であり、対応する下位階層のプロセッサがｂｕ
ｓｙかどうかを示している。

【００５５】Ｃｏｍｍａｎｄｅｒプロセッサは、データ
メモリと命令メモリが設けられており、ここにこのＣｏ
ｍｍａｎｄｅｒプロセッサが実行すべきプログラムと必
要なデータが格納されている。ここで実行されるプログ
ラムは、上位階層からのデータを必要に応じて展開し、
コマンドを解釈し、必要な処理を行った上で、タスクの
割り振り及びスケジューリングを行い、処理対象データ
を下位階層へ転送する。具体的には、自陣の処理ユニッ
トに割り振られた処理データは、ＤＭＡコントローラに
よって高速にＤＭＡ転送用メモリに転送され、適宜利用
可能な下位階層の処理ユニットへＤＭＡ転送される。こ
のアルゴリズムはデータメモリに格納されるプログラム
で実装される。言い換えれば、この中間階層ユニット
は、全体としてインテリジェントＤＭＡシステムという
べきものを構成する。

【００５６】また、ごく特定の処理に特化したシステ
ム、例えば汎用性を必要としないようなグラフィックシ
ミュレータ等では、ＨＱＣｏｍｍａｎｄｅｒプロセッサ
以外のプロセッサは、ＤＭＡコントローラを含み、ハー
ドウエアで実装された非ノイマン型ＤＭＡプロセッサと
することも可能である。

【００５７】次に、ここで用いられるメモリ構造を説明
する。１つの最も容易な実装は、すべての構成プロセッ
サに対して、ローカルなメモリ空間が付随するというも
のである。すべてローカルなので、スヌープ・バス・プ
ロトコルやコヒーレント・トランザクションを特に準備
する必要は無い。

【００５８】この場合、ＧＨＱプロセッサ１１３のメモ
リ空間は、ＧＨＱ用メインメモリ１１１にのみマッピン
グされる。また、ＳＱＵＡＤＣｏｍｍａｎｄｅｒプロ
セッサ１２３のメモリ空間は、ＳＱＵＡＤ用命令メモリ
１２５及びＳＱＵＡＤ用データメモリ１２７と共に、Ｓ
ＱＵＡＤ用ＤＭＡメモリ１２１にマッピングされる。Ｇ
ＨＱプロセッサ１１３のメモリ空間とＳＱＵＡＤＣｏ
ｍｍａｎｄｅｒプロセッサ１２３のメモリ空間は、独立
である。更に、異なるＳＱＵＡＤＣｏｍｍａｎｄｅｒ
プロセッサ１２３のメモリ空間同士も独立である。

【００５９】同様に、ＦＬＩＧＨＴＣｏｍｍａｎｄｅ
ｒプロセッサ１３３のメモリ空間は、ＦＬＩＧＨＴ用命
令メモリ１３５及びＦＬＩＧＨＴ用データメモリ１３７
と共に、そのＦＬＩＧＨＴ用ＤＭＡメモリ１３１にマッ
ピングされる。ここでも、ＦＬＩＧＨＴＣｏｍｍａｎ
ｄｅｒプロセッサ１３３のメモリ空間は、ＧＨＱプロセ
ッサ１１３のメモリ空間やＳＱＵＡＤＣｏｍｍａｎｄ
ｅｒプロセッサ１２３のメモリ空間とは独立である。更
に、異なるＦＬＩＧＨＴＣｏｍｍａｎｄｅｒプロセッ
サ１３３のメモリ空間同士も独立である。

【００６０】同様に、ＦＩＧＨＴＥＲプロセッサ１４３
のメモリ空間は、夫々６４ＫbyteのＦＩＧＨＴＥＲ用メ
モリ１４１にマッピングされる。やはり、ＦＩＧＨＴＥ
Ｒプロセッサ１４３のメモリ空間は、ＦＬＩＧＨＴＣ
ｏｍｍａｎｄｅｒプロセッサ１３３、ＧＨＱプロセッサ
１１３のメモリ空間、ＳＱＵＡＤＣｏｍｍａｎｄｅｒ
プロセッサ１２３のメモリ空間とは独立である。更に、
異なるＦＩＧＨＴＥＲプロセッサ１４３のメモリ空間同
士も独立である。

【００６１】また、ＧＨＱプロセッサ１１３のメモリ空
間を、すべてのプロセッサのメモリ空間に分割して、マ
ッピングしても良い。この場合、形式上、上位の階層と
下位の階層間のデータの送受信は、メモリの移動命令と
いうことになる。このメモリの移動命令は、上位の階層
と下位の階層間のＤＭＡコマンドとして実装される。

【００６２】この場合、ＧＨＱ処理ユニット１１０の実
メモリと下位の階層の実メモリとの関係の設定方法とし
ては、例えば、ＳＱＵＡＤ処理ユニット１２０の実メモ
リが、ＧＨＱ処理ユニット１１０の実メモリと同一アド
レスを共有する方法がある。しかし、ＧＨＱプロセッサ
１１３の実行しているプログラムが、処理ユニットのプ
ログラムの実行内容を完全にコントロールしているの
で、スヌープ・バス・プロトコルやコヒーレント・トラ
ンザクションを特に準備する必要は無い。同様に、ＦＬ
ＩＧＨＴ処理ユニット１３０の実メモリは、ＳＱＵＡＤ
処理ユニット１２０の実メモリと同一アドレスを共有さ
れ、ＦＩＧＨＴＥＲ処理ユニット１４０の実メモリは、
ＦＬＩＧＨＴ処理ユニット１３０の実メモリと同一アド
レスを共有される。

【００６３】図３は、本発明の第２の実施形態による階
層バス型マルチプロセッサシステムの全体像を示すブロ
ックダイアグラムである。この階層バス型マルチプロセ
ッサシステムは、１Ｇバイトの１チップのＧＨＱ用メイ
ンメモリ２１１と、１チップのＧＨＱプロセッサ２１３
と、後述するように夫々複数のプロセッサを備えた４つ
のＳＱＵＡＤ処理ユニット２２０とからなっている。こ
のＳＱＵＡＤ処理ユニット２２０も１チップに集積され
ている。これらＧＨＱプロセッサ２１３と４つのＳＱＵ
ＡＤ処理ユニット２２０及びＧＨＱ用メインメモリ２１
１は、第１レベルバスで接続されている。

【００６４】以上の５つの集積回路のチップは、マルチ
チップモジュールとして実装される。

【００６５】マルチチップモジュール（ＭＣＭ）は、通
常の単一チップパッケージのサブシステム内に組み込ま
れる複数のパッケージされていない集積回路からなる。
ある型のマルチチップモジュールは、基板と、薄膜相互
接続構造体と、この薄膜相互接続構造体上に取り付けら
れ且つエポキシパッシベーション材料にて包囲された複
数の集積回路とを含んでいる。

【００６６】ＭＣＭは、ユーザに対して、従来のメッキ
スルーホールおよびサーフェイスマウント技法によるプ
リント配線板よりも、より高い周波数性能を実現する、
すなわち、基板上にマルチチップを密集させてパッケー
ジングすることにより、配線容量と共に伝播距離が減少
させられ、このため、一般的に、性能が増大させられ
る。

【００６７】図４に本実施例で用いられるマルチチップ
モジュール（ＭＣＭ）を示す。ＭＣＭは、多数の層２０
２Ａ〜２０２Ｅから構成される共通基板上に取り付けら
れたＩＣチップ２０１a〜２０１ｆ間で信号を結合する
ために高ワイヤ密度を必要とする。なお、所与の設計に
より必要とされる特定の製造技術及び配線密度に適応さ
せるよう任意の数の層を用いることが可能である。

【００６８】ここでは、ＩＣチップ２０１ｃ及びＩＣチ
ップ２０１ｄはＧＨＱ用メインメモリ２１１及びＧＨＱ
プロセッサ２１３であり、ＩＣチップ２０１ａ、ＩＣチ
ップ２０１ｂ、ＩＣチップ２０１ｅ、ＩＣチップ２０１
ｆは、夫々ＳＱＵＡＤ処理ユニット２２０のチップであ
る。多数の層２０２Ａ〜２０２Ｅに、１０本のラムバス
を含む第１レベルバスの配線が設けられている。

【００６９】図１に示す実施例では、特開平１０−５６
０３６に記載されているような従来のマルチレベルセラ
ミック基板技術が用いられるが、それと同等の任意の技
術を用いることも可能である。図１の場合、層２０２Ａ
〜２０２Ｊは、それぞれ、パターン化メタライゼーショ
ン層が形成された絶縁セラミック材料から構成される。
層２０２Ａ〜２０２Ｄは、それぞれ、一部が除去され
て、多層キャビティを形成しており、各層２０２Ｂ〜２
０２Ｅにおけるパターン化メタライゼーション層の一部
が該キャビティの周辺で露出している。層２０２Ｅの露
出部分は、チップ取付面を形成しており、導電性エポキ
シ、ハンダ、または同様のチップ取付技術によってＩＣ
チップ２０１a〜２０１ｆが取り付けられるメタライゼ
ーション接地面によってほぼ被覆されている。

【００７０】層２０２Ｂ〜２０２Ｄが、それぞれ、ＩＣ
チップ２０１a〜２０１ｆからＭＣＭ入出力（Ｉ／Ｏ）
ピンまたは端子（図示せず）にデジタルデータ信号を伝
送する信号配線を有している。層２０２Ａは、下方に位
置する層に対する化学的、機械的、及び電気的な保護を
行うと共にパッケージキャップのための取付面として働
く正面である。利用可能なＭＣＭ技術を用いて、層２０
２Ｂ〜２０２Ｄにプリント配線、Ｉ／Ｏピン及び端子を
形成し、これにより、ＭＣＭ１００を外部回路要素と結
合させることが可能となる。ワイヤボンドは、各ＩＣチ
ップ２０１a〜２０１ｆのエッジの１つに形成されたボ
ンドパッドを、層２０２Ｂ〜２０２Ｄの選択された導体
またはボンドパッドに結合させる。

【００７１】このような構成をとることにより、第１レ
ベルバスのバンド幅を、通常のプリント配線板に比較し
て格段に広くすることが可能となる。同様に、ＳＱＵＡ
Ｄ処理ユニット２２０内部には、複数のＦＬＩＧＨＴ処
理ユニット２３０が実装されているが、そこではＭＣＭ
構造よりも更に高速化に有利な単一シリコン基板上の接
続となっているために、更に広いバンド幅が達成され
る。このように、本発明では、下の階層程、処理ユニッ
トの実装の局在化がすすみ、動作周波数がより高周波と
なるという特徴がある。

【００７２】システム全体の統括を行なっているのが最
上位のＧＨＱ処理ユニット２１０であり、ここでは１チ
ップのＧＨＱプロセッサ２１３及びＧＨＱ用メインメモ
リ２１１を含んでいる。この図では階層は４段、すなわ
ち、ＧＨＱ処理ユニット２１０，ＳＱＵＡＤ処理ユニッ
ト２２０、ＦＬＩＧＨＴ処理ユニット２３０，ＦＩＧＨ
ＴＥＲ処理ユニット２４０となっている。そして、ＧＨ
Ｑ処理ユニット２１０の直下には、ＦＬＩＧＨＴ処理ユ
ニット２３０及びＦＩＧＨＴＥＲ処理ユニット２４０を
実装する４つのＳＱＵＡＤ処理ユニット２２０が接続さ
れている。このＧＨＱ処理ユニット２１０と、ＳＱＵＡ
Ｄ処理ユニット２２０及びＧＨＱ用メインメモリ２１１
は、１０本のラムバスで接続されており、全体のバンド
幅は１６Ｇｂｙｔｅ／ｓｅｃ（周波数４００ＭＨｚｘ
２）となっている。ＧＨＱ用メインメモリ２１１を形
成するメモリモジュールと、ＧＨＱプロセッサ２１３及
び４つのマルチチップモジュールの５つの構成要素は、
１８７．５ＭＨｚのクロックで同期が取られている。従
って、ＳＱＵＡＤ処理ユニット２２０は、夫々、ＧＨＱ
処理ユニット２１０から１８７．５ＭＨｚの同期クロッ
クを入力している。

【００７３】各ＳＱＵＡＤ処理ユニット２２０で、ユニ
ット内部の処理全体の統括を行なっているのがＳＱＵＡ
ＤＣｏｍｍａｎｄｅｒプロセッサ２２３であり、ＳＱ
ＵＡＤ用命令メモリ２２５及びＳＱＵＡＤ用データメモ
リ２２７と共に、ＳＱＵＡＤ用ＤＭＡメモリ２２１が接
続している。このＳＱＵＡＤ処理ユニット２２０も１チ
ップに集積されている。また、ＳＱＵＡＤＣｏｍｍａ
ｎｄｅｒプロセッサ２２３の直下には、１６個のＦＩＧ
ＨＴＥＲ処理ユニット２４０を統括する４個のＦＬＩＧ
ＨＴ処理ユニット２３０が接続されている。このＳＱＵ
ＡＤＣｏｍｍａｎｄｅｒプロセッサ２２３は、ＦＬＩ
ＧＨＴ処理ユニット２３０と、６１４４ビット幅のバス
で接続されており、全体のバンド幅は３８８Ｇｂｙｔｅ
／ｓｅｃ（周波数３７５ＭＨｚ）となっている。４つの
ＦＬＩＧＨＴ処理ユニット２３０、ＳＱＵＡＤＣｏｍ
ｍａｎｄｅｒプロセッサ２２３、ＳＱＵＡＤ用命令メモ
リ２２５、ＳＱＵＡＤ用データメモリ２２７及びＳＱＵ
ＡＤ用ＤＭＡメモリ２２１が、この３７５ＭＨｚの同期
が取られている。従って、ＦＬＩＧＨＴ処理ユニット２
３０は、夫々、ＳＱＵＡＤ処理ユニット２２０から３７
５ＭＨｚの同期クロックを入力している。

【００７４】各ＦＬＩＧＨＴ処理ユニット２３０で、ユ
ニット内部の処理全体の統括を行なっているのがＦＬＩ
ＧＨＴＣｏｍｍａｎｄｅｒプロセッサ２３３であり、
ＦＬＩＧＨＴ用命令メモリ２２５及びＦＬＩＧＨＴ用デ
ータメモリ２３７と共に、ＦＬＩＧＨＴ用ＤＭＡメモリ
２３１が接続している。このＦＬＩＧＨＴ処理ユニット
２３０は、ＳＱＵＡＤ処理ユニット２２０のチップに集
積されている。また、ＦＬＩＧＨＴＣｏｍｍａｎｄｅ
ｒプロセッサ２３３の直下には、夫々６４ＫbyteのＦＩ
ＧＨＴＥＲ用メモリ２４１とＦＩＧＨＴＥＲプロセッサ
２４３からなる１６個のＦＩＧＨＴＥＲ処理ユニット２
４０が接続されている。１６個のＦＩＧＨＴＥＲプロセ
ッサ２４３、ＦＬＩＧＨＴＣｏｍｍａｎｄｅｒプロセ
ッサ２３３、ＦＬＩＧＨＴ用命令メモリ２２５及びＦＬ
ＩＧＨＴ用データメモリ２３７、ＦＬＩＧＨＴ用ＤＭＡ
メモリ２３１は、７５０ＭＨｚのクロックで同期が取ら
れている。従って、ＦＩＧＨＴＥＲ処理ユニット２４０
は、夫々、ＦＬＩＧＨＴ処理ユニット２３０から７５０
ＭＨｚの同期クロックを入力している。

【００７５】このＦＬＩＧＨＴ処理ユニット２３０とＦ
ＩＧＨＴＥＲプロセッサ２４３は、１０２４ビット幅の
バスで接続されており、全体のバンド幅は９９Ｇｂｙｔ
ｅ／ｓｅｃ（周波数７５０ＭＨｚ）となっている。ま
た、ＦＩＧＨＴＥＲプロセッサ２４３の動作周波数は、
１．５ＧＨｚである。

【００７６】ＧＨＱ処理ユニット２１０は処理する問題
を各ＳＱＵＡＤ処理ユニット２２０に割り当てるために
タスクに分割する。ＧＨＱ処理ユニット２１０はタスク
を分割すると、その内容を圧縮してＳＱＵＡＤ処理ユニ
ット２２０に転送する。圧縮アルゴリズムとしては、ラ
ンレングス法やハフマン符号法等、データの性質に適し
たものを利用する。圧縮が効果的でないか不要の場合に
は、生のタスクデータを転送する。本発明では、タスク
を分割するので、下位にいくほど転送するタスクデータ
は減少するので、動作周波数が高くなっても、要求され
るバンド幅の増加は抑えられる。

【００７７】ＳＱＵＡＤ処理ユニット２２０はＧＨＱ処
理ユニット２１０からタスク（必要により圧縮されたタ
スクデータ）を受け取ると、そのＳＱＵＡＤ処理ユニッ
ト２２０のｓｔａｔｕｓがｂｕｓｙであることをＧＨＱ
処理ユニット２１０に通知する。それから、圧縮されて
いるう場合にはそのデータを展開する。

【００７８】一方、ＳＱＵＡＤ処理ユニット２２０は与
えられたタスクを、各ＦＬＩＧＨＴ処理ユニット２３０
に割り当てるためにタスクに分割する。ＳＱＵＡＤ処理
ユニット２２０はタスクを分割すると、その内容を圧縮
してＦＬＩＧＨＴ処理ユニット２３０に転送する。圧縮
が効果的でない場合や不要な場合には、生のタスクデー
タを転送する。ＦＬＩＧＨＴ処理ユニット２３０はＳＱ
ＵＡＤ処理ユニット２２０からタスク（必要により圧縮
されたタスクデータ）を受け取ると、そのＦＬＩＧＨＴ
処理ユニット２３０のｓｔａｔｕｓをｂｕｓｙにするよ
うにＳＱＵＡＤ処理ユニット２２０に依頼する。それか
ら、圧縮されている場合にはそのデータを展開する。

【００７９】ＦＬＩＧＨＴ処理ユニット２３０は、その
タスクをＦＩＧＨＴＥＲ処理ユニット２４０に割り当て
るために更に細かく分割し、各ＦＩＧＨＴＥＲ処理ユニ
ット２４０にその分割後のタスクデータを転送する。
尚、ここでタスクデータとは、処理の内容と、それに必
要なデータを意味する。

【００８０】すなわち、中間ノードとなるＳＱＵＡＤ処
理ユニット２２０及びＦＬＩＧＨＴ処理ユニット２３０
の主な役割はスケジューリングとデータ転送であり、実
際に問題を解くのは最下層に位置するＦＩＧＨＴＥＲ処
理ユニット２４０となる。ＦＩＧＨＴＥＲ処理ユニット
２４０がタスクを受け取ると、上位のＦＬＩＧＨＴ処理
ユニット２３０へ、そのＦＩＧＨＴＥＲ処理ユニット２
４０のｓｔａｔｕｓをｂｕｓｙにするように依頼してか
ら、そのタスクを処理する。与えられたタスクの処理が
終了すると、結果をＦＬＩＧＨＴ処理ユニット２３０に
報告し、ｓｔａｔｕｓがｉｄｌｅに戻される。

【００８１】ｉｄｌｅに戻ったＦＩＧＨＴＥＲ処理ユニ
ット２４０を発見すると、ＦＬＩＧＨＴ処理ユニット２
３０は、分割されてまだ未処理のタスクを、そのＦＩＧ
ＨＴＥＲ処理ユニット２４０に割り当てる。

【００８２】１つのＦＬＩＧＨＴ処理ユニット２３０で
分割された全てのタスクがＦＩＧＨＴＥＲ処理ユニット
２４０によって処理されると、ＦＬＩＧＨＴ処理ユニッ
ト２３０はＳＱＵＡＤ処理ユニット２２０に結果を転送
し、そのｓｔａｔｕｓがｉｄｌｅに戻される。ＳＱＵＡ
Ｄ処理ユニット２２０はＦＬＩＧＨＴ処理ユニット２３
０の処理と同様、ｉｄｌｅのＦＬＩＧＨＴ処理ユニット
２３０を発見すると未処理タスクをそのＦＬＩＧＨＴ処
理ユニット２３０に割り当てる。

【００８３】同様に、ＳＱＵＡＤ処理ユニット２２０で
は、その下位に属する全てのＦＬＩＧＨＴ処理ユニット
２３０から、処理結果が転送されると、ＧＨＱ処理ユニ
ット２１０に結果を転送し、そのＳＱＵＡＤ処理ユニッ
ト２２０のｓｔａｔｕｓがｉｄｌｅに戻される。

【００８４】やはり、ＧＨＱ処理ユニット２１０はＦＬ
ＩＧＨＴ処理ユニット２３０の処理と同様、ｉｄｌｅの
ＳＱＵＡＤ処理ユニット２２０を発見すると未処理タス
クがあれば、そのタスクをＳＱＵＡＤ処理ユニット２２
０に割り当てる。

【００８５】ＧＨＱ処理ユニット２１０が持っている全
てのタスクの処理がＳＱＵＡＤ処理ユニット２２０で完
了すると、与えられた問題全体の処理が完了することに
なる。

【００８６】以上のように、ＦＩＧＨＴＥＲ処理ユニッ
ト２４０と、その上位のＦＬＩＧＨＴ処理ユニット２３
０、ＳＱＵＡＤ処理ユニット２２０及び最上位のＧＨＱ
処理ユニット２１０とは、処理内容が異なる。ＦＩＧＨ
ＴＥＲ処理ユニット２４０は、実際の処理計算のみを行
うので、複雑な判断や込み入ったルーチンを実行する能
力は必要が無いが、計算能力は高いことが要求される。
従って、ＦＩＧＨＴＥＲプロセッサ２４３は、整数ユニ
ットと浮動小数点ユニットを複数有することが望まし
い。ここでは、演算ユニットとして、整数ユニット１つ
と浮動小数点ユニットを２つ持つものとする。また、高
速化を助ける目的で、ハザード処理や割り込み処理に要
する回路を省略している。従って、動作周波数が１．５
ＧＨｚとし、全体で２４ＧＦＬＯＰＳの処理が可能とな
る。

【００８７】一方、ＳＱＵＡＤ処理ユニット２２０やＦ
ＬＩＧＨＴ処理ユニット２３０は、ブローカーであり、
基本的に上位の階層及び下位の階層とのデータの送受信
の制御を行う。従って、ＳＱＵＡＤＣｏｍｍａｎｄｅ
ｒプロセッサ２２３やＦＬＩＧＨＴＣｏｍｍａｎｄｅ
ｒプロセッサ２３３が実装すべき演算ユニットは最も小
規模のものでも十分である。ここでは、整数ユニットを
１つ持つものとする。

【００８８】また、ＧＨＱ処理ユニット２１０は、メイ
ンのプログラムを実行するものであり、ＧＨＱＣｏｍｍ
ａｎｄｅｒプロセッサとしては汎用性のあるプロセッサ
が用いられる。従って、一般的な高性能マイクロプロセ
ッサを利用することができる。

【００８９】従って、以上のような構成は、次のような
技術的な思想が実装されている。先ず、ＧＨＱ用メイン
メモリ２１１を形成するメモリモジュールと、ＧＨＱプ
ロセッサ２１３及び４つのマルチチップモジュールの５
つの構成要素は、１８７．５ＭＨｚのクロックで同期が
取られる。ここでは、比較的広い領域にわたって、同期
を取る必要があり為、同期クロックは比較的低く抑えら
れている。尚、ＧＨＱ用メインメモリ２１１は、４００
ＭＨｚのクロックで動くが、これは非同期でデータの転
送を行うものであり、同期を取るクロックではない。

【００９０】次に、ＳＱＵＡＤ処理ユニット２２０は、
夫々、ＧＨＱ処理ユニット２１０から１８７．５ＭＨｚ
の同期クロックを受け、これを２倍にして３７５ＭＨｚ
とし、これをユニット内の同期クロックとする。ここで
は、４つのＦＬＩＧＨＴ処理ユニット２３０、ＳＱＵＡ
ＤＣｏｍｍａｎｄｅｒプロセッサ２２３、ＳＱＵＡＤ
用命令メモリ２２５、ＳＱＵＡＤ用データメモリ２２７
及びＳＱＵＡＤ用ＤＭＡメモリ２２１が、この３７５Ｍ
Ｈｚの同期クロックに同期して動作する。ＳＱＵＡＤ処
理ユニット２２０の１つの領域は、ＧＨＱ処理ユニット
全体の領域の一部のみに局在化しており、信号の伝播距
離やスキューもその分小さくなり、高周波数での動作が
可能となっている。

【００９１】次に、ＦＬＩＧＨＴ処理ユニット２３０
は、夫々、ＳＱＵＡＤ処理ユニット２２０から３７５Ｍ
Ｈｚの同期クロックを受け、これを２倍にして７５０Ｍ
Ｈｚとし、これをユニット内の同期クロックとする。こ
こでは、１６個のＦＩＧＨＴＥＲ処理ユニット２４０、
ＦＬＩＧＨＴＣｏｍｍａｎｄｅｒプロセッサ２３３、
ＦＬＩＧＨＴ用命令メモリ２２５及びＦＬＩＧＨＴ用デ
ータメモリ２３７及びＦＬＩＧＨＴ用ＤＭＡメモリ２３
１が、この７５０ＭＨｚの同期クロックに同期して動作
する。ＦＬＩＧＨＴ処理ユニット２３０の１つの領域
は、ＳＱＵＡＤ処理ユニット２２０全体の領域の一部の
みに局在化しており、更に高周波数での動作が可能とな
っている。

【００９２】更に、ＦＩＧＨＴＥＲ処理ユニット２４０
は、夫々、ＦＬＩＧＨＴ処理ユニット２３０から７５０
ＭＨｚの同期クロックを受け、これを２倍にして１．５
ＧＨｚとし、これをユニット内の同期クロックとする。
ここでは、ＦＬＩＧＨＴＣｏｍｍａｎｄｅｒプロセッ
サ２３３とＦＩＧＨＴＥＲ用メモリ２４１が、この１．
５ＧＨｚの同期クロックに同期して動作する。ＦＩＧＨ
ＴＥＲ処理ユニット２４０は非常に小さな領域に集積さ
れており、信号の伝播距離やスキューも小さく、高周波
数で動作が可能となっている。

【００９３】ここで、例えばＦＬＩＧＨＴ処理ユニット
２３０内部の処理は、７５０ＭＨｚで動作しているが、
ＧＨＱ処理ユニット２１０全体としてみれば、７５０Ｍ
Ｈｚでの同期は無理なので、異なるＦＬＩＧＨＴ処理ユ
ニットの内部処理の間では同期が取れていない。しか
し、その上の階層、すなわちＳＱＵＡＤ処理ユニット２
２０で、３７５ＭＨｚでの同期が取れていれば、問題が
無い。

【００９４】次に、本発明の特徴部分の１つである、中
間階層の構成、すなわちＳＱＵＡＤ処理ユニット２２０
及びＦＬＩＧＨＴ処理ユニット２３０の構成を説明す
る。図５は、この中間階層の１つのユニットの構成を示
すブロックダイアグラムである。この中間階層ユニット
は、Ｃｏｍｍａｎｄｅｒプロセッサとしての汎用プロセ
ッサに、１０ｃｈのＤＭＡコントローラが接続されてい
る。このＤＭＡコントローラは、汎用プロセッサとコプ
ロセッサ接続をしており、既存のＤＭＡコントローラを
利用することもできる。

【００９５】このＤＭＡコントローラはバスに接続され
ており、そのバスには、ＤＭＡ転送用の大容量メモリ、
上位階層バスへの接続線、下位階層バスへの接続線が接
続されている。それぞれの接続線とバスの間にはＦＩＦ
Ｏが設けられている。またプロセッサコアには下位プロ
セッサからのｓｔａｔｕｓ情報を収集する信号線を有す
る。ＳＱＵＡＤ処理ユニット２２０を例とすれば、下位
の４個のＦＬＩＧＨＴ処理ユニット２３０から４つのｓ
ｔａｔｕｓ信号線が来ている。それぞれの信号線は１ｂ
ｉｔ以上であり、対応する下位階層のプロセッサがｂｕ
ｓｙかどうかを示している。

【００９６】Ｃｏｍｍａｎｄｅｒプロセッサは、データ
メモリと命令メモリが設けられており、ここにこのＣｏ
ｍｍａｎｄｅｒプロセッサが実行すべきプログラムと必
要なデータが格納されている。ここで実行されるプログ
ラムは、上位階層からのデータを必要に応じて展開し、
コマンドを解釈し、必要な処理を行った上で、タスクの
割り振り及びスケジューリングを行い、処理対象データ
を下位階層へ転送する。具体的には、自陣の処理ユニッ
トに割り振られた処理データは、ＤＭＡコントローラに
よって高速にＤＭＡ転送用メモリに転送され、適宜利用
可能な下位階層の処理ユニットへＤＭＡ転送される。こ
のアルゴリズムはデータメモリに格納されるプログラム
で実装される。言い換えれば、この中間階層ユニット
は、全体としてインテリジェントＤＭＡシステムという
べきものを構成する。

【００９７】また、ごく特定の処理に特化したシステ
ム、例えば汎用性を必要としないようなグラフィックシ
ミュレータ等では、ＨＱＣｏｍｍａｎｄｅｒプロセッサ
以外のプロセッサは、ＤＭＡコントローラを含み、ハー
ドウエアで実装された非ノイマン型ＤＭＡプロセッサと
することも可能である。

【００９８】次に、ここで用いられるメモリ構造を説明
する。１つの最も容易な実装は、すべての構成プロセッ
サに対して、ローカルなメモリ空間が付随するというも
のである。すべてローカルなので、スヌープ・バス・プ
ロトコルやコヒーレント・トランザクションを特に準備
する必要は無い。

【００９９】この場合、ＧＨＱプロセッサ２１３のメモ
リ空間は、ＧＨＱ用メインメモリ２１１にマッピングさ
れる。また、ＳＱＵＡＤＣｏｍｍａｎｄｅｒプロセッ
サ２２３のメモリ空間は、ＳＱＵＡＤ用命令メモリ２２
５及びＳＱＵＡＤ用データメモリ２２７と共に、ＳＱＵ
ＡＤ用ＤＭＡメモリ２２１にマッピングされる。ＧＨＱ
プロセッサ２１３のメモリ空間とＳＱＵＡＤＣｏｍｍ
ａｎｄｅｒプロセッサ２２３のメモリ空間は、独立であ
る。更に、異なるＳＱＵＡＤＣｏｍｍａｎｄｅｒプロ
セッサ２２３のメモリ空間同士も独立である。

【０１００】同様に、ＦＬＩＧＨＴＣｏｍｍａｎｄｅ
ｒプロセッサ２３３のメモリ空間は、ＦＬＩＧＨＴ用命
令メモリ２２５及びＦＬＩＧＨＴ用データメモリ２３７
と共に、そのＦＬＩＧＨＴ用ＤＭＡメモリ２３１にマッ
ピングされる。ここでも、ＦＬＩＧＨＴＣｏｍｍａｎ
ｄｅｒプロセッサ２３３のメモリ空間は、ＧＨＱプロセ
ッサ２１３のメモリ空間やＳＱＵＡＤＣｏｍｍａｎｄ
ｅｒプロセッサ２２３のメモリ空間とは独立である。更
に、異なるＦＬＩＧＨＴＣｏｍｍａｎｄｅｒプロセッ
サ２３３のメモリ空間同士も独立である。

【０１０１】同様に、ＦＩＧＨＴＥＲプロセッサ２４３
のメモリ空間は、夫々６４Ｋbyteのメモリにマッピング
される。やはり、ＦＩＧＨＴＥＲプロセッサ２４３のメ
モリ空間は、ＦＬＩＧＨＴＣｏｍｍａｎｄｅｒプロセ
ッサ２３３、ＧＨＱプロセッサ２１３のメモリ空間、Ｓ
ＱＵＡＤＣｏｍｍａｎｄｅｒプロセッサ２２３のメモ
リ空間とは独立である。更に、異なるＦＩＧＨＴＥＲプ
ロセッサ２４３のメモリ空間同士も独立である。

【０１０２】また、ＧＨＱプロセッサ２１３のメモリ空
間を、すべてのプロセッサのメモリ空間に分割して、マ
ッピングしても良い。この場合、形式上、上位の階層と
下位の階層間のデータの送受信は、メモリの移動命令と
いうことになる。このメモリの移動命令は、上位の階層
と下位の階層間のＤＭＡコマンドとして実装される。

【０１０３】この場合、ＧＨＱ処理ユニット２１０の実
メモリと下位の階層の実メモリとの関係の設定方法とし
ては、例えば、ＳＱＵＡＤ処理ユニット２２０の実メモ
リが、ＧＨＱ処理ユニット２１０の実メモリと同一アド
レスを共有する方法がある。しかし、ＧＨＱプロセッサ
２１３の実行しているプログラムが、処理ユニットのプ
ログラムの実行内容を完全にコントロールしているの
で、スヌープ・バス・プロトコルやコヒーレント・トラ
ンザクションを特に準備する必要は無い。同様に、ＦＬ
ＩＧＨＴ処理ユニット２３０の実メモリは、ＳＱＵＡＤ
処理ユニット２２０の実メモリと同一アドレスを共有さ
れ、ＦＩＧＨＴＥＲ処理ユニット２４０の実メモリは、
ＦＬＩＧＨＴ処理ユニット２３０の実メモリと同一アド
レスを共有される。

【０１０４】次に、従来の階層バス型マルチプロセッサ
システムと、本発明による階層バス型マルチプロセッサ
システムとの比較を行う。

【０１０５】まず、図３の階層バス型マルチプロセッサ
システムで、各階層にはキャッシュのみがあるとして、
衝突判定アプリケーションにおける、データ転送量を見
積もると下記の通りである。

【０１０６】画像に表示されているオブジェクト同士の
衝突判定を行う場合を考える。各オブジェクトは、ｂｏ
ｕｎｄｉｎｇｓｈａｐｅと呼ばれる領域に分割され、
個々のｂｏｕｎｄｉｎｇｓｈａｐｅ同士の衝突判定を
すべての組み合わせで行う。ｂｏｕｎｄｉｎｇｓｈａ
ｐｅの形状を球状とすれば、１つのｂｏｕｎｄｉｎｇｓ
ｈａｐｅと別のtのｂｏｕｎｄｉｎｇｓｈａｐｅの衝
突判定は、以下の計算式で示される。

【０１０７】(ｘ_１- ｘ_２)^２+(ｙ_１- ｙ_２)^２+(ｚ_１-
ｚ_２)^２ < (ｒ_１- ｒ_２)^２その計算量は、以下のとおりである。

【０１０８】１）８要素のロード：ｘ_１，ｙ_１，ｚ_１，
ｒ_１，ｘ_２，ｙ_２，ｚ_２，ｒ_２×4 bytes＝３２bytes ２）６個の加減算３）４個の乗算４）１個の比較従って、全体で８ｌｏａｄ，１１ＦＰの計算量である。

【０１０９】末端のＦＩＧＨＴＥＲの計算能力で２Ｆｏ
ｐ×１．５ＧＨｚ＝３ＧＦＬＯＰＳのシステムでは、Ｆ
ＩＧＨＴＥＲ一つあたり、３ＧＦＬＯＰＳ／１１ＦＰ＝２７５ＭＨｚ回／ｓｅｃの衝突判定能力があり、それには３ＧＦＬＯＰＳ／１１ＦＰ×３２Ｂｙｔｅ＝８．７５Ｇ
Ｂｙｔｅ／ｓｅｃのデータを消費する。全体１２８プロセッサ×２Ｆｏｐ
×１．５ＧＨｚ＝３８４ＧＦＬＯＰＳで考えると３８４
ＧＦＬＯＰＳ／１１ＦＰ＝３４．９Ｇ回／ｓｅｃの衝突
判定能力となる。１／６０秒では３８４ＧＦＬＯＰＳ／１１ＦＰ／６０＝５８０Ｍ回／fr
ame の衝突判定能力、となり、これは √（２×５８０Ｍ）＝３４．１３４Ｍｚ１／６０秒間に３万個を超えるｂｏｕｎｄｉｎｇｓｈ
ａｐａ同士の衝突判定ができる能力を意味する。

【０１１０】これに必要なバスバンド幅はＦＬＩＧＨＴｂｕｓ：８．７５ＧＢｙｔｅ／ｓｅｃ×８
＝７０ＧＢｙｔｅ／ｓｅｃＳＱＵＡＤｂｕｓ：７０ＧＢｙｔｅ／ｓｅｃ×４＝２８
０ＧＢｙｔｅ／ｓｅｃとなる。

【０１１１】次に中間ノードプロセッサを使用してデー
タの展開と、各プロセッサへの均等負荷分散を行った場
合の例をあげる。

【０１１２】図６のようにｓｏｕｒｃｅ側、ｔａｒｇｅ
ｔ両側方をサブグループに分割し、（例えば１０分
割）、ｍ×ｍの単位でプロセッサに処理させる。ＤＭＡ
で空いているプロセッサに投入する。

【０１１３】どのプロセッサが空いているかをチェック
して、負荷分散しながら放り込む。そのためあるプロセ
ッサが衝突を検出して処理時間が長くなっても全体で負
荷分散ができる。

【０１１４】例えば１０万個のｂｏｕｎｄｉｎｇｓｈ
ａｐｅの衝突判定を行わなければならないとする。４個
あるＳＱＵＡＤＣｏｍｍａｎｄｅｒには、それぞれ全
衝突判定の１／４に相当する分のデータを持たせる。

【０１１５】１つの例として、図７に示したように、Ｓ
ＱＵＡＤ１は１〜ｎ／２までのｂｏｕｎｄｉｎｇｓｈ
ａｐｅを持ち、ＳＱＵＡＤ２は１〜ｎ／４とｎ／２＋１
〜ｎまで、ＳＱＵＡＤ３はｎ／４＋１〜ｎ／２とｎ／２
＋１〜ｎまでＳＱＵＡＤ４はｎ／２＋１〜ｎまでのｂｏ
ｕｎｄｉｎｇｓｈａｐｅの情報を持つ。この負荷分散
とＤＭＡ転送はＧＨＱＰｒｏｃｅｓｓｏｒが担当す
る。

【０１１６】もちろん、図８に示したように、ＳＱＵＡ
Ｄ１は１〜ｎ／２までのｂｏｕｎｄｉｎｇｓｈａｐｅ
を持ち、ＳＱＵＡＤ２はｎ／２＋１〜３ｎ／４と１〜ｎ
／２まで、ＳＱＵＡＤ３は３ｎ／４＋１〜ｎと１〜ｎ／
２までＳＱＵＡＤ４はｎ／２＋１〜ｎまでのｂｏｕｎｄ
ｉｎｇｓｈａｐｅの情報を持つようにしても等価であ
る。

【０１１７】次に各ＳＱＵＡＤは自分の４個のＦＬＩＧ
ＨＴに同様の戦略で処理を分散する。この負荷分散とＤ
ＭＡ転送はＳＱＵＡＤＣｏｍｍａｎｄｅｒが担当す
る。例えば、ＳＱＵＡＤ２は、図に示したように、配下
のＦＬＩＧＨＴ１乃至ＦＬＩＧＨＴ４に負荷を分散す
る。この場合も、図に示したような方法でも、分散効率
に差異は無い。

【０１１８】システム全体では、１６個のＦＬＩＧＨＴ
があるので、等分に分割されて各ＦＬＩＧＨＴには全体
の１／１６の衝突判定計算が割り当てられることにな
る。またもっとも多いところでもＦＬＩＧＨＴが保持し
ていなければならないデータ量は全体の１／４＋１／８
＝３／８程度で済む。

【０１１９】そして各ＦＬＩＧＨＴＣｏｍｍａｎｄｅ
ｒは上記のサブグループ方式により、さらに小さい領域
に分割する。どの程度分割する必要があるかはデータ量
の節で述べる。分割された衝突判定のグループをＦＩＧ
ＨＴＥＲＰｒｏｃｅｓｓｏｒに投入し、衝突判定を実
行させる。各ＦＩＧＨＴＥＲの中ではフラットな衝突判
定を行う。

【０１２０】このデータ転送をある程度最適化した場合
から見積もると、ＧＨＱｂｕｓは４個ＳＱＵＡＤに１．
６ＭＢｙｔｅのデータ全体を配り、１／６０秒で更新す
るとすれば、データ転送速度は、１．６ＭＢｙｔｅ×４ＳＱＵＡＤ÷（１／６０秒）＝３
８４ＭＢｙｔｅ／ｓｅｃである。ＳＱＵＡＤｂｕｓでは４個のＦＬＩＧＨＴに約
５８０ＫＢｙｔｅ（５７８９０４Ｂｙｔｅ）のデータを
配るので５８０ＫＢｙｔｅ×４ＦＬＩＧＨＴ÷（１／６０秒）＝
１３９．２ＭＢｙｔｅ／ｓｅｃのデータバスバンド幅しか要求されない。一方、ＦＬＩ
ＧＨＴｂｕｓの必要データバスバンド幅は１１１０個／（１／６０ｓｅｃ）×１６ＫＢ＝１，０６
５，２６０ＫＢｙｔｅ／ｓｅｃ＝約１ＧＢｙｔｅ／ｓｅ
ｃとなり、上記の１４０ＧＢｙｔｅ／ｓｅｃと比べて１／
１４０になっている。以上の結果をまとめて、図９に示
す。

【０１２１】以上、本発明を実施例により詳細に説明し
たが、当業者にとっては、本発明が本願中に説明した実
施例に限定されるものではないということは明らかであ
る。本発明の装置は、特許請求の範囲の記載により定ま
る本発明の趣旨及び範囲を逸脱することなく修正及び変
更態様として実施することができる。従って、本願の記
載は、例示説明を目的とするものであり、本発明に対し
て何ら制限的な意味を有するものではない。

【０１２２】

【発明の効果】従って、本発明による階層バス型マルチ
プロセッサシステムでは、階層化によりクロックスキュ
ーをおさえることができ、最先端の技術による高速プロ
セッサを、所望の個数並列に動作させることが可能とな
る。

【図面の簡単な説明】

【図１】本発明の第１の実施形態による階層バス型マル
チプロセッサシステムの全体像を示すブロックダイアグ
ラムである。

【図２】本発明の第１の実施形態で用いられるマルチチ
ップモジュール（ＭＣＭ）を示す。

【図３】本発明の第２の実施形態による階層バス型マル
チプロセッサシステムの全体像を示すブロックダイアグ
ラムである。

【図４】本発明の第２の実施形態で用いられるマルチチ
ップモジュール（ＭＣＭ）を示す。

【図５】中間階層ユニットの１つの構成を示すブロック
ダイアグラムである。

【図６】画像に表示されているオブジェクト同士の衝突
判定を行う場合を説明する図。

【図７】画像に表示されているオブジェクト同士の衝突
判定を行う場合を説明する図。

【図８】画像に表示されているオブジェクト同士の衝突
判定を行う場合を説明する図。

【図９】従来の階層バス型マルチプロセッサシステム
と、本発明による階層バス型マルチプロセッサシステム
との比較を示す図。

【符号の説明】

１０１a〜１０１ｆ集積回路チップ１０２Ａ〜１０２Ｅ配線層１１０ＧＨＱ処理ユニット１１１ＧＨＱ用メインメモリ１１３ＧＨＱプロセッサ１２０ＳＱＵＡＤ用処理ユニット１２１ＳＱＵＡＤ用ＤＭＡメモリ１２３ＳＱＵＡＤＣｏｍｍａｎｄｅｒプロセッサ１２５ＳＱＵＡＤ用命令メモリ１２７ＳＱＵＡＤ用データメモリ１３０ＦＬＩＧＨＴ処理ユニット１３１ＦＬＩＧＨＴ用ＤＭＡメモリ１３３ＦＬＩＧＨＴＣｏｍｍａｎｄｅｒプロセッサ１３７ＦＬＩＧＨＴ用データメモリ１４０ＦＩＧＨＴＥＲ処理ユニット１４１ＦＩＧＨＴＥＲ用メモリ１４３ＦＩＧＨＴＥＲプロセッサ２０１a〜２０１ｆ集積回路チップ２０２Ａ〜２０２Ｅ配線層２１０ＧＨＱ処理ユニット２１１ＧＨＱ用メインメモリ２１３ＧＨＱプロセッサ２２０ＳＱＵＡＤ用処理ユニット２２１ＳＱＵＡＤ用ＤＭＡメモリ２２３ＳＱＵＡＤＣｏｍｍａｎｄｅｒプロセッサ２２５ＳＱＵＡＤ用命令メモリ２２７ＳＱＵＡＤ用データメモリ２３０ＦＬＩＧＨＴ処理ユニット２３１ＦＬＩＧＨＴ用ＤＭＡメモリ２３３ＦＬＩＧＨＴＣｏｍｍａｎｄｅｒプロセッサ２３７ＦＬＩＧＨＴ用データメモリ２４０ＦＩＧＨＴＥＲ処理ユニット２４１ＦＩＧＨＴＥＲ用メモリ２４３ＦＩＧＨＴＥＲプロセッサ

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成１３年１月２６日（２００１．１．２
６）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】発明の名称

【補正方法】変更

【補正内容】

【発明の名称】階層構造をもつ並列計算機

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】００１３

【補正方法】変更

【補正内容】

【００１３】

【課題を解決するための手段】前記課題を解決するため
に、本発明の階層構造をもつ並列計算機は、並列処理の
可能な並列処理タスクを実行する上位処理ユニットと、
接続線を介して前記上位処理ユニットに接続する複数の
下位処理ユニットとを備え、前記上位処理ユニットは、
前記タスクを分割して前記下位処理ユニットに割り当て
ると共に、前記分割タスクの実行に必要なデータを夫々
前記下位処理ユニットに転送し、前記下位処理ユニット
は、割り当てられた前記分割タスクを実行し、実行が完
了するとその実行の完了を前記上位処理ユニットに通知
し、前記上位処理ユニットは、すべての前記下位処理ユ
ニットからその割り当てられた前記分割タスクの完了の
通知を受け取ると、前記並列処理タスクの処理を完了す
ることを特徴とするものである。

【手続補正４】

【補正対象書類名】明細書

【補正対象項目名】００１４

【補正方法】変更

【補正内容】

【００１４】また、本発明の階層構造をもつ並列計算機
は、並列処理の可能な並列処理タスクを実行する上位処
理ユニットと、第１の接続線を介して前記上位処理ユニ
ットに接続する複数の中間処理ユニットと、前記複数の
中間処理ユニットの夫々に、第２の接続線を介して接続
する複数の下位処理ユニットとを備え、前記上位処理ユ
ニットは、前記タスクを複数の第１の分割タスクへ分割
して前記中間処理ユニットに割り当てると共に、前記第
１の分割タスクの実行に必要なデータを夫々前記中間処
理ユニットに転送し、前記中間処理ユニットは、前記第
１の分割タスクを複数の第２の分割タスクへ分割して前
記下位処理ユニットに割り当てると共に、前記第２の分
割タスクの実行に必要なデータを夫々前記下位処理ユニ
ットに転送し、前記下位処理ユニットは、割り当てられ
た前記第２の分割タスクを実行し、実行が完了するとそ
の実行の完了を前記中間処理ユニットに通知し、前記中
間処理ユニットは、割り当てられた前記第１の分割タス
クがすべて完了するとその実行の完了を前記上位処理ユ
ニットに通知し、前記上位処理ユニットは、すべての前
記中間処理ユニットからその割り当てられた前記第１の
分割タスクの完了の通知を受け取ると、前記並列処理タ
スクの処理を完了することを特徴とするものである。

【手続補正５】

【補正対象書類名】明細書

【補正対象項目名】００１５

【補正方法】変更

【補正内容】

【００１５】また、本発明は、前記接続線に接続された
ユニット群が、前記上位処理ユニットより物理的に狭い
領域に局在し、それぞれのユニットを接続する信号線は
小さい配線容量を持っており、前記上位処理ユニット群
を同期させるための周波数よりも、前記下位処理ユニッ
ト群を同期させるための周波数の方が高いことを特徴と
するものである。

【手続補正６】

【補正対象書類名】明細書

【補正対象項目名】００１６

【補正方法】変更

【補正内容】

【００１６】また、本発明は、前記上位処理ユニット及
び前記下位処理ユニットが、夫々プロセッサ及び前記プ
ロセッサに接続されたメモリを備えていることを特徴と
するものである。

【手続補正７】

【補正対象書類名】明細書

【補正対象項目名】００１７

【補正方法】変更

【補正内容】

【００１７】また、本発明は、前記上位処理ユニット
が、前記下位処理ユニットから通知された前記分割タス
クの実行完了を、ｓｔａｔｕｓ入力信号線を介して受け
取ることを特徴とするものである。

【手続補正８】

【補正対象書類名】明細書

【補正対象項目名】００１８

【補正方法】変更

【補正内容】

【００１８】また、本発明は、前記下位処理ユニット
が、夫々プロセッサ及び前記プロセッサに接続されたメ
モリ及びＤＭＡコントローラを備えていることを特徴と
するものである。

【手続補正９】

【補正対象書類名】明細書

【補正対象項目名】００１９

【補正方法】変更

【補正内容】

【００１９】また、本発明は、前記プロセッサと前記Ｄ
ＭＡコントローラが、コプロセッサ接続されていること
を特徴とするものである。

【手続補正１０】

【補正対象書類名】明細書

【補正対象項目名】００２０

【補正方法】変更

【補正内容】

【００２０】また、本発明は、前記上位処理ユニット
が、前記分割タスクの実行に必要なデータを圧縮して、
夫々前記下位処理ユニットに転送することを特徴とする
ものである。

【手続補正１１】

【補正対象書類名】明細書

【補正対象項目名】００２１

【補正方法】変更

【補正内容】

【００２１】また、本発明は、前記下位処理ユニット
が、ＤＭＡ転送処理ユニットであることを特徴とするも
のである。

【手続補正１２】

【補正対象書類名】明細書

【補正対象項目名】００２２

【補正方法】変更

【補正内容】

【００２２】また、本発明は、前記上位処理ユニット、
前記下位処理ユニットのそれぞれが、独立した半導体チ
ップ上に形成され、前記半導体チップが、全体として１
つのマルチチップモジュールとして実装されていること
を特徴とするものである。

【手続補正１３】

【補正対象書類名】図面

【補正対象項目名】図１

【補正方法】変更

【補正内容】

【図１】

【手続補正１４】

【補正対象書類名】図面

【補正対象項目名】図３

【補正方法】変更

【補正内容】

【図３】

───────────────────────────────────────────────────── フロントページの続き (72)発明者安川英樹神奈川県川崎市幸区小向東芝町１番地株式会社東芝マイクロエレクトロニクスセンター内Ｆターム(参考） 5B045 AA01 AA07 BB12 GG02 GG11

Claims

【特許請求の範囲】

【請求項１】並列処理の可能な並列処理タスクを実行
する上位処理ユニットと、第１の共有バスを介して前記
上位処理ユニットに接続する複数の中間処理ユニット
と、前記複数の中間処理ユニットの夫々に、第２の共有
バスを介して接続する複数の下位処理ユニットとを備
え、前記上位処理ユニットは前記タスクを分割して前記
中間処理ユニットに割り当てると共に、前記分割タスク
の実行に必要なデータを夫々前記中間処理ユニットに転
送し、前記中間処理ユニットは前記分割タスクを分割し
て前記下位処理ユニットに割り当てると共に、前記分割
タスクの実行に必要なデータを夫々前記下位処理ユニッ
トに転送し、前記下位処理ユニットは、割り当てられた
前記分割タスクを実行し、実行が完了するとその実行の
完了を前記中間処理ユニットに通知し、前記中間処理ユ
ニットは、割り当てられた前記分割タスクがすべて完了
するとその実行の完了を前記上位処理ユニットに通知
し、すべての前記中間処理ユニットがその割り当てられ
た前記分割タスクの完了を前記上位処理ユニットに通知
すると、前記並列処理タスクの処理が完了する共有バス
型並列計算機
【請求項２】前記第２の共有バスに接続されたユニッ
ト群は、前記第１の共有バスに接続されたユニット群よ
りも物理的に狭い領域に局在し、それぞれのユニットを
接続する信号線は小さい配線容量を持っており、前記第
１の共有バスに接続されたユニット群を同期させるため
の周波数よりも、前記第２の共有バスに接続されたユニ
ット群を同期させるための周波数の方が高いことを特徴
とする請求項１に記載の階層構造を持つ共有バス型並列
計算機。
【請求項３】前記上位処理ユニット、前記中間処理ユ
ニット及び前記下位処理ユニットは、夫々プロセッサ及
び前記プロセッサに接続されたメモリを備えていること
を特徴とする請求項２に記載の階層構造をもつ共有バス
型並列計算機。
【請求項４】前記分割タスクの実行完了は、前記中間
処理ユニット又は前記上位処理ユニットに、ｓｔａｔｕ
ｓ入力信号線を介して通知されることを特徴とする請求
項２に記載の階層構造をもつ共有バス型並列計算機。
【請求項５】前記中間処理ユニットは、夫々プロセッサ
及び前記プロセッサに接続されたメモリ及びＤＭＡコン
トローラを備えていることを特徴とする請求項２に記載
の階層構造をもつ共有バス型並列計算機。
【請求項６】前記プロセッサと前記ＤＭＡコントローラ
は、コプロセッサ接続されていることを特徴とする請求
項２に記載の階層構造をもつ共有バス型並列計算機。
【請求項７】前記上位処理ユニットは、前記分割タス
クの実行に必要なデータを圧縮して、夫々前記中間処理
ユニットに転送することを特徴とする請求項２に記載の
階層構造をもつ共有バス型並列計算機。
【請求項８】前記中間処理ユニットは、前記分割タス
クの実行に必要なデータを圧縮して、夫々前記下位処理
ユニットに転送することを特徴とする請求項２に記載の
階層構造をもつ共有バス型並列計算機。
【請求項９】前記中間処理ユニットは、ＤＭＡ転送処
理ユニットであることを特徴とする請求項２に記載の階
層構造をもつ共有バス型並列計算機。
【請求項１０】前記ＤＭＡ転送処理ユニットは、プロ
グラマブルであることを特徴とする請求項９に記載の階
層構造をもつ共有バス型並列計算機。