JP2766404B2

JP2766404B2 - データ駆動形マイクロプロセッサ

Info

Publication number: JP2766404B2
Application number: JP12233891A
Authority: JP
Inventors: 伸史小守; 英裕高田; 俊之田村; 文康浅井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1991-02-12
Filing date: 1991-04-24
Publication date: 1998-06-18
Anticipated expiration: 2013-06-18
Also published as: JPH08212186A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データ依存関係に従っ
て並列に命令実行を行う、いわゆる「データ駆動形計算
機」のハードウェア構成に関するものである。より詳細
には、ベクトル演算処理機能を兼ね備えた、データ駆動
形マイクロプロセッサに関する発明である。

【０００２】

【従来の技術】ベクトル演算機構を導入したデータ駆動
形計算機の一例が、「高並列データ駆動形計算機ＥＤＤ
ＥＮの概要」として、平成元年３月に発行された情報処
理学会第３８回（昭和６４年前期）全国大会予稿集に開
示されている。

【０００３】本公知文献は、データ駆動形計算機の問題
点の一つとして、配列などの定型的な構造体に対して単
純な処理を繰り返す定型的演算での性能低下を指摘して
おり、命令実行部にベクトル演算機構を導入し、外部メ
モリに格納された配列データに対して局所的にベクトル
演算命令を実行することによって、この問題の解決が図
り得ることを示している。更に、通常のスカラーデータ
とベクトル演算制御機構が、演算器を時分割で共有する
方式により、演算パイプラインの充足率の向上が図り得
ることも示されている。本公知文献に開示されているデ
ータ駆動形計算機は、図６４に示すような構成をとって
いる。以下、図について従来例の動作の説明を行う。

【０００４】図６４に示されている１チップデータ駆動
形計算機は、ネットワーク制御部ＮＣ、入力制御部Ｉ
Ｃ、キュー部Ｑ、プログラム記憶部ＰＳ、出力制御部Ｏ
Ｃ、発火制御・カラー管理部ＦＣＣＭ、命令実行部ＥＸ
Ｅ、およびベクトル演算制御部ＶＣから構成されてい
る。また、図６５は、公知例のデータ駆動形計算機の具
体的な動作を説明するためのプログラム（データフロー
グラフ）の簡単な例であり、Ａ＋Ｂの演算結果をＣとし
て出力する処理を示している。データフローグラフは、
ノード番号が割り付けられた複数のノードと、これらの
間でのデータ依存関係を示すアークから構成されてい
る。図中、５角形のノードは、外部との入出力を示す特
殊なノードであり、演算は行わない。一方、丸いノード
では、ノードの中に示されている演算が入力されたデー
タに対して施される。

【０００５】外部からネットワーク制御部ＮＣを介して
入力されたパケット（タグ情報を有するデータ）Ａは、
ホスト計算機によって行き先ノード番号として＃０が与
えられている。また、もう一つの入力パケットＢは行き
先ノード番号＃１をもっている。これらのパケットは、
入力制御部ＩＣを経由してキュー部Ｑに一時記憶された
後、プログラム記憶部ＰＳにおいて、それぞれのもって
いる行き先ノード番号を入力アドレスとしてプログラム
メモリの読み出しを行い、次の行き先ノード番号、すな
わち＃２と、＃２のノードに対応する命令コード「＋」
を読み出す。この後、これらのパケットは出力制御部Ｏ
Ｃを通過して発火制御・カラー管理部ＦＣＣＭに到る。

【０００６】発火制御・カラー管理部ＦＣＣＭにおいて
は、これらのパケットの行き先ノード番号が何れも＃２
であるため、「Ａ」、「Ｂ」の両方のパケットが発火制
御・カラー管理部ＦＣＣＭに到着した時点で、発火処理
が行われ、２つのオペランドをもつ実行パケットが生成
され、命令実行部ＥＸＥに送られる。

【０００７】命令実行部ＥＸＥではこのパケットに格納
されている命令コード、すなわち「＋」に従ってＡ＋Ｂ
の演算を行い、結果データＣを含む結果パケットＣを出
力する。結果パケットは、再び入力制御部ＩＣとキュー
Ｑを経由してプログラム記憶部ＰＳに到る。

【０００８】プログラム記憶部ＰＳでは、パケットＣの
もつ行き先ノード番号を入力アドレスとしてプログラム
メモリに読み出され、次の行き先ノード番号＃３と、命
令コード「ＯＵＴ」が読み出される。命令コード「ＯＵ
Ｔ」をもつこのパケットは、出力制御部ＯＣで外部に分
岐処理され、プロセッサ外に出力するためにネットワー
ク制御部ＮＣに送られる。

【０００９】以上のような処理の連鎖によって、図５に
示したデータフローグラフに相当する演算が施され、プ
ログラムの実行が終了する。図５は、最も簡単な一例を
示したが、多数の命令ノードとこれらの命令ノード間の
データ依存関係を示すアークから構成される更に複雑な
データフローグラフの実行も全く同様にして行うことが
できる。

【００１０】プログラム実行時には、データ依存関係の
存在するノードの処理は逐次的に実行されるが、データ
依存関係の存在しないノードの処理は処理資源の許す限
りにおいて並列に実行できる。ここで、データ依存関係
とは、二つのノード間の接続関係において、一方のノー
ドの処理が完了することによってはじめて他方の処理を
行うために必要な入力データが供給されるような接続関
係にあることを指している。

【００１１】以上は、スカラーデータの処理の流れであ
るが、命令実行部ＥＸＥをスカラーデータ処理と時分割
でベクトルデータ処理のために用いる方法が本公知文献
に開示されている。ベクトル演算制御部ＶＣは、ベクト
ル演算関連命令、および通常のメモリアクセス命令の実
行制御を行っている。ベクトル演算制御部ＶＣと、入力
制御部ＩＣ及び出力制御部ＯＣの間には構造体（ベクト
ル）通信用のバイパス線を設けている。外部データメモ
リは、構造体等を格納するデータメモリである。

【００１２】

【発明が解決しようとする課題】ところが、公知文献に
開示されている従来のベクトル演算機構を備えたデータ
駆動形計算機には、二つの問題点がある。

【００１３】第１の問題点は、内部にデータメモリをも
たないため、ベクトル演算実行時のスループットが低い
ことである。例えば、ベクトルＸとベクトルＹの加算を
行い、結果をベクトルＺとしてデータメモリに格納する
場合、ベクトルＸの要素ｘｉとベクトルＹの要素ｙｉを
読み出し、演算結果をベクトルＺの要素ｚｉとしてデー
タメモリに書き込むという処理をベクトルの要素の数だ
け繰り返す必要がある。ところが、公知文献に開示され
ている１チップデータ駆動形計算機は、内部にデータメ
モリをもたず、チップ内には外部データメモリに対する
アクセス制御機能しかもたないため、１要素のベクトル
演算を行うために３回のメモリアクセスを逐次的に行う
必要があり、データメモリのアクセスが処理のボトルネ
ックとなって、ベクトル演算のみでは命令実行部ＥＸＥ
の高い性能を活かすことができない構成になっている。

【００１４】第２の問題点は、巡回型パイプライン中の
ＥＸＥ部の処理が、データメモリのアクセスと、命令の
実行の二者択一になっていることである。このため、デ
ータメモリの中に記憶されているデータを演算に用いた
ときに、メモリからのデータ読み出しのために巡回型パ
イプライン処理の１周回を要し、さらに演算実行のため
に一周回を要することとなり、効率が悪い。従って、本
発明の目的は、ベクトル演算における被演算データの読
出し、演算結果データの書き込み、メモリアクセス処理
を短いアクセス時間内に、しかも同時並列的に行うよう
にして、高いベクトル演算性能を達成する。また、効率
のよいログラム実行ができるようにする。

【００１５】

【課題を解決するための手段】この発明に係るデータ駆
動形マイクロプロセッサは、演算部ＦＡＬＵとプログラ
ムメモリ部ＰＭを並列配置し、上記演算部ＦＡＬＵ及び
上記プログラムメモリ部ＰＭで更新された情報を入出力
インターフェース部ＩＦへ送る構成とするとともに、デ
ータを同時に並行かつ連続的に読み書き可能なデータメ
モリ部ＤＭを上記演算部ＦＡＬＵよりも手前に配置し、
マッチングメモリ部ＭＭから被演算データを連続的に上
記データメモリ部ＤＭへ読み出し、予め設定されている
命令コードとともに上記演算部ＦＡＬＵへ送り込みベク
トル演算を実行することを特徴とするものである。

【００１６】

【作用】本発明においては、上記のように、データ駆動
形マイクロプロセッサ内部にマルチポートのデータメモ
リ部ＤＭを備えたことにより、ベクトル演算のための２
つの被演算データの読み出し、演算結果データの書き込
み、通常のメモリアクセスなどの処理が、短いアクセス
時間内に、しかも同時並行に行われ、きわめて高いベク
トル演算性能を達成することができる。

【００１７】また、データメモリ部を巡回パイプライン
中に取り込み、かつ演算部の前段に配置したことによ
り、データの読み出しと演算実行が巡回パイプラインの
１周回で完了し、効率のよいプログラム実行が可能とな
る。

【００１８】

【実施例】以下、本発明の実施例を図に基づいて詳細に
説明する。図１は、本発明の一実施例を示すデータ駆動
形マイクロプロセッサのブロック図である。図３のプロ
グラム（データフローグラフ）を実行する場合につい
て、動作を説明する。外部から入出力インターフェース
部ＩＦを経由して入力されたパケットは、図４に示され
ているように、行き先プロセッサ番号（ＰＥ＃）
「１」、制御情報（ＳＥＬ−ＣＯＤＥ）、命令コード
（ＯＰＣ）「＋」、行き先ノード番号＃１、左データ
「Ｉ」を含んでいる。制御情報ＳＥＬ−ＣＯＤＥのう
ち、ＰＡＩＲはマッチングメモリで発火処理をするか否
か、ＩＭはデータメモリからオペランド（被演算デー
タ）の読み出しを行うか否か、Ｉ／Ｏ（Ｏは反転）は演
算終了後プロセッサ内で継続処理するか否か、ＶＥＣＴ
はベクトル演算対象データであるか否か、Ｌ／Ｒ（Ｒは
反転）は発火処理以前に左データ位置に格納されている
データが２項演算の左データとなるデータであるか否か
を示している。

【００１９】外部から入力されたパケット「Ｉ」は、入
出力インターフェース部ＩＦを経由してマッチングメモ
リ部ＭＭに到るが、図４（ａ）に示すように、ＳＥＬ−
ＣＯＤＥのＩＭフラグが１であるため、２項演算の相手
のデータはデータメモリ部ＤＭから読み出すものと解釈
されて何も処理されずにデータメモリ部ＤＭに送られ
る。データメモリ部ＤＭにおいては、ＩＭフラグが１で
あるため、パケットの右データ位置に格納されている値
「ｎ」に相当するアドレスに記憶されているデータが読
み出され「ｎ」の代わりに右データ位置に格納される。

【００２０】データメモリ部ＤＭからは、演算ＦＡＬＵ
とプログラムメモリ部ＰＭに同時にパケットが送出され
る。ＦＡＬＵ部では、命令コード「＋」に従って２項演
算が実行され、結果データがパケットの左データ位置に
格納される。

【００２１】一方、プログラムメモリ部ＰＭでは、パケ
ットの行き先ノード番号「＃１」に従ってプログラムメ
モリの読み出しが行われ、次の行き先ノード番号の「＃
２」、次の命令コード「×」、次の制御情報などが読み
出されてパケット中の相当部分が更新される。

【００２２】演算部ＦＡＬＵ、およびプログラムメモリ
部ＰＭで更新されたこれらの情報は、コピー部ＫＣＯＰ
Ｙで併合され再び入出力インターフェース部ＩＦに送ら
れる。コピー部ＫＣＯＰＹでは、１つのノードの演算結
果に対して複数の行き先ノードが存在するような場合
に、演算結果データのコピーが行われ、プログラムメモ
リ部ＰＭで読み出された複数のタグ情報に付与されて、
同一の結果データをもつ複数のパケットが出力される。

【００２３】この演算結果パケットが入出力インターフ
ェース部ＩＦを経由して再びマッチングメモリ部ＭＭに
到達したとき、すでにデータ「Ｊ」をもつパケット（図
４（ｂ）参照）がマッチングメモリ部ＭＭに到着して格
納されていれば、これら２つのパケットの行き先ノード
番号が何れも「＃２」であることから、発火処理が行わ
れ、２項演算のためのパケットが生成される。一方、相
手となるパケットが未到着であれば、マッチングメモリ
部ＭＭにおいて相手パケットの待ち合わせを行う。マッ
チングメモリ部ＭＭで生成された前記パケットは、ＩＭ
フラグが０であり、命令コードがＤＭ命令ではないこと
から、データメモリ部ＤＭを通過し、演算部ＦＡＬＵ
と、プログラムメモリ部ＰＭに送られる。演算部ＦＡＬ
Ｕでは、乗算が実行される。また、プログラムメモリ部
ＰＭでは、次のタグ情報が読み出され、図４（ｃ）に示
すようなパケットに付与される。これらの情報は、コピ
ー部ＫＣＯＰＹで併合された後ＩＦ部に送られるが、図
４（ｃ）に示されているようにＳＥＬ−ＣＯＤＥのＩ／
Ｏ（Ｏは反転）フラグが０であることから外部に出力さ
れる。

【００２４】以上説明したように、２つの入力を受け入
れたプログラム（データフローグラフ）は、所定の処理
を完了し、結果をパケットの形で出力する。

【００２５】この過程において、データメモリ部ＤＭの
ｎ番地に格納されているデータとの演算が行われたが、
データメモリ部ＤＭが、演算部ＦＡＬＵの手前に配置さ
れているので、メモリアクセスのために巡回パイプライ
ンを余分に周回することなく、効率のよいプログラム実
行が実現されている。

【００２６】次に、ベクトル演算処理について説明す
る。図２は、本発明に係るデータ駆動形マイクロプロセ
ッサのデータメモリ部ＤＭの構成を示す一実施例であ
る。

【００２７】データメモリ部ＤＭは、８段のパイプライ
ン構成となっている。最初の４段は、アドレス発生用に
用いられている。５つのメモリアクセスを同時に行うた
めに、５つの独立に動作するアドレス発生器ＡＧ１〜Ａ
Ｇ５が備えられている。５つのメモリアクセスは、ベク
トル演算用の２つのオペランドデータ読み出し、１つの
結果データ書き込み、スカラーデータ用のデータの読み
出しまたは書き込み、および、外部データメモリとの間
でのＤＭＡデータ転送用のデータの読み出しまたは書き
込みを含んでいる。５段目は、メモリアドレスのマトリ
クススイッチを備え、５つのアドレス発生器と、８つの
メモリバンクを任意に組み合わせて構成することができ
る。６段目は、メモリアクセスのための段であり、８つ
のメモリバンクＢＫ１〜ＢＫ８を有し、このメモリバン
クＢＫ１〜ＢＫ８中の５つのメモリバンクを同時にアク
セスすることができる。このとき、例えば、バンクＢＫ
３とバンクＢＫ４を結合して一つのメモリバンクとする
ことも、マトリクススイッチの開閉の制御と、各メモリ
バンクに設けられたアドレス判定機能によって可能とな
っている。７段目は、データのマトリクススイッチＭＳ
より成り、８つのメモリバンクと、入出力バスが任意に
組み合わされ、構成される。パイプラインの８段目で
は、ベクトル処理パケットと、スカラー処理パケットの
調停が行われ、何れかが選択されて出力される。

【００２８】データメモリ部ＤＭの種々の機能は、予め
機能設定用の命令コードをもったパケットを送り込み、
制御用レジスタファイルＣＲＦの書き込みを行うことに
よって、プログラマブルに設定することができる。設定
できる機能は、次の通りである。各々のアドレス発生器の機能、すなわち連続アドレス
発生回数、アドレス増分、法（モジュロ）演算、アドレ
スビット反転、アドレス最下位ビットマスク、開始アド
レス設定など。アドレス発生器とメモリバンクの組み合わせ。メモリバンクと入出力データバスの組み合わせ。ベクトル演算パケットに付与する命令コードおよび行
き先ＰＥ＃。

【００２９】一例として、１２８個の要素からなるベク
トルデータ間の演算「Ｘ×Ｙ＋Ｚ→Ｗ」を実行する場合
について説明する。まず、外部データメモリからベクト
ルＸとＹを、それぞれ、バンクＢＫ３とバンクＢＫ４に
ＤＭＡ転送する。このために、図２中のアドレス発生器
ＡＧ５をバンクＢＫ３と結合し、１２８ワード分のアド
レスを連続的に生成し、外部データメモリとのＤＭＡ転
送を行ってベクトルＸをバンクＢＫ３に読み込み、また
同様にしてベクトルＹをバンクＢＫ４に読み込む。

【００３０】次に、バンクＢＫ３とバンクＢＫ４から、
アドレス発生器ＡＧ１及びＡＧ２を用いて、同時にオペ
ランドデータを読み出しつつ、乗算の命令コードを付加
して演算パケットを連続的に生成し、演算部ＦＡＬＵに
送り込む。この時、この演算パケットは同時にプログラ
ムメモリ部ＰＭにも送られるが、パケット中のＶＥＣＴ
フラグが１であるため、プログラムメモリ部ＰＭでは処
理されずそのまま出力され、演算部ＦＡＬＵからの出力
と併合される。

【００３１】この処理と同時並行に、次に必要となるベ
クトルＺの外部データメモリからの読み込みがＤＭＡ転
送を用いて行われ、ベクトルＺはアドレス発生器ＡＧ５
によって生成されるアドレスに従い、バンクＢＫ６に格
納される。

【００３２】一方ベクトルＸとＹの要素データ毎の乗算
結果は、ＶＥＣＴフラグとして１をもって入出力インタ
ーフェース部ＩＦ、マッチングメモリ部ＭＭを通過し、
データメモリ部ＤＭに到ると、ＶＥＣＴフラグが１であ
るので、アドレス発生器ＡＧ４によって書き込みアドレ
スが連続的に生成され、予めベクトル演算結果の書き込
み用に割り当てられていたバンクＢＫ５に連続的に書き
込まれていく。

【００３３】ベクトルＸとＹの乗算が完了した後、乗算
結果が格納されているバンクＢＫ５と、ベクトルＺが読
み込まれているバンクＢＫ６との間で、同様にしてベク
トル加算が行われ、加算結果はバンクＢＫ７に格納され
る。

【００３４】最終的な演算結果Ｗは、バンクＢＫ７か
ら、外部データメモリにＤＭＡ転送される。以上のよう
な処理により、ベクトル演算が高速に実行される。外部
データメモリと内部メモリバンクの間でのデータの授受
は、開始アドレスを双方設定した上で、アドレス情報無
しでデータをブロック転送するＤＭＡ転送を用いたこと
により高速化されており、演算のレートと、データの供
給レートが均衡し、効率のよいベクトル演算が実現して
いる。さらに、ベクトル演算実行中であっても、アドレ
ス発生器ＡＧ３やスカラーデータ用の入出力データバス
を独立にもっているため、通常のメモリアクセスも同時
に実行することができる。

【００３５】次に図１に示す入出力インターフェース部
ＩＦの詳細を説明する。図５はこの入出力インターフェ
ース部ＩＦのブロック図である。入出力インターフェー
ス部ＩＦは、３語１語変換回路、合流回路、分岐回路、
１語３語変換回路、キューバッファ回路、および初期化
回路（図示せず）から構成される。この入出力インター
フェース部ＩＦにおける３語１語変換回路は図６に、初
期化回路は図７に、合流回路は図８に、分岐回路は図９
に、１語３語変換回路は図１０にそれぞれ一例として示
す。

【００３６】このように構成される入出力インターフェ
ース部ＩＦは次のような機能を持っている。（１）初期化外部から入力される初期化パケットを受け取り、プロセ
ッサエレメント番号（ＰＥ＃）レジスタ、ブロック合流
比率（ＩＦブロック、ＤＭブロック）レジスタの初期化
を行う。初期化のためのオペコードをもったパケット
は、レジスタの初期化に用いれらた後、ＩＦブロック内
で消去される。（２）３ワード→１ワード変換４２ビット×３ワード形式で入力される外部パケット
を、１ワードに展開する。（３）合流外部から入力されたパケットを、非同期調停回路を用い
て、内部巡回パイプラインに合流させる。合流のための
経路切り換えオーバーヘッドを低減するために、複数の
パケット毎に経路切り換えを行う「ブロック合流」を採
用している。（４）分岐巡回パイプライン上のパケットの中で、ＰＥ外に出力す
べきものを分岐させて外部に出力する。（５）１ワード→３ワード変換１ワード形式の内部パケットを、４２ビット×３ワード
の外部パケット形式に変換して出力する。

【００３７】ところで、本プロセッサの入出力ピン数を
低減するため、プロセッサ外部ではパケットは３語構成
で通信され、外部から入力したパケットはプロセッサ内
部で３語から１語への語数変換を行う必要がある。１２
０ビット幅の１語パケットに変換された入力パケット
は、非同期合流回路の合流側に入力される。合流回路内
部では、内部巡回パイプライン上のパケットとの非同期
調停がなされ、１本の経路に合流してマッチングメモリ
部ＭＭに出力される。出力されたパケットは、［ＭＭ］
→［ＤＭ］→［ＰＭ、ＦＡＬＵ］→［ＫＣＯＰＹ］を経
て再び入出力インターフェース部ＩＦに入力され、分岐
回路に到る。分岐回路では、パケットのセレクションコ
ードと行き先ＰＥ＃から、分岐するか否かが決定され
る。

【００３８】次に３語１語変換回路の動作について説明
する。入出力ピン数の制約があるため、入力パケットは
４２ビット×３語構成で入力される。これを１２０ビッ
ト１語に変換するための回路が設けられている。３語１
語変換回路においては、入力された４２ビットのデータ
の上位２ビットをデコードして先頭／中間／末尾語の何
れであるかを判定し、相当するデータラッチに記憶させ
るべくＣ素子に対するＳｅｎｄ信号を制御する。

【００３９】次に初期化回路の動作について説明する。
初期化回路においては、３語１語変換回路の出力パケッ
トに含まれている命令コードをデコードし、初期化パケ
ットであると判断された場合には、初期化レジスタに対
するラッチ信号を発生してパケット中の左データ領域の
下位１２ビットに格納されている初期化情報を初期化レ
ジスタに記憶させ、かつアクノレッジ信号を３語１語変
換回路に返す。一方、初期化のためのパケットは初期化
回路で消すために、初期化パケットであった場合には次
段へのＳｅｎｄ信号の伝搬を禁止するためのＡＮＤゲー
トが設けられいてる。

【００４０】次の合流回路においては、２本の経路から
入力されるパケットを１本の出力経路にまとめるため
に、非同期の合流調停回路が設けられている。詳細な回
路は、例えば本件出願人が既に出願している明細書（特
願昭６０−１３６６１０号、特開昭６１−２９４９４９
号、昭和６０年６月２１日出願、「データ伝送装置」）
の実施例に開示されている。

【００４１】分岐回路においては、１２０ビット幅の入
力パケットのセレクションコード、命令コードなどをデ
コードして分岐するか否かが決定され、本線側、または
分岐側にパケットが送られる。分岐回路における分岐条
件を以下に示す。

【００４２】

【数１】

【００４３】ただし、リモート・メモリ・アクセスの際
に行き先ＰＥが自ＰＥであるために、ＣＯＮＤＸとＣＯ
ＮＤＹは成立しているのに、Ａが成立しないために分岐
しなかったパケットについては、入出力インターフェー
ス部ＩＦでそのパケットのＰＥおよびＰＭＴＨフラグを
クリアして通常のローカル・メモリ・アクセスパケット
に変更する機能を入出力インターフェース部ＩＦに与え
ることとする。この機能を実現するために、分岐回路か
ら合流回路に至る本線経路上において、セレクションコ
ードに関して次の処理が実行される。ＰＥ（ＮＥＷ）＝ＰＥ＊ＣＯＮＤＸ＊ＣＯＮＤＹＰＭＴＨ（ＮＥＷ）＝ＰＭＴＨ＊ＣＯＮＤＸ＊ＣＯＮＤＹ

【００４４】次に図１２を参照して入出力インターフェ
ース部の動作について説明する。ＰＥフラグの値が
“１”，すなわちパケットをＰＥ外へ出力する場合で
も、行き先ＰＥ＃が自ＰＥである場合には、出力しな
い。データメモリ部ＤＭは、入力のセレクション・コー
ドがＰＥ＝“０”かつＰＭ＿Ｔｈｒｕ＝“１”のとき、
右データをアドレスとしてメモリを読み出して結果を右
データフィールドに格納する。かつ、ＰＭ＿Ｔｈｒｕ＝
“０”に変えて出力する。また、データメモリ部ＤＭを
アクセスする命令を実行した時には、常に左データの上
位８ビットを右データの上記８ビットに移動させる（Ｐ
Ｅ間を渡るメモリアクセスパケットの戻り先ＰＥ＃を保
存するため）。さらに、ＰＥ＃＝“１”，ＰＭ＿Ｔｈｒ
ｕ＝“０”のときデータメモリ部ＤＭはＮＯＰ（空命
令）と見なす（ＰＥ間を渡るメモリアクセスをした後
に、もとのＰＥに戻ったときにデータメモリ部ＤＭをス
ルーさせるため）。

【００４５】キューバッファ回路は、書き込み専用ポー
トと、読み出し専用ポートをもつ、２ポートメモリで実
現されている。

【００４６】本プロセッサを複数個接続したマルチプロ
セッサシステムにおける分散型共有データメモリを効率
的にアクセスするための機構について説明する。図１１
は、上記分散型共有データメモリアクセス機構を示した
概念図である。図中の“ＲＡＰＩＤ”は本データ駆動形
マイクロプロセッサを示す。ＰＥ＃０側は、データメモ
リの読み出し要求パケットのアドレス上位（ＰＥ＃０に
対応）のチェックを行い、前記パケットの戻り先ＰＥ＃
（“０”）を付加してネットワークへ出力を行う。次に
ＰＥ＃７側は、データメモリの読み出し、行き先ＰＥ＃
の付け換え、要求元ＰＥへの送出を行う、次にＰＥ＃０
側は読み出し結果の受け取りを行う。バス結合型の共有
メモリ方式のマルチプロセッサの場合、メモリアクセス
のボトルネックによって全体性能が律則される。本マイ
クロプロセッサは、分散型共有メモリ方式を採用してお
り、プロセッサ間のメッセージ通信を用いて、同時並列
的に分散配置されたメモリのアクセスを行う。このた
め、上記のようなボトルネックはなく、性能が飛躍的に
向上する。なお、本動作の詳細は後述する。

【００４７】図１３は図１中のマッチングメモリ部ＭＭ
の構成を示すブロック図である。このマッチングメモリ
部ＭＭの機能について説明する。（１）オペランド対の生成マッチングメモリ部ＭＭでは、二項演算に必要な２つの
オペランドの対を生成して出力する。この機能を、基本
的にはハッシュメモリ上でのオペランド待ち合わせによ
り実現している。つまり、入力パケットのタグ情報から
計算したハッシュ値をメモリ上の待ち合わせアドレスと
して先に到着したパケットのオペランドを格納してお
き、同一のタグ情報を有するパケットが到着したときに
演算可能な実行パケットを生成する。マッチングメモリ
部ＭＭでは、この待ち合わせメモリとしてハッシュメモ
リと連想メモリを組み合わせて用いている。すなわち、
通常はハッシュメモリを使用し、連想メモリはハッシュ
衝突時に溢れたパケットの受け皿として用いている。ハ
ッシュアドレスの生成には、入力パケットのタグ情報の
行き先ノード番号の下位９ビットとカラー／世代９ビッ
トが用いられる。これら２つの情報をビット毎にＥＸＮ
ＯＲをとることで、９ビットのハッシュアドレスが計算
される。この方法によりハッシュ衝突の頻度を下げるこ
とが可能となる。この効果によりハッシュ衝突時の受け
皿である連想メモリの容量を小容量化することができ
る。尚、万一この連想メモリが溢れた場合には、入力パ
ケットに対して、ハッシュ衝突フラグを立て、他の機能
ブロックで何も処理されないスルーパケットとして出力
され、巡回パイプラインを１周した後に再びＭＭに戻る
ようにしている。

【００４８】（２）パイプライン構成マッチングメモリ部ＭＭは、６段のパイプラインステー
ジに分割されている。各ステージにおける処理は次のよ
うになっている。第一段：ハッシュアドレスの生成。第二段：アドレス比較によるハッシュメモリの事前競合
検知。第三段：ハッシュアドレスのプリデコード。ハッシュメモリの事前競合回避。第四段：ハッシュメモリと連想メモリの読み出し。第五段：ハッシュメモリ読み出し結果と入力パケット
のタグ情報の比較。右オペランドの選択（入力パケット／ハッシュメモリ
／連想メモリ）。第六段の処理の決定（ハッシュメモリへ書き込み／ハ
ッシュメモリと対生成／連想メモリへ書き込み／連想メ
モリと対生成）。第六段：第五段での決定結果によるメモリ書き込みの
実行（対生成の場合にもプログラムメモリ部ＰＢへの
“０”書き込みが行われる）。左右オペランドの交換。

【００４９】（３）メモリアクセスの排他制御マッチングメモリ部ＭＭでは、１つのパケットが入力さ
れる毎に、ハッシュメモリと連想メモリのそれぞれに対
して、読み出しと書き込みの合計２回のメモリアクセス
を行う。入力パケットが連続してやってくる場合にもパ
ケットの転送レートを低下させないために、メモリアク
セスのサイクルタイムを最小にした上で、Ｎ番目の入力
パケットの書き込みを実行する前にＮ＋１番目の入力パ
ケットの読み出しを実行させている。これにより、もっ
とも効率よくメモリ読み出しとメモリ書き込みを連続し
て実行させることが可能となる。メモリアクセスのサイ
クルタイムを１０ｎｓとした場合のタイムチャートを図
１４に示す。非同期に入力されるパケットに対して、上
記の順序で処理を実行させるために、メモリ読み出しと
書き込みが重ならないことを保証する排他制御を行って
いる。マッチングメモリ部ＭＭでは、各パイプライン段
間のデータ転送を自己同期回路により実現している。こ
の自己同期回路のデータ転送制御信号を操作すること
で、メモリ読み出しステージ、あるいはメモリ書き込み
ステージへのデータ転送を局所的に停止し、メモリアク
セスの排他制御を行っている。つまり、メモリ読み出し
中には、メモリ書き込みステージへのデータ転送を停止
させ、メモリ書き込み中には、メモリ読み出しステージ
へのデータ転送を停止するように制御される。

【００５０】（４）ハッシュメモリの事前競合検知（３）で述べたように、入力パケットが連続してやって
くる場合には、Ｎ番目の入力パケットの書き込みが行わ
れる前に、Ｎ＋１番目の入力パケットの読み出しが行わ
れる。この場合、Ｎ番目の入力パケットとＮ＋１番目の
入力パケットがハッシュメモリに対して、同じアドレス
をアクセスすると誤動作を起こす。これを防ぐためにパ
イプラインステージの第二段と第三段においてハッシュ
メモリの競合を事前に回避している。これは、まず第二
段目で先行する入力パケットがアクセスしたハッシュア
ドレスと次にアクセスしようとするハッシュアドレスと
を比較する。この比較結果がもし一致していれば、先行
する入力パケットのメモリ書き込みが終了するまで、第
三段目において待たされる。以上の処理によりハッシュ
メモリの事前競合回避が実現されている。この処理はオ
ペランド対生成の必要な二項演算命令実行パケットに対
してのみ必要な処理であり（５）で述べるマッチングメ
モリ部ＭＭでの処理とは関係のないパケットに対しては
実行されない。

【００５１】（５）マッチングメモリ部ＭＭのパケット
スルーマッチングメモリ部ＭＭでは、（３）で述べたように二
項演算命令実行のためのパケットが入力されるとオペラ
ンド対生成のために、必ずメモリを２回アクセスする。
しかし、単項演算命令実行のためのパケットやマッチン
グメモリ部ＭＭを強制的にスルーさせる必要のある特殊
パケットが入力されると、メモリアクセスや入力パケッ
トへの処理は全く行わずに出力される。マッチングメモ
リ部ＭＭを強制的にスルーする特殊パケットとは、パケ
ットのタグ情報のセレクションコードの内、ｓｅｌ
（０）、ｓｅｌ（９）、ｓｅｌ（１０）の何れかが
“１”であるものである。但し例外として、特殊パケッ
ト以外の単項演算命令実行パケットであっても右オペラ
ンドフラグの立つパケットに関しては、左右のオペラン
ド位置を入れ換える。

【００５２】マッチングメモリ部ＭＭは、図１３に示し
たようにハッシュメモリ、連想メモリ、データラッチ、
データ転送制御回路“Ｃ”、およびその他の論理回路で
構成されている。入力データは、左の入力部よりパケッ
ト形式で入力される。この入力パケットのフォーマット
を図１５に示す。図１３において、“Ｃ”から長方形の
ブロックへ向かう矢印がラッチ制御信号で、この長方形
のブロックがデータラッチである。ラッチされる内容に
は、アドレス、タグ、データがある。アドレスは、ハッ
シュメモリをアクセスするためのハッシュアドレスで、
入力パケットのカラー／世代と行き先ノード番号より生
成される。タグは、入力パケットのタグ情報が、データ
は、オペランド情報がそれぞれ入力される。尚、データ
の上側の経路には、左オペランドが、下側の経路には右
オペランドがそれぞれ入力される。入力されたデータ
は、左から右へとデータラッチ間をデータ転送制御回路
“Ｃ”により順次転送されつつ処理が施されていく。デ
ータラッチとデータラッチに挟まれた部分が各パイプラ
インステージの１段分に相当し、データラッチ間を転送
される間にそのステージでの処理が実行される。

【００５３】次に図１３中のハッシュメモリについて説
明する。（１）ハッシュメモリ本体ハッシュメモリへは、図１６に示すような５６ビットの
情報が９ビットのアドレスで指定可能な５１２ワードま
で格納できる。ハッシュメモリのアレイ構成を図１７に
示す。アドレス９ビットの内２ビットをＹデコードする
ため、物理的には、２２４ビット×１２８ワードの構成
となっている。２ビットのＹアドレスと７ビットのＸア
ドレスの内の４ビットは、プリデコードされる。したが
って、このブロックへ入力されるアドレスはＹデコード
結果の４ビットとＸアドレスのプリデコード結果１６ビ
ットとデコードされていないＸアドレス３ビットの正負
６ビットの合計２６ビットである。よって図１７の１コ
ラムには、未デコードアドレス３ビットをデコードした
８本のワード線が存在する。

【００５４】図１７中のＳＥＬは、４組のビット線から
Ｙデコード結果により１組を選択するセレクタでトラン
スファーゲートを用いている。メモリセルには、ロード
トランジスタの代わりに高抵抗ポリシリコンを採用した
４トランジスタ構成の回路を用いている。プレゼンスビ
ット（ＰＢ）のメモリセルは直接リセット機構を備えた
もので、システムのリセット時にリセットされる。その
回路図を図１８に示す。

【００５５】（２）メモリ周辺回路図１９にメモリ周辺回路の論理回路図を示す。アドレス
９ビットの内２ビットをＹデコードしているため、ビッ
トライン４本に対して書き込みドライバ、読み出しラッ
チ、センスアンプ、イコライズ・プリチャージが、それ
ぞれ１つずつ付く構成となっている。イコライズ・プリ
チャージに関しては、反転論理ＥＱＬＨ信号により同期
的にセンスアンプのビット・反転論理ビット線をイコラ
イズ・プリチャージする回路に加えて、メモリセルのビ
ット・反転論理ビット線をイコライズ・プリチャージす
る回路が存在する。メモリセルに関する回路のイコライ
ズは反転論理ＥＱＬＨ信号により同期的に行われるが、
プリチャージはチャネル幅Ｗの狭いＮチャネルトランジ
スタにより、常時行われている。尚、このメモリセルの
ビット・反転論理ビット線をイコライズ・プリチャージ
する回路の物理的なレイアウト上の配置は、メモリセル
１２８列の中央の列に置かれている。Ｗ／Ｒアドレスセ
レクタは、ＣＭＯＳトランスファーゲートで構成されて
いる。メモリ書き込み／読み出しの切り換えは、ＨＷＡ
信号によって行われている。

【００５６】（３）メモリアクセス制御図２０にメモリ読み出し／書き込みの制御信号を生成す
る論理回路を示す。図中のＣ０〜Ｃ３は、データ転送制
御回路を示す。これは、ＳＥＮＤ、ＡＣＫ信号のハンド
シェイクにより自己同期的にラッチーラッチ間のデータ
転送を司るものである。また、図中のＤＥＬＡＹは、遅
延回路を示している。図２０に示された信号線の内、Ｓ
ＷＥＥＰは後で述べる事前競合検知機構に関する信号
で、ハッシュメモリの競合を事前に防ぐための例外処理
実行の制御線である。この信号による制御に関しては、
事前競合検知機構のところで述べる。

【００５７】次にこの図２０を用いてメモリの読み出
し、書き込みの制御について説明する。まず読み出しで
あるが、データ転送制御回路Ｃ０からＣ１へ入力パケッ
トが転送される間に実行される。読み出しに関係する信
号には、ＥＱＬ、ＳＡＥ、ＣＢがあり、これらは、図１
９の同名の信号線に入力される。つまり、ＥＱＬ信号は
ビット線のイコライズ・プリチャージを行い、ＳＡＥ信
号はセンスアンプをアクティブにし、ＣＢ信号は立ち下
がりで読み出しデータをラッチする。データ転送制御回
路Ｃ０からＣ１へパケットが転送されると、まずＥＱＬ
信号が“１”から“０”へ変化するとともに、ＳＡＥ信
号が“０”から“１”へ変化する。これにより、イコラ
イズ・プリチャージが中止され、センスアンプが駆動さ
れることにより読み出しが開始する。次に、パケットが
データ転送制御回路Ｃ０に到着した時に“０”から
“１”へ変化した信号ＣＢが、パケットがデータ転送制
御回路Ｃ１に到達することで再び“１”から“０”へ変
化する。これにより、ＣＢ信号が“１”の期間に読み出
しデータラッチに入力されていたデータが確定し、メモ
リ読み出しの一連の動作が完了する。

【００５８】次に書き込みであるが、データ転送制御回
路Ｃ２からＣ３へパケットが転送される間に実行され
る。書き込みに関係する信号には、ＷＥ、ＷＡＥがあ
り、これらは、図１９の反転論理ＨＷＥ、ＨＷＡにそれ
ぞれ入力される。但し、反転論理ＨＷＥへはＷＥ信号の
反転論理が入力される。ＷＥ信号は、書き込みドライバ
ーの駆動、ＷＡＥ信号は、読み出しアドレスから書き込
みアドレスへの切り換えを行う。データ転送制御回路Ｃ
２へパケットが到着すると、後続するパケットがない
（ＥＭＰ＝“１”）場合を除き、後続パケットがデータ
転送制御回路Ｃ１へ到達し、メモリ読み出しが完了する
までメモリへの書き込みおよびデータ転送制御回路Ｃ３
へのデータ転送は待たされる。もちろん、このような制
御が行われるのは、反転論理ＷＲＩＴＥ信号が“０”で
あるメモリ書き込みパケットの場合だけであり、マッチ
ングメモリ部ＭＭをスルーするパケットは待たされるこ
とはない。このデータ転送の停止は、ＲＤＣＯＭＰ信号
により行われる。後続パケットのメモリ読み出しが完了
すると、まずＷＡＥ信号が“０”から“１”へ変化す
る。これによりメモリに対して与えられていたアドレス
が、書き込みアドレスに切り変えられる。次に、アドレ
スのデコードが完了し特定のワード線が立ち上がるに要
する遅延Ｄａの後に、ＷＥ信号が“０”から“１”へ変
化する。これにより書き込みドライバーが駆動されメモ
リへのデータ書き込みが実行される。その後、遅延Ｄｂ
の後、ＷＡＥ、ＷＥの信号とも、“１”から“０”変化
しメモリ書き込みの動作は完了する。ＷＡＥ信号が
“１”であるメモリ書き込み中はＷＲＣＯＭＰ信号は
“０”となり、後続データのデータ転送制御回路Ｃ０か
らＣ１へのデータ転送はなされず、メモリ読み出しは行
われない。

【００５９】以上の制御信号の一連の動きを図２１のタ
イムチャートに示す。まず第１番目のパケット（）が
アドレスＡから値０を読み出す。次に第２番目のパケッ
ト（）がアドレスＢから値１を読み出すまで、第１番
目のパケットの書き込みは待たされる。第２番目のパケ
ットの書き込みが完了すると、第１番目のパケットがア
ドレスＡへ、値１を書き込む。第１番目のパケットの書
き込み終了後、第３番目のパケット（）はアドレスＡ
から値１を読み出す。第３番目のパケットの読み出し完
了後、第２番目のパケットがアドレスＢへ、値２を書き
込む。以下同様にして、連続して投入されたパケットに
対して、メモリの読み出し／書き込みが排他的に行われ
る。

【００６０】（４）ハッシュアドレスの事前競合検知ハッシュアドレスの事前競合検知回路を図２２に示す。
この処理は、図２２に示すように、メモリアクセスを行
うパイプラインより前の３段のパイプラインで実行され
る。つまり、第一段（Ｃｍ３）：ハッシュアドレスの生成第二段（Ｃｍ２）：ハッシュアドレスの比較第三段（Ｃｍ１）：ハッシュアドレスのプリデコードハッシュアドレスの事前競合回避である。

【００６１】まず、ハッシュアドレスの生成であるが、
これは、入力パケットのタグ情報の内、行き先ノード番
号２１ビットの下位９ビットと、カラー／世代９ビット
より生成される。つまり、行き先ノード番号の下位９ビ
ットと、カラー／世代９ビットのビット位置を上位下位
反転させたものに対して、ビット毎にＥＸＮＯＲをとる
ことで９ビットのハッシュアドレスを生成している。こ
うすることで、単一世代プログラム実行時の行き先ノー
ド番号のハッシュアドレス空間を上限の９ビットまで広
げられる。しかも、カラー／世代のビット位置を上位下
位反転させたことで、世代が連続して入力された場合で
も、生成されるハッシュアドレスはより分散されること
になり、近接した世代間でおこるハッシュ衝突の低減が
期待できる。このハッシュアドレス生成法により、ハッ
シュ衝突の抑制が期待できることから、ハッシュ衝突時
の受け皿である連想メモリの容量を３２ワードと小容量
化することができる。

【００６２】次に、ハッシュアドレスの比較であるが、
これはデータ転送制御回路Ｃｍ２でラッチされた９ビッ
トのハッシュアドレスとデータ転送制御回路Ｃｍ１でラ
ッチされている先行パケットの９ビットのハッシュアド
レスの比較を行う。データ転送制御回路Ｃｍ２ではトラ
ンスペアレントタイプのデータラッチ回路でラッチされ
ているのに対して、データ転送制御回路Ｃｍ１では、エ
ッジトリガタイプのデータラッチ回路でラッチされてい
る。比較結果が一致したか否かを示す１ビットのＥＱＵ
ＡＬ信号は、データ転送制御回路Ｃｍ１でトランスペア
レントタイプのデータラッチ回路でラッチされる。この
アドレス一致検出では、アドレス比較に加えて相前後す
る２つのパケットがともに二項演算命令実行パケットで
あることも検出しており、アドレスが一致し、かつ、と
もに二項演算実行パケットである場合に限りＥＱＵＡＬ
信号は“１”となる。

【００６３】データ転送制御回路Ｃｍ１段では、ハッシ
ュアドレスのプリデコードとハッシュアドレスの事前競
合回避の処理が実行される。ハッシュアドレスのプリデ
コードは、ハッシュアドレス９ビットの内の２ビットの
Ｙデコードと４ビットのプリデコードが行われる。従っ
て、Ｙデコード結果４ビット、プリデコード結果１６ビ
ット、未デコードアドレス３ビットの正負６ビットの計
２６ビットが出力される。

【００６４】一方、ハッシュアドレスの事前競合回避処
理であるが、これは、マッチングメモリ部ＭＭに対して
連続してパケットが入力されている場合には、同じハッ
シュアドレスを連続してアクセスすると、本来ハッシュ
アドレスに対して、書き込みがなされた後に読み出さな
ければならない場合でも、マッチングメモリ部ＭＭで
は、後続パケットの読み出しが優先して実行されるため
に、誤ったデータの読み出しを行うという誤動作をが起
きる。これを防ぐために、事前に相前後してアクセスさ
れる２つのアドレスの比較を行い、これらがもし一致す
る場合には、先行するパケットの書き込みが終了するま
で、後続のパケットの読み出し段への進入を一時待たせ
るという処理を行っている。これを図２２の論理回路図
より説明すると、先行するパケットがマッチングメモリ
部ＭＭ内に全くないことを示すＡＬＬＺ信号が“０”
（先行するデータ有り）で、ハッシュアドレスの比較結
果で一致したことを示すＥＱＵＡＬ信号が“１”で、し
かも先行パケットがデータ転送制御回路Ｃ０を通過した
場合にＣＧＯ信号が“０”となり、先行パケットと同じ
ハッシュアドレスをアクセスしようとする後続パケット
のデータ転送制御回路Ｃ０段への進入を阻止する。その
後、先行パケットの書き込みが終了しＡＬＬＺ信号が
“０”から“１”へと変化すると、ＣＧＯ信号は、
“０”から“１”へと変化し、後続パケットのデータ転
送制御回路Ｃ０段への進入が許され、メモリ読み出しが
実行される。

【００６５】先にも触れた通り、マッチングメモリ部Ｍ
Ｍでは、後続パケットの読み出しが終了するまで先行す
るパケットの書き込みは待たされる。このため、上記の
ハッシュアドレスの事前競合回避処理は矛盾をきたす。
そのための例外処理として、ＳＷＥＥＰ信号が用いられ
る。つまり、後続パケットに対して、ＣＧＯ信号を
“０”として、データ転送を阻止し、しかも実際に後続
パケットが待たされている場合に限り、ＳＷＥＥＰ信号
を“１”として先行するパケットのメモリ書き込みを強
制的に実行させる（後続パケットの読み出しの完了を待
つことをせずに）。こうすることでデッドロックを起こ
すことなく、ハッシュアドレスの競合の事前回避が実現
できる。

【００６６】次に図１３中の連想メモリについて説明す
る。（１）連想メモリの機能連想メモリは、ハッシュメモリを用いてオペランド対を
生成する際に、ハッシュ衝突を起こしたパケットの受け
皿として用いられる。つまり、ハッシュ衝突を起こした
パケットは、連想メモリで待ち合わせを行いオペランド
対が生成される。連想メモリへのアクセスは、ハッシュ
メモリのアクセスと並行して行われる。つまり、パイプ
ライン段の第四段で読み出しが行われ、第六段で書き込
みが実行される。第四段でのメモリ読み出しの処理は、
ハッシュメモリ、連想メモリ共に、パケットが入力する
度に実行されるが、第六段でのメモリ書き込みの処理
は、ハッシュメモリ、連想メモリの何れか一方のみに対
して実行される。当然のことながら、マッチングメモリ
部ＭＭをスルーするパケットに対しては、メモリ書き込
みは実行されない。第六段で何れのメモリに対して書き
込みを行うかの判断は第五段でなされる。この判断は第
四段でのメモリの読み出し結果と、第五段でハッシュメ
モリのタグ情報と入力パケットのタグ情報とを比較した
結果とから行われる。この判断を行うもととなる処理の
決定表を図２３に示す。図２３において、第六段での処
理内容の欄のオペランド対の生成では、読み出したメモ
リ内容の内、オペランド情報をパケットへマージさせオ
ペランド対の生成を行う。その際、読み出したメモリワ
ードをクリアするために、そのワードのＰＢに対して
“０”書き込みを実行している。これは、ハッシュメモ
リ、連想メモリの何れの場合も同様である。したがっ
て、オペランド対生成の処理の場合であってもメモリ書
き込みは実行される。

【００６７】（２）連想メモリの構成図２４に連想メモリの構成を示す。図２４に示されるよ
うに、連想メモリは３２ワード×３２ビットのＣＡＭ部
と３２ワード×３６ビットのデータＲＡＭ部より構成さ
れる。ＣＡＭ部とキー一致検索部により、与えられた３
２ビットのタグ情報（キー）と等しい情報が、すでに書
き込まれている３２ワードの中に存在するかどうかの判
定がなされる。データＲＡＭ部はＣＡＭ部とワード線方
向に接続されており、ＣＡＭ部のキーに対応するオペラ
ンド情報が格納される。ＣＡＭ部とデータＲＡＭ部の接
続は、書き込み／読み出しワード線選択部により、読み
出し時にはＣＡＭ部のマッチ線とデータＲＡＭ部のワー
ド線が接続れ、書き込み時には双方のワード線が、空ワ
ード検知プライオリティデコーダにより求められたワー
ド線へ接続される。

【００６８】（３）ＣＡＭ部ＣＡＭ部へキーとして与えられる情報は、プレゼンスビ
ット（ＰＢ）１ビット、行き先ノード番号（ＮＯＤＥ）
２１ビット、カラー／世代（ＣＯＬ／ＧＥＮ）８ビッ
ト、空き１ビットの合計３２ビットである。これらのキ
ーは、書き込み時と読み出し時とで切り替える必要があ
る、これは、書き込み／読み出し選択のセレクタで実行
している。キーとして与えられるＰＢは、読み出し時に
は、常に“１”であるが、書き込み時には、入力パケッ
トを連想メモリに書き込む場合と連想メモリから読み出
した内容とオペランド対を生成する場合とで異なる。つ
まり、入力パケットを書き込む場合には“１”を書き込
み、オペランド対を生成する場合には“０”を書き込
む。与えられたキーの各ビット毎の比較は、図２５に示
すようなフルＣＭＯＳのＣＡＭセルを用いる。マッチ線
がワード線方向に３２ビット分接続されており、同一ワ
ード線上のすべてのビットが一致すれば、予めプリチャ
ージされていたマッチラインのディスチャージが起こら
ないことで一致検出が行える。一致検出を行うためのマ
ッチ線のプリチャージ、ディスチャージの制御はＣＥ信
号によって行っている（図２６参照）。つまり、ＣＥ＝
“０”の時には、マッチ線のデータＲＡＭ部側の接続を
切り、マッチ線のプリチャージを行う。ＣＥ＝“１”の
時には、マッチ線のデータＲＡＭ部側を接続し、すべて
のＣＡＭセルのＣＥ入力を“１”としてマッチ線のディ
スチャージを行う。このＣＥ信号のワード毎に設けられ
たドライバーとプリチャージのための回路は、ＣＡＭ部
のマッチ線中央に付けられている。

【００６９】（４）空ワード検知プライオリティデコー
ダキーの書き込みワードの選択のために、図２７に示す空
ワード検知プライオリティデコーダを用いている。この
回路は、各ワードのＰＢを観測することにより空ワード
で最も左側にあるワードを選択するものである。キャリ
ーの伝搬による遅延を抑えるために、３２ワードを８ワ
ード単位の４つのブロックに分割し、各ブロック毎のプ
ライオリティデコーダと各ブロック内に空ワードが存在
するかどうかの検索を同時に実行し、最も左側に空ワー
ドが存在するブロックのプライオリティデコード結果を
採用している。すべてのブロックに空ワードが存在しな
かった場合には、反転論理ＦＵＬＬ信号により連想メモ
リが満杯であることを表示する。この処理結果は、デー
タ転送制御信号Ｃ２の立ち上がりでエッヂトリガータイ
プのデータラッチでラッチされる。連想メモリ書き込み
時には、このラッチ結果が、ＣＡＭ部、データＲＡＭ部
双方のワード線へ直結される。

【００７０】（５）キー一致検索キー一致検索部では、連想メモリに対して与えられたキ
ーと等しいキーが既に書き込まれているかを調べ、もし
存在する場合には、ＨＩＴ信号を“１”とするものであ
る。キー一致検索部へは、ＣＡＭ部で各ワード毎に束ね
られた３２本のマッチ線をプリチャージした後、比較し
た結果をデータ転送制御回路Ｃ１でラッチしたものが入
力される。入力された３２本のマッチ線からディスチャ
ージされなかったものが１本でも存在すれば、ＨＩＴ信
号を立てて出力する。この回路は、ＮＯＲ−ＮＡＮＤ−
ＮＯＲ回路で実現されている。

【００７１】（６）データＲＡＭ部データＲＡＭ部には入力パケットの連想メモリ書き込み
の際にＣＡＭ部にキーとして書き込まれたタグ情報に対
応するオペランド情報が格納される。各ワード毎に３２
ビットのオペランドデータと２ビットのデータフラグの
計３４ビットが格納される。メモリ周辺回路のイコライ
ズ・プリチャージ回路、センスアンプ、読み出しデータ
ラッチ、書き込みドライバーに関しては、ハッシュメモ
リのメモリ周辺回路と全く同一のものを用いている。デ
ータＲＡＭ部においてはＣＡＭ部のマッチ線出力で、直
接ワード線をアクセスする構成をとっているため、アド
レスデコーダは存在しない。

【００７２】（７）ＣＡＭ部とデータＲＡＭ部の接続以上に述べたＣＡＭ部とデータＲＡＭ部、およびこれか
ら述べるこれらの接続の様子を図２６に示す。この回路
は、基本的には、ＲＷＡ信号により読み出し時（ＲＷＡ
＝“０”）にはＣＡＭ部のマッチ線とデータＲＡＭ部の
ワード線を接続し、書き込み時（ＲＷＡ＝“１”）には
空ワード検知プライオリティデコーダによって求められ
た書き込みワードとを接続するものである。ＲＷＡ＝
“０”の読み出し時には、ＣＡＭ出力の３２本のマッチ
線はすべて一旦レベル“１”へプリチャージされる。そ
のため、単にＣＡＭ部のマッチ線とデータＲＡＭ部のワ
ード線を接続しただけでは、データＲＡＭ部の全てのワ
ード線を立ち上げる結果となり、データＲＡＭ部のデー
タを破壊してしまう。したがって、ＣＡＭ部におけるマ
ッチ線のディスチャージが完全に終了するまでは、ＣＡ
Ｍ部のマッチ線とデータＲＡＭ部のワード線は接続して
はならない。ＣＡＭ部におけるマッチ線のディスチャー
ジはＣＥ信号の立ち上がりで開始される。よって、ＣＥ
信号の立ち上がりよりもマッチ線のディスチャージが完
全に終了する時間だけ遅延して立ち上がり、ＣＥ信号の
立ち下がりと同期して立ち下がる信号ＭＬＥでＣＡＭ部
のマッチ線出力を殺すように制御している。

【００７３】ＣＡＭ部に対するワード線入力の切り換え
はデータＲＡＭ部と同様にＲＷＡ信号により行ってい
る。このためにＣＡＭ部のワード線へは、データＲＡＭ
部への書き込みが実施される場合には空ワード検知プラ
イオリティデコーダの出力結果が、それ以外の場合に
は、キー一致検索に用いられたマッチ線の情報をデータ
転送制御回路Ｃ２でさらにラッチした結果がそれぞれ入
力される。後者の場合のキー一致検索に用いたマッチ線
の情報をデータ転送制御回路Ｃ２でさらにラッチした結
果とは、データ転送制御回路Ｃ２を通過しメモリ書き込
み、あるいはオペランド対の生成を行おうとしているパ
ケットが、データ転送制御回路Ｃ０を通過した際に、Ｃ
ＡＭ部でキー比較を行った後のディスチャージされたマ
ッチ線の状態である。データＲＡＭ部への書き込みが実
施されるのは、連想メモリへ入力パケットのオペランド
情報を書き込む場合のみで、連想メモリの読み出し内容
とオペランド対を生成する場合には、データＲＡＭ部へ
の書き込みは実施されない。

【００７４】一方、ＣＡＭ部への書き込みは、連想メモ
リへ入力パケットのタグ情報を書き込む場合はもちろ
ん、連想メモリの読み出し内容とオペランド対を生成す
る場合にも実施する必要がある。連想メモリの読み出し
内容とオペランド対を生成する場合のＣＡＭ部への書き
込みは、連想メモリを読み出したワードのＰＢに対して
“０”を書き込み、そのワードの情報を無効化するもの
である。この時の連想メモリを読み出したワードがどの
ワードであるかは、先に述べたキー一致検索に用いたマ
ッチ線の情報をデータ転送制御回路Ｃ２でラッチした結
果が示している。したがって、連想メモリの読み出し内
容とオペランド対を生成する場合には、ＰＢを“０”と
してＣＡＭに対してのみ書き込みを実施することで、読
み出された連想メモリのワードをクリアできる。

【００７５】（８）連想メモリ制御信号のタイミング図２８に連想メモリに対するメモリアクセス制御信号の
発生回路を示す。メモリ読み出しに関する制御信号のＥ
ＱＬ、ＳＡＥ、ＣＢについては、その発生源はハッシュ
メモリと共通のものを用いている。メモリ書き込みに関
する制御信号のＣＷＡ、ＣＷＥ、ＲＷＡ、ＲＷＥについ
ては、その発生回路の回路構成はハッシュメモリと同一
であるが、ハッシュメモリとＣＡＭ部とデータＲＡＭ部
とでは、これらの制御信号を発生する条件がそれぞれ異
なるため、各々独立に持たせている。つまり、図２８に
おけるＣＡＭＷＲ（反転）、ＲＡＭＷＲ（反転）信号が
アクティブとなる条件がハッシュメモリの場合とは異な
るからである。

【００７６】以上のハッシュメモリでも用いていた制御
信号の他に、連想メモリ独特の制御信号がある。つま
り、ＣＡＭ部のマッチ線のプリチャージ、ディスチャー
ジを制御するＣＥ信号と、マッチ線のディスチャージ後
マッチ線とデータＲＡＭ部の読み出しワード線との接続
を制御するＭＬＥ信号である。これらの信号は、データ
転送制御回路Ｃ０のＳＥＮＤ出力をＷＲＣＯＭＰ信号で
ゲートした後のＣＯＯ信号と、この信号を遅延回路ＤＥ
ＬＡＹにより遅延させたＣＯＯＤ信号から生成される。
つまり、ＣＯＯ信号の立ち上がりでＣＥ信号は“１”に
変化し、ある遅延の後のＣＯＯＤ信号の立ち上がりでＭ
ＬＥ信号も“１”へ変化する。その後、ＣＯＯＤ信号の
立ち下がりでＣＥ、ＭＬＥ信号ともに“０”へ変化す
る。

【００７７】以上の連想メモリ制御信号発生回路による
連想メモリ読み出しのタイムチャートを図２９に示す。
４つのパケットが順次入力されており、その内最初の２
つは、キーが一致せずに何も読み出されていないが、後
の２つは、それぞれワード１、ワード２とそれぞれ一致
し、データ３、データ４がそれぞれ読み出されたことを
示している。

【００７８】次に前述したデータメモリ部ＤＭの追加説
明を行う。データメモリ部ＤＭは、チップ内部に例えば
３２ビット×１Ｋワードのメモリが内蔵されている。ま
た、メモリアクセスを制御するための４種類のアドレス
ジェネレータを内蔵している。データメモリ部ＤＭは、
大別すると、ノーマルモードと、バンクモードの２種類
の動作モードがあり、モードによってメモリの使用形態
が異なる。図３０，３１は、上記各動作モード時のアド
レスジェネレータと内蔵メモリとの接続関係を示した模
式図である。（１）ノーマルモード（図３０参照）・ノーマルモードでは、内蔵されている１Ｋワードのメ
モリを単一のメモリとして使用するモードである。デー
タメモリ部ＤＭに入力された１個のパケットにより１回
のメモリアクセスが行われる（スカラーアクセス）。・１Ｋワードを越えるアドレス空間を外部に拡張するこ
とができる。（２）バンクモード（図３１参照）・バンクモードでは、内蔵のメモリを１２８ワードを単
位として、１２８×２ワード、１２８×３ワード・・・
のバンクに分割し、これらのバンクを上記アドレスジェ
ネレータのいづれかと接続することにより、データメモ
リ部内で同時に複数のメモリアクセス実行することが可
能となる。上記の機能を用いてベクトル演算を実現する
ことができる。すなわち、各バンクを、いわゆるベクト
ルレジスタとして用いてベクトル演算を実現する。ベク
トル演算では、指定したバンクから、被演算データを連
続に読み出し、それらを演算し、演算結果の格納、外部
メモリからバンクメモリへのデータの充足、バンクメモ
リから外部メモリへのデータの書き出し（ＤＭＡ転
送）、を同時に実行する。・スカラーアクセスも同時に実行可能であるが、アドレ
ス空間は、２５６アドレス（０番地〜２５５番地）に制
限され、この範囲を越えるアドレスをアクセスするパケ
ットが入力された場合、パケットのフラグ（セレクショ
ンコードのＭＥＭ＿ＡＣＣＥＳＳ＿ＶＩＯＬビット）を
セットし、メモリアクセスは、行われない。

【００７９】以下に、データメモリ部ＤＭに内蔵されて
いるアドレスジェネレータとその役割を示す。ここで
は、図２で説明したアドレス発生器に対し、その機能を
あらわす名称を付けている。ノーマルアドレスジェネレ
ータ（ＮＡＧ）はアドレス指定でメモリをアクセスする
もので、スカラアクセスを制御する。（図２のＡＧ３に
対応）リードアドレスジェネレータ（ＲＡＧ）はバンク
モードにおいて、ベクトル演算データの連続読みだしを
制御するもので、２項演算のために、第１オペランド、
第２オペランド用に２個のメモリバンクを割り付けるこ
とができる。（図２のＡＧ１，ＡＧ２に対応）ライトア
ドレスジェネレータ（ＷＡＧ）はバンクモードにおいて
ベクトル演算結果の格納を制御する。（図２のＡＧ４に
対応）ＤＭＡアドレスジェネレータ（ＤＭＡＡＧ）はバ
ンクモードにおいて、外部メモリとの間のＤＭＡ転送を
制御する。（図２のＡＧ５に対応）また、図５８にデー
タメモリＤＭ部のブロック図を示す。図５８は、上記ア
ドレスジェネレータ、および、自己同期型データ転送線
路の関係に着目して描いたブロック図であり、図２で示
したデータメモリＤＭ部のブロック構成図と等価な図で
ある。図５８において、データメモリＤＭ部は、＃０〜
＃７の１２８ワードのメモリバンクと、入力部から分岐
部を経てＮＡＧおよび合流部を通過し出力部に至るデー
タ転送路と、入力部から分岐部を経てＷＡＧで終端する
データ転送路と、ＲＡＧを始点とし合流部を経て出力部
に至るデータ転送路、および、ＮＡＧ、ＲＡＧ、ＷＡ
Ｇ、ＤＭＡＡＧの各アドレスジェネレータとＳＷ回路、
外部Ｉ／Ｆ回路を接続する５組のアドレスバス、データ
バスと、各アドレスジェネレータから入出力されている
アドレスバス、データバスと各メモリバンクの接続を規
定するＳＷ回路から構成されている。なお、分岐部は、
入力されたパケットのＶＥＣＴフラグ（図５０の特殊フ
ラグＣ１に相当）の値が“１”のとき入力されたパケッ
トをＷＡＧに分岐させ、それ以外は、ＮＡＧ側へ転送す
る。また、図２で陽に示してあった制御レジスタファイ
ルは、各アドレスジェネレータ、ＳＷ回路の内部にある
ため陽には示していない。図５８におけるＳＷ回路は、
図２における、２個のマトリックススイッチ回路に対応
する。また、図５８における合流部は、図２における調
停回路(Arbiter)に対応する。ＶＥＣＴフラグの値が
“１”のパケット即ち、ベクトル演算パケットが入力さ
れると、このパケットは、分岐部においてＶＥＣＴ＝
“１”を分岐条件としてＷＡＧ側へ分岐しベクトルデー
タのメモリバンクへの書き込み処理が行われる。この
際、入力されたパケットは書き込み処理の後消去され
る。一方、ＶＥＣＴフラグの値が“０”のパケット即
ち、スカラー演算パケットが入力されると、このパケッ
トは、分岐部において、ＮＡＧに転送され、オペコード
に従った処理を受け合流部を経て出力される。また、ベ
クトル演算のための被演算データの読み出しの開始命令
であるトリガー命令（詳細は、後述する）が発行される
とＲＡＧによりメモリバンクの連続読み出しが開始さ
れ、読みだされたデータにＦＡＬＵでのオペコードなど
のタグ情報を付加しパケットデータを形成し、合流部へ
転送する。合流部では、ＮＡＧから転送されるスカラー
演算パケットとＲＡＧから転送されるベクトル演算パケ
ットを一本のデータ転送路に合流させ出力部をへて出力
する。各アドレスジェネレータ、ＳＷ回路内にある制御
レジスタの設定はＳＥＴＡＧ命令にて行われる。ＳＥＴ
ＡＧ命令は、ＮＡＧにて実行されるが、各レジスタへの
設定データは、ＮＡＧに接続されているデータバスにて
各レジスタに伝達される。

【００８０】以下に、図５８で示したＳＷ回路の状態と
データメモリＤＭ部の動作モードとの関係を示す。図３
０は、ノーマルモード時のメモリの使用形態を示したも
のである。ノーマルモードでは、１Ｋワードの内蔵メモ
リはＮＡＧのみがアクセス可能であり、入力したパケッ
トは、メモリとして、内部に１Ｋワードまでの単一のメ
モリをアクセスでき、チップの外部に１Ｋワード以降最
大１６Ｍワードまでのメモリ空間をアクセスすることが
できる。図３１は、バンクモードの状態の一例を示して
いる。バンクモードでは、ＮＡＧにのみ接続された専用
のバンク（バンク＃０〜１）をのぞいてメモリは１２８
ワードのバンク単位で、各アドレスジェネレータに割付
けることができる。図３１では、バンク＃２，３をＲＡ
Ｇに、バンク＃４をＷＡＧに、また、バンク＃５をＤＭ
ＡＡＧに割り付けている。なお、図２におけるＢＫ１〜
ＢＫ８は図５８，図３０，図３１におけるバンク＃０〜
バンク＃７にそれぞれ相当している。

【００８１】次にデータメモリ部ＤＭの命令実行条件に
ついて説明する。データメモリ部ＤＭは、オペコードの
ほかにセレクションコードを参照し、入力されたパケッ
トのオペコードがＤＭ命令であっても、セレクションコ
ードの値が以下の組み合わせの場合は、命令を実行しな
い。ＤＭ命令実行禁止条件・・・ＩＭ＝０ＡＮＤ（ＨＡＳ
Ｈ＝１ＯＲ（ＰＥ＝１ＡＮＤＰＭ＿Ｔｈｒｕ＝
０））図３２，３３にデータメモリアクセス関連命令（ＤＭ命
令）仕様の一覧表を示す。ＤＭ命令は、以下のように分
類することができる。

【００８２】（Ａ）メモリアクセス命令・データメモリ書き込み／読みだし命令本命令においてアドレスは、オペランドフィールド、プ
ログラム内に埋め込まれた即値が指定可能である。バン
クモード時は、アクセスしようとするアドレスをチェッ
クし２５６ワードを越えるアドレスをアクセスする場合
は、セレクションコードのＭＥＭ＿ＡＣＣＥＳＳ＿ＶＩ
ＯＬビットをセットし、メモリアクセスは行わない。Ｍ
ＥＭ＿ＡＣＣＥＳＳ＿ＶＩＯＬビットがセットされたパ
ケットは、ベクトル演算が終了し、ノーマルモードにも
どるまでリング上を処理を受けずに周回する。また、ア
ドレッシングモードにはベースアドレス加算モードもあ
る。

【００８３】・テスト・アンド・セット命令本命令は、ＴＳＴ＆ＬＯＣ，ＳＥＴ＆ＵＬＯＣの２個の
命令を順に実行することで実現され、共有資源管理が可
能である。共有資源をデータメモリ部ＤＭの１つのアド
レスに代表させ、このアドレスに対して本命令が成功し
たタスクのみがその資源を獲得できるように制御する。

【００８４】・セレクションコードによるメモリ自動ア
クセスセレクションコードが以下の条件を満たす場合、データ
メモリ部ＤＭは、右データをデータメモリに格納された
データへのポインタと解釈し、ポインタの示す内容と置
換する。セレクションコードがＩＭ＝１ＡＮＤＨＡＳＨ＝
０の条件を満たす場合、右データにベースアドレスを加
算した値をアドレスとしてデータメモリ部ＤＭを読みだ
し結果を右データに格納する。ＰＥ＝０ＡＮＤＰＭ＿Ｔｈｒｕ＝１の条件を満た
す場合、右データをアドレスとしてデータメモリ部ＤＭ
を読みだし、結果を右データに格納する。このときＰＭ
＿Ｔｈｒｕ→０とする。

【００８５】・分散型共有メモリアクセス機構マルチプロセッサシステムにて、分散型共有メモリをア
クセスするパケットが持つアドレスは、上位８ビットの
ＰＥ識別番号と下位２４ビットの物理アドレスとの計３
２ビットで構成されている。大規模データを各ＰＥに分
散配置して処理する場合、アドレス計算によって得られ
た結果に基づいて異なるＰＥのデータメモリ部ＤＭをア
クセスし自ＰＥに戻る過程がハードウェアでサポートさ
れている。

【００８６】この機構は、データメモリ部ＤＭのみなら
ず他のブロックとの協調動作であるので詳しい動作は、
後で説明する。データメモリ部ＤＭでは、以下の動作を
する。・分散型共有メモリアクセスを行うパケットが入力さ
れ、データメモリ部ＤＭをアクセスした後、左データの
上位８ビット（戻り先ＰＥ番号）右データの上位８ビッ
トに待避させる。・セレクションコードがＰＥ＝１ＡＮＤＰＭ＿Ｔｈ
ｒｕ＝０のパケットは、ＮＯＰで通過させる。

【００８７】（Ｂ）ベクトル演算関連命令・アドレスジェネレータ・モードレジスタ設定（ＳＥＴ
ＡＧ）命令本命令はバンクモードの時のパラメータを指定するため
の命令である。ベクトル演算を制御するアドレスジェネ
レータ群、ＲＡＧ、ＷＡＧ、ＤＭＡＡＧには、読み出し
回数、アドレッシングモード等の設定、メモバンクのア
ドレスジェネレータへの割付を指定する。レジスタアド
レス（右データフィールドで指定）７０ｈ〜ｆｆｈは、
ＤＭＡＣ等の周辺チップ用に予約されており、左データ
のビットパターンがそのままデータポートより出力され
る。

【００８８】・アドレスジェネレータ・トリガー命令
（ＴＲＧＲＢ，ＴＲＧＲＢ２，ＴＲＧＤＭＡ）本命令はアドレスジェネレータ、ＲＡＧ、およびＤＭＡ
ＡＧの一方もしくは、両方に対して連続的なメモリアク
セスの開始を指定する。

【００８９】・アドレスジェネレータ・チェック（ＣＨ
ＫＡＧ）命令本命令はＲＡＧ、ＷＡＧ、ＤＭＡＡＧがＳＥＴＡＧ命令
で設定した回数のメモリアクセスが終了したか否かをチ
ェックし、本命令が発行された時点でのアドレスレジェ
ネレータの稼動状態を左データに格納する（図３３脚注
参照）。

【００９０】次にアドレスジェネレータとメモリバンク
との対応関係について説明する。バンクモードでは、Ｓ
ＥＴＡＧ命令にてアドレスジェネレータ内のモードレジ
スタ、バンクメモリ割付を指定するバンクレジスタを設
定する必要がある。ここでは、アドレスジェネレータの
仕様、バンクモード時に設定が必要なモードレジスタの
設定法について説明する。

【００９１】（Ａ）メモリバンクの割付アドレスジェネレータがアクセスするメモリバンクを割
り付けるため、バンクレジスタを設定する必要がある。
バンクレジスタは３０ビットのレジスタであり図３４に
示すフォーマットである。フィールドｂａｎｋ＃ｎの５
ビットはバンク＃ｎを割り付けるアドレスジェネレータ
のビットのみを１、その他は０を設定する。（ｎ：２〜
７）なお、バンク＃０，１は、常にＮＡＧに割り付けら
れている。初期化時には、全てのバンクがＮＡＧに割り
付けられる。すなわち、初期化時は、ノーマルモードと
なる。バンクレジスタを設定するには、ＳＥＴＡＧ命令
にて、右データ（レジスタアドレス）を５０ｈ、左デー
タを上記３０ビットのビットパターンを下詰めで入力す
る。この設定は、ハードウェア的にアドレス、データ線
を所望のメモリバンクに接続するためのスイッチ回路
（図２におけるＭＳ，図５８におけるＳＷ回路）を制御
するために行う。

【００９２】（Ｂ）バンク番号の設定同一のアドレスジェネレータに複数のメモリバンクを割
り付けた場合にバンクメモリを識別するために、バンク
番号レジスタを設定する。バンク番号レジスタは、３０
ビットのレジスタであり、図３５に示すフォーマットで
ある。フィールドｂａｎｋ＃ｎのビット１〜３の３ビッ
トにバンク＃ｎのバンク番号を設定する。メモリアクセ
ス時、設定されたバンク番号は、アドレスジェネレータ
から生成されるアドレスの上位３ビットと比較され、一
致している場合のみメモリアクセスが行われる。メモリ
アクセスの詳細は後述する。初期化時には、フィールド
ｂａｎｋ＃ｎのバンク番号フィールド３ビットには、
（ｎ＋２）がセットされる。すなわち、初期化時は、ノ
ーマルモードとなる。（ただし、ｎ＝０，１，２・・・
５）。初期化時のバンク番号、０，１，はＮＡＧ専用の
２枚のバンクに割り当てられている。バンク番号レジス
タを設定するには、ＳＥＴＡＧ命令にて、右データ（レ
ジスタアドレス）を５１ｈ、左データを上記３０ビット
のビットパターンを下詰めで入力する。

【００９３】（Ｃ）アドレスジェネレータの機能とレジ
スタ設定内蔵されているアドレスジェネレータの機能について説
明する。図３６はアドレスジェネレータ内のモード設定
レジスタを示した一覧表である。

【００９４】ベクトル演算関連のアドレスジェネレータ
ＲＡＧ、ＷＡＧ、ＤＭＡＡＧは各々複数個のメモリバン
クを割当てることが可能である。生成されるアドレスは
１０ビットであり、上位３ビットはメモリバンクを示す
ＩＤ番号を表現し、下位７ビットがＩＤ番号で指定され
たメモリバンクの物理アドレスである。各々のバンクメ
モリには、前述したバンク番号レジスタのうちで自バン
クに対応するフィールドが保持されており、ＩＤ番号と
バンク番号が一致したメモリバンクのみメモリアクセス
が実行される。バンクメモリアクセスモードフラグｌｉ
ｎｋｆｌの値によって生成されるＩＤ番号が異なる。以
下に、生成されるアドレスを示し、この状況を説明す
る。（１）バンクメモリアクセスモードフラグが０の場合ＩＤ番号（アドレス上位３ビット）＝ｋただし、１２８＊（ｋ−１）≦ｂａｓｅ＋ｓｔｅｐ＊（ｉ−１）＜１２８＊ｋ，１≦ｉ ≦ｒｅｐｅａｔ、ｋは自然数；なお、上記アドレスは、アドレスジェネレータがアドレ
スを生成を開始してからｉ番目に生成されたアドレスを
示している。（２）バンクメモリアクセスモードフラグが１の場合ＩＤ番号（アドレス上位３ビット）＝１＋｛ｉｍｏｄｌｉｎｋｎｕｍ｝なお、生成されるアドレスの下位７ビットは、（１）
（２）ともに、ｂａｓｅ＋ｓｔｅｐ＊（ｉ−１）で表さ
れる数の下位７ビットが出力される。ここで、ｂａｓ
ｅ：ベースアドレス、ｓｔｅｐ：アドレス増分、ｒｅｐ
ｅａｔ繰り返し数、ｌｉｎｋｎｕｍ：割り付けるバンク
メモリ数、ｌｉｎｋｆｌ：バンクメモリアクセスモード
フラグ，ｘｍｏｄｙはｘをｙで割った剰余である
（ｘ，ｙは自然数）。図３７は、上記のアドレッシング
モードの概念を説明したものである。（１）の場合は、割り当てられた複数のメモリバンクを
線形に接続し１２８の倍数ワードのメモリとしてアクセ
スをするモードを示しており、（２）の場合は、１回の
メモリアクセス毎にアクセスするメモリバンクが循環的
に変化してゆくモードを示している。

【００９５】ノーマルアドレスジェネレータＮＡＧに
は、２４ビットのベースアドレスレジスタ（ｎｂａｓ
ｅ）があり、ベースアドレス加算モードのデータメモリ
アクセスパケットが入力された場合に用いられる。ＮＡ
Ｇが生成する論理アドレスは、２４ビットであり、以下
のように表わされる。論理アドレス＝ε×ｎｂａｓｅ＋（アドレスが格納されたデータフィールドのビット２〜ビット２３）たたし、 ε＝１・・・ベースアドレス加算を行うモードの場合
（ＤＭＲＢ，ＤＭＲＩＢ，ＤＭＷＢ，ＤＭＷＩＢ，ＤＭ
ＷＢＡ，ＤＭＷＩＢＡ） ε＝０・・・ベースアドレス加算を行わないモードの場
合（ＤＭＲ，ＤＭＲＩ，ＤＭＷ，ＤＭＷＩ，ＤＭＷＡ，
ＤＭＷＩＡ）

【００９６】外部メモリをアクセスする場合（論理アド
レス＞１ｋワード）においては、ノーマルアドレスジェ
ネレータＮＡＧは、論理アドレスの値をチェックし、１
ｋワードを越える場合は、データメモリ部ＤＭのポート
経由で外部メモリをアクセスする。ポートから出力され
る物理アドレスは、論理アドレスに等しい。

【００９７】内部メモリをアクセスする場合（論理アド
レス＜１ｋワード）においては、ＲＡＧ等と同様に、生
成されるアドレスは、ＩＤ番号３ビット、メモリバンク
内の物理アドレス７ビットの計１０ビットである。生成
されるアドレスは、以下のようになる。ＩＤ番号＝論理アドレスのビット７〜ビット９バンクメモリ物理アドレス＝論理アドレスの下位７ビッ
ト

【００９８】次に、各アドレス発生器のモード設定レジ
スタに設定する内容と、そのレジスタアドレスを示す。
設定は、ＳＥＴＡＧ命令を用い、パケット内の左データ
に設定内容、右データにレジスタアドレスをセットす
る。ＲＡＧのレジスタは、図３８に示すような３組のデー
タで設定する。ＲＡＧのアクノリッジ・パケットには図３９に示すよ
うな２組のデータにより内容が設定される。ＷＡＧのレジスタは、図４０に示すような２組のデー
タで設定する。

【００９９】本プロセッサを構成する機能ブロック単体
の動作では、説明できない協調動作がある。ここでは、
データメモリ部ＤＭに関連する協調動作について説明す
る。（１）即値アドレスによるメモリアクセスノイマン形プロセッサと同様に本プロセッサでもプログ
ラムにデータメモリ部ＤＭの即値アドレスを格納し用い
ることができる。２通りの機構がサポートされており、
以下のように制御される。（１．１）セレクション・コードのＩＭビットを用いる
場合プログラム・コードを生成する際に、ＩＭ＝１をセット
することで、プログラムのセレクションコードフィール
ドの上位８ビットを即値アドレスとして用いることがで
きる。プログラムメモリ部ＰＭにおいて、タグ更新の際にプ
ログラムメモリから読み出した値のうちセレクションコ
ードのＩＭビットが“１”である場合、セレクションコ
ードの残り８ビットが定数データを格納しているＤＭの
アドレスと解釈されて、右データフィールドのビット２
からビット９にこの８ビットのセレクションコードが格
納される（スカラーアクセスがバイトアドレスを取って
いるためセレクションコードフィールドで表現される値
を２ビットシフトする。）。ＰＭから出力するパケット
のセレクションコードの該当する８ビットのフィールド
には、デフォールトのセレクションコード値が格納され
る。セレクションコードのＩＭビットが“１”であるの
で、プログラムメモリ部ＰＭから出力されたパケット
は、出力ブロック、入力ブロック、ＭＭブロックをＮＯ
Ｐで通過しデータメモリ部ＤＭに到着する。データメモリ部ＤＭでは、ＩＭビットが“１”である
ためにパケットの右データフィールドは、アドレスであ
ると解釈してベースアドレスレジスタｎｂａｓｅの内容
と該アドレスの加算を行い、この結果をアドレスとして
メモリ読み出し動作を行い、読み出したデータを右デー
タフィールドに格納する。〜のプロセスでデータの
演算相手である定数がフェッチされる。

【０１００】（１．２）フラグの組み合わせ、ＰＭ＿Ｔ
ｈｒｕ＝１，ＰＥ＝０を用いる場合プログラム・コードを生成する際に、セレクションコー
ドのビットを、ＰＭ＿Ｔｈｒｕ＝１，ＰＥ＝０，ＰＡＩ
Ｒ＝１，Ｌ／反転論理Ｒ＝１の組み合わせに設定する
（ＰＡＩＲ＝１，Ｌ／反転論理Ｒ＝１の組み合わせは、
単項演算パケットを示しており、ＭＭブロックをＮＯＰ
で通過するための処理である）。また、プログラム・コ
ードの次のアドレスにデータメモリ部ＤＭの即値アドレ
スを定数として格納することで、２４ビットフルビット
を即値アドレスとして用いることができる。プログラムメモリ部ＰＭでは、プログラムの制御ビッ
トにより、データメモリ部ＤＭの即値アドレスが定数と
してパケットの右データフィールドに格納される。出力ブロックでは、セレクションコードを、ＰＭ＿Ｔ
ｈｒｕ＝１，ＰＥ＝０の組み合わせであるのでパケット
は、チップ外に出力されることなくＭＭブロックへ、出
力される。セレクションコードが、ＰＡＩＲ＝１，Ｌ／
反転論理Ｒ＝１の組み合わせであるためＭＭブロック
は、このデータパケットをＮＯＰで通過させる。データメモリ部ＤＭにおいて、セレクションコードが
ＰＭ＿Ｔｈｒｕ＝１，ＰＥ＝０の組み合わせであるの
で、パケットの右データフィールドにデータメモリ部Ｄ
Ｍのアドレスが格納されているものと解釈して右データ
をアドレスとしてメモリを読み出し、結果を右データフ
ィールドに格納し出力する。この際、ＰＭ＿Ｔｈｒｕ→
０とフラグを変更し、次のＰＭブロックでのタグ更新の
処理が禁止されないようにする。また、この際、データ
メモリ部ＤＭの動作モードがバンクモードである場合
で、読み出しアドレスが、２５６ワードを越える場合
は、前述のように、セレクションコードのＭＥＭ＿ＡＣ
ＣＥＳＳ＿ＶＩＯＬフラグをセットし、メモリアクセス
は行われない。

【０１０１】（２）分散型共有メモリアクセス機構大規模構造化データをマルチプロセッサシステムにおい
て処理するため、各プロセッサ・エレメント（ＰＥ）の
データメモリ部ＤＭを透過的にアクセスする機構を備え
ている。論理的なアドレスは３２ビットであり、上位８
ビットがＰＥ番号、下位２４ビットが各ＰＥのデータメ
モリの物理アドレス（ローカルアドレス）である。マッチングメモリ部ＭＭにおいてマッチングされアド
レス（３２ビット論理アドレス）及びデータが対になっ
たパケットが、プログラムメモリ部ＰＭにてタグ更新が
なされる。この際に、セレクションコードの組み合わせ
がＰＥ＝１，ＰＭ＿Ｔｈｒｕ＝１，ＯＵＴ／反転論理Ｉ
Ｎ＝１，ＰＡＩＲ＝１，Ｌ／反転論理Ｒ＝１となるよう
にプログラムコーディングしておく（メモリ書き込みの
場合。メモリ読み出しの場合は、１入力命令であるので
最初のマッチング処理は必要ない）。出力ブロックでは、ＰＥ＝１，ＰＭ＿Ｔｈｒｕ＝１の
組み合わせによって、行き先ＰＥ番号が左データフィー
ルドの上位８ビットにあると解釈し、（ａ）自ＰＥ番号
と等しい場合は、チップ外に出力せずＭＭブロックへ出
力する。（ｂ）自ＰＥ番号と等しくない場合は、左デー
タの上位８ビットに格納されているＰＥ番号を３ワード
形式のＰＥ間を渡るパケットのＰＥ番号フィールドに格
納し、自ＰＥ番号を、左データの上位８ビットへ待避し
てチップ外へ出力する。（ａ）の場合は、自ＰＥのＭＭ
ブロックへ、（ｂ）の場合は、行き先ＰＥ番号を持つＰ
Ｅへネットワークを介してルーティングされ、行き先の
ＰＥの入力ブロックを通ってＭＭブロックへ到着する。

【０１０２】上記の（ａ），（ｂ）何れの場合であって
も、セレクションコードは、ＰＥ＝１，ＰＭ＿Ｔｈｒｕ
＝１の組み合わせである。（ａ）の場合は、行き先ＰＥ
番号と戻り先ＰＥ番号が同一であることを除くと（ｂ）
の場合と同様に考えることができる。従って、ここで
は、（ｂ）の場合に限定して説明する。以上〜の処
理はメモリアクセスの要求元ＰＥでの処理である。

【０１０３】行き先ＰＥのＭＭブロックでは、ＰＡＩ
Ｒ＝１，Ｌ／反転論理Ｒ＝１の組み合わせであるため、
このパケットが単項演算のパケットであると解釈し、パ
ケットをＮＯＰで通過させＤＭブロックへ出力する。ＤＭブロックでは、パケットのオペコードフィールド
に従ってデータメモリをアクセスし、左データの上位８
ビット（すなわち、戻り先ＰＥ番号）の値を命令実行後
は、使用しないフィールドである右データの上位８ビッ
トに待避し、ＰＭ、ＦＡＬＵブロックに出力する。な
お、ＤＭブロックでは、ＯＵＴ／反転論理ＩＮフラグ
は，常に、“０”が出力される。従って、ＤＭブロック
を出力させるパケットのセレクションコードは、ＰＥ＝
１，ＰＭ＿Ｔｈｒｕ＝１，ＯＵＴ／反転論理ＩＮ＝０の
組み合わせとなる。演算部ＦＡＬＵは、オペコードがＤＭ命令であるため
にＮＯＰで通過する。プログラムメモリ部ＰＭは、フラ
グがＰＭ＿Ｔｈｒｕ＝１であるために、入力されたパケ
ットをＮＯＰで通過させる。出力ブロックでは、入力されるパケットのセレクショ
ンコードがＰＥ＝１，ＰＭ＿Ｔｈｒｕ＝１，ＯＵＴ／反
転論理ＩＮ＝０の組み合わせであると、無条件に、ＰＭ
＿Ｔｈｒｕ→０とフラグの値を変化させる。また、上記
パケットに対し行き先ＰＥ番号が、右データの上位８ビ
ットに格納されているものと解釈し、この行き先ＰＥ番
号が自ＰＥ番号と異なる場合は、ＰＥ間を渡るパケット
のＰＥ番号フィールドに右データの上位８ビットを格納
してパケットをチップ外のネットワークに出力する。こ
のパケットは、ネットワーク中でルーティングされ、再
びデータメモリアクセスの要求元ＰＥに戻る。以上〜の処理は、メモリアクセス要求先ＰＥの処理
である。

【０１０４】行き先ＰＥ番号が自ＰＥ番号と等しい場合
は、パケットをチップ外に出力せずＭＭブロックへと転
送するが（で（ａ）の場合に要求元ＰＥと行先ＰＥが
同一であるためこのようなことが起こる），データメモ
リアクセス要求元ＰＥでのＭＭブロック以降での処理
は、いずれの場合も同様であり、〜○10で説明する。

【０１０５】ルーティングネットワークを介して戻り
先ＰＥ（メモリアクセス要求元ＰＥ）の入力ブロックを
通過したパケットは、セレクションコードの組み合わせ
が、ＰＡＩＲ＝１，Ｌ／反転論理Ｒ＝１であるためこの
パケットを単項演算パケットと解釈し、ＭＭブロックを
ＮＯＰで通過させ、ＤＭブロックへ転送される。データメモリ部ＤＭにおいては、セレクションコード
の組み合わせが、ＰＥ＝１，ＰＭ＿Ｔｈｒｕ＝０である
場合パケットをＮＯＰで通過させる。○10ＦＡＬＵで
は、オペコードがＤＭ命令であるため、データ処理は、
行われない。プログラムメモリ部ＰＭにおいては、通常
のタグ更新が実行され、次に実行すべきノードの命令の
読み出しが行われる。

【０１０６】次にプログラムメモリ部ＰＭについて説明
する。プログラムメモリ部ＰＭの機能は、大きく次の３
つに分類される。（１）タグ部（セレクションコード、命令コード、行き
先ノード番号）の更新を行う。データフローグラフのノード間の接続情報と、ノードで
実行される命令コードがプログラムメモリ部ＰＭに格納
される。プログラムメモリ部ＰＭに入力されたパケット
は、ノード番号をアドレスとしてメモリをアクセスし、
タグの更新を行う。（２）タグ部の操作を伴う特殊命令の実行を行う。タグ部の操作を伴う特殊命令は、プログラムメモリ部Ｐ
Ｍと併置されている演算部ＦＡＬＵのハードウェア負担
を軽減するためにプログラムメモリ部ＰＭで実行する。
例えば、ツルーゲート「ＴＧ」命令は右データに格納さ
れている“真偽”値を判定し“真”の時は、メモリの読
みだしを行い、“偽”の時には、パケットを消滅させ
る。（３）定数データの読み出しを行う。（４）パケットのコピーを行う。

【０１０７】プログラムメモリ部ＰＭのブロック図を図
４１に示す。プログラムメモリ部ＰＭの全体は、図４１
に示すように６段のパイプラインで構成されている。次
に各ステージの実行内容を示す。第１ステージ：ＯＰＣのプリデコード。第２ステージ：制御命令の実行。第３ステージ：メモリの書き込み／読みだし。第４ステージ：メモリ連続読みだしが起こったときのパ
ケット再構成。第５，６ステージ：行き先ノード番号の計算。プログラムメモリ部ＰＭに入力されるパケットフォーマ
ットを図４２に、また出力フォーマットを図４３に示
す。例としてＴＧ命令の実行手順をパイプラインステージを
追いながら示す。第１ステージ：ＯＰＣ＝ＴＧのプリデコード。第２ステージ：右データの真偽値を判定。偽の時、ＡＢＳビット（ＰＭ内部ビット）をたてる。
（ＡＢＳビットについては、その他の機能「ＰＭ内部ビ
ットについて」の項で詳説する。）このとき、入力パケ
ットは、ＰＭをスルーし、ＫＣＯＰＹ部ではＡＢＳビッ
トが１であるためにパケットを消滅させる。また、真の
時にはＰＭにおいてタグ部の更新を行い、ＫＣＯＰＹ部
から出力する。第３ステージ：メモリを読み出し、タグ部を更新する。
（右データの真偽値に関わらず行う。第４ステージ：メモリ連続読みだしが起こった時パケッ
ト再構成。第５，６ステージ：行き先ノード番号の計算。

【０１０８】次にメモリコアイメージについて説明す
る。（１）メモリコアのフィールド割付プログラムメモリ部ＰＭは、３２ビット×５１２ワード
のメモリを備える。このメモリコアイメージを図４４に
示す。各フィールドの略説を次に述べる。ＡＡＮ（１ＢＩＴ）：メモリ連続読み出しの偽の制御フラグ。ＣＰＹ１（１ＢＩＴ）：メモリ連続読み出しの偽の制御フラグ。ＣＰＹ０（１ＢＩＴ）：メモリ連続読み出しの偽の制御フラグ。ＳＥＬ（９ＢＩＴ）：セレクションコード。このコードのビット並びは、図４５に示すようになる。ＯＰＣ（８ＢＩＴ）：オペコード。ＮＯＤＥ＃（１２ＢＩＴ）：行先ノード番号（符号付き１２ビット）。

【０１０９】（２）相対アドレス方式メモリコアに格納されるノード番号は、メモリコア内の
セレクションコードのＤＩＳＰ／反転論理ＡＢＳビット
が“１”のときには、相対アドレスと解釈され入力パケ
ットのノード番号と加算され行先ノード番号を得る。以
下に相対アドレスの方式を説明する。プログラムメモリ
部ＰＭにおいては、命令コードの他に、この命令の次に
実行すべき命令が格納されているアドレス（行き先ノー
ド番号）を記憶しておく必要がある。このため、１命令
当たりのメモリビット数が増加することとなり、１チッ
プにプログラムの全体を格納し、高速に処理を行う上で
大きな制約となる。そこで、本プロセッサでは、プログ
ラムメモリ部ＰＭに格納するノード番号を相対アドレス
とし、ビット幅を圧縮する方式を採用した。例えば、制
御フラグが８ビット、命令コードが８ビット、行き先ノ
ード番号を格納する領域が３２ビットであると仮定すれ
ば、従来方式の場合１命令当たりのビット幅は４８ビッ
トになる。これに対して、行き先ノードのアドレスを、
現在のノードのアドレスと行き先ノードの格納アドレス
との差分で与えられるものとし、相対アドレスが１２ビ
ットで表現できるとすれば、１命令当たりのビット幅は
２８ビットとなりメモリのビット幅を大幅に圧縮するこ
とができる。本方式は、基本的には命令ノード間の接続
の大半は局所的であり、行き先ノードに対する相対アド
レスが大きな値をとることは稀である、という性質に基
づいている。図４６に従来のプログラムメモリ部の１語
の構成と本方式によるプログラムメモリ部の１語の構成
を示す。

【０１１０】（３）拡張アドレス相対アドレスが１２ビットで表現できない場合、すなわ
ち、行き先ノードの命令を格納しているアドレスと現在
のアドレスの差分が−２０４８（＝−２ ¹¹ ）〜２０４７
（＝２ ¹¹ −１）の範囲を越える場合は、溢れた桁は次の
アドレスに格納し、この領域を拡張アドレスとする。ま
た、制御フラグ（ＣＰＹ１，ＣＰＹ０）を追加して拡張
アドレスの存在を示すものとする。このようなプログラ
ムメモリ部ＰＭにおいて、プログラムメモリ部ＰＭのＮ
番地を読み出した結果、相対アドレスがＲであり、制御
フラグが拡張アドレスの存在を示す時には、次のアドレ
スを連続して読み出して拡張アドレスＥを得る。このと
き、次の行き先ノード番号Ｄは、Ｄ＝Ｎ＋（Ｒ＋Ｅ＊２ ¹¹ ）で与えられる。括弧内の和は、ＥとＲの２進ビット列の
連結であり、実際の加算は一度でよい。また、マルチプ
ロセッサ構成の場合には、行先ノードが他のＰＥにマッ
プされている場合が当然ある。このため、拡張アドレス
のＭＳＢから上位８ビットにＰＥ＃を格納する。このＰ
Ｅ＃を読み出し、パケットに付与することによって、他
のＰＥにパケットをルーティングできる。

【０１１１】（４）絶対アドレッシングメモリコア内に格納されるノード番号は、メモリコア内
のセレクションコードのＤＩＳＰ／反転論理ＡＢＳビッ
トが“０”の時には、絶対アドレスと解釈され、メモリ
から読み出されたノード番号（１１ＢＩＴ）をそのまま
行先ノード番号とする。この時ＰＭから出力されるパケ
ットのノード＃（２１ＢＩＴ）は、符号拡張される。

【０１１２】（５）定数データのマッピング定数データをメモリにマップした状態を図４４に示す。
定数データのＭＳＢビットは、ＳＥＬコードのＬＳＢビ
ットにマップされ、残りの３１ビットは拡張アドレスフ
ィールドに格納される。定数データのＭＳＢと残りのビ
ットは、パケット再構成ステージで連結される。定数デ
ータの読みだし方法は、後述する。

【０１１３】次にメモリロード／ダンプについて説明す
る。プログラムのロード／ダンプは、ＰＭＷＴ（ＰＭ
ＷＲＩＴＥ）、ＰＭＲＤ（ＰＭＲＥＡＤ）命令によっ
て行う。ＰＭＷＴ命令実行の際、プログラムメモリ部Ｐ
ＭはＡＢＳ（ＡＢＳＯＲＢ）ビットを立てて、入力パケ
ットをそのままＫＣＯＰＹ部へ出力する。ＫＣＯＰＹ部
は、このＡＢＳビットに従ってパケットを消滅させる。
ＡＢＳビットに付いては、後述のＰＭ内部フラグの項で
説明する。

【０１１４】次にメモリ連続読み出しについて説明す
る。メモリの連続読みだしが行われるのは、次の各場合
である。（１）パケットのコピー（２）拡張アドレスの発生（３）定数データの読みだし一つの演算結果に対して複数の行き先ノード番号が与え
られる場合、一つの入力パケットに対して連続してプロ
グラムメモリを読みだす必要がある。本プロセッサで
は、プログラムロード時にあらかじめ、連続読みだしフ
ラグ（Ｄ＿ＣＯＰＹ）をプログラムメモリに書き込んで
おき、プログラムメモリ読み出し時に、この「連続読み
出しフラグ」（Ｄ＿ＣＯＰＹ）を読み出し、ＰＭが入力
パケットを受け取った時点で、連続アドレス読み出しの
要否が即座に判定できるようにして処理の高速化を計っ
た。入力パケットに対するメモリ読みだしが完了すると
同時に、次のアドレスに対する読みだしを開始すること
ができる。これは、拡張アドレス、また、拡張アドレス
の読みだし、定数データの読み出しについても同様に制
御される。

【０１１５】次にこのプログラムメモリ部ＰＭの制御フ
ラグの機能について説明する。（１）ＰＭ内部フラグプログラムメモリ部ＰＭでは内部フラグとして、ＴＨ
Ｒ、ＡＢＳ、ＣＯＰＹフラグの３ビットをもつ。各フラ
グの機能を次に示す。ＴＨＲＢ：スルーフラグ。ＰＭ入力パケットのセレク
ションコード中のＰＭ＿Ｔｈｒｕ、ＭＥＭ＿ＡＣＣＥＳ
Ｓ＿ＶＩＯＬ、ＶＥＣＴＯＲ＿ＩＮＳＴＲ、ＨＡＳＨ＿
ＣＯＮＦＬＩＣＴの論理和をとった（第１ステージで実
行）信号である。このフラグが“０”の時プログラムメ
モリ部ＰＭは入力パケットを保存し内部をスルーさせ
る。ＡＢＳ：パケット消滅フラグ。ＰＭ入力パケット
のＡＢＳフラグと、ＰＭ内部のパケット消滅条件（ＰＭ
ＷＲＴ命令が実行された時など）の論理和をとった信号
である。このフラグは、プログラムメモリ部ＰＭからコ
ピー部ＫＣＯＰＹへ出力される。コピー部ＫＣＯＰＹ部
はＡＢＳフラグが“１”の時パケットを消滅させる。ＫＣＯＰＹ：コピーフラグ。コピーパケットが発生
した時、プログラムメモリ部ＰＭはこのフラグを“１”
にして出力する。コピー部ＫＣＯＰＹ部はこのフラグが
“１”の時、演算部ＦＡＬＵへのＡＣＫ信号を禁止す
る。

【０１１６】（２）行先ＰＥ番号の決定ＰＭ入力パケットのＶＰＥ（８ビットのベクタープロセ
ッサ番号。ＤＭ部で付加される。）の値は、通常ＰＭを
スルーしＰＭ出力パケットのＰＥの値として出力され
る。ただし、ＰＭで拡張アドレスをアクセスしてＰＥ番
号を読みだした時は、この値をＰＥ番号として出力す
る。

【０１１７】（３）セレクション・コードの取扱い３．１ＰＭ入力パケットのセレクション・コードにつ
いて説明する。Ｄ＿ＣＯＰＹはこのビットが“１”の時、プログラムメ
モリ部ＰＭはメモリ連続読みだしモードにはいる。ＰＭ＿Ｔｈｒｕ、ＭＥＭ＿ＡＣＣＥＳＳ＿ＶＩＯＬ、Ｖ
ＥＣＴＯＲ＿ＩＮＳＴＲ、ＨＡＳＨ＿ＣＯＮＦＬＩＣＴ
の５ビットは、ＰＭ内部フラグＴＨＲＢを立てるために
参照される。ＭＥＭ＿ＡＣＣＥＳＳ＿ＶＩＯＬ、ＶＥＣＴＯＲ＿ＩＮ
ＳＴＲ、ＨＡＳＨ＿ＣＯＮＦＬＩＣＴの以上の４ビット
は、ＰＭ内部をスルーして出力される。

【０１１８】３．２メモリ読みだしデータのセレクシ
ョン・コードについて説明する。ＤＩＳＰ／反転論理ＡＢＳは、このビットが“１”の時
読み出された行先ノード番号は、相対アドレスと解釈さ
れ、入力パケットの行先ノード番号と相対アドレス（符
号付き）の加算結果が、新しい行先ノード番号としてパ
ケットに付与されて出力される。ＩＭは、このビットが
“１”の時、読み出されたセレクション・コードの、上
位８ビットはデータメモリ部ＤＭの即値アドレスと解釈
され、右データフィールドに格納されてプログラムメモ
リ部ＰＭより出力される。なお、右データのあいたフィ
ールドには、“０”が格納される。このパケットがＤＭ
部に到ると、右データの値をアドレスとしてデータメモ
リがアクセスされ、読みだしたデータが即値として格納
され演算可能パケットとなる。このため、ＩＭフラグを
用いた即値読みだしパケットは、ＰＭで即値を読みだす
ための余分なメモリアクセスが不用であり、かつＭＭで
パケットの待ち合わせを行う必要もなく、１入力命令と
同じパイプライン制御で命令実行を行うことができる。
また、プログラムメモリ部ＰＭより出力されるパケット
のセレクション・コードの上位８ビットは、図４７に示
すデフォルト値に設定される。次にメモリを読み出した
結果、ＡＡＮの値が“１”であったときの動作を説明す
る。例として図６６に示すようなデータフローグラフで
表されるプログラムを実行することを考える。このプロ
グラムはデータａとｂとを乗算し、その結果ｃを３パケ
ットにコピーし、それぞれデータｄ，ｅ，ｆと加算を行
って結果ｇ，ｈ，ｉ，ｊを得るものである。このプログ
ラムをプログラムメモリ部ＰＭのメモリにロードした状
態を図６７に示す。図６７を参考にしながら動作を示
す。ここでは入力パケットのＤ＿ＣＯＰＹの値が“１”
であることによりアドレス１が、またアドレス０のＡＡ
Ｎの値が“１”であることによりアドレス２が連続読み
出しされる。プログラムメモリ部ＰＭに入力されたパケ
ットのノード番号は“０”である。メモリ読み出しステ
ージでは、上述のノード番号“０”に従ってアドレス
“０”を読み出す。このメモリ読み出しと並行して次の
メモリ読み出しアドレスを生成する。アドレス“０”の
読み出しが完了すると、直ちにアドレス“１”の読み出
しが開始される。先程アドレス“０”を読み出した結果
ＡＡＮ＝“１”であったので、アドレス“１”の読み出
しと並行して次のメモリ読み出しアドレス、すなわち
“２”を生成する。アドレス“１”の読み出しが完了す
ると、上述と同様にして、アドレス“２”の読み出しが
開始される。アドレス“１”を読み出した結果ＡＡＮ＝
“０”であるので、アドレス“３”は連続には読み出さ
れない。

【０１１９】次にコピー部ＫＣＯＰＹについて説明す
る。このコピー部ＫＣＯＰＹの一構成例を図４８に示
す。コピー部ＫＣＯＰＹは、基本的な構成として１個の
データラッチ回路と１個のＣ素子（転送制御素子）から
成る。Ｃ素子の詳細については前述したので、ここでは
省略する。このコピー部ＫＣＯＰＹは、図４８に示すよ
うにＣ素子に対する４本の入出力線に数個の論理ゲート
を挿入することにより、下記の３機能を実現している。

【０１２０】（１）パケットのマージ機能プログラムメモリ部ＰＭより送られてきたタグと右デー
タと、演算部ＦＡＬＵより送られてきた左データ（ここ
に演算結果が格納されている）とをデータラッチ回路に
おいて１つのパケットに構成して出力する。プログラム
メモリ部ＰＭより送られてきたＣ信号（ＰＭＣＩ）と、
演算部ＦＡＬＵより送られてきたＣ信号（ＦＡＬＵＣ
Ｉ）との論理積をもってＣ素子を制御することで、デー
タラッチ回路に与えられる２系統のデータを正しくマー
ジする。

【０１２１】（２）パケットのコピー機能パケットのコピー動作が指示された場合、コピーのため
に読み出された複数のタグ情報に対し、演算部ＦＡＬＵ
より送られてきた１つの演算結果を組み合わせ、所望の
数のパケットをデータラッチ回路から送出する。演算部
ＦＡＬＵに対して与えるAcknowledge信号（反転論理Ｆ
ＡＬＵＡＣＫ）を、図４８に示すように論理ゲートを構
成することで、次にコピーパケットが存在する場合、演
算部ＦＡＬＵにはAcknowledge信号を返さない。これに
より、コピー動作が続く限り、演算部ＦＡＬＵは単一の
データ（演算結果）を出力し続ける。なお、図４８中の
ＣＯＰＹは現在転送中のパケットに引き続きコピーパケ
ットが存在することを示す。

【０１２２】（３）パケットの消去機能プログラムメモリ部ＰＭより送られてきた制御ビットに
ＡＢＳ（現在転送中のパケットを次ステージに送らず演
算部ＦＡＬＵより送られてきた左データとともに消滅さ
せるべきことを示すもの）なる指示が与えられていた場
合、対応するタグ、右データ、及び左データ（演算結
果）をすべて消去する。これによりパケットの吸い込み
が行われる。詳しくは、プログラムメモリ部ＰＭよりＡ
ＢＳ信号が与えられた場合、コピー部ＫＣＯＰＹより次
ステージにはＣＯＵＴ（Ｃ出力信号）は送出されない。
当然Acknowledge信号を受け取ることもできないが、代
替信号として論理ゲート１と論理ゲート２より信号が供
給され、Ｃ素子のクリアを行う。プログラムメモリ部Ｐ
Ｍと演算部ＦＡＬＵに対するAcknowledge信号は通常通
り返されているため、コピー部ＫＣＯＰＹにおいてパケ
ットが消滅しことになる。

【０１２３】以下、本データ駆動形マイクロプロセッサ
の特徴と効果について要約して述べる。（１）ベクトル演算機能本プロセッサのデータメモリ部ＤＭは、独立に動作する
５組のアドレスジェネレータと、８つのメモリバンクを
もっている。アドレスジェネレータのうち、１組は通常
のメモリアクセスに用いられるが、残りの４組はベクト
ル演算のために用いられる。すなわち、２組のアドレス
ジェネレータを用いて２つのオペランド（被演算デー
タ）を連続的に読み出し、あらかじめ設定されている命
令コードとともに演算部ＦＡＬＵに送り込みベクトル演
算を実行する。演算部ＦＡＬＵから出力されるリザルタ
ント（結果データ）はコピー部ＫＣＯＰＹ、入出力イン
タフェース部ＩＦ、マッチングメモリ部ＭＭを通過した
後データメモリ部ＤＭに到着し、結果格納用のメモリバ
ンクに連続書き込みされる。もう１組のアドレスジェネ
レータはメモリバンクと外部メモリとの間のブロックデ
ータ転送のために用いられ、次のベクトル演算に必要な
データの読み込みなどが行われる。

【０１２４】（２）分散型共有メモリの構築本プロセッサは、ローカルにデータメモリ（内蔵：１ｋ
ｗ、外部：２²²ｗ）をもっているが、マルチプロセッサ
構成時には、他のプロセッサのローカルメモリを透過的
にアクセスすることができる。データメモリアドレス
は、上位８ビットのＰＥ（Processing Element）番号フ
ィールドと、下位２４ビットのローカルメモリアドレス
から構成されており、メモリアクセスの命令コードをも
つパケットは、ＰＥ番号に従って自動的に行き先ＰＥに
転送され、メモリアクセス後、もとのＰＥに自動的に戻
ってくる。分散型共有メモリのアクセスは、プロセッサ
間のパケット通信経路を介してい行われ、特別の通信経
路を設ける必要はない。

【０１２５】（３）即値読み出しの効率化データメモリ部ＤＭの０番地から２５５番地に即値デー
タを格納しておくことにより、パイプラインの流れを乱
すことなく処理を行うことができる。これは、従来型の
マイクロプロセッサで考えると、レジスタに格納された
定数にたとえることができ、余分なサイクルなしで処理
を行うことができる。通常、即値データはプログラムメ
モリ部ＰＭに埋め込まれているため、即値を読み出すた
めにはプログラムメモリ部ＰＭを２回以上読む必要があ
り、パイプラインの流れを止め、効率を落とす要因とな
っていた。

【０１２６】（４）動的マルチタスクへの対応動的なマルチタスク実行を考えると、プログラムがリロ
ケータブルであることが必要条件となる。本プロセッサ
は、プログラム中の行き先ノード番号（ジャンプ先アド
レスに相当）を、現在実行中のノード番号に対する相対
アドレスで格納しているため、任意番地にタスクを動的
にローディングして実行することができる。相対アドレ
スのビット幅（例えば１１ビット）は、絶対アドレス
（例えば２１ビット）にくらべて少ないので、プログラ
ムメモリ部ＰＭの容量の削減にも効果がある。もちろ
ん、固定番地へのジャンプもサポートされており、メモ
リ常駐のシステムコールを行うことも可能である。

【０１２７】（５）Ｔｅｓｔ＆Ｓｅｔ命令を用いた排他
制御の実現マルチタスクが履歴（例えば、ファイル）や資源（ベク
トル演算機能）を共有するとき、これらを排他的に利用
するように制御する必要がある。この目的のために、デ
ータメモリ部ＤＭの各アドレスに対してテスト・アンド
・セットを行うことができる。テスト・アンド・セット
命令は実際には共有資源を代表するデータメモリのワー
ドに対するテスト・アンド・ロック命令とセット・アン
ド・アンロック命令の２命令に分割されて実行される
が、この２つの命令はインターロック（連結）されてお
り、例えばタスクＡのテスト・アンド・ロック命令が成
功した後は、対応するセット・アンド・アンロック命令
が実行されるまでは、対象とする共有資源が同一である
か否かにかかわらず他のタスク（例えば、タスクＢ）に
よるテスト・アンド・ロック命令の実行が不成功となる
ように制御されている。さらに、タスクＡのセット・ア
ンド・アンロック命令によってセットされたワードが、
共有資源利用後にリセットされるまでは同一資源（すな
わち同一ワード）に対するテスト・アンド・ロック命令
は不成功となるように制御されている。

【０１２８】（６）動的負荷分散への対応プログラムメモリ部ＰＭの内容を読み出す命令（ＰＭＲ
Ｄ）と、書き込む命令（ＰＭＷＴ）を用いて、プログラ
ムを他のＰＥに移動させる（プロセス・マイグレーショ
ン）ことができる。また、第２オペランド（右データの
値）を行き先ノード番号フィールドにコピーするＳＥＮ
Ｄ命令を用いることにより、他のＰＥの任意の番地に対
して入力パケットを送出することができる。この二つの
機能を用いることにより、先進的な動的負荷分散方法で
ある、プロセス・マイグレーションを実現することがで
きる。

【０１２９】（７）固定遅延マッチングメモリ部マッチングメモリ部ＭＭの構成方法として、並列ハッシ
ュ法が一般的である。しかし、ハッシュ衝突が発生した
ときには、ポインタチェインに従ってメモリを逐次的に
アクセスする必要があり、同一アドレス上でハッシュ衝
突が多重に起こった場合には時間的なペナルティーが大
きい。本プロセッサは、この問題を解決するために、ハ
ッシュメモリと、連想メモリを併用している。ハッシュ
衝突したパケットを連想メモリに格納しておき、入力し
たパケットに対して両方のメモリを同時に検索すること
により、ハッシュ衝突の有無にかかわらず、一定の遅延
でマッチングの処理を行うことが可能となった。

【０１３０】（８）実用レベルのメモリ空間プログラムメモリ部：内蔵５１２ｗ、外部２²¹ｗデータメモリ部：内蔵１ｋｗ、外部２²²ｗ

【０１３１】（９）トレース機能の充実外部データメモリ接続用ポート、外部プログラムメモリ
接続用ポートを介して、巡回しているパケットの内容を
モニタすることができ、実動作速度での内部状態を容易
にトレースすることができる。

【０１３２】（１０）パイプライン周回時間の短縮演算部ＦＡＬＵとプログラムメモリ部ＰＭを並列配置し
たことにより、周回パイプライン段数を抑制し、最高性
能を引き出しやすくし、また単発入力に対する応答性を
高めた。

【０１３３】（１１）自己同期クロック方式の採用高速クロックによる諸問題（クロックスキュー、リンギ
ングノイズ、クロック波形のなまり等）を解決するため
に、パイプライン間のデータ転送は外部クロックを用い
ない自己同期クロック方式を採用した。

【０１３４】以下、上記説明において不十分な点を追加
説明する。

【０１３５】〔１〕プログラムメモリ部ＰＭの特徴的な
動作について説明する。［１−１］拡張アドレスの読みだし、パケットのコピ
ー、プログラムメモリ部ＰＭからの即値（定数）読みだ
しの各動作データ駆動形マイクロプロセッサ内部のパケットフォー
マットは、図４９に示すとおりである。また、図４９の
Ｓｅｌ＿Ｃｏｄｅ（セレクションコード）の詳しい内容
を図５０に示す。プログラムメモリ部において、拡張ア
ドレスの読みだし、パケットのコピー、即値（定数）読
み出しの各動作をするパケットをケース１パケットと呼
ぶ。

【０１３６】ケース１パケットの動きを概観すると次の
ようになる。本データ駆動形マイクロプロセッサ（ＲＡ
ＰＩＤ）に入力された、ケース１パケットはプログラム
メモリ部ＰＭの入り口まで他の入力パケットと同様の動
作をする。

【０１３７】（ａ）即ち入出力インタフェース部ＩＦで
は、本プロセッサ外部より入力されたケース１パケット
は、リングパイプラインを周回してきたパケットと合流
する。ケース１パケットがリングパイプラインを周回し
てきた場合はセレクションコードに従って外部に出力さ
れるか、または、外部より入力されたパケットと合流し
て再びリングパイプラインに入力される。

【０１３８】（ｂ）マッチングメモリ部ＭＭでは、パケ
ットの待ち合わせをする（２項演算命令の場合）。マッ
チングメモリ部ＭＭでの詳しい動作は、前述したので、
ここではマッチングメモリ部ＭＭより出力されるパケッ
トを次のように整理しておく。（１）プログラムメモリ部ＰＭをスルーするパケット・セレクションコードのＰＭ＿Ｔｈｒｕ、ＭＥＭ＿ＶＩ
ＯＬ、ＨＡＳＨ＿ＣＯＮの何れかのＢＩＴが“１”であ
るパケット。（２）プログラムメモリ部ＰＭをスルーしないパケットセレクションコードが（１）で示した以外であって、次
の２つの場合である。・左右オペランドの待ち合わせが完了した２項（２入
力）演算パケット。・単項演算（１入力）パケット。上記（１）のパケットは、プログラムメモリ部ＰＭでな
んら操作を受けない。

【０１３９】（ｃ）データメモリ部ＤＭでは、ベクトル
演算命令パケット及び、ベクトル演算設定パケットを処
理する。そうでないパケットはスルーする。プログラム
メモリ部ＰＭでは、ケース１パケットの所定の動作が行
われる。この内、何れのパケットにも共通な動作は、タ
グ部（セレクションコード、オペコード、ノード番号）
の更新である。これについては、プログラムメモリ部Ｐ
Ｍと併置されている演算部ＦＡＬＵの動作と併せて理解
する必要がある。即ち、演算部ＦＡＬＵはプログラムメ
モリ部ＰＭ、演算部ＦＡＬＵに入力されたパケットのオ
ペコードに従って演算を実行する。一方、プログラムメ
モリ部ＰＭは演算部ＦＡＬＵの動作と並列に、入力され
たノード番号をメモリアドレスとして、プログラムメモ
リ部ＰＭから次回プログラムメモリ部ＰＭと演算部ＦＡ
ＬＵにパケットが入力されたときに必要なタグ部（セレ
クションコード、オペコード、ノード番号）を読み出し
更新する。

【０１４０】（ｄ）プログラムメモリ部ＰＭから出力さ
れたケース１パケットは、コピー部ＫＣＯＰＹでは、コ
ピーパケットに関して所定の操作が行われる。その他の
ケース１パケットは、コピー部ＫＣＯＰＹにおいて演算
結果データとマージされる。

【０１４１】（ｅ）再び入出力インタフェースＩＦに入
力されたケース１パケットは、セレクションコードの内
容に従って本プロセッサより出力されるか、再びマッチ
ングメモリ部ＭＭに入力され上述の２以降の動作をす
る。

【０１４２】［１−２］フローグラフを使った各動作の
説明図５１にケース１パケットの動作を説明するためのフロ
ーグラフを示す。図中、＄＊＊＊＊はノード番号を示
し、Ｐ１〜Ｐ７は、各ノードから出力されるパケットを
示す。これらＰ１〜Ｐ７のパケットフォーマットを図５
２に示す。図５２に示されるパケットフォーマットはプ
ログラムメモリ部ＰＭから出力された直後のものであ
る。また、図５３には図５１のフローグラフをプログラ
ムメモリ部ＰＭのメモリにマップした様子を示す。プロ
グラムメモリ部ＰＭのメモリへのプログラムのマッピン
グは、ＰＭＷＴ（ＰＭＷＲＩＴＥ）命令によって行わ
れる。プログラムメモリ部ＰＭに書かれたノード番号
は、相対ノード番号である。従ってプログラムメモリ部
ＰＭは、入力されたパケットのノード番号に読み出され
た相対ノード番号を加算して、行き先ノード番号とし、
プログラムメモリ部ＰＭ出力パケットのノード番号フィ
ールドに格納する。

【０１４３】さて、図５１中のパケットＰ１がプログラ
ムメモリ部ＰＭから出力されたところから話を始める。
Ｐ１は、プログラムメモリ部ＰＭから出力された後［１
−１］の（ｄ），（ｅ）で述べたようにコピー部ＫＣＯ
ＰＹ、入出力インタフェース部ＩＦの各ブロックを通過
した後再びマッチングメモリ部ＭＭに入力される。Ｐ１
は１入力命令であり、非ベクトル演算命令であるので、
マッチングメモリ部ＭＭ、データメモリ部ＤＭの各ブロ
ックは、スルーし再びプログラムメモリ部ＰＭと演算部
ＦＡＬＵに入力され、ノード（＄００００００）の処理
が実行される。本プロセッサでは、プログラムメモリ部
ＰＭと演算部ＦＡＬＵは、並列にインプリメントされて
いるので演算実行は演算部ＦＡＬＵで，タグ部（セレク
ションコード、オペコード、ノード番号）の更新は、プ
ログラムメモリ部ＰＭで同時に行われる。

【０１４４】また、ケース１パケットの実行に際して
は、プログラムメモリ部ＰＭのメモリを連続に読み出す
必要がある。これは、図４９中のＳｅｌ＿Ｃｏｄｅ（セ
レクションコード）の内のＳ５：Ｄ＿ＣＯＰＹ（図５
０）のビットによって制御される。つまり、プログラム
メモリ部ＰＭで更新されたＳｅｌ＿Ｃｏｄｅ（セレクシ
ョンコード）のＳ５：Ｄ＿ＣＯＰＹが“１”であるパケ
ットは、次回プログラムメモリ部ＰＭに入力された時ノ
ード番号で表されるアドレスとノード番号を１インクリ
メントしたアドレスが連続して読み出された。また、ノ
ード番号を２インクリメントしたアドレスが連続して読
み出されたか否かは、プログラムメモリ部ＰＭのメモリ
を読み出されたとき、図５３に示すＡＡＮの値によって
制御されるが、ここでは、詳しい説明は省略する。

【０１４５】続いて、図５１の各ノードを追いながら本
プロセッサの動作を説明する。１．ノード（＄００００００）プログラムメモリ部ＰＭに入力されたパケットＰ１は、
タグ部の更新とパケットコピーが行われる。ここで、図
５３を参照する。パケットＰ１のノード番号は、（＄０
０００００）であるのでプログラムメモリ部ＰＭのメモ
リのアドレス（００００００）番地が読み出された、そ
の結果、パケットＰ１のタグ部が更新され、プログラム
メモリ部ＰＭよりパケットＰ２として出力される。続い
て、アドレスが１インクリメントされ、（０００００
１）番地が連続して読み出され、再びパケットＰ１のタ
グが更新されプログラムメモリ部ＰＭよりパケットＰ３
として出力される。このＰ３がコピーパケットである。
つまり、プログラムメモリ部ＰＭの入力端と出力端で見
ると、１入力パケットに対し２出力パケットとなる。こ
こで注意すべき事が１つある。コビーパケットのタグ部
は、メモリの読み出し内容で更新されるが、パケットの
その他のフィールド（ｃ／ｇ、ＤＡＴＡＲ、ＤＡＴＡ
Ｌ）は、プログラムメモリ部ＰＭ入力パケットの内容が
そのままプログラムメモリ部ＰＭ出力パケットの内容と
なる。プログラムメモリ部ＰＭから出力されるＰ２、Ｐ
３のパケットフォーマットを図５２に示す。

【０１４６】さて、プログラムメモリ部ＰＭより出力さ
れたＰ２、Ｐ３は次にコピー部ＫＣＯＰＹに入力され
る。コピー部ＫＣＯＰＹでは、演算結果データとマージ
されると同時にコピーパケットであるＰ３に対し次のよ
うな操作が行われる。パケットＰ３のｃ／ｇ、ＤＡＴＡ
Ｒ、ＤＡＴＡＬの各フィールドは、パケットＰ２のそれ
と同じでなければいけない。そこで、パケットＰ２がコ
ピー部ＫＣＯＰＹに入力された時点で、本来、演算部Ｆ
ＡＬＵとプログラムメモリ部ＰＭの両方に帰さなければ
ならないデータ転送完了信号反転論理（Ａｃｋ）をプロ
グラムメモリ部ＰＭだけに帰す。すると演算部ＦＡＬＵ
では、パケットＰ２の転送が完了していないと解釈さ
れ、パケットＰ２のｃ／ｇ、ＤＡＴＡＲ、ＤＡＴＡＬの
内容を出し続ける。一方、プログラムメモリ部ＰＭで
は、パケットＰ２の転送が完了したと解釈され、パケッ
トＰ３の転送を行う。こうしてパケットＰ３は、パケッ
トＰ２と同じｃ／ｇ、ＤＡＴＡＲ、ＤＡＴＡＬの内容を
持つ。

【０１４７】コピー部ＫＣＯＰＹは、パケットＰ３がプ
ログラムメモリ部ＰＭより転送されると今度は、演算部
ＦＡＬＵとプログラムメモリ部ＰＭ両方に反転論理Ａｃ
ｋを帰しコピーパケットに対する所定の動作を完了す
る。以上のコピー部ＫＣＯＰＹでの動作は、先に述べた
注意事項に相当するものである。ただし、ＤＡＴＡＬに
関しては、例外事項が有するが、ここでは立ち入らない
ことにする。（例えば、プログラムメモリ部ＰＭから定
数を読みだした場合、その定数はＤＡＴＡＬに格納され
る。従ってこの場合には、ＤＡＴＡＬは、演算部ＦＡＬ
Ｕではなく、プログラムメモリ部ＰＭのＤＡＴＡＬがコ
ピー部ＫＣＯＰＹで選択される。

【０１４８】２．ノード（＄０００００２）プログラムメモリ部ＰＭより出力されたパケットＰ２
は、コピー部ＫＣＯＰＹを経て入出力インタフェース部
ＩＦに入力される。入出力インタフェース部ＩＦでパケ
ットＰ２は、再度本プロセッサ内に入力されるパケット
であると判断され、マッチングメモリ部ＭＭに入力され
る。マッチングメモリ部ＭＭは、パケットＰ２が１入力
命令であるので（セレクションコードのＳ７：ＰＡＩＲ
＝１の時１入力命令）パケットＰ２をスルーさせる。続
くデータメモリ部ＤＭにおいてもパケットＰ２は、ベク
トル演算命令ではないのでスルーされる。こうして、パ
ケットＰ２はプログラムメモリ部ＰＭと演算部ＦＡＬＵ
に入力され、演算部ＦＡＬＵでＩＮＣ命令の実行が行わ
れプログラムメモリ部ＰＭでタグ部の更新が行われる。
この時更新されるノード番号は拡張アドレス付きであ
る。

【０１４９】図５２，５３を参照する。パケットＰ２の
ノード番号は、（＄０００００２）なので、アドレス
（０００００２）番地が読み出される。続いて、拡張ア
ドレス、ＰＥ番号が格納されるアドレス（０００００
３）番地が読み出され、その結果、セレクションコード
とＯＰＣ＝ＭＵＬ、拡張アドレス付きのノード番号、Ｐ
Ｅ番号が更新される。これらの動作をフローチャート風
に示すと次のようになる。（１）アドレス（０００００２）番地を読み出す。読み
だした内容に従って、セレクションコードとオペコード
を更新する。ノード番号（７ＦＤ）の値は保持する。ま
た読み出されたＰＥ番号は、ＰＥ番号フィールドに格納
される。（２）アドレス（０００００３）番地を連続して読み出
す。読みだした拡張アドレス（３ＦＦ）を先に読み出し
たノード番号（７ＦＤ）の最上位ビットから連結し、相
対ノード番号（（１ＦＦＦＦＤ）２１ビット）を得る。（３）相対ノード番号（１ＦＦＦＦＤ）とプログラムメ
モリ部ＰＭ入力パケットＰ２のノード番号（０００００
２）を加算し、行き先きノード番号（１ＦＦＦＦＦ）を
プログラムメモリ部ＰＭ出力パケットＰ４のノード番号
フィールドに格納する。以上のようにタグ部更新された、拡張アドレス付きパケ
ットＰ４は、プログラムメモリ部ＰＭから出力された
後、前述のようにコピー部ＫＣＯＰＹで演算結果データ
とマージされ、入出力インタフェース部ＩＦブロックを
経てマッチングメモリ部ＭＭに入力され、右オペランド
であるパケットＰ８とオペランドの待ち合わせをする。
ノード（＄１ＦＦＦＦＦ）の動作説明は、ここでは省略
する。

【０１５０】３．ノード（＄０００００４）プログラムメモリ部ＰＭから出力されたパケットＰ３
は、コピー部ＫＣＯＰＹ、入出力インタフェース部ＩＦ
の各ブロックを経て、マッチングメモリ部ＭＭに入力さ
れる。マッチングメモリ部ＭＭで、右オペランドを持っ
たパケットＰ６とオペランドの待ち合わせをする。ここ
では、簡単のため待ち合わせの動作説明は省略し、パケ
ットＰ６及び待ち合わせの完了したパケットＰ７のパケ
ットフォーマットを図５２に示すにとどめる。

【０１５１】マッチングメモリ部ＭＭでオペランドの待
ち合わせが完了したパケットＰ７は、非ベクトル演算パ
ケットなのでデータメモリ部ＤＭをスルーしプログラム
メモリ部ＰＭに入力される。パケットＰ７はノード番号
（＄０００００４）に従って（０００００４）番地を読
み出す。ここで図５３を参照する。読み出されたタグ部
（セレクションコード、オペコード、ノード番号）に従
って既に述べたようにパケットＰ７のタグ部を更新す
る。定数読み出しのための特別な動作は、次の通りであ
る。（１）（０００００４）番地を読み出した結果、得られ
たセレクションコードのＳ１には定数のＭＳＢが格納さ
れている。このＳ１の内容を保持しておく。（２）続いて、（０００００５）番地が読み出される。
ここには、定数の下位３１ビットが書かれている。この
下位３１ビットと、先に読みだしたＭＳＢ１ビットを連
結して３２ビットの定数データを得る。（３）（２）で得られた３２ビット定数データをＤＡＴ
ＡＲフィールドに格納し、更新したタグ部を付けてパケ
ットＰ５をプログラムメモリ部ＰＭから出力する。パケ
ットＰ７の演算ＭＵＬは、プログラムメモリ部ＰＭと併
置されている演算部ＦＡＬＵで実行され、その結果はコ
ピー部ＫＣＯＰＹでマージされてパケットＰ５のＤＡＴ
ＡＬに格納される。

【０１５２】ここで、パケットＰ５について補足説明を
する。パケットＰ５は加算を実行するパケットである。
加算命令は、２入力演算命令であり、通常マッチングメ
モリ部ＭＭでオペランドの待ち合わせを行う。しかし今
の例のように、オペランドの一方がプログラムメモリ部
ＰＭから読み出した定数であるような場合には、マッチ
ングメモリ部ＭＭでオペランドの待ち合わせをする必要
がなくただちに加算が実行される。この動作をさせるに
は、セレクションコードのＳ７：ＰＡＩＲ＝１（１入力
命令を意味する）にしてやればよい。こうすればマッチ
ングメモリ部ＭＭは、本来２入力命令である加算命令を
持つパケットであってもオペランドの待ち合わせ動作は
行わない。

【０１５３】以上、プログラムメモリ部における拡張ア
ドレスの読み出し、パケットのコピー、即値（定数）読
みだしの各動作について説明してきた。図５３に示した
プログラムメモリ部ＰＭメモリコアイメージのＡＡＮ、
ＣＰＹ１、ＣＰＹ２はプログラムメモリ部ＰＭのメモリ
を連続に読みだすための制御ビットと、読みだした内容
の属性（コピー等であること）を示す制御ビットであ
る。

【０１５４】〔２〕データメモリ部の即値アドレス指定
によるアクセスについてデータフローグラフを用いて説
明する。ノイマン形プロセッサと同様に本プロセッサでもプログ
ラムにデータメモリの即値アドレスを格納し用いること
ができる。図５４（ａ）はデータメモリアドレスを即値
指定でアクセスするためのプログラムを示したものであ
り、図５４（ｂ）は対応するデータフローグラフを示し
ている。以下に示すように、２通りの機構がサポートさ
れている。２．１セレクション・コードのＩＭビット
（Ｓ０）を用いる方法図５４（ａ）に示したように（プ
ログラムメモリの＃１）、プログラム・コードを生成す
る際に、ＩＭ（Ｓ０）＝１をセットすることで、プログ
ラムのセレクションコードフィールドの上位８ビットを
即値アドレスとして用いることができる。即ち、データ
フローグラフ（図５４（ｂ））で考えると、ノード＃２
で行われる処理に対応し、ノード＃１でのＡＤＤ演算の
結果と、セレクション・コードフィールドに指定した即
値アドレス（ｉ番地）にデータメモリ部ＤＭに設定され
ているベースアドレスを加算したアドレス（ｉ＋ｂａｓ
ｅ）番地に格納されたデータメモリの内容とをＡＮＤ演
算する。

【０１５５】以下に、処理の詳細を順を追って説明す
る。プログラムメモリ部ＰＭにおいて、タグ更新の際にプ
ログラムメモリから読み出した値のうちセレクションコ
ードのＩＭビット（Ｓ０）が“１”である場合、右デー
タフィールドのビット２からビット９にセレクションコ
ードフィールドのビット１からビット８を格納する（ス
カラーアクセスがバイトアドレスを取っているためセレ
クションコードフィールドで表現される値を２ビットシ
フトする）。出力パケットのセレクションコードフィー
ルドには、デフォールトの値が格納される。セレクションコードのＩＭビット（Ｓ０）が“１”で
あるので、プログラムメモリ部ＰＭを出力されたパケッ
トは、出力ブロック、入力ブロック、マッチングメモリ
部ＭＭブロック、はＮＯＰで通過しデータメモリ部ＤＭ
に到着する。データメモリ部ＤＭではＩＭビット（Ｓ０）が“１”
であるためにパケットの右データフィールドは、アドレ
スであると解釈して、設定されているベースアドレスと
加算を行い、生成されたアドレスで、メモリ読み出し動
作を行う。読みだしたデータを右データフィールドに格
納する。演算部ＦＡＬＵでは、パケットのもつオペコード“Ａ
ＮＤ”にしたがって演算が行われる。また、プログラム
メモリ部ＰＭでは通常どうりのタグの更新が行われ次の
演算情報がパケットに付与される。〜の過程でデータの演算相手である定数がフェッチ
され演算が実行される。

【０１５６】２．２セレクション・コードＰＭ＿Ｔｈｒ
ｕ（Ｓ３）＝１，ＰＥ（Ｓ４）＝０を用いる方法図５４（ａ）の＃３にあるように、プログラム・コード
を生成する際に、セレクションコードのビットがＰＭ＿
Ｔｈｒｕ（Ｓ３）＝１，ＰＥ（Ｓ４）＝０，ＰＡＩＲ
（Ｓ７）＝１，Ｌ／反転論理Ｒ（Ｓ６）＝１の組み合わ
せに設定する（ＰＡＩＲ＝１，Ｌ／反転論理Ｒ＝１の組
み合わせは、単項演算パケットを示しており、マッチン
グメモリ部ＭＭブロックをＮＯＰで通過するための処置
である）。また、プログラムメモリの次のアドレスにデ
ータメモリ部ＤＭの即値アドレスを定数として格納する
ことで２４ビットフルビットを即値アドレスとして用い
ることができる。データフローグラフでは、ノード＃５
での処理に対応し、ノード＃３での演算“ＯＲ”の結果
と、即値アドレス（ｊ番地）のデータメモリ内容とのＭ
ＵＬ演算が実現される。

【０１５７】以下に、処理の詳細を順を追って説明す
る。プログラムメモリ部ＰＭでは、プログラムの制御ビッ
ト（ＡＡＮ，ＣＰＹ１，ＣＰＹ０）により、データメモ
リ部ＤＭの即値アドレス（ｊ番地）を定数としてパケッ
トの右データフィールド格納する。出力ブロックでは、セレクションコードがＰＭ＿Ｔｈ
ｒｕ（Ｓ３）＝１，ＰＥ（Ｓ４）＝０の組み合わせであ
るのでパケットは、チップ外に出力されることなくマッ
チングメモリ部ＭＭブロックへ、出力される。セレクシ
ョンコードが、ＰＡＩＲ（Ｓ７）＝１，Ｌ／反転論理Ｒ
（Ｓ６）＝１の組み合わせであるためマッチングメモリ
部ＭＭブロックは、ＮＯＰで通過する。データメモリ部ＤＭにおいて、セレクションコードが
ＰＭ＿Ｔｈｒｕ（Ｓ３）＝１，ＰＥ（Ｓ４）＝０の組み
合わせであるので、パケットの右データフィールドにデ
ータメモリ部ＤＭのアドレスが格納されているものと解
釈して右データをアドレスとしてメモリを読み出し、結
果を右データフィールドに格納し出力する。この際、Ｐ
Ｍ＿Ｔｈｒｕ→０とフラグを変更し、次のプログラムメ
モリ部ＰＭブロックでのタグ更新の処理が禁止されない
ようにする。また、この際、データメモリ部ＤＭの動作
モードがバンクモードである場合で、読み出しアドレス
が、２５６ワードを越える場合は、セレクションコード
のＭＥＭ＿ＡＣＣＥＳＳ＿ＶＩＯＬビット（Ｃ２）をセ
ットし、メモリアクセスは行われない。演算部ＦＡＬＵでは、パケットのもつオペコード“Ｍ
ＵＬ”に従って演算が行われる。また、プログラムメモ
リ部ＰＭでは通常どうりのタグの更新が行われ次の演算
情報がパケットに付与される（もしＭＥＭ＿ＡＣＣＥＳ
Ｓ＿ＶＩＯＬビットがセットされていれば、演算部ＦＡ
ＬＵ、プログラムメモリ部ＰＭ共にＮＯＰで通過す
る）。

【０１５８】〔３〕グローバル・データメモリアクセス
について説明する。大規模構造化データをマルチプロセッサシステムにおい
て処理するため、各プロセッサ・エレメント（ＰＥ）の
データメモリを透過的にアクセスする機構を備えてい
る。論理的なアドレスは３２ビットであり、上位８ビッ
トがＰＥ番号、下位２４ビットが各ＰＥのデータメモリ
の物理アドレス（ローカルアドレス）である。図５５に
示したように、あるプロセッサエレメント（アクセス要
求元ＰＥ）内でデータメモリの透過的アクセスの要求が
発生した場合、パケットはネットワークを通じて論理ア
ドレス上位８ビットで指定されたＰＥ（要求先ＰＥ）へ
ルーティングされ、要求先ＰＥにてデータメモリをアク
セスし、再び要求元ＰＥへ戻る。図５６に示したよう
に、パケットは本過程を通じて（ａ）〜（ｂ）の変遷を
たどる。以下に、透過的メモリアクセスの過程を示す。

【０１５９】マッチングメモリ部ＭＭにおいてマッチ
ングされアドレス（３２ビット論理アドレス）、データ
が対になったパケットが、プログラムメモリ部ＰＭにて
タグ更新がなされる。この際に、セレクションコードの
組み合わせがＰＥ＝１，ＰＭ＿Ｔｈｒｕ＝１，ＯＵＴ／
反転論理ＩＮ＝１，ＰＡＩＲ＝１，Ｌ／反転論理Ｒ＝１
とプログラムコーディングしておく（メモリ書き込みの
場合。メモリの読み出し操作の場合は、最初のマッチン
グ処理は必要ない）。（図５６（ａ））出力ブロック（Ｉ／Ｆブロック）ＰＥ＝１，ＰＭ＿Ｔ
ｈｒｕ＝１の組み合わせによって、行き先ＰＥ番号が左
データフィールドの上位８ビットにあると解釈し、
（Ａ）自ＰＥ番号と等しい場合は、チップ外に出力せず
マッチングメモリ部ＭＭブロックへ出力する。（Ｂ）自
ＰＥ番号と等しくない場合は、左データの上位８ビット
に格納されているＰＥ番号を３ワード形式のＰＥ間を渡
るパケットのＰＥ番号フィールドに格納し、自ＰＥ番号
を、行き先ＰＥからの戻りＰＥ番号として左データの上
位８ビットへ退避してチップ外へ出力する。（Ａ）の場
合は、自ＰＥのマッチングメモリ部ＭＭブロックへ、
（Ｂ）の場合は、行き先ＰＥ番号のＰＥへネットワーク
を介してルーティングされ、行き先のＰＥの入力ブロッ
クを通ってマッチングメモリ部ＭＭブロックへ到着す
る。（パケット形式は、図５６（ｂ））上記の（Ａ）、
（Ｂ）いずれの場合であっても、セレクションコードは
ＰＥ＝１，ＰＭ＿Ｔｈｒｕ＝１の組み合わせである。
（Ａ）の場合は、行き先ＰＥ番号と戻り先ＰＥ番号が同
一であることを除くと（Ｂ）の場合と同様に考えること
ができる。従って、ここでは、（Ｂ）の場合に限定して
説明する。以上〜の処理はメモリアクセスの要求元
ＰＥでの処理である。

【０１６０】行き先ＰＥのマッチングメモリ部ＭＭブ
ロックでは、ＰＡＩＲ＝１，Ｌ／反転論理Ｒ＝１の組み
合わせであるため、このパケットが単項演算のパケット
であると解釈し、パケットをＮＯＰで通過させデータメ
モリ部ＤＭブロックへ出力する。データメモリ部ＤＭブロックでは、パケットのオペコ
ードフィールドに従ってデータメモリをアクセスし、左
データの上位８ビット（すなわち、戻り先ＰＥ番号）の
値を命令実行後は、使用しないフィールドである右デー
タの上位８ビットに退避し、プログラムメモリ部ＰＭ、
演算部ＦＡＬＵブロックに出力する。なお、データメモ
リ部ＤＭブロックでは、ＯＵＴ／反転論理ＩＮフラグ
は、常に、“０”が出力される。従って、データメモリ
部ＤＭブロックを出力されるパケットのセレクションコ
ードは、ＰＥ＝１，ＰＭ＿Ｔｈｒｕ＝１，ＯＵＴ／反転
論理ＩＮ＝０の組み合わせとなる。（パケット形式は、
図５６（ｃ））演算部ＦＡＬＵは、オペコードがデータメモリ部ＤＭ
命令であるためにＮＯＰで通過する。プログラムメモリ
部ＰＭは、フラグ、ＰＭ＿Ｔｈｒｕ＝１であるために、
入力されたパケットをＮＯＰで通過させる。出力ブロックでは、入力されるパケットのセレクショ
ンコードがＰＥ＝１，ＰＭ＿Ｔｈｒｕ＝１，ＯＵＴ／反
転論理ＩＮ＝０の組み合わせであると、無条件に、ＰＭ
＿Ｔｈｒｕ→０とフラグの値を変化させる。また、行き
先ＰＥ番号が、右データの上位８ビットに格納されてい
るものと解釈し、行き先ＰＥ番号が自ＰＥ番号と異なる
場合は、ＰＥ間を渡るパケットのＰＥ番号フィールドに
右データの上位８ビットを格納して、再びパケットをネ
ットワークへ出力する。（図５６（ｄ））以上〜の処理は、メモリアクセス要求先ＰＥの処理
である。

【０１６１】行き先ＰＥ番号が自ＰＥ番号と等しい場合
は、パケットをチップ外に出力せずマッチングメモリ部
ＭＭブロックへと転送するが、で（Ａ）の場合にこの
ようなことが起こる。この後のマッチングメモリ部ＭＭ
ブロック以降での処理は、いずれの場合も同様である。

【０１６２】ルーティグネットワークを介して戻り先
ＰＥ（メモリアクセス要求元ＰＥ）の入力ブロックを通
過したパケットは、セレクションコードの組み合わせ
が、ＰＡＩＲ＝１，Ｌ／反転論理Ｒ＝１であるためこの
パケットを単項演算パケットと解釈し、マッチングメモ
リ部ＭＭブロックをＮＯＰで通過させ、データメモリ部
ＤＭブロックへ転送される。データメモリ部ＤＭにおいては、セレクションコード
の組み合わせが、ＰＥ＝１，ＰＭ＿Ｔｈｒｕ＝０である
場合パケットをＮＯＰで通過させる。演算部ＦＡＬＵ
は、オペコードがデータメモリ部ＤＭ命令であるため、
データ処理は、行われない。プログラムメモリ部ＰＭに
おいては、通常のタグ更新が実行され、フローグラフ上
の次のノードの命令が読み出される。

【０１６３】〔４〕ベクトル演算について説明する。ベクトル演算（ａ_i ＋ｂ_i ）×ｃ_i （ただし、ｉ＝１〜１２６）を以下に示すような２回のベクトル演算過程を用いて行
うことを考える。第一のベクトル演算ＲＡＧで、予めバンク＃２に格納された第１オペランド
（ａ_i ）、バンク＃３に格納された第２オペランド（ｂ
_i ）を連続的に読みだす。ＷＡＧでは、ＲＡＧで生成
し、演算部ＦＡＬＵで演算された結果（ａ_i ＋ｂ_i ）を
バンク＃４に格納する。また、同時に、バンク＃５には
外部メモリからデータ（ｃ_i ）をＤＭＡ転送する。第二のベクトル演算上記のベクトル演算過程が終了した後、バンク＃４（ａ
_i ＋ｂ_i ）、＃５（ｃ_i ）をＲＡＧに、バンク＃１（最
終結果を格納）をＷＡＧに割付け、ＲＡＧが連続的にオ
ペランド対｛（ａ_i ＋ｂ_i ）、ｃ_i ｝を生成し、演算部
ＦＡＬＵにてベクトル演算、（ａ_i ＋ｂ_i ）×ｃ_i を実
行し、ＷＡＧにてバンク＃１にその結果（ａ_i ＋ｂ_i ）
×ｃ_i 、が格納され上記のベクトル演算が完了する。

【０１６４】図５７にこの過程を示したデータフローグ
ラフを示す。本データフローグラフは「トリガーパケッ
ト」の入力により起動される。本過程は、第一のベク
トル演算のためのセットアップ、ベクトル演算の実
行、ベクトル演算の終了の検知、第二のベクトル演
算のためのセットアップ、ベクトル演算の実行、ア
クノーリッジパケットの送出、によりなる。以下各過程
の詳細を説明する。

【０１６５】ベクトルバンクのセットアップＳＥＴＡＧ命令により各アドレスジェネレータのセット
アップ、アドレスジェネレータとメモリバンクを関連づ
け等を行う。図中パターンなど、１０ｈ等は、プログ
ラムメモリ部ＰＭ内に予め設定された定数である（詳し
くは、第１節参照）。トリガーパケットを必要なＳＥＴ
ＡＧ命令数分コピーして、ＳＹＮＣノードで設定するビ
ットパターン（図中パターンなど）を定数としてプロ
グラムメモリより取り出し、左データに格納する
（＊）。更に、レジスタアドレス（１０ｈなど）を定数
としてプログラムメモリ部ＰＭより取り出し、右データ
に格納しＳＥＴＡＧ命令を実行する（ＳＥＴＡＧ命令の
引き数は、左データに設定するビットパターン、右デー
タにレジスタアドレスである）。（設定する内容は、後
述）。なお、ＳＥＴＡＧ命令は、図５８におけるＮＡＧ
にて実行され、制御線を介して各アドレスジェネレー
タ、ＳＷ回路、メモリバンク内の各々のレジスタへのデ
ータの書き込みが制御される。

【０１６６】（＊）本来、プログラムメモリ内の定数を
用いる場合、定数値は、右データに格納されるが、セレ
クション・コードの組み合わせをＰＡＩＲ＝１，Ｌ／反
転論理Ｒ＝０とすことで、マッチングメモリ部ＭＭが右
データと左データを交換する機能を持つ。ここでは、こ
の機能を用いることを仮定している。従って、ＳＹＮＣ
ノードにて定数（パターン等）が左データとして入力
されている。

【０１６７】ベクトル演算の実行ＳＥＴＡＧ命令の全ての結果パケット（値は、意味を持
たない）をＳＹＮＣノードで同期して、即ち、必要なＳ
ＥＴＡＧ命令が全て実行されたことを保証した上でＴＲ
ＧＷ命令にてＲＡＧ、ＤＭＡＡＧの両方にトリガーをか
けベクトル演算を開始させる。ＲＡＧは、ＮＡＧにより
発行されたトリガー命令を受け、連続的にアドレスを生
成する。そのアドレスは、ＳＷ回路を介して対象とする
メモリバンクに作用しデータが読み出され、再びＳＷ回
路を介してＲＡＧに伝達され、パケットの左右データフ
ィールドに格納される。（オペコードなどの）タグ部は
予めＳＥＴＡＧ命令で設定された内容が格納される。Ｒ
ＡＧから出力されるパケットはセレクションコードＣ１
（ＶＥＣＴＯＲＩＮＳＴＲ．）がセットされている。
このビットにより、演算部ＦＡＬＵを除くブロックは、
このベクトル演算パケットに対して何も処理をしない。
また、再びデータメモリ部ＤＭに戻ってきたパケット
は、分岐部でＣ１がセットされていることでＷＡＧへ分
岐し結果が格納される。

【０１６８】ベクトル演算の終了の検知ＲＡＧは、規定回数のデータ読み出しが終了したところ
でアクノーリッジパケットを出力する。このパケットに
は、各アドレスジェネレータの稼働状態が格納されてい
る。（ＤＭＡＡＧの状態は、左データの最下位ビットに
格納されている）。ここでは、ＤＭＡＡＧがデータの転
送を終了したかどうかを確認するためアクノーリッジパ
ケットの最下位ビットをＡＮＤ演算でテストし、終了し
ていなかった場合（ＡＮＤ演算結果が０でない場合）
は、ＣＨＫＡＧ命令にて再度ＤＭＡＡＧの状態をチェッ
クしＤＭＡ転送の終了するまでループする。ＤＭＡＡＧ
のデータ転送が終了した時点で第二のベクトル演算のセ
ットアップに入る。なお、命令「ｚｅｒｏ」は入力され
たデータが“０”であれば真（Ｔ）を、それ以外であれ
ば偽（Ｆ）を出力する。

【０１６９】第二のベクトル演算のセットアップと同様にＳＥＴＡＧ命令にてセットアップを行う。こ
こでは、アドレスジェネレータは、同一のアドレッシン
グモードを実行するため、バンクメモリとアドレスジェ
ネレータと関連づけ等を規定するレジスタのみを設定し
直す。

【０１７０】ベクトル演算の実行と同様に、ＳＥＴＡＧ命令の全ての結果パケット（値
は、意味を持たない）をＳＹＮＣノードで同期して、即
ち、必要なＳＥＴＡＧ命令が全て実行されたことを保証
した上でＴＲＧＲＢ命令にてＲＡＧにトリガーをかけベ
クトル演算を開始させる。

【０１７１】アクノーリッジパケットの送出ＲＡＧが規定回数のデータ読み出しを終了した後アクノ
ーリッジパケットを出力する。このパケットの行き先ノ
ード＃に従ってベクトル演算の終了を示すパケットがベ
クトル演算の要求元へ出力される。なお、アクノーリッ
ジパケットの行き先ノード番号は、ＴＲＧＲＢ等のベク
トル演算を開始させる命令を持ったパケットの行き先ノ
ード番号が設定される。

【０１７２】〔５〕テスト・アンド・セット命令による
共有関数“ｉ”の排他的実行について説明する。データ駆動形マイクロプロセッサの特徴の一つは、プロ
グラムのコードサイズを圧縮するために複数回呼ばれる
関数を共有関数化し、かつカラー識別番号をデータに付
与することにより、プログラム中の複数の箇所から共有
関数を同時に呼び出して並列に実行できることである。
ところが、共有関数中にメモリの読み書きを含む場合、
読み書きの順序性を保証するために、同時実行を禁止
し、排他的に実行する必要の生じる場合がある。これ
は、履歴を伴う処理の場合一般的に要求されることであ
り、例えば、磁気ディスク記憶のディレクトリをチェッ
クして、空き領域が存在することを確かめた後に、ディ
スクの空き領域に引数として渡されたデータを書き込む
ような関数の場合、処理の一貫性を保証するためには同
時に呼び出される数を１つに限定する必要がある。すな
わち、関数の排他的実行が必要となる。

【０１７３】図５９は共有関数“ｉ”を排他的に実行す
るためのプログラムを示すデータフローグラフである。
各命令の意味を以下に示す。ｎｏｐ：データ操作をしない命令。１入力命令。ＳＹＮＣ：２入力のｎｏｐ命令。２つの入力が揃ったこ
とを検出して同期をかける（synchronize ）ための命
令、左入力をパケットの左データフィールド、右入力を
右データ入力に格納して出力する。通常、出力パケット
の右データは、無意味。Ｔ＆Ｌ：テスト・アンド・ロック命令。左入力の値が示
すデータメモリのアドレスの内容が１であるか、またデ
ータメモリのロックフラグの値が１の時パケットのキャ
リフラグを１に変化させる。左入力の値が示すデータメ
モリアドレスの内容が０の時パケットのキャリフラグを
０とし、かつデータメモリのロックフラグを１にする。ＣＹ：キャリフラグが１の時に、左データの値を１にす
る命令。ＳＷ：右入力が１のとき、右側のアークにデータを出力
し、右入力が０のとき、左側のアークにデータを出力す
る命令。Ｓ＆Ｕ：セット・アンド・アンロック命令であり、左入
力の値が示すデータメモリの内容を１に変化させ、かつ
データメモリのロックフラグを０にする。ＤＭＷ：左データ入力の示すデータメモリアドレスに、
右データ入力の値を書き込む命令。

【０１７４】呼び出し側からは、入力引数とトリガーパ
ケットが送り出される。トリガーパケットはｎｏｐ命令
を経由した後、関数“ｉ”に相当する定数「ｉ」を伴っ
たＴ＆Ｌ命令を実行する。データメモリの「ｉ」番地を
読みだした結果データが０であったとき、他のＴ＆Ｌ命
令の実行が成功しないようにするためにロックフラグを
１にすると同時に、パケットのキャリフラグは本Ｔ＆Ｌ
命令が成功したことを示すために０にする。一方、もし
「ｉ」番地の内容が１であったり、データメモリのロッ
クフラグが１であった場合には本Ｔ＆Ｌ命令は不成功に
終わり、キャリフラグは１となる。

【０１７５】Ｔ＆Ｌ命令ノードの出力は、ＣＹ命令ノー
ドでチェックされ、キャリフラグの０／１に応じてＣＹ
命令ノードの出力パケットの左データの値が０／１にな
る。ＳＷ命令ノードでは右データ入力、すなわちＣＹ命
令ノードの出力パケットの左データの値の０／１に応じ
て、０のとき左出力アーク上に、また１のとき右出力ア
ーク上にパケットを出力する。Ｔ＆Ｌ命令の実行が不成
功であった場合には、再度Ｔ＆Ｌ命令を実行するために
トリガーパケットが最初に入力するｎｏｐノードにパケ
ットを送る。反対に、Ｔ＆Ｌ命令の実行が成功した場合
には、パケットをＳ＆Ｕ命令ノードに送って、データメ
モリの「ｉ」番地の内容を１に変化させるとともに、デ
ータメモリのロックフラグを０にクリアする。

【０１７６】Ｓ＆Ｕ命令の実行終了の後、入力引数Ｉ₁
〜Ｉ_n はｓｙｎｃ命令ノードを経由して関数“ｉ”に引
き渡される。関数“ｉ”の実行が終了すると、関数の実
行結果として、出力数Ｏ₁ 〜Ｏ_n が呼び出し側に引き渡
される。ｎｏｐノードを経由した出力引数は、呼び出し
側で次の処理のために利用されるとともに、ｓｙｎｃノ
ードで出力の同期を取り、全出力が送出されたことを検
出する。最終的に、左データとして０を有するパケット
がＤＭＷ命令ノードに入力される。ＤＭＷ命令は、デー
タメモリの「ｉ」番地に０を書き込んで、ｉ番地（関数
「ｉ」）に対する他のＴ＆Ｌ命令が成功可能な状態に戻
す。以上のようにして、関数の排他実行が実現される。

【０１７７】ハードウェア構成、上記処理内容を示すフ
ローチャート、テスト・アンド・セット命令の実現方法
については先行出願（１９９１年１月９日出願「マイク
ロプロセッサ」）に詳述している。

【０１７８】上記ＳＥＴＡＧ命令にて設定する内容を図
６０〜図６３に参考として記載しておく。

【０１７９】なお、上記実施例では、マルチポート機能
を有する内部データメモリを、マルチバンク構成のメモ
リで実現した例を示したが、特にこれに限るわけではな
く、複数のビット線とこれに対応するす複数のアドレス
デコーダを有するいわゆるマルチポートメモリを用いて
もメモリの同時並行アクセスが実現可能であることは言
うまでもない。

【０１８０】また、上記実施例において説明した、デー
タ駆動形マイクロプロセッサの構成における機能ブロッ
クの接続はほんの一例であり、これに限るものではな
い。例えば、演算部ＦＡＬＵと、プログラムメモリ部Ｐ
Ｍは並列配置されているが、これは命令実行の遅延時間
を短縮するための工夫であり、これら２つの機能ブロッ
クは、縦列接続されて演算処理、プログラム読み出しの
順に実行されても差し支えない。なお、このように接続
された場合、演算結果データのコピー機能はプログラム
メモリ部ＰＭにおいて実現されることになり、コピー部
ＫＣＯＰＹは不要となる。

【０１８１】さらに、上記実施例で示したアドレス発生
器、メモリバンクの数は固定的なものではなく、例えば
ＤＭＡ転送を同時多重に行うことによってさらに性能を
向上させるためには、アドレス発生器、メモリバンク、
および外部メモリポートなどの数を増やせばよい。ただ
し、高速ベクトル演算を行うためには、最低３つのアド
レス発生器と、３つのメモリバンクが必須となる。

【０１８２】なお、上記実施例で示したデータメモリの
パイプライン構成も固定的なものではなく、例えば、ア
ドレス発生のためのパイプラインの段数が、アドレスの
ビット幅や、アドレッシングモードの機能の内容（任意
ビット数のビット反転処理を含むか否か）によって変わ
るものであることは言うまでもいない。

【０１８３】また、上記実施例では、簡単のためにパケ
ットに付与されるべきカラーおよび世代番号識別子を省
略したが、これらの識別子を用いることによって、通常
のデータ駆動形計算機と同様に、動的データ駆動方式が
実現できることは言うまでもない。

【０１８４】

【発明の効果】以上のように本発明によれば、演算部と
プログラムメモリ部を並列配置し、演算部およびプログ
ラムメモリ部で更新された情報を入出力インタフェース
部へ送る構成とするとともに、データを同時並行かつ連
続的に読み書き可能なデータメモリ部を演算部よりも手
前えに配置し、マッチングメモリ部から被演算データを
連続的にデータメモリ部へ読み出し、予め設定されてい
る命令コードとともに演算部へ送り込みベクトル演算を
実行するようにしたので、ベクトル演算のための２つの
被演算データの読み出し、演算結果データの書き込み、
通常のメモリアクセスなどの処理が、短いアクセス時間
内に、しかも同時並列に行われ、極めて高いベクトル演
算性能を達成することができる。

【０１８５】また、データメモリ部を巡回パイプライン
中に取り込み、かつ演算部よりも手前の段に配置したこ
とにより、データの読み出しと演算実行を巡回パイプラ
インの１周回で完了することが可能となり、効率のよい
プログラム実行が可能となった。

【図面の簡単な説明】

【図１】本発明によるデータ駆動形マイクロプロセッサ
の一実施例を示すブロック図である。

【図２】本発明によるデータ駆動形マイクロプロセッサ
のデータメモリ部のブロック構成を示す図である。

【図３】本発明によるデータ駆動形計算機で実行するプ
ログラム（データフローグラフ）の一例を示す図であ
る。

【図４】本発明によるデータ駆動形マイクロプロセッサ
で図３に示すプログラムを実行した場合のパケットの変
遷を示す図である。

【図５】図１中の入出力インタフェース部のブロック図
である。

【図６】上記入出力インタフェース部における３語１語
変換回路の一例を示す図である。

【図７】上記入出力インタフェース部における初期化回
路の一例を示す図である。

【図８】上記入出力インタフェース部における合流回路
の一例を示す図である。

【図９】上記入出力インタフェース部における分岐回路
の一例を示す図である。

【図１０】上記入出力インタフェース部における１語３
語変換回路の一例を示す図である。

【図１１】本実施例において分散型共有データメモリ部
の効率的なアクセスについて説明するための図である。

【図１２】本実施例における入出力インタフェース部の
動作を説明するための図である。

【図１３】図１中のマッチングメモリ部のブロック図で
ある。

【図１４】上記マッチングメモリ部の動作を説明するた
めのメモリアクセスのタイムチャートである。

【図１５】上記マッチングメモリ部への入力パケットの
フォーマットを示す図である。

【図１６】図１３中のハッシュメモリへの格納情報を示
す図である。

【図１７】上記ハッシュメモリの構成図である。

【図１８】上記ハッシュメモリにおけるリセッット付メ
モリセルの回路図である。

【図１９】上記ハッシュメモリの周辺回路の論理回路図
である。

【図２０】上記ハッシュメモリにおけるメモリアクセス
制御の論理回路図である。

【図２１】上記ハッシュメモリにおける制御信号のタイ
ムチャートである。

【図２２】上記ハッシュメモリにおけるハッシュアドレ
スの事前競合検知回路の回路図である。

【図２３】図１３中の連想メモリの機能を説明するため
の図である。

【図２４】上記連想メモリの構成図である。

【図２５】図１３中のＣＡＭセルの論理回路図である。

【図２６】図１３中のＣＡＭとデータＲＡＭの接続を示
す回路図である。

【図２７】上記連想メモリにおける空ワード検知プライ
オリティデコーダの論理回路図である。

【図２８】上記連想メモリに対するメモリアクセス制御
信号発生回路の論理回路図である。

【図２９】上記連想メモリに対するメモリアクセス制御
信号発生回路による連想メモリ読み出しのタイムチャー
トである。

【図３０】図１中のデータメモリ部においてノーマルモ
ード時のメモリの使用形態を示す図である。

【図３１】図１中のデータメモリ部においてバンクモー
ド時のメモリの使用形態を示す図である。

【図３２】上記データメモリ部のアクセス関連命令を示
す図である。

【図３３】上記データメモリ部のアクセス関連命令を示
す図である。

【図３４】上記データメモリ部におけるバンクレジスタ
のフォーマットを示す図である。

【図３５】上記データメモリ部におけるバンク番号レジ
スタのフォーマットを示す図である。

【図３６】上記データメモリ部におけるアドレスジェネ
レータ内のモード設定レジスタを示す図である。

【図３７】上記データメモリ部におけるアドレッシング
モードの概念を説明するための図である。

【図３８】上記データメモリ部の説明においてＲＡＧの
レジスタに設定される内容を示す図である。

【図３９】上記データメモリ部の説明においてＲＡＧの
アクノリッジ・パケットに設定される内容を示す図であ
る。

【図４０】上記データメモリ部の説明においてＷＡＧの
レジスタに設定される内容を示す図である。

【図４１】図１中のプログラムメモリ部のブロック図で
ある。

【図４２】上記プログラムメモリ部に入力されるパケッ
トのフォーマットを示す図である。

【図４３】上記プログラムメモリ部から出力されるパケ
ットのフォーマットを示す図である。

【図４４】上記プログラムメモリ部におけるメモリコア
イメージを示す図である。

【図４５】上記プログラムメモリ部の説明におけるセレ
クションコードのビット並びを示す図である。

【図４６】従来のプログラムメモリ部の１語の構成と本
実施例によるプログラムメモリ部の１語の構成を示す図
である。

【図４７】上記プログラムメモリ部より出力されるセレ
クション・コードの設定値を示す図である。

【図４８】図１中のコピー部のブロック図である。

【図４９】本実施例におけるプロセッサ内部のパケット
形式を示す図である。

【図５０】本実施例におけるセレクションコードを説明
するための図である。

【図５１】本実施例においてケース１パケットの動作を
説明するためのフローグラフを示す図である。

【図５２】本実施例におけるパケットフォーマットを示
す図である。

【図５３】本実施例におけるメモリコアイメージを示す
図である。

【図５４】本実施例におけるデータメモリ部の即値アド
レスアクセスを説明するための図である。

【図５５】本実施例においてグローバルデータメモリア
クセスを説明するための図である。

【図５６】本実施例においてグローバルデータメモリア
クセス時のパケットの変化を説明するための図である。

【図５７】本実施例においてベクトル演算を説明するた
めのデータフローグラフを示す図である。

【図５８】本実施例におけるデータメモリ部の動作を説
明するためのブロック図である。

【図５９】本実施例においてテストアンドセットによる
関数の排他的実行を説明するためのデータフローグラフ
を示す図である。

【図６０】本実施例においてＳＥＴＡＧ命令にて設定す
る内容を示す図である。

【図６１】本実施例においてＳＥＴＡＧ命令にて設定す
る内容を示す図である。

【図６２】本実施例においてＳＥＴＡＧ命令にて設定す
る内容を示す図である。

【図６３】本実施例においてＳＥＴＡＧ命令にて設定す
る内容を示す図である。

【図６４】従来のデータ駆動形計算機の構成を示すブロ
ック図である。

【図６５】従来計算機で実行するプログラム（データフ
ローグラフ）の一例を示す図である。

【図６６】連続読み出しを行うプログラムの一例を示す
図（データフローグラフ）である。

【図６７】データフローグラフで示されたプログラムの
メモリでの格納内容を示す図である。

【符号の説明】

ＩＦ入出力インタフェース部ＭＭマッチングメモリ部ＰＭプログラムメモリ部ＦＡＬＵ演算部ＫＣＯＰＹコピー部

───────────────────────────────────────────────────── フロントページの続き (72)発明者浅井文康伊丹市瑞原４丁目１番地三菱電機株式会社エル・エス・アイ研究所内 (56)参考文献特開昭63−111540（ＪＰ，Ａ) 特開昭64−25244（ＪＰ，Ａ) 特開平２−240784（ＪＰ，Ａ) 特開平３−278192（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 15/82 610 - 660 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】データの入出力を行う入出力インターフ
ェース部と、この入出力インターフェース部から入力さ
れたデータであって、このデータに付属しているタグ情
報の内の少なくとも行き先ノード番号が一致する２つの
データを検出する機能を有するマッチングメモリ部と、
このマッチングメモリ部において一致検出がなされたデ
ータに対してデータに付属している命令コードに従って
演算処理を施す演算部と、データに付属している行き先
ノード番号を入力アドレスとしてメモリの内容を読み出
し、この読み出した内容に基づいてタグ情報の内の少な
くとも行き先ノード番号と命令コードの更新を行うプロ
グラムメモリ部とを備えたデータ駆動形マイクロプロセ
ッサであって、上記演算部と上記プログラムメモリ部を
並列配置し、上記演算部および上記プログラムメモリ部
で更新された情報を上記入出力インターフェース部へ送
る構成とするとともに、データを同時並行かつ連続的に
読み書き可能なデータメモリ部を上記演算部よりも手前
に配置し、上記マッチングメモリ部から被演算データを
連続的に上記データメモリ部へ読み出し、予め設定され
ている命令コードとともに上記演算部へ送り込みベクト
ル演算を実行することを特徴とするデータ駆動形マイク
ロプロセッサ。
【請求項２】マルチプロセッサ構成時には上記データ
メモリ部を用いることにより他のプロセッサのローカル
メモリを透過的にアクセスすることを特徴とする請求項
１のデータ駆動形マイクロプロセッサ。
【請求項３】上記データメモリ部に即値データを格納
しておくことを特徴とする請求項１のデータ駆動形マイ
クロプロセッサ。
【請求項４】マルチタスクが履歴や資源を共有すると
き、履歴や資源を排他的に利用するように制御すること
を特徴とする請求項１のデータ駆動形マイクロプロセッ
サ。
【請求項５】プログラムメモリ部の内容を読み出す命
令と書き込む命令を用いるとともに第２オペランドを行
き先ノード番号フィールドにコピーする命令を用いるこ
とにより、動的負荷分散処理を行うことを特徴とする請
求項１のデータ駆動形マイクロプロセッサ。
【請求項６】外部データメモリ接続用ポート及び外部
プログラムメモリ接続用ポートを介して巡回しているパ
ケットの内容をモニタすることを特徴とする請求項１の
データ駆動形マイクロプロセッサ。