JPH01187638A

JPH01187638A - プロセッシングユニット

Info

Publication number: JPH01187638A
Application number: JP63010775A
Authority: JP
Inventors: Kaoru Uchida; 薫内田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1988-01-22
Filing date: 1988-01-22
Publication date: 1989-07-27
Anticipated expiration: 2009-06-22
Also published as: JPH0648499B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、メモリ部、演算部をパイプライン状のバスで
結合し、データ駆動方式により演算順序をコントロール
するデータフロープロセッサのプロセッシングユニット
に関するものである。

〔従来の技術〕

従来、データフロープロセッサとしては特開昭５６−１
６９１５２号公報に記載されている技術があり、それを
製品化したものとして日本電気株式会社製のμＰ０７２
８１がある。μＰＤ７２８１は第７図に示されるような
構成を持つ。このμＰＤ７２８１によれば、外部バスか
ら装置に入力されるデータの単位となるトークンは、デ
ータ値、入力後にリンクテーブル９２を参照するための
識別子、そのトークンが処理されるべき装置を示すモジ
ュール番号を持ち、トークン入力部９１は、外部バスを
通るトークンのモジュール番号がその装置の番号と一致
する場合にそのトークンを内部に入力し、そうでない場
合トークン出力部９７を通じてそのまま外部バスから出
力する。入力されたトークンは、その持つ識別子により
リンクテーブル９２を参照し、そこでファンクションテ
ーブル９３を参照するためのファンクションテーブルア
ドレスと次回にリンクテーブル９２を参照するための識
別子を得た後にファンクションテーブル９３へ送られる
。

トークンはファンクションテーブル９３においてそのフ
ァンクションテーブルアドレスによる参照を行い、そこ
でデータメモリ９４の管理情報の参照・更新を行うと同
時に、プロセンシングユニット９６での処理内容を示す
処理コードとデータメモリ９４のアクセスアドレスを得
、データメモリ９４に送られ、そこモ必要に応じて２項
演算の相手方のオペランドの待合わせ、あるいは定数演
算のための定数の読出しを行う。キューメモリ９５はプ
ロセッシングユニット９６が前のトークンを処理中でト
ークンを入力できない時にトークンを一時保持するため
のメモリであり、プロセンシングユニット９６がビジー
でない場合には、トークンはキューメモリ９５からプロ
セッシングユニット９６に送られ、その処理コードに応
じて、整数データの加減乗算、論理演算、シフト、比較
、ビット反転、プライオリティエンコーディング、分流
、数値発す、コピー、内部レジスタを利用した累積加算
演算などのうち１つの処理を受ける。なおトークンの持
つ処理コードが出力を示すものである場合には、トーク
ンはキューメモリ９５からトークン出力部９７へ送られ
、入カドークンと同一の形に変形された後に、外部ハス
へ出力される。プロセッシングユニット９６で処理を受
けたトークンは、リンクテーブル９２に送られ、再びそ
の識別子により参照を行う。以下同様にして出力命令が
実行されるまで内部のリングバスを回り、そのデータ値
に対して必要な処理を受ける。

〔発明が解決しようとする課題〕

数値シュミレーションやパターン認識などの応用分野に
おいて用いられる数値計算では、データの精度を確保す
るために浮動小数点データを扱う必要があり、特に浮動
小数点データを要素とする行列とベクトルの乗算や行列
同士の乗算は、これらのアプリケーションにおいて頻繁
に行われる。

前述のデータフロープロセッサで、この様な乗算に現れ
る、外部メモリ上にある複数のデータに対しそれぞれあ
る係数を掛けそれらの積の和をとる、いわゆるコンボリ
ューション処理を行う場合を考える。従来のデータフロ
ープロセッサにおいては演算器が一つしかなく、トーク
ンが内部リングを１周してプロセッシングユニットに入
った時にそのトークンの持つ２つのデータの間の１つの
２項演算しかできないため、コンボリューションにおい
ではＮ個のデータ組の乗算を行うためにＮ回と、その結
果の加算を行うために（Ｎ−１）回トークンが内部リン
グを周回しプロセッシングユニットに流れ込む必要があ
り、さらにそのうちの加算は時間的に直列に行わなけれ
゛ばならないため処理時間が長くなるという問題点があ
る。

μＰ０７２８１においては上の問題点のうち連続データ
の加算を高速化するためにプロセッシングユニットにレ
ジスタを設は累積加算を行うようになっているが、これ
でも−度には乗算と加算の一方しかできないため乗算に
ついては高速化できない。

従ってコンボリューションの高速化のためには、係数と
入力データとの乗算を行う乗算器と、レジスタを用いて
その積の累積加算を行う演算器とが縦列に配置されなけ
ればならない。

一方、前述のデータフロープロセッサではサポートされ
ている算術演算処理が整数データに対する加減乗算に限
られているため、これら以外の浮動小数点表現のデータ
の演算を必要とする処理は実行できず、これを行おうと
する場合、ソフトウエアで実現しなければならず、処理
時間の増大を招いていた。

これを解決するために、前記データフロープロセッサの
プロセッシングユニットに通常のプロセッサで用いられ
ている浮動小数点演算用ハードウェアを組み込んだプロ
セッサを提供することは可能である。しかしこの場合、
浮動小数点演算のためには他の固定小数点演算における
より長い処理時間が必要であるため、プロセッサ内部の
トークン転送をパイプラインクロックに同期して行うデ
ータフロープロセッサでは全体の動作パイプラインサイ
クルを長くせざるを得す、全体の処理速度が低下すると
いう問題が生ずる。

これに対し一般にはこのように浮動小数点演算部が複雑
な処理を必要とする場合、その内部を複数ステージに分
割し、各段をパイプライン的に動作させることにより全
体のクロック周期を短くするという手法が取られる。し
かしこの場合でも、例えばベクトル内の要素の累積加算
をとる際はその前の和をとる演算が終了しなければ次の
加算を開始できないというようにそれらの加算はパイプ
ライン化できないため、その分だけ処理時間がかかる。

例えばそれぞれ浮動小数点データを要素とす２ｍＸｎの
行列Ａ（要素ａ［ｉ、ｊコ）と長さｎのベクトルマ（要
素ｘ［ｊｌの乗算ブーＡマを、浮動小数点乗算器とＳス
テージからなるパイプライン化された浮動小数点加算器
を持つデータフロープロセッサで行う場合を考える。

ｙ［ｉ］＝Σａ［ｉ、ｊｌ・ｘ［ｊ］Ｊ！＋（ｉ　＝　ｌ　Ａ−ｍ）を求める場合、連続して入力される２つのデータ列の乗
算を行った後、その結果の累積加算を行うためにはｎ個
の積の和を求めなければならない。

そこでそのための（ｎ−１）回の加算のためには、１回
の加算がＳステップかかり、かつ全ての加算は時間的に
直列に行わざるを得ないため、ｓ×（ｎ−１）ステップ
かかり、従って全部で５ｘ（ｎ−１）×ｍ　　ステップかかることになる。

本発明の目的は上記のような問題点を解決し、浮動小数
点表現のデータによる積和演算をなるべくパイプライン
性能を低下させずに実行でき、上述のような処理を高速
化できるデータフロープロセッサのプロセッシングユニ
ットを提供することにある。

〔課題を解決するための手段〕

本発明のプロセッシングユニットは、前記内部メモリ部から前記バスを介して入力されるコン
トロール情報とオペランドデータを持つトークン上の２
つのオペランドデータの演算を行い、結果データを持つ
トークンを出力する算術計算部と、前記算術計算部の出力トークン上の結果データ、及び、
加算の途中結果を一時保持する複数のレジスタからなる
レジスタファイルと、前記算術計算部の出力トークン上の結果データと前記レ
ジスタファイルから読出したデータとの演算を行い、結
果を前記レジスタファイルに送る加算器と、前記算術計算部の出力トークン上のコントロール情報を
前記加算器を通過するデータと同期させるための遅延回
路と、前記加算器の結果出力データと前記遅延回路から得られ
るコントロール情報とから演算結果データを持つトーク
ンを生成する結果トークン生成部と、からなることを特徴としている。

〔作用〕

本発明のプロセッシングユニットを持つデータフロープ
ロセッサにおいて、前記の行列Ａとベクトルマの乗算を
行う場合、予めベクトルマの要素ｘ［１］、ｘ［２］、
　　・・、ｘ［ｎコを外部から与えることにより内部メ
モリに保持しておく。処理に際し、行列Ａの要素データ
ａ［１，１］、ａ［２，１］。

・　＋、　　　ａ［ｍ、　　　１１．　　　ａ［１，２
Ｌ　　・　＋、　　　ａ［ｍ。

２］、・・、ａ［１，ｎ］、　　・・、ａ［ｍ、ｎ］を
この順で持つｎｘｍ個のトークンをデータフロープロセ
ッサに入力する。入力されたトークンは内部メモリを経
由する際に必要な２項演算の相手方デ−タとなるベクト
ルマの要素と処理コードとを得る。この相手方データは
Ｘ［１］、　　・・、ｘ［１］（ｍ個）、ｘ［２］、　
　・・ｘ［２］、　　・＋、ｘ［ｎ］。

・・、ｘ［ｎ］のようにｍ　Ｘ　ｎ個アクセスされる。

２つのオペランドを持つトークンは、プロセッシングユ
ニットの前段を構成する算術計算部に順に連続して入力
される。そこでは入力された２つのオペランドについて
乗算を行い、後段の累積加算部へその結果の積ｐ［ｉ、
ｊ］＝ａ［ｉ、ｊＣｘ［ｊ］を持つトークンをそのデー
タがｐ［１，１］。

ｐ［２，１］、　　　・　・　、　　　ｐ［ｍ、　　　
１　　コ、　　　ｐ［１，２］、　　　・・、ｐ［１，
ｎ］、　　・・、ｐ［ｍ、ｎ］の順になるように送出す
る。累積加算部では内部のレジスタファイル内のレジス
タの長さｍのＦＩＦＯとして用いることにより、第１行
の部分和ｑ［１，に−１］＝ｑ［ｉ、１］＋・・＋ｐ［
ｉ、に−１］をｐ［ｘ、にコが入力されるまでサイクリ
ックに保持し、保持した部分和が次にｍクロック遅れて
入って来る次の加算されるべきデータに同期するように
これらを加算器へ送る。加算器では連続して入って来る
オペランドの組が、第（ｉ−１）列に関するもの、第１
列に関するもの、第（ｉ＋１）列に関するものというよ
うに互いに独立なもののためパイプラインの各段をフル
に用いて加算することができ、加算の後、結果の部分和
が再びレジスタファイルに保持される。

このようにしてｒｎ　ｘ　ｎ組のデータが入力される間
に、ｍ個の積和をパイプライン的に動作する加算器によ
って求めることができる。

〔実施例〕

次に本発明の実施例について図面を参照して説明する。

第２図は本発明の一実施例におけるデータフロープロセ
ッサ１全体の構成を示す内部ブロック図であり、１０は
トークン入力部、１１はリンクテーブル、１２はオペラ
ンドフェッチテーブル、１３はデータメモリ、１４はフ
ァンクションテーブル、１５はバッファキュー、１６は
プロセッシングユニット、１７はトークン出力部であり
、リンクテーブル１１、オペランドフェッチテーブル１
２、データメモリ１３、ファンクションテーブル１４、
バッファキュ−１５、プロセッシングユニット６は、図
に示すようにこの順にパイプライン方式のバスでリング
状に接続されており、トークンはこの内部リングバス上
を転送される。またプロセッシングユニット１６は、算
術計算部２０と、累積加算部２１とが縦列に配置された
ものである。

第３図は第２図のデータフロープロセッサを用いたデー
タ処理装置の一例の全体構成図である。

このデータ処理装置においては複数のデータフロープロ
セッサト・・２と、１つのメモリインタフェース回路３
が外部バス５で結ばれており、外部バス５はメモリイン
タフェース回路３を介してメモリ４と接続されている。

外部バス５上でトークンはハンドシェーク方式により非
同期に転送される。

第４図は第２図のデータフロープロセッサ、および第３
図のデータ処理装置で用いられる、データの単位である
トークンの形式を示す。第４図（ａ）に示す外部バス５
上でのトークン６０はモジュール番号６１、コントロー
ルフラグ６２、リンクテーブルアドレス６３とデータ部
６４からなる。コントロールフラグ６２は、プログラム
実（テの前にリンクテーブル１１などデータフロープロ
セッサ内部のテーブルにプログラムをロードする際に用
いるトークンを処理実行時の実行トークンと区別するた
めに用いる。

トークン入力部１０は前段のデータフロープロセッサま
たはメモリインタフェース回路から入力されるトークン
のうちそのモジュール番号６１が、その装置に与えられ
た番号に等しいもののみを内部へ取り込みリンクテーブ
ル１１へパイプラインサイクルに同期して送り、その他
のトークンは通過トークンとしてそのままトークン出力
部１７へ送る。

ただし、それに対して送出すべきリンクテーブル１１あ
るいはトークン出力部１７がビジー状態である場合には
トークンを送出せず、更に前段のデータフロープロセッ
サまたはメモリインタフェース回路からの入力をハンド
シェークのアルルジ信号を返さないことにより停止する
。

リンクテーブル１１はプロセッシングユニット１６また
はトークン入力部１０からトークンを入力するが、両方
から同時に入力要求があった場合にはトークン入力部ｌ
Ｏからの入力を優先する。リンクテーブル１１はプロセ
ッシングユニット１６またはトークン入力部１０から入
力されたトークン６０のリンクテーブルアドレス６３に
よって参照され、トークンはオペランドフェッチテーブ
ル１２をアクセスするアドレス、ファンクションテーブ
ル１４をアクセスするアドレス及び次回のリンクテーブ
ル１１参照のためのリンクテーブルアドレスを得てオペ
ランドフェッチテーブル１２に送られる。

オペランドフェッチテーブル１２は入カドークン６０の
持つリンクテーブル１１から読出したオペランドフェッ
チテーブルアクセスアドレスによって参照され、そのア
ドレスにある、データメモリ１３の読出し、書込み、デ
ータの２項キュー制御の命令コードの参照と状態管理を
行う情報の参照、更新を行う。これによりトークンはデ
ータメモリ１３のアクセスアドレスとデータメモリ１３
における動作を指定するデータメモリ処理コードを受は
取る。

データメモ１月３は入カドークン６０の持つデータメモ
リアクセスアドレスによってアクセスされ、必要に応じ
て２項演算のデータ同士の待ち合わせのキューとして、
あるいは２項演算のための一方のオペランドデータを一
時格納するためのメモリとして用いられる。例えば予め
外部メモリからデータフロープロセッサに入力したデー
タをデータメモ１月３の順に連続した番地に書き込むこ
とによって保持し、その後演算処理を行う際に２項演算
のための第１オペランド、を持つデータメモリ読出しト
ークンによってデータメモリ１３からその書込んだデー
タを読出し、読出しデータを第２オペランドとしてトー
クンに付加することによりプロセッシングユニット１６
での２項演算に用いることができる。更にデータメモリ
１３の出口で第１オペランドと第２オペランドをデータ
メモリ処理コードに従って交換することができる。

ファンクションテーブル１４では入力されるトークンは
、そのファンクションテーブルアクセスアドレスにより
その内部のテーブルをアクセスする。

これによりプロセッシングユニット６での処理内容を示
す処理コードがトークンに付加される。同時にファンク
ションテーブル１４に保存された内部状態により、流れ
るトークンのリンクテーブルアドレス部が変更されるこ
とにより必要に応じて流れの制御が行われる。また上述
の流れ制御動作の代わりにその内部状態保持部にあるデ
ータを第２オペランドとしてトークンに付加し、ファン
クションテーブル１４の入力時に持っていた第１オペラ
ンドのデータと共にプロセッシングユニット１６へ入力
することができる。なおファンクションテーブル１４で
フェッチされる処理コードは、算術計算部２０での処理
を規定する算術計算部処理コード、累積加算部２１での
処理を規定する累積加算部処理コード、及びプロセッシ
ングユニット１６の処理結果を持つトークンをリンクテ
ーブル１１へ送るかトークン出力部へ送るかを指定する
出力選択コードからなる。

バッファキュー１５は、プロセッシングユニット１６に
トークンを人力する前にトークンを一時保持するための
ＦＴＰＯメモリであり、プロセッシングユニット１６が
トークン入力を停止している際にプロセッシングユニッ
ト１６に対する出力を停止する。バッファキュー１５か
らプロセッシングユニット１６へ送られる際のトークン
の形式を、第４図（ｂ）のトークン６５に示す。トーク
ン６５はコントロールフラグ６９、リンクテーブルアド
レス７０と、処理されるべき第１オペランド７１、第２
オペランド７２を持ち、さらにファンクションテーブル
１４でフェッチした算術計算部処理コード６６、累積加
算部処理コード６７、出力選択コード６８を持っている
。

プロセッシングユニット１６は第１図に示されるように
、算術計算部２０、累積加算部２１が直列に接続される
ことにより構成され、入力されたトークンが独立に動作
するそれらを順に通過する際に、これらのトークンに対
しパイプライン的に作用する。

算術計算部２０はそこへ入力されるトークンの第１オペ
ランドと第２オペランドとの２項演算、あるいは第１オ
ペランドの単項演算を、ファンクションテーブル１４で
フェッチした処理コードのうちの算術計算部処理コード
に従い内部状態を持たずに実行し、結果データを持つト
ークンを信号線１０１を介して累積加算部２１へ出力す
る。演算としては算術演算、論理演算、シフト、比較、
ビット操作などがある。特にトークンの持つデータが浮
動小数点データであり、トークンが浮動小数点乗算を指
示する処理コードを持つ場合には、入力された２つの浮
動小数点データ間の乗算を行い、結果の浮動小数点デー
タを持つトークンを結果トークンとする。なお算術計算
部２０は全体のパイプラインクロックを上げるため、そ
のハードウェアをパイプライン的に動作する複数ステー
ジに分割して構成することも可能である。

累積加算部２１では算術計算部２０から信号線１０１を
介して入力されるトークンの持つ累積加算部処理コード
に従って、そのデータを加算器２２に送ってレジスタフ
ァイル２３から読出したデータと加算を行わせ、あるい
はレジスタファイル２３の中の適当なレジスタにそのイ
直をセットすることができる。

算術計算部２０からの入カドークンは入カドークンレジ
スタ３０に保持され、その内容のうち処理されるべきデ
ータ値が信号線１０２に、その他の制御用のトークン情
報が信号′ｆｔｙＡ１０７に出力される。信号線１０７
上のトークン情報としては、第４図（ｂ）に示すプロセ
ッシングユニソト１６に対する入カドークン６５が持っ
ていたリンクテーブルアドレス７０、コントロールフラ
グ６９、累積加算部処理コード６７、出力選択コード６
８がある。特にそのうち累積加算部処理コード６７には
レジスタファイル２３の書込み制御コード、読出し制御
コード、結果トークン生成制御コードが含まれ、また出
力選択コード６８には、その結果トークンをトークン出
力部１７に対して出力するかリンクテーブル１１に対し
て出力するかのフラグと、トークン出力部１７から外部
パスに出力する際に持つべきモジュール番号が含まれる
。

レジスタファイル２３はｒ個のレジスタからなり、レジ
スタファイル書込み制御部２４からの信号１０９により
信号線１０５上のデータが指定されたレジスタに書込ま
れる。レジスタファイル書込み制御部２４は信号１０７
または信号１０Ｂのレジスタファイル書込み制御コード
で制御され、信号線１０２または１０４から入力される
データの何れかをレジスタファイル２３の内の指定され
たレジスタに信号線１０５を介して書き込む。信号１０
７と信号１０８では信号１０７を優先する。レジスタフ
ァイル読出し制御部２５は信号１０７のレジスタファイ
ル読出し制御コードで制御され、レジスタファイル２３
の各レジスタのうち指定されたレジスタのデータを信号
線１０３への出力とする。

加算器２２は信号線１０２．１０３上の２つの浮動小数
点データに対してパイプライン的に加算動作を行い、同
じフォーマットを持つ結果データを信号線１０４に出力
する。第５図に５段のステージで構成される加算器２２
の一例を示す。この例では扱うデータはＩＥＥＥ７５４
標準規格の浮動小数点フォーマットに準拠しており、各
データの指数部と仮数部を分離した後、各々を内部の５
段のラッチで順に保持しながら演算を進めていく。第５
図中、Ｌで示されるのはパイプラインの各ステージを構
成するためのランチである。以下簡単にその動作を説明
する。２つの入力データは比較選択部１５０で比較され
、信号１５１に２つのデータのうち大きい方の指数部が
、信号１５２にその仮数部が、信号１５３に小さい方の
データの仮数部が、信号１５４に２つの指数部の差の絶
対値が選択出力される。小さい方のデータの仮数部は指
数部の差だけ右シフク１５５で右フシトされ、加算器１
５６でもう一方の仮数部と加算される。その結果の上位
から２進法表現で０の続く数が零敗カウンタ１５７で計
数され、その数だけ仮数の和が左シフタ１５８で左シフ
トされ正規化された演算結果の仮数部が得られる。同時
に同じく零敗カウンタ１５７の出力が加算器１５９で元
の大きい方の指数部に加えられることによって演算結果
の指数部が得られる。なおここでは加０算器２２のパイ
プライン段数は５段の例を示したが、以下では一般的に
８段と仮定して説明する。

遅延回路２６は３個の遅延のためのランチを直列に接続
したものであり、信号線１０７上のトークン情報を、Ｓ
段遅らせることにより加算器２２を通過する演算データ
に同期して結果トークン生成部２５及びレジスタファイ
ル書込み制御部２４に送るために用いられる。

結果トークン生成部２９は信号１０７の結果トークン生
成制御コードで制御され、加算器２２から出力される浮
動小数点形式の結果データ１０４に信号線１０７で送ら
れるトークン情報のうちリンクテーブルアドレス、コン
トロールフラグ、出力選択コートを付加してプロセッシ
ングユニット１６からの出力トークンの形式を整え、指
定されたタイミング゛　　で結果トークンを信号線１１
０へ出力する。

プロセッシングユニット１６からの出力トークンは通常
リンクテーブル１１に送出されるが、そのトークンがデ
ータフロープロセッサ外へ出力されるべきであることを
示す出力選択コードを持つときには、出力選択コード内
にある外部バスのトークンに必要なモジュール番号をそ
のトークンに付加し、トークン出力部１７へ送出する。

ただしトークン出力部１７がビジー状態である場合には
そこへの出力を停止し、プロセッシングユニット１６へ
のバッファキュー１５からの入力も禁止する。

トークン出力部１７はプロセッシングユニット１６また
はトークン入力部１０から入力されたトークンを外部バ
ス５を介して後段のデータフロープロセッサまたはメモ
リインタフェース回路３に対して出力する。ただしプロ
セッシングユニット６及び。

トークン入力部１０の両方から同時にそのリクエストが
あった場合にはトークン入力部１０からの入力を優先し
、プロセッシングユニット６に対し、ビジー状態である
ことを知らせる信号を送ることによってプロセッシング
ユニット１６からのトークンの受付を停止する。また後
段のデータフロープロセッサまたはメモリインタフェー
ス回路がビジー状態でハンドシェークのアクルジ信号を
返さない場合にも、出力を停止し、またプロセッシング
ユニット１６からもトークンの受付を停止する。

以上の実施例で説明したプロセッシングユニットにおい
て、加算器２２を構成するステージ数Ｓ、レジスタファ
イル２３のレジスタ数ｒ、また本発明で扱うべき行列Ａ
とベクトルマの乗算問題においては、その行列Ａのサイ
ズｍ　ｘ　ｎについて、ｒ　≧ｍ≧　Ｓが成立しなければならない。

次に本実施例を用いて例えば先で述べたような行列Ａ（
サイズｍＸｎ）Ｘベクトル要素サイズｎ）の演算処理を
行う場合の動作について説明する。

実施例において加算器２２を構成するステージ数Ｓ−５
、レジスタファイル２３のレジスタ数ｒ−３２とし、ま
たｍについては前述の条件に従ってｍ−３２とする。な
おここではｍ＝ｒであるが、ｍくｒの場合には、レジス
タファイル２３のｒ個のレジスタのうちｍ個だけをＦＩ
ＦＯとして用いるようにアクセスレジスタ選択を行うの
で、全く同様に処理を進められる。

まず演算に先立ってベクトルマの要素ｘ［１］。

ｘ［２］、　　・・、ｘ［ｎ］をデータメモリに設定す
る。

次に処理に用いる行列Ａの要素を持つトークンを外部メ
モリ４からメモリインタフェース回路３を介してデータ
フロープロセッサに次々に入力する。

この際は、ａ［１，１コ、　　　ａ［２，１］、　　　・　・　、
　　　ａ［ｍ、１］。

ａ［Ｌ２］、ａ［２，２］、　　・・、ａ［ｍ、２］。

ａ［１，ｎ］、ａ［２，ｎ］、　　・・、ａ［ｍ、ｎ］
。

の順でｍｘｎ個の行列の要素データが入力されるように
外部メモリ４をアクセスする。

入力されたトークンは１・−クン入力部１０からリンク
テーブル１１に入力され、オペランドフェッチテーブル
１２において、データメモリ１３のベクトル要素を入力
順に、ｘ［１］をｍ回、ｘ［２］をｍ回、・・・、ｘ［ｎ］を
ｍ回というようにアクセスされるように５ｔｉｌｌ　Ｊ卸さ
れる。

これによりプロセッシングユニット１６に入力される際
の２つのオペランドの組は（ａ［１，１］、ｘ［１］）、（ａ［２，１］、ｘ［１
］）。

・・、　　（ａ［ｍ、１］、ｘ［１］）。

（ａ［１，２コ、ｘ［２］）　　、　　（ａ［２，２］
、ｘ［２］）　　。

・・、　　（ａ［ｍ、２］、ｘ［２］）。

（ａ［１，ｎ］、ｘ［ｎ］）、（ａ［２，ｎ］、ｘ［ｎ
］）。

・　・、　　（ａ［ｍ、ｎ］、ｘ［ｎ］）のようになる
。

次いでファンクションテーブル１４において各トークン
はプロセッシングユニット１６における処理内容を指定
する処理コードをフェッチする。処理コードとしては先
に述べたように次のようなものがあり、各々を以下の説
明に用いる二一モニソクの内容とともに示すと次のよう
になる。

１、算術計算部２０における処理を規定するコードｆｍ
ｕｌ　：入力される２つのオペランドの浮動小数点乗算２、累積加算部２１のレジスタファイル書込みの制御コ
ード一〇：信号線１０２上のデータをサイクリックに書込む＆４１：信号線１０４上のデータをサイクリックに書込
む３、累積加算部２１のレジスタファイル続出しの制御コ
ードｒｄｃｙｃ　　：レジスタをサイクリックに読出ず−：
読出さない４、累積加算部２１のトークン生成制御コードｆａｄｄ
　：　トークン生成するー　：出力トークンを生成しない５、出力選択コードｏｕｔ　　：　トークンをトークン出力部１７へ送る一
ニドークンをリンクテーブル１１へ送る。

各トークンについてこの５つのコードの組を順に括弧に
入れて示すとすると、本処理を行うには流れるｍＸｎ個
のトークンについてのコードの組が最初のｍ個について：（ｆ’ｍｕｌＩＷＯ＋−＋　　　−＋　　　−）次のｍ
ｘ　（ｎ　−２）個について：（ｆｍｕｌ、ｗｌ＋ｒｄｃｙｃ＋−＋　　−）最後のｍ
個について：（ｆｍｕｌ、−、ｒｄｃｙｃ、ｆａｄｄ、ｏｕｔ）とな
るようにする。以上によりプロセッシングユニット１６
で演算されるべきデータとそのための処理コードを持つ
トークンがｍ　Ｘ　ｎ個連続して、即ちクロック毎にプ
ロセッシングユニット１６へ流入する。

算術計算部２０では処理を規定するコードが全てのトー
クンについてｆｍｕｌなので入力される２つのオペラン
ドの浮動小数点乗算を行い、それらの積を同じく連続デ
ータとして累積加算部２１へ送る。

以下簡単のためｐ［ｉ、　　　ｊ］＝ａ　口　、　　ｊ　コ　・　ｘ［
ｊ］Ｅすると、算術計算部２０の出力トークンのデータ
は順に、ｐ［１，１］、　　　ｐ［２，１コ、　　・　・　、　
　　ｐ［ｍ、　　　１］。

ｐ［１，２］、ｐ［２，２］、　　・・、ｐ［ｍ、２］
。

ｐ［１，ｎ］、ｐ［２，ｎ］、　　・・＋　　ｐ［ｍ、
ｎ］。

となり、これもクロック毎に連続して累積加算部２１へ
流入する。

累積加算部２１では上記の順で入力されるトークンの処
理コードに従い、ａ）最初のｍ個についてはそのデータをレジスタファイ
ル２３にサイクリックに書込み、ｂ）次のｍｘ　（ｎ　
−２）個についてはレジスタファイル２３からサイクリ
ックに読出したデータと、入力したデータを加算器２３
で加算し、その結果データをレジスタファイル２３にサ
イクリックに占込み、Ｃ）最後のｍ個についてはレジスタファイル２３からサ
イクリックに読出したデータと、入力したデータを加算
器２２で加算し、その結果データを持つトークンを生成
し、プロセッシングユニット６の出力としてトークン出
力部に送出する、という動作を行う。このようにレジス
タファーイル２３を長さｍのＦＩＦＯとして用いること
により、最初のｍ個のトークンはｍクロック遅れ、次の
ｐ［１，２］、　　・・、ｐ［ｍ、２］の列のトークン
と同期して加算器２２へ入力される。その結果の部分和
（第２部分和）は加算器２２内でＳステージ通過するた
めにＳクロック遅れ、その後レジスタファイル２３に一
度書込まれ、（ｍ−ｓ　）クロック後に読出されること
により計量クロック遅れ、次のｐ［１，３］、　　・・
、ｐ［ｍ、３］の列のトークンと同期して加算器２２へ
入力されることとなる。以下これを繰り返すことにより
第ｎ部分和の列が求まり、これを最終結果として結果ト
ークン生成部２９から出力することにより、処理を終了
する。

第６図はこの処理における、累積加算部２１の各部分で
処理されるデータのタイミングの概略を示す。図中、ｐ
ｉ＋ｊとあるのは説明中のｐ［ｉ、ｊ］を示し、またである。従ってｑｉ、ｆｉ＝）’ｉである。さらにとあ
るのはそのタイミングの間にｐｌ＋ｊ　＊　　ｐ２．ｊ
　＋・・＋ｐＨ＋ｊが順に流れたことを意味し、同様に
は加算器２２に２つのオペランドの組とじて（ｐ＋、ｊ
　、　Ｑ＋、Ｊ−＋）、（ｐｇ、ｊ　、　Ｑｚ、Ｊ−＋
）、　・　・。

（ｐ−・ｊ　・　ｑｌＩ・Ｊ−１）を順に入力することを示す。この時は当然加算器２２の
出力はｑＩ＋Ｊ　　＋　　ｑｚ＋Ｊ　ｌ　　　”　　＋　　Ｑ
ｍ＋ａとなる。加算器２２はオペランドの組が入力され
てから結果が出力されるまでＳステップかかるので、そ
の結果を利用するレジスタファイル書込み制御部２４、
結果トークン生成部２９の動作タイミングはＳクロック
遅れる。

〔発明の効果〕

以上説明したように本発明においては、（１）大きなハ
ードウェアを必要とし本来ならば長い処理時間がかかる
浮動小数点の加算を行う専用ハードウェアを用意し、し
かもそれをパイプライン的に動作する複数ステージに分
割して構成している。これにより浮動小数点計算のスル
ープットを向上させ、つまり実効的な演算時間を短縮す
ることができ、さらにプロセッシングユニット・部、さ
らにはデータフロープロセッサ全体の動作パイプライン
サイクルを短縮することが可能になることにより処理性
能が向上される。

（２）さらに浮動小数点の乗算が可能な算術計算部をこ
の加算器と縦列に配置することにより、浮動小数点デー
タのコンボリューションがデータを１度でプロセッシン
グユニットに通すだけで行える。

（３）このようなパイプライン化された加算器を装備し
た場合、従来は積和演算を含む行列×ベクトルマの計算
時にその加算器のステージ数をＳとしてＳｘ（ｎ−１）
ｘｍステップかかっていたが、本発明では第６図が示す
ように約ｍＸｎ＋ｓ　　ステップで終了し、処理の高速化が図れる。これはレジスタファ
イルの利用により加算器の各パイプラインステージをフ
ル稼働させることが可能となったことによる。

という効果があり、これにより数値演算処理の高速化を
図ることができる。

【図面の簡単な説明】

第１図は本発明のプロセッシングユニットの一実施例の
構成を示すブロック図、第２図は第１図のプロセッシングユニットを用いたデー
タフロープロセッサの構成図、第３図は第２図のデータ
フロープロセッサを用いたデータフロー処理装置の例を
示す全体構成図、第４図は本発明の説明に供するトーク
ンの形式第５図は累積加算部内の加算器の構成の一例を
示すブロック図、第６図は累積加算部におけるデータ処理の動作を示すタ
イミングチャート図、第７図は従来のデータフロープロセッサの構成を示す図
である。１６・・・・・プロセッシングユニット２０・・・・・
算術計算部２Ｉ・・・・・累積加算部２２・・・・・加算器２３・・・・・レジスタファイル２４・・・・・レジスタファイル書込み制御部２５・・
・・・レジスタファイル読出し制御部２６・・・・・遅
延回路２９・・・・・結果トークン生成部３０・・・・・入カド−クンレジスタ代理人　弁理士　　岩　佐　　義　幸第１図第３図第４図第５図第７図

Claims

【特許請求の範囲】

（１）内部のメモリ部、演算部を結合するパイプライン
状のバスにデータの単位であるトークンを流し、データ
駆動方式により演算順序をコントロールするデータフロ
ープロセッサのプロセッシングユニットにおいて、前記内部メモリ部から前記バスを介して入力されるコン
トロール情報とオペランドデータを持つトークン上の２
つのオペランドデータの演算を行い、結果データを持つ
トークンを出力する算術計算部と、前記算術計算部の出力トークン上の結果データ、及び、
加算の途中結果を一時保持する複数のレジスタからなる
レジスタファイルと、前記算術計算部の出力トークン上の結果データと前記レ
ジスタファイルから読出したデータとの演算を行い、結
果を前記レジスタファイルに送る加算器と、前記算術計算部の出力トークン上のコントロール情報を
前記加算器を通過するデータと同期させるための遅延回
路と、前記加算器の結果出力データと前記遅延回路から得られ
るコントロール情報とから演算結果データを持つトーク
ンを生成する結果トークン生成部と、からなることを特徴とするプロセッシングユニット。