JPH11296498A

JPH11296498A - 並列演算処理装置

Info

Publication number: JPH11296498A
Application number: JP10101321A
Authority: JP
Inventors: Yoshikazu Kondo; 由和近藤
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1998-04-13
Filing date: 1998-04-13
Publication date: 1999-10-29

Abstract

(57)【要約】【課題】過去のプログラムの再利用を可能にしかつ縮
約演算性能を改善する並列演算処理装置を提供する。【解決手段】複数の演算ユニット（♯０〜♯Ｎ−１）
それぞれにおいてマスクレジスタ（４１）を設け、この
マスクレジスタ出力に従ってレジスタ群２１の書込の禁
止／許可を制御し、かつセレクタ４３の接続経路を制御
してレジスタ群２１および入力ポート２３の一方を出力
ポート２４に結合する。プログラムに応じて動作可能な
演算ユニットの数を設定することができ、過去のプログ
ラムの再利用が可能となりかつ縮約演算の高速実行が可
能となる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、複数の演算ユニ
ットが並列に動作する並列演算処理装置に関し、特に、
単一命令で複数組のデータを並列に処理するＳＩＭＤ
（シングル・インストラクション・マルチ・データ・ス
トリーム）型並列演算処理装置に関する。より特定的に
は、ＳＩＭＤ型並列演算処理装置における、プログラム
の再利用性および演算実行速度を改善するための演算ユ
ニットの構成およびその制御方法に関する。

【０００２】

【従来の技術】近年のマルチメディア技術およびニュー
ラルネットワーク技術の進展に伴って、ＳＩＭＤ（単一
命令・多重データストリーム）方式の並列プロセッサが
注目されている。このＳＩＭＤ方式の並列演算処理装置
（プロセッサ）は、複数の演算ユニットに個々のデータ
群を格納し、これらの複数の演算ユニットに共通の命令
を与えて並列に動作させて、単一命令で複数のデータ群
（多重データストリーム）を並列に処理する。特に、こ
のＳＩＭＤ方式の並列演算処理装置は、行列とベクトル
の乗算を行なう行列−ベクトル乗算、ベクトル同士の演
算を行なうベクトル−ベクトル演算など、画像、文字、
および音声処理システムなどで多用される演算構造を効
率的に実現することが可能である。

【０００３】図３０は、従来の並列演算処理装置の構成
を示す図であり、たとえば米国特許第５１７５８５８号
などに示されている。図３０において、従来の並列演算
処理装置は、命令ブロードキャストバス３０に共通に接
続される複数（Ｎ個）の演算ユニット♯０〜♯Ｎ−１を
含む。これらの演算ユニット♯０〜♯Ｎ−１の各々は、
同じ構成を有し、複数のレジスタ２１ａを有するレジス
タ群２１と、複数の演算器２２ａおよび２２ｂを含む演
算器群２２と、データを入力するための内部入力ポート
２３と、データを出力するための内部出力ポート２４を
含む。これらのポート２３および２４は、演算ユニット
間でのデータ通信のために用いられる。演算ユニット♯
０〜♯Ｎ−１の内部入力ポート２３および内部出力ポー
ト２４は、環状通信路３２を介してリング状のデータ通
信経路を形成するように相互接続される。すなわち、演
算ユニット♯Ｎ−ｉの内部出力ポート２４は、隣接する
演算ユニット♯Ｎ−ｉ−１の内部入力ポート２３に接続
される。この環状通信路３２により、演算ユニット♯０
〜♯Ｎ−１は、順次データを転送することができる。

【０００４】命令ブロードキャストバス３０を介して単
一命令３１が共通に演算ユニット♯０〜♯Ｎ−１へ与え
られる。演算ユニット♯０〜♯Ｎ−１の各々は、この与
えられた単一命令３１に従って、レジスタ群２１のレジ
スタと演算器群２２の演算器との接続経路を図示しない
制御器により決定し、この与えられた単一命令３１に従
って指定された数値演算を実行する。演算ユニット♯０
〜♯Ｎ−１がそれぞれレジスタ群２１または図示しない
ローカルメモリにデータを格納することにより、単一命
令で複数のデータストリームに対する演算を並列に実行
する単一命令・多重データ制御が実現される。

【０００５】たとえば、演算ユニット♯０〜♯Ｎ−１そ
れぞれに、行列式の各行ベクトルの要素を格納し、この
環状通信路３２を介して別の列ベクトルの構成要素を順
次与えることにより、行列−ベクトル乗算を高速で行な
うことができることが、たとえばＳ，Ｙ，ＫＵＮＧ等の
「人工神経回路網のための並列アーキテクチャ」、ＩＥ
ＥＥインターナショナル・カンファレンス・オン・ニュ
ーラル・ネットワーク（神経回路網国際会議）、１９８
８年７月の第２巻、第１６５頁から第１７２頁において
述べられている。

【０００６】

【発明が解決しようとする課題】この図３０に示すよう
なＳＩＭＤ型並列演算処理装置を用いた場合、画像、文
字、および音声処理システムなどで多用される行列−ベ
クトル乗算、およびベクトル−ベクトル演算などの演算
構造を効率的に実現することが可能である。

【０００７】ＬＳＩプロセス技術の進展に伴って、素子
の微細化が進み、１つの半導体チップ（シリコンチッ
プ）上に集積化できる演算ユニットの数が、年々増加し
ている。しかしながら、半導体チップ上で実行されるべ
きプログラムは、半導体チップ上に形成された演算ユニ
ットの特定の個数を想定して作成されている。たとえ
ば、行列−ベクトル乗算において、１つの演算ユニット
において行なわれる積和演算について考えてみる。この
場合、以下のようなプログラムが、たとえば作成され
る。

【０００８】１Ｉ＝１２ＭＵＬＴＩＡＣＣＵＭＲＩ，Ｒ２→Ｒ３３Ｉ＝Ｉ＋１４ＩＦＩ＜Ｎ，ＴＨＥＮＧＯＴＯ２５ＥＮＤステップ２の処理は、レジスタＲ１およびＲ２に格納さ
れたデータを乗算し、その乗算結果をレジスタＲ３に累
算する処理を示す。この場合、Ｎ行Ｎ列の行列とＮ項ベ
クトルの乗算が演算ユニット♯０〜♯Ｎ−１において行
なわれる。演算ユニット♯０〜♯Ｎ−１の各々は、この
乗算結果のＮ項ベクトルの各項の値を計算する。

【０００９】このプログラムは、Ｎ個の演算ユニット♯
０〜♯Ｎ−１を想定して作成されており、半導体チップ
上に形成される演算ユニットの数が増加した場合、この
プログラムは、そのまま利用することはできない。Ｎ個
の演算ユニットを選択的に動作させることはできないた
めである。ＳＩＭＤ型並列処理装置用のプログラムにお
いては、このような演算ユニットの数の増加に応じて内
容を書換えるのが一般に困難であり、過去に作成したプ
ログラムを再利用するのが困難であるという問題があっ
た。

【００１０】また、この図３０に示す環状通信路３２を
介して演算ユニット♯０〜♯Ｎ−１をリング状に相互接
続する場合、演算サイクルを規定する１クロックサイク
ルにおいては、隣接演算ユニット間においてのみデータ
の転送が行なわれる。たとえば、演算ユニット♯０〜♯
Ｎ−１に分散配置されたベクトル要素Ｖ＝｛ｖ［０］，
ｖ［１］，…，ｖ［Ｎ−１］｝の総和を求める演算Σｖ
［ｊ］を考える。１クロックサイクルにおいては、２つ
の隣接演算ユニット間でのデータ通信のみが行なわれ
る。したがって、１つの演算ユニット♯ｋ（ｋ＝０〜Ｎ
−１）に、ベクトルＶのすべてのベクトル要素ｖ［０］
〜ｖ［Ｎ−１］を供給するためには、最低でも、Ｎクロ
ックサイクルが必要となる。したがって、演算ユニット
に分散配置されたデータを１つのスカラー量に縮約する
形の演算（縮約演算）を高速で実行することができず、
十分な性能を得ることができないという問題があった。

【００１１】それゆえ、この発明の目的は、プログラム
の再利用可能性および縮約演算性能を改善することので
きる並列演算処理装置を提供することである。

【００１２】この発明の他の目的は、構成要素である演
算ユニットの数を等価的に容易に増減することのできる
並列演算処理装置を提供することである。

【００１３】

【課題を解決するための手段】この発明に係る並列演算
処理装置は、複数の演算ユニットそれぞれにおいて、マ
スクデータに従って通信線路を介してのデータ転送をバ
イパスさせる。もしくは、このデータ転送バイパス時、
対応の演算ユニットにおける演算動作を停止させる。

【００１４】すなわち、請求項１に係る並列演算処理装
置は、共通バスに並列に結合され、この共通バスを介し
て共通に供給される命令に従って並列に動作しかつ所定
の順序で通信線路を介して接続される複数の演算ユニッ
トを備える。これら複数の演算ユニットの各々は、デー
タを入力するための内部入力ポートと、データを出力す
るための内部出力ポートと、マスクデータを格納するた
めのマスクレジスタと、このマスクレジスタに結合さ
れ、マスクデータに従って内部入力ポートと内部出力ポ
ートとを接続して該対応の演算ユニットを通信線路を介
してのデータ転送時バイパスさせるためのユニットバイ
パス手段を含む。

【００１５】請求項２に係る並列演算処理装置は、請求
項１の複数の演算ユニットの各々が、少なくとも内部入
力ポートに結合され、与えられたデータを格納するため
の記憶手段と、この記憶手段に結合され、命令が指示す
る演算処理を行ない、該演算処理結果を記憶部に格納す
る演算手段と、マスクレジスタに結合され、このマスク
データに従って記憶手段に対する書込動作を選択的に禁
止する書込マスク手段を含む。

【００１６】請求項３に係る並列演算処理装置は、請求
項２の記憶手段が複数のデータレジスタを含み、書込マ
スク手段は、マスクデータが書込マスクを指示するとき
複数のデータレジスタに対するデータ書込を一括して禁
止する書込マスク回路を備える。

【００１７】請求項４に係る並列演算処理装置は、請求
項３のユニットバイパス手段が、マスクレジスタのマス
クデータに従って内部入力ポートおよび記憶手段の一方
を内部出力ポートに選択的に接続するための選択器を備
える。

【００１８】請求項５に係る並列演算処理装置は、請求
項３の複数の演算ユニットが同一半導体チップ上に形成
され、かつさらに、複数の演算ユニットに含まれる第１
の演算ユニットとこの第１の演算ユニットと通信線路を
介してのデータ転送方向において隣接する第２の演算ユ
ニットとの間に設けられ、第１の演算ユニットの内部出
力ポートと半導体チップ上に設けられ、該半導体チップ
外部から与えられるデータを受ける外部データ入力ポー
トの一方を選択的に第２の演算ユニットの内部入力ポー
トに結合する手段をさらに備える。

【００１９】請求項６に係る並列演算処理装置は、請求
項５の装置が、さらに、半導体チップ上に形成され、与
えられたデータをこの半導体チップ外部へ出力するため
の外部データ出力ポートと、第１の演算ユニットの内部
出力ポートと外部データ入力ポートの出力の一方を外部
データ出力ポートの入力へ結合するチップバイパス手段
を備える。

【００２０】請求項７に係る並列演算処理装置は、請求
項６のチップバイパス手段が、第１の演算ユニットの内
部出力ポートに結合される第１の入力と、外部データ入
力ポートの出力に結合される第２の入力と、出力とを有
する選択器と、複数の演算ユニットのマスクレジスタに
格納されたマスクデータを並列に受け、これらの受けた
マスクデータに従って選択器の接続態様を決定する制御
回路を含む。

【００２１】請求項８に係る並列演算処理装置は、請求
項１から７の演算ユニットの各々が、さらに、マスクレ
ジスタに結合され、この演算ユニットの演算処理の進行
に従ってマスクレジスタのマスクデータを更新するため
のマスクデータ更新手段を備える。

【００２２】請求項９に係る並列演算処理装置は、請求
項８のマスクデータ更新手段が、対応の演算ユニットに
割当てられる演算ユニット特定番号を表わすデータを格
納し、該格納した番号データに基づいてマスクデータを
更新する手段を含む。

【００２３】請求項１０に係る並列演算処理装置は、請
求項１の複数の演算ユニットの各々が、さらに、マスク
レジスタのマスクデータに従って、命令による演算処理
動作を停止させる手段を含む。

【００２４】マスクデータに従ってデータ転送時、対応
の演算ユニットをバイパスすることにより、１クロック
サイクルで、複数の演算ユニットにわたってデータを転
送することができ、縮約演算の高速化を実現することが
できる。また、このマスクデータに従って対応の演算ユ
ニットをバイパスすることにより、並列演算処理装置に
含まれる演算ユニットの数を低減することができ、過去
の小規模の並列演算処理装置に対して作成されたプログ
ラムを利用することができる。

【００２５】

【発明の実施の形態】［実施の形態１］図１は、この発
明の実施の形態１に従う並列演算処理装置の全体の構成
を概略的に示す図である。図１において、並列演算処理
装置１は、命令ブロードキャストバス３０を介して与え
られる単一命令３１に従って並列に動作する複数の演算
ユニット♯０〜♯Ｎ−１を含む。これらの演算ユニット
♯０〜♯Ｎ−１は、同じ構成を備え、複数のレジスタ２
１ａを有するレジスタ群２１と、このレジスタ群２１の
レジスタに選択的に結合され、命令３１により指定され
た演算処理を行なう演算器群２２を含む。この演算器群
２２は、複数の演算器２２ａおよび２２ｂを含む。演算
器群２２は、比較器、加減算器、乗算器、および算術論
理演算器を含む。図１においては、演算器群２２におい
ては、算術論理演算器２２ａおよび２２ｂを代表的に示
す。

【００２６】演算ユニット♯０〜♯Ｎ−１の各々は、さ
らに、命令ブロードキャストバス３０を介して与えられ
る単一命令３１に従って、この命令３１の実行に必要な
制御を行なうコントローラ４０と、マスクデータを格納
するマスクレジスタ４１と、このマスクレジスタ４１に
格納されたマスクデータに従ってレジスタ群２１のレジ
スタ２１ａに対するデータ書込をマスクする（禁止す
る）書込マスク回路４２と、マスクレジスタ４１に格納
されるマスクデータに従って、内部入力ポート２３およ
びレジスタ群２１の一方を選択して内部出力ポート２４
に結合するバイパス用セレクタ４３を含む。このバイパ
ス用セレクタ４３は、マスクレジスタ４１のマスクデー
タがデータ書込のマスクを指示するとき内部入力ポート
２３を内部出力ポート２４に結合する。

【００２７】したがって、演算ユニット♯ｋ（ｋ＝０〜
Ｎ−１）においてマスクレジスタ４１のマスクデータ
が、マスクを指示するとき、内部入力ポート２３は、バ
イパス用セレクタ４３を介して内部出力ポート２４に結
合され、レジスタ群２１は、内部出力ポート２４から切
り離される。またこのとき、書込マスク回路４２によ
り、レジスタ群２１のレジスタ２１ａへのデータの書込
が禁止される。したがって、この状態においては、演算
ユニット♯ｉは、データ転送においてバイパスされるこ
とになり、また演算は実効的に行なわれなくなるため
（内部状態の更新が禁止される）、この並列演算処理装
置１から等価的に削除されたことになる。これにより、
マスクレジスタ４１のマスクデータにより、並列演算処
理装置１に含まれる演算ユニットの実効的な数を増減す
ることができる。

【００２８】演算ユニット♯０〜♯Ｎ−１には、演算サ
イクルを規定するクロック信号ＣＬＫが共通に与えられ
る。このクロック信号ＣＬＫは、外部から与えられるク
ロック信号であってもよく、また外部からのクロック信
号に従って並列演算処理装置１内部で生成されるクロッ
ク信号であってもよい。クロック信号ＣＬＫに同期し
て、演算ユニット♯０〜♯Ｎ−１において演算が開始さ
れ、また隣接演算ユニット間でのデータ転送もこのクロ
ック信号ＣＬＫに同期して行なわれる。クロック信号Ｃ
ＬＫの１クロックサイクル内で、隣接演算ユニット間で
データ転送を行なう場合、このデータ転送時演算ユニッ
トをマスクデータによりバイパスすることにより、１ク
ロックサイクル内において、より遠くの演算ユニットに
データを転送することができる。

【００２９】なお、この並列演算処理装置１において
は、演算ユニット♯０〜♯Ｎ−１は、環状通信路３２を
介してリング状に相互接続される。すなわち隣接演算ユ
ニットにおいて内部データ出力ポートがデータ転送方向
において次段の演算ユニットの内部データ入力ポートに
結合され、またその内部データ入力ポートが、データ転
送方向において前段の演算ユニットの内部データ出力ポ
ートに結合される。ここで、内部データ入力ポート２３
および内部データ出力ポート２４は、ポートとしての機
能を備えており、クロック信号ＣＬＫに同期したデータ
の入出力を行なう機能を備えていてもよく、また単に与
えられたデータ信号をバッファ処理して出力するバッフ
ァ回路の構成を備えていてもよい。

【００３０】図２は、この発明の実施の形態１に従う並
列演算処理装置に含まれる演算ユニットの構成をより詳
細に示す図である。図２において、演算ユニット♯Ｈの
レジスタ群２１は、一例として４つのレジスタ２１ａ〜
２１ｄを含む。書込マスク回路４２は、これらのレジス
タ２１ａ〜２１ｄそれぞれに対応して設けられ、それぞ
れの第１の入力に対応のレジスタに対するクロック信号
４５ａ〜４５ｄを受け、第２の入力にマスクレジスタ４
１に格納されたマスクデータを受けるＡＮＤ回路４６ａ
〜４６ｄを含む。制御クロック信号４５ａ〜４５ｄは、
図１に示すコントローラ４０から発生され、データ書込
を行なうレジスタに対する制御クロック信号が活性状態
となり、レジスタ２１ａ〜２１ｄの各々は、与えられる
制御クロック信号が活性状態のとき与えられたデータを
格納する。

【００３１】マスクレジスタ４１に格納されたマスクデ
ータが、この書込マスク回路４２に含まれるマスク制御
用ＡＮＤ回路４６ａ〜４６ｄに共通に与えられる。マス
クレジスタ４１に格納されたマスクデータが、Ｌレベル
にあり、データ書込を禁止することを示すときには、Ａ
ＮＤ回路４６ａ〜４６ｄの出力する制御クロック信号は
すべてＬレベルの非活性状態となり、レジスタ群２１に
含まれるレジスタ２１ａ〜２１ｄに対するデータ書込は
行なわれない。

【００３２】バイパス用セレクタ４３は、内部入力ポー
ト２３に結合される入力Ａとレジスタ群２１に結合され
る入力Ｂとを有し、マスクレジスタ４１に格納されたマ
スクデータに従って、この入力ＡおよびＢの一方を内部
出力ポート２４に結合する。このレジスタ群２１から延
びてバイパス用セレクタ４３の入力Ｂに結合する内部バ
スは、レジスタ群２１に含まれるレジスタ２１ａ〜２１
ｄに共通に結合され、これらのレジスタ２１ａ〜２１ｄ
から与えられたデータを伝達する。

【００３３】マスクレジスタ４１に格納されたマスクデ
ータがＬレベルにあり、データ書込をマスクするときに
は、このバイパス用セレクタ４３は、入力Ａを選択して
内部出力ポート２４に結合する。この状態においては、
内部入力ポート２３が内部出力ポート２４に結合され
る。

【００３４】図３（Ａ）および（Ｂ）は、１つの演算ユ
ニット♯Ｈにおけるマスクデータと内部データバスの接
続との対応関係を概略的に示す図である。

【００３５】図３（Ａ）に示すように、マスクレジスタ
４１に格納されたマスクデータがＬレベルにあり、書込
マスクを指示するときには、内部入力ポート２３は、内
部出力ポート２４に結合される。内部出力ポート２４
は、レジスタ群２１および演算器群２２から切り離され
る。また、レジスタ群２１へのデータの書込は、このマ
スクレジスタ４１に格納されたＬレベルのマスクデータ
により禁止される。したがって、この演算ユニット♯Ｈ
においては、レジスタ群２１への、演算器群２２の演算
結果の格納および伝達されたデータの格納は禁止される
ため、並列演算処理装置においてこの演算ユニット♯Ｈ
は、この並列演算処理装置から等価的に取除かれたこと
になる（演算ユニット♯Ｈは、状態更新を行なわずマス
ク前の状態を維持する）。

【００３６】一方、図３（Ｂ）に示すように、マスクレ
ジスタ４１に格納されたマスクデータがＨレベルであ
り、書込マスクを指示していない場合においては、内部
入力ポート２３はレジスタ群２１および演算器群２２に
結合され、またレジスタ群２１は、内部出力ポート２４
に結合される。内部入力ポート２３は内部出力ポート２
４から切り離される。内部入力ポート２３に伝達された
データの伝達先は、図１に示すコントローラ４０により
決定される。またレジスタ群２１に含まれるレジスタと
演算器群２２に含まれる演算器との結合も、図１に示す
コントローラ４０により決定される。

【００３７】この図３（Ｂ）に示す状態においては、演
算器群２２は、与えられた命令に従ってコントローラ４
０の制御の下に演算を行ない、その処理結果がレジスタ
群２１に含まれるレジスタに格納され、データ転送時こ
のレジスタ群２１に含まれるレジスタに格納されたデー
タが内部出力ポート２４に伝達される。したがって、こ
の図３（Ｂ）に示す状態においては、演算ユニット♯Ｈ
は、並列演算処理装置内において、割当てられた処理を
実行する。

【００３８】図２に示すように、書込マスク回路４２に
より、レジスタ群２１のレジスタ２１ａ〜２１ｄに対す
るデータ書込を一括して制御することにより、演算ユニ
ットの動作を、このマスクレジスタ４１に格納されたマ
スクデータで修飾し、複数の演算ユニットのうち特定の
演算ユニットのみを動作させることが可能となる。言い
換えると、マスクレジスタ４１に格納されたマスクデー
タがＬレベルであり、書込マスク状態を指示していると
きには、内部入力ポート２３に与えられたデータが演算
処理されることなく、内部出力ポート２４へバイパスさ
れる。

【００３９】図４（Ａ）は、並列演算処理装置における
マスクデータによるデータ伝搬経路設定の一例を示す図
である。図４（Ａ）において、並列演算処理装置１は、
８個の演算ユニット♯０〜♯７を含む。演算ユニット♯
０、♯２、♯４および♯６においては、マスクデータが
Ｈレベルに設定され、レジスタ群２１へのデータ書込は
許可される。一方、演算ユニット♯１、♯３、♯５およ
び♯７においては、マスクデータがＬレベルに設定さ
れ、書込マスク指示状態に設定され、レジスタ群２１に
対するデータの書込が禁止される。

【００４０】このマスクデータの値に従って、演算ユニ
ット♯０〜♯７それぞれにおいて、バイパス用セレクタ
４３の接続形態が決定される。演算ユニット♯０、♯
２、♯４および♯６においては、バイパス用セレクタ４
３は、レジスタ群２１を対応の内部出力ポート２４に結
合し、内部入力ポートは、内部出力ポートから切り離さ
れる。一方、演算ユニット♯１、♯３、♯５および♯７
においては、バイパス用セレクタ４３は、内部入力ポー
ト２３を内部出力ポート２４に結合する。これらの演算
ユニット♯１、♯３、♯５および♯７においては、内部
出力ポート２４は、レジスタ群２１から切り離される。

【００４１】図４（Ｂ）は、図４（Ａ）に示す並列演算
処理装置の等価的構成を概略的に示す図である。演算ユ
ニット♯１、♯３、♯５および♯７においては、内部入
力ポート２３に与えられたデータは、そのまま、内部で
論理演算処理されずに、内部出力ポート２４へ伝達され
る。これらの演算ユニット♯１、♯３、♯５および♯７
は、データ伝達時においてバイパスされる。したがっ
て、図４（Ｂ）に示すように、環状通信路３２において
演算ユニット♯１、♯３、♯５および♯７がバイパスさ
れ、この並列演算処理装置１は、演算ユニット♯０、♯
２、♯４および♯６を含む並列演算処理装置と等価な構
成となる。

【００４２】このマスクレジスタ４１に格納されるマス
クデータの値に従って、実際に演算処理を行なう演算ユ
ニットの数を増減することができる。すなわち、あるＳ
ＩＭＤ並列プロセッサに対して作成されたプログラム
を、より多くの演算ユニットを含む別のＳＩＭＤ並列演
算処理ユニットで再利用することができる。すなわち、
多くの演算ユニットを含むＳＩＭＤ並列演算処理装置に
おいて、プログラムが想定している演算ユニットの数だ
けマスクレジスタに書込許可を示す“Ｈ”のマスクデー
タを書込むことにより、そのプログラムが想定する個数
の演算ユニットで構成されるＳＩＭＤ並列演算処理装置
を実現できる。

【００４３】一般に、プロセス技術の進展に伴って、単
一システム（半導体チップ）上に搭載することのできる
演算ユニットの数は増加する傾向にある。したがって、
マスクレジスタの内容の書換だけでプログラムを再利用
することのできる性質は、資産継承の面からも特に重要
な利点を与える。

【００４４】また、このマスクデータにより、演算ユニ
ットをバイパスする構成を用いることにより、以下に説
明するように、分散配置されたデータの縮約（リダクシ
ョン）演算の性能を改善することができる。

【００４５】図５に、従来のバイパス機能を有しない８
個の演算ユニット♯０〜♯７が環状通信路３２を介して
相互接続される構成を比較のために示す。演算ユニット
♯０〜♯７それぞれにおいては、以下の演算が行なわれ
る。演算器群２２に含まれる加算器５２により、レジス
タｖに格納されたデータとレジスタｒに格納されたデー
タの加算を行ない、その加算結果が再びレジスタｒに格
納される。レジスタｖおよびｒは、先の図３０に示すレ
ジスタ群２１に含まれる。従来の構成において、演算ユ
ニット♯０〜♯７それぞれにおいて、レジスタｖは、内
部入力ポート２３に結合され、また内部出力ポート２４
にも結合される。

【００４６】演算ユニット♯０〜♯７それぞれにおいて
は、ベクトルＶの要素ｖ［０］〜ｖ［７］がそれぞれレ
ジスタｖに格納される。次に、この図５（Ａ）に示す並
列演算処理装置における縮約演算ベクトル要素の総和を
求める演算について、図５（Ｂ）および図６を参照して
説明する。

【００４７】クロック信号ＣＬＫのクロックサイクル０
の初期状態においては、先に説明したように、演算ユニ
ット♯０〜♯７のレジスタｖ（演算ユニットｉのレジス
タｖをｖ［♯ｉ］で示す）においては、ベクトル要素ｖ
［０］〜ｖ［７］が格納される。この状態において、レ
ジスタｒは加算前であり、“０”が格納される。

【００４８】クロックサイクル１において、演算ユニッ
ト♯０〜♯７それぞれにおいてレジスタｖに格納された
データｖ［０］〜ｖ［７］が、環状通信路３２において
後段の隣接する演算ユニットに転送される。したがっ
て、クロックサイクル１においては、演算ユニット♯０
〜♯７のレジスタｖ［♯０］〜ｖ［♯７］においては、
データｖ［１］〜ｖ［７］およびｖ［０］それぞれが格
納される。このクロックサイクル１において、このデー
タ転送前に、加算器５２が、レジスタｖおよびｒに格納
されたデータの加算を行ない、その加算結果をレジスタ
ｒに格納する。したがって、演算ユニット♯０〜♯７の
レジスタｒ［♯０］〜ｒ［♯７］においては、図６に示
すようにそれぞれレジスタｖ［♯０］〜ｖ［♯７］に格
納されたデータｖ［０］〜ｖ［７］が格納される。

【００４９】クロックサイクル２において、再び、加算
器５２により、レジスタｖに格納されたデータとレジス
タｒに格納されたデータの加算が行なわれ、その加算結
果がレジスタｒに格納され、またレジスタｖに格納され
たデータが次段の演算ユニットに転送される。したがっ
てクロックサイクル２においては、図６に示すように演
算ユニット♯０〜♯７それぞれにおいては、２つのベク
トル要素の加算値がレジスタｒに格納される。

【００５０】１クロックサイクルにおいて、次段の演算
ユニットへのデータ転送および加算操作が行なわれるた
め、クロックサイクル３、４、５、６、７および８それ
ぞれにおいて、演算データ転送が行なわれ、クロックサ
イクル８では演算ユニット♯０〜♯７において、図６に
示すようにベクトルＶの要素ｖ［０］〜ｖ［７］の総和
値がレジスタｒ［♯０］〜ｒ［♯７］にそれぞれ格納さ
れる。レジスタｖ［♯０］〜ｖ［♯７］においては、図
５（Ｂ）に示すようにそれぞれ初期状態と同じデータが
格納される。

【００５１】すなわち、８つの演算ユニット♯０〜♯７
に分散配置されたベクトル要素ｖ［０］〜ｖ［７］の総
和を求める縮約演算においては、１クロックサイクル
で、単に次段の演算ユニットのデータ転送のみが行なわ
れるため、８項の総和演算を行なうために、演算ユニッ
ト♯０〜♯７を介して順次データを転送させる必要があ
るため、最低８クロックサイクルが必要とされる。

【００５２】また、図６に示すように、演算ユニット♯
０〜♯７のレジスタｒ［♯０］〜ｒ［♯７］において
は、クロックサイクル８においては、ベクトル要素ｖ
［０］〜ｖ［７］の総和値が格納されており、すべて同
じ値が格納されている。したがって、単に、ベクトル要
素ｖ［０］〜ｖ［７］の総和を求めるだけであれば、必
要以上の数の演算ユニットが動作して、同じ値を求める
演算を行なっており、演算効率が悪いという問題があ
る。

【００５３】図７（Ａ）−（Ｃ）は、この発明に従う並
列演算処理装置を用いて、この図５（Ａ）および（Ｂ）
ならびに図６に示す縮約演算を行なう場合の動作を説明
するための図である。図７（Ａ）および（Ｂ）において
は、初期状態の並列演算処理装置の状態が示される。

【００５４】図７（Ａ）に示すように、並列演算処理装
置は、８個の演算ユニット♯０〜♯７を含む。これらの
演算ユニット♯０〜♯７の各々は、レジスタｒ［♯０］
〜ｒ［♯７］と、入力ポート２３とレジスタｒの出力に
結合されて、加算を行ない、加算結果をレジスタｒに格
納する加算器５２を含む。内部出力ポート２４は、バイ
パス用セレクタ４３を介してレジスタｒおよび内部入力
ポート２３に結合される。このバイパス用セレクタ４３
の接続態様は、対応のマスクレジスタ４１に格納された
マスクデータにより決定される。初期状態においては、
まず演算ユニット♯０〜♯７のレジスタｒ［♯０］〜ｒ
［♯７］においては、ベクトル要素ｖ［０］〜ｖ［７］
が格納される。このデータの初期設定の動作において
は、単に内部入力ポートをレジスタｒに接続し、このレ
ジスタｒと加算器５２とを切り離し、レジスタの記憶内
容を順次環状通信路３２を介して演算ユニット間を伝達
させることにより、このデータの初期設定が行なわれれ
ばよい。マスクレジスタ４１に格納されたマスクデータ
は、すべて“Ｈ”の状態に設定され、バイパス用セレク
タ４３は、内部出力ポート２４をレジスタｒに結合し、
内部入力ポート２３は、対応の内部出力ポート２４から
切り離される。

【００５５】今、図７（Ｃ）に示すように、クロック信
号ＣＬＫの半サイクルにおいて演算ユニット間でのデー
タ転送が行なわれ、クロック信号ＣＬＫの残りの半周期
で加算器５２による加算操作および対応のレジスタｒへ
の加算結果の格納が行なわれるとする。

【００５６】図７（Ａ）に示す状態で、データ転送を行
ない、加算およびラッチを行なうと、図８（Ｂ）に示す
ように、演算ユニット♯０〜♯７のレジスタｒ［♯０］
〜ｒ［♯７］においてそれぞれ２項データの加算値が格
納される。このレジスタｒへのデータのラッチ後、マス
クレジスタ４１のマスクデータを変更する。すなわち、
図８（Ａ）に示すように、演算ユニット♯１、♯３、♯
５および♯７のマスクデータをＬレベルに設定し、レジ
スタ書込禁止状態とし、かつ内部入力ポート２３を対応
の内部出力ポート２４に結合する。したがって、この状
態においては、次のクロックサイクル２において、デー
タ転送が行なわれるとき、演算ユニット♯１、♯３、♯
５および♯７はバイパスされる。

【００５７】クロックサイクル２においては、図８
（Ａ）に示す状態においてデータ転送が行なわれる。す
なわち、演算ユニット♯１、♯３、♯５および♯７はバ
イパスされ、またこれらの演算ユニットにおけるレジス
タｒへの書込も禁止される。したがって、演算ユニット
♯６、♯４、♯２および♯０の４つの演算ユニットの間
でデータ転送が行なわれ、加算が行なわれた後、レジス
タｒに格納される。したがって、図９（Ｂ）に示すよう
に、演算ユニット♯０、♯２、♯４および♯６のレジス
タｒにおいて、４項のデータの加算値が格納され、演算
ユニット♯１、♯３、♯５および♯７のレジスタｒの内
容は変化しない。このクロックサイクル２の終了時にお
いて、マスクデータがまた更新され、演算ユニット♯０
および♯４のマスクデータのみがＨレベルに設定され、
残りの演算ユニット♯１、♯２、♯３、♯５、♯６およ
び♯７のマスクデータはＬレベルに設定される。したが
って、図９（Ａ）に示すように、この並列演算処理装置
は、演算ユニット♯０および♯４の２つの演算ユニット
で構成される並列演算処理装置と等価となる。

【００５８】クロックサイクル３においては、図９
（Ａ）に示す状態でデータ転送が行なわれる。この場合
においては、演算ユニット♯０および♯４の間でデータ
転送が行なわれて、加算操作が行なわれる。したがっ
て、クロックサイクル３において、演算ユニット♯０お
よび♯４のレジスタｒ［♯０］およびｒ［♯４］におい
ては、８項のベクトル要素の総和Σｒ［♯ｋ］が格納さ
れる（図１０（Ｂ）参照）。このクロックサイクル２終
了時において、図１０（Ａ）に示すように、再度マスク
データの更新が行なわれ、演算ユニット♯０のマスクデ
ータがＨレベルとなり、残りの演算ユニット♯１〜♯７
のマスクデータがＬレベルとなり、演算ユニット♯１〜
♯７はバイパス状態となり、また対応のレジスタｒへの
書込が禁止される。この演算ユニット♯０のレジスタｒ
に格納されたデータを環状通信路３２を介して図示しな
い制御部へ転送することにより、縮約演算結果を利用す
ることができる。

【００５９】上述のように、マスクデータを“ＨＨＨＨ
ＨＨＨＨ”→“ＬＨＬＨＬＨＬＨ”→“ＬＬＬＨＬＬＬ
Ｈ”と変化させながら各クロックサイクルにおいて加算
および加算結果のレジスタへの格納を実行すると、各ベ
クトル要素の２要素間の和→４要素間の和→８要素間の
和が各クロックサイクルで演算され、合計３クロックサ
イクルで演算を完了することができる。

【００６０】図１１は、従来の並列演算処理装置と本発
明に従う並列演算処理装置の縮約演算に要するクロック
サイクル数を示す図である。横軸にベクトル要素数を示
し、縦軸にクロックサイクル数を示す。従来の並列演算
処理装置においては、１クロックサイクルにおいては、
隣接演算ユニット間でのみデータ転送が行なわれてお
り、したがってベクトルの要素数Ｎと同じクロックサイ
クルが少なくとも必要とされ、ベクトルの要素数Ｎの増
加に従って縮約演算に要するクロックサイクル数もそれ
に比例して増加する。

【００６１】一方、本発明の並列演算処理装置において
は、一度に演算される要素数は、クロックサイクルごと
に２倍ずつ増加する。したがって、縮約演算に必要とさ
れるクロックサイクル数は、ｌｏｇ₂Ｎに比例するクロ
ックサイクル数となり、図１１に明らかに見られるよう
に、ベクトルの要素数Ｎが増加しても、縮約演算に要す
るクロックサイクル数は、それほど増加しない。したが
って、このマスクデータを演算処理の進行に応じて更新
することにより、縮約演算に要するクロックサイクル数
を低減でき、特に、その効果はベクトル要素数が増加す
るにつれて顕著となる。

【００６２】以上のように、この発明の実施の形態１に
従えば、並列に動作する演算ユニットそれぞれにおいて
マスクレジスタを設け、マスクレジスタに格納されるマ
スクデータに従って対応の演算ユニットを選択的にバイ
パスするように構成しているため、所望の数の演算ユニ
ットを含む並列演算処理装置を実現することができ、過
去の小規模の並列演算処理装置に対して作成されたプロ
グラムを再利用することができる。また、マスクデータ
を、演算処理の進行に応じて更新することにより、各ク
ロックサイクルごとに、縮約される項の数が２倍ずつ増
加し、大幅に、縮約演算に要するクロックサイクル数を
低減することができる。

【００６３】なお、マスクレジスタに格納されるマスク
データの更新は、外部に設けられた制御部からの制御信
号に従って行なわれればよい。外部の制御部の制御の下
に、必要な数の演算ユニットを含む並列演算処理装置を
実現することができるとともに、演算処理の進行に応じ
てバイパスされる演算ユニットの数を最適に調整するこ
とができる。

【００６４】また、図１において、破線矢印で示すよう
に、マスクレジスタ４１のマスクデータに従って、コン
トローラ（シーケンスコントローラ）４０がこの演算ユ
ニット内の演算器群による演算処理を停止させるように
構成されてもよい。この場合、不必要な電力消費が削減
される。

【００６５】［実施の形態２］図１２は、この発明の実
施の形態２に従う並列演算処理装置の要部の構成を概略
的に示す図である。図１２においては、１つの演算ユニ
ット♯Ｈの構成を概略的に示す。図１２において、演算
ユニット♯Ｈは、マスクデータの更新シーケンスを決定
する初期値を発生する初期値発生器５３と、初期値発生
器５３からの初期値とクロック信号ＣＬＫとに従って、
マスクレジスタ４１に格納されるマスクデータを更新す
るマスクデータ更新回路５５を含む。他の構成は、図１
に示す演算ユニット♯０〜♯Ｎ−１それぞれの構成と同
じであり、対応する部分には同一参照番号を付し、その
詳細説明は省略する。

【００６６】この図１２に示す演算ユニット♯Ｈにおい
ては、演算ユニット内部に、マスクレジスタ４１に格納
されたマスクデータを更新するためのマスクデータ更新
回路５５が設けられており、縮約演算に必要なマスクレ
ジスタの書換を効率的に演算処理の進行に応じて実現す
ることができる。

【００６７】初期値発生器５３は、レジスタまたは配線
で構成され、この演算ユニット♯Ｈの演算器番号を特定
するデータを初期値として発生する。縮約演算において
は、先に図８から１０に示したように、最初に奇数番号
の演算ユニットがバイパス状態とされ、次いで偶数番号
の演算ユニットのうちの２つの演算ユニットがバイパス
状態とされる。したがって、この演算ユニット♯Ｈの割
当てられた演算ユニット特定番号を初期値として発生す
ることにより、各クロックサイクルにおいて、その演算
ユニット番号データに基づいて対応の演算ユニットを♯
Ｈを正確にバイパス状態に設定することができる。

【００６８】図１３は、図１２に示すマスクレジスタお
よびマスクデータ更新回路の構成の一例を示す図であ
る。図１３において、マスクデータ更新回路５５は、演
算ユニット番号データ６４に含まれる３ビットの信号Ｓ
０（０）、Ｓ１（０）、およびＳ２（０）を初期値とし
て、算術右シフト動作を行なうシフトレジスタの構成を
備える。シフトレジスタからは、３ビットの出力信号Ｓ
０（ｔ）、Ｓ１（ｔ）、およびＳ２（ｔ）が出力され
る。このシフトレジスタからの出力信号のうち最下位ビ
ットの出力信号Ｓ０（ｔ）がマスクレジスタ４１のマス
クデータ更新用の制御信号として用いられる。

【００６９】マスクデータ更新回路５５は、クロック入
力６２（クロック信号ＣＬＫ）に応答して、与えられた
信号を取込みラッチしてそれぞれ信号Ｓ２（ｔ）、Ｓ１
（ｔ）およびＳ０（ｔ）を出力するラッチ回路５５ａ、
５５ｂおよび５５ｃと、マスクデータ更新回路５５に初
期値を設定する動作を指示する初期化信号６３を受ける
インバータ５５ｄと、初期化信号６３の活性状態（Ｈレ
ベル）のとき信号Ｓ２（０）を通過させてラッチ回路５
５ａへ与えるＡＮＤゲート５５ｅと、初期化信号６３の
活性状態のとき、初期値発生器５３からの信号Ｓ１
（０）を通過させ、初期化信号６３の非活性状態（Ｌレ
ベル）のとき、ラッチ回路５５ａの出力信号Ｓ２（ｔ）
を通過させて、それぞれ通過させた信号をラッチ回路５
５ｂへ与えるＡＮＤ／ＯＲ複合ゲート５５ｆと、初期化
信号６３の活性化時、信号Ｓ０（０）を通過させかつ初
期化信号６３の非活性化時ラッチ回路５５ｂの出力信号
Ｓ１（ｔ）を通過させ、これら通過させた信号をラッチ
回路５５ｃへ与えるＡＮＤ／ＯＲ複合ゲート５５ｇを含
む。クロック入力６２（ＣＬＫ）は、この演算ユニット
における演算サイクルを規定する信号であり、また初期
化信号６３は、たとえば図示しない外部に設けられた制
御ユニットから各演算ユニットに共通に与えられる信号
であり、演算動作開始前の初期化シーケンスにおいて、
各演算ユニットにおいて初期化信号６３が活性化され
て、演算部番号データ６４（信号Ｓ０（０）、Ｓ１
（０）、およびＳ２（０）をラッチ回路５５ａ〜５５ｃ
にそれぞれラッチさせる信号である。命令ブロードキャ
ストバス３０を介して初期化命令が与えられ、演算ユニ
ットそれぞれにおいて、コントローラ（４０）の制御の
下に初期化信号が活性化されてもよい。

【００７０】マスクレジスタ４１は、クロック入力６２
に応答して、与えられた信号を取込みかつラッチしてマ
スク指示信号Ｍ（ｔ）を出力するラッチ回路４１ａと、
ラッチ回路４１ａの出力信号Ｍ（ｔ）とマスクデータ更
新回路５５からの出力信号Ｓ０（ｔ）をインバータ（Ｎ
ＯＴゲート）６５を介して受けるＡＮＤゲート４１ｂ
と、ＡＮＤゲート４１ｂの出力信号と初期化信号６３を
受けるＯＲゲート４１ｃを含む。ＯＲゲート４１ｃの出
力信号がラッチ回路４１ａの入力に与えられる。このＡ
ＮＤゲート４１ｂおよびＯＲゲート４１ｃは、複合ゲー
トで構成されてもよい。

【００７１】演算ユニット番号データ６４は、並列演算
処理装置内における環状通信路による相互接続時、その
位置が決定され、それぞれの演算ユニットに対し一意的
に演算ユニットの番号が決定される。この演算ユニット
番号を示すデータ６４が、初期値発生器５３から発生さ
れる。この発生態様については後に簡単に説明する。次
に、この図１３に示すマスクデータ更新回路５５および
マスクレジスタ４１の動作について簡単に説明する。

【００７２】マスクデータの初期設定時においては、初
期化信号６３がＨレベルの活性状態に設定され、インバ
ータ５５ｄの出力信号がＬレベルとなる。この状態にお
いては、ＡＮＤゲート５５ｅ、ＡＮＤ／ＯＲ複合ゲート
５５ｆ、およびＡＮＤ／ＯＲ複合ゲート５５ｇは、演算
ユニット番号データ６４に含まれる信号Ｓ２（０）、Ｓ
１（０）およびＳ０（０）をそれぞれ、対応のラッチ回
路５５ａ、５５ｂおよび５５ｃへ与える状態となる。一
方、マスクレジスタ４１においては、ＯＲゲート４１ｃ
の出力信号がＨレベルとなる。この状態において、クロ
ック入力６２（ＣＬＫ）を与えると、ラッチ回路５５ａ
〜５５ｃには、信号Ｓ２（０）、Ｓ１（０）、およびＳ
０（０）が格納され、一方、ラッチ回路４１ａには、Ｈ
レベルの信号がラッチされる。したがって、マスク指示
信号（マスクデータ）Ｍ（ｔ）が、Ｈレベルの書込許可
状態に設定される。

【００７３】次いで、演算動作サイクル開始時において
初期化信号６３をＬレベルに設定して、インバータ５５
ｄの出力信号をＨレベルに設定する。この状態において
は、ＡＮＤゲート５５ｅの出力信号はＬレベルに固定さ
れ、一方、ＡＮＤ／ＯＲ複合ゲート５５ｆおよび５５ｇ
は、上位側のラッチ回路５５ａおよび５５ｂの出力信号
Ｓ２（ｔ）、およびＳ１（ｔ）を対応のラッチ回路５５
ｂおよび５５ｃへ与える。したがって、このマスクデー
タ更新回路５５は、クロック入力６２（ＣＬＫ）に従っ
て、算術右シフト動作を行なう。このマスクデータ更新
回路５５の１ビット右シフトによりラッチ回路５５ｃか
ら溢れ出た信号は、ＮＯＴゲート（インバータ）６５で
反転されてマスクレジスタ４１へ与えられる。

【００７４】ＡＮＤゲート４１ｂは、ラッチ回路４１ａ
の出力するマスク指示信号（マスクデータ）Ｍ（ｔ）と
インバータ６５の出力信号とを受けている。したがっ
て、マスクデータ（マスク指示信号）Ｍ（ｔ）がＨレベ
ルの間、ラッチ回路４１ａは、このマスクデータ更新回
路５５からのシフト動作により溢れ出た信号の反転信号
をラッチする。すなわち、前のサイクルのマスクデータ
（マスク指示信号）Ｍ（ｔ）がＨレベルの場合のときに
限り、マスクレジスタ４１には、マスクデータ更新回路
５５におけるシフト動作により溢れ出た信号の反転値が
セットされる。この動作を繰返すことにより、マスクデ
ータ更新回路５５の最下位ビットの信号が初めてＨレベ
ルの信号となるまで、マスクレジスタ４１からのマスク
データ（マスク指示信号）Ｍ（ｔ）をＨレベルに保持す
ることができる。マスクレジスタ４１は、一旦そのマス
クデータＭ（ｔ）がＬレベルに設定されると、以降のサ
イクルにおいては、マスクデータ更新回路５５からの出
力信号の論理にかかわらず、マスク指示信号（マスクデ
ータ）はＬレベルに保持される。したがって、一旦バイ
パス状態に設定されると、以降バイパス状態を保持す
る。

【００７５】図１４は、８個の演算ユニットが設けられ
た並列演算処理装置におけるシフトレジスタ出力Ｓ２
（ｔ）、Ｓ１（ｔ）、およびＳ０（ｔ）の時間変化を一
覧にして示す図である。この図１４に示すように、演算
ユニット♯０〜♯７それぞれにおいて、算術右シフト動
作が行なわれ、最下位ビットＳ０（ｔ）がＨレベルから
Ｌレベルになるサイクルが、各演算ユニットの番号に応
じて変化するのが理解される。最下位ビットの信号Ｓ０
（ｔ）がＨレベルとなると次のサイクルにおいて、マス
クデータがＬレベルに非活性化される。ここで、演算ユ
ニットの番号は、それぞれ２進数で表わされている。

【００７６】図１５は、８個の演算ユニットが設けられ
た場合の、各演算ユニットにおけるマスクデータＭ
（ｔ）の時間変化を一覧にして示す図である。図１４と
の対比から明らかなように、演算ユニット♯０〜♯７そ
れぞれにおいてシフトレジスタ出力のうちの最下位ビッ
トの信号Ｓ０（ｔ）がＨレベルとなると、次のサイクル
においてマスクデータＭ（ｔ）がＬレベルに設定されて
いる。この図１５の各演算ユニットのマスクデータＭ
（ｔ）を、各クロックサイクルごとに見ると、先の実施
の形態１において説明した縮約演算時における演算ユニ
ットのバイパス状態が実現されるのが理解される。縮約
演算の終了条件は、マスクデータＭ（ｔ）の出力の組合
せが、図１５のクロックサイクル３における状態、すな
わち“ＬＬＬＬＬＬＬＨ”となる時点を求めることによ
り、検出することができる。

【００７７】このマスクデータのマスクデータ更新回路
による更新処理では、演算ユニットが、２項演算、４項
演算、８項演算、…を行なうため、まず、１つおきの演
算ユニットをバイパス状態に設定し、次いで４つごとの
演算ユニットをバイパス状態に設定し、次いで８つごと
の演算ユニットをバイパス状態に設定する。このバイパ
ス状態設定シーケンスは以下のようにして実現される。
演算ユニットの番号を“０”から始める。まず、すべて
の演算ユニットを用いて演算を行ない、次いで、偶数番
号の演算ユニットを用いて演算を行なう。次いで４の倍
数の番号を持つ演算ユニットを用いて演算を行ない、次
いで８の倍数の番号を有する演算ユニットを用いて演算
をする。

【００７８】すなわち、算術右シフト操作を行なって、
各演算ユニット番号を各クロックサイクルごとに２で除
算し、その除算の余りが１になった場合には、次のクロ
ックサイクルにおいて対応の演算ユニットをバイパス状
態に設定することにより実現される。したがって、この
マスクデータの変更シーケンスは、Ｎ項の縮約演算をＮ
個の演算ユニットを用いて実行する場合、Ｎが２のべき
乗で表わされる整数であるという条件を満たす限り、容
易に拡張することができる。

【００７９】図１６は、マスクデータ更新回路の拡張例
の構成を示す図である。図１６においては、１６個の演
算ユニットを含む並列演算処理装置におけるマスクデー
タ変更回路の構成を示す。図１６において、マスクデー
タ更新回路５５は、４ビットの演算器ユニット番号デー
タＳ３（０）〜Ｓ０（０）を受けるため、図１３に示す
構成に加えて、さらに、ＡＮＤ／ＯＲ複合ゲート５５ｉ
と、このＡＮＤ／ＯＲ複合ゲート５５ｉの出力信号をラ
ッチするラッチ回路５５ｈを含む。ＡＮＤゲート５５ｅ
に最上位の演算ユニット番号データＳ３（０）が与えら
れる。ＡＮＤ／ＯＲ複合ゲート５５ｆは、初期化時に
は、演算ユニット番号データ信号Ｓ２（０）を通過さ
せ、かつ演算サイクル時には、ラッチ回路５５ａの出力
信号Ｓ３（ｔ）を通過させる。ＡＮＤ／ＯＲ複合ゲート
５５ｇは、初期化時には、番号データ信号Ｓ１（０）を
通過させ、演算サイクル時には、ラッチ回路５５ｂの出
力信号を通過させる。ＡＮＤ／ＯＲ複合ゲート５５ｉ
は、初期化時には、番号データ信号Ｓ０（０）を通過さ
せ、演算サイクル時には、ラッチ回路５５ｃの出力信号
を通過させる。ラッチ回路５５ｈの出力信号Ｓ０（ｔ）
は、インバータ（ＮＯＴゲート）６５を介してマスクレ
ジスタ４１へ与えられる。マスクレジスタ４１の構成
は、図１３に示す構成と同じである。

【００８０】この図１６に示すマスクデータ更新回路５
５の構成は、単に図１３に示す３ビットマスクデータ更
新回路の構成が、４ビットマスクデータを変更するため
の構成に拡張されているだけである。この図１６に示す
マスクデータ更新回路５５においても、算術右シフト操
作が行なわれ、シフトレジスタ出力の最下位ビットの信
号Ｓ０（ｔ）がＨレベルとなると、次のクロックサイク
ルにおいてマスクレジスタ４１から出力されるマスクデ
ータＭ（ｔ）がＬレベルのマスク指示状態に設定され
る。

【００８１】図１７（Ａ）は、各演算ユニットにおける
シフトレジスタの出力信号Ｓ３（ｔ）、Ｓ２（ｔ）、Ｓ
１（ｔ）、およびＳ０（ｔ）の時間変化を一覧にして示
す図であり、図１７（Ｂ）は、各演算ユニットのマスク
レジスタの出力（マスクデータ）Ｍ（ｔ）の時間変化を
一覧にして示す図である。

【００８２】この図１７（Ａ）および（Ｂ）に示すよう
に、演算ユニット♯０〜♯１５それぞれにおいて、シフ
トレジスタ出力の最下位ビットの信号Ｓ０（ｔ）がＨレ
ベルのときには、次のクロックサイクルにおいてマスク
レジスタからのマスクデータＭ（ｔ）がＬレベルに設定
されてバイパス状態に対応の演算ユニットが設定され
る。すなわち、クロックサイクル０において、初期状態
にあり、すべての演算ユニットが演算状態に設定され
る。クロックサイクル１において、１つおきの演算ユニ
ットがバイパス状態とされ、２項加算操作が行なわれ
る。

【００８３】次いで、クロックサイクル２において、４
つごとの演算ユニット（番号が４で割り切れる演算ユニ
ット）が演算可能状態とされ、残りの演算ユニットがす
べてバイパス状態に設定される。クロックサイクル３に
おいて、８で除算することのできる番号を有する演算ユ
ニットが演算可能状態に設定され、残りの演算ユニット
はバイパス状態に設定され、クロックサイクル４におい
て、演算ユニット♯０のみが演算可能状態に設定され
る。

【００８４】したがって、１６項の要素を含むベクトル
の縮約演算は、合計４クロックサイクルで完了すること
ができる。したがって、従来のように、バイパス機能が
なく、隣接演算ユニット間でのみデータの転送が行なわ
れるときに必要となる１６クロックサイクルよりも大幅
に、演算に要するクロックサイクル数を低減することが
できる。

【００８５】なお、このマスクデータ更新回路を用いれ
ば、単にシフトレジスタのワード長を変更することによ
り、２ⁿ個の項数を有するベクトルの縮約演算を高速で
行なうことができる。

【００８６】図１８は、図１２に示す初期値発生器５３
の構成の一例を示す図である。図１８において、この初
期値発生器５３は、電源電圧ＶＣＣを伝達する電源線５
３ａと、接地電圧ＧＮＤを伝達する接地線５３ｂと、電
源線５３ａまたは接地線５３ｂに対しマスク配線５３
ｃ、５３ｄおよび５３ｅにより接続される信号線ＳＧ
０、ＳＧ１およびＳＧ２を含む。並列演算処理装置が形
成される場合、半導体チップ上に配列される演算ユニッ
トは環状通信路を介して相互接続され、その配設位置は
一意的に定められる。この環状通信路における演算ユニ
ットの位置に応じて、各演算ユニット番号を割当てる。
この割当てられた番号をマスク配線５３ａ、５３ｃによ
りプログラム（配線接続）する。半導体チップ上に形成
された並列演算処理装置においては、固定的に各演算ユ
ニットの番号が設定される。

【００８７】図１９は、この初期値発生器の他の構成を
示す図である。図１９において、初期値発生器５３は、
内部入力ポート２３から与えられる演算ユニット特定用
の番号データを格納するレジスタ５３ｇを含む。並列演
算処理装置のたとえば電源投入後の初期化シーケンスに
おいてレジスタ５３ｇに、外部の制御部の制御の下に、
演算ユニット特定用の番号が設定される。この場合、演
算ユニットそれぞれにおいて、このレジスタ５３ｇを、
内部入力ポート２３と、図示しない内部出力ポート２４
とに接続し、レジスタ間のデータ転送路を形成し、各演
算ユニット内に対応の演算ユニット番号が格納されたと
きに、このレジスタ５３ｇを、入出力ポートから切り離
す設定シーケンスが用いられてもよい。

【００８８】図１９に示すようなレジスタ５３ｇを演算
ユニット番号データ発生器として利用することにより、
並列演算処理装置が構築するシステムに応じて、柔軟に
各演算ユニットに番号を割当てることができる。

【００８９】［変更例］図２０は、この発明の実施の形
態２に従う並列演算処理装置の変更例の構成を示す図で
ある。図２０において、１つの演算ユニット♯Ｈにおけ
る部分の構成を示す。図２０においては、外部に設けら
れたコントローラから与えられるマスクデータＭＤを格
納するマスクレジスタ４１♯Ａと、マスクデータ更新回
路５５の制御の下に、その格納されたマスクデータが更
新されるマスクレジスタ４１♯Ｂと、外部の制御部から
のモード設定信号φＣに従ってマスクレジスタ４１♯Ａ
および４１♯Ｂの一方を選択するセレクタ５９とが設け
られる。このセレクタ５９からのマスクデータＭが、バ
イパス用セレクタおよび書込マスク回路へ与えられる。

【００９０】モード設定信号φＣおよびマスクデータＭ
Ｄの制御の下に、並列演算処理装置の規模の更新を行な
い、演算処理を行なう。この場合に、過去のプログラム
を再利用する。縮約演算を行なう場合、マスクレジスタ
４１♯Ｂに格納されたマスクデータに従ってこの演算ユ
ニット♯Ｈの動作態様が決定される。

【００９１】この図２０に示す構成の場合、マスクデー
タ更新回路５５に、図１９に示すレジスタ５３ｇからの
初期値を与えることにより、並列演算処理装置の規模に
応じて各演算ユニットの番号を特定することができ、そ
の変更された並列演算処理装置において縮約演算を効率
的に実行することができる。

【００９２】以上のように、この発明の実施の形態２に
従えば、演算ユニット内において演算処理の進行に応じ
て、そのマスクデータを更新するように構成したため、
正確にかつ演算処理内容に応じてマスクデータの値を設
定することができ、縮約演算の高速化を容易に実現する
ことができる。

【００９３】特に、このマスクデータの初期値として、
演算ユニットを特定する番号（２進数表示）を用い、こ
れを算術右シフト演算することにより、縮約演算におい
て、２項加算、４項加算、８項加算、…を順次行なう構
成を実現することができる。

【００９４】［実施の形態３］図２１は、この発明の実
施の形態３に従う並列演算処理装置の全体の構成を概略
的に示す図である。図２１においては、この並列演算処
理装置は、半導体チップ（ＶＬＳＩチップ）７０Ａおよ
び７０Ｂを含む。これらの半導体チップ７０Ａおよび７
０Ｂそれぞれには、同一の構成を有する演算ユニット♯
０〜♯Ｎ−１が配置される。演算ユニット♯０〜♯Ｎ−
１の構成は、先の実施の形態１または２において説明し
たものと同じであり、レジスタ群２１、演算器群２２、
マスクレジスタ４１、書込マスク回路４２、およびバイ
パス用レジスタ４３を含む。

【００９５】半導体チップ７０Ａおよび７０Ｂそれぞれ
には、チップ外部とデータの入出力を行なうための入力
端子７３および出力端子７４が設けられる。ＶＬＳＩチ
ップ７０Ａおよび７０Ｂそれぞれにおいては、環状通信
路３２に、演算ユニット♯０の内部出力ポート２４の出
力と、外部からのデータを受ける入力端子７３からの信
号の一方を選択するセレクタ７２が配置される。このセ
レクタ７２は、ＶＬＳＩチップ７０Ａおよび７０Ｂの接
続時、特定のピン端子を特定の電圧レベルに設定するこ
とにより、その選択態様が決定される構成が用いられて
もよい。

【００９６】ＶＬＳＩチップ７０Ａおよび７０Ｂそれぞ
れにおいて、さらに、演算ユニット♯０〜♯Ｎ−１に含
まれるマスクレジスタ４１からのマスクデータを並列に
受けるＮＯＲゲート７５と、ＮＯＲゲート７５の出力信
号に従って演算ユニット♯０の内部出力ポート２４と入
力端子７３の一方を選択して出力端子７４に結合するセ
レクタ７６が設けられる。ＶＬＳＩチップ７０Ｂの出力
端子７４は、配線７７ａを介してＶＬＳＩチップ７０Ａ
の入力端子７３に結合され、ＶＬＳＩチップ７０Ａの出
力端子７４は、ＶＬＳＩチップ７０Ｂの入力端子７３に
接続される。

【００９７】ＶＬＳＩチップ７０Ａにおいて、演算ユニ
ット♯０〜♯Ｎ−１のマスクレジスタ４１に格納された
マスクデータがすべてＬレベルの状態に設定され、演算
ユニット♯０〜♯Ｎ−１がすべてバイパス状態が設定さ
れたときには、ＮＯＲゲート７５の出力信号がＨレベル
となり、セレクタ７６は、入力端子７３を選択して出力
端子７４へ結合する。この状態においては、ＶＬＳＩチ
ップ７０Ａがバイパスされた状態となり、ＶＬＳＩチッ
プ７０Ｂで構成される並列演算処理装置が実現される。

【００９８】ＮＯＲゲート７５の出力信号がＬレベルで
あり、演算ユニット♯０〜♯Ｎ−１において少なくとも
１つが演算状態に設定される場合、セレクタ７６は、演
算ユニット♯０の内部出力ポート２４を選択して出力端
子７４に結合する。セレクタ７２は、ＶＬＳＩチップ７
０Ａおよび７０Ｂ接続時においては、入力端子７３を選
択して環状通信路３２へ結合しており、したがってＶＬ
ＳＩチップ７０Ａの演算ユニット♯０〜♯Ｎ−１および
ＶＬＳＩチップ７０Ｂの演算ユニット♯０〜♯Ｎ−１に
より並列演算処理装置が構成される。

【００９９】ＶＬＳＩチップにおいて、外部とのデータ
の入出力を行なうための入力端子７３および出力端子７
４を設け、環状通信路３２において、演算ユニットのリ
ング状の接続を切断し、入力端子７３をこの環状通信路
３２に接続することにより、ＶＬＳＩチップを複数個カ
スケード接続して、大規模の並列演算処理装置を実現す
ることができる。

【０１００】また、１つのＶＬＳＩチップ上の演算ユニ
ット♯０〜♯Ｎ−１がすべてバイパス状態に設定された
場合、このＶＬＳＩチップをセレクタ７６によりバイパ
スすることにより、縮約演算時において、データ転送を
演算ユニット♯０〜♯Ｎ−１を介することなく行なうこ
とができ、高速で、信号を伝搬させることができ、動作
周波数を向上させることができる。

【０１０１】図２２に示すように、チップバイパス用セ
レクタが設けられていない４つのＶＬＳＩチップ７０ａ
〜７０ｄを相互接続して、３２個の演算ユニットにより
並列演算処理装置を構成した場合を考える。チップ番号
♯♯０のＶＬＳＩチップ７０ａにおいて、演算ユニット
♯０のマスクレジスタ４１に格納されたマスクデータが
Ｈレベルであり、残りの演算ユニット♯１〜♯７のマス
クデータはＬレベルである。バイパス用セレクタ４３に
より、これらの演算ユニット♯１〜♯７は、バイパス状
態に設定されており、入力端子７３に与えられたデータ
が環状通信路３２を介して、演算ユニット♯０へ伝達さ
れる。チップ番号♯♯１のＶＬＳＩチップ７０ｂにおい
ては、演算ユニット♯０〜♯７のマスクレジスタに格納
されたマスクデータはすべてＬレベルであり、演算ユニ
ット♯０〜♯７はすべてバイパス状態に設定される。し
たがって、このチップ番号♯♯１のＶＬＳＩチップ７０
ｂにおいては、何ら演算は実行されず、演算ユニット♯
０〜♯７を介して、入力端子７３に与えられたデータ
が、出力端子７４に伝達される。

【０１０２】チップ番号♯♯２のＶＬＳＩチップ７０ｃ
においては、演算ユニット♯０のマスクレジスタ４１の
みがＨレベルのマスクデータを格納し、残りの演算ユニ
ット♯１〜♯７のマスクデータはすべてＬレベルに設定
されて、これらの演算ユニット♯１〜♯７はバイパス状
態に設定される。

【０１０３】チップ番号♯♯３のＶＬＳＩチップ７０ｄ
においては、演算ユニット♯０〜♯７のマスクレジスタ
４１に格納されたマスクデータはすべてＬレベルに設定
され、これらの演算ユニット♯０〜♯７がすべてバイパ
ス状態に設定される。

【０１０４】この図２２に示す構成においては、バイパ
ス状態に設定された演算ユニットを介してデータが伝達
され、データ伝送路が長くなり、また通過するセレクタ
の数も多く、高速でデータを伝達することができない。

【０１０５】図２３は、チップバイパス用のセレクタを
設けたときの状態を概略的に示す図である。図２３にお
いて、チップ番号♯♯０のＶＬＳＩチップ７０ａにおい
ては、演算ユニット♯０のマスクレジスタ４１に格納さ
れたマスクデータがＨレベルであり、したがってＮＯＲ
ゲート７５の出力信号はＬレベルであり、チップバイパ
ス用のセレクタ７６は、演算ユニット♯０の出力信号を
選択して出力端子７４に伝達する。

【０１０６】チップ番号♯♯１のＶＬＳＩチップ７０ｂ
においては、演算ユニット♯０〜♯７のマスクデータは
すべてＬレベルであり、ＮＯＲゲート７５の出力信号は
Ｈレベルとなり、チップバイパス用のセレクタ７６は、
このＶＬＳＩチップ７０ｂの入力端子７３を選択してそ
の出力端子７０に結合する。この状態においては、演算
ユニット♯０〜♯７は、出力端子７４から切り離され、
データ伝搬に何ら寄与しない。ＶＬＳＩチップ７０ｂに
おいて、データの伝搬経路は、入力端子７３からチップ
バイパス用のセレクタ７６までの経路であり、したがっ
て配線長が短くなり、高速でデータの伝達を行なうこと
ができる。

【０１０７】チップ番号♯♯２のＶＬＳＩチップ７０ｃ
においては、演算ユニット♯０のマスクデータがＨレベ
ルであり、応じてＮＯＲゲート７５の出力信号がＬレベ
ルであり、チップバイパス用セレクタ７６は、演算ユニ
ット♯０の出力信号を選択して出力端子７４に伝達す
る。したがって、このチップＶＬＳＩチップ７０ｃにお
いては、信号は入力端子７３から環状通信路３２、およ
び演算ユニット♯０〜♯７を介して伝達される。

【０１０８】チップ番号♯♯３のＶＬＳＩチップ７０ｄ
においては、演算ユニット♯０〜♯７のマスクデータは
すべてＬレベルであり、ＮＯＲゲート７５の出力信号は
Ｈレベルとなり、チップバイパス用のセレクタ７６は、
その入力端子７３を選択して出力端子７４に接続する。
したがって、演算ユニット♯０〜♯７は、その出力端子
７４から切り離され、データ伝達には寄与しない。

【０１０９】この図２３に示すように、チップバイパス
用セレクタをそれぞれ有するＶＬＳＩチップ７０ａ〜７
０ｄを用いて並列演算処理装置を構成し、縮約演算を実
行した場合、マスクデータにより、ＶＬＳＩチップ７０
ｂおよび７０ｄに含まれる演算ユニット♯０〜♯７がす
べてバイパス状態とされたとき、チップバイパス用のセ
レクタ７６により、これらのＶＬＳＩチップ７０ｂおよ
び７０ｄをバイパスする状態に設定される。したがっ
て、信号伝搬経路が短くなり、高速でデータを伝達する
ことができる。すなわち、この図２３に示す構成におい
ては、データは、３２個の演算ユニットのうち、１６個
の演算ユニットを介して伝達されるだけであり、１６個
の演算ユニットのデータ伝達経路がバイパスされるた
め、高速でデータの伝達を行なうことができ、縮約演算
を高速で行なうことができ、応じて動作周波数を向上さ
せることができる。

【０１１０】以上のように、この発明の実施の形態３に
従えば、隣接演算ユニットを切り離し、外部からのデー
タの入力を可能とするとともに、チップ外部へ、その切
り離した演算ユニットからデータを出力することができ
るように構成したため、半導体チップを複数個縦続接続
することにより、容易に並列演算処理装置の規模を拡大
することができる。１つのＶＬＳＩチップ上に搭載する
ことのできる演算ユニットの数は、たとえば、グリフィ
ン等の「１１００万トランジスタのニューラルネットワ
ーク実行エンジン」、ＩＳＳＣＣ、ダイジェスト・オブ
・テクニカル・ペーパーズ、第１８０頁から第１８１
頁、１９９１年に述べられているように、十数個から数
十個にとどまっている。したがって、１つのＶＬＳＩチ
ップにより、より大規模なニューラルネットワークまた
は画像処理などに必要とされる数百個から数千個の演算
ユニットを相互接続した並列演算処理システムを実現す
るのは困難である。しかしながら、この複数のＶＬＳＩ
チップを相互接続可能とすることにより、容易に必要と
される規模の並列演算処理システムを実現することがで
きる。

【０１１１】また、演算ユニット内に格納されたマスク
データより、１つのＶＬＳＩチップの演算ユニットがす
べてバイパス状態に設定されたときには、このチップ入
力端子をチップ出力端子に接続してチップをバイパスす
るように構成しているため、高速でデータ伝達を行なう
ことができ、縮約演算などの演算処理を高速で実行する
ことができる。

【０１１２】また、利用するプログラムに従って、この
並列演算処理装置の規模を低減する場合、ＶＬＳＩチッ
プ単位で規模を低減する構成とすることにより、複数の
ＶＬＳＩチップが縦続接続されている場合においても、
この低減された規模の並列演算処理装置とほぼ同じデー
タ伝達速度（動作速度）で動作させることができ、再利
用プログラムの実行速度の低下は抑制される。

【０１１３】［実施の形態４］図２４は、この発明の実
施の形態４に従う並列演算処理装置の要部の構成を概略
的に示す図である。図２４においては、１つの演算ユニ
ットに含まれるマスクデータ更新回路の構成を示す。図
２４において、マスクデータ更新回路５５は、５ビット
の演算ユニット番号６４と５ビットのチップオフセット
値８１とを加算して、５ビットの出力信号Ｙ０〜Ｙ４を
出力する加算器８１と、この加算器８１の出力信号Ｙ０
〜Ｙ４を初期値として算術右シフト動作をクロック入力
６２（クロックＣＬＫ）に従って行なうシフトレジスタ
８０を含む。このシフトレジスタ８０の構成は、図１３
に示すマスクデータ更新回路５５の構成と同じであり、
単に、シフトレジスタのワード数が５ビットに増加して
いる点が異なるだけである。

【０１１４】このシフトレジスタ８０の溢れ出た最下位
ビットのデータがインバータ（ＮＯＴゲート）を介して
マスクレジスタ４１へ与えられて、マスクデータＭ
（ｔ）が更新される。

【０１１５】演算ユニット番号６４は、５ビットＡ０〜
Ａ４で表現される。１チップに８個の演算ユニットが搭
載される場合、演算ユニット番号６４は、信号Ｓ０
（０）、Ｓ１（０）およびＳ２（０）で表現され、残り
の上位ビットＡ３およびＡ４は、Ｌレベルに固定され
る。この演算ユニット番号６４は、最大５ビットで表現
可能である（最大３２個の演算ユニットが１チップに搭
載可能）。

【０１１６】チップオフセット値８１は、チップ番号
（チップ番号♯♯ｋで示す際の番号“ｋ”と１つのＶＬ
ＳＩチップに搭載される演算ユニットの数で表わされ
る。複数のＶＬＳＩチップがカスケード接続されるた
め、チップ番号♯♯０、♯♯１、♯♯２、…の順にＶＬ
ＳＩチップが接続されるとき、チップ番号♯♯ｋのチッ
プオフセット値はｋ・ｘで表わされる。ここで、“ｘ”
は、１つのＶＬＳＩチップに搭載される演算ユニットの
数を示す。

【０１１７】このチップオフセット値８１は、後に説明
するが、各演算ユニットにおいてレジスタに格納される
構成が用いられてもよく、また１つのチップにおいて複
数の演算ユニットに共通にチップオフセット値を格納す
るレジスタが設けられてもよい。いずれにおいても、チ
ップ外部に設けられた制御部からの制御の下に、このチ
ップオフセット値が格納される。

【０１１８】図２５は、４つのＶＬＳＩチップ７０ａ〜
７０ｄにより並列演算処理システムを構築した場合の各
演算ユニットのシステム内位置番号Ｙとチップオフセッ
ト値を示す図である。ＶＬＳＩチップ７０ａ〜７０ｄの
各々は、チップ番号♯♯０、♯♯１、♯♯２、および♯
♯３をそれぞれ有する。ＶＬＳＩチップ７０ａ〜７０ｄ
の各々には、８個の演算ユニット♯０〜♯７が配置され
る。したがって、これらのＶＬＳＩチップ７０ａ〜７０
ｄのそれぞれのチップオフセット値（Ｏ＜４：０＞）
は、０（ＬＬＬＬＬ）、８（ＬＨＬＬＬ）、１６（ＨＬ
ＬＬＬ）、および２４（ＨＨＬＬＬ）となる。演算ユニ
ットそれぞれは、チップオフセット値と対応のＶＬＳＩ
チップ内における演算ユニット番号との加算値により特
定される。したがって、ＶＬＳＩチップ７０ａにおいて
は、システム内番号Ｙが０〜７の演算ユニットが配置さ
れ、ＶＬＳＩチップ７０ｂには、システム内番号Ｙが８
から１５の演算ユニットが配置され、ＶＬＳＩチップ７
０ｃには、システム内番号Ｙが１６から２３の演算ユニ
ットが配置され、ＶＬＳＩチップ７０ｄ上の演算ユニッ
ト♯０〜♯７には、システム内番号Ｙとして、２４から
３１がそれぞれ割当てられる。この図２５に示す並列演
算処理システムにおいては、３２個の演算ユニットが含
まれるため、３２項の要素を含むベクトルの縮約演算を
以下に示すように高速で実行することができる。

【０１１９】図２６（Ａ）−（Ｄ）は、図２５に示すＶ
ＬＳＩチップ７０ａ−７０ｄを用いたシステムにおける
各チップに含まれる演算ユニットのシフトレジスタ（マ
スクデータ更新回路）の出力の時間変化を示す図であ
る。図２６（Ａ）において、チップ番号♯♯０のＶＬＳ
Ｉチップ７０ａにおいては、チップオフセット値（Ｏ４
…Ｏ０）は、“０”であり、５ビットのデータ（ＬＬＬ
ＬＬ）に設定される。図２６（Ｂ）において、チップ番
号♯♯１のＶＬＳＩチップ７０ｂにおいては、チップオ
フセット値が“８”であり、信号（Ｏ４…Ｏ０）が、
（ＬＨＬＬＬ）に設定される。図２６（Ｃ）において、
チップ番号♯♯２のＶＬＳＩチップ７０ｃにおいては、
チップオフセット値が“１６”であり、チップオフセッ
ト値（Ｏ４…Ｏ０）が、（ＨＬＬＬＬ）に設定される。
図２６（Ｄ）において、チップ番号♯♯３のＶＬＳＩチ
ップ７０ｄにおいては、チップオフセット値が“２４”
であり、チップオフセット番号（Ｏ４…Ｏ０）が、（Ｈ
ＨＬＬＬ）に設定される。

【０１２０】演算ユニットそれぞれにおいては、このマ
スクデータ更新のための初期値として、演算ユニット番
号とチップオフセット値との加算値が求められ、クロッ
クサイクル０において、各マスクデータ更新回路におい
て求められた初期値が設定される。各クロックサイクル
において、演算ユニットそれぞれにおいて、初期設定さ
れた値の算術右シフト操作が行なわれる。演算ユニット
番号の初期値の最大値が、チップ番号♯♯３のＶＬＳＩ
チップ７０ｄに含まれる演算ユニット♯７であり、その
初期値は（ＨＨＨＨＨ）である。したがって、このシフ
トレジスタ（マスクデータ更新回路）の出力（Ｓ４
（ｔ）…Ｓ０（ｔ））は、最大５クロックサイクル経過
時に、（ＬＬＬＬＨ）の状態に設定され、６クロックサ
イクル目においては、チップ番号♯♯０の演算ユニット
♯０を除いてすべてバイパス状態に設定される。

【０１２１】図２７（Ａ）−（Ｄ）は、図２６（Ａ）−
（Ｄ）に示すシフトレジスタ出力に対応するマスクデー
タの時間変化を示す図である。図２７（Ａ）−（Ｄ）
は、それぞれ、チップ番号♯♯０−♯♯３のＶＬＳＩチ
ップ７０ａ−７０ｄにおける各演算ユニットのマスクデ
ータの時間変化を示す。

【０１２２】この図２７（Ａ）−（Ｄ）に示すように、
クロックサイクル５において、３２個の演算ユニットの
マスクデータの組合せが（ＬＬＬＬＬＬＬＬＬＬＬＬＬ
ＬＬＬＬＬＬＬＬＬＬＬＬＬＬＬＬＬＬＨ）となる。し
たがって、３２項のベクトル要素の縮約演算に、５クロ
ックサイクルしか必要とされず、従来必要とされる３２
クロックサイクルに比べて大幅に演算時間を短縮するこ
とができる。

【０１２３】図２８は、マスクデータの初期値を発生す
る回路部分の構成を概略的に示す図である。図２８にお
いては、１つの演算ユニット♯Ｈについての構成が示さ
れる。図２８において、この演算ユニット♯Ｈに含まれ
る初期値発生器５３は、演算ユニット♯Ｈを特定する演
算ユニット番号を発生する演算ユニット番号発生器９１
ａと、この演算ユニット♯Ｈが形成されるＶＬＳＩチッ
プを特定するチップ番号に従って生成されるチップオフ
セット値を格納するチップオフセット値レジスタ９１ｂ
を含む。この演算ユニット番号発生器９１ａおよびチッ
プオフセット値レジスタ９１ｂに格納された値がマスク
データ更新回路５５へ与えられる。マスクデータ更新回
路５５は、この初期値発生器５３からの初期値に従って
マスクレジスタ４１のマスクデータを更新する。

【０１２４】演算ユニット番号発生器９１ａにおいて
は、チップ上での演算ユニット♯Ｈの位置は、チップ作
製時予め決定されるため、たとえばアルミニウムなどの
配線により固定的に演算ユニット番号が設定される。チ
ップオフセット値レジスタ９１ｂに格納されるチップオ
フセット値は、この演算ユニット♯Ｈが形成される半導
体チップが、並列演算処理システムにおいて用いられる
位置に応じて異なる。このチップオフセット値レジスタ
９１ｂは、たとえばヒューズ素子を用いたＲＯＭ（リー
ド・オンリ・メモリ）で構成し、システム構築時、外部
に設けられたＲＯＭライタにより、チップ単位で、この
チップオフセット値レジスタ９１ｂに、ヒューズ素子の
溶断非溶断のプログラムによりチップオフセット値が書
込まれる構成が用いられてもよい。このチップオフセッ
ト値をチップオフセット値レジスタ９１ｂに書込んだ
後、チップの相互接続によるシステム構築が行なわれ
る。このＲＯＭライタを用いたデータ書込時、特定の制
御ピン端子をそのチップ上に形成される演算ユニットに
含まれるチップオフセット値レジスタ９１ｂに共通に接
続し、同時に書込む構成が用いられてもよい。

【０１２５】また、このチップオフセット値レジスタ９
１ｂは、通常のレジスタであり、システム構築後外部に
設けられる制御部の制御の下に、チップ単位で順次チッ
プオフセット値を通信線路を介して転送して、チップオ
フセット値を書込む構成が用いられてもよい。

【０１２６】図２９は、初期値発生部の他の構成を概略
的に示す図である。図２９においては、この並列演算処
理装置（ＶＬＳＩチップ）１上に、複数の演算ユニット
♯０〜♯Ｎ−１が配置される。これらの演算ユニット♯
０〜♯Ｎ−１に共通に、チップオフセット値を格納する
チップオフセット値レジスタ９２が設けられる。このチ
ップオフセット値レジスタ９２に格納されたチップオフ
セット値が、演算ユニット♯０〜♯Ｎ−１それぞれに設
けられるマスクデータ更新回路５５へ共通に与えられ
る。この図２９に示す構成の場合、演算ユニット♯０〜
♯Ｎ−１それぞれに対して、チップオフセット値を格納
するためのレジスタを設ける必要がなく、演算ユニット
の占有面積が低減できる。また、チップオフセット値レ
ジスタ９２は、ＲＯＭで構成される場合、所定のピン端
子からチップオフセット値データが書込まれる。この場
合、このチップオフセット値レジスタ９２がたとえばヒ
ューズプログラム回路の場合、１つの回路に対し、外部
からの比較的大きな電流でヒューズ素子を選択的に溶断
することができ、簡易な回路構成のチップオフセット値
レジスタを実現することができる（チップ上全体にわた
って、ヒューズ溶断のための大きな電流を流す必要がな
く、チップ近傍に設けられた１つのチップオフセット値
レジスタ９０に対してのみヒューズ素子溶断用の電流を
流せばよいため）。

【０１２７】また、このチップオフセット値レジスタ９
２が、システム構築時、外部に設けられる制御部からの
データにより、初期設定される場合、チップバイパス機
能を利用することにより、演算ユニットを介して転送す
ることなく、各チップごとに１回チップオフセット値レ
ジスタにチップオフセット値を書込むだけでよく、この
チップオフセット値を各ＶＬＳＩチップに初期設定する
ための時間は短縮される。以上のように、この発明の実
施の形態４に従えば、マスクデータ更新のための初期値
として、チップ上の演算ユニットの位置を特定する演算
ユニット番号と、並列演算処理システム内におけるオフ
セット値を示すチップオフセット値とを加算して生成す
るようにしているため、システム拡張時においても、正
確に、演算処理の進行に応じてマスクデータを更新する
ことができ、大規模並列演算処理システムにおいても、
縮約演算を高速で実行することができる。

【０１２８】

【発明の効果】以上のように、この発明に従えば、マス
クレジスタを演算処理の進行に応じて更新し、かつこの
マスクデータの値に従って内部入力ポートと内部出力ポ
ートとを接続するように構成し、かつ内部のレジスタへ
のデータの書込を禁止するように構成しているため、並
列演算処理装置の縮約演算性能を大幅に改善することが
できる。また、このマスクデータを選択的に設定するこ
とにより、システム内の演算ユニットの数を増減するこ
とができ、過去のプログラムを再利用することができ、
プログラムの再利用可能性を向上させることができ、過
去の資産の継承ができ、ソフトウェア開発コストが削減
される。

【０１２９】すなわち、請求項１の発明に従えば、マス
クレジスタのデータに従って演算ユニットの内部入力ポ
ートと出力ポートとを選択的に接続しているため、並列
演算処理装置内における演算ユニットの数を調整するこ
とができ、応じて過去のプログラムを再利用することが
できる。

【０１３０】また、このマスクデータを演算処理の進行
に合わせて変更更新することにより、演算ユニットをバ
イパスしてデータ転送を行なうことができ、ベクトル演
算時の縮約演算を高速で行なうことができる。

【０１３１】請求項２に係る発明に従えば、このマスク
レジスタのマスクデータに従って記憶手段へのデータ書
込を禁止しているため、バイパス時、演算ユニットの内
部状態が更新されるのを防止することができ、正確に演
算操作に関与しないバイパス状態に設定することができ
る。

【０１３２】請求項３に係る発明に従えば、マスクデー
タにより複数のデータレジスタに対し一括して書込を禁
止しているため、バイパス状態時、その演算ユニットの
内部状態の更新が停止され、すなわち演算ユニットの動
作が停止される。このとき、またマスクデータにより、
演算ユニットの動作を完全に停止させると、不必要な電
流消費は防止される。

【０１３３】請求項４に係る発明に従えば、演算ユニッ
トのバイパスには、内部入力ポートと記憶手段の一方を
選択する選択器で構成しているため、簡易な回路構成
で、確実に演算ユニットのバイパス状態を実現すること
ができる。またデータ転送時、演算器により演算された
処理結果を転送することができ、縮約演算を効率的に行
なうことができる。

【０１３４】請求項５に係る発明に従えば、複数の演算
ユニットのうちの隣接する演算ユニット間の接続ノード
を、切り離して外部からの入力データを隣接下段の隣接
演算ユニットへ転送することができるように構成したた
め、容易にシステム拡張を実現することができる。

【０１３５】請求項６に係る発明に従えば、演算ユニッ
トの出力とチップ入力端子の一方を選択して出力端子へ
結合するように構成しているため、システム拡張時にお
いて、チップ全体のバイパスを実現することができ、高
速のデータ転送を行なうことができ、動作周波数を向上
させることができる。

【０１３６】請求項７に係る発明に従えば、チップ上の
すべての演算ユニットのマスクレジスタからのマスクデ
ータに従ってチップの入力端子と出力端子とを選択的に
接続するように構成したため、演算処理実行時において
演算ユニットがすべてバイパス状態となったとき、正確
に、チップもバイパス状態に設定することができる。

【０１３７】請求項８に係る発明に従えば、演算ユニッ
トの各々を、演算処理の進行に従ってマスクレジスタの
マスクデータを更新するようにしているため、各演算ユ
ニットのそれぞれの処理の進行状況に応じてマスクデー
タを更新することができ、効率的な演算を正確に行なう
ことができる。

【０１３８】請求項９に係る発明に従えば、演算ユニッ
トに割当てられる演算ユニットを特定する番号に基づい
てマスクデータの更新を行なっており、システム規模に
かかわらず、また各演算ユニットのシステム内位置にか
かわらず、正確に各演算ユニットの演算処理に応じてマ
スクデータを更新することができ、演算内容が縮約演算
の場合、正確に、縮約演算時のバイパスを実現すること
ができる。

【０１３９】請求項１０に係る発明に従えば、マスクレ
ジスタのマスクデータに従って各演算ユニットは、演算
動作を停止するように構成したため、バイパス時、演算
ユニットの動作を停止させることにより、不要な消費電
流を低減することができる。

【図面の簡単な説明】

【図１】この発明の実施の形態１に従う並列演算処理
装置の全体の構成を概略的に示す図である。

【図２】図１に示す演算ユニットの構成をより詳細に
示す図である。

【図３】（Ａ）および（Ｂ）は、マスクデータの値と
入出力ポートの内部回路との間の接続の対応関係を示す
図である。

【図４】（Ａ）は、この発明の実施の形態１に従う並
列演算処理装置の各演算ユニットの内部接続を具体的に
示す図であり、（Ｂ）は、（Ａ）に示す演算ユニットの
等価的構成を概略的に示す図である。

【図５】（Ａ）は、従来の並列演算処理装置のデータ
転送および演算経路を概略的に示す図であり、（Ｂ）
は、（Ａ）に示す並列演算処理装置におけるデータ転送
動作時のレジスタ内データを一覧にして示す図である。

【図６】図５（Ａ）に示す従来の並列演算処理装置に
おける演算進行状況を一覧にして示す図である。

【図７】（Ａ）は、この発明の実施の形態１における
並列演算処理装置の具体的演算時の内部状態を概略的に
示し、（Ｂ）は、（Ａ）に示すレジスタに格納されるデ
ータを示し、（Ｃ）は、クロック信号とそのときに行な
われる動作の対応関係を概略的に示す図である。

【図８】（Ａ）は、図７（Ａ）に示す並列演算処理装
置の演算サイクル経過時の状態を示し、（Ｂ）は、レジ
スタの格納データを一覧にして示す図である。

【図９】（Ａ）は、図８（Ａ）に示す並列演算処理装
置の演算サイクル完了時の状態を概略的に示し、（Ｂ）
は、レジスタに格納されるデータを一覧にして示す図で
ある。

【図１０】（Ａ）は、図９（Ａ）に示す並列演算処理
装置の演算サイクル完了後における内部状態を概略的に
示し、（Ｂ）は、レジスタの格納データを概略的に示す
図である。

【図１１】従来例との比較による本発明の効果を示す
ための図である。

【図１２】この発明の実施の形態２に従う並列演算処
理装置の演算ユニットの構成を概略的に示す図である。

【図１３】図１２に示すマスクデータ更新回路および
マスクレジスタの構成を示す図である。

【図１４】図１３に示すマスクデータ更新回路の各演
算ユニットにおけるシフトレジスタ出力の時間変化を一
覧にして示す図である。

【図１５】図１３に示すマスクレジスタの各演算ユニ
ットにおける時間変化を一覧にして示す図である。

【図１６】この発明の実施の形態２の変更例を示す図
である。

【図１７】（Ａ）は、図１６に示すマスクデータ更新
回路の演算ユニットそれぞれにおける出力信号の時間変
化を一覧にして示す図であり、（Ｂ）は、図１６に示す
マスクレジスタの各演算ユニットにおける出力信号の時
間変化を一覧にして示す図である。

【図１８】図１２に示す初期値発生器の構成の一例を
示す図である。

【図１９】図２に示す初期値発生器の変更例を概略的
に示す図である。

【図２０】この発明の実施の形態２の変更例を概略的
に示す図である。

【図２１】この発明の実施の形態３に従う並列演算処
理装置の構成を概略的に示す図である。

【図２２】チップバイパス用セレクタが設けられない
場合の各演算ユニットの接続経路を示す図である。

【図２３】この発明の実施の形態３に従う並列演算処
理装置における各演算ユニットの接続経路を概略的に示
す図である。

【図２４】この発明の実施の形態４に従う並列演算処
理装置におけるマスクデータ変更に関連する部分の構成
を概略的に示す図である。

【図２５】この発明の実施の形態４における複数チッ
プを用いた並列演算処理装置における各演算ユニットの
システム内番号を具体的に示す図である。

【図２６】（Ａ）〜（Ｄ）は、図２５に示すチップそ
れぞれにおける演算ユニットのシフトレジスタ出力の時
間変化を一覧にして示す図である。

【図２７】（Ａ）〜（Ｄ）は、図２５に示す並列演算
処理装置における各演算ユニットにおけるマスクデータ
の時間変化を一覧にして示す図である。

【図２８】この発明の実施の形態４における初期値発
生回路の構成を概略的に示す図である。

【図２９】この発明の実施の形態４における初期値発
生回路の他の構成を概略的に示す図である。

【図３０】従来の並列演算処理装置の構成を概略的に
示す図である。

【符号の説明】

１並列演算処理装置（半導体チップ）、♯０〜♯Ｎ−
１演算ユニット、２１レジスタ群、２２演算器
群、２３内部入力ポート、２４内部出力ポート、３
０命令ブロードキャストバス、３１単一命令、３２
環状通信路、４０コントローラ、４１マスクレジ
スタ、４２書込マスク回路、４３バイパス用セレク
タ、５３初期値発生器、５５マスクデータ更新回
路、７２セレクタ、７３入力端子、７４出力端
子、７５ＮＯＲゲート、７６セレクタ、８０シフ
トレジスタ、８１加算器、９１ａ演算ユニット番号
発生器、９１ｂ，９２チップオフセット値レジスタ。

Claims

【特許請求の範囲】

【請求項１】共通バスに並列に結合され、前記共通バ
スを介して共通に供給される命令に従って並列に動作し
かつ所定の順序で通信線路を介して相互接続される複数
の演算ユニットを備え、前記複数の演算ユニットの各々が、ユニット外部からのデータを入力するための内部入力ポ
ートと、ユニット外部へデータを出力するための内部出力ポート
と、マスクデータを格納するためのマスクレジスタと、前記マスクレジスタに結合され、前記マスクデータに従
って前記内部入力ポートと前記内部出力ポートとを接続
して、該対応の演算ユニットを、前記通信線路を介して
のデータ転送時バイパスさせるためのユニットバイパス
手段とを含む、並列演算処理装置。
【請求項２】前記複数の演算ユニットの各々は、さら
に、データを格納するための記憶手段と、前記記憶手段に結合され、前記命令が指示する演算処理
を行ない、該演算処理結果を前記記憶手段へ格納する演
算手段と、前記マスクレジスタに結合され、前記マスクデータに従
って前記記憶手段の記憶内容の変更を選択的に禁止する
書込マスク手段を含む、請求項１記載の並列演算処理装
置。
【請求項３】前記記憶手段は、複数のデータレジスタ
を含み、前記書込マスク手段は、前記マスクデータのデータ書込
を禁止する書込マスク指示状態に応答して、前記複数の
データレジスタに対するデータ書込を一括して禁止する
書込マスク回路を備える、請求項２記載の並列演算処理
装置。
【請求項４】前記ユニットバイパス手段は、前記マスクレジスタのマスクデータに従って前記内部入
力ポートおよび前記記憶手段の一方を前記内部出力ポー
トに接続するための選択器を備える、請求項２記載の並
列演算処理装置。
【請求項５】前記複数の演算ユニットは同一半導体チ
ップ上に形成され、前記並列演算処理装置は、前記複数の演算ユニットに含
まれる第１の演算ユニットと前記第１の演算ユニットと
データ転送方向において隣接する第２の演算ユニットと
の間に設けられ、前記第１の演算ユニットの内部出力ポ
ートと前記半導体チップ上に設けられかつ該半導体チッ
プ外部からのデータを受ける外部データ入力ポートとの
一方を選択的に前記第２の演算ユニットの内部入力ポー
トに結合する手段をさらに備える、請求項１記載の並列
演算処理装置。
【請求項６】前記半導体チップ上に形成され、与えら
れたデータを前記半導体チップ外部へ出力するための外
部データ出力ポートと、前記第１の演算ユニットの内部出力ポートと前記外部デ
ータ入力ポートの出力部の一方を前記外部データ出力ポ
ートの入力部に結合するチップバイパス手段をさらに備
える、請求項５記載の並列演算処理装置。
【請求項７】前記チップバイパス手段は、前記第１の演算ユニットの内部出力ポートに結合される
第１の入力と、前記外部データ入力ポートの出力部に結
合される第２の入力と、出力ノードとを有する選択器
と、前記複数の演算ユニットのマスクレジスタに格納された
マスクデータを並列に受け、これら受けたマスクデータ
に従って前記選択器の第１および第２の入力と出力との
接続態様を決定する制御回路を含む、請求項６記載の並
列演算処理装置。
【請求項８】各前記演算ユニットはさらに、前記マスクレジスタに結合され、前記演算処理の進行に
従って前記マスクレジスタのマスクデータを更新するた
めのマスクデータ更新手段を備える、請求項２から７の
いずれかに記載の並列演算処理装置。
【請求項９】前記マスクデータ更新手段は、各前記演
算ユニットに割当てられる演算ユニット特定用の番号を
示すデータを格納し、該格納した番号データに基づいて
前記マスクデータを更新する手段を含む、請求項８記載
の並列演算処理装置。
【請求項１０】各前記演算ユニットはさらに、前記マスクレジスタのマスクデータに従って自身の演算
処理を停止させる手段を含む、請求項１記載の並列演算
処理装置。