JP2002207706A

JP2002207706A - プロセッサエレメント間での総和値計算及びピーク検出を行なうｓｉｍｄ型マイクロプロセッサ

Info

Publication number: JP2002207706A
Application number: JP2001001424A
Authority: JP
Inventors: Kazuhiko Iwanaga; 和彦岩永
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2001-01-09
Filing date: 2001-01-09
Publication date: 2002-07-26

Abstract

(57)【要約】【課題】少ない回路規模を保ったまま各プロセッサエ
レメント間での総和値演算及びピーク検出を行えるＳＩ
ＭＤ型マイクロプロセッサを提供する。【解決手段】全てのプロセッサエレメントを接続する
が、少なくとも２個以上のプロセッサエレメントを含む
セグメントにより分割されうる、第１のデータバスを備
え、上記第１のデータバスのセグメントの分割は、接続
部分が制御されることによって変更され、上記第１のデ
ータバスと各プロセッサエレメントに備わる演算レジス
タとの間に、データ入出力のための経路が備えられ、そ
のデータ入出力は、各プロセッサエレメントに備わる条
件レジスタの値により制御される、ＳＩＭＤ型マイクロ
プロセッサを提供する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＳＩＭＤ（Ｓｉｎ
ｇｌｅＩｎｓｔｒｕｃｔｉｎ−ｓｔｒｅａｍＭｕｌｔ
ｉｐｌｅＤａｔａ−ｓｔｒｅａｍ；単一命令多データ
処理）型マイクロプロセッサに関する。

【０００２】

【従来の技術】ＳＩＭＤ型マイクロプロセッサでは、複
数のデータに対して１つの命令で同時に同一の演算処理
が実行可能である。この構造により、演算は同一である
がデータ量が非常に多い処理（例えば、画像処理）に係
る用途において、頻用される。

【０００３】ＳＩＭＤ型マイクロプロセッサにおける通
常の演算処理では、複数の演算ユニット（Ｐｒｏｃｅｓ
ｓｏｒＥｌｅｍｅｎｔ〔ＰＥ〕；プロセッサエレメン
ト）を並べ同一の演算を同時に複数のデータに対して実
行する。

【０００４】ＳＩＭＤ型マイクロプロセッサは、全ての
ＰＥが同時に動作することにおいてはその性能を発揮で
きるが、ＰＥ毎に処理を変える必要があるような処
理、若しくは演算結果によって後続の処理を変えるよ
うな処理（逐次処理という。）においては、十分な性能
を発揮できない。

【０００５】ＰＥ毎に処理を変えるような処理を実現
する構成としては、各ＰＥにフラグビットを備えさせ、
そのフラグの値によって処理を実行するかどうかを決定
する、というものが挙げられる。例えば、特開平５−１
８９５８５号、特開平６−１７６１７６号、特開平９−
１９８２３１号、及び特開平１１−５３１８９号に開示
されているように、各ＰＥでの演算結果に従い又は全体
制御回路により、各ＰＥのフラグビットを変更して、Ｐ
Ｅ毎に演算の実行、非実行を設定することが可能であ
る。但し、上記の開示された発明を用いても、ＰＥで
の演算結果によって全体の制御を変更することは不可能
である。

【０００６】画像処理においては、全ての画素データの
総和値、ピーク値を特徴量として画像処理の計算式を変
更するといった処理が必要となることがある。デジタル
ＡＥ（自動濃度調整機能）などでは、スキャナからの入
力データに対して、ゲイン（増幅率）をプロセッサで制
御することが必要であるが、この制御において総和値が
用いられる。また、固定小数点演算では演算時に演算前
のデータの最大値を求めておき、オーバフローを生じな
い最大のビット幅で乗算などの演算を行い、演算精度を
高めるということを行うことが多い。

【０００７】特開平１０−２８９３０５号には、上記の
ような特徴量を求めるため、各ＰＥの持つフラグビット
の「ＯＲ演算」の結果値をグローバルプロセッサに転送
して全体の制御を変更する、という技術が開示されてい
る。ここで、グローバルプロセッサは、後でも説明する
が、プログラムを解読しＳＩＭＤ型マイクロプロセッサ
全体に係る制御を行なう部位である。

【０００８】上記の特開平１０−２８９３０５号に開示
されるＳＩＭＤ型マイクロプロセッサにおいては、各Ｐ
Ｅが持つフラグビットに比較演算結果を格納し、さらに
全てのＰＥのフラグビットの「ＯＲ演算」の結果をグロ
ーバルプロセッサに転送し、よってバイナリサーチを行
うことを可能としている。かかるＳＩＭＤ型マイクロプ
ロセッサによれば、以下に示す手順により、複数のＰＥ
のレジスタに格納されるデータ間の最大値を検出するこ
とが可能となる。以下の手順においてデータは符号なし
８ビット値である。

【０００９】（１−１）グローバルプロセッサの汎用レ
ジスタの値を「１２８」に設定する。（１−２）各ＰＥの持つ演算レジスタの値と上記汎用レ
ジスタの値を比較し、演算レジスタの値が汎用レジスタ
の値以上であるＰＥではフラグビットを“１”、それ以
外のＰＥではフラグビットを“０”に設定する。（１−３）全てのＰＥのフラグビットの値の「ＯＲ演
算」の結果を、グローバルプロセッサ内のフラグレジス
タに転送する。

【００１０】（２−１）上記の「ＯＲ演算」の結果が真
（即ち、“１”）ならば汎用レジスタの値に「６４」を
加算、偽（即ち、“０”）ならば汎用レジスタの値から
「６４」を減算する。（２−２）各ＰＥの持つ演算レジスタの値と上記汎用レ
ジスタの値を比較し、演算レジスタの値が汎用レジスタ
の値以上であるＰＥではフラグビットを“１”、それ以
外のＰＥではフラグビットを“０”に設定する。（２−３）全てのＰＥのフラグビットの値の「ＯＲ演
算」の結果を、グローバルプロセッサ内のフラグレジス
タに転送する。

【００１１】（３−１）上記の「ＯＲ演算」の結果が真
（即ち、“１”）ならば汎用レジスタの値に「３２」を
加算、偽（即ち、“０”）ならば汎用レジスタの値から
「３２」を減算する。（同様の処理が続くため途中省略
する。）

【００１２】（６−１）「ＯＲ演算」の結果が真（即
ち、“１”）ならば汎用レジスタの値に「４」を加算、
偽（即ち、“０”）ならば汎用レジスタの値から「４」
を減算する。（６−２）各ＰＥの持つ演算レジスタの値と汎用レジス
タの値を比較し、演算レジスタの値が汎用レジスタの値
以上であるＰＥではフラグビットを“１”、それ以外の
ＰＥではフラグビットを“０”に設定する。（６−３）全てのＰＥのフラグビットの値の「ＯＲ演
算」の結果を、グローバルプロセッサ内のフラグレジス
タに転送する。

【００１３】（７−１）上記の「ＯＲ演算」の結果が真
（即ち、“１”）ならば汎用レジスタの値に「２」を加
算、偽（即ち、“０”）ならば汎用レジスタの値から
「２」を減算する。（７−２）各ＰＥの持つ演算レジスタの値と上記汎用レ
ジスタの値を比較し、演算レジスタの値が汎用レジスタ
の値以上であるＰＥではフラグビットを“１”、それ以
外のＰＥではフラグビットを“０”に設定する。（７−３）全てのＰＥのフラグビットの値の「ＯＲ演
算」の結果を、グローバルプロセッサ内のフラグレジス
タに転送する。（７−４）上記の「ＯＲ演算」の結果が真（即ち、
“１”）ならば汎用レジスタの値に「１」を加算、偽
（即ち、“０”）ならば汎用レジスタの値から「１」を
減算する。この段階での汎用レジスタの値が、最大値で
ある。

【００１４】このように最大値を検出することが可能と
なる。ただし、上記の処理では各ＰＥでの比較演算の結
果をグローバルプロセッサに戻す（転送する）という作
業が必要となるため、データのビット長に応じて処理ス
テップ数が増加する。８ビットのデータでは、処理ステ
ップ数が上述の例では２５サイクルとなるが、１６ビッ
トのデータでは、４９サイクルが必要となる。更に、こ
のＳＩＭＤ型マイクロプロセッサでは、全ての画素デー
タの特徴量のうち、総和値を求めることができない。

【００１５】各ＰＥ（のレジスタ）に格納される値の総
和値を求め得るＳＩＭＤ型マイクロプロセッサに関し
て、以下の様に幾つかのものが開示されている。

【００１６】特公平８−１４８１６号（特開平２−８１
２５８号）では、ＰＥ間にツリー状に演算器を設け、各
ツリー毎にパイプラインを切ることによって演算器の負
荷を少なく保持したまま、ピーク検出や総和などの演算
を高速に行うことができる回路構成について開示してい
る。この発明は、演算対象のデータのビット幅が広くＰ
Ｅ数が少ない場合には、バイナリサーチよりも高速に処
理を行うことができるという利点をもつ。ただし、ＰＥ
数が増加すると演算器の数が増加し、回路規模の増大に
繋がるという欠点をもつ。

【００１７】特開平８−３０５７７号、特開平８−２３
５１４９号においては、演算アレイの外部に別途、全Ｐ
Ｅの演算レジスタのデータを対象にした演算を実行でき
る演算器を装備するプロセッサが開示されている。この
プロセッサでは、ピーク検出だけでなく、総和演算も行
うことができる。全ＰＥ数のサイクルの演算時間（例え
ば２５６ＰＥでは２５６サイクル）が必要となり、ＰＥ
数が多いＳＩＭＤ方式プロセッサにおいてはサイクル数
が多くなるという面で懸念があるが、追加ハードウェア
を少なくできる利点をもつ。

【００１８】特開平１１−２９６４９８号では、共通バ
スを持ち、各ＰＥでこの共通バスにマルチプレクサを挿
み、各ＰＥが内蔵している条件レジスタの値によってマ
ルチプレクサの出力に共通バスの値をバイパスして出力
するか、ＡＬＵでの演算結果を出力するかを選択できる
ように構成することによって、２進木状にバイパス制御
を行うことが可能なプロセッサについて開示されてい
る。このプロセッサにおいては、総和値を高速にて求め
ることが可能であるが、共通バスにマルチプレクサがＰ
Ｅ数だけ挿まれるために動作速度上の懸念がある。

【００１９】

【発明が解決しようとする課題】本発明は、少ない回路
規模を保ったまま、各ＰＥ間での総和値演算及びピーク
検出を行えるＳＩＭＤ型マイクロプロセッサを提供する
ことを目的とする。詳細に言うと、先ず、２のべき乗個
毎にセグメントに分割された全ＰＥ共通のデータバスを
設け、同時に複数個のデータのデータ転送を行なうこと
によって、総和値演算及びピーク検出を少ないサイクル
数で行うことを目的としている。また、プリチャージド
バスを用いることによって、上記のデータバスのデータ
転送速度を高速化することを目的としている。更に、無
効な値を持つＰＥを予め除外しておくことによって、正
確な特徴量検出を行うことを目的としている。

【００２０】

【課題を解決するための手段】本発明は、上記の目的を
達成するためになされたものである。本発明に係る請求
項１に記載のＳＩＭＤ型マイクロプロセッサは、複数の
データを同時に処理するための複数のプロセッサエレメ
ントを有するＳＩＭＤ型マイクロプロセッサである。そ
のＳＩＭＤ型マイクロプロセッサにおいて、全てのプロ
セッサエレメントを接続するが、少なくとも２個以上の
プロセッサエレメントを含むセグメントにより分割され
うる、第１のデータバスを備え、上記第１のデータバス
のセグメントの分割は、接続部分が制御されることによ
って変更され、上記第１のデータバスと各プロセッサエ
レメントに備わる演算レジスタとの間に、データ入出力
のための経路が備えられ、そのデータ入出力は、各プロ
セッサエレメントに備わる条件レジスタの値により制御
される。

【００２１】本発明に係る請求項２に記載のＳＩＭＤ型
マイクロプロセッサは、上記第１のデータバスを分割し
て形成される各セグメントの接続部分を挟む、接続部分
両側のプロセッサエレメントにおいて、一方のプロセッ
サエレメントの演算レジスタの値を、他方のプロセッサ
エレメントの算術論理演算器に入力する経路が設定され
ている、請求項１に記載のＳＩＭＤ型マイクロプロセッ
サである。

【００２２】本発明に係る請求項３に記載のＳＩＭＤ型
マイクロプロセッサは、複数のデータを同時に処理する
ための複数のプロセッサエレメントを有するＳＩＭＤ型
マイクロプロセッサである。そのＳＩＭＤ型マイクロプ
ロセッサにおいて、全てのプロセッサエレメントを接続
するが、少なくとも２個以上のプロセッサエレメントを
含むセグメントにより分割されうる、第１のデータバス
を備え、上記第１のデータバスのセグメントの分割は、
接続部分が制御されることによって変更され、各プロセ
ッサエレメントに備わる演算レジスタからデータを上記
第１のデータバスに出力する経路が備えられ、上記第１
のデータバスからデータが各プロセッサエレメントの算
術論理演算器に入力する経路が備えられ、各プロセッサ
エレメントに備わる演算レジスタから上記第１のデータ
バスへのデータの出力は、各プロセッサエレメントに備
わる条件レジスタの値により制御され、各プロセッサエ
レメントはマルチプレクサを有し、上記第１のデータバ
スからのデータが各プロセッサエレメントの算術論理演
算器に入力されるか否かが、該マルチプレクサによって
選択される。

【００２３】本発明に係る請求項４に記載のＳＩＭＤ型
マイクロプロセッサは、上記第１のデータバスが、プリ
チャージドバスであり、各セグメントを分割する媒介と
して、トランスミッションゲート若しくはパストランジ
スタが用いられている、請求項１乃至請求項３に記載の
ＳＩＭＤ型マイクロプロセッサである。

【００２４】本発明に係る請求項５に記載のＳＩＭＤ型
マイクロプロセッサは、各プロセッサエレメントに、識
別のための整数番号が順に付されており、ＳＩＭＤ型マ
イクロプロセッサに対する命令において上記識別番号の
範囲が指定されると、その範囲の識別番号が付されてい
るプロセッサエレメントにて備わる条件レジスタの格納
する値が、設定される、請求項１乃至請求項４に記載の
ＳＩＭＤ型マイクロプロセッサである。

【００２５】

【発明の実施の形態】以下、図面を参照して、本発明に
係る好適な実施形態を説明する。

【００２６】図１は、本発明に係るＳＩＭＤ型マイクロ
プロセッサ２の概略の構成を示すブロック図である。該
ＳＩＭＤ型マイクロプロセッサ２は、概略、グローバル
プロセッサ４、レジスタファイル６、及び演算アレイ８
から構成される。

【００２７】（１）グローバルプロセッサ４このグローバルプロセッサ４そのものは、いわゆるＳＩ
ＳＤ型のプロセッサであり、プログラムＲＡＭ１０とデ
ータＲＡＭ１２を内蔵し（図２参照）、プログラムを解
読し各種制御信号を生成する。この制御信号は内蔵する
各種ブロック以外に、レジスタファイル６、演算アレイ
８にも供給される。また、ＧＰ（グローバルプロセッ
サ）命令実行時は内蔵する汎用レジスタ、ＡＬＵ（算術
論理演算器）等を使用して各種演算処理、プログラム制
御処理をおこなう。

【００２８】（２）レジスタファイル６ＰＥ（プロセッサエレメント）命令で処理されるデータ
を保持している。ＰＥ（プロセッサエレメント）３は、
公知のように、ＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕ
ｃｔｉｏｎ−Ｓｔｒｅａｍ，ＭｕｌｔｉｐｌｅＤａｔ
ａ−Ｓｔｒｅａｍ）型プロセッサにおいて個別の演算を
実行する構成単位である。図２のレジスタファイル６及
び演算アレイ８が示すように、図２のＳＩＭＤ型マイク
ロプロセッサ２では２５６個のＰＥ３を含んでいる。上
記のＰＥ命令はＳＩＭＤ型の命令であり、レジスタファ
イル６に保持されている複数のデータに対し、同時に同
じ処理を行なう。このレジスタファイル６からのデータ
の読み出し／書き込みの制御はグローバルプロセッサ４
からの制御によって行なわれる。読み出されたデータは
演算アレイ８に送られ、演算アレイ８での演算処理後に
レジスタファイル６に書き込まれる。

【００２９】また、レジスタファイル６はプロセッサ２
外部からのアクセスが可能であり、グローバルプロセッ
サ４の制御とは別に、外部から特定のレジスタに対し読
み出し／書き込みが行なわれる。

【００３０】（３）演算アレイＰＥ命令の演算処理が行なわれる。処理の制御はすべて
グローバルプロセッサ４から行なわれる。

【００３１】図２は、本発明に係るＳＩＭＤ型マイクロ
プロセッサ２の、更に詳細な構成を示すブロック図であ
る。

【００３２】グローバルプロセッサ４には、本プロセッ
サ２のプログラム格納用のプログラムＲＡＭ１０と、演
算データ格納用のデータＲＡＭ１２が内蔵されている。
さらに、プログラムのアドレスを保持するプログラムカ
ウンタ（ＰＣ）１４、演算処理のデータ格納のための汎
用レジスタであるＧ０、Ｇ１、Ｇ２及びＧ３レジスタ
（１６、１８、２０、２２）、レジスタ退避・復帰時に
退避先データＲＡＭのアドレスを保持しているスタック
ポインタ（ＳＰ）２４、サブルーチンコール時にコール
元のアドレスを保持するリンクレジスタ（ＬＳ）２６、
同じくＩＲＱ（ＩｎｔｅｒｒｕｐｔＲｅＱｕｅｓｔ；
割込み要求）時とＮＭＩ（Ｎｏｎ−Ｍａｓｋａｂｌｅ
Ｉｎｔｅｒｒｕｐｔｒｅｑｕｅｓｔ；禁止不能割込み
要求）時の分岐元アドレスを保持するＬＩレジスタ２８
及びＬＮレジスタ３０、プロセッサの状態を保持してい
るプロセッサステータスレジスタ（Ｐ）３２が内蔵され
ている。

【００３３】これらのレジスタと、（図示していない）
命令デコーダ、ＡＬＵ、ＳＣＵ（シーケンシャルユニッ
ト）、メモリ制御回路、割り込み制御回路、外部Ｉ／Ｏ
制御回路及びＧＰ演算制御回路とを使用して、ＧＰ命令
の実行が行なわれる。

【００３４】また、ＰＥ命令実行時には、命令デコーダ
（図示せず。）、レジスタファイル制御回路（図示せ
ず。）、ＰＥ演算制御回路（図示せず。）を使用して、
レジスタファイル６の制御と演算アレイ８の制御を行な
う。さらに、データＲＡＭ１２から複数のＰＥレジスタ
ファイル６にデータを転送できるように、設定されてい
る。

【００３５】レジスタファイル６においては、１つのＰ
Ｅ単位に８ビットのレジスタ３４が３２本内蔵されてお
り、２５６個のＰＥ分の（３２本の）組が、アレイ構成
になっている。レジスタ３４はＰＥ毎に、Ｒ０、Ｒ１、
Ｒ２、．．．Ｒ３１と呼ばれる。それぞれのレジスタ３
４は、演算アレイ８に対して１つの読み出しポートと１
つの書き込みポートを備えており、８ビットのリード／
ライト兼用のバスで演算アレイ８からアクセスされる。
３２本のレジスタの内、２４本（Ｒ０〜Ｒ２３）はプロ
セッサ外部からアクセス可能であり、外部からはクロッ
ク（ＣＬＫ）とアドレス（Ａｄｄｒｅｓｓ）、リード／
ライト制御（ＲＷＢ）を入力することで、任意のレジス
タ３４に対し、読み書きできる。残りの８本（Ｒ２４〜
Ｒ３１）のレジスタ３４は、ＰＥ演算の一時的な演算デ
ータ保存用として使用される。

【００３６】演算アレイ８は、１６ビットＡＬＵ３６と
１６ビットＡレジスタ３８、Ｆレジスタ４０を内蔵して
いる。ＰＥ命令による演算は、レジスタファイル６から
読み出されたデータ若しくはグローバルプロセッサ４か
ら与えられたデータをＡＬＵ３６の片側の入力とし、Ａ
レジスタ３８の内容をもう片側の入力として、行なわれ
るものである。その演算結果は、Ａレジスタ３８に格納
される。したがって、Ｒ０〜Ｒ３１レジスタ３４若しく
はグローバルプロセッサ４から与えられたデータと、Ａ
レジスタ３８に格納されるデータとの、演算が行なわれ
ることになる。

【００３７】レジスタファイル６と演算アレイ８との接
続に、７ｔｏ１（７対１）のマルチプレクサ４２が置か
れている。図２に示すように、あるマルチプレクサ４２
から見て、左方向の３つのＰＥ３に含まれるＲ０〜Ｒ３
１レジスタ３４のデータと、右方向の３つのＰＥ３に含
まれるＲ０〜Ｒ３１レジスタ３４のデータと、自らが属
するＰＥ３に含まれるＲ０〜Ｒ３１レジスタ３４のデー
タを、演算対象として選択し得るように設定されてい
る。また、レジスタファイル６の８ビットのデータは、
シフト・拡張回路４４により任意のビット分だけ、左シ
フトしてＡＬＵ３６に入力する。

【００３８】さらに、（図３等に示す）８ビットの条件
レジスタ４６により、ＰＥ３別に演算実行の無効／有効
の制御をしており、特定のＰＥ３だけを演算対象として
選択できるようになっている。

【００３９】≪第１の実施形態≫図３は、本発明に係る
第１の実施形態のＳＩＭＤ型マイクロプロセッサ２の詳
細な構成を示すブロック図である。図２のＳＩＭＤ型マ
イクロプロセッサ２に対し、第１の実施形態を実現する
ために必要な構成要素を加えたものである。

【００４０】第１の実施形態のＳＩＭＤ型マイクロプロ
セッサ２は、共通データバス５０を備える。該共通デー
タバス５０には、各ＰＥ３のＡレジスタ３８から例えば
３ステートバッファ５２を介して、データが出力され
る。図３から明白なように、該３ステートバッファ５２
では、条件レジスタ４６の値が「イネーブル信号」とし
て用いられる。更に、各ＰＥ３においては、共通データ
バス５０から第２のマルチプレクサ５４を介してＡレジ
スタ３８にデータを入力し得るように構成されている。
この第２のマルチプレクサ５４は、各ＰＥ３の演算アレ
イ８において、１６ビットＡＬＵ３６、共通データバス
５０、及びＡレジスタ３８の間に配置される。１６ビッ
トＡＬＵ３６からの出力若しくは共通データバス５０か
らの出力が、該第２のマルチプレクサ５４に入力されて
選択され、Ａレジスタ３８にどちらかが出力される。

【００４１】第１の実施形態では、共通データバス５０
は、１６個のＰＥ３毎に接続器（ＪＴ１、ＪＴ２）５６
を介して接続されている。接続器（ＪＴ１、ＪＴ２）５
６は、そのポイントにおいて左右の共通データバス５０
を接続するか分断するかを選択し得るように構成されて
いる。また、グローバルプロセッサ４も共通データバス
５０からのデータを入力することが可能である。

【００４２】更に、第１の実施形態のＳＩＭＤ型マイク
ロプロセッサ２は、即値データバス５８を備える。該即
値データバス５８には、グローバルプロセッサ４からデ
ータが出力される。更に、各ＰＥ３の演算アレイ８にお
いて、シフト・拡張回路４４、即値データバス５８、及
び１６ビットＡＬＵ３６の間に、第３のマルチプレクサ
６０が配置される。シフト・拡張回路４４からの出力及
び即値データバス５８からの出力が、該第３のマルチプ
レクサ６０に入力されて選択され、１６ビットＡＬＵ３
６にどちらかが出力される。

【００４３】各ＰＥ３は、ＰＥ番号と呼ばれる通し番号
が付されている。本実施形態（及び後述の第２乃至第５
の実施形態）では、ＰＥの個数が２５６個であるので、
８ビットのビット列（即ち、００００００００ｂ〜１１
１１１１１１ｂの２５６通り。本明細書において、上記
のような末尾の“ｂ”は２進法表記であることを表
す。）が、各ＰＥ３にＰＥ番号データとして与えられ
る。このＰＥ番号を利用して、特定のＰＥ３を選択しそ
のＰＥ３の演算アレイ８に含まれる条件レジスタ４６
に、所定の値を設定することが可能である。そのように
特定のＰＥ３を選択できるように、各ＰＥ３の演算アレ
イ８には比較器４８が備えられている。

【００４４】比較器４８には、後で詳しく説明するが、
ビット指定データとビットマスクデータとからなるＰＥ
指定データと、ＰＥ番号データとが入力される。これら
ＰＥ指定データとＰＥ番号データとは何れも８ビット長
である。ビットマスクデータにおいてマスク指定がされ
ていないビットにおいてのみ、ビット指定データとＰＥ
番号データとが比較され、比較の結果が条件レジスタ４
６に書き込まれるように構成されている。

【００４５】なお、上記のＰＥ番号データは、各ＰＥ３
にて８ビットの入力端子を備えさせその端子をＶＣＣ若
しくはＧＮＤに結ぶ組み合わせを変えることにより、作
成している。

【００４６】＜第１の実施の形態における、総和値の計
算＞以上の本発明に係る第１の実施形態のＳＩＭＤ型マ
イクロプロセッサ２の構成を利用すると、以下のように
して総和値を求めることが可能である。

【００４７】総和値計算の対象データのビット幅は８ビ
ットであり、各ＰＥ３のＲ０レジスタに格納されている
とする。なお、総和計算対象データが１６ビットの場合
は、以下の処理過程を２回繰り返すことにより総和値が
求められるので、ここでは記述を省略する。

【００４８】まず、最初の処理として、ＰＥ３の１６個
毎での総和値を、最もＰＥ番号の小さいＰＥ（ＰＥ
［０］、ＰＥ［１６］、ＰＥ［３２］、・・・、ＰＥ
［２４０］）に格納する。（なお、例えば、ＰＥ番号が
“１６”であるＰＥは、上記のように、ＰＥ［１６］と
表すものとする。）詳細は次の通りになる。

【００４９】（１−１）・Ｒ０レジスタの値をＡレジ
スタにロード。（１−２）・Ａレジスタと、１つ後方（ＰＥ番号が大
きいことを“後方”と表現する。）のＰＥのＲ０レジス
タとの加算。（１−３）・演算結果の下位８ビットをテンポラリレ
ジスタＲ３０に格納。（１−４）・演算結果の上位８ビットを右に８ビット
シフトしてテンポラリレジスタＲ３１に格納。（１−５）・Ａレジスタと、２つ後方のＰＥのＲ３０
レジスタとの加算。（１−６）・Ａレジスタに、２つ後方のＰＥのＲ３１
レジスタの値を左に８ビットシフトして、加算。（１−７）・演算結果の下位８ビットを、３つ前方
（ＰＥ番号が小さいことを前方と表現する。）のＰＥの
Ｒ３０に格納。（１−８）・演算結果の上位８ビットを、右に８ビッ
トシフトして、３つ前方のＰＥのＲ３１に格納。（１−９）・Ａレジスタと、１つ後方のＰＥのＲ３０
レジスタとの加算。（１−１０）・Ａレジスタに、１つ後方のＰＥのＲ３
１レジスタの値を左に８ビットシフトして、加算。（１−１１）・演算結果の下位８ビットを、３つ前方
のＰＥのＲ３０に格納。（１−１２）・演算結果の上位８ビットを、右８ビッ
トシフトして、３つ前方のＰＥのＲ３１に格納。（１−１３）・３つ後方のＰＥのＲ３０レジスタの値
を、Ｆレジスタにロードし、Ｒ３０レジスタにライトバ
ック。（１−１４）・３つ後方のＰＥのＲ３１レジスタの値
を、Ｆレジスタにロードし、Ｒ３１レジスタにライトバ
ック。（１−１５）・Ａレジスタと、２つ後方のＰＥのＲ３
０レジスタとの加算（演算結果の下位８ビットをＲ３０
レジスタにライトバック）。（１−１６）・Ａレジスタに、２つ後方のＰＥのＲ３
１レジスタの値を左に８ビットシフトして、加算。

【００５０】図６は、以上の処理の過程において、各Ｐ
Ｅのレジスタに格納される値の変遷を図示している。図
６において、・ＳＵＭ（ＰＥ０〜ＰＥ３）は、処理の開始時において各ＰＥに格納されていたデー
タを、ＰＥ［０］からＰＥ［３］まで全て加算して生成
された値を略記したものである。

【００５１】以上の処理の過程においては、加算対象の
レジスタ（Ｒ３０、Ｒ３１のレジスタ）は処理過程が進
むにつれて、離れたＰＥに備わるレジスタになる。その
ため、例えば、上記の（１−１３）及び（１−１４）の
２サイクルは、データを離れたＰＥ間で移動させるため
に必要とされている処理である。これ以降の処理の過程
において、上記のようにＰＥ間を最大３つまで移動でき
る構成を用いて処理を進めていくとすると、移動量が２
のべき乗にて増加していき、よって（処理）サイクル数
が膨大なものになってしまう。

【００５２】そこで、本発明に係る第１の実施の形態で
は、以下のように処理を行うことで（処理）サイクル数
即ち演算時間を短縮している。

【００５３】（まず、「１−１５演算結果の下位８ビ
ットをＲ３０レジスタにライトバック」は上記処理で実
行済みである。）（２−１）・演算結果の上位８ビットを、右に８ビッ
トシフトしてＲ３１に格納。（２−２）・共通データバス５０の接続状態を、最小
セグメントに分割した状態（１６個のＰＥ毎に分断した
状態）にする。（２−３）・ＰＥ番号が１６×Ｎ（Ｎ＝０、１、２、
・・・、１５）であるＰＥの、条件レジスタ４６を
“１”に設定する。（即ち、ＰＥ指定データにおいて、
ビット指定データを００００００００ｂとし、ビットマ
スクデータを上位４ビットとする。）（２−４）・条件レジスタ４６が真（即ち、“１”）
のＰＥでは、Ａレジスタ３８の値を共通データバス５０
に出力。（２−５）・条件レジスタ４６が偽（即ち、“０”）
のＰＥでは、共通データバス５０からＡレジスタ３８に
値を設定。（２−６）・１つ前方のＰＥのＲ３０レジスタと、Ａ
レジスタ３８とを加算（演算結果の下位８ビットをＲ３
０レジスタにライトバック）。（２−７）・１つ前方のＰＥのＲ３１レジスタの値
を、左に８ビットシフトしてＡレジスタ３８と加算。

【００５４】（３−１）・演算結果の上位８ビット
を、右に８ビットシフトしてＲ３１レジスタに格納。（３−２）・共通データバス５０の接続状態を、３２
個のＰＥ毎に分断した状態にする。（３−３）・ＰＥ番号が３２×Ｎ＋１６（Ｎ＝０、
１、２、・・・、７）であるＰＥの、条件レジスタ４６
を“１”に設定する。（即ち、ＰＥ指定データにおい
て、ビット指定データを０００１００００ｂとし、ビッ
トマスクデータを上位３ビットとする。）（３−４）・条件レジスタ４６が真（即ち、“１”）
のＰＥでは、Ａレジスタ３８の値を共通データバス５０
に出力。（３−５）・条件レジスタ４６が偽（即ち、“０”）
のＰＥでは、共通データバス５０からＡレジスタ３８に
値を設定。（３−６）・１つ前方のＰＥのＲ３０レジスタと、Ａ
レジスタ３８とを加算（演算結果の下位８ビットをＲ３
０レジスタにライトバック）。（３−７）・１つ前方のＰＥのＲ３１レジスタの値
を、左に８ビットシフトしてＡレジスタ３８と加算。

【００５５】（４−１）・演算結果の上位８ビット
を、右に８ビットシフトしてＲ３１に格納。（４−２）・共通データバス５０の接続状態を、６４
個のＰＥ毎に分断した状態にする。（４−３）・ＰＥ番号が６４×Ｎ＋３２（Ｎ＝０、
１、２、３）であるＰＥの、条件レジスタ４６を“１”
に設定する。（即ち、ＰＥ指定データにおいて、ビット
指定データを００１０００００ｂとし、ビットマスクデ
ータを上位２ビットとする。）（４−４）・条件レジスタ４６が真（即ち、“１”）
のＰＥでは、Ａレジスタ３８の値を共通データバス５０
に出力。（４−５）・条件レジスタ４６が偽（即ち、“０”）
のＰＥでは、共通データバス５０からＡレジスタ３８に
値を設定。（４−６）・１つ前方のＰＥのＲ３０レジスタと、Ａ
レジスタ３８とを加算（演算結果の下位８ビットをＲ３
０レジスタにライトバック）。（４−７）・１つ前方のＰＥのＲ３１レジスタの値
を、左に８ビットシフトしてＡレジスタ３８と加算。

【００５６】（５−１）・演算結果の上位８ビット
を、右に８ビットシフトしてＲ３１に格納。（５−２）・共通データバス５０の接続状態を、１２
８個のＰＥ毎に分断した状態にする。（５−３）・ＰＥ番号が１２８×Ｎ＋６４（Ｎ＝０、
１）であるＰＥの、条件レジスタ４６を“１”に設定す
る。（即ち、ＰＥ指定データにおいて、ビット指定デー
タを０１００００００ｂとし、ビットマスクデータを上
位１ビットとする。）（５−４）・条件レジスタ４６が真（即ち、“１”）
のＰＥでは、Ａレジスタの値を共通データバス５０に出
力。（５−５）・条件レジスタ４６が偽（即ち、“０”）
のＰＥでは、共通データバス５０からＡレジスタ３８に
値を設定。（５−６）・１つ前方のＰＥのＲ３０レジスタと、Ａ
レジスタ３８とを加算。（５−７）・１つ前方のＰＥのＲ３１レジスタの値
を、左に８ビットシフトしてＡレジスタ３８と加算。

【００５７】図７は、以上の処理の過程において、各Ｐ
Ｅ３のレジスタに格納される値の変遷を図示している。
表記内容の意味は、図６と同じである。

【００５８】以上の処理によって、ＰＥ［１２８］のＡ
レジスタ３８に総和値を得ることができる。実際には、
処理全体を制御するグローバルプロセッサ４にデータを
転送しなければ、総和値の値によって全体処理を変更す
るということが実現できない。そこで、この第１の実施
の形態では、ＰＥ［１２８］のＡレジスタ３８の値を以
下のようにしてグローバルプロセッサ４に転送すればよ
い。

【００５９】（６−１）・共通データバス５０の接続
状態を、全て接続した状態にする。（６−２）・ＰＥ番号が１２８であるＰＥの条件レジ
スタ４６を“１”に設定する。（即ち、ＰＥ指定データ
において、ビット指定データを１０００００００ｂと
し、ビットマスクデータを無しとする。）（６−３）・条件レジスタ４６が真（即ち、“１”）
のＰＥすなわちＰＥ［１２８］は、Ａレジスタ３８の値
を共通データバス５０に出力。（６−４）・グローバルプロセッサ４の所望のレジス
タに、共通データバス５０の値を転送。

【００６０】上記の処理の過程において、・（２−２）と（２−３）・（３−２）と（３−３）・（４−２）と（４−３）・（５−２）と（５−３）・（６−１）と（６−２）の夫々の組は、１サイクルにて処理実行可能である。そ
うすると、前処理の１６サイクルと合わせて４３サイク
ルで総和値を得ることが可能である。また、・（２−４）と（２−５）・（３−４）と（３−５）・（４−４）と（４−５）・（５−４）と（５−５）・（６−３）と（６−４）の各々の組は、共通データバス５０の構造が動作速度的
に十分には速くない場合を想定して、２サイクルとして
いるが、共通データバス５０の動作速度を速くできれば
１サイクルで実行可能である。この場合、３８サイクル
で総和値を得られることになる。

【００６１】≪第２の実施形態≫図４は、本発明に係る
第２の実施形態のＳＩＭＤ型マイクロプロセッサ２の詳
細な構成を示すブロック図である。上記の第１の実施形
態のＳＩＭＤ型マイクロプロセッサ２の構成に対して、
共通データバス５０の接続器５６を挟んだ２個のＰＥ３
間で、データのやり取りをなし得る構成が付加されてい
る。図４では、ＰＥ［１５］のＡレジスタ３８のデータ
がＰＥ［１６］の第３のマルチプレクサ６０に入力され
る。よって、例えば、総和値演算を行う場合には、上記
のデータは１６ビットＡＬＵ３６に入力されることにな
る。

【００６２】＜第２の実施の形態における、総和値の計
算＞図４に示された本発明に係る第２の実施形態のＳＩ
ＭＤ型マイクロプロセッサ２の構成を利用することによ
り、第１の実施形態の説明で示した総和値の計算のサイ
クル数を削減することができる。以下において、第２の
実施形態のＳＩＭＤ型マイクロプロセッサ２の構成を利
用した総和値の計算を説明する。但し、第１の実施形態
の総和値計算の処理過程において、・（１−１）から（１−１６）、及び・（６−１）から（６−４）の処理については変更がないため、説明を省略する。

【００６３】（２−１）・共通データバス５０の接続
状態を、最小セグメントに分割した状態（１６個のＰＥ
毎に分断した状態）にする。（２−２）・ＰＥ番号が１６×Ｎ（Ｎ＝０、１、２、
・・・、１５）であるＰＥの、条件レジスタ４６を
“１”に設定する。（即ち、ＰＥ指定データにおいて、
ビット指定データを００００００００ｂとし、ビットマ
スクデータを上位４ビットとする。）（２−３）・条件レジスタ４６が真（即ち、“１”）
のＰＥでは、Ａレジスタ３８の値を共通データバス５０
に出力。（２−４）・条件レジスタ４６が偽（即ち、“０”）
のＰＥでは、共通データバス５０からＡレジスタ３８に
値を設定。（２−５）・１つ前方のＰＥのＡレジスタ３８の値
と、Ａレジスタ３８の値とを加算。

【００６４】（３−１）・共通データバス５０の接続
状態を、３２個のＰＥ毎に分断した状態にする。（３−２）・ＰＥ番号が３２×Ｎ＋１６（Ｎ＝０、
１、２、・・・、７）であるＰＥの、条件レジスタ４６
を“１”に設定する。（即ち、ＰＥ指定データにおい
て、ビット指定データを０００１００００ｂとし、ビッ
トマスクデータを上位３ビットとする。）（３−３）・条件レジスタ４６が真（即ち、“１”）
のＰＥでは、Ａレジスタ３８の値を共通データバス５０
に出力。（３−４）・条件レジスタ４６が偽（即ち、“０”）
のＰＥでは、共通データバス５０からＡレジスタ３８に
値を設定。（３−５）・１つ前方のＰＥのＡレジスタ３８の値
と、Ａレジスタ３８の値とを加算。

【００６５】（４−１）・共通データバス５０の接続
状態を、６４個のＰＥ毎に分断した状態にする。（４−２）・ＰＥ番号が６４×Ｎ＋３２（Ｎ＝０、
１、２、３）であるＰＥの、条件レジスタ４６を“１”
に設定する。（即ち、ＰＥ指定データにおいて、ビット
指定データを００１０００００ｂとし、ビットマスクデ
ータを上位２ビットとする。）（４−３）・条件レジスタ４６が真（即ち、“１”）
のＰＥでは、Ａレジスタ３８の値を共通データバス５０
に出力。（４−４）・条件レジスタ４６が偽（即ち、“０”）
のＰＥでは、共通データバス５０からＡレジスタ３８に
値を設定。（４−５）・１つ前方のＰＥのＡレジスタ３８の値
と、Ａレジスタ３８の値とを加算。

【００６６】（５−１）・共通データバス５０の接続
状態を、１２８個のＰＥ毎に分断した状態にする。（５−２）・ＰＥ番号が１２８×Ｎ＋６４（Ｎ＝０、
１）であるＰＥの、条件レジスタ４６を“１”に設定す
る。（即ち、ＰＥ指定データにおいて、ビット指定デー
タを０１００００００ｂとし、ビットマスクデータを上
位１ビットとする。）（５−３）・条件レジスタ４６が真（即ち、“１”）
のＰＥでは、Ａレジスタ３８の値を共通データバス５０
に出力。（５−４）・条件レジスタ４６が偽（即ち、“０”）
のＰＥでは、共通データバス５０からＡレジスタ３８に
値を設定。（５−５）・１つ前方のＰＥのＡレジスタ３８の値
と、Ａレジスタ３８の値とを加算。

【００６７】図８は、以上の処理の過程において、各Ｐ
Ｅのレジスタに格納される値の変遷を図示している。表
記内容の意味は、図６と同じである。

【００６８】以上の処理によって、ＰＥ［１２８］のＡ
レジスタ３８に総和値を得ることができる。

【００６９】上記の処理の過程において、・（２−１）と（２−２）・（３−１）と（３−２）・（４−１）と（４−２）・（５−１）と（５−２）・（６−１）と（６−２）の夫々の組は、１サイクルにて処理実行可能である。そ
うすると、前処理の１６サイクルと合わせて３５サイク
ルで総和値を得ることが可能である。また、・（２−３）と（２−４）・（３−３）と（３−４）・（４−３）と（４−４）・（５−３）と（５−４）・（６−３）と（６−４）の各々の組は、共通データバス５０の構造が動作速度的
に十分に速くない場合を想定して、２サイクルとしてい
るが、共通データバス５０の動作速度を速くできれば１
サイクルで実行可能である。この場合、３０サイクルで
総和値を得ることが可能である。

【００７０】≪第３の実施形態≫図５は、本発明に係る
第３の実施形態のＳＩＭＤ型マイクロプロセッサ２の詳
細な構成を示すブロック図である。上述の第１の実施形
態のＳＩＭＤ型マイクロプロセッサ２（図３参照）の構
成と比較すると、各ＰＥ３の演算アレイ８内の第２のマ
ルチプレクサ５４が除かれた構成になっている。従っ
て、１６ビットＡＬＵ３６とＡレジスタ３８とが直接繋
がる。

【００７１】一方、上述の第１の実施形態のＳＩＭＤ型
マイクロプロセッサ２（図３参照）の構成に対して、共
通データバス５０から各ＰＥ３の１６ビットＡＬＵ３６
に入力する経路６２が、更に付加されている。即ち、共
通データバス５０から出力されたデータは、まず第３の
マルチプレクサ６０に入力される。第３のマルチプレク
サ６０は、通常のインストラクションを実行する際には
即値データバス５８あるいはレジスタ３４から出力され
たデータを、１６ビットＡＬＵ３６に入力するが、総和
値の計算を行う際には、共通データバス５０から出力さ
れたデータをも、１６ビットＡＬＵ３６に入力するよう
に構成されている。

【００７２】＜第３の実施の形態における、総和値の計
算＞図５に示された本発明に係る第３の実施形態のＳＩ
ＭＤ型マイクロプロセッサ２の構成を利用することによ
り、第１の実施形態の説明で示した総和値の計算のサイ
クル数と、第２の実施形態の説明で示した総和値の計算
のサイクル数との、何れよりも少ないサイクル数で総和
値計算を行うことができる。以下において、第３の実施
形態のＳＩＭＤ型マイクロプロセッサ２の構成を利用し
た総和値の計算を説明する。

【００７３】まず、最初の処理として、ＰＥ３の８個毎
での総和値を、最もＰＥ番号の小さいＰＥ（ＰＥ
［０］，ＰＥ［８］，ＰＥ［１６］、・・・、ＰＥ［２
４０］、ＰＥ［２４８］）に格納する。その詳細は次の
通りになる。

【００７４】（１−１）・Ｒ０レジスタの値をＡレジ
スタにロード。（１−２）・Ａレジスタと、１つ後方（ＰＥ番号が多
いことを“後方”と表現する。）のＰＥのＲ０レジスタ
との加算。（１−３）・演算結果の下位８ビットをテンポラリレ
ジスタＲ３０に格納。（１−４）・演算結果の上位８ビットを右に８ビット
シフトしてテンポラリレジスタＲ３１に格納。（１−５）・Ａレジスタと、２つ後方のＰＥのＲ３０
レジスタとの加算。（１−６）・Ａレジスタに、２つ後方のＰＥのＲ３１
レジスタの値を左に８ビットシフトして、加算。（１−７）・演算結果の下位８ビットを、３つ前方
（ＰＥ番号が少ないことを“前方”と表現する。）のＰ
ＥのＲ３０に格納。（１−８）・演算結果の上位８ビットを、右に８ビッ
トシフトして、３つ前方のＰＥのＲ３１に格納。（１−９）・Ａレジスタと、１つ後方のＰＥのＲ３０
レジスタとの加算。（１−１０）・Ａレジスタに、１つ後方のＰＥのＲ３
１レジスタの値を左に８ビットシフトして、加算。

【００７５】上記の詳細な処理はＰＥの８個毎での総和
値の計算に関するものであるから、ＰＥの１６個毎での
総和値の計算に関するものである第１の実施形態及び第
２の実施形態での最初の処理よりも、６サイクル少な
い。

【００７６】上記以降は、以下のようにして総和値を求
めることができる。

【００７７】（２−１）・共通データバス５０の接続
状態を、最小セグメントに分割した状態（１６個のＰＥ
毎に分断した状態）にする。（２−２）・ＰＥ番号が１６×Ｎ＋８（Ｎ＝０、１、
２、・・・、１５）であるＰＥの、条件レジスタ４６を
“１”に設定する。（即ち、ＰＥ指定データにおいて、
ビット指定データを００００１０００ｂとし、ビットマ
スクデータを上位４ビットとする。）（２−３）・条件レジスタ４６が真（即ち、“１”）
のＰＥでは、Ａレジスタ３８の値を共通データバス５０
に出力。（２−４）・条件レジスタ４６が偽（即ち、“０”）
のＰＥでは、共通データバス５０の値と、Ａレジスタ３
８の値とを、加算。

【００７８】（３−１）・共通データバス５０の接続
状態を、３２個のＰＥ毎に分断した状態にする。（３−２）・ＰＥ番号が３２×Ｎ＋１６（Ｎ＝０、
１、２、・・・、７）であるＰＥの、条件レジスタ４６
を“１”に設定する。（即ち、ＰＥ指定データにおい
て、ビット指定データを０００１００００ｂとし、ビッ
トマスクデータを上位３ビットとする。）（３−３）・条件レジスタ４６が真（即ち、“１”）
のＰＥでは、Ａレジスタ３８の値を共通データバス５０
に出力。（３−４）・条件レジスタ４６が偽（即ち、“０”）
のＰＥでは、共通データバス５０の値と、Ａレジスタ３
８の値とを、加算。

【００７９】（４−１）・共通データバス５０の接続
状態を、６４個のＰＥ毎に分断した状態にする。（４−２）・ＰＥ番号が６４×Ｎ＋３２（Ｎ＝０、
１、２、３）であるＰＥの、条件レジスタ４６を“１”
に設定する。（即ち、ＰＥ指定データにおいて、ビット
指定データを００１０００００ｂとし、ビットマスクデ
ータを上位２ビットとする。）（４−３）・条件レジスタ４６が真（即ち、“１”）
のＰＥでは、Ａレジスタ３８の値を共通データバス５０
に出力。（４−４）・条件レジスタ４６が偽（即ち、“０”）
のＰＥでは、共通データバス５０の値と、Ａレジスタ３
８の値とを、加算。

【００８０】（５−１）・共通データバス５０の接続
状態を、１２８個のＰＥ毎に分断した状態にする。（５−２）・ＰＥ番号が１２８×Ｎ＋６４（Ｎ＝０、
１）であるＰＥの、条件レジスタ４６を“１”に設定す
る。（即ち、ＰＥ指定データにおいて、ビット指定デー
タを０１００００００ｂとし、ビットマスクデータを上
位１ビットとする。）（５−３）・条件レジスタ４６が真（即ち、“１”）
のＰＥでは、Ａレジスタ３８の値を共通データバス５０
に出力。（５−４）・条件レジスタ４６が偽（即ち、“０”）
のＰＥでは、共通データバス５０の値と、Ａレジスタ３
８の値とを、加算。

【００８１】（６−１）・共通データバス５０の接続
状態を、２５６個のＰＥ毎に分断した状態にする（本実
施形態では、分断が無い。）。（６−２）・ＰＥ番号が１２８であるＰＥの、条件レ
ジスタ４６を“１”に設定する。（即ち、ＰＥ指定デー
タにおいて、ビット指定データを１０００００００ｂと
し、ビットマスクデータを無しとする。）（６−３）・条件レジスタ４６が真（即ち、“１”）
のＰＥでは、Ａレジスタ３８の値を共通データバス５０
に出力。（６−４）・条件レジスタ４６が偽（即ち、“０”）
のＰＥでは、共通データバス５０の値と、Ａレジスタ３
８の値とを、加算。

【００８２】（７−１）・ＰＥ番号が０であるＰＥ
の、条件レジスタ４６を“１”に設定する。（７−２）・条件レジスタが真（即ち、“１”）のＰ
Ｅでは、Ａレジスタ３８の値を共通データバス５０に出
力。（７−３）・共通データバス５０の値を、グローバル
レジスタ４の所望のレジスタに転送。

【００８３】図９は、以上の処理の過程において、各Ｐ
Ｅのレジスタに格納される値の変遷を図示している。表
記内容の意味は、図６と同じである。以上の処理によっ
て、ＰＥ［０］のＡレジスタ３８に総和値を得ることが
できる。

【００８４】上記の処理の過程において、・（２−１）と（２−２）・（３−１）と（３−２）・（４−１）と（４−２）・（５−１）と（５−２）・（６−１）と（６−２）の夫々の組は、１サイクルで処理実行可能である。そう
すると、前処理の１０サイクルと合わせて２８サイクル
で総和値を得ることが可能である。

【００８５】以上の第１の実施形態、第２の実施形態及
び第３の実施形態においては、総和値計算についてのみ
示してきたが、ピーク検出も同様にして行うことが可能
である。即ち、総和値計算の時に加算命令を使ったのと
同様に、飽和演算命令（ｉｆＡ＞ＢｔｈｅｎＡ＝Ｂ
あるいはｉｆＡ＜ＢｔｈｅｎＡ＝Ｂという
ような命令）を用いればピーク検出ができる。

【００８６】≪第４の実施の形態≫図３の第１の実施形
態のＳＩＭＤ型マイクロプロセッサ２、図４の第２の実
施形態のＳＩＭＤ型マイクロプロセッサ２、及び図５の
第３の実施形態のＳＩＭＤ型マイクロプロセッサ２にお
いては、各ＰＥ３のＡレジスタ３８から３ステートバッ
ファ５２を介して、該共通データバス５０にデータが出
力される。

【００８７】ここで、共通データバス５０の遷移時間を
短くするために、３ステートバッファ５２を利用するの
ではなく、以下に示すようにプリチャージドバスを利用
して本発明に係るＳＩＭＤ型マイクロプロセッサ２を構
成することができる。図１０は、プリチャージドバスを
利用した、本発明に係る第４の実施形態のＳＩＭＤ型マ
イクロプロセッサ２の構成、特に、共通データバス５０
に係る部位の構成を示す部分ブロック図である。図１０
の構成を備えるＳＩＭＤ型マイクロプロセッサ２は、上
述の第１の実施形態及び第２の実施形態のＳＩＭＤ型マ
イクロプロセッサ２と、同一の機能を備えるものであ
る。

【００８８】図１０の第４の実施形態のＳＩＭＤ型マイ
クロプロセッサ２において、共通データバス５０は１６
個のＰＥ３毎に、接続器（トランスミッションゲート）
５６によって接続されている。接続器（トランスミッシ
ョンゲート）５６のオン・オフは制御信号によって、グ
ローバルプロセッサ４により制御される。

【００８９】共通データバス５０には、１６個のＰＥ３
毎に、プリチャージ用のＰＭＯＳトランジスタ６４が接
続されている。プリチャージ期間にて、ＰＣＫ１信号
を、“Ｌｏｗ”電位とすることで、共通データバス５０
の電位を、“Ｈｉｇｈ”電位にプリチャージする。

【００９０】ディスチャージ期間には、ＰＣＫ１信号は
“Ｈｉｇｈ”電位とされる。すると、該ＰＭＯＳトラン
ジスタ６４は“オフ”の状態となるが、ＰＭＯＳトラン
ジスタ６６及びインバータ６８の作用により、インバー
タ６８の出力が“Ｌｏｗ”電位に且つ共通データバス５
０の電位が“Ｈｉｇｈ”電位に保たれようとする。この
ＰＭＯＳトランジスタ６６は、上記のように共通データ
バスの電位が“Ｈｉｇｈ”電位に保たれるための、最小
限のサイズのものが望ましい。

【００９１】さて、ディスチャージ期間には、ＰＣＫ
１’信号は、“Ｈｉｇｈ”信号とされる。（１）このとき、各ＰＥ３において、条件レジスタ４６
の値が“Ｈｉｇｈ”電位であり（即ち、真であり）Ａレ
ジスタ３８の値が“Ｌｏｗ”電位であるならば、ＡＮＤ
ゲート７０の出力は“Ｈｉｇｈ”電位となる。結局、Ｎ
ＭＯＳトランジスタ７２、７４の両方が“オン”状態と
なるため共通データバス５０の電位が“Ｌｏｗ”電位に
引き落とされる（ディスチャージされる）。（２）各ＰＥ３において、条件レジスタ４６の値が“Ｈ
ｉｇｈ”電位であり（即ち、真であり）Ａレジスタ３８
の値が“Ｈｉｇｈ”電位であるならば、ＡＮＤゲート７
０の出力は“Ｌｏｗ”電位となる。結局、ＮＭＯＳトラ
ンジスタ７２が“オフ”状態を継続するため、共通デー
タバス５０の電位がディスチャージされることはない。（３）一方、各ＰＥ３において、条件レジスタ４６の値
が“Ｌｏｗ”電位である（即ち、偽である）場合を想定
する。このとき、ＡＮＤゲート７０の出力は“Ｌｏｗ”
電位となり、ＮＭＯＳトランジスタ７２が“オフ”状態
を継続する。これら、（１）（２）及び（３）の事象か
ら、例えば、・２個の接続器（トランスミッションゲート）５６が閉
じられ・両者（２個の接続器５６）の間の共通データバス５０
が接続状態であり、・両者（２個の接続器５６）の間のＰＥ３において、あ
る１つのＰＥ３の条件レジスタ４６だけが真であり、他
のＰＥ３においては全て条件レジスタ４６は偽であるな
らば、条件レジスタ４６が真であるＰＥの、Ａレジスタ
３８の値が、共通データバス５０に出力されることにな
る。

【００９２】≪第５の実施の形態≫上記の第４の実施形
態のＳＩＭＤ型マイクロプロセッサ２では、共通データ
バス５０の遷移時間を短くするために、プリチャージド
バスを利用して本発明に係るＳＩＭＤ型マイクロプロセ
ッサ２を構成している。しかし、上記のような構成にお
いては、共通データバス５０に備わる全ての接続器５６
が開けられている場合、その一体となった共通データバ
ス５０に全ての（２５６個の）ＰＥ３のＮＭＯＳトラン
ジスタ７２が“ぶら下がる”ことになる。そうすると、
それら２５６個のＮＭＯＳトランジスタ７２の「ドレイ
ン容量」起因による速度低下が無視し得ず顕在化し、問
題となることが予測される。

【００９３】また、接続器（トランスミッションゲー
ト）５６が、多重にスタックすることになるが、このこ
とも動作速度を低下させる要因となり得る。この問題点
は、プリチャージドバスの仕組みを利用せずに３ステー
トバッファ５２を利用するＳＩＭＤ型マイクロプロセッ
サ２においても、生じ得る問題点である。

【００９４】図１１は、本発明に係る第５の実施形態の
ＳＩＭＤ型マイクロプロセッサ２の部分ブロック図であ
る。図１０と同様に、特に、共通データバス５０に係る
部位の構成を示す。この第５の実施形態のＳＩＭＤ型マ
イクロプロセッサ２は、プリチャージドバスの仕組みを
利用しながらも、上記の２つの問題点を解消するもので
ある。図１１の構成を備えるＳＩＭＤ型マイクロプロセ
ッサ２も、上述の第１の実施形態及び第２の実施形態の
ＳＩＭＤ型マイクロプロセッサ２と、同一の機能を備え
るものである。

【００９５】図１１の第５の実施形態のＳＩＭＤ型マイ
クロプロセッサ２においては、第２の共通データバス７
６を備える。第２の共通データバス７６は、６４個のＰ
Ｅ３毎に、第２の接続器（トランスミッションゲート）
７８により接続されている。即ち、６４個のＰＥ３を最
小セグメントとし、４つの該セグメントを接続器（トラ
ンスミッションゲート）７８で接続している。

【００９６】また、１６個のＰＥ毎に、バス接続制御部
８０が備わる。このバス接続制御部８０は、共通データ
バス５０と、第２の共通データバス７６との、データ転
送を制御している。なお、共通データバス５０の接続
（即ち、セグメント分割）に関しては、図１０に示され
る第４の実施形態の場合と同様であるが、６４個のＰＥ
毎に完全に切断されており（即ち、完全にセグメントが
分割されており）、共通データバス５０においては６４
個以上のＰＥ３のセグメントを形成できないように構成
されている。

【００９７】バス接続制御部８０は、・（前に説明した）共通データバス５０のプリチャージ
及びチャージ保持を行うＰＭＯＳトランジスタ６４、６
６、及びインバータ６８と、・第２の共通データバス７６のディスチャージを制御す
るＮＭＯＳトランジスタ８２、８４と、・第２の共通データバス７６が“Ｌｏｗ”電位の場合に
て、必要時に共通データバス５０をディスチャージする
ためのＮＭＯＳトランジスタ８６、８８、及びインバー
タ９０とから構成されている。

【００９８】ＮＭＯＳトランジスタ８２は、インバータ
６８の出力をゲート入力に持ち、ＮＭＯＳトランジスタ
８４は、制御信号ＰＣＫ２をゲート入力に持つ。また、
ＮＭＯＳトランジスタ８６は、インバータ９０の出力を
ゲート入力に持ち、ＮＭＯＳトランジスタ８８は、制御
信号ＰＣＫ２’をゲート入力に持つ。

【００９９】また、第５の実施形態のＳＩＭＤ型マイク
ロプロセッサ２は、６４個のＰＥ３毎に、ＰＭＯＳトラ
ンジスタ９２、９４、及びインバータ９６を備えてい
る。それらは、第２の共通データバス７６のプリチャー
ジやチャージの保持にて用いられる。ＰＭＯＳトランジ
スタ９２は、プリチャージ期間には制御信号ＰＣＫ３が
“Ｌｏｗ”電位に設定されるので、第２の共通データバ
ス７６をプリチャージすることになる。ディスチャージ
期間には、ＰＣＫ３信号が“Ｈｉｇｈ”電位とされる。
すると、該ＰＭＯＳトランジスタ９２は“オフ”の状態
になるが、ＰＭＯＳトランジスタ９４及びインバータ９
６の作用により、インバータ９６の出力が“Ｌｏｗ”電
位に且つ第２の共通データバス７６の電位が“Ｈｉｇ
ｈ”電位に保たれようとする。

【０１００】制御信号ＰＣＫ２、及び制御信号ＰＣＫ
２’は、６４個未満のＰＥ３（２のべき乗では３２ＰＥ
以内）のセグメントの区分で演算を行なう場合には、
“Ｌｏｗ”電位に固定されるよう制御される。このこと
により、共通データバス５０と第２の共通データバス７
６との間ではデータ転送が行われず、結局、図１０の第
４の実施形態の構成の場合と同様に、共通データバス５
０のみを利用するデータ転送が行われることになる。

【０１０１】６４個以上のＰＥ３のセグメントの区分で
演算処理を行なう場合には、制御信号ＰＣＫ２、制御信
号ＰＣＫ２’は、プリチャージ期間には“Ｌｏｗ”電位
となり、ディスチャージ期間には“Ｈｉｇｈ”電位とな
るように制御される。

【０１０２】ディスチャージ期間において、共通データ
バス５０が、条件レジスタ４６の値が真であるＰＥ３
の、ＮＭＯＳトランジスタ７２（及びＮＭＯＳトランジ
スタ７４）によってディスチャージされると、インバー
タ６８の出力が“Ｈｉｇｈ”電位となる。すると、ＮＭ
ＯＳトランジスタ８２が“オン”の状態になり、結局、
第２の共通データバス７６がディスチャージされること
になる。条件レジスタ４６の値が偽であるＰＥ３のみを
含む、１６個のＰＥブロック（即ち、接続器５６と接続
器５６の間の１６個のＰＥ３群）では、どのＮＭＯＳト
ランジスタ７２も“オン”の状態にならないため（それ
らＮＭＯＳトランジスタ７２によっては）共通データバ
ス５０がディスチャージされない。しかし、第２の共通
データバス７６が上記のようにディスチャージされる
と、インバータ９０の出力が“Ｈｉｇｈ”電位となり、
ＮＭＯＳトランジスタ８６が“オン”の状態になって、
上記の１６個のＰＥブロックにおいても結局、共通デー
タバス５０がディスチャージされることになる。

【０１０３】上記の場合に、接続器（トランスミッショ
ンゲート）５６を“オン”の状態にしていても、論理的
には問題は生じない。しかし、ドレイン容量が増加し共
通データバス５０をディスチャージする速度が低下する
ため、６４個以上のＰＥ３のセグメントの区分で演算処
理を行なう場合には、全ての接続器（トランスミッショ
ンゲート）５６を“オフ”の状態にしておく方が、全体
の処理の高速化に繋がる。

【０１０４】本発明に係る第５の実施形態に示される構
成を利用すると、相当に長いセグメントの区分による演
算処理が必要な場合でも、共通データバス５０には１６
個のドレイン、１６個のマルチプレクス５４、バス接続
制御部８０内の数個のドレイン、ゲートによる容量しか
「ぶら下がらない」ため、高速の動作が可能になる。第
２のデータバス７６には、最大でも１６個のドレイン容
量、１６個のインバータ９０のゲート容量、及び、４セ
ットのプリチャージ保持部しか「ぶら下がらない」こと
になり、こちらも高速の動作が可能になる。

【０１０５】更に、接続器（トランスミッションゲー
ト）５６、７８のスタックについても、データバス５０
及び第２のデータバス７６の両方とも、夫々最大で４段
までしかスタックしないこととなるため、高速の動作が
可能になる。

【０１０６】≪第６の実施形態≫図１２は、本発明に係
る第６の実施形態の、ＳＩＭＤ型マイクロプロセッサ２
にて備えられる条件レジスタ４６設定のための比較器４
８の構成を、図示している。図１２では、グローバルプ
ロセッサ４内に関する構成の一部分と、プロセッサエレ
メント３内に関する構成の一部分とを、示す。

【０１０７】上述の第１の実施形態乃至第３の実施形態
のＳＩＭＤ型マイクロプロセッサ２では、グローバルプ
ロセッサ４からプロセッサエレメント３へ、ビット指定
データ及びビットマスクデータがＰＥ指定データとして
伝送される。この第６の実施形態のＳＩＭＤ型マイクロ
プロセッサ２では、グローバルプロセッサ４からプロセ
ッサエレメント３へ、「ＰＥの有効範囲の下限」及び
「ＰＥの有効範囲の上限」がＰＥ指定データとして伝送
される。即ち、ＰＥ番号データが「ＰＥの有効範囲の下
限」及び「ＰＥの有効範囲の上限」の範囲にあるか否か
によって、条件レジスタ４６への設定値を決定する。

【０１０８】比較器４８において、上記のような範囲指
定に係る命令が実行される際には、コンパレータ９８が
利用される。コンパレータ９８に対して、ＰＥ番号デー
タ、「ＰＥの有効範囲の下限データ（ＰＥＬデータ）」
及び「ＰＥの有効範囲の上限（ＰＥＨデータ）」が入力
され、ＰＥ番号が有効範囲に在るか否かが判断される。
その結果、ＰＥ番号が有効範囲に在る場合、条件レジス
タ４６の値が真（即ち、“１”）に設定され、ＰＥ番号
が有効範囲に無い場合、偽（即ち、“０”）に設定され
る。

【０１０９】本実施形態のＳＩＭＤ型マイクロプロセッ
サ２を用いると、ＰＥ番号が特定の範囲にあるＰＥ３の
みに対し、所定の処理を行うことができる。例えば、Ｐ
Ｅ番号が特定の範囲外であるＰＥ３の（レジスタ）デー
タを、０に設定できる。下記にその処理の例を示す。こ
の処理を無効なデータが混入しているＰＥの（レジス
タ）データに対して、例えば総和値計算の前に行なって
おくと、それらＰＥ３の（レジスタ）データを０に設定
することが可能となるため、無効なデータが総和値計算
に影響を与えることがなくなる。

【０１１０】（０−１）・全てのＰＥ３のＡレジスタ
３８に０を設定する（０−２）・ＰＥ番号が特定の範囲にあるＰＥ３の条
件レジスタ４６を真（即ち、“１”）に設定する。（０−３）・条件レジスタ４６が真であるＰＥ３のみ
Ｒ０レジスタの値をＡレジスタ３８にロードする。

【０１１１】

【発明の効果】本発明に係る第１の実施形態のＳＩＭＤ
型マイクロプロセッサ２においては、ＰＥに関して２の
べき乗個毎のセグメントに分割し、そのセグメントを貫
通するデータバスを利用する。このことにより、同時に
多数個間のＰＥでのデータ転送が可能となり、総和値、
ピーク値といったＳＩＭＤプロセッサが本来苦手として
いる演算を少ないサイクル数で行うことができる。

【０１１２】本発明に係る第２の実施形態のＳＩＭＤ型
マイクロプロセッサ２においては、セグメント同士の接
続部の前後のＰＥ間にて、データ転送を行うデータ転送
経路を設けている。このことにより、ＰＥレジスタを使
わずにＰＥ間のデータ転送を行うことができ、第１の実
施形態のＳＩＭＤ型マイクロプロセッサ２よりも少ない
サイクル数で演算を行うことができる。

【０１１３】本発明に係る第３の実施形態のＳＩＭＤ型
マイクロプロセッサ２においては、ＰＥに関して２のべ
き乗個毎のセグメントに分割し、そのセグメントを貫通
するデータバスを利用するのであるが、そのデータバス
から直接に信号（値）を各ＰＥのＡＬＵに入力して演算
を行うことができる。このことにより、第１の実施形態
及び第２の実施形態のＳＩＭＤ型マイクロプロセッサ２
よりも少ないサイクル数で演算を行うことができる。

【０１１４】本発明に係る第４の実施形態のＳＩＭＤ型
マイクロプロセッサ２においては、ＰＥに関して２のべ
き乗個毎のセグメントに分割し、そのセグメントを貫通
するデータバスを用いたデータ転送速度を、より高速化
することができる。

【０１１５】本発明に係る第５の実施形態のＳＩＭＤ型
マイクロプロセッサ２においては、上記の第４の実施形
態のＳＩＭＤ型マイクロプロセッサ２におけるデータバ
スのデータ転送速度を更に高速化できる。

【０１１６】本発明に係る第６の実施形態のＳＩＭＤ型
マイクロプロセッサ２においては、レジスタに無効なデ
ータが格納されているＰＥに関して、予め演算対象から
除外することが可能となる。よって、マイクロプロセッ
サに対する適切なプログラムを作成し使用することによ
って最適な特性値を求めることができる。

【図面の簡単な説明】

【図１】本発明に係るＳＩＭＤ型マイクロプロセッサ
の概略の構成を示すブロック図である。

【図２】本発明に係るＳＩＭＤ型マイクロプロセッサ
の更に詳細な構成を示すブロック図である。

【図３】本発明に係る第１の実施形態のＳＩＭＤ型マ
イクロプロセッサの詳細な構成を示すブロック図であ
る。

【図４】本発明に係る第２の実施形態のＳＩＭＤ型マ
イクロプロセッサの詳細な構成を示すブロック図であ
る。

【図５】本発明に係る第３の実施形態のＳＩＭＤ型マ
イクロプロセッサの詳細な構成を示すブロック図であ
る。

【図６】第１の実施形態のＳＩＭＤ型マイクロプロセ
ッサにおける総和値計算の処理（の前半部）において、
各ＰＥのレジスタに格納される値の変遷を図示してい
る。

【図７】第１の実施形態のＳＩＭＤ型マイクロプロセ
ッサにおける総和値計算の処理（の後半部）において、
各ＰＥのレジスタに格納される値の変遷を図示してい
る。

【図８】第２の実施形態のＳＩＭＤ型マイクロプロセ
ッサにおける総和値計算の処理（の後半部）において、
各ＰＥのレジスタに格納される値の変遷を図示してい
る。

【図９】第３の実施形態のＳＩＭＤ型マイクロプロセ
ッサにおける総和値計算の処理において、各ＰＥのレジ
スタに格納される値の変遷を図示している。

【図１０】本発明に係る第４の実施形態のＳＩＭＤ型
マイクロプロセッサの共通データバスに係る部位の構成
を示す部分ブロック図である。

【図１１】本発明に係る第５の実施形態のＳＩＭＤ型
マイクロプロセッサの共通データバスに係る部位の構成
を示す部分ブロック図である。

【図１２】本発明に係る第６の実施形態のＳＩＭＤ型
マイクロプロセッサにて備えられる、条件レジスタ設定
のための比較器の構成を図示する部分ブロック図であ
る。

【符号の説明】

２・・・ＳＩＭＤ型マイクロプロセッサ、３・・・プロ
セッサエレメント、４グローバルプロセッサ、６・・・
レジスタファイル、８・・・演算アレイ、３６・・・１
６ビットＡＬＵ、３８・・・Ａレジスタ、４６・・・条
件レジスタ、４８・・・比較器、５０・・・共通データ
バス、５６・・・接続器、７６・・・第２の共通データ
バス、７８・・・第２の接続器、８０・・・バス接続制
御部、９８・・・コンパレータ。

Claims

【特許請求の範囲】

【請求項１】複数のデータを同時に処理するための複
数のプロセッサエレメントを有するＳＩＭＤ型マイクロ
プロセッサにおいて、全てのプロセッサエレメントを接続するが、少なくとも
２個以上のプロセッサエレメントを含むセグメントによ
り分割されうる、第１のデータバスを備え、上記第１のデータバスのセグメントの分割は、接続部分
が制御されることによって変更され、上記第１のデータバスと各プロセッサエレメントに備わ
る演算レジスタとの間に、データ入出力のための経路が
備えられ、そのデータ入出力は、各プロセッサエレメントに備わる
条件レジスタの値により制御される、ＳＩＭＤ型マイクロプロセッサ。
【請求項２】上記第１のデータバスを分割して形成さ
れる各セグメントの接続部分を挟む、接続部分両側のプ
ロセッサエレメントにおいて、一方のプロセッサエレメントの演算レジスタの値を、他
方のプロセッサエレメントの算術論理演算器に入力する
経路が設定されている、請求項１に記載のＳＩＭＤ型マイクロプロセッサ。
【請求項３】複数のデータを同時に処理するための複
数のプロセッサエレメントを有するＳＩＭＤ型マイクロ
プロセッサにおいて、全てのプロセッサエレメントを接続するが、少なくとも
２個以上のプロセッサエレメントを含むセグメントによ
り分割されうる、第１のデータバスを備え、上記第１のデータバスのセグメントの分割は、接続部分
が制御されることによって変更され、各プロセッサエレメントに備わる演算レジスタからデー
タを上記第１のデータバスに出力する経路が備えられ、上記第１のデータバスからデータが各プロセッサエレメ
ントの算術論理演算器に入力する経路が備えられ、各プロセッサエレメントに備わる演算レジスタから上記
第１のデータバスへのデータの出力は、各プロセッサエ
レメントに備わる条件レジスタの値により制御され、各プロセッサエレメントはマルチプレクサを有し、上記
第１のデータバスからのデータが各プロセッサエレメン
トの算術論理演算器に入力されるか否かが、該マルチプ
レクサによって選択される、ＳＩＭＤ型マイクロプロセッサ。
【請求項４】上記第１のデータバスが、プリチャージ
ドバスであり、各セグメントを分割する媒介として、トランスミッショ
ンゲート若しくはパストランジスタが用いられている、請求項１乃至請求項３に記載のＳＩＭＤ型マイクロプロ
セッサ。
【請求項５】各プロセッサエレメントに、識別のため
の整数番号が順に付されており、ＳＩＭＤ型マイクロプロセッサに対する命令において上
記識別番号の範囲が指定されると、その範囲の識別番号が付されているプロセッサエレメン
トにて備わる条件レジスタの格納する値が、設定され
る、請求項１乃至請求項４に記載のＳＩＭＤ型マイクロプロ
セッサ。