JP2002229962A

JP2002229962A - 総和値とピーク値を検出するｓｉｍｄ型マイクロプロセッサ

Info

Publication number: JP2002229962A
Application number: JP2001029484A
Authority: JP
Inventors: Kosuke Takato; 浩資高藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2001-02-06
Filing date: 2001-02-06
Publication date: 2002-08-16

Abstract

(57)【要約】【課題】回路規模を小さくし演算サイクル数を少なく
して、各ＰＥ間での総和値演算及びピーク検出を行える
ＳＩＭＤ型マイクロプロセッサを提供する。【解決手段】各ＰＥ（プロセッサエレメント）は、該
ＰＥが備える算術論理演算器へ接続する第１のＭＰＸ
（マルチプレクサ）に対し、その両側に隣接する夫々の
ＰＥから直接入力する経路を二つ付加される。更に、該
第１のＭＰＸの選択を制御する第１の制御ビットを備え
る。隣接するＰＥの第１のＭＰＸへ出力する第１の出力
信号として、各ＰＥ内の所定のレジスタに格納されるデ
ータと、出力先ＰＥとは反対隣に接するＰＥからの第１
の出力信号との、どちらかが選択される。更に、この選
択を制御する第２の制御ビットを備える。所定の命令が
発行されたときに、第１の制御ビット及び第２の制御ビ
ットに設定されるべき値が、予め各ＰＥ内の所定の記録
部に記録されている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＳＩＭＤ（Ｓｉｎ
ｇｌｅＩｎｓｔｒｕｃｔｉｏｎ−ｓｔｒｅａｍＭｕｌ
ｔｉｐｌｅＤａｔａ−ｓｔｒｅａｍ；単一命令多デー
タ処理）型マイクロプロセッサに関する。

【０００２】

【従来の技術】ＳＩＭＤ型マイクロプロセッサでは、複
数のデータに対して１つの命令で同時に同一の演算処理
が実行可能である。この構造により、演算内容が同一で
あり且つデータ量が非常に多い処理（例えば、画像処
理）に係る用途において、頻用される。

【０００３】ＳＩＭＤ型マイクロプロセッサにおける通
常の演算処理では、複数の演算ユニット（Ｐｒｏｃｅｓ
ｓｏｒＥｌｅｍｅｎｔ〔ＰＥ〕；プロセッサエレメン
ト）を並べ同一の演算を同時に複数のデータに対して実
行する。

【０００４】ＳＩＭＤ型マイクロプロセッサは、全ての
ＰＥが同時に動作することにおいてはその性能を発揮で
きるが、ＰＥ毎に処理を変える必要があるような処
理、若しくは演算結果によって後続の処理を変えるよ
うな処理（逐次処理という。）においては、十分な性能
を発揮できない。

【０００５】例えば、画像処理においては、全ての画素
データの総和値、又は全ての画素データのピーク値（最
大値、最小値）を特徴量として画像処理の計算式を変更
する、といった処理が必要となることがある。また、例
えば、固定小数点演算では演算時に演算前のデータの最
大値を求めておき、それに基づいてオーバフローを生じ
ない最大のビット幅で乗算などの演算を行い、演算精度
を高めるということを行うことが多い。

【０００６】特開平１０−２８９３０５号には、上記の
ような特徴量を求めるため、各ＰＥが持つフラグビット
に比較演算結果を格納し、さらに全てのＰＥのフラグビ
ットの「ＯＲ演算」の結果をグローバルプロセッサに転
送し、よってバイナリサーチを行う、という技術が開示
されている。ここで、グローバルプロセッサは、後でも
説明するが、プログラムを解読しＳＩＭＤ型マイクロプ
ロセッサ全体に係る制御を行なう部位である。

【０００７】上記の特開平１０−２８９３０５号に開示
されるＳＩＭＤ型マイクロプロセッサによれば、以下に
示す手順により、複数のＰＥのレジスタに格納されるデ
ータ間の最大値を検出することが可能となる。以下の手
順においてデータは符号なし８ビット値である。

【０００８】（１−１）グローバルプロセッサの汎用レ
ジスタの値を「１２８」に設定する。（１−２）各ＰＥの持つ演算レジスタの値と上記汎用レ
ジスタの値を比較し、演算レジスタの値が汎用レジスタ
の値以上であるＰＥではフラグビットを“１”、それ以
外のＰＥではフラグビットを“０”に設定する。（１−３）全てのＰＥのフラグビットの値の「ＯＲ演
算」の結果を、グローバルプロセッサ内のフラグレジス
タに転送する。

【０００９】（２−１）上記の「ＯＲ演算」の結果が真
（即ち、“１”）ならば汎用レジスタの値に「６４」を
加算、偽（即ち、“０”）ならば汎用レジスタの値から
「６４」を減算する。（２−２）各ＰＥの持つ演算レジスタの値と上記汎用レ
ジスタの値を比較し、演算レジスタの値が汎用レジスタ
の値以上であるＰＥではフラグビットを“１”、それ以
外のＰＥではフラグビットを“０”に設定する。（２−３）全てのＰＥのフラグビットの値の「ＯＲ演
算」の結果を、グローバルプロセッサ内のフラグレジス
タに転送する。

【００１０】（３−１）上記の「ＯＲ演算」の結果が真
（即ち、“１”）ならば汎用レジスタの値に「３２」を
加算、偽（即ち、“０”）ならば汎用レジスタの値から
「３２」を減算する。（同様の処理が続くため途中省略
する。）

【００１１】（６−１）「ＯＲ演算」の結果が真（即
ち、“１”）ならば汎用レジスタの値に「４」を加算、
偽（即ち、“０”）ならば汎用レジスタの値から「４」
を減算する。（６−２）各ＰＥの持つ演算レジスタの値と汎用レジス
タの値を比較し、演算レジスタの値が汎用レジスタの値
以上であるＰＥではフラグビットを“１”、それ以外の
ＰＥではフラグビットを“０”に設定する。（６−３）全てのＰＥのフラグビットの値の「ＯＲ演
算」の結果を、グローバルプロセッサ内のフラグレジス
タに転送する。

【００１２】（７−１）上記の「ＯＲ演算」の結果が真
（即ち、“１”）ならば汎用レジスタの値に「２」を加
算、偽（即ち、“０”）ならば汎用レジスタの値から
「２」を減算する。（７−２）各ＰＥの持つ演算レジスタの値と上記汎用レ
ジスタの値を比較し、演算レジスタの値が汎用レジスタ
の値以上であるＰＥではフラグビットを“１”、それ以
外のＰＥではフラグビットを“０”に設定する。（７−３）全てのＰＥのフラグビットの値の「ＯＲ演
算」の結果を、グローバルプロセッサ内のフラグレジス
タに転送する。（７−４）上記の「ＯＲ演算」の結果が真（即ち、
“１”）ならば汎用レジスタの値に「１」を加算、偽
（即ち、“０”）ならば汎用レジスタの値から「１」を
減算する。この段階での汎用レジスタの値が、最大値で
ある。

【００１３】以上のようにして、最大値を検出すること
ができる。ただし、上記の処理では各ＰＥでの比較演算
の結果をグローバルプロセッサに戻す（転送する）とい
う動作が必要であるため、データのビット長に応じて処
理ステップ数が増加する。８ビットのデータでは、処理
ステップ数が上述の例では２５サイクルとなるが、１６
ビットのデータでは、４９サイクルが必要となる。更
に、このＳＩＭＤ型マイクロプロセッサでは、画素デー
タの特徴量のうち、総和値を求めることができない。

【００１４】第２９６９１１５号では、各ＰＥの持つデ
ータを順次、全ＰＥに供給し、各ＰＥの持つデータとの
比較結果をＰＥ外部に設けた検出回路によって判別する
ことでピーク検出を行う構成について開示されている。
この構成では、データのビット幅に係わらず、ピーク検
出が行えるという利点を持つが、処理時間に懸念すべき
点がある。

【００１５】特公平８−１４８１６号では、ＰＥ間にツ
リー状に演算器を設け、各ツリー毎にパイプラインステ
ージを設定することによって演算器の負荷を少なく保持
したまま、ピーク検出や総和などの演算を高速に行うこ
とができる回路構成について開示している。この発明
は、演算対象のデータのビット幅が広くＰＥ数が少ない
場合には、バイナリサーチよりも高速に処理を行うこと
ができるという利点をもつ。ただし、ＰＥ数が増加する
と演算器の数が増加し、回路規模の増大に繋がるという
欠点をもつ。また、ピーク値検出や総和などの演算の最
終段階では、全体ＰＥの半分を跨ぐ演算が必要であるた
め、動作速度において懸念すべき点がある。

【００１６】特開平８−３０５７７号においては、演算
アレイの外部に別途、全ＰＥの演算レジスタのデータを
対象にした演算を実行できる演算器を装備するプロセッ
サが開示されている。このプロセッサでは、ピーク検出
だけでなく、総和演算も行うことができる。全ＰＥ数の
サイクルの演算時間（例えば２５６ＰＥでは２５６サイ
クル）が必要となり、ＰＥ数が多いＳＩＭＤ型プロセッ
サにおいてはサイクル数が多くなるという面で懸念があ
るが、追加ハードウェアを少なくできる利点をもつ。

【００１７】また、特開平１１−２９６４９８号におい
ては、離れているＰＥ間の演算レジスタを演算対象とす
る経路を設けることにより、トーナメント形式にてピー
ク検出ができるプロセッサにつき、開示されている。

【００１８】

【発明が解決しようとする課題】本発明は、回路規模を
少なく保ち且つ演算サイクル数を少なくして、各ＰＥ間
での総和値演算及びピーク検出を行えるＳＩＭＤ型マイ
クロプロセッサを提供することを目的とする。

【００１９】

【課題を解決するための手段】本発明は、上記の目的を
達成するためになされたものである。本発明に係る請求
項１に記載のＳＩＭＤ型マイクロプロセッサは、複数の
データを同時に処理するための複数のプロセッサエレメ
ントを有するＳＩＭＤ型マイクロプロセッサである。そ
のＳＩＭＤ型マイクロプロセッサにおいて、各プロセッ
サエレメントは、該プロセッサエレメントが備える算術
論理演算器へ接続する第１のマルチプレクサに対し、そ
の両側に隣接する夫々のプロセッサエレメントから直接
入力する経路を二つ付加され、更に、該第１のマルチプ
レクサの選択を制御する第１の制御ビットを備え、隣接
するプロセッサエレメントの第１のマルチプレクサへ出
力する第１の出力信号として、各プロセッサエレメント
内の所定のレジスタに格納されるデータと、出力先プロ
セッサエレメントとは反対隣に接するプロセッサエレメ
ントからの第１の出力信号との、どちらかが選択され、
更に、この選択を制御する第２の制御ビットを備え、所
定の命令が発行されたときに、第１の制御ビット及び第
２の制御ビットに設定されるべき値が、予め各プロセッ
サエレメント内の所定の記録部に記録されている。

【００２０】本発明に係る請求項２に記載のＳＩＭＤ型
マイクロプロセッサは、各プロセッサエレメントに補助
レジスタが備わり、所定の命令が発行されたとき、該補
助レジスタの設定される内容に応じて、個々のプロセッ
サエレメントにおいて夫々異なる命令が実行され、該補
助レジスタの設定される内容は、予め各プロセッサエレ
メント内の上記所定の記録部に記録されている、請求項
１に記載のＳＩＭＤ型マイクロプロセッサである。

【００２１】本発明に係る請求項３に記載のＳＩＭＤ型
マイクロプロセッサは、上記補助レジスタに設定され
る、個々のプロセッサエレメントに関する命令の中に、
プロセッサエレメントを待機状態にする命令が含まれて
いる、請求項２に記載のＳＩＭＤ型マイクロプロセッサ
である。

【００２２】

【発明の実施の形態】以下、図面を参照して、本発明に
係る好適な実施形態を説明する。

【００２３】図１１は、本発明に係るＳＩＭＤ型マイク
ロプロセッサ２の概略の構成を示すブロック図である。
該ＳＩＭＤ型マイクロプロセッサ２は、概略、グローバ
ルプロセッサ４、レジスタファイル６、及び演算アレイ
８から構成される。

【００２４】（１）グローバルプロセッサ４このグローバルプロセッサ４そのものは、いわゆるＳＩ
ＳＤ型のプロセッサであり、プログラムＲＡＭ１０とデ
ータＲＡＭ１２を内蔵し（図１２参照）、プログラムを
解読し各種制御信号を生成する。この制御信号は内蔵す
る各種ブロックの以外に、レジスタファイル６、演算ア
レイ８にも供給される。また、ＧＰ（グローバルプロセ
ッサ）命令実行時は内蔵する汎用レジスタ、ＡＬＵ（算
術論理演算器）等を使用して各種演算処理、プログラム
制御処理をおこなう。

【００２５】（２）レジスタファイル６ＰＥ（プロセッサエレメント）命令で処理されるデータ
を保持している。ＰＥ（プロセッサエレメント）３は、
公知のように、ＳＩＭＤ型マイクロプロセッサにおいて
個別の演算を実行する構成単位である。図１２のレジス
タファイル６及び演算アレイ８が示すように、図１２の
ＳＩＭＤ型マイクロプロセッサ２では２５６個のＰＥ３
を含んでいる。上記のＰＥ命令はＳＩＭＤ型の命令であ
り、レジスタファイル６に保持されている複数のデータ
に対し、同時に同じ処理を行なう。このレジスタファイ
ル６からのデータの読み出し／書き込みの制御はグロー
バルプロセッサ４からの制御によって行なわれる。読み
出されたデータは演算アレイ８に送られ、演算アレイ８
での演算処理後にレジスタファイル６に書き込まれる。

【００２６】また、レジスタファイル６はプロセッサ２
外部からのアクセスが可能であり、グローバルプロセッ
サ４の制御とは別に、外部から特定のレジスタに対し読
み出し／書き込みが行なわれる。

【００２７】（３）演算アレイＰＥ命令の演算処理が行なわれる。処理の制御はすべて
グローバルプロセッサ４から行なわれる。

【００２８】図１２は、本発明に係るＳＩＭＤ型マイク
ロプロセッサ２の構成を示すブロック図である。後で説
明する、本発明の第１の実施形態に係るＳＩＭＤ型マイ
クロプロセッサ２（図１）、及び本発明の第２の実施形
態に係るＳＩＭＤ型マイクロプロセッサ２（図７）の共
通の基礎となる構成を示すものである。

【００２９】グロバールプロセッサ４には、本プロセッ
サ２のプログラム格納用のプログラムＲＡＭ１０と、演
算データ格納用のデータＲＡＭ１２が内蔵されている。
さらに、プログラムのアドレスを保持するプログラムカ
ウンタ（ＰＣ）１４、演算処理のデータ格納のための汎
用レジスタであるＧ０、Ｇ１、Ｇ２及びＧ３レジスタ
（１６、１８、２０、２２）、レジスタ退避・復帰時に
退避先データＲＡＭのアドレスを保持しているスタック
ポインタ（ＳＰ）２４、サブルーチンコール時にコール
元のアドレスを保持するリンクレジスタ（ＬＳ）２６、
同じくＩＲＱ（ＩｎｔｅｒｒｕｐｔＲｅＱｕｅｓｔ；
割込み要求）時とＮＭＩ（Ｎｏｎ−Ｍａｓｋａｂｌｅ
ＩｎｔｅｒｒｕｐｔＲｅＱｕｅｓｔ；禁止不能割込み
要求）時の分岐元アドレスを保持するＬＩレジスタ２８
及びＬＮレジスタ３０、プロセッサの状態を保持してい
るプロセッサステータスレジスタ（Ｐ）３２が内蔵され
ている。

【００３０】これらのレジスタと、（図示していない）
命令デコーダ、ＡＬＵ、メモリ制御回路、割り込み制御
回路、外部Ｉ／Ｏ制御回路及びＧＰ演算制御回路とを使
用して、ＧＰ命令の実行が行なわれる。

【００３１】また、ＰＥ命令実行時には、命令デコーダ
（図示せず。）、レジスタファイル制御回路（図示せ
ず。）、ＰＥ演算制御回路（図示せず。）を使用して、
レジスタファイル６の制御と演算アレイ８の制御が行な
われる。さらに、データＲＡＭ１２から複数のＰＥレジ
スタファイル６にデータを転送できるように、設定され
ている。

【００３２】レジスタファイル６においては、１つのＰ
Ｅ単位に８ビットのレジスタ３４が３２本内蔵されてお
り、２５６個のＰＥ分の（３２本の）組が、アレイ構成
になっている。レジスタ３４は各ＰＥにおいて、Ｒ０、
Ｒ１、Ｒ２、．．．Ｒ３１と称されている。それぞれの
レジスタ３４は、演算アレイ８に対して１つの読み出し
ポートと１つの書き込みポートを備えており、８ビット
のリード／ライト兼用のバスで演算アレイ８からアクセ
スされる。３２本のレジスタの内、２４本（Ｒ０〜Ｒ２
３）はプロセッサ外部からアクセス可能であり、外部か
らはクロック（ＣＬＫ）とアドレス（Ａｄｄｒｅｓ
ｓ）、リード／ライト制御（ＲＷＢ）を入力すること
で、任意のレジスタ３４に対し、読み書きできる。残り
の８本（Ｒ２４〜Ｒ３１）のレジスタ３４は、ＰＥ演算
の一時的な演算データ保存用として使用される。

【００３３】上記の残りの８本（Ｒ２４〜Ｒ３１）のレ
ジスタ３４には、グローバルプロセッサ４のデータＲＡ
Ｍ１２からのデータが書き込まれることもある。グロー
バルプロセッサ４からのライト制御信号と、演算アレイ
８内の条件レジスタ（Ｔレジスタ）（図示せず。）に格
納されるデータ（フラグ）内容とを条件にして、レジス
タファイル６に内蔵される８本のレジスタ３４（Ｒ２４
〜Ｒ３１）に対し、グローバルプロセッサ４のデータＲ
ＡＭ１２のデータが（条件を満たす）複数のＰＥ３に同
時に書き込まれる。また、データＲＡＭ１２は６４ビッ
トの出力ポートを備え、１つのＰＥ３に対しても８本の
レジスタ３４に同時に６４ビットの書き込みが可能であ
る。

【００３４】演算アレイ８は、１６ビットＡＬＵ３６と
１６ビットＡレジスタ３８、Ｆレジスタ４０を内蔵して
いる。ＰＥ命令による演算は、（後で説明する）第３の
マルチプレクサ５４の出力データをＡＬＵ３６の片側の
入力とし、Ａレジスタ３８の内容をもう片側の入力とし
て、行なわれるものである。その演算結果は、Ａレジス
タ３８に格納される。後で説明するように、第３のマル
チプレクサ５４は、Ｒ０〜Ｒ３１レジスタ３４から読み
出されたデータ、グローバルプロセッサ４から与えられ
たデータ、及び隣接する２つのＰＥ３からの入力ポート
のデータが、入力される。

【００３５】レジスタファイル６と演算アレイ８との接
続に、７ｔｏ１（７対１）のマルチプレクサ４２が置か
れている。図１２に示すように、あるマルチプレクサ４
２から見て、左方向の３つのＰＥ３に含まれるＲ０〜Ｒ
３１レジスタ３４のデータと、右方向の３つのＰＥ３に
含まれるＲ０〜Ｒ３１レジスタ３４のデータと、自らが
属するＰＥ３に含まれるＲ０〜Ｒ３１レジスタ３４のデ
ータを、演算対象として選択し得るように設定されてい
る。また、レジスタファイル６の８ビットのデータは、
シフト・拡張回路４４により任意のビット分だけ、左シ
フトしてＡＬＵ３６に入力する。

【００３６】また、図示していないが、夫々のＰＥ３に
は、０から２５５までの整数が固有のＩＤ（ＩＤｅｎｔ
ｉｆｉｃａｔｉｏｎ）番号としてハードウエアの構成に
より付加されている。この０から２５５までの整数は、
図３、図５、及び図９に示すように、並列するＰＥ３に
順に付されているものとする。本明細書では、例えば、
整数「ｋ」が付されているＰＥを、「ＰＥ［ｋ］」と表
すこととする。

【００３７】≪第１の実施の形態≫図１は、本発明の第
１の実施の形態に係るＳＩＭＤ型マイクロプロセッサ２
の部分ブロック図である。この部分ブロック図では、特
に、隣接する２個のＰＥ３において、それらのＡＬＵ３
６周辺を詳細に示す。

【００３８】各ＰＥ３において、隣のＰＥ３からのバイ
パス出力を受け取る入力ポートが、２つ設けられる。Ｐ
Ｅ［ｋ］（１≦ｋ≦２５４）からみると、ＰＥ［ｋ＋
１］からの入力ポートと、ＰＥ［ｋ−１］からの入力ポ
ートである。ＰＥ［ｋ＋１］からの入力ポートから入力
された信号と、Ａレジスタ３８の信号とは、第１のバイ
パスマルチプレクス５０に入力される。更に、この第１
のバイパスマルチプレクス５０からの出力信号を、ＰＥ
［ｋ−１］へのバイパス出力とする出力ポートが設けら
れている。

【００３９】更に、同様に、ＰＥ［ｋ−１］からの入力
ポートから入力された信号と、Ａレジスタ３８の信号と
は、第２のバイパスマルチプレクス５２に入力される。
この第２のバイパスマルチプレクス５２からの出力信号
を、ＰＥ［ｋ＋１］へのバイパス出力とする出力ポート
も設けられている。これらポートのビット幅は、Ａレジ
スタ３８のビット幅に等しい。

【００４０】ＡＬＵ３６の片側の入力にはＡレジスタ３
８のデータが入力されるが、もう片側の入力（の直前）
には、第３のマルチプレクス５４が設置されている。こ
の第３のマルチプレクス５４には、レジスタファイル６
（Ｒ０〜Ｒ３１レジスタ３４）から読み出されたデー
タ、グローバルプロセッサ４から与えられたデータ、及
び隣接する２つのＰＥ３からの入力ポートのデータが入
力される。

【００４１】上記の２つのバイパスマルチプレクス（第
１のバイパスマルチプレクス５０、第２のバイパスマル
チプレクス５２）を制御するために、各々１ビットの選
択ビットが２つ、即ち、・選択ビット０、・選択ビット１、が用意されている。選択ビット０は、第１のバイパスマ
ルチプレクス５０を制御する。図２に示すように、選択
ビット０の値が「０」であるならば、第１のバイパスマ
ルチプレクス５０はＡレジスタ３８の信号データを選択
し、それをＰＥ［ｋ−１］へのバイパス出力へ出力す
る。選択ビット０の値が「１」であるならば、第１のバ
イパスマルチプレクス５０はＰＥ［ｋ＋１］からの入力
ポートの信号データを選択し、それをＰＥ［ｋ−１］へ
のバイパス出力へ出力する。

【００４２】同様に、選択ビット１は、第２のバイパス
マルチプレクス５２を制御する。図２に示すように、選
択ビット１の値が「０」であるならば、第２のバイパス
マルチプレクス５２はＡレジスタ３８の信号データを選
択し、それをＰＥ［ｋ＋１］へのバイパス出力へ出力す
る。選択ビット１の値が「１」であるならば、第２のバ
イパスマルチプレクス５２はＰＥ［ｋ−１］からの入力
ポートの信号データを選択し、それをＰＥ［ｋ＋１］へ
のバイパス出力へ出力する。

【００４３】また、ＡＬＵ３６への入力信号を選択する
第３のマルチプレクサ５４の制御のために、１ビットの
命令補助ビットが設けられている。図２に示すように、
この命令補助ビットの値が「０」であるならば、ＰＥ
［ｋ＋１］からの入力ポートの信号データをＡＬＵ３６
の入力データとする。命令補助ビットの値が「１」であ
るならば、ＰＥ［ｋ−１］からの入力ポートの信号デー
タをＡＬＵ３６の入力データとする。

【００４４】以上の第１のバイパスマルチプレクサ５
０、第２のバイパスマルチプレクサ５２、第３のマルチ
プレクサ５４、及びそれらに係る選択ビット０、選択ビ
ット１、命令補助ビットの設定により、隣接するＰＥ３
のみならず離れているＰＥ３のＡレジスタのデータを対
象とする演算が、各ＰＥ３にて可能となる。

【００４５】つまり、後述するように、各ＰＥ３におい
ては、これらの選択ビット０、選択ビット１、命令補助
ビットの設定値が、予め固定値レジスタ（図示せず。）
やＲＯＭ（図示せず。）などのハードウエア（メモリ）
に保存されている。そして、ＳＩＭＤ型マイクロプロセ
ッサ２において、総和値又は最大値若しくは最小値を求
める命令実行時に、そのメモリから所定の設定値が読み
出されて利用される。

【００４６】本発明の第１の実施の形態に係るＳＩＭＤ
型マイクロプロセッサ２を利用して、各ＰＥ３のＲ０レ
ジスタの値の総和値を求める手順を、図３及び図４によ
り説明する。図３では、ＰＥ数が８個の場合について、
各ＰＥ３のＲ０レジスタ値の総和がどのように求められ
るかを例示する。

【００４７】なお、図３において、・「ＡＤＤＡｉ，Ａｊ」という記述は、当該ＰＥにお
いて、ＰＥ［ｉ］のＡレジスタ３８の値と、ＰＥ［ｊ］
のＡレジスタ３８の値とを加算して、Ａレジスタ３８に
格納する動作を行うことを示す。このことは、図５でも
同様である。また、・「ＡＤＤ」という記述は、当該ＰＥにおいて、加算命
令が実行されるが、その結果が意味を持たないものであ
ることを示す。

【００４８】工程（１）：（図３には示されていない
が、）各ＰＥ３において、Ｒ０レジスタに格納される値
を夫々のＡレジスタ３８へ転送する。

【００４９】工程（２）：総和値を求めるための命令が
発行される。８個のＰＥ３において、トーナメント式
（勝ち抜き式）に演算を行うため、３サイクル連続した
加算命令（ＡＤＤ）となる。各ＰＥ３における、選択ビ
ット０、選択ビット１、及び命令補助ビットに格納すべ
き値として、図４に示す「３ビット×３ワード（サイク
ル）」の値が各ＰＥ３の固定値レジスタ（図示せず。）
に保存されている。サイクル１の直前にて、その最初の
ワードの内容（即ち、サイクル１の内容）で選択ビット
０、選択ビット１、及び命令補助ビットが設定され、図
３のサイクル１が実行される。

【００５０】サイクル１の実行により、隣接する２つの
ＰＥ３において、夫々のＡレジスタ３８の格納値が足し
合わされて、ＰＥ番号の小さい方のＰＥ３のＡレジスタ
３８に格納される。例えば、ＰＥ[０]とＰＥ[１]におい
ては、夫々のＡレジスタ３８に格納される値が足し合わ
されてＰＥ[０]のＡレジスタ３８に格納される。

【００５１】工程（３）：次いで、図４のサイクル２の
値に従って、選択ビット０、選択ビット１、及び命令補
助ビットの設定が更新され、図４のサイクル２が実行さ
れる。

【００５２】サイクル２の実行により、例えば、離れて
いるＰＥ[０]とＰＥ[２]との夫々のＡレジスタ３８に格
納される値が足し合わされ、ＰＥ[０]のＡレジスタ３８
に格納される。結果として、最初ＰＥ[０]、ＰＥ[１]、
ＰＥ[２]、及びＰＥ[３]の夫々のＡレジスタ３８に格納
されていた値が足し合わされてＰＥ[０]のＡレジスタ３
８に格納されたことになる。同様に、最初ＰＥ[４]、Ｐ
Ｅ[５]、ＰＥ[６]、及びＰＥ[７]の夫々のＡレジスタ３
８に格納されていた値が足し合わされてＰＥ[４]のＡレ
ジスタ３８に格納されたこととなっている。

【００５３】工程（４）：更に、図４のサイクル３の値
に従って、選択ビット０、選択ビット１、及び命令補助
ビットの設定が更新され、図３のサイクル３が実行され
る。選択ビット０、選択ビット１、及び命令補助ビット
の設定により経路が設定変更され、加算命令（ＡＤＤ）
が実行されれば、離れているＰＥ[０]とＰＥ[４]との夫
々のＡレジスタ３８に格納される値が足し合わされ、Ｐ
Ｅ[０]のＡレジスタ３８に格納される。結果として、Ｐ
Ｅ［０］のＡレジスタ３８に総和値が求められる。

【００５４】第１の実施の形態において、総和値を求め
る命令は、図４に示すビット設定を使用する３サイクル
連続した加算命令である。最大値または最小値を求める
場合は、同様に、図４に示すビット設定を使用する３サ
イクル連続した比較命令となる。ここで、最大値を求め
る場合は、各ＰＥ３において、より大きい値をＡレジス
タ３８に保存する比較命令（ＣＭＰ／ＧＴ）を実行し、
最小値を求める場合は、各ＰＥ３において、より小さい
値をＡレジスタ３８に保存する比較命令（ＣＭＰ／Ｌ
Ｔ）を実行すればよい。

【００５５】ビット設定は図４のものに限定されない。
例えば、図６に示されるビット設定により、本発明の第
１の実施の形態に係るＳＩＭＤ型マイクロプロセッサ２
を利用して、図５のような手順で各ＰＥ３のＲ０レジス
タの値の総和値（又は最大値若しくは最小値）を求める
ことができる。図３及び図４の場合にはバイパス経路α
を利用するが、この図５及び図６の場合はバイパス経路
βを利用する。更に、総和値又は最大値若しくは最小値
は、ＰＥ［７］のＡレジスタ３８にて得られる。

【００５６】≪第２の実施の形態≫図７は、本発明の第
２の実施の形態に係るＳＩＭＤ型マイクロプロセッサ２
のブロック図である。このブロック図でも、特に、隣接
する２個のＰＥ３において、それらのＡＬＵ３６周辺を
詳細に示す。

【００５７】第２の実施の形態では、第１の実施の形態
に加えて、命令補助ビットとして更に２ビット設けられ
ている。第１の実施の形態でも設置されている命令補助
ビットを「命令補助ビット０」と称し、第２の実施の形
態にて新たに設置される命令補助ビットを「命令補助ビ
ット２／１」と称することとする。

【００５８】命令補助ビット２／１により、各ＰＥ３に
て実行する独立した命令を指定することができる。指定
され得る命令は、図８が示すように、４種類までであ
る。ここでは、それら４種類の命令は、待機（ＮＯ
Ｐ）、加算命令（ＡＤＤ）、比較命令（ＣＭＰ／Ｇ
Ｔ）、及び比較命令（ＣＭＰ／ＬＴ）であるとする。

【００５９】命令補助ビット２／１が上記のように新た
に設定されるため、第２の実施の形態では、各ＰＥ３の
Ｒ０レジスタの値に関して、・最大値と最小値を同時に求めること、・総和値と最小値を同時に求めること、及び・総和値と最大値を同時に求めることが可能になる。２つの特徴値を同時に求め得るのは、バ
イパス経路αとバイパス経路βとが、独立して利用され
るからである。

【００６０】本発明の第２の実施の形態に係るＳＩＭＤ
型マイクロプロセッサ２を利用して、各ＰＥ３のＲ０レ
ジスタの値の最大値と最小値とを求める手順を、図９及
び図１０により説明する。図９では、図３と同様に、Ｐ
Ｅ数が８個の場合について、各ＰＥ３のＲ０レジスタ値
の最大値と最小値がどのように同時に求められるかを例
示する。

【００６１】なお、図９において、・「ＣＭＰ／ＧＴＡｉ，Ａｊ」という記述は、当該Ｐ
Ｅにおいて、ＰＥ［ｉ］のＡレジスタ３８の値と、ＰＥ
［ｊ］のＡレジスタ３８の値とを比較して、大きい方を
Ａレジスタ３８に格納する動作を行うことを示し、・「ＣＭＰ／ＬＴＡｉ，Ａｊ」という記述は、当該Ｐ
Ｅにおいて、ＰＥ［ｉ］のＡレジスタ３８の値と、ＰＥ
［ｊ］のＡレジスタ３８の値とを比較して、小さい方を
Ａレジスタ３８に格納する動作を行うことを示す。更
に、・「ＮＯＰ」という記述は、ＰＥ３が待機状態であって
動作していないことを示す。

【００６２】工程（１）：（図９には示されていない
が、）各ＰＥ３において、Ｒ０レジスタに格納される値
を各々のＡレジスタ３８へ転送する。

【００６３】工程（２）：最大値と最小値を同時に求め
る命令が発行される。８個のＰＥ３において、トーナメ
ント式（勝ち抜き式）に演算を行うため、３サイクル連
続した命令となる。

【００６４】各ＰＥ３における、選択ビット０、選択ビ
ット１、命令補助ビット０、及び命令補助ビット２／１
に格納すべき値として、図１０に示す「５ビット×３ワ
ード（サイクル）×３パターン」の値が、各ＰＥ３の固
定値レジスタ（図示せず。）に保存されている。図１０
での３パターンは、・最大値と最小値を同時に求める場合の設定、・総和値と最小値を同時に求める場合の設定、・総和値と最大値を同時に求める場合の設定、に対応する。サイクル１の直前にて、『最大値と最小値
を同時に求める場合の「５ビット×３ワード」』から、
その最初のワードの内容（即ち、サイクル１の内容）で
選択ビット０、選択ビット１、命令補助ビット０、及び
命令補助ビット２／１が設定され、図９のサイクル１が
実行される。

【００６５】サイクル１の実行により、例えば、ＰＥ
[０]においては、ＰＥ[０]とＰＥ[１]との夫々のＡレジ
スタ３８に格納される値が比較演算されて大きい方がＰ
Ｅ[０]のＡレジスタ３８に格納される。同時に、ＰＥ
[１]においては、ＰＥ[０]とＰＥ[１]との夫々のＡレジ
スタ３８に格納される値が比較演算されて小さい方がＰ
Ｅ[１]のＡレジスタ３８に格納される。ＰＥ[２]とＰＥ
[３]、ＰＥ[４]とＰＥ[５]、及びＰＥ[６]とＰＥ[７]に
関しても、同様である。

【００６６】工程（３）：次いで、図１０の『最大値と
最小値を同時に求める場合の「５ビット×３ワード」』
の内のサイクル２の値により、選択ビット０、選択ビッ
ト１、命令補助ビット０、及び命令補助ビット２／１の
設定が更新され、図９のサイクル２が実行される。

【００６７】サイクル２の実行により、例えば、ＰＥ
[０]においては、離れているＰＥ[０]とＰＥ[２]との夫
々のＡレジスタ３８に格納される値が比較演算されて大
きい方がＰＥ[０]のＡレジスタ３８に格納される。同時
に、ＰＥ[３]においては、離れているＰＥ[１]とＰＥ
[３]との夫々のＡレジスタ３８に格納される値が比較演
算されて小さい方がＰＥ[３]のＡレジスタ３８に格納さ
れる。結果として、最初ＰＥ[０]、ＰＥ[１]、ＰＥ
[２]、及びＰＥ[３]の夫々のＡレジスタ３８に格納され
ていた値の、最大値がＰＥ[０]のＡレジスタ３８に格納
され、最小値がＰＥ[３]のＡレジスタ３８に格納された
ことになる。同様に、最初ＰＥ[４]、ＰＥ[５]、ＰＥ
[６]、及びＰＥ[７]の夫々のＡレジスタ３８に格納され
ていた値の、最大値がＰＥ[４]のＡレジスタ３８に格納
され、最小値がＰＥ[７]のＡレジスタ３８に格納された
こととなっている。

【００６８】工程（４）：更に、図１０のサイクル３の
値に従って、選択ビット０、選択ビット１、命令補助ビ
ット０、及び命令補助ビット２／１の設定が更新され、
図１０のサイクル３が実行される。選択ビット０、選択
ビット１、命令補助ビット０、及び命令補助ビット２／
１の設定により経路が設定変更され、３サイクル目の命
令が実行されれば、ＰＥ[０]においては、離れているＰ
Ｅ[０]とＰＥ[４]との夫々のＡレジスタ３８に格納され
る値が比較演算されて大きい方がＰＥ[０]のＡレジスタ
３８に格納され、ＰＥ[７]においては、離れているＰＥ
[３]とＰＥ[７]との夫々のＡレジスタ３８に格納される
値が比較演算されて小さい方がＰＥ[７]のＡレジスタ３
８に格納される。結果として、ＰＥ［０］のＡレジスタ
３８に最大値が求められ、ＰＥ［７］のＡレジスタ３８
には最小値が求められる。

【００６９】上記で説明したように、選択ビット０、選
択ビット１、命令補助ビット０、及び命令補助ビット２
／１の設定において、「総和値と最小値を同時に求める
場合の設定」を利用すれば、ＰＥ［０］のＡレジスタ３
８に総和値が求められ、ＰＥ［７］のＡレジスタ３８に
は最小値が求められる。「総和値と最大値を同時に求め
る場合の設定」を利用すれば、ＰＥ［０］のＡレジスタ
３８に総和値が求められ、ＰＥ［７］のＡレジスタ３８
には最大値が求められる。

【００７０】第２の実施の形態においても、第１の実施
の形態と同様に、ビット設定が図１２のものに限定され
るわけではない。別のパターンのものも利用され得る。
その場合、最終値（総和値、最大値、最小値）が格納さ
れるＡレジスタ３８のＰＥの位置が変動することがあ
る。

【００７１】

【発明の効果】本発明に係るＳＩＭＤ型マイクロプロセ
ッサは、回路規模を少なく保ち且つ演算サイクル数を少
なくして、各ＰＥ間での総和値演算及びピーク検出を行
うことができる。

【００７２】本発明に係る請求項１に記載のＳＩＭＤ型
マイクロプロセッサにおいては、トーナメント式（勝ち
抜き式）のＰＥ間の演算が可能になり、よって、ＰＥ数
が「ｎ個」の場合には「ｌｏｇ_２ｎ＋１回」（小数点以
下切り上げ）のサイクル数にて、ＰＥのレジスタに格納
されている値の総和値、又は最大値若しくは最小値を求
めることができる。

【００７３】本発明に係る請求項２に記載のＳＩＭＤ型
マイクロプロセッサにおいては、各ＰＥが、独立した命
令を４種まで実行することができる。よって、請求項１
に記載のＳＩＭＤ型マイクロプロセッサにおいて求めら
れる総和値または最大値若しくは最小値を、同時に二つ
求めることが可能となる。その際に必要な演算サイクル
数は同じく「ｌｏｇ_２ｎ＋１回」（小数点以下切り上
げ）のサイクル数である。更に、演算動作させるの必要
の無いＰＥについては、「ＮＯＰ命令」（即ち、待機状
態を強制する命令）が発行されているので、消費電力も
低減し得る。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態に係るＳＩＭＤ型
マイクロプロセッサの部分ブロック図である。

【図２】選択ビット０、選択ビット１、及び命令補助
ビットの制御内容を示す模式図である。

【図３】第１の実施の形態に係るＳＩＭＤ型マイクロ
プロセッサを利用して各ＰＥのＲ０レジスタの値の総和
値を求める例（１）での、ＰＥの動作を示すブロック図
である。

【図４】第１の実施の形態に係るＳＩＭＤ型マイクロ
プロセッサを利用して各ＰＥのＲ０レジスタの値の総和
値を求める例（１）での、選択ビット０、選択ビット
１、及び命令補助ビットの設定内容を示す、一覧表であ
る。

【図５】第１の実施の形態に係るＳＩＭＤ型マイクロ
プロセッサを利用して各ＰＥのＲ０レジスタの値の総和
値を求める例（２）での、ＰＥの動作を示すブロック図
である。

【図６】第１の実施の形態に係るＳＩＭＤ型マイクロ
プロセッサを利用して各ＰＥのＲ０レジスタの値の総和
値を求める例（２）での、選択ビット０、選択ビット
１、及び命令補助ビットの設定内容を示す、一覧表であ
る。

【図７】本発明の第２の実施の形態に係るＳＩＭＤ型
マイクロプロセッサの部分ブロック図である。

【図８】選択ビット０、選択ビット１、命令補助ビッ
ト０、及び命令補助ビット２／１の制御内容を示す模式
図である。

【図９】第２の実施の形態に係るＳＩＭＤ型マイクロ
プロセッサを利用して各ＰＥのＲ０レジスタの値の最大
値及び最小値を求める例での、ＰＥの動作を示すブロッ
ク図である。

【図１０】第２の実施の形態に係るＳＩＭＤ型マイク
ロプロセッサを利用して各ＰＥのＲ０レジスタの値の最
大値及び最小値を求める例での、選択ビット０、選択ビ
ット１、命令補助ビット０、及び命令補助ビット２／１
の設定内容を示す、一覧表である。

【図１１】本発明に係るＳＩＭＤ型マイクロプロセッ
サの概略の構成を示すブロック図である。

【図１２】本発明に係るＳＩＭＤ型マイクロプロセッ
サの構成を示すブロック図である。

【符号の説明】

２・・・ＳＩＭＤ型マイクロプロセッサ、３・・・プロ
セッサエレメント、４グローバルプロセッサ、６・・・
レジスタファイル、８・・・演算アレイ、３６・・・１
６ビットＡＬＵ、３８・・・Ａレジスタ、５０・・・第
１のバイパスマルチプレクサ、５２・・・第２のバイパ
スマルチプレクサ、５４・・・第３のマルチプレクサ。

Claims

【特許請求の範囲】

【請求項１】複数のデータを同時に処理するための複
数のプロセッサエレメントを有するＳＩＭＤ型マイクロ
プロセッサにおいて、各プロセッサエレメントは、該プロセッサエレメントが
備える算術論理演算器へ接続する第１のマルチプレクサ
に対し、その両側に隣接する夫々のプロセッサエレメン
トから直接入力する経路を二つ付加され、更に、該第１のマルチプレクサの選択を制御する第１の
制御ビットを備え、隣接するプロセッサエレメントの第１のマルチプレクサ
へ出力する第１の出力信号として、各プロセッサエレメ
ント内の所定のレジスタに格納されるデータと、出力先
プロセッサエレメントとは反対隣に接するプロセッサエ
レメントからの第１の出力信号との、どちらかが選択さ
れ、更に、この選択を制御する第２の制御ビットを備え、所定の命令が発行されたときに、第１の制御ビット及び
第２の制御ビットに設定されるべき値が、予め各プロセ
ッサエレメント内の所定の記録部に記録されている、Ｓ
ＩＭＤ型マイクロプロセッサ。
【請求項２】各プロセッサエレメントに補助レジスタ
が備わり、所定の命令が発行されたとき、該補助レジスタの設定さ
れる内容に応じて、個々のプロセッサエレメントにおい
て夫々異なる命令が実行され、該補助レジスタの設定される内容は、予め各プロセッサ
エレメント内の上記所定の記録部に記録されている、請
求項１に記載のＳＩＭＤ型マイクロプロセッサ。
【請求項３】上記補助レジスタに設定される、個々の
プロセッサエレメントに関する命令の中に、プロセッサ
エレメントを待機状態にする命令が含まれている、請求
項２に記載のＳＩＭＤ型マイクロプロセッサ。