JP2003216590A

JP2003216590A - Ｓｉｍｄ型プロセッサ及びその最大値算出方法

Info

Publication number: JP2003216590A
Application number: JP2002012284A
Authority: JP
Inventors: Takao Katayama; 貴雄片山
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2002-01-22
Filing date: 2002-01-22
Publication date: 2003-07-31

Abstract

(57)【要約】【課題】複数ＳＩＭＤ分の処理でのピーク値の検出を最
小のハードウェアの追加で少ないステップ数で処理でき
るＳＩＭＤ型プロセッサを提供する。【解決手段】グローバルプロセッサ２と、複数のプロ
セッサエレメント３ａと、を備えたＳＩＭＤ型プロセッ
サにおいて、前記プロセッサエレメントの演算結果を格
納するＴレジスタ３６と、前記プロセッサエレメントの
３ａＴレジスタ３６に対応したビットを有する結果値保
持部２２と、次回の演算の実行条件に使用する演算制御
結果を格納する前回値保持部２１と、を備え、前記プロ
セッサエレメント３ａのＴレジスタの該当するビットの
論理和を採りその結果と前回保持部２１の対応するデー
タとの論理和を採り、その値を前記結果保持部２２に転
送して、前記結果保持部２２のデータに基づいて最大値
または最小値を求める。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は画像データを高速処理
するために同一の命令で複数データに対して同じ処理を
行うＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎ
−ｓｔｒｅａｍＭｕｌｔｉｐｌｅＤａｔａ−ｓｔｒ
ｅａｍ）方式のプロセッサに関する。

【０００２】近年、デジタル複写機やファクシミリ装置
等の画像処理では、画素数の増加、画像処理の多様化な
どにより画質の向上が図られている。こういった画像処
理には複数のデータに対して同じ処理をすることが多
く、高速性を高めるため、１命令で１つのデータを処理
するＳＩＳＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎ
−ｓｔｒｅａｍＳｉｎｇｌｅＤａｔａ−ｓｔｒｅａ
ｍ）方式のプロセッサより、１命令で複数のデータを同
時処理するＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔ
ｉｏｎ−ｓｔｒｅａｍＭｕｌｔｉｐｌｅＤａｔａ−
ｓｔｒｅａｍ）方式のプロセッサが用いられることが多
い。

【０００３】図１に、ＳＩＭＤ型プロセッサの全体構成
を示す。図１に示すように、ＳＩＭＤ型プロセッサは、
グローバルプロセッサ２、例えば２５６個のＰＥからな
るプロセッサエレメントブロック３、外部メモリなどに
接続される外部入出力インタフェース４などから構成さ
れる。外部入出力インタフェース４を介して演算データ
がプロセッサエレメント内部の入出力レジスタに入出力
される。

【０００４】プロセッサエレメントブロック３は、ＡＬ
Ｕ（算術論理演算器）を備えた演算アレイ４０とレジス
タファイル３１を備えたプロセッサエレメント（Ｐｒｏ
ｃｅｓｓｏｒＥｌｅｍｅｎｔ）（以下、ＰＥとい
う。）複数個装備し、複数のデータを一度に処理する。
ＰＥには算術論理演算に利用する汎用レジスタが装備さ
れており、汎用レジスタのデータとレジスタファイルの
演算、汎用レジスタのデータと命令コード中に記述され
た数値データとの演算等を行う。

【０００５】グローバルプロセッサ２（以下、ＧＰとい
う。）は、いわゆるＳＩＳＤ（ＳｉｎｇｌｅＩｎｓｔ
ｒｕｃｔｉｏｎ−Ｓｔｒｅａｍ，ＳｉｎｇｌｅＤａｔ
ａ−Ｓｔｒｅａｍ）タイプのプロセッサであり、命令コ
ードを格納するプログラムメモリ、プログラムメモリ中
の命令コードを読み出し、解読し、出力された制御信号
によってプロセッサを制御するシーケンシャルユニット
（以下、ＳＣＵという）と、データを格納するメモリで
あるデータメモリ、各種レジスタ、算術演算処理装置を
備える。そしてグローバルプロセッサ２は、プログラム
を解読し、各種制御信号を生成する。この制御信号は内
蔵する各種ブロックの制御以外にもプロセッサエレメン
トブロック３を構成するレジスタファイル３１、演算ア
レイ４０に供給される。また、ＧＰ（グローバルプロセ
ッサ）命令実行時は内蔵する汎用レジスタ、ＡＬＵ（算
術論理演算器）等を使用して各種演算処理、プログラム
制御処理を行う。

【０００６】上記したレジスタファイル３１は、ＰＥ
（プロセッサエレメント）命令で処理されるデータを保
持している。ＰＥ命令はＳＩＭＤ（ＳｉｎｇｌｅＩｎ
ｓｔｒｕｃｔｉｏｎ−Ｓｔｒｅａｍ，Ｍｕｌｔｉｐｌｅ
Ｄａｔａ−Ｓｔｒｅａｍ）タイプの命令であり、レジ
スタファイル３１に保持されている複数のデータを同時
に同じ処理を行う。このレジスタファイル３１からのデ
ータの読み出し／書き込みの制御はグローバルプロセッ
サ２からの制御によって行われる。読み出されたデータ
は演算アレイ４０に送られ、演算アレイ４０での演算処
理後にレジスタファイル３１に書き込まれる。

【０００７】演算アレイ４０は、ＰＥ命令の演算処理を
行う。処理の制御はすべてグローバルプロセッサ２から
行われる。

【０００８】ＳＩＭＤ型プロセッサは通常１クロックサ
イクルで１命令を処理するが、１命令でＰＥの個数分の
データを一度に処理することができる。ＳＩＭＤプロセ
ッサの性能を表すには、ＳＩＭＤプロセッサの動作周波
数やＰＥの個数つまり１命令で処理できるデータの数な
どが重要であるが、命令サイクル数も重要となる。つま
り同じ画像処理を行うのに１命令サイクルでも少ないほ
うが性能がよいとされる。１命令で複雑な処理を行おう
とすれば、複雑な処理を行うための回路が必要となり、
コストが増大する。

【０００９】また、ＳＩＭＤ型プロセッサは画像処理に
用いられることが多いが、多種の画像処理の中で、全て
の画素データの中で最大あるいは最小となる値を画像処
理の計算式で用いることがある。最大値あるいは最小値
を求める処理をピーク検出ともいう。ピーク値を求める
方法が色々と提案されている。

【００１０】特許第２９６９１１５号には、ＳＩＭＤ方
式のプロセッサにおいて、最大値プロセッサと最小値プ
ロセッサのアドレスを検出する手法が示されている。算
出はプロセッサ間の比較方式でステップ数がＰＥ数だけ
必要となる。この発明では全ＰＥでのビット毎の論理和
で算出するためデータの最大ビット数がステップ数とな
る。

【００１１】また、特開平８−１４８１６号公報には、
全プロセッサエレメントの出力に木構造の演算器を設
け、トーナメント式に最大値・最小値を算出する手法が
示されている。この方法では、命令ステップでは最小と
なるが、莫大なハードウェアが必要となるという難点が
ある。

【００１２】特開平８−３０５７７号公報には、プロセ
ッサエレメントの数だけのバスが用意され、プロセッサ
エレメントからの出力が任意のプロセッサエレメントの
入力として使用し、プロセッサエレメント内の演算器を
使用して比較により最大値を求める手法が示されてい
る。この方法では、ハードウェアの追加が少なくて済
み、アルゴリズムも簡単だが、バス配線が多くなるとい
う難点がある。

【００１３】

【発明が解決しようとする課題】ところで、最大値ある
いは最小値を求める処理においては、バイナリサーチが
高速にピーク値を求める処理として知られている。

【００１４】バイナリサーチは、例えばデータのサイズ
が８ビットであった場合、符号なしの最大値は２５５と
なるが、その半分の１２８と全ＰＥのデータと同時に比
較し、１個以上１２８よりも大きい値があれば、該当す
るＰＥのみ次回の比較を１２８＋６４＝１９２と行い、
１２８よりも大きい値が無ければ次回の比較を１２８−
６４＝６４と行う。次に、１９２もしくは６４と全ＰＥ
のデータと同時に比較し、例えば１９２と比較した場
合、１個以上１９２より大きい値があれば該当するＰＥ
のみさらに次回の比較を１９２＋３２＝２２４と行い、
１２８より大きい値が無ければされに次回の比較を１９
２−３２＝１６０と行う。これを比較値の加算もしくは
減算値が１になるまで行うものである。

【００１５】上記した以外にも特開平５−１００８２４
号公報に開示されているピーク検出がある。この検出方
法では、２進データの最上位ビットから“１”が１個以
上あれば比較結果判定フラグに“１”を格納し、０個で
あれば“０”を格納し、次回の演算に比較結果判定フラ
グの結果の状態で、比較を行うかどうかを指定し、つま
りビットが進むにつれ比較対照となるＰＥが減少し、全
ビット分繰り返した結果比較判定フラグに“１”が残っ
たものがピーク値となる。

【００１６】上記したいずれの方法においても複数ＳＩ
ＭＤ分の処理（例えば、ＰＥの数が２５６個あった場
合、１ＳＩＭＤで２５６個のデータが一度に処理でき
る。２ＳＩＭＤでは合計５１２個のデータを処理でき
る。）のデータがあった場合、前ＳＩＭＤのピーク値を
グローバルプロセッサの汎用レジスタに保持し、現ＳＩ
ＭＤでの最大値検出が終わった後、保持された前回のピ
ーク値と現在のピーク値との比較を行う処理を必要とす
るために処理のステップ数が多くなるなどの難点があ
る。

【００１７】この発明は、上記した従来の問題点に鑑み
なされたものにして、複数ＳＩＭＤ分の処理でのピーク
値の検出を最小のハードウェアの追加で少ないステップ
数で処理できるＳＩＭＤ型プロセッサを提供することを
課題としている。

【００１８】

【課題を解決するための手段】この発明のＳＩＭＤ型プ
ロセッサは、プログラムを解読しプロセッサ全体を制御
するグローバルプロセッサと、複数データを処理するた
めのレジスタファイルと演算部とを有する複数のプロセ
ッサエレメントと、を備えたＳＩＭＤ型プロセッサにお
いて、前記プロセッサエレメントの演算結果を格納する
演算制御レジスタと、前記プロセッサエレメントの演算
制御レジスタに対応したビットを有する結果値保持部
と、次回の演算の実行条件に使用する演算制御結果を前
記結果保持部の各ビット位置に対応して格納する前回値
保持部と、を備え、前記プロセッサエレメントの演算制
御レジスタの該当するビットの論理和を採りその結果と
前回保持部の対応するデータとの論理和を採り、その値
を前記結果保持部に転送して、前記結果保持部のデータ
に基づいて最大値または最小値を求めることを特徴とす
る。

【００１９】前記演算制御レジスタの最上位ビットから
順次最下位ビットまで動作を繰り返し、前記結果保持部
のデータを書き換えて最大値を求めることができる。

【００２０】前記の構成によれば、全プロセッサエレメ
ント（ＰＥ）の演算制御レジスタ（Ｔレジスタ）と最大
値算出するための前回値保持手段を持ち、全ＰＥのＴレ
ジスタと前回値保持手段と接続された、結果値保持手段
に、全ＰＥのＴレジスタと最大値算出装置の前回値保持
手段との論理和を格納できる構成をもつため、全ＰＥの
データからＴレジスタの状態によって、結果値保持手段
にデータを作成することができる。この結果、最大値ま
たは最小値を少なく簡単なハードウェアの追加で求める
ことができる。

【００２１】また、この発明の最大値算出方法は、上記
に記載のＳＩＭＤ型プロセッサを用い、前記結果値保持
部を初期化する第１ステップ、前記結果値保持部から前
記前回値保持部にデータ転送する第２ステップ、最大値
算出対象データをプロセッサエレメントブロックのレジ
スタファイルに読込む第３ステップ、全プロセッサエレ
メントの演算制御レジスタに“８０ｈ”を設定する第４
ステップ、前記演算制御レジスタの７ビット目の状態を
参照し、“１”であれば入力データと“８０ｈ”の論理
積を採り、ゼロ検出を行い前記演算制御レジスタの７ビ
ット目Ｔ７に格納し、“０”であれば前記演算制御レジ
スタの７ビット目に対してデータ更新を行わないように
動作させる第５ステップ、全プロセッサエレメントの前
記演算制御レジスタの７ビット目と前回値保持部の７ビ
ット目の論理和を採り、結果を結果保持部の７ビット目
に格納する第６ステップ、結果保持部の７ビット目の状
態を判定し、“０”であれば全プロセッサエレメントの
前記演算制御レジスタの７ビット目を“１”に設定し、
“１”であれば前記演算制御レジスタの７ビット目に対
してのデータ更新は行わないように動作させる第７ステ
ップ、前記演算制御レジスタのｉビット目の状態を参照
し、“１”であればレジスタファイルと対象ビットのみ
“１”でありの残りのビットが“０”の８ビットデータ
との論理積を採り、ゼロ検出を行い前記演算制御レジス
タのｉビットに格納し、“０”であれば前記演算制御レ
ジスタのｉビットに対してデータ更新をしないように動
作させる第８ステップ、全プロセッサエレメントの前記
演算制御レジスタのｉビット目と前回値保持部のｉビッ
ト目の論理和を採り、結果を結果保持部のｉビット目に
格納するように動作させる第９ステップ、結果保持部の
ｉビットの状態を判定し、“０”であれば全プロセッサ
エレメントの前記演算制御レジスタのｉ＋１ビット目を
“１”に設定し、“１”であれば前記演算制御レジスタ
のｉ＋１ビット目に対してのデータ更新は行わないよう
に動作する第１０ステップと、前記第８ないし第１０ス
テップを前記演算制御レジスタの全てのビット数が終了
するまで繰り返した後、ＳＩＭＤデータの全てのデータ
がなくなるまで前記第２ステップ以降の動作を繰り返
し、前記結果保持部に格納されたデータを読み出すこと
を特徴とする。

【００２２】従来の方法であれば最大値を求めるために
莫大なハードウェアを追加して最大値を求めたり（特許
第２９６９１１５号、特開平８−１４８１６号公報参
照）、すべてのＰＥ間を接続したり（特開平８−３０５
７７号公報参照）していたが、これらはコストが増大す
る。また、最大値を持つＰＥの位置の算出のみで実際の
最大値を算出するために全ＰＥから最大値を取り出す処
理、もしくはハードウェアの追加を必要とするなどの難
点があったが、上記の方法を用いれば、複数ＳＩＭＤデ
ータの符号付き最大値・最小値、符号付きデータの最大
値・最小値が少なく簡単なハードウェアの追加で求める
ことができる。

【発明の実施の形態】以下、この発明の実施形態につき
図２ないし図４を参照して説明する。この発明のＳＩＭ
Ｄプロセッサの全体構成は図１に示すものと同様であ
る。主にプロセッサ全体を制御するグローバルプロセッ
サ２と、主に外部入出力インタフェース４からデータを
入力し、データ処理を行い外部入出力装置に出力するプ
ロセッサエレメント３ａから構成される。プロセッサエ
レメント３ａは複数データを処理するために複数用意さ
れている。この実施形態では、例として１つのグローバ
ルプロセッサ２と２５６個のプロセッサエレメント３ａ
で構成されたプロセッサエレメントブロックとでＳＩＭ
Ｄプロセッサを構成している。

【００２３】図２は、この発明の実施形態を示すブロッ
ク図である。尚、図２のプロセッサエレメントはこの発
明の説明に必要な最小限の構成としている。

【００２４】このグロバールプロセッサ２には、このプ
ロセッサのプログラム格納用のプログラムＲＡＭと演算
データ格納用のデータＲＡＭが内蔵されている。さら
に、プログラムのアドレスを保持するプログラムカウン
タ（ＰＣ）、演算処理のデータ格納のための汎用レジス
タであるＧ０〜Ｇ３レジスタ、レジスタ退避、復帰時に
退避先データＲＡＭのアドレスを保持しているスタック
ポインタ（ＳＰ）、サブルーチンコール時にコール元の
アドレスを保持するリンクレジスタ（ＬＳ）、同じくＩ
ＲＱ時とＮＭＩ時の分岐元アドレスを保持するＬＩ、Ｌ
Ｎレジスタ、プロセッサの状態を保持しているプロセッ
サステータスレジスタ（Ｐ）が内蔵されている。

【００２５】これらのレジスタと図示していない命令デ
コーダ、算術論理回路（ＡＬＵ）、メモリ制御回路、割
り込み制御回路、外部Ｉ／Ｏ制御回路、ＧＰ演算制御回
路を使用してＧＰ命令の実行が行われる。

【００２６】また、ＰＥ命令実行時は命令デコーダ、図
示していないレジスタファイル制御回路、ＰＥ演算制御
回路を使用して、レジスタファイルの制御と演算アレイ
の制御を行う。

【００２７】図２に示すように、プロセッサエレメント
（ＰＥ）３ａの構成は、外部からの入出力データを一時
的に保持するレジスタファイル３１とＰＥ３ａ内でＡＬ
Ｕと呼ばれる算術論理演算、ビット演算等のデータ処理
を行うための演算ユニット３０からなる。演算ユニット
が複数集まったものが図１の演算アレイとなる。レジス
タファイル３１は例として、Ｒ０〜Ｒ３１までの８ビッ
トのレジスタを３２個図示している。これらのうちの指
定の１つのレジスタのデータを演算ユニット３０に転送
したり、演算ユニット３０から転送したデータを所定の
１つのレジスタに格納したりする。レジスタファイル３
１の１つのレジスタは例として８ビットで表記してい
る。つまり同時に外部入出力から入力された複数の８ビ
ットのデータを同時にレジスタファイル３１に格納し、
同時に演算ユニット３０で演算した結果を同時にレジス
タファイル３１に格納し、同時に外部入出力インタフェ
ース４に出力するのがＳＩＭＤの主な使用方法となる。

【００２８】演算ユニット３０についてさらに説明す
る。演算ユニット３０には２入力のＡＬＵ３４が備わ
り、２入力のうちの１つがＡレジスタ３５から第１保持
回路３７に転送されたのデータ、もう１つはレジスタフ
ァイル３１から第２保持回路３８に転送されたデータと
なる。また、図示していないが、命令オペランド中に記
述された値で即値がグローバルプロセッサに含まれる命
令デコーダから即値部分を抜き出し、第１保持回路３７
あるいは第２保持回路３８に転送することができ、つま
りＡレジスタ３５の値と即値の演算、もしくは即値とレ
ジスタファイル３１の指定の１レジスタの値との演算も
可能である。

【００２９】ＡＬＵ３４で行われた演算の結果で比較の
結果をＴレジスタと呼ばれる演算制御レジスタ３６の１
ビットに転送することができる。比較の条件は例えば２
つのデータの、大小、等、不等などである。真であれば
“１”が、偽であれば“０”が格納される。

【００３０】Ｔレジスタ３６は例えば８ビット用意した
場合、８個の演算条件設定ができる。各ビットは図２で
はＴ０〜Ｔ７となる。Ｔレジスタの指定の１ビットの値
を参照し、ＡＬＵ３４での演算結果をＡレジスタ３５に
書き込むか、書き込まないかの制御をする。例えば
“１”あればＡレジスタ３５への書き込みを行い、
“０”であれば行わないといった制御を行う。これによ
って一部のプロセッサエレメント３ａのＡＬＵ３４での
実行結果を変えることができる。

【００３１】全てのＰＥ３ａ…のＴレジスタ３６の各ビ
ットは、グローバルプロセッサ２の指定のフラグに接続
されている。指定のＴｎ（ｎ＝０，１，…，７）を全Ｐ
Ｅ３ａ…で論理和を採り、グローバルプロセッサ２の指
定のフラグに結果を格納する。また、全ＰＥ３ａ…のＴ
レジスタ３６の各ビットは、最大値算出装置２０の結果
値保持部２１にも接続されており、同じく指定のＴｎ
（ｎ＝０，１，…，７）を全ＰＥ３ａ…で論理和を採
り、結果値保持部２２のＬｎに結果を格納する。結果値
保持部２２（Ｌ）のデータは前回値保持部２１（Ｋ）に
各ビット位置を対応させて転送するように接続されてい
る。また、ＴｎとＫｎは全ＰＥ３ａ…で論理和をとる際
に共に論理和をとるように接続されている。例えば６番
目のＴフラグであるＴ６とＫ６との論理和を行った場
合、は以下のようになる。

【００３２】（ＰＥ０のＴ６）ＯＲ（ＰＥ１のＴ６）Ｏ
Ｒ … ＯＲ（ＰＥ２５５のＴ６）ＯＲＫ６→Ｌ６

【００３３】この発明の構成を採用したときの１つのＳ
ＩＭＤプロセッサでの処理手順を図３に示す。この図３
に従い１つのＳＩＭＤプロセッサでの処理について説明
する。

【００３４】（前準備（図４のＳＴ１，ＳＴ２，ＳＴ３
に相当））最大値算出装置２０の結果値保持部２２のＬ
レジスタに“０”を転送し、最大値算出装置２０の前回
値算出部２１のＫレジスタに結果値保持部２２のＬレジ
スタの“０”を転送する（初期化する）。結果値保持部
２２にはＧＰ２での命令のデコードの際生じる、即値を
直接転送するＰＡＴＨを設ける必要がある。結果値保持
部２２から前回値保持部２１にデータを転送するＰＡＴ
Ｈ以外にも、直接命令の即値を転送するＰＡＴＨを設け
ても良い。

【００３５】前準備が終わると、ステップ（ＳＴ５−
１）において、全ＰＥ３ａ…のＴレジスタ３６に“８０
ｈ”をセットする。Ｔレジスタ３６は１ビットずつが実
行条件判定となっている。命令で指定した１ビットを参
照し、その状態を参照して“１”であればＡＬＵ３４の
演算結果をＡレジスタ３５に格納し、演算結果のゼロ検
出をＴレジスタ３６に格納する。“０”であれば演算結
果とゼロ検出結果をそれぞれＡレジスタ３５とＴレジス
タ３６に格納しない（前回の値のままとなる）。“８０
ｈ”にセットしたのは最初に参照するＴレジスタ３６の
１ビットがＴ７であり、“１”であるので、初回は全て
のＰＥ３ａ…で演算を行い、Ａレジスタ３５とＴフラグ
３６に結果が格納されることになる。

【００３６】続いて、ステップ（ＳＴ５−２）におい
て、外部入出力インタフェース４からレジスタファイル
３１に転送されたデータと０ビットから７ビットまでの
８ビットデータのうち、７ビット目が“１”のデータ、
１６進数で表記すると“８０ｈ”とデータの入力されて
いるＲｊ（ｊ＝０〜３１）レジスタのデータの論理積
（ＡＮＤ）を採り、ＡＬＵ３４でゼロ検出を行う。ゼロ
であるＰＥ３ａでは、“１”をＴ７に格納する。ゼロで
ないＰＥ３ａでは“０”をＴ７に格納する。

【００３７】次に、ステップ（ＳＴ５−３）において、
全ＰＥ３ａ…のＴ７（ＰＥ毎の指定されたＲｊの値によ
って結果が変わる。Ｒｊの最上位ビットの７ビット目が
“１”のＰＥ３ａでは、Ｔ７は“１”、“０”のＰＥ３
ａでは、Ｔ７は“０”となっている）と前回値保持部２
１のＫ７（初期設定で“０”となっている）の論理和
（ＯＲ）演算を行い、結果を結果保持部２２のＬ７に格
納する。１個以上の“１”があればＬ７は“１”となる
が、なければ“０”となる。

【００３８】そして、ステップ（ＳＴ５−４）におい
て、結果値保持部２２のＬ７の状態を判定し、Ｌ７が
“０”であった場合、ステップ（ＳＴ−５）へ進み、全
ＰＥ３ａ…のＴ７に“１”をセットする。また、ステッ
プ（ＳＴ５−４）において、結果値保持部２２のＬ７の
状態を判定し、Ｌ７が“１”であった場合には、ステッ
プ（ＳＴ５−６）へ進む。

【００３９】以上のステップ（ＳＴ５−１）〜ステップ
（ＳＴ５−５）で７ビット目の結果が、結果値保持部２
２Ｌ７にセットされる。

【００４０】続いて、ステップ（ＳＴ５−６）〜ステッ
プ（ＳＴ５−１１）まではステップ（ＳＴ５−２）〜ス
テップ（ＳＴ５−５）と同じことをビット６〜０につい
て行っている。違いはステップ（ＳＴ５−５）とステッ
プ（ＳＴ５−１０）であり、６〜０ビットまでに関して
のステップ（ＳＴ５−１０）においては前回結果をＴｉ
に転送している。即ち、ステップ（ＳＴ５−６）とステ
ップ（ＳＴ５−１１）において、ビット６〜０を処理す
るためのループが設定される。そして、ステップ（ＳＴ
５−７）において、外部入出力インタフェース４からレ
ジスタファイル３１に転送されたデータとｉビットの
み”１”で他のビットが”０”とデータの入力されてい
るＲｊ（ｊ＝０〜３１）レジスタのデータの論理積（Ａ
ＮＤ）を採り、ＡＬＵ３４でゼロ検出を行う。ゼロであ
るＰＥ３ａでは、“１”をＴｉに格納する。ゼロでない
ＰＥ３ａでは“０”をＴｉに格納する。

【００４１】次に、ステップ（ＳＴ５−８）において、
全ＰＥ３ａ…のＴｉと前回値保持部２１のＫｉの論理和
（ＯＲ）演算を行い、結果を結果保持部２２のＬ７に格
納する。１個以上の“１”があればＬｉは“１”となる
が、なければ“０”となる。

【００４２】そして、ステップ（ＳＴ５−９）におい
て、結果値保持部２２のＬｉの状態を判定し、Ｌｉが
“０”であった場合、ステップ（ＳＴ−１０）へ進み、
全ＰＥ３ａ…のＴｉ＋１に前回結果をＴｉをセットす
る。また、ステップ（ＳＴ５−９）において、結果値保
持部２２のＬｉの状態を判定し、Ｌｉが“１”であった
場合には、ステップ（ＳＴ５−１１）へ進み、ビット６
〜０について処理が繰り返される。

【００４３】図４は複数ＳＩＭＤのデータの最大値を求
める場合のフローである。図３の１つのＳＩＭＤの場合
をＳＩＭＤ分だけ繰り返すことになる。

【００４４】ステップ（ＳＴ１）において、前述した図
３に示す１つのＳＩＭＤの場合のフローの前準備に当た
る処理を行う。即ち、最大値算出装置２０の結果値保持
部２２のＬレジスタに“０”を転送し初期化する。これ
は全体の処理が始まる最初だけ行われる。

【００４５】続いて、ステップ（ＳＴ２，ＳＴ６）にて
ループを設定し、ステップ（ＳＴ３）〜ステップ（ＳＴ
５）までの処理を繰り返す。１つのＳＩＭＤでは２５６
個のデータを同時処理できるため、例えば１０ＳＩＭＤ
では２５６０個のデータを処理できる。ステップ（ＳＴ
３）では、最大値算出装置２０の結果値保持部２２のデ
ータを前回値保持部２１のレジスタに転送する。

【００４６】そして、ステップ（ＳＴ４）において、外
部入出力インタフェース４から最大値を求めるためのデ
ータをＲレジスタ３１に転送する。フローチャートでは
４番目に記述しているが、１つのＳＩＭＤの最大値算出
が始まるまでに設定されていれば良い。

【００４７】続いて、ステップ（ＳＴ５）において、前
述した図３の通りの１つのＳＩＭＤの時の処理を行う。
データがなくなるまでループを繰り返し、ループが終了
するとステップ（ＳＴ７）に進む。

【００４８】ステップ（ＳＴ７）において、最大値を求
める。上記のステップ（ＳＴ１）〜ステップ（ＳＴ６）
までの処理が終了したときの結果保持部２２のＬレジス
タの値がすべてのデータの最大値となる。

【００４９】この発明の構成で最小値を求める場合は、
図２の演算ユニット３０の第２の保持回路３８もしくは
出力に排他的論理和（ＸＯＲ）を挿入し、片側の入力が
Ｒレジスタのデータ、もう片側がグローバルプロセッサ
２からのコントロール信号とすれば良い。コントロール
信号が“０”の場合は通常演算とし、“１”の場合反転
入力とするように構成すれば良い。ＸＯＲを挿入しない
場合はＡＬＵ３４にてＲレジスタのデータと“ＦＦｈ”
とのＸＯＲ命令を実行し、結果を別のＲレジスタに格納
し最大値算出に使用すれば良い。これであれば回路を追
加する必要がないが、１ステップ命令を実行しなければ
いけない。反転データは、以下の通りとなる。

【００５０】元データ反転データＦＦｈ → ００ｈＦＥｈ → ０１ｈ … … … ０１ｈ → ＦＥｈ００ｈ → ＦＦｈ

【００５１】上記のことから、最小値を求めるには最大
値の反転の最大値を求めれば良いことは明らかである。

【００５２】そして、最終のデータは最大値算出装置２
０のＬレジスタに保持されていて、その反転が全データ
の最小値となる。

【００５３】また、この発明の構成で符号付きデータの
最大値の算出も可能である。この場合は、図２の演算ユ
ニット３０の第２の保持回路３８の入力もしくは出力の
最上位ビット（ＭＳＢ）の７ビット目にＸＯＲを挿入
し、片側の入力がＲレジスタの７ビット目のデータ、も
う片側がグローバルプロセッサからのコントロール信号
とすれば良い。コントロール信号が“０”の場合は通常
演算とし、“１”の場合反転入力とするように構成すれ
ば良い。ＸＯＲを挿入しない場合はＡＬＵ３４にてＲレ
ジスタのデータと“８０ｈ”とのＸＯＲ命令を実行し、
結果を別のＲレジスタに格納し最大値算出に使用すれば
よい。これであれば回路を追加する必要がないが、１ス
テップ命令を実行しなければいけない。反転データは、
以下の通りとなる。

【００５４】元データＭＳＢ反転データ７Ｆｈ → ＦＦｈ７Ｅｈ → ＦＥｈ … … … ＦＦｈ（−１） →７ＦｈＦＥｈ（−２） →７Ｅｈ … … … ８１ｈ（−７ｆｈ）→０１ｈ８０ｈ（−８０ｈ）→００ｈ

【００５５】上記のように、ＭＳＢ反転データの最大値
を求め、最終のデータは最大値算出装置のＬレジスタに
保持されていて、そのＭＳＢ反転が全データの符号付き
の最大値となる。

【００５６】因みに符号付きの最小値は、前述までの組
み合わせで容易に算出でき、前述の最小値を求める際の
構成で、ＭＳＢのＸＯＲのコントロール信号を“０”、
その他の７ビットのコントロール信号を“１”にすれば
良い。ＸＯＲを挿入しない場合はＡＬＵにてＲレジスタ
のデータと“７Ｆｈ”とのＸＯＲ命令を実行し、結果を
別のＲレジスタに格納してもよい。求めた最大値のＬレ
ジスタの値に対して“７Ｆｈ”をＸＯＲ演算すると結果
の符号付きの最小値となる。

【００５７】尚、図２に示した実施形態においては、グ
ローバルプロセッサ２内に最大値算出装置２０を設けた
構成にしているが、グローバルプロセッサ２内部に最大
値算出装置２０を必ずしも設ける必要はなく、最大値算
出装置２０をグローバルプロセッサ２の外部に設け、グ
ローバルプロセッサ２とプロセッサエレメント３ａと最
大値算出装置２０とをバスで接続してデータの送受を行
うように構成してもよい。

【００５８】

【発明の効果】以上説明したように、この発明のＳＩＭ
Ｄ型プロセッサは、全ＰＥの演算結果レジスタ（Ｔレジ
スタ）と最大値算出のための前回値保持手段を持ち、全
ＰＥのＴレジスタと前回値保持手段と接続された、結果
値保持手段に、全ＰＥのＴレジスタと最大値算出装置の
前回値保持手段との論理和を格納できる構成をもつた
め、全ＰＥのデータからＴレジスタの状態によって、結
果値保持手段にデータを作成することができ、複数ＳＩ
ＭＤデータの符号付き最大値・最小値、符号付きデータ
の最大値・最小値が少なく簡単なハードウェアの追加で
求めることができる。

【図面の簡単な説明】

【図１】ＳＩＭＤ型プロセッサの全体構成を示すブロッ
ク図である。

【図２】この発明の実施形態を示すブロック図である。

【図３】１つのＳＩＭＤのデータの最大値を求める場合
の動作を示すフロー図である。

【図４】複数ＳＩＭＤのデータの最大値を求める場合の
動作を示すフロー図である。

【符号の説明】

２グローバルプロセッサ３プロセッサエレメントブロック３ａプロセッサエレメント４外部入出力インタフェース２０最大値算出装置２１前回値保持部２２結果値保持部３０演算ユニット３１レジスタファイル３４ＡＬＵ３５Ａレジスタ３６Ｔレジスタ４０演算アレイ

Claims

【特許請求の範囲】

【請求項１】プログラムを解読しプロセッサ全体を制
御するグローバルプロセッサと、複数データを処理する
ためのレジスタファイルと演算部とを有する複数のプロ
セッサエレメントと、を備えたＳＩＭＤ型プロセッサに
おいて、前記プロセッサエレメントの演算結果を格納す
る演算制御レジスタと、前記プロセッサエレメントの演
算制御レジスタに対応したビットを有する結果値保持部
と、次回の演算の実行条件に使用する演算制御結果を前
記結果保持部の各ビット位置に対応して格納する前回値
保持部と、を備え、前記プロセッサエレメントの演算制
御レジスタの該当するビットの論理和を採りその結果と
前回保持部の対応するデータとの論理和を採り、その値
を前記結果保持部に転送して、前記結果保持部のデータ
に基づいて最大値または最小値を求めることを特徴とす
るＳＩＭＤ型プロセッサ。
【請求項２】前記演算制御レジスタの最上位ビットか
ら順次最下位ビットまで動作を繰り返し、前記結果保持
部のデータを書き換えることを特徴とする請求項１に記
載のＳＩＭＤ型プロセッサ。
【請求項３】前記請求項１または２に記載のＳＩＭＤ
型プロセッサを用い、前記結果値保持部を初期化する
第１ステップ、前記結果値保持部から前記前回値保持部にデータ転送す
る第２ステップ、最大値算出対象データをプロセッサエレメントブロック
のレジスタファイルに読込む第３ステップ、全プロセッ
サエレメントの演算制御レジスタに“８０ｈ”を設定す
る第４ステップ、前記演算制御レジスタの７ビット目の状態を参照し、
“１”であれば入力データと“８０ｈ”の論理積を採
り、ゼロ検出を行い前記演算制御レジスタの７ビット目
Ｔ７に格納し、“０”であれば前記演算制御レジスタの
７ビット目に対してデータ更新を行わないように動作さ
せる第５ステップ、全プロセッサエレメントの前記演算制御レジスタの７ビ
ット目と前回値保持部の７ビット目の論理和を採り、結
果を結果保持部の７ビット目に格納する第６ステップ、結果保持部の７ビット目の状態を判定し、“０”であれ
ば全プロセッサエレメントの前記演算制御レジスタの７
ビット目を“１”に設定し、“１”であれば前記演算制
御レジスタの７ビット目に対してのデータ更新は行わな
いように動作させる第７ステップ、前記演算制御レジスタのｉビット目の状態を参照し、
“１”であればレジスタファイルと対象ビットのみ
“１”でありの残りのビットが“０”の８ビットデータ
との論理積を採り、ゼロ検出を行い前記演算制御レジス
タのｉビットに格納し、“０”であれば前記演算制御レ
ジスタのｉビットに対してデータ更新をしないように動
作させる第８ステップ、全プロセッサエレメントの前記演算制御レジスタのｉビ
ット目と前回値保持部のｉビット目の論理和を採り、結
果を結果保持部のｉビット目に格納するように動作させ
る第９ステップ、結果保持部のｉビットの状態を判定し、“０”であれば
全プロセッサエレメントの前記演算制御レジスタのｉ＋
１ビット目を“１”に設定し、“１”であれば前記演算
制御レジスタのｉ＋１ビット目に対してのデータ更新は
行わないように動作する第１０ステップと、前記第８ないし第１０ステップを前記演算制御レジスタ
の全てのビット数が終了するまで繰り返した後、ＳＩＭ
Ｄデータの全てのデータがなくなるまで前記第２ステッ
プ以降の動作を繰り返し、前記結果保持部に格納された
データを読み出して複数ＳＩＭＤ型プロセッサの最大値
算出を行うことを特徴とするＳＩＭＤ型プロセッサの最
大値算出方法。