JPH05151347A

JPH05151347A - 並列画像処理プロセツサ

Info

Publication number: JPH05151347A
Application number: JP3314964A
Authority: JP
Inventors: Hiroshi Takaku; 博高久
Original assignee: Olympus Optical Co Ltd
Current assignee: Olympus Corp
Priority date: 1991-11-28
Filing date: 1991-11-28
Publication date: 1993-06-18

Abstract

(57)【要約】【目的】ＰＥの数に無関係にデータを逐次クロックご
とに入出力可能な並列画像処理プロセッサを提供する。【構成】複数のプロセッサエレメントＰＥ００〜ＰＥ
０３にそれぞれ対応して設けられ、あるタイミングにお
いて各プロセッサエレメントに異なるインストラクショ
ンを与えるために、入力されたインストラクションをク
ロックに同期して逐次、遅延伝搬させる複数のラッチ１
０〜１２を具備する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は並列画像処理プロセッサ
に関する。

【０００２】

【従来の技術】従来より、並列画像処理プロセッサとし
て、ＳＩＭＤ（Single InstructionStream Multiple Da
ta Stream ）型計算機とパイプライン方式計算機とが知
られている。

【０００３】ＳＩＭＤ型計算機においては、プロセッサ
が複数のプロセッサ・エレメント（以下、ＰＥと呼ぶ）
で構成され個々のＰＥが独自に計算を行う。ｎ個のＰＥ
で構成されたプロセッサは１個のＰＥで構成されたプロ
セッサのｎ倍の処理が可能である。この形式の計算機で
は複数のＰＥに同じインストラクションを与える。従っ
て、単一のインストラクションセットで複数のデータが
同時に処理される。また、パイプライン方式計算機にお
いては、一つのインストラクションを幾つかの部分に分
け、それぞれの部分を別々の実行モジュールで実行する
ことにより、見かけ上同時に幾つかのインストラクショ
ンを実行できる。

【０００４】

【発明が解決しようとする課題】しかしながら、上記し
たＳＩＭＤ型計算機においては、単一のインストラクシ
ョンで全てのＰＥが同時に動作するので入出力等も同時
に実行される。したがって、プロセッサに対してＰＥ数
と同じ数のデータを入力又は出力しなければならない。
これを固体化（チップ化）しようとした時にはデータの
入出力のために膨大な数の入出力端子が必要になる。そ
のために、特開平１−２５８１８４号は入力データを一
端内部のメモリにバッファリングしておきその後でこの
データをＰＥで同時に使用する方法を開示している。

【０００５】また、パイプライン方式のように幾つかの
実行モジュールに分割する方法では、分割方法そのもの
が変更できないのでより効率のよい分割方法を取ること
ができない。

【０００６】本発明の並列画像処理プロセッサはこのよ
うな課題に着目してなされたもので、その目的とすると
ころは、ＰＥの数に無関係にデータを逐次クロックごと
に入出力可能な並列画像処理プロセッサを提供すること
にある。

【０００７】

【課題を解決するための手段】上記の目的を達成するた
めに、本発明においては、複数のプロセッサエレメント
と、該複数のプロセッサエレメントにそれぞれ対応して
設けられ、あるタイミングにおいて各プロセッサエレメ
ントに異なるインストラクションを与えるために、入力
されたインストラクションをクロックに同期して逐次、
遅延伝搬させる複数の遅延手段とを具備する。

【０００８】

【作用】すなわち、本発明においては、入力されたイン
ストラクションをクロックに同期して逐次、遅延伝搬さ
せることによって、あるタイミングにおいて各プロセッ
サエレメントに異なるインストラクションを与える。

【０００９】

【実施例】まず、インストラクション入力について説明
する。ここでは、簡単のためにＰＥが３個の場合につい
て説明する。

【００１０】図１の様にインストラクション入力端子か
らインストラクションが入力されラッチ１０でそれがラ
ッチされる。その後、このインストラクションはＰＥ０
０に入力されそこで実行されると同時に次のラッチ１１
に入力される。次のインストラクションが入力されると
同時にラッチ１１はその一つ前のインストラクションを
ラッチしＰＥ０１に与えている。この時、ラッチ１０は
二番目のインストラクションをラッチしＰＥ００にそれ
を与えている。

【００１１】同様に三番目のインストラクションが入力
するとラッチ１０がそれをラッチしＰＥ００に与え、同
時刻にラッチ１１は二番目のインストラクションをラッ
チしそれをＰＥ０１に与え、かつラッチ１２は最初のイ
ンストラクションをラッチしそれをＰＥ０２に与え、そ
れぞれが違ったインストラクションを実行しながら入力
されるインストラクション流は単一である。

【００１２】図２にクロックに同期したインストラクシ
ョン（ＡＢＣＤ）とそれをラッチしたラッチの出力のタ
イムチャートを示す。図ではＰＥ００がインストラクシ
ョンを入力されたのとほぼ同じタイミングで実行される
事を示し、ＰＥ０１はそれより１クロック遅れて実行さ
れることを示しており、ＰＥ０３は更に１クロック遅れ
て実行されることを示している。

【００１３】以下に、データ入力について説明する。

【００１４】ここでは簡単のために入力されたインスト
ラクションが伝播されることにより、どの様にそれが複
数のＰＥによって実行されてゆくかを図３にしたがって
説明する。端子１より入力されるクロックに同期したイ
ンストラクションが端子０より入力される。

【００１５】まず、ラッチ１０に入力要求インストラク
ション（ＩＮＰと略記する）がラッチされそれがＰＥ０
０によって実行される。すると入力端子２にあるデータ
がＰＥ００内のレジスタ等にラッチされ以降の演算対象
となり得る。次にＩＮＰはＰＥ０１に入力されそれの持
つレジスタ等にラッチされる。最後にＩＮＰ命令はＰＥ
０２によって実行されそこに格納される。以上のように
端子２から入力されるのは一時期に（１サイクル）一つ
のデータのみである。またこの動作のために与えられた
命令流は一つのみである。

【００１６】図４にデータ入力のタイムチャートを示
す。ここではクロックに同期してＩＮＰインストラクシ
ョンが順に送られ、順に入力されたデータ（データ０、
データ１及びデータ２）がＰＥに取り込まれる。データ
０はＰＥ００に、データ１はＰＥ０１に、データ３はＰ
Ｅ０３に取り込まれる。

【００１７】以下に、データ出力について説明する。

【００１８】ここでも同様に出力されるインストラクシ
ョンが伝播される様子を図５にしたがって説明する。こ
こで端子０、１、２、３はそれぞれインストラクショ
ン、クロック、入力データ、出力データ端子である。

【００１９】ラッチ１０によって出力インストラクショ
ン（ＯＵＴと略記する）がラッチされそれがＰＥ００に
よって実行される。するとＰＥ００の出力端子よりデー
タが出力端子３に向けて出力される。次にＯＵＴはラッ
チ１１にラッチされることによりＰＥ０１で実行されＰ
Ｅ０１の持つ値が出力端子３に出力される。同様に次の
サイクルではＰＥ０２の持つ値が出力端子に出力され
る。

【００２０】以上のように出力端子３から出力されるデ
ータは１サイクルに一つのデータのみである。またこの
動作のために与えられた命令流はただ一つである。図６
にデータ出力のタイムチャートを示す。ここではクロッ
クに同期してＯＵＴインストラクションが順に送られ、
順に出力されるデータ（データ０、データ１及びデータ
２）がＰＥから送りだされる。データ０はＰＥ００か
ら、データ１はＰＥ０１から、データ３はＰＥ０３から
送りだされる。

【００２１】以下に図７を参照して第１の実施例を説明
する。

【００２２】この実施例では、与えられたデータの２倍
の数を出力するものとし、インストラクション流として
以下のものを考える。また、プロセッサとしてＰＥが３
個の構成を考える。

【００２３】１ＩＮＰＲ０；Ｒ０レジスタに入
力端の値を格納する２ＡＤＤＲ０；Ｒ０ ←Ｒ０＋Ｒ０（Ｒ０レジス
タの内容を２倍する）３ＯＵＴＲ０；Ｒ０レジスタの値を出力端に出
力する図７において、２０，２１，２２は計算の途中結果を格
納するためのレジスタでそれぞれにＲ０（レジスタ０）
が用意されている。レジスタには図９のように入出力バ
ス３０１及びレジスタアドレスバス３００が有りこれら
によりＰＥとのデータのやり取りができる。

【００２４】ＰＥには図１０に示すようにデータ出力ポ
ート００１、入力ポート００２、前隣接入力ポート００
３、後隣接出力ポート００４、前隣接出力ポート００
５、後隣接入力ポート００６及びレジスタとのデータ通
信を行うレジスタデータ通信バス００７がありこれらの
ポートを介してＰＥ同志、入出力端子及びレジスタとの
データ通信を行う。ＰＥはラッチ００８，００９を持ち
それぞれポート００４，００５へデータを出すためのデ
ータをラッチする。このＰＥが先の図７の様に組み合わ
されている。ここで４，５，６，７はカスケード接続の
ための端子でありＰＥの数を増やす時に使用する。ＰＥ
００とレジスタ２０はデータバス００１とアドレスバス
００２によって接続されている。ＰＥ０１とレジスタ２
１はデータバス０１１とアドレスバス０１２によって接
続されている。ＰＥ０２とレジスタ２２はデータバス０
２１とアドレスバス０２２によって接続されている。Ｐ
Ｅ００にはカスケード端子４からバス０３３を通してデ
ータが入力されＰＥ００からのデータがバス００４を通
してカスケード端子５に出力される。ＰＥ００とＰＥ０
１はデータバス００３と０１４で接続され、ＰＥ０１と
ＰＥ０２はデータバス０１３と０２４で接続される。Ｐ
Ｅ０２にはカスケード端子７からバス０２４を通してデ
ータが入力されＰＥ０２からのデータがバス０２３を通
してカスケード端子６に出力される。

【００２５】先のプログラムによる動作をそれぞれのサ
イクル毎のＰＥの動作内容を見ることで説明する。

【００２６】サイクルＰＥ＃実行命令動作内容１ 00 ＩＮＰＲ０入力端子２のデータをレジスタ２０のＲ０に格納 01 何もしない 02 何もしない２ 00 ＡＤＤＲ０レジスタ２０のＲ０の内容を２倍する 01 ＩＮＰＲ０入力端子２のデータをレジスタ２１のＲ０に格納 02 何もしない３ 00 ＯＵＴＲ０レジスタ２０のＲ０の内容を出力端子３に出力する 01 ＡＤＤＲ０レジスタ２１のＲ０の内容を２倍する 02 ＩＮＰＲ０入力端子２のデータをレジスタ２２のＲ０に格納４ 00 何もしない 01 ＯＵＴＲ０レジスタ２０のＲ０の内容を出力端子３に出力する 02 ＡＤＤＲ０レジスタ２２のＲ０の内容を２倍する５ 00 何もしない 01 何もしない 02 ＯＵＴＲ０レジスタ２０のＲ０の内容を出力端子３に出力するこの様に各サイクル毎に入力された値の２倍の値を順次
出力される。ここで特定のサイクルで「何もしない」と
言う動作があるがこれはハード的に作りだされる特別の
命令である（例えば「ＮＯＰ」等のような）。これは、
ＲＥＳＥＴ（初期化）等より作りだすことができる。

【００２７】図８には実行時のタイムチャートを示す。
ｉｄａｔａ０，１，２は入力データであり、端子２より
入力され出力端子３にはｏｄａｔａ０，１，２が出力さ
れる。

【００２８】以下に第２の実施例を説明する。この実施
例では与えられたデータの３つ毎の合計を出力するもの
とする。

【００２９】問題は数列ａ、ｂ、ｃ、ｄ、ｅ、ｆ、ｇが
与えられた時に答えとして、ａ、ａ＋ｂ、ａ＋ｂ＋ｃ、
ｂ＋ｃ＋ｄ、ｃ＋ｄ＋ｅ、ｅ＋ｆ＋ｇ、ｆ＋ｇ、ｇを求
めるのである。

【００３０】ここではＰＥ内のラッチを利用する。図１
０におけるラッチ００８、００９に対する書き込み命令
を以下に示す。

【００３１】１ＷＲＯＦ；ラッチ００８へ書き
込み２ＷＲＯＢ；ラッチ００９へ書き込みＰＥへのデータ取り込みの命令を以下に示す。

【００３２】３ＲＤＩＦ；バス００６からのデ
ータの読み取り４ＲＤＩＢ；バス００３からのデータの読み取
り全てのデータはレジスタＲ０を介して転送される。ま
た、以下の命令も使用される。ここでは、レジスタ０以
外にレジスタ１（Ｒ１）を使用する。従って、データ転
送には以下の命令が使用される。

【００３３】５ＭＶＲ０，Ｒ１；Ｒ０からＲ１
へのデータ転送それ以外に以下の命令も用意されている。

【００３４】６ＮＯＰ；何もしない命令実行サイクルＰＥ００ＰＥ０１ＰＥ０２１ＩＮＰＲ０；データ（＝ａ）の入力２ＷＲＯＦ；読み込んだデータをラッチに書き込む。最初のデータが書き込まれるＩＮＰＲ０；データ（＝ｂ）入力３ＭＶＲ０，Ｒ１；レジスタＲ０の内容をＲ１に格納するＷＲＯＦ；読み込んだデータをラッチに書き込むＩＮＰＲ０；データ入力（＝ｃ）４ＲＤＩＢ；ラッチからデータを読みだすＭＶＲ０，Ｒ１；レジスタＲ０の内容をＲ１に格納するＷＲＯＦ；読み込んだデータをラッチに書き込む。

【００３５】５ＮＯＰＲＤＩＢ；ラッチからデータ（＝ａ）を読みだす。サイクル２でデータが格納されているＭＶＲ０，Ｒ１；レジスタＲ０の内容をＲ１に格納する６ＷＲＯＦ；読みだし値（＝０）をラッチに書き込むＮＯＰＲＤＩＡ；ラッチからデータ（＝ｂ）を読みだす。当ラッチにはサイクル３でデータが格納されている７ＡＤＤＲ１；外部からの値に一番めの値（＝ａ）を加えるＷＲＯＦ；一番目の値（＝ａ）を書き込むＮＯＰ８ＭＶＲ０，Ｒ１；レジスタＲ０の内容をＲ１に格納するＡＤＤＲ１；一番めの値（＝ａ）に二番めの値（＝ｂ）を加えるＷＲＯＦ；二番目の値（＝ｂ）を書き込む９ＲＤＩＢ；三つめの値（＝０）を読み込むＭＶＲ０，Ｒ１；レジスタＲ０の内容をＲ１に格納するＡＤＤＲ１；一番目の値（＝ｂ）に二番めの値（＝ｃ）を加える１０ＡＤＤＲ１；三つめの値を加えるＲＤＩＢ；三つめの値を読み込むＭＶＲ０，Ｒ１１１ＯＵＴＲ０；答え（＝ａ）を出力するＡＤＤＲ１；三つめの値を加えるＲＤＩＢ；三番（＝ｃ）めの値を読み込む１２ＯＵＴＲ０；答え（＝ａ＋ｂ）を出力するＡＤＤＲ１；三番（＝ｃ）めの値を加える１３ＯＵＴＲ０；答え（＝ａ＋ｂ＋ｃ）を出力するこの演算を実行するためには１１個のＰＥを必要とし１
１サイクル遅れて結果が各サイクル毎に出力される。

【００３６】以下に、第３の実施例を説明する。本実施
例では画像データのコンボリュージョン演算を行う。

【００３７】画像データにおける３×３の部分で以下の
演算を行う場合を考える。

【００３８】ａｂｃｄｅｆにおいてｂ＋ｄ＋ｆ＋ｈ−３ｅを行うｇｈｉここでは、レジスタを０から５まで（Ｒ０−Ｒ５）まで
使用される。

【００３９】この演算のためにはＰＥがカラム数だけ必
要になる。

【００４０】１ＩＮＰＲ０２ＭＶＲ０，Ｒ４３ＭＶＲ３，Ｒ０４ＷＲＯＦ５ＲＤＩＢ６ＭＶＲ０，Ｒ５７ＭＶＲ３，Ｒ０８ＷＲＯＢ９ＮＯＰ 10 ＲＤＩＦ 11 ＡＤＤＲ２ 12 ＡＤＤＲ４ 13 ＡＤＤＲ５ 14 ＳＵＢＲ３ 15 ＳＵＢＲ３ 16 ＳＵＢＲ３ 17 ＯＵＴＲ０このプログラムではＰＥ同志で通信しながら演算を進め
てゆく。この場合、一ライン分の演算が終了した時点で
レジスタ名がつけかえられる。この事でレジスタ内容を
変更することが無くなる。当プログラムは以下の名前変
更を自動的に行っているものとしている。

【００４１】Ｒ０Ｒ１Ｒ２Ｒ３Ｒ４Ｒ５Ｒ６Ｒ７Ｒ８…Ｒ15 ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ Ｒ15 Ｒ０Ｒ１Ｒ２Ｒ３Ｒ４Ｒ５Ｒ６Ｒ７…Ｒ14 このためには、図１１の回路を利用する。

【００４２】レジスタ４５に入力されるアドレスをハー
ド的に変更すればよい。ＰＥからのデータはアドレス４
２を通して減算器４０に入力されここで入力された値か
ら１加算器４１の値を引かれる。１加算器４１では入力
４３があったときにその出力が１加算される。この減算
器４０の出力をレジスタへのアドレス入力とすることに
よりレジスタの番号が自動的に変わる。従って、必要な
ときに入力４３を与えることでレジスタ番号が変更され
る。

【００４３】以上の説明から明らかなように、本実施例
においては、複数のＰＥには同時に１つのインストラク
ションのみ与えられるが、ＰＥ自身がそれを伝播させる
ので全てのＰＥが同時に同じインストラクションが与え
られることはない。従って、例えば入力動作において全
てのＰＥが同時に入力を要求することがないのでプロセ
ッサ自身が（ＳＩＭＤ型計算機の様に）ＰＥと同数のデ
ータを同時に与える必要がない。

【００４４】同様に、出力についてもプロセッサが同時
にＰＥと同数のデータを同時に出力する必要がない。

【００４５】

【発明の効果】以上詳述したように、本発明において
は、ＰＥの数に無関係にデータ数をクロックごとに入出
力可能な並列画像処理プロセッサを提供することができ
る。

【図面の簡単な説明】

【図１】本発明の一実施例にかかるインストラクション
入力を実現するための回路構成図である。

【図２】クロックに同期したインストラクション（ＡＢ
ＣＤ）とそれをラッチしたラッチの出力のタイムチャー
トである。

【図３】入力としてのインストラクションが複数のＰＥ
によってどのように実行されてゆくかを説明するための
図である。

【図４】データ入力のタイムチャートである。

【図５】出力としてのインストラクションが伝播される
様子を説明するための図である。

【図６】データ出力のタイムチャートである。

【図７】計算の途中結果を格納するためのレジスタを含
めた場合の構成を示す図である。

【図８】実行時のタイムチャートである。

【図９】レジスタの入出力バス及びレジスタアドレスバ
スを示す図である。

【図１０】ＰＥの各ポートを示す図である。

【図１１】名前変更を自動的に行うプログラムを実行す
るための図である。

【符号の説明】

ＰＥ００〜ＰＥ０２…プロセッサエレメント（ＰＥ）、
１０〜１２…ラッチ、２０〜２２…ラッチ。

Claims

【特許請求の範囲】

【請求項１】複数のプロセッサエレメントと、該複数のプロセッサエレメントにそれぞれ対応して設け
られ、あるタイミングにおいて各プロセッサエレメント
に異なるインストラクションを与えるために、入力され
たインストラクションをクロックに同期して逐次、遅延
伝搬させる複数の遅延手段とを具備したことを特徴とす
る並列画像処理プロセッサ。
【請求項２】クロックに同期して異なるデータを逐
次、各プロセッサエレメントに入力することを特徴とす
る請求項１記載の並列画像処理プロセッサ。