JP3277399B2

JP3277399B2 - 画像処理用汎用プロセッサ

Info

Publication number: JP3277399B2
Application number: JP01180793A
Authority: JP
Inventors: 登黒川; 辰伸安藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1993-01-27
Filing date: 1993-01-27
Publication date: 2002-04-22
Anticipated expiration: 2017-04-22
Also published as: DE69427663T2; EP0610688A3; US5602727A; JPH06223166A; EP0610688A2; EP0610688B1; DE69427663D1; TW364963B

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、画像データのフィル
タリング処理などに適用して好適な画像処理用汎用プロ
セッサに関する。

【０００２】

【従来の技術】画像処理用のプロセッサとしてはその処
理目的にのみ対応できるように専用化されている。例え
ば２次元画像を処理する並列処理プロセッサとしては、
「特開昭６２−２０８１５８号公報」などが知られてい
る。

【０００３】このＬＳＩは画像処理用のアルゴリズムを
機能的に回路化して１個のＬＳＩに集積したものであ
り、特定の積和演算処理などの特定のアルゴリズムに対
してはパラメータ入力により高速に処理できる。

【０００４】また、マイクロプログラム制御によるプロ
セッサとしては、「特開昭６３−１１８８８５号公報」
などが知られている。このＬＳＩは局所処理用に４つの
プロセッサを持たしたもので、各プロセッサがマイクロ
プログラムに基づいてマルチプロセッサとして動作する
ように構成されている。

【０００５】

【発明が解決しようとする課題】このように従来の画像
処理用のプロセッサは何れも専用のプロセッサであるか
ら、特定のアルゴリズムを処理する場合には高速化が可
能であるのに対して、特定のアルゴリズム以外のアルゴ
リズムはこれを処理できない。複数のプロセッサを組み
合わせて使用したとしてもプロセッサ間のデータ通信が
できないため、これもまた特定のアルゴリズムのみに対
応できるマルチプロセッサ構成となっている。

【０００６】そのため、汎用性が全くないから、例えば
このプロセッサを（３×３）サイズの積和演算処理か
ら、（５×５）サイズ以上の積和演算処理に拡張するこ
ともできなければ、複数のプロセッサを用いて分割処理
することによって処理の高速化を達成することもできな
い。

【０００７】また、プロセッサ間でのデータ通信ができ
れば、例えば２つの画像メモリのデータ同士を演算処理
することができるので、２つの画像データを論理和した
りする演算を簡単に行うことができる。さらには、レジ
スタファイルのアドレス機能を利用すれば画像メモリに
対するアドレス制御用の回路などにも適用することが可
能になる。

【０００８】そこで、この発明はこのような従来の課題
を解決したものであって、汎用化を実現した画像処理用
汎用プロセッサを提案するものである。

【０００９】

【課題を解決するための手段】上述の課題は、積和演算
機能を有する複数のプロセッサエレメントで構成され、
これら複数のプロセッサエレメント同士で互いに別のプ
ロセッサエレメントの任意の演算処理ステップにおける
画像データを自己のプロセッサエレメントにおける任意
の処理ステップに取り込むようになされた２Ｎ（Ｎ≧
３）個の汎用プロセッサユニットを備えた画像処理用汎
用プロセッサであって、２Ｎ個の汎用プロセッサユニッ
トが２組に分けられ、各組で（Ｎ−１）個の汎用プロセ
ッサユニットがライン内のデータ演算処理に使用され、
残りの汎用プロセッサユニットがライン間のデータ演算
処理に使用されると共に、各組の汎用プロセッサユニッ
トで複数の画像データのそれぞれの演算を並列に処理す
るようにしたことを特徴とする第１の画像処理用汎用プ
ロセッサによって解決される。

【００１０】本発明に係る第２の画像処理用汎用プロセ
ッサは、積和演算機能を有する複数のプロセッサエレメ
ントで構成され、これら複数のプロセッサエレメント同
士で互いに別のプロセッサエレメントの任意の演算処理
ステップにおける画像データを自己のプロセッサエレメ
ントにおける任意の処理ステップに取り込むようになさ
れた６個の汎用プロセッサユニットを備え、５画素×５
ラインの積和演算処理をする画像処理用汎用プロセッサ
であって、６個の汎用プロセッサユニットが２組に分け
られ、各組で２個の汎用プロセッサユニットがライン内
のデータ演算処理に使用され、残りの１個の汎用プロセ
ッサユニットがライン間のデータ演算処理に使用される
と共に、各組の汎用プロセッサユニットで複数の画像デ
ータのそれぞれの演算を並列に処理するようにしたこと
を特徴とするものである。

【００１１】

【００１２】

【００１３】

【作用】本発明に係る第１の画像処理用汎用プロセッサ
によれば、１つの汎用プロセッサユニットが例えば、図
１に示すように、プロセッサエレメントＰＥ１，ＰＥ
２，ＰＥ３を備え、それぞれのプロセッサエレメントＰ
Ｅ１等が図２のようにデータをライトするラインメモリ
ＬＭ、ラインメモリＬＭの出力データを乗算する乗算器
ＭＰＹ、乗算出力などを取り込むレジスタファイルＲ
Ｆ、レジスタファイルＲＦの出力を演算する累算器ＡＬ
Ｕで構成される。

【００１４】各々のプロセッサエレメントＰＥ１等にお
いて、個々の処理素子の前段にはデータセレクト用の入
力切り替え手段ＭＵＸが設けられ、この入力切り替え手
段ＭＵＸを適宜制御することによってプロセッサエレメ
ント同士の任意の処理ステップの段階でデータの取り込
みができるようになる。例えば入力切り替え手段ＭＵＸ
１を制御することによってデータはどのラインメモリＬ
Ｍ１〜ＬＭ４にも取り込むことができるし、入力切り替
え手段ＭＵＸ２とＭＵＸ１０を制御することによって、
ラインメモリＬＭ１〜ＬＭ４のデータをどの乗算器ＭＰ
Ｘ１〜ＭＰＸ３にも取り込むことができる。

【００１５】第１の画像処理用汎用プロセッサでは上述
した積和演算機能を有する複数のプロセッサエレメント
で構成された２Ｎ（Ｎ≧３）個の汎用プロセッサユニッ
トを備え、２Ｎ個の汎用プロセッサユニットが２組に分
けられ、各組で（Ｎ−１）個の汎用プロセッサユニット
がライン内のデータ演算処理に使用され、残りの汎用プ
ロセッサユニットがライン間のデータ演算処理に使用さ
れると共に、各組の汎用プロセッサユニットで複数の画
像データのそれぞれの演算を並列に処理するようになさ
れる。従って、複数の画像データを高速演算処理可能な
画像処理用汎用プロセッサを構築することができ、汎用
プロセッサユニットの多用途化を実現できる。これによ
り、積和演算処理の拡張が容易に実現できる他、同じプ
ロセッサユニット内でも複数のプロセッサエレメント同
士のデータの授受が可能であるため、２以上の画像メモ
リに対する画像処理なども簡単に実現できるようにな
る。当該構成を採らないフィルタ処理装置に比べて全体
の演算処理時間を短縮することができる。本発明の第２
の画像処理用汎用プロセッサによれば、第１の画像処理
用汎用プロセッサにおいてＮ＝３を代入して、５画素×
５ラインの積和演算処理をする場合に６個の汎用プロセ
ッサユニットを備え、６個の汎用プロセッサユニットが
２組に分けられ、各組で２個の汎用プロセッサユニット
がライン内のデータ演算処理に使用され、残りの汎用プ
ロセッサユニットがライン間のデータ演算処理に使用さ
れると共に、各組の汎用プロセッサユニットで複数の画
像データのそれぞれの演算を並列に処理するようになさ
れる。従って、複数の画像データを高速演算処理可能な
エッジ検出用のフィルタ処理装置等を構築することがで
き、汎用プロセッサユニットの多用途化を実現できる。
当該構成を採らないフィルタ処理装置に比べて全体の演
算処理時間を短縮することができる。その結果、プロセ
ッサエレメント間の画像データ取り込みは勿論のこと、
複数のプロセッサエレメントで構成されるプロセッサユ
ニット同士のデータ通信も可能になる。

【００１６】

【実施例】続いて、この発明に係る画像処理用汎用プロ
セッサの一例を上述した画像処理に適用した場合につ
き、図面を参照して詳細に説明する。

【００１７】図１はこの発明の基本構成を示し、図のよ
うにそれ自身計算機能を有したプロセッサエレメントＰ
Ｅが複数、この例では３個ＰＥ１〜ＰＥ３使用されて汎
用プロセッサＰＵが構成される。

【００１８】プロセッサエレメントＰＥ同士はその任意
の処理ステップで互いの画像データを入力することがで
きるようになされているが、図１には説明の都合上その
接続関係が省略され、エレメント同士は互いに独立した
ものとして図示されている。プロセッサエレメントＰＥ
１〜ＰＥ３は同一構成であるので、プロセッサエレメン
トＰＥ１についてその構成を説明する。

【００１９】図１に示すプロセッサエレメントＰＥ１に
おいて、ＬＭはラインメモリである。本例では画像デー
タを処理することを前提としているので、メモリの単位
はラインである。ラインメモリＬＭよりリードされた画
像データは乗算器ＭＰＹにて所定の係数Ｍと乗算され
る。乗算結果はレジスタファイルＲＦの所定のアドレス
にストアされる。

【００２０】レジスタファイルＲＦよりリードされた複
数の画像データは累算器ＡＬＵにて積算処理され、その
結果は再びレジスタファイルＲＦにストアされる。レジ
スタファイルＲＦにストアされた積算結果はリードされ
て別のプロセッサエレメントＰＥ２若しくはＰＥ３のレ
ジスタファイルにロードされる。

【００２１】累算器ＡＬＵにおける乗算した結果である
ステータス情報（キャリー／オーバーフロー／サイン／
ゼロなど）はステータスレジスタＳＲに一旦ストアされ
ると共に、そのステータス情報（１ビット）はシーケン
サＳＥＱに格納されたマイクロプログラムのアドレスの
一部として使用される。

【００２２】シーケンサＳＥＱ１〜ＳＥＱ３は対応する
プロセッサエレメントＰＥ１〜ＰＥ３を制御するために
設けられたもので、これに内蔵されたマイクロプログラ
ムによって演算処理モードが決定される。

【００２３】ラインメモリＬＭには入力画像データの
他、他の汎用プロセッサＰＵより出力された演算処理結
果が格納される場合があり、この演算処理結果は最終的
には別の画像メモリにストアされる。したがって、ライ
ンメモリＬＭの出力は上述した乗算器ＭＰＹへの入力デ
ータとして使用されるほか最終データとして外部にも出
力される。

【００２４】上述したプロセッサエレメントＰＥ１〜Ｐ
Ｅ３はその処理途中の段階（ステップ）で、任意のプロ
セッサエレメントＰＥ１〜ＰＥ３からの入力画像データ
若しくは処理データを受け取ることができるようになっ
ている。そのための具体的な構成の一例を図２に示す。

【００２５】図２において、ラインメモリＬＭは４個使
用され、乗算器ＭＰＹは３個使用される。乗算器ＭＰＹ
が３個使用される結果、後段に続くレジスタファイルＲ
Ｆ、累算器ＡＬＵも、ステータスレジスタＳＲも、そし
てシーケンサＳＥＱもそれぞれ３個使用される。

【００２６】このような個数のときを例示すると、まず
ＭＵＸ１は入力切り替え手段であって、これにはこの例
では３つの入力データが供給され、そのうちの任意の入
力データを選択して出力させることができるようになさ
れている。入力データの１つであるＬＭＤＩは外部に設
けられた画像メモリ（図示はしない）からの入力画像デ
ータであり、ＬＭＥＩは別の汎用プロセッサＰＵより出
力された画像データを取り扱うときの入力画像データで
ある。そして、もう１つの入力データは汎用プロセッサ
ＰＵ自身の演算処理結果の画像データである。

【００２７】ラインメモリＬＭのそれぞれの出力は入力
切り替え手段ＭＵＸ２によってどの乗算器ＭＰＹ１〜Ｍ
ＰＹ３に供給されるかが決まる。このときのラインメモ
リ指定アドレスはレジスタファイルＲＦ１〜ＲＦ３に設
けられたアドレスカウンタＣＮの出力が利用される。こ
のアドレスカウンタＣＮのアドレスによってどのライン
メモリＬＭ１〜ＬＭ４でもその出力を指定して対応する
乗算器ＭＰＹ１〜ＭＰＹ３に入力させることができる。
Ｒはバッファ用のレジスタである。

【００２８】レジスタファイルＲＦ１〜ＲＦ３は３つの
入力端子Ａ，Ｂ，Ｃと３つの出力端子Ｄ，Ｅ，Ｆとアド
レスＣＮの７端子構成であって、これらの入出力処理お
よびアドレス指定は同時に実行できるようになってい
る。

【００２９】乗算結果はＢ端子からロードされ、Ａ端子
からは入力切り替え手段ＭＵＸ７，ＭＵＸ８，ＭＵＸ９
で選択された画像データがロードされる。入力切り替え
手段ＭＵＸ３はレジスタファイルＲＦ１〜ＲＦ３の画像
データ（Ｄ，Ｅ端子）をどの累算器ＡＬＵ１〜ＡＬＵ３
に与えるかを選択するためのものである。

【００３０】入力切り替え手段ＭＵＸ４は演算処理結果
の何れかをバッファ用のレジスタＲを介してラインメモ
リＬＭの何れかにライトするかを選択するためのもの
で、この場合には入力切り替え手段ＭＵＸ３とＭＵＸ１
がそれぞれ同時に動作する。ＡＬＵ１〜ＡＬＵ３の出力
はさらにレジスタファイルＲＦ１〜ＲＦ３のＣ端子を通
じてロードされる。

【００３１】入力切り替え手段ＭＵＸ５とＭＵＸ６とは
レジスタファイルＲＦ１〜ＲＦ３の出力画像データ（Ｆ
端子）を選択して別の汎用プロセッサに渡すためのもの
で、入力切り替え手段ＭＵＸ５およびＭＵＸ６で選択さ
れた出力画像データＬＫＯＡ，ＬＫＯＢは別の汎用プロ
セッサにおける入力画像データ（処理中の画像データ）
ＬＫＩＡ，ＬＫＩＢとなる。

【００３２】入力切り替え手段ＭＵＸ１０はラインメモ
リＬＭの画像データを別の画像メモリなどにライトする
ときなどのときに外部出力制御用として使用されるもの
であって、プロセッサエレメントＰＥ４によって制御さ
れる。すなわち、プロセッサエレメントＰＥ４に内蔵さ
れたマイクロプログラムによって生成されたアドレスカ
ウンタ出力ＣＮに基づいて入力切り替え手段ＭＵＸ１０
が動作して特定のラインメモリＬＭが選択される。プロ
セッサエレメントＰＥ４は図示はしないが、他の入力切
り替手段ＭＵＸ１〜ＭＵＸ１１も制御する。

【００３３】ラインメモリＬＭよりリードされた画像デ
ータは入力切り替え手段ＭＵＸ１１によって何れかの画
像データのみが選択されて出力画像データＬＭＥＯとな
される。

【００３４】このようにデータ処理中はレジスタファイ
ルＲＦ１〜ＲＦ３からのアドレスカウンタ出力ＣＮによ
って入力切り替え手段ＭＵＸ１０が制御されるのに対し
て、最終出力画像データを外部に出力するときにはプロ
セッサエレメントＰＥ４からのアドレスカウンタ出力Ｃ
Ｎによって入力切り替え手段ＭＵＸ１０が制御されるよ
うになっている。

【００３５】プロセッサエレメントＰＥ４は上述したプ
ロセッサエレメントＰＥ１〜ＰＥ３の構成要素のうちレ
ジスタファイルＲＦ，累算器ＡＬＵ，ステータスレジス
タＳＲおよびシーケンサＳＥＱの構成要素によって成り
立っている。

【００３６】レジスタファイルＲＦ１〜ＲＦ３はその縦
方向に並んだ隣りのレジスタファイルにのみ出力画像デ
ータを受け渡すことができるようになされており、出力
画像データは上述した入力切り替え手段ＭＵＸ７，ＭＵ
Ｘ８，ＭＵＸ９を選択することによって行われる。した
がって、入力切り替え手段ＭＵＸ７，ＭＵＸ８，ＭＵＸ
９では外部からの画像データＬＫＩＡ，ＬＫＩＢと前段
のＦ端子からの出力画像データの計３つの画像データが
選択される。

【００３７】累算器ＡＬＵの演算処理結果であるステー
タス情報はそれぞれ縦方向に配列された次段の累算器Ａ
ＬＵに伝達されると共に、ステータスレジスタＳＲ１〜
ＳＲ３にも供給されて一時的にストアされる。このステ
ータス情報（１ビット）は次段に設けられたシーケンサ
ＳＥＱ１〜ＳＥＱ３の全てに供給され、３つのステータ
ス情報を結合することによって下位３ビットのアドレス
として使用される。これでシーケンサＳＥＱ１〜ＳＥＱ
３のそれぞれに格納されたマイクロプログラムに対する
アドレス（３ビット分）が指定される。このような結合
処理を行うことによってパイプライン処理の高速化を達
成している。

【００３８】図２に示したような構成の汎用プロセッサ
ＰＵを使用して画像処理用プロセッサが構成される。図
３はその基本構成を示す。画像処理用プロセッサは上述
したプロセッサエレメントで構成された２Ｎ（Ｎ≧３）
個の汎用プロセッサユニットを備える。

【００３９】図３は６個の汎用プロセッサ（以下プロセ
ッサユニットという）ＰＵを使用して画像処理用プロセ
ッサを構成した場合で、実線は入力画像データの経路、
破線は出力画像データの経路をそれぞれ示す。鎖線は処
理用データの経路（流れ）であって、横方向に並んだプ
ロセッサユニット（ＰＵ１，ＰＵ２），（ＰＵ３，ＰＵ
４），（ＰＵ５，ＰＵ６）同士の間では図のようにデー
タが流れる（鎖線図示）のに対し、縦方向に並んだプロ
セッサユニット（ＰＵ１，ＰＵ３，ＰＵ５），（ＰＵ
２，ＰＵ４，ＰＵ６）同士では鎖線矢印方向のみデータ
が伝達されるように組み合わせられている。

【００４０】したがって、１つの画像メモリに蓄積され
た１枚の画像データに対して例えばエッジ検出用のフィ
ルタリング処理（３画素×３ライン、５画素×５ライン
などの積和演算処理）を施す場合には図４のように構成
されることになる。

【００４１】図４は積和演算処理用に構成した第２の発
明に係る画像処理用汎用プロセッサの例で、特に同図は
５×５の積和演算処理を実現するときの具体例である。
プロセッサユニットには４個のラインメモリしか搭載し
ていないので、３個のプロセッサユニットが使用され、
そのうち積和演算用に２個使用されると共に、演算結果
が別のプロセッサユニットにロードされる。

【００４２】図は画像メモリＩＭを上下に２分割し、そ
れぞれを同時に処理して処理結果を別の画像メモリＯＭ
に書き込むようにした場合であって、Ｎ＝３の例であ
る。この場合には図３のように６個の汎用プロセッサユ
ニットを３個づつの（ＰＵ１−ＰＵ２−ＰＵ４），（Ｐ
Ｕ６−ＰＵ５−ＰＵ３）の２組に分けてそれぞれの組み
の汎用プロセッサユニットＰＵＡ，ＰＵＢで複数の画像
データのそれぞれの演算を並列に画像処理を行うように
なされる。

【００４３】この例では、２（Ｎ−１）＝４個の汎用プ
ロセッサユニットＰＵ１、ＰＵ２、ＰＵ６、及びＰＵ５
をライン内のデータ演算処理に使用される。このとき、
画像処理の流れは矢印の通りのパイプライン処理であっ
て、画像データＩＭＡはプロセッサユニットＰＵ１とＰ
Ｕ２とに入力され、他方の画像データＩＭＢはプロセッ
サユニットＰＵ６とＰＵ５に入力される。そして、残り
のプロセッサユニットＰＵ４とＰＵ３から画像処理後の
出力画像データＯＭＡ，ＯＭＢが出力される。プロセッ
サユニットＰＵ４とＰＵ３をライン間のデータ演算処理
に使用するためである。

【００４４】画像データＤijの一例を図５に、使用され
るフィルタ係数Ｍijを図６に示す。（５×５）の画像処
理は第１に画像データとフィルタ係数の乗算処理が各ラ
インａ〜ｅごとに行われ、第２に各ラインａ〜ｅごとに
得られた乗算出力に対する加算処理が行われる。第１の
乗算処理はプロセッサユニットＰＵ１とＰＵ２とで行わ
れ、第２の加算処理はプロセッサユニットＰＵ６で行わ
れる。

【００４５】図７〜図９は乗算処理を説明するための図
である。図７に示すプロセッサユニットＰＵ２では３つ
のラインメモリＬＭ１〜ＬＭ３が使用されてラインａ〜
ｃの画像データが順次ロードされる（時点ｉ0〜ｉ2）。

【００４６】プロセッサユニットＰＵ１では２個のライ
ンメモリＬＭ４とＬＭ５が使用されて対応するラインｄ
とｅの画像データが順次ロードされる（時点ｉ3〜ｉ
4）。５個のラインメモリＬＭの全てに画像データがロ
ードされると、図８に示すようにこれらの画像データが
ラインごとに順次１画素づつ読み出され、対応する乗算
器ＭＰＹ（ＭＰＹ１〜ＭＰＹ３）において乗算処理が行
われる。

【００４７】この乗算処理の一例をラインａについて説
明すれば図１０のようになる。この図１０における処理
ステップａがプロセッサユニットＰＵ２における乗算器
ＭＰＹ１の乗算処理例である。ここで、図１０の時点ｔ
0が図８に示す時点ｉ5に相当する。

【００４８】このような乗算処理と同時に、図８のよう
にプロセッサユニットＰＵ１の空いているラインメモリ
ＬＭ３に次のラインｆの画像データがロードされると共
に、プロセッサユニットＰＵ２に対しても空いているラ
インメモリＬＭ４に、プロセッサユニットＰＵ１の初段
に位置するラインメモリＬＭ１の画像データがロードさ
れる。時点ｉ6は１ライン処理後の時点ｔ0に対応する。

【００４９】このように新しいラインに対する画像デー
タのロードと、空いているラインメモリへの画像データ
のシフト処理を行うのは、順次１ラインづつ画像データ
を更新して（５×５）の積和演算処理を実行する必要が
あるからである。

【００５０】プロセッサユニット同士の画像データの授
受は図２でも説明したようにＬＭＥＯとＬＭＥＩを利用
して行われる。

【００５１】ラインａ〜ｅを用いた積和演算処理が終了
すると、今度はラインを１ラインシフトして図９のよう
にラインｂ〜ｆを用いた積和演算処理が行われる。そし
て、次の処理に備えるべくラインｇのロードとラインｅ
のシフト処理が行われる。このような処理が最後のライ
ンまで行われて（５×５）の積和演算処理が終了する。

【００５２】図１０に示すように、処理ステップａでは
乗算器ＭＰＹでの画素ごとの乗算処理が行われ、順次乗
算出力が順次レジスタファイルＲＦにロードされると共
に、５画素分の乗算処理が終了すると、処理ステップｂ
に示すようにそれらの乗算出力が順次リードされて累算
器ＡＬＵ１で加算処理が行われる。つまり、累算器ＡＬ
Ｕ１では５画素分の乗算出力に対する加算処理が行わ
れ、その最終結果の加算出力Ｒ１０（ラインａの処理で
あるためＲ１０ａとして示す）が同じプロセッサエレメ
ントＰＥ１内のレジスタファイルＲＦ１のＣ端子を通じ
てロードされる。

【００５３】加算出力Ｒ１０ａは次のタイミング（図１
０の処理ステップｃ）にはプロセッサユニットＰＵ４の
プロセッサエレメントＰＥ１に設けられたレジスタファ
イルＲＦ１にロードされて、次のライン間における加算
処理に備えられる。このときは図２に示すようにＬＫＯ
Ａ，ＬＫＩＡ（若しくはＬＫＯＢ，ＬＫＩＢ）を介して
処理データの入出力が行われる。

【００５４】処理データの流れは図４に示すように一方
向（プロセッサユニットＰＵ２→ＰＵ１→ＰＵ４）であ
るから、処理データは図１１のような流れに沿って最終
のプロセッサユニットＰＵ４に伝達される。

【００５５】図１２を参照して説明する。時点ｔ9にな
ると各ラインａ〜ｅの加算出力Ｒ１０ａ〜Ｒ１０ｅが揃
うので、時点ｔ10でＲ１０ａをプロセッサユニットＰＵ
４に移し、これと同時にプロセッサユニットＰＵ２のレ
ジスタファイルＲＦ１にはＲ１０ｅを、同じレジスタフ
ァイルＲＦ２にはＲ１０ｄをロードする。

【００５６】次の時点ｔ11では加算出力Ｒ１０ｂをプロ
セッサユニットＰＵ４に移し、これと同時にプロセッサ
ユニットＰＵ２のレジスタファイルＲＦ２には加算出力
Ｒ１０ｄを移すというような順序で、全ての加算出力Ｒ
１０ａ〜Ｒ１０ｅが順次プロセッサユニットＰＵ４に移
される。

【００５７】プロセッサユニットＰＵ４では以下のよう
なライン間の加算処理が実行される。図１２と図１３を
参照して説明する。

【００５８】時点ｔ14になると５ライン分の加算出力Ｒ
１０ａ〜Ｒ１０ｅが揃うので、これら加算出力Ｒ１０ａ
〜Ｒ１０ｅが順次累算器ＡＬＵ１に供給されて順次加算
処理が行われる（図１２時点ｔ15〜ｔ18）。最終加算結
果Ｒ00は画素Ｄ00におけるフィルタリング処理された画
像データとなり、これは図１３に示す入力切り替え手段
ＭＵＸ４→レジスタＲ→ＭＵＸ１を経てラインメモリＬ
Ｍ１にライトされる。

【００５９】１ライン分の最終加算結果の画像データＲ
ijがラインメモリＬＭ１にストアされると、次のライン
の最終加算結果である画像データＲijが今度は次のライ
ンメモリＬＭ２にライトされる。これと同時にラインメ
モリＬＭ１がリードされて図４に示す外部画像メモリＯ
Ｍに画像処理後のデータとしてストアされる。

【００６０】ここで、どのラインメモリＬＭに画像デー
タＲijをライトするかはレジスタファイルＲＦ１のアド
レスカウンタＣＮの出力に基づいて制御されるのに対し
て、ラインメモリＬＭにストアされた画像データＲijを
外部メモリＯＭにストアするときにはプロセッサエレメ
ントＰＥ１の出力に基づいて制御される。

【００６１】図１４はフィルタリング係数（マスクデー
タ）としてケニー（CANY)のフィルタを使用した場合の
係数値を示す。ケニーのフィルタでは図のように係数
「０」があるので、この場合にはｉ＝３番目の画素に対
するフィルタリング処理（乗算処理）は不要である。そ
のため、このようなときは図１５にその一部の構成を示
すように乗算器ＭＰＹ１に与えられる係数制御カウンタ
１６０を工夫して、図１６Ｂのように「０」のマスクデ
ータが出力されないようにする。

【００６２】その代わり図１７のように画像データのア
ドレスＡij（乗算時のアドレス）もコントロールされ、
こうすることによってｉ＝３番目の乗算処理を省くこと
ができるため、乗算処理時間を短縮できる。

【００６３】以上の（５×５）の演算処理は図４のよう
に画像データを２分割し、それぞれを同時に処理するこ
とによって演算時間を１／２に短縮できる。そして、プ
ロセッサエレメントＰＥ自体はパイプライン処理である
ためプロセッサエレメントＰＥ自身における処理時間も
短くて済む。

【００６４】分割処理は図１８のように画像データを３
分割し、３分割された画像データＭａ，Ｍｂ，Ｍｃをそ
れぞれのプロセッサユニットＰＵａ〜ＰＵｃで並列処理
すれば全体の処理時間を短縮できる。

【００６５】例えば各プロセッサユニットで３ライン分
の画像データを一挙に処理するような場合を想定する
と、この場合には図１９のように各プロセッサユニット
ＰＵａ〜ＰＵｃに対して分割画像データＭａ〜Ｍｃそれ
ぞれについてライン単位で３タイミング（１クロックに
相当する）ごとに画像データのロードが行われると共
に、３ライン分の画像データ（Ｌ１ａ〜Ｌ３ａ），（Ｌ
１ｂ〜Ｌ３ｂ），（Ｌ１ｃ〜Ｌ３ｃ）のロードが行われ
ると同時に、画像データ（Ｌ１ａ〜Ｌ３ａ）のロードが
終了した次のタイミングから画像データ（Ｌ１ａ〜Ｌ３
ａ）の積和処理が実行される。他も同じである。

【００６６】このような分割処理を行う場合には、１タ
イミングづつ順次遅れて３分割処理結果（演算処理結
果）が得られるため、実質的に１クロックで画像処理で
きるようになる。

【００６７】因みに、３ライン分の画像データのロード
が終了してその積和処理を行い、積和処理が終了した段
階で再び３ライン分の画像データをロードして同じよう
な画像処理を行う場合には図１９の３倍の処理時間がか
かってしまう。

【００６８】図１９のような処理が行えるのも、この発
明のように複数のラインメモリＬＭを持ち、任意のライ
ンメモリＬＭに画像データがロードできるように構成さ
れ、そして演算結果が同一若しくは別のプロセッサエレ
メントＰＥにストアできるように構成され、データはパ
イプライン処理できるようになされているからに他なら
ない。

【００６９】続いて、第３および第４の発明を説明す
る。図２０は第３の発明の具体例であって、２つの画像
メモリにストアされている画像データを論理積したり、
論理和する演算処理の場合に上述した汎用プロセッサを
使用した場合である。

【００７０】図２０はそのうち論理積処理（アンド処
理）の具体例であって、画像メモリｉ，ｊにはライン情
報としてランレングス化された画像情報がストアされて
いるものとする。これら画像情報はそれぞれ同じプロセ
ッサユニットＰＵに設けられたプロセッサエレメントＰ
Ｅ１（ｊ用），ＰＥ２（ｉ用）にロードされる。

【００７１】そして、図２１Ａ〜Ｃのように画像メモリ
ｉのｉラインと画像メモリｊのｊラインのランレングス
から両者のアンドをとる場合を例示する。両者のアンド
をとると、同図Ｃのようなランレングスが得られる。

【００７２】ランレングスコードに基づいて両者のアン
ドをとるには、図２２のように各ランレングスの最初ｓ
と最後ｅのデータを基準にして両者の重なりを判断すれ
ばよい。両者の重なりと離間の状態を分類すれば図２３
に示すようにＫ１〜Ｋ４の４種類となるので、両者のラ
ンレングスｓ，ｅを判断した結果、重なり具合いがどの
分類に属するかによって次の処理（アンド出力として利
用するかどうか）が相違する。

【００７３】ここで、ランレングスを利用したライン
ｉ，ｊの重なり具合いを求めるには次のような判断式が
用いられる。

【００７４】ａ＝ｊｓ−ｉｅ−１・・・・（１）ｂ＝ｉｓ−ｊｅ−１・・・・（２）ｃ＝ｉｅ−ｊｅ・・・・（３）この判断結果ａ，ｂ，ｃから条件分岐Ｋ１〜Ｋ４が決ま
る。

【００７５】（１）〜（３）式にあって、ｉ，ｊはそれ
ぞれ別々の画像メモリｉ，ｊのデータであるから、上の
ような判断処理を行うには互いのプロセッサエレメント
ＰＥのデータを使用しなければならない。そのために同
一のプロセッサユニットＰＵ内のプロセッサエレメント
ＰＥ同士でのデータの授受が必要になる。そこで、図２
に示す入力切り替え手段ＭＵＸ３を用いて図２４のよう
なデータ経路を作って上述した演算処理を実現させる。

【００７６】まず、プロセッサエレメントＰＥ１にあっ
ては最初のタイミングで（１）式の算術を行う。そのた
め、累算器ＡＬＵ１にはレジスタファイルＲＦ１からｊ
データ（＝ｊｓ）が、レジスタファイルＲＦ２からｉデ
ータ（＝ｉｅ）がそれぞれリードされて（１）式が演算
され、その結果はステータスレジスタＳＲ１に保存され
る。

【００７７】これと同じタイミングに、他方のプロセッ
サエレメントＰＥ２にあっては（２）式の算術が行われ
る。そのため、累算器ＡＬＵ２にはレジスタファイルＲ
Ｆ１からｊデータ（＝ｊｓ）が、レジスタファイルＲＦ
２からｉデータ（＝ｉｅ）がそれぞれリードされて
（２）式が演算され、その結果はステータスレジスタＳ
Ｒ２に保存される。

【００７８】このような同時処理ができるのは、レジス
タファイルＲＦ１，ＲＦ２ともそのＤ，Ｅ端子から同時
にデータｓ，ｅをリードできるようになされているから
である。

【００７９】（１）、（２）式の演算が終了した次のタ
イミングでは、プロセッサエレメントＰＥ１で（３）式
の算術を行う。そのため、累算器ＡＬＵ１にはレジスタ
ファイルＲＦ１からｊデータ（＝ｊｓ）が、レジスタフ
ァイルＲＦ２からｉデータ（＝ｉｅ）がそれぞれリード
されて（３）式が演算され、その結果はステータスレジ
スタＳＲ１に保存される。

【００８０】ステータスレジスタＳＲ１に保存された
（１）式に関するステータス情報をＳＲ０′とし、
（２）式に関するものをＳＲ１′、ステータスレジスタ
ＳＲ２に保存された（３）式に関するものをＳＲ０′と
すれば、これら３つのステータス情報ＳＲ０′，ＳＲ
１′，ＳＲ０′がプロセッサエレメントＰＥ３に設けら
れたシーケンサＳＥＱ３の下位３ビットのアドレスＡ0
〜Ａ2として使用される。

【００８１】このアドレスはステータス情報に基づいて
次に分岐すべき処理条件Ｋ１〜Ｋ４を指定するためのマ
イクロプログラムのアドレスとして使用されるもので、
指定された処理条件は同じプロセッサエレメントＰＥ３
のレジスタファイルＲＦ３から出力される。

【００８２】図２５のように条件式（ａ）〜（ｃ）の結
果と論理「０」、「１」とを関係付ければ、ステータス
情報が例えば「０１１」（この論理値は（ａ），
（ｃ），（ｂ）の順でステータス情報を並べたときのも
のである）であったときには、分岐条件Ｋ１が選ばれ
る。分岐条件Ｋ１とは図２３に示すようにｉラインとｊ
ラインが互いに重なりあっていないときの処理条件で、
このときはアンド出力もゼロとなる。

【００８３】ステータス情報が「１１１」であったとき
には分岐条件Ｋ２が選択され、この分岐条件Ｋ２のとき
は図２３のようにｊラインがｉラインの一部に重なって
いる状態を示すから、このときは図２１Ｃのようなアン
ド出力が得られるように条件分岐Ｋ２のプログラムが組
まれている。

【００８４】このように異なるプロセッサエレメントＰ
Ｅ１，ＰＥ２で得られたステータス情報を組み合わせて
マイクロプログラムに対する１つのアドレスとして直接
使用できるように構成すれば、ステータス情報を一旦シ
フトレジスタなどに保存し、全てのステータス情報が揃
った段階で始めてマイクロプログラムを起動させるよう
にする場合よりも処理時間を短縮でき、パイプライン処
理の効果が一層大きくなる。

【００８５】この発明に係るプロセッサは汎用性がある
ので、上述したようにプロセッサユニットＰＵを増やす
だけで積和演算機能の拡張が簡単に行える他、同一のプ
ロセッサユニットＰＵ内でもプロセッサエレメントＰＥ
同士のデータを使用した演算処理ができる。これらの他
に、このプロセッサは画像メモリに対する制御回路とし
ても使用することができる。

【００８６】第４の発明は汎用プロセッサを画像メモリ
用制御回路として使用した場合であって、図２６はその
ときの一例を示す系統図である。

【００８７】使用する画像メモリとしてはＳＲＡＭと一
対のＤＲＡＭを例示し、汎用のプロセッサユニットＰＵ
は１個使用され、プロセッサエレメントＰＥにそれぞれ
設けられたレジスタファイルＲＦ１，ＲＦ２がアドレス
発生器として機能する。

【００８８】ＳＲＡＭはレジスタファイルＲＦ１でその
下位アドレスＬＡＤＲＳが、ＲＦ２で上位アドレスＨＡ
ＤＲＳが指定される。ＣＯＮＴ端子にはレジスタファイ
ルＲＦ１からライトイネーブル信号が与えられる。ＳＲ
ＡＭの画像データはレジスタＲ４を制御してラインメモ
リＬＭにロードされるか、若しくはレジスタファイルＲ
Ｆ１，ＲＦ２，ＲＦ３に直接ロードされる。

【００８９】ＤＲＡＭａ，ＤＲＡＭｂは高速でアクセス
するためにリード、ライトが交互に行われる。ＤＲＡＭ
ａはレジスタファイルＲＦ１で制御され、ＤＲＡＭｂは
レジスタファイルＲＦ２で制御される。それぞれのＣＯ
ＮＴ端子には縦横方向の各アドレスを指定するＲＡＳ，
ＣＡＳおよびライトイネーブル信号が加えられる。

【００９０】ラインメモリＬＭよりロードされた画像デ
ータはバッファレジスタＢＦ１，ＢＦ２を介して対応す
るＤＲＡＭに与えられてこれがライトされる。ＤＲＡＭ
ａ，ＤＲＡＭｂよりリードされた画像データはバッファ
レジスタＢＦ３，ＢＦ４を介してラインメモリＬＭにロ
ードされる。

【００９１】レジスタＲ３とＲ４はＳＲＡＭとＤＲＡＭ
のデータの何れかを選択するためのもので、デコーダＤ
ＥＣによってコントロールされる。デコーダＤＥＣには
そのコントロール信号がレジスタファイルＲＦ１から供
給される。プロセッサエレメントＰＥ３のレジスタファ
イルＲＦ３はラインメモリＬＭを選択するためのもので
ある。

【００９２】図２７はＤＲＡＭを制御するときのタイミ
ングチャートの一例で、同図Ａ〜Ｃのようにプロセッサ
エレメントＰＥ１からＤＲＡＭａに対して偶数番目のア
ドレスが指定され、また同図Ｆ〜Ｈのようにプロセッサ
エレメントＰＥ２からは１クロックシフトさせてＤＲＡ
Ｍｂに対して奇数番目のアドレスが指定される。

【００９３】そして、同図Ｊのように基準クロックの２
倍周期のリードクロックをそれぞれのメモリに与えると
同図Ｅ，Ｉのタイミングで画像データがリードされるか
ら、最終的には同図Ｋに示すように基準クロックと同じ
タイミングに画像データが順次出力される。

【００９４】上述した実施例はこの発明の一例であっ
て、列挙したこれらの実施例以外でもこの発明を利用で
きることは言うまでもない。

【００９５】

【発明の効果】以上説明したように、本発明の第１の画
像処理用汎用プロセッサによれば、２Ｎ（Ｎ≧３）個の
汎用プロセッサユニットを備え、２Ｎ個の汎用プロセッ
サユニットが２組に分けられ、各組で（Ｎ−１）個の汎
用プロセッサユニットがライン内のデータ演算処理に使
用され、残りの汎用プロセッサユニットがライン間のデ
ータ演算処理に使用されると共に、各組の汎用プロセッ
サユニットで複数の画像データのそれぞれの演算を並列
に処理するようにしたものである。この構成によって、
複数の画像データを並列高速演算処理可能な画像処理用
汎用プロセッサを構築することができ、汎用プロセッサ
ユニットの多用途化を実現できる。これにより、積和演
算処理の拡張が容易に実現できる他、同じプロセッサユ
ニット内でも複数のプロセッサエレメント同士のデータ
の授受が可能であるため、２以上の画像メモリに対する
画像処理なども簡単に実現することができる。

【００９６】本発明の第２の画像処理用汎用プロセッサ
によれば、５画素×５ラインの積和演算処理をする場合
に６個の汎用プロセッサユニットを備え、６個の汎用プ
ロセッサユニットが２組に分けられ、各組で２個づつの
汎用プロセッサユニットがライン内のデータ演算処理に
使用され、残りの１個の汎用プロセッサユニットがライ
ン間のデータ演算処理に使用されると共に、各組の汎用
プロセッサユニットで複数の画像データのそれぞれの演
算を並列に処理するようにしたものである。この構成に
よって、複数の画像データを並列高速演算処理可能なエ
ッジ検出用のフィルタ処理装置等を構築することがで
き、汎用プロセッサユニットの多用途化を実現できる。
これにより、当該構成を採らないフィルタ処理装置に比
べて全体の演算処理時間を大幅に短縮することができ
る。

【００９７】この発明では実施例以外の画像処理でも、
使用する個数、組合せなどを工夫することによってその
目的に合致した画像処理用汎用プロセッサを実現でき
る。

【図面の簡単な説明】

【図１】この発明に係る汎用プロセッサの概略構成を示
すブロック図である。

【図２】汎用プロセッサの具体例を示す系統図である。

【図３】複数の汎用プロセッサを使用したときの基本的
な組合せを示すブロック図である。

【図４】積和演算処理用に使用したときの汎用プロセッ
サのブロック図である。

【図５】画像データの配列例を示す図である。

【図６】フィルタ係数の配列を示す図である。

【図７】積和演算処理の説明に供するブロック図であ
る。

【図８】積和演算処理の説明に供するブロック図であ
る。

【図９】積和演算処理の説明に供するブロック図であ
る。

【図１０】１つのプロセッサユニットにおける積和演算
処理の説明図である。

【図１１】（５×５）の加算処理例を示すブロック図で
ある。

【図１２】加算処理動作を説明する図である。

【図１３】プロセッサユニットＰＵ４での処理動作の説
明図である。

【図１４】マスクデータの一例の図である。

【図１５】特定のマスクデータを使用したときの乗算処
理例を示すブロック図である。

【図１６】そのときの説明図である。

【図１７】乗算動作とそのときのアドレスの関係を示す
図である。

【図１８】画像データの分割処理例を示すブロック図で
ある。

【図１９】分割処理用のタイミング図である。

【図２０】画像メモリの説明図である。

【図２１】アンド処理の説明図である。

【図２２】ランレングスコードの説明図である。

【図２３】条件分岐の説明図である。

【図２４】プロセッサエレメント間の演算処理例を示す
ブロック図である。

【図２５】その動作説明に供する図である。

【図２６】画像メモリ用制御回路の一例を示すブロック
図である。

【図２７】その動作説明に供する波形図である。

【符号の説明】

ＰＵ（ＰＵ１〜ＰＵ６）汎用プロセッサ（プロセッサ
ユニット）ＰＥ（ＰＥ１〜ＰＥ３）プロセッサエレメントＬＭ（ＬＭ１〜ＬＭ４）ラインメモリＭＰＹ（ＭＰＹ１〜ＭＰＹ３）乗算器ＲＦ（ＲＦ１〜ＲＦ３）レジスタファイルＡＬＵ（ＡＬＵ１〜ＡＬＵ３）累算器ＳＲ（ＳＲ１〜ＳＲ３）ステータスレジスタＳＥＱ（ＳＥＱ１〜ＳＥＱ３）シーケンサＭＵＸ（ＭＵＸ１〜ＭＵＸ１１）入力切り替え手段Ｒ（Ｒ１〜Ｒ４）レジスタＢＦ（ＢＦ１〜ＢＦ４）バッファレジスタ

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平４−291682（ＪＰ，Ａ) 特開昭63−201777（ＪＰ，Ａ) 特開昭64−28788（ＪＰ，Ａ) 特開平２−159679（ＪＰ，Ａ) 実開平３−113437（ＪＰ，Ｕ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06T 1/00 - 7/60 G06F 15/16

Claims

(57)【特許請求の範囲】

【請求項１】積和演算機能を有する複数のプロセッサ
エレメントで構成され、これら複数のプロセッサエレメ
ント同士で互いに別のプロセッサエレメントの任意の演
算処理ステップにおける画像データを自己のプロセッサ
エレメントにおける任意の処理ステップに取り込むよう
になされた２Ｎ（Ｎ≧３）個の汎用プロセッサユニット
を備えた画像処理用汎用プロセッサであって、２Ｎ個の前記汎用プロセッサユニットが２組に分けら
れ、各組で（Ｎ−１）個の前記汎用プロセッサユニットがラ
イン内のデータ演算処理に使用され、残りの前記汎用プ
ロセッサユニットがライン間のデータ演算処理に使用さ
れると共に、各組の前記汎用プロセッサユニットで複数の画像データ
のそれぞれの演算を並列に処理するようにしたことを特
徴とする画像処理用汎用プロセッサ。
【請求項２】上記プロセッサエレメントは、画像デー
タをライトするラインメモリ、ラインメモリの出力デー
タを乗算する乗算器、乗算出力などを取り込むレジスタ
ファイル、レジスタファイルの出力を演算する累算器で
構成され、個々の処理素子の前段にはデータセレクト用
の入力切り替え手段が設けられたことを特徴とする請求
項１記載の画像処理用汎用プロセッサ。
【請求項３】上記画像データはパイプライン処理によ
って積和演算処理がなされるようになされたことを特徴
とする請求項２記載の画像処理用汎用プロセッサ。
【請求項４】積和演算機能を有する複数のプロセッサ
エレメントで構成され、これら複数のプロセッサエレメ
ント同士で互いに別のプロセッサエレメントの任意の演
算処理ステップにおける画像データを自己のプロセッサ
エレメントにおける任意の処理ステップに取り込むよう
になされた６個の汎用プロセッサユニットを備え、５画
素×５ラインの積和演算処理をする画像処理用汎用プロ
セッサであって、６個の前記汎用プロセッサユニットが２組に分けられ、各組で２個の前記汎用プロセッサユニットがライン内の
データ演算処理に使用され、残りの１個の前記汎用プロ
セッサユニットがライン間のデータ演算処理に使用され
ると共に、各組の前記汎用プロセッサユニットで複数の画像データ
のそれぞれの演算を並列に処理するようにしたことを特
徴とする画像処理用汎用プロセッサ。