JPH03263164A

JPH03263164A - データ並列処理方式

Info

Publication number: JPH03263164A
Application number: JP6230990A
Authority: JP
Inventors: Riyouichi Danki; 亮一段木
Original assignee: Kawasaki Steel Corp
Current assignee: JFE Steel Corp
Priority date: 1990-03-13
Filing date: 1990-03-13
Publication date: 1991-11-22

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は、入力データに対して様々な知的処理を高速
で行うようにしたデータ並列処理方式に係り、特に画像
解析、画像認識、音声認識や、ニューラル・ネットワー
ク等の処理情報量が多い処理に好適なデータ並列処理方
式に関する。

〔従来の技術〕

従来のデータ並列処理方式としては、例えば複数の汎用
プロセッサを共通データバスに接続してマルチプロセッ
サシステムを構築し、このマルチプロセッサシステムで
入力データを並列処理するようにしているのが一般的で
ある。

しかしながら、このマルチプロセッサシステムによるデ
ータの並列処理においては、各プロセッサ間の通信を共
通データバスを使用して行うので、ある並列度を境とし
て処理されるデータの転送が制限を受けるようになる、
並列化による処理速度の向上に一定の限度があると共に
、プロセッサ間の通信のための処理時間が実際のデータ
処理時間に対して無視できない程大きな割合を占めるこ
とになり、ある一定の並列化以上の処理の展開は無意味
となる等、処理速度を向上させながら並列化の拡大させ
ることが困難であるという問題点があった。

この問題点を解決するために、ＶＬＳ　Ｉ技術の高度化
によって、４本の直列伝送回路を内蔵したマイクロプロ
セッサで構成されるトランスピユータが開発され、これ
によって並列度と処理速度とを線型とすることができる
アーキテクチャが可能となった。

すなわち、第８図に示すように、入力端に入力された画
像データを入力側フレームメモリｌに格納し、このフレ
ームメモリ１に格納された入力データが格子結合された
多数のトランスピユータ・Ｔ　ｏ　ｏ　＋　Ｔ　ｒ　ｔ
　＋　Ｔ　ｌｚ・・・・・・で処理されて、その処理デ
ータが出力側フレームメモリ２に格納され、この出力側
フレームメモリ２に格納された処理データが出力端から
読出される。

ここで、入力側フレームメモリｌ及び第１のトランスピ
ユータＴ０゜、最終トランスピユータＴＸＹ及び出力側
フレームメモリ２、並びに各隣接するトランスピユータ
間は、夫々１ビツトのリンク・インタフェースＬ０゜、
ＬＮＭ及びＬＩＪを介して接続され、これらリンク・イ
ンタフェースＬｌｊによって例えば２０Ｍｂｉｔ／ｓの
データ転送速度でデータ転送が行われる。

〔発明が解決しようとする課題〕

しかしながら、上記従来のデータ並列処理方式にあって
は、現在までのところトランスピユータを２５６個以上
接続した並列度を実現した例もあるが、これらは、入力
側フレームメモリｌから続出された１ビツトの入力デー
タは、先ずリンク・インタフェースＬ０゜を介して第１
のトランスピユータＴ０゜に転送されて、この第１のト
ランスピユータＴ０゜に取込まれ、次いでリンク・イン
タフェースＬ　ｌｌ＋　　ＬＩＤ’・・・・・を介して
他のトランスピユータにデータが転送されて処理される
ことになるため、リンク・インタフェースＬ０゜＋Ｌｌ
ｌ・・・・・・の情報通信量は、多い順からり。＠＞Ｌ
＋＋＞Ｌ＋１・・・・・となり、各トランスピユータに
取込まれるデータ量が、各トランスピユータで処理され
るデータ量を下回る場合には、リンク・インタフェース
Ｌ０゜よりボトル・ネックが発生し、トランスピユータ
の並列度を増しても処理能力は向上しないことになる。

したがって、このような並列処理用に開発されたトラン
スピユータであっても、処理情報が膨大である場合には
、並列度を上げても、処理速度の向上が制限されると共
に、単位時間当たりの処理情報量が制限されるという未
解決の課題があった。

この未解決の課題を解決するために、「日経エレクトロ
ニクスＪ　１９Ｂ９年７月２４日号、第１４０頁〜第１
４４真に記載されているように、２つのトランスピユー
タを内蔵した複数のコンピュート・カードを３２ビツト
バスに並列に接続すると共に、各トランスピユータのリ
ンク・インタフェースをクロスバ・スイッチを介して接
続し、コンビュート・カード同士がデータの授受を行う
場合に、先ずバスをアクセスし、これが競合したときに
は、クロスバ・スイッチを介して通信を行うようにした
ネットワークを構成することも提案されている。

しかしながら、上記トランスピユータを使用したネット
ワークにあっては、３２ビツトバスを介してデータの授
受を行うことができるので、単位時間当たりの処理情報
量を向上させることはできるが、画像解析処理の画像情
報等の１フレーム内の画像データ処理を行う場合のよう
に情報量が多いときには、３２ビツトバス及びクロスバ
・スイッチによるデータ授受には限界があり、処理速度
を向上させるには一定の限度があるという課題は解決す
ることができない。

そこで、この発明は、上記従来例の未解決の課題に着目
してなされたものであり、データ処理部の並列度を上げ
ることにより処理速度を向上させると共に、単位時間当
たりの処理情報量を多くすることができるデータ並列処
理方式を提供することを目的としている。

［課題を解決するための手段〕上記目的を達成するために、請求項（１）に係るデータ
並列処理方式は、入力データを並列処理するようにした
データ並列処理方式において、前記入力データを分割し
て記憶する複数の入力データ記憶部と、マトリックス配
列された複数のデータ処理部と、行又は列単位の各デー
タ処理部を前記入力データ記憶部に接続する所定ビット
幅のデータバスと、隣接する独立なデータ処理部間でデ
ータ通信を行う通信手段と、行又は列単位のデータ処理
部と個別にバス接続されて処理データを格納する複数の
出力データ記憶部と、各出力データ記憶部の格納データ
を多重化して出力データを形成する出力データ形成部と
、前記各データ処理部からの記憶部アクセス要求に基づ
いて前記入力データ記憶部、出力データ記憶部、データ
処理部及び出力データ形成部の転送制御を行う転送制御
手段とを備え、入力データ記憶部に格納された入力デー
タをデータバスを介して行又は列単位の複数のデータ処
理部に順次転送し、当該データ処理部で他のデータ処理
部との間で前記通信手段を介して処理情報の交換を行い
、該交換処理情報を用いたデータ処理を行って、最終処
理データをバスを介して各出力データ記憶部に格納する
と共に、各出力データ記憶部に格納された処理データを
出力データ形成部で多重化して出力するようにしている
。

また、請求項（２）に係るデータ並列処理方式は、入力
データを並列処理するようにしたデータ並列処理方式に
おいて、前記入力データを分割して記憶する複数の入力
データ記憶部と、マトリックス配列された複数のデータ
処理部と、行又は列単位の各データ処理部を前記入力デ
ータ記憶部に接続する所定ビット幅のデータバスと、隣
接する独立なデータ処理部間でデータ通信を行う通信手
段と、前記データ処理部の何れか１つに前記通信手段を
介して接続されて処理データを格納する出力データ記憶
部と、前記各データ処理部からのアクセス要求に応じて
前記入力データ記憶部及びデータ処理部のデータ転送制
御を行う転送制御手段とを備え、入力データ記憶部に格
納された入力データをデータバスを介して行又は列単位
の複数のデータ処理部に順次転送し、当該データ処理部
で他のデータ処理部との間で前記通信手段を介して処理
情報の交換を行い、該交換処理情報を用いたデータ処理
を行って、最終処理データを前記通信手段を介して出力
データ記憶部に格納するようにしている。

さらに、請求項（３）に係るデータ並列処理方式は、入
力データを並列処理するようにしたデータ並列処理方式
において、前記入力データを分割して記憶する複数の入
力データ記憶部と、マトリックス配列された複数のデー
タ処理部と、行又は列単位の各データ処理部を前記入力
データ記憶部に接続する所定ビット幅のデータバスと、
隣接する独立なデータ処理部間でデータ通信を行う通信
手段と、前記行又は列単位の最終データ処理部に前記通
信手段を介して個別に接続されて最終処理データを多重
化して出力データを形成する出力データ形成部と、前記
各データ処理部からのアクセス要求に応じて前記入力デ
ータ記憶部、データ処理部及び出力データ形成部のデー
タ転送制御を行う転送制御手段とを備え、入力データ記
憶部に格納された入力データをデータバスを介して行又
は列単位の複数のデータ処理部に順次転送し、当該デー
タ処理部で他のデータ処理部との間で前記通信手段を介
して処理情報の交換を行い、該交換処理情報を用いたデ
ータ処理を行って、最終処理データを前記通信手段を介
して出力データ形成部に転送し、当該出力データ形成部
で多重化して出力するようしている。

またさらに、請求項（４）に係るデータ並列処理方式は
、前記データ処理部は、少なくとも演算処理部と、これ
に所定ビット幅の内部データバスを介して接続され且つ
入力データ記憶部及び出力データ記憶部にデータバスを
介して接続される外部メモリインタフェースと、前記演
算処理部に前記内部データバスを介して接続され且つ隣
接するトランスピユータとの通信を行う複数のリンク・
インタフェースとを備えたトランスピユータで構成され
ている。

〔作用〕

請求項（１）に係るデータ並列処理方式においては、デ
ータ処理部がマトリックス状に配列され、その行又は列
単位のデータ処理部が入力データ記憶部とデータバスを
介して並列に接続されているので、入力データ記憶部に
入力データを行又は列単位の各データ処理部毎に互いに
関連のない分割データとして格納して、これらを行又は
列単位の各データ処理部で処理するに当たり、通信手段
を介して他の行又は列のデータ処理部間で情報交換を行
うことにより、画像データ処理やデータ間の相関を必要
とするニューラル・ネットワーク、高速フーリエ変換（
ＦＦＴ）処理等の並列化に好適なアーキテクチャを構築
することができ、データ処理速度及び単位時間当たりの
処理情報量をより向上させることができる。

また、請求項（２）に係るデータ並列処理方式において
は、マトリックス状に配列されたデータ処理部の行又は
列単位のデータ処理部が入力データ記憶部とデータバス
を介して並列接続されているので、上記請求項（１）と
同様の作用を得ることができる他、各データ処理部の処
理結果データを途中のデータ処理部を介して出力データ
記憶部に直接記憶するようにしているので、全体の構成
を簡略化することができ、処理情報量が少ない場合に好
適なアーキテクチャを提供することができる。

さらに、請求項（３）に係るデータ並列処理方式におい
ては、行又は列単位の最終データ処理部が個別の通信手
段を介して出力データ形成部に接続され、この出力デー
タ形成部で各行又は列単位のデータ処理部の処理結果デ
ータが多重化されるので、請求項（２）に係るデータ並
列処理方式に比較して、最終データ処理部でのデータ転
送負荷を減少させて処理速度を向上させることができる
。

またさらに、請求項（４）に係るデータ並列処理方式に
おいては、トランスピユータを構成する演算処理部から
外部メモリインタフェースを介して直接入力データ記憶
部及び出力データ記憶部をアクセスすることができ、デ
ータ処理部での処理能力を向上させることができる。

〔実施例］以下、この発明の実施例を図面に基づいて説明する。

第１図はこの発明の原理構成図であって、図中ＦＭ、、
ＦＭ、・・・・・・ＦＭｙは、画像処理の撮像装置から
入力される画像データが所定の分割方式で分割された分
割画像データが入力される複数（Ｙ＋１）個の入力側フ
レームメモリである。これら各フレームメモリＦＭ、〜
ＦＭｖは、夫々例えばデータバスＢｘ−Ｂｖを介してマ
トリックス状に配列された（Ｘ＋１）Ｘ　（Ｙ＋１）個
のトランスピユータＴＡＪ（ｉ＝１．２・・・・・・Ｘ
、ｊ＝１．２・・・・・・Ｙ）の列方向に配列されたト
ランスピユータＴ、Ｊ〜ＴＸ４に接続され、さらに各ト
ランスピユータＴ。ｊ−’−Ｔ、ＪがデータバスＢ、〜
Ｂｙを介して出力側データ記憶部としてのデュアルポー
トメモリＤＭ。

〜Ｄ　Ｍ　ｖに接続され、各デュアルポートメモリＤＭ
０〜ＤＭＶに格納された処理結果データが出力データ形
成手段としての多重化回路ＭＵＸで正規のデータ順に多
重化されて出力側フレームメモリＦＭｏｒに格納され、
この出力側フレームメモリＦＭ０．に格納された出力画
像データがデータ出力端から出力される。

各トランスピユータＴ０゜〜ＴＶＸの夫々は、第２図に
示すアーキテクチャを有する。すなわち、フローティン
グ・ポイント・ユニット（ＦＰＵ）１１に３２ビツト幅
の内部データバス１２を介してマイクロプロセッサユニ
ット（ＭＰＵ）１３、リンクサービス１４、通信手段と
してのリンク・インタフェースＬ、−Ｌ４、ＲＡＭＩ　
５及び外部メモリインタフェース（ＥＭＩ）１６等が接
続されていると共に、システムサービス１７及びタイマ
１８を内蔵している。ここで、リンク・インタフェース
Ｌ　ｌ”’　Ｌ　ａは内部データバス１２を介して伝送
される並列データを１ビツトの直列データに変換して外
部に出力し、外部から入力される直列入力データを並列
データに変換して内部データバス１２に送出する。また
、外部メモリインタフェース１６は、３２ビツトの内部
データバス１２を直接外部のデータバスＢ、に接続する
ことができる。したがって、各行のトランスピユータＴ
。ｊ〜ＴＸｊのマイクロプロセッサユニット１３から４
ＧＢのメモリ空間を有する入力側フレームメモリＦＭ、
及びデュアルポートメモリＤＭｊをデータバスＢＪを介
して直接アクセスすることができ、このとき入力側フレ
ームメモリＦＭｊからデータ処理が可能となって時点で
、前記メモリ制御装置１ｆＭＣにデータ受信要求を出力
し、データ処理が完了した時点でメモリ制御袋ｆＭＣに
データ送信要求を出力する。さらに、リンク・インタフ
ェースＬ。

〜Ｌ４からのデータ入力と外部メモリインタフェース１
６のデータ入力とは等価なものとして取り扱うことがで
きる。

そして、各行の隣接するトランスピユータＴ０゜〜ＴＸ
ｊの一方のトランスピユータにおけるリンク・インタフ
ェースＬ２がこれと対向する他方のトランスピユータに
おけるリンク・インタフェースＬ４と接続されていると
共に、各列の隣接するトランスピユータＴム。〜Ｔｔｙ
（ｉ＝１．２・・・・・・Ｘ）の一方のトランスピユー
タにおけるリンク・インタフエースＬ１がこれと対向す
る他方のトランスピユータにおけるリンク・インタフェ
ースＬ３と接続されて、各トランスピユータＴ０゜〜Ｔ
ＸＶが格子結合されている。このため、トランスピユー
タ同士でリンク・インタフェースＬｌ”””’Ｌ４を介
して１ビツトのシリアル双方向通信を行うことができる
。この結果、隔たったトランスピユータ間でも、途中の
トランスピユータを介在させて双方向通信を実現するこ
とも可能となる。

また、入力側フレームメモリＦＭ、−ＦＭＹ。

デュアルポートメモリＤＭ、〜ＤＭｖ、各トランスピユ
ータＴｏ０〜ＴＸＹ、及び多重化回路ＭＵＸは、各列の
１つのトランスピユータＴＸｊにリンク・インタフェー
スＬ４を介して接続された転送制御手段としての転送制
御装置１ｊＭＤによって制御される。

この転送制御装置ＭＤは、各トランスピユータＴｉ１か
らデータ読込要求を受けたときに、アクセスの認識及び
調停（アービトレーション）を行った後、該当するフレ
ームメモリＦＭ、のデータを読出し、これをデータバス
Ｂ、を介してトランスピユータＴ　ｉ　ｊに転送すると
共に、各トランスピユータＴ　ｉ　ｊからデータ送信要
求を受けたときに同様にアクセスの認識及び調停を行っ
た後、該当するトランスピユータＴ　ｉ　ｊの処理デー
タをデュアルポートメモリＤＭ、に書込み、全てのトラ
ンスピユータＴ　ｉ　ｊの処理データが各デュアルポー
トメモリＤＭ、に書込まれると、多重化制御信号を多重
化回路ＭＵＸに出力して多重化を実行させる。

したがって、画像情報等の１フレーム内のデータ処理を
行う場合、夫々異なったデータしか扱えない構成（即ち
入力側フレームメモリＦＭ、−ＦＭｖには各行における
トランスピユータＴ。、〜ＴＸｊが扱うデータのみが格
納される）でありながら、リンク・インタフェースＬ１
〜Ｌ４によって相互に情報を交換することにより、互い
に相関のある画像データの処理を実行することができる
。

また、演算過程で必要な情報を、相互通信を確保するこ
とにより互いに授受することができるので、データ間の
相関を必要とするニューラル・ネット、高速フーリエ変
換（ＦＦＴ）等の並列処理による高速化を実現すること
ができる。

次に、上記原理に基づく具体例を第３図及び第４図につ
いて説明する。

この具体例では、第３図に示すように６行４列の格子結
合を有する構成とし、各列が１つのユニットＵ、〜Ｕ、
として構成されている。

すなわち、第４図に示すように、外部から入力される８
ビツトの画像データが並列展開部ＤＭＵＸに供給され、
この並列展開部ＤＭＵＸで画像データを各列単位で処理
させる８ビツト×４の並列データに展開する。この並列
データへの展開は、外部から入力される書込指示信号Ｗ
Ｃが供給されるＲＯＭ、及びフリップフロップＦＦ、で
構成されるＲＯＭシーケンサＳＱｏからのセレクト信号
ＳＬによって制御されて、各ユニットＵｏ〜Ｕ。

内の後述する入力データ記憶部を構成する先入れ先出し
メモリ（以下、ＦＩＦＯと称す）２０〜２３に書込まれ
る。

ここで、外部から入力される書込指示信号ＷＣは８ビツ
トの並列データであり、そのうちの１ビツトがスタート
命令、２ビツトが後述する各ユニットＵ０〜Ｕ、に含ま
れるＰＩＦ０２０〜２３のバンク指定、残りの５ビツト
で映像信号の取込みデータ数を３２通り指定し、各ＰＩ
Ｆ０２０〜２３に書込む。

各ユニットＵ０〜Ｕ３は、第４図に示すように、前述し
た並列展開部ＤＭＵＸに８ビツトのデータバスＢ、。〜
Ｂｊｆｆを介して接続されたＰＩＦ０２０〜２３を有し
、これらＰ　Ｉ　Ｆ０２０〜２３にＲＯＭシーケンサＳ
Ｑ、から書込信号ＷＳ、〜ＷＳ。

が供給されることにより、並列展開部ＤＭＵＸから出力
されるユニットＵ０〜Ｕ、に対する展開画像データが選
択的に書込まれると共に、後述する転送制御装置ＭＤで
各トランスピユータＴ　ｉ　ｊからのデータ読込要求を
受け、これを（ｉＩ認した後に、そのＲＯＭシーケンサ
ＳＱ、から出力される読出信号Ｒ３，ｊ％Ｒｓ、ｊによ
って、書込まれた展開画像データを順次３２ビツトの内
部データバスｂ０、〜ｂ、ｊを介して列を構成する６個
のトランスピユータＴ、ｊ”−Ｔ、、の外部メモリイン
タフェース１６に個別に転送する。

また、トランスピユータＴ　Ｏｊ　”’−Ｔ　Ｓ　ｊの
マイクロプロセッサ１３で処理を終了した処理結果デー
タは、同様に内部データバスｂ、。〜ｂ＝ｓを介してデ
ュアルポートメモリＤＭ、に格納される。これらデュア
ルポートメモリＤＭＪの夫々は、後述する転送制御装置
ＭＤで各トランスピユータＴ　ｉ　ｊからのデータ送信
要求を受けて、これを認識した後に、そのＲＯＭシーケ
ンサＳＱ２を介して供給される書込制御信号によって起
動されるＲＯＭシーケンサＳＱ、と同様の構成を有する
ＲＯＭシーケンサＳＱ、から書込信号ＷＳ、が供給され
ることによって処理結果データを格納し、この格納した
処理結果データを各トランスピユータＴｉｊからのデー
タ送信要求を後述する転送制御装置ＭＤで受けて、認識
した後に、そのＲＯＭシーケンサＳＱ３から供給される
読出信号Ｒ３，によって読出し、この読出された処理結
果データが多重化回路ＭＵＸに送出されて、多重化され
ることによって８ビツトの画像処理データとして出力さ
れる。

また、各ユニットＵ０〜Ｕ、における各トランスピユー
タＴ。ｊ　””−Ｔ　Ｓ　ｊはリンク・インタフェース
Ｌ２及びＬ４で直列に接続され、ユニットＵｏ〜Ｕ、の
最終列のトランスピユータＴ０．〜Ｔ３Ｓのリンク・イ
ンタフェースＬ４が転送制御装置ｊＭＤに接続されてい
る。

この転送制御装置ＭＤは、ユニットＵｏ及びＵｌの最終
列のトランスピユータＴＯ５及びＴ１．のリンク・イン
タフェースＬ、にリンク・インタフェースＬ４及びＬ＋
が個別に接続された制御用トランスピユータＴＣ，と、
ユニットＵ２及びＵ３の最終列のトランスピユータＴ２
．及びＴ’ｓｓのリンク・インタフェースＬ４にリンク
・インタフェースＬ。

及びＬ４が個別に接続され且つリンク・インタフェース
Ｌｔが前記制御用トランスピユータＴＣ。

のリンク・インタフェースＬ４に接続された制御用トラ
ンスピユータＴＣ，と、各制御用トランスピユータＴＣ
，及びＴＣ，から出力される直列制御データがインタフ
ェースＩＦ、及びＩＦ、で８ビツトの並列制御データに
変換されて供給されるＲＯＭシーケンサＳＱｚ及びＳＱ
３とを備えている。

ここで、制御用トランスピユータＴＣ，は、夫々各ユニ
ットＵｏ、Ｕ＋及びＵｚ、Ｕｚの各トランスピユータＴ
。ｊ　”’　Ｔ　Ｓ　ｊからのデータ読込要求を直接及
び制御用トランスピユータＴＣ，を介して受信すると、
これらを認識及び調停した後、各ユニットＵ０〜Ｕ３の
Ｐ　Ｉ　Ｆ０２０〜２３に対するシリアル続出制御情報
を生威し、この続出制御情報がインタフェースＩＦ、で
直並列変換されてＲＯＭシーケンサＳＱｚに供給され、
このＲＯＭシーケンサＳＱ、から各ユニットＵ０〜Ｕ３
のＰＩＦ０２０〜２３に対して読出信号Ｒ３，。〜Ｒ３
，，が出力され、これらＰＩＦ０２０〜２３から読出さ
れる並列データが読込要求を行ったトランスピユータＴ
１に転送される。また、トランスピユータＴｉからデー
タ送信要求を受信すると、これらを認識及び調停した後
、デュアルポートメモリＤＭｊに対するシリアル書込制
御情報を生成し、これが同様にインタフェースＩＦ、で
直並列変換されてＲＯＭシーケンサＳＱｚを介して各ユ
ニットＵｊのＲＯＭシーケンサＳＱ、に送出され、この
ＲＯＭシーケンサＳＱ＋によってデュアルポートメモＩ
ＪＤＭＪに対して書込信号ＷＳＪを送出し、データ送信
要求を行ったトランスピユータＴ　ｉ　ｊからの処理結
果データを格納する。

一方、制御用トランスピユータＴＣ，は、各ユニットＵ
＠〜Ｕ３の各トランスピユータＴ０゜〜Ｔ、４の処理結
果データが全てデュアルポートメモリＤＭ、に書込まれ
た時点即ち制御用トランスピユータＴＣ，で全てのトラ
ンスピユータＴ０゜〜Ｔ、４からのデータ送信要求の実
行を終了した時点で、各デュアルポートメモリＤＭ、〜
ＤＭ、に対してシリアル続出制御情報をインタフェース
ＩＦ、で直並列変換してＲＯＭシーケンサＳＱ、に出力
し、このＲＯＭシーケンサＳＱ、からデュアルポートメ
モリＤＭ、−ＤＭ、に対して読出信号を出力すると共に
、多重化回路ＭＵＸに対して多重化制御信号ＭＳを出力
し、この多重化回路ＭＵＸで正しいデータ順で各デュア
ルポートメモリＤＭ、〜ＤＭ、に格納されている処理デ
ータを多重化して画像処理データとして出力する。

ここで、制御用トランスピユータＴＣ，，ＴＣ。

リンク・インタフェースＩＦ０．ＩＦ、及びＲＯＭシー
ケンサＳＱ２．ＳＱ、で転送制御装置ＭＤが槽底されて
いる。

そして、各トランスピユータＴ０゜〜Ｔ１．の外部動作
速度は例えば５ＭＨｚに設定され、各ＲＯＭシーケンサ
ＳＱ、〜ＳＱ、は例えば２０ＭＨｚのクロック信号によ
って動作される。

次に、上記具体例の動作を第５図のタイミングチャート
を伴って説明する。

今、各ユニットＵ０〜Ｕ、の各トランスピユータＴ、。

〜Ｔ”ｓｆｆの処理時間が等しいものと仮定する。

先ず、画像データが並列展開部ＭＵＸに入力されると共
に、ＲＯＭシーケンサＳＱｏに書込指示信号ＷＣが入力
されると、このＲＯＭシーケンサＳＱ、から選択信号Ｓ
Ｌが並列展開部ＭＵＸに出力されることにより、並列展
開部ＭＵＸから各ユニットＵ０〜Ｕ、毎の８ビツトの分
配データが順次出力され、これと同時にＲＯＭシーケン
サＳＱ。

から各ユニットＵ０〜ＵユのＰＩＦ０２０〜２３に対し
て選択的に書込信号ＷＳｊ、〜ＷＳ、が送出されること
により、各ＦＩＦＯ２０〜２３に分配データが格納され
る。

このように、各ユニットＵ、〜Ｕ、のＦＩＦ０２０〜２
３に分配データが格納された状態で、各ユニットＵ、〜
Ｕ３のトランスピユータＴ、Ｊ−Ｔ１．は処理を開始し
ていないので、これらの全てからデータ読込要求が制御
用トランスピユータＴＣ。

に出力されている。このため、制御用トランスピユータ
ＴＣ，では、第５図の時点ｔ１でデータ送信要求を調停
して例えば第１列のトランスピユータＴ　（１０−”　
Ｔ　（＋３に対してデータを転送するように、各ユニッ
トＵ０〜Ｕ、の各ＰＩＦ０２０〜２３に対して読出信号
Ｒ３，〜Ｒ３，を送出すると共に、トランスピユータＴ
。ｏ’−Ｔｏ、に対してデータ読込許可を与えることに
より、ＰＩＦ０２０〜２３から読出される分配データを
、第５図（ａ）及び（ハ）に示すように、内部データバ
スｂ０゜〜ｂ０３を介して各トランスピユータＴ０゜〜
Ｔ、３に転送する。

そして、分配データが転送されたトランスピユータＴ０
゜〜ＴＯ３は、データ転送が終了した時点Ｌ２からデー
タ処理を開始する。

制御用トランスピユータＴＣ，は第１行のトランスピユ
ータＴＯＯ％ＴＯｆｆへのデータ転送が終了した時点Ｌ
２で、第２行のトランスピユータＴ−０〜Ｔ１．に対し
て前記と同様に分配データの転送を開始し、この転送が
終了した時点ｔ、で第３行のトランスピユータＴ２゜〜
Ｔｔ、に対する分配データの転送を開始する。以後、時
点ｔ４で第４行、時点ｔ５て第５行、時点ｔ、で第６行
の各トランスピユータに対して順次分配データの転送が
行われる。

その後、第６行のトランスピユータＴ！！、％Ｔ、。

に対するデータ転送が終了した時点ｔ、で、第１行のト
ランスピユータＴ０゜〜ＴＯ３のデータ処理が終了し、
処理データを送信するためのデータ送信要求が制御用ト
ランスピユータＴＣ，に送出されると、この制御用トラ
ンスピユータＴ　Ｃｏから書込情報が出力され、これに
よってＲＯＭシーケンサＳＱ、からデュアルポートメモ
リＤＭ、−ＤＭ３に対して書込信号が出力されると共に
、各トランスピユータＴ０゜〜ＴＯ３に対して送信許可
が与えられ、これらトランスピユータＴ０゜〜ＴＯ３の
処理データがデュアルポートメモリＤ　Ｍ　ｏ〜ＤＭ、
に格納される。

このようにして、処理を終了した各列のトランスピユー
タの処理データが順次データバスｂ０〜ｂ３を介して順
次デュアルポートメモリＤＭ、〜Ｄ　Ｍ　３に格納され
る。

一方、データ処理を終了したトランスピユータＴ０゜〜
Ｔ０．は、データ読込要求を制御用トランスピユータＴ
Ｃ，に送出するが、行方向に隣接するトランスピユータ
との間で情報交換を行う必要があるときには、これら間
のリンク・インタフェースを介して、第５図（Ｃ）に示
すように、情報交換を行ってからデータ読込要求を送出
する。

その後、時点Ｌ１３で全てのトランスピユータＴ。。〜
Ｔ’ｓ３の処理データがデュアルポートメモリＤＭ０〜
Ｄ　Ｍ　ｓに格納されると、制御用トランスピュータＴ
Ｃ，から処理データ読出情報が送出され、これに応じて
ＲＯＭシーケンサＳＱ、から各デュアルポートメモリＤ
Ｍ、〜Ｄ　Ｍ　ｓに対して読出信号ＲＳ　ｏｏ＝　ＲＳ
　ｏｘが出力され、各デュアルポートメモリＤＭ、〜Ｄ
　Ｍ　３から読出された処理データが多重化回路ＭＵＸ
に入力される。この多重化回路ＭＵＸには、ＲＯＭシー
ケンサＳＱ３からの多重化制御信号が入力されているの
で、この多重化制御信号によって、各処理データが正し
い順に整列されて８ビツトの画像処理データとして出力
される。

これと同時に、時点ｔ１１で第１列のトランスピユータ
Ｔ０゜〜Ｔ０３からデータ読込要求が制御用トランスピ
ユータＴＣ，に送出されることにより、これらトランス
ピユータＴ０゜〜ＴＯ３に対してＰＩＦ０２０〜２３か
ら新たな分配データの転送が開始される。

以上のようにして、第５図（ｂ）に示すように、常に内
部データバスｂ０〜ｂ３が１００％有効に使われること
になる。但し、この有効利用を実現するためには、トラ
ンスピユータＴＪ０〜ＴＪ３とＦＩＦ０２０〜２３及び
デュアルポートメモリＤＭ。

〜Ｄ　Ｍ　３　との間の転送時間をＴＢｔｒとし、トラ
ンスピユータでのデュアルポートメモリＤＭ、〜ＤＭ、
への処理データ転送が終了してからＰＩＦ０２０〜２３
から新たなデータが転送開始されるまでの通信時間をＴ
　ｐ　ｒ　ｏとしたとき、下記（１）式を満足させる最
大並列度ｍ、、、が規定される。

Ｔ　ｐｒ（＋≧ＴＢｔｒＸｍ　　　　　　・・・・・・
・・・・・・（１）一方、各トランスピユータＴ。。〜
Ｔｓ３は転送された分配データの処理が終了した時点か
ら次の分配データの転送が終了するまでの期間Ｔ２□は
データ処理を行わないが、この間を第５図（Ｃ）に示す
ように、リンク・インタフェースを介して行方向のトラ
ンスピユータとの情報交換に割当てることにより、トラ
ンスピユータを常に処理状態におくことができる。但し
、この処理状態を満足させるためには、下記（２）式を
満足させる最大並列度ｎ、、。

が規定される。

Ｔｐｒ＋　　＝　２　Ｘ　Ｔ　Ｂｔｒ＋ＴｐＰ。

≧ＴＬ、、Ｘｎ　　　　　　　　・・・・・・・・・・
・・（２）したがって、両最大並列度ｍい、Ｘ及びｎｌ
、８を満足することにより、最も効率的な処理を実行す
ることができる。ここで、トランスピユータＴ　ｉ　ｊ
の転送時間ＴＢｔ、と処理時間Ｔ　ｐｒとは、ＴＢｔｒ
（Ｔ　ｐｒの関係があるため、非常に高い並列度（ｍ。

ｎ）を達成することができる。

次に、この発明の第２実施例を第６図について説明する
。

この第２実施例は、前述した第１図の原理構成図におい
て、デュアルポートメモリＤＭ、〜ＤＭ１、多重化回路
ＭＵＸが省略され、各トランスピユータＴ　ｉ　ｊでデ
ータ処理を終了してデータ送信要求がメモリ制御装置Ｍ
Ｄに送出されたときに、このメモリ制御装置ＭＤで各ト
ランスピユータＴ　ｉ　ｊの処理結果データを、所定順
序で各トランスピユータ間のリンクインタフェースＬ、
〜Ｌ４を使用してトランスピユータＴ”ｘｏまで転送し
、このトランスピユータＴ、１０から出力される処理結
果データをリンク・インタフェースＬ１．で直並列変換
して直接出力フレームメモリＦＭ、、に書込むようにし
たことを除いては前記第１図と同様の構成を有し、第１
図との対応部分には同一符号を付し、その詳細説明はこ
れを省略する。

この第２実施例によると、デュアルポートメモＩＪＤＭ
、〜ＤＭＶ及びその制御系を必要としないので、全体の
構成を簡易化することができ、情報処理量が少ない場合
に有効となる。

次に、この発明の第３実施例を第７図について説明する
。

この第３実施例においては、前記第２実施例において、
各列の最終トランスピユータＴＸｏ−Ｔ）（ｙのリンク
・インタフェースＬ４が個別にリンク・インタフェース
Ｌｌ。〜Ｌ１．を介して多重化回路ＭＵＸに接続され、
各最終トランスピユータＴ８゜〜Ｔ”ｘｙから出力され
る各列のトランスピユータＴ、ｊ％ＴＸ、の処理結果デ
ータを多重化回路ＭＵＸで多重化して出力側フレームメ
モリＦＭｏｒに書込むようにしたことを除いては前記第
６図と同様の構成を有し、第６図との対応部分には同一
符号を付し、その詳細説明はこれを省略する。

この第３実施例によると、各列の最終トランスピユータ
Ｔ’ｘｏ〜ＴＸＶで処理結果データを個別のリンク・イ
ンタフェースＬｌｎ〜ＬＩｖを介して多重化回路ＭＵＸ
に送出するので、第２実施例に比較して各最終トランス
ピユータでの情報転送負荷を低減させることができ、処
理結果データの情報転送時間を短縮することができる。

なお、上記各実施例においては、トランスピユータＴ０
゜〜Ｔ”ｘｖとして、３２ビツトのマイクロプロセッサ
を搭載した構成としたが、これに限定されるものではな
く、データ処理量に応じて任意ビット数のマイクロプロ
セッサを適用することができ、これに応じてトランスピ
ユータの内部バス及びトランスピユータとＦＩＦＯ及び
デュアルポートメモリＤＭとの間のバスのビット幅を変
更すればよい。

またさらに、上記実施例においては、データ処理部とし
てトランスピユータを適用した場合について説明したが
、これに限定されるものではなく、ＦＰＵ、ＣＰＵ等の
演算処理部と、これに所定ビット幅の内部バスを介して
接続される外部メモリインタフェース及び複数のリンク
・インタフェースを備えた構成を有するものであれば、
他のデータ処理装置を適用することができる。

〔発明の効果〕

以上説明したように、請求項（１）に係るデータ並列処
理方式によれば、データ処理部を格子結合してその行単
位のデータ処理部と入力データ記憶部及び出力データ記
憶部との間をバス接続し、各出力データ記憶部に格納さ
れた処理データを出力データ形成手段で多重化させるよ
うにし、且つ隣接するデータ処理部間に通信手段を設け
ているので、複数の入力データ記憶部に画像入力データ
等の入力データを分割して格納し、各入力データ記憶部
にデータバスを介して接続された各行又は列単位のデー
タ処理部でデータ処理を行うに当たり、隣接する行又は
列単位のデータ処理部と通信手段を介して情報交換を行
うことができるので、情報量の多い画像処理やデータ間
の相関を必要とするニューラルネットワークや高速フー
リエ変換処理等の並列処理を単位時間当たりの情報処理
量を向上させながら高速で処理することができる効果が
得られる。

また、請求項（２）に係るデータ並列処理方式によれば
、各データ処理部でデータ処理を終了した処理結果デー
タを通信手段を介し、途中のデータ処理部を介して特定
のデータ処理部に転送し、このデータ処理部から処理結
果データを出力データ記憶部に直接書込むことができる
ので、全体の構成を簡易化することができ、特に処理情
報量が少ない場合に好適なアーキテクチャを提供するこ
とができる効果が得られる。

さらに、請求項（３）に係るデータ並列処理方式によれ
ば、行又は列単位のデータ処理部の処理結果データを行
又は列の最終データ処理部に順次転送し、これら最終デ
ータ処理部から出力される処理結果データを出力データ
形成手段で多重化して出力するようにしたので、上記請
求項（２）に係るデータ並列処理方式に比較して最終デ
ータ処理部のデータ転送負荷を低減して処理速度を向上
させることができる効果が得られる。

またさらに、請求項（４）に係るデータ並列処理方式に
よれば、データ処理部が、演算処理部に内部バスを介し
て接続された外部メモリインタフェース及びリンク・イ
ンタフェースを備えているので、処理装置から入力デー
タ記憶部及び出力データ記憶部を直接アクセスすること
ができると共に、リンク・インタフェースを介して他の
データ処理部との情報交換を行うことができ、データ処
理部のデータ処理能力を向上させることができる効果が
得られる。

【図面の簡単な説明】

第１図はこの発明の概略構成を示すブロック図、第２図
はトランスピユータのアーキテクチャを示すブロック図
、第３図及び第４図は夫々この発明の具体例を示す概略
説明図及びブロック図、第５図は第４図の動作の説明に
供するタイムチャート、第６図及び第７図はこの発明の
他の実施例を示すブロック図、第８図は従来例を示すブ
ロック図である。図中、ＦＭ、〜ＦＭ、は入力端フレームメモリ（入力デ
ータ記憶部）、８１〜Ｂ、はデータバス、Ｔｏｏ”−Ｔ
ｘＹはトランスピユータ、ＭＵＸは多重化回路（出力デ
ータ形成部）、ＭＤは転送制御装置（転送制御手段）、
ＤＭ、〜ＤＭｖはデュアルポートメモリ（出力データ記
憶部）、ＦＭＯＦは出力側フレームメモリ、１１はフロ
ーティング・ポイント・ユニット、１２は内部データバ
ス、１３はマイクロプロセッサ、１６は外部メモリイン
タフェース、ＬＩ〜Ｌ４はリンク・インタフェース、Ｄ
ＭＬＩＸは並列展開部、Ｕ０〜Ｕ３はユニット、ｂｏｊ
〜ｂ、ｌｊは内部データバス、２０〜２３はＦＩＦＯ，
ＳＱ、〜ＳＱ３はＲＯＭシーケンサ、ＴＣｏ、ＴＣ，は
制御用トランスピユータである。図Ｌ２Ｂ

Claims

【特許請求の範囲】

（１）入力データを並列処理するようにしたデータ並列
処理方式において、前記入力データを分割して記憶する
複数の入力データ記憶部と、マトリックス配列された複
数のデータ処理部と、行又は列単位の各データ処理部を
前記入力データ記憶部に接続する所定ビット幅のデータ
バスと、隣接する独立なデータ処理部間でデータ通信を
行う通信手段と、行又は列単位のデータ処理部と個別に
バス接続されて処理データを格納する複数の出力データ
記憶部と、各出力データ記憶部の格納データを多重化し
て出力データを形成する出力データ形成部と、前記各デ
ータ処理部からの記憶部アクセス要求に基づいて前記入
力データ記憶部、出力データ記憶部、データ処理部及び
出力データ形成部のデータ転送制御を行う転送制御手段
とを備え、入力データ記憶部に格納された入力データを
データバスを介して行又は列単位の複数のデータ処理部
に順次転送し、当該データ処理部で他のデータ処理部と
の間で前記通信手段を介して処理情報の交換を行い、該
交換処理情報を用いたデータ処理を行って、最終処理デ
ータをバスを介して各出力データ記憶部に格納すると共
に、各出力データ記憶部に格納された処理データを出力
データ形成部で多重化して出力するようにしたことを特
徴とするデータ並列処理方式。
（２）入力データを並列処理するようにしたデータ並列
処理方式において、前記入力データを分割して記憶する
複数の入力データ記憶部と、マトリックス配列された複
数のデータ処理部と、行又は列単位の各データ処理部を
前記入力データ記憶部に接続する所定ビット幅のデータ
バスと、隣接する独立なデータ処理部間でデータ通信を
行う通信手段と、前記データ処理部の何れか１つに前記
通信手段を介して接続されて処理データを格納する出力
データ記憶部と、前記各データ処理部からのアクセス要
求に応じて前記入力データ記憶部及びデータ処理部のデ
ータ転送制御を行う転送制御手段とを備え、入力データ
記憶部に格納された入力データをデータバスを介して行
又は列単位の複数のデータ処理部に順次転送し、当該デ
ータ処理部で他のデータ処理部との間で前記通信手段を
介して処理情報の交換を行い、該交換処理情報を用いた
データ処理を行って、最終処理データを前記通信手段を
介して出力データ記憶部に格納するようにしたことを特
徴とするデータ並列処理方式。
（３）入力データを並列処理するようにしたデータ並列
処理方式において、前記入力データを分割して記憶する
複数の入力データ記憶部と、マトリックス配列された複
数のデータ処理部と、行又は列単位の各データ処理部を
前記入力データ記憶部に接続する所定ビット幅のデータ
バスと、隣接する独立なデータ処理部間でデータ通信を
行う通信手段と、前記行又は列単位の最終データ処理部
に前記通信手段を介して個別に接続されて最終処理デー
タを多重化して出力データを形成する出力データ形成部
と、前記各データ処理部からのアクセス要求に応じて前
記入力データ記憶部、データ処理部及び出力データ形成
部のデータ転送制御を行う転送制御手段とを備え、入力
データ記憶部に格納された入力データをデータバスを介
して行又は列単位の複数のデータ処理部に順次転送し、
当該データ処理部で他のデータ処理部との間で前記通信
手段を介して処理情報の交換を行い、該交換処理情報を
用いたデータ処理を行って、最終処理データを前記通信
手段を介して出力データ形成部に転送し、当該出力デー
タ形成部で多重化して出力するようにしたことを特徴と
するデータ並列処理方式。
（４）前記データ処理部は、演算処理部と、これに所定
ビット幅の内部データバスを介して接続され且つ入力デ
ータ記憶部及び出力データ記憶部にデータバスを介して
接続される外部メモリインタフェースと、前記演算処理
部に前記内部データバスを介して接続され且つ他のトラ
ンスピュータとの通信を行う複数のリンク・インタフェ
ースとを備えたトランスピュータで構成されていること
を特徴とする請求項（１）乃至（３）の何れかに記載の
データ並列処理方式。