JP3228927B2

JP3228927B2 - プロセッサエレメント、プロセッシングユニット、プロセッサ、及びその演算処理方法

Info

Publication number: JP3228927B2
Application number: JP25073390A
Authority: JP
Inventors: 則嗣松菱; 芳雄徳野; 裕真崎; 真人山崎
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1990-09-20
Filing date: 1990-09-20
Publication date: 2001-11-12
Anticipated expiration: 2016-11-12
Also published as: EP0477011B1; DE69129723D1; EP0477011A3; JPH04128982A; DE69129723T2; US5235536A; EP0477011A2

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、ディジタル化された音声データや画像デー
タ等の逐次データをプログラムに従って演算処理し、そ
の演算結果を出力するディジタル信号処理プロセッサ
（以下、DSPという）等において、そのプロセッサを構
成する演算処理要素であるプロセッサエレメント（以
下、PEという）と、そのPEを複数個用いて構成したプロ
セッシングユニット（以下、PUという）と、そのPUを複
数個設けて処理の並列実行を行う並列処理可能なプロセ
ッサと、その演算処理方法に関するものである。

（従来の技術）従来、このような分野の技術としては、次のような文
献に記載されるものがあった。

文献1;1990年電子情報通信学会春季全国大会予稿集、
SA−４−２、崎山等“200MIPS画像処理マルチプロセッ
サ”、P.1−415〜１−416 文献2;1990年電子情報通信学会春季全国大会予稿集、
SA−４−４、太田等“並列信号処理システム用ベクトル
プロセッサの設計”、P.1−419〜１−420 文献３−1;信学会集積回路研究会誌ICD90−15（199
0）山口等“高速動画像プロセッサKZ5000"、P.59−66 文献３−2;NIKKEI ELECTRONICS［482］（1989−９−
18）“ソフトウェアで画像圧縮を処理する，テレビ電話
用通信ワークステーション"P.100−101 文献３−3;NIKKEI ELECTRONICS［481］（1989−９−
４）“テレビ電話の動き保証処理に使う320MIPSのDSPを
開発"P.75 文献4;信学会集積回路研究会誌ICD89−６（1989）加
納等“16b、25ns、ビデオ／画像信号処理プロセッサ"P.
37−44 従来、前記文献４に記載されているように、積和演算
が支配的である信号処理のためのプロセッサは、主に、
音声などの一次元信号の処理を対象とする場合、算術論
理演算器のほかに専用乗算器を設けた単一のPE構成での
パイプライン処理により高速化を計ってきた。また、前
記文献1,2,3−１〜３−３に記載されているように、近
年では画像などのように２次元、３次元の広がりを持つ
信号の処理や、より高速な演算処理を対象とすることを
目的に、PEを複数個設けた並列処理構成による高速化が
試みられている。このような構成の一例を第２図
（ａ），（ｂ），（ｃ）に示す。

第２図（ａ）〜（ｃ）は、前記文献３−1,3−２に記
載された従来技術の説明図であり、同図（ａ）は前記文
献３−１に記載された従来の画像信号処理用プロセッサ
の構成ブロック図、同図（ｂ）は同図（ａ）中のPEの構
成ブロック図、同図（ｃ）は前記文献３−２に記載され
た従来における３段パイプラインを４本並列処理させる
ための処理構成図である。

第２図（ａ）に示す画像信号用プロセッサは、高速の
信号処理を並列に実行できるアレー・プロセッシング・
ユニット（以下、APUという）10、プログラム実行用の
中央処理装置（以下、CPUという）20、メモリコントロ
ーラ21で制御されるキャッシュメモリ22、アドレス・発
生ユニット23、入出力ポート24、及びバスA0,A1,D0,D1,
DA,DD,PA,PD等で構成されている。

APU10は、入力フォーマッタ11と、４行×４列からな
るPE12−０〜12−3,12−10〜12−13,12−20〜12−23,12
−30〜12−33と、並列アダー13−０〜13−３と、出力フ
ォーマッタ14と、PE制御用のコントロール・フォーマッ
タ15と、及び並列アダー13−０〜13−３のデータを一時
記憶するためのアキュムレータ（以下、ACCという）16
とで、構成されている。

各PE12−０〜12−33の内部構成は、第２図（ｂ）に示
されるように、セレクタ31,32、乗算回路33、加算回路3
4、及び入出力マルチプレクサ35より構成されている。
なお、第２図（ｂ）中のA,Bはバス、A_si,D_si,B_si,D_siは
入力データ、A_so,B_so,D_soは出力データである。

以上のように構成される画像信号処理用プロセッサで
は、APU10を構成する４行×４列のPE12−０〜12−33に
より、画像信号処理が実行される。４行×４列のPE12−
０〜12−33は、接続形態としてパラレル、並びにパイプ
ラインの２つを実現できる。パラレル接続は２個のPEを
１組として２次元離散コサイン変換（以下、DCTとい
う）等のためのバタフライ演算を実行するために用いら
れる。一方、パイプライン接続では、PE12−０〜12−33
は行方向のパイプライン構成を取り、単一のPEだけでは
１クロック内に実行することのできない高度な処理を１
クロックで実行する。

インターフェイスとしての機能を有する入力フォーマ
ッタ11及び出力フォーマッタ14は、PE12−０〜12−33と
キャッシュメモリ22との信号変換を実行し、さらに並列
アダー13−０〜13−３はACC16を介して加算結果をバスP
D上へ出力できる。これにより複雑な条件を有する任意
ブロックサイズの２次元適応フィルタや動き補償のため
のブロック・マッチング方式、グラディエント方式等の
各種信号処理を高速に実行することができる。

例えば、テレビ電話の画像圧縮を処理する場合、第２
図（ａ）に示す画像処理用プロセッサの１チップでテレ
ビ電話の動き補償が行える。即ち、第２図（ｃ−１）に
示すように、テレビ電話の動き補償で用いるブロック・
マッチング法では、第２図（ｃ−２）のような演算を組
合わせて３段のパイプラインを構成し、これを４本並列
動作させる。

国際標準方式の場合、16×16画素からなるブロック毎
に、動きを補正する。現フレームの画素値Ａと前フレー
ムの値Ｂの差の絶対値を、画素毎に計算し、16×16画素
分合計する。このようにしてブロック間の差を求める。
この演算に１本のパイプラインを割り当てる。上下左右
±７画素の範囲でブロックをずらしながら、比較部25で
比較して動きベクトルを求め、補正を行う。ブロックの
位置をずらしたときは、別のパイプラインを使う。

（発明が解決しようとする課題）しかしながら、上記構成のPE、及びそれを用いたプロ
セッサ、並びにその演算処理方法では、次のような課題
があった。

従来のPEでは、第２図（ａ），（ｂ）に示すように、
専用の乗算回路33及び加算回路34をそれぞれ有する16個
のPE12−０〜12−3,…12−30〜12−33が搭載され、積和
演算処理では16並列に処理することが可能である。とこ
ろが、例えば動きベクトルを検出する際に用いられるよ
うな差分絶対値の累積処理では、第２図（ｃ）に示すよ
うに、４個のPEを組合わせたパイプライン構成により実
行するため、４並列の処理となってしまい、それにより
並列性が損なわれ、さらに専用の乗算回路33も使用され
ないため、未使用の演算器が生じることによってハード
ウェア上の無駄が生じ、回路規模の増大を招くという問
題があり、それらを解決することが困難であった。

本発明は前記従来技術が持っていた課題として、差分
絶対値の累積処理において並列性が損なわれて高速化処
理が困難になる点と、未使用の演算器が生じて無駄とな
り、それによって回路規模の増大を招くという点につい
て解決したPE、PU、プロセッサ及びその演算処理方法を
提供するものである。

（課題を解決するための手段）前記課題を解決するために、第１の発明は、ディジタ
ルデータである第１の入力データと第２の入力データと
の差分絶対値の累積値を出力するPEにおいて、第４の制
御信号に基づき、正または負の加算結果を記憶する第１
の記憶手段と、第５の制御信号に基づき、累積加算結果
を記憶する第２の記憶手段と、第１の制御信号に基づ
き、前記第１の入力データと前記第１の記憶手段に記憶
された前記正または負の加算結果とを選択的に入力する
第１のセレクタと、第２の制御信号に基づき、前記第２
の入力データと前記第２の記憶手段に記憶された前記累
積加算結果とを選択的に入力する第２のセレクタと、第
３の制御信号に基づき、前記第１のセレクタより入力さ
れた前記第１の入力データ及び前記負の加算結果をそれ
ぞれビット反転して出力し、かつ前記正の加算結果をそ
のまま出力するビット反転手段と、前記第３の制御信号
をキャリ信号として入力し、前記ビット反転手段の出力
と前記第２のセレクタの出力とを加算し、前記正または
負の加算結果を出力して前記第１の記憶手段に記憶させ
ると共に、前記累積加算結果を出力して前記第２の記憶
手段に記憶させる加算手段とを備えている。

前記加算手段は、前記負の加算結果が前記ビット反転
手段によりビット反転されると、その出力と前記第２の
記憶手段の内容との和に論理“1"を加え、前記正の加算
結果がそのまま前記ビット反転手段より出力されると、
その出力と前記第２の記憶手段の内容との和を前記差分
絶対値の累積値として前記第２の記憶手段に記憶させる
構成にしている。

第２の発明は、第１の発明のPEにおいて、制御信号に
基づき前記第１の入力データを所定ビットシフトするシ
フタを、前記第１のセレクタの入力側に設け、前記シフ
タの出力を前記第１のセレクタに入力する構成にしてい
る。

第３の発明は、第１または第２の発明のPEにおいて、
前記第１及び第２のセレクタは、前記第１及び第２の制
御信号に基づき、該セレクタへの入力データの入力タイ
ミングの1/2のタイミングで該セレクタ出力を切換える
構成にしている。

第４の発明は、PUにおいて、第１、第２または第３の
発明のPEを（ｎ＋１）個備え、前記第１のPEから第ｎの
PEの各入力側を入力バス群に、各出力側を出力バス群に
それぞれ接続すると共に、前記第ｎ＋１のPEの入，出力
側を前記出力バス群に接続する。そして、Booth（ブー
ス）アルゴリズムに従い、各２のべき乗項を前記第１か
ら第ｎのPEによってそれぞれ算出し、前記第ｎ＋１のPE
によりシフト加算することによって乗算または乗算累積
処理を行い、かつｎ個並列の算術論理累積処理を行う構
成にしている。

第５の発明は、並列信号の処理可能なプロセッサにお
いて、第４の発明のPUをｍ個備え、前記第１のPUから第
ｍのPUの各入力側を入力データバス群に、各出力側を出
力データバス群にそれぞれ接続し、ｍ×ｍマトリクスの
加減算、乗算、論理演算及びその累積処理を行う構成に
している。

第６の発明は、PEを用いた演算処理方法において、第
１の入力データを所定ビットシフトするシフタと、前記
シフタの出力または第１のレジスタの出力を選択出力す
る第１のセレクタと、第２の入力データまたはデータ出
力用の第２のレジスタの出力を選択出力する第２のセレ
クタと、前記第１及び第２のセレクタ出力を入力して演
算処理を行い、その演算結果を前記第１及び第２のレジ
スタへ出力する演算手段とを用い、次のような処理を行
う。

即ち、モード信号により設定される第１の演算処理モ
ードにおいて、第１のステージでは、前記第１のセレク
タが前記シフタ出力を選択出力し、前記第２のセレクタ
が前記第２の入力データを選択出力し、該第１及び第２
のセレクタ出力を前記演算手段により演算してその演算
結果を前記第１のレジスタに格納する。第２のステージ
では、前記第１及び第２のセレクタがそれぞれ前記第１
及び第２のレジスタ出力を選択出力し、その出力を前記
演算手段で累積処理し、その処理結果を前記第２のレジ
スタに格納し、前記第１及び第２のステージを１回また
は複数回繰返し実行する。さらに、前記モード信号によ
り設定される第２の演算処理モードにおいて、前記第１
のセレクタが前記シフタ出力を選択出力するよう固定
し、前記第２のセレクタが前記第２のレジスタ出力を選
択出力するよう固定し、前記演算手段によって前記シフ
タ出力を累積処理し、その処理結果を前記第２のレジス
タに格納するステージを１回または複数回繰り返し実行
する。

その際、前記第１の演算処理モードにおける前記第１
のステージから前記第２のステージへの前記第１、第２
のセレクタの切換えを、前記第１、第２の入力データに
おける入力タイミングの1/2のタイミングで行うように
している。

（作用）第１及び第２の発明によれば、第１の入力データと第
１の記憶手段に記憶された加算結果とのいずれか一方が
第１のセレクタを介してビット反転手段へ送られ、その
ビット反転手段でビット反転処理されて加算手段へ送ら
れる。第２の入力データと第２の記憶手段に記憶された
累積加算結果とのいずれか一方が第２のセレクタにより
選択されて加算手段へ送られる。加算手段では、ビット
反転手段の出力と第２のセレクタの出力との加算処理を
行い、その加算結果を第１及び第２の記憶手段へ出力す
る。これにより、同一のビット反転手段及び加算手段が
繰り返し用いられて累積演算処理が行われ、それによっ
てPEの独立性（並列処理性）と簡素化が図れる。

第３の発明によれば、第１及び第２の制御信号に基づ
き、入力データの入力タイミングの1/2のタイミングで
第１及び第２のセレクタの出力が切換わるので、入力デ
ータの1/2のタイミングで累積演算の処理が行え、それ
によって処理速度の高速化が図れる。

第４及び第５の発明によれば、乗算実行時において各
PEがBoothアルゴリズムに従って演算処理を行うので、
各PEの独立性（並列処理性）と簡素化が図れ、それによ
って並列性が高く、PEに無駄のない並列処理が行える。

第６の発明によれば、モード信号により設定される第
１及び第２の演算処理モードにおいて、同一の演算手段
が繰り返し用いられ、それによって演算処理の簡単化と
処理速度の高速化が図れる。その際、第１及び第２のセ
レクタが、第１及び第２の入力データにおける入力タイ
ミングの1/2のタイミングで切換えられるので、入力デ
ータの1/2のタイミングで演算処理を行え、それによっ
て演算処理のより高速化が図れる。

（実施例）（第１の実施例）第１図は、本発明の第１の実施例を示すPEの構成ブロ
ック図である。

このPE100は、PE全体を制御する制御回路110を有して
いる。制御回路110は、バスを介して与えられる第３の
入力データＸ（＝X^2k+1,X^2k,X^2k-1と、外部から供給さ
れるモード信号md及びクロックckと、キャリ出力coとを
入力し、PEの内部回路を制御するための制御信号s0、及
び第１〜第５の制御信号s1〜s5をそれぞれ所定のタイミ
ングで出力する機能を有し、論理回路や読出し専用メモ
リ（以下、ROMという）等で構成されている。この制御
回路110には、シフタ120、第1,第２の入力手段である第
1,第２のセレクタ130,140、演算手段150、及び第1,第２
の記憶手段である第1,第２のレジスタ160,170が接続さ
れている。

シフタ120は、第１の入力データＹを入力し、制御信
号s0によって０ビットシフト、左１ビットシフト及び０
を出力する回路であり、その出力側にはセレクタ130を
介して演算手段150の一方の入力側が接続されている。
セレクタ130は、シフタ120の出力と第１のレジスタ160
の出力とを入力し、そのいずれか一方を制御信号s1によ
り選択して演算手段150の一方の入力側に与える機能を
有している。第２のセレクタ140は、第２の入力データ
Ｍと、第２のレジスタ170の出力とを入力し、そのいず
れか一方を制御信号s2により選択して演算手段150の他
方の入力側に出力する機能を有している。

演算手段150は、セレクタ130の出力側に接続されたビ
ット反転回路151と、該ビット反転回路151及びセレクタ
140の出力側に接続された加算器152とで、構成されてい
る。ビット反転回路151は、第１のセレクタ130の出力を
入力し、制御信号s3によって入力の全ビットを反転さ
せ、その反転結果を加算器152へ与える回路である。加
算器152は、ビット反転回路151の出力と第２のセレクタ
140の出力とを入力し、ブースエンコード値の正負を表
す制御信号s3をキャリ入力ciとして入力し、ビット反転
回路151の出力及び第２のセレクタ140の出力に対する加
算処理を行い、その加算結果を第１及び第２のレジスタ
160,170に与えると共にキャリ出力coを制御回路110へ与
える機能を有している。

第１のレジスタ160は、制御信号s4に基づき、加算器1
52の出力を一時記憶し、その記憶内容を第１のセレクタ
130へ出力する回路である。第２のレジスタ170は、制御
信号s5に基づき、加算器152の出力を一時記憶し、その
記憶内容を第２のセレクタ140へ与えると共に出力デー
タＯとしてバスへ出力する機能を有している。

第３図は、第１図のPE100を用いた差分絶対値累積処
理のタイミングチャートであり、この図を参照しつつPE
100の演算処理方法について説明する。

第１及び第２の入力データY,Mに対する差分絶対値の
累積演算は、で表わされる。説明の簡単化のために、ｉ＝１〜３とす
ると、（１）式は、次式（２）のようになる。

O_i＝|M₁−Y₁|＋|M₂−Y₂|＋|M₃−Y₃| ……（２）この（２）式の動作を示したものが、第３図である。

第１の入力データY₁〜Y₃はシフタ120を経由して第１
のセレクタ130、第２の入力データM₁〜M₃は第２のセレ
クタ140に、それぞれマシンサイクルMC1〜MC7……の１
回置きに順次入力される。第１のマシンサイクルMC1で
は、入力データY₁,M₁が、制御信号s₁,s₂で制御される第
1,第２のセレクタ130,140で選択され、ビット反転回路1
51及び加算器152により、M₁−Y₁が実行される。ビット
反転回路151及び加算器152での減算M₁−Y₁の実行は、制
御信号s3によるビット反転回路151でのビット反転及び
加算器152へのキャリ入力ci、即ちM₁＋Y₁＋１と行われ
る。

第２のマシンサイクルMC2では、M₁−Y₁の減算結果が
第１のレジスタ160に入力される。これと同時に、今度
は、第1,第２のセレクタ130,140において、第1,第２の
レジスタ出力が選択され、ビット反転回路151及び加算
器152で絶対値累積加算が実行される。絶対値累積加算
は、制御回路110において加算器152のキャリ出力coを監
視し、減算結果M₁−Y₁が負である場合、前述の方法で減
算を実行することにより行う。

第３のマシンサイクルMC3では、前記の累積加算結果
が第２のレジスタ170に入力され、第１のマシンサイク
ルMC1と同様に減算処理M₂−Y₂が実行される。このよう
に、以上の処理動作を繰り返すことにより第７のマシン
サイクルMC7において（２）式の結果である出力データO
_iが得られる。この第１の実施例では、累積演算処理時
において同一の演算手段150を繰り返し用いることによ
り、PE100の独立性（並列処理性）が向上し、それによ
って演算処理の高速化が可能になると共に、PE100の構
成が簡素化され、それによって回路規模の縮小化が可能
となる。

以上、この第１の実施例では、差分絶対値累積処理に
ついて説明したが、第１図と同一の回路構成を用い、制
御信号s3でビット反転回路151の働きを反転出力しない
ように固定することにより、第１及び第２の入力データ
Y,Mに対する差分累積処理も実行できる。

また、PE100において、演算手段150を例えば算術論理
演算器（以下、ALUという）に置き換えることにより、
上記と同様の演算処理が可能である。

（第２の実施例）第４図は、本発明の第２の実施例を示すもので、第１
図のPE100を複数個用いて乗算処理が可能なPUの構成ブ
ロック図、及び第５図はそのPU内で用いられる終段累積
器の構成ブロック図である。

先ず、第４図及び第５図の構成を説明する前に、乗算
の実行について説明する。

乗算器を構成する手法の一つにBoothアルゴリズムを
用いた手法がある。先ず、この手法について説明する。

任意の値Ｘは、ｎビットの２の補数表現で次のように
示される。

但し、Xⁱ（ｉ＝０〜ｎ−１）;1ビットの数値で１また
は０（３）式を２次のBoothアルゴリズムにより展開する
と、となる。よって任意の乗算XYは、次のようになる。

（４），（５）式の（）内は、２次Boothエンコード
式Ｚ＝−2X^2k+1＋X^2k＋X^2k-1 ……（６）であり、０、±1,±２のいずれかのエンコード値をと
る。

例えば、Ｘを16ビットの乗数とすると、乗算XYは次式
（７）で示される。

XY＝（−X¹⁵2¹＋X¹⁴2⁰＋X¹³2⁰）Y2¹⁴ ＋（−X¹³2¹＋X¹²2⁰＋X¹¹2⁰）Y2¹² ＋（−X¹¹2¹＋X¹⁰2⁰＋X⁹2⁰）Y2¹⁰ ＋（−X⁹2¹＋X⁸2⁰＋X⁸2⁰）Y2⁸ ＋（−X⁷2¹＋X⁶2⁰＋X⁵2⁰）Y2⁶ ＋（−X⁵2¹＋X⁴2⁰＋X³2⁰）Y2⁴ ＋（−X³2¹＋X²2⁰＋X¹2⁰）Y2² ＋（−X¹2¹＋X⁰2⁰）Y2⁰ ……（７）また、乗算の累積処理ΣXYも、次式（８）で表わせ
る。

ΣXY＝Σ（−X¹⁵2¹＋X¹⁴2⁰＋X¹³2⁰）Y2¹⁴ ＋Σ（−X¹³2¹＋X¹²2⁰＋X¹¹2⁰）Y2¹² ＋Σ（−X¹¹2¹＋X¹⁰2⁰＋X⁹2⁰）Y2¹⁰ ＋Σ（−X⁹2¹＋X⁸2⁰＋X⁷2⁰）Y2⁸ ＋Σ（−X⁷2¹＋X⁶2⁰＋X⁵2⁰）Y2⁶ ＋Σ（−X⁵2¹＋X⁴2⁰＋X³2⁰）Y2⁴ ＋Σ（−X³2¹＋X²2⁰＋X¹2⁰）Y2² ＋Σ（−X¹2¹＋X⁰2⁰）Y2⁰ ……（８）（８）式は、各項において、 Φ_ｋ＝Σ（−X^2k+12¹＋X^2k2⁰＋X^2k-12⁰）Ｙ ……（９）とおくと、次式（10）のようになる。

ΣXY＝Φ₀2⁰＋Φ₁2²＋Φ₂2⁴ ＋Φ₃2⁶＋Φ₄2⁸＋Φ₅2¹⁰＋Φ₆2¹²＋Φ₇2¹⁴ ……（10）よって、ΣXYは、Φ_ｋを計算する減算器と、Φ_ｋをシ
フト加算する演算器によって構成できる。

以上のような乗算処理を行うための第４図のPUの構成
について説明する。

このPU500は、（10）式のΦ_ｋ（ｋ＝０〜７）を計算
するための第１図の８つのPE100−０〜100−７と、Φ_ｋ
（ｋ＝０〜７）をシフト累積加算し、乗算結果あるいは
乗算累積結果として出力する終段累積器200とを、備え
ている。PE100−０〜100−７の入力側には、入力バス群
300が接続され、さらにそのPE100−０〜100−７の出力
側と終段累積器200の入，出力側には、出力バス群400が
接続されている。

入力バス群300は、外部よりデータX,Y,Mを入力し、そ
れぞれの各PE100−０〜100−７へ出力するものである。
特に、この入力バス群300より入力されるデータ、つま
り乗算Ｘは、前記の２次Boothアルゴリズムに従い、X⁰
〜X¹⁵にビット分割され、それぞれのPE100−０〜100−
７へ入力される。出力バス群400は、PE100−０〜100−
７の出力の終段累積器200への入力、あるいは外部への
出力と、該終段累積器200の出力の外部への出力を行う
ものである。この出力バス群400からは、乗算結果ある
いは乗算累積結果等の出力データＮが出力される。

第５図に示すように、終段累積器200は、外部からモ
ード信号md及びクロックckを入力して制御信号s10,s11
を出力する制御回路210を有している。また、出力バス
群400からのデータを入力して制御信号s10に基づき所定
ビットシフトするシフタ220が設けられ、その出力側に
は加算器230及びレジスタ240が接続されている。加算器
230は、シフタ220の出力とレジスタ240の出力とを加算
する回路である。レジスタ240は、加算器230の出力を一
時記憶し、その記憶された内容を加算器230へ入力する
と共に出力バス群400へ出力する機能を有している。

以上のようなPU500を用いて乗算処理を行う場合の演
算処理方法について、第６図〜第８図を参照しつつ説明
する。

第６図は、第１図の回路によって構成された第４図に
おけるPE100−０〜100−７の乗算処理時のタイミングチ
ャートである。第７図は、第４図における終段累積器20
0のシフト加算ビット構成図、つまり（10）式のシフト
加算処理のビット構成を示す図である。第８図は、第４
図の終段累積器200におけるシフト加算処理のタイミン
グチャートである。

例えば、乗算の累積処理ΣXYを、とすると、Φ_ｋは次のようになる。

Φ_ｋ＝（−X₁ ^2k+12¹＋X₁ ^2k2⁰＋X₁ ^2k-12⁰）Y₁ ＋（−X₂ ^2k+12¹＋X₂ ^2k2⁰＋X₂ ^2k-12⁰）Y₂ ＋（−X₃ ^2k+12¹＋X₃ ^2k2⁰＋X₃ ^2k-12⁰）Y₃ ＋（−X₄ ^2k+12¹＋X₄ ^2k2⁰＋X₄ ^2k-12⁰）Y₄ ……（12）第６図は、第１図の回路で構成されるPE100−０〜100
−７におけるΦ_ｋ算出の動作タイミングチャートであ
る。この図に示すように、第１の入力データY₁〜Y₄は各
PE100−０〜100−７内のシフタ120、第３の入力データX
₁〜X₄は各PE100−０〜100−７内の制御回路110に、それ
ぞれマシンサイクルMC1〜MC5……毎に順次入力される。
各PE100−０〜100−７内の制御回路110は、第１の入力
データX₁〜X₄に従い、（６）式のエンコード値Ｚを計算
し、シフタ120への制御信号s0とビット反転回路151及び
加算器152への制御信号s3を出力する。

また、各PE100−０〜100−７は、外部からのモード信
号mdの入力によって乗算実行モードとなり、第１のセレ
クタ130はシフタ120の出力を常時選択出力するように制
御信号s1を固定出力し、第２のセレクタ140は第２のレ
ジスタ170の出力を常時選択出力するように制御信号s2
を固定出力する。

以上のような各PE100−０〜100−７内の制御回路110
の制御動作により、各PE100−０〜100−７は、各マシン
サイクルMC1〜MC5毎に、加算器152により、シフタ120の
出力と第２のレジスタ170の出力とを加算し、その加算
結果を第２のレジスタ170に出力する動作の繰り返しに
よってΦ_ｋを算出する。第７図は、（12）式の実行例を
示しており、第５のマシンサイクルMC5目にΦ_ｋが算出
される。

以上のようにして各PE100−０〜100−７において算出
されたΦ_ｋは、第４図の出力バス群400を経由して終段
累積器200に入力され、（10）式のシフト加算処理が実
行される。このシフト加算処理のビット構成が第７図に
示されている。さらに、第５図の終段累積器200におけ
るシフト加算処理の動作タイミングが第８図に示されて
いる。

第５図の終段累積器200では、各マシンサイクルMC1〜
MC9……毎に、Φ_ｋをシフタ220に入力し、その出力とレ
ジスタ240の出力とを加算器230で加算し、その加算結果
をレジスタ240へ出力する動作の繰り返しによってΣXY
を算出する。（10）式の実行例が第８図に示されてい
る。この図に示すように、第９のマシンサイクルMC9目
にΣXYが算出され、その算出結果が出力バス群400へ出
力される。

この第２の実施例では、第４図のモード信号mdの切換
えにより、差分累積処理が実行されるため、８並列の処
理が可能となる。このように、２次Boothアルゴリズム
手法を用いて乗算処理を行うようにしたので、各PE100
−０〜100−７の独立性（並列処理性）と簡素化を実現
でき、それによってPU500における演算処理の高速化と
回路規模の減少を図ることができる。

なお、この第２の実施例では、例えば次のような変形
も可能である。

（ａ）第４図の終段累積器200は、第５図に示す構成
でなく、第１図のPE構成をそのまま適用しても良い。こ
の際、第１図における制御回路110から出力される制御
信号s1,s3,s4により、第１のセレクタ130、ビット反転
回路151、及び第１のレジスタ160をスルー状態に固定す
れば良い。このように９個のPEを並列に接続することに
より、乗算処理をも実行可能なPUを簡単に構成できる。

（ｂ）第４図のPU500を用いた乗算累積処理について
説明したが、（７）式に示すような単一の乗算処理も実
行可能である。

（ｃ）この実施例では入力データである乗数Ｘが16ビ
ットの場合を説明したが、そのビット数が任意のｎビッ
トの場合にも、PE数を変更することにより簡単に対応で
きる。

（ｄ）入力データである乗数Ｘが例えば固定係数のよ
うな場合、第１図のPE内の制御回路110の一部をROM等の
記憶回路に置き換え、Ｘの展開データを予めその記憶回
路に格納しておくことにより、演算処理の簡単化とそれ
による演算処理の高速化が可能となる。

（第３の実施例）第９図は、本発明の第３の実施例を示すもので、第４
図のPUを４個用いて構成した並列処理可能なプロセッサ
の構成ブロック図である。

このプロセッサは、第４図の構成の４つのPU500−０
〜500−３を用いて４×４のマトリクス演算を行うもの
で、その各PU500−０〜500−３の入力側には、データX,
Yを入力する入力バス群600が接続され、さらにその出力
側には、出力データＱを出力する出力バス群700が接続
されている。そのため、このプロセッサでは８×４＝32
個のPEが接続されていることになる。

第10図は、第９図の４×４マトリクス演算実行時の説
明図である。

この図に示すように、第９図のプロセッサでは、入力
データX,Yが入力バス群600に入力されると、その行列X,
Yの乗算は、次式（13）式に従って実行される。

即ち、（13）式の行列X,Yの乗算処理を行う場合、第1
0図に示すように、Ｙの列データ毎にPU500−０〜500−
３を割り当てて入力することにより、第１〜第４のステ
ップの４ステップで４×４のマトリクス演算の処理を完
了し、その処理結果である出力データＱを出力バス群70
0から出力する。

また、このプロセッサを用いた加減算等の算術論理演
算では、PE単位で処理するため、32個あるいはPEの16個
を用いて並列に処理できる。

この第３の実施例では、複数のPEを並列接続して構成
した第４図のPU500−０〜500−３を用いて並列処理可能
なプロセッサを構成しているので、より高性能な並列処
理の演算が可能となる。

（第４の実施例）第１〜第３の実施例では、第１図のPE100を用いて第
４図のPU500や第９図の並列処理可能なプロセッサが構
築できることを説明したが、第３図に示すような差分絶
対値累積処理等のPE独立で処理する算術論理累積演算に
おける動作タイミングは、入力がマシンサイクル１回置
きになり、効率的でない。そこで、算出論理累積演算に
おいて非効率となる問題を解決し、連続的に処理が行え
る高速化が可能なPEの構成の原理図を第11図に示す。

第11図は、本発明の第４の実施例を示すもので、高速
演算可能なPEの構成ブロック図である。

このPEは、第１及び第２の入力データA,Bを入力し、
制御信号csにより入力の選択出力を行うセレクタ830
と、該セレクタ830の出力と第３の入力データＣとの加
算処理を行う加算器852と、制御信号cr1,cr2に基づき加
算器852の出力を入力しそれを外部に出力する第１及び
第２のレジスタ860,870とで、構成されている。

第12図は、第11図のタイミングチャートであり、この
図を参照しつつ演算処理方法について説明する。

例えば、第12図に示すように入力データA_i＋C_i、B_i＋
C_iの演算を実行する場合を考える。マシンサイクルMC毎
に順次入力されるデータA_i,B_i,C_iに対し、制御信号csに
よってセレクタ830を２倍のリズム、つまり1/2のタイミ
ングで切換え、同一マシンサイクルMC内に２つのデータ
を加算器852に入力することで、２回の加算を実行す
る。そして、制御信号csと同一周期の制御信号cr1,cr2
を用いて、第１のレジスタ860にはA_i＋C_iの結果を、第
２のレジスタ870にはB_i＋C_iの結果を、それぞれ１マシ
ンサイクルMCの時間幅で、順次入力させる。

このように、第11図に示すPE内の加算器852の入力段
に接続されたセレクタ830を、データ入力リズムの２倍
のリズム、つまりデータ入力タイミングの1/2のタイミ
ングで、該セレクタ830を切換えることにより、加算器8
52の動作速度を向上させ、それによって演算処理の高速
化が実現できる。

（第５の実施例）前記第４の実施例における高速化手法を例えば第１図
のPE構成の動作に取り入れた第５の実施例を第13図に示
す。

第13図は、第１図のPEを用いて差分絶対値累積処理を
行う場合のタイミングチャートである。

この第13図の高速化手法では、第１の実施例を示す第
３図のタイミングチャートとは異なり、第１図の第１及
び第２のセレクタ130,140を、制御信号s1,s2を用いて共
に入力データタイミングの２倍のリズム、つまり1/2の
タイミングで切換えることにより、差分処理とその累積
処理を同一マシンサイクル時間内に実行している。

この第13図のタイミングチャートを第３図と対比させ
ると、（２）式の結果である出力データO_iが、第３図で
は６マシンサイクル間処理して第７のマシンサイクルMC
7目で得られるのに対し、この第13図では、３マシンサ
イクル間処理して第４のマシンサイクルMC4目で得ら
れ、演算処理速度が２倍に高速化されている。しかも、
各マシンサイクル毎に順次データを入力でき、データ入
力速度も２倍高速化されている。

（発明の効果）以上詳細に説明したように、第１及び第２の発明によ
れば、ビット反転手段及び加算手段で構成される演算手
段を用いて演算処理を行うようにしたので、PEの構成が
簡素化され、それによって回路規模の小型化が可能とな
る。特に、累積演算処理時において同一の演算手段を繰
り返し用いることにより、PEがより簡素化されると共
に、並列処理性がより向上するため、回路規模をより小
さくすることが可能となる。

第３の発明によれば、入力データ群の入力タイミング
の1/2のタイミングでセレクタ出力を切換えるようにし
たので、入力データに対する演算処理を効率的に高速処
理が行える。

第４及び第５の発明によれば、Boothアルゴリズム手
法を用いて演算処理を実行する構成にしたので、そのPU
あるいはプロセッサを構成するPEの独立性（並列処理
性）と簡素化を向上させることができ、それによってよ
り多くのPEを実装でき、並列性が高く、無駄のない高機
能なPUあるいはプロセッサを実現できる。

第６の発明によれば、同一の演算手法を繰り返し用い
ることにより、無駄のない、高速かつ効率の良い演算処
理が実行できる。しかも、入力データタイミングの1/2
のタイミングでセレクタの切換えを行っているので、演
算処理をより高速化できる。

【図面の簡単な説明】

第１図は本発明の第１の実施例を示すPEの構成ブロック
図、第２図（ａ），（ｂ），（ｃ）は従来技術の説明図
であり、同図（ａ）は画像信号処理用プロセッサの構成
ブロック図、同図（ｂ）は同図（ａ）中のPEの構成ブロ
ック図、同図（ｃ）は処理構成図、第３図は第１図にお
けるPEの差分絶対値累積処理のタイミングチャート、第
４図は本発明の第２の実施例を示すPUの構成ブロック
図、第５図は第４図中の終段累積器の構成ブロック図、
第６図は第４図のPEの乗算累積処理時のタイミングチャ
ート、第７図は第４図中の終段累積器のシフト加算ビッ
ト構成図、第８図は第４図中の終段累積器のシフト加算
処理のタイミングチャート、第９図は本発明の第３の実
施例を示すプロセッサの構成ブロック図、第10図は第９
図の４×４マトリクス演算実行説明図、第11図は本発明
の第４の実施例を示すPEの構成ブロック図、第12図は第
11図のタイミングチャート、第13図は本発明の第５の実
施例を示す差分絶対値累積処理のタイミングチャートで
ある。 100,100−０〜100−７……PE、110、210……制御回路、
120,220……シフタ、130,140,830……セレクタ、150…
…演算手段、151……ビット反転回路、152,230,852……
加算器、160,170,240,860,870……レジスタ、300,600…
…入力バス群、400,700……出力バス群、500,500−０〜
500−３……PU、200……終段累積器。

───────────────────────────────────────────────────── フロントページの続き (72)発明者山崎真人東京都港区虎ノ門１丁目７番12号沖電気工業株式会社内 (56)参考文献特開平２−170227（ＪＰ，Ａ) 特開平２−127727（ＪＰ，Ａ) 特開平１−126819（ＪＰ，Ａ) 特開昭63−207234（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 7/50

Claims

(57)【特許請求の範囲】

【請求項１】ディジタルデータである第１の入力データ
と第２の入力データとの差分絶対値の累積値を出力する
プロセッサエレメントにおいて、第４の制御信号に基づき、正または負の加算結果を記憶
する第１の記憶手段と、第５の制御信号に基づき、累積加算結果を記憶する第２
の記憶手段と、第１の制御信号に基づき、前記第１の入力データと前記
第１の記憶手段に記憶された前記正または負の加算結果
とを選択的に入力する第１のセレクタと、第２の制御信号に基づき、前記第２の入力データと前記
第２の記憶手段に記憶された前記累積加算結果とを選択
的に入力する第２のセレクタと、第３の制御信号に基づき、前記第１のセレクタより入力
された前記第１の入力データ及び前記負の加算結果をそ
れぞれビット反転して出力し、かつ前記正の加算結果を
そのまま出力するビット反転手段と、前記第３の制御信号をキャリ信号として入力し、前記ビ
ット反転手段の出力と前記第２のセレクタの出力とを加
算し、前記正または負の加算結果を出力して前記第１の
記憶手段に記憶させると共に、前記累積加算結果を出力
して前記第２の記憶手段に記憶させる加算手段とを備
え、前記加算手段は、前記負の加算結果が前記ビット反転手
段によりビット反転されると、その出力と前記第２の記
憶手段の内容との和に論理“1"を加え、前記正の加算結
果がそのまま前記ビット反転手段より出力されると、そ
の出力と前記第２の記憶手段の内容との和を前記差分絶
対値の累積値として前記第２の記憶手段に記憶させる構
成にしたことを特徴とするプロセッサエレメント。
【請求項２】請求項１記載のプロセッサエレメントにお
いて、制御信号に基づき前記第１の入力データを所定ビットシ
フトするシフタを、前記第１のセレクタの入力側に設
け、前記シフタの出力を前記第１のセレクタに入力する
構成にしたことを特徴とするプロセッサエレメント。
【請求項３】請求項１または２記載のプロセッサエレメ
ントにおいて、前記第１及び第２のセレクタは、前記第１及び第２の制
御信号に基づき、該セレクタへの入力データの入力タイ
ミングの1/2のタイミングで該セレクタ出力を切換える
構成にしたプロセッサエレメント。
【請求項４】請求項１、２または３記載のプロセッサエ
レメントを（ｎ＋１）個（但し、ｎは、正の整数）備
え、前記第１のプロセッサエレメントから第ｎのプロセッサ
エレメントの各入力側を入力バス群に、各出力側を出力
バス群にそれぞれ接続すると共に、前記第ｎ＋１のプロ
セッサエレメントの入，出力側を前記出力バス群に接続
し、 Boothアルゴリズムに従い、各２のべき乗項を前記第１
から第ｎのプロセッサエレメントによってそれぞれ算出
し、前記第ｎ＋１のプロセッサエレメントによりシフト
加算することによって乗算または乗算累積処理を行い、
かつｎ個並列の算術論理累積処理を行う構成にしたこと
を特徴とするプロセッシングユニット。
【請求項５】請求項４記載のプロセッシングユニットを
ｍ個（但し、ｍは正の整数）備え、前記第１のプロセッ
シングユニットから第ｍのプロセッシングユニットの各
入力側を入力バス群に、各出力側を出力バス群にそれぞ
れ接続し、ｍ×ｍマトリクスの加減算、乗算、論理演算
及びその累積処理を行う構成にしたことを特徴とするプ
ロセッサ。
【請求項６】第１の入力データを所定ビットシフトする
シフタと、前記シフタの出力または第１のレジスタの出
力を選択出力する第１のセレクタと、第２の入力データ
またはデータ出力用の第２のレジスタの出力を選択出力
する第２のセレクタと、前記第１及び第２のセレクタ出
力を入力して演算処理を行いその演算結果を前記第１及
び第２のレジスタへ出力する演算手段とを用い、モード信号により設定される第１の演算処理モードにお
いて、第１のステージでは、前記第１のセレクタが前記シフタ
出力を選択出力し、前記第２のセレクタが前記第２の入
力データを選択出力し、該第１及び第２のセレクタ出力
を前記演算手段により演算してその演算結果を前記第１
のレジスタに格納し、第２のステージでは、第１及び第２のセレクタがそれぞ
れ前記第１及び第２のレジスタ出力を選択出力し、その
出力を前記演算手段で累積処理し、その処理結果を前記
第２のレジスタに格納し、前記第１及び第２のステージを１回または複数回繰返し
実行し、前記モード信号により設定される第２の演算処理モード
において、前記第１のセレクタが前記シフタ出力を選択出力するよ
う固定し、前記第２のセレクタが前記第２のレジスタ出
力を選択出力するよう固定し、前記演算手段によって前
記シフタ出力を累積処理し、その処理結果を前記第２の
レジスタに格納するステージを１回または複数回繰返し
実行する演算処理方法であって、前記第１の演算処理モードにおける前記第１のステージ
から前記第２のステージへの前記第1,第２のセレクタの
切換えを、前記第1,第２の入力データにおける入力タイ
ミングの1/2のタイミングで行うことを特徴とする演算
処理方法。