JPS60179871A

JPS60179871A - アレイプロセツサ

Info

Publication number: JPS60179871A
Application number: JP59034450A
Authority: JP
Inventors: Junichi Takahashi; 淳一高橋; Sanshiro Hattori; 服部　三四郎; Takashi Kimura; 隆木村; Atsushi Iwata; 穆岩田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1984-02-27
Filing date: 1984-02-27
Publication date: 1985-09-13
Also published as: JPH0421900B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は、例えば音声認識や文字認識においてパターン
のマツチングをとる際などに利用されるダイナミックプ
ログラミングに基づくマツチング演算に代表されるよう
な、２種類の変数間のあらゆる組合せに対する演算およ
びその演算結果を用いたデータの局所的依存性をもつ漸
化式の演算の実行に使用す小アレイプロセッサに関する
。

〔従来技術〕

代表例として、２種類のベクトル変数間の演算とその演
算結果を用いた累積演算の漸化式からなるダイナミック
プログラミングに基づくマツチンここで、Ｃ１，ｒｊは
、それぞれ１個のベクトル列Ｃ＝　（ＣＩ、　０２．　
＠　＠・・・、ＯＫ）、Ｎ個のベクトル列Ｒ”　（ｒ　
１　、　ｒ　２＋　”　”　”　”　”　＋　ｒ　Ｎ　
）のｉ番目、ｊ番目の要素である。また、ｍは各ベクト
ルの次数を”　（ｒｌｊｒ　ｒ２ｊ＋・・・・・、ｒｍ
ｊ）である。Ｄｌｊ　’Ｓｉｊは、それぞれベクトル間
距離、累積距離を表わす。（３）式は、漸化式（２）の
初期条件である。

この種の演算を並列に処理できるアレイプロセッサとし
て、従来、２種類のベクトル列のデータの個数がそれぞ
れ１．Ｎの場合には（ＩＸＮ）個の処理要素（プロセシ
ングエレメント；以下ＰＥ、！：略記する）を２次元に
配列した構成がある。この構成を第１図に、その動作例
を第２図〜第５図に示す。第１図において、１００はＰ
Ｅ、２００はデータバス、３００ハコントロールバスを
示す。マタ４００は入力端子を示し、５００は出力端子
を示す。

各ＰＥ　１００は、積和演算からなるベクトル間距離演
算（１）式と比較拳累積演算（２）式を実行する手段お
よび隣接するＰＥとの間で比較演算結果や累積結果５ｉ
ｊｓベクトルデータＯｌ、ｒ　ｊの授受を行なう手段を
有する。なお、各ＰＥに２次元配列上での位置を表す番
号を付記口、ｉ行ｊ行のＰＥをＰＥ１ｊと表わすと次の
ような動作で上記（１）　、、　（２）　。

（３）式を実行することができる。

■　左隣接のＰＥ１−１．ｊおよび下隣接のＰＥ１．ｊ
−１（または、左端の入力端子および下端の入力端子）
から２種類のベクトルデータ０１　、ｒ　ｊを入力し、
そのベクトル間距離を（１）式を実行することによ請求
める。

■　右隣接のＰＥｌ＋１．ｊおよび上隣接のＰＥ１．ｊ
＋１に、それぞれベクトルデータＯｌ、ｒ　ｊを転送す
る。

■　左隣接のＰＥト１．ｊから累積演算結果８１−１．
　ｊを、下隣接のＰＥｔ＋ｊ−ｔからＩｎｍ　（８１，
ｊ　−１、−’８４’−１゜ｊ−１）の比較演算結果を
それぞれ入力し、これらの比較演算ｍ１ａ（５ｉ−ｔ＋
ｊ　、ｍＪＢｌ、ｊ４　。

Ｓｉ−、、ｊ−１）：＋を実行し、この結果に■でめた
Ｄｉｊを加えて８１ｊをめる。

■　比較演算間（８ｉｉ　１−８ｉ−□、ｊ）を°実行
し、その演算結果を上隣接のＰＥｉ、　ｊ＋１へ、累積
演算結果Ｓ１ｊを右隣接のＰＥｌ＋１　、　ｊ　へ転送
する。

ここで、■、■は、比較・累積演算（２）式を実行する
過程を示している。すなわち、ＰＥ１ｊにおいて累積演
算（２）式を実行するために必要な３種類の累積結果Ｊ
、ｊ−１”　ｉ−ｔ＋ｊ’　５ｌ−１’、’３−ｔのう
ち、８１、ｊ−１’　５ｉ−Ｌｊ　はそれぞれ転送すべ
きＰＥ１ｊの下隣接のＰＥｉ、ｊ−１および左隣接のＰ
Ｅ１−１．ｊに存在するのに対し、８１−ｔ、ｊ−ｔは
ＰＥ１ｊに対して対角方向に隣接したＰＥ１−１．ｊ−
１に存在する。このため、前者の２つのデータは１回の
転送、後者はＰＥ１．４−１　を経由して２回の転送を
必要とする。

しかし、５ｉ−ｘ、ｊ−ｘの転送に介在するＰＥｉ、ｊ
−１においてあらかじめＳ・　・　とＳ　１−１とを比
較１、コー１　ｉ−、Ｊしてその結果をＰＥ１ｊに転送し、このデータとＰＫｌ
−１，ｊからの転送データ５ｉ−０，ｊとの比較演算を
実行するようにすれば、ＰＥ１ｊにおいて（２）式通シ
の３つのデータの比較演算を実行することと等価になる
。

これらの各動作を、第１図の実線で示す各対角線上の全
ＰＥに対して■〜■の動作をＰ’Ｅの並列処理単位とし
て実行する方法、あるいは、■と■、■と■の２種類の
動作を並列処理単位としてこれを隣接する対角線上のＰ
Ｅで交互に実行する方法によシ、ベヘトル間距離Ｄｉｊ
、累積結果Ｓｌｊを計算しながら最終的な累積結果８１
．Ｎをめることができる。このうち、後者の実行方法の
場合は、２つの並列処理単位間の有効なダイナミックス
テップ数が異なるため、（ノー・オペレーション）ＮＯ
Ｐ命令によって実行ステップ数を調整しなければならな
いが、ここでは詳細な説明は省略する。

第２図〜第５図は、この後者の場合の２次元配列アレイ
上での動作を、時刻ｔから時刻ｔ＋３にわたって示した
ものである。ここで、時刻は、各ＰＫが■と■および■
と■の全処理を実行するのに要する時間を単位としてお
シ、各図（ａ）　、　（ｂ）はそれぞれ各ＰＥにおいて
上記却位時間中に矩形で囲まれたデータが算出された状
態を示している。

このような２次元配列構成では、一応演算の局所性・規
則性が生かされて並列処理を実行できる。

しかし、例えば上記のダイナミックプログラミングに基
づくマツチング演算式の（２）式が（４）式に示すよう
な複雑な演算式である場合には、（４）式の累積結果５
ｉ−１，ｊ−１’　”’ｉ−１＋ｊ−２・５１−ｚ、、
１−ｉ　の転送と比較演算の対象となる３つのデータを
生成する演算について２個のＰＥを介して実行しなけれ
ばならず、ＰＥ１ｊでの比較演算はこれらの３．つのデ
ータをＰＥＩｊ内に入力してから実行する方法をとるな
ど各ＰＥが並列に実行すべき処理単位５内容が複雑にな
るばかシでなく、全ＰＥを十分効率良く使用した並列処
理は実行できない。

また、対象とするダイナミックプログラミングに基づく
マツチング演算で処理すべき２種類のベクトル列のデー
タの個数を表わす正整数Ｎ及びＩの両方に依存してＰＫ
の個数を決定しなければならないので、多種のベクトル
列Ｃｕ（Ｃｕ＝（’１ｕ＊Ｏｒ２．　Ｉ＠’１１１１・
＋　０１ｕ）　；　ｕ””Ｉ　Ｔ　２　＋　”””＋ｔ
ｃ）と多種のベクトル列ＲＶ　（ＲＶ　”　（ｒｌｖ＋
　ｒ　２ｖ、　＠　＠　１１Φ・＋ｒＨｖ）　；ｖ＝ｌ
　、　２　、４１＋１１　＠１１　、ｔｒ’）トｏタイ
ナミツクプログラミングに基づくマツチング演算を実行
するためには、正整数Ｎ、ＩとしてＮｍａｘなければな
らず、ＰＥの個数は（Ｎｍａｘ　Ｘ　Ｉｍａｘ　）個必
要とする。したがって、ベクトル列Ｃｕｔ　Ｒｙに対す
る処理を行なう場合は、ｃｍａｘ　ｌ　Ｒｍａｘの組合
せ以外のすべてのベクトル列の組合せに対して、ダイナ
ミックプログ２ミングに基づくマツチング演算処理の動
作を実行する必要のないＰＥが多数存在することとなり
、・ハードウェアの有効利用が図れない。

また、必要なＰＥの個数を処理すべきデータの個数の最
大値から決定し力ければならないことは、ＬＳＩ技術に
よシ小形化を図る場合に大きな支障となる。１個のＬＳ
Ｉに搭載できるＰＥの個数はＰＨの機能によシ異なるが
、例えば、１個のＬＳＩに４個程度のＰＥを搭載できる
とともに、ＮｍａＸ　６０１１　ｍａｘ　６０の場合に
は９００個ものＬＳＩを２次元に配列・接続しなければ
ならない。

〔発明の目的および構成〕

そこで、本発明の目的は、ダイナミックプログラミング
に基づくマツチング演算に代表される２種類の変数間の
あらゆる組合せに対する演算とその演算結果を用いたデ
ータの局所的依存性をもつ漸化式の演算を、対象とする
演算量に適応したＰＥ数からなるアレイ構成で、各ＰＥ
を鳴動に動作させながら、高効率の並列処理で実現する
ことが可能なアレイプロセッサを提供することにある。

このような目的を達成するために、本発明は、それぞれ
外部からの２種類の入力データ列Ｃ＝（Ｏ・）（ｉ＝１
，２．・・・・・、Ｉ）およびＲ＝（ｒｊ）（ｊ＝１　
、２、−−−−−、Ｎ）の各データｏｉ、ｒｊを入力す
る手段と、２種類のデータ間の加減算、比較演算および
積和演算の各所望の演算を行ないその結果を蓄える手段
と、入力データＣｉおよび演算結果を隣接処理要素との
間で送受する手段と、最終的な演算結果を外部に出力す
る手段とを備えた処理要素をｎ個環状に配列するととも
に、各処理要素間を、隣接処理要素とのデータ授受を行
なうだめのデータ転送パスと外部入力パスとを切シ換え
るマルチブレフサを介して環状に接続し、かつ全処理要
素がその処理結果を隣接処理要素へ同時に（ｍｏｄＮ）
回転送する処理を各処理要素における通常の処理単位と
並列に実行する手段ならびにこれら各処理要素を制御す
る手段を備えたものである。

ここで、ｍｏｄＮはＮをｎで割った場合の剰余を表わす
。なお、■およびＮならびにｎは任意の正整数であるが
、実際上はＮとｎとの関係はｍｏｄＮｎが成立する範囲で規定される。以下、実施例を用いて本
発明の詳細な説明する。

〔実施例〕

ダイナミックプログラミングに基づくマツチング演算の
一例である上記の演算式（１）　、　（２）　、　（３
）を２種類のベクトル列Ｃｕ＋Ｂｙ（ｕ−１１２＋　＠
・−・Φ。

Ｌ　ｒ　Ｖ”　１　＊　２　＋・・＠　＠　ａ　、　ｔ
ｒ）について実行する場合について示す。第６図に、本
発明の一実施例の構成を示す。

第６図は、ＰＥの個数がｎの場合を示し、１はこの処理
要素ＰＥで、ダイナミックプログラミングに基づくマツ
チング演算式（１）　、　（２）　、　（３）を実行す
るための加減算、比較演算や積和演算を実行する演算器
を内蔵し、瞬接するＰＥとのデータ授受や外部とのデー
タ授受を実行するためのレジスタおよび演算結果や転送
データを蓄積するメモリを有する。２−１〜２−　ｎは
外部からの入力データ０ｉｕ（１＝１１２１＠＠＠＊＠
ＩＩｕ）をｎ個分（ＰＥの個数分）ずクアレイに入力す
る場合と隣接ＰＥがらの循環転送される入力データｏｔ
ｕ（１＝１　＋　２　ｒ・・・嗜・ＩＩｕ）の転送の場
合とを切シ換えるだめのマルチプレクサである。例えば
アレイの各ＰＥＫｎ個ノ入力テータ列０１ｕ、Ｑ２ｕ、
ｓｅ・ｓｅ、ＣｎｕをＰＥ１から入力する場合、２−１
のマルチプレクサだけが外部からの入力データバス３を
選択し、これを外部からの入力データ列Ｃ工ｕ　、　Ｃ
２ｕ　、・・・・・　ＣｎＵ　の入力口とし、ＰＥ１を
起点として入力されたデータＣ、Ｕは隣接ＰＥへ順々に
転送する方法でｎ個分のデータ０１　．０２，１ｌｌｌ
ｌｌｅｌｌ、Ｑｎｕヲ各ＰＥに１個ずつ割付ける。それ
以外の場合は２−１〜２−ｎのすべてのマルチプレクサ
がＰＥ間のデータ転送バ？、５を選択し、入力データ列
ＣＩＵ。

０２ｕ＋・・・・・、ＣｎｕをＰＥ間で循環転送する。

また、各ＰＥは、後述するように上記ｎ個分ずつの入力
データパターンの入れ換えごとに、ｍｏｄＮ回、通常の
処理単位と並列に、それぞれの処理結果を隣接ＰＥへ同
時に転送することができる構成となっている。４は他方
の入力ベクトルデータ列Ｒｙ：（ｒｌｖｒ　ｒ２”　＋
　”　”　””　ｔｒＮｖ）（ｋ”１　＋　２　＋　”
・・・・＋　Ｌ　ｒ）の各ベクトルデータを各ＰＥに順
次入力するとともに最終的な演算結果Ｓ工□、Ｎ□＋Ｓ
１１．Ｈ２゜＠″＠＠ｌ５Ｉｕ＠Ｎｖ、＋Ｉ１１＋１・
・５Ｘｔｃ、Ｎｔｒを外部に出力するためのＩ１０パス
である。上記５は、ＰＥ間でのベクトルデータＣ、Ｕの
循環転送ならびに累積演算結果８１ｊの転送を実行する
ためのデータ転送バスである。６はＩ１０バスに接続さ
れる各ＰＥのＩ１０端子である。また、７，８．９は、
それぞれ入力ベクトルデータｃｉｕ　、　ｒｊｖ（ｉ＝
１１２１・・・・・、Ｉｕ　；　ｊ−１＋　２．＠１１
１１・・＋Ｎｙ；ｕ＝１＋２、・・・・・＋Ｌｃ；　Ｖ
”’１　＋　２　、・拳・・轡、１ｒ）および最終的な
演算結果Ｓｘ□、Ｎ工＋　８１１　Ｆ　Ｎ□、・・・・
・。

Ｓｘｕ、Ｎｖ、・・・・・、Ｓ　を示す。さらに１０”
ｔｃ　’　Ｎｔｒ制御動作を行なうコントルールユニットである。

第７図に、各ＰＥの構成例を示す。図において、１点鎖
線で囲んだ部分が１個のＰＥ１を示し、１１は％ＰＥ　
へ（Ｄペク）／Ｉ／デー’　”ｊｖ（ｊ　＝１．２　、
　・ａ・・・・ＩＮｖ）の入力および最終的な演算結果
ｓｘｕ、Ｎｖの出力を行なうための外部Ｉ１０バス、１
２はこの外部Ｉ１０バス１１とのデータ授受を行なうた
めのＩ１０端子を示す。また１３は左隣接ＰＥからのデ
ータ転送バス端子、１４は右隣接ＰＥへのデータ転送パ
ス端子を示す。１５は外部Ｉ１０バス１１からベクトル
データＸ”ｊを入力するためのバッファレジスタ、１６
は外部■１０バス１１へ最終的な演算結果ＳＩ　を出力
するためのバスｕ　ｌ　’Ｙファレジスタ、１Ｔは隣接ＰＥからベクトルデーりＯｌ
（１＝１　＋　２　、・１１・、Ｉｕ）の入力および後
述する処理動作■、■で実行される累積演算Ｓｉｊの計
算に必要なデータの入力を行なうためのレジスタ、１ａ
は隣接ＰＥへベクトルデータＯ１ｕおよび累積演算ＳＩ
Ｊの計算に必要なデータの転送を行なうためのレジスタ
、１９は内部バスである。

２０．２１は、それぞれこのＰＫに入力されるぺ／　）
　ノケ−１ｒｊｖ、　ｃ、ｕ　（Ｄ全成分子ｋｖ’　＊
　ｃｋｕ’（ｋ＝１．２．・・・・・＋　ｍ　）を蓄え
るバックアメモリ、２２は（１）　？　（２）式の演算
を実行するための加減算・比較演算・積和演算機能を有
する演算ユニットであシ、２３は（２）　、　（３）式
を実行する際に必要なデータを保持しておくためのワー
クメモリである。ワークメモリ２３は、その保持するデ
ータの性格上、２種類の領域２３−１と２３−２とに分
かれる。すなわち、２３−１は後述する入力ベクトルデ
ータＯ、Ｕの循環転送時での処理動作■、■、■の実行
において必要なデータを保持する領域でｓｂ、２３−２
はベクトル列Ｃ１，Ｃ２，・・・門・Ｃｔｃのうちのｎ
個のベクトル列の入れ換え直後の処理動作■、■の実行
時に必要となるデータの保持領域である。２４は制御ユ
ニットであシ、内蔵のマイクロプログラムあるいは外部
からの命令に従って制御を行なう。

２５ｆ＞Ｃ８６図のコントロールユニット１０からの制
御信号の入力端である。２６．２７はワークメモリへの
アドレス線を示す。そのうち、２６はカウンタ２８が演
算途中結果を保持する領域２３−２をアクセスするもの
であるのに対し、２７は例えばマイクロプログラムから
の直接アドレスに相当し、上記処理動作■、■の個々の
処理に必要なデータの蓄積領域２３−１をアクセスする
。

上述したように、演算ユニット２２における演算結果は
ワークメモリ２３に保持されるが、隣接ＰＥ間でのデー
タ転送用にレジスタ１７．１８を備えておシ、上記演算
結果をワークメモリ２３からレジスタ１８に取シ込んで
そこから隣接ＰＫのレジスタ１７に転送している間に、
演算ユニット２２においては次の演算が行々えるような
構成となっている。したがって、後述する０、■、■か
らなる入力データＣ１の転送を行なってＤｌｊ・Ｓｇを
演算し結果を転送するという通常の処理単位と並行して
、つまシ通常の処理の流れを全く乱すことなく、入力デ
ータパターンの入れ換えの際には、各ＰＥが上爬演３Ｉ
’を実行している間を利用して、後述するようなｍｏｄ
Ｎ回の処理結果の隣接ＰＫへの同時転送を行なうことが
可能である。

次に、本構成で上記の演算式（１）　、　（２）　、　
（３）で示されるダイナミックプログラミングに基づく
マツチング演算を実行する方法を説明する。ダイナミッ
クプログラミングに基づくマツチング演算は、２列種類のベクトルデータ”−Ｃｕ＋　Ｒｙの作るそれぞれ
の２次元格子平面上の各格子点に対して式（１）　、　
（２）の演算を実行することに相当する。第８図は、本
構成にて２種類のベクトルデータ列、すなわちｔｃ個の
ベクトルデータ列Ｃｕ＝（０１ｕ、　ｇ２ｕ、・・拳・
・、ＯＸ町（ｎ＝１１２１・・・・・Ｉｔ（りとｔｒ個
のベクトルデータ列Ｒｙ　”　（ｒｌｖ、　ｒ２ｖ、　
ｅ　＊　＊　ｅ　＊　ｒＮ：）（ｖ＝１１２１・・・・
・ｔｒ）に対するダイナミックプログラミングに基づく
マツチング演算（１）　、　（２）　。

（３）式を連続的に実行する様子を示している。図にお
いて、格子平面上の各対角破線、対角実線はＰＥの処理
単位を時間単位とした場合の時刻を表わし、矢印Ａが時
刻の進行方向を示す。つまシ、同一破線、実線上の格子
点は同時に処理されることを意味する。ＰＥの個数はｎ
個であるから、処理実行中は常に対角線上のｎ個の格子
点が同時に処理される。

本構成でのデータの入力動作の様子を第９図に示す。第
９図はｎ＝６の場合を示し、３１はＰＥ。

３２はベクトルデータ６１（ｌ＝１，２．・・・・・。

Ｘ）および累積結果Ｓ１ｊを隣接するＰＫへ転送するた
めのデータ転送パス、３３は各処理時刻におけるデータ
転送パス上のベクトルデータＪ（ｌ＝１．２．・・・・
、Ｉ）の流れ、３４は各処理時刻において各ＰＥに入力
すべきＩ１０バス上のベクトルデータｒｊ（ｊ＝１，２
．−・・・、Ｎ）を示す。

ＰＥの個数分、すなわち６個のベクトルデータ列（１，
０２，・・・・・、ｃ６がＰＥ１から順に入力され、各
ベクトルデータは各ＰＥでの処理が終了するごとに右隣
接のＰＥへ順次転送され、第１番目のデータＯ１がＰＥ
ｔに戻ってくるまでは処理時刻が進むにつれてデータ’
ｉ　（１＝１　ｒ　２　ｒ・・・・・、６）が現われる
データ転送パスが１つずつ増えるが、データＯｉがＸ：
Ｅ６からＰＥ１に転送される時刻以後は、各ＰＫに存在
するデータＣ１〜０６は各時刻ごとに同時に隣接するＰ
Ｅへ転送される。一方、データｒｊ（ｊ＝１，２．・・
・・・、Ｎ）はこの各ＰＥ間のデータｃ１（ｉ＝１，２
＋・・・・・、６）の転送動作に同期して各ＰＥに順々
に入力される。そして、各ＰＥ間で規則的なデータ授受
を行ないながら、全格子点に対して演算式（１）　？　
（２）　Ｐ　（３）を実行する。

第８図の破線群■は、マルチプレクサ２−１だけを外部
からの入力データバスの選択モードにし、ＰＥの個数ｎ
個の入力ベクトルデータ列Ｏｔ　、０２　＋・・・・・
、Ｏｎを順に入力し、ＰＥ２〜ＰＥｎ、、は処理単位を
終了するごとに隣接するＰＥとのベクトルデータ’ｘ（
Ｘ”１　＊　２　、　＊＊ｍ＊＊、ｎ　Ｄのデータ授受
を同時に行々うことを示す。この破線群Ｉに続く実線群
は、ＰＥｎにデータ０（が入力された後は全マルｔプレ
クサ２−１〜２−ｎが、！ｌＩＥ間のデータ転送パスの
選択モードとなり、入力ベクトルデータ列Ｃ□、Ｃ２，
・・・・−ｒ　ＯＡを各ＰＥ間で循環転送μながら演算
外、（１）　、　（２）　、　（３）を実行することを
示している。そして、−続く破線群■は、入カベク１トルデータ列ｃ、ｃ、・・１１，０　を次のｎ個２分のベクトルデータ列ｃＡ＋□、・・・Ｃ１□、φ・・
、、　Ｏｌｕと入れ換えながら演算を続行する過程を示
している。

とこやで、各ＰＥには処理±位ごとに２種類のベクトル
データＣ１ｕ、ｒｊｖが入力されるので、演算式（１）
は各ＰＥで独立に並列実行されるが、演算式（２）は隣
接ＰＥとのデータ授受を行ないながら実行する。例えば
、第１０図は、ＰＥの個数ｎ＝５として、ペク°トルデ
ータ列０１　ｒ　０２　、とベクトルデータ列Ｒ１＋　
Ｒ２のすべての組合せについて連続的に処理を行なう場
合の各ＰＥの処理手順および各ＰＥが担当する格子点の
分布を示したもので、図中Ｃ＝＝に囲まれた格子点群は
同一のＰＥにおいて処理されることを意味し、左肩に示
した数字がそのＰＥ番号を示しているが、同図において
例えばＳ７．８をめる場合、時刻ｔ１におけるＳ７，８
の計算に必要なデータは時刻ｔ２．＋ｔ３においてＰＥ
４＋ＰＥ５でめらｊる８６，７）８７，７１８６．８　
である。時刻ｔｚ＋ｔ３は時刻ｔ１に対して過去である
ので、データＳ６，８はＳ７，８を計算するＰＥｓ内に
存在し、データ８６，７１８７．７はＰＥ４に存在する
。すなわち、必要なデータは常に隣接するＰＥ内に存在
するので、Ｓ７，８に対する演算式（２）の比較演算を
実行す・る場合は、ＰＥ４において履（Ｓ６．ｒｒ８ｔ
、ｔ　）を実行し、その結果をＰＥ５に転送してＰＥ５
において朋（Ｓ６．ｓ　＋騙（Ｓ６，７　＋　８７．７
）　〕を実行する。

この、場合、前述したように入力ベクトルデータ列ＣＩ
　ｒ　Ｃ２＋・・・・・、ＣｔｃをＰＥの個数分（ｎ個
）ごとに区切ってアレイに入力し処理を行なうため、第
１０図に示すよダに斜線で示した格子点に対応するＳｉ
ｊは、入力°ベクトルデータの入れ換えが始まるまでに
一定のＰＥへ転送しておかなければなら々い。例えば、
ＰＥＩに存在するＳ５，１はＰＥ３へ、ＰＥ２に存在す
るＳ５，２はＰＥ４へ、ＰＥ３に存在するＳ５，３はＰ
Ｅ５へ、ＰＥ４に存在するＳ５，４はＰＥＩへ、ＰＥ５
に存在するＳ５，５はＰＥ２へそれぞれ転送しなければ
ならない。一般に、ｎ個のベクトルデータ列の入れ換え
が始まる（　ｍｏｄ　’ｆ　Ｎｙ）時刻前ｎｖ二１の時刻から、すなわち第１０図の例ではｍｏｄ１７＝２
時刻前の時刻から全ＰＥは、各時刻ごとにそれぞれ蓄え
ている累積結果Ｓｐｎ、ｊ　（ｐ＝１１２　＋・・・・
・）を隣接するＰＥへ同時に転送する動作を開始し、こ
れらのデータの転送を後述する■、■。

■の通常の処理動作と並列に、前述したようにＰＥが演
算処理のみを行なっている間を利用してＰＥ・の各処理
単位に１回ずつ行なうことによシ、ｎ個の入力ベクトル
データ列の入れ換え直前までに必要、なデータＳｐｎ、
ｊを所定のＰＥに転送しておくことができる。第１０図
に示す例では、ＰＥ１の格子点（ｃｉ　、　ｒ：　）、
に対する処理と並列に、ＰＥｉ　ｌ　ＰＥ２１ＰＥ３　
＊　ＰＥ４　ｒ　ＰＥｓの各ワークメモリ２３−２の同
一アドレスに存在するデータ、Ｓｓ、ｘｌｓ、２＋Ｓ５
，３・８５．４１８５．５は隣接するＰＥへ転送されて
ＰＥ２　＋ＰＥ３　＋　ＰＥ４　Ｔ　ＰＥｓ　ｒ　ＰＥ
１に配置され、ＰＥｔの格子　一点（弓・ｒ≦）に対す
る処理では同様にしてＰＥ３＋ＰＥ４　ｒ　ＰＥｓ　＋
　ＰＥｉ　＋　ＰＥ２に配置されて転送が完了し、ＰＥ
ｌの次の格子点（ａｌ、　、　ｒソ）に対する処理時刻
での次のｔカベクトルデータ列０５．０６１０□。

ｃキ　との入れ換え直後の処理では、ＰＥ３　ｒ　ＰＥ
４　＋ＰＥｓ　＋　ＰＥ１ｒ　ＰＥ２が上記の２回の転
送によρ得られたデータＳ５，１１８５，２１Ｓ５，３
１８５．４１８５．５を使って処理動作■、■、■を実
行する。このようガ処理を繰り返し実行することにより
各ＰＥは５ダイナミツクプログラミングに基づくマツチ
ング演算式（Ｙ）　、　（２）　、　（３）を規則的か
つ連続的に実行するととができる。

以上のように入力ベクトル列Ｃｕ（ｕ＝　１　＋　２　
ｙ・・、・・・、２ｃ）のｎ個のベクトルデータ列の合
力まだは入れ換えと循環転送とを交互に繰シ返し、かつ
上記ベクトルで一夕０１ｕ（ｉ　＝　１　ｐ　２ｒ・・
・・・。

Ｉｕ）の入力および循環転送に同期してベクトルデータ
ｒ−ｖ（ｊ＝１　＋　２　＋　ｓ＊＊ｓｓ、Ｎｙ）　を
各ＰＥコ　、に入力しながら、各ＰＥ７５−格子点呼対して演算式（
１）　、　（２）　、　（３）を繰９返し実行すること
により全格子点に対する処理を完了する。

の一般的な処理動作（通常の処理単位）は次のようにな
る。　゛ ■　左隣接のＰＥまたは外部からの入力データバスより
ベクトルデータＣ・（１”１”　ｐ’　２　ｐ　＠・・
・・、Ｉ）を入力讐ると同時に右隣接のＰＥヘベクトル
データＯｌ−１を転送し、これらのベクトルデータの転
送に同期してＩ１０バづからベクトルデータｒｊ（ｊ＝
ｔ＋２＋・・・・・Ｎ）を入力し、上記の演算式（１）
を実行しＤｌｊをめる。

■　比較演算ＴＲｍ　（５１−１，ｊ　＋ｗ（５ｉ−１
，ｊ−１’Ｓ１　、　ｊ−ｉ）　）を実行し、この結果
にＤＢを加算してＳｌｊをめる。

■　比較波セ朋（５ｉ−１，ｊ　、５ｉｊ）を実行して
その演算結果を右隣接のＰＥへ転送すると同時に・比較
演算結、未開（Ｓｌ、ｊ−ｘ・Ｓｉ＋１．ｊ−ｔ）を存
隣接のＰＥから入力する。

■は演算式（１）の実行に相当し、■、■は演算式（２
）　、　（３）の実行に相当する。各ＰＥは、■、■、
■のｊ−に同時に、すなわち■を行なうときには全ＰＥ
が■を、■を行なうときには全ＰＥが■を、というよう
に処理動作を行なう。

本動作と２次元配列構成の動作の根本的な差異は、式（
２）を・実行する場合のデータ転送動作にある。

の動作では・累積結果５ｉ−ｘ、ｊ−ｉを左隣接のＰＥ
へ転送してから比較演算ｍｍ　（Ｓ　１　、ｊ、−１＋
Ｓトエ、ｊ、、−１）を行なうのに対し、本動作では５
ｉ−ｔ’５ｊ−ｘは次の詩碑にめられるｓｌ、Ｊ−１と
同一のＰＥ内にあるためデータ転送は実行しなくても比
較演算が実行できる。′ 、なお、式（４）を実行する場合−は、各ＰＥにおいで
、「■　隣接するｐｗから累積結果を入力して、これに
そのＰＥ内で実行されるベクトル間距離の２倍の値を加
えて隣接するＰＥへ出力する」１回の入出力動作と［■
　隣接するＰＥから累積結果を入力し、ベクトル間距離
を加えて保持する」動作の２種類の簡単な動作を実行す
ることによシ、上述したと同様に規則的に累積結果をめ
ることができる。

以上説明したように、本発明によれば、ＰＥの個数は処
理対象となる各ベクトルデータの個数を表わす正整数Ｉ
　’１１　ｒ　Ｎｙに全く依存せず、予測されるデータ
処理量に応じズ適当な値に設定でき、ＰＥを規則的な処
理動作の繰シ返しでフル稼動してハードウェアを最大限
有効利用したパイプライン並列処理によシダイナミック
プログラミングに基づくマツチング演算を実行できる。

したがって、ＬＳＩで実現する場合は、従来の正整数工
。＋　Ｎ　ｙに依存してＰＫの個数を決定しなければな
らない２次元配列構成に比べて実装規模が非常に小さく
なるだけでなくハードウェアの有効利用を図ることがで
きる。また、”ＰＥの個数をいくつに設定しても任意の
ＮＶ　ｒ　１１１の個数をもつベクトルデータ列に対し
て処理を実行できるというＰＥ数の拡張性を有する。

次に、２次元配列構成と本構成との効率を、ＰＥの平均
稼動率を考慮したＰＥ　１個当シ・単位時間当シのスル
ープットで比較してみる。

２次元配列構成において前記の処理動作■、■と■、■
の２種類の処理単位のうち大きい方のステップ数をＵｓ
（ｌｕａｒｅ−、本構成の処理動作■、■。

■からなる処理単位のダイナミックステラグ数をＵｒｉ
ｎｇとする。２次元配列構成では、１組のベクトルデー
タに対するダイナミックプログラミングに基づくマツチ
ング演算を完了するには、■、■および■、■の２種類
の処理単位を交互に実行子る方法をとると２　Ｕ　８ｑ
ｕａｒｅ　ステップ必要である。

ここで対象としているダイナミックプログラミングに基
づくマツチング演算では、１つのベクトルデータ列Ｒに
対してＦＥＢが演算式（１）　、　（２）　、　（３）
を実行し累積結果Ｓｉｊをめてしまえば、ＰＨ１／ｊ７
（ｉ’＞ｉ　、ｉ’＞ｊ）　が上記演算式を実行してい
るときにはＰ）Ｃ１ｊはこのベクトルデータ列Ｒに対す
る処理を実行する必要性がない。そこで、あるベクトル
データ列Ｒｖに対して処理を実行している時に処理に寄
与していないＰＥを別のベクトルデータ列〜′に対する
処理に割シ当てることができる。りまル、第１番目のベ
クトルデータ列Ｒ１の累積結果８Ｂを計算しながら、２
Ｕｉｑｕａｒｅステツプの位相差をもって第２番目のベ
クトルデータ列幻に対しても累積結果Ｓｌｊの計算を実
行することができる。ベクトルデータ列Ｉｕとベクトル
データ列Ｒｖとの最終的な演算結果ＳＸｕ、　Ｎｙ　を
得るまでに、Ｓｉｊをめるために必要なダイナミックス
テップ数２Ｕｓ＋ｑｕａｒｅを単位として（Ｎｍａｘ＋
Ｉｍａｘ）ステップを要す・るので、この（Ｎｍａｘ十
Ｉｍａｘ　）ステップの時間内に（Ｎｍａｘ＋Ｉｍａｘ
　）　ａ類の最終累積結果Ｓ８　を得ることができる。

一方、不発ｕｌ”Ｖ明による構成においては、入力ベクトルデータ列ＣＩ、
（：ｚ、ｇｅｅｓｅ、Ｃｌ３（Ｏｎ個分のベクトルデー
タ列ごとに入力ベクトルデータ列Ｒ１１Ｒ２１・・・・
・、Ｒｔｒとの処理を繰９返しながら、最終累積結果Ｓ
ｘｕ、Ｎｖを得ることができる。

以上のようなプレイ全体での処理動作に基づいて、ベク
トルデータＣ１＋　Ｃ２１・・・・−ｅ　Ｃ１６とベク
トルデータ列Ｒ１ｒ　Ｒ２１・・１１　＠　＠　、　Ｒ
Ａ　、のすべての組合せに対して処理を実行する場合の
ＰＫの効率をめると、以下のようになる。

２次元配列構成の場合；ｔｒａｔｅ個の最終結果を得るには、２　Ｕ　５ｑｕａ
ｒｅを単位として（Ｎｍａｘ＋Ｉｍａｘ＋ｔｙ＠Ｌｃ）
ステップを必要とする。ＰＥ数はＮｍａｘ弓ｍａｘ個で
あるから、ＰＥの効率η８ｑは、本発明の場合；ｕｒｔｎｇ　を単位として、ｎ個分の人力ベクトルデー
タ列の入れ換え動作時の処理はｎステップ、入力ベクト
ルデータを循環転送しながら実行するトルデータ列Ｃ１
ｖ　Ｃ２＊・・・・・ｅ　ＣＬ　６を１つの入力ベクト
ルデータ列と考えて処理を実行することと等価なので、
ｔｒａｔｅ個の最終結果を得るには、ステップ必要であ
る。式（６）の第１項は循環転送時のステップ数、第２
項はデータ入れ換え時のステ数はｎ個であるから、ＰＥ
の効率ηｒｉｎｇは、ここで、Ｎｌ　、Ｎ２　＃・・・
・・ｔ　ＮＬｒの平均値を式（８）の第３項９分母拳分
子の１以外の項は、各構成での処理開始及び終了に対す
る効率にかかわるものである。したがって、処理実行中
におけるＰＥの効率の比は、１畦惺ユ艷！、上、μ囚■じ−（９） ηｓｑ　Ｎａｖ　Ｉａｖ　Ｕｒｉｎｇ同時に実行できる手段をもつとすると２ＵＳｑｕａｒｅ
さｔｒｒｉｎｇ％またＮｍａｘ　）　Ｎａｖ　ｙ　Ｉｍ
ａｘ　＞　ＩＢｖでおることより、本発明の構成は２次
元配列構成に対た、各ＰＥが入力−出力の動作を各処理
単位ごとに交互に実行する手段しかもたない場合には、
２Ｕｓｑｕａｒｅ　（Ｕｒｉｎｇでｓｂ、２次元配列構
成に対する本発明の効率比はさらに大きくなる。

２次元配列構成の場合は最低限（ＮｍａｘＸ　Ｉｍａｘ
）個のＰＥを配列・接続しなければならないため、その
実装規模が非常に大きくなるので、従来は、各ＰＫの入
出力をビットシリアルで実行する方法をとることにより
各ＰＫの規模をコンパクトにすることが行なわれていた
。しかし、ここで対象としているようなダイナミックプ
ログラミングに基づくマツチング演°算におけるデータ
は、（１）式に示すようにある次元数のデータ列を１つ
のデータとして取扱うベクトルデータであるので、ビッ
トシリアルでデータの入出力を実行すると、ＰＥ間での
転送ステップ数が非常に多くなシ、全体の演算に非常に
多くの時間を要する。これに対し、本構成ではＰＥの個
数を大幅に減少することができるので、ＰＥ間のデータ
転送をパラレル転送で実現しても実装規模に対する問題
を生じることがなく、ここで対象としているダイナミッ
クプログラミングに基づくマツチング演算のようなベク
トルデータに対する処理に適している。

以上、（１）　、　（２）　、　（３）式に示すダイナ
ミックプログラミング演算の場合を中心に説明したが、
本発明はこれに限定されるものではなく、前述したよう
に例えば（２）式が（４）式である場合、その他、２種
類の変数間のあら嗜る組合せに対する演算とその演算結
果を用いたデータの局所依存性をもつ漸化式の演算の実
行に同様に適用可能である。

〔発明の効果〕

以上説明したように、本発明によれば、それぞれ所定の
入出力手段および演算手段を備えた処理要素を、隣接す
る処理要素とのデータ授受を行なうためのデータ転送パ
スと外部入力パスとを切シ換えるマルチプレクサを介し
て環状に接続し、かつ全処理要素がそれぞれの処理結果
を隣接処理要素へ同時に転送する処理を、各処理要素に
おける通常の処理単位と並列に所定回実行することがで
。

きる構成とした仁とによ恰、ダイナミックプログラミン
グに基づくマツチング演算に代嚢される２種類の変数間
のあらゆる組合せに対する演算とその演算結果を用いた
データの局所依存性をもつ漸化式の演算を、対象とする
演算敗に応じた適正なｐｇ数から力るアレイ構成で、各
処理要素を有効に動作させ人から高効率の並列処理で実
現することができる。

、−゛

【図面の簡単な説明】

第１図は従来の２次元配列アレイプロセッサの構成例を
示す図、第２図（ａ）、、（ｂ）〜第５図（ａ）　、　
（ｂ）はその処理動作の一例を説明するための図、第６
図は本発明の一実施例を示す構成図、第７図は各処理要
素の構成例を示すブロック図、第８図は第６図の構成に
おける処理動作の一例を説明するための図、第９図は同
じく外部からのデータ入力と処理要素間でのデータ転送
の様子を説明するための図、第１０図は各処理要素の処
理動作の一例を説明するための図である。１．３１９・・・処理要素、２−１−２−ｎ”　１１　
ｊｌ囃マルチプレクサ、３１１・ｅ１１外部入力データ
バス、４，１１拳・・・外部Ｉ１０バス、５，３２０．
１１．データ転送パス、６，１２・０．・Ｉ１０端子、
？、８，３３，３４・拳・・入力ベクトルデータ、９・
・・・最終演算結果、１０・・・・コントロールユニッ
ト、１３．１４・・・・データ転送ハス端子、１５，１
６・Ｑ・・バッファレジスタ、１７．１８・・・・レジ
スタ、２Ｇ、２１・・・・バッフＪメモリ、２２・・・
・演算ユニット、２３・・−・ワークメモリ、２４・ψ
拳・制御ユニツ）、２６．２７・争拳争アドレス線、２
８・・・・カウンタ。特許出願人　日本電信電話公社代理人　山川　政樹第４図！＋２第５図 ↑＋３第７図第８図 ■ Ｃ１°　ｃ；　・−ｃ、Ｈ−ら；　Ｃ，２、、、（、ｕ
　、　・（品ｅ：ｚ；、−，，，，−７第９図菓１０図

Claims

【特許請求の範囲】

ｎ個の処理要素ＰＥを環状に配列し、各処理要素は、外
部からの２種類の入力データ列ｃ＝（ｃｌ）（１＝’ｌ
　、２．−−−−−、Ｉ）およびＲ＝（ｒｊ）　（ｊ＝
＝ｌ　、　２　、　＠＠＠＠・、Ｎ）　の各データ０１
．ｒｊを入力する手段と、２種類のデータ間の加減算、
比較演算および積和演算の各所望の演算を行ないその結
果を蓄える手段と、入力データＣ１（ｉ＝１，２゜・・
・・・、ｉ）および演算結果を隣接する処理要素との間
で送受する手段と、最終的な演算結果を外部に出力する
手段とを備えるとともに、各処理要素間は、外部からの
入力データＯ１をどの処理要素からでも入力できるよう
に隣接する処理要素とのデータ授受を行なうだめのデー
タ転送パスと外部入力パスとを切換えるマルチプレクサ
′を介して環状に接続され、かつ全処理要素がそれぞれ
の処理結果を隣接する処理要素へ同時に（ｍｏｄ　Ｎ　
）回転送する処理を各処理要素における処理単位と並列
に実行する手段を備えるとともに、これら各処理要素を
制御する手段を備えたことを特徴とするアレイプロセッ
サ。