JP3075543B2 - Scanning operation device in which propagation units for executing a scanning operation are arranged in a tree configuration - Google Patents

Scanning operation device in which propagation units for executing a scanning operation are arranged in a tree configuration

Info

Publication number
JP3075543B2
JP3075543B2 JP03285191A JP28519191A JP3075543B2 JP 3075543 B2 JP3075543 B2 JP 3075543B2 JP 03285191 A JP03285191 A JP 03285191A JP 28519191 A JP28519191 A JP 28519191A JP 3075543 B2 JP3075543 B2 JP 3075543B2
Authority
JP
Japan
Prior art keywords
propagation
unit
layer
array
scanning operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03285191A
Other languages
Japanese (ja)
Other versions
JPH0520285A (en
Inventor
利夫 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP03285191A priority Critical patent/JP3075543B2/en
Publication of JPH0520285A publication Critical patent/JPH0520285A/en
Application granted granted Critical
Publication of JP3075543B2 publication Critical patent/JP3075543B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、大規模なデータ配列a
1 ,a2 ,a3 …aM に対するa1 ,(a1Oa2 ),
(a1 Oa2 Oa3 )…,a1 Oa2 Oa3 O…O
M 、ここでOは連想演算子と呼ばれ、+,V,Λ,M
IN(最小値を求める),MAX(最大値を求める)等
の演算子を示す、なる計算を行う走査演算(連想演算、
prefix演算、伝搬演算とも呼ばれる)を実行する
伝搬ユニットがツリー構成で配列される走査演算装置に
関する。
The present invention relates to a large-scale data array a.
1, a 2, a 3 ... a 1 for a M, (a 1 Oa 2 ),
(A 1 Oa 2 Oa 3) ..., a 1 Oa 2 Oa 3 O ... O
a M , where O is called associative operator, +, V, Λ, M
A scanning operation (associative operation, such as associative operation,
The present invention relates to a scanning operation device in which propagation units for executing a prefix operation and a propagation operation are arranged in a tree configuration.

【0002】[0002]

【従来の技術】走査演算は基本的な並列演算の1つであ
り、この走査演算を高速化することによって、並列デー
タ処理装置における種々の処理の処理時間が短縮され
る。
2. Description of the Related Art A scanning operation is one of basic parallel operations. By increasing the speed of the scanning operation, the processing time of various processes in the parallel data processing device is reduced.

【0003】従来、走査演算の高速化方式としては、文
献[G.E.Blelloch,“Scans as
Primitive Parallel Operat
i−ons”Proc.Int.Conf.Paral
lel Process.,Aug.1987,pp.
355−362]に記載されるような2進ツリー状の階
層的結合構成の演算ユニットの配列で行う方法が公知に
されている。
Conventionally, as a method for speeding up a scanning operation, reference [G. E. FIG. Bellaloc, "Scans as
Primitive Parallel Operat
i-ons "Proc.Int.Conf.Paral
ll Process. , Aug. 1987, pp.
355-362], a method has been known in which the processing is performed using an array of arithmetic units having a hierarchically connected hierarchical tree configuration.

【0004】Blellochのツリー構成走査演算装
置は、図29,図30に示すように、1個(あるいは2
個)の算術論理ユニットALUとmビットのメモリから
なる演算ユニット1の2進のツリー状の結合で構成され
ており、 1)下層からの2つの入力の間で所定の連想演算を行な
い、演算結果を上層に出力するとともに、左下の演算ユ
ニットからの入力を自身のメモリに格納すること[図で
は演算ユニットを示す箱の中の数値で表している]を下
層から上層に向かって順次行なう処理(アップスイー
プ)(図29)と、2)アップスイープで得たメモリの
保持データから右下の演算ユニット1のオフセットを求
めていくことを順次下層に向かって行なう処理(ダウン
スイープ)(図30)との2つの処理により、最下層の
演算ユニット1から走査演算結果を出力する。図29,
図30から明らかなように、演算ユニット1の階層がl
og2 M段からなることから、1層ごとの演算に1ステ
ップを要するとすれば、アップスイープ、ダウンスイー
プの両方に要する2log2 Mステップで配列全体の走
査演算を実行できる。ここで、演算ユニット1のオフセ
ットとは、その演算ユニット1がカバーする走査演算領
域の直前までの走査演算結果である。従って、オフセッ
トと演算ユニット1の局所的な走査演算結果を合わせる
ことで、その地点での走査演算結果が得られることにな
る。
As shown in FIGS. 29 and 30, one (or two)
) Arithmetic and logic unit ALU and a binary tree-like combination of an arithmetic unit 1 comprising an m-bit memory, 1) performing a predetermined associative operation between two inputs from the lower layer, Outputting the result to the upper layer and storing the input from the lower left arithmetic unit in its own memory (represented by the numerical value in the box indicating the arithmetic unit in the figure) in order from the lower layer to the upper layer (Up-sweep) (FIG. 29) and 2) a process of sequentially obtaining the offset of the lower right arithmetic unit 1 from the data held in the memory obtained by the up-sweep toward the lower layer (down-sweep) (FIG. 30) ), The scanning operation result is output from the lowermost operation unit 1. FIG.
As is clear from FIG. 30, the hierarchy of the arithmetic unit 1 is l
Since it is composed of og 2 M stages, if one operation is required for each layer, scanning operation of the entire array can be executed in 2 log 2 M steps required for both up sweep and down sweep. Here, the offset of the operation unit 1 is a scan operation result immediately before the scan operation area covered by the operation unit 1. Therefore, by combining the offset and the local scan operation result of the operation unit 1, the scan operation result at that point can be obtained.

【0005】この方式では、アップスイープ、ダウンス
イープのそれぞれに専用のALUを設けるとともに、階
層間にレジスタを設けることで処理をパイプライン化す
ることで等価的に所要ステップ数を1にまで低減でき
る。しかし、走査演算を繰り返し行なわない一般的な処
理では、実効的にパイプラインの潜伏期間2log2
分のステップ数がかかることになる。これは、所要ステ
ップ数を潜伏期間より極端に小さくしても、高速化に対
する寄与は小さいことを意味している。
In this method, a dedicated ALU is provided for each of the up-sweep and the down-sweep, and a register is provided between hierarchies to pipeline the processing so that the required number of steps can be reduced to one equivalently. . However, in a general process in which the scanning operation is not repeated, the latency period of the pipeline is 2 log 2 M effectively.
It will take minutes of steps. This means that even if the required number of steps is extremely smaller than the incubation period, the contribution to speeding up is small.

【0006】そこで、Blellochは、所要ステッ
プ数が被走査配列データの語長まで大きくなるもののハ
ードウェア規模の低減が可能なビットパイプライニング
(走査演算を被走査配列データの最下位桁から順次ビッ
ト単位に行なう)手法をこの文献1で合わせて提案して
いる。しかし、この方法でも、1)画像のような短語長
の配列データを扱う場合には、やはり潜伏期間が無視で
きなくなる。2)ALUのビット幅は、1ビットにまで
狭められるものの、連想演算結果を格納するための演算
ユニットごとのメモリ容量は低減できず、演算ユニット
のハードウェア規模が十分低減されない,等の問題があ
る。
In order to solve this problem, Bellaloc uses bit pipe lining (scanning operation is performed sequentially from the least significant digit of the scanned array data in bit units), although the required number of steps is increased to the word length of the scanned array data. This method is also proposed in this document 1. However, even with this method, 1) when handling array data having a short word length such as an image, the latency period cannot be ignored. 2) Although the bit width of the ALU is reduced to 1 bit, the memory capacity of each arithmetic unit for storing the associative operation result cannot be reduced, and the hardware scale of the arithmetic unit is not sufficiently reduced. is there.

【0007】これに対し、パイプライン処理の問題を回
避する方式として走査演算をN(logN M)のオーダ
の遅延段数で実行する(1段当りの遅延時間を数ns以下
とすることが可能で、パイプラインを用いなくともMが
数百程度の走査演算を数百ns以下、すなわち数クロック
サイクル以下で実行する)ツリー構成走査演算装置(発
明者の論文“LSI化に適したツリー構成走査演算機
構”電子情報通信学会論文誌C−II Vol.J74−
C−II No.5 pp.388−397 1991年5
月に開示されている。)がある。
On the other hand, as a method for avoiding the problem of the pipeline processing, the scanning operation is executed with the number of delay stages of the order of N (log NM ) (the delay time per stage can be reduced to several ns or less). A scan operation device having a tree structure suitable for M LSI is executed without using a pipeline, in which M performs several hundred scan operations in several hundred ns or less, that is, several clock cycles or less. Arithmetic mechanism, IEICE Transactions C-II Vol.
C-II No. 5 pp. 388-397 May 1991
The month has been disclosed. ).

【0008】図31に、本出願人の論文に記載のこの方
式の走査演算を実行する伝搬ユニットがツリー構成であ
る走査演算装置と、プロセシングエレメント配列(P
E)とを組み合わせて構成した並列データ処理装置を示
す。
FIG. 31 shows a scanning operation device in which a propagation unit for executing this type of scanning operation described in the paper of the present applicant has a tree structure, and a processing element array (P).
E) shows a parallel data processing device configured in combination with E).

【0009】この装置は、複数の伝搬ユニット(PO
U)10aがツリー状に階層的に結合した後、最下層の
伝搬ユニット配列をそれぞれプロセシングエレメント
(PE)配列60に接続して構成している。
This device comprises a plurality of propagation units (PO
After the U) 10a are hierarchically connected in a tree shape, the lowermost-layer propagation unit arrangement is connected to the processing element (PE) arrangement 60, respectively.

【0010】伝搬ユニット10aは、図32に示すよう
に、N−1個の伝搬エレメント30aの縦続接続からな
り、各伝搬エレメント30aの間の伝搬的な演算によ
り、局所領域(走査対象配列のN個の縦続する要素から
なるサブ配列)ごとの走査演算を行なうN進構成をとっ
ている。
As shown in FIG. 32, the propagation unit 10a comprises a cascade connection of N-1 propagation elements 30a, and a local area (N of the array to be scanned) is obtained by a propagation operation between the propagation elements 30a. It has an N-ary configuration in which a scanning operation is performed for each of a plurality of cascaded elements (sub-arrays).

【0011】伝搬エレメント30aは、図33に示すよ
うに構成され、走査演算用のALU32a,33a、伝
搬開始点制御のためのANDゲート31、セレクタ(S
EL)34,35等からなる。ここでFLi は、走査領
域が分断される場合の伝搬開始点であることを示す伝搬
開始点属性データであり、DIi は被走査データであ
る。fdi は直下のユニットに出力する走査演算結果の
オフセットである。伝搬開始点属性データFLi と被走
査演算データDIi は、直下のユニットあるいはプロセ
シングエレメント(PE)配列(図31の参照番号6
0)から入力される。
The propagation element 30a is configured as shown in FIG. 33, and includes ALUs 32a and 33a for scanning operation, an AND gate 31 for controlling a propagation start point, and a selector (S).
EL) 34, 35, etc. Here, FL i is propagation start point attribute data indicating that it is a propagation start point when the scanning area is divided, and DI i is data to be scanned. fd i is the offset of the scanning operation result to be output to the unit immediately below. The propagation start point attribute data FL i and the scanned operation data DI i are stored in a unit or processing element (PE) array immediately below (reference numeral 6 in FIG. 31).
0).

【0012】図33に示すCDi ,fui は、伝搬エレ
メント30a間を伝搬開始点属性データの論理和および
走査演算の途中結果である。
CD i and fu i shown in FIG. 33 are the results of the logical sum of the attribute data of the propagation starting point and the scanning operation between the propagation elements 30a.

【0013】また、DUIは直上の伝搬ユニット10a
から受け取るオフセットである。
[0013] The DUI is directly above the propagation unit 10a.
Offset received from

【0014】伝搬ユニット10aのツリー状の結合構成
及び伝搬エレメント30aの構成から明らかなように、
最下層の各伝搬ユニット10aは、被走査演算配列デー
タに対しそれがカバーする局所領域の被走査データDI
i について、伝搬エレメント30aのALU32aとセ
レクタ34の連なりで伝搬的に走査演算を実行し、結果
のCDN ,fuN を、下から2層目の伝搬ユニット10
aに対する始点属性データFLi 、被走査データDIi
として出力する。ここで下層からの始点属性データFL
i が活性を示す(この構成では“0”)の場合(被走査
データDIiが伝搬開始点のデータであることを意味す
る)には、セレクタ34を制御することで、前段からの
結果の伝搬を中断し、新たに、その伝搬エレメントを伝
搬の開始点とする。
As is apparent from the tree-like coupling configuration of the propagation unit 10a and the configuration of the propagation element 30a,
Each of the lowermost propagation units 10a transmits the scanned data DI in the local area covered by the scanned operation array data.
For i , the scanning operation is performed in a propagating manner in a series of the ALU 32a of the propagation element 30a and the selector 34, and the resulting CD N and fu N are transferred to the propagation unit 10
a, the start point attribute data FL i and the scanned data DI i
Output as Here, the starting point attribute data FL from the lower layer
When i indicates active (“0” in this configuration) (meaning that the scanned data DI i is the data of the propagation start point), the selector 34 is controlled to obtain the result from the preceding stage. The propagation is interrupted, and the propagation element is newly set as the propagation start point.

【0015】次の2段目以降も同様にして、CDN ,f
N を求めて、上位の伝搬ユニット10aに対する伝搬
開始点属性データFLi 、被走査データDIi として出
力する。
Similarly, in the second and subsequent stages, CD N , f
u N is obtained and output as propagation start point attribute data FL i and scanned data DI i for the higher-order propagation unit 10a.

【0016】その結果、最上層の伝搬ユニット10aに
は、局所領域の走査演算結果が累積される。一方、最上
層に対する被走査データDUIとして、“0”を与えれ
ば、伝搬エレメント30aのALU33a、セレクタ3
5、ANDゲート31の構成から、fdi からは、直下
の伝搬ユニット10aに対するオフセットが出力され
る。前述した直下の伝搬ユニット10aは、受け取った
オフセットから、そのさらに下層のオフセットを算出し
て出力するので、最下層の伝搬ユニットのfdi の端子
には、オフセットとして端子の直前までの配列データに
対する走査演算結果が得られることになる。
As a result, the scanning operation results of the local area are accumulated in the propagation unit 10a of the uppermost layer. On the other hand, if “0” is given as the scanned data DUI for the uppermost layer, the ALU 33a of the propagation element 30a and the selector 3
5, the configuration of the AND gate 31, from fd i, offset with respect to the propagation unit 10a immediately below is output. Propagation unit 10a immediately below that described above, from the received offset, so calculates and outputs the offset of the further lower layer, the terminals of fd i propagation units the lowermost, with respect to sequence data immediately before the terminal as an offset A scanning operation result is obtained.

【0017】なお、途中の最上層以外の伝搬ユニット1
0aでは、伝搬開始点属性データFLi が“0”の場合
は、それ以降では、上層からのオフセットが無視される
ようにして、走査演算が伝搬開始点から新たに始まるよ
うにしている。
The propagation units 1 other than the uppermost layer on the way
In 0a, if the propagation starting point attribute data FL i is "0", the later, as the offset from the upper layer is ignored, the scanning operation is to begin a new from the propagation starting point.

【0018】この構成では、ツリー状の階層で走査演算
を行うので、経由の必要な演算器の層数が、オーダー
(NlogN M)程度と小さくなる。但し、前記Mは被
走査配列データの配列サイズを表わす。
[0018] In this configuration, since the scanning operations in a tree-like hierarchy, the number of layers of the required computing unit via is reduced an order (Nlog N M) degree. Here, M represents the array size of the array data to be scanned.

【0019】この経由層数は、伝搬ユニット10aの伝
搬演算系にセレクティブ伝搬方式を導入することで、等
価的にさらに短くすることができる(本件発明者による
特開昭63−193232号公報“並列データ処理装
置”に開示されている。)。このセレクティブ伝搬方式
とは、前段からの入力が確定する前に、入力の信号値の
組み合わせのすべてに対する伝搬演算を先行して行って
おき、入力が確定した時点では、その先行演算結果を選
択するだけで伝搬を実現する方法である。しかし、前述
した各伝搬ユニット毎に適用されるセレクティブ伝搬方
式では、伝搬を1ビットの信号に限定しても入力の組み
合わせの数は2通りあり、その組み合せの数だけの伝搬
演算系を並列に設ける必要がある。従って、演算器やセ
レクタの数がセレクティブ伝搬を利用しない場合の少な
くとも2倍必要になる。更に伝搬エレメントの構成も複
雑になる。
The number of transit layers can be equivalently further reduced by introducing a selective propagation method into the propagation operation system of the propagation unit 10a (see Japanese Patent Application Laid-Open No. 63-193232 by the present inventor). Data processing device "). In the selective propagation method, before the input from the preceding stage is determined, the propagation operation for all combinations of the signal values of the input is performed in advance, and when the input is determined, the preceding calculation result is selected. This is a method of realizing propagation only. However, in the above-described selective propagation method applied to each propagation unit, even if propagation is limited to 1-bit signals, the number of input combinations is two, and propagation arithmetic systems of the number of combinations are provided in parallel. Must be provided. Therefore, the number of arithmetic units and selectors is required to be at least twice that in the case where selective propagation is not used. Further, the configuration of the propagation element becomes complicated.

【0020】上述したように、従来のツリー形の走査演
算装置は、走査対象配列のサイズが大きい場合、パイプ
ライン化しても、多階層のツリーを経由する際の、潜伏
期間が長く、並列度に見合った走査演算性能が得られな
い。
As described above, in the conventional tree-type scanning operation device, when the size of the array to be scanned is large, the latency period when passing through a multi-level tree is long even when pipelined, and the degree of parallelism is high. Cannot obtain the scanning operation performance corresponding to the above.

【0021】ツリーを構成する各ユニットに、演算器、
メモリ、パイプラインレジスタ等を組み込まねばなら
ず、プロセッサ部と同程度のハードウェア量を必要とす
る。
An arithmetic unit,
A memory, a pipeline register, and the like must be incorporated, and the same amount of hardware as the processor unit is required.

【0022】任意の位置での走査の始点設定機能(配列
の局所領域ごとで並列に走査演算を行なうのに必要)を
実現するには、さらに各伝搬ユニットに始点設定制御論
理を付加する必要がある。などの問題が未解決であっ
た。
In order to realize the function of setting the starting point of scanning at an arbitrary position (necessary for performing the scanning operation in parallel for each local region of the array), it is necessary to add a starting point setting control logic to each propagation unit. is there. And other issues were unresolved.

【0023】又、2つのデータ間の加速を高速に行なう
ための本発明の類似の技術として従来特開平1−300
337や先行演算結果を選択することで高速化を計る原
理を採用する、例えば文献“Carry−select
Adder”,IRE TRANSACTIONS
ON ELECTRONIC COMPUTERS,J
une 頁340 to 344、に開示されているも
のがある。その構成は、本発明の走査演算装置に類似し
ているが、以下の点で異なる。即ち、 1)高速化とハードウェア規模の低減の両立のために、
桁上げ特有の性質も利用しており、本発明のようなオフ
セットで2入力セレクタを制御する規則的なツリー構成
は、従来とられていない。
As a similar technique of the present invention for performing high-speed acceleration between two data, Japanese Patent Laid-Open Publication No.
337 or a principle of speeding up by selecting a preceding operation result, for example, the document “Carry-select”
Adder ", IRE TRANSACTIONS
ON ELECTRONIC COMPUTERS, J
Une, page 340 to 344. The configuration is similar to the scanning operation device of the present invention, but differs in the following points. In other words: 1) To achieve both high speed and reduced hardware scale,
A characteristic characteristic of carry is also used, and a regular tree structure for controlling a two-input selector with an offset as in the present invention has not been conventionally taken.

【0024】2)本発明が配列を構成する多数の要素デ
ータの各ビットごとの走査演算を対象としているのに対
し、桁上げ選択加算器では、基本的に2個のデータの間
の加算を対象としている。
2) While the present invention is directed to a scanning operation for each bit of a large number of element data constituting an array, a carry select adder basically performs addition between two data. It is targeted.

【0025】ただし、1)については、若干ツリーの対
称性は低くなるものの、本発明同様、セレクタのみで構
成したツリーを利用した加算器が提案されている。しか
し、アップスイープのみで加算を実現する方式であり、
より高速化できる可能性はあるが、ツリーの規則性が低
い、語長の2乗に比例してハードウェア規模が増大する
等の欠点がある。
As for 1), although the symmetry of the tree is slightly lowered, an adder using a tree composed only of selectors has been proposed as in the present invention. However, it is a method that realizes addition only with up sweep,
Although there is a possibility that the speed can be further increased, there are disadvantages such as low tree regularity and an increase in hardware scale in proportion to the square of the word length.

【0026】[0026]

【発明が解決しようとする課題】この発明は、上述の問
題点を解決し、高い走査演算性能を有し、且つハードウ
ェア規模を実効的に低減できる走査演算を実行する伝搬
ユニットがツリー構成で配列される走査演算装置を提供
することを目的とする。
SUMMARY OF THE INVENTION The present invention solves the above-mentioned problems, and has a tree structure in which a propagation unit having a high scanning operation performance and executing a scanning operation capable of effectively reducing the scale of hardware is implemented. It is an object of the present invention to provide an arrayed scanning operation device.

【0027】[0027]

【課題を解決するための手段】上記課題を解決するた
め、この発明は、層ごとにグループに分けられて、配列
される伝搬ユニットと、前記伝搬ユニットが各グループ
毎に対応して1個づつに接続される1階層上の層に属す
る伝搬ユニットと、順次ツリー状の階層的結合構成を持
つ伝搬ユニット配列において、前記伝搬ユニット配列に
おける各伝搬ユニットは、縦続接続される少なくとも1
個の伝搬エレメントを有し、この縦続接続されたi番目
の前記伝搬エレメントEi は、隣接する前記伝搬エレメ
ントEi-1 からの入力信号LAi-1 ,LBi-1 を夫々制
御信号として受け、1階層下の層からの入力信号D
i ,DBi を選択して、出力信号LAi ,LBi を夫
々出力する第1及び第2の選択手段SLA,SLBと;
前記i番目の伝搬エレメントEi を含む伝搬ユニットに
接続される1階層上の層の伝搬ユニットからの入力信号
j を制御信号として受け、前記隣接する伝搬エレメン
トEi-1 からの入力信号LAi-1 ,LBi-1 を夫々選択
し、その結果をオフセットとして1階層下の層の伝搬ユ
ニットに出力信号Ui を出力する第3の選択手段SLD
と;より成り、縦続接続された最終番目の伝搬エレメン
トは、出力信号LAp ,LBp を夫々、1階層上の層の
伝搬ユニットに対する入力信号DAj ,DBj として出
力する構成の伝搬ユニット配列を、前記伝搬ユニット配
列の最下層に属する伝搬ユニットに接続され、複数の演
算ユニットの並びより成り、その第l番目の演算ユニッ
トが0Oa1 Oa2 O…Oar 、1Oa1 Oa2 O…O
r を夫々出力信号DAl ,DBl として前記伝搬ユニ
ット配列の最下層に属する対応する伝搬ユニットに出力
する演算手段、ここでiは2以上の整数であり、j,
l,rは夫々1以上の整数であり、Oは任意の演算子で
あり、a1 ,a2 ,a3 …ar の並びは、前記演算手段
の並びのl番目の演算ユニットが、被走査配列の分担す
る領域の要素の並びを示す、と;より成る走査演算装置
を提供する。
In order to solve the above-mentioned problems, the present invention is directed to a transmission unit which is divided into groups for each layer and arranged, and the transmission units are provided one by one corresponding to each group. And a propagation unit array having a hierarchically-connected hierarchical structure in a tree structure, wherein each propagation unit in the propagation unit array is connected to at least one cascaded unit.
The ith cascaded propagation element E i has input signals LA i-1 and LB i-1 from adjacent propagation elements E i-1 as control signals. Receiving the input signal D from one layer below
First and second selecting means SLA and SLB for selecting A i and DB i and outputting output signals LA i and LB i respectively;
Receiving an input signal U j from propagation unit layer on one level to be connected to a transmission unit including the i-th propagation element E i as the control signal, the input signal LA from the propagation elements E i-1 to the adjacent i-1, LB i-1 respectively selected, a third selection means SLD for outputting an output signal U i to the propagation unit layer of the lower layer of the result as an offset
And the last cascade-connected propagation element is configured to output the output signals LA p and LB p as the input signals DA j and DB j for the propagation unit in the layer one level higher, respectively. and connected to said propagation units belonging to the lowest layer of the propagation unit sequence consists of a sequence of a plurality of arithmetic units, the first l-th arithmetic unit 0Oa 1 Oa 2 O ... Oa r , 1Oa 1 Oa 2 O ... O
Arithmetic means for outputting a r as output signals DA l and DB l to the corresponding propagation units belonging to the lowest layer of the propagation unit array, where i is an integer of 2 or more;
l, r is each an integer of 1 or more, O is an arbitrary operator sequence of a 1, a 2, a 3 ... a r are aligned in the l-th computing unit of the computing means, the A row of elements of a region shared by the scanning array.

【0028】[0028]

【作用】本発明は、規則的なツリー状に結合され、順
次、階層的に走査演算を行う伝搬ユニット配列の各伝搬
ユニットは、2入力セレクタ3個より成る伝搬エレメン
トを縦続接続し、夫々の伝搬エレメントに下層より入力
される信号を、その先頭の伝搬エレメントから、最後尾
の伝搬エレメントまで順次、伝搬的に機能することで配
列データを高速で走査演算する。
According to the present invention, each propagation unit of a propagation unit array which is connected in a regular tree and performs a scanning operation sequentially and hierarchically has cascade-connected propagation elements consisting of three 2-input selectors. The signal input from the lower layer to the propagation element is sequentially and progressively operated from the first propagation element to the last propagation element, thereby performing high-speed scanning operation on the array data.

【0029】[0029]

【実施例】以下、本発明の実施例を詳細に説明する。図
1は、本発明の第1の実施例としてツリー形伝搬ユニッ
ト配列25とインタフェースエレメント配列50からな
るツリー構成走査演算装置を組み込んだSIMD形の並
列データ処理装置の構成を示している。この並列データ
処理装置は、伝搬ユニット(POU)10が、ツリー状
に結合されて構成される伝搬ユニット配列が、その最下
層のそれぞれの伝搬ユニット10を介して、インタフェ
ースエレメント(IE)配列50に接続され、そしてそ
のIE配列50が、プロセシングエレメント(PE)配
列60に接続され、さらにIE配列50とそのPE配列
60が制御部70に接続されて構成される。装置全体
は、該制御部70によって制御される。
Embodiments of the present invention will be described below in detail. FIG. 1 shows the configuration of a SIMD-type parallel data processing device incorporating a tree-structured scanning operation device comprising a tree-type propagation unit array 25 and an interface element array 50 as a first embodiment of the present invention. In this parallel data processing device, a propagation unit array configured by connecting propagation units (POUs) 10 in a tree shape is connected to an interface element (IE) array 50 via each propagation unit 10 in the lowest layer. The IE array 50 is connected to the processing element (PE) array 60, and the IE array 50 and the PE array 60 are connected to the control unit 70. The entire apparatus is controlled by the control unit 70.

【0030】図2は、伝搬ユニット(POU)10の詳
細な構成を示した図である。ここで、伝搬エレメントE
i 30は、制御部信号入力が0の場合にはA側入力を、
1の場合にはB側入力を選択するセレクタ41A(SL
A)、セレクタ41B(SLB)、セレクタ41D(S
ED)の3つの2入力セレクタで構成される。
FIG. 2 is a diagram showing a detailed configuration of the propagation unit (POU) 10. Here, the propagation element E
i 30 is an A-side input when the control unit signal input is 0,
In the case of 1, the selector 41A (SL
A), selector 41B (SLB), selector 41D (S
ED).

【0031】この伝搬エレメント30には、上層の伝搬
ユニットから信号U、下層のユニットから信号DAi
DBi が入力される。また、該伝搬エレメント30から
は、上層の伝搬ユニットへの信号DAj ,DBj を、下
層の伝搬ユニットへの出力信号Ui をそれぞれ出力す
る。
The propagation element 30 includes a signal U from an upper layer propagation unit and a signal DA i ,
DB i is input. The propagation element 30 outputs signals DA j and DB j to an upper layer propagation unit and an output signal U i to a lower layer propagation unit.

【0032】そして、図3は、論理和、論理積、コピー
等の走査演算に利用できる基本的なインタフェースエレ
メント(IE20)の構成を示し、同一構成の2個のA
LU32とセレクタ41Dとで構成されている。2個の
ALUは、それぞれ要素プロセッサから供給されるDI
と“0”および“1”との間で制御部70により指定さ
れる連想演算を行ない結果を、それぞれDA,DBとし
て出力する。また、セレクタ41DはこのIEに対する
オフセットよりALU出力を選択し、この地点での走査
演算結果を確定する。
FIG. 3 shows the configuration of a basic interface element (IE20) that can be used for scanning operations such as logical sum, logical product, and copy.
It is composed of an LU 32 and a selector 41D. Each of the two ALUs has a DI supplied from an element processor.
The associative operation designated by the control unit 70 is performed between the data and "0" and "1", and the results are output as DA and DB, respectively. Further, the selector 41D selects the ALU output from the offset with respect to the IE, and determines the scanning operation result at this point.

【0033】次に前述した構成のツリー構成演算装置の
動作について具体的に説明する。
Next, the operation of the tree configuration arithmetic device having the above-described configuration will be specifically described.

【0034】まず、図1で下層から上層に向かう演算動
作(アップスイープ)から順に説明する。PE配列60
からは、従来例と同様に、被走査演算データDIが、イ
ンタフェースエレメントIE配列50に入力される。そ
の入力に対して、各インタフェースエレメントでは、図
3に示すように前段から“0”が伝搬してくる場合と
“1”が伝搬してくる場合の両方について、制御部70
により指定される連想演算を行い、その結果をDA,D
Bとして上層の伝搬ユニット(POU)10に送出す
る。
First, the arithmetic operation (up sweep) from the lower layer to the upper layer will be described in order from FIG. PE array 60
Thereafter, as in the conventional example, the scanned operation data DI is input to the interface element IE array 50. In response to the input, in each interface element, as shown in FIG. 3, the control unit 70 controls both the case where "0" propagates from the previous stage and the case where "1" propagates.
Performs an associative operation specified by
B is transmitted to the upper layer propagation unit (POU) 10.

【0035】上層の各伝搬ユニット(POU)10は、
図2に示すように、前段の伝搬ユニット(POU)10
からの伝搬データ(オフセットが0と1の両方の場合に
ついて、下層から上がってくる演算結果のDA,DBの
いずれが真であるかを、セレクタ41A,41Bの選択
によって伝搬エレメント間で順次伝搬させることで確定
し、その結果得られる左右端の伝搬エレメントEN 30
のSLA,SLB出力をもう一層上層の伝搬ユニット
(POU)10へ演算結果DA,DBとして送出する。
Each of the upper propagation units (POU) 10
As shown in FIG. 2, the propagation unit (POU) 10
(In the case where the offset is both 0 and 1, which of DA and DB of the operation result rising from the lower layer is true is sequentially propagated between the propagation elements by selecting the selectors 41A and 41B. And the resulting propagation elements E N 30 at the left and right ends
Are output to the propagation unit (POU) 10 in the upper layer as operation results DA and DB.

【0036】従って、ツリーを構成する各伝搬ユニット
(POU)10の出力信号DA,DBは、下層から上層
に向かって確定し、各階層の各伝搬ユニット(POU)
において、“0”、“1”の両方のオフセットに対する
伝搬結果が順次得られる。以上のアップスイープによ
り、このツリーの最上層までDA,DBが確定すると、
今度は上層から下層に向かう演算動作(ダウンスイー
プ)が意味を持つようになる。
Therefore, the output signals DA and DB of each propagation unit (POU) 10 forming the tree are determined from the lower layer to the upper layer, and each propagation unit (POU) of each layer is determined.
In, the propagation results for both the offsets “0” and “1” are sequentially obtained. When DA and DB are determined up to the top layer of this tree by the above upsweep,
This time, the operation operation (down sweep) from the upper layer to the lower layer becomes meaningful.

【0037】最上層の伝搬ユニット(POU)10への
上からの入力Ui 、すなわち、このツリー全体に対する
オフセットには、演算内容に応じた論理値(加算・論理
和等では、“0”、論理積等では“1”)を図2に示す
ようにあらかじめ加えられるので、各伝搬エレメントE
i は、図2から明らかなように、アップスイープで確定
している前段の伝搬エレメントの2つの出力信号のいず
れかを、セレクタ41Dによって選択し、下層の伝搬ユ
ニット(POU)10の真のオフセットUi として下層
に出力する。各伝搬ユニット(POU)10の伝搬エレ
メントEi 30は、上層から送出された真のオフセット
i と、先に下層から上層に向かう時の演算処理で確定
している伝搬エレメントEi の出力信号から、順次、下
層の伝搬ユニット(POU)10の真のオフセットUi
を演算して下層に向かって出力するので、結局、各IE
の被走査データ出力fdとして、最終的な走査演算結果
が得られる(図3,図4,図5及び図6)。
The input U i from above to the propagation unit (POU) 10 in the uppermost layer, that is, the offset with respect to the entire tree, has a logical value (“0” in addition, logical sum, etc.) In a logical product or the like, "1") is added in advance as shown in FIG.
As can be seen from FIG. 2, i is one of the two output signals of the preceding propagation element determined by the up-sweep, which is selected by the selector 41D, and the true offset of the propagation unit (POU) 10 in the lower layer. U i is output to the lower layer. The propagation element E i 30 of each propagation unit (POU) 10 includes a true offset U i transmitted from the upper layer and an output signal of the propagation element E i that has been previously determined by the arithmetic processing when going from the lower layer to the upper layer. , Sequentially, the true offset U i of the lower layer propagation unit (POU) 10
Is calculated and output toward the lower layer.
The final scanning operation result is obtained as the scanned data output fd (FIGS. 3, 4, 5, and 6).

【0038】ところで、図1のツリー全体に対するオフ
セットが、演算内容に応じて、“0”、“1”のいずれ
かがあらかじめ与えられるのは、走査演算を、上述した
第1の実施例の本発明の走査演算装置を組み込んだ並列
データ処理装置を単独で実行することを前提としてお
り、直前までの走査演算領域が存在しないからである。
これに対し、後述する実施例における本発明の走査演算
装置は、より大きな走査演算装置に部分ツリーとして組
み込むことが可能で(実際、以降で説明する本発明の第
3および第4の実施例は、本発明の第1あるいは第2の
実施例をツリーの一部に組み込んだ走査演算装置といえ
る。また、この場合、走査演算装置全体では第1及び第
2の実施例のような規則的なツリー構成にならない場合
もある。)、このような場合には、当然直前までの走査
演算領域が存在することとなり、その走査演算結果をオ
フセットとして与えなければならない。
The reason why the offset for the entire tree in FIG. 1 is given in advance as either “0” or “1” in accordance with the content of the operation is that the scan operation is performed in accordance with the present embodiment of the first embodiment. This is because it is assumed that the parallel data processing device incorporating the scan operation device of the present invention is executed independently, and there is no scan operation region immediately before.
On the other hand, the scan operation device of the present invention in an embodiment to be described later can be incorporated as a partial tree in a larger scan operation device (in fact, the third and fourth embodiments of the present invention described below It can be said that this is a scanning operation device in which the first or second embodiment of the present invention is incorporated in a part of a tree, and in this case, the entire scanning operation device has a regular structure as in the first and second embodiments. In such a case, a tree structure may not be obtained.) In such a case, the scan operation area immediately before exists, and the scan operation result must be given as an offset.

【0039】図7は、図2の冗長部分を削除した伝搬ユ
ニット(POU)10の構成を示している。図2の構成
との違いは、動作原理説明用に入れていた先頭の伝搬エ
レメントEi を、単なる結線に置換していることであ
る。この結線は、伝搬エレメントEi に対する前段から
の入力信号が“0”、“1”の定数であり、セレクタS
LA41A,SLB41B,SLD41Dの選択機能が
片側に固定されることから容易に導かれる。
FIG. 7 shows a configuration of the propagation unit (POU) 10 in which the redundant part of FIG. 2 is deleted. The difference from the configuration of Figure 2, the propagation elements E i of the head that was placed for operation principle described is that it is replaced by a mere connection. This connection is, the input signal from the preceding stage with respect to the propagation element E i is "0", a constant "1", the selector S
Since the selection function of LA41A, SLB41B, and SLD41D is fixed to one side, it is easily derived.

【0040】ここで、走査演算の内容を、演算子が論理
和、加算の場合について、さらに詳細に説明する。ただ
し、図29,図30の従来例と対比できるように、走査
演算装置は、図5の2進の伝搬ユニット(POU)1
0′を用いて図9に示すツリー構成を採っている。はじ
めに、論理和の走査演算について説明する。この演算で
は、各桁を独立に実行できるので、1桁だけの走査演算
が実行できることを示せば十分である。そこで、出力D
Iとして、PE配列61からIE配列51に与えられる
1ビット長のデータ配列{0,0,1,0,1,0,
1,1}に対する左から右方向に向かう論理和の走査演
算を例に説明する。この場合、インタフェースエレメン
トIEとしては、図3のものをそのまま用い、ALUの
機能は制御部70(図9では省略している)の指定によ
り論理和に設定する。以上の条件と、各2入力セレクタ
が制御信号が0でA側入力を、制御信号が1でB側入力
を選択するように動作することを前提に、インタフェー
スエレメントIE51、伝搬ユニット(POU)10′
の入出力信号を順次求めていくと、アップスイープとダ
ウンスイープについて、図10及び図11に示す表が得
られる。アップスイープの出力DIとダウンスイープの
出力fdを見比べれば、論理和の走査演算が実現されて
いることがわかる。ここで、ダウンスイープにおける最
上段の伝搬ユニットPOUへの上方からの入力Uとして
は、図9のツリー全体に対するオフセットであるが、こ
の場合には、図9のツリーがカバーする領域以外の走査
は考えていないので、0を入力している。
Here, the contents of the scanning operation will be described in more detail in the case where the operator is OR or addition. However, as can be compared with the conventional example shown in FIGS. 29 and 30, the scanning operation device is a binary propagation unit (POU) 1 shown in FIG.
The tree structure shown in FIG. 9 is adopted using 0 '. First, a scan operation of a logical sum will be described. In this operation, since each digit can be executed independently, it is sufficient to show that only one digit of the scanning operation can be executed. Therefore, the output D
As I, a 1-bit data array {0,0,1,0,1,0,0} given from the PE array 61 to the IE array 51
A scan operation of a logical sum from left to right with respect to 1,1} will be described as an example. In this case, the interface element IE shown in FIG. 3 is used as it is, and the function of the ALU is set to a logical sum by the designation of the control unit 70 (omitted in FIG. 9). Based on the above conditions and the assumption that each two-input selector operates to select the A-side input when the control signal is 0 and the B-side input when the control signal is 1, the interface element IE51 and the propagation unit (POU) 10 ′
Are sequentially obtained, the tables shown in FIGS. 10 and 11 are obtained for up sweep and down sweep. By comparing the output DI of the up sweep with the output fd of the down sweep, it can be seen that the scanning operation of the OR is realized. Here, the input U from above to the propagation unit POU at the uppermost stage in the down sweep is an offset with respect to the entire tree in FIG. 9. In this case, the scan other than the area covered by the tree in FIG. Since he is not thinking, he inputs 0.

【0041】次に、加算の走査演算について説明する。
この演算では、下位の桁から順次行なう必要がある。こ
の点と従来例と対比できることを考えて、出力DIとし
て、図1の走査対象配列データと同一の{3,1,2,
0,4,1,1,3}に対する左から右方向に向かう加
算の走査演算について説明する。この場合、インタフェ
ースエレメントIEとしては、加算で必要となるキャリ
を扱うために、図12の構成のものを用いる。図3のイ
ンタフェースエレメントIE20に対し、1ビットの加
算の実行が可能な2つのALU32′,32′に置き代
えるとともに、2つのALUからの夫々キャリ出力CO
A ,COB を入力Uによって選択し、次の上位桁のキャ
リ入力として利用できるようにするため、セレクタSL
C41Cとキャリレジスタ45を付加している。図13
乃至図20は、あらかじめキャリレジスタ45を0にク
リアした後、下位桁から順に、加算の走査演算を実行す
る場合のアップスイープとダウンスイープの入出力信号
の値を表にまとめたものである。ここで、ダウンスイー
プのIE出力のfdは各桁の走査演算結果であり、10
進数に変換すれば、{3,4,6,6,10,11,1
2,15}となる。この結果は最終的な走査演算結果で
あり、図29,図30の従来例のように各プロセシング
エレメントPEに対するオフセットではない。従って、
従来のように、最終結果を得るために、さらに各プロセ
シングエレメントPEでDIを加算する必要はない。
Next, the addition scanning operation will be described.
In this calculation, it is necessary to perform the calculation sequentially from the lower digit. Considering this point and the fact that it can be compared with the conventional example, as the output DI, the same as the scan target array data of FIG.
A scanning operation of addition from 0, 4, 1, 1, 3} from left to right will be described. In this case, the interface element IE having the configuration shown in FIG. 12 is used to handle a carry required for addition. 3 is replaced with two ALUs 32 'and 32' capable of performing 1-bit addition, and carry outputs CO from the two ALUs are respectively provided.
A and CO B are selected by the input U, and the selector SL is used to make it available as a carry input of the next upper digit.
C41C and carry register 45 are added. FIG.
FIG. 20 to FIG. 20 summarize the values of the input and output signals of the up sweep and the down sweep in the case of performing the addition scanning operation in order from the lower digit after clearing the carry register 45 to 0 in advance. Here, fd of the IE output of the down sweep is the scanning operation result of each digit, and
If converted to base number, $ 3,4,6,6,10,11,1
2,15 °. This result is the final scanning operation result, not the offset for each processing element PE as in the conventional example of FIGS. 29 and 30. Therefore,
As in the prior art, it is not necessary to further add DI at each processing element PE to obtain the final result.

【0042】この第1の実施例では、被走査配列データ
の途中に走査の開始点を設定することはできない。この
途中の走査開始点設定を実現できるようにした本発明の
第2の実施例について、以下説明する。この実施例の走
査演算装置およびこれを組み込んだ並列データ処理装置
の構成は、インタフェースエレメントIE20′を除
き、第1の実施例と同一であるので、インタフェースエ
レメントIEの構成のみを図4に示す。図3の第1の実
施例のインタフェースエレメントIEとの違いは、各A
LU32bが図33で示したALU32aとSEL34
の組合わせの機能を有する点である。すなわち、インタ
フェースエレメントIE20′は、プロセッサエレメン
トから入力される走査開始点属性データFLが活性を示
す場合には、入力DIをそのままDA,DBとして出力
し、活性を示さない場合には、図3のインタフェースエ
レメントIE20と同様に“0”および“1”と制御部
70により指定される連想演算を行なった結果を、D
A,DBとしてそれぞれ出力する。このインタフェース
エレメントIE20′の機能から明らかなように、FL
として活性を示すデータを与えることで、オフセットに
関わらずインタフェースエレメントIE20′への入力
DIをそのままDA,DBとして出力する走査開始点の
機能が実現される。また、ツリー形伝搬ユニット配列2
5の機能から明らかなように、この走査開始点から次の
走査開始点までの新たな走査演算が階層的に実行される
ことになる。ここで、第2の実施例による論理和に関す
る走査演算を行なう場合について詳細に説明する。走査
演算装置としては、図21に示す構成とする。第1の実
施例の図9とは、第1層に図22に示す4進の伝搬ユニ
ット(POU)を第1層に用い、ツリーを2層構成とし
ている点が異なる。これは、本発明では、任意のサイズ
の伝搬ユニット(POU)を利用できることを示すため
である。また、インタフェースエレメントIEとして
は、演算内容が論理和なので、ALU32bの機能を論
理和に設定することとして、図4のIE20′をそのま
ま用いる。走査対象データのDIの配列としては、第1
の実施例の論理和の走査演算例に用いたものと同じ、
{0,0,1,0,1,0,1,1}を用いる。また、
このDI配列の各要素に対応する走査開始点の属性デー
タFLの配列は、{1,0,0,0,0,1,0,0}
とする。この場合FLの値は1が活性を示し、0が非活
性を示す。以上の条件で、アップスイープ、ダウンスイ
ープにおける各伝搬ユニット(POU)1,(POU)
2の入出力および各伝搬ユニット内の伝搬エレメント出
力LA,LBの信号値を表にまとめた結果を図23,図
24に示す。このダウンスイープの表から明らかなよう
に、走査結果は{0,0,1,1,1,0,1,1}で
あり、走査開始点の設定制御がうまく実現されているこ
とがわかる。なお、ここでは説明を割愛するが、加算の
走査演算に対し走査開始点設定制御機能を実現するに
は、図12に示すインタフェースエレメントIE22に
対し、FLが活性の場合に、両方のALU32′の出力
DA,DBとしてDIを直接出力する機能とCOA ,C
B として0を出力する機能を付加する必要がある。
In the first embodiment, it is not possible to set the scanning start point in the middle of the array data to be scanned. A second embodiment of the present invention in which the setting of the scanning start point in the middle can be realized will be described below. Since the configuration of the scanning operation device of this embodiment and the parallel data processing device incorporating the same are the same as those of the first embodiment except for the interface element IE20 ', only the configuration of the interface element IE is shown in FIG. The difference from the interface element IE of the first embodiment in FIG.
LU 32b is ALU 32a and SEL 34 shown in FIG.
Has the function of the combination of That is, when the scanning start point attribute data FL input from the processor element indicates the activation, the interface element IE 20 ′ outputs the input DI as it is as DA and DB, and when the scanning start point attribute data FL does not indicate the activation, the interface element IE 20 ′ shown in FIG. Similar to the interface element IE20, the result of performing the associative operation designated by the control unit 70 with "0" and "1" is represented by D
Output as A and DB respectively. As is apparent from the function of this interface element IE20 ', FL
By giving the data indicating the activity as, the function of the scanning start point for outputting the input DI to the interface element IE20 'as DA and DB irrespective of the offset is realized. In addition, tree-shaped propagation unit array 2
As is apparent from the function No. 5, a new scanning operation from this scanning start point to the next scanning start point is performed hierarchically. Here, the case of performing the scan operation regarding the logical sum according to the second embodiment will be described in detail. The scanning operation device has the configuration shown in FIG. The difference from FIG. 9 of the first embodiment is that a quaternary propagation unit (POU) shown in FIG. 22 is used for the first layer in the first layer, and the tree has a two-layer structure. This is to show that the present invention can utilize a propagation unit (POU) of any size. Since the operation content of the interface element IE is a logical sum, the function of the ALU 32b is set to a logical sum, and the IE 20 'of FIG. 4 is used as it is. The array of DI of the scan target data is the first
The same as the one used in the scan operation example of the logical sum of the embodiment,
{0,0,1,0,1,0,1,1} is used. Also,
The array of the attribute data FL of the scanning start point corresponding to each element of the DI array is {1, 0, 0, 0, 0, 1, 0, 0}.
And In this case, the value of FL indicates that 1 is active and 0 indicates inactive. Under the above conditions, each propagation unit (POU) 1 and (POU) in up sweep and down sweep
FIGS. 23 and 24 show the results obtained by summarizing the input / output signal No. 2 and the signal values of the propagation element outputs LA and LB in each propagation unit in a table. As is clear from the table of the down sweep, the scanning result is {0, 0, 1, 1, 1, 0, 1, 1}, which indicates that the setting control of the scanning start point is well realized. Although the description is omitted here, in order to realize the scanning start point setting control function for the addition scanning operation, when the FL is active, the interface element IE22 shown in FIG. A function of directly outputting DI as outputs DA and DB and CO A and C
0 it is necessary to add a function of outputting as O B.

【0043】以上の説明から明らかなように、本発明の
走査演算装置の利点は、第1に伝搬エレメント(E)3
0が、3個の2入力セレクタのみで構成され、従来方式
のように演算器、メモリ、バイプラインレジスタ等を必
要としないこと、第2に対象とする配列に対し部分領域
ごとに個別に走査演算を実行したい場合でも、第2の実
施例のように、2つの伝搬演算系に対し同一の被演算デ
ータを送出することで走査領域の走査開始点の機能が実
現されるため、ツリー形伝搬ユニット配列に走査開始点
設定用のハードウェアを付加する必要のないことであ
る。従って、ツリー形伝搬ユニット配列のハードウェア
規模は、従来の高速でかつハードウェア規模の小さい図
33に示す方式にセレクティブ伝搬を適用する場合に比
べても、1/4以下にできる。2入力セレクタは、従来
方式で必要になる加算、論理演算の機能を備えた1ビッ
ト演算器に比べ1/4以下のゲート数で構成できるから
である。
As is clear from the above description, the advantage of the scanning operation device of the present invention is that firstly the propagation element (E) 3
0 is composed of only three 2-input selectors and does not require an arithmetic unit, a memory, a pipeline register, etc. unlike the conventional method. Second, the target array is individually scanned for each partial area. Even if it is desired to execute an operation, the function of the scan start point of the scan area is realized by sending the same operation data to the two propagation operation systems, as in the second embodiment. There is no need to add hardware for setting the scanning start point to the unit array. Accordingly, the hardware scale of the tree-type propagation unit array can be reduced to 1/4 or less as compared with the case where the selective propagation is applied to the conventional high-speed and small-scale hardware system shown in FIG. This is because the two-input selector can be configured with a gate number of 1/4 or less as compared with a 1-bit arithmetic unit having functions of addition and logical operation required in the conventional method.

【0044】もっとも、走査演算装置全体でみると、従
来方式で必要としなかったIE配列50のインタフェー
スエレメントの中に演算器が移動しただけとみなすこと
ができ、ハードウェア規模は低減されないようにもみえ
る。しかし、インタフェースエレメントIE配列は、1
次元の規則的な配列であり、高い集積度が得られるため
実効的なハードウェア規模は大きく低減される。さら
に、第1および第2の実施例のように走査演算装置をS
IMD形の並列データ処理装置に組み込む場合には、イ
ンタフェースエレメントIEをプロセシングエレメント
(PE)に一体化したり、インタフェースエレメントI
Eの機能をプロセシングエレメントPEでエミュレート
したりして、インタフェースエレメント(IE)配列を
実効的に省略できるため、走査演算装置全体でみてもハ
ードウェア規模を1/4近くに低減できることになる。
However, in the entire scanning operation device, it can be considered that the operation unit has just moved into the interface element of the IE array 50 which is not required in the conventional method, and the hardware scale is not reduced. I can see. However, the interface element IE array is 1
Since this is a regular array of dimensions and a high degree of integration is obtained, the effective hardware scale is greatly reduced. Further, as in the first and second embodiments, the scanning operation device is S
When incorporated in an IMD type parallel data processing device, the interface element IE is integrated with the processing element (PE),
Since the function of E can be emulated by the processing element PE and the arrangement of the interface element (IE) can be effectively omitted, the hardware scale can be reduced to almost 1/4 even in the whole scanning operation device.

【0045】また、本発明の走査演算装置はビット単位
の走査を前提とした構成であるので、実現可能な走査演
算はビット単位の走査演算に分割できるものに限られ
る。しかし、加算、論理演算、MIN、MAX等の並列
処理で多用される重要な走査演算は、すべてビット単位
の走査演算に分解可能であり、この制約は実用上、問題
にはならない。
Further, since the scanning operation device of the present invention is configured on the premise of scanning in bit units, the feasible scanning operation is limited to one that can be divided into scanning operations in bit units. However, important scanning operations frequently used in parallel processing such as addition, logical operation, MIN, and MAX can be decomposed into bit-unit scanning operations, and this restriction does not pose a problem in practical use.

【0046】なお、インタフェースエレメント(IE)
配列50については、ここでは配列データの1個の要素
に対してだけ、2通りの走査演算を行なう構成をとって
いるが、複数の要素に対して2通りの走査演算を行なう
構成法もある。この構成法に、第1および第2の実施例
のインタフェースエレメントIEを、拡張したのが図
5,図6に示すインタフェースエレメントである。これ
らのインタフェースエレメントIEで、DI,FL,f
dの信号の組は、それぞれ1個のプロセシングエレメン
トとの間で入出される。この構成は、図3,図4の構成
に比べると、LSI上に走査演算機構を搭載する場合、
面積的には同等の規模で実現できる。
The interface element (IE)
The array 50 has a configuration in which two types of scanning operations are performed on only one element of the array data, but there is also a configuration method in which two types of scanning operations are performed on a plurality of elements. . The interface element shown in FIGS. 5 and 6 is an extension of the interface element IE of the first and second embodiments to this configuration method. With these interface elements IE, DI, FL, f
The set of signals of d enters and exits from one processing element each. This configuration is different from the configurations of FIGS. 3 and 4 in that the scanning operation mechanism is mounted on an LSI.
It can be realized on the same scale in terms of area.

【0047】次に、第3の実施例について説明する。先
頭に位置する伝搬ユニットとツリー形伝搬ユニット配列
とを除き、第1あるいは第2の実施例と構成・動作は変
わらないので、先頭に位置する伝搬ユニット11とツリ
ー形伝搬ユニット配列26のみを図25及び図26に示
す。本実施例は、第1および第2の実施例では、先頭が
常に走査の開始点であることに着目し、各層の先頭の伝
搬ユニットの簡略化を図ったものである。すなわち、ツ
リー形伝搬ユニット配列の最下層の先頭のユニットは、
常に走査の開始点になるので、このユニット内で先行的
に2通りのオフセットに対する伝搬演算を行なう必要が
ない。また、ユニットの左端の入力DA1 ,DB1 は走
査開始点であることから互いに等しい。これらの条件か
ら、最下層の先頭の伝搬ユニットは、図25に示す構成
のようになる。各伝搬エレメントS1 は、1個の2入力
セレクタ(SL)41のみで構成されている。また、伝
搬系が1つしかないことから、このユニットの上層に対
する出力は1つのみである。これは、下から2回層目の
先頭の伝搬ユニットでも、先行的に2通りのオフセット
に対する伝搬演算を行なう必要のないことを意味してい
る。従って、やはり先頭の伝搬ユニットは、最下層の先
頭の伝搬ユニットと同一の構成のものが使えるようにな
る。同様に、下から3層目以上の各層についても、先頭
のユニットに同一のものが使えるようになり、図26の
ツリー形伝搬ユニット配列が導かれる。この第3の実施
例の構成は、先頭の伝搬ユニットの構成が簡略化される
分、ハードウェア規模が低減される。
Next, a third embodiment will be described. Except for the first propagation unit and the tree-type propagation unit array, the configuration and operation are the same as those of the first or second embodiment. Therefore, only the first propagation unit 11 and the tree-type propagation unit array 26 are shown in FIG. 25 and FIG. The present embodiment focuses on the fact that the head is always the scanning start point in the first and second embodiments, and simplifies the head propagation unit of each layer. That is, the first unit at the bottom of the tree-type propagation unit array is
Since it always becomes the starting point of scanning, there is no need to carry out propagation calculations for two different offsets in this unit in advance. The inputs DA 1 and DB 1 at the left end of the unit are equal to each other because they are the scanning start points. From these conditions, the head propagation unit in the lowermost layer has a configuration shown in FIG. Each propagation element S 1 is composed of only one 2-input selector (SL) 41. Also, since there is only one propagation system, there is only one output for the upper layer of this unit. This means that the propagation unit at the head of the second layer from the bottom does not need to perform the propagation operation for the two types of offsets in advance. Accordingly, the head propagation unit having the same configuration as the head propagation unit in the lowermost layer can be used. Similarly, the same unit can be used as the head unit in each of the third and higher layers from the bottom, and the tree-type propagation unit arrangement shown in FIG. 26 is derived. In the configuration of the third embodiment, the hardware scale is reduced because the configuration of the head propagation unit is simplified.

【0048】第4の実施例は、並列プロセッサに組み込
む場合に重要となる走査演算装置の例である。この実施
例も、伝搬ユニット12、ツリー形伝搬ユニット配列2
7を除き、第1、第2の実施例と同一の構成である。そ
こで、伝搬ユニット12、ツリー形伝搬ユニット配列2
7のみを図27及び図28に示す。この実施例の第1、
第2の実施例との違いは、最上層の伝搬ユニットの最後
尾の伝搬エレメントの出力を先頭にオフセットとしてフ
ィードバックしていることである。これは、走査演算の
経路をループさせるためである。これによって、走査演
算装置全体が、端のない一様な構造となる。逆に言え
ば、適当に走査開始点を設定することで任意の位置に端
を設定できる。ただし、この実施例では、全体を一様な
構造とするためには、第3の実施例のように、固定的な
走査開始点を前提として、各階層の開始点に位置する伝
搬ユニットを簡略化することはできない。この実施例の
第1、第2の実施例に対するもう一つの違いは、最上層
の伝搬ユニットの伝搬系を1組に統合していることであ
る。これは、最上層の伝搬ユニット内には走査開始点を
含む最下層のユニットから順次伝わって来る互いに等し
いDA,DB入力が必ず存在するため、伝搬ユニット2
7内のA系、B系の2系統の伝搬が全く同一になり、一
方を省略できるからである。この第4の実施例のループ
構造は、プロセッサ配列の両端をループさせる構造を持
つ並列データ処理装置に本発明の走査演算装置を組み込
む場合に、機能の統一性を乱さない点で非常に都合がよ
い。また、最上層の伝搬ユニットを簡略化できる点は、
走査演算装置をより規模の小さい走査演算装置を搭載し
たLSI複数個で実現する場合に、LSIの中に搭載で
きなくなってしまう最上層の伝搬ユニットを、TTLや
PALで簡単に実現可能とする点で有効である。
The fourth embodiment is an example of a scanning operation device which is important when incorporated in a parallel processor. In this embodiment, the propagation unit 12, the tree-shaped propagation unit array 2
Except for Example 7, the configuration is the same as that of the first and second embodiments. Therefore, the propagation unit 12, the tree-shaped propagation unit array 2
7 is shown in FIGS. 27 and 28. The first of this embodiment,
The difference from the second embodiment is that the output of the last propagation element of the propagation unit in the uppermost layer is fed back as an offset at the top. This is for looping the scanning operation path. As a result, the entire scanning operation device has a uniform structure without edges. Conversely, an end can be set at an arbitrary position by appropriately setting the scanning start point. However, in this embodiment, in order to make the whole structure uniform, as in the third embodiment, a fixed scanning start point is assumed, and the propagation unit located at the start point of each layer is simplified. Cannot be transformed. Another difference of this embodiment from the first and second embodiments is that the propagation system of the uppermost propagation unit is integrated into one set. This is because the same DA and DB inputs sequentially transmitted from the lowermost layer unit including the scanning start point always exist in the uppermost layer propagation unit.
This is because the two systems A and B in 7 have exactly the same propagation and one can be omitted. The loop structure of the fourth embodiment is very convenient in that the uniformity of functions is not disturbed when the scan operation device of the present invention is incorporated in a parallel data processing device having a structure for looping both ends of a processor array. Good. Also, the point that the propagation unit on the top layer can be simplified
When the scanning operation device is implemented by a plurality of LSIs each having a smaller scanning operation device, the propagation unit in the uppermost layer, which cannot be installed in the LSI, can be easily realized by TTL or PAL. Is effective in

【0049】なお、最上層の伝搬ユニットは、第1及び
第2の実施例のように2系統の伝搬系を、そのまま持つ
構成でもよい。ただし、その分ハードウエア規模は増大
する。
The propagation unit in the uppermost layer may have a structure in which two propagation systems are used as they are, as in the first and second embodiments. However, the hardware scale increases accordingly.

【0050】なお、以上の走査演算の説明では、各イン
タフェースエレメントIEの機能をすべて同一として行
なってきた。しかし、伝搬ユニット(POU)の働きは
インタフェースエレメントIEの演算機能とは無関係で
あり、走査の途中、演算内容が変化するような走査演算
にも、その変化に応じて、インタフェースエレメントI
E内の算術論理ユニットALUの演算機能を、切換える
ことによって対応できる。
In the above description of the scanning operation, all the functions of each interface element IE have been assumed to be the same. However, the function of the propagation unit (POU) is irrelevant to the calculation function of the interface element IE, and even in a scanning calculation in which the calculation content changes during scanning, the interface element I
This can be dealt with by switching the arithmetic function of the arithmetic logic unit ALU in E.

【0051】また、各階層の伝搬ユニットのサイズ(構
成伝搬エレメントの数)は全て同一として説明したが、
動作原理から明らかなように、必要に応じて異なるサイ
ズの伝搬ユニットを並べることができる。
In addition, the size of the propagation unit (the number of constituent propagation elements) in each layer has been described as being the same.
As is evident from the principle of operation, different sized propagation units can be arranged as required.

【0052】[0052]

【発明の効果】上述したように、この発明のツリー構成
走査演算装置は、核の部分のツリー形伝搬ユニット配列
が、高速性を殺すことなく、2入力セレクタ3個からな
る伝搬エレメントの縦続接続からなる伝搬ユニットの規
則的なツリー状の結合で構成することを可能にするの
で、従来方式に比べ設計、開発の工数を著しく低減でき
る。また、プロセッサ配列を有する並列データ処理装置
に組み込む場合には、インタフェースエレメントの機能
を、各プロセシングエレメントにエミュレートさせるこ
とで、走査演算装置全体のハードウェア規模を実効的に
1/4以下に低減できる。また、複数のLSIで走査演
算装置を構成する場合、LSIの中に組み込み難い最上
層の伝搬ユニットをTTLやPALで簡単に実現可能な
2入力セレクタの縦続接続で構成できる利点もある。従
って、本発明は高い走査演算性能を有する並列データ処
理装置を小形経済的に実現する上で極めて有用といえ
る。
As described above, in the tree-structured scanning operation device according to the present invention, the tree-shaped propagation unit array at the core portion has a cascade connection of propagation elements consisting of three 2-input selectors without sacrificing high speed. Can be configured by a regular tree-like connection of the propagation units consisting of, so that the number of design and development steps can be significantly reduced as compared with the conventional method. When incorporated into a parallel data processing device having a processor array, the function of the interface element is emulated by each processing element, thereby effectively reducing the hardware scale of the entire scanning operation device to 1/4 or less. it can. Further, when the scanning operation device is configured by a plurality of LSIs, there is an advantage that the propagation unit of the uppermost layer which is difficult to be incorporated in the LSI can be configured by cascade connection of two-input selectors that can be easily realized by TTL or PAL. Therefore, it can be said that the present invention is extremely useful for realizing a parallel data processing device having high scanning operation performance in a compact and economical manner.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明の走査演算装置の一実施例を示す構成
図。
FIG. 1 is a configuration diagram showing one embodiment of a scanning operation device of the present invention.

【図2】図1に示す伝搬ユニット10の内部構成を示す
図。
FIG. 2 is a diagram showing an internal configuration of a propagation unit 10 shown in FIG.

【図3】基本的なインタフェースエレメント(IE2
0)の構成を示す図。
FIG. 3 shows a basic interface element (IE2
The figure which shows the structure of 0).

【図4】図3に示すインタフェースエレメント(IE2
0)に対して活性を示すデータFLを入力とするインタ
フェースエレメント(IE20′)の他の動作例を説明
する図。
FIG. 4 shows an interface element (IE2) shown in FIG.
The figure explaining other operation examples of the interface element (IE20 ') which receives the data FL which shows activity with respect to (0).

【図5】複数の要素に対して2通りの走査演算を行うイ
ンタフェースエレメント(IE21)の構成を示す図。
FIG. 5 is a diagram showing a configuration of an interface element (IE21) that performs two types of scanning operations on a plurality of elements.

【図6】図5に示すインタフェースエレメント(IE2
0)に対して活性を示すデータFLを入力とするインタ
フェースエレメント(IE21′)の他の動作例を説明
する図。
FIG. 6 shows an interface element (IE2) shown in FIG.
The figure explaining other operation examples of the interface element (IE21 ') which receives the data FL which shows activity with respect to 0).

【図7】図2に示す伝搬ユニット10の内部構成の冗長
部分を削除した構成の伝搬ユニット10を示す図。
7 is a diagram showing a propagation unit 10 having a configuration in which a redundant portion of the internal configuration of the propagation unit 10 shown in FIG. 2 is deleted.

【図8】本発明の走査演算装置における2進の伝搬ユニ
ット10′の構成例図。
FIG. 8 is a diagram showing a configuration example of a binary propagation unit 10 'in the scanning operation device of the present invention.

【図9】図5に示す伝搬ユニットを用いて2進のツリー
構成を作る本発明の走査演算装置の一実施例を示す構成
図。
FIG. 9 is a configuration diagram showing one embodiment of a scan operation device of the present invention for creating a binary tree configuration using the propagation unit shown in FIG. 5;

【図10】図9に示す2進ツリー形走査演算装置による
論理和の走査演算におけるアップスイープの、論理和の
走査演算における各信号値を示すテーブル。
FIG. 10 is a table showing signal values in an up-sweep scan operation of a logical sum by the binary tree scan operation device shown in FIG. 9 and in a scan operation of the logical sum;

【図11】図9に示す2進ツリー形走査演算装置による
論理和の走査演算におけるダウンスイープの論理和の走
査演算における各信号値を示すテーブル。
11 is a table showing signal values in a down-sweep logical OR scan operation in the logical OR scan operation by the binary tree-type scan arithmetic device shown in FIG. 9;

【図12】本発明の2進ツリー形走査演算装置における
加算の走査演算の実行が可能なインタフェースエレメン
ト(IE22)の構成例を示す図。
FIG. 12 is a diagram showing a configuration example of an interface element (IE22) capable of executing an addition scan operation in the binary tree scan operation device of the present invention.

【図13】本発明の2進ツリー形走査演算装置における
下位桁から1桁づつ順に行う加算の走査演算の1桁目
(LSD)のアップスイープにおける各信号値を示すテ
ーブル。
FIG. 13 is a table showing signal values in an up sweep of a first digit (LSD) of a scanning operation of addition performed in order of one digit from the lower digit in the binary tree type scanning operation device of the present invention.

【図14】本発明の2進ツリー形走査演算装置における
図13の走査演算の1桁目(LSD)のダウンスイープ
の加算の走査演算における各信号値を示すテーブル。
14 is a table showing signal values in a scan operation of addition of a down sweep of the first digit (LSD) of the scan operation in FIG. 13 in the binary tree-type scan operation device of the present invention.

【図15】本発明の2進ツリー形走査演算装置における
下位桁から1桁づつ順に行う加算の走査演算の2桁目の
アップスクープにおける各信号値を示すテーブル。
FIG. 15 is a table showing signal values in a second-digit up-scoop of a scanning operation of addition performed in order of one digit from the lower digit in the binary tree-type scanning operation device of the present invention.

【図16】本発明の2進ツリー形走査演算装置における
図15の走査演算の2桁目のダウンスイープにおける各
信号値を示すテーブル。
16 is a table showing each signal value in the second digit down sweep of the scan operation in FIG. 15 in the binary tree-type scan operation device of the present invention.

【図17】本発明の2進ツリー形走査演算装置における
下位桁から1桁づつ順に行う加算の走査演算の3桁目の
アップスイープにおける各信号値を示すテーブル。
FIG. 17 is a table showing signal values in a third digit up-sweep of a scan operation of addition performed in order from the lower order digit by digit in the binary tree-type scan operation device of the present invention.

【図18】本発明の2進ツリー形走査演算装置における
図17の走査演算の3桁目のダウンスイープにおける各
信号値を示すテーブル。
18 is a table showing signal values in the third digit down sweep of the scan operation in FIG. 17 in the binary tree scan operation device of the present invention.

【図19】本発明の2進ツリー形走査演算装置における
下位桁から1桁づつ順に行う加算の走査演算の4桁目の
アップスイープにおける各信号値を示すテーブル。
FIG. 19 is a table showing signal values in a fourth digit up-sweep of an addition scanning operation performed sequentially one digit at a time from the lower digit in the binary tree-type scanning operation device of the present invention.

【図20】本発明の2進ツリー形走査演算装置における
図19の走査演算の4桁目のダウンスイープにおける各
信号値を示すテーブル。
FIG. 20 is a table showing signal values in the fourth digit down sweep of the scan operation in FIG. 19 in the binary tree scan operation device of the present invention.

【図21】走査の開始点を任意の位置に設定可能な本発
明のツリー形の走査演算装置の他の実施例を示す構成
図。
FIG. 21 is a configuration diagram showing another embodiment of a tree-shaped scan operation device according to the present invention capable of setting a scan start point at an arbitrary position.

【図22】図21に示す走査演算装置に用いられる4進
の伝搬ユニット(POU)の構成図。
FIG. 22 is a configuration diagram of a quaternary propagation unit (POU) used in the scanning operation device shown in FIG. 21;

【図23】図21に示すツリー形走査演算装置における
論理和の走査演算のアップスイープにおける各信号値を
示すテーブル。
23 is a table showing signal values in an up-sweep of a scan operation of a logical sum in the tree-type scan operation device shown in FIG. 21;

【図24】図21に示すツリー形走査演算装置における
論理和の走査演算におけるダウンスイープにおける各信
号値を示すテーブル。
24 is a table showing signal values in down sweep in a scan operation of a logical sum in the tree-type scan operation device shown in FIG. 21;

【図25】本発明の走査演算装置における伝搬ユニット
(POU)の他の構成例を示す図。
FIG. 25 is a diagram showing another configuration example of the propagation unit (POU) in the scanning operation device of the present invention.

【図26】図25に示す伝搬ユニット(POU)を各層
の先頭の伝搬ユニットとして配列するツリー形伝搬ユニ
ット配列を示す図。
FIG. 26 is a diagram showing a tree-type propagation unit array in which the propagation units (POU) shown in FIG. 25 are arranged as the first propagation unit in each layer.

【図27】本発明の走査演算装置における伝搬ユニット
(POU)の更に他の構成例を示す図。
FIG. 27 is a diagram showing still another configuration example of the propagation unit (POU) in the scanning operation device of the present invention.

【図28】図27に示す伝搬ユニット(POU)を最上
層に配置したツリー形伝搬ユニット配列を示す図。
FIG. 28 is a diagram showing a tree-shaped propagation unit array in which the propagation units (POU) shown in FIG. 27 are arranged in the uppermost layer.

【図29】従来のツリー構成走査演算装置の伝搬ユニッ
トの配列を示し、アップスイープ処理を説明する図。
FIG. 29 is a diagram illustrating an arrangement of propagation units of a conventional tree-structured scanning operation device and illustrating an up-sweep process.

【図30】従来のツリー構成走査演算装置の伝搬ユニッ
トの配列を示し、ダウンスイープ処理を説明する図。
FIG. 30 is a diagram illustrating an array of propagation units in a conventional tree-structured scanning operation device and illustrating a down sweep process.

【図31】従来の並列データ処理装置の一例を示すブロ
ック構成図。
FIG. 31 is a block diagram showing an example of a conventional parallel data processing device.

【図32】図31に示す伝搬ユニット10aの内部接続
を示すブロック構成図。
32 is a block diagram showing an internal connection of the propagation unit 10a shown in FIG. 31.

【図33】図31に示す伝搬エレメント30aの内部の
構成を示すブロック図。
FIG. 33 is a block diagram showing an internal configuration of a propagation element 30a shown in FIG. 31;

【符号の説明】[Explanation of symbols]

10 伝搬ユニット 30 伝搬エレメント 41A 第1のセレクタ 41B 第2のセレクタ 41D 第3のセレクタ 50 インタフェースエレメント配列 Reference Signs List 10 Propagation unit 30 Propagation element 41A First selector 41B Second selector 41D Third selector 50 Interface element array

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 15/16 610 G06F 15/80 JICSTファイル(JOIS)──────────────────────────────────────────────────続 き Continuation of the front page (58) Field surveyed (Int. Cl. 7 , DB name) G06F 15/16 610 G06F 15/80 JICST file (JOIS)

Claims (4)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 各層ごとに、グループに分けられて配列
される伝搬ユニットがグループごとに、1階層上の層に
属する1個の伝搬ユニットに結合されるツリー状の階層
的結合構成を持ち各伝搬ユニットが、縦続接続される少
なくとも1個の伝搬エレメントを有し、この縦続接続さ
れたi番目の前記伝搬エレメントEiが、隣接する前記
伝搬エレメントEi-1 からの入力信号LAi-1 ,LB
i-1 を夫々制御信号として受け、1階層下の層からの入
力信号DAi ,DBi を選択して、出力信号LAi ,L
i を夫々出力する第1及び第2の選択手段SLA,S
LBと;前記i番目の伝搬エレメントEi を含む伝搬ユ
ニットに接続される1階層上の層の伝搬ユニットからの
入力信号Uj を制御信号として受け、前記隣接する伝搬
エレメントEi-1 からの入力信号LAi-1 ,LBi-1
夫々選択し、その結果を1階層下の層の伝搬ユニットに
出力信号Ui として出力する第3の選択手段SLDと;
より成り、縦続接続された最終番目の伝搬エレメント
が、出力信号LAp ,LBp を夫々、1階層上の層の伝
搬ユニットに対する入力信号DAj ,DBj として出力
する構成の伝搬ユニット配列と;、前記伝搬ユニット配
列の最下層に属する伝搬ユニットに接続され、複数の演
算ユニットの並びより成り、その第l番目の演算ユニッ
トが0Oa1 Oa2 O…Oar 、1Oa1 Oa2 O…O
r を夫々出力信号DAl ,DBl として前記伝搬ユニ
ット配列の最下層に属する対応する伝搬ユニットに出力
する演算手段、ここでiは2以上の整数であり、j,
l,rは夫々1以上の整数であり、Oは任意の演算子で
あり、a1 ,a2 ,a3 …ar なるデータの並びは、前
記演算手段の並びのl番目の演算ユニットが、被走査配
列の分担する領域の要素の並びを示す、と;より成る走
査演算装置。
A transmission unit arranged in groups for each layer has a tree-like hierarchical connection configuration in which each group is connected to one transmission unit belonging to a layer one level higher. propagation unit has at least one propagation elements are cascade-connected, the cascaded i-th of said propagation element E i is input from the propagation element E i-1 adjacent signal LA i-1 , LB
receiving the i-1 respectively as a control signal, selects the input signal DA i, DB i from the layer lower layer, the output signal LA i, L
First and second selection means SLA for each output B i, S
LB and; receives input signals U j from propagating unit of the i-th one level on the layer to be connected to a transmission unit including a propagation element E i as a control signal, from the propagation elements E i-1 to the adjacent Third selection means SLD for selecting the input signals LA i-1 and LB i-1 and outputting the result as an output signal U i to the propagation unit in the next lower layer;
A propagation unit array in which the cascade-connected last propagation element outputs the output signals LA p and LB p as input signals DA j and DB j for the propagation unit in the layer one level higher, respectively; , connected to said propagation units belonging to the lowest layer of the propagation unit sequence consists of a sequence of a plurality of arithmetic units, the first l-th arithmetic unit 0Oa 1 Oa 2 O ... Oa r , 1Oa 1 Oa 2 O ... O
Arithmetic means for outputting a r as output signals DA l and DB l to the corresponding propagation units belonging to the lowest layer of the propagation unit array, where i is an integer of 2 or more;
l, r is each an integer of 1 or more, O is an arbitrary operator, a 1, a 2, a 3 ... a r becomes a sequence of data, the arrangement of the l-th computing unit of the computing means And the arrangement of elements in a region shared by the array to be scanned.
【請求項2】 前記伝搬ユニット配列のうちの、同一階
層における先頭に位置する伝搬ユニットは、縦続接続さ
れる少なくとも1個の伝搬エレメントを有し、この縦続
接続されるk番目の前記伝搬エレメントSk は、隣接す
る前記伝搬エレメントSk-1 からの入力信号であって、
同時に1階層下の層の伝搬ユニットの入力とされる入力
信号LLk-1 を制御信号として受け、1階層下の層から
の入力信号DAk ,DBk を選択して、出力信号LLk
を出力する選択手段SLを有し、縦続接続された最終番
目の伝搬エレメントは、出力信号LLq を1階層上の層
の伝搬ユニットに対する入力信号として出力する、ここ
でkは2以上の整数である、ことを特徴とする特許請求
の範囲第1項記載の走査演算装置。
2. The first propagation unit in the same hierarchy in the propagation unit array has at least one cascade-connected propagation element, and the k-th cascade-connected propagation element S k is an input signal from the adjacent propagation element S k−1 ,
At the same time, it receives an input signal LL k-1 which is an input of the propagation unit of the lower layer as a control signal, selects input signals DA k and DB k from the lower layer, and outputs an output signal LL k.
Has a selection means SL for outputting, cascaded final th propagation element outputs an output signal LL q as an input signal for the propagation unit one level on the layer, where k is 2 or more integer 2. The scanning operation device according to claim 1, wherein:
【請求項3】 前記ツリー状の伝搬ユニット配列の最上
層ユニットは、縦続接続される2個以上の伝搬ユニット
を有し、この縦続接続されるk番目の伝搬エレメントS
k は隣接する前記伝搬エレメントSk-1 からの入力信号
であって、入力信号LLk-1 を制御信号として受け、1
階層下の層からの入力信号DAk ,DBk を選択して、
出力信号LLk を出力する選択手段SLを有し、縦続接
続された最終番目の伝搬エレメントは、出力信号LLq
を、同一階層の先頭に位置する伝搬ユニットに対する入
力信号LL0 としてフィードバックされる、ことを特徴
とする特許請求の範囲第1項記載の走査演算装置。
3. The uppermost layer unit of the tree-like propagation unit array has two or more cascade-connected propagation units, and the k-th cascade-connected propagation element S
k is an input signal from the adjacent propagation element S k−1 , and receives an input signal LL k−1 as a control signal, and
Selecting input signals DA k , DB k from the lower layer,
It has a selection means SL for outputting an output signal LL k, final-th propagation elements connected in cascade, the output signal LL q
Is fed back as an input signal LL 0 to a propagation unit located at the head of the same hierarchy.
【請求項4】 前記複数の演算ユニットの並びより成る
演算手段は、データa1 ,a2 ,…ar の夫々に対応す
るデータFL1 ,FL2 ,…FLr の全てが非活性を示
すデータである場合には、0Oa1 Oa2 O…Oar
1Oa1 Oa2 O…Oar を夫々出力信号DAj ,DB
j として前記最下層に属する対応する伝搬ユニットに出
力し、データFL1 ,FL2 …FLr のいずれかが活性
を示すデータである場合には、as Oas+1 Oas+2
…Oar を夫々出力信号DAj ,DBj として出力す
る、ここでsは活性で示すデータFLの添字の最大値を
示す、ことを特徴とする特許請求の範囲第1項記載の走
査演算装置。
4. A computing means consisting arrangement of said plurality of arithmetic units, data a 1, a 2, ... data FL 1, FL 2 corresponding respectively to a r, all ... FL r indicates inactive in the case of data, 0Oa 1 Oa 2 O ... Oa r,
1Oa 1 Oa 2 O ... Oa r respectively output signal DA j, DB
The output to the corresponding propagation units belonging to the lowest layer as j, if any data FL 1, FL 2 ... FL r is the data showing the activity, a s Oa s + 1 Oa s + 2 O
... outputs the Oa r respectively output signals DA j, as DB j, where s denotes the maximum value of the index data FL shown by activity and scanning operation device as set forth in claim 1, wherein claims, wherein .
JP03285191A 1990-11-06 1991-10-30 Scanning operation device in which propagation units for executing a scanning operation are arranged in a tree configuration Expired - Fee Related JP3075543B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03285191A JP3075543B2 (en) 1990-11-06 1991-10-30 Scanning operation device in which propagation units for executing a scanning operation are arranged in a tree configuration

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP30016890 1990-11-06
JP2-300168 1990-11-06
JP03285191A JP3075543B2 (en) 1990-11-06 1991-10-30 Scanning operation device in which propagation units for executing a scanning operation are arranged in a tree configuration

Publications (2)

Publication Number Publication Date
JPH0520285A JPH0520285A (en) 1993-01-29
JP3075543B2 true JP3075543B2 (en) 2000-08-14

Family

ID=26555780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03285191A Expired - Fee Related JP3075543B2 (en) 1990-11-06 1991-10-30 Scanning operation device in which propagation units for executing a scanning operation are arranged in a tree configuration

Country Status (1)

Country Link
JP (1) JP3075543B2 (en)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
電子情報通信学会全国大会講演論文集 春期pt.6 6.128 1991
電子情報通信学会論文誌C−2 VOL.74 No.5 p388−397 1991

Also Published As

Publication number Publication date
JPH0520285A (en) 1993-01-29

Similar Documents

Publication Publication Date Title
Kung The structure of parallel algorithms
KR20230172043A (en) A homomorphic processing unit for accelerating secure computations under homomorphic encryption
JPH06103161A (en) Data-field synthesizer for combining data
Du et al. High-performance sparse linear algebra on hbm-equipped fpgas using hls: A case study on spmv
KR20010040263A (en) Fast regular multiplier architecture
JPH05181821A (en) Method for connecting plurality of nodes in nonbinary-hyper-cube type computer system and network
Rudell et al. Exact minimization of multiple-valued functions for PLA optimization
US6769007B2 (en) Adder circuit with a regular structure
US8707235B2 (en) Techniques for use with automated circuit design and simulations
Manohar et al. Asynchronous parallel prefix computation
Ranade et al. Parallelism and locality in priority queues
JP3075543B2 (en) Scanning operation device in which propagation units for executing a scanning operation are arranged in a tree configuration
JP3071899B2 (en) Charge beam drawing data creation device
JP2959815B2 (en) Parallel data processing device
Gajski et al. A parallel pipelined relational query processor: An architectural overview
JP2753228B2 (en) Data processing device
JP2608600B2 (en) Apparatus for calculating parity bit of sum of two numbers
Berkovich et al. A bit‐counting algorithm using the frequency division principle
JP2516611B2 (en) Parallel data processing device
Gušev et al. New linear systolic arrays for the string comparison algorithm
Abdelguerfi Special function unit for statistical aggregation functions
Dickey et al. Hardware combining and scalability
JP3106374B2 (en) Logic circuit optimization device
Zhang et al. A simple and efficient VLSI sorting architecture
US7218138B2 (en) Efficient implementations of the threshold-2 function

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees