JPH0675930A - Parallel processor system - Google Patents

Parallel processor system

Info

Publication number
JPH0675930A
JPH0675930A JP4228263A JP22826392A JPH0675930A JP H0675930 A JPH0675930 A JP H0675930A JP 4228263 A JP4228263 A JP 4228263A JP 22826392 A JP22826392 A JP 22826392A JP H0675930 A JPH0675930 A JP H0675930A
Authority
JP
Japan
Prior art keywords
memory
bus
processor
port
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4228263A
Other languages
Japanese (ja)
Inventor
Seigo Suzuki
清吾 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP4228263A priority Critical patent/JPH0675930A/en
Publication of JPH0675930A publication Critical patent/JPH0675930A/en
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)

Abstract

PURPOSE:To provide a parallel processor system capable of remarkably improving the capacity of plural number of communication between PEs and the network communication with a host computer. CONSTITUTION:This parallel processor system is provided with an element column composed of a multi-port memory 2 having plural processors (PE) 1 arrayed two-dimensionally and more that at least three ports input/output parts. In the system, the multi-port memory 2 is arranged leticulately, and a first, second ports of this multi-port memory 2 are connected with a reticular data buses 4, 5, respectively and the third port is connected with the corresponded processor 1 and a reticular network is constituted on a single chip. Therefore, a parallel/super parallel super computer which is essentially suitable to a VLSI computer can be constituted, and the capacity of plural number of the communication between PEs and the network communication with a host computer can be remarkably improved.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は並列/超並列コンピュー
タに適した並列プロセッサシステムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a parallel processor system suitable for parallel / massively parallel computers.

【0002】[0002]

【従来の技術】先ず、本発明の並列プロセッサシステム
の必要性について述べる。
2. Description of the Related Art First, the necessity of the parallel processor system of the present invention will be described.

【0003】一般に、VLSIコンピュータの性能向上
に関しては、VLSI自体の集積度向上とこれにともな
った性能向上によるところが大きい。例えば、1.0μ
mの加工技術を用いたVLSIで作成したVLSIコン
ピュータと0.2μmの加工技術を用いたVLSIで作
成したVLSIコンピュータとの性能について、仮に一
般論で比較すれば、後者の技術により構成されるものの
ほうが性能/価格比は優れているはずである。
Generally, the improvement in the performance of a VLSI computer is largely due to the improvement in the degree of integration of the VLSI itself and the accompanying performance improvement. For example, 1.0μ
If the performance of a VLSI computer created with VLSI using the m processing technology and the performance of a VLSI computer created with VLSI using the 0.2 μm processing technology are compared in general terms, it is possible that the latter technology is used. The performance / price ratio should be better.

【0004】しかしながら、コンピュータのアーキテク
チュアを基本的に変えずに、単に加工技術による微細化
のみを行なって構成した場合には、1.0μmの加工技
術によるLSIと0.2μm加工技術によるLSIとの
集積度の比較は、単純には、(1.0)2 /(0.2)
2 =25(倍)となり、もし、LSIチップコストが不
変とすれば、両者間のLSIトータルコスト比は25:
1となる。
However, when the structure of the computer is basically the same and only the miniaturization by the processing technology is performed without changing the architecture of the computer, the LSI by the processing technology of 1.0 μm and the LSI by the processing technology of 0.2 μm are used. The density comparison is simply (1.0) 2 / (0.2)
2 = 25 (times), and if the LSI chip cost remains unchanged, the LSI total cost ratio between the two is 25:
It becomes 1.

【0005】一方、性能に関しては、25分割されてい
たシステムを1チップ内に統合するのであるから、チッ
プ間伝送(I/F)に関するロスは、大幅に減少し、
1.5〜2.0倍の効率化(性能向上)が見込まれる。
更に、チップ内各要素部分も微細化にともなって高速化
し、1.0μmの加工技術により得られるLSIに対し
0.2μmの加工技術によって得られるLSIでは、3
〜4倍のクロック周波数の向上が見込まれる。
On the other hand, in terms of performance, since the system divided into 25 is integrated into one chip, the loss related to inter-chip transmission (I / F) is greatly reduced,
It is expected that the efficiency (performance improvement) will be 1.5 to 2.0 times.
Furthermore, the speed of each element part in the chip has also increased with the miniaturization, and in the LSI obtained by the processing technology of 0.2 μm, the LSI obtained by the processing technology of 1.0 μm is 3
A clock frequency improvement of ~ 4 times is expected.

【0006】従って、例えば、シングルプロセッサシス
テムのコンピュータ・アーキテクチュアでは、LSIの
高集積化により、LSIコストはMin 1/25とも
なり得るが、性能は高々(1.5〜2.0)×(3〜
4)=3〜8(倍)である。
Therefore, for example, in a computer architecture of a single processor system, the LSI cost can be as high as Min 1/25 due to high integration of the LSI, but the performance is at most (1.5 to 2.0) × (3 ~
4) = 3 to 8 (times).

【0007】一方、LSIの集積度向上のペースは、
1.0μm技術の時代から0.2μm技術の時代になる
までには10年以上かかるとすると、アーキテクチュア
変革をしないで高集積化のみであれば、VLSIコンピ
ュータの性能は、高々10年間で3〜8倍にしか向上し
ないことになる。即ち、単一のプロセッサであっては、
飛躍的な技術向上は望めないことになる。
On the other hand, the pace of improvement in LSI integration is
If it takes more than 10 years from the era of 1.0 μm technology to the era of 0.2 μm technology, the performance of a VLSI computer will be 3 to 10 years at most if only high integration is achieved without changing the architecture. It will only improve 8 times. That is, with a single processor,
You will not be able to expect dramatic technological improvements.

【0008】そこで、単一プロセッサから並列/超並列
プロセッサにアーキテクチュア変革することにより、性
能向上が図れ、有効な手段であると考えられてきた。例
えば、1.0μm加工技術で加工された32bitプロ
セッサは1個で1チップに構成されるが、0.2μm加
工技術によれば25個の32bitプロセッサを1チッ
プに入れて構成することができる。
[0008] Therefore, it has been considered to be an effective means to improve the performance by changing the architecture from a single processor to a parallel / super parallel processor. For example, one 32-bit processor processed by the 1.0 μm processing technology is configured on one chip, but 25 32-bit processors can be configured on one chip by the 0.2 μm processing technology.

【0009】即ち、この25個の32bitプロセッサ
が全て効率良く常に同時並列動作することは困難である
としても、並列度を1/2として常時12個のプロセッ
サが並列動作したと仮定すれば、高集積化による各要素
(クロックレベル)のスピードアップを前述したように
3〜4倍とすると、並列アーキテクチュアによる性能向
上は、10年間でTotal 12×(3〜4)=36
〜48(倍)に向上することになる。
That is, even if it is difficult for all of these 25 32-bit processors to operate efficiently in parallel at the same time, assuming that the parallel degree is 1/2 and 12 processors always operate in parallel, it is high. Assuming that the speedup of each element (clock level) due to integration is 3 to 4 times as described above, the performance improvement due to the parallel architecture is Total 12 × (3 to 4) = 36 in 10 years.
It will be improved to 48 times.

【0010】このように、並列/超並列プロセッサのア
ーキテクチュアは、単一プロセッサのものと比較し、処
理スピード等の性能向上に大きく貢献するが、その分割
・並列化した各プロセッサ間の通信や、データのやり取
りの面で解決すべき問題が多い。特に、PE(Proc
essor Element)間接続に関しては種々な
接続トポロジーが存在し、各接続形態が有り、通信の平
均頻度、一回当たりのデータ量(長)、通信相手のラン
ダム性、同期/非同期通信、通信の平均距離(広域通
信)等のバランスにより、主に、アプリケーションの持
つ上記性格によって接続形態が選ばれるものであった。
しかし、このコンピュータを各応用別、プログラム別に
改良し、このPE間接続トポロジーを夫々に最適化する
こともできるが、現実的には経済的に見ても良策ではな
い。
As described above, the architecture of the parallel / massively parallel processor greatly contributes to the improvement of the performance such as the processing speed as compared with that of the single processor, but the communication between the divided / parallelized processors, There are many problems to be solved in terms of data exchange. In particular, PE (Proc
There are various connection topologies with regard to inter-element connections, and there are various connection topologies, and the average frequency of communication, the amount of data (long) per communication, the randomness of communication partners, synchronous / asynchronous communication, and the average of communication. Due to the balance of distance (wide area communication) and the like, the connection form is mainly selected by the above-mentioned character of the application.
However, although it is possible to improve this computer for each application and for each program and optimize the connection topology between PEs respectively, in reality, this is not a good measure from an economical point of view.

【0011】一方、VLSI及びモジュールに関し、実
現のし易さ(作り易さ)から考察すると、両者共に極力
二次元空間に押さえることが重要である。例えば、パー
パーNキューブのごとき立方体構造(以下、Nキューブ
と称す)と二次元メッシュ構造(以下、メッシュ構造と
称す)とを比較した場合、前者のPE間接続を2次元面
で実現することは、PE数(N)が100個を越えると
極めて複雑となる。故に、Nキューブでは、この複雑さ
のためにチップ間接続の配線量(長さ)も大きくなり、
メッシュ構造で単に隣接するチップ同志を接続する場合
に比べ、N>1000の場合、その配線量は、50〜1
00倍にもなる。即ち、メッシュ構造に対するNキュー
ブでのPE間接続配線長の比率はMax50に達する。
On the other hand, regarding the VLSI and the module, considering the ease of implementation (manufacturability), it is important to keep both in a two-dimensional space as much as possible. For example, when comparing a cubic structure (hereinafter, referred to as N cube) such as a per-par N cube and a two-dimensional mesh structure (hereinafter, referred to as mesh structure), it is possible to realize the former connection between PEs on a two-dimensional surface. , The number of PEs (N) exceeds 100, it becomes extremely complicated. Therefore, in the N-cube, the wiring amount (length) of the chip-to-chip connection becomes large due to this complexity,
In the case of N> 1000, the wiring amount is 50 to 1 as compared with a case where adjacent chips are simply connected in a mesh structure.
It will be 00 times. That is, the ratio of the PE-to-PE connection wiring length in the N cube to the mesh structure reaches Max50.

【0012】今、この配線長(量)の差がチップ間伝送
速度を5倍にしているとすると、例えば、メッシュ構造
での隣接PEとの伝送時間が10ns(100Mb/
s)となり、Nキューブ構造では5倍の50ns(20
Mb/s)となる。ここで、PE数を1024個(=3
2×32)とすると、Nキューブ構造での最長転送時間
はlog2 N×τ1 =log2 1024×50(ns)
=500(ns)であり、100MHz(10ns)の
クロックでは50サイクル必要となる。これに対して、
メッシュ構造では、最悪でも(N) 1/2×τ2 =102
1/2 ×10(ns)=320(ns)であり、100
MHzのクロックでは32サイクル必要となるのであ
る。即ち、Nキューブ構造の方が転送に要する段数波少
ないにも拘らず総転送時間はメッシュ構造のほうが少な
いのである。以上詳述したように、並列/超並列コンピ
ュータのアーキテクチュアには、2次元メッシュ構造が
有効であることが判った。
Now, assuming that the difference in the wiring length (quantity) makes the transmission rate between chips five times, for example, the transmission time with an adjacent PE in the mesh structure is 10 ns (100 Mb /
s), which is 5 times 50 ns (20
Mb / s). Here, the number of PEs is 1024 (= 3
2 × 32), the longest transfer time in the N-cube structure is log 2 N × τ 1 = log 2 1024 × 50 (ns).
= 500 (ns), and a 100 MHz (10 ns) clock requires 50 cycles. On the contrary,
With a mesh structure, at worst (N) 1/2 x τ 2 = 102
4 1/2 × 10 (ns) = 320 (ns), 100
A clock of MHz requires 32 cycles. That is, although the N-cube structure has a smaller number of stages required for transfer, the total transfer time is shorter in the mesh structure. As described above in detail, it has been found that the two-dimensional mesh structure is effective for the architecture of parallel / super-parallel computers.

【0013】この従来の2次元メッシュ構造の並列/超
並列コンピュータを構成する並列プロセッサシステム
は、図6に示すように、メモリ(Mi、Mj…)を有す
るプロセッサエレメント(PEi、PEj…)(Pro
cessor Element)がXバス(Xi、Xj
…)、Yバス(Yi、Yj…)を介して複数個並列的に
構成されている。
As shown in FIG. 6, a parallel processor system that constitutes a conventional parallel / super parallel computer having a two-dimensional mesh structure has processor elements (PEi, PEj ...) (Pro) having memories (Mi, Mj ...) As shown in FIG.
The processor element is X bus (Xi, Xj)
,), And a plurality of Y buses (Yi, Yj ...).

【0014】この従来システムのポイントとなる各PE
間通信は、全てPE同志の通信であり、メモリ(M)は
各々のPEに付属しており、メモリ間の通信は常にPE
を介して行われている。
Each PE which is the key point of this conventional system
Communication between PEs is the same among PEs, and memory (M) is attached to each PE, and communication between memories is always PE.
Is done through.

【0015】これは従来システムのメモリが単一ポート
入出力を主としたもので、対応するPEとのやり取りに
専従する構成となっていた。しかるに、本質的には、各
PE間の通信要因は、各PEに属するメモリの内容デー
タを参照、交換することが主な仕事となっているのであ
る。
This is because the memory of the conventional system is mainly for single-port input / output, and is dedicated to the exchange with the corresponding PE. However, essentially, as a communication factor between the PEs, the main task is to refer to and exchange the content data of the memory belonging to each PE.

【0016】このような従来の2次元メッシュ構造の並
列/超並列コンピュータの並列プロセッサシステムであ
っては、メモリ(M)の出入口がプロセッサ(PE)に
専有されている為、メモリ同志のやり取りする道はな
く、全て担当プロセッサの制御下で実施される。即ち、
このプロセッサは各々仕事を持っていることと、このメ
モリのやり取りもプロセッサの持つソフトを介して行わ
れ、メモリMiとメモリMjとの相互の通信は、メモリ
Mi→プロセッサPEi→プロセッサPEj→メモリM
jの経路で行われる。このようにメモリ間のやり取りに
常にPEを経由するための所定の通信時間が必要である
ことはもとより、この各ステップ毎に適当な待時間が必
要であるため、結果的に全体的な所要時間は、シングル
プロセッサシステムに比較し、数十倍以上の時間がかか
ることになる。しかもこの転送毎に担当PEi、PEj
は、実行中の仕事を中断するため、このペナルティ(pen
alty) も非常に大きい。PEi、PEjの実行速度は通
信の頻度にもよるが、当該データを待つPEiは数倍に
遅れ、データの通過を取り計らうだけのPEjも1.5
〜3倍程度遅くなる。
In such a conventional parallel processor system of parallel / super parallel computers having a two-dimensional mesh structure, since the processor (PE) has an exclusive entrance / exit of the memory (M), the memories communicate with each other. There is no way to do it, and everything is done under the control of the responsible processor. That is,
This processor has its own work, and the exchange of this memory is also performed through the software of the processor. The mutual communication between the memory Mi and the memory Mj is performed by the memory Mi → processor PEi → processor PEj → memory M.
j route. As described above, the communication between the memories always requires a predetermined communication time for passing through the PE, and an appropriate waiting time is required for each step, so that the overall required time is eventually increased. Will take dozens of times longer than a single processor system. Moreover, PEi and PEj in charge of each transfer
This penalty (pen
alty) is also very large. The execution speed of PEi and PEj depends on the frequency of communication, but PEi waiting for the data is delayed several times, and PEj just waiting for the data to pass is 1.5.
~ 3 times slower.

【0017】[0017]

【発明が解決しようとする課題】本願発明は、前述した
従来技術の欠点を改良したもので、VLSIコンピュー
タの本質的に適した並列/超並列コンピュータの並列プ
ロセッサシステムにおいて、複数個のPE間通信及びホ
ストコンピュータとのネットワーク通信の能力を大きく
向上することのできる並列コンピュータを提供すること
を目的とする。
SUMMARY OF THE INVENTION The present invention is an improvement over the above-mentioned drawbacks of the prior art. In a parallel processor system of a parallel / massively parallel computer, which is essentially suitable for a VLSI computer, communication between a plurality of PEs is performed. Another object of the present invention is to provide a parallel computer capable of greatly improving the capability of network communication with the host computer.

【0018】[0018]

【課題を解決するための手段】本願発明は、上述した従
来技術の課題に対し、次のような構成によって解決する
ことができる。
The present invention can solve the above-mentioned problems of the prior art by the following configurations.

【0019】即ち、本発明の構成は、プロセッサ及びメ
モリからなるプロセッサユニットを複数個2次元的に配
列された要素列を具備してなるものにおいて、前記メモ
リを少なくとも3ポート以上の入出力部を有する多ポー
トメモリとし、且つ前記多ポートメモリを網目状に配置
し、前記多ポートメモリの第1および第2のポートを網
目状のデータバスに、第3のポートを対応するプロセッ
サに各々接続して、網目状のネットワークを単一のチッ
プ上に構成した並列プロセッサシステムである。さら
に、この多ポートメモリの入出力Xi、Yiバスを、四
辺方向に周辺回路を介して直接チップ外端子に接続して
なる並列プロセッサシステムである。
That is, the configuration of the present invention comprises an element array in which a plurality of processor units each including a processor and a memory are two-dimensionally arranged, and the memory is provided with an input / output unit having at least three ports. A multi-port memory having the same, and the multi-port memories are arranged in a mesh, and the first and second ports of the multi-port memory are connected to a mesh data bus, and the third port is connected to a corresponding processor. It is a parallel processor system in which a mesh network is constructed on a single chip. Further, it is a parallel processor system in which the input / output Xi and Yi buses of this multi-port memory are directly connected to the external terminals of the chip through peripheral circuits in the four sides.

【0020】更にまた、その多ポートメモリの入出力X
i、Yiバスへの転送を、前記多ポートメモリ内部の行
構造に合わせて行単位の複数データを群転送にして行
い、且つ前記入出力Xi、Yiバスへのアドレスカウン
タを共有させて、前記入出力Xi、Yiバスあるいは前
記入出力Xi、Yiバスを介して周辺回路及び外部端子
へ前記入出力Xi、Yiバスと同時に転送を行わせるよ
う構成した並列プロセッサシステムである。
Furthermore, the input / output X of the multi-port memory
Transfer to the i, Yi buses is performed by group transfer of a plurality of data in row units according to the row structure inside the multi-port memory, and the address counters for the input / output Xi, Yi buses are shared, It is a parallel processor system configured to transfer simultaneously with the input / output Xi, Yi bus to a peripheral circuit and an external terminal via the input / output Xi, Yi bus or the input / output Xi, Yi bus.

【0021】更にまた、その多ポートメモリを複数配置
し、且つ網目状に配列された各プロセッサの動作と平行
して上記多ポートメモリ間の相互データ授受を独立に行
うよう構成した並列プロセッサシステムである。
Furthermore, a parallel processor system in which a plurality of the multi-port memories are arranged and the mutual data exchange between the multi-port memories is independently performed in parallel with the operation of each processor arranged in a mesh pattern. is there.

【0022】そして更に、複数の2次元的且つ網目状に
配列されたプロセッサと、このプロセッサを収納してな
るパッケージと、前記プロセッサに直接入出力する入出
力Xi、Yi、Ziバスと、前記パッケージの一面に配
置してなり前記Ziバスを介して外部端子へ前記プロセ
ッサ群からのZ方向のデータ授受を行い、複数データの
転送を行う受・発光素子とを具備してなる並列プロセッ
サシステムである。
Further, a plurality of processors arranged in a two-dimensional and mesh pattern, a package accommodating the processors, input / output Xi, Yi, Zi buses for direct input / output to / from the processor, and the package A parallel processor system, which is arranged on one surface and which receives and emits data in the Z direction from the processor group to an external terminal via the Zi bus and transfers a plurality of data. .

【0023】そして更に、プロセッサ及びメモリからな
るプロセッサユニットを複数個2次元的に配列された要
素列を具備してなるものにおいて、前記メモリを少なく
とも3ポート以上の入出力部を有する多ポートメモリと
し、且つ前記多ポートメモリを網目状に配置し、前記多
ポートメモリの第1および第2のポートを網目状のデー
タバスに、第3のポートを対応するプロセッサに各々接
続して、網目状のネットワークを形成し、前記入出力X
i、Yiバスを各々時分割し、CLOCK期間はXiバ
スをメモリに接続し、Yiバスは外部端子及び周辺回路
に接続しCLOCK期間はYiバスを前記メモリに接続
し、Xiバスを外部端子及び周辺回路に接続してなる並
列プロセッサシステムである。
Further, in a device comprising a plurality of processor units each including a processor and a memory arranged two-dimensionally, the memory is a multi-port memory having an input / output unit of at least three ports. , The multi-port memories are arranged in a mesh, and the first and second ports of the multi-port memory are connected to a mesh data bus and the third port is connected to a corresponding processor. Forming a network, the input and output X
The i and Yi buses are each time-divided, the Xi bus is connected to the memory during the CLOCK period, the Yi bus is connected to an external terminal and peripheral circuits, the Yi bus is connected to the memory during the CLOCK period, and the Xi bus is connected to the external terminal. It is a parallel processor system connected to peripheral circuits.

【0024】[0024]

【作用】本発明の並列プロセッサシステムは、複数の2
次元的に配列されたプロセッサ及び少なくとも3ポート
以上の入出力部を有する多ポートメモリからなる要素列
を具備してなるものにおいて、前記多ポートメモリを網
目状に配置し、前記多ポートメモリの第1のポートを網
目状のデータバスに、第2のポートを対応するプロセッ
サに各々接続して、網目状のネットワークを単一のチッ
プ上に構成することによって、複数個のPE間通信及び
ホストコンピュータとのネットワーク通信の能力を大き
く向上することのできる。
The parallel processor system of the present invention has a plurality of two processors.
A multi-port memory comprising a multi-port memory having an array of processors and a multi-port memory having at least three-port input / output units, wherein the multi-port memory is arranged in a mesh pattern. By connecting one port to a mesh data bus and connecting the second port to a corresponding processor to form a mesh network on a single chip, communication between a plurality of PEs and a host computer The ability of network communication with can be greatly improved.

【0025】[0025]

【実施例】以下、本発明の実施例について説明する。図
1に本発明の実施例である並列プロセッサシステムを示
す。この並列プロセッサシステムは、図1(a)に示す
ように、32bit構成のPE(1)とこのPE(1)
に接続され且つ32bit構成のX、Yバス(4)、
(5)に接続された16KB3PORT高速RAM
(2)とからなるPEユニット(3)を複数個網目状に
配置してなり、このPE(1)は高速RAM(2)に接
続される一方、外部のホストコンピュータ(6)にブロ
ードキャストバッファ(7)とオプチカルブロードキャ
ストネットワークのB(ブロードキャスト)ポート
(8)を介して接続されている。これらのPEユニット
(3)は、RE+RAMを一組として(2N )2個(こ
こでは、N=2として16個が配置されている。)をメ
ッシュ状に並べ、図1(b)に示すように、一個のLS
I装置(11)の中に1チップ(10)で構成され、チ
ップ内を縦横に走るX・Yバス(3)、(4)は、X・
YのI/Oポートバッファ(12)を介してチップ(1
0)外のポート(I/Oピン)(13)に出力(入力)
される。このI/Oピン(13)の入出力のピン数は、
1チャンネル(1ch)に関し32×4=128(本)
で、四辺合わせて128×4=512本で構成されてい
る。
EXAMPLES Examples of the present invention will be described below. FIG. 1 shows a parallel processor system which is an embodiment of the present invention. As shown in FIG. 1A, this parallel processor system includes a PE (1) having a 32-bit configuration and the PE (1).
32 bit X, Y bus (4)
16KB3PORT high-speed RAM connected to (5)
A plurality of PE units (3) each consisting of (2) are arranged in a mesh pattern, and the PE (1) is connected to the high-speed RAM (2) while the external host computer (6) receives a broadcast buffer ( 7) and the B (broadcast) port (8) of the optical broadcast network. These PE units (3) include RE + RAM as a set (2 N ) Two pieces (here, 16 pieces are arranged with N = 2) are arranged in a mesh shape, and one LS is formed as shown in FIG.
The I / O device (11) is composed of one chip (10), and the X and Y buses (3) and (4) that run vertically and horizontally in the chip are X and Y buses.
Through the Y I / O port buffer (12), the chip (1
0) Output (input) to external port (I / O pin) (13)
To be done. The number of input / output pins of this I / O pin (13) is
32 × 4 = 128 (pieces) for one channel (1ch)
Thus, the total of four sides is 128 × 4 = 512.

【0026】各PE(1)の上部から、即ち、Z方向へ
伸びるZバス(14)は、チップ(10)内のブロード
キャストリングバス(15)に接続されており、更に、
外部のシステム共通のブロードキャストバスに接続され
ている。この外部のシステム共通のブロードキャストバ
スは、オプチカルブロードキャストネットワーク(8)
内に設けられ、光ケーブル(16)を用いた光結合リン
クで構成され、各チップ(10)から一本以上の光ケー
ブルで、ブロードキャストバッファ(7)を介してホス
トコンピュータ(6)に接続されている。ここで、PE
ユニット(3)の詳細な構造を図2で示しておく、図2
(a)は、メッシュ状に配列されているPEユニットの
一つを拡大して示している。また、図2(b)は、PE
ユニット(3)の中のPE(プロセッサエレメント)
(1)のメモリ(2)が他のメモリ(2)と直接データ
交換する関係について、X・Yバスを省略して模式的に
示している。即ち、メモリ(2)を高速マルチポートR
AMで構成することによって、先ずメモリ同志で直接メ
モリ間の高速データ交換できるので、他のPEユニット
内のPE間とのデータ通信を迅速に行うことができるの
である。
The Z bus (14) extending from the top of each PE (1), that is, in the Z direction is connected to the broadcast ring bus (15) in the chip (10), and further,
It is connected to a broadcast bus common to external systems. This external system-wide broadcast bus is an optical broadcast network (8).
An optical coupling link using an optical cable (16) is provided inside, and each chip (10) is connected to a host computer (6) via a broadcast buffer (7) by one or more optical cables. . Where PE
A detailed structure of the unit (3) is shown in FIG.
(A) is an enlarged view of one of the PE units arranged in a mesh. In addition, FIG.
PE (processor element) in the unit (3)
The relationship in which the memory (2) of (1) directly exchanges data with another memory (2) is schematically shown by omitting the XY bus. That is, the memory (2) is connected to the high-speed multiport R
With the AM configuration, the memories can directly exchange high-speed data directly between the memories, so that the data communication with the PEs in the other PE units can be performed quickly.

【0027】次に、本願発明の並列プロセスシステムを
大型並列スーパーコンピュータに適用した場合の構成に
ついて説明する。図3は、本発明の並列プロセスシステ
ムのLSI装置(11)を64チップ組み合わせて構成
した場合について示している。即ち、図1で示したPE
(1)と3ポートメモリ(2)とからなるPEユニット
(3)を16個組み合わせて構成されている1チップの
搭載されたLSI装置(11)を、全ては図示しない
が、縦横8列(8×8=64チップ)に配置している。
即ち、1024個のPEユニットを具備して構成されて
いる。
Next, the configuration when the parallel process system of the present invention is applied to a large parallel supercomputer will be described. FIG. 3 shows a case where the LSI device (11) of the parallel process system of the present invention is configured by combining 64 chips. That is, the PE shown in FIG.
Although not shown, all of the LSI devices (11) mounted with one chip, which are configured by combining 16 PE units (3) each including (1) and a 3-port memory (2), are arranged in 8 rows and 8 columns ( (8 × 8 = 64 chips).
That is, it is configured to include 1024 PE units.

【0028】LSI装置(11)は図1(b)で示した
チップ(10)のXiバス、YiバスがN、E、W、S
の各方向に設けられたバッファ(12)およびI/F回
路(図示せず)を介して外部ピン(13)に接続されて
構成されているが、それぞれのLSI装置(11)は、
この外部ピン(13)を介してこれらLSI装置(1
1)外に設けられている外部バス(17、18)のxi
バス、yiバスに接続されている。即ち、LSI装置
(11)内のチップ(10)は、外部バス(17、1
8)によって64個が並列的にメッシュ状に接続されて
いる。LSI装置(11)のZ方向の入出力は、光ケー
ブル(16)によってそれぞれのLSI装置(11)か
ら前述(図1)したステム共通のブロードキャストバス
(8)によってブロードキャストバッファ(7)を介し
てホストコンピュータ(6)に接続されている。
In the LSI device (11), the Xi bus and Yi bus of the chip (10) shown in FIG. 1B are N, E, W and S.
Are connected to an external pin (13) via a buffer (12) and an I / F circuit (not shown) provided in each direction of the respective LSI devices (11),
Through these external pins (13), these LSI devices (1
1) xi of external buses (17, 18) provided outside
It is connected to the bus and yi bus. That is, the chip (10) in the LSI device (11) is connected to the external bus (17, 1).
According to 8), 64 pieces are connected in parallel in a mesh shape. The input / output in the Z direction of the LSI device (11) is performed by the optical cable (16) from the respective LSI devices (11) via the broadcast bus (8) common to the system described above (FIG. 1) via the broadcast buffer (7) to the host. It is connected to a computer (6).

【0029】尚、チップ内バス(4、5)のXiバス、
Yiバスと、外部バス(17、18)のxiバス、yi
バスとの関係は、図4に示すように、動作クロックCL
Kを、その位相に応じてCLK、/CLKの2相(フェ
ーズ)にし、それぞれのX、Y両軸のバスが衝突しない
ように構成されている。例えば、チップ内部バスのxi
バスは、xi→Xi→xi+1の順にバス経路となると
共に、チップ内のPE間の接続バスとしても機能するこ
とになる。このように転送全体を2相化し、動作を交互
化することによって、全体の転送効率を落とすことなく
システム構成を単純化している。
The Xi bus of the on-chip buses (4, 5),
Yi bus and xi bus of external bus (17, 18), yi
The relationship with the bus is as shown in FIG.
K is set to two phases (phase) of CLK and / CLK according to the phase so that buses of both X and Y axes do not collide. For example, xi of the chip internal bus
The bus becomes a bus path in the order of xi → Xi → xi + 1 and also functions as a connection bus between PEs in the chip. In this way, by making the entire transfer into two phases and alternating the operations, the system configuration is simplified without lowering the overall transfer efficiency.

【0030】このようにして超並列スーパーコンピュー
タが構成されている。この構成の一部を概観的に見る
と、図5に示すように、各チップ(10)からのZ方向
の入出力は、光接続装置(19)を介して光ケーブル
(16)でホストコンピュータ等と接続されている。
A massively parallel supercomputer is constructed in this way. When a part of this configuration is roughly seen, as shown in FIG. 5, input / output in the Z direction from each chip (10) is performed by an optical cable (16) via an optical connection device (19) to a host computer or the like. Connected with.

【0031】[0031]

【発明の効果】本発明によれば、VLSIコンピュータ
に本質的に適した並列/超並列スーパーコンピュータを
構成でき、複数個のPE間通信およびホストコンピュー
タとのネットワーク通信の能力を大きく向上させること
ができる。
According to the present invention, a parallel / super-parallel supercomputer essentially suitable for a VLSI computer can be constructed, and the ability of communication between a plurality of PEs and network communication with a host computer can be greatly improved. it can.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本願発明のシステムを説明するブロック構成
図。
FIG. 1 is a block configuration diagram illustrating a system of the present invention.

【図2】 本願発明の一部要部を説明するブロック構成
図。
FIG. 2 is a block diagram illustrating a part of a main part of the present invention.

【図3】 本発明のシステムを超並列スーパーコンピュ
ータに適用した場合のシステム構成図。
FIG. 3 is a system configuration diagram when the system of the present invention is applied to a massively parallel supercomputer.

【図4】 図4で示したシステムの動作説明図。FIG. 4 is an operation explanatory diagram of the system shown in FIG.

【図5】 本発明のシステムを適用した超並列スーパー
コンピュータの一部外観図。
FIG. 5 is a partial external view of a massively parallel supercomputer to which the system of the present invention is applied.

【図6】 従来に並列プロセッサシステムの構成図。FIG. 6 is a block diagram of a conventional parallel processor system.

【符号の説明】[Explanation of symbols]

1 PE 2 メモリ 3 PEユニット 4 Xバス 5 Yバス 1 PE 2 memory 3 PE unit 4 X bus 5 Y bus

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 プロセッサ及びメモリからなるプロセッ
サユニットを複数個2次元的に配列された要素列を具備
してなるものにおいて、前記メモリを少なくとも3ポー
ト以上の入出力部を有する多ポートメモリとし、且つ前
記多ポートメモリを網目状に配置し、前記多ポートメモ
リの第1および第2のポートを網目状のデータバスに、
第3のポートを対応するプロセッサに各々接続して、網
目状のネットワークを単一のチップ上に構成したことを
特徴とする並列プロセッサシステム。
1. A multi-port memory having a plurality of processor units each including a processor and a memory, the array of elements being arranged two-dimensionally, wherein the memory is a multi-port memory having at least three input / output ports. Moreover, the multi-port memories are arranged in a mesh pattern, and the first and second ports of the multi-port memory are arranged in a mesh data bus,
A parallel processor system characterized in that a mesh-like network is formed on a single chip by connecting each of the third ports to a corresponding processor.
【請求項2】 請求項1記載の多ポートメモリの入出力
Xi、Yiバスを、四辺方向に周辺回路を介して直接チ
ップ外端子に接続してなることを特徴とする並列プロセ
ッサシステム。
2. A parallel processor system in which the input / output Xi and Yi buses of the multi-port memory according to claim 1 are directly connected to external terminals of the chip in the four sides via peripheral circuits.
【請求項3】 請求項1記載の多ポートメモリの入出力
Xi、Yiバスへの転送を、前記多ポートメモリ内部の
行構造に合わせて行単位の複数データを群転送にして行
い、且つ前記入出力Xi、Yiバスへのアドレスカウン
タを共有させて、前記入出力Xi、Yiバスあるいは前
記入出力Xi、Yiバスを介して周辺回路及び外部端子
へ前記入出力Xi、Yiバスと同時に転送を行わせるよ
う構成したことを特徴とする並列プロセッサシステム。
3. The input / output Xi and Yi buses of the multiport memory according to claim 1 are transferred by grouping a plurality of data in row units according to a row structure inside the multiport memory, and The input / output Xi, Yi bus is shared with the input / output Xi, Yi bus or the input / output Xi, Yi bus to the peripheral circuit and the external terminal to simultaneously transfer the input / output Xi, Yi bus. A parallel processor system characterized by being configured to perform.
【請求項4】 請求項1記載の多ポートメモリを複数配
置し、且つ網目状に配列された各プロセッサの動作と平
行して前記多ポートメモリ間の相互データ授受を独立に
行うよう構成したことを特徴とする並列プロセッサシス
テム。
4. A multi-port memory according to claim 1, wherein a plurality of multi-port memories are arranged, and the mutual data transfer between the multi-port memories is independently performed in parallel with the operation of each processor arranged in a mesh. A parallel processor system.
【請求項5】 複数の2次元的且つ網目状に配列された
プロセッサと、このプロセッサを収納してなるパッケー
ジと、前記プロセッサに直接入出力する入出力Xi、Y
i、Ziバスと、前記パッケージの一面に配置してなり
前記Ziバスを介して外部端子へ前記プロセッサ群から
のZ方向のデータ授受を行い、複数データの転送を行う
受・発光素子とを具備してなることを特徴とする並列プ
ロセッサシステム。
5. A plurality of processors arranged in a two-dimensional and mesh pattern, a package accommodating the processors, and inputs / outputs Xi, Y for directly inputting / outputting to / from the processor.
i, Zi buses, and a light receiving / light emitting element which is arranged on one surface of the package and which transfers data in the Z direction from the processor group to external terminals via the Zi bus and transfers a plurality of data. A parallel processor system characterized by the following.
【請求項6】 プロセッサ及びメモリからなるプロセッ
サユニットを複数個2次元的に配列された要素列を具備
してなるものにおいて、前記メモリを少なくとも3ポー
ト以上の入出力を有する多ポートメモリとし、且つ前記
多ポートメモリを網目状に配置し、前記多ポートメモリ
の第1および第2のポートを網目状のデータバスに、第
3のポートを対応するプロセッサに各々接続して、網目
状のネットワークを形成し、前記入出力Xi、Yiバス
を各々時分割し、CLOCK期間はXiバスをメモリに
接続し、Yiバスは外部端子及び周辺回路に接続し、C
LOCK期間はYiバスを前記メモリに接続し、Xiバ
スを外部端子及び周辺回路に接続してなることを特徴と
する並列プロセッサシステム。
6. A multi-port memory having a plurality of processor units each including a processor and a memory, the array of elements being arranged two-dimensionally, wherein the memory is a multi-port memory having at least three ports of input and output, and The multiport memory is arranged in a mesh, and the first and second ports of the multiport memory are connected to a mesh data bus, and the third port is connected to a corresponding processor to form a mesh network. The input / output Xi and Yi buses are time-divided, the Xi bus is connected to the memory during the CLOCK period, the Yi bus is connected to the external terminal and the peripheral circuit, and C
A parallel processor system characterized in that a Yi bus is connected to the memory and a Xi bus is connected to an external terminal and a peripheral circuit during a LOCK period.
JP4228263A 1992-08-27 1992-08-27 Parallel processor system Pending JPH0675930A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4228263A JPH0675930A (en) 1992-08-27 1992-08-27 Parallel processor system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4228263A JPH0675930A (en) 1992-08-27 1992-08-27 Parallel processor system

Publications (1)

Publication Number Publication Date
JPH0675930A true JPH0675930A (en) 1994-03-18

Family

ID=16873738

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4228263A Pending JPH0675930A (en) 1992-08-27 1992-08-27 Parallel processor system

Country Status (1)

Country Link
JP (1) JPH0675930A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6027157A (en) * 1997-08-18 2000-02-22 Daimlerchrysler Fastening arrangement for a window wiper system of a motor vehicle and method of making same
US6700085B2 (en) 2000-05-18 2004-03-02 Mitsumi Electric Co., Ltd. Push switch with improved click spring
JP2009110512A (en) * 2007-10-29 2009-05-21 Internatl Business Mach Corp <Ibm> Network-on-chip and method for processing data by the same
JP2009116813A (en) * 2007-11-09 2009-05-28 Japan Aerospace Exploration Agency Custom-made computer for large scale computing
JP2012518843A (en) * 2009-02-19 2012-08-16 マイクロン テクノロジー, インク. Memory network method, apparatus, and system
EP3118742A1 (en) 2015-07-13 2017-01-18 Fujitsu Limited Information processing apparatus, parallel computer system, file server communication program, and file server communication method
US9984026B2 (en) 2015-05-11 2018-05-29 Nakaikegami Koubou Co., Ltd. Circuit, parallel computing device, computer system and computer readable storage medium
CN114168526A (en) * 2017-03-14 2022-03-11 珠海市芯动力科技有限公司 Reconfigurable parallel processing

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6027157A (en) * 1997-08-18 2000-02-22 Daimlerchrysler Fastening arrangement for a window wiper system of a motor vehicle and method of making same
US6700085B2 (en) 2000-05-18 2004-03-02 Mitsumi Electric Co., Ltd. Push switch with improved click spring
JP2009110512A (en) * 2007-10-29 2009-05-21 Internatl Business Mach Corp <Ibm> Network-on-chip and method for processing data by the same
JP2009116813A (en) * 2007-11-09 2009-05-28 Japan Aerospace Exploration Agency Custom-made computer for large scale computing
JP2012518843A (en) * 2009-02-19 2012-08-16 マイクロン テクノロジー, インク. Memory network method, apparatus, and system
JP2014157628A (en) * 2009-02-19 2014-08-28 Micron Technology Inc Memory network systems and methods
US10681136B2 (en) 2009-02-19 2020-06-09 Micron Technology, Inc. Memory network methods, apparatus, and systems
US9984026B2 (en) 2015-05-11 2018-05-29 Nakaikegami Koubou Co., Ltd. Circuit, parallel computing device, computer system and computer readable storage medium
EP3118742A1 (en) 2015-07-13 2017-01-18 Fujitsu Limited Information processing apparatus, parallel computer system, file server communication program, and file server communication method
US10367886B2 (en) 2015-07-13 2019-07-30 Fujitsu Limited Information processing apparatus, parallel computer system, and file server communication program
CN114168526A (en) * 2017-03-14 2022-03-11 珠海市芯动力科技有限公司 Reconfigurable parallel processing
CN114168526B (en) * 2017-03-14 2024-01-12 珠海市芯动力科技有限公司 Reconfigurable parallel processing

Similar Documents

Publication Publication Date Title
US4942517A (en) Enhanced input/output architecture for toroidally-connected distributed-memory parallel computers
US5485627A (en) Partitionable massively parallel processing system
JP3992148B2 (en) Electronic circuit boards for building large and scalable processor systems
US5630162A (en) Array processor dotted communication network based on H-DOTs
US5617577A (en) Advanced parallel array processor I/O connection
US5428803A (en) Method and apparatus for a unified parallel processing architecture
US8058899B2 (en) Logic cell array and bus system
US7595659B2 (en) Logic cell array and bus system
EP0334954B1 (en) Layered network
KR100302981B1 (en) Tightly coupled emulation processors
JP3090593B2 (en) Scalable parallel processing network and node interconnection method
JPH0713945A (en) Bus structure of multiprocessor system with separated arithmetic processing part and control/storage part
JPH0675986A (en) Large scale parallel computing system device
US8006067B2 (en) Flexible results pipeline for processing element
US7409529B2 (en) Method and apparatus for a shift register based interconnection for a massively parallel processor array
JPH0675930A (en) Parallel processor system
US5765015A (en) Slide network for an array processor
US5261056A (en) N-port wide bandwidth cross-link register
JP2549241B2 (en) Computer system
JPH0636060A (en) Array-processor used for slide-network
Drefenstedt et al. On the physical design of butterfly networks for PRAMs
Butner et al. A fault-tolerant GaAs/CMOS interconnection network for scalable multiprocessors
US5913070A (en) Inter-connector for use with a partitionable massively parallel processing system
JPH0713957A (en) Parallel processor
JPH11275613A (en) Cross-bar switch, sub-crossbar switch unit, parallel computer, telephone exchange, and frame data exchange