JPS5899869A

JPS5899869A - 並列処理方式

Info

Publication number: JPS5899869A
Application number: JP19739181A
Authority: JP
Inventors: Hiroshi Hatsuda; 発田　弘
Original assignee: NEC Corp; Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1981-12-08
Filing date: 1981-12-08
Publication date: 1983-06-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の属する技術分野〕本発明はデータ処理装置における並列処理方式に関する
ものである。

〔従来技術の説明〕

従来、演算処理を高速化する方法の一つとして並列処理
が広く知られている。この並列処理は処理すべきプログ
ラムの中で並列に実行できる部分を各々異なるプロセッ
サで実行し、ｙ台のプロセッサで理想的にはｙ倍の性能
を特徴とする特許である（実際には並列に実行できない
部分があるのでこれ以下の性能しか得られないが）。

従来の一例を第１図に示す。この例ではＮ台のプロセッ
サＬ、　、Ｌ、％・・・・−％Ｌ、がメモリスイッチ２
を介してＮ台のメモリＬ、　、Ｌ、　、・・・・・・、
３−ＭＫアクセスし、各プロセッサ１−１　（ｉ＝１〜
Ｎ）は各々独立にプログラムを実行できるように構成さ
れている。制御プロセッサ５は通信インタフェース６全
通してプロセッサ１−４．１−２、・−・・・％　ＬＮ
にプログラムの実行開始を指示し、かつ通信インタフェ
ース７を通して各プロセッサ１−１からプログラムの実
行終了の通知を受理−するように構成されている。この
制御プロセッサ５の制御により、Ｎ台のプロセッサｉ−
，％　ｉ−２％・・・・・・、１−Ｎは解くべきプログ
ラム中の並列処理部分について分担して実行する。たと
えば、ａｌ　−）−ｂ、　＃　ａ２＋ｂ２　ｅ　＝”　””　
ｅ　”Ｈ＋ｂＮという計算であれば１番目のプロセッサ
が＆１＋　ｂｌを計算する。

従来このような並列処理システムの性能を高めるＫは各
プロセッサの性能を高くするか、または台数を増やす必
要がある。従来、各プロセッサの性能を高めると、プロ
セッサの物理的サイズが大きくなり多数並べることが困
難になるため装置の大きさの点で限界かあね、またプロ
セッサの台数を増やすと、メモリスイッチの構成が複雑
になり実現が困難になる。たとえば、完全なりロスバス
イツチで考えると、プロセッサ台数とメモリ台数を２倍
にするとスイッチの規模は４倍になる。また、こうした
制約のためにメそり台数を少なくすると、メモリの性能
（スループット）が隘路となり、プロセッサの性能が高
くてもメモリ待ち罠なって十分に性能を発揮することが
できない。従来、上記欠点のために大規模で超高性能の
並列処理システムはほとんど実用化されていない。

〔発明の目的〕

本発明の目的は、並列処理を分担する各プロセッサに多
重命令ストリームプロセッサ方式を採用するととによシ
、上記欠点を解決して、大規模で超高性能の並列処理シ
ステムを提供するところＫある。

〔発明の要旨〕

本発明は、６各が異なるプログラムを実行できる仮想プ
ロセッナ複数台とこの全仮想プロセッサで共有されるプ
四グラム格納用メモリ装置とこの全仮想プロセッサで共
有されるデータ格納用の第一のメモリ装置とを含む多重
命令ストリーム方式の演算処理装置複数台と、並列処理
データが記憶される複数台の第二のメモリ装置と、任意
の上記演算処理装置から任意の上記第二のメモリ装置へ
のアクセスを可能にするメモリスイッチと、このメモリ
スイッチおよび上記演算処理装置を制御する制御プロセ
ッサと、この制御プロセッサから上記全仮想プロセッサ
にプログラムの実行開始を指示する通信手段と、上記各
仮想プロセッサから上記制御プロセッサにプログラムの
実行終了を通知する通信手段とを備え、上記制御プロセ
ッサの制御により一つのプログラム中の並列処理部分を
上記全仮想プロセッサにより並行に実行することを特徴
とする。

なお上記第一のメモリ装置は、キャッシュメモリまたは
上記第二のメモリ装置とは別のアドレス指定方法でアク
セスできるローカルメモリであることが好ましい。

〔発明の原理と作用〕

本発明では並列処理を分担する各プロセッサに多重命令
ストリーム方式を採用して１台の物理的プロセッサ中に
複数の仮想プロセッサを実現し、物理的なプロセッサ台
数を増やさずに実効的なプロセッサ台数を増やしている
。

ここで多重命令ストリーム方式プロセッサの原理につい
て簡単に説明する（詳しくはＭ、、Ｔ、ＩＰｌｙｎｎ「
８ｈａｒ＠ｄ工ｎｔｅｒｎａ’ｌ　Ｒｅ５ｏｕｒｃｅｓ
　ｉｎ　ａ　Ｍｕｌｔｉｐｒｏｏｅｓ−ｓｏｒＪ　ｐｐ
５６５−５６９．Ｐｒｏｃ、ｏｆ工ｎｆｏｒｍａｔｉｏ
ｎ　Ｐｒｏａｅｓｓ−ｉｎｇ　７１，１ｉｏｒｆｈ−Ｈ
ｏｌｌａｎｓｌ　Ｐｕｂｌｉｓｈｉｎｇ　Ｃｏ、（１９
７２）などに報告されている）。この方式のプロセッサ
では「命令語の取出・解読」、「オペランドの取出」、
「演算」という命令の実行の段階がパイプラインで構成
され、取出した命令は各段階毎に独立した処理回路を通
って行く過程で実行される。すなわち第２図に多重命令
ストリーム方式のプロセッサの動作の一例を示す、第２
図において命令■は命令取出・解読回路で取出されて解
読されると、次のオペランド取出の処理回路にその結果
がわたされ、そこでオペランドが取出されると演算回路
に取出されたオペランドがわたされる。演算回路もパイ
プライン化されていて演算１と演算２の処理を経て実行
が完了する。

ここで各段階での処理時間をΔＴとすれば、上記処理に
４Ｘノτ時間かかることＫなる。一方命令取出・解読回
路は命令■に対する処理を完了すると、次の１７時間に
は命令■の取出・解読をはじめるが、このとき命令■は
命令■と異なるプログラムから取出す、この例では第３
図に示すように４つの独立なプログラムがあり、そのプ
ログラムの中から順番に命令を取出す。その利点は、も
し同一のプログラムから続けて次の命令（この例では命
令■′）を取出すと、命令■の実行が完了するまてその
命令の実行条件が定まらないことがあるので（たとえば
命令■で演算した結果を次の命令がオペランドとして使
用する場合など）、その命令は無条件には実行すること
ができず、命令を実行してよいか否かを判断するのに機
械な制御を必要とする上、もし次の命令が前の命令の演
算結果に基づくときＫは、前の命令の実行が完了するま
で待たねばならず演算回路の使用効率が低下するのに対
し、独立なプログラムの命令であれば無条件に実行でき
制御が簡単でしかも演算回路の遊休化も避けられる点に
ある。

同一プローグラム内ではある命令の実行が完了してから
次の命令（第３図のプログラム◆１では命令■の次に命
令■′）を取出す−ようＫすれば上記の間、題がなく、
この例では４個以上のプログラムの命令を順番に実行す
ればその条件が満される。

その場合１台のプロセッサの中で４つの命令ストリーム
（プログラム）が並行して処理されていることになシ、
これは４台の仮想プロセッサが存在してそれぞれのプロ
グラムを実行していると見ることもできる。

一般にパイプラインを８段にすると８個のプログラム（
命令ストリーム）を実行することができ、８台の仮想プ
ロセッサが実現される。当然のことな、がら８個以上の
プログラムを実行するようＫし、８台以上の仮想プロセ
ッサを実現することもできる。この場合Ｎ台のプロセッ
サがあればソフトウェア的にはＭＸＳ台の（仮想の）プ
ロセッサが存在するのと等しくなる。これを並列処理シ
ステムに応用すればＮ台のプロセッサに対するメモリス
イッチで８Ｘｌｉ台のプロセッサと等価のシステムを構
成できることにな９、従来方式のように８×Ｎ台の実プ
ロセツサを並べるのに比しメモリスイッチの規模がはる
かに小さくなる。

これを利用した並列処理システムは、第１図においてプ
ロセッサｌ、　、Ｌ２、・−・・・、１−Ｎヲ多重命令
ス）　ＩＪ−人吉式の演算処理装置としたもので、この
多重命令ストリームプロセッサが８台の仮想プロセッサ
を含むとすれば、合計ＢＸＭ台のプロセッサ（仮想プロ
セッサ）Ｋよる並列処理が実現する。各仮想プロセッサ
は制御プロセッサ５からの並列処理開始指示を受けて、
与えられたグログラムの実行を開始し、それが終了する
と制御プロセッサに通知する。

本システムではこのための両方向の通信手段が必要であ
るが、従来方式に比し賽プロセッサの台数が少ないので
この通信手段を実現する上でも有利である。すなわち制
御プロセッサ５から仮想プロセッサへ通信する場合には
実プロセツサがやけてその中の仮想プロセッサに分配す
ればよく、もし８台の仮想プロセッサが各実プロセツサ
中にあるとすれば１７８のインタフェースで済む、仮想
プロセッサから制御プロセッサへの通信についても同様
である。

各演算処理装置（実プロセツサ）はメモリスイッチに接
続され、このメモリスイッチを介して同じくメモリスイ
ッチに接続されている複数のメモリ装置の中の任意のメ
モリ装置にアクセスすることができる。このメモリ装置
中には並列処理のためのデータが格納される。

このようなシステムではメモリスイッチおよびメモリ装
置の能力がシステムの隘路になりがちであシ、各演算処
理装置内にキャッシュメモリを設けて、この演算処理装
置内の全仮想プロセッサによってこのキャッシュメモリ
を共用することでこの問題を軽減できる。す表わちある
仮想プロセッサがメモリ装置中のデータにアクセスする
と、このデータを含むブロック（通常歌語〜数十語）が
キャッシュメモリ中に取込まれるが、同一演算処理装置
内の他の仮想プロセッサはそのブロック中のデータを処
理に使用する可能性が高い（あるいは高くなるようにプ
ログラムの構造を考えることが可能である）ので、ラン
ダムにメモリ装置へのアクセスが発生することが避けら
れる。これは−語句のランダムなアクセスよりもブロッ
ク単位のアクセスの方がスループットを高めるためＫは
有利だからである。さらＫこれにより、平均のアクセス
タイムも短縮できる。

またキャッシュメモリでなく、これをプログラムから見
える特別のメモリ装置にして同様の効果を出すこともで
きる。この場合には各プロセッサに内蔵される高速メモ
リとし、前記メモリ装置とは別のアドレス指定方法によ
りアクセスされる。

各仮想プロセッサが実行するプログラムは各演算処理装
置にプログラム用の専用メモリを内蔵させてここに格納
する。一般に並列処理の場合には。

各仮想プロセッサは同一の処理手順（命令ストリーム）
を実行し、データのみが異なることで十分なものが多い
のでこのプログラム用メモリｌｃ格納された１つの処理
手順を複数の仮想プロセッサが共用すればメモリの節約
になるとともにメモリスイッチ２を介してメモリＬ、％
　　Ｌ、％　・・・・・・、３−Ｍへアクセスする頻度
を減らすことができるのて、メモリスイッチλおよびメ
モリ３がシステム性能の隘路となることを避けられる（
前記キャッシュメモリとの併用でより効果が大きくなる
）。−同一の処理手順を実行しても各々の仮想プロセッ
サ毎にデータ社員なるので条件分岐の条件が異なり、す
べてが同一の命令を同一の順序で実行するとは限らない
。当然各仮想プロセッサ毎に異なるプログラムを実行さ
せることもできる。

〔実施例による説明〕

次に本発明について図面を参照して詳細に説明する。

第４図は本発明一実施例システムの構成図である。第４
図において各符号は第１図の各符号にそ、れぞれ対応す
る６本実施例の特徴ある構成は、プロセッサｌの台数Ｎ
−１！、メモリ３の台数Ｍ＝５２であって、各プロセッ
サ１−ｘ　（１＝１〜１６）は多重命令ストリーム方式
のプロセッサである。各プロセッサ１−１の中で８個の
プログラムストリームが実行される。

メモリ３−ｊ　（ｊ工１〜３２）は完全なりロスパ一方
式により構成され、複数のプロセッサ１−１から同時に
メモリアクセスが発生しても同一のプロセッサ１ヘアク
セスしないかぎり競合は起らないようになっている。ま
た制御プロセッサ５には、２台の専用の制御プロセッサ
メモリ９−１．９−２　カ１１続される。また制御プロ
セッサ５は、メモリスイッチ２を介してメモリ３−１．
３−２、・−・・・・、３−Ｓ！に接続され、各メモリ
ｌｊへもアクセスできるようＫなつ（いる、ｉ５らにｗ
４ａプロセッサ５は通信インタフェースｌＯを介して各
プロセッサ１−１に接続され、各プロセッサ１−１との
間で通信できるように構成される。第５図り、第４図に
示した１台のプロセッサ１の詳細なブロック構成図であ
る。

１１は多重（この例では８個）の命令ストリームを実行
するための制御メモリで、この制御メモ＋７１１の内容
は各命令ストリームに対応した８個の領域に分割される
。各分割された領域内に社命令ストリームを実行するの
に必要な命令アドレス、演算用レジスタなどが格納され
ている。１２はプログラム格納用メモリで、このプロセ
ッサ１が実行すべきプログラムが格納される。

１３はパイプライン方式で構成された演算回路で、一定
時間（４丁）間隔でオペランドを豐は演算して結果を出
力する。　１４はメモリスイッチ２を介してメモリ３に
アクセスするための制御回路で、キャッシュメモリ１６
を内蔵する。また１５は通信制御回路であって、制御プ
ロセッサ５との通信を制御し、通信インタフェースｌＯ
と接続され、制御プロセッサ５からの指定（特定の仮想
プロセッサに対するもの、あるいはこのプロセッサ１の
中の全仮想プロセッサに対するもの）Ｋ従って制御情報
を各仮想プロセッサに与える。

制御情報の例としては命令ストリームの実行を開始する
「８ＴＡＲτ」、止めるｒｓＴｏｐ」などがある。これ
らの情報は各仮想プロセッサに対応した制御メモリ１１
の中の領域に格納する表どの方法により記憶され、その
後のプロセッサ１（すなわち各命令ストリーム）の動作
を制御するのに用いられる。プロセッサ１は「β丁ＡＲ
ＴＪ指令を受けて動作を開始し、所定の条件を満したと
き、あるいは「８ＴＯＰＪ指令を受けたときに動作を中
止する。

また、通信制御回路１５はプロセッサ１側から制御プロ
セッサ５へ通信インタフェースｌＯを介シて情報を伝え
るためＫも用いられ、たとえばｒ８ＴＡＲＴ」指令を受
けて実行開始後、特定の仮想プロセッサが実行を終了し
たなどの条件を満したときＫその実行終了を制御プロセ
ッサ５に伝えるのも通信制御回路１５である。

この実施例では１台のプロセッサ１内で８個の命令スト
リーム（すなわちプログラム）が時分割的に並列処理さ
れるがそれは以下のように実現される。

まず制御回路１４ｔ；を制御メモリ１１の中のプログラ
ムφ１の命令ストリーム用の命令アドレスレジスタを読
出してそのアドレスに従ってプログラム格納用メモリ１
２から命令を取出し、同時に命令アドレスレジスタの内
容を更新する。この命令は解読されて、必要なオペラン
ドが取出され８へ送られる。このオペランドはプログラ
ムφＩＫ対応した演算レジスタまたはメモリ３から取出
され、あるいはキャッシュメモリ１６内にあればここか
ら取出され、メモリ３へはアクセスしない。演算回路１
３から演算結果が出力されると、それは命令の指定に従
って制御メモリ１１の中のプログラム≠１に対応した演
算レジスタのいずれかに格納される０次に再び命令アド
レスレジスタを読出し次の命令の実行に移る。

以上はプログラム÷１の命令ストリームのみに注目して
述べているが、プロセッサｌは前述した多重命令ストリ
ーム方式のプロセッサで命令の取出しから実行まですべ
てをパイプライン方一式で処理シ、プログラムφ２〜Φ
８の命令ストリームも各々４７時間のずれで順番に命令
が取出され実行される。したがって一つの命令ストリー
ムに着目すれば８×Δ丁時間で一つの命令が実行される
Ｋすぎないが、プロセッサｌ内の８個の命令ストリーム
全体では１１時間毎に１個の命令が実行されているとと
になる。またこの動作は一つの命令ストリームに着目し
てみれば、１台の通常の方式のコンピュータで命令を実
行していく場合とまったく同じで、１台の８×ΔＴの命
令実行速度をもつ仮想プロセラすがその命令ストリーム
を専門に処理していると考えることができる。

本シス゛テムにおいてプログラムを実行するときの動作
は次のようになる。例として各々１２８個のデータム１
、ｊｌ（ｉ＝１〜１２Ｂ）Ｋ対して２８ Σ（ムｌ＋Ｂす１■１を計算する場合をとりあげる。演算開始前にデータＡｌ
、Ｂ１を制御プロセッサ５がメモリ３−ｊＫ入れる。た
とえばム、〜Ａ１１はメモリ３−１％Ａ９〜ム、６はメ
モリ３−２に格納し、ム、２゜〜Ａ＋２ａｔｉメモリ３
−１６に格納する。同様ＫＢ、〜Ｂ、はメモリ３−、ア
、Ｂ。

〜Ｂ１４はメモリ３−１８、Ｂ１２０−　”１２８はメ
モリ３−、、　Ｋ格納する。

各プロセッサＬ１はム１十Ｂ１を計算し結果をメモリ３
弓中の領域Ｃ１に格納する。これを計算するための命令
ストリーム（すなわち各仮想プロセッサのプログラム）
はプログラム格納用メモリ１２に格納されるが、すべて
の仮想プロセッサはデータが異なるのみで命令の組合わ
せは同じ（すなわちＡ１十Ｂ１→０１という動作はすべ
てのプロセッサｉ−１が同じ）であるので、プロセッサ
１−１にインデックスレジスタ等アドレス修飾の機能が
あれば、全プロセッサ１に対して１つの処理手順（プロ
グラム）があればよい。各プロセッサ１−１中の命令ア
ドレスレジスタＫＦｉそのプロセッサ１−１が実行すべ
き命令ストリームのアドレスが設定される。各プロセッ
サ１−１中には同時に実行される８つの命令ストリーム
に対応して８つの命令アドレスレジスタ（すなわち８台
の仮想プロセッサ）があり、その各々に設定される必要
がある。これらの設定は制御プロセッサ５の制御の下に
メモリＬｊからメモリスイッチ２を介して行われるか、
あるいは通信インタフェース１０を介して行われる。

以上の準備は制御プロセッサ５が行い、準備が完了する
と通信インタフェースを通して全プロセッサ１にｒ８Ｔ
ＡＲＴＪ指令を送出する。各プロセッサＬｉは制御メモ
リＨの中の命令アドレスレジスタ÷１に従って命令を取
出し、以下◆２〜＋８の命令アドレスレジスタの内容を
順次取出して実行していく。プロセッサ１−１を例にと
れば、ム１＋Ｂ１→Ｃ１の処理は命令アドレスレジスタ
ナ１で示される命令ストリーム（すなわち仮想プロセッ
サφ１）で処理され、以下ム２＋Ｂ２→Ｃ２からムｓ＋
Ｂ・→０８までの処理は仮想プロセッサφ２〜φ８によ
り多−束に処理される。

なお本例ではすべての仮想プロセッサの命令ストリーム
が同じ動作（ム１十Ｂ１→Ｏｉ）をするとしているが、
それぞれ異なっていてもよいし、条件分岐の入る場合に
は仮想プロセッサ毎に途中から動作が変わってくる可能
性がある。

ム１十Ｂ１→０１の処理を完了すると、処理の終了通知
を制御プロセッサ５に通信制御回路１５および通信イン
タフェースｌＯを介して行う。これＫより制御プロセッ
サ５は全仮想プロセッサの実行が終了したことを知って２８ ΣＣ１１尊１の処理をする。Ｃ１がメモリ３−ｊ中にあるとすればそ
れを順次取出して加算していく、プロセッサ１−１から
制御プロセッサ５への終了通知は、各仮想プロセッサで
処理が終る毎に通知する方法も考えられるが、この例の
ような場合には各プロセッサ１−。

内の全仮想プロセッサで処理が終了したとき圧制御プロ
セッサ５に通知すればよく、制御を簡単化できる。

またこの例では総和の計算を制御プロセッサ５が直列に
やるとしているが、プロセッサｌ−１で途中まで行えば
もつと高速化できる。すなわちたとえばＣ１＋０２＋・
・・・・・＋０−は１台のプロセッサ１−１の中で次の
ようＫすればよい＊　（Ｏｔ　＋Ｏｚ　）％　（Ｏｓ＋
０４）、（Ｃｓ＋　０４　）、（Ｏｙ＋０＠）の４つの
計算を４つの仮想プロセッサを使って並列に行い、その
結果をそれぞれＤｌ、Ｄ２、ＤＢ％Ｄ４とすると、次Ｋ
　（ＤＩ　＋Ｄ２　）、（Ｄｉ　＋Ｄ４　）を並列に行
い、その結果を”１　％　”２とすると最後１ｃ　Ｂ、
−ＨＣ２を行う。

これを各プロセッサ１−１でやれば、制御プロセッサ５
は１６台のプロセッサ１の残した１６の結果の総和をと
るだけでよい（前の例では１２８の加算を制御プロセラ
、す５がやることＫなる）。

またこの例では、プロセッサの台数を１６台、各プロセ
ッサの中で処理されるプログラムストリーム数を８個と
する例を示したが、この数に限定されるものではない。

またメモリの台数を３２台としたが、これはプロセッサ
の台数やメモリのアクセスタイム、メモリへのアクセス
頻度によって定められ、この数に限定されるものではな
い、またメモリの構成を完全なりロスバ一方式としたが
、他の構成の方式によりてもよい。

さらに制御プロセッサメモリの台数を２台としたが、こ
の数に限定さｎるもので杜ない。

このようＫこのシステムでは物理的に１６台のプロセッ
サで１２８の並列演算ができ、１２８台のプロセッサを
置いたのと同じ効果をもっている。もし実際に１２８台
のプロセッサを置いたとすると、メモリスイッチの規模
は本例のように１６Ｘ３２でなく、１２８×ｓ２以上に
しなければならず、コスト、装置の大きさ、性能などの
面で装置の実現上はるかに不利になる。

また本例におけるキャッシュメモリの効果は以下のよう
である。プロセッサＬ、を例として考えると、このプロ
セッサｌ−１中の仮襲プロセッサ÷１がデータム１をメ
モリ３−１へ取りに行ったとき、このメモリ３−１内に
データム４、ム２、・・・・・・、Ａ８が連続して格納
されていて１ブロツク内圧あれば（仁のブロックサイズ
は種々あり得るがここでは説明の便宜上８語で１ブロツ
クとする）、Ａ１、Ａ２、・・・・・・、ム８が全てキ
ャッシュメモリ中に持ってこられ、仮想プロセッサ÷２
〜＋８が使用するデータム２〜ムロはメモリ装置へ行か
すにキャッシュメモリから取出すことができる。すなわ
ちランダムな８回のメモリアクセスを１回のブロックア
クセスで代替できたことＫなる。Ｂ１についても同様で
ある。

またキャッシュメモリは一般にプログラムから見えない
が、これをプログラムに見える特別の高速メモリにして
もよい、この場合にはメモリ３をアクセスする場合とは
別のアドレス指定により命令で直接指定し、どの場所に
どのデータを入れておくかはその効果を考えてプログラ
ムが制御することＫなる。キャッシュメモリではこの制
御はハード９エア回路が画一的に行なわれるのでプログ
ラム制御の方が効率を高められる可能性を持っているが
、プログラム作成祉離しくなる。たとえばすべての仮想
プロセッサが共通に使用する定数や、〈抄返し使用する
定数などをこのキャッシュメモリに入れる仁とによって
メモリ３へのアクセス回数を効果的に低減できる。

〔発明の効果〕

本発明は以上説明したように、多重命令ス）　ＩＪ−人
吉式のプロセッサを複数個おき、制御プロセッサの制御
の下に並列動作させるように構成することにより、物理
的な演算装置台数以上の並列処理を行うことができ、か
つ並列処理できない部分は制御プロセッサで処理するこ
とで融通性が増し、応用分野が拡大し大規模で超高性能
の優れた並列処理システムが得られる。

とくにプロセッサ内圧プログラム格納用メモリおよびキ
ャッシュメモリ等を設けることにより、メモリスイッチ
およびメモリの能力がシステム性能の隘路となることが
避けられ、より効率よく並列処理を行うことができる。

【図面の簡単な説明】

第１図は従来例並列処理プロセッサシステムの構成図。第２図は多重命令ストリーム方式プロセッサの動作原理
を示す図。第３図は第２図のプロセッサが実行する４個のプログラ
ムを示す図。第４図は本発明一実施例システムの構成図。第５図はそのプロセッサの詳細なブロック構成図。ｌ・・・プロセッサ、２・・・メモリスイッチ、３・・
・メモリ、５−・制御プロセッサ、６．７・・・通信イ
ンタフェース、９・・・制御プロセッサメモＩＪ、ｌＯ
・・・通信インタフェース、ｌｌ・・・制御メモリ、１
２・・・プログラム格納用メモリ、１３・・・演算回路
、１４・・・制御回路、１５・・・通信制御回路、１６
・・・キャッシュメモリ。特許出願人　日本電気株式会社２９７、第１図第２図プログラム第３図

Claims

【特許請求の範囲】（１）　　各各が異なるプログラムを実行できる仮想プ
ロセッサ複数台とこの全仮想プロセッサで共有されるプ
ログラム格納用メモリ装置とこの全仮想プロセッサで共
有されるデータ格納用の第一のメモリ装置とを含む多重
命令ス）　ＩＪ−人吉式の演算処理装置複数台と、並列
処理データが記憶される複数台の第二のメモリ装置と、
任意の上記演算処理装置から任意の上記第二のメモリ装
置へのアクセスを可能にするメモリスイッチと、このメ
モリスイッチおよび上記演算処理装置を制御する制御プ
ロセッサと、この制御プロセッサから上記全仮想プロセ
ッサにプログラムの実行開始を指示する通信手段と、上
記各仮想プロセッサから上記制御プロセッサにプログラ
ムの実行終了を通知する通信手段とを備え、上記制御プ
ロセッサの制御により一つのプログラム中の並列処理部
分を上記全仮想プロセッサにより並行に実行することを
特徴とする並列処理方式。（２）　　第一のメモリ装置がキャッシュメモリである
特許請求の範囲第（１）項記載の並列処理方式。（５）　　第一のメモリ装置が第二のメモリ装置と別の
アドレス指定方法でアクセスできるローカルメモリであ
る特許請求の範囲第（１）項記載の並列処理方式。