JPH0277870A

JPH0277870A - 並列計算機システム

Info

Publication number: JPH0277870A
Application number: JP27216388A
Authority: JP
Inventors: Takahide Oogami; 貴英大上
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1988-06-30
Filing date: 1988-10-28
Publication date: 1990-03-16

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野コ本発明は、複数のＣＰＵ　（中央処理装置）とそれらの
ＣＰＵに共有されるメモリ（記憶装置）を持つマルチプ
ロセッサ構成のハードウェアと、これを制御するための
ＯＳ（オペレーティング・システム）及び関連するシス
テム・ソフトフェアから成る並列計算機システムに関す
るものである。

［従来の技術］従来、計算機システムの多くはｃＰＵを１つしか持たな
いものであったが、処理の高速化を月掛して複数のＣＰ
Ｕを接続したマルチプロセッサ構成の計算機システムが
使われるようになってきた。

マルチプロセッサ構成の計算機システムによる処理はマ
ルチプロセッシングとして知られ、例えば、Ｋ、ｌ（ｗ
ａｎｇ　ａｎｄ　Ｆ、Ａ、Ｂｒ１ｇｇ５著１°Ｃｏｍｐ
ｕｔｅ＋−Ａｒｃｈｉｔｅｃ−Ｌｕｒｅ　ａｎｄ　　Ｐ
ａｒａｌｌｅｌ　Ｐｒｏｃｅｓｓｉｎｇ　”　（ＭｃＧ
ｒａｗ−ＨｉｌｌＢｏｏｋ　Ｃｏｍｐａｎｙ、１９８４
＞の第７章”　ＭｕｌｔｉｐｒｏｃｅｓｓｏｒＡｒｃｌ
＋１ｔｅｃｔｕｒｅ　ａｎｄ　Ｐｒｏｇｒａｍｍｉｎｇ
”に詳しく述べられている。この文献においては、マル
チプロセッサ構成のアーキテクチャとプログラミングに
ついて、機能的な構造、接続ネットワーク、並列メモリ
の構成、オペレーティング・システム、並列性の利用、
という項目について述べている、また、Ｋ、Ｈｗａｎｇ
著の＋Ａ＋Ｊｖａｎｃｅｄ　Ｐａｔ−ａｌｌｅｌ　Ｐｒ
ｏｃｅｓｓｉｎｇｗｉｔｈ　　Ｓｕｐｅｒｃｏｍｐｕｔ
、ｅｒ　　Ａｒｃｌ＋ｉｔ、ｅｃｔｕｒｅｓ”　　（Ｐ
ｒｏｃｅｅｄｉ−ｎｇｓ　　ｏｆ　　ｔｈｅ　　ＩＥＥ
Ｅ、　　Ｖｏｌ、７５．Ｎｏ、１０．　０ｃｔｏｂｅｒ
　　１９８７）には、マルチプロセ・ソサ構成の並列計
算機システムを含む多くの新しい並列計算機システムに
ついて、アーキテクチャ、ハードウェア、ソフトフェア
の特徴が記述されている４また、従来、１つのＣＰＵから成る計算機システムを制
御するＯＳは、タスク（または、「プロセス」と呼はれ
るが、以下「タスクＪを使う）を処理の単位として、時
分割により効率良く処理を行っていた、一般に、１つの
ブロクラムは複数のタスクにより構成される。タスクを
単位としたプロクラムの時分割処理方式はマルチタスキ
ング（歴史的には、マルチプログラミング）として知ら
れ、確立された技術である。例えば、Ｈ，Ｍ、ＤｅｉＬ
ｅｌ著の’　Ａｎ　Ｉｎｔｒｏｄｕｃｔ、ｉｏｎ　ｔ、
ｏ　ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍｓ”　（Ｒｅｖｉ
ｓｅｄ　Ｆｉｒｓｔ、　Ｅｄｉｔｉｏｎ、　　Ａｄｄｉ
ｓｏｎ−Ｗｅｓｌｅｙ　ＰｕｂｌｉｓｈｉｎｇＣｏｍｐ
ａｎｙ、１９８４）の第３章”　Ｐｒｏｃｅｓｓ　Ｃｏ
ｎｃｅｐｔ、ｓ”には、プロセスの基本的な概念が説明
されているし、また、Ａ、Ｓ、Ｔａｎｅｎｂａｕｍ著の
”Ｏｐｅｒａｌｊｎｇ　Ｓｙｓｔｅｍｓ：Ｄｅｓｉｇｎ
　ａｎｄ　Ｉｍｐｌｅｍｅｎ−ｔａｔｉｏｎ”　（Ｐｒ
ｅｎｔｉｃｅ−Ｈａｌｌ、　Ｉｎｃ、、　１９８７）の
第２章”Ｐｒｏｃｅｓｓｅｓ　”には、プロセス間の通
信やプロセスのスケジューリングといったプロセスの管
理において非常に貴重な問題について説明している。

従来のマルチプロセッサ構成の並列計算機システムにお
いては、上記のようなタスク単位のＯＳの処理方式を拡
張し、１つのプログラムを複数のタスクに分割し、並列
に処理できるタスクは異なるＣＰＵに割り当てて並列に
（同時に）実行させていた。すなわち、マルチプロセッ
シングとマルチタスキングを組み合わせた処理が行われ
ていた。

例えば、Ｋ、Ｈｗａｎｇ著のＡｄｖａｎｃｅｄ　Ｐａｔ
−ａｌｌｅｌ　Ｐｒｏｃｅ−ｓｓｉｎｇ　ｗｉｔｈ　Ｓ
ｕｐｅｒｃｏｍｐｕｔｅｒ　Ａｒｃｈｉｔｅｃｔｕｒｅ
ｓ”（Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔ、ｈｅ　ＩＥ
ＥＥ、　Ｖｏｌ、７５．Ｎｏ、１０，０ｃｔ−ｏｂｅｒ
　１９８７）にはこの様な並列計算機システムが紹介さ
れているし、また、Ｈ，Ｍ、Ｄｅｉｔｅｌ著の”　Ａｎ
　Ｔｎ−ｔｒｏｄｕｃｔｉｏｎ　　ｔ、ｏ　　０ｐｅｒ
ａｔ、ｉｎｇ　　Ｓｙｓｔｅｍｓ　　”　　（Ｒｅｖｉ
ｓｅｄＦｉｒｓｔ　　Ｅｄｉｔ、ｉｏｎ、　　Ａｄｄｉ
ｓｏｎ−１’１ｅｓｌｅｙ　　ＰｕｂｌｉｓｈｉｎｇＣ
ｏｍｐａｎｙ、１９８４）の第１１章”　Ｍｕｌｔｉｐ
ｒｏｃｅｓｓｉｎｇ　”には、マルチプロセッシングの
特徴とマルチプロセ・Ｉシング用オペレーティング・シ
ステムの形態について述べられている、−船釣には、タ
スクはＯＳが実行制御を行う際の基本的な処理単位であ
り、スケジューリングの対象となるものである。

全く独立したタスク同士ではお互いに通信する必要は無
いか、データを共有するなどの関係がタスク間にある場
合には、タスク間の通信が必要で、この場合にはＯＳが
タスク間の通信の仲介を行っていた。これはタスク間通
信として、例えば、Ａ、Ｓ、Ｔａｎｅｎ！Ｊａｕｍ著の
’　Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍｓ：Ｄｅ、ｓｉ
ｇｎａｎｄ　　Ｉｍｐｌｅｍｅｎｔａｔｉｏｎ”　　（
Ｐｒｅｎｔｉｃｅ−Ｈａｌｌ、　　Ｉｎｃ、。

１９８７）の第２章　”　Ｐｒｏｃｅｓｓｅｓ　”に詳
しく述べられている。

このような従来の並列計算機システムにおいては、シス
テムの構成要素であるＣＰＵは、通常、基本的には同じ
構成で、マルチプロセッサ構成を支援するための同期命
令とタスクの切り替えを支援、するための機能がハード
ウェアによって提供されていた。これらはいずれもＯＳ
の基本的な管理単位であるタスクに対する支援機能であ
り、１つのタスクが１つのＣＰＵを使用して実行される
という処理形態を効率良く支援する機能であった。

一方、高速処理のために開発されたキャッシュ・メモリ
技術はＣＰＵが参照するメモリに階層楕。

造を作ることにより。実効的に比較的容量の大きい主メ
モリを参照する速度を向上させようとするもので、Ａ、
Ｌ、Ｓ＋ｎ１ｔｈ著の”　Ｃａｃｈｅ　Ｍｅｍｏｒｉｅ
ｓ”　（ＡＣＭＣｏｍｐｕｔｉｎｇ　５ｕｒｖｅｙｓ、
Ｖｏｌ、１４．Ｎｏ、３．Ｓｅｐｔｅｍｂｅｒ　１９８
２＞に記述されているように、コンピュータ・アーキテ
クチャの分野においては確立された練術となっている。

［発明が解決しようとする課題］このような従来のマルチプロセッサ構成の並列計算機シ
ステムでは、１つのタスクを１台のＣＰＵを使用して実
行する処理形態を前提としており、１つのタスクを複数
のＣＰＵを使用して細分割して実行する処理形態に対し
ては考慮されていないため、処理を効率良く行うには限
界があった。さらに詳しく言えば、これは、従来のマル
チプロセッサ構成の並列計算機システムの構成要素とな
っているＣＰＵには、１つのタスクを１つのＣＰＵに割
り当て、並列に処理することを支援する機械命令や機能
が含まれてはいたが、１つのタスクが複数台のＣＰＵを
使用する処理形態に対してのハードウェア及びソフトフ
ェアの機能はなかった。

従って、１つのタスクに関する処理をこれ以上効率良く
行うことができないという問題点である。

この問題はそもそも、従来ＯＳに１つのタスクが複数の
ＣＰＵを使って処理されるような処理形態を支援する機
能が無いために生じた問題である。

近年、１つのタスクを１つのＣＰＵで実行するという処
理形態のタスク草位の実行制御では、タスクの生成や消
去、及び、タスク間の通信に要するオーバーへヴドが大
きいことから、システムの十分な並列性を活かせないこ
とが認識されはじめ、１つのタスクを複数のＣＰＵを使
用して実行する処理形態で、タスクよりも細かな処理単
位で実行制御する方式が試みられている。例えば、Ｐ、
Ｃａｒｎｅｖａｌｉ　、Ｐ、　Ｓｇｕａｚｚｅｒｏ、　
ａｎｄ　Ｖ、　Ｚｅｃｃａ著の”Ｍｉｃｒｏｔａｓｋｉ
ｎｇ　ｏｎ　ＩＢＭ　Ｍｕｌｔｉｐｒｏｃｅｓｓｏｒｓ
　”（ＩＢＭ　　Ｊｏｕｒｎａｌ　　ｏｆ　　Ｒｅ５ｅ
ａｒｃｈ　　ａｎｄ　　Ｄｅｖｅｌｏｐｍｅｎｔ。

Ｖｏｌ、３０．Ｎｏ、６．Ｎｏｖｅｍｂｅｒ、　１９８
６）には、並列処理の単位をマイクロタスクと名付け、
複数の異なるＣＰＵを使用して、１タスク／ＣＰＵとい
うＯＳの基本的な管理の枠を越えて行った並列処理の実
験について述べられている。また、Ｄ、Ａ、Ｐａｄｕａ
。

Ｄ、Ｊ、Ｋｕｃｋ、ａｎｄ　Ｄ、Ｈ，Ｌａｗｒｉｅ著の
パ旧ｇｈ　−３ｐｅｅｄＭｕｌｔｉｐｒｏｃｅｓｓｏｒ
ｓ　ａｎｄ　Ｃｏｍｐｉｌａｔｉｏｎ　Ｔｅｃｈｎｉｑ
ｕｅｓ”（ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ
　Ｃｏｍｐｕｔｅｒｓ、　Ｖｏｌ、Ｃ−２９゜Ｎｏ、９
．　Ｓｅｐｔｅｍｂｅｒ　１９８０）には、逐次的に記
述されたプログラムで並列実行可能な部分を自動的に検
出し、マルチプロセッサで並列に実行できるように、自
動並列化するコンパイラの技術について述べられている
が、ここでもタスクという枠を越え、もっときめの細か
い並列処理を前提にしている。

しかしながらこれらの試みも今だ実用に供するほど確立
したものではなかった。

一般に、ＣＰＵは自己のキャッシュ・メモリと共有メモ
リとの間でデータの転送を常時行うものであり、複数の
Ｃ’ＰＵが共有メモリ中の特定のメモリ領域を頻繁にア
クセスする傾向にあり、時として衝突や無矛盾性を保証
できないことがあった。かくしてキャッシュ・メモリの
無効化が頻繁に発生し、システムの性能を低下させると
いう問題点があった６Ｒ，、Ｊ、Ｂｒ１ｌ著の”　Ｏｎ
　Ｃａｃｈｅａｂｉｌｉｔｙｏｆ　Ｌｏｃｋ−Ｖａｒｉ
ａｌ＋Ｉｅｓ　ｉｎ　Ｔｉｇｈｔ、Ｉｙ−Ｃｏｕｐｌｅ
ｄＭｕｌｔｉｐｒｏｃｅｓｓｏｒ　Ｓｙｓｔｅｍｓ”　
（ＡＣＭ　５ＩＧＡＲＣＨＣｏｍｐｕｔｅＡｒｃｈｉｔ
ｅｃｔ、ｕｒｅ　Ｎｅｗｓ、Ｖｏｌ、１５．Ｎｏ、３．
Ｊｕｎ　　１９８７）では、密結合のマルチプロセッサ
・システムにおいて、同期用ロック変数をキャッシュ・
メモリに格納した時に無矛盾性を保証できない場合が発
生する問題について詳しく述べている９また、Ｋ、Ｈｗ
ａｎｇａｎｄ　Ｆ、Ａ、Ｂｒ１ｇｇ５著の”　Ｃｏｍｐ
ｕｔ、ｅｒ　Ａｒｃｈｉｔｅｃｔｒｕｒｅａｎｄ　Ｐａ
ｒａｌｌｅｌ　Ｐｒｏｃｅ−ｓｓｉｎｇ　”　０．ｌｃ
Ｇｒａｗ−Ｈｉｌｌ　ＢｏｏｋＣｏｍｐａｎｙ、　１９
８４）の第７章”　Ｍｕｌｔｉｐｒｏｃｅｓｓｏｒ　Ａ
ｒｃｈ−ｉｔ、ｅｃｔｕｒｅ　ａｎｄ　Ｐｒｏｇｒ−ａ
ｍｍｉｎｇ　”には、キャッシュ・メモリの頻繁な無効
化による性能の低下につい為　　て述べられている。

本発明は、この様な従来の計算機システムにおける問題
点を解決するためになされたもので、１のタスクを複数
のＣＰＵで並列処理させて処理の高速［ヒを図るととも
に、同一タスクを並列処理しているＣＰＵ同士に連係性
を持たせて、より一層処理能力の向上を図ることを目的
とする。更にキャッシュ・メモリ使用による共有メモリ
のアクセスの衝突を防止して、プロクラムの処理をより
高速化することを目的とする。

［課題を解決するための手段］この発明においては、複数のｃｐｕ　（中央処理装置）
２００ａ　〜２００ｈとこれらのｃｐｕに共有されるメ
モリ３００（記憶装置）を持つマルチプロセッサ構成に
バー１〜ウエアと、これを制御すめたのＯ３（オペレー
ティング・システム）および関連するシステム　ソフト
フェアから成る並列計算機システム１００において、該システム１００て処理される分割可能なプロクラムに
予め識別子０００〜１１１等を定め、各ＣＰＵ２００ａ
　〜２０Ｏｈ内に設けた命令実行ユニッｌ−２１０と、
この命令実行ユニット２１０内に設けられた並列処理モ
ード　レジスタ２１５とを備え、プログラムの分割され
た部分を当該ＣＰＵ２００ａ　〜２（１０ｈが処理する
場合は該ＣＰＵ２００ａ〜２０　Ｏｈ内の並列処理モー
ト　レジスタ２１５に識別子０００〜１１１等を夫々登
録するとともに、登録されているＣ　Ｐ　Ｌｌ同士を互
いに検知して、互いに関連付けて小環を実行するように
した。更に前記ＣＰ［Ｊ２００ａ〜２０Ｏｈ内に設けら
れ該命令実行ユニ・川・２１０とデータ転送可能なキャ
ッシュ　メモリ２２０と、このキャッシュ・メモリ２２
０と該命令ユニ・ソ１〜２１０とを択一的に選択するハ
スセレクタ２３０とを備え。

プロクラムの分割された部分を当該ＣＰＵ２０Ｑａ〜２
００１１か処理する場合は該ＣＰＵ２００ａ〜２００ｈ
内の並列処理モート　レジスタ２１５に識別子ＯＯＯ〜
１１１等を夫々登録するとともに、パスセレクタ２３０
が命令実行ユニット２１０を選択するようにした。

［作用］本発明においては、各ＣＰＵに並列処理モード・レジス
タ２１５を調べることにより、１つのＣＰＵて１つのプ
ログラムを実行する形態と、複数のＣＰＵで２００ａ〜
２００ｈで１つのプログラム実行する形態とを区別し、
共同する複数ＣＰＵ２００ａ、２００ｃ、２００ｄが同
一プログラムを並列に実行する場合は同一の識別子１０
１を示すようになるので、このようなＣＰＵ２００ａ、
２００ｃ、２００ｄを１つのグループとして扱えるよう
になる。この同一グループのＣＰＵ２００ａ、２００ｃ
、２００ｄは互いに認識し合って、処理の協同動作をよ
り有効的に行うことができる。又並列処理モード・レジ
スタ２１５に識別子１０１が登録されているときには、
各ＣＰＵはキャッシュ・メモリ２２０を使用しないので
、共有メモリ３００をキャッシュ・メモリ２２０のため
にアクセスすることかなく、共有メモリ３００上で起こ
りうる衝突を防止する。

［実施例］以下、この発明を図面を参照して説明する。

第１図は、８台のＣＰＵから成るマルチプロセッサ構成
の並列計算機システムの全体を示したもので、図中、１
００は並列計算機システム全体、２００ａ、２００ｂ、
２００ｃ、２００ｄ、２００ｅ、２０Ｏｆ、２００ｇ、
２００ｈは後述する第２図に示されるＣＰＵ２００と同
し構成を持つＣＰＵ、３００はこれらＣＰＵ２００ａ〜
２００１１に共有されるシステム・メモリ、４００は入
出力装置、５００はメモリ　ハスを示す。

第１図に示される並列処理計算機システムでは、８台の
ＣＰＵ２００ａ　〜２００ｈがそれぞれ、単独に処理を
行うこともあるし、また、いくつかのＣＰＵがグループ
となって１つの処理を行うこともある。このような処理
の実現には、第２図に示される並列処理モード・レジス
タによって示される状態を、システムの制御を行うＯ３
（オペレーティング・システム）が利用することによっ
て可能になる。以下、これについて詳しく述べる。

第２図は、ＣＰＵ２ｏｏａ〜２ｏｏｈのうち代表として
１つのＣＰＵの構造を示したもので、図中、２００はＣ
ＰＵ、２１ｏは命令実行ユニット、２１５は並列処理モ
ード・フラグを保持する並列処理モード・レジスタ、２
１６，２１７，２１８はそれぞれ並列処理モード・フラ
グの第０ビツト、第１ビツト第２ビツト、２２ｏはキャ
ッシュ・メモリ・ユニット、２３０はバス・セレクタ、
２９１．２９２はそれぞれ内部バス、２９５は制御信号
、５００は前述したメモ１月バスである。なお、第２図
には本発明を示すのに十分な部分のみを示した。

第２図のＣＰＵにおいては、命令実行ユニット２１０が
メモリ・バス５００を介してシステム・メモリ３００に
ある機械命令を読み出し、必要に応じて、データをシス
テム・メモリ３００がら読み込んだり、処理結果を該シ
ステム・メモリ３゜Ｏに格納しなりする。命令実行ユニ
ット２１０が該システム・メモリ３００ヘアクセスを行
う時には内部バス２９１を使う。内部バス２９１はキャ
ッシュ・メモリ・ユニット２２０とバス・セレクタ２３
０に接続されている。また、バス・セレノ　　　　　　
′り２３０にはキャッシュ・メモリ・ユニット２２０か
らの内部バス２９２も接続されている。バス・セレクタ
２３０は、キ六・・ンシュ・メモリ・ユニッｌ−２２０
を使用する場合と使用しない場合とでメモリ・バス５０
０に接続する内部バス２９１と２９２とを選択変更する
。すなわち、キャッシュ・メモリ・ユニツｌ−２２０を
使用する場合には、内部バス２９２をメモリ・バス５０
０に接続し、使用しない場合には、内部バス２９１をメ
モリ・バス５００に接続する、第２図において、並列処理モード・レジスタ２１５は３
ビツト（２１６，２１７，２１８＞によって並列処理モ
ード・フラグを表現し、ＣＰＵ２００が１つのタスクに
対して単独で処理を行っているか、あるいは、他のＣＰ
Ｕと共同して処理を行っているか、ということを、３ビ
ツト全てが０（ゼロ）か、そうでないかによって区別す
る。池のＣＰＵと共同して処理を行っている場合には、
予め定めたタスクの識別番号を３ビツト上で示し、同一
タスクを並列に分担した各ＣＰＵは同一ビットを示し、
結果としてそのＣＰＵグループの識別子を格納すること
になる。すなわち、３ビツトで表現できる場合の数は８
通りであり、０（２通表現で０００）はＣＰＵ２００が
１つのタスクに対して単独で処理を行っていることを示
し、それ以外の場合（１〜７）はＣＰＵグループで１つ
のタスクを行っていることを示す。従って、並列処理モ
ード・フラグの値が０の時は並列処理モードはオフであ
り、０以外の時は並列処理モードはオンである。

並列処理モード・レジスタ２１５からＯ以外の有意な制
御信号２９５が出力され、このオン信号は第１図の各Ｃ
ＰＵ’２００ａ〜２００ｈの間で互いに検知され、同一
タスクを共同に並列に処理しているＣＰＵ同士が処理を
連係して行うようにする。又このオン信号はキャッシュ
・メモリ・ユニット２２０を非活性化し、かつバス・セ
レクタ２−１７＝３０に内部バス２９１を選択させるようにする。

並列処理モードがオフの時には、逆にキャッシュ・メモ
リ・ユニット２２０を活性化し、バス・セレクタ２３０
に内部バス２９２を選択させるようにする７第３図は、第１図に示された並列処理システムで行われ
ている処理の一例を示したものである。

図中、Ａ、Ｂ、Ｃ，Ｄ、Ｅはそれぞれ異なった処理Ａ、
Ｂ、Ｃ，Ｄ、Ｅを示す。これらの処理はそれぞれ、ＯＳ
によりタスクＡ、Ｂ、Ｃ，Ｄ、Ｅとして独立の処理とし
て認識され実行される。この時、処理Ａは分割可能でＡ
Ｏ，Ａｌ、Ａ２に、処理ＢはそのままＢＯ５処理処理分
割可能でＣ０９Ｃ１に、処理りはそのままＤＯ１処理Ｅ
はＥＯの実行単位からなる。これらの実行単位はそれぞ
れ異なったＣＰＵで並列に実行可能である。この様にこ
れまでのタスクより小さな実行単位を異なったＣＰＵで
並列に処理されるものを、マイクロタスクと称する。

第３図に示した例では、タスクＡ、Ｃが複数のＣＰＵで
並列に実行され、分割されるタスクＡ。

Ｃについて固有のビット番号を夫々与え、タスクＢ、Ｄ
、Ｅはその中にそれぞれ１つのマイクロタスクしかない
ため、ビット番号界えず結果的には１つのＣＰＵで逐次
的に処理される。

第４図は、第３図に示した処理を行っている時、各ＣＰ
Ｕにおける並列処理モード・フラグ（第２図のレジスタ
２１５に保持されたフラグ）の状態の一例を示したもの
である。ここでは、各ｃＰＵでは、次に示すようなマイ
クロタスクの実行が行われている。

ＣＰＵ　　Ｏ（２００ａ）　　−ＡＯＣＰＵ　　１　　（２００ｂ）　　−ＢＯＣＰＵ　　２
　　（２００ｃ）　　−ＡｌＣＰＵ　　３　　（２００
ｄ）　　−Ａ２ＣＰＵ　　４　　（２００ｅ）　　−Ｃ
０ＣＰＵ　　５　　（２０Ｏｆ＞　　−Ｄ。

ＣＰＵ　　６　　（２００ｇ＞　　−ＣｌＣＰＵ　　７
　　（２００ｈ）　　−ＥＯＣＰＵＩ、ＣＰＵ５．ＣＰ
Ｕ７ではそれぞれ、単独の処理Ｂ。、Ｄｏ及びＥｏを行
っているため、フラグの値は０００となっている。これ
に対し、ＣＰＵ０．ＣＰＵ２．ＣＰＵ３は共同してタス
クＡ＝Ａｏ＋Ａ、＋Ａ２を処理し、フラグの値は１０１
くタスクＡに対する識別子）にとなっており、ＣＰＵ４
．ＣＰＵ６は共同してタスクＣ−ｃｏ十０１を処理し、
フラグの値は１１０（タスクＣに対する識別子）となっ
ている、この様に、並列処理モード・レジスタ２１５に保持され
た並列処理モーＩ・・フラグのオン／オフを並列処理モ
ードレジスタ２１５の状態に基ついてハードウェア的に
直接参照する手段を設けることにより、−のＣＰＵ２０
０が他のＣＰＵとグループを形成して共同で処理を行っ
ている場合には、同し処理を行っているｃｐｕ　＜プロ
セッサ）群の中に異種のＣＰＵ（プロセッサ）かあるが
否かをチエツクできる。

通常、この「異種ＣＰＵＪは特定の処理を高速に行う目
的で設けられる専用のＣＰＵであり、アレイ処理ＣＰＵ
ストリング処理ＣＰＵなどが考えられる。

通常のＣＰＵ　（汎用ＣＰＵ）は割り当てられたマイク
ロタスクの処理を始める前に、そのＣＰＵの属するグル
ープに当該処理の専用ＣＰＵが入っているか否かを命令
によって（ハードウェアで実現）チエツクし、もし、入
っていれば、当該処理をそのＣＰＵに任せ更なる高速化
を実現し、入っていなけば当初に決められた如く自らそ
の処理を行う。又、−のＣＰＵが他のＣＰＵと共同で処
理を行っている場合、キャッシュ・メモリ２２０を切り
離すことにより、複数のキャッシュ・メモリが共有メモ
リをアクセスするとき生じ得る矛盾の発生を防止し、ま
た、ＣＰＵ間で共有されるメモリ領域に対する頻繁な更
新によるキャッシュ・メモリの無効化操作のオーバーヘ
ッドを無くすことができる。

第３図に示した処理の中で、タスクＡ−Ａｏ＋Ａ１＋Ａ
２あるいはタスクｃ＝ｃｏ＋Ｃ，のように、複数のＣＰ
Ｕを使用して並列処理を行うもののプログラムの構造を
、タスクＡ＝Ａｏ十Ａ、　十２ｌ− Ａ２を例として第５図に示す。

第５図においては、マイクロタスクＡＯがまず実行され
、マイクロタスクＡＩ、Ａ２がＡＯから生成されるよう
になっている。マイクロタスクＡＯのプロクラムは、Ｂ
ｌｏｃｋ　１がらＢｌｏｃｋ　６までの６つのブロック
から成り、旧ｏｃｋ　１ては主に初期化行い、Ｂｌｏｃ
ｋ　２ではＡ１とＡ２を生成し、Ｂｌｏ−ｃｋ３では指
定された処理を行い、Ｂｌｏｃｋ　４ではＡ１とＡ２の
終了を確認し、旧ｏｃｋ　５ではＡ１とＡ２に関する後
処理を行い、Ｂｌｏｃｋ　６では処理Ａ全体の後処理を
行う。Ａ１とＡ２はそれぞれＡＯがら生成された後、指
定された処理をＢｌｏｃｋ３ａ、Ｂｌｏｃｋ　３　ｂで
行う。タスクＣにおいてはＢｌｏｃｋ　２はＣ１を生成
し他のプログラムの構造は同様である。

次に、第６図にて並列処理のプログラムについて具体的
に説明する。

タスクＡ＝Ａｏ’＋Ａｌ＋Ａ２で実行されるプログラム
として、２つの３次元ベクタの内積を計算するプログラ
ムを考える。２つのベクタ７と７は並列処理できるよう
に３つに分け、２次元のアレイとして定義されている。

第６図にこの様子を示し、マ、り７の部分積は２［０コ
、ｚ［１コ。

Ｚ［２］に格納される。

第７図に上記処理Ａの擬似プログラムを示す。

これは上記のマイクロタスクＡＯに相当するプログラム
である。行３−７はアレイを含む変数の定義である。行
１０からメイン・ルーチンの記述である。行１４ではｃ
ｐｕ　　ｇｅｔＯ関数により３つのＣＰＵが確保される
。このなかにはＡＯが使用しているＣＰＵも含まれるた
め、実際には２つのＣＰＵが確保される。確保されなＣ
ＰＵの番号はアレイｃｐｕ［３］に返される。処理Ａの
場合には、第４図に従うと、ＣＰＵ０．ＣＰＵ２．ＣＰ
Ｕ３というが確保されたことになる。この時同時に、そ
れらのＣＰＵの並列処理モード・レジスタには第４図に
示すような処理の識別子が設定される。

ｃｐｕ　　ｇｅｔ（）関数はシステム関数でＯＳにより
直接実行されるものである。

行１５および１６ではｍｔ　　５ｔａｒｔＯ関数により
Ａ１とＡ２がＣＰＵ２とＣＰＵ３で実行される。

ｍｔ　　５ｔａｒｔ（）関数は、ＵＮＩＸのｆｏｒｋＯ
関数のようになっており、マイクロタスクの生成を行う
。ｆｏｒｋＯ関数はタスク（プロセス）を生成するのに
対し、ｍｔ　５ｔａｒｔ　（＞関数はマイクロタスクを
生成する点が異なる。ｍｔ、　５ｔａｒｔＯ関数は、呼
び出し側には生成されたマイクロタスクの識別子が返さ
れ、生成されたマイクロタスク側には値０が返される。

マイクロタスクＡＯ，ＡＩではそれぞれ、行２５から始
まる部分内積のルーチンｐｉρ（）が実行される。一方
、ｍｔ　５ｔａｒｔＯ関数を呼び出したマイクロタスク
ＡＯでは、ｍｕ　５ｙｎｃＯ関数により、マイクロタス
クＡ１とＡ２の実行終了を待ち、変数ｉｐに最終結果と
してのベクタｘ、ｙの内積を格納する。ここで、ｒａｔ
、　５ｔａｒｔＯ関数もｍｕ　ｓｙｎｃｍ関数もＯＳで
直接サポートされるシステム関数である。また、ここで
は、マイクロタスクＡＯが終了した時、ＯＳにより確保
された３つのＣＰＵは解放されるものとしている。

以上のようなマイクロタスクの並列処理を支援するため
には、ｏｓに、１つのタスクに複数のＣＰＵが割り当て
、かつ、割り当てられた各ＣＰＵでそれぞれ実行される
マイクロタスクを管理する機構が必要になる。ＯＳにお
けるタスクの管理には、タスクの属性を格納したタスク
制御ブロックを用いる。タスク制御ブロックの処理を行
うために拡張したものを第８図に示す。

第８図では、ＴＩＤはタスク識別子、ＮＣＰＵは割り付
けられたＣＰＵの数、ＣＰＵＧはＣＰＵグループの識別
子、ＣＰＵ０−ＣＰＵ３は割り付けられたＣＰＵの番号
、ＭＴＩＤＯ’）４ＴＩＤ３はマイクロタスク識別子を
示す。

ＮＣＰＵで示された数だけがこのタスクに割り当てられ
ていることを示し、その時に各ＣＰＵの並列処理モード
・フラグに設定されたＣＰＵのグループ識別子がＣＰ　
ＵＧに格納される。ＣＰＵＮｉとＭＴＩＤｉ（ｉ＝ｏ。

１．２．３）はペアで使用され、それぞれＣＰＵの番号
とそこで実行されているマイクロタスクの識別子を格納
する。ここでは４つまでのペアしか格納できないが、こ
れは単に一例にすぎない。ここで示されたタスク制御ブ
ロックを使用することにより、１つのタスクをマイクロ
タスクに分割し、複数のＣＰＵを使い、複数のマイクロ
タスクを並列に実行できる。マイクロタスクのスケジュ
ーリングは複数のＣＰＵを確保しなければならず、複数
のＣＰＵを空ける必要があり、最も簡単な方法の１つと
してまず適当に必要数のＣＰＵを決め、そこでの処理が
全て終了するまで待つということが考えられる。

以上、本発明の一実施例を示したが、ここに示した構成
や方法に限らず、本発明の主旨を活したシステムで同様
の効果を奏するものであればよい。

並列処理モード・スラグは、池のレジスタの一部であっ
てもよいし、ピッ）・数も３ビツトに限らす１ビット以
上何ビットでもよく、さらに、このフラグのオン／オフ
の表現も任意でよい。

［発明の効果］以上、説明してきたように、この発明によれば、並列計
算機システムで処理される分割可能なプログラムに予め
識別子を定め、各ＣＰＵ内に設けた命令実行ユニットと
、この命令実行ユニット内に２６一設けられた並列処理モード・レジスタとを備え、プログ
ラムの分割された部分を当該ＣＰＵが処理する場合は該
ＣＰＵ内の並列処理モード・レジスタに該識別子を登録
するとともに、該ＣＰＵ同士を互いに検知して、互いに
関連付けたので、更に各ＣＰＵ内にデータ転送可能なキ
ャッシュ　メモリと、このキャッシュ・メモリと該命令
ユニットとを択一的に選択するバスセレクタとを備え、
プログラムの分割された部分を当該ＣＰＵが処理する場
合は該ＣＰＵ内の並列処理モード・レジスタに該識別子
を登録するとともに、パスセレクタが命令実行ユニッｌ
−を選択するようにしたので、複数のＣＰＵを使用して
１つのプログラムを実行する処理形態をソフトフェアの
面から、又ハードウェアの面からも支援することができ
るという効果を有する。

効果を有する。

また、本発明による並列処理モード・フラグにより、Ｏ
Ｓに１つのタスクを、複数のＣＰＵを用いて複数のマイ
クロタスクに分割したものを並列に処理することを支援
する機能を付加することができるという効果を有する。

さらに、本発明による並列処理モード・フラグのオン／
′オフにより、キャッシュ・メモリの使用７′不使用を
動的に制御てき、複数のＣＰＵが特定のメモリ領域を頻
繁にアクセスした時に発生するキャッシュ・メモリの無
効［ヒのオーバーヘットを無くすことができるという効
果を有する。

【図面の簡単な説明】

第１図はマイクロプロセッサ構成の並列計算機システム
の全体ブロック図を示し、第２図は本発明に係る並列処
理モート・レジスタを含むＣＰＵの内部構造を示し、第
３図はタスクの分割の状態を示し、第４図はＣＰＵの並
列処理時の並列処理モード・フラグの状態を示し、第５
図は並列処理を行うプログラムの分割・統合の状態を示
し、第６図は２つのベクタの内積を計算する様子を示し
、第７図は並列処理を行うプログラムの擬似コードを示
し、第８図はＯＳ″′ｃ’ｉ用するタスク制御ブロック
を示す、図中、１００・・・・・並列計算機システム、２００，２００
ａ、２００ｂ、２００ｃ、２００ｄ、２００ｅ。２０Ｏｆ、２００ｇ、２００ｈ・・・・・・ＣＰＵ、２
１０・・・・・・命令実行ユニット、２１５・・・・・
・並列処理モード・レジスタ、２１６，２１７，２１８
・・・・・・ビット・フラグ、２２０・・・・・・キャ
ッシュ・メモリ・ユニ・７　ト、２３０・・・・・・バ
ス・セレクタ、２９１．２９２・・・・・・内部バス、
２９５・・・・・・制御信号、３００・・・・・・シス
テム・メモリ、４００・・団・入出力装置、５００・・
・・・・メモリ・バス、を示す。なお、図中、同一符号
は同〒または相当部分を示す。

Claims

【特許請求の範囲】

（１）複数のＣＰＵと、これらのＣＰＵに、共有される
メモリを持つマルチプロセッサ構成のハードウェアと、
これを制御するためのＯＳ（オペレーティング・システ
ム）および関連するシステム・ソフトフェアから成る並
列計算機システムにおいて、該システムで処理される分
割可能なプログラムに予め識別子を定め、前記各ＣＰＵ
内に設けた命令実行ユニットと、この命令実行ユニット
内に設けられた並列処理モード・レジスタとを備え、前
記プログラムの分割された部分を当該ＣＰＵが処理する
場合は該ＣＰＵ内の前記並列処理モード・レジスタに前
記識別子を登録するようにしたことを特徴とする並列計
算機システム。
（２）前記識別子が登録された各ＣＰＵ同士を互いに検
知して、互いに関連付けて処理を実行するようにしたこ
とを特徴とする第１項記載の並列計算機システム。
（３）複数のＣＰＵと、これらのＣＰＵに、共有される
メモリを持つマルチプロセッサ構成のハードウェアと、
これを制御するためのＯＳ（オペレーティング・システ
ム）および関連するシステム・ソフトフェアから成る並
列計算機システムにおいて、該システムで処理される分
割可能なプログラムに予め識別子を定め、前記各ＣＰＵ
内に設けた命令実行ユニットと、この命令実行ユニット
内に設けられた並列処理モード・レジスタと、前記ＣＰ
Ｕ内に設けられた該命令実行ユニットとデータ転送可能
なキャッシュ・メモリと、このキャッシュ・メモリと該
命令ユニットとを択一的に選択するバスセレクタとを備
え、前記プログラムの分割された部分を当該ＣＰＵが処
理する場合は該ＣＰＵ内の前記並列処理モード・レジス
タに前記識別子を登録するとともに、前記バスセレクタ
が前記命令ユニットを選択するようにしたことを特徴と
する並列計算機システム。