JPH1097465A

JPH1097465A - マルチプロセッサシステム

Info

Publication number: JPH1097465A
Application number: JP8249593A
Authority: JP
Inventors: Yoshiko Tamaoki; 由子玉置; Yonetaro Totsuka; 米太郎戸塚; Masanao Ito; 昌尚伊藤; Naonobu Sukegawa; 直伸助川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1996-09-20
Filing date: 1996-09-20
Publication date: 1998-04-14
Anticipated expiration: 2016-09-20
Also published as: JP3820645B2

Abstract

(57)【要約】【課題】主記憶共有マルチプロセッサにおいて、複数
プロセスの複数プロセッサによる同時実行（ＳＭＰ）に
よる高速化と、１プロセスの複数プロセッサによる並列
実行（ＡＳＭＰ）による高速化とを両立する。【解決手段】ＳＭＰ／ＡＳＭＰ実行中か、またプログ
ラムのどの部分を実行しているかを表示するモードビッ
トを設け、ＯＳもしくはユーザプログラムにより変更可
能とし、モードビットの値に応じて異なるキャッシュコ
ヒーレント制御を行う回路を起動する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、主記憶共有のマル
チプロセッサシステムにかかわり、特に複数プロセスの
同時実行によるスループット向上と１プロセスの並列実
行による高速化の双方の目的を達成するためのマルチプ
ロセッサシステムに関する。

【０００２】

【従来の技術】プロセッサシステムの性能を向上させる
ために、主記憶を共有した複数プロセッサから成るマル
チプロセッサ構成をとることが近年一般的に行なわれて
いる。

【０００３】主記憶共有マルチプロセッサ（以下ＳＭ
Ｐ：ＳｙｍｍｅｔｒｉｃＭｕｌｔｉ−Ｐｒｏｃｅｓｓ
ｏｒと呼ぶ）の目的は、大きく分けて（１）複数プロセ
スの複数プロセッサでの同時実行によるシステムスルー
プットの向上、（２）１プロセスの複数プロセッサでの
並列実行（１プロセスを分割し、分割した各プロセスを
各プロセッサで同時に並列実行する）による高速化、の
２つである。

【０００４】上記双方の目的を達成するために、一般に
従来の技術では以下が行なわれている。すなわち、単体
プロセッサの実行はキャッシュを利用して高速化し、各
プロセッサキャッシュ間の一致性はハードウェアのキャ
ッシュコヒーレント機構により保証する。キャッシュコ
ヒーレント機構には、大別してスヌープ方式とディレク
トリ方式がある。いずれの方式においても、各プロセッ
サキャッシュ内の各ラインが他のラインや主記憶の内容
と一致しているのかどうかを管理し、不一致が発生する
場合は、プロセッサ間の結合網を介して一致をとるため
のキャッシュラインのコピー／更新／無効化などを行な
うことで不一致を解消し、プロセッサが誤動作するのを
防いでいる。またキャッシュを命令用とデータ用に分け
プログラム側に命令の書き換えを許さないという制限を
課して、命令キャッシュ同士のコヒーレンスはとらない
様にしたものもある。これに関しては、「情報科学コア
カリキュラム講座コンピュータアーキテクチャＩ」、
１６７頁−１７７頁、富田真治著、丸善出版、に記載が
ある。

【０００５】

【発明が解決しようとする課題】しかしながら上記従来
の技術では、主記憶を共有するマルチプロセッサシステ
ムに於いて、システムが複数プロセスを同時実行してい
るときも、１プロセスを並列実行しているときも、全く
同じキャッシュコヒーレント方式を利用していた。

【０００６】複数プロセッサから成るマルチプロセッサ
システムが複数プロセスを同時実行している場合は、一
般に、各プロセッサは互いに異なるプロセスを実行する
ので、各プロセッサのキャッシュが同じ主記憶の内容を
指すことは少なく、キャッシュコヒーレント機構をなる
べく起動しないよう制御する方が性能が向上する。その
ため、複数プロセスを同時実行しているマルチプロセッ
サシステムのキャッシュコヒーレントは、多くの場合、
自プロセッサのキャッシュにデータがあるときは他プロ
セッサとの結合網にキャッシュの内容を送出せず、ま
た、命令キャッシュの内容を他プロセッサとの結合網に
送出しないようになっている。

【０００７】しかしながら上記の複数プロセスを複数の
プロセッサで同時実行しているマルチプロセッサシステ
ムのキャッシュコヒーレント方式は、必ずしもマルチプ
ロセッサシステムが複数のプロセッサが１プロセスを並
列実行する場合に最適な方法ではない。

【０００８】このことを、図３のＦＯＲＴＲＡＮプログ
ラムのＤＯ１０、ＤＯ２０を添え字ｉについて４つのプ
ロセッサで並列実行する場合を例にとって、説明する。
図３のプログラムは以下のように実行される。３１０
０、３３００の部分を複数のプロセッサを有するシステ
ム中の１つのプロセッサ（これを親プロセッサと呼ぶ。
仮にＰＥ０とする）が実行し、３２００、３４００の部
分を複数のプロセッサ（これらを子プロセッサと呼ぶ。
仮にＰＥ１、ＰＥ２、ＰＥ３とする）および親プロセッ
サが分担実行する。親プロセッサＰＥ０は３１００の実
行が終了すると、子プロセッサ群ＰＥ１〜３を起動し、
３２００の各々添え字ｉ＝５〜８、９〜１２、１３〜１
６を各々実行させるとともに、自らは添え字ｉ＝１〜４
を分担する。全プロセッサの実行が終了すると、親プロ
セッサＰＥ０は３３００を実行し、それが終了すると、
再び子プロセッサ群ＰＥ１〜３を起動し、３４００の各
々添え字ｉ＝５〜８、９〜１２、１３〜１６を各々実行
させるとともに自らは添え字ｉ＝１〜４を分担する。親
プロセッサが３１００、３３００を実行している間、子
プロセッサ群は親プロセッサからの起動を待つ。

【０００９】このプログラムの実行では、子プロセッサ
群は親プロセッサから起動されて初めて実行すべきプロ
グラム部分の命令アドレスを通知される。そのため、１
プロセスを複数プロセッサで並列実行する場合のキャッ
シュコヒーレント方式として、前述の複数プロセスを複
数プロセッサで同時実行する場合のキャッシュコヒーレ
ント方式を用いた場合には、命令キャッシュの内容を他
プロセッサに通知しないことから、命令キャッシュミス
を起こすことが多い。

【００１０】また上記プログラムの実行では、子プロセ
ッサ群は親プロセッサから起動されて初めて実行すべき
データをフェッチする。そのため、１プロセスを複数プ
ロセッサで並列実行する場合のキャッシュコヒーレント
方式として、前述の複数プロセスを複数プロセッサで同
時実行する場合のキャッシュコヒーレント方式を用いた
場合、自プロセッサのキャッシュにデータがあるときは
他プロセッサとの結合網にキャッシュの内容を送出しな
いことから、上記プログラムの実行でデータキャッシュ
ミスを起こすことも多い。結果として、キャッシュミス
のペナルティが大きいため、１プロセスを並列実行して
もあまり性能が向上しない、という事態が発生する。

【００１１】上記の状況は、本来、１プロセスの複数プ
ロセッサによる並列実行のために要求されるコヒーレン
ト方式と、複数プロセスの複数プロセッサによる同時実
行のために要求されるコヒーレント方式が異なる性格を
持つにもかかわらず、同一の手段でコヒーレンスを保と
うとしているために発生する。

【００１２】本発明の目的は、主記憶共有型マルチプロ
セッサシステムにおいて、システムが複数プロセスを同
時実行しているときと、１プロセスを並列実行している
ときで、異なるキャッシュコヒーレント方式を実現する
システム構成を提供することにある。

【００１３】

【課題を解決するための手段】上記を解決するために本
発明では、各々キャッシュを備える複数のプロセッサ
と、上記プロセッサ群を結合する接続線と、上記キャッ
シュ間の内容一致制御回路とを備えるシステムにおい
て、上記プロセッサ群の内の第１の複数のプロセッサ
が、複数のプロセスを前記第１の複数のプロセッサで同
時実行するモードか、１つのプロセスを前記第１の複数
のプロセッサで並列実行するモードかを識別する第１の
情報を具備し、前記情報に応じて前記内容一致制御回路
の動作を切り替えるようにする。

【００１４】また、前記内容一致制御回路を、複数の機
能ユニットから構成し、前記情報に応じて前記機能ユニ
ットのいずれを起動するかを選択する回路を備える。

【００１５】更にまた、１つのプロセスを前記第１の複
数のプロセッサで同時実行するモードは、プロセスの並
列動作部分を実行するモードと非並列動作部分を実行す
るモードとからなり、前記並列動作部分を実行するモー
ドと非並列動作部分を実行するモードとを切り替える手
段と、前記前記並列動作部分を実行するモードと非並列
動作部分を実行するモードに応じて前記内容一致制御回
路の動作を切り替える手段とを有する。

【００１６】更にまた、前記内容一致制御回路を複数の
機能ユニットから構成し、前記１つのプロセスを前記第
１の複数のプロセッサで同時実行するモードであり、か
つ、非並列動作部分を実行するモードである場合は、前
記第１の複数のプロセッサのそれぞれのキャッシュが同
じエントリで更新されるように、前記機能ユニットを選
択する回路を有するようにする。

【００１７】更にまた、前記内容一致制御回路は、１つ
のプロセスを前記第１の複数のプロセッサで同時実行す
るモードであり、かつ、非並列動作部分を実行するモー
ドである場合は、前記第１の複数のプロセッサのそれぞ
れのキャッシュを同じエントリで更新するようにする。
更にまた、前記内容一致制御回路を複数の機能ユニット
から構成し、前記１つのプロセスを前記第１の複数のプ
ロセッサで同時実行するモードであり、かつ、並列動作
部分を実行するモードである場合は、前記第１の複数の
プロセッサのそれぞれのキャッシュが個別のエントリで
更新されるようにする。

【００１８】更にまた、前記第１の複数のプロセッサ
は、１つの親プロセッサと他の子プロセッサからなり、
前記親プロセッサか前記子プロセッサかに応じて、上記
内容一致制御回路の動作を変えるようにする。

【００１９】

【発明の実施の形態】以下、図面を参照しつつ本発明の
実施形態を説明する。はじめに、本実施の形態での用語
を定義しておく。複数プロセッサから成るシステムが、
複数プロセッサにより複数プロセスを同時実行している
ことを示すモードを以下ＳＭＰ（Ｓｙｍｍｅｔｒｉｃ
Ｍｕｌｔｉ−Ｐｒｏｃｅｓｓｏｒ）モードとし、複数プ
ロセッサにより１プロセスを並列実行していることを示
すモード以下ＡＳＭＰ（ＡｓｙｎｃｈｒｏｎｏｕｓＳ
ＭＰ）モードとする。更に、ＡＳＭＰモードのプロセッ
サ群が、プログラムの非並列化部分（図３の３１００、
３３００など。以下シングル部分と呼ぶ）を実行中の場
合をシングルモード、並列化部分（図３の３２００、３
３００など。以下パラレル部分と呼ぶ）を実行中の場合
をパラレルモードとする。

【００２０】図１は本発明の１実施形態であるシステム
の全体構成である。プロセッサ群１０〜１３（ＰＥ０〜
ＰＥ３）および主記憶４３が、アドレス／コマンドバス
４１およびデータバス４２を介し接続されている。プロ
セッサ群１０〜１３は各々命令キャッシュ（Ｉｃａｃｈ
ｅ）、データキャッシュ（Ｄｃａｃｈｅ）を備えてい
る。また、信号線１８〜２１はプロセッサ群とアドレス
／コマンドバス４１を接続する。信号線２２〜２５はプ
ロセッサ群とデータバス４２を接続する。信号線２６は
主記憶４３とアドレス／コマンドバス４１を、信号線２
７は主記憶４３とデータバス４２を接続する。これら構
成要素は、従来のＳＭＰシステム（マルチプロセッサシ
ステムが複数プロセスを同時実行しているシステム）で
も備えている。

【００２１】更に、本実施形態特有の構成要素である、
プロセッサ群１０〜１３の各プロセッサ間を接続し、同
期をとる同期情報バス４０、プロセッサ群と同期情報バ
スを接続する信号線１４〜１７を有する。この同期情報
バスは、後述するモード情報やプログラムカウンタの値
（即ち、命令アドレス）の通知に使用される。

【００２２】図２は、プロセッサ１０の内部構成であ
る。他のプロセッサ１１〜１３の構成も同様であり説明
を省略する。プロセッサは、命令キャッシュ（Ｉｃａｃ
ｈｅ）５２、命令の実行および命令キャッシュを制御す
る命令ユニット５３、演算ユニット（ＡＬＵ）５７、ロ
ードストアユニット（ＬＳＵ）５６、データキャッシュ
（Ｄｃａｃｈｅ）５１、データキャッシュを制御するデ
ータユニット５０、レジスタ５８からなる。また、これ
らを接続する信号線６０、６２、６３、６４、６５、６
６、６８、外部バスとの接続を行う信号線１８−０、１
８−１、２２−０、２２−１を有する。これらの構成要
素は公知のＳＭＰシステムでも備えており、本発明のＳ
ＭＰモード時の動作も公知のＳＭＰシステムの動作と同
様である。

【００２３】更に、図２は、本実施形態特有の構成要素
である命令ユニット５３内のモードビット、モードビッ
トの情報をデータユニットに通達する信号線６７、同期
情報バス４０に接続する信号線１４を有する。モードビ
ットにより定まるモードについては図１１で説明する。

【００２４】図１１は、上記の本実施形態におけるモー
ドビットの構成を示す。モードビットは、（１）ＡＳＭＰビット：ＡＳＭＰモード（主記憶共有マ
ルチプロセッサシステムにおいて１プロセスを複数のプ
ロセッサで並列実行していることを示すモード（Ａｓｙ
ｎｃｈｒｏｎｏｕｓＳＭＰモード））であるかＳＭＰ
モード（主記憶共有マルチプロセッサシステムにおいて
複数のプロセスを複数のプロセッサで同時実行している
ことを示すモード（ＳＭＰモード））であるかを示す
（ここではＡＳＭＰビット＝１の場合はＡＳＭＰモー
ド、ＡＳＭＰビット＝０の場合はＳＭＰモードとす
る）、（２）ｐａｒｅｎｔビット：ＡＳＭＰモード時に自プロ
セッサが親であるか子であるかを示す（ここでは、ｐａ
ｒｅｎｔビット＝１の場合は親、ｐａｒｅｎｔビット＝
０の場合は子とする）、（３）ｐａｒａビット：ＡＳＭＰモード時に現在プログ
ラムのパラレル部を実行しているのかシングル部を実行
しているのかを示す（ここでは、ｐａｒａビット＝１の
場合はパラレル部を実行、ｐａｒａビット＝０の場合は
シングル部を実行とする）、の３つからなる。

【００２５】ＡＳＭＰビットおよびｐａｒｅｎｔビット
はＯＳ（オペレーティングシステム）が変更する。ｐａ
ｒａビットはユーザプログラムおよびＯＳが変更する。
なお、ここでは各モード種別をビット情報の形で記録し
ているが、これらを識別できる情報を記録できる手段で
あればどのような形で記録されても良い。例えば、レジ
スタを設け、レジスタ内にこれらを識別できる情報を数
字やアルファベット記号の形で記憶しても良い。

【００２６】以下、ＳＭＰモードで本システムが動作す
る場合の動作を説明する。ＯＳは、まずＳＭＰモードで
動作するプロセッサのＡＳＭＰビットを「０」（ＳＭＰ
モードを示す）とし、各プロセッサに各々独立なプロセ
スを割り当てる。

【００２７】ＳＭＰモード時、プロセッサは以下のよう
に動作する（図２参照）。命令ユニット５３は、命令キ
ャッシュ５２に命令がある場合はそれを取り出し、命令
がない場合は信号線１８−１を介してアドレス／コマン
ドバス４１に命令フェッチのライン転送要求を送出する
とともに、命令キャッシュ５２がデータバス４２から命
令ラインを受け取るように制御する。命令ユニット５３
はバスを介して取り出した命令をデコードし、演算命令
なら演算ユニットＡＬＵ５７を、ロードストア命令であ
ればロードストアユニット５６を、信号線６８を介して
制御する。

【００２８】命令がロードストア命令の場合、ロードス
トアユニット５６はデータユニット５０に対し命令の種
別とアドレスを信号線６０を介して送出する。データユ
ニット５０は、データキャッシュ５１にデータがある場
合はレジスタ５８にデータを送出するようデータキャッ
シュ５１を制御する。データがない場合は、信号線１８
−０を介してアドレス／コマンドバス４１にデータフェ
ッチのライン転送要求を送出するとともに、データキャ
ッシュ５１がデータバス４２からデータラインを受け取
るように制御する。

【００２９】図６は、本実施形態で行うＳＭＰモード時
のデータキャッシュコヒーレンス方式を示す。本方式は
バークレイプロトコルとして知られる公知の方式である
（「情報科学コアカリキュラム講座コンピュータアー
キテクチャＩ」、１７０頁−１７３頁、富田真治著、丸
善出版）。

【００３０】図６に於いて、“丸”で囲ってあるのが、
キャッシュの各キャッシュラインの状態を示す。「Ｉ」
はＩｎｖａｌｄ（自キャッシュにデータがない。）、
「Ｖ」はＶａｌｉｄ（自キャッシュにデータがあり、内
容は主記憶と一致。他キャッシュにも同一のデータがあ
る可能性がある。）、「Ｄ」はＤｉｒｔｙ（自キャッシ
ュにデータがあり、内容は主記憶と異なる。他キャッシ
ュにはない。）、「Ｓｈ．Ｄ」はＳｈａｒｅｄＤｉｒ
ｔｙ（自キャッシュにデータがあり、内容は主記憶と異
なる。他キャッシュにも同一のデータがある可能性があ
る。）を示す。

【００３１】図６（ａ）は、自プロセッサで発生するア
クセス（Ｌ：ロード、ＳＴ：ストア、Ｃａｓｔｏｕｔ：
リプレースに伴う主記憶への書き戻し）により、各キャ
ッシュラインの状態がどう遷移するか、またこのキャッ
シュライン状態の変化に伴ってトランザクションが発生
し、他プロセッサへバスを介して出力される（このバス
上へ送信されるトランザクションをバストランザクショ
ンへいう）。このバストランザクションは図６において
“四角”で囲ってある。このバストランザクションはバ
ス（アドレス／コマンドバス４１、データバス４２）を
介して他プロセッサへ通知される。バストランザクショ
ンには、ＬＴｒｅｑ：他プロセッサのロードに伴うライ
ン転送要求、ＬＴｒｅｑ−ｆｏｒＳＴ：他プロセッサの
ストアに伴うライン転送要求、Ｉｎｖ：他プロセッサか
ら発せられた無効化要求、Ｂｕｓｏｕｔ：自キャッシュ
の当該キャッシュラインの内容のデータバスへの出力、
がある。

【００３２】図６（ｂ）は、他プロセッサからバスを介
してバストランザクション（ＬＴｒｅｑ、ＬＴｒｅｑ−
ｆｏｒＳＴ、Ｉｎｖ、Ｂｕｓｏｕｔ）を受けた場合、自
プロセッサの自キャッシュの状態がどう遷移するか、ま
た他プロセッサへ送信するどのようなバストランザクシ
ョンが発生するかを示している。発生するバストランザ
クションは“四角”で囲ってある。ここでは、発生する
バストランザクションとして、更に「Ｂｕｓｏｕｔ＆Ｓ
ｈ．Ｄ化指示（自キャッシュの当該キャッシュラインの
内容のデータバスへの出力および、データ取り込み先で
のＳｈ．Ｄ化要求）」が加わる。

【００３３】例えば、Ｖａｌｉｄであるラインに対して
自プロセッサからストア命令を実行した場合、自プロセ
ッサのラインに書込むためにその状態はＤｉｒｔｙに移
行し、同時にバスに対しＩｎｖトランザクションを発行
する（図６（ａ）参照）。一方他のプロセッサにおいて
同じラインがＶａｌｉｄだった場合、バストランザクシ
ョンＩｎｖを受け、そのラインは無効化されるとともに
状態はＩに移行する（図６（ｂ）参照）。

【００３４】本プロトコルは公知であり、その動作は状
態遷移図を追えば明らかであるため、ここではこれ以上
説明しないが、本プロトコルにより、ＳＭＰモードにお
いて複数のプロセッサのキャッシュが同じ主記憶位置を
共有した場合も、キャッシュ内容の一致性が保証され
る。以上、ＳＭＰモードで本システムが動作する場合の
動作を説明した。

【００３５】次にＡＳＭＰモード時の本システムの動作
を説明する。ＯＳは、まず並列実行されるプログラムが
要求する台数分のプロセッサ群を選択し、それらのＡＳ
ＭＰビットを１とする。さらにその中の１台のみｐａｒ
ｅｎｔビットを１とし（このプロセッサは親となる）、
他のプロセッサのｐａｒｅｎｔビットは０（これらプロ
セッサ群は子となる）とする。その後選択したプロセッ
サ群に同一プロセス（ジョブに相当）の各スレッド（タ
スクに相当）を割り当てる。

【００３６】図３は並列実行されるプログラムの例であ
り、その内いずれの部分が並列実行されるかは「発明が
解決しようとする課題」の項で述べたとおりである。

【００３７】図４は図３のプログラムを並列実行する機
械語命令列イメージである。命令列の左側に付された数
字は機械語命令のアドレスとして便宜的に付けたもので
ある。本実施形態では、親プロセッサも子プロセッサ群
も全く同じアドレスから始まる同じ命令列を実行する。

【００３８】命令列中、ｓｗｉｔｃｈ＿ｔｏ＿ｓｉｎｇ
ｌｅ＿ｍｏｄｅ命令、および、ｓｗｉｔｃｈ＿ｔｏ＿ｐ
ａｒａ＿ｍｏｄｅ命令は、本実施形態において新設され
る命令である。本命令の動作は、命令を実行するプロセ
ッサが親であるか子であるか、すなわちｐａｒｅｎｔビ
ットの値によって異なる。

【００３９】（１）ｓｗｉｔｃｈ＿ｔｏ＿ｓｉｎｇｌｅ
＿ｍｏｄｅ命令の実行ｐａｒｅｎｔビットが１の時（親プロセッサの場合）、
ｓｗｉｔｃｈ＿ｔｏ＿ｓｉｎｇｌｅ＿ｍｏｄｅ命令をデ
コードすると、プロセッサは子プロセッサ群から同期情
報バス４０を介して、子プロセッサからバリア（当該複
数のプロセッサが予めプログラムで設定した同期ポイン
ト）まで処理が終了したことを示す信号（この信号をバ
リア信号と呼ぶことにする）が返ってくるのを待ち、全
ての子プロセッサから上記信号を受信することで、全て
のプロセッサ間で同期が取れたこと（バリア同期）を確
認したら（なお、親プロセッサはｓｗｉｔｃｈ＿ｔｏ＿
ｓｉｎｇｌｅ＿ｍｏｄｅ命令をデコードするということ
が即ちバリアまで処理が終了していることを示してい
る）、同期情報バス４０にモードをシングルに変更する
よう指示を出す。

【００４０】ｐａｒｅｎｔビットが０の時（子プロセッ
サの場合）、ｓｗｉｔｃｈ＿ｔｏ＿ｓｉｎｇｌｅ＿ｍｏ
ｄｅ命令をデコードすると、プロセッサは同期情報バス
４０に対して自プロセッサがバリアまで処理が終了した
ことを示す信号を送出後、プログラムカウンタの更新を
やめる。すなわち各子プロセッサは、命令の取り出しお
よび実行を中止した状態に入り、親プロセッサは全子プ
ロセッサがバリアに到達するのを待ってから後続の命令
を実行することになる。

【００４１】（２）ｓｗｉｔｃｈ＿ｔｏ＿ｐａｒａ＿ｍ
ｏｄｅ命令の実行ｐａｒｅｎｔビットが１の時（親プロセッサの場合）、
ｓｗｉｔｃｈ＿ｔｏ＿ｐａｒａ＿ｍｏｄｅ命令をデコー
ドすると、親プロセッサは同期情報バス４０にモードを
パラレルに変更するよう指示を出し、その時実行中の命
令のプログラムカウンタを同期情報バス４０に送出す
る。モードをパラレルに変更されると、子プロセッサは
同期情報バス４０に送出されたプログラムカウンタを受
け取り、その値からプログラムカウンタの更新を再開す
る。すなわち、親プロセッサは子プロセッサの中止した
状態（ストール状態）を解除し、その時実行中の命令か
ら再開させることになる。ｐａｒｅｎｔビットが０の時
（子プロセッサの場合）、ｓｗｉｔｃｈ＿ｔｏ＿ｐａｒ
ａ＿ｍｏｄｅ命令をデコードしてもプロセッサは何も行
なわない。

【００４２】ｓｗｉｔｃｈ＿ｔｏ＿ｓｉｎｇｌｅ＿ｍｏ
ｄｅ命令、ｓｗｉｔｃｈ＿ｔｏ＿ｐａｒａ＿ｍｏｄｅ命
令の動作が上記であることから、図４の機械語命令列は
以下のように実行されることになる。すなわち、命令列
１００２は親プロセッサのみが実行し、命令１００３に
より、子プロセッサにも命令アドレス９２０が伝わり、
親、子プロセッサ群が命令列１００４を並列実行する。
ここで命令列１００２は図３の３１００に相当し、命令
列１００４は３２００に相当する。命令列１００２中の
ｃｏｍｐｕｔｅ＿ｍｙ＿ａｄｄｒは、各プロセッサの担
当すべきデータのアドレスをそれぞれの計算機で互いに
独立に計算する命令シーケンスを略記したものである。
命令１００５により子プロセッサは実行を中止し、親プ
ロセッサはバリア同期がとれたのを確認の後、命令列１
００６を実行する。さらに命令１００７により再び親、
子プロセッサ群が命令列１００８の並列実行を開始し、
命令１００９により再び親プロセッサのみの実行に戻
る。ここで命令列１００６は図３の３３００に相当し、
命令列１００８は３４００に相当する。

【００４３】すなわち、図４に示されるプログラムは、
最初、親プロセッサおよび子プロセッサ群により処理が
開始されるが、ｓｗｉｔｃｈ＿ｔｏ＿ｓｉｎｇｌｅ＿ｍ
ｏｄｅ命令により、子プロセッサ群は中止状態となり、
親プロセッサだけで処理される状態となる。その後、親
プロセッサにてｓｗｉｔｃｈ＿ｔｏ＿ｐａｒａ＿ｍｏｄ
ｅ命令が処理されると、子プロセッサ群へプログラムの
再開用の親プロセッサのプログラムカウンタの値が通知
され、全てのプロセッサによって、このプログラムカウ
ンタの値からプログラム処理が行われる。また、ｓｗｉ
ｔｃｈ＿ｔｏ＿ｓｉｎｇｌｅ＿ｍｏｄｅ命令を実行する
と先の記述と同様の処理を繰り返す。以上の動作がモー
ドビットに基づく命令列並列実行のシーケンスである。

【００４４】以下モードビットに基づくキャッシュコヒ
ーレント動作について説明する。

【００４５】まず図２を用いて動作概要を説明する。Ａ
ＳＭＰモードかつパラレルモード時のキャッシュコヒー
レント動作は本実施形態では、ＳＭＰモード時と同じと
する。すなわちデータキャッシュのコヒーレンスは図６
に基づいて行なう。また命令キャッシュのコヒーレンス
はとらない。

【００４６】ＡＳＭＰモードかつシングルモード時は、
親プロセッサのみが命令列を実行するが、親プロセッサ
の実行した結果を子プロセッサのデータキャッシュにも
反映するよう、コヒーレント機構は動作する。すなわ
ち、親プロセッサが書込んだキャッシュラインはＳｈ．
Ｄ属性を持って全ての子プロセッサにブロードキャスト
され、また親プロセッサが読み込んだデータラインは、
全ての子プロセッサにＶ属性でブロードキャストされ
る。また命令キャッシュについては、子プロセッサは命
令の実行を中止（ストール）してはいるが、親プロセッ
サが発生した命令フェッチのためのライン転送結果を自
命令キャッシュにも取り込むように制御する。以上によ
り、パラレルモード時にはばらばらであった各プロセッ
サのキャッシュの内容が、シングルモードで実行中に徐
々に親プロセッサのキャッシュの内容に変化していく
（詳細後述）。

【００４７】図７は、上記を実現しつつデータキャッシ
ュのコヒーレンスを保つ状態遷移方式を示す。図７
（ａ）は自プロセッサで発生するアクセスにより、各状
態がどう遷移するか、またどのようなバストランザクシ
ョンが発生するかを示している。また図７（ｂ）はバス
から発生するトランザクションにより自キャッシュの状
態がどう遷移するか、またどのようなバストランザクシ
ョンを発生するかを示している。

【００４８】例えば、Ｖであるラインに対して自プロセ
ッサからストア命令を実行した場合、自プロセッサのラ
インに書込むと同時に他のプロセッサへブロードキャス
トが発生し、その状態はＳｈ．Ｄに移行する（図７
（ａ）参照）。一方他のプロセッサにおいて同じライン
がＶだった場合、バストランザクションＢｒｏａｄｃａ
ｓｔを受けそのラインはキャッシュに取り込まれ、状態
はＳｈ．Ｄに移行する（図７（ｂ）参照）。本状態遷移
が正しく動作することは、後に図４の機械語命令列を用
いて説明する。

【００４９】図８、図９は、以上のモードビットに基づ
くプロセッサ動作およびキャッシュコヒーレント動作を
実現する構成を示す。

【００５０】図８は、データユニット５０の構成図であ
る。データキャッシュ状態記憶機構７９は、データキャ
ッシュ５１に保持されているデータラインのアドレスと
その状態を記憶している。信号線６７には命令ユニット
５３内のモードビットの値が出力されている。

【００５１】信号線６７がＳＭＰモードを示していると
き、信号線６０−０および６０−１を介してロードスト
アユニット５６からロードストア要求が入ってくると、
組合せ回路８０は図６（ａ）の状態遷移に従って、バス
トランザクション発生回路７１〜７６およびデータキャ
ッシュへのライン取込み指示回路７７、キャッシュ状態
変更回路７８を制御する信号を信号線１０１〜１０７、
９３に送出する。

【００５２】具体的には、例えばストア要求が信号線６
０−１を介し入力され、そのストアアドレスが信号線６
０−０に入力されたとする。データキャッシュ状態記憶
機構７９は、ストアアドレスとキャッシュの状態を比較
し、アクセス要求先のラインの状態、すなわち「Ｉ」か
「Ｖ」か「Ｄ」か「Ｓｈ．Ｄ」かを信号線９１に送出す
る。また信号線９２にはそのストア要求によってＣａｓ
ｔｏｕｔされるべきラインがあるかとそのアドレスが送
出される。例えば信号線９１に「Ｖ」が示され、またＣ
ａｓｔｏｕｔされるべきラインがない場合、組合せ回路
８０は無効化トランザクション発生回路７３を起動し、
エンコード回路８１を経由してアドレス／コマンドバス
４１に対し無効化トランザクションを発生させる。さら
に組合せ回路８０は状態変更回路７８を起動し、アクセ
ス要求先ラインの状態を「Ｄ」に変更する。

【００５３】また信号線１８−０−１にはバスから発生
するトランザクションが入力され、組合せ回路８０は図
６（ｂ）の状態遷移にしたがってバストランザクション
発生回路７１〜７６およびデータキャッシュへのライン
取込み指示回路７７、キャッシュ状態変更回路７８を制
御する信号線を送出する。

【００５４】信号線６７がＡＳＭＰかつパラレルモード
を示しているときの動作は、本実施形態においては上記
ＳＭＰモード時の動作と同じである。

【００５５】信号線６７がＡＳＭＰかつシングルモード
を示している場合、組み合せ回路８０は図７（ａ）
（ｂ）の状態遷移に従ってバストランザクション発生回
路７１〜７６およびデータキャッシュへのライン取込み
指示回路７７、キャッシュ状態変更回路７８を制御する
信号線を送出する。

【００５６】具体的には例えばストア要求が信号線６０
−１を介し入力され、そのストアアドレスが信号線６０
−０に入力されたとする。データキャッシュ状態記憶機
構７９が信号線９１にＶを送出し、またＣａｓｔｏｕｔ
されるべきラインが信号線９２に示されない場合、組合
せ回路８０はブロードキャストトランザクション発生回
路７６を起動する。ブロードキャストトランザクション
発生回路７６は信号線６５を介してデータキャッシュ５
０に対しストア結果の反映されたラインをデータバス４
２に送出するよう指示するとともに、エンコード回路８
１を経由してアドレス／コマンドバス４１に対しブロー
ドキャストトランザクションを発生させる。さらに組合
せ回路８０は状態変更回路７８を起動し、アクセス要求
先ラインの状態をＳｈ．Ｄに変更する。

【００５７】図９は、命令ユニット５３の構成図であ
る。

【００５８】命令キャッシュ状態記憶機構１５３は、命
令キャッシュ５２に保持されている命令ラインのアドレ
スを記憶している。プログラムカウンタ１３１はこれか
ら実行すべき命令のアドレスを示し、命令キャッシュ状
態記憶機構１５３で命令アドレスを調べた結果、求める
命令が命令キャッシュ５２になければ状態変更回路１３
４、信号線１８−１−０を経由して命令ラインのフェッ
チ要求を送出する。状態変更回路１３４は命令ラインの
フェッチ要求を出した場合は信号線６６−１に命令キャ
ッシュに対するライン取込み指示を、信号線１５５に命
令キャッシュ状態変更指示を送出する。命令キャッシュ
５２に求める命令がある場合は信号線６６−０を介し命
令要求が命令キャッシュ５２に送出され、信号線６６−
２を介して命令が送られる。命令はデコード回路１２０
でデコードされ、通常の演算もしくはロードストア命令
であれば、デコード結果は信号線６８に送出され、演算
ユニット５７もしくはロードストアユニット５６を制御
する。命令がＡＳＭＰをモード制御する、図４のｓｗｉ
ｔｃｈ＿ｔｏ＿ｓｉｎｇｌｅ＿ｍｏｄｅ命令（１００
１）およびｓｗｉｔｃｈ＿ｔｏ＿ｐａｒａ＿ｍｏｄｅ命
令（１００３）である場合、デコード結果は信号線１５
３に送出される。プログラムカウンタ１３１は信号線１
５８により、命令を取り出すごとに更新される。以上が
モードビットにかかわらず共通的な命令ユニット５３の
動作である。

【００５９】次に、モードビットにかかわった命令ユニ
ット５３の動作を示す。

【００６０】モードビット１５２がＳＭＰモードを示し
ている場合、デコード１２０からの出力１５３とモード
１２１からの出力１５２の組み合わせによって動作する
組合せ回路１２２は何も出力しない。すなわち命令ユニ
ット５３の動作は上述のとおりであり、ｓｗｉｔｃｈ＿
ｔｏ＿ｓｉｎｇｌｅ＿ｍｏｄｅ命令（１００１）および
ｓｗｉｔｃｈ＿ｔｏ＿ｐａｒａ＿ｍｏｄｅ命令（１００
３）は無視される。

【００６１】モードビット１５２がＡＳＭＰモード示し
ている場合、信号線１５３にｓｗｉｔｃｈ＿ｔｏ＿ｓｉ
ｎｇｌｅ＿ｍｏｄｅ命令（１００１）およびｓｗｉｔｃ
ｈ＿ｔｏ＿ｐａｒａ＿ｍｏｄｅ命令（１００３）を送出
されると、組合せ回路１２２は、ＰＣ（プログラムカウ
ンタ）取込み回路１２３、プログラムカウンタの更新を
抑止するＰＣ（プログラムカウンタ）更新抑止回路１２
４、I-line取込み指示回路１２５、自プロセッサでのプ
ログラム処理がバリア点に達したときにこれを通知する
信号を送出するバリア送出回路１２６、子プロセッサへ
モードが遷移したことを通知するモードBroad-Cast回路
１２７、全ての子プロセッサからバリア点への到達が通
知されたらモードブロードキャスト回路１２７を起動す
るバリア完待ち回路１２８、他のプロセッサへプログラ
ムカウンタ値を送出するＰＣ送出回路１２９を次のよう
に制御する。

【００６２】すなわちｐａｒｅｎｔ＝１、ｐａｒａ＝１
を示している場合、ｓｗｉｔｃｈ＿ｔｏ＿ｓｉｎｇｌｅ
＿ｍｏｄｅ命令が信号線１５３に送出されると、バリア
完了待ち回路１２８とモードブロードキャスト回路１２
７を起動する。バリア完了待ち回路１２８は信号線１４
−０に全ての子プロセッサのバリア点への到達が通知さ
れたらモードブロードキャスト回路１２７を起動する。
またｐａｒｅｎｔ＝１、ｐａｒａ＝０の時にｓｗｉｔｃ
ｈ＿ｔｏ＿ｐａｒａ＿ｍｏｄｅ命令が信号線１５３に送
出されると、モードブロードキャスト回路１２７と他の
プロセッサへプログラムカウンタ値を送出するプログラ
ムカウンタ送出回路１２９を起動する。

【００６３】一方ｐａｒｅｎｔ＝０、ｐａｒａ＝１を示
している場合、ｓｗｉｔｃｈ＿ｔｏ＿ｓｉｎｇｌｅ＿ｍ
ｏｄｅ命令が信号線１５３に送出されると、バリア送出
回路１２６とプログラムカウンタ更新抑止回路１２４が
起動される。またｐａｒｅｎｔ＝０、ｐａｒａ＝０の時
に信号線１４−０にモードをパラレルに切り替える指示
が入力されると、モードビット１２１はｐａｒａ＝１と
するとともに組合せ回路１２２を介してプログラムカウ
ンタ取込み回路１２３を起動し、信号線１４−０に送出
されているプログラムカウンタを取り込むよう制御す
る。

【００６４】図４の機械語命令列を実行したときのキャ
ッシュの内容について図６、図７、図１０（ａ）を用い
て説明する。なお、キャッシュは１ラインに４データ保
持できるものとする。

【００６５】図１０は、図４の各命令列１００１〜１０
０９を４台のプロセッサで実行したときの親プロセッサ
（ＰＥ０）および子プロセッサ（ＰＥ１〜３）の命令キ
ャッシュおよびデータキャッシュの内容を示したもので
ある。なお、図１０では子プロセッサは同じ動作をする
のでＰＥ１のキャッシュの内容のみを示している。命令
キャッシュの内容は、図４で便宜的に付した命令アドレ
スで表示した。図中、＊が付いている命令もしくはデー
タはキャッシュミスもしくはブロードキャストされたデ
ータの取込みが発生したことを示している。また図中Ａ
（１）〜のように表示した場合、Ａ（１）から始まる４
つのデータ、すなわちＡ（１）、Ａ（２）、Ａ（３）、
Ａ（４）がキャッシュに入っていることを意味するとす
る。

【００６６】図４の命令１００１を実施したときは、Ｐ
Ｅ０、ＰＥ１とも命令キャッシュミスが発生したとす
る。ＰＥ１はプログラムカウンタの更新を抑止し、中止
（ストール）状態に入る。ＰＥ０〜３はシングルモード
となり、ＰＥ０は命令列１００２の実行を開始する。Ｐ
Ｅ０のデータキャッシュにはデータが入っていなかった
とすると、Ｐ、Ｓ、Ａ（１）〜は全てライン転送され
る。この時ＰＥ１（子プロセッサ）のデータキャッシュ
は図７（ｂ）に従い、Ｐ、Ｓ、Ａ（１）〜を取り込む
［状態ＩからＬＴｒｅｑもしくはＬＴｒｅｑ−ｆｏｒＳ
Ｔにより遷移］。ＰＥ０（親プロセッサ）のみＶａｌｉ
ｄ、その他（子プロセッサ）はＳｈ．Ｄとなる。またＰ
Ｅ１（子プロセッサは命令キャッシュにもＰＥ０と同じ
アドレス９１０を取り込む。すなわち、子プロセッサは
中止状態ではあるが、子プロセッサの命令およびデータ
キャッシュの更新は親プロセッサの命令およびデータキ
ャッシュ更新と合わせて行われる。これらの取込み処理
は、ＰＥ０のライン転送のかげで行なわれるので、処理
時間の増加は起こさない。

【００６７】ＰＥ０（親プロセッサ）が命令１００３を
実行すると、親プロセッサは同期情報バスのモードをパ
ラレルとするとともにプログラムカウンタを出力する。
ＰＥ１（子プロセッサ）はプログラムカウンタを取り込
み、全プロセッサが命令列１００４の並列実行を開始す
る。ＰＥ１の命令キャッシュにはＰＥ０と同じラインが
格納されているので命令キャッシュミスは発生しない。
またＰＥ１のデータキャッシュにはＳが格納されている
のでＳに関してはキャッシュミスは発生しない。Ａ
（５）〜、Ｂ（５）〜についてはキャッシュミスとな
る。命令列１００４の実行は図６の状態遷移に基づき行
なわれるため、ＰＥ０とＰＥ１のキャッシュの内容はか
なり異なってくる。ＰＥ１ではＢ（５）〜はＤｉｒｔｙ
の状態で保持される。

【００６８】命令１００５を実行すると、ＰＥ１（子プ
ロセッサ）は、バリア点に到達するとこのことを示すバ
リア信号を同期情報バス４０に送出してストール状態に
入る。またＰＥ０（親プロセッサ）は、命令１００５を
実行すると、ＰＥ１〜３（子プロセッサ）からのバリア
信号を待ち、これらを全て受け取ると、モードをシング
ルにする。

【００６９】命令列１００６の実行では、キャッシュコ
ヒーレンス制御は図７の状態遷移に従う。よってＰＥ１
〜３が変更したＢ（５）〜Ｂ（１６）はＰＥ０が参照す
るたびに、ブロードキャストされ、全ＰＥがＳｈ．Ｄ属
性のＢ（５）〜Ｂ（１６）を保持することになる。例え
ば、ＰＥ０（親プロセッサ）は図７（ａ）の状態Ｉから
ＬによってＳｈ．Ｄに移行し、ＰＥ１〜３（子プロセッ
サ）は図７（ｂ）の状態ＩからＬＴｒｅｑによりＳｈ．
Ｄに移行する。

【００７０】命令１００７は、命令１００３と同様に実
行される。命令列１００８は、全ＰＥにより並列実行さ
れるが、ＰＥ１はＢ（５）〜を既にキャッシュに取り込
んでいるので、ミスを発生しない。

【００７１】比較のため、従来方式により図３のプログ
ラムを並列実行する場合の機械語命令列イメージを図５
に示し、また本命令列を通常のＳＭＰモード、すなわち
図６の状態遷移に従って実行した場合のキャッシュの内
容を図１０（ｂ）に示す。

【００７２】図５（ａ）は親プロセッサが実行する命令
列、（ｂ）は子プロセッサ群が実行する命令列である。
図５（ａ）の命令２００３のｓｔｏｒｅ＿ｂｅｇｉｎ＿
ａｄｄｒ命令は、子プロセッサを起動し、子プロセッサ
に実行開始アドレスを通知するシーケンスを表してい
る。図５（ａ）の命令２００５のｌｏａｄａｌｌ＿ｅｎ
ｄ命令は、子プロセッサが通知してくる終了フラグを集
計するシーケンスを表している。図５（ｂ）に示すよう
に、子プロセッサはプログラムの非並列実行部分に到達
するとスピンウェイトを行なうとする。

【００７３】図１０（ｂ）に明らかなように、従来方式
ではプログラムの並列化部分に入るときにＰＥ１（子プ
ロセッサ）の命令キャッシュがミスする（２００４、２
００８）。また本発明の実施形態では発生しなかったデ
ータキャッシュミスが２００４、２００８で発生してい
る。

【００７４】以上より明らかに従来方式の方がキャッシ
ュミスのペナルティが大きく、１プロセス並列実行によ
る性能向上を阻害している。

【００７５】

【発明の効果】以上により本発明では、複数のプロセス
を複数のプロセッサで同時実行するモード（ＳＭＰモー
ド）か、１つのプロセスを前記第１の複数のプロセッサ
で並列実行するモード（ＡＳＭＰモード）かを識別する
第１の情報を具備し、前記情報に応じて前記内容一致制
御回路の動作を切り替えるので、各モードにあったキャ
ッシュコヒーレント制御方式を選ぶことができる。例え
ば、ＳＭＰモードでは各プロセッサのキャッシュの内容
をなるべく独立に保つことにより、無駄にコヒーレント
機構を起動せずに複数プロセス実行のスループットを向
上させることができる。一方ＡＳＭＰモードでは、プロ
グラムの実行部分（プロセスの並列動作部分を実行する
モードと非並列動作部分を実行するモード）に応じて適
したキャッシュコヒーレント方式をとることができ、１
プロセスの並列実行の性能を向上させることができる。

【図面の簡単な説明】

【図１】本発明の実施形態の１つであるプロセッサシス
テムの全体構成図である。

【図２】本発明のプロセッサの構成図である。

【図３】例題プログラムである。

【図４】図３のプログラムの本発明における機械語命令
列イメージである。

【図５】図３のプログラムの従来技術における機械語命
令列イメージである。

【図６】キャッシュコヒーレンス方式を説明する状態遷
移図である。

【図７】キャッシュコヒーレンス方式を説明する状態遷
移図である。

【図８】本発明のプロセッサのデータキャッシュコヒー
レント機構の構成図である。

【図９】本発明のプロセッサの命令キャッシュコヒーレ
ント機構の構成図である。

【図１０】本発明と従来技術のキャッシュ内容である。

【図１１】本発明の動作切り替えモードビットの構成で
ある。

【符号の説明】

５１データキャッシュ、５２命令キャッシュ、５０データユニット、５３命令ユニット、１２１モードビット、４０同期情報バス、７１〜７７データキャッシュコヒーレント回路、１２３〜１２９命令キャッシュコヒーレント回路。

───────────────────────────────────────────────────── フロントページの続き (72)発明者助川直伸東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内

Claims

【特許請求の範囲】

【請求項１】各々キャッシュを備える複数のプロセッサ
と、上記プロセッサ群を結合する接続線と、上記キャッ
シュ間の内容一致制御回路とを備えるシステムにおい
て、上記プロセッサ群の内の第１の複数のプロセッサが、複
数のプロセスを前記第１の複数のプロセッサで同時実行
するモードか、１つのプロセスを前記第１の複数のプロ
セッサで並列実行するモードかを識別する第１の情報を
具備し、前記情報に応じて前記内容一致制御回路の動作を切り替
えるマルチプロセッサシステム。
【請求項２】前記内容一致制御回路を、複数の機能ユニ
ットから構成し、前記情報に応じて前記機能ユニットの
いずれを起動するかを選択する回路を備える請求項１の
マルチプロセッサシステム。
【請求項３】１つのプロセスを前記第１の複数のプロセ
ッサで同時実行するモードは、更に、プロセスの並列動
作部分を実行するモードと非並列動作部分を実行するモ
ードとを有し、前記並列動作部分を実行するモードと非並列動作部分を
実行するモードとを切り替える手段と、前記並列動作部分を実行するモードと非並列動作部分を
実行するモードに応じて前記内容一致制御回路の動作を
切り替える手段とを有する請求項１のマルチプロセッサ
システム。
【請求項４】前記内容一致制御回路を複数の機能ユニッ
トから構成し、前記１つのプロセスを前記第１の複数のプロセッサで同
時実行するモードであり、かつ、非並列動作部分を実行
するモードである場合は、前記第１の複数のプロセッサ
のそれぞれのキャッシュが同じエントリで更新されるよ
うに、前記機能ユニットを選択する回路を有する請求項
３のマルチプロセッサシステム。
【請求項５】前記内容一致制御回路を複数の機能ユニッ
トから構成し、前記１つのプロセスを前記第１の複数のプロセッサで同
時実行するモードであり、かつ、並列動作部分を実行す
るモードである場合は、前記第１の複数のプロセッサの
それぞれのキャッシュが個別のエントリで更新されるよ
うに、前記機能ユニットを選択する回路を有する請求項
３のマルチプロセッサシステム。
【請求項６】前記内容一致制御回路は、１つのプロセス
を前記第１の複数のプロセッサで同時実行するモードで
あり、かつ、非並列動作部分を実行するモードである場
合は、前記第１の複数のプロセッサのそれぞれのキャッ
シュを同じエントリで更新する請求項３のマルチプロセ
ッサシステム。
【請求項７】前記第１の複数のプロセッサは、１つの親
プロセッサと他の子プロセッサからなり、前記親プロセッサか前記子プロセッサかに応じて、上記
内容一致制御回路の動作を変える請求項１のマルチプロ
セッサシステム。