JPH0916471A

JPH0916471A - プロセッサ

Info

Publication number: JPH0916471A
Application number: JP7161738A
Authority: JP
Inventors: Kazuhiko Tanaka; 和彦田中; Keiji Kojima; 啓二小島; Kiyokazu Nishioka; 清和西岡; Toru Nojiri; 徹野尻; Yoshibumi Fujikawa; 義文藤川; Masao Ishiguro; 正雄石黒
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-06-28
Filing date: 1995-06-28
Publication date: 1997-01-17
Anticipated expiration: 2019-12-08
Also published as: JP3598589B2; KR100248440B1; US5893143A; KR970002618A; TW299421B

Abstract

(57)【要約】【目的】本発明は、単一のプログラムカウンタによって
制御される複数の処理ユニットを持つプロセッサにおい
て、高速処理とキャッシュメモリの使用効率向上の向上
を目的とする。【構成】各処理ユニット１１０ａ〜ｄごとに、独立した
キャッシュメモリ１００ａ〜ｄを持ち、主記憶５からキ
ャッシュメモリへ命令を読み込む際に、各キャッシュメ
モリ１００ａ〜ｄへ命令フィールドを分配する。各キャ
ッシュメモリは、共通の制御回路２０によって制御され
る。また、コンパイラは、特定の処理ユニットに実行す
べき処理が集中するように、処理のスケジューリングを
行なう。これに応じて、キャッシュメモリ１００ａ〜ｄ
の容量を、対応処理ユニットの実行処理比率に応じて異
ならせる。【効果】不要なコードをキャッシュメモリ上から取り除
くことができ、キャッシュの使用効率を上げることがで
きる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、パーソナルコンピュー
タなどの情報処理装置に使われる、プロセッサ、コプロ
セッサ、及びそれらを用いた拡張ボード等に関する。

【０００２】

【従来の技術】プロセッサのアーキテクチャ動向とし
て、縮小命令セットコンピュータ（ＲｅｄｕｃｅｄＩ
ｎｓｔｒｕｃｔｉｏｎｓｅｔｓｃｏｍｐｕｔｅｒ、
以下、ＲＩＳＣという）が主流になりつつある。複雑な
命令を持たないという特徴のほかに、命令長を一定にす
るという特徴も持つ。命令が単純なため、処理が高速に
行えることと、命令長が一定なため、一回のメモリアク
セスで命令を読み込むことができることなどにより、高
速処理が可能になっている。

【０００３】ＲＩＳＣプロセッサの処理性能をさらに向
上させる手段として、現在はスーパースカラー方式が主
流となっている。スーパースカラー方式は、プロセッサ
内部にある複数の演算ユニットのスケジューリングをハ
ードウェアによって、実行時に動的に行うものである。
この方法は、従来のソフトウェア資産をそのまま利用で
きるという長所がある反面、スケジューリングのための
ハードウェアが必要であるうえ、実行時にスケジューリ
ングを行うため、スケジューリングに使用できる情報が
少なく、あまり高い並列性を引き出せないという短所が
ある。

【０００４】一方、スーパースカラー方式よりも高い性
能を達成することを目的した方式として、ベリーロング
インストラクションワード（ＶｅｒｙＬｏｎｇＩｎ
ｓｔｒｕｃｔｉｏｎＷｏｒｄ、以下、ＶＬＩＷとい
う）方式がある。これは、プロセッサ内部にある複数の
演算ユニットのスケジューリングをコンパイル時にソフ
トウェアによって静的に行い、並列実行可能な命令群を
一つの命令にまとめておき、プロセッサのプログラム実
行時に一つにまとめた命令を一度に読み込み、実行する
方式である。ＶＬＩＷ方式では、スケジューリングのた
めのハードウェアが不要である上、スケジューリング時
に多くの情報を使用できるため、並列性を引き出しやす
い、などの長所がある。しかし、ＶＬＩＷ方式では、複
数の命令をひとまとめにするため、命令長が大きくなる
という問題点が発生する。

【０００５】スーパースカラー方式とＶＬＩＷ方式につ
いては、「次世代マイクロプロセッサ」、日経エレクト
ロニクス、ｐ６７〜ｐ１５０、１９９５．１．３０（ｎ
ｏ．６２７）日経ＢＰ社に紹介されている。一般にプロ
グラムには、並列性の高い部分と並列性の低い部分が存
在する。それぞれについて、簡単な例を図１、図２を用
いて説明する。これらの図において、各行は一つの処理
を表している。例えば、図１の１行目の処理８００ａ
は、変数Ｘ０の内容に１を加算して、その結果を、変数
Ｙ０に代入することを示している。これらの処理は、通
常上から１行ずつ逐次的に実行されるものである。

【０００６】図１は、並列性の高い部分の例である。こ
の部分では、それぞれの処理が互いに独立しているた
め、各処理を並列に実行することが可能である。例え
ば、２行目の処理８００ｂが使用する変数Ｘ１の値は、
１行目の処理８００ａを実行する前に決まっているた
め、１行目の処理８００ａと２行目の処理８００ｂは、
並列に実行することが可能である。

【０００７】一方、図２は並列性の低いプログラムの例
である。この部分では、各処理に必要な値が、直前の処
理により算出されるため、直前の処理が終了するまで、
次の処理を行うことができない。例えば、２行目の処理
８１０ｂが使用する変数Ｘ１の値は、１行目の処理８１
０ａを実行した後にならないと求まらないため、１行目
の処理８１０ａが終了する前に、２行目の処理８１０ｂ
を、実行することは、通常は不可能である。

【０００８】図３、図４には、図１、２のプログラム
を、４つの処理を同時に実行可能なＶＬＩＷ方式の命令
（以下、ＶＬＩＷ命令という）に変換した例を示す。こ
れらの図では、横１列が一つのＶＬＩＷ命令に相当して
いる。これらは、時間とともに上から下へと実行される
ものとする。図３は並列性の高い処理（図１）を変換し
たものである。この部分では、１命令で４つの処理を同
時に実行することにより、単一の処理ユニットしか持た
ない従来のプロセッサに対して、４倍の性能を実現する
ことができる。

【０００９】一方、図４は並列性の低い処理（図２）を
変換したものである。この場合には、同時に１つの処理
しか実行できないため、４つの処理を同時に実行可能な
ＶＬＩＷ方式を採用したプロセッサ（以下、ＶＬＩＷプ
ロセッサという）でも、単一の処理ユニットしか持たな
いプロセッサと同じ性能しか、達成できない。しかも、
実行すべき処理が存在しない部分でも命令長を一定にす
る必要から、処理が存在しないことを示す無処理命令
（以下、ＮｏＯｐｅｒａｔｉｏｎを略してＮＯＰとい
う）を挿入する必要があるため、命令のサイズは、処理
の内容に比べて大きくなる。

【００１０】一般的なプログラムをＶＬＩＷプロセッサ
で実行しようとすると、ＮＯＰの割合はかなり高いもの
となる。そのため、ＶＬＩＷプロセッサを使用する情報
処理装置（以下、ＶＬＩＷシステムという）の主記憶、
あるいはＶＬＩＷプロセッサ内部の命令用キャッシュメ
モリ（以下、キャッシュメモリという）の多くをＮＯＰ
が占め、無駄になったり、あるいはキャッシュメモリ容
量が大きくなったりするので、ＶＬＩＷプロセッサの性
能が期待ほど上がらなかったり、ＶＬＩＷシステムの高
価格化やＶＬＩＷプロセッサのチップ肥大化、高価格化
を招くという課題が生じている。

【００１１】ＶＬＩＷプロセッサのこの課題に関して
は、「実行遅延に基づく再構成ＶＬＩＷ型計算機の基本
構成」情報処理学会研究報告、計算機アーキテクチャ、
Ｎｏ．８９−１３、８７〜９３ページ、１９９１．７．
１９、情報処理学会に記載されている。

【００１２】ＶＬＩＷシステムの主記憶については、Ｎ
ＯＰを主記憶上に置かないことにより、有効活用が可能
である。主記憶上で、ＮＯＰを削除することで、メモリ
容量を節約している例としては、「アブリューアー
キテクチュアフォーアトレーススケジューリング
コンパイラ」アイイーイーイー、トランザクション
オンコンピューターズ、３７巻、８号、９６７〜９７
９ページ、８月１９８８（「ＡＶＬＩＷＡｒｃｈ
ｉｔｅｃｔｕｒｅｆｏｒａＴｒａｃｅＳｃｈｅｄ
ｕｌｉｎｇＣｏｍｐｉｌｅｒ」ＩＥＥＥ，ＴＲＡＮＳ
ＡＣＴＩＯＮＯＮＣＯＭＰＵＴＥＲＳ，ＶＯＬ３
７，Ｎｏ８，ｐｐ９６７〜９７９、ＡＵＧＵＳＴ１９
８８」）に、簡単な説明がある。

【００１３】また、ＶＬＩＷプロセッサ内部のキャッシ
ュメモリの容量を減らすために、命令を圧縮して記憶
し、キャッシュから読み出した後に伸長する方式があ
る。これについては、「フィリップスホープストウ
ディスプレースディーエスピーズウィズブリュ
ー」マイクロプロセッサリポート、１２〜１５ページ、
１９９４．１２．５、米国マイクロデザインリソーシイ
ズ社発行（「ＰｈｉｌｉｐｓＨｏｐｅｓｔｏＤｉ
ｓｐｌａｃｅＤＳＰｓｗｉｔｈＶＬＩＷ」「ＭＩ
ＣＲＯＰＲＯＣＥＳＳＯＲＲＥＰＯＲＴ」ｐｐ１２〜
１５、Ｄｅｃｅｍｂｅｒ５、１９９４、Ｍｉｃｒｏ
ＤｅｓｉｇｎＲｅｓｏｕｒｃｅｓ）に簡単な説明があ
る。

【００１４】

【発明が解決しようとする課題】主記憶上でＮＯＰを削
除する方式では、ＶＬＩＷプロセッサ内部のキャッシュ
メモリの容量は変わらないので、プロセッサの低価格
化、あるいは高性能化はできなくなる。また、プロセッ
サ内のキャッシュメモリに命令を格納する際に圧縮し、
読み出す際に、伸長して実行する方式では、一般的に命
令の実行パイプライン中に伸長処理のステージが挿入さ
れてステージが深くなってしまい、分岐時の損失が大き
くなってしまうという問題が発生する。

【００１５】すなわち、プロセッサチップ内部の配線遅
延の影響なども考慮すると、命令の伸長処理で１〜２サ
イクル消費されてしまうため、命令の実行パイプライン
のステージが、１〜２段延びてしまう。命令が、順序良
く実行されている場合には、このことは問題とならない
ことが多いが、分岐命令などによって、命令の実行順序
が変化した場合には、何も命令を実行できない期間が生
じてしまう。一般に、この期間は、実行パイプラインが
深いほど長くなる。

【００１６】さらに、ＶＬＩＷプロセッサのように、複
数の命令を並列に実行するプロセッサでは、このことは
より大きな問題となる。仮に、何も命令を実行できない
期間が２サイクルあったと仮定すると、単一命令しか実
行できない従来のプロセッサでは、最悪のケースでも２
つの処理が実行できないだけである。しかし、４命令を
同時に実行可能なＶＬＩＷプロセッサでは、最悪のケー
スでは８つの処理が実行できないことになる。並列に実
行可能な処理の数が多くなるにつれて、この損失は大き
くなる。さらに、キャッシュメモリが小さくなる代わり
に、命令を伸長するハードウェアが必要となるという問
題もある。

【００１７】従って、本発明の目的は、低価格で、高速
処理可能なＶＬＩＷプロセッサを提供することである。
本発明の具体的な目的は、キャッシュメモリの使用効率
を向上することでキャッシュメモリの容量を減らしてチ
ップサイズを小さくした低価格なＶＬＩＷプロセッサを
提供することである。また、本発明の目的は、ＶＬＩＷ
プロセッサに適したキャッシュメモリの構成方法を提供
することである。さらに、本発明の他の目的は、上記Ｖ
ＬＩＷプロセッサにおいて、パイプラインを深くするこ
とがなく、高速処理可能なＶＬＩＷプロセッサを提供す
ることである。

【００１８】

【課題を解決するための手段】上記目的を解決するため
に、本発明のプロセッサは、単一のプログラムカウンタ
によって処理の実行順序を制御される、並列に動作可能
な複数個の処理ユニットと、前記複数個の処理ユニット
が実行する命令を格納するための、前記処理ユニット各
々に対応した複数のキャッシュメモリと、前記複数のキ
ャッシュメモリに格納されている命令のアドレス情報を
格納するタグメモリと、前記単一のプログラムカウンタ
が示すアドレスによって指定される命令を、外部から読
み込む場合には、該命令を前記複数の処理ユニットのい
ずれかに対応した複数個の命令フィールドに分割し、そ
れぞれを、前記の各処理ユニットに対応したキャッシュ
メモリに格納する格納制御回路とを備えたものである。

【００１９】

【作用】本発明によれば、キャッシュメモリの容量を減
らした場合でも、キャッシュメモリから読み出した命令
は伸長処理を行うことなく実行されるので、命令の実行
パイプラインを短くすることができ、分岐命令実行時の
損失を小さくすることができる。また、ＮＯＰの発生頻
度を処理ユニットごとに異ならせ、また、ＮＯＰをキャ
ッシュメモリ内に記憶しない。したがって、キャッシュ
メモリの容量を、ＮＯＰ以外の命令の発生頻度に応じて
設定することができるので、キャッシュメモリの使用効
率を上げることができる。この結果、同一のチップ面積
で、更に高い処理性能を達成することが可能となる。

【００２０】

【実施例】本発明によるプロセッサの構成を、図５〜９
を用いて説明する。

【００２１】図５は、プロセッサ１の構成例とそれを使
用する情報処理装置の主記憶５の接続例を示すブロック
図である。５はプロセッサ１が実行する命令や実行に必
要なデータを格納するための主記憶であり、プロセッサ
１の外部にある。プロセッサ１と主記憶５の接続バス
は、３２ビット幅とする。１０ａ〜１０ｄは、プロセッ
サ１の主要部分をなすクラスタであり、それぞれ命令を
格納するための命令キャッシュメモリ（以下、キャッシ
ュメモリという）１００、演算などの処理を実行する処
理ユニット１１０、処理ユニット１１０が実行する命令
を選択するためのセレクタ１２０から構成される。各ク
ラスタにある、それぞれの構成要素は、キャッシュメモ
リ１００ａ（クラスタＡにあるキャッシュメモリ）のよ
うに、ａ〜ｄの添字を付けて表す。本実施例では、同時
に４つの命令を実行可能なＶＬＩＷプロセッサを想定し
ており、クラスタはＡ〜Ｄの４つである。

【００２２】２０はキャッシュ制御回路であり、実行す
る命令がキャッシュメモリ１００ａ〜１００ｄに格納さ
れているかどうかを判定するヒット判定回路２２０、主
記憶５から命令を読み込みキャッシュメモリ１００ａ〜
１００ｄに格納するフィル制御回路２１０、キャッシュ
メモリ１００ａ〜１００ｄに格納されている命令に関連
した情報を格納しておくタグメモリ２００などから構成
されている。

【００２３】４０は、プロセッサ１全体の動作を制御す
るグローバルコントローラで、内部にはプログラムカウ
ンタ３０がある。プログラムカウンタ３０は、次に実行
する命令のキャッシュメモリ上でのバイトアドレスを指
しているポインタであり、命令を実行するごとに更新さ
れる。キャッシュメモリ１００上の命令に対するアクセ
スには、プログラムカウンタ３０の値がそのまま使用さ
れる。グローバルコントローラ４０と、フィル制御回路
２１０は、内部にシーケンサを持ち、シーケンサの制御
によって動作する。

【００２４】図６は、ＶＬＩＷ命令の構成を示す図であ
る。

【００２５】７００は、並列処理のスケジューリングが
行われた時点のＶＬＩＷ命令でクラスタ１０ａ〜１０ｄ
に１対１に対応する４つの命令フィールド７０１から構
成されている。命令フィールドＮ（Ｎ≧０）−ａ〜ｄは
それぞれ、処理ユニット１０ａ〜１０ｄにて使用される
命令フィールドである。本実施例では１フィールドの大
きさは３２ビット（４バイト）とする。７１０は、ＮＯ
Ｐに相当する命令フィールドを削除して圧縮された命令
列が主記憶５に格納されている様子を示す。

【００２６】７０２は、各命令内の命令フィールドがＮ
ＯＰであるかどうかを示すフラグの集合でありマスク情
報という。マスク情報７０２は各ＶＬＩＷ命令毎に設け
られ、それぞれ４つのクラスタに対応する４ビット構成
となっている。これは実行時にＮＯＰを再び挿入できる
ようにするためのものである。なお、クラスタＡに対応
する命令フィールドＮ−ａはＮＯＰであっても削除しな
い。これについては後述する。７２０は上記のＶＬＩＷ
命令がプロセッサ１内のキャッシュに読み込まれた様子
を示すもので、詳細については後述する。

【００２７】図７は、プログラムカウンタ３０の構成例
を示す図であって、ビット幅を２４ビットとし、さら
に、３つのフィールドに分割している。この図におい
て、３００ａはキャッシュメモリのヒット判定の際に、
後述するタグメモリ２００中のアドレスタグ情報２０１
と比較されるアドレスタグ部、３００ｂはタグメモリ２
００およびキャッシュメモリ１００のエントリーを選択
するためのエントリー選択部、３００ｃは各エントリー
内における命令のオフセットを示す値であり、本実施例
では、それぞれ、１３ビット、６ビット、３ビットの幅
を持っている。なお、本実施例では、命令フィールドの
サイズは３２ビットに固定されており、必ず４バイト境
界に整列されているため、プログラムカウンタ３０の、
下位２ビットは常に０である。

【００２８】図８は、クラスタａ〜ｄ内のキャッシュメ
モリ１００ａ〜１００ｄの構成、容量を示す図である。
クラスタＡのキャッシュメモリ１００ａの容量を４ｋバ
イト、クラスタＢ〜Ｄのキャッシュメモリ１００ｂ〜ｄ
の容量をそれぞれ２ｋバイトとしている。キャッシュメ
モリ１００ａは２ウエイ・セットアソシアティブ方式、
キャッシュメモリ１００ｂ〜ｄは１ウエイ・セットアソ
シアティブ方式を採用しており、各セットの容量は、全
て等しく２ｋバイトである。

【００２９】キャッシュメモリ１００ａ〜１００ｄ各々
のラインサイズは、命令フィールド８つ分の大きさ（４
バイト×８＝３２バイト）に等しい。キャッシュ１００
ａ〜１００ｄは同じ６４エントリー（２ｋバイト／３２
バイト）からなり、各エントリーを共通のエントリーア
ドレスで指定する。本実施例では、キャッシュメモリ
を、アドレス５１２、読み書きデータ幅４バイトとして
構成する。これは、読み書きデータ幅をラインサイズに
合わせた３２バイトとした場合に、命令読み出し時に８
ｔｏ１のセレクタが必要になることや消費電力が増大す
るので、これを避けるためである。

【００３０】図９は、クラスタ１０ａ〜１０ｄにて共通
に使用されるタグメモリ２００の構成例を示す図であ
る。クラスタＡと対応させた２ウェイ構成となってい
る。タグメモリ２００には、６４個のエントリーがあ
り、各エントリーは、プログラムカウンタ３０のアドレ
スタグ部３００ａと比較するための１３ビットのアドレ
スタグ情報２０１と、主記憶５に格納されているマスク
情報７０２に相当するマスク情報２０２を格納する領域
とをそれぞれ２ウェイ分持つ。また、キャッシュ内容の
更新には、リーストリーセントリィユーズド（Ｌｅ
ａｓｔＲｅｃｅｎｔｌｙＵｓｅｄ、以下、ＬＲＵと
いう）アルゴリズムを使用し、そのために必要なエント
リー当たり１ビットのＬＲＵ情報２０３も持つ。

【００３１】マスク情報２０２は、図６にて説明したマ
スク情報７０２が８ＶＬＩＷ命令分格納されたものであ
る。図９において、ｉｎｓｔ０〜ｉｎｓｔ７は読み込ん
だ８つのＶＬＩＷ命令中のいずれであるかを示し、各々
のｍｓｋ（ｘ）は、クラスタｘに対応したマスク情報で
ある。ここで、ｘはＡ〜Ｄのいずれかである。クラスタ
Ａに対応したマスク情報（２０２ａ）は、ｍｓｋ（Ａ）
であり、そのセット全体が有効か否かを示す情報も兼ね
ている。１ならば、そのセットは有効であり、０ならば
無効である。

【００３２】図１１は、タグメモリ２００および、ヒッ
ト判定回路２２０の構成を示した図である。図１２はク
ラスタＡの構成例を示す図である。セレクタ１２０ａ
は、２ウェイ構成となっているキャッシュメモリ１００
ａ−０、１００ａ−１が出力する２つのデータの中から
必要な命令を選択するためのものである。図１３はクラ
スタＢ〜Ｄの構成例を示す図である。セレクタ１２０ｂ
は、１ウェイ構成となっているキャッシュメモリ１００
ｂから、読み出されたデータとＮＯＰに相当する命令フ
ィールドを対応するマスク情報に従って選択するための
ものである。図１４は、図１２に示すセレクタ１２０ａ
が出力を選択する際の規則を示すものである。図１５
は、図１３に示すセレクタ１２０ｂが出力を選択する際
の規則を示すものである。

【００３３】以下、プロセッサ１の動作説明に先立ち、
コンパイラによるＶＬＩＷ命令の作成について説明す
る。一般に、コンパイラは、命令列を生成する際に、そ
れ自身の持つハードウェア資源の割り当て規則に従って
各処理ユニットに処理を割り当てる。本実施例では、コ
ンパイラがＶＬＩＷ命令を生成する際に、プログラムの
中で並列度が少ない部分については、クラスタＡの処理
ユニット１１０ａに対して処理を優先的に割り当てるよ
うにハードウェア資源の割り当て規則を持つ。さらに、
並列度が高い部分では、各処理ユニット１１０に対して
できるだけ均等に処理を割り当てて、高い処理性能を達
成できるようにスケジューリングを行う。

【００３４】この結果、図６の７００に示すように、ク
ラスタＡは、他のクラスタと比較して、有効な処理が存
在する確率が高くなり、逆に、ＮＯＰの存在する確率が
低くなる。このようにすることで、並列度に応じて、命
令コードサイズ、処理性能を適切な値にすることが可能
である。

【００３５】次に、コンパイラは、図６の７１０に示す
ように、ＮＯＰを削除して命令の量を圧縮する。同時に
圧縮した命令を伸長するために必要なマスク情報７０２
を作成する。マスク情報７０２の０は、対応する命令フ
ィールド７０１がＮＯＰであることを、１はＮＯＰ以外
であることを示す。ただし、クラスタＡについては、命
令フィールドの種類にかかわらず（ＮＯＰであって
も）、マスク情報のクラスタＡ対応部分は常に１に固定
する。前述したように、ＶＬＩＷ命令は４つの命令フィ
ールドからなるため、マスク情報７０２は４ビットで構
成される。

【００３６】また、本発明では、主記憶５の中ではＮＯ
Ｐを削除しているために、プロセッサ１のプログラムカ
ウンタ３０の値が示すキャッシュメモリ１００上のアド
レスと、主記憶５の中の、命令が格納されているアドレ
スとは並びが異なる。そのために、主記憶に対してアク
セスする際にはアドレスの変換を行う。

【００３７】これは、一般にプロセッサが仮想記憶を実
現する際に用いるページテーブルとＴＬＢと呼ぶアドレ
ス変換バッファによるアドレス変換機構と同じ技術で実
現できる。本発明では、コンパイラは、ページテーブル
に相当するアドレス変換テーブルをコンパイル時に主記
憶上５に作成する。これらは、ＮＯＰを削除する前の命
令列７００と、ＮＯＰを削除した命令列７１０の関係か
ら作成できる。

【００３８】なお、アドレス変換バッファは、図示して
いないが、後述するように、フィル制御回路２１０内に
構成している。また、電源オン時には初期化（０クリ
ア）を行っておく。

【００３９】上述のように、コンパイラによって、クラ
スタＡに有効な命令フィールドが存在する確率が高くな
っているため、本実施例では、これに対応するため、ク
ラスタＡ１０ａのキャッシュメモリ１００ａの容量を、
他のクラスタのキャッシュメモリ１００ｂ〜１００ｄの
容量と比較して大きくしている。具体的にはキャッシュ
メモリ１００ａの連想度を他のキャッシュメモリ１００
ｂ〜１００ｄの２倍にしている。

【００４０】続いて、プロセッサ１が命令を実行する過
程を図を用いて説明する。図１０は、キャッシュメモリ
の全体動作フローの概略を示す図である。

【００４１】プロセッサ１がプログラムを実行する際に
は、まず、グローバルコントローラ４０がプログラムカ
ウンタ３０の値を参照して、処理の実行に必要な命令を
得るためにキャッシュメモリ１００に対してアクセスを
行う。この場合、まず初めに、ヒット判定回路２２０
が、タグメモリ２００をアクセスして、キャッシュメモ
リ１００に必要な命令が入っているかどうかの判定、す
なわち、キャッシュメモリのヒット判定を行う（ステッ
プ９００、ステップ９１０）。

【００４２】この結果、キャッシュメモリがヒットして
いたならば、ヒット判定回路２２０はタグメモリ２００
内の対応するエントリの、ＬＲＵ情報２０３を更新する
（ステップ９６０）。グローバルコントローラ４０はヒ
ットしたセットから命令を読み出し、各処理ユニットへ
命令を供給する（ステップ９７０）。各処理ユニットは
ヒット信号４００により、キャッシュメモリ１００がヒ
ットしたことを知り実行を開始する。

【００４３】ここで、キャッシュのヒット判定（９０
０、９１０）の手順を、図１１〜１５を用いて説明す
る。上述したように、プロセッサ１がプログラムを実行
する際には、まず、グローバルコントローラ４０は、プ
ログラムカウンタ３０中のエントリー選択部３００ｂの
値を用いて、タグメモリ２００中の６４エントリーの中
から一つのエントリーを選択し、格納されたアドレスタ
グ情報２０１、マスク情報２０２、ＬＲＵ情報２０３を
読み出す。タグメモリ２００は、２ウエイ構成なので、
アドレスタグ情報２０１、マスク情報２０２は２セット
分の情報が読み出される。同時に、グローバルコントロ
ーラ４０は、キャッシュメモリ１００の同じエントリー
に対してもアクセスする。

【００４４】次に、ヒット判定回路２２０はタグメモリ
２００から読み出されたアドレスタグ情報２０１と、プ
ログラムカウンタ３０中のアドレスタグ部３００ａをセ
ット毎に比較し、一致するかどうかを調べる。なお、比
較する幅に相当した数（本実施例では１３個）の、ＥＸ
−ＮＯＲゲート２２００の出力がすべて１であったら一
致したことになる。

【００４５】同時に、セレクタ２２１０は、プログラム
カウンタ３０中のオフセット３００ｃを用いて、セット
毎に読み出された８ＶＬＩＷ命令分のマスク情報２０２
（ｉｎｓｔ０〜ｉｎｓｔ７）から該当するＶＬＩＷ命令
のマスク情報２０２を選択する。上記比較結果と、選択
したマスク情報２０２内のマスク情報２０２ａがいずれ
も１であったら、ＡＮＤゲート２２０１によって、その
セットはヒットとしたことになり、ｈｉｔ（ｓｅｔ０）
４００ａまたは４００ｂは１になる。

【００４６】２つのセットのうちのどちらかがヒットし
ていれば、ＯＲゲート２２０４によってキャッシュはヒ
ットとなる。なお、どのセットがヒットしているかとい
う情報は、ｈｉｔ（ｓｅｔ０）４００ａによって、クラ
スタＡに伝えられる。また、キャッシュがヒットした場
合、ヒットしたセットのマスク情報２０２ｂ〜ｄは、ｈ
ｉｔ（ｓｅｔ０）４００ａによって有効になり、４１０
ｂ〜ｄによって、クラスタＢ〜Ｄへ伝えられる。

【００４７】キャッシュメモリ１００ａ〜１００ｄに
は、プログラムカウンタ３０中のエントリー選択部３０
０ｂとオフセット３００ｃを足し合わせた９ビットの値
が与えられる。クラスタＡでは、２つのセットから同時
に命令フィールドが読み出される。セレクタ１２０ａ
は、いずれのセットがヒットしたかを示すｈｉｔ（ｓｅ
ｔ０）４００ａに従っていずれかを選択する。選択規則
は図１４に示すとおりである。

【００４８】キャッシュメモリ１００ｂ〜１００ｄは、
一つのセットから読み出された命令フィールドと、ＮＯ
Ｐに相当する処理コードが、セレクタ１２０ｂ〜１２０
ｄに与えられる。セレクタ１２０ｂ〜１２０ｄは、上記
有効になったマスク情報４１０ｂ〜ｄに従って動作す
る。選択規則は図１５に示すとおりである。ＮＯＰに相
当する処理コードは、あらかじめ決まっているため、結
線論理によって実現することが可能である。

【００４９】これまで述べたように、キャッシュメモリ
１００ｂ〜１００ｄから読み出された命令は、セレクタ
１２０ｂ〜１２０ｄを１段通過するだけで処理ユニット
に与えられる。従って、必要な処理クロック数も少な
く、パイプラインも短くすることができる。

【００５０】次にキャッシュメモリがミスヒットした場
合の動作を説明する。キャッシュメモリがミスヒットし
たならば、ヒット判定回路２２０から、ヒット信号４０
０ｃにより、ミスヒットしたことがフィル制御回路２１
０へ伝えられ、フィル制御回路２１０が動作を開始す
る。この時に、キャッシュメモリ１００ａ〜１００ｄに
はプログラムカウンタ３０のエントリー選択部３００ｂ
とオフセット３００ｃの値が与えられ、内容が読み出さ
れるが、同時にヒット信号４００ｃにより、ミスヒット
したことが伝えられるので、処理ユニット１１０ａ〜１
１０ｄは停止状態となり、問題は生じない。

【００５１】次に、フィル制御回路２１０は、代わりの
ＶＬＩＷ命令と対応するマスク情報を主記憶５から読み
出し、それぞれキャッシュメモリ１００ａ〜１００ｄと
タグメモリ２００の該当エントリに格納する。以下、こ
の動作について説明する。まず、キャッシュメモリ中の
該当エントリーに新しい命令を格納できるだけの空き領
域があるか否かを調べる。タグメモリ２００内の該当エ
ントリーについて、いずれかのセットのｉｎｓｔ０ｍｓ
ｋ〜ｉｎｓｔ７ｍｓｋのマスク情報ｍｓｋ（Ａ）をすべ
て調べ、すべて０ならば該当エントリーの該当セットは
空いていることになる。空き領域がなければ、フィル制
御回路２１０は該当エントリー中のいくつかのセットを
無効にして空き領域を作る。この作業を、キャッシュの
無効化と呼ぶ。

【００５２】無効化をする際には、フィル制御回路２１
０は、まず、どのセットを無効化するかを選択し（ステ
ップ９２０）、その後で、そのエントリーを無効化する
（ステップ９３０）。無効化の方法は後述する。空き領
域があったら、あるいは無効化により空き領域を作った
ら、フィル制御回路２１０は、経路４５４を経由してタ
グメモリ２００にアドレスタグ情報２０１などを格納し
て、新しいエントリーを作成し（ステップ９４０）、そ
の後、ステップ９５０において、フィル制御回路２１０
は、３２ビット幅のバスに合わせて、８命令分のマスク
情報７０２を同時に読み出す。フィル制御回路２１０は
読み込んだマスク情報７０２を、タグメモリ２００とフ
ィル制御回路２１０自身に格納する。つぎに、８命令分
のマスク情報に合わせてＶＬＩＷ命令７０１も８命令分
を続けて読み出す。

【００５３】フィル制御回路２１０は、ＶＬＩＷ命令７
０１を読み込む際に、順次、マスク情報７０２を解析し
て、該当するキャッシュメモリへの書き込み信号を発行
する。主記憶５からの命令供給経路の幅は、命令フィー
ルドの大きさと等しく３２ビットであるため、書き込む
対象となるキャッシュメモリの指定は、キャッシュメモ
リ１００ａ〜１００ｄの個別の書き込み信号を制御する
だけで実現可能である。

【００５４】２つのセットともに空いていた場合あるい
は、２つのセットを無効化した空けた場合に、いずれの
セットに命令を格納するかはあらかじめ決めておくもの
とする。また、前述のように、ＮＯＰ命令はあらかじめ
プロセッサ内にその処理コードを持っており、改めてＮ
ＯＰ命令を格納することはしない。従って、各ＶＬＩＷ
命令中にＮＯＰ命令に相当する命令フィールドがあれ
ば、フィル制御回路２１０は、マスク情報に従って、キ
ャッシュメモリへの書き込みを行わない。この結果、８
つのＶＬＩＷ命令はそれぞれの各命令フィールドごと
に、対応するクラスタ内のキャッシュメモリに最大８つ
格納される。

【００５５】また、本発明では、前述のように、主記憶
５の中の命令列７１０ではＮＯＰを削除しているため
に、プログラムカウンタ３０の値が示すキャッシュメモ
リ上のアドレスと、主記憶５の中の、命令が格納されて
いるアドレスとは並びが異なる。そのために、フィル制
御回路２１０中のアドレス変換バッファと、主記憶５上
のアドレス変換テーブルを用いてアドレスの変換を行い
つつ、アクセスする。

【００５６】フィル制御回路２１０は、これらの機構を
用いて、プログラムカウンタ３０の値のアドレス変換を
行い、経路４５０を介して、主記憶５から変換後のアド
レスが示す命令を読み出し、キャッシュメモリ１００に
格納する。なお、４５０には、変換後のアドレスの他に
主記憶の制御信号も含まれる。以後の処理は、ヒット時
の処理と同じである。なお、以上の処理のうち、いくつ
かは、並行して行ったり、順序を入れ替えることが可能
である。例えば、ＬＲＵ情報の更新（ステップ９６０）
と命令の供給（ステップ９７０）は、同時に実行するこ
とが可能である。

【００５７】次に、上述した無効化するセットの選択方
法について説明する。無効化するセットの選択（９２
０）は、ＬＲＵ情報２０３を用いて行われる。これは、
いずれのセットが最近使われたかを示すものである。ヒ
ット判定回路２２０は、セット０が最近使用されたなら
ば「０」、セット１が最近使用されたならば「１」を格
納する。すなわち、セットＡのヒット信号４００ａの値
を、キャッシュヒット時に、該当エントリーのＬＲＵ情
報２０３へ書き込む。

【００５８】具体的な無効化の手順としては、まず、フ
ィル制御回路２１０は、該当エントリーのＬＲＵ情報２
０３が示すアクセス履歴が古い方のキャッシュメモリの
セットに、新しい命令を入れることができるかどうかを
調べる。「新しい命令のマスク情報」と「ＬＲＵ情報２
０３が示すアクセス履歴が古い方の命令のマスク情報を
反転したもの」の各ビットごとの論理積が全て０になれ
ば、新しい命令を入れることができる。そして、ＬＲＵ
情報２０３が示すアクセス履歴が古い方のセットを無効
化する。無効化はタグメモリ２００の該当エントリー、
該当セットのマスク情報すなわち、ｉｎｓｔ０〜ｉｎｓ
ｔ７のｍｓｋ（Ａ）２０２ａを０にすればよい。

【００５９】調べた結果、新しい命令を入れることがで
きない場合には、ＬＲＵ情報２０３が示すアクセス履歴
が新しい方のセットについても同じことを調べる。入れ
ることができればＬＲＵ情報２０３が示すアクセス履歴
が新しい方のセットを無効化する。どちらのセットを無
効化しても、新しい命令を入れられない場合には、両方
のセットを無効化する。

【００６０】無効化は、フィル制御回路２１０が、タグ
メモリ２００中の選択されたセットのマスク情報のう
ち、ｉｎｓｔ０ｍａｓｋ〜ｉｎｓｔ７ｍａｓｋのクラス
タＡに対応するｍｓｋ（Ａ）２０２ａを全て０に設定す
ることで行われる。もし、いずれか一つのセットしか無
効にしない場合は、その後ですぐ新しい命令を読み込み
マスク情報を設定し直すので、かならずしも０に設定す
る必要はない。なお、電源オン時には、マスク情報２０
２の初期化（０クリア）を行い、あらかじめ無効化を行
っておく。

【００６１】また、上述の説明では、処理ユニット１１
０ａに有効な命令が集中するように構成、制御している
が、もちろん、これに限定されるものではない。また、
本実施例ではキャッシュメモリ１００ａの容量を他のキ
ャッシュメモリの２倍としたが、これに限るものではな
く、特定の処理ユニットへの命令の集中比率に合わせて
構成すればよい。

【００６２】

【発明の効果】以上述べたように、本発明によれば、コ
ンパイラによって、特定のクラスタにＮＯＰ以外の命令
が優先的に割り当てられ、さらに、それを利用してキャ
ッシュメモリの容量をクラスタ毎に変えていることか
ら、キャッシュメモリの利用効率が向上する。その結
果、同一の性能を実現するために必要なキャッシュメモ
リの容量を小さくすることが可能となり、低価格化に効
果がある。

【００６３】また、キャッシュメモリから読み出された
命令は、処理ユニットに入るまでの通過する回路を少な
くする事ができるので、命令パイプラインを短くするこ
とができる。したがって、分岐命令実行時の損失を小さ
くすることができ、高速化が可能になる。また、キャッ
シュメモリが小さくなることで、各演算ユニットの近く
にキャッシュメモリを配置できるため、配線のための領
域を小さくできる。動作速度の向上にも効果がある。し
たがって、低価格で高速処理可能なＶＬＩＷプロセッサ
が実現できる。

【図面の簡単な説明】

【図１】並列性の高い処理部分の一例である

【図２】並列性の低い処理部分の一例である

【図３】図１に対応したＶＬＩＷ命令の一例である。

【図４】図２に対応したＶＬＩＷ命令の一例である。

【図５】本発明における、キャッシュメモリ周辺の構
成例である。

【図６】本発明における命令圧縮例である。

【図７】本発明における、プログラムカウンタの一例
である。

【図８】キャッシュメモリの構成例を示す図である。

【図９】キャッシュメモリのタグ部分の構成例を示す
図である。

【図１０】キャッシュメモリの動作フロー（全体）を
示す図である。

【図１１】タグメモリ、およびヒット判定回路の構成
例を示す図である。

【図１２】クラスタＡのキャッシュメモリの構成例を
示す図である。

【図１３】クラスタＢ−Ｄのキャッシュメモリの構成
例を示す図である。

【図１４】クラスタＡのセレクタ用制御信号の例を示
した表である。

【図１５】クラスタＢ−Ｄのセレクタ用制御信号の例
を示した表である。

【符号の説明】

１：プロセッサ、５：主記憶、１０ａ〜１０ｄ：ク
ラスタＡ〜クラスタＤ、２０：キャッシュ制御回路、
３０：プログラムカウンタ、４０：グローバルコント
ローラ、１００ａ−０、１００ａ−１：クラスタＡのキ
ャッシュメモリのセット０、セット１、１００ｂ〜１
００ｄ：クラスタＢ〜クラスタＤのキャッシュメモリ、
１１０ａ〜１１０ｄ：クラスタＡ〜クラスタＤの処理
ユニット、１２０ａ〜１２０ｄ：クラスタＡ〜クラスタ
Ｄのセレクタ、２００：タグメモリ、２０１：アドレ
スタグ情報、２０２ａ〜２０２ｄ：クラスタＡ〜クラ
スタＤに対応したマスク情報、２０３：ＬＲＵ情報、
２１０：フィル制御回路、２２０：ヒット判定回路、
３００ａ：アドレスタグ部、３００ｂ：エントリー
選択部、４００ｃ：ヒット信号、４１０ａ〜４１０
ｄ：クラスタＡ〜クラスタＤに対するセレクタ制御信
号、４５０：主記憶に対するアドレスおよび制御信
号、４５１：マスク情報のリードパス、４５２：タ
グメモリのリードパス、４５３：フィルアドレス指定パ
スおよび書き込み制御信号、４５４：タグメモリの更
新パス、８００ａ〜８００ｂ：並列に実行できる処理
の例、８１０ａ〜８１０ｂ：並列に実行できない処理
の例、７００：元の命令列、７０１：命令フィール
ド、７０２：マスク情報、７１０：主記憶上の命令
列、７２０：キャッシュ上の命令列、２２０２：セレ
クタ制御信号生成部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者野尻徹神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者藤川義文神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者石黒正雄神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内

Claims

【特許請求の範囲】

【請求項１】単一のプログラムカウンタによって処理の
実行順序を制御される、並列に動作可能な複数個の処理
ユニットと、前記複数個の処理ユニットが実行する命令を格納するた
めの、前記処理ユニット各々に対応した複数のキャッシ
ュメモリと、前記複数のキャッシュメモリに格納されている命令のア
ドレス情報を格納するタグメモリと、前記単一のプログラムカウンタが示すアドレスによって
指定される命令を、外部から読み込む場合には、該命令
を前記複数の処理ユニットのいずれかに対応した複数個
の命令フィールドに分割し、それぞれを、前記の各処理
ユニットに対応したキャッシュメモリに格納する格納制
御回路とを備えてなるプロセッサ。
【請求項２】前記複数のキャッシュメモリのうちの一つ
のキャッシュメモリの容量は、他のキャッシュメモリと
は異なる容量を備えてなる請求項１記載のプロセッサ。
【請求項３】前記複数のキャッシュメモリのうちの一つ
のキャッシュメモリの容量は、他のキャッシュメモリの
Ｎ倍（Ｎは２以上の自然数）の容量を備えてなる請求項
１または請求項２記載のプロセッサ。
【請求項４】前記Ｎは２であることを特徴とする請求項
３記載のプロセッサ。
【請求項５】前記格納制御回路は、前記命令を読み込む際に、当該命令が含む命令フィール
ドが前記複数個の処理ユニットのいずれに対応するかを
示す格納情報を読み込み、当該命令に対応するアドレス情報に関連づけて、前記格
納情報をタグメモリに格納し、前記格納情報に従って、前記命令が含む命令フィールド
をそれが実行されるべき処理ユニットに対応するキャッ
シュメモリに格納制御してなる請求項１ないし請求項４
いずれか一記載のプロセッサ。
【請求項６】前記キャッシュメモリの各々の容量は、そ
れ自身に格納されうる前記命令フィールドの格納量に応
じたものであることを特徴とする請求項１ないし請求項
５いずれか一記載のプロセッサ。
【請求項７】前記キャッシュメモリの各々は、それ自身
に格納されうる前記命令フィールドの格納量に応じた連
想度を持つことを特徴とする請求項１ないし請求項６い
ずれか一記載のプロセッサ。
【請求項８】前記格納情報は、前記命令に、キャッシュ
メモリに格納されない命令フィールドが含まれることを
指定する領域を備え、前記格納制御回路は、前記格納情報が前記キャッシュメ
モリへの格納を指定する命令フィールドを格納制御して
なる請求項１ないし請求項７いずれか一記載のプロセッ
サ。
【請求項９】前記処理ユニットは、前記キャッシュメモ
リに格納されていない命令フィールドを実行する機能を
備え、前記格納情報は、前記キャッシュメモリに格納されてい
ない命令フィールドについては、キャッシュメモリに格
納されていない命令フィールドであることを指定する領
域を備え、前記格納情報が、前記処理ユニットが実行する命令フィ
ールドがキャッシュメモリに格納されていないことを示
す場合には、前記処理ユニットは、前記キャッシュメモ
リに格納されていない命令フィールドを生成して実行し
てなる請求項１ないし請求項８いずれか一記載のプロセ
ッサ。
【請求項１０】単一のプログラムカウンタによって処理
の実行順序を制御される、並列に動作可能な複数個の処
理ユニットと、前記複数個の処理ユニットに並列に命令
を供給可能な２つ以上のキャッシュメモリを備えてなる
プロセッサ。
【請求項１１】前記２つ以上のキャッシュメモリのう
ち、１つは他のキャッシュメモリと異なる容量を備えて
なる請求項１０記載のプロセッサ。
【請求項１２】前記他のキャッシュメモリと異なる容量
を持つキャッシュメモリは、他のキャッシュメモリのＮ
倍の容量（Ｎは２以上の自然数）を備えてなる請求項１
１記載のプロセッサ。
【請求項１３】前記Ｎは２であることを特徴とする請求
項１２記載のプロセッサ。