JP2000029783A

JP2000029783A - プロセッサ及び計算機

Info

Publication number: JP2000029783A
Application number: JP10200412A
Authority: JP
Inventors: Yasumoto Hirose; 靖元広瀬; Kiyotaka Higuchi; 清隆樋口; Takashi Takahashi; 俊高橋; Fumio Takahashi; 文夫高橋
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1998-07-15
Filing date: 1998-07-15
Publication date: 2000-01-28

Abstract

(57)【要約】【課題】拡張性に限界が有るレジスタやキャッシュと
は異なる新規のデータ保持機構を提供する事により、主
記憶へのアクセスを低減したプロセッサを実現する。【解決手段】主記憶の動作速度よりも高速に作動する
プロセッサに対して、主記憶よりも高速にアクセスが可
能で、主記憶とは独立な高速データメモリを設置し、計
算途中に出てきた一時変数やアクセスの激しいデータ
を、高速データメモリへ格納する事により、主記憶への
アクセスを抑制する。【効果】本発明を適用したプロセッサでは、明示的に
高速メモリへデータをストアする事が出来る。よって、
動作の遅い主記憶へのアクセスが低減される事により、
プロセッサの実行速度が速くなる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、プロセッサとその
プロセッサを備えた計算機に係り、特に高速なデータア
クセスが可能なプロセッサとそのプロセッサを備えた計
算機に関する。

【０００２】

【従来の技術】プロセッサが主記憶内のデータを読み込
む時には、主記憶からデータが届くまで待たされること
になる。従って、プロセッサの動作速度が向上しても、
それより主記憶へのアクセス速度が遅いと、プロセッサ
の能力を十分発揮できない。主記憶の容量が大きくなる
とそのアクセス速度は遅くなってしまうので、何らかの
対策が求められる。

【０００３】主記憶へのアクセスを低減する方法とし
て、次の三手法が知られている。第一の手法は、プロセ
ッサの内部に高速で動作するレジスタを設ける方法であ
る。レジスタはプログラム側から制御できる高速なデー
タ保持機構である。レジスタは命令コードで明示的に指
示され、演算の対象になる。頻繁に再利用するデータを
プロセッサ内のレジスタに残す様にすることにより、動
作の遅い主記憶へのアクセスを低減することが可能にな
る。

【０００４】第二の手法として、キャッシュ方式が知ら
れている。これはプロセッサと主記憶の間に高速メモリ
を設け、主記憶から読み込んだデータのコピーを記憶さ
せる方式である。キャッシュには、最も最近アクセスし
たデータが記憶され、もしキャッシュメモリが満杯にな
っていれば、最もアクセスされていないデータが消去さ
れ、そこへ最新のアクセスデータが記憶される。リード
アクセス時にはデータの物理アドレスをキーとしてキャ
ッシュメモリが検索され、該当するデータが存在すると
きはそれが読み出される。従ってプロセッサから同一デ
ータへのアクセスが連続的に繰り返されるとき、キャッ
シュの容量が小さくても大きな効果が得られる。

【０００５】第三の手法として、主記憶の一部を高速メ
モリにする手法がある。これは例えば、特開昭58-85986
号、特開平7-262086号等に開示されている。さらにUS
4,706,191号において、主記憶とは別に設けられた高速
メモリをプロセッサとベクトル処理ユニットで共有する
方式が取られている。

【０００６】

【発明が解決しようとする課題】しかし、上記の手法は
現在主流となってきたRISC(Reduced Instruction Set C
omputer)プロセッサには有効に働かない。まず、一番目
に挙げたレジスタ方式では、レジスタは多量に設置でき
ないという欠点がある。特にRISCプロセッサでは、演算
ユニットの演算対象をレジスタに限定して命令コードを
簡略化し、このような演算ユニットを並列に動作させる
ことにより処理の高速化を図っている。このためには、
複数の演算ユニットから、レジスタへの同時アクセスを
可能とする必要があり、通常マルチポートのレジスタが
設けられる。しかるにこのような構成によると、レジス
タを増やすことにより、マルチポートを通して、演算ユ
ニットやロード・ストアユニットへ接続する組み合わせ
が急増するため、周辺回路が膨大となる。また、増設し
たレジスタを使うためには、プロセッサの命令コードで
レジスタを指示するビット数を増加させる必要があり、
命令長の増大につながる。従ってレジスタ数を増加させ
ることには限界がある。

【０００７】また、二番目に挙げたキャッシュ方式には
次の様な欠点がある。第一に、キャッシュは主記憶から
のデータ読み込みを低減できるが、主記憶へのデータ書
き込みに対しては効果が無い。第二に、キャッシュはプ
ログラムから制御ができないという問題点がある。プロ
グラム側では再利用する必要が無いと判っているデータ
も、再利用することが判っているデータも、区別無くキ
ャッシュ内に格納される。このため、キャッシュへ再利
用しないデータを格納するために、キャッシュ内に格納
されていた再利用頻度の高いデータが消去される。キャ
ッシュはプログラムから制御不可能なので、これを抑止
できない。特に、長大な配列データをアクセスする科学
技術計算では、アクセスするデータ領域がキャッシュ容
量を超えてしまうと、主記憶から読み込んだデータが再
利用されないうちにキャッシュから消されるので、常に
主記憶からのデータ読み込みが発生することになる。第
三に、キャッシュには応答時間に応じたデータ容量の上
限が存在するという問題点が有る。キャッシュのアクセ
スの際に発生する物理アドレスの比較には、１回の比較
ごとに有限の時間がかかるから、キャッシュの容量が大
きくなる程物理アドレスの比較時間が長くなる。このた
めに必要とする応答時間の制約から、キャッシュのデー
タ容量の上限が存在する。このように、キャッシュはレ
ジスタよりも大容量なデータ保持機構であるが、書き込
みには効果が無く、高速にアクセスできるデータ容量に
は限界があり、プログラムからデータ制御ができないの
で、効果的な主記憶アクセス低減手段ではない。

【０００８】三番目に挙げた主記憶の一部を高速メモリ
にする方法にも、次のような欠点がある。第一に、プロ
セッサから主記憶へのアクセスにはある程度の時間がか
かるという問題点がある。RISCプロセッサでは、プロセ
ッサと主記憶の間に論理アドレスを物理アドレスに変換
するメモリ管理ユニットが存在する。アクセスする際に
メモリ管理ユニットにおけるアドレス変換が発生する為
に、どんなに速い高速メモリを主記憶に用いても、プロ
セッサから主記憶へはノーウエイトでのアクセスはでき
ない。特にプロセッサの内部クロックが外部クロックよ
りも高速な場合は、プロセッサの外部にある主記憶へア
クセスするとプロセッサは必ず待たされることになる。
第二に、マルチプロセス環境では、複数のプロセスで高
速メモリを利用する為には、プロセス間でデータ領域が
重複しないように、高速メモリのアドレス空間において
も、データ領域の分割あるいは待避といった調整が避け
られず、ＯＳの負荷の増大を招く。

【０００９】本発明の目的は、主記憶アクセスにより生
じるプロセッサの速度低下をできるだけ防止し、従来よ
り高速なデータアクセスが可能なプロセッサとそのプロ
セッサを備えた計算機を提供することである。

【００１０】

【課題を解決するための手段】上記の目的を達成するた
めに、本発明は、主記憶の動作速度よりも高速に作動す
るプロセッサにおいて、主記憶とは独立なアドレス空間
を持ち、プログラムからの制御によりレジスタと高速に
データのやり取りができる高速データメモリを備えたこ
とを特徴とするプロセッサを提供する。

【００１１】また、本発明は、上記のプロセッサと、参
照頻度の高い変数及び演算処理のための中間変数の少な
くとも一方を前記プロセッサに設けられた高速データメ
モリに格納する手段と、を備えたことを特徴とする計算
機を提供する。

【００１２】これらのプロセッサ及び計算機によれば、
プロセッサから主記憶へのアクセスを必要最小限にまで
低減できる。高速データメモリを、ノーウエイトでレジ
スタとデータのやり取りができようにすると、実質上レ
ジスタの容量を大幅に増やすことと等価となる。高速デ
ータメモリは、主記憶とは独立なアドレス空間を持つこ
とにより、キャッシュメモリの様にアクセスする時にア
ドレス照合やアドレス変換をする必要が無く、また書き
込んだデータを主記憶へ書き込む必要も無い。従ってこ
の高速データメモリは、キャッシュメモリよりも高速に
アクセスできる。またアクセスの際にアドレス照合の手
間が無いので、キャッシュメモリよりも大容量化が容易
である。

【００１３】また、本発明は、主記憶の動作速度よりも
高速に作動するプロセッサにおいて、主記憶とは独立な
アドレス空間を持ち、プログラムからの制御によりレジ
スタと高速にデータ及びシステムパラメータの少なくと
も一方の情報のやり取りができる高速データスタックを
備えたことを特徴とするプロセッサを提供する。

【００１４】また、本発明は、上記のプロセッサにおい
て、前記高速データスタックは、主記憶空間に設けられ
たスタック領域と連結され、かつこの連結により構成さ
れた全スタック領域の先頭部分が常に当該高速データス
タックに格納されるように管理されるスタックであるこ
とを特徴とするプロセッサを提供する。

【００１５】更に、本発明は、上記のプロセッサと、プ
ログラムを構成する各モジュールにおいて、少なくとも
当該モジュール内のみで用いられるローカル変数を抽出
する第１の手段と、各モジュールの実行時に前記第１の
手段により抽出された変数を前記プロセッサに設けられ
た高速データスタックへダイナミックに割り付ける第２
の手段と、を備えたことを特徴とする計算機を提供す
る。

【００１６】これらのプロセッサ及び計算機によれば、
主記憶上にスタックを構成するよりもスタック処理を大
幅に向上できるとともに、各モジュールだけで用いられ
るローカル変数等のダイナミックな割り付けを行うこと
により、高速データメモリの有効利用が図れ、さらにこ
れらローカル変数等の高速データメモリへの割り付けを
コンパイラの介在なしで実現できるという利点がある。

【００１７】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して詳細に説明する。図４は、本発明のプロセッ
サを使った計算機の概略構成を示すもので、プロセッサ
４００、主記憶４０１、磁気記憶装置４０２、Ｉ／Ｏイ
ンターフェイス４０３等から成り、このＩ／Ｏインター
フェイス４０３にはＣＲＴ、キーボード、ネットワーク
等が接続される。プロセッサ４００には、本発明の特徴
とする高速データメモリ１０が内蔵されている。ここで
「高速」とは、ロード命令が発行されてからレジスタに
データが格納されるまでの時間、あるいはストア命令が
発行されてからメモリにデータが格納されるまでの時間
が短いメモリであることを意味する。このようなメモリ
は、リード・ライトする応答時間が短いメモリデバイス
を使うこと、あるいはメモリとレジスタ間の伝送時間を
短縮することなどにより実現される。この高速データメ
モリはプロセッサ４００の外部に設けてもよく、また主
記憶をプロセッサ内に設けてもよい。高速データメモリ
を利用する機能をもったネットワーク経由で与えるよう
にすることもできる。

【００１８】図１は、本発明になるプロセッサの構成例
を示すブロック図で、図４のプロセッサ４００と主記憶
４０１に相当する。図１で、演算ユニット群１０１には
レジスタ群１１１が接続され、整数演算を行う。演算ユ
ニット群１０２にはレジスタ群１１２が接続され、浮動
小数点演算を行う。ロード・ストアユニット１２１ある
いは１２２は、命令ユニット１３０からのロード・スト
ア命令に応じて高速データメモリ１０あるいは主記憶４
０１との間のデータ転送を行う。メモリ管理ユニット及
びキャッシュメモリはデータ用と命令用に分けて設けて
いる。これは多少の処理速度低下を許せば分けない構成
でもよい。また、高速のメモリとして、データ用のキャ
ッシュメモリを用いず、高速データメモリ１０のみを用
いることも可能である。

【００１９】主記憶４０１にはデータ及び命令コードの
列からなるプログラムが記憶され、命令ユニット１３０
は命令コードの列を順次取り込み、命令を解釈し、演算
ユニット及びロード・ストアユニットに司令する。ＲＩ
ＳＣプロセッサでは、演算命令のオペランドはレジスタ
に限られているので、演算命令は演算ユニット１０１、
１０２へ、そしてレジスタと主記憶４０１または高速デ
ータメモリ１０間のロード・ストア命令はロード・スト
アユニット１２２または１２１へ動作司令として送られ
る。その司令を受けて、演算ユニットではレジスタから
データを読み込み、所定の演算を行い、その結果をレジ
スタに書き込む。ロード・ストアユニット１２１または
１２２では、プログラムで定義される論理アドレスを生
成し、ロード・ストアユニット１２１では論理アドレス
に対応した高速データメモリ１０のアドレスからデータ
をロードあるいはストアする。

【００２０】ロード・ストアユニット１２２から送出さ
れた論理アドレスは、通常、広大なアドレス空間を指示
するため、データ用メモリ管理ユニット１４１で主記憶
の物理アドレスへ変換され、データ用キャッシュにデー
タがないと、物理アドレス信号は主記憶４０１に送ら
れ、いったん、主記憶からキャッシュ１５１にデータが
送られ、キャッシュ１５１からデータ用メモリ管理ユニ
ット１４１を通り、レジスタ群１１２にロードされる。
また、通常、データ用キャッシュ１５１と主記憶４０１
の間では、キャッシュヒットしなかったデータの近傍の
複数のデータをブロックとして転送する。これは、局所
性の仮設として、あるアドレスのデータが参照されたと
き、その近傍のデータも使われる可能性が高いことによ
る。命令キャッシュ１５２についても、通常、命令コー
ドの列は連続しており、ブロックとして転送される。

【００２１】ロード・ストアユニット１２２は、広大な
アドレス領域をアクセスするために、ベースとなるアド
レスを予めレジスタに書き込んでおき、その相対アドレ
スとして論理アドレスを生成するというような動作が必
要となり、複雑な処理のためにアクセス時間がそれなり
にかかってしまうが、ロード・ストアユニット１２１で
参照するアドレス領域は小さくてすむので、命令コード
に論理アドレスを明示した直接的アドレッシングですむ
可能性もあり、このとき、ロード・ストアユニット１２
１の機能は、より単純にできる。さらに、機能が単純化
されるので、アクセス時間を最短にでき、高速データメ
モリの機能を十分発揮できる。

【００２２】図２は、図１１のプロセッサの変形例であ
って、データ用、命令用のロード・ストアユニットを１
つのユニット１２０にまとめたものであり、他は図１の
構成と同じである。この構成では、高速データメモリ専
用のロード・ストアユニット１２１を設けたときよりア
クセス速度は低下するが、ハードウェアが簡単になる利
点がある。

【００２３】図３は、高速データメモリ１０をデータ用
メモリ管理ユニット１４０のもとにおいた構成を示して
おり、図２の変形例である。メモリ管理ユニット１４０
は、ロード・ストアユニット１２０で生成される論理ア
ドレスの内、特定のアドレス領域を高速データメモリ１
０へ割り当てる機能を有する。高速データメモリへのア
クセス時間は図２の場合よりも増大するが、プロセッサ
のアーキテクチャの変更は少なくてすむ。さらに、デー
タ用キャッシュの一部を高速データメモリに切り替える
機構を付加すれば、システム設計時または運用時に高速
データメモリとデータ用キャッシュの比率を最適な値に
設定できるメリットがある。

【００２４】次に図１〜３にその構成例を示したプロセ
ッサにおいて、高速データメモリ１０の利用方法を説明
する。一般的には、高速データメモリ１０は、直接レジ
スタ群１１１、１１２との間で主記憶よりも高速にデー
タ授受が行えるから、演算の途中にでてきた中間変数
や、後で参照することが予めわかっている変数、頻繁に
更新や参照することが予めわかっている変数などを高速
データメモリ１０へ格納すると、メモリアクセスが高速
化され、プロセッサの高速性を有効利用できる。

【００２５】例えば図５に示したプログラムＰ１におい
ては、二次元配列の要素Ａ（Ｉ，Ｊ）は再利用されない
データであるが、一次元配列の要素Ｓ（Ｉ）は再利用性
が高いデータである。このような再利用性はコンパイラ
で判定できるから、本発明のプロセッサではコンパイラ
が配列Ｓの再利用性を認識する。そしてＪ＝１のときに
Ｉ＝１〜ＮＭＡＸに対するＮＭＡＸ個のＳ（Ｉ）が順次
主記憶４０１からレジスタ群１１１または１１２へ読み
込まれて計算に用いられるが、そのとき当該データＳ
（Ｉ），Ｉ＝１〜ＮＭＡＸを高速データメモリ１０へ格
納する。そしてＪ＝２以降は配列Ｓを主記憶４０１から
レジスタへ読み込むかわりに、高速データメモリ１０か
らレジスタへ読み込むようなオブジェクトコードをコン
パイル時に生成する。このようにすると、高速データメ
モリ１０を活用して主記憶へのアクセス回数を必要最小
限にまで低減できる。

【００２６】図６は、図５のプログラムＰ１の処理過程
を説明するもので、同図（ａ）はキャッシュメモリを用
いたときのキャッシュメモリの内容を、同図（ｂ）は本
発明の特徴とする高速データメモリ１０を用いたときの
高速データメモリの内容を示す。また、キャッシュ方式
と比較するため、図６（ｂ）では、図１における高速メ
モリとして、データ用キャッシュメモリが無く高速デー
タメモリのみを用いているものとしている。今、簡単の
ために配列のサイズＮＭＡＸ＝５とし、また高速データ
メモリ１０及びデータ用キャッシュメモリ１５１はとも
に８ワードであるとする。またキャッシュメモリでは主
記憶からデータがリードされるごとに当該データが書き
込まれるとする。このとき、従来のキャッシュ方式では
図６（ａ）に示すように（Ｉ，Ｊ）＝（１，１）から演
算が始まると、次の（Ｉ，Ｊ）＝（１，２）開始時には
データＡ（１，１）とＳ（１）がキャッシュに書き込ま
れており、以下同様に進行すると（Ｉ，Ｊ）＝（５，
１）のときの演算開始時にはキャッシュは満杯になって
いる。そこで（Ｉ，Ｊ）＝（５，１）の演算のために用
いたデータＡ（５，１）、Ｓ（５）がキャッシュへ書き
込まれるときに、最初に書き込まれたデータＡ（１，
１）、Ｓ（１）はキャッシュから消去される。従って次
の（Ｉ，Ｊ）＝（１，２）のときには、必要となるデー
タＳ（１）はキャッシュにはなく、改めて主記憶からリ
ードしなければならない。以下、同様であって、この例
ではデータＳ（Ｉ）、Ｉ＝１，２，…のすべては、必要
なときにはキャッシュにないということになる。これは
ブロック転送でも同じで、従来構成ではキャッシュメモ
リが十分機能していないことがわかる。

【００２７】一方、本発明のプロセッサでは図６（ｂ）
に示すように、（Ｉ，Ｊ）＝（１，１）の実行後にデー
タＳ（１）が高速データメモリへ書き込まれる。以下、
同様にして、（Ｉ，Ｊ）＝（１，２）の開始時には、デ
ータＳ（１）〜Ｓ（５）がすべて高速データメモリに書
き込まれており、この５ワード分のデータは高速データ
メモリの容量以内である。従ってＪ＝２，３…に対する
演算では常にデータＳ（Ｉ）を高速データメモリにアク
セスして取り出せ、改めて主記憶へアクセスする必要が
ない。これは、キャッシュメモリの場合は、再利用しな
い配列Ａの要素もそこへ書き込まれ、そのために再利用
される配列Ｓの要素を保持できないが、高速データメモ
リの場合は配列Ａを格納しないからである。従ってキャ
ッシュメモリと同一の容量をもつ高速データメモリとで
は、高速データメモリの方が処理速度の大幅な向上がは
かれる。更に、高速データメモリとキャッシュメモリと
を併用したときには、再利用されることが明確なデータ
のみを高速データメモリに割り当てることにより、高速
データメモリの容量はわずかでも大きな効果が得られ
る。

【００２８】また、本発明の高速データメモリ１０を利
用すると、キャッシュメモリと異なり、主記憶への書き
込みも低減できる。例えば図７に示したプログラムＰ２
において、配列Ｔの要素Ｔ（Ｉ）はプログラムが終了す
ると不要になる中間変数であり、主記憶に保存する必要
がないデータである。このプログラムを従来のプロセッ
サで実行すると、“Ｔ（Ｉ）＝ＳＱＲＴ（ＤＢＬＥ
（Ｉ））”が各Ｉに対して実行されるごとにキャッシュ
と主記憶へのライト処理が発生し、主記憶への不必要な
ライト処理のために処理速度の低下を招く。一方、本発
明のプロセッサでは、主記憶に保存する必要がない配列
Ｔを高速データメモリ１０へ格納するようにオブジェク
トコードを生成しておけば、主記憶への書き込みが低減
されて処理性能が大幅に向上する。また、このデータＴ
（Ｉ）を使うときには、図５の場合と同様な問題が生じ
ることがあり、このときも本発明は有効に機能する。

【００２９】以上の動作例では、コンパイラが再利用さ
れるデータを抽出し、高速データメモリ１０の領域に割
り付けることを前提とする。即ち、高速データメモリ１
０はレジスタの拡張であるという観点から、コンパイラ
において高速データメモリの容量に相当するレジスタ数
が増えたと見なし、そのレジスタを有効に使えるように
コンパイルさせることで、高速データメモリを用いた実
行プログラムを生成できる。但し、この方法は、コンパ
イラのアルゴリズムの変更が避けられない。

【００３０】次に、高速データメモリをスタックとして
利用する方法について述べる。これは、繰り返し用いら
れるデータの格納場所としての利用のような、コンパイ
ラの変更を必要としない。スタックの一般的な利用法
は、あるプログラムでサブプログラム（モジュール）を
呼び出したとき、そのモジュール内でのみ使われるロー
カル変数を割り当てる記憶領域として用いるものであ
る。そして、あるモジュールを実行するとき、モジュー
ルの中でのみ使われるローカル変数が頻繁に使われ、再
利用性が高いという経験則がある。従って、処理中のモ
ジュールのスタックを高速データメモリに割り当てるこ
とにより、高速化を期待できる。また、プログラムの記
述スタイルとして、再利用される変数を一旦、ローカル
な変数に代入して、それ以降、ローカルな変数を用いる
ようなスタイルをとることによっても、高速化を図るこ
とができる。

【００３１】上記のようなスタックとして高速データメ
モリを用いる例を図８を用いて説明する。これはデータ
スタックとしての利用法で、今プログラム８０はメイン
プログラム８１、サブプログラム８２、８３の３つのモ
ジュールからなっていて、メインプログラム８１はサブ
プログラム８２、８３を直接呼び出すものとする。この
メインプログラムの動作中のスタックの状態を図の左側
に示した処理の流れに応じて説明すると次のようにな
る。（１）モジュールＭＡＩＮ（メインプログラム８１）
開始時に、スタック先頭ＳＰを上げてＭＡＩＮ用のデー
タ領域ＤＭＡＩＮを確保し、利用する。（２）モジュールＳＵＢ１（サブプログラム８２）を
呼び出す。このモジュールＳＵＢ１開始時に、スタック
先頭ＳＰを上げてモジュールＳＵＢ１用のデータ領域Ｄ
ＳＵＢ１を確保し、利用する。（３）モジュールＳＵＢ１終了時にスタック先頭ＳＰ
を元の位置に下げてモジュールＳＵＢ１用のデータ領域
ＤＳＵＢ１を開放する。（４）モジュールＭＡＩＮでＭＡＩＮ用のデータ領域
ＤＭＡＩＮを利用する。（５）モジュールＳＵＢ２（サブプログラム８３）を
呼び出す。このモジュールＳＵＢ２開始時に、スタック
先頭ＳＰを上げてＳＵＢ２用のデータ領域ＤＳＵＢ２を
確保し、利用する。（６）モジュールＳＵＢ２終了時にスタック先頭ＳＰ
を元の位置に下げてＳＵＢ２用のデータ領域ＤＳＵＢ２
を開放する。（７）モジュールＭＡＩＮでＭＡＩＮ用のデータ領域
ＤＭＡＩＮを利用する。

【００３２】サブモジュールからさらに別のサブモジュ
ールを呼び出すような、図９のようなプログラム９０の
場合には、モジュールＳＵＢ１からモジュールＳＵＢ２
を呼び出したとき、スタック９４のスタック先頭ＳＰが
モジュールＳＵＢ１のデータ領域の先頭よりさらに上げ
られ、データ領域ＤＭＡＩＮ、ＤＳＵＢ１、ＤＳＵＢ２
が同時にスタック７９４上に確保された状態になる。

【００３３】図１０は、スタックの別の利用法を説明す
る図である。これは図８と同じプログラム８０を対象と
している。図８、図９の例では、スタック８４を利用す
るのは各モジュールのローカル変数のみであったが、こ
こではローカル変数以外に、モジュールに渡される配列
変数などのパラメータや、モジュールでの処理が終了し
たときに上位のモジュールに戻るリターンアドレスなど
のシステムパラメータＰＡＲＡが、格納される。これに
よりモジュール中での配列インデックスの計算及びモジ
ュールの呼び出し処理などが高速化される。

【００３４】さらに上記の説明では、サブプログラム等
の作業エリア、つまりローカル変数やシステムパラメー
タの動的確保というスタックの利用法であるが、サブプ
ログラムに限らず、再起呼び出しや割り込み処理におい
ても、高速メモリ内もある既存のデータを破壊せずに、
スタックとして高速メモリ内に新たにデータ領域やパラ
メータ領域を確保して使用することができる。

【００３５】この様に高速データメモリをスタックとし
て用いると、確保しようとするデータ領域が高速データ
メモリの容量をオーバーしない限り、データやパラメー
タ領域が動的に確保されて利用され、高速メモリが有効
に利用され、またその利用領域の調整が不用である。モ
ジュール等で用いるデータ領域の大きさは、モジュール
内のローカル変数、サイズから定まり、これはコンパイ
ル時にわかる。この情報を用いれば、データ領域確保時
にどこまでスタック先頭を上げればよいかがわかる。

【００３６】次に、高速データメモリのスタックとして
の利用であって、そのサイズが事実上制限されないよう
な利用法について述べる。スタックでは、あるモジュー
ルでの処理が終了し、上位のモジュールに戻るまで、そ
の上位のモジュールのスタックを記憶しておくことが必
要である。これは上位のモジュールに戻ったとき、ロー
カルな変数やシステムパラメータの内容を保証するため
に必然的に要請される。即ち、あるモジュールが呼び出
されているとき、その上位のモジュールで確保されたス
タックはすべて記憶されている必要がある。これは、１
つのモジュールから、同一のモジュールを呼び出す、い
わゆる再起呼び出しのときも同様である。しかし、呼び
出しのネストが深いと、スタック領域は有限な領域の高
速データメモリ１０に入りきらない場合がある。

【００３７】そこで本発明では、図１１に示したよう
に、高速データメモリのアドレス空間Ｄ１０とともに主
記憶の論理アドレス空間Ｄ４０１を用いて、サイズの制
限が事実上ないスタック空間を構築する。ここでサイズ
制限が実質上ないとしたのは、実装される主記憶の他
に、データ用メモリ管理ユニットにより膨大な容量を有
する磁気記憶装置が、仮想アドレス空間として主記憶の
論理アドレス空間に割り付けられるためである。そして
あるプログラムの実行中に何段もの呼び出しが重なる等
のために高速データメモリの空間だけで足りなくなる
と、上位のモジュールのデータを順に主記憶、あるいは
場合によっては磁気記憶装置へ移して、現在処理中の領
域が高速データメモリのアドレス空間Ｄ１０に入るよう
にして用いる。

【００３８】また、処理中のモジュールのスタック領域
が高速データメモリのアドレス空間と主記憶の論理アド
レス空間の両者にまたがると、モジュールの処理中にア
ドレスの切り替えが生じ、高速化が極めて困難となるた
め、１つのモジュールに割り当てるスタックの容量の上
限を設定し、少なくとも高速データメモリ１０の容量を
越えないようにする。即ち、図１１に示したように、処
理中のモジュールのスタック領域をアクセス範囲２１と
呼ぶこととすると、このアクセス範囲２１が常に、高速
データメモリのアドレス空間に割り当てられるように、
各モジュールの使うスタック領域を制限しておく。プロ
グラムによっては、１つのモジュールのローカルな変数
が高速データメモリに入りきらないことが生じうるが、
このような例外的な場合は、大きな変数領域を格納する
ために、主記憶上に第２のスタック領域を設けてもよ
い。もしくはプログラムを書き換えてローカルな変数を
減らすことも容易である。

【００３９】上記のようにスタック空間を高速データメ
モリより拡張すると、主記憶のアドレス空間と高速デー
タメモリのアドレス空間との間でのデータ移動が発生
し、この処理を簡易化し、スタックの高速性を失わない
ようにする必要がある。モジュールのスタック領域はロ
ーカルな変数の数などによって変わり、一律に決まらな
い。通常、先に述べたアクセス範囲が高速データメモリ
のアドレス空間全体を占めることは少ない。従って、呼
び出しの連鎖により処理中のモジュールにたどりつくま
での各モジュールでは、そのアクセス範囲は高速データ
メモリのアドレス空間より小さいが、大きさが一律でな
いため、処理中のモジュールのアクセス範囲の高速デー
タメモリのアドレス空間に対する位置は、呼び出される
までの履歴による。この履歴がいかなるときも、処理中
のモジュールのアクセス範囲が高速データメモリに割り
当てられ、かつ１つ上位のモジュールのアクセス範囲に
連続するように、本実施の形態では、図１１に示したよ
うに高速データメモリのアドレス空間を環状型とする。
このように上位のモジュールのアクセス範囲に連続させ
ることにより、（ａ）アクセス範囲の断片化が生じない
ため制御が簡潔になるとともに、（ｂ）上位のモジュー
ルに戻ったとき、上位のモジュールのアクセス範囲が高
速メモリに入っている可能性が高く、主記憶とのデータ
の転送を抑制できる。以下、このような使い方をした高
速データメモリを環状バッファと呼ぶ。なお、環状バッ
ファの先頭の決め方は任意性があるが、ここでは処理中
のモジュールのスタック先頭ＳＰとしておく。

【００４０】図１２は、環状バッファで各モジュールの
スタックがどのようにとられるかを模式的に示したもの
である。Ａ，Ｂ，Ｃ，Ｄの４つのモジュールを想定し、
最上位のモジュールＡから順次モジュールＤまでのスタ
ックが取られている。本図では、処理中であるモジュー
ルＤとその上位のモジュールＣのスタックは環状バッフ
ァに入るが、モジュールＢの一部のスタックとモジュー
ルＡのスタックは環状バッファには入りきらず、主記憶
に転送された状態を想定している。主記憶への転送は、
呼び出すモジュールのスタックが、さきに呼び出された
スタックの領域と重複するときに、さきに呼び出された
スタックに付いて行われる。主記憶からの転送は、上位
のモジュールに戻ったとき、主記憶に転送されているス
タック領域について行われる。そして、これらの転送に
当たっては、高速データメモリの内のデータ移動は、環
状バッファとしているので必要が無く、単に簡単なアド
レス変換（論理アドレスと物理アドレスの変換）だけで
対応可能である。

【００４１】但し、図１２の例では、モジュールＤの処
理が終了し、モジュールＣに戻ってもモジュールＣのス
タックは環状バッファ２３にあり、主記憶との転送が不
要である。これは、前述した上位のモジュールのアクセ
ス範囲に連続させた効果である。さらに、科学技術計算
では収束計算などの繰り返し計算が多用される。繰り返
し処理の核となる計算をモジュールＤで記述すれば、モ
ジュールＣからモジュールＤが繰り返し呼ばれることに
なる。このようなとき、繰り返し中のスタックはすべて
環状バッファに取られており、主記憶との転送は必要と
せず、高速処理を実現できる。

【００４２】主記憶と環状バッファ（高速データメモ
リ）との間のデータ転送は、演算ユニットにおける処理
のバックグラウンドで行わせると、データ転送のための
オーバーヘッドを殆どなくすことができる。図１３はそ
の説明図で、これは、１つのモジュールのアクセス範囲
が環状バッファに対してある程度小さいときに有効にな
る。例えばアクセス範囲が環状バッファの容量の１／４
だとしよう。このとき、環状バッファには少なくとも４
つ分のスタックをとることができる。図には、上位か
ら、Ａ０，Ａ，Ｂ，Ｃ，Ｄ，Ｅのモジュールがあり、こ
のうちＡ，Ｂ，Ｃ，Ｄの４つのモジュールのスタック領
域が環状バッファに取られている様子を示している。仮
に、モジュールＥの処理中に環状バッファにモジュール
Ｅ，Ｄ，Ｃ，Ｂのスタックがあったとし、モジュールＥ
の処理が終わり、モジュールＤに戻ったとする。その時
点で、モジュールＥのスタック領域は開放される。ここ
で次に処理が行われるモジュールＤのスタック領域も環
状バッファ上にあるから、すぐにデータ転送を必要とし
ない。しかし、次々と処理が終わり上位モジュールへ移
っていくと、やがてモジュールＡの処理へ入る。そこで
モジュールＥ終了により環状バッファの空いた領域をモ
ジュールＥ，Ｄ，Ｃ，Ｂの上位に当たるモジュールＡが
使うものとみなし、モジュールＡの領域に予め割り当て
ておけば、モジュールＡの処理開始時に転送処理のオー
バーヘッドを必要としない。また逆に、モジュールＤか
らモジュールＥが呼ばれたとき、モジュールＤのデータ
を主記憶に転送しておく。これは、さらに下位のモジュ
ールが呼び出されて行ったとき、環状バッファに取られ
ている、モジュールＤの領域を下位のモジュールで使う
ことを見越しての処理である。

【００４３】このように転送を事前に行う場合、その転
送処理を本来のモジュール処理に割り込ませて行ってい
たのでは意味がない。これらの転送処理はすぐやらなく
ても時間的に余裕があるので、演算ユニットにおけるバ
ックグラウンド処理として行うようにすれば、転送処理
のオーバーヘッドを殆どなくせる。この転送にあたって
は、スタックのデータが一次元的に連続しており、いわ
ゆるＤＭＡ（Direct Memory Accsessing）転送が可能で
ある。そこで主記憶と環状バッファとの間のデータ転送
を司るＤＭＡコントローラを付加し、高速データメモリ
または主記憶へのアクセスがないとき、バースト的にデ
ータの転送が行う。また、このような転送は、プロセッ
サにメモリ間のブロック転送の命令コードを持たせ、他
の命令と並列に実行させることによっても可能となる。
言い換えれば、演算ユニットが、例えばモジュールＤの
演算コードの実行と並列にブロック転送の命令コードを
実行する。いずれにしても、主記憶と環状バッファとの
間のデータ転送は、プロセッサのモジュール処理の中
で、高速データメモリまたは主記憶へのアクセスが発生
しないときに限られる。

【００４４】以上では、本発明の特徴とする高速データ
メモリの利用方法として、コンパイラにより繰り返し計
算で再利用性の高いデータを抽出し、高速メモリに割り
付ける方法、及びデータスタックを高速メモリに割り付
ける方法の２通りの方法を示した。前者の方法は、コン
パイラがFortranなどの高級言語で記述されたプログラ
ムをコンパイルし、実行形式のオブジェクトコードを生
成するときに、コンパイラに実装される高速メモリの容
量を数え、高速メモリを用いたオブジェクトコードを生
成させる。オブジェクトコードがただ１つ実行される、
いわゆるシングルプロセスのとき、高速メモリは、１つ
のオブジェクトコードで占められるだけなので、オペレ
イティングシステムの介在はオブジェクトコードを起動
したり、結果を磁気記憶装置に出力したりすることに留
まる。

【００４５】データスタックとして利用するときは、２
通りの考え方がある。１つはコンパイラにスタック領域
が高速メモリの容量を越えたときの主記憶への転送処理
も含めたオブジェクトコードを生成させ、オペレイティ
ングシステムの介在を極力押さえるやり方である。２つ
めは、高速メモリの容量を越えたときの主記憶への転送
処理はオペレイティングシステムに分担させるやり方で
ある。本発明は、どちらかに限定するものではない。但
し、両者とも、１つのモジュールのアクセス範囲を高速
メモリの容量に抑えるように、高速メモリの容量と１つ
のモジュールのアクセス範囲をコンパイラあるいはオペ
レイティングシステムに設定する。

【００４６】複数のプロセスを並行に実行させる、いわ
ゆるマルチプロセスを実現する場合には、オペレイティ
ングシステムの積極的な介在が不可欠である。これは、
マルチプロセスが各プロセスで共通の資源であるプロセ
ッサならびに高速メモリを、時分割的に交互に用いるた
めである。さらに、高速メモリについて、プロセス間で
競合を生じさせない特別な機構が必要となる。図１４
は、マルチプロセスのために高速データメモリをバンク
メモリとして実装したプロセッサの構成例で、演算ユニ
ット、レジスタ、ロード・ストアユニット、メモリ管理
ユニット、キャッシュメモリ、及びキャッシュコントロ
ーラ等は、図１〜３のような構成であるが、ここでは概
略的に図示している。バンクメモリ１０−１〜１０−４
は、高速データメモリを分割して構成したもので、１つ
のバンクメモリを１つのプロセスに割り当てる。制御を
単純化するために、各々のプロセスには、バンクメモリ
を同一のアドレスとして割り当てる。プロセスの切り替
え時にバンクメモリ切り替えをすることにより、ロード
・ストアユニット１６からは、処理中のプロセスのバン
クメモリのみをアクセスする。このプロセスの切り替え
は、オペレイティングシステムの役割である。さらに、
オペレイティングシステムにはプロセス数を監視し、プ
ロセス数がバンクメモリの数を越えたとき、バンクメモ
リのデータを主記憶に退避させる役割を持たせる。この
退避は、先に述べたＤＭＡ転送によっても可能である。
さらに、バンクメモリの退避を事前にＤＭＡによるバッ
クグラウンド処理によって行っておけば、プロセス切り
替えが短時間でできる。また、ＤＭＡに対して各々のバ
ンクメモリに異なるアドレスを持たせ、ＤＭＡがすべて
のバンクメモリにアクセスできるようにすることによ
り、任意のバンクメモリの主記憶への退避が可能とな
る。

【００４７】マルチプロセスで各プロセスにバンクメモ
リを割り当てる方法では、各プロセスが利用できる高速
データメモリの領域は一定である。これをダイナミック
に可変長の領域を割り当てられるようにすることもで
き、その方法を図１５を用いて説明する。この方法で
は、オペレイティングシステムの管理下にプロセステー
ブル１５を設け、プロセスごとのデータ領域Ｄ１、Ｄ
２、Ｄ３等を当該プロセス実行開始時に決定し、割り付
ける。そしてその割り付けた領域の始点、終点のアドレ
スをプロセステーブル１５に記憶しておき、プロセス切
り替え時に参照範囲を変えるようにする。データ領域の
割り付け方法として、例えば高速データメモリをより頻
繁に使うプロセスにより大きい領域を割り付けると、高
速データメモリの利用効率が向上し、従ってプロセッサ
としての処理速度が向上する。

【００４８】

【発明の効果】本発明によれば、高速データメモリへの
アクセスにはアドレス変換やアドレス照合などの負荷が
発生しないので、キャッシュメモリよりも大容量の高速
データ保持機構が構築できる。さらに、この高速データ
メモリに頻繁に再利用されるデータを選択的に格納する
ことにより、プロセッサから低速な主記憶へのアクセス
は大幅に少なくなり、プロセッサの実行速度が大幅に向
上するという効果がある。

【図面の簡単な説明】

【図１】本発明になるプロセッサの構成例を示すブロッ
ク図である。

【図２】本発明になるプロセッサの別の構成例を示すブ
ロック図である。

【図３】本発明になるプロセッサの別の構成例を示すブ
ロック図である。

【図４】本発明の計算機の構成例を示す概略ブロック図
である。

【図５】プログラムの例である。

【図６】図５のプログラム実行時の従来のキャッシュメ
モリと本発明の高速データメモリの使い方を説明する図
である。

【図７】別のプログラム例である。

【図８】スタックの動作例である。

【図９】スタックの別の動作例である。

【図１０】スタックをデータとシステムパラメータの双
方で使ったときの動作例である。

【図１１】環状バッファとしての高速データメモリと主
記憶を連結して構成したスタックの説明図である。

【図１２】図１１のスタックの動作例説明図である。

【図１３】図１１のスタックの動作例説明図である。

【図１４】高速データメモリをバンクメモリとして用い
たプロセッサの説明図である。

【図１５】高速データメモリを複数の可変長スタック領
域として用いる方法の説明図である。

【符号の説明】

１０高速データメモリ１０−１〜１０−４バンクメモリ１５プロセステーブル８４、９４スタック１０１、１０２演算ユニット群１１１、１１２レジスタ群１２０、１２１、１２２ロード・ストアユニット１４０、１４１データ用メモリ管理ユニット１４２命令用メモリ管理ユニット１５１データ用キャッシュメモリ１５２命令用キャッシュメモリ４００プロセッサ４０１主記憶４０２磁気記憶装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者高橋俊茨城県日立市大みか町七丁目２番１号株式会社日立製作所電力・電機開発本部内 (72)発明者高橋文夫茨城県日立市大みか町七丁目２番１号株式会社日立製作所電力・電機開発本部内Ｆターム(参考） 5B005 JJ11 KK12 MM02 MM03 RR01 UU41 5B060 CA03 CB01

Claims

【特許請求の範囲】

【請求項１】主記憶とは独立なアドレス空間を持ち、
プログラムからの制御によりレジスタと高速にデータの
やり取りができる高速データメモリを備えたことを特徴
とするプロセッサ。
【請求項２】主記憶とは独立なアドレス空間を持ち、
プログラムからの制御によりレジスタと高速にデータ及
びシステムパラメータの少なくとも一方の情報のやり取
りができる高速データスタックを備えたことを特徴とす
るプロセッサ。
【請求項３】請求項２記載のプロセッサにおいて、前
記高速データスタックは、主記憶空間に設けられたスタ
ック領域と連結され、かつこの連結により構成された全
スタック領域の先頭部分が常に当該高速データスタック
に格納されるように管理されるスタックであることを特
徴とするプロセッサ。
【請求項４】請求項１ないし３の内の１つに記載のプ
ロセッサを備えたことを特徴とする計算機。
【請求項５】請求項１に記載のプロセッサと、参照頻度の高い変数及び演算処理のための中間変数の少
なくとも一方を前記プロセッサに設けられた高速データ
メモリに格納する手段と、を備えたことを特徴とする計算機。
【請求項６】請求項２または３に記載のプロセッサ
と、プログラムを構成する各モジュールにおいて、少なくと
も当該モジュール内のみで用いられるローカル変数を抽
出する第１の手段と、各モジュールの実行時に前記第１の手段により抽出され
た変数を前記プロセッサに設けられた高速データスタッ
クへダイナミックに割り付ける第２の手段と、を備えたことを特徴とする計算機。