JPH11328123A

JPH11328123A - プロセッサ、並列プロセッサおよび演算処理方法

Info

Publication number: JPH11328123A
Application number: JP13893898A
Authority: JP
Inventors: Schroebenhauser Thomas; シュローベンハウザートーマス
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1998-05-20
Filing date: 1998-05-20
Publication date: 1999-11-30

Abstract

(57)【要約】【課題】高い演算性能を発揮できる並列プロセッサを
提供する。【解決手段】レジスタ群２０７に記憶されたインスト
ラクションポインタによって指し示されるインストラク
ションローカルメモリ２０１のインストラクションペー
ジが切り換わると、アドレスデコーダ２３０において、
当該切り換わった後のインストラクションページに続い
て前記インストラクションポインタで指し示されるイン
ストラクションページがインストラクションローカルメ
モリ２０１に記憶されているか否かを判断し、記憶され
ていないと判断した場合に、当該インストラクションペ
ージが、共有メモリ２４からインストラクションローカ
ルメモリ２０１に読み込まれる。

Description

【発明の詳細な説明】

【０００１】

【発明が属する技術分野】本発明は、共有メモリからイ
ンストラクションローカルメモリ（インストラクション
キャッシュメモリ）にインストラクションページをプリ
ロードする並列プロセッサ、プロセッサおよび演算処理
方法に関する。

【０００２】

【従来の技術】近年、プログラム中の同時に実行可能な
複数の命令を１チップ内に組み込まれた複数のプロセッ
サエレメント（ＰＥ）で並列に実行し、プログラム全体
の実行時間の短縮を図る並列プロセッサの開発が行われ
ている。このような並列プロセッサのアーキテクチャと
して種々のものが提案されているが、それらの一つとし
て、１組のコモンバス（共有バス）に、複数のプロセッ
サエレメントおよび共有メモリを接続したものがある。

【０００３】図９は、従来の一般的な並列プロセッサ１
のシステム構成図である。図９に示すように、並列プロ
セッサ１は、１チップ内にコモンバス２、ｎ個のプロセ
ッサエレメント３₁〜３_n、共有メモリ４およびバスユ
ニット５が組み込まれており、コモンバス２にプロセッ
サエレメント３₁〜３_n、共有メモリ４およびバスユニ
ット５が接続されている。また、バスユニット５は、外
部のチップインタフェース６を介してメインメモリ７に
接続されている。また、共有メモリ４のメモリセル領域
４ａには、１個のデータポートＩ／Ｏが備えられてい
る。並列プロセッサ１では、プロセッサエレメント３₁
〜３_nが、共有メモリ４に記憶されているデータにアク
セスするときに、コモンバス２およびデータポートＩ／
Ｏを介してデータが伝送される。

【０００４】

【発明が解決しようとする課題】しかしながら、上述し
た並列プロセッサ１では、プロセッサエレメント３₁〜
３_nと共有メモリ４との間のデータ転送および共有メモ
リ４とメインメモリ７との間のデータ転送が共にコモン
バス２を介して行われ、しかも、共有メモリ４のメモリ
セル領域４ａが１個のデータポートＩ／Ｏしか備えてい
ないため、以下に示すような理由から、プロセッサエレ
メント３₁〜３_nの待ち時間が長くなる可能性が高いと
いう問題がある。すなわち、共有メモリ４にページフォ
ルトが発生し、共有メモリ４とメインメモリ７との間で
ページの入れ替えを行っている間は、コモンバス２が使
用中であるため、プロセッサエレメント３₁〜３_nは共
有メモリ４にアクセスできない。従って、プロセッサエ
レメント３₁〜３_nから共有メモリ４に対してのアクセ
ス要求（リクエスト）は、ページ入れ替え処理が終了す
るまで待たされてしまい、並列プロセッサ１の演算性能
が低下する。

【０００５】本発明は上述した従来技術の問題点に鑑み
てなされ、高い演算性能を発揮できるプロセッサ、並列
プロセッサおよび演算処理方法を提供することを目的と
する。

【０００６】

【課題を解決するための手段】上述した従来技術の問題
点を解決し、上述した目的を達成するために、本発明の
プロセッサは、複数のインストラクションを含むインス
トラクションページを記憶する内部メモリと、前記内部
メモリに記憶されたインストラクションページのインス
トラクションを順次に指し示すポインタ手段と、前記ポ
インタ手段で指し示されたインストラクションを前記内
部メモリから読み込んで実行する演算手段と、前記ポイ
ンタ手段が指し示すインストラクションのインストラク
ションページが、第１のインストラクションページから
第２のインストラクションページに切り換わる前に、前
記第２のインストラクションページが前記内部メモリに
記憶されているか否かを判断し、記憶されていないと判
断した場合に、前記第２のインストラクションページ
を、外部メモリから前記内部メモリに読み込む制御手段
とを有する。

【０００７】本発明のプロセッサは、ポインタ手段によ
って指し示されるインストラクションが内部メモリから
演算手段に読み出され、当該インストラクションが演算
手段で実行される。そして、演算手段におけるインスト
ラクションの実行に応じて、前記内部メモリに記憶され
たインストラクションがポインタ手段によって順次に指
し示される。そして、前記ポインタ手段が指し示すイン
ストラクションのインストラクションページが、第１の
インストラクションページから第２のインストラクショ
ンページに切り換わる前に、前記制御手段によって、前
記第２のインストラクションページが前記内部メモリに
記憶されているか否かが判断され、記憶されていないと
判断された場合に、前記第２のインストラクションペー
ジが前記外部メモリから前記内部メモリに読み込まれ
る。

【０００８】また、本発明のプロセッサは、好ましく
は、前記制御手段は、前記ポインタ手段が指し示すイン
ストラクションのインストラクションページが、第１の
インストラクションページに切り換わったときに、前記
第２のインストラクションページが前記内部メモリに記
憶されているか否かを判断し、記憶されていないと判断
した場合に、前記第２のインストラクションページを前
記外部メモリから前記内部メモリに読み込む。

【０００９】また、本発明のプロセッサは、好ましく
は、前記ポインタ手段は、前記演算手段が前記インスト
ラクションを読み出す毎に、前記内部メモリのアドレス
空間のアドレスを所定のアドレス間隔で順次に増加ある
いは減少させて指し示す。

【００１０】また、本発明の並列プロセッサは、それぞ
れインストラクションに基づいて動作する複数のプロセ
ッサエレメントと、前記複数のプロセッサエレメントに
前記インストラクションを供給し、各々複数のインスト
ラクションを含む複数のインストラクションページを記
憶する共有メモリとを有する。ここで、前記プロセッサ
エレメントは、複数の前記インストラクションページを
記憶する内部メモリと、前記内部メモリに記憶されたイ
ンストラクションページのインストラクションを順次に
指し示すポインタ手段と、前記ポインタ手段で指し示さ
れたインストラクションを前記内部メモリから読み込ん
で実行する演算手段と、前記ポインタ手段が指し示すイ
ンストラクションのインストラクションページが、第１
のインストラクションページから第２のインストラクシ
ョンページに切り換わる前に、前記第２のインストラク
ションページが前記内部メモリに記憶されているか否か
を判断し、記憶されていないと判断した場合に、前記第
２のインストラクションページを前記共有メモリから前
記内部メモリに読み込む制御手段とを有する。

【００１１】また、本発明の演算処理方法は、各々複数
のインストラクションを含む複数のインストラクション
ページを記憶する内部メモリに記憶されたインストラク
ションをポインタデータで順次に指し示し、前記ポイン
タデータが指し示したインストラクションを前記内部メ
モリから読み込んで実行し、前記ポインタデータが指し
示すインストラクションのインストラクションページ
が、第１のインストラクションページから第２のインス
トラクションページに切り換わる前に、前記第２のイン
ストラクションページが前記内部メモリに記憶されてい
るか否かを判断し、記憶されていないと判断した場合
に、前記第２のインストラクションページを外部メモリ
から前記内部メモリに読み込む。

【００１２】

【発明の実施の形態】以下、本発明の実施形態に係わる
並列プロセッサについて詳細に説明する。第１実施形態図１は、本実施形態の並列プロセッサ２１のシステム構
成図である。図１に示すように、並列プロセッサ２１
は、例えば、コモンバス２２、プロセッサエレメント２
３₁〜２３_n、共有メモリ２４、バスユニット２５およ
び外部アクセスバス２６を有する。

【００１３】並列プロセッサ２１では、コモンバス２２
に、プロセッサエレメント２３₁〜２３_nおよび共有メ
モリ２４が接続されている。また、外部アクセスバス２
６に、共有メモリ２４およびバスユニット２５が接続さ
れている。

【００１４】コモンバス２２は１２８ビットのバス幅を
有し、外部アクセスバス２６は３２ビットのバス幅を有
している。コモンバス２２は、外部アクセスバス２６に
比べて４倍以上のデータ転送速度を持つ。なお、コモン
バス２２と外部アクセスバス２６とのバス幅を同じにし
て、同じデータ転送速度を持つようにすることも可能で
ある。

【００１５】プロセッサエレメント２３ ₁〜２３ _n プロセッサエレメント２３₁〜２３_nは、例えば、並列
プロセッサ２１がＭＩＭＤ(Multiple Instruction Mult
iple Data)型の並列プロセッサの場合には、個々にプロ
グラムカウンタに相当するインストラクションポインタ
レジスタを持ち、当該インストラクションポインタレジ
スタに記憶されたインストラクションポインタによって
指し示されるインストラクションに基づいた処理を相互
に独立して行う。プロセッサエレメント２３₁〜２３_n
としては、例えば、ＲＩＳＣ(Reduced Instruction Set
Computer)型の汎用プロセッサが用いられる。

【００１６】図２は、プロセッサエレメント２３₁の構
成図である。なお、プロセッサエレメント２３₂〜２３
_nは、プロセッサエレメント２３₁と同じ構成をしてい
る。図２に示すように、プロセッサエレメント２３
₁は、インストラクションバス２００、インストラクシ
ョンローカルメモリ２０１、データローカルメモリ２０
２、データバス２０３，２０４、内部バス２０５、ＣＰ
Ｕコア２０６、ページセレクタ２２０およびアドレスデ
コーダ２３０を有する。

【００１７】インストラクションローカルメモリ２０１
は、各々５１２バイトのインストラクションページを記
憶するバンク２０１ａ，２０１ｂ，２０１ｃ，２０１ｄ
を有する。バンク２０１ａ，２０１ｂ，２０１ｃ，２０
１ｄの各々は、インストラクションバス２００を介して
ＣＰＵコア２０６に接続されていると共に、内部バス２
０５およびコモンバス２２を介して図１に示す共有メモ
リ２４に接続されている。

【００１８】データローカルメモリ２０２は、各々５１
２バイトのサブページを記憶するバンク２０２ａ，２０
２ｂ，２０２ｃ，２０２ｄを有する。バンク２０２ａ，
２０２ｂ，２０２ｃ，２０１ｄの各々は、データバス２
０３および２０４を介してＣＰＵコア２０６のレジスタ
群２０７に接続されていると共に、データバス２０５お
よびコモンバス２２を介して図１に示す共有メモリ２４
に接続されている。ここで、サブページは、図１に示す
メインメモリ７上の連続したアドレスの記憶領域に記憶
された５１２バイトのデータであり、後述するように、
４個の連続したアドレスのサブページによって１ページ
が構成される。また、バンク２０２ａ，２０２ｂ，２０
２ｃ，２０１ｄは、相互に異なるページのサブページを
記憶可能である。

【００１９】ＣＰＵコア２０６は、図３に示すように、
コントロールレジスタ群２０７ａ、グローバルレジスタ
群２０７ｂおよびインストラクションポインタレジスタ
２０７ｃからなるレジスタ群２０７を有する。

【００２０】コントロールレジスタ群２０７ａは、例え
ば８個のコントロールレジスタからなり、これらのうち
の３つが図３に示すように、データポインタレジスタ２
０７ａ１，２０７ａ２およびマシンコントロールレジス
タ２０７ａ３として使用される。ここで、マシンコント
ロールレジスタ２０７ａ３の記憶データの所定ビットに
よって、後述するインストラクションプリロード機能を
動作させるか否かが決定される。グローバルレジスタ群
２０７ｂは、例えば１６個のグローバルレジスタからな
り、これらのうちの２つがデータレジスタ２０７ｂ１，
２０７ｂ２として使用される。データレジスタ２０７ｂ
１，２０７ｂ２は、それぞれデータバス２０３，２０４
に接続されており、ＣＰＵコア２０６でのインストラク
ション（命令）の実行に応じた制御によってデータロー
カルメモリ２０２から転送されたデータを記憶する。

【００２１】インストラクションポインタレジスタ２０
７ｃは、ＣＰＵコア２０６が次にフェッチするインスト
ラクションが記憶されているインストラクションローカ
ルメモリ２０１内の位置を指し示すインストラクション
ポインタを記憶する。ここで、インストラクションポイ
ンタは、アドレスのオートインクリメント機能により、
ＣＰＵコア２０６がインストラクションをフェッチする
度に、インストラクションローカルメモリ２０１のアド
レス空間内の次のアドレスを自動的に指し示す。

【００２２】ＣＰＵコア２０６は、インストラクション
ポインタレジスタ２０７ｃに記憶されているインストラ
クションポインタが指し示すインストラクションを、イ
ンストラクションローカルメモリ２０１から読み込ん
で、当該インストラクションに基づいて演算を行い、必
要に応じてデータローカルメモリ２０２からレジスタ群
２０７に読み込んだデータを演算に用いる。

【００２３】ページセレクタ２２０は、図４に示すよう
に、インストラクションローカルメモリ２０１のバンク
２０１ａ，２０１ｂ，２０１ｃ，２０１ｄの各々に対応
したエントリィ２２０ａ，２２０ｂ，２２０ｃ，２２０
ｄを有する。エントリィ２２０ａ〜２２０ｄの各々は、
インストラクションローカルメモリ２０１のそれぞれ対
応するバンクに記憶されているインストラクションペー
ジのページ番号（先頭アドレス）を示すフィールド２２
０ａ１〜２２０ｄ１と、当該インストラクションページ
の有効性を示すフィールド２２０ａ２〜２２０ｄ２とを
有する。

【００２４】アドレスデコーダ２３０は、インストラク
ションポインタレジスタ２０７ｃに記憶されているイン
ストラクションポインタＳ２０７ｃが指し示すインスト
ラクションのインストラクションページが切り換わった
ときに、当該切り換わった後のインストラクションペー
ジに続いて指し示されるインストラクションページが、
インストラクションローカルメモリ２０１に存在するか
否かを、ページセレクタ２２０を参照して判断する。

【００２５】具体的には、アドレスデコーダ２３０は、
前記切り換わった後のインストラクションページに続い
て指し示されるインストラクションページのページ番号
が、ページセレクタ２２０のエントリィ２２０ａ〜２２
０ｄのフィールド２２０ａ１〜２２０ｄ１に記憶されて
いるページ番号の何れかと一致し、しかも、当該一致し
たフィールド２２０ａ１〜２２０ｄ１に対応するフィー
ルド２２０ａ２〜２２０ｄ２が有効であることを示して
いる場合に、前記切り換わった後のインストラクション
ページに続いて指し示されるインストラクションページ
がインストラクションローカルメモリ２０１に存在する
と判断し、それ以外の場合に存在しないと判断する。

【００２６】アドレスデコーダ２３０は、前記切り換わ
った後のインストラクションページに続いて指し示され
るインストラクションページがインストラクションロー
カルメモリ２０１に記憶されていないと判断した場合
に、共有メモリ２４にインストラクションページの入れ
替え要求信号を出力し、ＬＲＵ(Least Recently Used)
方式で、スワッピング動作を行う。すなわち、バンク２
０１ａ〜２０１ｄに記憶されているインストラクション
ページのうち一つを内部バス２０５およびコモンバス２
２を介して共有メモリ２４に退避した後に、前記切り換
わった後のインストラクションページに続いて指し示さ
れるインストラクションページを共有メモリ２４から前
記退避したインストラクションページが記憶されていた
インストラクションローカルメモリ２０１のバンク２０
１ａ〜２０１ｄに読み出す。

【００２７】バスユニット２５図１に示すバスユニット２５は、並列プロセッサ２１の
外部に設けられたチップインタフェース６を介してメイ
ンメモリ７に接続されている。メインメモリ７は、４Ｇ
バイトの連続したアドレスを持つメモリ空間を有する。

【００２８】共有メモリ２４図５は、図１に示す共有メモリ２４の構成図である。図
５に示すように、共有メモリ２４は、例えば、コモンバ
ス用制御回路３１、外部バス用制御回路３２、制御回路
３３、メモリ内部バス５１，５２、マルチプレクサ（Ｍ
ＵＸ）５３，５４，５５，５６、第１の記憶手段として
のメモリセル領域９０、アドレスデコーダ５７，５８，
５９，６０、第２の記憶手段としてのタグデータ領域１
２０およびリクエストキュー１２５を有する。

【００２９】なお、本実施形態では、コモンバス用制御
回路３１、外部バス用制御回路３２および制御回路３３
が制御手段として機能する。制御回路３３は、コモンバ
ス用制御回路３１、外部バス用制御回路３２、マルチプ
レクサ５３〜５６、アドレスデコーダ５７〜６０を制御
する。また、制御回路３３は、プロセッサエレメント２
３₁〜２３_nから、インストラクションページおよびサ
ブページのうち少なくとも一方の入れ替え要求信号（ア
クセス要求）を入力した場合に、要求があったインスト
ラクションあるいはサブページがメモリセル領域９０に
記憶されているか否か（ページヒットの有無）をタグデ
ータ領域１２０に記憶された特性データとしてタグデー
タを参照して判断し、ページフォルトが発生したと判断
した場合には、後述する方法で、メモリセル領域９０に
記憶されている複数のページの中から、メインメモリ７
からページインするページと入れ替えを行う対象とする
ページを決定する。また、制御回路３３は、プロセッサ
エレメント２３₁〜２３_nから要求があったインストラ
クションページあるいはサブページを最初にメインメモ
リ７から共有メモリ２４に転送するように、共有メモリ
２４とメインメモリ７との間のページ転送を制御する。

【００３０】コモンバス用制御回路３１は、メモリ内部
バス５１およびコモンバス２２を介したプロセッサエレ
メント２３₁〜２３_nとメモリサブバンク４１〜４４と
の間のインストラクションページおよびサブページの転
送を制御する。具体的には、コモンバス用制御回路３１
は、制御回路３３から制御信号に基づいて、制御信号Ｓ
３１を出力してアドレスデコーダ５７〜６０を制御する
と共に、マルチプレクサ５３〜５６の切り換え制御を行
う。

【００３１】外部バス用制御回路３２は、メモリ内部バ
ス５２および外部アクセスバス２６を介したメモリサブ
バンク４１〜４４とメインメモリ７との間のページの転
送を制御する。具体的には、外部バス用制御回路３２
は、制御回路３３からの制御信号に基づいて、制御信号
Ｓ３２を出力してアドレスデコーダ５７〜６０を制御す
ると共に、マルチプレクサ５３〜５６の切り換え制御を
行う。

【００３２】マルチプレクサ５３〜５６は、制御信号Ｓ
３１，Ｓ３２および制御回路３３からの制御信号に基づ
いて、それぞれメモリサブバンク４１〜４４を、メモリ
内部バス５１および５２の何れか一方と接続する。

【００３３】アドレスデコーダ５７〜６０は、制御信号
Ｓ３１，Ｓ３２をデコードして、それぞれメモリサブバ
ンク４１〜４４に対してのアクセスを制御する。

【００３４】メモリセル領域９０は、４個のメモリサブ
バンク４１〜４４に物理的に等分に分割されている。メ
モリサブバンク４１〜４４は、それぞれシングルデータ
ポートを備えている。また、メモリセル領域９０は、そ
れぞれメモリサブバンク４１〜４４に対して等分に跨が
るように、ｍ個のバンク８０₀〜８０_m-1によって区切
られている。メモリサブバンク４１〜４４は、例えば、
それぞれｍ個のインストラクションページおよびサブペ
ージを記憶可能な記憶容量を有する。なお、サブページ
は、画像データを含んでいる。メモリサブバンク４１〜
４４は、それぞれマルチプレクサ５３〜５６、メモリ内
部バス５１およびコモンバス２２を介して、プロセッサ
エレメント２３₁〜２３_nとの間で、データの入れ替え
をインストラクションページ単位あるいはサブページ単
位で行う。ここで、データを入れ換えるとは、プロセッ
サエレメント２３₁〜２３_nからメモリサブバンク４１
〜４４にデータを書き込む動作、メモリサブバンク４１
〜４４からプロセッサエレメント２３₁〜２３_nにデー
タを読み出す動作、および、その両方の動作を含む。

【００３５】コモンバス２２は１２８ビットのバス幅を
有することから、インストラクションページあるいはサ
ブページが１回当たりのデータ転送の単位となるコモン
バス２２を介したバスオペレーションでは、５１２バイ
トのインストラクションページあるいはサブページを転
送するには、３２（＝５１２×８／１２８）回分のバス
トランザクションが最低限必要である。

【００３６】また、メモリサブバンク４１〜４４は、マ
ルチプレクサ５３〜５６、メモリ内部バス５２および外
部アクセスバス２６を介して、各バンク８０₀〜８０
_m-1に記憶されるページ単位で、メインメモリ７との間
でデータを入れ替える。ここで、１ページは２Ｋバイト
であり、４個のインストラクションページあるいはサブ
ページからなる。従って、プロセッサエレメント２３₁
〜２３_nがアクセスしようとするインストラクションペ
ージあるいはサブページの先頭アドレスが、図６に示す
Ａ番地、（Ａ＋５１２）番地、（Ａ＋１０２４）番地あ
るいは（Ａ＋１５３６）番地である場合には、メインメ
モリ７からＡ番地から２Ｋバイトの連続したアドレスに
記憶された１ページ分のデータを共有メモリ４に転送
し、この１ページ分のデータを４個のインストラクショ
ンページあるいはサブページに分割して、各バンク８０
₀〜８０_mに記憶する。本実施形態では、メインメモリ
７の４Ｇバイトのメモリ空間を、３２ビットのアドレス
で指し示している。ここで、この３２ビットのアドレス
のうち、３１〜１１ビット目がページの先頭アドレスを
示し、１０〜０ビット目がページ内のアドレスを示して
いる。また、１０ビット目および９ビット目がサブバン
クを示している。

【００３７】メモリサブバンク４１〜４４に記憶されて
いるインストラクションページおよびサブページは、全
てのプロセッサエレメント２３₁〜２３_nで共有できる
ように、システム全体で、インストラクションページお
よびサブページのデータ量を統一することが望ましい。
本実施形態では、プロセッサエレメント２３₁〜２３_n
のサブバンク２７₁のメモリ容量を５１２バイトとし、
インストラクションページおよびサブページのデータ量
も５１２バイトとしている。ここで、外部アクセスバス
２６は３２ビットのバス幅を有するため、ページがデー
タ転送の単位となる外部アクセスバス２６を介した１回
当たりのバスオペレーションでは、２Ｋバイトのページ
を転送するために、５１２（＝２０４８×８／３２）回
分のバストランザクションが最低限必要である。

【００３８】タグデータ領域１２０は、図５に示すよう
に、メモリサブバンク４１〜４４からなるメモリセル領
域９０に記憶されたインストラクションページおよびサ
ブページの特性データとしてのタグデータを記憶する。
タグデータ領域１２０は、バンク８０₀〜８０_m-1に対
応したタグバンク１３０₀〜１３０_m-1を有し、タグバ
ンク１３０₀〜１３０_m-1には、それぞれバンク８０₀
〜８０_mに記憶されているインストラクションページお
よびサブページの特性を示すデータが記憶されている。
タグデータは、バリッド識別領域１２１、ダーティ識別
領域１２２およびページセレクタ領域１２３から構成さ
れる。

【００３９】バリッド識別領域１２１は、インストラク
ションページおよびサブページの各々の有効性を示す１
ビットのバリッドビットを、インストラクションページ
およびサブページの数だけ備えている。例えば、バリッ
ド識別領域１２１には、有効なインストラクションペー
ジおよびサブページに対応するバリッドビットにバリッ
ドを示す「１」がセットされ、有効でない（無効な）イ
ンストラクションページおよびサブページに対応するバ
リッドビットにインバリッドを示す「０」がセットされ
ている。

【００４０】ダーティ識別領域１２２は、インストラク
ションページおよびサブページの各々のデータがダーテ
ィであるか否かを示す１ビットのダーティビットを、イ
ンストラクションページおよびサブページの数だけ備え
ている。ここで、ダーティであるとは、当該インストラ
クションページおよびサブページに、プロセッサエレメ
ント２３₁〜２３_nから書き込みがあったことを意味
し、当該インストラクションページおよびサブページが
記憶されている記憶領域を開放するときに、当該インス
トラクションページおよびサブページをメインメモリ７
に書き戻す必要がある。すなわち、ライトバックを行う
必要がある。例えば、ダーティ識別領域１２２には、ダ
ーティなインストラクションページおよびサブページに
対応するダーティビットにバリッドを示す「１」がセッ
トされ、ダーティでないインストラクションページおよ
びサブページに対応するダーティビットにインバリッド
を示す「０」がセットされている。

【００４１】ページセレクタ領域１２３は、バンク８０
₀〜８０_mに記憶されているページの識別番号（例え
ば、ページの先頭アドレス）を示すページセレクタを有
する。

【００４２】また、リクエストキュー１２５は、コモン
バス２２およびメモリ内部バス５１を介して入力した共
有メモリ４に対してのプロセッサエレメント２３₁〜２
３_nから複数のアクセス要求が競合した場合に、これら
のアクセス要求をキューに蓄え、所定の順番で制御回路
３３に出力して実行させる。

【００４３】以下、並列プロセッサ２１の動作について
説明する。インストラクションページのプリロード動作先ず、図２に示すプロセッサエレメント２３₁における
インストラクションプリロード動作について説明する。
なお、ここでは、図３に示すコントロールレジスタ群２
０７ａのマシンコントロールレジスタ２０７ａ３の記憶
データが、インストラクションプリロード機能を実行す
ることを示している場合を説明する。先ず、図２に示す
ＣＰＵコア２０６でインストラクションが順次に実行さ
れる。このとき、アドレスのオートインクリメント機能
によって、図３に示すインストラクションポインタレジ
スタ２０７ｃに記憶されるインストラクションポインタ
ＩＰＴＲが指し示すアドレスが順次に自動的に増加（イ
ンクリメント）される。

【００４４】そして、図７（Ａ）に示すように、当該イ
ンストラクションポインタＩＰＴＲが、インストラクシ
ョンローカルメモリ２０１のバンク２０１ａに記憶され
ているインストラクションページＩＰ₁の先頭のアドレ
スのインストラクションを指し示すと、図２に示すアド
レスデコーダ２３０は、インストラクションページＩＰ
₁に続いて指し示されるインストラクションページＩＰ
₂が、インストラクションローカルメモリ２０１に記憶
されているか否かを、ページセレクタ２２０を参照して
判断する。

【００４５】そして、アドレスデコーダ２３０は、イン
ストラクションページＩＰ₂がインストラクションロー
カルメモリ２０１に記憶されていないと判断すると、Ｌ
ＲＵ方式により、バンク２０１ｂに記憶されているイン
ストラクションページを、図２に示す内部バス２０５お
よびコモンバス２２を介して共有メモリ２４に退避し、
インストラクションＩＰ₂を共有メモリ２４から読み出
してバンク２０１ｂに記憶する。このとき、バンク２０
１ｂと共有メモリ２４との間でのインストラクションペ
ージのスワップ処理は、ＣＰＵコア２０６によるインス
トラクションローカルメモリ２０１へのアクセス処理と
並行して、すなわちバックグランドで行われるため、Ｃ
ＰＵコア２０６の処理がストールすることはない。

【００４６】そして、ＣＰＵコア２０６においてインス
トラクションが順次に実行され、図７（Ｂ）に示すよう
に、当該インストラクションポインタＩＰＴＲが、イン
ストラクションページＩＰ₂の先頭のインストラクショ
ンを指し示すと、当該インストラクションページＩＰ₂
は、インストラクションローカルメモリ２０１のバンク
２０１ｂに既に記憶されているため、ページフォルトは
生じない。

【００４７】このとき、図２に示すアドレスデコーダ２
３０は、インストラクションページＩＰ₂に続いて指し
示されるインストラクションページＩＰ₃が、インスト
ラクションローカルメモリ２０１に記憶されているか否
かを、ページセレクタ２２０を参照して判断する。

【００４８】そして、アドレスデコーダ２３０は、イン
ストラクションページＩＰ₃がインストラクションロー
カルメモリ２０１に記憶されていないと判断すると、Ｌ
ＲＵ方式により、バンク２０１ｃに記憶されているイン
ストラクションページを、図２に示す内部バス２０５お
よびコモンバス２２を介して共有メモリ２４に退避し、
インストラクションＩＰ₃を共有メモリ２４から読み出
してバンク２０１ｃに記憶する。このとき、バンク２０
１ｃと共有メモリ２４との間でのインストラクションペ
ージのスワップ処理は、ＣＰＵコア２０６によるインス
トラクションローカルメモリ２０１へのアクセス処理と
並行して行われるため、ＣＰＵコア２０６の処理がスト
ールすることはない。

【００４９】そして、ＣＰＵコア２０６においてインス
トラクションが順次に実行され、図７（Ｃ）に示すよう
に、当該インストラクションポインタＩＰＴＲが、イン
ストラクションページＩＰ₃の先頭のインストラクショ
ンを指し示すと、当該インストラクションページＩＰ₃
は、インストラクションローカルメモリ２０１のバンク
２０１ｃに既に記憶されているため、ページフォルトは
生じない。

【００５０】このとき、図２に示すアドレスデコーダ２
３０は、インストラクションページＩＰ₃に続いて指し
示されるインストラクションページＩＰ₄が、インスト
ラクションローカルメモリ２０１に記憶されているか否
かを、ページセレクタ２２０を参照して判断する。

【００５１】そして、アドレスデコーダ２３０は、イン
ストラクションページＩＰ₄がインストラクションロー
カルメモリ２０１に記憶されていないと判断すると、Ｌ
ＲＵ方式により、バンク２０１ｄに記憶されているイン
ストラクションページを、図２に示す内部バス２０５お
よびコモンバス２２を介して共有メモリ２４に退避し、
インストラクションＩＰ₄を共有メモリ２４から読み出
してバンク２０１ｄに記憶する。このとき、バンク２０
１ｄと共有メモリ２４との間でのインストラクションペ
ージのスワップ処理は、ＣＰＵコア２０６によるインス
トラクションローカルメモリ２０１へのアクセス処理と
並行して行われるため、ＣＰＵコア２０６の処理がスト
ールすることはない。

【００５２】そして、ＣＰＵコア２０６においてインス
トラクションが順次に実行され、図７（Ｄ）に示すよう
に、当該インストラクションポインタＩＰＴＲが、イン
ストラクションページＩＰ₄の先頭のインストラクショ
ンを指し示すと、当該インストラクションページＩＰ₄
は、インストラクションローカルメモリ２０１のバンク
２０１ｄに既に記憶されているため、ページフォルトは
生じない。

【００５３】このとき、図２に示すアドレスデコーダ２
３０は、インストラクションページＩＰ₄に続いて指し
示されるインストラクションページＩＰ₅が、インスト
ラクションローカルメモリ２０１に記憶されているか否
かを、ページセレクタ２２０を参照して判断する。

【００５４】そして、アドレスデコーダ２３０は、イン
ストラクションページＩＰ₅がインストラクションロー
カルメモリ２０１に記憶されていないと判断すると、Ｌ
ＲＵ方式により、バンク２０１ａに記憶されているイン
ストラクションページを、図２に示す内部バス２０５お
よびコモンバス２２を介して共有メモリ２４に退避し、
インストラクションＩＰ₅を共有メモリ２４から読み出
してバンク２０１ａに記憶する。このとき、バンク２０
１ａと共有メモリ２４との間でのインストラクションペ
ージのスワップ処理は、ＣＰＵコア２０６によるインス
トラクションローカルメモリ２０１へのアクセス処理と
並行して行われるため、ＣＰＵコア２０６の処理がスト
ールすることはない。そして、インストラクションポイ
ンタＩＰＴＲが指し示すアドレスが順次に増加するに応
じて、前述した処理が繰り返される。

【００５５】共有メモリ２４の動作ここで、図８に示すように、ｎを任意の整数としたとき
に、ページＰ（ｎ）を構成する４つのインストラクショ
ンページあるいはサブページのうち、サブバンク４１，
４２，４３，４４に記憶されるものをそれぞれＰｓ０
（ｎ），Ｐｓ１（ｎ），Ｐｓ２（ｎ），Ｐｓ３（ｎ）と
する。

【００５６】例えば、図５に示す制御回路３３が、図１
に示すプロセッサエレメント２３₁から、インストラク
ションページあるいはサブページの入れ替え要求信号を
入力した場合に、タグデータ領域１２０に記憶されたタ
グデータから、当該要求があったインストラクションペ
ージあるいはサブページＰｓ１（１）がメモリセル領域
９０に記憶されていない場合、ページミスと判断され、
外部アクセスバス２６を介して、共有メモリ２４と図１
に示すメインメモリ７との間で、当該要求があったイン
ストラクションページあるいはサブページＰｓ１（１）
を含むページＰ（１）と、共有メモリ２４に既に記憶さ
れているページとが入れ替えられる。このとき、ページ
Ｐ（１）を構成する４個のインストラクションページあ
るいはサブページＰｓ０（１），Ｐｓ１（１），Ｐｓ２
（１），Ｐｓ３（１）のうち、プロセッサエレメント２
３₁から要求のあったインストラクションページあるい
はサブページＰｓ１（１）が最初に入れ替えられる。

【００５７】そして、当該要求があったインストラクシ
ョンページあるいはサブページＰｓ１（１）が、コモン
バス２２を介して、共有メモリ２４からプロセッサエレ
メント２３₁に出力される。このとき、インストラクシ
ョンページあるいはサブページＰｓ１（１）の入れ替え
直後から、共有メモリ２４とプロセッサエレメント２３
₁との間でのインストラクションページあるいはサブペ
ージＰｓ１（１）の入れ替えと並行して、メインメモリ
７と共有メモリ２４との間でインストラクションページ
あるいはサブページＰｓ２（１），Ｐｓ３（１），Ｐｓ
０（１）が順に入れ替えられる。

【００５８】なお、プロセッサエレメントＰＥが要求し
たインストラクションページあるいはサブページをコモ
ンバス２２を介して最終的に当該プロセッサエレメント
ＰＥに転送するまでの処理をフォアグランドジョブと呼
び、残りの３つのインストラクションページあるいはサ
ブページを外部アクセスバス２６を介してメインメモリ
７から共有メモリ２４に転送する処理をバックグランド
ジョブと呼ぶ。

【００５９】以上説明したように、並列プロセッサ２１
によれば、図２に示すＣＰＵコア２０６において実行さ
れるインストラクションのアドレスの自動インクリメン
ト機能を用いた場合に、インストラクションポインタＩ
ＰＴＲが指し示すインストラクションを含むインストラ
クションページが切り換わった場合でも、当該切り換わ
り時には、切り換わり後のインストラクションページは
既にインストラクションローカルメモリ２０１に記憶さ
れている。また、インストラクションローカルメモリ２
０１と共有メモリ２４との間でのインストラクションペ
ージのスワップ処理と、ＣＰＵコア２０６によるインス
トラクションローカルメモリ２０１へのアクセス処理と
は並行して行われる。そのため、インストラクションポ
インタＩＰＴＲが指し示すインストラクションが含まれ
るインストラクションページが切り換わった場合でも、
ＣＰＵコア２０６によるインストラクションの実行は停
止（ストール）しない。その結果、ＣＰＵコア２０６を
効率的に使用でき、プログラムの処理時間を短縮でき
る。

【００６０】特に画像処理などの分野では、条件分岐な
どを含むジャンプ命令は少ないことから、上述したよう
なインストラクションのアドレスの自動インクリメント
機能は効果的であり、しかも、上述したように、インス
トラクションページのプリロード機能を持たせること
で、処理時間をさらに短縮できる。

【００６１】本発明は上述した実施形態には限定されな
い。例えば、図７に示す例では、図３に示すコントロー
ルレジスタ群２０７ａのマシンコントロールレジスタ２
０７ａ３の記憶データが、インストラクションプリロー
ド機能を実行することを示している場合を説明したが、
当該記憶データが、インストラクションプリロード機能
を停止することを示している場合には、上述したインス
トラクションのプリロードは行わない。これは、例え
ば、図１に示す並列プロセッサ２１を、プロセッサエレ
メント２３₁〜２３_nのうち何れか一つをマスタとし、
他をスレーブとし、マスタがスレーブに対して比較的小
さなタスクを分配するように構成した場合に有効であ
る。すなわち、マスタからスレーブに対して分配される
タスクが小さい場合には、各スレーブにおいてインスト
ラクションページを越えてインストラクションを読み出
すことが無く、インストラクションのプリロードは必要
でないばかりでなく、不必要に電力を消費してしまう可
能性がある。従って、このような場合には、スレーブの
マシンコントロールレジスタ２０７ａ３の記憶データを
インストラクションプリロード機能を停止することを示
すように設定する。

【００６２】また、上述した実施形態では、共有メモリ
２４のメモリセル領域を４個のメモリサブバンク４１〜
４４に分割した場合を例示したが、メモリサブバンクの
数は任意である。従って、例えば、共有メモリ２４のメ
モリセル領域を８個のメモリサブバンクに分割してもよ
い。この場合には、１ページは８個のインストラクショ
ンページあるいはサブページで構成される。また、上述
した実施形態では、単数のインストラクションページお
よびサブページのデータ量を５１２バイトとしたが、こ
のデータ量は特に限定されず、２５６バイトあるいは１
０２４バイトなどであってもよい。

【００６３】また、上述した実施形態では、並列プロセ
ッサ２１について例示したが、前述したインストラクシ
ョンページのプリロード機能は、シングルプロセッサに
も適用できる。

【００６４】

【発明の効果】以上説明したように、本発明のプロセッ
サによれば、演算手段がインストラクションを読み出す
際の待ち時間を短縮でき、処理時間を短縮できる。ま
た、本発明の並列プロセッサによれば、プロセッサエレ
メントの演算手段がインストラクションを読み出す際の
待ち時間を短縮でき、処理時間を短縮できる。また、本
発明の演算処理方法によれば、高い演算性能を実現する
ことができる。

【図面の簡単な説明】

【図１】図１は、本発明の実施形態に係わる並列プロセ
ッサのシステム構成図である。

【図２】図２は、図１に示すプロセッサエレメントの構
成図である。

【図３】図３は、図２に示すレジスタ群を説明するため
の図である。

【図４】図４は、図２に示すページセレクタを説明する
ための図である。

【図５】図５は、図１に示す共有メモリの構成図であ
る。

【図６】図６は、図５に示すメモリサブバンクに記憶さ
れるサブページを説明するための図である。

【図７】図２に示すプロセッサエレメントにおけるイン
ストラクションのプリロード機能を説明するための図で
ある。

【図８】図８は、図６に示すサブページと、共有メモリ
のサブバンクとの対応を説明するための図である。

【図９】図９は、従来の一般的な並列プロセッサのシス
テム構成図である。

【符号の説明】

６…チップインタフェース、７…メインメモリ、２２…
コモンバス、２３₁〜２３_n…プロセッサエレメント、
２４…共有メモリ、２５…バスユニット、２６…外部ア
クセスバス、４１〜４４…サブバンク、３１…コモンバ
ス用制御回路、３２…外部バス用制御回路、３３，２３
２，３３３…制御回路、５３〜５６…マルチプレクサ、
５７〜６０…アドレスデコーダ、８０₀〜８０_m…バン
ク、１２０…タグデータ領域、１２１…バリッド識別領
域、１２２…ダーティ識別領域、１２３…ページセレク
タ領域、１２５…リクエストキュー、１３０₀〜１３０
_m-1…タグバンク、２００…インストラクションバス、
２０１…インストラクションローカルメモリ、２０２…
データローカルメモリ、２０３，２０４…データバス、
２０５…内部バス、２０６…ＣＰＵコア、２０７…レジ
スタ群、２２０…ページセレクタ、２３０…アドレスデ
コーダ

Claims

【特許請求の範囲】

【請求項１】それぞれ複数のインストラクションを含む
複数のインストラクションページを記憶する内部メモリ
と、前記内部メモリに記憶されたインストラクションページ
のインストラクションを順次に指し示すポインタ手段
と、前記ポインタ手段で指し示されたインストラクションを
前記内部メモリから読み込んで実行する演算手段と、前記ポインタ手段が指し示すインストラクションのイン
ストラクションページが、第１のインストラクションペ
ージから第２のインストラクションページに切り換わる
前に、前記第２のインストラクションページが前記内部
メモリに記憶されているか否かを判断し、記憶されてい
ないと判断した場合に、前記第２のインストラクション
ページを外部メモリから前記内部メモリに読み込む制御
手段とを有するプロセッサ。
【請求項２】前記制御手段は、前記ポインタ手段が指し
示すインストラクションのインストラクションページ
が、第１のインストラクションページに切り換わったと
きに、前記第２のインストラクションページが前記内部
メモリに記憶されているか否かを判断し、記憶されてい
ないと判断した場合に、前記第２のインストラクション
ページを前記外部メモリから前記内部メモリに読み込む
請求項１に記載のプロセッサ。
【請求項３】前記ポインタ手段は、前記演算手段が前記
インストラクションを読み出す毎に、前記内部メモリの
アドレス空間のアドレスを所定のアドレス間隔で順次に
増加あるいは減少させて指し示す請求項１に記載のプロ
セッサ。
【請求項４】前記制御手段による前記外部メモリから前
記内部メモリへのインストラクションの読み込みと、前
記演算手段による前記内部メモリからのインストラクシ
ョンの読み込みとを並行して実行可能である請求項１に
記載のプロセッサ。
【請求項５】前記制御手段は、第１のインストラクショ
ンページから第２のインストラクションページに切り換
わる前に、前記第２のインストラクションページを前記
外部メモリから前記内部メモリに読み込む動作を行うか
否かを予め設定可能である請求項１に記載のプロセッ
サ。
【請求項６】前記外部メモリは、メインメモリと接続さ
れており、前記第２のインストラクションページを記憶
していない場合に、前記第２のインストラクションペー
ジからなるページを前記メインメモリから読み込む請求
項１に記載のプロセッサ。
【請求項７】前記外部メモリは、前記ページのうち、前
記第２のインストラクションページを最初に前記メイン
メモリから読み込む請求項６に記載のプロセッサ。
【請求項８】前記外部メモリから前記内部メモリへのイ
ンストラクションページの読み込み動作と、前記メイン
メモリから前記外部メモリへの前記ページの読み込み動
作とを並行して行う請求項６に記載のプロセッサ。
【請求項９】それぞれインストラクションに基づいて動
作する複数のプロセッサエレメントと、前記複数のプロセッサエレメントに前記インストラクシ
ョンを供給し、各々複数のインストラクションを含む複
数のインストラクションページを記憶する共有メモリと
を有し、前記プロセッサエレメントは、複数の前記インストラクションページを記憶する内部メ
モリと、前記内部メモリに記憶されたインストラクションページ
のインストラクションを順次に指し示すポインタ手段
と、前記ポインタ手段で指し示されたインストラクションを
前記内部メモリから読み込んで実行する演算手段と、前記ポインタ手段が指し示すインストラクションのイン
ストラクションページが、第１のインストラクションペ
ージから第２のインストラクションページに切り換わる
前に、前記第２のインストラクションページが前記内部
メモリに記憶されているか否かを判断し、記憶されてい
ないと判断した場合に、前記第２のインストラクション
ページを前記共有メモリから前記内部メモリに読み込む
制御手段とを有する並列プロセッサ。
【請求項１０】前記制御手段は、前記ポインタ手段が指
し示すインストラクションのインストラクションページ
が、第１のインストラクションページに切り換わったと
きに、前記第２のインストラクションページが前記内部
メモリに記憶されているか否かを判断し、記憶されてい
ないと判断した場合に、前記第２のインストラクション
ページを前記共有メモリから前記内部メモリに読み込む
請求項９に記載の並列プロセッサ。
【請求項１１】前記ポインタ手段は、前記演算手段が前
記インストラクションを読み出す毎に、前記内部メモリ
のアドレス空間のアドレスを所定のアドレス間隔で順次
に増加あるいは減少させて指し示す請求項９に記載の並
列プロセッサ。
【請求項１２】前記制御手段による前記共有メモリから
前記内部メモリへのインストラクションの読み込みと、
前記演算手段による前記内部メモリからのインストラク
ションの読み込みとを並行して実行可能である請求項９
に記載の並列プロセッサ。
【請求項１３】前記制御手段は、第１のインストラクシ
ョンページから第２のインストラクションページに切り
換わる前に、前記第２のインストラクションページを前
記共有メモリから前記内部メモリに読み込む動作を行う
か否かを予め設定可能である請求項９に記載の並列プロ
セッサ。
【請求項１４】前記共有メモリは、メインメモリと接続
されており、前記第２のインストラクションページを記
憶していない場合に、前記第２のインストラクションペ
ージからなるページを前記メインメモリから読み込む請
求項９に記載の並列プロセッサ。
【請求項１５】前記共有メモリは、前記ページのうち、
前記第２のインストラクションページを最初に前記メイ
ンメモリから読み込む請求項１４に記載の並列プロセッ
サ。
【請求項１６】前記共有メモリから前記内部メモリへの
インストラクションページの読み込み動作と、前記メイ
ンメモリから前記共有メモリへの前記ページの読み込み
動作とを並行して行う請求項１５に記載の並列プロセッ
サ。
【請求項１７】各々複数のインストラクションを含む複
数のインストラクションページを記憶する内部メモリに
記憶されたインストラクションをポインタデータで順次
に指し示し、前記ポインタデータが指し示したインストラクションを
前記内部メモリから読み込んで実行し、前記ポインタデータが指し示すインストラクションのイ
ンストラクションページが、第１のインストラクション
ページから第２のインストラクションページに切り換わ
る前に、前記第２のインストラクションページが前記内
部メモリに記憶されているか否かを判断し、記憶されて
いないと判断した場合に、前記第２のインストラクショ
ンページを外部メモリから前記内部メモリに読み込む演
算処理方法。
【請求項１８】前記ポインタデータが指し示すインスト
ラクションのインストラクションページが、第１のイン
ストラクションページに切り換わったときに、前記第２
のインストラクションページが前記内部メモリに記憶さ
れているか否かを判断し、記憶されていないと判断した
場合に、前記第２のインストラクションページを前記外
部メモリから前記内部メモリに読み込む請求項１７に記
載の演算処理方法。
【請求項１９】前記インストラクションを読み出す毎
に、前記ポインタデータは、前記内部メモリのアドレス
空間のアドレスを所定のアドレス間隔で順次に増加ある
いは減少させて指し示す請求項１８に記載の演算処理方
法。