JPH10228376A

JPH10228376A - 複数レジスタ命令を処理する方法及びプロセッサ

Info

Publication number: JPH10228376A
Application number: JP9343106A
Authority: JP
Inventors: Malik Suumuya; スームヤ・マリック; B Patel Rajesh; ラジェシュ・ビー・パテル; Albert John Loper; アルバート・ジョン・ローパー; M Jesani Romeshu; ロメシュ・エム・ジェサニ
Original assignee: International Business Machines Corp; Motorola Inc
Current assignee: International Business Machines Corp; Motorola Solutions Inc
Priority date: 1996-12-16
Filing date: 1997-12-12
Publication date: 1998-08-25
Also published as: GB2321984A; GB9725507D0; US5913054A

Abstract

(57)【要約】【課題】複数レジスタ命令を処理するための改善され
た方法及びシステムを提供する。【解決手段】複数レジスタ命令を処理するプロセッサ
及び処理方法が開示される。プロセッサは実行回路及び
レジスタのセットを含み、レジスタ・セットの各レジス
タは、データ・ワードを保管できる。レジスタ・セット
内の対応する複数のレジスタに書き込まれる、複数のデ
ータ・ワードを指定する複数レジスタ命令が、実行回路
にディスパッチされる。複数レジスタ命令の受信に応答
し、実行回路は複数レジスタ命令を実行する。この実行
では、プロセッサの単一サイクル内に、複数のデータ・
ワード内の少なくとも２つのデータ・ワードが、複数の
レジスタ内の少なくとも２つの対応するレジスタに書き
込まれる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、概してデータ処理
のための方法及びシステムに関連し、詳細に述べれば、
複数レジスタ命令を効率的に実行するための方法及びシ
ステムに関連する。更に詳細に述べれば、本発明の属す
る技術分野は、単一サイクル内でプロセッサ内の複数の
レジスタをアクセス可能にして、複数レジスタ命令を効
率的に実行するための方法及びシステムに関連する。

【０００２】

【従来の技術】最新の一般的なプロセッサは複数の実行
装置を含み、これらの各装置は、対応する命令のタイプ
を実行するために最適化されている。したがって、例え
ば固定小数点命令、浮動小数点命令、分岐命令、ならび
にロード及びストア命令を実行するために、プロセッサ
は固定小数点演算装置（ＦＸＵ）、浮動小数点演算装置
（ＦＰＵ）、分岐処理装置（ＢＰＵ）、及びロード・ス
トア装置（ＬＳＵ）をそれぞれ装備することができる。
更にプロセッサには、組み込みキャッシュ・メモリ、及
びプロセッサをデータ処理システム・バスに接続するた
めのインタフェース装置と共に、命令オペランド及び結
果データを一時的に保管するための、多数の構成された
レジスタが含まれる。

【０００３】データ処理の間に、メモリとプロセッサ内
の構成されたレジスタとの間で、大きなデータ・ブロッ
クを転送する必要が頻繁に起こる。例えば、行列の算術
演算を実行するときに、行列要素の値を後でＦＰＵまた
はＦＸＵが使用するために、プロセッサの構成されたレ
ジスタにロードする必要がある。このような大きなデー
タ・ブロックの転送を単純にするために、プロセッサに
よっては、ロード及びストア複数命令をサポートするも
のがある。この命令は、複数の構成されたレジスタとの
間で、データのロードとストアを実行する。ロード及び
ストア複数命令をサポートするプロセッサは、ストリン
グ命令もサポートする場合がある。この命令は、複数の
構成されたレジスタと非位置合わせメモリ・アドレス
（即ち、ダブルワード合わせでもワード合わせでもない
メモリ・アドレス）との間の、大きなデータ・ブロック
の転送に使用される。

【０００４】ストリング命令ならびにロード及びストア
複数命令（以降、すべて簡略化して複数レジスタ命令と
呼ぶ）は、メモリとプロセッサの構成されたレジスタと
の間の大きなデータ・ブロックの転送を、単に単一命令
が要求されていると見なすプログラミングの観点から単
純化するが、複数レジスタ命令ではしばしば待ち時間が
長くなり、実行時間も、同じ結果を得るために個別のロ
ードまたはストア命令の連続を実行する場合より長くか
かる。従来技術のプロセッサにおける複数レジスタ命令
の実行が非効率的である理由の１つは、このようなプロ
セッサでは、一般的に複数レジスタ命令を含むすべての
ロード及びストア命令が、各サイクルで単一の構成され
たレジスタだけしかアクセスできないためである。

【０００５】上記で明らかなように、複数レジスタ命令
を非常に効率よく実行するための、改善された方法及び
システムが要求されている。

【０００６】

【発明が解決しようとする課題】本発明の目的は、デー
タ処理のための改善された方法及びシステムを提供する
ことである。

【０００７】本発明の他の目的は、複数レジスタ命令を
効率的に実行するための方法及びシステムを提供するこ
とである。

【０００８】本発明のまた別の目的は、単一サイクル内
でプロセッサ内の複数のレジスタをアクセス可能にし
て、複数レジスタ命令を効率的に実行するための方法及
びシステムを提供することである。

【０００９】

【課題を解決するための手段】上記の目的は、以下に説
明するようにして達成される。即ち、複数レジスタ命令
を処理するプロセッサ及び方法が提供される。プロセッ
サは、実行回路及びレジスタのセットを含み、このレジ
スタのセットは、それぞれデータ・ワードを保管でき
る。このレジスタのセット内の対応する複数のレジスタ
に書き込まれる、複数のデータ・ワードを指定する複数
レジスタ命令が、実行回路にディスパッチされる。複数
レジスタ命令の受信に応答し、実行回路は複数レジスタ
命令を実行する。この実行では、プロセッサの単一サイ
クル内で、複数のデータ・ワード内の少なくとも２つの
データ・ワードが、複数のレジスタ内の少なくとも２つ
の対応するレジスタに書き込まれる。

【００１０】

【発明の実施の形態】ここで各図、特に図１を参照する
と、例示するプロセッサ１０の実施例のブロック図が示
されている。例示する実施例の中で、プロセッサ１０
は、単一の集積回路のスーパスカラー・マイクロプロセ
ッサである。したがって以下に詳しく説明するように、
プロセッサ１０には各種の実行装置、レジスタ、バッフ
ァ、メモリ、及びその他のセクションが含まれ、それら
がすべて集積回路により形成される。またプロセッサ１
０は、縮小命令セット・コンピュータ（ＲＩＳＣ）技術
に従って作動する。図１に示すように、システム・バス
２１が、プロセッサ１０のバス・インタフェース装置
（ＢＩＵ）１８に接続する。ＢＩＵ１８は、プロセッサ
１０とシステム・バス２１との間のデータの転送を制御
する。

【００１１】ＢＩＵ１８は、命令キャッシュ２７及びデ
ータ・キャッシュ２８に接続される。命令キャッシュ２
７は、シーケンサ装置１７に命令を出力する。命令キャ
ッシュ２７からの命令の受信に応答し、シーケンサ装置
１７は、命令をプロセッサ１０の他の実行回路に選択的
に出力する。

【００１２】シーケンサ装置１７の他に、プロセッサ１
０の実行回路は６個の実行装置を含む。即ち分岐装置１
１、固定小数点演算装置Ａ（ＦＸＵＡ）１２、固定小数
点演算装置Ｂ（ＦＸＵＢ）１３、複合固定小数点演算装
置（ＣＦＸＵ）１４、ロード・ストア装置（ＬＳＵ）１
５、及び浮動小数点演算装置（ＦＰＵ）１６である。Ｆ
ＸＵＡ１２、ＦＸＵＢ１３、ＣＦＸＵ１４、及びＬＳＵ
１５は、汎用レジスタ（ＧＰＲ）２２、及び固定小数点
リネーム・バッファ２３からそれぞれのソース・オペラ
ンドを受け取る。更にＦＸＵＡ１２及びＦＳＵＢ１３、
ＣＦＸＵ１４、ならびにＬＳＵ１５は、演算の結果（宛
先オペランド）を固定小数点リネーム・バッファ２３内
の選択されたエントリに保管するために出力する。また
ＣＦＸＵ１４は、特殊目的レジスタ（ＳＰＲ）２４との
間でソース・オペランド、及び宛先オペランドを入出力
する。ＦＰＵ１６は、そのソース・オペランドを浮動小
数点レジスタ（ＦＰＲ）２５、及び浮動小数点リネーム
・バッファ２６から入力する。ＦＰＵ１６は、演算の出
力結果（宛先オペランド）を浮動小数点リネーム・バッ
ファ２６内の選択されたエントリに保管する。

【００１３】ＬＳＵ１５はロード命令に応答し、データ
・キャッシュ２８からデータを取り出し、このデータを
固定小数点リネーム・バッファ２３、及び浮動小数点リ
ネーム・バッファ２６のいずれかの選択されたものにコ
ピーする。要求されたデータがデータ・キャッシュ２８
内に存在しない場合、データ・キャッシュ２８は、シス
テム・バス２１に接続されたシステム・メモリ２０か
ら、ＢＩＵ１８及びシステム・バス２１を介して要求さ
れたデータを取り出す。更にデータ・キャッシュ２８
は、ＢＩＵ１８及びシステム・バス２１を介して、デー
タをシステム・メモリ２０に書き込むことができる。例
示する実施例では、データ・キャッシュ２８は、１サイ
クル内にダブルワード（８バイト）のデータをＬＳＵ１
５に供給できる。ＬＳＵ１５はストア命令に応答し、Ｇ
ＰＲ２２及びＦＰＲ２５のいずれかの選択されたものか
ら、データ・キャッシュ２８内の指定された位置にデー
タをコピーする。以下に更に詳しく説明するように、Ｌ
ＳＵ１５はデータ・キャッシュ２８、またはシステム・
メモリ２０とＧＰＲ２２との間でデータ・ブロックを転
送する、複数レジスタ命令もサポートする。

【００１４】シーケンサ装置１７は、ＧＰＲ２２及びＦ
ＰＲ２５にデータを保管し、またそこからデータを取り
出す。分岐装置１１は分岐命令、及びプロセッサ１０の
現在の状態を示す信号を、シーケンサ装置１７から受け
取る。分岐装置１１はこれらの分岐命令及び信号に応答
し、プロセッサ１０が実行する一連の命令を保管するた
めの適切なメモリ・アドレスを示す信号を、シーケンサ
装置１７に出力する。分岐装置１１からこれらの信号を
受信すると、シーケンサ装置１７は、示された一連の命
令を命令キャッシュ２７から取り出す。一連の命令の中
の１つ、または複数の命令が命令キャッシュ２７に保管
されていない場合、命令キャッシュ２７は、ＢＩＵ１８
及びシステム・バス２１を介して、システム・メモリ２
０からこれらの命令をフェッチする。

【００１５】シーケンサ装置１７は、実行装置１１、１
２、１３、１４、１５、及び１６の選択されたものに、
命令キャッシュ２７からフェッチされた命令を選択的に
ディスパッチする。各実行装置は、特定のクラスの命令
の１つまたは複数の命令を実行する。例えばＦＸＵＡ１
２及びＦＸＵＢ１３は、固定小数点算術演算の第１のク
ラスの演算を、ソース・オペランドに対して実行する。
即ち、加算、減算、論理積、論理和、及び排他的論理和
などの演算を実行する。ＣＦＸＵ１４は、固定小数点演
算の第２のクラスの演算を、ソース・オペランドに対し
て実行する。即ち、固定小数点乗算及び除算を実行す
る。ＦＰＵ１６は、浮動小数点乗算及び除算などの浮動
小数点演算を、ソース・オペランドに対して実行する。

【００１６】固定小数点リネーム・バッファ２３の選択
された１つに、データが保管されると、この選択された
固定小数点リネーム・バッファが割り当てられている命
令が指定した保管位置（例えばＧＰＲ２２の１つなど）
に、そのデータが関連付けられる。固定小数点リネーム
・バッファ２３の選択された１つに保管されたデータ
は、この後シーケンサ装置１７からの信号に応答し、そ
れが関連付けられているＧＰＲ２２にコピーされる。シ
ーケンサ装置１７は、データを生成した命令の「完了」
に応答し、固定小数点リネーム・バッファ２３の選択さ
れた１つに保管された各データのコピー作業を指示す
る。このコピー作業は「書き戻し」と呼ばれているが、
同じような名前の付いたキャッシュ動作と混同してはな
らない。例示する実施例では、１クロック・サイクル当
たり２つのＧＰＲ２２にデータを書き戻しできる。

【００１７】同様に、浮動小数点リネーム・バッファ２
６の選択された１つにデータが保管されたとき、そのデ
ータはＦＰＲ２５の１つに関連付けられる。浮動小数点
リネーム・バッファ２６の選択された１つに保管された
データは、この後シーケンサ装置１７からの信号に応答
し、ＦＰＲ２５の関連付けられた１つにコピーされる。
シーケンサ装置１７は、データを生成した命令の完了に
応答し、浮動小数点リネーム・バッファ２６の選択され
た１つに保管されたデータのコピー作業を指示する。

【００１８】プロセッサ１０は、パイプライニングと呼
ばれる技術を使用して、各種の実行装置１１、１２、１
３、１４、１５、及び１６で複数の命令を同時に処理す
ることにより、高い性能を達成する。したがって各命令
は一連のステージとして処理され、各ステージは他の命
令のステージと並行して実行可能である。例示する実施
例の重要な特徴では、命令は通常６つのステージとして
処理される。即ち、フェッチ、デコード、ディスパッ
チ、実行、完了、及び書き戻しの６ステージである。

【００１９】フェッチ・ステージでは、シーケンサ装置
１７は、命令キャッシュ２７内の１つまたは複数のメモ
リ・アドレスから、一連の命令を選択的にフェッチす
る。この一連の命令については、分岐装置１１とシーケ
ンサ装置１７に関連して上記で説明している。最大４個
のフェッチされた命令が、次にデコード・ステージ中に
シーケンサ装置１７によりデコードされる。

【００２０】ディスパッチ・ステージでは、シーケンサ
装置１７は、リネーム・バッファ・エントリをディスパ
ッチされた命令の結果（宛先オペランド）用に予約した
後、最大４個のデコードされた命令を、実行装置１１、
１２、１３、１４、１５、及び１６の中から、デコード
・ステージでのデコーディングに対応して選択されたも
のに選択的にディスパッチする。ディスパッチ・ステー
ジでは、ディスパッチされた命令用に選択された実行装
置にオペランドが供給される。プロセッサ１０は、命令
をプログラム順にディスパッチする。

【００２１】実行ステージでは、実行装置１１〜１６が
それぞれのディスパッチされた命令を実行し、上記の説
明のように、それぞれの演算の結果（宛先オペランド）
を、固定小数点リネーム・バッファ２３、及び浮動小数
点リネーム・バッファ２６のいずれかの選択されたエン
トリに保管するために、出力する。この方法によって、
プロセッサ１０は、プログラム順に対してそれとは異な
った順番で命令を実行できる。

【００２２】完了ステージでは、シーケンサ装置１７が
命令が完了したことを示す。プロセッサ１０は命令をプ
ログラム順に完了する。書き戻しステージでは、シーケ
ンサ装置１７が選択された固定小数点リネーム・バッフ
ァ２３、及び浮動小数点リネーム・バッファ２６から、
ＧＰＲ２２及びＦＰＲ２５それぞれにデータをコピーす
るように指示する。同様に、特定の命令の書き戻しステ
ージでは、プロセッサ１０が特定の命令に従い、その構
成された状態を更新する。プロセッサ１０は、命令の個
々の書き戻しステージをプログラム順に処理する。プロ
セッサ１０は所定の状況において、命令の完了ステージ
及び書き戻しステージを都合よく結合する。

【００２３】例示する実施例では、各命令は、命令処理
の各ステージの完了に１マシン・サイクルが必要であ
る。しかし命令の中には、例えば複合固定小数点命令の
ように、２サイクル以上必要なものがある。したがっ
て、特定の命令の実行ステージと完了ステージとの間
に、その命令の前の命令の完了に要する時間の変動に応
じて、変動した遅延が発生する場合がある。

【００２４】次に図２を参照すると、プロセッサ１０内
のＬＳＵ１５の更に詳細なブロック図が示されている。
図に示すように、ＬＳＵ１５の主要な構成要素は、予約
ステーション４０、ＥＡ計算装置４２、位置合わせ装置
４４及び４６、ロード待ち行列４８、終了ストア待ち行
列５０及び完了ストア待ち行列５２で構成されるストア
待ち行列、ならびに浮動小数点（ＦＰ）変換装置５４及
び５６を含む。これらはすべて制御論理回路６０の制御
により動作する。シーケンサ装置１７からの命令の受信
に応答し、ＬＳＵ１５は、命令オペランドがすべて有効
になるまで、その命令を予約ステーション４０内に一時
的に保管する。予約ステーション４０内に保管された命
令の命令オペランドがすべて有効になると、ＬＳＵ１５
は、有効アドレス（ＥＡ）計算ステージで命令を実行す
る。これは、２パイプライン・ステージの第１のステー
ジである。第１のパイプライン・ステージで、ＥＡ計算
装置４２は、命令のオペランドから命令のＥＡを計算す
る。更にＥＡはＭＭＵ／キャッシュ・インタフェース６
２に渡され、このインタフェースが、ＥＡをシステム・
メモリ２０内の物理アドレスに変換し、ＥＡの例外をチ
ェックする。

【００２５】第１のパイプライン・ステージでの処理に
続いて、制御論理回路６０は、命令がストア命令である
かロード命令であるかに従い、命令をそれぞれ終了スト
ア待ち行列５０、またはロード待ち行列４８のいずれか
に保管させる。ロード待ち行列４８は、命令により指定
されたデータ・ワードがすべてＧＰＲ２２、またはＦＰ
Ｒ２５にロードされるまで、一時的にロード命令を保管
する。終了ストア待ち行列５０は、物理アドレスが計算
されているストア命令の未完了のものを、一時的に保持
するために使用される。終了ストア待ち行列５０内のス
トア命令が完了したことを示す信号を、シーケンサ装置
１７から受け取ると、これに応じてそのストア命令が、
完了ストア待ち行列５２に転送される。その後完了した
ストア命令は、ストア命令により示されたデータ・ワー
ドがＧＰＲ２２、またはＦＰＲ２５からデータ・キャッ
シュ２８に書き込めるようになるまで、完了ストア待ち
行列５２内に保持される。

【００２６】図２に示すように、ストア命令の実行に応
答してデータ・キャッシュ２８に書き込まれたデータ
は、ＦＰ変換装置５４またはストア位置合わせ装置４４
を介して、選択的に渡される。これらの装置は、制御論
理回路６０からの制御信号の受信に応答し、それぞれ選
択的にデータ処理動作を実行する。例えば、倍精度値を
単精度フォーマットで保管するように指定する、「浮動
小数点シングルのストア」命令の受信に応答し、制御論
理回路６０は、ＦＰ変換装置５４に対して、データをデ
ータ・キャッシュ２８に転送する前に、倍精度値を正規
化するように信号を出す。下記に説明するように、非位
置合わせアドレスをもつストア・ストリング命令の受信
に応答し、制御論理回路６０は、ストア位置合わせ装置
４４に対して、宛先オペランドのデータ・バイトを適切
に結合及びシフトするようにさせる。

【００２７】同様に、ロード命令の実行に応答してデー
タ・キャッシュ２８からロードされたデータ・ワード
は、ＦＰ変換装置５６またはロード位置合わせ装置４６
を介して選択的に渡される。これらの装置は、制御論理
回路６０からの制御信号の受信に応答し、それぞれ選択
的にデータ処理動作を実行する。例えば、非位置合わせ
アドレスをもつロード・ストリング命令の受信に応答
し、制御論理回路６０は、ロード位置合わせ装置４６に
対して、宛先オペランドのデータ・バイトを適切に結合
及びシフトするようにさせる。重要なことは、ＬＳＵ１
５とデータ・キャッシュ２８とをリンクするデータ・バ
ス６４が、各サイクル内にダブルワードのデータを転送
できる点である。

【００２８】次に図３を参照すると、プロセッサ１０が
複数レジスタ命令を実行する方法の、高レベルな論理の
流れ図が示されている。以下の説明から明らかなよう
に、図３に示されたプロセスは、非位置合わせのロード
及びストア・ストリング命令と共に、ダブルワード合わ
せまたはワード合わせのいずれかである、ロード及びス
トア複数命令のいずれにも適用可能である。図に示すよ
うに、プロセスはブロック８０で開始され、その後ブロ
ック８２に進む。ここで図のように、ＥＡ計算装置４２
により計算されたＥＡが８の倍数であるか否か（即ち複
数レジスタ命令のＥＡがダブルワード合わせであるか否
か）が、制御論理回路６０により判定される。複数レジ
スタ命令のＥＡがダブルワード合わせであるというブロ
ック８２の判定に応答し、プロセスはブロック８４〜９
０に進む。ここでは、ＬＳＵ１５が複数レジスタ命令に
より指示された演算を実行する。

【００２９】次に図４を参照すると、ダブルワード合わ
せのＥＡをもつ複数レジスタ命令の実行のタイミング図
が示されている。図に示すように、命令は２つのオペラ
ンドをもつロード複数命令である。第１のオペランド
は、転送の第１のデータ・ワードをロードするレジスタ
としてＧＰＲ２６を指定する。複数レジスタ命令は、構
造的にＧＰＲ２２の中の最も大きい番号のレジスタから
アクセスすると定義されている利点として、第１のオペ
ランドは、データ・キャッシュ２８からＧＰＲ２２に転
送するデータ・ワードの数も示している（即ち３２−２
６＝６）。図４に示されたロード複数命令の第２のオペ
ランドは、転送されるデータ・ブロックのベース・アド
レスを指定する。

【００３０】次に再び図３に戻り、ブロック８４〜９０
について図４を参照して説明する。ブロック８４でＬＳ
Ｕ１５は、データの次のダブルワードをデータ・キャッ
シュ２８からアクセスする。データ・キャッシュには、
図４に例示するロード複数命令のために、アドレス０ｘ
８に保管されたダブルワードが含まれる。ダブルワード
は次に単一動作で、ＧＰＲ２６及びＧＰＲ２７に書き込
まれる。例示する実施例では、複数レジスタ命令はプロ
セッサ１０内で逐次化され、このためＧＰＲ２２に関す
る競合がないので、固定小数点リネーム・バッファ２３
が事実上迂回される。しかし、すべてのロードされるデ
ータ・ワードが、構造的に固定小数点リネーム・バッフ
ァ２３にロードされる必要がある代替実施例でも、はっ
きり分かる余分な遅延なしに、データ・ワードをＧＰＲ
２２にロードできる。図４に示すように、データ・キャ
ッシュ２８内のミスまたは他の待ち時間生成要因がない
場合は、ブロック８４でアクセスされたダブルワード
は、単一クロック・サイクルでＧＰＲ２２内に保管され
る。

【００３１】次にプロセスは、ブロック８４からブロッ
ク８６に進む。ここで、指定されたデータ・ワードがす
べてアクセスされたか否かが判定される。アクセスされ
た場合、プロセスはブロック１４０に進んで終了する。
しかし、まだアクセスすべきデータ・ワードが残ってい
るというブロック８６の判定に応答し、プロセスはブロ
ック８６からブロック８８に進み、アクセスすべきデー
タのダブルワードが、少なくとも１つ残っているか否か
が判定される。残っている場合、プロセスは先に説明し
たブロック８４に戻る。このように図４に示した例で
は、ブロック８４、８６、及び８８は、３個のダブルワ
ードのデータをＧＰＲ２２にロードするために、連続す
る３クロック・サイクル中に更に２回実行される。再び
ブロック８８を参照すると、単一のデータ・ワードのア
クセスだけが残っているという判定に応答し、プロセス
はブロック９０に進む。ここで残っている単一のデータ
・ワードのアクセスが実行され、次にプロセスはブロッ
ク１４０に進んで終了する。

【００３２】再びブロック８２を参照すると、複数レジ
スタ命令のＥＡが８の倍数ではない、したがってＥＡは
ワード合わせまたは非ワード合わせであることを示す判
定に応答し、プロセスはブロック１００に進む。ブロッ
ク１００では、複数レジスタ命令のＥＡが４の倍数であ
るか否か（即ち複数レジスタ命令のＥＡがワード合わせ
であるか否か）が判定される。４の倍数の場合、プロセ
スはブロック１００からブロック１０２に進み、第１の
クロック・サイクルで単一のデータ・ワードがアクセス
される。次にプロセスはブロック８８に進み、アクセス
すべきデータのダブルワードが、少なくとも１つ残って
いるか否かが判定される。まだ残っている場合、プロセ
スは先に説明したブロック８４に進む。しかし、単一の
データ・ワードのアクセスだけが残っているという判定
に応答し、プロセスはすでに説明したブロック９０に進
む。このように今まで説明した実施例に従って、ワード
合わせのダブルワード・アクセスという最悪の場合で
も、一連の単一レジスタ命令を実行する場合と同じか、
またはよりよい性能で、複数レジスタ命令により指定さ
れたアクセスが実行される。

【００３３】次に図５を参照すると、説明する実施例に
従ったワード合わせのデータ転送のタイミング図が示さ
れている。図に示すように、例として用いたストア複数
命令は、第１のオペランドがデータ転送の長さを示し、
第２のオペランドがデータ転送のベース・アドレスを示
す。図５及び図３のブロック１０２に示すように、第１
のワード合わせのデータ・ワードだけが第１のサイクル
でアクセスされる。しかしその後のアクセスでは、これ
らのデータのワードはダブルワード合わせであるので、
データのダブルワードがＧＰＲ２２からＬＳＵ２８に転
送できる。

【００３４】図３のブロック１００に戻ると、複数レジ
スタ命令のＥＡが４の倍数ではない、したがって複数レ
ジスタ命令は、非位置合わせＥＡをもつロード・ストリ
ング命令、またはストア・ストリング命令であることを
示す判定に応答し、プロセスはブロック１００からブロ
ック１１０に進む。ブロック１１０では、命令がロード
・ストリング命令であるか、ストア・ストリング命令で
あるかに従い、データの第１のダブルワードをＧＰＲ２
２、またはＬＳＵ２８のいずれかからアクセスする。プ
ロセスはブロック１１０からブロック１１２に進み、ス
トア位置合わせ装置４４及びロード位置合わせ装置４６
のいずれかの適切なものが、必要なバイトシフト及び結
合を実行して、単一のデータ・ワードを得る。次に単一
のデータ・ワードは、再び命令がロード・ストリング命
令であるかストア・ストリング命令であるかに従い、Ｇ
ＰＲ２２またはＬＳＵ２８のいずれかに書き込まれる。
このように図６に例示した、非位置合わせの７個のデー
タ・ワード・ストリングをデータ・キャッシュ２８から
ロードする、ロード・ストリング命令では、図３のブロ
ック１１０〜１１４で、ＬＳＵ１５がアドレス０ｘ０の
ダブルワードをロードし、ロード位置合わせ装置４６内
でロードされたダブルワードをバイト・シフトして、ア
ドレス０ｘ３に単一のデータ・ワードを取得し、このよ
うにして取得したデータ・ワードをＧＰＲ２５に書き込
む。

【００３５】再び図３を参照すると、プロセスはブロッ
ク１１４からブロック１１６に進み、アクセスすべきデ
ータのダブルワードが少なくとも１つ残っているか否か
が、判定される。残っていない場合、プロセスは下記に
説明するブロック１３０に進む。しかし、アクセスすべ
きデータのダブルワードが少なくとも１つ残っているこ
とを、ブロック１１６が判定した場合は、これに応じて
プロセスはブロック１１８に進み、転送するデータの次
のダブルワードをアクセスする。再び図６を参照する
と、ブロック１１８に示すステップで、ＬＳＵ１５はア
ドレス０ｘ８のダブルワードをロードする。図３に戻る
と、プロセスはブロック１１８からブロック１２０に進
み、位置合わせ装置４４及び４６のいずれかの適切なも
のが、適切なバイト・シフト及び結合を実行して、デー
タのダブルワードを形成する。このように、図６に示す
例はロード位置合わせ装置４６が、アドレス０ｘ７をも
つデータ・バイト（これは、図３のブロック１１０に示
した以前のアクセスから、ロード位置合わせ装置４６に
より保持されている）をデータ・バイト０ｘ８〜０ｘＥ
に結合して、データのダブルワードを形成する。次に図
３のブロック１２２に示すように、ダブルワードが、単
一サイクル内に（他の遅延要因をすべて除いた場合）Ｇ
ＰＲ２６及びＧＰＲ２７に書き込まれる。プロセスはブ
ロック１２２から１２４に進み、データ・ストリングの
終端まで到達したか否かが判定される。終端まで到達し
た場合、プロセスはブロック１４０に進んで終了する。
しかしデータ・ストリングの終端にまだ到達していない
場合、プロセスはブロック１２４からブロック１１６に
戻り、転送すべきデータのダブルワードが少なくとも１
つ残っているか否かが判定される。残っている場合、プ
ロセスは先に説明したブロック１１８〜１２４に戻る。
図６に示すように、図３のブロック１１６〜１２４は、
追加の２サイクル中にダブルワード０ｘ０Ｆ〜０ｘ１
６、及び０ｘ１７〜０ｘ１Ｅを転送するために、更に２
回繰り返される。

【００３６】図３のブロック１１６に戻ると、転送すべ
き単一のデータ・ワードだけが残っているという判定に
応答し、プロセスはブロック１１６からブロック１３０
に進む。ブロック１３０では、転送する最後のデータ・
ワードをアクセスする。次にプロセッサはブロック１３
２に進み、位置合わせ装置４４及び４６のいずれかの適
切なものが、ブロック１３０で取り出された最後のデー
タ・ワードのバイト・シフト及び結合を実行して、最終
データ・ワードを形成し、ブロック１３４でこれが書き
込まれる。この後、プロセスはブロック１４０で終了す
る。

【００３７】上記の実施例の説明のように、複数レジス
タ命令を実行するための改善された方法及びシステムが
提供される。説明された方法及びシステムに従い、プロ
セッサは、単一命令を単一プロセッサ・サイクル内で複
数のレジスタに選択的に書き込んだり、複数のレジスタ
から選択的に読み取ったりできる。その結果、メモリと
の間でデータを転送する速度が著しく改善される。特定
の実施例を図示して説明したが、説明した実施例の技術
的思想と範囲から逸脱せずに、形式及び詳細について各
種の変更が可能であることは、当分野に知識をもつ当業
者には明かであろう。

【００３８】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００３９】（１）プロセッサ内で複数レジスタ命令を
処理する方法であって、前記プロセッサがレジスタのセ
ットを含み、前記セット内の各前記レジスタがデータ・
ワードを保管可能であり、（ａ）前記レジスタのセット
内の対応する複数のレジスタに書き込まれる複数のデー
タ・ワードを指定する複数レジスタ命令をディスパッチ
するステップと、（ｂ）前記プロセッサの単一サイクル
内で、前記複数のデータ・ワード内の少なくとも２つの
データ・ワードを前記複数のレジスタ内の少なくとも２
つの対応するレジスタに書き込む前記複数レジスタ命令
を、前記複数レジスタ命令のディスパッチに応答して実
行するステップと、を含む方法。（２）前記プロセッサが自身に関連付けられたメモリを
有し、前記複数レジスタ命令が複数レジスタ・ロード命
令を含み、前記メモリ内の連続する位置から前記少なく
とも２つのデータ・ワードが、前記少なくとも２つの対
応するレジスタに書き込まれる、（１）に記載の方法。（３）前記複数レジスタ・ロード命令が、前記メモリ内
の複数の連続する位置から前記複数のデータ・ワードを
ロードする複数レジスタ・ロード・ストリング命令を含
み、前記複数の連続する位置の第１の位置が非位置合わ
せアドレスを有する、（２）に記載の方法。（４）前記複数レジスタ命令を実行する前記ステップ
（ｂ）が、（ｃ）前記プロセッサの第１のサイクル内
に、前記メモリ内の少なくとも２つの連続する位置の内
容を取り出すステップと、（ｄ）前記プロセッサの第２
のサイクル内に、前記メモリの少なくとも２つの上記以
外の連続する位置の内容を取り出すステップと、（ｅ）
前記第１のサイクル内に取り出された前記内容を、前記
第２のサイクル内に取り出された前記内容と結合し、前
記少なくとも２つの対応するレジスタに書き込まれる前
記少なくとも２つのデータ・ワードを形成するステップ
と、を含む（３）に記載の方法。（５）プロセッサ内で複数レジスタ命令を処理する方法
であって、前記プロセッサが関連するメモリを有し、ま
た前記プロセッサがレジスタのセットを含み、前記セッ
ト内の各前記レジスタがデータ・ワードを保管可能であ
り、（ａ）前記レジスタのセット内の複数のレジスタか
ら前記メモリ内の対応する複数の位置に書き込まれる複
数のデータ・ワードを指定する、複数レジスタ・ストア
命令をディスパッチするステップと、（ｂ）前記プロセ
ッサの単一サイクル内で、前記複数のレジスタから前記
複数のデータ・ワードの少なくとも２つを前記メモリ内
の少なくとも２つの対応する位置に書き込む前記複数レ
ジスタ・ストア命令を、前記複数レジスタ命令のディス
パッチに応答して実行するステップと、を含む方法。（６）前記複数レジスタ・ストア命令が、前記メモリ内
の複数の連続する位置に前記複数のデータ・ワードを保
管する複数レジスタ・ストア・ストリング命令を含み、
前記複数の連続する位置の第１の位置が非位置合わせア
ドレスを有する、（５）に記載の方法。（７）前記複数レジスタ・ストア命令を実行する前記ス
テップ（ｂ）が、（ｃ）前記プロセッサの第１のサイク
ル内に、前記レジスタのセット内の少なくとも２つのレ
ジスタの内容を取り出すステップと、（ｄ）前記プロセ
ッサの第２のサイクル内に、前記レジスタのセット内の
少なくとも２つの上記以外のレジスタの内容を取り出す
ステップと、（ｅ）前記第１のサイクル内に取り出され
た前記内容を、前記第２のサイクル内に取り出された前
記内容と結合し、前記メモリ内の少なくとも２つの対応
する位置に書き込まれる前記少なくとも２つのデータ・
ワードを形成するステップと、を含む（６）に記載の方
法。（８）（ａ）それぞれがデータ・ワードを保管可能であ
るレジスタから成るレジスタのセットと、（ｂ）前記レ
ジスタのセット（ａ）内の対応する複数のレジスタに書
き込まれる複数のデータ・ワードを指定する複数レジス
タ命令の受信に応答し、プロセッサの単一サイクル内
に、前記複数のデータ・ワード内の少なくとも２つのデ
ータ・ワードを前記複数のレジスタ内の少なくとも２つ
の対応するレジスタに書き込む実行回路と、を含むプロ
セッサ。（９）前記プロセッサが自身に関連付けられたメモリを
有し、前記複数レジスタ命令が複数レジスタ・ロード命
令を含み、前記実行回路（ｂ）が、前記少なくとも２つ
のデータ・ワードを前記メモリ内の連続する位置から取
り出すアクセス回路を含む、（８）に記載のプロセッ
サ。（１０）前記複数レジスタ・ロード命令が、前記複数の
データ・ワードを前記メモリ内の複数の連続する位置か
らロードする複数レジスタ・ロード・ストリング命令を
含み、前記複数の連続する位置の第１の位置が非位置合
わせアドレスを有する、（９）に記載のプロセッサ。（１１）前記アクセス回路が、前記プロセッサの第１の
サイクル内に、前記メモリ内の少なくとも２つの連続す
る位置の内容を取り出し、また前記プロセッサの第２の
サイクル内に前記メモリの少なくとも２つの上記以外の
連続する位置の内容を取り出し、前記実行回路（ｂ）
が、前記第１のサイクル内に取り出された前記内容を前
記第２のサイクル内に取り出された前記内容と結合し、
前記少なくとも２つの対応するレジスタに書き込む前記
少なくとも２つのデータ・ワードを形成する結合回路を
更に含む、（１０）に記載のプロセッサ。（１２）自身に関連付けられたメモリを有するプロセッ
サであって、（ａ）それぞれがデータ・ワードを保管可
能であるレジスタから成るレジスタのセットと、（ｂ）
前記レジスタのセット（ａ）内の複数のレジスタから前
記メモリ内の対応する複数の位置に書き込まれる複数の
データ・ワードを指定する複数レジスタ命令の受信に応
答し、前記プロセッサの単一サイクル内に、前記複数の
レジスタから前記複数のデータ・ワードの少なくとも２
つを前記メモリ内の少なくとも２つの対応する位置に書
き込む実行回路と、を含むプロセッサ。（１３）前記複数レジスタ・ストア命令が、前記メモリ
内の複数の連続する位置に前記複数のデータ・ワードを
保管する複数レジスタ・ストア・ストリング命令を含
み、前記複数の連続する位置の第１の位置が非位置合わ
せアドレスを有する、（１２）に記載のプロセッサ。（１４）前記アクセス回路が、前記プロセッサの第１の
サイクル内に前記レジスタのセット内の少なくとも２つ
のレジスタの内容を取り出し、また前記プロセッサの第
２のサイクル内に前記レジスタのセットの少なくとも２
つの上記以外のレジスタの内容を取り出し、前記プロセ
ッサが、前記第１のサイクル内に取り出された前記内容
を前記第２のサイクル内に取り出された前記内容と結合
し、前記メモリ内の前記少なくとも２つの対応する位置
に書き込まれる前記少なくとも２つのデータ・ワードを
形成する結合回路を更に含む、（１３）に記載のプロセ
ッサ。

【図面の簡単な説明】

【図１】本発明の実施例に従った、情報処理のためのプ
ロセッサを示すブロック図である。

【図２】図１に示すプロセッサの、ロード及びストア実
行装置（ＬＳＵ）を示す詳細なブロック図である。

【図３】本発明の実施例に従った、複数レジスタ命令の
実行の手順を示す流れ図である。

【図４】オペランドがダブルワード合わせである複数レ
ジスタ命令の実行タイミングを示す図である。

【図５】オペランドがワード合わせである複数レジスタ
命令の実行タイミングを示す図である。

【図６】オペランドが非位置合わせである複数レジスタ
命令の実行タイミングを示す図である。

【符号の説明】

１０プロセッサ（図１）１５ロード・ストア装置（図２）２１システム・バス（図１）６４データ・バス（図２）６６アドレス・バス（図２）

───────────────────────────────────────────────────── フロントページの続き (71)出願人 594083818 モトローラ・インコーポレイテッドアメリカ合衆国60196、イリノイ州シャームバーク、イースト・アルゴンクイン・ロード1303、サ−ド・フロワー (72)発明者スームヤ・マリックアメリカ合衆国78759、テキサス州オースチン、パートリッジ・ベンド・ドライブ 13032 (72)発明者ラジェシュ・ビー・パテルアメリカ合衆国78758、テキサス州オースチン、シルク・オーク・コウブ 9313 (72)発明者アルバート・ジョン・ローパーアメリカ合衆国78613、テキサス州シーダー・パーク、ウォーレン・コウブ 1505 (72)発明者ロメシュ・エム・ジェサニアメリカ合衆国78728、テキサス州オースチン、キスマン・ドライブ 3419

Claims

【特許請求の範囲】

【請求項１】プロセッサ内で複数レジスタ命令を処理す
る方法であって、前記プロセッサがレジスタのセットを
含み、前記セット内の各前記レジスタがデータ・ワード
を保管可能であり、（ａ）前記レジスタのセット内の対
応する複数のレジスタに書き込まれる複数のデータ・ワ
ードを指定する複数レジスタ命令をディスパッチするス
テップと、（ｂ）前記プロセッサの単一サイクル内で、
前記複数のデータ・ワード内の少なくとも２つのデータ
・ワードを前記複数のレジスタ内の少なくとも２つの対
応するレジスタに書き込む前記複数レジスタ命令を、前
記複数レジスタ命令のディスパッチに応答して実行する
ステップと、を含む方法。
【請求項２】前記プロセッサが自身に関連付けられたメ
モリを有し、前記複数レジスタ命令が複数レジスタ・ロ
ード命令を含み、前記メモリ内の連続する位置から前記
少なくとも２つのデータ・ワードが、前記少なくとも２
つの対応するレジスタに書き込まれる、請求項１に記載
の方法。
【請求項３】前記複数レジスタ・ロード命令が、前記メ
モリ内の複数の連続する位置から前記複数のデータ・ワ
ードをロードする複数レジスタ・ロード・ストリング命
令を含み、前記複数の連続する位置の第１の位置が非位
置合わせアドレスを有する、請求項２に記載の方法。
【請求項４】前記複数レジスタ命令を実行する前記ステ
ップ（ｂ）が、（ｃ）前記プロセッサの第１のサイクル
内に、前記メモリ内の少なくとも２つの連続する位置の
内容を取り出すステップと、（ｄ）前記プロセッサの第
２のサイクル内に、前記メモリの少なくとも２つの上記
以外の連続する位置の内容を取り出すステップと、
（ｅ）前記第１のサイクル内に取り出された前記内容
を、前記第２のサイクル内に取り出された前記内容と結
合し、前記少なくとも２つの対応するレジスタに書き込
まれる前記少なくとも２つのデータ・ワードを形成する
ステップと、を含む請求項３に記載の方法。
【請求項５】プロセッサ内で複数レジスタ命令を処理す
る方法であって、前記プロセッサが関連するメモリを有
し、また前記プロセッサがレジスタのセットを含み、前
記セット内の各前記レジスタがデータ・ワードを保管可
能であり、（ａ）前記レジスタのセット内の複数のレジ
スタから前記メモリ内の対応する複数の位置に書き込ま
れる複数のデータ・ワードを指定する、複数レジスタ・
ストア命令をディスパッチするステップと、（ｂ）前記
プロセッサの単一サイクル内で、前記複数のレジスタか
ら前記複数のデータ・ワードの少なくとも２つを前記メ
モリ内の少なくとも２つの対応する位置に書き込む前記
複数レジスタ・ストア命令を、前記複数レジスタ命令の
ディスパッチに応答して実行するステップと、を含む方
法。
【請求項６】前記複数レジスタ・ストア命令が、前記メ
モリ内の複数の連続する位置に前記複数のデータ・ワー
ドを保管する複数レジスタ・ストア・ストリング命令を
含み、前記複数の連続する位置の第１の位置が非位置合
わせアドレスを有する、請求項５に記載の方法。
【請求項７】前記複数レジスタ・ストア命令を実行する
前記ステップ（ｂ）が、（ｃ）前記プロセッサの第１の
サイクル内に、前記レジスタのセット内の少なくとも２
つのレジスタの内容を取り出すステップと、（ｄ）前記
プロセッサの第２のサイクル内に、前記レジスタのセッ
ト内の少なくとも２つの上記以外のレジスタの内容を取
り出すステップと、（ｅ）前記第１のサイクル内に取り
出された前記内容を、前記第２のサイクル内に取り出さ
れた前記内容と結合し、前記メモリ内の少なくとも２つ
の対応する位置に書き込まれる前記少なくとも２つのデ
ータ・ワードを形成するステップと、を含む請求項６に
記載の方法。
【請求項８】（ａ）それぞれがデータ・ワードを保管可
能であるレジスタから成るレジスタのセットと、（ｂ）
前記レジスタのセット（ａ）内の対応する複数のレジス
タに書き込まれる複数のデータ・ワードを指定する複数
レジスタ命令の受信に応答し、プロセッサの単一サイク
ル内に、前記複数のデータ・ワード内の少なくとも２つ
のデータ・ワードを前記複数のレジスタ内の少なくとも
２つの対応するレジスタに書き込む実行回路と、を含む
プロセッサ。
【請求項９】前記プロセッサが自身に関連付けられたメ
モリを有し、前記複数レジスタ命令が複数レジスタ・ロ
ード命令を含み、前記実行回路（ｂ）が、前記少なくと
も２つのデータ・ワードを前記メモリ内の連続する位置
から取り出すアクセス回路を含む、請求項８に記載のプ
ロセッサ。
【請求項１０】前記複数レジスタ・ロード命令が、前記
複数のデータ・ワードを前記メモリ内の複数の連続する
位置からロードする複数レジスタ・ロード・ストリング
命令を含み、前記複数の連続する位置の第１の位置が非
位置合わせアドレスを有する、請求項９に記載のプロセ
ッサ。
【請求項１１】前記アクセス回路が、前記プロセッサの
第１のサイクル内に、前記メモリ内の少なくとも２つの
連続する位置の内容を取り出し、また前記プロセッサの
第２のサイクル内に前記メモリの少なくとも２つの上記
以外の連続する位置の内容を取り出し、前記実行回路
（ｂ）が、前記第１のサイクル内に取り出された前記内
容を前記第２のサイクル内に取り出された前記内容と結
合し、前記少なくとも２つの対応するレジスタに書き込
む前記少なくとも２つのデータ・ワードを形成する結合
回路を更に含む、請求項１０に記載のプロセッサ。
【請求項１２】自身に関連付けられたメモリを有するプ
ロセッサであって、（ａ）それぞれがデータ・ワードを
保管可能であるレジスタから成るレジスタのセットと、
（ｂ）前記レジスタのセット（ａ）内の複数のレジスタ
から前記メモリ内の対応する複数の位置に書き込まれる
複数のデータ・ワードを指定する複数レジスタ命令の受
信に応答し、前記プロセッサの単一サイクル内に、前記
複数のレジスタから前記複数のデータ・ワードの少なく
とも２つを前記メモリ内の少なくとも２つの対応する位
置に書き込む実行回路と、を含むプロセッサ。
【請求項１３】前記複数レジスタ・ストア命令が、前記
メモリ内の複数の連続する位置に前記複数のデータ・ワ
ードを保管する複数レジスタ・ストア・ストリング命令
を含み、前記複数の連続する位置の第１の位置が非位置
合わせアドレスを有する、請求項１２に記載のプロセッ
サ。
【請求項１４】前記アクセス回路が、前記プロセッサの
第１のサイクル内に前記レジスタのセット内の少なくと
も２つのレジスタの内容を取り出し、また前記プロセッ
サの第２のサイクル内に前記レジスタのセットの少なく
とも２つの上記以外のレジスタの内容を取り出し、前記
プロセッサが、前記第１のサイクル内に取り出された前
記内容を前記第２のサイクル内に取り出された前記内容
と結合し、前記メモリ内の前記少なくとも２つの対応す
る位置に書き込まれる前記少なくとも２つのデータ・ワ
ードを形成する結合回路を更に含む、請求項１３に記載
のプロセッサ。