JP2003526155A

JP2003526155A - 配列境界をチェックする能力を有する処理アーキテクチャ

Info

Publication number: JP2003526155A
Application number: JP2001564993A
Authority: JP
Inventors: アシュリーソウルズバリー，
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 2000-03-08
Filing date: 2001-03-08
Publication date: 2003-09-02
Also published as: HK1048538A1; HK1048538B; US6892295B2; DE60115609T2; US20020029332A1; KR20030016234A; EP1261914B1; AU2001245519A1; WO2001067238A1; DE60115609D1; EP1261914A1

Abstract

(57)【要約】本発明による、要素の配列に関連したデータを処理する方法を開示する。一実施形態において、要素の配列に関連したデータを処理する方法を開示する。上記プロセスにおいて、第１の値は第１の位置からロードされ、第２の値は第２の位置からロードされる。上記第１および上記第２の値は相互に比較される。必要に応じて、該比較する工程に基づいて、所定の値を宛先に格納する。所定の値は、必要に応じて、上記比較結果に基づいて宛先に格納される。上記第１の位置および第２の位置はソースレジスタであり、上記宛先は宛先レジスタである

Description

【発明の詳細な説明】

【０００１】本願は、２０００年３月８日に出願された米国仮出願第６０／１８７，７３９
号の利益を主張する。

【０００２】（関連出願との相互参照）本願を、「ＶＬＩＷＣｏｍｐｕｔｅｒＰｒｏｃｅｓｓｉｎｇＡｒｃｈｉ
ｔｅｃｔｕｒｅｗｉｔｈＯｎ−ｃｈｉｐＤＲＡＭＵｓａｂｌｅａｓ
ＰｈｙｓｉｃａｌＭｅｍｏｒｙｏｒＣａｃｈｅＭｅｍｏｒｙ」という名
称の代理人ドケット番号０１６７４７−００９９１、「ＶＬＩＷＣｏｍｐｕｔ
ｅｒＰｒｏｃｅｓｓｉｎｇＡｒｃｈｉｔｅｃｔｕｒｅＨａｖｉｎｇａ
ＳｃａｌａｂｌｅＮｕｍｂｅｒｏｆＲｅｇｉｓｔｅｒＦｉｌｅｓ」とい
う名称の代理人ドケット番号０１６７４７−０１００１、「Ｃｏｍｐｕｔｅｒ
ＰｒｏｃｅｓｓｉｎｇＡｒｃｈｉｔｅｃｔｕｒｅＨａｖｉｎｇａＳｃａ
ｌａｂｌｅＮｕｍｂｅｒｏｆＰｒｏｃｅｓｓｉｎｇＰａｔｈｓａｎｄ
Ｐｉｐｅｌｉｎｅｓ」という名称の代理人ドケット番号０１６７４７−０１７
８０、「ＶＬＩＷＣｏｍｐｕｔｅｒＰｒｏｃｅｓｓｉｎｇＡｒｃｈｉｔｅ
ｃｔｕｒｅｗｉｔｈＯｎ−ｃｈｉｐＤｙｎａｍｉｃＲＡＭ」という名称
の代理人ドケット番号０１６７４７−０１０５１、「ＣｏｍｐｕｔｅｒＰｒｏ
ｃｅｓｓｉｎｇＡｒｃｈｉｔｅｃｔｕｒｅＨａｖｉｎｇｔｈｅＰｒｏｇ
ｒａｍＣｏｕｎｔｅｒＳｔｏｒｅｄｉｎａＲｅｇｉｓｔｅｒＦｉｌ
ｅＲｅｇｉｓｔｅｒ」という名称の代理人ドケット番号０１６７４７−０１２
１１、「ＰｒｏｃｅｓｓｉｎｇＡｒｃｈｉｔｅｃｔｕｒｅＨａｖｉｎｇＰ
ａｒａｌｌｅｌＡｒｉｔｈｍｅｔｉｃＣａｐａｂｉｌｉｔｙ」という名称の
代理人ドケット番号０１６７４７−０１４６１、「ＰｒｏｃｅｓｓｉｎｇＡｒ
ｃｈｉｔｅｃｔｕｒｅＨａｖｉｎｇａｎＡｒｒａｙＢｏｕｎｄｓＣｈ
ｅｃｋＣａｐａｂｉｌｉｔｙ」という名称の代理人ドケット番号０１６７４７
−０１４８１、「ＰｒｏｃｅｓｓｉｎｇＡｒｃｈｉｔｅｃｔｕｒｅＨａｖｉ
ｎｇａＭａｔｒｉｘＴｒａｎｓｐｏｓｅＣａｐａｂｉｌｉｔｙ」という
名称の代理人ドケット番号０１６７４７−０１５２１、および「Ｐｒｏｃｅｓｓ
ｉｎｇＡｒｃｈｉｔｅｃｔｕｒｅＨａｖｉｎｇａＣｏｍｐａｒｅＣａ
ｐａｂｉｌｉｔｙ」という名称の代理人ドケット番号０１６７４７−０１５３１
の関連の米国特許出願と同時に出願する。これらの文献はすべて本明細書におい
て参考として援用される。

【０００３】（発明の背景）本発明は概して、向上したコンピュータ処理命令セットに関し、具体的には、
配列境界をチェックする能力を有する命令セットに関する。

【０００４】コンピュータアーキテクチャの設計者は、コンピュータプロセッサの速度およ
び効率を絶えず上げようとしている。例えば、コンピュータアーキテクチャの設
計者は、クロック速度を上げて、データの先取りおよびキャッシュメモリなどの
待ち時間を隠す技術を試みることによって、処理速度を上げようと試みてきた。
さらに、ＶＬＩＷを用いた命令レベルの並列処理、複数の発行スーパースカラー
、純理論的な実行、スコアボーディングおよびパイプライン化などの他の技術を
用いて、さらに性能が高まり、クロックサイクルごとに発行される命令（ＩＰＣ
）の数が増加する。

【０００５】命令レベルの並列処理によりその性能を得るアーキテクチャは、コンピュータ
アーキテクチャフィールドにおいて増え続ける傾向にあるようである。命令レベ
ルの並列処理を用いるアーキテクチャの例は、シングルインストラクションマル
チプルデータ（ＳＩＭＤ）アーキテクチャ、マルチプルインストラクションマル
チプルデータ（ＭＩＭＤ）アーキテクチャ、ベクトルまたは配列処理、および超
長命令ワード（ＶＬＩＷ）の技術を含む。これらのうちで、ＶＬＩＷは汎用目的
の演算に最も適していると考えられる。しかし、他の技術を介して、命令レベル
の並列処理をさらに達成する必要がある。

【０００６】Ｊａｖａ^ＴＭなどの特定のプログラミング言語は、境界付けられた配列のイン
デックス付けを広範囲にわたって用いる。しかし、配列アクセスを実行する前に
配列をチェックするには多くの命令が必要であり、これによりコードの効率が落
ちる。図１を参照すると、配列をチェックし、そしてこれにアクセスする従来の
方法の流れ図が示されている。工程１００、１０４および１０８において、３つ
のチェックが３つの別個のブランチにおいて実行される。これらのチェックのう
ちのいずれかが失敗すると、キャッチコードルーチンが工程１１２において実行
される。しかし、これらのチェックのうちのどれも失敗しなければ、工程１１６
、１１８および１２０において、インデックスのメモリオフセットが演算されて
、配列値がロードされる。理解され得るように、このように配列をチェックしそ
してこれにアクセスするには多くの命令が必要である。

【０００７】ＶＬＩＷプロセッサは所定のブランチの下位命令を並列に実行し得るが、従来
のＶＬＩＷ実現に関して問題がある。以下にさらに説明するように、個々の下位
命令を実行する処理パスは限られた能力しか有さない。例えば、各処理パスは、
あるブランチの下位命令を処理する能力を有し得ない。スケジューリング機構は
、あるブランチの下位命令を実行し得る処理パスに下位命令をルーチングするこ
とに依存する。したがって、ＶＬＩＷ実現は、異なる命令ワードで異なる時点に
このブランチの下位命令を実行し得る。

【０００８】さらに、ブランチの下位命令を実行する間のストール（ｓｔａｌｌ）を回避す
るには、このブランチの下位命令に従うブランチに従属しない下位命令が必要で
ある。ブランチの下位命令が同じ命令ワードの一部ではない場合、ストールを回
避することが困難になることを当業者は理解する。したがって、配列チェックお
よび配列アクセスを実行する向上した方法が必要である。

【０００９】（発明の要旨）本発明は、コード効率を上げる方法で配列の境界チェックを実行する。一実施
形態において、要素の配列に関連したデータを処理する方法を開示する。上記プ
ロセスにおいて、第１の値は第１の位置からロードされ、第２の値は第２の位置
からロードされる。上記第１および上記第２の値は相互に比較される。所定の値
は、必要に応じて、上記比較結果に基づいて宛先に格納される。

【００１０】本発明のより完全な理解は、好適な実施形態の詳細な説明および特許請求の範
囲を、図面と共に参照することによって得られ得る。全図面を通して、同様の参
照符号は同様のアイテムを示す。

【００１１】（特定の実施形態の説明）（導入）本発明は、コード効率を上げる方法で配列の境界チェックを実行する命令を有
するコンピュータプロセッサチップを提供する。境界チェックが失敗すると、ブ
ランチコードが実行され、いかなる問題も解決する。当業者であれば理解するよ
うに、命令の能力を上げると、クロックサイクルごとに発行される命令（ＩＰＣ
）が増加する。例えば、双方向ＶＬＩＷプロセッサの２つの命令ワードで配列を
チェックして、これにアクセスし得る。これは、従来の方法より相当効率的であ
る。

【００１２】図面中、同様の構成要素および／または特徴は同じ参照符号を有し得る。さら
に、同じ種類の種々の構成要素を、参照符号に、ダッシュおよび同様の構成要素
を区別する第２の符号を続けることによって識別する。本明細書において第１の
参照符号のみが用いられている場合、説明は、第２の符号を有する同様の構成要
素のうちのいずれか１つに適用可能である。

【００１３】（プロセッサの概略）図２を参照すると、本発明を実現するプロセッサチップ１０が示されている。
特に、プロセッサチップ１０は、処理コア１２、複数のメモリバンク１４、メモ
リ制御器２０、分散型共有メモリ制御器２２、外部メモリインターフェース２４
、高速Ｉ／Ｏリンク２６、ブートインターフェース２８、および診断インターフ
ェース３０を含む。

【００１４】以下により詳細に説明するように、処理コア１２は、単一の処理パイプライン
または複数の処理パイプラインとして構成され得る拡張可能なＶＬＩＷ処理コア
を含む。処理パイプライン数は通常、特定のアプリケーションに必要な処理能力
の機能になる。例えば、個人用ワークステーションのプロセッサは通常、スーパ
ーコンピューティングシステムにおいて必要なパイプラインより少ないパイプラ
インを必要とする。

【００１５】処理コア１２に加えて、プロセッサチップ１０は１つ以上のメモリバンク１４
を含む。図２に示すように、任意の数のメモリバンクをプロセッサチップ１０上
に配置し得る。当業者であれば理解するように、チップ１０上に構成されたメモ
リ１４の量は現在のシリコン処理技術によって制限される。トランジスタおよび
ラインのジオメトリが減少すると、プロセッサチップ１０上に配置され得る全メ
モリ量が増加する。

【００１６】処理コア１２とメモリ１４との間に接続されているのはメモリ制御器２０であ
る。メモリ制御器２０は処理コア１２およびメモリ１４と通信し、処理コア１２
から、ならびに他のプロセッサおよびＩ／Ｏデバイスから、メモリ１４へのメモ
リＩ／Ｏ要求を処理する。メモリ制御器２０に接続されているのは、分散型共有
メモリ（ＤＳＭ）制御器２２であり、これは、処理コア１２から他のプロセッサ
チップおよび／またはＩ／Ｏ周辺デバイスなどのオフチップデバイスへのＩ／Ｏ
要求およびデータメッセージを制御およびルーチングする。さらに、以下により
詳細に説明するように、オフチップデバイスからＩ／Ｏ要求およびデータメッセ
ージを受信して、メモリ１４または処理コア１２にアクセスするためのメモリ制
御器２０への要求およびメッセージをルーチングするように、ＤＳＭ制御器２２
を構成する。

【００１７】高速Ｉ／Ｏリンク２６はＤＳＭ制御器２２に接続される。本発明のこの局面に
よれば、ＤＳＭ制御器２２は、Ｉ／Ｏリンク２６を介して、他のプロセッサチッ
プおよびＩ／Ｏ周辺デバイスと通信する。例えば、ＤＳＭ制御器２２は、Ｉ／Ｏ
要求およびデータメッセージをＩ／Ｏリンク２６を介して他のデバイスに送信す
る。同様に、ＤＳＭ制御器２２は他のデバイスからリンクを介してＩ／Ｏ要求を
受信する。

【００１８】プロセッサチップ１０は、外部メモリインターフェース２４をさらに含む。外
部メモリインターフェース２４はメモリ制御器２０に接続されており、メモリ制
御器２０から外部メモリにメモリＩ／Ｏ要求を伝達するように構成されている。
最後に、簡単に上述したように、プロセッサチップ１０は、ブートインターフェ
ース２８および診断インターフェース３０をさらに含む。ブートインターフェー
ス２８は処理コア１２に接続されており、必要な場合、コールドブーティング処
理コア１２用のブートストラッププログラムを受信するように構成されている。
同様に、診断インターフェース３０も、処理コア１２に接続されており、診断を
目的とした処理コアへの外部アクセスを提供するように構成されている。

【００１９】（処理コア）（１．通常のコンフィギュレーション）簡単に上述したように、処理コア１２は、単一の処理パイプラインまたは複数
の処理パイプラインとして構成され得る、拡張可能なＶＬＩＷ処理コアを含む。
単一の処理パイプラインは、一度に１つの命令を処理する単一のパイプラインと
して機能し得るか、または単一のＶＬＩＷ命令ワード内の複数の下位命令を処理
する単一のＶＬＩＷパイプラインとして機能し得る。同様に、マルチパイプライ
ンの処理コアは、複数の自律処理コアとして機能し得る。これにより、オペレー
ティングシステムが、同期を取られたＶＬＩＷオペレーション、または並列のマ
ルチスレッドの実例の間で動的に選択することが可能になる。マルチスレッドモ
ードにおいて、ＶＬＩＷプロセッサは、並列で処理される複数のストランドを管
理する。

【００２０】本発明の一実施形態によれば、処理コア１２が、同期を取られたＶＬＩＷオペ
レーションモードで動作する場合、アプリケーションプログラムのコンパイラは
通常、共に付加された複数の下位命令を含むＶＬＩＷ命令ワードを生成し、この
ＶＬＩＷ命令ワードは次いで、処理コア１２によって並列に処理される。ＶＬＩ
Ｗ命令ワード内の下位命令の数は、処理コアのパイプライン内で利用可能な処理
パスの総数と一致する。したがって、各処理パスは、すべての下位命令が並列に
処理されるように、ＶＬＩＷ下位命令を処理する。本発明のこの特定の局面によ
れば、この実施形態において、ＶＬＩＷ命令ワード内の下位命令は共に発行する
。したがって、処理パスのうちの１つがストールすると、すべての下位命令は、
すべての処理パスがクリアになるまでストールする。次いで、ＶＬＩＷ命令ワー
ド内のすべての下位命令が同時に発行する。当業者であれば、下位命令が同時に
発行しても、異なる種類の命令が異なる処理の待ち時間を有し得るため、下位命
令それぞれの処理が異なる回数またはクロックサイクルで完了し得ることを理解
する。

【００２１】本発明の別の実施形態によれば、マルチパイプラインの処理コアが並列のマル
チスレッドモードで動作する場合、プログラム下位命令はＶＬＩＷ命令ワード内
で必ずしも共に繋がれていない。したがって、命令が命令キャッシュから取り出
される場合、オペレーティングシステムは、どのパイプラインがストランドの各
下位命令を処理するかを決定する。したがって、この特定のコンフィギュレーシ
ョンを用いると、各パイプラインは、独立したプロセッサとして働き得、他のパ
イプライン内のストランドから独立したストランドを処理する。さらに、本発明
の一実施形態によれば、マルチスレッドモードを用いることによって、２つの別
個のブロックのデータを用いた同じプログラム下位命令を、２つの別個のパイプ
ラインによって同時に処理し得る。したがって、耐故障性の処理コアが得られる
。本明細書における説明の残りは、同期が取られたＶＬＩＷオペレーションモー
ドに関する。しかし、本発明はこの特定のコンフィギュレーションに限定されな
い。

【００２２】（２．超長命令ワード（ＶＬＩＷ））ここで図３を参照すると、４つの処理パス５６−１〜５６−４を有する、ＶＬ
ＩＷ処理コアパイプライン５０の簡単なブロック図が示されている。例示の実施
形態によれば、ＶＬＩＷ５２は、単一の命令ワード内に共に付加されているＲＩ
ＳＣのような下位命令５４−１、５４−２、５４−３および５４−４を４つ含む
。例えば、１２８ビットの命令ワードは４つの３２ビットの下位命令に分割され
る。ＶＬＩＷ下位命令５４の数は、処理コアパイプライン５０内の処理パス５６
の数に対応する。したがって、例示の実施形態が４つの下位命令５４および４つ
の処理パス５６を示す一方、当業者は、パイプライン５０が任意の数の下位命令
５４および処理パス５６を含み得ることを理解する。しかし、通常、下位命令５
４および処理パス５６の数は２の累乗である。

【００２３】この実施形態における各下位命令５４は、パイプライン５０内の特定の処理パ
ス５６と直接対応する。下位命令５４はそれぞれ、同様のフォーマットであり、
１つ以上の関連したレジスタファイル６０上で動作する。例えば、４つすべての
下位命令５４が同じレジスタファイルにアクセスするように処理コアパイプライ
ン５０を構成してもよいし、または複数のレジスタファイル６０を有するように
処理コアパイプライン５０を構成してもよい。本発明の例示の実施形態によれば
、下位命令５４−１および５４−２はレジスタファイル６０−１にアクセスし、
下位命令５４−３および５４−４はレジスタファイル６０−２にアクセスする。
当業者であれば理解するように、このようなコンフィギュレーションは、処理コ
アの性能を向上させることを支援し得る。

【００２４】図３に示すように、処理コアパイプライン５０内の命令復号および発行論理ス
テージ５８は、ＶＬＩＷ命令ワード５２を受信し、下位命令５４を復号して、適
切な処理パス５６に下位命令５４を発行する。次いで、下位命令５４はそれぞれ
、パイプライン５０の実行ステージに伝わる。パイプライン５０は、各処理パス
５６に対して関数装置または実行装置６２を含む。各関数装置または実行装置６
２は、整数処理装置６４、ロード／格納処理装置６６、浮動小数点処理装置６８
、または上述のいずれかまたはすべての組み合わせを含み得る。例えば、図３に
示す特定の実施形態によれば、実行装置６２−１は整数処理装置６４−１および
浮動小数点処理装置６８を含み、実行装置６２−２は整数処理装置６４−２およ
びロード／格納処理装置６６−１を含み、実行装置６２−３は整数処理装置６４
−３およびロード／格納装置６６−２を含み、実行装置６２−４は整数装置６４
−４のみを含む。

【００２５】当業者であれば理解するように、ロード依存、格納依存およびライトバック依
存などの不必要な待ち時間の問題を回避するために、ＶＬＩＷ命令ワード５２内
の下位命令のスケジューリングおよびプログラム内のＶＬＩＷ命令ワードの順序
のスケジューリングは重要である。本発明の一実施形態によれば、スケジューリ
ングの責任は主に、アプリケーションプログラムのソフトウェアコンパイラに委
ねられる。したがって、不必要に複雑なスケジューリング論理は処理コアから排
除され、これにより、処理コアの設計の実現が可能な限り簡単に行われる。した
がって、コンパイラ技術が進化した結果、ハードウェアを再度設計することなく
性能が向上した。さらに、所定の特定の処理コアの実現は、特定の種類の命令を
特定のパイプラインスロットまたはパス内でのみ実行して、所与のデバイスの全
体的な複雑さを減少させることが好ましいかまたは必要であり得る。例えば、図
３に示す実施形態によれば、処理パス５６−１、そして特に実行装置６２−１し
か浮動少数点処理装置６８を含まないため、すべての浮動少数点下位命令は、パ
ス５６−１を介してディスパッチされる。上述したように、この実施形態におい
て、コンパイラはこのような発行制限を処理することを担う。

【００２６】本発明の一実施形態によれば、ＶＬＩＷ命令ワード５２内のすべての下位命令
５４は並列に発行する。例えば、利用不可能なリソースに起因して、下位命令５
４のうちの１つがストールした（すなわち、発行しない）場合、すべてのＶＬＩ
Ｗ命令ワード５２は特定のストールされた下位命令５４が発行するまでストール
する。ＶＬＩＷ命令ワード５２内のすべての下位命令が同時に発行することを保
証することによって、実現論理は動的に簡略化される。

【００２７】（３．データタイプ）プロセッサチップ内のレジスタは種々のデータタイプで構成されている。種々
のデータタイプを有することによって、異なるデータフォーマットがレジスタ内
で保持され得る。例えば、符号付き整数値、符号なし整数値、単精度浮動少数点
値、および倍精度浮動少数点値に関連付けられた異なるデータタイプがあり得る
。さらに、レジスタは、別個のフィールド内に複数の値を保持するように、細分
化または分割され得る。これらの細分化されたレジスタは、シングルインストラ
クションマルチプルデータ（ＳＩＭＤ）命令によって動作される。

【００２８】図４を参照すると、下位命令に利用可能なデータタイプのいくつかが示されて
いる。複数の異なるデータタイプがあるが、所与の下位命令５４のみがこれらの
サブセットを用い得る。例えば、境界チェックオペレーションのこの実施形態は
、オペランドを１つのみ保持する種々の分割されていないデータタイプ４００、
４０４しか用いていない。しかし、境界チェック関数の他の実施形態は、分割さ
れたデータタイプを用い得る。この実施形態において、境界チェック関数は、６
４ビット幅で符号なしであり、符号なしの６４個のデータタイプ４００に対応す
るオペランドを用いる。当業者であれば理解するように、他の可能なデータタイ
プがあり、本発明は図４に示すデータタイプに限定されない。

【００２９】（４．境界チェック命令）次に図５を参照すると、境界チェック下位命令（「ＢＣＨＫ」）５００のマシ
ーンコードが示されている。下位命令アドレス指定フォームのこの変形は概して
、レジスタアドレス指定フォーム５００として呼ばれる。下位命令５００は３２
ビット幅であり、これにより、１２８ビット幅の命令ワード５２を備えた４方向
ＶＬＩＷプロセッサが、同時に４つの下位命令５００の実行を適応し得る。下位
命令５００は、アドレス部分５０４およびＯＰコード部分５０８に分けられる。
通常、アドレス部分５０４は、オペレータをロードおよび格納するために必要な
情報を含み、ＯＰコード部分５０８は、オペレータにどの関数を実行するかを示
す。

【００３０】下位命令のレジスタアドレス指定フォーム５００は３つのレジスタを用いる。
第１のソースアドレス５１２および第２のソースアドレス５１６は用いられて、
第１のオペランドおよび第２のオペランドそれぞれを登録する第１のソースレジ
スタおよび第２のソースレジスタをロードする。宛先アドレス５２０は用いられ
て、宛先レジスタ内のどこに結果を格納するかを示す。各レジスタ５１２、５１
６、５２０が６ビットでアドレス指定されるため、オンチップレジスタファイル
６０内で６４個のレジスタが可能である。この実施形態において、すべてのロー
ドおよび格納は、オンチップレジスタファイル６０を用いて実行される。しかし
、他の実施形態によって、処理コア１２の外部でレジスタをアドレス指定するこ
とが可能になり得る。下位命令のレジスタフォーム５００のビット３１−１８は
ＯＰコード５０８であり、ＯＰコード５０８は処理コア１２によって用いられて
下位命令５４を実行する。種々の下位命令タイプは、ＯＰコード５０８に供され
る異なる量のビットを有する。

【００３１】通常、コンパイラは用いられて、アセンブリ言語またはより高いレベルの言語
を、ＯＰコードを含むマシーンコードに変換する。当業者によって理解されるよ
うに、ＯＰコードはマルチプレクサ、他の組み合わせ論理およびレジスタを制御
して、所定の関数を実行する。さらに、当業者であれば理解するように、ＯＰコ
ードを実現する多くの異なる方法があり得る。

【００３２】（５．境界チェック実現）図６を参照すると、境界チェック関数の一実施形態のブロック図が示されてい
る。この実施形態において、境界チェック関数は、第１のソースレジスタ６００
、第２のソースレジスタ６０４、命令プロセッサ６０８、および宛先レジスタ６
１２を含む。第１のソースレジスタ６００は第１のオペランドを含み、第２のソ
ースレジスタ６０４は第２のオペランドを含む。この実施形態において、ソース
レジスタおよび宛先レジスタはそれぞれ、符号なしの６４個のデータタイプ４０
０を用いる。

【００３３】命令プロセッサ６０８は境界チェック関数を実行する。上述したように、下位
命令のＯＰコードは、どのオペランドが命令プロセッサ６０８内にロードされる
か、およびいかにオペランドが処理されるかを制御する。処理は、各ソースレジ
スタ６００、６０４からオペランドをロードすることによって開始する。処理が
完了した後、結果が宛先レジスタ６１２内に格納される。以下にさらに説明する
ように、命令プロセッサ６０８は、ソースオペランドの分析に基づいて、宛先レ
ジスタに無効な値を書き込むかまたは何も行わない。図示はしないが、当業者で
あれば、レジスタファイル６０内の種々のレジスタを選択して、ソースオペラン
ドおよび宛先の結果を保持することを可能にする回路部があることを理解する。

【００３４】境界チェック関数を理解するために、配列操作に用いる用語を説明する。配列
は、連続した順序で構成されている同様の要素の線形リストであり、リストにお
いて、インデックスを用いて配列内の種々の要素を指す。さらに、具体的には、
配列は、配列インデックス（「Ｉ」）（０からＮ−１）に配置されている複数の
要素（「Ｎ」）を含む。但し、配列長もＮに等しい。ベースアドレス（「Ｍ」）
は、メモリ内のどこに配列が格納されるかを示す。配列要素がバイトでメモリ内
に格納されるため、１バイトより大きい幅を有する配列要素は複数のメモリバイ
トを占め得る。この環境下においてインデックス付き要素のアドレスを決定する
ために、アドレスオフセットが計算されて、ベースアドレスに加算される。例え
ば、配列要素が６４ビット幅である場合、各配列要素のワードに８バイトのメモ
リが必要である。ベースアドレス（Ｍ）が６４に等しく、インデックス（Ｉ）が
３に等しい場合、インデックス付き要素のアドレス（すなわち、インデックスア
ドレス）は６４に８の３倍を加算した値、すなわち８８（Ｍ＋８Ｉ）である。当
業者であれば理解するように、配列インデックス、配列サイズおよびアドレスオ
フセットは通常、正の整数である。

【００３５】境界チェック下位命令（「ＢＣＨＫ」）は、配列インデックスおよび配列長上
で動作して、配列インデックス値が有効であるか否かを判定する。配列インデッ
クスは、０以上であり、かつ、配列長より小さい場合に有効である。ＢＣＨＫ下
位命令において、第１のオペランドは配列長の値であり、第２のオペランドは配
列インデックス値である。

【００３６】有効な配列に関して、ベースアドレスも有効である必要がある。理解され得る
ように、メモリ空間内に無効あるいは予備の特定のアドレスがある。例えば、０
のアドレスは無効なベースアドレスである。

【００３７】次に図７を参照すると、図６の命令プロセッサ６０８をより詳細に示す処理コ
アの一部のブロック図が示されている。命令プロセッサ６０８は、オペランド比
較関数７００、判定論理７０８およびフラグ格納関数７１２を含む。これらのブ
ロックは、一斉に働いて、境界チェック関数を実行する。当業者であれば、デー
タタイプが符号なしの６４個のデータタイプ４００であるため、第２のオペラン
ドまたは配列インデックスが０以上であるか否かを判定することがこの実施形態
において不必要であることを理解し得る。定義上、符号なしの値は０以上である
。

【００３８】オペランド比較関数７００は、第２のオペランドまたは配列インデックスが第
１のオペランドまたは配列長より小さいか否かを判定する。当業者であれば知っ
ているように、この関数を実現する多くの方法がある。例えば、オペランド比較
関数７００は、配列インデックスから配列長を減算し得る。負の結果は、配列イ
ンデックスが配列長より小さいことを示す。

【００３９】配列長が配列インデックスから減算された後、判定論理７０８が結果が負であ
るか否かを判定する。負の数は、配列インデックスが配列長より小さいことを示
す。さらに、負の数はインデックスが有効であることを意味する。インデックス
が有効である場合、下位命令は下位命令にノーオペレーション（すなわち、「ｎ
ｏｏｐ」）を効果的に実行させるために他のアクションを必要としない。しか
し、インデックスが無効である場合、信号はインデックスが無効であることを示
すフラグ格納関数７１２に送信される。

【００４０】フラグ格納関数７１２が判定論理７０８からインデックスが無効だという通知
を受信すると、格納関数は、無効のベースアドレスを宛先レジスタ６１２に書き
込む。上述したように、無効なメモリアドレス、例えば、０のアドレスを指すベ
ースアドレスがある。この実施形態において、判定論理７０８が配列インデック
スが無効であると判定した場合、０の無効なベースアドレスが宛先レジスタ６１
２に書き込まれる。

【００４１】図８を参照すると、配列を確認し、この配列へのアクセスを実行する１方法の
一実施形態を示す流れ図が示されている。インデックスまたはベースアドレスが
無効であると判定されると、無条件トラップが実行される。あるいは、インデッ
クスアドレスが計算されて、この場所における要素がロードされる。

【００４２】工程８００および８０４において、配列要素をロードする前に配列がチェック
される。工程８００において、配列インデックス値がチェックされて、配列イン
デックス値が０以上であり、かつ、配列長より小さいか否かを判定する。この工
程は、１つの境界チェック下位命令（「ＢＣＨＫ」）によって実行される。イン
デックスが有効であると判定されると、工程８０４において、ベースアドレスに
さらなる検証判定が行われる。ベースアドレスは、これが０などの１つ以上の不
正アドレスを指す場合に無効である。

【００４３】上述の工程が配列インデックス値およびベースレジスタが有効であると判定し
た後、インデックス付けされた配列要素がロードされる。まず、工程８０８にお
いて、アドレスオフセットが演算される。例えば、配列要素が８バイト幅である
場合、配列インデックスに８が乗算されて、アドレスオフセットを決定する。次
に、工程８１２において、インデックスアドレスが、ベースアドレスにアドレス
オフセットを加算することによって決定される。インデックスアドレスが得られ
た後、工程８１６において、配列要素がロードされる。

【００４４】工程８００および８０４において、配列インデックスまたはベースアドレスの
いずれかが無効であると判定されると、オペレーティングシステムに対してトラ
ップが生じる。トラップは、一般に、オペレーティングシステムの一部である特
定の処理ルーチンを呼び出す特権的ビットが設定されている例外条件である。工
程８２０において、処理コア１２のパイプライン５０は、任意の部分的に実行さ
れた下位命令を排除するようにフラッシュされる（ｆｌｕｓｈｅｄ）。例えば、
トラップが４方向ＶＬＩＷ処理コアのパイプラインの第５のステージで開始され
た場合、先行する１６個の下位命令がフラッシュされる。パイプライン５０をフ
ラッシュした後、工程８２４において、任意の無条件トラップルーチンが実行さ
れる。トラップルーチンがトラップから回復して、トラップを開始した点から実
行を開始すると、フラッシュされた下位命令が再度ロードされて処理される必要
がある。当業者であれば理解するように、無条件トラップの実行を回避するとコ
ードの効率性が向上する。

【００４５】次に図９を参照すると、配列アクセスを検証してこれを実行する一方法の別の
実施形態が示されている。この実施形態は、コード生成の効率を上げる向上した
境界チェック下位命令を用いる。図８の実施形態とは異なり、境界チェック下位
命令は、無効な配列インデックスを示すフラグを設定するが、無条件トラップを
開始しない。

【００４６】工程９００、９０４および９０８において、境界チェック下位命令が実行され
る。工程９００において、インデックスの有効性が判定される。有効なインデッ
クスは、０と配列長から１を減算した値との間の範囲（すなわち、０≦Ｉ＜Ｎ）
である。インデックスが有効である場合、下位命令を実行した後に結果は格納さ
れない。これにより、下位命令が効果的にｎｏｏｐになる。しかし、インデッ
クスが無効である場合、工程９０８において、無効アドレスをベースレジスタと
して格納する。無効な値を格納することは、配列アクセスが実行されるべきでは
ないことを示すフラグとして機能する。

【００４７】工程９１２において、ベースアドレスがロードされ、そして分析されて、ベー
スアドレスが有効であるか否かを判定する。無効なベースアドレスは、ソフトウ
ェアに伝達されている無効な値、または工程９０８において格納する無効な値の
いずれかから得られ得る。ベースアドレスが無効である場合、工程９２４におい
て、この問題に反応するブランチコードがロードされる。ブランチは通常、パイ
プライン５０をフラッシュする無条件トラップをトリガーしない。しかし、ベー
スアドレスが有効である場合、工程９１６、９１８および９２０において、イン
デックスアドレスが計算され、配列値がロードされる。

【００４８】単一のテーブルを参照すると、配列をチェックし、ロードを実行するアセンブ
リ言語命令の一実施形態が示されている。テーブルは２つの命令ワードを示し、
一番上のワードが一番下のワードの前に実行される。各命令ワードは、同時に発
行する２つの下位命令を含む。

【００４９】

【表１】第１のワードのＢＣＨＫ下位命令は、境界チェックを実行して、配列インデッ
クス（「ａｒｒｙ＿ｉｎｄｅｘ」）が０から配列長（「ａｒｒｙ＿ｌｅｎｇｔｈ
」）から１を減算した値までの値であるか否かを判定する。ａｒｒｙ＿ｉｎｄｅ
ｘが無効である場合、０がベースアドレス（「ｂａｓｅ＿ａｄｄｒ」）に書き込
まれる。同じ発行の一部として、ＡＤＤｘ８の下位命令は、ａｒｒｙ＿ｉｎｄｅ
ｘを８ずつ増加させ、０を加算してアドレスオフセット（「ａｄｄｒ＿ｏｆｆｓ
ｅｔ」）を定式化する。ＳＰＬＤ下位命令は、ｂａｓｅ＿ａｄｄｒをａｄｄｒ＿
ｏｆｆｓｅｔに加算することによって計算されるインデックスアドレスの純理論
的なロードを実行して、結果（「ｅｌｅｍｅｎｔ」）を宛先レジスタ内に格納す
る。第２の命令のワードの一部として、条件ブランチが０に等しい場合、（「Ｂ
ＲＥＱ」）の下位命令が実行される。ＢＲＥＱ下位命令は、ｂａｓｅ＿ａｄｄｒ
が０に等しい場合に、ブランチコード（「ｂｒａｎｃｈ＿ｃｏｄｅ」）に分岐す
る。ｂａｓｅ＿ａｄｄｒが０に等しい場合、ＳＰＬＤ下位命令は必要ではなく、
任意の結果が例外を発生させない未定義の結果を返す。このように、配列アクセ
スが、双方向ＶＬＩＷ処理コアを備えた２つの命令ワードで検証およびアクセス
される。

【００５０】（結論）結論として、本発明は、コードの効率を増すことを可能にする境界チェック関
数を提供する。本発明の現在の好適な実施形態の詳細な説明を上に述べてきたが
、種々の別の実施例、改変例、および均等物は当業者に明らかである。例えば、
上述の処理コアの実施形態は符号なしオペランドを用いるが、他の実施形態は符
号付き値を用い得る。さらに、上述の実施形態において用いられる６４ビットオ
ペランドに加えて、異なるサイズのオペランドを備えたデータタイプを用い得る
。さらに、この境界チェック命令は、１つの発行またはスーパースカラーアーキ
テクチャを用い得るが、ＶＬＩＷタイプのアーキテクチャを必要としない。した
がって、上述の説明は、上掲の特許請求の範囲によって規定される本発明の範囲
を限定するように考えられるべきではない。

【図面の簡単な説明】

【図１】図１は、従来の様態で境界付けられた配列アクセスをチェックおよび実行する
一実施形態の流れ図である。

【図２】図２は、同じ集積回路上にプロセッサ論理およびメモリを有するプロセッサチ
ップの一実施形態のブロック図である。

【図３】図３は、４方向ＶＬＩＷパイプライン設計を有する処理コアの一実施形態を示
すブロック図である。

【図４】図４は、概してプロセッサチップに利用可能な所定のデータタイプを示す図で
ある。

【図５】図５は、境界チェック下位命令のマシーンコード構文の一実施形態を示す図で
ある。

【図６】図６は、２つのソースレジスタで実行される境界チェック関数の一実施形態を
模式的に示すブロック図である。

【図７】図７は、図６の境界チェック関数をより詳細に模式的に示すブロック図である
。

【図８】図８は、無条件トラップを発生させ得る境界チェックを実行する一方法の一実
施形態を示す流れ図である。

【図９】図９は、無条件トラップの使用を回避する境界チェックを実行する一方法の別
の実施形態を示す流れ図である。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ，ＴＲ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＭＺ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＧ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＢＺ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＤＺ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＭＺ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷＦターム(参考） 5B013 DD01 DD04 5B033 AA06 BE05 DD01

Claims

【特許請求の範囲】

【請求項１】プロセッサにてデータを命令を用いて処理する方法であって
、該データは要素の配列に関連し、該方法は、第１の位置から第１の値をロードする工程と、第２の位置から第２の値をロードする工程と、該第１および該第２の値を相互に比較する工程と、必要に応じて、該比較する工程に基づいて、所定の値を宛先に格納する工程と
を包含する、方法。
【請求項２】前記プロセッサにて前記データを前記命令を用いて処理する
方法であって、該データは前記要素の配列に関連し、前記第１の位置および前記第２の位置はソースレジスタであり、前記宛先は宛先レジスタである、請求項１に記載の方法。
【請求項３】前記プロセッサにて前記データを前記命令を用いて処理する
方法であって、前記ソースレジスタおよび前記宛先レジスタはそれぞれ、複数の
値を保持するように細分化されている、請求項２に記載の方法。
【請求項４】前記プロセッサにて前記データを前記命令を用いて処理する
方法であって、該データは前記要素の配列に関連し、前記第１および前記第２の
値はオペランドである、請求項１に記載の方法。
【請求項５】前記プロセッサにて前記データを前記命令を用いて処理する
方法であって、該データは前記要素の配列に関連し、前記所定の値は０である、
請求項１に記載の方法。
【請求項６】前記プロセッサにて前記データを前記命令を用いて処理する
方法であって、該データは前記要素の配列に関連し、前記比較する工程は、前記
配列インデックスが０以上であり、かつ、該配列の長さより小さいか否かを判定
する工程を包含する、請求項１に記載の方法。
【請求項７】前記プロセッサにて前記データを前記命令を用いて処理する
方法であって、該データは前記要素の配列に関連し、前記宛先は該配列のベース
アドレスを含む、請求項１に記載の方法。
【請求項８】前記プロセッサにて前記データを前記命令を用いて処理する
方法であって、宛先は無効なベースアドレスを含む、請求項１に記載の方法。
【請求項９】前記プロセッサにて前記データを前記命令を用いて処理する
方法であって、該データは前記要素の配列に関連し、前記格納する工程はフラグ
を設定する工程をさらに包含する、請求項１に記載の方法。
【請求項１０】前記プロセッサにて前記データを前記命令を用いて処理す
る方法であって、該データは前記要素の配列に関連し、前記第１および前記第２
の値は、符号付き整数および符号なし整数のうちの少なくとも１つである、請求
項１に記載の方法。
【請求項１１】前記プロセッサにて前記データを前記命令を用いて処理す
る方法であって、該データは前記要素の配列に関連し、前記第１の位置は該配列
の長さを含む、請求項１に記載の方法。
【請求項１２】前記プロセッサにて前記データを前記命令を用いて処理す
る方法であって、該データは前記要素の配列に関連し、前記第２の位置は該配列
のインデックスを含む、請求項１に記載の方法。
【請求項１３】前記プロセッサにて前記データを前記命令を用いて処理す
る方法であって、該データは前記要素の配列に関連し、前記第１の位置は該配列の長さを含み、前記第２の位置は該配列のインデックスを含む、請求項１に記載の方法。
【請求項１４】第１のオペランドを有する第１のソースレジスタおよび第
２のオペランドを有する第２のソースレジスタを駆動する命令プロセッサであっ
て、該第１および該第２のオペランドを比較するオペランド比較関数と、該第２のオペランドが０より大きいオペランドおよび０より大きいオペランド
に等しいかのうちの少なくとも一方であるか否かを判定する該オペランド比較関
数に接続された判定論理と、該判定論理に接続されたフラグ設定関数と、を含む、命令プロセッサ。
【請求項１５】前記第１のオペランドを有する前記第１のソースレジスタ
および前記第２のオペランドを有する前記第２のソースレジスタにて動作する前
記命令プロセッサであって、前記フラグ設定関数は、宛先レジスタ内に無効なベ
ースアドレスを格納する、請求項１４に記載の命令プロセッサ。
【請求項１６】前記第１のオペランドを有する前記第１のソースレジスタ
および前記第２のオペランドを有する前記第２のソースレジスタにて動作する前
記命令プロセッサであって、前記オペランド比較関数は、第１および第２のソー
スレジスタから該第１および該第２のオペランドをそれぞれロードする、請求項
１４に記載の命令プロセッサ。
【請求項１７】前記第１のオペランドを有する前記第１のソースレジスタ
および前記第２のオペランドを有する前記第２のソースレジスタにて動作する前
記命令プロセッサであって、該第１および該第２のソースレジスタそれぞれは複
数のオペランドを保持するように細分化されている、請求項１４に記載の命令プ
ロセッサ。
【請求項１８】前記第１のオペランドを有する前記第１のソースレジスタ
および前記第２のオペランドを有する前記第２のソースレジスタにて動作する前
記命令プロセッサであって、前記フラグ設定関数は宛先レジスタに接続されてい
る、請求項１４に記載の命令プロセッサ。
【請求項１９】プロセッサによって配列を処理する方法であって、配列インデックスが有効であるか否かを判定する工程と、該配列インデックスが有効であるか否かを判定する工程から得られた結果に基
づいて、ベースアドレスを所定の値に置換する工程と、該配列のベースアドレスが有効であるか否かを判定する工程とを包含する、方法。
【請求項２０】前記プロセッサによって前記配列を処理する方法であって
、第１および第２の超長命令ワードをロードする工程をさらに包含し、各超長命
令ワードは複数の下位命令を含む、請求項１９に記載の方法。
【請求項２１】前記プロセッサによって前記配列を処理する方法であって
、前記第１および前記第２の超長命令ワードは、前記判定する工程およびインデ
ックスアドレスにおいて配列要素をロードする工程を達成する、請求項２０に記
載の方法。
【請求項２２】前記プロセッサによって前記配列を処理する方法であって
、前記所定の値は無効なベースアドレスである、請求項１９に記載の方法。
【請求項２３】前記プロセッサによって前記配列を処理する方法であって
、アドレスオフセットを計算する工程をさらに包含する、請求項１９に記載の方
法。
【請求項２４】前記プロセッサによって前記配列を処理する方法であって
、前記ベースアドレスにアドレスオフセットを加算する工程をさらに包含する、
請求項１９に記載の方法。
【請求項２５】前記プロセッサによって前記配列を処理する方法であって
、前記所定の値は０である、請求項１９に記載の方法。
【請求項２６】前記プロセッサによって前記配列を処理する方法であって
、配列インデックスが有効であるか否かを判定する工程は、該配列インデックスが０から配列長から１を減算した値までの範囲内であるか
否かを判定する工程と、該配列インデックスが該配列長より小さいか否かを判定する工程とを包含する、請求項１９に記載の方法。