JP2022546785A

JP2022546785A - 迅速かつ広範な結果生成のための隣接ｓｉｍｄユニットの再利用

Info

Publication number: JP2022546785A
Application number: JP2022515759A
Authority: JP
Inventors: クライン、マイケル; ホフマン、ニコル; リヒテナウ、セドリック; イフラッヒ、オッシャー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-09-10
Filing date: 2020-08-07
Publication date: 2022-11-08
Also published as: GB202203969D0; GB2603339A; US11269651B2; DE112020003313T5; US20210073000A1; GB2603339B; WO2021048653A1; CN114365110A

Abstract

拡張された結果を含む命令を処理するためのシステムは、プロセッサ命令を実行するための第１の結果バスを有する第１の命令実行ユニットを含む。システムは、プロセッサ命令を実行するための第２の結果バスを有する第２の命令実行ユニットをさらに含む。第１の命令実行ユニットは、第２の命令実行ユニットがプロセッサ命令を実行するために使用されない場合、ならびに受信したプロセッサ命令が第１の結果バスのデータ幅よりも大きな幅を有する結果を生じた場合、プロセッサ命令の実行中に、第１の命令実行ユニットによって計算された結果の一部を第２の命令実行ユニットに選択的に送信するように構成される。第２の命令実行ユニットは、第１の命令実行ユニットにより計算された結果の一部を受信し、受信した結果を第２の結果バスに載置するように構成される。

Description

本発明は、コンピュータシステムの分野に関し、より具体的には、より幅広い結果を生じる命令を処理するための隣接ＳＩＭＤ（単一命令多重データ）ユニットの再利用に関する。

世代間のシリコン技術の向上から得られる利益の減少に直面しながらも演算性能を向上させるために、設計はより複雑な演算プリミティブを実装するように移行している。汎用マイクロプロセッサでは、そのような演算プリミティブは、標準的な（受け継がれた）命令のセットの実装を担うプロセッサコアに緊密に結合されたアクセラレータ上に、拡張命令セットが実装されている形態をとることが多い。このようなアクセラレータは、ショートベクトルＳＩＭＤ演算モデルを実装し、それによって、各命令は、広範なデータワードにわたって実行されるオペレーションを指定し、このデータワードは、特定の命令に依存してサブワードの少数（１～１６）のベクトルとして解釈されるものである。そして、単一の命令は、複数のデータに対して複数のオペレーションを指定することができる。

本発明の実施形態は、拡張された結果を含む命令を処理するためのシステムに関する。システムは、プロセッサ命令を実行するための第１の結果バスを有する第１の命令実行ユニットを含む。システムは、プロセッサ命令を実行するための第２の結果バスを有する第２の命令実行ユニットをさらに含む。第２の命令実行ユニットは、第１命令実行部に通信可能に結合されている。第１の命令実行ユニットは、第２の命令実行ユニットがプロセッサ命令を実行するために使用されない場合、プロセッサ命令の実行中に、第１の命令実行ユニットによって計算された結果の一部を第２の命令実行ユニットに選択的に送信するように構成される。第２の命令実行ユニットは、第１の命令実行ユニットにより計算された結果の一部を受信し、受信した結果を第２の結果バスに載置するように構成される。

本発明の実施形態は、拡張された結果を含む命令を処理するための方法に関する。この方法は、受信したプロセッサ命令が第１の命令実行ユニットの第１の結果バスの幅よりも大きくかつ第２の命令実行ユニットの第２の結果バスの幅よりも大きなデータ幅を有する結果を生じるか否かを判定することを含む。受信したプロセッサ命令が第１の結果バスの幅よりも大きくかつ第２の結果バスの幅よりも大きなデータ幅を有する結果を生じるか否かを判定することに応答して、受信したプロセッサ命令を実行するために第２の命令実行ユニットが利用されないか否かの判定が行われる。第２の命令実行ユニットは、第１命令実行部に通信可能に結合されている。第１の命令実行ユニットによって計算された結果の一部は、第２の命令実行ユニットがプロセッサ命令を実行するために使用されないという判定に応答して、プロセッサ命令の実行中に第２の命令実行ユニットの第２の結果バスに選択的に送信される。

本発明の実施形態は、拡張された結果を含む命令を処理するためのコンピュータ・プログラム製品に関する。本コンピュータ・プログラム製品は、それを以て具現化されたプログラム命令を有するコンピュータ可読記憶媒体を含む。プログラム命令は、プロセッサに方法を実行させるプロセッサによって実行可能である。本方法の非制限的な例は、受信されたプロセッサ命令が第１の命令実行ユニットの第１の結果バスの幅よりも大きくかつ第２の命令実行ユニットの第２の結果バスの幅よりも大きなデータ幅を有する結果を生じるか否かを判定することを含む。受信したプロセッサ命令が第１の結果バスの幅よりも大きくかつ第２の結果バスの幅よりも大きなデータ幅を有する結果を生じるか否かを判定することに応答して、受信したプロセッサ命令を実行するために第２の命令実行ユニットが利用されないか否かの判定が行われる。第２の命令実行ユニットは、第１命令実行部に通信可能に結合されている。第１の命令実行ユニットによって計算された結果の一部は、第２の命令実行ユニットがプロセッサ命令を実行するために使用されないという判定に応答して、プロセッサ命令の実行中に第２の命令実行ユニットの第２の結果バスに選択的に送信される。

追加の技術的な特徴および恩恵は、本発明の手法を通じて理解される。本発明の実施形態および態様は、本明細書に詳細に記載され、特許請求の範囲に記載の主題の一部であるものと考えられる。さらに良く理解するために、詳細な記載および図面を参照されたい。

本明細書に記載された排他的な権利の詳細は、本明細書の結論で、特許請求の範囲において具体的に指示され明確に請求されている。本発明の実施形態の前出のおよび他の特徴および利点は、添付の図面と併せて用いられる以下の詳細な記載から明らかである。

本発明の実施形態による複数の単一命令多重データ（ＳＩＭＤ）実行ユニットを有するデータ処理システムの高レベルのブロック図である。本発明の実施形態によるＳＩＭＤ実行ユニット内の構成要素、およびＳＩＭＤ実行ユニットとデータ処理システムとの間のインターフェースを図示する高レベルのブロック図である。本発明の実施形態による隣接ＳＩＭＤ実行ユニットの不使用の結果出力を再利用するための論理を示す図である。本発明の実施形態による、ベクトル浮動小数点ロード延長倍精度（ＤＰ）命令の強化を示す図である。本発明の実施形態によるダイナミック・レーン・マスキング機能を示す図である。本発明の実施形態による、迅速かつ広範な結果生成のために、隣接ＳＩＭＤ実行ユニットを再利用するための方法のフローチャートである。

本明細書に示される図は例示的なものである。本発明の趣旨から逸脱することなく、図やそこに記載されたオペレーションに多くのバリエーションがある。例えば、異なる順序でアクションを行うことができ、あるいはアクションを追加、削除、または修正することができる。また、用語「結合された」およびその変形は、２つの要素間の通信経路を有することを記載し、この要素間に介在する要素／接続のない要素間の直接的な接続を含意しない。これらのバリエーションの全てが、本明細書の一部であるものと考えられる。

添付の図面および以下の開示された実施形態の詳細な説明において、図面に示された様々な要素は、２桁または３桁の参照番号を付されている。少数の例外を除いて、各参照番号の左端の数字は、その要素が最初に図示されている図に対応する。

一般に、単一命令多重データ（ＳＩＭＤ）アーキテクチャは、命令パイプライン内の並列処理の量を最大にするように設計される。ＳＩＭＤアーキテクチャでは、多重データ入力を処理するために、同じ命令が並行して実行される。ＳＩＭＤ命令は、多重データ入力のベクトルに対する単一の制御スレッドの制御オペレーションの実行および分岐挙動を指定する。ベクトルは、一次元アレイ内にパッキングされた一組のデータ要素を含む命令オペランドである。要素は、整数または浮動小数点値とすることができる。ほとんどのＳＩＭＤ命令は、ベクトルオペランド上で動作する。ベクトルは、ＳＩＭＤオペランドまたはパック・オペランドとも呼ばれる。オペランドおよびデータ経路幅は、データを一度にどの程度処理できるかを定義する。すなわち、より広範なデータ経路はより複雑な機能を実行することができるが、一般に、これはより高い実装コストで行われる。さらに、一部のベクトル命令は、命令入力要素と比較して、より幅広い結果を生じる。より広範な結果を生じる例示的な命令としては、データをより大きなデータ・フォーマットに変換するための命令、乗算オペレーションなどが挙げられるが、これらに限定されない。バイナリ浮動小数点数は、３つのデータ・フォーマット、すなわちショート、ロング、または拡張のいずれかで表すことができる。非限定的な例として、ショート・フォーマットは３２ビット、ロング・フォーマット６４ビット、拡張フォーマット１２８ビットを含む。したがって、ショート・フォーマットからロング・フォーマットへ、またはロング・フォーマットから拡張フォーマットへ変換することにより、幅広い結果が得られる。チップ上の配線に限りがあるため、従来のデータ処理システムでＳＩＭＤ実行ユニットによって利用される結果バスは、サイズの制限された結果をもたらす。従来のデータ処理システムは、隣接ＳＩＭＤ実行ユニットが現在不使用であったとしても、多重命令サイクルにわたってより広範な結果を生じる上述のオペレーションを実行することに留意されたい。この非効率性により、データ処理システムのスループットが事実上低減し、待ち時間が増加する。

従来のデータ処理システムは、異なるアプローチを用いてこれらの問題に対処する。一部の従来のシステムは、パイプライン化されたオペレーションを含む分割命令トランザクション・モデルを採用する。このモデルは、最低２つのコプロセッサを必要とし、この場合、命令は、低い部分と高い部分とに分割され、各コプロセッサは、対応する部分を実行する。このアプローチでは、コプロセッサでオペレーションを実行してコプロセッサからのオペレーション結果を読み出すために、最低２つのコプロセッサ命令が必要である。例えば、第１のコプロセッサは、乗算オペレーションの高い部分を実行することができるのに対し、第２のプロセッサは、乗算オペレーションの低い部分を実行することができる。対照的に、本発明の実施形態は、単一のトランザクション・モデルを採用し、ここでは、単一のコプロセッサ命令のみがオペレーションを開始し、オペレーションの結果を提供するために必要とされる。

一般に、パイプライン化は、命令当たりのサイクル数（ＣＰＩ）の低減を通じて主に中央処理ユニット（ＣＰＵ）の性能を増大させるが、尤も、ＣＰＵのクロック周期をそれほど低減することもない。パイプライン化は、命令実行を一連のステップに分解する技術である。パイプライン内の各ステップは、パイプステージとして知られており、命令の完全な実行のうち指定された部分を完了する。各パイプステージは、組立ラインのステーションが製品の製造の完成度を増してゆくのと同じ方法で実行を増してゆく。ちょうど製品によって組立ラインが完全に組み立てられて残されるように、この命令によって、パイプラインの最終的なパイプステージが完全に実行されて残される。

理想的には、パイプラインを構成するパイプステージの数に等しい数の命令が、実行中に重複していてもよく、各命令は、異なるパイプステージを占有している。ＣＰＵが十分な資源を有し、それより前のパイプステージが後のパイプステージの完成した結果に依存しない場合、各パイプステージは、（現在占有されている命令に基づいて）その機能を他のパイプステージと並行して、独立して実行することができる。さらに、ＣＰＵが完全に命令を実行する必要がある平均時間をパイプステージ間で均等に分割すると、順次実行にわたるパイプライン化された実行のためのＣＰＵスループットの高速化は、パイプライン化されたステージの数に等しいものとなる。そのため、５つのパイプステージからなる理想的なパイプラインについて、１つの命令を順次実行するのに必要な平均時間で５つの命令が実行されるものとなり、スループットの高速化が５倍となる。パイプラインは、単一の命令を実行するために平均時間を減少させないが、単位時間当たりより多くの命令を完了することによって全体の平均実行時間を減少させることに留意されたい。

浮動小数点オペレーションの実行によって生成されるさらに広範な結果を扱うために、一部のパイプライン化されたデータ処理システムは、結果を書き込むために多重サイクル（オペレーションを完了するのに必要な数の）を使用する。このアプローチは、レジスタのライト・バック（ＷＢ）オペレーションが完了するまで、パイプラインの遮断を必要とする。従来のデータ処理システムによって採用される前述のアプローチはどちらも、オペレーションの結果を生成するために多重の命令を必要とするため、もしくは結果を書き込むために多重サイクルを必要とするため、またはその両方のため、帯域幅を低減し、待ち時間を増加させることに留意されたい。上述のアプローチの別の欠点は、実行されたオペレーションの結果に関連付けられたデータ要素を再結合するために追加の多重化能力を必要とすることである。さらに別の欠点は、処理ステージ間でデータを再配置する必要があるために必要とされる余分な命令によって、コード密度が低減し、メモリおよびキャッシュ内により多くのメモリが必要となることである。データ転送ステージの間に必要とされる各追加サイクルは、典型的には、プロセッサの作業負荷の増大をもたらすことに留意されたい。

より広範な出力を生成する処理命令の従来の異なるアプローチは、より広範なデータ・バスを利用することである。しかし、この解決策は、設計上の追加的な複雑さとより高い実装コストとのために、あまり効率的ではない。同時に、この特定の解決策は、典型的には、限られた数の命令のみにこのような能力が必要となるため、より広範なデータ・バスの過少利用に繋がる。

一般に、複数の現在の問題を解決するために、より大きな出力を提供しかつレーン・マスキング能力を有する専用の命令を含む、ベクトルＳＩＭＤエンジンを採用することができる。例えば、少なくとも一部の人工知能（ＡＩ）エンジンは、精度の小さな入力を処理して、より精度の高い出力を蓄積し生成する。本発明の実施形態は、不使用の隣接ＳＩＭＤエンジンを利用してより広範な結果を生成することによって、上述の問題の全てに対処する。

図を参照し、特に図１を参照すると、本発明の実施形態によるＳＩＭＤ実行ユニットを有するデータ処理システムの高レベルのブロック図が示されている。図示のように、データ処理システム１００は、命令バス１０８およびアドレス・バス１１０を介してメモリ１１４に結合されたＳＩＭＤエンジン１０２を含む。ＳＩＭＤエンジン１０２は、メモリ１１４から命令をフェッチし、そのような命令を、命令ディスパッチ・バス１１２を介して、選択されたＳＩＭＤ実行ユニット１０６ａ～１０６ｃにディスパッチする。メモリ１１４は、異なる速度および容量を有する異なるレベルで実装されてもよい。そのようなメモリのレベルは、階層内の任意の特定のレベルの観点から、プロセッサからの次の下位レベルがキャッシュであるものとされるように構築することができる。キャッシュメモリは、ＳＩＭＤエンジン１０２に近いサイクル時間で、比較的遅くかつ増大してゆくメインメモリがＳＩＭＤエンジン１０２（または、次のさらに高いレベルのメモリ）にインターフェースすることができるバッファ機能を提供する補助メモリである。

図１に示す例では、複数の実行ユニット１０６ａ～１０６ｃは、ＳＩＭＤ実行ユニットである。そのため、データ処理システム１００内では、ＳＩＭＤエンジン１０２は、データ処理システム１００内の実行ユニットのクラスのうちの他の「実行クラス」としてＳＩＭＤ実行ユニット１０６ａ～１０６ｃとインターフェースする。少なくとも一部の実施形態では、ＳＩＭＤ実行ユニット１０６ａ～１０６ｃは、他のオペレーションの間で浮動小数点演算オペレーションを実行するために利用されてもよい。ＳＩＭＤ実行ユニット１０６ａ～１０６ｃは、バス１１８ａ～１１８ｃを介してメモリ１１４に結合されている。

データ処理システム１００内の別の実行ユニットは、例えば、ロード／格納実行ユニット１０４を含んでいてもよい。バス１１６を介してメモリ１１４に結合されたロード／格納実行ユニット１０４を利用して、アドレスを計算し、メモリアクセスを必要とする命令の実行中にそのアドレスをメモリ１１４に提供する。ロード／格納実行ユニット１０４を利用して、他の実行ユニットでの命令の実行中にメモリ１１４にアドレスを提供してもよい。

ここで図２を参照すると、本発明の実施形態によるＳＩＭＤ実行ユニット内の構成要素、およびＳＩＭＤ実行ユニットとデータ処理システムとの間のインターフェースをさらに図示する高レベルのブロック図がある。図示のように、ＳＩＭＤ実行ユニット１０６、制御ユニット２０２と、複数の処理要素２０４とを含む。制御ユニット２０２は、コマンド・バス２０６を介して、選択された処理要素２０４にコマンドをディスパッチする。制御ユニット２０２は、データ・バス２０８を介して、処理要素２０４にデータを転送し同要素からデータを受信する。各処理要素２０４は、別々のデータ・バス２０８により制御ユニット２０２に結合されている。

制御ユニット２０２は、ＣＰＵ２１０から命令バス２１２を介してベクトル処理命令を受信する。レベル２キャッシュ（Ｌ２キャッシュ）２１４を用いて、ＳＩＭＤ実行ユニット１０６を含めた全ての実行ユニットについてデータおよび命令を格納してもよい。Ｌ２キャッシュ２１４は、データ・バス２１６を介してＣＰＵ２１０に結合されている。Ｌ２キャッシュ２１４はまた、データ・バス２１８を介してＳＩＭＤ実行ユニット１０６内の制御ユニット２０２に結合されている。キャッシュ・コントローラ２２０は、Ｌ２キャッシュ２１４にアドレス信号を提供する。このアドレス信号を生じるために利用されるアドレスは、ロード／格納実行ユニット１０４によって演算されてもよい（図１を参照）。

図３は、本発明の実施形態による隣接ＳＩＭＤ実行ユニットの不使用の結果出力を再利用するためのロジックを示す図である。図３の左側に示すＳＩＭＤ実行部１０６ａおよび１０６ｂは、分割命令トランザクション・モデルを採用している。ＳＩＭＤ実行部１０６ａおよび１０６ｂは、それぞれの入力３０２ａおよび３０２ｂを受信して、それぞれの出力３０４ａおよび３０４ｂを生成する。実行されたオペレーションがさらに広範な結果を生じることが予想される場合、ＳＩＭＤ実行ユニット１０６ａおよび１０６ｂは、多重サイクルを用いてオペレーションを実行する。これに対して、本発明の実施形態によれば、図３の右側に示すＳＩＭＤ実行ユニット１０６ａ～１０６ｄは、分割命令トランザクション・モデルと単一トランザクション・モデルとの両方を採用しており、より広範な結果を送達するために隣接ＳＩＭＤ実行ユニットの不使用の結果出力を選択的に再利用するように構成されている。有利なことに、開示された単一トランザクション・モデルは、スループットを大幅に増加させ、データ処理システム１００の待ち時間を低減する。さらに、単一トランザクション・モデルによって、より大きな結果バス３０４を実装する必要性が排除される。

具体的には、図３の右側に示す例示的な構成は、第１のＳＩＭＤ実行ユニット１０６ａ、第２のＳＩＭＤ実行ユニット１０６ｂ、第３のＳＩＭＤ実行ユニット１０６ｃ、および第４のＳＩＭＤ実行ユニット１０６ｄを含む。第１のｓＳＩＭＤ実行ユニット１０６ａは、第１のローカル接続部３０８ａを介して第２のＳＩＭＤ実行ユニット１０６ｂに接続され、一方で、第３のＳＩＭＤ実行ユニット１０６ｃは、第２のローカル接続部３０８ｂを介して第４のＳＩＭＤ実行ユニット１０６ｄに接続されている。図３に示すように、第２のＳＩＭＤ実行ユニット１０６ｂおよび第４のＳＩＭＤ実行ユニット１０６ｄはそれぞれ、マルチプレクサ３１０ｂおよび３１０ｄを含む。第１のマルチプレクサ３１０ｂは、本明細書に記載されるように、第２のＳＩＭＤ実行ユニット１０６ｂにより算出された結果と、隣接する第１のＳＩＭＤ実行ユニット１０６ａにより算出された結果の一部とを選択して合成するように構成されている。第２のマルチプレクサ３１０ｄは、第４のＳＩＭＤ実行ユニット１０６ｄにより算出された結果と、隣接する第３のＳＩＭＤ実行ユニット１０６ｃにより算出された結果の一部とを選択して合成するように構成されている。なお、隣接する第２のＳＩＭＤ実行ユニット１０６ｂおよび第４のＳＩＭＤ実行ユニット１０６ｄは、オペレーション実行中に利用可能である場合にのみ、データ処理システム１００によって選択的に使用される。

本発明の一実施形態によれば、命令のサブセットが実装され、命令は、２つの隣接ＳＩＭＤ実行ユニット上で直接的に計算を実行して、１サイクルでより広範な結果を生成する。一実施形態では、実装される命令は、バイナリ浮動小数点データを使用してもよい。具体的には、本発明の一実施形態は、命令の実行の結果を戻すための追加の配線および論理を使用する必要性を排除し、少ない追加の論理を用いて１サイクルで実行させることが可能になり、それによって性能が向上し、消費電力が低減する。これらの命令は、例えば、ロード延長（ロード拡張とも呼ばれることがある）命令を含む。しかし、ロード延長命令は、バイナリ浮動小数点数上で動作するため、最初にバイナリ浮動小数点数に関する詳細が提供される。バイナリ浮動小数点数は、例えば、３２ビット、６４ビット、および１２８ビットフォーマットを含めた複数のフォーマットを有することができ、各フォーマットは、例えば、符号４１０、指数４１２、および仮数部４１６を含む表現を有する（図４に示す）。

一般に、ロード延長命令は、倍精度浮動小数点入力を使用し、拡張倍精度浮動小数点出力（すなわち、命令によって受信される入力よりも大きい出力）を生じる。図４は、本発明の実施形態による、ベクトル浮動小数点ロード延長倍精度（ＤＰ）命令の強化を示す図である。図４に示すように、従来のベクトル浮動小数点ロード延長命令は、２つのサイクル、すなわち第１のサイクル４０２と第２のサイクル４０４とを必要とし、６４ビットを用いてそのオペレーションを完了する。第１のサイクル４０２の間、従来のベクトル浮動小数点ロード延長命令は、仮数部４１６の一部分４０６（例えば低い部分）上でオペレーションを実行する。仮数部４１６のサイズは大き過ぎるため、第２のサイクル４０４の間に動作されない。第２のサイクル４０４の間、従来のベクトル浮動小数点ロード延長命令は、符号４１０、指数４１２、および仮数部４１６の第２の部分４１４（高い部分）などの浮動小数点数の残りの部分上で動作する。

さらに、図４は、本発明の一実施形態による、強化型ベクトル浮動小数点ロード延長ＤＰ４２０の実施を示す。強化型ベクトル浮動小数点ロード延長命令は、１２８ビット４２２、４２４上で動作する。従来のベクトル浮動小数点ロード延長命令とは対照的に、強化型ベクトル浮動小数点ロード延長ＤＰ命令４２０は、１サイクル内の浮動小数点数の全ての構成要素４０６～４１４上で動作する。本明細書に記載されるように、強化型ベクトル浮動小数点ロード延長命令は、隣接ＳＩＭＤ実行ユニットの結果バスを利用して、１サイクルでより広範な結果を生じるオペレーションを完了することができる。

ＳＩＭＤコンピュータでは、他の種類のコンピュータと同様に、一般にマスキングと呼ばれる基本概念が、処理要素における個々のオペレーションの条件付き実行のために必要とされる。マスキングは、処理要素に適用される命令シーケンスの異なる命令がそれらの処理要素において実装されることのみを可能とし、その場合、別々の処理要素に適用される特定のデータは、シーケンス内の特定の命令の条件を満たす。処理要素に適用される命令シーケンス内のいくらかの命令から特定の処理要素をマスクする異なる技術が、当該技術分野で知られている。マスキングを用いた現在のＳＩＭＤマシンの詳細な概要は、Horde, R. Michael, "Parallel Supercomputing in SIMD Architectures" 1990 CRC Press Inc, Boca Raton, Flaに見出すことができる。さらに、米国特許第４，９０７，１４８号および第５，０４５，９９５号も、これらの種類のシステムにおけるマスキングの論考を提供している。

図５は、本発明の実施形態によるダイナミック・レーン・マスキング機能を示す図である。図５は、レーン・マスキング能力を有する８レーン（ＳＩＭＤ実行ユニット）１０６ａ～１０６ｈを有するＳＩＭＤ回路５００による乗算オペレーションの一例を模式的に示す。一実施形態では、複数のＳＩＭＤ実行ユニット１０６ａ～１０６ｈのそれぞれは、マスク・レジスタを含む。一実施形態では、マスク・レジスタは、単一のマスク・コンテキスト（ＭＣ）ビットを保持するマスク・コンテキスト・レジスタと、単一のグローバル応答フラグ（ＧＲＦ）ビットを保持するグローバル応答フラグ・レジスタとをさらに含んでいてもよい。マスク・コンテキスト・ビットは、以下にさらに詳細に説明するように、命令コール中に特定のＳＩＭＤ処理要素を有効化または無効化するために、命令における特定のマシン・オペレーションのマスキングのために選択されたビットにより、ビット毎にＡＮＤされる。

回路５００内のＳＩＭＤ実行ユニット１０６ａ～１０６ｈは、入力データ要素３０２ａ～３０２ｈを受信し、それに基づいて、それぞれの結果データ要素３０４ａ～３０４ｈの生成を生じる必要な乗算を実行する。各入力データ要素が３２ビット幅であると仮定すると、各乗算データ要素は少なくとも６４ビット幅となる。また、ＳＩＭＤエンジン１０２（図１に示す）は、隣接ＳＩＭＤ処理要素１０６ａ～１０６ｈによる命令の選択的な実行を制御するロジックを含む。複数のＳＩＭＤ実行ユニット１０６ａ～１０６ｈは、隣接ＳＩＭＤ処理ユニットの結果バスを利用して、本明細書に記載されるより広範な結果を生じるように構成される。ＳＩＭＤエンジン１０２は、選択されたＳＩＭＤ実行ユニット１０６ａ～１０６ｈに１サイクルで現在の指令を実行させるように構成されている。図５に示す例では、第２のＳＩＭＤ実行ユニット１０６ｂ、第４のＳＩＭＤ実行ユニット１０６ｄ、第６のＳＩＭＤ実行ユニット１０６ｆ、第７のＳＩＭＤ実行ユニット１０６ｇ、および第８のＳＩＭＤ実行ユニット１０６ｈがマスクされている。本発明の一実施形態によれば、第１のＳＩＭＤ実行ユニット１０６ａ、第３のＳＩＭＤ実行ユニット１０６ｃ、および第５のＳＩＭＤ実行ユニット１０６ｅは、図５に示すように、それぞれの隣接するマスクされたＳＩＭＤ実行ユニットの結果バスを使用するように構成されている。一実施形態では、隣接するマスクされたＳＩＭＤ実行ユニットは、それぞれのＳＩＭＤ実行ユニットから計算結果の対応する部分が受信されるまで、任意の命令の処理を遅延させるように構成される。

図６は、本発明の実施形態による、迅速かつ広範な結果生成のために、隣接ＳＩＭＤ実行ユニットを再利用するための方法のフローチャートである。ブロック６０２では、ＳＩＭＤエンジン１０２は、処理すべき次の命令を発行バッファにロードする。全てのレーン・マスキング依存性が解消されるまで、ＳＩＭＤ命令が発行バッファに保持される。

ブロック６０４において、ＳＩＭＤ実行ユニット１０６は、受信した命令が、広範な結果を生じるＳＩＭＤオペレーションを表すか否かを判定する。例えば、ＳＩＭＤ実行ユニット１０６は、乗算を実行するように要求されることがあり、その場合、各入力データ要素は３２ビット幅であり、結果データ要素は少なくとも６４ビット幅であって結果バスよりも広範となる。より広範な結果を生じるＳＩＭＤオペレーションのいくつかの他の例としては、短いフォーマットから長いフォーマットへの変換、長いフォーマットから拡張フォーマットへの変換などが挙げられるが、これらに限定されない。受信した命令が広範な結果を生じるオペレーションを表していないと判定したこと（決定ブロック６０４、分岐「Ｎｏ」）に応答して、ブロック６０８では、ＳＩＭＤ実行ユニット１０６は、通常のスタンドアロン・モードで命令を発行する。

本発明の一実施形態によれば、受信した命令が広範な結果を生じるオペレーションを表しているものと判定したこと（決定ブロック６０４、分岐「Ｙｅｓ」）に応答して、ブロック６０６では、ＳＩＭＤ実行ユニット１０６は、隣接ＳＩＭＤ実行ユニットが利用可能であるか（マスクされているか不使用であるか）かを判定する。例えば、図５を参照すると、第１のＳＩＭＤ実行ユニット１０６ａは、第２のＳＩＭＤ実行ユニット１０６ｂがマスクされているか否かを判定するように構成されてもよい。

本発明の一実施形態によれば、隣接ＳＩＭＤ実行ユニットが利用可能でないと判定したこと（決定ブロック６０４、分岐「Ｎｏ」）に応答して、ブロック６１０では、ＳＩＭＤ実行ユニット１０６は、図４に示される２サイクルの従来の狭い動作４０２、４０４として命令を発行する。隣接ＳＩＭＤ実行ユニットが利用可能であるとＳＩＭＤ実行ユニット１０６が判定した場合に（決定ブロック６０６、分岐「Ｙｅｓ」）、ブロック６１２では、ＳＩＭＤ実行ユニット１０６は、図４に示される新規の１サイクルの広範なオペレーション４２０として命令を発行する。ブロック６１４では、ＳＩＭＤ実行ユニットは、発行された命令に関連付けられたオペレーションを実行する。

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照して本明細書に説明される。フローチャート図もしくはブロック図またはその両方の各ブロック、ならびにフローチャート図もしくはブロック図またはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装できることが理解されよう。

本発明は、システム、方法、もしくはコンピュータ・プログラム製品、またはそれらの組合せであり得る。コンピュータ・プログラム製品は、プロセッサに本発明の態様を行わせるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体（または複数の媒体）を含んでいてもよい。

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および格納することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、以下に限定されないが、例えば、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または前述の任意の適した組合せとしてよい。コンピュータ可読記憶媒体のより具体的な例の非網羅的な一覧としては、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読出し専用メモリ（ＲＯＭ）、消去可能なプログラム可能な読出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読出し専用メモリ（ＣＤＲＯＭ）、デジタル汎用ディスク（ＤＶＤ）、メモリ・スティック、フロッピー・ディスク、機械的に符号化されたデバイス、例えば、命令を上に記録したパンチ・カードまたは溝内の隆起構造など、および前述の任意の適切な組合せが挙げられる。コンピュータ可読記憶媒体は、本明細書で使用される際に、それ自体が電波または他の自由に伝搬する電磁波、導波管または他の伝送媒体（例えば、光ファイバ・ケーブルを通る光パルス）を伝搬する電磁波、またはワイヤを介して伝送される電気信号などの一時的な信号であるものと解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各演算／処理デバイスに、またはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくは無線ネットワーク、またはそれらの組合せを介して外部コンピュータまたは外部記憶装置に、ダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、またはそれらの組合せを含むことができる。各演算／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、各演算／処理デバイス内のコンピュータ可読記憶媒体に格納するためにコンピュータ可読プログラム命令を送る。

本発明の動作を実施するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または１つもしくは複数のプログラミング言語の任意の組み合わせで書かれたソースコードもしくはオブジェクトコードのいずれかとしてよく、プログラミング言語としては、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語と、および「Ｃ」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語が挙げられる。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で全体的に、ユーザのコンピュータ上で部分的に、スタンドアロン・ソフトウェア・パッケージとして、ユーザのコンピュータ上で部分的にかつリモート・コンピュータ上に部分的に、またはリモート・コンピュータ上で部分的にもしくはリモート・コンピュータ上で全体的に、実行してもよい。後者のシナリオでは、リモート・コンピュータが、ローカル・エリア・ネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含めた任意のタイプのネットワークを介してユーザのコンピュータに接続されていてもよいし、または接続が、外部コンピュータに（例えば、インターネットサービスプロバイダを用いてインターネットを介して）なされていてもよい。いくつかの実施形態では、例えば、プログラム可能なロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラム可能なロジックアレイ（ＰＬＡ）を含めた電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報によって、コンピュータ可読プログラム命令を実行してもよい。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されて、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令がフローチャートもしくはブロック図またはその両方の１つまたは複数のブロックにおいて指定された機能／動作を実装する手段を生成するように、機械を生成し得る。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラム可能なデータ処理装置、もしくは他のデバイス、またはそれらの組合せを特定の方法で機能させることのできるコンピュータ可読記憶媒体に格納されてもよく、ゆえに、命令を中に格納したコンピュータ可読記憶媒体は、フローチャートもしくはブロック図またはその両方の１つまたは複数のブロックにおいて指定された機能／動作の態様を実装する命令を含む、製品を含み得る。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能な装置、または他のデバイス上で実行される命令がフローチャートもしくはブロック図またはその両方の１つまたは複数のブロックにおいて指定された機能／動作を実装するように、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイス上にロードされて、一連の動作ステップをコンピュータ、他のプログラマブル装置、または他のデバイス上で実施させて、コンピュータ実装プロセスを生じる。

本発明の様々な実施形態は、関連する図面を参照して本明細書に記載されている。本発明の代替的な実施形態は、本発明の範囲から逸脱することなく考案することができる。以下の記載および図面には、様々な接続および位置関係（例えば、上、下、隣接など）が要素間に記載されている。これらの接続もしくは位置関係またはその両方は、別段に指定のない限り、直接的または間接的とすることができ、本発明はこの点において限定されることを意図されていない。したがって、エンティティの結合は、直接的または間接的な結合のどちらかを参照することができ、エンティティ間の位置関係は、直接的または間接的な位置関係とすることができる。さらに、本明細書に記載される様々なタスクおよびプロセスステップは、本明細書で詳細に記載されない追加のステップまたは機能性を有するさらに包括的な手順またはプロセスに組み込むことができる。

以下の定義および略語は、特許請求の範囲および本明細書の解釈に用いられるべきである。本明細書中で使用されるように、用語「含む（ｃｏｍｐｒｉｓｅｓ）」、「含むこと（ｃｏｍｐｒｉｓｉｎｇ）」、「含む（ｉｎｃｌｕｄｅｓ）」、「含むこと（ｉｎｃｌｕｄｉｎｇ）」、「有する（ｈａｓ）」、「有すること（ｈａｖｉｎｇ）」、「含有する（ｃｏｎｔａｉｎｓ）」、もしくは「含有すること（ｃｏｎｔａｉｎｉｎｇ）」、またはそれらの任意のバリエーションは、非排他的な包含をカバーすることを意図されている。例えば、要素の列挙を含む組成物、混合物、プロセス、方法、物品、または装置は、必ずしもこれらの要素のみに限定されるものではなく、そのような組成物、混合物、プロセス、方法、物品、または装置に明示的に列挙されていないかまたは固有の他の要素を含むことができる。

さらに、「例示的」という用語は、本明細書では、「例、インスタンス、または例示としての機能を供する」ことを意味するために使用される。本明細書に記載される任意の実施形態または設計は、必ずしも、他の実施形態または設計よりも好ましいか、または有利であると解釈されるべきではない。用語「少なくとも１つ」および「１つまたは複数」とは、１以上の任意の整数、すなわち１、２、３、４、５などを含むものと理解され得る。用語「複数」とは、２以上任意の整数、すなわち２、３、４、５などを含むものと理解され得る。用語「接続「とは、間接的な「接続」と直接的な「接続」との両方を含み得る。

用語「約」、「実質的に」、「およそ」、およびそのバリエーションは、本願の出願時に利用可能な器具に基づくある具体的な量の測定に関連する誤差の程度を含むことが意図されている。例えば、「約」は、所与の値の±８％もしくは５％、または２％の範囲を含むことができる。

本発明の様々な実施形態の説明が、例示のために提示されるものとなるが、網羅的であること、または開示された実施形態に限定されることを意図するものではない。記載された実施形態の範囲および趣旨から逸脱することなく、多くの修正および変形が当業者には明らかになるであろう。本明細書で使用される用語は、実施形態の原理、実用的な適用、もしくは市場で発見された技術を超える技術的な改善を最も良く説明するために、または他の当業者が理解することを可能にするように選択されたものである。

図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実施形態のアーキテクチャ、機能性、および動作を説明する。この点に関して、フローチャートまたはブロック図の各ブロックは、指定されたロジック機能を実装するための１つまたは複数の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表すことがある。いくつかの代替的な実施形態では、ブロックに記載された機能は、図に記載された順序の外に生じ得る。例えば、連続して示される２つのブロックが、実際には、実質的に同時に実行されてもよいし、またはブロックが、関与する機能性に応じて、逆の順序で実行されてもよい。また、ブロック図もしくはフローチャート図またはその両方の各ブロック、ならびにブロック図もしくはフローチャート図またはその両方におけるブロックの組合せは、指定された機能もしくは動作を実行するか、または専用ハードウェアとコンピュータ命令との組合せを実施する、専用ハードウェアベースのシステムによって実装できることに留意されたい。

Claims

拡張された結果を含む命令を処理するシステムであって、
プロセッサ命令を実行するための第１の結果バスを有する第１の命令実行ユニットと、
前記第１の命令実行ユニットに通信可能に結合されており、プロセッサ命令を実行するための第２の結果バスを有する、第２の命令実行ユニットと
を含み、
前記第１の命令実行ユニットは、前記第２の命令実行ユニットが前記プロセッサ命令の実行に用いられない場合に、プロセッサ命令の実行中に、前記第１の命令実行ユニットにより計算された結果の一部を前記第２の命令実行ユニットに選択的に送信するように構成されており、前記第２の命令実行ユニットは、前記第１の命令実行ユニットにより計算された前記結果の一部を受信するように構成され、前記受信した部分を前記第２の結果バスに載置するように構成されている、
システム。
前記システムは、１組の命令実行ユニットをさらに含み、前記結果の異なる部分は、予め定義されたレーン・マスクに基づいて、前記命令実行ユニットのサブセットの異なる命令実行ユニットによって計算される、請求項１に記載のシステム。
前記第１の命令実行ユニットおよび前記第２の命令実行ユニットは、単一の命令、多重データ（ＳＩＭＤ）処理ユニットを含み、前記プロセッサ命令はＳＩＭＤ命令を含む、請求項２に記載のシステム。
前記第１の命令実行ユニットおよび前記第２の命令実行ユニットは、マスク・レジスタを含み、前記マスク・レジスタは、前記予め定義されたレーン・マスクを格納するように構成される、請求項３に記載のシステム。
前記実行されるプロセッサ命令によって生じる結果データの幅は、前記第１の結果バスの幅よりも大きく、前記第２の結果バスの幅よりも大きい、請求項１に記載のシステム。
前記第１の命令実行ユニットは、前記第２の命令実行ユニットに隣接して配置される、請求項１に記載のシステム。
前記プロセッサ命令は、ベクトル浮動小数点（ＦＰ）ロード延長命令を含む、請求項１に記載のシステム。
前記プロセッサ命令は、１つの演算サイクルで実行される、請求項１に記載のシステム。
前記第１の命令実行ユニットおよび前記第２の命令実行ユニットは、単一のトランザクション・モデルを採用するように構成される、請求項１に記載のシステム。
拡張された結果を含む命令を処理する方法であって、
受信したプロセッサ命令が、第１の命令実行ユニットの第１の結果バスの幅よりも大きくかつ第２の命令実行ユニットの第２の結果バスの幅よりも大きなデータ幅を有する結果を生じるか否かを判定すること、
前記受信したプロセッサ命令が、前記第１の結果バスの幅よりも大きくかつ前記第２の結果バスの幅よりも大きなデータ幅を有する結果を生じるか否かを判定することに応答して、前記受信したプロセッサ命令を実行するために前記第２の命令実行ユニットが利用されないか否かを判定することであって、前記第２の命令実行ユニットが、前記第１の命令実行ユニットに通信可能に結合されている、判定すること、
前記第２の命令実行ユニットが前記プロセッサ命令を実行するために使用されないという判定に応答して、前記第１の命令実行ユニットによって計算された結果の一部が、前記プロセッサ命令の実行中に前記第２の命令実行ユニットの前記第２の結果バスに選択的に送信されること
を含む方法。
前記第２の命令実行ユニットが、前記受信したプロセッサ命令を実行するために利用されないか否かを判定することは、前記第２の命令実行ユニットが、予め定義されたレーン・マスクに基づいて、前記受信したプロセッサ命令を実行するために利用されないか否かを判定することをさらに含む、請求項１０に記載の方法。
前記第１の命令実行ユニットおよび前記第２の命令実行ユニットは、単一の命令、多重データ（ＳＩＭＤ）処理ユニットを含み、前記プロセッサ命令はＳＩＭＤ命令を含む、請求項１１に記載の方法。
前記第１の命令実行ユニットおよび前記第２の命令実行ユニットは、マスク・レジスタを含み、前記マスク・レジスタは、前記予め定義されたレーン・マスクを格納するように構成される、請求項１２に記載の方法。
前記第１の命令実行ユニットは、前記第２の命令実行ユニットに隣接して配置される、請求項１０に記載の方法。
前記プロセッサ命令は、ベクトル浮動小数点（ＦＰ）ロード延長命令を含む、請求項１０に記載の方法。
前記プロセッサ命令は、１つの演算サイクルで実行される、請求項１０に記載の方法。
前記第１の命令実行ユニットおよび前記第２の命令実行ユニットは、単一のトランザクション・モデルを採用するように構成される、請求項１０に記載の方法。
拡張された結果を含む命令を処理するコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は、それを以て具現化されたプログラム命令を有するコンピュータ可読記憶媒体を含み、前記プログラム命令は、１つまたは複数のプロセッサに、
受信したプロセッサ命令が第１の命令実行ユニットの第１の結果バスの幅よりも大きくかつ第２の命令実行ユニットの第２の結果バスの幅よりも大きなデータ幅を有する結果を生じるか否かを判定すること、
前記受信したプロセッサ命令が前記第１の結果バスの幅よりも大きくかつ第２の結果バスの幅よりも大きなデータ幅を有する結果を生じるか否かを判定することに応答して、前記受信したプロセッサ命令を実行するために前記第２の命令実行ユニットが利用されないか否かを判定すること、
前記第２の命令実行ユニットが前記プロセッサ命令を実行するために使用されないという判定に応答して、前記第１の命令実行ユニットによって計算された結果の一部が、前記プロセッサ命令の実行中に前記第２の命令実行ユニットの前記第２の結果バスに選択的に送信されること
を含む方法を実行させるように前記１つまたは複数のプロセッサによって実行可能である、コンピュータ・プログラム製品。
前記第２の命令実行ユニットが、前記受信したプロセッサ命令を実行するために利用されないか否かを判定することは、前記第２の命令実行ユニットが、予め定義されたレーン・マスクに基づいて、前記受信したプロセッサ命令を実行するために利用されないか否かを判定することをさらに含む、請求項１８に記載のコンピュータ・プログラム製品。
前記第１の命令実行ユニットおよび前記第２の命令実行ユニットは、単一の命令、多重データ（ＳＩＭＤ）処理ユニットを含み、前記プロセッサ命令はＳＩＭＤ命令を含む、請求項１９に記載のコンピュータ・プログラム製品。