JP7385009B2

JP7385009B2 - 圧縮支援命令

Info

Publication number: JP7385009B2
Application number: JP2022515076A
Authority: JP
Inventors: エリックベインヴィル; アリサゼガリ
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-09-10
Filing date: 2020-09-08
Publication date: 2023-11-21
Anticipated expiration: 2040-09-08
Also published as: KR20220045012A; CN114365083A; US20230121984A1; DE112020004266T5; JP2022546615A; US11822921B2; US20210072994A1; GB2601668A; US20210342154A1; GB2601668B; US11086625B2; US11537399B2; WO2021050423A1; GB202202417D0

Description

本明細書に記載の実施形態は、プロセッサに関し、より具体的には、圧縮／解凍性能及び電力効率を改善するためのプロセッサにおける圧縮支援命令に関する。

圧縮は、コンピューティングデバイスにおいて様々な理由で使用される。例えば、ソフトウェアダウンロードは、ネットワークを介した配信のために圧縮されることができ、インストールのために標的コンピューティングデバイス上で解凍されることができる。携帯型コンピューティングデバイス（例えば、スマートフォン、携帯型デジタルアシスタント、タブレットコンピュータなど）など、場合によっては、ソフトウェアは、解凍され、インストールされ、次いでデバイス上で記憶するために再圧縮されることができる。様々なソフトウェアを圧縮形式で記憶することは、ラップトップ、デスクトップ、サーバなどのより大きなコンピューティングデバイスの記憶デバイスよりも制限されることがある、デバイス上の記憶空間を節約することができる。

圧縮／解凍は、主にソフトウェアに実装され、したがって、性能のコスト（及び電池などの制限された電源を有する携帯型デバイス上での電力消費）は、重要であり得る。圧縮アルゴリズムの有効性は、一般に、圧縮比と呼ばれる圧縮結果のサイズに対する圧縮されていない元のサイズの比に関して測定される。残念なことに、所与の圧縮アルゴリズムの有効性は、一般にその複雑さと相関しており、したがって、有効性のコストは、性能（例えば、待ち時間）及び電力である。

一実施形態では、プロセッサは、圧縮／解凍を実行するときにプロセッサの性能を改善するために圧縮ソフトウェアにおいて使用されることができる１つ以上の圧縮支援命令をサポートする。すなわち、圧縮／解凍タスクは、圧縮支援命令が使用される場合、それらが使用されない場合よりも迅速に実行され、かつ消費電力をより少なくすることができる。場合によっては、より効果的でより複雑な圧縮アルゴリズムのコストは、より効果的でなくより複雑な圧縮アルゴリズムのコストに低減されることができる。

下記の詳細な説明は、以下に簡単に記載する添付の図面を参照する。

有限状態エントロピー（ＦＳＥ）圧縮アルゴリズムに基づく解凍の一実施形態のブロック図である。複数のインターリーブされたＦＳＥシンボルストリームが同じデコーダ及びビットストリームを共有するＦＳＥアルゴリズムに基づく解凍の最適化の一実施形態のブロック図である。複数のインターリーブされたＦＳＥシンボル及び値ストリームが同じデコーダテーブルを共有するＦＳＥアルゴリズムに基づく解凍の最適化の別の実施形態のブロック図である。ビットスタック読み出し動作の一実施形態を示すブロック図である。ビットスタック書き込み動作の一実施形態を示すブロック図である。トップ解凍支援命令の一実施形態のためのレジスタ入力及び出力を示すブロック図である。ポップ解凍支援命令の一実施形態のためのレジスタ入力及び出力を示すブロック図である。作成圧縮支援命令の一実施形態のためのレジスタ入力及び出力を示すブロック図である。連結圧縮支援命令の一実施形態のためのレジスタ入力及び出力を示すブロック図である。プロセッサを含むシステムの一実施形態のブロック図である。図１０に示すベクトル実行ユニットの一実施形態のブロック図である。トップ命令を実行するためのプロセッサの一実施形態の動作を示すフローチャートである。ポップ命令を実行するためのプロセッサの一実施形態の動作を示すフローチャートである。作成命令を実行するためのプロセッサの一実施形態の動作を示すフローチャートである。連結命令を実行するためのプロセッサの一実施形態の動作を示すフローチャートである。

この開示で説明する実施形態には、各種の変更形態及び代替形態の余地があり得るが、その具体的な実施形態を例として図面に示し、本明細書で詳細に説明する。しかし、図面及び図面に関する詳細な説明は、開示する特定の形態に実施形態を限定することを意図しておらず、むしろその意図は、添付の請求項の趣旨及び範囲に含まれる全ての変更形態、均等形態、及び代替形態を網羅することであることを理解されたい。本明細書において用いられる表題は、構成を目的とするにすぎず、説明の範囲を制限するために用いることを意図していない。本出願を通して使用するとき、「～することができる、～し得る、～してもよい（ｍａｙ）」という語は、義務的な意味（すなわち、～しなければならないを意味する）ではなく、許容的な意味（すなわち、～する可能性を有することを意味する）で使用される。同様に、「含む（include、including、及びincludes）」という語は、「～を含むが、それに限定されるものではないこと」を意味する。本明細書で使用される用語「第１の」、「第２の」などは、名詞の前に付くラベルとして使用され、特に言及しない限りいかなるタイプの順序（例えば、空間的、時間的、論理的など）も意味しない。

本開示内で、（「ユニット」、「回路」、他の構成要素などと様々に呼ばれることがある）様々なエンティティは、１つ以上のタスク又は動作を実行するように「構成されている（configured）」ものとして記述又は請求されることがある。［１つ以上のタスクを実施する］ように構成されている［実在物］というこの表現は、本明細書では構造（すなわち、電子回路など、物理的なもの）を指すために使用される。より具体的には、この表現は、この構造が動作中に１つ以上のタスクを実施するように配置されたことを示すために使用される。構造は、その構造が現在動作していない場合でも、何らかのタスクを実行する「ように構成されている」と述べられることがある。「出力クロック信号を生成するように構成されているクロック回路」は、例えば、当該の回路が現在使用されていない（例えば、その回路に電源が接続されていない）場合でも、動作中にこの機能を実行する回路を網羅することを意図している。このように、何らかのタスクを実施するように「構成されている」ものとして記述又は具陳されるエンティティは、そのタスクを実装するように実行可能なデバイス、回路、プログラム命令を記憶したメモリなど、物理的なものを指す。この句は、本明細書では無形のものを指すために使用されない。概して、「～ように構成されている」に対応する構造を形成する回路は、ハードウェア回路を含み得る。ハードウェア回路は、組み合わせ論理回路、フロップ、レジスタ、ラッチなどのクロックド記憶デバイス、有限状態マシン、スタティックランダムアクセスメモリ又は埋め込みダイナミックランダムアクセスメモリなどのメモリ、カスタム設計回路、アナログ回路、プログラマブル論理アレイなどの任意の組み合わせを含むことができる。同様に、種々のユニット／回路／構成要素は、説明を簡便にするために、タスク（単数又は複数）を実行するものとして述べられることがある。そのような説明は、「～ように構成されている」という語句を含むものとして解釈されるべきである。

「～ように構成されている」という用語は、「～ように構成可能な」を意味することを意図していない。例えば、プログラムされていないＦＰＧＡは、何らかの特定の機能を実行する「ように構成可能」であり得るが、その機能を実行する「ように構成されている」とは見なされないであろう。適切なプログラミング後、ＦＰＧＡは次いで、その機能を実行する「ように構成されている」と言うことができる。

一実施形態では、本開示によるハードウェア回路は、回路の記述を、Ｖｅｒｉｌｏｇ又はＶＨＤＬなどのハードウェア記述言語（hardware description language、ＨＤＬ）でコーディングすることによって実装されてもよい。ＨＤＬ記述は、所与の集積回路製造技術のために設計されたセルのライブラリに対して合成されてもよく、タイミング、電力、及び他の理由のために修正されて、結果としてファウンドリに送信することができる最終設計データベースとなり、マスクを生成し、最終的に集積回路を製造することができる。いくつかのハードウェア回路又はその一部も、回路図エディタでカスタム設計して、合成された回路と共に集積回路設計に取り込むことができる。集積回路は、トランジスタを含んでもよく、他の回路素子（例えば、コンデンサ、抵抗、インダクタなどの受動素子）、及びトランジスタと回路素子との間の相互接続を更に含むことができる。いくつかの実施形態は、ハードウェア回路を実現するために一体的に接続された複数の集積回路を実装することができ、及び／又は、いくつかの実施形態では、個別の要素を使用することができる。あるいは、ＨＤＬ設計は、フィールドプログラマブルゲートアレイ（field programmable gate array、ＦＰＧＡ）などのプログラム可能な論理アレイに統合してもよく、ＦＰＧＡに実装してもよい。

本明細書で使用する「～に基づいて」又は「～に依存して」という用語は、判定に影響を及ぼす１つ以上の要因を記述するために使用される。この用語は、追加の要因が決定に影響を及ぼすことがある可能性を除外しない。すなわち、決定は、指定された要因のみに基づくか、又は、指定された要因並びに他の指定されていない要因に基づき得る。「Ｂに基づいてＡを判定する」という語句を検討する。この語句により、Ｂは、Ａを判定するために使用されるか、又はＡの判定に影響を及ぼす要因であることが特定される。この語句は、Ａの判定が、Ｃなど、何らかの他の要因にも基づき得ることを除外しない。この句は、ＡがＢのみに基づいて判定される一実施形態をも網羅することを意図している。本明細書で使用する「～に基づいて」という句は、「～に少なくとも部分的に基づいて」という句と同義である。

本開示が特定の一実施態様を指すことを意図しておらず、むしろ、添付の請求項を含む、本開示の趣旨内に入る幅広い実施形態を指すことを意図していることを示すために、本明細書は様々な実施形態への言及を含む。特定の特徴、構造、又は特性は、本開示と一貫性を有するいずれかの適切な方式で組み合わされてもよい。

本明細書では、「ａ」又は「ａｎ」という語を使用して要素を指す、又は「ｔｈｅ」という語を使用して要素を指す場合がある。これらの語は、要素の１つのインスタンスのみが存在することを意味することを意図するものではない。様々な実施形態では、２つ以上が存在し得る。したがって、「ａ」、「ａｎ」、及び「ｔｈｅ」は、１つのみとして明示的に表されない限り、「１つ以上」を意味すると解釈されるべきである。

本明細書は、結合されているような様々な構成要素、ユニット、回路などを説明することができる。いくつかの実施形態では、構成要素、ユニット、回路などは、それらが電気的に結合されている（例えば、１つ以上の他の回路を介して直接的に接続されている、又は間接的に接続されている）、及び／又は通信可能に結合されている場合に結合され得る。

上述したように、圧縮支援命令の様々な実施形態を実装するプロセッサが開示される。一般に、圧縮支援命令は、圧縮及び／又は解凍を実行するときにプロセッサの性能を改善するように設計された命令とすることができる。したがって、圧縮支援命令は、場合によっては、解凍にのみ使用されることが期待される命令とすることができる。他の場合には、圧縮支援命令は、圧縮のみ、又は圧縮及び解凍の双方で使用されることが期待されることができる。

圧縮支援命令及びそれらの用途を説明するために、有限状態エントロピー（ＦＳＥ）圧縮アルゴリズムのいくつかの実装が示されている。ＦＳＥは、例として使用されているが、圧縮の一部として１つ以上のビットストリーム又はビットスタックを使用する機構は、以下に記載される圧縮支援命令から利益を得ることができる。

図１は、ＦＳＥ圧縮データの解凍の一実施形態のブロック図である。図１に示すように、データは、テーブル１０及びビットストリーム１２を含む。すなわち、ＦＳＥ圧縮アルゴリズム単位でデータが圧縮される場合、テーブル１０及びビットストリーム１２が生成された。初期状態が使用されて、テーブル内の初期エントリを検索することができる。すなわち、状態（参照符号１６で図示）は、テーブル１０へのインデックスとすることができる。各エントリは、参照符号１４に示されるものと同様のデータを含むことができる。特に、エントリは、ベース、シンボル、及びビット数（ｎ）を含むことができる。シンボルは、出力データの一部であり、以前に読み出されたシンボルと組み立てられて、元のデータである出力データストリームを生成するように提供されることができる。すなわち、シンボルは、元のデータの一部であり、データストリームの終わりに連結されることができる（又は初期状態の場合、データストリームを初期化することができる）。ビット数（ｎ）は、ビットストリーム１２から消費されるビット数を指定して、ベースに追加されるデルタ値を提供して次の状態を生成することができる。次の状態は、初期状態を置き換え、次のシンボル及び次の状態が生成されることができるテーブルエントリを検索する。次の状態生成、検索、及びシンボル出力を繰り返すことは、非圧縮の元データであるシンボルストリームを連続的に生成することができる。ある時点で、テーブル内のエントリは、データの終わりに到達したことを示すことができる。あるいは、非圧縮データは、固定サイズであってもよく、したがって、次の状態生成、検索、及びシンボル出力は、固定された回数で起こってもよい（固定サイズシンボルと仮定する）。

図１の実施形態は、かなり連続的なプロセスであり、したがって、比較的遅い場合がある。様々な実施形態は、より並列な動作を実行することができる。例えば、図２では、４つの状態が並列に検索されることができる。４つの状態２４は、同じデコーダテーブル２６を共有する４つのインターリーブされたＦＳＥシンボルストリームに対応することができる。すなわち、シンボルストリームは、互いに独立することができるが、ビットスタック２０内でインターリーブされることができる。他の実施形態は、必要に応じて、より多くの又はより少ない並列状態／シンボルストリームを実装することができる。各状態２４は、テーブル２６からテーブルエントリ２２を読み出すことができる。各テーブルエントリ２２は、図１に示されるテーブルエントリ１４と同様とすることができる。並列に読み出された４つのテーブルエントリ２２の各々は、対応する出力シンボルストリームと連結されることができる（又は初期状態２４の対応する出力シンボルストリームを初期化するために）シンボルを提供することができる。各エントリは、ビットスタック２０からその指定されたビット数（ｎ）を消費する（図２の上部のエントリは、ビットスタック２０の上部のビットを読み出し、次のエントリダウンは、ビットスタック２０から次のビットを読み出すなどである）。したがって、上述したように、ビットスタック２０は、シンボルストリームのインターリーブされたビットフィールドを有することができる。結果デルタは、それぞれのエントリ２２からベースに追加されて、次の状態２４を生成する。

図３は、ＦＳＥアルゴリズムの並列化形式の別の実施形態を示している。図３の実施形態では、シンボルを直接テーブル３０に記憶する代わりに、シンボルは、テーブル３０（値ベース、又はＶＢａｓｅ）から読み出されたベース値から生成されることができ、別のビットスタック３２（値ビットスタック、又はＶＢｉｔスタック３２）から読み出されたデルタが使用されて、シンボルを生成することができる。すなわち、各シンボルは、ＶＢａｓｅで始まる値の範囲に対応することができ、復号プロセスの所与の点における特定の値は、ＶＢｉｔスタック３２からデルタを読み出し、それをＶＢａｓｅに追加することによって決定される。したがって、テーブルエントリ３４は、ＶＢａｓｅと、エントリから出力シンボルを生成するためにＶｂａｓｅに追加するようにデルタ（ＶＤｅｌｔａｓ）として使用されるＶＢｉｔスタック３２から消費するためのビット数（ｎｖ）とを含むことができる。更に、各エントリ３４は、各エントリからＳＢａｓｅに追加して次の状態３８を生成するためにデルタ（ＳＤｅｌｔａｓ）を形成するために状態ビットスタック３６（ＳＢｉｔスタック３６）から読み出すための状態ベース（ＳＢａｓｅ）及びビット数（ｎｓ）を含むことができる。一実施形態では、ＶＢｉｔスタック３２及びＳＢｉｔスタック３６は、スタック内でインターリーブされたＶＢｉｔ及びＳＢｉｔを有する単一ビットスタックとして実装されることができる。更に他の実施形態では、スタック内のＶｂｉｔとＳｂｉｔとのインターリーブと複数のスタックを実装することとの組み合わせが使用されることができる。例えば、１６個のシンボルストリームのセットは、４セットの４つのインターリーブシンボルストリーム（例えば、４ビットスタック）として表されることができる。

ベクトル命令を含むプロセッサにおいて図２又は図３に示される解凍を実行する１つの方法は、ベクトル演算を使用することである。例えば、４つのベクトル要素のベクトルがプロセッサによってサポートされる場合、図２及び図３の実施形態は、テーブルルックアップ、次の状態生成、及びシンボル値生成に関与する各動作についての１つのベクトル命令を使用して、テーブルルックアップ、次の状態生成、及びシンボル値生成を実行することができる。しかしながら、ビットスタック読み出し動作は、標準的なベクトル命令を使用してベクトル化することがより困難な場合がある。

一般に、ベクトル演算は、各ベクトル要素に対して、並列かつ独立して、１つ以上のベクトルオペランド内の複数のベクトル要素上で指定された演算を実行する。例えば、ベクトル加算演算は、ベクトルオペランド内の対応する位置にベクトル要素を加算し、ベクトル結果オペランドのベクトル要素として合計を生成することができる。４つの要素ベクトルは、ベクトル内の隣接するベクトル要素位置において列挙された順序で、ベクトル要素ＶＥ０、ＶＥ１、ＶＥ２、及びＶＥ３を有する。ベクトル加算は、ソースオペランドのＶＥ０要素を加算して、結果オペランドのＶＥ０要素を生成し、ソースオペランドのＶＥ１要素を加算して、結果オペランドのＶＥ１要素を生成する、などである。例えば、４つの要素ベクトルが使用されるが、他の実施形態は、ベクトルごとに異なる数のベクトル要素を使用することができ、及び／又はベクトルごとに複数のベクトル要素の数をサポートすることができる。例えば、１２８ビットベクトルレジスタセットは、２個の６４ビットベクトル要素、４個の３２ビットベクトル要素、８個の１６ビットベクトル要素、及び１６個の８ビットベクトル要素をサポートすることができる。異なるサイズのベクトル要素としてベクトルレジスタを使用するために、様々なベクトル命令が定義されることができる。

したがって、ベクトル演算／命令は、同じサイズであるベクトル要素上で十分に機能し、多くの演算を並行して実行して、ベクトル化可能なアルゴリズムの性能を改善することができる。しかしながら、ビットスタック読み出し動作（及び圧縮中の対応するビットスタック書き込み動作）は、可変サイズ操作であり得る。各ビットスタック読み出しは、１（又は場合によっては０ビット）からアルゴリズムによってサポートされる最大のビット数まで、任意のビット数とすることができる。例えば、図３のアルゴリズムの一実施形態では、１から３２ビットのビットスタック読み出しがサポートされることができる。ビットスタックを固定サイズ要素（例えば、実施例では３２ビット）として実装することは、アルゴリズムに対して達成可能な圧縮比を大幅に低減し、したがって、逆効果になる。

図１～図３に示されるものと同様の圧縮アルゴリズムの圧縮及び解凍を実行するためのベクトル演算の使用を強化するために、圧縮支援命令は、ビットスタックからベクトル要素へ（ビットスタック読み出し）、及びベクトル要素からパックされたビットスタックデータへ（ビットスタック書き込み）、ビットスタック読み出し及び書き込み動作を実行するように定義されている。

図４～図５は、一実施形態のための、ベクトルレジスタへの及びベクトルレジスタからのビットスタック読み出し動作及びビットスタック書き込み動作を示している。圧縮支援命令は、（圧縮支援命令を実行すると）プロセッサに、命令のオペランドを記憶する１つ以上のベクトルレジスタ内のデータをベクトル要素ではなくビットスタックデータとして解釈させるように定義されている。したがって、ビットスタックの一部は、本明細書で定義される圧縮支援命令を使用して、ベクトルレジスタにロードされ、処理されることができる。任意のベクトルレジスタが、そのようなオペランドとして指定されることができる。それは、プロセッサにベクトル要素の代わりにビットスタックデータとしてレジスタデータを解釈させる圧縮支援命令の特定のオペランドとしてのベクトルレジスタのコード化である。

図４は、ビットスタック読み出し動作を示している。ビットスタックの上位を含むビットスタック４０の一部が図４に示されている。ビットスタックの上位は、図４の左側にあることができ、デルタｘ３（スタックの上部）、ｘ２（スタックの上位の隣）、ｘ１、及びｘ０並びにそれらの下位の追加の値を含むことができる。図４のｘ３、ｘ２、ｘ１、及びｘ０の幅は、各値が１つ以上のビットであり、かつ変化することができることを示すために変化する。第１のベクトルレジスタ４２は、スタック上の上位４つのデルタのサイズ（ｘ３に対応するｂ３、ｘ２に対応するｂ２など）を記憶する４つのベクトル要素を有する。レジスタ４２は、次の状態のセットに基づく所与のテーブル読み出しについての図２のフィールド「ｎ」から、又は所与のテーブル読み出しについての図３のフィールド「ｎｖ」若しくは「ｎｓ」からロードされることができる。図３の実施形態では、一方は「ｎｖ」及び一方は「ｎｓ」である２つのベクトルレジスタが使用されてもよい。一般に、ベクトルロード命令又は複数の命令は、テーブル読み出しを実行することができ、ビットスタック読み出しを実行するためにレジスタ４２内のサイズ値を分離するための追加のベクトル命令が存在することができる。

レジスタ４２内のサイズに基づいて、ビットフィールドｘ３、ｘ２、ｘ１、及びｘ０がビットスタックの上位から結果ベクトルレジスタ４４に抽出されることができ、ビットスタックが更新されて、抽出ビットフィールドを削除することができる。したがって、図４の更新されたスタック４６は、スタックの上位に残りの追加値を含む。スタック４０及び４６は、スタックの上位がメモリ内に移動するように、メモリ内の値を示すことができる。以下に説明するように、スタックの上位がレジスタにロードされると、ビットスタック読み出しは、（例えば、レジスタの最上位ビット、又はＭＳＢがスタックの上位にビットを有するように）レジスタ内に残されたスタックの新たな上位をシフトすることを含むことができる。

ビットスタック読み出し動作は、解凍プロセスの一部とすることができる。ビットスタックの作成は、圧縮アルゴリズムがシンボルを決定し、テーブルエントリ及びビットスタックを生成するため、ビットスタック書き込み動作を含むことができる。図５は、ビットスタック書き込み動作を示している。

図５の初期ビットスタック４８は、図４の更新されたビットスタック４６と同様に、スタックの上位に追加値を含む。ビットスタック書き込みの一部としてビットスタックにより多くのビットフィールドをプッシュすることを示すために、図４のビットスタック４８の上位の左側に空間が示されている。ベクトルレジスタ５０は、各ビットフィールド（ｘ３に対応するｂ３、ｘ２に対応するｂ２など）のサイズに対応するベクトル要素でコード化されることができる。別のベクトルレジスタ５２は、ベクトル要素（ｘ３、ｘ２など）としてビットフィールドを有することができる。ベクトルレジスタ５０及び５２は、他のベクトル命令を使用して、圧縮アルゴリズムにしたがって計算されることができる。ビットスタック書き込み動作は、ビットフィールドｘ３、ｘ２、ｘ１、及びｘ０を連結し、それらをビットスタック内で隣接させ、ビットフィールドをビットスタックの上位に書き込み、図５に示される更新されたビットスタック５４を生成する。

図４に示すビットスタック読み出し動作を実装するために、本明細書に記載のプロセッサは、一対の圧縮支援命令を含むことができる。これらの命令は、本明細書では「トップ」及び「ポップ」と呼ばれる。トップ命令は、実行されると、プロセッサに、ビットスタックの上位（以下に説明するように、ベクトルレジスタに記憶されることができる）から結果ベクトルレジスタのベクトル要素に複数のビットフィールドを抽出させることができる。ポップ命令は、実行されると、プロセッサに、スタックの上位からビットフィールドを削除させ、スタックの上位を、トップ命令を使用して抽出されていないビットフィールドの次のセットに移動させることができる。

図６は、一実施形態のための、トップ命令のソースオペランド及び結果オペランドのブロック図である。図６の上部では、トップ命令のためのニーモニックが、結果ベクトルレジスタ（ＲＶ）、ソーススタックレジスタ（ＳＳＲ）、及びソースサイズベクトルレジスタ（ＳＳＶ）と共に示されている。ソーススタックレジスタの内容は、参照符号６０で示され、ソースサイズベクトルレジスタの内容は、参照符号６２で示され、トップ命令の実行後の結果ベクトルレジスタの内容は、参照符号６４で示されている。

前述したように、スタックレジスタは、ベクトルレジスタであってもよいが、プロセッサは、レジスタが圧縮支援命令のうちの１つのスタックオペランドとして指定されることによって、内容を異なって解釈してもよい。ベクトルレジスタがビットスタックデータを記憶しているとき、レジスタは、ビットスタックフィールド６６及びビットカウントフィールド６８を含むことができる。ビットスタックフィールドは、この実施形態では、レジスタのＭＳＢ内に複数のビットのＭＳＢを有する複数のビットとすることができる。複数のビットのＭＳＢは、ビットスタックの上位ビットとすることができる。ビットカウントフィールド６８は、現在スタックレジスタ内にあるビット数（例えば、ビットスタックフィールド６６内の複数のビットの数）とすることができる。一実施形態では、ベクトルレジスタは、１２８ビットであってもよく、ビットカウントフィールドは、８ビットであってもよい。したがって、この実施形態では、ビットスタックフィールド６６は、最大１２０ビットとすることができる。他の実施形態は、異なるサイズのベクトルレジスタを実装し、より大きい又はより小さいビットスタックフィールド及びビットカウントフィールドをサポートしてもよい。

ビットスタックフィールド６６内で、ビットフィールドｘ３、ｘ２、ｘ１、及びｘ０が図６で識別される。ビットフィールドは、ソースサイズベクトルレジスタ６２内のサイズによって定義される。より具体的には、ソースサイズベクトルレジスタ６２は、サイズのベクトルとすることができる。すなわち、サイズは、対応するビットフィールド内のビット数のカウントとすることができる。サイズは、例えば、整数であってもよい。図示の実施形態では、ソースサイズベクトル６２に以下の４つのベクトル要素が存在する：ベクトル要素３（ＶＥ３）、ＶＥ２、ＶＥ１、及びＶＥ０。各ベクトル要素は、対応するビットフィールドのサイズを指定する。したがって、ビットフィールドｘ３は、ビットスタックフィールド６６の最上位のｂ３ビットとすることができる。ビットフィールドｘ２は、ビットフィールドｘ３に隣接することができ（例えば、ビットフィールドｘ２のＭＳＢは、ビットフィールドｘ３の最下位ビット、又はＬＳＢに隣接することができる）、サイズがｂ２ビットとすることができる。ビットフィールドｘ１は、ビットフィールドｘ２に隣接することができ、サイズがｂ１ビットとすることができ、ビットフィールドｘ０は、ビットフィールドｘ１に隣接することができ、サイズがｂ０ビットとすることができる。ビットスタックフィールド６６内の残りのビットは、図６において「ｐ」とラベル付けされている。ｐのＭＳＢは、ビットスタック内の次のビットフィールドのＭＳＢとすることができ、これは、テーブル２６又は３０から読み出される次のテーブルによって定義されることができる。レジスタ６２内のサイズフィールドは、図６においてベクトル要素上の一部を占めるように示されているが、フィールドは、ベクトル要素全体まで占めることができる。更にまた、結果ベクトルレジスタ６４内の抽出ビットフィールドは、ベクトル要素のフルサイズまでとすることができるが、各個々のフィールドのサイズは、サイズベクトルからの対応するベクトル要素によって制御される。

ソースサイズベクトルレジスタ６２内のサイズフィールドに基づいて、トップ命令を実行するプロセッサは、ビットフィールドを結果ベクトルレジスタ６４の対応するベクトル要素に抽出するように構成されることができる。したがって、ｘ３は、結果ベクトルレジスタ６４の要素ＶＥ３であり、ソースサイズベクトルレジスタ６２のＶＥ３のサイズｂ３に基づいて抽出され、ｘ２は、結果ベクトルレジスタ６４の要素ＶＥ２であり、ソースサイズベクトルレジスタ６２のＶＥ２のサイズｂ２に基づいて抽出され、ｘ３は、ビットスタックフィールド６６のＭＳＢから並列に抽出されるため、ｂ３によっても影響を受ける。ｘ１は、結果ベクトルレジスタ６４の要素ＶＥ１であり、ソースサイズベクトルレジスタ６２のＶＥ１のサイズｂ１に基づいて抽出され、ｂ３及びｂ２によっても影響を受け、ｘ０は、結果ベクトルレジスタ６４の要素ＶＥ０であり、ソースサイズベクトルレジスタ６２のＶＥ０のサイズｂ０に基づいて抽出され、ｂ３、ｂ２、及びｂ１によっても影響を受ける。

図７は、一実施形態のための、ポップ命令のソースオペランド及び結果オペランドのブロック図である。図７の上部では、ポップ命令のためのニーモニックが、結果スタックレジスタ（ＲＳＲ）、ソーススタックレジスタ（ＳＳＲ）、及びソースサイズベクトルレジスタ（ＳＳＶ）と共に示されている。ソーススタックレジスタの内容は、参照符号６０で示され、ソースサイズベクトルレジスタの内容は、参照符号６２で示され、ポップ命令の実行後の結果スタックレジスタの内容は、参照符号７０で示されている。ポップ命令は、ビットフィールドｘ３、ｘ２、ｘ１、及びｘ０の抽出及び消費を反映するようにビットスタックの内容を調整するために、トップ命令とペアにされることが意図されることができる。したがって、同じソースレジスタ６０及び６２が示されている。しかしながら、ポップ命令は、一般に、任意のソースレジスタでコード化されてもよい。

上述したように、ポップ命令を実行するプロセッサは、トップ命令によって消費されたビットフィールドに対応するビットを削除する。したがって、ポップ命令は、ソースサイズベクトルレジスタ６２からのサイズベクトル要素ｂ３、ｂ２、ｂ１、及びｂ０の合計を使用して、レジスタのＭＳＢから始まる、削除するビット数を識別することができる。残りのビット（ｐ）は、ｐのＭＳＢが結果スタックレジスタ７０のＭＳＢであるようにシフトされることができる。更に、ビットカウントフィールド（ｎ’）は、ソーススタックレジスタ６０内のビットカウントフィールドｎからサイズベクトル要素の合計を減算することによって、参照符号７２に示されるように計算されることができる。

結果スタックレジスタ７０は、ポップ命令においてソーススタックレジスタ６０と同じレジスタであるようにコード化されることができ、したがって、トップ命令を使用して次のスタック読み出し動作のためにソーススタックレジスタ６０を更新して、ビットフィールドの次のセットを抽出することができることに留意されたい。スタックレジスタ内のビットスタックフィールドが枯渇すると、ロード命令を介してメモリ内の残りのビットスタックから補充されることができる。ベクトルロード命令は、単にデータをレジスタにロードすることができるため、ベクトルロード命令を使用することができる。それは、プロセッサにベクトル要素の代わりにビットスタックとして内容を解釈させるスタックレジスタオペランドとしてのレジスタの使用である。

トップ及びポップ命令は、解凍に有用であり得る圧縮支援命令とすることができる。いくつかの実施形態では、１つ以上の圧縮支援命令が、圧縮のために同様に定義されることができる。特に、圧縮支援命令は、図５に示されるビットスタック書き込み動作に対して定義されることができる。一実施形態では、以下の２つの圧縮支援命令が定義される：「作成」及び「連結」。

図８は、一実施形態のための、作成命令のソースオペランド及び結果オペランドのブロック図である。図８の上部では、作成命令のためのニーモニックが、結果スタックレジスタ（ＲＳＲ）、ソースベクトルレジスタ（ＳＶ）、及びソースサイズベクトルレジスタ（ＳＳＶ）と共に示されている。様々なベクトル命令が実行されて、ビットスタック書き込み動作が実行される準備が整ったときにソースベクトルレジスタ８０及びソースサイズベクトルレジスタ８２内にあることができる、ビットフィールド及び対応するサイズのベクトルを生成することができる。レジスタ８０及び８２は、図８に示されており、ビットフィールドを記憶するベクトル要素（レジスタ８０）及びサイズを記憶する対応するベクトル要素（レジスタ８２）を含む。したがって、レジスタ８０のＶＥ３は、サイズｂ３のビットフィールドｘ３（レジスタ８２のＶＥ３）であり、レジスタ８０のＶＥ２は、サイズｂ２のビットフィールドｘ２（レジスタ８２のＶＥ２フィールド）であるなどである。プロセッサが作成命令を実行すると、プロセッサは、ソースベクトルレジスタ８０からのビットフィールドを結果スタックレジスタ８４のＭＳＢにパックし、複数のビット内の隣接するビット位置にビットフィールドｘ３、ｘ２、ｘ１、及びｘ０を含む結果スタックレジスタ８４のＭＳＢに複数のビットを形成することができる（例えば、ｘ３のＬＳＢは、ｘ２のＭＳＢに隣接し、ｘ２のＬＳＢは、ｘ１のＭＳＢに隣接する、などである）。ビットカウントフィールド「ｎ」は、参照符号８６に示されるように、レジスタ８２からのサイズベクトル要素の合計として計算されることができる。

作成命令は、ビットフィールドのベクトルから複数のビットを作成する。連結命令は、作成命令の結果をビットスタックの以前のバージョンに挿入する（例えば、複数のビットをビットスタックにプッシュする）ために使用されることができる。連結命令はまた、ビットスタック読み出し動作において使用されて、枯渇したビットスタックレジスタをメモリから補充することもできる。例えば、ビットスタックの次の部分は、メモリからベクトルレジスタにロードされることができ、ビットスタック読み出しに使用されるビットスタックレジスタに連結されることができる。

図９は、一実施形態のための、連結命令のソースオペランド及び結果オペランドのブロック図である。図９の上部では、連結命令のためのニーモニックが、結果スタックレジスタ（ＲＳＲ）、ソーススタックレジスタ１（ＳＳＲ１）、及びソーススタックレジスタ２（ＳＳＲ２）と共に示されている。ソーススタックレジスタ１及び２は、それぞれ、参照符号８８及び９０で示されている。各ソーススタックレジスタは、複数のビット（レジスタ８８内のｐ１、レジスタ９０内のｐ２）を含むことができる。ビットカウントフィールドは、複数のビットの数（レジスタ８８内のｎ１、レジスタ９０内のｎ２）を示す。連結命令を実行するプロセッサは、ｐ２ビットをｐ１ビットに連結し、結果スタックレジスタ９２に示されるように、より大きな複数のビットを作成することができる。結果スタックレジスタにフィールドされたビットカウントは、ビットカウントフィールドｎ１及びｎ２の合計として参照符号９４に示されるように計算されることができる。

図６～図９の実施形態は、４つのベクトル要素を有するベクトルを示しているが、他の実施形態は、より多くの又はより少ないベクトル要素（例えば、２、８、１６など）を有するベクトルをサポートしてもよい。更に、前述したように、いくつかの実施形態は、異なる数のベクトル要素を有するベクトルを使用するために、圧縮支援命令を含むベクトル命令の複数のバージョンをサポートすることができる（又は即値フィールドなどのオペランドは、その命令についてのベクトル内にいくつのベクトル要素があるかを選択することができる）。

図１０は、コンピュータシステム１００の一実施形態のブロック図である。コンピュータシステム１００は、プロセッサ１０２と、レベル２（Ｌ２）キャッシュ１０６と、メモリ１０８と、大容量記憶デバイス１１０とを含む。図示のように、プロセッサ１０２は、レベル１（Ｌ１）キャッシュ１０４と、Ｌ１キャッシュ１０４及びレジスタファイル１１２に結合された実行コア１２０とを含む。実行コア１２０は、図示のように、整数実行ユニット１１４、浮動小数点（ＦＰ）実行ユニット１１６、及びベクトル実行ユニット１１８などの１つ以上の実行ユニットを含むことができる。様々な実施形態では、実行ユニット１１４、１１６、及び１１８は、レジスタファイル１１２に結合されてもよく、及び／又は異なるオペランドタイプのための複数のレジスタファイル１１２が存在してもよい。コンピュータシステム１００において特定の構成要素が示されて説明されるが、代替の実施形態では、異なる構成要素及び構成要素の数がコンピュータシステム１００に存在してもよいことに留意されたい。例えば、コンピュータシステム１００は、メモリ階層のいくつか（例えば、Ｌ２キャッシュ１０４、メモリ１０８、及び／又は大容量記憶デバイス１１０）を含まなくてもよい。プロセッサ１０２と同様の複数のプロセッサが含まれてもよい。所与のタイプの複数の実行ユニット（例えば、整数、浮動小数点、ベクトル、ロード／記憶など）が含まれてもよく、所与のタイプの実行ユニットの数は、別のタイプの実行ユニットの数とは異なってもよい。更に、Ｌ２キャッシュ１０６は、プロセッサ１０２の外部に示されているが、他の実施形態では、Ｌ２キャッシュ１０６は、プロセッサ１０２の内部にあってもよいことが企図される。そのような実施形態では、レベル３（Ｌ３）キャッシュ（図示せず）が使用されてもよいことに更に留意されたい。更に、コンピュータシステム１００は、バス、ネットワーク、又は別の適切な通信チャネルを用いてプロセッサ１０２に接続されたグラフィックスプロセッサ、ビデオカード、ビデオキャプチャデバイス、ユーザインターフェースデバイス、ネットワークカード、光ドライブ、及び／又はその他の周辺デバイスを含むことができる（簡略化のために、全て図示せず）。

様々な実施形態では、プロセッサ１０２は、計算動作を実行する汎用プロセッサを表すことができる。例えば、プロセッサ１０２は、マイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）などの中央処理ユニット（ＣＰＵ）とすることができる。プロセッサ１０２は、スタンドアロン構成要素であってもよく、又は他の構成要素（例えば、他のプロセッサ、又はシステムオンチップ（ＳＯＣ）の他の構成要素など）を有する集積回路上に集積されてもよい。プロセッサ１０２は、他の構成要素を有するマルチチップモジュール（ＭＣＭ）内の構成要素であってもよい。

より具体的には、図１に示すように、プロセッサ１０２は、実行コア１２０を含むことができる。実行コア１２０は、プロセッサ１０２によって実装される命令セットアーキテクチャにおいて定義された命令を実行するように構成されることができる。実行コア１２０は、必要に応じて、任意のマイクロアーキテクチャ及び実装特徴を有することができる。例えば、実行コア１２０は、スーパースカラ又はスカラ実装を含むことができる。実行コア１２０は、順序内又は順序外実装、及び推測的又は非推測的実装を含むことができる。実行コア１２０は、上記の特徴の任意の組み合わせを含むことができる。実装は、いくつかの実施形態では、マイクロコードを含むことができる。実行コア１２０は、様々な実行ユニットを含むことができ、各実行ユニットは、様々なタイプの動作（例えば、整数実行ユニット１１４、浮動小数点実行ユニット１１６、ベクトル実行ユニット１１８、ロード／記憶実行ユニット（図示せず）など）を実行するように構成されている。実行コア１２０は、異なる数のパイプラインステージ及び分岐予測などの様々な他の性能向上特徴を含むことができる。実行コア１２０は、命令復号ユニット、スケジューラ、又は予約ステーション、並べ替えバッファ、メモリ管理ユニット、Ｉ／Ｏインターフェースなどのうちの１つ以上を含むことができる。

レジスタファイル１１２は、様々な命令のオペランドを記憶するために使用されることができるレジスタのセットを含むことができる。レジスタファイル１１２は、実行コア１２０がレジスタに記憶するように構成されているオペランドのタイプ（例えば、整数、浮動小数点、ベクトルなど）に基づいて、様々なデータタイプのレジスタを含むことができる。レジスタファイル１１２は、アーキテクチャレジスタ（すなわち、プロセッサ１０２によって実装される命令セットアーキテクチャで指定されるレジスタ）を含むことができる。代替的又は追加的に、レジスタファイル１１２は、（例えば、レジスタリネーミングが実行コア１２０に実装される場合）物理レジスタを含むことができる。

Ｌ１キャッシュ１０４は、任意のキャッシュ構造を例示することができる。例えば、Ｌ１キャッシュ１０４は、ハーバードアーキテクチャ（命令フェッチのための別個の命令キャッシュ及びメモリ参照動作のための実行ユニットによるデータ読み出し／書き込みのためのデータキャッシュ）、共有命令及びデータキャッシュなどとして実装されてもよい。いくつかの実施形態では、メモリ参照動作を実行するためにロード／記憶実行ユニットが提供されてもよい。

命令は、プロセッサ１０２によって実装される命令セットアーキテクチャで定義された実行可能エンティティであってもよい。既存の様々な命令セットアーキテクチャが存在する（例えば、Ｉｎｔｅｌによって開発されたｘ８６アーキテクチャオリジナル、ＡＲＭホルディングからのＡＲＭ、ＩＢＭ／ＭｏｔｏｒｏｌａからのＰｏｗｅｒ及びＰｏｗｅｒＰＣなど）。各命令は、メモリにおけるその符号化、その動作、並びにレジスタ、メモリ場所、及び／又は他のプロセッサ状態へのその影響を含む、命令セットアーキテクチャで定義される。命令セットアーキテクチャの所与の実装は、各命令を直接実行することができるが、その形式は、プロセッサハードウェア内の復号及び他の操作によって変更されることができる。別の実装は、少なくともいくつかの命令を、プロセッサ１０２内の実行ユニットによる実行のための複数の命令動作に復号することができる。いくつかの実施形態では、いくつかの命令は、マイクロコード化されることができる。したがって、「命令動作」という用語は、本明細書では、プロセッサ１０２／実行コア１２０内の実行ユニットが単一のエンティティとして実行するように構成されている動作を指すために使用されることができる。命令は、命令動作と１対１対応を有することができ、場合によっては、命令動作は、命令（プロセッサ１０２／実行コア１２０の内部の形態で変更されることができる）とすることができる。命令はまた、命令動作と１対複数（１対多数）の対応関係を有することができる。命令動作は、本明細書ではより簡単に「ｏｐ」と呼ばれることがある。

大容量記憶デバイス１１０、メモリ１０８、Ｌ２キャッシュ１０、及びＬ１キャッシュ１０４は、プロセッサ１０２についてのデータ及び命令を記憶するメモリ階層を集合的に形成する記憶デバイスである。より具体的には、大容量記憶デバイス１１０は、長いアクセス時間を有するディスクドライブ又は大型フラッシュメモリユニットなどの大容量不揮発性メモリとすることができ、Ｌ１キャッシュ１０４、Ｌ２キャッシュ１０６、及びメモリ１０８は、アクセス時間がより短く、より小さくすることができる。これらのより高速半導体メモリは、頻繁に使用されるデータのコピーを記憶する。メモリ１０８は、メモリデバイスの動的ランダムアクセスメモリ（ＤＲＡＭ）ファミリー内のメモリデバイスを表すことができる。メモリ１０８のサイズは、典型的には、Ｌ１キャッシュ１０４及びＬ２キャッシュ１０６よりも大きいが、Ｌ１キャッシュ１０４及びＬ２キャッシュ１０６は、典型的には、デバイスのスタティックランダムアクセスメモリ（ＳＲＡＭ）ファミリーにおけるより小さなデバイスを使用して実装される。いくつかの実施形態では、Ｌ２キャッシュ１０６、メモリ１０８、及び大容量記憶デバイス１１０は、コンピュータシステム１００内の１つ以上のプロセッサ間で共有される。

いくつかの実施形態では、メモリ階層内のデバイス（すなわち、Ｌ１キャッシュ１０４など）は、サイクルごとに複数のキャッシュラインにアクセスする（すなわち、読み出す及び／又は書き込む）ことができる。これらの実施形態は、非連続メモリアドレスに対するポインタ又は配列インデックスのベクトルに基づいて発生するメモリアクセスのより効果的な処理を可能にすることができる。

以下に記載されるデータ構造及びプログラム命令（すなわち、コード）は、コンピュータシステム（例えば、コンピュータシステム１００）によって使用するためのコード及び／又はデータを記憶することができる任意のデバイス又は記憶媒体とすることができる非一時的コンピュータ可読記憶デバイスに記憶されることができることに留意されたい。一般的に言えば、非一時的コンピュータ可読記憶デバイスは、揮発性メモリ、不揮発性メモリ、ディスクドライブ、磁気テープ、コンパクトディスク（ＣＤ）、デジタル多用途ディスク若しくはデジタルビデオディスク（ＤＶＤ）などの磁気及び光記憶デバイス、又は現在知られている若しくは後に開発されるコンピュータ可読媒体を記憶することができる他の媒体を含むが、これらに限定されない。したがって、大容量記憶デバイス１１０、メモリ１０８、Ｌ２キャッシュ１０、及びＬ１キャッシュ１０４は、全て非一時的なコンピュータ可読記憶媒体の例である。

上述したように、実行コア１２０は、（例えば、ベクトル実行ユニット１１８内の）ベクトル命令を実行するように構成されることができる。ベクトル命令は、複数のデータ要素に対して並列に実行される同じ演算を定義することができるという点で、古典的な意味での単一命令複数データ（ＳＩＭＤ）命令として定義されることができる。命令のインスタンスによって操作されるデータ要素は、ベクトルと呼ばれる場合がある。ベクトルを形成するデータ要素は、ベクトル要素と呼ばれる場合がある。ベクトル要素自体は、任意のデータタイプ（例えば、整数、浮動小数点など）を有することができ、２つ以上のデータタイプがベクトル要素に対してサポートされることができる。

一実施形態では、レジスタファイル１１２は、オペランドベクトル及び結果ベクトルを保持することができるベクトルレジスタを含むことができる。いくつかの実施形態では、ベクトルレジスタファイル内に３２個のベクトルレジスタが存在し得る。しかしながら、代替の実施形態では、異なる数のベクトルレジスタ及び／又はレジスタあたり異なる数のビットが存在してもよい。更にまた、レジスタリネーミングを実装する実施形態は、アーキテクチャ化されたベクトルレジスタに割り当てられることができる任意の数の物理レジスタを含むことができる。アーキテクチャ化されたレジスタは、ベクトル命令内のオペランドとして指定可能なレジスタとすることができる。

より具体的には、ベクトル実行ユニット１１８は、算術演算、論理演算、シフトなどの様々なベクトル演算に加えて、本明細書に記載の圧縮支援命令（又は圧縮支援命令から復号された命令動作）を実行するように構成されることができる。

図１１は、様々な圧縮支援命令を実行するように構成された回路を含む、ベクトル実行ユニット１１８の少なくとも一部の一実施形態のブロック図である。図１１に示される回路は、他のタイプのベクトル演算と共有される回路及び／又は圧縮支援命令専用の回路、又はそれらの任意の組み合わせを含むことができる。ベクトル実行ユニット１１８は、実行される命令動作のための入力、並びにソースオペランドＶ１及びＶ２に結合される。結果演算は、命令動作の一部として指定されてもよく、結果と共にレジスタファイル１１２に転送されてもよい。

制御回路１３０は、命令動作を受信することができ、それに応じてベクトル実行ユニット１１８内の他の回路を制御することができる。したがって、制御回路１３０は、図１１に示される他の回路に結合されてもよいが、図面を複雑にすることを回避するために、接続は図１１には明示的に示されていない。第２のソースオペランドＶ２に結合されることができる加算器回路１３２が設けられることができる。加算器回路１３２は、ベクトルＶ２の様々な要素を加算するように構成されることができる。例えば、ソースオペランドＶ２がサイズベクトルである場合、サイズの合計は、命令動作の実行中に使用されることができる。全てのベクトル要素の合計は、結果オペランドがスタックレジスタであるとき、ビットカウントフィールド（ｎ）の更新に使用されることができる。更に、ベクトル要素の部分合計も同様に使用されることができる。

例えば、トップ命令は、部分合計及びベクトル要素のサイズに基づいて、スタックのＭＳＢを右シフトすることによって実装されることができる。４つのベクトル要素の場合では、ベクトル要素が３２ビットのサイズである場合、３２－ｂ３による３２個のＭＳＢの右シフトは、ｘ３を結果ベクトル内のＶＥ３要素に位置合わせされることができる（例えば、ベクトル要素サイズ（Ｖｓ）－ｂ３による右シフト）。同様に、６４－（ｂ３＋ｂ２）による６４個のＭＳＢの右シフトは、ｘ２を結果ベクトル内のＶＥ２要素に位置合わせさせることができる（例えば、２Ｖｓ－（ｂ３＋ｂ２））。９６－（ｂ３＋ｂ２＋ｂ１）による９６個のＭＳＢの右シフトは、ｘ２を結果ベクトル内のＶＥ１要素に位置合わせさせることができる（例えば、３Ｖｓ－（ｂ３＋ｂ２＋ｂ１））。１２８－（ｂ３＋ｂ２＋ｂ１＋ｂ０）による１２８個のＭＳＢの右シフトは、ｘ０を結果ベクトル内のＶＥ０要素に位置合わせさせることができる（例えば、４Ｖｓ－（ｂ３＋ｂ２＋ｂ１＋ｂ０））。他の要素サイズ及び要素の数が同様に実装されることができる。したがって、シフト回路１３４Ａ～１３４Ｎは、トップ命令を実行するために、加算器回路１３２からのＶ１オペランド及びそれぞれの合計に結合されることができる。対応するマスク回路１３６Ａ～１３６Ｎは、シフト回路１３４Ａ～１３４Ｎの出力に結合されて、ベクトル要素の一部ではないビットをマスクすることができる（例えば、ｘ３及びｘ２は、ソーススタックレジスタに隣接し、ｘ３のビットのうちのいくつかは、シフト後にＶＥ２要素のＭＳＢにあり得てマスクされることができるため）。個々のシフト回路１３４Ａ～１３４Ｎ及びマスク回路１３６Ａ～１３６Ｎが図１１に示されているが、他の実施形態は、所与のベクトルのサイズに基づいて、各ベクトル要素位置のシフトを制御するために制御回路１３０からの制御入力を有する共有シフト回路を実装してもよい。すなわち、共有シフト回路は、所与のオペランドのベクトル要素のサイズに基づいて、２個の６４ビットシフト、４個の３２ビットシフト、８個の１６ビットシフト、又は１６個の８ビットシフトを実行するように定義されることができる。制御入力は、所与の命令動作に対して選択されたサイズに基づいて実行される正しいシフトを選択することができる。したがって、シフト回路１３４Ａ～１３４Ｎ及びマスク回路１３６Ａ～１３６Ｎは、ソーススタックレジスタ内の複数のビットから結果ベクトルレジスタのベクトル要素へのビットフィールドの抽出の一実装であり得る。

ポップ命令／命令動作のためにシフト回路１４０が設けられることができる。シフト回路１４０は、（加算器回路１３２によって提供される）サイズベクトルレジスタのサイズの合計だけスタックレジスタオペランドをシフトさせることができる。したがって、シフト回路１４０は、加算器１３２及びＶ１ソースオペランドに結合されることができる。あるいは、シフト回路１３４Ａ～１３４Ｎは、ポップ命令動作のシフトも実行するように構成されてもよく、シフト回路１３６は、必要とされなくてもよい。計算ｎ回路１３８は、ポップ命令／命令動作並びに作成及び連結命令／命令動作のための更新されたｎを計算するために使用されることができる。計算ｎ回路１３８は、加算器回路１３２に結合されることができ、ベクトル要素のサイズ（例えば、ｂ３＋ｂ２＋ｂ１＋ｂ０）の合計を受信して、ポップについてｎを計算し、命令／命令動作を作成することができる。

作成命令／命令動作はまた、一実施形態では、ソースベクトル要素を結果のＭＳＢに送信するために、シフト回路１３４Ａ～１３４Ｎを使用して実行されることができる。例えば、ｘ３要素は、ｘ３要素のサイズ（ｂ３）（例えば、Ｖｓ－ｂ３）よりも小さいベクトル要素サイズ（Ｖｓ）だけ左シフトされることができる。ｘ２要素は、ｘ３及びｘ２要素のサイズ（例えば、２Ｖｓ－（ｂ３＋ｂ２））よりも小さいベクトル要素サイズの２倍だけ左シフトされることができる。同様に、ｘ１要素は、３Ｖｓ－（ｂ３＋ｂ２＋ｂ１）だけ左シフトされることができ、ｘ０要素は、４Ｖｓ－（ｂ３＋ｂ２＋ｂ１＋ｂ０）だけ左シフトされることができる。結果として得られるシフト値は、結果スタックレジスタの複数の出力ビットを生成するためにマスクされ、論理和がとられることができる。したがって、加算器回路１３２によって生成された和は、シフト回路１３４Ａ～１３４Ｎによって使用されることができる。加算器回路１３２は、ベクトル要素サイズを含む全シフト量を生成するように構成されることができるか、又はシフト回路１３４Ａ～１３４Ｎは、明示的又は暗黙的にベクトル要素サイズを構成することができる。

連結命令／命令動作は、シフト回路１３６（ｎ１だけｐ２ビットを右にシフトするために）及び計算ｎ回路１３８を使用して実行され、ｎ１及びｎ２を加算して出力ｎを生成することができる。シフトされたｐ２は、例えば、結果スタックレジスタの出力ビットを生成するために、ｐ１ビットと論理和をとることができる。

図１１に示される出力選択回路１４２は、マスク回路１３６Ａ～１３６Ｎ、計算ｎ回路１３８、及びシフト回路１４０に結合されることができ、レジスタファイル１１２に出力を提供するために実行されている命令動作に基づいて、出力の中から選択するように構成されることができる。例えば、一緒に連結されたマスク回路１３６Ａ～１３６Ｎの出力は、トップ命令のために選択されることができるが、シフト回路１４０及び計算ｎ回路１３８の出力は、ポップ、作成、及び連結命令のために選択されることができる。

図１１の回路は、ベクトル実行ユニット１１８の一部の実装の単なる一例にすぎないことに留意されたい。任意の他の所望の回路が使用されてもよい。例えば、シフト回路は、回転回路であってもよい。示されている回路のブール均等物を含む任意の均等物が使用されてもよい。

図１２～図１５は、本明細書に記載の様々な圧縮支援命令を実行するためのプロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８の一実施形態の動作を示すフローチャートである。理解を容易にするために、特定の順序でブロックを示しているが、他の順序を使用してもよい。ブロックは、プロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８内の組み合わせ論理回路において並列に実行されることができる。ブロック、ブロックの組み合わせ、及び／又はフローチャート全体は、複数のクロック周期にわたってパイプライン化されることができる。

図１２は、一実施形態のための、トップ命令を実行する動作を示すフローチャートである。プロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８は、ソースサイズベクトルに基づいて、ソーススタックレジスタのＭＳＢからビットフィールドを抽出することができる（ブロック１５０）。例えば、ＭＳＢのｂ３は、ｘ３として抽出されることができ、次の連続する（隣接する）ｂ２ＭＳＢは、ｘ２として抽出されることができる、などである。プロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８は、ビットフィールドを結果ベクトルレジスタのベクトル要素に位置合わせすることができる（ブロック１５２）。抽出及び位置合わせは、上述したようにシフトを介して実行されることができる。他の実施形態は、ビットフィールドを他の方法で抽出してもよい。プロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８は、結果ベクトルレジスタ（結果オペランドによって識別されるベクトルレジスタ）に結果ベクトルを書き込むことができる（ブロック１５４）。

図１３は、一実施形態のための、ポップ命令を実行する動作を示すフローチャートである。プロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８は、ソースサイズベクトルに基づいて、スタックの残りの量を判定することができる（ブロック１５６）。例えば、プロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８は、ソースサイズベクトルのベクトル要素を加算し、ソースサイズベクトルのベクトル要素の合計と等しいＭＳＢの数が削除された後のスタックが残りのスタックであると判定することができる。プロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８は、ソーススタックオペランドのビットスタック部分をシフトし、結果スタックレジスタのＭＳＢに残りのスタックを配置することができる（ブロック１５８）。例えば、プロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８は、ソースサイズベクトルのベクトル要素の合計だけソーススタックを左シフトすることができる。プロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８は、ソーススタックレジスタからサイズベクトルのベクトル要素の合計を差し引いたｎとしてｎ’を計算することができ（ブロック１６０）、シフトされたスタック及びｎ’を結果スタックレジスタに書き込むことができる（ブロック１６２）。

図１４は、一実施形態のための、作成命令を実行する動作を示すフローチャートである。プロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８は、ソースサイズベクトル要素に基づいて、ソースベクトル要素からビットフィールドを抽出することができる（ブロック１７０）。プロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８は、ビットフィールドを結果レジスタのＭＳＢに位置合わせすることができる（ブロック１７２）。抽出及び位置合わせは、前述したようにシフトすることによって実行されることができる。他の実施形態は、他の方法で抽出及び位置合わせを実行してもよい。ビットフィールドが位置合わせされると、それらは、結果レジスタに隣接することができる（例えば、ｘ３のＬＳＢは、ｘ２のＭＳＢに隣接することができ、ｘ２のＬＳＢは、ｘ１のＭＳＢに隣接することができる、などである）。プロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８は、サイズベクトル要素の合計としてｎを計算することができ（ブロック１７４）、結果スタック（ＭＳＢ）及びｎ（ＬＳＢ）を結果スタックレジスタに書き込むことができる（ブロック１７６）。

図１５は、一実施形態のための、連結命令を実行する動作を示すフローチャートである。プロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８は、スタックソースオペランド２のスタック部分をｎ１（スタックソースオペランド１のスタック部分のビット数）だけシフトさせることができる（ブロック１７８）。プロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８は、ソーススタック１のスタック部分をシフトされたソーススタック２フィールドとマージすることができる（ブロック１８０）。プロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８は、それぞれ、ソーススタックレジスタ１及びソーススタックレジスタ２からのｎ１とｎ２との合計に等しいｎを計算することができる（ブロック１８２）。プロセッサ１０２／実行コア１２０／ベクトル実行ユニット１１８は、マージされたスタックを書き込み、結果スタックレジスタにｎを書き込むことができる（ブロック１８４）。

上述の開示内容が十分に理解されれば、多くの変形形態及び変更形態が当業者にとって明らかになるであろう。以下の特許請求の範囲は、全てのそのような変形形態及び修正形態を包含すると解釈されることが意図されている。

Claims

プロセッサであって、
複数のベクトルレジスタを備えるレジスタファイルと、
前記レジスタファイルに結合された実行コアであって、前記実行コアが、第１のベクトルオペランド、第２のオペランド、及び結果ベクトルオペランドを指定する第１の命令を実行するように構成され、前記第１のベクトルオペランドが、前記複数のベクトルレジスタのうちの第１のベクトルレジスタ内にあり、前記第２のオペランドが、第２のレジスタ内にあり、前記結果ベクトルオペランドが、前記複数のベクトルレジスタのうちの第３のベクトルレジスタに書き込まれ、前記実行コアが、前記第１のベクトルオペランド内の複数のベクトル要素に応答して、前記第２のオペランドから複数のビットフィールドを抽出するように構成され、前記複数のベクトル要素のそれぞれのベクトル要素が、前記複数のビットフィールドのそれぞれのサイズを指定し、前記実行コアが、前記第１の命令を実行することに応答して、前記結果ベクトルオペランド内の対応するベクトル要素として前記抽出された複数のビットフィールドを書き込むように構成される、実行コアと、を備え、
前記実行コアが、前記第１のベクトルオペランド、前記第２のオペランド、及び第２の結果オペランドを指定する第２の命令を実行するように構成され、前記第２の結果オペランドが、第４のレジスタに書き込まれ、前記実行コアが、前記第２の命令の実行に応答して、前記第１のベクトルオペランドの前記ベクトル要素によって指定されるビット数の合計に等しいビット数を前記第２のオペランドの一部から削除し、前記第２のオペランドの前記一部の残りを前記第２の結果オペランドとして前記第４のレジスタに書き込むように構成される、プロセッサ。
前記第２のレジスタが、前記複数のベクトルレジスタのうちの１つであり、前記実行コアが、前記第１の命令を実行することに応答して、前記複数のベクトル要素の代わりに複数の連続ビットとして前記第２のレジスタ内の値の一部を解釈するように構成される、請求項１に記載のプロセッサ。
前記値の第２の部分が、前記複数の連続ビットの数を示すビットカウントである、請求項２に記載のプロセッサ。
前記削除されたビットが、前記第２のオペランドの最上位ビットであり、前記実行コアが、前記第２の命令を実行することに応答して、前記第２のオペランドの前記一部の残りを前記第４のレジスタの最上位ビットに書き込むように構成される、請求項３に記載のプロセッサ。
前記実行コアが、前記第１のベクトルオペランドの前記ベクトル要素によって指定されたビット数の合計を前記ビットカウントから減算して第２のビットカウントを生成し、前記第２の命令を実行することに応答して、前記第２のビットカウントを前記第４のレジスタの第３の部分に書き込むように構成される、請求項４に記載のプロセッサ。
前記複数のビットフィールドのうちの第１のビットフィールドが、前記第２のオペランドの複数の最上位ビットを含み、前記複数の最上位ビットの数が、前記第１のベクトルオペランド内の前記複数のベクトル要素のうちの第１のベクトル要素によって指定される、請求項１に記載のプロセッサ。
前記複数のビットフィールドのうちの第２のビットフィールドが、前記第２のオペランド内の前記第１のビットフィールドに隣接し、前記第２のビットフィールド内のビット数が、前記第１のベクトルオペランド内の前記複数のベクトル要素の第２のベクトル要素によって指定され、前記第２のベクトル要素が、前記第１のベクトルオペランド内の前記第１のベクトル要素に隣接している、請求項６に記載のプロセッサ。
前記実行コアが、前記複数のベクトルレジスタのうちの第２のベクトルレジスタ内の第２のベクトルオペランド、前記複数のベクトルレジスタのうちの第４のベクトルレジスタ内の第３のベクトルオペランド、及び第３の結果オペランドを指定する第３の命令を実行するように構成され、前記実行コアが、前記第３のベクトルオペランドのそれぞれのベクトル要素内の値に応答して、前記第２のベクトルオペランドのそれぞれのベクトル要素から複数のビットフィールドを抽出し、前記第３の命令を実行することに応答して、前記複数のビットフィールドを前記第３の結果オペランドに書き込むように構成される、請求項１に記載のプロセッサ。
前記実行コアが、前記第３の命令を実行することに応答して、前記第３の結果オペランドの第１の部分内の隣接するビットに前記複数のビットフィールドを書き込むように構成される、請求項８に記載のプロセッサ。
前記実行コアが、前記第３のベクトルオペランドの前記それぞれのベクトル要素の前記値を合計し、前記第３の命令を実行することに応答して、前記合計を前記第３の結果オペランドの第２の部分に書き込むように構成されている、請求項９に記載のプロセッサ。
前記実行コアが、第５のレジスタ内の第５のオペランド、第６のレジスタ内の第６のオペランド、及び第４の結果オペランドを有する第４の命令を実行するように構成され、前記第５のオペランドが、第１の複数のビットを有する第１の部分と、前記第１の複数のビットの数を示す第２のビットカウントを有する第２の部分とを含み、前記第６のオペランドが、第２の複数のビットを有する第１の部分と、前記第２の複数のビットの数を示す第３のビットカウントを有する第２の部分とを含み、前記実行コアが、前記第４の命令を実行することに応答して、前記第４の結果オペランドの第１の部分において前記第１の複数のビットと前記第２の複数のビットとを連結するように構成される、請求項１に記載のプロセッサ。
前記実行コアが、前記第２のビットカウント及び前記第３のビットカウントを合計し、前記第４の命令を実行することに応答して、前記合計を前記第４の結果オペランドの第２の部分に書き込むように構成される、請求項１１に記載のプロセッサ。
前記第５のレジスタ、前記第６のレジスタ、及び前記第４の結果オペランドを記憶する第４の結果レジスタが、前記複数のベクトルレジスタに含まれ、前記実行コアが、前記第４の命令を実行することに応答するベクトル要素の代わりに、前記第５のレジスタ、前記第６のレジスタ、及び前記第４の結果レジスタ内の値を前記第１の部分及び前記第２の部分として解釈するように構成される、請求項１１に記載のプロセッサ。
前記第１のベクトルオペランド内の複数のベクトル要素に基づいて、前記第２のオペランドからベクトル要素位置に複数の可変サイズのビットフィールドをシフトするように構成された複数のシフト回路と、
前記複数のシフト回路のうちのそれぞれ１つに結合され、前記複数のベクトル要素に基づいて前記複数の可変サイズのビットフィールドをマスクするように構成され、前記ベクトル要素位置に複数の抽出された可変サイズのビットフィールドをもたらす、複数のマスク回路と、
を更に備える、請求項１に記載のプロセッサ。
前記実行コアが、前記複数のシフト回路に結合された加算器回路を更に備え、前記加算器回路が、前記複数のベクトル要素のサブセットを合計して、前記複数のベクトル要素の前記サブセットの前記合計に基づいて前記複数のシフト回路に対するシフト量を生成するように構成される、請求項１４に記載のプロセッサ。
前記第２のレジスタが、前記複数のベクトルレジスタのうちの１つであり、前記実行コアが、前記第１の命令を実行することに応答して、前記第２のレジスタ内の値の一部を前記複数のベクトル要素の代わりに複数の連続ビットとして解釈するように構成され、前記値の第２の部分が、前記複数の連続ビットの数を示すビットカウントであり、前記実行コアが、前記第１のベクトルオペランド、前記第２のオペランド、及び第２の結果オペランドを指定する第２の命令を実行するように構成され、前記第２の結果オペランドが第４のレジスタに書き込まれ、前記実行コアが、
前記第２のオペランドの一部をシフトさせて、前記第１のベクトルオペランドの前記ベクトル要素の合計に等しいビット数を削除するように構成された第２のシフト回路であって、前記第２のシフト回路が前記加算器回路に結合され、前記加算器回路が、前記ベクトル要素を加算し、前記加算器回路の出力をシフト量として提供するように構成される、第２のシフト回路を備え、
前記実行コアが、前記第２の命令を実行することに応答して、前記第２のオペランドの前記一部の残りを前記第４のレジスタ内で前記第２の結果オペランドとして書き込むように構成される、請求項１５に記載のプロセッサ。
前記実行コアが、前記複数のベクトルレジスタのうちの第２のベクトルレジスタ内の第２のベクトルオペランド、前記複数のベクトルレジスタのうちの第４のベクトルレジスタ内の第３のベクトルオペランド、及び第３の結果オペランドを指定する第３の命令を実行するように構成され、
前記複数のシフト回路が、前記第２のベクトルオペランドの各々のベクトル要素を、前記第３のベクトルオペランドの各々のベクトル要素内の値に基づいてシフトするように構成され、
前記複数のマスク回路が、前記第３のベクトルオペランドの前記各々のベクトル要素に基づいて、前記シフトされたベクトル要素をマスクして、可変サイズのビットフィールドを生成するように構成され、
前記実行コアが、隣接するビット内の複数のビットフィールドを含むビットストリームを生成するように前記可変サイズのビットフィールドの論理和をとるように構成され、
前記実行コアが、前記第３の命令を実行することに応答して、前記複数のビットフィールドを前記第３の結果オペランドに書き込むように構成される、請求項１６に記載のプロセッサ。
前記実行コアが、第５のレジスタ内の第５のオペランド、第６のレジスタ内の第６のオペランド、及び第４の結果オペランドを有する第４の命令を実行するように構成され、前記第５のオペランドが、第１の複数のビットを有する第１の部分と、前記第１の複数のビットの数を示す第２のビットカウントを有する第２の部分とを含み、前記第６のオペランドが、第２の複数のビットを有する第１の部分と、前記第２の複数のビットの数を示す第３のビットカウントを有する第２の部分とを含み、
前記実行コアが、前記第２のビットカウントによって前記第２の複数のビットをシフトするように構成された第２のシフト回路を備え、
前記実行コアが、前記第４の結果オペランドの第１の部分において前記第１の複数のビットと前記第２の複数のビットとを連結するように、前記シフトされた第２の複数のビットと前記第１の複数のビットとの論理和をとるように構成される、請求項１６に記載のプロセッサ。
複数のベクトルレジスタを備えるレジスタファイルを有するプロセッサにおいて第１の命令を実行することであって、前記第１の命令が、第１のベクトルオペランド、第２のオペランド、及び結果ベクトルオペランドを指定し、前記第１のベクトルオペランドが、前記複数のベクトルレジスタの第１のベクトルレジスタ内にあり、前記第２のオペランドが、第２のレジスタ内にあり、前記結果ベクトルオペランドが、前記複数のベクトルレジスタの第３のベクトルレジスタに書き込まれる、実行することと、
前記実行中に、前記第１のベクトルオペランド内の複数のベクトル要素に応答して前記第２のオペランドから複数のビットフィールドを抽出することであって、前記複数のベクトル要素の各々のベクトル要素が、前記複数のビットフィールドの各々のビットフィールドのサイズを指定する、抽出することと、
前記実行中に、前記結果ベクトルオペランド内の対応するベクトル要素として抽出された前記複数のビットフィールドを書き込むことと、
前記実行中に、前記第１のベクトルオペランド、前記第２のオペランド、及び第２の結果オペランドを指定する第２の命令を実行することであって、前記第２の結果オペランドが、第４のレジスタに書き込まれる、実行することと、
前記実行中に、前記第２の命令の実行に応答して、前記第１のベクトルオペランドの前記ベクトル要素によって指定されるビット数の合計に等しいビット数を前記第２のオペランドの一部から削除し、前記第２のオペランドの前記一部の残りを前記第２の結果オペランドとして前記第４のレジスタに書き込むことと、
を含む、方法。
プロセッサであって、
複数のベクトルレジスタを備えるレジスタファイルと、
前記レジスタファイルに結合された実行コアであって、前記実行コアが、第１のベクトルオペランド、第２のオペランド、及び結果オペランドを指定する第１の命令を実行するように構成され、前記第１のベクトルオペランドが、前記複数のベクトルレジスタのうちの第１のベクトルレジスタ内にあり、前記第２のオペランドが、第２のレジスタ内にあり、前記結果オペランドが、第３のレジスタ内にあり、前記実行コアが、前記第１の命令の実行に応答して、前記第１のベクトルオペランドのベクトル要素によって指定されるビット数の合計に等しいビット数を前記第２のオペランドの一部から削除し、前記第２のオペランドの前記一部の残りを前記結果オペランドの対応する一部として前記第３のレジスタに書き込むように構成される、
プロセッサ。