JP6678207B2 - メモリ圧縮を実行するシステム及び方法 - Google Patents

メモリ圧縮を実行するシステム及び方法 Download PDF

Info

Publication number
JP6678207B2
JP6678207B2 JP2018142253A JP2018142253A JP6678207B2 JP 6678207 B2 JP6678207 B2 JP 6678207B2 JP 2018142253 A JP2018142253 A JP 2018142253A JP 2018142253 A JP2018142253 A JP 2018142253A JP 6678207 B2 JP6678207 B2 JP 6678207B2
Authority
JP
Japan
Prior art keywords
group
word
hardware
words
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018142253A
Other languages
English (en)
Other versions
JP2019029023A (ja
Inventor
サゼガリ アリ
サゼガリ アリ
イー タッカー チャールズ
イー タッカー チャールズ
イー ゴニオン ジェフリー
イー ゴニオン ジェフリー
アール ウィリアムズ ザ サード ジェラルド
アール ウィリアムズ ザ サード ジェラルド
チェン−チー リー クリス
チェン−チー リー クリス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of JP2019029023A publication Critical patent/JP2019029023A/ja
Application granted granted Critical
Publication of JP6678207B2 publication Critical patent/JP6678207B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0866Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches for peripheral storage systems, e.g. disk cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/42Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code using table look-up for the coding or decoding process, e.g. using read-only memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0862Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0877Cache access modes
    • G06F12/0886Variable-length word access
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/10Address translation
    • G06F12/1009Address translation using page tables, e.g. page table structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/10Address translation
    • G06F12/1027Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB]
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3088Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing the use of a dictionary, e.g. LZ78
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6017Methods or arrangements to increase the throughput
    • H03M7/6023Parallelization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/40Specific encoding of data in memory or cache
    • G06F2212/401Compressed data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C2207/00Indexing scheme relating to arrangements for writing information into, or reading information out from, a digital store
    • G11C2207/10Aspects relating to interfaces of memory device to external buses
    • G11C2207/102Compression or decompression of data before storage

Description

本明細書に記載する実施形態は、演算システムの分野に関し、より詳細には、記憶及び処理のための効率的なデータの移動に関する。
一般的に、様々な演算システムは、プロセッサ及びメモリを含み、プロセッサは、1つ以上のソフトウェアアプリケーションを処理しながら、命令及びアプリケーションデータのアクセス要求を生成する。プロセッサは、命令及びデータをフェッチするとき、ローカルキャッシュメモリの階層をチェックし、見つからない場合、プロセッサは、例えば、メインメモリ、あるいは、CD−ROM又はハードドライブなど、他のストレージに所望の命令及びデータの要求を発行する。
時には、演算システムで同時に実行するソフトウェアアプリケーションの数は、かなりの数に達する。加えて、様々な演算システムは、中央処理装置(central processing unit、CPU)、グラフィック処理ユニット(graphics processing unit、GPU)のようなデータ並列プロセッサ、デジタル信号プロセッサ(digital signal processor、DSP)など、複数のプロセッサを含む。したがって、複数のソフトウェアアプリケーションを処理するために使用される命令及びデータの量はかなり増える。しかしながら、ローカルキャッシュメモリ内のメモリ記憶場所の記憶空間の量は限られている。したがって、ローカルキャッシュメモリと永続的ストレージとの間の命令及びデータのスワッピングが発生する。
スワッピング及び要求された情報のロードを待つための対応する待ち時間は、演算システムの性能を低下させる。特定の量のデータの記憶量を減らすために、データは圧縮される。そのような圧縮は、データに含まれる個々のデータビットの反復配列を利用する。データがアクセスされようとするとき、そのデータは展開され、次いで、アクセスが完了すると、場合により再圧縮される。
一般的に、中央処理装置(CPU)などの汎用プロセッサが、データを圧縮及び/又は展開するためのソフトウェアルーチンを実行しているとき、その汎用プロセッサは、その動作の間、占有される。更に、複数のプロセッサを含むシステムにおいては、多くの場合、CPUは、所望のデータの取得、圧縮及び展開のサポートを有する唯一のプロセッサである。このため、CPUは、ローカル及びネットワークデータの取得及び圧縮のうちの1つ以上を実行する間、部分的に又は完全に使用不能になる。更に、その他のプロセッサは、それらに代わってCPUが取得、圧縮及び展開動作を終えるのを待つ間、遅延を被る。
このことから、記憶及び処理のためにデータを効率的に移動する方法及びメカニズムが求められている。
記憶及び処理のためにデータを効率的に移動するシステム及び方法が意図されている。各種実施形態において、演算システムは、メモリ、キャッシュメモリ及びプロセッサを含む。圧縮命令の受信に応答して、プロセッサは、メモリからキャッシュメモリにデータをフェッチする。一部の実施形態では、データは複数の入力ワードに区切られる。続いて、プロセッサは、キャッシュメモリからプロセッサ内の読み取りバッファに複数の入力ワードをロードする。プロセッサ内の圧縮ユニットは、圧縮命令を実行する回路を含む。したがって、圧縮ユニットが圧縮命令を処理する間、プロセッサは他の動作を処理するために使用可能である。
一実施形態では、圧縮ユニットは、割り当てられた入力ワードとして使用するために複数のワードのうちの2つ以上の入力ワードを選択する。圧縮ユニットは、圧縮アルゴリズムの動作を実行する複数のハードウェアレーンを含む。複数のハードウェアレーンのうちの2つ以上のハードウェアレーンのそれぞれが、選択された2つ以上の入力ワードのうちの対応する入力ワードに割り当てられる。2つ以上のハードウェアレーンのそれぞれが、少なくともその割り当てられた入力ワードに基づいて、対応する圧縮パケットを生成する。圧縮パケットを生成するために、各ハードウェアレーンは、割り当てられたワードと比較して群内依存関係を決定するための値を使用する。しかしながら、各種実施形態において、同じインデックスを有するワードの第1の群の群内依存関係を決定する前に、辞書は、より若い第2の群のワードについてアクセスされ、この第2の群内の各ワードは同じインデックスを有する。
圧縮ユニットは、圧縮パケットを圧縮パケットの群に結合させる。一部の実施形態では、圧縮ユニットは、2つ以上の群をパックされた群に更に結合させ、パックされた群を書き込みバッファに書き込む。その後、プロセッサは、パックされた群を書き込みバッファから目標記憶場所に送る。
各種実施形態において、割り当てられた各入力ワードが処理されるとき、それは、前に見られたデータと比較されることによって、データビットの反復配列を検索される。一部の実施形態では、前に見られたデータは、辞書と称されるデータ構造体(例えば、テーブルなど)のエントリにおいて記憶される。一部の実施形態では、複数のハードウェアレーンが、統計ベースの圧縮アルゴリズム及び辞書ベースの圧縮アルゴリズムの組合せのステップを実行する。一部の実施形態では、2つ以上のハードウェアレーンに割り当てられた2つ以上の選択された入力ワードの各々は、テーブルの複数のエントリのうちの同じエントリを指す対応するインデックスを有する。一部の実施形態では、テーブルの同じエントリの内容は、2つ以上のハードウェアレーンに現在割り当てられている入力ワードを処理するために辞書から一度読み取られる。一実施形態では、2つ以上の割り当てられた入力ワードのうちの最も古い入力ワードを有するハードウェアレーンが、単一の読み取り要求を生成する。更に、2つ以上の割り当てられた入力ワードのうちの最も若い入力ワードを有するハードウェアレーンが、2つ以上の割り当てられた入力ワードの圧縮が完了したときにテーブルを更新するための単一の書き込み要求を生成する。したがって、シリアル実装のためにテーブルに記憶されるシーケンスの複数の読み取り及び書き込み要求が、複数のハードウェアレーンを使用する並列実装の単一の読み取り要求及び単一の書き込み要求に減らされる。
更なる一実施形態では、プロセッサは、複数のハードウェアレーンを使用する展開ユニットを更に含む。展開命令の受信に応答して、プロセッサは、圧縮パケットをフェッチし、そして、プロセッサ内の展開ユニットは、展開命令を実行する回路を含む。したがって、プロセッサは、展開ユニットが展開命令を処理する間、他の動作を処理するために使用可能である。展開ユニットの複数のハードウェアレーンのそれぞれが、圧縮パケットに基づいてワードを生成する。
以下の説明及び図面を参照すると、これらの及び他の実施形態は更に理解されよう。
本方法及びメカニズムの前述の及び更なる利点は、以下のような添付の図面と併せて以下の説明を参照することによって、より深く理解することができる。
プロセッサコアの1つの実施形態のブロック図である。 圧縮/展開ユニットの1つの実施形態のブロック図である。 圧縮された情報の1つの実施形態のブロック図である。 圧縮エンジンの1つの実施形態のブロック図である 圧縮処理の1つの実施形態のブロック図である。 圧縮処理のもう1つの実施形態のブロック図である。 圧縮処理のもう1つの実施形態のブロック図である。 圧縮処理のもう1つの実施形態のブロック図である。 データを効率的に圧縮する方法の1つの実施形態のフロー図である。 展開処理の1つの実施形態のブロック図である。 データを効率的に展開する方法の1つの実施形態のフロー図である。 圧縮処理のもう1つの実施形態のブロック図である。 展開処理のもう1つの実施形態のブロック図である。 圧縮処理のもう1つの実施形態のブロック図である。
本開示に記述する実施形態には、各種の変更形態及び代替形態の余地があり得るが、その具体的な実施形態を例として図面に示し、本明細書で詳細に説明する。しかしながら、図面及び図面に関する詳細な説明は、開示する特定の形態に実施形態を限定することを意図しておらず、むしろ、添付の請求項の主旨及び範囲に含まれるすべての変更形態、同等形態、及び代替形態を網羅することを意図することを理解されたい。本出願を通して、「〜し得る(may)」という語は、義務的な意味(すなわち、〜しなければならない(must)を意味する)ではなく、許容的な意味(すなわち、〜する可能性を有することを意味する)で使用される。同様に、「含む(include、including、及びincludes)」という語は、「〜を含むが、それに限定するものではないこと」を意味する。
各種ユニット、回路、又は他の構成要素については、1つ以上のタスクを実行「するように構成される(configured to)」ものとして述べる場合がある。このような文脈では、「〜するように構成される」は、動作中に1つ以上のタスクを実行する「回路を有する(having circuitry)」ことを広く意味する構造の広義な記述である。よって、ユニット/回路/構成要素は、そのユニット/回路/構成要素が現在動作していないときでも、タスクを実装するように構成することができる。一般に、「〜するように構成される」に対応する構造を形成する回路は、ハードウェア回路を含み得る。同様に、各種ユニット/回路/構成要素は、説明の便宜上、1つ以上のタスクを実行すると記述される場合がある。このような説明は、「〜するように構成される」という語句を含むと解釈されるべきである。1つ以上のタスクを実行するように構成されたユニット/回路/構成要素の記載は、そのユニット/回路/構成要素について米国特許法第112条(f)の解釈を援用しないことを明示的に意図している。
以下の説明では、本開示において説明される実施形態の完全な理解を実現するために、多くの具体的な詳細が記載される。しかしながら、本実施形態は、これらの具体的な詳細なく実施され得ることが、当業者には理解されよう。いくつかの例では、よく知られている回路、構造体、及び技法は、説明を容易にするために、そして本実施形態の説明を分かり難くすることを避けるために、詳細には示されていない。
図1を参照すると、プロセッサコア100の1つの実施形態のブロック図が示されている。図示の実施形態において、プロセッサコア100は、命令フェッチユニット(instruction fetch unit、IFU)110、コアインターフェース170、圧縮/展開ユニット180、実行ユニット130、及び最終レベルキャッシュ190を含む。実行ユニット130は、実行ユニット130にデータを送り返すためにやはり結合された、ロードストアユニット(load store unit、LSU)150に結合されている。更に、LSU150は、次に最終レベルキャッシュ190に結合され得るコアインターフェース170に結合されている。図示の実施形態において、最終レベルキャッシュ190は、例えば、図1に示すような内部バス105など、オンチップネットワークを介してメインメモリに結合された、バスインターフェースユニット(bus interface unit、BIU)195を含む。図1に示された実施形態は、単に一例であり、いくつかの回路ブロックは、明確にするために省略されていることに留意されたい。他の実施形態では、異なる数の回路ブロック及び異なる配置の回路ブロックが使用され得る。
一部の実施形態では、プロセッサコア100は、演算システム内の独立型プロセッサである。他の実施形態では、プロセッサコア100は、マルチコアプロセッサの複数のコアのうちの1つである。更に他の実施形態では、プロセッサコア100を含むマルチコアプロセッサは、システムオンチップ(system-on-a-chip、SOC)の複数のダイのうちの1つである。各種実施形態において、プロセッサコア100は、デスクトップコンピュータ、ポータブルコンピュータ、タブレットコンピュータ、スマートフォン、モバイルデバイス、サーバ、周辺デバイスなどの中の演算システムにおいて使用される。
各種実施形態において、圧縮/展開ユニット180は、圧縮/展開アルゴリズムの動作の実行からプロセッサコア100の残りの部分をオフロードする。したがって、プロセッサコア100の残りの部分は、圧縮/展開ユニット180が圧縮/展開アルゴリズムを実行する間、他の動作を処理するために使用可能である。一部の実施形態では、圧縮/展開ユニット180は、様々な辞書ベースのアルゴリズムのうちの1つに基づいてデータを圧縮及び展開する。他の実施形態では、圧縮/展開ユニット180は、統計ベースのアルゴリズム及び辞書ベースの(テーブルベースの)アルゴリズムの組合せを使用する様々なハイブリッドアルゴリズムのうちの1つに基づいてデータを圧縮及び展開する。本明細書では、「辞書」(「テーブル」とも称される)は、複数のエントリを備えるデータ構造(ハードウェア及び/又はソフトウェアベースの)であり、各エントリは、圧縮工程を経たデータ値を記憶するように構成される。圧縮工程の間、圧縮されようとするデータ値は、それらが以前に見られたかどうか(例えば、全部又は部分的に)を判定するために、辞書に記憶された値と比較される。
図のように、圧縮/展開ユニット180は、圧縮エンジン182及び展開エンジン184を含む。エンジン182及び184はそれぞれ、圧縮/展開アルゴリズム動作を並列処理する複数のハードウェアレーンを含む。それにより、データの複数の部分が複数のハードウェアレーンによって同時に圧縮/展開されるため、圧縮/展開動作の間のスループットは増える。一実施形態では、圧縮のために送られるデータの各部分は、既知のサイズの入力ワードである。一例では、32ビットの入力ワードがデータの部分であるが、様々な他のサイズが可能であり、意図されている。
一部の実施形態では、アルゴリズム動作は、スループットを更に増加させる、パイプライン方式である。更に、圧縮エンジン182のハードウェアレーンに現在割り当てられた複数の入力ワード間に依存関係が存在するが、一実施形態では、異なる第2の群の入力ワードが、第1の群の入力ワード間の依存関係が決定される前に、ハードウェアレーンに割り当てられる。したがって、第2の群は、第1の群による辞書更新に依存するが、第2の群は、第1の群の入力ワード間の依存関係が決定される前に、圧縮エンジン182のハードウェアレーンに割り当てられる。ローカルキャッシュメモリ内のメモリ記憶場所が有する記憶空間の量は限られているが、エンジン182及び184の比較的高いスループットにより、複数のソフトウェアアプリケーションを処理するために使用される命令及びデータの量は、ローカルキャッシュメモリと永続的ストレージとを切り替える長い待ち時間なしに増えることが可能にされる。
以下で更に詳しく説明するように、圧縮/展開ユニット180は、プロセッサコア100の命令セットアーキテクチャ(instruction set architecture、ISA)において定義された圧縮又は展開コマンド/命令の検出に応答して、複数の入力ワードの群としてデータのページを一度に圧縮又は展開する。一部の実施形態では、追加の命令が、プロセッサコア100のISAに追加され得る。各種実施形態において、それぞれ符号化/圧縮及び復号化/展開を指示するオペコードを有する2つの命令が、データ圧縮及び展開を実行するISAに追加される。一部の実施形態では、命令は、ソースページのアドレス及びメモリ内の宛先又は目標ページのアドレスを特定する1つ以上の引数を使用する。一部の実施形態では、この2つの命令はそれぞれ、「マイクロオペ(micro−ops)」とも称される複数のマイクロオペレーションに変換される。圧縮/展開ユニット180は、マイクロオペを処理する。
各種実施形態において、圧縮/展開ユニット180は、圧縮又は展開するデータのページをプリフェッチするために、情報を最終レベルキャッシュ190に提供する。一部の例では、データのページの要求が、バスインターフェースユニット(bus interface unit、BIU)195を介してメインメモリに送られ得る。プリフェッチされたページのデータは、最終レベルキャッシュ190又は他の適切な場所に記憶され得る。プリフェッチされたページのデータが最終レベルキャッシュ190に記憶されると、このページは、圧縮/展開ユニット180に含まれる読み取りバッファに転送され得る。エンジン182及び184のうちの1つが、受信されたページを処理する。エンジン182及び184を更に説明する前に、プロセッサコア100の残りの部分を先ず更に説明する。
命令フェッチユニット(instruction fetch unit、IFU)110は、実行するためにプロセッサコア100の残りの部分に命令を提供する。図示の実施形態において、IFU110は、キャッシュ又はメモリからの命令のフェッチ、実行するための様々なスレッドからの命令の選択、及び実行するための様々な機能ユニットへの命令の発行に先立つそのような命令の復号化に関連する様々な動作を実行するように構成され得る。IFU110は、命令キャッシュ114を更に含む。1つの実施形態では、IFU110は、プロセッサコア100によって実行される各スレッドに対応するフェッチアドレス(例えば、プログラムカウンタに由来する)を維持するための、及びそれらのフェッチアドレスによる命令キャッシュ114からの命令の取得を調整するためのロジックを含み得る。更に、一部の実施形態では、IFU110は、物理アドレスへの仮想命令アドレスのマップの一部を含み得る。マップの一部は、例えば、ITLB115など、命令変換ルックアサイドバッファ(instruction translation lookaside buffer、ITLB)に記憶され得る。
実行ユニット130は、IFU110から発行された特定タイプの命令の結果を実行及び提供するように構成され得る。1つの実施形態では、実行ユニット130は、算術、ロジック、及びシフト命令など、実装されたISAにおいて定義されたある種の整数型及び浮動小数点命令を実行するように構成され得る。一部の実施形態では、プロセッサコア100は、2つ以上の実行ユニットを含むことができ、各々の実行ユニットは機能上対称であってもなくてもよいことが意図される。
ロードストアユニット(load store unit、LSU)150は、整数及び浮動小数点ロード及びストア命令など、データメモリ参照を処理するように構成され得る。一部の実施形態では、LSU150はまた、IFU110を起源とする命令キャッシュ114ミスの処理を助けるように構成され得る。LSU150は、データキャッシュ152と、キャッシュミスを検出し、それに応じてキャッシュインターフェース170を介して特定のキャッシュメモリにデータを要求するように構成されたロジックとを含む。1つの実施形態では、データキャッシュ152は、すべてのストアが、それらがデータキャッシュ152においてヒットするかどうかにかかわらず特定のキャッシュメモリに書き込まれる、ライトスルーキャッシュとして構成され得る。他の実施形態では、データキャッシュ152は、ライトバックキャッシュとして実装され得る。
1つの実施形態では、LSU150は、ミスが保留中になっているメモリアドレスを目標とする追加のメモリアクセスが、追加のキャッシュ要求トラフィックを生成することができないように、データキャッシュ152でミスになった保留中のメモリアクセスの記録を記憶するように構成されたミスキューを含み得る。図示の実施形態において、ロード/ストア命令のアドレス生成が、実行ユニット130のうちの1つによって実行され得る。命令によって指定されたアドレスモードに応じて、実行ユニット130のうちの1つが、算術(例えば、基底値へのインデックス値の追加など)を実行して所望のアドレスを生成し得る。更に、一部の実施形態では、LSU150は、実行ユニット130によって生成された仮想データアドレスを物理アドレスに変換するように構成されたロジックを含み得る。例えば、本実施形態では、LSU150は、データ変換ルックアサイドバッファ(data translation lookaside buffer、DTLB)153を含む。
図2を参照すると、圧縮/展開ユニット200の1つの実施形態のブロック図が示されている。各種実施形態において、圧縮/展開ユニット200は、図1の実施形態に描かれるような圧縮/展開ユニット180に対応し得る。図示の実施形態において、圧縮/展開ユニット200は、読み取りバッファ201、圧縮エンジン204、展開エンジン203、辞書210、多重回路205、書き込みバッファ206、有限状態マシン回路208、及びプリフェッチ回路209を含む。図2のブロック図に描かれた実施形態は単に一例であることに留意されたい。他の実施形態では、異なる回路ブロック及び回路ブロックの異なる配置が可能であり、意図されている。
読み取りバッファ201は、データのページの部分が記憶され得る、例えばエントリ202a及び202bのような複数のエントリを含み得る。各種実施形態において、エントリは、データの複数のワードの並列処理を可能にするように編成され得る。例えば、一部の実施形態では、エントリは、圧縮エンジン204又は展開エンジン203のいずれかによって所与の数の32ビットデータワードの読み取りを可能にするように配置され得る。一部の例では、4つの32ビットデータワードが、圧縮エンジン204又は展開エンジン203のいずれかによって読み取られる。他の場合には、別の数のデータワードが可能であり、意図されている。読み取りバッファ201は、それらのエンジン内の複数の並列ハードウェアレーンがより多くのデータを受信する準備ができていることを示す、圧縮エンジン204及び展開エンジン203の各々からの準備完了信号を受信するように更に構成され得る。
一部の例では、読み取りバッファ201が、要求されたデータを受信する準備ができていない場合、データは、バスインターフェースユニット(bus interface unit、BIU)に含まれるバッファに保持され得る。一実施形態では、BIUは、様々なキャッシュメモリとシステムメモリとの間でデータが移動されることを可能にする通信バスに結合され得る。一部の実施形態では、読み取りバッファ201は、クレジットベースのシステムを使用して、例えばデータキャッシュ252などの低レベルキャッシュメモリにデータを要求し得る。以下で更に詳しく説明するように、圧縮エンジン204及び展開エンジン203はそれぞれ、読み取りバッファ201から受信されたデータの部分を、それぞれ圧縮又は展開するように構成され得る。一部の実施形態では、圧縮エンジン204及び展開エンジン203は、様々な辞書ベースのアルゴリズムのうちの1つに基づいてデータを圧縮及び展開する。他の実施形態では、圧縮エンジン204及び展開エンジン203は、統計ベースのアルゴリズム及び辞書ベースのアルゴリズムの組合せを使用する様々なハイブリッドアルゴリズムのうちの1つに基づいてデータを圧縮及び展開する。
各種実施形態において、辞書210は、複数のエントリを含み得、複数のエントリのそれぞれが、所与のインデックスに対応し、一般に使用されるシーケンスのビットを記憶するように構成される。一部の実施形態では、各エントリは、インデックスを記憶するように構成され得る。他の実施形態では、エントリは、インデックスを記憶しない。一部の例では、辞書210は、圧縮しようとするデータの特定のワードのビットから作成されたハッシュ出力を使用してアクセスされる、コンテントアドレッサブルメモリ(content-addressable memory、CAM)として実装され得る。他の場合には、辞書210は、テーブルエントリがインデックスに対応する定数のままとされる、テーブルなど、直接マップされたデータ記憶構造として実装され得る。例えば、テーブルエントリ7は、辞書210が使用される間にわたって、辞書210の第7のエントリのままである。したがって、インデックス値はエントリに記憶されない。辞書210は、様々な設計スタイルのうちの1つにしたがって、設計され得る。例えば、辞書210は、複数のラッチ、フリップフロップ、ランダムアクセスメモリ(RAM)セル、又は、様々なエントリに含まれる個々のデータビットを記憶するように構成された他の適切な記憶回路を含み得る。
圧縮及び展開動作の一環として、圧縮エンジン204及び展開エンジン203は、辞書210にアクセスし得る。圧縮及び展開動作の間、圧縮エンジン204及び展開エンジン203は、その後の圧縮動作を改善するために、辞書210内の1つ以上のエントリを更新し得る。一部の実施形態では、圧縮動作及び展開動作は、スループットを更に増やすパイプライン方式である。更に、圧縮エンジン203のハードウェアレーンに現在割り当てられた複数の入力ワード間に依存関係が存在するが、一実施形態では、第1の群の入力ワード間の依存関係が決定される前に、異なる第2の群の入力ワードがハードウェアレーンに割り当てられる。したがって、第2の群は、第1の群による辞書210の更新に依存するが、第2の群は、第1の群の入力ワード間の依存関係が決定される前に、圧縮エンジン203のハードウェアレーンに割り当てられる。
多重回路205は、実行されているコマンドに応じた圧縮エンジン204又は展開エンジン203のいずれかからの出力の選択を可能にする複数の個別データビット多重回路を含み得る。有限状態マシン回路208は、圧縮/展開ユニット200に含まれる様々な他の回路ブロックの動作を制御するための複数の信号を生成するように構成され得る。各種実施形態において、有限状態マシン回路208は、受信されたコマンドにおいて指定されたデータのページのプリフェッチを開始するために、命令フェッチユニット、及び信号プリフェッチ回路209から圧縮及び展開命令/コマンドを受信し得る。有限状態マシン回路208は、追加で、書き込みバッファ206から目標記憶場所へのデータのコピーを制御し得る。各種実施形態において、有限状態マシン回路208は、前述の機能を実行するように構成された複数の順序及び組合せ論理回路を含み得る。
プリフェッチ回路209は、例えば、図2の実施形態に示すようなデータキャッシュ252など、低レベルキャッシュにいくつかのラインをフェッチするように構成され得る順序及び組合せ論理回路の任意の適切な組合せを含み得る。一部の実施形態では、プリフェッチ回路209は、いくつかの使用可能なクレジットに基づいて演算システムにプリフェッチ要求を送り得る。一部の実施形態では、プリフェッチ回路209は、ストライド値に応じてプリフェッチを実行し得る。例えば、圧縮の場合、プロセッサコアは、所望のページの第1のN(但し、Nは正の整数)ラインをプリフェッチし得、プリフェッチ回路209は、各ラインがプリフェッチされた後にストライドをインクリメントし、所望のページのデータの最後にプラスNのソースアドレスからプリフェッチし得る。
図3を参照すると、圧縮された情報300の1つの実施形態のブロック図が示されている。一実施形態では、圧縮された情報300は、圧縮パケット301〜305、圧縮パケット310の群及び圧縮パケット330の群のうちの1つ以上を含む。図3に示された圧縮された情報のタイプは、例にすぎない。他の実施形態において、圧縮/展開ユニットは、異なる配置のコマンド及びデータを含み得る異なるパケットタイプを生成及び使用する。
各種実施形態において、各圧縮パケットは、辞書との比較の結果に応じて、コマンド及び可能な他の追加情報を含む。一実施形態では、各コマンドは、特定のパケットタイプを符号化するデータビットの組合せである。操作されているデータの一部のデータビットがすべてゼロである場合、次いで、圧縮パケット301は、データのその部分のデータの圧縮されたページにおいて使用され得る。圧縮パケット301は単に、解凍されたファイル内のすべてのデータビットがゼロであったことを特定するコマンドを含む。
データの一部が辞書と比較されるとき、一部の実施形態では、3つの可能性のうちの1つが存在する。データのその部分内のデータビットのシーケンスが、辞書内のエントリのいずれとも一致しない場合には、ミスが発生し、圧縮パケット302が、データのうちのその部分のデータの圧縮されたページにおいて使用され得る。圧縮パケット302は、ビットのこのシーケンスが辞書において見つからなかったことを特定するコマンド、並びにデータの元の部分(ワード)のコピーを含む。一部の実施形態では、ミスは、空間が辞書において使用可能であることを条件として、データのこの部分との一致を可能にすることになる新しいエントリを含むように圧縮エンジンが辞書を修正する結果をもたらし得ることに留意されたい。他の実施形態において、ミスは、圧縮エンジンがワードのコピーのデータで辞書のエントリを置き換える結果をもたらす。エントリは、ワードのデータから生成されたインデックスによって指し示される。
データの一部が、辞書内の既存のエントリと一致した場合には、ヒットが生じ、圧縮パケット303が、データのこの部分のデータの圧縮されたページにおいて使用され得る。圧縮パケット303は、データのこの部分が辞書内のエントリと一致したことを示すコマンド、並びに、辞書内の一致したエントリを指すインデックスを含む。各種実施形態において、インデックスは、データのこの部分のハッシュでもよい。
一部の例では、データの一部が、辞書内のエントリと部分的に一致し得る。これが生じたとき、圧縮パケット304が、データのこの部分のデータの圧縮されたページにおいて使用され得る。圧縮パケット304は、部分的ヒットを特定するコマンド、加えて、データのこの部分に部分的に一致する辞書内のエントリに対応するインデックス又はハッシュ、加えて、エントリと一致しないデータのこの部分からの部分的ワードを含み得る。各種実施形態において、データの一部と辞書内の所与のエントリとの間で一致するデータのビット数は、任意の適切な基準に応じて、調整可能であり得る。
一部の実施形態では、圧縮パケット301(ゼロ)及び303(ヒット)のそれぞれは、辞書を修正せず、一方、圧縮パケット302(ミス)及び304(部分的ヒット)は、辞書に記憶された情報を有する。一実施形態では、全32ビットのワード(又は他の選択されたワード長)が、前述のように辞書に記憶される。一部の実施形態では、辞書に書き込まれたワードは、辞書から読み取られたワードに置き換わり、辞書のワードと処理されている現群内のワードとの比較を実行するために使用される。一例では、現群内の3つのワードのそれぞれが、インデックス7などの同じインデックスを有する場合には、辞書のエントリ7が、読み取り要求などによってアクセスされる。エントリ7内のワードが辞書から取得され、現群内の3つのワードと比較される。
現群の最初の2つのワードが、辞書のエントリ7からのワードと一致した場合には、これら2つの比較の結果はヒットとなり、圧縮パケット303が、これら2つのワードのそれぞれについて生成される。辞書の修正は、これら2つのワードには実行されない。しかしながら、現群の第3のワードが、エントリ7からのワードと一致しない場合には、比較の結果はミスとなり、圧縮パケット302が、この第3のワードについて生成される。更に、この第3のワードが辞書に追加される。一実施形態では、この第3のワードは、辞書内のエントリ7内のワードに置き換わる。したがって、辞書は、この第3のワードについて更新される。
前述の例と同様に、部分的ヒットの比較結果もまた、辞書の更新につながる。第3のワードの一部が、エントリ7内のワードと一致するが、別の異なる部分が一致しない場合には、比較の結果は部分的ヒットとなる。部分的ヒットについて、圧縮パケット304が生成される。一例では、現群内の32ビットの第3のワードのビット10〜31が、辞書のエントリ7から取得された32ビットのワードのビット10〜31と一致した場合には、比較結果は部分的ヒットとなる。ビット0〜9は、圧縮パケット304に記憶され、一方、この第3のワードの全32ビットが、辞書のエントリ7内のワードに置き換わる。
図3に示される実施形態において見られるように、圧縮パケット303(ヒット)及び圧縮パケット304(部分的ヒット)のそれぞれが、生成されたインデックスを記憶する。したがって、後の展開動作の間、インデックスを圧縮パケットから取得することができるので、インデックスは再生成されない。圧縮パケット301(ゼロ)は、インデックスを記憶しないが、後の展開動作の間、インデックスは再生成されない。圧縮パケット302(ミス)は、生成されたインデックスを記憶しない。したがって、後の展開動作の間、インデックスは、圧縮パケット302内のワードの内容から再生成される。
第5のタイプのパケットも使用され得る。圧縮パケット305は、いくつかの繰り返されるパケットのカウントを示すコマンドを含み得る。そのようなパケットは、複数の同一パケットを特定のパケットとそれに続くこの特定のパケットがシーケンスにおいて何回生じたかを示すランレングス符号化(run-length encoding、RLE)パケットで置き換えるために使用され得る。RLEパケットを使用することによって、繰り返されるパケットのすべてのインスタンスの代わりに、パケットが繰り返されることになる回数とともにシーケンス内の繰り返されるパケットの単一のコピーのみを記憶することによって、更なる圧縮が達成され得る。
一部の実施形態では、図3に示されるような圧縮パケットは、結合されて群を形成し得る。圧縮パケット310の群は、圧縮パケットの群の特定の実施形態を表す。図示された実施形態において、圧縮パケット312、314、316及び318は、目標記憶場所に書き込まれ得る単一群にともに連結されている。しかしながら、一部の例では、様々な圧縮パケット内のそれらの対応するペイロードからコマンドを分離することが望ましいことがある。そのような技法を使用する圧縮パケット群330の一実施形態が、図3に示されている。図示の実施形態において、ペイロード332a、334a、336a及び338aは、ともに連結されている。同様に、ペイロード332a〜338aに対応する、コマンドCmd332b、334b、336b及び338bは、次いで、前に連結されたペイロードに連結され得る。
図4に移ると、圧縮エンジン400の1つの実施形態のブロック図が示されている。各種実施形態において、圧縮エンジン400は、図2の実施形態に示すように圧縮エンジン204に対応する。図示された実施形態において、ハードウェアレーン400は、読み取りインターフェース401、パケットジェネレータ402、RLEフィルタ403、パケットバッファ404、群ジェネレータ405、及び書き込みインターフェース406を含む。各種実施形態において、構成要素401〜406のそれぞれが、複数のハードウェアレーンを含む。図4に示す実施形態は単に一例であることに留意されたい。他の実施形態では、異なる回路ブロック及び回路ブロックの異なる配置が用いられ得る。
各種実施形態において、読み取りインターフェース401は、読み取りバッファ、例えば、図2に示すような読み取りバッファ201、から複数のワードを読み取る。例えば、一部の実施形態において、読み取りインターフェース401は、読み取りバッファから、並行して、4つの32ビットワードを読み取り得る。他の実施形態において、別の数のワード及び別のワードサイズが可能であり、意図されている。読み取りインターフェース401は、読み取りバッファから読み取られたデータの何らかのチェックを追加で実行し得る。例えば、読み取りインターフェース401は、ゼロ検出ロジックでワードのうちの1つがすべてのゼロを含むかどうかをチェックして判定し得る。また、読み取りインターフェース401は、これらのワードのうちのいずれかがその他のワードのうちの1つ以上と同じ又は部分的に同じかをチェックし得る。
また、読み取りインターフェース401は、辞書ルックアップで使用されることになるハッシュ又はインデックスを算出し、これらのワードのうちのいずれかが同じインデックスを有するかどうかをチェックして確かめ得る。一例では、4ビットのインデックスが、直接マッピングされた16エントリ辞書にアクセスするために使用される。一部の実施形態では、読み取りインターフェース401は、4ビットインデックスを生成するために、所与の42ビットワードの特定のビット間で排他的論理和ブール演算を実行し得る。他の実施形態では、読み取りインターフェース401は、ワードの特定のビットに基づいてハッシュテーブルにアクセスしてインデックスを生成する。更に他の実施形態において、ハッシュ関数が、所与のワードの特定のビットで実行されてインデックスを生成する。更に、テーブルルックアップのうちの1つ以上、様々なハッシュ関数のうちの1つ、及び様々なブールロジック関数のうちの1つの組合せが、インデックスを生成するために使用される。圧縮エンジン400は、辞書へのアクセスに使用するためのインデックスを生成する際に、統計ベースの圧縮アルゴリズムと辞書ベースの圧縮アルゴリズムとの組合せを実行する。
一実施形態において、最も左のワードがその群の最も古いワードとなり、最も右のワードがその群の最も若いワードとなるように、群のワードが、読み取りインターフェース401によって読み取られる。最も古いワードと最も若いワードとの間のワードは、同様の方式で順序付けされる。他の実施形態では、最も右のワードがその群の最も古いワードであり、最も左のワードがその群の最も若いワードである。一部の実施形態では、2つ以上のワードが同じインデックスを有するとき、各ワードから1つの複数の読み取り要求ではなくて、単一の読み取り要求が辞書に送られる。一実施形態では、読み取りインターフェース401は、同じインデックスを有する2つ以上のワードのうちの最も古いワードについてのみ読み取り要求を生成し、同じインデックスを有する2つ以上のワードのうちのその他のワードのために、生成されたインデックスを有する読み取り要求を辞書に送る。
読み取りインターフェース401は、パケットジェネレータ402にワードを送る前にそれらのワードを記憶するために、複数のフリップフロップ回路、ラッチ及び他の逐次素子を含み得る。また、一部の実施形態において、読み取りインターフェース401は、2つ以上のパイプラインステージを含む。このため、一実施形態において、同じインデックスを有する2つ以上のワードのためなどに、辞書の特定のエントリの内容の読み取り要求が、第1のパイプラインステージの最後にパイプライン逐次素子に記憶される。読み取り要求が、後の第2のパイプラインステージで辞書に送られ、一方で、次の群のワードが、読み取りバッファから読み取られ、インデックスが、次の群に対して生成される。
各種実施形態において、パケットジェネレータ402は、読み取りインターフェース401から受信された各々のワードについて圧縮パケットを生成する。パケットジェネレータ402は、所与のワードを辞書内の1つ以上のエントリと比較することによって、図3に示すようなパケットを生成する。1つの実施形態では、CAMベースの比較回路を使用して、所与のワードが辞書内の各エントリと比較される。他の実施形態では、辞書の特定のエントリを指定するインデックスが、辞書にアクセスするために、及び比較において使用するためのワードを取得するために、使用される。しかしながら、パケットジェネレータ402は、複数のハードウェアレーンによる並列実行のために、辞書から取得された内容ではなくて、別のハードウェアレーンからのワードと所与のワードを比較することによって、図3に示すものと同様のパケットを生成する。選択ロジックは、複数のハードウェアレーンのパイプラインステージのロードに基づく。後に例とともに更なる詳細を示す。パケットジェネレータ402は、実行された比較に基づいて適切なコマンド及びペイロードを決定し得る。パケットジェネレータ402はまた、生成されたパケットをRLEフィルタ403に送る前に記憶する複数のフリップフロップ回路を含み得る。
RLEフィルタ403は、同様のパケットのシーケンスを追跡するように構成された順序論理回路又はステートマシンを含み得る。同様のパケットは、例えば、ゼロパケットのシーケンス、すなわち、すべてのゼロデータビットを含むパケット、又は同じ辞書インデックスに対するヒットパケットのシーケンスでもよい。例えばゼロパケットなどの可能なシーケンスの開始が検出されると、RLEフィルタ403は、そのシーケンス内の後続の数のパケットを追跡し得る。シーケンスが終了すると、RLEフィルタ403は、特定のパケットを複製する回数を示すRLEパケットを生成し得る。シーケンス内の初期パケット及びRLEパケットは記憶することができ、これにより、記憶する必要のあるパケットの数を減少させることができる。RLEパケットは、シーケンスを開始するパケットの追加コピーを生成するために、展開中に使用され得る。
パケットバッファ404は、群ジェネレータ405による群生成の前にパケットを記憶するために必要な複数のフリップフロップ又は他の適切な記憶回路を含み得る。各種実施形態において、群ジェネレータ405は、複数の多重回路及びシフトレジスタを含み得る。多重回路及びシフトレジスタは、他の論理回路とともに、パケットの群の形成を可能にするように配置され得る。一部の実施形態では、パケット群のフォーマットは、図3に示すパケット群のフォーマットに対応し得る。
書き込みインターフェース406は、群がパックされた複数のバッファを含み得る。各種実施形態において、書き込みインターフェース406は、バッファが満杯になるまで、複数の群を単一のバッファにパックすることができ、その時点で、バッファの内容は、目標記憶場所にコピーされるのを待ち、書き込みバッファに書き込まれ得る。パケットは様々なサイズでよいため、群も様々なサイズでもよい。そのようなものとして、複数の群が、単一のバッファに結合され得る。書き込みインターフェース406に含まれるバッファは、書き込みインターフェース406内のパイプライン式動作を可能にするように配置され得る。
次に図5を参照すると、圧縮処理500の1つの実施形態のブロック図が示されている。図示の実施形態において、シリアル処理が、統計ベースの圧縮アルゴリズムと辞書ベースの圧縮アルゴリズムとの組合せを使用するハイブリッド圧縮アルゴリズムについて実行される。図のように、「レーン0」と称される、単一のハードウェアレーンが使用される。複数のハードウェアレーンにおける並列実行を伴う圧縮処理を後から提供する。レーン0は4回示されているが、これは説明を容易にするためであり、単一のハードウェアレーンのみがこの図示の例において使用される。圧縮されるデータの部分は、ワードと称される。図のように、辞書510は、最近見られたワードを複数のエントリに記憶する。図示された本例では、辞書510は、テーブルなどの直接マッピングされたデータ記憶構造である。辞書510は、複数のラッチ、フリップフロップ、ランダムアクセスメモリ(RAM)セル、又は、様々なエントリに含まれる個々のデータビットを記憶するように構成された他の適切な記憶回路を含み得る。
図のように、時刻t0に、レーン0にワード0=Cがロードされる。ここで、「C」は汎用値として用いられ、マルチビット値を表す。ここで、16進及び他の表現は使用されない。例えば、値「C」は32ビットのワードを表し得る。時刻t1に、インデックスがハッシュ関数によって生成され、結果として得られるインデックスは7である。時刻t2に、読み取り要求が生成される。読み取り要求は、インデックス7を特定する。この読み取り要求が辞書510に送られ、エントリ7がアクセスされる。値Cであるエントリ7に記憶された値は、コピーされ、レーン0に戻される。
時刻t3に、レーン0内の比較ロジックが2つの値を比較する。第1の値は、辞書510のエントリ7から取得された値Cである。第2の値は、Cである、ワード0の値である。比較結果はヒットである。時刻t4に、レーン0内のロジックが、辞書510の更新は存在しないと判定する。時刻t5に、2つの動作が開始される。第1の動作は、レーン0にワード1=Cをロードすることである。第2の動作は、ワード0のパケットを構築することである。第1の動作に関して、ワード0=Cの場合には、辞書510の更新は行われない。しかしながら、時刻t4で更新が生じた場合には、ワード1=Cの読み取り要求が辞書510に送られる前に、それらの更新が終了する必要がある。レーン0にワード1=Cをロードすることが、レーン0の第2のコピーに示される。第2の動作に関して、一実施形態において、生成された圧縮パケットは、図3に描かれたものと同様である。例えば、圧縮パケット303が、ワード0について生成され得る。
図のように、時刻t5に、レーン0にワード1=Cがロードされる。再び、レーン0にワード1=Cをロードすることが、レーン0の第2のコピーに示される。ハッシュ関数によりインデックスが生成され、結果として得られるインデックスは7である。時刻t6(説明を容易にするために図示せず)に、読み取り要求が生成される。読み取り要求は、インデックスを7と指定する。この読み取り要求が辞書510に送られ、エントリ7がアクセスされる。値Cである、エントリ7に記憶されている値は、コピーされ、レーン0に戻される。時刻t7(図示せず)に、レーン0内の比較ロジックが、2つの値を比較する。第1の値は、辞書510のエントリ7から取得された値Cである。第2の値は、Cである、ワード1の値である。比較結果はヒットである。
時刻t8(図示せず)に、レーン0内のロジックは、辞書510の更新はないと決定する。時刻t9(図示せず)に、2つの動作が開始される。第1の動作は、ワード2=Cをレーン0にロードすることである。第2の動作は、ワード1のパケットを構築することである。この動作が、ワード2及びワード3について繰り返される。図のように、時刻t1及びt5での動作は並行して行われ得るので、シリアル実装が単一のハードウェアレーンと示されるが、後のワードの処理は、先のワードに対して圧縮パケットが生成される前に開始することができる。これにより、他のパイプラインステージが、時刻t1〜t5などの指示された時間の間のみならず、指示された時間内にも使用され得る。例えば、時刻t1に、第1のパイプラインステージはワードをロードすることができ、第2のパイプラインステージはインデックスを生成することができる。しかしながら、比較結果に基づく辞書510の更新及び辞書510からのエントリの読み取りなど、ワード間の依存関係が存在する。
次に図6を参照すると、圧縮処理600のもう1つの実施形態のブロック図が示されている。図示の実施形態では、統計ベースの圧縮アルゴリズムと辞書ベースの圧縮アルゴリズムとの組合せを使用するハイブリッド圧縮アルゴリズムのシリアル実行が行われる。図のように、「レーン0」と称される単一のハードウェアレーンが使用される。前述の辞書510は、同じ番号を付されている。
図のように、時刻t0に、レーン0にワード0=Aがロードされる。時刻t1〜t5に実行される動作は、図5に記載されたのと同じである。しかしながら、ここで、辞書510のエントリ7に記憶された値はAである。時刻t5に、レーン0にワード1=Bがロードされる。値Bは値Aとは異なるが、ハッシュ関数が使用する値Bのサブセットは同じインデックスを生成し、それは7である。一例では、このサブセットは、32ビットワードのビット10〜17である。したがって、時刻t7(図示しないが、時刻t3と同等)に、比較ロジックが、ワード1の値Bと辞書510のエントリ7から取得された値Aとを比較する。本例では、比較結果はミスである。部分的ヒットの比較結果も可能であるが、本例ではミスを使用する。時刻t8では、この時にはワード1が直近に見られたワードであるため、辞書510のエントリ7がワード1の値Bで更新される。
時刻t9に、レーン0にワード2=Bがロードされ、インデックス7がハッシュ関数によって生成される。このため、後の時刻t11(図示しないが、時刻t3と同等)では、比較ロジックが、ワード2の値Bと辞書510のエントリ7から取得された値Bとを比較する。比較結果はヒットである。したがって、辞書510は更新を必要としない。
時刻t13に、レーン0にワード3=Cがロードされる。値Cは値A及びBとは異なるが、ハッシュ関数が使用する値Cのサブセットは、同じインデックスを生成し、それは7である。したがって、時刻t15(図示しないが、時刻t3と同等)に、比較ロジックは、ワード3の値Cと辞書510のエントリ7から取得された値Bとを比較する。本例では、比較結果はミスである。部分的ヒットの比較結果も可能であるが、本例ではミスを使用する。時刻t16では、この時にはワード3が直近に見られたワードであるため、ワード510のエントリ7は、ワード3の値Cで更新される。本例で見られるように、比較結果に基づく辞書510の更新及び辞書510からのエントリの読み取りなど、ワード間には依存関係がある。しかしながら、所与のワードについての辞書510のエントリの読み取りは、所与のワードより古い、前に所与のワードに処理されたワードの圧縮パケットの生成から独立している。
次に図7を参照すると、圧縮処理700の1つの実施形態のブロック図が示されている。図示の実施形態では、統計ベースの圧縮アルゴリズムと辞書ベースの圧縮アルゴリズムとの組合せを使用するハイブリッド圧縮アルゴリズムの並列実行が行われる。図のように、「レーン0」、「レーン1」、「レーン2」、及び「レーン3」と称される、複数のハードウェアレーンが使用される。図示の実施形態では4つのハードウェアレーンが示されているが、別の数の複数のハードウェアレーンが可能であり、意図されている。前述の辞書510は、同じ番号を付されている。
前述のように、各々の時刻t1からt5の間などの指示された時刻の間のみならず指示された時間内に、パイプラインステージが使用され得る。例えば、時刻t1に、第1のパイプラインステージは複数のワードをロードすることができ、第2のパイプラインステージは複数のロードされたワードのうちの各ワードのインデックスを生成することができる。また、示された時刻のうちの1つ以上が、同じパイプラインステージにおいて配置され得る。例えば、時刻t3及びt4で実行される動作は、その動作が所与のクロックサイクル内に完了する場合、単一のパイプラインステージにおいて結合され得る。図のように、時刻t0に、レーン0からレーン3のそれぞれに、ワード0からワード3のうちの対応する1つのワードがロードされる。本例では、ワード0からワード3のそれぞれが、値Cを有する。
レーン0からレーン3のうちの所与のハードウェアレーンについて時刻t1〜t5に実行される動作は、いくらかの調整を有して単一のハードウェアレーンについて図5に記載されたのと同じである。例えば、時刻t2に、単一の読み取り要求が、ハードウェアレーンのレーン0からレーン3を代表して、レーン0から辞書510に送られる。各種実施形態において、圧縮エンジン内の制御ロジックは、レーン0からレーン3の各ハードウェアレーンが辞書510の同じエントリにアクセスすると判定する。各種実施形態において、制御ロジックは、ハードウェア回路において実装される。したがって、レーン0はワード0からワード3のワード群の最も古いワードを有することが知られる。この場合、ワード0は、レーン0においてロードされた最も古いワードである。
また、制御ロジックは、レーン3がワード0からワード3のワード群の最も若いワードを有すると判定する。この場合、ワード3は、レーン3においてロードされた最も若いワードである。ワード0からワード3などの第1の群のワードと、ワード4からワード7を有する後の群のロードされたワードなどの第2の群のワードとの間には、依存関係が存在する。図7の例示の実施形態において、比較結果は、辞書510の更新が必要とされることを示さない。しかしながら、ワード3=Cの値が辞書510に送られて辞書510のエントリ7が更新された場合、破綻は生じない。
ワード0からワード3の比較結果に基づく辞書510の更新は、読み取り要求が後のワード4からワード7のうちのいずれか1つについて辞書510に送られる前に終了する必要がある。しかしながら、その依存関係は、ワード0からワード3のうちのいずれか2つのワード間の依存関係ではなくて、ワード3である現在最も若いワードによる辞書510の更新に基づく。次の例は、この事実を強調する。
次に図8を参照すると、圧縮処理800のもう1つの実施形態のブロック図が示されている。図示の実施形態において、並列実行が、ハードウェアレーンのレーン0からレーン3及び辞書510を再び使用し、ハイブリッド圧縮アルゴリズムについて実行される。図のように、時刻t0に、レーン0からレーン3のそれぞれに、ワード0からワード3のうちの対応するワードがロードされる。本例では、ワード0は値Aを有し、ワード1及びワード2の各々は値Bを有し、ワード3は値Cを有する。辞書510のエントリ7は、値Aを有する。レーン0からレーン3の所与のハードウェアレーンについて時刻t1〜t5で実行される動作は、いくらかの調整を有して前述と同じである。時刻t1に、レーン0からレーン3のそれぞれが、各種実施形態において、同じインデックス7を生成することが発見されたとき、回路に実装された制御ロジックは、レーン0が同じインデックスを有するワード0からワード3のワード群のうちの最も古いワードを有すると判定する。また、制御ロジックは、同じインデックスを有するワード0からワード3のワード群の最も若いワードをレーン3が有すると判定する。
一部の実施形態では、ワード0からワード3のうちの少なくとも1つのワードが、別のワードと同じインデックスを有さないとき、この少なくとも1つのワードは、同じインデックスを有するワード群のみを同時に処理するために、次のパイプラインステージにまだ通過しない。例えば、ワード3が12のインデックスを有する場合、次いで、ワード3は待機する一方で、ワード0からワード2は、辞書510にアクセスするために次のパイプラインステージに通過し得る。しかしながら、ワード3はやはり、後のワード4より先にパイプラインステージに沿って移動する。他の実施形態では、その他のワードがそれらのうちで7の同じインデックスを有するときにワード3がインデックス12などの異なるインデックスを有するとき、ワード3は次のパイプラインステージに通過する。このような場合、辞書510は、2つの同時アクセスをサポートするためにデュアルポートされる、又は、ワード3が、この後のパイプラインステージにおいて辞書510にアクセスするのを待つ。
もう1つの例では、ワード0、ワード2及びワード3のそれぞれが7のインデックスを有する一方で、ワード1が12のインデックスを有するとき、各種実施形態において、ワード0は次のパイプラインステージに単独で送られる。その後のクロックサイクルにおいて、ワード1は、次のパイプラインステージに単独で送られる。更に後のパイプラインステージにおいて、ワード2及びワード3のそれぞれが、次のパイプラインステージに送られる。このため、ワード0からワード3の順序は維持され、圧縮パケットの生成は同じ順序を有する。他の実施形態では、ワード0、ワード2及びワード3のそれぞれが、次のパイプラインステージでともに送られるが、ワード1はワード0よりも若く、ワード2よりも古いことを特定する指示は維持される。更に他の実施形態では、ワード0からワード3のそれぞれが次のパイプラインステージに送られ、辞書510は2つの同時アクセスをサポートするためにデュアルポートされる。
ワード0からワード3のそれぞれが同じインデックスの7を有する例に戻ると、時刻t2に、単一の読み取り要求が、ハードウェアレーンのレーン0からレーン3を代表して、レーン0から辞書510に送られる。時刻t3に、レーン0からレーン3で行われる各比較が、そのレーンの対応するワードの値と辞書510のエントリ7から取得された値との間に行われることに留意されたい。このため、ワード0からワード3の各々の間には依存関係が存在するが、辞書510のエントリ7からの値Aのコピーが、レーン0からレーン3の各々において使用される。例えば、図6を再び簡単に参照すると、シリアル実行時に、ワード間の依存関係を考慮したとき、ワード2及びワード3のそれぞれと値Bとが比較される。辞書510の更新が、各々のワード0からワード3のシリアル処理中に発生した。しかしながら、ここで図8において、並列実行の間に、辞書510に対する更新がまだ行われていない辞書510のエントリ7のコピーである値Aと、ワード2及びワード3の各々とが比較される。複数のハードウェアレーンによる並列実行を伴う図8に示す比較結果は、ワード0からワード3の初期値及びエントリ7は同じであるが単一ハードウェアレーンによるシリアル実行を有する図6に示す比較結果とは異なる。
図6の比較結果は、ワード0からワード3のそれぞれに圧縮パケットを生成するために使用することができるが、図8の比較結果は、ワード0からワード3のそれぞれに圧縮パケットを生成するために使用することはできない。しかしながら、ワード4からワード7など、後の第2の群のワードのうちのいずれか1つのワードが辞書510にアクセスすることを可能にすることは、ワード0からワード3のうちのいずれか2つのワード間の依存関係ではなくて、ワード3である現在最も若いワードによる辞書510の更新に依存する。そのため、ワード3である現在最も若いワードによる辞書510の更新が既知であれば、ワード4からワード7など、後の第2のワード群が辞書510にアクセスすることが可能にされる。例えば、最も若いワードの更新は、ワード4からワード7など、後の第2のワード群からの読み取り要求に転送(バイパス)され得る。
図示の実施形態では、時刻t4に、ワード3は、同じインデックス(7)を有するワード群(ワード0からワード3)の最も若いワードであることが知られ、更に、少なくとも1つの更新がこのワード群について発生することが知られる。例えば、ミスの比較結果が、辞書510は更新されるべきであることを示す。前述のように、部分的ヒットの比較結果もまた、辞書510が更新されるべきであることを示す。少なくとも1つの辞書更新の指示が、圧縮パケットの生成のために用いられないこともあるが、この指示は、辞書510が更新されるべきか否かを判定するために使用することができる。本例では、制御ロジックは、更新はエントリ7が値Cで書かれることであると判定するのに加えて、辞書510の更新が発生すると判定する。このため、時刻t5に、ワード0からワード3のそれぞれに圧縮パケットが生成され、同時に、後の第2の群のワード4からワード7がレーン0からレーン3にロードされる。
一部の実施形態では、時刻t4に、後の第2の群のワード4からワード7がレーン0からレーン3にロードされ、ハッシュ関数によって、対応するインデックスが求められる。時刻t5までに、それらが同じインデックスを有する場合、ワード4からワード7のために辞書510に読み取り要求が送られる。また、ワード4からワード7もまた同じインデックス7を有する場合、この読み取り要求に対してワード3に対応する更新が転送され得る。このため、レーン0からレーン3は、ワード4からワード7の読み取り要求に先立って、ワード0からワード3間の依存関係は未だ判定されていないにもかかわらず、ワード4からワード7の時刻t6における比較に値Cを使用する。
一部の実施形態では、圧縮パケットを生成するための時間的制約はあまりない。複数のパスが圧縮パケット群に行われながら、圧縮パケットを生成するための待ち時間を隠し得る。したがって、時刻t5には、第2の群のワード4からワード7の処理は既に開始している一方で、ワード0からワード7の間の真の依存関係を判定するための制御ロジックが処理を開始し得る。例えば、比較動作のために真の依存値が求められる。再び図6を簡単に参照すると、各々のワード2とワード3との真の依存値は値Bであり、値Aではない。値Bは、ワード2より古いワードのうちの最も若いワードであるワード1の値である。ワード0及びワード1の各々はワード2よりも古く、ワード1はこれらの2つのワードのうちの最も若いワードである。同様に、ワード0、ワード1及びワード2のそれぞれはワード3よりも古く、ワード2はこれらの3つのワードのうちの最も若いワードである。ワード2の値もまたBであり、これは、ワード3の比較動作のために用いられることになる真の依存値である。
真の依存値を求める制御ロジックは、比較ロジック及びマルチプレクサ回路を含み得る。真の依存値を求めるための待ち時間は、特にハードウェアレーンの数が増加するにつれて、かなり長くなり得る。ワード0からワード3の第1の群とワード4からワード7の第2の群との処理の間にこの待ち時間を付加するのではなくて、後の群内固定動作及びそれ以降の圧縮パケット生成においてこの待ち時間を除去及び隠蔽することができる。一部の実施形態では、レーン0にロードされるワードは常に特定のインデックスの最も古いワードなので、レーン0にロードされるワードの固定は決して発生しないことに留意されたい。このため、比較動作のための真の依存値は、常に、辞書510から読み取られた値、又は前のワードの処理から転送(バイパス)された値である。
次に図9を参照すると、データを効率的に圧縮する方法900の1つの実施形態の一般化フロー図が示されている。説明のために、本実施形態(並びに図11)の工程は順番に示される。しかしながら、他の実施形態では、いくつかの工程は図示されたのとは異なる順序で生じることがあり、いくつかの工程は同時に実行されることがあり、いくつかの工程を他の工程と組み合わせることがあり、いくつかの工程はないことがある。
一部の実施形態では、命令フェッチユニットは、命令キャッシュ又はシステムメモリ内の他の適切な場所から命令を受信する。命令が、復号され、圧縮命令と判定される(ブロック902)。一実施形態では、圧縮/解凍ユニットの圧縮エンジンが、ソースページなどのソースデータをソースバッファにロード(プリフェッチ)する(ブロック904)。一部の実施形態において、ソースデータは、データキャッシュに先ず記憶され、次いで、圧縮/展開ユニット内の読み取りバッファに記憶される。一実施形態では、プロセッサコアによって第1の数のラインがプリフェッチされ、ソースデータの所望のページに残った残りのラインが、圧縮/展開ユニットに含まれる専用回路によって後からプリフェッチされる。専用回路は、圧縮及び展開動作について異なり得る所定のストライド値を使用してプリフェッチし得る。
複数のハードウェアレーンのうちの少なくとも2つ以上のハードウェアレーンが、ソースデータの対応するワードを割り当てられる(ブロック906)。一部の実施形態において、ソースデータは、固定サイズのワードなどの部分に区切られる。アクセスする辞書のエントリをインデックスが指定する、特定のインデックスをワードごとに判定する(ブロック908)。辞書は、圧縮又は展開の動作中に、直近に見られたワードを記憶する。前述のように、ワード内の特定のビットフィールドをハッシュ関数とともに使用してインデックスを生成する。第1のワード群、同じ第1のインデックスを有する第1の群内の各ワード、について、辞書にアクセスする(ブロック910)。例えば、同じインデックスを有する第1の群内の複数のワードのために、単一の読み取り要求が辞書に送られる。
第1の群の真の群内依存関係を判定する前に、第2のワード群に対して辞書がアクセスされ、この第2の群内の各ワードは同じインデックスを有する(ブロック912)。各種実施形態において、第1の群と第2の群のそれぞれは、同じインデックスを有し、それにより、辞書内の同じエントリにアクセスする。第1の群の所与のワードの真の群内依存関係は、第1の群の所与のワードより古い各々のワードの比較結果及び辞書更新である。所与のワードの比較結果及び辞書更新は、第1の群内の所与のワードより若いワードの真の群内依存関係の一部である。第1の群の真の群依存関係は、第1の群の圧縮パケットを生成し、以後のより若い第2の群のために正しく辞書を更新するために使用される。しかしながら、第1の群について最も若いワードが既知であるのみならず、少なくとも1つの辞書更新が第1の群について発生したことが分かった場合、第1の群の真の群内依存関係は未だ知られていないにもかかわらず、第2の群が必要とする辞書更新はここで既知である。第2の群が必要とする辞書更新は、第1の群のインデックスが指す辞書のエントリに書き込まれている第1の群の最も若いワードの値である。各種実施形態において、第1の群の最も若いワードの値が第2の群に転送(バイパス)され、一方、辞書更新は後に又は同時に実際に発生する。
圧縮されたパケット(又は「圧縮パケット」)が、各々の第1の群及び第2の群内のワードに対して生成される(ブロック914)。各種実施形態では、少なくとも第1の群について群内固定動作が実行される。一実施形態では、圧縮動作の処理中に、少なくとも1つの辞書更新の指示が、第1の群のインデックスが指す辞書エントリに記憶されたワードのコピーと第1の群の各ワードの比較に基づいて生成される。群内固定(定着)動作中、真の値を求めて第1の群の各ワードと比較することによって、真の群内依存関係が求められる。一部の実施形態において、第1の群の所与のワードの真値は、第1の群の所与のワードより古い、より若いワードの値である。
前述のように、第1の群内の所与のワードと比較するための真の群内依存値を求める制御ロジックは、比較ロジック及びマルチプレクサ回路を含み得る。真の群内依存値を求めるための待ち時間は、特にハードウェアレーンの数が増加するにつれて、かなり長くなり得る。この待ち時間を第1の群の処理と第2の群の処理との間に追加するのではなくて、後の群内固定動作においてこの待ち時間を除去し、隠蔽することができる。圧縮動作の他の例を提供する前に、展開動作の例が次に説明される。
ここで図10を参照すると、展開処理1000の1つの実施形態のブロック図が示されている。図示の実施形態において、ハイブリッド圧縮アルゴリズムの並列実行が再び行われる。ここで、並列するハードウェアレーンのレーン0からレーン3は、展開エンジンにおいて使用される。4つのハードウェアレーンが図示の実施形態には示されるが、別の数の複数のハードウェアレーンが可能であり、意図されている。前述の辞書510は、同一番号を付されている。圧縮エンジンのハードウェアレーンと同様に、展開エンジンのハードウェアレーンは、パイプラインステージを使用し得る。
図のように、レーン0は、ヒットを特定するCmd(コマンド)と7のインデックスとを有するパケット0を割り当てられている。名称には「圧縮」が使用されていないが、パケット0からパケット3の各々は、前述のように生成された圧縮パケットである。レーン1は、ミスを特定するCmdと値Bのペイロードとを有するパケット1を割り当てられている。レーン2は、ヒットを特定するCmdと7のインデックスとを有するパケット2を割り当てられ、レーン3は、ミスを特定するCmdと値Cのペイロードとを有するパケット3を割り当てられている。辞書510のエントリ7は、値Aを最初に記憶する。時刻t1では、インデックスなしのパケットは、それぞれのペイロードから生成されたインデックスを有する。前述のインデックス生成動作が再度使用され得る。図のように、パケット1及びパケット3のそれぞれは、7のインデックスを生成されてある。
各種実施形態において、展開エンジン内の制御ロジックは、7の同じインデックスを有することによりレーン0からレーン3の各ハードウェアレーンは辞書510の同じエントリにアクセスすると判定する。各種実施形態において、制御ロジックは、ハードウェア回路で実装される。このため、レーン0は最も古いパケットを有し、レーン3はパケット0からパケット3のうちの最も若いパケットを有することが知られる。時刻t2に、単一の読み取り要求が、ハードウェアレーンのレーン0及びレーン2を代表して、レーン0から辞書510に送られる。パケット1及びパケット3のそれぞれは、ペイロードを有しているので、圧縮パケットに対応するワードについては、辞書510にアクセスする必要はない。図のように、レーン0及びレーン2のそれぞれは、辞書510のエントリ7から値Aを展開ワードとして受信する。
図6を再び簡単に参照すると、ワード2は値Bを有することが理解され得る。したがって、展開エンジンは、図10においてワード2に誤った値のAを有する。時刻t2において真の群内依存関係が考慮された場合、値Bがワード2に対して判定されることになる。しかしながら、圧縮エンジンと同様に、比較的高いスループットを達成するために、展開エンジンは、このとき真の群内依存関係を判定しない。パケット4からパケット7など、後の第2のパケット群の任意のパケットが辞書510にアクセスすることを可能にすることは、パケット0からパケット3のうちのいずれか2つのパケット間の依存関係ではなくて、現在最も若いパケット、すなわちパケット3、による辞書510の更新に依存する。したがって、現在最も若いパケット、すなわちパケット3、による辞書510の更新が知られると、パケット4からパケット7などの後の第2のパケット群は、辞書510にアクセスすることを許される。例えば、最も若いパケットの更新は、後の第2のパケット群からの読み取り要求に転送(バイパス)され得る。
図示の実施形態では、時刻t3に、パケット3は同じインデックス(7)を有するパケット0からパケット3の最も若いパケットであることが知られ、更に、少なくとも1つの更新がこのパケット群について発生することが知られる。例えば、ミスのコマンド(Cmd)は、辞書510が更新されるべきであることを示す。前述のように、部分的ヒットのコマンドもまた、辞書510が更新されるべきであることを示す。少なくとも1つの辞書更新の指示は、展開されたワードを生成するために使用されないことがあるが、この指示は、辞書510が更新されるべきかどうかを判定するために使用することができる。
本例では、制御ロジックは、更新はエントリ7が値Cで書かれることであると判定することに加えて、辞書510の更新が発生すると判定する。このため、時刻t4に、展開されたワードが生成され、各々のパケット0、パケット1、及びパケット3の書き込みバッファに書き込まれ、同時に、後の第2の群のパケット4からパケット7がレーン0からレーン3にロードされる。転送(バイパス)が使用される場合、第2の群のパケット4からパケット7は、更に早くレーン0からレーン3にロードされる。一部の実施形態では、パケット0からパケット3の各々について無条件に群内定着動作が発生する。他の実施形態では、パケット0のような、その群の最も古いパケットは、この動作をスキップする。更に、パケットのコマンドを使用して、特定のパケットについて群内定着が必要かどうかを判定することができる。例えば、ミスコマンドは、ペイロードが正しい展開ワードを有することを示す。一方、ヒットコマンドは、正しい展開ワードが辞書510にあることと、後のために待ち時間を隠蔽するために、このときに真の群内依存関係は考慮されていないため、このときに辞書510から読み取られたデータは正しくない可能性があることとを示す。
ここで図11を参照すると、データを効率的に圧縮する方法1100の1つの実施形態の一般化フロー図が示されている。一部の実施形態では、命令フェッチユニットは、命令キャッシュ又はシステムメモリ内の他の適切な場所から命令を受信する。命令は復号され、展開命令であると判定される(ブロック1102)。一実施形態において、圧縮/展開ユニットの展開エンジンは、圧縮パケットのソースページなどのソースデータをソースバッファにロード(プリフェッチ)する(ブロック1104)。一部の実施形態では、ソースデータは、データキャッシュに先ず記憶され、次いで、圧縮/展開ユニット内の読み取りバッファに後に記憶される。圧縮エンジンと同様に、様々な方法を使用してソースバッファにデータをプリフェッチすることができる。
複数のハードウェアレーンのうちの少なくとも2つ以上のハードウェアレーンが、ソースデータの対応する圧縮パケットを割り当てられる(ブロック1106)。辞書にアクセスするためのインデックスを指定していない圧縮パケットについては、特定のインデックスを判定する(ブロック1108)。辞書は、圧縮又は展開動作中に、直近に見られたパケットを記憶する。前述のように、パケット内の特定のビットフィールドをハッシュ関数とともに使用してインデックスを生成する。第1の群のパケット、同じ第1のインデックスを有する第1の群の各パケットについて、辞書にアクセスする(ブロック1110)。例えば、単一の読み取り要求が、同じインデックスを有する第1の群の複数のパケットのために辞書に送られ、展開されたワードを有するペイロードを含まない。
第1の群の真の群内依存関係を判定する前に、第2の群のパケットについて辞書がアクセスされ、この第2の群の各パケットは同じインデックスを有する(ブロック1112)。各種実施形態において、第1の群及び第2の群のそれぞれは同じインデックスを有し、したがって、辞書内の同じエントリにアクセスする。第1の群の所与のパケットの真の群内依存関係は、パケット内のコマンドとして提供される比較結果、及び第1の群の所与のパケットより古い各々のパケットの辞書更新である。所与のパケットに対する比較結果及び辞書更新は、第1の群内の所与のパケットよりも若いパケットの真の群内依存関係の一部である。第1の群の真の群依存関係は、第1の群の展開ワードを生成し、以降の、より若い第2の群のために正しく辞書を更新するために使用される。しかしながら、第1の群については最も若いパケットが既知であるのみならず、圧縮中に第1の群に対して少なくとも1つの辞書更新が発生したことが知られている場合、第1の群の真の群内依存関係は未だ知られていないにもかかわらず、第2の群が必要とする辞書更新はここで知られる。第2の群が必要とする辞書更新は、第1の群のインデックスが指す辞書のエントリに第1の群の最も若いパケットに対する展開されたワードの値が書き込まれることである。各種実施形態において、第1の群の最も若いパケットの値は第2の群に転送(バイパス)され、一方、辞書の更新は後に又は同時に実際に発生する。
各々の第1の群及び第2の群のパケットに対して展開されたワードが生成される(ブロック1114)。各種実施形態では、少なくとも第1の群について群内固定動作が実行される。圧縮エンジンの群内固定(定着)動作と同様に、展開エンジンの群内固定(定着)動作は、第1の群のパケットごとに展開されたワードの真のソースを見つけることによって、真の群内依存関係を判定する。一部の実施形態において、第1の群の所与のパケットのための真値は、第1の群の所定のパケットより古い最も若いパケットの値である。
前述のように、第1の群内の所与のパケットと比較するための真の群内依存値を求める制御ロジックは、比較ロジック及びマルチプレクサ回路を含み得る。真の群内依存値を求めるための待ち時間は、特にハードウェアレーンの数が増加するにつれて、かなり長くなり得る。この待ち時間を第1の群の処理と第2の群の処理との間に追加するのではなくて、後の群内固定動作においてこの待ち時間を除去し、隠蔽することができる。
次に図12を参照すると、圧縮処理1200の1つの実施形態のブロック図が示されている。図示の実施形態では、ハードウェアレーンのレーン0からレーン3と辞書510とを使用してハイブリッド圧縮アルゴリズムを再び並列実行する。図のように、時刻t0に、レーン0からレーン3の各々にワード0からワード3のうちの対応するワードがロードされる。ワード0からワード3の値は、図8の例示的実施形態で使用される値と同じである。レーン0からレーン3のうちの所与のハードウェアレーンに対する時刻t1〜t5に行われる動作は、いくらかの調整を有して前述と同じである。
この図示の実施形態では、時刻t2に、レーン1からレーン3は、レーンに割り当てられたワードの値と比較するために用いる真の群内依存値を判定する。前述のように、一部の実施形態において、同じインデックスを有するワードのみがパイプライン内をともに進む。また、所与のワードに対する真の群内依存値は、所与のワードよりも古いワードのうちの最も若いワードであることは前述した。したがって、ワードをレーンに割り当て、同じインデックスを有するワードのみがパイプライン内をともに進むことができるようにすることにより、真の依存値は近隣レーン内のワードである。レーン0のワード0の真の依存値は、辞書510から読み取られたワードであり、レーン1のワード1の真の依存値はレーン0のワード0であり、レーン2のワード2の真の依存値はレーン1のワード1であり、レーン3のワード3の真の依存値はレーン2のワード2であることが事前に分かっている。多重化回路と比較器は使用しない。そうではなくて、直接ワイヤ経路を用いることができる。したがって、圧縮パケットを生成する前に群内定着動作を必要としない。
次に図13を参照すると、展開処理1300の1つの実施形態のブロック図が示されている。図示の実施形態では、ハードウェアレーンのレーン0からレーン3と辞書510とを使用してハイブリッド展開アルゴリズムを再び並列実行する。図のように、時刻t0に、レーン0からレーン3のそれぞれに、パケット0からパケット3のうちの対応する1つのパケットがロードされる。パケット0からパケット3の値は、図10の例示的実施形態で使用される値と同じである。レーン0からレーン3のうちの所与のハードウェアレーンについて時刻t1〜t4に行われる動作は、いくらかの調整を有して前述と同じである。
図示の実施形態では、時刻t2に、レーン1からレーン3は、その展開されたワードを生成するために使用する真の群内依存値を判定する。前述のように、一部の実施形態では、同じインデックスを有するパケットのみがパイプライン内をともに進む。加えて、所与のパケットに対する真の群内依存値は、所与のパケットよりも古いパケットのうちの最も若いパケットであることは前述した。したがって、レーンへのパケットの割り当てと同じインデックスを有するパケットのみがパイプライン内でともに進むことを可能にすることとにより、割り当てられたパケットの各々についてインデックスが既知である時刻t1の後、パケットのコマンド(Cmd)を使用して、ペイロード(Cmd=ミス)と近隣レーンからの展開されたワード(Cmd=ヒット)とから選択する。時刻t1〜t2の間、レーン0のパケット0の真の展開ワードは辞書510から読み取られたパケットであり、レーン1のパケット1の真の展開ワードはレーン1のペイロードであり、レーン2のパケット2の真の展開ワードはレーン3のペイロードであることが分かっている。いくつかの多重化回路及びCmd値のための比較器を使用する。しかしながら、待ち時間はまだかなり短いことがあり、したがって、書き込みバッファに展開されたワードを記憶する前に、群内定着動作は必要とされない。
次に図14を参照すると、圧縮処理1400の1つの実施形態のブロック図が示されている。本例示的実施形態では、ハードウェアレーンのレーン0からレーン3と辞書510とを使用してハイブリッド圧縮アルゴリズムを再び並列実行する。図のように、時刻t0に、レーン0からレーン3の各々にワード0からワード3のうちの対応する1つのワードがロードされる。ワード0からワード3の値は、図8及び図12の例示的実施形態で使用されている値と同じである。レーン0からレーン3のうちの所与のハードウェアレーンの時刻t1からt5に実行される動作は、異なる順序で実行されることを除いて、前述と同じである。
前述のように、レーン0はワード0からワード3のうちの最も古いワードを有し、レーン3はワード0からワード3のうちの最も若いワードを有することを前もって知ることができる。時刻t2に、レーン0から辞書510に単一の読み取り要求が送られる。また、時刻t2に、ワード3である、最も若いワードの値を辞書510の後の更新のために記憶しておく。例えば、辞書510のエントリ7に書くために、そしてワード4からワード7を有するより若い第2の群に値Cを転送(バイパス)するために、ワード3の値Cをレジスタに記憶して使用することができる。時刻t4に、真の群内依存値を求める判定が開始する。一部の実施形態において、2つ以上のパイプラインステージの時刻t4での処理工程は持続する。時刻t5に比較を行い、群内定着動作を行わずに圧縮パケットを生成する。
各種の実施形態では、前述した方法及び/又はメカニズムを実装するためにソフトウェアアプリケーションのプログラム命令が使用され得る。このプログラム命令は、Cなどの高レベルプログラミング言語においてハードウェアの挙動を記述する。代替的に、Verilogなどのハードウェア設計言語(hardware design language、HDL)を用いてもよい。プログラム命令は、非一時的なコンピュータ可読記憶媒体に記憶され得る。多数のタイプの記憶媒体が利用可能である。記憶媒体は、プログラム実行のためにプログラム命令及び関連データをコンピュータに提供するために、コンピュータにより使用中にアクセス可能になり得る。一部の実施形態では、ゲートのリストを含むネットリストを合成ライブラリから生成するために、合成ツールがプログラム命令を読み取る。
前述の実施形態は、実装の非限定的な例にすぎないことが強調される。前述の開示内容が十分に理解されれば、多くの変形形態及び修正形態が当業者には明らかになるであろう。以下の「特許請求の範囲」は、そのような変形形態及び修正形態のすべてを包含するように解釈されることを意図するものである。

Claims (20)

  1. 複数の入力ワードを記憶するように構成された第1のバッファと、
    複数のエントリを含むテーブルと、
    第1の複数のハードウェアレーンを含む圧縮回路であって、圧縮命令の指示を受け取ることに応答して、
    前記複数の入力ワードからの第1の群の2つ以上の入力ワードを前記第1の複数のハードウェアレーンに割り当てることと、
    前記第1の群の2つ以上の入力ワードのうちの少なくとも2つが前記テーブルの同じエントリに対応すると判定することと、
    前記第1の群の入力ワード間の依存関係を判定する前に、
    前記第1の群の前記入力ワードのいずれかで前記テーブルを更新するか否かを判定することと、
    前記複数の入力ワードからの第2の群の入力ワードを前記第1の複数のハードウェアレーンに割り当てることであって、前記第2の群は前記第1の群とは異なる、ことと、 前記複数の入力ワードに対応するデータを記憶する圧縮パケットを生成することと、 を行うように構成された、圧縮回路と、
    を備える、装置。
  2. 前記圧縮回路が、
    前記第1の群の入力ワード間の依存関係を判定することと、
    前記複数のハードウェアレーンのうちの各ハードウェアレーンについて、前記第1の群の入力ワード間の前記依存関係に基づいて、圧縮パケットのタイプを指定するコマンドを生成することと、
    を行うように更に構成された、請求項1に記載の装置。
  3. アクセスされようとする各テーブルエントリについて、前記圧縮回路が、
    前記第1の群の最も若い入力ワードを判定することと、
    前記第1の群の入力ワード間の依存関係を判定する前に、前記第2の群に前記最も若い入力ワードを転送することと、
    を行うように更に構成された、請求項1に記載の装置。
  4. アクセスされようとする各テーブルエントリについて、前記圧縮回路が、
    前記第1の群の最も古い入力ワードを判定することと、
    前記複数のハードウェアレーンのうち前記最も古い入力ワードに割り当てられたハードウェアレーンのみから前記テーブル内の入力ワードの読み取り要求を送ることと、
    を行うように更に構成された、請求項1に記載の装置。
  5. 前記複数のハードウェアレーンのうちの各ハードウェアレーンについて、前記第1の群の入力ワード間の依存関係を判定することが、前記ハードウェアレーンに割り当てられた入力ワードを第2の入力ワードと比較することを含む、請求項4に記載の装置。
  6. 前記第2の入力ワードが、前記ハードウェアレーンに割り当てられた前記入力ワードについて判定された前記テーブルのエントリに記憶された入力ワードである、請求項5に記載の装置。
  7. 前記第2の入力ワードが、
    前記第1の群の前記最も古い入力ワードに割り当てられた前記ハードウェアレーンについては、前記最も古い入力ワードについて判定された前記テーブルのエントリに記憶された入力ワードであり、
    前記第1の群の前記最も古い入力ワードに割り当てられていない所与のハードウェアレーンについては、前記テーブルの同じエントリに対応し、前記第1の群に含まれ、かつ前記所与のハードウェアレーンに割り当てられた入力ワードより古い入力ワードのうち、最も若い入力ワードである、請求項5に記載の装置。
  8. 前記圧縮回路が、圧縮パケットのタイプを特定する生成されたコマンドが前記テーブルの更新を指示すると判定することに応答して、前記テーブルに前記第1の群の前記最も若い入力ワードを記憶するように更に構成された、請求項3に記載の装置。
  9. 前記圧縮回路が、圧縮パケットのタイプを特定する生成されたコマンドが前記テーブルの更新を指示すると判定する前に、前記テーブルに前記第1の群の前記最も若い入力ワードを記憶するように更に構成された、請求項3に記載の装置。
  10. 第2の複数のハードウェアレーンを備える展開回路を更に備え、展開命令の指示の受信に応答して、前記展開回路が、
    複数の圧縮パケットからの2つ以上の圧縮パケットの第3の群を前記第2の複数のハードウェアレーンに割り当てることであって、前記第3の群の各圧縮パケットが前記テーブルの同じエントリにアクセスするものとして指示される、ことと、
    前記第2の複数のハードウェアレーンの各ハードウェアレーンについて、割り当てられた圧縮パケットのワードを提供するソースが前記テーブルであるか、又は前記割り当てられた圧縮パケットであるかを判定することと、
    前記判定されたソースから前記ワードを書き込みバッファに書き込むことと、
    を行うように構成された、請求項1に記載の装置。
  11. 前記展開回路が、
    前記第3の群の最も若い圧縮パケットを判定することと、
    前記第2の複数のハードウェアレーンのうち前記最も若い圧縮パケットに割り当てられたハードウェアレーンについて、前記ハードウェアレーンの前記ワードを前記テーブルに記憶することと、
    を行うように更に構成された、請求項10に記載の装置。
  12. 複数の入力ワードを第1のバッファに記憶することと、
    圧縮命令の指示を受信することに応答して、
    前記複数の入力ワードからの2つ以上の入力ワードの第1の群を第1の複数のハードウェアレーンに割り当てることと、
    前記第1の群の2つ以上の入力ワードのうちの少なくとも2つが、複数のエントリを備えるテーブルの同じエントリに対応すると判定することと、
    前記第1の群の入力ワード間の依存関係を判定する前に、
    前記第1の群の前記入力ワードのいずれかで前記テーブルを更新するか否かを判定することと、
    前記複数入力ワードからの入力ワードの第2の群を前記第1の複数のハードウェアレーンに割り当てることであって、前記第2の群は前記第1の群とは異なる、ことと、
    前記複数の入力ワードに対応するデータを記憶する圧縮パケットを生成することと
    を含む、方法。
  13. 前記2つ以上の割り当てられた入力ワードのそれぞれが、前記テーブル内の複数のエントリのうち同じエントリを指すインデックスに対応付けられる、請求項12に記載の方法。
  14. アクセスされようとする前記テーブル内の各エントリについて、
    前記第1の群の最も古い入力ワードを判定することと、
    前記テーブル内の入力ワードの読み取り要求を、前記複数のハードウェアレーンのうち前記最も古い入力ワードに割り当てられたハードウェアレーンのみから送ることと
    を更に含む、請求項12に記載の方法。
  15. 前記2つ以上のハードウェアレーンのハードウェアレーンごとに、当該ハードウェアレーンに割り当てられた入力ワードと、前記テーブルから読み取られた入力ワードを比較する、請求項14に記載の方法。
  16. 展開命令の指示の受信に応答して、
    記憶された複数の圧縮パケットのうちの2つ以上の圧縮パケットを展開するために選択することと、
    前記選択された2つ以上の圧縮パケットに第2の複数のハードウェアレーンのうちの2つ以上のハードウェアレーンを割り当てることと、
    前記第2の複数のハードウェアレーンのうちの前記2つ以上のハードウェアレーンのハードウェアレーンごとに、前記圧縮パケットのためのワードを提供するソースが前記テーブルであるか、又は前記圧縮パケットであるかを判定することと、
    前記判定されたソースから前記ワードを書き込みバッファに書き込むことと、
    を更に含む、請求項12に記載の方法。
  17. メモリと、
    キャッシュメモリと、
    プロセッサであって、
    複数の入力ワードを前記キャッシュメモリにフェッチすることと、
    前記複数の入力ワードからの第1の群の2つ以上の入力ワードを第1の複数のハードウェアレーンに割り当てることと、
    前記第1の群の2つ以上の入力ワードのうちの少なくとも2つが、テーブル内の複数のエントリのうちの同じエントリに対応すると判定することと、
    前記第1の群の入力ワード間の依存関係を判定する前に、
    前記第1の群の前記入力ワードのいずれかで前記テーブルを更新するか否かを判定することと、
    前記複数の入力ワードからの第2の群の入力ワードを前記第1の複数のハードウェアレーンに割り当てることであって、前記第2の群は前記第1の群とは異なる、ことと、 前記複数の入力ワードに対応するデータを記憶する圧縮パケットを生成することと、 を行うように構成されたプロセッサと、
    を備えるシステム。
  18. 前記2つ以上の割り当てられた入力ワードのそれぞれが、前記テーブル内の複数のエントリのうち同じエントリを指すインデックスに対応付けられる、請求項17に記載のシステム。
  19. アクセスされようとする前記テーブルの各エントリについて、前記プロセッサが、
    前記第1の群の最も古い入力ワードを判定することと、
    前記複数のハードウェアレーンのうち前記最も古い入力ワードに割り当てられたハードウェアレーンのみから前記テーブル内の入力ワードの読み取り要求を送ることと、
    を行うように更に構成された、請求項17に記載のシステム。
  20. 展開命令の指示の受信に応答して、前記プロセッサが、
    複数の圧縮パケットのうちの2つ以上の圧縮パケットを選択することと、
    第2の複数のハードウェアレーンのうちの2つ以上のハードウェアレーンを、前記選択された2つ以上の圧縮パケットに割り当てることと、
    前記第2の複数のハードウェアレーンのうちの前記2つ以上のハードウェアレーンのハードウェアレーンごとに、前記圧縮パケットのワードを提供するソースが前記テーブルであるか、又は前記圧縮パケットであるかを判定することと、
    前記判定されたソースから前記ワードを書き込みバッファに書き込むことと、
    を行うように構成された、請求項17に記載のシステム。
JP2018142253A 2017-07-28 2018-07-30 メモリ圧縮を実行するシステム及び方法 Active JP6678207B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/663,115 US10331558B2 (en) 2017-07-28 2017-07-28 Systems and methods for performing memory compression
US15/663,115 2017-07-28

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020045008A Division JP7005670B2 (ja) 2017-07-28 2020-03-16 メモリ圧縮を実行するシステム及び方法

Publications (2)

Publication Number Publication Date
JP2019029023A JP2019029023A (ja) 2019-02-21
JP6678207B2 true JP6678207B2 (ja) 2020-04-08

Family

ID=63047156

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018142253A Active JP6678207B2 (ja) 2017-07-28 2018-07-30 メモリ圧縮を実行するシステム及び方法
JP2020045008A Active JP7005670B2 (ja) 2017-07-28 2020-03-16 メモリ圧縮を実行するシステム及び方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2020045008A Active JP7005670B2 (ja) 2017-07-28 2020-03-16 メモリ圧縮を実行するシステム及び方法

Country Status (5)

Country Link
US (2) US10331558B2 (ja)
EP (2) EP3671471B1 (ja)
JP (2) JP6678207B2 (ja)
KR (2) KR102155648B1 (ja)
CN (2) CN116841920A (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9378560B2 (en) * 2011-06-17 2016-06-28 Advanced Micro Devices, Inc. Real time on-chip texture decompression using shader processors
US10483981B2 (en) * 2016-12-30 2019-11-19 Microsoft Technology Licensing, Llc Highspeed/low power symbol compare
US10331558B2 (en) 2017-07-28 2019-06-25 Apple Inc. Systems and methods for performing memory compression
US10587284B2 (en) * 2018-04-09 2020-03-10 International Business Machines Corporation Multi-mode compression acceleration
US20220129266A1 (en) 2019-03-15 2022-04-28 Intel Corporation Graphics processors and graphics processing units having dot product accumulate instruction for hybrid floating point format
US11934342B2 (en) 2019-03-15 2024-03-19 Intel Corporation Assistance for hardware prefetch in cache access
US10707897B1 (en) * 2019-09-04 2020-07-07 Advanced Micro Devices, Inc. Command processor with multiple string copy engines for a decompression system
US11144207B2 (en) * 2019-11-07 2021-10-12 International Business Machines Corporation Accelerating memory compression of a physically scattered buffer
JP2021149416A (ja) * 2020-03-18 2021-09-27 キオクシア株式会社 メモリシステム
WO2021237510A1 (zh) * 2020-05-27 2021-12-02 深圳市大疆创新科技有限公司 数据解压缩的方法、系统、处理器及计算机存储介质
US20220197659A1 (en) * 2020-12-23 2022-06-23 Intel Corporation Application programming interface for fine grained low latency decompression within processor core
US20220197643A1 (en) * 2020-12-23 2022-06-23 Intel Corporation Speculative decompression within processor core caches
US20220197799A1 (en) * 2020-12-23 2022-06-23 Intel Corporation Instruction and Micro-Architecture Support for Decompression on Core
KR20230012872A (ko) * 2021-07-16 2023-01-26 주식회사 쏠리드 프론트홀 다중화 장치
GB2619341A (en) * 2022-06-01 2023-12-06 Advanced Risc Mach Ltd Circuitry and method
US11791835B1 (en) * 2022-06-13 2023-10-17 International Business Machines Corporation Compression improvement in data replication

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4761731A (en) * 1985-08-14 1988-08-02 Control Data Corporation Look-ahead instruction fetch control for a cache memory
US6002411A (en) * 1994-11-16 1999-12-14 Interactive Silicon, Inc. Integrated video and memory controller with data processing and graphical processing capabilities
US5729228A (en) * 1995-07-06 1998-03-17 International Business Machines Corp. Parallel compression and decompression using a cooperative dictionary
JP2840589B2 (ja) * 1996-02-09 1998-12-24 富士通株式会社 データ圧縮装置及びデータ復元装置
JP3989999B2 (ja) 1996-05-03 2007-10-10 株式会社リコー データ圧縮システム
US5864547A (en) * 1996-08-21 1999-01-26 Hughes Electronics Corporation Method and system for controlling uplink power in a high data rate satellite communication system employing on-board demodulation and remodulation
US6879266B1 (en) * 1997-08-08 2005-04-12 Quickshift, Inc. Memory module including scalable embedded parallel data compression and decompression engines
US6822589B1 (en) * 1999-01-29 2004-11-23 Quickshift, Inc. System and method for performing scalable embedded parallel data decompression
US6208273B1 (en) * 1999-01-29 2001-03-27 Interactive Silicon, Inc. System and method for performing scalable embedded parallel data compression
GB0102572D0 (en) * 2001-02-01 2001-03-21 Btg Int Ltd Apparatus to provide fast data compression
US6820181B2 (en) * 2002-08-29 2004-11-16 Micron Technology, Inc. Method and system for controlling memory accesses to memory modules having a memory hub architecture
FR2889328B1 (fr) * 2005-07-26 2007-09-28 Atmel Nantes Sa Sa Dispositif d'interfacage unidirectionnel de type fifo entre un bloc maitre et un bloc esclave, bloc maitre et bloc esclave correspondants
US7447814B1 (en) 2005-10-14 2008-11-04 Sun Microsystems, Inc. Method and apparatus for fast loss-less memory data compression wherein data corresponds to a cache line of data in cache
US8108650B2 (en) * 2009-05-29 2012-01-31 Apple Inc. Translation lookaside buffer (TLB) with reserved areas for specific sources
US9569348B1 (en) * 2009-09-22 2017-02-14 Nvidia Corporation Method for automatic page table compression
US8615541B2 (en) * 2009-09-23 2013-12-24 Nvidia Corporation Extended-precision integer arithmetic and logical instructions
US8959291B2 (en) * 2010-06-04 2015-02-17 Lsi Corporation Two-port memory capable of simultaneous read and write
CN103891150B (zh) * 2011-10-01 2017-02-15 英特尔公司 用于字典压缩的系统、方法和设备
KR102070199B1 (ko) * 2012-05-11 2020-01-28 삼성전자주식회사 재구성가능 프로세서 및 재구성가능 프로세서의 코드 압축해제 방법
US8847798B2 (en) * 2012-12-17 2014-09-30 Maxeler Technologies, Ltd. Systems and methods for data compression and parallel, pipelined decompression
US10565099B2 (en) 2012-12-28 2020-02-18 Apple Inc. Methods and apparatus for compressed and compacted virtual memory
US8766827B1 (en) * 2013-03-15 2014-07-01 Intel Corporation Parallel apparatus for high-speed, highly compressed LZ77 tokenization and Huffman encoding for deflate compression
GB2513987B (en) * 2013-03-15 2016-01-06 Intel Corp Parallel apparatus for high-speed, highly compressed LZ77 tokenization and huffman encoding for deflate compression
US9934234B2 (en) * 2014-08-12 2018-04-03 Tidal Systems, Inc. Adaptive rate compression hash processor
CN104331269B (zh) * 2014-10-28 2017-08-15 中国科学院自动化研究所 一种嵌入式系统可执行代码压缩方法及代码解压缩系统
US9678872B2 (en) * 2015-01-16 2017-06-13 Oracle International Corporation Memory paging for processors using physical addresses
US9753666B2 (en) 2015-03-27 2017-09-05 Intel Corporation Efficient data compression for solid-state memory
US10331558B2 (en) 2017-07-28 2019-06-25 Apple Inc. Systems and methods for performing memory compression

Also Published As

Publication number Publication date
EP3435240B1 (en) 2020-02-19
EP3671471B1 (en) 2022-01-12
US10331558B2 (en) 2019-06-25
EP3435240A1 (en) 2019-01-30
US20190294541A1 (en) 2019-09-26
CN116841920A (zh) 2023-10-03
KR102155648B1 (ko) 2020-09-14
KR20200107910A (ko) 2020-09-16
CN109308192A (zh) 2019-02-05
KR102248649B1 (ko) 2021-05-04
KR20190013538A (ko) 2019-02-11
US10769065B2 (en) 2020-09-08
US20190034333A1 (en) 2019-01-31
JP7005670B2 (ja) 2022-01-21
JP2019029023A (ja) 2019-02-21
EP3671471A1 (en) 2020-06-24
CN109308192B (zh) 2023-07-21
JP2020102258A (ja) 2020-07-02

Similar Documents

Publication Publication Date Title
JP6678207B2 (ja) メモリ圧縮を実行するシステム及び方法
JP4567789B2 (ja) Tlbロックインジケータ
TWI622880B (zh) 比較及取代動態位址轉譯表項之電腦程式產品、電腦系統及方法
US6963964B2 (en) Method and apparatus for detecting pipeline address conflict using parallel compares of multiple real addresses
US8566607B2 (en) Cryptography methods and apparatus used with a processor
TWI698745B (zh) 快取記憶體、用於操作快取記憶體之方法及其之非暫時性電腦可讀媒體
US8185692B2 (en) Unified cache structure that facilitates accessing translation table entries
TW201312461A (zh) 微處理器及縮短尋訪時間之方法
JP2023531650A (ja) バイナリ変換を実行するためのシステム及び方法
JPH0619793A (ja) キャッシュ・アクセスのための仮想アドレス変換予測の履歴テーブル
JP2000276404A (ja) 仮想記憶装置および仮想記憶方法、並びに記録媒体
TWI522910B (zh) 微處理器、選擇性解壓縮微程式碼方法、產生選擇性壓縮微程式碼方法、產生描述方法以及電腦程式產品
JP5630568B2 (ja) 演算処理装置、情報処理装置及び演算処理装置の制御方法
US9886212B2 (en) Mechanism for copying data in memory
CN109564543B (zh) 用于多线程式模式中的功率降低的方法和装置
JP2024503229A (ja) アドレス変換サービスバッファ
US11500638B1 (en) Hardware compression and decompression engine
US20170315807A1 (en) Hardware support for dynamic data types and operators
JP2005071351A (ja) プロセッサおよびプロセッサの動作方法
JP3697990B2 (ja) ベクトル処理装置のオペランドキャッシュ
TW202225978A (zh) 用於具有大的碼覆蓋區的工作負載的動態共享快取劃分
CN116340034A (zh) 用于压缩操作期间的常量检测的装置和方法
CN115145837A (zh) 预取数据的方法、装置和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190520

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200114

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200316

R150 Certificate of patent or registration of utility model

Ref document number: 6678207

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250