JP2022510281A

JP2022510281A - キャッシュラインアドレスに基づくストリーム内のコマンドの集約

Info

Publication number: JP2022510281A
Application number: JP2021530941A
Authority: JP
Inventors: ジェイ．ブレナンクリストファー
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2018-11-29
Filing date: 2019-06-18
Publication date: 2022-01-26
Also published as: US11614889B2; WO2020112169A1; EP3887932A1; EP3887932A4; US20200174697A1; CN113227957A; KR20210086708A

Abstract

演算結合器［２４０］は、読み出しアドレス、変更動作、及び、書き込みアドレスを有する一連のコマンドを受信する。場合によっては、コマンドは、コマンドの処理速度を制限するシリアル依存関係を有する場合がある。演算結合器は、互換性についてアドレスを比較し、シリアル依存関係を壊すために演算を変換し、複数のソースコマンドを、ソースコマンドよりもはるかに高速に実行可能なより少ない数の集約コマンドに結合する。演算結合器のいくつかの実施形態は、１つ以上の第１の読み出しアドレスと、第１の書き込みアドレスと、を含む第１のコマンドを受信する。演算結合器は、第１の読み出しアドレス及び第１の書き込みアドレスを、バッファに記憶された第２のコマンドの１つ以上の第２の読み出しアドレス及び第２の書き込みアドレスと比較する。演算結合器は、比較に基づいて、第１のコマンド及び第２のコマンドを選択的に結合して集約コマンドを形成する。【選択図】図２

Description

圧縮は、例えば、インタフェースを介して情報を送信するために必要とされる帯域幅の量を低減する等のように、１つの情報を表すバイト数を減らすために使用される。典型的な圧縮技術は、逆方向参照（backward reference）を使用して、現在のデータのチャンクを、前のデータのチャンクに対する変更を示す情報を加えた、前のデータ（又は、別の空間的若しくは時間的な位置のデータ）のチャンクに対するポインタとして表す。例えば、第１のアドレスでの３バイトのデータを、第２のアドレスでの３バイトのデータに１を加算する等の変更を示す情報を加えた、第１のアドレスから１キロバイト（ｋＢ）オフセットした第２のアドレスへのポインタとして当該３バイトのデータを表すことによって、圧縮することができる。データは、以前に受信したデータ（例えば、第２のアドレスでの３バイトのデータ）をコピーし、１を加算する等の示された変更を実行することによって、宛先で再構築される。

本開示は、添付の図面を参照することによってより良好に理解することができ、その多くの特徴及び利点が当業者に明らかになる。異なる図面において同じ符号を使用する場合には、類似又は同一の要素を示す。

いくつかの実施形態による、ディスプレイへの出力を意図した視覚的画像を生成するためのグラフィックスプロセッシングユニット（ＧＰＵ）を含む処理システムのブロック図である。いくつかの実施形態による、処理システム内又は処理システム間で送信される情報を復号及び解凍するために使用されるデコーダのブロック図である。いくつかの実施形態による、コマンドのブロック図である。いくつかの実施形態による、異なるコマンドに入力されるキャッシュラインの部分を表すマスクのマージャ（merger）のブロック図である。いくつかの実施形態による、ｏｐ結合器（オペコンバイナ）の第１の部分のブロック図である。いくつかの実施形態による、ｏｐ結合器の第２の部分のブロック図である。いくつかの実施形態による、一致するコマンドを集約コマンドに結合する方法のフロー図である。

圧縮によって、異なるデータのチャンクを圧縮するために使用されるコマンド又は演算間にシリアル依存関係（serial dependencies）が生じる。例えば、第１の最近のコマンドは、（場合によっては、第２のデータチャンクの変更を加えた）第２の以前のデータチャンクへのポインタを使用してデータチャンクを圧縮し、第２の以前のデータチャンクは、（場合によっては、第３のデータチャンクの対応する変更を加えた）より以前の第３のデータチャンクへのポインタとして第２のデータチャンクを表す、第２の以前のコマンドによって圧縮されている。シリアル依存関係の複数のチェーンは、いくつかのコマンドストリームでインタリーブされる。例えば、前の値（例えば、ＤＷｏｒｄ、ショートワード又はバイト）を出力にコピーするための（高度に圧縮可能な）同じコマンドの列がある場合がある。この列は、以前の値のパターンに一致させることができ、そのパターンを複製して出力を生成するために使用される。しかしながら、ストリーム内の現在のコマンドのソースは、ストリーム内の前のコマンドの結果であるので、識別されたコマンドのパターンをシリアルに実行する必要がある。複製されたコマンドが次の出力を生成するために（例えば、インクリメントする値の列を生成するために）値（例えば、１）を追加する場合、コマンドの実行がさらに複雑になる。

解凍を実施するために使用されるコマンド等のコマンドのストリームによって実行される動作は、キャッシュラインに対応する３２バイトのウィンドウ等の所定のアドレス範囲内で動作する単一のコマンドを生成するために結合される。パイプラインのフロントエンドで受信されたコマンドは、バッファに記憶される。新たなコマンドの各々がフロントエンドに到着すると、新たなコマンドは、フロントエンドで以前に受信されバッファに記憶されたコマンドと比較される。新たなコマンドが、以前に受信した何れかのコマンドと一致する場合に、新たなコマンド及び一致する以前のコマンドは、パイプラインのバックエンドへの最終的なディスパッチのために、バッファに記憶されている集約コマンドに結合される。いくつかの実施形態では、新たなコマンドと一致するコマンドとの比較は、新たなコマンド及び一致するコマンドの書き込みアドレス又は読み出しアドレスを比較することと、書き込みアドレス及び読み出しアドレスが３２バイトウィンドウ等の同じアドレス範囲内にあるかどうかを判別することと、を含む。集約コマンドは、後に受信するコマンドと比較するためにバッファに記憶される。バッファは、シリアル依存コマンドのインタリーブされたチェーンに関連する集約コマンド等の複数の異なる集約コマンドを含むことができる。いくつかの実施形態では、新たなコマンド及び一致するコマンドを結合することは、集約コマンドによって操作されるアドレスを識別するために、新たなコマンド及び一致するコマンドに関連するアドレス範囲内のデータに適用されるマスクを定義することを含む。例えば、コマンドストリームが、現在のアドレスからの第１のオフセットでデータを操作する第１のコマンドと、現在のアドレスからの第２のオフセットでデータを操作する第２のコマンドと、を含む場合、集約コマンドは、第１のオフセット及び第２のオフセットに基づいて定義されるマスクを含む。

図１は、いくつかの実施形態による、ディスプレイ１１０への出力を意図した視覚的画像を生成するためのグラフィックスプロセッシングユニット（ＧＰＵ）１０５を含む処理システム１００のブロック図である。ＧＰＵ１０５は、メモリ１１５に記憶された命令を実行する。メモリ１１５のいくつかの実施形態は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）として実装される。しかし、メモリ１１５は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、不揮発性ＲＡＭ等を含む他のタイプのメモリを使用して実装することもできる。図示した実施形態では、ＧＰＵ１０５は、バス１２０を介してメモリ１１５と通信する。しかしながら、ＧＰＵ１０５のいくつかの実施形態は、直接接続を介して、又は、他のバス、ブリッジ、スイッチ、ルータ等を介してメモリ１１５と通信する。ＧＰＵ１０５は、実行された命令の結果等の情報をメモリ１１５に記憶することができる。例えば、メモリ１１５は、ＧＰＵ１０５によって実行されるプログラムコードからの命令のコピー１２５を記憶することができる。ＧＰＵ１０５のいくつかの実施形態は、命令を、同時に又は並列に、独立して実行する複数のプロセッサコア、計算ユニット又は固定機能回路（明確にするために図示省略）を含む。

処理システム１００は、命令を実行するための中央演算処理装置（ＣＰＵ）１３０を含む。ＣＰＵ１３０のいくつかの実施形態は、命令を、同時に又は並列に、独立して実行する複数のプロセッサコア（明確にするために図示省略）を含む。また、ＣＰＵ１３０は、バス１２０に接続されており、バス１２０を介してＧＰＵ１０５及びメモリ１１５と通信することができる。ＣＰＵ１３０は、メモリ１１５に記憶されたプログラムコード１３５等の命令を実行することができ、ＣＰＵ１３０は、実行された命令の結果等の情報をメモリ１１５に記憶することができる。また、ＣＰＵ１３０は、ＧＰＵ１０５にドローコールを発行することによって、グラフィック処理を開始することもできる。ＧＰＵ１０５は、オブジェクトをレンダリングして、ディスプレイ１１０に提供されるピクセルの値を生成し、ディスプレイ１１０は、そのピクセル値を使用して、レンダリングされたオブジェクトを表す画像を表示する。

入力／出力（Ｉ／Ｏ）エンジン１４０は、ディスプレイ１１０や、キーボード、マウス、プリンタ、外部ディスク等の処理システム１００の他の要素に関連する入力動作又は出力動作を処理する。Ｉ／Ｏエンジン１４０は、Ｉ／Ｏエンジン１４０がＧＰＵ１０５、メモリ１１５又はＣＰＵ１３０と通信するように、バス１２０に結合されている。図示した実施形態では、Ｉ／Ｏエンジン１４０は、コンパクトディスク（ＣＤ）、デジタルビデオディスク（ＤＶＤ）等の外部記憶媒体１４５に記憶された情報を読み出す。外部記憶媒体１４５は、ビデオゲーム等のアプリケーションを実行するために使用されるプログラムコードを表す情報を記憶する。外部記憶媒体１４５上のプログラムコードは、メモリ１１５に書き込まれ、ＧＰＵ１０５又はＣＰＵ１３０によって実行される命令又はプログラムコード１３５のコピー１２５を形成する。

また、処理システム１００は、暗号化、復号化、圧縮、解凍、及び、（処理システム１００内で伝達される情報、処理システム１００が外部エンティティから受信する情報、又は、処理システム１００が外部エンティティに送信する情報にセキュリティを提供するために使用される）他の機能を実行するためのプロセッサ１５０も含む。プロセッサ１５０のいくつかの実施形態は、リテラルデータ、データの相対的な位置を示すポインタ、及び、データを圧縮又は解凍するために適用されるコマンドを含むデータストリームを解凍する。また、プロセッサ１５０は、以下に説明するように、受信したデータを解凍するために使用される動作を結合する回路を含むこともできる。

図示した実施形態では、一部のエンティティがメモリ１１５に直接アクセスするが、ダイレクトメモリアクセス（ＤＭＡ）ロジック１５５は、メモリ１１５へのアクセスを提供する。ＤＭＡロジック１５５は、アドレスを生成し、メモリの読み出し又は書き込みのサイクルを開始する。例えば、ＧＰＵ１０５、ＣＰＵ１０５、Ｉ／Ｏエンジン１４０及びプロセッサ１５０は、メモリ１１５から情報を読み出し、ＤＭＡロジック１５５を介してメモリ１１５に情報を書き込む。いくつかの実施形態では、プロセッサ１５０及びＤＭＡロジック１５５は、単一のエンティティとして実装される。ＤＭＡロジック１５５のいくつかの実施形態は、メモリ間でデータを転送するため、又は、ＧＰＵ１０５内の計算ユニット間若しくはＣＰＵ１３０内のプロセッサコア間でデータを転送するために使用される。ＧＰＵ１０５又はＣＰＵ１３０は、ＤＭＡロジック１５５によって実行されているデータ転送と同時に他の動作を実行することができ、ＤＭＡロジック１５５は、転送が完了したことを示すために、ＧＰＵ１０５又はＣＰＵ１３０に割り込みを提供することができる。

図２は、いくつかの実施形態による、処理システム内で又は処理システム間で送信される情報を復号及び解凍するために使用されるデコーダ２００のブロック図である。デコーダ２００は、図１に示す処理システム１００のいくつかの実施形態において実装される。例えば、デコーダ２００を、プロセッサ１５０、又は、処理システム１００内の他のエンティティに実装することができる。デコーダ２００は、フロントエンド２０５と、ミドルエンド２１０と、バックエンド２１５と、に分割されている。デコーダ２００は、キャッシュ２２０を含む（又は、キャッシュ２２０に関連付けられている）。キャッシュ２２０内のキャッシュライン２２５（明確にするために符号で示されているもののみ）は、デコーダ２００によって受信された圧縮データと、ビットストリームからのコマンドを実行することによって生成された解凍データと、を記憶する。キャッシュライン２２５は、３２バイト等の所定の長さを有する。いくつかの実施形態では、キャッシュ２２０はバッファとして実装され、キャッシュライン２２５の範囲は、外部ＤＲＡＭ又は共有ＳＲＡＭ等のメモリの一部へのウィンドウである。バッファは、キャッシュライン２２５のタグを含まない。

フロントエンド２０５は、圧縮されたビットストリームを受信する。圧縮されたビットストリームは、物理アドレスによって示される記憶位置に記憶されたリテラルデータと、現在のアドレスに対するデータの位置を示すポインタと、コマンドに入力されたデータの１つ以上の発信元アドレスと、コマンドによって書き込まれるデータのターゲットアドレスと、（場合によっては）入力データへのゼロの加算、付加、連結等のように入力データに対する変更を含むコマンドと、を含む。フロントエンド２０５は、圧縮されたビットストリームで受信されたコマンドを復号する。いくつかの実施形態では、フロントエンド２０５は、圧縮されたビットストリーム内のコマンドに先行する情報を使用して、定義されたハフマンテーブルに基づいてコマンドを復号する。フロントエンド２０５は、復号したコマンドをミドルエンド２１０に提供する。

ミドルエンド２１０は、復号したコマンドを含む、フロントエンド２０５から受信したシンボルを記憶するシンボルアレイ２３０のセットを含む。また、ミドルエンド２１０は、コマンドを表す情報を生成するコマンドアセンブラ２３５も含む。いくつかの実施形態では、コマンドアセンブラ２３５は、コピーされ、以前に受信したデータに条件付きで加えられるリテラルデータのバイト数を示すリテラル長と、以前に受信したデータからコピーされたバイト数を示す一致長と、リテラルデータのオフセットの最後から以前に受信したデータへのオフセットを示す一致オフセットと、を含むコマンドを提供する。

演算（ｏｐ）結合器２４０は、コマンドアセンブラ２３５からコマンド情報を受信する。ｏｐ結合器２４０のいくつかの実施形態は、縮小された（collapsed）バイトコマンドのアレイから単一のバックエンドコマンドを引き出す最後のシリアライゼーションサイクルを除いて、タイミング要件を満たすために必要なだけ深くパイプライン化されたフロースルーパイプライン（flow-through pipeline）として実装される。ｏｐ結合器２４０は、コマンドアセンブラ２３５から受信したコマンドと、ｏｐ結合器２４０によって生成された集約コマンドと、を記憶するバッファ２４５を含む。ｏｐ結合器２４０は、コマンドアセンブラ２３５から受信したコマンドのうち、同じキャッシュライン２２５に関連付けられたコマンドを集約する。ｏｐ結合器２４０のいくつかの実施形態は、受信したコマンドによって読み出されたデータの１つ以上の発信元（又は、読み出し）アドレスを含むコマンドを受信する。また、コマンドは、第１のコマンドによって書き込まれるデータの宛先（又は、書き込み）アドレスも含む。場合によっては、読み出しアドレス及び書き込みアドレスは、キャッシュライン２２５の開始を示し、コマンドは、キャッシュライン２２５内でデータを読み出し又は書き込むための位置を示すオフセットを含む。ｏｐ結合器２４０は、コマンドアセンブラ２３５から受信した読み出しアドレス及び書き込みアドレスを、バッファ２４５に記憶されているコマンドの読み出しアドレス及び書き込みアドレスと比較する。例えば、受信したコマンド及びバッファされているコマンドの読み出しアドレス及び書き込みアドレスが同一である等のように、読み出しアドレス及び書き込みアドレスが同じキャッシュライン２２５を示す場合には、一致が発生する。ｏｐ結合器２４０は、読み出しアドレスと書き込みアドレスとの間の一致に応じて、受信したコマンドを、バッファされているコマンドと結合する。

ｏｐ結合器２４０は、可能な限り多くのコマンドパケットを可能な限り少ない集約コマンドに集約しようとする。次に、集約コマンドがバックエンド２１５に提供される。バックエンド２１５に提供される集約コマンドの数を低減することは、バックエンド２１５のスループットを最適化し、結果的に、外部メモリインタフェースのスループットを最適化する。バックエンド２１５は、（ｏｐ結合器２４０によって生成された集約コマンドを含む）コマンドの読み出しアドレスを調べ、必要に応じてフェッチコマンドを発行する。また、バックエンド２１５は、ビットストリーム内のリテラルデータをポップ、整列及び拡張する。

図３は、いくつかの実施形態による、コマンド３００のブロック図である。コマンド３００は、図２に示すｏｐ結合器２４０等のｏｐ結合器を含むデコーダによって受信される。コマンド３００は、１つ以上のキャッシュラインに記憶されたデータを操作し、操作の結果を、入力データを含むキャッシュラインである場合もあれば異なる場合もある別のキャッシュラインに書き込む。図示した実施形態では、デコーダは、２つのキャッシュラインに関連する情報を同時に処理するので、例えば、デコーダは、キャッシュライン境界と整列していないためにキャッシュラインに跨っている入力データを使用するコマンドを復号することができる。２つのキャッシュラインは、異なるバンクに関連付けられている。

したがって、コマンド３００は、読み出しキャッシュライン３１５，３２０をそれぞれ示すアドレス３０５，３１０を含む。読み出しアドレス３０５，３１０は、異なるキャッシュライン３１５，３２０の開始アドレスを示すが、コマンド３００のいくつかの実施形態は、同じキャッシュラインを示す読み出しアドレス３０５，３１０を含む。また、コマンド３００は、キャッシュライン３１５，３２０の何れかを示す単一の読み出しアドレスを含むこともできる。また、コマンド３００は、書き込みキャッシュライン３３０を示すアドレス３２５も含む。コマンド３００によって表される操作によって生成されたデータは、書き込みキャッシュライン３３０の位置に書き込まれる。

オフセットは、キャッシュライン３１５，３２０，３３０内のデータの位置を示す。オフセットはコマンド３００に含まれる。例えば、コマンド３００は、キャッシュライン３１５の先頭からキャッシュライン３１５内の入力データの位置までのオフセット３３５を示す情報を含む。他の例では、コマンド３００は、キャッシュライン３２０の先頭からキャッシュライン３２０内の入力データの位置までのオフセット３４０を示す情報を含む。さらに他の例では、コマンド３００は、キャッシュライン３３０の先頭からコマンド３００によって書き込まれた位置へのオフセット３４５を示す情報を含む。いくつかの実施形態では、アドレス３０５，３１０及びオフセット３３５，３４０によってそれぞれ示されるキャッシュライン３１５，３２０内の位置から読み出されるデータの部分は、マスクによって表される。したがって、コマンド３００を別のコマンドと結合することは、２つのコマンドのマスクをマージすることを含む。

図４は、いくつかの実施形態による、異なるコマンドに入力されるキャッシュライン４０５の部分を表すマスクのマージャ４００のブロック図である。マージャ４００は、例えば、コマンドを結合して集約コマンドを形成する場合等に、図２に示すｏｐ結合器２４０のいくつかの実施形態によって実行される。キャッシュライン４０５は、圧縮されたビットストリームからの圧縮データ等のデータを表す部分４１０（明確にするために符号によって示す部分のみ）に分割される。部分４１０のサイズは任意であり、異なる部分は場合によって異なるサイズを有する。例えば、部分４１０のあるサブセットが３バイトのサイズを有することができ、部分４１０の別のサブセットが１バイトのサイズを有することができる。

マスク４１５，４２０は、対応するコマンドのために生成される。いくつかの実施形態では、マスク４１５，４２０は、対応するコマンドによって読み出される部分４１０の位置を示すコマンド内の読み出しアドレス及び対応するオフセットに基づいて生成される。また、コマンドは、部分４１０のサイズを示す情報も含む。図示した実施形態では、マスク４１５は、第１のコマンドがキャッシュライン４０５の位置４２５，４３０からデータを読み出すことを示す。マスク４２０は、第２のコマンドがキャッシュライン４０５の位置４３５，４４０からデータを読み出すことを示す。マスク４１５，４２０の各々は位置４２５，４３０，４３５，４４０を示しているが、他のコマンドのために生成されたマスクは、単一の位置、複数のキャッシュライン内の位置等を示すことができる。

マスク４１５，４２０は、対応する集約コマンドによって使用される集約マスク４４５を形成するためにマージされる。図示した実施形態では、集約マスク４４５は、集約コマンドに対する入力としてアクセスされる位置４２５，４３０，４３５，４４０を示す。集約マスク４４５を使用することによって、集約コマンドは、位置４２５，４３０，４３５，４４０に同時にアクセスすることができる。

図５は、いくつかの実施形態による、ｏｐ結合器の第１の部分５００のブロック図である。第１の部分５００は、図２に示すｏｐ結合器２４０のいくつかの実施形態を実装するために使用される。第１の部分５００は、図２に示すフロントエンド２０５等のフロントエンドからコマンドのセット５１０を受信するアドレス割り当て回路５０５を含む。いくつかの実施形態では、セット５１０は、上述したように、リテラル長、一致長及び一致オフセットによって表される出力アドレスを提供するコマンドアセンブラから受信される。出力アドレスは、コマンドの新たなセット５１０の各々の一部としてリセットされる。インクリメント回路５１１，５１２，５１３，５１４は、コマンドの出力アドレスを、それぞれの新たなリテラル及び一致でインクリメントする。アドレス割り当て回路５０５は、ｏｐ結合器によって処理されている現在のアドレス５１５のコピーを記憶する。インクリメント回路５１１～５１４からの出力は、書き込みアドレス、リテラル読み出しアドレス及び一致読み出しアドレスである。場合によっては、コマンドが演算パイプラインのメモリ又はキャッシュラインにどのように整列するのかを比較するために、絶対アドレスがｏｐ結合器によって後に使用される。

アドレス割り当て回路５０５のいくつかの実施形態は、出力アドレスを生成し、現在のアドレスを更新するために、以下の擬似コードを実装する。
LiteralWriteAddress = currentAddress
SubLiteralOffset = previousMatchOffset
if (hasSubliterals)
SubLiteralAddress = currentAddress - SubLiteralOffset
MatchWriteAddress = currentAddress + LiteralLength
matchWrapsAtWriteStart = MatchLength > MatchOffset
if (matchWrapsAtWriteStart)
MatchRead = MatchOffset
else:
MatchRead = MatchLength
MatchAddress = currentAddress + LiteralLength - MatchOffset
currentAddress += LiteralLength + MatchLength
擬似コードは、コマンドのセット５１０に亘ってチェーンされており、潜在的に８つのサブコマンドを生成する。

平坦化回路（flatten circuitry）５２０は、リテラル及び一致を、リテラルを読み出して追加する共通のコマンドに変換する。アドレス割り当て回路５０５から受信された入力コマンドパケットは、最大で２つのコマンドを生成する。クランプ回路５２１，５２２，５２３，５２４は、アドレス割り当て回路５０５から受信したコマンドの各々の一致長をクランプする。いくつかの実施形態では、各入力コマンドは、書き込みにクランプされた１つのコマンドに変換される。また、２つの連続する読み出しライン（lines）が生成される。結果として得られる有効なサブコマンドは、クランプ回路５２１～５２４から、Ｎ×２（８）書き込み＋Ｎ（４）読み出し先入先出（ＦＩＦＯ）バッファ等のバッファにプッシュされる。したがって、リテラルのない一致又は一致のない一連のリテラルがある場合、これらを単一の集約コマンドにまとめることができる。選択回路５２５は、同じラインから次に有効なＮ（４）を選択する。いくつかの実施形態では、選択回路５２５からの出力は、以下のＮ（４）インスタンスを含む。
‐ ReadAddress
‐ ReadLength：一致は、WriteLengthよりも短くすることができる。出力を満たすために読み出しが繰り返される。
‐ HasLiterals：真の場合、サブコマンドは、出力書き込み長と同じ数のリテラルを有する。
‐ WriteAddress
‐ WriteLength

整列回路５３０は、読み出し及び書き込みに必要とされるラインを計算する。また、整列回路５３０は、複数のキャッシュラインに書き込む必要があるコマンドを展開（unrolls）する。いくつかの実施形態では、キャッシュラインは、現在のデータのチャンクの先頭に対して整列された３２バイトのアドレスである。２つの連続する読み出しが書き込みライン毎に実行され得るので、書き込みが１つのラインに制限されている場合には、読み出しは１つの読み出し操作で実行される。上述したように、入力コマンドは、書き込みにクランプされた１つのコマンドに変換され、２つの連続する読み出しラインが生成される。完了され、送信されるコマンドは、平坦化回路５２０のバッファ（ＦＩＦＯバッファ等）からポップされる。後続のコマンドは、バッファ内の次のコマンドを書き込む（fill out）ために回転され、引き込まれる（pulled in）。

整列回路５３０の開始／終了回路５３５は、平坦化回路５２０から受信した読み出しアドレス及び書き込みアドレスに基づいて、読み出し及び書き込みのための開始行及び終了ラインを計算するために使用される。展開回路（unrolling circuitry）５４０は、書き込みラインの遷移を展開し、展開した書き込みライン、読み出しライン及び反復／回転情報を、同じラインから次に有効なＮ（４）を選択するピック回路５４５に提供するために使用される。いくつかの実施形態では、ピック回路５４５は、同じ書き込みライン及び読み出しラインを第１のラインとして共有する次の最大でＮ（４）のコマンドをピックアップすることを含む動作を実行する。例えば、ピック回路５４５は、同じ読み出し行及び書き込みラインを有するコマンドのみを送信する出力上のフィルタを有するＮ書き込み＋Ｎ読み出しＦＩＦＯとして、平坦化ステップと同様に動作する。未使用の読み出しバンクを有するコマンドを、その読み出しバンクを使用するコマンドとともに送信することができる。ピック回路５４５の出力は、以下の通りである。
‐ WriteLine：チャンクの先頭を基準とする３２バイトの整列アドレス
‐ WriteLength：ラインの最後まで覆われ、それが交差すると展開される。
‐ WriteStart[4:0]：ライン内の書き込みアドレス
‐ ReadLine[2 Banks]：２つの必ずしも連続していない３２Ｂ読み出しライン
‐ バンク０は偶数ラインを有する。
‐ バンク１は奇数ラインを有する。
‐ ReadStart[5:0]：ReadAddress[5:0]
‐ ReadLength [5:0]：短い読み出しの場合には反復がどこで開始するかを定義し、長い読み出しの場合には何もしないのを定義する。
‐ RepeatRotate[6:0]：独自の出力を読み出し、ソースデータを繰り返す必要のある長いコピーの場合

整列回路５３０のいくつかの実施形態は、以下の擬似コードを実装する。
#計算し、演算をラインまで制限する
{oWriteLine, writeStart[4:0]} = iWriteAddress
writeEnd = min(writeStart + iWriteLength, 32)
length = writeEnd - writeStart
oWriteLength = length

#読み出し制御を計算する
readEnd = iReadAddress + iReadLength - 1
firstReadLine = iReadAddress[:5]
lastReadLine = readEnd[:5]
repeatFitsInOneRead = (lastReadLine - firstReadLine) < 2
if (repeatFitsInOneRead or firstCycleOfCommand)
repeatRotate = 0

#読み出しラインを計算する
if (repeatFitsInOneRead):
oReadLine[firstReadLine[0]] = firstReadLine
oReadLine[lastReadLine[0]] = lastReadLine
else #読み出しデータをウォークし、必要に応じて新たな読み出しを開始する
readBank = iReadAddress[5]
oReadLine[readBank] = iReadAddress[:5]
readLine2 = (iReadAddress + length - 1)[:5]
readBank2 = readLine2[5]
oReadLine[readBank2] = readLine2

#検出して次へ進む
NextWriteAddress = iWriteAddress + length
NextWriteLength = iWriteLength - length
if(repeatFitsInOneRead):
oNextRepeatRotate = (repeatRotate + length) % iReadLength
else:
oNextReadAddress += length

oHasMore = (NextWriteLength > 0)

２つのコマンドが同じバンクに異なる有効な読み出しラインを有していない限り、出力ＲｅａｄＬｉｎｅｓを異なるコマンドから取得することができる。

図６は、いくつかの実施形態による、ｏｐ結合器の第２の部分６００のブロック図である。第２の部分６００は、図２に示すｏｐ結合器２４０のいくつかの実施形態を実装するために使用される。第２の部分６００は、図５に示す整列回路５３０等の整列回路から入力コマンド６１０を受信するバイトブラスト及び収集回路６０５を含む。図示した実施形態では、バイトブラスト及び収集回路６０５は、４つの入力コマンド６１０を受信し、回路６０５は、入力コマンド６１０に対する読み出し｛Ａｄｄｒｅｓｓ，Ｌｅｎｇｔｈ｝及び｛ＷｒｉｔｅＡｄｄｒｅｓｓ，ＮｕｍＬｉｔｅｒａｌｓ｝を、バイト毎のマルチプレクサ制御に変換する。入力コマンド６１０の各々のＷｒｉｔｅＡｄｄｒｅｓｓ［４：０］及びＷｒｉｔｅＬｅｎｇｔｈは、図４に示すマスク４１５，４２０等のバイトマスクに変換される。読み出しライン及び書き込みラインが、第１のコマンドの読み出しライン及び書き込みラインと一致するコマンド毎に、有効なバイトが選択される。有効なバイトは重複していない。

バイトブラスト及び収集回路６０５のいくつかの実施形態は、入力コマンド６１０について以下を計算する。
‐ バイト［０…３１］毎の出力：
○ ReadSelect：読み出しラインの０～６３の何れのバイトか。ＭＳＢ上の「奇数」のバイト。
○ ReadEnable：読み出しが追加される必要があるかどうか
○ LiteralSelect：この書き込みラインのバッチの何れのリテラルか
■ 各書き込みラインの０から（同じ書き込みラインを有する全てのコマンドのNumLiterals）の合計－１
○ WriteEnable：このバイトが有効化されているかどうか
○ LiteralEnable：リテラルが追加される必要があるかどうか
‐ 収集したコマンド毎の出力：
○ NumLiterals：ポップオフするリテラルの数
■ 次のコマンドが同じ書き込みラインを共有する場合にはゼロ
■ 書き込みラインが完了した場合には書き込みラインのリテラルの総数
○ WriteLine：チャンクの先頭を基準にした３２バイトの整列アドレス
○ ReadLine[bank = 0…1]
○ ReadLineEnable [1:0]：読み出しが必要とされるかどうか

バイトブラスト及び収集回路６０５のいくつかの実施形態は、以下の擬似コードを実装する。
if (newWriteLine)
consumedLiterals = 0

#第１のリテラルＩＤを計算する
firstLiterals[0] = consumedLiterals
numLiterals[-1] = 0
for command in [0..3]
numLiterals[command] = iHasLiterals[command] ? iWriteLength[command] : 0
totalLiterals[command] = numLiterals[command-1] + numLiterals[command]
firstLiterals[command] = totalLiterals[command-1] + consumedLiterals

for each command with matching lines
writeEnables[31:0] = (~(0xFFFFFFFF << iWriteLength)) << iWriteStart
literalCount

for b in 0 to 31
#適切な入力コマンドを選択する
command = WriteEnables[0..3][b] # is a one hot mux control.
writeStart[4:0] = iWriteStart[command]
numLiterals[5:0] = iWriteLength[command]
oLiteralEnable = iHasLiterals[command]
firstLiteral = firstLiterals[command]
readLength = iReadLength[command]
repeatRotate = iReadRotate[command]
readStart = iReadStart[command]

byteInCommand = b - writeStart

oLiteralSelect[b][4:0] = oLiteralEnable ? byteInCommand+firstLiteral: 31

oReadEnable = readLength > 0
readOffset = (byteInCommand + repeatRotate) % readLength
oReadSelect[b][5:0] = (readStart + readOffset)
oWriteEnable[b] = writeEnables[0..3] [b]!= 0

isLastOfWriteLine = oWriteEnable[31]
totalConsumedLiterals = totalLiterals[LastOne(iCommandValids[0..3]] +
consumedLiterals
oNumLiterals = isLastOfWriteLine ? totalConsumedLiterals : 0
nextConsumedLiterals = totalConsumedLiterals

第２の部分のいくつかの実施形態は、バイトブラスト及び収集回路６０５のＮ（４）インスタンスを実装する。インスタンスは、異なるコマンドについて動作し、図５に示す整列ブロック５３０の出力におけるコマンド間の互換性のない読み出しライン及び書き込みラインを検出するフィルタを削除する。このアプローチは、バイトブラスト及び収集操作をより迅速に実行するという利点を有するが、ｏｐ結合器の部分６００での後続の動作において輻輳をもたらす場合がある。

結合回路６１５は、互換性のない書き込みライン又は読み出しライン（例えば、一致しない読み出しライン及び書き込みライン等）を有する所定数の以前に収集したコマンドを記憶する。結合回路６１５は、記憶されたコマンドの１つと互換性がある（例えば、一致する）、後に受信されたコマンドを結合又は集約する。新たなコマンドが提示されると、結合回路６１５は、有効な読み出しラインを無効な読み出しラインとマージすることができる。また、結合回路６１５は、互換性のある全てのコマンドから有効なバイトデータを選択することによって、コマンドを、一致する読み出しライン及び書き込みラインとマージする。結合回路６１５が互換性のないラインを有するコマンドを受信した場合、最も古い結合コマンドが押し出され、以前に受信したコマンドが、新たなコマンドのためのスペースを生成するために押し下げられる。押し出された（潜在的に集約又は結合された）コマンドは、図２に示すバックエンド２１５等のバックエンドに提供される。

結合回路６１５のいくつかの実施形態は、例えば互換性のないコマンド等のように一致しない読み出しアドレス又は書き込みアドレスを有する、以前に収集された２つのコマンドを記憶する。以前のコマンドは、第１の結合されたスロット６２０及び第２の結合されたスロット６２５に記憶される。新規に受信したコマンドは、第１の結合されたスロット６２０に記憶され、最も古い結合コマンドは、第２の結合されたスロット６２５に記憶される。同じ書き込みラインを有するが異なる読み出しラインを有する場合がある２つの結合器６２０，６２５があるので、結合回路６１５は、後に受信したコマンドが、第１の結合されたスロット６２０のコマンドと結合することによって、第２の結合されたスロット６２５内の以前のコマンドよりも先にジャンプすることを可能にする。結合回路６１５は、以下の擬似コードを使用して、先にジャンプすることがリードアフターライトコヒーレンシハザード（read-after-write coherency hazard）に違反するかどうかを判別するためにチェックする。
#既存のラインより先に進むことを検出し、抑制する。
cantCombineToSlot1 = False
for i in 0..1
if(iReadLine[i] == Combined[0].WriteLine):
cantCombineToSlot1 = True
リードアフターライトコヒーレンシハザードが検出された場合、先にジャンプすることが許可されない。

結合又は集約されたコマンド内の依存関係は、解決回路６３０を使用して解決される。結合回路６１５から押し出されたコマンドは、解決回路６３０によって受信され、解決回路６３０は、例えば、ｂｙｔｅ－ｃａｎ－ｇｏ回路６３５のインスタンスを使用して、集約コマンド内のリードアフターライト依存関係を解決しようとする。解決回路６３０が依存関係を解決することができない場合、依存関係の前のバイトが別のコマンドとして送出され、次に、解決回路６３０は、残りのバイトの依存関係を解決しようと試みる。解決回路６３０のいくつかの実施形態は、以下の擬似コードを実装する。
for byte in 0..31
if (iWriteEnable[byte])
readBank = iReadSelect[byte][5]
readLine = iReadLines[readBank]
readOverlapsWriteLine = iWriteLine == readLine
if (readOverlapsWriteLine)
readByte = iReadSelect[byte][4:0]
if (iWriteEnable[readByte])
readIsCopying = !iLiteralEnable[readByte] &&
iReadEnable[readByte]
writeIsAdding = iLiteralEnable[byte] &&
iReadEnable[byte]
writeIsCopying = !iLiteralEnable[byte] &&
iReadEnable[byte]
#ハザードがリテラルのない単なる一致である場合、
#代わりに元の読み出し＋リテラルを単にコピーする
if(writeIsCopying):
ReadSelect[byte] = ReadSelect[readByte]
LiteralSelect[byte] = LiteralSelect[readByte]
#ハザードがリテラルのない読み出しでの読み出し＋リテラルである場合
#代わりに元の読み出しを使用
else if(writeIsAdding && readIsCopying)
ReadSelect[byte] = ReadSelect[readByte]
#それ以外の場合、追加を結合できない
#リードオンライト(read on write)ハザードがある
else
ByteCanGo[byte] = False
#リテラルをポップする前に、全てが展開されるまで待つ。
oNumLiterals = 0
上記の擬似コードでは、Ｆａｌｓｅである第１のＢｙｔｅＣａｎＧＯ［］は、後のバイトによる考慮から前のバイトを無効にし、その結果、偽のＢｙｔｅＣａｎＧｏの各々は、コマンドを３２バイトソースから複数のコマンドに分割する。１つのコマンド内に解決可能な循環依存関係が多く存在する場合があるので、これらの多くをインスタンス化し、順番にパイプライン化して、目標を達成する必要がある場合があることに留意されたい。

図７は、いくつかの実施形態による、一致するコマンドを集約コマンドに結合する方法７００のフロー図である。方法７００は、図２に示すｏｐ結合器２４０、並びに、図５及び図６に示すｏｐ結合器のいくつかの実施形態において実施される。

ブロック７０５において、ｏｐ結合器は、例えば図２に示すコマンドアセンブラ２３５等のコマンドアセンブラから１つ以上のコマンドを受信する。受信したコマンドは、コマンドのソースデータの位置を示す１つ以上の読み出しアドレスを含む。また、受信したコマンドは、コマンドによって生成された宛先データの位置を示す書き込みアドレスを含む。いくつかの実施形態では、読み出しアドレス及び書き込みアドレスは、３２バイトキャッシュライン等のキャッシュライン内の位置を示す。

ブロック７１０において、ｏｐ結合器は、受信したコマンドの読み出しアドレス及び書き込みアドレスを、ｏｐ結合器によって以前に受信されバッファされたコマンドの読み出しアドレス及び書き込みアドレスと比較する。バッファされたコマンドは、新規に受信した（例えば、結合されていない又は集約されていない）コマンド、又は、以前に受信された２つ以上のコマンドを結合することによって生成された集約コマンドであってもよい。

決定ブロック７１５において、ｏｐ結合器は、受信したコマンドの読み出しアドレス及び書き込みアドレスが、バッファされたコマンドの読み出しアドレス及び書き込みアドレスと一致するかどうかを判別する。いくつかの実施形態では、コマンドは、異なるバンクに記憶された２つのキャッシュラインを参照する最大２つの読み出しアドレスを含む。コマンド内の読み出しアドレスの数に応じて、ｏｐ結合器は、受信したコマンド及びバッファされたコマンドの１つ又は２つの読み出しアドレスを比較する。読み出しアドレスと書き込みアドレスとが一致する場合、方法７００は、ブロック７２０に進む。読み出しアドレスと書き込みアドレスとが一致しない場合、方法７００は、決定ブロック７２５に進む。

ブロック７２０において、ｏｐ結合器は、受信したコマンドと、バッファされたコマンドと、を結合する。いくつかの実施形態では、受信したコマンドと、バッファされたコマンドと、を結合することは、図４に示すマスク４１５，４２０等のように、受信したコマンド及びバッファされたコマンドに関連するマスクをマージすることを含む。次に、方法７００は、ブロック７３０に進む。

決定ブロック７２５において、ｏｐ結合器は、受信したコマンドと比較することができる、より多くのバッファされたコマンドがあるかどうかを判別する。追加のバッファされたコマンドがある場合、方法７００は、ブロック７１０に戻る。追加のバッファされたコマンドがない場合、方法は、ブロック７３０に進む。

ブロック７３０において、コマンドがバッファに追加される。受信したコマンドの読み出しアドレス又は書き込みアドレスが、何れのバッファされたコマンドの読み出しアドレス及び書き込みアドレスにも一致しなかった場合、バッファに追加されるコマンドは、受信したコマンドである。受信したコマンドの読み出しアドレス又は書き込みアドレスが、バッファされた何れかのコマンドの読み出しアドレス及び書き込みアドレスと一致する場合、バッファに追加されるコマンドは、結合又は集約されたコマンドである。

本明細書に開示するように、方法は、第１のコマンドによって読み出されるデータの少なくとも１つの第１の読み出しアドレスと、第１のコマンドによって書き込まれるデータの第１の書き込みアドレスと、を含む第１のコマンドを含むコマンドストリームを受信することと、少なくとも１つの第１の読み出しアドレス及び第１の書き込みアドレスを、バッファに記憶された第２のコマンドの少なくとも１つの第２の読み出しアドレス及び第２の書き込みアドレスと比較することと、少なくとも１つの第１の読み出しアドレスが少なくとも１つの第２の読み出しアドレスに一致し、第１の書き込みアドレスが第２の書き込みアドレスに一致することに応じて、第１のコマンド及び第２のコマンドを結合して第１の集約コマンドを形成することを含む。一態様では、第１のコマンドを受信することは、少なくとも１つの第１の読み出しアドレスが少なくとも１つの第２の読み出しアドレスと一致しない、又は、第１の書き込みアドレスが第２の書き込みアドレスと一致しないことに応じて、第１のコマンドをバッファに記憶することを含む。別の態様では、方法は、少なくとも１つの第１の読み出しアドレスが少なくとも１つの第２の読み出しアドレスと一致することに応じて、第１の集約コマンドをバッファに記憶することと、少なくとも１つの第１のアドレスが少なくとも１つの第２のアドレスと一致することに応じて、第１のコマンドをバッファから削除することと、を含む。

一態様では、少なくとも１つの第１の読み出しアドレス、少なくとも１つの第２の読み出しアドレス、第１の書き込みアドレス、及び、第２の書き込みアドレスは、所定の長さを有するキャッシュラインを示す。別の態様では、方法は、第１のコマンドで示される少なくとも１つの第１のオフセットに基づいて、第１のコマンドによって読み出されるキャッシュラインの少なくとも１つの第１の部分を識別することと、第２のコマンドで示される少なくとも１つの第２のオフセットに基づいて、第２のコマンドによって読み出されるキャッシュラインの少なくとも１つの第２の部分を識別することと、を含む。さらに別の態様では、方法は、第１のコマンド及び第２のコマンドを結合して集約コマンドを生成することは、少なくとも１つの第１の部分及び少なくとも１つの第２の部分を示すマスクを生成することを含む。さらに別の態様では、方法は、第３のコマンドによって読み出されるデータの少なくとも１つの第３の読み出しアドレスと、第３のコマンドによって書き込まれるデータの第３の書き込みアドレスと、を含む第３のコマンドを含むコマンドストリームを受信することと、少なくとも１つの第３の読み出しアドレス及び第３の書き込みアドレスを、バッファに記憶された第４のコマンドの少なくとも１つの第４の読み出しアドレス及び第４の書き込みアドレスと比較することと、少なくとも１つの第３の読み出しアドレスが少なくとも１つの第４の読み出しアドレスと一致し、第３の書き込みアドレスが第４の書き込みアドレスと一致することに応じて、第３のコマンド及び第４のコマンドを結合して第２の集約コマンドを形成することと、を含む。

別の態様では、第１のコマンド及び第２のコマンドは、コマンドストリームの第３のコマンド及び第４のコマンドとインタリーブされる。さらに別の態様では、方法は、第１のコマンドと第２のコマンドとの間に依存関係が存在するかどうかを判別することを含み、第１のコマンド及び第２のコマンドを結合することは、依存関係が存在するかどうかに基づいて、第１のコマンド及び第２のコマンドを選択的に結合することを含む。

本明細書に開示するように、装置は、第１のコマンドによって読み出されるデータの少なくとも１つの第１の読み出しアドレスと、第１のコマンドによって書き込まれるデータの第１の書き込みアドレスをと、含む第１のコマンドを記憶するように構成されたバッファと、少なくとも１つの第１の読み出しアドレス及び第１の書き込みアドレスを、バッファに記憶された第２のコマンドの少なくとも１つの第２の読み出しアドレス及び第２の書き込みアドレスと比較するように構成された演算結合器と、を備え、演算結合器は、少なくとも１つの第１の読み出しアドレスが少なくとも１つの第２の読み出しアドレスと一致し、第１の書き込みアドレスが第２の書き込みアドレスと一致することに応じて、第１のコマンド及び第２のコマンドを結合して第１の集約コマンドを形成するように構成されている。一態様では、バッファは、少なくとも１つの第１の読み出しアドレスが少なくとも１つの第２の読み出しアドレスと一致することに応じて、第１の集約コマンドを記憶するように構成されており、第１のコマンドは、少なくとも１つ第１のアドレスが少なくとも１つの第２のアドレスと一致することに応じて、バッファから削除される。別の態様では、少なくとも１つの第１の読み出しアドレス、少なくとも１つの第２の読み出しアドレス、第１の書き込みアドレス、及び、第２の書き込みアドレスは、所定の長さを有するキャッシュラインを示す。

一態様では、演算結合器は、第１のコマンドで示される少なくとも１つの第１のオフセットに基づいて、第１のコマンドによって読み出されるキャッシュラインの少なくとも１つの第１の部分を識別し、第２のコマンドで示される少なくとも１つの第２のオフセットに基づいて、第２のコマンドによって読み出されるキャッシュラインの少なくとも１つの第２の部分を識別するように構成されている。別の態様では、演算結合器は、少なくとも１つの第１の部分及び少なくとも１つの第２の部分を示すマスクを生成するように構成されている。さらに別の態様では、バッファは、第３のコマンドによって読み出されるデータの少なくとも１つの第３の読み出しアドレスと、第３のコマンドによって書き込まれるデータの第３の書き込みアドレスと、を含む第３のコマンドを記憶するように構成されており、作業結合器は、少なくとも１つの第３の読み出しアドレス及び第３の書き込みアドレスを、バッファに記憶された第４のコマンドの少なくとも１つの第４の読み出しアドレス及び第４の書き込みアドレスと比較するように構成されており、演算結合器は、少なくとも１つの第３の読み出しアドレスが少なくとも１つの第４の読み出しアドレスと一致し、第３の書き込みアドレスが第４の書き込みアドレスと一致することに応じて、第３のコマンド及び第４のコマンドを結合して第２の集約コマンドを形成するように構成されている。

一態様では、バッファは、第２の集約コマンドを記憶するように構成されている。別の態様では、第１のコマンド及び第２のコマンドは、第３のコマンド及び第４のコマンドとインタリーブされる。さらに別の態様では、演算結合器は、第１のコマンドと第２のコマンドとの間に依存関係が存在するかどうかを判別するように構成されており、演算結合器は、依存関係が存在するかどうかに基づいて第１のコマンド及び第２のコマンドを選択的に結合するように構成されている。

本明細書に開示するように、方法は、データを圧縮するために使用されるコマンドのストリーム内の第１のコマンドの第１の読み出しアドレス及び書き込みアドレスを、ストリーム内の第２のコマンドの第２の読み出しアドレス及び書き込みアドレスと比較することと、第１の読み出しコマンド及び書き込みコマンドがキャッシュラインを示し、第２の読み出しアドレス及び書き込みアドレスが同じキャッシュラインを示すかどうかに基づいて、第１のコマンド及び第２のコマンドを選択的に結合して集約コマンドを形成することと、を含む。一態様では、コマンドのストリームは、グラフィックスプロセッシングユニットによって生成されたグラフィックスデータを圧縮するために使用される。

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

いくつかの実施形態では、上記の技術のいくつかの態様は、ソフトウェアを実行するプロセッシングシステムの１つ以上のプロセッサによって実装されてもよい。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶され、又は、非一時的なコンピュータ可読記憶媒体上で有形に具現化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、１つ以上のプロセッサによって実行されると、上記の技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する命令及び特定のデータを含むことができる。非一時的なコンピュータ可読記憶媒体は、例えば、磁気若しくは光ディスク記憶デバイス、例えばフラッシュメモリ、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）等のソリッドステート記憶デバイス、又は、他の１つ以上の不揮発性メモリデバイス等を含むことができる。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈若しくは実行可能な他の命令フォーマットであってもよい。

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

Claims

方法であって、
第１のコマンドによって読み出されるデータの少なくとも１つの第１の読み出しアドレスと、前記第１のコマンドによって書き込まれるデータの第１の書き込みアドレスと、を含む前記第１のコマンドを含むコマンドストリームを受信することと、
前記少なくとも１つの第１の読み出しアドレス及び前記第１の書き込みアドレスを、バッファに記憶された第２のコマンドの少なくとも１つの第２の読み出しアドレス及び第２の書き込みアドレスと比較することと、
前記少なくとも１つの第１の読み出しアドレスが前記少なくとも１つの第２の読み出しアドレスと一致し、前記第１の書き込みアドレスが前記第２の書き込みアドレスと一致することに応じて、前記第１のコマンド及び前記第２のコマンドを結合して第１の集約コマンドを形成することと、を含む、
方法。
前記第１のコマンドを受信することは、前記少なくとも１つの第１の読み出しアドレスが前記少なくとも１つの第２の読み出しアドレスと一致しない、又は、前記第１の書き込みアドレスが前記第２の書き込みアドレスと一致しないことに応じて、前記第１のコマンドを前記バッファに記憶することを含む、
請求項１の方法。
前記少なくとも１つの第１の読み出しアドレスが前記少なくとも１つの第２の読み出しアドレスと一致することに応じて、前記第１の集約コマンドを前記バッファに記憶することと、
前記少なくとも１つの第１のアドレスが前記少なくとも１つの第２のアドレスと一致することに応じて、前記第１のコマンドを前記バッファから削除することと、をさらに含む、
請求項２の方法。
前記少なくとも１つの第１の読み出しアドレス、前記少なくとも１つの第２の読み出しアドレス、前記第１の書き込みアドレス、及び、前記第２の書き込みアドレスが、所定の長さを有するキャッシュラインを示す、
請求項１の方法。
前記第１のコマンドで示される少なくとも１つの第１のオフセットに基づいて、前記第１のコマンドによって読み出される前記キャッシュラインの少なくとも１つの第１の部分を識別することと、
前記第２のコマンドで示される少なくとも１つの第２のオフセットに基づいて、前記第２のコマンドによって読み出される前記キャッシュラインの少なくとも１つの第２の部分を識別することと、をさらに含む、
請求項４の方法。
前記第１のコマンド及び前記第２のコマンドを結合して前記集約コマンドを生成することは、前記少なくとも１つの第１の部分及び前記少なくとも１つの第２の部分を示すマスクを生成することを含む、
請求項５の方法。
第３のコマンドによって読み出されるデータの少なくとも１つの第３の読み出しアドレスと、前記第３のコマンドによって書き込まれるデータの第３の書き込みアドレスと、を含む第３のコマンドを含む前記コマンドストリームを受信することと、
前記少なくとも１つの第３の読み出しアドレス及び前記第３の書き込みアドレスを、バッファに記憶された第４のコマンドの少なくとも１つの第４の読み出しアドレス及び第４の書き込みアドレスと比較することと、
前記少なくとも１つの第３の読み出しアドレスが前記少なくとも１つの第４の読み出しアドレスと一致し、前記第３の書き込みアドレスが前記第４の書き込みアドレスと一致することに応じて、前記第３のコマンド及び前記第４のコマンドを結合して第２の集約コマンドを形成することと、をさらに含む、
請求項１の方法。
前記第１のコマンド及び前記第２のコマンドは、前記コマンドストリームの前記第３のコマンド及び前記第４のコマンドとインタリーブされる、
請求項７の方法。
前記第１のコマンドと前記第２のコマンドとの間に依存関係が存在するかどうかを判別することをさらに含み、
前記第１のコマンド及び前記第２のコマンドを結合することは、前記依存関係が存在するかどうかに基づいて、前記第１のコマンド及び前記第２のコマンドを選択的に結合することを含む、
請求項１の方法。
装置であって、
第１のコマンドによって読み出されるデータの少なくとも１つの第１の読み出しアドレスと、前記第１のコマンドによって書き込まれるデータの第１の書き込みアドレスと、を含む前記第１のコマンドを記憶するように構成されたバッファと、
前記少なくとも１つの第１の読み出しアドレス及び前記第１の書き込みアドレスを、前記バッファに記憶された第２のコマンドの少なくとも１つの第２の読み出しアドレス及び第２の書き込みアドレスと比較するように構成された演算結合器と、を備え、
前記演算結合器は、前記少なくとも１つの第１の読み出しアドレスが前記少なくとも１つの第２の読み出しアドレスと一致し、前記第１の書き込みアドレスが前記第２の書き込みアドレスと一致することに応じて、前記第１のコマンド及び前記第２のコマンドを結合して第１の集約コマンドを形成するように構成されている、
装置。
前記バッファは、前記少なくとも１つの第１の読み出しアドレスが前記少なくとも１つの第２の読み出しアドレスと一致することに応じて、前記第１の集約コマンドを記憶するように構成されており、
前記第１のコマンドは、前記少なくとも１つの第１のアドレスが前記少なくとも１つの第２のアドレスと一致することに応じて、前記バッファから削除される、
請求項１０の装置。
前記少なくとも１つの第１の読み出しアドレス、前記少なくとも１つの第２の読み出しアドレス、前記第１の書き込みアドレス、及び、前記第２の書き込みアドレスは、所定の長さを有するキャッシュラインを示す、
請求項１０の装置。
前記演算結合器は、
前記第１のコマンドで示される少なくとも１つの第１のオフセットに基づいて、前記第１のコマンドによって読み出される前記キャッシュラインの少なくとも１つの第１の部分を識別し、
前記第２のコマンドで示される少なくとも１つの第２のオフセットに基づいて、前記第２のコマンドによって読み出される前記キャッシュラインの少なくとも１つの第２の部分を識別する、ように構成されている、
請求項１２の装置。
前記演算結合器は、前記少なくとも１つの第１の部分及び前記少なくとも１つの第２の部分を示すマスクを生成するように構成されている、
請求項１３の装置。
前記バッファは、第３のコマンドによって読み出されるデータの少なくとも１つの第３の読み出しアドレスと、前記第３のコマンドによって書き込まれるデータの第３の書き込みアドレスと、を含む前記第３のコマンドを記憶するように構成されており、
前記演算結合器は、前記少なくとも１つの第３の読み出しアドレス及び前記第３の書き込みアドレスを、バッファに記憶された第４のコマンドの少なくとも１つの第４の読み出しアドレス及び第４の書き込みアドレスと比較するように構成されており、
前記演算結合器は、前記少なくとも１つの第３の読み出しアドレスが前記少なくとも１つの第４の読み出しアドレスと一致し、前記第３の書き込みアドレスが前記第４の書き込みアドレスと一致することに応じて、前記第３のコマンド及び前記第４のコマンドを結合して第２の集約コマンドを形成するように構成されている、
請求項１０の装置。
前記バッファは、前記第２の集約コマンドを記憶するように構成されている、
請求項１５の装置。
前記第１のコマンド及び前記第２のコマンドは、前記第３のコマンド及び前記第４のコマンドとインタリーブされる、
請求項１６の装置。
前記演算結合器は、前記第１のコマンドと前記第２のコマンドとの間に依存関係が存在するかどうかを判別するように構成されており、
前記演算結合器は、前記依存関係が存在するかどうかに基づいて前記第１のコマンド及び前記第２のコマンドを選択的に結合するように構成されている、
請求項１０の装置。
方法であって、
データを圧縮するために使用されるコマンドのストリーム内の第１のコマンドの第１の読み出しアドレス及び書き込みアドレスを、前記ストリーム内の第２のコマンドの第２の読み出しアドレス及び書き込みアドレスと比較することと、
前記第１の読み出しアドレス及び前記第１の書き込みアドレスがキャッシュラインを示し、前記第２の読み出しアドレス及び前記第２の書き込みアドレスが同じキャッシュラインを示すかどうかに基づいて、前記第１のコマンド及び前記第２のコマンドを選択的に結合して集約コマンドを形成することと、を含む、
方法。
前記コマンドのストリームは、グラフィックスプロセッシングユニットによって生成されたグラフィックスデータを圧縮するために使用される、
請求項１９の方法。