JP2022037900A

JP2022037900A - 圧縮データ・ストリームの並列展開

Info

Publication number: JP2022037900A
Application number: JP2021123793A
Authority: JP
Inventors: パーカースティーブン; Parker Steven
Original assignee: Nvidia Corp
Current assignee: Nvidia Corp
Priority date: 2020-08-25
Filing date: 2021-07-29
Publication date: 2022-03-09
Also published as: US20220376701A1; CN114116635A; US11405053B2; DE102021121333A1; US20240080041A1; US20220069839A1; US11817886B2

Abstract

【課題】圧縮データ・ストリームの並列展開を実施するための技法を提供する。【解決手段】さまざまな例では、メタデータは、圧縮データの並列展開を可能にするために、算術符号化、エントロピー符号化などの逐次的圧縮アルゴリズムに従って圧縮された圧縮データ・ストリームに対応して生成され得る。その結果、圧縮データ・ストリーム自体に対する修正が必要とされないことがあり、システムの帯域幅要件及び記憶要件は最小に影響され得る。さらに、展開を並列化することによって、システムは、並列展開のためのメタデータを使用してシステムのための採用サイクルも減少又は完全に除去しながら、より早い展開時間から利益を得ることがある。【選択図】図１

Description

可逆的圧縮アルゴリズムは、記憶及び転送のためにデータセットのサイズを減少させるために以前から使用されている。多くの従来の圧縮アルゴリズムは、レンベル－ジヴ（ＬＺ：Ｌｅｍｐｅｌ－Ｚｉｖ）アルゴリズム、ハフマン符号化、又はそれらの組み合わせに依拠する。１つの実例として、ＤＥＦＬＡＴＥ圧縮形式－インターネット標準ＲＦＣ１９５１－は、ハード・ドライブ上での記憶などのために電子メール通信、ウェブページをダウンロードすること、ＺＩＰファイルを生成することとともに使用するために、ＬＺアルゴリズムとハフマン符号化を組み合わせたものである。ＤＥＦＬＡＴＥのようなアルゴリズムは、データ転送における帯域幅を節約し得る、及び／又はより少ないビットでデータを記憶することによってディスク・スペースを維持し得る。しかしながら、従来の圧縮アルゴリズムは、後の入力を再構築するための以前の入力に対する強い依存により、本質的に逐次的であり、これらの圧縮技法を、グラフィックス処理ユニット（ＧＰＵ：ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）などの並列処理ユニット上での展開に関してあまり理想的でないものにする。その結果、圧縮データを処理するための細かい粒度の並列展開アルゴリズムは、まれである。

並列展開に対する大部分の従来の手法は、ＬＺアルゴリズムのデータ・ハザードを除去するため及び／又はハフマン符号化ステップを除去若しくは制限するために圧縮アルゴリズム自体を修正することに依拠する。以前の並列展開のための手法の実例としては、ＬＺ４と、ＬＺソート及びエンプティ設定（ＬＺＳＳＥ：ＬＺｓｏｒｔａｎｄｓｅｔｅｍｐｔｙ）がある。これら及び類似の手法は、ＬＺアルゴリズム及び／又はハフマン符号化の圧縮利益のうちのいくつかを犠牲にしたにもかかわらず、並列処理アーキテクチャからのいくつかの利点、たとえば、ランタイムの減少、を達成することが可能である。たとえば、これらの並列展開アルゴリズムは、ＤＥＦＬＡＴＥ圧縮形式という従来の逐次的実装形態下で圧縮された同じファイルと比較して、ファイルのサイズにおける１０～１５％の増加をもたらすことが多い。

これらの並列展開アルゴリズムの別の欠点は、従来のファイル形式の広範な使用が、任意の新しい提案される形式の幅広い採用に対するかなりの困難を提示することである。たとえば、より従来の圧縮された形式－ＬＺアルゴリズム、ハフマン符号化、又はそれらの組み合わせを使用することなど－に従ってデータがすでに記憶されている方式の場合、その方式は、新しい圧縮アルゴリズム・タイプとともに機能するように再構成される必要があることがある。方式の帯域幅要件及び記憶要件が、帯域幅の低下及び逐次的圧縮アルゴリズムのファイル・サイズの減少のために最適化されていることがあり、並列展開アルゴリズムの帯域幅の増加及び記憶要件は、追加リソースを必要とすることがあるので、この再構成は、コストがかかることがある。さらに、既存の圧縮形式からすでに記憶されたデータが再形式化されなければならないことがある、及び／又はデータの新しいコピーが、既存のコピーの除去の前に更新された形式で記憶されなければならないことがあり、それによって、採用サイクルの時間をさらに増加させ、追加リソースの獲得を潜在的に必要とすることがある。

本開示の実施例は、圧縮データ・ストリームの並列展開を実施するための技法に関する。圧縮データの並列展開のためにデータ・ストリーム内で異なるタイプの並行処理（ｐａｒａｌｌｅｌｉｓｍ）を公表するために、レンベル－ジヴ（ＬＺ）、ハフマン符号化、それらの組み合わせ、及び／又は他の圧縮アルゴリズムなどの、より従来の圧縮アルゴリズムに従って圧縮されたデータ・ストリームのためのメタデータを生成するシステム及び方法が開示される。たとえば、メタデータは、圧縮データの個々のデータ部分又はブロックに対応する圧縮データ内の区切り、各コンテンツ部分内のデータ・セグメントの区切り、及び／又は各データ部分若しくはブロック内の辞書セグメントの区切りを示してよい。さらに、メタデータは、展開器が、特に並列に展開するときに、展開データが出力ストリーム内でどこに適合するかを識別することができるように、データの出力ストリーム内の出力場所を示し得る。したがって、上記で説明されたシステムなどの従来のシステムとは対照的に、圧縮ストリームと関連づけられたメタデータは、圧縮データ・ストリーム自体への修正を必要とすることなく、より軽微な、たとえば、１～２％の増加を圧縮データ・ストリームの全体的なファイル・サイズにもたらす。その結果、システムの帯域幅要件及び記憶要件は、圧縮データの並列処理により、より速い展開時間という利益も達成しながら、従来の並列展開アルゴリズムと比較して影響されるのが最小であり得る。さらに、展開のためにＧＰＵなどの並列プロセッサを用いるシステムは、メタデータを使用してデータを並列に展開し得るが、展開のために中央処理装置（ＣＰＵ：）を用いるシステムは、メタデータを無視し、従来の技法に従って圧縮データを逐次的に展開し得るので、圧縮ストリームが影響されないこと（たとえば、ＤＥＦＬＡＴＥ形式が使用される場合、圧縮ストリームは依然として、ＤＥＦＬＡＴＥ形式に対応する）により、より古いシステム及びファイルとの互換性に関する問題が回避可能である。

圧縮データ・ストリームの並列展開のための本システム及び本方法は、以下で添付の図面を参照して詳細に説明される。

本開示のいくつかの実施例による、圧縮データ・ストリームの並列展開のための処理１００を示す例示的なデータ・フロー図である。本開示のいくつかの実施例による、圧縮データ・ストリームの並列展開のためのメタデータに対応する例示的なテーブルである。本開示のいくつかの実施例による、圧縮データ・ストリームの並列展開のための接頭部和（ｐｒｅｆｉｘｓｕｍ）形式のメタデータに対応する例示的なテーブルである。本開示のいくつかの実施例による辞書及び辞書と関連づけられたメタデータに対応する例示的なテーブルである。本開示のいくつかの実施例による、圧縮データ・ストリームのブロックの並列展開のためのメタデータに対応する例示的なテーブルである。本開示のいくつかの実施例による、並列処理に適していない圧縮データ・ストリームのコピーに対応する例示的なテーブルである。本開示のいくつかの実施例による、並列処理に適していない圧縮データ・ストリームのコピーに対応する例示的なテーブルである。本開示のいくつかの実施例による、圧縮データ・ストリームの並列展開のための圧縮データ・ストリームのためのメタデータを生成するための方法に対応する流れ図である。本開示のいくつかの実施例による、圧縮データ・ストリームを並列に展開するための方法に対応する流れ図である。本開示のいくつかの実施例を実装することにおける使用に適した例示的なコンピューティング・デバイスのブロック図である。本開示のいくつかの実施例を実装することにおける使用に適した例示的なデータ・センタのブロック図である。

システム及び方法は、圧縮データ・ストリームの並列展開に関連して開示される。本明細書では主に、レンベル－ジヴ（ＬＺ）アルゴリズム及び／又はハフマン符号化（たとえば、ＤＥＦＬＡＴＥ、ＬＺ４、ＬＺソート及びエンプティ設定（ＬＺＳＳＥ）、ＰＫＺＩＰ、ＬＺジャカード距離（ＬＺＪＤ：ＬＺＪａｃｃａｒｄＤｉｓｔａｎｃｅ）、ＬＺウェルチ（ＬＺＷ：ＬＺＷｅｌｃｈ）、ＢＺＩＰ２、有限状態エントロピーなど）を使用して圧縮されたデータ・ストリームに関して説明されるが、これは、限定することを意図したものではない。したがって、本開示の範囲から逸脱することなく、他の圧縮アルゴリズム及び／又は他の技法が使用されてよい。たとえば、フィボナッチ符号化、シャノン－ファノ符号化、算術符号化、人工蜂コロニーアルゴリズム、Ｂｅｎｔｌｅｙ、Ｓｌｅａｔｏｒ、Ｔａｒｊａｎ、及びＷｅｉ（ＢＳＴＷ：Ｂｅｎｔｌｅｙ，Ｓｌｅａｔｏｒ，Ｔａｒｊａｎ，ａｎｄＷｅｉ）アルゴリズム、部分一致による予測（ＰＰＭ：ｐｒｅｄｉｃｔｉｏｎｂｙｐａｒｔｉａｌｍａｔｃｈｉｎｇ）、ランレングス符号化（ＲＬＥ：ｒｕｎ－ｌｅｎｇｔｈｅｎｃｏｄｉｎｇ）、エントロピー符号化、ライス符号化、ゴロム符号、辞書型符号化などである。別の実例として、本明細書において説明されるメタデータ生成及び並列展開技法は、シンボルを符号化するための可変長のビット及び／又はコピーのための可変出力サイズ（たとえば、コピーは、１つのシンボル、２つのシンボル、５つのシンボルなどに対応してよい）のどちらかを含む任意の圧縮データ形式に適してよい。

本明細書において説明されるメタデータ生成及び展開技法は、データ圧縮及び展開－特に可逆的圧縮及び展開－が実装される任意の技術空間において使用されてよい。たとえば、限定するものではないが、本明細書において説明される技法は、オーディオ・データ、ラスタ・グラフィックス、３次元（３Ｄ：ｔｈｒｅｅ－ｄｉｍｅｎｓｉｏｎａｌ）グラフィックス、ビデオ・データ、暗号、遺伝学及びゲノム科学、医学的イメージング（たとえば、医学におけるデジタル・イメージング及び通信（ＤＩＣＯＭ：ｄｉｇｉｔａｌｉｍａｇｉｎｇａｎｄｃｏｍｍｕｎｉｃａｔｉｏｎｉｎｍｅｄｉｃｉｎｅ）データを圧縮するための）、実行ファイル、データをウェブ・サーバに及びそれから移動させること、中央処理装置（ＣＰＵ）とグラフィックス処理ユニット（ＧＰＵ）のとの間でデータを送ること（たとえば、ＣＰＵとＧＰＵとの間の入出力（Ｉ／Ｏ：ｉｎｐｕｔ／ｏｕｔｐｕｔ）帯域幅を増加させるために）、データ記憶（たとえばデータ・フットプリント（ｆｏｏｔｐｒｉｎｔ）を減少させる）、電子メール、テキスト、メッセージ、ファイルを圧縮すること（たとえば、ＺＩＰファイル、ＧＺＩＰファイルなど）、及び／又は他の技術空間のために実装されてよい。本明細書において説明されるシステム及び方法は、ＣＰＵとＧＰＵとの間でデータを通信するなどのＩ／Ｏ集約的使用事例について、記憶を増幅しＰＣＩｅ帯域幅を増加させるために特によく適している。

図１を参照すると、図１は、本開示のいくつかの実施例による、圧縮データ・ストリームの並列展開のための処理１００を示す例示的なデータ・フロー図である。本明細書において説明されるこれ及び他の配置は実例として記載されているにすぎないことが理解されるべきである。他の配置及び要素（たとえば、機械、インターフェース、機能、順序、機能のグループ化など）は、図示される配置及び要素に加えて、又はその代わりに使用されてよく、いくつかの要素は全体で省略されてよい。さらに、本明細書において説明される要素の多くは、任意の適切な組み合わせ及び任意の場所において個別の構成要素若しくは分散された構成要素部品として実装されてもよいし他の構成要素とともに実装されてもよい機能エンティティである。本明細書においてエンティティによって実施されると説明されるさまざまな機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって行われてよい。たとえば、さまざまな機能は、メモリに記憶された命令をプロセッサが実行することによって行われてよい。

プロセス１００は、データ１０２を受け取る及び／又は生成することを含んでよい。たとえば、データ１０２は、限定するものではないが、本明細書において説明される技術空間などの任意のタイプの技術空間に対応してよい。たとえば、データ１０２は、テキスト・データ、画像データ、ビデオ・データ、オーディオ・データ、ゲノム配列決定データ、及び／又は他のデータ型、又はそれらの組み合わせに対応してよい。いくつかの実施例では、データ１０２は、可逆的圧縮技法を使用して記憶及び／又は送信されることになるデータに対応してよい。

プロセス１００は、圧縮データ１０６を生成するためにデータ１０２を圧縮する圧縮器１０４を含んでよい。データ１０２は、限定するものではないが、本明細書において説明されるなどの圧縮形式又はアルゴリズム任意の圧縮形式又はアルゴリズムに従って圧縮されてよい。たとえば、限定するものではないが、データ１０２は、レンベル－ジヴ・アルゴリズム、ハフマン符号化、ＤＥＦＬＡＴＥ形式、及び／又は別の圧縮形式若しくは技法に従って圧縮されてよい。

圧縮データ解析器１０８は、その中における並行処理のための機会を決定するために圧縮データ１０６を解析し得る。たとえば、圧縮データ解析器１０８は、他のセグメントの処理に影響することなく少なくとも部分的に並列に処理可能であるデータ・ストリームの部分に対応する、圧縮データ１３２内のセグメント（又はセクション）を識別し得る。いくつかの実施例では、セグメントの数は、データの各ブロックに対して同じであってもよいし、異なっても（たとえば、動的に決定されても）よい。セグメントの数は、任意の特定の数に限定されない。しかしながら、いくつかの非限定的な実施例では、圧縮データの各ブロックは、ＧＰＵ上のワープの３２個のスレッド（又はコプロセッサ）が３２個のセグメントを並列に処理し得るように、３２個の異なるセグメントに分割されてよい。他の非限定的な例として、圧縮データ１０６、又はそのブロックは、４つのセグメント、１２個のセグメント、１５個のセグメント、６４個のセグメントなどに分割されてよい。セグメントの数は、本明細書において説明されるように、各ブロックに対応する辞書コーディングのために使用されるデータの各ブロック及び／又はデータ構造の各部分に対応してよい。したがって、データ構造（辞書）は、並列復号化のためにセグメントの数に分割されてよく、データは、たとえばすでに復号された辞書を使用して、並列復号化のためにセグメントの（実施例では、等しい）数に分割されてよい。

圧縮データ１０６のどの部分が各セグメントと関連づけるべきかを決定するために、圧縮データ解析器１０８は、圧縮データ１０６内のシンボル又はトークンの数を決定するために圧縮データ１０６に対して第１のパス（ｐａｓｓ）を実行してよい。次いで、第２のパスでは、シンボルの数は、どれくらい多くのシンボル、及びどのシンボルが各セグメントに含まれることになるかを決定するために使用されてよい。いくつかの実施例では、シンボルの数は、セグメント間で、等しく、又は可能な限り等しく、分割されてよい。たとえば、３２０のシンボルと、３２のセグメントがある場合、各セグメントは、１０のシンボルを含んでよい。他の実例では、シンボルの数は、展開を単純化するために、たとえば、セグメントのうちの１つ又は複数に対してプラス又はマイナス１つ又は複数のシンボルなど、調整されてよい。たとえば、上記の例ではセグメントごとに１０のシンボルを選ぶ代わりに、セグメント境界を、展開器１１４がより容易に（たとえば、圧縮データ１０６のバイト間で出力を分割することを回避することによって）取り扱い得るあるバイト間隔、たとえば、４バイト間隔、に対応させるために、セグメントのうちの１つ又は複数は１１のシンボルを含んでよい（他のセグメントは、９つを含んでよい）。

次いで、セグメントは、圧縮データ１０６を並列に展開するための展開器１１４に情報を提供する圧縮データ１０６に対応するメタデータ１１２を生成するためにメタデータ生成器１１０によって解析されてよい。たとえば、各セグメント内で、メタデータ１１２は、３つの情報を識別し得る。第１に、圧縮データ内のどこでセグメントを復号化し始めるかを識別するビット数、第２に、復号された結果が挿入される出力バッファ内の場所、及び第３に、延期された（ｄｅｆｅｒｒｅｄ）コピーの出力を開始するコピー（又は合致）のリスト、たとえばコピー索引、内の位置又は場所である。たとえば、第３のタイプのメタデータ１１２に関して、復号化は並列に実行され得るので、ＬＺアルゴリズムが使用される場合、展開器１１４は、コピーを逐次的に復号しないことがあり、そのため、コピーは、後での実行のためにバッチ処理されることがある。したがって、コピー索引は、各コピーのための出力バッファ内の空間を節約するように展開器１１４に示すためにメタデータ１１２に含まれてよく、また、展開器１１４による第１のパスが実行されると、出力バッファにデータを格納するために展開器１１４によってコピーが実行され得るように、コピー索引を別個のデータ・アレイに記憶してよい。いくつかの実施例では、コピー窓は、設定された長さ、たとえば、スライド窓であってよい。たとえば、ＬＺ７７が使用される場合、コピーのためのスライド窓は３２ｋｂであってよいが、他のアルゴリズムでは、スライド窓は、異なるサイズ（たとえば、１６ｋｂ、６４ｋｂ、１２８ｋｂなど）であってもよいし、可変サイズであってもよい。したがって、圧縮データ１０６は、スライド窓サイズに基づいて生成され得る。メタデータ１１２の結果として、ＧＰＵ上での並行処理は、ＧＰＵの各スレッドが互いとは無関係に圧縮データ１０６の一部分を復号し始め得るように実行され得る。３２のセグメントを使用した上記の実例では、このプロセス１００は、３２に分かれた（３２－ｗａｙ）並行処理をもたらしてよく、各スレッドは、圧縮データ１０６の１／３２、すなわちそのブロック、を復号し得る。

いくつかの実施例では、メタデータは、各セグメントについてのビットの数、各セグメントについての出力バイトの数、及び／又は各セグメント内のコピーの数に対応することがある。しかしながら、他の実施例では、接頭部和演算は、接頭部和形式でメタデータ１１２を生成するために、このデータ（たとえば、ビットの数、出力バイトの数、及び／又はコピーの数）に対して実行されることがある。その結果、メタデータ１１２は、各セグメントについての入力（ビット、ニブル、バイトなど）場所（たとえば、以前の各セグメントについてのビット、ニブル、又はバイトの数を使用して決定される）、各セグメントについての出力（ビット、ニブル、バイトなど）場所（たとえば、以前のセグメントから出力ビット、ニブル、又はバイトの数を使用して決定される）、及びメタデータ１１２が生成されている現在のセグメントの前の各セグメントに含まれるコピーの数に対応し得る。メタデータのこれらの２つの形式間の差の実例が、本明細書においてさらに詳細に説明されるように、図２Ａ及び図２Ｂに示されている。いくつかの実施例では、各セグメントについての入力ビット、出力位置、及び／又はコピー索引の値が単調に増加していくことにより、メタデータ１１２は、共通オフセット（すべてのセグメントによって共有される）並びに各セグメント内の入力ビット、出力位置、及びコピー索引間の差を記憶することによって圧縮されることがある。

本明細書において説明されるように、圧縮データ解析器１０８は、圧縮データ１０６の内容部分に対応するメタデータ１１２を決定するために圧縮データ１０６を解析し得るが、圧縮データ１０６に対応する辞書部分（存在する場合）に対応するメタデータ１１２を決定するため、及び／又は圧縮データ１０６のより大きなストリーム内のブロックを識別することに対応するメタデータ１１２を決定するためにも、圧縮データ１０６を解析することがある。１つの実例として、圧縮データ１０６の内容部分は、展開器１１４によって適切に復号されるために、辞書を必要とすることがある。辞書は、ハフマン符号化が使用される実施例においてハフマン木（又はマッチング木）の表現を含んでよい。いくつかの実施例では、ＬＺアルゴリズムとハフマン符号化が両方とも（たとえば、ＤＥＦＬＡＴＥ形式で）使用されるなどの場合、第１のハフマン符号化演算は、リテラル及びコピーの長さに対して実行されてよく、第２のハフマン符号化演算は、距離に対して実行されてよい。したがって、２つ以上のハフマン木は、リテラル並びにコピーの長さ及び距離の各々を復号するために辞書内に含まれてよい。

他の実施例では、辞書は、展開器１１４が辞書を使用して圧縮データ１０６の内容部分を展開し得るように、圧縮データ１０６がどのシンボルに対応するか－又はそれに対応するビット値－に関する標識を提供し得る。いくつかの実施例では、辞書は、ハフマン符号化であってよく、圧縮データ１０６を展開するためにハフマン木に対応してもよい。辞書がＤＥＦＬＡＴＥ形式などで使用される場合、圧縮データ１０６の各ブロックに対して、メタデータ生成器１１０は、辞書の各セグメントの開始入力ビット及び辞書が対応する圧縮データ１０６のブロックの内容部分内の各シンボルのために使用されるビットの数に対応するメタデータ１１２を生成し得る。したがって、辞書は、メタデータ１１２に基づいてセグメントに分割され、ＧＰＵのスレッドを使用して並列に処理され得る。本明細書において説明されるように、セグメントの数は、実施例に応じて、圧縮データ１０６のブロックのデータ又は内容部分のセグメントの数に類似してもよいし、異なってもよい。さらに、辞書は、圧縮データ１０６のデータ・セグメントのコピー又は合致のそれと同様に、補填（ｆｉｌｌ）又は繰り返してよく、この補填又は繰り返しは、辞書をさらに圧縮するために使用されてよい。

圧縮データ１０６は、圧縮器１０４によって決定される任意の数の基準に基づいて、及び／又は使用されている圧縮形式若しくはアルゴリズムに従って、任意の数のブロックに分割されてよい。たとえば、圧縮データ１０６内の頻度又は優先順位が変化した場合、第１のブロック及び第２のブロックが作成されることがある。非限定的な例として、圧縮データ１０６の第１の部分の場合は、Ａ、ｅ、及びｉという文字が最も頻度が高いことがあり、圧縮データ１０６の第２の部分の場合は、ｇ、Ｆ、及びｋという文字が最も頻度が高いことがある。したがって、使用される特定の圧縮アルゴリズムによれば、第１の部分は、第１のブロックに分離されることがあり、第２の部分は、第２のブロックに分離されることがある。圧縮データ１０６のために圧縮器１０４によって決定される任意の数のブロックがあり得る。圧縮データ解析器１０８は、圧縮データ１０６のより大きなストリーム内のブロックの場所を決定するために、これらのブロックを解析し得る。したがって、メタデータ生成器１１０は、非圧縮ブロックを含むことがある圧縮データ１０６の各ブロックの開始入力ビット及び出力バイト（たとえば、復号データの第１の出力バイト場所）を識別するメタデータ１１２を生成し得る。ブロックが互いと分離され、メタデータ１１２によって別個に識別される結果として、たとえば、ブロックの各々における圧縮データ１０６が並列に処理されることに加えて、ブロックも並列に処理されてよい。たとえば、各ブロックが３２個のセグメントを含む場合、第１のブロックは、ＧＰＵの第１のワープを使用して実行されてよく、第２のブロックは、ＧＰＵの第２のワープを使用して第１のブロックと並列に実行されてよい。ブロックのうちの１つ又は複数が非圧縮である実例では、非圧縮ブロックは、辞書なしで送られることがあり、非圧縮ブロックの入力ビット及び出力バイトは、データを出力に直接的にコピーするために展開器１１４によって使用されることがある。

その結果、メタデータ１１２は、より大きなストリーム内の各ブロックのための入力場所及び出力場所、辞書の各シンボルのための各ブロック内の辞書のための入力場所並びにビット値、並びに各ブロック内の各セグメントについての入力場所、出力場所、及びコピー索引に対応することがある。このメタデータ１１２は、さまざまな形の並行処理を用いて圧縮データ１０６を復号又は展開するために展開器１１４によって使用されてよい。たとえば、本明細書において説明されるように、個々のブロックは、たとえば、異なるＧＰＵリソース及び／又は並列処理ユニットを使用して、並列に復号されてよい。さらに、各（並列展開された）ブロック内で、辞書（存在する場合）は、セグメントに分割されることがあり、このセグメントは、並列に復号又は展開されることがある（たとえば、辞書の６４個のセグメントがある場合、６４個のすべてのセグメントは、ＧＰＵの６４個の異なるスレッド又は２つのワープを使用することなどによって、並列に復号されることがある）。さらに各（並列展開された）ブロック内で、ブロックの内容部分は、セグメントに分割されることがあり、このセグメントは、並列に復号又は展開されることがある。さらに、本明細書において規定されるように、コピー演算又はマッチング演算のうちの１つ又は複数は、展開器１１４によって並列に実行されることがあり、たとえば、コピーが、出力ストリームに復号されているデータに依拠する場合、そのコピーは、１つ又は複数の他のコピーと並列に実施されることがある。さらに、各個々のコピー演算が、並列に実行されることがある。たとえば、コピーが、１よりも大きい長さを有する場合、完全なコピーの各シンボル又は字のコピーが、展開器１１４によって並列に実行されることがある－たとえば、図２Ｆを参照すると、「ｉｓｓｉ」の各字は、並列に実行されてよい（たとえば、ＧＰＵの第１のスレッド上で「ｉ」を、第２のスレッド上で「ｓ」を、スレッド第３の上で「ｓ」を、第４のスレッド上で「ｉ」をコピーして、出力ストリームのためのそれぞれの出力バイトを生成する）。

展開器１１４は、圧縮データ１０６及びそれと関連づけられたメタデータ１１２を受け取り得る。展開器１１４は、メタデータ１１２を使用して、圧縮データ１０６を別個のブロックに分離し得る（複数のブロックがある場合）。たとえば、展開器１１４は、圧縮データ１０６のブロック・レベルに対応するメタデータ１１２を解析し得、各ブロックの入力（ビット、ニブル、バイトなど）場所（たとえば、第１のビット、又はブロックに対応する圧縮データ１０６）及び各ブロックのための出力（ビット、ニブル、バイトなど）場所（たとえば、ブロックからの、展開後のデータが置かれる、出力ストリーム内の第１の出力場所）を決定し得る。各ブロックが識別された後、展開器１１４は、逐次的に各ブロックを処理し（たとえば、第１のブロックが処理されてよく、次いで、第２のブロックが処理されてよく、以下同様である）てもよいし、ブロックのうちの２つ以上を異なるＧＰＵリソースによる並列展開に割り当て（たとえば、第１のブロックを第１のＧＰＵ又はそのスレッドの第１のグループに割り当て、第２のブロックを第２のＧＰＵ又は第１のＧＰＵのスレッドの第２のグループに割り当てることなどによって）てもよいし、それらの組み合わせであってもよい。各ブロックは、いくつかの実施例では、非圧縮モード・ブロック、固定コード・テーブル・モード・ブロック、生成されたコード・テーブル・モード・ブロック、及び／又は他のタイプなどの、異なるタイプ又はモードに対応し得る。展開器１１４は、モードに基づいて、圧縮データ１０６を展開（及び／又は非圧縮モードのときは非圧縮データを復号）してよく、メタデータ１１２は、モードに基づいて異なってよい。たとえば、非圧縮モードでは、データは展開される必要がない及び／又はコピー又はマッチングがないことがあるので、辞書がないことがある。したがって、メタデータは、非圧縮ブロックに対応する入力データ・ストリームが出力ストリームに直接的にコピーされるように、データのための入力場所及び出力場所のみを示すことがある。

展開器１１４は、辞書及びブロックの内容部分と関連づけられたメタデータ１１２を使用してデータの各ブロックを展開し得る。たとえば、各ブロックに対して、メタデータ１１２は、辞書の入力（ビット、ニブル、バイトなど）場所及びブロック内のデータのあらゆるセグメントの各シンボルに対するビット値（又はビットの数）を識別し得る。本明細書において説明されるように、辞書は、ブロックの内容部分を正確に展開するために展開器１１４によって使用されることがある。辞書は、ブロックの内容部分に対するハフマン符号化を使用して生成されることがあり、いくつかの実施例では、辞書に対応する圧縮データもハフマン符号化されることがある。その結果、実施例では、圧縮データの辞書部分は、ハフマン符号化を使用して圧縮されることがあり、圧縮データの内容部分はハフマン符号化されることがある。各ブロック内の圧縮データ１０６の辞書部分に対応するメタデータ１１２は、辞書のセグメントの入力場所を示すことがある。たとえば、辞書が３２のセグメントに分割される場合、メタデータ１１２は、辞書の各セグメントの開始入力ビット（及び／又は出力バイト若しくは他の場所）を示すことがある。したがって、展開器１１４は、メタデータ１１２を使用して、圧縮データ１０６の辞書部分を並列に（たとえば、ＧＰＵのスレッドごとに１つのセグメント）展開又は復号することがある。辞書は（実施例では、ハフマン符号化を使用することに加えて）、ＬＺアルゴリズムに従って圧縮されることがあり、その結果、圧縮データ１０６の辞書部分の展開は、コピー又は補填を含むことがある。したがって、辞書の並列展開が実行される場合、展開器１１４による第１のパスは、実際のビット値（たとえば、辞書内の各シンボルのビット長に対応する）を復号し、コピー又は補填されることになるビット値のためにプレースホルダを残すことがある。第２のパス中、展開器１１４は、（たとえば、本明細書において図２Ｃを参照してより詳細に説明されるように）辞書のシンボルに対応する欠落したビット値を埋めるために、補填演算又はコピー演算を実行することがある。

展開器１１４は、各ブロックのための圧縮データ１０６の内容部分に対応するメタデータ１１２を使用して、圧縮データ１０６の各セグメントの第１の入力場所（たとえば、ビット、ニブル、バイトなど）、展開後の圧縮データ１０６の各セグメントについての出力ストリーム内の出力場所、及び／又は圧縮データ１０６の各セグメントについてのコピー索引若しくはコピーの数を識別することがある。接頭部和演算は、各セグメントについての入力場所、出力場所、及びコピーの数を決定するために、展開器１１４によって実行されてよい。しかしながら、他の実施例では、本明細書において説明されるように、接頭部和形式を使用して、入力場所、出力場所、及びコピー索引を識別する代わりに、メタデータ１１２は、各セグメント内のビットの数、各セグメント内の出力バイトの数、及び各セグメント内のコピーの数を示すことがある。展開器１１４は、圧縮データ１０６の識別されたセグメントを並列に展開し得る。たとえば、メタデータ１１２からの識別子を使用して、展開器１１４は、チャンク又はセグメントに対応する圧縮データ１０６の部分をＧＰＵの異なるスレッドに割り当てることがある。展開器１１４による圧縮データ１０６の各セグメントを通る第１のパスは、圧縮データ１０６からの展開されたリテラル（たとえば、実際のシンボル）を出力ストリームに（たとえば、メタデータによって識別された場所のところに）直接的に出力するため、及びコピーのための出力ストリーム内の空間を維持しながら、後での処理のために（たとえば、展開器１１４によって第２のパスにおいて）コピー情報又はマッチング情報を別個のキューに記憶するために、実行されることがある。出力ストリーム内に維持される空間の量は、メタデータ１１２を使用して決定されてよい。これらのキューに入れられたコピー又はマッチングは、本明細書では、延期されたコピーと呼ばれることがある。

延期されたコピーがキューに入れられ、出力ストリーム内のプレースホルダが作成された後、展開器１１４は、延期されたコピーを通る第２のパスを実行することがある。コピーのうちの１つ又は複数は、各コピーが、コピーしても安全であると決定されたかどうかに応じて並列に実行される（たとえば、コピーされることになるデータがすでに展開されている場合、又はコピーされることになるデータが、まだコピーされていない別のコピーに依拠しない場合、コピーは、安全であると決定され得る）。たとえば、展開器１１４は、並列に実施され得る追加コピーを見つけるためにコピーのシーケンスを探すことがある。コピーを並列に処理する能力は、コピーに対応するメタデータ１１２及び／又は情報を使用して決定され得る。たとえば、出力ストリーム内のコピーの出力位置（メタデータ１１２から決定される）、コピーが行われることになるソース位置（コピーに対応する符号化された距離情報から決定される）、及び／又はコピーの長さ（コピーに対応する符号化された長さ情報から決定される）は、コピーが１つ又は複数の他のコピーとの並列処理にとって安全であるかどうかを決定するために使用されることがある。コピーは、ソースが現在の出力カーソルの前に終わり、コピーがそれ自体と重複しないとき、別のコピーと並列に実行しても安全であってよい。１つの実例として、実験に基づいて、同時にコピーされるバイトの数は、３～４から９０～１００又はそれよりも多くまで増加されることがある。このプロセスは、スレッドをまたがる並行処理のためと単一スレッド内でのメモリ・システム並行処理の両方のためのかなりの追加機会を与える。したがって、コピーのうちの１つ又は複数（たとえば、イントラブロックコピー又はブロック間コピー）は、１つ又は複数の他のコピーと並列に実行され得る。並列実行にとって安全なコピー及び安全でないコピーの例は、図２Ｅ～図２Ｆを参照して説明される。さらに、いくつかの実施例では、単一コピー内のシンボルが並列に実行されることがある。たとえば、コピーが１よりも大きい長さを有する場合、コピー内の個々のシンボルは、ＧＰＵの２つ以上のスレッド（又はコプロセッサ）を使用して出力ストリーム（のバイト）に並列にコピーされることがある。

その結果、展開器１１４は、リテラルを出力する圧縮データ１０６の第１のパスと、コピーからシンボルを出力するコピーの第２のパスを実行することによって、シンボルの各々を出力ストリームに出力し得る。結果は、当初圧縮器１０４によって圧縮されたデータ１０２に対応する出力ストリームであってよい。可逆的圧縮技法が使用される実例では、データ１０２の出力は、データ１０２の入力圧縮器１０４と同一又は実質的に同一であってよい。

いくつかの実施例では、共有メモリ・テーブルを用いた二分木探索アルゴリズムは、ＣＰＵベース復号器又は展開器に見られる典型的な高速経路／低速経路実装形態とともに発生するであろうスレッド間の相違（ｄｉｖｅｒｇｅｎｃｅ）を回避するために、圧縮データ１０６に対して実行されることがある。たとえば、ＣＰＵに対する従来の実装形態では、データの大規模アレイは、一度に何らかの数のビットを復号するために使用されることがある。ＤＥＦＬＡＴＥ形式に関して、各シンボルは、１～１５ビット長の範囲に及ぶことがあるので、データを復号するとき、各シンボルがどれくらい長いかに関して、展開器にとって即座に明らかでないことがある。その結果、ＣＰＵ展開器は、シンボルに対応するビットの実際の数が決定されるまで、１ビットを利用して、それが長さ１のシンボルかどうかを確かめ、次いで、別のビットを利用して、それが長さ２のシンボルであるかどうかを確かめ、以下同様である。このタスクは、時間がかかることがあり、ＣＰＵ実装形態の場合ですら、展開プロセスを減速させることがある。その結果、いくつかの手法は、１５ビットなどの複数のビットを一度に解析する手法を実装している。そのような実施例では、１５ビットが、圧縮データ・ストリームからプルされることがあり、ルック・アップ・テーブルは、どのシンボルにデータが対応するかを決定するために使用されてよい。しかしながら、このプロセスは、スライド窓がわずか３２ｋｂであることがあるが、システムは、シンボルが２ビットのみに圧縮される場合でも解析のために１５ビットを記憶しなければならないので、無駄が多い。その結果、いくつかの実装形態では、８ビットが抽出される場合にシンボル・ルックアップが８ビットに対して実施される高速経路／低速経路方法が使用されることがあり、シンボルが８ビットよりも短いとき、高速経路が使用され、シンボルが８ビットよりも大きいとき、低速経路が、どのシンボルがデータによって表されるかを決定するために使用される。このプロセスも、時間がかかり、圧縮データ１０６を展開するためのシステムのランタイムを減少させる。

ＧＰＵ上で、高速パス／低速経路方法を使用する代わりに何らかの数のスレッド（たとえば、３２）が何らかの数のシンボル（たとえば、３２）に対して実行されている場合、いくつかは高速経路にヒットし、いくつかは高速経路にヒットし、ワープ内で（たとえば、３２のセグメントがある場合）一緒に混合され、これは非効率的である。この問題に対処するために、二分探索アルゴリズムが、効率を改善するために使用されてよい。たとえば、二分探索は、どのシンボルにテーブルが属するかを決定するために、１５エントリ長であるテーブルなどの小さいテーブルに対して実行されることがある。アレイのサイズ減少により、アレイは、チップ上の共有メモリに記憶されることがあり、これは、ＧＰＵ上での高速ルックアップをもたらし得る。さらに、二分探索アルゴリズムを使用することによって、共有メモリ内のアレイの異なる部分を調べる場合でもすべてのスレッドが同じコードを実行することが可能になり得る。その結果、二分探索は、シンボルが８ビットよりも長いか８ビットよりも短いかどうかを確かめるために長さ８のシンボルを調べ得るので、メモリ・トラフィックが減少されることがある。さらに、二分木の最上位レベルのうちの１つ又は複数（たとえば、２つ）が、ルックアップごとにアクセスされる共有メモリの数を（たとえば、５から３に）減少させるために、データ・レジスタ内にキャッシュされることがある。その結果、４つのアクセスの第１のアクセスは、毎回メモリからロードするのではなく、レジスタがＧＰＵ上で有効（ｌｉｖｅ）を保ち得るように、常に同じものであってよい。次は、４又は１２であってよく、別のレベルのメモリ・アクセスを有する代わりに、システムは、シンボル４レジスタ又はシンボル１２レジスタを調べているかどうかを選ぶことがあり、これによって、アクセスの総数が２以上減少され得る（たとえば、通常、二分探索が長さを得るには４であり、実際のシンボルを得るにはもう１つであり、そのため、このプロセスは、４プラス１から２プラス１に減少する）。したがって、エントリをロードし、次いで比較するためにシンボルをシフトする代わりに、シンボル自体があらかじめシフトされる。

さらに、いくつかの実施例では、圧縮データ１０６の入力ストリームは、スウィズル（ｓｗｉｚｚｌｅ）又はインターリーブされることがある。たとえば、圧縮データ１０６のブロックは、圧縮データ解析器１０８によって何らかの数のセグメント（たとえば、３２）に分割され得るので、各スレッドは、ストリームの遠隔パートから読み出され得る。その結果、入力ストリームは、データ読み出し局所性を改善するために前処理（ｐｒｅ－ｐｒｏｃｅｓｓ）内で（たとえば、メタデータ１１２を使用して）セグメント境界においてインターリーブされることがある。たとえば、データ１０２が、特定の言語の単語のすべてを含む実際の辞書に対応する場合、１つのスレッドは、「Ａ」という文字で始まる単語から読み出されることがあり、別のスレッドは「Ｄ」という文字で始まる単語から読み出されることがあり、別のスレッドは「Ｐ」という文字で始まる単語から読み出されることがあり、以下同様である。この問題をなくすために、データは、すべてのスレッドが隣接メモリから読み出され得るように、再形式化されることがある。たとえば、圧縮データ１０６は、各スレッドが類似のキャッシュ・ラインから読み出され得るように、索引からの情報を使用してインターリーブされることがある。したがって、スレッドがデータを処理しているとき、データが異なる場合であっても、スレッドはデータにおける何らかの類似性を有し得るように、データは一緒にシャッフルされてよい。トランプの実例では、データのスウィズリング又はインターリービングによって、各スレッドが、異なる組み札の場合でも同じ数字又は字をもつカードを処理することが可能になり得る。

セグメントがＧＰＵのワープのスレッドを使用して処理される場合などのさらなる実例として、ワープ同期データ並列ループは、辞書をロード及び処理するために実行され得る。たとえば、索引及びデータ並列アルゴリズムを使用して、システムは、並列に辞書エントリに指示することがある。連続して処理するとき、システムは、どれくらい多くのシンボルが長さ２、長さ３などであるかを調べることがある。しかしながら、これらの計算を逐次的に実施する代わりに、システムは、スレッドを計算する又は各シンボルに割り当て、次いでシンボルが特定の長さであるかどうかを報告し、次いで、ワープの総数へのワープ減少を実行するために、データ・アルゴリズムを、並列に、実行し得る。たとえば、２８６のシンボルが解析される（たとえば、０～２５５バイト、２５６はブロックの終了、２５７～２８６は異なる長さに対するもの）場合、２８６のシンボルの各々は、並列に解析され得る。

次に図２Ａ～図２Ｆを参照すると、説明される実例の各々は、ＤＥＦＬＡＴＥ圧縮形式に従って圧縮されたデータ及びそれに対応するメタデータ１１２に対応し得る。しかしながら、これは、例示の目的にすぎず、本明細書において説明されるように、本開示の技法は、限定するものではないが本明細書において説明されるデータ圧縮形式などの任意のタイプのデータ圧縮形式のために実装されてもよいし、これに適用されてもよい。

図２Ａは、本開示のいくつかの実施例による、圧縮データ・ストリームの並列展開のためのメタデータ１１２に対応する例示的なテーブル２００Ａを示す。たとえば、データ１０２（又は、そのブロックなどの、その一部分）は、「Ｍｉｓｓｉｓｓｉｐｐｉ」という単語に対応し得る。圧縮器１０４は、「Ｍｉｓｓ＜コピー長４、距離３＞ｐｐｉ」として表されるデータ１０２の圧縮バージョン（たとえば、圧縮データ１０６）を生成するために、ＤＥＦＬＡＴＥ圧縮アルゴリズムに従ってデータ１０２を圧縮し得る。さらに、圧縮データ１０６は、ハフマン符号化されることがあり、その結果、さまざまなシンボルは、圧縮器１０４による何らかの優先順位又は頻度評価に対応するいくつかのビットによって表され得る。非限定的な例として、「Ｍ」は３ビットによって表れてよく、コピーは、４ビット（たとえば、長さのための３ビット及び距離のための１ビット）によって表されてよく、「ｉ」、「ｓ」、及び「ｐ」は各々、圧縮データ１０６内の２ビットによって表され得る。この実例の場合、圧縮データ１０６のブロックが４つのセグメントに分解される（たとえば、４方向索引）と仮定すると、圧縮データ解析器１０８は、「Ｍｉ」を含むように第１のセグメントを、「ｓｓ」を含むように第２のセグメントを、コピー及び「ｐ」を含むように第３のセグメント、「ｐ」を含むように第４のセグメントを決定するために、圧縮データ１０６を解析し得る。たとえば、１１の字又はシンボルである「Ｍｉｓｓｉｓｓｉｐｐｉ」は、８つのシンボル（たとえば、７つのリテラルと１つのコピー）に分解されてよく、セグメントは、実質的に等しいサイズであるように生成されてよい。しかしながら、第４のセグメントは、シンボルが奇数であることにより、１つのシンボルのみを含むことがある。次いで、圧縮データ解析器１０８は、各セグメントについての出力（又は出力バイト）の数、各セグメントについての入力（又は入力ビット）の数、及び／又は各セグメント内のコピーの数を決定し得る。いくつかの実例では、メタデータ生成器１１０は、この情報を直接的に使用して、メタデータ１１２を生成することがある。しかしながら、他の実例では、テーブル２００Ｂに従ってメタデータ１１２を生成するために、接頭部和演算が、このデータに対して実行されることがある。

図２Ｂを参照すると、図２Ｂは、本開示のいくつかの実施例による、圧縮データ・ストリームの並列展開のための接頭部和形式のメタデータ１１２に対応する例示的なテーブル２００Ｂを示す。たとえば、いくつかの出力の代わりに、各セグメントは、代わりに、どこでセグメントからの展開されたシンボルからの出力が始まるべきかを展開器１１４に示すために、出力ストリーム内の出力位置によって識別されることがある。いくつかの入力の代わりに、圧縮データ・ストリーム内の入力位置は、セグメントが並列処理のためにＧＰＵの一意のスレッドに割り当てられ得るように、セグメントをどこで展開し始めるべきかを展開器１１４に示すために識別されることがある。さらに、各セグメント内のいくつかのコピーの代わりに、ブロックの以前のセグメントからのコピーの現在高は、どのコピーがキュー内の各延期されたコピーに対応するかを展開器に示すために、メタデータ１１２において識別されることがある。最終的に、この例では、メタデータ１１２の接頭部和形式は、圧縮データの現在のブロックの内容部分（又はデータ部分）内に、１１バイトの出力、１９ビットの入力、及び１つのコピーがあることを展開器１１４に示すことがあり、各セグメントが圧縮データ１０６内のどこで始まるか、各セグメントをどこに出力するべきか、及び／又はコピー索引を示すことがある。

図２Ｃを参照すると、図２Ｃは、本開示のいくつかの実施例による辞書及び辞書と関連づけられたメタデータ１１２に対応する例示的なテーブル２００Ｃを示す。たとえば、本明細書において図２Ａ及び図２Ｂを参照して説明されるように（たとえば、ハフマン符号化を使用して決定されるように）同じ数のビットをシンボルに使用して、辞書は、これらの値を示すように生成され得る。この実例では、辞書は、英語アルファベットの小文字及び大文字に対応し得る。しかしながら、これは限定することを意図したものではなく、辞書は、任意の言語からの字、数字、シンボル（たとえば、！、＄、＊、＾、及び／又は他のシンボル・タイプ）などを含む任意のタイプのシンボルに対応してよい。したがって、圧縮データ１０６は、Ｍ、ｉ、ｓ、及びｐにのみ対応し得るので、圧縮データ１０６の辞書部分は、これらの値を示すように圧縮されてよい。そのような実例では、データ文字列２０２は、辞書に対応するデータ１０２を表してよく、５２個の字の各々（たとえば、Ａ～－Ｚ及びａ～ｚ）は、いくつかのビットに対応する値によって表される。辞書をさらに圧縮するために、圧縮器１０４は、データ文字列２０２からの繰り返される値に対応する補填シンボル又はコピー・シンボルを生成し得る。この場合、繰り返される値は０であり、そのため、辞書に対応する圧縮データ１０６は、「＜ｆｉｌｌ１２ｘ＞３＜ｆｉｌｌ２１ｘ＞２＜ｆｉｌｌ６ｘ＞２００２＜ｆｉｌｌ７ｘ＞」によって表されてよい。圧縮データ解析器１０８は、辞書に対応する圧縮データ１０６を解析し、セグメント中断を決定し得る（たとえば、４つのセグメントが使用される例では、圧縮データ１０６は、４つのセグメントに分割され得る）。４つのセグメントの分割は、破線によって示される。次いで、メタデータ生成器１１０は、圧縮データ１０６のブロックの辞書部分に対応するメタデータ１１２を生成するために、たとえば、開始入力場所及びシンボル数又は辞書内のあらゆるセグメントの索引を示すために、セグメント情報を解析し得る。

ここで図２Ｄを参照すると、図２Ｄは、本開示のいくつかの実施例による、圧縮データ・ストリームのブロックの並列展開のためのメタデータ１１２に対応する例示的なテーブル２００Ｄを示す。たとえば、データ１０２が「ＭｉｓｓｉｓｓｉｐｐｉＭｉｓｓｉｓｓｉｐｐｉＭｉｓｓ」であったと仮定すると、圧縮器１０４は、データ１０２を圧縮のための２つのブロックに分離し得る。「Ｍｉｓｓｉｓｓｉｐｐｉ；」に対応する第１のブロックと、「ＭｉｓｓｉｓｓｉｐｐｉＭｉｓｓ」に対応する第２のブロックである。したがって、圧縮データ１０６内の異なるブロックの場所、及びそれに対応する辞書、を識別するために、圧縮データ解析器１０８は、圧縮データ１０６の各ブロックの初期入力場所（たとえば、第１の入力ビット、ニブル、バイトなど）及び／又は出力ストリーム内の各ブロックの初期出力場所（たとえば、第１のビット、ニブル、バイトなど）を決定するために圧縮データ１０６を解析し得る。その結果、圧縮データ１０６のストリームに対応するメタデータ１１２は、圧縮データ１０６の各ブロックのためのいくつかの入力（たとえば、ビット、ニブル、バイトなど）及びいくつかの出力（たとえば、ビット、ニブル、バイトなど）、各ブロック内の各セグメントについてのいくつかの入力（たとえば、ビット、ニブル、バイトなど）及びシンボル数、並びに／又は各ブロック内の各セグメントについてのいくつかの入力（たとえば、ビット、ニブル、バイトなど）、いくつかの出力（たとえば、ビット、ニブル、バイトなど）、及びいくつかのコピーを示し得る。接頭部和演算が実行される場合、メタデータ１１２は、代わりに、圧縮データの各ブロックの初期入力場所及び初期出力場所、各ブロックのための辞書部分の各セグメントについての初期入力場所及びシンボル索引、並びに／又は各ブロックのための内容部分（又はデータ部分）の各セグメントについての初期入力場所、初期出力場所、及びコピー索引を含んでよい。さらなる実施例では、ブロック、辞書、又はデータのうちの１つ又は複数のためのメタデータは接頭部和形式であるが、ブロック、辞書、又はデータのうちの１つ又は複数は接頭部和形式でないように、２つの異なるメタデータ形式の何らかの組み合わせが使用されてよい。

次いで、メタデータ１１２は、圧縮データ１０６を展開するために展開器１１４によって使用されてよい。たとえば、圧縮データ１０６の各ブロックは、圧縮データ１０６の２つ以上のブロック－たとえば、ブロックＡ及びブロックＢ－が並列に展開され得るように、メタデータ１１２を使用して識別されてよい。各ブロックに対して、メタデータ１１２は、辞書が並列に展開され得るように、たとえば、スレッド又はコプロセッサごとに１つのセグメントなど、辞書のセグメントを決定するために使用されてよい。次いで、辞書は、圧縮ストリームの内容部分を展開するために使用され得る。たとえば、メタデータ１１２は、圧縮データ１０６の内容部分のセグメントを示すことがあり、展開器１１４は、辞書を使用して、圧縮データ１０６からリテラルを復号し、そのリテラルを出力ストリームに出力することがある。展開器１１４はさらに、メタデータ１１２及び圧縮データ１０６内の符号化されたコピー情報を使用して、コピーのための出力ストリームの部分を予約し、キュー又はデータ構造に各コピーについての情報（たとえば、ソース場所、距離、長さなど）を格納することがある。本明細書において説明されるように、圧縮データ１０６の内容部分のセグメントは、並列に展開され得る。展開後、展開器１１４は、出力ストリーム内の予約されたプレースホルダに、対応するコピーされたシンボルを格納するために、キュー内の延期されたコピーに対してコピー演算を実行することがある。１つの実例として、図２Ａを参照すると、１のソース位置、４のコピー長、及び３の距離によって示される「ｉｓｓｉ」のコピーが、「ｉ」を位置４に、「ｓ」を位置５に、「ｓ」を位置６に、及び「ｉ」を位置６にコピーするために使用されることがある。位置６における「ｉ」は、コピーが始まるまで存在しなかった位置４における「ｉ」からコピーされるので、位置６における「ｉ」は、重複コピーと呼ばれることがある。本明細書において説明されるように、個々のコピー演算は、いくつかの実施例では、「ｉｓｓｉ」コピーのうちの２つ以上がＧＰＵの異なるスレッドを使用して並列に実行され得るように、並列に実行されてよい。

さらに、いくつかの実施例では、コピーが安全であると決定されたとき、別個のコピーが並列に実行されることがある。たとえば、図２Ｅを参照すると、図２Ｅは、本開示のいくつかの実施例による、並列処理に適していない圧縮データ・ストリームのコピーに対応する例示的なテーブル４００Ｅを示す。たとえば、圧縮データ１０６が「ＭｉｓｓｉｓｓｉｐｐｉＭｉｓｓｉｓｓｉｐｐｉ」に対応する場合、圧縮データ１０６は、２つのコピー（たとえば、テーブル２００Ｅに示されるコピー＃１及びコピー＃２）を含んでよい。この実例では、展開器１１４は、第１のコピーを実行しようとするとき又はその実行中に、１つ又は複数の追加コピー、たとえば、第２のコピー、が並列に実行され得るかどうかを決定し得る。展開器１１４は、重複があるかどうかを決定するために、第２のコピーのソース位置及び第１のコピーの出力位置を調べてよい。この場合、第２のコピーは第１のコピーからの出力に依拠するので、第２のコピーは、第１のコピーと並列に実施するのに安全でないことがある。したがって、第１のコピーと第２のコピーは順次実行されてよい。

別の実例として、図２Ｆを参照すると、図２Ｆは、本開示のいくつかの実施例による、並列処理に適した圧縮データ・ストリームのコピーに対応する例示的なテーブル４００Ｆを示す。たとえば、圧縮データ１０６が「ＭｉｓｓｉｓｓｉｐｐｉＭｉｓｓ」に対応する場合、圧縮データ１０６は、２つのコピー（たとえば、テーブル２００Ｆに示されるコピー＃１及びコピー＃２）を含んでよい。この実例では、展開器１１４は、第１のコピーを実行しようとするとき又はその実行中に、１つ又は複数の追加コピー－たとえば、第２のコピー－が並列に実行され得るかどうかを決定し得る。展開器１１４は、重複があるかどうかを決定するために、第２のコピーのソース位置及び第１のコピーの出力位置を調べてよい。この場合、第２のコピーは第１のコピーからの出力に依拠しないので（たとえば、第２のコピーは、出力バッファに格納されることになる第１のコピーからの結果を必要とすることなく実行可能であるので）、第２のコピーは、第１のコピーと並列に実施しても安全であり得る。したがって、第１のコピーと第２のコピーは、並列に実行され、それによって、順次４つのシンボル及び４つのシンボルの代わりに、８つのシンボルの出力を一度に提供し得る。

次に図３～図４を参照すると、本明細書において説明される方法３００及び４００の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組み合わせを使用して実施されてよいコンピューティング・プロセスを含む。たとえば、さまざまな機能は、メモリに記憶された命令をプロセッサが実行することによって行われてよい。方法３００及び４００はまた、コンピュータ記憶媒体上に記憶されたコンピュータ使用可能命令として具現化されてもよい。方法３００及び４００は、いくつかの例を挙げると、スタンドアロン・アプリケーションによって提供されてもよいし、サービス又はホステッド・サービス（スタンドアロン又は別のホストテッド・サービスと組み合わせて）によって提供されてもよいし、別の製品へのプラグインによって提供されてもよい。さらに、方法３００及び４００は、例として、図１のプロセス１００を参照して説明される。しかしながら、これらの方法３００及び４００は、追加的又は代替的に、限定するものではないが、本明細書において説明されるプロセス及びシステムを含む、任意の１つのシステムによって任意の１つのプロセス内で実行されてもよいし、プロセス及びシステムの任意の組み合わせによって実行されてもよい。

図３を参照すると、図３は、本開示のいくつかの実施例による、圧縮データ・ストリームの並列展開のための圧縮データ・ストリームのためのメタデータを生成するための方法３００に対応する流れ図を示す。方法３００は、ブロックＢ３０２において、圧縮データを解析することを含む。たとえば、圧縮データ解析器１０８は、圧縮データ１０６を解析してよい。

方法３００は、ブロックＢ３０４において、圧縮データの複数のセグメント間の区切りを決定することを含む。たとえば、圧縮データ解析器１０８は、圧縮データ１０６のセグメント間の区切りを決定してよい。

方法３００は、ブロックＢ３０６において、区切りに一部は基づいて、複数のセグメントのうちの少なくとも２つのセグメントに対して、少なくとも２つのデータ・セグメントの各データ・セグメントに対応する、圧縮データ内の初期入力場所及び出力データ内の初期出力場所を示すメタデータを生成することを含む。たとえば、メタデータ生成器１１０は、圧縮データ１０６の各ブロックの内容部分のセグメントのうちのいくつか又はすべてのための初期入力場所、初期出力場所、及び／又はコピー索引を識別するために、セグメントに対応するメタデータ１１２を生成してよい。

方法３００は、ブロックＢ３０８において、圧縮データ及びメタデータを展開器に送ることを含む。たとえば、圧縮データ１０６及びメタデータ１１２は、少なくとも部分的に並列に圧縮データ１０６を展開するために、展開器１１４によって使用されてよい。

次に図４を参照すると、図４は、本開示のいくつかの実施例による、圧縮データ・ストリームを並列に展開するための方法４００に対応する流れ図を示す。方法４００は、ブロックＢ４０２において、圧縮データとそれに対応するメタデータを受け取ることを含む。たとえば、展開器１１４は、圧縮データ１０６及びメタデータ１１２を受け取ってよい。

方法４００は、ブロックＢ４０４において、メタデータに基づいて、圧縮データに対応する初期入力場所及び初期出力場所を決定することを含む。たとえば、メタデータ１１２は、圧縮データ１０６の各ブロックに対応する圧縮データ１０６内の初期入力場所及び出力データ・ストリーム内の初期出力場所を示してよい。

方法４００は、ブロックＢ４０６において、初期入力場所及び初期出力場所に基づいて、圧縮データの辞書の２つ以上の辞書セグメントについての入力辞書場所及びシンボル索引を決定することを含む。たとえば、メタデータ１１２は、圧縮データ１０６に対応する辞書のセグメントについての初期入力場所及びシンボル索引を示してよい。

方法４００は、ブロックＢ４０８において、入力辞書場所に基づいて少なくとも部分的に並列に辞書を展開することを含む。たとえば、メタデータ１１２は、辞書のセグメントを示してよく、この情報は、ＧＰＵのスレッドを使用して辞書の各セグメントを並列に処理するために展開器１１４によって使用されてよい。

方法４００は、ブロックＢ４１０において、初期入力場所及び初期出力場所に基づいて、圧縮データの複数のセグメントのうちの少なくとも２つのセグメントについての入力セグメント場所、出力セグメント場所、及びコピー索引値を決定することを含む。たとえば、展開器１１４は、メタデータ１１２を使用して、圧縮データ１０６内の初期入力場所、出力ストリーム内の初期出力場所、及びブロック又はデータ部分内の各セグメントの圧縮データ１０６のためのコピー索引（たとえば、現在のセグメントの前のセグメント内のコピーの数）を決定してよい。

方法４００は、ブロックＢ４１２において、展開された出力を生成するために入力セグメント場所及び出力セグメント場所に従って少なくとも２つのセグメントを並列に展開することを含む。たとえば、展開器１１４は、メタデータ１１２及び辞書を使用して、圧縮データ１０６からデータ１０２を生成することがある。したがって、データ１０２が回復されると、データ１０２は、１つ又は複数の演算を実施するために受け取り側で使用され得る。たとえば、データ１０２が圧縮され、並列処理のためにＣＰＵからＧＰＵに渡された場合、データは、次いで、ＣＰＵに戻されることがある。データ１０２がテキスト、メッセージ、又は電子メールに対応する場合、データは、デバイス－たとえば、ユーザ・デバイス又はクライアント・デバイス－上に表示され得る。データ１０２がビデオ、オーディオ、画像などに対応する場合、データは、ディスプレイ、スピーカ、ヘッドセット、イヤホンなどを使用して出力され得る。データ１０２がウェブ・サイトに対応する場合、そのウェブ・サイトは、受け取りデバイス－たとえば、ユーザ・デバイス又はクライアント・デバイス－上のブラウザ内に表示され得る。したがって、展開データは、さまざまな手段のいずれかにおいて使用されてよく、並列展開により、従来の手法と比較して少ないメモリ・リソースを使用しながら、より早く利用可能になり得る。

例示的なコンピューティング・デバイス
図５は、本開示のいくつかの実施例を実装することにおける使用に適した例示的なコンピューティング・デバイス５００のブロック図である。コンピューティング・デバイス５００は、以下のデバイスすなわち、メモリ５０４、１つ又は複数の中央処理装置（ＣＰＵ）５０６、１つ又は複数のグラフィックス処理ユニット（ＧＰＵ）５０８、通信インターフェース５１０、入出力（Ｉ／Ｏ）ポート５１２、入出力構成要素５１４、電源５１６、１つ又は複数のプレゼンテーション構成要素５１８（たとえば、ディスプレイ）、及び１つ又は複数の論理ユニット５２０を直接的又は間接的に結合する相互接続システム５０２を含んでよい。少なくとも１つの実施例では、コンピューティング・デバイス５００は、１つ又は複数の仮想機械（ＶＭ：ｖｉｒｔｕａｌｍａｃｈｉｎｅ）を備えてよく、及び／又はその構成要素のいずれも、仮想構成要素（たとえば、仮想ハードウェア構成要素）を備えてよい。非限定的な例として、ＧＰＵ５０８のうちの１つ若しくは複数は１つ若しくは複数のｖＧＰＵを含んでよく、ＣＰＵ５０６のうちの１つ若しくは複数は１つ若しくは複数のｖＣＰＵを含んでよく、及び／又は論理ユニット５２０のうちの１つ若しくは複数は１つ若しくは複数の仮想論理ユニットを含んでよい。したがって、コンピューティング・デバイス５００は、個別の構成要素（たとえば、コンピューティング・デバイス５００専用のフルＧＰＵ）を含んでもよいし、仮想構成要素（たとえば、コンピューティング・デバイス５００に専用のＧＰＵの一部分）を含んでもよいし、それらの組み合わせを含んでもよい。

図５のさまざまなブロックは、相互接続システム５０２を介してラインと接続されると示されているが、これは、限定することを意図したものではなく、明快さのためにすぎない。たとえば、いくつかの実施例では、ディスプレイ・デバイスなどのプレゼンテーション構成要素５１８は、Ｉ／Ｏ構成要素５１４と考えられることがある（たとえば、ディスプレイがタッチ・スクリーンである場合）。別の例として、ＣＰＵ５０６及び／又はＧＰＵ５０８は、メモリを含んでよい（たとえば、メモリ５０４は、ＧＰＵ５０８、ＣＰＵ５０６、及び／又は他の構成要素のメモリに加えて、記憶デバイスを表してよい）。言い換えれば、図５のコンピューティング・デバイスは、例示的にすぎない。「ワークステーション」、「サーバ」、「ラップトップ」、「デスクトップ」、「タブレット」、「クライアント・デバイス」、「モバイル・デバイス」、「ハンドヘルド・デバイス」、「ゲーム・コンソール」、「電子制御ユニット（ＥＣＵ）」、「仮想現実システム」、及び／又は他のデバイス若しくはシステム・タイプなどのカテゴリは、すべてが図５のコンピューティング・デバイスの範囲内にあると企図されているので、それらの間に区別はなされない。

相互接続システム５０２は、１つ若しくは複数のリンク、又はアドレス・バス、データ・バス、制御バス、若しくはそれらの組み合わせなどの１つ若しくは複数のバスを表すことがある。相互接続システム５０２は、業界標準アーキテクチャ（ＩＳＡ：ｉｎｄｕｓｔｒｙｓｔａｎｄａｒｄａｒｃｈｉｔｅｃｔｕｒｅ）バス、拡張業界標準アーキテクチャ（ＥＩＳＡ：ｅｘｔｅｎｄｅｄｉｎｄｕｓｔｒｙｓｔａｎｄａｒｄａｒｃｈｉｔｅｃｔｕｒｅ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（ＶＥＳＡ：ｖｉｄｅｏｅｌｅｃｔｒｏｎｉｃｓｓｔａｎｄａｒｄｓａｓｓｏｃｉａｔｉｏｎ）バス、周辺構成要素相互接続（ＰＣＩ：ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔ）バス、周辺構成要素相互接続エクスプレス（ＰＣＩｅ：ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔｅｘｐｒｅｓｓ）バス、及び／又は別のタイプのバス若しくはリンクなどの１つ又は複数のバス又はリンク・タイプを含んでよい。いくつかの実施例では、構成要素間に直接的な接続がある。１つの実例として、ＣＰＵ５０６は、メモリ５０４に直接的に接続されることがある。さらに、ＣＰＵ５０６は、ＧＰＵ５０８に直接的に接続されてよい。構成要素間に直接的な接続又はポイント・ツー・ポイント接続がある場合、相互接続システム５０２は、接続を行うＰＣＩｅリンクを含んでよい。これらの実例では、ＰＣＩバスは、コンピューティング・デバイス５００に含まれる必要はない。

メモリ５０４は、さまざまなコンピュータ可読媒体のいずれかを含んでよい。コンピュータ可読媒体は、コンピューティング・デバイス５００によってアクセスされ得る任意の利用可能な媒体であってよい。コンピュータ可読媒体は、揮発性媒体と不揮発性媒体、及びリムーバブル・メディアとノンリムーバブル・メディアの両方を含んでよい。限定ではなく、例として、コンピュータ可読媒体は、コンピュータ記憶媒体及び通信媒体を含んでよい。

コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラム・モジュール、及び／又は他のデータ・タイプなどの情報の記憶のための任意の方法又は技術において実装される揮発性媒体と不揮発性媒体及び／又はリムーバブル・メディアとノンリムーバブル・メディアの両方を含んでよい。たとえば、メモリ５０４は、コンピュータ可読命令を記憶してよい（たとえば、オペレーティング・システムなどの、プログラム及び／又はプログラム要素を表す。コンピュータ記憶媒体は、限定するものではないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュ・メモリ若しくは他のメモリ技術、ＣＤ－ＲＯＭ、ディジタル多用途ディスク（ＤＶＤ：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）若しくは他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶若しくは他の磁気記憶デバイス、又は所望の情報を記憶するために使用されてよく、コンピューティング・デバイス５００によってアクセスされ得る他の任意の媒体を含んでよい。本明細書で使用されるとき、コンピュータ記憶媒体は、信号自体は含まない。

コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラム・モジュール、及び／又は搬送波若しくは他の移送機構などの変調されたデータ信号などの内の他のデータ・タイプを具現化し、任意の情報配信媒体を含んでよい。「変調されたデータ信号」という用語は、信号内の情報を符号化するように設定又は変更されたその特性のうちの１つ又は複数を有する信号を指すことがある。限定ではなく、例として、コンピュータ記憶媒体は、ワイヤード・ネットワーク又は直接ワイヤード接続などのワイヤード・メディア、並びに音響、ＲＦ、赤外線、及び他のワイヤレス・メディアなどのワイヤレス・メディアを含んでよい。上記のいずれかの組み合わせも、コンピュータ可読媒体の範囲内に含まれるべきである。

ＣＰＵ５０６は、本明細書において説明される方法及び／又はプロセスのうちの１つ又は複数を実施するようにコンピューティング・デバイス５００の１つ又は複数の構成要素を制御するためにコンピュータ可読命令のうちの少なくともいくつかを実行するように構成されてよい。ＣＰＵ５０６は各々、多数のソフトウェア・スレッドを同時に扱うことが可能である１つ又は複数のコア（たとえば、１、２、４、８、２８、７２個など）を含んでよい。ＣＰＵ５０６は、任意のタイプのプロセッサを含んでよく、実装されるコンピューティング・デバイス５００のタイプに応じて、異なるタイプのプロセッサ（たとえば、モバイル・デバイスに対してはより少ないコアをもつプロセッサと、サーバに対してはより多いコアをもつプロセッサ）を含んでよい。たとえば、コンピューティング・デバイス５００のタイプに応じて、プロセッサは、縮小命令セット・コンピュータ（ＲＩＳＣ：ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｉｎｇ）を使用して実装された進化したＲＩＳＣマシン（ＡＲＭ：ＡｄｖａｎｃｅｄＲＩＳＣＭａｃｈｉｎｅｓ）プロセッサであってもよいし、複合命令セット・コンピュータ（ＣＩＳＣ：ＣｏｍｐｌｅｘＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｉｎｇ）を使用して実装されたｘ８６プロセッサであってもよい。コンピューティング・デバイス５００は、１つ又は複数のマイクロプロセッサ若しくは数値計算コプロセッサなどの補助コプロセッサに加えて、１つ又は複数のＣＰＵ５０６を含んでよい。

ＣＰＵ５０６に加えて、又はこれと代替的に、ＧＰＵ５０８は、本明細書において説明される方法及び／又はプロセスのうちの１つ又は複数を実施するようにコンピューティング・デバイス５００の１つ又は複数の構成要素を制御するためにコンピュータ可読命令のうちの少なくともいくつかを実行するように構成されてよい。ＧＰＵ５０８のうちの１つ又は複数は、内蔵ＧＰＵであってよい（たとえば、ＣＰＵ５０６のうちの１つ若しくは複数をもつ、及び／又はＧＰＵ５０８のうちの１つ若しくは複数は、ディスクリートＧＰＵであってよい。実施例では、ＧＰＵ５０８のうちの１つ又は複数は、ＣＰＵ５０６のうちの１つ又は複数のコプロセッサであってよい。ＧＰＵ５０８は、グラフィックス（たとえば、３Ｄグラフィックス）をレンダリングする又は汎用算出を実施するためにコンピューティング・デバイス５００によって使用されてよい。たとえば、ＧＰＵ５０８は、ＧＰＵ上での汎用コンピューティング（ＧＰＧＰＵ：Ｇｅｎｅｒａｌ－ＰｕｒｐｏｓｅｃｏｍｐｕｔｉｎｇｏｎＧＰＵ）のために使用されることがある。ＧＰＵ５０８は、数百又は数千のソフトウェア・スレッドを同時に扱うことが可能である数百又は数千のコアを含んでよい。ＧＰＵ５０８は、レンダリング・コマンド（たとえば、ホスト・インターフェースを介して受け取られたＣＰＵ５０６からのレンダリング・コマンド）に応答して画像を出力するためにピクセル・データを生成し得る。ＧＰＵ５０８は、ピクセル・データ又はＧＰＧＰＵデータなどの他の任意の適切なデータを記憶するための、表示メモリなどのグラフィックス・メモリを含んでよい。表示メモリは、メモリ５０４の一部として含まれてよい。ＧＰＵ５０８は、並列に（たとえば、リンクを介して）動作する２つ以上のＧＰＵを含んでよい。リンクは、（たとえば、ＮＶＬＩＮＫを使用して）ＧＰＵを直接的に接続してもよいし、スイッチを通じて（たとえば、ＮＶＳｗｉｔｃｈを使用して）ＧＰＵを接続してもよい。互いに結合されたとき、各ＧＰＵ５０８は、出力の異なる部分のため又は異なる出力のためにピクセル・データ又はＧＰＧＰＵデータを生成してよい（たとえば、第１の画像のための第１のＧＰＵ及び第２の画像のための第２のＧＰＵ）。各ＧＰＵは、それ自体のメモリを含んでもよいし、メモリを他のＧＰＵと共有してもよい。

ＣＰＵ５０６及び／又はＧＰＵ５０８に加えて、又はこれらと代替的に、論理ユニット５２０は、本明細書において説明される方法及び／又はプロセスのうちの１つ又は複数を実施するようにコンピューティング・デバイス５００の１つ又は複数の構成要素を制御するためにコンピュータ可読命令のうちの少なくともいくつかを実行するように構成されてよい。実施例では、ＣＰＵ５０６、ＧＰＵ５０８、及び／又は論理ユニット５２０は、方法、プロセス、及び／又はその部分の任意の組み合わせを別々に実施してもよいし、共同で実施してよい。論理ユニット５２０のうちの１つ若しくは複数は、ＣＰＵ５０６及び／若しくはＧＰＵ５０８のうちの１つ又は複数の一部であってもよいし、及び／若しくはそれらに内蔵されてもよく、並びに／又は論理ユニット５２０のうちの１つ若しくは複数は、別個の構成要素であってもよいし、ＣＰＵ５０６及び／若しくはＧＰＵ５０８の外部にあってもよい。実施例では、論理ユニット５２０のうちの１つ又は複数は、ＣＰＵ５０６のうちの１つ若しくは複数及び／又はＧＰＵ５０８のうちの１つ又は複数のコプロセッサであってよい。

論理ユニット５２０の例としては、テンソル・コア（ＴＣ：ＴｅｎｓｏｒＣｏｒｅ）、テンソル・プロセッシング・ユニット（ＴＰＵ：ＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ピクセル・ビジュアル・コア（ＰＶＣ：ＰｉｘｅｌＶｉｓｕａｌＣｏｒｅ）、ビジョン・プロセッシングユニット（ＶＰＵ：ＶｉｓｉｏｎＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、グラフィックス・プロセッシング・クラスタ（ＧＰＣ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒ）、テクスチャ・プロセッシング・クラスタ（ＴＰＣ：ＴｅｘｔｕｒｅＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒ）、ストリーミング・マルチプロセッサ（ＳＭ：ＳｔｒｅａｍｉｎｇＭｕｌｔｉｐｒｏｃｅｓｓｏｒ）、ツリー・トラバーサル・ユニット（ＴＴＵ：ＴｒｅｅＴｒａｖｅｒｓａｌＵｎｉｔ）、人工知能アクセラレータ（ＡＩＡ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＡｃｃｅｌｅｒａｔｏｒ）、ディープ・ラーニング・アクセラレータ（ＤＬＡ：ＤｅｅｐＬｅａｒｎｉｎｇＡｃｃｅｌｅｒａｔｏｒ）、算術論理ユニット（ＡＬＵ：Ａｒｉｔｈｍｅｔｉｃ－ＬｏｇｉｃＵｎｉｔ）、特定用途向け集積回路（ＡＳＩＣ：Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、浮動小数点ユニット（ＦＰＵ：ＦｌｏａｔｉｎｇＰｏｉｎｔＵｎｉｔ）、入出力（Ｉ／Ｏ）要素、周辺構成要素相互接続（ＰＣＩ）要素、又は周辺構成要素相互接続エクスプレス（ＰＣＩｅ）要素などの、１つ又は複数の処理コア及び／又はその構成要素がある。

通信インターフェース５１０は、ワイヤード通信及び／又はワイヤレス通信を含む、コンピューティング・デバイス５００が電子通信ネットワークを介して他のコンピューティング・デバイスと通信することを可能にする、１つ又は複数の受信器、送信器、及び／又はトランシーバを含んでよい。通信インターフェース５１０は、ワイヤレス・ネットワーク（たとえば、Ｗｉ－Ｆｉ、Ｚ－Ｗａｖｅ、ブルートゥース(登録商標）、ブルートゥース(登録商標）ＬＥ、ＺｉｇＢｅｅなど）、ワイヤード・ネットワーク（たとえば、イーサネット（登録商標）又はＩｎｆｉｎｉＢａｎｄ上での通信）、低電力ワイド・エリア・ネットワーク（たとえば、ＬｏＲａＷＡＮ、ＳｉｇＦｏｘなど）、及び／又はインターネットなどの、いくつかの異なるネットワークのいずれかの上での通信を可能にする構成要素及び機能を含んでよい。

Ｉ／Ｏポート５１２は、そのうちのいくつかはコンピューティング・デバイス５００に組み込まれ（たとえば、これに内蔵され）得る、Ｉ／Ｏ構成要素５１４、プレゼンテーション構成要素５１８、及び／又は他の構成要素を含む他のデバイスに、コンピューティング・デバイス５００が論理的に結合されることを可能にし得る。例示的なＩ／Ｏ構成要素５１４としては、マイクロホン、マウス、キーボード、ジョイスティック、ゲーム・パッド、ゲーム・コントローラ、衛星放送受信用パラボラアンテナ、スキャナ、プリンタ、ワイヤレスデバイスなどがある。Ｉ／Ｏ構成要素５１４は、エア・ジェスチャ、声、又はユーザによって生成された他の生理的入力を処理するナチュラル・ユーザ・インターフェース（ＮＵＩ：ｎａｔｕｒａｌｕｓｅｒｉｎｔｅｒｆａｃｅ）を提供し得る。いくつかの例では、入力は、さらなる処理のために、適切なネットワーク要素に送られてよい。ＮＵＩは、音声認識、スタイラス認識、顔認識、バイオメトリック認識、画面上と画面に隣接しての両方でのジェスチャ認識、エア・ジェスチャ、頭部及び視線の追跡、並びにコンピューティング・デバイス５００のディスプレイと関連づけられたタッチ認識（以下でより詳細に説明される）の任意の組み合わせを実装してよい。コンピューティング・デバイス５００は、ジェスチャ検出及び認識のために、ステレオ・カメラ・システム、赤外線カメラ・システム、ＲＧＢカメラ・システム、タッチ・スクリーン技術、及びこれらの組み合わせなどの深度カメラを含んでよい。追加的に、コンピューティング・デバイス５００は、動きの検出を可能にする加速度計又はジャイロスコープを（たとえば、慣性測定ユニット（ＩＭＵ：ｉｎｅｒｔｉａｍｅａｓｕｒｅｍｅｎｔｕｎｉｔ）の一部として）含んでよい。いくつかの実例では、加速度計又はジャイロスコープの出力は、没入型の拡張現実又は仮想現実をレンダリングするために、コンピューティング・デバイス５００によって使用されてよい。

電源５１６は、ハード・ワイヤード電源、バッテリ電源、又はそれらの組み合わせを含んでよい。電源５１６は、コンピューティング・デバイス５００の構成要素が動作することを可能にするために、電力をコンピューティング・デバイス５００に提供し得る。

プレゼンテーション構成要素５１８は、ディスプレイ（たとえば、モニタ、タッチ・スクリーン、テレビ画面、ヘッド・アップ・ディスプレイ（ＨＵＤ：ｈｅａｄｓ－ｕｐ－ｄｉｓｐｌａｙ）、他のディスプレイ・タイプ、又はそれらの組み合わせ）、スピーカ、及び／又は他のプレゼンテーション構成要素を含んでよい。プレゼンテーション構成要素５１８は、他の構成要素（たとえば、ＧＰＵ５０８、ＣＰＵ５０６など）からデータを受け取り、そのデータを（たとえば、画像、ビデオ、音などとして）出力してよい。

例示的なデータ・センタ

図６は、本開示の少なくとも１つの実施例において使用され得る例示的なデータ・センタ６００を示す。データ・センタ６００は、データ・センタ・インフラストラクチャ層６１０、フレームワーク層６２０、ソフトウェア層６３０、及び／又はアプリケーション層６４０を含んでよい。

図６に示されるように、データ・センタ・インフラストラクチャ層６１０は、リソース・オーケストレータ６１２と、グループ化されたコンピューティング・リソース６１４と、ノード・コンピューティング・リソース（「ノードＣ．Ｒ」）６１６（１）～６１６（Ｎ）とを含んでよく、ここで、「Ｎ」は任意の正の整数を表す。少なくとも１つの実施例では、ノードＣ．Ｒ．６１６（１）～６１６（Ｎ）は、限定するものではないが、任意の数の中央処理ユニット（「ＣＰＵ」）若しくは他のプロセッサ（アクセラレータ、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ：ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、グラフィック・プロセッサ、又はグラフィックス処理ユニット（ＧＰＵ）などを含む）、メモリ・デバイス（たとえば、ダイナミック読み出し専用メモリ）、記憶デバイス（たとえば、ソリッド・ステート・ドライブ又はディスク・ドライブ）、ネットワーク入出力（「ＮＷＩ／Ｏ：ｎｅｔｗｏｒｋｉｎｐｕｔ／ｏｕｔｐｕｔ」）デバイス、ネットワーク・スイッチ、仮想機械（「ＶＭ」）、電力モジュール、及び／又は冷却モジュールなどを含んでよい。いくつかの実施例では、ノードＣ．Ｒ．６１６（１）～６１６（Ｎ）からの１つ又は複数のノードＣ．Ｒ．は、上述のコンピューティング・リソースのうちの１つ又は複数を有するサーバに対応することがある。さらに、いくつかの実施例では、ノードＣ．Ｒ．６１６（１）～６１６１（Ｎ）は、ｖＧＰＵ、ｖＣＰＵなどの、１つ又は複数の仮想構成要素を含んでよい、及び／又はノードＣ．Ｒ．６１６（１）～６１６（Ｎ）のうちの１つ又は複数は、仮想機械（ＶＭ）に対応してよい。

少なくとも１つの実施例では、グループ化されたコンピューティング・リソース６１４は、１つ若しくは複数のラック（図示せず）又はさまざまな地理的な場所においてデータ・センタに収容された多くのラック（これも図示せず）に収容されたノードＣ．Ｒ．６１６の別個のグループ化を含んでよい。グループ化されたコンピューティング・リソース６１４内のノードＣ．Ｒ．６１６の別個のグループ化は、１つ又は複数の作業負荷をサポートするように構成又は割り当てられてよいグループ化されたコンピュート（ｃｏｍｐｕｔｅ）、ネットワーク、メモリ、又は記憶リソースを含んでよい。少なくとも１つの実施例では、ＣＰＵ、ＧＰＵ、及び／又は他のプロセッサを含むいくつかのノードＣ．Ｒ．６１６は、１つ又は複数の作業負荷をサポートするようにコンピュート・リソースを提供するために１つ又は複数のラック内でグループ化されてよい。１つ又は複数のラックは、任意の数の電力モジュール、冷却モジュール、及び／又はネットワーク・スイッチも任意の組み合わせで含んでよい。

リソース・オーケストレータ６２２は、１つ若しくは複数のノードＣ．Ｒ．６１６（１）～６１６（Ｎ）及び／又はグループ化されたコンピューティング・リソース６１４を構成又は制御し得る。少なくとも１つの実施例では、リソース・オーケストレータ６２２は、データ・センタ６００のためのソフトウェア設計インフラストラクチャ（「ＳＤＩ：ｓｏｆｔｗａｒｅｄｅｓｉｇｎｉｎｆｒａｓｔｒｕｃｔｕｒｅ」）管理エンティティを含んでよい。リソース・オーケストレータ６２２は、ハードウェア、ソフトウェア、又はそれらの何らかの組み合わせを含んでよい。

少なくとも１つの実施例では、図６に示されるように、フレームワーク層６２０は、ジョブ・スケジューラ６３２、構成マネージャ６３４、リソース・マネージャ６３６、及び／又は分散ファイル・システム６３８を含んでよい。フレームワーク層６２０は、ソフトウェア層６３０のソフトウェア６３２及び／又はアプリケーション層６４０の１つ若しくは複数のアプリケーション６４２をサポートするフレームワークを含んでよい。ソフトウェア６３２又はアプリケーション６４２はそれぞれ、ＡｍａｚｏｎＷｅｂＳｅｒｖｉｃｅｓ、ＧｏｏｇｌｅＣｌｏｕｄ、及びＭｉｃｒｏｓｏｆｔＡｚｕｒｅによって提供されるサービス・ソフトウェア又はアプリケーションなどの、ウェブ・ベースのサービス・ソフトウェア又はアプリケーションを含んでよい。フレームワーク層６２０は、限定するものではないが、大規模データ処理（たとえば、「ビッグ・データ」）に分散ファイル・システム６３８を利用することがある、ＡｐａｃｈｅＳｐａｒｋ（商標）（以下では「Ｓｐａｒｋ」）などの、一種の無料オープン・ソース・ソフトウェア・ウェブ・アプリケーション・フレームワークであってよい。少なくとも１つの実施例では、ジョブ・スケジューラ６３２は、データ・センタ６００のさまざまな層によってサポートされる作業負荷のスケジューリングを容易にするＳｐａｒｋドライバを含んでよい。構成マネージャ６３４は、大規模データ処理をサポートするために、ソフトウェア層６３０及びＳｐａｒｋを含むフレームワーク層６２０及び分散ファイル・システム６３８などの異なる層を構成することが可能であってよい。リソース・マネージャ６３６は、分散ファイル・システム６３８及びジョブ・スケジューラ６３２にマップされた又はそのサポートのために割り振られた、クラスタ化又はグループ化されたコンピューティング・リソースを管理することが可能であってよい。少なくとも１つの実施例では、クラスタ化又はグループ化されたコンピューティング・リソースは、グループ化されたコンピューティング・リソース６１４をデータ・センタ・インフラストラクチャ層６１０において含んでよい。リソース・マネージャ１０３６は、これらのマップされた又は割り振られたコンピューティング・リソースを管理するために、リソース・オーケストレータ６１２と協調してよい。

少なくとも１つの実施例では、ソフトウェア層６３０に含まれるソフトウェア６３２は、ノードＣ．Ｒ．６１６（１）～６１６（Ｎ）、グループ化されたコンピューティング・リソース６１４、及び／又はフレームワーク層６２０の分散ファイル・システム６３８の少なくとも部分によって使用されるソフトウェアを含んでよい。１つ又は複数のタイプのソフトウェアとしては、限定するものではないが、インターネット・ウェブ・ページ検索ソフトウェア、電子メール・ウイルス・スキャン・ソフトウェア、データベース・ソフトウェア、及びストリーミング・ビデオ・コンテンツ・ソフトウェアがあり得る。

少なくとも１つの実施例では、アプリケーション層６４０に含まれるアプリケーション６４２は、ノードＣ．Ｒ．６１６（１）－６１６（Ｎ）、グループ化されたコンピューティング・リソース６１４、及び／又はフレームワーク層６２０の分散ファイル・システム６３８の少なくとも部分によって使用される１つ又は複数のタイプのアプリケーションを含んでよい。１つ又は複数のタイプのアプリケーションとしては、限定するものではないが、任意の数のゲノミクス・アプリケーション、コグニティブ・コンピュート、並びに訓練ソフトウェア若しくは推論ソフトウェア、機械学習フレームワーク・ソフトウェア（たとえば、ＰｙＴｏｒｃｈ、ＴｅｎｓｏｒＦｌｏｗ、Ｃａｆｆｅなど）、及び／又は１つ若しくは複数の実施例に関連して使用される他の機械学習アプリケーションを含む、機械学習アプリケーションがあり得る。

少なくとも１つの実施例では、構成マネージャ６３４、リソース・マネージャ６３６、及びリソース・オーケストレータ６１２のいずれかは、任意の技術的に実現可能な様式で獲得される任意の量及びタイプのデータに基づいて、任意の数及びタイプの自己修正アクションを実装してよい。自己修正アクションは、データ・センタ６００のデータ・センタ・オペレータを、おそらく良くない構成判断を行うことから救い、十分に活用されていない及び／又は不良なデータ・センタの実施部分をおそらく回避し得る。

データ・センタ６００は、本明細書において説明される１つ又は複数の実施例により１つ又は複数の機械学習モデルを使用して１つ又は複数の機械学習モデルを訓練する又は情報を予測若しくは推測するツール、サービス、ソフトウェア、又は他のリソースを含んでよい。たとえば、機械学習モデルは、上記でデータ・センタ６００に関して説明されたソフトウェア及び／又はコンピューティング・リソースを使用してニューラル・ネットワーク・アーキテクチャによる重みパラメータを計算することによって訓練されることがある。少なくとも１つの実施例では、１つ又は複数のニューラル・ネットワークに対応する訓練された又は導入された機械学習モデルは、限定するものではないが本明細書において説明される訓練技法などの１つ又は複数の訓練技法を通じて計算された重みパラメータを使用することによって、上記でデータ・センタ６００に関して説明されたリソースを使用して情報を推論又は予測するために使用されることがある。

少なくとも１つの実施例では、データ・センタ６００は、ＣＰＵ、特定用途向け集積回路（ＡＳＩＣ）、ＧＰＵ、ＦＰＧＡ、及び／又は他のハードウェア（又はそれに対応する仮想コンピュート・リソース）を使用して、上記で説明されたリソースを使用した訓練及び／又は推論を実施してよい。さらに、上記で説明された１つ又は複数のソフトウェア・リソース及び／又はハードウェア・リソースは、画像認識サービス、音声認識サービス、又は他の人工知能サービスなどの、ユーザが情報の推論を訓練又は実施することを可能にするサービスとして構成されてよい。

例示的なネットワーク環境
本開示の実施例を実装することにおける使用に適したネットワーク環境は、１つ又は複数のクライアント・デバイス、サーバ、ネットワーク・アタッチド・ストレージ（ＮＡＳ：ｎｅｔｗｏｒｋａｔｔａｃｈｅｄｓｔｏｒａｇｅ）、他のバックエンド・デバイス、及び／又は他のデバイス・タイプを含んでよい。クライアント・デバイス、サーバ、及び／又は他のデバイス・タイプ（たとえば、各デバイス）は、図５のコンピューティング・デバイス５００の１つ又は複数のインスタンス上で実装されてよい－たとえば、各デバイスは、コンピューティング・デバイス５００の類似の構成要素、特徴、及び／又は機能を含んでよい。さらに、バックエンド・デバイス（たとえば、サーバ、ＮＡＳなど）が実装される場合、バックエンド・デバイスは、データ・センタ６００の一部として含まれてよく、その実例は、本明細書では図６を参照してより詳細に説明される。

ネットワーク環境の構成要素は、ネットワークを介して互いにと通信してよく、ネットワークは、ワイヤードであってもよいし、ワイヤレスであってもよいし、両方であってもよい。ネットワークは、複数のネットワークを含んでもよいし、ネットワークのネットワークを含んでもよい。例として、ネットワークは、１つ若しくは複数のワイド・エリア・ネットワーク（ＷＡＮ：ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、１つ若しくは複数のローカル・エリア・ネットワーク（ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネット及び／若しくは公衆交換電話網（ＰＳＴＮ：ｐｕｂｌｉｃｓｗｉｔｃｈｅｄｔｅｌｅｐｈｏｎｅｎｅｔｗｏｒｋ）などの１つ若しくは複数のパブリック・ネットワーク、及び／又は１つ又は複数のプライベート・ネットワークを含んでよい。ネットワークがワイヤレス電気通信ネットワークを含む場合、基地局、通信塔、又はアクセス・ポイントすら（並びに他の構成要素）などの構成要素は、ワイヤレス接続性を提供し得る。

互換性のあるネットワーク環境としては、１つ又は複数のピア・ツー・ピア・ネットワーク環境－その場合、サーバがネットワーク環境に含まれないことがある－及び１つ又は複数のクライアント－サーバ・ネットワーク環境－その場合、１つ又は複数のサーバがネットワーク環境に含まれることがある－があり得る。ピア・ツー・ピア・ネットワーク環境では、本明細書においてサーバに関して説明される機能は、任意の数のクライアント・デバイス上で実装されてよい。

少なくとも１つの実施例では、ネットワーク環境は、１つ又は複数のクラウド・ベース・ネットワーク環境、分散コンピューティング環境、それらの組み合わせなどを含んでよい。クラウド・ベース・ネットワーク環境は、サーバのうちの１つ又は複数の上で実装される、フレームワーク層と、ジョブ・スケジューラと、リソース・マネージャと、分散ファイル・システムとを含んでよく、サーバは、１つ又は複数のコア・ネットワーク・サーバ及び／又はエッジ・サーバを含んでよい。フレームワーク層は、ソフトウェア層のソフトウェア及び／又はアプリケーション層の１つ若しくは複数のアプリケーションをサポートするフレームワークを含んでよい。ソフトウェア又はアプリケーションはそれぞれ、ウェブ・ベースのサービス・ソフトウェア又はアプリケーションを含んでよい。実施例では、クライアント・デバイスのうちの１つ又は複数は、（たとえば、１つ又は複数のアプリケーション・プログラミング・インターフェース（ＡＰＩ：ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍｍｉｎｇｉｎｔｅｒｆａｃｅ）を介してサービス・ソフトウェア及び／又はアプリケーションにアクセスすることによって）ウェブ・ベースのサービス・ソフトウェア又はアプリケーションを使用してよい。フレームワーク層は、限定するものではないが、大規模データ処理（たとえば、「ビッグ・データ」）に分散ファイル・システムを利用し得るものなどの、一種の無料オープン・ソース・ソフトウェア・ウェブ・アプリケーション・フレームワークであってよい。

クラウド・ベース・ネットワーク環境は、本明細書において説明されるコンピューティング及び／又はデータ記憶機能（又は、それらの１つ若しくは複数の部分）の任意の組み合わせを行うクラウド・コンピューティング及び／又はクラウド・ストレージを提供し得る。これらのさまざまな機能のいずれも、（たとえば、州、地域、国、地球などにわたって分散されてよい１つ又は複数のデータ・センタの）セントラル・サーバ又はコア・サーバからの複数の場所上に分散されてよい。ユーザ（たとえば、クライアント・デバイス）への接続がエッジ・サーバに比較的近い場合、コア・サーバは、機能の少なくとも一部分をエッジ・サーバに指定することがある。クラウド・ベース・ネットワーク環境は、プライベート（たとえば、単一の組織に限定される）、パブリック（たとえば、多数の組織にとって利用可能である）、及び／又はそれらの組み合わせ（たとえば、ハイブリッド・クラウド環境）であってよい。

クライアント・デバイスは、本明細書において図５を参照して説明される例示的なコンピューティング・デバイス５００の構成要素、特徴、及び機能のうちの少なくともいくつかを含んでよい。限定ではなく例として、クライアント・デバイスは、パーソナル・コンピュータ（ＰＣ：ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ラップトップ・コンピュータ、モバイル・デバイス、スマートフォン、タブレット・コンピュータ、スマート・ウォッチ、ウェアラブル・コンピュータ、携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＭＰ３プレーヤ、仮想現実ヘッドセット、全地球測位システム（ＧＰＳ：ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）若しくはデバイス、ビデオ・プレーヤ、ビデオ・カメラ、監視デバイス若しくはシステム、車両、ボート、飛行船（ｆｌｙｉｎｇｖｅｓｓｅｌ）、仮想機械、ドローン、ロボット、ハンドヘルド通信デバイス、病院デバイス、ゲーム・デバイス若しくはシステム、娯楽システム、車載コンピュータ・システム、組み込みシステム・コントローラ、遠隔制御装置、アプライアンス、消費者向け電子デバイス、ワークステーション、エッジ・デバイス、これらの叙述されたデバイスの任意の組み合わせ、又は他の任意の適切なデバイスとして具現化されてよい。

本開示は、プログラム・モジュールなどのコンピュータ実行可能令が、コンピュータ又は携帯情報端末若しくは他のハンドヘルド・デバイスなどの他の機械によって実行されていることを含めて、コンピュータ・コード又は機械使用可能命令の一般的な文脈で説明されてよい。一般に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含むプログラム・モジュールは、タスクを実施する又は特定の抽象データ型を実装するコードを指す。本開示は、ハンドヘルド・デバイス、消費者電子機器、汎用コンピュータ、より特殊なコンピューティング・デバイスなどを含むさまざまなシステム構成で実施されてよい。本開示は、通信ネットワークを通じてリンクされた遠隔処理デバイスによってタスクが実施される分散コンピューティング環境において実施されてもよい。

本明細書で使用されるとき、２つ以上の要素に関する「及び／又は」の記載は、１つの要素のみ、又は要素の組み合わせを意味すると解釈されるべきである。たとえば、「要素Ａ、要素Ｂ、及び／又は要素Ｃ」は、要素Ａのみ、要素Ｂのみ、要素Ｃのみ、要素Ａ及び要素Ｂ、要素Ａ及び要素Ｃ、要素Ｂ及び要素Ｃ、又は要素Ａ、要素Ｂ、及び要素Ｃを含んでよい。さらに、「要素Ａ又は要素Ｂのうちの少なくとも１つ」は、要素Ａのうちの少なくとも１つ、要素Ｂのうちの少なくとも１つ、又は要素Ａのうちの少なくとも１つ及び要素Ｂのうちの少なくとも１つを含んでよい。さらに、「要素Ａ及び要素Ｂのうちの少なくとも１つ」は、要素Ａのうちの少なくとも１つ、要素Ｂのうちの少なくとも１つ、又は要素Ａのうちの少なくとも１つ及び要素Ｂのうちの少なくとも１つを含んでよい。

本開示の主題は、法定要件を満たすように本明細書では特殊性とともに説明される。しかしながら、説明自体は、本開示の範囲を制限することを意図したものではない。むしろ、発明者は、特許請求される主題が、他の現在又は将来の技術とともに、本文書で説明されるものに類似した異なるステップ又はステップの組み合わせを含むように、他の手段でも具現化されてよいことを企図している。さらに、「ステップ」及び／又は「ブロック」という用語は、本明細書では、用いられる方法の異なる要素を暗示するために使用され得るが、これらの用語は、個々のステップの順序が明示的に説明されない限り、及び個々のステップの順序が明示的に説明されるときを除いて、本明細書において開示されるさまざまなステップ間でいかなる特定の順序をも暗示すると解釈されるべきでない。

Claims

圧縮データ及び前記圧縮データに対応するメタデータを受け取ることと、
前記メタデータに少なくとも一部は基づいて、前記圧縮データに対応する初期入力場所及び初期出力場所を決定することと、
前記初期入力場所及び前記初期出力場所に少なくとも一部は基づいて、前記圧縮データの複数のセグメントのうちの少なくとも２つのセグメントに対して入力セグメント場所及び出力セグメント場所を決定することと、
展開された出力を生成するために前記入力セグメント場所及び前記出力セグメント場所に従って前記少なくとも２つのセグメントを並列に展開することと
を含む方法。
前記メタデータに少なくとも一部は基づいて、前記圧縮データのブロックの辞書の各辞書セグメントについての入力辞書場所及びシンボル索引を決定することと、
前記辞書を展開することと
をさらに含み、
前記複数のセグメントを前記展開することが、前記辞書を使用して実行される、
請求項１に記載の方法。
前記辞書を前記展開することが、前記辞書の各辞書セグメントが、プロセッサのそれぞれのスレッドを使用して展開されるように並列に実行される、請求項２に記載の方法。
前記メタデータに少なくとも一部は基づいて、前記圧縮データの前記複数のセグメントの各セグメントについてのコピー索引値を決定することをさらに含む、請求項２に記載の方法。
前記圧縮データの複数のブロックのうちの少なくとも２つのブロックについて、前記初期入力場所が１つ又は複数のブロック入力場所を示し、前記初期出力場所が１つ又は複数のブロック出力場所を示し、前記複数のセグメントが前記複数のブロックのうちの単一のブロックに対応する、請求項２に記載の方法。
前記複数のブロックのうちの２つ以上のブロックが、２つ以上のプロセッサ・リソースを使用して並列に展開される、請求項５に記載の方法。
前記２つ以上のブロックの各ブロックが、グラフィックス処理ユニット（ＧＰＵ：ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）のそれぞれのワープを使用して処理される、請求項６に記載の方法。
前記少なくとも２つのセグメントを並列に前記展開することが、プロセッサの別個の処理スレッドを使用して各セグメントを並列に展開することを含む、請求項６に記載の方法。
前記少なくとも２つのセグメントを前記展開することが、前記圧縮データからの１つ又は複数のリテラルを出力データに出力するため、１つ又は複数のコピー演算のために前記出力データ内のスペースを予約するため、及びコピー情報をデータ構造に記憶するために、前記複数のセグメントに対するパスを実行することを含む、請求項２に記載の方法。
前記少なくとも２つのセグメントを前記展開することが、前記１つ又は複数のコピー演算を実行し、前記１つ又は複数のコピー演算に対応するシンボルを出力ストリームに出力するために、前記１つ又は複数のコピー演算に対する別のパスを実行することを含む、請求項９に記載の方法。
前記１つ又は複数のコピー演算のうちの少なくとも１つのコピー演算が、前記１つ又は複数のコピー演算のうちの１つ又は複数の他のコピー演算と並列に実行される、請求項１０に記載の方法。
コピー演算の第１のシンボルが、前記コピー演算の第２のシンボルと並列に前記出力にコピーされる、請求項１０に記載の方法。
前記圧縮データが、前記圧縮データ内のシンボルを符号化するための可変長のビット、又は前記圧縮データ内で符号化された１つ若しくは複数のコピー演算のための可変出力サイズ、のうちの少なくとも１つを含む、請求項１に記載の方法。
前記圧縮データが、辞書符号化又はエントロピー符号化のうちの少なくとも１つを使用して符号化されたデータに対応する、請求項１に記載の方法。
圧縮データの複数のセグメント間の区切りを決定するために前記圧縮データを解析することと、
前記区切りに少なくとも一部は基づいて、前記複数のセグメントのうちの少なくとも２つのセグメントに対して、前記少なくとも２つのデータ・セグメントのうちの各データ・セグメントに対応する前記圧縮データ内の初期入力場所及び出力データ内の初期出力場所を示すメタデータを生成することと、
前記圧縮データ及び前記メタデータを展開器に送ることと
を含む方法。
前記メタデータが、前記少なくとも２つのデータ・セグメントに対応するコピー索引をさらに示す、請求項１５に記載の方法。
前記分析することに少なくとも一部は基づいて、前記圧縮データに対応する辞書の辞書セグメント間の追加の区切りを決定することと、
前記圧縮データ内の前記辞書の各辞書セグメントの少なくとももう１つの初期入力場所を示す追加メタデータを生成することと
をさらに含み、
前記送ることが、前記追加メタデータを送ることをさらに含む、
請求項１５に記載の方法。
前記解析することに少なくとも一部は基づいて、前記圧縮データの追加セグメント間の追加の区切りを決定することと、
前記圧縮データの各追加セグメントの別の初期入力場所を示す追加メタデータを生成することと
をさらに含み、
前記送ることが、前記追加メタデータを送ることをさらに含む、
請求項１５に記載の方法。
前記圧縮データがＤＥＦＬＡＴＥ圧縮形式に従って圧縮され、前記方法が、
前記解析することに少なくとも一部は基づいて、前記圧縮データ内の追加の区切りを決定することと、
前記追加の区切りに対応する別の初期入力場所を示す追加メタデータを生成することと
をさらに含み、
前記送ることが、前記追加メタデータを送ることをさらに含む、
請求項１５に記載の方法。
前記圧縮データが、可変入力長又は可変出力長のうちの少なくとも１つを有するデータ・ストリームに対応する、請求項１５に記載の方法。
前記圧縮データが、レンベル－ジヴ・アルゴリズム又はハフマン符号化のうちの少なくとも１つに従って圧縮される、請求項１５に記載の方法。
前記圧縮データが、算術符号化又はエントロピー符号化のうちの少なくとも１つを使用して圧縮される、請求項１５に記載の方法。
前記圧縮データが、前記圧縮データ内のシンボルを符号化するための可変長のビット、又は前記圧縮データ内で符号化された１つ若しくは複数のコピー演算のための可変出力サイズ、のうちの少なくとも１つを含む、請求項１５に記載の方法。
前記メタデータの少なくとも一部分が、接頭部和形式で符号化される、請求項１５に記載の方法。
１つ又は複数のプロセッサと、
１つ又は複数のメモリ・デバイスであって、前記１つ又は複数のプロセッサを使用して実行されたとき、前記１つ又は複数のプロセッサに、
圧縮データのセグメントを識別する圧縮データ解析器、
前記識別されたセグメントに少なくとも一部は基づいて、前記圧縮データの前記識別されたセグメントの各識別されたセグメントについての、初期入力場所、初期出力場所、及びコピー索引を示すメタデータを生成するメタデータ生成器、及び
前記圧縮データ及び前記メタデータを受け取り、
前記識別されたセグメントを、プロセッサのスレッドを使用して、並列に、前記メタデータに従って処理し、
前記処理に少なくとも一部は基づいて、リテラル・シンボルを出力に出力し、コピー情報を、延期されたコピー・キューに出力し、
コピーされたシンボルを前記出力に出力するように前記コピー情報を処理する
展開器
をインスタンス化させる命令を記憶した１つ又は複数のメモリ・デバイスと
を備えるシステム。
前記圧縮データを入力データ・ストリームから生成する圧縮器をさらに備える、請求項２５に記載のシステム。
前記コピー情報を前記処理することが、第１のコピー演算を第２のコピー演算と並列に処理することを含む、請求項２５に記載のシステム。
前記コピー情報を前記処理することが、コピー演算の第１のシンボルを前記コピー演算の第２のシンボルと並列に処理することを含む、請求項２５に記載のシステム。
前記圧縮データ解析器がさらに、前記圧縮データ内のブロックを識別し、
前記識別されたセグメントが、２つ以上のセグメントのブロックに対応する、
請求項２５に記載のシステム。
前記圧縮データ解析器がさらに、前記識別されたセグメントに対応する辞書の辞書セグメントを識別し、
前記メタデータが、前記辞書セグメントの初期辞書場所をさらに示し、
前記辞書セグメントが、前記辞書を生成するように並列に処理され、
前記識別されたセグメントを前記処理することが、前記辞書に少なくとも一部は基づく、
請求項２５に記載のシステム。
前記辞書が、第１の符号化パスが前記圧縮データ・ストリームに対して実施されたことに少なくとも一部は基づいて生成され、前記辞書が、第２の符号化パスが前記辞書の圧縮バージョンに対して実施されたことに少なくとも一部は基づいて圧縮される、請求項３０に記載のシステム。
前記圧縮データが、前記圧縮データ内のシンボルを符号化するための可変長のビット、又は前記圧縮データ内で符号化されたコピーのための可変出力サイズ、のうちの少なくとも１つを含む、請求項２５に記載のシステム。
前記システムが、
自律機械若しくは半自律機械のための制御システム、
自律機械若しくは半自律機械のための知覚システム、
シミュレーション演算を実施するためのシステム、
ディープ・ラーニング演算を実施するためのシステム、
リアルタイム・ストリーミング・ブロードキャストを実施するためのシステム、
ビデオ・モニタリング・サービスを実施するためのシステム、
インテリジェント・ビデオ解析を実施するためのシステム、
エッジ・デバイスを使用して実装されたシステム、
レイ・トレーシングされたグラフィカル出力を生成するためのシステム、
１つ又は複数の仮想機械（ＶＭ：ｖｉｒｔｕａｌｍａｃｈｉｎｅ）を組み込んだシステム、
少なくとも部分的にデータ・センタ内に実装されたシステム、又は
少なくとも部分的にクラウド・コンピューティング・リソースを使用して実装されたシステム
のうちの少なくとも１つにおいて備えられる、請求項２５に記載のシステム。
圧縮データ及び前記圧縮データに対応するメタデータを受け取ることであって、前記メタデータが、前記圧縮データに対応する初期入力場所及び初期出力場所と、前記圧縮データの複数のセグメントのうちの少なくとも２つのセグメントについての入力セグメント場所及び出力セグメント場所を示す、受け取ることと、
前記初期入力セグメント及び前記入力セグメント場所によって示される位置に対応する入力を使用して前記少なくとも２つのセグメントを並列に展開することであって、前記展開の出力が、前記初期出力場所及び前記出力セグメント場所に対応する位置を有する、展開することと
を含む方法。