JP2022520158A

JP2022520158A - 動的ハフマン表生成のためのハードウェア領域を節約するためのラッチカウントの削減

Info

Publication number: JP2022520158A
Application number: JP2021539586A
Authority: JP
Inventors: アバリ、ビュレント; ミシュラ、アシュトッシュ; プサルラ、スニール
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-02-14
Filing date: 2020-02-11
Publication date: 2022-03-29
Anticipated expiration: 2040-02-11
Also published as: US10693493B1; EP3925074A1; WO2020165133A1; JP7425526B2; CN113366765A; US10715174B1

Abstract

本発明の実施形態は、ＤＥＦＬＡＴＥ圧縮アクセラレータと、動的ハフマン表を生成するときに記号をソートするために必要とされるラッチカウントを削減するための方法とに向けられる。アクセラレータは、入力バッファと、入力バッファの出力に通信可能に結合したＬｅｍｐｅｌ－Ｚｉｖ７７（ＬＺ７７）圧縮器とを含む。アクセラレータは、ＬＺ７７圧縮器に通信可能に結合したハフマン符号化器をさらに含む。ハフマン符号化器は、ビット・トランスレータを含む。アクセラレータは、ハフマン符号化器に通信可能に結合した出力バッファをさらに含む。

Description

本発明は、デジタルコンピュータ・システムに関し、より具体的には、デジタルコンピュータ・システムにおいて使用されるデジタルデータ圧縮及び復元スキームに関する。

デジタルコンピュータ・システムは、データ圧縮を行って、有限のストレージ空間のより効率的な使用を実現する。コンピュータ・システムは、一般に圧縮アクセラレータと呼ばれるハードウェア・コンポーネントを含み、これは、ホストシステムから作業要求又はデータ要求を受け取り、要求されたデータの１つ又は複数のブロックを圧縮又は復元する。圧縮を行うためのアクセラレータを設計する場合、可能な圧縮率と比べて圧縮される入力データのサイズと、データを圧縮することに起因する待ち時間との間に、トレードオフが存在する。

圧縮アクセラレータは、「ＤＥＦＬＡＴＥ」アルゴリズムを利用することが多く、これは、Ｌｅｍｐｅｌ－Ｚｉｖ（例えばＬＺ７７）圧縮アルゴリズムとハフマン（Ｈｕｆｆｍａｎ）符号化アルゴリズムとを組み合わせて圧縮を行う、損失のない圧縮スキームである。ハフマン・アルゴリズムから計算される出力は、ソース記号（ファイル内の文字など）を符号化するための可変長符号表として捉えることができる。ハフマン・アルゴリズムは、この表を、ソース記号の可能な値の各々についての出現の推定確率又は頻度（重み）から導出する。

ＤＥＦＬＡＴＥアルゴリズムを用いて達成される圧縮率を最大化するために、記号をその出現頻度に従って符号化して可変長符号表にする。換言すれば、最も頻度の高い記号は最も少ないビットで符号化される一方、相対的に少ない記号は相対的に多いビットで符号化される。この結果、圧縮されたデータストリームに必要とされるストレージ空間が直接的に削減される。記号がその相対頻度に基づいて符号化されるので、各記号の出現カウントをソートしなければならない。このプロセス中に記号カウント（頻度）をソートすることは、領域（必要なラッチ及び幅コンパレータの数）、電力、及びタイミング／配線の検討事項の点で費用がかかる。

本発明の実施形態は、動的ハフマン表の生成中に必要なラッチカウントを削減するように構成された、ＤＥＦＬＡＴＥ圧縮アクセラレータなどのアクセラレータに向けられる。アクセラレータの非限定的な例は、入力バッファと、入力バッファの出力に通信可能に結合したＬｅｍｐｅｌ－Ｚｉｖ７７（ＬＺ７７）圧縮器とを含む。アクセラレータは、ＬＺ７７圧縮器に通信可能に結合したハフマン符号化器をさらに含む。ハフマン符号化器は、ビット・トランスレータを含む。アクセラレータは、ハフマン符号化器に通信可能に結合した出力バッファをさらに含む。

本発明の幾つかの実施形態において、ビット・トランスレータは、２４ビットから１０ビットへのトランスレータである。

本発明の幾つかの実施形態において、ビット・トランスレータは、第１の記号カウントに基づいて５ビット・シフトフィールド及び５ビット仮数部を生成するように構成される。

本発明の幾つかの実施形態において、ビット・トランスレータは、５ビット・シフトフィールドと５ビット仮数部とを連結して第２の記号カウントを生成するようにさらに構成される。

本発明の実施形態は、動的ハフマン表を生成するときに記号ソートに必要なラッチカウントを削減するための方法に向けられる。本方法の非限定的な例は、複数の第１の記号カウントを定めることを含む。第１の記号カウントの各々は、第１のビット幅を含む。本方法は、複数の第２の記号カウントを生成することをさらに含む。第２の記号カウントは、第１の記号カウントの削減されたビットのマッピングに基づく。複数の第２の記号カウントは、頻度によってソートされ、動的ハフマン木を生成するために用いられる。

本発明の幾つかの実施形態において、複数の第１の記号カウントの第１の記号に基づいて、５ビット・シフトフィールド及び５ビット仮数部が生成される。

本発明の幾つかの実施形態において、５ビット・シフトフィールドは、第１の記号の最上位非ゼロビットの位置を符号化する。

本発明の幾つかの実施形態において、５ビット仮数部は、最上位非ゼロビットと、第１の記号の次の４つのビットとを符号化する。

本発明の幾つかの実施形態において、最上位非ゼロビットの後に続く第１の記号の次の５つのビットを符号化する。

本発明の実施形態は、動的ハフマン表を生成するときに記号ソートに必要なラッチカウントを削減するためのコンピュータプログラム製品に向けられる。コンピュータプログラム製品の非限定的な例は、電子的コンピュータプロセッサによって実行可能であって、コンピュータ・システムを制御して動作を行わせる、プログラム命令を含む。動作は、複数の第１の記号カウントを定めることを含むことができる。第１の記号カウントの各々は、第１のビット幅を含む。動作は、複数の第２の記号カウントを生成することをさらに含むことができる。第２の記号カウントは、第１の記号カウントの削減されたビットのマッピングに基づく。複数の第２の記号カウントは、頻度によってソートされ、動的ハフマン木を生成するために用いられる。

本発明の実施形態は、動的ハフマン表を生成するときに記号ソートに必要なラッチカウントを削減するためのシステムに向けられる。システムの非限定的な例は、アクセラレータと、コンピュータ可読命令を有するメモリと、コンピュータ可読命令を実行するように構成されたプロセッサとを含む。コンピュータ可読命令は、プロセッサによって実行されたとき、アクセラレータに方法を行わせる。この方法は、複数の第１の記号カウントを定めることを含むことができ、第１の記号カウントの各々は、第１のビット幅を含む。複数の第２の記号カウントを生成することができる。第２の記号カウントの各々は、複数の第１の記号カウントの記号カウントのマッピングに基づくものとすることができる。第２の記号カウントは、第１のビット幅より小さい第２のビット幅を含むことができる。この方法は、複数の第２の記号カウントを頻度によってソートすることと、ソートされた複数の第２の記号カウントに基づいて動的ハフマン木を生成することと、をさらに含むことができる。

本発明の実施形態は、方法に向けられる。本方法の非限定的な例は、入力バッファから第１の記号を含むデータストリームを受け取ることを含む。第１の記号に基づいて第１のビット幅を有する第１の記号カウントを定めることができる。本方法は、第１の記号カウントに基づいて５ビット・シフトフィールド及び５ビット仮数部を生成することを含むことができる。５ビット・シフトフィールドと５ビット仮数部とを連結することによって第２のビット幅を有する第２の記号カウントを生成することができる。本方法は、第２の記号カウントの頻度をソートすることを含むことができる。

さらなる技術的特徴及び利益が本発明の技術を通じて実現される。本発明の実施形態及び態様は、本明細書において詳細に説明され、特許請求される主題の一部とみなされる。より良い理解のために、詳細な説明及び図面を参照されたい。

本明細書に記載される排他的権利の詳細は、本明細書の結論部の特許請求の範囲において具体的に指摘されるともに明確に権利請求される。本発明の実施形態の上記及びその他の特徴及び利点は、添付の図面と共に解釈される以下の詳細な説明から明らかである。
本発明の種々の実施形態によって生成されるハフマン木を示す。本発明の種々の実施形態によって生成されるハフマン木を示す。本発明の種々の実施形態による、データを圧縮及び復元することが可能なコンピュータ・システムのブロック図を示す。１つ又は複数の実施形態による、アクセラレータのブロック図を示す。図３に示すアクセラレータのハフマン符号化器の部分を示す。図４に示すハフマン符号化器のＤＨＴ生成器のソート・モジュールの部分を示す。非限定的な実施形態による方法を示すフロー図である。別の非限定的な実施形態による方法を示すフロー図である。

ここで示す図は例証的なものである。これらの図又はそこに記載された操作に対する多くの変形が、本発明の思想から逸脱することなく存在し得る。例えば、動作は異なる順序で実行することができ、又は動作を追加、削除若しくは修正することができる。また、「結合する」という用語及びその変形は、２つの要素間に通信経路を有する状態を説明するものであり、要素間に介在する要素／接続が存在しない状態の要素間の直接接続を含意するものではない。これらの変形のすべては、本明細書の一部とみなされる。

添付の図面及び以下の開示される実施形態の詳細な説明において、図中に描かれた種々の要素に２桁又は３桁の参照数字が付されている。わずかな例外を除いて、各参照数字の左側の桁は、その要素が最初に描かれた図面に対応する。

本発明の種々の実施形態をここで関連する図を参照して説明する。本発明の代替的な実施形態は、本発明の範囲から逸脱することなく考案することができる。要素間の種々の接続及び位置的関係（例えば、上、下、隣接、等）が以下の説明及び図中で記述されている。これらの接続もしくは位置的関係又はその両方は、特段の断りがない限り、直接であっても間接であってもよく、本発明は、この点に関して限定することを意図していない。したがって、実体の結合は、直接結合又は間接結合のいずれをも意味し得るものであり、実体間の関係は、直接的又は間接的な位置関係とすることができる。さらに、本明細書に記載された種々のタスク及びプロセスは、本明細書に記載されていない付加的なステップ又は機能を有する、より包括的な手順又はプロセスに組み入れることができる。

以下の定義及び略語は、特許請求の範囲及び明細書を解釈するために用いるものである。ここで用いる場合、「備える」、「備えている」、「含む」、「含んでいる」、「有する」、「有している」、「含有する」又は「含有している」又は任意のその他の変形は、非排他的な包含をカバーすることが意図される。例えば、要素のリストを含む、組成物、混合物、プロセス、方法、物品、又は装置は、必ずしもそれらの要素に限定されるものではなく、明示的にリストに挙げられていない他の要素、又はそうした組成物、混合物、プロセス、方法、物品、もしくは装置に固有の他の要素を含むことができる。

さらに、「例示的」という用語は、本明細書において「例、事例、例証として役立つ」を意味するものとして用いられている。ここで「例示的」として記載されるいずれの実施形態又は設計も、必ずしも他の実施形態又は設計と比べて好ましい又は有利であると解釈されるべきではない。「少なくとも１つの」及び「１つ又は複数の」という用語は、１以上の任意の整数、すなわち、１、２、３、４等を含むと理解することができる。「複数の」という用語は、２以上の任意の整数、すなわち、２、３、４、５等を含むと理解することができる。「接続」という用語は、間接「接続」及び直接「接続」の両方を含むことができる。

「約」、「実質的に」、「およそ」という用語及びそれらの変形は、出願時に利用可能な装置に基づく特定の量の測定に付随する誤差の程度を含むことを意図する。例えば、「約」は、所与の値の±８％又は５％、又は２％の範囲を含むことができる。

簡潔にするために、本発明の態様の作成及び仕様に関連した従来技術は、本明細書では詳細に説明している場合もしていない場合もある。特に、本明細書で説明する種々の技術的特徴を実装するコンピューティング・システム及び特定のコンピュータプログラムの種々の態様は、周知である。したがって、簡潔さのために、多くの従来の実装の詳細は、周知のシステムもしくはプロセス又はその両方の詳細を提示することなく、本明細書では簡単に触れるにとどめるか又は完全に省略される。

ここで、より具体的に本発明の態様に関連する技術の概要に目を向けると、適用されるデータ圧縮アルゴリズムによって生じるデータ表現のサイズの削減は、一般に圧縮率（Ｃ／Ｒ）と呼ばれる。圧縮率は、圧縮前のサイズと圧縮後のサイズとの間の比として定義することができる。それゆえ、圧縮率が大きくなるほど、より効率的なコンピュータ・システムのストレージ空間の使用が達成され、それによりコンピュータ・システムの全体としての性能が改善される。

ＤＥＦＬＡＴＥデータ圧縮アルゴリズムは、データを圧縮するために通常用いられている方法である。データを圧縮するとき、ＤＥＦＬＡＴＥアルゴリズムには、（１）重複する文字列を識別するＬＺ７７圧縮と、（２）この情報のホフマン符号化という、２つの主要部がある。

ＬＺ７７圧縮段階は、予め符号化されたソースオペランド内の重複する文字列を見つけ出そうとする。一致が見つかると、重複する文字列のリテラル文字（literal character）を出力する代わりに、ＬＺ７７圧縮段階は、重複する文字列からその前のデータセット履歴内の元の（一致した）文字列までの「距離」を、一致したデータの「長さ」と共に出力する。例えば、入力オペランドが、以下の記号ＡＢＢＡＣＢＡＢＢＡＡＢＢＡＢＢＡを含むものとする。このオペランドは、以下のように符号化することができる。リテラルバイトＡ；リテラルバイトＢ；リテラルバイトＢ；リテラルバイトＡ；リテラルバイトＣ；リテラルバイトＢ；距離６，長さ４（これは「ＡＢＢＡ」を符号化する）；距離４，長さ８（これは「ＡＢＢＡＡＢＢＡ」を符号化する)

このことから分かるように、入力オペランドデータ内で見つけ出すことができる重複する文字列が多いほど、出力を圧縮することができる。一致する文字列に関して入力オペランド履歴をチェックすることができる方式として、インライン履歴と、環状履歴バッファによるものと、２つの方式がある。インライン履歴の場合、ＬＺ７７圧縮器は、単にソースオペランドから前の入力を調べる。環状バッファの場合、入力データは、環状履歴バッファにコピーされ（実際にコピーされるか又は概念的にコピーされるかのいずれか）、次いでこのバッファ内のデータが一致に関して検索される。いずれの場合でも、ＤＥＦＬＡＴＥ規格は、一致する文字列に関して３２ＫＢまでさかのぼって調べることを許容する。

ハフマン符号化段階は、ＬＺ７７圧縮器によって生成された記号の確率及び分布に基づくものである。ハフマン符号化の背後にある思想は、頻出する記号が少ないビットで符号化され、稀な記号が多くのビットで符号化されるようにして、記号を可変ビット長で符号化することができるというものである。このようにすることで、ＬＺ７７圧縮器から得られたデータの更なる圧縮が可能である。

この符号化プロセスのために、ＤＥＦＬＡＴＥ規格は、リテラルコピーブロック、固定ハフマン表（ＦＨＴ：ＦｉｘｅｄＨｕｆｆｍａｎＴａｂｌｅ）、及び動的ハフマン表（ＤＨＴ：ＤｙｎａｍｉｃＨｕｆｆｍａｎＴａｂｌｅ）という３種類の圧縮データブロックをサポートする。ＦＨＴブロックは静的であるのに対し、ＤＨＴブロックは、ハフマン木の高度に圧縮されたバージョンと、それに続く、その木を用いて符号化された、圧縮データを表す記号とからなる。

ハフマン木の例を図１Ａ及び図１Ｂに示す。図１Ａに示すように、ハフマン木は、ノード（葉とも呼ばれる）の大部分が木の単一の枝に沿って出現する、極めて非対称なものとすることができる。あるいは、ハフマン木は、図１Ｂに関して示すように圧縮された、葉が使用可能な枝の全体にわたって分布するものであってもよい。いずれの場合でも、ハフマン木は、葉（ノード）の深さが各々の葉に対応する記号の頻度によって定められるように構築される。換言すれば、葉の深さは、その記号頻度によって定められる。

表１は、図１Ａに描かれたハフマン木に対応する例示的なＤＨＴを示す。表１に示すＤＨＴは、相対的に高いカウント／頻度を有する記号が相対的に短い符号長を用いて符号化されるように構築されている。

表１に示すように、記号「Ａ」及び「Ｅ」は、最低頻度を有し、各々１００回しか出現しない。記号「Ｄ」は、次に高い頻度を有し、データセット内で２００回出現する。記号「Ｃ」は、データセット内で４００回出現し、記号「Ｂ」は、最も高頻度で出現し、８００回出現する。さらに表１に示すように、記号「Ａ」は二進数「１１１０」として符号化され、記号「Ｂ」は「０」として、記号「Ｃ」は「１０」として、記号「Ｄ」は「１１０」として、記号「Ｅ」は「１１１１」として符号化される。

最も頻度の高い記号（例えば上記の例では「Ｂ」）を最も少ないビットで符号化することで、圧縮されたデータストリームに必要とされるストレージ空間が直接的に削減されることになる。例えば、８００回出現する記号「Ｂ」は、出現ごとに単一の「０」ビットで表すことができる。結果として、記号「Ｂ」のあらゆる出現を格納するのに必要なのは８００ビット（１００バイト）だけである。頻度が高くない記号である「Ｅ」は、より長い「１１１１」のような二進符号で表すことができる。結果として、記号「Ｅ」の１００回の出現は、４００ビット（５０バイト）のストレージを必要とする。この例で続けると、表１に示された記号は、合計３７５バイトを用いて符号化することができる。この同じデータは、ＤＨＴを使用しないと１６００バイトのストレージを必要とする。

ＤＥＦＬＡＴＥ圧縮の速度を高めるために、このハフマン木生成プロセスをハードウェアに実装することができる。ＤＥＦＬＡＴＥにおけるＬＺ７７アルゴリズムは、圧縮用に、２５６リテラル（ＡＳＣＩＩ値０ｘ００－ｘＦＦ）、２９の長さ記号、及び３０の距離記号を使用する。長さ記号及び距離記号は、データストリーム（データ履歴）内の一致する文字列の距離及び長さを表す。長さの後には常に距離が続くので、１つのＤＨＴを構築して、リテラル、エンド・オブ・ブロック（Ｅｎｄ－ｏｆ－Ｂｌｏｃｋ）記号、及び長さ記号を符号化することができる。これは、合計で２８６個のアルファベットの記号を必要とする。距離記号用に第２のＤＨＴを構築することができる。これは合計で３０個のアルファベットの記号を必要とする。

ハフマン木生成プロセスに関連した１つの難点は、実際に各ＤＨＴ葉に正しい記号をポピュレートすることの難しさである。各葉に対して、次に頻度が高い記号が必要である。換言すれば、各記号の頻度を判定し、格納し、ソートしなければならない。このソートプロセスは、領域（必要なラッチ及び幅コンパレータの数）、電力、及びタイミング／配線の検討事項の点で費用がかかる場合がある。

この点を例証するために、２^Ｎバイトのデータに対するＬＺ７７圧縮を考える。全部で２８６個のアルファベット記号を完全に（一意に）符号化してハフマン符号化器の第１のＤＨＴ（すなわち、リテラル、エンド・オブ・ブロック、及び長さ記号を符号化するＤＨＴ）にするためには、Ｎビットカウンタを必要とする。例えば、全２８６記号を用いた１６ＭＢのデータに対するＬＺ７７圧縮は、２４ビットカウンタを必要とする。別の例において、全２８６記号を用いた３２ＭＢのデータに対するＬＺ７７圧縮は、２５ビットカウンタを必要とする。

これらの２８６記号の各々に関連付けられるカウントを格納するために、ソート・ブロックを用いて、２８６個の「記号，カウント」ペアを格納することができる。ハードウェア実装において、これらのペアはラッチに格納される。前述の例で続けると、２４ビットカウンタを有する２８６記号を格納するには、６，８６４個のラッチ（フリップフロップとも呼ばれる）が必要である。このラッチ要件だけでも既に領域集約的であるが、必要なラッチの数は、カウンタが必要とするビットが追加されるごとにＮだけ増大する。例えば、２５ビットカウンタを用いて２８６記号を格納するには（３２ＭＢデータストリームの場合）、７，１５０ラッチを必要とする。同様に、２６ビットカウンタを用いて２８６記号を格納するには（６４ＭＢデータストリームの場合）、７，４３６ラッチを必要とする。

ここで、本発明の教示の態様の概要に目を向けると、１つ又は複数の実施形態は、上記の従来技術の短所に対して、動的ハフマン表を生成するときの記号ソートに必要とされるラッチカウントを削減するために新たなアクセラレータ・ハードウェア及びソフトウェア実装を提供することによって対処する。ＬＺ７７圧縮器から受け取ったＸビットの記号頻度（「ＬＺカウント」とも呼ばれる）を、ソートの前に、必要とするビットがＸビットより少ないＹビットの（すなわちＸはＹより大きい）浮動様表現にマッピングすることによって、ラッチカウントが削減される。以下のプロセスは、２４ビットカウンタに関して明示的に例証するが、低カウントのマッピングを任意のＮビットカウンタに対する作業に適合させることができることが理解される。２４ビットカウンタは、単に議論を容易にするために選択されたに過ぎない。

本発明の幾つかの実施形態において、２４ビットカウンタ（１６ＭＢのデータの場合）を１０ビット値にマッピングすることができる。これを達成するために、２４ビット値が５ビット指数部（シフトフィールドとも呼ばれる）及び５ビット仮数部（最上位桁とも呼ばれる）にマッピングされる。

５ビット指数部は、２４ビットカウンタ内の最初の「１」の位置を表す（このビットはシフトビットと呼ばれる）。数学的には、５ビット指数部は、元の値を得るために必要なシフトの量である。例えば、２４ビット値「０００００００１０１１０１１１１０００１０１０１」における最初（最上位）の「１」は、（右から読んで）１７番目の桁に表れる。１７番目の桁を５ビット二進数「１０００１」として符号化することができる。

いったんこのシフトが既知になると、シフトビットの左側の「０」ビットを、まったく情報を失うことなく捨てることができる。２４ビットカウンタ内のシフトビットのあらゆる可能な位置を格納するには、５ビット指数部が必要であることに留意されたい（２４個のシフトの可能性を一意に符号化するには５桁の二進数が必要である）。５ビット指数部として示されているが、ビットの数は、根底にあるマッピングされるカウンタに応じて、より多く又は少なくすることができる。例えば、３２ビットカウンタは、シフトビットの網羅的なマッピングのために６ビット指数部を必要とする。

５ビット仮数部は、２４ビットカウンタ内に存在する非ゼロデータの最上位の５ビットを収容する。本発明の幾つかの実施形態において、５ビット仮数部は、シフトビットを含み、一方、他の実施形態において、シフトビットはスキップされる。例えば、前の例「０００００００１０１１０１１１１０００１０１０１」から生成される５ビット仮数部は、「１０１１０」（シフトビットと次の４桁を含む場合）及び「０１１０１」（シフトビットをスキップし、次の５桁を含む場合）である。

いずれの場合でも、次にこれらの５ビット値を組み合わせて、２４ビットカウンタの、１０ビットの多対一マッピングが与えられる。「多対一」マッピングは、２以上の入力値が同じ出力値にマッピングされる任意のマッピングのことを指す。前の例で続けると、複数の２４ビットカウンタが同じ１０ビット値にマッピングされる。

どちらの手法も可能であり、本発明の企図する範囲内に入るが、第２の手法は、データの追加の１ビットを活用する（シフトビットを再使用しない）。その結果として、第２の手法は、第１の手法を用いた場合に生成される多対一マッピングの数を削減することができる。前の２４ビットの例で続けると、第１の手法（シフトビットが仮数部の最初の桁）は、３２－１マッピングとなるのに対し、第２の手法（シフトビットを無視する）は、１６－１マッピングになる。例証のために、「１＿＿＿＿ＸＸＸＸＸ」という値を有するＬＺカウント（「＿」は、すべてのＬＺカウントにおいて同じビット値を表し、「Ｘ」は、異なるビット値を示す）の場合、これらの数の３２個すべてが１つの数にマッピングされることになる（すなわち３２：１マッピング）。一方、「１＿＿＿＿＿ＸＸＸＸ」という値を有するＬＺカウントの場合、１６個のこれらの数が１つの数にマッピングされるに過ぎない（すなわち１６：１マッピング）。

この点をさらに例証するために、数９２９及び９５９のそれぞれの２４ビット表現「１１１０１０００００」及び「１１１０１１１１１１」の１０ビットマッピングを考える（先行ゼロは既に捨てられている）。シフトビット（ここでは右から１０番目の桁であり、二進値「０１０１０」を有する）を再使用すると、同じ１０ビット数「０１０１０，１１１０１」及び「０１０１０，１１１０１」になる。しかしながら、仮数部においてシフトビットを無視すると、一意の１０ビット数「０１０１０，１１０１０」及び「０１０１０，１１０１１」となる。

この方式（シフト，仮数部）で多対一マッピングを構築すると、各記号についての正確なカウント（又は頻度）は失われるが、記号の相対頻度分布は保存される。例えば、１６ＭＢのデータストリームにおいてそれぞれ頻度カウント１１、１０４、４１８、１１１７を有する記号「Ａ」、「Ｂ」、「Ｃ」及び「Ｄ」を考える。２４ビットカウンタは、ソート・ブロックにおいて全２８６記号について正確な「記号，カウント」ペアを完全に符号化することができる。１０ビットマッピング（５ビットシフト，５ビット仮数部）は、これらの記号についての正確なカウント値を失うことになるが、相対頻度（すなわち、Ｄカウント＞＝Ｃカウント＞＝Ｂカウント＞＝Ａカウント）は保存する。

相対記号頻度が保存されるので、ＤＨＴ木の品質に影響を与えることなくラッチカウントを削減することができる。換言すれば、本開示は、記号の正確な頻度を知ることなくハフマン木をポピュレートすることを可能にする。さらに、ｄｅｆｌａｔｅアルゴリズムは、ＤＨＴ木が１５階層より深くなることを許容しないので（すなわち、符号化長は１５ビット以下にすべき）、高頻度記号の多対一マッピングを許容することでＤＨＴ木に誤りが導入されることはない。

所与のソート・ブロックのためのラッチの数を削減することは、貴重なウェハ領域を解放し、電力消費を削減し、アクセラレータ・ハードウェアのタイミング／配線を簡素化する。前の例で続けると、ソーティング・ブロックの前に、２４ビットカウンタを１０ビット値にマッピングすることで、必要なラッチの数が６，８６４ラッチ（２４＊２８６）から２，８６０ラッチ（１０＊２８６）に削減される。さらに、１０ビット値の使用は、従来の２４ビット比較器を１０ビット比較器で置き換えることができるので、後のソートするステップを簡素化する。この結果、さらに領域が節約される。

本発明の幾つかの実施形態において、指数部（シフト）及び仮数部の幅は固定されている（例えば、前に論じたように各々５ビット）。本発明の幾つかの実施形態において、指数部（シフト）及び仮数部の幅を動的に調整することができる。幅は、例えば、ＬＺカウント範囲に応じて調整することができる。

例証のために、ＬＺカウントを「シフト，仮数部」形式で表すために実装される「Ｋ」ビットを考える（すなわち、５ビット指数部及び５ビット仮数部を用いた前の例において「Ｋ」は１０である）。ＬＺカウントの上限に応じて、「ｉ」ビットをシフトビットに割り当てることができ、「Ｋ－ｉ」ビットを仮数部に割り当てることができる。この結果、同じ固定ハードウェアコストに対して、ソート精度の有限の改善がもたらされる。

表２は、種々のＬＺカウント範囲に基づく例示的な動的幅を示す。表２に示すように、余剰ビットを仮数部に動的に割り当てることによって、ＬＺカウント範囲が増大するにつれて多対一マッピングを減少させることができる。表２は、単一のビットをシフトフィールドから仮数部にシフトすることを示しているが、その他の動的調整が可能である。

本発明の幾つかの実施形態において、シフトフィールドの幅をＬＺカウント範囲に基づいて可能な限り小さくして、仮数部のために余剰ビットを解放する。シフトフィールドの幅は、あと１ビット減らすと幾つかのシフトビット位置をもはや一意に割り当てることができなくなる点まで小さくすることができる。

ここで図２を参照すると、本開示の非限定的な実施形態によるコンピュータ・システム１０が示されている。コンピュータ・システム１０は、インターナショナル・ビジネス・マシーンズ・コーポレーション（ＩＢＭ）によって提供されるｚ／Ａｒｃｈｉｔｅｃｔｕｒｅに基づくものとすることができる。しかしながらこのアーキテクチャは、コンピュータ・システム１０の一例であり、本明細書に記載の実施形態の使用又は機能の範囲に関してなんらかの制限を示唆することを意図したものではない。他のシステム構成が可能である。いずれにせよ、コンピュータ・システム１０は、上述の機能のいずれかを実装することもしくは行うこと又はその両方が可能である。

コンピュータ・システム１０は、その他の多くの汎用又は専用コンピューティング・システム環境又は構成と共に動作可能である。コンピュータ・システム１０と共に使用するのに好適であり得る周知のコンピューティング・システム、環境、もしくは構成又はそれらの組合せの例には、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、携帯電話、手持ち式又はラップトップ型デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セットトップボックス、プログラム可能民生電子機器、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、及び、上述のシステム又はデバイスのいずれかを含む分散型クラウド・コンピューティング環境などが含まれるが、これらに限定されない。

コンピュータ・システム１０は、コンピュータ・システム１０によって実行される、プログラムモジュール等のコンピュータ・システム実行可能命令の一般的な文脈で説明することができる。一般に、プログラムモジュールは、特定のタスクを実行する又は特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、論理、データ構造などを含むことができる。コンピュータ・システム１０は、通信ネットワークを通じてリンクされた遠隔処理デバイスによってタスクが行われる分散型クラウド・コンピューティング環境において実行することができる。分散型クラウド・コンピューティング環境において、プログラムモジュールは、メモリ・ストレージ・デバイスを含むローカル及び遠隔両方のコンピュータ・システム・ストレージ媒体内に配置することができる。

図２に示されるように、コンピュータ・システム１０は、処理デバイスとも呼ばれる汎用コンピューティング・デバイスの形態で描かれている。コンピュータ・システム１０のコンポーネントは、１つ又は複数のプロセッサ又は処理ユニット１６、ｄｅｆｌａｔｅアクセラレータ１７、システム・メモリ２８、及びシステム・メモリ２８を含む種々のシステム・コンポーネントをプロセッサ１６に結合するバス１８を含むことができるが、これらに限定されない。

ｄｅｆｌａｔｅアクセラレータ１７は、ハードウェアとして又はハードウェアとソフトウェアの両方として実装することができ、１つ又は複数の実施形態に従って、ＤＥＦＬＡＴＥデータ圧縮アルゴリズムを用いてデータを圧縮するための機能及びモジュールを含むことができる。本発明の幾つかの実施形態において、ｄｅｆｌａｔｅアクセラレータ１７は、入力バッファ上でデータを受け取り、ＬＺ７７圧縮器を用いてデータを処理し、ハフマン符号化器を用いてデータを符号化し、出力バッファにデータを出力することができる。ｄｅｆｌａｔｅアクセラレータ１７の実施形態を図３に示す。

本発明の幾つかの実施形態において、ｄｅｆｌａｔｅアクセラレータ１７を（図示されているように）バス１８に直接接続することができる。本発明の幾つかの実施形態において、ｄｅｆｌａｔｅアクセラレータ１７は、ＲＡＭ３０／キャッシュ３２と処理ユニット１６との間でバス１８に接続される。本発明の幾つかの実施形態において、ｄｅｆｌａｔｅアクセラレータ１７は、バス１８ではなくキャッシュ３２に（例えばＬ３キャッシュに）直接接続される。本発明の幾つかの実施形態において、ｄｅｆｌａｔｅアクセラレータ１７は、処理ユニット１６に直接接続される。

バス１８は、メモリ・バス又はメモリ・コントローラ、周辺バス、アクセラレーテッド・グラフィックス・ポート、及び種々のバス・アーキテクチャのいずれかを用いるプロセッサ又はローカル・バスを含む幾つかのタイプのバス構造のうちのいずれかの１つ又は複数を表す。限定ではなく例として、このようなアーキテクチャは、ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ（ＩＳＡ）バス、ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ（ＭＣＡ）バス、ＥｎｈａｎｃｅｄＩＳＡ（ＥＩＳＡ）バス、ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ（ＶＥＳＡ）ローカル・バス、及びＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ（ＰＣＩ）バスを含む。

コンピュータ・システム１０は、種々のコンピュータ・システム可読媒体を含むことができる。このような媒体は、コンピュータ・システム／サーバ１０によってアクセス可能なあらゆる利用可能媒体とすることができ、揮発性媒体及び不揮発性媒体の両方、並びに取外し可能媒体及び取外し不能媒体の両方を含む。

システム・メモリ２８は、オペレーティング・システム（ＯＳ）５０を、ランダム・アクセス・メモリ（ＲＡＭ）３０もしくはキャッシュ・メモリ３２又はその両方等の揮発性メモリの形態のコンピュータ・システム可読媒体とともに含むことができる。コンピュータ・システム１０は、その他の取外し可能／取外し不能な揮発性／不揮発性コンピュータ・システム・ストレージ媒体をさらに含むことができる。単なる例として、取外し不能の不揮発性磁気媒体（図示されておらず、典型的には「ハード・ドライブ」と呼ばれる）との間の読出し及び書込みのために、ストレージ・システム３４を設けることができる。図示されていないが、取外し可能な不揮発性磁気ディスク（例えば、「フロッピー・ディスク」）との間の読出し及び書込みのための磁気ディスク・ドライブ、並びに、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ又はその他の光媒体等の取外し可能な不揮発性光ディスクとの間の読出し及び書込みのための光ディスク・ドライブを設けることができる。このような例において、各々を１つ又は複数のデータ媒体インタフェースによってバス１８に接続することができる。以下でさらに示され、説明されるように、メモリ２８は、本発明の実施形態の機能を実行するように構成されたプログラムモジュールの組（例えば、少なくとも１つ）を有する少なくとも１つのプログラム製品を含むことができる。

ＯＳ５０は、他のコンピュータプログラムの実行を制御し、スケジューリング、入出力制御、ファイル及びデータ管理、メモリ管理、並びに通信制御及び関連のサービスを提供する。ＯＳ５０は、ライブラリＡＰＩ（図２に図示せず）を含むこともできる。ライブラリＡＰＩは、例えばアクセラレータ（図２に図示せず）などの専用ハードウェアデバイスによって提供されるデータ操作機能を行うためのＡＰＩを含む、ソフトウェア・ライブラリである。

ストレージ・システム３４は、基本入出力システム（ＢＩＯＳ）を格納することができる。ＢＩＯＳは、スタートアップ時にハードウェアを初期化及びテストし、ＯＳ５０の実行を開始し、ハードウェアデバイス間のデータの転送をサポートする、必須のルーチンの組である。コンピュータ・システム１０の作動時、１つ又は複数の処理ユニット１６は、ストレージ・システム３４内に格納された命令を実行する、データをメモリ２８との間で送受信する、及び、命令に従ってコンピュータ・システム１０の動作を全般的に制御するように構成される。

１つ又は複数の処理ユニット１６は、内部ミリコード（図示せず）及びその中に格納されたデータにアクセスすることもできる。内部ミリコード（ファームウェアと呼ばれることもある）は、主メモリ２８とは別の異なるデータストレージ領域として捉えることができ、ＯＳに依存せずにアクセスされ又は制御されることができる。内部ミリコードは、コンピュータ・システム１０の複雑なアーキテクト化された命令の一部を含むことができる。複雑命令は、プログラマに対する単一命令として定義することができる。しかしながら、１つの複雑命令を多数のそれほど複雑でない命令に分割する、内部ライセンス・コード（internally licensed code）を含むこともある。ミリコードは、特にコンピュータ・システム１０用に設計されテストされたアルゴリズムを含み、ハードウェアに対して完全な制御を提供することができる。少なくとも１つの実施形態において、ミリコードを利用して１つ又は複数の圧縮辞書を格納することもでき、より詳細に後述するように、この圧縮辞書をハードウェアに送ってデータ復元を促進することができる。

プログラムモジュール４２の組（少なくとも１つ）を有するプログラム／ユーティリティ４０を、限定ではなく例として、ＯＳ５０、１つ又は複数のアプリケーション・プログラム、他のプログラムモジュール、及びプログラムデータと共に、メモリ２８内に格納することができる。オペレーティング・システム、１つ又は複数のアプリケーション・プログラム、他のプログラムモジュール、及びプログラムデータ、又はそれらの幾つかの組合せの各々が、ネットワーキング環境の実装を含むことができる。プログラムモジュール４２は、一般に、本明細書に記載の本発明の実施形態の機能もしくは方法又はその両方を実行する。

コンピュータ・システム１０は、キーボード、ポインティング・デバイス、ディスプレイ２４等の１つ又は複数の外部デバイス１４、ユーザがコンピュータ・システム／サーバ１０と対話することを可能にする１つ又は複数のデバイス、もしくは、コンピュータ・システム／サーバ１０が１つ又は複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス（例えば、ネットワークカード、モデム等）又はそれらの組合せと通信することもできる。このような通信は、入力／出力（Ｉ／Ｏ）インタフェース２２を経由して行うことができる。さらにまた、コンピュータ・システム１０は、ローカル・エリア・ネットワーク（ＬＡＮ）、汎用広域ネットワーク（ＷＡＮ）、もしくはパブリック・ネットワーク（例えば、インターネット）またはそれらの組合せ等の１つ又は複数のネットワークと、ネットワーク・アダプタ２０を介して通信することができる。図示されるように、ネットワーク・アダプタ２０は、バス１８を介してコンピュータ・システム１０の他のコンポーネントと通信する。図示されないが、コンピュータ・システム１０と共に他のハードウェアもしくはソフトウェア・コンポーネント又はその両方を使用することができることを理解されたい。例として、これらに限定されるものではないが、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、データ・アーカイブ・ストレージ・システムなどが挙げられる。

種々のタイプの圧縮アルゴリズム、例えば、Ｌｅｍｐｅｌ－Ｚｉｖ符号化の派生型を利用してデータを圧縮する適応無損失データ圧縮（ＡＬＤＣ：ａｄａｐｔｉｖｅｌｏｓｓｌｅｓｓｄａｔａｃｏｍｐｒｅｓｓｉｏｎ）製品ファミリーなどをコンピュータ・システム１０において利用することができる。一般的な圧縮技術として、Ｌｅｍｐｅｌ－Ｚｉｖ７７（ＬＺ７７）アルゴリズムは、多くの異なるデータ型を扱うことが必要とされるシステムに首尾よく組み込まれる。このアルゴリズムは、バイトのシーケンスを、処理されたバイトの最近の履歴を保持すること及びその履歴内で一致するシーケンスを指し示すことによって、処理する。圧縮は、一致したバイト・シーケンスをコピーポインタと長さ符号とで置き換えることによって達成され、コピーポインタと長さ符号は両方合わせても、置き換えられるバイト・シーケンスよりサイズが小さい。

圧縮アルゴリズムは、ＬＺ７７アルゴリズム（データから繰り返しを削除する）とハフマン符号化との組み合わせを用いる、「ＤＥＦＬＡＴＥ」圧縮形式を含むこともできる。ハフマン符号化は、「ハフマン木」に基づくエントロピ符号化である。データをハフマン符号化し及び復号するためには、システムは、前もってハフマン木が用いられていることを知らなければならない。復元（例えば、「Ｉｎｆｌａｔｅ」動作）に適応するために、ハフマン木は、圧縮ブロックごとのヘッダに書き込まれる。１つの実施形態において、Ｄｅｆｌａｔｅ規格においてハフマン木に対して２つの選択肢が提供される。１つの選択肢は「静的」木であり、これはすべての圧縮器及び復元器にとって既知の、ハードコード化された単一のハフマン木である。この静的木を用いる利点は、その記述を圧縮ブロックのヘッダに書き込む必要がなく、即時復元の準備ができていることである。他方、「動的」木は、当面のデータブロックに合わせて調整され、したがって動的木の正確な記述が出力に書き込まれる必要がある。

ハフマン符号化は、エントロピに基づいた可変長符号表を用いてソース記号を符号化することもでき、前述のように静的又は動的のいずれかとして定義することができる。静的ハフマン符号化において、各リテラル又は距離は、ＲＦＣにおいて定義される固定表（ＦＨＴ）を用いて符号化される。しかしながら、動的ハフマン符号化においては、圧縮されるデータの統計量により良く適合するように、特別な符号化表（ＤＨＴ）が構築される。多くの場合、ＤＨＴを用いるとＦＨＴと比べてより良い圧縮率（例えば品質）を達成するが、その代わり、圧縮速度（例えば性能）の低下及び設計の複雑度が増すという代償を払う。固定ハフマン符号化法及び動的ハフマン符号化法は、圧縮速度と圧縮率との間の固有のトレードオフを最も良く反映する。静的ハフマン法が達成することができる圧縮率は、動的ハフマン符号化を用いて可能な圧縮率よりも低い。このことは入力データブロックの内容にかかわらず固定の符号化表を用いることに起因する。例えば、ランダムなデータも４文字のＤＮＡ配列も同じハフマン表を用いて符号化することになる。

本発明の幾つかの実施形態において、コンピュータ・システム１０は、圧縮ライブラリを含み、これは、収縮（ｄｅｆｌａｔｉｏｎ）／膨張（ｉｎｆｌａｔｉｏｎ）のために用いられるソフトウェア・ライブラリとして実装することができ、また、圧縮アルゴリズムを抽象化したものとすることができる。少なくとも１つの実施形態において、圧縮ライブラリは、コンピュータ・システム１０もしくはｄｅｆｌａｔｅアクセラレータ１７又はその両方が、収縮／膨張される入力データを複数の要求に対して任意の方式で分割することを可能にし、また、収縮／膨張動作の結果を保持するための任意のサイズの出力バッファを提供する。

図３は、１つ又は複数の実施形態による、図２に示されたｄｅｆｌａｔｅアクセラレータ１７のブロック図を示す。ｄｅｆｌａｔｅアクセラレータ１７は、例えば、入力バッファ３０２、ＬＺ７７圧縮器３０４、ハフマン符号化器３０６（ＤＥＦＬＡＴＥハフマン符号化器とも呼ばれる）、及び出力バッファ３０８を含むことができる。図３に示すように、入力バッファ３０２は、ＬＺ７７圧縮器３０４に通信可能に接続することができ、ＬＺ７７圧縮器３０４からの出力は、ハフマン符号化器３０６の入力に直接接続することができる。このようにして、ＤＥＦＬＡＴＥアクセラレータ１７は、ＤＥＦＬＡＴＥアルゴリズムを用いてデータ圧縮を促進するように構成される。

本発明の幾つかの実施形態において、圧縮前のデータは、ｄｅｆｌａｔｅアクセラレータ１７によって入力バッファ３０２（入力データバッファとも呼ばれる）上に取得される。幾つかの実施形態において、ｄｅｆｌａｔｅアクセラレータ１７は、入力バッファ３０２に提供されたデータに対してＬＺ７７圧縮を行う。幾つかの実施形態において、圧縮データは、ハフマン符号化器３０６によって受け取られ、符号化される。幾つかの実施形態において、圧縮され符号化されたデータは、出力バッファ３０８（出力データバッファとも呼ばれる）に格納することができる。

データ圧縮を開始するために、ｄｅｆｌａｔｅアクセラレータ１７は、入力バッファ３０２内の標的データ又は標的データストリームを圧縮することを求める１つ又は複数の要求を受け取ることができる。本発明の幾つかの実施形態において、要求ブロック（図示せず）を用いて、要求を容易にすることができる。本発明の幾つかの実施形態において、要求ブロックは、ＯＳ５０の圧縮インタフェースに送られる。各要求に対して、コンピュータ・システム１０は、処理されるデータを有する入力バッファ（例えば、入力バッファ３０２）と、処理されたデータの結果が格納される出力バッファ（例えば、出力バッファ３０８）とを供給することができる。

本発明の幾つかの実施形態において、圧縮要求の処理を開始するために、ｄｅｆｌａｔｅアクセラレータ１７は、要求ブロックを読み、入力バッファ３０２内のデータを処理して、圧縮データもしくは復元データ又はその両方を生成する。本明細書に記載のように、ＤＥＦＬＡＴＥ圧縮アルゴリズム及びＡＬＤＣアルゴリズムを含むがそれらに限定されない種々の圧縮アルゴリズムを利用することができる。結果として得られた圧縮データを出力バッファ３０８内に保存することができる。

図４は、１つ又は複数の実施形態による図３に示すハフマン符号化器３０６のＤＨＴ生成器４００のブロック図を示す。図４に示すように、ＤＨＴ生成器４００は、ソート・モジュール４０２、ハフマン木モジュール４０４、木静的ランダム・アクセス・メモリ（ＳＲＡＭ）４０６、木ウォーク（ｗａｌｋ）モジュール４０８、符号長ＳＲＡＭ４１０、及び符号化長モジュール４１２を含むことができる。本発明の幾つかの実施形態において、ＤＨＴ生成器４００は、ハフマン符号化器（例えば、図３に示すハフマン符号化器３０６）の第１の段階である。

ソート・モジュール４０２は、ＬＺ７７圧縮器３０４によって圧縮された各記号についての記号頻度カウンタ（「ＬＺカウント」、Ｘビットカウンタ）を受け取る。ソート・モジュール４０２は次いで、１つ又は複数の実施形態により、Ｘビットカウンタを、圧縮された多対一Ｙビット値にマッピングする。本発明の幾つかの実施形態において、Ｙビット値がソートされる（本明細書において先に論じたように、記号の相対頻度分布を生成する）。

本発明の幾つかの実施形態において、ソート後であるがハフマン木モジュール４０４の前に、Ｙビットマッピングを復元してＸビット値に戻すことができる。このようにすると、ハフマン木モジュール４０４は、完全なＸビット値を受け取ることができ、修正される必要がない。同様に、ハフマン木モジュール４０４、木ＳＲＡＭ４０６、木ウォーク・モジュール４０８、符号長ＳＲＡＭ４１０、及び符号化長モジュール４１２を含む残りの下流モジュールのいずれも、修正される必要がない。換言すれば、ハフマン木モジュール４０４、木ＳＲＡＭ４０６、木ウォーク・モジュール４０８、符号長ＳＲＡＭ４１０、及び符号化長モジュール４１２を既知のＤＥＦＬＡＴＥ圧縮実装を用いて実装することができるが、限定されることを意図しない。議論を簡単にするために別個のモジュールを有するように描かれているが、ＤＨＴ生成器４００は、より多くのモジュール又はより少ないモジュールを含むことができることが理解される。例えば、ソート・モジュール４０２の出力を単一のハフマン木モジュールが受け取って、ＤＨＴに符号化することができ、別個の木ＳＲＡＭもしくは符号長ＳＲＡＭ又はその両方を含んでもよく、含まなくてもよい。

図５は、１つ又は複数の実施形態による図４に示すソート・モジュール４０２のブロック図を示す。図５に示すように、ソート・モジュール４０２（ソートブロックとも呼ばれる）は、ビット・トランスレータを含むことができる。議論を簡単にするために２４ビットから１０ビットへのトランスレータ５０２が描かれているが、本明細書で先に論じたように、その他のＸビットからＹビットへのトランスレータが可能である。

本発明の幾つかの実施形態において、２４ビットから１０ビットへのトランスレータ５０２は、ＬＺ７７圧縮器（例えば、図３に示すＬＺ７７圧縮器３０４）から２４ビットカウンタを受け取る。本発明の幾つかの実施形態において、２４ビットから１０ビットへのトランスレータ５０２は、以下のアルゴリズムに従って、２４ビットカウンタに基づいて５ビット指数部及び５ビット仮数部を生成する。
ステップ１：２４ビットカウンタに対して先行ゼロビット（ＬＺＢ）のインデックスを定め、ここでインデックスは、最下位ビットから最上位ビットまで１から２４である（２５ビットの場合は１から２５、等）。
ステップ２：２４ビットカウンタと「０００００」とを連結することによって２９ビットベクトルを生成する。例えば、２４ビット値「０００００００１０１１０１１１１０００１０１０１」を「０００００」と連結して、「０００００００１０１１０１１１１０００１０１０１．０００００」を形成することができる。
ステップ３：２９ビットベクトルをＬＺＢインデックスによってシフトさせる。
ステップ４：シフト量（すなわち、シフトビット位置）を５ビット指数部として格納する。例えば、２４ビット値「０００００００１０１１０１１１１０００１０１０１」の１７番目の桁（右から読む。強調のために下線を付した）を、５ビット二進数「１０００１」として格納することができる。
ステップ５：最上位の５桁を５ビット仮数部として格納する。本発明の幾つかの実施形態において、最上位の５桁は、シフトビットと次の４つの桁とを含む。例えば、２４ビット値「０００００００１０１１０１１１１０００１０１０１」から得られる５ビット仮数部は、「１０１１０」とすることができる。本発明の幾つかの実施形態において、最上位の５桁は、シフトビットのすぐ後に続く５桁を含む。例えば、２４ビット値「０００００００１０１１０１１１１０００１０１０１」から生成される５ビット仮数部を「０１１０１」とすることができる。
ステップ６：５ビット指数部と５ビット仮数部とを連結して１０ビット値を生成する。前の例から続けると、仮数部の中でシフトビットを無視する場合、１０ビット値は、「１０００１，０１１０１」（シフト，仮数部）となる。

本発明の幾つかの実施形態において、２４ビットから１０ビットへのトランスレータ５０２は、データストリーム内の各記号についてＬＺ７７圧縮器から２４ビットカウンタ（例えば、ＤＨＴ内の２８６個の記号の各々について２８６個の２４ビットカウンタ）を受け取る。本発明の幾つかの実施形態において、２４ビットカウンタの各々に対して１０ビット値が生成される。これらの１０ビット値をソーティング・モジュール５０４に渡すことができる。

本発明の幾つかの実施形態において、ソーティング・モジュール５０４は、２８６個の１０ビット値の値ソートを完了する。１０ビット値のソートは、ＤＥＦＬＡＴＥアクセラレータについて既知のいずれかの適切な方法を用いて達成することができる。本発明の幾つかの実施形態において、ソーティング・モジュール５０４は、２８６個の「記号，カウント」ペアを２，８６０個のラッチに格納し、第１の実行のために２Ｄシェアソート（ｓｈｅａｒｓｏｒｔ）を使用する。２Ｄシェアソートの場合、２８６個の「記号，カウント」ペアを、１４３個の比較器がポピュレートされた１８×１６行列に配置することができる。比較器は、２つの比較器が水平又は垂直に（直接、左、右、上又は下に）隣接しないように、離間配置される。代わりに、比較器の各々は、１つ又は複数の他の比較器と対角線上で隣接している。有利なことに、１０ビット比較器を２４ビット比較器の代わりに使用することができ、１０ビットマッピングによってもたらされる領域の節約がさらに向上する。本発明の幾つかの実施形態において、ソートされた１０ビット値を次に用いて、動的ハフマン木を生成することができる。

本発明の幾つかの実施形態において、（ソート後の）下流プロセスは、２４ビット値に戻す変換を必要とする。これにより、例えば、２つの昇順記号からのＬＺカウントを容易に追加したり、次の記号のＬＺカウントを比較したりすることが可能になる。本発明の幾つかの実施形態において、１０ビットから２４ビットへの復元器５０６は、ソーティング・モジュール５０４から各々の１０ビット数を受け取り、各々を２４ビット数に戻す。１０ビットから２４ビットへの復元器は、議論を容易にするために描かれたものであり、本明細書で先に論じたとおり、その他のＹビットからＸビットへの復元器も可能である。

下記のアルゴリズムに従って、１０ビット数から２４ビット数を構築することができる。ステップ１．すべての桁を「０」に設定して２９ビットフィールドを生成する。ステップ２．１０ビット数から仮数部を２４ビット数の最小桁にコピーする。ステップ３．シフトビットの値（又は、仮数部においてシフトビットが無視される場合、シフトビットより１小さい値）だけシフトし、シフトビットが仮数部に含まれない場合にはシフトビットを挿入する。ステップ４．先頭の５つのビット（構造により、常に「０」）を捨てて、２９ビットフィールドを２４ビットフィールドに変換する。

例証のために、例えば、本明細書において前に論じたように、数９２８の圧縮から生成される１０ビット数「０１０１０，１１０１０」を考える（仮数部はシフトビットを無視）。ステップ２において、２９ビットフィールドを「００．．．．００１１０１０」に設定する（先行するゼロは省略されている）。ステップ３において、２９ビットフィールドを１０桁シフトし（１０は、シフトビット「０１０１０」の１０進値である）、シフトビットを挿入して「００．．．００１１１０１０００００．０００００」を得る。ステップ４において、先頭の５つの「０」（左側の桁）を削除して、２４ビット数「０００００００００１１１０１００００００００００」を得る。前の例は、１０ビットから２４ビットへの復元器の文脈で提示したが、同じスキームを用いて、任意の初期ビット幅（例えば、１１ビット、１２ビット、２０ビット等）を有するＬＺカウントを復元することができる。

図６は、非限定的な実施形態による、動的ハフマン表を生成するときに記号ソートに必要なラッチカウントを削減するための方法を示すフロー図６００を示す。ブロック６０２に示すように、複数の第１の記号カウントが定められる。第１の記号カウントの各々は、第１のビット幅を含むことができる。本発明の幾つかの実施形態において、第１の記号カウントの各々は、２４ビット数として符号化される。

ブロック６０４において、複数の第１の記号カウントのマッピングに基づいて複数の第２の記号カウントが生成される。第２の記号カウントは、第１のビット幅より小さい第２のビット幅を含むことができる。本発明の幾つかの実施形態において、第２の記号カウントの各々は、１０ビット数として符号化される。

本発明の幾つかの実施形態において、第２の記号カウントの各々を生成することは、１つ又は複数の実施形態により、５ビット・シフトフィールド及び５ビット仮数部を生成することを含む。本発明の幾つかの実施形態において、５ビット・シフトフィールドは、第１の記号の最上位非ゼロビット（すなわち、本明細書において前に論じたように、シフトビット）の位置を符号化する。本発明の幾つかの実施形態において、５ビット仮数部は、最上位非ゼロビットと、第１の記号の次の４つのビットとを符号化する（すなわち、シフトビットは仮数部の最初の桁として再使用される）。本発明の幾つかの実施形態において、５ビット仮数部は、最上位の非ゼロビットの後に続く第１の記号の次の５つのビットを符号化する（すなわち、シフトビットは仮数部において再使用されない）。本発明の幾つかの実施形態において、５ビット・シフトフィールドと５ビット仮数部とが連結されて１０ビット数を形成する。

ブロック６０６において、複数の第２の記号カウントが頻度によってソートされる。ブロック６０８において、ソートされた複数の第２の記号カウントに基づいて、１つ又は複数の実施形態により、動的ハフマン木が生成される。本発明の幾つかの実施形態において、本明細書において前に論じたように、１０ビットマッピングは、動的ハフマン木を生成する前に復元されて２４ビット数に戻される。

図７は、非限定的な実施形態による方法を示すフロー図７００を示す。ブロック７０２に示すように、第１の記号を含むデータストリームを入力バッファから受け取ることができる。

ブロック７０４において、第１の記号に基づいて、第１のビット幅を有する第１の記号カウントを定めることができる。本発明の幾つかの実施形態において、第１のビット幅は２４ビットである。

ブロック７０６において、第１の記号カウントに基づいて５ビット・シフトフィールドが生成される。本発明の幾つかの実施形態において、５ビット・シフトフィールドは、第１の記号の最上位非ゼロビットの位置を符号化する。

第１の記号カウントに基づいて５ビット仮数部が生成される。本発明の幾つかの実施形態において、５ビット仮数部は、最上位非ゼロビットの後に続く第１の記号の次の５つのビットを符号化する。

ブロック７１０において、５ビット・シフトフィールドと５ビット仮数部とを連結することによって、第２のビット幅を有する第２の記号カウントが生成される。ブロック７１２において、第２の記号カウントの頻度がソートされる。

本発明は、実装の任意の可能な技術的詳細レベルの、システム、方法、もしくはコンピュータプログラム製品又はそれらの組合せとすることができる。コンピュータプログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令を有する１つ又は複数のコンピュータ可読ストレージ媒体を含むことができる。

コンピュータ可読ストレージ媒体は、命令実行デバイスによる使用のために命令を保持及び格納することができる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、電子ストレージデバイス、磁気ストレージデバイス、光ストレージデバイス、電磁気ストレージデバイス、半導体ストレージデバイス、又は上記のものの任意の適切な組合せとすることができるがこれらに限定されない。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストは、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、静的ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、デジタル多目的ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、記録された命令を有するパンチカード若しくは溝内に隆起した構造等の機械式コード化デバイス、及び上記のものの任意の適切な組合せを含む。コンピュータ可読ストレージ媒体は、本明細書で用いられる場合、無線波若しくは他の自由に伝搬する電磁波、導波路若しくは他の伝送媒体を通って伝搬する電磁波（例えば光ファイバケーブルを通る光パルス）、又は電線を通って伝送される電気信号のような一時的な信号自体と解釈すべきではない。

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング／処理デバイスにダウンロードすることも、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワークもしくは無線ネットワーク又はそれらの組合せを経由して、外部コンピュータ若しくは外部ストレージデバイスにダウンロードすることもできる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータもしくはエッジサーバ又はそれらの組合せを含むことができる。各コンピューティング／処理デバイス内のネットワーク・アダプタ・カード又はネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、そのコンピュータ可読プログラム命令をそれぞれのコンピューティング／処理デバイス内のコンピュータ可読ストレージ媒体にストレージのために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の構成データ、又は、Ｓｍａｌｌｔａｌｋ、若しくはＣ＋＋などのオブジェクト指向プログラミング言語及び「Ｃ」プログラミング言語若しくは類似のプログラミング言語のような従来の手続き型プログラミング言語を含む１つ若しくは複数のプログラミング言語の任意の組合せで記述されたソースコード若しくはオブジェクトコードのいずれかとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。後者のシナリオにおいては、遠隔コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）若しくは広域ネットワーク（ＷＡＮ）を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続が行われる場合もある（例えば、インターネット・サービス・プロバイダを用いたインターネットを通じて）。幾つかの実施形態において、例えばプログラム可能論理回路、フィールドプログラム可能ゲートアレイ（ＦＰＧＡ）、又はプログラム可能論理アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路を個別化することにより、コンピュータ可読プログラム命令を実行することができる。

本発明の態様は、本明細書において、本発明の実施形態による方法、装置（システム）、及びコンピュータプログラム製品のフローチャート図もしくはブロック図またはその両方を参照して説明される。フローチャート図もしくはブロック図又はその両方の各ブロック、並びにフローチャート図もしくはブロック図又はその両方のブロックの組合せは、コンピュータ可読プログラム命令によって実装することができることが理解されるであろう。

これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えてマシンを製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャートもしくはブロック図又はその両方の１つ又は複数のブロック内で指定された機能／動作を実装するための手段を作り出すようにすることができる。これらのコンピュータ可読プログラム命令を、コンピュータ、プログラム可能データ処理装置、もしくは他のデバイス又はそれらの組合せを特定の方式で機能させるように指示することができるコンピュータ可読ストレージ媒体内に格納し、それにより、その中に格納された命令を有するコンピュータ可読媒体が、フローチャートもしくはブロック図又はその両方の１つ又は複数のブロックにおいて指定された機能／動作の態様を実装する命令を含む製品を含むようにすることもできる。

コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能データ処理装置又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置又は他のデバイス上で行わせてコンピュータ実装のプロセスを生成し、それにより、コンピュータ、他のプログラム可能装置又は他のデバイス上で実行される命令が、フローチャートもしくはブロック図又はその両方の１つ又は複数のブロックにおいて指定された機能／動作を実装するようにすることもできる。

図面内のフローチャート及びブロック図は、本開示の種々の実施形態による、システム、方法、及びコンピュータプログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート又はブロック図内の各ブロックは、指定された論理機能を実装するための１つ又は複数の実行可能命令を含む、モジュール、セグメント、又は命令の一部を表すことができる。幾つかの代替的な実装において、ブロック内に記された機能は、図中に記された順序とは異なる順序で行われることがある。例えば、連続して示された２つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図もしくはフローチャート図又はその両方の各ブロック、及びブロック図もしくはフローチャート図又はその両方の中のブロックの組合せは、指定された機能又は動作を実行する専用ハードウェア・ベースのシステムによって実装することもでき、又は専用ハードウェアとコンピュータ命令との組合せを実行することもできることにも留意されたい。

本発明の種々の実施形態の説明は、例証の目的で提示したものであるが、網羅的であることも、又は開示された実施形態に限定することも意図しない。説明した実施形態の範囲から逸脱することなく、多くの修正及び変形が当業者には明らかであろう。本明細書で用いる用語は、実施形態の原理、実際的な用途、若しくは市場において見いだされる技術に優る技術的改善を最も良く説明するように、又は当業者が本明細書で開示される実施形態を理解することを可能にするように、選択されたものである。

これらの２８６記号の各々に関連付けられるカウントを格納するために、ソート・ブロックを用いて、２８６個の「記号，カウント」ペアを格納することができる。ハードウェア実装において、これらのペアはラッチに格納される。前述の例で続けると、２４ビットカウンタを有する２８６記号を格納するには、６，８６４個のラッチ（フリップフロップとも呼ばれる）が必要である。このラッチ要件だけでも既に領域集約的であるが、必要なラッチの数は、カウンタが必要とするビットが追加されるごとに２８６だけ増大する。例えば、２５ビットカウンタを用いて２８６記号を格納するには（３２ＭＢデータストリームの場合）、７，１５０ラッチを必要とする。同様に、２６ビットカウンタを用いて２８６記号を格納するには（６４ＭＢデータストリームの場合）、７，４３６ラッチを必要とする。

Claims

入力バッファと、
前記入力バッファの出力に通信可能に結合したＬｅｍｐｅｌ－Ｚｉｖ７７（ＬＺ７７）圧縮器と、
前記ＬＺ７７圧縮器に通信可能に結合し、ビット・トランスレータを含む、ハフマン符号化器と、
前記ハフマン符号化器に通信可能に結合した出力バッファと、
を含む、アクセラレータ。
前記ビット・トランスレータが、第１のビット幅を含む第１の記号カウントを第２のビット幅を含む第２の記号カウントにマッピングするように構成された、請求項１に記載のアクセラレータ。
前記第２のビット幅が前記第１のビット幅より小さい、請求項２に記載のアクセラレータ。
前記ビット・トランスレータは、２４ビットから１０ビットへのトランスレータを含み、前記第１のビット幅は２４ビットを含み、前記第２のビット幅は１０ビットを含む、請求項３に記載のアクセラレータ。
前記ビット・トランスレータは、前記第１の記号カウントに基づいて５ビット・シフトフィールド及び５ビット仮数部を生成するように構成された、請求項４に記載のアクセラレータ。
前記ビット・トランスレータは、前記５ビット・シフトフィールドと前記５ビット仮数部とを連結して前記第２の記号カウントを生成するようにさらに構成された、請求項５に記載のアクセラレータ。
前記アクセラレータは、ＤＥＦＬＡＴＥハードウェア・アクセラレータを含む、請求項１に記載のアクセラレータ。
動的ハフマン表を生成するときに記号ソートに必要なラッチカウントを削減するための方法であって、
複数の第１の記号カウントを定めることであって、前記第１の記号カウントの各々は第１のビット幅を含む、複数の第１の記号カウントを定めることと、
複数の第２の記号カウントを生成することであって、前記第２の記号カウントの各々は前記複数の第１の記号カウントの記号カウントのマッピングに基づくものであり、前記第２の記号カウントは、前記第１のビット幅より小さい第２のビット幅を含む、複数の第２の記号カウントを生成することと、
前記複数の第２の記号カウントを頻度によってソートすることと、
ソートされた前記複数の第２の記号カウントに基づいて動的ハフマン木を生成することと、
を含む方法。
前記第１のビット幅は２４ビットを含み、前記第２のビット幅は１０ビットを含む、請求項８に記載の方法。
前記複数の第２の記号カウントの各々の第２の記号カウントを生成することは、前記複数の第１の記号カウントの第１の記号に基づいて５ビット・シフトフィールド及び５ビット仮数部を生成することを含む、請求項９に記載の方法。
前記５ビット・シフトフィールドと前記５ビット仮数部とを連結することをさらに含む、請求項１０に記載の方法。
前記５ビット・シフトフィールドは、前記第１の記号の最上位非ゼロビットの位置を符号化する、請求項１０に記載の方法。
前記５ビット仮数部は、前記最上位非ゼロビットと、前記第１の記号の次の４つのビットとを符号化する、請求項１２に記載の方法。
前記５ビット仮数部は、前記最上位非ゼロビットの後に続く前記第１の記号の次の５つのビットを符号化する、請求項１２に記載の方法。
動的ハフマン表を生成するときに記号ソートに必要なラッチカウントを削減するためのコンピュータプログラム製品であって、具体化されたプログラム命令を有するコンピュータ可読ストレージ媒体を含み、前記プログラム命令は、電子的コンピュータプロセッサによって実行可能であって、コンピュータ・システムを制御して動作を行わせ、前記動作は、
複数の第１の記号カウントを定めることであって、前記第１の記号カウントの各々は第１のビット幅を含む、複数の第１の記号カウントを定めることと、
複数の第２の記号カウントを生成することであって、前記第２の記号カウントの各々は前記複数の第１の記号カウントの記号カウントのマッピングに基づくものであり、前記第２の記号カウントは、前記第１のビット幅より小さい第２のビット幅を含む、複数の第２の記号カウントを生成することと、
前記複数の第２の記号カウントを頻度によってソートすることと、
ソートされた前記複数の第２の記号カウントに基づいて動的ハフマン木を生成することと、
を含む、コンピュータプログラム製品。
前記複数の第２の記号カウントの各々の第２の記号カウントを生成することは、前記複数の第１の記号カウントの第１の記号に基づいて５ビット・シフトフィールド及び５ビット仮数部を生成することを含む、請求項１５に記載のコンピュータプログラム製品。
前記５ビット・シフトフィールドと前記５ビット仮数部とを連結することをさらに含む、請求項１６に記載のコンピュータプログラム製品。
前記５ビット・シフトフィールドは、前記第１の記号の最上位非ゼロビットの位置を符号化する、請求項１７に記載のコンピュータプログラム製品。
前記５ビット仮数部は、前記最上位非ゼロビットの後に続く前記第１の記号の次の５つのビットを符号化する、請求項１８に記載のコンピュータプログラム製品。
前記複数の第１の記号カウントの第１のカウントと５ビットフィールドとを連結することによって２９ビットフィールドを生成することをさらに含む、請求項９に記載の方法。
動的ハフマン表を生成するときに記号ソートに必要なラッチカウントを削減するためのシステムであって、
アクセラレータと、
コンピュータ可読命令を有するメモリと、
前記コンピュータ可読命令を実行するように構成されたプロセッサと、
を含み、前記コンピュータ可読命令は、前記プロセッサによって実行されたとき、前記アクセラレータに、
複数の第１の記号カウントを定めることであって、前記第１の記号カウントの各々は第１のビット幅を含む、複数の第１の記号カウントを定めることと、
複数の第２の記号カウントを生成することであって、前記第２の記号カウントの各々は前記複数の第１の記号カウントの記号カウントのマッピングに基づくものであり、前記第２の記号カウントは、前記第１のビット幅より小さい第２のビット幅を含む、複数の第２の記号カウントを生成することと、
前記複数の第２の記号カウントを頻度によってソートすることと、
ソートされた前記複数の第２の記号カウントに基づいて動的ハフマン木を生成することと、
を含む方法を行わせる、システム。
前記複数の第２の記号カウントの各々の第２の記号カウントを生成することは、前記複数の第１の記号カウントの第１の記号に基づいて５ビット・シフトフィールド及び５ビット仮数部を生成することを含む、請求項２１に記載のシステム。
前記５ビット・シフトフィールドは、前記第１の記号の最上位非ゼロビットの位置を符号化する、請求項２２に記載のシステム。
前記５ビット仮数部は、前記最上位非ゼロビットの後に続く前記第１の記号の次の５つのビットを符号化する、請求項２２に記載のシステム。
入力バッファから第１の記号を含むデータストリームを受け取ることと、
前記第１の記号に基づいて、第１のビット幅を有する第１の記号カウントを定めることと、
前記第１の記号カウントに基づいて５ビット・シフトフィールドを生成することと、
前記第１の記号カウントに基づいて５ビット仮数部を生成することと、
前記５ビット・シフトフィールドと前記５ビット仮数部とを連結することによって、第２のビット幅を有する第２の記号カウントを定めることと、
前記第２の記号カウントの頻度をソートすることと、
を含む方法。