JP2023522316A

JP2023522316A - 高速ロスレス圧縮のための方法及び装置

Info

Publication number: JP2023522316A
Application number: JP2022562540A
Authority: JP
Inventors: ラミンマルクス
Original assignee: マックス‐プランク‐ゲゼルシャフト・ツア・フェルデルンク・デア・ヴィッセンシャフテン・アインゲトラーゲナー・フェライン
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2023-05-30
Also published as: EP4136755A1; US20230133208A1; WO2021209119A1

Abstract

デジタルデータを圧縮するためのコンピュータにより実行される方法であって、前記方法は、デジタルデータ値のシーケンスを取得することと、前記デジタルデータ値のシーケンスを、符号語のシーケンスにマッピングすることと、前記符号語のシーケンスを、均一なビット長を有する記憶語のシーケンスにパックすることと、前記記憶語のシーケンスを出力することとを含む。本発明に従って、前記方法は、それぞれの前記符号語の前記ビット長を示す情報を出力することをさらに含む。

Description

本発明は、データの高速ロスレス圧縮のための方法及び装置に関する。特に、それは１６ビット整数の高速ロスレス圧縮に関する。

多くの科学実験では、データを測定し、アナログ信号を１２ビットのデジタルデータ（０から４０９５までの数）に変換し、それは、それから１６ビットの符号なし整数として格納される。これは、ほとんどのコンピュータによってサポートされる最小のデータタイプが１２ビット以上であるためである。通常、測定されたデータは、不定期の信号によってのみノイズを含むものとなり、サンプル群は強い相関があるため、サンプル群の間の差分は小さい。

例えば、FlashCamは、地上の画像化大気チェレンコフ望遠鏡のための、デジタルの高性能カメラである。ヘスガンマ線望遠鏡（H.E.S.S.、high energy stereoscopic system）実験装置又は未来の観測所ＣＴＡ（Cherenkov telescope array）のような望遠鏡のアレイは、非常に高いエネルギーのガンマ線の、天文物理学的な発生源を探るために使用される。

FlashCam設計の機能上の主要な構成要素は、ほぼ４平方メートルの面積、並びに高性能で、完全なデジタルトリガー及び読み出しシステムを持つ光検出面である。光検出面は、それぞれが、ピークの量子効率が４０パーセントを上回る１２の光電子増倍管（ＰＭＴ、photomultiplier tube）含む１４７のモジュールからなる。光電子増倍管のアナログ信号は、１２ビット解像度において、１秒あたり２億５０００万サンプルのサンプリングレートで、連続的にデジタル化される。デジタル化された信号のデータストリームは、９６個のＦＰＧＡ（field-programmable gate array）ベースのプロセッサが並列に動作することによって、リアルタイムに処理される。ＦＰＧＡ上に実装されているデジタルフィルタ技術を使用して、エアシャワーに起因する、微弱な、ナノ秒の長さの閃光の一致を特定すること、及び対応する画像群のシーケンスを４ナノ秒の繰り返し時間で記録することが可能である。構成次第で、そのような「ナノムービー」は、最大約１６マイクロ秒の持続期間で記録され得る。画像データは、それから、イーサネットベースのフロントエンドの読み出しを介して、高性能なサーバに転送される。最適化されたスキームを使用すると、毎秒３ギガバイト以上がパケットロスなく転送され得るので、約１００ナノ秒の持続期間で、１秒間に３００００以上の画像シーケンスをデッドタイムなしで取得できる。

このような実験の巨大なデータレートは、ディスクの空き領域を節約するためだけではなく、入出力（Ｉ／Ｏ）速度を上げるためにも、圧縮を必要とする。多くの場合、信号の抽出及びノイズの低減はすぐには実行され得ない。これは、完全なデータセットが、その後の較正のために必要とされるからである。較正の後であっても、元のアルゴリズムにおいてエラーが見つかったときに、そのデータを再較正及び再分析するために、できるだけ多くのデータを保持したいという要望がよくある。

ディスク容量は安価になったが、データを読み書きする（Ｉ／Ｏ）のための時間がしばしばボトルネックになる。

ハードディスクドライブ（ＨＤＤ）は、１秒あたり≒０．１ギガバイトの入出力（Ｉ／Ｏ）速度を提供し、ソリッドステートドライブ（ＳＳＤ）は、１秒あたり≒１ギガバイトの速度を提供する。これは、大規模な実験のデータストリームを処理するには全く十分ではない。解決策は、ディスクアレイを実現することであり、それは、１秒あたりのギガバイトオーダーのトータルの速度を達成し得る。しかし、これらのアレイが大きくなればなるほど、ネットワークインターフェイスは言うまでもなく、アレイの価格もより高くなる。さらに、特に、宇宙素粒子物理学の実験は、都市から離れている必要があるため、発電所、計算センター及び高速通信回線から遠く離れている必要もあり、効率的なデータ処理の問題がさらに重要になる。

データの圧縮は、入出力（Ｉ／Ｏ）速度の向上を助け得る。それは、ディスクからの読み出し又はディスクへの書き込みのデータ量が、係数ｒによって減少するからである。ここで、係数ｒは圧縮比である。しかし、圧縮アルゴリズムを低いｒに最適化するとき、圧縮速度ｖｃ及び解凍速度ｖｄは無視されるべきではない。もしｒ×ｖが、ディスクの入出力（Ｉ／Ｏ）速度を大きく上回らないなら、圧縮することには利点がないかもしれない。

圧縮アルゴリズムはロスレスであることが重要であるが、それは、データ取得の間においては、信号とノイズとの区別が常に可能というわけではないからである。ロッシー圧縮のアルゴリズムを使用するとデータの重要な部分を失う可能性があり危険だからである。

ジー・ジップ（ｇｚｉｐ）のような、たいていの汎用のロスレス圧縮アルゴリズムは、優れた圧縮比及び解凍速度を達成するが、圧縮速度は十分ではない。しかし、データ取得の間は、高いデータレートのため時間的制約が存在し得るので、速い圧縮速度は非常に有用であろう。

例えば、入力ストリームのデータレートが１秒あたり２ギガバイトなら、圧縮比はｒ＝０．３で、圧縮速度は１秒あたり１ギガバイトで、ディスクの書き込み速度は１秒あたり１ギガバイトである。もし圧縮速度が十分に早いなら、入力ストリームは１秒あたり０．６ギガバイトに圧縮され得て、ディスクはそれを容易に保存できるだろう。しかし、圧縮速度が１秒あたり１ギガバイトしかないため、それは可能ではない。加えて、入力ストリーム及びディスクが同じであるが、異なる圧縮アルゴリズムが使用されており、それがより悪く（ｒ＝０．４）、しかし高速（１秒あたり３ギガバイト）に圧縮するとき、入力ストリームは１秒あたり０．８ギガバイトに圧縮され、圧縮速度が入力データレートを上回っているので、それをディスクに保存することが可能である。さらに、もし圧縮（解凍）が速く行われるなら、データ分析のための時間がより多く存在する。

したがって、本発明の目的は、デジタルデータを圧縮するためのより効率的な方法及びシステムを提供することである。

この目的は、独立請求項による方法及び装置によって達成される。有利な実施形態は、従属請求項に定義されている。

第１局面によれば、本発明は、デジタルデータを圧縮する方法であって、前記方法は、デジタルデータ値のシーケンスを取得することと、前記デジタルデータ値のシーケンスを、符号語のシーケンスにマッピングすることと、前記符号語のシーケンスを、均一な（uniform）ビット長を有する記憶語のシーケンスにパックすること（packing）と、前記記憶語のシーケンスを出力することとを特徴とするコンピュータにより実行される方法を含む。本発明によれば、前記方法は、それぞれの前記符号語の前記ビット長を示す情報を出力することをさらに含む。

記憶語は、命令のセット又はプロセッサのハードウェアによって、単位として扱われる固定サイズのデータに対応し得る。１語当たりのビット数（ビット長、語のサイズ、語の幅、又は語の長さ）は、コンピュータの構造及び操作の多くの局面において反映される。プロセッサにおけるレジスタの大部分は、通常、語のサイズである。

多くのアーキテクチャでは、単独の操作において、作業メモリに転送され得る及び作業メモリから転送され得るデータの最大のものは、１語である。最も有利には、符号語のビット長は、したがって、パックされた、符号語のシーケンス（の末尾）が、記憶語の語の境界にアラインされるように、すなわち、パックされたシーケンスが、所与の格納領域を完全に使用するように求められる。

非常にコンパクトな情報を提供するために、それぞれの符号語のビット長を示す情報は、第１ビットマスクであり得る。前記第１ビットマスクは、それぞれの符号語について、前記符号語の前記ビット長を示す１つ以上のビットを備えてもよい。

圧縮をデータに適応させるために、最小限の圧縮速度を犠牲にするが、前記方法は、前記デジタルデータ値のシーケンスに基づいて、符号語の１つ以上のビット長を選択することをさらに含み得て、前記デジタルデータ値のシーケンスは、符号語のシーケンスにマッピングされ、前記符号語は、それぞれが前記選択されたビット長のうちの１つを有する。前記選択は、異なる符号語のビット長又は符号語のビット長の組み合わせに起因する格納領域の要件を比較することによって行われ得る。特に、格納領域の要件に基づく前記選択は、二分探索の手順を使用して行われ得て、それによって、１つ以上の、冗長な明示的な比較を排除する。最も特に、前記１つ以上のビット長は、0ビット, 1ビット, 2ビット, 3ビット, 4ビット, 2又は5ビット, 5ビット, 3又は6ビット, 6ビット, 4又は8ビット, 8ビット, 6又は12ビット, 12ビット, 6又は16ビット, 8又は16ビット, 16ビット又はその任意のサブセットのビット長又はビット長の組み合わせから選択され得て、それは、発明者による実験によって、高い圧縮比と速い圧縮速度とを同時に提供することを示した。

前記符号語は、不均一なビット長を有するように制限され得て、それは、所与の、デジタルデータ値のブロックについて、全ての符号語ではなく一部の符号語が、同一のビット長を有することを意味する。符号語の不均一なビット長は、４、６、８及び１６ビットのうちの少なくとも２つであり得る。代替として、前記符号語は、２個だけの異なるビット長を有してもよい。特に、前記符号語の、前記２個の異なるビット長は、2/5ビット、3/6ビット、4/8ビット、6/12ビット、6/16ビット、又は8/16ビットの組み合わせのうちの１つであり得る。

ビット長の組み合わせを使用するときに、必要とされる格納領域さらに減少させるために、前記符号語のシーケンスをパックすることは、まず、それぞれの符号語のｌ１ビットのシーケンスを前記記憶語にパックすることであって、ｌ１は前記符号語の最小ビット長に対応する、ｌ１ビットのシーケンスをパックすることと、次に、ｌ１より大きいビット長を有する前記符号語の残りのビットを、前記残りの記憶語にパックすることと、を含み得る。ｌ１より大きいビット長を有する前記符号語の前記残りのビットをパックすることは、まず、それぞれの残りの符号語のｌ２－ｌ１ビットのシーケンスを前記残りの記憶語にパックすることであって、前記ｌ２は前記符号語の２番目に小さいビット長に対応する、ｌ２－ｌ１ビットのシーケンスをパックすることと、次に、ｌ２より大きいビット長を有する前記符号語の前記残りのビットを、前記残りの記憶語にその後パックすることと、を含み得る。

前記デジタルデータ値の絶対値のみが符号語にマッピングされ得て、符号は別々に符号化される。特に、前記方法は、それぞれのデジタルデータ値について、その符号を、好ましくは第２ビットマスクの形式において示す情報を出力することをさらに含み得る。

最も有利には、本発明は、いわゆる残差の変換のコンテキストにおいて適用され得て、それは、選択されたデータモデルに基づいて、データの最初のブロックを減少させる。ここで、前記デジタルデータ値を取得することは、元のデジタルデータのブロックを受け取ることと、前記デジタルデータ値を残差として取得するために、前記元のデジタルデータのブロックを変換することと、を含み得る。有利には、前記変換は、選択されたモデルに従って、前記元のデータと近似し、いわゆる残差をもたらし、それは元のデータと近似値との差として理解され得る。例えば、変換は、残差を小さくするために、元のデータブロック（別々に符号化されるべき）の最小値を、元のデータから減算することを含み得る。他の種類の残差は、予測符号化、特に、音声及び画像の符号化の分野で既知である方法によって取得され得て、その場合、信号成分は、画像又は音声モデルに従って予測される。最も特に、前記元のデジタルデータのブロックは、ウェーブレット変換を使用して変換され得る。前記ウェーブレット変換は、モルフォロジカルウェーブレット変換又は反復されるウェーブレット変換であり得る。前記ウェーブレット変換は、４回反復され得る。

第２局面によれば、本発明は、ビット長インジケータ（群）及び符号化されたデータに基づいて、前の方法に従って、符号化されたデータをデコードするための方法も提供する。

最も有利には、本発明の方法が比較的単純であるため、多くの並列化とともに及び／又はＡＶＸ２又は類似の専用のプロセッサ命令を使用して実現される。

本明細書に記載されている、本発明のさまざまな実施形態は、速度と圧縮比とのトレードオフを提示する。それらは、最大の可能な圧縮を提供するわけではないが、非常に高速であるため、入出力の速度が大きく向上する。それらは、入力データが、連続する符号なしの１６ビットの整数からなり、整数の差分は小さいという仮定に基づいている。さらに、もし入力値のうちのいくつかがこの制約条件に拘束されないとしても、効果的な圧縮は依然として可能である。

図１は、本発明の実施形態に従って、デジタルデータを圧縮するための方法のフロー図を示す。図２は、図１における、反復されるモルフォロジカルウェーブレット変換のステップ１２０のより詳細なフロー図を示す。図３は、図４において示されている方法の可能な実現例を示す。図４は、ビット範囲（組み合わせ）を求めるための方法を示す。図５は、ビット範囲（組み合わせ）を求めるための代替となる方法を示す。図６は、本発明の実施形態に従って圧縮されたデジタルデータのブロックのレイアウトを示す。図７は、１６個の値の、２／５ビットの符号化の例を示す。符号化されたストリームにおいて、最初にビットマスクが送られて（２バイト）、その後に１０個の２ビット値（２０ビット→３バイト）、次に６個の５ビット値（３０ビット→４バイト）が続く。図８は、本発明の方法と既知の圧縮方法の比較の結果を示す。

図１は、本発明のさらなる実施形態による、デジタルデータを圧縮するための方法１００のフロー図を示す。

符号なしの１６ビットの整数のブロック１１１が、ステップ１１０において読み出される。ステップ１２０において、1つ以上の最低値１２１及び１つ以上の残差１２２を得るために、図２に関連してより詳細に説明される、1つ以上の、いわゆるモルフォロジカルウェーブレット変換が、ブロック１１１に適用される。残差１２２に基づいて、残差の符号化のために使用される１つ以上のビット範囲が、ステップ１３０で選択される。インジケータ、例えばビットマスク１３１が出力されるが、それは選択されているビット範囲（群）を示す。ステップ１４０では、残差は、それから、符号化された残差１４１を得るために、１つ以上の選択されたビット範囲（群）に基づいて符号化される。ステップ１５０において、同じく符号化されていたかもしれない最低値１２１（不図示）、符号化された残差１４１及びビットマスク（群）１３１は、それから、組み合わせられ、ステップ１０６において出力される。

その後、もし圧縮する値が２５６より多い個数残っているなら、本方法は、冒頭のステップ１１０に戻り（不図示）、そうでない場合には、残りの値を出力にコピーしてステップ１１０に戻る。

このアルゴリズムの並列化は可能である。それは、より大きいブロックは独立して処理され得るからである。

図２は、図1における、反復されるモルフォロジカルウェーブレット変換ステップ１２０のより詳細なフロー図を示す。

数理形態学は、幾何学的構造の分析のための理論である。基本的な概念は、構造Ｘを構造要素Ｂによってトラバース（traverse）して、所望の演算に従って、それぞれのポイントを修正することである。

したがって、膨張は、それぞれがＢによって定義されている近傍によって拡張されているＸにおける全ての点の和集合であり、侵食は、その点に変換されたＢが完全にＸにおいて存在する、Ｘにおける全ての点の集合である。膨張は、物体を膨張させ、内部の小さい穴を塞ぎ、物体の境界において張り出し、一方で、侵食は、物体を侵食させ、外部の小さい島部を除去し、物体の境界において突出部を引き込む。

この概念は、ビットマスクから、グレースケール画像及び他の信号へ拡張され得る。ｆを入力信号とし、ｂを台Ｂを有する構造関数とする。すると膨張及び侵食は、次のように定義される。

圧縮されるべき、１次元の、１６ビットの符号なしの整数入力ストリームの場合、構造要素は、わずか２ピクセル幅になるように選択される。もし侵食がそのときローパスフィルタとして使用され、侵食された信号と元の信号との差分がハイパスフィルタとして使用されるなら、モルフォロジカルウェーブレット変換は以下のように定義され得る。

逆変換は以下のようになる。

最低値は、符号なし短整数型の範囲（0, . . . , 65535）に留まることが保証されているが、差分はその範囲を超えてもよく、それらは［-65535, . . . , 65535］の区間にある。差分の符号を抽出及び格納することは、そのようなオーバーフローを防ぐ。加えて、入力データはノイズが多いので、差分の符号はほとんどランダムであり、よって圧縮比に対して悪影響はない。

通常はローパスフィルタとして平均値を使用する他のウェーブレットとは対照的に、モルフォロジカルウェーブレットは、スパイクを、サブサンプリングされた信号にマージしないので、それによって次の分解レベルにおいて差分がより小さくなるため、圧縮比が向上する。

例えば、入力信号ｖが、ノイズの多いベースラインに加えて不定期にスパイクがあると仮定すると、Ｍ（ｖ）はｖのペアワイズ平均値、ｍ（ｖ）はｖのペアワイズ最小値、ｄ（ｖ）はｖのペアワイズ絶対差である。

平均値を使用するとき、符号化する残差は、１，２，９６，３，２，５０，２６，１４であるが、最小値を使用するとき、符号化する残差は、１，２，９６，３，１，３，０，１である。この例を見れば、平均値はスパイクをより低いウェーブレットレベルに伝えるので、その結果全体的な残差が大きくなるのに対して、最小値はスパイク自体を速く取り除くので、その結果残差が小さくなることが分かる。このウェーブレット変換の最悪のケースは、不定期に下降するスパイクを伴う高いベースラインがある場合であり、その場合、ペアワイズサンプルの最大値が、ウェーブレット分解において、より優れたローパスフィルタであることになる。しかし、ほとんどのデータセットにおいて、ベースラインは信号を下回っており、最大値又は最小値のどちらが使用されたかを記録することは、余分なヘッダースペースを消費するだろう。

これらの計算は、１６の差分又は１６の最小値の計算について１つのサイクルのみを使用して、ＡＶＸ２の命令で効率的に実行され得る。しかし、レジスタ内部でデータの再配列及び準備には、さらに多くの時間が費やされる。

図３は、３２個の符号なしの短整数がメモリから読み出され、先述のモルフォロジカルウェーブレットを使用して変換される例示的実現例を示す。

圧縮アルゴリズムにおいて、２５６個の値のブロックは、１２８個の最低値及び１２８個の差分に変換される。差分は通常は小さいが、６４個の最低値及び６４個の差分を得るために、最低値は再度変換される必要がある。この再帰的プロセスは、１つのみの最低値及び２５５個の差分が残るまで続くが、ここでは４番目のレベルにおいて停止し、２４０個の差分及び１６個の最低値が得られる。さらなる分解をしても、ＡＶＸ２によって提供される並列処理を、完全に活用できないであろう。これは、４番目のレベルにおける最後の１６個の最低値は、半分埋められた、２つのＡＶＸ２レジスタに分けられなければならないからである。

図４は、図１のステップ１３０において使用され得る、ビットマスクの選択のための方法のフロー図を示す。

ウェーブレット変換によって生成される残差は、全て［0, . . . , 65535］の区間にあるが、それは符号が別々に格納されるためである。通常、それらは非常に小さいので、それらは、元の数で使用されていた１６ビットよりはるかに少ないビット数を使用して格納され得る。しかし、１６個の残差のブロックに対してレンジ符号（range coding）だけを使用すると（第１実施形態におけるように）、大きな値がたった１つ入力されただけでも、ブロックの他の１５個の値は、より多くのビット数で符号化せざるを得なくなる。

そのような外れ値を処理するために、異なる範囲を識別するためにビットマスクを使用し、それから、必要なビット数で値を格納することが提案される。例えば、２つの範囲が４ビット及び１６ビットであり、１１個の数が４ビットであり、５個の数が１６ビットであるなら、マスクについて１６ビットの他に、値について１１×４ビット＋５×１６ビットのオーバーヘッドが存在する。さらなる４ビットが失われるが、４ビット値の４４ビットは、バイト境界に並んでいないからである。これによって、元の２５６ビットと比較して、合計では１６＋４４＋８０＋４＝１４４ビットになる。もし、格納する１１×４ビット及び５×１２ビットが存在するなら、バイトのアラインメントにより２×４ビットは失われる。それらをメモリに格納する前に、２ビットストリームを連結させることは可能だが、ＡＶＸ２ではそのようなビット処理は高価であり、複雑である。

シングルビットマスクについての問題は、それは２つの範囲についてしか提供せず、選択すべき範囲が明確でないことである。４ビット及び１６ビットは、いくつかのデータに対しては正確な値であり得るが、他のデータについては、２ビット及び８ビットがより正確であり得る。異なるノイズレベル及び外れ値に対して柔軟であるために、４，６，８及び１６ビットの範囲が選択される。必要とされる範囲をマーキングするには、４，６，８及び１６ビットの４つの可能性のために、数ごとに２ビットのオーバーヘッドが必要になる。

全ての１６の数の下位４ビット（ビット０－３）は、常に格納される。それから、４ビットの範囲に収まらない全ての数について、次の２ビット（ビット４及び５）が格納される。それから、６ビットの範囲に収まらない全ての数について、次の２ビット（ビット６及び７）が格納される。最後に、８ビットの範囲に収まらない全ての数について、最後の８ビット（ビット８－１５）が格納される。

よって、１６の符号なし短整数型のブロックｖについて、３つのビットマスクが以下のように生成される。

ビットマスクがすでに一部の範囲を除外しているという事実を活用することによって、圧縮比の向上が少しながら達成され得る。例えば、もしビットマスクが、数は、格納されるために６ビットを必要とすることを示すなら、0, . . . , 15の数であり得ない。よって、６ビットの数のための範囲は、0, . . . , 15から0, . . . , 79にシフトされ得る。同じことが８ビットの範囲にも当てはまり、それは、0, . . . , 255から80, . . . , 335にシフトされ得る。これらの最適化はアルゴリズムにおいて行われるが、次の例を明瞭にするために、ここでは行われない。

この３つのマスクがあると、アルゴリズムにとっては便利だが、そのままの状態で格納することは、それらが冗長になるので適切ではないだろう。それは、それぞれの数は４つの範囲のうちの１つだけに存在するので、数を格納するには２ビットで十分であることから容易に理解できる。次の変換は、３つのマスクを２つのマスクに組み合わせる。

逆変換は以下のようになる。

１６の符号なし短整数型のブロックｖの以下の例について、ＢｉはＶｉを格納するのに必要とされるビット数であり、ｂ４，ｂ６及びｂ８は、範囲（４，６，８，１６）のうちのいずれが数を格納するために使用される必要があるかを定義するビットマスクであり、ｘ及びｙは変換されたビットマスクである。
ｖ＝（0，20，2，1，19023，550，128，127，255，256，60，70，14，102，22，62）
Ｂ＝（0，5，2，1，15，10，8，7，8，9，6，7，4，7，5，6）
ｂ４＝（0，1，0，0，1，1，1，1，1，1，1，1，0，1，1，1）
ｂ６＝（0，0，0，0，1，1，1，1，1，1，0，1，0，1，0，0）
ｂ８＝（0，0，0，0，1，1，0，0，0，1，0，0，0，0，0，0）
ｘ＝（0，1，0，0，1，1，0，0，0，1，1，0，0，0，1，1）
ｙ＝（0，0，0，0，1，1，0，0，0，1，0，0，0，0，0，0）
このビットマスクエンコーディングの出力は以下である。

・ビットマスクｘ及びｙ
・ｖにおける全ての値のビット０－３
・ｂ４ｉ＝１である全てのｖｉのビット４－５
・ｂ６ｉ＝１である全てのｖｉのビット６－７
・ｂ８ｉ＝１である全てのｖｉのビット８－１５
このアルゴリズムは、外れ値及びノイズの多いデータに対して堅牢であり、典型的なデータに対して優れた圧縮比及びコアあたり１．８ＧＢ／ｓの速度を達成する。しかし、異なるデータセットでのいくつかのテストの後、圧縮比は常に期待通りではないことが判明した。

圧縮比をさらに向上させるために、本発明のさらなる実施形態は、範囲（４，６，８及び１６ビット）をハードコードせず、ダイナミックレンジを代わりに使用することを提案する。

図５は、図１のステップ１３０において使用され得る範囲／ビットマスクの選択についての代替の方法のフロー図を示す。

この実施形態によれば、最終的な符号化は、前述の方法において使用されているような、１つの、固定された２ビットのマスクを使用する代わりに、１６の異なる範囲及び範囲の組み合わせから、最良の圧縮比をもたらすものを選択する。一方では、１６の符号化のうちのどの符号化が最適であったかを示すビットマスクは、追加の４つのヘッダービットを消費するが、他方では、前述の方法の４－６－８－１６ビットの符号化のために必要である３２ビットのオーバーヘッドはなくなる。しかし、ここで示されるように、１６の符号化のうちのいくつかはビットマスクも使用するが、これらのビットマスクは、２つの範囲を区別するだけなので、値につき１ビットしか消費せず、１６の値のブロック全体では、わずか１６ビットのオーバーヘッドしか失われない。

より具体的には、１６の符号なしの１６ビットの値（すなわち、０から６５５３５までの１６個の数）は、メモリに、時間的に効率よく格納される必要がある。この値は残差（ウェーブレット分解の差分限界（difference limits））であるので、それらは、たいていは小さく、ノイズが多いので、それらをさらに圧縮する価値はない。それらは小さいので、それぞれの値について１６ビットを使用する必要はなく、より少ないビット数でそれらを圧縮することを試みてもよい。単に１６個の数のうち最大の数を見つけて、その数のビット範囲で、全ての値を格納すればよい。しかし、もし数が外れ値であったなら、ほとんどの数をより小さいビット範囲で格納し、外れ値をより大きいビット範囲で分けて格納したほうが良いだろう。

最適なビット範囲又はビット範囲の組み合わせを探すとき、以下の局面が考慮されるべきである。

１．もしビット範囲が格納されているなら、ヘッダーのみが、選択されているビット範囲を含む必要があり、全ての数はそのビット範囲で格納される。例：1 0 3 2 1 3。この場合、２ビットで十分である。しかし、もし数のうちの多くがより少ないビット数で格納され得るなら、数をビット範囲の組み合わせで格納することが便利かもしれない。例えば、1 0 3 200 1 3の場合、全ての数は２ビットで格納され、２００は８ビットで格納される。ビット範囲の組み合わせの欠点は、どこに（この例においては）２ビットの数及び８ビットの数が格納されているかを示すビットマスクが必要なことである。この時のマスクは000100のようになり、１６個の数は１６ビット長である。「ビット範囲」と「ビットマスク＋ビット範囲の組み合わせ」との間の最良なトレードオフが発見されなければならない。

２．ビット範囲又はビット範囲の組み合わせは、メモリの空間が無駄にならないように、格納される数とできるだけ一致するべきである。

３．最良のビット範囲の組み合わせについての検索は高速でなければならないため、あまり多くのビット範囲の組み合わせはテストされるべきではない。

４．ビット範囲の組み合わせは、保存が速くなるように選択されるべきである。例えば、７ビット及び１５ビットをビット範囲の組み合わせだとすると（すなわち１６個の数のそれぞれが、７ビット又は１５ビットのどちらかで符号化される）、多くのビットは移動されなければならず、ワード（バイト）境界が考慮されなければならない。例えば、８ビット及び１６ビットのビット範囲の組み合わせは、はるかに高速である。

本発明の実施形態において、以下の１６ビットの範囲及びビット範囲の組み合わせが提案される：0, 1, 2, 3, 4, 2/5, 5, 3/6, 6, 4/8, 8, 6/12, 12, 6/16, 8/16, 16。１６個の数のそれぞれのブロックについて、２^４＝１６のビット範囲（組み合わせ）のどれが使用されたかを示すために、４ビットが使用されなければならない。

１６個の符号なし短整数型のブロックについては、最初に、それらのうちのいくつが、符号化のために何ビット必要かをチェックされる。必要とされるビット範囲の分布に基づいて、それらの全てはｎビットの値として格納されるか、又はビットマスクのエンコーディングが使用され、それらのいくつかはｎビットの値として格納され、残りはｍビットの値として格納されるかが決定される。

０－ビット範囲：全ての値は０、何も書き込まない。

１－ビット範囲：それぞれの値は１ビットを使用して符号化され得て、１６×１ビットが格納される。

２－ビット範囲：それぞれの値は２ビットを使用して符号化され得て、１６×２ビットが格納される。

３－ビット範囲：それぞれの値は３ビットを使用して符号化され得て、１６×３ビットが格納される。

４－ビット範囲：それぞれの値は４ビットを使用して符号化され得て、１６×４ビットが格納される。

２／５ビットマスク：５ビットを超える値はなく、全ての値を５ビットで格納することと比べて、ビットマスク符号化が割に合うのに十分な２ビット値が存在する。ビットマスク、全ての値のうちの最下の２ビット及び全ての５ビット値のうちの上位３ビットを格納する。

５－ビット範囲：それぞれの値は５ビットを使用して符号化され得て、１６×５ビットが格納される。

３／６ビットマスク：６ビットを超える値はなく、全ての値を６ビットで格納することと比べて、ビットマスク符号化が割に合うのに十分な３ビット値が存在する。ビットマスク、全ての値のうちの最下の３ビット及び全ての６ビット値のうちの上位３ビットを格納する。

６－ビット範囲：それぞれの値は６ビットを使用して符号化され得て、１６×６ビットが格納される。

４／８ビットマスク：８ビットを超える値はなく、全ての値を８ビットで格納することと比べて、ビットマスク符号化が割に合うのに十分な４ビットの値が存在する。ビットマスク、全ての値のうちの最下の４ビット及び全ての８ビット値のうちの上位４ビットを格納する。

８－ビット範囲：それぞれの値は８ビットを使用して符号化され得て、１６×８ビットが格納される。

６／１２ビットマスク：１２ビットを超える値はなく、全ての値を１２ビットで格納することと比べて、ビットマスク符号化が割に合うのに十分な６ビットの値が存在する。ビットマスク、全ての値のうちの最下の６ビット及び全ての１２ビット値のうちの上位６ビットを格納する。

１２－ビット範囲：それぞれの値は１２ビットを使用して符号化され得て、１６×１２ビットが格納される。

６／１６ビットマスク：全ての値を１６ビットで格納することと比べて、ビットマスク符号化が割に合うのに十分な６ビットの値が存在し、ビットマスク、全ての値のうちの最下の６ビット及び全ての１６ビットの値のうちの上位１０ビットを格納する。

８／１６ビットマスク：全ての値を１６ビットで格納することと比べて、ビットマスク符号化が割に合うのに十分な８ビットの値が存在し、ビットマスク、全ての値のうちの最下の８ビット及び全ての１６ビットの値のうちの上位８ビットを格納する。

１６－ビット範囲：１６×１６ビットが格納される。

１６個の符号なし短整数型の、それぞれのブロックについて、使用するビットの数が最小になる符号化が選択される。

図６は、適切なビット範囲（組み合わせ）を求めるための、二分探索の方法（擬似コードで）を示す。図６の擬似コードにおける、「space」関数は、特定の符号化スキームを使用して、例えば６／１６の組み合わせを使用して空間要件（space requirement）を測定する。

類似のスキームは、８ビット、３２ビット又は６４ビットのデータについても構築され得る。例えば、８ビットのデータは、以下のビット範囲を使用して符号化され得る。すなわち0, 1, 2, 4, 2/6, 4/6, 4/8 及び 8のビット範囲である。

１６の異なる符号化が存在するので、どの符号化が選択されたかを伝えるためには、４つのヘッダービットが必要になる。これらの１６より多い可能性から選択することができれば、数をより適切に符号化するのに確実に役立つが、４つより多いヘッダービットが必要となり、さらに、符号化が多くなると、より多くの範囲テストを必要とし、それはアルゴリズムの速度を低下させてしまう。上の組み合わせは、圧縮比とスピードとの間の妥協点である。それは、それらは多くのノイズレベル、信号強度をカバーするが、それでも必要なチェックが多すぎるわけではないからである。最も重要なことは、それらがＡＶＸ２の命令でプログラムされるのに十分に単純であることである。これは、より複雑なアルゴリズム、特にハフマンツリー及びビットストリームを使用する場合には、通常は当てはまらない。

１６×１６の値の、圧縮されたブロックの配置は以下のとおりである。

１６個の４ビットの範囲指定子は、６４ビットの数として連続的に格納されるので、もしデータが圧縮不可能であったなら、１つのｉｆ命令だけを使用してチェックすることが可能である。上の符号化のリストに見られるように、もし１６の値のブロックが圧縮可能ではなく、それらをコピーすることによってのみ格納され得るなら、その４ビットのヘッダーは１５であり、それは２進法では１１１１である。もし全ての１６のブロックがそのように格納されるなら、６４ビットの数は全てのビットセットを有し、それはｉｆ（ｘ＝＝－１）でチェックされ得て、ここで、ｘは１６個の４ビットの範囲指定子を含む６４ビット長の整数である。

非圧縮データは通常、全てのヘッダービットが１にセットされている。しかし、もしメモリにおいて１６ビットの境界に正確に並んでいないなら、圧縮可能な１６ビットのデータも、全てのヘッダービットが１にセットされており、これは、圧縮されるべきデータを持つファイルが奇数個のヘッダーバイトを有する場合に発生する。ここに、１６ビットの符号なし整数の圧縮についての、正確なアラインメントの重要性を示す２つの例を示す。

例１において、データは１６ビットにアラインされているので、アルゴリズムは、１６ビットの値ではなく、少なくとも８ビットの値として数を格納することができるだろう。次の例では、数は同一だがヘッダーバイトが追加されており、それは数がアラインされていない状態を生じさせる。

例２において、データはもはや１６ビットにアラインされないので、より低いバイトが上位のバイトになり、データは、その範囲エンコーダについては圧縮不可能になる。

そのような場合には、全ての６４個のヘッダービットは１にセットされ、データがアラインされていない（又は実際には圧縮可能ではない）ことを示す。２５６個の値のブロックは、再読み出しされず、その代わりに、圧縮されず単純に書き込まれる。しかし、その後、入力ストリームからの次のバイトは、単純に（出力ストリームに）コピーされるので、入力ストリームは１６ビットにアラインされる。もしデータが圧縮不可能なら、これは何も改善させないが、悪化させることもない。

図７は、１６個の値の、２／５ビットの符号化の例を示す。符号化されたストリームにおいて、最初にビットマスクが送られて（２バイト）、その後に１０個の２ビット値（２０ビット→３バイト）、次に６個の５ビット値（３０ビット→４バイト）が続く。

オプションとして、長いシーケンスの定数又は圧縮不可能なデータを捉えるために、最初の読み出しステップ１２０の間にヒューリスティックチェック（不図示）が実行されてもよい。

［ベンチマーク］
図８は、本発明の方法を、既知の圧縮方法と比較した結果を示す。ここで、図１に関連して記載されている方法（以下でｆｃ１６として参照される）が、以下の表において、最先端の圧縮プログラムと比較される。

ライブラリデンシティ（libraries density）及びTurboPForが提供するさまざまな圧縮アルゴリズムに比べて、この表において言及されているものが、このベンチマークのデータセットに対しては最高のパフォーマンスを発揮した。

いくらかのプログラムは、圧縮速度と引き換えに、圧縮比を制御できる。通常は、これは、コマンドラインスイッチの－１（最高速度）及び－９（最大圧縮）にわたって行われる。このベンチマークは、５１２ギガバイトのＲＡＭ、コアあたり３２キロバイトのＬＩキャッシュ、コアあたり２５６キロバイトのＬ２キャッシュ及び１秒あたり≒１ギガバイトのディスクの入出力（Ｉ／Ｏ）速度を持つ、２０コアのＩｎｔｅｌ（登録商標）Ｘｅｏｎ（登録商標）ＣＰＵＥ５－２６９８ｖ４＠２．２０ＧＨｚ上で実行された。このベンチマークにおける全てのプログラムは、リソースを消費するいかなる他のプログラムもマシン上では実行されていない状態で、単一スレッドで実行された。圧縮速度（解凍速度）は、ディスクの入出力（Ｉ／Ｏ）速度に近いか、又はそれを上回り得るので、全てのベンチマークは、各作成者によって提供されたプログラムを使用してインメモリで行われるので、ディスクの入出力（Ｉ／Ｏ）はアルゴリズムの障害にはならない。ｇｚｉｐ及びｌｚｍａについては、インメモリベンチマークモードが存在しないが、それらのボトルネックは入出力（Ｉ／Ｏ）ではないので、それらは単純に、ディスクからテストファイルを読み出し、圧縮された出力を／ｄｅｖ／ｎｕｌｌに書き込むだけであり、これは出力が破棄され、ディスクに何かを書き込むのに時間が費やされることはないことを意味する。アルゴリズム１－３は、それらがあらゆる面でアルゴリズム４（ｆｃ１６）に劣っているため、このベンチマークの一部ではない。多くの他の圧縮プログラムが存在するが、上のリストは、最良の圧縮比から最速の圧縮までの全てをカバーする。ｌｚｍａ，ｇｚｉｐ，ｚｓｔｄ，ｓｎａｐｐｙ及びｄｅｎｓｉｔｙと比較するのは不公平であるが、それは、これらが汎用の圧縮プログラムだからであり、ＴｕｒｂｏＰＦｏｒ及びｆｃ１６と同様に、整数だけでなく任意の種類のデータを圧縮し得ることを意味する。しかし、多くの科学者は、それらをデータ上で使用するので、もしＴｕｒｂｏＰＦｏｒ又はｆｃ１６を使用するなら、圧縮比及び速度がどのように変化するかを知ることは、彼らにとって興味深いかもしれない。圧縮スイートのＴｕｒｂｏＰＦｏｒ及びｄｅｎｓｉｔｙは、いつくかの圧縮プログラムを提供するので、最良の３つがこのベンチマークに含まれる。

このテストデータのセットは、以下のファイルを備える（ノイズの少ないレベルからノイズの多いレベルに順序付けられる）。hawc.dat（HAWC data），gerda.dat（GERDA data），ctamc.dat（CTA prod3 Monte Carlo simulations），fc_300MHz.dat（300メガヘルツ／ピクセルのフォトンレートで人工的に起動されたデータであるFlashCam），fc_1200MHz.dat（1200メガヘルツ／ピクセルのフォトンレートで人工的に起動されたデータであるFlashCam），chec.dat（16ビットにアラインされていないCHEC-Sデータ）及びchec_aligned.dat（check.data と同じだが、ファイルの最初のバイトが削除されているので、データは16ビットにアラインされている）。

［結果］
図８において見られるように、ｆｃ１６は、最も強力な圧縮アルゴリズム（ｌｚｍａ）とほぼ同じくらい良好に圧縮するが、速度は３桁早い。圧縮速度において最も近い対抗製品（vbzenc16）は、圧縮比がはるかに悪く、解凍が著しく遅い。また、データが圧縮するのにそれほど単純でないとき（CHEC及びctamc）、その圧縮速度はｆｃ１６の圧縮速度の半分に低下する。解凍速度及び圧縮比において最も近い対抗製品（p4nzenc16及びp4nzenc128v16）は、ｆｃ１６より圧縮速度が８０％遅い。それらは、ｆｃ１６よりわずかに優れた圧縮比を有するが、ほとんど全ての場合において、解凍するのが遅い。さらにそれらは、アラインされていないデータを扱うことができない。

他の高速整数圧縮アルゴリズムであるp4nzenc16及びp4nzenc128v16と比較するとき、本発明の方法は、ほとんどいつも、最も早い圧縮プログラム及び解凍プログラムである。汎用の圧縮プログラムであるsnappy，chameleon，cheetah，lion及びlz4は、それらの圧縮速度が遅く、圧縮比が悪いので、ｆｃ１６に対して負ける。他の汎用圧縮プログラムであるlzma，gzip及びzstdは、圧縮比においてｆｃ１６に匹敵するが、桁違いに遅い。

図８における２つの上のプロットは、全てのデータセットについての、圧縮（解凍）速度及び圧縮比の平均比を示す。これらの数は重要であるが、それは、これらがユーザに、圧縮されていないデータがどれくらい処理され得るか（「書き込まれ圧縮される」又は「読み出され解凍される」）を示すからである。下部のプロットは、圧縮速度、解凍速度及び圧縮比の組み合わせである。それは、圧縮速度及び解凍速度の平均値を圧縮比で割ったものを示し、それは圧縮されていないデータが処理され得る平均速度である。

p4nzenc16及びp4nzenc128v16は、同一の圧縮比及び圧縮速度を有するので、統合されている。gzip-1，gzip-9及びzstd-9についても同じことがなされている。

［並列処理］
独立して処理されるブロックは、わずか５１２バイトのサイズなので、本発明の方法は、非常に簡単に並列処理され得る。そのような小さいブロックサイズはまた、ハードウェアにおける実現を単純化する。

この並列化可能性は、ｆｃ１６の実現にも反映される。複数のスレッドを使用するので、入力ストリームは、典型的な約１ＭＢのブロックに分割され、それから、それぞれのブロックは別のスレッドにおいて処理される。スレッドあたり、２－３ＧＢ／秒の圧縮速度及び２－３ＧＢ／秒の解凍速度が、通常のデスクトップＰＣで達成される。速度はスレッドの数に応じて向上するが、直線的ではない。インメモリテストにおいて、Ｘｅｏｎプロセッサ上の複数のスレッドは、１０ＧＢ／秒を超える圧縮速度を達成した。

このアルゴリズムも、ベクトル命令を持つＣＰＵ群上で高速で実行するように、特別に設計された。ＡＶＸ２での実現のために、１６個の１６ビットの数のブロックサイズが使用されたが、これは、ＡＶＸ２レジスタが２５６ビットの大きさであるからである。

この最も小さいレベルでの並列化は、１つの算術演算を、全ての１６個の数に同時に適用することによって機能する。例えば、ＡＶＸ２レジスタにおいて、そこから１つの数ｎを減算したい１６個の数x[0],x[1], . . . , x[15]がある場合、ＡＶＸ２は原則として、y=vector_subtract(x,n)のように動作し、１つのプロセッサのクロックサイクルしかかからない。シリアルプログラミングを使用すると、(i=0;i<16;i++){y[i]=x[i]-n}のようにループを使用しなければならず、より多くのクロックサイクルがかかる。本発明のｆｃ１６アルゴリズムは、加算、減算、比較等のような単純な演算からしかほとんど構成されないように特別に単純に保たれ、それはベクトル命令として存在し、通常は１つのクロックサイクルしか必要としない。

ＡＶＸ２で並列化されるべきアルゴリズムを設計するとき、アルゴリズムは非常に制限されるが、それは、自由に使用できる算術演算が少なくなり、（さらに重要なことに）レジスタにおける全ての数が等しく扱われるからである。

結論として、本発明の方法が並列化に適している理由は下記のとおりである。

・アルゴリズムそのもの（及びそれに対応するハードコードされた辞書）が単純な算術演算しか生まず、それらはレジスタ内のどの数についても同じである。

・２５６個の数の小さいブロックサイズ（--＞５１２バイト）であり、これらは独立して処理される。

［エネルギー効率］
このアルゴリズムは、最初にハフマンツリー又は類似のものを構築しなければならない従来のアルゴリズムよりエネルギー効率がより良い。

［応用例］
このアルゴリズムは、画像圧縮にも適しているので、多くの可能な応用例が存在する。例えば、自走者のテスト走行の間、システムがなぜ、どのように反応したかが後で理解され得るように、全てのセンサーデータ（上のベンチマークでのように、９０パーセント以上が１２ビットのＲＧＢ（赤緑青）の生のストリーム）が記録される。１日１台当たり、５０－１００テラバイトのデータが、そのようなテスト走行では格納される。全てのデータはロスレスで記録されるので、データ記録が制限する要因となる。このような記録ボックスを自動車メーカーに販売することを専門とする会社が存在する。本発明の方法によって、データ取得速度又はデータ容量は２倍になり得る。

さらなる例として、プロの写真家が、一眼レフカメラで、例えばＲＡＷフォーマットで５０メガピクセル及び８フレームレートで連続の写真を撮るとき、ＳＤカードは書き込みに追従できず、写真はキャッシュに格納されなければならない。これが、最大連続撮影速度又は写真が連続撮影される時間が、制限される理由である。また、ＳＤカードははすぐにいっぱいになる。カメラにおいて本発明の方法を使用すると（ＦＰＧＡ又はチップにおいて）、２倍以上の連続撮影を行うことができ、ＳＤカードに２倍の画像を格納することができる。

さらなる例において、大きい動画がビデオエディターにおいて編集されるとき、ビデオは、そのつどハードディスクに書き込まれ、それから再び読み出されなければならないことがしばしばある。これは、圧縮に時間がかかりすぎるので、ＲＡＷフォーマットにおいて行われる。本発明の方法を使用すると、入出力を高速化できるであろう。３０Ｈｚ及び８ビットの色深度の４ｋ映画の１秒のデータ量は、わずか７００ＭＢだが、ほどなく６０Ｈｚ及び１２ビットの色深度の８ｋ映画が登場し、それはもうすでに８ＧＢ／秒になる。ビデオエディターのためのプラグインとしてｆｃ１６を使用すると、顧客はより早い入出力を獲得できる。

最後に、本発明の方法は、グラフィックカードからモニタへ表示ストリームを圧縮するためにも使用され得る。

［結論］
圧縮比は、アルゴリズムをステートフルにすることによって向上され得る。可能な符号化のより大きなセットが定義され得て、そこから、サブセットが、２５６個の値のブロックの符号化のために選択され得る。それぞれの符号化が使用される頻度に応じて、異なるサブセットがより大きいセットから選択され得る。例えば、もしデータのノイズが非常に多いなら、上のリストの最初の８つの符号化を含める必要はないが、代わりに他の符号化に取り替えられてもよく、それは１０ビット範囲又は１０－１４ビットマスク符号化のようなより大きな数に適している。ヘッダーサイズを４ビットから２ビット又は３ビットに減らし、その種類のデータに役立つ符号化のみを含めることも可能である。

Claims

デジタルデータを圧縮する方法であって、前記方法は、
デジタルデータ値のシーケンスを取得することと、
前記デジタルデータ値のシーケンスを、符号語のシーケンスにマッピングすることと、
前記符号語のシーケンスを、均一なビット長を有する記憶語のシーケンスにパックすることと、
前記記憶語のシーケンスを出力することと、
を含み、
前記方法は、それぞれの前記符号語の前記ビット長を示す情報を出力することをさらに含むことを特徴とする方法。
それぞれの符号語の前記ビット長を示す前記情報は、第１ビットマスクである、
請求項１に記載の方法。
前記第１ビットマスクは、それぞれの符号語について、前記符号語の前記ビット長を示す１つ以上のビットを備えている、
請求項２に記載の方法。
前記デジタルデータ値のシーケンスに基づいて、符号語の１つ以上のビット長を選択することをさらに含み、
前記デジタルデータ値のシーケンスは、符号語のシーケンスにマッピングされ、前記符号語は、それぞれが前記選択されたビット長のうちの１つを有する、
請求項１－３のいずれか１項に記載の方法。
前記選択は、異なる符号語のビット長又は符号語のビット長の組み合わせに起因する格納領域の要件を比較することによって行われる、
請求項４に記載の方法。
前記選択は、二分探索を使用して行われる、
請求項４又は５に記載の方法。
１つ以上のビット長は、0, 1, 2, 3, 4, 2/5, 5, 3/6, 6, 4/8, 8, 6/12, 12, 6/16, 8/16, 16のビット長又はビット長の組み合わせから選択される、
請求項１－６のいずれか１項に記載の方法。
前記符号語は、不均一なビット長を有する、
請求項１－７のいずれか１項に記載の方法。
前記符号語の前記ビット長は、４、６、８及び１６ビットのうちの少なくとも２つである、
請求項１－８のいずれか１項に記載の方法。
前記符号語は、２個だけの異なるビット長を有する
請求項８－９のいずれか１項に記載の方法。
前記符号語の、前記２個の異なるビット長は、2/5ビット、3/6ビット、4/8ビット、6/12ビット、6/16ビット、又は8/16ビットの組み合わせのうちの１つである、
請求項１０に記載の方法。
前記符号語のシーケンスをパックすることは、
まず、それぞれの符号語のｌ１ビットのシーケンスを前記記憶語にパックすることであって、
ｌ１は前記符号語の最小ビット長に対応する、
ｌ１ビットのシーケンスをパックすることと、
次に、ｌ１より大きいビット長を有する前記符号語の残りのビットを、前記残りの記憶語にパックすることと、
を含む
請求項１－１１のいずれか１項に記載の方法。
ｌ１より大きいビット長を有する前記符号語の前記残りのビットをパックすることは、
まず、それぞれの残りの符号語のｌ２－ｌ１ビットのシーケンスを前記残りの記憶語にパックすることであって、
前記ｌ２は前記符号語の２番目に小さいビット長に対応する、
ｌ２－ｌ１ビットのシーケンスをパックすることと、
次に、ｌ２より大きいビット長を有する前記符号語の前記残りのビットを、前記残りの記憶語にその後パックすることと、
を含む、
請求項１２に記載の方法。
前記デジタルデータ値の絶対値のみが、符号語にマッピングされる、
請求項１－１３のいずれか１項に記載の方法。
それぞれのデジタルデータ値について、その符号を、好ましくは第２ビットマスクの形式において示す情報を出力することをさらに含む、
請求項１４に記載の方法。
前記デジタルデータ値を取得することは、
元のデジタルデータのブロックを受け取ることと、
前記デジタルデータ値を取得するために、前記元のデジタルデータのブロックを変換することと、
を含む、
請求項１－１５のいずれか１項に記載の方法。
前記変換は、前記ブロックにおける前記元のデータ値と近似し、残差値を出力し、
前記残差値は、前記元のデータ値とそれらの近似値との違いを表す、
請求項１６に記載の方法。
前記元のデジタルデータのブロックは、ウェーブレット変換を使用して変換される、
請求項１６又は１７に記載の方法。
前記ウェーブレット変換は、モルフォロジカルウェーブレット変換である、
請求項１８に記載の方法。
前記ウェーブレット変換は、反復されるウェーブレット変換である、
請求項１８又は１９に記載の方法。
前記ウェーブレット変換は、４回反復される、
請求項２０に記載の方法。
前記方法は、ＡＶＸ２又は類似の専用のプロセッサ命令を使用して実現される、
請求項１－２１のいずれか１項に記載の方法。