JP2003521189A

JP2003521189A - より効果的な圧縮を有するデータ圧縮

Info

Publication number: JP2003521189A
Application number: JP2001555210A
Authority: JP
Inventors: ジョーンズ，サイモン・リチャード; ヤネズ，ホセ・ルイスヌネズ
Original assignee: BTG International Ltd
Current assignee: BTG International Ltd
Priority date: 2000-01-25
Filing date: 2001-01-22
Publication date: 2003-07-08
Also published as: GB0001707D0; EP1252715A1; WO2001056168A1; US6667699B2; US20030095055A1; KR20020075889A; AU2001226952A1; CA2398062A1; US20040189494A1; US6906645B2

Abstract

(57)【要約】可逆的データ圧縮システムが、内容参照可能メモリ辞書（３０）、コーダ（３８）と、コーダ（３８）の出力を受け取るように接続されたラン・レングス符号化手段（３９）とを含み、符号化手段（３９）は、所定の辞書位置でマッチが連続的に生じた回数をカウントするように、すなわち、同じ検索タプルが、辞書の同じアドレス（５０）にロードされた回数をカウントするように構成されている。圧縮比が向上する。

Description

【発明の詳細な説明】

【０００１】本発明は、データの可逆的圧縮のための方法および装置に関する。

【０００２】不可逆的データ圧縮ハードウェアは、数年前からイメージ処理および信号処理
に使用可能であるが、データ記憶装置およびデータ伝送における帯域幅およびビ
ット当りコストに対する商業的圧力の高まりの結果として、可逆的データ圧縮が
関心を引くようになったのは最近のことに過ぎない。また、データ・ボリューム
を低減することによって電力消費を低下させることも、現在では重要である。

【０００３】辞書アドレスを参照することによって辞書を検索し、データを符号化する原理
は、周知であり、この原理を適用する装置は、辞書およびコーダ／デコーダから
構成される。

【０００４】１９９６年、ＩＥＥＥのＥＵＲＯＭＩＣＲＯ−２２の会報「Ｄｅｓｉｇｎａ
ｎｄＰｅｒｆｏｒｍａｎｃｅｏｆａＭａｉｎＭｅｍｏｒｙＨａｒｄ
ｗａｒｅＤａｔａＣｏｍｐｒｅｓｓｏｒ」において、Ｋｊｅｌｓｏ、Ｇｏｏ
ｃｈ、およびＪｏｎｅｓが、Ｘ−Ｍａｔｃｈアルゴリズムと呼ばれる新しい圧縮
方法を説明しており、この方法は、データの小さいブロックを圧縮するのに効率
的であり、高速ハードウェア実装に適している。

【０００５】Ｘ−Ｍａｔｃｈアルゴリズムは、先に見られたデータの辞書を保持し、タプル
（ｔｕｐｌｅ）と呼ばれる現行のデータ要素をその辞書の中のエントリとマッチ
させようとし、マッチ位置を参照するより短いコードでマッチしたタプルを置き
換える。アルゴリズムは、４バイト・データ要素における２バイトなどの部分マ
ッチングで動作する。１９９９年、ＩＥＥＥのＥＵＲＯＭＩＣＲＯ−２５の会報
「ＴｈｅＸ−ＭａｔｃｈＬＩＴＥＦＰＧＡ−ＢａｓｅｄＤａｔａＣｏｍ
ｐｒｅｓｓｏｒ」において、Ｎｕｎｅｚ、Ｆｅｒｅｇｒｉｎｏ、Ｂａｔｅｍａｎ
、およびＪｏｎｅｓが、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧ
Ａ）試作品において実装されたＸ−Ｍａｔｃｈアルゴリズムを説明している。

【０００６】本発明の目的は、公開された構成で可能であるよりもさらに効率的にデータを
圧縮することができる可逆的データ圧縮アルゴリズムを提供することである。本発明によれば、可逆的データ圧縮システムが、内容参照可能メモリ辞書およ
びコーダを含み、コーダの出力を受け取るように接続されたラン・レングス符号
化手段を特徴とし、前記符号化手段は、所定の辞書位置で連続的に生じたマッチ
の回数をカウントするように構成されている。

【０００７】また、本発明によれば、データを圧縮する可逆的方法が、固定長の検索タプルを辞書の中に記憶された前記固定長の複数のタプルと比較
するステップと、辞書の中で完全または部分的な１つまたは複数のマッチの位置を示すステップ
と、任意の複数のマッチのうち最適マッチを選択するステップと、マッチ位置およびマッチ・タイプを符号化するステップとを含み、さらに辞書の中の同じアドレスに順に各検索タプルをロードするステップと、前記アドレスで同一のタプルが連続でマッチされた回数をカウントするステッ
プとを特徴とする。

【０００８】好ましくは、前記同じアドレスは、辞書の中の第１の位置である。図面において、図１が、Ｎｕｎｅｚ他によって公開された圧縮器構成のアーキ
テクチャを示している。

【０００９】本発明を図２〜５を参照して例としてだけ説明する。図１に示す従来技術では、辞書１０が、内容参照可能メモリ（ＣｏｎｔｅｎｔａｄｄｒｅｓｓａｂｌｅＭｅｍｏｒｙ）（ＣＡＭ）に基づき、検索レジスタ
１４によって供給されるデータ１２によって検索される。辞書１０において、各
データ要素は、厳密に４バイト幅であり、タプルと呼ばれる。標準の幅のデータ
要素を使用することで、データの混合に関わらず、圧縮中、入力データ転送速度
が保証され、圧縮解除中、出力データ転送速度が保証される。

【００１０】辞書は、現行の圧縮に関して前に見られたデータを記憶する。検索レジスタ１
４が、新しいエントリを供給し、辞書の中でマッチが見つかったとき、マッチ位
置を参照するより短いコードでそのデータが置き換えられる。ＣＡＭは、データ
要素を取り込み、その要素のマッチ・アドレスを出力として与えるある形態の連
想メモリである。ＣＡＭ技術の使用により、辞書１０を迅速に検索することが可
能になる。この理由は、データが記憶されたすべてのアドレスにおいて同時に検
索が実行され、したがって、すべての記憶された語に関して同時に検索が実行さ
れるからである。

【００１１】Ｘ−Ｍａｔｃｈアルゴリズムでは、完全なマッチングは、必要不可欠ではない
。４バイトのうち２バイトまたは３バイトのマッチであることが可能な部分的マ
ッチも、マッチ位置およびマッチ・タイプ・コードを参照するコードによって置
き換えられ、マッチしなかった１つまたは複数のバイトは、すべてに単一のビッ
トがプレフィックスとして付けられてリテラルとして伝送される。部分的マッチ
ングのこの使用により、４バイト・マッチングの要件と比較した場合、圧縮比が
向上するが、それでも辞書の高いスループットが維持される。

【００１２】マッチ・タイプは、入ってくるタプルのどのバイトが辞書の中で見つかったか
、またどのバイトをリテラル形式で圧縮されたコードに連結しなければならない
かを示す。マッチされる異なる組合せの２バイト、３バイト、または４バイトに
対応する１１の異なるマッチ・タイプが存在する。例えば、００００は、すべて
のバイトがマッチした（完全なマッチ）ことを示し、一方、１０００は、バイト
０、１、および２がマッチしたが、バイト３はマッチせず、圧縮されないリテラ
ルとしてコードに追加されなければならない部分的マッチを示す。いくつかのマ
ッチ・タイプは、他のものより頻度が高いので、大規模なシミュレーションを介
して得られた統計に基づく静的ハフマン符号を使用してそれらのマッチ・タイプ
を符号化する。例えば、最も一般的なマッチ・タイプは、００００（完全なマッ
チ）であり、対応するハフマン符号は、０１である。他方、部分的マッチ・タイ
プ００１０（バイト３、２、および０のマッチ）は、より頻度が低く、したがっ
て、対応するハフマン符号は、１０１１０である。この技法により、圧縮比が向
上する。

【００１３】例えば、検索タプルがＣＡＴであり、辞書が位置２に語ＳＡＴを含む場合、こ
の例では、０２２Ｓ、２進コード０００００１０００１０１０１００１１
であるフォーマット（マッチ／ミス）（位置）（マッチ・タイプ）（必要なリテ
ラル）で部分的マッチが示される。すなわち、大文字Ｃがマッチせず、リテラル
としてシステムの符号化部分に送られることを示す。

【００１４】疑似コードにおけるアルゴリズムは、以下のとおり与えられる。辞書を初期状態に設定する；ＤＯ｛データ・ストリームからタプルＴを読み込む；タプルＴを求めて辞書を検索する；ＩＦ（完全なヒットまたは部分的ヒット）｛最適マッチ位置を判定するＭＬおよびマッチ・タイプＭＴ；出力「０」；ＭＬに対する２進コードを出力する；ＭＴに対するハフマン符号を出力する；Ｔの任意の必要なリテラル文字を出力する；｝ＥＬＳＥ｛「１」を出力する；タプルＴを出力する；｝ＩＦ（完全なヒット）｛辞書エントリ０ないしＭＬ−１を１つの位置だけ移動する；｝ＥＬＳＥ｛すべての辞書エントリを１つの位置だけ下に移動する；｝タプルＴを辞書位置０にコピーする；｝ＷＨＩＬＥ（さらなるデータが圧縮される）辞書１０は、ムーブ・トゥ・フロント（Ｍｏｖｅ−Ｔｏ−Ｆｒｏｎｔ）戦略で
構成される。すなわち、現行のタプルが、辞書の最上部に配置され、スペースを
つくるため、その他のタプルが１つの位置だけ下げられる。辞書がいっぱいにな
った場合、ＬｅａｓｔＲｅｃｅｎｔｌｙＵｓｅｄ（ＬＲＵ）ポリシーが適用
される。すなわち、最後の位置を示すタプルが単に廃棄される。

【００１５】辞書には、一般のデータが事前ロードされる。マッチに対する符号化機能は、次の３つの別個のフィールドを符号化すること
を必要とする。すなわち、（ａ）辞書１０の中のマッチ位置；コードが固定長ｌｏｇ₂（ＤＩＣＴＩＯＮ
ＡＲＹ＿ＳＩＺＥ）のものである一様な２進コードが使用される。

【００１６】（ｂ）マッチ・タイプ；すなわち、入ってくるタプルのどのバイトが辞書位置
でマッチするか；静的ハフマン符号が使用される。（ｃ）リテラル形式で伝送される、辞書エントリにマッチしなかったあらゆる
余剰の文字。

【００１７】再び図１を参照すると、マッチ、または部分的マッチ、またはいくつかの部分
的マッチが、辞書１０によってマッチ判定論理回路１６に出力され、回路１６は
、メイン・コーダ１８を供給し、コーダ１８は、符号化された信号を出力アセン
ブラ２０に提供し、アセンブラ２０は、圧縮されたデータ出力信号２２を提供す
る。マッチ判定論理１６と辞書１０の間に接続されたシフト制御論理２４が、辞
書にシフト信号を提供する。回路全体を単一の半導体チップ上で提供することが
可能である。

【００１８】次に、図２に示す本発明による圧縮器を参照すると、辞書３０がＣＡＭ技術に
基づき、辞書３０には、検索レジスタ３４によって検索されるデータ３２が供給
されている。辞書は、Ｘ−Ｍａｔｃｈアルゴリズムに従って検索を行い、ムーブ
・トゥ・フロント戦略およびリースト・リーセントリー・ユーズド・リプレイス
メント（ＬｅａｓｔＲｅｃｅｎｔｌｙＵｓｅｄＲｅｐｌａｃｅｍｅｎｔ）
・ポリシーで編成されている。

【００１９】辞書出力は、マッチ判定論理回路３６に接続され、回路３６は、メイン・コー
ダ３８に接続され、コーダ３８は、「ラン・レングス・インターナル」（ＲＬＩ
）コーダと呼ばれるコーダ３９に信号を提供し、コーダ３９は、出力アセンブラ
４０に信号を提供する。アセンブラ４０は、圧縮されたデータ４２の出力ストリ
ームを提供する。

【００２０】データを符号化する前にラン・レングス符号化をデータに適用することは周知
であるが、データ圧縮システムにおいてメイン・コーダと出力アセンブラの間に
ラン・レングス・エンコーダを配置することは、これまで示唆されていなかった
。

【００２１】図３は、通常のイベント中およびＲＬＩ符号化イベント中に処理されるコーダ
出力および辞書適合を示す。８つのステップを示している。各ステップごとに、
最上部の４つの辞書アドレス０、１、２、３、リファレンス５０、５２、５４、
５６を示しており、アドレス５８を左側に示し、適合ベクトル６０を右側に示し
ている。各位置の内容は、厳密に４バイト長であることが分かる。

【００２２】辞書アドレス３、リファレンス５６は、予約済み位置であり、ＲＬＩランを知
らせるのに使用され、図では、内部ラン・カウンタ６２がアドレス３に隣接して
いる。

【００２３】８つのステップのそれぞれにおいて、前の検索タプルがアドレス０、リファレ
ンス５０にロードされ、前に記憶されたデータが１つの位置だけ下に移される。
位置０の右側の現行の適合ベクトルが８つすべてのステップで１に設定されるこ
とにより、このことが示される。完全なマッチが存在しない場合、最後の位置の
データが削除されて新しいタプルのためのスペースがつくられる。

【００２４】矢印Ａのように、辞書の内部で下方を指す矢印が、各ステップの終了時の、そ
のステップの適合ベクトル６０の制御の下における辞書の再構成を示す。各ステップに関連して、そのステップに関する辞書３０の出力を示す出力ボッ
クス６４が存在する。

【００２５】ステップ１で、検索タプルは、「ａｔ＿ｉ」である。完全なマッチがアドレス
１、リファレンス５２で見つかり、ボックス６４の中の出力がこれを示す。ボッ
クス「１」の中の第１のエントリが、マッチが見つかったことを示す。次のエン
トリが、マッチ・アドレスを示す。第３のエントリが、マッチ・タイプ、すなわ
ち、「０」を示す。この理由は、マッチが完全なマッチだからである。第４のエ
ントリは、ブランクである。この理由は、完全なマッチでは、伝送されるリテラ
ルが存在しないからである。

【００２６】辞書は、適合ベクトル６０に従って更新される。「１」のビット設定が、「前
の位置からデータをロードする」を示し、また「０」のビット設定が、「現行の
データを保持する」を示す。したがって、アドレス０、リファレンス５０のエン
トリが、検索タプル「ａｔ＿ｉ」で置き換えられ、またアドレス１、リファレン
ス５２のエントリが、「ｔｈｅ」で置き換えられる。アドレス２、リファレンス
５４のエントリは、変更されない。

【００２７】ステップ２で、検索タプルは、「ｒｙ＿」である。マッチが存在せず、すなわ
ち、ミスが存在し、出力ボックス６４が、マッチが存在しないこと、すなわち、
第１のエントリが「０」であるのを示す。アドレス・エントリおよびマッチ・タ
イプ・エントリは、ブランクであり、送信されるリテラルは、「ｒｙ＿」である
。

【００２８】適合ベクトル６０が、矢印Ａによって示されるとおり辞書を更新する。つまり
、すべてのエントリが、１つのアドレスだけ下に移動する。ステップ３で、検索タプルは、「ｔｈｉｓ」であり、部分的マッチがアドレス
２で見つかる。出力ボックス６４が、マッチが存在すること、そのマッチがアド
レス２にあること、マッチ・タイプが部分的マッチである（すなわち、設定が「
３」である）こと、およびマッチしない部分、すなわち、送信されるリテラルが
「ｉｓ」であることを示す。辞書が更新される。

【００２９】ステップ４で、検索タプルは、「ａｔ＿ｉ」であり、完全なマッチが、出力ボ
ックス６４で示されるとおり、アドレス２で見つかる。ステップ５で、検索タプルは、再び「ａｔ＿ｉ」であり、マッチがアドレス０
で見つかり、このことが出力ボックス６４で示される。

【００３０】同じタプルが繰り返されたため、前のステップにおいてゼロ設定のままであっ
た内部ラン・カウンタ６２が、この時点で１に設定される。可能なランが示され
るが、やはり通常の出力が与えられる（ボックス６４）。この理由は、ランがま
だ確実ではないからである。

【００３１】ステップ６で、検索タプルは、再び「ａｔ＿ｉ」である。内部ラン・カウンタ
６２が、２に増分される。今度は、有効なランが示され、出力は存在せず、した
がって、出力ボックス６４は、ブランクである。また、ＲＬＩ符号化レジスタか
らの、ステップ５に対応する出力も空である。この理由は、この場合、その出力
がＲＬＩイベントの一部として符号化されるからである。

【００３２】ステップ７で、検索タプルは、再び「ａｔ＿ｉ」であり、内部ラン・カウンタ
が３に増分され、出力ボックス６４が、ブランクのままになる。ステップ８で、検索タプルは、「ａｔ＿ｖ」である。内部ランが終了する。部
分的マッチがアドレス０で見つかる。出力ボックス６４が、マッチがアドレス０
で見つかったこと、マッチ・タイプが部分的であること、および送信されるリテ
ラルが「ｖ」であることを示す。

【００３３】次に、内部ラン・カウンタ６２のカウントが、ＲＬＩ出力ボックス６６に示さ
れるとおり、送信される。マッチがアドレス３、リファレンス５６で見つかる。
すなわち、内部ランのために予約されたアドレスで見つかり、ランの長さは、３
であり、このランの長さが８ビット・コードとして送信される。

【００３４】この構成は、１つの辞書アドレスが失われるほどであるが（ＲＬＩコードを知
らせるように予約されるため）、１０％であることが可能な圧縮比の向上は、辞
書サイズにおける１語分の損失を補償して余りある。

【００３５】内部ラン・レングス符号化は、完全なマッチでだけ動作し、部分的マッチでは
動作しないことを理解されたい。また、データの４バイトの完全なマッチを削除
できることも理解されよう。これは、ラン・レングス・エンコーダが、０だけを
検出する前述したＫｊｅｌｓｏによる刊行物で開示された構成とは対照的である
。０のランは、符号化構成において一般的である。さらに、従来技術のエンコー
ダの配置は、Ｘ−Ｍａｔｃｈエンコーダの適用に先行するようになっている。す
なわち、内部でＸ−Ｍａｔｃｈアルゴリズムが適用される辞書にデータが供給さ
れる前に、入ってくるデータに対して動作する。本発明の構成では、ラン・レン
グス符号化は、辞書符号化に統合され、辞書符号化に先行しない。

【００３６】本発明の構成は、２つの別々の特徴を有する。第１は、その内容を単一のサイ
クルで検索することができ、また追加の論理が従来の内容参照可能メモリに追加
されて、同一である連続入力シーケンスを検出するのが可能になることである。
これは、辞書データの記憶のためにまだ利用されていない辞書アドレスを伝送す
ることによって達せられる。これは、前述した。第２の特徴は、辞書に入力され
る新しいデータ項目の数に基づき、動的に変化する複数の連続入力シーケンスを
辞書サイズおよびコードが示すことである。言い換えれば、辞書のサイズが変化
する。

【００３７】これを図４に示し、図４は、図３と同じ辞書の特徴を示しているが、８つの辞
書位置５０〜５６および５１〜５７も示している。ステップ１で、すべての辞書
位置が、同一のデータ値に設定される。この値は、追加の「辞書位置有効」論理
を必要とすることなく、実質的に、第１の位置５０より下のすべての辞書位置を
無効であると宣言する。この理由は、辞書検索中の複数の完全なマッチの場合、
最適マッチ判定論理が、常に、辞書の最上部により近いマッチを選択し、これに
より、その下のすべての位置を無効にするからである。位置は、この例では、す
べてゼロに設定される。

【００３８】第１のステップで、コード・ワード・ブックは、第１の位置５０、およびこの
段階では位置５２にあるＲＬＩ位置に対応する２つの値だけを有する。例えば、辞書に対する入力データが、すべて値ゼロの１０２０バイトのデータ
から構成される場合、この辞書の長さは増大せず、合計１０２０バイトの２５５
タプルのランを符号化するため、ＲＬＩコードが、一回、活動化される。このラ
ンが、図３に参照して説明したとおり、ＲＬＩカウンタ６２によってカウントさ
れる。

【００３９】コーダの出力は以下のとおりである。０１１１１１１１１１（１０ビット）０＝＞マッチ１＝＞辞書位置（２つだけの有効な位置）１１１１１１１１＝＞
２５５ラン・レングスステップ１で、検索タプルは、ａｔ＿ｉであり、ａｔ＿ｉがリテラルとして出
力される。

【００４０】ステップ２で、「ａｔ＿ｉ」が、辞書位置５０に記憶されており、検索タプル
は、「ｒｙ＿」である。この時点で、辞書は、３つの有効な位置を有し、ＲＬＩ
ランを知らせるように予約された位置は、位置５２から位置５４に移動されてい
る。

【００４１】ステップ３で、検索タプルは、「ｔｈｉｓ」であり、４つの有効な位置が存在
する。ステップ４で、検索タプルは、「ａｔ＿ｉ」であり、５つの有効な位置が
存在し、この時点で、予約された位置は、位置５１にある。

【００４２】ステップ５、６、７、８は、繰り返されるタプルの効果を示し、辞書は、５つ
の有効な位置の長さにとどまり、予約された位置は、５１にある。ステップ８の後、新しい検索タプルが出された場合、辞書のサイズが増大して
そのタプルを記憶する。

【００４３】ＲＬＩ＆ＰＢＣ（ＰｈａｓｅｄＢｉｎａｒｙＣｏｄｉｎｇ）の組合せ
で可能になる最大圧縮比は、１０／（１０２０^*８）＝０．００１２２（８１９
：１）である。もちろん、これは、データバイトがブロックの全長にわたって繰
り返される場合だけに達せられる理論上の最大限度であるが、内部ラン・レング
ス・コーダとムーブ・トゥ・フロント増大辞書モデルを組み合わせることの利点
を示す。一般に、ＲＬＩは、辞書が完全にいっぱいではなく、２より大きい長さ
のランが生じる限り、ＰＢＣを有利に使用する。すべての辞書位置が有効である
場合、ＰＢＣまたはＵＢＣ（ＵｎｉｆｏｒｍＢｉｎａｒｙＣｏｄｉｎｇ）を
使用することは、同じ結果をもたらす。別のプレフィックスのない符号化技法を
ＰＢＣの代りに使用することができ、辞書の一部分が初期に有効であるライス（
Ｒｉｃｅ）符号化またはフェーズド・ハフマン符号化などの同じ原理が当てはま
る。

【００４４】アルゴリズムは、疑似コードで、以下のとおり与えられる。辞書を初期状態に設定する；次の空き位置カウンタ＝２に設定する；ラン・レングス・カウント＝０；ＤＯ｛データ・ストリームからタプルＴを読み込む；タプルＴを求めて辞書を検索する；ＩＦ（位置ゼロにおける完全なヒット）｛１だけラン・レングス・カウントを増分する；｝ＥＬＳＥ｛ＩＦ（ラン・レングス・カウント＝１）｛「０」を出力する；ＭＬに対するフェーズド２進コードを出力する；ＭＴ０に対するハフマン符号を出力する；｝ＩＦ（ラン・レングス・カウント＞１）｛「０」を出力する；ＭＬＮＥＸＴ＿ＦＲＥＥ＿ＬＯＣＡＴＩＯＮ−１に対するフェーズド
２進コードを出力する；ラン・レングスに対する２進コードを出力する；｝ラン・レングス・カウントを０に設定する；ＩＦ（完全なヒットまたは部分的ヒット）｛最適マッチ位置ＭＬおよびマッチ・タイプＭＴを判定する；「０」を出力するＭＬに対するフェーズド２進コードを出力する；ＭＴに対するハフマン符号を出力する；Ｔのあらゆる必須のリテラルの文字を出力する；｝ＥＬＳＥ｛「１」を出力する；タプルＴを出力する；｝｝ＩＦ（完全なヒット）辞書エントリ０ないしＭＬ−１を１つの位置だけ移動するＥＬＳＥ｛すべての辞書エントリを１つの位置だけ下に移動する；次の空の位置カウンタを１だけ増分する；｝タプルＴを辞書位置０にコピーする；｝ＷＨＩＬＥ（さらなるデータが圧縮される）図５は、ＲＬＩコーダおよびＲＬＩデコーダの動作を示す。

【００４５】圧縮中、図３を参照して説明したとおり、カウンタ６２が、位置０における完
全なマッチによって起動される。カウンタは、連続の完全なマッチが０で検出さ
れている間、イネーブル状態にとどまり、カウントを続ける。ランが終了したと
き、そのカウントが、０によって形成されたＲＬＩコードの残りの部分に連結さ
れ、マッチ、および辞書の中の最新のアクティブな部分に対応する予約された位
置を示す。

【００４６】圧縮解除中、カウンタ６２に、ＲＬＩコードからのカウントがロードされ、次
に、ゼロから開始してカウントが開始され、ロードされた値に達するまで続けら
れる。ＲＬＩデコーダの出力は、カウント値が達せられていない間、位置０にお
ける完全なマッチである。

【００４７】ＲＬＩコーダ３９は、ＲＬＩ符号化レジスタ７０およびＲＬＩ符号化制御ユニ
ット７２を含み、ユニット７２は、ＲＬＩカウンタ６２に接続されている（図３
参照）。カウンタ６２は、８ビット・レジスタであり、圧縮と圧縮解除の両方に
共通である。８ビットカウンタ６２は、ＲＬＩデコーダ７６の中のＲＬＩ復号化
制御ユニット７４に接続され、デコーダ７６は、やはりＲＬＩ復号化レジスタ７
８を含む。

【００４８】ＲＬＩ符号化レジスタ７０は、コードがＲＬＩ符号化制御ユニット７２にアク
セスする前にそのコードをバッファに入れる。ユニット７２は、ＲＬＩ符号化プ
ロセスを制御し、圧縮が正常に動作しているかどうか、またラン・レングス符号
化イベントが生じているかどうかに依存して、正しいコード／コード長のペアを
出力する。

【００４９】ＲＬＩコーダ３９がアクティブになるとき、先のコードからＲＬＩ符号化レジ
スタは空であり、ランが行われている間、出力は凍結される。ＲＬＩコーダ７６において、ＲＬＩ復号化制御ユニット７４は、ＲＬＩ符号化
制御ユニット７２に対する補完機能を有する。ユニット７４は、回路が正常に動
作しているかどうか、すなわち、個々のバイトに対して動作しているかどうか、
またはラン・レングス復号化が行なわれているかどうかに依存して、正しいマッ
チ位置／マッチ・タイプのペアを出力する。

【００５０】ＲＬＩ復号化レジスタ７８は、ＲＬＩ符号化レジスタ７０と同じ機能性を有す
る。８ビットＲＬＩカウンタ６２は、パターンが２５５回を超えて繰り返される場
合、オーバーフロー条件を検出する特定の技法を全く使用しない。カウンタは、
単に、０にループ・バックし、その条件が、ＲＬＩ制御論理７２によってランの
終了として検出され、ラン・レングス・コードが出力される。ＲＬＩコード・イ
ベントの後の次のコードは、パターンが繰り返され続ける場合でも、常に正常な
コードである。繰り返しが続けられると、カウンタ６２は、１のカウントを再び
超え、ラン・レングス検出信号が、再びアクティブにされる。

【００５１】圧縮解除中、ＲＬＩコードが２つ連続する可能性がないという事実を利用して
、ＲＬＩカウントをＲＬＩデコーダ７６の中に一回だけロードする。この動作モ
ードにより、ＲＬＩ制御ユニットが単純化される。

【００５２】詳細なコーダ／デコーダ回路を図６に示す。圧縮されていないデータ３２が、ＣＡＭ辞書３０に供給され、辞書出力、すな
わち、マッチが見つかった辞書アドレスの指示、または部分的マッチ、およびマ
ッチしなかった１つまたは複数のバイトのアドレスの指示が、優先順位論理回路
８０に供給され、回路８０が、辞書の中の異なるタイプの可能なマッチ、すなわ
ち、完全なマッチ、部分的マッチ、またはミスのそれぞれに異なる優先順位を割
り当て、その結果をマッチ判定論理回路８２に供給する。回路８２は、優先順位
情報を使用して優先順位タイプを使用してマッチのうちどれかを圧縮に最適なも
のとして選択し、信号をメイン・コーダ３８に供給する。

【００５３】メイン・コーダ３８は、前述した「従来技術」で説明したとおり、一様な２進
コードをマッチする位置に割り当て、静的ハフマン符号をマッチ・タイプに割り
当て、あらゆる必要なバイトをリテラル形式で連結する。圧縮された出力が、図
４を参照して説明したＲＬＩコーダ３９に供給される。この信号は、メイン・コ
ーダによって生成されるが、簡潔にするため、図では示していない。ＲＬＩコー
ダ出力は、ビット・アセンブリ論理４０に渡され、論理４０が、内部バッファ（
図示せず）の中で６４ビット以上の圧縮されたデータが有効であるときはいつで
も、新しい６４ビットの圧縮された出力をメモリに書き込む。出力は、圧縮され
たコード４２である。

【００５４】また、優先順位論理回路８０からの出力が、同日出願の同時係属出願、英国０
００１７１１．１に説明するアウト・オブ・デート適合（ＯＤＡ）論理回路８４
に供給される。ＯＤＡ回路８４の出力は、移動生成論理回路４４に接続され、回
路４４は、マッチ・タイプおよびマッチ位置に依存して、移動ベクトルを（図３
において適用される適合ベクトルとして）生成する。また、移動生成論理４４は
、フィードバック信号をＯＤＡ論理回路８４に提供する。（ＮＢアウト・オブ・
デート適合は、簡潔にするため、図３では示していない。）圧縮解除のため、圧縮された入力９０が、ビット逆アセンブリ論理回路９２に
供給され、回路９２が、圧縮解除動作の後、内部バッファ（図示せず）の中に残
された有効なビットが３３より少ないときはいつでも、メモリから６４ビットの
圧縮されたベクトルを読み取る。圧縮されたベクトルは、メイン・デコーダ９４
に供給され、デコーダ９４は、あらゆる必要なリテラル文字とともにマッチ位置
およびマッチ・タイプを復号化し、あらゆる可能なＲＬＩコードを検出する。デ
コーダ９４は、ＲＬＩデコーダ７６に接続され、デコーダ７６は、ラン・レング
スの復号化された出力をＯＤＡ論理回路８４、およびタプル・アセンブリ回路９
６に供給する。

【００５５】ＣＡＭ辞書３０は、復号化された入力に対して動作して４バイト幅の語を再生
成し、この語が、タプル・アセンブリ回路９６に供給される。この回路は、圧縮
されていないデータ９８を供給し、このデータは、辞書３０からの情報を使用し
てアセンブルされたタプル、およびコードの中に存在するあらゆるリテラル文字
を含む。

【００５６】本発明によるラン・レングス内部符号化の適用は、圧縮の速度にほとんど、ま
たは全く影響を与えずに、１０％であることが可能な圧縮比の向上を達すること
が判明している。この向上は、３２ビットパターンなどのあらゆる反復するパタ
ーンの効率的なラン・レングス符号化からもたらされる。最も一般的な反復する
パターンは、０のランであるが、テキスト・ファイルにおけるスペース文字、ま
たはピクチャにおける一定の背景カラーなどのその他のパターンも可能である。
本発明の適用により、そのようなゼロでない文字の効率的な可逆的符号化および
復号化が可能になる。

【００５７】リースト・リーセントリー・ユーズド（ＬｅａｓｔＲｅｃｅｎｔｌｙＵｓ
ｅｄ）辞書保持ポリシーにより、あらゆる反復するパターンが、辞書３０の中の
位置ゼロに強制的に配置される。ラン・レングス内部符号化は、位置ゼロで２回
以上、完全にマッチするあらゆるベクトルを検出し、符号化する。

【００５８】そのような構成は、圧縮システムにおいて辞書の前にラン・レングス・エンコ
ーダを配置することに比べて、圧縮比の利点を提供し、辞書論理を使用するため
、アーキテクチャが高いレベルで統合されて、複雑さが最小限に抑えられる。

【００５９】ＣＡＭ辞書３０は、１５の語、３１の語、または６３の語を有することが可能
である。１つの位置は、ＲＬＩイベントのために既に予約されている。より大き
い辞書が、圧縮比を向上させるが、複雑さを相当に増大させる。

【００６０】圧縮されていないデータ出力９８は、データ入力３２と同一である。損失は生
じていない。本発明は、小さいブロックのデータを圧縮するとき、適用される可能性が高い
。

【図面の簡単な説明】

【図１】Ｎｕｎｅｚ他によって公開された圧縮器構成のアーキテクチャを示す図である
。

【図２】圧縮器ハードウェアのアーキテクチャを示す図である。

【図３】ラン・レングス内部エンコーダを示す図である。

【図４】様々なサイズの辞書を示す図である。

【図５】ラン・レングス内部コーダ／デコーダを詳細に示す図である。

【図６】圧縮器／圧縮解除器回路を示す概略図である。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ，ＴＲ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＭＺ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＧ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＢＺ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＤＺ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＭＺ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者ヌネズヤネズ，ホセ・ルイスイギリス国レスターシャーエルイー11 ４ダブリュービー，ラクボロウ，ラウンドヒル・ウェイ 17 Ｆターム(参考） 5J064 AA02 BA08 BA09 BB05 BC02 BC04 BC05 BC14 BC29 BD02 BD03

Claims

【特許請求の範囲】

【請求項１】内容参照可能メモリ辞書（３０）と、コーダ（３８）とを含
む可逆的データ圧縮システムであって、ラン・レングス符号化手段（３９）が、前記コーダ（３８）からの出力を受け
取るように接続され、前記符号化手段（３９）が、所定の辞書位置でマッチが連
続的に生じる回数をカウントするように構成されていることを特徴とするシステ
ム。
【請求項２】前記辞書（３０）が、各検索ステップにおいて、検索タプル
が前記辞書の同一のアドレス（５０）にロードされるように構成された請求項１
に記載のシステム。
【請求項３】前記ラン・レングス・エンコーダ・レジスタ手段（３９）が
、前記辞書（３０）の前記同一のアドレス（５０）の中に同一の検索タプルがロ
ードされる回数をカウントするように構成された請求項２に記載のシステム。
【請求項４】前記辞書（３０）の中のさらなるアドレス（５６）が、検索
タプルが反復される回数を示すように予約された請求項２または３に記載のシス
テム。
【請求項５】前記さらなるアドレスが、前記辞書のサイズに従って変化す
る請求項４に記載のシステム。
【請求項６】前記辞書（３０）が、すべて正確に等しい長さのデータ要素
を保持するように構成され、各辞書エントリが、複数のデータ要素を保持する前
記請求項のいずれかに記載のシステム。
【請求項７】各辞書エントリが、４つのデータ要素を保持する請求項６に
記載のシステム。
【請求項８】連続のマッチが、辞書データの記憶のためにまだ利用されて
いない辞書アドレスの伝送によって示される前記請求項のいずれかに記載のシス
テム。
【請求項９】内容参照可能メモリ辞書（３０）と、デコーダ（９４）とを
含む可逆的データ圧縮解除システムであって、ラン・レングス・デコーダ・レジスタ手段（７６）が、デコーダ（９４）の出
力を受け取るように接続されていることを特徴とするシステム。
【請求項１０】固定長の検索タプルを辞書の中に記憶された前記固定長の
複数のタプルと比較するステップと、前記辞書の中における完全または部分的な１つまたは複数のマッチの位置を示
すステップと、任意の複数のマッチのうち最適マッチを選択するステップと、前記マッチ位置および前記マッチ・タイプを符号化するステップとを含むデー
タを圧縮する可逆的方法であって、各検索タプルを前記辞書の中の同一のアドレスに順にロードするさらなるステ
ップと、前記アドレスで同じタプルが連続的にマッチする回数をカウントするさらなる
ステップを特徴とする方法。