JP2505980B2

JP2505980B2 - 静的辞書作成方法及びコンピュ―タ実行システム

Info

Publication number: JP2505980B2
Application number: JP6042318A
Authority: JP
Inventors: チャンチュン−チア; リーダヴォルグレゴリー; ハッサンエル−ルビーモハメド; アランフリスケクレイグ; ラガヴェンドラアイアバラクリシュナ; ピーターラザルスジョン; ウィルヒテデイヴィッド
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-04-16
Filing date: 1994-03-14
Publication date: 1996-06-12
Anticipated expiration: 2011-06-12
Also published as: US5412384A; US5534861A; JPH06309144A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データの適応圧縮のた
めのコンピュータ実行システムに係り、特に、ソフトウ
ェア又はハードウェアの圧縮手順のために使用され得る
静的圧縮辞書を組み立てるためのシステムに関する。

【０００２】

【従来の技術】長年、データ圧縮はホストソフトウェア
タスクとして実行されてきた。最近では、特にデータ記
憶サブシステムや装置内で、ハードウェアのデータ圧縮
を実行する傾向が強くなっている。この戦略は、ホスト
負荷（workload）を低減し且つ効率的な記憶容量と転送
レートを高める。超ＬＳＩ（ＶＬＳＩ）密度の増大と、
異なるデータに自動適応する複雑化したデータの圧縮手
順の継続的な改善は、この傾向に拍車をかけている。

【０００３】データ圧縮手順によって提起される問題に
は、適応辞書の更新によって生じる難しさと、このよう
な辞書を時間をかけて開発し且つ適応させることに付随
するプロセッサオーバーヘッドと、が含まれる。技術上
の当業者は、データを圧縮し且つデータ特性に応答して
コード辞書を発展させるため、Ziv-Lempel（ジブ−レン
ペル）適応構文解析木のような強力な適応圧縮手順を提
供してきた。

【０００４】Ziv-Lempelアルゴリズムは、Ziv 等により
最初に記述された（「シーケンシャルデータ圧縮のため
のユニバーサルアルゴリズム（A Universal Algorithm
ForSequential Data Compression ）」（1977年５月、I
EEEトランス情報理論、IT23、No.3、P.337-343 ））。
基本的なZiv-Lempelエンコーダ（コード化装置）は、各
ソースシーケンス入力が、対応するインデックス（コー
ド）番号を有するコード辞書を有する。最初に、辞書
は、ヌルストリングルートと、含むとすれば、基本的ソ
ースアルファベットと、を含む。ソースデータコード化
処理の間、新しい辞書入力は、新しい入力がソースデー
タストリーム内で遭遇された時は必ず現存の辞書入力に
複数の単一ソースシンボルを付加することにより生成さ
れる。辞書は、「拡張された」ソースアルファベットを
作成するソースシンボルシーケンスを示すパス（通路）
を生成する結合されたノード（節）の探索木又は構文解
析木と見なされることができる。構文解析木内の各ノー
ドは、木のヌル（空）ストリングルート（根）ノードに
おいて開始されるソースシンボルシーケンスを終了す
る。このソースデータストリームは、構文解析木内のノ
ードに対応する非圧縮入力データ内のソースシンボルの
シーケンスを最初に認識し、次いで整合されたノードに
対応するメモリ位置のインデックス（コードシンボル）
を転送することによって、圧縮される。デコーダ辞書
は、一般的に、圧縮されたソースシーケンスをそのオリ
ジナルフォームに回復するため、構文解析木から構築さ
れる。Ziv-Lempel構文解析木は、ソースシンボルの追加
的且つより長いレングスのシーケンスがソースデータス
トリームにおいて識別されるので、コード化処理の間に
連続的に成長し、これにより両シーケンスが共に入力デ
ータ文字に適応され且つ着実に圧縮比を高めることにな
る。

【０００５】理想的なZiv-Lempel圧縮手順は、構文解析
木を記憶するために無限に大きなメモリ容量を必要とす
るので、実際に実行するのが難しい。当業者は、ケント
・アンダーソン（Kent Anderson ）によって説明され
る"TRIE"構造を含む、この問題を容易にするためにデザ
インされたデータ構造を紹介した（"Methods of Data C
ompression After The Manner of Lempel and Ziv"（Le
mpelとZiv の方法の後のデータ圧縮方法）の光学情報シ
ステム、1991年１月乃至２月）。テリーＡ．ウェルチ
（Terry A. Welch）（「より高性能なデータ圧縮（" A
Technique for Higher Performance Data Compressio
n"） 1984 年６月、IEEEコンピュータ第17巻、No.6、8-
19頁) は、圧縮効率を簡単化された実行と交換して、基
本的なZiv-Lempel技術の効率を高めるデータ構造を説明
している。さらに、米国特許番号第4,814,746 号におい
て、ビクター S. ミラー（Victor. S. Miller ）等が、
固定された構文解析木のサイズを用いて圧縮効率を高め
るZiv-Lempelデータ圧縮方法の変更を開示している。し
かしながら、ミラー等の方法は、大きなメモリ及び処理
時間を必要とするハッシュテーブルを用い、これにより
ハードウェアベースの辞書によって求められる速度の利
点の大部分を否定することになる。

【０００６】関連技術が他の当業者によって一般的に文
書化されており、且つ1990年１月１０日に発行された欧
州特許番号第89306808.0のAllen Clark （アレン・クラ
ーク）の開示を参照することにより明確に理解され得
る。さらに、米国特許番号第 4,464,650号に開示された
Willard Eastman (ウィラード・イーストマン）の初期
の仕事を拡張したものである米国特許番号第 5,087,913
号の同一発明者の開示、及び米国特許番号第 4,558,302
号のTerry Welch （テリー・ウェルチ）の開示の参照が
行なわれ、且つこれらの開示内容の全てがこの参照によ
り本明細書中に全体的に組み込まれている。

【０００７】ハードウェアベースの圧縮システムによっ
て提起される基本的な問題は、Ziv-Lempelクラスの辞書
によって提示される圧縮効率を享受しながら、ハードウ
ェアのエンコーダ及びデコーダの速度利点を最大限活用
する方法である。上記に引用された文献におけるクラー
ク、ミラー等、及びウェルチによって提案された構文解
析木データ構造は、速度のコード化及び復号化において
いくつかの改善を提供するが、これらの文献は一般にソ
フトウェア実行を目的としている。さらに、Ziv-Lempel
技術は、入力ソースデータストリームに応答して構文解
析木の連続的適応に一般的に依存し、これによって結果
的に生じる辞書は、ソフトウェア処理即ちハードウェア
ベースシステムに対する無駄な手順、によって連続的に
更新されなければならない。

【０００８】数人の当業者、特に、上記に引用されてい
るミラー等は、初期の木組み立て処理の間の不完全な圧
縮効率の問題も考慮した。Ziv-Lempel構文解析木は、ヌ
ルストリングノードのみ又はルートノード及び単一セッ
トのソースアルファベットの子ノードの内の一方によっ
て初期化される。初期の構文解析木は、入力データスト
リームの初期の部分をコード化するため、この非効率的
な辞書を有するにすぎない。上記に引用されている Ziv
（ジブ）等は、この初期の非効率性が長期にわたっては
重要でないことを示した。しかしながら、入力データス
トリームが、比較的短いレングスの一連の個々にコード
化された記録からなるデータベースにおいて、上記に引
用されたミラー等は、データストリーム全体の３分の１
までが、その元の形態におけるよりもそのコード化され
た形態においてより大きな記憶空間を要求することがで
きると主張している。

【０００９】例えば、一番初めの８ビットのソースシン
ボルは、４Ｋまで拡張されたアルファベットソースシン
ボルの「可変から固定（Ｖ−Ｆ）へのコード化」のため
にデザインされた構文解析木内の１２ビットのエンコー
ダシンボルとしてコード化されなければならないことを
考慮されたい。構文解析木が、各記録の最初において再
スタートされ、且つこの記録の長さが充分ではなく、従
って、変換のため、より長いソースシンボルストリング
を単一１２ビットのエンコーダシンボルに追加すること
により、結果的に初期の構文解析木の非効率性を克服で
きない場合、コード化されたデータが、ソースデータが
要求するよりも大きな記憶空間を必要とすることもあ
る。

【００１０】Ziv-Lempel構文解析木の実行によって提起
される他の問題は、メモリ空間の制限である。上記に引
用された特許において、ミラー等は、固定辞書サイズを
オーバーフロー（溢れ）させずに、ソースデータストリ
ームの最近のサンプルに応答して辞書を更新する置換手
順の使用について説明している。彼らは空スロットを探
して辞書をテストし、空スロットが見つからなかった場
合、この辞書から最長時間未使用（ＬＲＵ−least rece
ntly used ）ソースシンボルストリングをデリート（削
除）する。残念ながら、簡単なＬＲＵ置換方式が、最近
では使用されないが、何度も使用されたエントリを削除
することもある。

【００１１】このような置換手順において示唆されるも
のは、エンコーダ及びデコーダ辞書の両方が変更された
構文解析木によって同時に更新されること、及びデリー
トされたエントリによってすでにコード化されたいかな
るデータももはや存在せず、既に復号化されていること
について理解することである。これは、通信チャネルに
おいて好ましく前提とされるが、データベース記憶シス
テムにおいてはそうとは限らない。ミラー等（結合的ア
ルゴリズムにおける「Ziv 及びLempelによるテーマの変
化（"Variations On A Theme by Ziv and Lempel" ）」
A. Apostolico（アポストリコ）等による編。1984年
？、スプリンガベルラージ（Springer Verlage）131-14
0 頁）は、ノード及びストリングがＬＲＵ戦略を用いて
デリート（削除）されようとする時、構文解析木と辞書
データ構造を保持することは困難であり得ることを提議
している。

【００１２】

【発明が解決しようとする課題及び課題を解決するため
の手段】ＩＢＭ社のデータベース２（ＤＢ２）のような
データベースシステムにより用いられるタイプのデータ
テーブルを圧縮するため、ハードウェアシステムで使用
するために格納され得るソースデータに適応されるZiv-
Lempel辞書を作成するために最適な戦略が技術上必要と
される。関連する未解決の問題及び欠点は、技術上明確
に認識され且つ以下に記述されるように本発明によって
解決される。

【００１３】本発明の方法は、技術上公知のZiv-Lempel
圧縮手順にいくらかの改善を加えて構文解析木を組み立
て、次いで全てのデータ圧縮に対して静的辞書を生成す
るために木を凍結することにより上記の問題を解決す
る。

【００１４】本発明の一つの目的は、いくつかの定義さ
れた特性及び他の変数特徴を有する圧縮データベーステ
ーブルにおいて使用するのに好適な静的Ziv-Lempel辞書
を組み立てるための方法を提供することにある。本発明
の方法は、あらゆる圧縮又は圧縮解除を実行する前に、
静的辞書を組み立て、次いで静的辞書を凍結することに
よってこの目的を達成する。

【００１５】本発明の他の目的は、ハードウェアベース
の圧縮装置において使用するために格納され得る静的Zi
v-Lempel辞書を提供することにある。

【００１６】本発明のさらに他の目的は、辞書が使用さ
れようとするデータベースの特有の特性に応答して、こ
のような固定された辞書を組み立てるための方法を提供
することにある。本発明の方法は、実際のデータテーブ
ル特性を反映する特有のデータベースストリームに関し
て静的なZiv-Lempel辞書を最初に組み立て、次いで同じ
データベースからデータテーブルを圧縮することに使用
するために当該静的なZiv-Lempel辞書を凍結することに
よって、これらの目的を達成する。本発明は、データベ
ーステーブル圧縮特性が、終わってみれば、予想外に低
速で進化し、これにより頻繁に更新せずに静的圧縮辞書
の利益的な使用を可能とするという認識に起因する。

【００１７】本発明の他の目的は、辞書をデータ特性に
適応させるためにZiv-Lempel能力を損なわずに辞書サイ
ズを限定するための方法を提供することにある。本発明
の方法は、以下の二つの異なる方法においてこの目的を
達成する。第１に、最初のより大きなサイズへ構文解析
木を組み立て、次いでこの木を静的Ziv-Lempel辞書のた
めに指定された固定サイズに戻すように結合したり及び
／又は枝刈りするための交替可能方法。第２に、構文解
析木を指定された固定サイズに組み立て、次いで構文解
析木ノード再生利用により周期的データベースソースス
トリームサンプリングを介して木を時折り更新するため
の交替可能方法。いづれの方法も特別なデータベースア
プリケーションに依存し好ましい方が選ばれる。

【００１８】本発明のまた他の目的は、所定のデータテ
ーブル特性を活用する有効な構文解析木初期化技術を提
供することにある。この目的は、構文解析木内の初期の
エントリとして、データテーブルに対するDEFAULT （デ
フォルト）及びNULL（ヌル）定義を選択することによっ
て達成される。Ziv-Lempel構文解析木は、ルートノード
に連結された通常のソースシンボルアルファベットノー
ドセットの他に、これらのNULL（ヌル）及びDEFAULT
（デフォルト）ストリングによって初期化される。本発
明の方法の利点は、この木を組み立てるために必要とさ
れる処理オバーヘッドがこれによって実質的に低減され
ることにある。

【００１９】本発明の方法のまた他の利点は、あらゆる
データを圧縮する前に、コード化及び復号化手順のため
に必要とされる静的Ziv-Lempel辞書を組み立て且つ凍結
することによって、データストリームの最初において静
的辞書全体が利用可能であり、これによってZiv-Lempel
技術の周知の初期圧縮の非効率性が阻止されることにな
る。

【００２０】本発明の一つの態様は、メモリ内に格納さ
れた静的辞書に従ってコードアルファベットから選択さ
れたコードシンボルのシーケンスからなる出力データを
生成するために、ソースアルファベットから選択された
ソースシンボルのシーケンスからなる入力データを圧縮
するためのコンピュータ実行システムにおいて、前記辞
書が前記コードシンボルを表わすノードを有する静的構
文解析木を表わし、且つ前記ノードが前記ソースシンボ
ルシーケンスを表わすパスへ連結されている、静的辞書
作成方法であって、ステップ（ａ）であって、前記入力
データからソースシンボルシーケンスを決定するステッ
プ（ａ．１）と、前記ソースシンボルシーケンスに応答
して少なくとも一つのノードを前記構文解析木へ追加す
るステップ（ａ．２）と、前記ソースシンボルシーケン
スの発生回数に応答して使用カウント値を前記少なくと
も一つのノードへ割り当てるステップ（ａ．３）と、を
反復実行する前記ステップ（ａ）と、所定の使用カウン
ト値閾値より下の使用カウント値を有する一つ又はそれ
より多くの子なしノードを前記構文解析木から反復的に
削除することによって前記構文解析木を第１の所定の複
数のノードへ削減するステップ（ｂ）と、を備える静的
辞書作成方法である。

【００２１】本発明の一つの態様は、前記削減ステップ
（ｂ）が、前記使用カウント値が前記少なくとも一つの
子なしノードに対する前記使用カウント値と１以下だけ
異なる単一子親ノードを有する少なくとも一つの子なし
ノードとその親ノードを結合し、これによって新たな子
なしノードを生成するステップ（ｂ．１）、をさらに備
える請求項１に記載の方法である。

【００２２】本発明の一つの態様は、メモリ内に格納さ
れた静的辞書に従ってコードアルファベットから選択さ
れたコードシンボルのシーケンスからなる出力データを
生成するために、ソースアルファベットから選択された
ソースシンボルのシーケンスからなる一つ又はそれより
多くの記録のデータストリーム内に配列された入力デー
タを圧縮するためのコンピュータ実行システムにおい
て、前記辞書が前記コードシンボルを表わすノードを有
する静的構文解析木を表わし、且つ前記ノードが前記ソ
ースシンボルシーケンスを表わすパスへ連結されてい
る、静的辞書作成方法であって、一組の前記ソースシン
ボルストリングを表わす複数の前記パスによって構文解
析木を初期化し、且つ各前記パスが単一使用カウント値
を有する少なくとも一つのノードを有するステップ
（ａ）と、前記データストリームの最初に現在入力ポイ
ンタをセットするステップ（ｂ）と、ステップ（ｃ）で
あって、現在入力ポインタにおいて開始される前記デー
タストリーム内の現在前記ソースシンボルシーケンスと
整合する前記構文解析木内のパスＰによって表わされる
最長の前記ソースシンボルシーケンスＳを決定するステ
ップ（ｃ．１）と、前記パスＰ内の全てのノードに対す
る前記使用カウント値をインクリメントするステップ
（ｃ．２）と、前記データストリーム内の少なくとも一
つの直ぐ後に続くソースシンボルによって拡張された前
記ストリングＳからなる新たなソースシンボルシーケン
スＳ’を表わす新たなパスＰ’を生成するために前記パ
スＰの最後に単一使用カウント値を有する新たなノード
Ｎを追加するステップ（ｃ．３）と、前記データストリ
ーム内の前記シーケンスＳ’の直後に前記現在入力ポイ
ンタを進めるステップ（ｃ．４）と、を実行する前記ス
テップ（ｃ）と、前記構文解析木が第１の所定の複数の
ノードより少ないノードを含む場合、前記実行ステップ
（ｃ）を反復するステップ（ｄ）と、前記静的辞書を生
成するために対応する前記パスによって前記ノードを組
み立てるステップ（ｅ）と、前記メモリ内に前記静的辞
書を格納するステップ（ｆ）と、を備える静的辞書作成
方法である。

【００２３】本発明の一つの態様は、前記データストリ
ームが一連のデータベース記録として編成される請求項
３に記載の方法である。

【００２４】本発明の一つの態様は、前記データベース
記録がヌル(NULL)ストリング及び一つ又はそれより多く
のデフォルト(DEFAULT) ストリングに対する定義に従っ
て編成され、且つ前記初期化ステップ（ａ）が、一つ又
はそれより多くの前記パスを生成する第２の複数のノー
ドによって前記構文解析木を初期化し、各前記パスが前
記ヌル(NULL)及びデフォルト(DEFAULT) ソースシンボル
ストリングの定義の内の一つを表わすステップ（ａ．
１）をさらに備えることよりなる請求項４に記載の方法
である。

【００２５】本発明の一つの態様は、前記構文解析木内
の一つ又はそれより多くの子ノードをその親ノードと結
合し、且つ前記子ノードはそれぞれ前記使用カウント値
が前記各子ノードに対する前記使用カウント値と１以下
だけ異なる単一子親ノードを有し、これにより一つ又は
それより多くの新たな葉ノードを生成するステップ（ｄ
ｄ．１）をさらに備える請求項３に記載の方法である。

【００２６】本発明の一つの態様は、使用カウント値閾
値を単一値に初期化するステップ（ｄｄ．１）と、ステ
ップ（ｄｄ．２）であって、前記使用カウント値閾値よ
り下か又は等しい使用カウント値を有する各前記子なし
ノードを削除するステップ（ｄｄ．２．１）と、前記使
用カウント値閾値をインクリメントするステップ（ｄ
ｄ．２．２）と、を実行する前記ステップ（ｄｄ．２）
と、前記構文解析木が第２の所定の複数の前記ノードよ
り多くのノードを含む場合、前記実行ステップ（ｄｄ．
２）を反復するステップ（ｄｄ．３）と、をさらに備え
る請求項３に記載の方法である。

【００２７】本発明の一つの態様は、前記構文解析木内
の各子なしノードをシーケンシャルに連結することによ
って葉チェーンを作成するステップ（ｄｄ．１）と、前
記葉チェーン内の一つ又はそれより多くの子ノードをそ
の親ノードと結合し、且つ前記子ノードがそれぞれ前記
使用カウント値が前記各子ノードに対する前記使用カウ
ント値と１以下だけ異なる単一子親ノードを有し、これ
により一つ又はそれより多くの新たな葉ノードを生成す
るステップ（ｄｄ．２）と、前記新たな葉ノードを前記
葉チェーンに追加するステップ（ｄｄ．３）と、前記新
たなノードがこれ以上は生成されなくなるまで、前記結
合ステップ（ｄｄ．２）及び前記追加ステップ（ｄｄ．
３）を反復するステップ（ｄｄ．４）と、使用カウント
値閾値を単一値に初期化するステップ（ｄｄ．５）と、
ステップ（ｄｄ．６）であって、前記使用カウント値閾
値より下か又は等しい使用カウント値を有する各前記葉
ノードを削除するステップ（ｄｄ．６．１）と、前記使
用カウント値閾値をインクリメントするステップ（ｄ
ｄ．６．２）と、を実行する前記ステップ（ｄｄ．６）
と、前記構文解析木が第２の所定の複数の前記ノードよ
り多くのノードを含む場合、前記実行ステップ（ｄｄ．
６）を反復するステップ（ｄｄ．７）と、をさらに備え
る請求項３に記載の方法である。

【００２８】本発明の一つの態様は、メモリ内に格納さ
れた静的辞書によるコードアルファベットから選択され
たコードシンボルのシーケンスからなる出力データを生
成するために、ソースアルファベットから選択されたソ
ースシンボルのシーケンスからなる一つ又はそれより多
くの記録のデータストリーム内に配列された入力データ
を圧縮するためのコンピュータ実行システムにおいて、
前記辞書が前記コードシンボルを表わすノードを有する
静的構文解析木を表わし、且つ前記ノードが前記ソース
シンボルシーケンスを表わすパスへ連結されている、静
的辞書作成方法であって、一組の前記ソースシンボルス
トリングを表わす複数の前記パスによって構文解析木を
初期化し、且つ各前記パスが単一使用カウント値を有す
る少なくとも一つのノードを有するステップ（ａ）と、
前記データストリームの最初に現在入力ポインタをセッ
トするステップ（ｂ）と、ステップ（ｃ）であって、前
記現在入力ポインタにおいて開始される前記データスト
リーム内の現在の前記ソースシンボルシーケンスと整合
する、前記構文解析木内のパスＰによって表わされる、
最長の前記ソースシンボルシーケンスＳを決定するステ
ップ（ｃ．１）と、前記パスＰ内の全てのノードに対す
る前記使用カウント値をインクリメントするステップ
（ｃ．２）と、前記データストリーム内の少なくとも一
つの直ぐ後に続く前記ソースシンボルによって拡張され
た前記ストリングＳからなる新たなソースシンボルシー
ケンスＳ’を表わす新たなパスＰ’を生成するため、前
記パスＰに単一使用カウント値を有する新たなノードＮ
を追加するステップ（ｃ．３）と、前記新たなノードＮ
をＬＲＵチェーンの最後に連結するステップ（ｃ．４）
と、前記データストリーム内の前記シーケンスＳ’の最
後に前記現在の入力ポインタを進めるステップ（ｃ．
５）と、ステップ（ｃ．６）であって、第４の所定値に
使用カウント値閾値を初期化するステップ（ｃ．６．
１）と、使用カウント値が前記使用カウント値閾値を超
えない一つの前記ノードを前記ＬＲＵチェーンから廃棄
するステップ（ｃ．６．２）と、を実行する前記ステッ
プ（ｃ．６）と、を前記データストリームが使い果たさ
れるまで反復実行する前記ステップ（ｃ）と、前記静的
辞書を生成するために対応する前記パスと前記ノードを
組み付けるステップ（ｄ）と、前記静的辞書を格納する
ステップ（ｅ）と、を備える静的辞書作成方法である。

【００２９】本発明の一つの態様は、前記データストリ
ームが一連のデータベース記録として編成される請求項
９に記載の方法である。

【００３０】本発明の一つの態様は、前記データベース
記録がヌル(NULL)ストリング及び一つ又はそれより多く
のデフォルト(DEFAULT) ストリングに対する定義に従っ
て編成され、且つ前記処理ステップ（ａ）が、一つ又は
それより多くの前記パスを生成する第２の複数のノード
によって前記構文解析木を初期化し、各前記パスが前記
ヌル(NULL)及びデフォルト(DEFAULT) ソースシンボルス
トリング定義の内の一つを表わすステップ（ａ．１）を
さらに備えることよりなる請求項１０に記載の方法であ
る。

【００３１】本発明の一つの態様は、前記連結ステップ
（ｃ．４）が、前記ＬＲＵチェーン内の各子なしノード
をシーケンシャルに連結することによって葉チェーンを
作成するステップ（ｃ．４．１）と、前記葉チェーン内
の一つ又はそれより多くの子ノードとその親ノードを結
合し、前記子ノードがそれぞれ前記使用カウント値が前
記各子ノードに対する前記使用カウント値と１以下だけ
異なる単一子親ノードを有しており、これにより一つ又
はそれより多くの新たな葉ノードを生成するステップ
（ｃ．４．２）と、を備える請求項９に記載の方法であ
る。

【００３２】本発明の一つの態様は、メモリ内に格納さ
れた静的辞書によるコードアルファベットから選択され
たコードシンボルのシーケンスからなる出力データを生
成するため、ソースアルファベットから選択されたソー
スシンボルのシーケンスからなる一つ又はそれより多く
の記録のデータストリーム内に配列された入力データを
圧縮するためのコンピュータ実行システムであって、前
記辞書が前記コードシンボルを表わすノードを有する静
的構文解析木を表わし、且つ前記ノードが前記ソースシ
ンボルシーケンスを表わすパスへ連結されており、一組
の前記ソースシンボルストリングを表わす複数の前記パ
スによって構文解析木を初期化するためのプライマ手段
であって、各前記パスが単一使用カウント値を有する少
なくとも一つのノードを有することよりなる前記プライ
マ手段と、前記データストリームの最初に現在の入力ポ
インタをセットするためのポインタ手段と、前記構文解
析木内のパスＰによって表わされる最長の前記ソースシ
ンボルシーケンスＳを決定するためのコンパレータ手段
であって、前記ソースシンポルソースＳが前記現在の入
力ポインタで開始される前記データストリーム内の現在
の前記ソースシンボルシーケンスと整合することよりな
る前記コンパレータ手段と、前記パスＰ内の全てのノー
ドに対する前記使用カウント値をインクリメントするた
めの加算手段と、前記データストリーム内の少なくとも
一つの直ぐ後に続くソースシンボルによって拡張された
前記ストリングＳからなる新たなソースシンボルシーケ
ンスＳ’を表わす新たなパスＰ’を生成するため、前記
パスＰの最後に単一使用カウント値を有する新たなノー
ドＮを追加するためのエクステンダ手段と、前記データ
ストリーム内の前記シーケンスＳ’の直後に前記現在の
入力ポインタを進めるためのレジスタ手段と、前記構文
解析木内の前記ノードの数が第１の所定の複数のノード
を超える時を決定するためのカウンタ手段と、前記静的
辞書を生成するために、対応する前記パスと前記ノード
を組み付けるためのトランスフォーマ手段と、前記静的
辞書を前記メモリ内に格納するための格納手段と、を備
えるコンピュータ実行システムである。

【００３３】本発明の一つの態様は、前記データストリ
ームが一連のデータベース記録として編成される請求項
１３に記載のコンピュータ実行システムである。

【００３４】本発明の一つの態様は、前記データベース
記録がヌル(NULL)ストリング及び一つ又はそれより多く
のデフォルト(DEFAULT) ストリングに対する定義に従っ
て編成され、且つ一つ又はそれより多くの前記パスを形
成する第２の複数のノードによって前記構文解析木を初
期化するための前記プライマ手段におけるストリングイ
ニシャライザ手段であって、各前記パスが前記ヌル(NUL
L)及びデフォルト(DEFAULT) ソースシンボルストリング
定義の内の一つを表わす前記ストリングイニシャライザ
手段をさらに備えることよりなる請求項１４に記載のコ
ンピュータ実行システムである。

【００３５】本発明の一つの態様は、葉ノードチェーン
を形成するために前記構文解析木内の各子なしノードを
シーケンシャルに連結するための第２のリンカー（連
結）手段と、前記使用カウント値が前記一つの子なしノ
ードに対する前記使用カウント値と１以下だけ異なる単
一子親ノードを有する前記葉ノードチェーン内の子ノー
ドとその親ノードを結合し、これによって新たな葉ノー
ドを生成するノードコンバイナ手段と、をさらに備える
請求項１３に記載のコンピュータ実行システムである。

【００３６】本発明の一つの態様は、所定の使用カウン
ト値閾値より下か又は等しい使用カウント値を有する前
記葉ノードチェーン内の各前記ノードを削除するための
ノードプルナー手段をさらに備える請求項１６に記載の
コンピュータ実行システムである。

【００３７】本発明の一つの態様は、所定の使用カウン
ト値閾値より下か又は等しい使用カウント値を有する前
記葉ノードチェーン内の各前記ノードを削除するための
ノードプルナー手段をさらに備える請求項１３に記載の
コンピュータ実行システムである。

【００３８】本発明の一つの態様は、前記新たなノード
ＮをＬＲＵチェーンの最後に追加するためのリンカー手
段と、使用カウント値が所定の使用カウント値閾値を超
えない一つの前記ノードを前記ＬＲＵチェーンから廃棄
するためのノードリサイクラ（再生利用）手段と、をさ
らに備える請求項１３に記載のコンピュータ実行システ
ムである。

【００３９】

【実施例】Ziv-Lempel構文解析木図１は、技術上公知のZiv-Lempel構文解析木の図を提供
している。この木は、８個の文字を前提とする完全なソ
ースアルファベット（Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、Ｇ、
Ｈ）を用いて開始された。さらに、子ノードは、アルフ
ァベットノード、Ｂ、Ｅ、及びＨから伸びている。技術
上、一般的な木は数千のこのような子孫ノードを含む。
図１の例において、全てのノードには（０）から（１
４）に及ぶ括弧内の数字として示されるコードシンボル
が割り当てられる。ソースストリングは、構文解析木内
のシーケンス又はパスに対してそれを構文解析し且つソ
ースシンボルストリングを当該ソースシンボルストリン
グの最後に対応するノードに割り当てられた単一コード
シンボルで置換することによってコード化される。

【００４０】上記に引用されたZiv （ジブ）等の参考文
献において、圧縮手順はヌルストリングルートノードの
みから開始するのものとして最初に指定された。後に、
上記に引用されたWelch （ウェルチ）の参考文献におい
て、Welch は、全てのソースシンボルアルファベットノ
ード、即ち図１の（Ａ乃至Ｈ）、並びに図２の（ａ）、
（ｂ）、及び（ｃ）における（Ａ乃至Ｃ）、によって構
文解析木を初期化することにより木のプライミング手順
（tree-priming）を変更した。上記に引用されたMiller
（ミラー）等の参考文献によって例示されているよう
に、他の発明者は、Ziv-Lempel構文解析木のために有用
な初期化戦略を用いた。入力データストリームは構築中
にこの程度まで生成された構文解析木を用いて圧縮され
るが、構文解析木のストリングプライミング（string-p
riming）又はフレーズプライミング（phrase-priming）
に対する有用な方法は今まで知られていなかったので、
これらの木のプライミング戦略は有用である。デコーダ
及びエンコーダ辞書は、損失のない圧縮を確実とするた
めに同じソースから組み立てられる。

【００４１】図２の（ａ）乃至（ｃ）は、Ziv-Lempel構
文解析木の構築処理を示している。図２の（ａ）におい
ては、木が、ルートノードと三つのソースシンボルアル
ファベットノードを含む８個の子孫ノードを有するこの
程度まで存在しているのが示されている。エンコーダに
は例えば入力データストリームＡＢＣＡＢＣＢＢＢが提
供されている。最初の二つのソースシンボルＡＢだけが
現存する構文解析木内で整合されている。この整合に続
いて、図２の（ｂ）に示されているように、新しいノー
ドの発生、次いでこの新しいノードに割り当てられたコ
ードシンボル（９）を有する３シンボルストリングＡＢ
Ｃのコード化が生じる。次に、残りのソースデータスト
リームがテストされ且つＡＢＣに対する整合が見つけら
れる。この整合に応答して、新しいノードが、ＡＢＣＢ
を表わす木へ追加され且つこの新しいノードにコードシ
ンボル（１０）が割り当てられる。最後に、図２の
（ｃ）に示されるように、残りのソースストリングがテ
ストされ、且つソースシンボルＢに整合され、次いで新
しいノード（１１）がＢＢのコード化を終了するために
追加される。図２の（ｃ）における構文解析木は、８個
の代わりに１１個の子孫ノードを含み、且つこれらのノ
ードが入力データストリームの特性に応答して位置され
ることに注目されたい。

【００４２】「葉（リーフ）」ノード、即ち構文解析木
内で表わされるソースシンボルシーケンスの最後にある
これらの子なしノード、が、無限のソースデータストリ
ームをコード化する時にエンコーダ（コード化装置）の
シンボル割り当てを必要とする唯一のノードであること
は注目に値する。しかしながら、一般に、ソースデータ
ストリームは記録の最後又はファイルの最後において終
了する。入力データストリームの終了が中間親ノードの
内の一つの上に落ちることにあるので、エンコーダシン
ボルは構文解析木内の全てのノードに割り当てられる。

【００４３】構文解析木のデータベース圧縮へのアプリ
ケーション本発明の方法は、データをコード化する前に構文解析木
と辞書を完成するので、従って関連する圧縮効率の問題
が解決される。辞書が一旦完成すると、データベースの
コード化及び復号化（デコーディング）処理は、図３及
び図４に示された簡単な機能図に従って進行し、これら
の図において、ＤＢ２のようなデータベースが行（ロ
ー）及び列（コラム）を圧縮された形態で格納したデー
タベーステーブルを有することが前提とされる。図３に
示された実施例において、ユーザは一行のデータをシス
テムに追加する。この行はソースロー１０と呼ばれる。
ソースロー１０はエンコーダ１２ヘ送られ、このエンコ
ーダ１２において一シーケンスのコードシンボルが発生
され、次いで、例えばＩＢＭ社（ニューヨーク州アーモ
ンク市）から入手可能なＤＢ２システムによって表され
るタイプのデータベースシステムにおけるデータベース
１４へ送られる。エンコーダ１２は、適切なシーケンス
のエンコーダシンボルを決定するためにコード化辞書１
６へのアクセスを要求する。復号化辞書１８も、当該復
号化辞書が圧縮処理の間に使用されてもよい圧縮辞書か
らのオーバーフロー（溢れ）エントリを含むので、図３
に示されている。しかしながら、本発明の方法によれ
ば、両方の辞書１６及び１８の内容は、データ圧縮アク
ティビティ（動作）の前に凍結される。

【００４４】同様に、図４において、ユーザは圧縮され
たデータテーブル１４内の一行（ロー）のソースシンボ
ルバージョンへのアクセスを所望する。圧縮された形態
のローはデコーダ２０へ送られ、次いで対応するソース
シンボルシーケンスが拡大された（ソース）ロー１０と
してユーザへ送られる。デコーダ２０は適切なソースシ
ンボルシーケンスを決定するために復号化辞書１８への
アクセスを要する。

【００４５】本発明の方法は、図解のみのため、ＩＢＭ
社のデータベース２のようなデータベースシステムの関
係において本明細書中に提供され且つ説明されている。
一般的な教示は、セルラデータ通信チャネル又はローカ
ルエリアネットワークのようなハードウェアベースの静
的圧縮辞書が有用なあらゆるシステムに対して広いアプ
リケーションを有する。

【００４６】図８乃至図１０は、本発明の方法が好まし
いとされる、（ａ）辞書構築及び（ｂ）データベース圧
縮のシーケンスを示している。この実施例において、辞
書は、DB2 LOAD又はDB2 REORG ユーティリティによって
組み立てられる。両ケースにおいて、辞書は圧縮が始ま
る前に凍結される。DB2 辞書は適応しないが、その構造
はデータ圧縮処理が開始した後も変化しない。

【００４７】図８において、DB2 REORG ユーティリティ
は、データベース２４をシーケンシャルデータセット２
６へアンロードすることにより開始する。これは、デー
タ再編成手順のUNLOADフェーズ（位相）と呼ばれる。静
的辞書は、このUNLOADフェーズの間、辞書組立て（buil
d dictionary）ユーティリティ２８によって遭遇した最
初のｎ個のローを走査することによって組み立てられ
る。変数ｎの値は辞書を満杯にするために必要とされる
ソースシンボルデータテーブルローの数である。辞書が
一旦満杯になると、辞書組立てユーティリティ２８は、
ローがシーケンシャルデータセット２６へ転送される
間、データベース２４からのローをサンプリング（標本
化）し続ける。このサンプリング処理は、再編成手順の
UNLOADフェーズの残りに対する可変レートにおいて行な
われる。従って、辞書は満杯になるまで組み立てられ、
次いでデータベース２４内の残りのローの選択された少
数部が、最終静的辞書内のより新しいデータのある表示
を提供するために走査される。辞書はUNLOADフェーズの
間に組み立てられるので、データベースローが図９に示
されている再編成手順のRELOADフェーズの間に再編成さ
れたデータベース３０へロードバックされる時まで、辞
書は完成され且つ凍結される。図９に示されるように、
シーケンシャルデータセット２６内の含まれている全て
のローは、ローがデータベース３０へ再ロードされるま
で、圧縮ユーティリティ３２によって圧縮される。図８
に示されている処理の背後にある戦略は、ユーザがデー
タベースの仮定上新しい特性を反映するため、彼の辞書
を更新すべきであるという見解から生じる。

【００４８】図１０は、シーケンシャルデータセット３
４をDB2 データベース２４へロードする、DB2 LOADユー
ティリティに基づく実施例を提供する。LOAD動作は、そ
のシーケンシャルデータセット３４が仮定上 DB2データ
ベースの外側に存在しているREORG 動作とは異なる。辞
書を組み立てるために一回及び記録をロードするために
もう一回の計二回の入力データの走査を阻止するための
手段（戦法）として、図１０に示された方法は辞書が満
杯になるまで辞書を組み立てる。満杯になると、辞書は
すぐに凍結され且つデータ圧縮がすぐに開始される。こ
れは、シーケンシャルデータセット３４の最初のｎ個の
ローが、非圧縮ソースシンボルシーケンスとしてデータ
ベース２４へロードされることを示す。辞書が満杯にな
った時、決定論理３５は、辞書組立てユーティリティ２
８から圧縮ユーティリティ３２ヘソースデータストリー
ムを切り換え、次いでデータ圧縮処理はシーケンシャル
データセット３４の残りに向かって進む。（図１０の）
図８との基本的な違いは、最終辞書が、最初のｎ個のロ
ーの後でシーケンシャルデータセット３４のサンプリン
グを反映しないことである。これによって、図１０の辞
書は、図８及び図９に従って構築された辞書よりもやや
効率的でないと仮定される。この効率のわずかな損失
は、シーケンシャルデータセット３４全体の第２の走査
を避けるための代償である。

【００４９】本発明は、シーケンシャルデータセット３
４又はデータベース２４のいづれかからの入力データス
トリームに応答して構文解析木を組み立てるための方法
と、構文解析木を指定されたハードウェアベースのフォ
ーマットへ変換するための方法、を含む。構文解析木を
組み立てるために使用される方法は、技術上公知のZiv-
Lempel木構築処理に対していくつかの改善点を含む。こ
れらの改善点とは、（ａ）構文解析木のフレーズプライ
ミング、（ｂ）静的構文解析木における葉ノード再生利
用（リサイクリング）、（ｃ）葉ノード結合による構文
解析木削減、及び（ｄ）葉ノード枝刈り（pruning ）に
よる構文解析木削減である。

【００５０】フレーズプライミング（phrase-priming）
による構文解析木初期化ソースシンボルアルファベットノードの単一発生による
構文解析木の初期化は、上記に引用されたWelch （ウェ
ルチ）及びMiller（ミラー）等による参考文献に開示さ
れている。本発明の方法は、入力データストリーム内に
頻繁に発生する傾向があるとして従来の技術において知
られているフレーズ又はソースシンボルシーケンスによ
り木を初期化するための方法を教示することによって技
術的改善を行なう。本発明によれば、このようなシーケ
ンスはソースデータを検査する前に指定されなければな
らない。特定のＤＢ２項目において、構文解析木は、Ｄ
Ｂ２テーブル定義を検査することによって見つけられる
DB2 DEFAULT 及びNULLシーケンスによってプライミング
される。これらの DEFAULT及びNULLシーケンスは、必要
なソースシンボルシーケンスがＤＢ２テーブル定義構造
において利用可能であるので、あらゆるシーケンシャル
データセットが検査される前に、構文解析テーブル内に
挿入されることができる。

【００５１】DB2 LOADユーティリティはシーケンシャル
ファイルからのデータをＤＢ２テーブルへロードする
（図１０）。NULLABLEコラムに対してデータをロードす
る時、テーブル内の特定コラムをロードし且つ他のコラ
ムを無視することが可能である。NULLABLEコラムは、NU
LL定義と共にNOT NULL WITH DEFAULT として定義される
コラムも含む。ローがロードされる時、非指定値を有す
るいづれのコラムも、このデータタイプに対してNULL値
又は DEFAULT値を仮定する。これは、テーブルのNULLAB
LEコラムにおいて、多数の同一 DEFAULT又はNULL値が発
見されることを示唆している。これに従って構文解析木
テーブルが初期化される場合、この予期される冗長性に
より圧縮効率はすぐに改善され得る。

【００５２】技術上公知のZiv-Lempel構文解析木組み立
て方法は、NULL又は DEFAULTストリングを含む多数のロ
ーを分析した後で最終的にはこの冗長性を検出し、且つ
NULL又は DEFAULT値は最終的に辞書内に現れる。しかし
ながら、このアプローチは、木組み立てルーチンによる
全てのNULL又は DEFAULTローの分析を強制し、またさら
に、本発明の方法によっては不必要である広範囲の処理
リソースを消費することになる。

【００５３】この方法は、ローディングが始まる前に、
テーブル定義においてピークすること（peeking ）によ
ってこの広範囲の処理オーバーヘッドを阻止する。テー
ブル定義は、DB2 CATALOG 内に格納される。LOADユーテ
ィリティは辞書内で現れるはずのフィールドリストを有
する組み立て辞書ユーティリティ２８を呼び出す（図８
乃至図１０）。組み立て辞書ユーティリティ２８は、次
いで、各NULL又は DEFAULT値に対してノードを割り当て
る。ノードのストリングは、これらの値に対応するシー
ケンス内の各ソースシンボルを表わすために設定され
る。これらのノードは次いで適切なアルファベットノー
ドの下の木に取り付けられ且つ置き換え不可能であると
記号付けされる。この置換不可能性（nonreplaceabilit
y ）は、本発明の方法のアルファベットノード処理と同
様、最終辞書内のそれら（置換不可能なノード）の存在
を保証する。ルートノードに直接連結されたアルファベ
ットノードも置換不可能として木内で初期化される。

【００５４】その上、最重要な処理オーバーヘッド削減
は、DEFAULT 又はNULLフィールドが遭遇した時は必ず、
LOADユーティリティが組み立て辞書リーチン２８をスキ
ップするのを可能とすることから生じる。これが構築中
に同一フィールドの反復走査を阻止する。NULL及びDEFA
ULT 値は常に木内に現れるので、圧縮効率も利益を得
る。

【００５５】テーブルが同一タイプ指定を持つ多くのコ
ラム（列）を有する時、より短いNULL又はDEFAULT フィ
ールドが、同一タイプに対するより長いNULL又はDEFAUL
T フィールドのサブセット（部分集合）であるので、最
長コラムが構文解析木を初期化するために使用される。
この例は、二つのコラムだけを有するデータから四つの
コラムを含むテーブルのLOAD（ロード）であり、ここ
で、残り二つのコラムはNULL又はDEFAULT 値を取る。本
発明の方法は、 DEFAULT又はNULL値が辞書組み立て手順
の間、処理される必要がなくなるように、これらの値に
よってZiv-Lempel木を初期化する。この初期化方法は、
DB2 LOADユーティリティによって使用される DEFAULTIF
又はNULLIFのような条件節の優先定義によって木を初期
化することも含む。

【００５６】静的構文解析木における葉ノード再生利用構文解析木は最大Ｎ個のノードによってｎ通りに境界付
けされた木である。木は全てのＮ個のノードが情報によ
って埋め込まれた時に一杯になる。図８乃至図１０に関
して上記に示されているように、木の完全な状態が、圧
縮を始めるためにLOADユーティリティをシグナルする。
REORG 状態（図８及び図９）において、これはさらなる
サンプリングを開始する信号である。データセットサン
プリング手順は、新しいノードが追加されてもよいよう
に、現存の構文解析木ノードを除去するための方法に依
存する。この手順は、本明細書中では葉ノード再生利用
と呼ばれる。木は境界付けされずに成長できないので、
ノード再生利用は必要である。

【００５７】本発明の方法は、最長時間未使用（ＬＲ
Ｕ）及び最低使用頻度（ＬＦＵ）のノード測度の結合に
依存する置換のためのノード選択手順を用いる。これら
二つの測度の結合によって以下に説明されるクラスのノ
ード再生利用手順が生じる。

【００５８】ＦＬＥＡＳ（The First Leaf Encountere
d,Annihilated Sometimes−遭遇し時々消滅する第１の
葉）手順がノード再生利用のために好ましいとされる。
構文解析木の初期化の間、アルファベットノード並びに
NULL及びDEFAULT ノードにより木をプライミングした後
に残る空ノードの全てが自由ノードチェーン内に配置さ
れる。ADD NODE（ノード追加）機能が実行されると、新
しいノードが構文解析木に追加される。木に一つのノー
ドが追加される時、自由ノードチェーンの最初のノード
が新しく追加された木ノードとなり、この木ノードに単
一使用カウント値が割り当てられ、且つＬＲＵチェーン
の最後に連結される。辞書組み立て処理の間にノードが
整合される度に、このノードの使用カウント値が１だけ
インクリメントされ、新たな値で保持され、且つこのノ
ードがＬＲＵチェーンの最後に移動される。

【００５９】従って、構文解析木内の各ノードは、木組
み立て処理の間、ノードが遭遇されたり又は整合された
回数を表わす使用カウント値を含む。自由ノードチェー
ンが使い果たされた後、ＦＬＥＡＳ方法は、ＬＲＵチェ
ーンをその最初から、本明細書中で葉ノードと呼ばれる
子供を持たないノードに到達するまで探索する。１に等
しい使用カウント値を有する第１の葉ノードが再生利用
されるために選択される。要するに、この第１の葉ノー
ドは、新しい（少し前の）入力データ走査に基づく新ノ
ードの追加を許容するために必要な一つのノードによっ
て構文解析木のサイズを減少するために廃棄されるので
ある。第１のパスで単一使用カウント値を有する葉ノー
ドが存在しない場合、第２のパスは、第１のパスの間遭
遇した最低使用カウント値を有する第１の葉ノードを検
出するために作動する。この「遭遇した最低カウント
（lowest count encountered）」戦略は、使用カウント
値閾値が、各パス後に１だけインクリメントされるにす
ぎないならば、必要とされるかもしれない反復されるパ
スを阻止する。

【００６０】ノードを再生利用する時、ＬＲＵチェーン
は最初から走査され且つ使用カウント１の葉ノードは連
結されたリスト探索のターゲットである。これは簡単な
方法であるが、データベース走査のサンプリング部分の
間に追加ノードを追加する手段を有するREORG ユーティ
リティに圧縮効率における関連増加を提供するには充分
である。この手順は、図６の（ａ）及び（ｂ）に示され
ている実施例によって理解されよう。

【００６１】図６の（ａ）は、１０個のノードを有する
初期の全構文解析木を示す。各ノードは円形のノードシ
ンボルの隣に数で示されている使用カウント値によって
ラベル付けされている。対応するソースシンボルが各ノ
ードシンボルの内部に示されている。ＬＲＵノードチェ
ーン３６は矢印を有する波線によって結ばれたノードの
連結として示されている。

【００６２】図６の（ｂ）は、図６の（ａ）からの構文
解析木を示し、新たなノード４２の追加を許容するため
にノード４０の再生利用（リサイクル）が続いて行なわ
れる。ＬＲＵノードチェーン３６内の全ての子なしノー
ドを含む葉ノードチェーン３８も構築され、且つ（該葉
ノードチェーン３８は）図６の（ｂ）において矢印付き
点線によって結ばれたノードの連結として表わされてい
る。実践における便宜上、葉ノードチェーン３８はＬＲ
Ｕオーダーであるのがよい（図示されてない）。この実
施例では１０ノードと仮定された全構文解析木カウント
を超えるのを阻止するため、ノード４０は、ノード４２
を追加すると、除去されなければならない。ノード４０
は、ノード４４でスタートし、ＬＲＵノードチェーン３
６の最初を表わし、次いで使用カウント値１を有する第
１の葉ノードが検出されるまでチェーン３６に沿って進
むことによって、ＦＬＥＡＳアルゴリズムに従って選択
される。この実施例ではノード４４は使用カウント値２
を有し、選択されない。チェーン３６内の次のノードは
ノード４０であり、単一使用カウント値を有し、従って
このノード４０は再生利用ノードとなる。ノード４０が
１より大きな使用カウント値を示した場合、ＬＲＵノー
ドチェーン３６内の次のノード４６が検査され、順次同
様に行なわれる。ニル（nil ）（空）４８におけるチェ
ーン３６の最後が再生利用のためのノードを見つけずに
遭遇された場合、手順はノード４４で再スタートされ、
次いで第１のパスの間に遭遇した最小カウント値を有す
る第１のノードが再生利用のために選択される。

【００６３】図６の（ｂ）に関しては、ノード４０が構
文解析木内で新ノード４２と置換された後、ＬＲＵノー
ドチェーン３６は、チェーン３６の中間からノード４０
を単に削除し、ギャップを閉じ、且つチェーン３６の最
後にノード４２を追加することによって、置換のために
調整される。ノード４０が除去された後、ノード５０は
子なしノードになるが、ルートノードに直接連結された
アルファベットノードであり置換不可能と記付けされる
ので、ノード５０はチェーン３６及び３８のいづれにも
追加されない（図示されてない）。

【００６４】発明者によって考慮されたこのクラスの他
のノード再生利用手順は、その有用性がＦＬＥＡＳより
もっと限定されていることが発見された。最低使用頻度
（回数）（ＬＦＵ）葉ノード置換方式はノード再生利用
のためには受容不可能である。この方式は、再生利用の
ための最小使用カウント値を有する葉ノードを選択す
る。最終的に、木のすべての葉が、頻度（回数）１を有
するであろう最新葉ノードを除く１より上の使用カウン
ト値を求めることになる。この葉は最も新しく木に追加
されるので、次のノードを追加すると、再生利用のた
め、この葉ノードを除くことにより連続的に変化する単
一ノードを除く木の組み立てフェーズ（位相）の残りに
対して実質的に変化しないまま構文解析木を残す。これ
は、追加のデータストリームサンプリングを正当化しな
い重要でない結果である。

【００６５】ＦＬＥＡ（The First Leaf Encountered,
Annihilated ）（遭遇され、消滅される第１の葉）手順
は、初期化ノードを除く木内の全てのノードを含む、除
去のために利用可能な円形のノードの待ち行列（キュ
ー）を使用する。ＦＬＥＡ方法は、待ち行列をその現在
の地点から再生利用のためにすぐに選択される葉ノード
に達するまで探索する。ＦＬＥＡ方法は、ＬＲＵ測度を
考慮しないのでＦＬＥＡＳ方法よりも有用性が少ない。

【００６６】最小重み付け葉（Least Weighted Leaf-Ｌ
ＷＬ）方法を用いて、再び初期化ノードを除いたノード
の円形待ち行列が保持される。各ノードは、そのノード
に対応して割り当てられた重みを有しており、且つノー
ドが木に最初に追加された時、その重みは１にセットさ
れる。入力データの現在走査がノードを通過する時は必
ず、このノードの重みがインクリメントされる。ノード
が再生利用のために必要とされる時、この方法は待ち行
列を探索し且つ重み１を有する第１の葉ノードを選択す
る。この探索の間、選択のために検査されるが選択はさ
れない、すべての他の葉ノードに対してデクリメント
（減分）される。

【００６７】確率再生利用（ＰＲ）（Probability Recy
cling ）方法は、構文解析木に対する全ての現在葉ノー
ドとこれらに対応する使用カウント値のリストを保持す
る。再生利用のために選択されるいかなる所与の葉ノー
ドの確率もその使用カウント値に反比例する。この確率
は、Ｆが葉ノードの使用カウント値であり、Ｃが全ての
葉ノードに対する使用カウント値の和の逆数に等しい正
規化定数（normalization constant）であるＣ／Ｆとし
て付与される。次いで乱数が再生利用のための葉ノード
を選択するために使用される。

【００６８】葉ノード結合による構文解析木削減ハードウェアベースの辞書アーキテクチュアを完全活用
するため、構文解析木はノード当たり一つより多くのソ
ースシンボルによって構成されることができる。他のア
プローチは通常の方法でノード当たり一つのソースシン
ボルを有する構文解析木を構築し且つこの木の完成時に
選択されるノードを結合することである。或いは、二つ
の戦略の組合せは有効な構文解析木を組み立てるのに用
いられてもよい。

【００６９】本明細書中に説明されているDB2 の実施例
にために好ましいとされるハードウェア辞書アーキテク
チュアは以下の三つのタイプのエントリを許容する。（ａ）子なしノードは１乃至５のソースシンボル文字を
含むことができる。（ｂ）単一子の親ノードは１乃至５のソースシンボル文
字を含むことができる。及び、（ｃ）一人より多くの子を持つ親ノードは、１乃至２の
ソースシンボル文字を含むことができる。このハードウェア構成は大部分の親ノードを２個のソー
スシンボルへ限定する。従って、木の構築の間、より大
きな容量の葉や単一子の親ノードの活用は、新しい子孫
ノードが成長する前に葉ノードから文字を除去すること
を含み得るので、一般に有用でない。従って、入力デー
タストリームの消耗まで、ノード当たり１文字を有する
木を組み立てることが好ましい。

【００７０】図５の（ａ）及び（ｂ）は、ノード結合に
好ましいとされる方法を示す。図５の（ａ）は、入力デ
ータストリームの消耗の後に続く構文解析木を示す。葉
ノード５２から始まり、子は、最初は子と親のノードに
対応する両方のシンボルを含むソースシンボルストリー
ムを形成するために親と結合される。この上向きの結合
は、図５の（ｂ）を参照することによって理解され得る
ように幾つかの条件のうちの一つが満たされた時に終了
する。ノード５４は、図５の（ａ）からの５個のオリジ
ナルノードの結合を示し、且つ５個のソースシンボルの
葉ノードに対して指定されたレングス制限を超えずにア
ルファベットノード５６と上向きに結合されることはで
きない。図５の（ａ）を再び参照すると、ノード５８
が、図５の（ｂ）におけるノード６２を形成するために
ノード６０と結合される。ノード６４は、ノード６６が
１より多くの子を有しているのでノード６６と結合され
ることができない。ノード６８は、ノード７０が置換不
可能と記付けされている（図示されてない）アルファベ
ットノードであるのでノード７０と結合されることがで
きない。葉ノードを葉ノードの単一子の親と結合する
と、葉ノードチェーン７２は新たな複数のソースシンボ
ルノードを含むように再調整される。

【００７１】発明者らは、オリジナル構文解析木がノー
ド当たり二つの文字によって構築され、これによってZi
v-Lempel手順を変更するような他の方法を考え出した。
ハードウェア構成は、いづれのノードにおいても二つよ
り少なくない文字を支持するので、この方法も、木構築
の間、ノードを分割するための手順に対する要求を回避
する。しかしながら、この他の（第２の）方法は、各葉
ノード及び各単一子の親ノードにおいて５個までのソー
スシンボルまでの追加容量を活用しない。

【００７２】第３の方法は、これらの他の方法の両方の
特徴を組み合わせる。構文解析木はノード当たり二つの
シンボルによって組み立てられ得る。入力データが使い
果たされると、一つより多くの子を有する親ノードと遭
遇するまで一つ乃至二つのシンボル葉ノードが上向きに
結合される。これによって、親ノード当たり二つのシン
ボル及び葉ノード当たり１乃至５のシンボルを有する辞
書を生成することになる。この方法は利用可能なハード
ウェア制約を最大限活用するが、多様なハードウェア構
成に適用可能な一般的な辞書構成方法のため、発明者ら
は、構文解析木が単一ソースシンボルノードによって構
築され、次いで図５の（ａ）及び（ｂ）によって上記に
説明されている葉ノード結合技術の使用によって圧縮さ
れるような最初の方法を好む。

【００７３】葉ノード枝刈りによる構文解析木削減図７の（ａ）乃至（ｃ）は、入力データストリームから
できるだけ多くの圧縮効率を抽出するため、最初は構文
解析木を必要以上に組み立て、次に、その構文解析木が
利用可能な限定された格納（容量）に適うだけのサイズ
になるまで、その構文解析木を結合及び／又は枝刈りす
るための本発明の主要方法を示している。最終的な辞書
格納空間は、木構築の間に利用可能な中間メモリよりも
っと制約されている。本発明の方法によって、木は最初
にＮ個のノードに組み立てられ、次いで最終辞書が利用
可能な空間に格納されるのを許容するためにＮ／ａ個の
ノードへ削減される。上記に説明されているDB2 の実施
例は、Ｎ＝１６Ｋ及びＮ／ａ＝４Ｋとなるように値を割
り当てる。ノード数のＮ及び圧縮比ａの数に対する任意
の所望される値のために有用である。この技術は、枝刈
りされた木の圧縮効率が、最初に枝刈りされるサイズに
制限された構文解析木の圧縮効率よりも予想に反して優
れているという観察から結果的に生じる。

【００７４】構文解析木の枝刈りは、１のような使用カ
ウント値に対する初期閾値を設定するとによって達成さ
れ、次いで葉ノードチェーンが構築される。葉ノードチ
ェーン３８は次いで最初からシーケンシャルに走査さ
れ、且つ所定の閾値と等しい使用カウント値と遭遇した
全ての葉ノードが枝刈りされる（除去される）。葉ノー
ドチェーン３８の最後がニル（空）７２（図７の
（ａ））において接続された後、使用カウント値閾値が
１だけインクリメントされ、且つ枝刈り処理は第２のパ
ス内の葉ノードチェーン３８の最初から続けられる。こ
の反復処理は、木のサイズが所望の所定の複数のノード
より少ないか又は等しくなるまで続けられる。

【００７５】表１及び２における以下の擬似コードルー
チンは木の枝刈り手順を実行するために使用されること
ができる。二つの擬似コードルーチンは、表２が葉ノー
ド結合を一度だけ引き起こす葉ノードチェーン３８を介
して各パスの開始時に表１が葉ノード結合を開始すると
いう点においてのみ異なる。

【００７６】

【表１】

【００７７】

【表２】

【００７８】図７の（ａ）及び（ｂ）に関しては、図５
の（ａ）及び（ｂ）に関して上記に説明されている葉ノ
ード結合手順が、ソースシンボルストリングＡＣＢを表
わすノード７４及びソースシンボルストリングＣＡを表
わすノード７６を生成するために使用される。葉ノード
チェーン３８は葉ノードチェーン３８にこれらの結合ノ
ードを加えるために再度調整される。ＬＲＵチェーン
は、図７の（ａ）乃至（ｃ）において示されておらず且
つ枝刈り処理においては使用されない。

【００７９】図７の（ｂ）において、第１の枝刈りステ
ップは、ノード７４においてスタートし、次いでノード
７８で単一使用カウント値の最初の発生に遭遇するま
で、点線の矢印の連結として示されている葉ノードチェ
ーン３８に沿って進行する。ノード７８は、同じ使用カ
ウント値を有するノード８０のようにすぐに枝刈りされ
る。ニル７２は他の単一使用カウント値と遭遇せずに達
成されるので、他のノードは第１のパスでは枝刈りされ
ない。９個のノードを有する結果的に生じる枝刈りされ
た木が図７の（ｃ）に示されている。

【００８０】図７の（ｃ）は、ノード７８及び８０の枝
刈りによって必要とされる葉ノードチェーン３８の変更
を示している。たとえあるにせよ、次の枝刈りパスは、
ノード７４でスタートし、且つ使用カウント値閾値が葉
ノードチェーン３８を通る他のパスに先立って１だけイ
ンクリメントされるので、使用カウント値２を有する全
てのノードを選択する。従って、図７の（ｃ）に示され
ているように、次のパスは除去のためにノード８２、８
４、及び７６を選択し、これによって構文解析木のサイ
ズを６個のノードへ減少することになる。ノード８６
は、保持のために記付けされたアルファベットノードで
あり、従って使用カウント値２を有するとしても無視さ
れる。図６の（ａ）及び（ｂ）に関して上記に説明され
ているように、葉ノード再生利用の為に使用されるＬＲ
Ｕノードチェーンは、本発明のノード結合及び／又は枝
刈り方法のためには使用されない。

【００８１】構文解析木変形方法上記に説明されている方法によって生成される構文解析
木は、データ圧縮及び圧縮解除動作のために必要とされ
るコード化及び復号化辞書を組み立てるために使用され
る。これらの辞書を組み立てるための手順は、事実上再
帰的であり且つプリオーダ走査手順に幾分類似してい
る。本発明の方法は、ノードとして各兄弟ノードリスト
を処理し次いで葉ノードへ進行すると共に、圧縮辞書に
対する親及び兄弟記述子を組み立てる。構文解析木にお
けるすべてのノードは辞書エントリによって表されなけ
ればならない。そのノードにおける第１のソースシンボ
ルはノードの親エントリにおいて表される。そのノード
における全ての残りのソースシンボルはノードエントリ
において現れる。

【００８２】辞書フォーマットは所与の親ノードからの
全ての子ノードエントリが圧縮辞書内に連続的に格納さ
れることを要求する。従って、このルールは構文解析木
が変形の間に走査されなければならない順序を指令す
る。走査は親ノードごとに兄弟ノードリストを横切って
移動し、次いで葉ノードの方へ下方移動しなければなら
ない。これは、Pre-Order Tree Traversal（所定順序の
木の走査）に類似しているが、各ノードにおいて兄弟ノ
ードリストは全体的に処理される。一旦構文解析木全体
が走査されると、圧縮辞書がハードウェアベースの圧縮
ユーティリティによって使用するために完成される。

【００８３】同様に、同じ構文解析木が復号化拡大辞書
へ変形される。図７の（ｂ）における構文解析木を考慮
すると、ROOT（ルート）ノードからの子ノードリストが
最初に走査される。これは、ノード８８、８９、及び９
０に対する親エントリを生成する。次に、ノード８８の
子リストがノード９２に対して一つの親エントリを生成
する為に走査される。最後に、ノード９２に対する子リ
ストがノード７４及び８２に対して二つの親エントリを
生成する為に走査される。これがノード８８より下の副
木（サブツリー）を使い果たすので、次の手順はノード
８６によって続けられ、次いでノード７８及び８０に対
して二つの親木を発生する。これがノード８６の子孫を
使い果たすので、ノード９０は、次に一つがノード８４
に対する一つの親エントリを生成する二つの親エントリ
を生成するため、同様に処理される。構文解析木は辞書
エントリによって表される。これによって生じる辞書は
次いでコンピュータベースの圧縮及び圧縮解除ユーティ
リティによってアクセスするためにコンピュータメモリ
内に格納される。

【００８４】本発明は、IBM DB2 製品のような関連デー
タベースシステムのデータマネジャーコンポーネント内
に提供されるコンピュータ実行ルーチンの形態において
実践されてもよい。図示されているように、本発明は、
ＩＢＭ社（ニューヨーク州、アーモンク市）から入手可
能な多重仮想記憶装置（Multiple Virtual Storage（Ｍ
ＶＳ）タイプのオペレーティングシステム下で実行され
るEnterprise System（エンタープライズシステム） 90
00 シリーズによって例示されるタイプのディジタルコ
ンピュータにおいて実行可能である。

【００８５】

【発明の効果】本発明は、いくつかの定義された特性及
び他の変数特徴を有する圧縮データベーステーブルに好
適な静的Ziv-Lempel辞書を組み立てるための方法を提供
する。

【図面の簡単な説明】

【図１】従来の技術のZiv-Lempel構文解析木の実施例を
示す図である。

【図２】（ａ）は、従来の技術のZiv-Lempel木の展開の
実施例を示す図である。（ｂ）は、従来の技術のZiv-Le
mpel木の展開の実施例を示す図である。（ｃ）は、従来
の技術のZiv-Lempel木の展開の実施例を示す図である。

【図３】本発明のエンコーダの機能ブロック図である。

【図４】本発明のデコーダの機能ブロック図である。

【図５】（ａ）は、本発明のノード結合方法を示す図で
ある。（ｂ）は、本発明のノード結合方法を示す図であ
る。

【図６】（ａ）は、本発明のノード再生方法を示す図で
ある。（ｂ）は、本発明のノード再生方法を示す図であ
る。

【図７】（ａ）は、本発明のノード結合及び枝刈り手順
を示す図である。（ｂ）は、本発明のノード結合及び枝
刈り手順を示す図である。（ｃ）は、本発明のノード結
合及び枝刈り手順を示す図である。

【図８】本発明の二つの他の辞書組立て構成方法の単純
な機能ブロック図である。

【図９】本発明の二つの他の辞書組立て方法の簡単な機
能ブロック図である。

【図１０】本発明の二つの他の辞書組立て方法の簡単な
機能ブロック図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者グレゴリーリーダヴォルアメリカ合衆国95032、カリフォルニア州ロスガトス、リンアヴェニュー 15120 (72)発明者モハメドハッサンエル−ルビーアメリカ合衆国95123、カリフォルニア州サンホゼ、ブロッソムガーデンサークル 5450 (72)発明者クレイグアランフリスケアメリカ合衆国95138−1829、カリフォルニア州サンホゼ、サウスビュードライヴ 5886 (72)発明者バラクリシュナラガヴェンドラアイアアメリカ合衆国95133−2049、カリフォルニア州サンホゼ、ナシュヴィルドライヴ 3049 (72)発明者ジョンピーターラザルスアメリカ合衆国95124、カリフォルニア州サンホゼ、ハドソンドライヴ 1720 (72)発明者デイヴィッドウィルヒテアメリカ合衆国90025、カリフォルニア州ロサンゼルス、アーマコスト 1559 ナンバー102

Claims

(57)【特許請求の範囲】

【請求項１】メモリ内に格納された静的辞書に従って
コードアルファベットから選択されたコードシンボルの
シーケンスからなる出力データを生成するために、ソー
スアルファベットから選択されたソースシンボルのシー
ケンスからなる入力データを圧縮するためのコンピュー
タ実行システムにおいて、前記辞書が前記コードシンボ
ルを表わすノードを有する静的構文解析木を表わし、且
つ前記ノードが前記ソースシンボルシーケンスを表わす
パスへ連結されている、静的辞書作成方法であって、ステップ（ａ）であって、前記入力データからソースシンボルシーケンスを決定す
るステップ（ａ．１）と、前記ソースシンボルシーケンスに応答して少なくとも一
つのノードを前記構文解析木へ追加するステップ（ａ．
２）と、前記ソースシンボルシーケンスの発生回数に応答して使
用カウント値を前記少なくとも一つのノードへ割り当て
るステップ（ａ．３）と、を反復実行する前記ステップ（ａ）と、所定の使用カウント値閾値より下の使用カウント値を有
する一つ又はそれより多くの子なしノードを前記構文解
析木から反復的に削除することによって前記構文解析木
を第１の所定の複数のノードへ削減するステップ（ｂ）
と、を備える静的辞書作成方法。
【請求項２】前記削減ステップ（ｂ）が、前記使用カ
ウント値が前記少なくとも一つの子なしノードに対する
前記使用カウント値と１以下だけ異なる単一子親ノード
を有する少なくとも一つの子なしノードとその親ノード
を結合し、これによって新たな子なしノードを生成する
ステップ（ｂ．１）、をさらに備える請求項１に記載の方法。
【請求項３】メモリ内に格納された静的辞書に従って
コードアルファベットから選択されたコードシンボルの
シーケンスからなる出力データを生成するために、ソー
スアルファベットから選択されたソースシンボルのシー
ケンスからなる一つ又はそれより多くの記録のデータス
トリーム内に配列された入力データを圧縮するためのコ
ンピュータ実行システムにおいて、前記辞書が前記コー
ドシンボルを表わすノードを有する静的構文解析木を表
わし、且つ前記ノードが前記ソースシンボルシーケンス
を表わすパスへ連結されている、静的辞書作成方法であ
って、一組の前記ソースシンボルストリングを表わす複数の前
記パスによって構文解析木を初期化し、且つ各前記パス
が単一使用カウント値を有する少なくとも一つのノード
を有するステップ（ａ）と、前記データストリームの最初に現在入力ポインタをセッ
トするステップ（ｂ）と、ステップ（ｃ）であって、現在入力ポインタにおいて開始される前記データストリ
ーム内の現在前記ソースシンボルシーケンスと整合する
前記構文解析木内のパスＰによって表わされる最長の前
記ソースシンボルシーケンスＳを決定するステップ
（ｃ．１）と、前記パスＰ内の全てのノードに対する前記使用カウント
値をインクリメントするステップ（ｃ．２）と、前記デ
ータストリーム内の少なくとも一つの直ぐ後に続くソー
スシンボルによって拡張された前記ストリングＳからな
る新たなソースシンボルシーケンスＳ’を表わす新たな
パスＰ’を生成するために前記パスＰの最後に単一使用
カウント値を有する新たなノードＮを追加するステップ
（ｃ．３）と、前記データストリーム内の前記シーケンスＳ’の直後に
前記現在入力ポインタを進めるステップ（ｃ．４）と、を実行する前記ステップ（ｃ）と、前記構文解析木が第１の所定の複数のノードより少ない
ノードを含む場合、前記実行ステップ（ｃ）を反復する
ステップ（ｄ）と、前記静的辞書を生成するために対応する前記パスによっ
て前記ノードを組み立てるステップ（ｅ）と、前記メモリ内に前記静的辞書を格納するステップ（ｆ）
と、を備える静的辞書作成方法。
【請求項４】前記データストリームが一連のデータベ
ース記録として編成される請求項３に記載の方法。
【請求項５】前記データベース記録がヌル(NULL)スト
リング及び一つ又はそれより多くのデフォルト(DEFAUL
T) ストリングに対する定義に従って編成され、且つ前
記初期化ステップ（ａ）が、一つ又はそれより多くの前
記パスを生成する第２の複数のノードによって前記構文
解析木を初期化し、各前記パスが前記ヌル(NULL)及びデ
フォルト(DEFAULT) ソースシンボルストリングの定義の
内の一つを表わすステップ（ａ．１）をさらに備えるこ
とよりなる請求項４に記載の方法。
【請求項６】前記構文解析木内の一つ又はそれより多
くの子ノードをその親ノードと結合し、且つ前記子ノー
ドはそれぞれ前記使用カウント値が前記各子ノードに対
する前記使用カウント値と１以下だけ異なる単一子親ノ
ードを有し、これにより一つ又はそれより多くの新たな
葉ノードを生成するステップ（ｄｄ．１）をさらに備え
る請求項３に記載の方法。
【請求項７】使用カウント値閾値を単一値に初期化す
るステップ（ｄｄ．１）と、ステップ（ｄｄ．２）であって、前記使用カウント値閾値より下か又は等しい使用カウン
ト値を有する各前記子なしノードを削除するステップ
（ｄｄ．２．１）と、前記使用カウント値閾値をインクリメントするステップ
（ｄｄ．２．２）と、を実行する前記ステップ（ｄｄ．２）と、前記構文解析木が第２の所定の複数の前記ノードより多
くのノードを含む場合、前記実行ステップ（ｄｄ．２）
を反復するステップ（ｄｄ．３）と、をさらに備える請求項３に記載の方法。
【請求項８】前記構文解析木内の各子なしノードをシ
ーケンシャルに連結することによって葉チェーンを作成
するステップ（ｄｄ．１）と、前記葉チェーン内の一つ又はそれより多くの子ノードを
その親ノードと結合し、且つ前記子ノードがそれぞれ前
記使用カウント値が前記各子ノードに対する前記使用カ
ウント値と１以下だけ異なる単一子親ノードを有し、こ
れにより一つ又はそれより多くの新たな葉ノードを生成
するステップ（ｄｄ．２）と、前記新たな葉ノードを前記葉チェーンに追加するステッ
プ（ｄｄ．３）と、前記新たなノードがこれ以上は生成されなくなるまで、
前記結合ステップ（ｄｄ．２）及び前記追加ステップ
（ｄｄ．３）を反復するステップ（ｄｄ．４）と、使用カウント値閾値を単一値に初期化するステップ（ｄ
ｄ．５）と、ステップ（ｄｄ．６）であって、前記使用カウント値閾値より下か又は等しい使用カウン
ト値を有する各前記葉ノードを削除するステップ（ｄ
ｄ．６．１）と、前記使用カウント値閾値をインクリメントするステップ
（ｄｄ．６．２）と、を実行する前記ステップ（ｄｄ．６）と、前記構文解析木が第２の所定の複数の前記ノードより多
くのノードを含む場合、前記実行ステップ（ｄｄ．６）
を反復するステップ（ｄｄ．７）と、をさらに備える請求項３に記載の方法。
【請求項９】メモリ内に格納された静的辞書によるコ
ードアルファベットから選択されたコードシンボルのシ
ーケンスからなる出力データを生成するために、ソース
アルファベットから選択されたソースシンボルのシーケ
ンスからなる一つ又はそれより多くの記録のデータスト
リーム内に配列された入力データを圧縮するためのコン
ピュータ実行システムにおいて、前記辞書が前記コード
シンボルを表わすノードを有する静的構文解析木を表わ
し、且つ前記ノードが前記ソースシンボルシーケンスを
表わすパスへ連結されている、静的辞書作成方法であっ
て、一組の前記ソースシンボルストリングを表わす複数の前
記パスによって構文解析木を初期化し、且つ各前記パス
が単一使用カウント値を有する少なくとも一つのノード
を有するステップ（ａ）と、前記データストリームの最初に現在入力ポインタをセッ
トするステップ（ｂ）と、ステップ（ｃ）であって、前記現在入力ポインタにおいて開始される前記データス
トリーム内の現在の前記ソースシンボルシーケンスと整
合する、前記構文解析木内のパスＰによって表わされ
る、最長の前記ソースシンボルシーケンスＳを決定する
ステップ（ｃ．１）と、前記パスＰ内の全てのノードに対する前記使用カウント
値をインクリメントするステップ（ｃ．２）と、前記データストリーム内の少なくとも一つの直ぐ後に続
く前記ソースシンボルによって拡張された前記ストリン
グＳからなる新たなソースシンボルシーケンスＳ’を表
わす新たなパスＰ’を生成するため、前記パスＰに単一
使用カウント値を有する新たなノードＮを追加するステ
ップ（ｃ．３）と、前記新たなノードＮをＬＲＵチェーンの最後に連結する
ステップ（ｃ．４）と、前記データストリーム内の前記シーケンスＳ’の最後に
前記現在の入力ポインタを進めるステップ（ｃ．５）
と、ステップ（ｃ．６）であって、第４の所定値に使用カウント値閾値を初期化するステッ
プ（ｃ．６．１）と、使用カウント値が前記使用カウント値閾値を超えない一
つの前記ノードを前記ＬＲＵチェーンから廃棄するステ
ップ（ｃ．６．２）と、を実行する前記ステップ（ｃ．６）と、を前記データストリームが使い果たされるまで反復実行
する前記ステップ（ｃ）と、前記静的辞書を生成するために対応する前記パスと前記
ノードを組み付けるステップ（ｄ）と、前記静的辞書を格納するステップ（ｅ）と、を備える静的辞書作成方法。
【請求項１０】前記データストリームが一連のデータ
ベース記録として編成される請求項９に記載の方法。
【請求項１１】前記データベース記録がヌル(NULL)ス
トリング及び一つ又はそれより多くのデフォルト(DEFAU
LT) ストリングに対する定義に従って編成され、且つ前
記処理ステップ（ａ）が、一つ又はそれより多くの前記
パスを生成する第２の複数のノードによって前記構文解
析木を初期化し、各前記パスが前記ヌル(NULL)及びデフ
ォルト(DEFAULT) ソースシンボルストリング定義の内の
一つを表わすステップ（ａ．１）をさらに備えることよ
りなる請求項１０に記載の方法。
【請求項１２】前記連結ステップ（ｃ．４）が、前記ＬＲＵチェーン内の各子なしノードをシーケンシャ
ルに連結することによって葉チェーンを作成するステッ
プ（ｃ．４．１）と、前記葉チェーン内の一つ又はそれより多くの子ノードと
その親ノードを結合し、前記子ノードがそれぞれ前記使
用カウント値が前記各子ノードに対する前記使用カウン
ト値と１以下だけ異なる単一子親ノードを有しており、
これにより一つ又はそれより多くの新たな葉ノードを生
成するステップ（ｃ．４．２）と、を備える請求項９に記載の方法。
【請求項１３】メモリ内に格納された静的辞書による
コードアルファベットから選択されたコードシンボルの
シーケンスからなる出力データを生成するため、ソース
アルファベットから選択されたソースシンボルのシーケ
ンスからなる一つ又はそれより多くの記録のデータスト
リーム内に配列された入力データを圧縮するためのコン
ピュータ実行システムであって、前記辞書が前記コード
シンボルを表わすノードを有する静的構文解析木を表わ
し、且つ前記ノードが前記ソースシンボルシーケンスを
表わすパスへ連結されており、一組の前記ソースシンボルストリングを表わす複数の前
記パスによって構文解析木を初期化するためのプライマ
手段であって、各前記パスが単一使用カウント値を有す
る少なくとも一つのノードを有することよりなる前記プ
ライマ手段と、前記データストリームの最初に現在の入力ポインタをセ
ットするためのポインタ手段と、前記構文解析木内のパスＰによって表わされる最長の前
記ソースシンボルシーケンスＳを決定するためのコンパ
レータ手段であって、前記ソースシンポルソースＳが前
記現在の入力ポインタで開始される前記データストリー
ム内の現在の前記ソースシンボルシーケンスと整合する
ことよりなる前記コンパレータ手段と、前記パスＰ内の全てのノードに対する前記使用カウント
値をインクリメントするための加算手段と、前記データストリーム内の少なくとも一つの直ぐ後に続
くソースシンボルによって拡張された前記ストリングＳ
からなる新たなソースシンボルシーケンスＳ’を表わす
新たなパスＰ’を生成するため、前記パスＰの最後に単
一使用カウント値を有する新たなノードＮを追加するた
めのエクステンダ手段と、前記データストリーム内の前記シーケンスＳ’の直後に
前記現在の入力ポインタを進めるためのレジスタ手段
と、前記構文解析木内の前記ノードの数が第１の所定の複数
のノードを超える時を決定するためのカウンタ手段と、前記静的辞書を生成するために、対応する前記パスと前
記ノードを組み付けるためのトランスフォーマ手段と、前記静的辞書を前記メモリ内に格納するための格納手段
と、を備えるコンピュータ実行システム。
【請求項１４】前記データストリームが一連のデータ
ベース記録として編成される請求項１３に記載のコンピ
ュータ実行システム。
【請求項１５】前記データベース記録がヌル(NULL)ス
トリング及び一つ又はそれより多くのデフォルト(DEFAU
LT) ストリングに対する定義に従って編成され、且つ一
つ又はそれより多くの前記パスを形成する第２の複数の
ノードによって前記構文解析木を初期化するための前記
プライマ手段におけるストリングイニシャライザ手段で
あって、各前記パスが前記ヌル(NULL)及びデフォルト(D
EFAULT) ソースシンボルストリング定義の内の一つを表
わす前記ストリングイニシャライザ手段をさらに備える
ことよりなる請求項１４に記載のコンピュータ実行シス
テム。
【請求項１６】葉ノードチェーンを形成するために前
記構文解析木内の各子なしノードをシーケンシャルに連
結するための第２のリンカー（連結）手段と、前記使用カウント値が前記一つの子なしノードに対する
前記使用カウント値と１以下だけ異なる単一子親ノード
を有する前記葉ノードチェーン内の子ノードとその親ノ
ードを結合し、これによって新たな葉ノードを生成する
ノードコンバイナ手段と、をさらに備える請求項１３に記載のコンピュータ実行シ
ステム。
【請求項１７】所定の使用カウント値閾値より下か又
は等しい使用カウント値を有する前記葉ノードチェーン
内の各前記ノードを削除するためのノードプルナー手段
をさらに備える請求項１６に記載のコンピュータ実行シ
ステム。
【請求項１８】所定の使用カウント値閾値より下か又
は等しい使用カウント値を有する前記葉ノードチェーン
内の各前記ノードを削除するためのノードプルナー手段
をさらに備える請求項１３に記載のコンピュータ実行シ
ステム。
【請求項１９】前記新たなノードＮをＬＲＵチェーン
の最後に追加するためのリンカー手段と、使用カウント値が所定の使用カウント値閾値を超えない
一つの前記ノードを前記ＬＲＵチェーンから廃棄するた
めのノードリサイクラ（再生利用）手段と、をさらに備える請求項１３に記載のコンピュータ実行シ
ステム。