JP2502469B2

JP2502469B2 - 文字デ―タを圧縮し圧縮済みデ―タを展開するための静的辞書構造を提供する方法および手段

Info

Publication number: JP2502469B2
Application number: JP5247984A
Authority: JP
Inventors: バーラークリシュナ・ラガヴェンドラ・イイエル; クラーク・クルツ; ケンス・アーネスト・プラムベック; バスカール・シンハ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1992-10-29
Filing date: 1993-10-04
Publication date: 1996-05-29
Anticipated expiration: 2011-05-29
Also published as: EP0595064A2; EP0595064A3; US5442350A; JPH06222903A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本願発明は、データベースに必要
な記憶スペースを大幅に削減し、データ・レコードの伝
送速度を増大させ、圧縮済みデータベースに記憶された
圧縮済みレコードへのランダム・アクセスを可能にし、
圧縮および展開（expansion）に必要なコンピュータ資
源を削減する。これらの改善は、周知のＺｉｖ−Ｌｅｍ
ｐｅｌ（ＺＬ）タイプのアルゴリズムを実施するために
静的辞書を固有の構造にする新規の方法によって提供さ
れる。データ・レコードを迅速に圧縮し伝送できるよう
にすることによって、データ・レコードの通信速度が大
幅に増大する。未圧縮レコードに使用する伝送と比べて
バイト伝送速度が増大しない場合でも、レコード速度が
増大する。辞書の項目用に固有の複数文字構造を使用す
るため、記憶または伝送、あるいはその両方の目的でレ
コードを圧縮するための処理時間と、レコードを圧縮し
記憶するためのアクセス時間と、圧縮済みレコードの展
開時間が短縮する。

【０００２】

【従来の技術】適応Ｚｉｖ−Ｌｅｍｐｅｌ（ＺＬ）辞書
構造または動的ＺＬ辞書構造は、従来技術で周知であ
る。この構造では、各入力データ・ファイルごとに適応
辞書が固有に生成され、ファイルの圧縮／展開が可能に
なる。適応辞書は、データ・ファイルの圧縮中に構築さ
れる。展開の場合は、圧縮済みデータの展開中に構築さ
れる。辞書が一杯になると、新しい項目が、辞書内の最
も以前に使用された（ＬＲＵ）既存の項目に置き換わ
る。

【０００３】このように、従来のＺＬデータ圧縮方法で
は、辞書を、それぞれのデータ・ファイルに対して「動
的に」調整することによって「適合」させていた。した
がって、従来のＺＬ辞書は、「動的」辞書または「適
応」辞書と呼ばれている。従来、適応辞書がそれに関連
するデータ・ファイルによって生成されない場合、デー
タ圧縮が不十分になると考えられていた。

【０００４】適応（動的）Ｚｉｖ−Ｌｅｍｐｅｌ圧縮辞
書は、米国特許第４８１４７４６号に記載されている。
この米国特許は、ＺＬ圧縮辞書を新規データ・ファイル
（すなわち、データ文字列）に適合させるための置換技
術について記載している。

【０００５】圧縮すべきデータが少数の孤立した記号
（アトミック記号）（バイト）から構成されているとき
は、適応Ｚｉｖ−Ｌｅｍｐｅｌ方式では圧縮がほとんど
得られない。なぜなら、データ量が少ないので、データ
に関する情報が極めて少ないからである。したがって、
データの圧縮を開始する前の、データに関する知識に頼
るしかない。データベースを構成する個々のレコードを
他のレコードとは独立に圧縮または展開する必要があ
る、データベースを圧縮する場合がこれに当てはまる。
このように圧縮または展開する必要があるのは、ツリー
構造インデックス方式またはハッシュ・アクセス方式を
介して単一のレコードまたは少数のレコードに直接アク
セスしなければならないからである。レコードが容易に
見つかり、見つかったら、そのレコードに関するデータ
だけが展開されることが望ましい。レコードは通常小さ
く、小さいレコードに対して適応Ｚｉｖ−Ｌｅｍｐｅｌ
圧縮を実行しても、圧縮が完了する前にごく少数の短い
ＺＬ辞書文字列しか形成できないため、それほど圧縮は
行われない。

【０００６】

【発明が解決しようとする課題】本願発明は、データを
圧縮し展開するための静的辞書構造を定義するものであ
る。プログラムが、データベース上でパスを１回行い、
データベース内の一部または全部のデータをサンプリン
グし、本願発明で定義される辞書を構築する。その後に
このデータベースを使用すると、本願発明の別の一部を
構成する方法によってレコードを圧縮または展開するこ
とができる。

【０００７】本願発明の新規の静的ＺＬ辞書は、データ
・レコードの効率的な圧縮処理および展開処理を可能に
する固有の構造になっている。本願発明は、大型データ
ベース中のレコードから生成された静的ＺＬ辞書を使用
する。本願発明では、辞書を、現在伝送または記憶する
ために圧縮中のレコードに「適合」させない。静的辞書
は、データベース変更後でも、圧縮中の未圧縮レコード
の変更を含めて、変更なしで引き続き使用することがで
きる。

【０００８】静的辞書は、送信側位置と受信側位置のど
ちらに配置することもでき、データ・レコードと共に伝
送する必要はない。送信元では、辞書が圧縮に使用され
る。圧縮されたデータは宛先に送信され、宛先では、同
一のディレクトリのコピーを使用して、圧縮済みデータ
が展開される。レコード伝送速度は、１レコード当たり
のビット数が減るにつれて増大し、１レコード当たりの
ビット数が増えるにつれて減少する。したがって、デー
タ圧縮によって１レコード当たりのビット数が削減でき
るなら、伝送回線の伝送速度が変更されていなくても、
データ・レコードの伝送速度を上げることができる。

【０００９】本願発明では、圧縮済みデータだけを伝送
すればよいので、データ・レコードの伝送速度が大幅に
増大する。

【００１０】本願発明は、データ・レコードの圧縮プロ
セスまたは展開プロセスの速度を上げる、ＺＬ辞書中の
項目用の新規の内部構造を提供する。この新規項目構造
によって、単一の項目に、複数の文字と、情報フィール
ドおよび固有の制御フィールドとを含めることができる
ようになる。このため、圧縮についての決定に関与する
項目にアクセスする前にその決定を下せるようになり、
その結果、１圧縮記号当たりのメモリ・アクセス回数が
削減され、圧縮操作の速度が上がる。また、１操作当た
り複数の文字を処理することによって展開操作の速度も
上がる。

【００１１】本願発明はまた、別々の圧縮用辞書と展開
用辞書を使用することによって、圧縮プロセスおよび展
開プロセスの速度を増大させる。このため、辞書項目の
内部のスペースを効率的に使用することができる。圧縮
と展開の両方に単一の辞書を使用する場合、このような
効率的な使用は不可能である。

【００１２】記憶スペースが重要である場合、本願発明
で単一の静的辞書を圧縮と展開の両方に使用して、処理
の速度を上げることができる。ただし、別々の辞書を使
用すれば、最高の操作速度が得られる。

【００１３】したがって、静的圧縮用辞書は、未圧縮レ
コードを記憶または送信する必要がある送信側位置に提
供される。静的展開用辞書は、記憶域から、または電話
回線、マイクロ波、ファイバ回線など任意の種類のディ
ジタル伝送手段によって遠方のコンピュータ・システム
から圧縮済みデータ・レコードを受信して処理する位置
に提供される。ある位置で送信と受信のどちらか一方だ
けを行なう場合、その位置には静的圧縮用辞書か静的展
開用辞書のどちらか一方だけが必要であり、両方とも必
要なわけではない。したがって、本願発明では、圧縮お
よび展開を別個の独立したプロセスとして扱うことがで
きる。

【００１４】さらに、本願発明は、コンピュータ・シス
テムのハードウェア特性に適合した構造の静的ＺＬ辞書
を提供することによって、コンピュータ・システムによ
るデータ・レコードの圧縮速度または展開速度を大幅に
向上させる。これは、辞書中の項目のサイズを、コンピ
ュータ・メモリからアクセスされるデータ・ユニットの
サイズと一致させることによって行う。

【００１５】本願発明の静的辞書は、データベース中の
様々なレコードの圧縮または展開に使用している間は変
更されない。しかし、静的辞書がまったく変更できない
わけではない。静的辞書のデータベースは静的である必
要はなく、通常、変更可能である。経験によれば、大型
データベースでは新しいレコードがたえず追加および削
除されるので、一般に、データベースは時間の関数とし
て少しだけ変化する。本願発明は、データベースが少し
だけ変化した場合でも、圧縮や展開の効率にほとんど影
響なく、静的辞書を継続して使用できるという、事実を
利用している。

【００１６】この事実は、大型データベースは比較的長
い期間かけて比較的ゆっくりと変化するので、データの
ＺＬ文字列がほとんど変らず、未変更の静的圧縮用辞書
を使って引き続き高い圧縮効率を得ることができるとい
う認識に基づいている。データベースにたとえば１０％
を上回るような大幅な変更が生じる場合、その時点で存
在しているデータベース用の静的辞書を再生成すること
ができる。本願発明は、文字列を終了する判断文字を辞
書中の前の項目に移して、圧縮プロセスで圧縮記号を判
定するためのメモリ・アクセス回数が減るように項目を
構造化し、圧縮操作の速度を上げる。

【００１７】上述の利点を実現可能にする本願発明の諸
特徴を要約する前に、ＺＬ方式に関する情報と、本願発
明がＺＬ方式とどう関係しているかについてさらに説明
する。

【００１８】既知の適応辞書の場合と同様に、本願発明
の単一の辞書または別個の辞書はツリー形式の構造にな
っている。このツリーは、下向きに成長するツリーとし
て視覚化することができる。ツリーの１番上の２５６の
ノードまたは項目は、アルファベット項目と呼ばれ、８
ビット・バイトの２５６の可能な値に対応する。各アル
ファベット項目は、子項目を持つ親項目となることがで
きる。さらに、それらの子項目それぞれが、それ自体の
子項目を持つ親項目となることができ、以下同様であ
る。

【００１９】適応辞書または本願発明の辞書では、各項
目は、１または複数の拡張文字（expansion characte
r）を表す。この拡張文字は、その項目のすべての先祖
によって表されかつＺＬ文字列を形成するあらゆる拡張
文字の右側に続く。ＺＬ文字列を文字記号と呼ぶ。した
がって、各辞書項目は１つまたは複数の拡張文字のみな
らず、今定義した完全な文字記号をも表す。

【００２０】適応辞書または本願発明を使用し、入力文
字列の文字を、辞書中の拡張文字と、一致する文字が見
つかるまで左から右へと比較していくと圧縮が行われ
る。次に、最後に一致する辞書項目の拡張文字によって
最後の可能な一致が見つかると、索引記号と呼ばれる、
その項目の索引が、圧縮済みデータとして出力される。
圧縮プロセスは次の文字に進む。この文字は、レコード
から入力された文字シーケンスの最初の一致しない文字
である。

【００２１】上述より、索引記号は、文字記号（ＺＬ文
字列）を表す辞書項目を識別し、したがってその文字記
号を識別することが分かる。

【００２２】現代の大部分のコンピュータ・システムは
２進法を使用しているので、これらのシステムでは、辞
書中の項目の数は、かならず２の累乗値となる。特定の
辞書の索引記号中のビット数が、そのべき指数であり、
この数は、索引記号によって識別される文字記号中のビ
ット数よりはるかに小さいことが多く、あるいはそれが
通常である。このため、所望の圧縮を実現することがで
きる。

【００２３】適応辞書または本願発明を使用し、一連の
索引記号を左から右へと処理していき、各索引記号を使
用して辞書項目を見つけて、その項目で表される文字記
号を出力することによって、展開が行われる。適応辞書
を使用するときは、見つかった辞書項目と、その項目の
各先祖から拡張文字を取り出すことによって、文字記号
が再構築される。本願発明は、従来よりも少数の辞書項
目にアクセスすることによって再構築が行える新規の手
段を含む。

【００２４】本願発明の説明の最初に、圧縮と展開の両
方に用いる単一の静的辞書に適用される本願発明の多数
の特徴を紹介し明らかにする。次に、好ましい実施例、
すなわち別々の静的圧縮用辞書および静的展開用辞書を
示すことによって、本願発明をさらに詳しく説明する。
本発明者等は、単一辞書に適用した場合の上記特徴の研
究を通じて、好ましい実施例を発明した。

【００２５】単一の辞書を使用する際に本願発明で提供
される特徴には、次のものがある。

【００２６】１．辞書項目を固定した２の累乗の長さに
し、項目を連続した記憶域に置く。これによって、索引
記号を使用して、その記号が識別する辞書項目を極めて
迅速に見つけることができる。このように辞書項目を見
つけるには、索引記号の右側に一定数のゼロ・ビットを
付加し、次にその結果を辞書の開始アドレスに加算し
て、識別された項目のアドレスを形成する。コンピュー
タ・システムのデータ転送機能と、項目中で所望される
情報の種類および量に基づき、８バイト長が最適の長さ
であることが分かっている。

【００２７】２．アルファベット項目中では、その項目
で表される拡張文字（ＥＣ）を省略する。これによっ
て、項目中のスペースが節約され、このスペースを項目
中で他の情報に使用することができる。

【００２８】３．アルファベット項目以外の項目中に、
項目のすべての先祖に含まれるＥＣの右側に付加される
とみなされる１つまたは複数のＥＣを置く。項目中に複
数のＥＣを置くと、複数の項目ではなく単一の現項目だ
けにアクセスすることによって、入力文字列中の複数の
文字を比較することができ、また辞書中の情報密度が高
くなり、長いＺＬ文字列を所定のある数の項目で表すこ
とができるので、圧縮が向上する。複数のＥＣのうち最
初のＥＣより後のＥＣを追加ＥＣ（ＡＥＣ）と呼ぶこと
がある。

【００２９】４．アルファベット項目以外の項目中に、
その項目によってＺＬ文字列中で新たに表されるＥＣの
みならず、可能なら、その項目の最も近いある数の先祖
によって表されるある数のＥＣも置く。先祖によって表
されるＥＣを先祖ＥＣ（ＰＥＣ）と呼ぶことがある。あ
る項目によって新たに表されるＥＣを真ＥＣ（ＴＥＣ）
と呼ぶことがある。ある項目中のＰＥＣは、その項目の
ＴＥＣの左側に配置される。項目中にＰＥＣを配置する
と、展開時に、先祖項目にアクセスせずに現項目からＰ
ＥＣを取り出すことができる。

【００３０】５．アルファベット項目以外の項目中に、
可能なら、その項目の先祖のポインタを置くことができ
る。このポインタは、先祖ポインタ（ＰＰＴＲ）と呼ば
れ、先祖の索引であり、展開時に使用される。先祖は、
現項目の親でも、さらに遠い先祖でもよい。現項目によ
って表される文字記号が非常に大きくて、現項目中に記
号内のすべてのＥＣを含めることができないとき、ＰＰ
ＴＲが必要である。さらに、ＰＰＴＲで指定される項目
もＰＰＴＲを含むことができる。展開時に文字記号を再
構築する際、ＰＰＴＲを使って一連の辞書項目を上向き
に進まなければならない場合がある。本願発明ではＰＥ
ＣおよびＰＰＴＲを新たに使用するので、通常、索引記
号の展開時には、圧縮時に索引記号を形成する際にアク
セスしなければならなかったよりも少数の辞書項目にア
クセスするだけで済む。

【００３１】６．アルファベット項目以外の項目中に、
その項目と、その項目のすべての先祖におけるＥＣの総
数のカウントを含む記号長（ＳＬ）フィールドを置く。
これによって、展開時に、項目によって表される文字記
号の長さをただちに知ることができ、出力バッファ中に
記号用のスペースがあるかどうかを判定することが可能
になる。ＥＣが、現項目のＰＰＴＲによって指定される
項目中にＥＣとして現れる場合、それは現項目中にＰＥ
Ｃとして配置されないという規則を採用すると、ＳＬの
使用に関して次の規則が利用可能になる。項目がＰＰＴ
Ｒを含まない場合、その項目のＳＬはその項目中のＥＣ
の数を指定する。項目がＰＰＴＲを含む場合は、その項
目のＳＬから、ＰＰＴＲで指定される項目のＳＬを引い
た数が、その項目中のＥＣの数を指定し、その項目のＳ
Ｌからその項目の親のＳＬを引いた数が、その項目中の
ＴＥＣの数を指定する。親がアルファベット項目である
場合、その暗黙的にＳＬが１に等しい。単一圧縮および
展開辞書における項目を構成する本願発明の方法によっ
て、項目は、そのＳＬが７以下で子を持たない場合、そ
のあるいはＳＬが５以下で子を持つ場合、ＰＰＴＲを含
まないことが分かる。

【００３２】７．記憶域内の連続する項目のリストに親
の子供を置き、その親中の子ポインタ（ＣＰＴＲ）によ
ってリストの第１項目を指定する。ＣＰＴＲは、第１の
子の索引である。子供が連続しているので、次の子を見
つけるとき、その子中に制御情報が必要とされないの
で、子中のスペースが節約され他の情報用に使用できる
ようになる。

【００３３】８．値が１のとき、項目が子を持ち、した
がってＣＰＴＲを含むことを示すビットを項目中に置
く。このビットを子ビット（Ｃ）と呼ぶ。このビットに
よって、ＣＰＴＲが必要とするスペースを、ＣＰＴＲが
存在しないとき他の情報に使用することができる。ま
た、このビットによって、それがゼロのとき、現項目に
子がないので突合せプロセスが終了することをただちに
知ることができる。

【００３４】９．ある数のある親の初期の子のそれぞれ
の第１ＴＥＣの複製を親中に置く。この場合、親中のこ
れらの複製ＥＣのそれぞれを子文字（ＣＣ）と呼ぶ。親
中のＣＣによって子にアクセスして、子中にある同一の
ＥＣを取り出す必要はなく、これらのＣＣを入力文字列
の次の文字と比較することができる。対応する子項目に
アクセスして突合せプロセスを継続する必要があるの
は、ＣＣが等しい場合だけである。ＣＣが一致する場
合、対応する子の索引は、項目中のＣＰＴＲと、項目中
の１組のＣＣのうち一致するＣＣの位置番号とから計算
することができる。項目中でＣＣを含めるために利用可
能なスペースの量は、その項目中のＥＣ（ＰＥＣおよび
ＴＥＣ）の数と、その項目がＣＰＴＲまたはＰＰＴＲを
含むかどうかによって決まる。ＣＣが一致しても、対応
する子に一致が見られるかどうかはまだ分からない。な
ぜなら、その子は、ＣＣと同一なＴＥＣを１つだけ含む
のではなく、２つ以上のＴＥＣ（１つ以上のＡＥＣ）を
含むことがあるからである。

【００３５】１０．項目中に、値が１のとき、その項目
が、そのＣＣが表す子よりも多数の子を持つことを示す
ビットを置く。このビットは、more-childrenビット
（Ｍ）と呼ばれ、項目のＣＣで表される子に、ＣＣおよ
びＡＥＣによって一致が見られないときに使用される。
そのような一致がなく、Ｍが１であるときは、その項目
のＣＣで表される最後の子の次の最初の子にアクセス
し、その最初の子に第１ＴＥＣおよびＡＥＣがあれば、
それを入力文字列中の次の文字と比較する必要がある。

【００３６】１１．項目中に、値が１のとき、その項目
が、現行の子リスト中でその項目の後に続く兄弟を持つ
ことを示すビットを置く。ただし、２つの項目がどちら
も同一の親の子である場合、それらを兄弟と呼ぶ。この
ビットは、more-siblingsビット（Ｓ）と呼ばれ、その
項目の親のＭビット、または先行の兄弟もしくは兄弟記
述子中のＳビットのためにアクセスできる項目中だけで
使用される。兄弟記述子については後述する。

【００３７】１２．現項目の後に続くある数の兄弟のそ
れぞれの第１ＴＥＣの複製を現項目中に置く。この場
合、現項目中のこれらの複製ＥＣのそれぞれを兄弟文字
（ＳＣ）と呼ぶ。ある項目中にＳＣがあると、兄弟にア
クセスして、その中にある同一のＥＣを取り出す必要は
なく、これらのＳＣを入力文字列の次の文字と比較する
ことができる。対応する兄弟にアクセスして突合せプロ
セスを継続することが必要になるのは、ＳＣが等しい場
合だけである。ＳＣが一致する場合、対応する兄弟の索
引は、現項目の索引と、その項目中の１組のＳＣのう
ち、一致するＳＣの位置番号とから計算することができ
る。ＳＣが項目中に置かれるのは、その項目に子がない
場合だけである。ＳＣは、項目に子がある場合にＣＣを
格納するのに使用されるスペースに配置される。

【００３８】１３．ＣＣまたはＳＣの数が項目中に配置
できる最大数よりも少ないとき、項目中の最後のＣＣま
たはＳＣに等しい文字を最後のＣＣまたはＳＣの右側に
配置することによって、項目中のＣＣリストまたはＳＣ
リストの終りを示す。これによって、項目中のスペース
を、項目中のＣＣまたはＳＣの数の明示的なカウントを
含めるため専用にする必要がなくなるので、スペースを
節約して他の情報用に使用することができる。この特徴
では、ある親の子供のどの第１ＴＥＣも同一でないこと
が必要である。

【００３９】１４．後続の兄弟に対応するＳＣだけを子
リストに記憶するために、子リスト中に兄弟記述子（Ｓ
Ｄ）と呼ばれる特殊な種類の項目を配置する。ＳＤでは
ない辞書項目は現在、ＳＤと区別する必要があるときは
文字項目（ＣＥ）と呼ばれる。ＳＤが、普通ならＣＥを
記憶するのに利用できる辞書索引位置を占めることに留
意されたい。ＳＤの目的は、親にＣＣを格納するスペー
スがない場合、または先行の兄弟にＳＣを格納するスペ
ースがない場合にそれを補償することである。親中のＣ
Ｃまたは先行の兄弟中のＳＣと同様に、ＳＤ中にＳＣが
あると、後続の兄弟にアクセスする必要がなく、入力文
字列中の次の文字を、後続の兄弟の第１ＴＥＣと比較す
ることができる。したがってアクセスが不要になると共
に、圧縮プロセスの速度が上がる。ＳＤは、２種類の項
目のそれぞれにおける制御フィールドの特殊な値によっ
てＣＥと区別される。ＳＤの存在は、親のＭビット、ま
たは先行の兄弟中もしくはＳＤ中のＳビットによって示
される。ＳＤは、ＣＥと同様に、Ｓビットを含むことが
できる。子リストは、まずある数の子、次にＳＤ、次に
ＳＤ中のＳＣで示される兄弟、次に別のＳＤなどという
順序に並べることができる。ＳＤ中のＳＣリストの終り
は、ＣＥの場合と同様に、あるいはＳＬフィールドの値
によって示すことができる。ＳＬはＳＤ中では通常の方
法で使用されないからである。

【００４０】単一辞書に関する、本願発明の特徴に関す
る説明をこれで終わる。この説明で使用し、今後も頻繁
に使用する略語を容易に覚えられるように、以下に列挙
しておくことにする。

【００４１】ＡＥＣ追加拡張文字。項目中の第１ＴＥ
Ｃの次のＴＥＣ。

【００４２】Ｃビット子ビット。項目が子を持ち、Ｃ
ＰＴＲを含むことを示す。

【００４３】ＣＣ子文字。親中の文字であり、対応す
る子中の第１ＴＥＣと位置が同一である。

【００４４】ＣＥ文字項目。ＳＤ以外の辞書項目。単
に「項目」という語を使用するときは通常、文字項目を
意味する。

【００４５】ＣＰＴＲ子ポインタ。項目の最初の子の
索引。

【００４６】ＥＣ拡張文字。項目中の文字であり、そ
の項目で表されるＺＬ文字列の一部である。

【００４７】Ｍビット more-childrenビット。項目中
のＣＣの数よりも多数の子が項目にあることを示す。

【００４８】ＰＥＣ先祖ＥＣ。現項目中の文字であ
り、現項目の親またはそれよりも遠い先祖中のＥＣでも
ある。現項目中のＰＥＣは、その項目中のＴＥＣよりも
前に置く。

【００４９】ＰＰＴＲ先祖ポインタ。項目の先祖の索
引。

【００５０】Ｓビット more-siblingsビット。項目中
のＳＣの数よりも多数の兄弟を項目が持つことを示す。
項目はＣＥまたはＳＤとなることができる。Ｓが１であ
る場合は、後続のＣＥまたは後続のＳＤが存在すること
を示す。

【００５１】ＳＣ兄弟文字。項目中の文字であり、対
応する兄弟中の第１ＴＥＣと位置が同一の文字である。

【００５２】ＳＤ兄弟記述子。ＣＥ以外の辞書項目。
ＳＤは、制御フィールドとＳＣだけを含む。

【００５３】ＳＬ記号長項目と、ある項目のすべて
の先祖中のＥＣの総数のカウント。

【００５４】ＴＥＣ真ＥＣ先祖項目中には現れない
ＥＣ。すなわち、ＰＥＣではないＥＣ。

【００５５】本発明者等は、次のような、単一の辞書を
圧縮と展開の両方に使用する方法の欠点を発見した。

【００５６】項目中にＰＥＣを置くと、展開性能は向上
するが、ＣＣまたはＳＣ用のスペースが少なくなり、あ
るいはまったくなくなるので、圧縮性能は低下する。し
たがって、ＰＥＣが存在すると、辞書は展開性能に有利
となり、ＰＥＣが存在しないと、辞書は圧縮性能に有利
となる。圧縮中にも展開中にも最高の性能が得られるこ
とが望ましい。

【００５７】現項目中のＳＬと現項目のＰＰＴＲで指定
される項目中のＳＬと現項目の親のＳＬとに基づいて現
項目中のＥＣおよびＴＥＣの数を求めるための計算は時
間がかかり、圧縮および展開の性能が低下する。

【００５８】ＴＥＣの複製を、ＣＣとして親中に、また
はＳＣとして兄弟もしくはＳＤ中に置くと、辞書中に同
一の文字が２回存在することになり、他の情報用に利用
できるスペースが減少する。

【００５９】最後のＣＣまたはＳＣに等しい文字によっ
て、ＣＥ中のＣＣリストもしくはＳＣリスト、またはＳ
Ｄ中のＳＣリストの終りを示す技法では、文字の比較を
繰り返す必要があり、ＣＣまたはＳＣの数の単純なカウ
ントを使用するよりも時間がかかる。

【００６０】ある親の子供のどの第１ＴＥＣも同一であ
ってはならないという、親中の最後のＣＣまたは兄弟も
しくはＳＤ中の最後のＳＣを示す手段を提供するための
要件により、様々な数の同一文字が繰り返される長い文
字列の場合、有効な辞書構造が得られない。このような
文字列では、２つ以上の子が同一のＴＥＣで始まること
が望ましい。

【００６１】本発明者等は、項目中の制御情報が次のよ
うに配列されている場合、辞書項目中でＰＥＣ、ＴＥ
Ｃ、ＣＣ、およびＳＣ用に最大のスペースを利用できる
ことを発見した。Ｃビット、Ｍビット、およびＳビッ
ト、さらに５ビットのＳＬを１バイト内に配置する。た
だし、アルファベット項目はＳもＳＬも含まないので、
ＣおよびＭはアルファベット項目中の４つのビット内に
配置することができる。また、ＣＰＴＲとＰＰＴＲはそ
れぞれ別々の１２ビット・フィールド内にあるが、この
フィールドは項目中で必要なことも必要でないこともあ
る。５ビットのＳＬ長により、最大文字記号が３２文字
に制限される（ＳＬで表される値がＳＬフィールド中の
物理値より１だけ多くなる、１増し表記法が使用され
る）。１２ビットのＣＰＴＲ長またはＰＰＴＲ長によ
り、辞書中の項目の最大数が４Ｋ（４０９６）に制限さ
れる。３２および４Ｋというこれらの限界はどちらも過
度に小さいものではないが、それでも問題となる可能性
がある限界である。

【００６２】上記の欠点は、以下に示す本願発明の別の
特徴によって解消される。これらの特徴には、列挙され
た欠点に特に対処するためのものではない新しい特徴も
含まれる。以下に示す特徴には、上記の特徴の番号に続
く通し番号が付けてある。

【００６３】１５．単一の辞書の代わりに別々の圧縮用
辞書と展開用辞書を提供する。これによって、各辞書の
内容をそれぞれの目的に合わせて最適化し、それによっ
て圧縮時にも展開時にも最高の性能を実現することがで
きる。圧縮用辞書は、単一辞書の場合よりも多くのＰＥ
Ｃを含むことができる。圧縮用辞書はまた、単一辞書の
場合よりも多くのＣＣを含むことができる。ＳＤは依然
として、ＳＣを含めるため、および圧縮用辞書ＣＥの取
扱いを単純にするために利用可能なので、ＣＥには含ま
れず、ＳＤだけに含まれる。したがって、ＣＥ中のmore
-siblngs（ｓ）ビットは削除される。この場合も、圧縮
用辞書および展開用辞書のそれぞれにおける最適長は８
バイトであることが分かっている。したがって、それぞ
れの辞書に同数の項目を入れるものとすると、別々の辞
書を使用する場合、単一の辞書に必要なスペースの２倍
のスペースが必要になる。性能よりもスペースを優先し
たい場合は、別々の辞書ではなく単一の辞書を使用する
ことができる。

【００６４】１６．展開辞書項目中のＳＬフィールドを
除去し、部分記号長（ＰＳＬ）フィールドおよび完全記
号長（ＣＳＬ）フィールドで置き換える。項目中でＰＳ
Ｌがゼロのときは、その項目で表される文字記号は、完
全にその項目内に含まれ、項目のＣＳＬで指定される長
さを持つ。文字記号はＰＥＣとＴＥＣから構成すること
ができ、ＴＥＣの前にＰＥＣがいくつあるかを決定する
必要はない。展開時には、文字記号を項目から取り出
し、出力バッファの次のバイト位置から配置していくだ
けでよい。ＰＳＬがゼロである項目を、先行なし項目と
呼ぶ。項目中でＰＳＬが非ゼロのときは、項目内に、そ
の項目で表される文字記号の一部だけが含まれる。項目
中には、ＰＥＣまたはＴＥＣである、文字記号の１番右
の文字がＰＳＬの数だけあり、１番右の文字の左側にあ
る残りの文字は、現項目のＰＰＴＲで最初の項目が識別
される、１つまたは複数の項目中にある。ＣＳＬフィー
ルドは現項目中に存在せず、ＣＳＬが占めるはずのスペ
ースは、ＰＰＴＲの一部を格納するために使用される。
項目は、１バイトのオフセット（ＯＦＳＴ）フィールド
を含み、その内容は、出力バッファの次のバイト位置
と、現項目中のＰＥＣおよびＴＥＣの配置が開始する位
置の間のバイト数である。したがって、ＳＬを使用する
時間のかかる計算が不要になる。また、ＰＳＬの最大値
が５であり、ＯＦＳＴの最大値が２５５なので、文字記
号の最大長は、３２バイトではなく２６０バイトとな
る。ＰＳＬが非ゼロである項目を、先行あり項目と呼
ぶ。

【００６５】１７．非アルファベット圧縮辞書項目中の
第１ＴＥＣを除去し、このＥＣを親中のＣＣまたはＳＤ
中のＳＣとしてだけ出現させる。これによって、項目中
のスペースが節約され、他の情報用に使用できるように
なる。アルファベット項目に現れなかったのは、第１Ｔ
ＥＣだけである。

【００６６】１８．圧縮辞書項目中のＳＬフィールドを
除去し、項目中のＡＥＣの数のカウントを含むＡＥＣカ
ウント（ＡＣＴ）フィールドで置き換える。これによっ
て、入力文字列中の次の文字を項目のＡＥＣと比較する
際に計算が不要になる。

【００６７】１９．圧縮辞書項目中の子ビット（Ｃ）を
除去し、項目中のＣＣの数のカウントを含む子カウント
（ＣＣＴ）フィールドで置き換える。ＣＣおよびＣＰＴ
Ｒが存在するのは、ＣＣＴが非ゼロの場合だけである。
ＣＣＴにより、文字比較を行ってＣＣリストの終りを検
出する必要がなくなり、ある親の任意の数の子供が、同
じ親の別の子の第１ＴＥＣと同じ第１ＴＥＣを持つこと
ができるようになるので、同一の文字が繰り返される長
い文字列の取扱いが改善できる。

【００６８】２０．圧縮辞書項目中でＣＣＴとＡＣＴの
３種の組合せだけを使用可能にする。ＣＣＴが０の場
合、ＡＣＴは０ないし４となることができる。ＣＣＴが
１の場合、ＡＣＴは０ないし４となることができる。Ｃ
ＣＴが１より大きい場合、ＡＣＴは０または１となるこ
とができる。本発明者等は、この組合せの制限によっ
て、実施態様が単純になり、実行速度が上がるが、依然
として優れた辞書の圧縮機能が得られることを発見し
た。ＡＣＴを０または１だけになるように制限すると、
ＡＣＴは単一ビットになり、項目中のスペースが節約さ
れる。この単一ビットを倍文字項目・ビット（Ｄ）と呼
ぶ。

【００６９】２１．ＳＤ中のＳＤの特殊指示をなくし、
ＳＤ中のＳＬをなくし、ＳＤ中のＳＣの数のカウントを
含む兄弟カウント（ＳＣＴ）フィールドで置き換える。
ＳＣＴによって、文字比較を行ってＳＣリストの終りを
検出する必要がなくなり、子供が同一の第１ＴＥＣをも
つことが完全に可能になる。

【００７０】２２．ＣＥおよびＳＤ中に、子検査ビット
（ＸおよびＹ）という１組のビット置く。ＣＥの各ＣＣ
用にＣＥ中に子検査ビット（Ｘ）があり、ＳＤの各ＳＣ
用にＳＤ中に子検査ビット（Ｙ）がある。子検査ビット
が１のときは、そのビットに対応するＣＣまたはＳＣに
一致が見られる場合、そのＣＣまたはＳＣに対応する子
を検査して、突合せプロセスを継続する必要があること
を示す。子がＡＥＣを持つかどうか検査する必要があ
る。なぜなら、ＡＥＣは入力文字列の次の文字と一致す
ることもしないこともあり、したがって子に一致が見ら
れることも見られないこともあるからである。子が子供
を持つかどうかも検査する必要がある。なぜなら、子に
一致が見られる場合、一致している子の子に一致が見ら
れるかどうか調べることによって突合せプロセスを継続
する必要があるからである。ＣＣまたはＳＣに一致が見
られ、対応する子検査ビットがゼロの場合、その子には
ＡＥＣも子供もなく、したがって最適な一致が見つかっ
たことがただちに分かる。この場合、子を検査する必要
はなく、辞書へのアクセスが節約される。

【００７１】２３．同一の文字が繰り返される多数の異
なる長さを持つ文字列を圧縮するのに必要な記憶域参照
の回数を６７％減らす、圧縮辞書項目を配列する新規の
方法を示す。この新規の方法は、文字用のアルファベッ
ト項目が、文字の第２のインスタンスを表す１つの子を
持ち、この子が、文字の第３のインスタンスを表す１つ
の子を持ち、さらに、この子が文字の第４のインスタン
スを表す１つの子を持つという自明な方法とは対照的で
ある。この新規の方法は、任意の項目にＡＥＣが存在で
き、親項目が、それぞれ同じ第１ＴＥＣを持つ複数の子
供を持つことができる（すなわち、親が複数の同一ＣＣ
を含むことができる）という、本願発明の能力を活用し
ている。この新規の方法では、アルファベット項目が第
１インスタンスである奇数レベルの親は、ＡＥＣを持た
ず、５つの子を持ち、子は順に４つ、３つ、２つ、１
つ、および０のＡＥＣを持つ。子は、その親よりも５つ
ないし１つ多くの文字を表す。奇数レベルの親の第１の
子である偶数レベルの親は、４つのＡＥＣと１つの子を
持ち、この子が次の奇数レベルの親となる。奇数レベル
の親の２番目ないし５番目の子は、子を持たない。しか
し、この方法では、追加の子が、同一の繰返し文字以外
も含むＺＬ文字列を形成するのに役立つ場合、奇数レベ
ルの親が５つより多数の子を持つこともでき、奇数レベ
ルの親の２番目ないし５番目の子が子供を持つこともで
きる。

【００７２】２４．短記号文字列という特殊な形式の圧
縮済みデータを提供する。この形式は、短記号オプショ
ン（ＳＳＯ）というオプションを呼び出す際に提供され
る。ＳＳＯを呼び出すと、索引記号の前にゼロ・ビット
が付き、長記号と呼ばれるようになる。圧縮済みデータ
は、短記号と呼ばれる未圧縮文字を含むことができる。
４ビットの短記号ヘッダの後に続く文字列に、１つない
し８つの短記号が入ることができる。短記号ヘッダの第
１ビットは、このヘッダを長記号と区別するために１に
なる。残りの３ビットは、文字列中の短記号の数よりも
１多いカウントを含む。圧縮時には、必ず１文字だけか
ら成る文字記号を識別する長記号ではなく短記号が作成
される。１つないし８つの短記号が連続的に生成される
ときは、短記号文字列としてまとめて配置される。本発
明者等は、圧縮すべきデータが、いくつかのまたは多数
の２文字以上のデータ・シーケンスが辞書中にＺＬ文字
列として存在しないようなデータであるとき、この新規
ＳＳＯによって圧縮が改善されることを発見した。バイ
ト内の２進データ、およびバイト内のパック１０進デー
タでそうなると思われる。辞書中の項目の数が少ないほ
ど、ＳＳＯの利点は減少する。なぜなら、そのような場
合、索引記号の長さに１ビット追加して長記号を形成す
ると、スペースがかなり使用されるからである。

【００７３】別個の辞書に関する、本願発明の追加の特
徴に関する説明をこれで終わる。上記の説明で使用した
略語を容易に覚えられるように、以下に列挙しておくこ
とにする。

【００７４】ＡＣＴ追加拡張文字カウント。圧縮辞書
項目中のＡＥＣの数。

【００７５】ＣＣＴ子文字カウント。圧縮辞書項目中
のＣＣの数。

【００７６】ＣＳＬ完全記号長。先行なし展開辞書項
目中のＰＥＣとＴＥＣの数。

【００７７】Ｄビット倍文字項目・ビット。０または
１のＡＣＴと同じ。

【００７８】ＯＦＳＴ出力バッファの次の位置から、
この展開辞書項目のＰＥＣおよびＴＥＣの配置が開始す
る位置までの、バイト単位で表したオフセット。先行あ
り項目中に存在する。

【００７９】ＰＳＬ部分記号長。０の場合、先行なし
展開辞書項目を示す。非ゼロの場合、先行あり項目を示
し、項目中のＰＥＣとＴＥＣの数のカウントになる。

【００８０】ＳＣＴ兄弟文字カウント。ＳＤ中のＳＣ
の数。

【００８１】ＳＳＯ短記号オプション。

【００８２】ＸビットＣＣ用の子検査ビット。

【００８３】ＹビットＳＣ用の子検査ビット。

【００８４】

【実施例】

圧縮プロセスの概要−図１図１において、ボックス２１は、未圧縮レコードを受け
取るデータ発信元バッファを表す。発信元バッファ２１
は、それに記憶されているレコード中の文字を、各レコ
ードに文字が記憶された順序で圧縮プロセス２２に送
る、コンピュータ・システムのメモリ内に置くことがで
きる。圧縮プロセス２２は、現未圧縮レコードから受け
取った文字を、圧縮用辞書２３中のアクセスされた文字
と突き合わせて、現レコードの文字シーケンス内の文字
列を検出する。圧縮プロセス２２は、文字列が検出され
るたびに、データ宛先バッファ２４に「索引記号」を出
力し、宛先バッファ２４内で各圧縮済みレコードが索引
記号のシーケンスとして生成される。入力文字が、辞書
項目の範囲内で、現在比較されているどの文字とも突き
合わせることができない場合、そのたびに、圧縮プロセ
ス２２によってある文字列が検出される。出力される索
引記号は、最後に検出されたＺＬ文字列中の最後に一致
した文字の、辞書内の位置を表す。文字が一致しない場
合はそのたびに、次のＺＬ文字列の比較が開始され、こ
のＺＬ文字列について、圧縮用辞書に再度入って、この
次ＺＬ文字列中の１つまたは複数の文字を検出する。

【００８５】未圧縮レコードの最後の文字が圧縮プロセ
ス２２に提供されると、このレコードの最後の文字列が
終了し、この最後に一致した文字の辞書位置が、宛先バ
ッファ２４に出力され、対応する圧縮済みレコードの文
字列を表す索引記号になる。

【００８６】圧縮済みレコードは次に、宛先バッファ２
４から次の宛先に送信することができる。次の宛先はた
とえば、ディスク記憶域や、通信回線を経て伝送するた
めのモデムなどとすることができる。

【００８７】展開プロセスの概要−図２図２は、圧縮済みレコードを受け取り発信元バッファ２
６に入れる、受信位置における圧縮済みレコードの展開
処理を表している。発信元バッファ２６は、コンピュー
タ・システムの主記憶域内の指定された区域とすること
ができる。圧縮済みレコードはたとえば、ディスク記憶
域や、通信回線に接続されたモデムなどから受け取るこ
とができる。

【００８８】発信元バッファ２６内の圧縮済みレコード
を含む索引記号が、展開プロセス２７に送信される。展
開プロセス２７では、展開用辞書２８を使用するが、こ
れは図１の圧縮用辞書２３と異なってよい。索引記号
は、発信元バッファ２６で読み取り中の現圧縮済みレコ
ードの始めから既存の順序で展開プロセス２７に送信さ
れる。

【００８９】展開プロセス２７は、発信元バッファ２６
から受け取った各索引記号を検出し、その値を展開用辞
書２８の項目の索引として使用して、展開辞書２８内の
対応する未圧縮文字列のすべての文字または１番右の文
字を取り出す。選択された文字列に先行の文字があれ
ば、展開用辞書２８内の１つまたは複数の連鎖された先
行の項目から取り出されて、現索引記号で表される未圧
縮文字列が再構築される。選択された文字列中の文字
は、宛先バッファ２９に現カーソル位置から順に書き込
まれていく。

【００９０】圧縮用辞書および展開用辞書の構造本願発明の静的Ｚｉｖ−Ｌｅｍｐｅｌ方式は、２つの辞
書を使用することによって最高の性能を得る。これらの
辞書は、コンピュータ・システムのメモリに配置するこ
とができる。本明細書では、これらの辞書の一方を「静
的圧縮用辞書」と呼び、他方を「静的展開用辞書」と呼
ぶ。各辞書にはそれぞれ、固有の項目構造が提供され
る。

【００９１】未圧縮レコード中のバイトが、レコードを
圧縮する際に、辞書に記録された文字列と突き合わされ
る。辞書内の文字列と一致する未圧縮レコード中の各文
字列は、その文字列中の最後の文字の、辞書内の索引
を、「索引記号」と呼ばれる圧縮コードとして使用す
る。本明細書では、索引記号を提供する未圧縮文字の文
字列を「文字記号」と呼ぶ。

【００９２】文字列中の文字の数は、１から辞書に含ま
れる最大文字列長までの任意の数とすることができるの
で、文字記号は可変長である。

【００９３】索引記号は固定長であり、この長さは、圧
縮用辞書内の項目の数によって決定される。したがっ
て、辞書が５１２バイト、１０２４バイト、２０４８バ
イト、または４０９６バイトの長さを持つ場合、索引記
号の長さは９ビット、１０ビット、１１ビット、または
１２ビットである。索引記号は、出力される「圧縮済み
レコード」中で互いに連続して配置される。

【００９４】本願発明で使用する辞書は、Ｚｉｖ−Ｌｅ
ｍｐｅｌ（ＺＬ）アルゴリズムを中心として編成されて
いるが、ＺＬアルゴリズムは多数の異なる方法で実施す
ることができる点に留意されたい。本願発明では、その
うちで、コンピュータの性能の点で有利な、Ｚｉｖ−Ｌ
ｅｍｐｅｌタイプの辞書内の項目の固有の構造化を伴う
新規の方法を提供する。

【００９５】辞書内のどの文字列についても、その接頭
文字列も辞書内にあるという点で、Ｚｉｖ−Ｌｅｍｐｅ
ｌアルゴリズムは接頭特性を有する。すなわち、文字列
ＳＢが辞書内にあり、ある文字列Ｓおよび別の単一文字
Ｂから構成される場合、文字列Ｓは辞書内にあるはずで
ある。Ｂを、接頭文字列Ｓの終りにある「拡張文字」
（ＥＣ）と呼び、文字列Ｓ中の各文字もまたＥＣであ
る。文字列が一時に１文字だけ拡張されるので、これを
「文字拡張」と呼ぶ。ＺＬアルゴリズムはまた、従来技
術では、接頭文字列が、記号と呼ばれる２文字以上ずつ
一時に拡張される、「記号拡張」によっても実施されて
いる。本願発明では、文字拡張方式と記号拡張方式の両
方が使用可能である。

【００９６】ＺＬ辞書の最初の２５６項目はそれぞれ、
８ビット・バイトの各ビットのあらゆる置換によって得
られるすべての文字からなるアルファベットのすべての
文字を含む。あらゆるＺＬ文字列は、１つの文字だけを
持つ単一文字列を含む、辞書内のこれらの最初の２５６
文字の１つで始まる。最初の２５６の文字項目に続く項
目中のＥＣは、複数の文字を持つ文字列中に存在する。

【００９７】Ｚｉｖ−Ｌｅｍｐｅｌ方式は、未圧縮文字
のシーケンスを、固定長「索引記号」の圧縮済みシーケ
ンスに変換する。各記号は、発信元文字シーケンス中の
文字の文字列を表す。ＺＬ方式では、入力として索引記
号シーケンスが与えられると、その各索引記号をそれが
表す文字列に展開し、それによって元の未圧縮文字シー
ケンスを再作成する。

【００９８】図３に、次の例で最初の索引記号を生成す
るために検索される辞書項目を示す。

【００９９】未圧縮シーケンス−−＞ＡＢＣＤＥＦＧＨＩＪＫＬＭＮＥＦＧ圧縮済みシーケンス−−＞３７４４４２２００９９６４４２

【０１００】ＺＬ方式では、圧縮アルゴリズムを使用し
て、辞書内の文字列と一致する最長の未圧縮文字列を見
つける。各文字列が検出されると、その文字列中の最後
の文字の索引（辞書アドレス）によってその文字列が識
別される。

【０１０１】したがって、ＺＬ圧縮方式では、次のステ
ップが実行される。

【０１０２】１．現入力位置から始めて、辞書のメンバ
ーである最長文字列を検索する。

【０１０３】２．文字列の最後の文字の、辞書内の位置
（索引）を使用することによって、その文字列を表す索
引記号を出力する。

【０１０４】３．ステップ１に戻って、最後に検出され
た文字列に続く文字を次の文字列の最初の文字として文
字列検出プロセスを続行する。ただし、圧縮中の文字シ
ーケンスの終りにある場合は除く。

【０１０５】ＺＬ展開アルゴリズムでは、逆のプロセス
に従い、圧縮操作によって得られた索引記号のシーケン
スを入力として使用して、未圧縮文字シーケンスを再構
築する。説明を簡単にするため、文字列全体が辞書の各
項目に記憶されるように示してあるが、好ましい実施例
ではこれを避けることに留意されたい。

【０１０６】図４に、Ａ、Ｂ、Ｃ、ＡＡ、ＡＢ、ＡＢ
Ａ、ＡＢＢ、ＡＢＣ、ＡＢＣＡ、ＡＢＣＢという文字列
を表すツリーの例を示す。

【０１０７】図５は、項目として上記の同じ文字列を持
つ、リスト形式の辞書を示す。リスト形式では、同一の
親項目の子供である各項目が、親中の子ポインタによっ
て指定される順次リストに配置される。リスト中の各子
項目は、その親の文字列を、辞書で表されるツリー中の
異なる文字列経路に拡張する。すなわち、同一の子リス
ト中の各子は、共通の親文字列からの分岐文字列を提供
する。

【０１０８】辞書内の項目は、子ポインタ・フィールド
を持つことができる。子ポインタがない場合、この項目
中の文字はある文字列の最後の文字である。子ポインタ
がある場合、その項目は親であり、そのポインタが、そ
の親の子供である項目のリストを位置指定する。子リス
ト中の各項目は、その親から異なる文字列を継続する拡
張文字（ＥＣ）を含む。

【０１０９】図６に、図５の子リストを含む圧縮用辞書
をさらに展開したものを示す。これらの子リストは、辞
書内の順次位置に配置される。同一の親ＥＣを持つ子項
目は、辞書内の順次位置にあり、「子リスト」と呼ばれ
る。辞書内に異なる子リストを連続して配置する必要は
ない。

【０１１０】展開用辞書の一般操作−図７：図７に、図
４のＺｉｖ−Ｌａｍｐｅｌツリー用の辞書を表す。この
辞書は、圧縮と展開の両方に使用される。この辞書内で
は、子ポインタ（ＣＰＴＲ）は圧縮だけに使用され、先
祖ポインタ（ＰＰＴＲ）は展開だけに使用される。した
がって、どの辞書項目も、圧縮と展開の両方をサポート
するためにＣＰＴＲフィールドとＰＰＴＲフィールドの
両方を有する。ＰＰＴＲは、索引記号によって位置指定
された項目から逆方向に文字を追跡させ、それによって
文字列の最後の文字を見つけることにより、ある索引記
号用の未圧縮文字列中の文字を再構築することができ
る。ＰＰＴＲは、その文字列の以前の文字を持つ以前の
項目を位置指定し、前の項目はさらに前の項目のＰＰＴ
Ｒを含むことができ、以下同様にして、ＰＰＴＲ値がな
いことによって、その文字列用の最初の辞書項目が見つ
かったことが示されるまで続けられる。

【０１１１】たとえば、記号３は、ＥＣ（Ａ）とＰＰＴ
Ｒ値０を含む、辞書内の項目３を位置指定する。ＰＰＴ
Ｒ値０は、位置３で見つかったＥＣの前の位置にある、
同一の文字列中の別の文字である別のＥＣ（Ａ）を持
つ、辞書内の最初の項目を位置指定する。したがって、
未圧縮文字列は、このように文字ＡＡによって再構築さ
れる。

【０１１２】ＰＰＴＲが０ないし２５５の範囲の値を持
つとき、これがアルファベット項目を指定していること
が知られる。この場合、このアルファベット項目は、そ
れ自体のＥＣを含まないのでアクセスされない。その代
わり、ＰＰＴＲの値が単に、そのアルファベット項目に
よって表されるＥＣとして使用される。

【０１１３】展開操作の拡張−図８：図８は、任意の辞
書項目中の最大３文字を含むＥＣフィールドを示す。こ
れらの文字は、当該の項目によって表される少なくとも
１つのＴＥＣを含む。このＴＥＣの前には、その左側に
文字列内の最大２つの先祖ＥＣ（ＰＥＣ）がくることが
ある。このため、１つの辞書項目だけにアクセスするこ
とによって、３つ以下の文字から成る文字列を表すすべ
ての索引記号を展開することができる。この１つの辞書
項目は、索引付きの位置にある項目である。文字列中の
先祖ＥＣを位置指定するためにＰＰＴＲ値が必要となる
のは、３つを上回るＥＣを持つ項目だけである。ＰＰＴ
Ｒで位置指定される項目がＰＰＴＲ値を含まないとき、
その文字列の展開操作が終了する。

【０１１４】たとえば、索引記号９は、ＢのＥＣと、Ｅ
ＣＡＢＣを含む項目７を位置指定するＰＰＴＲ値とを
含む項目を指定する。ＡＢＣは第１のＥＣＢの前に連
結されて、文字列ＡＢＣＢを形成する。項目７はＰＰＴ
Ｒ値を持たないので、文字列ＡＢＣＢは完全な文字列で
ある。ＰＰＴＲ値がないので、この連鎖されたアクセス
操作は終了する。

【０１１５】圧縮操作の子拡張−図９：本願発明では、
アクセス時間がさらに改善される。本願発明では、アク
セスの回数を減らすために、各子の最初のＴＥＣを親項
目中に子文字（ＣＣ）として配置する。これによって、
現入力文字と一致しないＣＣをその親項目中にもつ子項
目にアクセスする必要がなくなる。

【０１１６】図９に、各項目が最大３つの子文字を含む
（図４の）圧縮用辞書の例を表す。図９の項目はまた、
図８で説明した方式で展開に使用できる最大３つのＥＣ
文字を含むことができる。

【０１１７】辞書中のある項目用の子文字が３つを上回
る場合、それらの子文字を１つまたは複数の兄弟項目ま
たは兄弟記述子中に兄弟文字として配置する必要があ
る。

【０１１８】たとえば、図６の辞書構造を使用して文字
列ＡＣを圧縮する場合、位置０にアクセスして文字Ａと
突き合わせてから、Ａの子を含む位置３および位置４に
アクセスすることになる。この操作の後、ＣがＡの子で
ないと判定される。図９の新規の辞書構造を用いる場
合、前述の場合と同様に、位置０にアクセスして、Ａと
一致するかどうか判定する。前述の手順とは対照的に、
この項目のＣＣフィールドからの位置０の辞書項目か
ら、ＣがＡの子でないと決定することができる。このた
め、項目位置３および４へのアクセスが不要になる。

【０１１９】したがって、図９では、親項目中の最大３
つの子文字を現入力文字と比較して、現入力文字と一致
しないＣＣがあるか否か判定することができる。

【０１２０】ＣＰＴＲを持たない子がある場合、その子
には子文字がなく、現文字列はその子項目へのアクセス
で終了する。その辞書位置は、一致文字列に対応する圧
縮済みデータである索引記号である。

【０１２１】圧縮操作の兄弟拡張−図１０：図９では、
検査中の親項目に一致するＣＣが含まれる場合にアクセ
スが必要であるが、親中でＣＣが一致しない項目へのア
クセスは行われない。

【０１２２】同様に、図１０でも、親項目にスペースが
不足しているために、親項目に別の子のＣＣを含めるこ
とができないとき、同じ親の別の子の大部分に対するア
クセスが不要になっている。図１０は、同じ親の別の子
の最初のＴＥＣである最大３つの兄弟文字を含めるのに
十分なスペースを持つ項目を示す。このようなとき、Ｓ
Ｃフィールドの兄弟文字で一致しないものがある場合、
そのＳＣを表す項目へのアクセスは不要である。

【０１２３】兄弟項目の位置は、親項目のＣＣで指定さ
れる最後の子項目からの順次位置である。兄弟項目と
は、その親項目の子リスト中の別の子項目にすぎない。
ＳＣフィールド中のどの兄弟文字とも一致が見られない
場合、それらのＳＣによって指定される兄弟項目はスキ
ップされる（アクセスされない）。

【０１２４】入力文字列をＡＸとすると、項目０のＣＣ
Ａ、ＣＣＢ、ＣＣＣがそれぞれ一致しない場合、
項目３、４、５をスキップして、最初に項目６にアクセ
スする。これによってＸを項目６の新しいＴＥＣ、Ｄと
比較し、Ｄが一致しない場合、Ｘを項目６のＳＣＥ、
ＳＣＦ、およびＳＣＧと比較する。

【０１２５】辞書項目長因子：辞書中の項目の長さによ
り、単一項目中で発生できる様々なタイプの文字の組合
せおよび数が制限される。辞書中の項目の数により、そ
の項目を参照するのに必要なＣＰＴＲフィールドおよび
ＰＰＴＲフィールドのサイズが決定される。

【０１２６】単一の項目に１組の文字を含めるのが適切
なように思えるが、８バイトなど合理的なサイズの項目
ではそのようにできないことがある。項目の状況に依存
する項目構造が、高性能操作のための最良の構造であ
る。

【０１２７】項目の長さに関するもう１つの重要な考慮
点は、実行操作のために辞書項目をプロセッサに転送す
るプロセッサ・キャッシュおよびレジスタ内の取出し可
能ユニットのサイズなど、システムの主記憶域および他
の取出し可能メモリ階層レベルでアクセスされるユニッ
トのサイズである。

【０１２８】辞書項目の制御フィールド−図１１、１
２、１３、１４、１５、１６：本願発明はまた、圧縮操
作の場合は入力文字ストリーム中の現文字列の終りを決
定し、展開操作の場合は文字記号の終りを決定するため
に必要な項目アクセスの数を減らす助けとなる各種フォ
ーマットを定義するための、１つまたは複数の制御フィ
ールドを辞書項目中に提供する。重要な制御フィールド
には、次のものが含まれる。

【０１２９】１．子ビット（Ｃ）−現項目が、１つまた
は複数の子を持ち、子ポインタ（ＣＰＴＲ）を含む。

【０１３０】２．more-childrenビット（Ｍ）−現項目
が、その項目中の子文字（ＣＣ）の数よりも多くの子を
持つ。

【０１３１】３．more-siblingビット（Ｓ）−現項目
が、子リスト中でその項目に続く兄弟を持つ。

【０１３２】４．記号長（ＳＬ）−この項目を含む辞書
文字列中の文字の数。

【０１３３】項目の制御フィールドでは、Ｃ、Ｍ、Ｓは
ビット標識であり、ＳＬはカウント・フィールドであ
る。

【０１３４】Ｃビットは、項目が子供を持つかどうかを
示す。Ｃは、項目が子供を持たないことを示すとき、辞
書文字列が現項目で終わることを示している。その場
合、その項目中のすべてのＥＣが入力ストリームと一致
するときは、文字列の終りを検出するために別の項目に
アクセスする必要はない。

【０１３５】ＭビットはＣビットと併用されて、その項
目中に現入力文字と一致するＣＣがないとき、さらに兄
弟項目がアクセスされることを示す。Ｍビット情報がな
ければ、子リストの終りがその項目中の最後のＣＣに対
応するかどうかは分からない。

【０１３６】Ｓビットは、子リスト中の通常の文字項目
である兄弟項目で使用されて、その項目中に現入力文字
と一致するＳＣがないとき、さらに兄弟項目にアクセス
する必要があることを示す。Ｓビットは、子リスト中の
特殊兄弟記述子中でも同じ目的に使用される。

【０１３７】項目中にＣＣ用のスペースがないとき、Ｃ
ビットは１になる。この場合、Ｍビットを検査する必要
はない。同様に、兄弟項目中にＳＣ用のスペースがない
とき、Ｓビットは１になる。

【０１３８】辞書内の最初の２５６項目については制御
フィールドを小さくすることができる。なぜなら、これ
らの項目には兄弟がなく（Ｓが不要）、かつ長さが単一
文字だけに事前定義されており、明示的なＳＬフィール
ドが必要でないからである。これらの２５６項目は、バ
イト中の８ビットのあらゆる置換によって決定される、
その辞書のアルファベット文字を表す。アルファベット
項目中の制御フィールドは、４ビットだけなので、制御
数字（ＣＤ）と呼ばれる。ＣＤを図１１に示す。

【０１３９】最初の２５６項目の後の項目については、
制御フィールドにＳビットおよびＳＬ値も含まれる。Ｓ
ビットおよびＳＬ値は、必要な任意の最大文字列長を示
すことが可能な複数のビットとすることができる。ただ
し、文字列は必ず最初の２５６項目のうちの１つで始ま
る。図１２に、最初の２５６項目の後の項目中で使用さ
れる８ビットから成るバイトを占める制御フィールドを
示す。この制御フィールドを制御バイト（ＣＢ）と呼
ぶ。

【０１４０】辞書が最大で４Ｋ（４０９６）項目に制限
される場合、子ポインタ（ＣＰＴＲ）フィールドおよび
先祖ポインタ（ＰＰＴＲ）フィールドのサイズはそれぞ
れ１２ビットとすることができる。これは、４ビットの
ＣＤまたは８ビットのＣＢを収めるのに好都合なサイズ
である。図１３に示すように、辞書内の最初の２５６項
目の１つであるアルファベット項目では、４ビットのＣ
Ｄと１２ビットのＣＰＴＲを２バイトに収めることがで
き、次のバイトと、それに続くバイトにＣＣを格納する
ことができる。アルファベット項目中にＥＣを入れる必
要はない。

【０１４１】最初の２５６項目の後の項目である非アル
ファベット項目では、８ビットのＣＢと１２ビットのＣ
ＰＴＲを３バイトに収めることができる。この場合、３
つのバイトの終りに４つの未使用ビットが残る。これを
図１４に示す。項目の４番目のバイト中に、ＥＣ、その
次に他のＥＣ、さらにＣＣまたはＳＣを入れることがで
きる。ＣＰＴＲの代わりに、図１５に示すように、ＰＰ
ＴＲとすることもできる。

【０１４２】図１６に示すように、ＣＢ、ＣＰＴＲ、お
よびＰＰＴＲを４バイト中に配置することができる。

【０１４３】複数フォーマット辞書項目−図１７：図１
７は、複数の項目フォーマットの例、Ｆ１Ａ、Ｆ１、Ｆ
２、Ｆ３Ａ、Ｆ３、Ｆ４を示している。これらのフォー
マットは、圧縮・展開併用辞書構造で使用することがで
きる。フォーマットＦ１ＡおよびＦ３Ａは、アルファベ
ット項目であり、４ビットの制御数字（ＣＤ）を格納す
る。他のフォーマットは、非アルファベット項目であ
り、８ビットの制御バイト（ＣＢ）を格納する。ここで
は、フォーマットＦ１は、Ｆ１兄弟記述子（ＳＤ）では
なく文字項目を意味するように使用される。

【０１４４】フォーマットＦ１ＡのＣＤ中の子ビット
（Ｃ）はゼロであり、子がないことを示す。したがっ
て、フォーマットＦ１Ａはすべてゼロを含む。

【０１４５】フォーマットＦ１のＣＢ中のＣもゼロであ
る。Ｆ１には最大７つのＥＣ用のスペースがある。この
うち、１番左のいくつかのＥＣは先祖ＥＣ（ＰＥＣ）と
することができる。図１７では、ＰＥＣと真ＥＣ（ＴＥ
Ｃ）を区別しておらず、最初のＴＥＣと追加のＴＥＣ
（ＡＥＣ）も区別していない。

【０１４６】Ｆ１は、親項目中の子ポインタ（ＣＰＴ
Ｒ）が指す子リスト内にある。子ポインタは、少なくと
も１の記号長（ＳＬ）を持つ必要がある（Ｆ１Ａまたは
Ｆ３ＡのＳＬは暗示の１である）。したがって、Ｆ１の
ＣＢ中のＳＬは２ないし７の値を持つことができる。Ｅ
Ｃが占めていないＦ１のスペースは兄弟文字が占めるこ
とができるが、説明を簡単にするため、図１７ではＥ
１、Ｅ２、、、で表したＥＣだけを示している。Ｆ１中
のＥＣの数は、Ｆ１中のＳＬである。Ｆ１中のＥＣフィ
ールドの始めからＦ１中の１番左のＴＥＣまでのバイト
・オフセットが、Ｆ１の親中のＳＬである。この最初の
ＴＥＣの左側にあるＥＣはＰＥＣである。Ｆ１中のＴＥ
Ｃの数は、Ｆ１中のＳＬからＦ１の親中のＳＬを引いた
値である。

【０１４７】展開の際に索引記号がＦ１を指定するとき
は、文字記号はＦ１中のすべてのＥＣであり、これらの
ＥＣの数は、Ｆ１中のＳＬで示される。ＰＥＣとＴＥＣ
を区別する必要はない。索引記号を拡張する際に、他の
辞書項目にアクセスする必要はない。

【０１４８】フォーマットＦ２のＣＢ中のＣもゼロであ
る。Ｆ２は最大５つのＥＣ用のスペースを持つ。これら
のＥＣの中で、１番左のいくつかのＥＣはＰＥＣとする
ことができる。Ｆ２は、ＣＢの次に１２ビットの先祖ポ
インタ（ＰＰＴＲ）を含み、その後に４つの未使用ビッ
トが続き、最大５つのＥＣ用のスペースが残る。ＥＣが
占めないスペースはＳＣが占めることができる。Ｆ２中
のＥＣの数は、Ｆ２中のＳＬから、Ｆ２中のＰＰＴＲで
指定される項目中のＳＬを引いた値である。Ｆ２中のＥ
Ｃフィールドの始めからＦ２中の１番左のＴＥＣまでの
バイト・オフセットは、Ｆ２の親中のＳＬから、Ｆ２中
のＰＰＴＲで指定される項目中のＳＬを引いた値であ
る。Ｆ２中のＴＥＣの数は、Ｆ２中のＳＬから、Ｆ２の
親中のＳＬを引いた値である。Ｆ２の親と、Ｆ２中のＰ
ＰＴＲで指定される項目は、同一の項目でも異なる項目
でもよい。

【０１４９】項目中のＣビットがゼロの値で、項目が子
を持たないことを示すとき、ＳＬが７以下の場合、その
項目はＦ１であり、ＳＬが８以上の場合、その項目はＦ
２である。これは、Ｆ１とＦ２を区別し、したがって項
目がＰＰＴＲを含むかどうかを識別する方法である。

【０１５０】図１７に、様々な項目の組合せを示す。図
１７は、Ｆ３ＡまたはＦ３中のＣＰＴＲによってＦ１を
指定できることを示している（すなわち、ＣＰＴＲで指
定される子リストにその項目を入れることができる）。
Ｆ１は、Ｆ４中のＣＰＴＲによって指定することもでき
るが、これは図では示されていない。図では、Ｆ３また
はＦ４中のＣＰＴＲによってＦ２を指定できることを示
している。また、Ｆ２または別のＦ４中のＰＰＴＲによ
ってＦ４を直接指定できること、およびＦ２またはＦ４
中のＰＰＴＲによってＦ３を直接指定できることも示し
ている。

【０１５１】フォーマットＦ３ＡのＣＢ中のＣは１であ
り、その項目が子を持ち、ＣＰＴＲを含むことを示す。
アルファベット項目であるＦ３Ａ中にはＥＣがないの
で、最大６つの子文字（ＣＣ）用のスペースがある。

【０１５２】フォーマットＦ３のＣＢ中のＣも１であ
る。Ｆ３は最大５つのＥＣ用のスペースを持つ。それら
のＥＣのうち１番左のいくつかのＥＣはＰＥＣとするこ
とができる。Ｆ３は、ＣＢの後に１２ビットの子ポイン
タ（ＣＰＴＲ）を含み、その次に４つの未使用ビットが
続き、最大５つのＥＣ用のスペースが残る。ＥＣが占め
ないスペースはＣＣが占めることができるが、説明を簡
単にするため、図１７ではＥ１、Ｅ２、、、で表したＥ
Ｃだけを示している。Ｆ３中のＥＣの数は、Ｆ３中のＳ
Ｌである。Ｆ３中のＥＣフィールドの始めからＦ３中の
１番左のＴＥＣまでのバイト・オフセットは、Ｆ３の親
中のＳＬである。この最初のＴＥＣの左側にあるＥＣ
は、ＰＥＣである。Ｆ３中のＴＥＣの数は、Ｆ３中のＳ
ＬからＦ３の親中のＳＬを引いた値である。

【０１５３】フォーマットＦ４のＣＢ中のＣも１であ
る。Ｆ４は最大４つのＥＣ用のスペースを持つ。それら
のＥＣのうち１番左のいくつかのＥＣはＰＥＣとするこ
とができる。Ｆ４は、ＣＢの後に１２ビットＣＰＴＲを
含み、その次に１２ビットのＰＰＴＲが続き、最大４つ
のＥＣ用のスペースが残る。ＥＣが占めないスペースは
ＣＣが占めることができる。Ｆ４中のＥＣの数は、Ｆ４
中のＳＬから、Ｆ４中のＰＰＴＲで指定される項目中の
ＳＬを引いた値である。Ｆ４中のＥＣフィールドの始め
からＦ４中の１番左のＴＥＣまでのバイト・オフセット
は、Ｆ４の親中のＳＬから、Ｆ４中のＰＰＴＲで指定さ
れる項目中のＳＬを引いた値である。Ｆ４中のＴＥＣの
数は、Ｆ４中のＳＬから、Ｆ４の親中のＳＬを引いた値
である。Ｆ４の親と、Ｆ４中のＰＰＴＲによって指定さ
れる項目は、同じ項目でも異なる項目でもよい。

【０１５４】項目中のＣビットが１の値でその項目が子
を持つことを示すとき、ＳＬが５以下の場合、その項目
はＦ３であり、ＳＬが６以上の場合はＦ４である。これ
は、Ｆ３とＦ４を区別し、したがってその項目がＰＰＴ
Ｒを含むかどうかを識別する方法である。

【０１５５】辞書項目フォーマットの使用例−図１８、
１９、２０、２１、２２図１８に、図１９に示す文字記号ツリーに対応する辞書
を示す。図２０にツリー中の項目のフォーマットを示
し、図２１に項目中の真拡張文字（ＴＥＣ）を示し、図
２２に項目中のすべての拡張文字、先祖ＥＣ（ＰＥ
Ｃ）、およびＴＥＣを示す。図１９、２１、２２では、
項目位置をコロンの前に示し、その後に文字記号または
ＥＣを示す。

【０１５６】図１８では、位置０にある項目は、文字Ａ
用のアルファベット項目である。他の２５５のアルファ
ベット項目は示していないので、次の項目は位置１にあ
る。項目０（位置０にある項目）は、フォーマットＦ３
Ａであり、Ｃビットを含むがＭビットを含まず（すなわ
ち、Ｃビットの値が１、Ｍビットが値が０）、項目１を
子として指定する子ポインタ（ＣＰＴＲ）を含み、バイ
トＣ１中に１つの子文字（ＣＣ）Ｂを含む。バイトＣ２
中のＢは、バイトＢ１中のＢの複製であり、したがって
バイトＢ１中のＢが最後のＣＣであることを示す。

【０１５７】位置１にある項目は、フォーマットＦ３で
あり、Ｃビットと記号長（ＳＬ）２を含み、先祖ＥＣ
（ＰＥＣ）であるＡと真ＥＣ（ＴＥＣ）であるＢの２つ
の拡張文字（ＥＣ）を含み、ＣＰＴＲ２およびＣＣ
Ｃを含む。バイトＣ２中のＣは、バイトＣ１中のＣが最
後のＣＣであることを示す。

【０１５８】位置２にある項目は、ＣビットおよびＳＬ
４を含み、ＰＥＣである４つのＥＣＡＢ、最初のＴ
ＥＣであるＣ、および追加のＴＥＣ（ＡＥＣ）であるＤ
を含み、ＣＰＴＲ３およびＣＣＥを含む。Ｍビット
はゼロなので、項目２の子は１つだけであることが分か
る。

【０１５９】位置３にある項目は、Ｃビット、Ｍビッ
ト、およびＳＬ５を含み、ＡＢＣＤがＰＥＣでありＥ
がＴＥＣであるＥＣＡＢＣＤＥを含み、ＣＰＴＲ４
を含む。項目中にＣＣ用のスペースはない。このため、
Ｃビットが少なくとも１つの子があることを示すので、
Ｍビットは実際には必要でない。

【０１６０】図１８についてさらに説明する。ここで
は、すべての詳細は説明せず、図の重要部分だけを説明
する。他の詳細は自明である。

【０１６１】位置４にあるＦ４項目は、Ｃビット、ＣＰ
ＴＲ、先祖ポインタ（ＰＰＴＲ）、ＴＥＣＦ、２つの
ＣＣであるＧおよびＸを含み、子リストが位置６から始
まることを示す。Ｆ４項目はまた、その後の位置５に兄
弟があることを示すＳビットを含む。項目５の兄弟文字
（ＳＣ）はない。項目５中のＴＥＣを検査して、項目５
に一致が見られるかどうかを判定する必要がある。

【０１６２】位置５にあるＦ１項目は、項目４の兄弟で
ある。このＦ１項目は、ＰＥＣＡＢＣＤＥおよびＴＥ
ＣＸＹを含む。この項目は、子がなく、ＳＬが７にす
ぎないので、ＰＰＴＲを含む項目ではなく、完全な文字
記号を含むＦ１項目とすることができる。

【０１６３】項目６は、項目４の最初の子である。項目
４が２つのＣＣを含むので、項目７は項目６の兄弟であ
ることが分かり、項目６がＳビットを含む必要はない。

【０１６４】項目７は、項目４の第２の子である。これ
は、図１７の説明で述べたが、図中には示さなかった、
Ｆ１がＦ４の子である場合である。

【０１６５】項目８は、ＰＥＣＦＧおよびＴＥＣＨ
を含み、項目８を指定する索引記号の展開時に、項目３
中のＥＣを項目８中のＥＣの左側に配置すべきことを示
すＰＰＴＲを含む。

【０１６６】子文字および兄弟文字の操作−図２３およ
び２４図２３に、ＣＣおよびＳＣの位置を使用して親の子リス
ト中で対応する子供をどのように位置指定するかを示
す。図２４に、図２３に示した項目を含むツリーを示
す。

【０１６７】図２３で１番上のＦ３項目が、対象となる
親である。このＦ３項目は、ＰＥＣＡおよびＴＥＣＢ
を含み、ＣＣＡＢＣを含む。また、Ｍビットを含み、
ＡＢＣの子供よりも多くの子供があることを示す。

【０１６８】親のＣＣＡに一致が見られる場合、Ａが
最初のＣＣであるので、親中のＣＰＴＲに増分０が加算
されて、対応する子であるＡという子の索引が形成され
る。ＡＣＣには一致が見られないが、ＢＣＣに一致
が見られる場合、ＣＰＴＲに増分１が加算され、以下同
様である。親中のどのＣＣにも一致が見られない場合、
ＣＰＴＲに増分３が加算されて、親中のＣＣに対応する
索引の後に最初の子の索引が形成される。この最初の子
は、ＰＥＣＡＢおよびＴＥＣＤを含み、Ｓビットお
よびＳＣＥを含む。したがって、親のＣＣに一致が見
られないと、オフセット索引３にある子が取り出され、
そのＴＥＣＤでの突合せが行われ、それが失敗した場
合は、ＳＣＥでの突合せが行われる。この項目中のＳ
Ｃリストの終りは、バイトＳ２中の複製Ｅによって示さ
れる。

【０１６９】オフセット索引３にある項目中のＳＣＥ
に一致が見られる場合、そのＳＣが第１のＳＣであるの
で、現項目の索引に増分１が加算されて、ＳＣに対応す
る兄弟の索引が形成される。これは、増分０が最初のＣ
Ｃに対応する、親中のＣＣの場合と異なる。この違いの
理由は、最初の子の索引であるＣＰＴＲにはＣＣの増分
が加算されるが、現兄弟の索引にはＳＣの増分が加算さ
れて、後続の兄弟の索引が形成されることである。

【０１７０】オフセット索引０およびオフセット索引４
にある項目中のＭビットは、それらの項目中のＣＣで示
される子供よりも少なくとも１つ多い子を示す。図２４
のツリーでは、それらの追加の子供はＴＥＣＺを持つ
ものと仮定される。

【０１７１】特殊兄弟記述子項目−図２５および２６：
図２５に、親が多数の子供を持ち、おそらく親とその子
供に多数のＥＣがあるとき、および子供が子供を持ち、
直接の子供がＳＣではなくＣＣを含むときに使用される
特殊兄弟記述子（ＳＤ）を示す。このようなときには、
親中のＣＣ用のスペースおよび直接の子供中のＳＣ用の
スペースが余りまたはまったくなくなるので、入力文字
列の次の文字を子供中の最初のＴＥＣと比較して、一致
を見つけるために、直接の子供に何度もアクセスを行な
わなければならない。親の子リスト中に、子リスト中の
後続の子供に対応するＳＣを含むＳＤを配置すると、こ
のように何度もアクセスを行う必要がなくなる。次いで
入力文字列中の次の文字をＳＤ中のＳＣと比較し、ＳＤ
中の対応するＳＣに一致が見られない場合、子リスト中
の後続の子供をスキップする。ＳＤについて議論する
際、子リスト中の、ＳＤではない項目を文字項目（Ｃ
Ｅ）と呼ぶ。ＳＤがないとき、子リスト中のすべての項
目はＣＥである。

【０１７２】図２６に、その対応する辞書項目が図２５
の項目を含む、ツリーを示す。

【０１７３】図２５の１番上の項目は、ＰＥＣＡＢ、
ＴＥＣＣ、ならびにＣＣＡおよびＣＣＢを含む親
である。入力文字列と親のＥＣＡＢＣの間ですでに一
致が見つかっているものとすると、入力文字列中の次の
文字とＣＣＡまたはＣＣＢの間に一致が見られる場
合、突合せプロセスを続行するため、親中のＣＰＴＲに
それぞれ増分０または増分１が加算されて、親の対応す
る子の索引が形成される。ＣＣＡとＣＣＢのどちら
にも一致が見られない場合は、ＣＰＴＲに増分２が加算
されて、ＳＤの索引が形成される。親中のＭビットは１
なので、ＣＣＡおよびＣＣＢに対応する子供以外に、
その親には別の子があることが知られる。

【０１７４】ＳＤの索引が形成されるとき、子リスト中
で指定された項目がＣＥであるかＳＤであるかは分から
ない。この項目にアクセスするとき、その制御バイト
（ＣＢ）中の区別コードがその項目をＳＤとして識別す
る。たとえば、ＣビットがゼロであるがＭビットが１で
あるケースを使用して、ある項目をＣＥではなくＳＤと
して識別することができる。その項目がＣＥである場
合、突合せプロセスを続行するために、入力文字列中の
次の文字がＣＥ中の最初のＴＥＣと比較される。その項
目はＳＤなので、入力文字列中の次の文字が、最初のＴ
ＥＣではなくＳＤ中のＳＣＣＤＥＦと比較される。Ｓ
ＤのバイトＳ５中のＦは、バイトＳ４中のＦの複製であ
り、バイトＳ４中のＦがＳＤ中の最後のＳＣであること
を示す。ＳＣＣに一致が見られる場合、ＳＤの索引に増
分１が加算されて、対応する子の索引が形成される。次
に、この対応する子がアクセスされて、突合せプロセス
が続行される。ＳＣＣには一致が見られないが、ＳＣ
Ｄには一致が見られる場合、ＳＤの索引に増分２が加
算されて、対応する子の索引が形成される。

【０１７５】図示したように、ＳＤは、４つだけでなく
７つのＳＣを含むことができる。さらに、その場合は、
７つのＳＣに対応する数よりはるかに多くの子供がその
親にある可能性がある。この場合、ＳＤ中のＳビットは
１となり、ＳＤ中のどのＳＣにも一致が見られない場
合、突合せを続行するために７番目の対応する子の後の
別の項目にアクセスする必要があることを示す。この次
の項目は、ＣＥまたは別のＳＤとすることができる。

【０１７６】別個の静的辞書構造好ましい実施例では、異なる構造を持つ２つの別々の辞
書を使用する。一方の辞書は圧縮用であり、もう一方は
展開用である。静的辞書の２重辞書構造を提供するのが
最善である。というのは、適応（動的）辞書更新操作に
２つの異なる辞書の再生成が必要であり、これは単一の
適応辞書の更新よりも難しいからである。

【０１７７】圧縮と展開の両方に単一の静的辞書を使う
場合に比べて、別々の静的辞書を使う方が優れた性能を
提供することが分かっている。なぜなら、単一の併用辞
書は圧縮と展開の両方に最適化することはできず、その
性能が、圧縮と展開のどちらか一方に片寄るからであ
る。単一の辞書の効率は、別々の辞書の効率に及ばな
い。

【０１７８】好ましい実施例では、圧縮用辞書を、展開
プロセスには留意せずに圧縮プロセスについて最適化
し、展開用辞書を、圧縮プロセスには留意せずに展開プ
ロセスについて最適化する。この最適化は、図２９、３
０、３１に示すように、本願発明による別個の辞書内の
項目の構造によって行われる。

【０１７９】圧縮呼出し命令−図２７および２８：本願
発明の好ましい実施例では、圧縮呼出し命令という命令
を提供する。この命令を図２７に示す。圧縮呼出し（Ｃ
ＭＰＳＣ）命令は、この命令が使用する汎用レジスタ１
（ＧＲ１）中のビットによる決定に応じて圧縮または展
開を実行する。ＣＭＰＳＣは、圧縮を実行するとき、図
１の概要に示すように実行する。ＣＭＰＳＣは、展開を
実行するとき、図２の概要に示すように実行する。

【０１８０】図２７に示すように、ＣＭＰＳＣは４ビッ
トのＲ１フィールドと４ビットのＲ２フィールドを持
つ。これらのフィールドはそれぞれ、偶数／奇数汎用レ
ジスタ対を指定する数を含む（フィールド中の数によっ
て指定される偶数番号のレジスタとそれより１つ小さな
奇数番号のレジスタ）。

【０１８１】図２８に、ＣＭＰＳＣが使用するレジス
タ、すなわち汎用レジスタＲ１、Ｒ１＋１、Ｒ２、Ｒ２
＋１と、やはり暗示的に指定されるＧＲ１を示す。レジ
スタＲ１およびＲ１＋１はそれぞれ、宛先オペランドの
３１ビット・アドレスおよび３２ビットの符号なし２進
長を含む。宛先オペランドとは、ＣＭＰＳＣが圧縮時に
はそこに索引記号を置き、展開時には文字を置く場所で
ある。レジスタＲ２およびＲ２＋１は、ＣＭＰＳＣが圧
縮時にはそこから文字を取りだし、展開時には索引記号
を取り出す発信元オペランドのアドレスおよび長さを含
む。ＣＭＰＳＣは、処理を完了するために、レジスタＲ
１およびＲ２中のアドレスを増分し、レジスタＲ１＋１
およびＲ２＋１中の長さを減分して、各オペランド中で
処理されたデータの量を反映するようにして、新規の開
始アドレスおよびオペランドの残りの長さを指定する。

【０１８２】レジスタＧＲ１は、圧縮済みデータの単位
である、索引記号中のビット数と、圧縮用辞書または展
開用辞書内の対応する項目の数とを指定する３ビットの
フィールドＩＳＳを含む。レジスタＧＲ１はまた、圧縮
を行うかそれとも展開を行うかを指定するビットも含
む。これらのフィールドについての詳細は、図２８から
自明である。最大１３ビットの索引記号サイズが可能で
あり、これは、前述の単一辞書における１２ビットの限
界に比べて改善である。索引記号サイズを大きくすれ
ば、辞書が大規模になり、辞書にさらに様々なＺＬ文字
列を含めることができるので、圧縮が向上する。

【０１８３】レジスタＧＲ１は、４Ｋ（４０９６）バイ
ト境界上の辞書の位置を指定する３１ビット・アドレス
の上位ビットを含む。これは、圧縮操作時に別個の圧縮
用辞書であり、あるいは展開操作時に別個の展開用辞書
である。

【０１８４】レジスタＧＲ１はまた、３ビットの圧縮済
みデータ・ビット番号（ＣＢＮ）フィールドを含む。圧
縮操作の開始時に、ＣＢＮは、圧縮済みデータの第１ビ
ットを配置すべき、Ｒ１で指定されるバイト中のビット
位置を指定する。この圧縮操作の完了時に、Ｒ１が更新
されて、圧縮済みデータのビットをまだ含んでいない少
なくとも１つのビット位置を含む宛先オペランド中の第
１バイトのアドレスを含むようになり、ＣＢＮも更新さ
れて、圧縮済みデータを含まないビット位置のうち１番
左のビット位置の番号を含むようになる。展開操作の開
始時に、ＣＢＮが、レジスタＲ２によって指定されたバ
イト中で処理すべき圧縮済みデータの第１ビットを指定
する。この展開操作の完了時に、レジスタＲ２が更新さ
れて、処理された圧縮済みデータの最後のビットの後の
第１のビットを含む、発信元オペランド中のバイトのア
ドレスを含むようになり、ＣＢＮも更新されて、その第
１ビットの番号を含むようになる。ここで説明したレジ
スタの更新と、レジスタＲ１＋１およびＲ２＋２中の長
さの更新は、ＣＭＰＳＣ実行の完了時のみならず、たと
えば、実記憶域に仮想ページが存在しないため、あるい
は入出力割込みもしくは外部割込みのためにこの実行が
割り込まれる場合にも行われる。

【０１８５】ＣＭＰＳＣ実行の完了時に、プログラム状
況ワード（ＰＳＷ、ＥＳＡ／３９０の標準部分）中の条
件コードが、完了の理由を示すように設定される。条件
コードの２つの可能な値を図２７に示す。ＣＣ０が設定
される場合、命令は、操作に応じて、発信元オペランド
全体を圧縮または展開したので、所期のとおりの処理を
実行し終えている。ＣＣ１が設定される場合、宛先オペ
ランド中に処理の出力を受け取るためのスペースがなく
なってしまったので、命令は発信元オペランド全体の処
理を終えていない。

【０１８６】別個の圧縮用辞書における項目フォーマッ
ト−図２９図２９に示すように、好ましい実施例の圧縮用辞書内に
は、文字項目のフォーマット３つと、兄弟記述子フォー
マット１つがある。図２９には、前述し、図３２につい
て説明する際に述べる、代替フォーマット０およびフォ
ーマット１の兄弟記述子は示していない。

【０１８７】別個の圧縮用辞書の形成には、単一圧縮お
よび展開辞書に関して述べた概念および用語を多数使用
する。前述の説明を理解するには、次の説明が必要であ
る。

【０１８８】単一辞書の場合と同様に、別個の圧縮用辞
書内の項目は長さ８バイトである。

【０１８９】３つの文字項目（ＣＥ）はそれぞれ、項目
中のＣＣの数のカウントを含む３ビットの子カウント
（ＣＣＴ）フィールドで始まる。ＣＣＴは、単一辞書で
はＣＥ中に存在すると記述された子ビット（Ｃ）に置き
換わる。ＣＣＴフィールドの値は、ＣＭＰＳＣ命令用の
容易な方法で３つの項目フォーマットを区別する。ＣＣ
Ｔが０のとき、フォーマットは、ＣＰＴＲやＣＣを含ま
ず、項目中のＡＥＣのカウントを内容とする３ビットの
ＡＣＴだけを含む、Ｃ０であることが知られる。ＡＥＣ
のカウントは０ないし４となることができる。

【０１９０】別個の圧縮用辞書では、ＣＥが、そのＣＥ
によって新たに表される第１のＥＣである第１の真ＥＣ
（ＴＥＣ）を含むことはない。この第１ＴＥＣは必ず、
その項目の親中のＣＣとして、または親の下にある子リ
スト中の兄弟記述子（ＳＤ）中のＳＣとしてのみ出現す
る。ＣＥはまた先行ＥＣ（ＰＥＣ）を含むこともない。
ＰＥＣが有効となるのは展開用辞書内だけだからであ
る。しかし、ＣＥは、その項目によって表され、その第
１ＴＥＣの後に続くＴＥＣを含むことができる。これら
後続のＴＥＣを、前述どおり追加ＥＣ（ＡＥＣ）と呼
ぶ。

【０１９１】フォーマットＣ０ＣＥは、０ないし４個
のＡＥＣを含むことができるので、１つないし５個のＴ
ＥＣを表すことができる。

【０１９２】フォーマットＣ１ＣＥは、ＣＣＴが１で
ある。このフォーマットは、ＣＰＴＲと１つのＣＣを含
み、フォーマットＣ０と同様に、０ないし４となること
ができるＡＣＴを含む。

【０１９３】別個の圧縮用辞書の好ましい実施例は、単
一辞書に関して説明しなかった新規の構成、すなわち子
検査ビットを含む。別個の圧縮用辞書では、親ＣＥは、
ＣＥ中の各ＣＣ用の子検査ビット（Ｘ）を含む。ＣＣに
一致が見られる場合、関連するＸが、０であるかそれと
も１であるか試験する。Ｘが０の場合、ＣＣに対応する
子項目にアクセスしても意味がないことがただちに分か
る。したがって、現在比較されている入力文字列につい
て、辞書中の最長の一致ＺＬ文字列が見つかったことが
分かる。Ｘが１の場合、突合せプロセスを続行するため
に一致ＣＣに対応する子にアクセスする必要があること
が分かる。子のＸは、子が１つまたは複数のＡＥＣを持
つ場合に１となる。なぜなら、これらのＡＥＣが入力文
字列と一致しないと、子に一致が見られるようにならな
いからである。子のＸは、子がそれ自体の子を持つ場合
も１である。なぜなら、この場合は、入力文字列中の後
続の文字を子のＣＣまたは子の下にあるＳＤ中のＳＣと
突合せを試みることによって、突合せプロセスを続行で
きるからである。単一辞書中には子検査ビットは存在し
ない。なぜなら、それらのビットが必要とするスペース
を、単一辞書中の他の情報に使用した方が価値があるか
らである。

【０１９４】フォーマットＣ１ＣＥは、１つのＣＣを
含むので、１つのＸも含む。このＸは、ＣＥのビット位
置３にある。

【０１９５】Ｃ１ＣＥのＣＣは、ＣＥ中の最後のＡＥ
Ｃの後に続く。ＡＥＣがない場合、ＣＣはビット位置２
４から始まる。

【０１９６】フォーマットＣＧ１ＣＥは１より大きな
ＣＣＴを持つ。このフォーマットは、ＣＰＴＲと幾つか
のＣＣを含む。また、０または１つのＡＥＣを含む。含
むことのできるＡＥＣは最大で１つなので、ＣＧ１Ｃ
Ｅ中のＡＣＴフィールドはＤという単一ビットに還元さ
れる。Ｄとは倍文字項目を意味する。Ｄが１のとき、別
の項目中のＣＣまたはＳＣであるＣＥの第１ＴＥＣと、
ＣＥ中の１つのＡＥＣとによって、ＣＥは２つのＴＥＣ
を表す。ＣＥ中のＣＣＴは、Ｄが０の場合は２ないし５
となることができ、Ｄが１の場合は２ないし４となるこ
とができる。

【０１９７】フォーマットＣＧ１ＣＥはまた、その各
ＣＣ用のＸビットを含み、more-childrenビット（Ｍ）
を含む。ＣＥ中のＣＣがＣＥのすべての子に対応するの
に十分である場合、Ｍビットは０である。ＣＥの子がＣ
Ｃの子よりも多い場合、Ｍビットは１となって子が多い
ことを示す。Ｍが１のとき、子リスト中で、ＣＥ中のＣ
Ｃに対応する最後の子の次にＳＤが続く。

【０１９８】兄弟記述子（ＳＤ）項目は、ＳＤ中のＳＣ
の数のカウントを含む３ビットのＳＣＴフィールドを含
んでいる。このＳＣの数は１ないし６となることができ
る。ＳＤはまた、その各ＳＣ用の子検査ビット（Ｙ）を
含み、more-siblingsビット（Ｓ）を含む。図３２の理
解を助けるために、ＳＤ中の子検査ビットにはＸではな
く文字Ｙを使用する。ＸがＣＣ用に使われるのと同様
に、ＹはＳＣ用に使われる。

【０１９９】圧縮プロセス−図３０および３１本願発明の好ましい実施例では、図３０および３１に示
す一般プロセスを使用して、図２９で定義した項目を持
つ構造の別個の圧縮用辞書で入力文字列を圧縮する。

【０２００】図３０および３１では、プロセス内の他の
点から制御が渡されるプロセス内の点を括弧付きの番号
で表し、この説明で参照するために、プロセスのいくつ
かのステップには括弧のない番号を付けてある。プロセ
スは、図３０の上端の（１）から開始する。

【０２０１】（１）で、汎用レジスタＲ２＋１中にある
発信元オペランドの長さが、少なくとも１であるかどう
か試験する。０である場合、ＣＣ０がセットされ、実行
は終了する。

【０２０２】（２）で、汎用レジスタＲ１＋１中にある
宛先オペランドの長さと、汎用レジスタ１中にある圧縮
済みデータ・ビット番号（ＣＢＮ）を、宛先オペランド
に少なくとも１つの索引記号用のスペースが含まれてい
るかどうか試験する。試験の方法については、（９）の
操作に関連して説明する。そのスペースが含まれていな
い場合、ＣＣ１がセットされ、実行は終了する。図３０
および３１では、索引記号を単に索引と呼んでいる。

【０２０３】ステップ４１で、汎用レジスタＲ２によっ
てアドレスされる文字を、汎用レジスタ１中のアドレス
によってアドレスされる、圧縮用辞書中のアルファベッ
ト項目の索引として使用する。この項目を親項目と呼
ぶ。Ｒ２中のアドレスに１が加算され、Ｒ２＋１中の長
さから１が減算される。

【０２０４】（３）で、親項目中の子文字（ＣＣ）のカ
ウント（ＣＣＴ）が０であるかどうか試験する。０であ
る場合、制御は（９）に移り、（９）で、親の索引が、
Ｒ１によってアドレスされるバイト中に、ＣＢＮで指定
されるビット位置から順に記憶されていく。汎用レジス
タ０中の索引記号サイズ（ＩＳＳ）に応じて９ビット、
１０ビット、１１ビット、１２ビット、または１３ビッ
トである索引記号の長さがＣＢＮに加算され、ＣＢＮか
らの桁上げが、Ｒ１中のアドレスに加算され、Ｒ１＋１
中の長さから減算される。たとえば、ＣＢＮが最初５で
あり、索引記号サイズが１３ビットである場合、５と１
３の和は１８であり、ＣＢＮが２ビットにセットされ、
２バイトがＲ１に加算され、Ｒ１＋１から減算される。
制御は（１）に移る。

【０２０５】親におけるＣＣＴが０でないときは（４）
に達し、（４）で、発信元オペランドが（１）の場合と
同様に別の文字を含むかどうか試験する。別の文字を含
まない場合、制御はステップ４２に移り、ステップ４２
で、親の索引がＲ１、Ｒ１＋１に記憶され、（９）の場
合と同様にＣＢＮが更新され、ＣＣ０がセットされ、実
行が終了する。

【０２０６】ステップ４３で、発信元オペランド中の次
の文字を、親のＣＣと１番左のＣＣから順に比較するル
ープを開始する。一致が見られる場合、制御はステップ
４４に移る。一致がない場合は、（５）で、親中のＣＣ
Ｔが別のＣＣを示しているかどうか試験し、別のＣＣが
ある場合はループを繰り返す。

【０２０７】等しいＣＣがあるときはステップ４４に達
するが、ステップ４４で、子の索引を、親中の子ポイン
タ（ＣＰＴＲ）と、等しいＣＣの番号を加えた値に等し
く設定する。この場合、第１のＣＣの番号は０、次のＣ
Ｃの番号は１となり、以下同様である。

【０２０８】ステップ４５で、親中にあり、等しいＣＣ
に対応する子検査ビット（Ｘ）が１であるかどうか試験
する。０である場合、子が追加ＥＣ（ＡＥＣ）を含まず
子を持たないことが分かるので、子の突合せが完了し、
可能な突合せはそれが最後であることが分かる。したが
って、ステップ４６で、宛先オペランド中に子の索引が
記憶され、ＣＢＮを含むレジスタが更新され、制御が
（１）に移る。

【０２０９】ステップ４５でＸが１であることが分かっ
た場合は、ステップ４７で、子にアクセスし、子中のＡ
ＥＣカウント（ＡＣＴまたはＤ）が０であるかどうか試
験する。０の場合、子に一致が見られることが分かるの
で、ステップ４８でその子を親と呼び、Ｒ２およびＲ２
＋１が更新されて１文字進められ、制御が（４）に移
る。

【０２１０】ステップ４７で、子中にＡＥＣがあること
が分かった場合は、ステップ４９で、発信元オペランド
中の次の文字を、子中にあるだけのＡＥＣと比較する準
備をする。ステップ５０（図３１）でまず、発信元オペ
ランドに多数の文字が残っているかどうか試験する。そ
れほど多くの文字が残っていない場合、子の突合せを行
うことができないので、制御は（５）に移り、等しいＣ
Ｃがあるかどうか試験するループを続行する。ＣＣは相
互に等しくなることができることに留意されたい。この
点は、同一の文字が繰り返される、多数の異なる長さの
文字列を圧縮する際に好都合である。

【０２１１】発信元オペランドに文字が十分残っている
場合、ステップ５１で、それらの文字を子中のＡＥＣと
比較する。一致が見られる場合、ステップ５２で、その
子が親になり、発信元レジスタが１にＡＥＣの数を加え
た分だけ進められ、制御が（３）に移る。一致がない場
合、制御が（５）に移り、等しいＣＣがあるかどうか試
験するループを続行する。

【０２１２】すべてのＣＣを試験しても子に一致が見つ
からないときはステップ５３（図３０）に達する。ステ
ップ５３で、親のmore-childrenビット（Ｍ）が１であ
るかどうか試験する。０である場合、親に関する可能な
突合せはそれが最後であることが分かるので、制御は
（８）に移り、そこで、親の索引が宛先オペランドに記
憶され、（９）の場合と同様に宛先レジスタが更新さ
れ、制御はさらに（２）に移る。

【０２１３】ステップ５３でＭが１である場合、子リス
ト中に、親のＣＣに対応する最後の子の次に兄弟記述子
（ＳＤ）があることが分かる。ステップ５４で、親中の
ＣＰＴＲとＣＣＴを加えることによってＳＤの索引を作
成する。

【０２１４】（７）で、先に親中のＣＣと比較したが子
に一致がなかった、発信元オペランド中の次の文字を、
今度はＳＤ中の兄弟文字（ＳＣ）と１番左のＳＣから順
に比較していくループを開始する。一致が見られる場
合、制御はステップ５５に移る。一致がない場合は、ス
テップ５６で、ＳＤ中の兄弟文字カウント（ＳＣＴ）が
別のＳＣを示しているかどうか試験し、別のＳＣがある
場合はループを繰り返す。

【０２１５】一致がなく別のＳＣがない場合、ステップ
５７で、ＳＤ中のmore-siblingsビット（Ｓ）が１であ
るかどうか試験する。１である場合、ステップ５８で、
現ＳＤの索引に現ＳＤ中のＳＣＴ＋１を加算することに
よって次のＳＤの索引を作成し、制御が（７）に移り、
次のＳＤ中のＳＣを使用して突合せプロセスを続行す
る。現ＳＤ中のＳが０の場合、制御は（８）に移る。

【０２１６】等しいＳＣがあるときはステップ５５に達
するが、ステップ５５で、子の索引を、ＳＤの索引に、
等しいＳＣの番号を加えた値に等しく設定する。ここ
で、第１のＣＣの番号が１、次のＣＣの番号が２とな
り、以下同様である。

【０２１７】ステップ５５より下の諸ステップは、ステ
ップ４４より下の諸ステップと同様である。ただし、ス
テップ５９およびステップ６０の結果がＮ０の場合は
（５）の代わりに（８）に制御が移る。したがって、Ｓ
Ｃに一致が見られたが、次の発信元文字がＡＥＣに一致
しなかった場合、別のＳＣで一致を見つける試みは行わ
れない。この好ましい実施例では、ＳＣを相互に等しく
するのはむだであると規定されていることに留意された
い。これらの等しいＳＣのうち２番目以降のものは発信
元文字と比較されないからである。そうしても、同一の
文字が繰り返される、多数の異なる長さの文字列の圧縮
効果は下がらないことが分かっており、またそうすると
親に関する可能な突合せとしてそれが最後のものである
とより迅速に判断できるので、圧縮速度が上がることが
分かっている。

【０２１８】別個の展開用辞書中の項目フォーマット−
図３２：図３２に示すように、好ましい実施例の展開用
辞書は、先行なし文字項目と先行あり文字項目という２
種類の項目を含む。

【０２１９】どちらの種類の展開辞書文字項目も、３ビ
ットの部分記号長（ＰＳＬ）フィールドから始まる。こ
のフィールドは、０を含む場合、項目を先行なし項目と
して識別し、この項目中の完全記号長（ＣＳＬ）フィー
ルドは、項目中のＥＣの数のカウント（１ないし７）を
含む。これらのＥＣは、先祖ＥＣ（ＰＥＣ）と真ＥＣ
（ＴＥＣ）からなることができる。ＰＥＣとＴＥＣを区
別する必要はない。先行なし項目を指定する索引記号ま
たは先祖ポインタ（ＰＰＴＲ）を処理すると、その項目
中のすべてのＥＣが、宛先オペランド中に次に利用可能
な位置から順に配置されていく。次に利用可能な位置と
は、前の索引記号の展開から得られる最後の文字を受け
取った位置のすぐ後の位置であり、現索引記号が展開す
べき最初の索引記号である場合は、宛先オペランドの始
めとなる。

【０２２０】ＰＳＬは、０でない場合、その項目を先行
あり項目として識別する。その場合、ＰＳＬは１ないし
５となり、項目中のＥＣの数を示す。その項目は、ＣＳ
ＬではなくＰＰＴＲを含み、１バイトのオフセット（Ｏ
ＦＳＴ）フィールドを含む。その項目が索引記号または
ＰＰＴＲで指定されるとき、項目中のＥＣが、宛先オペ
ランド中に、そのアドレスが次に利用可能な位置のアド
レスとＯＦＳＴの和である位置から順に配置されてい
く。次に、項目中のＰＰＴＲを使用して、先行項目にア
クセスする。この先行項目は、別の先行あり項目または
先行なし項目とすることができる。

【０２２１】いくつかの先行あり項目へのアクセス、次
いで先行なし項目へのアクセスによって索引記号を展開
するとき、その辞書が論理的に正しいものとすると、各
エントリ中のＥＣが、先行項目のために配置されたＥＣ
に隣接しその左側にある宛先オペランド中に配置され
る。しかし、辞書が論理的に正しくないかどうかの検査
は行われない。辞書が正しくない場合、宛先オペランド
中にギャップができたり、文字が重なることがある。

【０２２２】索引記号が先行なし項目を指定するとき、
その項目中のＣＳＬは、次の索引記号を展開するため
に、宛先オペランド中の次に利用可能な位置が前に進め
られる量である。索引記号が先行あり項目を指定すると
き、その第１の先行あり項目中のＰＳＬとＯＦＳＴの和
が、次の索引記号のために次に利用可能な位置が前に進
められる量である。以後の先行あり項目中のＰＳＬおよ
びＯＦＳＴと、最後の先行なし項目中のＣＳＬは、この
前進量の計算には関与しない。

【０２２３】第１の（または任意の）先行あり項目は最
大５のＰＳＬと最大２５５のＯＦＳＴを含むことができ
るので、索引記号に対応する文字記号の最大長は２６０
文字である。

【０２２４】展開プロセス−図３３：図３０および３１
の場合と同様、図３３では、索引記号を単に索引と呼
ぶ。ここでは、図３０および３１の記載の形式に通暁し
ているものとする。

【０２２５】（１）で、Ｒ２＋１中の発信元オペランド
長とＣＢＮを、発信元オペランドに少なくとももう１つ
の索引記号が含まれるかどうか試験する。含まれていな
い場合、ＣＣ０がセットされ、実行は終了する。

【０２２６】ステップ７１で、次の索引記号が２５６よ
り小さな値を持つかどうか試験する。２５６未満の値を
持つ場合、この索引記号がアルファベット項目を指定し
ていることが分かり、制御はステップ７２に移る。

【０２２７】ステップ７２で、Ｒ１＋１中の宛先オペラ
ンド長を、宛先オペランドに少なくとも１つの文字位置
が残っているかどうか試験する。残っていない場合、Ｃ
Ｃ１がセットされ、実行は終了する。残っている場合、
ステップ７３で、索引記号の１番右の８ビットを、Ｒ１
で指定される位置に展開済みデータの文字として配置す
る。１がＲ１に加算され、Ｒ１＋１から減算される。Ｒ
２、Ｒ２＋１、およびＣＢＮが、図３０の制御点（９）
に関する説明と同様に更新され、制御は（１）に移る。

【０２２８】索引記号が２５５を上回るときステップ７
４に達し、ステップ７４で、索引記号を使用して辞書項
目にアクセスする。その後、この辞書項目は現項目と呼
ばれる。

【０２２９】ステップ７５で、現項目中の部分記号長
（ＰＳＬ）が０であるかどうか試験する。０である場
合、その項目は先行なし項目であることが分かり、制御
はステップ７６に移る。

【０２３０】ステップ７６で、現項目から完全記号長
（ＣＳＬ）を取り出し、次いで宛先オペランド中にＣＳ
Ｌ文字位置が残っているかどうか試験する。残っていな
い場合、ＣＣ１がセットされ、実行は終了する。残って
いる場合、ステップ７７で、その項目からＣＳＬＥＳ
を取り出し、それを宛先オペランド中にＲ１中のアドレ
スから順に配置していき、レジスタを更新し、制御が
（１）に移る。

【０２３１】ＰＳＬが非ゼロであり、先行あり項目を示
すとき、ステップ７８に達する。この項目は第１の先行
あり項目なので、（記号長を表す）ＳＹＭＬＥＮという
変数が、項目中のＰＳＬおよびＯＦＳＴの和で設定され
る。

【０２３２】ステップ７９で、宛先オペランド中にＳＹ
ＭＬＥＮ文字位置が残っているかどうか試験する。残っ
ていない場合、ＣＣ１がセットされ、実行は終了する。
残っている場合、ステップ８０で、その項目からＰＳＬ
ＥＣを取り出し、それを宛先オペランド中にＲ１中の
アドレスとＯＦＳＴを加えた位置から順に配置してい
く。ステップ８０では次に、項目中の先祖ポインタ（Ｐ
ＰＴＲ）を使用して、ＰＰＴＲが指定する項目にアクセ
スし、その後その新規にアクセスされた項目が、この説
明では現項目になる。

【０２３３】ステップ８１で、新規の現項目中のＰＳＬ
が０であるかどうか試験する。０である場合、ステップ
８２で項目からＣＳＬＥＣを取り出し、それをＲ１中
のアドレスから順に配置していく。ステップ８２では次
に、レジスタを更新し、制御が（１）に移る。具体的に
は、ステップ８２でＲ１にＳＹＭＬＥＮが加算され、Ｒ
１＋１からＳＹＭＬＥＮが減算される。

【０２３４】ステップ８３で、項目からＰＳＬＥＣを
取り出し、それをＲ１中のアドレスとＯＦＳＴを加えた
位置から順に配置していく。ＳＹＭＬＥＮが変更されな
いことに留意されたい。ステップ８３では次に、項目中
のＰＰＴＲを使用して、新規の現項目にアクセスした
後、制御がステップ８１に移る。

【０２３５】ステップ８０およびステップ８３に関する
注で示したように、ＰＰＴＲが２５６より小さな場合、
指定された項目を先行なし項目とみなすことができ、そ
の項目にアクセスすることによってＥＣを取り出す代わ
りに、ＰＰＴＲの１番右の８ビットがその項目中のＥＣ
として使用される。

【０２３６】繰返し文字を圧縮するための辞書−図３
４：図３４は、別個の辞書に関する圧縮プロセスおよび
展開プロセスをさらに理解するうえで役立ち、また項目
に複数のＡＥＣを含めることができ、親中のＣＣを同一
にすることができるという本願発明の規定が、同一の文
字が繰り返される、多数の異なる長さの文字列を圧縮す
る際にどのように有益かを示している。図３４では例と
して文字Ａが選択されている。８つのゼロ・ビットと空
白文字から構成される文字の方が重要であるが、印刷が
不可能であり、例示するのが容易でない。

【０２３７】図３４に、圧縮用辞書内の一定の索引位置
と、展開用辞書内の同一の索引位置を表したものであ
る。文字Ａは１０進値が１９３なので、索引位置１９３
におけるＡのアルファベット項目が示されている。他の
アルファベット項目は示されていない。Ａの子孫は索引
位置２５６から示されている。索引位置２５６は、アル
ファベット項目の後の最初の位置である。

【０２３８】圧縮用辞書に示されている項目にはＣＣよ
り多くの子を持つものがないので、図３４にはＭビット
は示されていない。

【０２３９】以下は、圧縮用辞書の項目を理解するため
の説明である。

【０２４０】項目１９３は、５であるＣＣＴ、１１１１
０である５つの対応するＸビット、０であるＤ、２５６
であるＣＰＴＲ、およびそれぞれ値Ａを持つ５つのＣＣ
を有するものとして示されている。

【０２４１】項目２５６は、１であるＣＣＴ、１である
１つの対応するＸビット、４であるＡＣＴ、２６１であ
るＣＰＴＲ、それぞれ値Ａを持つ４つのＡＥＣ、および
値Ａを持つ１つのＣＣを有するものとして示されてい
る。

【０２４２】項目２５７は、０であるＣＣＴ、３である
ＡＣＴ、それぞれ値Ａを持つ３つのＡＥＣを有し、Ｘビ
ット、ＣＰＴＲ、ＣＣを有さないものとして示されてい
る。

【０２４３】項目１９３、２５６、２５７についての以
上の説明から、圧縮用辞書の残りの項目は自明である。

【０２４４】圧縮用辞書の後の２つの列は辞書の一部で
はない。これらの列には、辞書項目に関する情報だけが
含まれる。圧縮辞書項目の後の最初の列の数は、その項
目（および同一の番号の展開辞書項目）で表されるＡの
数であり、第２の列の数は、圧縮辞書項目の突合せを行
うのに必要な記憶域参照の回数である。たとえば、入力
文字列がＡＡＡＡＡＢである場合、突合せプロセスは次
の手順から構成される。（１）文字列中に第１のＡがあ
るため項目１９３を参照する。（２）文字列中の第２の
Ａを項目１９３中の第１のＣＣＡと突き合わせ、次い
で項目２５６を参照し、文字列中に残っているＡＡＡＢ
が項目２５６中のＡＥＣＡＡＡＡと一致しないことを
確認する。（３）文字列中の第２のＡを項目１９３中の
第２のＣＣＡと突き合わせ、次いで項目２５７を参照
し、文字列中に残っているＡＡＡＢのＡＡＡが項目２５
７のＡＥＣＡＡＡと一致することを確認する。（４）
項目２５７中のＣＣＴが０なので、文字列中に現在残っ
ているＢに一致が見られる可能性がなく、したがって項
目２５７に関する可能な突合せはそれが最後のものであ
ることを確認する。したがって、５つのＡを表す圧縮辞
書項目に関するこの最後の可能な突合せを見つける際
に、記憶域参照が３回行われた。

【０２４５】以下は、展開辞書項目を理解するための説
明である。

【０２４６】展開すべき索引記号が２７０であるものと
する。圧縮辞書項目の後の最初の列は、圧縮用辞書また
は展開用辞書中の項目２７０が１６個のＡを表すことを
示している。この情報は、本説明を理解する助けとなる
ものにすぎず、展開プロセスでは必要とされない。

【０２４７】展開用辞書中の項目２７０は、４であるＰ
ＳＬ、２６２であるＰＰＴＲ、それぞれ値Ａを持つ４つ
のＥＣ、１２であるＯＦＳＴを含み、ＣＳＬを含まな
い。

【０２４８】項目２６２は、５であるＰＳＬ、２６１で
あるＰＰＴＲ、それぞれ値Ａを持つ５つのＥＣ、７であ
るＯＦＳＴを含み、ＣＳＬを含まない。

【０２４９】項目２６１は、０であるＰＳＬ、７である
ＣＳＬ、それぞれ値Ａを持つ７つのＥＣを含み、ＰＰＴ
ＲとＯＦＳＴを含まない。

【０２５０】索引記号２７０の展開は次の手順から構成
される。（１）項目２７０を参照し、その項目からＡＡ
ＡＡを取り出し、それを宛先オペランド中の次に利用可
能な位置からオフセット１２の所に置く。（２）項目２
６２を参照し、その項目からＡＡＡＡＡを取り出し、そ
れを宛先オペランド中の次に利用可能な位置からオフセ
ット７の所に置く。（３）項目２６１を参照し、その項
目からＡＡＡＡＡＡＡを取り出し、それを宛先オペラン
ド中の次に利用可能な位置に置く。１６個のＡを圧縮す
るには８回の記憶域参照が必要であるが、拡張するには
３回だけでよいことに留意されたい。

【０２５１】圧縮用辞書の項目が、同一の文字が繰り返
される、多数の異なる長さの文字列が圧縮できる明白な
形の構造である場合、Ａのアルファベット項目が第２の
Ａを表す単一の子を持ち、その子が第３のＡを表す単一
の子を持ち、その子が第４のＡを表す単一の子を持ち、
以下同様となる。したがって、Ａの文字列を突き合わせ
るのに必要な記憶域参照の回数は、文字列中のＡの数に
等しくなる。

【０２５２】図３４の圧縮辞書項目の新規パターンによ
り、上述の明白なパターンの場合よりも圧縮時の記憶域
参照回数を減らすことができる。実際に、長い文字列の
限界では、記憶域参照の回数を６７％削減することがで
きる。たとえば、図３４では、１２個のＡを突き合わせ
るのに４回、１８個のＡを突き合わせるのに６回、２４
個のＡを突き合わせるのに８回の参照が必要であり、し
たがって参照の回数はＡの数の３３％である。

【０２５３】図３４のパターンについて以下に説明す
る。奇数レベルの親はＡＥＣを持たず５つの子を持ち、
それらの子供はそれぞれ４つ、３つ、２つ、１つ、０個
のＡＥＣを持つ。これらの子供は、親よりも５つないし
１つ多い文字を表す。偶数レベルの親は、奇数レベルの
親の第１の子であり、４つのＡＥＣおよび１つの子を持
つ。この子は、次の奇数レベルの親である。奇数レベル
の親の２番目ないし５番目の子は、子を持たない。図３
４では、項目１９３、２６１、２６７、２７３、２７９
が奇数レベルの親であり、項目２５６、２６２、２６
８、２７４が偶数レベルの親である。

【０２５４】上述のパターン方式では、奇数レベルの親
が６つ以上の子を持たないようにすることも、奇数レベ
ルの親の２番目ないし５番目の子が子を持たないように
することもできない。これらの追加の子はいずれも、同
一の繰返し文字以外も含むＺＬ文字列を形成するのに役
立つことがある。

【０２５５】短記号オプション−図３５、３６、３７図３５は、圧縮すべきデータが非常にランダムであるた
めに、その２つ以上の隣接文字のうち辞書中にＺＬ文字
列として出現する文字があまりないときに、使用するた
めに短記号オプションをどのように呼び出すことができ
るかを示す。この状態は、このデータの２つの隣接バイ
トが多数の異なる値を持つ可能性があるので、データが
２進データまたはパック１０進データであるときに生じ
る可能性が高い。

【０２５６】図３６は、短記号オプションを使用すると
き、索引記号の左にゼロ・ビットを置く手順を示してい
る。この結果を長記号と呼ぶ。索引記号は９ビットない
し１３ビットの任意の長さとすることができ、その際、
長記号の長さはそれぞれ１０ビットないし１４ビットと
なる。しかし、一般に、索引記号長が９ビットまたは１
０ビットの場合は短記号オプションは使用すべきではな
い。なぜなら、そうすると、先行ゼロ・ビットによって
スペースが大幅に使用され、圧縮度が下がる可能性があ
るからである。

【０２５７】短記号オプションを使用するとき、１文字
だけから成る文字記号を表す索引記号から長記号が作成
されることはない。その代わり、単一の未圧縮文字を短
記号と呼び、これをいわゆる短記号文字列中の出力圧縮
済みデータ中に置く。短記号文字列は４ビットの短記号
ヘッダで始まり、次に１つないし８つの短記号が続く。
このヘッダは、長記号と区別するためゼロ・ビットで始
まり、その後文字列中の短記号の数を示す３ビットのカ
ウント・フィールドを含む。このカウント・フィールド
が０の場合は１つの短記号を示し、１の場合は２つの短
記号を示し、以下同様である。

【０２５８】文字列に１つの短記号だけが含まれると
き、短記号文字列は圧縮度に対してほとんど効果を与え
ず、ときには悪影響を与える場合もある。短記号文字列
は、複数の短記号を含むときに効果が高くなる。たとえ
ば、図３７は、３つの短記号から成る短記号文字列が２
８ビットであることを示している。索引記号サイズが１
２ビットである場合、３つの索引記号は合計３６ビット
の長さを持ち、それに対応する３つの長記号は合計３９
ビットの長さを持つ。

【０２５９】以上で述べた実施例から抽出することので
きる発明には、以下のような態様がある。

【０２６０】（１）Ｚｉｖ−Ｌｅｍｐｅｌ（ＺＬ）圧縮
アルゴリズムを実施して比較的大規模なデータベース内
の任意の１つまたは複数の比較的小規模な未圧縮レコー
ドを圧縮することによりレコードの圧縮を改善する方法
において、前記データベースに前記ＺＬ圧縮アルゴリズ
ムを使用するコンピュータ・プログラムを適用すること
により、圧縮済みレコードを生成する前に、前記データ
ベース内のすべてのＺＬ文字列を辞書文字列として含む
静的圧縮辞書を事前に生成しておくステップと、別のコ
ンピュータ・プログラムを実行して、未圧縮レコード中
の一連の文字を前記辞書中の前記辞書文字列と突き合わ
せることにより、前記未圧縮レコード中のレコード文字
列を検出するステップと、前記辞書中の辞書文字列と突
き合わされるレコード文字列の、前記辞書内での終了位
置を表す索引記号を出力して、前記未圧縮レコードに対
応する圧縮済みレコードを提供するステップとにより、
前記データベース内の未圧縮レコードが変更されている
か否かにかかわらず、前記辞書を変更せずに、アクセス
された前記未圧縮レコードから前記圧縮済みレコードを
生成するステップとを含むレコード圧縮方法。

【０２６１】（２）前記コンピュータ・システムの記憶
装置に前記辞書を記憶するステップと、各辞書項目ごと
に、前記コンピュータ・システムの記憶装置からアクセ
ス可能な記憶装置アクセス・ユニットのサイズに等しい
固定サイズを選択するステップとをさらに含む（１）記
載のレコード圧縮方法。

【０２６２】（３）前記データベース内の各文字列を、
１または複数の辞書項目によって表される辞書文字列と
して構造化するステップであって、各前記項目は、前記
辞書文字列中の１または複数の対応する拡張文字（Ｅ
Ｃ）が割り当てられ、前記割り当てられたＥＣは、前記
辞書項目中に記録されることもされないこともあり、真
拡張文字（ＴＥＣ）と呼ばれる前記ステップと、辞書文
字列中の前記辞書項目を、２つ以上の項目によって表さ
れる任意の文字列の第１項目から連鎖または索引付けす
るステップとを含む（１）記載のレコード圧縮方法。

【０２６３】（４）子ＥＣに割り当てられた前記辞書項
目にアクセスせずに子文字（ＣＣ）からレコード文字列
を検出できるとき、前記圧縮済みレコードを生成するプ
ロセスにおける前記辞書の記憶装置へのアクセスを削減
するために、任意の辞書項目中で、同一の辞書文字列中
の辞書項目に割り当てられたＥＣの次に、子文字（Ｃ
Ｃ）と呼ばれる、１つまたは複数のＥＣの複製を作成す
るステップをさらに含む（３）記載のレコード圧縮方
法。

【０２６４】（５）レコード文字列中の第１の文字を表
す辞書項目から辞書に入り、未圧縮レコードから順次得
られる後続の各レコード文字またはレコード文字の文字
列を同一の辞書文字列中の後続の辞書項目と比較して前
記レコード文字列の終りを決定することにより、前記未
圧縮レコード中の各レコード文字列を検出するコンピュ
ータ・プログラムを実行し、前記辞書文字列中の最後の
前記項目を検出するか、あるいは前記辞書文字列中のＥ
Ｃと一致するレコード文字の後に続く次のレコード文字
と一致しない前記文字列中のＥＣを検出することにより
前記レコード文字列の終りを位置指定するステップをさ
らに含む（３）記載のレコード圧縮方法。

【０２６５】（６）前記事前生成ステップで辞書が提供
されて以降に、前記データベース内の１つまたは複数の
レコードが変更され、あるいは前記データベースに追加
された、データベース内の未圧縮レコードから、前記静
的圧縮辞書を使って、前記辞書をデータベースの変更に
適合させずに、レコードを圧縮及び展開するように設計
された辞書を使用する場合よりも速い速度で、前記圧縮
済みレコードを生成するステップをさらに含む（１）記
載のレコード圧縮方法。

【０２６６】（７）前記未圧縮レコードが変更された場
合でも、前記静的圧縮辞書を使って、前記辞書をデータ
ベースの変更に適合させずに、レコードを圧縮及び展開
するように設計された辞書を使用する場合よりも速い速
度で、前記未圧縮レコードを圧縮するステップをさらに
含む（１）記載のレコード圧縮方法。

【０２６７】（８）前記適応辞書を使用する場合には実
行できない方式でレコードを圧縮するために、前記デー
タベースを任意の順序で（レコードを取り出す順序と同
じランダムな順序、またはそれと異なるランダムな順序
で、あるいは順次に）走査することによって、前記静的
圧縮辞書が事前に生成された場合でも、該辞書を使っ
て、前記データベースからランダムな順序で取り出され
た前記未圧縮レコードを圧縮するステップをさらに含む
（１）記載のレコード圧縮方法。

【０２６８】（９）前記静的圧縮辞書を、同一の辞書文
字列を含む静的展開辞書と関連付けるステップと、レコ
ードを圧縮及び展開するように設計された辞書を使用す
る場合よりも速い速度でレコードを展開するために、圧
縮済みレコード中の索引記号を使って展開辞書にアクセ
スして、前記索引記号で表される文字列を取り出すこと
により、前記圧縮辞書を使って圧縮された圧縮済みレコ
ードを展開するステップとをさらに含む（１）記載のレ
コード圧縮方法。

【０２６９】（１０）前記静的圧縮辞書と関連付けられ
た送信装置と、静的展開辞書と関連付けられた受信装置
とを有する伝送ネットワークを提供するステップと、辞
書を伝送せずに、前記伝送ネットワークを介して前記送
信装置から受信装置に圧縮済みレコードを伝送するステ
ップとをさらに含む（９）記載のレコード圧縮方法。

【０２７０】（１１）前記静的圧縮辞書を使って圧縮済
みレコードを生成した後、記憶媒体内の前記データベー
スに各圧縮済みレコードを記憶するステップと、前記記
憶媒体内のデータベースから圧縮済みレコードにアクセ
スするステップと、前記静的展開辞書を使って、レコー
ドを圧縮及び展開するように設計された辞書を使用する
場合よりも速い速度で、レコードを展開するステップと
をさらに含む（９）記載のレコード圧縮方法。

【０２７１】（１２）それぞれ辞書文字列中に１または
複数の先祖ＥＣを有する子ＥＣを前記辞書文字列中に有
する次の辞書項目を位置指定するために、前記辞書文字
列の少なくとも第１の項目に子ポインタを記憶するステ
ップをさらに含む（３）記載のレコード圧縮方法。

【０２７２】（１３）第１の辞書項目で表されるアルフ
ァベットＥＣの値によって示される位置に各辞書文字列
の各第１辞書項目を位置指定し、前記各第１辞書項目を
前記アルファベット項目として指定し、他のすべての辞
書項目を非アルファベット項目として指定するが、各ア
ルファベット項目の位置が、割り当てられたアルファベ
ットＥＣと関連付けられているために、どの前記アルフ
ァベット項目中にもＥＣを必要としないステップをさら
に含む（１２）記載のレコード圧縮方法。

【０２７３】（１４）前記静的圧縮辞書を、ＥＣおよび
制御フィールドを含む固定長項目を伴う構造にする構造
化ステップをさらに含む（１３）記載のレコード圧縮方
法。

【０２７４】（１５）同一の辞書文字列中の直接の先祖
項目中の子ポインタによって前記非アルファベット辞書
項目を位置指定するステップをさらに含む（１４）記載
のレコード圧縮方法。

【０２７５】（１６）前記構造化ステップが、前記非ア
ルファベット項目中の前記制御フィールドを、前記項目
に割り当てられた真ＥＣの数を示すＥＣカウント表示を
伴う構造にするステップをさらに含む（１４）記載のレ
コード圧縮方法。

【０２７６】（１７）前記構造化ステップが、前記アル
ファベット項目または非アルファベット項目の前記制御
フィールドを、親項目に割り当てられたＥＣの後に続
く、辞書文字列中の文字である子ＥＣ（ＣＣ）をいつ前
記親項目が含むかを示す子標識を含む親辞書項目（親項
目）として構造化し、それによって、前記ＣＣに割り当
てられた前記子辞書項目への追加のアクセスなしで、レ
コード文字列の終りを検出できるようにすることによ
り、前記ＣＣが前記辞書内のレコード文字列の検出効率
を向上できるようにするステップをさらに含む（１４）
記載のレコード圧縮方法。

【０２７７】（１８）前記親項目中に含まれるＣＣの数
を示すカウント標識を前記親項目中に置き、各ＣＣが、
関連する子項目に割り当てられた第１のＥＣであるか、
または関連する子項目に割り当てられた１組の第１ＥＣ
であることを事前決定しあるいは項目中で指示するステ
ップをさらに含む（１７）記載のレコード圧縮方法。

【０２７８】（１９）１つまたは複数の子辞書項目（子
項目）を有する子リストを含む、前記親項目の前記子辞
書項目を提供するステップと、前記子リスト中の第１の
子項目に対して所定の位置に、前記子リスト中の各前記
子項目を位置指定するステップと、前記親項目中の各Ｃ
Ｃを前記子リスト中の当該の子項目と関連付けられるよ
うに割り当てるステップとをさらに含む（１８）に記載
のレコード圧縮方法。

【０２７９】（２０）辞書内の前記子リストを前記親項
目中の子ポインタ・フィールドによって位置指定するス
テップをさらに含む（１９）記載のレコード圧縮方法。

【０２８０】（２１）現在検出中のレコード文字列用の
索引記号を生成するために、子ポインタと、辞書文字列
中のＥＣと突き合わされる次のレコード文字と一致する
親項目中の関連ＣＣの位置とから、子辞書項目の位置を
算出するステップをさらに含む（２０）記載のレコード
圧縮方法。

【０２８１】（２２）親項目の制御フィールド中のmore
-children標識をオンにセットして、前記親項目内に含
まれる前記ＣＣの数よりも多くの前記子項目が前記親項
目の前記子リスト中にあることを示すステップをさらに
含む（１９）記載のレコード圧縮方法。

【０２８２】（２３）同一のＣＣを使用して、ＥＣに割
り当てられた子項目で一致が見つかった場合、ＥＣはす
でに分かっているので、割り当てれらたＥＣが親項目の
ＣＣであるとき、前記圧縮辞書項目から、割り当てられ
たＥＣを省略するステップをさらに含む（１７）記載の
レコード圧縮方法。

【０２８３】（２４）子検査標識を親項目中のＣＣと関
連付けて、ＣＣが現レコード文字と一致するとき、他の
辞書項目にアクセスする必要なく、ＣＣが辞書文字列を
終了する（したがって、レコード文字列の終りを検出す
る）かどうかを示すステップをさらに含む（１７）記載
のレコード圧縮方法。

【０２８４】（２５）子が指定ＣＣ以外に割り当てられ
たＥＣを持たず、かつそれ自体の子を持たないことが事
前決定されているとき、それ以上突合せプロセスを続行
できないので、関連する子項目（子）へのアクセスが必
要でないことを示すように、ＣＣと関連する子検査標識
を設定するステップ、または子が指定ＣＣ以外に割り当
てられたＥＣを持ち、あるいはそれ自体の子を持つこと
が事前決定されているとき、子に真の一致が見られるか
否か、あるいは突合せプロセスが続行できないかどうか
分からないので、子へのアクセスが必要であることを示
すように、子検査標識を設定するステップをさらに含む
（２４）記載のレコード圧縮方法。

【０２８５】（２６）more-children標識を含む前記親
項目（親）の下にある前記子リスト中の前記子項目
（子）中に、前記親中の利用可能なスペースに親中のＣ
Ｃと区別するために兄弟文字（ＳＣ）と呼ばれるその当
該の各識別ＣＣを含めることができない、同一の親の子
供と関連するＣＣを置き、各ＳＣが前記同一の親の関連
する子に割り当てられた第１のＥＣであるか、または前
記同一の親の関連する子に割り当てられた１組の第１Ｅ
Ｃであることが事前決定され、あるいは項目中で指示さ
れており、それによって、前記ＳＣに割り当てられた前
記子辞書項目への追加のアクセスなしで、前記レコード
文字列の終りを検出できるようにすることにより、前記
ＳＣが前記辞書内の前記レコード文字列の検出効率を向
上できるようにするステップと、前記子項目に含まれる
ＳＣの数を示すカウント標識を前記子項目中に置くステ
ップと、ＳＣを含む前記子項目中の各ＳＣを、前記子リ
スト中の当該の子項目と関連付けられるように割り当て
るステップとをさらに含む（２２）記載のレコード圧縮
方法。

【０２８６】（２７）ＳＣを含む子項目を、親中に含ま
れる最後のＣＣによって指定される子項目の位置に対し
て所定の方式で位置指定するステップをさらに含む（２
６）記載のレコード圧縮方法。

【０２８７】（２８）現在検出中のレコード文字列用の
索引記号を生成するために、ＳＣを含む第１の子項目の
位置と、辞書文字列中のＥＣと突き合わされる次のレコ
ード文字と一致する第１の子項目中の関連するＳＣの位
置とから、第２の子項目の位置を算出するステップをさ
らに含む（２７）記載のレコード圧縮方法。

【０２８８】（２９）ＳＣを含む子項目の制御フィール
ド中のmore-siblings標識をオンにセットして、子項目
が、子項目内に含まれるよりも多くのＳＣを有すること
を示すステップと、ＳＣを含む第１の子項目中の最後の
ＳＣによって指定される子項目の位置に対して所定の位
置に、上記の追加ＳＣを含む別の子項目を置くステップ
とをさらに含む（２７）記載のレコード圧縮方法。

【０２８９】（３０）同一のＳＣを使用して、ＥＣに割
り当てられた子項目に一致が見つかった場合、ＥＣはす
でに分かっているので、同一の子リスト中の別の子項目
中の同一のＳＣによって位置指定された子項目から、割
り当てられたＥＣを省略するステップをさらに含む（２
６）記載のレコード圧縮方法。

【０２９０】（３１）子検査標識を子項目中のＳＣと関
連付けて、ＳＣが現レコード文字と一致するとき、他の
辞書項目にアクセスする必要なしに、ＳＣが辞書文字列
を終了する（したがって、レコード文字列の終りを検出
する）かどうかを示すステップをさらに含む（２６）記
載のレコード圧縮方法。

【０２９１】（３２）子が指定ＳＣ以外に割り当てられ
たＥＣを持たず、かつそれ自体の子を持たないことが事
前決定されているとき、それ以上突合せプロセスが続行
できないので、関連する子項目（子）へのアクセスが必
要でないことを示すように、ＳＣと関連する子検査標識
を設定するステップ、または子が指定ＳＣ以外の割り当
てられたＥＣを持ち、あるいはそれ自体の子を持つこと
が事前決定されているとき、子に真の一致が見られるか
否か、あるいは突合せプロセスが続行できないかどうか
分からないので、子へのアクセスが必要であることを示
すように、子検査標識を設定するステップをさらに含む
（３１）記載のレコード圧縮方法。

【０２９２】（３３）more-children標識を含む親項目
（親）の下にある子リスト中に、前記アルファベット項
目でも非アルファベット項目でもなく、前記親中の利用
可能なスペースに、前記親中のＣＣと区別するために兄
弟文字（ＳＣ）と呼ばれるその当該の各識別ＣＣを含め
ることができない、前記同一の親の子項目（子）と関連
するＣＣを含む、兄弟記述子（ＳＤ）と呼ばれる項目を
置き、各ＳＣが前記同一の親の関連する子項目（子）に
割り当てられた前記第１のＥＣであるか、または前記同
一の親の関連する子に割り当てられた１組の前記第１Ｅ
Ｃであることが事前決定され、あるいは前記ＳＤ中で指
示されており、それによって、前記ＳＣに割り当てられ
た前記子辞書項目への追加アクセスなしで、レコード文
字列の終りを検出できるようにすることにより、前記Ｓ
Ｃが前記辞書内のレコード文字列の検出効率を向上でき
るようにするステップと、前記ＳＤに含まれるＳＣの数
を示すカウント標識を前記ＳＤ中に置くステップと、前
記ＳＤ中の各ＳＣを、前記子リスト中の当該の子項目と
関連付けられるように割り当てるステップとをさらに含
む（２２）記載のレコード圧縮方法。

【０２９３】（３４）前記ＳＤを、親内に含まれる最後
のＣＣによって指定される子項目の位置に対して所定の
方式で位置指定するステップをさらに含む（３３）記載
のレコード圧縮方法。

【０２９４】（３５）現在検出中のレコード文字列用の
索引記号を生成するために、ＳＣを含むＳＤの位置と、
辞書文字列中のＥＣと突き合わされる次のレコード文字
と一致するＳＤ中の関連するＳＣの位置とから、子項目
の位置を算出するステップをさらに含む（３４）記載の
レコード圧縮方法。

【０２９５】（３６）ＳＤの制御フィールド中のmore-s
iblings標識をオンにセットして、ＳＤが、ＳＤ内に含
まれるよりも多くのＳＣを有することを示すステップ
と、第１のＳＤ中の最後のＳＣによって指定される子項
目の位置に対して所定の位置に、上記の追加ＳＣを含む
別のＳＤを置くステップとをさらに含む（３４）記載の
レコード圧縮方法。

【０２９６】（３７）同一のＳＣを使用して、ＥＣに割
り当てられた子項目に一致が見つかった場合、ＥＣはす
でに分かっているので、同一の子リスト中のＳＤ中の同
一のＳＣによって位置指定された子項目から、割り当て
られたＥＣを省略するステップをさらに含む（３３）記
載のレコード圧縮方法。

【０２９７】（３８）子検査標識をＳＤ中のＳＣと関連
付けて、ＳＣが現レコード文字と一致するとき、他の辞
書項目にアクセスする必要なしに、ＳＣが辞書文字列を
終了する（したがって、レコード文字列の終りを検出す
る）かどうかを示すステップをさらに含む（３３）記載
のレコード圧縮方法。

【０２９８】（３９）子が指定ＳＣ以外に割り当てられ
たＥＣを持たず、かつそれ自体の子を持たないことが事
前決定されているとき、それ以上突合せプロセスが続行
できないので、関連する子項目（子）へのアクセスが必
要でないことを示すように、ＳＣと関連する子検査標識
を設定するステップ、または子が指定ＳＣ以外の割り当
てられたＥＣを持ち、あるいはそれ自体の子を持つこと
が事前決定されているとき、子に真の一致が見られるか
どうか、あるいは突合せプロセスが続行できないかどう
かが分からないので、子へのアクセスが必要であること
を示すように、子検査標識を設定するステップをさらに
含む（３８）記載のレコード圧縮方法。

【０２９９】（４０）アルファベット項目または非アル
ファベット項目が占めることのできる圧縮辞書内だけの
スペースにＳＤを置くステップと、展開辞書内のこのス
ペースが、アルファベット項目または非アルファベット
項目を含む、圧縮辞書内の位置に対応せず、展開走査時
に未圧縮レコードを再構築するために使用されるＥＣを
含むことができないため、該スペースが普通なら無駄に
なるので、圧縮辞書内のＳＤの位置と同一の展開辞書内
の位置にもＳＤを置くステップとをさらに含む（３３）
記載のレコード圧縮方法。

【０３００】（４１）辞書項目における終了の指示が、
辞書文字列の終りであることを示すとき、辞書項目内の
すべてのＥＣがレコード文字と一致するとき、レコード
文字列を検出するステップをさらに含む（１）記載のレ
コード圧縮方法。

【０３０１】（４２）比較的大規模なデータベースの対
応する未圧縮レコードを再構築するために、（５）記載
の方法によって生成される圧縮済みレコードを展開する
ための圧縮済みレコード展開方法であって、ＺＬアルゴ
リズムを使用するコンピュータ・プログラムを、前記圧
縮辞書の構築に使用するデータベースに適用することに
よって、前記データベースの未圧縮レコードを再構築す
る前に、静的展開辞書を事前生成しておき、前記圧縮辞
書内の辞書文字列に対応する辞書文字列を表す辞書項目
を前記展開辞書内で構築するステップと、圧縮済みレコ
ード中にありかつ未圧縮レコード中のレコード文字列を
表す各索引記号と関連する１つまたは複数の展開辞書項
目を見つけることによって、前記索引記号を検出する別
のコンピュータ・プログラムを実行するステップと、見
つかった展開辞書項目から各索引記号で表される各レコ
ード文字列用の文字にアクセスするステップと、圧縮済
みレコードから入力される各索引記号用の前記アクセス
された文字を出力して、対応する未圧縮レコードを再構
築するステップとによって、前記圧縮辞書および前記展
開辞書が事前生成された後に変更された未圧縮レコード
からデータベース内の圧縮済みレコードが生成されたか
どうかにかかわらず、前記展開辞書を変更せずに、入力
された圧縮済みレコードから未圧縮レコードを再生成す
るステップとを含む圧縮済みレコード展開方法。

【０３０２】（４３）コンピュータ・システムの記憶域
に辞書を記憶するステップと、コンピュータ・システム
の記憶域からアクセス可能な記憶域アクセス・ユニット
のサイズと等しい、各辞書項目の固定サイズを選択する
ステップとをさらに含む（４２）記載の圧縮済みレコー
ド展開方法。

【０３０３】（４４）展開中の圧縮済みレコードが、静
的展開辞書が事前生成された後に変更された対応する未
圧縮レコードを表す場合でも、同一の静的展開辞書を使
用してデータベースの圧縮済みレコードを展開し、した
がって、静的展開辞書を対応する未圧縮レコードに適合
させる必要のないステップをさらに含む（４２）記載の
圧縮済みレコード展開方法。

【０３０４】（４５）適応辞書を使用しては実行できな
い方式でレコードを圧縮し展開するために、データベー
スを任意の順序で（データベースから取り出した順序と
同じランダムな順序、またはそれと異なるランダムな順
序で、あるいは順次に）走査することにより、静的展開
辞書が事前生成された場合でも、静的展開辞書を使用し
て、データベースからランダムな順序で取り出された圧
縮済みレコードを展開するステップをさらに含む（４
２）記載の圧縮済みレコード展開方法。

【０３０５】（４６）適応辞書を使用しては実行できな
い方式でレコードを圧縮しかつ展開するためにデータベ
ースから任意の順序で（データベースから取り出した順
序と同じランダムな順序、またはそれと異なるランダム
な順序で、あるいは順次に）取り出した未圧縮レコード
を圧縮することによって圧縮済みレコードが生成された
場合でも、静的展開辞書を使用して、データベースから
ランダムな順序で取り出した圧縮済みレコードを展開す
るステップをさらに含む（４２）記載の圧縮済みレコー
ド展開方法。

【０３０６】（４７）データベース用に受信された圧縮
済みレコードを展開するために、ネットワークの受信端
で展開辞書を記憶するステップをさらに含む（４２）記
載の圧縮済みレコード展開方法。

【０３０７】（４８）ネットワークの受信端で静的展開
辞書を使用して圧縮済みレコードを展開し、各未圧縮済
みレコードの伝送と共に辞書を伝送することなしに、対
応する未圧縮レコードを生成するステップをさらに含む
（４２）記載の圧縮済みレコード展開方法。

【０３０８】（４９）索引記号で位置指定された前記項
目内に含まれるよりも多くの先祖文字が関連する前記辞
書文字列中に存在するとき、索引記号で位置指定された
前記項目に連鎖された、前記展開辞書内の１つまたは複
数の先祖辞書項目を提供するステップと、前記索引記号
で位置指定された前記項目中に、先祖項目によって表さ
れる１つまたは複数の先祖ＥＣを複製して、関連する先
祖項目にアクセスせずに、前記文字列中の先祖ＥＣを出
力できるようにするステップとをさらに含む（４２）記
載の圧縮済みレコード展開方法。

【０３０９】（５０）索引記号で位置指定された項目が
文字列中のすべての先祖ＥＣを含むことができないとき
に、文字列中の先祖項目の１つまたは複数の先祖ＥＣを
先祖項目中で複製して、他の先祖項目にアクセスせず
に、さらに先祖ＥＣを出力できるようにするステップを
さらに含む（４９）記載の圧縮済みレコード展開方法。

【０３１０】（５１）前記辞書文字列中に複数の先祖文
字が存在するとき、展開辞書内の一連の辞書項目のう
ち、第１先祖項目を除く各先祖辞書項目中に先祖ポイン
タ・フィールドを提供するステップをさらに含む（５
０）記載の圧縮済みレコード展開方法。

【０３１１】（５２）前記展開辞書項目中の記号長フィ
ールド（ＳＬ）を、その項目に割り当てられたＥＣから
その文字列を開始するＥＣまでの、辞書文字列中のＥＣ
の総数を示す構造にするステップと、現レコード文字列
用に出力される文字を受け取るためのスペースが出力バ
ッファ内に存在しているかどうかをＳＬから判定するス
テップとをさらに含む（４９）記載の圧縮済みレコード
展開方法。

【０３１２】（５３）対応する未圧縮レコード中で必要
なＥＣシーケンスと逆の順序である連鎖順序で、アクセ
スされる連鎖展開辞書項目から、索引記号で位置指定さ
れたレコード文字列用のＥＣを出力するステップと、未
圧縮レコード中で必要な順序にＥＣが並ぶ順序で、アク
セスされる展開辞書項目の連鎖から出力されるＥＣを、
出力バッファ内に記録するステップと、対応する未圧縮
レコード中で必要なシーケンスで、各項目内のＥＣを選
択するステップとをさらに含む（５２）記載の圧縮済み
レコード展開方法。

【０３１３】（５４）展開プロセスのために文字列中の
すべてのＥＣを取り出すために先祖項目への追加アクセ
スが必要でないことを示すために、関連するレコード文
字列のすべてのＥＣ（項目に割り当てられたＥＣと先祖
ＥＣ）が項目中に含まれるかどうかを項目中で示すステ
ップをさらに含む（５２）記載の圧縮済みレコード展開
方法。

【０３１４】（５５）展開辞書項目中のオフセット・フ
ィールドを、先祖項目からさらにＥＣを取り出すとき、
出力バッファ内の現カーソル位置から順に未圧縮レコー
ドが作成されるように、項目に割り当てられたＥＣと項
目中の先祖ＥＣが配置される、出力バッファ内の現カー
ソル位置に対する位置を示す構造にするステップをさら
に含む（４９）記載の圧縮済みレコード展開方法。

【０３１５】（５６）対応する未圧縮レコード中で必要
なＥＣシーケンスと逆の順序である連鎖順序で、アクセ
スされる連鎖展開辞書項目から、索引記号で位置指定さ
れたレコード文字列のＥＣを出力するステップと、未圧
縮レコード中で必要な順序にＥＣが並ぶ順序で、アクセ
スされる展開辞書項目の連鎖から出力されるＥＣを、出
力バッファ内に記録するステップと、対応する未圧縮レ
コード中で必要なシーケンスで、各項目内のＥＣを選択
するステップとをさらに含む（５５）記載の圧縮済みレ
コード展開方法。

【０３１６】（５７）展開プロセスのために文字列中の
すべてのＥＣを取り出すために先祖項目への追加アクセ
スが必要でないことを示すために、関連するレコード文
字列のすべてのＥＣ（項目に割り当てられたＥＣと先祖
ＥＣ）が項目中に含まれるかどうかを項目中で示すステ
ップをさらに含む（５５）記載の圧縮済みレコード展開
方法。

【０３１７】（５８）関連するレコード文字列のすべて
のＥＣが項目中に含まれているわけでないことが項目中
ですでに示されているときに、項目から取り出して出力
バッファ内に置くべきＥＣの数（項目に割り当てられた
ＥＣと先祖ＥＣ）を項目中で示すステップをさらに含む
（５７）記載の圧縮済みレコード展開方法。

【０３１８】（５９）記号が真に辞書項目を指定する索
引記号であるかどうか、あるいは、記号が、ＺＬ圧縮の
使用時に、辞書内で、良好な圧縮を提供するのに十分な
長さのＺＬ文字列によって表されなかったために、未圧
縮形式で現れる後続の該未圧縮文字の数のカウントを含
むかどうかを示す標識で、索引記号を展開するステップ
と、上記カウントによって示される未圧縮文字の数を圧
縮済みレコードから未圧縮レコードに移すことによっ
て、展開プロセス中に、この標識で索引記号を処理する
ステップとをさらに含む（１）記載のレコード圧縮方
法。

【０３１９】（６０）ＺＬ辞書文字列中の辞書項目を、
１つの割り当てられたＥＣおよび複数（Ｎ個）の子を持
つ第１の種類のレベルの項目と、１つまたは複数の割り
当てられたＥＣを持つが、必ずしも２つ以上の子を持た
ない第２の種類のレベルの項目との、２種類の交互のレ
ベルを持つ構造にするステップと、ここで定義する構造
にしなかった場合よりもアクセスする必要のある辞書項
目の数を減らすことによって、同一の文字が繰り返され
る、多数の異なる長さの文字列を圧縮する目的で、第２
の種類のレベルの項目を、さらに、そのレベルにある第
１の子がＮ個の割り当てられたＥＣを持ち、次の子がＮ
−１個の割り当てられたＥＣを持ち、その次の子がＮ−
２個の割り当てられたＥＣを持ち、以下同様にして最後
の子が１つの割り当てられたＥＣを持つ構造にするステ
ップとをさらに含む（３）記載のレコード圧縮方法。

【０３２０】（６１）Ｚｉｖ−Ｌｅｍｐｅｌ（ＺＬ）ア
ルゴリズムを使用して、比較的大規模なデータベース内
で未圧縮レコードを圧縮する方法と、圧縮済みレコード
を未圧縮レコードに展開する方法を組み合わせた方法で
あって、データベースに前記ＺＬアルゴリズムを使用す
るコンピュータ・プログラムを適用して、前記データベ
ース内のすべてのＺＬ文字列を辞書文字列として含む辞
書を前記データベースから生成することにより、前記デ
ータベースのレコードに対して圧縮操作と展開操作の両
方を実行するための辞書項目を含む静的辞書を事前に生
成するステップと、別のコンピュータ・プログラムを実
行して、未圧縮レコード中の一連の文字を前記辞書中の
前記辞書文字列と突き合わせることにより、前記未圧縮
レコード中のレコード文字列を検出するステップと、前
記辞書中の辞書文字列と突き合わされるレコード文字列
の、前記辞書内での終了位置を表す索引記号を出力し
て、前記未圧縮レコードに対応する圧縮済みレコードを
提供するステップとにより、前記データベース内の未圧
縮レコードが変更されているか否かにかかわらず、前記
辞書を変更せずに、アクセスされた未圧縮レコードから
圧縮済みレコードを生成するステップと圧縮済みレコー
ド中にありかつ未圧縮レコード中のレコード文字列を表
す各索引記号と関連する辞書項目を見つけることによっ
て、索引記号を検出する別のコンピュータ・プログラム
を実行するステップと、見つかった辞書項目から各索引
記号で表される各辞書文字列用の文字に前記アクセスす
るステップと、圧縮済みレコードから入力される各索引
記号用のアクセスされた文字を出力して、対応する未圧
縮レコードを再構築するステップとによって、前記辞書
が事前生成された後に変更された未圧縮レコードから前
記データベース内の圧縮済みレコードが生成されたかど
うかにかかわらず、前記辞書を変更せずに、入力された
圧縮済みレコードから未圧縮レコードを再生成するステ
ップとを含む前記方法。

【０３２１】（６２）コンピュータ・システムの記憶域
に辞書を記憶するステップと、各辞書項目ごとに、コン
ピュータ・システムの記憶域からアクセス可能な記憶域
アクセス・ユニットのサイズに等しい固定サイズを選択
するステップとをさらに含む（６１）記載のプロセスを
使用する方法。

【０３２２】（６３）前記データベース内の各文字列
を、各項目に前記辞書文字列中の１つまたは複数の当該
の拡張文字（ＥＣ）が割り当てられ、かつ前記割り当て
られたＥＣが前記辞書文字列の真拡張文字（ＴＥＣ）と
呼ばれる、１つまたは複数の辞書項目によって表される
辞書文字列として構造化するステップと、前記辞書中の
各辞書文字列中の前記辞書項目を順方向および逆方向に
連鎖するステップとをさらに含む（６１）記載のプロセ
スを使用する方法。

【０３２３】（６４）子ＥＣに割り当てられた辞書項目
にアクセスせずに子文字（ＣＣ）からレコード文字列を
検出できるとき、圧縮済みレコードを生成するためのプ
ロセスにおける辞書の記憶域アクセスを削減するため、
かつ辞書文字列から未圧縮レコードを再生成するプロセ
スにおける辞書の記憶域アクセスを削減するために、任
意の辞書項目中で、同一の辞書文字列中の辞書項目に割
り当てられたＥＣの後または前に、子文字（ＣＣ）と呼
ばれる、１つまたは複数のＥＣの複製を作成するステッ
プをさらに含む、（６３）記載のプロセスを使用する方
法。

【０３２４】（６５）レコード文字列中の第１の文字を
表す辞書項目に入り、未圧縮レコードから順次得られる
後続の各レコード文字またはレコード文字の文字列を同
一の辞書文字列中の後続の辞書項目と比較してレコード
文字列の終りを決定し、辞書文字列中の最後の項目を検
出するか、あるいは辞書文字列中のＥＣと一致するレコ
ード文字の後に続く次のレコード文字と一致しない辞書
文字列中のＥＣを検出することによって、レコード文字
列の終りを見つけることにより、未圧縮レコードにおけ
る各レコード文字列を検出するコンピュータ・プログラ
ムを実行するステップをさらに含む（６３）記載のプロ
セスを使用して圧縮済みレコードを生成する方法。

【０３２５】（６６）事前生成ステップで辞書が提供さ
れて以降に、データベース内の１つまたは複数のレコー
ドが変更され、あるいはデータベースに追加された、デ
ータベース内の未圧縮レコードから、静的辞書を使っ
て、レコード圧縮速度を高めるために辞書をデータベー
スの変更に適合させずに、圧縮済みレコードを生成する
ステップをさらに含む（６１）記載のプロセスを使用す
る方法。

【０３２６】（６７）未圧縮レコードが変更された場合
でも、静的辞書を使って、辞書をデータベースの変更に
適合させずに、未圧縮レコードを圧縮するステップをさ
らに含む（６１）記載のプロセスを使用する方法。

【０３２７】（６８）適応辞書を使用する場合には実行
できない方式でレコードを圧縮するために、データベー
スを任意の順序で（レコードを取り出した順序と同じラ
ンダムな順序、またはそれと異なるランダムな順序で、
あるいは順次に）走査することによって、静的辞書が事
前に生成された場合でも、該辞書を使って、データベー
スからランダムな順序で取り出された未圧縮レコードを
圧縮するステップをさらに含む（６１）記載のレコード
を圧縮する方法。

【０３２８】（６９）圧縮済みレコード中の索引記号を
使って辞書にアクセスして、未圧縮レコードを表す索引
記号で表される文字列を取り出すことにより、辞書を使
って圧縮された圧縮済みレコードを展開するステップと
をさらに含む（６１）記載のプロセスを使用する方法。

【０３２９】（７０）静的辞書を使って圧縮済みレコー
ドを生成した後、記憶媒体内のデータベースに各圧縮済
みレコードを記憶するステップと、記憶媒体内のデータ
ベースから圧縮済みレコードにアクセスするステップ
と、静的辞書を使って、適応型の辞書を使用する場合よ
りも速い速度で、レコードを展開するステップとをさら
に含む（６９）記載のプロセスを使用する方法。

【０３３０】（７１）それぞれ前記辞書文字列中に１つ
または複数の先祖ＥＣを有する子ＥＣを前記辞書文字列
中に有する次の辞書項目を位置指定するために、辞書文
字列の少なくとも第１の項目に子ポインタを記憶するス
テップをさらに含む（６３）記載のプロセスを使用する
方法。

【０３３１】（７２）第１の辞書項目で表されるアルフ
ァベットＥＣの値によって示される位置に各辞書文字列
の各第１辞書項目を位置指定し、各第１辞書項目をアル
ファベット項目として指定し、他のすべての辞書項目を
非アルファベット項目として指定するが、各アルファベ
ット項目の位置が、割り当てられたアルファベットＥＣ
と関連付けられているためにどのアルファベット項目中
にもＥＣを必要としないステップをさらに含む（７１）
記載のプロセスを使用する方法。

【０３３２】（７３）前記静的辞書を、ＥＣおよび制御
フィールドを含む固定長項目を含む構造にする構造化ス
テップをさらに含む（７２）記載のプロセスを使用する
方法。

【０３３３】（７４）同一の辞書文字列中の直接の先祖
項目中の子ポインタによって非アルファベット辞書項目
を位置指定するステップをさらに含む（７３）記載のプ
ロセスを使用する方法。

【０３３４】（７５）前記構造化ステップが、非アルフ
ァベット項目中の制御フィールドを、項目に割り当てら
れた真ＥＣの数を示すＥＣカウント指示を含む構造にす
るステップをさらに含む（７３）記載のプロセスを使用
する方法。

【０３３５】（７６）前記構造化ステップが、非アルフ
ァベット項目中で、制御フィールド中のカウント指示
を、同一の辞書文字列用の先祖ＥＳおよび割り当てられ
たＥＣを該項目がいつ含むかを示す構造にするステップ
と、制御フィールドによっても割り当てられたＥＣによ
っても使用されないスペースに項目の先祖ＥＣを記録す
るステップとをさらに含む（７３）記載のプロセスを使
用する方法。

【０３３６】（７７）前記構造化ステップが、アルファ
ベット項目または非アルファベット項目の前記制御フィ
ールドを、前記親項目に割り当てられたＥＣの後に続
く、辞書文字列中の文字である子ＥＣ（ＣＣと呼ぶ）を
いつ前記親項目が含むかを示す子標識を含む親辞書項目
（親項目）として構造化し、それによって、ＣＣに割り
当てられた前記子辞書項目への追加のアクセスなしで、
レコード文字列の終りを検出できるようにすることによ
り、ＣＣが前記辞書内のレコード文字列の検出効率を向
上できるようにするステップをさらに含む（７３）記載
のプロセスを使用する方法。

【０３３７】（７８）親項目中に含まれるＣＣの数を示
すカウント標識を親項目中に置き、各ＣＣが、関連する
子項目に割り当てられた第１のＥＣであるか、または関
連する子項目に割り当てられた１組の第１ＥＣであるこ
とを事前決定し、あるいは項目中で指示するステップを
さらに含む（７７）記載のプロセスを使用する方法。

【０３３８】（７９）１つまたは複数の子辞書項目（子
項目）を有する子リストを含む、親項目の子辞書項目を
提供するステップと、前記子リスト中の前記第１の子項
目に対して所定の位置に、前記子リスト中の各子項目を
位置指定するステップと、前記親項目中の各ＣＣを前記
子リスト中の当該の子項目に割り当てるステップとをさ
らに含む（７７）記載のプロセスを使用する方法。

【０３３９】（８０）前記辞書内の前記子リストを前記
親項目中の子ポインタ・フィールドによって位置指定す
るステップをさらに含む（７９）記載のプロセスを使用
する方法。

【０３４０】（８１）現在検出中のレコード文字列用の
索引記号を生成するために、子ポインタと、前記辞書文
字列中のＥＣと突き合わされる次のレコード文字と一致
する前記親項目中の関連ＣＣの前記位置とから、子辞書
項目の位置を算出するステップをさらに含む（８０）記
載のプロセスを使用する方法。

【０３４１】（８２）親項目の制御フィールド中のmore
-children標識をオンにセットして、前記親項目内に含
まれるＣＣの数よりも多くの子項目が前記親項目の子リ
スト中にあることを示すステップをさらに含む（７９）
記載のプロセスを使用する方法。

【０３４２】（８３）子検査標識を親項目中のＣＣと関
連付けて、ＣＣが現レコード文字と一致するときに、他
の辞書項目にアクセスする必要なく、ＣＣが辞書文字列
を終了する（したがって、レコード文字列の終りを検出
する）かどうかを示すステップをさらに含む（７７）記
載のレコード圧縮方法。

【０３４３】（８４）子が指定ＣＣ以外に割り当てられ
たＥＣを持たず、かつそれ自体の子を持たないことが事
前決定されているとき、それ以上突合せプロセスを続行
できないので、関連する子項目（子）へのアクセスが必
要でないことを示すように、ＣＣと関連する子検査標識
を設定するステップ、または子が指定ＣＣ以外に割り当
てられたＥＣを持ち、あるいはそれ自体の子を持つこと
が事前決定されているとき、子に真の一致が見られるか
否か、あるいは突合せプロセスが続行できないかどうか
分からないので、子へのアクセスが必要であることを示
すように、子検査標識を設定するステップをさらに含む
（８３）記載のレコード圧縮方法。

【０３４４】（８５）more-children標識を含む親項目
（親）の下にある子リスト中の子項目（子）中に、親中
の利用可能なスペースに、親中のＣＣと区別するために
兄弟文字（ＳＣ）と呼ばれるその当該の各識別ＣＣを含
めることができない、同一の親の子供と関連するＣＣを
置き、各ＳＣが同一の親の関連する子に割り当てられた
第１のＥＣであるか、または同一の親の関連する子に割
り当てられた１組の第１ＥＣであることが事前決定さ
れ、あるいは項目中で指示されており、それによって、
ＳＣに割り当てられた子辞書項目への追加のアクセスな
しで、レコード文字列の終りを検出できるようにするこ
とにより、ＳＣが辞書内のレコード文字列の検出効率を
向上できるようにするステップと、子項目に含まれるＳ
Ｃの数を示すカウント標識を子項目中に置くステップ
と、ＳＣを含む子項目中の各ＳＣを、子リスト中の当該
の子項目と関連付けられるように割り当てるステップと
をさらに含む（８２）記載のレコード圧縮方法。

【０３４５】（８６）ＳＣを含む子項目を、親中に含ま
れる最後のＣＣによって指定される子項目の位置に対し
て所定の方式で位置指定するステップをさらに含む（８
５）記載のレコード圧縮方法。

【０３４６】（８７）現在検出中のレコード文字列用の
索引記号を生成するために、ＳＣを含む第１の子項目の
位置と、辞書文字列中のＥＣと突き合わされる次のレコ
ード文字と一致する第１の子項目中の関連するＳＣの位
置とから、第２の子項目の位置を算出するステップをさ
らに含む（８６）記載のレコード圧縮方法。

【０３４７】（８８）ＳＣを含む子項目の制御フィール
ド中のmore-siblings標識をオンにセットして、子項目
が、子項目内に含まれるよりも多くのＳＣを有すること
を示すステップと、ＳＣを含む第１の子項目中の最後の
ＳＣによって指定される子項目の位置に対して所定の位
置に、追加ＳＣを含む別の子項目を置くステップとをさ
らに含む（８６）記載のレコード圧縮方法。

【０３４８】（８９）子検査標識を子項目中のＳＣと関
連付けて、ＳＣが現レコード文字と一致するとき、他の
辞書項目にアクセスする必要なしに、ＳＣが辞書文字列
を終了する（したがって、レコード文字列の終りを検出
する）かどうかを示すステップをさらに含む（８５）記
載のレコード圧縮方法。

【０３４９】（９０）子が指定ＳＣ以外に割り当てられ
たＥＣを持たず、かつそれ自体の子を持たないことが事
前決定されているとき、それ以上突合せプロセスが続行
できないので、関連する子項目（子）へのアクセスが必
要でないことを示すように、ＳＣと関連する子検査標識
を設定するステップ、または子が指定ＳＣ以外の割り当
てられたＥＣを持ち、あるいはそれ自体の子を持つこと
が事前決定されているとき、子に真の一致が見られるか
否か、あるいは突合せプロセスが続行できないかどうか
分からないので、子へのアクセスが必要であることを示
すように、子検査標識を設定するステップをさらに含む
（８９）記載のレコード圧縮方法。

【０３５０】（９１）more-children標識を含む親項目
（親）の下にある子リスト中に、アルファベット項目で
も非アルファベット項目でもなく、前記親中の利用可能
な前記スペースに、前記親中のＣＣと区別するために兄
弟文字（ＳＣ）と呼ばれるその当該の各識別ＣＣを含め
ることができない、前記同一の親の子項目（子）と関連
する前記ＣＣを含む、兄弟記述子（ＳＤ）と呼ばれる項
目を置き、各ＳＣが前記同一の親の関連する子項目
（子）に割り当てられた前記第１のＥＣであるか、また
は前記同一の親の関連する子に割り当てられた１組の第
１ＥＣであることが事前決定され、あるいはＳＤ中で指
示されており、それによって、ＳＣに割り当てられた前
記子辞書項目への追加アクセスなしで、レコード文字列
の終りを検出できるようにすることにより、ＳＣが前記
辞書内のレコード文字列の検出効率を向上できるように
するステップと、前記ＳＤに含まれるＳＣの数を示すカ
ウント標識を前記ＳＤ中に置くステップと、前記ＳＤ中
の各ＳＣを、前記子リスト中の当該の子項目と関連付け
られるように割り当てるステップとをさらに含む（８
２）記載のレコード圧縮方法。

【０３５１】（９２）ＳＤを、親中に含まれる最後のＣ
Ｃによって指定される子項目の位置に対して所定の方式
で位置指定するステップをさらに含む（９１）記載のレ
コード圧縮方法。

【０３５２】（９３）現在検出中のレコード文字列用の
索引記号を生成するために、ＳＣを含むＳＤの位置と、
辞書文字列中のＥＣと突き合わされる次のレコード文字
と一致するＳＤ中の関連するＳＣの位置とから、子項目
の位置を算出するステップをさらに含む（９２）記載の
レコード圧縮方法。

【０３５３】（９４）ＳＤの制御フィールド中のmore-s
iblings標識をオンにセットして、ＳＤが、ＳＤ内に含
まれるよりも多くのＳＣを有することを示すステップ
と、第１のＳＤ中の最後のＳＣによって指定される子項
目の位置に対して所定の位置に、上記の追加ＳＣを含む
別のＳＤを置くステップとをさらに含む（９２）記載の
レコード圧縮方法。

【０３５４】（９５）子検査標識をＳＤ中のＳＣと関連
付けて、ＳＣが現レコード文字と一致するとき、他の辞
書項目にアクセスする必要なしに、ＳＣが辞書文字列を
終了する（したがって、レコード文字列の終りを検出す
る）かどうかを示すステップをさらに含む（９１）記載
のレコード圧縮方法。

【０３５５】（９６）子が指定ＳＣ以外に割り当てられ
たＥＣを持たず、かつそれ自体の子を持たないことが事
前決定されているとき、それ以上突合せプロセスが続行
できないので、関連する子項目（子）へのアクセスが必
要でないことを示すように、ＳＣと関連する子検査標識
を設定するステップ、または子が指定ＳＣ以外の割り当
てられたＥＣを持ち、あるいはそれ自体の子を持つこと
が事前決定されているとき、子に真の一致が見られるか
どうか、あるいは突合せプロセスが続行できないかどう
かが分からないので、子へのアクセスが必要であること
を示すように、子検査標識を設定するステップをさらに
含む（９５）記載のレコード圧縮方法。

【０３５６】（９７）辞書項目における終了の指示が、
辞書文字列の終りであることを示すとき、辞書項目内の
すべてのＥＣがレコード文字と一致するとき、レコード
文字列を検出するステップをさらに含む（６１）記載の
レコード圧縮方法。

【０３５７】（９８）展開中の圧縮済みレコードが、静
的展開辞書を事前生成した後に変更された対応する未圧
縮レコードを表す場合でも、静的辞書を使用してデータ
ベースの圧縮済みレコードを展開することによって、静
的辞書を対応する未圧縮レコードに適合させなくて済む
ようにするステップをさらに含む（６１）記載のプロセ
スを使用する方法。

【０３５８】（９９）適応辞書を使用しては実行できな
い方式でレコードを圧縮し展開するために、データベー
スを任意の順序で（データベースから取り出した順序と
同じランダムな順序、またはそれと異なるランダムな順
序で、あるいは順次に）走査することにより、静的辞書
が事前生成された場合でも、静的辞書を使用して、デー
タベースからランダムな順序で取り出された圧縮済みレ
コードを展開するステップをさらに含む（６１）記載の
圧縮済みレコード展開方法。

【０３５９】（１００）適応辞書を使用しては実行でき
ない方式でレコードを圧縮し展開するために、データベ
ースから任意の順序で（データベースから取り出した順
序と同じランダムな順序、またはそれと異なるランダム
な順序で、あるいは順次に）取り出した未圧縮レコード
を圧縮することによって圧縮済みレコードが生成された
場合でも、静的辞書を使用して、データベースからラン
ダムな順序で取り出した圧縮済みレコードを展開するス
テップをさらに含む（６１）記載の圧縮済みレコード展
開方法。

【０３６０】（１０１）データベースのレコードを圧縮
および展開するために、ネットワークの受信端と送信端
で辞書を記憶するステップをさらに含む（６１）記載の
プロセスを使用する方法。

【０３６１】（１０２）ネットワークの受信端で静的展
開辞書を使用して圧縮済みレコードを展開し、各未圧縮
レコードの伝送と供に辞書を伝送することなしに、対応
する未圧縮レコードを生成するステップをさらに含む
（６１）記載のプロセスを使用する方法。

【０３６２】（１０３）索引記号で位置指定された項目
内に含まれるよりも多くの先祖ＥＣ（位置指定された項
目の先祖に割り当てられたＥＣ）が、関連する辞書文字
列中に存在するとき、索引記号で位置指定された項目に
連鎖された、辞書内の１つまたは複数の先祖辞書項目を
提供するステップと、索引記号で位置指定された項目中
に、先祖項目によって表される１つまたは複数の先祖Ｅ
Ｃを複製して、関連する先祖項目にアクセスせずに、文
字列中の先祖ＥＣを出力できるようにするステップをさ
らに含む（６１）記載のプロセスを使用する方法。

【０３６３】（１０４）索引記号で位置指定された項目
が文字列中のすべての先祖ＥＣを含むことができないと
きに、文字列中の先祖項目の１つまたは複数の先祖ＥＣ
を先祖項目中で複製して、他の先祖項目にアクセスせず
に、さらに先祖ＥＣを出力できるようにするステップを
さらに含む（１０３）記載のプロセスを使用する方法。

【０３６４】（１０５）辞書文字列中に複数の先祖文字
が存在するとき、展開辞書内の一連の辞書項目のうち、
第１先祖項目を除く各先祖辞書項目中に先祖ポインタ・
フィールドを提供するステップをさらに含む（１０４）
記載の圧縮済みレコード展開方法。

【０３６５】（１０６）辞書項目中の記号長フィールド
（ＳＬ）を、その項目に割り当てられたＥＣからその文
字列を開始するＥＣまでの、辞書文字列中のＥＣの総数
を示す構造にするステップと、現レコード文字列用に出
力される文字を受け取るためのスペースが出力バッファ
内に存在しているかどうかをＳＬから判定するステップ
とをさらに含む（６１）記載のプロセスを使用する方
法。

【０３６６】（１０７）対応する未圧縮レコード中で必
要なＥＣシーケンスと逆の順序である連鎖順序で、アク
セスされる連鎖辞書項目から、索引記号で位置指定され
たレコード文字列用のＥＣを出力するステップと、未圧
縮レコード中で必要な順序にＥＣが並ぶ順序で、アクセ
スされる辞書項目の連鎖から出力されるＥＣを、出力バ
ッファ内に記録するステップと、対応する未圧縮レコー
ド中で必要なシーケンスで、各項目内のＥＣを選択する
ステップとをさらに含む（１０６）記載のプロセスを使
用する方法。

【０３６７】（１０８）展開プロセスのために文字列中
のすべてのＥＣを取り出すために先祖項目への追加アク
セスが必要でないことを示すために、関連するレコード
文字列のすべてのＥＣ（項目に割り当てられたＥＣと先
祖ＥＣ）が項目中に含まれるかどうかを項目中で示すス
テップをさらに含む（１０６）記載のプロセスを使用す
る方法。

【０３６８】（１０９）辞書項目中のオフセット・フィ
ールドを、先祖項目からさらにＥＣを取り出すとき、出
力バッファ内の現カーソル位置から順に未圧縮レコード
が作成されるように、項目に割り当てられたＥＣと項目
中の先祖ＥＣが配置される、出力バッファ内の現カーソ
ル位置に対する位置を示す構造にするステップをさらに
含む（６１）記載の、圧縮済みレコード展開方法。

【０３６９】（１１０）対応する未圧縮レコード中で必
要なＥＣシーケンスと逆の順序である連鎖順序で、アク
セスされる連鎖辞書項目から、索引記号で位置指定され
たレコード文字列のＥＣを出力するステップと、未圧縮
レコード中で必要な順序にＥＣが並ぶ順序で、アクセス
される辞書項目の連鎖から出力されるＥＣを、出力バッ
ファ内に記録するステップと、対応する未圧縮レコード
中で必要なシーケンスで、各項目内のＥＣを選択するス
テップとをさらに含む（１０９）記載の、圧縮済みレコ
ード展開方法。

【０３７０】（１１１）展開プロセスのために文字列中
のすべてのＥＣを取り出すために先祖項目への追加アク
セスが必要でないことを示すために、関連するレコード
文字列のすべてのＥＣ（項目に割り当てられたＥＣと先
祖ＥＣ）が項目中に含まれるかどうかを項目中で示すス
テップをさらに含む（１０９）記載の圧縮済みレコード
展開方法。

【０３７１】（１１２）関連するレコード文字列のすべ
てのＥＣが項目中に含まれているわけでないことが項目
中ですでに示されているときに、項目から取り出して出
力バッファ内に置くべきＥＣの数（項目に割り当てられ
たＥＣと先祖ＥＣ）を項目中で示すステップをさらに含
む（１１１）記載の圧縮済みレコード展開方法。

【０３７２】（１１３）記号が真に辞書項目を指定する
索引記号であるかどうか、あるいは、記号が、ＺＬ圧縮
の使用時に、辞書内で、良好な圧縮を提供するのに十分
な長さのＺＬ文字列によって表されなかったために、未
圧縮形式で現れる後続の該未圧縮文字の数のカウントを
含むかどうかを示す標識で、索引記号を展開するステッ
プと、上記カウントによって示される未圧縮文字の数を
圧縮済みレコードから未圧縮レコードに移すことによっ
て、展開プロセス中に、この標識で索引記号を処理する
ステップとをさらに含む（６１）記載のレコード圧縮方
法。

【０３７３】（１１４）ＺＬ辞書文字列中の辞書項目
を、１つの割り当てられたＥＣおよび複数（Ｎ個）の子
を持つ第１の種類のレベルの項目と、１つまたは複数の
割り当てられたＥＣを持つが、必ずしも２つ以上の子を
持たない第２の種類のレベルの項目との、２種類の交互
のレベルを持つ構造にするステップと、ここで定義する
構造にしなかった場合よりもアクセスする必要のある辞
書項目の数を減らすことによって、同一の文字が繰り返
される、多数の異なる長さの文字列を圧縮する目的で、
第２の種類のレベルの項目を、さらに、そのレベルにあ
る第１の子がＮ個の割り当てられたＥＣを持ち、次の子
がＮ−１個の割り当てられたＥＣを持ち、その次の子が
Ｎ−２個の割り当てられたＥＣを持ち、以下同様にして
最後の子が１つの割り当てられたＥＣを持つ構造にする
ステップとをさらに含む（６１）記載のレコード圧縮方
法。

【０３７４】（１１５）関連するレコード文字列のすべ
てのＥＣが項目中に含まれているわけでないことが項目
中ですでに示されているときに、項目から取り出して出
力バッファ内に置くべきＥＣの数（項目に割り当てられ
たＥＣと先祖ＥＣ）を項目中で示すステップをさらに含
む（５４）記載の圧縮済みレコード展開方法。

【０３７５】（１１６）関連するレコード文字列のすべ
てのＥＣが項目中に含まれているわけでないことが項目
中ですでに示されているときに、項目から取り出して出
力バッファ内に置くべきＥＣの数（項目に割り当てられ
たＥＣと先祖ＥＣ）を項目中で示すステップをさらに含
む（１０８）記載の圧縮済みレコード展開方法。

【図面の簡単な説明】

【図１】本願発明の好ましい実施例で使用する圧縮の概
要を示す図である。

【図２】本願発明の好ましい実施例で使用する展開の概
要を示す図である。

【図３】データの圧縮に使用する発信元バッファおよび
宛先バッファを備えた従来のＺｉｖ−Ｌｅｍｐｅｌ辞書
を示す図である。

【図４】文字列のＺｉｖ−Ｌｅｍｐｅｌツリーの例を示
す図である。

【図５】図４に示した文字ツリーを表すリスト形式の辞
書を示す図である。

【図６】図５に示す子ポインタの数値を格納する圧縮用
辞書をさらに展開した図である。

【図７】圧縮と展開の両方に使用される辞書を示す図で
ある。

【図８】任意の辞書項目に先祖文字（ＰＥＣ）を含む可
能性のある辞書を示す図である。

【図９】任意の項目に子文字（ＣＣ）を含む可能性のあ
る辞書を示す図である。

【図１０】任意の項目に兄弟文字（ＳＣ）を含む可能性
のある辞書を示す図である。

【図１１】辞書のアルファベット項目（最初の２５６文
字）で使用できる制御数字を示す図である。

【図１２】非アルファベット項目（最初の２５６文字の
後）で使用できる制御ビットを示す図である。

【図１３】アルファベット項目における制御数字および
子ポインタ（ＣＰＴＲ）を示す図である。

【図１４】非アルファベット項目における制御バイトお
よびＣＰＴＲを示す図である。

【図１５】ＣＰＴＲの代わりに先行ポインタ（ＰＰＴ
Ｒ）を示す図である。

【図１６】すべて同一の非アルファベット項目に含まれ
る、制御バイト、ＣＰＴＲ、およびＰＰＴＲを示す図で
ある。

【図１７】辞書構造で使用できる複数の項目フォーマッ
トの例、Ｆ１Ａ、Ｆ１、Ｆ２、Ｆ３Ａ、Ｆ３、Ｆ４を示
す図である。

【図１８】辞書項目Ｆ１、Ｆ２、Ｆ３Ａ、Ｆ３、Ｆ４の
使用例を示す図である。

【図１９】図１８の例に対応する文字記号ツリーを示す
図である。

【図２０】図１８の項目フォーマットのツリーを示す図
である。

【図２１】図１８の真拡張文字のツリーを示す図であ
る。

【図２２】図１８のすべての拡張文字のツリーを示す図
である。

【図２３】子文字（ＣＣ）および兄弟文字（ＳＣ）を使
用して辞書項目を位置指定する方法を示す図である。

【図２４】図２３の真拡張文字のツリーを示す図であ
る。

【図２５】兄弟記述子中の兄弟文字（ＳＣ）を使用して
辞書項目を位置指定する方法を示す図である。

【図２６】図２５のツリー拡張文字のツリーを示す図で
ある。

【図２７】本願発明の好ましい実施例で使用され、圧縮
または展開を実行するときに使用できる圧縮呼出し命令
を示す図である。

【図２８】圧縮呼出し命令が使用するレジスタを示す図
である。

【図２９】好ましい実施例の別個の圧縮用辞書で使用さ
れる項目のフォーマットを示す図である。

【図３０】好ましい実施例で使用される圧縮プロセスの
流れ図である。

【図３１】好ましい実施例で使用される圧縮プロセスの
流れ図である。

【図３２】好ましい実施例の別個の展開用辞書で使用さ
れる項目のフォーマットを示す図である。

【図３３】好ましい実施例で使用される展開プロセスの
流れ図である。

【図３４】圧縮辞書および展開辞書の例、特に、同一の
文字が繰り返される、多数の異なる長さの文字列を圧縮
するための辞書を示す図である。

【図３５】好ましい実施例に短記号オプションがどのよ
うに含まれるかを示す図である。

【図３６】短記号オプションによって索引記号がどのよ
うにして長記号に変更されるかを示す図である。

【図３７】短記号と呼ばれる未圧縮文字を含む短記号文
字列の例を示す図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者クラーク・クルツアメリカ合衆国12528、ニューヨーク州ハイランド、ウッドランド・ドライブ７ (72)発明者ケンス・アーネスト・プラムベックアメリカ合衆国12603、ニューヨーク州ポーキープシー、デイジー・レーン７ (72)発明者バスカール・シンハアメリカ合衆国01921、メリーランド州ボックスフォード、アンナズ・ウェイ 41

Claims

(57)【特許請求の範囲】

【請求項１】Ｚｉｖ−Ｌｅｍｐｅｌ（ＺＬ）圧縮アルゴ
リズムを実施して比較的大規模なデータベース内の任意
の１つまたは複数の比較的小規模な未圧縮レコードを圧
縮することによりレコードの圧縮を改善する方法におい
て、前記データベースに前記ＺＬ圧縮アルゴリズムを使用す
るコンピュータ・プログラムを適用することにより、圧
縮済みレコードを生成する前に、前記データベース内の
すべてのＺＬ文字列を辞書文字列として含む静的圧縮辞
書を事前に生成しておくステップと、別のコンピュータ・プログラムを実行して、前記未圧縮
レコード中の一連の文字を前記辞書中の前記辞書文字列
と突き合わせることにより、前記未圧縮レコード中のレ
コード文字列を検出するステップと、前記辞書中の辞書
文字列と突き合わされるレコード文字列の、前記辞書内
での終了位置を表す索引記号を出力して、前記未圧縮レ
コードに対応する圧縮済みレコードを提供するステップ
とにより、前記データベース内の未圧縮レコードが変更
されているか否かにかかわらず、前記辞書を変更せず
に、アクセスされた前記未圧縮レコードから前記圧縮済
みレコードを生成するステップとを含むレコード圧縮方
法。
【請求項２】前記データベース内の各文字列を、１また
は複数の辞書項目によって表される辞書文字列として構
造化するステップであって、各前記項目は、前記辞書文字列中の１または複数の対応
する拡張文字（ＥＣ）が割り当てられ、前記割り当てられたＥＣは、前記辞書項目中に記録され
ることもされないこともあり、真拡張文字（ＴＥＣ）と
呼ばれる前記ステップと、辞書文字列中の前記辞書項目を、２つ以上の項目によっ
て表される任意の文字列の第１項目から連鎖または索引
付けするステップとを含む請求項１記載のレコード圧縮
方法。
【請求項３】それぞれ辞書文字列中に１または複数の先
祖ＥＣを有する子ＥＣを前記辞書文字列中に有する次の
辞書項目を位置指定するために、前記辞書文字列の少な
くとも第１の項目に子ポインタを記憶するステップをさ
らに含む請求項２に記載のレコード圧縮方法。
【請求項４】第１の辞書項目で表されるアルファベット
ＥＣの値によって示される位置に各辞書文字列の各第１
辞書項目を位置指定し、各第１辞書項目をアルファベッ
ト項目として指定し、他のすべての辞書項目を非アルフ
ァベット項目として指定するが、各アルファベット項目
の位置が、割り当てられたアルファベットＥＣと関連付
けられているために、どのアルファベット項目中にもＥ
Ｃを必要としないステップと、前記静的圧縮辞書を、ＥＣおよび制御フィールドを含む
固定長項目を伴う構造にする構造化ステップとをさらに
含む請求項３に記載のレコード圧縮方法。
【請求項５】前記構造化ステップが、アルファベット項
目または非アルファベット項目の前記制御フィールド
を、親項目に割り当てられたＥＣの後に続く、辞書文字
列中の文字である子ＥＣ（ＣＣ）をいつ前記親項目が含
むかを示す子標識を含む親辞書項目（親項目）として構
造化し、それによって、前記ＣＣに割り当てられた前記
子辞書項目への追加のアクセスなしで、レコード文字列
の終りを検出できるようにすることにより、前記ＣＣが
前記辞書内のレコード文字列の検出効率を向上できるよ
うにするステップをさらに含む請求項４記載のレコード
圧縮方法。
【請求項６】前記親項目中に含まれるＣＣの数を示すカ
ウント標識を前記親項目中に置き、各ＣＣが、関連する
子項目に割り当てられた第１のＥＣであるか、または関
連する子項目に割り当てられた１組の第１ＥＣであるこ
とを事前決定しあるいは項目中で指示するステップと、１つまたは複数の子辞書項目（子項目）を有する子リス
トを含む、親項目の前記子辞書項目を提供するステップ
と、前記子リスト中の第１の子項目に対して所定の位置に、
前記子リスト中の各子項目を位置指定するステップと、前記親項目中の各ＣＣを前記子リスト中の当該の子項目
と関連付けられるように割り当てるステップとをさらに
含む請求項５記載のレコード圧縮方法。
【請求項７】親項目の制御フィールド中のmore-childre
n標識をオンにセットして、前記親項目内に含まれる前
記ＣＣの数よりも多くの前記子項目が前記親項目の子リ
スト中にあることを示すステップをさらに含む請求項６
に記載のレコード圧縮方法。
【請求項８】more-children標識を含む親項目（親）の
下にある前記子リスト中の前記子項目（子）中に、前記
親中の利用可能なスペースに、親中のＣＣと区別するた
めに兄弟文字（ＳＣ）と呼ばれるその当該の各識別ＣＣ
を含めることができない、同一の親の子供と関連するＣ
Ｃを置き、各ＳＣが前記同一の親の関連する子に割り当
てられた第１のＥＣであるか、または前記同一の親の関
連する子に割り当てられた１組の第１ＥＣであることが
事前決定され、あるいは項目中で指示されており、それ
によって、前記ＳＣに割り当てられた前記子辞書項目へ
の追加のアクセスなしで、前記レコード文字列の終りを
検出できるようにすることにより、前記ＳＣが前記辞書
内の前記レコード文字列の検出効率を向上できるように
するステップと、前記子項目に含まれるＳＣの数を示すカウント標識を前
記子項目中に置くステップと、ＳＣを含む前記子項目中の各ＳＣを、前記子リスト中の
当該の子項目と関連付けられるように割り当てるステッ
プとをさらに含む請求項７記載のレコード圧縮方法。
【請求項９】more-children標識を含む親項目（親）の
下にある子リスト中に、アルファベット項目でも非アル
ファベット項目でもなく、前記親中の利用可能なスペー
スに、前記親中のＣＣと区別するために兄弟文字（Ｓ
Ｃ）と呼ばれるその当該の各識別ＣＣを含めることがで
きない、前記同一の親の子項目（子）と関連するＣＣを
含む、兄弟記述子（ＳＤ）と呼ばれる項目を置き、各Ｓ
Ｃが前記同一の親の関連する子項目（子）に割り当てら
れた前記第１のＥＣであるか、または前記同一の親の関
連する子に割り当てられた１組の前記第１ＥＣであるこ
とが事前決定され、あるいは前記ＳＤ中で指示されてお
り、それによって、前記ＳＣに割り当てられた前記子辞
書項目への追加アクセスなしで、レコード文字列の終り
を検出できるようにすることにより、前記ＳＣが前記辞
書内のレコード文字列の検出効率を向上できるようにす
るステップと、前記ＳＤに含まれるＳＣの数を示すカウント標識を前記
ＳＤ中に置くステップと、前記ＳＤ中の各ＳＣを、前記子リスト中の当該の子項目
と関連付けられるように割り当てるステップとをさらに
含む請求項７記載のレコード圧縮方法。
【請求項１０】レコード文字列中の第１の文字を表す辞
書項目から辞書に入り、未圧縮レコードから順次得られ
る後続の各レコード文字またはレコード文字の文字列を
同一の辞書文字列中の後続の辞書項目と比較して前記レ
コード文字列の終りを決定することにより、前記未圧縮
レコード中の各レコード文字列を検出するコンピュータ
・プログラムを実行し、前記辞書文字列中の最後の前記
項目を検出するか、あるいは前記辞書文字列中のＥＣと
一致するレコード文字の後に続く次のレコード文字と一
致しない前記文字列中のＥＣを検出することにより前記
レコード文字列の終りを位置指定するステップをさらに
含む請求項２記載のレコード圧縮方法。
【請求項１１】比較的大規模なデータベースの対応する
未圧縮レコードを再構築するために、請求項１０に記載
の方法によって生成される圧縮済みレコードを展開する
ための圧縮済みレコード展開方法であって、ＺＬアルゴリズムを使用するコンピュータ・プログラム
を、前記圧縮辞書の構築に使用するデータベースに適用
することによって、前記データベースの未圧縮レコード
を再構築する前に、静的展開辞書を事前生成しておき、
前記圧縮辞書内の辞書文字列に対応する辞書文字列を表
す辞書項目を前記展開辞書内で構築するステップと、圧縮済みレコード中にありかつ未圧縮レコード中のレコ
ード文字列を表す各索引記号と関連する１つまたは複数
の展開辞書項目を見つけることによって、前記索引記号
を検出する別のコンピュータ・プログラムを実行するス
テップと、見つかった展開辞書項目から各索引記号で表
される各レコード文字列用の文字にアクセスするステッ
プと、圧縮済みレコードから入力される各索引記号用の
前記アクセスされた文字を出力して、対応する未圧縮レ
コードを再構築するステップとによって、前記圧縮辞書
および前記展開辞書が事前生成された後に変更された未
圧縮レコードから前記データベース内の圧縮済みレコー
ドが生成されたかどうかにかかわらず、前記展開辞書を
変更せずに、入力された圧縮済みレコードから未圧縮レ
コードを再生成するステップとを含む圧縮済みレコード
展開方法。
【請求項１２】索引記号で位置指定された前記項目内に
含まれるよりも多くの先祖文字が関連する前記辞書文字
列中に存在するとき、索引記号で位置指定された前記項
目に連鎖された、前記展開辞書内の１つまたは複数の先
祖辞書項目を提供するステップと、前記索引記号で位置指定された前記項目中に、先祖項目
によって表される１つまたは複数の先祖ＥＣを複製し
て、関連する先祖項目にアクセスせずに、前記文字列中
の先祖ＥＣを出力できるようにするステップとをさらに
含む請求項１１記載の圧縮済みレコード展開方法。
【請求項１３】Ｚｉｖ−Ｌｅｍｐｅｌ（ＺＬ）アルゴリ
ズムを使用して、比較的大規模なデータベース内で未圧
縮レコードを圧縮する方法と、圧縮済みレコードを未圧
縮レコードに展開する方法を組み合わせた方法であっ
て、データベースに前記ＺＬアルゴリズムを使用するコンピ
ュータ・プログラムを適用して、前記データベース内の
すべてのＺＬ文字列を辞書文字列として含む辞書を前記
データベースから生成することにより、前記データベー
スのレコードに対して圧縮操作と展開操作の両方を実行
するための辞書項目を含む静的辞書を事前に生成するス
テップと、別のコンピュータ・プログラムを実行して、未圧縮レコ
ード中の一連の文字を前記辞書中の前記辞書文字列と突
き合わせることにより、前記未圧縮レコード中のレコー
ド文字列を検出するステップと、前記辞書中の辞書文字
列と突き合わされるレコード文字列の、前記辞書内での
終了位置を表す索引記号を出力して、前記未圧縮レコー
ドに対応する圧縮済みレコードを提供するステップとに
より、前記データベース内の未圧縮レコードが変更され
ているか否かにかかわらず、前記辞書を変更せずに、ア
クセスされた未圧縮レコードから圧縮済みレコードを生
成するステップと圧縮済みレコード中にありかつ未圧縮
レコード中のレコード文字列を表す各索引記号と関連す
る辞書項目を見つけることによって、索引記号を検出す
る別のコンピュータ・プログラムを実行するステップ
と、見つかった辞書項目から各索引記号で表される各辞
書文字列用の文字にアクセスするステップと、圧縮済み
レコードから入力される各索引記号用の前記アクセスさ
れた文字を出力して、対応する未圧縮レコードを再構築
するステップとによって、前記辞書が事前生成された後
に変更された未圧縮レコードから前記データベース内の
圧縮済みレコードが生成されたかどうかにかかわらず、
前記辞書を変更せずに、入力された圧縮済みレコードか
ら未圧縮レコードを再生成するステップとを含む前記方
法。
【請求項１４】前記データベース内の各文字列を、各項
目に前記辞書文字列中の１つまたは複数の当該の拡張文
字（ＥＣ）が割り当てられ、かつ前記割り当てられたＥ
Ｃが前記辞書文字列の真拡張文字（ＴＥＣ）と呼ばれ
る、１つまたは複数の辞書項目によって表される辞書文
字列として構造化するステップと、前記辞書中の各辞書文字列中の前記辞書項目を順方向お
よび逆方向に連鎖するステップとをさらに含む請求項１
３記載のプロセスを使用する方法。
【請求項１５】それぞれ前記辞書文字列中に１つまたは
複数の先祖ＥＣを有する子ＥＣを前記辞書文字列中に有
する次の辞書項目を位置指定するために、辞書文字列の
少なくとも第１の項目に子ポインタを記憶するステップ
をさらに含む請求項１４に記載のプロセスを使用する方
法。
【請求項１６】第１の辞書項目で表されるアルファベッ
トＥＣの値によって示される位置に各辞書文字列の各第
１辞書項目を位置指定し、各第１辞書項目をアルファベ
ット項目として指定し、他のすべての辞書項目を非アル
ファベット項目として指定するが、各アルファベット項
目の位置が、割り当てられたアルファベットＥＣと関連
付けられているためにどのアルファベット項目中にもＥ
Ｃを必要としないステップと、前記静的辞書を、ＥＣおよび制御フィールドを含む固定
長項目を含む構造にする構造化ステップとをさらに含む
請求項１５に記載のプロセスを使用する方法。
【請求項１７】前記構造化ステップが、アルファベット
項目または非アルファベット項目の前記制御フィールド
を、前記親項目に割り当てられたＥＣの後に続く、辞書
文字列中の文字である子ＥＣ（ＣＣと呼ぶ）をいつ前記
親項目が含むかを示す子標識を含む親辞書項目（親項
目）として構造化し、それによって、ＣＣに割り当てら
れた前記子辞書項目への追加のアクセスなしで、レコー
ド文字列の終りを検出できるようにすることにより、Ｃ
Ｃが前記辞書内のレコード文字列の検出効率を向上でき
るようにするステップをさらに含む請求項１６に記載の
プロセスを使用する方法。
【請求項１８】１つまたは複数の子辞書項目（子項目）
を有する子リストを含む、親項目の子辞書項目を提供す
るステップと、前記子リスト中の前記第１の子項目に対して所定の位置
に、前記子リスト中の各子項目を位置指定するステップ
と、前記親項目中の各ＣＣを前記子リスト中の当該の子項目
に割り当てるステップとをさらに含む請求項１７に記載
のプロセスを使用する方法。
【請求項１９】前記辞書内の前記子リストを前記親項目
中の子ポインタ・フィールドによって位置指定するステ
ップと、現在検出中のレコード文字列用の索引記号を生成するた
めに、子ポインタと、前記辞書文字列中のＥＣと突き合
わされる次のレコード文字と一致する前記親項目中の関
連ＣＣの前記位置とから、子辞書項目の位置を算出する
ステップとをさらに含む請求項１８記載のプロセスを使
用する方法。
【請求項２０】親項目の制御フィールド中のmore-child
ren標識をオンにセットして、前記親項目内に含まれる
ＣＣの数よりも多くの子項目が前記親項目の子リスト中
にあることを示すステップをさらに含む請求項１８記載
のプロセスを使用する方法。
【請求項２１】more-children標識を含む親項目（親）
の下にある子リスト中に、アルファベット項目でも非ア
ルファベット項目でもなく、前記親中の利用可能な前記
スペースに、前記親中のＣＣと区別するために兄弟文字
（ＳＣ）と呼ばれるその当該の各識別ＣＣを含めること
ができない、前記同一の親の子項目（子）と関連する前
記ＣＣを含む、兄弟記述子（ＳＤ）と呼ばれる項目を置
き、各ＳＣが前記同一の親の関連する子項目（子）に割
り当てられた前記第１のＥＣであるか、または前記同一
の親の関連する子に割り当てられた１組の第１ＥＣであ
ることが事前決定され、あるいはＳＤ中で指示されてお
り、それによって、ＳＣに割り当てられた前記子辞書項
目への追加アクセスなしで、レコード文字列の終りを検
出できるようにすることにより、ＳＣが前記辞書内のレ
コード文字列の検出効率を向上できるようにするステッ
プと、前記ＳＤに含まれるＳＣの数を示すカウント標識を前記
ＳＤ中に置くステップと、前記ＳＤ中の各ＳＣを、前記子リスト中の当該の子項目
と関連付けられるように割り当てるステップとをさらに
含む請求項２０に記載のレコード圧縮方法。