JP2590287B2

JP2590287B2 - データ圧縮方法およびデータ圧縮装置

Info

Publication number: JP2590287B2
Application number: JP2062325A
Authority: JP
Inventors: 泰彦中野; 茂吉田; 佳之岡田; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1990-03-13
Filing date: 1990-03-13
Publication date: 1997-03-12
Anticipated expiration: 2012-03-12
Also published as: JPH03262331A

Description

【発明の詳細な説明】〔概要〕入力文字列に対して辞書を参照して文字部分列を順次
に符号化し、異なる文字列毎に異なる登録番号を付与し
て辞書を作成し、現在の文字部分列を符号化済の過去の
文字部分列のうち一致する最大長の文字部分列の複製と
して符号化するデータ圧縮方法において、参照辞書を文
字列の各先頭文字もしくは先頭文字グループ毎に登録文
字列をグループ化した参照辞書単位により構成するとと
もに、登録文字列の登録番号を参照辞書単位毎にツリー
構造で定めた順番で表し、各参照辞書単位に登録されて
いる登録文字列数の統計をとり、参照辞書単位を表す符
号の長さを可変長とし、登録文字数の多い参照辞書単位
程短い符号を付与するように登録文字数に応じて参照辞
書単位に対する符号を定め、入力文字列の符号を参照辞
書単位の符号とその参照辞書単位に登録されている文字
列の登録番号により符号化する構成を持つ。

〔産業上の利用分野〕

本発明は、文字列で構成される入力情報を伝送もしく
は記憶装置に記憶する際、入力される文字列を過去に現
れた文字列の複製として符号化するデータ圧縮方法およ
びデータ圧縮装置に関する。

入力文字列を過去の文字列の複製として符号化するデ
ータ圧縮方式には、ユニバーサル型Ziv−Lempel符号化
方式と増分分解型Ziv−Lempel符号化方式がある。

ユニバーサル型Ziv−Lempel符号化方式は、入力文字
列を符号化する際、過去の入力文字列の任意の位置から
現在の文字列に一致する最大長の文字部分列を区切り
（文字部分列という）、その文字部分列のメモリ上の位
置と文字部分列の長さにより指定してデータ圧縮を行う
方式である。

増分分解型型Ziv−Lempel符号化方式は、過去にコー
ド化された最大長の文字列に新たに出現した一文字を付
加した文字列を符号化して登録し、現在の文字列を過去
に現れた文字部分列の最長文字部分列の複製として符号
化する方式である。

いずれの方式においても、圧縮率を上げるためには、
過去の文字列を記憶する参照辞書の容量を大きくしなけ
ればならない。しかし、辞書を大きくすると、登録され
る文字部分列の数も多くなり、それぞれの文字部分列を
指定するための符号を表わす符号ビットを長くとらなけ
ればならない。

そのため、従来は、参照辞書を大きくする割には、圧
縮率を向上させることができなかった。

本発明は、参照辞書を分割して構成するとともに分割
された辞書を指定する符号を最適化することにより、圧
縮率を向上させたZiv−Lempel符号によるデータ圧縮方
法に関するものである。

〔従来技術〕

従来のユニバーサル型のZiv−Lempel符号（以後ZL符
号と称する）による符号化方式のアルゴリズムについ
て、第10図（ａ）、（ｂ）により説明する。

図（ａ）において、91は符号化済の入力文字列か格納
されているＰバッファ、92はこれら符号化しようとする
文字列を格納するＱバッファである。

図（ｂ）はユニバーサル型ZL符号の形式を示す。

ユニバーサル型ZL符号は、図（ａ）に示すように、Ｑ
バッファの文字列のうち、Ｐバッファ中で一致する最大
長の文字部分列を求め、一致した最大長部分列を指定す
るため、その部分列のＰバッファ中での位置p1と一致す
る長さq1とを示す符号により、図（ｂ）に93で示すよう
にＱバッファ中の文字列を符号化して圧縮する方式であ
る。

次に、第９図（ａ），（ｂ）により従来の増分分解型
のZL符号によるデータ圧縮方式を説明する。

増分分解型は、ユニバーサル型より圧縮率は低いが計
算は容易である。

図（ａ）は入力文字列の列として例示的に、ｘ＝aaba
babaa・・・とした時の増分分解型ZL符号化方式のアル
ゴリズムを示す。

図（ａ）において、81は入力文字列、82は圧縮符号、
83は参照辞書に登録する成分である。

増分分解方ZL符号化方式は、過去の符号化済の文字列
のうちから、現在対象としている文字列に一致する最長
のものX_jを求め、X_jに文字列の次の一文字シンボルを付
加して符号化するものである。

具体的に、図（ａ）に従って、その手順を説明する。

入力文字列81を、図示のようにＸ＝a ab aba b aa・・・とし、その分解成分を、X₁、X₂、X₃、X₄、X₅,・・・と
する。

まず、最初参照辞書には何も書かれていないので、ａ
を成分X₁として登録する．次の文字ａは既登録成分であるので、登録成分に次の
文字ｂを付加した文字列について既登録成分を参照す
る。

文字列abは未登録であるからabを成分X₂として登録す
る。そしてX₁にシンボルｂを付加したX₁bを圧縮符号と
して出力する。

同様に、処理を進めて、次の文字列のうちabが最大長
の文字列X₂として登録されているので、X₂に次のシンボ
ルｂを付加してX₂aを圧縮符号として出力し、X₂aをX₃と
して登録する。

上記のように処理を進めて、入力文字列Ｘ＝aabababaa・・・に対して、Ｘ＝X₀X₁X₂X₃X₄X₅・・・に分解し、分解成分をX₀＝λ（空列）， X₁＝X₀a,X₂＝X₁b,X₃＝X₂a、X₄＝X₀b、X₅＝X₁a・・・として、 X₁,X₂、X₃・・・を参照辞書に登録する。そして、圧縮
符号として aX₁ bX₂ ab X₁ a・・・を出力する。

図（ｂ）に上記の増分分解型ZL符号の符号語の形式を
示す。

図（ｂ）に示すように、既登録の成分（X₁、X₂,X₃・
・・）の参照辞書における位置を示すインデックス符号
85に参照辞書に一致する文字列の次の一文字（ａ、ｂ・
・・）を付加する形式で圧縮データを表現する。

〔発明が解決しようとする課題〕

ユニバーサル型ZL符号化方式、増分分解型ZL符号化方
式のいずれも、符号化対象が未知でも、学習しながら符
号化してゆく方式であり、そのアルゴリズムは既に登録
されている文字列の位置もしくは登録番号の符号データ
により、現在の文字列を過去の文字列の複製として表わ
すシンプルなものである．しかし、圧縮符号による伝送デークには圧縮できない
生データの外、圧縮符号を表わすためのインデックス等
の一定量の符号語も必要とする。そのため、参照辞書を
大きくし、登録文字列を増やして符号化する文字列長を
できるだけ大きくとれるようにしないと効率が悪くなり
十分に高い圧縮率を得ることができなかった。

しかし、従来の方式では、参照辞書を大きくすると、
登録する文字列の数が増え、それぞれの文字列を識別す
るための符号語の長さを長くとらなければならなくな
り、参照辞書を大きくした分だけの圧縮率の向上が得ら
れなかった。

第８図に示す従来の増分分解型ZL符号によるデータ圧
縮方式のTreeインデックスの生成方法により従来技術の
問題点を説明する。

図は増分分解型ZL符号方式により得られる文字列の各
成分をTree状に階層構造に表わしたものである（第８図
は辞書全体の一部を表わしたものであり、初期ノードａ
以外に初期ノードしてb,cが存在する）。そして各成分
の参照辞書の登録番号をTreeの各節に付してある。

例として、第９図において用いた入力文字列aabababa
a・・・について、Treeインデックスを生成する場合に
ついて説明する。

まず、成分X₁＝ａを登録番号０で登録する。

次に現れる成分X₂＝abを登録番号０から派生した成分
であるので、登録番号０の下位の成分として登録番号１
とする。次に現れる成分X₃＝abaは成分X₂＝abから派生
した成分であるので、登録番号１の下位の成分として登
録番号２で登録する。

以上の手続きを続けて、入力文字列全体を成分に分解
し、Treeインデックスを作成する。

登録番号は，出現した順番につけられる。

このような処理を全入力文字列について行うと、Tree
の各節は膨大な数になり、それぞれのインデックスを表
わす符号ピット数も大きく取らなければ各成分を識別出
来なくなる。

そのため、電送データのうち、圧縮符号を表わす符号
語のビット数の占める割合も大きくなり、辞書を大きく
するわりには圧縮率を向上できないという問題があっ
た。なお、第８図では図示されていないが、従来のイン
デックスツリーは初期ノードｂ、初期ノードｃに対して
も出現順に辞書全体の連続番号によるインデックスで表
わされるものである（例えば、第８図のツリー構造にお
いて、次にｂが出現したらｂをインデックス36で表わ
す）。

本発明は、ZL符号化方式において、参照辞書を大きく
しても、圧縮率を妨げないデータ圧縮方法を得ることを
目的とする。

〔課題を解決するための手段〕

本発明は、ZL符号化方式において、参照辞書を複数の
参照辞書単位により分割し、符号語を参照辞書単位の番
号と参照辞書単位における登録位置を示すインデックス
により表わすようにした。

この場合、参照辞書単位を表わす符号の分だけ従来の
方式より符号が増えるが、参照辞書単位を表わす符号
は、可変長として、使用頻度の高い参照辞書単位の符号
は短いピット数により表わし、使用頻度の少ない参照辞
書は長ビット数で表わすようにした。

このようにして、符号語の長さの増加を抑え、参照辞
書を大きくするのに見合っただけの十分な圧縮率の向上
が得られるようにした。

第１図により本発明の基本構成を示す。

図において、１は入力文字列、２は入力文字列を一時
格納する入力バッファ、３は符号化手段てあって、入力
データを参照辞書に照合する参照辞書照合手段10、符号
語作成手段10′文字列を参照辞書に登録する参照辞書登
録手段11、参照辞書単位の最適符号を定める最適符号変
換手段12、参照辞書単位ごとに登録文字数をカウントす
る登録文字列数カウント手段13、もしくは遷移回数カウ
ント手段13、参照辞書単位の最適符号を設定する最適符
号設定手段14とよりなるもの、４は参照辞書単位を表わ
す符号を最適値に設定する前に仮に定める参照辞書単位
の仮符号設定手段、５は複数の参照辞書単位より構成さ
れる参照辞書（図は例示的に16グループの参照辞書単位
で構成した場合を示す）で、例えば、参照辞書単位１は
文字列の先頭文字がａよりなるもの、参照辞書単位２は
文字列の先頭文字かｂよりなるもの等の異なる文字グル
ープについて文字列に対応させて文字列の符号語を登録
してあるもの、６は圧縮された入力文字列の符号を出力
する圧縮符号出力手段、10は参照辞書照合手段、10′は
参照辞書にある成分の符号語に基づいて符号語を作成す
る符号語作成手段、11は参照辞書登録手段、12は参照辞
書の仮符号により作成されたインデックスを参照辞書の
最適符号へ変換処理する最適符号変換手段、13は登録文
字列数カウント手段、14は参照辞書の最適符号設定手
段、16は増分分解型のZL符号化方式における例、17は符
号語形式で、参照辞書単位の符号18と参照辞書単位の登
録位置を示すインデックス19よりなるもの、20は参照辞
書単位の仮符号による符号語の形式の例、21は参照辞書
単位の番号を最適値に変換した後の符号語の例である。

なお、遷移回数カウント手段13は、参照辞書単位に対
して直前の文字列の最終文字もしくは最終文字グループ
に続いて使用される頻度に応じて参照辞書単位の符号を
定める場合にその頻度の統計をとるものである。

〔作用〕

第１図の基本構成の動作は次の通りである。

まず、入力文字列１は入力バッファ２に格納され、参
照辞書照合手段10により、文字列を参照辞書単位１〜16
を参照して過去に登録された文字列のうちから最大長の
文字列を選択する。

そして、符号語作成手段10′は選択した文字列の参照
辞書単位の番号と選択した文字列の参照辞書単位での登
録位置を示すインデックスよりなる符号語形式17を作成
する。その際、１回に送信する入力文字列の全ての文字
について圧縮処理が終わるまでは、参照辞書単位の識別
符号は仮符号設定手段４の設定した仮の符号を設定して
おく。

そこで、参照辞書登録手段11は選択された過去に登録
された最大文字列に一致する入力文字部分列に次の一文
字を付加した文字列を新たな文字列成分として参照辞書
単位に登録する。

ここで、登録文字列数カウント手段13は、各参照辞書
に文字列が登録される度に登録文字列数をカウントす
る。もしくは参照番号13が遷移回数カウント手段の場合
には遷移数カウント手段13は任意の文字列の一つ前の文
字列の最終文字、もしくは最終文字を含む文字グループ
から続く文字列の属する参照辞書単位へ遷移する回数を
各参照辞書単位ごとにカウントする。

１回に送信する全入力文字については圧縮処理がなさ
れると、最適符号設定手段14は各参照辞書単位に登録さ
れている登録文字列数を求め登録文字列数の多い参照辞
書単位には短い符号を付与するようにする。もしくは、
参照辞書間の上記遷移回数より遷移確率を求め、遷移確
率が高い参照辞書単位に付する符号語は遷移確率の低い
符号語より短い符号を設定するようにする。

上記のように求めた最適符号により、最適符号変換手
段12は参照辞書単位の仮符号を最適符号に変換する。

図において、16は増分分解型のZL符号化方式のアルゴ
リズムであるが、第９図において説明したものと同じで
あるので説明は省略する。

20は、参照辞書単位の仮符号により表わした符号語の
例である。

21は符号語20を参照辞書単位の最適符号に変換した例
を示す。

第２図に、本発明の圧縮符号生成手段のフローを示
す。

図において、ωは登録文字列であり、Ｋは入力文字列
のうちの参照辞書の登録文字列ωに一致する部分の次の
文字シンボルを表わす。

図示の番号に従ってフローを説明する。

参照辞書を初期化する。

参照辞書単位に、例えば、均等に仮符号を付与す
る。

続く処理は入力文字列の先頭文字を処理する場合と第
２文字目以降の場合とで、分けてフローを説明する。

（Ｉ）入力文字列の先頭文字を読み取る処理入力文字の先頭文字を読み取る。

読み取った文字の次に文字かあるかないかを判断
し、あれば、その文字を読み取る。

次ににおいて無しに進む場合は、全入力文字を読み
取って圧縮処理を終了した場合であるから、一文字のみ
を伝送する場合をのぞいて、通常はに進む。

入力文字列の先頭文字を読み取るステップでは当然
辞書に書き込みはないのでに進む。

参照辞書に登録文字列（いまの場合は入力文字列の
先頭文字）を対応させて、符号を登録する。

文字列を登録した文字列数あるいは１つ前の文字列
の最終文字の属する参照辞書単位からの回数をカウント
するため、登録数を十１する。

そこで、に戻って、次の文字を読み取り、を繰り
返す。

（II）入力文字列の第２番目の文字以降の処理次の文字Ｋを読み取る。

で文字がない場合は、伝送する文書の最終文字まで、
全て処理した場合である。

で読み取った文字があれば、に進む。

文字列ωＫがなければ、、を再度行って、に
帰る。

でωＫが辞書にある場合は、その文字列は登録済
であるので、文字列を参照辞書に照合するためのバッフ
ァのωＫをωに置き換える。

そこで、再びに戻って次の文字を読み取り、同様の
処理を繰り返す。

で読み取る文字がなくなれば、全ての文字の処理を終
えたので、に進む。

各参照辞書単位に登録されている文字列数もしくは
参照辞書単位問の遷移数を数える。

参照辞書単位に登録されている文字列数もしくは参
照辞書単位間の遷移数を考慮して、参照辞書単位の最適
符号を設定する。

符号語に付されている参照辞書単位を表わす仮符号
を最適符号に変換処理する。

圧縮符号を出力する。

上記のように、本発明によれば、大きい参照辞書を用
いても、辞書を参照辞書単位に分割するとともに、登録
文字列の登録番号（インデックス）を参照辞書単位毎に
登録順に付与するようにしたので辞書全体の登録文字列
数が多くなっても登録番号を短い登録番号で登録するこ
とができる。また、参照辞書単位を指定する符号ができ
るだけ短くなるように登録文字数により最適化したた
め、登録文字列のインデックスを短い符号で表現でき、
効率的に符号化することができる。

辞書を分割したことによる符号語の構成が増加する
が、文字列の登録番号が短くなることと参照辞書単位を
表わす符号を可変長符号として最適化することにより、
全入力文字列の圧縮符号における符号語の占める割合を
少なくすることができる。

そのため、本発明によれば、辞書を大きくすることに
よる、インデックスの符号が長くなり、圧縮率が低下す
ることがなく、辞書を大きくするに見合っただけの十分
なデータ圧縮を行うことができる。

〔実施例１〕第３図、第４図により、本発明の第１の実施例を説明
する。

第３図は、本発明における参照辞書単位の最適符号の
設定方法の第１実施例（１）である。

図（ａ）は参照辞書単位が３つの場合の登録成分のイ
ンデックスの割り振りの例を示す。

例えば、文字列がa,b,cのみより成るような場合、T₁
は先頭文字がａよりなる文字列のグループ、T₂は先頭文
字がｂよりなるグループ、T₃は先頭文字がｃよりなる文
字グループとして、参照辞書単位１のルートノード
（根）はa,参照辞書単位２のルートノードはb,参照辞書
単位ｃのルートノードはｃとなるように参照辞書単位を
構成する。

また、登録文字列のインデックス（登録番号）は各節
に対応させてインデックスを割り振るのではなく、それ
ぞれの参照辞書単位において，それぞれの参照辞書単位
のルートノードを元にして連続番号により付与する。

そして、文字列を表わす符号語は図（ｂ）に示すよう
に、参照辞書単位の番号を表わすTree番号24と登録位置
を示すインデックス22により構成する。

例えば、図示のように、参照辞書単位３（T₃）の登録
位置８の文字列は図示の例23のように参照辞書単位の番
号T₃と登録位置に８を付すことにより表わす。

第１実施例（１）では、参照辞書単位の番号を表わす
符号（Treeの番号）を図（ｃ）に例示するように、登録
文字列数の多いTree（節点数の多いTree）は、例えば、
節点数20のT₁には短い符号「０」を付し、登録文字数の
少ないT₂,T₃には長い符号「10」，「01」等を付すよう
にする。

第４図は、第１実施例（２）であって，本発明の第１
実施例（１）の最適符号を適用した圧縮符号の例を示
す。

図（ａ）は、入力文字列aabababaaba・・・を増分分
解型ZL符号化方式に変換する方式の説明図であって、第
９図において、説明した方式と同じであるので説明は省
略する。

図（ｂ）は、参照辞書単位の番号を仮符号「000」、
「001」により表した場合の入力文字列31を圧縮した場
合の圧縮符号を表わす。

図（ｃ）は、参照辞書単位の仮符号を、最適符号に変
換した入力文字列31の圧縮符号を示す。

本発明の第１実施例は、登録文字数の多い辞書を表す
符号はできるだけ短い符号により最適化し、仮符号を最
適符号におきかえることにより符号語をできるだけ短く
する。

〔実施例２〕第５図〜第７図により本発明の第２実施例を説明す
る。

第５図（ａ）は、連続する文字列の成分における最終
文字から先頭文字への遷移を説明する図である。

図において、51は現登録文字列を基準にして、１つの
前の登録文字列、52は登録文字列、53は次の登録文字
列、54は１つ前の登録文字列51の最終文字、55は現登録
文字の先頭文字、56は現登録文字の最終文字、57は次の
登録文字の先頭文字である。

本実施例では、参照辞書単位、即ち、第３図における
Treeの根を16個にし、連続する文字列における前の文字
列の最終文字から後の文字列の先頭文字への遷移を考
え、それぞれの文字が属するTree間の遷移の確率を測定
することにより、遷移確率が高い場合には短い符号を設
定し、低い場合には長い符号を選定し、その頻度を表わ
す遷移コードとインデックスとともに符号語として付す
ものである。

第５図（ｂ）は、１つ前の登録文字列の最終文字の属
するグループナンバー（16個，第３図におけるTree）か
ら現登録文字の先頭文字の属するグループナンバーへの
遷移回数の測定値を表わす。最終文字のグループは参照
辞書単位である必要はないが、以下、直前の参照辞書単
位として説明する。

表の各数字は出現回数である。例えば、グループナン
バー４からグループナンバー６への遷移は83回生じたこ
とを表わす。

第６図は第５図（ｂ）における測定値を遷移回数の順
位に書き直したデータを示す。

表は、１個前の登録文字の最終文字の属するグループ
ナンバーから、現登録文字の先頭文字の属するグルプー
ナンバーへの遷移を任意の１個前のグループナンバーに
ついて順位付けしたものである。

数字０は遷移回数が一番多かったことを示し、16進数
のＦは遷移回数の一番少なかったことを表わす。

例えば、１つ前の登録文字列のグループナンバー４か
ら現登録文字列のグループナンバー６へ遷移する順位
は、１個前のグループナンバー４から現登録文字列のグ
ループナンバーへ遷移するあらゆる場合のうちで２番目
に多い順位であることを示す。

第７図（ａ）、（ｂ）、（ｃ）は、第５図の結果によ
り、参照辞書単位（第６図におけるグループナンバー）
に付す最適符号を設定する方法の実施例を示す。

図（ａ）は登録文字グループナンバー間での遷移の順
位により符号語に付すための符号の例を示す。

出現頻度の高い場合には短い符号を付し、反対に、出
現頻度の低い場合には長い符号を付す。

いま、図（ｂ）に示すように現登録文字列のグループ
ナンバーが６（T₁に対応する）で、そのインデックス12
5の文字列を符号化する場合を考える。

そして、前登録文字列のグループナンバーが０とす
る。

この場合、第６図の表により、頻度は10であるから、
直前文字列をもとに現文字列の参照辞書単位を指定する
遷移コードを第７図（ａ）よりその最適符号として頻度
10の参照辞書単位の符号1110101を付す。

遷移コードを復号するときは、第６図の文字グループ
間での遷移回数の順位データをもとに遷移コード111010
1が頻度10であり直前のグループナンバーが０であるこ
とから現文字列の参照辞書単位が６であることを判定す
る。

第７図（ｂ）にその符号語を示す。

本実施例では、符号語を解釈するために、１つ前の文
字列の最終文字の属する参照辞書単位を必要とするが、
出力されている圧縮符号列に１つ前の文字列の最終文字
が送られているので、それにより現文字列のグループナ
ンバーを識別することが可能である。

〔発明の効果〕

本発明によれば、参照辞書を大きくとっても、符号語
が長くなることがなく、参照辞書を大きくした分に見合
った十分な圧縮率の向上が計れる。特に、増分分解型ZL
符号圧縮方式においても、従来のユニバーサル型ZL符号
圧縮方式より高い圧縮率が得られる。

【図面の簡単な説明】

第１図は、本発明の基本構成を示す図である。第２図は、本発明の圧縮符号生成手段のフローを示す図
である。第３図は、本発明の第１実施例（１）を示す図である。第４図は、本発明の第１実施例（２）を示す図である。第５図は、本発明の第２実施例（１）を示す図である。第６図は、本発明の第２実施例（２）を示す図である。第７図は、本発明の第２実施例（３）を示す図である。第８図は、従来の増分分解型ZL符号によるデータ圧縮方
式のTreeインデックスの生成方法を示す図である。第９図は、従来の増分分解型ZL符号によるデータ圧縮方
式の説明図である。第10図は、従来のユニバーサル型ZL符号によるデータ圧
縮方式の説明図である。図において、 1:入力文字列、 2:入力バッファ、 3:符号化手段、 4:参照辞書単位の仮符号設定手段、 5:参照辞書、 6:圧縮符号出力手段、 10:参照辞書照合手段、 10′：符号語作成手段、 11:参照辞書登録手段、 12:最適符号変換手段、 13:登録文字列数カウント手段、 14:最適符号設定手段、 16:ZL符号化方式の例、 17:符号語形式、 20:仮符号による符号語の形式の例 21:最適値に変換後の符号語の例

───────────────────────────────────────────────────── フロントページの続き (72)発明者千葉広隆神奈川県川崎市中原区上小田中1015番地富士通株式会社内 (56)参考文献米国特許4876541（ＵＳ，Ａ) ＴｈｅＡｕｓｔｒａｌｉａｎＣｏｍｐｕｔｅｒＪｏｕｒｎａｌ，Ｖｏｌ．19，Ｎｏ．２，Ｍａｙ 1987，”ＡＬｉｎｅａｒＡｌｇｏｒｉｔｈｍｆｏｒＤａｔａＣｏｍｐｒｅｓｓｉｏｎ”．，Ｐ．64−68

Claims

(57)【特許請求の範囲】

【請求項１】入力文字列に対して辞書を参照して文字部
分列を順次に符号化し、異なる文字列毎に異なる登録番号を付与して辞書を作成
し、現在の文字部分列を符号化済の過去の文字部分列のうち
一致する最大長の文字部分列の複製として符号化するデ
ータ圧縮方法において、参照辞書を文字列の各先頭文字もしくは先頭文字グルー
プ毎に登録文字列をグループ化した参照辞書単位により
構成するとともに、登録文字列の登録番号を参照辞書単
位毎にツリー構造で定めた順番で表し、各参照辞書単位に登録されている登録文字列数の統計を
とり、参照辞書単位を表す符号の長さを可変長とし、登録文字
数の多い参照辞書単位程短い符号を付与するように登録
文字数に応じて参照辞書単位に対する符号を定め、入力文字列の符号を参照辞書単位の符号とその参照辞書
単位に登録されている文字列の登録番号により符号化す
ることを特徴とするデータ圧縮方法。
【請求項２】入力文字列に対して辞書を参照して文字部
分列を順次に符号化し、異なる文字列毎に異なる登録番号を付与して辞書を作成
し、現在の文字部分列を符号化済の過去の文字部分列のうち
一致する最大長の文字部分列の複製として符号化するデ
ータ圧縮方法において、参照辞書を文字列の各先頭文字もしくは先頭文字グルー
プ毎に登録文字列をグループ化した参照辞書単位により
構成するとともに登録文字列の登録番号を参照辞書単位
毎にツリー構造で定めた順番で表し、文字列の符号化において、直前の文字列の最終文字を記
憶し、直前の文字列の最終文字もしくは最終文字グルー
プ毎に続く参照辞書単位が使用される頻度の統計をと
り、参照辞書単位を表す符号の長さを可変長とし、直前
の文字列の最終文字に続く頻度の多い参照辞書単位程短
い符号長とするように直前の文字列の最終文字に続く頻
度に応じて参照辞書単位に符号を付与し、入力文字列の符号は参照辞書単位の符号とその登録番号
により構成することを特徴とするデータ圧縮方法。
【請求項３】入力文字列に対して辞書を参照し文字部分
列を順次符号化する符号化手段と、異なる文字列毎に異なる登録番号を付与して辞書を作成
する辞書作成手段と、文字列に対応する登録番号を備える辞書と、前記辞書を参照する辞書参照手段を備え、現在の文字部
分列を符号化済の過去の文字部分列のうち一致する最大
長の文字部分列の複製として符号化するデータ圧縮装置
において、文字列の各先頭文字もしくは先頭文字グループ毎に登録
文字列をグループ化した参照辞書単位により構成すると
ともに、登録文字列の登録番号を参照辞書単位毎にツリ
ー構造で定めた順番に表された参照辞書と、参照辞書単位に登録されている登録文字列数の統計をと
る登録文字列数カウント手段と、登録文字列数に基づいて参照辞書単位を表す符号を、そ
の符号の長さを可変長として登録文字数の多い参照辞書
単位ほど短い符号が付与されるように登録文字数に応じ
て参照辞書単位に対する符号を最適化する最適符号設定
手段を備え、入力文字列の符号を参照辞書単位の符号とその参照辞書
単位に登録されている文字列の登録番号により符号化す
ることを特徴とするデータ圧縮装置。
【請求項４】入力文字列に対して辞書を参照し文字部分
列を順次符号化する符号化手段と、異なる文字列毎に異
なる登録番号を付与して辞書を作成する辞書作成手段
と、文字列に対応する登録番号を備える辞書と、前記辞書を参照する辞書参照手段を備え、現在の文字部
分列を符号化済の過去の文字部分列のうち一致する最大
長の文字部分列の複製として符号化するデータ圧縮装置
において、文字列の各先頭文字もしくは先頭文字グループ毎に登録
文字列をグループ化した参照辞書単位により構成すると
ともに登録文字列の登録番号を参照辞書単位毎にツリー
構造で定めた順番に表された参照辞書と、直前の文字列の最終文字もしくは最終文字グループ毎に
続く参照辞書単位が使用される頻度の統計をとる遷移数
カウント手段と、文字列の符号化において、直前の文字列の最終文字を記
憶し、直前の文字列の最終文字に続く頻度の多い参照辞
書単位程短い符号長とするように参照辞書単位に対する
符号を最適化する最適符号設定手段とを備え、入力文字列の符号を参照辞書単位の符号とその参照辞書
単位に登録されている文字列の登録番号により符号化す
ることを特徴とするデータ圧縮装置。