JPH05128103A

JPH05128103A - データ圧縮方式

Info

Publication number: JPH05128103A
Application number: JP3286136A
Authority: JP
Inventors: Yasuhiko Nakano; 泰彦中野; Shigeru Yoshida; 茂吉田; Yoshiyuki Okada; 佳之岡田; Hirotaka Chiba; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-10-31
Filing date: 1991-10-31
Publication date: 1993-05-25
Anticipated expiration: 2018-03-10
Also published as: JP3384813B2

Abstract

(57)【要約】【目的】入力された文字列を圧縮するデータ圧縮方式
に関し、辞書への登録を抑制し、符号化に要する時間を
短縮することを目的とする。【構成】出現頻度演算手段１は、入力された文字列を
構成する文字の出現数に基づき出現頻度を演算する。生
起確率推定手段２は、この出現頻度に基づいて、新規に
入力された新規入力文字列の生起確率を推定する。辞書
登録手段３は、この生起確率が所定の第１の基準確率値
以上となる場合は、新規入力文字列に識別番号を付して
辞書６に登録する。文字列検索手段４は、辞書６から新
規入力文字列と一致する一致文字列を検索する。符号化
手段５は、この一致文字列に付された識別番号を符号化
して出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はデータ圧縮方式に関し、
特に文字の出現頻度を演算して出現頻度から一致検索処
理を制限するデータ圧縮方式に関する。

【０００２】近年、著しい技術開発によって、コンピュ
ータの処理速度及び記憶容量等は飛躍的な発展を遂げつ
つある。しかし、コンピュータでベクトル情報及び画像
情報等のデータを扱うようになってからは、従来以上に
取り扱うデータ量が増加しつつある。このようなデータ
量の大幅な増加に対処するため、データの内容を損なわ
ずにデータ量を減らす方式、すなわちデータ圧縮方式が
提案された。

【０００３】このデータ圧縮方式は大量のデータを扱う
場合、データに含まれる冗長な部分を省いて符号化する
ことによって、データを圧縮する方式である。データ圧
縮方式によって、データ量を減らすことができ、結果的
に記憶容量を減らすことができる。また、通信では圧縮
したデータを伝送することによって、同一内容の情報を
速く伝送することができる。

【０００４】なお、「文字（Character ）」及び「文字
列（Character String）」の定義はＪＩＳ−Ｃ６２３０
に従うほか、情報理論で用いられている呼称を踏襲し、
１ワード単位で構成されるデータを「文字」と呼び、任
意のワード単位で構成されるデータを「文字列」と呼ぶ
ことにする。

【０００５】

【従来の技術】従来、上記のようなデータを圧縮する方
式としては、ユニバーサル符号化方式が提案されてい
る。ユニバーサル符号化方式の代表的な例として、ＬＺ
（Lempel-Ziv）符号化法と算術符号化法とがある。ま
た、ＬＺ符号化法には、ユニバーサル型と増分分解型
（Incrementalpersing ）のアルゴリズムが提案されて
いる。さらに、これらのアルゴリズムを改良した符号化
法として、ユニバーサル型に属するＬＺＳＳ符号化法
と、増分分解型に属するＬＺＷ（Lempel-Ziv-Welch）符
号化法とがある。

【０００６】なお、ＬＺ符号化法は、例えば、宗像清治
著「Lempel-Zivデータ圧縮法」、情報処理、pp.2〜6, V
ol.26, No.1, 1985 に詳しく掲載されている。また、Ｌ
ＺＳＳ符号化法は、T.C. Bell, "Better OPM/L Text Co
mpression", IEEE Trans.onCommu., Vol.COM-34, No.1
2, Dec.1986 に詳しく掲載されている。さらに、ＬＺＷ
符号化法は、T.A. Welch, "A Technique for High-Perf
ormance Data Compression", Computer, Jun.1984 に詳
しく掲載されている。そして、増分分解型の符号化法及
びＬＺＷ符号化法は、特開昭59−231683号、米国特許Ｎ
o. 4,558,302号において開示されている。

【０００７】これらの符号化法のうち、高速処理がで
き、アルゴリズムが簡単であるという利点から、一般的
にＬＺＷ符号化法が使用されてきた。ＬＺＷ符号化法
は、書き換え可能な辞書をもち、以下に示す処理によっ
て符号化を行う方法である。まず、新規の入力文字列を
相異なる部分文字列に分割し、この部分文字列が辞書に
登録されてなければ、出現した順に識別番号を付して全
て辞書に登録する。同時に、現在入力している部分文字
列のうち、最長の部分文字列と一致する部分文字列を辞
書から選択し、選択した部分文字列に付されている識別
番号で符号化する。また、ある区間における圧縮率が所
定値よりも低いときは、それまで学習により蓄積してき
た部分文字列を有する辞書を破棄し、新たに辞書を構築
した。

【０００８】図５は、辞書の木構造の一例を示す図であ
る。この辞書の木構造は、ＬＺ符号化法に含まれる増分
分解型のアルゴリズムによる符号化の際に用いられる辞
書の内部構造を示したものである。図において、丸数字
は識別番号を示し、この丸数字が付されている箇所を
「ノード（node；節）」と呼ぶ。

【０００９】辞書５０は、ルート（root；根）５１を起
点とする。このルート５１には、文字は割り当てられな
い。そして、ルート５１の一階層下、すなわち第１階層
５２には一文字目の文字が登録される。この一文字目の
文字の登録は、相異なる文字が登録され、主に辞書５０
の初期化の時に行われる。図には「ａ」，「ｂ」及び
「ｃ」の３文字が登録されているが、実際には８ビット
のデータで表現可能な２５６文字が登録される。

【００１０】そして、第２階層５３から下の階層は、情
報源から入力された文字列を学習することによって登録
される文字である。なお、一つ下の階層を有するノード
を「枝（branch）」と呼び、一つ下の階層を有するノー
ドを「葉（leaf）」と呼ぶ。したがって、図では丸数字
の２５，２６，１３，１４，２７，２８，１６，６，・
・・，２２，２３，２４のノードが「葉」であり、その
他のノードは「枝」である。

【００１１】なお、あるノードが現在は「葉」であって
も、学習により「枝」となる可能性がある。例えば、
「ａｃｄ」という文字列を辞書５０に登録する場合、文
字列「ａｃ」は第１階層５２が「ａ」（丸数字１）、第
２階層５３が「ｃ」（丸数字６）として登録されている
ので、第２階層５３の「ｃ」の下の第３階層５４に、新
たに「ｄ」を登録することになる。このとき、丸数字６
のノードは「葉」から「枝」に変わる。

【００１２】次に、この辞書５０を使用した圧縮処理の
アルゴリズムについて説明する。図６は、ＬＺＷ符号化
法による圧縮処理のアルゴリズムを示すフローチャート
である。図において、Ｓの後に続く数字はステップ番号
を示す。

【００１３】〔Ｓ６１〕初期化処理を行う。具体的に
は、辞書Ｄの初期化及び変数ｎの初期化を行う。辞書Ｄ
の初期化では、相異なる１文字からなる文字列を全て辞
書Ｄに登録する。すなわち、Ｄ（ｉ）＝ｉ（ｉ＝１，２，・・・，Ａ）を行う。ここで、Ａはアルファベットの大きさを表し、
通常２５６である。また、変数ｎの初期化では、辞書Ｄ
の初期化で登録した文字の種類数、すなわちアルファベ
ットの大きさＡを設定する。さらに、新規に入力する文
字列の先頭に、カーソルが位置付けられるように設定す
る。

【００１４】〔Ｓ６２〕文字列検索処理を行う。すなわ
ち、入力ストリーム（input stream）から新規に文字列
を入力する。その後、カーソル位置に示される文字から
の文字列と一致する文字列のうち、最大長の文字列を辞
書Ｄから検索する。もし、入力する文字列がなければ、
圧縮処理を終了する。

【００１５】〔Ｓ６３〕符号化処理を行う。すなわち、
ステップＳ６２において検索された文字列に付された識
別番号を符号化して出力ストリーム（output stream ）
へ出力する。例えば、検索によって得られた文字列の識
別番号をｒとすると、ビット数が〔log₂ｒ〕の２進数符
号に変換して出力する。ここで、記号〔ｘ〕は数値ｘ以
上の整数のうち、最小の整数を表す。以下、この意味で
記号〔ｘ〕を用いることにする。

【００１６】〔Ｓ６４〕文字列処理を行う。すなわち、
カーソル位置に示される最初の文字を保存しておき、ス
テップＳ６２で入力した現在の入力文字列につづく文字
列の先頭に、カーソルが位置付けられるように設定す
る。

【００１７】〔Ｓ６５〕辞書登録判別を行う。具体的に
は、変数ｎが辞書Ｄに登録可能な最大値ＮＭＡＸを超え
ているか否かを判別する。もし、変数ｎが最大値ＮＭＡ
Ｘを超えていなければ（ＹＥＳ）ステップＳ６６に進
み、超えていれば（ＮＯ）ステップＳ６７に進む。

【００１８】〔Ｓ６６〕辞書登録処理を行う。すなわ
ち、変数ｎを１だけ増加（以下、１だけ増加する操作を
「インクリメント」と呼ぶ。）する。その後、現在の入
力文字列にステップＳ６４で保存した文字を付加した文
字列に、識別番号をｎとして辞書Ｄに登録する。そし
て、次の文字列を処理するためステップＳ６２に戻る。

【００１９】〔Ｓ６７〕圧縮率の悪化を判別する。すな
わち、圧縮率＝（入力文字列の全ビット数）／（符号の全ビッ
ト数）を演算し、圧縮率が低下していないかどうか判別する。
もし、圧縮率が悪化（低下）していれば（ＹＥＳ）ステ
ップＳ６１に戻り、悪化していなければ（ＮＯ）ステッ
プＳ６２に戻る。

【００２０】このように、従来のＬＺＷ符号化法では、
辞書登録において辞書が一杯になった場合、すなわち辞
書の最大アドレスまで登録が行われた場合には辞書への
登録を中止した。そして、入力文字列が所定量、例えば
数 100キロバイトの単位毎に圧縮率を判別し、今回の圧
縮率が前回の圧縮率より低くなった場合は辞書を初期化
していた。この理由は、入力されるデータ（文字列）が
蓄積された辞書の統計的性質とは大きく異なるため、圧
縮率がさらに悪化すると判断したからである。

【００２１】また、算術符号化法には、例えば、複数個
のシンボルの符号化に用いる多値算術符号化法がある。
多値算術符号化法は、入力文字列を〔０，１）の数直線
上の一点に対応付け、入力文字列ごとに出現した文字列
の出現確率から演算した累積出現確率によって、〔０，
１）区間を逐次に細分化する方法である。実際の多値算
術符号化法では、有限桁の固定長レジスタで種々の演算
を行うため、ビット単位に符号化することができる。な
お、多値算術符号化法は、I.H. Witten 他, "Arimetic
Coding for Data Compression", Commu. of ACM,Vol.3
0, No.6, 1987に詳しく掲載されている。ここで、上記
の〔ｘ，ｙ）区間とは数値がｘ以上ｙ未満（ｘは含まれ
るが、ｙは含まれない）の区間のことである。

【００２２】図７は、多値算術符号化法による圧縮処理
のアルゴリズムを示すフローチャートである。図におい
て、Ｓの後に続く数字はステップ番号を示す。〔Ｓ７１〕初期化処理を行う。具体的には、辞書Ｄの初
期化と変数の初期化を行う。辞書Ｄの初期化では、相異
なる１文字からなる文字列を全て辞書Ｄに登録する。す
なわち、Ｄ（ｉ）＝ｉ（ｉ＝１，２，・・・，Ａ）を行う。ここで、Ａはアルファベットの大きさを表し、
通常２５６である。また、変数ｎの初期化では、算術用
１次元配列Ｉ、出現頻度１次元配列freq及び累積出現頻
度１次元配列cum-freqを初期化する。すなわち、Ｉ（ｉ）＝ｉ（ｉ＝１，２，・・・，Ａ） freq(i) ＝１（ｉ＝１，２，・・・，Ａ） cum-freq(i) ＝Ａ−ｉ（ｉ＝１，２，・・・，Ａ）を行う。

【００２３】〔Ｓ７２〕文字入力処理を行う。すなわ
ち、入力ストリームから新規に１文字ｋを入力する。〔Ｓ７３〕ステップＳ７２で新規に文字を入力したか否
かの判別を行う。もし、新規に文字を入力した（ＹＥ
Ｓ）ならばステップＳ７４に進み、新規に文字を入力し
なかった（ＮＯ）ならば本圧縮処理を終了する。

【００２４】〔Ｓ７４〕多値算術符号化処理を行う。す
なわち、ステップＳ７２で入力された文字ｋに対応する
算術用１次元配列Ｉから算術値ｊを得る。すなわち、ｊ＝Ｉ（ｋ），ｉ＝Ｄ（ｊ）により、ｊを多値算術化する。また、この算出値ｊを符
号化して出力ストリームに出力する。このとき、出力さ
れるビット数は〔ｊ〕である。

【００２５】〔Ｓ７５〕交換処理を行う。すなわち、出
現頻度１次元配列freqに示される配列から最大の出現頻
度を求め、この出現頻度に対応する配列番号ｒとステッ
プＳ７２で得られた算術値ｊとについて、算術用１次元
配列Ｉ及び辞書Ｄ内の文字列を交換する。すなわち、Ｉ
（ｒ）とＩ（ｊ）の値、およびＤ（ｒ）とＤ（ｊ）の値
を交換する。

【００２６】〔Ｓ７６〕累積出現頻度１次元配列cum-fr
eqのソート処理を行う。具体的には、まずステップＳ７
５で得られた出現頻度１次元配列freqの配列番号ｒで示
される内容をインクリメントする。そして、配列番号ｒ
よりも小さな配列番号について、一つ大きな配列番号の
出現頻度１次元配列freqに入っている累積出現頻度を注
目する配列番号の出現頻度１次元配列freqに代入する処
理を行う。すなわち、 cum-freq(r) ＝cum-freq(r)+1 cum-freq(i) ＝cum-freq(i+1) （ｉ＝ r-1, r-2,・・・，１）を行う。そして、次の文字処理のため、ステップＳ７２
に戻る。

【００２７】さらに、他の多値算術符号化法として、多
重の履歴から条件付確率を符号化することによって、高
い圧縮率を得る方法が発表されている。この方法は、例
えば、D.M. Abramson, "An Adaptive Dependancy Sourc
e Model for Data Compression", Commu. of ACM, Vol.
30, No.6, 1987、又は J.G. Cleary 他, "Data Compre
ssion Using Adaptive Coding and Partial String Mat
ching", Commu. of ACM, Vol.30, No.6, 1987 に詳しく
掲載されている。

【００２８】図８は、多重履歴に基づく多値算術符号化
法による圧縮処理のアルゴリズムを示すフローチャート
である。なお、このフローチャートには１重履歴に基づ
く多値算術符号化法による圧縮処理を示す。図におい
て、Ｓの後に続く数字はステップ番号を示す。

【００２９】〔Ｓ８１〕初期化処理を行う。具体的に
は、辞書Ｄの初期化と変数の初期化を行う。辞書Ｄの初
期化では、相異なる１文字からなる文字列を全て辞書Ｄ
に登録する。すなわち、Ｄ（ｐ，ｉ）＝ｉ（ｐ，ｉ＝１，２，・・・，Ａ）を行う。ここで、Ａはアルファベットの大きさを表し、
通常２５６である。また、変数の初期化では、算術用２
次元配列Ｉ、出現頻度２次元配列freq、累積出現頻度２
次元配列cum-freq及び直前文字ｐを初期化する。すなわ
ち、Ｉ（ｐ，ｉ）＝ｉ（ｐ，ｉ＝１，２，・・・，Ａ） freq（ｐ，ｉ）＝１（ｐ，ｉ＝１，２，・・・，Ａ） cum-freq(i) ＝Ａ−ｉ（ｉ＝１，２，・・・，Ａ）ｐ＝１を行う。

【００３０】〔Ｓ８２〕文字入力処理を行う。すなわ
ち、入力ストリームから新規に１文字ｋを入力する。〔Ｓ８３〕ステップＳ８２で新規に文字を入力したか否
かの判別を行う。もし、新規に文字を入力した（ＹＥ
Ｓ）ならばステップＳ８４に進み、新規に文字を入力し
なかった（ＮＯ）ならば本圧縮処理を終了する。

【００３１】〔Ｓ８４〕多値算術符号化処理を行う。す
なわち、ステップＳ８２で入力された文字ｋに対応する
算術用２次元配列Ｉから算術値ｊを得る。すなわち、ｊ＝Ｉ（ｐ，ｋ），ｉ＝Ｄ（ｐ，ｊ）により、ｊを多値算術化する。また、この算出値ｊを符
号化して出力ストリームに出力する。このとき、出力さ
れるビット数は〔ｊ〕である。

【００３２】〔Ｓ８５〕交換処理を行う。すなわち、出
現頻度２次元配列freqに示される配列から最大の出現頻
度を求め、この出現頻度に対応する配列番号ｒとステッ
プＳ８２で得られた算術値ｊとについて、算術用２次元
配列Ｉ及び辞書Ｄ内の文字列を交換する。すなわち、Ｉ
（ｐ，ｒ）とＩ（ｐ，ｊ）の値、およびＤ（ｐ，ｒ）と
Ｄ（ｐ，ｊ）の値を交換する。

【００３３】〔Ｓ８６〕累積出現頻度２次元配列cum-fr
eqのソート処理を行う。ステップＳ８５で得られた出現
頻度２次元配列freqの配列番号ｒの値をインクリメント
する。また、配列番号ｒよりも小さな配列番号につい
て、一つ大きな配列番号の出現頻度２次元配列freqに入
っている累積出現頻度を注目する配列番号の出現頻度２
次元配列freqに代入する処理を行う。すなわち、 cum-freq(r) ＝cum-freq(r)+1 cum-freq(i) ＝cum-freq(i+1) （ｉ＝ r-1, r-2,・・・,1）を行う。

【００３４】〔Ｓ８７〕直前文字設定を行う。すなわ
ち、今回新規に入力した文字ｋを改めて直前文字ｐとし
て設定する。そして、次の文字処理のため、ステップＳ
８２に戻る。

【００３５】

【発明が解決しようとする課題】従来のＬＺＷ符号化法
では、辞書内の文字列と入力文字列とを照合して圧縮を
行うので処理速度は速い。しかし、稀にしか参照されな
い文字列でさえも辞書に登録されていたため、辞書に登
録する文字列に付される識別番号が大きくなってしま
い、この識別番号を符号化するときのビット数も増え、
圧縮効率が低下するという問題点があった。

【００３６】また、辞書を破棄することによって、それ
まで学習により蓄積してきた文字列が有効に利用できな
くなるため、かえって圧縮効率が低下していた。これを
解決するため、本出願人は特願平2-275836号において開
示したように、辞書内の各文字列に、最近参照されたか
否かを示すフラグを付した。そして、このフラグによっ
て最近参照された文字列のみを区別し、再構築する辞書
に残すようにした。これによって、学習して辞書に登録
した文字列を生かすようにした。

【００３７】しかし、辞書の再構築には、最近参照され
た文字列か否かを判別しなければならないため、かなり
の時間を要していた。したがって、全符号化処理が終わ
るまでには時間がかかるという問題点があった。

【００３８】一方、従来の多値算術符号化法では、出現
確率に基づき文字ごとに符号化を行うので高い圧縮率が
得られるが、この符号化には複雑な算術処理を行わなけ
ればならず、複雑な算術処理のために時間がかかるとい
う問題点があった。

【００３９】本発明はこのような点に鑑みてなされたも
のであり、辞書へ登録する文字列を抑えて、符号化に必
要な時間を短縮するデータ圧縮方式を提供することを目
的とする。

【００４０】

【課題を解決するための手段】図１に本発明の原理説明
図を示す。出現頻度演算手段１は、入力された文字列を
構成する文字の出現数に基づき、出現頻度を演算する。
生起確率推定手段２は、この出現頻度に基づき、新規に
入力された新規入力文字列の生起確率を推定する。辞書
登録手段３は、この生起確率が所定の第１の基準確率値
以上となるときは、新規入力文字列に識別番号を付して
辞書６に登録する。文字列検索手段４は、辞書６から、
新規入力文字列と一致する一致文字列を検索する。符号
化手段５は、この一致文字列に付された識別番号を符号
化して出力する。

【００４１】また、出現頻度演算手段１は、入力された
文字列を構成する文字と、文字が出現した出現数を全て
記憶し、出現数に基づき出現頻度を演算する。あるい
は、予め全文字列を入力し、全文字列を構成する文字と
文字が出現した出現数とを全て記憶し、新規に入力され
た新規入力文字列を構成する文字毎に出現数に加え、出
現数に基づき出現頻度を演算する。

【００４２】さらに、生起確率推定手段２は、特定のデ
ータから始まる文字列の生起確率である条件付確率を推
定する。また、特定のデータは、特に新規入力文字列の
直前に入力された入力文字列の中の最終文字とする。

【００４３】そして、文字列検索手段４は、辞書６に登
録された文字列のうち、新規入力文字列と一致する一致
文字列を検索する。あるいは、新規入力文字列を相異な
る部分文字列に分割し、辞書６に登録された文字列のう
ち、部分文字列と一致する一致文字列を検索し、一致文
字列のうち文字列長が最長である文字列を選択する。ま
た、この一致文字列は、特に生起確率が所定の第２の基
準確率値以上となる文字列とする。

【００４４】それから、辞書登録手段３は、新規入力文
字列の符号化による圧縮率が悪化した場合には、辞書６
を再構成する手段を設ける。

【００４５】

【作用】出現頻度演算手段１は、入力された文字列を構
成する文字の出現数に基づき、出現頻度を演算する。生
起確率推定手段２は、出現頻度に基づき、新規に入力さ
れた新規入力文字列の生起確率を推定する。辞書登録手
段３は、この生起確率が所定の第１の基準確率値以上と
なる場合は、新規入力文字列に識別番号を付して辞書６
に登録する。文字列検索手段４は、辞書６から新規入力
文字列と一致する一致文字列を検索する。符号化手段５
は、この一致文字列に付された識別番号を符号化して出
力する。したがって、辞書６への登録が抑えられるた
め、識別番号の増加も抑えられ、符号化効率を高めるこ
とができる。

【００４６】また、出現頻度演算手段１は、入力された
文字列を構成する文字と文字が出現した出現数とを全て
記憶し、出現数に基づき出現頻度を演算する。あるい
は、予め全文字列を入力し、全文字列を構成する文字と
文字が出現した出現数とを全て記憶し、新規に入力され
た新規入力文字列を構成する文字毎に出現数に加え、出
現数に基づき出現頻度を演算する。これによって、出現
頻度の高い文字列のみが辞書６に登録されるため、辞書
６が極度に大きくなるのを抑えることができる。

【００４７】さらに、生起確率推定手段２は、特定のデ
ータから始まる文字列の生起確率である条件付確率を推
定する。また、特定のデータは、特に新規入力文字列の
直前に入力された入力文字列の中の最終文字とすること
によって、文字のつながりの関連性が高い文字列が辞書
６に登録されるため、入力される文字列（データ）に適
した符号を出力することができる。

【００４８】そして、文字列検索手段４は、辞書６に登
録された文字列のうち、新規入力文字列と一致する一致
文字列を検索する。あるいは、新規入力文字列を相異な
る部分文字列に分割し、辞書６に登録された文字列のう
ち、部分文字列と一致する一致文字列を検索し、一致文
字列のうち文字列長が最長である文字列を選択する。ま
た、この一致文字列は、特に生起確率が所定の第２の基
準確率値以上となる文字列とする。これにより、所定の
文字列に対して最適な符号化処理が行え、圧縮率を高め
ることができる。

【００４９】それから、辞書登録手段３は、新規入力文
字列の符号化による圧縮率が悪化した場合には、辞書６
を再構築して、圧縮率の悪化を防ぐことができる。

【００５０】

【実施例】以下、本発明の一実施例を図面に基づいて説
明する。図２は、本発明の実施例を示すフローチャート
である。この符号化処理手順は、出現頻度に以前入力し
た文字の履歴を考慮しない、いわゆる０重マルコフ・モ
デルに適応させた符号化処理手順である。図において、
Ｓの後に続く数字はステップ番号を示す。

【００５１】〔Ｓ２１〕初期化処理を行う。具体的に
は、変数の初期化として、各文字の出現の頻度を計数す
るための出現頻度１次元配列freqを初期化する。すなわ
ち、 freq(i) ＝１（ｉ＝１，２，・・・，Ａ）を行う。ここで、Ａはアルファベットの大きさを表し、
通常２５６である。また、辞書登録数を示す変数ｎの初
期化では、辞書Ｄの初期化で登録した文字の種類数、す
なわちアルファベットの大きさＡを設定する。さらに、
新規に入力する文字列の先頭にカーソルが位置付けられ
るように設定する。

【００５２】〔Ｓ２２〕辞書構築を行う。まず、情報源
から新規に文字列を入力しながら、文字総数Ｔ及び出現
確率１次元配列ｐを求める。すなわち、Ｔ＝Σfreq(i) （ｉ＝１，２，・・・，Ａ）ｐ(i) ＝freq(i) ／Ｔ（ｉ＝１，２，・・・，Ａ）を行う。そして、辞書Ｄの構築では、式ｐ(1) ｐ(2) ｐ(3) ・・・ｐ(A) Ｔ≧Ｃを満たす全ての文字列を識別番号とともに辞書Ｄに登録
する。ここで、定数Ｃは無制限に文字列を辞書Ｄに登録
するのを避けるための所定値である。また、入力する文
字列の先頭にカーソルが位置付けられるように、改めて
設定する。

【００５３】〔Ｓ２３〕文字列入力検査を行う。すなわ
ち、入力ストリームから新規に文字列を入力されるか否
かを判定する。もし、文字列が入力された（ＹＥＳ）な
らばステップＳ２４に進み、文字列が入力されなかった
（ＮＯ）ならば本圧縮処理を終了する。

【００５４】〔Ｓ２４〕文字列検索処理を行う。具体的
には、カーソルの位置からの文字列と一致する文字列を
辞書Ｄから検索する。このとき、辞書Ｄからは、式ｐ(1) ｐ(2) ｐ(3) ・・・ｐ(A) Ｔ≧（Ｃ＋α）を満たす文字列のみを検索する。ここで、定数αは辞書
Ｄを新たに作る余地を確保するための所定値である。ま
た、検索された文字列のうち、最も文字数が多い文字列
を最大一致文字列Ｓとする。逆に、上記の式を満足する
文字列が検索されなかったならば、この文字列に新しい
識別番号を付す。

【００５５】〔Ｓ２５〕符号出力を行う。すなわち、最
大一致文字列Ｓ又はステップＳ２４で検索されなかった
文字列に付されている識別番号を〔ｎ〕ビットで符号化
して出力する。

【００５６】〔Ｓ２６〕出現頻度インクリメントを行
う。すなわち、ステップＳ２５で符号化した文字列に対
応する出現頻度１次元配列freqをインクリメントする。
また、文字総数Ｔ及び出現確率１次元配列ｐを改めて求
める。すなわち、Ｔ＝Σfreq(i) （ｉ＝１，２，・・・，Ａ）ｐ(i) ＝freq(i) ／Ｔ（ｉ＝１，２，・・・，Ａ）を行う。

【００５７】〔Ｓ２７〕辞書登録を行う。すなわち、ス
テップＳ２４で検索されなかった文字列に、前回ステッ
プＳ２８で記憶した先頭文字ｋを付加して、辞書登録の
ための登録文字列を作る。そして、この登録文字列を識
別番号とともに辞書Ｄに登録する。また、辞書登録を行
なったときは変数ｎをインクリメントする。

【００５８】〔Ｓ２８〕カーソル位置設定を行う。具体
的には、ステップＳ２５で符号化した文字列の先頭の文
字を先頭文字ｋとして記憶する。そして、次に入力する
文字列を処理するために、この文字列の次の文字に位置
付けする。

【００５９】〔Ｓ２９〕圧縮率の悪化を判別する。すな
わち、入力された文字列の所定量、例えば数 100キロバ
イトごとの文字列について、圧縮率＝（所定の入力文字列の全ビット数）／（符号の
全ビット数）を演算し、圧縮率が低下していないかどうか判別する。
もし、圧縮率が悪化（低下）していれば（ＹＥＳ）ステ
ップＳ２２に戻り、悪化していなければ（ＮＯ）ステッ
プＳ２３に戻る。なお、ステップＳ２２に戻る場合は、
辞書Ｄが再構築される。

【００６０】図３は、多重履歴に基づく辞書の木構造の
一例を示す図である。この辞書の木構造は、出現頻度に
以前入力した一文字前の履歴を考慮した、いわゆる１重
マルコフ・モデルに適応させた符号化処理の際に用いら
れる辞書の内部構造を示したものである。図において、
丸数字は識別番号を示し、この丸数字が付されている箇
所を「ノード（node；節）」と呼ぶ。

【００６１】図において、辞書３０は、直前文字３１ａ
からなる部分辞書３１、直前文字３２ａからなる部分辞
書３２及び直前文字３３ａからなる部分辞書３３から構
成される。しかし、実際には８ビットのデータで表現可
能な２５６の直前文字からなる部分辞書から構成され
る。これらの部分辞書３１、部分辞書３２及び部分辞書
３３等の各部分辞書は、図５で示した木構造と同様の構
造をしている。

【００６２】この辞書３０を使用して、辞書登録及び検
索は次のような手順で行われる。まず、直前文字によっ
て、いずれかの部分辞書が選択される。そして、登録又
は検索する文字列について、選択された部分辞書の中か
ら登録又は検索が行われる。例えば、直前文字が「ａ」
として、文字列「ｂａｂ」を検索する場合、まず直前文
字が「ａ」であることから部分辞書３１が選択される。
そして、この部分辞書３１について、文字列「ｂａｂ」
はノードの丸数字２，７，１２をたどることによって検
索される。

【００６３】次に、この辞書３０を使用した圧縮処理の
アルゴリズムについて説明する。図４は、本発明の他の
実施例を示すフローチャートである。この符号化処理手
順は、出現頻度に以前入力した一文字前の履歴を考慮し
た、いわゆる１重マルコフ・モデルに適応させた符号化
処理手順である。図において、Ｓの後に続く数字はステ
ップ番号を示す。

【００６４】〔Ｓ４０〕初期化処理を行う。具体的に
は、変数の初期化として、まず文字ｊの後に文字ｉが出
現する頻度を計数するための出現頻度２次元配列freqを
初期化する。すなわち、 freq(i,j) ＝１（ｉ，ｊ＝１，２，・・・，Ａ）を行う。ここで、Ａはアルファベットの大きさを表し、
通常２５６である。また、辞書登録数を示す変数ｎの初
期化では、辞書Ｄの初期化で登録した文字の種類数、す
なわちアルファベットの大きさＡを設定する。さらに、
新規に入力する文字列の先頭にカーソルが位置付けられ
るように設定する。

【００６５】〔Ｓ４１〕辞書構築を行う。まず、情報源
から新規に文字列を入力しながら、文字総数Ｔ、履歴出
現確率１次元配列ｐ(i｜j)及び特定文字出現確率１次元
配列ｐ(k) を求める。すなわち、Ｔ＝Σfreq(i,j) （ｉ，ｊ＝１，２，・・・，Ａ）ｐ(i｜j)＝freq(i,j)/（ｐ(j) Ｔ）（ｉ，ｊ＝１，２，・・・，Ａ）ｐ(k) ＝Σｐ(k｜j) （ｊ，ｋ＝１，２，・・・，Ａ）を行う。そして、辞書Ｄの構築では、式ｐ(k) ｐ(1｜k)ｐ(2｜1)ｐ(3｜2)・・・ｐ(n｜n-1)Ｔ≧Ｃを満たす全ての文字列を識別番号とともに辞書Ｄに登録
する。ここで、定数Ｃは無制限に文字列を辞書Ｄに登録
するのを避けるための所定値である。また、入力する文
字列の先頭にカーソルが位置付けられるように、改めて
設定する。ここで、ｐ(i｜j)は特定の文字ｊが出現した
後に、文字ｉが出現する条件付確率を示す。

【００６６】〔Ｓ４２〕文字列入力検査を行う。すなわ
ち、入力ストリームから新規に文字列を入力されるか否
かを判定する。もし、文字列が入力された（ＹＥＳ）な
らばステップＳ４３に進み、文字列が入力されなかった
（ＮＯ）ならば本圧縮処理を終了する。

【００６７】〔Ｓ４３〕文字列検索処理を行う。具体的
には、カーソルの位置からの文字列と一致する文字列を
辞書Ｄから検索する。このとき、辞書Ｄからは、式ｐ(k) ｐ(1｜k)ｐ(2｜1)ｐ(3｜2)・・・ｐ(n｜n-1)Ｔ≧（Ｃ＋α）を満たす文字列のみを検索する。ここで、定数αは辞書
Ｄを新たに作る余地を確保するための所定値である。ま
た、検索された文字列のうち、最も文字数が多い文字列
を最大一致文字列Ｓとする。逆に、上記の式を満足する
文字列が検索されなかったならば、この文字列に新しい
識別番号を付す。

【００６８】〔Ｓ４４〕符号出力を行う。すなわち、最
大一致文字列Ｓ又はステップＳ４５で検索されなかった
文字列に付されている識別番号を〔ｎ〕ビットで符号化
して出力する。

【００６９】〔Ｓ４５〕出現頻度インクリメントを行
う。すなわち、ステップＳ４４で符号化した文字列のう
ち、直前文字ｒを含む文字列に対応する出現頻度２次元
配列freqをインクリメントする。また、履歴出現確率１
次元配列ｐ(i｜j)及び特定文字出現確率１次元配列ｐ
(k) を改めて求める。すなわち、Ｔ＝Σfreq(i,j) （ｉ，ｊ＝１，２，・・・，Ａ）ｐ(i｜j)＝freq(i,j)/（ｐ(j) Ｔ）（ｉ，ｊ＝１，２，・・・，Ａ）ｐ(k) ＝Σｐ(k｜j) （ｊ，ｋ＝１，２，・・・，Ａ）を行う。

【００７０】〔Ｓ４６〕辞書登録を行う。すなわち、ス
テップＳ４３で検索されなかった文字列に、前回ステッ
プＳ４７で記憶した先頭文字ｋを付加して、辞書登録の
ための登録文字列を作る。そして、この登録文字列を識
別番号とともに辞書Ｄに登録する。また、辞書登録を行
なったときは変数ｎをインクリメントする。

【００７１】〔Ｓ４７〕直前文字設定を行う。具体的に
は、ステップＳ４４で符号化した文字列の最終の文字を
直前文字ｒとして記憶する。〔Ｓ４８〕カーソル位置設定を行う。具体的には、ステ
ップＳ４４で符号化した文字列の先頭の文字を先頭文字
ｋとして記憶する。そして、次に入力する文字列を処理
するために、この文字列の次の文字に位置付けする。

【００７２】〔Ｓ４９〕圧縮率の悪化を判別する。すな
わち、入力された文字列の所定量、例えば数 100キロバ
イトごとの文字列について、圧縮率＝（所定の入力文字列の全ビット数）／（符号の
全ビット数）を演算し、圧縮率が低下していないかどうか判別する。
もし、圧縮率が悪化（低下）していれば（ＹＥＳ）ステ
ップＳ４１に戻り、悪化していなければ（ＮＯ）ステッ
プＳ４２に戻る。

【００７３】上記他の実施例では、直前文字ｒを考慮し
ないで辞書構築（ステップＳ４１）を行なったが、直前
文字ｒを考慮して、ｐ(1｜r)ｐ(2｜1)ｐ(3｜2)・・・ｐ(n｜n-1)Ｔ≧Ｃr を満たす全ての文字列を識別番号とともに辞書Ｄr に登
録し、辞書Ｄrからの文字列検索（ステップＳ４３）で
は、式ｐ(1｜r)ｐ(2｜1)ｐ(3｜2)・・・ｐ(n｜n-1)Ｔ≧（Ｃr ＋α）を満たす文字列のみを検索するようにしてもよい。ここ
で、定数Ｃr は無制限に文字列を辞書Ｄr に登録するの
を避けるための所定値である。これにより、辞書登録を
行うにあたって、より適切な文字列のみが選択されるた
め、識別番号の増加も抑えることができる。また、辞書
からの検索時間をより短縮することができ、圧縮率もよ
り高めることができる。

【００７４】上記の実施例の説明では、初期化処理では
出現頻度freqを１で初期化したが、入力する文字列（デ
ータ）の性質（例えば、文字データあるいは画像データ
等）によって、統計から推定した所定の値で初期化する
ようにしてもよい。

【００７５】また、識別番号を符号化する際、〔識別番
号〕のビット数からなる符号で出力したが、本出願人が
特願平3-130623号において開示したように、ビット端数
補償、Phasing in Binary Codes、あるいは多値算術符
号からなる符号で出力してもよい。

【００７６】さらに、辞書の再構築は圧縮率の悪化（低
下）を判別することにより行なったが、文字の出現頻度
の計数値の悪化を判別することにより行なってもよい。
文字の出現頻度の計数値としては、例えば全文字の出現
頻度の合計値等がある。

【００７７】なお、上記の各実施例は、ワークステーシ
ョン等における文字コード、ベクトル情報、画像データ
などの圧縮に応用され、記憶容量を大幅に削減すること
ができる。

【００７８】また、通信回線を利用したデータ送受信に
おいても応用でき、通信時間の短縮を図ることができ
る。例えば、モデム、ファクシミリ等の通信機器に応用
できる。

【００７９】

【発明の効果】以上説明したように本発明では、新規に
入力された新規入力文字列について、新規入力文字列を
構成する各文字の出現頻度に基づき演算された生起確率
が所定の基準確率値以上になる場合、この新規入力文字
列に識別番号を付して辞書に登録し、辞書に登録された
文字列のうち、別の新規入力文字列と一致する一致文字
列を検索し、検索された一致文字列に付された識別番号
を符号化して出力するように構成したので、辞書への登
録を抑えることができる。したがって、識別番号の増加
も抑制され、符号化効率を高めることができる。

【００８０】また、辞書に登録される文字列が抑えられ
るため、検索が速くなり、符号化処理全体も速くなる。

【図面の簡単な説明】

【図１】本発明の原理説明図である。

【図２】本発明の実施例を示すフローチャートである。

【図３】多重履歴に基づく辞書の木構造の一例を示す図
である。

【図４】本発明の他の実施例を示すフローチャートであ
る。

【図５】辞書の木構造の一例を示す図である。

【図６】ＬＺＷ符号化法による圧縮処理のアルゴリズム
を示すフローチャートである。

【図７】多値算術符号化法による圧縮処理のアルゴリズ
ムを示すフローチャートである。

【図８】多重履歴に基づく多値算術符号化法による圧縮
処理のアルゴリズムを示すフローチャートである。

【符号の説明】

１第１の出現頻度演算手段２生起確率推定手段３辞書登録手段４第１の文字列検索手段５符号化手段６辞書

───────────────────────────────────────────────────── フロントページの続き (72)発明者千葉広隆神奈川県川崎市中原区上小田中1015番地富士通株式会社内

Claims

【特許請求の範囲】

【請求項１】情報源から入力された文字列を、符号化
することにより圧縮して出力するデータ圧縮方式におい
て、入力された文字列を構成する文字の出現数に基づき、出
現頻度を演算する出現頻度演算手段（１）と、前記出現頻度に基づき、新規に入力された新規入力文字
列の生起確率を推定する生起確率推定手段（２）と、前記生起確率が所定の第１の基準確率値以上となる場合
は、前記新規入力文字列に識別番号を付して辞書（６）
に登録する辞書登録手段（３）と、前記辞書（６）から、前記新規入力文字列と一致する一
致文字列を検索する文字列検索手段（４）と、前記一致文字列に付された前記識別番号を、符号化して
出力する符号化手段（５）と、を有することを特徴とするデータ圧縮方式。
【請求項２】前記出現頻度演算手段（１）は、前記入
力された文字列を構成する文字と、前記文字が出現した
出現数とを全て記憶し、前記出現数に基づき出現頻度を
演算するように構成したことを特徴とする請求項１記載
のデータ圧縮方式。
【請求項３】前記出現頻度演算手段（１）は、予め全
文字列を入力し、前記全文字列を構成する文字と前記文
字が出現した出現数とを全て記憶し、新規に入力された
新規入力文字列を構成する文字毎に前記出現数に加え、
前記出現数に基づき出現頻度を演算するように構成した
ことを特徴とする請求項１記載のデータ圧縮方式。
【請求項４】前記生起確率推定手段（２）は、特定の
データから始まる文字列の生起確率である条件付確率を
推定するように構成したことを特徴とする請求項１，
２，又は３記載のデータ圧縮方式。
【請求項５】前記特定のデータは、前記新規入力文字
列の直前に入力された入力文字列の中の最終文字である
ように構成したことを特徴とする請求項４記載のデータ
圧縮方式。
【請求項６】前記文字列検索手段（４）は、前記辞書
（６）に登録された文字列のうち、前記新規入力文字列
と一致する一致文字列を検索するように構成したことを
特徴とする請求項１〜５のいずれか１項に記載のデータ
圧縮方式。
【請求項７】前記文字列検索手段（４）は、前記新規
入力文字列を相異なる部分文字列に分割し、前記辞書
（６）に登録された文字列のうち、前記部分文字列と一
致する一致文字列を検索し、前記一致文字列のうち文字
列長が最長である文字列を選択するように構成したこと
を特徴とする請求項１〜５のいずれか１項に記載のデー
タ圧縮方式。
【請求項８】前記一致文字列は、生起確率が所定の第
２の基準確率値以上となる文字列であるように構成した
ことを特徴とする請求項６又は請求項７記載のデータ圧
縮方式。
【請求項９】前記辞書登録手段（３）は、前記新規入
力文字列の符号化による圧縮率が悪化した場合には、前
記辞書（６）を再構築するように構成したことを特徴と
する請求項１〜８のいずれか１項に記載のデータ圧縮方
式。