JPH05250136A

JPH05250136A - データ圧縮用辞書作成方法及び符号化方法

Info

Publication number: JPH05250136A
Application number: JP4046447A
Authority: JP
Inventors: Shigeru Yoshida; 茂吉田; Yoshiyuki Okada; 佳之岡田; Yasuhiko Nakano; 泰彦中野; Hirotaka Chiba; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1992-03-04
Filing date: 1992-03-04
Publication date: 1993-09-28

Abstract

(57)【要約】（修正有）【目的】ＬＺＷ符号の辞書を作成するためのデータ圧縮
及び符号化を少いメモリ容量で高速に実施処理する。【構成】ＣＰＵでプログラムメモリ１１とデータメモリ
１８を制御する。プログラムメモリにはコントロールソ
フト１２、出現確立算出ソフト１３、辞書作成ソフト１
４、符号化ソフト１５、最長一致文字列検索ソフト１６
及び復号化ソフト１７が設けられ、データメモリ１８に
は、符号化しようとする文字列または復号しようとする
符号列を格納するデータバッファ２２、部分辞書を用い
て表した全体辞書１９、階層構造をもって作られた部分
辞書２０ａ〜２０ｃ、オフセット格納部２１を備えてい
る。オフセット格納部２１には部分辞書２０ａ〜２０ｃ
が全体辞書１９の中で復号されたとき、あるいは部分辞
書２０ａ〜２０ｃが上位の部分辞書から復号されたとき
のバイアス値を格納している。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ユニバーサル符号の一
種である増分分解型の改良として知られたＬＺＷ符号の
辞書作成するデータ圧縮用辞書作成方法及び符号化方法
に関する。近年、文字コード、ベクトル情報、画像など
様々な種類のデータがコンピュータで扱われるようにな
っており、扱われるデータ量も急速に増加してきてい
る。大量のデータを扱うときは、データの中の冗長な部
分を省いてデータ量を圧縮することで、記憶容量を減ら
したり、速く伝送したりできるようになる。

【０００２】様々なデータを１つの方式でデータ圧縮で
きる方法としてユニバーサル符号化が提案されている。
ここで、本発明の分野は、文字コードの圧縮に限らず、
様々なデータに適用できるが、以下では、情報理論で用
いられている呼称を踏襲し、データの１ワード単位を文
字と呼び、データが任意ワードつながったものを文字列
と呼ぶことにする。

【０００３】ユニバーサル符号化の代表的な方法とし
て、ジブ−レンペル（Ｚｉｖ−Ｌｅｍｐｅｌ）符号化と
算術符号化がある。ジブ−レンペル符号ではスライド辞書型（ユニバーサル型ともいう）と、動的辞書型（Ｉ増分分解型ともいう）の２つのアルゴリズムが提案されている。さらに、スラ
イド辞書型アルゴリズムの改良として、ＬＺＳＳ符号
（T.C.Bell,"Better OPM/L Text Compression",IEEE Tr
ans.on Commun.,Vol.COM-34,No.12,Dec.1986参照）や、
パソコンで用いられているLHarc がある。

【０００４】また、動的辞書型アルゴリズムの改良とし
ては、ＬＺＷ（Lempel-Ziv-Welch)符号がある(T.A.Welc
h,"A Technique for High-Performance Data Compressi
on",ComPuter,June 1984 参照）。これらの改良方法は
補助記憶装置のファイル圧縮や、モデムでの伝送データ
の圧縮に利用されるようになっている。

【０００５】一方、算術符号化は、情報源の文字の出現
確率が分かっている場合に、最大の効率で圧縮できると
言われている方法である。この方法は、従来よく用いら
れているハフマン符号化のように１文字ずつばらばらに
符号化せずに、文字列全体をつなぎ目なしの符号語とし
て符号化することで、圧縮効率を高めている。算術符号
化は、入力データの出現確率を測定する学習機構を付加
することによってユニバーサル符号化を実現することが
できる。

【０００６】

【従来の技術】従来のユニバーサル符号化の代表的な方
法である増分分解型ジブ−レンペル符号と、算術符号を
バイト単位のファイル圧縮に用いた多値算術符号化（"A
n Adaptive Dependency Source Model for Data Compre
ssion Scheme",Commun. of ACM,Vol.32,No.1,1989,pp.7
7-83参照）について説明する。（１）動的辞書型（増分分解）ジブ−レンペル符号化このアルゴリズムは、圧縮率はユニバーサル型より劣る
が、シンプルで、計算も容易であることが知られてい
る。

【０００７】増分分解型Ｚｉｖ−Ｌｅｍｐｅｌ符号で
は、入力シンボルの系列をＸ＝ａａｂａｂａｂａａ・・・とすると、成分系列Ｘ＝Ｘ₀ Ｘ₁ Ｘ₂ ・・・への増分分解は次のようにする。

【０００８】入力シンボルＸ₁ を既成分の右端のシンボ
ルを取り除いた最長の列とし、Ｘ＝ａ・ａｂ・ａｂａ・ｂ・ａａ・・・・となる。従って、Ｘ₀ ＝λ（空列）Ｘ₁ ＝Ｘ₀ ａＸ₂ ＝Ｘ₁ ｂＸ₃ ＝Ｘ₂ ａＸ₄ ＝Ｘ₀ ｂＸ₅ ＝Ｘ₁ ａ・・・と分解できる。増分分解した各成分系列は既成分系列を
用いて次のような組で符号化する。

【０００９】

【表１】

【００１０】即ち、動的辞書型アルゴリズムは、符号化
パターンについて、過去に分解した部分列の内、最大長
一致するものを求め、過去に分解した部分列の複製とし
て符号化するものである。更に、動的辞書型アルゴリズ
ムの改良としては、ＬＺＷ符号がある(T.A.Welch,"A Te
chnique for High-Performance Data Compression",Com
Puter,June 1984参照）。ＬＺＷ符号では次のシンボル
を次の部分列に組み込むようにして、インデックスのみ
で符号化できるようにしている。

【００１１】ＬＺＷ符号の符号化アルゴリズムを図１２
に示す。ＬＺＷ符号化は、書き替え可能な辞書をもち、
入力文字列中を相異なる文字列に分け、この文字列を出
現した順に番号を付けて辞書に登録すると共に、現在入
力している文字列を辞書に登録してある最長一致文字列
の番号だけで表して符号化するものである。尚、動的辞
書型符号およびＬＺＷ符号の技術は、特開昭５９−２３
１６８３号、米国特許４，５５８，３０２号で開示され
ている。

【００１２】図１２のＬＺＷ符号化処理は次のようにな
る。［ステップＳ１］初期化のステップである。予め全文字
につき一文字からなる文字列を初期値として登録してか
ら符号化を始める。辞書の登録数ｎを文字種数Ａと置
く。カーソルをデータの先頭の位置に置く。

【００１３】［ステップＳ２］カーソルの位置からの文
字列に一致する辞書登録の最長文字列Ｓを見つける。［ステップＳ３］文字列Ｓの識別番号を「ｌｏｇ₂ ｎ」
ビットで表して出力する。ただし、「ｌｏｇ₂ ｎ」はｌ
ｏｇ₂ ｎ以上の最小の整数を意味する。例えば、辞書登
録数ｎ＝１２では「ｌｏｇ₂ １２」はｌｏｇ₂ １２以上
の最小の整数４を意味する。

【００１４】［ステップＳ４］文字列Ｓのカーソルの最
初の文字Ｃとおく。カーソルは文字列Ｓの後の文字に移
動させる。［ステップＳ５］辞書登録数ｎが辞書の最大アドレスNM
AXより小さいか調べる。もし、小さければステップＳ６
に移り、小さくなければステップＳ７に移る。

【００１５】［ステップＳ６］辞書登録数ｎを一つイン
クリメントし、文字列Ｓに文字Ｃを付加した文字列ＳＣ
を辞書に登録し、ステップＳ２に戻る。［ステップＳ７］圧縮率の変化をチェックし、もし、圧
縮率が悪化していれば、ステップＳ１に戻って辞書を初
期化する。もし、圧縮率が悪化していなければ、ステッ
プＳ２に戻る。

【００１６】このように従来のＬＺＷ符号化によるデー
タ圧縮方式は、辞書に文字列を登録していって、辞書が
一杯（辞書の最大アドレスまで登録）になったとき、辞
書への登録を止めて数１００キロバイト単位に圧縮率を
チェックしている。このとき圧縮率が前回チェックした
ときと比べ悪化する方向に動いていれば、辞書がデータ
の統計的性質とズレができていると判断し、辞書を初期
化する。

【００１７】この場合の辞書の初期化方法は、今までの
学習結果をクリアしてしまうので、次から学習し直さな
ければならず、効率が低下する。これを防ぐ方法とし
て、辞書に登録した文字列の実際に使用した回数を計数
しておき、出現頻度の高い文字列のみ残して辞書のスペ
ースを空ける方法が本願発明者らによって提案されてい
る。（２）多値算術符号化隣接文字間の相関を利用して算術符号化することによっ
て高い圧縮率を得ることができる。図１３（ａ）に複数
個数のシンボルの符号化に用いる多値算術符号化のアル
ゴリズムを示し、また図１３（ｂ）に復号化のアルゴリ
ズムを示す。

【００１８】多値算術符号化は、データ列を、［０，
１］の数直線上の一点に対応付けるものであり、シンボ
ルごとに、出現したシンボルの出現確率から求めた累積
出現確率によって［０，１］区間を逐次、細分割し、最
後の区間の［区間幅（ｒａｎｇｅ）］と［上限（Ｈｉｇ
ｈ）又は下限（Ｌｏｗ）］を符号語として出力する。図
１３（ａ）の符号化アルゴリズムでは、シンボル列全体
の符号化が終了するまで符号語が得られず、また、符号
語全体が得られないと復号ができないようになってい
る。しかし、実際の多値算術符号化では、有限桁の固定
長のレジスタで演算して、ビット単位に符号語を得るこ
とができる。

【００１９】また、算術符号化では、多重の履歴からの
条件付確率を符号化することによって、高圧縮にする方
法が発表されている（例えば、D.M. Abramson,“An Ada
ptive Dependancy Source Model for Data Compressio
n”，Commun. of ACM, Vol.30, No.6,1987 年，また
は、J.G. Cleary 他，“Data Compression Using Adapt
ive Coding and Partial String Macthing”，Commun.
of ACM,Vol.30, No.6, 1987 年）。

【００２０】この多値算術符号化によってバイト単位の
データを処理するフローチャートを図１４及び図１５に
示す。図１４は履歴を使用しない場合の多値算術符号化
を示したフローチャートである。［ステップＳ１］初期化処理である。辞書Ｄの各スロッ
トＤ（ｉ）に処理対象とする全ての一文字ｉを割当て
る。各文字ｉ参照番号Ｉ（ｉ）を付ける。各文字ｉの出
現頻度freq(i) を１に初期化する。各文字ｉの累積出現
頻度 cum freq(i) を一文字の全数Ａからｉを引いた値
に初期化する。

【００２１】［ステップＳ２］１文字ｋを入力する。［ステップＳ３］文字ｋの番号ｊ＝Ｉ（ｋ）を求め、番
号ｊを多値算術符号化する。この多値算術符号化では、
番号ｊの出現頻度freq(j) を累積出現頻度cum freq(j)
で割った累積確率を使用して区間幅及び上下限の値を求
める。また辞書スロットＤ（ｊ）を文字ｉとする。

【００２２】［ステップＳ４］出現頻度順に辞書を置き
換える。［ステップＳ５］出現頻度及び累積出現頻度を１つイン
クリメントしてステップＳ２に戻る図１５は、一重履歴
を用いた多値算術符号化のフローチャートであり、文字
ｉに対する直前文字ｐを履歴として取り入れ、（ｐ，
ｉ）の出現頻度及び累積出現頻度を計数して多値算術符
号化を行うようにしている。符号化の処理は直前文字ｐ
を履歴として取り入れている以外は図１４と同じであ
る。

【００２３】

【発明が解決しようとする課題】しかしながら、このよ
うな従来の動的辞書型ジブ−レンペル符号化にあって
は、辞書内の文字と入力文字との照合によって圧縮が行
えるため、処理が高速である利点があったが、めったに
出現しない文字列も辞書に取り込むため、辞書の効率が
低下し、圧縮の効率が低下する問題点があった。

【００２４】一方、算術符号化では、一文字ごとに各文
字の平均的な出現確率に基づいて精密な符号化が行える
ため、高圧縮率が得られるものの、処理量が多く、符号
化に時間がかかる問題点があった。本願発明者らは出現
頻度の低い文字の辞書登録による問題を解決として図１
６のフローチャートに示す方式を提案している（特願平
３−１７９０９７号）。

【００２５】この方法は、各文字の出現頻度を計数して
おき、この出現頻度から適宜辞書を作成し、辞書を参照
しながら入力文字を符号化するものである。図１６の０
重マルコフ・モデルと呼ばれる出現頻度に以前の文字の
履歴を考えない最も簡単な場合の符号化は次のようにな
る。［ステップＳ１］カーソルをデータバッファ４０から得
た辞書作成に使用するデータの先頭の位置に置く。文字
ｊが出現する頻度を計数するカウンタfreq(i) を全て１
に初期化する。例えばアルファベット２６文字を例にと
ると、freq(1) 〜freq(26)の出現頻度計数カウンタが準
備される。

【００２６】［ステップＳ２］辞書を作成して展開す
る。まず、各文字ｉの出現頻度freq(i) を求め、同時に
出現の総数Ｔを

【００２７】

【数１】

【００２８】として求める。続いて各文字の出現確率ｐ
(i) を

【００２９】

【数２】

【００３０】として求める。次に辞書サイズに関する定
数Ｃを予め定めておき、 p(x1) p(x2) ・・・p(xn) ≧Ｃ (xi=1,2,・・・A) （３）となる全ての文字列、即ち文字列を構成する各文字の出
現確率の累算値が所定値以上となる文字列の全てを辞書
に登録する。

【００３１】［ステップＳ３］辞書検索を行う。即ち、
カーソルの位置からの入力文字列に一致する辞書１９中
に登録された最長文字列Ｓを見つける。［ステップＳ４］最長文字列Ｓの識別番号を辞書登録数
ｎのｌｏｇ₂ ｎ以上の最小の整数を意味する「ｌｏｇ₂
ｎ」ビット（可変長符号）で表して出力する。

【００３２】［ステップＳ５］符号化した入力文字列の
中の全ての文字ｉについてカウンタfreq(i) を１つイン
クリメントする。［ステップＳ６］符号化した入力文字列Ｓのカーソルの
最初の文字Ｃとおき、カーソルは文字列Ｓの後の文字に
移動させる。

【００３３】［ステップＳ７］圧縮率の変化をチェック
し、もし、圧縮率が悪化していればステップＳ２に戻っ
て辞書を更新する。この場合の辞書１９の更新にはステ
ップＳ５で符号化を行いながら計数している現在時点で
の出現頻度freq(i) を使用する。もし、圧縮率が悪化し
ていなければ、ステップＳ３に戻る。

【００３４】この図１６に示した方法によれば、各文字
の出現確率に基づく文字列だけが辞書に登録されるの
で、符号化効率を上げることができ、しかも辞書照合に
よって圧縮が行えるため高速処理ができるというもので
あった。しかしながら、この種の辞書を用いる方法は、
所定の確率で出現する全ての文字列を保持しておかなけ
ればならないため、大きい記憶容量を必要とする欠点が
あった。

【００３５】従来、動的辞書型の符号化アルゴリズムに
おいて辞書の容量を小さく抑える方法としては、可変長
の文字列を固定長で符号化(Variable-to-fixed length
source coding,VF符号）するとき、辞書（符号表）を作
らずに符号化する方法がＴjalling らによって提案され
ている。以下では、この方法をＴＦ方と呼ぶ。（Tjalli
ng. J. T, Fransm.J.W,"Variable to Fixed-Length Cod
es for MarkovSources",IEEE Trans. on Inform Theor
y,Vol.33,No.2,Mar.1987）。

【００３６】ＴＦ法の符号化は、送信側と受信側で予め
各文字の出現確率が分かっているとき、送信側と受信側
とで所定の等確率の文字列を想定して、各文字列を辞書
式順序で並べたとき番号を入力データの文字列に与えて
計算によって逐次文字列の次番号を求めて符号化を行う
ものである。またＴＦ法の復元は、符号化で得た文字列
番号を符号化の逆の操作に辞書式に探索することで文字
列を復元することができる。即ち、文字列番号より辞書
の木を順次下りながら、文字列の各文字が含まれる番号
の範囲を求めて、この範囲を狭めて行くことで最終的に
文字列を一意に復元できる。

【００３７】このＴＦ法では、辞書（符号表）を用いず
に符号化できるものの、各文字列の番号を得る処理に非
常に時間がかかるため、バイト単位にファイル圧縮する
場合、実用的でない欠点があった。本発明は、このよう
な問題点に鑑みてなされたもので、少ないメモリ容量で
高圧縮および高速処理が実現できるデータ圧縮用辞書作
成方法及び符号化方法を提供することを目的とする。

【００３８】

【課題を解決するための手段】図１は本発明の原理説明
図である。まず本発明は、入力文字中の各文字ｘの出現
確率ｐ（ｘ）より、出現確率が等確率となる文字列群に
参照番号を付けて辞書に登録しておき、入力文字列を辞
書中の文字列群中の一致する文字列の参照番号で表して
符号化し、また符号化データの参照番号による辞書の参
照で元の文字列を復元するデータ圧縮方法を対象とす
る。

【００３９】このようなデータ圧縮法における辞書作成
方法として本発明にあっては、各文字（ｘ）の出現確率ｐ（ｘ）を対数の整数値で近
似して文字列の出現確率を整数和｛Σｉ（ｘ）｝で表
し、出現確率の整数和Σｉ（ｘ）が所定値Ｉ以下となる文
字列群に参照番号を付けて辞書に登録するとき、整数和
Σｉ（ｘ）が大きい文字列の部分に参照番号を付けて全
体辞書１９に登録し、同時に全体辞書１９に登録した整数和の大きい文字列
の部分に続く整数和の小さい文字列の部分には独立した
参照番号を付けて部分辞書２０に登録し、更に全体辞書１９に登録した文字列の部分を部分辞書
２０に登録した文字列の部分が引用していることを示す
識別番号を設けたことを特徴とする。

【００４０】ここで全体辞書１９と部分辞書２０と対応
をとるため、部分辞書２０毎に登録文字列の数（要素
数）および全体辞書１９の参照番号に対する部分辞書２
０の参照番号の相違を示すオフセット値を登録し、部分
辞書２０の番号に一致する文字列を検索した場合に、部
分辞書２０内での番号とオフセット値の和として全体辞
書１９での番号を求めて符号化させる。

【００４１】また辞書作成の際に各文字列の出現確率を
対数和の整数化した近似値で求める場合、各文字ｘの出現頻度を全文字の出現頻度で割って２進
数で表した値について近似の次数ｈを定め、最上位ビットから数えて初めてビット１が出現するま
でのビット０の個数を求め、該ビット０の個数から初めて現われたビット１を含む
それ以降の次数ｈ分の各ビットのそれぞれの値と次数０
〜（ｈ−１）までの２のマイナス巾乗との積和を差し引
き、更に２の（ｈ−１）乗を掛け合せた求めた値として前
記整数化した近似値を求めることを特徴とする。

【００４２】具体的に１次近似、２次近似、３次近似を
例にとると次のようになる。［１次近似］各文字ｘの出現頻度を全文字の出現頻度で割って２進
数で表した値について近似の次数ｈとしてｈ＝１の一次
近似を定め、最上位ビットから数えて初めてビット１が出現するま
でのビット０の個数を前記整数化した近似値とする。［２次近似］各文字ｘの出現頻度を全文字の出現頻度で割って２進
数で表した値について近似の次数ｈとしてｈ＝２の２次
近似を定め、最上位ビットから数えて初めてビット１が出現するま
でのビット０の個数を求め、このビット０の個数から初めて現われたビット１を含
むそれ以降の次数ｈ＝２分の各ビットのそれぞれの値と
次数０，１，２までの２のマイナス巾乗との積和を差し
引き、更に２の１乗を掛け合せて前記整数化した近似値を求
める。［３次近似］各文字ｘの出現頻度を全文字の出現頻度で割って２進
数で表した値について近似の次数ｈとしてｈ＝３の３次
近似を定め、最上位ビットから数えて初めてビット１が出現するま
でのビット０の個数を求め、このビット０の個数から初めて現われたビット１を含
むそれ以降の次数ｈ＝３分の各ビットのそれぞれの値と
次数０，１，２，３までの２のマイナス巾乗との積和を
差し引き、更に２の２乗を掛け合せて整数化した近似値を求め
る。

【００４３】一方、本発明のデータ圧縮用辞書作成方法
で作成された辞書を使用した符号化方法としては、全体
辞書１９内の文字列の番号は木構成の探索で求め、識別
番号で引用される部分辞書２０の文字列の番号はハッシ
ュ法で求めることを特徴とする。

【００４４】

【作用】このような構成を備えた本発明のデータ圧縮用
辞書作成方法にあっては、ＬＺＷ符号等で符号化済みの
文字列を木構造で辞書に登録して保持するとき、辞書中
に相似となる木構造の部分が部分が数多く生じる点に着
目し、相似となる木構造の部分集合を部分辞書２０とし
て取り出すと共に、全体辞書１９を部分辞書２０を使っ
て表すことにより、同じ部分集合は１つの部分辞書で済
むことから辞書容量を大幅に低減することができ、高速
検索による符号化及び復号化ができる。

【００４５】

【実施例】

［目次］１．ハードウェア構成２．本発明による辞書作成及び符号化復号化の概略３．辞書作成方法の具体例４．本発明の符号化アルゴリズム５．本発明の復号化アルゴリズム６．ハードウェア構成による符号化と復号化の動作７．文字列出現確率を近似する整数値（文字巾数）の求
め方８．処理速度を上げる部分辞書の構成１．ハードウェア構成図２は本発明を実現するためのハードウエア構成の一実
施例を示した実施例構成図である。

【００４６】図２において、１０は制御手段としてのＣ
ＰＵであり、ＣＰＵ１０に対してはプログラムメモリ１
１とデータメモリ１８が接続されている。プログラムメ
モリ１１にはコントロールソフト１２、出現確率算出ソ
フト１３、辞書作成ソフト１４、符号化ソフト１５、最
長一致文字列検索ソフト１６及び復号化ソフト１７が設
けられる。

【００４７】一方、データメモリ１８には、これから符
号化しようとする文字列または復号しようとする符号列
を格納するデータバッファ２２、部分辞書を用いて表し
た全体辞書１９、階層構造をもって作られた部分辞書２
０ａ，２０ｂ，２０ｃ、オフセット格納部２１を備え
る。オフセット格納部２１には部分辞書２０ａ，２０
ｂ，２０ｃが全体辞書１９の中で復号されたとき、ある
いは部分辞書２０ａ，２０ｂ，２０ｃが上位の部分辞書
から復号されたときのバイアス値を格納している。２．本発明による辞書作成及び符号化復号化の概略次に図２のデータメモリ１８に格納された本発明による
辞書の作成方法を説明する。

【００４８】図３は本発明において、文字の確率から辞
書を作成して符号化する方法の一般的な手順を示したフ
ローチャートである。この図３に示す符号化の手順は次
のステップＳ１〜Ｓ７から構成される。［ステップＳ１］現在符号化している入力文字列の位置
を示すカーソルを１に初期化する。また各文字の出現頻
度を０に初期化する。［ステップＳ２］ステップＳ１で求めた出現頻度から各
文字の出現確率を求め、この出現確率に基づいて等確率
となる文字列を作成する。続いて全ての等確率となる文
字列に参照番号を付けて辞書Ｄに登録する。このとき辞
書の登録総数をｎとする。尚、各文字の出現確率は各文
字の出現頻度を文字総数で割った値である。また、等確
率の文字列の作成については後の説明で更に明らかにす
る。［ステップＳ３］カーソルの位置からの入力文字列に一
致する辞書Ｄの中の最長一致する文字列Ｓを見付ける。［ステップＳ４］最長一致文字列Ｓの参照番号ｎについ
て、「ｌｏｇ₂ ｎ」ビットを用いて文字列Ｓに関する参
照番号を圧縮符号として出力する。［ステップＳ５］文字列Ｓ中の各文字の出現頻度を更新
する。［ステップＳ６］カーソルを文字列Ｓの後ろの文字に移
動させる。［ステップＳ７］圧縮率等をチェックして辞書の更新が
必要かどうか判断する。もし必要なければステップＳ３
に戻り、現在の辞書のままで符号化を継続して行う。も
し辞書の更新が必要ならばステップＳ２に戻って辞書を
再度作成する。

【００４９】図４は本発明により文字の確率から辞書を
作成して復号化する一般的な手順を示したフローチャー
トであり、ステップＳ８〜Ｓ１４に示すように図３の符
号化の手順と同様にして辞書を更新し、入力された符号
列、即ち辞書の参照番号から辞書を用いて元の文字列を
復元する処理を行う。このような図３及び図４に示した
符号化及び復号化の処理において、本発明にあっては、
この辞書作成ステップにおいて木構造をもつ辞書の登録
内容の中で重複して現れる文字列の部分の重複登録を避
ける構造を採用することにより辞書のメモリ容量を減ら
すものである。

【００５０】即ち、本発明にあっては各文字の出現確率を対数の整数値で近似して文字列の
出現確率で整数和で表し、この出現確率の整数和が所定値以下となる文字列群に
参照番号を付けて辞書に登録するとき、整数和が大きい
文字列の部分に参照番号を付けて全体辞書に登録し、同時に全体辞書に登録した整数和の大きい文字列の部
分に続く整数和の小さい文字列の部分には独立した参照
番号を付けて部分辞書に登録し、更に全体辞書に登録した文字列の部分を部分辞書に登
録した文字列の部分が引用していることを示す識別番号
を設けるようにしたものである。３．辞書作成方法の具体例次に図５，図６及び図７を参照して本発明による辞書の
作成とその構造を具体的に説明する。

【００５１】まず説明を簡単にするためａ，ｂ，ｃ，ｄ
の４文字を対象とし、各文字が次の確率を出現する情報
源であると仮定する。ｐ（ａ）＝１／２ｐ（ｂ）＝１／４ｐ（ｃ）＝１／８Ｐ（ｄ）＝１／８このように各文字の出現確率が定まったならば、本発明
にあってはＴＦ法と同様に各文字の確率を対数の整数で
近似する。以下の説明では各文字の対数で表して整数化
した近似値を文字巾数と呼ぶ。このため、文字ａ，ｂ，
ｃ，ｄの各文字巾数は次のようになる。

【００５２】ｉ（ａ）＝−ｌｏｇ₂ ｐ（ａ）＝１ｉ（ｂ）＝−ｌｏｇ₂ ｐ（ｂ）＝２ｉ（ｃ）＝−ｌｏｇ₂ ｐ（ｃ）＝３ｉ（ｄ）＝−ｌｏｇ₂ ｐ（ｄ）＝３続いて辞書を作成する際の文字列の等確率の整数値（以
下、「等確率値」と呼ぶ）を定める。以下の説明では、
等確率値Ｉを例えばＩ＝６とする。

【００５３】文字列中の文字巾数の和がその文字列の出
現確率を表すため、等確率の文字列を表す辞書を作成す
るためには文字巾数の和が設定した等確率値Ｉ＝６以下
となる全ての文字列に番号を付けて辞書に登録すればよ
い。図５は等確率値Ｉ＝６以下となる文字巾数の和をも
つ文字ａ，ｂ，ｃ，ｄの組合せとなる文字列を示す。こ
こで、各文字ａ，ｂ，ｃ，ｄにはａ＜ｂ＜ｃ＜ｄのように重みを設定し、図５に示す文字列のうち接頭文
字列が同一文字の場合、重みの順に参照番号を付けて番
号付けの規則が一義的に定まるようにする。

【００５４】例えば、図５の参照番号７〜１０の４つの
文字列については、接頭文字列が「ａａａ」と同一にな
っていることから、この接頭文字列に続く後続文字列の
重みにより参照番号の順番を決めている。図６は図５に
示した文字巾数の和が設定した等確率値Ｉ＝６以下とな
る文字列を辞書の木構造で示した説明図である。

【００５５】図６において、文字列を構成する各文字の
左肩に設定した等確率値Ｉ＝６と文字巾数和との残差｛Ｉ−Σｉ（ｘ）｝の値を表す。この設定した等確率値と文字巾数和との残
差を以下「確率残差」と呼ぶ。

【００５６】例えば、図６の文字列「ａｂａａａ」の確
率残差は次のようにして算出される。文字列確率残差ａ I-0=6-0=6 ｂ I-{i(a)}=6-1=5 ａ I-{i(a)+i(b)}=6-(1+2)=3 ａ I-{i(a)+i(b)+i(a)}=6-(1+2+1+1)=2 ａ I-{i(a)+i(b)+i(a)+i(a)}=6-(1+2+1+1)=1 図６から明らかなように、確率残差が同一となる文字の
部分には、それ以降同じ接尾文字列が出現する。例え
ば、確率残差３の文字ａに着目すると、全て文字列「ａ
ａａ」と文字列「ａｂ」の木構造となる。本発明にあっ
ては、このように辞書の木構造の部分に共通して現れる
部分が多数存在する性質を利用して辞書容量の低減を図
る。

【００５７】即ち、本発明にあっては確率残差１〜（Ｉ
−１）の部分について部分辞書を作り、全体辞書をこの
部分辞書で表すように構成している。また、部分辞書は
更に低位の確率残差で決まる部分辞書で表されることに
なり、その結果、全体辞書は部分辞書を用いて再帰的に
表されることになる。図７は図６の木構造をもつ全体辞
書を、確率残差（Ｉ−４）の部分辞書を用いて再帰的に
表した本発明で用いる辞書構造を示す。

【００５８】図７において、確率残差＝４をもつ部分辞
書として部分辞書２０ａ−１，２の２つが設けられる。
また、確率残差＝３をもつ辞書として２０ｂ−１〜５の
５つが設けられる。更に、確率残差＝２の部分辞書とし
て部分辞書２０ｃ−１〜９の９つが設けられる。同じ確
率残差をもつ部分辞書は重複した登録とせずに１つの部
分辞書２０ａ，２０ｂ，２０ｃとして１つの形で登録す
る。また、各確率残差の部分辞書２０ａ，２０ｂ，２０
ｃについては、各部分辞書の文字列の数を示す要素数を
保持する。この要素数は例えば部分辞書２０ａ−１，２
の２つを１つにした部分辞書２０ａにあっては、部分辞
書２０ａ−１に示すように文字列個数＝１７となる。

【００５９】また確率残差＝３の部分辞書２０ｂ−１〜
５を１つにした部分辞書１ｂにあっては、文字列を示す
要素数の個数は８つとなる。更に、確率残差＝２の部分
辞書２０ｃ−１〜９を１つで表す部分辞書２０ｃについ
ては、文字列の数である要素数を示す個数は３個とな
る。この文字列を示す要素数の個数の計数の仕方は、例
えば部分辞書２０ａ−１を例にとると、下位の部分辞書
２０ｂ−１と部分辞書２０ｃ−２の要素数を示す個数の
和（８＋３）＝１１に、これら部分辞書２０ｂ−１，２
０ｃ−２に対する枝の数６個と、部分辞書２０ａ−１に
実際に登録されている参照番号０，９，１３，１４，１
５，１６の６つの文字列を合わせて合計１７個とする。

【００６０】更に図７において、破線で囲まれた部分辞
書に対応して、図６の全体辞書における参照番号と参照
番号０から新たに登録している各部分辞書の参照番号と
の相違を示すオフセット値を保持するようにしている。
このオフセット値は例えば部分辞書２０ａ−１にあって
は、参照番号０の文字を接尾文字とする文字列「ａａ
ａ」の接頭文字ａの図６の全体辞書における参照番号の
差として与えられ、図６から明らかなように、参照番号
の差は２であり、この相違がオフセット＝２として部分
辞書２０ａ−１について定められる。

【００６１】また、同じ木構造をもつ部分辞書２０ａ−
２については、オフセット値＝３７が保持される。この
ように全体辞書に対する部分辞書の参照番号の相違を示
すオフセットの値を保持しておくことで、図７の全体辞
書と部分辞書を用いた符号化で部分辞書から始まる最長
一致文字列を検索したとき、この部分辞書から始まる文
字列の部分辞書の参照番号と保持したオフセット値を用
いて、図６の全体辞書における参照番号を求めることが
できる。

【００６２】例えば、図６の参照番号１１の文字列「ａ
ａｂ」は図７の確率残差４をもって部分辞書２０ａ−１
の参照番号９で表すことができ、この参照番号９にオフ
セット値２を加えることで全体辞書における参照番号１
１を得ることができる。（確率残差４の部分辞書20-1-1での参照番号９）＋（オ
フセット値２）＝１１として求められる。

【００６３】更に下位の参照番号で最長一致文字列が表
された場合には、同様にその下位の部分辞書に保持した
オフセット値に下位の部分辞書での参照番号を加えるこ
とで全体辞書の参照番号を求めることができる。４．本発明の符号化アルゴリズム図８は各文字の出現確率が定まった後における本発明に
よる辞書の作成方法、及び作成した辞書を用いた符号化
アルゴリズムを示したフローチャートである。この辞書
作成及び符号化は次のステップＳ１〜Ｓ１１の処理から
なる。［ステップＳ１］各文字の出現確率の対数を整数で近似
する。即ち、文字巾数を求める。次に等確率の整数値即
ち等確率値Ｉを定める。続いて、確率残差が１〜（Ｉ−
１）に対応する部分辞書を作成し、上位の辞書を下位の
部分辞書によって再帰的に表し、且つ全体辞書を部分辞
書により再帰的に表す。このとき全体辞書で部分辞書を
引用するときは参照番号をオフセットを引用する位置に
保持する。［ステップＳ２］一文字Ｋを入力し、入力文字Ｋを参照
番号ωで表す。ここでは任意の文字列を参照番号ωで表
し、文字列ωと文字Ｋを連接した文字列をωＫで表す。［ステップＳ３］次の文字Ｋを入力する。［ステップＳ４］符号化継続の有無を判断する。この判
断は次の入力文字があるか否かで判断する。符号化を使
用する場合にはステップＳ１１に進み、それまでの文字
列番号ωを符号化して終了する。それ以外の場合は次の
ステップＳ５に進む。［ステップＳ５］全体辞書の中に文字列ωＫが登録され
ているかどうか調べる。もし全体辞書に登録されていれ
ばステップＳ１０に進む。また、もし登録されていなけ
ればステップＳ６に進む。［ステップＳ６］文字列ωＫが部分辞書の中に含まれて
いるかどうか調べる。部分辞書に含まれていなければス
テップＳ７に進み、含まれていればステップＳ８に進
む。［ステップＳ７］文字列ωＫが部分辞書に含まれていな
ければ文字列ωＫの辞書番号αを求め、新たに文字列番
号ωと置く。［ステップＳ８］文字列ωＫが部分辞書にあるかどうか
調べる。部分辞書にあればステップＳ９に進み、なけれ
ばステップＳ１０に進む。［ステップＳ９］部分辞書中に文字列ωＫがあるので、
文字列ωＫの部分辞書の参照番号βを求め、（β＋部分
辞書オフセットｆ）を新たに文字列番号ωと置く。［ステップＳ１０］文字列ωが全体辞書に登録されてい
ないときは文字列の参照番号ωを「ｌｏｇ ₂ ｎ」ビット
で符号化する。ここで、ｎは辞書の登録してある要素数
を示す。更に文字Ｋを新たな文字列ωと置いてステップ
Ｓ３に戻る。５．本発明の復号化アルゴリズム図９は各文字の出現確率が定まった後の本発明の辞書作
成方法及び復号化を示したフローチャートであり、次の
ステップＳ１２〜１９の処理を行う。［ステップＳ１２］符号化のステップＳ１と同様にして
初期化及び辞書作成を行う。［ステップＳ１３］復号する符号が終了したか否か調べ
る。復号する符号が残っていれば次のステップＳ１４以
降の処理を行う。もし符号が残っていなければ処理を終
了する。［ステップＳ１４］「ｌｏｇ₂ ｎ」ビットの符号より参
照番号ωを求める。［ステップＳ１５］検索済みの辞書の深さを表す変数ｄ
をｄ＝０と置く。［ステップＳ１６］検索済み文字列から見て深さｄ＋１
にある下位の部分辞書について、 ωＫ≦ω＜ωＫ＋１となる参照番号ωの文字を探す。もし参照番号が部分辞
書に含まれているときには（ω−部分辞書オフセット
ｆ）で求まる参照番号の文字を探す。［ステップＳ１７］探し出した文字Ｋを出力する。［ステップＳ１８］参照番号ωがωＫと等しいかどうか
調べる。もし等しければ番号ωで表される文字列の復元
が終了したことになるので、ステップＳ１３に戻って全
ての符号の復元を終了したか否か調べ、次の符号を入力
して復号する。一方、参照番号ωがωＫと異なっていれ
ば次のステップＳ１９に進む。［ステップＳ１９］探索済み辞書の深さｄを１つカウン
トアップした後にステップＳ１６に戻り、参照番号ωで
表される次の文字を復元する。６．ハードウェア構成による符号化と復号化の動作次に図８のフローチャートに示した本発明による辞書の
作成と、作成した辞書を用いた符号化を、図２の実施例
の動作として説明すると次のようになる。

【００６４】まず、ＣＰＵ１０はコントロールソフト１
２による制御の元に出現確率算出ソフト１３を起動し
て、与えられた確率により文字巾数を算出する。次に辞
書作成ソフト１４を起動して文字巾数の和が設定された
と等確率値Ｉ以下となる全ての文字列を作成し、全体辞
書１９及び部分辞書２０ａ，２０ｂ，２０ｃとして登録
する。

【００６５】このとき同時にオフセット格納部２１に各
部分辞書２０ａ〜２０ｃを構成する実際の部分辞書の全
体辞書に対するオフセット値を格納し、全体辞書１９と
各部分辞書との対応関係を矢印で示すように識別番号で
示し、更に部分辞書２０ａ〜２０ｃ間においても上位の
部分辞書に対し下位の部分辞書のオフセットの対応関係
を矢印で示すように識別番号で示す。

【００６６】このデータメモリ１８のオフセット格納部
２１には一例として図７に示した確率残差４，３，２の
各部分辞書２０ａ，２０ｂ，２０ｃのそれぞれに対する
全体辞書１９の対応関係と、上位の部分辞書に対する下
位の部分辞書のオフセットの対応関係のオフセット値を
格納した場合を示している。例えば、全体辞書１９の文
字列「ａａ」はオフセット格納部２１の確率残差４の部
分辞書２０ａに対応したオフセット値２に結びつけられ
ており、入力文字列「ａａ」の検索が全体辞書１９で行
われると次に確率残差４の部分辞書２０ａの検索が行わ
れ、この検索で例えば文字列「ａａａ」を最長一致文字
列として部分辞書２０ａの参照番号０が求められた場合
には、全体辞書１９で識別されたオフセット値ｆ＝２を
加えた参照番号２が全体辞書の参照番号として求めるこ
とができるようにしている。

【００６７】続いて、ＣＰＵ１０は符号化ソフト１５を
起動する。このときデータバッファ２２には外部より一
定長の複数文字列を一度に格納しており、符号化ソフト
１５の要求に従って１文字ずつ引き渡す。そしてデータ
バッファ２２が空になる度に、同様に外部から複数文字
を取り込む。符号化ソフト１５は最長一致文字列検索ソ
フト１６によって符号化すべき部分列を部分辞書２０
ａ，２０ｂまたは２０ｃを引用している全体辞書１９の
中から見付け、その部分列の番号を符号化する。

【００６８】次に図９に示した符号列から文字列を復元
する動作を説明すると、これは符号化の場合と逆であ
り、ＣＰＵ１０はコントロールソフト１２により符号化
時と同様に辞書を作成した後、復号化ソフト１７を起動
する。復号化ソフト１７は受け渡された符号語を１語ず
つ参照番号に直し、全体辞書１９より参照番号に対応す
る文字列を取り出して文字列を復元し、データバッファ
２２に書き込む。データバッファ２２は復元された文字
列で一杯になる度に外部に復元した文字列を出力する。７．文字列出現確率を近似する整数値（文字巾数）の求
め方以上説明した本発明の辞書作成方法の例にあっては、説
明を簡単にするために各文字の出現確率を２の巾乗分の
１にとった場合を例にとっている。しかし、各文字の出
現確率が２の巾乗分の１の場合は従来の固定長（文字）
−可変長復号化法として知られたハフマン符号を用いて
も最適な復号化が行われる。

【００６９】そこで本発明にあっては、各文字の出現確
率が２の巾乗分の１とならなくとも高い精度の整数で近
似することによって高能率の復号化ができるようにす
る。図１０は出現確率を整数で近似する方法の具体例を
示す。いま入力文字数がちょうど２の巾数となった時点
で各文字の出現頻度により確率を表す整数値を求める。
図１０の例では、２進表示された入力文字の総数（ａ）
が３２になった時点で、同じく２進数で表された各文字
の出現頻度の計数値（ｂ）がとる値によってどのような
整数で近似するかの近似値を（ｄ）に示している。

【００７０】また、出現頻度の計数値（ｂ）に対応する
実際の各文字の出現確率は（ｃ）に示す値をとる。勿
論、出現確率（ｃ）としては入力文字の総数（ａ）で各
文字の出現頻度計数値（ｂ）を割って２進数で表した値
としてもよい。この図１０における出現確率の２の巾乗
近似（ｄ）としては、近似の次数をｈとするとｈ＝１の
１次近似、ｈ＝２の２次近似、及びｈ＝３の３次近似の
各値ぬを示している。即ち、１次近似，２次近似，３次
近似は次のようにして求めることができる。

【００７１】巾数の１次近似計数値（ｂ）について、最上位ビットから数えてビット
１が初めて現れるまでのビット０の個数で表す。巾数の２次近似計数値（ｂ）について、最上位ビットから数えてビット
１が初めて現れるまでのビット０の個数に、最初に現れ
たビット１に１の重みを付けて乗じた後に次のビットに
−０．５の重みを付けて加算し、その値に２倍を乗じた
ものである。

【００７２】巾数の３次近似計数値（ｂ）について、最上位ビットから数えてビット
１が初めて現れるまでのビット０の個数に、初めて現れ
たビット１に１の重みを付けて乗じ、この値から次のビ
ットに−０．５の重みを付けて加え、更に次のビットに
−０．２５の重みを付けて加え、この値に更に４倍を乗
じたものである。

【００７３】例えば、図１１の頻度計数１（ｂ）＝「０
００１１Ｂ」を例にとると、１次近似は最上位ビットか
ら数えてビット１が初めて現れるまでのビット０の個数
は３であることから、１次近似＝３として求められる。

【００７４】また、２次近似については最上位ビットか
ら数えてビット１が初めて現れるまでのビット０の個数
は３であり、これに最初に現れたビット１に１の重みを
付けて掛け合わせた値に次のビット１に０．５の重みを
付けた値を加算して２．５を求め、更に２倍を乗ずるこ
とで２次近似＝５を求めることができる。

【００７５】更に、３次近似については、最上位ビット
から数えてビット１が初めて現れるまでのビット０の個
数３にビット１に１の重みを付けて掛け合わせて３を求
め、次のビットに−０．５の重みを付けて加えることで
０．２５を求め、それ以上下位のビットは存在しないこ
とから、最終的に４倍を乗じて，３次近似＝２．
５×４＝１０を求める。

【００７６】このような前記〜に示した出現確率の
２の巾数近似は近似の次数をｈとすると、一般には次の
ように表すことができる。

【００７７】

【数３】

【００７８】尚、この一般式における２のｈ乗の乗算は
１次より高次の近似をする場合に各文字の巾数と合わせ
たスケーリングをするためのものである。８．処理速度を上げる部分辞書の構成上記の実施例にあっては、図７に示したように、全体辞
書を下位の部分辞書から再帰的に表すようにしている。
このように部分辞書を全て再帰的に表せば辞書のメモリ
容量は著しく低減することができる。

【００７９】しかしながら、再起的な辞書の表現は下位
の部分辞書を順番に引用するため処理速度を低下させ、
このため処理速度の高速化が必要な場合には図１１に示
すように全体辞書の中の大きい部分辞書のみを引用すれ
ばよい。図１１のように部分辞書において下位の部分辞
書を引用しない場合には、この部分辞書は従来のハッシ
ュ法を使用して高速に符号化及び復号化することができ
る。従って、下位の部分辞書を引用しない全体辞書数の
大きな部分辞書のみの引用とした場合には、辞書のメモ
リ容量を低減できると同時に全体辞書のみを使用した従
来方法と同様の処理速度を得ることができる。

【００８０】尚、上記の実施例にあっては、説明を簡単
にするため文字が独立に出現するとして履歴無しの零重
マルコフモデルとして捕えている。本発明はこれに限定
されず、各文字に以前の文字の脈絡に関係して出現する
と考える多重履歴をもつ多重マルコフモデルで捕えても
よい。多重マルコフモデルの場合には各文字の出現確率
は以前の文字に対する条件付き確率を用いる。

【００８１】

【発明の効果】以上説明したように本発明によれば、辞
書に登録された文字列群の中の木構造において、相似す
る木構造の部分を１つの部分辞書にまとめて登録できる
ため、辞書に使用するメモリ容量を大幅に低減すること
ができる。また、文字の出現確率から辞書を作成するた
め、確率が低い不要な文字列は辞書に登録されず、辞書
の検索処理に要する時間を短縮して効能率の符号化及び
復号化を行うことができる。

【図面の簡単な説明】

【図１】本発明の原理説明図

【図２】本発明の一実施例を示した実施例構成図

【図３】本発明により文字の確率から辞書を作成して符
号化する方法を示したフローチャート

【図４】本発明により文字の確率から辞書を作成して復
号化する方法を示したフローチャート

【図５】辞書に登録した等確率の文字列と参照番号の説
明図

【図６】図５を例にとって等確率文字列を登録した辞書
の木構造を示した説明図

【図７】図６の木構造について本発明の部分辞書による
再帰的表現を示した説明図

【図８】本発明の符号化アルゴリズムを示したフローチ
ャート

【図９】本発明の復号化アルゴリズムを示したフローチ
ャート

【図１０】本発明の辞書作成で用いる文字列の出現確率
の対数和の近似値を示した説明図

【図１１】本発明の部分辞書の他の表現を示した説明図

【図１２】従来のＬＺＷ符号化アルゴリズムを示したフ
ローチャート

【図１３】従来の算術符号の符号化および復号化アルゴ
リズムの説明図

【図１４】従来の履歴なしの多値算術符号化処理を示し
たフローチャート

【図１５】従来の１重履歴の場合の多値算術符号の符号
化処理を示したフローチャート

【図１６】本願発明者等が既に提案している文字の出現
確率に基づいた辞書を作成して符号化する符号化処理を
示したフローチャート

【符号の説明】

１０：ＣＰＵ１１：プログラムメモリ１２：コントロールソフト１３：出現確率算出ソフト１４：辞書作成ソフト１５：符号化ソフト１６：最長一致文字列検索ソフト１７：復号化ソフト１８：データメモリ１９：全体辞書２０，２０ａ，２０ｃ，２０ｃ：部分辞書２１：オフセット格納部２２：データバッファ

───────────────────────────────────────────────────── フロントページの続き (72)発明者千葉広隆神奈川県川崎市中原区上小田中1015番地富士通株式会社内

Claims

【特許請求の範囲】

【請求項１】入力文字列中の各文字（ｘ）の出現確率
｛ｐ（ｘ）｝より、出現確率が等確率となる文字列群に
参照番号を付けて辞書に登録しておき、入力文字列を前
記辞書中の文字列群中の一致する文字列の参照番号で表
して符号化し、また符号化データの参照番号による辞書
の参照で元の文字列を復元するデータ圧縮方法に於い
て、各文字（ｘ）の出現確率ｐ（ｘ）を対数の整数値で近似
して文字列の出現確率を整数和｛Σｉ（ｘ）｝で表し、前記出現確率の整数和｛Σｉ（ｘ）｝が所定値（Ｉ）以
下となる文字列群に参照番号を付けて辞書に登録すると
き、該整数和｛Σｉ（ｘ）｝が大きい文字列の部分に参
照番号を付けて全体辞書（１９）に登録し、同時に該全体辞書（１９）に登録した整数和の大きい文
字列の部分に続く整数和の小さい文字列の部分には独立
した参照番号を付けて部分辞書（２０）に登録し、更に前記全体辞書（１９）に登録した文字列の部分が前
記部分辞書（２０）に登録した文字列の部分が引用して
いることを示す識別番号を設けたことを特徴とするデー
タ圧縮用辞書作成方法。
【請求項２】請求項１記載のデータ圧縮用辞書作成方法
に於いて、前記部分辞書（２０）毎に登録文字列の数および全体辞
書の参照番号に対する部分辞書（２０）の参照番号の相
違を示すオフセット値を登録し、部分辞書（２０）の番
号に一致する文字列を検索した場合に、該部分辞書内で
の番号と前記オフセット値の和として全体辞書での番号
を求めて符号化させることを特徴とするデータ圧縮用辞
書作成方法。
【請求項３】請求項１記載のデータ圧縮用辞書作成方法
に於いて、前記各文字列の出現確率を対数和の整数化し
た近似値で求める場合に、各文字ｘの出現頻度を全文字の出現頻度で割って２進
数で表した値について近似の次数ｈを定め、最上位ビットから数えて初めてビット１が出現するま
でのビット０の個数を求め、該ビット０の個数から初めて現われたビット１を含む
それ以降の次数ｈ分の各ビットのそれぞれの値と次数０
〜（ｈ−１）までの２のマイナス巾乗との積和を差し引
き、更に２の（ｈ−１）乗を掛け合せた求めた値として前
記整数化した近似値を求めることを特徴とするデータ圧
縮用辞書作成方法。
【請求項４】請求項３記載のデータ圧縮用辞書作成方法
に於いて、各文字ｘの出現頻度を全文字の出現頻度で割って２進
数で表した値について近似の次数ｈとしてｈ＝１の一次
近似を定め、最上位ビットから数えて初めてビット１が出現するま
でのビット０の個数を前記整数化した近似値とすること
を特徴とするデータ圧縮用辞書作成方法。
【請求項５】請求項３記載のデータ圧縮用辞書作成方法
に於いて、各文字ｘの出現頻度を全文字の出現頻度で割って２進
数で表した値について近似の次数ｈとしてｈ＝２の２次
近似を定め、最上位ビットから数えて初めてビット１が出現するま
でのビット０の個数を求め、該ビット０の個数から初めて現われたビット１を含む
それ以降の次数ｈ＝２分の各ビットのそれぞれの値と次
数０，１，２までの２のマイナス巾乗との積和を差し引
き、更に２の１乗を掛け合せて前記整数化した近似値を求
めることを特徴とするデータ圧縮用辞書作成方法。
【請求項６】請求項３記載のデータ圧縮用辞書作成方法
に於いて、各文字ｘの出現頻度を全文字の出現頻度で割って２進
数で表した値について近似の次数ｈとしてｈ＝３の３次
近似を定め、最上位ビットから数えて初めてビット１が出現するま
でのビット０の個数を求め、該ビット０の個数から初めて現われたビット１を含む
それ以降の次数ｈ＝３分の各ビットのそれぞれの値と次
数０，１，２，３までの２のマイナス巾乗との積和を差
し引き、更に２の２乗を掛け合せて前記整数化した近似値を求
めることを特徴とするデータ圧縮用辞書作成方法。
【請求項７】請求項１記載のデータ圧縮用辞書作成方法
に於いて、前記全体辞書（１９）内の文字列の番号は木構成の探索
で求め、前記識別番号で引用される部分辞書（２０）の
文字列の番号はハッシュ法で求めることを特徴とする符
号化方法。