JPH07221652A

JPH07221652A - データ圧縮方法

Info

Publication number: JPH07221652A
Application number: JP893194A
Authority: JP
Inventors: Shigeru Yoshida; 茂吉田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1994-01-31
Filing date: 1994-01-31
Publication date: 1995-08-18

Abstract

(57)【要約】【目的】本発明は、データ圧縮方法に関し、高速に符
号化して、且つ、符号表を用いて、データに適応した高
い圧縮率を得る。【構成】入力データ中の文字の出現頻度の順番を所定
の個数の、例えば、２の巾乗分の１の出現確率のグルー
プに分け、該入力データに対する符号化を、該出現頻度
の順番を該順番が属する該グループを表す、Prefix符号
と，該順番を対応する該グループ内の要素番号を表すSu
ffix符号とからなる符号で符号化する方法であって、一
文字以上入力するごとに、該入力文字が属する該出現確
率のグループに応じて、該グループの要素数を増減させ
る。該入力文字の出現頻度順位 1/2 ^jに属するとき、確
率グループｊの要素数を増減させ、その減少分だけ他の
確率グループの要素数を増加させ、増加させる要素数の
割合を各確率グループの出現頻度順確率に比例させるよ
うに構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文字コード，ベクトル
情報，画像等の様々な種類のデータを圧縮する方法に関
する。

【０００２】

【従来の技術】近年、文字コード，ベクトル情報，画像
など様々な種類のデータがコンピュータで扱われるよう
になっており、扱われるデータ量も急速に増加してきて
いる。大量のデータを扱うときは、データの中の冗長な
部分を省いてデータ量を圧縮することで、記憶容量を減
らしたり、速く伝送したりできるようになる。

【０００３】このとき、様々なデータを１つのデータ圧
縮方法でデータ圧縮できる適応符号化方法が重要とな
る。又、該データ圧縮においては、文字コードの圧縮に
限らず、様々なデータに適用できる必要があるが、以下
の説明では、情報理論で用いられている呼称を踏襲し、
データの１語単位を文字と呼ぶことにする。

【０００４】一文字単位に符号を割り付けてデータ圧縮
する方法として、ハフマン符号があり、さらにハフマン
符号化を簡単化したものに、Unary Prefix符号（以下、
ＵＰ符号と略す）がある。ハフマン符号は、元来、デー
タから符号表を作成したのち符号化するという２パスの
符号化手順を取る。そこで、種々のデータに適応して符
号化できるように、ダイナミック・ハフマン符号（以
下、ＤＨ符号と略す）が知られている。

【０００５】上記ＤＨ符号については、例えば、「“ハ
フマン符号の変形",IEEEトランザクション. 情報理論,
第24巻, 第６号，1987, ｛"Variation a Theme by Huff
man", IEEE Trans. Inform. Theory, Vol. 24, No. 6 1
978 ｝」, 又は、「ダイナミックハフマン符号の設計と
解析",ACM ジャーナル, 第34巻, 第４号,1987,｛"Desig
n and Analysis of Dymanic Huffman Codes", Jornal
of ACM, Vol. 34, No.4,1987 ｝」が発表されている。

【０００６】高い圧縮率を得るときは、上記ＤＨ符号
は、データの性質を捉える前処理と接続して用いる。例
えば、パソコン通信のときに利用される書庫管理ソフト
「LHarc 」では、前処理とともに、ＤＨ符号化が用いら
れている。

【０００７】以下、発明に関係する従来のデータ圧縮方
法として、ハフマン符号，ＤＨ符号，ＵＰ符号，自己組
織化の並べ替え規則（Self-Organizing Rule）に基づく
符号について説明する。

【０００８】ハフマン符号：図９は、ハフマン符号の原
理を説明する図である。例えば、 ASCIIコードで、７ビ
ット／字で表される“ＥＮＣＯＤＥ”の英字を入力した
とき、ハフマン符号では、各文字に符号を対応付けた符
号表を見ながら、入力文字を符号に直す。上記符号表
は、予め、入力するデータに合わせて、出易い文字程、
短い符号となるように作成しておく。英文では、統計的
に、文字“Ｅ”が最も出易く、文字“Ｚ”が最も出難い
ことが知られている。このような、統計的な出現頻度に
合わせて、各文字に符号を割り振り、出易い文字“Ｅ”
は３ビットの符号で、出難い文字“Ｚ”は10ビットの符
号で表す。このように符号化することで、符号データ
は、元の文字データより平均して少ないデータ量で表す
ことができる。

【０００９】従来の代表的な符号化法である、上記ハフ
マン符号は、1950年代に登場した。当初、1950〜1960年
代は、 ROMの容量に制約があったため、ハフマン符号は
最適符号として評価用に用いられ、符号語の構成に人為
的な規則性のあるワイル符号などが用いられていた。こ
のワイル符号は、例えば、Prefix符号と、Suffix符号と
に分けられており、該Prefix符号によって、Suffix符号
のビット数が分かるような符号系であって、論理的に計
算によって符号化ができるという特徴があり、上記符号
表を必要としないことから、前述のように、大容量のメ
モリがな無かった時代に使用されていた。

【００１０】その後、技術が進歩し、メモリが大容量化
するとともに、メモリがデータ伝送，蓄積などの分野に
広く利用されようになった。そして、同じ文字が続けて
現れるとき、繰り返し回数を符号化するランレングス符
号化と組合わせるなど、他の前処理法とハフマン符号化
を組合せて使うことも多くなってきた。

【００１１】ハフマン符号を用いてデータの種類によら
ないように、データに適応した符号化を実現する方法と
して、次に説明するＤＨ符号が、上記文献等に発表され
ている。

【００１２】ダイナミック・ハフマン符号（ＤＨ符
号）：該ＤＨ符号は、入力データ中の各文字の出現頻度
を計数しながら符号化し、文字の計数値が大きく変化し
た時点で、前述のハフマン符号表を作り直して、符号化
する方法である。このＤＨ符号は、本発明には直接関係
していない符号化方法であるので、その詳細について
は、前述の文献に譲り、ここで説明は省略する。

【００１３】Unary Prefix符号（ＵＰ符号）：図１０
は、Unary Prefix符号（ＵＰ符号）を説明する図であ
る。ＵＰ符号については、例えば、「“ハフマン符号外
での符号化方法",EXE マガジン, 第６巻，第９版,3月,1
992,｛"Life without Huffman"，EXE Magazine, Vol.
6, Issue 9, March 1992 ｝」に示されている。

【００１４】このＵＰ符号も、前述のハフマン符号と同
様に、入力されるデータに基づいて、符号表を作ってか
ら、データの各文字を符号表の対応する符号に変換して
データ圧縮する。このとき、符号が、Prefix符号と,Suf
fix 符号とに分けて表すところに特徴がある。

【００１５】具体的には、図１０に示されているよう
に、入力データ中の文字を出現確率が大きい順に並べ、
出現確率が、1/2, 1/4, 1/8,・・・（２の巾乗分の一）ご
との文字のグループに分ける。各グループごとに、Pref
ix符号を与えるとともに、各グループの要素である文字
を一連番号のSuffix符号で表す。このとき、出現確率
が、1/2, 1/4, 1/8, 1/16,・・・の各グループについて、
それぞれ 1，01, 001, 0001,・・・と１ビットずつ伸ばし
たPrefix符号を与える。又、Suffix符号の一連番号は、
log₂〔グループ要素数〕のビット長で表す。ただし，
〔ｘ〕はｘ以上の最小の整数を表す。

【００１６】上記、ＵＰ符号は、各グループの要素数が
２の巾乗個であるときはハフマン符号と同等の符号化効
率が得られる。図１０において、スペース,I,E,Nの出現
確率が1/2 であり、M,S,A,B の出現確率が1/4,以下同様
にして、それぞれの出現確率が２の巾乗分の一となる。
該各文字の出現確率に対応して、それぞれ、図示され
ているように、 1，01, 001, 0001,・・・と１ビットずつ
伸ばしたPrefix符号を与える。又、それぞれの出現確率
1/2,1/4,〜のグループに対応する文字の要素数が、そ
れぞれ、４個，４個，４個，２個，〜であるので、上記
log₂〔グループ要素数〕のビット長 "XX","X" で、それ
ぞれの要素文字に対して、一連番号の Suffix 符号を与
えることで、上記Prefix符号と、Suffix符号からなるＵ
Ｐ符号系が形成される。

【００１７】自己組織化規則（ＳＯＲ）に基づく符号
化：図１１は、自己組織化規則（ＳＯＲ）に基づく符号
化方法を示した図である。該自己組織化規則（ＳＯＲ）
に基づく符号化では、入力した文字列を辞書に蓄え、自
己組織化の並べ替え規則（Self-Organizing Rule）に基
づいて、頻繁に現れる要素ほど、辞書の先頭部分に置か
れるように並べ替える。該並べ替えにより検索を高速化
するとともに、頻繁に現れる要素ほど、参照する番号が
小さくなって参照番号を短いビット数で表せ、データ量
が平均的に減少する。上記、自己組織化規則および参照
番号の符号化法について、以下に説明する。

【００１８】1)自己組織化規則：辞書構成法としての自
己組織化規則としては、 (1)Move-To-Front(MTF) ：ある要素を参照した後、その
要素を辞書の先頭に置く。 (2)Transpose(TR)：参照した要素とその直前の要素の位
置を置き換える。などの方法がある。

【００１９】上記(1),(2) の方法を用いると、出易い要
素ほど、辞書の先頭に近い位置に置かれる。〔具体例〕上記 MTF法を用いた SOR符号化の例を図１１
に示す。入力データが既登録文字であるとき、該既登録
文字が登録されている辞書の登録位置（参照番号）で表
し、辞書を並べ替えて先頭に置く。新たに現れた文字は
〔未登録の位置，新たな文字〕の組で表し、辞書の先頭
に格納する。こうすると、連続する文字の２文字目以降
は、最も小さい参照番号“１”で表される。

【００２０】図１１(a),(b) に示されている例で、具体
的に説明すると、先ず、文字“ａ”が入力されると、辞
書には、未だ、何も登録されていないので、その未登録
の位置“１”と、該新たな文字“ａ”で、図示されてい
るように"1a"で符号化される共に、該入力された文字
“ａ”が、該辞書の先頭位置に登録される。

【００２１】次に、文字“ｂ”が入力されると、該
“ｂ”は新たな文字であるので、上記と同様にして、"2
b"で符号化され、該入力された文字“ｂ”が、辞書の先
頭に登録される。

【００２２】同様にして、次の“ｃ”が入力されると、
"3c"で符号化され、該入力された文字“ｃ”が、辞書の
先頭に登録される。次に、既登録文字“ａ”が入力され
ると、該文字“ａ”の登録位置（アンダーラインで示
す。以下省略）は、図示されている如くに、３番地であ
るので、該既登録文字が登録されている辞書の登録位置
（参照番号）“３”で符号化される。従って、２文字以
上、連続して入力された場合には、最初に入力された時
点で、辞書の先頭に格納，登録されるので、２文字目以
降は、上記登録されている位置（参照番号）“１”で符
号化されることになる。

【００２３】上記 MTF法は、公知のリスト構造の辞書を
用いると、辞書の更新がポインタだけの付け替えだけ
で、該 MTF法による符号化を実現することができる。 2)参照番号の符号化：ＳＯＲ符号化では出易い要素ほど
参照番号が小さくなるので、一定の規則に従って小さい
番号ほど短い符号で表すようにすれば良い。

【００２４】図１２は、参照番号の符号化方法を説明す
る図である。参照番号の符号化方法として、例えば、図
１２に示す、Elias(イライアス) 符号が用いられる。El
ias(イライアス) 符号のγ符号は、２進数に有効桁を示
すprefix（接頭語）として“０”を付けたものである。
図１２(a) が、上記γ符号を示しており、suffix符号の
ビット数を、「上記prefix（接頭語）符号の“０”の数
＋１」で示すことができるという特徴がある。

【００２５】図１２(b) に示したδ符号は、上記γ符号
のprefix符号部分 (アンダーラインで示す) を、さら
に、上記γ符号で表した (その部分をアンダーラインで
示す)ものであり、図１２(a),(b) を比較すると分かる
ように、δ符号は、γ符号よりビット数を少なくするこ
とができる。

【００２６】前述のように、Elias(イライアス) 符号
は、prefix符号より２進数で表現されたsuffix符号の桁
数が分かるので、符号語をビット詰しても、一意に復号
することができる。又、該参照番号の符号化の他の方法
として、参照番号の使用頻度を想定してハフマン符号を
用いることもできる。

【００２７】

【発明が解決しようとする課題】上記ＤＨ符号化は、一
文字単位の圧縮法としては、最適に近い圧縮率が得られ
る。然し、全ての文字の出現頻度を計数して、ハフマン
符号表の作り直しを行うため、処理に時間がかかるとい
う欠点があった。これに対して、ＵＰ符号は符号表の設
計は簡単であるが、適応化させるため、ＤＨ符号化のよ
うに全ての文字の出現頻度を計数するようにすると、そ
の長所が失われてしまう問題点があった。又、ＳＯＲ符
号においては、動的に出現頻度順に並べて符号化するの
で、符号化の処理量は少ないものの，可変長符号として
γ符号やδ符号など、予め、固定した符号を用いるの
で、データの出現頻度に必ずしも適合せず、圧縮率が抑
えられるという欠点があった。

【００２８】本発明は上記従来の欠点に鑑み、高速に符
号化して、且つ、符号表を用いて、データに適応した高
い圧縮率を得ることができるデータ圧縮方法を提供する
ことを目的とするものである。

【００２９】

【課題を解決するための手段】図１は、本発明の原理説
明図である。上記の問題点は、下記の如くに構成したデ
ータ圧縮方法によって解決される。

【００３０】(1) 入力データの１語単位としての文字を
動的に出現頻度順に並べ、入力文字を該出現頻度の順番
として符号化するときの符号化方法であって、入力デー
タの１語の出現頻度の順番を所定の個数のｎ（ｎ≧２）
の巾乗分の１、例えば、２の巾乗分の１の出現確率のグ
ループに分け、該入力データの１語に対する符号化
を、該出現頻度の順番を該順番が属する該グループを
表すPrefix符号と，該順番を対応する該グループ内
の要素番号を表すSuffix符号とからなる符号で符号化
するとき、一文字以上入力するごとに，該入力文字が属
する該出現確率のグループに応じて、該グループの
要素数を増減させるように構成する。

【００３１】(2) 上記(1) 項に記載のデータ圧縮方法で
あって、該確率グループの要素数を該出現頻度順の最
大番号で管理し、該入力文字が出現確率1/ｎ^jに属する
とき，確率グループの要素数を減少させ、その減少分
だけ他の確率グループの要素数を増加させ、増加させ
る要素数の割合を各確率グループの出現頻度順確率に
比例させるようにするとともに、該確率グループの要
素数を該出現順の最大番号で管理し、各確率グループの
要素数の増減分は、整数の端数を含めて計算し、各確率
グループで整数となる要素個数をとるように構成す
る。

【００３２】(3) 上記(1) 項に記載のデータ圧縮方法で
あって、該確率グループの要素数を管理し、該入力文
字の出現頻度順位が確率 1/n^jに属するとき、ｊ＝１の
ときは、確率グループ１の該要素数を所定の個数減し、
ｊ≧２のときは、ｊ＝１からｊ＝ｊ-1までの各確率グル
ープの該要素数を所定の個数増すとともに、確率グル
ープｊの該要素数を所定の個数減すように構成する。

【００３３】(4) 上記(2) 項, 又は(3) 項に記載のデー
タ圧縮方法であって、データ入力の初期には、一文字ご
とに、該出現確率グループの要素数を増減させ、入力
データ数が増えるにつれて、複数文字ごとに、該出現確
率グループの要素数を増減させるように構成する。

【００３４】(5) 上記(2) 項, (3) 項,(4)項に記載のデ
ータ圧縮方法であって、該一文字以上入力するごとに、
該入力文字が属する該出現確率のグループに応じて、
該グループの要素数を増減させるのに同期して、該出
現頻度の順位を更新するように構成する。

【００３５】(6) 上記(1) 項に記載のデータ圧縮方法で
あって、該出現確率グループ内の要素番号を表すSuff
ix符号が、要素数がｎ（ｎ≧２）の巾乗個のときは、要
素番号を全要素数が表せる最小ビットを用いて表し、要
素数がｎの巾乗個でないときは、要素番号を全要素数が
表せる最小ビットと（該最小ビット数─1 ）ビットとの
組合せで表すように構成する。

【００３６】(7) 上記(1) 項に記載のデータ圧縮方法で
あって、定常状態になったときの、各確率グループ
（）の要素数ｍを予測して、データ入力前の各確率グ
ループ（）の要素数ｍを初期設定するように構成す
る。

【００３７】

【作用】即ち、本発明によるデータ圧縮方法は、自己組
織化規則（Self-Organizing Rule）とＵＰ符号とを組み
合わせることによって、適応ＵＰ符号を実現するもので
ある。

【００３８】先ず、自己組織化規則（ＳＯＲ）によっ
て、図１(a) に示されているように、入力文字種を動的
に出現頻度順に並べて、辞書を形成する。これを出現確
率が、1/2, 1/4, 1/8,・・・となるグループ毎に、各グ
ループでの文字の要素数を動的に管理し、入力文字が
属する、各出現確率のグループを用いてＵＰ符号を作
成し、出現データに適応した適応ＵＰ符号とする。

【００３９】具体的には、初期化の時点で、例えば、25
6 文字種の文字の出現順位を、図１(a) に示した出現確
率が 1/2,1/4,1/8,1/16,1/16の５つの確率グループに
分類しておく。このとき、各確率グループのＵＰ符号
は、図１(a) から明らかな如く、何れも、８ビットで表
現されており、入力される文字に対して、データ圧縮が
なされることはない。

【００４０】例えば、出現確率番号（ＰＧ番号）“１”
のグループでは、要素数が "128"であるので、上記Ｕ
Ｐ符号の Prefix 符号は "1"であるが、Suffix符号が、
要素数 "128"で定まる"XXXXXXX" で示した７ビットから
なる８ビットで符号化される。同様にして、出現確率番
号（ＰＧ番号）“２”のグループでは、要素数が "6
4" であるので、上記ＵＰ符号の Prifix 符号は "01"
であるが、Suffix符号が、要素数 "64" で定まる"XXXXX
X"で示した６ビットからなる８ビットで符号化される。
以下、同様にして、この初期化時においては、全てのグ
ループは、８ビットで符号化されるので、この符号表
の儘では、入力される文字に対して、データ圧縮は起こ
らないことになる。

【００４１】ここで、入力文字があると、上記自己組織
化規則(SOR) に基づく、各グループの辞書内の位置
(参照番号) を求めた後、その入力された文字の出現順
位が属するグループの Prefix 符号を求め、次に、該
グループ内の要素番号、即ち、辞書内の位置から、lo
g₂ (グループの要素数) のビット数で Suffix 符号を
求める。

【００４２】そして、本発明においては、上記自己組織
化規則(SOR) に基づいて、上記辞書を更新する。即ち、
前述の MTF法の場合には、前述の図１１に示したよう
に、該入力された文字が属しているグループ内におい
て、参照番号の文字を辞書の先頭に移し、以前に格納し
ていた先頭から参照番号までの文字を一つずつ後ろにず
らして、図１(a) に示したＵＰ符号表を更新する。この
更新処理は、該入力された文字の参照番号が属する上記
ＰＧグループの終端位置、即ち、図１(b) で示した、Pr
efixグループ (ＰＧグループ）の出現確率と、終端位
置の関係図において、それぞれの境界を更新する。この
とき、各確率グループの要素数の増減は次の条件を考
慮して求める。即ち、 1)最終的に出現確率が２の巾乗分の１(1/2^j) ごとの確
率グループに分けられる。 2)各回の要素数の増減の総和は０となる。 3)出現頻度順の確率グループ分けが定常状態に達したと
き，各確率グループの要素数は動的に平衡状態にな
る。

【００４３】以上の３条件を用いて，確率グループj
の要素が出現したとき，更新のときの各確率グループＧ
(i) の増減分DG(i,j) は、図５のように表せ、３条件
は下記のように定式化される。

【００４４】(1) 各確率グループの要素の増加割合が
出現確率に比例する。 (2) ΣDG(i,j) ＝０ (j=1,2,・・・,N) −−−−−更新
のとき増減の総和が０となる。 (3) ΣDG(i,j) × 1/2^j＝０ (i=1,2,・・・,N) −−出現
確率に応じたｊの出現を平均すると増減なし（平衡状
態）。

【００４５】具体的には、参照番号が確率グループｊに
属するとき、更新のための終端位置の増減分DPは、図５
の確率グループ要素数の増減分より，図６のように表さ
れる。ＰＧ番号が“１”のとき、ＰＧ₁とＰＧ₂以降と
は、確率1/2 の比で出現することになっているが、ＰＧ
₂以降よりＰＧ₁が出る傾向にあるので、ＰＧ₁の区間
幅を狭めてバランスを取る。即ち，終端位置Ｐ(1) から
１をマイナスし、Ｐ(2),Ｐ(3),Ｐ(4) から、それぞれ 1
/2,1/4,1/8をマイナスする。

【００４６】もし、ＰＧ番号が２のときは、ＰＧ₂が他
のＰＧ₁，ＰＧ₃，ＰＧ₄，ＰＧ₅より出る傾向にある
ので、ＰＧ₂の区間幅を狭めて、バランスを取る。即
ち，終端位置Ｐ(1) に１をプラスし，Ｐ(2),Ｐ(3),Ｐ
(4) からそれぞれ 1/2,1/4,1/8をマイナスする。

【００４７】以下、同様にＰＧ番号が３以上のときも同
様な操作を行うことによって、各ＰＧの区間がその出現
確率に応じて動的に再配置される。各終端位置は、少数
を含むものとなるが、後述するように、この終端位置を
用いて、端数を切下げ（または、切上げ）た整数とし
て、各確率グループの要素数，要素番号を求める。

【００４８】新たに、文字が入力されるごとに、上記の
ような処理を繰り返していくことにより、各ＰＧグルー
プ内の要素数が、出現確率の多いグループ程、削減
されることになり、上記各グループ内の Suffix 符号
のビット数が少なくなり、結果として、データ圧縮が行
われるようになる。

【００４９】上記のように、文字の出現確率を、例え
ば、２の巾乗分の１で管理する場合には、以下の特徴が
ある。即ち、該出現する文字は、出現確率が 1/2の２つ
の出現確率グループを考えると、その何れかに必ず出
現する筈である。従って、該出現する文字は、その出現
確率が、それぞれ、1/2 の２つの確率グループの何れ
かに属することになる。その最初に出現するグループ
に“１”の Prefix 符号を与え、他のグループに
“０”を与える。

【００５０】上記において、Prefix符号“０”が与えら
れたグループに対して、上記の同様にして、その出現
確率が、それぞれ、1/2 の２つの確率グループに分け
ると、それぞれのグループの出現確率は、それぞれ、
1/4,1/4 となる。

【００５１】以下、同じことを繰り返していくことによ
り、図１(b) に示したように、各出現確率 1/2,1/4,1/
8, 〜のグループに対応して、２の巾乗分の１の確率
分布曲線が得られる。この確率分布曲線に基づいて、文
字が出現する場合、その出現事象には、統計的な最適化
が図られていることになる。

【００５２】本発明によるデータ圧縮方法は、上記の如
き、統計的な最適化が図られている文字の出現確率を基
に、実際の文字の出現頻度に対応して、各出現確率グル
ープでの要素数を動的に変更することで、出現文字の
出現順位に適応した要素数を得て、該出現文字の出現順
位に適応した要素数に対応した Suffix 符号を付与する
ことができる。

【００５３】その結果、扱うデータに適応した出現確率
と、各出現確率グループ毎の要素数に適応したデータ
圧縮を実現することができる。しかも、このデータ圧縮
方法では、扱うデータ量が多くなる程、上記要素数の動
的な変更, 辞書の更新 (順序の並べ替え) といった学習
の量が多くなり、該データ種別に適応したデータ圧縮が
得られることになる。

【００５４】本発明によれば、自己組織化規則(SOR) を
用いるとともに、出現確率グループの出現頻度を管理
するだけで、準最適な動的可変長符号表（ＵＰ符号表）
が簡単な手順で設計できる。従って、符号化が高速で実
行できるとともに、この符号表を用いてデータに適応し
た高い圧縮率を得ることができる。

【００５５】

【実施例】以下本発明の実施例を図面によって詳述す
る。前述の図１は、本発明の原理説明図であり、図２、
本発明の一実施例を示した図であり、図３，図４は、本
発明の一実施例を流れ図で示した図であって、図３は、
符号化の場合を示し、図４は復号化の場合を示し、前述
の図５は、ＰＧ番号ｊの出現時の各確率グループＧ(i)
の増分 DG(i,j)を示した図であり、図６は、ＰＧ番号ｊ
の出現時の各終端位置Ｐ(i) の増分 DP(i,j)を示した図
であり、図７は、１バイト単位のＵＰ符号の初期設定の
例を示した図である。

【００５６】本発明においては、入力データの１語単位
としての文字を動的に出現頻度順に並べ、入力文字を該
出現頻度の順番として符号化するときの符号化方法であ
って、該入力データの出現頻度の順番を所定の個数のｎ
（ｎ≧２）の巾乗分の１、例えば、２の巾乗分の１の出
現確率の確率グループに分け、該入力データに対する
符号化を、該出現頻度の順番を該順番が属する該確率グ
ループを表すPrefix符号と，該順番を対応する該確
率グループ内の要素番号を表すSuffix符号とからな
る符号で符号化するようにし、例えば、一文字以上入力
するごとに，該入力文字が属する該出現確率のグループ
に応じて、該グループの要素数を増減させると共
に、文字が出現する頻度順に並べられる辞書を更新する
手段が、本発明を実施するのに必要な手段である。尚、
全図を通して同じ符号は同じ対象物を示している。

【００５７】以下、図１を参照しながら、図２，図３，
図４，及び、図５，図６，図７によって、本発明による
データ圧縮方法を説明する。図２は、本発明のデータ圧
縮を、データ処理装置で行う場合の、該データ処理装置
での動作を概念的に示している。

【００５８】先ず、主記憶装置(MM) 2上に展開されてい
るデータ圧縮プログラム 20 を、中央処理装置(CPU) 1
が実行することにより、上記データ圧縮が行われる。こ
のとき、ファイル記憶装置 3から、データ圧縮／復号用
バッファ 22 に、所定の数の文字が読み出される。

【００５９】主記憶装置(MM) 2上には、予め、データ圧
縮に係わる最大文字数に対応して、各出現確率グループ
毎の文字グループと、その要素数と、各出現確率グル
ープ毎の終単位置と、ＵＰ符号からなる、前述の図１
(a) で示した、ＵＰテーブル24 が設定されている。こ
のＵＰテーブル 24 において、各出現確率グループに
属する文字グループの、例えば、16進数の「00H 」〜
「FFH 」は、文字コードであっても良いし、ベクトル情
報, 画像データであっても良い。

【００６０】又、該主記憶装置(MM) 2上には、文字種が
出現する毎に、前述の自己組織化規則の一つである、例
えば、 MTF法に基づいて、入力文字種の出現位置 (参照
番号) を動的に変更する為の、例えば、リスト構造で構
成されているＭＴＦテーブル(辞書) 25が設けられてお
り、入力された文字種がデータ圧縮される毎に、上記MT
F法により、参照番号の入れ替えを行う。このような操
作を繰り返すことにより、良く出現する文字種が、該Ｍ
ＴＦテーブル (辞書) 25の先頭位置に格納されることに
なる。

【００６１】以下、上記図２に示したデータ圧縮を行う
データ処理装置の構成例を基に、図３，図４に示した本
発明のデータ圧縮動作のフローチャートに基づいて、本
発明によるデータ圧縮の操作を次に説明する。

【００６２】(1) 符号化処理（図２参照） A1: 初期化のステップ。Ａを入力データ内の文字種｛図
１(a) に示されている例では、256 個｝, Ｎを確率グル
ープ数｛図１(a) に示されている例では、５グループ｝
とする。

【００６３】入力文字を、上記自己組織化規則(SOR) に
基づく辞書内の位置（参照番号）に変換した後、その参
照番号をＵＰ符号で符号化する。そして、辞書の参照番
号を各確率グループの要素数と、各Prefixグループ
(ＰＧ）の終端位置（参照番号）Ｐ(i) で管理する。全
確率グループの要素数，全確率グループの終端位置
Ｐ(i) を初期設定する。一例として、１バイト単位に符
号化する場合を考えると，Ａ＝256 であり，Ｎ＝５とす
る。すなわち、確率1/2, 1/4, 1/8, 1/16, 1/16の５グ
ループに分ける場合、初期設定は、例えば、図１(a) に
示すようになる。

【００６４】このとき、各確率グループＰＧの終端位
置Ｐ(i) ＝Ｐ(i-1)1＋Ｇ(i)(i=1,2,〜,n) 、但し、Ｐ
(0)=0 である。又、該確率グループＰＧの増分 DP(i,
j)を、上記図６に示したように初期設定する。

【００６５】A2:データ入力のステップ。データを一文
字入力する。 A3: 入力した文字種から、自己組織化規則(SOR) に基づ
く辞書内の位置（参照番号）を求める。 A4: ＵＰ符号化のステップ。各ＰＧの要素数，各ＰＧの
終端位置から求めた参照番号が属するＰＧ番号ｊと，Ｐ
Ｇ内の要素番号ｋを求める。先ず、そのＰＧ番号のPref
ixを符号化する。次に、各ＰＧ内の要素数（整数化）ｍ
を求める。ここで、ｍ＝Ｐ(j)-P(j-1),P(0)=0 である。
次に、ＰＧ内の要素番号ｋ（整数化）を〔log₂（ＰＧ_j
の要素数）〕のビット数でSuffixとして符号化する。
｛図２のＵＰテーブル 24 参照｝ A5: ＵＰ符号表を更新するステップ。これは、入力文字
の属するＰＧの終端位置を、各確率グループＰＧの要
素数 DP(i,j)｛図６｝によって更新することによって行
う。

【００６６】具体的には，参照番号が確率グループｊに
属するとき、更新のための終端位置の増減分DPは図５の
確率グループ要素数の増減分より、図６のように表され
る。ＰＧ番号が“１”のとき、ＰＧ₁とＰＧ₂以降と
は、確率1/2 の比で出現することになっているが、ＰＧ
₂以降よりＰＧ₁が出る傾向にあるので、ＰＧ₁の区間
幅を狭めてバランスを取る。即ち，終端位置Ｐ(1) から
１をマイナスし、Ｐ(2),Ｐ(3),Ｐ(4) から、それぞれ 1
/2,1/4,1/8をマイナスする。

【００６７】もし、ＰＧ番号が２のときは、ＰＧ₂が他
のＰＧ₁，ＰＧ₃，ＰＧ₄，ＰＧ₅より出る傾向にある
ので、ＰＧ₂の区間幅を狭めて、バランスを取る。即
ち，終端位置Ｐ(1) に１をプラスし、Ｐ(2),Ｐ(3),Ｐ
(4) から、それぞれ 1/2,1/4,1/8をマイナスする。

【００６８】以下，同様にＰＧ番号が３以上のときも同
様な操作を行うことによって，各ＰＧの区間がその出現
確率に応じて動的に再配置される。各確率グループＰＧ
の終端位置は、少数を含むものとなるが、前述のＡ４
のステップでは、この終端位置を用いて、端数を切下げ
（または，切上げ）た整数として、各確率グループの要
素数ｍ，要素番号ｋを求める。 A6: 自己組織化規則(SOR) に基づき、辞書を更新する。
ＭＴＦの場合、前述の図１１のように参照番号の文字を
辞書の先頭に移し、以前の格納していた先頭から参照番
号までの文字を一つずつ後ろにずらす｛図２のＭＴＦテ
ーブル (辞書) 25のポインタの張り替えを行う｝。ＴＲ
の場合、参照番号の文字と、辞書の一つ先の参照番号を
もつ文字の位置とを互いに交換する。 A7: データの全文字を入力したか検査する。もし、ま
だ、入力文字があれば，A2のステップに戻る。もし、全
文字の入力が終了したならば、符号化を終了する。

【００６９】圧縮された１文字毎の圧縮データは、主記
憶装置(MM) 2の圧縮／復号データ格納域 23 に格納され
た後、全ての文字に対するデータ圧縮が完了した時点
で、前述のファイル記憶装置 3に格納される。

【００７０】このようにして、前述の図２のＵＰテーブ
ル 24 の要素数が減少すると、該要素数によって定ま
る、該ＵＰ符号の Suffix 符号のビット数が少なくな
り、又、上記辞書の更新により、良く出現する文字種
程、先頭のグループに集まることになり、データ種別
に対応したデータ圧縮が行われる。

【００７１】(2) 復号化処理（図３の流れ図参照｝圧縮されているデータを復号化するときには、主記憶装
置(MM) 2上に展開されているデータ復号プログラム 21
が、中央処理装置(CPU) 1 によって実行される。このと
き、ファイル記憶装置 3から、所定の圧縮データが、デ
ータ圧縮／復号用バッファ 22 に読み出され、下記の各
ステップが実行されることにより、圧縮データに対する
復号化が行われる。即ち、 B1: 初期化のステップ。A1と同様である。 B2: 全符号の入力が終了したならば、復号化を終了す
る。もし、復号すべき符号が残っていれば、次のステッ
プ B3 に進む。 B3: ＵＰ符号を復号するステップ。ＵＰ符号のPrefix符
号を切り出し、ＰＧ番号を求める。Prefixは瞬時符号に
なっている。具体的には、最初に"1" のビットが表れる
までが、一つのPrefix符号となる。求めたPrefix符号か
らＰＧ番号ｊを求める。次に、該ＰＧの要素を表すビッ
ト数分だけ符号を切り出し、ＰＧ内の要素番号を求め
る。ＰＧ番号と要素番号より辞書の参照番号が求められ
る。 B4: 文字を復元するステップ。参照番号から辞書を引い
て元の一文字を復元し、出力する。 B5: ＵＰ符号表の更新のステップ。前述の A5 と同様で
ある。 B6: 自己組織化規則(SOR) に基づき、辞書を更新するス
テップ。A6と同様である。このステップが終了したらB2
に戻る。

【００７２】以下においては、上記基本的なデータ圧縮
方法の変形例について説明する。〔変形例〕1) 上述の実施例では、辞書 (図２のＭＴＦ
テーブル 25)の更新と、ＵＰ符号 (図２のＵＰテーブル
24)の更新を一文字の符号化，復号化するごとに行うと
述べた。これは、所定の複数文字ごと（例えば２文字，
４文字ごととか）にサンプリングして行うようにしても
良い。

【００７３】このように、複数文字ごとに行うと、一文
字ごと行う場合に比べて、データの性質による符号表の
適応 (即ち、最終形態の符号表の生成) の迅速さは低下
するが、更新の処理量が減って、その分、データ圧縮処
理の高速化ができる。

【００７４】データへの適応は、符号化の初期は、図１
(a) で説明したように、零からスタートするので、迅速
であることが要求されるので、入力データを所定の文字
数に区切り、初期は１文字ごとに更新し、次第にサンプ
リングの間隔を拡げて、最終的に、所定の複数文字ごと
にするようにしても良い。上述の実施例では、各出現順
位の初期設定を等確率で出現することを仮定した。しか
し、自己組織化規則を用いて高頻度の文字が辞書の先頭
に来るようにするので、通常、次第に、出現順位が小さ
いものが高頻度で出現するようになり、出現順位は等確
率から入力データのもつ出現順位の確率へと移行する。
従って、各出現順位の初期設定は、入力データのもつ出
現順位の確率を予想して設定しておいても良い。このよ
うに初期設定しておくことにより、出現順位の確率への
適応を速めることができる。図７に入力データのもつ出
現順位の確率を予想した各確率グループの要素数の初期
設定値の例を示す。

【００７５】又、辞書の更新と、ＵＰ符号の更新とを分
けて考えてもよい。ＰＧの要素数が大きければ、符号の
ビット数は緩やかにしか変わらないので、例えば，辞書
は一文字ごとに更新するが、符号表 (ＵＰテーブル 24)
は複数文字ごとに更新することもできる。

【００７６】2) 各出現確率グループの更新は、前述
の図５の終端位置の増減分 DP(i,j)を整数倍して、更新
の速度を速めてやっても良い。また、符号化の初期は更
新の速度を速めて、徐々に更新速度を緩めて最終的に図
６の増減の値にするようにしても良い。増減分を整数倍
して、更新速度の調整については符号化と復号化とで同
期させて用いる限り支障はない。

【００７７】3) 複数文字の区間ごとに、各出現確率グ
ループに属した文字数を計数しておき、この計数値に
よって符号表 (上記、ＵＰテーブル 24)を、まとめて更
新しても良い。この場合、次のようにして符号表を更新
する。例えば，出現確率が1/2,1/4, 1/8, 1/16, 1/16
の５個の区間で考える。32文字ごとに、符号表の更新を
行うことにすると、ＰＧ₁の計数値を４ビット右シフト
して“１”になれば、ＰＧ₁の区間を狭め、“０”なら
拡げる。ＰＧ₂の計数値を３ビット右シフトして“１”
になれば、ＰＧ₂の区間を狭め、“０”なら拡げる。以
下、同様に、ＰＧ ₃ＰＧ₄ＰＧ₅の計数値を２／１／０
ビット右シフトして“１”になれば、その区間を狭め、
“０”なら拡げる。

【００７８】4) 上記の実施例では、出現確率グループ
の要素数をｎとすると、ＵＰ符号のSuffix符号を〔lo
g₂ｎ〕のビット長で表すと述べた。しかし、この表現法
は、ｎが２の巾乗になるとき以外は、〔log₂ｎ〕−log₂
ｎビット分の無駄が生じる。この無駄を補うため、下記
手順のPhasing in Binary Codes を用いても良い。｛Ph
asing in Binary Codes の具体例を図８に示す｝即ち、最大数がｎのとき，ｋ＝〔log₂ｎ〕とおくとｉ(0
≦ｉ＜ｎ) の表現は、次の手順を取る。

【００７９】(a)符号化：ｉ≦２^k−ｎならば、 (ｋ−
1)ビットで，２進表現を符号化する。そうでなければ、
ｋビットで (ｉ＋２^k−ｎ) を符号化する。具体例で説
明すると、例えば、最大数ｎ＝６５であるとすると、ｉ
≦２⁷-65＝０〜63迄は、６ビットで符号化し、ｉ＝ｉ＋
２⁷-65=64 ＜65については、７ビットで符号化するとい
うものである。

【００８０】尚、上記Phasing in Binary Codes につい
ては、例えば、「“テキスト圧縮",ティモシー. シー．
ベル他, プレティス・ホール社刊,293頁〜294 頁,1990,
｛"Text Compression",Timothy.C.Bell etc.,Pretice H
all,PP293 〜294 」に詳しいが、図５に、そのPhasing
in Binary Codes の例を示す。このように、該Phasing
in Binary Codes によると、通常の２進符号では、整数
"0" 〜"8" を符号化すると、全て、４ビットを必要とす
るが、該Phasing in Binary Codes では、図８に示され
ている如く、ｎ＝９であるとき、大半 (整数"0" 〜"6"
迄) は、３ビットの符号で表すことができる。上記の符
号化方法は、このPhasing in Binary Codes の特徴を用
いて、Suffix符号のビット数を削減しようとするもので
ある。

【００８１】(b)復号化： (ｋ−1)ビットを読込み、そ
の２進表現ｉが、ｉ≦２^k−ｎならば、ｉが復号値であ
る。そうでなければ、もう１ビット読み込み、その２進
表現ｊから（ｊ−２^k＋ｎ) が復号値である。詳細は省
略する。

【００８２】5) 前述の一実施例では、符号の終端を符
号の有無で検出した。これは、終端符号を設け、符号化
時に、終端符号を符号データの最後に付加しておき、復
号化時に終端符号の検出で符号の終端を検知するもので
ある。上記の終端符号としては、データの文字以外に、
終端文字として、出現確率が最小の文字を定義してお
き、符号を割り付けることによって、終端符号を作るこ
とができる。

【００８３】尚、上記の実施例では、出現頻度の順番
を、所定の個数の２の巾乗分の１の出現確率のグループ
で分ける例で説明したが、２の巾乗分の１に限定され
るものではなく、一般には、所定の個数のｎ（ｎ≧２）
の巾乗分の１の出現確率のグループに分けるようにし
ても良いことは言う迄もないことである。

【００８４】このように、本発明によるデータ圧縮方法
は、入力データの出現頻度の順番を所定の個数の、例え
ば、２の巾乗分の１の出現確率の確率グループに分
け、該出現頻度の順番を該順番が属する該確率グループ
を表す、Prefix符号と，該順番を対応する該確率グル
ープ内の要素番号を表すSuffix符号とからなる符号で
符号化する方法であって、一文字以上入力するごとに、
該入力文字が属する該出現確率のグループに応じて、
該確率グループの要素数を増減させる。このとき、該
確率グループの要素数を、例えば、該出現頻度順の最
大番号で管理し，該入力文字が出現確率1/２^jに属する
とき、確率グループｉの該最大番号を所定の個数増すと
ともに、各確率グループｊ以外の該最大番号を所定の
個数増すようにして、データ圧縮を行うようにしたとこ
ろに特徴がある。

【００８５】

【発明の効果】以上、詳細に説明したように、本発明の
データ圧縮方法によれば、自己組織化規則(SOR) を用い
るとともに、出現確率グループの出現頻度を管理する
だけで、準最適な動的可変長符号表が簡単な手順で設計
できる。従って、符号化が高速で実行できるとともに、
この符号表を用いてデータに適応した高い圧縮率を得る
ことができる。

【図面の簡単な説明】

【図１】本発明の原理説明図

【図２】本発明の一実施例を示した図（その１）

【図３】本発明の一実施例を示した図（その２）

【図４】本発明の一実施例を示した図（その３）

【図５】ＰＧ番号ｊ出現時の各確率グループＧ(i) の増
分 DG(i,j)を示した図

【図６】ＰＧ番号ｊ出現時の各終端位置Ｐ(i) の増分
DP(i,j)を示した図

【図７】１バイト単位のＵＰ符号の初期設定例を示した
図

【図８】Phasing in Binary Codeの例を示した図

【図９】ハフマン符号の原理を説明する図

【図１０】Unary Prefix符号を説明する図

【図１１】自己組織化規則（ＳＯＲ）に基づく符号化方
法を示した図

【図１２】参照番号の符号化方法を説明する図

【符号の説明】

1 中央処理装置(CPU) 2 主記憶装置
(MM) 20 データ圧縮プログラム 21 データ復号
プログラム 22 データ圧縮／復号用バッファ 23 圧縮データ
格納域 24 ＵＰテーブル 25 MTF テーブ
ル (辞書) 3 ファイル記憶装置 A1〜A7,B1 〜B6 処理ステップ出現確率グループ Prefix符号 Suffix符号

Claims

【特許請求の範囲】

【請求項１】入力データの１語単位を動的に出現頻度順
に並べ、入力文字を該出現頻度の順番として符号化する
ときの符号化方法であって、入力データの出現頻度の順番を所定の個数のｎ（ｎ≧
２）の巾乗分の１の出現確率のグループ（）に分け、
該入力データの１語単位に対する符号化を、該出現頻度
の順番を該順番が属する該グループ（）を表すPrefix
符号（）と，該順番を対応する該グループ（）内の
要素番号を表すSuffix符号（）とからなる符号で符号
化するとき、一文字以上入力するごとに、該入力文字が
属する該出現確率のグループ（）に応じて、該グルー
プ（）の要素数を増減させることを特徴とするデータ
圧縮方法。
【請求項２】請求項１に記載のデータ圧縮方法であっ
て、該入力文字の出現頻度順位が確率1/n^jに属すると
き、確率グループｊ（）の要素数を減少させ、その減
少分だけ他の確率グループ（）の要素数を増加させ、
増加させる要素数の割合を、各確率グループ（）の出
現頻度順確率に比例させるようにすると共に、各確率グ
ループ（）の要素数を該出現順の最大番号で管理し、
各確率グループの要素数の増減分は整数の端数を含めて
計算し、各確率グループ（）で整数となる要素個数を
取ることを特徴とするデータ圧縮方法。
【請求項３】請求項１に記載のデータ圧縮方法であっ
て、該確率グループ（）の要素数を管理し、該入力文
字が出現順位確率1/ｎ^jに属するとき、ｊ＝１のとき
は、確率グループ１の該要素数を所定の個数減し、ｊ≧
２のときは、ｊ＝１からｊ＝ｊ-1までの各確率グループ
（）の各要素数を所定の個数増すとともに、該各確率
グループｊ（）の各要素数を所定の個数減すことを特
徴とするデータ圧縮方法。
【請求項４】請求項３に記載のデータ圧縮方法であっ
て、データ入力の初期には、一文字ごとに、該出現確率
グループ（）の要素数を増減させ、入力データ数が増
えるにつれて、複数文字ごとに、該出現確率グループ
（）の要素数を増減させることを特徴とするデータ圧
縮方法。
【請求項５】請求項３，又は４に記載のデータ圧縮方法
であって、該一文字以上入力するごとに、該入力文字が
属する該出現確率のグループ（）に応じて、該グルー
プ（）の要素数を増減させるのに同期して、該出現頻
度の順位を更新することを特徴とするデータ圧縮方法。
【請求項６】請求項１に記載のデータ圧縮方法であっ
て、該出現確率グループ（）内の要素番号を表すSuff
ix符号が、要素数がｎ（ｎ≧２）の巾乗個のときは、要
素番号を全要素数が表せる最小ビットを用いて表し、要
素数がｎの巾乗個でないときは、要素番号を全要素数が
表せる最小ビットと（該最小ビット数─1 ）ビットとの
組合せで表すことを特徴とするデータ圧縮方法。
【請求項７】請求項１に記載のデータ圧縮方法であっ
て、定常状態になったときの、各確率グループ（）の
要素数ｍを予測して、データ入力前の各確率グループ
（）の要素数ｍを初期設定することを特徴とするデー
タ圧縮方法。