JPH09246991A

JPH09246991A - データ圧縮・復元方法及びデータ圧縮装置及びデータ復元装置

Info

Publication number: JPH09246991A
Application number: JP8053482A
Authority: JP
Inventors: Nobuko Sato; 宣子佐藤; Yoshiyuki Okada; 佳之岡田; Shigeru Yoshida; 茂吉田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1996-03-11
Filing date: 1996-03-11
Publication date: 1997-09-19
Anticipated expiration: 2016-03-11
Also published as: US6061398A; JP3305190B2

Abstract

(57)【要約】【課題】データの圧縮が高速かつ高圧縮率で実行でき
るデータ圧縮装置とそのデータ圧縮装置と組み合わして
用いるデータ復元装置を提供する。【解決手段】データ圧縮装置を構成するＲＡＭ１５上
に、各文脈に対するハフマン符号木を記憶させておき、
ＣＰＵ１３によって、符号化すべきデータを構成する各
文字に対して、そのときの文脈に対応するハフマン符号
木を用いた符号化が行われ、各文字の符号化が行われる
ごとに、符号化に用いられたハフマン符号木が、全ての
文字のそれまでの出現頻度に応じて再構成されるように
する。また、データ復元装置内に、各文脈に対するハフ
マン符号木を記憶させておき、復元すべき符号に対し
て、そのときの文脈に対応するハフマン符号木を用いた
復号が行われ、１文字の復号が行われるごとに、復号に
用いられたハフマン符号木が、全ての文字のそれまでの
出現頻度に応じて再構成されるようにする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、さまざまな形態の
データの圧縮や圧縮したデータの復元を行うデータ圧縮
・復元方法およびデータ圧縮装置およびデータ復元装置
に関わり、特に、確率統計型符号化に分類される符号化
によって、データの圧縮や復元を行うデータ圧縮・復元
方法とデータ圧縮装置とデータ復元装置に関する。

【０００２】

【従来の技術】近年のコンピュータの急速な進歩に伴
い、コンピュータ内で、大容量のデータが取り扱われる
ようになっており、伝送時間を短縮するためや、記憶装
置を効率的に利用するために、データを圧縮することが
行われている。

【０００３】データを圧縮する際に用いられる符号化方
法としては、さまざまなものが知られている。このう
ち、文字コード、ベクトル情報、画像などと、対象デー
タを限定せずに様々なデータに適用可能な符号化は、ユ
ニバーサル符号化と呼ばれている。ユニバーサル符号化
としては、文字列の類似性を利用する辞書型符号化と、
文字の出現頻度を利用する確率統計型符号化が知られて
いる。なお、以下の説明においては、データの１単位を
「文字」と表記し、「文字」が複数個つながったものを
「文字列」と表記することにする。

【０００４】確率統計型符号化に分類される符号化に
は、ハフマン符号化と算術符号化がある。ハフマン符号
化では、各文字に対する符号として、その文字の出現頻
度に逆比例した符号長を有する符号（ハフマン符号）が
使用される。ハフマン符号化の詳細を説明する前に、ハ
フマン符号の生成時にも用いられるデータ構造である符
号木の説明を行うことにする。

【０００５】図２１に符号木の一例を示す。図中、○と
□で示された点が節点である。節点間を結ぶ線分は
「枝」と呼ばれ、１番上にある節点は「根」と呼ばれ
る。また、ある節点Ｘに「枝」で接続されている下の節
点Ｙは、節点Ｘの「子」と呼ばれ、逆に、節点Ｘは節点
Ｙの「親」と呼ばれる。「子」を持たない節点は「葉」
と呼ばれ、各「葉」には文字が対応づけられる。また、
「葉」を除く節点は「内部節点」と呼ばれ、「根」から
各節点までの「枝」の数がレベルと呼ばれている。

【０００６】符号木を用いた符号化時には、「根」か
ら、符号化すべき文字と対応づけられている「葉」に至
る経路が符号として出力される。すなわち、「根」から
目的とする「葉」に至るまでの各節点において左に分岐
したときには“１”が出力され、右に分岐したときには
“０”が出力される。たとえば、図２１に示した符号木
では、節点番号７の「葉」に対応づけられている文字Ａ
に対しては、符号“００”が出力され、節点番号８の
「葉」に対応づけられている文字Ｂに対しては、符号
“０１１”が出力され、復号時には、「根」から、復号
対象であるデータの各ビットの値に従って各節点を辿っ
たときに到達する「葉」に対応づけられている文字が出
力される。

【０００７】ハフマン符号化では、このような符号木
が、次のような手順（ハフマンアルゴリズムと呼ばれて
いる。）で生成される。（１）各文字に対応する葉（節点）を用意し、各葉に対
して、対応する文字の出現頻度を記録しておく。（２）出現頻度の最も小さい２つの節点に対して、新た
な節点を１つ作成し、作成した節点とそれら２つの節点
とをそれぞれ枝で結ぶ。また、枝で結んだ２つの節点の
出現頻度の和を、作成した新たな節点に対する出現頻度
として記録しておく。（３）親を有する節点を除く節点の数が１つになるま
で、親を有する節点を除く節点に対して（２）の処理を
行う。

【０００８】このような手順で生成された符号木では、
各文字に対して、その文字の出現頻度に逆比例した符号
長を有する符号が割り当てられることになる。このた
め、この符号木を用いて符号化を行えば、データの圧縮
が行えることになる。

【０００９】ハフマン符号を用いた符号化は、さらに、
静的符号化、準適応的符号化、適応的符号化に分類され
る。静的符号化では、通常、最初に、符号化すべきデー
タ内に現れる各文字の出現頻度が計数され、それらの出
現頻度を基に上述のような手順で符号木が作成される。
次に、その符号木を用いて当該データが符号化され、符
号化結果が符号木形状を表すデータとともに符号化デー
タとして出力される。すなわち、静的符号化では、符号
化すべき全ての文字に関する葉を有する符号木が用意さ
れ、その符号木を用いて符号化が行われる。そして、復
号側では、符号とともに出力されている符号木を用いて
復号が行われる。

【００１０】準適応的符号化では、静的符号化と同様
に、符号化すべき全ての文字に関する葉を有する符号木
が用意される。ただし、最初に用意される符号木は、各
文字の出現頻度に、それぞれ適当な初期値を設定するこ
とによって生成されたものである。準適応的符号化で
は、入力データに応じて変化する各文字の出現頻度に応
じた形状を有するように、その符号木が変形される。

【００１１】以上説明したように、静的符号化と準適応
的符号化とでは、符号化すべき全ての文字に関する葉を
有する符号木が用意される。これに対し、適応的符号化
時には、全ての文字に関する葉を有さない符号木、すな
わち、幾つかの文字と未登録文字に対する葉だけを有す
る符号木が用意される。適応的符号化では、符号化すべ
き文字に関する葉が符号木に存在していなかった場合に
は、未登録文字に対する符号と、符号化すべき文字その
もの（あるいはその文字を所定の符号化規則に従って符
号化した符号）とが出力される。その後、符号木にその
文字に関する葉が加えられる。

【００１２】なお、準適応的符号化と適応化符号化で
は、符号木の形状の更新が頻繁に行われるので、通常、
その更新にＦＧＫ(Faller-Gallager-Knuth)アルゴリズ
ムが適用できるように、符号木が形成される。すなわ
ち、図２２に示したように、レベルが低い節点ほど記録
される出現頻度が大きくなるように、同じレベルの節点
では、左の節点ほど、出現頻度が大きくなるように符号
木が形成される。

【００１３】ハフマン符号化では、１文字を符号化する
と、整数ビットからなる符号が生成される。これに対し
て、算術符号化では、一文字に対して端数ビットを割り
当てることが出来る。算術符号化では、０以上、１未満
の数直線（以下［０、１）と記す）が、符号化すべきデ
ータを構成する各文字の生起確率（出現頻度）に応じて
順次狭められていく。そして、全ての文字に対する処理
が終わったときに、狭められた区間内の１点を表す数値
が符号として出力される。

【００１４】たとえば、符号化対象となる文字がａ、
ｂ、ｃ、ｄ、ｅの５つであり、それらの文字の生起確率
が、それぞれ、０．２、０．１、０．０５、０．１５、
０．５であった場合、図２３に示したように、各文字に
対して、その生起確率に応じた区間幅を有する区間が割
り当てられる。そして、符号化すべき文字列が“ａｂ
ｅ”であった場合には、図２４に模式的に示したよう
に、まず、区間［０、１）が、文字“ａ”に対する区間
［０、０．２）に狭められる。次いで、その区間［０、
０．２）が各文字の生起確率に応じた区間に分割され、
次の文字である“ｂ”に対応する区間［０．０４、０．
０６）が文字列“ａｂ”の区間として選択される。そし
て、その区間［０．０４、０．０６）がさらに各文字の
生起確率に応じた区間に分割され、次の文字である
“ｅ”に対応する区間［０．０５、０．０６）が文字列
“ａｂｅ”の区間として選択される。その後、その区間
内の任意の点（たとえば下限）の位置を２進表示した際
の少数点以下のビット列が符号化結果として出力され
る。

【００１５】算術符号化では、さらに圧縮効果を高める
ために、符号化すべき文字の直前に現れた文字列（文
脈）と対応づけて、各文字の生起確率を求めることも行
われている。この場合、符号化は、図２５に模式的に示
したように、文脈収集部と可変長符号化部とを備える装
置によって実現される。文脈収集部は、図２６に示した
ような文脈木を用いて、現れた文字列の記憶とその出現
回数の計数を行い、ある文脈後に各文字が現れる条件付
き確率を求める。可変長符号化部は、文脈収集部によっ
て求められた条件付き確率に応じた長さを有する符号を
生成する。なお、符号を生成する際、可変長符号化部
は、更新される前の条件付き確率を用いる。

【００１６】たとえば、図２７に模式的に示したよう
に、“ａｂｃ”という順で文字が並んだ原データが入力
された場合、文脈収集部は、文脈である“ａｂ”に続い
て、符号化対象文字である“ｃ”が現れる条件付き確率
ρ（ｃ｜ａ，ｂ）を可変長符号部に出力する。その後、
文脈収集部は、“ａｂ”に続いて“ｃ”が再度現れたこ
とに基づき、各文字に関する条件付き確率の再計算を行
う。

【００１７】文脈収集処理における具体的な処理手順と
してはさまざまなものが知られているが、文脈の次数
（文脈の文字数）を固定するものと、固定しないもの
（Blending文脈）に大別されている。後者の方法では、
ある文脈が出やすい場合には、その文脈に関する次数を
上げ、出にくい場合には低い次数のままといったよう
に、各文脈の次数を入力データに適応させて変更する。

【００１８】

【発明が解決しようとする課題】ハフマン符号化は、デ
ータの圧縮は高速に行えるものの、一般的なデータを対
象とした場合、高い圧縮率が得られないという欠点を有
している。これに対して、文脈モデルを利用した算術符
号化によれば、高い圧縮率を実現することができる。し
かし、圧縮を行うときに複雑な計算が必要とされるた
め、データの圧縮を高速に行えないという欠点が存在す
る。また、高次の文脈モデルを用いるほど、データの圧
縮率を高くすることができるのであるが、各文脈に関す
るデータを記憶するために多くの記憶容量が必要とされ
ることになる。このため、従来のデータ圧縮装置では、
実際上、限られた数の文脈に関するデータしか用意して
おくことができず、文脈モデルの性能を十分に引き出す
ことができていなかった。

【００１９】そこで、本発明の課題は、実用的な処理速
度で高い圧縮率が実現できるデータ圧縮装置を提供する
ことにある。また、本発明の他の課題は、上記データ圧
縮装置によって圧縮されたデータを復元できるデータ復
元装置を提供することにある。

【００２０】

【課題を解決するための手段】本発明のデータ圧縮・復
元方法では、一符号が割り当てられる単位データである
文字毎に、それまでに連続したｎ個の文字からなる文脈
を条件とした、その文字の条件付き確率に対してハフマ
ン符号を割り当てて、データが圧縮あるいは復元され
る。

【００２１】本発明の第１のデータ圧縮装置は、複数の
文脈毎に、その文脈に続く文字を葉とするハフマン符号
の規則に従った符号木を記憶する記憶手段と、圧縮すべ
き文字列から符号化を行う文字を取得する文字取得手段
と、この文字取得手段により取得された文字の直前に出
現した文脈を特定する文脈特定手段と、この文脈特定手
段により特定された文脈に対して記憶手段内に記憶され
ている符号木において、文字取得手段で取得された文字
に対応づけられている符号を出力する符号出力手段と、
この符号出力手段によって用いられた符号木をハフマン
符号の規則に従って更新する更新手段とを備える。

【００２２】すなわち、第１のデータ圧縮装置では、ハ
フマン符号化に文脈モデルを適用した形で、準適応的に
データの圧縮が進められる。このため、第１のデータ圧
縮装置によれば、高速にしかも高圧縮率でデータを圧縮
できることになる。

【００２３】本発明の第２のデータ圧縮装置は、第１の
データ圧縮装置を以下のように変形することによって構
成される。まず、特殊文字と特殊符号とを対応づけるデ
ータを含む符号木を用いるようにする。また、符号出力
手段として、文脈特定手段により特定された文脈に対し
て記憶手段内に記憶されている符号木内に、文字取得手
段で取得された文字に関するデータが存在していなかっ
た場合には、その符号木内で特殊文字と対応づけられて
いる特殊符号を出力し、文字取得手段で取得された文字
に対する符号を出力するまで、文脈特定手段で特定され
た文脈を短くしながら特殊符号の出力を繰返す手段を用
いる。さらに、符号出力手段によって特殊符号が出力さ
れた場合に、未登録の文脈と文字の組み合わせに関する
情報を記憶手段に追加する追加手段を付加する。

【００２４】このように構成された第２のデータ圧縮装
置によれば、適応的にデータ圧縮が行われることになる
ので、さらに良い圧縮率が実現できる。本発明の第３の
データ圧縮装置は、第２のデータ圧縮装置に、符号出力
手段による文脈（符号木）の使用頻度を管理する使用頻
度管理手段と、使用頻度が最も少ない文脈に関する情報
を記憶手段内から削除する削除手段とを付加することに
よって構成される。

【００２５】本発明の第４のデータ圧縮装置は、第３の
データ圧縮装置に、各文脈に順位を与えて管理するとと
もに、符号出力手段によって符号の出力が行われた場合
には、符号の出力に使用された文脈に対してより上位の
順位を与える順位管理手段を付加し、削除手段として、
最下位の順位が与えられている文脈に関する情報を記憶
手段内から削除する手段を採用することによって構成さ
れる。

【００２６】本発明の第５のデータ圧縮装置は、第４の
データ圧縮装置において、符号出力手段によって符号出
力に用いられた文脈の順位を、最も上位の順位である第
１順位に変更し、第１順位が与えられていた文脈から符
号の出力に用いられた文脈よりも一つ上位の順位が与え
られていた文脈までの各文脈の順位を、それぞれ１つ下
位の順位に変更する順位管理手段を用いることによって
構成される。

【００２７】本発明の第６のデータ圧縮装置は、第４の
データ圧縮装置において、符号出力手段によって符号出
力に用いられた文脈の順位を、１つ上位の順位に変更
し、その１つ上位の順位が与えられていた文脈の順位
を、１つ下位の順位に変更する順位管理手段を用いるこ
とによって構成される。

【００２８】このように構成された第４ないし第６のデ
ータ圧縮装置によれば、記憶手段の容量が大きくなくと
も、高圧縮率のデータ圧縮が実現できる。本発明の第７
のデータ圧縮装置は、複数の文脈毎に、その文脈に続く
文字を葉とするハフマン符号の規則に従った符号木また
は各文字の出現頻度からなる出現頻度データのいずれか
一方を記憶する記憶手段と、圧縮すべき文字列から符号
化を行う文字を取得する文字取得手段と、この文字取得
手段により取得された文字の直前に出現した文脈を特定
する文脈特定手段と、この文脈特定手段により特定され
た文脈に対して記憶手段内に記憶されているデータが符
号木であった場合には、その符号木において、文字取得
手段で取得された文字に対応づけられている符号を出力
する第１符号出力手段と、この第１符号出力手段によっ
て用いられた符号木をハフマン符号の規則に従って更新
する更新手段と、文脈特定手段により特定された文脈に
対して記憶手段内に記憶されているデータが出現頻度デ
ータであった場合には、その出現頻度データ内の各文字
に関する出現頻度に基づき、文字取得手段で取得された
文字の算術符号を出力する第２符号出力手段と、この第
２符号出力手段によって用いられた出現頻度データ内の
文字取得手段で取得された文字に関する出現頻度を増加
させる第２出現頻度増加手段とを備える。

【００２９】すなわち、第７のデータ圧縮装置では、ハ
フマン符号化と算術符号化とを併用した形で準適応的に
データの圧縮が進められる。このため、第７のデータ圧
縮装置によれば、両符号化方式の利点を利用してデータ
を圧縮できることになる。

【００３０】本発明の第８のデータ圧縮装置は、第７の
データ圧縮装置の記憶手段内に、各文字の出現確率が１
／２のべき乗からの隔たりが小さい文脈に対する符号木
と、各文字の出現確率が１／２のべき乗からの隔たりが
大きい文脈に対する出現頻度データを記憶させておくこ
とによって構成される。

【００３１】本発明の第９のデータ圧縮装置は、第７の
データ圧縮装置の記憶手段内に、次数が所定値未満の文
脈に対する符号木と、次数が所定値以上の文脈に対する
出現頻度データとを記憶させておくことによって構成さ
れる。

【００３２】本発明の第１０のデータ圧縮装置は、第７
のデータ圧縮装置の記憶手段内に、所定数以上の文字が
出現する文脈に対応づけられている符号木と、出現頻度
データは所定数未満の文字が出現する文脈に対応づけら
れている出現頻度データを記憶させておくことによって
構成される。

【００３３】本発明の第１０のデータ圧縮装置は、第７
のデータ圧縮装置に、文脈毎に、文脈特定手段によって
特定された回数を管理する特定回数管理手段を付加する
とともに、第１符号出力手段として、文脈特定手段によ
り特定された文脈に対して特定回数管理手段によって管
理されている回数が所定回数以上であった場合に、その
文脈に対応する符号木に基づいて符号を出力し、所定回
数未満であった場合に、算術符号化に基づいて符号を出
力する手段を用いることによって構成される。

【００３４】なお、本発明の第７ないし第１１のデータ
圧縮装置の第２符号出力手段としては、第１符号出力手
段によって符号の出力が行われるときに、それまでの符
号化結果である算術符号の端数を出力する手段を用いる
ことが望ましい。

【００３５】また、第７ないし第１１のデータ圧縮装置
に、圧縮結果である符号が記憶される第１記憶領域と第
２記憶領域とを有する符号記憶手段を付加するととも
に、第１符号出力手段として、符号記憶手段内の第１記
憶領域に符号を書き込む手段を用い、第２符号出力手段
として、符号記憶手段内の第２記憶領域に符号を書き込
む手段を用いることもできる。

【００３６】さらに、第７ないし第１１のデータ圧縮装
置に、圧縮結果である符号が記憶される所定サイズの記
憶領域を有する符号記憶手段と、符号記憶手段内に新た
な符号が記憶できなくなったときに、符号記憶手段内に
記憶された符号を出力する符号出力手段とを付加すると
ともに、第１符号出力手段として、符号記憶手段内の第
１記憶領域に符号を書き込む手段を用い、第２符号出力
手段として、符号記憶手段内の第２記憶領域に符号を書
き込む手段を用いることもできる。

【００３７】以上のように第７ないし第１１のデータ圧
縮装置を変形した場合には、１つのデータを符号化する
際に、端数領域の切り捨てなければならない回数が減る
ので、高い圧縮率が得られることになる。

【００３８】本発明の第１のデータ復元装置は、複数の
文脈毎に、その文脈に続く文字を葉とするハフマン符号
の規則に従った符号木を記憶する記憶手段と、データの
復元に用いる文脈を特定する文脈特定手段と、この文脈
特定手段により特定された文脈に対して記憶手段内に記
憶されている符号木において符号に対応づけられている
文字を出力する文字出力手段と、この文字出力手段によ
って使用された符号木をハフマン符号の規則に従って更
新する更新手段とを備える。

【００３９】この第１のデータ復元装置により、第１の
データ圧縮装置によって圧縮されたデータが復元され
る。本発明の第２のデータ復元装置は、第１のデータ復
元装置を以下のように変形することによって構成され
る。まず、符号木として、特殊文字と特殊符号とを対応
づけるデータを含む符号木を用いる。また、文字出力手
段として、符号木において符号に対応づけられている文
字が特殊文字であった場合には、文字を復元するまで文
脈を短くしながら復元を繰返す手段を用いる。そして、
未登録の文脈と文字との組み合わせに関する情報を記憶
手段に登録する登録手段を付加する。

【００４０】この第２のデータ復元装置により、第２の
データ圧縮装置によって圧縮されたデータが復元され
る。本発明の第３のデータ復元装置は、第２のデータ復
元装置に、文字出力手段による各文脈の使用頻度を管理
する使用頻度管理手段と、使用頻度が最も少ない文脈に
関する情報を記憶手段内から削除する削除手段とを付加
することによって構成される。

【００４１】この第３のデータ復元装置により、第３の
データ圧縮装置によって圧縮されたデータが復元され
る。本発明の第４のデータ復元装置は、第３のデータ復
元装置に、各文脈に順位を与えて管理するとともに、文
字号出力手段による文字の出力が行われた場合には、文
字の出力に使用された文脈に対してより上位の順位を与
える順位管理手段を付加するとともに、削除手段とし
て、最下位の順位が与えられている文脈に関する情報を
記憶手段内から削除する手段を採用することによって構
成される。

【００４２】この第４のデータ復元装置により、第４の
データ圧縮装置によって圧縮されたデータが復元され
る。本発明の第５のデータ復元装置は、第４のデータ復
元装置において、符号出力手段によって符号出力に用い
られた文脈の順位を、最も上位の順位である第１順位に
変更し、第１順位が与えられていた文脈から符号の出力
に用いられた文脈よりも一つ上位の順位が与えられてい
た文脈までの各文脈の順位を、それぞれ１つ下位の順位
に変更する順位管理手段を採用することによって構成さ
れる。

【００４３】この第５のデータ復元装置により、第５の
データ圧縮装置によって圧縮されたデータが復元され
る。本発明の第６のデータ復元装置は、第４のデータ復
元装置において、符号出力手段によって符号出力に用い
られた文脈の順位を、１つ上位の順位に変更し、その１
つ上位の順位が与えられていた文脈の順位を、１つ下位
の順位に変更する順位管理手段を採用することによって
構成される。

【００４４】この第６のデータ復元装置により、第６の
データ圧縮装置によって圧縮されたデータが復元され
る。本発明の第７のデータ復元装置は、複数の文脈毎
に、その文脈に続く文字を葉とするハフマン符号の規則
に従った符号木またはその各文字の出現頻度からなる出
現頻度データのいずれか一方を記憶する記憶手段と、復
号に用いる文脈を特定する文脈特定手段と、この文脈特
定手段により特定された文脈に対して記憶手段内に記憶
されているデータが符号木であった場合には、その符号
木において符号に対応づけられている文字を出力する第
１文字出力手段と、この第１文字出力手段によって用い
られた符号木をハフマン符号の規則に従って新する更新
手段と、文脈特定手段により特定された文脈に対して記
憶手段内に記憶されているデータが出現頻度データであ
った場合には、符号に対して、その出現頻度データを用
いた算術復号化を行い、復号結果として得られた文字を
出力する第２文字出力手段と、この第２文字出力手段に
よって用いられた出現頻度データ内の、出力された文字
に関する出現頻度を増加させる第２出現頻度増加手段と
を備える。

【００４５】この第７のデータ復元装置により、第７の
データ圧縮装置によって圧縮されたデータが復元され
る。本発明の第８のデータ復元装置は、第７のデータ復
元装置の記憶手段内に、各文字の出現確率が１／２のべ
き乗からの隔たりが小さい文脈に対する符号木と、各文
字の出現確率が１／２のべき乗からの隔たりが大きい文
脈に対する出現頻度データとを記憶させておくことによ
って構成される。

【００４６】この第８のデータ復元装置により、第８の
データ圧縮装置によって圧縮されたデータが復元され
る。本発明の第９のデータ復元装置は、第７のデータ復
元装置の記憶手段内に、次数が所定値未満の文脈に対す
る符号木と、次数が所定値以上の文脈に対する出現頻度
データとを記憶させておくことによって構成される。

【００４７】この第９のデータ復元装置により、第９の
データ圧縮装置によって圧縮されたデータが復元され
る。本発明の第１０のデータ復元装置は、第７のデータ
復元装置の記憶手段内に、所定数以上の文字が出現する
文脈に対応づけられている符号木と、出現頻度データは
所定数未満の文字が出現する文脈に対応づけられている
出現頻度データを記憶させておくことによって構成され
る。

【００４８】この第１０のデータ復元装置により、第１
０のデータ圧縮装置によって圧縮されたデータが復元さ
れる。本発明の第１１のデータ復元装置は、第７のデー
タ復元装置に、文脈ごとに、文脈特定手段によって特定
された回数を管理する特定回数管理手段を付加するとと
もに、第１文字出力手段として、文脈特定手段により特
定された文脈に対して特定回数管理手段によって管理さ
れている回数が所定回数以上であった場合には、その文
脈に対応する符号木に基づいて復号し、所定回数未満で
あった場合に算術符号化に基づいて復号し、復号結果と
して得られた文字を出力する手段を採用することによっ
て構成される。

【００４９】この第１１のデータ復元装置により、第１
１のデータ圧縮装置によって圧縮されたデータが復元さ
れる。なお、本発明の第７ないし第１１のデータ復元装
置の第２文字出力手段として、第１文字出力手段によっ
て復号が行われるときに、それまでの算術符号の端数を
除く手段を採用することができる。

【００５０】また、本発明の第７ないし第１１のデータ
復元装置に、復元すべき符号が記憶された第１記憶領域
と第２記憶領域とを有する符号記憶手段を付加し、第１
文字出力手段として、符号記憶手段内の第１記憶領域に
記憶された符号を復元する手段を採用し、第２文字出力
手段として、符号記憶手段内の第２記憶領域に記憶され
た符号を復元する手段を採用することもできる。

【００５１】また、本発明の第７ないし第１１のデータ
復元装置に、圧縮結果である符号が記憶された所定サイ
ズの記憶領域を有する符号記憶手段と、この符号記憶手
段内に復号すべき符号がなくなったときには、符号記憶
手段内に新たな符号を入力する符号入力手段とを付加
し、第１文字出力手段として、符号記憶手段内の記憶領
域の前方から符号を復号する手段を用い、第２文字出力
手段として、符号記憶手段内の記憶領域の後方から符号
を復号する手段を用いることもできる。

【００５２】

【発明の実施の形態】以下、本発明を図面を参照して具
体的に説明する。第１実施形態＜データ圧縮装置＞図１に、第１実施形態のデータ圧縮
装置の構成を示す。図示したように、第１実施形態のデ
ータ圧縮装置は、入出力装置１１とＲＯＭ(read only m
emory)１２とＣＰＵ(central processing unit)１３と
ディスク記憶装置１４とＲＡＭ(random access memory)
１５を主な構成要素として備える。入出力装置１１は、
キーボードとＣＲＴ(cathode ray tube)とその周辺機器
からなり、圧縮すべきデータを指示するためなどに用い
られる。ＲＯＭ１２には、本装置を起動した際に、ＣＰ
Ｕ１３が最初に実行するプログラムなどが記憶されてい
る。ＣＰＵ１３は、そのプログラムに従い、ディスク記
憶装置１４に記憶されているオペレーションシステムを
ＲＡＭ１５の所定の記憶領域に読み込み、さらに、その
オペレーションシステム上で動作するデータ圧縮用プロ
グラムを、ＲＡＭ１５の他の記憶領域に読み込む。

【００５３】そして、ＣＰＵ１３は、読み込んだデータ
圧縮用プログラムに従った動作を開始し、図１に模式的
に示したように、ＲＡＭ１５内に、本装置が圧縮対象と
する原データ中に含まれることがある全ての２次の文脈
に関する符号木データを用意する。符号木データは、原
データに含まれることがある全ての文字に対する葉を有
するハフマン符号木を表すデータであり、起動時に用意
される符号木データによって表されるハフマン符号木
は、各文字（葉）に対して与えられている頻度の初期値
に応じた形状を有している。本データ圧縮装置では、デ
ータ圧縮の進行に伴い、ＲＡＭ１５内の各符号木データ
の内容が更新されていく。

【００５４】以下、図２を用いて、第１実施形態のデー
タ圧縮装置内のＣＰＵのの動作手順を説明する。データ
圧縮の開始時、ＣＰＵ１３は、まず、ＲＡＭ１５内に符
号木データが用意されている文脈の１つを表す文字列を
設定することによって、文脈文字列Ｐを初期化する（ス
テップＳ１０１）。このステップで設定された文字列
は、圧縮すべきデータである原データの１、２文字目の
文字（２次の文脈が実際には存在していない文字）の符
号化に使用する符号木データを指定するデータとして使
用される。

【００５５】次いで、ＣＰＵは、原データから符号化を
行う文字Ｘ（文脈文字列Ｐに続く文字）を取得（ステッ
プＳ１０２）し、文脈文字列Ｐに対応する符号木データ
によって定義されている符号木の根から文字Ｘに応じた
葉Ｘ′までの経路を符号として出力する（ステップＳ１
０３）。その後、ＣＰＵは、符号の出力に使用した符号
木データ中の文字Ｘの出現頻度に“１”を加算し（ステ
ップＳ１０４）、各文字の出現頻度を基にハフマンアル
ゴリズムに従って符号木を再構成し、その再構成後の符
号木が表されるように符号木データの内容を更新する
（ステップＳ１０５）。

【００５６】そして、ＣＰＵは、文脈文字列Ｐの内容が
次の文字の文脈となるように、文字Ｘを用いて文脈文字
列Ｐを更新する（ステップＳ１０６）。すなわち、ＣＰ
Ｕは、２文字の文字列である文脈文字列Ｐの末尾に符号
化を終えた文字Ｘを追加するとともに、先頭の１文字を
取り除くことによって、新たな２文字の文脈文字列Ｐを
生成する。

【００５７】その後、ＣＰＵは、原データ中の全ての文
字に対する処理が完了しているか否かを判断し、完了し
ていない場合（ステップＳ１０７；Ｎ）には、ステップ
Ｓ１０２に戻り、次の文字の符号化を行う。そして、原
データ内の全ての文字に関する処理を終えたときに（ス
テップＳ１０７；Ｙ）、その原データに対するデータ圧
縮処理を終了する。

【００５８】このように、第１実施形態のデータ圧縮装
置は、文脈ごとに用意されているハフマン符号木の形状
を、原データの内容に応じて更新しつつ、データ圧縮を
行う。このため、本データ圧縮装置によれば、高速にし
かも高圧縮率でデータ圧縮が実現できる。

【００５９】なお、第１実施形態のデータ圧縮装置は、
２次の文脈を用いる装置として構成してあるが、他の次
数の文脈を用いるようにしても良いことは当然である。＜データ復元装置＞第１実施形態のデータ復元装置は、
第１実施形態のデータ圧縮装置によって圧縮されたデー
タの復元を行う。

【００６０】第１実施形態のデータ復元装置の構成は、
図１に示した第１実施形態のデータ圧縮装置と同じであ
り、第１実施形態のデータ復元装置の起動時、そのＲＡ
Ｍ内には、第１実施形態のデータ圧縮装置のＲＡＭ内に
用意される符号木データと全く同じ符号木データが用意
される。

【００６１】以下、図３を用いて、第１実施形態のデー
タ復元装置内のＣＰＵのの動作手順を説明する。データ
復元を開始する際、ＣＰＵは、まず、文脈文字列Ｐの初
期化を行う（ステップＳ２０１）。このステップでは、
第１実施形態のデータ圧縮装置において文脈文字列Ｐの
初期化に用いられた文字列と同じ文字列が文脈文字列Ｐ
に設定される。

【００６２】次いで、ＣＰＵは、ＲＡＭ内の複数の符号
木データから、文脈文字列Ｐに対応した符号木データを
選択し、選択した符号木データが表している符号木内の
各節点を、復元対象である圧縮データを構成する各ビッ
トの値に従って、根から葉に至るまで辿っていき、１つ
の葉Ｘ′を特定する（ステップＳ２０２）。そして、Ｃ
ＰＵは、特定した葉Ｘ′に対応する文字Ｘを復元結果と
して出力する（ステップＳ２０３）。

【００６３】その後、ＣＰＵは、使用した符号木データ
中の文字Ｘ（葉Ｘ′）に関する出現頻度に“１”を加え
る（ステップＳ２０４）。そして、その符号木データ内
の各文字に関する出現頻度に基づき、ハフマンアルゴリ
ズムを用いて符号木を再構成し、再構成した符号木が表
されるように符号木データの内容を更新する（ステップ
Ｓ２０５）。次いで、ＣＰＵは、文字Ｘを用いて文脈文
字列Ｐを更新（ステップＳ２０６）し、全てのデータに
ついての処理が終了していなかった場合（ステップＳ２
０７；Ｎ）には、ステップＳ２０２に戻り、次の符号の
復元を開始する。

【００６４】そして、圧縮データ中の最後のビットの処
理が完了した際（ステップＳ２０７；Ｙ）に、ＣＰＵ
は、その圧縮データの復元処理を終了する。第２実施形態＜データ圧縮装置＞第２実施形態のデータ圧縮装置は、
第１実施形態のデータ圧縮装置と同様に、次数を２次に
固定した文脈を用いてデータ圧縮を行う。第２実施形態
のデータ圧縮装置は、第１実施形態のデータ圧縮装置
（図１）と同じ構成を有し、その起動時、ＲＡＭ内に
は、第１実施形態のデータ圧縮装置のＲＡＭ内に用意さ
れる符号木データと文字と符号との対応関係が同じであ
り、ＦＧＫアルゴリズムが適用可能な形態の符号木デー
タが用意される。

【００６５】以下、図４を用いて、第２実施形態のデー
タ圧縮装置内のＣＰＵのの動作手順を説明する。データ
圧縮を開始する際、ＣＰＵは、まず、符号木データが用
意されている文脈の１つを表す文字列を設定することに
よって、文脈文字列Ｐを初期化する（ステップＳ３０
１）。次いで、ＣＰＵは、圧縮対象である原データから
符号化を行う文脈文字列Ｐに続く文字Ｘを取得（ステッ
プＳ３０２）する。そして、ＣＰＵは、文脈文字列Ｐに
対応する符号木データを選択し、その符号木データによ
って定義されている符号木の、根から文字Ｘに相当する
葉Ｘ′までの経路を符号として出力する（ステップＳ３
０３）。

【００６６】その後、ＣＰＵは、文字Ｘが現れたことを
符号木の形状に反映させるために、ＦＧＫアルゴリズム
に従った処理（ステップＳ３０４〜Ｓ３０９）を実行す
る。すなわち、ＣＰＵは、まず、葉Ｘ′を注目接点Ｙと
して扱うことを決定する（ステップＳ３０４）。次い
で、注目接点Ｙの頻度と同じ頻度で最もレベルの低い節
点と注目節点Ｙとを交換する。この際、同じレベルに、
注目接点Ｙの頻度と同じ頻度の節点が２つ以上あった場
合には、最も左の節点と注目節点Ｙとを交換する（ステ
ップＳ３０５）。その後、ＣＰＵは、注目節点Ｙの頻度
に“１”を加算（ステップＳ３０６）し、注目節点Ｙの
親を新たな注目節点Ｙとする（ステップＳ３０７）。そ
して、ＣＰＵは、新たな注目節点Ｙが根でない場合（ス
テップＳ３０８；Ｎ）には、ステップＳ３０５からの処
理を再度実行する。また、ＣＰＵは、注目節点Ｙが根に
なったときに（ステップＳ３０８；Ｙ）、根（注目節点
Ｙ）の頻度に“１”を加えて（ステップＳ３０９）、符
号木の形状更新（符号木データの内容更新）を終える。

【００６７】このような一連の処理によって、ある符号
木データの内容を更新した後、ＣＰＵは、文字Ｘを用い
て文脈文字列Ｐを更新（ステップＳ３１０）し、原デー
タを構成する全ての文字に対する処理が終了していない
場合（ステップＳ３１１；Ｎ）には、ステップＳ３０２
に戻り、次の文字の符号化を開始する。

【００６８】そして、ＣＰＵは、全ての文字に対する処
理が完了したとき（ステップＳ３１１；Ｙ）に、原デー
タに対するデータ圧縮を終了する。このように第２実施
形態のデータ圧縮装置では、ＦＧＫアルゴリズムを用い
て符号木の形状が更新される。このため、第２実施形態
のデータ圧縮装置によれば、第１実施形態のデータ圧縮
装置よりも高速にデータ圧縮が実行できる。

【００６９】＜データ復元装置＞第２実施形態のデータ
復元装置は、第２実施形態あるいは第１実施形態のデー
タ圧縮装置が圧縮したデータを復元する。第２実施形態
のデータ圧縮装置の起動時、そのＲＡＭ内には、第２実
施形態のデータ圧縮装置のＲＡＭ内に用意される符号木
データと全く同じ符号木データが用意される。

【００７０】以下、図５を用いて、第２実施形態のデー
タ復元装置内のＣＰＵのの動作手順を説明する。ある圧
縮データの復元を開始する際、ＣＰＵは、まず、文脈文
字列Ｐの初期化を行う（ステップＳ４０１）。このステ
ップでは、第２実施形態のデータ圧縮装置において文脈
文字列Ｐの初期化に用いられた文字列と同じ文字列が文
脈文字列Ｐに設定される。

【００７１】次いで、ＣＰＵは、文脈文字列Ｐに対応し
た符号木データを特定する。そして、その符号木データ
で表されている符号木内の各節点を、復元対象である圧
縮データを構成する各ビットの値に従って、根から葉に
至るまで辿っていき、１つの葉Ｘ′を特定する（ステッ
プＳ４０２）。そして、ＣＰＵは、特定した葉Ｘ′に対
応づけられている文字Ｘを復元結果として出力する（ス
テップＳ４０３）。

【００７２】その後、符号木の形状を更新するために、
ＣＰＵは、ＦＧＫアルゴリズムに従った処理（ステップ
Ｓ４０４〜Ｓ４０９）を実行する。すなわち、ＣＰＵ
は、まず、葉Ｘ′を注目接点Ｙとして扱うことを決定す
る（ステップＳ４０４）。次いで、注目接点Ｙの頻度と
同じ頻度で最もレベルの低い節点と注目節点Ｙとを交換
する。この際、同じレベルに、注目接点Ｙの頻度と同じ
頻度の節点が２つ以上あった場合には、最も左の節点と
注目節点Ｙとを交換する（ステップＳ４０５）。その
後、ＣＰＵは、注目節点Ｙの頻度に“１”を加算（ステ
ップＳ４０６）し、注目節点Ｙの親を新たな注目節点Ｙ
とする（ステップＳ４０７）。そして、ＣＰＵは、新た
な注目節点Ｙが根でない場合（ステップＳ４０８；Ｎ）
には、ステップＳ４０５からの処理を実行し、注目節点
Ｙが根になったときに（ステップＳ４０８；Ｙ）、根
（注目節点Ｙ）の頻度に“１”を加えて（ステップＳ４
０９）、符号木の形状更新（符号木データの内容更新）
を終える。

【００７３】このような一連の処理によって、１つの符
号木データの内容を更新した後、ＣＰＵは、文字Ｘを用
いて文脈文字列Ｐを更新（ステップＳ４１０）し、圧縮
データを構成する全てのビットに対する処理が終了して
いない場合（ステップＳ４１１；Ｎ）には、ステップＳ
４０２に戻り、圧縮データの復元を続ける。

【００７４】そして、ＣＰＵは、全てのビットに対する
処理が完了したとき（ステップＳ４１１；Ｙ）に、復元
を終了する。このように第２実施形態のデータ復元装置
では、ＦＧＫアルゴリズムを用いて符号木の形状が更新
される。このため、第２実施形態のデータ復元装置によ
れば、第１実施形態のデータ復元装置よりも高速にデー
タの復元が行える。

【００７５】第３実施形態＜データ圧縮装置＞第３実施形態のデータ圧縮装置で
は、圧縮するデータの内容に応じて、１次あるいは２次
の文脈が追加登録され、登録された文脈を用いてその後
のデータ圧縮が行われる。

【００７６】図６に、第３実施形態のデータ圧縮装置の
構成を示す。図示したように、第３実施形態のデータ圧
縮装置の起動時、ＲＡＭ１５上には、０次文脈に関する
符号木データと文脈順位リストと符号木データ登録用記
憶領域が用意される。

【００７７】０次文脈に関する符号木データは、原デー
タ中に現れることがある全ての文字に関する葉を持つハ
フマン符号木を表すデータであり、ＦＧＫアルゴリズム
が適用できる形態を有している。符号木データ登録用記
憶領域は、新たな文脈に関する符号木データを登録する
ための記憶領域である。文脈順位リストは、符号木デー
タ登録用記憶領域に幾つの文脈に関する符号木データが
登録されているかを管理するためのリストであり、起動
時にＲＡＭ１５内に用意される文脈順位リストは、内容
がないものである。

【００７８】以下、図７を用いて、第３実施形態のデー
タ圧縮装置内のＣＰＵのの動作手順を説明する。図示し
たように、データ圧縮を開始する際、ＣＰＵは、まず、
空文字列を設定することによって、文脈文字列Ｐを初期
化する（ステップＳ５０１）。次いで、ＣＰＵは、文脈
文字列Ｐと同じ内容の文脈文字列Ｐ′を生成し（ステッ
プＳ５０２）、符号化すべき文字Ｘを取得する（ステッ
プＳ５０３）。

【００７９】その後、ＣＰＵは、文脈文字列Ｐ′に関す
る符号木データが、ＲＡＭ内に存在しているか否かを判
断する（ステップＳ５０４）。文脈文字列Ｐ′に関する
符号木データが存在していなかった場合（ステップＳ５
０４；Ｎ）、ＣＰＵは、文脈文字列Ｐ′の先頭の１文字
を取り除いた文字列を、新たな文脈文字列Ｐ′とする
（ステップＳ５０５）。そして、ステップ５０４に戻
り、その文脈文字列Ｐ′に関する符号木データが存在し
ているかを判断する。

【００８０】既に説明したように、本データ圧縮装置で
は、０次文脈に関する符号木データがＲＡＭ上に保持さ
れている。このため、ステップＳ５０４およびＳ５０５
のループによって符号木データを有する文脈文字列Ｐ′
が必ず見いだされる。

【００８１】ＣＰＵは、文脈文字列Ｐ′を見い出した
後、文脈文字列Ｐ′に対応する符号木データ内に、文字
Ｘに対応する葉Ｘ′に関するデータが存在している否か
を判断（ステップＳ５０６）する。そして、葉Ｘ′に関
するデータが存在していた場合（ステップＳ５０６；
Ｙ）には、その符号木データを用いて文字Ｘを符号化
し、符号化結果を出力する（ステップＳ５０７）。次い
で、ＣＰＵは、文字Ｘが現れたことが符号木の形状に反
映されるように、その符号木データの内容を更新する
（ステップＳ５０８）。なお、このステップにおいて、
ＣＰＵは、図４のステップＳ３０４〜Ｓ３０９と同じ処
理を実行する。

【００８２】その後、ＣＰＵは、使用した文脈の順位を
更新（ステップＳ５０９）する。このステップにおい
て、ＣＰＵは、符号の出力に用いられた文脈の順位を、
最も上位の順位である第１順位に変更し、第１順位が与
えられていた文脈から符号の出力に用いられた文脈より
も一つ上位の順位が与えられていた文脈までの各文脈の
順位を、それぞれ１つ下位の順位に変更する。

【００８３】たとえば、図８（Ａ）に模式的に示したよ
うに、文脈順位リスト内に、８個の文脈に関するデータ
が記憶されており、文脈（ａｂ）に関する符号木データ
が使用された場合、ＣＰＵは、図８（Ｂ）に示したよう
に、文脈（ａｂ）の順位が第１順位となり、第１順位か
ら第５順位が与えられていた各文脈にそれぞれ１順位低
い順位が与えられるように、文脈順位リストの内容を変
更する。

【００８４】その後、ＣＰＵは、文脈Ｐ′の次数Ｃ_NOW
が、文脈の最高次数であるＣ_MAX（本装置ではＣ_MAX＝
２）未満であった場合（ステップＳ５１０；Ｙ）には、
その文脈文字列Ｐ′を１文字長くした文脈文字列Ｐ″
（前回、ステップＳ５０４において符号木データが存在
していないとされた文脈文字列Ｐ′）に関するデータを
登録するための処理である文脈登録処理（ステップＳ５
１１）を実行する。

【００８５】以下、図９を用いて、文脈登録処理の詳細
を説明する。本データ圧縮装置では、符号木データ登録
領域に登録できる符号木データの総数に上限が設けられ
ている。このため、ＣＰＵは、新たに登録すべき符号木
データが現れた場合、図示したように、まず、そのとき
の符号木データの総数Ｎ_NOWが上限Ｎ_MAX未満であるか否
かを判断（ステップＳ６０１）する。そして、総数Ｎ
_NOWが上限Ｎ_MAX未満でなかった場合（ステップＳ６０
１；Ｎ）には、文脈順位リストにおいて最も低い順位が
与えられている文脈に関する符号木データをＲＡＭ上か
ら削除する（ステップＳ６０２）。

【００８６】そして、文脈Ｐ″に関する符号木データを
ＲＡＭ上に作成する（ステップＳ６０３）。なお、この
際、ＣＰＵは、文字ＸとＥＳＣに関する２つの葉を有す
る符号木に関する符号木データを作成する。次いで、Ｃ
ＰＵは、総数Ｎ_NOW（この場合は、Ｎ_NOW＝Ｎ_MAX）の１
／２に相当する順位が与えられるように文脈Ｐ″に関す
るデータを文脈順位リストに登録し（ステップＳ６０
４）、文脈登録処理を終了する（図８のステップＳ５１
２に進む）。

【００８７】一方、総数Ｎ_NOWが上限Ｎ_MAX未満であった
場合（ステップＳ６０１；Ｙ）には、符号木データを削
除することなく、文脈Ｐ″に関する符号木データの登録
を行い（ステップＳ６０３、Ｓ６０４）、文脈登録処理
を終了する。

【００８８】図８に戻って、第３実施形態のデータ圧縮
装置内のＣＰＵの動作の説明を続ける。文脈登録処理の
実行後、あるいは、文脈の次数が最高次数であった場
合、ＣＰＵは、文字Ｘを用いて文脈文字列Ｐを更新する
（ステップＳ５１２）。具体的には、ＣＰＵは、文脈文
字列Ｐの次数が最高次数Ｃ_MAXと一致していないときに
は、文脈文字列の末尾に文字Ｘを追加した文字列を新た
な文脈文字列とする。また、文脈文字列Ｐの次数が最高
次数Ｃ_MAXと一致していたときには、文脈文字列Ｐの末
尾に文字Ｘを追加するとともに、先頭から１文字を取り
除いた文字列を新たな文脈文字列Ｐとする。

【００８９】その後、ＣＰＵは、符号化すべきデータが
残っている場合（ステップＳ５１３；Ｎ）には、ステッ
プ５０２に戻る。一方、ステップＳ５０４、Ｓ５０５に
おいて見い出された符号木データ中に、符号化すべき文
字Ｘに関する葉Ｘ′についてのデータが存在していなか
った場合（ステップＳ５０６；Ｎ）、ＣＰＵは、その符
号木データにおいて、“ＥＳＣ”に対応づけられている
符号を出力する（ステップＳ５１４）。次いで、ＣＰＵ
は、０次文脈に対する符号木データで表されている符号
木を用いて、文字Ｘを符号化し、０次文脈に関する符号
木の形状を変更（ステップＳ５１５）する。

【００９０】その後、文脈文字列Ｐ′に関する符号木に
文字Ｘに対応する葉Ｘ′が追加されるように、文脈文字
列Ｐ′に対する符号木データの内容を更新する（ステッ
プＳ５１６）。次いで、ステップＳ５０９と同じ手順で
文脈Ｐ′の順位を変更（ステップＳ５１７）し、ステッ
プＳ５１２に進んで文脈文字列Ｐを更新する。

【００９１】そして、原データ中に未処理の文字がなく
なったとき（ステップＳ５１３；Ｙ）に、原データに対
するデータ圧縮を終了する。以上説明したように、第３
実施形態のデータ圧縮装置では、文脈を用いて適応的に
符号化が行われる。また、ある文脈が使用される度にそ
の文脈の順位が第１順位に変更されているので、新たな
文脈に関するデータが登録される際に削除されるデータ
は、使用頻度が少ないデータとなっている。従って、本
データ圧縮装置によれば、有限のメモリを効果的に用い
てデータ圧縮が行われるので、同容量のメモリを統計情
報の記憶のために用いる従来のデータ圧縮装置に比し
て、高圧縮率のデータ圧縮が実現できる。

【００９２】なお、第３実施形態のデータ圧縮装置の起
動時に、０次文脈の他に１次あるいは２次の文脈に関す
る符号木データが用意されるように装置を構成しても良
いことは当然である。このように構成した場合も、図７
に示した手順によってデータ圧縮を実現できる。

【００９３】また、本データ圧縮装置は、ある文脈に関
する符号木に符号化対象である文字が登録されていない
場合、ＥＳＣに応じた符号と、０次文脈に関する符号木
によって当該文字に対応づけられている符号とを出力し
ている。しかし、ある文脈に関する符号木に符号化対象
である文字が登録されていない場合には、順次、文脈の
次数を下げて、符号化対象文字が登録されている符号木
を見いだしたときに、その符号木によって符号化対象文
字に対応づけられている符号を出力するように構成する
こともできる。なお、このような場合には、次数を下げ
た各文脈に関する符号木に符号化対象である文字が登録
されていない場合には、ＥＳＣに応じた符号だけを出力
し、また、その符号木に符号化対象文字を追加するよう
に装置を構成する。

【００９４】また、０次文脈に関する符号木に、ＥＳＣ
に対応する葉を持たしておくとともに、０次文脈の符号
木に登録されていない文字に対して出力すべき符号を定
める符号木を用意しておくことによって、０次文脈に関
する符号木に文字を追加できるようにデータ圧縮装置を
構成することもできる。

【００９５】また、本データ圧縮装置は、ある文脈が使
用された場合、その文脈に対して第１順位が与えられる
ように構成してあるが、文脈の順位の更新手順はこれに
限られるものではない。たとえば、図１０に模式的に示
したように、使用した文脈の順位を１順位上に変更する
といった更新手順を採用することもできる。また、図１
１に模式的に示したように、各文脈の使用頻度が記憶で
きるように文脈順位リストを構成しておき、各文脈に対
してその使用頻度に応じた順位が与えられるようにデー
タ圧縮装置を構成することもできる。

【００９６】＜データ復元装置＞第３実施形態のデータ
復元装置は、第３実施形態のデータ圧縮装置が圧縮した
データを復元する。第３実施形態のデータ復元装置の起
動時、そのＲＡＭ上には、第３実施形態のデータ圧縮装
置のＲＡＭ上に用意されるデータと全く同じデータが用
意される。

【００９７】以下、図１２を用いて、第３実施形態のデ
ータ復元装置内のＣＰＵの動作手順を説明する。図示し
たように、データの復元を開始する際、ＣＰＵは、ま
ず、空文字列を設定することによって、文脈文字列Ｐを
初期化（ステップＳ７０１）し、文脈文字列Ｐと同じ内
容の文脈文字列Ｐ′を生成する（ステップＳ７０２）。

【００９８】そして、ＣＰＵは、文脈文字列Ｐ′に関す
る符号木データが存在しているか否かを判断する（ステ
ップＳ７０３）。文脈文字列Ｐ′に関する符号木データ
が存在していなかった場合（ステップＳ７０３；Ｎ）、
ＣＰＵは、文脈文字列Ｐ′を１文字分短くした文字列を
新たな文脈文字列Ｐ′とする（ステップＳ７０４）。そ
して、ステップ７０３に戻り、その文脈文字列Ｐ′に関
する符号木データが存在しているかを判断する。

【００９９】ＣＰＵは、符号木データを有する文脈Ｐ′
を見い出した後、その符号木データにおいて、復号すべ
き符号に対応づけられている葉Ｘ′を特定（ステップＳ
７０５）する。次いで、ＣＰＵは、葉Ｘ′を使用したこ
とが符号木の形状に反映されるように、その符号木デー
タの内容を更新する（ステップＳ７０６）。

【０１００】そして、葉Ｘ′に対応する文字Ｘが“ＥＳ
Ｃ”でなかった場合（ステップＳ７０７；Ｎ）、ＣＰＵ
は、文字Ｘを出力し、文脈リスト内での文脈Ｐ′の順位
を変更する。この順位の変更は、図７のＳ５０９と同じ
手順で行われる。

【０１０１】その後、ＣＰＵは、文脈Ｐ′の次数Ｃ_NOW
が文脈の最高次数Ｃ_MAX（＝２）未満であった場合（ス
テップＳ７１０；Ｙ）には、その文脈Ｐ′を１文字長く
した文脈Ｐ″に関するデータを登録するために、第３実
施形態のデータ圧縮装置で実行されている文脈登録処理
と全く同じ文脈登録処理（ステップＳ７１１）を実行す
る。

【０１０２】文脈登録処理の実行後、ＣＰＵは、文字Ｘ
を用いて文脈文字列Ｐを更新し（ステップＳ７１２）、
符号化すべきデータが残っていた場合（ステップＳ７１
３；Ｎ）には、ステップ７０２に戻る。

【０１０３】一方、葉Ｘ′に対応する文字Ｘが“ＥＳ
Ｃ”であった場合（ステップＳ７０７；Ｙ）、ＣＰＵ
は、圧縮データ中の次のビット列を、０次文脈に関する
符号木データを用いて復号し、復号結果である文字Ｘを
出力するとともに、０次文脈の符号木形状を変更する
（ステップＳ７１４）。

【０１０４】その後、文脈文字列Ｐ′に関する符号木に
文字Ｘに対応する葉Ｘ′が追加されるように、文脈文字
列Ｐ′に対する符号木データの内容を更新する（ステッ
プＳ７１６）。次いで、ステップＳ７０９（図７のステ
ップ５０９）と同じ手順で文脈Ｐ′の順位を変更（ステ
ップＳ７１６）し、ステップＳ７１２に進んで文脈文字
列Ｐを更新する。

【０１０５】そして、圧縮データ中に未処理のビットが
なくなったとき（ステップＳ５１３；Ｙ）に、ＣＰＵ
は、その圧縮データに対するデータ復元処理を終了す
る。なお、ＲＡＭ上に幾つかの符号木データが用意され
た状態でデータ圧縮を開始する装置に対しては、起動時
に、そのＲＡＭ上に全く同じ符号木データが用意される
データ復元装置を用いる。順次、文脈の次数を下げて、
符号化対象文字が登録されている符号木を見いだしたと
きに、その符号木によって符号化対象文字に対応づけら
れている符号を出力するように構成されたデータ圧縮装
置に対しては、次のように動作するデータ復元装置を用
いる。当該データ復元装置は、符号に対応する文字がＥ
ＳＣであった場合には、文脈の次数を対応する符号木が
見いだされるまで下げ、見いだした符号木を用いて、後
続の符号を復号する。そして、このような復号をＥＳＣ
ではない文字が復号されるまで繰り返し、ＥＳＣではな
い文字が見いだされた際に、それまでに使用した符号木
にその文字を追加する。

【０１０６】第４実施形態＜データ圧縮装置＞第４実施形態のデータ圧縮装置で
は、ハフマン符号化と算術符号化を組み合わした形でデ
ータ圧縮が行われる。

【０１０７】図１３に、第４実施形態のデータ圧縮装置
の構成を示す。図に模式的に示したように、第４実施形
態のデータ圧縮装置の起動時、そのＲＡＭ１５内には、
複数の符号木データと複数の頻度リストとが用意され
る。

【０１０８】各符号木データは、２次以下の文脈に対応
づけられており、各符号木データが表す符号木は、対応
する文脈後に現れることがある全ての文字に関する葉を
有する。また、符号木データのうちの１つは、０次文脈
に対する符号木データとなっている。各頻度リストは、
３次の文脈に対応づけられており、それぞれの頻度リス
トには、対応する文脈後に現れることがある全ての文字
に関する頻度の初期値が記憶されている。

【０１０９】以下、図１４を用いて、データ圧縮実行時
の第４実施形態のデータ圧縮装置内のＣＰＵの動作手順
を説明する。データ圧縮を開始する際、ＣＰＵは、ま
ず、文脈文字列Ｐを空文字列に初期化する（ステップＳ
８０１）。次いで、ＣＰＵは、文脈文字列Ｐと同じ内容
の文字列Ｐ′を生成する（ステップＳ８０２）ととも
に、符号化すべき原データから符号化を行う文字Ｘを取
得する（ステップＳ８０３）。そして、文脈文字列Ｐ′
に関する統計情報（頻度リストあるいは符号木データ）
がＲＡＭに保持されているか否かを判断し、保持されて
いなかった場合（ステップＳ８０３；Ｎ）には、文字列
Ｐ′を１文字短くし（ステップＳ８０５）、再度、ステ
ップＳ８０４を実行する。

【０１１０】ステップＳ８０４とＳ８０５によって構成
されるループにおいて決定された文脈Ｐ′に関する統計
情報が符号木データであった場合（ステップＳ８０６；
Ｎ）、ＣＰＵは、文脈文字列Ｐ′に対応する符号木デー
タによって定義されている符号木の、根から文字Ｘに相
当する葉Ｘ′までの経路を符号として出力する（ステッ
プＳ８０７）。次いで、文字Ｘが出現したことに基づ
き、ＦＧＫアルゴリズムを用いて符号木の形状を変更す
る（ステップＳ８０８）。

【０１１１】その後、ＣＰＵは、文字Ｘを用いて文脈文
字列Ｐを更新（ステップＳ８１１）し、符号化すべきデ
ータが残っている場合（ステップＳ８１２；Ｎ）には、
ステップＳ８０２に戻り、次の文字の符号化を行う。

【０１１２】一方、ステップＳ８０３とＳ８０４によっ
て構成されるループにおいて決定された文脈Ｐ′に関す
る統計情報が頻度リストであった場合（ステップＳ８０
６；Ｙ）、ＣＰＵは、その頻度リストを利用して、文字
Ｘの算術符号化を行う（ステップＳ８０９）。このステ
ップＳ８０９において、ＣＰＵは、文字Ｘに応じて区間
を狭める処理と、狭めた区間を記憶する処理だけを行
う。そして、ＣＰＵは、出力する符号をハフマン符号に
切り替える際に、算術符号化による符号化結果を出力す
る。すなわち、図１５に模式的に示したように、ＣＰＵ
は、各文字に基づき区間を狭めていき、出力する符号を
ハフマン符号に切り替えるときに、算術符号化によって
得られた区間を定める情報から復号に必要十分なビット
列を取り出して（端数領域を切り捨てて）出力する。

【０１１３】算術符号化の実行（ステップＳ８０９）
後、ＣＰＵは、使用した頻度リスト内の文字Ｘに関する
頻度に“１”を加算（ステップＳ８１１）し、全てのデ
ータの処理が完了した段階で（ステップＳ８１２；
Ｙ）、データ圧縮処理を終了する。

【０１１４】このように第４実施形態のデータ圧縮装置
では、文字の出現確率分布が大きい高次の文脈に対して
は算術符号化が行われ、文字の出現確率分布が小さい低
次の文脈に対してはハフマン符号化が行われる。このた
め、第４実施形態のデータ圧縮装置によれば、高い圧縮
率を実用的な処理速度で達成できることになる。

【０１１５】なお、第４実施形態のデータ圧縮装置で
は、文脈の次数によって符号木データを用意するか頻度
リストを用意するかを定めたが、各文字の出現確率が１
／２のべき乗からの隔たりが小さい文脈に対して符号木
データを用意し、各文字の出現確率が１／２のべき乗か
らの隔たりが大きい文脈に対して頻度リストを用意して
おいても良いことは当然である。また、所定数以上の文
字が出現する文脈に対して符号木データを用意し、所定
数未満の文字が出現する文脈に対して頻度リストを用意
しておいても良い。

【０１１６】そして、第４実施形態のデータ圧縮装置
は、端数領域の切り捨てがハフマン符号に切り替わると
きに行われるように構成してあるが、毎回端数領域の切
り捨てが行われるように構成しても良い。ただし、この
場合は、圧縮効率が若干低下することになる。

【０１１７】また、図１６に模式的に示したように、ハ
フマン符号化によって生成された符号は符号用バッファ
（ＲＡＭの一領域）の前方から記憶されていき、算術符
号化によって生成された符号は符号用バッファの後方か
ら記憶されていくように、データ圧縮装置を構成するこ
ともできる。さらに、また、２種の符号用バッファを設
けておき、ハフマン符号化によって生成された符号と算
術符号化によって生成された符号とが、それぞれ別の符
号用バッファに出力されるようにデータ圧縮装置を構成
することもできる。

【０１１８】このようにハフマン符号と算術符号とが別
の記憶領域に記憶されるように装置を構成した場合に
は、１つのデータを符号化する際に、端数領域の切り捨
てなければならない回数が減るので、高い圧縮率が得ら
れることになる。

【０１１９】＜データ復元装置＞第４実施形態のデータ
復元装置は、第４実施形態のデータ圧縮装置によって圧
縮されたデータの復元を行う装置である。第４実施形態
のデータ復元装置の起動時、そのＲＡＭ上には、第４実
施形態のデータ圧縮装置内に用意される符号木データ、
頻度リストと全く同じ符号木データ、頻度リストが用意
される。

【０１２０】図１７に、データ復元処理時における、第
４実施形態のデータ復元装置内のＣＰＵの動作手順を示
す。図示したように、データの復元を開始する際、ＣＰ
Ｕは、まず、文脈文字列Ｐの初期化を行う（ステップＳ
９０１）。次いで、データ圧縮装置は、文脈文字列Ｐと
同じ内容の文脈文字列Ｐ′を生成（ステップＳ９０２）
する。そして、文脈文字列Ｐ′に関する統計情報（頻度
リストあるいは符号木データ）がＲＡＭに保持されてい
るか否かを判断し、保持されていなかった場合（ステッ
プＳ９０４；Ｎ）には、先頭の文字を取り除くことによ
って文脈文字列Ｐ′を１文字短くし（ステップＳ９０
５）、再度、ステップＳ９０４を実行する。

【０１２１】ステップＳ９０４とＳ９０５によって構成
されるループにおいて決定された文脈文字列Ｐ′に関す
る統計情報が符号木データであった場合（ステップＳ９
０６；Ｎ）、ＣＰＵは、その文脈文字列Ｐ′に対応した
符号木データによって表されている符号木内の各節点
を、復元対象であるデータを構成する各ビットの値に従
って、根から葉に至るまで辿っていき、１つの葉Ｘ′を
特定し、特定した葉Ｘ′に対応づけて記憶されているる
文字Ｘを復元結果として出力する（ステップＳ９０
７）。

【０１２２】その後、ＣＰＵは、文字Ｘが現れたことが
符号木形状に反映されるように、文脈文字列Ｐ′に関す
る符号木データの内容を更新する（ステップＳ９０
８）。そして、文字Ｘを用いて文脈文字列Ｐを更新（ス
テップＳ９０９）し、復元すべきデータが残っていた場
合（ステップＳ９１１；Ｎ）には、ステップＳ９０２に
戻る。

【０１２３】一方、ステップＳ９０４とＳ９０５によっ
て構成されるループにおいて決定された文脈文字列Ｐ′
に関する統計情報が頻度リストであった場合（ステップ
Ｓ９０６；Ｙ）、ＣＰＵは、その頻度リストを利用し
て、データを復元する（ステップＳ９０９）。すなわ
ち、ＣＰＵは、適当な数のビットデータからなる符号を
用いて、１文字の復元を行うとともに、復元過程で得ら
れた計算結果（区間を特定する数値情報）を記憶してお
く。そして、次の文字にも算術符号が用いられていた場
合、ＣＰＵは、記憶しておいた計算結果をも利用して復
号を行う。一方、次の文字に対してハフマン符号が用い
られていた場合には、その計算結果を基に、算術符号と
ハフマン符号の境を認識し、その境以降のビットデータ
を、符号木データを利用して復号する。

【０１２４】ＣＰＵは、算術符号の復元が１文字分完了
した後、使用した頻度リスト内の文字Ｘに関する頻度に
“１”を加算（ステップＳ９１０）する。そして、ＣＰ
Ｕは、未処理のデータが存在しているか否かを判断し、
全てのデータの処理が完了していた場合（ステップＳ９
１１；Ｙ）に、復元処理を終了する。

【０１２５】なお、ハフマン符号と算術符号とを別の記
憶領域に記憶するデータ圧縮装置に対して用いるデータ
復元装置では、ステップＳ９０７の処理が一方の記憶領
域内のデータに対して行われ、ステップＳ９０９の処理
が他方の記憶領域内のデータに対して行われることにな
る。

【０１２６】第５実施形態＜データ圧縮装置＞図１８に、第５実施形態のデータ圧
縮装置の構成を示す。図示したように、本データ圧縮装
置の起動時、ＲＡＭ１５上には、それぞれ、２次以下の
文脈に対応づけられている複数の符号木データと文脈使
用頻度リストとが用意される。各符号木データは、対応
する文脈後に現れることがある全ての文字に関するデー
タを含み、符号木データのうちの１つは、０次文脈に対
する符号木データとなっている。文脈使用頻度リスト
は、各文脈に関する符号木データの使用頻度を記憶する
ためのリストであり、起動時に用意される文脈使用頻度
リストには、全ての文脈に対して、使用頻度“０”が記
憶されている。

【０１２７】図１９に、データ圧縮処理時における、第
５実施形態のデータ圧縮装置内のＣＰＵの動作手順を示
す。データ圧縮を開始する際、ＣＰＵは、まず、文脈文
字列Ｐを空文字列に初期化する（ステップＳ１００
１）。次いで、ＣＰＵは、文脈文字列Ｐと同じ内容の文
脈文字列Ｐ′を生成し（ステップＳ１００２）、符号化
すべきデータから符号化を行う文字Ｘを取得する（ステ
ップＳ１００３）。そして、文脈文字列Ｐ′に関する符
号木データがＲＡＭ内に保持されているか否かを判断
し、保持されていなかった場合（ステップＳ１００４；
Ｎ）には、先頭の１文字を取り除くことによって文脈文
字列Ｐ′を１文字短くし（ステップＳ１００５）、再
度、ステップＳ１００４を実行する。

【０１２８】ＣＰＵは、ステップＳ１００４とＳ１００
５からなるループによって、符号木データが存在する文
脈文字列Ｐ′を決定（ステップＳ１００４；Ｙ）した
後、文脈使用頻度リストの内容を参照することによっ
て、その文脈に関する使用頻度を取得し、取得した使用
頻度と所定値Ｋとの大小関係を比較する（ステップＳ１
００６）。そして、使用頻度がＫ以下であった場合（ス
テップＳ１００６；Ｎ）、ＣＰＵは、文脈文字列Ｐ′に
対応する符号木データによって定義されている符号木
の、根から文字Ｘに相当する葉Ｘ′までの経路を符号と
して出力する（ステップＳ１００７）。次いで、文字Ｘ
の出現頻度を増加させるとともに、符号木が各出現頻度
に応じた形状を持つように符号木データの内容を変更す
る（ステップＳ１００８）。

【０１２９】その後、ＣＰＵは、使用した文脈に関する
使用頻度に“１”を加算し（ステップＳ１０１１）、文
字Ｘを用いて文脈文字列Ｐを更新（ステップＳ１０１
２）する。すなわち、ＣＰＵは、文脈文字列Ｐの次数が
２（本装置の最高次数）と一致していたときには、文脈
文字列Ｐの末尾に文字Ｘを追加し、先頭から１文字を取
り除いて、新たな文脈文字列Ｐを生成する。また、文脈
文字列Ｐの次数が１以下であった場合には、その文字列
の末尾に文字Ｘを追加した文字列を、新たな文脈文字列
Ｐとする。

【０１３０】その後、ＣＰＵは、符号化すべきデータが
残っているか否かを判断し、残っていた場合（ステップ
Ｓ１０１３；Ｎ）には、ステップＳ１００２に戻り、次
の文字の符号化を行う。

【０１３１】一方、文脈文字列Ｐ′と一致する文脈に関
する使用頻度がＫを越えていた場合（ステップＳ１００
６；Ｙ）、ＣＰＵは、符号木データ内の、各葉に対して
記憶されている出現頻度を利用して、文字Ｘの算術符号
化を行う（ステップＳ１００９）。このステップにおけ
る算術符号化手順は、第４実施形態のデータ圧縮装置と
同じものである。次いで、ＣＰＵは、使用した符号木デ
ータの文字Ｘに関する使用頻度に“１”を加算（ステッ
プＳ１０１１）し、ステップ１０１２に進む。

【０１３２】そして、ＣＰＵは、全ての文字に対する処
理が完了しているか否かを判断し、完了していた場合
（ステップＳ１０１３；Ｙ）には、データ圧縮処理を終
了する。

【０１３３】このように第５実施形態のデータ圧縮装置
では、使用頻度の少ない（統計情報が集まっていない）
段階ではハフマン符号化によりデータが符号化され、使
用頻度が多くなった段階で算術符号化による符号化が開
始される。このため、本データ圧縮装置によれば、効率
的なデータ圧縮が行えることになる。

【０１３４】なお、Ｋを符号化を行った総文字数に比例
する値とすることによって、出現頻度の総文字数に対す
る割合が小さいときにはハフマン符号化が行われ、出現
頻度の総文字数に対する割合が大きいときには算術符号
化が行われるように装置を構成することもできる。

【０１３５】＜データ復元装置＞第５実施形態のデータ
復元装置は、第５実施形態のデータ圧縮装置によって圧
縮されたデータの復元を行う。第５実施形態のデータ復
元装置の起動時、そのＲＡＭ上には、第５実施形態のデ
ータ圧縮装置内に用意される符号木データ、文脈使用頻
度リストと全く同じデータが用意される。

【０１３６】図２０に、第５実施形態のデータ復元装置
の動作手順を示す。図示したように、データの復元を開
始する際、ＣＰＵは、まず、文脈文字列Ｐの初期化を行
う（ステップＳ１１０１）。次いで、データ圧縮装置
は、文脈文字列Ｐと同じ内容の文脈文字列Ｐ′を生成
（ステップＳ１１０２）する。そして、文脈文字列Ｐ′
に関する符号木データがＲＡＭに保持されているか否か
を判断し、保持されていなかった場合（ステップＳ１１
０４；Ｎ）には、先頭の文字を取り除くことによって文
脈文字列Ｐ′を１文字短くし（ステップＳ１１０５）、
再度、ステップＳ１１０４を実行する。

【０１３７】文脈文字列Ｐ′に関する符号木データを見
い出したとき（ステップＳ１１０４）、ＣＰＵは、文脈
使用頻度リストの内容を参照することによって、その符
号木データの使用頻度を得るとともに、その使用頻度と
所定値Ｋとの大小関係を比較する（ステップＳ１１０
６）。そして、使用頻度が所定値Ｋ以下であった場合
（ステップＳ１１０６；Ｎ）、ＣＰＵは、その文脈文字
列Ｐ′に対応した符号木データによって表されている符
号木内の各節点を、復元対象であるデータを構成する各
ビットの値に従って、根から葉に至るまで辿っていき、
１つの葉Ｘ′を特定し、特定した葉Ｘ′に対応づけて記
憶されているる文字Ｘを復元結果として出力する（ステ
ップＳ１１０７）。

【０１３８】その後、ＣＰＵは、文字Ｘの出現頻度が増
えたことが符号木形状に反映されるように、文脈文字列
Ｐ′に関する符号木データの内容を更新する（ステップ
Ｓ１１０８）。次いで、その文脈に関する使用頻度に
“１”を加算する（ステップＳ１０１１）。

【０１３９】そして、ＣＰＵは、文字Ｘを用いて文脈文
字列Ｐを更新（ステップＳ１１１２）し、復元すべきデ
ータが残っていた場合（ステップＳ１１１３；Ｎ）に
は、ステップＳ１１０２に戻る。

【０１４０】一方、文脈文字列Ｐ′に関する符号木デー
タの使用頻度が所定値Ｋより大きかった場合（ステップ
Ｓ１１０６；Ｙ）、ＣＰＵは、復元対象であるビット列
を算術符号として取り扱って復号を行い、復号結果であ
る文字Ｘを出力するう（ステップＳ１１０９）。この復
号の際、ＣＰＵは、文脈文字列Ｐ′に関するその符号木
データ内の各文字に対する使用頻度を各文字の区間を割
り当てるデータとして用いる。

【０１４１】次いで、ＣＰＵは、使用した符号木データ
内の文字Ｘに関する出現頻度に“１”を加え（ステップ
Ｓ１１１０）、文脈文字列Ｐ′に関する符号木データの
内容を更新する（ステップＳ１１０８）。次いで、文脈
使用頻度リスト内の、文脈文字列Ｐ′に対応する使用頻
度に“１”を加算し（ステップＳ１０１１）、文字Ｘを
用いて文脈文字列Ｐを更新（ステップＳ１１１２）す
る。そして、処理すべきデータが残っているか否かを判
断し、全てのデータの処理が完了したとき（ステップＳ
１１１３；Ｙ）に、復元処理を終了する。

【０１４２】

【発明の効果】以上、詳細に説明したように、本発明の
データ符号化装置によれば、データを、高速に高圧縮率
で圧縮することができる。また、本発明のデータ復元装
置によれば、本発明のデータ符号化装置によって圧縮さ
れたデータを高速に復元できる。

【図面の簡単な説明】

【図１】本発明の第１実施形態のデータ圧縮装置の構成
を示すブロック図である。

【図２】本発明の第１実施形態のデータ圧縮装置の動作
手順を示す流れ図である。

【図３】本発明の第１実施形態のデータ復元装置の動作
手順を示す流れ図である。

【図４】本発明の第２実施形態のデータ圧縮装置の動作
手順を示す流れ図である。

【図５】本発明の第２実施形態のデータ復元装置の動作
手順を示す流れ図である。

【図６】本発明の第２実施形態のデータ圧縮装置の構成
を示すブロック図である。

【図７】本発明の第３実施形態のデータ圧縮装置の動作
手順を示す流れ図である。

【図８】第３実施形態のデータ圧縮装置が行う順位変更
処理の処理手順を示す説明図である。

【図９】文脈登録処理時のデータ圧縮装置の動作手順を
示す流れ図である。

【図１０】第３実施形態のデータ圧縮装置に適用できる
順位変更処理の処理手順を示す説明図である。

【図１１】第３実施形態のデータ圧縮装置に適用できる
順位変更処理の処理手順を示す説明図である。

【図１２】本発明の第３実施形態のデータ復元装置の動
作手順を示す流れ図である。

【図１３】本発明の第４実施形態のデータ圧縮装置の構
成を示すブロック図である。

【図１４】本発明の第４実施形態のデータ圧縮装置の動
作手順を示す流れ図である。

【図１５】第４実施形態のデータ圧縮装置による算術符
号化手順を示す説明図である。

【図１６】第４実施形態のデータ圧縮装置に適用できる
符号格納方法態を示した模式図である。

【図１７】本発明の第４実施形態のデータ復元装置の動
作手順を示す流れ図である。

【図１８】本発明の第４実施形態のデータ圧縮装置の構
成を示すブロック図である。

【図１９】本発明の第５実施形態のデータ圧縮装置の動
作手順を示す流れ図である。

【図２０】本発明の第５実施形態のデータ復元装置の動
作手順を示す流れ図である。

【図２１】符号木の説明図である。

【図２２】ＦＧＫアルゴリズムが適用できるハフマン符
号木の説明図である。

【図２３】算術符号化を説明するための文字・生起確率
・区間対応表である。

【図２４】算術符号化を説明するための模式図である。

【図２５】文脈モデルを適用した算術符号化を説明する
ためのブロック図である。

【図２６】文脈木の一例を示した図である。

【図２７】文脈と符号化対象文字の関係を示した図であ
る。

【符号の説明】

１１入出力部１２ＲＯＭ１３ＣＰＵ１４ディスク記憶装置１５ＲＡＭ

Claims

【特許請求の範囲】

【請求項１】一符号が割り当てられる単位データであ
る文字毎に、それまでに連続したｎ個の文字からなる文
脈を条件とした、その文字の条件付き確率に対してハフ
マン符号を割り当てて、データを圧縮あるいは復元する
データ圧縮・復元方法。
【請求項２】複数の文脈毎に、その文脈に続く文字を
葉とするハフマン符号の規則に従った符号木を記憶する
記憶手段と、圧縮すべき文字列から符号化を行う文字を取得する文字
取得手段と、この文字取得手段により取得された文字の直前に出現し
た文脈を特定する文脈特定手段と、この文脈特定手段により特定された文脈に対して前記記
憶手段内に記憶されている符号木において、前記文字取
得手段で取得された文字に対応づけられている符号を出
力する符号出力手段と、この符号出力手段によって用いられた符号木をハフマン
符号の規則に従って更新する更新手段とを備えることを
特徴とするデータ圧縮装置。
【請求項３】前記符号木は、特殊文字に符号を対応づ
けるデータを含み、前記符号出力手段は、前記文脈特定手段により特定され
た文脈に対して前記記憶手段内に記憶されている符号木
内に、前記文字取得手段で取得された文字に関するデー
タが存在していなかった場合には、その符号木内で特殊
文字と対応づけられている特殊符号を出力し、前記文字
取得手段で取得された文字に対する符号を出力するま
で、前記文脈特定手段で特定された文脈を短くしながら
特殊符号の出力を繰返し、さらに、前記符号出力手段によって特殊符号が出力され
た場合に、未登録の文脈と文字の組み合わせに関する情
報を前記記憶手段に追加する追加手段を備えることを特
徴とする請求項２記載のデータ圧縮装置。
【請求項４】さらに、前記符号出力手段による文脈の
使用頻度を管理する使用頻度管理手段と、使用頻度が最も少ない文脈に関する情報を前記記憶手段
内から削除する削除手段とを備えることを特徴とする請
求項３記載のデータ圧縮装置。
【請求項５】さらに、各文脈に順位を与えて管理する
とともに、前記符号出力手段によって符号の出力が行わ
れた場合には、符号の出力に使用された文脈に対してよ
り上位の順位を与える順位管理手段を備え、前記削除手段は、最下位の順位が与えられている文脈に
関する情報を前記記憶手段内から削除することを特徴と
する請求項４記載のデータ圧縮装置。
【請求項６】前記順位管理手段は、前記符号出力手段
によって符号出力に用いられた文脈の順位を、最も上位
の順位である第１順位に変更し、第１順位が与えられて
いた文脈から符号の出力に用いられた文脈よりも一つ上
位の順位が与えられていた文脈までの各文脈の順位を、
それぞれ１つ下位の順位に変更することを特徴とする請
求項５記載のデータ符号化装置。
【請求項７】前記順位管理手段は、前記符号出力手段
によって符号出力に用いられた文脈の順位を、１つ上位
の順位に変更し、その１つ上位の順位が与えられていた
文脈の順位を、１つ下位の順位に変更することを特徴と
する請求項５記載のデータ符号化装置。
【請求項８】複数の文脈毎に、その文脈に続く文字を
葉とするハフマン符号の規則に従った符号木または各文
字の出現頻度からなる出現頻度データのいずれか一方を
記憶する記憶手段と、圧縮すべき文字列から符号化を行う文字を取得する文字
取得手段と、この文字取得手段により取得された文字の直前に出現し
た文脈を特定する文脈特定手段と、この文脈特定手段により特定された文脈に対して前記記
憶手段内に記憶されているデータが符号木であった場合
には、その符号木において、前記文字取得手段で取得さ
れた文字に対応づけられている符号を出力する第１符号
出力手段と、この第１符号出力手段によって用いられた符号木をハフ
マン符号の規則に従って更新する更新手段と、前記文脈特定手段により特定された文脈に対して前記記
憶手段内に記憶されているデータが出現頻度データであ
った場合には、その出現頻度データ内の各文字に関する
出現頻度に基づき、前記文字取得手段で取得された文字
の算術符号を出力する第２符号出力手段と、この第２符号出力手段によって用いられた出現頻度デー
タ内の前記文字取得手段で取得された文字に関する出現
頻度を増加させる第２出現頻度増加手段とを備えること
を特徴とするデータ圧縮装置。
【請求項９】前記記憶手段内に記憶されている符号木
は、各文字の出現確率が１／２のべき乗からの隔たりが
小さい文脈に対するデータであり、出現頻度データは、
各文字の出現確率が１／２のべき乗からの隔たりが大き
い文脈に対するデータであることを特徴とする請求項８
記載のデータ圧縮装置。
【請求項１０】前記記憶手段内に記憶されている符号
木は次数が所定値未満の文脈に対するデータであり、出
現頻度データは次数が所定値以上の文脈に対するデータ
であることを特徴とする請求項８記載のデータ圧縮装
置。
【請求項１１】前記記憶手段内に記憶されている符号
木は所定数以上の文字が出現する文脈に対応づけられて
おり、出現頻度データは所定数未満の文字が出現する文
脈に対応づけられていることを特徴とする請求項８記載
のデータ圧縮装置。
【請求項１２】さらに、文脈毎に、前記文脈特定手段
によって特定された回数を管理する特定回数管理手段を
備え、前記第１符号出力手段は、前記文脈特定手段により特定
された文脈に対して前記特定回数管理手段によって管理
されている回数が所定回数以上であった場合に、その文
脈に対応する符号木に基づいて符号を出力し、所定回数
未満であった場合に、算術符号化に基づいて符号を出力
することを特徴とする請求項８記載のデータ圧縮装置。
【請求項１３】前記第２符号出力手段は、前記第１符
号出力手段によって符号の出力が行われるときに、それ
までの符号化結果である算術符号の端数を出力すること
を特徴とする請求項８ないし請求項１２のいずれかに記
載のデータ圧縮装置。
【請求項１４】さらに、圧縮結果である符号が記憶さ
れる第１記憶領域と第２記憶領域とを有する符号記憶手
段を備え、前記第１符号出力手段は、前記符号記憶手段内の第１記
憶領域に符号を書き込み、前記第２符号出力手段は、前記符号記憶手段内の第２記
憶領域に符号を書き込むことを特徴とする請求項８ない
し請求項１２のいずれかに記載のデータ圧縮装置。
【請求項１５】さらに、圧縮結果である符号が記憶さ
れる所定サイズの記憶領域を有する符号記憶手段と、前記符号記憶手段内に新たな符号が記憶できなくなった
ときに、前記符号記憶手段内に記憶された符号を出力す
る符号出力手段とを備え、前記第１符号出力手段は、前記符号記憶手段内の記憶領
域の前方から符号を書き込み、前記第２符号出力手段は、前記符号記憶手段内の記憶領
域の後方から符号を書き込むことを特徴とする請求項８
ないし請求項１２のいずれかに記載のデータ圧縮装置。
【請求項１６】複数の文脈毎に、その文脈に続く文字
を葉とするハフマン符号の規則に従った符号木を記憶す
る記憶手段と、データの復元に用いる文脈を特定する文脈特定手段と、この文脈特定手段により特定された文脈に対して前記記
憶手段内に記憶されている符号木において符号に対応づ
けられている文字を出力する文字出力手段と、この文字出力手段によって使用された符号木をハフマン
符号の規則に従って更新する更新手段とを備えることを
特徴とするデータ復元装置。
【請求項１７】前記符号木は、特殊文字と特殊符号と
を対応づけるデータを含み、前記文字出力手段は、符号木において符号に対応づけら
れている文字が前記特殊文字であった場合には、文字を
復元するまで前記文脈を短くしながら復元を繰返し、さらに、未登録の文脈と文字との組み合わせに関する情
報を前記記憶手段に登録する登録手段を備えることを特
徴とする請求項１６記載のデータ復元装置。
【請求項１８】さらに、前記文字出力手段による各文
脈の使用頻度を管理する使用頻度管理手段と、使用頻度が最も少ない文脈に関する情報を前記記憶手段
内から削除する削除手段とを備えることを特徴とする請
求項１７記載のデータ復元装置。
【請求項１９】さらに、各文脈に順位を与えて管理す
るとともに、前記文字号出力手段による文字の出力が行
われた場合には、文字の出力に使用された文脈に対して
より上位の順位を与える順位管理手段を備え、前記削除手段は、最下位の順位が与えられている文脈に
関する情報を前記記憶手段内から削除することを特徴と
する請求項１７記載のデータ復元装置。
【請求項２０】前記順位管理手段は、前記符号出力手
段によって符号出力に用いられた文脈の順位を、最も上
位の順位である第１順位に変更し、第１順位が与えられ
ていた文脈から符号の出力に用いられた文脈よりも一つ
上位の順位が与えられていた文脈までの各文脈の順位
を、それぞれ１つ下位の順位に変更することを特徴とす
る請求項１９記載のデータ復元装置。
【請求項２１】前記順位管理手段は、前記符号出力手
段によって符号出力に用いられた文脈の順位を、１つ上
位の順位に変更し、その１つ上位の順位が与えられてい
た文脈の順位を、１つ下位の順位に変更することを特徴
とする請求項１９記載のデータ復元装置。
【請求項２２】複数の文脈毎に、その文脈に続く文字
を葉とするハフマン符号の規則に従った符号木またはそ
の各文字の出現頻度からなる出現頻度データのいずれか
一方を記憶する記憶手段と、復号に用いる文脈を特定する文脈特定手段と、この文脈特定手段により特定された文脈に対して前記記
憶手段内に記憶されているデータが符号木であった場合
には、その符号木において符号に対応づけられている文
字を出力する第１文字出力手段と、この第１文字出力手段によって用いられた符号木をハフ
マン符号の規則に従って新する更新手段と、前記文脈特定手段により特定された文脈に対して前記記
憶手段内に記憶されているデータが出現頻度データであ
った場合には、符号に対して、その出現頻度データを用
いた算術復号化を行い、復号結果として得られた文字を
出力する第２文字出力手段と、この第２文字出力手段によって用いられた出現頻度デー
タ内の、出力された文字に関する出現頻度を増加させる
第２出現頻度増加手段とを備えることを特徴とするデー
タ復元装置。
【請求項２３】前記記憶手段内に記憶されている符号
木は、各文字の出現確率が１／２のべき乗からの隔たり
が小さい文脈に対するデータであり、出現頻度データ
は、各文字の出現確率が１／２のべき乗からの隔たりが
大きい文脈に対するデータであることを特徴とする請求
項２２記載のデータ復元装置。
【請求項２４】前記記憶手段内に記憶されている符号
木は文字数が所定値未満の文脈に対するデータであり、
出現頻度データは文字数が所定値以下の文脈に対するデ
ータであることを特徴とする請求項２２記載のデータ復
元装置。
【請求項２５】前記記憶手段内に記憶されている符号
木は所定数以上の文字が出現する文脈に対応づけられて
おり、出現頻度データは所定数未満の文字が出現する文
脈に対応づけられていることを特徴とする請求項２２記
載のデータ復元装置。
【請求項２６】さらに、文脈ごとに、前記文脈特定手
段によって特定された回数を管理する特定回数管理手段
を備え、前記第１文字出力手段は、前記文脈特定手段により特定
された文脈に対して前記特定回数管理手段によって管理
されている回数が所定回数以上であった場合には、その
文脈に対応する符号木に基づいて復号し、所定回数未満
であった場合に算術符号化に基づいて復号し、復号結果
として得られた文字を出力することを特徴とする請求項
２２記載のデータ復元装置。
【請求項２７】前記第２文字出力手段は、前記第１文
字出力手段によって復号が行われるときに、それまでの
算術符号の端数を除くことを特徴とする請求項２２ない
し請求項２６のいずれかに記載のデータ復元装置。
【請求項２８】さらに、復元すべき符号が記憶された
第１記憶領域と第２記憶領域とを有する符号記憶手段を
備え、前記第１文字出力手段は前記符号記憶手段内の第１記憶
領域に記憶された符号を復元し、前記第２文字出力手段は前記符号記憶手段内の第２記憶
領域に記憶された符号を復元することを特徴とする請求
項２３ないし請求項２６のいずれかに記載のデータ復元
装置。
【請求項２９】さらに、圧縮結果である符号が記憶さ
れた所定サイズの記憶領域を有する符号記憶手段と、この符号記憶手段内に復号すべき符号がなくなったとき
には、符号記憶手段内に新たな符号を入力する符号入力
手段とを備え、前記第１文字出力手段は、前記符号記憶手段内の記憶領
域の前方から符号を復号し、前記第２文字出力手段は、前記符号記憶手段内の記憶領
域の後方から符号を復号することを特徴とする請求項２
３ないし請求項２６のいずれかに記載のデータ復元装
置。