JP3276860B2

JP3276860B2 - データ圧縮／復元方法

Info

Publication number: JP3276860B2
Application number: JP23186796A
Authority: JP
Inventors: 宣子佐藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1996-09-02
Filing date: 1996-09-02
Publication date: 2002-04-22
Anticipated expiration: 2016-09-02
Also published as: US6128412A; US6542644B1; JPH1079673A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はデータ圧縮／復元方
法に係わり、特に、符号化対象文字の直前ｎ文字の文字
列(文脈)に続いて出現する符号化対象文字の出現確率を
用いて符号化対象文字を可変長符号化あるいは可変長符
号を文字に復元する確率統計型データ圧縮／復元方法に
関する。

【０００２】

【従来の技術】近年のコンピュータの急速な進歩に伴
い、コンピュータ内で、大容量のデータが取り扱われる
ようになっており、伝送時間を短縮するためや、記憶装
置を効率的に利用するために、データを圧縮することが
行われている。

【０００３】データを圧縮する際に用いられる符号化方
法としては、さまざまなものが知られている。このう
ち、文字コード、ベクトル情報、画像などの対象データ
に限定せずに様々なデータに適用可能な符号化は、ユニ
バーサル符号化と呼ばれている。ユニバーサル符号化と
しては、文字列の類似性を利用する辞書型符号化と、文
字の出現頻度を利用する確率統計型符号化が知られてい
る。なお、以下の説明においては情報理論に基づきデー
タの１word単位を「文字」と表記し、データが任意word
つながったものを「文字列」と表記することにする。

【０００４】確率統計型圧縮方式は、統計的な各文字の
出現頻度（出現確率）に従い、出現確率の高い文字に対
して短い符号長を割り振ることによって圧縮効果を図る
方式である。確率統計型符号化方式の代表的な方式とし
ては、(1)算術符号化（例えば、文献"Arithmetic Codin
g for Data Compression" IAN H.WITTEN他著 Commun.of
ACM Vol.130 No.6P 520-540, あるいは"An Adaptive D
ependency Sorce Model for Data Compression Scheme"
D.M. Abrahamson著 Commun.of ACM Vol.132No.1 P77-8
3参照）や、■(2)ハフマン符号化方式(例えば、文献“D
ynamic Huffman Coding” Donald E.Knuth著 Journal o
f Algorithms Vol.6 P163-180参照)がある。ハフマン符
号化では、各文字に対する符号として、その文字の出現
頻度に逆比例した符号長を有する符号（ハフマン符号）
が使用される。ハフマン符号化の詳細を説明する前に、
ハフマン符号の生成時に用いられるデータ構造である符
号木の説明を行うことにする。

【０００５】図１８に符号木の一例を示す。図中、○と
□で示された点が節点(ノード)である。節点間を結ぶ線
分は「枝」と呼ばれ、１番上にある節点は「根」と呼ば
れる。また、ある節点Ｘに「枝」で接続されている下の
節点Ｙは、節点Ｘの「子」と呼ばれ、逆に、節点Ｘは節
点Ｙの「親」と呼ばれる。「子」を持たない節点は
「葉」と呼ばれ、各「葉」には文字が対応づけられる。
また、「葉」を除く節点は「内部節点」と呼ばれ、
「根」から各節点までの「枝」の数がレベルと呼ばれて
いる。

【０００６】符号木を用いた符号化時には、「根」か
ら、符号化すべき文字と対応づけられている「葉」に至
る経路が符号として出力される。すなわち、「根」から
目的とする「葉」に至るまでの各節点において左に分岐
したときには“１”が出力され、右に分岐したときには
“０”が出力される。たとえば、図１８に示した符号木
では、節点番号７の「葉」に対応づけられている文字Ａ
に対しては、符号“００”が出力され接点番号８の
「葉」に対応づけられている文字Ｂに対しては、符号
“００１”が出力され、復号時には、「根」から、復号
対象であるデータの各ビットの値に従って各節点を辿っ
たとき到達する「葉」に対応づけられている文字が出力
される。

【０００７】ハフマン符号化では、このような符号木
が、次のような手順（ハフマンアルゴリズムと呼ばれて
いる。）で生成される（図１９参照）。 (1) 各文字に対応する節点(初期時は葉)を用意し、各節
点に対して、対応する文字の出現頻度を記録しておく。 (2) 出現頻度の最も小さい２つの節点に対して、新たな
節点を１つ作成し、作成した節点と元の２つの節点とを
それぞれ枝で結ぶ。また、枝で結んだ元の２つの節点の
出現頻度の和を、作成した新たな節点の出現頻度として
記録する。 (3) ついで、出現頻度の最も小さい２つの節点に対して
新たな節点を１つ作成し、作成した新たな節点と元の２
つの節点とをそれぞれ枝で結ぶ。また、枝で結んだ２つ
の節点の出現頻度の和を、作成した新たな節点の出現頻
度として記録する。以後、親を有する節点がなくなるま
で(3)の操作を継続する。

【０００８】以上のような手順で生成された符号木で
は、各文字に対して、その文字の出現頻度に逆比例した
符号長を有する符号が割り当てられることになる。この
ため、この符号木を用いて符号化を行えば、データの圧
縮が行えることになる。ハフマン符号を用いた符号化
は、符号木が固定の静的符号化と符号木を各文字の出現
頻度に応じて変形する適応的符号化がある。ところで、
ハフマン符号化では、１文字を符号化すると、整数ビッ
トからなる符号が生成される。これに対して、算術符号
化では、一文字に対して端数ビットを割り当てることが
出来る。算術符号化では、０以上、１未満の区間（以下
［0，1）と記す）が、符号化すべきデータを構成する各
文字の生起確率（出現頻度）に応じて順次狭められてい
く。そして、全ての文字に対する処理が終わったとき
に、狭められた区間内の１点を表す数値が符号として出
力される。

【０００９】たとえば、符号化対象となる文字がａ、
ｂ、ｃ、ｄ、ｅの５つであり、それらの文字の生起確率
が、それぞれ、0.2， 0.1， 0.05， 0.15， 0.5であっ
た場合、図２０に示したように、各文字に対して、その
生起確率に応じた区間幅を有する区間が割り当てられ
る。そして、符号化すべき文字列が“ａｂｅ”であった
場合には、図２１に模式的に示したように、まず、区間
［0,1）が、文字“ａ”に対する区間［0,0.2）に狭めら
れる。次いで、その区間［0,0.2）が各文字の生起確率
に応じた区間に分割され、次の文字である“ｂ”に対応
する区間［0.04、0.06）が文字列“ａｂ”の区間として
選択される。そして、その区間［0.04、0.06）がさら
に各文字の生起確率に応じた区間に分割され、次の文字
である“ｅに対応する区間［0.05、0.06）が文字列“ａ
ｂｅ”の区間として選択される。その後、その区間内の
任意の点（たとえば下限）の位置を２進表示した際の少
数点以下のビット列が符号化結果として出力される。

【００１０】確率統計型符号化では、さらに圧縮効果を
高めるために、符号化すべき文字の直前に現れた文字列
（文脈）と対応づけて、各文字の生起確率を求めること
も行われている。この場合、符号化は、図２２に示すよ
うに、文脈収集部（文脈登録部）１と可変長符号化部２
とを備える装置によって実現される。文脈収集部１は、
図２３に示したような文脈木を用いて、現れた文字列
（文脈）の記憶とその出現回数の計数を行い、ある文脈
後に各文字が現れる条件付き出現確率（以後単に出現確
率という）を求める。可変長符号化部２は、文脈収集部
１によって求められた出現確率に応じた長さを有する符
号を生成する。なお、符号を生成する際、可変長符号化
部２は、更新される前の出現確率を用いる。

【００１１】たとえば、図２３において文脈”ａｂｃ”
がまだ登録されていない状況において（文脈”ａｂ”は
登録されている）、図２４に示すように、”ａｂ”に続
いて符号化対象文字”ｃ”が入力された場合、可変長符
号化部２は文脈”ａｂｃ”が登録されているかチェック
し、登録されていないため１文字少なくした文脈”ｂ
ｃ”が登録されているかチェックする。文脈”ｂｃ”は
登録されているから、可変長符号化部２は”ｂｃ”の出
現確率Ｐ(c/b)を用いて算術符号化により符号化対象文
字”ｃ”の符号化を行う。又、文脈収集部１は、文脈”
ｂｃ”の出現確率Ｐ(c/b)を再計算して記憶すると共
に、文脈“ａｂ”に続いて符号化対象文字”ｃ”を連結
し、又、文脈“ａｂ”に続いて符号化対象文字”ｃ”が
現れる出現確率Ｐ(c|a,b)の条件つき出現確率を計算し
て記憶する。その後、可変長符号化部２は“ａｂ”に続
いて符号化対象文字“ｃ”が再度現れると、文脈”ａｂ
ｃ”の出現確率Ｐ(c|a,b)を用いて算術符号化により符
号化対象文字”ｃ”の符号化を行い、文脈収集部１は文
脈”ａｂｃ”の出現確率Ｐ(c|a,b)の再計算を行って記
憶する。以後、同様な処理により文脈の登録と、登録さ
れた文脈を用いた可変長符号化が行われる。

【００１２】文脈木の登録方法としては、図２５(a),
(b)に示す方法があるが、どちらの方法で文脈木を登録
してもよく、又、ハッシュ表などのように木構造をもた
なくてもよい。図２５では符号化対象文字の直前２文字
と符号化対象文字よりなる２次文脈を順次登録して文脈
木を構成しており、（ａ）は文字列”ｃａｃｂｃａａａ
ｂｃａ”が入力された場合において２次文脈の先頭文字
を「根（root)」に接続してなる文脈木を示し、（ｂ）は
文字列”ｃａｃｂｃａａａｂｃａ”が入力された場合に
おいて２次文脈の末尾文字を「根（root)」に接続してな
る文脈木を示している。

【００１３】文脈登録処理における具体的な処理手順と
してはさまざまなものが知られていおり、文脈の次数
（文脈の文字数）を固定するものと、固定しないもの
（Blending文脈)に大別されている（例えば、文献"Mode
ling for Text Compression"TIMOTHY BELL他著 ACM Com
puting Surveys Vol.21,No.4参照)。文脈の次数を固定
する方法は、条件つき出現確率を求める文脈の長さ（次
数）を固定する方法である。例えば、次数を２とする
と、直前２文字に符号化対象文字を連結してなる２次文
脈を登録し、該２次文脈の条件付き出現確率ｐ（Ｘt｜
Ｘt-2，Ｘt-1）を計算して記憶する。ただし、Ｘtは符
号化対象文字、Ｘt-1、Ｘt-2はそれぞれ直前の第１文
字、第２文字である。Blending文脈（ブレンドモデル:
次数の混合）は、次数を固定せずに入力データに応じて
登録文脈の次数を伸ばす方法である。登録文脈の次数を
延ばす方法としては逐次登録法が知られている。図２６
は文字列”ｃａｃｂｃａａａｂｃａ”が入力された場合
における逐次登録法により登録された文脈木の説明図で
ある。初期時各文字ａ，ｂ，ｃが「根（root)」に接続さ
れ、その出現確率が初期設定されている。

【００１４】かかる状態で、第１文字”ｃ”が入力す
ると、"ｃ"の出現確率が符号化されて出力され、”ｃ”
の出現確率が更新される。第２文字”ａ”が入力すると、”ａ”の符号化に使用
できる文脈（ｃａ）が登録されていないから、"ａ"の出
現確率が符号化されて出力されると共に”ａ”の出現確
率が更新される。又、文字”ａ”が直前文字”ｃ”の下
に結合されて文脈”ｃａ”が登録される。第３文字”ｃ”が入力すると、”ｃ”の符号化に使用
できる文脈（ｃａｃ，ａｃ）が登録されていないか
ら、"ｃ"の出現確率が符号化されて出力されると共に”
ｃ”の出現確率が更新される。又、文字”ｃ”が直前文
字”ａ”の下に結合されて文脈”ａｃ”が登録される。第４文字”ｂ”が入力すると、”ｂ”の符号化に使用
できる文脈（ｃａｃｂ，ａｃｂ，ｃｂ）が登録されてい
ないから、"ｂ"の出現確率が符号化されて出力されると
共に”ｂ”の出現確率が更新される。又、文字”ｂ”が
直前文字”ｃ”の下に結合されて文脈”ｃｂ”が登録さ
れる。

【００１５】第５文字”ｃ”が入力すると、”ｃ”の
符号化に使用する文脈（ｃａｃｂｃ，ａｃｂｃ，ｃｂ
ｃ，ｂｃ）が登録されていないから、"ｃ"の出現確率が
符号化されて出力されると共に”ｃ”の出現確率が更新
される。又、文字”ｃ”が直前文字”ｂ”の下に結合さ
れて文脈”ｂｃ”が登録される。第６文字”ａ”が入力すると、符号化に使用できる文
脈”ｃａ”が登録されているから、文脈”ｃａ”の出現
確率ｐ(a/c)を符号化して出力すると共に、文脈”ｃ
ａ”の出現確率を更新する。又、文脈”ｃａ”が該文脈
の直前文字”ｂ”の下に結合されて文脈”ｂｃａ”が登
録される。以下同様に、逐次登録法では文字が入力され
る毎に文脈が１次づつ伸びてゆく。

【００１６】図２７は”ＦＵＪＩＴＳＵ”なる文字列が
連続して３回入力された場合の逐次登録法の説明図であ
る。初期時、各文字Ｆ，Ｕ，Ｊ，Ｉ，Ｔ，Ｓ，Ｕが符号
化文脈（０次の文脈）として登録されている（図２７
（ａ））。かかる状態で最初の文字列”ＦＵＪＩＴＳ
Ｕ”が入力されると、（ｂ）に示すように文脈ＦＦＵＵＪＪＩＩＴＴＳＳＵが登録される。

【００１７】この状態で、次の文字列”ＦＵＪＩＴＳ
Ｕ”が入力されると、（ｂ）の登録文脈が符号化文脈と
なって符号化が行われ、（ｄ）に示すように、ＦＦＵＦＵＪＵＪＩＪＩＴＩＴＳＴＳＵが登録される。

【００１８】この状態で、次の文字列”ＦＵＪＩＴＳ
Ｕ”が入力されると、（ｄ）の登録文脈が符号化文脈と
なって符号化が行われ、（ｅ）に示すように、ＦＦＵＦＵＪＦＵＪＩＵＪＩＴＪＩＴＳＩＴＳＵが登録される。以下同様に、逐次登録法では文字が入力
される毎に文脈が１次づつ伸びてゆく。

【００１９】図２８は従来のブレンドモデル圧縮方法の
処理フローである。まず、文字番号ｔを０に初期化し
（ステップ１０１）、ついで、文字番号ｔを１歩進し、
ｔ番目の文字Ｘｔを入力すると共に（ステップ１０
２）、次数ｎを最長文脈次数Ｎとする（ステップ１０
３）。しかる後、文脈木に文脈Ｘ(t-n,t-1)が登録され
ているかチェックする(ステップ１０４）。尚、文脈Ｘ
(t-n,t-1)は文字列｛Ｘt-n，Ｘt-n+1，・・・，Ｘt-1｝
である。文脈Ｘ(t-n,t-1)が登録されていなければ次数
ｎを１減小し（ステップ１０５）、１文字短くした文脈
が登録されているかチェックする（ステップ１０４）。
文脈Ｘ(t-n,t-1)が登録されていれば、文脈Ｘ(t-n,t-1)
と符号化対象文字Ｘtの組み合わせが文脈木に保持され
ているかチェックする(ステップ１０６)。保持されてい
ない場合には、文脈Ｘ(t-n,t-1)に続くエスケープコー
ド（ＥＳＣコード）を符号化して出力し（ステップ１０
７）、以後、ステップ１０５以降の処理を繰り返す。

【００２０】文脈Ｘ(t-n,t-1)と符号化対象文字Ｘtの組
み合わせが文脈木に保持されていれば、文脈Ｘ(t-n,t-
1)に続いて符号化対象文字Ｘtが出現する確率を用いて
符号化して出力する（ステップ１０８）。ついで、すべ
てのデータの符号化が終了したかチェックし（ステップ
１０９）、終了してなければステップ１０２に戻り、次
の符号化対象文字について上記処理を繰り返す。尚、以
上の圧縮符号化処理と並行して文脈木の逐次登録処理が
行われる。

【００２１】図２９は従来のブレンドモデル復元方法の
処理フローである。まず、文字番号ｔを０に初期化し
（ステップ１２１）、ついで、文字番号ｔを１歩進する
と共に（ステップ１２２）、次数ｎを最長文脈次数Ｎと
する（ステップ１２３）。しかる後、文脈木に文脈Ｘ(t
-n,t-1)が登録されているかチェックする(ステップ１２
４）。尚、文脈Ｘ(t-n,t-1)は既に復元したｎ個の最新
文字列｛Ｘt-n，Ｘt-n+1，・・・，Ｘt-1｝である。文
脈Ｘ(t-n,t-1)が登録されていなければ次数ｎを１減小
し（ステップ１２５）、１文字復元文字列を短くした文
脈が登録されているかチェックする（ステップ１２
４）。文脈Ｘ(t-n,t-1)が登録されていれば、該文脈Ｘ
(t-n,t-1)を条件としてｔ番目の符号を文字コードに復
元する（ステップ１２６）。

【００２２】ついで、復元した文字コードがＥＳＣコー
ドであるかチェックし（ステップ１２７）、ＥＳＣコー
ドであれば、ステップ１２５以降の処理を繰り返す。一
方、ＥＳＣコードでなければ、復元した文字コードを出
力する（ステップ１２８）。文字コード出力後、すべて
のデータについて復元処理が終了したかチェックし（ス
テップ１２９）、終了してなければステップ１２２に戻
り、次の符号について上記処理を繰り返す。尚、以上の
復元処理と並行して文脈木の逐次登録処理が行われる。
以上のようにブレンドモデルによるデータ圧縮／復元法
では、文脈毎に未登録を示すＥＳＣコードを含めて各文
字の条件付き出現確率（または符号そのもの）を保持
し、文字を圧縮するまで次数を一つづつ落としながら符
号を出力し、復元時も同様に文字コードが復元されるま
で次数を一つづつ落としながら文字コードに復元する。

【００２３】

【発明が解決しようとする課題】しかし、ブレンドモデ
ルにおいて文脈を長くとると（文脈次数が大きくなる
と）、以下のデメリットが顕著になる。すなわち、 (1) 各文脈の出現回数が少なくなり、統計的な偏りが出
にくくなる。 (2) 文脈のバリエーションが増え、全てを登録すること
はメモリ上不可能である。 (3) 文脈を検索するのに時間がかかる。この結果、従来のブレンドモデルでは、圧縮／復元スピ
ードの向上、圧縮率の向上、メモリの有効利用の点で限
界があった。

【００２４】以上から本発明の第１の目的は、文脈の相
関を測り、相関の強い、効果的な文脈のみ厳選して符号
化文脈として使用し、これにより、無意味に長い文脈を
符号化文脈として使用しないようにでき、又、符号化の
簡略化（圧縮／復元スピードの向上）、圧縮率の向上を
図れるようにすることである。本発明の第２の目的は、
相関の強い、効果的な文脈のみ厳選して登録することに
より、無意味に長い文脈を登録しないようにでき、しか
も、符号化の簡略化、メモリの有効利用、圧縮率の向上
を図れるようにすることである。本発明の第３の目的
は、相関の強い文字列のところは、１文字づつ符号化す
るのではなく、文字列で符号化することによって圧縮／
復元スピードの向上、符号化効率の向上を図れるように
することである。本発明の第４の目的は、符号化文脈の
検索範囲を相関の強い、効果的な文脈に限定し、無意味
に長い文脈を符号化文脈として使用しないようにでき、
又、符号化の簡略化、圧縮率の向上を図れるようにする
ことである。

【００２５】

【課題を解決するための手段】上記第１の目的は本発明
によれば、符号化対象文字の直前ｎ文字の文字列(文脈)
に続いて出現する符号化対象文字の出現確率を用いて符
号化対象文字を可変長符号化あるいは可変長符号を文字
に復元する確率統計型データ圧縮／復元方法において、
(1) 文脈の長さ（次数）を固定せずに入力データに応じ
て文脈の次数を延ばして登録する手段、(2) 所定の条件
を満足する登録文脈（例えば、文脈の出現頻度が一定値
以上の登録文脈、あるいは文脈に続いて出現する文字の
中で良く出る文字の出現頻度が一定値以上の登録文脈）
を符号化に使用する文脈（符号化文脈）として選択する
手段、(3) 該符号化文脈を用いて符号化対象文字を可変
長符号化あるいは可変長符号を文字に復元する手段によ
り達成される。

【００２６】上記第２の目的は本発明によれば、符号化
対象文字の直前ｎ文字の文字列(文脈)に続いて出現する
符号化対象文字の出現確率を用いて符号化対象文字を可
変長符号化あるいは可変長符号を文字に復元する確率統
計型データ圧縮／復元方法において、文脈の長さ（次
数）を固定せずに入力データに応じて文脈の次数を延ば
して登録する際、符号化対象文字より前の文字の符号化
文脈に基づいて登録文脈を厳選する手段により達成され
る。登録文脈厳選手段は、例えば、(1) 直前文字で使用
した符号化文脈に直前文字を加えた文字列を登録文脈の
対象とし、あるいは、(2) 符号化対象文字より前の文字
の符号化文脈の次数が連続して一次以上の場合、これら
各文脈及び直前文字よりなる文脈を登録文脈の対象と
し、あるいは、(3) 連続するｍ文字のそれぞれについて
符号化文脈を用いて符号化した場合、各文脈の長さＬ_m
が、Ｌ₁＜Ｌ₂＜・・・＜Ｌ_mを満たす各文脈を連結した
文脈を登録文脈の対象とする。

【００２７】上記第３の目的は本発明によれば、符号化
対象文字の直前ｎ文字の文字列(文脈)に続いて出現する
符号化対象文字の出現確率を用いて符号化対象文字を可
変長符号化あるいは可変長符号を文字に復元する確率統
計型データ圧縮／復元方法において、文脈の長さ（次
数）を固定せずに入力データに応じて文脈の次数を延ば
して登録する際、符号化対象文字の直前文字の符号化文
脈と符号化対象文字の符号化文脈の相関が強い場合、こ
れら符号化文脈の一部と符号化対象文字とを併せて１つ
の文字とみなして登録文脈を決定する手段により達成さ
れる。この登録文脈決定手段は、例えば、直前文字の符
号化文脈の次数及び符号化対象文字の符号化文脈の次数
が共に所定次数以上(具体的には２次以上)の場合、直前
文字と符号化対象文字を１つの文字として合成し、直前
文字の符号化文脈に合成文字を結合して登録文脈とす
る。

【００２８】上記第４の目的は本発明によれば、符号化
対象文字の直前ｎ文字の文字列(文脈)に続いて出現する
符号化対象文字の出現確率を用いて符号化対象文字を可
変長符号化あるいは可変長符号を文字に復元する確率統
計型データ圧縮／復元方法において、文脈の長さ（次
数）を固定せずに入力データに応じて文脈の次数を延ば
して登録する手段と、符号化対象文字より前の文字で使
用した符号化文脈に基づいて符号化対象文字を符号化す
るために使用する符号化文脈の検索範囲を決定する手段
により達成される。この符号化文脈検索範囲決定手段
は、例えば、(1)直前文字の符号化文脈に直前文字を結
合してなる文脈より短い文脈を符号化文脈の検索範囲と
し、あるいは、(2) 直前文字の符号化文脈に直前文字を
結合してなる文脈、並びに次数が１次以下もしくは０次
の文脈のみを符号化文脈の検索範囲とする。

【００２９】以上要約すれば、本発明では、相関の強い
文脈を符号化に利用する。また、符号化対象文字の前の
文字（直前文字、直々前文字、・・・）の符号化文脈を
用いて、疑似的に相関の強い文脈を符号化・登録に使
う。また、相関の強い文字列のところは、１文字づつ符
号化するのではなく該文字列を１文字とみなして符号化
する。又、符号化対象文字より前の文字の符号化文脈に
よって、符号化対象文字の符号化文脈の検索範囲を決定
する。

【００３０】

【発明の実施の形態】

（Ａ）全体の構成図１はデータ圧縮／復元装置の構成図で、図１（ａ）は
データ圧縮装置、図１（ｂ）はデータ復元装置の構成図
である。各図では機能的なブロック構成を示している
が、実際には、プロセッサ、内部メモリ（ＲＯＭ、ＲＡ
Ｍ）、データ入出力装置、外部メモリ等を備えたコンピ
ュータ構成になっている。データ圧縮装置において、１
１は文字列入力手段、１２は入力文字列に応じて文脈の
次数を延ばして登録する文脈登録部、１３は登録文脈を
用いて符号化対象文字を可変長符号化する圧縮符号化
部、１４は符号化されたデータを出力する符号化データ
出力部である。文脈登録部１２は、文脈を木構造（文脈
木）で表現し、各ノードの文字を通る文字列が出る毎に
その出現回数を各ノードで計数しておくことにより出現
確率を求めて記憶する。圧縮符号化部１３は出現確率を
用いて符号化対象文字を可変長符号化する。

【００３１】データ復元装置において、２１は符号化デ
ータ入力手段、２２は復元文字列に応じて文脈の次数を
延ばして登録する文脈登録部、２３は登録文脈を用いて
符号化データを文字コードに復元する復元部、１４は復
元文字列を出力する文字コード出力部である。文脈登録
部２２は、文脈を木構造（文脈木）で表現し、各ノード
の文字を通る文字列が出る毎にその出現回数を各ノード
で計数しておくことにより出現確率を求めて記憶する。
復元部２３は出現確率を用いて符号化データを原データ
に復元する。

【００３２】（Ｂ）符号化文脈を厳選する場合のデータ
圧縮／復元の実施例（ａ）第１実施例図２は符号化文脈を厳選する場合における圧縮符号化部
１３のデータ圧縮処理のフロー図である。まず、文字番
号ｔを０に初期化し（ステップ２０１）、ついで、文字
番号ｔを１歩進し、ｔ番目の文字Ｘｔを入力すると共に
（ステップ２０２）、次数ｎを最長文脈次数Ｎとする
（ステップ２０３）。しかる後、文脈木に文脈Ｘ(t-n,t
-1)が登録されているかチェックする(ステップ２０
４）。ただし、文脈Ｘ(t-n,t-1)は文字列｛Ｘt-n，Ｘt-
n+1，・・・，Ｘt-1｝である。文脈Ｘ(t-n,t-1)が登録
されていなければ次数ｎを１減小し（ステップ２０
５）、１文字短くした文脈が登録されているかチェック
する（ステップ２０４）。

【００３３】文脈Ｘ(t-n,t-1)が登録されていれば、文
脈Ｘ(t-n,t-1)の出現回数ｍをカウントアップし、ｍが
設定値Ｍ以上であるかチェックする（ステップ２０
６）。出現回数ｍが設定値Ｍ以下の場合には、文脈Ｘ(t
-n,t-1)を符号化文脈として使用せず、ステップ２０５
以降の処理を行う。すなわち、次数ｎを１減小し、１文
字短くした文脈が登録されているかチェックする。ステ
ップ２０６において、文脈Ｘ(t-n,t-1)の出現回数ｍが
設定値Ｍ以上であれば、該文脈Ｘ(t-n,t-1)と符号化対
象文字Ｘtの組み合わせが文脈木に保持されているかチ
ェックする(ステップ２０７)。保持されていない場合に
は、文脈Ｘ(t-n,t-1)に続くエスケープコード（ＥＳＣ
コード）を符号化して出力し（ステップ２０８）、以
後、ステップ２０５以降の処理を繰り返す。

【００３４】ステップ２０７において、文脈Ｘ(t-n,t-
1)と符号化対象文字Ｘtの組み合わせが文脈木に保持さ
れていれば、文脈Ｘ(t-n,t-1)に続いて符号化対象文字
Ｘtの条件つき出現確率を用いて符号化して出力する
（ステップ２０９）。ついで、すべてのデータの符号化
が終了したかチェックし（ステップ２１０）、終了して
なければステップ２０２に戻り、次の符号化対象文字に
ついて上記処理を繰り返す。尚、以上の圧縮符号化処理
と並行して文脈登録部１２は文脈木の逐次登録処理及び
文脈の出現確率（出現頻度）の更新を行う。図３は符号
化文脈を厳選する場合における復元部２３のデータ復元
処理のフロー図である。まず、文字番号ｔを０に初期化
し（ステップ２５１）、ついで、文字番号ｔを１歩進す
ると共に（ステップ２５２）、次数ｎを最長文脈次数Ｎ
とする（ステップ２５３）。

【００３５】しかる後、文脈木に文脈Ｘ(t-n,t-1)が登
録されているかチェックする(ステップ２５４）。尚、
文脈Ｘ(t-n,t-1)は既に復元したｎ個の最新文字列｛Ｘt
-n，Ｘt-n+1，・・・，Ｘt-1｝である。文脈Ｘ(t-n,t-
1)が登録されていなければ次数ｎを１減小し（ステップ
２５５）、１文字復元文字列を短くした文脈が登録され
ているかチェックする（ステップ２５４）。文脈Ｘ(t-
n,t-1)が登録されていれば、文脈Ｘ(t-n,t-1)の出現回
数ｍをカウントアップし、ｍが設定値Ｍ以上であるかチ
ェックする（ステップ２５６）。出現回数ｍが設定値Ｍ
以下の場合には、文脈Ｘ(t-n,t-1)は符号化文脈として
使用されていないから、ステップ２５５以降の処理を行
う。すなわち、次数ｎを１減小し、１文字短くした文脈
が登録されているかチェックする。ステップ２５６にお
いて、文脈Ｘ(t-n,t-1)の出現回数ｍが設定値Ｍ以上で
あれば、該文脈Ｘ(t-n,t-1)を条件としてｔ番目の符号
を文字コードに復元する（ステップ２５７）。

【００３６】ついで、復元した文字コードがＥＳＣコー
ドであるかチェックし（ステップ２５８）、ＥＳＣコー
ドであれば、ステップ２５５以降の処理を繰り返す。一
方、ＥＳＣコードでなければ、復元した文字コードを出
力する（ステップ２５９）。文字コード出力後、すべて
のデータについて復元処理が終了したかチェックし（ス
テップ２６０）、終了してなければステップ２５２に戻
り、次の符号について上記処理を繰り返す。尚、以上の
復元処理と並行して文脈登録部２２は文脈木の逐次登録
処理及び文脈の出現確率（出現頻度）の更新を行う。以
上により、使用頻度の大きな文脈のみを符号化文脈とし
て使用できる。この結果、使用頻度の少ない無意味に長
い文脈を符号化文脈として使用しないようにでき、又、
符号化の簡略化（圧縮／復元スピードの向上）、圧縮率
の向上が図れる。

【００３７】（ｂ）第２実施例図４は符号化文脈を厳選する場合における圧縮符号化部
１３のデータ圧縮処理の別のフロー図であり、図２の圧
縮処理フローと同一ステップには同一番号を付してい
る。図２の圧縮処理フローと異なる点は、ステップ２０
６′である。ステップ２０４において、文脈Ｘ(t-n,t-
1)が登録されていれば、文脈Ｘ(t-n,t-1)に続いて出現
する各文字の出現確率の標準偏差ｍを求め、該標準偏差
ｍが一定値Ｍ以上であるかチェックする（ステップ２０
６′）。標準偏差ｍが一定値Ｍ以下の場合にはステップ
２０５の処理を行い、標準偏差ｍが一定値Ｍ以上の場合
には、該文脈Ｘ(t-n,t-1)と符号化対象文字Ｘtの組み合
わせが文脈木に保持されているかチェックする(ステッ
プ２０７)。

【００３８】標準偏差ｍは以下のように求める。文脈Ｘ
(t-n,t-1)を”ａｂ”、該文脈に続いて出現する文字が
ａ，ｂ，ｃ，ｄ，ｅ，ｆで、それぞれの出現頻度がｎ
a，ｎb，ｎc，ｎd，ｎe，ｎfとすれば、各文字ａ，ｂ，
ｃ，ｄ，ｅ，ｆが文脈”ａｂ”に続いて出現する確率Ｐ
a〜ＰfはＰa＝ｎa／Ｍ（ただし、Ｍ＝ｎa+ｎb+ｎc+ｎd+ｎe+ｎ
f）Ｐb＝ｎb／ＭＰc＝ｎc／ＭＰd＝ｎd／ＭＰe＝ｎe／ＭＰf＝ｎf／Ｍとなり、又、各文字の平均出現確率Ｈは1/6である。従
って、標準偏差ｍは次式 m=√｛(Pa-H)²+(Pb-H)²+(Pc-H)²+(Pd-H)²+(Pe-H)²+(Pf-
H)²｝により計算できる。

【００３９】標準偏差が大きいということは、文脈Ｘ(t
-n,t-1)に続いて出現するある文字の出現頻度が平均出
現頻度に比べて相当大きいことを意味している。従っ
て、文脈Ｘ(t-n,t-1)に続いて出現する文字の中で良く
出る文字の出現頻度ｒが一定値Ｒ以上か否かをチェック
し、ｒ＞Ｒのときステップ２０６のステップを実行し、
ｒ≦Ｒのときステップ２０５の処理を行うように図４の
圧縮処理フローを変更することもできる。

【００４０】図５は符号化文脈を厳選する場合における
復元部２３のデータ復元処理のフロー図であり、図３の
復元処理フローと同一部分には同一符号を付している。
図５において図３の復元処理フローと異なる点は、ステ
ップ２５６′である。ステップ２５４において、文脈Ｘ
(t-n,t-1)が登録されていれば、文脈Ｘ(t-n,t-1)に続い
て出現する各文字の出現確率の標準偏差ｍを求め、該標
準偏差ｍが一定値Ｍ以上であるかチェックする（ステッ
プ２５６′）。標準偏差ｍが一定値Ｍ以下の場合にはス
テップ２５５の処理を行い、標準偏差ｍが一定値Ｍ以上
の場合には、該文脈Ｘ(t-n,t-1)と符号化対象文字Ｘtの
組み合わせが文脈木に保持されているかチェックする
(ステップ２５７)。以上により、使用頻度の大きな文脈
のみを符号化文脈として使用できる。この結果、使用頻
度の少ない無意味に長い文脈を符号化文脈として使用し
ないようにでき、又、符号化の簡略化（圧縮／復元スピ
ードの向上）、圧縮率の向上が図れる。

【００４１】（Ｃ）登録文脈を厳選する場合のデータ圧
縮／復元の実施例（ａ）第１実施例図６は登録文脈を厳選する場合における圧縮符号化部１
３のデータ圧縮処理フロー図である。まず、文字番号ｔ
を０に、Ｐnを０に初期化する（ステップ３０１）。
尚、Ｐnは直前文字の符号化に使用した文脈（符号化文
脈）の次数に１を加えたものであり、初期時符号化が行
われていないため０に設定する。ついで、文字番号を１
歩進し、ｔ番目の文字Ｘｔを入力すると共に（ステップ
３０２）、次数ｎを最長文脈次数Ｎとする（ステップ３
０３）。しかる後、文脈木に文脈Ｘ(t-n,t-1)が登録さ
れているかチェックする(ステップ３０４）。ただし、
文脈Ｘ(t-n,t-1)は文字列｛Ｘt-n，Ｘt-n+1，・・・，
Ｘt-1｝である。文脈Ｘ(t-n,t-1)が登録されていなけれ
ば次数ｎを１減小し（ステップ３０５）、１文字短くし
た文脈が登録されているかチェックする（ステップ３０
４）。

【００４２】文脈Ｘ(t-n,t-1)が登録されていれば、該
文脈Ｘ(t-n,t-1)と符号化対象文字Ｘtの組み合わせが文
脈木に保持されているかチェックする(ステップ３０
６)。保持されていない場合には、文脈Ｘ(t-n,t-1)に続
くエスケープコード（ＥＳＣコード）を符号化して出力
し（ステップ３０７）、以後、ステップ３０５以降の処
理を繰り返す。ステップ３０６において、文脈Ｘ(t-n,t
-1)と符号化対象文字Ｘtの組み合わせが文脈木に保持さ
れていれば、文脈Ｘ(t-n,t-1)に続いて符号化対象文字
Ｘtの条件つき出現確率を用いて符号化して出力する
（ステップ３０８）。ついで、Ｐn≦ｎであるかチェッ
クする（ステップ３０９）。すなわち、直前文字の符号
化文脈の次数に１を加えた値Ｐnと今回の符号化文脈の
次数ｎの大小を比較する。Ｐn≦ｎであれば、ｎ＋１→
Ｐnとし(ステップ３１０）、しかる後、すべてのデータ
の符号化が終了したかチェックし（ステップ３１１）、
終了してなければステップ３０２に戻り、次の符号化対
象文字について上記処理を繰り返す。

【００４３】しかし、ステップ３０９において、Ｐn＞
ｎであれば、すなわち、直前文字の符号化文脈の次数に
１を加えた値Ｐnが今回の符号化文脈の次数ｎより大き
ければ、文脈Ｘ(t-Pn,t-1)に符号化対象文字Ｘtを連結
した文脈を登録する(ステップ３１２）。すなわち、直
前文字の符号化文脈Ｘ(t-Pn,t-1)に符号化対象文字Ｘt
を連結した文脈を登録する。ついで、Ｐnを１減小し
（ステップ３１３）、以後、Ｐn≦ｎとなるまでステッ
プ３０９，３１２，３１３の処理を繰り返す。尚、２回
目以降のステップ３１２においては、既に最初のステッ
プ３１２の処理で最長符号化文脈が登録されているた
め、新たな文脈の登録は行われない。以上により、圧縮
符号化及びＰn＞ｎの時の文脈の登録が行われるが、Ｐn
≦ｎの場合には逐次登録が並行して行われる。この圧縮
符号化法によれば、直前文字で使用した符号化文脈に符
号化対象文字を加えた文字列（文脈）を登録文脈とする
ため、相関の強い、効果的な文脈のみ厳選して登録する
ことができ、無意味に長い文脈を登録しないようにでき
る。しかも、符号化の簡略化、メモリの有効利用、圧縮
率の向上を図れる

【００４４】図７は登録文脈を厳選する場合における復
元部２３のデータ復元処理フロー図である。まず、文字
番号ｔを０に、Ｐnを０に初期化する（ステップ３５
１）。尚、Ｐnは直前文字の復元に使用した文脈の次数
に１を加えたものであり、初期時復元が行われていない
ため０に設定する。ついで、文字番号を１歩進すると共
に（ステップ３５２）、次数ｎを最長文脈次数Ｎとする
（ステップ３５３）。しかる後、文脈木に文脈Ｘ(t-n,t
-1)が登録されているかチェックする(ステップ３５
４）。ただし、文脈Ｘ(t-n,t-1)は既に復元したｎ個の
最新文字列｛Ｘt-n，Ｘt-n+1，・・・，Ｘt-1｝であ
る。文脈Ｘ(t-n,t-1)が登録されていなければ次数ｎを
１減小し（ステップ３５５）、１文字短くした文脈が登
録されているかチェックする（ステップ３５４）。文脈
Ｘ(t-n,t-1)が登録されていれば、該文脈Ｘ(t-n,t-1)を
条件としてｔ番目の符号を文字コードに復元する（ステ
ップ３５６）。

【００４５】ついで、復元した文字コードがＥＳＣコー
ドであるかチェックし（ステップ３５７）、ＥＳＣコー
ドであれば、ステップ３５５以降の処理を繰り返す。一
方、ＥＳＣコードでなければ、復元した文字コードを出
力し（ステップ３５８）、Ｐn≦ｎであるかチェックす
る（ステップ３５９）。Ｐn≦ｎであれば、ｎ＋１→Ｐn
とし(ステップ３６０）、しかる後、すべてのデータの
復元が終了したかチェックし（ステップ３６１）、終了
してなければステップ３５２に戻り、次の符号について
上記処理を繰り返す。

【００４６】しかし、ステップ３５９において、Ｐn＞
ｎであれば、すなわち、直前に復元した文字の符号化文
脈の次数に１を加えた値Ｐnが今回復元文字の符号化文
脈の次数ｎより大きければ、文脈Ｘ(t-Pn,t-1)に復元文
字Ｘtを連結した文脈を登録する(ステップ３６２）。す
なわち、直前復元文字の符号化文脈Ｘ(t-Pn,t-1)に今回
の復元文字Ｘtを連結した文脈を登録する。ついで、Ｐn
を１減小し（ステップ３６３）、以後、Ｐn≦ｎとなる
までステップ３５９，３６２，３６３の処理を繰り返
す。尚、２回目以降のステップ３６２においては、既に
最初のステップ３６２の処理で最長符号化文脈が登録さ
れているため、新たな文脈の登録は行われない。以上に
より、復元処理及びＰn＞ｎの時の文脈の登録が行われ
るが、Ｐn≦ｎの場合には逐次登録が並行して行われ
る。

【００４７】（ｂ）第２実施例図８は登録文脈を厳選する場合における圧縮符号化部１
３のデータ圧縮処理別のフロー図である。この実施例で
は、符号化対象文字より前の文字の符号化文脈の次数が
連続して一次以上の場合、これら各文脈及び符号化対象
文字よりなる文脈を登録文脈の対象とするものである。
まず、文字番号ｔを０に初期化すると共に、Ｐnを０に
初期化する（ステップ４０１）。Ｐnは符号化文脈の次
数が連続して一次以上の場合、その連続回数に１を加え
た値であり、初期時、符号化が行われていないため０に
設定する。ついで、文字番号ｔを１歩進し、ｔ番目の文
字Ｘｔを入力すると共に（ステップ４０２）、次数ｎを
最長文脈次数Ｎとする（ステップ４０３）。しかる後、
文脈木に文脈Ｘ(t-n,t-1)が登録されているかチェック
する(ステップ４０４）。ただし、文脈Ｘ(t-n,t-1)は文
字列｛Ｘt-n，Ｘt-n+1，・・・，Ｘt-1｝である。文脈
Ｘ(t-n,t-1)が登録されていなければ次数ｎを１減小し
（ステップ４０５）、１文字短くした文脈が登録されて
いるかチェックする（ステップ４０４）。

【００４８】ステップ４０４において文脈Ｘ(t-n,t-1)
が登録されていれば、該文脈Ｘ(t-n,t-1)と符号化対象
文字Ｘtの組み合わせが文脈木に保持されているかチェ
ックする(ステップ４０６)。保持されていない場合に
は、文脈Ｘ(t-n,t-1)に続くエスケープコード（ＥＳＣ
コード）を符号化して出力し（ステップ４０７）、以
後、ステップ４０５以降の処理を繰り返す。ステップ４
０６において、文脈Ｘ(t-n,t-1)と符号化対象文字Ｘtの
組み合わせが文脈木に保持されていれば、文脈Ｘ(t-n,t
-1)に続いて符号化対象文字Ｘtが出現する条件つき出現
確率を用いて符号化して出力する（ステップ４０８）。
ついで、Ｐn≦ｎであるかチェックする（ステップ４０
９）。すなわち、符号化文脈の次数が連続して一次以上
の場合における連続回数に１を加えた値Ｐnと今回の符
号化文脈の次数ｎの大小を比較する。Ｐn≦ｎであれ
ば、ｎ≧１であるかチェックし、ｎ≧１であれば、すな
わち、符号化文脈の次数が１次以上であればＰnを歩進
し、ｎ＜１（ｎ＝０）であれば、Ｐｎ＝１にする（ステ
ップ４１０）。以後、すべてのデータの符号化が終了し
たかチェックし（ステップ４１１）、終了してなければ
ステップ４０２に戻り、次の符号化対象文字について上
記処理を繰り返す。

【００４９】しかし、ステップ４０９において、Ｐn＞
ｎであれば、すなわち、符号化文脈の次数が連続して一
次以上の場合における連続回数に１を加えた値Ｐnが今
回の符号化文脈の次数ｎより大きければ、文脈Ｘ(t-Pn,
t-1)に符号化対象文字Ｘtを連結した文脈を登録する(ス
テップ４１２）。すなわち、符号化対象文字Ｘtの直前
Ｐn個の連続文字列に符号化対象文字Ｘtを連結した文字
列（文脈）を登録し（ステップ４１２）、以後、ステッ
プ４１０以降の処理を繰り返す。以上により、圧縮符号
化及びＰn＞ｎの時の文脈の登録が行われるが、Ｐn≦ｎ
の場合には逐次登録が並行して行われる。この圧縮符号
化法によれば、符号化対象文字より前の文字の符号化文
脈の次数が連続して一次以上の場合、これら各文脈及び
符号化対象文字よりなる文脈を登録文脈の対象とするた
め、相関の強い、効果的な文脈のみ厳選して登録するこ
とができる。又、連続する１次以上の符号化文脈を連結
して登録するため、必要な長い文脈を直ちに登録するこ
とができる。

【００５０】図９は上記圧縮符号化方法の説明図であ
り、連続して”ＦＵＪＩＴＳＵ”なる文字列が３回出現
した場合の登録文脈の説明図である。初期時、各文字
Ｆ，Ｕ，Ｊ，Ｉ，Ｔ，Ｓ，Ｕが符号化文脈（０次の文
脈）として登録されている（図９（ａ））。かかる状態
で最初の文字列”ＦＵＪＩＴＳＵ”が入力されると、逐
次登録により（ｂ）に示すように文脈ＦＦＵＵＪＪＩＩＴＴＳＳＵが登録される。

【００５１】この状態で、次の文字列”ＦＵＪＩＴＳ
Ｕ”が入力されると、（ｂ）の登録文脈が符号化文脈と
なって符号化が行われると共に、（ｄ）に示すように、
文脈Ｆ，ＦＵ，ＦＵＩ，ＦＵＪＩ，ＦＵＪＩＴ，ＦＵＪＩＴＳ，ＦＵＪＩＴＳＵが登録される。この結果、３回目以降ではこれら登録文
脈を用いて符号化ができるため、圧縮率を向上すること
ができる。尚、図２７で説明した逐次登録法では”ＦＵ
ＪＩＴＳＵ”なる文字列が６回出現して初めて文脈”Ｆ
ＵＪＩＴＳＵ”が登録されるため、なかなか文脈を伸ば
すことができず、圧縮率が悪い。

【００５２】図１０は登録文脈を厳選する場合における
復元部２３のデータ復元処理フロー図である。まず、文
字番号ｔを０に、Ｐnを０に初期化する（ステップ４５
１）。尚、Ｐnは直前文字の復元に使用した文脈の次数
に１を加えたものであり、初期時復元が行われていない
ため０に設定する。ついで、文字番号を１歩進すると共
に（ステップ４５２）、次数ｎを最長文脈次数Ｎとする
（ステップ４５３）。しかる後、文脈木に文脈Ｘ(t-n,t
-1)が登録されているかチェックする(ステップ４５
４）。ただし、文脈Ｘ(t-n,t-1)は既に復元したｎ個の
最新文字列｛Ｘt-n，Ｘt-n+1，・・・，Ｘt-1｝であ
る。

【００５３】文脈Ｘ(t-n,t-1)が登録されていなければ
次数ｎを１減小し（ステップ４５５）、１文字短くした
文脈が登録されているかチェックする（ステップ４５
４）。文脈Ｘ(t-n,t-1)が登録されていれば、該文脈Ｘ
(t-n,t-1)を条件としてｔ番目の符号を文字コードに復
元する（ステップ４５６）。ついで、復元した文字コー
ドがＥＳＣコードであるかチェックし（ステップ４５
７）、ＥＳＣコードであれば、ステップ４５５以降の処
理を繰り返す。一方、ＥＳＣコードでなければ、復元し
た文字コードＸｔを出力し（ステップ４５８）、Ｐn≦
ｎであるかチェックする（ステップ４５９）。すなわ
ち、符号化文脈の次数が連続して一次以上の場合におけ
る連続回数に１を加えた値Ｐnと今回の復元に使用した
符号化文脈の次数ｎの大小を比較する。

【００５４】Ｐn≦ｎであれば、ｎ≧１であるかチェッ
クし、ｎ≧１であれば、すなわち、符号化文脈の次数が
１次以上であればＰnを歩進し、ｎ＜１（ｎ＝０）であ
れば、Ｐｎ＝１にする（ステップ４６０）。以後、すべ
てのデータの符号化が終了したかチェックし（ステップ
４６１）、終了してなければステップ４５２に戻り、次
の符号について上記処理を繰り返す。

【００５５】しかし、ステップ４５９において、Ｐn＞
ｎであれば、すなわち、復元に使用した符号化文脈の次
数が連続して一次以上の場合における連続回数に１を加
えた値Ｐnが今回復元に使用した符号化文脈の次数ｎよ
り大きければ、文脈Ｘ(t-Pn,t-1)に復元文字Ｘtを連結
した文脈を登録する(ステップ４６２）。すなわち、今
回の復元文字Ｘtの直前Ｐn個の復元文字列に該復元文字
Ｘtを連結した文字列（文脈）を登録し、以後、ステッ
プ４１０以降の処理を繰り返す。以上により、復元処理
及びＰn＞ｎの時の文脈の登録が行われるが、Ｐn≦ｎの
場合には逐次登録が並行して行われる。

【００５６】（ｃ）第３実施例図１１は登録文脈を厳選する場合におけるデータ圧縮処
理の別のフロー図である。この実施例では、符号化対象
文字より前の文字の符号化文脈及び符号化対象文字の符
号化文脈を連結して直前文字の符号化文脈の次数より長
い文脈を登録文脈の対象とする。具体的には、連続する
ｍ個の文字のそれぞれについて１次以上の符号化文脈を
用いて符号化した場合、前記ｍ個の文字列に符号化対象
文字を付加してなる文脈を登録する。まず、文字番号ｔ
を０に初期化すると共に、Ｐnを０に初期化する（ステ
ップ５０１）。Ｐnは入力文字が連続して１次以上の符
号化文脈を用いて符号化された場合における連続回数に
１を加えた値であり、初期時、符号化が行われていない
ため０に設定する。

【００５７】ついで、文字番号ｔを１歩進し、ｔ番目の
文字Ｘｔを入力すると共に（ステップ５０２）、次数ｎ
を最長文脈次数Ｎとする（ステップ５０３）。しかる
後、文脈木に文脈Ｘ(t-n,t-1)が登録されているかチェ
ックする(ステップ５０４）。ただし、文脈Ｘ(t-n,t-1)
は文字列｛Ｘt-n，Ｘt-n+1，・・・，Ｘt-1｝である。
文脈Ｘ(t-n,t-1)が登録されていなければ次数ｎを１減
小し（ステップ５０５）、１文字短くした文脈が登録さ
れているかチェックする（ステップ５０４）。ステップ
５０４において文脈Ｘ(t-n,t-1)が登録されていれば、
該文脈Ｘ(t-n,t-1)と符号化対象文字Ｘtの組み合わせが
文脈木に保持されているかチェックする(ステップ５０
６)。保持されていない場合には、文脈Ｘ(t-n,t-1)に続
くエスケープコード（ＥＳＣコード）を符号化して出力
し（ステップ５０７）、以後、ステップ５０５以降の処
理を繰り返す。

【００５８】ステップ５０６において、文脈Ｘ(t-n,t-
1)と符号化対象文字Ｘtの組み合わせが文脈木に保持さ
れていれば、文脈Ｘ(t-n,t-1)に続いて符号化対象文字
Ｘtの条件つき出現確率を用いて符号化して出力する
（ステップ５０８）。ついで、Stack＝ＰnとしてＰｎを
保存し(ステップ５０９）、Ｐn≦ｎであるかチェックす
る（ステップ５１０）。すなわち、入力文字が連続して
１次以上の符号化文脈を用いて符号化された場合におけ
る連続回数に１を加えた値Ｐnと今回の符号化文脈の次
数ｎの大小を比較する。Ｐn≦ｎであれば、ｎ≧１であ
るかチェックし、ｎ≧１であれば、すなわち、１次以上
の符号化文脈を用いて符号化対象文字を符号化した場合
には、スタックレジスタに保存されているＰnを歩進し
(Stack+1→Ｐｎ）、ｎ＜１（ｎ＝０）であれば、Ｐｎ＝
１にする（ステップ５１１）。以後、すべてのデータの
符号化が終了したかチェックし（ステップ５１２）、終
了してなければステップ５０２に戻り、次の符号化対象
文字について上記処理を繰り返す。

【００５９】しかし、ステップ５１０において、Ｐn＞
ｎであれば、すなわち、入力文字が連続して１次以上の
符号化文脈を用いて符号化された場合における連続回数
に１を加えた値Ｐnが今回の符号化文脈の次数ｎより大
きければ、文脈Ｘ(t-Pn,t-1)に符号化対象文字Ｘtを連
結した文脈を登録する(ステップ５１３）。すなわち、
符号化対象文字Ｘtの直前Ｐn個の連続文字列に符号化対
象文字Ｘtを連結した文字列（文脈）を登録する。つい
で、Ｐnを１減小し（ステップ５１４）、以後、Ｐn≦ｎ
となるまでステップ５１０，５１３，５１４の処理を繰
り返す。尚、２回目以降のステップ５１３においては、
既に最初のステップ３１２の処理で最長符号化文脈が登
録されているため、新たな文脈の登録は行われない。以
上により、圧縮符号化及びＰn＞ｎの時の文脈の登録が
行われるが、Ｐn≦ｎの場合には逐次登録が並行して行
われる。

【００６０】この圧縮符号化法によれば、連続するｍ個
の文字のそれぞれについて１次以上の符号化文脈を用い
て符号化した場合、前記ｍ個の文字列に符号化対象文字
を付加してなる文脈を登録するため、相関の強い、効果
的な文脈のみ厳選して登録することができる。又、必要
な長い文脈を直ちに登録することができる。尚、図９の
圧縮符号化処理の説明図は図１０の圧縮符号化法の説明
にも適用できる。すなわち、この圧縮符号化法によれ
ば、２回目の”ＦＵＪＩＴＳＵ”の入力により、図９
（ｄ）に示すように文脈Ｆ，ＦＵ，ＦＵＩ，ＦＵＪＩ，ＦＵＪＩＴ，ＦＵＪＩＴＳ，ＦＵＪＩＴＳＵが登録される。

【００６１】図１２は登録文脈を厳選する場合における
復元部２３のデータ復元処理フロー図である。まず、文
字番号ｔを０に、Ｐnを０に初期化する（ステップ５５
１）。尚、Ｐnは１次以上の符号化文脈を用いて連続し
て復元した文字数に１を加えた値であり、初期時復元が
行われていないため０に設定する。ついで、文字番号ｔ
を１歩進すると共に（ステップ５５２）、次数ｎを最長
文脈次数Ｎとする（ステップ５５３）。しかる後、文脈
木に文脈Ｘ(t-n,t-1)が登録されているかチェックする
(ステップ５５４）。ただし、文脈Ｘ(t-n,t-1)は既に復
元したｎ個の最新文字列｛Ｘt-n，Ｘt-n+1，・・・，Ｘ
t-1｝である。文脈Ｘ(t-n,t-1)が登録されていなければ
次数ｎを１減小し（ステップ５５５）、１文字短くした
文脈が登録されているかチェックする（ステップ５５
４）。文脈Ｘ(t-n,t-1)が登録されていれば、該文脈Ｘ
(t-n,t-1)を条件としてｔ番目の符号を文字コードに復
元する（ステップ５５６）。

【００６２】ついで、復元した文字コードがＥＳＣコー
ドであるかチェックし（ステップ５５７）、ＥＳＣコー
ドであれば、ステップ５５５以降の処理を繰り返す。一
方、ＥＳＣコードでなければ、復元した文字コードＸｔ
を出力し（ステップ５５８）、Stack＝ＰnとしてＰｎを
保存し(ステップ５５９）、Ｐn≦ｎであるかチェックす
る（ステップ５６０）。すなわち、１次以上の符号化文
脈を用いて連続して復元した場合における連続回数に１
を加えた値Ｐnと今回の符号化文脈の次数ｎの大小を比
較する。Ｐn≦ｎであれば、ｎ≧１であるかチェック
し、ｎ≧１であれば、すなわち、１次以上の符号化文脈
を用いて復元した場合には、スタックレジスタに保存さ
れているＰnを歩進し(Stack+1→Ｐｎ）、ｎ＜１（ｎ＝
０）であれば、Ｐｎ＝１にする（ステップ５６１）。以
後、すべてのデータの復元が終了したかチェックし（ス
テップ５６２）、終了してなければステップ５５２に戻
り、次の符号について上記処理を繰り返す。

【００６３】しかし、ステップ５６０において、Ｐn＞
ｎであれば、すなわち、連続して１次以上の符号化文脈
を用いて復元した場合における連続回数に１を加えた値
Ｐnが今回の復元に使用した符号化文脈の次数ｎより大
きければ、文脈Ｘ(t-Pn,t-1)に復元文字Ｘtを連結した
文脈を登録する(ステップ５６３）。すなわち、今回の
復元文字Ｘtの直前Ｐn個の連続文字列に該復元文字Ｘt
を連結した文字列（文脈）を登録する。ついで、Ｐnを
１減小し（ステップ５６４）、以後、Ｐn≦ｎとなるま
でステップ５６０，５６３，５６４の処理を繰り返す。
尚、２回目以降のステップ５６３においては、既に最初
のステップ５６３の処理で最長符号化文脈が登録されて
いるため、新たな文脈の登録は行われない。以上によ
り、復元処理及びＰn＞ｎの時の文脈の登録が行われる
が、Ｐn≦ｎの場合には逐次登録が並行して行われる。

【００６４】（Ｄ）複数の文字を１文字として文脈を登
録する処理図１３は複数の文字を１文字とみなして文脈
を登録する処理の説明図である。符号化対象文字の直前
文字の符号化文脈と符号化対象文字の符号化文脈の相関
が強い場合、これら符号化文脈の一部を符号化対象文字
と併せて１つの文字とみなして文脈を登録する。具体的
には、符号化対象文字の直前文字の符号化文脈と符号化
対象文字の符号化文脈の次数が共に所定次数（例えば２
次）以上の場合、直前文字と符号化対象文字を１つの文
字として合成し、前記符号化文脈に合成文字を連結して
なる文脈を登録する。

【００６５】図１３（ａ）は、文字Ｆ，Ｕ，Ｊ，Ｉ，
Ｔ，Ｓ，Ｕが符号化文脈（０次の文脈）として登録され
ている状態において、最初の文字列”ＦＵＪＩＴＳＵ”
が入力された後の逐次登録法により登録された文脈（登
録文脈）を示している。かかる状態において文字列”Ｆ
ＵＪＩＴＳＵ”が入力されると、圧縮符号化部１３は
（ａ）の登録文脈を用いて各入力文字の符号化を行い、
又、文脈登録部１２は逐次登録法により（ｂ）に示すよ
うに、文脈ＦＦＵＦＵＪＵＪＩＪＩＴＩＴＳＴＳＵを登録する。

【００６６】ついで、文字列”ＦＵＪＩＴＳＵ”が入力
されると、圧縮符号化部１３は（ｂ）の登録文脈を使用
して符号化を行う。この場合、文字Ｊ，Ｉ，Ｔ，Ｓ，Ｕ
の符号化に使用する文脈（符号化文脈）は”ＦＵ
Ｊ”，”ＵＪＩ”，”ＪＩＴ”，”ＩＴＳ”，”ＴＳ
Ｕ”であり、２次文脈である。符号化対象文字の直前文
字の符号化文脈と符号化対象文字の符号化文脈の次数が
共に所定次数（例えば２次）になると、文脈登録部１２
は、直前文字と符号化対象文字を１つの文字として合成
し、直前文字の符号化文脈に合成文字を連結してなる２
次の文脈を登録する。この結果、（ｄ）に示すように、ＦＦＵＦＵＪＦＵＪＩＵＪＩＴＪＩＴＳＩＴＳＵを登録する。ただし、下線の２文字は１文字とみなされ
ている。

【００６７】ついで、再び、文字列”ＦＵＪＩＴＳＵ”
が入力すると、圧縮符号化部１３は（ｄ）の登録文脈を
使用して符号化を行い、文脈登録部１２は、直前文字と
符号化対象文字を１つの文字として合成し、直前文字の
符号化文脈に合成文字を連結してなる２次の文脈を登録
する。この結果、（ｆ）に示すように、ＦＦＵＦＵＪＦＵＪＩＦＵＪＩＴＵＪＩＴＳＪＩＴＳＵを登録する。以後同様に、文脈登録部１２及び圧縮符号
化部１３は圧縮符号化、文脈の登録処理を行う。

【００６８】以上のように続けて２次で符号化した文字
を併せて１つの符号化単位とすることによって相関の強
い部分を文字列で扱うことができ、又、該文字列を１文
字とみなして登録することにより圧縮・復元スピード、
符号化効率を向上することができる。以上では、圧縮符
号化について説明したが、復元に際しても同様に文脈を
登録しつつ、符号を文字に復元する。

【００６９】（Ｅ）符号化文脈の検索範囲を限定する処
理圧縮符号化を継続してゆくと登録文脈が多くなり、符号
化文脈を検索するのに手間取る場合が生じる。そこで、
むやみに長い文脈の検索を行わず、又、使用可能性の高
い文脈に限定して検索する。（ａ）第１実施例図１４は符号化文脈の検索範囲を限定する場合の圧縮符
号化部１３の圧縮処理フローである。この実施例では、
直前文字の符号化文脈に直前文字を結合してなる文脈
（ｎ次文脈）より短い文脈を符号化文脈の検索範囲とす
る。まず、文字番号ｔを０に初期化すると共にＰnを０
に初期化する（ステップ６０１）。尚、Ｐnは直前文字
の符号化に使用した文脈（符号化文脈）の次数に１を加
えたものであり、初期時符号化が行われていないため０
に設定する。ついで、文字番号を１歩進し、ｔ番目の文
字Ｘｔを入力すると共に（ステップ６０２）、次数ｎを
Ｐｎにする（ステップ６０３）。尚、最長文脈次数はＮ
とする。

【００７０】しかる後、文脈木に文脈Ｘ(t-n,t-1)が登
録されているかチェックする(ステップ６０４）。ただ
し、文脈Ｘ(t-n,t-1)は文字列｛Ｘt-n，Ｘt-n+1，・・
・，Ｘt-1｝である。文脈Ｘ(t-n,t-1)が登録されていな
ければ次数ｎを１減小し（ステップ６０５）、１文字短
くした文脈が登録されているかチェックする（ステップ
６０４）。ステップ６０４において、文脈Ｘ(t-n,t-1)
が登録されていれば、該文脈Ｘ(t-n,t-1)と符号化対象
文字Ｘtの組み合わせが文脈木に保持されているかチェ
ックする(ステップ６０６)。保持されていない場合に
は、文脈Ｘ(t-n,t-1)に続くエスケープコード（ＥＳＣ
コード）を符号化して出力し（ステップ６０７）、以
後、ステップ６０５以降の処理を繰り返す。

【００７１】ステップ６０６において、文脈Ｘ(t-n,t-
1)と符号化対象文字Ｘtの組み合わせが文脈木に保持さ
れていれば、文脈Ｘ(t-n,t-1)に続いて符号化対象文字
Ｘtの条件つき出現確率を用いて符号化して出力する
（ステップ６０８）。ついで、Ｐn＝ｎ＋１によりＰｎ
を歩進し（ステップ６０９）、すべてのデータの符号化
が終了したかチェックし（ステップ６１０）、終了して
なければステップ６０２に戻り、次の符号化対象文字に
ついて上記処理を繰り返す。以上では文脈の登録につい
て説明しなかったが、上記圧縮処理と並行して文脈登録
部１２は例えば逐次登録法あるいは既述の登録法に従っ
て文脈の登録処理を行う。以上により、直前文字の符号
化文脈に直前文字を結合してなる文脈（ｎ次文脈）より
短い文脈を符号化文脈の検索範囲とすることができる。
これにより、むやみに長い文脈の検索を行わず、又、使
用可能性の高い文脈に限定して検索することができる。

【００７２】図１５は符号化文脈の検索範囲を限定する
場合における復元部２３の復元処理フローである。ま
ず、文字番号ｔを０に初期化すると共にＰnを０に初期
化する（ステップ６５１）。尚、Ｐnは直前文字の復元
に使用した文脈（符号化文脈）の次数に１を加えたもの
であり、初期時復元が行われていないため０に設定す
る。ついで、文字番号ｔを１歩進すると共に（ステップ
６５２）、次数ｎをＰｎにする（ステップ６５３）。
尚、最長文脈次数はＮとする。しかる後、文脈木に文脈
Ｘ(t-n,t-1)が登録されているかチェックする(ステップ
６５４）。ただし、文脈Ｘ(t-n,t-1)は既に復元したｎ
個の最新文字列｛Ｘt-n，Ｘt-n+1，・・・，Ｘt-1｝で
ある。文脈Ｘ(t-n,t-1)が登録されていなければ次数ｎ
を１減小し（ステップ６５５）、１文字短くした文脈が
登録されているかチェックする（ステップ６５４）。文
脈Ｘ(t-n,t-1)が登録されていれば、該文脈Ｘ(t-n,t-1)
を条件としてｔ番目の符号を文字コードに復元する（ス
テップ６５６）。

【００７３】ついで、復元した文字コードがＥＳＣコー
ドであるかチェックし（ステップ６５７）、ＥＳＣコー
ドであればステップ６５５以降の処理を繰り返す。一
方、ＥＳＣコードでなければ、復元した文字コードを出
力し（ステップ６５８）、Ｐn＝ｎ＋１によりＰｎを歩
進する（ステップ６５９）。しかる後、すべてのデータ
の符号化が終了したかチェックし（ステップ６６０）、
終了してなければステップ６５２に戻り、次の符号につ
いて上記処理を繰り返す。以上では文脈の登録について
説明しなかったが、上記復元処理と並行して文脈登録部
２２は例えば逐次登録法あるいは既述の登録法に従って
文脈の登録処理を行う。

【００７４】（ｂ）第２実施例図１６は符号化文脈の検索範囲を限定する場合における
圧縮符号化部１３の別の圧縮処理フローである。この実
施例では、直前文字の符号化文脈に直前文字を結合した
文脈、並びに次数が１次以下もしくは０次の文脈のみを
符号化文脈の検索対象とする。まず、文字番号ｔを０に
初期化すると共にＰnを０に初期化する（ステップ７０
１）。尚、Ｐnは直前文字の符号化に使用した文脈（符
号化文脈）の次数に１を加えたものであり、初期時符号
化が行われていないため０に設定する。ついで、文字番
号ｔを１歩進し、ｔ番目の文字Ｘｔを入力すると共に
（ステップ７０２）、次数ｎをＰｎにする（ステップ７
０３）。尚、最長文脈次数はＮとする。しかる後、文脈
木に文脈Ｘ(t-n,t-1)が登録されているかチェックする
(ステップ７０４）。ただし、文脈Ｘ(t-n,t-1)は文字列
｛Ｘt-n，Ｘt-n+1，・・・，Ｘt-1｝である。

【００７５】文脈Ｘ(t-n,t-1)が登録されていなけれ
ば、次数ｎが１より大きいかチェックし、ｎ＞１の場合
には次数ｎを１にし、ｎ≦１の場合には次数ｎを０にし
（ステップ７０５）、以後ステップ７０４以降の処理を
繰り返す。すなわち、直前文字の符号化文脈に直前文字
を結合してなる文脈が符号化対象文字の符号化文脈でな
い場合には、次数ｎを１または０にし、１次文脈または
０次文脈より符号化文脈を検索する。文脈Ｘ(t-n,t-1)
が登録されていれば、該文脈Ｘ(t-n,t-1)と符号化対象
文字Ｘtの組み合わせが文脈木に保持されているかチェ
ックする(ステップ７０６)。保持されていない場合に
は、文脈Ｘ(t-n,t-1)に続くエスケープコード（ＥＳＣ
コード）を符号化して出力し（ステップ７０７）、以
後、ステップ７０５以降の処理を繰り返す。

【００７６】ステップ７０６において、文脈Ｘ(t-n,t-
1)と符号化対象文字Ｘtの組み合わせが文脈木に保持さ
れていれば、文脈Ｘ(t-n,t-1)に続いて符号化対象文字
Ｘtの条件つき出現確率を用いて符号化して出力する
（ステップ７０８）。ついで、Ｐn＝ｎ＋１によりＰｎ
を歩進し（ステップ７０９）、すべてのデータの符号化
が終了したかチェックし（ステップ７１０）、終了して
なければステップ６０２に戻り、次の符号化対象文字に
ついて上記処理を繰り返す。以上では文脈の登録につい
て説明しなかったが、上記圧縮処理と並行して文脈登録
部１２は例えば逐次登録法あるいは既述の登録法に従っ
て文脈の登録処理を行う。以上により、直前文字の符号
化文脈に直前文字を結合してなる文脈、並びに次数が１
次以下もしくは０次の文脈のみを符号化文脈の対象とす
ることができる。これにより、むやみに長い文脈の検索
を行わず、又、使用可能性の高い文脈に限定して検索す
ることができる。

【００７７】図１７は符号化文脈の検索範囲を限定する
場合における復元部２３の復元処理フローである。ま
ず、文字番号ｔを０に初期化すると共にＰnを０に初期
化する（ステップ７５１）。尚、Ｐnは直前文字の復元
に使用した文脈（符号化文脈）の次数に１を加えたもの
であり、初期時復元が行われていないため０に設定す
る。ついで、文字番号ｔを１歩進すると共に（ステップ
７５２）、次数ｎをＰｎにする（ステップ７５３）。
尚、最長文脈次数はＮとする。しかる後、文脈木に文脈
Ｘ(t-n,t-1)が登録されているかチェックする(ステップ
７５４）。ただし、文脈Ｘ(t-n,t-1)は既に復元したｎ
個の最新文字列｛Ｘt-n，Ｘt-n+1，・・・，Ｘt-1｝で
ある。

【００７８】文脈Ｘ(t-n,t-1)が登録されていなけれ
ば、次数ｎが１より大きいかチェックし、ｎ＞１の場合
には次数ｎを１にし、ｎ≦１の場合には次数ｎを０にし
（ステップ７５５）、以後ステップ７５４以降の処理を
繰り返す。文脈Ｘ(t-n,t-1)が登録されていれば、該文
脈Ｘ(t-n,t-1)を条件としてｔ番目の符号を文字コード
に復元する（ステップ７５６）。ついで、復元した文字
コードがＥＳＣコードであるかチェックし（ステップ７
５７）、ＥＳＣコードであればステップ７５５以降の処
理を繰り返す。一方、ＥＳＣコードでなければ、復元し
た文字コードを出力する（ステップ７５８）。

【００７９】ついで、Ｐn＝ｎ＋１によりＰｎを歩進し
（ステップ７５９）、すべてのデータの符号化が終了し
たかチェックし（ステップ７６０）、終了してなければ
ステップ７５２に戻り、次の符号について上記処理を繰
り返す。以上では文脈の登録について説明しなかった
が、上記復元処理と並行して文脈登録部２２は例えば逐
次登録法あるいは既述の登録法に従って文脈の登録処理
を行う。以上、本発明を実施例により説明したが、本発
明は請求の範囲に記載した本発明の主旨に従い種々の変
形が可能であり、本発明はこれらを排除するものではな
い。

【００８０】

【発明の効果】以上本発明によれば、所定の条件を満足
する登録文脈（例えば、文脈の出現頻度が一定値以上の
登録文脈、あるいは文脈に続いて出現する文字の中で良
く出る文字の出現頻度が一定値以上の登録文脈）を符号
化文脈として選択し、該符号化文脈を用いて符号化対象
文字を可変長符号化あるいは可変長符号を文字に復元す
るように構成したから、符号化文脈を厳選して無意味に
長い文脈を符号化文脈として使用しないようにでき、
又、符号化の簡略化（圧縮／復元スピードの向上）、圧
縮率の向上を図ることができる。

【００８１】本発明によれば、文脈の長さ（次数）を固
定せずに入力データに応じて文脈の次数を延ばして登録
する際、符号化対象文字より前の文字の符号化文脈に基
づいて登録文脈を厳選する。例えば、(1) 直前文字で使
用した符号化文脈に直前文字を加えた文字列を登録文脈
の対象とし、あるいは、(2) 符号化対象文字より前の文
字の符号化文脈の次数が連続して一次以上の場合、これ
ら各文脈及び直前文字よりなる文脈を登録文脈の対象と
し、あるいは、(3) 連続するｍ文字のそれぞれについて
符号化文脈を用いて符号化した場合、各文脈の長さＬ_m
が、Ｌ₁＜Ｌ₂＜・・・Ｌ_mを満たす各文脈を連結した文
脈を登録文脈の対象とする。この結果、本発明によれ
ば、相関の強い、効果的な文脈のみ厳選して登録するこ
とができ、無意味に長い文脈を登録しないようにでき、
しかも、符号化の簡略化、メモリの有効利用、圧縮率の
向上を図ることができる。

【００８２】本発明によれば、文脈の長さ（次数）を固
定せずに入力データに応じて文脈の次数を延ばして登録
する際、直前文字の符号化文脈と符号化対象文字の符号
化文脈の相関が強い場合、これら符号化文脈の一部を符
号化対象文字とあわせて１つの文字とみなして登録文脈
を決定する。例えば、(1) 直前文字の符号化文脈及び符
号化対象文字の符号化文脈の次数が共に所定次数以上
(２次以上)の場合、直前文字と符号化対象文字を１つの
文字として合成し、直前文字の符号化文脈に合成文字を
結合してなる文脈を登録する。この結果、本発明によれ
ば、相関の強い文字列のところは、１文字づつ符号化す
るのではなく、文字列で符号化することによって圧縮／
復元スピードの向上、符号化効率の向上を図ることがで
きる。

【００８３】本発明によれば、符号化対象文字より前の
文字で使用した符号化文脈に基づいて符号化対象文字を
符号化するために使用する文脈（符号化文脈）の検索範
囲を限定する。例えば、(1) 直前文字の符号化文脈に直
前文字を結合してなる文脈の次数より短い次数の文脈を
符号化文脈の検索範囲とし、あるいは、(2) 直前文字の
符号化文脈に直前文字を結合してなる文脈、並びに次数
が１次以下もしくは０次の文脈のみを符号化文脈の検索
対象とする。これにより、本発明によれば、符号化文脈
の検索範囲を相関の強い、効果的な文脈に限定し、無意
味に長い文脈を符号化文脈として使用しないようにで
き、又、符号化の簡略化、圧縮率の向上を図ることがで
きる。

【図面の簡単な説明】

【図１】データ圧縮／復元装置の構成である。

【図２】符号化文脈を厳選する場合のデータ圧縮処理
（その１）である。

【図３】符号化文脈を厳選する場合のデータ復元処理
（その１）である。

【図４】符号化文脈を厳選する場合のデータ圧縮処理
（その２）である。

【図５】符号化文脈を厳選する場合のデータ復元処理
（その２）である。

【図６】登録文脈を厳選する場合のデータ圧縮処理（そ
の１）である。

【図７】登録文脈を厳選する場合のデータ復元処理（そ
の１）である。

【図８】登録文脈を厳選する場合のデータ圧縮処理（そ
の２）である。

【図９】登録文脈を厳選する場合の登録文脈の説明図で
ある。

【図１０】登録文脈を厳選する場合のデータ復元処理
（その２）である。

【図１１】登録文脈を厳選する場合のデータ圧縮処理
（その３）である。

【図１２】登録文脈を厳選する場合のデータ復元処理
（その３）である。

【図１３】複数の文字を１文字として文脈を登録する場
合の説明図である。

【図１４】符号化文脈の検索範囲を限定する場合のデー
タ圧縮方法（その１）である。

【図１５】符号化文脈の検索範囲を限定する場合のデー
タ復元方法（その１）である。

【図１６】符号化文脈の検索範囲を限定する場合のデー
タ圧縮方法（その２）である。

【図１７】符号化文脈の検索範囲を限定する場合のデー
タ復元方法（その２）である。

【図１８】符号木の説明図である。

【図１９】ハフマン符号木の説明図である。

【図２０】算術符号化を説明するための文字・生起確率
・区間対応表である。

【図２１】算術符号化を説明するための模式図である。

【図２２】文脈モデルの可変長符号化説明図である。

【図２３】条件付き確率を付した文脈木の一例を示した
図である。

【図２４】文脈と符号化対象文字の説明図である。

【図２５】文脈の木の登録例である。

【図２６】文脈木の逐次登録例である。

【図２７】逐次登録法の説明図である。

【図２８】従来のブレンドモデル（圧縮方法）である。

【図２９】従来のブレンドモデル（復元方法）である。

【符号の説明】

１１・・入力文字列１２・・文脈登録部１３・・圧縮符号化部１４・・符号化データ２１・・符号化データ２２・・文脈登録部２３・・復元部２４・・文字コード

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) H03M 7/40

Claims

(57)【特許請求の範囲】

【請求項１】符号化対象文字の直前ｎ文字の文字列
(文脈)に続いて出現する符号化対象文字の出現確率を用
いて符号化対象文字を可変長符号化あるいは可変長符号
を文字に復元する確率統計型データ圧縮／復元方法にお
いて、文脈の長さ（次数）を固定せずに入力データに応じて文
脈の次数を延ばして登録し、所定の条件を満足する登録文脈を符号化に使用する文脈
（符号化文脈）として選択し、該符号化文脈を用いて符号化対象文字を可変長符号化あ
るいは可変長符号を文字に復元することを特徴とするデ
ータ圧縮／復元方法。
【請求項２】文脈の出現頻度が一定値以上のとき、該
文脈は前記条件を満足すると判定することを特徴とする
請求項１記載のデータ圧縮／復元方法。
【請求項３】文脈に続いて出現する文字の中で良く出
る文字の出現頻度が一定の割合以上の文脈は前記条件を
満足すると判定することを特徴とする請求項１記載のデ
ータ圧縮／復元方法。
【請求項４】符号化対象文字の直前ｎ文字の文字列
(文脈)に続いて出現する符号化対象文字の出現確率を用
いて符号化対象文字を可変長符号化あるいは可変長符号
を文字に復元する確率統計型データ圧縮／復元方法にお
いて、文脈の長さ（次数）を固定せずに入力データに応じて文
脈の次数を延ばして登録する際、符号化対象文字より前
の文字の符号化に使用した文脈（符号化文脈）に基づい
て登録する文脈（登録文脈）を決定することを特徴とす
るデータ圧縮／復元方法。
【請求項５】直前文字で使用した符号化文脈に直前文
字を加えた文字列を登録文脈の対象とすることを特徴と
する請求項４記載のデータ圧縮／復元方法。
【請求項６】符号化対象文字より前の文字の符号化文
脈の次数が連続して一次以上の場合、これら各文脈及び
直前文字よりなる文脈を登録文脈の対象とすることを特
徴とする請求項４記載のデータ圧縮／復元方法。
【請求項７】連続するｍ文字のそれぞれについて符号
化文脈を用いて符号化した場合、各文脈の長さＬ_mが、
Ｌ₁＜Ｌ₂＜・・・Ｌ_mを満たす各文脈を連結した文脈を
登録文脈の対象とすることを特徴とする請求項４記載の
データ圧縮／復元方法。
【請求項８】符号化文脈の各文字間の相関が強い場
合、符号化文脈の一部と符号化対象文字とを併せて１つ
の文字として登録することを特徴とする請求項４記載の
データ圧縮／復元方法。
【請求項９】符号化対象文字の直前文字の符号化文脈
及び符号化対象文字の符号化文脈の次数が所定次数以上
の場合、直前文字と符号化対象文字を１つの文字として
登録することを特徴とする請求項８記載のデータ圧縮／
復元方法。
【請求項１０】前記所定次数は２次であることを特徴
とする請求項９記載のデータ圧縮／復元方法。
【請求項１１】符号化対象文字の直前ｎ文字の文字列
(文脈)に続いて出現する符号化対象文字の出現確率を用
いて符号化対象文字を可変長符号化あるいは可変長符号
を文字に復元する確率統計型データ圧縮／復元方法にお
いて、文脈の長さ（次数）を固定せずに入力データに応じて文
脈の次数を延ばして登録し、符号化対象文字より前の文字で使用した符号化文脈に基
づいて符号化対象文字を符号化するために使用する文脈
（符号化文脈）の検索範囲を限定することを特徴とする
データ圧縮／復元方法。
【請求項１２】符号化対象文字の直前文字の符号化文
脈に直前文字を結合してなる文脈より短い文脈を符号化
文脈の検索範囲とすることを特徴とする請求項１１記載
のデータ圧縮／復元方法。
【請求項１３】符号化対象文字の直前文字の符号化文
脈に直前文字を結合してなる文脈、並びに次数が１次以
下もしくは０次の文脈のみを符号化文脈の検索範囲とす
ることを特徴とする請求項１１記載のデータ圧縮／復元
方法。