JPH08167853A

JPH08167853A - データ圧縮・復元方法

Info

Publication number: JPH08167853A
Application number: JP30866394A
Authority: JP
Inventors: Hironori Yahagi; 裕紀矢作; Shigeru Yoshida; 茂吉田; Yoshiyuki Okada; 佳之岡田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1994-12-13
Filing date: 1994-12-13
Publication date: 1996-06-25

Abstract

(57)【要約】【目的】低次の符号化を多く使用し、高次の相関が弱
いデータに対しても、圧縮率を改善することが可能な、
多値算術符号化によるデータ圧縮・復元方法を提供する
ことを目的とする。【構成】直前までに出現した１字以上の文字列である
文脈が符号化したものに基づいて、注目文字の条件付確
率を多値算術符号化するデータ圧縮・復元方法におい
て、符号化を開始する文脈を基に、各文脈の次数が現れ
る確率を算出することを含むように構成した。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データ圧縮・復元方法
に関し、特に多値算術符号化を用いるデータ圧縮・復元
法に関する。

【０００２】

【従来の技術】近年、文字コード、ベクトル情報、画像
など様々な種類のデータがコンピュータで扱われるよう
になっており、扱われるデータ量も急速に増加してきて
いる。大量のデータを扱うときは、データの中の冗長な
部分を省いてデータ量を圧縮することで、記憶容量を減
らしたり、早く伝送したりできるようになる。様々なデ
ータを１つの方式でデータ圧縮する方法として、ユニバ
ーサル符号化が提案されている。

【０００３】しかしながら、ユニバーサル符号化による
データ圧縮方法の圧縮率は、プログラムや文書データを
対象とした場合に、平均１／２から１／３程度である。
このように、データ圧縮に関しては、まだ改善の余地が
多いのが現状である。

【０００４】ここで、本明細書では、情報理論で用いら
れている呼称を踏襲し、データの１ワード単位を記号(S
ymbol)と呼び、データが任意ワードつながったものを記
号列と呼ぶことにする。

【０００５】まず、バイト単位のファイル圧縮に用いる
ユニバーサル符号の代表的な方法として、算術符号化が
ある。算術符号化には、２値算術符号化と３値以上の多
値算術符号化とがある。多値算術符号化の中でも、マル
コフモデルを利用したＰＰＭＣ（ＰＰＭ：Prediction O
f Partial Match，C:Method C)が、最も優れた圧縮率が
得られる方式である（Bell,T.C.,Cleary,J.G.,and Witt
en,I.H."Text Compression"(1990),Prentice Hall.)。

【０００６】ＰＰＭＣ法は、入力文字の出現確率を求
める統計モデル化と、求めた出現確率を可変長符号化
する算術符号化の、２つのステップから成るが、（１）
算術符号化の基本手順、（２）統計モデル化及び（３）
処理内容に分けて説明する。（１）算術符号化の基本手順（ａ）基本的な考え表１及び図５に多値算術符号化の原理図を示す。多値算
術符号化では、０≦Ｐ＜１（以下、［０，１）と記述す
る）の数直線を出現した記号の事象の数で分割し、数直
線上での記号の幅（区間）を出現頻度に比例させる。例
えば、図５の例では、“ａ”、“ｅ”、“ｉ”、
“ｏ”、“ｕ”及び“！”の６つの記号の出現頻度に従
って、数直線［０，１）を６分割し、各記号の幅をその
記号の出現頻度に比例させている。

【０００７】そして、最初に出現した記号（図５では、
“ｅ”）の区間を選択し、次に選択した区間を更に
［０，１）の時と同様に全記号で分割する。更に、分割
した区間について、第２に出現した記号（図５では、
“ａ”）の区間を選択する。以後、同様に全入力データ
（図５では、順に“ｉ”、“ｉ”、“！”）について処
理を繰り返すことで、符号化する記号列の区間を決定す
ることができる。

【０００８】

【表１】各文字の確率分布 Symbol Probability Range a 0.2 [0, 0.2) e 0.3 [0.2, 0.5) i 0.1 [0.5, 0.6) o 0.2 [0.6, 0.8) u 0.1 [0.8, 0.9) ! 0.1 [0.9, 1.0) 圧縮符号としては、最終的に定まった記号列の区間内の
任意の点を、２進表示で出力する。出現頻度に応じた区
間の分割方法としては、記号列の実際の出現頻度によら
ず、予め設定した出現頻度に従って分割する静的符号化
方式（static）、最初に全記号列を走査して得た出現頻
度で分割する準適応型符号化方式（semi-adaptive）、
記号が出現する毎に頻度を再計算し、１記号毎に区間を
再設定する適応型符号化方式（adaptive）がある。本発
明は、データ形式に依存せず、１パスで符号化が行える
適応型圧縮方式（adaptive）にかかるものである。本発
明は、データ形式に依存せず、１パスで符号化が行える
適応型圧縮方式（adaptive）にかかるものである。

【０００９】これで、高圧縮率を達成できる理由を以下
に述べる。Ｎ個の記号の符号長は、多値算術符号化で
は、以下のように与えられる。

【００１０】

【数１】（Ｎ個の記号の符号長）= （最終的に定まった記号列の区間内における、任意の点を２進表示するビット数） = -log₂(Π^N _i=1p(記号i)) = -Σ^N _i=1log₂p(記号i) = -Σⁿ _i=1p(a_i)log₂p(a_i)×Ｎ・・・（１）

【００１１】

【数２】（Ｎ記号での平均符号長）= （Ｎ個の記号の符号長）／Ｎ = -Σⁿ _i=1p(a_i)log₂p(a_i) ・・・（２）但し、a_i,a₂,,a_nは、それぞれ情報源の記号の種類。

【００１２】また、上記の各記号の生起確率は、入力さ
れたＮ記号の範囲で得られた確率である。そして、情報
源からの、各記号の全データを通じての生起確率をp₀(a
_i),p₀(a₂),p₀(a_n)とすると、シャノンの情報源符号化定
理より、平均符号長の下限は、以下の平均情報量で与え
られる。

【００１３】

【数３】（平均符号長＞≧（平均情報量）＝ -Σⁿ _i=1p₀(a_i)log₂p₀(a_i) ・・・（３）記号数Ｎが大きくなるにつれ、生起確率(p(a_i),p(a₂),,
p(a_n))は、全データを通じての値である(p₀(a_i),p
₀(a₂),,p₀(a_n))に近づく。よって、平均符号長も平均情
報量に近づき、高圧縮率が得られることになる。

【００１４】（ｂ）符号化の基本手順多値算術符号では、図５に示すように、各記号の出現確
率（和は１）の累積値を取って、数直線［０，１）を分
割する。次に、記号が１個入力される毎に、以下の規則
で数直線の区間を細分する。全記号を入力した後に最終
区間を符号として出力する。表１の Range（区間）の欄
は、各記号の累積確率の欄は、各記号の累積確率の区間
を表す。例えば、文字 “e”の累積確率の区間は［０.
２，０.５）であり、上端は０．５、下端は０.２、区間
の幅は両者の差をとって０.３（記号 “e”の単独の確
率）となる。そして、ある記号までに分割した区間を旧
区間とし、次の記号により分割した区間を新区間とする
と、以下のようになる。

【００１５】

【数４】（新区間の下端）＝（旧区間の下端）＋（記号区間の下端）×（旧区間の幅）・・・（４）

【００１６】

【数５】（新区間の上端）＝（旧区間の下端）＋（記号区間の上端）×（旧区間の幅）・・・（５）

【００１７】

【数６】（新区間の幅）＝（旧区間の幅）×（記号の確率）・・・（６）

【００１８】

【数７】（旧区間の幅）＝（旧区間の上端）−（旧区間の下端）・・・（７）

【００１９】

【数８】（新区間の幅）＝（新区間の上端）−（新区間の下端）・・・（８）（ｃ）復号化の基本手順式（９）〜（１４）を満足するような記号を探す。

【００２０】

【数９】（記号区間の下端）＜（符号の値−旧区間の下端）／旧区間の幅＜（記号区間の上端）・・・（９）

【００２１】

【数１０】（新区間の下端）＝（旧区間の下端）＋（記号区間の下端） × （旧区間の幅）・・・（１０）

【００２２】

【数１１】（新区間の上端）＝（旧区間の下端）＋（記号区間の上端） × （旧区間の幅）・・・（１１）

【００２３】

【数１２】（新区間の幅）＝（旧区間の幅） × （記号の確率）・・・（１２）

【００２４】

【数１３】（旧区間の幅）＝（旧区間の上端） − （旧区間の下端）・・・（１３）

【００２５】

【数１４】（新区間の幅）＝（新区間の上端） − （新区間の下端）・・・（１４）以上、１記号ごとの生起確率を動的に可変長符号化・復
号化する場合を説明した。（２）統計モデル化（ａ）基本的な考え情報源の生起確率を扱うために、情報源のモデル化が必
要になる。前記（１）節（「算術符号化の基本手順」）
は、データ中の各記号が、互いに独立に生起する場合
（記憶のない情報源）に当たる。しかし、例えば文書デ
ータを取ってみても、一般に記号である各文字は独立で
はなく、常に直前の記号列に依存することが分かる（記
憶のある情報源）。

【００２６】そこで、直前のｍ記号のみに依存する文脈
モデルを考える。文脈ｍの長さが長い程、実際のデータ
の記号のつながり具合を条件付確率によってより正確に
表現できる。即ち、データ中の規則性（冗長性に対応す
る）がより正確に表現できるわけである。以降では、文
脈の長さ“ｍ”を「次数」と呼び、直前１記号、直前２
記号までの統計モデルを１次モデル、２次モデルという
ように呼ぶ。

【００２７】条件付確率を動的可変長符号化する方法
は、図６に示すように、２段階から成る。先ず、入力デ
ータから記号列の前後関係の文脈を収集して条件付確率
を求め、次に動的可変長符号化する。データの確率統計
的な性質を用いるため、確率統計型符号化（statistica
l coding）と呼ばれる。記号列の前後関係は、図７に示
すように木構造で表される。各節点の記号を通る記号列
が出る毎に出現回数を計数しておくことによって、条件
付確率が求められる（図７下部参照）。

【００２８】

【数１５】（条件付確率）＝注目文脈（節点の出現頻度）／（同じ親を持つ子の節点の総出現頻度）・・・（１５）条件付確率を求める文脈収集の仕方には、以下の２つの
方法がある。

【００２９】固定次数の文脈条件付確率の条件を固定の記号数にする方法である。例
えば、２次の文脈では、直前２記号につながる記号の文
脈を収集し、条件付確率 p(y|x1,x2) を符号化する。た
だし、y は注目符号化記号、x1,x2 は、直前の第１記
号、第２記号とする。

【００３０】次数の混合(blending)文脈一般に、高次の記号を使う程、記号間の相関が大きいデ
ータでは、高圧縮率が得られるが、逆に高次文脈を使う
程、相関が小さくなるデータでは、かえって圧縮率が悪
くなる。

【００３１】そこで、以下の次数の混合(blending)文脈
を考える。過去の入力データに基づき、文脈“aa”，
“a”（それぞれ、２次、１次文脈、図７（ｂ）参照）
が、辞書に登録されているとする。ここで、直前の記号
列が“aa”であるとして、辞書中の２次文脈“aa”の下
に、今、符号化する記号があるかどうかを見る。無けれ
ば、１次文脈“a” の下を見て、それでも無ければ、０
次文脈の下を見るという風に見つかるまで繰り返す。そ
して、−１次文脈の下には、予め、全ての２５６文字を
登録しておき、上記の探索が−１次で終わるようにす
る。見つかった次数の文脈における同記号の条件付確率
により、前記（１）の手法を符号化するのである。

【００３２】前述したように、符号化する次数が高い
程、条件付確率が実際の生起確率に近づくため、圧縮率
は良くなる。高い次数で符号化できればよいが、そうで
ない場合は、やむなく低い次数で符号化する。その場合
は、圧縮率は低くなる。

【００３３】（ｂ）文脈モデルそこで、情報源の生起確率が直前のｍ記号の記号列（ｍ
次文脈）のみに依存し、その条件付確率で表されるモデ
ルを考える。これをｍ次マルコフモデル、または、ｍ次
文脈モデルという。前記（１）節の例は０次マルコフモ
デルに当たる。各次数の文脈に連なる記号の累積確率
は、それぞれ図５のように数直線の区間に対応づけられ
る。次数が高い程、それに続く記号の確率は全データを
通じての生起確率に近づき、データの平均符号長は、平
均情報量に近づく。

【００３４】（ｃ）混合モデル（ｃ）−１．重みとエスケープ確率前述したように、ある文字が表れた時、複数の次数の文
脈を統一的に扱うモデルとして、混合モデル(blending
model)が考えられている。図７に示すように、新たに表
れる１文字に対して、２次、１次、０次、−１次と各次
数のモデルを考える。これらの複数の文脈モデルを、一
つの確率（符号）空間で統一的に扱う。まず、図８のよ
うに、［０，１）の確率空間（符号空間）を、重み
Ｗ₂，Ｗ₁，Ｗ ₀，Ｗ_-1により分割する。

【００３５】

【数１６】Ｗ₂ ＋Ｗ₁ ＋Ｗ₀ ＋Ｗ_-1 ＝１（Ｗ₂≧０，Ｗ₁≧０，Ｗ₀≧０，Ｗ_-1≧０）・・・（１６）そして、２次、１次、０次、−１次のモデルによる出現
確率の数直線を、それぞれ対応する重みの領域に配置す
る。つまり、ｍ次のモデルによる出現確率の数直線は、
単独では長さ１だが、混合モデル上では、長さＷ_m とな
る。各次数の重みＷ_m は、以下のように、エスケープ確
率（e₂等で示される）の積で表すことができる。

【００３６】

【数１７】Ｗ₂ = １ - e₂ ・・・（１７）

【００３７】

【数１８】Ｗ₁ = e₂(1-e₁) ・・・（１８）

【００３８】

【数１９】Ｗ₀ = e₂・e₁(1-e₀) ・・・（１９）

【００３９】

【数２０】Ｗ_-1 = e₂・e₁・e₀ ・・・（２０）ｍ次のエスケープ確率は、ｍ次モデルで、ある記号を符
号化しようとしたが、その記号が未登録なため、（ｍ−
１）次モデルに脱出(escape)せざるを得なくなる確率を
意味する。図９のようにエスケープ確率のみから成る数
直線において、［1 - e_m，1）（幅e_m）は記号が見つか
らない場合に相当し、［0，1 - e_m）（幅1 - e_m）は記
号が見つかった場合に相当する。重みの意味を式（１
７）〜（２０）に即して説明すると以下のようになる。
例えば、Ｗ₀ は、２次、１次共、符号化しようとした記
号が、それらの文脈モデルに見つからず、０次モデルで
初めて見つかる確率を意味する。

【００４０】（ｃ）−２．エスケープ確率の設定エスケープ確率の割り当て方は幾つかの方法があるが、
ＰＰＭＣ法では、ｍ次のエスケープ確率は、以下のよう
に設定される。

【００４１】

【数２１】 e_m = q_n / (C_m + q_n) ・・・（２１） q_nはｍ次文脈に連なる記号の種類の数であり、C_mは同文
脈に連なる記号の出現頻度の総和である。同文脈が登録
のみで１度も使われない時、q_n＝C_mとなり、エスケープ
確率は１／２となる。２度以上使われると、q_n＜C_mとな
るエスケープ確率は１／２より小さくなる。即ち、使っ
たことがない文脈は確率１／２だが、使われる程、確か
な文脈となって、珍しいとされる確率が下がることを意
味している。図１０は、ＰＰＭＣ法におけるエスケープ
確率が、式（２１）の形から常に１／２以下になること
を示す。

【００４２】（ｃ）−３．重みの大きさ重みについて調べてみると、図１１のようになる。同図
では、各々１／２以下になるエスケープ確率により、生
成される重みが、

【００４３】

【数２２】Ｗ₂ ≧ Ｗ₁ ≧ Ｗ₀ ≧ Ｗ_-1 ・・・（２２）の関係になることを示す。つまり、最大次数である。２
次で重みが最大となり、最小次数である−１次で、重み
は最小となる。重みの出力ビット数は、これの２を底と
した対数の−１倍になるから、

【００４４】

【数２３】 -logＷ₂ ≦ -logＷ₁ ≦ -logＷ₀ ≦ -logＷ_-1 ・・・（２３）という関係になる。（３）処理内容（ａ）ＰＰＭＣ法の符号化この符号化の処理の流れを図１２に示す。まず、文脈辞
書の初期化を行う（ステップ１２０１）。そして、記号
k を入力したら（ステップ１２０２）、ステップ１２０
３でこの記号が連なるｎ次の文脈C_nを見いだし、そこで
の条件付確率の累積値により、算術符号化を行う。次
に、記号k がＥＯＦ(=End Of File)と等しいか否かを判
別する（ステップ１２０４）。ステップ１２０４で等し
いと判断されたら、ＥＯＦ符号語を符号化して（ステッ
プ１２０６）終了する。一方、ステップ１２０４で等し
くないと判断されたら、記号k の符号語を出力し（ステ
ップ１２０５）、ステップ１２０７で辞書中の文脈モデ
ルC_nに関する累積頻度の内容を更新する。ステップ１２
０３の内容を具体的に述べたのが、図１３である。

【００４５】図１３の処理内容を説明する。符号化を開
始する次数をｓとする。ここでは、ｓ＝３とする。３次
モデルから符号化を始めた場合（ステップ１３０１）、
そこで記号が見つかれば、まず、（1 - e₃）の確率の区
間を、記号の確率と同様に上式によりかける（ステップ
１３０３）（図１２参照）。

【００４６】そして、その記号の順位を算出した後（ス
テップ１３０５）の確率の区間をかけて符号化する（ス
テップ１３０６）。見つからなければ、e₃の確率の区間
をかけ（ステップ１３０４）、次に２次モデルで同様の
処理を行う。

【００４７】つまり、同モデルで記号が見つかれば、
（1 - e₂）をかけ（ステップ１３０３）、その記号の確
率の区間をかけ（ステップ１３０６）、見つからなけれ
ばe₂をかけて（ステップ１３０４）、１次モデルに移
る。この作業を記号が見つかるまで最低限−１次まで行
う。−１次では、e(-1)は０である。つまり、２５６通
りのすべての記号が、−１次には予め登録されているた
め、同次数より下がることはないのである。

【００４８】図１２に戻り、ステップ１２０４〜１２０
６では、記号の符号、ＥＯＦ（EndOf File）符号語の符
号を出力する。ステップ１２０７の文脈モデルの更新(u
pdate)において、記号の見つかった次数モデルC_n (m=n)
では、その記号の出現頻度を１だけ増やす。そして、同
じｎ次の文脈に続く記号の間で、出現頻度が大小順にな
るように並べ替える。これは、同モデルの累積頻度を更
新する上で、文脈に連なる各記号を線形探索する計算量
が、半分以下になるという利点がある。それ以上の次数
（m = n + 1,,s-1,s) の文脈では、記号k を新たに出現
頻度１として登録する。

【００４９】（ｂ）ＰＰＭＣ法の復号化ＰＰＭＣ法の復号化の処理の流れを図１４に示す。符号
を入力した（ステップ１４０２）後、ステップ１４０３
ではエスケープ符号により指定されたｎ次の文脈におい
て、そこでの条件付確率の累積値により復号化を行う。
その後、ステップ１４０６で辞書中のｎ次文脈モデルに
関する累積頻度の内容を更新する。処理ステップ１４０
３の内容を具体的に示したのが図１５である。

【００５０】図１５の処理内容を説明する。３次モデル
から符号化を始めた場合（s=3，ステップ１５０１）を
考える。３次で符号化できたかどうかは、図９のよう
に、その次数のエスケープ符号が［０，1 - e₃）、［1
- e₃，1）のいずれに属するかを判断する（ステップ１
５０２）。

【００５１】後者、即ち（1 - e₃）ならば、３次で符号
化できた場合に相当するから、ステップ１５０３に進
み、３次の文脈での累積確率において、該当する出現確
率の順位j を復号化する。そして、ステップ１５０４で
順位j に相当する記号を出力する。

【００５２】また、ステップ１５０２においてエスケー
プ符号がe₃の場合、この次数では符号化ができなかった
ことを示すから、次数を１下げて、２次でのエスケープ
符号を図９のように調べる。こうして、（1 - e_n）(m=
n) が検出されるまで繰り返す。

【００５３】

【発明が解決しようとする課題】前述したように、ＰＰ
ＭＣ法では、低い次数の文脈になる程、重みが小さく、
その出力ビット数が多いということになる。しかし、圧
縮しにくいファイルでは、長い文脈が繰り返し現れるこ
とは少なくなり、初めて現れる３次文脈等では、０次、
１次で符号化されることが多い。そして、それらの低次
文脈では、重みが小さく、従って長い符号を割り当てる
ことになり、圧縮率を悪化させる。

【００５４】このような問題が生じるのは、重みを設定
する式（１７）〜（２１）が、その文脈毎に決まる各次
数の生起確率に基づいていないことにある。２次の文脈
ａａがあった時、２次、１次、０次、−１次の各次数で
符号化される確率をそれぞれp₂，p₁，p₀，p_-1とする。
この時、重みの平均符号長は、以下のように与えられ
る。

【００５５】

【数２４】（重みの平均ビット数）＝ p₂(-log Ｗ₂)＋p₁(-log Ｗ₁)＋p₀(-log Ｗ₀) ＋p_-1(-log Ｗ_-1) ・・・（２４）一方、シャノンの情報源符号化定理によると、平均符号
長の下限は、式（２５）の平均情報量で与えられる。

【００５６】

【数２５】（平均情報量）＝ p₂(-log p₂)＋p₁(-log p₁)＋p₀(-log p₀)＋p_-1(-log p_-1) ・・・（２５）つまり、重み（Ｗ₂，Ｗ₁，Ｗ₀，Ｗ_-1）が、生起確率
(p₂,p₁,p₀,p_-1) に十分近づけば、重みの平均符号長
は、十分、平均符号長に近づく。逆に、上記のＰＰＭＣ
法では、各次数の重みは、生起確率と必ずしも大小関係
が一致しないために、圧縮率が悪化したと言える。

【００５７】生起確率と重みが一致しない例を考える。
例えば、図１６のように３次文脈“abc”、“dbc”、２
次文脈“bc”、１次文脈“c”等がトライ構造として実
現されている。それぞれの文脈における、エスケープ確
率、重みも示されている。節点１における文脈“abc”
で文字h を符号化しようとすると、１次文脈“c” （節
点４）で初めて符号化できることが分かる。つまり、各
次数の中で１次が最も生起確率が高くなる可能性があ
る。

【００５８】一方、重みの方は、式（２２）、（２３）
のように、低い次数程、値が小さくなる。これは、ＰＰ
ＭＣ法のエスケープ確率がC_m、q_mのようにその次数ｍの
文脈に連なる複数の子の頻度総和、記号の種類の数とい
った、平均的性質に基づいているためである。出発する
文脈（ここでは３次文脈“abc” ）により、符号化すべ
き記号も違ってくるはずである。３次で符号化できず、
２次文脈“bc”で符号化しようとすると、その文脈“b
c”には、他の３次文脈“dbc”に連なっていた記号も連
なっている。ＰＰＭＣ法のエスケープ確率は、複数の３
次文脈に起源を持つ２次文脈“bc”の平均的性質のみを
見て、その起源を無視している。あくまで、今、符号化
する記号は、本来、特定の文脈に連なる、特殊な記号で
あることを忘れずに、より低い次数の文脈の生起確率、
重み等も考える必要がある。

【００５９】本発明は、このような事情に鑑みてなされ
たもので、低次の符号化を多く使用し高次の相関が弱い
データに対しても、圧縮率を改善することが可能な、多
値算術符号化によるデータ圧縮・復元方法を提供するこ
とを課題とする。

【００６０】

【課題を解決するための手段】＜共通概念＞本発明は、第１から第２６までのデータ圧
縮・復元方法の手段により前述した課題を解決するが、
それらの方法は、ある文脈（例えば３次文脈“abc”）
から符号化を始めた時、どの次数の文脈で符号化できる
かという生起確率(p₃,p₂,p₁,p₀,p_-1)を推定し、これを
重み（Ｗ₃，Ｗ₂，Ｗ₁，Ｗ₀，Ｗ_-1）とする方法を共通概
念とする。

【００６１】図１７のように、登録した各文脈毎に、複
数の次数モデルの出現頻度を数える計数処理が設けられ
る。例えば、“abc” という３次の文脈が登録された場
合に、“abc”（３次）、“bc”（２次）、“c”（１
次）、（０次）、（−１次）等の登録した３次の文脈か
ら、記号の次数を１つづつ下げた文脈（副文脈）のため
の計数処理が行われる。そして、３次文脈“abc”から
出発して、符号化しようとする文字が例えば１次文脈
“c”で見つかった時、１次文脈の欄において、出現頻
度が「１」だけ加算される。このことにより、３次文脈
“abc”から出発した場合の各次数の出現頻度の分布が
得られる。図１７で、副文脈“bc”、“c”における計
数値は、あくまで、この場合の最大次数の文脈である
“abc”から符号化を始めた時の計数値に限る。つま
り、他の、例えば“dbc”から符号化を始めた時の、副
文脈“bc”、“c”における計数値は含まない。

【００６２】図１８は、各文脈毎に設けられた計数処理
を示す。２次文脈“bc”での計数処理の内容は、２つの
３次文脈である“abc”、“dbc”の計数処理の内容が反
映される。即ち、いずれも仮に最初の文字“a”、“d”
を飛び越して、２次文脈“bc”から符号化を始めた場合
の計数値となる。言い換えると、３次の欄を空白とし
て、２次以下の欄の計数値をそれぞれ足した値となる。
即ち、図１７において、各次数の欄の計数値をＯＣ_m(m=
-1,,3)とする。ｍ次における重みＷ_mは、式（２６）で
算出される。

【００６３】

【数２６】Ｗ_m＝ＯＣ_m／（ＯＣ_-1＋ＯＣ₀＋ＯＣ₁＋ＯＣ₂＋ＯＣ₃）・・・（２６）＜本発明の第１のデータ圧縮・復元方法＞本発明の第１
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている（請求項１に対応）。図
１は、本発明の原理図である。

【００６４】即ち、直前までに出現した１記号以上の記
号列である文脈に基づいて、注目記号の条件付確率を多
値算術符号化するデータ圧縮・復元方法において、符号
化を開始する文脈を基に、各文脈の次数が現れる確率を
算出することを含む。＜本発明の第２のデータ圧縮・復元方法＞本発明の第２
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている（請求項２に対応）。図
２は、本発明の原理図である。

【００６５】即ち、直前までに出現した１記号以上の記
号列である文脈に基づいて、注目記号の条件付確率を多
値算術復号化するデータ圧縮・復元方法において、復号
化を開始する文脈を基に、各文脈の次数が現れる確率を
算出することを含む。＜本発明の第３のデータ圧縮・復元方法＞本発明の第３
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている（請求項３に対応）。図
３は、本発明の原理図である。

【００６６】即ち、直前までに出現した１記号以上の記
号列である文脈を利用して多値算術符号化するデータ圧
縮・復元方法において、１）各文脈毎に次数の種類だけ
出現頻度を記録する手段を設けること、２）処理対象文
脈から記号の次数を１つずつ下げた文脈である副文脈に
おいて、符号化する文字がいずれの次数の副文脈で見つ
かったかを前記出現頻度として計数すること、３）前記
文脈が入力データとして再び現れた場合に、記録された
各次数の計数値を元に前記副文脈の重みを算出するこ
と、を含む。＜本発明の第４のデータ圧縮・復元方法＞本発明の第４
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている（請求項４に対応）。図
４は、本発明の原理図である。

【００６７】即ち、直前までに出現した１記号以上の記
号列である文脈を利用して多値算術復号化するデータ圧
縮・復元方法において、１）各文脈毎に次数の種類だけ
出現頻度を記録する手段を設けること、２）処理対象文
脈から記号の次数を１つずつ下げた文脈である副文脈に
おいて、復号化する文字がいずれの次数の副文脈で見つ
かったかを前記出現頻度として計数すること、３）前記
文脈が入力データとして再び現れた場合に、記録された
各次数の計数値を元に前記副文脈の重みを算出するこ
と、を含む。＜本発明の第５のデータ圧縮・復元方法＞本発明の第５
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている（請求項５に対応）。

【００６８】即ち、第１又は第３のデータ圧縮・復元方
法において、処理対象記号がどの次数で符号化されたか
という出現頻度を、各文脈毎に独立に集計し、文脈特有
の重みを計算する。＜本発明の第６のデータ圧縮・復元方法＞本発明の第６
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている（請求項６に対応）。

【００６９】即ち、第２又は第４のデータ圧縮・復元方
法において、処理対象記号がどの次数で復号化されたか
という出現頻度を、各文脈毎に独立に集計し、文脈特有
の重みを計算する。＜本発明の第７のデータ圧縮・復元方法＞本発明の第７
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている（請求項７に対応）。

【００７０】即ち、第１又は第３のデータ圧縮・復元方
法において、処理対象記号がどの次数で符号化されたか
という出現頻度を、条件毎に各文脈を通じて集計し、こ
の集計された値により、前記処理対象記号に対する文脈
の重みを計算する。＜本発明の第８のデータ圧縮・復元方法＞本発明の第８
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている（請求項８に対応）。

【００７１】即ち、第２又は第４のデータ圧縮・復元方
法において、処理対象記号がどの次数で復号化されたか
という出現頻度を、条件毎に各文脈を通じて集計し、こ
の集計された値により、前記処理対象記号に対する文脈
の重みを計算する。＜本発明の第９のデータ圧縮・復元方法＞本発明の第９
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている（請求項９に対応）。

【００７２】即ち、第１又は第３のデータ圧縮・復元方
法において、処理対象記号がどの次数で符号化されたか
という出現頻度を、前記処理対象記号より直前に出現し
た文字がどの次数で符号化されたかにより分類集計し、
この集計された値により、前記処理対象記号に対する文
脈の重みを計算する。＜本発明の第１０のデータ圧縮・復元方法＞本発明の第
１０のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている（請求項１０に対
応）。

【００７３】即ち、第２又は第４のデータ圧縮・復元方
法において、処理対象記号がどの次数で復号化されたか
という出現頻度を、前記処理対象記号より直前に出現し
た文字がどの次数で符号化されたかにより分類集計し、
この集計された値により、前記処理対象記号に対する文
脈の重みを計算する。＜本発明の第１１のデータ圧縮・復元方法＞本発明の第
１１のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている（請求項１１に対
応）。

【００７４】即ち、第１又は第３のデータ圧縮・復元方
法において、処理対象記号がどの次数で符号化されたか
という出現頻度を、前記処理対象文脈が使用された回数
により分類集計し、この集計された値により、前記処理
対象記号に対する文脈の重みを計算する。＜本発明の第１２のデータ圧縮・復元方法＞本発明の第
１２のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている（請求項１２に対
応）。

【００７５】即ち、第２又は第４のデータ圧縮・復元方
法において、処理対象記号がどの次数で復号化されたか
という出現頻度を、前記処理対象文脈が使用された回数
により分類集計し、この集計された値により、前記処理
対象記号に対する文脈の重みを計算する。＜本発明の第１３のデータ圧縮・復元方法＞本発明の第
１３のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている（請求項１３に対
応）。

【００７６】即ち、第１又は第３のデータ圧縮・復元方
法において、処理対象記号がどの次数で符号化されたか
という出現頻度を、複数の次数の前記処理対象文脈の中
で子を持つ最大の次数により分類集計し、この集計され
た値により、前記処理対象記号に対する文脈の重みを計
算する。＜本発明の第１４のデータ圧縮・復元方法＞本発明の第
１４のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている（請求項１４に対
応）。

【００７７】即ち、第２又は第４のデータ圧縮・復元方
法において、処理対象記号がどの次数で復号化されたか
という出現頻度を、複数の次数の前記処理対象文脈の中
で子を持つ最大の次数により分類集計し、この集計され
た値により、前記処理対象記号に対する文脈の重みを計
算する。＜本発明の第１５のデータ圧縮・復元方法＞本発明の第
１５のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている（請求項１５に対
応）。

【００７８】即ち、第１又は第３のデータ圧縮・復元方
法において、符号化を開始する次数であって計数に利用
する文脈の次数を、子を持つ文脈の次数とする。＜本発明の第１６のデータ圧縮・復元方法＞本発明の第
１６のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている（請求項１６に対
応）。

【００７９】即ち、第２又は第４のデータ圧縮・復元方
法において、復号化を開始する次数であって計数に利用
する文脈の次数を、子を持つ文脈の次数とする。＜本発明の第１７のデータ圧縮・復元方法＞本発明の第
１７のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている（請求項１７に対
応）。

【００８０】即ち、第１又は第３のデータ圧縮・復元方
法において、符号化を開始する次数であって計数に利用
する文脈の次数を、常に一定値とする。＜本発明の第１８のデータ圧縮・復元方法＞本発明の第
１８のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている（請求項１８に対
応）。

【００８１】即ち、第２又は第４のデータ圧縮・復元方
法において、符号化を開始する次数であって計数に利用
する文脈の次数を、常に一定値とする。＜本発明の第１９のデータ圧縮・復元方法＞本発明の第
１９のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている（請求項１９に対
応）。

【００８２】即ち、第１又は第３のデータ圧縮・復元方
法において、符号化を開始する次数であって計数に利用
する文脈の次数を、前回符号化が行われた次数に１を加
えた次数とする。＜本発明の第２０のデータ圧縮・復元方法＞本発明の第
２０のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている（請求項２０に対
応）。

【００８３】即ち、第２又は第４のデータ圧縮・復元方
法において、復号化を開始する次数であって計数に利用
する文脈の次数を、前回符号化が行われた次数に１を加
えた次数とする。＜本発明の第２１のデータ圧縮・復元方法＞本発明の第
２１のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている（請求項２１に対
応）。

【００８４】即ち、第１から第４のデータ圧縮・復元方
法において、前記処理対象文脈における計数処理の内容
は、前記処理文脈の次数を最大の次数とし、前記処理対
象文脈から次数を１つづつ減らした副文脈の計数値は、
元の最大次数の文脈から符号化を始めた場合に、同じ最
大次数で内容の異なる他の文脈から符号化を始めた時の
計数値を含まないようにする。＜本発明の第２２のデータ圧縮・復元方法＞本発明の第
２２のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている（請求項２２に対
応）。

【００８５】即ち、第１から第４のデータ圧縮・復元方
法において、計数処理の出現頻度の更新は、前記処理対
象文脈及びこの文脈から派生する副文脈における計数処
理にて行う。＜本発明の第２３のデータ圧縮・復元方法＞本発明の第
２３のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている。

【００８６】即ち、第１から第４のデータ圧縮・復元方
法において、計数処理で使用される次数の出現頻度を摘
出する処理と、各次数の出現頻度の総和値を計算する処
理と、次数の出現頻度を出現頻度の総和値で割った値を
重みとして出力する処理とを設ける。

【００８７】

【作用】

＜第１のデータ圧縮・復元方法の作用＞符号化を開始す
る文脈を基に、各文脈の次数が現れる確率が算出され
る。＜第２のデータ圧縮・復元方法の作用＞復号化を開始す
る文脈を基に、各文脈の次数が現れる確率が算出され
る。＜第３のデータ圧縮・復元方法の作用＞まず、各文脈毎
に次数の種類だけ出現頻度が記録される。そして、副文
脈において、符号化する記号がいずれの次数の副文脈で
見つかったかが出現頻度として計数される。さらに、文
脈が入力データとして再び現れた場合に、記録された各
次数の計数値を元に副文脈の重みが算出される。＜第４のデータ圧縮・復元方法の作用＞まず、各文脈毎
に次数の種類だけ出現頻度が記録される。そして、副文
脈において、復号化する記号がいずれの次数の副文脈で
見つかったかが出現頻度として計数される。さらに、文
脈が入力データとして再び現れた場合に、記録された各
次数の計数値を元に副文脈の重みが算出される。＜第５のデータ圧縮・復元方法の作用＞第１又は第３の
データ圧縮・復元方法の作用において、処理対象記号が
どの次数で符号化されたかという出現頻度が、各文脈毎
に独立に集計され、文脈特有の重みが計算される。＜第６のデータ圧縮・復元方法の作用＞第２又は第４の
データ圧縮・復元方法の作用において、処理対象記号が
どの次数で復号化されたかという出現頻度が、各文脈毎
に独立に集計され、文脈特有の重みが計算される。＜第７のデータ圧縮・復元方法の作用＞第１又は第３の
データ圧縮・復元方法の作用において、処理対象記号が
どの次数で符号化されたかという出現頻度が、条件毎に
各文脈を通じて集計され、この集計された値により、処
理対象記号に対する文脈の重みが計算される。＜第８のデータ圧縮・復元方法の作用＞第２又は第４の
データ圧縮・復元方法の作用において、処理対象記号が
どの次数で復号化されたかという出現頻度が、条件毎に
各文脈を通じて集計され、この集計された値により、処
理対象記号に対する文脈の重みが計算される。＜第９のデータ圧縮・復元方法の作用＞第１又は第３の
データ圧縮・復元方法の作用において、処理対象記号が
どの次数で符号化されたかという出現頻度が、処理対象
記号より直前に出現した文字がどの次数で符号化された
かにより分類集計され、この集計された値により、処理
対象記号に対する文脈の重みが計算される。＜第１０のデータ圧縮・復元方法の作用＞第２又は第４
のデータ圧縮・復元方法の作用において、処理対象記号
がどの次数で復号化されたかという出現頻度が、処理対
象記号より直前に出現した文字がどの次数で符号化され
たかにより分類集計され、この集計された値により、処
理対象記号に対する文脈の重みが計算される。＜第１１のデータ圧縮・復元方法の作用＞第１又は第３
のデータ圧縮・復元方法の作用において、処理対象記号
がどの次数で符号化されたかという出現頻度が、処理対
象文脈が使用された回数により分類集計され、この集計
された値により、処理対象記号に対する文脈の重みが計
算される。＜第１２のデータ圧縮・復元方法の作用＞第２又は第４
のデータ圧縮・復元方法の作用において、処理対象記号
がどの次数で復号化されたかという出現頻度が、処理対
象文脈が使用された回数により分類集計され、この集計
された値により、処理対象記号に対する文脈の重みが計
算される。＜第１３のデータ圧縮・復元方法の作用＞第１又は第３
のデータ圧縮・復元方法の作用において、処理対象記号
がどの次数で符号化されたかという出現頻度が、複数の
次数の処理対象文脈の中で子を持つ最大の次数により分
類集計され、この集計された値により、処理対象記号に
対する文脈の重みが計算される。＜第１４のデータ圧縮・復元方法の作用＞第２又は第４
のデータ圧縮・復元方法の作用において、処理対象記号
がどの次数で復号化されたかという出現頻度が、複数の
次数の処理対象文脈の中で子を持つ最大の次数により分
類集計され、この集計された値により、処理対象記号に
対する文脈の重みが計算される。＜第１５のデータ圧縮・復元方法の作用＞第１又は第３
のデータ圧縮・復元方法の作用において、符号化を開始
する次数であって計数に利用する文脈の次数が、子を持
つ文脈の次数とされる。＜第１６のデータ圧縮・復元方法の作用＞第２又は第４
のデータ圧縮・復元方法の作用において、復号化を開始
する次数であって計数に利用する文脈の次数が、子を持
つ文脈の次数とされる。＜第１７のデータ圧縮・復元方法の作用＞第１又は第３
のデータ圧縮・復元方法の作用において、符号化を開始
する次数であって計数に利用する文脈の次数が、常に一
定値とされる。＜第１８のデータ圧縮・復元方法の作用＞第２又は第４
のデータ圧縮・復元方法の作用において、復号化を開始
する次数であって計数に利用する文脈の次数が、常に一
定値とされる。＜第１９のデータ圧縮・復元方法の作用＞第１又は第３
のデータ圧縮・復元方法の作用において、符号化を開始
する次数であって計数に利用する文脈の次数が、前回符
号化が行われた次数に１を加えた次数とされる。＜第２０のデータ圧縮・復元方法の作用＞第２又は第４
のデータ圧縮・復元方法の作用において、復号化を開始
する次数であって計数に利用する文脈の次数が、前回符
号化が行われた次数に１を加えた次数とされる。＜第２１のデータ圧縮・復元方法の作用＞第１から第４
のデータ圧縮・復元方法の作用において、処理対象文脈
における計数処理の内容が、処理文脈の次数を最大の次
数とされ、処理対象文脈から次数を１つづつ減らした副
文脈の計数値は、元の最大次数の文脈から符号化を始め
た場合に、同じ最大次数で内容の異なる他の文脈から符
号化を始めた時の計数値を含まないようにされる。＜第２２のデータ圧縮・復元方法の作用＞第１から第４
のデータ圧縮・復元方法の作用において、計数処理の出
現頻度の更新が、処理対象文脈及びこの文脈から派生す
る副文脈における計数処理にて行われる。＜第２３のデータ圧縮・復元方法の作用＞第１から第４
のデータ圧縮・復元方法の作用において、計数処理で使
用される次数の出現頻度を摘出する処理と、各次数の出
現頻度の総和値を計算する処理と、次数の出現頻度を出
現頻度の総和値で割った値を重みとして出力する処理と
が設けられる。

【００８８】

【実施例】以下、本発明の実施例を図面を参照して説明
する。＜各実施例の概要＞実施例１は、本発明の全体の流れに
関する。

【００８９】実施例２は、計数処理の出現頻度から、重
みを計算する方法に関する。実施例３は、特定文脈での
出現頻度が少ない場合に、重みを計算する方法に関す
る。

【００９０】実施例４〜６は、実施例３の具体例であ
る。実施例７〜９は、符号化、復号化を開始する特定の
文脈を指定する方法に関する。

【００９１】実施例１０は、計数処理における出現頻度
の計数方法に関する。実施例１１は、計数処理における
更新方法に関する。実施例１２は、計数処理の出現頻度
から重みを計算する方法に関する。

【００９２】《実施例１》＜構成＞実施例１の構成を図１９及び図２０に示す。図
１９は、符号化の場合の構成であり、図２０は、復号化
の場合の構成である。

【００９３】まず、符号化の場合、図１９に示すよう
に、文脈辞書１０１、文脈探索手段１０２、頻度計数手
段１０３、累積確率メモリ１０４、記号（次数）順位変
換手段１０５、算術符号手段１０６、次数変更手段１０
７、新規登録手段１０８及び更新手段１０９から構成さ
れている。

【００９４】また、符号化の場合、図２０に示すよう
に、文脈辞書１０１、文脈探索手段１０２、頻度計数手
段１０３、累積確率メモリ１０４、次数変更手段１０
７、新規登録手段１０８、更新手段１０９、順位記号
（次数）変換手段２０１及び算術復号手段２０２から構
成されている。

【００９５】＜処理＞次に、実施例１の処理内容を説明
する。（符号化処理−その１）まず、符号化処理（その１）を
図２１を参照して説明する。同図において、図１２に示
す従来法と異なる部分は、二重線で囲ってある。

【００９６】まず、文脈辞書１０１の初期化を行う（ス
テップ２１０１）。次に、文脈探索手段１０２は、デー
タより記号k を入力する（ステップ２１０２）。

【００９７】次に、算術符号手段１０６は、図８に示す
ような混合モデルの符号空間において、記号k が登録さ
れている次数n の文脈を見い出し、そこの文脈で符号化
する（ステップ２１０３）。

【００９８】次に、算術符号手段１０６は、記号k がＥ
ＯＦ(=End Of File)と等しいか否かを判別する（ステッ
プ２１０４）。ステップ２１０４で、記号k がＥＯＦで
ないと判別された場合、算術符号手段１０６は、ＥＯＦ
符号語を出力して処理を終了する（ステップ２１０
６）。

【００９９】ステップ２１０４で、記号k がＥＯＦであ
ると判別された場合、算術符号手段１０６は、その符号
を出力する（ステップ２１０５）。そして、次数n の文
脈モデルに関する、累積頻度の内容を更新する（ステッ
プ２１０７）。即ち、更新手段１０９は、同次数の文脈
で、記号k の出現頻度を１だけ加算する。これで、同文
脈中でもともと記号k と同じ頻度の文字は、ｋより下位
に属することになる。そして、更新手段１０９は、累積
確率メモリ１０４を利用して、記号k より上位になった
文字について、累積頻度をそれぞれ１だけ加算する。さ
らに、新規登録手段１０８は、ｎ次より高い次数の文脈
(n+1,,s-1,s)では、記号k を出現頻度１として登録す
る。

【０１００】さらに、更新手段１０９は、ｎ次からｓ次
までの記号k に関する文脈で、それぞれの計数手段での
ｎ次の欄を、１だけ加算する（ステップ２１０８）。（符号化処理−その２）図２１のステップ２１０３に相
当する符号化処理を、図２２を参照して説明する。

【０１０１】まず、次数変更手段１０７は、符号化m を
開始する次数をｓ次とする（ステップ２２０１）。次
に、文脈探索手段１０２は、文脈辞書１０１を利用し
て、次数m = s,s-1,,-1の文脈の内で符号化する記号が
登録されている次数(m=n)の文脈を探す（ステップ２２
０２）。

【０１０２】そして、頻度計数手段１０３は、累積確率
メモリに格納された計数値をもとに、ｎ次の重みを算出
する（ステップ２２０３）。そして、算術符号手段１０
６は、ｎ次の重みを符号化し、出力する（ステップ２２
０４）。

【０１０３】そして、記号（次数）順位変換手段１０５
は、ｎ次の文脈における記号k の順位j を算出する（ス
テップ２２０５）。そして、算術符号手段１０６は、順
位j の確率を符号化する（ステップ２２０６）。

【０１０４】（復号化処理−その１）次に、復号化処理
（その１）を図２３を参照して説明する。同図におい
て、図１４に示す従来法と異なる部分は、二重線で囲っ
てある。

【０１０５】まず、文脈辞書１０１を初期化する（ステ
ップ２３０１）。次に、算術復号化手段２０２は、デー
タより符号を入力する（ステップ２３０２）。

【０１０６】次に、算術復号化手段２０２は、重みの符
号から、符号化された次数n を算出し、復号化結果の内
の直前ｎ文字からなる文脈で記号k を復号化する（ステ
ップ２３０３）。

【０１０７】そして、算術復号化手段２０２は、記号k
がＥＯＦと等しいか否かを判別する（ステップ２３０
４）。ステップ２３０４で、記号k がＥＯＦであると判
別された場合、算術復号化手段２０２は、処理を終了す
る。

【０１０８】ステップ２３０４で、記号k がＥＯＦでな
いと判別された場合、算術復号化手段２０２は、復元記
号k を出力する（ステップ２３０５）。そして、次数n
の文脈モデルに関する累積頻度の内容を更新する（ステ
ップ２３０６）。即ち、更新手段１０９は、同次数の文
脈で、記号k の出現頻度を１だけ加算する。これで、同
文脈中でもともと記号k と同じ頻度の文字は、k より下
位に属することになる。そして、更新手段１０９は、累
積確率メモリ１０４を利用して、記号k より次数が上
位になった文字について、累積頻度をそれぞれ１だけ加
算する。さらに、新規登録手段１０８は、ｎ次より高い
次数の文脈(n+1,,s-1,s)では、記号k を出現頻度１とし
て、登録する。

【０１０９】さらに、更新手段１０９は、ｎ次からｓ次
までの記号k に関する文脈で、それぞれの計数手段での
ｎ次の欄を１だけ加算する（ステップ２３０７）。（復号化処理−その２）図２３のステップ２３０３に相
当する復号化処理を、図２４を参照して説明する。

【０１１０】まず、頻度計数手段１０３は、符号化を開
始する次数をs 次に設定する（ステップ２４０１）。次
に、算術復号化手段２０２は、頻度計数手段１０３から
算出された重みの累積頻度と、入力された重みの符号と
を比較し、符号化された次数n を復号化する（ステップ
２４０２）。

【０１１１】そして、算術復号化手段２０２は、次数n
の文脈において、順位の累積頻度と入力された順位の符
号とを比較し、符号化された順位j を復号化する（ステ
ップ２４０３）。

【０１１２】そして、順位記号次数変換手段２０１は、
順位j から記号k に変換し出力する（ステップ２４０
４）。《実施例２》実施例２は、文脈、副文脈特有の出現頻度
（各文脈毎の計数手段に蓄積される。図１８参照。）に
より、重みを計算する例であり、構成等は実施例１と共
通するので、以下実施例１と相違する部分についてのみ
説明する。

【０１１３】図２５（１）は、実施例２において文脈の
重みを計算する処理を示している。同図に示すように、
まず、ステップステップ２５０１で、１）文脈“a”で
の−１次の出現頻度を文脈“a”での−１次の計数値
に、２）文脈“a”での０次の出現頻度を文脈“a”での
０次の計数値に、３）文脈“a”での１次の出現頻度を
文脈“a”での１次の計数値に、４）文脈“a”での２次
の出現頻度を文脈“a”での２次の計数値に、５）文脈
“a”での３次の出現頻度を文脈“a”での３次の計数値
に、それぞれ設定する。

【０１１４】そして、ステップ２５０２で、各次数の計
数値により、Ｍ次文脈“a”での重みＷ_m(m=-1,,M)を計
算する。図２５（２）は、実施例２においてモデルを更
新する処理を示している。同図に示すように、まず、ス
テップ２５０３で、文脈“a”で符号化できた次数ｎを
受け取る。

【０１１５】そして、ステップ２５０４で、文脈“a”
等でのｎ次出現頻度に１を加算する。《実施例３》実施例３は、特定文脈での出現頻度が少な
く、生起確率(p₃,p₂,p₁,p₀,p_-1)の推定が難しくなる場
合の対策を行う例であり、構成等は実施例１と共通する
ので、以下実施例１と相違する部分についてのみ説明す
る。

【０１１６】文脈の条件としては、使用回数、生起確率
を上の次数から調べて、初めて０より大になる次数等が
ある。これらを仮に条件ａ，ｂ，ｃ等とし、いずれかを
用いて分類を行う。

【０１１７】実施例３では、現在のＭ次文脈が満たす条
件ｃを調べた上で、過去の文脈で同条件ｃを満たすよう
な文脈の出現頻度の総和を取り、それを元に重みを計算
する。図２６（１）は、実施例３において文脈の重み
を計算する処理を示している。同図に示すように、まず
ステップ２６０１で、文脈“a”が満たす条件を調べ、
条件ｃを満たすと判明する。

【０１１８】そして、ステップ２６０２で、１）文脈
“b”での−１次の出現頻度の総和値を文脈“a”での−
１次の計数値に、２）文脈“b”での０次の出現頻度の
総和値を文脈“a”での０次の計数値に、３）文脈“b”
での１次の出現頻度の総和値を文脈“a”での１次の計
数値に、４）文脈“b”での２次の出現頻度の総和値を
文脈“a”での２次の計数値に、５）文脈“b”での３次
の出現頻度の総和値を文脈“a”での３次の計数値に、
それぞれ設定する。

【０１１９】なお、ここでいう総和とは、過去の文脈で
条件ｃを満たす各文脈“b”の出現頻度の総和である。
そして、ステップ２６０３で、各次数の計数値により、
Ｍ次文脈“a”での重みＷ_m(m=-1,,M)を計算する。

【０１２０】図２６（２）は、実施例３においてモデル
を更新する処理を示している。同図に示すように、ま
ず、ステップ２６０４で、文脈“a”で符号化できた次
数ｎを受け取る。

【０１２１】そして、ステップ２６０５で、文脈“a”
等でのｎ次出現頻度に１を加算する。そして、ステップ
２６０６で、過去の文脈で、条件ｃを満たす各文脈
“b”のｎ次の出現頻度の総和値に対して１を加算す
る。

【０１２２】《実施例４》実施例４は、実施例３の具体
例である、構成等は実施例１と共通するので、以下実施
例１と相違する部分についてのみ説明する。

【０１２３】実施例４では、現在の記号（符号）の直前
の記号（符号）が符号化（復号化）された次数を分類の
条件とする。この分類の条件が有効なのは、一般に、直
前の記号（符号）がｍ次で符号化（復号化）されると、
現在の記号（符号）は、ｍ＋１次以下でしか符号化（復
号化）されないからである。

【０１２４】まず、直前の記号（符号）を符号化（復号
化）する段階から考える。例えば、直前の文字をa とす
ると、ｍ次以下の文脈にのみ記号a があり、ｍ＋１次以
上の文脈には無い。

【０１２５】そして、更新の作業により、ｍ＋１次以上
の文脈にも記号a が登録されるが、a の下にはまだ子が
ない。一方、ｍ次文脈の記号a の下には、子がある可能
性がある。現在の記号（符号）を符号化（復号化）する
段階に入ると、直前の記号（符号）での次数は、全て１
上がる。つまり、この段階では子のありそうな文脈は、
ｍ＋１次以下であり、ｍ＋２以上の文脈にはない。結
局、符号化（復号化）できるのは、ｍ＋１次以下にな
る。

【０１２６】例えば、直前の文字が１次で符号化された
とすると、現在の文字が復号化されえるのは２次以下で
ある。生起確率は、(0,p₂,p₁,p₀,p_-1)となる。現在の文
脈で出現頻度が少なく、生起確率が推定しにくいなら
ば、同じように生起確率p₃=0となる文脈での出現頻度を
足して、推定値とする。

【０１２７】図２７（１）は、実施例４において文脈の
重みを計算する処理を示している。同図に示すように、
まず、ステップ２７０１で、文脈“a”で、直前の文字
を次数ｐで符号化（復号化）する。

【０１２８】そして、ステップ２７０２で、１）文脈
“b”での−１次の出現頻度の総和値を文脈“a”での−
１次の計数値に、２）文脈“b”での０次の出現頻度の
総和値を文脈“a”での０次の計数値に、３）文脈“b”
での１次の出現頻度の総和値を文脈“a”での１次の計
数値に、４）文脈“b”での２次の出現頻度の総和値を
文脈“a”での２次の計数値に、５）文脈“b”での３次
の出現頻度の総和値を文脈“a”での３次の計数値に、
それぞれ設定する。

【０１２９】なお、ここでいう総和とは、過去の文脈
で、直前記号が次数ｐで符号化（復号化）された各文脈
“b”の出現頻度の総和をとることである。そして、ス
テップ２７０３で、各次数の計数値により、Ｍ次文脈
“a”での重みＷ_m(m=-1,,M)を計算する。

【０１３０】図２７（２）は、実施例４においてモデル
を更新する処理を示している。同図に示すように、ま
ず、ステップ２７０４で、文脈“a”で符号化できた次
数ｎを受け取る。

【０１３１】そして、ステップ２７０５で、文脈“a”
等でのｎ次出現頻度に１を加算する。そして、ステップ
２７０６で、過去の文脈で、直前記号が次数ｐで符号化
（復号化）された各文脈“b”のｎ次の出現頻度の総和
値に対して１を加算する。

【０１３２】《実施例５》実施例５は、実施例３の具体
例である、構成等は実施例１と共通するので、以下実施
例１と相違する部分についてのみ説明する。

【０１３３】実施例５では、現在の文脈の使用回数Ｎを
分類の条件とする。例えば、Ｎ＝１、つまり、初めて使
う文脈では、まだ、子が無いため、−１、０次等の低い
次数で符号化（復号化）される可能性が高い。このよう
な例のものを集計すると、０次を極大とする分布にな
る。一方、Ｎ＞１では、文脈に子が付くため、高い次数
で符号化（復号化）される可能性が強くなる。

【０１３４】図２８（１）は、実施例５において文脈の
重みを計算する処理を示している。同図に示すように、
まず、ステップ２８０１で、文脈“a”の使用回数を調
査し、Ｎ回と判明する。

【０１３５】そして、ステップ２８０２で、１）文脈
“b”での−１次の出現頻度の総和値を文脈“a”での−
１次の計数値に、２）文脈“b”での０次の出現頻度の
総和値を文脈“a”での０次の計数値に、３）文脈“b”
での１次の出現頻度の総和値を文脈“a”での１次の計
数値に、４）文脈“b”での２次の出現頻度の総和値を
文脈“a”での２次の計数値に、５）文脈“b”での３次
の出現頻度の総和値を文脈“a”での３次の計数値に、
それぞれ設定する。

【０１３６】なお、ここでいう総和とは、過去の文脈で
使用回数がＮ回となる各文脈“b”の出現頻度の総和を
とることをいう。そして、ステップ２８０３で、各次数
の計数値により、Ｍ次文脈“a”での重みＷ_m(m=-1,,M)
を計算する。

【０１３７】図２８（２）は、実施例５においてモデル
を更新する処理を示している。同図に示すように、ま
ず、ステップ２８０４で、文脈“a”で符号化できた次
数ｎを受け取る。

【０１３８】そして、ステップ２８０５で、文脈“a”
等でのｎ次出現頻度に１を加算する。そして、ステップ
２８０６で、過去の文脈で、使用回数がＮ回となる各文
脈“b”のｎ次の出現頻度の総和値に対して１を加算す
る。

【０１３９】《実施例６》実施例６は、実施例３の具体
例である、構成等は実施例１と共通するので、以下実施
例１と相違する部分についてのみ説明する。

【０１４０】実施例６では、現在の文脈の副文脈の内で
子を持つ最大の次数を、分類の条件とする。実施例４に
おいて、直前の記号（符号）が符号化（復号化）された
次数がｍ次とすると、現在の文脈で子を持つのは、ｍ＋
１次以下であると述べた。一般に、子を持つ次数をc と
すると、c≦m+1となる。符号化（復号化）を開始した次
数がs 次であっても、実際に子を持つ副文脈はc 次にな
る（c≦m+1≦s）。

【０１４１】図１８で、３次文脈abc に子が無く、２次
文脈bcにあった場合、abc に対する副文脈bcにおける、
計数手段の内容を用いた方がよい。効果は、実施例４と
同様だが、生起確率による分類は、より正確となる。

【０１４２】図２９（１）は、実施例６において文脈の
重みを計算する処理を示している。同図に示すように、
まず、ステップ２９０１で、文脈“a”で、子を持つ副
文脈の最大次数をｃ次とする。

【０１４３】そして、ステップ２９０２で、１）文脈
“b”での−１次の出現頻度の総和値を文脈“a”での−
１次の計数値に、２）文脈“b”での０次の出現頻度の
総和値を文脈“a”での０次の計数値に、３）文脈“b”
での１次の出現頻度の総和値を文脈“a”での１次の計
数値に、４）文脈“b”での２次の出現頻度の総和値を
文脈“a”での２次の計数値に、５）文脈“b”での３次
の出現頻度の総和値を文脈“a”での３次の計数値に、
それぞれ設定する。

【０１４４】なお、ここでいう総和とは、過去の文脈で
子を持つ最大次数がｃ次となる各文脈“b”の出現頻度
の総和をとったものである。そして、ステップ２９０３
で、各次数の計数値により、Ｍ次文脈“a”での重みＷ_m
(m=-1,,M)を計算する。

【０１４５】図２９（２）は、実施例６においてモデル
を更新する処理を示している。同図に示すように、ま
ず、ステップ２９０４で、文脈“a”で符号化できた次
数ｎを受け取る。

【０１４６】そして、ステップ２９０５で、文脈“a”
等でのｎ次出現頻度に１を加算する。そして、ステップ
２９０６で、過去の文脈で、子を持つ副文脈の最大次数
がｃ次となる各文脈“b”のｎ次の出現頻度の総和値に
対して１を加算する。

【０１４７】《実施例７》実施例７は、符号化（復号
化）を開始する次数を、子を持つ文脈の次数c とする例
であり、構成等は実施例１と共通するので、以下実施例
１と相違する部分についてのみ説明する。

【０１４８】実施例７では、例えば、文脈として許され
る次数が最大３次であっても、３次文脈に子が無く、１
次まで下がらないと子が無いとする。当然ながら、３次
文脈の計数手段は、すべて出現頻度０である。逆に、１
次文脈の計数手段には、１次以下の出現頻度が記録され
ている。これを、生起確率(0,0,p₁,p₀,p_-1) の推定値と
する。

【０１４９】図３０は、実施例７の処理を示している。
まず、ステップ３００１で、文脈“a”で、子を持つ副
文脈の最大次数をｃ次とする。

【０１５０】そして、ステップ３００２で、開始次数ｓ
をｃに設定する。《実施例８》実施例８は、符号化（復号化）を開始する
次数を、常に一定値c とする例であり、構成等は実施例
１と共通するので、以下実施例１と相違する部分につい
てのみ説明する。

【０１５１】実施例８では、一定値c が、子を持つ文脈
の次数c2より大きい場合、前者はまだ子が無く、初めて
使う文脈となる。従って、同文脈の計数手段も、出現頻
度は０である。このような場合は、実施例３を適用する
とよい。処理が簡単で済むという利点がある。

【０１５２】図３１は、実施例８の処理を示している。
まず、ステップ３１０１で、一定値ｃを入力する。そし
て、ステップ３１０２で、開始次数ｓをｃに設定する。

【０１５３】《実施例９》実施例９は、符号化（復号
化）を開始する次数を、前回、符号化（復号化）が行わ
れた次数c に１を足した数とする例であり、構成等は実
施例１と共通するので、以下実施例１と相違する部分に
ついてのみ説明する。

【０１５４】実施例９では、子を持つ次数は、（（前
回、符号化（復号化）が行われた次数c ）＋１）以下と
なる。図３２は、実施例９の処理を示している。

【０１５５】まず、ステップ３２０１で、文脈“a”
で、直前の文字を次数ｃで符号化（復号化）する。そし
て、ステップ３２０２で、開始次数ｓを（ｃ＋１）に設
定する。

【０１５６】実施例９は、実施例７と同様な効果を有
し、前回の次数を利用するため、実施例８のように、子
を持つ次数を探す場合よりも処理が簡単になる。《実施例１０》実施例１０は、構成等は実施例１と共通
するので、以下実施例１と相違する部分についてのみ説
明する。

【０１５７】実施例１０において、ある計数手段に計数
される出現頻度は、同手段における最大次数の文脈を出
発点にした場合、どこの次数で符号化（復号化）される
かを示す。そして、同じ最大次数の他の文脈から出発し
た場合は含まない。これにより、生起確率(p₃,p₂,p₁,
p₀,p_-1) を推定する上での基礎データを得る。

【０１５８】《実施例１１》実施例１１は、計数手段の
更新に関する例であり、構成等は実施例１と共通するの
で、以下実施例１と相違する部分についてのみ説明す
る。

【０１５９】実施例１１では、文脈として許される最大
次数から実際に符号化（復号化）できた次数までの各文
脈での計数手段において、実際に符号化（復号化）でき
た次数の欄に出現頻度を１加算する。これは、例えば、
実施例７、９のように、任意の次数の文脈の計数手段を
利用する場合に役立つ。

【０１６０】図３３は、実施例１１の処理を示してい
る。まず、ステップ２１０１で、次数ｄを決定する。そ
して、ステップ２１０２で、ｄ≧ｅか否かを判断する。

【０１６１】ステップ２１０２で、「ｄ＜ｅ」と判断さ
れた場合には、処理を終了する。ステップ２１０２で、
「ｄ≧ｅ」と判断された場合には、次数ｄの文脈“a”
における計数手段で、同文脈を出発点にして、実際に符
号化（復号化）できた次数ｅの欄で、出現頻度に１を加
算する（ステップ２１０３）。

【０１６２】そして、ステップ２１０４で、ｄを１減じ
る。このステップ２１０２に戻る。《実施例１２》実施例１２は、計数手段の計数値から、
重みを計算する例であり、構成等は実施例１と共通する
ので、以下実施例１と相違する部分についてのみ説明す
る。

【０１６３】実施例１２では、重みを式（２６）に基づ
いて計算する。確率を推定する方法としては、ベイズ統
計等があるが、本実施例は、同手法によらない最も単純
な例である。

【０１６４】図３４は、実施例１２の処理を示してい
る。まず、ステップ３４０１で、ある次数の計数値を分
子とする。そして、ステップ３４０２で、計数値の総和
を分母とする。

【０１６５】そして、ある次数の計数値を計数値の総和
で割った値をある次数の重みとする（ステップ３４０
３）。

【０１６６】

【発明の効果】従来のＰＰＭＣ法では、データの高次の
相関が強いことを前提にして、エスケープ符号の確率を
計算で求めていた。これに対して、本発明のデータ圧縮
・復元方法では、ある文脈から符号化を始めた時に、ど
の次数の文脈で符号・復号化できるかという生起確率を
推定し、それを重みとすることにより、低次を多く使用
し高次の相関が弱いデータに対しても、圧縮率が改善さ
れるという効果がある。

【図面の簡単な説明】

【図１】本発明のデータ圧縮・復元方法の第１原理図で
ある。

【図２】本発明のデータ圧縮・復元方法の第２原理図で
ある。

【図３】本発明のデータ圧縮・復元方法の第３原理図で
ある。

【図４】本発明のデータ圧縮・復元方法の第４原理図で
ある。

【図５】算術符号の原理を示す図である。

【図６】確率統計型符号化の原理を示す図である。

【図７】文脈の木の登録例（２次Blendingの場合）を示
す図である。

【図８】混合モデルの符号空間の内容を示す図である。

【図９】エスケープ符号の確率を示す図である。

【図１０】エスケープ確率(=q_m/(C_m+q_m))が常に１／２
以下になる理由(m=2,1,0,-1)を示す図である。

【図１１】符号空間における重み(Ｗ₂ - Ｗ_ー1）の分割
を示す図である。

【図１２】ＰＰＭＣ法による符号化を示す図（その１）
である。

【図１３】ＰＰＭＣ法による符号化を示す図（その２）
である。

【図１４】ＰＰＭＣ法による復号化を示す図（その１）
である。

【図１５】ＰＰＭＣ法による復号化を示す図（その２）
である。

【図１６】従来方式の問題点を示す図である。

【図１７】次数、文脈及び出現頻度の対応関係を示す図
である。

【図１８】各節点毎の計数処理を示す図である。

【図１９】符号化に関する実施例の構成図である。

【図２０】復号化に関する実施例の構成図である。

【図２１】符号化に関する本発明の全体の流れを示す図
である。

【図２２】本発明による符号化を示す図である。

【図２３】復号化に関する本発明の全体の流れを示す図
である。

【図２４】本発明による復号化を示す図である。

【図２５】各文脈毎の出現頻度により、重みを計算する
方法を示す図である。

【図２６】条件を満たす各文脈の出現頻度の総和を取る
ことにより、同条件下の文脈の重みを計算する方法を示
す図である。

【図２７】直前の記号が符号化された次数毎に、各文脈
の出現頻度の総和を取ることにより、文脈の重みを計算
する方法を示す図である。

【図２８】使用回数がＮ回となる文脈毎に、出現頻度の
総和を取ることにより、文脈の重みを計算する方法を示
す図である。

【図２９】子を持つ最大の次数毎に、各文脈の出現頻度
の総和をとることにより、文脈の重みを計算する方法を
示す図である。

【図３０】符号化（復号化）を開始する次数を、子を持
つ文脈の次数とする方法を示す図である。

【図３１】符号化（復号化）を開始する次数を、常に一
定値とする方法を示す図である。

【図３２】符号化（復号化）を開始する次数を、前回、
符号化（復号化）が行われた次数に１を足した数とする
方法を示す図である。

【図３３】計数手段の更新方法を示す図である。

【図３４】重みを算出する方法を示す図である。

【符号の説明】

１０１文脈辞書１０２文脈探索手段１０３頻度計数手段１０４累積確率メモリ１０５記号（次数）順位変換手段１０６算術符号手段１０７次数変更手段１０８新規登録手段１０９更新手段２０１順位記号次数変換手段２０２算術復号化手段

Claims

【特許請求の範囲】

【請求項１】直前までに出現した１記号以上の記号列で
ある文脈に基づいて、注目記号の条件付確率を多値算術
符号化するデータ圧縮・復元方法において、符号化を開始する文脈を基に、各文脈の次数が現れる確
率を算出することを含むことを特徴とするデータ圧縮・
復元方法。
【請求項２】直前までに出現した１記号以上の記号列で
ある文脈に基づいて、注目記号の条件付確率を多値算術
復号化するデータ圧縮・復元方法において、復号化を開始する文脈を基に、各文脈の次数が現れる確
率を算出することを含むことを特徴とするデータ圧縮・
復元方法。
【請求項３】直前までに出現した１記号以上の記号列で
ある文脈を利用して多値算術符号化するデータ圧縮・復
元方法において、各文脈毎に次数の種類だけ出現頻度を記録し、処理対象文脈から記号の次数を１つずつ下げた文脈であ
る副文脈において、符号化する文字がいずれの次数の副
文脈で見つかったかを前記出現頻度として計数し、前記文脈が入力データとして再び現れた場合に、記録さ
れた各次数の計数値を元に前記副文脈の重みを算出する
ことを含むことを特徴とするデータ圧縮・復元方法。
【請求項４】直前までに出現した１記号以上の記号列で
ある文脈を利用して多値算術復号化するデータ圧縮・復
元方法において、各文脈毎に次数の種類だけ出現頻度を記録し、処理対象文脈から記号の次数を１つずつ下げた文脈であ
る副文脈において、復号化する文字がいずれの次数の副
文脈で見つかったかを前記出現頻度として計数し、前記文脈が入力データとして再び現れた場合に、記録さ
れた各次数の計数値を元に前記副文脈の重みを算出する
ことを含むことを特徴とするデータ圧縮・復元方法。
【請求項５】請求項１又は３において、処理対象記号が
どの次数で符号化されたかという出現頻度を、各文脈毎
に独立に集計し、文脈特有の重みを計算することを特徴
とするデータ圧縮・復元方法。
【請求項６】請求項２又は４において、処理対象記号が
どの次数で復号化されたかという出現頻度を、各文脈毎
に独立に集計し、文脈特有の重みを計算することを特徴
とするデータ圧縮・復元方法。
【請求項７】請求項１又は３において、処理対象記号が
どの次数で符号化されたかという出現頻度を、条件毎に
各文脈を通じて集計し、この集計された値により、前記
処理対象記号に対する文脈の重みを計算することを特徴
とするデータ圧縮・復元方法。
【請求項８】請求項２又は４において、処理対象記号が
どの次数で復号化されたかという出現頻度を、条件毎に
各文脈を通じて集計し、この集計された値により、前記
処理対象記号に対する文脈の重みを計算することを特徴
とするデータ圧縮・復元方法。
【請求項９】請求項１又は３において、処理対象記号が
どの次数で符号化されたかという出現頻度を、前記処理
対象記号より直前に出現した文字がどの次数で符号化さ
れたかにより分類集計し、この集計された値により、前
記処理対象記号に対する文脈の重みを計算することを特
徴とするデータ圧縮・復元方法。
【請求項１０】請求項２又は４において、処理対象記号
がどの次数で復号化されたかという出現頻度を、前記処
理対象記号より直前に出現した文字がどの次数で符号化
されたかにより分類集計し、この集計された値により、
前記処理対象記号に対する文脈の重みを計算することを
特徴とするデータ圧縮・復元方法。
【請求項１１】請求項１又は３において、処理対象記号
がどの次数で符号化されたかという出現頻度を、前記処
理対象文脈が使用された回数により分類集計し、この集
計された値により、前記処理対象記号に対する文脈の重
みを計算することを特徴とするデータ圧縮・復元方法。
【請求項１２】請求項２又は４において、処理対象記号
がどの次数で復号化されたかという出現頻度を、前記処
理対象文脈が使用された回数により分類集計し、この集
計された値により、前記処理対象記号に対する文脈の重
みを計算することを特徴とするデータ圧縮・復元方法。
【請求項１３】請求項１又は３において、処理対象記号
がどの次数で符号化されたかという出現頻度を、複数の
次数の前記処理対象文脈の中で子を持つ最大の次数によ
り分類集計し、この集計された値により、前記処理対象
記号に対する文脈の重みを計算することを特徴とするデ
ータ圧縮・復元方法。
【請求項１４】請求項２又は４において、処理対象記号
がどの次数で復号化されたかという出現頻度を、複数の
次数の前記処理対象文脈の中で子を持つ最大の次数によ
り分類集計し、この集計された値により、前記処理対象
記号に対する文脈の重みを計算することを特徴とするデ
ータ圧縮・復元方法。
【請求項１５】請求項１又は３において、符号化を開始
する次数であって計数に利用する文脈の次数を、子を持
つ文脈の次数とすることを特徴とするデータ圧縮・復元
方法。
【請求項１６】請求項２又は４において、復号化を開始
する次数であって計数に利用する文脈の次数を、子を持
つ文脈の次数とすることを特徴とするデータ圧縮・復元
方法。
【請求項１７】請求項１又は３において、符号化を開始
する次数であって計数に利用する文脈の次数を、常に一
定値とすることを特徴とするデータ圧縮・復元方法。
【請求項１８】請求項２又は４において、符号化を開始
する次数であって計数に利用する文脈の次数を、常に一
定値とすることを特徴とするデータ圧縮・復元方法。
【請求項１９】請求項１又は３において、符号化を開始
する次数であって計数に利用する文脈の次数を、前回符
号化が行われた次数に１を加えた次数とすることを特徴
とするデータ圧縮・復元方法。
【請求項２０】請求項２又は４において、復号化を開始
する次数であって計数に利用する文脈の次数を、前回符
号化が行われた次数に１を加えた次数とすることを特徴
とするデータ圧縮・復元方法。
【請求項２１】請求項１から４において、前記処理対象
文脈における計数処理の内容は、前記処理文脈の次数を
最大の次数とし、前記処理対象文脈から次数を１つづつ
減らした副文脈の計数値は、元の最大次数の文脈から符
号化を始めた場合に、同じ最大次数で内容の異なる他の
文脈から符号化を始めた時の計数値を含まないことを特
徴とするデータ圧縮・復元方法。
【請求項２２】請求項１から４において、計数処理の出
現頻度の更新は、前記処理対象文脈及びこの文脈から派
生する副文脈における計数処理にて行うことを特徴とす
るデータ圧縮・復元方法。
【請求項２３】請求項１から４において、計数処理で使
用される次数の出現頻度を摘出する処理と、各次数の出
現頻度の総和値を計算する処理と、次数の出現頻度を出
現頻度の総和値で割った値を重みとして出力する処理と
を設けたことを特徴とするデータ圧縮・復元方法。