JPH08167853A - データ圧縮・復元方法 - Google Patents

データ圧縮・復元方法

Info

Publication number
JPH08167853A
JPH08167853A JP30866394A JP30866394A JPH08167853A JP H08167853 A JPH08167853 A JP H08167853A JP 30866394 A JP30866394 A JP 30866394A JP 30866394 A JP30866394 A JP 30866394A JP H08167853 A JPH08167853 A JP H08167853A
Authority
JP
Japan
Prior art keywords
context
degree
order
symbol
data compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP30866394A
Other languages
English (en)
Inventor
Hironori Yahagi
裕紀 矢作
Shigeru Yoshida
茂 吉田
Yoshiyuki Okada
佳之 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP30866394A priority Critical patent/JPH08167853A/ja
Publication of JPH08167853A publication Critical patent/JPH08167853A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 低次の符号化を多く使用し、高次の相関が弱
いデータに対しても、圧縮率を改善することが可能な、
多値算術符号化によるデータ圧縮・復元方法を提供する
ことを目的とする。 【構成】 直前までに出現した1字以上の文字列である
文脈が符号化したものに基づいて、注目文字の条件付確
率を多値算術符号化するデータ圧縮・復元方法におい
て、符号化を開始する文脈を基に、各文脈の次数が現れ
る確率を算出することを含むように構成した。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データ圧縮・復元方法
に関し、特に多値算術符号化を用いるデータ圧縮・復元
法に関する。
【0002】
【従来の技術】近年、文字コード、ベクトル情報、画像
など様々な種類のデータがコンピュータで扱われるよう
になっており、扱われるデータ量も急速に増加してきて
いる。大量のデータを扱うときは、データの中の冗長な
部分を省いてデータ量を圧縮することで、記憶容量を減
らしたり、早く伝送したりできるようになる。様々なデ
ータを1つの方式でデータ圧縮する方法として、ユニバ
ーサル符号化が提案されている。
【0003】しかしながら、ユニバーサル符号化による
データ圧縮方法の圧縮率は、プログラムや文書データを
対象とした場合に、平均1/2から1/3程度である。
このように、データ圧縮に関しては、まだ改善の余地が
多いのが現状である。
【0004】ここで、本明細書では、情報理論で用いら
れている呼称を踏襲し、データの1ワード単位を記号(S
ymbol)と呼び、データが任意ワードつながったものを記
号列と呼ぶことにする。
【0005】まず、バイト単位のファイル圧縮に用いる
ユニバーサル符号の代表的な方法として、算術符号化が
ある。算術符号化には、2値算術符号化と3値以上の多
値算術符号化とがある。多値算術符号化の中でも、マル
コフモデルを利用したPPMC(PPM:Prediction O
f Partial Match,C:Method C)が、最も優れた圧縮率が
得られる方式である(Bell,T.C.,Cleary,J.G.,and Witt
en,I.H."Text Compression"(1990),Prentice Hall.)。
【0006】PPMC法は、入力文字の出現確率を求
める統計モデル化と、求めた出現確率を可変長符号化
する算術符号化の、2つのステップから成るが、(1)
算術符号化の基本手順、(2)統計モデル化及び(3)
処理内容に分けて説明する。 (1)算術符号化の基本手順 (a)基本的な考え 表1及び図5に多値算術符号化の原理図を示す。多値算
術符号化では、0≦P<1(以下、[0,1)と記述す
る)の数直線を出現した記号の事象の数で分割し、数直
線上での記号の幅(区間)を出現頻度に比例させる。例
えば、図5の例では、“a”、“e”、“i”、
“o”、“u”及び“!”の6つの記号の出現頻度に従
って、数直線[0,1)を6分割し、各記号の幅をその
記号の出現頻度に比例させている。
【0007】そして、最初に出現した記号(図5では、
“e”)の区間を選択し、次に選択した区間を更に
[0,1)の時と同様に全記号で分割する。更に、分割
した区間について、第2に出現した記号(図5では、
“a”)の区間を選択する。以後、同様に全入力データ
(図5では、順に“i”、“i”、“!”)について処
理を繰り返すことで、符号化する記号列の区間を決定す
ることができる。
【0008】
【表1】 各文字の確率分布 Symbol Probability Range a 0.2 [0, 0.2) e 0.3 [0.2, 0.5) i 0.1 [0.5, 0.6) o 0.2 [0.6, 0.8) u 0.1 [0.8, 0.9) ! 0.1 [0.9, 1.0) 圧縮符号としては、最終的に定まった記号列の区間内の
任意の点を、2進表示で出力する。出現頻度に応じた区
間の分割方法としては、記号列の実際の出現頻度によら
ず、予め設定した出現頻度に従って分割する静的符号化
方式(static)、最初に全記号列を走査して得た出現頻
度で分割する準適応型符号化方式(semi-adaptive)、
記号が出現する毎に頻度を再計算し、1記号毎に区間を
再設定する適応型符号化方式(adaptive)がある。本発
明は、データ形式に依存せず、1パスで符号化が行える
適応型圧縮方式(adaptive)にかかるものである。本発
明は、データ形式に依存せず、1パスで符号化が行える
適応型圧縮方式(adaptive)にかかるものである。
【0009】これで、高圧縮率を達成できる理由を以下
に述べる。N個の記号の符号長は、多値算術符号化で
は、以下のように与えられる。
【0010】
【数1】 (N個の記号の符号長)= (最終的に定まった記号列の区間内における、 任意の点を2進表示するビット数) = -log2N i=1p(記号i)) = -ΣN i=1log2p(記号i) = -Σn i=1p(ai)log2p(ai)×N ・・・(1)
【0011】
【数2】 (N記号での平均符号長)= (N個の記号の符号長)/N = -Σn i=1p(ai)log2p(ai) ・・・(2) 但し、ai,a2,,anは、それぞれ情報源の記号の種類。
【0012】また、上記の各記号の生起確率は、入力さ
れたN記号の範囲で得られた確率である。そして、情報
源からの、各記号の全データを通じての生起確率をp0(a
i),p0(a2),p0(an)とすると、シャノンの情報源符号化定
理より、平均符号長の下限は、以下の平均情報量で与え
られる。
【0013】
【数3】 (平均符号長>≧(平均情報量) = -Σn i=1p0(ai)log2p0(ai) ・・・(3) 記号数Nが大きくなるにつれ、生起確率(p(ai),p(a2),,
p(an))は、全データを通じての値である(p0(ai),p
0(a2),,p0(an))に近づく。よって、平均符号長も平均情
報量に近づき、高圧縮率が得られることになる。
【0014】(b)符号化の基本手順 多値算術符号では、図5に示すように、各記号の出現確
率(和は1)の累積値を取って、数直線[0,1)を分
割する。次に、記号が1個入力される毎に、以下の規則
で数直線の区間を細分する。全記号を入力した後に最終
区間を符号として出力する。表1の Range(区間)の欄
は、各記号の累積確率の欄は、各記号の累積確率の区間
を表す。例えば、文字 “e”の累積確率の区間は[0.
2,0.5)であり、上端は0.5、下端は0.2、区間
の幅は両者の差をとって0.3(記号 “e”の単独の確
率)となる。そして、ある記号までに分割した区間を旧
区間とし、次の記号により分割した区間を新区間とする
と、以下のようになる。
【0015】
【数4】 (新区間の下端)=(旧区間の下端)+(記号区間の下端)×(旧区間の幅) ・・・(4)
【0016】
【数5】 (新区間の上端)=(旧区間の下端)+(記号区間の上端)×(旧区間の幅) ・・・(5)
【0017】
【数6】 (新区間の幅) =(旧区間の幅)×(記号の確率) ・・・(6)
【0018】
【数7】 (旧区間の幅) =(旧区間の上端)−(旧区間の下端) ・・・(7)
【0019】
【数8】 (新区間の幅) =(新区間の上端)−(新区間の下端) ・・・(8) (c)復号化の基本手順 式(9)〜(14)を満足するような記号を探す。
【0020】
【数9】 (記号区間の下端) < (符号の値−旧区間の下端)/旧区間の幅 < ( 記号区間の上端) ・・・(9)
【0021】
【数10】 (新区間の下端) = (旧区間の下端) + (記号区間の下端) × ( 旧区間の幅) ・・・(10)
【0022】
【数11】 (新区間の上端) = (旧区間の下端) + (記号区間の上端) × ( 旧区間の幅) ・・・(11)
【0023】
【数12】 (新区間の幅) = (旧区間の幅) × (記号の確率) ・・・(12)
【0024】
【数13】 (旧区間の幅) = (旧区間の上端) − (旧区間の下端) ・・・(13)
【0025】
【数14】 (新区間の幅) = (新区間の上端) − (新区間の下端) ・・・(14) 以上、1記号ごとの生起確率を動的に可変長符号化・復
号化する場合を説明した。 (2)統計モデル化 (a)基本的な考え 情報源の生起確率を扱うために、情報源のモデル化が必
要になる。前記(1)節(「算術符号化の基本手順」)
は、データ中の各記号が、互いに独立に生起する場合
(記憶のない情報源)に当たる。しかし、例えば文書デ
ータを取ってみても、一般に記号である各文字は独立で
はなく、常に直前の記号列に依存することが分かる(記
憶のある情報源)。
【0026】そこで、直前のm記号のみに依存する文脈
モデルを考える。文脈mの長さが長い程、実際のデータ
の記号のつながり具合を条件付確率によってより正確に
表現できる。即ち、データ中の規則性(冗長性に対応す
る)がより正確に表現できるわけである。以降では、文
脈の長さ“m”を「次数」と呼び、直前1記号、直前2
記号までの統計モデルを1次モデル、2次モデルという
ように呼ぶ。
【0027】条件付確率を動的可変長符号化する方法
は、図6に示すように、2段階から成る。先ず、入力デ
ータから記号列の前後関係の文脈を収集して条件付確率
を求め、次に動的可変長符号化する。データの確率統計
的な性質を用いるため、確率統計型符号化(statistica
l coding)と呼ばれる。記号列の前後関係は、図7に示
すように木構造で表される。各節点の記号を通る記号列
が出る毎に出現回数を計数しておくことによって、条件
付確率が求められる(図7下部参照)。
【0028】
【数15】 (条件付確率) = 注目文脈(節点の出現頻度)/(同じ親を持つ子の節点 の総出現頻度) ・・・(15) 条件付確率を求める文脈収集の仕方には、以下の2つの
方法がある。
【0029】固定次数の文脈 条件付確率の条件を固定の記号数にする方法である。例
えば、2次の文脈では、直前2記号につながる記号の文
脈を収集し、条件付確率 p(y|x1,x2) を符号化する。た
だし、y は注目符号化記号、x1,x2 は、直前の第1記
号、第2記号とする。
【0030】次数の混合(blending)文脈 一般に、高次の記号を使う程、記号間の相関が大きいデ
ータでは、高圧縮率が得られるが、逆に高次文脈を使う
程、相関が小さくなるデータでは、かえって圧縮率が悪
くなる。
【0031】そこで、以下の次数の混合(blending)文脈
を考える。過去の入力データに基づき、文脈“aa”,
“a”(それぞれ、2次、1次文脈、図7(b)参照)
が、辞書に登録されているとする。ここで、直前の記号
列が“aa”であるとして、辞書中の2次文脈“aa”の下
に、今、符号化する記号があるかどうかを見る。無けれ
ば、1次文脈“a” の下を見て、それでも無ければ、0
次文脈の下を見るという風に見つかるまで繰り返す。そ
して、−1次文脈の下には、予め、全ての256文字を
登録しておき、上記の探索が−1次で終わるようにす
る。見つかった次数の文脈における同記号の条件付確率
により、前記(1)の手法を符号化するのである。
【0032】前述したように、符号化する次数が高い
程、条件付確率が実際の生起確率に近づくため、圧縮率
は良くなる。高い次数で符号化できればよいが、そうで
ない場合は、やむなく低い次数で符号化する。その場合
は、圧縮率は低くなる。
【0033】(b)文脈モデル そこで、情報源の生起確率が直前のm記号の記号列(m
次文脈)のみに依存し、その条件付確率で表されるモデ
ルを考える。これをm次マルコフモデル、または、m次
文脈モデルという。前記(1)節の例は0次マルコフモ
デルに当たる。各次数の文脈に連なる記号の累積確率
は、それぞれ図5のように数直線の区間に対応づけられ
る。次数が高い程、それに続く記号の確率は全データを
通じての生起確率に近づき、データの平均符号長は、平
均情報量に近づく。
【0034】(c)混合モデル (c)−1.重みとエスケープ確率 前述したように、ある文字が表れた時、複数の次数の文
脈を統一的に扱うモデルとして、混合モデル(blending
model)が考えられている。図7に示すように、新たに表
れる1文字に対して、2次、1次、0次、−1次と各次
数のモデルを考える。これらの複数の文脈モデルを、一
つの確率(符号)空間で統一的に扱う。まず、図8のよ
うに、[0,1)の確率空間(符号空間)を、重み
2,W1,W 0,W-1により分割する。
【0035】
【数16】 W2 + W1 + W0 + W-1 = 1 (W2≧0,W1≧0,W0≧0,W-1≧0) ・・・(16) そして、2次、1次、0次、−1次のモデルによる出現
確率の数直線を、それぞれ対応する重みの領域に配置す
る。つまり、m次のモデルによる出現確率の数直線は、
単独では長さ1だが、混合モデル上では、長さWm とな
る。各次数の重みWm は、以下のように、エスケープ確
率(e2等で示される)の積で表すことができる。
【0036】
【数17】 W2 = 1 - e2 ・・・(17)
【0037】
【数18】 W1 = e2(1-e1) ・・・(18)
【0038】
【数19】 W0 = e2・e1(1-e0) ・・・(19)
【0039】
【数20】 W-1 = e2・e1・e0 ・・・(20) m次のエスケープ確率は、m次モデルで、ある記号を符
号化しようとしたが、その記号が未登録なため、(m−
1)次モデルに脱出(escape)せざるを得なくなる確率を
意味する。図9のようにエスケープ確率のみから成る数
直線において、[1 - em,1)(幅em)は記号が見つか
らない場合に相当し、[0,1 - em)(幅1 - em)は記
号が見つかった場合に相当する。重みの意味を式(1
7)〜(20)に即して説明すると以下のようになる。
例えば、W0 は、2次、1次共、符号化しようとした記
号が、それらの文脈モデルに見つからず、0次モデルで
初めて見つかる確率を意味する。
【0040】(c)−2.エスケープ確率の設定 エスケープ確率の割り当て方は幾つかの方法があるが、
PPMC法では、m次のエスケープ確率は、以下のよう
に設定される。
【0041】
【数21】 em = qn / (Cm + qn) ・・・(21) qnはm次文脈に連なる記号の種類の数であり、Cmは同文
脈に連なる記号の出現頻度の総和である。同文脈が登録
のみで1度も使われない時、qn=Cmとなり、エスケープ
確率は1/2となる。2度以上使われると、qn<Cmとな
るエスケープ確率は1/2より小さくなる。即ち、使っ
たことがない文脈は確率1/2だが、使われる程、確か
な文脈となって、珍しいとされる確率が下がることを意
味している。図10は、PPMC法におけるエスケープ
確率が、式(21)の形から常に1/2以下になること
を示す。
【0042】(c)−3.重みの大きさ 重みについて調べてみると、図11のようになる。同図
では、各々1/2以下になるエスケープ確率により、生
成される重みが、
【0043】
【数22】 W2 ≧ W1 ≧ W0 ≧ W-1 ・・・(22) の関係になることを示す。つまり、最大次数である。2
次で重みが最大となり、最小次数である−1次で、重み
は最小となる。重みの出力ビット数は、これの2を底と
した対数の−1倍になるから、
【0044】
【数23】 -logW2 ≦ -logW1 ≦ -logW0 ≦ -logW-1 ・・・(23) という関係になる。 (3)処理内容 (a)PPMC法の符号化 この符号化の処理の流れを図12に示す。まず、文脈辞
書の初期化を行う(ステップ1201)。そして、記号
k を入力したら(ステップ1202)、ステップ120
3でこの記号が連なるn次の文脈Cnを見いだし、そこで
の条件付確率の累積値により、算術符号化を行う。次
に、記号k がEOF(=End Of File)と等しいか否かを判
別する(ステップ1204)。ステップ1204で等し
いと判断されたら、EOF符号語を符号化して(ステッ
プ1206)終了する。一方、ステップ1204で等し
くないと判断されたら、記号k の符号語を出力し(ステ
ップ1205)、ステップ1207で辞書中の文脈モデ
ルCnに関する累積頻度の内容を更新する。ステップ12
03の内容を具体的に述べたのが、図13である。
【0045】図13の処理内容を説明する。符号化を開
始する次数をsとする。ここでは、s=3とする。3次
モデルから符号化を始めた場合(ステップ1301)、
そこで記号が見つかれば、まず、(1 - e3)の確率の区
間を、記号の確率と同様に上式によりかける(ステップ
1303)(図12参照)。
【0046】そして、その記号の順位を算出した後(ス
テップ1305)の確率の区間をかけて符号化する(ス
テップ1306)。見つからなければ、e3の確率の区間
をかけ(ステップ1304)、次に2次モデルで同様の
処理を行う。
【0047】つまり、同モデルで記号が見つかれば、
(1 - e2)をかけ(ステップ1303)、その記号の確
率の区間をかけ(ステップ1306)、見つからなけれ
ばe2をかけて(ステップ1304)、1次モデルに移
る。この作業を記号が見つかるまで最低限−1次まで行
う。−1次では、e(-1)は 0である。つまり、256通
りのすべての記号が、−1次には予め登録されているた
め、同次数より下がることはないのである。
【0048】図12に戻り、ステップ1204〜120
6では、記号の符号、EOF(EndOf File)符号語の符
号を出力する。ステップ1207の文脈モデルの更新(u
pdate)において、記号の見つかった次数モデルCn (m=n)
では、その記号の出現頻度を1だけ増やす。そして、同
じn次の文脈に続く記号の間で、出現頻度が大小順にな
るように並べ替える。これは、同モデルの累積頻度を更
新する上で、文脈に連なる各記号を線形探索する計算量
が、半分以下になるという利点がある。それ以上の次数
(m = n + 1,,s-1,s) の文脈では、記号k を新たに出現
頻度1として登録する。
【0049】(b)PPMC法の復号化 PPMC法の復号化の処理の流れを図14に示す。符号
を入力した(ステップ1402)後、ステップ1403
ではエスケープ符号により指定されたn次の文脈におい
て、そこでの条件付確率の累積値により復号化を行う。
その後、ステップ1406で辞書中のn次文脈モデルに
関する累積頻度の内容を更新する。処理ステップ140
3の内容を具体的に示したのが図15である。
【0050】図15の処理内容を説明する。3次モデル
から符号化を始めた場合(s=3,ステップ1501)を
考える。3次で符号化できたかどうかは、図9のよう
に、その次数のエスケープ符号が[0,1 - e3)、[1
- e3,1)のいずれに属するかを判断する(ステップ1
502)。
【0051】後者、即ち(1 - e3)ならば、3次で符号
化できた場合に相当するから、ステップ1503に進
み、3次の文脈での累積確率において、該当する出現確
率の順位j を復号化する。そして、ステップ1504で
順位j に相当する記号を出力する。
【0052】また、ステップ1502においてエスケー
プ符号がe3の場合、この次数では符号化ができなかった
ことを示すから、次数を1下げて、2次でのエスケープ
符号を図9のように調べる。こうして、(1 - en)(m=
n) が検出されるまで繰り返す。
【0053】
【発明が解決しようとする課題】前述したように、PP
MC法では、低い次数の文脈になる程、重みが小さく、
その出力ビット数が多いということになる。しかし、圧
縮しにくいファイルでは、長い文脈が繰り返し現れるこ
とは少なくなり、初めて現れる3次文脈等では、0次、
1次で符号化されることが多い。そして、それらの低次
文脈では、重みが小さく、従って長い符号を割り当てる
ことになり、圧縮率を悪化させる。
【0054】このような問題が生じるのは、重みを設定
する式(17)〜(21)が、その文脈毎に決まる各次
数の生起確率に基づいていないことにある。2次の文脈
aaがあった時、2次、1次、0次、−1次の各次数で
符号化される確率をそれぞれp2,p1,p0,p-1とする。
この時、重みの平均符号長は、以下のように与えられ
る。
【0055】
【数24】 (重みの平均ビット数)= p2(-log W2)+p1(-log W1)+p0(-log W0) +p-1(-log W-1) ・・・(24) 一方、シャノンの情報源符号化定理によると、平均符号
長の下限は、式(25)の平均情報量で与えられる。
【0056】
【数25】 (平均情報量)= p2(-log p2)+p1(-log p1)+p0(-log p0)+p-1(-log p-1) ・・・(25) つまり、重み(W2,W1,W0,W-1)が、生起確率
(p2,p1,p0,p-1) に十分近づけば、重みの平均符号長
は、十分、平均符号長に近づく。逆に、上記のPPMC
法では、各次数の重みは、生起確率と必ずしも大小関係
が一致しないために、圧縮率が悪化したと言える。
【0057】生起確率と重みが一致しない例を考える。
例えば、図16のように3次文脈“abc”、“dbc”、2
次文脈“bc”、1次文脈“c”等がトライ構造として実
現されている。それぞれの文脈における、エスケープ確
率、重みも示されている。節点1における文脈“abc”
で文字h を符号化しようとすると、1次文脈“c” (節
点4)で初めて符号化できることが分かる。つまり、各
次数の中で1次が最も生起確率が高くなる可能性があ
る。
【0058】一方、重みの方は、式(22)、(23)
のように、低い次数程、値が小さくなる。これは、PP
MC法のエスケープ確率がCm、qmのようにその次数mの
文脈に連なる複数の子の頻度総和、記号の種類の数とい
った、平均的性質に基づいているためである。出発する
文脈(ここでは3次文脈“abc” )により、符号化すべ
き記号も違ってくるはずである。3次で符号化できず、
2次文脈“bc”で符号化しようとすると、その文脈“b
c”には、他の3次文脈“dbc”に連なっていた記号も連
なっている。PPMC法のエスケープ確率は、複数の3
次文脈に起源を持つ2次文脈“bc”の平均的性質のみを
見て、その起源を無視している。あくまで、今、符号化
する記号は、本来、特定の文脈に連なる、特殊な記号で
あることを忘れずに、より低い次数の文脈の生起確率、
重み等も考える必要がある。
【0059】本発明は、このような事情に鑑みてなされ
たもので、低次の符号化を多く使用し高次の相関が弱い
データに対しても、圧縮率を改善することが可能な、多
値算術符号化によるデータ圧縮・復元方法を提供するこ
とを課題とする。
【0060】
【課題を解決するための手段】 <共通概念>本発明は、第1から第26までのデータ圧
縮・復元方法の手段により前述した課題を解決するが、
それらの方法は、ある文脈(例えば3次文脈“abc”)
から符号化を始めた時、どの次数の文脈で符号化できる
かという生起確率(p3,p2,p1,p0,p-1)を推定し、これを
重み(W3,W2,W1,W0,W-1)とする方法を共通概
念とする。
【0061】図17のように、登録した各文脈毎に、複
数の次数モデルの出現頻度を数える計数処理が設けられ
る。例えば、“abc” という3次の文脈が登録された場
合に、“abc”(3次)、“bc”(2次)、“c”(1
次)、(0次)、(−1次)等の登録した3次の文脈か
ら、記号の次数を1つづつ下げた文脈(副文脈)のため
の計数処理が行われる。そして、3次文脈“abc”から
出発して、符号化しようとする文字が例えば1次文脈
“c”で見つかった時、1次文脈の欄において、出現頻
度が「1」だけ加算される。このことにより、3次文脈
“abc”から出発した場合の各次数の出現頻度の分布が
得られる。図17で、副文脈“bc”、“c”における計
数値は、あくまで、この場合の最大次数の文脈である
“abc”から符号化を始めた時の計数値に限る。つま
り、他の、例えば“dbc”から符号化を始めた時の、副
文脈“bc”、“c”における計数値は含まない。
【0062】図18は、各文脈毎に設けられた計数処理
を示す。2次文脈“bc”での計数処理の内容は、2つの
3次文脈である“abc”、“dbc”の計数処理の内容が反
映される。即ち、いずれも仮に最初の文字“a”、“d”
を飛び越して、2次文脈“bc”から符号化を始めた場合
の計数値となる。言い換えると、3次の欄を空白とし
て、2次以下の欄の計数値をそれぞれ足した値となる。
即ち、図17において、各次数の欄の計数値をOCm(m=
-1,,3)とする。m次における重みWmは、式(26)で
算出される。
【0063】
【数26】 Wm=OCm/(OC-1+OC0+OC1+OC2+OC3) ・・・(26) <本発明の第1のデータ圧縮・復元方法>本発明の第1
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている(請求項1に対応)。図
1は、本発明の原理図である。
【0064】即ち、直前までに出現した1記号以上の記
号列である文脈に基づいて、注目記号の条件付確率を多
値算術符号化するデータ圧縮・復元方法において、符号
化を開始する文脈を基に、各文脈の次数が現れる確率を
算出することを含む。 <本発明の第2のデータ圧縮・復元方法>本発明の第2
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている(請求項2に対応)。図
2は、本発明の原理図である。
【0065】即ち、直前までに出現した1記号以上の記
号列である文脈に基づいて、注目記号の条件付確率を多
値算術復号化するデータ圧縮・復元方法において、復号
化を開始する文脈を基に、各文脈の次数が現れる確率を
算出することを含む。 <本発明の第3のデータ圧縮・復元方法>本発明の第3
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている(請求項3に対応)。図
3は、本発明の原理図である。
【0066】即ち、直前までに出現した1記号以上の記
号列である文脈を利用して多値算術符号化するデータ圧
縮・復元方法において、1)各文脈毎に次数の種類だけ
出現頻度を記録する手段を設けること、2)処理対象文
脈から記号の次数を1つずつ下げた文脈である副文脈に
おいて、符号化する文字がいずれの次数の副文脈で見つ
かったかを前記出現頻度として計数すること、3)前記
文脈が入力データとして再び現れた場合に、記録された
各次数の計数値を元に前記副文脈の重みを算出するこ
と、を含む。 <本発明の第4のデータ圧縮・復元方法>本発明の第4
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている(請求項4に対応)。図
4は、本発明の原理図である。
【0067】即ち、直前までに出現した1記号以上の記
号列である文脈を利用して多値算術復号化するデータ圧
縮・復元方法において、1)各文脈毎に次数の種類だけ
出現頻度を記録する手段を設けること、2)処理対象文
脈から記号の次数を1つずつ下げた文脈である副文脈に
おいて、復号化する文字がいずれの次数の副文脈で見つ
かったかを前記出現頻度として計数すること、3)前記
文脈が入力データとして再び現れた場合に、記録された
各次数の計数値を元に前記副文脈の重みを算出するこ
と、を含む。 <本発明の第5のデータ圧縮・復元方法>本発明の第5
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている(請求項5に対応)。
【0068】即ち、第1又は第3のデータ圧縮・復元方
法において、処理対象記号がどの次数で符号化されたか
という出現頻度を、各文脈毎に独立に集計し、文脈特有
の重みを計算する。 <本発明の第6のデータ圧縮・復元方法>本発明の第6
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている(請求項6に対応)。
【0069】即ち、第2又は第4のデータ圧縮・復元方
法において、処理対象記号がどの次数で復号化されたか
という出現頻度を、各文脈毎に独立に集計し、文脈特有
の重みを計算する。 <本発明の第7のデータ圧縮・復元方法>本発明の第7
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている(請求項7に対応)。
【0070】即ち、第1又は第3のデータ圧縮・復元方
法において、処理対象記号がどの次数で符号化されたか
という出現頻度を、条件毎に各文脈を通じて集計し、こ
の集計された値により、前記処理対象記号に対する文脈
の重みを計算する。 <本発明の第8のデータ圧縮・復元方法>本発明の第8
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている(請求項8に対応)。
【0071】即ち、第2又は第4のデータ圧縮・復元方
法において、処理対象記号がどの次数で復号化されたか
という出現頻度を、条件毎に各文脈を通じて集計し、こ
の集計された値により、前記処理対象記号に対する文脈
の重みを計算する。 <本発明の第9のデータ圧縮・復元方法>本発明の第9
のデータ圧縮・復元方法は、前述した課題を解決するた
め、下記の如く構成されている(請求項9に対応)。
【0072】即ち、第1又は第3のデータ圧縮・復元方
法において、処理対象記号がどの次数で符号化されたか
という出現頻度を、前記処理対象記号より直前に出現し
た文字がどの次数で符号化されたかにより分類集計し、
この集計された値により、前記処理対象記号に対する文
脈の重みを計算する。 <本発明の第10のデータ圧縮・復元方法>本発明の第
10のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている(請求項10に対
応)。
【0073】即ち、第2又は第4のデータ圧縮・復元方
法において、処理対象記号がどの次数で復号化されたか
という出現頻度を、前記処理対象記号より直前に出現し
た文字がどの次数で符号化されたかにより分類集計し、
この集計された値により、前記処理対象記号に対する文
脈の重みを計算する。 <本発明の第11のデータ圧縮・復元方法>本発明の第
11のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている(請求項11に対
応)。
【0074】即ち、第1又は第3のデータ圧縮・復元方
法において、処理対象記号がどの次数で符号化されたか
という出現頻度を、前記処理対象文脈が使用された回数
により分類集計し、この集計された値により、前記処理
対象記号に対する文脈の重みを計算する。 <本発明の第12のデータ圧縮・復元方法>本発明の第
12のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている(請求項12に対
応)。
【0075】即ち、第2又は第4のデータ圧縮・復元方
法において、処理対象記号がどの次数で復号化されたか
という出現頻度を、前記処理対象文脈が使用された回数
により分類集計し、この集計された値により、前記処理
対象記号に対する文脈の重みを計算する。 <本発明の第13のデータ圧縮・復元方法>本発明の第
13のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている(請求項13に対
応)。
【0076】即ち、第1又は第3のデータ圧縮・復元方
法において、処理対象記号がどの次数で符号化されたか
という出現頻度を、複数の次数の前記処理対象文脈の中
で子を持つ最大の次数により分類集計し、この集計され
た値により、前記処理対象記号に対する文脈の重みを計
算する。 <本発明の第14のデータ圧縮・復元方法>本発明の第
14のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている(請求項14に対
応)。
【0077】即ち、第2又は第4のデータ圧縮・復元方
法において、処理対象記号がどの次数で復号化されたか
という出現頻度を、複数の次数の前記処理対象文脈の中
で子を持つ最大の次数により分類集計し、この集計され
た値により、前記処理対象記号に対する文脈の重みを計
算する。 <本発明の第15のデータ圧縮・復元方法>本発明の第
15のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている(請求項15に対
応)。
【0078】即ち、第1又は第3のデータ圧縮・復元方
法において、符号化を開始する次数であって計数に利用
する文脈の次数を、子を持つ文脈の次数とする。 <本発明の第16のデータ圧縮・復元方法>本発明の第
16のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている(請求項16に対
応)。
【0079】即ち、第2又は第4のデータ圧縮・復元方
法において、復号化を開始する次数であって計数に利用
する文脈の次数を、子を持つ文脈の次数とする。 <本発明の第17のデータ圧縮・復元方法>本発明の第
17のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている(請求項17に対
応)。
【0080】即ち、第1又は第3のデータ圧縮・復元方
法において、符号化を開始する次数であって計数に利用
する文脈の次数を、常に一定値とする。 <本発明の第18のデータ圧縮・復元方法>本発明の第
18のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている(請求項18に対
応)。
【0081】即ち、第2又は第4のデータ圧縮・復元方
法において、符号化を開始する次数であって計数に利用
する文脈の次数を、常に一定値とする。 <本発明の第19のデータ圧縮・復元方法>本発明の第
19のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている(請求項19に対
応)。
【0082】即ち、第1又は第3のデータ圧縮・復元方
法において、符号化を開始する次数であって計数に利用
する文脈の次数を、前回符号化が行われた次数に1を加
えた次数とする。 <本発明の第20のデータ圧縮・復元方法>本発明の第
20のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている(請求項20に対
応)。
【0083】即ち、第2又は第4のデータ圧縮・復元方
法において、復号化を開始する次数であって計数に利用
する文脈の次数を、前回符号化が行われた次数に1を加
えた次数とする。 <本発明の第21のデータ圧縮・復元方法>本発明の第
21のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている(請求項21に対
応)。
【0084】即ち、第1から第4のデータ圧縮・復元方
法において、前記処理対象文脈における計数処理の内容
は、前記処理文脈の次数を最大の次数とし、前記処理対
象文脈から次数を1つづつ減らした副文脈の計数値は、
元の最大次数の文脈から符号化を始めた場合に、同じ最
大次数で内容の異なる他の文脈から符号化を始めた時の
計数値を含まないようにする。 <本発明の第22のデータ圧縮・復元方法>本発明の第
22のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている(請求項22に対
応)。
【0085】即ち、第1から第4のデータ圧縮・復元方
法において、計数処理の出現頻度の更新は、前記処理対
象文脈及びこの文脈から派生する副文脈における計数処
理にて行う。 <本発明の第23のデータ圧縮・復元方法>本発明の第
23のデータ圧縮・復元方法は、前述した課題を解決す
るため、下記の如く構成されている。
【0086】即ち、第1から第4のデータ圧縮・復元方
法において、計数処理で使用される次数の出現頻度を摘
出する処理と、各次数の出現頻度の総和値を計算する処
理と、次数の出現頻度を出現頻度の総和値で割った値を
重みとして出力する処理とを設ける。
【0087】
【作用】
<第1のデータ圧縮・復元方法の作用>符号化を開始す
る文脈を基に、各文脈の次数が現れる確率が算出され
る。 <第2のデータ圧縮・復元方法の作用>復号化を開始す
る文脈を基に、各文脈の次数が現れる確率が算出され
る。 <第3のデータ圧縮・復元方法の作用>まず、各文脈毎
に次数の種類だけ出現頻度が記録される。そして、副文
脈において、符号化する記号がいずれの次数の副文脈で
見つかったかが出現頻度として計数される。さらに、文
脈が入力データとして再び現れた場合に、記録された各
次数の計数値を元に副文脈の重みが算出される。 <第4のデータ圧縮・復元方法の作用>まず、各文脈毎
に次数の種類だけ出現頻度が記録される。そして、副文
脈において、復号化する記号がいずれの次数の副文脈で
見つかったかが出現頻度として計数される。さらに、文
脈が入力データとして再び現れた場合に、記録された各
次数の計数値を元に副文脈の重みが算出される。 <第5のデータ圧縮・復元方法の作用>第1又は第3の
データ圧縮・復元方法の作用において、処理対象記号が
どの次数で符号化されたかという出現頻度が、各文脈毎
に独立に集計され、文脈特有の重みが計算される。 <第6のデータ圧縮・復元方法の作用>第2又は第4の
データ圧縮・復元方法の作用において、処理対象記号が
どの次数で復号化されたかという出現頻度が、各文脈毎
に独立に集計され、文脈特有の重みが計算される。 <第7のデータ圧縮・復元方法の作用>第1又は第3の
データ圧縮・復元方法の作用において、処理対象記号が
どの次数で符号化されたかという出現頻度が、条件毎に
各文脈を通じて集計され、この集計された値により、処
理対象記号に対する文脈の重みが計算される。 <第8のデータ圧縮・復元方法の作用>第2又は第4の
データ圧縮・復元方法の作用において、処理対象記号が
どの次数で復号化されたかという出現頻度が、条件毎に
各文脈を通じて集計され、この集計された値により、処
理対象記号に対する文脈の重みが計算される。 <第9のデータ圧縮・復元方法の作用>第1又は第3の
データ圧縮・復元方法の作用において、処理対象記号が
どの次数で符号化されたかという出現頻度が、処理対象
記号より直前に出現した文字がどの次数で符号化された
かにより分類集計され、この集計された値により、処理
対象記号に対する文脈の重みが計算される。 <第10のデータ圧縮・復元方法の作用>第2又は第4
のデータ圧縮・復元方法の作用において、処理対象記号
がどの次数で復号化されたかという出現頻度が、処理対
象記号より直前に出現した文字がどの次数で符号化され
たかにより分類集計され、この集計された値により、処
理対象記号に対する文脈の重みが計算される。 <第11のデータ圧縮・復元方法の作用>第1又は第3
のデータ圧縮・復元方法の作用において、処理対象記号
がどの次数で符号化されたかという出現頻度が、処理対
象文脈が使用された回数により分類集計され、この集計
された値により、処理対象記号に対する文脈の重みが計
算される。 <第12のデータ圧縮・復元方法の作用>第2又は第4
のデータ圧縮・復元方法の作用において、処理対象記号
がどの次数で復号化されたかという出現頻度が、処理対
象文脈が使用された回数により分類集計され、この集計
された値により、処理対象記号に対する文脈の重みが計
算される。 <第13のデータ圧縮・復元方法の作用>第1又は第3
のデータ圧縮・復元方法の作用において、処理対象記号
がどの次数で符号化されたかという出現頻度が、複数の
次数の処理対象文脈の中で子を持つ最大の次数により分
類集計され、この集計された値により、処理対象記号に
対する文脈の重みが計算される。 <第14のデータ圧縮・復元方法の作用>第2又は第4
のデータ圧縮・復元方法の作用において、処理対象記号
がどの次数で復号化されたかという出現頻度が、複数の
次数の処理対象文脈の中で子を持つ最大の次数により分
類集計され、この集計された値により、処理対象記号に
対する文脈の重みが計算される。 <第15のデータ圧縮・復元方法の作用>第1又は第3
のデータ圧縮・復元方法の作用において、符号化を開始
する次数であって計数に利用する文脈の次数が、子を持
つ文脈の次数とされる。 <第16のデータ圧縮・復元方法の作用>第2又は第4
のデータ圧縮・復元方法の作用において、復号化を開始
する次数であって計数に利用する文脈の次数が、子を持
つ文脈の次数とされる。 <第17のデータ圧縮・復元方法の作用>第1又は第3
のデータ圧縮・復元方法の作用において、符号化を開始
する次数であって計数に利用する文脈の次数が、常に一
定値とされる。 <第18のデータ圧縮・復元方法の作用>第2又は第4
のデータ圧縮・復元方法の作用において、復号化を開始
する次数であって計数に利用する文脈の次数が、常に一
定値とされる。 <第19のデータ圧縮・復元方法の作用>第1又は第3
のデータ圧縮・復元方法の作用において、符号化を開始
する次数であって計数に利用する文脈の次数が、前回符
号化が行われた次数に1を加えた次数とされる。 <第20のデータ圧縮・復元方法の作用>第2又は第4
のデータ圧縮・復元方法の作用において、復号化を開始
する次数であって計数に利用する文脈の次数が、前回符
号化が行われた次数に1を加えた次数とされる。 <第21のデータ圧縮・復元方法の作用>第1から第4
のデータ圧縮・復元方法の作用において、処理対象文脈
における計数処理の内容が、処理文脈の次数を最大の次
数とされ、処理対象文脈から次数を1つづつ減らした副
文脈の計数値は、元の最大次数の文脈から符号化を始め
た場合に、同じ最大次数で内容の異なる他の文脈から符
号化を始めた時の計数値を含まないようにされる。 <第22のデータ圧縮・復元方法の作用>第1から第4
のデータ圧縮・復元方法の作用において、計数処理の出
現頻度の更新が、処理対象文脈及びこの文脈から派生す
る副文脈における計数処理にて行われる。 <第23のデータ圧縮・復元方法の作用>第1から第4
のデータ圧縮・復元方法の作用において、計数処理で使
用される次数の出現頻度を摘出する処理と、各次数の出
現頻度の総和値を計算する処理と、次数の出現頻度を出
現頻度の総和値で割った値を重みとして出力する処理と
が設けられる。
【0088】
【実施例】以下、本発明の実施例を図面を参照して説明
する。 <各実施例の概要>実施例1は、本発明の全体の流れに
関する。
【0089】実施例2は、計数処理の出現頻度から、重
みを計算する方法に関する。実施例3は、特定文脈での
出現頻度が少ない場合に、重みを計算する方法に関す
る。
【0090】実施例4〜6は、実施例3の具体例であ
る。実施例7〜9は、符号化、復号化を開始する特定の
文脈を指定する方法に関する。
【0091】実施例10は、計数処理における出現頻度
の計数方法に関する。実施例11は、計数処理における
更新方法に関する。実施例12は、計数処理の出現頻度
から重みを計算する方法に関する。
【0092】《実施例1》 <構成>実施例1の構成を図19及び図20に示す。図
19は、符号化の場合の構成であり、図20は、復号化
の場合の構成である。
【0093】まず、符号化の場合、図19に示すよう
に、文脈辞書101、文脈探索手段102、頻度計数手
段103、累積確率メモリ104、記号(次数)順位変
換手段105、算術符号手段106、次数変更手段10
7、新規登録手段108及び更新手段109から構成さ
れている。
【0094】また、符号化の場合、図20に示すよう
に、文脈辞書101、文脈探索手段102、頻度計数手
段103、累積確率メモリ104、次数変更手段10
7、新規登録手段108、更新手段109、順位記号
(次数)変換手段201及び算術復号手段202から構
成されている。
【0095】<処理>次に、実施例1の処理内容を説明
する。 (符号化処理−その1)まず、符号化処理(その1)を
図21を参照して説明する。同図において、図12に示
す従来法と異なる部分は、二重線で囲ってある。
【0096】まず、文脈辞書101の初期化を行う(ス
テップ2101)。次に、文脈探索手段102は、デー
タより記号k を入力する(ステップ2102)。
【0097】次に、算術符号手段106は、図8に示す
ような混合モデルの符号空間において、記号k が登録さ
れている次数n の文脈を見い出し、そこの文脈で符号化
する(ステップ2103)。
【0098】次に、算術符号手段106は、記号k がE
OF(=End Of File)と等しいか否かを判別する(ステッ
プ2104)。ステップ2104で、記号k がEOFで
ないと判別された場合、算術符号手段106は、EOF
符号語を出力して処理を終了する(ステップ210
6)。
【0099】ステップ2104で、記号k がEOFであ
ると判別された場合、算術符号手段106は、その符号
を出力する(ステップ2105)。そして、次数n の文
脈モデルに関する、累積頻度の内容を更新する(ステッ
プ2107)。即ち、更新手段109は、同次数の文脈
で、記号k の出現頻度を1だけ加算する。これで、同文
脈中でもともと記号k と同じ頻度の文字は、kより下位
に属することになる。そして、更新手段109は、累積
確率メモリ104を利用して、記号k より上位になった
文字について、累積頻度をそれぞれ1だけ加算する。さ
らに、新規登録手段108は、n次より高い次数の文脈
(n+1,,s-1,s)では、記号k を出現頻度1として登録す
る。
【0100】さらに、更新手段109は、n次からs次
までの記号k に関する文脈で、それぞれの計数手段での
n次の欄を、1だけ加算する(ステップ2108)。 (符号化処理−その2)図21のステップ2103に相
当する符号化処理を、図22を参照して説明する。
【0101】まず、次数変更手段107は、符号化m を
開始する次数をs次とする(ステップ2201)。次
に、文脈探索手段102は、文脈辞書101を利用し
て、次数m = s,s-1,,-1の文脈の内で符号化する記号が
登録されている次数(m=n)の文脈を探す(ステップ22
02)。
【0102】そして、頻度計数手段103は、累積確率
メモリに格納された計数値をもとに、n次の重みを算出
する(ステップ2203)。そして、算術符号手段10
6は、n次の重みを符号化し、出力する(ステップ22
04)。
【0103】そして、記号(次数)順位変換手段105
は、n次の文脈における記号k の順位j を算出する(ス
テップ2205)。そして、算術符号手段106は、順
位j の確率を符号化する(ステップ2206)。
【0104】(復号化処理−その1)次に、復号化処理
(その1)を図23を参照して説明する。同図におい
て、図14に示す従来法と異なる部分は、二重線で囲っ
てある。
【0105】まず、文脈辞書101を初期化する(ステ
ップ2301)。次に、算術復号化手段202は、デー
タより符号を入力する(ステップ2302)。
【0106】次に、算術復号化手段202は、重みの符
号から、符号化された次数n を算出し、復号化結果の内
の直前n文字からなる文脈で記号k を復号化する(ステ
ップ2303)。
【0107】そして、算術復号化手段202は、記号k
がEOFと等しいか否かを判別する(ステップ230
4)。ステップ2304で、記号k がEOFであると判
別された場合、算術復号化手段202は、処理を終了す
る。
【0108】ステップ2304で、記号k がEOFでな
いと判別された場合、算術復号化手段202は、復元記
号k を出力する(ステップ2305)。そして、次数n
の文脈モデルに関する累積頻度の内容を更新する(ステ
ップ2306)。即ち、更新手段109は、同次数の文
脈で、記号k の出現頻度を1だけ加算する。これで、同
文脈中でもともと記号k と同じ頻度の文字は、k より下
位に属することになる。そして、更新手段109は、累
積確率メモリ104を利用して、記号k より次数が上
位になった文字について、累積頻度をそれぞれ1だけ加
算する。さらに、新規登録手段108は、n次より高い
次数の文脈(n+1,,s-1,s)では、記号k を出現頻度1とし
て、登録する。
【0109】さらに、更新手段109は、n次からs次
までの記号k に関する文脈で、それぞれの計数手段での
n次の欄を1だけ加算する(ステップ2307)。 (復号化処理−その2)図23のステップ2303に相
当する復号化処理を、図24を参照して説明する。
【0110】まず、頻度計数手段103は、符号化を開
始する次数をs 次に設定する(ステップ2401)。次
に、算術復号化手段202は、頻度計数手段103から
算出された重みの累積頻度と、入力された重みの符号と
を比較し、符号化された次数n を復号化する(ステップ
2402)。
【0111】そして、算術復号化手段202は、次数n
の文脈において、順位の累積頻度と入力された順位の符
号とを比較し、符号化された順位j を復号化する(ステ
ップ2403)。
【0112】そして、順位記号次数変換手段201は、
順位j から記号k に変換し出力する(ステップ240
4)。 《実施例2》実施例2は、文脈、副文脈特有の出現頻度
(各文脈毎の計数手段に蓄積される。図18参照。)に
より、重みを計算する例であり、構成等は実施例1と共
通するので、以下実施例1と相違する部分についてのみ
説明する。
【0113】図25(1)は、実施例2において文脈の
重みを計算する処理を示している。同図に示すように、
まず、ステップステップ2501で、1)文脈“a”で
の−1次の出現頻度を文脈“a”での−1次の計数値
に、2)文脈“a”での0次の出現頻度を文脈“a”での
0次の計数値に、3)文脈“a”での1次の出現頻度を
文脈“a”での1次の計数値に、4)文脈“a”での2次
の出現頻度を文脈“a”での2次の計数値に、5)文脈
“a”での3次の出現頻度を文脈“a”での3次の計数値
に、それぞれ設定する。
【0114】そして、ステップ2502で、各次数の計
数値により、M次文脈“a”での重みWm(m=-1,,M)を計
算する。図25(2)は、実施例2においてモデルを更
新する処理を示している。同図に示すように、まず、ス
テップ2503で、文脈“a”で符号化できた次数nを
受け取る。
【0115】そして、ステップ2504で、文脈“a”
等でのn次出現頻度に1を加算する。 《実施例3》実施例3は、特定文脈での出現頻度が少な
く、生起確率(p3,p2,p1,p0,p-1)の推定が難しくなる場
合の対策を行う例であり、構成等は実施例1と共通する
ので、以下実施例1と相違する部分についてのみ説明す
る。
【0116】文脈の条件としては、使用回数、生起確率
を上の次数から調べて、初めて0より大になる次数等が
ある。これらを仮に条件a,b,c等とし、いずれかを
用いて分類を行う。
【0117】実施例3では、現在のM次文脈が満たす条
件cを調べた上で、過去の文脈で同条件cを満たすよう
な文脈の出現頻度の総和を取り、それを元に重みを計算
する。 図26(1)は、実施例3において文脈の重み
を計算する処理を示している。同図に示すように、まず
ステップ2601で、文脈“a”が満たす条件を調べ、
条件cを満たすと判明する。
【0118】そして、ステップ2602で、1)文脈
“b”での−1次の出現頻度の総和値を文脈“a”での−
1次の計数値に、2)文脈“b”での0次の出現頻度の
総和値を文脈“a”での0次の計数値に、3)文脈“b”
での1次の出現頻度の総和値を文脈“a”での1次の計
数値に、4)文脈“b”での2次の出現頻度の総和値を
文脈“a”での2次の計数値に、5)文脈“b”での3次
の出現頻度の総和値を文脈“a”での3次の計数値に、
それぞれ設定する。
【0119】なお、ここでいう総和とは、過去の文脈で
条件cを満たす各文脈“b”の出現頻度の総和である。
そして、ステップ2603で、各次数の計数値により、
M次文脈“a”での重みWm(m=-1,,M)を計算する。
【0120】図26(2)は、実施例3においてモデル
を更新する処理を示している。同図に示すように、ま
ず、ステップ2604で、文脈“a”で符号化できた次
数nを受け取る。
【0121】そして、ステップ2605で、文脈“a”
等でのn次出現頻度に1を加算する。そして、ステップ
2606で、過去の文脈で、条件cを満たす各文脈
“b”のn次の出現頻度の総和値に対して1を加算す
る。
【0122】《実施例4》実施例4は、実施例3の具体
例である、構成等は実施例1と共通するので、以下実施
例1と相違する部分についてのみ説明する。
【0123】実施例4では、現在の記号(符号)の直前
の記号(符号)が符号化(復号化)された次数を分類の
条件とする。この分類の条件が有効なのは、一般に、直
前の記号(符号)がm次で符号化(復号化)されると、
現在の記号(符号)は、m+1次以下でしか符号化(復
号化)されないからである。
【0124】まず、直前の記号(符号)を符号化(復号
化)する段階から考える。例えば、直前の文字をa とす
ると、m次以下の文脈にのみ記号a があり、m+1次以
上の文脈には無い。
【0125】そして、更新の作業により、m+1次以上
の文脈にも記号a が登録されるが、a の下にはまだ子が
ない。一方、m次文脈の記号a の下には、子がある可能
性がある。現在の記号(符号)を符号化(復号化)する
段階に入ると、直前の記号(符号)での次数は、全て1
上がる。つまり、この段階では子のありそうな文脈は、
m+1次以下であり、m+2以上の文脈にはない。結
局、符号化(復号化)できるのは、m+1次以下にな
る。
【0126】例えば、直前の文字が1次で符号化された
とすると、現在の文字が復号化されえるのは2次以下で
ある。生起確率は、(0,p2,p1,p0,p-1)となる。現在の文
脈で出現頻度が少なく、生起確率が推定しにくいなら
ば、同じように生起確率p3=0となる文脈での出現頻度を
足して、推定値とする。
【0127】図27(1)は、実施例4において文脈の
重みを計算する処理を示している。同図に示すように、
まず、ステップ2701で、文脈“a”で、直前の文字
を次数pで符号化(復号化)する。
【0128】そして、ステップ2702で、1)文脈
“b”での−1次の出現頻度の総和値を文脈“a”での−
1次の計数値に、2)文脈“b”での0次の出現頻度の
総和値を文脈“a”での0次の計数値に、3)文脈“b”
での1次の出現頻度の総和値を文脈“a”での1次の計
数値に、4)文脈“b”での2次の出現頻度の総和値を
文脈“a”での2次の計数値に、5)文脈“b”での3次
の出現頻度の総和値を文脈“a”での3次の計数値に、
それぞれ設定する。
【0129】なお、ここでいう総和とは、過去の文脈
で、直前記号が次数pで符号化(復号化)された各文脈
“b”の出現頻度の総和をとることである。そして、ス
テップ2703で、各次数の計数値により、M次文脈
“a”での重みWm(m=-1,,M)を計算する。
【0130】図27(2)は、実施例4においてモデル
を更新する処理を示している。同図に示すように、ま
ず、ステップ2704で、文脈“a”で符号化できた次
数nを受け取る。
【0131】そして、ステップ2705で、文脈“a”
等でのn次出現頻度に1を加算する。そして、ステップ
2706で、過去の文脈で、直前記号が次数pで符号化
(復号化)された各文脈“b”のn次の出現頻度の総和
値に対して1を加算する。
【0132】《実施例5》実施例5は、実施例3の具体
例である、構成等は実施例1と共通するので、以下実施
例1と相違する部分についてのみ説明する。
【0133】実施例5では、現在の文脈の使用回数Nを
分類の条件とする。例えば、N=1、つまり、初めて使
う文脈では、まだ、子が無いため、−1、0次等の低い
次数で符号化(復号化)される可能性が高い。このよう
な例のものを集計すると、0次を極大とする分布にな
る。一方、N>1では、文脈に子が付くため、高い次数
で符号化(復号化)される可能性が強くなる。
【0134】図28(1)は、実施例5において文脈の
重みを計算する処理を示している。同図に示すように、
まず、ステップ2801で、文脈“a”の使用回数を調
査し、N回と判明する。
【0135】そして、ステップ2802で、1)文脈
“b”での−1次の出現頻度の総和値を文脈“a”での−
1次の計数値に、2)文脈“b”での0次の出現頻度の
総和値を文脈“a”での0次の計数値に、3)文脈“b”
での1次の出現頻度の総和値を文脈“a”での1次の計
数値に、4)文脈“b”での2次の出現頻度の総和値を
文脈“a”での2次の計数値に、5)文脈“b”での3次
の出現頻度の総和値を文脈“a”での3次の計数値に、
それぞれ設定する。
【0136】なお、ここでいう総和とは、過去の文脈で
使用回数がN回となる各文脈“b”の出現頻度の総和を
とることをいう。そして、ステップ2803で、各次数
の計数値により、M次文脈“a”での重みWm(m=-1,,M)
を計算する。
【0137】図28(2)は、実施例5においてモデル
を更新する処理を示している。同図に示すように、ま
ず、ステップ2804で、文脈“a”で符号化できた次
数nを受け取る。
【0138】そして、ステップ2805で、文脈“a”
等でのn次出現頻度に1を加算する。そして、ステップ
2806で、過去の文脈で、使用回数がN回となる各文
脈“b”のn次の出現頻度の総和値に対して1を加算す
る。
【0139】《実施例6》実施例6は、実施例3の具体
例である、構成等は実施例1と共通するので、以下実施
例1と相違する部分についてのみ説明する。
【0140】実施例6では、現在の文脈の副文脈の内で
子を持つ最大の次数を、分類の条件とする。実施例4に
おいて、直前の記号(符号)が符号化(復号化)された
次数がm次とすると、現在の文脈で子を持つのは、m+
1次以下であると述べた。一般に、子を持つ次数をc と
すると、c≦m+1となる。符号化(復号化)を開始した次
数がs 次であっても、実際に子を持つ副文脈はc 次にな
る(c≦m+1≦s) 。
【0141】図18で、3次文脈abc に子が無く、2次
文脈bcにあった場合、abc に対する副文脈bcにおける、
計数手段の内容を用いた方がよい。効果は、実施例4と
同様だが、生起確率による分類は、より正確となる。
【0142】図29(1)は、実施例6において文脈の
重みを計算する処理を示している。同図に示すように、
まず、ステップ2901で、文脈“a”で、子を持つ副
文脈の最大次数をc次とする。
【0143】そして、ステップ2902で、1)文脈
“b”での−1次の出現頻度の総和値を文脈“a”での−
1次の計数値に、2)文脈“b”での0次の出現頻度の
総和値を文脈“a”での0次の計数値に、3)文脈“b”
での1次の出現頻度の総和値を文脈“a”での1次の計
数値に、4)文脈“b”での2次の出現頻度の総和値を
文脈“a”での2次の計数値に、5)文脈“b”での3次
の出現頻度の総和値を文脈“a”での3次の計数値に、
それぞれ設定する。
【0144】なお、ここでいう総和とは、過去の文脈で
子を持つ最大次数がc次となる各文脈“b”の出現頻度
の総和をとったものである。そして、ステップ2903
で、各次数の計数値により、M次文脈“a”での重みWm
(m=-1,,M)を計算する。
【0145】図29(2)は、実施例6においてモデル
を更新する処理を示している。同図に示すように、ま
ず、ステップ2904で、文脈“a”で符号化できた次
数nを受け取る。
【0146】そして、ステップ2905で、文脈“a”
等でのn次出現頻度に1を加算する。そして、ステップ
2906で、過去の文脈で、子を持つ副文脈の最大次数
がc次となる各文脈“b”のn次の出現頻度の総和値に
対して1を加算する。
【0147】《実施例7》実施例7は、符号化(復号
化)を開始する次数を、子を持つ文脈の次数c とする例
であり、構成等は実施例1と共通するので、以下実施例
1と相違する部分についてのみ説明する。
【0148】実施例7では、例えば、文脈として許され
る次数が最大3次であっても、3次文脈に子が無く、1
次まで下がらないと子が無いとする。当然ながら、3次
文脈の計数手段は、すべて出現頻度0である。逆に、1
次文脈の計数手段には、1次以下の出現頻度が記録され
ている。これを、生起確率(0,0,p1,p0,p-1) の推定値と
する。
【0149】図30は、実施例7の処理を示している。
まず、ステップ3001で、文脈“a”で、子を持つ副
文脈の最大次数をc次とする。
【0150】そして、ステップ3002で、開始次数s
をcに設定する。 《実施例8》実施例8は、符号化(復号化)を開始する
次数を、常に一定値c とする例であり、構成等は実施例
1と共通するので、以下実施例1と相違する部分につい
てのみ説明する。
【0151】実施例8では、一定値c が、子を持つ文脈
の次数c2より大きい場合、前者はまだ子が無く、初めて
使う文脈となる。従って、同文脈の計数手段も、出現頻
度は0である。このような場合は、実施例3を適用する
とよい。処理が簡単で済むという利点がある。
【0152】図31は、実施例8の処理を示している。
まず、ステップ3101で、一定値cを入力する。そし
て、ステップ3102で、開始次数sをcに設定する。
【0153】《実施例9》実施例9は、符号化(復号
化)を開始する次数を、前回、符号化(復号化)が行わ
れた次数c に1を足した数とする例であり、構成等は実
施例1と共通するので、以下実施例1と相違する部分に
ついてのみ説明する。
【0154】実施例9では、子を持つ次数は、((前
回、符号化(復号化)が行われた次数c )+1)以下と
なる。図32は、実施例9の処理を示している。
【0155】まず、ステップ3201で、文脈“a”
で、直前の文字を次数cで符号化(復号化)する。そし
て、ステップ3202で、開始次数sを(c+1)に設
定する。
【0156】実施例9は、実施例7と同様な効果を有
し、前回の次数を利用するため、実施例8のように、子
を持つ次数を探す場合よりも処理が簡単になる。 《実施例10》実施例10は、構成等は実施例1と共通
するので、以下実施例1と相違する部分についてのみ説
明する。
【0157】実施例10において、ある計数手段に計数
される出現頻度は、同手段における最大次数の文脈を出
発点にした場合、どこの次数で符号化(復号化)される
かを示す。そして、同じ最大次数の他の文脈から出発し
た場合は含まない。これにより、生起確率(p3,p2,p1,
p0,p-1) を推定する上での基礎データを得る。
【0158】《実施例11》実施例11は、計数手段の
更新に関する例であり、構成等は実施例1と共通するの
で、以下実施例1と相違する部分についてのみ説明す
る。
【0159】実施例11では、文脈として許される最大
次数から実際に符号化(復号化)できた次数までの各文
脈での計数手段において、実際に符号化(復号化)でき
た次数の欄に出現頻度を1加算する。これは、例えば、
実施例7、9のように、任意の次数の文脈の計数手段を
利用する場合に役立つ。
【0160】図33は、実施例11の処理を示してい
る。まず、ステップ2101で、次数dを決定する。そ
して、ステップ2102で、d≧eか否かを判断する。
【0161】ステップ2102で、「d<e」と判断さ
れた場合には、処理を終了する。ステップ2102で、
「d≧e」と判断された場合には、次数dの文脈“a”
における計数手段で、同文脈を出発点にして、実際に符
号化(復号化)できた次数eの欄で、出現頻度に1を加
算する(ステップ2103)。
【0162】そして、ステップ2104で、dを1減じ
る。このステップ2102に戻る。 《実施例12》実施例12は、計数手段の計数値から、
重みを計算する例であり、構成等は実施例1と共通する
ので、以下実施例1と相違する部分についてのみ説明す
る。
【0163】実施例12では、重みを式(26)に基づ
いて計算する。確率を推定する方法としては、ベイズ統
計等があるが、本実施例は、同手法によらない最も単純
な例である。
【0164】図34は、実施例12の処理を示してい
る。まず、ステップ3401で、ある次数の計数値を分
子とする。そして、ステップ3402で、計数値の総和
を分母とする。
【0165】そして、ある次数の計数値を計数値の総和
で割った値をある次数の重みとする(ステップ340
3)。
【0166】
【発明の効果】従来のPPMC法では、データの高次の
相関が強いことを前提にして、エスケープ符号の確率を
計算で求めていた。これに対して、本発明のデータ圧縮
・復元方法では、ある文脈から符号化を始めた時に、ど
の次数の文脈で符号・復号化できるかという生起確率を
推定し、それを重みとすることにより、低次を多く使用
し高次の相関が弱いデータに対しても、圧縮率が改善さ
れるという効果がある。
【図面の簡単な説明】
【図1】本発明のデータ圧縮・復元方法の第1原理図で
ある。
【図2】本発明のデータ圧縮・復元方法の第2原理図で
ある。
【図3】本発明のデータ圧縮・復元方法の第3原理図で
ある。
【図4】本発明のデータ圧縮・復元方法の第4原理図で
ある。
【図5】算術符号の原理を示す図である。
【図6】確率統計型符号化の原理を示す図である。
【図7】文脈の木の登録例(2次Blendingの場合)を示
す図である。
【図8】混合モデルの符号空間の内容を示す図である。
【図9】エスケープ符号の確率を示す図である。
【図10】エスケープ確率(=qm/(Cm+qm))が常に1/2
以下になる理由(m=2,1,0,-1)を示す図である。
【図11】符号空間における重み(W2 - Wー1)の分割
を示す図である。
【図12】PPMC法による符号化を示す図(その1)
である。
【図13】PPMC法による符号化を示す図(その2)
である。
【図14】PPMC法による復号化を示す図(その1)
である。
【図15】PPMC法による復号化を示す図(その2)
である。
【図16】従来方式の問題点を示す図である。
【図17】次数、文脈及び出現頻度の対応関係を示す図
である。
【図18】各節点毎の計数処理を示す図である。
【図19】符号化に関する実施例の構成図である。
【図20】復号化に関する実施例の構成図である。
【図21】符号化に関する本発明の全体の流れを示す図
である。
【図22】本発明による符号化を示す図である。
【図23】復号化に関する本発明の全体の流れを示す図
である。
【図24】本発明による復号化を示す図である。
【図25】各文脈毎の出現頻度により、重みを計算する
方法を示す図である。
【図26】条件を満たす各文脈の出現頻度の総和を取る
ことにより、同条件下の文脈の重みを計算する方法を示
す図である。
【図27】直前の記号が符号化された次数毎に、各文脈
の出現頻度の総和を取ることにより、文脈の重みを計算
する方法を示す図である。
【図28】使用回数がN回となる文脈毎に、出現頻度の
総和を取ることにより、文脈の重みを計算する方法を示
す図である。
【図29】子を持つ最大の次数毎に、各文脈の出現頻度
の総和をとることにより、文脈の重みを計算する方法を
示す図である。
【図30】符号化(復号化)を開始する次数を、子を持
つ文脈の次数とする方法を示す図である。
【図31】符号化(復号化)を開始する次数を、常に一
定値とする方法を示す図である。
【図32】符号化(復号化)を開始する次数を、前回、
符号化(復号化)が行われた次数に1を足した数とする
方法を示す図である。
【図33】計数手段の更新方法を示す図である。
【図34】重みを算出する方法を示す図である。
【符号の説明】
101 文脈辞書 102 文脈探索手段 103 頻度計数手段 104 累積確率メモリ 105 記号(次数)順位変換手段 106 算術符号手段 107 次数変更手段 108 新規登録手段 109 更新手段 201 順位記号次数変換手段 202 算術復号化手段

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】直前までに出現した1記号以上の記号列で
    ある文脈に基づいて、注目記号の条件付確率を多値算術
    符号化するデータ圧縮・復元方法において、 符号化を開始する文脈を基に、各文脈の次数が現れる確
    率を算出することを含むことを特徴とするデータ圧縮・
    復元方法。
  2. 【請求項2】直前までに出現した1記号以上の記号列で
    ある文脈に基づいて、注目記号の条件付確率を多値算術
    復号化するデータ圧縮・復元方法において、 復号化を開始する文脈を基に、各文脈の次数が現れる確
    率を算出することを含むことを特徴とするデータ圧縮・
    復元方法。
  3. 【請求項3】直前までに出現した1記号以上の記号列で
    ある文脈を利用して多値算術符号化するデータ圧縮・復
    元方法において、 各文脈毎に次数の種類だけ出現頻度を記録し、 処理対象文脈から記号の次数を1つずつ下げた文脈であ
    る副文脈において、符号化する文字がいずれの次数の副
    文脈で見つかったかを前記出現頻度として計数し、 前記文脈が入力データとして再び現れた場合に、記録さ
    れた各次数の計数値を元に前記副文脈の重みを算出する
    ことを含むことを特徴とするデータ圧縮・復元方法。
  4. 【請求項4】直前までに出現した1記号以上の記号列で
    ある文脈を利用して多値算術復号化するデータ圧縮・復
    元方法において、 各文脈毎に次数の種類だけ出現頻度を記録し、 処理対象文脈から記号の次数を1つずつ下げた文脈であ
    る副文脈において、復号化する文字がいずれの次数の副
    文脈で見つかったかを前記出現頻度として計数し、 前記文脈が入力データとして再び現れた場合に、記録さ
    れた各次数の計数値を元に前記副文脈の重みを算出する
    ことを含むことを特徴とするデータ圧縮・復元方法。
  5. 【請求項5】請求項1又は3において、処理対象記号が
    どの次数で符号化されたかという出現頻度を、各文脈毎
    に独立に集計し、文脈特有の重みを計算することを特徴
    とするデータ圧縮・復元方法。
  6. 【請求項6】請求項2又は4において、処理対象記号が
    どの次数で復号化されたかという出現頻度を、各文脈毎
    に独立に集計し、文脈特有の重みを計算することを特徴
    とするデータ圧縮・復元方法。
  7. 【請求項7】請求項1又は3において、処理対象記号が
    どの次数で符号化されたかという出現頻度を、条件毎に
    各文脈を通じて集計し、この集計された値により、前記
    処理対象記号に対する文脈の重みを計算することを特徴
    とするデータ圧縮・復元方法。
  8. 【請求項8】請求項2又は4において、処理対象記号が
    どの次数で復号化されたかという出現頻度を、条件毎に
    各文脈を通じて集計し、この集計された値により、前記
    処理対象記号に対する文脈の重みを計算することを特徴
    とするデータ圧縮・復元方法。
  9. 【請求項9】請求項1又は3において、処理対象記号が
    どの次数で符号化されたかという出現頻度を、前記処理
    対象記号より直前に出現した文字がどの次数で符号化さ
    れたかにより分類集計し、この集計された値により、前
    記処理対象記号に対する文脈の重みを計算することを特
    徴とするデータ圧縮・復元方法。
  10. 【請求項10】請求項2又は4において、処理対象記号
    がどの次数で復号化されたかという出現頻度を、前記処
    理対象記号より直前に出現した文字がどの次数で符号化
    されたかにより分類集計し、この集計された値により、
    前記処理対象記号に対する文脈の重みを計算することを
    特徴とするデータ圧縮・復元方法。
  11. 【請求項11】請求項1又は3において、処理対象記号
    がどの次数で符号化されたかという出現頻度を、前記処
    理対象文脈が使用された回数により分類集計し、この集
    計された値により、前記処理対象記号に対する文脈の重
    みを計算することを特徴とするデータ圧縮・復元方法。
  12. 【請求項12】請求項2又は4において、処理対象記号
    がどの次数で復号化されたかという出現頻度を、前記処
    理対象文脈が使用された回数により分類集計し、この集
    計された値により、前記処理対象記号に対する文脈の重
    みを計算することを特徴とするデータ圧縮・復元方法。
  13. 【請求項13】請求項1又は3において、処理対象記号
    がどの次数で符号化されたかという出現頻度を、複数の
    次数の前記処理対象文脈の中で子を持つ最大の次数によ
    り分類集計し、この集計された値により、前記処理対象
    記号に対する文脈の重みを計算することを特徴とするデ
    ータ圧縮・復元方法。
  14. 【請求項14】請求項2又は4において、処理対象記号
    がどの次数で復号化されたかという出現頻度を、複数の
    次数の前記処理対象文脈の中で子を持つ最大の次数によ
    り分類集計し、この集計された値により、前記処理対象
    記号に対する文脈の重みを計算することを特徴とするデ
    ータ圧縮・復元方法。
  15. 【請求項15】請求項1又は3において、符号化を開始
    する次数であって計数に利用する文脈の次数を、子を持
    つ文脈の次数とすることを特徴とするデータ圧縮・復元
    方法。
  16. 【請求項16】請求項2又は4において、復号化を開始
    する次数であって計数に利用する文脈の次数を、子を持
    つ文脈の次数とすることを特徴とするデータ圧縮・復元
    方法。
  17. 【請求項17】請求項1又は3において、符号化を開始
    する次数であって計数に利用する文脈の次数を、常に一
    定値とすることを特徴とするデータ圧縮・復元方法。
  18. 【請求項18】請求項2又は4において、符号化を開始
    する次数であって計数に利用する文脈の次数を、常に一
    定値とすることを特徴とするデータ圧縮・復元方法。
  19. 【請求項19】請求項1又は3において、符号化を開始
    する次数であって計数に利用する文脈の次数を、前回符
    号化が行われた次数に1を加えた次数とすることを特徴
    とするデータ圧縮・復元方法。
  20. 【請求項20】請求項2又は4において、復号化を開始
    する次数であって計数に利用する文脈の次数を、前回符
    号化が行われた次数に1を加えた次数とすることを特徴
    とするデータ圧縮・復元方法。
  21. 【請求項21】請求項1から4において、前記処理対象
    文脈における計数処理の内容は、前記処理文脈の次数を
    最大の次数とし、前記処理対象文脈から次数を1つづつ
    減らした副文脈の計数値は、元の最大次数の文脈から符
    号化を始めた場合に、同じ最大次数で内容の異なる他の
    文脈から符号化を始めた時の計数値を含まないことを特
    徴とするデータ圧縮・復元方法。
  22. 【請求項22】請求項1から4において、計数処理の出
    現頻度の更新は、前記処理対象文脈及びこの文脈から派
    生する副文脈における計数処理にて行うことを特徴とす
    るデータ圧縮・復元方法。
  23. 【請求項23】請求項1から4において、計数処理で使
    用される次数の出現頻度を摘出する処理と、各次数の出
    現頻度の総和値を計算する処理と、次数の出現頻度を出
    現頻度の総和値で割った値を重みとして出力する処理と
    を設けたことを特徴とするデータ圧縮・復元方法。
JP30866394A 1994-12-13 1994-12-13 データ圧縮・復元方法 Withdrawn JPH08167853A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30866394A JPH08167853A (ja) 1994-12-13 1994-12-13 データ圧縮・復元方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30866394A JPH08167853A (ja) 1994-12-13 1994-12-13 データ圧縮・復元方法

Publications (1)

Publication Number Publication Date
JPH08167853A true JPH08167853A (ja) 1996-06-25

Family

ID=17983791

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30866394A Withdrawn JPH08167853A (ja) 1994-12-13 1994-12-13 データ圧縮・復元方法

Country Status (1)

Country Link
JP (1) JPH08167853A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998044637A1 (en) * 1997-03-28 1998-10-08 Sony Corporation Data coding method and device, data decoding method and device, and recording medium
WO2007123257A1 (en) * 2006-04-21 2007-11-01 Kabushiki Kaisha Toshiba Method and apparatus for entropy coding and decoding
JP2012069103A (ja) * 2010-08-31 2012-04-05 Mitsubishi Electric Research Laboratories Inc 圧縮された状態シーケンスを求めるための方法
CN110825707A (zh) * 2018-08-09 2020-02-21 安德鲁·卡迈尔 数据压缩方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998044637A1 (en) * 1997-03-28 1998-10-08 Sony Corporation Data coding method and device, data decoding method and device, and recording medium
US6332043B1 (en) 1997-03-28 2001-12-18 Sony Corporation Data encoding method and apparatus, data decoding method and apparatus and recording medium
WO2007123257A1 (en) * 2006-04-21 2007-11-01 Kabushiki Kaisha Toshiba Method and apparatus for entropy coding and decoding
JP2009534904A (ja) * 2006-04-21 2009-09-24 株式会社東芝 エントロピー符号化及び復号のための方法及び装置
US7710297B2 (en) 2006-04-21 2010-05-04 Kabushiki Kaisha Toshiba Method and apparatus for entropy coding and decoding
JP4695706B2 (ja) * 2006-04-21 2011-06-08 株式会社東芝 エントロピー符号化及び復号のための方法及び装置
JP2012069103A (ja) * 2010-08-31 2012-04-05 Mitsubishi Electric Research Laboratories Inc 圧縮された状態シーケンスを求めるための方法
CN110825707A (zh) * 2018-08-09 2020-02-21 安德鲁·卡迈尔 数据压缩方法

Similar Documents

Publication Publication Date Title
Said Introduction to arithmetic coding--theory and practice
Vitter Design and analysis of dynamic Huffman codes
JP3238854B2 (ja) データ圧縮方法及びデータ圧縮装置、並びにデータ復元方法及びデータ復元装置
Moffat Implementing the PPM data compression scheme
Kodituwakku et al. Comparison of lossless data compression algorithms for text data
EP0695040B1 (en) Data compressing method and data decompressing method
JP3276860B2 (ja) データ圧縮/復元方法
JPH09275349A (ja) データ圧縮装置及びデータ復元装置
JP3083730B2 (ja) データ情報を圧縮するためのシステムおよび方法
JPH09162748A (ja) データ符号化方法、データ復号方法、データ圧縮装置、データ復元装置、及びデータ圧縮・復元システム
JP3302210B2 (ja) データ符号化/復号化方法及び装置
CA1241760A (en) File compressor
JPH08167852A (ja) データ圧縮方法及び装置
Said Comparative Analysis of Arithmetic Coding Computational Complexity.
Deorowicz Improvements to Burrows–Wheeler compression algorithm
Sadakane et al. Implementing the context tree weighting method for text compression
Valmeekam et al. Llmzip: Lossless text compression using large language models
Nakatsu Bounds on the redundancy of binary alphabetical codes
JPH08167853A (ja) データ圧縮・復元方法
Granados et al. Discovering data set nature through algorithmic clustering based on string compression
Cannane et al. General‐purpose compression for efficient retrieval
Kanai et al. Efficient implementation and empirical evaluation of compression by substring enumeration
Al-Bahadili et al. A bit-level text compression scheme based on the ACW algorithm
Chirikhin et al. Application of data compression techniques to time series forecasting
Hameed et al. A new lossless method of Huffman coding for text data compression and decompression process with FPGA implementation

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20020305