JPH0744462B2

JPH0744462B2 - 圧縮符号化方法及び復号方法

Info

Publication number: JPH0744462B2
Application number: JP1124579A
Authority: JP
Inventors: ダン・シミユエル・ケーヴイオン; エフド・ドヴ・カルニン; ユーゲニウス・ワラク
Original assignee: インタ‐ナシヨナル・ビジネス・マシ‐ンズ・コ‐ポレ‐シヨン
Priority date: 1988-07-05
Filing date: 1989-05-19
Publication date: 1995-05-15
Anticipated expiration: 2010-05-15
Also published as: SG45378A1; EP0350439A2; IL86993A; EP0350439B1; US4989000A; JPH0253329A; IL86993A0; DE68926270T2; DE68926270D1; EP0350439A3

Description

【発明の詳細な説明】 A.産業上の利用分野本発明は、ソース・データ・ストリングの圧縮表現の生
成方法に関する。本発明は、特に、高能率の乗算なしの
算術符号化に関する。算術符号化は、データ処理システ
ムでデータを圧縮するのによく用いられる技術である。

B.従来技術及びその問題点かかる圧縮は、普通、大規模データ・ベースを特徴づけ
るシンボルに関連する、高度の相関関係を持ち非一様で
ある統計分布によつて可能とされる。ソース・データが
デジタル形式で表現されるとき、圧縮の目的は、オリジ
ナルのソース・データ・ストリングよりもデータ、ビツ
ト数の少ないデータ・ストリングを出力することにあ
る。統計的に有意なソース・データ・ストリングのサン
プルが圧縮されるとき、圧縮出力データ・ストリングの
予想長さは、ソース・データ・ストリングの“エントロ
ピー”に対応する。

ソース・データの圧縮方法の１例として、算術符号器が
Rissanenによつて開発され、それはまず下記の論文で発
表された。

“Generalized Kraft Inequality Arithmetic Coding",
IBM Journal of Research and Development,Volume 20,
No.3,1976年５月 Rissanenによつて紹介された算術符
号化法によれば、マルチ・アルフアベツト・データ、つ
まり各シンボルがマルチ・シンボル・アルフアベツトの
中で見い出せるようなデータの圧縮が可能となる。

算術符号化法を採用するためには、まずソース・アルフ
アベツトの中の各シンボルの発生確率を決定することが
必要である。普通、ソース・データ・ストリング毎に確
率は変化する。したがつて、テレビ・イメージに相当す
るデータを圧縮するのに算出符号化法が用いられる場
合、まず各画素の発生確率が決定されねばならない。こ
の決定はリアル・タイムで行われることもあるし、統計
的に予定されることもある。しかしながら、確率の決定
法は本発明の特徴とは関係ない。本発明は、確率の決定
法に関係なく、等しく適用可能である。

ソース・アルフアベツト内の各シンボルの発生確率を決
定した後、各シンボルの累積確率が決定されよう。した
がつて、データ・ストリングの第１番目のシンボルにつ
いての累積確率Ｓ（１）は一般にゼロに等しい。また、
第ｎ番目のシンボルについての累積確率は、先行する
（ｎ−１）個のシンボルの各々の発生確率の和に等しく
なる。

算術符号化法では、普通、出力データ・ストリングは、
単位区間〔０、１〕の中の２進小数として表現される。
Langdon Jr.が“An Introduction to Arithmetic Codin
g",IBM Journal of Research and Development,Volume
28,No.2,1984年３月、で説明しているように、算術符号
化は該単位区間の細分割に関係している。この細分割
は、ソース・アルフアベツト内のシンボルごとに、単位
区間中にコード・ポイントC_nをマークすることによつて
達成される。コード・ポイントの各々は、先行シンボル
の発生確率の和に等しい。各コード・ポイントの右側の
小区間A_nの巾の大きさは、対応するシンボルまでのソー
ス・データ・ストリングの発生確率を表現する（第３図
参照）。

例えば、そのアルフアベツトがa₀からa_mまでのシンボル
からなり、シンボルの発生確率がそれぞれｐ（０）、
…、ｐ（ｍ）に等しいソース・データ・ストリングを考
えてみよう。ソース・データ・ストリングがa₀ a₅ a₃…
…であるなら、第１シンボルa₀は部分区間〔０、ｐ
（０））〕の範囲内で符号化される。これは、巾A₁がシ
ンボルa₀の発生確率に単純に相当するｐ（０）に等し
い、元の単位区間内の第１小区間を表現している。ソー
ス・データ・ストリングの第２シンボルを符号化するた
めには、シンボルa₀の発生確率の条件とするa₅の発生確
率が決定されねばならない。さらに、第２シンボルa₅に
関連する累積確率を計算しなければならない。かくし
て、第２シンボルa₅に対応する小区間は、a₀に対応する
第１部分区間内にある第２小区間となる。数学的には、
第２部分区間の巾A₂はｐ（０）＊ｐ（５）つまり、２つ
のシンボルa₀、a₅の発生確率の積に等しい。単位区間内
にある第２小区間の出発点は、第１小区間の巾A₁と第２
シンボルa₅に関連する累積確率Ｓ（５）に依存する。つ
まり、それらの積A₁＊Ｓ（５）に等しい。このように、
ソース・データ・ストリングの各シンボルが単位区間の
中で相次いで符号化されていくにつれて、部分区間も相
次いで生成され、その各々が特定のコード・ポイントと
幅によつて特定され得る。現在の部分区間についてのコ
ード・ポイントは、従前の区間又は部分区間の範囲内
の、現在の部分区間に対応する。上述のように、これは
現在シンボルに関連する累積確率に等しい。したがつ
て、第ｎ番目の部分区間に関連するコード・ポイント
は、第（ｎ−１）番目の部分区間の幅に先行する（ｎ−
１）個のシンボルの累積確率を掛けたもの、つまりA_nS
（ｎ）に等しい。新しい部分区間の幅は、ソース・デー
タ・ストリングについてそれまで符号掛されたすべての
シンボルの確率の積、つまりｐ（０）＊ｐ（５）＊ｐ
（３）に等しい。幅A_nと第ｎ部分区画のコード・ポイン
トC_nに対応するデータによつて、ソース・データ・スト
リング中の最初から（ｎ＋１）個目までのシンボルが符
号化される。したがつて、算術符号器はこれらのデータ
を記憶するのに２つのメモリ・レジスタを必要とし、そ
れらは通常それぞれＡレジスタ、Ｃレジスタと呼ばれ
る。

部分区間の幅は確率の積に等しいのであるから、２つの
フアクタが浮かび上がつてくる。まず、符号化されるソ
ース・データ・ストリングのシンボル数が多くなればな
るほど、算術符号表現を規定する部分区画の幅は減少す
る。（というのは、個々の確率は必ず１より小さくなけ
ればならないからである）。さらに、算術符号化を効率
よくインプリメントするには、そのプロセスにおいて乗
算を繰り返さなければならない。

データ・ストリングを構成するシンボルの正確な発生確
率に基づくとき、算術符号器はソース・データ・ストリ
ングのエントロピーに相当する最適な圧縮結果を生成す
る。しかし、従来の実際のインプリメンテーシヨンで
は、確率を正確に決定することの困難さ故に、近似を導
入しがちであつた。その結果、算術符号演算の効率が低
下し、出力データ・ストリングに含まれるシンボル数が
理論的な最低限（エントロピー）を上回つてしまう。さ
らに、部分区画の幅を決める度に必要とされる乗算をな
くするために、さらなる近似が導入されてきている。

算術符号器は、メモリ・レジスタのビツト数が有限であ
るようなコンピユータでインプリメントされる。乗算に
関連する問題の１つは、確率の乗算を続けていけばいく
ほどより小さな区画が生成されるので、そのような乗算
をわずか数回やつた後には、その結果生じた部分区間が
小さすぎてコンピユータ・レジスタに満足にストアでき
ない、という事実に起因する。例えば、各レジスタが16
ビツトであるときに、確率の乗算を繰り返した結果、積
が1^-16より小さくなつたならば、積はレジスタをアンダ
ーフローしてしまう。言い換えると、レジスタはゼロで
満たされ、確率積の有意なビツトは失われてしまう。一
連の乗算に伴う別の問題は、実行に要する時間である。

上記第１の問題点は、正規化（normalization）と呼ば
れる技術によつて解決された。この技術では、確率積は
浮動小数点表記でストアされる。これを実行するべく、
別のビツト・レジスタが用いられ、部分区間の幅に対応
する（２を基数とする）指数をストアする。そのとき、
２進小数の最も桁の高い１は最も左の位置へシフトされ
る。したがつて、明らかに16ビツト・レジスタにストア
できない1.0101×2^-20なる２進小数であつても、1.0101
E−20として満足にストアできる。ここで仮数と指数は
別個のレジスタにストアされる。仮数のMSBはこのよう
に常に１となるように配置されるので、仮数レジスタに
ストアされる実際の数は常に1.0より大きい。

上記第２の問題点（乗算実行時間）は、いわゆる「乗算
なし」の算術符号器によつてある程度解決された。２進
算法を用いるコンピユータでは、乗算はシフトと加算オ
ペレーシヨンの繰り返しとしてインプリメントされる。
「乗算なし」という言葉は、従来、様々に用いられてお
り、各符号化ステツプについてのシングル・シフト、ま
たはシングル・シフト・アンド・アド・オペレーシヨン
のどちらかを意味してきた。厳密に言うと、数学的には
シングル・シフト演算も乗算をしたことに変わりはな
い。しかしながら、多数のシフトと加算演算を伴う厳密
な算術符号器のインプリメンテーシヨンに関連する乗算
に比べて、このやり方では費す時間がはるかに少なくな
る。したがつて、「乗算なし」なる語は、しばしば乗算
が大幅に簡素化された、あるいは減少した、という意味
に用いられる。従来技術、及び本発明において「乗算な
し」なる語が用いられるのは、このような文脈において
である。

米国特許第4286256号明細書では、演算の数を減らした
算術符号化の方法及び装置が開示されている。その特許
発明によれば、現在のコード・ポイントを符号化するの
に先立つて、部分区間の幅に対応する内部積の１つを切
捨てることによつて乗算を簡略化している。しかしなが
ら、この方法は２進ソース（つまり、シンボルを２つだ
け持つアルフアベツト）にしか適さない。つまり、この
方法は、ソース・データ・ストリングの各シンボルを、
確率の高い事象または低い事象のどちらかとして符号化
することはできるけれども、マルチ・アルフアベツト・
コードには適さない。

米国特許4652856号明細書では、乗算なしのマルチ・ア
ルフアベツト算術符号が開示されている。そこでは、部
分区間の各々が上述のような浮動小数点形式でストアさ
れる。そして、Ａレジスタに収められる仮数は、0.1よ
り大きな２進小数とされる。該明細書で提唱される近似
方法によれば、可変の基準を採用して、部分区画の仮数
を（２進の）0.1に正確に切り捨てるか、もしくは１に
切り上げる（round up）かどちらかを行わせる。

このような近似を使つてもなお所望の圧縮を達成できる
けれども、効率の点ではロスがある。換言すると、圧縮
データ・ストリングを表現するために、最低限のビツト
数より多くのビツト数が必要とされる。このような非能
率は、圧縮対象のソース・データの性質に依存する。

上記米国特許4652856号の発明の大きな問題点は、Ａレ
ジスタの内容を切り上げることによつて該当するシンボ
ルの確率が現実の値よりも大きな値に近似されることに
起因する。アルフアベツトのすべてのシンボルについて
の確率の和が1.0を越えられないことを確実にするため
に、上記特許発明では、最後の部分区間を次のように近
似する。

この近似（概算）によれば、アルフアベツトのすべての
シンボルの確率の和が１に等しいことが保証されるれど
も、これは、最後の部分区間を非常に小さなものとして
しまい、符号化の能率が非常に悪くなるという犠牲を伴
う。

C.問題点を解決するための手段本発明の目的は、上記従来技術に関連する問題点を大幅
に減少させ、あるいは除去する、高効率で乗算なしの算
術符号化法を提供することにある。

本発明によれば、ソース・データ・ストリングの圧縮表
現Ｒ（comp）を生成する方法が提供される。該方法の内
容は以下に示すとおりである。

各シンボルは、（ｍ＋１）個のシンボルa₀、…、a_mから
なる有限のセツトから取り出される。

上記圧縮表現は所定の範囲の数値であり、ストリング中
の相次ぐシンボルに対応する相次ぐサイクルにおいて帰
納的に生成される。

各シンボルa_iについて、確率値ｐ（ｉ）と累積確率値
（Ｓ（ｉ）がアベイラブルである。

ここで、上記累積確率値は、Ｓ（ｉ）＝ｐ（０）＋ｐ（１）＋… …＋ｐ（ｉ−１）（ｉ＝１、…、ｍ）Ｓ（０）＝０である。

一対のシフト・レジスタＡ及びＣが用いられる。それぞ
れ、２進デイジツト６個分の位置を有している。

特に、本発明の特徴は、以下の点にある。

（ａ）まず、Ｃレジスタの内容をすべてゼロにセツトす
るとともに、Ａレジスタの内容を所定の値にセツトす
る。

次に、ストリングの相次ぐシンボルa_iごとに、（ｂ）Ａレジスタの内容を取り出し、所定の基準に照し
て該基準を下回る下位の“1"ビツトを削除する（切り捨
てる）ことによつて、スケーリング・フアクタＫを決定
し、（ｃ）Ｋ＊Ｓ（ｉ）の値をＣレジスタの内容に加算し、（ｄ）（d1）シンボルa_iがシンボルa_mでないならば、値
Ｋ＊ｐ（ｉ）をＡレジスタの新たな内容とし、（d2）シンボルa_iがシンボルa_mならば、値Ｋ＊Ｓ（ｉ）
をＡレジスタから引き算することにより、Ａレジスタの内容を決定し、（ｅ）Ａレジスタの内容が所定の範囲内に来るまで、Ａ
レジスタとＣレジスタを両方とも所定の向きにシフト
し、空いた位置にはゼロを充填し、（ｆ）シンボルa_iがストリングSTRの最終シンボルでな
いならば、ステツプ（ｂ）ないし（ｅ）を繰り返し、シ
ンボルa_iがストリングSTRの最終シンボルならば、Ｃレ
ジスタの内容を上記所定の向きにＷ位置だけシフトす
る。

以上のステツプを経てＣレジスタから外へシフトされた
一連の２進デイジツトは、シンボル・ストリングSTRの
圧縮表現Ｒ（comp）を構成する。

したがつて、本発明によれば、ソース・データ・ストリ
ングSTR内の各シンボルが相次いで符号化されると、そ
の代表圧縮符号がＣレジスタから外へシフトされ、必要
に応じて後処理に供される。普通は、圧縮されたデータ
が相次いでＣレジスタから読み取られ、その後適当な複
号装置に送られる。そこで圧縮済ストリングは複号さ
れ、オリジナルのソース・データ・ストリングSTRが再
構成される。上記従来の算術符号化と同じく、本発明法
もフアースト・イン・フアースト・アウト（FIFO）ルー
チンであり、ソース・データ・ストリングSTR中の最初
のシンボルが最初に符号化される。

好適な実施例では、Ａレジスタは値1.00000に初期設定
されるとともに、圧縮後の算術符号は０と１の間の値を
取る。

ソース・データ・ストリングSTR内のシンボルの符号化
が次々に行われるので、STR中の後続シンボルについて
展開された符号が、“キヤリー・オーバー”効果ゆえに
先行シンボルについて既に生成された符号に影響を及ぼ
すことがある。このキヤリー・オーバー効果は文献等で
十分に知られたことであり、いくつかの解決策が発表さ
れている。そのうちの何れを本発明とともに用いても差
し支えない。

D.実施例第３図は、確率ｐ（ｉ）のテーブルと、５つのシンボル
a₀〜a₄からなるシンボル・セツトについての累積確率Ｓ
（ｉ）を、単位区間〔０、１）上にプロツトしたコード
・ポイントとともに示したものである。既に説明したよ
うに、符号化対象のシンボルa_iについての確率ｐ（ｉ）
と累積確率Ｓ（ｉ）に基づいて、シンボル・セツトに由
来する相次ぐシンボルを帰納的に単位区間内の部分区間
として符号化するプロセスは、算術符号化それ自身の特
徴である。第１図は、本発明による符号化法の流れ図で
ある。４つの主要なステツプには１から４までの番号が
付されている。その理由は、第２図を参照することによ
り、後で明らかになる。

スタート時点では、Ｃレジスタは0.000000に、Ａレジス
タは1.00000、にそれぞれセツトされる。ステツプ
（１）では、ソース・データ・ストリングSTR中の各シ
ンボルについて、確率ｐ（ｉ）及び累積確率Ｓ（ｉ）が
決定される。これは既知のいくつかの方法の何れかを用
いて実行できる。あるいは、固定かつ予定された確率値
セツトを用いることもできる。次に、ステツプ（２）で
示さるように、Ａレジスタの内容を取出し、２進の“1"
のデイジツトのうち上位２つまでを残して残りを切り捨
てることにより、スケーリング・フアクタＫが決定され
る。Ａレジスタが現在部分区間の幅を実現する一方、ス
ケーリング・フアクタＫは事実上現在部分区間の幅の近
似である。この幅は（２進数の）1.00000と1.1111…の
間に正規化される一方、スケーリング・フアクタＫは上
位２つまでの“1"を残し他を削除して得られるＡレジス
タの内容の近似値である。

以下の記載においては、（ｍ＋１）個のシンボルからな
る有限セツトのシンボルを、a₀、a₁、…、a_mと表記す
る。シンボルa₁についての確率と累積確率は、それぞ
れ、ｐ（ｉ）及びＳ（ｉ）と表記する。したがつて、例
えば、マルチ・アルフアベツト・シンボルの８番目のシ
ンボルが“h"ならば、a₈＝ｈであり、その確率はｐ
（８）及びＳ（８）ということになる。

ステツプ（３）は、ソース・データ・ストリングSTRの
各シンボルについて、ＫとＳ（ｉ）の積がＣレジスタに
加算されるとともに、ｉ＜ｍならば、ＡレジスタはＫ＊
ｐ（ｉ）にセツトされ、ｉ＝ｍならば、Ａレジスタの内
容からＫ＊Ｓ（ｍ）が引き算されることを示している。
したがつて、符号化対象のシンボルがマルチ・アルフア
ベツト・シンボル中の最終シンボルに該当しないとき、
Ａレジスタは単純に現在シンボルの確率とＫの積にセツ
トされる。ここで、Ｋは現在部分区間の幅の近似であ
る。一方、符号化対象のシンボルが該アルフアベツトの
最終シンボルに該当するとき、Ａレジスタの値は、Ｋと
該最終シンボルの累積確率との積の分だけ減らされる。
これは、確率ｐ（ｉ）は近似にすぎないという事実を埋
め合わせする。実際、マルチ・アルフアベツトのすべて
のシンボルについての確率の和が１に等しいことを保証
する。このことは、以下のことから導かれる。

アルフアベツトの第ｍ番目のシンボルについて、Ａ←Ａ−Ｋ＊Ｓ（ｍ）となる。そして、ＫはＡの近似であるから、Ａ←Ａ−Ａ＊Ｓ（ｍ）したがつて、Ａ←Ａ（１−Ｓ（ｍ））つまり、Ａ←Ａ（１−ｐ（０）−ｐ（１）………−ｐ
（ｍ−１））すなわち、Ａ←Ａ＊ｐ（ｍ）これはまさに要求されるところである。

アルゴリズムの次のステツプ（４）では、Ａレジスタの
内容が所定の範囲に収まるように、Ａレジスタが正規化
される。Ａレジスタの内容には、適当な２の倍数が掛け
合わされる。これは、簡単なシフト・オペレーシヨンで
もつて、Ａレジスタの現在の内容に応じて定まる回数分
Ａレジスタを左へシフトすることによつて達成される。
Ｃレジスタも同じビツト数分だけ左へシフトされる。そ
の結果、Ｃレジスタの上位のビツトが読み取られ、それ
はSTRついての算術符号の一部を構成することになる。
このような手順はSTR中のすべてのシンボルについて繰
り返され、これが完了したなら、その時点のＣレジスタ
の全内容が外にシフトされ、先に生成されていたコード
・ストリングと連結される。その結果できたコード・ス
トリングは、圧縮済であるところの出力データ・ストリ
ングを表現している。

本発明に従う方法によれば、STR内のシンボル毎に、圧
縮出力データ・ストリングが帰納的に生成されることが
わかろう。コードが生成されると、Ｃレジスタの左への
シフト、及びＡレジスタの正規化が行われる。

本発明の方法は、以下の具体例を参照することによつ
て、最もよく理解されよう。

例ソース・データ・ストリングは、５シンボル・アルフア
ベツトから導かれるものとする。この５シンボル・アル
フアベツトは、シンボルa₀……a₄から成り、それぞれ
ａ、ｂ、ｃ、ｄ、ｅに合致するものとする。

各々の確率（２進数）は、以下の通りである。

ｐ（０）＝0.000001 ｐ（１）＝0.000011 ｐ（２）＝0.000110 ｐ（３）＝0.001010 ｐ（４）＝0.101100 このように、マルチ・システム・アルフアベツト中のシ
ンボルの数（ｍ＋１）は５に等しい。確率の合計が等し
い、つまりであることも確認されよう。

各シンボルについての累積確率は以下の通りである。

Ｓ（０）＝0.000000 Ｓ（１）＝0.000001 Ｓ（２）＝0.000100 Ｓ（３）＝0.001010 Ｓ（４）＝0.010100 上述の好ましい実施例に従つて、６ビツトのＡレジス
タ、Ｃレジスタを使つて、STR＝ｂ、ｃ、ｅ、ｄ、ａ、
ｃ、ｂなるソース・データ・ストリングを符号化するも
のとしよう。

次のような処理が行われる。

まず、Ａレジスタが1.00000に、Ｃレジスタが.000000
に、それぞれ初期化される。小数点はわかつているもの
とするので、Ａレジスタ、Ｃレジスタの内容は、それぞ
れ 100000、000000になる。

第１シンボルｂ（＝a₁）の符号化：Ｋ＝1, ｉ＝１≠ｍｐ（１）＝000011 Ｓ（１）＝000001 Ｃ＝0.0＋1.0×0.000001＝0.000001 結果：ＡＣ .000011 .000001 Ａを正規化し、Ｃをシフトする：ＡＣ 1.10000 00000.100000 ここで、小数点は、Ｃレジスタの境界を意味している。
このように、小数点の左の５つの２進ビツト00000は、
結果の算術符号のうちの最初の５ビツトがＣレジスタか
ら外へシフトしたことを示す一方、小数点の右側の６個
の２進ビツト100000は、Ｃレジスタの新たな内容を意味
している。ここで、Ａ、Ｃ両レジスタの内容について
は、左へのシフトに対応してゼロが左詰めされる。該シ
ンボルはストリングSNRの終りではないので、処理は継
続する。

第２シンボルＣ（＝a₂）の符号化：Ｋ＝1.1 ｉ＝２≠ｍｐ（２）＝000110 Ｓ（２）＝000100 Ｃ＝0.100000＋1.1×0.0001＝0.10011 結果：ＡＣ .001001 00000.100110 Ａを正規化し、Ｃをシフトする：ＡＣ 1.10100 00000100.10000 このシンボルはストリングSTRの終りではないので、処
理は継続する。

第３シンボルｅ（＝a₄）の符号化Ｋ＝1.001 ｉ＝４＝ｍｐ（４）＝101100 Ｓ（４）＝010100 ｉ＝ｍなので、Ａ＝1.00100−1.001×0.01010＝0.110010 Ｃ＝0.110000＋1.001×0.01010＝1.000110 Ｃ＞１なので、先頭は１はキヤリー・オーバーを生じさ
せる。

結果：ＡＣ .110010 00000101.000110 Ａを正規化し、Ｃはシフトする：ＡＣ 1.10010 000001010.001100 このシンボルはストリングSTRの終りではないので、処
理は継続する。

第４シンボルｄ（＝a₃）の符号化：Ｋ＝1.1 ｉ＝３≠ｍｐ（３）＝001010 Ｓ（３）＝001010 Ｃ＝0.001100＋1.1×0.00101＝0.011011 結果：ＡＣ .001111 000001010.011011 Ａを正規化し、Ｃはシフトする：ＡＣ 1.11100 000001010011.011000 このシンボルはストリングSTRの終りではないので、処
理は継続する。

第５シンボルａ（＝a₀）の符号化：Ｋ＝1.1 ｉ＝０≠ｍｐ（０）＝000001 Ｓ（０）＝000000 Ｃ＝0.011000＋0.0＝0.011000 結果：ＡＣ .000001 000001010011.011000 Ａを正規化し、Ｃはシフトする：ＡＣ 1.00000 000001010011011000.000000 このシンボルはストリングSTRの終りではないので、処
理は継続する。

第６シンボルｃ（＝a₂）の符号化：Ｋ＝1.0 ｉ＝２≠ｍｐ（２）＝000110 Ｓ（２）＝000100 Ｃ＝0.0＋1.0×0.000100＝0.000100 結果：ＡＣ .000110 000001010011011000.000100 Ａを正規化し、Ｃはシフトする：ＡＣ 1.10000 0000010100110110000001.000000 このシンボルはストリングSTRの終りではないので、処
理は継続する。

第７シンボルｂ（＝a₁）の符号化：Ｋ＝1.1 ｉ＝１≠ｍｐ（１）＝000011 Ｓ（１）＝000001 Ｃ＝0.0＋1.1×0.000001＝0.000001 結果：ＡＣ .000100 0000010100110110000001.000001 Ａを正規化し、Ｃはシフトする：ＡＣ 1.00000 00000101001101100000010000.010000 これはストリングSTRの最後のシンボルなので、Ｃレジ
スタの内容を６位置分シフトし、下に示す完全な出力ス
トリングを出力する。

Ｃ＝00000101001101100000010000010000 第２図は、第１図を参照して説明した方法のステツプ
（１）〜（４）の各々について、レジスタ間のデータの
流れを示す。符号化法のステツプ（１）では、各シンボ
ルa_iが入力ストリングから順に抽出されるとともに、シ
ンボルa_iが入力ストリングの最終ストリングか否かを表
示すべく、フラグ“END"が生成される。シンボルa_iは確
率テーブルに入力される。このテーブルは、そこから確
率ｐ（ｉ）とＳ（ｉ）を導くために、コンスタントに更
新されてよい。フラグ“ｉ＝m"も生成されて、シンボル
a_iがソース・アルフアベツトの最終シンボルか否かを表
示する。

ステツプ（２）では、スケーリング・フアクタＫを与え
るべく、Ａレジスタの内容が切り捨てられる。

ステツプ（３）では、ｐ（ｉ）とＳ（ｉ）の値が、それ
ぞれ、ステツプ（２）で求められた値Ｋと掛け合わさ
れ、値Ｋ＊ｐ（ｉ）とＫ＊Ｓ（ｉ）が生成される。この
乗算では、単一のシフト・アンド・アド（シフト及び加
算）・オペレーシヨンが用いられる。Ｋ＊ｐ（ｉ）とＫ
＊Ｓ（ｉ）は上述のように一次バツフアにストアされ
る。値ＡとＫ＊Ｓ（ｉ）は減算器に送られ、Ａ−Ｋ＊ｐ
（ｉ）なる値が出力される。同様に、値ＣとＫ＊Ｓ
（ｉ）は加算器に送られ、Ｃ＋Ｋ＊Ｓ（ｉ）なる値が出
力される。減算器の出力Ａ−Ｋ＊Ｓ（ｉ）と値Ｋ＊ｐ
（ｉ）は、フラグ“ｉ＝m"とともに、選択ロジツク・ユ
ニツトに送られる。選択ユニツトからの出力は、ｉ≠ｍ
のとき、Ｋ＊ｐ（ｉ）に等しく、ｉ＝ｍのとき、Ａ−Ｋ
＊Ｓ（ｉ）に等しい。

最後に、ステツプ（４）では、シフト・コントロール・
ユニツトがＡレジスタの内容が指定された範囲内に収ま
るまで、ＡとＣのレジスタをシフトする。ストツプ・フ
ラグが生成されると、それによつてシフト・オペレーシ
ヨンがストツプする。ステツプ（１）で導かれた“END"
フラグはシフト・コントロール・ユニツトへ渡されるの
で、入力ストリングの最後では、シフト・コントロール
・ユニツトがＣレジスタを６位置分シフトさせ（なぜな
ら、６ビツトのＡレジスタ、Ｃレジスタを使つているか
ら）、Ｃレジスタを空にする。STOPまたはENDフラグに
応答してSHIFTコントロール・ユニツトがＣレジスタを
シフトさせるのにつれて、Ｃレジスタから外へシフトさ
れたデータが連結され、出力ストリングを形成する。必
要ならば、第１図及び上述の例を参照して説明したよう
に、キヤリー・ビツトが出力ストリングに連結される。

上述した例では、常にＡレジスタの内容が1.0から2.0の
範囲に収まるように、つまりAE〔１、２）となるよう
に、Ａレジスタの正規化が行われている。しかし、Ａレ
ジスタの正規化は、0.1と1.0（２進値）の範囲で行われ
てもよいし、あるいはその範囲を適宜２の倍数を掛けて
変更できることもすぐに理解できよう。このような範囲
が変わつても、同じアルゴリズムを使える。しかし、確
率を適宜２の倍数で割つたり、あるいは掛けたりするこ
とが必要になる。さらに、上述した特定の例では、ソー
ス・データ・ストリングSTRの第３シンボルを符号化す
るときにキヤリー・オーバーが生じる。上記の例では、
結果のコードがデコーダに送られるのは、ソース・デー
タ・ストリングSTRのすべてのシンボルが符号化されて
からである。明らかに、Ｃレジスタから外へシフトされ
内容を連結してストリングを形成してストアしておき、
STR全部が符号されてから圧縮データが生成されるや否
やそれをリアル・タイムで転送することが現実には望ま
しい。

本発明の別の実施例としては、Ｋを生じさせる近似を改
良した修正方法がある。前記実施例のようにＡレジスタ
の１のうち上位３番目以後を切り捨てる代りに、上位４
番目以後の１を切り捨てても本発明の実施は可能であ
る。もつとも、前記実施例の場合に比べて、シフト・ア
ンド・アド・オペレーシヨンがもう１回必要になるとい
う代償を伴うことになる。明らかに、このような改良
は、さらに押し進めて行くことができ、その極限ではス
ケーリング・フアクタＫがＡレジスタの内容と全く等し
くなる。これは、近似を用いない算術符号化ということ
になる。しかしながら、上記図面を参照して説明した方
法によれば、Ａレジスタの内容を近似しつつも、98％を
越える効率を達成できる。

本発明の原理に従つて導かれた圧縮出力データ・ストリ
ングの復号は、実質的に符号化の逆である。したがつ
て、まず、Ａレジスタが１（1.000……）で満たされ、
Ｃレジスタは圧縮済ストリングＲ（comp）の最初の６個
のシンボルで満たされる。

次に、ソース・データ・ストリングSTRが相次いで復号
されていくわけだが、その際、Ｃ≧Ｋ＊Ｓ（ｊ）となる
ｊのうち、最大のものが決定される。ここで、Ｋ及びＳ
（ｊ）は、符号器に関して説明したものと同じである。
Ｃは、Ｃレジスタの外でMSBの隣りに２進小数点を持つ
２進小数として解釈される。このようにしてｊが決定さ
れたなら、現在シンボル、つまり現段階で出力されるシ
ンボルはa_jである。ここで、a₀…a_mは、上述の定義どお
りのマルチ・アルフアベツトである。

続いて、Ｃレジスタの内容から、Ｋ＊３（ｊ）の値が引
き算される一方、Ａレジスタの内容は、ｉ＝ｍか否かに
従つて修正される。Ｊ≠ｍならば、Ｋ＊ｐ（ｊ）の値が
Ａレジスタに挿入される。他方、ｊ＝ｍならば、Ａレジ
スタの内容からＫ＊Ｓ（ｊ）が引き算される。

最後に、Ａレジスタの内容が、所定の範囲に収まるま
で、つまりＡ∈［1,2）となるまで、Ａレジスタ及びＣ
レジスタが所定の向きにシフトされる。Ａレジスタの中
の空いた位置（ビツト）は、０で満たされ、Ｃレジスタ
の中の空いた位置は、圧縮済データ・ストリングＲ（co
mp）の中の残りのデジツトのうち、最上位から数えて、
空いた位置の数に該当するデジツトでもつて充填され
る。Ｒ（comp）が空になるまでプロセスは繰り返され、
そして完結する。

E.効果本発明の圧縮符号化方法及び復号方法は、効率及び時間
の両方の点で優れている。

【図面の簡単な説明】

第１図は、本発明による符号化法のフロー・チヤートで
ある。第２図は、第２図の方法が実行される際の、レジスタ間
でのデータの流れの説明図である。第３図は、５つのシンボルについての確率及び累積確率
の例を示す説明図である。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭63−74324（ＪＰ，Ａ)

Claims

【特許請求の範囲】

【請求項１】（ｍ＋１）個のシンボル（ｍは自然数）が
あり、各シンボルa_i（ｉ＝0,・・,m）について、その発
生確率ｐ（ｉ）が与えられるとともに、Ｓ（ｉ）＝ｐ（０）＋ｐ（１）＋・・・・＋ｐ（ｉ−
１）（ｉ＝0,・・,m）,S（０）＝０なる式によって蓄積確率Ｓ（ｉ）が与えられていると
き、一対の夫々Ｗビット分の位置を有するＡレジスタ及
びＣレジクタを用いて、含まれる各シンボルが上記（ｍ
＋１）個のシンボルの何れかであるソース・データ・ス
トリングを圧縮し、圧縮表現は該ソース・データ・スト
リングの相次ぐシンボルに対応する相次ぐサイクルの中
で帰納的に生成される圧縮符号化方法であって、（ａ）Ａレジスタ及びＣレジスタ中に夫々の初期内容を
与え、ソース・データ・ストリング中のシンボルa_iについて、（ｂ）Ａレジスタの内容を取り出し、Ａレジスタに含ま
れる１であるビットのうち近似として用いるのに十分下
位のものを切り捨てることによって、スケーリング・フ
ァクタＫを決定し、（ｃ）ＫとＳ（ｉ）の積を求めてこれをＡレジスタの内
容に加算し、（ｄ）（d1）シンボルa_iがシンボルa_mでないならば、Ｋ
とｐ（ｉ）の積を求めてこれをＡレジスタの新たな内容
とし、または、（d2）シンボルa_iがシンボルa_mであるならば、ＫとＳ
（ｉ）の積を求めてこれをＡレジスタの内容から引き算
をすることによって、Ａレジスタの内容を決定し、（ｅ）Ａレジスタの内容を規格化し、該規格化のために
Ａレジスタがシフトされた方向であって且つシフトされ
たビット数だけＣレジスタをシフトし、Ａレジスタ及び
Ｃレジスタの空いた位置にはゼロを充填し、（ｆ）シンボルa_iがソース・データ・ストリングの最終
シンボルでなければ、上記ステップ（ｂ）ないし（ｅ）
を繰り返し、シンボルa_iがソース・データ・ストリング
の最終シンボルならば、Ｃレジスタの内容を上記シフト
された方向にＷ位置だけシフトするステップを有する圧縮符号化方法。
【請求項２】上記請求項１の方法におけるものと同様に
定義されたシンボルa_i、確率ｐ（ｉ）、累積確率Ｓ
（ｉ）（何れもｉ＝0,・・,m）並びにＡレジスタ及びＣ
レジスタがあるときに、上記請求項１記載の方法により
生成されたソース・データ・ストリングの圧縮表現を復
号する方法であって、（ａ）Ｃレジスタの内容を上記圧縮表現の最上位から数
えてＷ桁までの内容に初期設定するとともに、Ａレジス
タに請求項１での初期内容を与え、ソース・データ・ストリング中のシンボルa_iを順次復号
すべく、（ｂ）Ａレジスタの内容を取り出し、Ａレジスタに含ま
れる１であるビットのうち近似として用いるのに十分下
位のものを切り捨てることによって、スケーリング・フ
アクタＫを決定し、（ｃ）Ｃ≧Ｋ＊Ｓ（ｊ）となるようなｊのうちの最大の
ものを求め、a_jをもって現段階で出力されるシンボルと
なし、（ｄ）（d1）シンボルa_jがシンボルa_mでないならば、Ｋ
とｐ（ｕ）の積を求めてこれをＡレジスタの新たな内容
とし、または、（d2）シンボルa_jがシンボルa_mであるならば、ＫとＳ
（ｊ）の積を求めてこれをＡレジスタの内容から引き算
することによって、Ａレジスタの内容を決定し、（ｅ）ＫとＳ（ｊ）の積を求めてこれをＣレジスタの内
容から引き算し、（ｆ）Ａレジスタの内容を規格化し、該規格化のために
Ａレジスタがシフトされた方向であって且つシフトされ
たビット数だけＣレジスタをシフトし、Ａレジスタの空
いた位置にはゼロを充填するとともに、Ｃレジスタの空
いた位置には、上記圧縮表現の未処理部分の内容を、そ
の最上位の桁から空いた位置の数と同じ桁数だけ取り出
して充填し、上記圧縮表現の未処理部分がなくなるま
で、上記ステップ（ｂ）ないし（ｆ）を繰り返すステップを有する、復号方法。