JP2549254B2

JP2549254B2 - 有限アルファベットの任意記号の発生確率予測方法及び装置

Info

Publication number: JP2549254B2
Application number: JP5267523A
Authority: JP
Inventors: ポール・ドナルド・ヒーレイ; ヨルマ・ヨハネス・リサネン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1992-11-20
Filing date: 1993-10-26
Publication date: 1996-10-30
Anticipated expiration: 2011-10-30
Also published as: US5357250A; JPH06222904A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は一般にデータ符号化分野
に関し、特に記号ストリング又はデータ・ストリームに
おける記号の過去の発生にもとづく記号確率の計算に関
する。

【０００２】

【従来の技術】データ記憶或いは遠隔ポイント間におけ
るデータ転送の効率を改良する数多くの技術及びシステ
ムが開発されてきた。データはしばしば用語"アルファ
ベット"と呼ばれる所定の記号セットからの符号化記号
のストリングを含む。周知の例は、情報交換用米国標準
コード（ＡＳＣＩＩ：American Standard Code forInfo
mation Interchange）であり、これは英数字、句読記
号、及び種々の特殊なコマンド文字を２進値に符号化す
る。もちろん、数字、句読点又は区別的発音符を含む他
の記号セット、或いは２進又は他の表現も本発明の範疇
に含まれる。用語"アルファベット"はこうした記号セッ
トをカバーする最も広い意味で使用される。

【０００３】ＡＳＣＩＩ記号などのいくつかのタイプの
記号は、全て等しい長さ（length）を有する。しかしな
がら、データ通信環境にもとづく文字に関しては、全て
の文字が同じ頻度で現れない。これらの文字の発生頻度
に関わらず、全ての文字（ＡＳＣＩＩコードなど）に対
し等しい長さのコードを割当てることは非効率的である
ことが知られている。効率を改良するために、様々なデ
ータ圧縮方法が使用されてきた。これらの方法は、一般
に記号の発生確率が減少すると、そのビット長が増加す
るコードにより符号化する。

【０００４】データ圧縮又は符号化のこうした技術
は、"エントロピ符号化"と呼ばれる。エントロピ符号化
においては、より確率の高い事象は比較的少ない数のビ
ットにより特徴化されるコードワードにより表され、一
方、確率の低い事象は比較的大きな数のビットにより表
される。コードワード長の正確な割当ては、情報理論の
概念により示され、事象の発生の予測確率にもとづく。
予測される確率が高いほど、コードワード長の割当て及
び圧縮が効率的となる。

【０００５】データの量を累算し、データ内の各記号に
対する全確率を計算し、伝送以前に大量のデータを符号
化することにより、発生頻度分布が計算可能である。し
かしながら、記号ストリーム内のアルファベット記号の
発生確率は原因にもとづき予測される。すなわち、符号
化される記号以前の記号の発生にもとづき、符号化され
る記号の後に続く記号の発生にはよらない。これは符号
化された記号が受信時に復号化されることによる。任意
の符号化記号の到来時、以前に受信された符号化記号だ
けが受信器にとって使用可能である。

【０００６】一般に、事象又は発生の確率は以前のデー
タ、或いは直観、数学、仮定、統計収集などにもとづく
初期予測からの予測値として決定される。初期予測の予
測値は次に続く発生事象により測定される。

【０００７】ある従来技術では、記号の発生確率がデー
タ処理以前に決定され、固定される。データがこれらの
固定確率に従い符号化される。これらのシステムでは、
得られる結果が、一般に文字の実際の発生率を反映しな
い確率値にもとづくという欠点を有する。なぜなら、こ
れらの発生率は、文字のデータ・ストリーム内における
位置により変化するからである。結果的にデータ・スト
リームが最適効率により符号化されない。

【０００８】ある従来のデータ圧縮システムは、符号化
装置及び復号化装置の両方において、記号発生頻度に依
存する。Kenemuthによる米国特許出願第４５１６２４６
号、"Data Compression System" では、データ・ストリ
ーム内の文字列が、ストリーム内の記号の頻度を決定す
るために、記号ストリームのサンプルのヒストグラムを
使用することにより、圧縮形式に符号化される。この方
法は、頻度又はヒストグラムが新たな記号の到来時に再
評価されるために、適応型である。しかしながら、この
方法は、符号化が固定サイズの過去の区間における度数
分布にもとづく点で、欠点を有する。これは記号の傾向
に対する感度を制限する。

【０００９】他の従来の適応型のデータ圧縮システム
は、確率予測の適応性に依存する。Duttweilerによる米
国特許出願第５０２５２５８号、"Adaptive Probabilit
yEstimator for Entropy Encoding/Decoding"では、確
率予測器の適応率を制御式に調整することにより、より
正確な確率予測を獲得する。すなわち、適応率を予測さ
れる実際の確率値に適合させることにより、適応率が最
適化される。特に、適応率は予測される最も好適な確率
値の逆数に比例するように最適化される。この方法はま
た、記号発生の確率予測が可変となるようにも適応す
る。しかしながら、確率予測が過去の記号発生の相対度
数にもとづいており、時間的分布を考慮しないため、記
号発生頻度の実際の傾向はまだ予想されない。

【００１０】Chamzasらによる米国特許出願第５０２３
６１１号、"Entropy Encoder/Decoder Including a Con
text Extractor"では、記号のコンテキストを定義する
ために使用されるコンテキスト抽出器の遅れ時間の構成
を調整することにより、より正確な確率予測が獲得され
る。この方法は固定区間方法を改良するが、各時間ポイ
ントにおける非選択区間の影響を必然的に無視しなけれ
ばならない。

【００１１】従って、上述の従来技術の欠点を克服する
ために、データ通信環境において使用されるデータ圧縮
技術は、記号発生の傾向を確率計算において考慮し、好
適には、より最近過去の発生に対しより大きな重み付け
をするように、記号発生の重み付けを行うべきである。
こうした技術は、既に転送された記号の分布にもとづ
き、可能性のある全ての記号に対し、最適なコード割当
てを効率的に計算することが可能でなければならない。
更に、記号ストリームにおける記号の度数分布の変化を
検出し、それに従い符号化方法を適応可能でなければな
らない。

【００１２】

【発明が解決しようとする課題】本発明の目的は、過去
の記号発生傾向にもとづき記号発生確率を確立すること
により、改良されたデータ圧縮を可能とする、データ圧
縮及び符号化において使用される、記号発生確率を決定
する適応型のシステム及び方法を提供することである。

【００１３】本発明の別の目的は、より最近の記号発生
に対し、より大きな重み付けをするように過去の記号発
生の重み付けを行う、データ圧縮及び符号化において使
用される、記号発生確率を決定するシステム及び方法を
提供することである。

【００１４】本発明の別の目的は、過去の複数の区間に
おける記号発生を考慮して将来の記号発生確率を予測す
る、データ圧縮及び符号化において使用される、記号発
生確率を決定するシステム及び方法を提供することであ
る。

【００１５】

【課題を解決するための手段】任意記号の発生確率の適
応計算は、最初に任意記号の発生の初期確率の予測値を
計算することにより決定される。アルファベット記号の
初期確率は、記号ストリング内の記号の過去の発生に調
和する確率値を生成する周知の手段により計算される。
これは当初、記号メモリ又は"コンテキスト抽出器"（以
降で詳述）が記号の過去の発生を含み、それ以後の確率
については、記号のこれらの過去の発生に部分的にもと
づき計算されるからである。

【００１６】初期確率を計算する好適な方法は、事前定
義される区間内又は多数のネスト化区間内における記号
発生回数をカウントし、各ネスト化区間内における記号
発生の正規化回数を利用する。記号アルファベット内の
各記号は、固有の確率予測、及び対応する確率レジスタ
が提供される。

【００１７】本発明によれば、ネスト化される複数の区
間が使用される。すなわち、各ネスト化区間は、最も最
近の記号を含む記号ストリングの共通の第１の位置を共
用する。区間は最も最近受信された記号をプリデート
（pre-date）する連続的に受信される記号を様々な数含
む。好適にはネスト化区間の数は、２の整数乗に等し
い。また、区間が特定のサイズの制約条件に依存するこ
とが望ましい。一般に、区間はそれらに含まれる記号の
数に関し、全て同一の底の累乗である長さを有する。そ
れとは別に、区間はその比率が２の整数乗であるサイズ
を有することができる。ここで詳述される実施例では、
区間のサイズは２の整数乗である。

【００１８】区間内に現存する記号は、記号コンテキス
トを形成する。次の記号がアルファベットの任意記号で
ある確率は、現在区間内に存在するその任意記号の発生
回数にもとづいて決定される。記号コンテキストに入力
される新たな記号は、各区間の最も最近の記号位置に入
力され、実質的に、最も以前に到来した記号を各区間か
ら押出す。

【００１９】新記号は複数の新記号の部分的確率分散を
定義し、それぞれは各ネスト化区間に関連する。新記号
はまた全体的な新記号分散を定義し、これは記号発生確
率の部分的増分変化を表す。新記号に一致する記号に対
しては、この新記号による確率分散は確率の増分とな
る。他の全ての記号に対しては、新記号による確率分散
は、確率の変化を生じない。任意の区間における新記号
の部分的確率分散は、区間の長さの逆数として定義され
る。新記号の分散は、全ての区間に渡るその新記号の部
分的確率分散の平均として定義される。

【００２０】同様に各ネスト化区間を離脱する各旧記号
は、それぞれの区間における各記号に対応する旧記号の
部分的確率分散を定義する。区間を離脱する旧記号が任
意記号に一致する区間では、旧記号の部分的確率分散
は、その任意記号にとって確率の減少となる。他の全て
の区間においては、その旧記号の部分的確率分散は、確
率の変化を生じない。全体的な旧記号の確率分散が、ア
ルファベットの各記号に対応して計算される。任意記号
に対し旧記号の確率分散は、その任意記号の発生を失う
区間におけるその旧記号の部分的確率分散の平均であ
る。任意の区間における旧記号の部分的確率分散は、区
間の長さの逆数として定義される。

【００２１】このようにして、新記号の到来以前の時刻
における任意記号の発生確率が提供されると、記号分散
を加算及び減算することにより、その新記号の到来以後
の時刻におけるその任意記号の発生確率が計算される。
特に、新記号が任意記号であり、且つ０値以外の場合、
正の値を有する新記号分散が旧確率に加算され、任意記
号に一致する各旧記号に対応する正の要素と、その任意
記号に一致しない各旧記号に対応する０値要素を有する
旧記号分散が、旧確率から減算される。

【００２２】新記号の増分分散及び旧記号の増分分散の
数学的及び論理的組合わせは、旧記号及び新記号の排他
的論理和（ＸＯＲ）比較に等しい。新記号及びある区間
を離脱する旧記号の両者が任意記号に一致するか、或い
は両者共に一致しない場合、その区間におけるその任意
記号の発生回数は変化しない。すなわち、その区間に対
応する組合わせ確率分散は０である。新記号及び旧記号
の一方が任意記号に一致し、他方が一致しない場合、そ
の区間におけるその任意記号の発生回数は変化し、確率
分散は０でない値を有する。従って、後述される本発明
の実施例では、区間を基本とする新記号と旧記号とのブ
ール差を決定し、確率分散が非ゼロ値を有するかどうか
を決定するＸＯＲ装置を使用する。

【００２３】従ってその後の確率予測は、続く新記号分
散と旧記号分散のＸＯＲ比較により予測される。この比
較は各区間からの要素を含む分散絶対値を生成し、これ
は次に初期確率に加算或いはそれから減算されて、更新
確率を生成する。こうして続く確率予測を決定するため
に、記号コンテキスト内の全てのデータを操作すること
が回避される。

【００２４】ネスト化区間の数が２の整数乗として選択
されると、区間長もまた２の累乗に選択され、確率予測
は、記号アルファベット内の各記号の初期確率に対する
新記号分散及び旧記号分散にもとづいて、簡単な計算に
より求められる。

【００２５】

【実施例】本発明によれば、記号ストリーム内のアルフ
ァベット記号の発生確率を、記号の過去の発生及び発生
傾向にもとづき決定する方法及び装置が提供される。こ
うした確率は、次に、符号化される各記号にコードを割
当てるために有利に使用される。記号ストリング内に文
字が頻繁に出現することが予測されるほど、そのコード
は短くなる。

【００２６】位数Ｎの基本的度数モデルでは、記号スト
リング又は記号コンテキスト内の次の記号として発生す
る記号の確率は、現記号で終了する長さＮの区間におけ
る記号頻度により等式化される。確率は有限過去の関数
であるが、過去の記号コンテキスト内の各記号発生に対
しては、均一な重みが割当てられるために、こうしたモ
デルは適応性を有する。基本度数モデルに従い、記号ス
トリーム内に現れる任意記号ｓの確率ｐ_(s) は、同一サ
ンプル・ウィンドウ内の記号の総数Ｎに対する記号ｓの
発生回数ｎ（s）の比率として定義される。すなわち、

【数１】ｐ_(s)＝ｎ_(s)／Ｎ（１）

【００２７】で与えられ、これらの確率は各記号に対し
て計算される。

【００２８】式（１）において、区間内の任意記号の全
ての発生に対し、等しい重み付け又は値が与えられる。
すなわち各記号発生は、現時点からの現区間内における
任意記号発生の相対間隔に無関係に、等しい重み付け又
は重要度を与えられる。

【００２９】記号確率予測のより高度な適応計算は、統
計的に局所変化に適応することにより達成される。現時
点からの間隔が増加すると、重み又は重要度の減少が任
意記号発生に割当てられる。例えば、位数Ｎの適応型の
ある度数モデルは、一般に次のように定義される。

【数２】

【００３０】ここでｍは区間の数であり、φ_kはｋ番目
の区間の重み係数であり、Ｃ_s（Ｉ_{k）は区間Ｉ} _k にお
ける任意記号ｓのカウントである。式（２）は要素基本
度数モデルからの予測の凸状重み付け平均を表す。

【００３１】Mohiuddinらによる"Adaptive Model for N
onstationary Source"（IBMTechnical Disclosure Bull
etin、Vol．28、No．11、Apr．1986、pp．4798-4800）
では、用語"フォーゲティング係数（forgetting facto
r）" が使用されており、これは記号ストリングの"スラ
イディング・ウィンドウ"に代わるものである。式
（２）は度数すなわち区間内における任意記号の発生頻
度に関するが、数学的に等価な公式では、時間に関し次
のように示される。

【数３】

【００３２】ここで次の関係がある。

【数４】

【００３３】この等価な形式では、式（３）はMohiuddi
n らの"フォーゲティング"係数の代替を提供し、次の記
号発生の確率を好適に計算する。

【００３４】式（２）及び式（３）は、分布のクラスが
Rissanenの確率的複雑性形式（stochastic complexity
formalism）（Rissanen、"Stochastic Complexity"、Jo
urnal of the Royal Statistical Society、Series
B．、Vol．49、No．3、1987）における"以前の"分布に
関して統合される様子を例証する。式（２）において、
以前の分布は重みφ_k を含み、分布のクラスは時刻ｔに
おいて基本度数モデルにより決定されるクラスとなり、
モデルとなるストリング又は区間のセットは、単に"次
の"記号のセットであるか、有限のアルファベットであ
る。しかしながら、以前の分布を選択する問題が残る。

【００３５】長さｎ、重みがｋ番目の区間において、１
／（ｋ＋１）に比例する全ての区間について考慮するも
のとする。ここで０≦ｋ≦ｎ−１である。直観的でなく
数学的には、式（２）における重みφ_k が、１／（ｋ＋
１）の様に複雑な場合に、適応型度数モデル全体を更新
することは、明らかに容易ではない。各記号発生は過去
に１ステップ遡るために、新たな重み計算は係数ｋ＋１
／（ｋ＋２）による乗算を含む。全ての可能性のある重
み値が事前に記憶されていたとしても、各ステップにお
ける加算の総数は、値を変更する記号の数のオーダとな
る。

【００３６】一般に、式（２）で与えられる区間の全セ
ットを使用することは、計算が高価となる。従って、次
に示す近似が行われる。

【数５】

【００３７】ここでＣ_s （ａ、ｂ）は記号ストリーム区
間における記号ｓの発生回数であり、ｌ_k はｋ番目の区
間長の底２の対数である。

【００３８】区間長が２の整数乗すなわちｌ_k が整数、
重みが２の累乗、及び区間の数ｎが２の累乗である制限
を加えることにより計算効率が達成され、記号確率を生
成する有利で単純な方法及び装置が実現される。例え
ば、式（４）において、ｌ_k ＝ｋと設定すると、比較的
区間数の少ない場合では、全ての区間に渡り、重み付け
方法１／（ｋ＋１）に対して、非常に良好な近似を生成
する。

【００３９】本発明によれば、ストリングの以前に発生
した記号に対し、重み係数φ_k が適応される。これは以
前に発生した記号の様々な連続グループを包含する区間
を定義することにより達成される。こうした区間は、以
前に発生した記号のそれぞれが異なる数の区間に含まれ
るようにネスト化、すなわちオーバラップされる。確率
分散が各区間に対応して計算される。従って、以前に発
生した任意記号が多くの区間に含まれるほど、その文字
により影響される確率分散の数は大きくなる。すなわ
ち、その記号に対応する重み係数φ_k が大きくなる。

【００４０】本発明の技術思想の範疇において、区間の
数及び相関し合うそれらのサイズが変化することが理解
されよう。また、区間をネスト化する方法についても変
更可能である。これら全ての要因が、以前に発生した異
なる記号に適応される相対重みを変更するように機能す
る。しかしながら、特定の制約条件がこれらの要因に加
わると、確率計算が巧妙に計算効率よく実施されること
が既に述べられた。従って、本発明の実施例はこれらの
制約条件に従う。すなわち、全ての区間が最も最近の記
号、及び最も最近の記号から時間的に遡って連続的に受
信された記号のセットを含む。区間の数は２の整数乗で
あり、区間のサイズは２の累乗である。最小区間は好適
には単一記号のサイズである。区間サイズは２の連続的
累乗が好適であるが、それに限るものではない。すなわ
ち、例えば８区間を用いるシステムが、区間サイズ比
１：２：４：８：３２：１２８：２５６：１０２４を有
する。記号ストリームに関する統計的情報が知れている
場合、しばしば、２の特定の累乗を省くことが望まし
く、この場合には６４及び５１２が省かれている。同様
に、これは１／（ｋ＋１）以外の重み付け方法の近似を
考慮する。後述される本発明の実施例は、これらの属性
を有する。

【００４１】本発明の実施例である２つのクラスについ
て述べることにする。第１のクラスは２進記号ストリー
ム、すなわち０と１の２個の記号だけを有する２進アル
ファベットの記号ストリームを扱う。第２のクラスはｎ
配列記号を扱う。従って、第２のクラスでは、アルファ
ベットの記号数には固有の制限が存在しない。記号はｎ
ビットの２進数、文字セット又は他の適切な形式により
表される。

【００４２】図１を参照すると、データ・ストリーム
が、ｎ個の記号を含む有限アルファベットＳにおける記
号ストリング＜S_t＞として表されている。ｔはストリン
グ指標である。任意の時刻ｔにおいて、過去の値
S_t-m．．．S_t-1の関数としてのアルファベットＳの確率
分布が望まれる。

【００４３】本発明の第１の実施例によれば、アルファ
ベットＳは２進であり、０と１の２個の記号だけを含
み、アルファベットの記号数ｎは２である。この単純な
ケースでは、記号０及び１にそれぞれ対応する確率ｐ
（０）及びｐ（１）の和が、

【数６】ｐ₍₀₎＋ｐ₍₁₎＝１

【００４４】であることが容易に理解される。ｎ個の記
号のアルファベットが使用される、より一般的なケース
では、アルファベット内のｎ個の記号に対応する確率の
総和は次のようになる。

【数７】

【００４５】記号ストリングはコンテキスト抽出器１の
入力として提供される。コンテキスト抽出器１は、記号
ストリング＜S_t＞上のコンテキスト又はサンプルを抽出
する。本発明の目的のために、コンテキストは現時点よ
り以前に受信されて、コンテキスト抽出器１に記憶され
ている記号のセットとして定義される。コンテキスト抽
出器１は好適には、記号ストリング＜S_t＞の記号を受信
してシフトするシフト・レジスタ、或いは循環バッファ
すなわちキューを含む。循環バッファでは、記号はバッ
ファの終わりに達するまで連続メモリ・ロケーションに
書込まれ、その後、バッファの先頭に循環される。

【００４６】コンテキスト抽出器１は更に複数のネスト
化区間を提供する。シフト・レジスタ及びキューなどの
メモリ構造の動作は、当業者には知られており、これら
の装置の使用に関する詳細な説明については省略する。
区間はメモリ・ロケーション又はシフト・レジスタ・ス
テージに関連して定義される。新記号ｎｓが受信され記
憶されると、各区間の内容が実質的にシフトされる。従
って新記号が各区間内で、最も最近受信された記号に対
応する位置に配置される。各新記号ｎｓがコンテキスト
抽出器１に入力されると、旧記号ｏｓ_(k) がｋ番目の区
間の終わりで失われる。これはｍ個の区間の各々に対応
して実施される。ここで０≦ｋ≦ｍ−１である。

【００４７】コンテキスト抽出器１はｎ個の各区間から
旧記号を提供する出力、タップ、又は出力ポインタなど
の適切な手段を含む。

【００４８】各記号Ｓに対応して１個、或いは合計ｍ個
の複数の確率予測器が提供される。２進記号ストリング
に対して作用する図１のシステムの場合、２個の確率発
生器２及び３が示されている。確率発生器２は２進記号
１が発生する確率を生成し、確率発生器３は２進記号０
が発生する確率を生成する。

【００４９】一般にｎ個の記号アルファベットでは、１
乃至ｎ−１個の記号の確率の総和を引いた値が、残りの
記号の確率に等しい。従って、確率発生器の１個を取り
除き、残りの確率を生成するための計算を実行する適切
な装置を追加することが可能である。ｎ−１個の確率発
生器を使用するシステムを実現する様々な方法が存在す
る。いずれの各確率も１から減算され、それらの確率が
加算され、その総和が１から減算されるか、それらの特
定の組合わせが実行される。２進アルファベットなどの
２個の記号アルファベットの場合では、これは有利に実
行される。より大きなアルファベットでは、こうした実
施例は複雑となり有利性に欠ける。

【００５０】図２は図１に類似するシステムのブロック
図を示すが、前述の減算方法を使用し、２進アルファベ
ットの両方の記号の確率を決定するための適切な変更が
実施されている。確率発生器の１個は除去されている。
２個の記号しか存在しないため確率を加算したり、減算
シーケンスを実行する必要はない。確率発生器２により
生成される確率は、"１−Ｘ"と記される減算器５により
単に１から減算され、その結果、他の記号の確率が生成
される。ｎ個の記号を含むより大きなアルファベットで
は、図２の実施例はｎ−１個の確率発生器、及びそれら
が生成するｎ−１個の確率の加算器、或いは減算器５へ
確率を減数として提供するシーケンサなどの適切な装置
を必要とする。

【００５１】次に示す説明は再度図１に注目するが、適
宜、図２も参照される。有限アルファベット内の各記号
の発生確率が更新されて、確率予測器２のそれぞれに記
憶される。旧記号ｏｓ_(k) がコンテキスト抽出器１から
各確率予測器２に供給される。確率予測器の詳細を次に
説明する。

【００５２】本発明が実施される環境を説明するため
に、算術エンコーダ・ユニット４が提供される。エンコ
ーダ４はアルファベットの各記号の確率を受信するよう
に結合される。本発明により生成される確率を使用し
て、エンコーダ４は記号ストリームをデータ圧縮コーデ
ィングにより効率的に符号化する。結果的に過去の記号
発生の関数としてセットされる次の記号の確率にもとづ
き、記号ストリームが従来の記号コーディングの場合に
比較して、より高速に転送される。

【００５３】図３及び図４は、図１及び図２の確率予測
器２及び３のいずれかの２つの実施例の詳細図を示す。
図３はｎ配列記号アルファベットに対応して使用される
一般的な図を示す。図４は２進アルファベットの場合に
使用される単純化バージョンを示す。

【００５４】図３及び図４の両方において、確率レジス
タ１０４は確率予測器に関連する任意記号の確率ｐ_(s)
を記憶するために提供される。初期状態において、確率
レジスタ１０４はそれぞれの記号に対応する初期確率を
含む。この状態は時刻ｔにおいて式（３）に調和する。
すなわち、アルファベットの各記号の初期確率が、オペ
レーションの開始以前に、それぞれの確率予測器の確率
レジスタ１０４に記憶される。初期確率は、式（４）を
満足するためにコンテキスト抽出器１に初期記憶され
る、記号ストリームの一部に含まれるそれぞれの記号の
過去の発生にもとづき計算される。

【００５５】初期確率は好適には以下に示すように決定
される。最初に、記号ストリングの以前に発生した記号
がコンテキスト抽出器１にロードされ、ネスト化区間内
に存在する様々な部分が識別される。各区間に対し、ア
ルファベットの各記号の発生回数がカウントされる。次
に各区間内の各記号に対し、発生回数が正規化される。
これは好適には、発生回数をその区間内の記号の総数に
より除算して求められる。各記号に対する確率が、次に
各区間における正規化発生にもとづき決定される。これ
は好適には、正規化発生を平均化して求められる。最後
に、各記号に対応する結果が、それぞれの確率レジスタ
に記憶される。

【００５６】初期確率が計算され記憶された後、システ
ムは記号ストリームの新たな記号を受信開始する準備が
整う。ｎｓで示される新たな記号の到来時、確率が前述
されたように変更される。

【００５７】本発明は記号発生の初期確率及び初期確率
に対する分散にもとづき、記号発生の確率を適応性よく
予測する方法を提供する。初期確率に対する分散は２つ
の要素を含む。第１は新記号分散、又は任意記号の初期
確率に関する各ネスト化区間の最初の位置に入力される
新記号の作用である。第２は旧記号分散、又は任意記号
の初期確率に関する各ネスト化区間の最後の位置を離脱
する旧記号の作用である。

【００５８】ネスト化区間のセット内の各区間は、共通
な最初の位置を共用する。アルファベット記号の任意の
１つである新記号ｎｓが到来すると、これは各区間の最
も最近の記号位置に入力する。従って、各区間内の任意
記号の発生回数が１増分される（１つ又は複数の区間に
おける旧記号ｏｓもまた任意記号に相当する場合、回数
は同じままである）。任意記号の確率は、各区間におけ
る新記号の到来により、増加する（もちろん、これは１
つ又は複数の区間からの任意記号の離脱が、増加をキャ
ンセルしない場合に限る）。新記号の到来により生ずる
確率の増加は、次のように表される。

【数８】

【００５９】離脱する旧記号の値が任意記号の値に等し
い場合、各区間ｋはその区間を離脱する上記旧記号ｏｓ
_(k) に対応して１カウントを失う。区間の好適なネスト
化構成では、任意の区間を離脱する各記号は、その区間
における任意記号の発生回数に影響し、他の区間に対し
ては影響を与えない。ある区間からの旧記号の離脱によ
って生じる確率の減少は、次のように表される。

【数９】

【００６０】式（５）及び式（６）は、ストリング・コ
ンテキストに入力される新記号、及び複数の各ネスト化
区間の最終位置を離脱する旧記号の記号確率に対し、ネ
ット効果を提供する。到来する新記号の値及び各離脱す
る旧記号の値が全て任意記号の値に等しい場合、確率は
式（５）及び式（６）に従い、それぞれ増分及び減分
し、結果的に互いに相殺される。従って任意記号に対応
する確率は変化しない。

【００６１】図１、図３及び図４を参照すると、コンテ
キスト抽出器１からの旧記号ｏｓ_(k) はバス・ライン９
９を介して、確率予測器２及び３に供給される。また、
入力される新記号ｎｓはバス９８を介して、確率予測器
２及び３に供給される。前述の理論的説明によれば、各
確率予測器は新記号の到来に応答して、それぞれの任意
記号の発生の確率ｐ_(s) の変化を計算する。任意記号の
発生の更新された確率は、図３及び図４の確率レジスタ
に記憶される。（ｉ）新記号が任意記号であるか否か、
及び（ｉｉ）区間単位で、区間を離脱する旧記号が任意
記号であるか否か、と言う観点で変化が計算される。

【００６２】確率変化を計算する様々な方法が存在す
る。本発明の実施例によれば、図３又は図４の装置が使
用され、次に述べる方法が実行される。

【００６３】更に本発明の実施例によれば、新記号及び
旧記号の確率分散が表１に従い計算される。確率の分散
は各区間に対応して、新記号が任意記号に一致するか、
またその区間を離脱する旧記号が任意記号に一致するか
に依存して決定される。新記号及び旧記号の両者が任意
記号に一致するか、或いは両者共に一致しない場合に
は、新記号の到来及び旧記号の喪失による確率の変化は
発生しない。一方、旧記号と新記号の一方は任意記号に
一致するが、他方は一致しない場合、非ゼロの確率分散
が存在する。表１に示されるように、確率分散の符号す
なわち確率の増加又は減少にそれぞれ対応する＋又は−
は、旧記号及び新記号のどちらが確率予測器の任意記号
に一致するかにより決定される。

【００６４】表１はこれらの条件を一覧表に示し、各ケ
ースにおける確率への影響を示す。第１及び第４のケー
スでは、区間内の任意記号の発生回数は変化せず、確率
の変化は発生しない。第２のケースでは、任意記号の発
生回数は１増加し、確率の増加が発生する。第３のケー
スでは、任意記号の発生回数は１減少し、確率の減少が
発生する。

【表１】

【００６５】表１が実施される厳密な様子は、図３と図
４では異なる。図３のより一般的なケースについて最初
に説明し、続いて図４の単純化されたケースについて述
べることにする。

【００６６】図３は、表１を実施する論理網を示す。旧
記号ｏｓ₀からｏｓ_n-1が、コンテキスト抽出器１から論
理装置（排他的論理和（ＸＯＲ））の配列９０の入力に
供給される。配列９０の装置はまた、適切な手段９１に
より供給される任意記号を受信する。配列９０は、表１
の中央欄において、旧記号と任意記号とを排他的論理和
することにより論理テストを実施し、旧記号が任意記号
に一致するか否かを確認する。装置の出力は表１の中央
欄に従い、一致又は不一致を表すデータ又は信号とな
る。

【００６７】更に入力される新記号を受信し、それを任
意記号と比較する論理装置９２が提供される。装置９２
もまたＸＯＲゲートで示される。装置９０の出力及び装
置９２の出力を受信する論理装置の配列９３が更に追加
される。区間単位で、配列９３は表１の４つの条件のど
れが発生したかを判断する。表１の右欄から理解される
ように、装置９２によるテスト結果及び装置９０の１個
が一致すると（すなわちケース１及びケース４）、確率
変化は０となる。これは直観的にも理解される。なぜな
ら任意の区間において、新記号と旧記号の両者が任意記
号に一致するか、或いは両者共に一致しない場合、その
区間における任意記号の発生回数は変化しないからであ
る。結果的に、任意記号の発生の確率は変化しない。

【００６８】図において、前述のＸＯＲゲートは都合に
応じて、ハイ真理（high-true）或いはロウ真理（low-
true）の出力を有するように示される。各出力の適切な
論理位相の詳細な説明はここでは省くことにする。しか
しながら、当業者には容易に理解されるように、本発明
による確率予測器の特定の実施例では、適切なハイ真理
出力又はロウ真理出力を提供する論理設計が要求され
る。当業者においては、不要な実験を要せずに、こうし
た設計に対応することが可能であろう。

【００６９】論理装置９３（ＸＯＲゲート）は確率分散
の絶対値を反映する出力を生成する。表１から、ＸＯＲ
ゲートは第２及び第３のケースでは第１の値の出力を生
成し、第１及び第４のケースでは第２の値の出力を生成
する。結果は２進数形式でテンポラリ・レジスタ１０５
に記憶される。２進数のそれぞれのビット位置は、それ
ぞれの区間の重み係数として機能する。テンポラリ・レ
ジスタ１０５は到来する新記号（ｎｓ）、及び記号コン
テキスト抽出器１０１に記憶される複数の各ネスト化区
間の最終位置を離脱する旧記号ｏｓ_(k) に対して実行さ
れるＸＯＲオペレーションの結果を記憶する。

【００７０】結果の２進数をレジスタ１０４に記憶され
る確率値に加算する、或いはそこから減算する加算器／
減算器１０６が提供される。表１の第２及び第３のケー
スによれば、加算又は減算は新記号が任意記号に一致す
るか否かにもとづいて実行される。

【００７１】ＸＯＲゲート９２の出力は、加算器／減算
器１０６に制御信号を供給する。加算器／減算器１０６
はこの信号にもとづき加算又は減算を実行する。新記号
ｎｓが任意記号に一致する場合、テンポラリ・レジスタ
１０５の内容が確率レジスタ１０４の内容に加算され、
続く区間における任意記号の確率（ｐ_s（ｔ＋１））が
好適に予測される。新記号ｎｓが任意記号に一致しない
場合、テンポラリ・レジスタ１０５の内容が確率レジス
タ１０４の内容から減算され、続く区間における任意記
号の確率（ｐ_s（ｔ＋１））が好適に予測される。

【００７２】式（５）及び式（６）の組合わせは、ＸＯ
Ｒオペレーションにより数学的又は論理的に表現される
任意記号の分散を表現する。各離脱する旧記号の増分分
散（式（６）から求まる）は、０（離脱する旧記号の値
が任意記号に等しくない）又は１（旧記号の値が任意記
号の値に等しい）である。更に、到来する新記号の分散
（式（５））は、各位置において０（新記号の値が任意
記号に等しくない）か、各位置において１（新記号の値
が任意記号の値に等しい）である。０の場合、旧記号の
増分分散値が確率予測から減算される。１の場合、対応
する離脱する旧記号の値が任意記号に相当しなければ、
新記号の増分分散値が確率予測に加算される。任意記号
に相当する場合には、到来する新記号及び離脱する旧記
号の作用は相殺される。

【００７３】図３に示される確率予測器は、表１及び式
（５）及び式（６）の一般的な実施例である。ハードウ
ェアの実施例が示されているが、ソフトウェアによる実
施例についても使用可能なことが理解されよう。ソフト
ウェア実施例は、旧記号及び新記号を提供する手段、任
意の確率予測器に関連する任意の記号を記憶する手段、
記号の比較を実行する手段、及び結果の確率分散を記憶
される確率に加算或いはそれから減算する手段を含む。

【００７４】示される論理装置は、２進アルファベット
の記号ストリームに対し作用するシステムを示す。ｎ配
列のアルファベットが使用される場合、記号間の比較は
実質的に同様に実施されるが、示されるＸＯＲゲートは
ｎ配列のアルファベットの特定の性質に従う装置により
置換される。例えば、ＡＳＣＩＩ記号のビット表現の記
号ストリームが使用される場合、例えば２入力ＸＯＲゲ
ートの配列を使用することにより、記号はビット単位で
比較される。記号が一致するかどうかの全体的な判断を
生成するために、これらのＸＯＲゲートの出力が一緒に
論理和（ＯＲ）される。ＯＲ機能の出力は記号が一致す
る場合には０となり、一致しない場合は１となる。

【００７５】２進記号アルファベットすなわち２個の記
号だけのアルファベットの特定のケースでは、図３の確
率予測器は図４に示すように単純化される。単純化は表
１の第４のケースに起因する。アルファベット内に２個
の記号だけしか存在しないため、新記号も旧記号も任意
記号に一致しない場合には、旧記号と新記号とが互いに
一致することになる。従って、確率分散の絶対値を決定
するために、論理テストは旧記号と新記号との一致確認
だけに減る。両者が任意記号に一致するかどうかに無関
係に、互いに一致する場合は、区間における任意記号の
発生回数は変化せず、確率分散は０となる。新記号及び
旧記号が一致しない場合には、新記号又は旧記号の一方
が任意記号に等しく、他方が等しくない。この場合、結
果的にその区間における任意記号の発生回数は変化しな
ければならない。従って確率分散は非ゼロの絶対値を有
する。

【００７６】図４を参照すると、論理装置９７の配列が
提供され、コンテキスト抽出器１の種々の区間から旧シ
ンボルを受信し、それらの旧記号が任意記号に一致する
かをテストする。装置９７は排他的論理和（ＸＯＲ）ゲ
ートとして示される。

【００７７】各確率予測器はコンテキスト抽出器１の各
区間に対応して、１個のＸＯＲゲートを含む。配列９７
のＸＯＲゲートは第１の入力として新記号を受信し、第
２の入力として任意記号を受信する。図３のケースと同
様、ハード配線又はレジスタ内記憶などにより、任意記
号が適切に供給される。

【００７８】結果はテンポラリ・レジスタ１０５に２進
数形式で記憶される。２進数のそれぞれのビット位置
は、それぞれの区間における重み係数として作用する。
テンポラリ・レジスタ１０５は到来する新記号（ｎ
ｓ）、及び記号コンテキスト抽出器１０１に記憶される
複数の各ネスト化区間の最終位置を離脱する旧記号ｏｓ
_(k)に対して実行されるＸＯＲ演算結果を記憶する。

【００７９】結果の２進数を、レジスタ１０４に記憶さ
れる確率値に加算或いはそれから減算するために、加算
器／減算器１０６が再度提供される。表１の第２及び第
３のケースによれば、新記号が任意記号に一致するかど
うかにもとづき、加算又は減算が実行される。

【００８０】新記号を受信し、それをこの確率発生器の
任意記号と比較し、一致又は不一致を示す出力信号を提
供するために、ＸＯＲ装置１０７が再度提供される。加
算器／減算器１０６はこの信号を制御信号として受信
し、その値にもとづき加算又は減算を実行する。新記号
ｎｓが任意記号に一致する場合、テンポラリ・レジスタ
１０５の内容が確率レジスタ１０４の内容に追加され、
続く区間における任意記号の確率（ｐ_s（ｔ＋１））が
好適に予測される。新記号ｎｓが任意記号に一致しない
場合、テンポラリ・レジスタ１０５の内容が確率レジス
タ１０５の内容から減算され、続く区間における任意記
号の確率（ｐ_s（ｔ＋１））が好適に予測される。

【００８１】初期確率、新記号、旧記号、及び更新確率
の間の関係は、例を提示することにより最も分かり易く
説明される。説明のために、２進記号アルファベットを
使用するシステムが示される。しかしながら、相関は２
進アルファベットに特定されるものではなく、有限のア
ルファベットに拡張される。

【００８２】図５（Ａ）乃至（Ｅ）は、図４の確率予測
器のオペレーションを示す５つのスナップショットであ
る。上述のように、示される確率予測器は特定の任意記
号に関連する。説明の都合上、データ・ストリームが２
進アルファベットを表す１と０のストリームとして示さ
れている。以降で述べられるように、本発明はｎ配列記
号のアルファベットに適用可能である。こうした別の実
施例では、表される２進記号ストリームは、ｎ配列デー
タ・ストリームの記号と、表される確率予測器に関連す
る任意記号との論理一致チェックの結果に相当する。例
えば１が一致を示し、０が不一致を示す。こうした別の
実施例では、ＸＯＲ装置などの適切なチェック回路が提
供される。次に図示のように、１と０のストリームが確
率予測器に提供される。

【００８３】図５（Ａ）乃至（Ｅ）の５つの各スナップ
ショットにおいて、記号ストリームは左側に到来し、左
から右に移動する。コンテキスト抽出器１の内容が各ス
ナップショットにおいて右にシフトし、入力値がコンテ
ント抽出器の左側から１つずつ入力される。

【００８４】図５（Ａ）は記号ストリングの例を示し、
記号コンテント抽出器１に提供される最も最近の８個の
記号発生を表す。記号コンテキスト抽出器１はまた４個
のネスト化区間のセットを提供する。上述の区間の特性
によれば、区間長は２の整数乗である。例では、区間長
は１（最左端記号）、２（最左端の２個の記号）、４
（最左端の４個の記号）、及び８（図示の８個の全記
号）である。更に、区間数４は２の整数乗である。

【００８５】図５（Ａ）は確率レジスタ１０４に記憶さ
れる初期確率を示す。説明の都合上、初期確率はこれま
でに受信した記号シーケンスを基礎として、そのオペレ
ーションの間にシステムが獲得した確率に由来する。

【００８６】しかしながら、システムが丁度起動したば
かりでまだ記号を受信していない場合、初期確率は式
（４）に従う記号発生の基本度数に由来する。従って、
図５（Ａ）において、任意記号（１）の初期確率は次の
ようになる。

【数１０】ｐ₍₁₎＝１／４（０／１＋１／２＋３／４＋５／８）＝１５／３２（７）

【００８７】図５（Ａ）はまたテンポラリ・レジスタ１
０５を示し、これは記号コンテキスト抽出器１に入力さ
れる新記号の値と、ｋ個の各ネスト化区間の最終位置を
離脱するそれぞれの旧記号の値ｏｓ_(k) とのＸＯＲ比較
結果の内容を提供する。

【００８８】確率予測器のオペレーションは次のようで
ある。コンテキスト抽出器１内の４個の各区間の旧記号
が、入力される新記号とＸＯＲされる。この新記号は各
区間の最新の記号である。ＸＯＲ演算は、（ｉ）不一致
記号が区間からシフト出力され、不一致記号がシフト入
力される時、或いは（ｉｉ）一致記号がシフト出力さ
れ、一致希望がシフト入力される時に、任意の区間にお
いて０結果を有することが分かる。どちらの場合にも、
その区間における確率分散は０である。一方、ＸＯＲ演
算は、（ｉｉｉ）不一致記号がシフト出力され、一致記
号がシフト入力される時、或いは（ｉｖ）一致記号がシ
フト出力され、不一致記号がシフト入力される時、１の
結果を有する。ケース（ｉｉｉ）では、確率分散はその
区間において増加し、ケース（ｉｖ）では減少する。Ｘ
ＯＲ演算の非ゼロの結果が適切に確率に加算又は減算さ
れる。

【００８９】ＸＯＲ演算結果は２進数として、テンポラ
リ・レジスタ１０５に記憶される。この２進数は入力さ
れる記号の値によって、確率レジスタ１０４内の現在の
確率に加算又はそこから減算される。レジスタ１０４は
第１ビットに続いて暗黙的２進小数点を有し、この例に
おける最大確率値が１．０である事実を反映する。

【００９０】表される例では２進数が生成されるが、他
の実施例では、２以外の任意の基数を有する数が使用さ
れる。こうした別の実施例では、桁（使用される特定の
数体系の基数による）がそれぞれの区間に対応する。ま
た示される２進数字は、２の整数乗の逆数に相当する重
み係数を反映するが、これらの他の実施例では、それぞ
れの重み係数は基数の整数乗の逆数に相当する。

【００９１】最も古い記号が任意記号でない場合、区間
における任意記号の数は増加し、その区間における確率
が増加する。従って、現在の確率に加算されるテンポラ
リ・レジスタ１０５の値は、各区間に対応して１ビット
を含み、各区間において任意記号に一致しない記号がシ
フト出力される。こうした記号は区間に従うビット位置
により重み付けされる。

【００９２】図５（Ｂ）は、確率予測器の任意記号に一
致しない新記号ｎｓの到来時における、記号コンテキス
ト抽出器１の内容、及び確率レジスタ１０４の内容を示
す。確率は上記式（７）に調和して、次のように更新さ
れる。

【数１１】ｐ₍₁₎＝１／４（０／１＋０／２＋２／４＋４／８）＝８／３２（７）

【００９３】このように本発明は、各ネスト化区間に入
力される新記号の値及び各ネスト化区間の最終位置を離
脱する旧記号の値と同様に、記号コンテキスト抽出器１
の特性関係を利用する。確率が新記号の到来時に更新さ
れ、これは最初に新記号の値を各ネスト化区間を離脱す
る旧記号と比較することにより達成される。本発明によ
れば、この比較はＸＯＲ演算に従い、結果が初期確率に
加算或いはそれから減算される。到来する新記号の値が
任意記号に等しい場合、テンポラリ・レジスタの内容が
初期確率に加算される。到来する新記号の値が任意記号
に等しくない場合、テンポラリ・レジスタの内容が初期
確率から減算される。

【００９４】このように例では、図５（Ａ）のテンポラ
リ・レジスタは到来する新記号ｎｓと、複数の各ネスト
化区間を離脱する旧記号とのＸＯＲ演算の結果を提供す
る。到来する新記号の値（０）が任意記号の値（１）に
等しくない場合、テンポラリ・レジスタの内容が初期レ
ジスタ１０４の内容から減算される。演算の実行により
次の結果が生じる。

【数１２】

【００９５】結果の値が上記式（８）の確率予測に一致
することが分かる。

【００９６】図５（Ｃ）は、到来する新記号の値が任意
記号の値に等しい場合を表す。前述のように、遷移時に
おける確率は次のように予測される。

【数１３】ｐ₍₁₎＝１／４（１／１＋１／２＋２／４＋５／８）＝２１／３２（９）

【００９７】テンポラリ・レジスタの内容は、到来する
新記号の値とネスト化区間のセットの各々の最終位置を
離脱する旧記号の値との関係を反映するように、再度更
新される。到来する新記号の値（１）が任意記号の値
（１）に等しいと、テンポラリ・レジスタの内容が確率
レジスタ（１０４）の内容に加算される。演算の実行に
より、次の結果が生じる。

【数１４】

【００９８】結果の値はここでも上記式（９）の確率予
測に一致する。

【００９９】図５（Ｄ）は到来する新記号の値が再度任
意記号の値に等しい場合を表す。前述のように、遷移時
における確率は次のように予測される。

【数１５】ｐ₍₁₎＝１／４（１／１＋２／２＋２／４＋５／８）＝２５／３２（１０）

【０１００】この場合にも、テンポラリ・レジスタの内
容が到来する新記号の値と、ネスト化区間のセットの各
々の最終位置を離脱する旧記号の値との関係を反映する
ように、再度更新される。到来する新記号の値（１）が
任意記号の値（１）に等しいと、テンポラリ・レジスタ
（１０５）の内容が確率レジスタ（１０４）の内容に加
算される。演算の実行により、図５（Ｅ）に示される次
の結果が生じる。

【数１６】

【０１０１】図１及び図２の実施例は、２進データ・ス
トリームの場合、或いはデータ・ストリームの各記号を
任意記号と比較し（ＸＯＲなどによる）、各データ記号
が任意記号に一致したかどうかを示す２進値を生成する
適切な回路と組合わせて、好適に使用される。しかしな
がら、本発明はまたｎ配列記号の場合にも直接実施する
ことができる。

【０１０２】図６を参照すると、ｎ配列記号ストリーム
の場合に使用される図１に類似のシステム・アーキテク
チャが開示される。このアーキテクチャはデータ・スト
リーム内のｎ配列記号に対応して、ビット単位で記号チ
ェックを実行する手段を提供するように拡張される。ス
トリームはシリアル又はパラレルであり、ヘッダ或いは
他のオーバヘッド情報を含む適切な通信プロトコルに従
う。データが適切な方法（本発明にとって本質的でな
い）でストリームから抽出され、そのようにして抽出さ
れたデータが次に図６のシステムに提供される。

【０１０３】コンテキスト抽出器２０１は図１のコンテ
キスト抽出器１に類似である。単純化のため、エンコー
ダ４は図６では省略されているが、実際には存在するも
のとして理解される。前述のように、コンテキスト抽出
器２０１は好適にはデータ・シフト・レジスタ又は循環
バッファである。コンテキスト抽出器２０１は複数の区
間を含む。図１の実施例と同様、区間が特定の特性を有
する場合には、計算効率が実現される。すなわち、各区
間が最も最近受信された記号を含み、且つ区間が好適に
は２の整数乗のサイズを有し、更に区間数が好適には２
の整数乗となるように、区間がネスト化される。

【０１０４】旧記号ｏｓ（k）が提供される区間の終り
を識別するために、当業者には既知であるポインタ又は
データ・タップなどの適切な手段が提供される。従って
区間の終りはｏｓ（0）からｏｓ（m-1）とラベル化され
る。それぞれの区間は２^{(l0)個乃至２} ^(l(m-1))個の記号
を記憶するメモリ容量を含む。

【０１０５】コンテキスト抽出器内の記号、或いは記号
メモリ２０１は、１ビットより多くの２進コードによっ
て表現されるが、前述の実施例の場合と同一の基本的テ
ストが適用される。すなわち、新記号及び旧記号が比較
され、これらが一致しない場合には、確率分散が非ゼロ
の絶対値を有する。新記号は任意記号と比較され、新記
号が任意記号に等しい場合、非ゼロの確率分散が旧確率
に加算される。それ以外の場合には、旧確率から減産さ
れる。従ってＸＯＲ機能が単一ビット記号に対し単一の
ＸＯＲゲートにより実行されるのではなく、マルチビッ
ト記号に対しビット単位で実行されることを除けば、本
質的に同一のＸＯＲ機能が実行されることが必要であ
る。

【０１０６】ＸＯＲ演算は確率予測器内に存在する論理
手段により実行されることが理解されよう。こうした実
施例では、旧記号は区間の終りから確率予測器にバス転
送され、新記号は新記号入力から確率予測器にバス転送
され、任意記号はそれぞれの確率予測器において、ハー
ド配線又は適切なレジスタ記憶などの適切な方法により
使用可能となる。

【０１０７】しかしながら、ｎ配列記号のアルファベッ
トに対応する本発明の実施例は、図６に示される追加要
素を含む。各区間の終りで、バス２０２が記号メモリ２
０１に結合されて、記号を抽出する。バス２０２は図６
ではラインで示されているが、バス２０２がマルチビッ
ト記号を転送するのに好適な構成を有することが理解さ
れよう。例えば、バス２０２はパラレルであり、記号を
構成するビット数に相当する別々のリード線数を有す
る。

【０１０８】バス２０２は複数のセレクタ２０４に経路
指定され、これらのセレクタは旧記号及び新記号のＸＯ
Ｒ演算をビット単位で実行し、結果のビットを一緒にＯ
Ｒして、旧記号及び新記号が一致するか否かを示す単一
のビットを生成する。セレクタ２０４の出力は確率予測
器２０３にバス転送される。確率予測器２０３はその大
部分が、図４の確率予測器に機能的に等価である。しか
しながら、セレクタ２０４内の論理は図４のゲート９７
を含むが、ここでは省略されている。

【０１０９】ｎ配列アルファベットでは、記号数は前述
の２進アルファベットにおける２個の記号より大きい可
能性があり、より多くの確率予測器２０３が提供される
ことが理解されよう。再度、図２に関連して示され説明
されたものと類似の減算器及び付随のハードウェアが提
供されない場合には、確率予測器２０３の数はアルファ
ベット内の記号数ｍに等しく、そうでない場合は、確率
予測器２０３の数は１減少されてｎ−１となる。

【０１１０】新記号は前述の実施例の場合と同様、コン
テキスト抽出器２０１の第１の位置に入力し、従って各
ネスト化区間に入力する。新記号はまた、実質的にデコ
ーダとして機能するセレクタ２０５にも入力する。セレ
クタ２０５は、それぞれがアルファベットの各記号に対
応するｎ個の出力を有し、これらはバス２０６を介して
それぞれの確率予測器２０３に接続される。セレクタ２
０５は新記号がアルファベットのどの記号であるかを識
別し、その信号が任意記号であることを示すハイ論理信
号などの第１の状態の出力信号を確率予測器２０３に提
供する。セレクタ２０５は他の全ての確率予測器２０３
に対しては、ロウ論理信号などの第２の状態の出力信号
を提供する。図４の確率予測器のＸＯＲゲート１０７に
ついてもここでは省略されている。

【０１１１】図６と前述の実施例との構造的な相違を考
慮すると、確率予測器２０３は実質的に同様に動作し
て、確率分散を生成し、アルファベットの各記号に対応
して記憶される確率値を更新する。これらの確率は次に
記号ストリームを符号化するために、エンコーダ（図示
せず）に提供される。

【０１１２】本発明の実施例の前述の説明から、アルフ
ァベットの任意記号に対応する確率値は０から１に変化
することが理解される。任意文字がコンテキスト抽出器
１又は２０１の最大区間を充填するのに十分に大きな記
号ストリーム内に現れない場合、その文字に対応する確
率は０となる。一方、完全に任意文字から形成される繰
返しシーケンスが受信されて全コンテキスト抽出器１又
は２０１を充填する場合、確率は１となる。これらの状
態は式（１）（均等重み付け）又は式（２）（より最近
受信された記号に大きな重み付けをする）のいずれかに
対応して真である。

【０１１３】しかしながら、算術コーディングなどの特
定のアプリケーションでは、他の考慮のために、全ての
確率が正で、且つ１より小さいことが強要される。本発
明によれば、示された方法及び装置の変更により、全て
の確率が非ゼロ、且つ正である要求に対し、それらの精
度を大幅に低下することなく適合することが可能であ
る。

【０１１４】本発明の別の実施例では、こうした変更と
して区間内における少なくとも１記号が任意記号に相当
することを仮定することにより、少なくとも１区間内に
おける任意記号の確率を計算する方法が含まれる。これ
は記号ストリームにおける記号発生の計算確率と実際の
確率との間の不一致度を最小化するために、最大区間に
対して、或いは最小の重みを有する区間に対して、好適
に実施される。

【０１１５】これがアルファベットの各記号を含む区間
の、特定記号の位置を取り扱うことにより実施されるこ
とも好適である。すなわち、アルファベット内にｎ個の
記号が存在する場合、あたかもアルファベット内のｎ個
の記号の各々がｎ個の記号位置に含まれるかのように、
ｎ個の記号位置が確保され取り扱われる。より多くの記
号位置がこのように使用されると、１個又は複数の記号
が複数の位置を有する。しかしながら、各記号を１つの
位置に限定すると、記号発生の計算による確率と実際の
確率との差が再度最小化される。使用される記号位置は
好適には最大区間内に収まるが、他の小さな区間の外に
配置されて、区間内の各記号に対して可能な最小の重み
を提供する。

【０１１６】図７は図６に類似のコンテキスト抽出器２
０１を表す。説明の都合上、次に述べる条件が仮定され
る。コンテキスト抽出器２０１は３２個の記号容量を有
する。データ・ストリームは３個の記号アルファベット
からの記号を含む。アルファベットを形成する記号は
ａ、ｂ及びｃである。データ・ストリームはコンテキス
ト抽出器２０１に左から入力する。説明のために６個の
区間が示されている。前述の説明により、区間は全て左
から開始する。本発明の態様によれば、最大区間を除
き、区間サイズは２の累乗に関連する。最大区間の最後
の３個の記号位置は、アルファベットの３個の記号の各
々の１つを含む。従って、入力記号のための３２個の記
号位置の代わりに、最大区間は３２−３＝２９の記号位
置を有する。しかしながら、記号確率計算は区間の３２
個全ての記号位置に対して実施される。従って、記号の
１つがデータ・ストリーム内に現れない場合にも、その
記号に対応する確率は非ゼロで１より小さい正の値を有
する。

【０１１７】こうした構成が２の累乗に関連するｍ個の
区間を有するコンテキスト抽出器及びｎ記号アルファベ
ットにおいて使用される時、記号に対応して可能な最低
確率が０から

【数１７】１／（ｍ×２ｅｘｐｌ_(m-1)）

【０１１８】に増加する。また、任意記号に対応して可
能な最大確率は１から

【数１８】１−（ｎ−１）／（ｍ×２ｅｘｐｌ_(m-1)）

【０１１９】に減少する。本発明の実施例はレジスタ、
論理ゲートなどのハードウェア要素に関連して説明され
たが、本発明がソフトウェアによっても実施可能なこと
が容易に理解されよう。確率値を保持するレジスタ及び
テンポラリ・レジスタは、アドレス可能コンピュータ・
メモリ・ロケーションなどのソフトウェア・アクセス可
能メモリ構造として容易に実施される。コンテキスト抽
出器が循環バッファとして実施される場合、これらは実
質的にソフトウェアにより制御されるポインタを使用し
てアクセスされるソフトウェア・データ構造である。そ
れとは別に、シフト・レジスタに等価なソフトウェア
が、当分野に携わるプログラマによって困難無く達成さ
れよう。ハードウェア論理ゲートにより実行されるよう
に説明された論理演算についても、適切なソフトウェア
演算により実行可能である。このように本発明の方法
は、ハードウェアと同様、ソフトウェア、或いはハード
ウェアとソフトウェアの適切な組合わせにおいても実現
される。更に本発明は、プログラムされたフロッピー・
ディスク、メモリ・モジュールなどのコンピュータ・プ
ログラム製品においても実現され、これらはコンピュー
タ・システム又はデータ符号化システムにより使用され
る。こうした製品は、記録媒体及びその上に記録される
ソフトウェア手段を含み、これがコンピュータ・システ
ム又はデータ符号化システムに対し、前述の本発明の詳
細な説明に従うオペレーションを実行するように命令す
る。

【０１２０】

【発明の効果】以上説明したように、本発明によれば、
データ圧縮及び符号化において、過去の記号発生の傾向
にもとづき記号発生確率を確立することにより、改良さ
れたデータ圧縮を可能とする、適応型の記号発生確率の
決定方法及びシステムが提供される。

【図面の簡単な説明】

【図１】本発明の第１の実施例による２進アルファベッ
トの確率予測器のブロック図である。

【図２】本発明の別の実施例による２進アルファベット
の確率予測器のブロック図である。

【図３】本発明の実施例による図１及び図２の確率予測
器の一部の詳細図である。

【図４】本発明の実施例による図１及び図２の確率予測
器の一部の詳細図である。

【図５】任意記号に一致する記号及び一致しない記号を
含む記号ストリームの受信時における、２進アルファベ
ットの任意記号に対する図４の確率予測器の動作を示す
スナップショット図である。

【図６】本発明の別の実施例によるｎ配列アルファベッ
トに対する確率予測器のブロック図である。

【図７】本発明の別の実施例によるコンテキスト抽出器
を表す図である。

【符号の説明】

１、２０１コンテキスト抽出器２、３確率発生器４算術エンコーダ・ユニット９７ゲート１０４確率レジスタ１０５テンポラリ・レジスタ１０６加算器／減算器１０７ＸＯＲ装置２０３確率予測器２０４、２０５セレクタ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ヨルマ・ヨハネス・リサネンアメリカ合衆国95032、カリフォルニア州ロス・ガトス、テレシタ・ウェイ 140

Claims

(57)【特許請求の範囲】

【請求項１】有限アルファベットの任意記号が該有限ア
ルファベットの記号の記号ストリング内で発生する確率
を予測する方法であって、記憶媒体に保持される以前に発生した記号の発生に対
し、より最近発生した記号に対してより大きな重み付け
をするステップと、上記任意記号の重み付けされた以前の発生にもとづき、
次に発生する記号が上記任意記号である確率を計算する
ステップと、を含む方法。
【請求項２】上記重み付けステップが、上記記憶媒体内
に複数の区間を定義するステップ、上記複数の各区間に
おけるそれぞれの発生回数を有する上記任意記号、及び
以前に発生した記号を含む上記区間の数によって重み付
けされる上記以前に発生した記号、を含む請求項１記載
の方法。
【請求項３】上記計算ステップが、上記複数の区間にお
ける上記任意記号の上記それぞれの発生回数にもとづき
確率を計算するステップを含む、請求項２記載の方法。
【請求項４】初期に確率を計算し、記憶するステップを
含み、上記計算ステップが、（ｉ）確率の変化を計算するステップと、（ｉｉ）上記確率の変化に従い上記記憶される確率を変
更するステップと、を含む、請求項３記載の方法。
【請求項５】有限アルファベットの任意記号が該有限ア
ルファベットの記号の記号ストリング内で発生する確率
を予測する装置であって、以前に発生した記号を記憶する手段と、記憶される記号に対し、より最近発生した記号ほどより
大きな重み係数により重み付けする手段と、任意記号の重み付けされた以前の発生にもとづき、次に
発生する記号が上記任意記号である確率を計算する手段
と、を含む装置。
【請求項６】上記重み付け手段が、上記記憶手段内に複
数の区間を定義する手段、上記複数の各区間におけるそ
れぞれの発生回数を有する上記任意記号、及び以前に発
生した記号を含む上記区間の数によって重み付けされる
上記以前に発生した記号、を含む請求項４記載の装置。
【請求項７】上記計算手段が、上記複数の区間における
上記任意記号の上記それぞれの発生回数にもとづき確率
を計算する手段を含む、請求項５記載の装置。
【請求項８】ストリングにおける記号の発生頻度に従
い、複数の記号を含む有限アルファベットからの記号の
ストリングを適応型に予測して符号化するデータ符号化
システムであって、上記ストリングの各連続的記号を新記号として受信する
ための入力、複数の区間、及び該複数の各区間の連続的
最終記号をそれぞれの旧記号として提供する上記複数の
各区間に対応する出力を有する、符号化された上記記号
ストリングを受信するコンテキスト抽出器と、各々が有限アルファベットの複数の記号の任意の記号に
対応する確率予測器であって、新記号及び旧記号を受信
して、該新記号が上記任意記号に一致するか否か、並び
にそれぞれの旧記号が上記任意記号に一致するか否かに
もとづき、対応する上記任意記号の発生確率値を更新す
る回路を含む、複数の確率予測器と、を含むシステム。