JPH06259223A

JPH06259223A - 分散データ処理システム

Info

Publication number: JPH06259223A
Application number: JP5279150A
Authority: JP
Inventors: Gilbert Furlan; ギルバート・フュルラン; Jorma J Rissanen; ジョルマ・ヨハンネス・リッサネン; Dafna Sheinvald; ダフナ・シャインヴァルド
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1992-11-12
Filing date: 1993-11-09
Publication date: 1994-09-16
Anticipated expiration: 2011-10-16
Also published as: US5652581A; US5550540A; JP2544895B2

Abstract

(57)【要約】【目的】過去の記号の最適に選択されたすべてのセグ
メント、すなわち文脈を同時に使うための複数のデータ
・プロセッサを備えた分散データ処理システムを提供す
ることによって、コード化および予測を迅速に実行でき
るようにする。【構成】分散データ処理システムは、各クロック・サ
イクルで入力データ・ストリングの各記号にアクセスす
ることができ、入力記号に基づいてコード化または予測
に最適のモデルを提供する文脈関連データ・セットを適
応的に生成する。各記号とコード化または予測用その最
適なモデルが、システムから同時に出力され、その結
果、ｎ記号入力データ・ストリングに好ましい時間複雑
度Ｏ（ｎ）が得られる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、全般的に、データのコ
ード化および予測を実行するための分散データ処理シス
テムに関する。詳細には、本発明は、過去の記号の最適
に選択されたすべてのセグメント、すなわち文脈を動的
に並列に使用し、それによって、コード化および予測を
迅速に実行することのできる、分散データ処理システム
で実施されるデータ・コード化または予測プロセスを教
示する。

【０００２】

【従来の技術】データ圧縮とは、データのストリームを
より小さな「圧縮」された形に変換するプロセスを言
う。後で、圧縮形からその原形または何らかの近似を計
算することができる。可逆データ圧縮または「損失のな
い」データ圧縮は、圧縮形のデータを後で圧縮解除して
原形に戻すことができるときに実現される。「損失のあ
る」データの圧縮では、圧縮解除されるデータは、一定
の精度基準を満たすことによって原形の本質を保存する
かぎり、原形と異なってもかまわない。記憶装置のコス
トが急激に下がり、さらに低下し続けているが、データ
圧縮技術を使用すると、同一の空間に格納できるデータ
の量が増えるので、たいていの場合、実効コストがさら
に削減される。さらに、圧縮データはより高速で伝送す
ることができる。通信チャネルを伴う様々な応用分野で
は、チャネルに帯域幅制約がある場合、この点は重要に
なってくる。

【０００３】確率とコードの関係は、シャノン（Shanno
n）の論文"A Mathematical Theoryof Communication"、
Bell Syst. Tech. Journal、Ｖｏｌ．２７、ｐｐ．３９
８−４０３（１９４８年７月）で確立された。この論文
では、確率ｐで発生すると予想される記号は、対数の基
底を２として−ｌｏｇｐビットで表すのが最適である
ことが示されている。したがって、確率の高い記号ほど
少ないビット数でコード化され、確率の低い記号ほどコ
ード化に必要なビット数が多くなる。予想コード長は、
可能なすべての記号の平均、すなわち−Σｐ_i ｌｏｇ
ｐ_iによって得られる。この値は、確率分布のエント
ロピーと呼ばれる。シャノンのコード化定理によれば、
エントロピーは、コード化されたメッセージに必要なビ
ットの平均数の下限となる。所与の各分布について、限
界性能、すなわちエントロピーを所望の精度で得るため
のコードを設計する技法が存在する。そのような技術に
は、古典的なハフマン（Huffman）コードや、それより
も新しく柔軟な算術エンコーダがある。リッサネン（Ri
ssanen）およびラングドン（Langdon）の論文"Universa
l Modeling and Coding"、IEEE Transactions on Infor
mation Theory、Ｖｏｌ．ＩＴ−２７、Ｎｏ．１、ｐ
ｐ．１２−２３（１９８１年１月）を参照されたい。算
術コード化は、ストリングの処理時に分布を更新できる
適応モデルを含めて、どのようなモデルにも適用でき
る。しかし、エントロピーは、記号、またはさらに一般
的に言えばメッセージ用に「モデル化された」分布の特
性である。この限界はコード設計によって緩和するには
モデルを修正しなければならないので、データ圧縮にお
ける最も重大な仕事は最も効率的なモデルを探すことで
ある。モデルの効率は、使用する「文脈知識」の量によ
って決まる。

【０００４】「文脈情報」を取り込む方法としては、一
見異なる２つの方法がある。第１の方法は、元の記号の
長いセグメントまたは「句」を１種の辞書として収集す
ることである。この方法は、収集するストリングの各種
類について１度だけ行うことができ、または個々のスト
リングに合わせて適応的に調整することができる。これ
らの句の１つがストリング中で以後も検出されるとき
は、その句を、格納されているセグメントのリストを指
すポインタとしてコード化するだけでよい。自然言語の
場合、句は、語、語の一部、または複数の語となること
ができる。句は、テキスト中で既に発生しているかぎり
ポインタで置き換えることができるので、適応バージョ
ンにおけるコード化プロセスは新規トピックに迅速に適
応する。最も著名な辞書モデルには、ジブ（Ziv）およ
びレンペル（Lempel）の適応辞書モデラ−エンコーダが
ある。ジブ−レンペル・データ圧縮方式の本質は、タン
ストール（Tunstall）が以前に発表した方法である。こ
の方法は、元々いわゆる可変−固定長コード化（"Synth
esis of Noiseless Compression Codes"、博士論文、Ge
orgia Institute of Technology、米国ジョージア州ア
トランタ、１９６７年９月）用に設計された。この方法
では、所望の数のセグメントを木の葉として格納する。
この木は、確率の最も高い葉を必ず分割するというタン
ストールの原則に従って、適応的に構築される。したが
って、最終的な木における葉は、確率が等しくなる傾向
がある。各葉は、２進序数だけで効率的にコード化する
ことができる。たとえば、ジブおよびレンペルの論文"A
Universal Algorithm for Sequential Data Compressi
on"、IEEE Transactions on Information Theory、Ｖｏ
ｌ．ＩＴ−２３、Ｎｏ．３、ｐｐ．３３７−３４３（１
９７７年５月）、同じく"Compression of Individual S
equences via Variable-Rate Coding"、IEEE Transacti
ons on Information Theory、Ｖｏｌ．ＩＴ−２４、Ｎ
ｏ．５、ｐｐ．５３０−５３６（１９７８年９月）、イ
ーストマン（Eastman）らの"Apparatus and Method for
Compressing Data Signals and Restoring the Compre
ssed DataSignals"と題する１９８４年８月７日付けの
米国特許第４４６４６５０号を参照されたい。

【０００５】したがって、辞書は、頻繁に発生すると予
想される「句」のリストである。指標は、平均して、コ
ード化に要する空間が元の句よりも少なくなるように選
択される。辞書方式では必然的に、モデル化とコード化
の違いがあいまいである。なぜなら、辞書が変わる場合
でもコードは通常変わらないからである。ジブ−レンペ
ル方式の様々なバージョン間の主な違いは、ポインタが
逆方向にどこまで達することができるかと、どの句また
はサブストリングがポインタのターゲットになるかに関
係している。これらの選択肢の様々な組合せは、速度要
件、圧縮要件、メモリ要件の間の何らかの妥協の産物で
ある。多くの辞書方式の欠点は、そのような方式の実施
で、復号は高速になるがコード化が低速になることであ
る。ファイル・バックアップ・システムの使用など多く
の応用分野では、多数のファイルを高速にコード化する
ことが好ましく、復号が低速でも余り問題にならない。

【０００６】文脈情報を使用するための第２の一般的方
法は、適切に選択された文脈中の元の記号の発生カウン
トを収集することである。この典型的な例は、１次２進
マルコフ・プロセスである。極端な例を挙げると、０１
０１０１０１０１...という０と１が交互に続くストリ
ングでは、両記号が等しい数だけ発生し、したがってそ
のような独立モデルでは、ストリングの最大エントロピ
ーは１記号当たり１となる。しかし、直前の記号の文脈
中での発生を計算する場合、０の文脈中では次の記号は
必ず１であるが、１の文脈中では次の記号は必ず０であ
り、エントロピーはゼロとなることがわかる。先に引用
したリッサネンおよびラングトンの論文によれば、ジブ
−レンペルのモデルを含むどの辞書型モデルも文脈モデ
ルとしてシミュレートすることができるが、文脈モデル
を辞書型モデルとしてシミュレートすることはできな
い。ある意味では、すべてのモデルが文脈モデルである
と言うことができる。辞書型モデルは、一般にコード化
速度および圧縮を犠牲にして復号速度を優先するとい
う、文脈を収集しコード化を実行するやり方だけが特殊
である。要するに、モデルとは基本的に、記号をコード
化する各文脈ごとに１つずつ確率分布を集めたものであ
る。最も適切な文脈を選択し、格納して、これらの文脈
中での記号の各発生の確率分布を収集することが、モデ
ル化の際の最も重大な仕事である。さらに、良いモデル
は通常、所与のメッセージをコード化する際にそのメッ
セージの特殊性によく合うように変更または適応する、
適応モデルである。

【０００７】文脈モデルを初歩的な形で構築する際には
明らかな問題がある。文脈は、効率的にするために、記
号の数に関してかなり長くしなければならないので、可
能な各文脈を格納すると記憶空間がパンクする。しか
し、リッサネンの論文"Universal Data Compression Sy
stem"、IEEE Transactions on Information Theory、Ｖ
ｏｌ．ＩＴ−２９、Ｎｏ．５、ｐｐ．６５６−６６４
（１９８３年９月）で「コンテキスト」という新しい技
法が導入された。コンテキスト方式（以下では「コンテ
キスト・アルゴリズム」と呼ぶ）では、ストリング中で
実際に発生する文脈だけを木形式で収集する。さらに、
コンテキスト・アルゴリズムは、現在調査中の記号への
影響力に関する過去の記号の重要度のランクを決定した
後、その記号が発生した基本的にすべての可能な文脈を
収集する。したがって、コンテキスト・アルゴリズムは
この重要度のランクを用いてストリング中のあらゆる統
計情報を見つける。可能な文脈が見つかり、文脈中の記
号の発生カウントが収集された後、残った仕事は、各記
号について、そのコード化に最適な文脈を見つけること
である。この選択は、リッサネンの論文"Complexity of
Strings in the Classof Markov Sources"、IEEE Tran
sactions on Information Theory、Ｖｏｌ．ＩＴ−３
２、Ｎｏ．４、ｐｐ．５２６−５３２（１９８６年７
月）に記載の、リッサネンの最小記述長（ＭＤＬ）原理
をコンテキスト・アルゴリズムに組み込むことによって
行われた。リッサネンはまた、マルコフ・ソースによっ
て生成されたストリングの場合、どのような圧縮システ
ムによっても圧縮結果を改善できないことを証明した。
一方、ジグ−レンペル・データ圧縮システムはこの最適
圧縮を実現しないので、圧縮に関するかぎり劣っている
と思われる。実験により、コンテキスト・アルゴリズム
で得られる圧縮は通常、ジブ−レンペル・アルゴリズム
で得られる圧縮を１５％上回ることが分かっている。こ
れはデータ圧縮の応用分野では大きな利益である。たと
えば、３つの典型的なテキスト・ファイルを比較してみ
る。最初の２つのファイルは、２冊のマニュアルから得
たものであり、３番目のファイルは、格納されている辞
書型ファイルから得たものである。コンテキスト・アル
ゴリズムはファイルをそれぞれ７６６５バイト、６９７
９バイト、および３４５７バイトから３０８５バイト、
３０４６バイト、および１２９７バイトに圧縮するが、
ジブ−レンペル・アルゴリズムではそれぞれ３５０５バ
イト、３４５７バイト、および１４６９バイトが必要で
ある。

【０００８】コンテキスト・アルゴリズムの最初の実施
態様の主要な欠点は、順次アルゴリズムであるため、長
さｎの入力ストリングでは時間複雑度がＯ（ｎｌｏｇ
ｎ）になることである。これは、所望の時間複雑度、
すなわちＯ（ｎ）よりもかなり低速なので、他の点では
優れたこのデータ圧縮方式を、速度が肝要な多数の重要
な応用分野で使用する際の障害となっている。本発明
は、とりわけ、この障害を部分的に解消する。すなわ
ち、本発明では、木構造を明示的に使用せずに、コンテ
キストのような文脈ベースのアルゴリズムの実施が可能
になる。この結果、コード化および予測が時間複雑度Ｏ
（ｎ）で行われる。この大きさが最適なことは明らかで
ある。しかし、同じ実施態様が復号では機能せず、この
場合は依然として時間Ｏ（ｎｌｏｇｎ）が必要とな
る。辞書システムにおける復号は時間Ｏ（ｎ）で行うこ
とができるが、コード化はそれよりも低速であり、使用
する辞書のサイズに応じた時間がかかるので、速度に関
するかぎり、辞書ベースの圧縮システムと、本発明の文
脈ベースのシステムは相補的である。

【０００９】さらに、本発明はデータ圧縮だけに制限さ
れない。データ圧縮以外の重要な応用分野の１つが予測
である。予測では、コード化と同程度に、文脈とその分
布が必要となるが、「復号」は必要とされない。さら
に、予測は、最新の文脈に関する情報が入手可能になっ
た時点でできるだけ速やかに実行しなければならない。
なぜなら、制御などの以後の処置が、予測値に依存し、
かつこれらの処置を迅速に実行しなければならないから
である。さらに、天気予測などの大規模な予測では、本
明細書で開示する種類の分散プロセスを用いる必要があ
る。ここに開示する方式の他の潜在的な応用分野は、予
測またはその他の目的用のほぼあらゆる形のモデル構築
である。そのような例には、時系列およびカオス・プロ
セスのモデルが含まれ、この場合も、一般的に速度が極
めて重要である。

【００１０】本発明の好ましい実施例について詳細に説
明する前に、まずコンテキスト・アルゴリズムの順次式
実施態様について説明する。図１は、単一のデータ処理
要素（ＤＰＥ）１００を示している。データ処理要素１
００には、データ・ストリング１０２、すなわちｘ＝ｘ
₁ｘ₂...ｘ_iが順次、すなわち各クロック・サイクルごと
に１データ項目（または記号）ずつ入力される。このデ
ータ・ストリングは、入力バッファ１０４に供給され、
メモリ１０８を備えた中央演算処理装置（ＣＰＵ）１０
６によって処理される。この説明では、データ・ストリ
ング１０２は２進ビットのストリングである、すなわち
ｘ_i（ｉ＝１，２，...，）は０または１であるものと仮
定する。しかし、この方法は他の種類のデータ・ストリ
ングにも適用でき、２進ストリングだけに限定されるも
のではない。

【００１１】コード化または予測の目的で、着信データ
・ストリング１０２用のデータ木構造２１０、すなわち
Ｔを構築し、図２に示す。このデータ木構造２１０は、
それぞれ文脈、すなわちコード化または予測に使用され
るストリング・セグメントに対応する、複数の文脈ノー
ド２１２から構成される。データ木構造２１０は、上下
構造を形成しており、上部のノード２１２は時系列の早
い時点で構築され、したがって一般に「親」ノードまた
は「祖先」ノードと呼ばれ、この構造の下部の文脈ノー
ドは時系列の遅い時点で構築され、しばしば「子」ノー
ドまたは「子孫」ノードと呼ばれる。文脈ノード２１２
は、「子孫」ノードがない場合は「葉」ノードである。
そうでない場合、文脈ノード２１２は「内部ノード」で
ある。

【００１２】成長するデータ木構造２１０は、成長する
データ・ストリングにコンテキスト・アルゴリズムを適
用することによって反復的に構築される。データ木構造
２１０は複数の枝を持ち、経路の左側にある枝がビット
０に対応し、右側にある枝がビット１に対応する。ま
た、データ木構造の構築中、図１のＤＰＥ１００は、各
文脈ノード２１２用の１対のカウンタを維持する。この
１対のカウンタと、データ木構造２１０を構築する際の
カウンタの使用法について以下に説明する。

【００１３】この説明では、データ木構造の構成と１対
のカウンタの値と各文脈ノード２１２中の文脈とを含む
データ木構造２１０の「状況」を、ｘ₁ｘ₂...ｘ_i...ｘ_t
というデータ・ストリング１０２を処理する際に関数Ｔ
（ｔ）によって示す。この場合、データ木構造２１０の
最後の文脈ノード２１４はｚ＝ｚ₁ｚ₂...ｚ_mという文脈
を有し、ｉ＝１，２，...，ｍの場合にｚ_i＝ｘ_t-i+1で
ある。さらに一般的には、ｚ_i＝ｘ_t-π_(i)であり、π
（１），...,π（ｍ）は任意の１組の非負指標を示す。
したがって、データ木構造の状況Ｔ（ｔ）は、各文脈ノ
ード２１２ごとに生成されたすべての文脈関連データを
積分することによって表される。文脈ノード２１２が、
文脈ｚを持つ過去のストリング中の処理済み記号がそれ
ぞれ値１および値０を有した回数を表すように、ＤＰＥ
１００によって１対のカウンタｃ（ｚ，１）およびｃ
（ｚ，０）が維持されている。より正確に言うと、カウ
ンタの値ｃ（ｚ，ｕ）＝０，１は、各クロック・サイク
ルで更新され、かつストリングｘ_j-m...ｘ_j-1ｕがｘ₁ｘ
₂...ｘ_t中のサブストリングとして発生するような指標
の数ｊである。ここで、ｘ_j-1ｘ_j-2...ｘ_j-m＝ｚであ
る。文脈は過去のストリングに関するので、ｚの記号の
順序付けは時間の経過と逆になることに留意されたい。

【００１４】たとえば、以下のラプラスの推定量によっ
て、ｘ_tがｚ＝ｘ_t-1...ｘ_t-mという文脈で発生する際の
事象ｘ_t＝ｂの確率を計算する。

【数１】ここで、

【数２】ｂバー＝１−ｂである。他の予測推定量を使用すること
もできる。

【００１５】データ木構造２１０を構築するために、以
下のステップがＣＰＵ１０６によって実行される。

【００１６】１．前記のラプラスの推定量を使う場合、
データ・ストリング１０２の第１ビットを入力データ・
バッファが受け取る前に、根２１６に空の文脈λを割り
当て、ｃ(λ,0)＝ｃ(λ,1)＝１と設定することによって
Ｔ（０）から開始する。

【００１７】２．Ｔ（ｔ−１）であるものとし（初期に
はｔ＝１）、ｘ_t-1ｘ_t-2...によって定義される経路に
沿って木を登っていく。経路沿いの各ノードｚ（ｚ＝
λ、ｚ＝ｘ_t-1、ｚ＝ｘ_t-1ｘ_t-2，...、ｚ＝葉）に到達
するたびに、カウンタｃ（ｚ，ｘ_t）を１ずつ増分す
る。葉ノードのカウンタｃ（ｚ，ｘ_t）の値が増分後に
２になった場合、各枝ごとに１つずつ、２つの子孫ノー
ドを作成し、それらの記号カウントを両方とも１に設定
する。

【００１８】３．前記方程式で定義された各文脈ノード
２１２の確率Ｐ（ｂ｜ｚ）を計算する。

【００１９】前記ステップにおける着信データ・ストリ
ングが２進値の種類、たとえば１０進データ・ストリン
グである場合、データ木構造２１０の各文脈ノード２１
２は３つ以上の枝を持つことができる。たとえば、各ノ
ード用に生成される文脈と、各文脈ノード２１２のカウ
ンタの値に応じて、１０進データ・ストリングでは枝が
最高で１０個ある。

【００２０】前記プロセス中に、各文脈ノード２１２に
１つずつ、複数の文脈が生成される。各文脈は、それぞ
れ前記方程式で定義される確率Ｐ（ｂ｜ｚ）を有する。
この１組のデータが、コード化および予測に柔軟に適用
できる。一般にデータ圧縮と呼ばれるデータ・コード化
の場合、記号のコード化を実行する、木の各経路に沿っ
た特定の文脈ｚ_t ^*＝ｘ_tｘ_t-1...の選択に最小記述長
（ＭＤＬ）原理を適用することができる。以下で使用す
るその単純化したバージョンでは、前記方程式によって
算出されるＰ（０｜ｚ）が１／２から最も逸脱するノー
ドとしてこのノードを選択する。着信ストリングの次の
記号を予測するのに最も単純な方法は、確率Ｐ（ｂ｜ｚ
_t ^*）が最高の値を持つ記号を選択することである。

【００２１】前述のように、コンテキスト・アルゴリズ
ムを順次使用して入力ストリング１０２を処理する際に
は、入力ストリング１０２を各文脈ノード２１２の文脈
と比較し、カウンタを増分し、各ノードの確率を計算す
るという段階的手順を使用する。各着信ストリングごと
に、文脈長がｔビットの文脈ノードに到達するのに平均
でｌｏｇ（ｔ）時間ステップが必要である。したがっ
て、最悪のケースの全体時間複雑度は、ｎビットのスト
リングの場合、Ｏ（ｎｌｏｇｎ）である。

【００２２】

【発明が解決しようとする課題】本発明の一目的は、コ
ード化および予測が迅速に実行できる、過去の記号の最
適に選択されたすべてのセグメント、すなわち文脈を同
時に使用するために複数のデータ・プロセッサを備えた
分散データ処理システムを提供することである。

【００２３】本発明の他の目的は、木構造上での過去の
文脈データに対する階層データベース検索が暗示的かつ
並列に実行される、それぞれコード化または予測用のデ
ータ木構造と相関する文脈を生成する、複数のデータ・
プロセッサを備えた分散データ処理システムを提供する
ことである。

【００２４】本発明の他の目的は、各プロセッサにおい
て、過去のあらゆるコード化記録および相対コード化効
率の情報および知識を使用してコンテキスト・アルゴリ
ズムが同時にかつ独立に実行されて、コード化および予
測に最適な文脈が動的に生成される、複数のデータ・プ
ロセッサを備えた分散データ処理システム、たとえばシ
ストリックス・アレイを提供することである。

【００２５】本発明の他の目的は、特定の各アプリケー
ションに必要な圧縮率に応じてプロセッサの数が柔軟に
調整できる、コンテキスト・アルゴリズムを使用したコ
ード化および予測のための複数のデータ・プロセッサを
備える分散データ処理システムを提供することである。

【００２６】

【課題を解決するための手段】簡単に言うと、本発明の
好ましい実施例は、着信データ・ストリングを適応的か
つ経時的に処理できる分散データ処理システムを備えて
いる。この分散データ処理システムはさらに、それぞれ
複数のデータを格納する少なくとも１つのデータ格納手
段を含む、複数のプロセッサを備えている。各プロセッ
サはさらに、格納手段中のデータを処理し、１組の文脈
関連データを適応的に生成することができる、データ処
理手段を含む。したがって、各プロセッサは、着信デー
タ・ストリングおよび数組の文脈関連データにアクセス
することができ、個別にあるいは１つまたは複数の他の
プロセッサと共に動作し、着信データ・ストリングのコ
ード化または予測を適応的に最適の形で実行する。

【００２７】本発明の一利点は、コード化および予測が
迅速に実行できる、過去の記号の最適に選択されたすべ
てのセグメント、すなわち文脈を同時に使用するために
複数のデータ・プロセッサを備えた分散データ処理シス
テムを提供することである。

【００２８】本発明の他の利点は、木構造上での過去の
データに対する階層データベース検索が暗示的かつ並列
に実行される、それぞれコード化または予測用のデータ
木構造と相関する文脈を生成する、複数のデータ・プロ
セッサを備えた分散データ処理システムを提供すること
である。

【００２９】本発明の他の利点は、複数のデータ・プロ
セッサを備えた分散データ処理システムを提供する各プ
ロセッサにおいて、コンテキスト・アルゴリズムが実行
されて、コード化および予測に最適な文脈が適応的かつ
経時的に生成されることである。

【００３０】本発明の他の利点は、特定の各アプリケー
ションに応じて変わる圧縮率に応じてプロセッサの数が
柔軟に調整できる、コンテキスト・アルゴリズムを使用
したコード化および予測のための複数のデータ・プロセ
ッサを備える分散データ処理システムを提供することで
ある。

【００３１】本発明の他の利点は、モデラ−エンコーダ
の順次式実施態様の時間複雑度Ｏ（ｎｌｏｇｎ）を必要
とせず、分散処理実施態様でコード化または予測に必要
な時間複雑度Ｏ（ｎ）がそれよりもずっと低くなること
である。これは特に、低い時間複雑度Ｏ（ｎ）が実現さ
れる従来技術のアルゴリズム・コンテキストの並列実施
態様に適用される。

【００３２】本発明の上記その他の目的および利点は、
好ましい実施例に関する以下の詳細な説明を読めば、当
業者には、明らかになるであろう。好ましい実施例は、
添付の様々な図面を参照しながら以下の詳細な説明を読
めば最も良く理解される。

【００３３】

【実施例】本発明は多くの形で実施することができる
が、図３および図４にその特定の実施例を示す。ただ
し、この開示により、本発明が図示した実施例に限定さ
れるものでないことを了解されたい。

【００３４】本発明の１態様によれば、複数のデータ処
理要素（ＤＰＥ）を備えた分散データ処理システムが、
文脈ベースのモデルに従った記号の着信データ・ストリ
ングを、適応的かつ経時的に迅速に処理する。各ＤＰＥ
は、各クロック・サイクルで記号にアクセスすることが
でき、文脈関連データ・セットを適応的に生成し、個別
にあるいは１つまたは複数の他のＤＰＥと共に動作し
て、過去のデータ・ストリングに基づきコード化または
予測を実行する。これによって、入力記号と、コード化
／予測用の入力記号の最適モデルとが、分散データ処理
システムから同時に出力され、同じ文脈ベースのモデル
の順次式実施態様に比べて時間複雑度が大幅に削減され
る。

【００３５】本発明の別の態様によれば、複数のデータ
処理要素（ＤＰＥ）を備えたシストリック・アレイ・デ
ータが、文脈ベースのモデルに従った記号の着信データ
・ストリングを適応的かつ経時的に迅速に処理する。デ
ータ・ストリングの各記号がシストリック・アレイを通
過するとき、多数の文脈、すなわち対応するＤＰＥにそ
れぞれ格納されている、最近処理された記号の、様々な
長さのセグメントが検査される。特定の基準、たとえば
最小記述長（ＭＤＬ）原理に従って、１つの文脈がコー
ド化／予測を行う際の最適モデルとして選択され、シス
トリック・アレイから記号自体と共に出力されるので、
同一の文脈モデルの順次式態様に比べて、時間複雑度が
大幅に削減される。

【００３６】本発明のＤＰＥは、メインフレームからシ
ストリック・アレイの基本プロセッサに至るまで、どん
なプロセッサでもよい。予測およびコード化用の本発明
で必要なのは１方向リンクであるが、各ＤＰＥが他のＤ
ＰＥに対して情報を送受信できる両方向通信リンク（た
とえば、ネットワークまたはバッファ）も使用すること
が可能である。ＤＰＥ間のすべてのリンクは長さがＯ
（１）、すなわち一定なので、２つの隣接ＤＰＥが通信
するための時間もＯ（１）である。情報は、先入れ先出
し（ＦＩＦＯ）プロセスで１つのＤＰＥから次のＤＰＥ
へと１方向に順次伝送される。アレイ内のプロセッサの
数ｎは、コストのような実施上の留意事項によって決定
される。

【００３７】図３を参照すると、本発明の特定の実施例
によれば、それぞれそれ自体のＣＰＵ３０４と作業用メ
モリ３０６を有する複数のＤＰＥ３０２が、線形アレイ
または「パイプライン」３００として並べられている。
パイプライン３００は、特定の文脈ベースのモデル、た
とえばコンテキスト・アルゴリズムに従ってデータ・ス
トリングを処理する。ＤＰＥ３０２は、各ＤＰＥ３０２
が最高で２つの隣接ＤＰＥ３０２と接続されるように線
形に配列されている。各ＤＰＥ３０２はまた、入力デー
タ・ストリングの現記号を保持する記号レジスタ３０８
に接続されている。複数の記号レジスタが「上部」パイ
プライン３１０を形成している。各ＤＰＥ３０２はさら
に、記号レジスタ３０８を占有する現記号に関する様々
な情報を含むパイプライン・メモリ３１２に接続されて
いる。複数のパイプライン・メモリが「下部」パイプラ
イン３１４を形成している。この図では、記号レジスタ
３０８およびパイプライン・メモリ３１２はＤＰＥ３０
２から分離した要素として示してあるが、これら３種の
装置のすべてが一体となって、パイプライン３００の肝
要な部分であるデータ処理ユニットを形成することもで
きる。また、コード化のために、パイプライン３００の
右側の下流側に算術エンコーダ（図示せず）を接続する
ことができる。算術エンコーダの果たす役割について
は、「従来の技術」の項で述べた。

【００３８】この文脈で、１クロック・サイクル当たり
ストリング記号１の割合で迅速に実行されるパイプライ
ン３００の形の文脈ベースのエンコーダ／プレディクタ
の実施態様は、広義には以下のように記述される。デー
タ・ストリングｘ₁ｘ₂...ｘ_i...を、図３に示すパイプ
ライン３００によって処理するものとする。各記号は、
直前の記号が上部パイプライン３１０中で下流側すなわ
ち右側に１ステップ伝播されるたびに、一時に１つず
つ、第１（すなわち左端）の記号レジスタ３０８に供給
される。したがって、ｉ番目の記号ｘ_iが第１のＤＰＥ
３０２の上にある場合、記号ｘ_i-1は、右側にある次の
ＤＰＥ３０２の上になり、以下同様である。各ＤＰＥ３
０２は、それが「作成」された時点でたまたまその上に
あった記号ｘ_iの直前の記号の集合ｓ＝ｙ₁ｙ₂...ｙ_kと
して定義される、固有の文脈を格納する文脈レジスタ３
１６を有する。記号のストリングが到着すると、アレイ
のＤＰＥ３０２が左から右に「作成」、あるいは使用さ
れることに留意されたい。すなわち、ｘ＝ｘ_iの場合、
ｙ₁=ｘ_i-1,...,ｙ_k=ｘ_i-kである。ここで、ｋは各ＤＰ
Ｅ３０２ごとに大きくなるように選択される。ｋの最大
値は、システムに含めたい最大文脈情報によって決定さ
れ、やはり実施上の留意事項に従って設定される。以下
の２進の場合も参照されたい。

【００３９】文脈ｓは、図２に示すようなデータ木の
「ノード」に対応している。時間が経過しても、ＤＰＥ
３０２に、その作成時に関連付けられた文脈は変化しな
いが、当該ＤＰＥ３０２の上にある記号（すなわち、Ｄ
ＰＥ３０２に対応する記号レジスタ３０８を占有する記
号）、当該ＤＰＥ３０２の右側にある記号と、当該ＤＰ
Ｅの作業用メモリ３０６中の様々なレジスタの内容、当
該ＤＰＥ３０２に対応するパイプライン・メモリ３１２
はすべて、常に変化する可能性がある。したがって、パ
イプライン３００において使用される各ＤＰＥ３０２
は、データ木のノードに対応している。

【００４０】入力データ・ストリングの処理中に、パイ
プライン３００のＤＰＥ３０２はまず、初期設定プロセ
スを実行して、第１のＤＰＥに空ストリングを割り当
て、他の各ＤＰＥに未定義の文脈を割り当てる。この詳
細については、以下の２進の場合で説明する。各ＤＰＥ
３０２は次に、その作業用メモリ３０６中、ならびに対
応するパイプライン・メモリ３１２中で、コード化また
は予測に関係する様々な演算を、対応する記号レジスタ
３０８を占有している現記号の直前のストリングに基づ
いて実行する。これらの演算には、この過去のストリン
グとＤＰＥ３０２の文脈との比較、現記号のカウントを
１だけ増分するかどうか、すなわち記号統計を更新する
かどうかの決定、新規の関連文脈を記憶するためにＤＰ
Ｅ３０２（またはノード）を「作成」するか否かの決
定、予測推定量の計算と現記号の最適モデルの決定、数
ｋの選択などが含まれる。以下の２進の場合で詳細に説
明する。したがって、１クロック・サイクル当たり１回
の割合で、入力データ・ストリングをデータ木の各ノー
ドの文脈と比較し、上述のコンテキスト・アルゴリズム
の順次式実施態様の場合のように、長さｎの入力ストリ
ングの最悪のケースでＯ（ｎｌｏｇｎ）の時間複雑
度を得る代わりに、本発明のパイプライン３００のＤＰ
Ｅ３０２は、入力記号が「パイプライン」３００を通過
するのと同時に、上記の比較を含む様々な演算を実行す
る。その結果、上部パイプライン３１０の右端から記号
が出力されるのと同時に、下部パイプライン３１４の右
端から記号の最適な予測またはコード化が出力され、長
さｎの入力ストリングでは、時間複雑度がＯ（ｎ）とな
る。このように、本発明のＤＰＥ３０２は個別にまたは
共同で、着信記号シーケンスに基づいてコード化プロセ
スまたは予測プロセスを適応的かつ経時的に迅速に実行
する。

【００４１】２進入力ストリングに関する本発明の特定
の実施例について説明する前に、予測プロセスについて
説明しておく。一般に、２種類の予測プロセスが重要で
ある。第１の種類のプロセスでは、ある量の１回の予測
が、その過去の値と、他の量の過去または現在の値の関
数として行われる。第２の種類のプロセスでは、観測自
体を行う前に、過去の観測から各観測値を連続的に予測
しておく必要がある。

【００４２】第１の場合は、最後の観測の後、システム
に単に空の値を供給し、下部パイプライン・メモリ３１
４中のコードを予測値で置き換えるだけで、前述のパイ
プライン３００で処理することができる。上部パイプラ
イン３１０の右端から空の値が初めて出力されるとき、
下部パイプライン３１４の右端から出力される値が、所
望の予測を提供する。第２の場合では、ＤＰＥの上にあ
る記号の過去の値と共に、予測すべき各記号ｘ_iの直前
の値も供給する必要がある。したがって、各ＤＰＥは、
過去の値の同じストリングにアクセスすることができ
る。すなわち、上部パイプライン３１０は、複数の並列
バスから構成され、第１のバスは直前に観測された記号
を搬送し、第２のバスはその直前の記号を搬送し、第３
のバスは、その前の記号を搬送し、以下同様である。バ
スの最大値のｗは、システムに含めたい最大文脈情報に
よって決定される。

【００４３】パイプライン３００に入力される各記号に
ついて、予測を行う最適ノード（または文脈）の選択
は、コード化の場合と同じである。これについては、以
下の２進の場合で詳細に説明する。さらに、最適な予測
を提供するために、最大文脈長と同数の線で下部パイプ
ライン３１４をバスまで延ばす必要がある。このため、
第１の線は、左端のＤＰＥによって行われた予測を格納
する。第２の線は、１ビット文脈を格納するＤＰＥによ
って行われた予測を格納し、以下同様である。最後の予
測は、非ゼロ値が格納された最も深い（すなわち、最後
の）線である。

【００４４】２進データ・ストリングのコード化／予測
は簡単であるがよく発生する事例なので、２進アルファ
ベットに関する特定の実施例について以下で詳細に説明
する。

【００４５】図４を参照すると、２つの隣接するＤＰＥ
４００が示されている。各ＤＰＥ４００は、文脈ｓと関
連しており、ＣＰＵ４０２と、ローカル・メモリ４０４
およびパイプライン・メモリ４０６を含むデータ格納手
段とを備えている。ＤＰＥ４００はまた、以下のレジス
タを備えている。

【００４６】１．入力記号ｘを保持するための１ビット
記号レジスタ４１０。このレジスタ４１０は、定義によ
り「パイプライン・レジスタ」である。なぜなら、その
右側に別の記号レジスタ４１０、その右側にさらに別の
記号レジスタが次々に接続されて、図３の上部パイプラ
イン３１０に似た「パイプライン」を形成するからであ
る。

【００４７】２．ｘの直前のｑ個の記号を保持するため
のｑビット一時記憶レジスタ４１２。ＴＥＭＰは、一時
記憶レジスタ４１２を占有する記号を示す。

【００４８】図４の特定の配置において、一時記憶レジ
スタ４１２は、ＤＰＥ４００の記号レジスタ４１０を占
有する現記号ｘの右側に入力ストリングのｑ個の記号を
複製する。記号レジスタ４１０中の記号、このＤＰＥ４
００の右側にある記号ならびにＴＥＭＰが常に変化する
場合でも、時間が経過しても、各ＤＰＥにその作成時に
関連付けられた文脈は変化しない。したがって、文脈
を、対応するＤＰＥ４００のアドレスとして使用するこ
とができる。すなわち、第１のＤＰＥは第１の文脈と関
連し、第２のＤＰＥは第２の文脈と関連し、以下同様で
ある。

【００４９】ローカル・メモリ４０４はさらに、以下に
説明する様々なレジスタおよびカウンタを備えている。

【００５０】１．文脈レジスタ４１４。データ木の特定
のノードに対応する文脈ｓを保持する、ＣＲで示される
ｑビット部分と、文脈｜ｓ｜の長さを保持するいくつか
の特別ビットを含む。ここで｜ｓ｜≦ｑである。

【００５１】２．２つの記号確率カウンタ４１６。その
値はＣ（０）およびＣ（１）で示される。文脈ｓ中で２
進値０および１が発生した回数をカウントするために使
用される。

【００５２】３．ｄビット相対効率レジスタ４１８。そ
の値はＲＥＲで示される。ｓに関連するノードの、親ノ
ードに対する相対効率を保持するために用いる。

【００５３】４．２進ノード状況フラグ４２０。その値
は、ｂで表され、ノードの状況、すなわち、葉であるか
（ｂ＝０）、それとも２つの連続ノードを持つ内部ノー
ドであるか（ｂ＝１）を示す。

【００５４】パイプライン・メモリ４０６はさらに、以
下の「パイプライン・レジスタ」を備えている。これら
のレジスタはすべて、０に初期設定される。

【００５５】１．新規ノード・フラグ４２２。その値は
ｃによって表される。ここで、ｃ＝１は、現文脈を特別
ビットによって拡張して新規文脈（したがって、新規ノ
ード）を作成する必要があることを示す。具体的に言う
と、ＤＰＥ４００が偶数番号のとき特別ビットは０であ
り、ＤＰＥ４００が奇数番号のとき特別ビットは１であ
る。

【００５６】２．ｑビット・ノード長レジスタ４２４。
その値はＮＬＲで示される。新規ノードと関連付ける文
脈の長さを伝播するために用いる。

【００５７】３．ｄビット・コード化効率レジスタ４２
６。その内容はＣＥＲで示される。コード化効率を
「親」から「子」へ伝播するために用いる。

【００５８】４．ｅビット最善確率バッファ４２８。そ
の値はＢＥＳＴＰＲＯＢで示される。記号レジスタ４
１０を占有している入力記号ｘの最適モデルを選択する
ために用いる。

【００５９】上記の４つのレジスタはそれぞれ、その右
側にあるレジスタに接続され、基本的に図３の下部パイ
プライン３１４に似た「パイプライン」を形成すること
に留意されたい。

【００６０】パラメータｑは、ｎと相関しなければなら
ず、コストなど実施上の留意事項に基づき、精度パラメ
ータｄおよびｅと共に事前に決定しておく必要がある。
ｑ、ｄ、またはｅの典型的な値は３２である（すなわ
ち、最大文脈長および精度パラメータは３２ビット）。

【００６１】文脈ベースのモデルが実施できる好ましい
実施例の分散アレイ・データ処理システムについて説明
したが、この２進アルファベットの場合用のアレイ上で
の特定の文脈ベースのモデル、すなわちコンテキスト・
アルゴリズムの実施態様の詳細について以下に述べる。
基本的に、処理すべきシーケンスの記号は、１クロック
・サイクル当たり１つの割合でアレイに入力され、記号
レジスタ４１０内を経時的に左から右へ進む。アレイ中
のＤＰＥ４００の位置には無関係に、５つのパイプライ
ン・レジスタ、すなわち記号レジスタ４１０、新規ノー
ド・フラグ４２２、ノード長レジスタ４２４、コード化
効率レジスタ４２６、および最良確率バッファ４２８の
内容はすべて、各クロック・サイクルごとに１つ右のＤ
ＰＥに進む。一方、一時記憶レジスタ４１２の内容は、
各クロック・サイクルごとに１つ右の位置にシフトし、
１番右のビットが破棄され、１番左の空の位置はｘのコ
ピーで充填される。分散アレイ・データ処理システムに
おける２進アルファベットに対するコンテキスト・アル
ゴリズムの実施態様を示すフロー・チャートを図５ない
し図８に示す。

【００６２】図５を参照すると、ＤＰＥの初期設定が示
されている。第１の（すなわち、１番左の）ＤＰＥ４０
０の文脈レジスタ４１４には最初、ステップ５０２で空
の文脈λが割り当てられ、他のすべてのＤＰＥの各文脈
レジスタ４１４には、ステップ５０４で未定義の文脈ｚ
ｚｚ...ｚｚｚが割り当てられる。未定義の文脈は、文
脈レジスタに追加され０に設定される特別ビット位置に
よって示すことができ、値が１の特別ビット位置は定義
済み文脈を示す。ステップ５０６で、第１のＤＰＥのＣ
（０）とＣ（１）が共に０に設定される。フラグｂも同
様に０に設定される（なぜなら、まだ連続ノードがない
からである）。ステップ５０８では、第１のＤＰＥのＲ
ＥＲに負の値、たとえば−５が割り当てられ、他のＤＰ
ＥのＲＥＲには、正の値、たとえば＋５が割り当てられ
る。記号の最適モデルを選択するための簡単な基準は、
負のＲＥＲを持つ最長の文脈（またはノード）を選択す
ることである。第１のＤＰＥ４００のＲＥＲは常に前述
の負の値に維持され、各記号が少なくとも、該記号がコ
ード化される空の文脈を持つことを保証する。この点に
ついては以下でさらに説明する。

【００６３】図６を参照すると、第１のＤＰＥは、各ク
ロック・サイクルで次のことを実行する。ステップ６０
２で、現在記号レジスタ４１０を占有している記号ｘの
ラプラスの推定量、すなわち

【数３】を計算し、それをｅビット単位で表して、最良確率バッ
ファ４２８に書き込む。ステップ６０４で、ｄビットで
表した値ｌｏｇ（ｐ）をコード化効率レジスタ４２６に
書き込み、ステップ６０６で、記号ｘ、すなわちＣ
（ｘ）に対応する記号確率カウンタを１だけ増分する。
ステップ６０８で、ｂ＝１の場合、Ｃを０に設定し、そ
うでない場合はＣを１に設定し、ｂ＝０の場合、ＮＬＲ
を０に設定する。ステップ６１０で、ＴＥＭＰを１ビッ
ト右側にシフトし、ＴＥＭＰの１番左のセルを現入力記
号ｘで充填する。ステップ６１２で、５つのパイプライ
ン・レジスタすべての内容、すなわちＤＰＥ４００の
ｘ、ｃ、ＮＬＲ、ＣＥＲ、およびＢＥＳＴＰＲＯＢを１
つ右のＤＰＥに進める。

【００６４】図７および図８は、第１のＤＰＥ４００を
除くすべてのＤＰＥに関連している。図７を参照する
と、ＣＲが定義されたＤＰＥ４００の活動が示されてい
る。すなわち、ＣＲは、定義済み文脈を含み、このＤＰ
Ｅ４００は、各クロック・サイクルで以下のことを実行
する。

【００６５】ステップ７０２で、ＣＲとＴＥＭＰの第１
｜ｓ｜ビットを比較し、この２つが同じでない場合はス
テップ７１２に進む。次のステップ７０４ないし７１０
は、ステップ７０２の前記接頭部が等しい場合、すなわ
ちＤＰＥ４００に関連する文脈ｓ中にｘが「生じる」場
合に実行される。

【００６６】ステップ７０４で、現在記号レジスタ４１
０を占有している記号ｘのラプラスの推定量、すなわち

【数４】を計算する。ＲＥＲが負の場合、ＢＥＳＴＰＲＯＢをｐ
のｅビット表現で置き換える（これは、負のＲＥＲを持
つ最後の関連ＤＰＥ４００がモデルを決定する方法であ
ることに留意されたい）。さらに、ｂ＝０である場合
は、ｂとｃを共に１に設定し、ＮＬＲを｜ｓ｜に設定し
て、ｓの２つの子ノードを作成する。これらの子ノード
はどちらも、アレイ中のｓの右側に出現する。ステップ
７０６で、ＲＥＲにＣＥＲを加え、その結果から−ｌｏ
ｇ（ｐ）のｄビット表現を引く。ステップ７０８で、前
記の、−ｌｏｇ（ｐ）のｄビット表現をコード化効率レ
ジスタ４１４に書き込む。ステップ７１０で、Ｃ（ｘ）
を１だけ増分する。

【００６７】ステップ７１２および７１４は、基本的に
それぞれステップ６１０および６１２と同じである。

【００６８】図８を参照すると、ＣＲがまだ未定義であ
るＤＰＥ４００の活動が示されている。すなわち、ＣＲ
は未定義の文脈ｚｚｚ...ｚｚｚを含み、ＤＰＥ４００
は各クロック・サイクルで以下のことを実行する。

【００６９】ステップ８０２で、ｃが０に等しいかどう
か判定する。等しい場合、ステップ８１２に進む。ｃが
１に等しい場合は、次のことを実行する。ステップ８０
４で、ＮＬＲビットを一時記憶レジスタ４１２から文脈
レジスタ４１４にコピーし、ＤＰＥ４００が偶数番号か
それとも奇数番号かに応じて、これらのビットの右側に
０または１を連結する。こうして、新規のノードが作成
され、各ノードの文脈はＮＬＲ＋１ビットの長さを持
つ。ステップ８０６で、Ｃ（ｘ）に１を代入し、Ｃ（１
−ｘ）に０を代入する。ステップ８０８で、ＲＥＲを所
定のある正の値に設定する。ステップ８１０で、偶数番
号のＤＰＥではｃ＝１およびｂ＝０と設定し、奇数番号
のＤＰＥではｃ＝ｂ＝０と設定して、子ノードの対が作
成されたことを示す。

【００７０】ステップ８１２および８１４は、基本的に
それぞれステップ６１０および６１２と同じである。

【００７１】予測の応用例では、所望の出力は、１番右
のＤＰＥ４００の最良確率バッファ４２８から出力され
る値である。この場合、算術エンコーダが、この出力さ
れたＢＥＳＴＰＲＯＢ値を、コード化の応用例に適切な
出力コードに変換する。

【００７２】図４ないし８を含む前記の説明は、アルフ
ァベットのサイズに応じて記号確率カウンタ４１６の数
を変えるなら、どんな有限アルファベットにも適用する
ことができる。

【００７３】前記の特定の実施例は線形シストリック・
アレイ上でのコンテキスト・アルゴリズムの実施態様を
開示したものであるが、当業者には、前記の教示に照ら
して、他の分散または並列処理環境でコンテキスト・ア
ルゴリズムを実施することも可能である。たとえば、当
業者には、線形アレイ、ド＝ブルエイン・グラフ、ｄ次
元メッシュ、ハイパーキューブを含むがこれだけには限
定されない相互接続ネットワーク・トポロジーに基づく
他の並列処理アーキテクチャ上でコンテキスト・アルゴ
リズムを実現できることが理解されよう。

【００７４】本発明に関連し、以下の事項について開示
する。それぞれ記号レジスタと、一時記憶レジスタと、
文脈レジスタ、複数の記号確率レジスタ、相対効率レジ
スタ、およびノード状況フラグを有するローカル・メモ
リと、新規ノード・フラグ、ノード長レジスタ、コード
化効率レジスタ、および最適モデル・バッファを有する
パイプライン・メモリとを含む、複数のデータ処理要素
（ＤＰＥ）を含み、第１のＤＰＥを有する線形シストリ
ック・アレイ内で、複数のクロック・サイクルに、アル
ファベットの複数の記号から成るデータ・ストリングを
処理する方法であって、（ａ）前記第１のＤＰＥの第１
ＤＰＥ文脈レジスタに空の文脈を割り当て、前記第１の
ＤＰＥの前記記号確率カウンタおよびノード状況フラグ
を０に設定し、前記第１のＤＰＥの前記相対効率レジス
タに負の値を割り当て、前記第１のＤＰＥ以外の前記各
ＤＰＥの前記文脈レジスタに未定義の文脈を割り当て、
前記第１のＤＰＥ以外の前記各ＤＰＥの前記相対効率レ
ジスタに正の値を割り当て、前記各ＤＰＥの前記新規ノ
ード・フラグ、前記ノード長レジスタ、前記コード化効
率レジスタ、および前記最良確率バッファに０を割り当
て、前記一時記憶レジスタに、現在前記記号レジスタを
占有している前記記号の直前にある前記データ・ストリ
ングの複数の記号を割り当てるステップと、（ｂ）前記
第１のＤＰＥにおいて、ｅビットで表した推定量を前記
最良確率バッファに割り当て、前記推定量の対数の値に
−１を掛け、ｄビットで表した値を前記コード化効率レ
ジスタに割り当て、前記データ・ストリングの前記記号
に対応する前記記号カウンタを１だけ増分し、前記ノー
ド状況フラグの値が１の場合は前記新規ノード・フラグ
を０に設定し、前記ノード状況フラグの値が０の場合は
前記ノード状況フラグと前記新規ノード・フラグを共に
１に設定し、前記文脈長レジスタを０に設定するステッ
プと、（ｃ）前記第１のＤＰＥ以外の任意の前記ＤＰＥ
において、前記ＤＰＥの前記文脈レジスタが、｜ｓ｜ビ
ットの長さを持つ定義済み文脈を含み、前記文脈レジス
タと前記一時記憶レジスタの第１の｜ｓ｜ビットを比較
し、前記２組の｜ｓ｜ビットが同じでない場合、前記一
時記憶レジスタの内容を１ビット右側にシフトし、前記
一時記憶レジスタの１番左のセルを、現在前記記号レジ
スタを占有している前記記号で充填し、前記ＤＰＥの前
記記号レジスタ、前記新規ノード・レジスタ、内容がＮ
ＬＲで示される前記ノード長レジスタ、前記コード化効
率レジスタ、および前記最良効率バッファの内容を、前
記ＤＰＥの右側にあるＤＰＥの対応する記号レジスタ、
新規ノード・レジスタ、ノード長レジスタ、コード化効
率レジスタ、および最良効率バッファに伝送し、前記２
組の｜ｓ｜ビットが同じである場合、および前記相対効
率レジスタが負の値を含む場合、前記最良確率バッファ
の内容を、ｅビットで表された推定量で置き換え、前記
ノード状況レジスタの値が０の場合、前記ノード・レジ
スタおよび前記新規ノード・レジスタを１に設定し、前
記文脈長レジスタの値を｜ｓ｜に設定し、前記相対効率
レジスタの値に前記コード化効率レジスタの値を加え、
この結果から、前記推定量の対数のｄビット表現に−１
を掛けた値を引き、前記推定量の対数のｄビット表現に
−１を掛けた値を、前記コード化効率レジスタに書き込
み、前記データ・ストリングの前記記号に対応する前記
記号カウンタを１だけ増分し、前記一時記憶レジスタの
内容を１ビット右にシフトし、前記一時記憶レジスタの
１番左のセルを、現在前記記号レジスタを占有している
前記記号で充填し、前記ＤＰＥの前記記号レジスタ、前
記新規ノード・レジスタ、前記ノード長レジスタ、前記
コード化効率レジスタ、および前記最良効率バッファの
内容を、前記ＤＰＥの右側にあるＤＰＥの対応する記号
レジスタ、新規ノード・レジスタ、ノード長レジスタ、
コード化効率レジスタ、および最良効率バッファに伝送
するステップと、（ｄ）前記第１のＤＰＥ以外の任意の
前記ＤＰＥにおいて、前記ＤＰＥの前記文脈レジスタ
が、未定義の文脈を含み、前記新規ノード・フラグの値
が０の場合、前記一時記憶レジスタの内容を１ビット右
側にシフトし、前記一時記憶レジスタの１番左のセル
を、現在前記記号レジスタを占有している前記記号で充
填し、前記ＤＰＥの前記記号レジスタ、前記新規ノード
・レジスタ、前記ノード長レジスタ、前記コード化効率
レジスタ、および前記最良効率バッファの内容を、前記
ＤＰＥの右側にあるＤＰＥの対応する記号レジスタ、新
規ノード・レジスタ、ノード長レジスタ、コード化効率
レジスタ、および最良効率バッファに伝送し、前記新規
ノード・フラグの値が１の場合、ＮＬＲビットを前記一
時記憶レジスタから前記文脈レジスタにコピーし、前記
ＤＰＥが偶数番号のＤＰＥの場合、前記文脈レジスタ中
の前記ＮＬＲビットの右側に０を連結し、前記ＤＰＥが
奇数番号のＤＰＥの場合、前記文脈レジスタ中の前記Ｎ
ＬＲビットの右側に１を連結し、前記データ・ストリン
グの前記記号に対応する前記記号カウンタに１を割り当
て、前記データ・ストリングの前記記号以外の前記アル
ファベットの記号に対応する前記記号カウンタに０を割
り当て、前記相対効率レジスタに正の値を割り当て、偶
数番号のＤＰＥではノード状況フラグに０を割り当て、
奇数番号のＤＰＥでは前記ノード状況フラグと前記新規
ノード・フラグに共に０を割り当て、前記一時記憶レジ
スタの内容を１ビット右側にシフトし、前記一時記憶レ
ジスタの１番左のセルを、現在前記記号レジスタを占有
している前記記号で充填し、前記ＤＰＥの前記記号レジ
スタ、前記新規ノード・レジスタ、前記ノード長レジス
タ、前記コード化効率レジスタ、および前記最良効率バ
ッファの内容を、前記ＤＰＥの右側にあるＤＰＥの対応
する記号レジスタ、新規ノード・レジスタ、ノード長レ
ジスタ、コード化効率レジスタ、および最良効率バッフ
ァに伝送するステップとを含むことを特徴とする方法。

【００７５】

【発明の効果】本発明により、過去の記号の最適に選択
された全てのセグメント、すなわち分脈を同時に使うた
めの複数のデータ・プロセッサを備えた分散データ処理
システムが提供され、コード化及び予測の迅速な実行が
可能となる。

【図面の簡単な説明】

【図１】単一のデータ処理要素上での文脈ベースのモデ
ルの順次式実施態様の概略図である。

【図２】各ノードがコード化または予測用の文脈を含
む、複数の文脈ノードを示すデータ木構造の概略図であ
る。

【図３】分散アレイ・データ処理システム上での文脈ベ
ースのモデルの実施態様を示す概略図である。

【図４】コード化または予測用の文脈ベースのモデルを
その中で実施できる、分散アレイ・データ処理システム
の２つの隣接ＤＰＥの概略図である。

【図５】コード化または予測用のコンテキスト・アルゴ
リズムをその中で実施できる、分散アレイ・データ処理
システムのＤＰＥの初期設定のフロー・チャートであ
る。

【図６】コード化または予測用のコンテキスト・アルゴ
リズムをその中で実施できる、分散アレイ・データ処理
システムの第１のＤＰＥの活動のフロー・チャートであ
る。

【図７】第１のＤＰＥではなく、文脈レジスタの内容が
定義されているＤＰＥの各クロック・サイクルにおける
活動のフロー・チャートである。

【図８】第１のＤＰＥではなく、文脈レジスタの内容が
定義されていないＤＰＥの各クロック・サイクルにおけ
る活動のフロー・チャートである。

【符号の説明】

１００データ処理要素（ＤＰＥ）１０２データ・ストリング１０４入力バッファ１０６中央演算処理装置（ＣＰＵ）１０８メモリ２１０データ木構造２１２文脈ノード２１４最後の文脈ノード２１６根３０６作業用メモリ３０８記号レジスタ３１０上部パイプライン３１２パイプライン・メモリ３１４下部パイプライン３１６文脈レジスタ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジョルマ・ヨハンネス・リッサネンアメリカ合衆国95032、カリフォルニア州ロス・ガトス、テレシタ・ウェイ 140 (72)発明者ダフナ・シャインヴァルドイスラエル36803、ノフィト183

Claims

【特許請求の範囲】

【請求項１】それぞれ複数のデータを格納するデータ記
憶手段と、記憶手段中の前記データを処理するデータ処
理手段とを含む、複数のデータ処理要素（ＤＰＥ）を備
え、各ＤＰＥが、１組の文脈関連データを適応的に生成し、
個別にまたは他の前記ＤＰＥと共に、前記複数組の文脈
関連データのうちの少なくとも１組を使用して、データ
・ストリングのためのコード化機能または予測機能を実
行することを特徴とする、データ・ストリングを処理するための分散データ処理シ
ステム。
【請求項２】前記データ処理要素が、前記複数組の文脈
関連データによって決定される順序で使用されることを
特徴とする、請求項１に記載の分散データ処理システ
ム。
【請求項３】前記データ処理手段が、コンテキスト・ア
ルゴリズムを実行して、前記データ・ストリングに関す
る前記文脈関連データを最適に生成することを特徴とす
る、請求項１に記載の分散データ処理システム。
【請求項４】前記分散データ処理システムが、シストリ
ック・アレイであることを特徴とする、請求項１に記載
の分散データ処理システム。
【請求項５】それぞれ複数のデータを格納するデータ記
憶手段と、記憶手段中の前記データを処理するデータ処
理手段とを含む、線形に配列された複数のデータ処理要
素（ＤＰＥ）を備え、各ＤＰＥが、データ木構造に関する１組の文脈関連デー
タを適応的に生成し、個別にまたは他の前記ＤＰＥと共
に、前記複数組の文脈関連データのうちの少なくとも１
組を使用して、データ・ストリングのためのコード化機
能または予測機能を適応的かつ最適に経時的に実行する
ことを特徴とする、データ・ストリングを処理するため
の線形シストリック・アレイ。
【請求項６】前記各データ処理手段が、コンテキスト・
アルゴリズムを実行して、前記データ・ストリング用の
前記１組の文脈関連データを生成することを特徴とす
る、請求項５に記載の線形シストリック・アレイ。
【請求項７】線形アレイとして接続された複数のデータ
処理要素（ＤＰＥ）を備え、前記各ＤＰＥが、データ処理手段、記号レジスタ、ロー
カル・メモリ、およびパイプライン・メモリを含み、前記各記号レジスタが、各クロック・サイクルに、前記
データ・ストリングの記号を受け取り、前記各データ処理手段が、各前記クロック・サイクル
に、個別にまたは他の前記ＤＰＥの前記データ処理手段
と共に、前記各記号に関する１組の文脈関連データを適
応的に生成し、前記各１組の文脈関連データが、前記そ
れぞれのローカル・メモリおよび前記それぞれのパイプ
ライン・メモリに格納され、前記各ＤＰＥが前記各クロック・サイクル中に、前記記
号と、前記１組の文脈関連データの少なくとも一部分
を、それぞれ前記記号レジスタおよび前記パイプライン
・メモリから、前記アレイの次のＤＰＥの対応する記号
レジスタおよびパイプライン・メモリに伝送し、それに
よって、前記記号に関するコード化機能または予測機能
を実行することを特徴とする、複数のクロック・サイク
ルに複数の記号から構成されたデータ・ストリングを処
理するための線形シストリック・アレイ。
【請求項８】さらに、第１のＤＰＥおよび最後のＤＰＥ
を含み、前記各記号レジスタが、前記第１のＤＰＥより下流側に
ある次のＤＰＥの前記記号レジスタに接続され、前記各パイプライン・メモリが、前記第１のＤＰＥより
下流側にある次のＤＰＥの前記パイプライン・メモリに
接続され、前記第１のＤＰＥの前記記号レジスタが、前記各クロッ
ク・サイクルに前記データ・ストリングの１つの前記記
号を受け取り、前記第１のＤＰＥ以外の前記各ＤＰＥの
前記記号レジスタが、前記各クロック・サイクルに前記
ＤＰＥより下流側にある隣接ＤＰＥの前記記号レジスタ
から１つの前記記号を受け取り、前記１組の文脈関連データのうちの少なくとも一部分
が、各クロック・サイクルに、前記最後のＤＰＥ以外の
前記各ＤＰＥの前記それぞれのパイプライン・メモリか
ら、下流側にある次のＤＰＥの対応するパイプライン・
メモリに伝送され、前記コード化機能または予測機能が、前記最後のＤＰＥ
の前記パイプライン・メモリ中の前記１組の文脈関連デ
ータのうちの少なくとも一部分に従って実行されること
を特徴とする、請求項７に記載の線形シストリック・ア
レイ。
【請求項９】（ａ）データ・ストリングを経時的に受け
取るステップと、（ｂ）前記データ・ストリングに関する複数組の文脈関
連データを適応的に生成するステップと、（ｃ）少なくとも１組の前記文脈関連データを使用し
て、前記データ・ストリングに関する最適コード化機能
または予測機能を実行するステップとを含むことを特徴
とする、分散データ処理システム内でデータ・ストリン
グのためのコード化機能または予測機能を実行する方
法。
【請求項１０】複数のデータ処理要素（ＤＰＥ）から構
成され第１のＤＰＥを含む線形シストリック・アレイ内
で、複数のクロック・サイクルに、複数の記号から成る
データ・ストリングを処理する方法であって、（ａ）各クロック・サイクルに前記データ・ストリング
の１つの前記記号を受け取り、前記１つの記号を前記ア
レイに沿って経時的に伝送するステップと、（ｂ）前記各ＤＰＥが、各クロック・サイクルに、受け
取った記号に関する１組の文脈関連データを適応的に生
成するステップと、（ｃ）前記ＤＰＥが、個別にまたは相互に協力して、少
なくとも１組の前記文脈関連データを使用して、各クロ
ック・サイクルに前記各記号に関する最適コード化機能
または予測機能を実行するステップとを含むことを特徴
とする方法。
【請求項１１】前記１組の文脈関連データがコンテキス
ト・アルゴリズムによって生成されることを特徴とす
る、請求項１０に記載の、データ・ストリングを処理す
る方法。
【請求項１２】前記１組の文脈関連データがコンテキス
ト・アルゴリズムによって生成されることを特徴とす
る、請求項１１に記載の、データ・ストリングを処理す
る方法。
【請求項１３】複数のデータ処理要素（ＤＰＥ）から構
成され第１のＤＰＥを含む線形シストリック・アレイ内
で、複数のクロック・サイクルに、複数の記号から成る
データ・ストリングを処理する方法であって、（ａ）前記第１のＤＰＥに空の文脈を割り当て、前記第
１のＤＰＥ以外の前記各ＤＰＥに未定義の文脈を割り当
てることによって、前記ＤＰＥを初期設定するステップ
と、（ｂ）前記第１のＤＰＥが各クロック・サイクルに１つ
の前記記号を受け取り、前記各ＤＰＥが前記各記号を前
記アレイに沿って下流側に経時的に伝送するステップ
と、（ｃ）前記各ＤＰＥを定義済み文脈と関連付けることを
含めて、コンテキスト・アルゴリズムに従って複数の演
算を経時的に実行し、前記各ＤＰＥで記号統計を適応的
に更新し、前記記号統計に基づいて前記各記号の最適モ
デルを算出するステップと、（ｄ）前記最適モデルを使用して、前記各記号に関する
コード化機能または予測機能を実行するステップとを含
むことを特徴とする方法。