JP3217781B2

JP3217781B2 - 多重レベルを利用するデータ圧縮

Info

Publication number: JP3217781B2
Application number: JP50042393A
Authority: JP
Inventors: ジョセフエムブガイスキー; ジェームズティーラソー
Original assignee: トライアーダリミテッド
Priority date: 1991-05-29
Filing date: 1992-05-11
Publication date: 2001-10-15
Anticipated expiration: 2016-10-15
Also published as: EP0588921A4; EP0588921A1; WO1992022141A1; US5293164A; CA2103445A1; US5245337A; JPH06508456A

Description

【発明の詳細な説明】技術分野本発明は、入力データ本体を、蓄積、転送、暗号化等
のために、入力データ本体に関して圧縮した整列データ
構造に変換する、ディジタルデータ変換システムに関す
る。

背景技術データ圧縮、または、ときに「テキスト圧縮」と言わ
れるものの方法ならびに装置は、英数字テキスト、ディ
ジタル化画像、コンピュータコードなどといった到来す
るディジタルデータ本体に作用して、そのデータを格納
するための記憶所要容量を削減する、あるいは、通信チ
ャネルを介してデータ本体を転送するために要する時
間、または安全保護のためにデータを暗号化するために
要する時間を短縮する。

データ圧縮は入力データ本体の冗長性を除くことによ
って作用し、達成されるであろう圧縮の度合はデータ本
体の冗長性に比例する。データ圧縮システムは、圧縮デ
ータから入力データ本体を正確に復元できる無損失シス
テムと、完全に可逆的な復元プロセスを要しない音声お
よび画像といったディジタル化アナログ信号にしばしば
使用される損失システムと、に大きく分かれる。本発明
は、可逆システムまたはノイズレスシステムと呼ばれる
こともある、無損失システムの類に属する。

無損失圧縮システムは、更に、出現確立に基づいて各
記号にコードを割り当てる統計的コード化と、入力デー
タ本体の連続文字集合を、ディスショナリ内の該当シー
ケンス格納位置を表すコードに置き換えるディクショナ
リ圧縮と、に分かれる。本発明は、ディクショナリ式の
圧縮装置および方法に関するものである。

ディクショナリ式データ圧縮方法は、更に、入力デー
タ本体の一般的性質に関する事前知識に基づいて、固定
ディクショナリを備えた静的ディクショナリ配列に分割
される。例えば、データ本体が英語のテキストである場
合、そのディクショナリは、当該テキストのデータシー
ケンスの統計学的出現頻度に基づくものとなる。これに
換わる方法は、入力データ本体の最初のセクションを利
用してディクショナリを構成する、動的または適応ディ
クショナリエンコーダであり、この場合、ディクショナ
リはデータ本体より多くのデータが処理されるように変
更される。本発明は、このような動的ディクショナリ圧
縮システムに関するものである。

無損失動的ディクショナリ圧縮の分野においては、ZI
V−LEMPEL圧縮と呼ばれる構成が、きわめて効果的であ
るとされている。ZIV−LEMPEL法に関する変態は、イー
ストマン他による合衆国特許第4,464,650号；ウェルチ
による合衆国特許第4,558,302号；フィアラ他による合
衆国特許第4,906,991号で開示されている。

これらのZIV−LEMPELプロセッサは、入力直列ストリ
ームとしてコード化されたデータ本体を広汎に受け入れ
て、データストリームの最初のセグメントを格納するデ
ィクショナリを作成する。以降に出現するセグメント
は、メモリ内の事前出現ストリングの一端を指摘し、入
力セグメントと同一のストリング長を識別し、入力セグ
メント内の次の固有文字を組み込むために、この格納セ
グメントに比較される。

データ圧縮の分野の概説は、1989年12月発行のACMコ
ンピューティングサーベイvol.21、No.4のテキスト圧縮
モデル（Modelingfor Text Compression）に記載されて
いる。

発明の概要本発明は、少なくともある種のデータに関し、従来技
術と比べて圧縮の効率、速度、簡便性を向上した、無損
失動的ディクショナリ圧縮方式を実行するための方法と
装置に関する。

本発明の方法によって作成されるデータ構造は、人間
の脳の記憶機能の作用に類似させた連合原理を採用して
いる。例えば、顔のイメージ、流行歌のメロディ、また
は授業の内容を表す入力のような、永久記録にてきして
いると脳が見なす知覚入力群を、脳が初めて受信したと
き、脳は、これらの知覚信号の連合を記録する。そし
て、再びその顔を見たり、その歌を聞いたり、その授業
を体験したりするなどして、再び同じ知覚入力群が出現
すると、脳は、先に記憶に留められた連合と新しい入力
とを互いに関係付け、新しい入力を、古い画像の繰り返
しをなすものと認識する。脳は、これらの繰返し出現し
た同一知覚入力群を記憶せずに、既に脳が学習した連合
を強化する。

同様に、本発明の機械は、連合データ記憶機械であ
る。この機械は、情報を連合として記憶する。連合は、
一つの事象集合が出現したことの記憶である。以降の同
一事象集合の出現によって、新しい記憶が生じることは
なく、すでにメモリの中に存在する連合が増強される。
機械が、ある事象集合を学習すると、後から入力データ
ストリームに生じた集合と比較するため、および、新セ
クションを学習する必要はなく、以前に学習されたセク
ションと等しいと確認することだけで十分である、と連
合が確認される場合に、この事象集合を利用できる。こ
の連合因子により、全入力データストリームを記憶する
ための所要メモリよりも少ないメモリの記憶データ構造
となる。

機械の構造は、一階層、以下「レベル」と呼ぶ、の処
理である。各レベルは、各入力値集合ごとに単一出力値
を生成する関数を実施しなくてはならない。また、この
関数は可逆的でなくてはならない。即ち、この関数は、
各出力値について、逆方向に作用し、別個の独自入力値
集合を再生できなくてはならない。機械の全レベルで同
一関数を利用する必要はないが、各関数は数学的に可逆
的である。

このような関数の一つは、入力値を固定長二進数と考
え、一対の数字を連結するだけで長さが倍（ビット数が
倍）の固定長二進数を生成する、というものである。こ
の関数の逆は、長い二進数を二つの短い数字に分割する
ことである。これは、前記要件に適した最も単純な関数
である。しかしながら、この関数は、数字のビット数が
各レベルごとに倍になるので、あまり役に立たない。

利用可能な別の種類の関数は、レベル内の局部記憶を
用いて、実際にそのレベルで処理される入力値に関わる
情報を記録するというものである。

この種の簡単な関数は、提供された各単独対の入力値
のコピーを、局部記憶に保管するというものである。入
力対のコピーが入る局部記憶のアドレスは、出力値とし
て使用される。以前に処理した入力対と同じ入力対に遭
遇すると、新しい局部記憶は使用されず、その入力値と
合致する値が既に入っている局部メモリのアドレスが、
出力値として再使用される。新入力を、既に学習された
連合と比較する速度を最適化するための改善点を多少備
えたこの関数は、本発明の好適実施例の基礎となる。

本発明の方法は、広汎には、直列式の入力データスト
リームを、データエレメント、好ましくはデータ対、と
いう短かいシーケンスに分割し、入力データの各連続シ
ーケンスを表す信号から成る出力ストリームを生成する
ことによって、直列式の入力データストリームを分析す
ることに関わる。次に、この出力ストリームは第二プロ
セスまたはレベルに送出され、第二プロセスまたはレベ
ルでは、入力データストリームに対して第一プロセスが
作用したのと同じように、第一プロセスの出力信号に対
して作用する。第二レベルの出力は第三レベルに送出さ
れ、これは、最後のレベルまで繰り返される。

各レベルは、進行レベルによる複数入力データエレメ
ントの処理を待機した後に、直前の下位レベルから単一
データエレメントを受け取らなくてはならないので、レ
ベルが上位であるほどゆっくりした速さで作用するよう
に、各レベルのデータエレメントは入力信号よりも出力
信号の方が少ない。

本発明の好適方法は、概括的には、入力データストリ
ームのデータの未出現シーケンスを検出し、このような
未出現シーケンスを格納手段に格納し、データエレメン
トが入力シーケンスよりも少ない出力信号を用いて、格
納手段の各入力シーケンスの格納場所を表す出力信号を
生成するアルゴリズムを、繰り返し利用することと考え
られる。

入力データストリームは、工程を逆にして、蓄積デー
タエレメントを上位レベルから下位レベルへ送り、学習
過程で分解されたのと同方法で入力データストリームを
再生することによって、メモリ構造から容易に復元でき
る。

本発明の方法を実施するための装置は、汎用コンピュ
ータから構成できるが、チェーンの各プロセッサが、デ
ータ構造が構成される記憶サイクル時に順次下位のプロ
セッサの出力を受信し、入力データ本体を復元時にチェ
ーンの順次上位プロセッサの出力を受信するように、両
方向通信リンクによって直列チェーンに結合された個別
プロセッサを採用した、専用目的システムより構成され
ることが好ましい。各プロセッサは、チェーン内の場所
に適したサイズの専用メモリを備えることが好ましい。
本発明の好適実施例には、データ格納時にチェーンの最
高レベルプロセッサからの出力を受信するための直列メ
モリも組み込るれる。

データ格納工程時のプロセッサへの各入力対が単一信
号出力となる本発明の好適実施例では、入力時も固有対
が出現すると、プロセッサは、４ワードのエントリをメ
レリに格納する。そのうち２個のワードは、固有対を構
成し、三番目のワードは入力データ中にその対が出現し
た回数、四番目のワードは、この入力で出現頻度が少な
い、そのメモリ中の別のエントリのアドレスを表す連結
ポインタである。

各プロセッサは、各入力からの各数字対を、複数の連
結リストのいずれかへ割り当てるハッシュ関数も実施す
る。本発明の好適実施例では、ハッシュ関数は、所定数
の各入力対の２個の数字の最下位のビットの合計を生成
することによって、すべての入力対をいずれかのリスト
に分けるように作用する。プロセッサは、連結されたリ
ストの各々の最も頻繁に出現するエントリに対するポイ
ンタが入ったハッシュインデックステーブルも作成す
る。この構成は、入力対が以前に出現したかどうかを判
断するタスクを効率的にするために使用される。いずれ
の連結リストと比較されるべきかを判断するために、入
力対の最下位のビットを合計した後、最も頻繁に出現し
た連結リストの対の記憶位置が判定されたためにハッシ
ュテーブルが使用され、入力対と、その連結リスト内に
格納されている少頻度入力対の各々が比較され、入力対
の固有性が判定される。

本発明の代替実施例は、あるレベルの全使用可能メモ
リがいっぱいになった後でも新しい入力記録を処理し続
ける方法を提供する。この代替実施例では、あるレベル
に対する入力の全固有データ対がデータ構造のエントリ
となる初期学習期間の後、第二モードのオペレーション
が開始される。この第二モードでは、固有対が検出され
ると、次の上位プロセスに空白信号が出力され、固有デ
ータ対はプロセッサからの出力信号にアペンデージとし
て追加され、上方向に、次々に高いレベルのプロセッサ
を通り、システムの最高プロセッサの出力を受信する直
列メモリに渡される。全レベルからのアペンデージは、
最高レベルからの出力と共に格納される。記録が復元さ
れると、復元された記録の空白が適当な固有データ対に
交換できるように、アペンデージは送り返される。この
構成により、システムは無数の入力記録を処理し、記録
を可逆的に復元できる。

本発明の別の代替実施例は、第一モードのオペレーシ
ョンのときには出現しないが、第二モードのオペレーシ
ョンのときに一旦出現し始めると比較的高頻度で出現す
るデータ対のレベルに、メモリ部分を確保する。これ
は、各プロセッサに関わるメモリを、一方は永久メモリ
および他方は一時メモリと呼ばれる２部分に分けること
によって実施される。第一モードのオペレーションのあ
いだ、入力ストリーム中にこれまで出現したことのない
プロセッサへの各入力は、永久メモリ部分に格納され
る。データ構造内の全エントリが永久部分に作成される
初期学習期間の後、第二モードのオペレーションが開始
される。この第二モードでは、固有対が検出されると、
一時メモリ部分にロードされ、次の上位プロセスに空白
信号が出力され、固有データ対はプロセッサからの出力
信号にアペンデージとして追加され、上方向に、より上
位レベルのプロセッサを通って、システムの最高プロセ
ッサの出力を受信する直列メモリに渡される。全レベル
からのアペンデージは、最高レベルからの出力と共に格
納される。記録が復元されると、復元された記録の空白
が適当な固有データ対に交換できるように、アペンデー
ジが送り返される。一時メモリ部分のエントリが、入力
信号中に所定回数出現すると、永久メモリに昇進させら
れ、普通の方法で処理される。この構成により、システ
ムは無限長の入力記録を処理し、記録を両方向に復元で
きるのである。

本発明の他の目的、利益、応用は、本発明の好適実施
例に関する以下の詳細説明によって明らかになるであろ
う。説明は、添付図面を参照して行われる。

図面の簡単な説明図１は、本発明の装置の好適実施例を表す機械の概略
図である。

好適実施例の説明本発明の方法は、広範囲な形をとるディジタルプロセ
ッサによって実施されることが好ましい。極端な例とし
て、データ圧縮の点で本発明が最高効率を示す大データ
本体がなければ、本発明は汎用ノイマン型コンピュータ
で実施できるが、汎用コンピュータによる実施は、デー
タ格納タスクも復元タスクも非常に緩慢である。従っ
て、本発明の装置の好適実施例は、図１のような形の専
用コンピュータの形を取る。

機械は、ディジタルプロセッサ20a、20b、20c、20d.
・・20nのチェーンから成っている。プロセッサは、両
方向データ経路22a、22b、22c等によって、別のプロセ
ッサに相互接続されている。各プロセッサは、関連ディ
ジタルメモリ24a、24b、24c、24d.・・24nに相互接続さ
れている。各プロセッサとその関連メモリの相互接続
は、両方向接続26a、26b、26c、26d.・・26nを介してい
る。チェーンの最後のプロセッサ20nは、両方向データ
経路30によって直列メモリ28に接続されている。

以下において、チェーンの一端のプロセッサ20aとそ
の関連メモリ24aをシステム内最低レベルと呼び、プロ
セッサ20nとその関連メモリ24nを最高レベルと呼ぶこと
がある。メモリ20a−ｎに順序付きデータ構造を生成す
るために機械に処理される入力データは、入力チャネル
32を介して最低レベルプロセッサ20aに提供される。線
路32の初期の入力データストリームと同じ形の復元デー
タ構造出力は、最低レベルプロセッサ20aから出力チャ
ネル34を介して提供される。

本発明の最も簡単な実施例では、プロセッサ20aは、
特定記号シーケンスがその入力データに以前に出現した
ことがあるかどうかを判断するために、アスキー様式で
コード化される英数字データの形を取るであろう各入力
信号対を検査する。未出現のもの、あるいは、固有のも
のである場合、その入力対は、メモリ24aに格納され
る。メモリ24aの内容は、プロセッサ20aによって、入力
ストリーム中の記号対が固有のものであるかどうかを判
断するために使用される。プロセッサ20aは、回線22aを
介してプロセッサ20bに出力を提供し、プロセッサ20bは
回線22aの新語言うを入力として扱って、プロセッサ20a
が行ったのと同じプロセスを正確に繰り返す。この処理
アルゴリズムは、各プロセッサによって繰り返される。
このように、各プロセッサが受信する各ディジタルワー
ド対ごとに信号ディジタルワードを出力し、発生する唯
一の格納は、そのレベルで固有の入力対の格納であるよ
うに見える。

このシステムの作用を理解するために、図１の機械
が、最初は空で、“JOHN J.JONES HAS JOINED JOHN
SON AND JOHNSON AS Ａ JUNIOR JANITOR"という
テキストを受け取ることを考える。この例では、６レベ
ルのオペレーションを示す。下記リストでは、はっきり
分かるようにするために空白を−で示してある。

プロセッサ20aは、このテキストを１度に二文字ずつ
処理する。

プロセッサ20bとメモリ24bより成るレベル２は、レベ
ル１からの出力を、一度に数字２個ずつ処理する。

プロセッサ20cとメモリ24cより成るレベル３は、レベ
ル２からの出力を、一度に数字２個ずつ処理する。

プロセッサ20dとメモリ24dより成るレベル４は、レベ
ル３からの出力を、一度に数字２個ずつ処理する。

プロセッサ20eとメモリ24eより成るレベル５は、レベ
ル４からの出力を、一度に数字２個ずつ処理する。

プロセッサ20fとメモリ24fより成るレベル６は、レベ
ル５からの出力を、一度に数字２個ずつ処理する。

ここで、この機械に提供される初期入力データは、莫
大な量の局部記憶となることに注意されたい。各レベル
の入力対は、そのレベルで初めて見られたものである。
処理されるデータが増えると、既に局部記憶にあるもの
と合致する入力対が頻繁に出現するようになり、格納す
る必要のある新しいことの出現は頻度が低くなる。

この例では、更に、データの格納はテキストリング
“JOHN J.JONES OF JOHNSON AND JOHNSON DOES
NOT LIKE HIS JOB NOW.JOHN J.JONES WILL QUIT
JOHNSON AND JOHNSON AND SEEK Ａ NEW JOB"
と続く。レベル１は、再び、このテキストを一度に２文
字ずつ処理する。

下記リストでは、見えるようにするために空白を−で
示してある。

レベル２は、レベル１からの出力を、一度に数字２個
ずつ処理する。

レベル３は、レベル２からの出力を、一度に数字２個
ずつ処理する。

レベル４は、レベル３から出力を、一度に数字２個ず
つ処理する。

レベル５は、レベル４から出力を、一度に数字２個ず
つ処理する。

レベル６は、レベル５から出力を、一度に数字２個ず
つ処理する。

第二例で、レベル１とレベル２で、局所メモリに新し
い入力対を格納する必要があったものは、割合として第
一例の約1/2であったことに注意されたい。レベル３で
さえ、僅かながらも、新メモリを使用しない入力対を処
理した。更に多くのデータが処理されると、この現像は
継続していくであろう。新しい入力対の出現は次第に少
なくなる。高い方のレベルでさえ、新メモリを要しない
入力対が出始めるであろう。

データは、システムを逆方向に作用させることによっ
て復元できる。直列メモリ28に格納されている数字は、
各レベルを通って戻すことができる。上記の例では、プ
ロセッサ20fは、数字２を受信すると、数字３と４の対
であるエントリアドレス２の内容に取り、それらを経路
22eを介してプロセッサ20eに送出する。プロセッサ20e
は、そのアドレス３と４の内容を、下位レベル等に送る
ことによって対応する。最低レベルにおいて、プロセッ
サ20aは、復元された文字集合を出力チャネル34へ送
る。

大量のデータが機械に格納されているとき、事象の頻
度分布はある種の特性を示す。少数の高頻度数字対が、
レベル毎に見られる入力データの大部分を占める。局部
記憶の大部分を占めることができる多数の低頻度数字対
は、入力データのほんのわずかな部分である。格納およ
び検索回収機能の速さを最適化し、機械の各レベルに要
求される局部記憶量の実際的な限界を設定するために、
この頻度分布の予想の知識を使用して連合機能ならびに
局部記憶の配分を計画できる。

低頻度入力数字対は、それらが要求する入力部分と不
釣合いな速さで、局部記憶を使い果してしまうので、本
発明の好適モードは、出力へのアペンデージとして低頻
度数字対を渡すことによって、低頻度数字対が局部記憶
を使い果たす空間を限定する方法を具備している。

これは、入力の新情報量と関連した方法で、出力サイ
ズを増大する効果がある。

本発明の機械の好適モードにおいて、各レベルは、大
ダイナミックラムメモリを備えたINMON T800トランス
ピュータと、オペレーティングソフトウェアのコピーよ
り成っている。T800は、４ギガバイトまでのメモリを直
接アドレス指定できる32ビットアドレス空間を有してい
る。各レベルは、直列通信リンクによって、各々、その
上位のレベルに結合され、別の直列通信リンクによっ
て、各々、その下位のレベルに結合されている。最上位
および最下位レベルは、入力／出力インタフェースに結
合されている。

各レベルの作用は、レベルが高くなるほど記録サイズ
が小さくなるということ以外は、他のレベルの作用と同
じである。記録サイズとは、データ格納時に最高レベル
からの１アドレス値の出力となる、データ量のことであ
る。この同一記録サイズは、最高レベルに提供された１
アドレス値に由来する復元プロセスのときに、各レベル
毎に生成される出力に適用される。

局部記憶に格納されるデータは、連結リストにこれら
の項目を結合する各対およびポインタの出現回数と、入
力データストリームの一部であった数字の固有対と、か
ら成っている。使用されるのは、論理的に別個の連結リ
ストの固定番号である。連結リストは、物理的順序と同
一ではない論理的順序をリストが有することのできるデ
ータ構造である。各要素が次のものへのポインタを有し
ているので、連結リストは順次アクセスされる。

入力からの各数字対に、いずれか１個の連結リストを
割り当てるためにハッシュ関数が使用される。ハッシュ
関数は、数多の項目（この場合は、入力数字対）を、少
数の値（この場合は、ハッシュインデックステーブルへ
のインデックス）にマッピングする。好適実施例で使用
されるハッシュ関数は、入力対の数字２個の合計である
16個の最下位ビットを取る。

ハッシュインデックステーブルは、各連結リストの論
理的第一エントリに対するポインタを含む固定長テーブ
ルである。好適実施例では、ハッシュインデックステー
ブルは65536個のアドレスを含むが，その各々は、対応
連結リストの論理的第一エントリの32ビットアドレスで
ある。

一つのエントリの長さは４ワードである。最初の２ワ
ードは、少なくとも１回以上出現した数字対である。次
のワードは、連結ポインタ、即ち同一連結リストの一部
である別のエントリのアドレス、である。四番目のワー
ドは、その対が入力データ中に何回出現したかの回数で
ある。

連結リストは、最も頻繁に出現したエントリがリスト
の最初に来て、最も出現した頻度が少なかったエントリ
がリストの最後に来るように保持される。

各連結リストは、ハッシュインデックステーブルに含
まれるポインタから始まる。このポインタは、（リスト
にいずれかのエントリがある場合には）メモリ内のエン
トリのアドレス、または、リストの最後を示すデフォル
ト値である。

格納のためにレベルに入力記録を提供するときは、以
下の手順に従う。プロセッサは、記録を最初から始める
入力数字対を取り、ハッシュ関数を使用してハッシュイ
ンデックステーブルで適当なエントリを決定し、一致す
る数字対が見つかるか、リストの最後に達するまで、指
定された連結リストを探索する。

連結リスト内を探索するとき、プロセッサは、探索後
にリストを更新するときに必要となるであろう数件の情
報のトラックをとっておく。また、逆方向ポインタがな
いので、現在見ているエントリの一つ前のエントリ（以
下、第一前エントリと言う）に対するポインタと、その
前の連結ポインタ（第二前連結ポインタ）とをとってお
く。

合致するものが見つからなければ、この新項目は次の
ようにしてリストに追加される。リスト内の最終エント
リの連結ポインタは、未使用メモリ中の次の使用可能空
間を指定するように設定され、入力数字対、その回数、
およびリストの最後を示すデフォルトポインタを使用し
て、その空間に新しいエントリが作られる。新エントリ
のアドレスが出力記録に入る。

合致するものが見つかった場合は、そのエントリのア
ドレスが出力記録に入り、そのエントリの回数が増分さ
れる。但し、この回数が、再連結に関する所定しきい値
より多く第一前エントリの回数を越える場合は、このエ
ントリはリストの論理的シーケンスに上げられる。これ
は、当該連結ポインタと二つの前エントリとを書き換え
ることによって実施される。現エントリの連結ポインタ
にあったアドレスは、第一前エントリの連結ポインタに
コピーされる。第一前エントリのアドレスは、現エント
リの連結ポインタに書き込まれる。現エントリのアドレ
スは、第二前リンクポインタに書き込まれる。

一つの入力対の処理が終了すると、同入力記録からの
次の入力対が取られ、同じように処理される。

あるレベルの使用可能メモリがいっぱいになった場
合、その中にはもうデータ対を格納できない。したがっ
て、既存のデータ対のいずれかに合致しない入力対を構
造に追加することは不可能である。新しい入力記録の格
納時にこのような非合致入力対が発生した場合、アドレ
スの代わりに空白値が出力記録に書き込まれ、当該デー
タ対はアペンデージとして出力記録の最後に入る。入力
記録と一緒に受理されるこのようなアペンデージも、出
力記録の最後に追加されるので、あらゆるレベルからの
アペンデージは、最高レベルからの出力に一緒に入って
いる。

構造が比較的いっぱいになるまで出現しはじめないデ
ータ対のために、あるレベルのメモリの一部を確保する
本発明の代替実施例では、メモリを、アドレス空間の両
端から組み立てられる二つのヒープとして扱う。一方は
永久メモリと呼ばれる。他方は一時メモリと呼ばれる。
各レベルのオペレーションの初期モードのとき、すべて
の新エントリ永久メモリに作られる。メモリの所定部分
がいっぱいになると、第二モードのオペレーションが始
まり、その間、新エントリ用に一時メモリが使用され
る。

この一時ヒープのエントリは、永久メモリのエントリ
と同構造であるが、保持は同方法では行われない。一時
エントリは、当該レベルへの入力で出現したものの永久
メモリに入れるほどの頻度ではない数字対を保持する。
一時エントリの中には空白のものもあり、即ち、その位
置には現在は有効数字対が保持されていないことを示す
デフォルト値を入れておくことができる。

各連結リストは、ハッシュインデックステーブルに入
っているポインタで始まる。このポインタは、（リスト
にいずれかの永久エントリがある場合には）永久メモリ
内のエントリのアドレス、または、このリストの事前に
割当てられた第一一時エントリのアドレスである。永久
エントリがある場合、それらの各々は、事前に割当てら
れた第一一時エントリを指定する最後のもの以外は、別
の永久エントリを指定する。リストには、追加的な一時
エントリもある。各一時エントリは、リストの最後を示
すポインタにデフォルト値を有する最後のもの以外は、
隣の一時エントリを指定する。

連結リスト内を探索するとき、プロセッサは、探索後
にリストを更新するときに必要となるであろう数件の情
報のトラックをとっておく。また、逆方向ポインタがな
いので、現在見ているエントリの一つ前のエントリ（以
下、第一前エントリと言う）に対するポインタと、その
前の連結ポインタ（第二前連結ポインタ）とをとってお
く。永久メモリの連結リストの最後に達した場合、ポイ
ンタ１個を永久メモリの最後の連結ポインタとしてとっ
ておく。リスト内に永久エントリがなかった場合、ハッ
シュインデックルテーブル内の位置は、永久メモリでの
最終連結ポインタであると見なされる。連結リストの永
久部分の探索後、当該リストの事前割当て第一一時エン
トリで始まる対応一時リストが探索される。リスト内
に、いずれか空の一時エントリが見つかった場合、ポイ
ンタを第一空一時エントリに保管する。

合致するものが見つからなければ、低頻度入力対の出
現を示す出力値が出力記録に入り、入力対は低頻度アペ
ンデージ用のバッファにコピーされ、新項目は次のよう
にしてリストに追加される。空の一時エントリが見つか
った場合、その中に数字対を格納し、カウンタを１に初
期設定する。空の一時エントリが見つからなかった場
合、リスト内の最後のエントリの連結ポインタは、一時
ヒープ上の次の利用可能空間を指定するように設定さ
れ、入力数字対、その回数、およびリストの最後を示す
デフォルトポインタを使用して、新しいエントリが作ら
れる。

永久領域で合致するものが見つかった場合は、そのエ
ントリのアドレスが出力記録に入り、そのエントリの回
数が増分される。但し、この回数が、再連結に関する所
定のしきい値より多く第一前エントリの回数を越える場
合は、このエントリはリストの論理的シーケンスに上げ
られる。これは、当該連結ポインタと二つの前エントリ
とを書き換えることによって実施される。現エントリの
連結ポインタにあったアドレスは、第一前エントリの連
結ポインタにコピーされる。第一前エントリのアドレス
は、現エントリの連結ポインタに書き込まれる。現エン
トリのアドレスは、第二前リンクポインタに書き込まれ
る。

一時領域で合致するものが見つかった場合は、そのエ
ントリの回数が増分される。この回数が、永久メモリを
作るための所定のしきい値を越える場合、このエントリ
は永久メモリに移行される。これは、永久メモリ内の次
の利用可能空間を使用してエントリを作ることによって
実施される。入力数字対と回数とは、新エントリにコピ
ーされる。一時メモリ内の現エントリは、空の一時エン
トリのためにデフォルト値を書き込むことによって空に
できる。永久メモリ内の最終連結ポインタに保持されて
いるアドレスは新エントリにコピーされ、新エントリの
アドレスは（永久メモリ内の最終連結ポインタだった）
連結ポインタに書き込まれる。こうして新永久エントリ
のアドレスは、出力記録に入れられる。回数がしきい値
を越えない場合、低頻度入力対の出現を示す出力値が出
力記録に入れられ、入力対は低頻度アペンデージのバッ
ファにコピーされる。

一時または永久エントリを追加するだけの空間が残っ
ていない場合は、必ず、すべての一時エントリが廃棄さ
れる。これは、各リストの事前割当て第一一時エントリ
を、空として、および、そのリスト内の最終エントリと
してマーキングすることによって実施される。

一つの入力対の処理が終了すると、同入力記録からの
次の入力対が取られ、同じように処理される。入力記録
の固定長部分の最後には、下位レベルからの低頻度数字
のアペンデージを入れることができる。このアペンデー
ジは、出力、次に低頻度アペンデージ用の当該レベルの
バッファの内容に、コピーできる。

フロントページの続き (56)参考文献特開平４−280517（ＪＰ，Ａ) 特開平４−270413（ＪＰ，Ａ) 特開平４−223556（ＪＰ，Ａ) 特開平４−156109（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 5/00 H03M 7/30 - 7/42

Claims

(57)【特許請求の範囲】

【請求項１】入力データストリームを受信して、該入力
データストリームを、該入力データストリームを復元で
きる整列された格納データ集合体に変換するために機能
する装置であって、順番に整列された複数のメモリレベルと、各々１個のメモリレベルに関連する複数の処理手段とか
ら成り、第一メモリレベルに関連する前記処理手段は、前記入力
データストリームを受信し、前記ストリームを分析して
前記ストリーム中のデータエレメント未出現シーケンス
の発生を検出し、前記第一メモリレベルにそれらのシー
ケンスを格納し、前記入力ストリーム中の各データエレ
メントシーケンスの第一メモリレベルでの格納位置を表
わす信号を出力する働きをなし、後続の各メモリレベル
に関連する処理手段は、一連の下位メモリレベルに関連
する処理手段からの出力信号を受信し、当該出力信号中
に出現した格納位置エレメント未出現シーケンスのみ
を、検出かつその関連メモリレベルに格納し、その入力
信号中の各格納位置エレメントシーケンスの関連メモリ
レベル内での格納位置を表わす信号を、次の上位メモリ
レベルと関連する処理手段に出力する働きをなすことを
特徴とする、前記装置。
【請求項２】各処理手段で使用される前記データエレメ
ントシーケンスが、エメレント対から成ることを特徴と
する、請求項１に記載の装置。
【請求項３】各メモリレベルに、各格納入力シーケンス
の、その入力信号中の出現数を記録するための手段を具
備することを特徴とする、請求項１に記載の装置。
【請求項４】入力データストリームを受信して、該入力
データストリームを、該入力データストリームを復元で
きる整列された記憶アレイに変換するために機能する装
置であって、メモリレベルの整列されたシーケンスと、下位のメモリレベルに関連する処理手段からの入力信号
を受信し、その入力信号中のいくらかのエレメントシー
ケンスをその関連メモリレベルに格納し、一連の上位の
メモリレベルに関連する処理エレメントへの出力信号を
生成する働きをなす各々が異なるメモリレベルに関連す
る複数の処理手段とから成り、前記各処理手段は、当該入力ストリーム中の複数の連続
エレメントを、当該出力信号中の単一のエレメントに変
換する可逆的アルゴリズムを実行する働きをなし、前記
各処理手段は、更に、それの入力ストリーム中の一度の
み出現したエレメントシーケンスを、その関連メモリに
格納する働きをなし、及び前記シーケンス中の第一以外
の前記各処理手段は、当該入力ストリーム中に出現する
格納エレメント未出現シーケンスのみを検出しかつその
関連メモリレベルに格納する働きをなし、そのため各メ
モリレベルが入力エレメントの一種類のシーケンスを単
一の位置のみに格納することを特徴とする、前記装置。
【請求項５】入力デジタルデータストリームを受信し
て、該入力デジタルデータストリームを、該入力データ
ストリームを復元できるデジタルメモリ内のエントリの
整列構造に変換するために有効な装置であって、前記入力ストリーム内のデータエレメント入力シーケン
スを分析し、かかるエレメントの少なくともいくらかの
未出現シーケンスをエントリとして前記デジタルメモリ
内に格納し、エレメントの少なくともいくらかの入力シ
ーケンスの前記デジタルメモリ内での格納位置を表わす
出力信号を生成する複数の一連の配列された手段を有
し、前記複数手段中の各手段の前記出力信号は前記入力
シーケンスより少ないエレメントを持ち、最初のかかる
分析手段は、前記入力データストリームをそれの入力シ
ーケンスとして順次受信し、後続のかかる分析手段は、
かかる手段の下位のものから格納位置を表わす出力信号
を順次受信し、及び格納位置のみを表わすそれらの出力
信号をかかる手段の上位のものに順次送出することを特
徴とする、前記装置。
【請求項６】入力データストリームに作用し、該入力デ
ータストリームを復元できる整列されたデータ集合体を
生成する方法において、順番に整列された複数のメモリレベルと、各処理手段が
前記メモリレベルの１つと関連する複数の処理手段とを
準備するステップと、第一メモリレベルに関連する前記処理手段で、前記入力
データストリームを受信し、前記ストリームを分析して
前記ストリーム中のデータエレメント未出現シーケンス
の発生を検出し、前記第一メモリレベルに前記未出現シ
ーケンスを格納し、及び前記入力ストリーム中の各デー
タエレメントシーケンスについて前記第一メモリレベル
内での格納位置を表わす信号を出力するステップと、後続の各メモリレベルに関連する処理手段で、一連の下
位のメモリレベルに関連する処理手段からの出力信号を
受信し、前記出力を分析して前記出力信号中に出現する
格納位置エレメント未出現シーケンスの発生を検出し、
前記未出現シーケンスを格納し、及びその入力信号中の
各格納位置エレメントシーケンスについての関連メモリ
レベル内での格納位置を表わす信号を、次の上位のメモ
リレベルと関連する処理手段に出力するステップとを有
することを特徴とする方法。
【請求項７】未出現シーケンスを検出するステップが、
エレメント対を検出することを含むことを特徴とする、
請求項６に記載の方法。
【請求項８】各格納入力シーケンスの、信号中での出現
数を、各メモリレベルに記録するステップを含むことを
特徴とする、請求項６に記載の方法。
【請求項９】入力データストリームを受信して、該入力
データストリームを、該入力データストリームを復元で
きる整列された格納アレイに変換する方法において、メモリレベルの整列されたシーケンスと、各々が異なる
メモリレベルに関連する複数の処理手段とを準備するス
テップと、各処理手段で、下位のメモリレベルと関連する処理手段
から入力信号を受信し、それの入力信号内で検出された
いくらかのエレメントシーケンスを各メモリレベルに格
納し、入力ストリーム中の複数の一連のエレメントをそ
の出力信号内の信号エレメントに変換する可逆的なアル
ゴリズムを使用して、各々の一連の上位のメモリレベル
と関連する処理エレメントへの出力信号を生成するステ
ップと、第一レベルに関連する処理手段以外の各処理手段で、入
力ストリーム中で発生する格納エレメント未出現シーケ
ンスのみを検出かつ関連メモリ内に格納し、そのため各
メモリレベルが、入力エレメントの一種類のシーケンス
を、単一の位置のみに格納するステップとを有すること
を特徴とする方法。
【請求項１０】入力デジタルデータストリームを受信し
て、該入力データストリームを、該入力データストリー
ムを復元できるデジタルメモリ内のエントリの整列構造
に変換する方法において、前記入力ストリーム中のエレメント入力シーケンスを分
析する、一連の整列された複数の手段を準備するステッ
プと、前記デジタルメモリ中にかかるエレメントの少なくとも
いくらかの未出現シーケンスをエントリとして格納する
ステップと、エレメントの少なくともいくらかの入力シーケンスの前
記デジタルメモリ中での格納位置を表わす出力信号を生
成するステップとを有し、前記複数手段中の各手段の前記出力信号は、前記入力シ
ーケンスより少ないエレメントを持ち、最初のかかる分
析手段は、前記入力データストリームをそれの入力シー
ケンスとして順次受信し、後続のかかる分析手段は、か
かる手段の下位のものから格納位置を表わす出力信号を
順次受信し、及び格納位置のみを表わすそれらの出力信
号をかかる手段の上位のものに、順次提供することを特
徴とする方法。