JPS58119230A

JPS58119230A - 情報圧縮方法

Info

Publication number: JPS58119230A
Application number: JP57185904A
Authority: JP
Inventors: クレイグ・アダム・スノ−
Original assignee: System Development Corp
Current assignee: System Development Corp
Priority date: 1981-12-31
Filing date: 1982-10-21
Publication date: 1983-07-15
Also published as: EP0083393A3; EP0083393A2; DE3277556D1; US4597057A; EP0083393B1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】この発明はディジタルコード化された形式における英語
または他の言■テキストのストレージに関し、より特定
的には、ＡＳＣＩＩにコード化されたテキストをさらに
よりコンパクトにコード化されたテキストの表現に圧縮
する方法に関する。

２進コード化された形式における英語テキストの伝送お
よびストレージは、たとえばテキストの最初と最優、繰
返しなどを示す英数字キャラクタ、句読点および他の記
号や省略形のセットが８ビツトバイトにコード化されて
いる標準化されたＡｓＣ１１コードにおいて行なわれて
いる。メモリストレージ容量は、多くの場合、メモリに
ストアされ得るバイトの数に関して評価される。大量の
原文情報をストアおよびアクセスすることが必要である
ときには、原文の材料を再生するのに必要な英数字キャ
ラクタ、句読点および他の記号をストアするために必要
であるメモリの総計を圧縮する何らかのコード化方法を
用いることが望まれるようになる。＠　ｕｆｆｓａｎコ
ーディングテクニックのように種々の案が原文材料をコ
ード化するために開発されてきているが、そのような案
はそれが受信されるようにいかなる一連のバイトをも操
作し得ると同時に、成る種の独特の英語テキストの文字
の充分な効果をとらなかった。

この発明は、ＡＳＣＩＩコード化されたバイトに受信さ
れた情報を圧縮、ストア、および圧縮されていない形式
に引き出す改良された方法に向けられている。テキスト
＆を象徴記号（トークン）に纏められ、そこでは各トー
クンはワード、数字または句読順序を形成する１つ駆上
の文字である。

スペース、タブおよび倫のフォーマットアイテムのよう
な種々雑多なＡＳＣＩＩコード化された入力バイトが、
句読トークンとしてエンコードされる。しかし数字にお
けるピリオドまたはコンマ、またはワードにおけるハイ
フンまたはアポストロフィのような成る種の句読は、数
またはアルファベットワードトークンの一部としてエン
コードされる。圧縮されたテキストにエンコードする単
位は４ピツトであり、「ニブル」として参照される。

最も頻繁に使用される文字および数字は１つのニブルに
エンフードされ、したがって２つの文字が１バイトで表
わされることができ、およその２対１圧縮の効果を与え
る。英語テキストにおいて最も頻繁に用いられる約６０
０のワードおよび句読順序が、それぞれに２つまたは３
つのニブルのみを用いて非常にコンパクトな形式にエン
コードされている。このことは、実質的に２対１圧縮よ
りも良い圧縮率の可能性を与える。

このエンコードは、トークンがＡＳＣＩＩコード化され
たバイトのストリングから最初に分離されるこの発明の
圧縮方法によって達成される。ももしこのトークンがワ
ードトークンであれば、たとえば、そのワードは＊ｍに
おいて最も頻繁に使用されるワードのグローバル辞書と
最初に比較される。もしそのワードが辞書にあれば、そ
れは２つまたは３つのニブルとしてストアされる。この
ことは、最も頻繁に使用される英単語の中の多くのより
短い単語の１１１Ｉをみる。より長い単語は、そのＷａ
ｌｌｉの数文字を頻繁な接頭辞文字の組合わせのリスト
と最初に比較することによってエンコードされる。もし
そのリストの中にあれば、その接頭辞がトークンから分
離されて、２つのニブルとしてストアされる。このプロ
セスは、残の頭文字が接頭辞リストに中に見られなくな
るまで、残りの文字について繰返される。次に語尾の文
字が接尾辞リストと比較され、もしそのリスト内にあれ
ば、２つのニブルとしてストアされかつそのワードの語
尾から分離される。もし語幹長が４または５キヤラクタ
でかつ接尾辞が識別されたなら、最後の接尾辞に応答し
てストアされる最初のニブルが、語幹が４または５キヤ
ラクタの長さであることを示す値に変更される。すべて
の数字トークンは、トークンのタイプを識別する１つの
ニブルおよび数字の中の多数のための１つのニブルとし
てストアされる。句読トークンはグローバル辞書に共通
の句読順序を含むことによってエンコードされ、もしそ
の辞書の中になければ、トークンが句読であること、バ
イトごとのエンコーディングであることおよびトークン
におけるバイトの数を示すニブルとともに、ＡＳＣＩＩ
コードにバイトごとにエンコードされる。

このテキストストレージシステムは数タイプの入力ター
ミナル゛１０を含んでおり、それはキーボード、モデム
、または標準的なＡＳＣＩＩコード化されたバイトにお
いて入力バスを介してデータを送る他の装置であり得る
。ＡＳＣＩＩコード化されたテキストの出所は、この発
明にとって重要ではない。テキスト圧縮エンコーダ１４
は、ランダムアクセスメモリ１６および／またはディス
クメモリ１８におけるストレージのために、データを圧
縮された形式に修正する。ディスクメモリ１８および／
またはＲＡＭ１６からのストアされたデータは、テキス
ト受信ターミナル２１に対する伝送のために、テキスト
圧縮デコーダ１９によって標準的なＡＳＣ１１コード形
式に圧縮を解除される。

圧縮モードにおいてオペレートするときに、テキスト圧
縮エンコーダ１４は、入力バスを介してターミナル１０
からデータと同時にキャラクタの転送を始める。各キャ
クタはキャラクタバッフ？２０にしばらくストアされ、
そこではそれは、それが数字キャラクタか、アルファベ
ットキャラクタかまたは句読キャラクタかを決定するた
めにデコードされる。この目的のために、スペース、タ
ブおよび他のフォーマットアイテムを含むすべての種々
雑多な入力バイトが、句読キャラクタとしてデコードさ
れる。受取られた一連のキャラクタは、＼異なったトー
クン（類別される。トークンの閣の表示は、これらの３
つのタイプのキャラクタのうちの１つから前記３つのタ
イプのうちの他のものへのｌＩ！更によって１ｌｌＩｌ
される。したがって通常アルファベットワードの俵にス
ペースが続き、それはアルファベットトークンを輪郭描
写する句読キャラクタとして認識される。しかしスペー
スは圧縮のｍに別々の句読トークンとしてエンコードさ
れる必要はないが、しかし不１行状態として扱われかつ
自動的に圧−の−に一連のアルファワードの間に挿入さ
れ得る。一連の句読キャラクタ、一連の数字キャラクタ
または一連のアルファキャラクタは、したがって１つの
トークンとして示される。

１つのトークンを構成するキャラクタは、最初入力ター
ミナルからのキャラクタの新しいストリングを妬め、キ
ャラクタバッファに対して転送されるキャラクタの特徴
における１つのタイプから他のタイプへの、たとえばス
ペースキャラクタからアルファベットキャラクタへの変
更を認識し、かつ一連のキャラクタがトークンバッフ？
に集められるようする入力コントロール２４に応答して
、トークンバラフン２２に集められる。一旦バツファに
対して転送されるトークンの最後が認識されると、入力
コントロール２４はＲＡＭ１６および／またはディスク
メモリ１Ｂ内にそれをストアする前に、そのトークンを
圧縮するためのエンコード手順を始める。エンコードコ
ントロール２６は、トークンバッファがトークンでいっ
ばいになったときに入力コントロール２４によって信号
で合図され、−そのトークンがフルフット−クンか数字
トークンかまたは句読トークンであるかを決定する。

次にエンコードコントロール２６は、アルファエンコー
ドオペレーションまたは数字エンコードオペレーション
または句読エンコードオベレーションを信号で合図する
。

圧縮後メモリ内にストアされるエンコードされた情報は
、各ニブルストリングが１つのトークンに対応する一連
のニブルストリングの形式をとる。

ニブルは４つの２道ビツトであり、１６の可能な値のう
ちのいかなるものにもコード化され得る。

この発明の概念にしたがって圧縮を連成するためのプベ
てのエンコードは、組合わせトークンまたは一部分のト
ークンのために、エンコードのタイプを示すジ−エネレ
ータと呼ばれる最初の二°プルを発生することを含んで
いる。最初のニブルｒよ′らて識別される１６の可能な
タイプのエンコードは、以下のとおりである。

ＬＬ隻または２」」とレータ二１ル　エンコー゛のタイプ　ｘ）１二’（Ｆ）１克０
・・４　高頻度のグローバル　１つのアイデンティファ
イアニブル（８０グローバル）５・・・６　中頻度のグローパル　２つのアイデンティ
ファイアニブル（５１２グローバル）７　　　数字　　　　　　　　カウント（０−１５）プ
ラス数字コード８　　　接尾辞語尾、グルー　接尾辞アイデンテプ２　
　　　　　　　イファイアコード。

さらに情報９　　　接尾辞ＩＩ尾、グルー　接尾辞アイデンテプ１
　　　　　　　　ファイアコード。

さらに情報ｉｏ　　　ｍ幹すイズ４上の接　接尾辞フイデンテ尾辞
グループ１　　　イファイアコード。

４文字コードｉｉ　　　ｍ幹すイズ５上の接　接尾辞アイデンテ尾辞
グループ１　　　イフ？イアコード。

５文字コード１２　　カウントを持つ語幹　カウント（０−１５）プ
ラス文字コード１３　　サイズ４の語幹　　　４文字コード１４　　サ
イズ５の語幹　　　５文字コード１５　　接頭辞ｌＩｌ
ｌｉｔＩＩｉｌｉ１ｇアイデンティファイアコード。

さらに情報全部で１６タイプのエンコードは、数字トークンのエン
コードのために予約されているジェネレータ値７を除い
て、アルファベットトークンのエンコードのために用い
られる。ジェネレータＯから６は、句読トークンのエン
コードのために用いられる。トークンがアルファベット
またはワードトークンとして識別されてバッファ２２内
にスト令アされているとすると、最初のステップは、そのワード
が高頻度のグローバル辞書または低頻度のグローバル辞
書のいずれにストアされているかを決定することである
。高頻度のグローバル辞書３０は、英語テキストにおい
て見られる８０までの最も共通なワードおよび句読の組
合わせからなっている。そのテーブルは、たとえばリー
ドオンリメモリにストアされ得る。さらに、低頻度のグ
ローバル辞書は、５１２までの１Ａ飴のワードおよび句
読の組合わせからなり、リードオンリメモリ３２にスト
アされる。ワードトークンエンコードコントロール３４
は、エンコードコントロール２６からのアルファベット
エンコード信号に応答して、トークンバッファ２２にス
トアされたワードと高頻度のグローバル辞書および低頻
度のグローバル辞書の内容との閣で比較を始める。これ
は辞書における各エントリをトークンと順に比較するこ
とによってなされ得るが、ハツシュ値とて参照されるバ
ッファ内のトークンにおけるキャクタの組合わせと独特
に一連する値が従来のアルゴリズムによって最初にコン
ビニートされる、公知のアドレステクニックを用いるこ
とが望ましい。この値は、次に辞−に対するアドレスと
して用いられる。したがって、そのコンビニートされる
ハツシュ値に対応するアドレスで辞書において各ワード
をストアし、かつトークンバッファ２２内にストアされ
るワードのハツシュ値を用いることによって、対応する
ハツシュ値を持つワードがグローバル辞書においでアド
レスされをる。次に比較回路３８によって、エンコード
されるワードとハツシュ値によってアドレスされるスト
アされたワードとの間で比較が行なわれる。もし辞書に
おける１以上のワードが同一ハツシュ値を持っているな
ら、それらのワードは順にストアされかつ次にそれらの
ワードの各々について順に比較が行なわれる。もし一致
が発見されれば、次のトークンがバッファ２２に塞めら
れる。同時に、ジェネレータニブルおよび１または２個
のアイデンティファイアニブルが選択され１、ジェネレ
ータニブルに続くメモリ１６またはディスクファイル１
８にストアされる。

ジェネレータおよびフイデンティ７戸イアニブルは独特
の方法でトークンを規定し、かっこの後詳細に記述され
るように、圧縮の園に辞書がらトークンワードを引出す
のに用いられる。ジェネレータおよびアイデンティファ
イアニブルは、０から１５のアイデンティファイアの値
とともにエンコードタイプの値Ｏから４を用いることに
よって選択され、高頻度のグローバル辞書テーブルにお
ける８０ワードを独特の方法でアドレスする。それぞれ
値０から１５の２つのアイデンティファイアニブルとと
もにジェネレータ値５および６は、低頻度の辞書３２内
の５１２ワードのうちのいかなるものをも独特な方法で
アドレスする。

したがって、もし圧縮されるトークンワードが高頻度の
グローバル辞書の中に発見されるならば、２つのニブル
のみがフルワードの代わりにメモリ内にストアされると
いうことが＊Ｗされよう。フルＡｓＣ■１コードにおい
てストアするために通常的に６バイトのメモリを必要と
するたとえば６文字のワードは、１バイト（２ニブル）
のメモリ内に圧縮される。もしそのワードが低頻度のグ
ローバル辞書の中にあれば、それは１．５バイト（３ニ
ブル）のメモリ内に圧縮される。いずれの場合において
も、トークン情報をストアするのに必要とされるメモリ
において非常に大きな減少がある。

もし比較回路３８がバッファ２２内のワードトークンと
グローバル辞書３０および３２内にストアされたいかな
るワードとの間にも一致が存在しないということを示し
ているならば、上のテーブルにおいてジェネレータ値８
から１５によって表わされるような、ワードが部分的に
エンコードされる代わりのエンコード手順を始めるよう
に、それはワードトークンエンコードコントロール３４
を信号で合図する。トークンは、接頭辞と言われる識別
可能な語順の文字の組合わせ、接尾辞と呼ばれる識別可
能な１８尾の文字の組合わせ、および語幹と呼ばれる中
央または真中の文字の組合わせに分解される。第３図に
示されるように、もし比較Ｈ路３８がトークンがグロー
バル辞書内（ないことを示しているならば、それは第４
図に示されるようにバッファ２２内のワードトークンの
最初の２または３文字がｌ＃１ｌｉＩＦテーブル４６内
にストアされた１６の興なった文字の組合わせと比較さ
れる接頭辞エンコードオペレーションを最初に始める部
分的エンコードコントロール４４を活性化する。そのテ
ーブルは、以下のテーブルにおいて示されるような、芙
＊ｍのｉｉ＊に見られる最も共通な文字の組合わせを備
えている。

ＣＯ■ ＯｎＯｅｅ× ｎｒＯｅｅｈｔａＳ【ｕ【ｅ０ｎ接頭辞はスキセンカウンタ４８によってテーブル内で順
にスキャンされ、比較回路５ｏによってバッファ２２内
にストアされているトークンワードにおける対応する数
の最初のキャラクタと比較される。もし接頭辞テーブル
のスキャンが完了して一致が全く発見されなければ、接
尾辞セット信号が部分的エンコードコントロール４４に
与えられて接頭辞エンコードオペレーションは終了する
。

しかしもし一致が起こればスキャンカウンタは中断され
て、接頭辞繰返し信号が部分的エンコードコントロール
４４に送られる。接頭辞の最倹のキャラクタは、しばら
くの閤レジスタ５５内にストアされる。また接頭辞キャ
ラクタの第１のグループが、バッファ２２内にストアさ
れているトークンワードから消される。６２で示される
ようにジェネレータニブル１５が選択され、メモリ１６
内にストアされる圧縮されたトークンストリングの最初
のまたはジェネレータニブルとして記録される。テーブ
ル４６内の１６の接ＷＡｌｌＦのうちのいずれがトーク
ンワードから分離されるかを識別する、５４で示される
ような選択されたアイデンティファイアニブルがこれに
続く。したがってメモリ内にストアされた２つのニブル
が、取出しまたは圧縮除去オペレーションの闇にトーク
ンの最初の２または３個のキャラクタを発生するために
用いられ得る。

一旦最初の接頭辞がトークンから分離されると、比較の
ためにバッファ２２内のワードの残りのキャラクタのＩ
！ｉＩ！ｉを用いてオペレーションが繰返される。もし
２番目の一致があれば、他のジェネレータニブルおよび
アイデンティファイアニブルがメモリ１６内に順にスト
アされる。このオペレーションは、ワードトークンのす
べての文字が消されてしまいかつバッファ２２が空にな
って次のトークンが集められる場合、またはバッファ内
のワードの最初の文字と接頭辞テーブル４６の内容との
間に一致が存在せず部分的エンコードコントロール４４
がセットされて接尾辞エンコードオペレーションを始め
る場合のいずれかまで繰返される。

もしトークンから分離される文字が全くなければ、０の
語幹長がメモリ内にエンコードされたトークンの最侵の
ニブルとしてストアされる。いかなる接ＷＡ辞または接
尾辞ジェネレータおよびアイデンティファイアにも従う
ニブル値０か５７は、語幹長の値として解釈されるとい
うことに注意されるべきである。

第５図を参照すると、接尾辞エンコーディングは、５６
および５Ｂで示されるグループエおよびグループ■とし
て参照される２つのＩＭＥ辞テーブルを含んでいる。グ
ループエテーブルは、英語に見られる１６の最も共通の
単一のｌＩＮを含んでおり、グループ■は１６の最も共
通でない単語の語尾のセットを代わりに含んでいる。接
尾辞テーブル５６および５８の内容の例が、以下のテー
ブルに与えられる。

！」１！口Ｕ　　　　わ　　の　　　のａ　ｌ　　　　
　　　　　　ａｇ６ａｄ　　　　　　　　　　ａｌｌｙｅｎ　　　　　　　　　　　　　ａｔａｎｔ　　　　　　　　　ｇｈｔｅｒ　　　　　　　　　　　　１ｅｓｓｒｓ　　　　　　　　　　　ｔｏｎｅｓ　　　　　　　　　　ｉ　ｔｙｌｃ　　　　　　　　　　　　　＠ａｎｔｉｎｏ　　　
　　　　　　　　　−ｅｎｔｓｌ　ｙ　　　　　　　　
　　ｎｃｅｒｙ　　　　　　　　　　　　ｎ５Ｂｅ　　　　　　　　　　　　ｊｉｌｓｔ　　　　　　　　　　　ｔｈｅｒｔｅｄ　　　　　　　　　ｔＩｏｎｓｔｔｏｎ　　　　　　　　　ｕｒｅｔｓ　　　　　　　　　　　　　　ｓ１文字の単語の語尾は、１文字のための特別のエンコー
ディングが圧縮を促進しないので、これらのテーブルに
は用いられない。

このテーブルはアルファベット的にリストされているが
、接尾辞がスキャンされかつ比較される順序が興なり、
比較がより特定的なものからより一般的なものへ進めら
れるように、より短い接尾辞と同じ文字で終わるより大
きい接頭辞が最初に比較されてもよいということを理解
されたい。

スキャンカウンタ６０は２つのテーブル内のワ−ドの語
尾を順にスキャンして、テーブル内の各々の語尾をバッ
ファ２２内にストアされているワードトークンにおける
対応する数のＩｉ尾キャラクタと比較する。比較＠＠６
２は、それが肯定的な比較を見つけたとき、スキャンカ
ウンタ６０をストップしかつ接尾辞エンコードを繰返す
ように部分的エンコードコントロール４４に信号で合図
する。同時に、比較回路は６４で示されるように、ジェ
ネレータニブル８または９の選択を引き起こす。もし一
致がグループエ接尾辞テーブルから行なわれれば、スキ
ャンカウンタ６０の状態によって示されるように９が選
択され、接尾辞との比較がグループ■接尾辞テーブル５
８において発見されればニブル８が選択される。それが
８であっても９であっても、ジェネレータニブルは次に
一時的スドア６６にストアされる。次に６８で示される
ようにアイデンティファイアニブルが選択され、一時的
ストア７０に転送される。したがってジェネレータおよ
びアイデンティファイアニブルは、グループエまたはグ
ループ■内にあるような接尾辞ならびにグループ内の特
定の接尾辞を識別する。

その接尾辞キャラクタはバッファ２２内のワードトーク
ンの語尾から消され、接尾辞エンコードオペレーション
がそのワードトークンの残りの最後のキャラクタについ
て繰返される。もし２番目の一致が発見されれば、ジェ
ネレータおよびアイデンティファイアニブルが選択され
て一時的スドア６６および７８に転送される。同時に、
前にストアされた接尾辞ジェネレータおよびアイデンテ
ィファイアニブルが、メモリ１６内のニブルストリング
に順に転送される。

もし一致が見られかつトークンバッファ２２が対応する
接尾辞キャラクタの消去によって空であれば、エンコー
ドオペレーションは完了しそして新しいトークンが集め
られる。同時に、最後の接尾辞のために一時的スドア６
６および７８において発生されたジェネレータニブルお
よびアイデンティファイアニブルが、メモリ１６または
ディスクファイル１８に転送される。

もしトークンバッファ２２内の残りのキャラクタの最後
のものと接尾辞テーブル内のワードの語尾との園に全く
一致が発見されなければ、部分的エンコードコントロー
ル４４は語幹エンコード段階に進む。同時に、バッファ
２２内に残っている文字またはキャラクタの数が、語幹
長デコード回路７２によってデコードされる。もし一時
的ストア内のジェネレータニブルが９であればグループ
■接尾辞を示し、もし語幹長が４キヤラクタまたは５キ
ヤラクタの長さにデコードされるならそれは１０または
１１に変更される。したがって識別された最後の接尾辞
のためのジェネレータは、もしそれが９であれば、それ
がメモリ１６に転送される前に１０または１１に変更さ
れる。

接尾辞エンコードオペレーションが完了すると、トーク
ンバッファ２２内に残っているキャラクタまたは文字が
トークンの語幹を表わす。もし少なくとも１つの接尾辞
があり、かつもし分離された最後の接尾辞がグループエ
かうであり、かつ残っているの語幹が４キヤラクタまた
は５キヤラクタの長さであれば、語幹の長さは接尾辞の
ジェネレータニブルとしてストアされる１０または１１
の形式でメモリ内に既にストアされている。トークンの
エンコードを完了するために残っているすべてのことは
、トークンバッファ２２内に残っている語幹の各４また
は５キヤラクタをエンコードすることである。このオペ
レーションは、語幹長が４または５でありかつグループ
ニジエネレータ９が一時的スドア６６のために選択され
たということを確認する語幹コントロール７６によって
始められる。次に語幹コントロール７６は、キャラクタ
エンコードオペレーションを始める。２６文字に加えワ
ードトークンにおいてキャラクタとして用いられるアポ
ロストフィおよびハイフンが存在するので、１ニブルは
１５の最も頻繁に使用されるキャラクタをエンコードす
るために用いられ、また２ニブルは残りのキャラクタを
エンコードするために用いられる。第１のニブルの１つ
の値たとえば１５は、次のニブルがキャラクタをエンコ
ードするために必要であるか必要でないかを識別するよ
うに働く。英単語における文字の頻度は、それが単語の
最初の文字として用いられるかまたは特定の文字に続く
かどうかということに依存しているので、開始文字のた
めおよび続く可能な２８文字の各々のためにグループ■
およびグループ■キャラクタの別のセットを備えること
が望ましい、第６図に示されるように、最初の文字のテ
ーブルは８５′ｃ示される。＊の２８テーブルの最後は
、８７で示される。レジスタ８９は、前のキャラクタを
ストア丈るために用いられる。もし接頭辞が発見された
なら、語幹の最初の文字のために、接１ｊ＃の最後のキ
ャラクタをストアするレジスタ５５から先のキャラクタ
が受取られる。各語幹キャラクタがトークンバッファ２
２からシフトされるときに、それはレジスタ８９内の先
のキャラクタに取って代わる。レジスタ８９内のキャラ
クタは、９１で示されるように、テーブルのセットのう
ちの１つを選択するために用いられる。

ｉＦｍ６図に示されるように、語幹コントロール７６は
キャラクタエンコードオペレーションを始めるとき、語
幹の最初のキャラクタがトークンバッファ２２から、そ
のキャラクタをテーブル８５から８７のうちの選択され
たものにおけるキャラクタのグループエセットと比較す
る比較回路７８にシフトされるようにする。もし一致が
全く見られなければ、スキャンカウンタ８２は、グルー
プ■キャラクタテーブルをスキャンし続ける。一致が見
られるときスキャンカウンタは中断されて、スキャンカ
ウンタのセツティングに基づいて、８６で示されるよう
に１または２のキャラクタニブルが発生され、メモリ１
６に転送される。語幹コントロール７６は他のキャラク
タエンコードオペレーションのためにリセットされ、次
のキャラクタがトークンバッファ２２からシフトされる
。全部のキャラクタがトークンバッファ２２からシフト
されてしまいかつトークンが全部エンコードされるとき
、次のトークンが第２図と関連して上述された方法で集
められる。

もし語幹長が第５図と関連して上述された接尾辞エンコ
ードオペレーションの閑にエンコードされなかったなら
ば、メモリ内にストアされるべき次のニブルが語幹の長
さを識別するために用いられる。

もし最後の接尾辞がグループエ接尾辞でなければ、■幹
コントロール７６は第７図に示されるように語幹艮エン
コードオペレーションを始める。

もし語幹長が８よりも短く、かつもし少なくとも１つの
接頭辞または接尾辞が８７で「接辞フラグセット」によ
って示されるように分離されたなら、そのときは關幹長
は９４で１つのニブルとしてエンコードされる。そうで
はなくもし語幹長が４または５でなければ、ＡＮＤ回路
８８の出力は、メモリ１６に転送されるジェネレータニ
ブル１２を選択するために回路９０を活性化する。もし
語幹長が４または５であれば、１３または１４のうちの
いずれかのジェネレータニブルが、回路９２によってジ
ェネレータニブル１３または１４を選択するメモリ１６
に転送される。もし語幹長が４または５でないことを示
す１２オペレータがメモリに転送されれば、語幹の長さ
を識別するためにコード化されるニブルが９４で示され
るように発生され、かつメモリ１６に転送される。次に
語幹コントロール７６は、１幹の各キャラクタがエンコ
ードされかつニブルがメモリ１６に転送されるようにす
る、第６図と関連して上述されたキャラクタエンコード
オペレーションにリセットされる。

このことは、メモリにワードトークンをストアするため
のテキスト圧縮デコーダ１４のオペレーションを完了す
る。数字トークンは、第８図に示される方法で圧縮され
かつストアされる。数字トークンエンコードコントロー
ル９６は最初にジェネレータニブル値７を選択し、かつ
９８で示されるようにそれをメモリ内にストアする。次
にそれは、１００で示されるようにトークンバッファ２
２内のストアされた数における数字の数をストアする。

次に数字トークンエンコードコントロール９６は、各々
の数字が順番にトークンバッファ２２から、１０の可能
な数字の各々のためのＡＳＣ２コードから対応する４ピ
ツトのニブルに転換する数字エンコーダ１０２にシフト
されるよう（し、そしてそれは次にメモリ１６内にスト
アされる。すべての数字がトークンバッフ′Ｐ２２から
シフトされたとき、次のトークンを集めることが始めら
れる。

句読トークンのエンコードは、第９図に詳細に示されて
いる。上述したように、句読トークンは、共通の句読マ
ーク、スペース、タブ、一連のライン終り、フオームフ
ィード、頭文字、アンダーラインなどのようなワードお
よび数字以外のものになるすべてのＡＳＣＩＩキャラク
タを含んでいる。

たとえば、スペースの倹のコンマ、ピリオドおよびスペ
ース、２つのスペースおよび次の文字の頭文字の債のピ
リオド、セミコロンおよびスペースなどという組合わせ
のようなより共通の句読順序が、高Ｉ１１度のおよび低
ａｍのグローバル辞書に含まれている。句読トークンが
バッファ２２内に集められたとすると、句読トークンエ
ンコードコントロール１２０は、第３図と関連して上述
されたように、ワードトークンのための辞書発見オペレ
ーションと同じである辞書発見オペレーションを最初に
始める。もし句読の組合わせが辞書の中になければ、比
較回路３８（第３図参照）は、一致が全くなかったとい
うことを示す。このことは、句読エンコードトークンコ
ントロール１２０が無エントリ状１１−？一番↓ａを示
すよう（する。次にトークンのエンコードが、繰返しキ
ャラクタモードまたはバイトごとのモードの２つのモー
ドのうちのいずれかにおいて行なわれる。もし句読トー
クンが、全部スペース、前記ダッシュ、全部アンダーラ
インキャラクタなどのような同じキャラクタのグループ
からなっておれば、繰返しキャラクタモードが用いられ
る。この場合には、キャラクタそれ自身が続く繰返しキ
ャラクタの数を示すニブルが続くジェネレータニブルお
よびアイデンティファイアニブルが、メモリ１６内に順
にストアされる。ＡＮＤ回路１２２は、１２４で示され
るように、無辞書エントリが起こったことおよびトーク
ンバッファ内のキャラクタが等しいことを決定する。次
にそれは選択ジェネレータニブル＠路１２６に統いてア
イデンティファイアニブル選択回路１２８および長さニ
ブル選択回路１４０に統いてを活性化し、最智にメモリ
１６に対する全ＡＳＣＩＩバイトとしてトークンバッフ
ァからの１つのキャラクタをゲートする。次にＡＮＤｉ
ｌ路１２２の出りは、集められるべき次のトークンのた
めに信号で合図する。

トークンバッファ内のキャラクタが等しくなくかつジェ
ネレータニブルおよびアイデンティファイアニブルおよ
び長さニブルをメモリ１６に転送した後トークンバッフ
ァ２２からメモリ１６にすべてのキャラクタのバイトご
との転送を始めるときは、代わり＆：ＡＮＤ回路１３４
が活性化される。

したがってトークンバッファ２２内のすべてのキャラク
タは、圧縮されることなくメモリ１６にＡＳＣＩＩコー
ドにおいてバイトごとに転送される。

選択されたジェネレータニブルは０から６の予め定めら
れた値であり、アイデンティファイアニブルはＯから１
５の予め定められた値である。このジェネレータおよび
アイデンティファイアの値は、ワードまたは句読の組合
わせをストアするためには用いられないグローバル辞書
におけるアドレスを指し示す。特定のジェネレータおよ
びアイデンティファイアの値が、繰返しキャラクタまた
はバイトごとのオペレーションを示すように圧縮解除に
おいて認められる。

上の説明から、すべての英語テキストは、ワード、数字
またμ句読および他の種々雑多なＡＳＣＩＩコード化さ
れたキャラクタのいずれかであるトークンに分割され得
るということが理解されよう。各トークンは、ニブルの
ストリングとしてストアされる。メモリ内のストリング
の長さを決定するためおよびニブルのストリングによっ
て表わされるＡＳＣＩＩコード化された情報を再構成す
るために十分な情報が、ニブルの各ストリング内に含ま
れている。圧縮は、英語のテキストがランダムキャラク
タからは―或されていず、むしろテキストを再構成する
ためにメモリ内にストアされることが必要な情報の量を
減少することを可能ならしめる成るルールに従って構成
されているということの１ｌＩＩｌからの結果である。

このプロセスは結果的に、情報をストアするために必要
とされるメモリの量を実質的に減少させることになる。

大文字および小文字のための準備は全く記述されなかっ
たが、この場合を操作する１つの方法は、ワードトーク
ンのようなものにおいて大文字および小文字の両方をエ
ンコードすることである。ワードトークンにおける大文
字は、ワードの前の句読によって圧縮解除をｍ別し得る
。たとえば、共通の順序は、ピリオド、続く２つのブラ
ンクおよび次のセンテンスを始める晴文字である。これ
は、辞書テーブル内に１つの句読の組合わせとしてエン
コードされる。圧縮において、この句読の組合わせは、
続くワードの最初の文字が大文字のＡｓＣ１１キヤクタ
にコード化されるようにする。

ストアされた情報から英語テキストを再構成するために
、圧縮解除プロセスが第１図におけるテキスト圧縮デコ
ーダ１９によって設けられている。

この圧縮解除プロセスは、ニブルのストリングが最初１
１次にプルのストリング内にストアされた情報を用いて
ＡＳＣＩＩコード化されたテキストにデコードされる各
トークンに圧縮されることが必要である。第１０図を参
照して、圧縮解除開始信号は、最初のニブルがニブルレ
ジスタ１３０内におよびトークンレジスタ１３２内に読
込まれるようにする。＠初のニブルはデコードされ、そ
してもしそれがＯから６のジェネレータであれば、トー
クン収集コントロール１３４はセットされてクローバル
トークン収集オペレーションを開始する。このことは、
高頻度または低頻度の辞書エントリを示ず最初のニブル
がＯから４のジェネレータであるかまたは５から６のジ
ェネレータであるかに依存してさらに１つまたは２つの
ニブルがメモリから読出されるようにするグローバルコ
ントロール１３６を活性化する。トークンレジスタ１３
２４Ｌ：転送されるこれらの１つまたは２つのニブルと
ともに、ｆコード回路１３８はバイトごとのオペレーシ
ョンが呼出されているかまたは繰返しキャラクタオペレ
ーションが呼出されているかまたはいずれでもないかを
決定するためにそれらをデコードする。もし繰返しキャ
ラクタオペレーションが呼出されているのなら、グロー
バルコントロール１３６はメモリ内の次の２つのニブル
がトークンレジスタ１３２に転送されて、グローバルト
ークン収集オペレーションを完了するようにする。もし
バイトごとのオペレーションが呼出されているのなら、
グローバルコントロール１３６は他のニブルがトークン
レジスタ１３２およびニブルレジスタ１３０内にメモリ
から読出されるようにする。レジスタ１３０におけるニ
ブルの値は、一連のバイトをメモリ１６からトークンレ
ジスタに転送するバイトカウンタ１４０をコントロール
するために用いられ、そのバイトの数はニブルレジスタ
１３０内のニブル値によって決定される。

トークンレジスタ１３２がグローバルトークンのための
すべてのニブルでロードされτ、グローバルコントロー
ル１３６はグローバルデコードオペレーションを信号で
合図する。

もしメモリから読出された最初のニブルが数字ジェネレ
ータを識別する７としてニプルデコードロ路によってデ
コードされるなら、トークン収隼コントロール１３４が
セットされて数字収集オペレーションを信号で合図する
。このことは、メモリ１６内の次のニブルがニブルレジ
スタ１３０８よびトークンレジスタ１３２に転送される
ようにする数字コントロール１４２を活性化する。次に
数字コントロール１４２・線、一連のニブルがメモリ１
６からニブルレジスタ１３０内にストアされた２番目の
ニブルの鎧に対応するトークンレジスタ１３２に転送さ
れるようにするニブルカウンタ１４０を活性化する。こ
のことは、トークンレジスタ１３２に対する数字トーク
ンの転送を完Ｉする。次に数字ラントロール１４２は、
数字デコードオペレーションを信号で合図する。

もしレジスタ１３０内の最初のニブルが接１ｊＦジェネ
レータを示す１５としてデコードされるなら、トークン
収柴コントロール１３４がセットされて接ｗ４辞収集オ
ペレーションを始める。接頭辞コントロールはさらに２
つのニブルがメモリ１６から転送されるようにし、その
２つの第２のニブルはそれがデコードされるニブルレジ
スタ１３０内に残る。接頭辞コントロール１４６はまた
、１つの接１ｌｌＩ＃ジェネレータおよびアイデンティ
ファイアがトークンレジスタ１３２に転送されてしまっ
たことを示す接頭辞カウンタを増加する。もし今ニブル
レジスタ１３０内にストアされている一連の第３のニブ
ルが再び１５としてデコードされるなら、接１［＃Ｆコ
ントロール１４６はそのオペレーションを繰返して、レ
ジスタ１３０内にニブルの他のベアを置き、接頭辞カウ
ンタ１４８を進ませる。接頭辞収集オペレーションは、
レジスタ１３０内のニブルがジェネレータタイプ８から
１１の接尾辞またはジェネレータタイプ１２から１４の
語幹のいずれかを示す他のタイプのジェネレータと対応
するまで続けられる。もしジェネレータ０がデコードさ
れるなら、もちろんトークン収集は完了され、かつトー
クンデコードが始められる。

次のジェネレータが８から１１としてデコードされると
すると、トークン収集コントロール１３４は接尾辞コン
トロール１５０を活性化する。もしデコードされたニブ
ルがグループ■接尾辞の語尾またはグループ■接尾辞の
語尾をそれぞれ示すジェネレータ８または９に対応する
なら、接尾辞コントロールは次の２つのニブルをメモリ
からレジスタ１３０に転送する。接尾辞の各ニブルがレ
ジスタ１３０に転送されるときに、その前のニブルは接
尾辞レジスタ１５１に行く。もちろんこれらの２つのニ
ブルの最初は、最初の接尾辞ならびにニブルレジスタ１
３０内にストアされる次のジェネレータのためのアイデ
ンティファイアである。

このニブルは、他の接尾辞のためのジェネレータまたは
語幹のためのジェネレータであり得る。同時に、語幹コ
ントロール１５８は、成る語幹が語幹レジスタ１５５に
転送されてしまったことを示す語幹カウンタ１５４を増
大する。もし次のジェネレータが値８または９のもので
あれば、語幹コントロール１５８は上のオへレーション
を繰返して、２つの語幹ジェネレータおよびアイデンテ
ィファイアが語幹レジスタ１５５内にストアされてしま
ったことを示すために語幹カウンタ１５４を増加する。

もしジェネレータが１０または１１であれば、接尾辞コ
ントロール１５０はジェネレータが１０であるか１１で
あるかに依存して、語幹カウンタ１５４が４または５に
セットされるようにする。次に接尾辞コントロール１５
０は、アイデンティファイアニブルに加えて語幹キャラ
クタに対応する４つまたは５つの付加的なニブル（また
はニブルのペア）が語幹レジスタ１５５に転送されるよ
うにする。このことは、Ｉ幹カウンタ１５４によってコ
ントロールされるニブルカウンタ１５６によって完成さ
れる。語幹の各ニブルがレジスタ１５５およびバッファ
レジスタ１３０に転送されるときに、それはデコードさ
れる。もしニブルが、対応するＡＳＣＩＩにデコードす
るために付加的なニブルが必要であるということを示す
Ｉ［１５を持っているなら、第２のニブルがニブルカウ
ンタ１５６を進めることなくレジスタ１５５に転送され
る。したがって４つまたは５つのニブルまたはニブルの
ベアが、メモリ１６から語幹レジスタ１５５に転送され
る。次に接尾辞コントロール１５０は、アルファベット
デコードオペレーションを呼出す。

もしメモリ１６からレジスタ１３０に転送される接尾辞
オペレータおよびアイデンティファイアに続く次のオペ
レータがニブルデコード回路１３３によって１２．１３
または１４としてデコードされるなら、トークン収集コ
ントロール１３４がセットされて語幹収集オペレーショ
ンを始める。

第１４図を参照されたい。これは語幹コントロール１５
８を能動化する。もしジェネレータ値が１２であれば、
語幹コントロールは次のニブルがメモリ１６から語幹レ
ジスタ１５５およびニブルレジスタ１３０に転送される
ようにする。このニブルは語幹内のキャラクタの数を識
別するためにコード化されており、ゲート１６０を通っ
て語幹カウンタ１５４に転送される。次に語幹コントロ
ール１５８はニブルカウンタ１５６を活性化して、ニブ
ルまはニブルのペアの対応する数をメモリ１６から語幹
レジスタ１５５に転送する。次に：ｉｉ幹コシコントロ
ールアルファベットデコードオペレーションを信号で合
図する。

もしジェネレータが１３または１４としてデコ−ドされ
るなら、語幹カウンタ１５４は４または５にセットされ
る。次に語幹コントロールはニブルカウンタ１５６を能
動化して、ニブルまたはニブルのペアの対応する数を語
幹レジスタ１５５に転送する。

グローバルトークン、数字トークンま、たは接頭辞、接
尾辞および語幹レジスタがフルフッベットトークンのペ
アとともに一旦ロードされると、ストアされたトークン
ニブルはＡＳＣＩＩコード化された形式におけるトーク
ンを形成するためにデコードされる。第１５図に示され
るように、もしグローバルコントロール１３６（第１０
図参照）がグローバルデコードオペレーションを信号で
合図するなら、グローバルデコードコントロール１６２
はトークンレジスタ１３２内の最初の３つのニブルが一
時的なストレージレジスタ１６４にシフトされるように
する。グローバルトークンは、最初のニブルがＯから４
の値かまたは５から６の値かを決定するグローバルトー
クンデコード回路１６６によってデコードされる。もし
前者であれば、グローバルトークンデコード回路１６６
は高頻度辞書３０にストアされている８０ワードのうち
の１つをアドレスするために最初の２つのニブルを用い
る。このアドレスされたワードは、それらがそこからシ
リアルに読出端子に転送され得るトークンバッフＰ１７
０内にストアされるＡＳＣ■■コード化されたキャラク
タのグループとして、辞書から読出される。

もしレジスタ１６４内の最初のニブルが５または６とし
てデコードされるなら、レジスタ１６４内の３つのニブ
ルが低頻度辞−３２における５１２ワードのうちの１つ
をアドレスするために用いられる。次にそのワードは、
ＡＳＣＩＩコード化されたキャラクタの形式において、
辞書からトークンバッファ１７０に転送される。

レジスタ１６４内のニブルはバイトごとの句読トークン
を示すた゛めにデコードされてもよく、その場合にはカ
ウンタ１７２は一時的レジスタ１６４内の３番目のニブ
ルの値にセットされ、対応するバイトの数はトークンレ
ジスタ１３２からゲート１７４を通ってトークンバッフ
ァ１７０に直接に転送される。もし最初の２つのニブル
が繰返し命令としてデコードされるなら、カウンタ１７
２は再びレジスタ１６４内の３番目のニブルのカウント
にセットされるが、同じバイトがカウンタ１７２の値に
よって反復的にトークンバッフ７Ｐ１７０に転送される
。したがってトークンバッファは、指定された回数繰返
されるＡＳＣＩＩコードにおけるバイトで満たされる。

デコードされるグローバルトークンとともに、グローバ
ルデコードコントロール１６２は、次のトークンがメモ
リから集められるように信号で合図する。

数字デコード信号は、第１６図に示されるように、数字
デコードコントロール１７６を能動化する。このことは
、トークンレジスタ１３２内にストアされる数字トーク
ンの最初のニブルがゲート１７８を過つてカウンタ１８
０に転送されるようにする。このカウンタは、数字トー
クンにおける数字の数にセットされる。次にこのカウン
タは、ニブルの泗応する数が、数字テーブル１８４をア
ドレスするためにゲート１８２を通って順にトークンレ
ジスタ１３２から転送されるようにする。

このテーブルは、トークンバッファ１７０に転送される
対応するＡＳＣＩＩコード化された数字をストアする。

すべての数字がデコードされかつバッファ１７０内（ス
トアされてしまったとき、カウンタ１８０は数字デコー
ドコントロール１７６が次のトークンを信号で合図する
ようにする。

もしアル７アベツトトークンがレジスタ１’４７゜１５
１および１５５内に集められたなら、接頭辞デコードコ
ントロール１８８を能動化することによって接頭辞デコ
ードオペレージ３ンを最初に始めるために、それはアル
ファベットデコードコントロール１８６をセットする。

もし＊＊辞カウンタ１４８が０でなければ、接頭辞デコ
ードコントロールは接頭辞レジスタ１４７内の最初の２
つのニブルが一時的レジスタ１９０に転送されるように
する。これら；の２つのニブルは、すべての接頭辞をＡ
ＳＣＩＩコード化されたキャラクタとしてストアする接
Ｉｌｌテーブルをアドレスするために用いられる。選択
された接頭辞のキャラクタは、最後のキャラクタレジス
タ１９２内にストアされている接頭辞の最後のキャラク
タとともに、トークンバッファ１７０に転送される。接
頭辞デコードコントロールはまた、接頭辞カウンタ１４
８が減少されるようにする。もしカウンタがまだ０でな
ければ、次の２つのニブルがレジスタ１４７からレジス
タ１９０に転送されて、接頭辞テーブル１９４をアドレ
スするために用いられる。一旦接頭辞カウンタ１４８が
、すべての接頭辞がデコードされてしまったことを示す
Ｏに減少されると、接頭辞デコードコントロール１８８
は、語幹デコードオペレーションを始めるためにアルフ
ァベットデコートコントロール１８６をセットする。

第１８図を参照して、霞幹デコードオペレーションは語
幹デコードコントロール１９６を能動化することによっ
て始められる。このこと儲語幹レジスタ１５５内の最初
のニブルがレジスタ１９０に転送されるようにし、そこ
ではそれはデコード回路１９８（よってデコードされる
。もしこの最初のニブルが１５であれば、そのときは付
加的なニブルがキャラクタを識別するために必要とされ
る。もしそれが１５よりも小さければ、そのときはこの
最初のニブルは対応するＡＳＣＩＩキャラクタを規定す
る。この最初のニブルは、複数のテーブルをアドレスす
るために用いられる。第１のキャラクタテーブルと名づ
けられるテーブル２００は、ＡＳＣＩＩコード化された
文字をワード第１の文字として使用頻度の順にストアす
る。それらの２つが２０２および２０４で示される残り
のテーブルは、各文字Ａから２に続くときのそれらの使
用頻度に従って文字をリストする。これらのテーブルは
、第６図と関連して上述されたキャラクタテーブルと対
応する。このテーブルのうちの１つは、最後のキャラク
タレジスタ１９２およびデコード回路２０６内にストア
されるキャラクタをデコードすることによって選択され
る。もし最後のキャラクタがなかったなら、最初のキャ
ラクタテーブル２００が選択される。陶様にもし最後の
キャラクタが文字Ａであったなら、テーブル２０２が選
択される。第１のニブルはそれのみでｔたは第２のニブ
ルと組合わせて、選択されたテーブル内の特定の文字を
アドレスし、かつそれをＡＳＣｆｌコード化されたバイ
トとして、トークンバッフ戸１７０に、およびレジスタ
１９２内にストアされるでいる前のキャラクタに取って
代わるように最後のキャラクタレジスタ１９２に転送す
るために用いられる。このプロセスは、語幹カウンタ１
５４がすべての語幹がデコードされかつトークンバッフ
ァ１７０内にストアされてしまったことを示すＯに減少
されるまで、語幹デコードコントロール１９６によって
繰返される。アルファベットデコードコントロール１８
６は、次に接尾辞デコードオペレーションを始めるため
にセットされる。

第１９図を参照して、接尾辞デコードコントロール２１
０は、能動化されたときに１接ｆ＠辞レジスタ１５１内
の最初の２つのニブルが一時的レジスタ１９０に転送さ
れるようにし、かつ接尾辞カウンタ１５２を減少する。

レジスタ１９０内のジェネレータおよびアイデンティフ
ァイアニブルは、対応する接尾辞を選択しかつその接尾
辞を一連のＡＳＣＩＩコード化されたキャラクタの形式
においてトークンバッファ１７０に転送するために、接
尾辞テーブル２１２をアドレスする。接尾辞カウンタ１
５２がすべての接尾辞がデコードされかつトークンバッ
ファ１７０内にストアされてしまったことを示す０に減
少されたとき、接尾辞デコードコントロール２１０はア
ルファベットデコートコントロール１８６をリセットし
てかつ次のトークンを信号で合図する。したがって今完
全なデコードされたアルファベットトークンがトークン
バッファ１７０内に組立てられており、テキスト受信端
子２１に転送される。

上の説明から、この発明は、４ビツトのニブルのストリ
ングとしてのメモリにおけるストレージのための標準的
なＡＳＣＩＩコード化されたバイトにコード化された英
語テキストの圧縮を提供するということが理解されよう
。ニブルは俵でメモリから順に読出され、デコードされ
、そし元の英飴のテキストに組立てられる。この発明は
、英語における単語構成と使用法のパターンを利用する
。

多くの短い英単語が最も頻繁に使用されるものの中にあ
り、したがって参照としてグローバル辞書内にエンコー
ドされることができる一方、多くの長い＊ｍが分離して
エンコードされ得る語幹およびよく使用される接頭辞と
接尾辞に分解される。

この発明はまた、成る文字が他の文字に続いてよりＩＩ
ＩＩに起こるという事実を利用する。文脈依存の１ニブ
ルおよび２ニブル選択の−の分離を行なうことによって
、単一に現われるはとんど全部の文字が１つのニブルと
してエンコードされ得る。

事実、最初の文字の約９０％および他のすべての文字の
９５％以上が、１つのニブルを用い・・でエンコードさ
れ得る。英語テキストの圧縮に関して説明されてきたが
、適当な辞書、接尾辞、接ｌ！Ｉ辞および文字テーブル
を選択することによって他の言語も同様に圧縮され得る
ということが認められよう。

【図面の簡単な説明】

第１図は、原文情報を圧縮およびストアするためのディ
ジタルプロセシングシステムのブロック図である。第２Ｉ！ｌは、トークンを集めるためのシステムの概略
ブロック図である。第３図は、グローバル辞書を用いるワードトークンをエ
ンコードするためのシステムの概略ブロック図である。第４８は、ワードトークンの接頭辞をエンコードするた
めのシステムのブロック図である。第５図は、ワードトークンの接尾辞をエンコードするた
めのシステムのブロック図である。第６図および第７図は、ワードトークンの語幹をエンコ
ードするためのシステムのブロック図である。第８図は、数゛字トークンをエンコードするためのシス
テムのブロック図である。第９ＷＪは、句読をエンコードするためのシステムのブ
ロック図である。第１０図は、圧縮Ｗ除の閤にメモリからグローバルトー
クンを集めるためのシステムのブロック図である。第１１１％ｉｌは、数字トークンを寒めるためのシステ
ムのブロック図である。第１２図は、圧縮解除の閤にフルフッベットトークン内
に接頭辞を集めるためのシステムのブロック図である。第１３図は、圧縮解除の閤にフルフッベットトークン内
に接尾辞を集めるためのシステムのブロック図である。第１４図は、圧縮Ｓ＊の閤にフルファベットトークン内
＆：Ｎ幹を集めるためのシステムのブロック図である。第１５図は、グローバルトークンをデコードするための
システムのブロック図である。第１６図は、数字トークンをデコードするためのシステ
ムのブロック図である。１ｌ１１１７！ｌ１１第１８図および第１９図は、接ｌ
ｌＩ辞、語幹および接尾辞としてコード化されたワード
をデコードするためのシステムのブロック図である。図において、１０はＡＳＣＩＩコードにおけるテキスト
の供給源、１４はテキスト圧縮１ンコーダ、１６はＲＡ
Ｍ、１８はディスクファイル、１９はテキスト圧縮デコ
ーダ、２１はＡＳＣＩＩコードにおけるテキスト受信機
をそれぞれ示す。特許出願人　システム・ディベロップメント・コーポレ
ーション（ほか２名）−゛２

Claims

【特許請求の範囲】（１）　それぞれのワードを構成するアルファベットキ
ャラクタを４ビット単位のストリングとしてコード化し
かつストアすることによって情報を圧縮する方法であっ
て、第１のテーブル内に１！微の共通に用いられるワードを
ストアするステップと、前記テーブル内にそれぞれのワードを配置するステップ
と、前記第１のテーブル内のワードとの一致に応答してメモ
リ内に単位のグループをストアするステップと、前記ワードが前記第１のテーブル内にあることおよび前
記第１のテーブル内の前記ワードの位置を示すために前
記ストアされた単位をコード化するステップとを備える
方法。（２）　第２のテーブル内に複数の共通の接頭辞をスト
アするステラ／と、ワード全体が前記第１のデープル内に存在しないときｒ
、圧縮される前記それぞれのワードの始まりでのキャラ
クタの連続したグループを前記第２のテーブル内の接頭
辞と比較するステップと、圧縮されるワードにおけるキ
ャラクタのグループと前１２第２のチー１ル内の接頭辞
との間の一致に応答１ノで、前記メモリ内に少なくと−
６２つの４ピット単位のストリングをストアするステッ
プと、前記スト？された単位をコード化し′Ｃ前記接頭
辞が前記第２のテーブル内にあることおよび前記第２の
チー、ｆル内の前記接頭辞の位置を示すステップと、キャラクタの故およ、び前記Ｗ４２のテーブル内の接頭
辞と一致するキャラクタのグループの一部ではない各キ
ャラクタの値を示す付加的な単位を前記メモリ内にスト
アするステップとをざらに含む、特許請求の範囲第１項
記載の方法。（３）　第３のテーブル内に複数の接尾辞をストアする
ステップと、ワード全体が前記第１のテーブル内に存在しないときに
、圧縮されるワードの最後でのキャラクタの１１Ｗｋシ
たグループを前記第３のテーブル内の接［１と比較する
ステップと、前記圧縮されるワード内のキャラクタのグループと前記
第３のテーブル内の接尾辞との閣の一致に応答して、前
記メモリ内に少なくとも２単位のストリングをストアす
るステップと、前記ストアされた単位をコード化して前記接尾辞が前に
！１３のテーブル内にあることをおよび前記第３のテー
ブル内の前記接尾辞の位置を示すステップとをさらに含
む、特許請求の範囲第２項記載の方法。（４）　標準的な８ビツトバイトとしてコード化される
キャラクタのストリングとしてテキストが受取られる、
ランダムアクセスメモリ内に英数字テキストをストアす
るための方法であって、キャラクタのストリングをグル
ープに分離するステップと、選択されたキャラクタのグループをストアされたキャラ
クタのグループの′ｉｓ１のテーブルと比較するステッ
プと、もし選択されたグループと前記テーブル内のグループと
のＷＡに一致が見られるならキャラクタのグループが前
記第１のテーブルにあることを示す数字をストアしかつ
前記ランダムアクセスメモリ内に前記第１のテーブル内
のキャラクタのグループのアドレスをストアするステッ
プと、もし選択されたグループのすべてのキャラクタが
前記第１のテーブル内のいかなるキャラクタのグループ
とも一致しなければ、選択されたキャラクタのグループ
の最初の部分をストアされたキャラクタのグループの第
２のテーブルと比較するステップと、もし前記グループが選択されたグループの前記第１の部
分と同じであれば、選択されたグループの部分が前記第
２のテーブル内にあることを示す数字とランダムアクセ
スメモリ内の前記第２のテーブル内のキャラクタのグル
ープのアドレスとをストアするステップと、前記ｗＪ１の部分に８３＆ブるすべてのキャラクタが前
記第２のテーブル内のキャラクタのいかなるグループと
も一致しなければ、前記選択されたグループの２番目の
部分をストアされたグループの第３のテーブルと比較す
るステップと、前記グループが選択されたグループの前記第２の部分と
同じであれば、前記選択されたグループの部分が前記第
３のテーブル内にあることを示す数字をストアしかつ前
記ランダムアクセスメモリ内に前記第３のテーブル内の
前記グループのアドレスをストアブるステップと、ＩＩＪ記テーブル内に見られない残りのキャラクタの数
をストアするステップと、前記ランダムアクセスメモリ内にコード化された形式に
おいて残りの各キャラクタをストアするステップとを―
える方ｖＸ。（５）　キャラクタのテーブル内のキャラクタの位Ｗｌ
に依存して１つの４ピット単位としてまたは２つの４ピ
ット雫位として前記各キャラクタをコード化するステッ
プをさらに含む、特許請求の範囲第４項記載の方法。（６）　もしあればいずれの４ヤラクタがコード化され
るキャラクタに先立つかを決定しかつ前記先のキャラク
タの値に依存して興なったキャラクタのテーブルを選択
するステップをさらに含む、特許請求の範囲第５項記載
の方法。（７）　情報を４ビツトニブルのストリングに変換する
ことによって、ＡＳＣＩ　Ｉコード化された８ピツトバ
イトとして受取られる一連のキャラクタの形式に情報を
圧縮しかつストアする方法であって、連続して各バイトをデコードしてそりがアルファベット
タイプのキャラクタであるか数字タイプのキャラクタで
あるかまたは句読タイプのキャラクタであるかを決定す
るステップと、同じタイプの一連のキャラクタをグループとしてストア
するステップと、第１のニブルがグループ内の、数字キャラクタの数を示
すためにコード化されかつ各連続したニブルがグループ
内の各連続した数字キャラクタの値を示すためにコード
化される４ピツトニブルのストリングとして、数字キャ
ラクタのグループをエーンコードするステップと、エンコードされた４ピツトニブルのストリングをストア
するステップとを備える方法。（８ン　ストアされた句貌またはアルファベットキャラ
クタのグループを辞書テーブル内にワードとしてストア
されているキャラクタの複数の興なつ々グループと比較
するステップと、もし前記テーブル内に存在すれば同一
のキャラクタのグループの位置を識別する４ピツトニブ
ルのス１−リングとして句読またにアルファベットキャ
ラクタの前記グループをエンコードするステップと、前記エンコードされた４ピツトニブルのストリングをス
トアするステップとをさらに含む、特許請求の範囲第７
項記載の方法。（９）　アルファベットキャラクタのグループが前記辞
書テーブル内に発見されないときを決定するステップと
、グループの最初のキャラクタを接頭辞テーブル内にス１
−７されている線数の最初のキャラクタの組合わせと比
較するステップと、もし前記接頭辞１・−プル内に存在すれば、前記接論辞
テーブル内の対応プる接１ｇ［の位置を示す複数の４ピ
ツトニブルとして前記最初のキャラクタをエンコードす
るステップと、アルファベットキャラクタのグルー７の最後のキャラク
タを接尾辞テーブル内にストアされている検数のＩ＆後
のキャラクタと比較するステップと、複数の４ピツトニ
ブルとして前記ｌ＆後のキャラクタの位−をボダ複数の
４ビン１−二プルどして前記蛾慢のキャラクタをエンコ
ードするステップと、残っているキャラクタの各々をキ
ャラクタテーブル内のキャラクタのセットと比較するス
テップと、キャラクタテーブル内のキャラクタの位置を示す１つ以
上の４ピツトニブルとして前記キャラクタをエンコード
するステップとをさらに含む、特許請求の範囲第７項記
載の方法。（１０）　各アルファベットキャラクタのためのキャラ
クタの別のキャラクタテーブルを設けるステップと、エンコードされるグループ内の前のキャラクタに対応す
る前記キャラクタテーブルのうちの１つを選択するステ
ップとをさらに含む、特許請求のｌｌｌＩｎ第９項記載
の方法。（１１）　ワードの各キャラクタが最初にＡＳＣＩＩコ
ード化された８ピツトバイトにコード化されるアルファ
ベットキャラクタのワードをエンコードする方法であっ
て、接Ｉｌｉ詐メモリ内にワードの最初のキャラクタの組合
わせのセットをストアするステップと、ワードの最初の
キャラクタが前記ａｌｌｌＩ辞テーブル内に存在するか
どうかを決定するために、エンコードされるワードの最
初のキャラクタを前記接頭辞メモリ内の最初のキャラク
タの組合わせの各々と比較するステップと、前記最初のキャラクタが前記接頭辞テーブル内に存在す
れば、ワードの最初のキャラクタが前記接頭辞メモリ内
にあることを示しかつ前記接ｌ！ｉ＃メモリ内の位置を
示す２進コード化された値を発生しかつストアするステ
ップと、前記最初のキャラクタが前記１１ｉ辞メモリ内に存在す
れば、前記アルファベットワードから前記最初のキャラ
クタを削除するステップと、接ｊ［メモリ内にワードの
終りのキャラクタの組合わせのセットをストアするステ
ップと、エンコードされるワードの終りのキャラクタを
接尾辞メモリ内の終りのキャラクタの組合わせの各々と
比較するステップと、前記ワードの終りのキャラクタの組合わせが前記接尾辞
テーブル内に存在することを示しかつ前記接尾辞メモリ
内のワードの位置を示す２進コード化された値を発生し
かつストアするステップと、キャラクタメモリ内に予め
定められる順序で少なくとも１つの全てのアルファベッ
トキャラクタのセットをストアするステップと、エンコードされるアルファベットのワードにおける残り
のキャラクタの数を示す２進コード化された値を発生し
かつストアするステップと、前記残りのキャラクタの各
々のために前記キャラクタメモリ内のキャラクタの位置
を示す２進コード化された鎧を発生しかつストアするス
テップを備える方法。（１２＞　　４ピツトニブルのストリングとしてストア
されるワードの形式に圧縮された情報をデコードする方
法であって、前記ニブルストリングによって示されるワードが辞−テ
ーブル内にあるかどうかを決定するためにストリングの
最初のニブルをデコードするステップと、前記最初のニブルがそのワードがテーブル内にあること
を示しているなら、前記ストリング内の最初のニブルお
よび次のニブルをアドレスとして用いて前記ワードを７
ドレスしテーブルから読出すステップとを備える方法。（１３）　前記ニブルストリングによって示される前記
デコードされたワードが数字ワードであるかどうかを決
定するために最初のニブルをデコードするステップと、最初の数字が数字ストリングを示しているなら、デコー
ドされるワード内の数字の数を決定するために２番目の
ニブルをデコードするステップと、前記２番目のニブル
によって示される数字の数に対応する追加の数のニブル
を数字としてデコードするステップをさらに含む、特許
請求の範囲第１２項記載の方法。（１４）　ストリング内の各ニブルの値および比較順序
位置がバイトを選択するために用いられる、４ピツトニ
ブルのストリングとしてストアされた情報の圧縮された
ワードをＡＳＣＩ　Ｉコード化された８ビツトバイトの
セットにデコードする方法であって、前記ストリング内の第１のニブルの値を決定するステッ
プと、前記第１のニブルが第１の予め定められる値であれば、
ワードの初めを形成するＡＳＣＩＩコード化されたキャ
ラクタの組合わせの第１のテーブルをアドレスするため
に第２のニブルを用いるステップと、前記アドレスされたキャラクタの組合わせを前記ワード
の接頭辞として前記第１のテーブルからストアするステ
ップと、前記第１のニブルが第２の予め定められる値であれば、
前記第２のニブルを用いてワードの終りを形成するＡＳ
ＣＩＩコード化されたキャラクタの組合わせの第２のテ
ーブルをアドレスするステップと、前記ワードの接尾辞として前記第２のテーブルから前記
アドレスされたキャラクタの組合わせをストアするステ
ップと、前記最初のニブルが前記第１または前記第２の予め定め
られる値のいずれかでありかつ第３のニブルが第３の予
め定められる値であれば、第４のニブルを用いて一連の
ニブルの対応する数をカウントするステップと、前記一連のニブルの各々を用いて各ＡＳＣＩＩコード化
されたキャラクタのテーブルをアドレスするステップと
、前記キャラクタの語幹として前記テーブルから前記アド
レスされたキャラクタをストアするステップとを備える
方法。（１５）　　ＡＳＣＩＩコード化された８ビツトバイト
の連続体としてコード化された英語のテキストを４ピツ
トニブルのストリングとして圧縮するためのＶｉｌであ
って、テキストの１つのワードに対応するバイトのグループを
ストアする手段と、前記バイトのグループをワードのリストを示す辞書テー
ブル内のバイトのグループと比較する手段と、前記バイトのグループが前記辞書テーブル内にあるかど
うかを信号で合図するための前記比較手段に応答する手
段と、前記辞書内のグループバイトの位置を蹴別する少な（と
も２つのニブルを発生するための前記信号手段に応答す
る手段と、前記発生されたニブルを順にストアする手段とを備える
ｈ置。（１６）　前記ストア８れたバイトのグループが前記辞
−テーブル内に存在しないときに前記信号手段に応答し
て、前記ストアされたワードの最初のバイトを接頭辞テ
ーブル内にストアされたバイトのグループと比較するた
めの手段と、前記比較手段に応答して前記バイトのグル
ープが前記接頭辞テーブル内に存在するかどうかを信号
で合図するための手段と、前記信号手段に応答して前記接頭辞テーブル内のバイト
の最初のグループの位置を識別する少なくとも２つのニ
ブルを発生するための手段と、テキストの前記ストアさ
れたワードからバイトの最初のグループを除去する手段
と、前記最初のバイトが前記接頭辞テーブル内にないときに
、前記信号手段に応答して前記ストアされたワードの終
りのバイトを接尾辞テーブル内にストアされたバイトの
グループと比較するための手段と、前記バイトの終りのグループが前記接尾辞テーブル内に
あるかどうかを信号で合図するための手段と、前記信号手段に応答して前記接尾辞テーブル内のバイト
の最後のグループの位置を識別する少なくとも２つのニ
ブルを発生するための手段と、前記ストアされたワード
から前記バイトの最後のグループを除去する手段と、前記終りのバイトが前記接尾辞テーブル内にないときに
、前記信号手段に応答して前記ストアされたワードの残
りのバイトの数をカウントするための手段と、前記カウントされた残りのバイトの数を示すニブルを発
生する手段と、前記残りのバイトの各々に順に応答して各バイトをキャ
ラクタテーブル内にストアされた全キャラクタと比較す
るための手段と、前記比較手段に応答してキャラクタのテーブル内の同じ
バイトの位置を識別する各バイトのために少なくとも１
つのニブルを発生するための手段と、予め定められた順に前記発生されたニブルの各々をスト
アする手段とをさらに含む、特許請求の範囲第１５項記
載の装置。（１７）　バイトとしてコード化されたキャラクタの複
数のテーブルをストアするための手段をさらに含み、各テーブルは１つのニブルによってアドレス可能なキャ
ラクタの部分と２つのニブルによってアドレス可能なキ
ャラクタ部分とを備え、前記キャラクタは各テーブルと
は興なっている２つの部分にそれぞれストアされ。前記テーブルのうちの１つを選択して各バイトをキャラ
クタテーブル内にストアされているキャラクタと比較す
るための前記手段とともにオペレートするための手段を
さらに含む、特許請求の範囲第１６項記載の装置。（１８）　比較されるバイト（先立つ前記ストアされた
グループにおけるバイトの値に応答して前記複数のキャ
ラクタテーブルのうちの１つを選択するための手段をさ
らに含み、各キャラクタは、テーブル内の各キャラクタが標準的な
英語ワードにおける関連づけられるその前のキャラクタ
に続く、傾度に従って２つの部分のテーブルに配列され
るキャラクタの関連するテーブルを備えている、特許請
求の範［１１７１ｉｉ記載の＠胃。（１９）　ストアされたバイトのグループが数字キャラ
クタであるときを検出する手段と、前記検出手段に応答
して前記ストアされたバイトのグル−プにおけるバイト
の数をカウントするための手段と、コード化された第１のニブルを発生してそのワードが数
字であることを示す手段と、コード化された第２のニブルを発生して前記カウントさ
れたバイトの数を示す手段と、コード化された各数字の
バイトのための付加的なニブルを発生して対応する数字
の値を示す手段とをさらに備え、前記発生されたニブルは順にストアされる、特許請求の
範囲第１５項記載の装置。（２０）　前記ストアされたバイトのグループが句読キ
ャラクタであるときを検出する手段と、前記ストアされ
たバイトのグループが前記辞書テーブル内になくかつ前
記ストアされたバイトのグループが句読キャラクタであ
るときに前記信号手段および前記検出手段に応答して、
前記ストアされたバイトのグループにおけるバイトの数
をカウントするための手段と、コード化された少なくとも２つのニブルを発生して前記
バイトが句読でありかつ前記辞書テーブル内にはないこ
とを示す手段と、前記カウントされたバイトの数を示すニブルを発生する
手段と、すべてのバイトが続く前記発生されたニブルをそれらの
ＡＳＣＩＩコード化された形式において順にストアする
手段とをさらに含む、特許請求の範囲第１５項記載の＠
ぽ。