JPS58119230A - 情報圧縮方法 - Google Patents

情報圧縮方法

Info

Publication number
JPS58119230A
JPS58119230A JP57185904A JP18590482A JPS58119230A JP S58119230 A JPS58119230 A JP S58119230A JP 57185904 A JP57185904 A JP 57185904A JP 18590482 A JP18590482 A JP 18590482A JP S58119230 A JPS58119230 A JP S58119230A
Authority
JP
Japan
Prior art keywords
character
word
group
characters
nibble
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57185904A
Other languages
English (en)
Inventor
クレイグ・アダム・スノ−
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
System Development Corp
Original Assignee
System Development Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by System Development Corp filed Critical System Development Corp
Publication of JPS58119230A publication Critical patent/JPS58119230A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/42Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code using table look-up for the coding or decoding process, e.g. using read-only memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 この発明はディジタルコード化された形式における英語
または他の言■テキストのストレージに関し、より特定
的には、ASCIIにコード化されたテキストをさらに
よりコンパクトにコード化されたテキストの表現に圧縮
する方法に関する。
2進コード化された形式における英語テキストの伝送お
よびストレージは、たとえばテキストの最初と最優、繰
返しなどを示す英数字キャラクタ、句読点および他の記
号や省略形のセットが8ビツトバイトにコード化されて
いる標準化されたAsC11コードにおいて行なわれて
いる。メモリストレージ容量は、多くの場合、メモリに
ストアされ得るバイトの数に関して評価される。大量の
原文情報をストアおよびアクセスすることが必要である
ときには、原文の材料を再生するのに必要な英数字キャ
ラクタ、句読点および他の記号をストアするために必要
であるメモリの総計を圧縮する何らかのコード化方法を
用いることが望まれるようになる。@ uffsanコ
ーディングテクニックのように種々の案が原文材料をコ
ード化するために開発されてきているが、そのような案
はそれが受信されるようにいかなる一連のバイトをも操
作し得ると同時に、成る種の独特の英語テキストの文字
の充分な効果をとらなかった。
この発明は、ASCIIコード化されたバイトに受信さ
れた情報を圧縮、ストア、および圧縮されていない形式
に引き出す改良された方法に向けられている。テキスト
&を象徴記号(トークン)に纏められ、そこでは各トー
クンはワード、数字または句読順序を形成する1つ駆上
の文字である。
スペース、タブおよび倫のフォーマットアイテムのよう
な種々雑多なASCIIコード化された入力バイトが、
句読トークンとしてエンコードされる。しかし数字にお
けるピリオドまたはコンマ、またはワードにおけるハイ
フンまたはアポストロフィのような成る種の句読は、数
またはアルファベットワードトークンの一部としてエン
コードされる。圧縮されたテキストにエンコードする単
位は4ピツトであり、「ニブル」として参照される。
最も頻繁に使用される文字および数字は1つのニブルに
エンフードされ、したがって2つの文字が1バイトで表
わされることができ、およその2対1圧縮の効果を与え
る。英語テキストにおいて最も頻繁に用いられる約60
0のワードおよび句読順序が、それぞれに2つまたは3
つのニブルのみを用いて非常にコンパクトな形式にエン
コードされている。このことは、実質的に2対1圧縮よ
りも良い圧縮率の可能性を与える。
このエンコードは、トークンがASCIIコード化され
たバイトのストリングから最初に分離されるこの発明の
圧縮方法によって達成される。ももしこのトークンがワ
ードトークンであれば、たとえば、そのワードは*mに
おいて最も頻繁に使用されるワードのグローバル辞書と
最初に比較される。もしそのワードが辞書にあれば、そ
れは2つまたは3つのニブルとしてストアされる。この
ことは、最も頻繁に使用される英単語の中の多くのより
短い単語の111Iをみる。より長い単語は、そのWa
lliの数文字を頻繁な接頭辞文字の組合わせのリスト
と最初に比較することによってエンコードされる。もし
そのリストの中にあれば、その接頭辞がトークンから分
離されて、2つのニブルとしてストアされる。このプロ
セスは、残の頭文字が接頭辞リストに中に見られなくな
るまで、残りの文字について繰返される。次に語尾の文
字が接尾辞リストと比較され、もしそのリスト内にあれ
ば、2つのニブルとしてストアされかつそのワードの語
尾から分離される。もし語幹長が4または5キヤラクタ
でかつ接尾辞が識別されたなら、最後の接尾辞に応答し
てストアされる最初のニブルが、語幹が4または5キヤ
ラクタの長さであることを示す値に変更される。すべて
の数字トークンは、トークンのタイプを識別する1つの
ニブルおよび数字の中の多数のための1つのニブルとし
てストアされる。句読トークンはグローバル辞書に共通
の句読順序を含むことによってエンコードされ、もしそ
の辞書の中になければ、トークンが句読であること、バ
イトごとのエンコーディングであることおよびトークン
におけるバイトの数を示すニブルとともに、ASCII
コードにバイトごとにエンコードされる。
このテキストストレージシステムは数タイプの入力ター
ミナル゛10を含んでおり、それはキーボード、モデム
、または標準的なASCIIコード化されたバイトにお
いて入力バスを介してデータを送る他の装置であり得る
。ASCIIコード化されたテキストの出所は、この発
明にとって重要ではない。テキスト圧縮エンコーダ14
は、ランダムアクセスメモリ16および/またはディス
クメモリ18におけるストレージのために、データを圧
縮された形式に修正する。ディスクメモリ18および/
またはRAM16からのストアされたデータは、テキス
ト受信ターミナル21に対する伝送のために、テキスト
圧縮デコーダ19によって標準的なASC11コード形
式に圧縮を解除される。
圧縮モードにおいてオペレートするときに、テキスト圧
縮エンコーダ14は、入力バスを介してターミナル10
からデータと同時にキャラクタの転送を始める。各キャ
クタはキャラクタバッフ?20にしばらくストアされ、
そこではそれは、それが数字キャラクタか、アルファベ
ットキャラクタかまたは句読キャラクタかを決定するた
めにデコードされる。この目的のために、スペース、タ
ブおよび他のフォーマットアイテムを含むすべての種々
雑多な入力バイトが、句読キャラクタとしてデコードさ
れる。受取られた一連のキャラクタは、\異なったトー
クン(類別される。トークンの閣の表示は、これらの3
つのタイプのキャラクタのうちの1つから前記3つのタ
イプのうちの他のものへのlI!更によって1llIl
される。したがって通常アルファベットワードの俵にス
ペースが続き、それはアルファベットトークンを輪郭描
写する句読キャラクタとして認識される。しかしスペー
スは圧縮のmに別々の句読トークンとしてエンコードさ
れる必要はないが、しかし不1行状態として扱われかつ
自動的に圧−の−に一連のアルファワードの間に挿入さ
れ得る。一連の句読キャラクタ、一連の数字キャラクタ
または一連のアルファキャラクタは、したがって1つの
トークンとして示される。
1つのトークンを構成するキャラクタは、最初入力ター
ミナルからのキャラクタの新しいストリングを妬め、キ
ャラクタバッファに対して転送されるキャラクタの特徴
における1つのタイプから他のタイプへの、たとえばス
ペースキャラクタからアルファベットキャラクタへの変
更を認識し、かつ一連のキャラクタがトークンバッフ?
に集められるようする入力コントロール24に応答して
、トークンバラフン22に集められる。一旦バツファに
対して転送されるトークンの最後が認識されると、入力
コントロール24はRAM16および/またはディスク
メモリ1B内にそれをストアする前に、そのトークンを
圧縮するためのエンコード手順を始める。エンコードコ
ントロール26は、トークンバッファがトークンでいっ
ばいになったときに入力コントロール24によって信号
で合図され、−そのトークンがフルフット−クンか数字
トークンかまたは句読トークンであるかを決定する。
次にエンコードコントロール26は、アルファエンコー
ドオペレーションまたは数字エンコードオペレーション
または句読エンコードオベレーションを信号で合図する
圧縮後メモリ内にストアされるエンコードされた情報は
、各ニブルストリングが1つのトークンに対応する一連
のニブルストリングの形式をとる。
ニブルは4つの2道ビツトであり、16の可能な値のう
ちのいかなるものにもコード化され得る。
この発明の概念にしたがって圧縮を連成するためのプベ
てのエンコードは、組合わせトークンまたは一部分のト
ークンのために、エンコードのタイプを示すジ−エネレ
ータと呼ばれる最初の二°プルを発生することを含んで
いる。最初のニブルrよ′らて識別される16の可能な
タイプのエンコードは、以下のとおりである。
LL隻 または 2」」と レータ 二1ル エンコー゛のタイプ x)1二’(F)1克0
・・4 高頻度のグローバル 1つのアイデンティファ
イアニブル (80グローバル) 5・・・6 中頻度のグローパル 2つのアイデンティ
ファイアニブル (512グローバル) 7   数字        カウント(0−15)プ
ラス数字コード 8   接尾辞語尾、グルー 接尾辞アイデンテプ2 
       イファイアコード。
さらに情報 9   接尾辞II尾、グルー 接尾辞アイデンテプ1
        ファイアコード。
さらに情報 io   m幹すイズ4上の接 接尾辞フイデンテ尾辞
グループ1   イファイアコード。
4文字コード ii   m幹すイズ5上の接 接尾辞アイデンテ尾辞
グループ1   イフ?イアコード。
5文字コード 12  カウントを持つ語幹 カウント(0−15)プ
ラス文字コード 13  サイズ4の語幹   4文字コード14  サ
イズ5の語幹   5文字コード15  接頭辞lIl
litIIili1gアイデンティファイアコード。
さらに情報 全部で16タイプのエンコードは、数字トークンのエン
コードのために予約されているジェネレータ値7を除い
て、アルファベットトークンのエンコードのために用い
られる。ジェネレータOから6は、句読トークンのエン
コードのために用いられる。トークンがアルファベット
またはワードトークンとして識別されてバッファ22内
にスト令 アされているとすると、最初のステップは、そのワード
が高頻度のグローバル辞書または低頻度のグローバル辞
書のいずれにストアされているかを決定することである
。高頻度のグローバル辞書30は、英語テキストにおい
て見られる80までの最も共通なワードおよび句読の組
合わせからなっている。そのテーブルは、たとえばリー
ドオンリメモリにストアされ得る。さらに、低頻度のグ
ローバル辞書は、512までの1A飴のワードおよび句
読の組合わせからなり、リードオンリメモリ32にスト
アされる。ワードトークンエンコードコントロール34
は、エンコードコントロール26からのアルファベット
エンコード信号に応答して、トークンバッファ22にス
トアされたワードと高頻度のグローバル辞書および低頻
度のグローバル辞書の内容との閣で比較を始める。これ
は辞書における各エントリをトークンと順に比較するこ
とによってなされ得るが、ハツシュ値とて参照されるバ
ッファ内のトークンにおけるキャクタの組合わせと独特
に一連する値が従来のアルゴリズムによって最初にコン
ビニートされる、公知のアドレステクニックを用いるこ
とが望ましい。この値は、次に辞−に対するアドレスと
して用いられる。したがって、そのコンビニートされる
ハツシュ値に対応するアドレスで辞書において各ワード
をストアし、かつトークンバッファ22内にストアされ
るワードのハツシュ値を用いることによって、対応する
ハツシュ値を持つワードがグローバル辞書においでアド
レスされをる。次に比較回路38によって、エンコード
されるワードとハツシュ値によってアドレスされるスト
アされたワードとの間で比較が行なわれる。もし辞書に
おける1以上のワードが同一ハツシュ値を持っているな
ら、それらのワードは順にストアされかつ次にそれらの
ワードの各々について順に比較が行なわれる。もし一致
が発見されれば、次のトークンがバッファ22に塞めら
れる。同時に、ジェネレータニブルおよび1または2個
のアイデンティファイアニブルが選択され1、ジェネレ
ータニブルに続くメモリ16またはディスクファイル1
8にストアされる。
ジェネレータおよびフイデンティ7戸イアニブルは独特
の方法でトークンを規定し、かっこの後詳細に記述され
るように、圧縮の園に辞書がらトークンワードを引出す
のに用いられる。ジェネレータおよびアイデンティファ
イアニブルは、0から15のアイデンティファイアの値
とともにエンコードタイプの値Oから4を用いることに
よって選択され、高頻度のグローバル辞書テーブルにお
ける80ワードを独特の方法でアドレスする。それぞれ
値0から15の2つのアイデンティファイアニブルとと
もにジェネレータ値5および6は、低頻度の辞書32内
の512ワードのうちのいかなるものをも独特な方法で
アドレスする。
したがって、もし圧縮されるトークンワードが高頻度の
グローバル辞書の中に発見されるならば、2つのニブル
のみがフルワードの代わりにメモリ内にストアされると
いうことが*Wされよう。フルAsC■1コードにおい
てストアするために通常的に6バイトのメモリを必要と
するたとえば6文字のワードは、1バイト(2ニブル)
のメモリ内に圧縮される。もしそのワードが低頻度のグ
ローバル辞書の中にあれば、それは1.5バイト(3ニ
ブル)のメモリ内に圧縮される。いずれの場合において
も、トークン情報をストアするのに必要とされるメモリ
において非常に大きな減少がある。
もし比較回路38がバッファ22内のワードトークンと
グローバル辞書30および32内にストアされたいかな
るワードとの間にも一致が存在しないということを示し
ているならば、上のテーブルにおいてジェネレータ値8
から15によって表わされるような、ワードが部分的に
エンコードされる代わりのエンコード手順を始めるよう
に、それはワードトークンエンコードコントロール34
を信号で合図する。トークンは、接頭辞と言われる識別
可能な語順の文字の組合わせ、接尾辞と呼ばれる識別可
能な18尾の文字の組合わせ、および語幹と呼ばれる中
央または真中の文字の組合わせに分解される。第3図に
示されるように、もし比較H路38がトークンがグロー
バル辞書内(ないことを示しているならば、それは第4
図に示されるようにバッファ22内のワードトークンの
最初の2または3文字がl#1liIFテーブル46内
にストアされた16の興なった文字の組合わせと比較さ
れる接頭辞エンコードオペレーションを最初に始める部
分的エンコードコントロール44を活性化する。そのテ
ーブルは、以下のテーブルにおいて示されるような、芙
*mのii*に見られる最も共通な文字の組合わせを備
えている。
CO■ On O e e× n rO e e h ta S【 u 【e 0 n 接頭辞はスキセンカウンタ48によってテーブル内で順
にスキャンされ、比較回路5oによってバッファ22内
にストアされているトークンワードにおける対応する数
の最初のキャラクタと比較される。もし接頭辞テーブル
のスキャンが完了して一致が全く発見されなければ、接
尾辞セット信号が部分的エンコードコントロール44に
与えられて接頭辞エンコードオペレーションは終了する
しかしもし一致が起こればスキャンカウンタは中断され
て、接頭辞繰返し信号が部分的エンコードコントロール
44に送られる。接頭辞の最倹のキャラクタは、しばら
くの閤レジスタ55内にストアされる。また接頭辞キャ
ラクタの第1のグループが、バッファ22内にストアさ
れているトークンワードから消される。62で示される
ようにジェネレータニブル15が選択され、メモリ16
内にストアされる圧縮されたトークンストリングの最初
のまたはジェネレータニブルとして記録される。テーブ
ル46内の16の接WAllFのうちのいずれがトーク
ンワードから分離されるかを識別する、54で示される
ような選択されたアイデンティファイアニブルがこれに
続く。したがってメモリ内にストアされた2つのニブル
が、取出しまたは圧縮除去オペレーションの闇にトーク
ンの最初の2または3個のキャラクタを発生するために
用いられ得る。
一旦最初の接頭辞がトークンから分離されると、比較の
ためにバッファ22内のワードの残りのキャラクタのI
!iI!iを用いてオペレーションが繰返される。もし
2番目の一致があれば、他のジェネレータニブルおよび
アイデンティファイアニブルがメモリ16内に順にスト
アされる。このオペレーションは、ワードトークンのす
べての文字が消されてしまいかつバッファ22が空にな
って次のトークンが集められる場合、またはバッファ内
のワードの最初の文字と接頭辞テーブル46の内容との
間に一致が存在せず部分的エンコードコントロール44
がセットされて接尾辞エンコードオペレーションを始め
る場合のいずれかまで繰返される。
もしトークンから分離される文字が全くなければ、0の
語幹長がメモリ内にエンコードされたトークンの最侵の
ニブルとしてストアされる。いかなる接WA辞または接
尾辞ジェネレータおよびアイデンティファイアにも従う
ニブル値0か57は、語幹長の値として解釈されるとい
うことに注意されるべきである。
第5図を参照すると、接尾辞エンコーディングは、56
および5Bで示されるグループエおよびグループ■とし
て参照される2つのIME辞テーブルを含んでいる。グ
ループエテーブルは、英語に見られる16の最も共通の
単一のlINを含んでおり、グループ■は16の最も共
通でない単語の語尾のセットを代わりに含んでいる。接
尾辞テーブル56および58の内容の例が、以下のテー
ブルに与えられる。
!」1!口U    わ  の   のa l    
      ag6 ad          ally en             at ant         ght er            1es srs           ton es          i ty lc             @antino   
         −entsl y        
  nce ry            n5 Be            jil st           ther ted         tIons tton         ure ts              s 1文字の単語の語尾は、1文字のための特別のエンコー
ディングが圧縮を促進しないので、これらのテーブルに
は用いられない。
このテーブルはアルファベット的にリストされているが
、接尾辞がスキャンされかつ比較される順序が興なり、
比較がより特定的なものからより一般的なものへ進めら
れるように、より短い接尾辞と同じ文字で終わるより大
きい接頭辞が最初に比較されてもよいということを理解
されたい。
スキャンカウンタ60は2つのテーブル内のワ−ドの語
尾を順にスキャンして、テーブル内の各々の語尾をバッ
ファ22内にストアされているワードトークンにおける
対応する数のIi尾キャラクタと比較する。比較@@6
2は、それが肯定的な比較を見つけたとき、スキャンカ
ウンタ60をストップしかつ接尾辞エンコードを繰返す
ように部分的エンコードコントロール44に信号で合図
する。同時に、比較回路は64で示されるように、ジェ
ネレータニブル8または9の選択を引き起こす。もし一
致がグループエ接尾辞テーブルから行なわれれば、スキ
ャンカウンタ60の状態によって示されるように9が選
択され、接尾辞との比較がグループ■接尾辞テーブル5
8において発見されればニブル8が選択される。それが
8であっても9であっても、ジェネレータニブルは次に
一時的スドア66にストアされる。次に68で示される
ようにアイデンティファイアニブルが選択され、一時的
ストア70に転送される。したがってジェネレータおよ
びアイデンティファイアニブルは、グループエまたはグ
ループ■内にあるような接尾辞ならびにグループ内の特
定の接尾辞を識別する。
その接尾辞キャラクタはバッファ22内のワードトーク
ンの語尾から消され、接尾辞エンコードオペレーション
がそのワードトークンの残りの最後のキャラクタについ
て繰返される。もし2番目の一致が発見されれば、ジェ
ネレータおよびアイデンティファイアニブルが選択され
て一時的スドア66および78に転送される。同時に、
前にストアされた接尾辞ジェネレータおよびアイデンテ
ィファイアニブルが、メモリ16内のニブルストリング
に順に転送される。
もし一致が見られかつトークンバッファ22が対応する
接尾辞キャラクタの消去によって空であれば、エンコー
ドオペレーションは完了しそして新しいトークンが集め
られる。同時に、最後の接尾辞のために一時的スドア6
6および78において発生されたジェネレータニブルお
よびアイデンティファイアニブルが、メモリ16または
ディスクファイル18に転送される。
もしトークンバッファ22内の残りのキャラクタの最後
のものと接尾辞テーブル内のワードの語尾との園に全く
一致が発見されなければ、部分的エンコードコントロー
ル44は語幹エンコード段階に進む。同時に、バッファ
22内に残っている文字またはキャラクタの数が、語幹
長デコード回路72によってデコードされる。もし一時
的ストア内のジェネレータニブルが9であればグループ
■接尾辞を示し、もし語幹長が4キヤラクタまたは5キ
ヤラクタの長さにデコードされるならそれは10または
11に変更される。したがって識別された最後の接尾辞
のためのジェネレータは、もしそれが9であれば、それ
がメモリ16に転送される前に10または11に変更さ
れる。
接尾辞エンコードオペレーションが完了すると、トーク
ンバッファ22内に残っているキャラクタまたは文字が
トークンの語幹を表わす。もし少なくとも1つの接尾辞
があり、かつもし分離された最後の接尾辞がグループエ
かうであり、かつ残っているの語幹が4キヤラクタまた
は5キヤラクタの長さであれば、語幹の長さは接尾辞の
ジェネレータニブルとしてストアされる10または11
の形式でメモリ内に既にストアされている。トークンの
エンコードを完了するために残っているすべてのことは
、トークンバッファ22内に残っている語幹の各4また
は5キヤラクタをエンコードすることである。このオペ
レーションは、語幹長が4または5でありかつグループ
ニジエネレータ9が一時的スドア66のために選択され
たということを確認する語幹コントロール76によって
始められる。次に語幹コントロール76は、キャラクタ
エンコードオペレーションを始める。26文字に加えワ
ードトークンにおいてキャラクタとして用いられるアポ
ロストフィおよびハイフンが存在するので、1ニブルは
15の最も頻繁に使用されるキャラクタをエンコードす
るために用いられ、また2ニブルは残りのキャラクタを
エンコードするために用いられる。第1のニブルの1つ
の値たとえば15は、次のニブルがキャラクタをエンコ
ードするために必要であるか必要でないかを識別するよ
うに働く。英単語における文字の頻度は、それが単語の
最初の文字として用いられるかまたは特定の文字に続く
かどうかということに依存しているので、開始文字のた
めおよび続く可能な28文字の各々のためにグループ■
およびグループ■キャラクタの別のセットを備えること
が望ましい、第6図に示されるように、最初の文字のテ
ーブルは85′c示される。*の28テーブルの最後は
、87で示される。レジスタ89は、前のキャラクタを
ストア丈るために用いられる。もし接頭辞が発見された
なら、語幹の最初の文字のために、接1j#の最後のキ
ャラクタをストアするレジスタ55から先のキャラクタ
が受取られる。各語幹キャラクタがトークンバッファ2
2からシフトされるときに、それはレジスタ89内の先
のキャラクタに取って代わる。レジスタ89内のキャラ
クタは、91で示されるように、テーブルのセットのう
ちの1つを選択するために用いられる。
iFm6図に示されるように、語幹コントロール76は
キャラクタエンコードオペレーションを始めるとき、語
幹の最初のキャラクタがトークンバッファ22から、そ
のキャラクタをテーブル85から87のうちの選択され
たものにおけるキャラクタのグループエセットと比較す
る比較回路78にシフトされるようにする。もし一致が
全く見られなければ、スキャンカウンタ82は、グルー
プ■キャラクタテーブルをスキャンし続ける。一致が見
られるときスキャンカウンタは中断されて、スキャンカ
ウンタのセツティングに基づいて、86で示されるよう
に1または2のキャラクタニブルが発生され、メモリ1
6に転送される。語幹コントロール76は他のキャラク
タエンコードオペレーションのためにリセットされ、次
のキャラクタがトークンバッファ22からシフトされる
。全部のキャラクタがトークンバッファ22からシフト
されてしまいかつトークンが全部エンコードされるとき
、次のトークンが第2図と関連して上述された方法で集
められる。
もし語幹長が第5図と関連して上述された接尾辞エンコ
ードオペレーションの閑にエンコードされなかったなら
ば、メモリ内にストアされるべき次のニブルが語幹の長
さを識別するために用いられる。
もし最後の接尾辞がグループエ接尾辞でなければ、■幹
コントロール76は第7図に示されるように語幹艮エン
コードオペレーションを始める。
もし語幹長が8よりも短く、かつもし少なくとも1つの
接頭辞または接尾辞が87で「接辞フラグセット」によ
って示されるように分離されたなら、そのときは關幹長
は94で1つのニブルとしてエンコードされる。そうで
はなくもし語幹長が4または5でなければ、AND回路
88の出力は、メモリ16に転送されるジェネレータニ
ブル12を選択するために回路90を活性化する。もし
語幹長が4または5であれば、13または14のうちの
いずれかのジェネレータニブルが、回路92によってジ
ェネレータニブル13または14を選択するメモリ16
に転送される。もし語幹長が4または5でないことを示
す12オペレータがメモリに転送されれば、語幹の長さ
を識別するためにコード化されるニブルが94で示され
るように発生され、かつメモリ16に転送される。次に
語幹コントロール76は、1幹の各キャラクタがエンコ
ードされかつニブルがメモリ16に転送されるようにす
る、第6図と関連して上述されたキャラクタエンコード
オペレーションにリセットされる。
このことは、メモリにワードトークンをストアするため
のテキスト圧縮デコーダ14のオペレーションを完了す
る。数字トークンは、第8図に示される方法で圧縮され
かつストアされる。数字トークンエンコードコントロー
ル96は最初にジェネレータニブル値7を選択し、かつ
98で示されるようにそれをメモリ内にストアする。次
にそれは、100で示されるようにトークンバッファ2
2内のストアされた数における数字の数をストアする。
次に数字トークンエンコードコントロール96は、各々
の数字が順番にトークンバッファ22から、10の可能
な数字の各々のためのASC2コードから対応する4ピ
ツトのニブルに転換する数字エンコーダ102にシフト
されるよう(し、そしてそれは次にメモリ16内にスト
アされる。すべての数字がトークンバッフ′P22から
シフトされたとき、次のトークンを集めることが始めら
れる。
句読トークンのエンコードは、第9図に詳細に示されて
いる。上述したように、句読トークンは、共通の句読マ
ーク、スペース、タブ、一連のライン終り、フオームフ
ィード、頭文字、アンダーラインなどのようなワードお
よび数字以外のものになるすべてのASCIIキャラク
タを含んでいる。
たとえば、スペースの倹のコンマ、ピリオドおよびスペ
ース、2つのスペースおよび次の文字の頭文字の債のピ
リオド、セミコロンおよびスペースなどという組合わせ
のようなより共通の句読順序が、高I11度のおよび低
amのグローバル辞書に含まれている。句読トークンが
バッファ22内に集められたとすると、句読トークンエ
ンコードコントロール120は、第3図と関連して上述
されたように、ワードトークンのための辞書発見オペレ
ーションと同じである辞書発見オペレーションを最初に
始める。もし句読の組合わせが辞書の中になければ、比
較回路38(第3図参照)は、一致が全くなかったとい
うことを示す。このことは、句読エンコードトークンコ
ントロール120が無エントリ状11−?一番↓aを示
すよう(する。次にトークンのエンコードが、繰返しキ
ャラクタモードまたはバイトごとのモードの2つのモー
ドのうちのいずれかにおいて行なわれる。もし句読トー
クンが、全部スペース、前記ダッシュ、全部アンダーラ
インキャラクタなどのような同じキャラクタのグループ
からなっておれば、繰返しキャラクタモードが用いられ
る。この場合には、キャラクタそれ自身が続く繰返しキ
ャラクタの数を示すニブルが続くジェネレータニブルお
よびアイデンティファイアニブルが、メモリ16内に順
にストアされる。AND回路122は、124で示され
るように、無辞書エントリが起こったことおよびトーク
ンバッファ内のキャラクタが等しいことを決定する。次
にそれは選択ジェネレータニブル@路126に統いてア
イデンティファイアニブル選択回路128および長さニ
ブル選択回路140に統いてを活性化し、最智にメモリ
16に対する全ASCIIバイトとしてトークンバッフ
ァからの1つのキャラクタをゲートする。次にANDi
l路122の出りは、集められるべき次のトークンのた
めに信号で合図する。
トークンバッファ内のキャラクタが等しくなくかつジェ
ネレータニブルおよびアイデンティファイアニブルおよ
び長さニブルをメモリ16に転送した後トークンバッフ
ァ22からメモリ16にすべてのキャラクタのバイトご
との転送を始めるときは、代わり&:AND回路134
が活性化される。
したがってトークンバッファ22内のすべてのキャラク
タは、圧縮されることなくメモリ16にASCIIコー
ドにおいてバイトごとに転送される。
選択されたジェネレータニブルは0から6の予め定めら
れた値であり、アイデンティファイアニブルはOから1
5の予め定められた値である。このジェネレータおよび
アイデンティファイアの値は、ワードまたは句読の組合
わせをストアするためには用いられないグローバル辞書
におけるアドレスを指し示す。特定のジェネレータおよ
びアイデンティファイアの値が、繰返しキャラクタまた
はバイトごとのオペレーションを示すように圧縮解除に
おいて認められる。
上の説明から、すべての英語テキストは、ワード、数字
またμ句読および他の種々雑多なASCIIコード化さ
れたキャラクタのいずれかであるトークンに分割され得
るということが理解されよう。各トークンは、ニブルの
ストリングとしてストアされる。メモリ内のストリング
の長さを決定するためおよびニブルのストリングによっ
て表わされるASCIIコード化された情報を再構成す
るために十分な情報が、ニブルの各ストリング内に含ま
れている。圧縮は、英語のテキストがランダムキャラク
タからは―或されていず、むしろテキストを再構成する
ためにメモリ内にストアされることが必要な情報の量を
減少することを可能ならしめる成るルールに従って構成
されているということの1lIIlからの結果である。
このプロセスは結果的に、情報をストアするために必要
とされるメモリの量を実質的に減少させることになる。
大文字および小文字のための準備は全く記述されなかっ
たが、この場合を操作する1つの方法は、ワードトーク
ンのようなものにおいて大文字および小文字の両方をエ
ンコードすることである。ワードトークンにおける大文
字は、ワードの前の句読によって圧縮解除をm別し得る
。たとえば、共通の順序は、ピリオド、続く2つのブラ
ンクおよび次のセンテンスを始める晴文字である。これ
は、辞書テーブル内に1つの句読の組合わせとしてエン
コードされる。圧縮において、この句読の組合わせは、
続くワードの最初の文字が大文字のAsC11キヤクタ
にコード化されるようにする。
ストアされた情報から英語テキストを再構成するために
、圧縮解除プロセスが第1図におけるテキスト圧縮デコ
ーダ19によって設けられている。
この圧縮解除プロセスは、ニブルのストリングが最初1
1次にプルのストリング内にストアされた情報を用いて
ASCIIコード化されたテキストにデコードされる各
トークンに圧縮されることが必要である。第10図を参
照して、圧縮解除開始信号は、最初のニブルがニブルレ
ジスタ130内におよびトークンレジスタ132内に読
込まれるようにする。@初のニブルはデコードされ、そ
してもしそれがOから6のジェネレータであれば、トー
クン収集コントロール134はセットされてクローバル
トークン収集オペレーションを開始する。このことは、
高頻度または低頻度の辞書エントリを示ず最初のニブル
がOから4のジェネレータであるかまたは5から6のジ
ェネレータであるかに依存してさらに1つまたは2つの
ニブルがメモリから読出されるようにするグローバルコ
ントロール136を活性化する。トークンレジスタ13
24L:転送されるこれらの1つまたは2つのニブルと
ともに、fコード回路138はバイトごとのオペレーシ
ョンが呼出されているかまたは繰返しキャラクタオペレ
ーションが呼出されているかまたはいずれでもないかを
決定するためにそれらをデコードする。もし繰返しキャ
ラクタオペレーションが呼出されているのなら、グロー
バルコントロール136はメモリ内の次の2つのニブル
がトークンレジスタ132に転送されて、グローバルト
ークン収集オペレーションを完了するようにする。もし
バイトごとのオペレーションが呼出されているのなら、
グローバルコントロール136は他のニブルがトークン
レジスタ132およびニブルレジスタ130内にメモリ
から読出されるようにする。レジスタ130におけるニ
ブルの値は、一連のバイトをメモリ16からトークンレ
ジスタに転送するバイトカウンタ140をコントロール
するために用いられ、そのバイトの数はニブルレジスタ
130内のニブル値によって決定される。
トークンレジスタ132がグローバルトークンのための
すべてのニブルでロードされτ、グローバルコントロー
ル136はグローバルデコードオペレーションを信号で
合図する。
もしメモリから読出された最初のニブルが数字ジェネレ
ータを識別する7としてニプルデコードロ路によってデ
コードされるなら、トークン収隼コントロール134が
セットされて数字収集オペレーションを信号で合図する
。このことは、メモリ16内の次のニブルがニブルレジ
スタ1308よびトークンレジスタ132に転送される
ようにする数字コントロール142を活性化する。次に
数字コントロール142・線、一連のニブルがメモリ1
6からニブルレジスタ130内にストアされた2番目の
ニブルの鎧に対応するトークンレジスタ132に転送さ
れるようにするニブルカウンタ140を活性化する。こ
のことは、トークンレジスタ132に対する数字トーク
ンの転送を完Iする。次に数字ラントロール142は、
数字デコードオペレーションを信号で合図する。
もしレジスタ130内の最初のニブルが接1jFジェネ
レータを示す15としてデコードされるなら、トークン
収柴コントロール134がセットされて接w4辞収集オ
ペレーションを始める。接頭辞コントロールはさらに2
つのニブルがメモリ16から転送されるようにし、その
2つの第2のニブルはそれがデコードされるニブルレジ
スタ130内に残る。接頭辞コントロール146はまた
、1つの接1llI#ジェネレータおよびアイデンティ
ファイアがトークンレジスタ132に転送されてしまっ
たことを示す接頭辞カウンタを増加する。もし今ニブル
レジスタ130内にストアされている一連の第3のニブ
ルが再び15としてデコードされるなら、接1[#Fコ
ントロール146はそのオペレーションを繰返して、レ
ジスタ130内にニブルの他のベアを置き、接頭辞カウ
ンタ148を進ませる。接頭辞収集オペレーションは、
レジスタ130内のニブルがジェネレータタイプ8から
11の接尾辞またはジェネレータタイプ12から14の
語幹のいずれかを示す他のタイプのジェネレータと対応
するまで続けられる。もしジェネレータ0がデコードさ
れるなら、もちろんトークン収集は完了され、かつトー
クンデコードが始められる。
次のジェネレータが8から11としてデコードされると
すると、トークン収集コントロール134は接尾辞コン
トロール150を活性化する。もしデコードされたニブ
ルがグループ■接尾辞の語尾またはグループ■接尾辞の
語尾をそれぞれ示すジェネレータ8または9に対応する
なら、接尾辞コントロールは次の2つのニブルをメモリ
からレジスタ130に転送する。接尾辞の各ニブルがレ
ジスタ130に転送されるときに、その前のニブルは接
尾辞レジスタ151に行く。もちろんこれらの2つのニ
ブルの最初は、最初の接尾辞ならびにニブルレジスタ1
30内にストアされる次のジェネレータのためのアイデ
ンティファイアである。
このニブルは、他の接尾辞のためのジェネレータまたは
語幹のためのジェネレータであり得る。同時に、語幹コ
ントロール158は、成る語幹が語幹レジスタ155に
転送されてしまったことを示す語幹カウンタ154を増
大する。もし次のジェネレータが値8または9のもので
あれば、語幹コントロール158は上のオへレーション
を繰返して、2つの語幹ジェネレータおよびアイデンテ
ィファイアが語幹レジスタ155内にストアされてしま
ったことを示すために語幹カウンタ154を増加する。
もしジェネレータが10または11であれば、接尾辞コ
ントロール150はジェネレータが10であるか11で
あるかに依存して、語幹カウンタ154が4または5に
セットされるようにする。次に接尾辞コントロール15
0は、アイデンティファイアニブルに加えて語幹キャラ
クタに対応する4つまたは5つの付加的なニブル(また
はニブルのペア)が語幹レジスタ155に転送されるよ
うにする。このことは、I幹カウンタ154によってコ
ントロールされるニブルカウンタ156によって完成さ
れる。語幹の各ニブルがレジスタ155およびバッファ
レジスタ130に転送されるときに、それはデコードさ
れる。もしニブルが、対応するASCIIにデコードす
るために付加的なニブルが必要であるということを示す
I[15を持っているなら、第2のニブルがニブルカウ
ンタ156を進めることなくレジスタ155に転送され
る。したがって4つまたは5つのニブルまたはニブルの
ベアが、メモリ16から語幹レジスタ155に転送され
る。次に接尾辞コントロール150は、アルファベット
デコードオペレーションを呼出す。
もしメモリ16からレジスタ130に転送される接尾辞
オペレータおよびアイデンティファイアに続く次のオペ
レータがニブルデコード回路133によって12.13
または14としてデコードされるなら、トークン収集コ
ントロール134がセットされて語幹収集オペレーショ
ンを始める。
第14図を参照されたい。これは語幹コントロール15
8を能動化する。もしジェネレータ値が12であれば、
語幹コントロールは次のニブルがメモリ16から語幹レ
ジスタ155およびニブルレジスタ130に転送される
ようにする。このニブルは語幹内のキャラクタの数を識
別するためにコード化されており、ゲート160を通っ
て語幹カウンタ154に転送される。次に語幹コントロ
ール158はニブルカウンタ156を活性化して、ニブ
ルまはニブルのペアの対応する数をメモリ16から語幹
レジスタ155に転送する。次に:ii幹コシコントロ
ールアルファベットデコードオペレーションを信号で合
図する。
もしジェネレータが13または14としてデコ−ドされ
るなら、語幹カウンタ154は4または5にセットされ
る。次に語幹コントロールはニブルカウンタ156を能
動化して、ニブルまたはニブルのペアの対応する数を語
幹レジスタ155に転送する。
グローバルトークン、数字トークンま、たは接頭辞、接
尾辞および語幹レジスタがフルフッベットトークンのペ
アとともに一旦ロードされると、ストアされたトークン
ニブルはASCIIコード化された形式におけるトーク
ンを形成するためにデコードされる。第15図に示され
るように、もしグローバルコントロール136(第10
図参照)がグローバルデコードオペレーションを信号で
合図するなら、グローバルデコードコントロール162
はトークンレジスタ132内の最初の3つのニブルが一
時的なストレージレジスタ164にシフトされるように
する。グローバルトークンは、最初のニブルがOから4
の値かまたは5から6の値かを決定するグローバルトー
クンデコード回路166によってデコードされる。もし
前者であれば、グローバルトークンデコード回路166
は高頻度辞書30にストアされている80ワードのうち
の1つをアドレスするために最初の2つのニブルを用い
る。このアドレスされたワードは、それらがそこからシ
リアルに読出端子に転送され得るトークンバッフP17
0内にストアされるASC■■コード化されたキャラク
タのグループとして、辞書から読出される。
もしレジスタ164内の最初のニブルが5または6とし
てデコードされるなら、レジスタ164内の3つのニブ
ルが低頻度辞−32における512ワードのうちの1つ
をアドレスするために用いられる。次にそのワードは、
ASCIIコード化されたキャラクタの形式において、
辞書からトークンバッファ170に転送される。
レジスタ164内のニブルはバイトごとの句読トークン
を示すた゛めにデコードされてもよく、その場合にはカ
ウンタ172は一時的レジスタ164内の3番目のニブ
ルの値にセットされ、対応するバイトの数はトークンレ
ジスタ132からゲート174を通ってトークンバッフ
ァ170に直接に転送される。もし最初の2つのニブル
が繰返し命令としてデコードされるなら、カウンタ17
2は再びレジスタ164内の3番目のニブルのカウント
にセットされるが、同じバイトがカウンタ172の値に
よって反復的にトークンバッフ7P170に転送される
。したがってトークンバッファは、指定された回数繰返
されるASCIIコードにおけるバイトで満たされる。
デコードされるグローバルトークンとともに、グローバ
ルデコードコントロール162は、次のトークンがメモ
リから集められるように信号で合図する。
数字デコード信号は、第16図に示されるように、数字
デコードコントロール176を能動化する。このことは
、トークンレジスタ132内にストアされる数字トーク
ンの最初のニブルがゲート178を過つてカウンタ18
0に転送されるようにする。このカウンタは、数字トー
クンにおける数字の数にセットされる。次にこのカウン
タは、ニブルの泗応する数が、数字テーブル184をア
ドレスするためにゲート182を通って順にトークンレ
ジスタ132から転送されるようにする。
このテーブルは、トークンバッファ170に転送される
対応するASCIIコード化された数字をストアする。
すべての数字がデコードされかつバッファ170内(ス
トアされてしまったとき、カウンタ180は数字デコー
ドコントロール176が次のトークンを信号で合図する
ようにする。
もしアル7アベツトトークンがレジスタ1’47゜15
1および155内に集められたなら、接頭辞デコードコ
ントロール188を能動化することによって接頭辞デコ
ードオペレージ3ンを最初に始めるために、それはアル
ファベットデコードコントロール186をセットする。
もし**辞カウンタ148が0でなければ、接頭辞デコ
ードコントロールは接頭辞レジスタ147内の最初の2
つのニブルが一時的レジスタ190に転送されるように
する。これら;の2つのニブルは、すべての接頭辞をA
SCIIコード化されたキャラクタとしてストアする接
Illテーブルをアドレスするために用いられる。選択
された接頭辞のキャラクタは、最後のキャラクタレジス
タ192内にストアされている接頭辞の最後のキャラク
タとともに、トークンバッファ170に転送される。接
頭辞デコードコントロールはまた、接頭辞カウンタ14
8が減少されるようにする。もしカウンタがまだ0でな
ければ、次の2つのニブルがレジスタ147からレジス
タ190に転送されて、接頭辞テーブル194をアドレ
スするために用いられる。一旦接頭辞カウンタ148が
、すべての接頭辞がデコードされてしまったことを示す
Oに減少されると、接頭辞デコードコントロール188
は、語幹デコードオペレーションを始めるためにアルフ
ァベットデコートコントロール186をセットする。
第18図を参照して、霞幹デコードオペレーションは語
幹デコードコントロール196を能動化することによっ
て始められる。このこと儲語幹レジスタ155内の最初
のニブルがレジスタ190に転送されるようにし、そこ
ではそれはデコード回路198(よってデコードされる
。もしこの最初のニブルが15であれば、そのときは付
加的なニブルがキャラクタを識別するために必要とされ
る。もしそれが15よりも小さければ、そのときはこの
最初のニブルは対応するASCIIキャラクタを規定す
る。この最初のニブルは、複数のテーブルをアドレスす
るために用いられる。第1のキャラクタテーブルと名づ
けられるテーブル200は、ASCIIコード化された
文字をワード第1の文字として使用頻度の順にストアす
る。それらの2つが202および204で示される残り
のテーブルは、各文字Aから2に続くときのそれらの使
用頻度に従って文字をリストする。これらのテーブルは
、第6図と関連して上述されたキャラクタテーブルと対
応する。このテーブルのうちの1つは、最後のキャラク
タレジスタ192およびデコード回路206内にストア
されるキャラクタをデコードすることによって選択され
る。もし最後のキャラクタがなかったなら、最初のキャ
ラクタテーブル200が選択される。陶様にもし最後の
キャラクタが文字Aであったなら、テーブル202が選
択される。第1のニブルはそれのみでtたは第2のニブ
ルと組合わせて、選択されたテーブル内の特定の文字を
アドレスし、かつそれをASCflコード化されたバイ
トとして、トークンバッフ戸170に、およびレジスタ
192内にストアされるでいる前のキャラクタに取って
代わるように最後のキャラクタレジスタ192に転送す
るために用いられる。このプロセスは、語幹カウンタ1
54がすべての語幹がデコードされかつトークンバッフ
ァ170内にストアされてしまったことを示すOに減少
されるまで、語幹デコードコントロール196によって
繰返される。アルファベットデコードコントロール18
6は、次に接尾辞デコードオペレーションを始めるため
にセットされる。
第19図を参照して、接尾辞デコードコントロール21
0は、能動化されたときに1接f@辞レジスタ151内
の最初の2つのニブルが一時的レジスタ190に転送さ
れるようにし、かつ接尾辞カウンタ152を減少する。
レジスタ190内のジェネレータおよびアイデンティフ
ァイアニブルは、対応する接尾辞を選択しかつその接尾
辞を一連のASCIIコード化されたキャラクタの形式
においてトークンバッファ170に転送するために、接
尾辞テーブル212をアドレスする。接尾辞カウンタ1
52がすべての接尾辞がデコードされかつトークンバッ
ファ170内にストアされてしまったことを示す0に減
少されたとき、接尾辞デコードコントロール210はア
ルファベットデコートコントロール186をリセットし
てかつ次のトークンを信号で合図する。したがって今完
全なデコードされたアルファベットトークンがトークン
バッファ170内に組立てられており、テキスト受信端
子21に転送される。
上の説明から、この発明は、4ビツトのニブルのストリ
ングとしてのメモリにおけるストレージのための標準的
なASCIIコード化されたバイトにコード化された英
語テキストの圧縮を提供するということが理解されよう
。ニブルは俵でメモリから順に読出され、デコードされ
、そし元の英飴のテキストに組立てられる。この発明は
、英語における単語構成と使用法のパターンを利用する
多くの短い英単語が最も頻繁に使用されるものの中にあ
り、したがって参照としてグローバル辞書内にエンコー
ドされることができる一方、多くの長い*mが分離して
エンコードされ得る語幹およびよく使用される接頭辞と
接尾辞に分解される。
この発明はまた、成る文字が他の文字に続いてよりII
IIに起こるという事実を利用する。文脈依存の1ニブ
ルおよび2ニブル選択の−の分離を行なうことによって
、単一に現われるはとんど全部の文字が1つのニブルと
してエンコードされ得る。
事実、最初の文字の約90%および他のすべての文字の
95%以上が、1つのニブルを用い・・でエンコードさ
れ得る。英語テキストの圧縮に関して説明されてきたが
、適当な辞書、接尾辞、接l!I辞および文字テーブル
を選択することによって他の言語も同様に圧縮され得る
ということが認められよう。
【図面の簡単な説明】
第1図は、原文情報を圧縮およびストアするためのディ
ジタルプロセシングシステムのブロック図である。 第2I!lは、トークンを集めるためのシステムの概略
ブロック図である。 第3図は、グローバル辞書を用いるワードトークンをエ
ンコードするためのシステムの概略ブロック図である。 第48は、ワードトークンの接頭辞をエンコードするた
めのシステムのブロック図である。 第5図は、ワードトークンの接尾辞をエンコードするた
めのシステムのブロック図である。 第6図および第7図は、ワードトークンの語幹をエンコ
ードするためのシステムのブロック図である。 第8図は、数゛字トークンをエンコードするためのシス
テムのブロック図である。 第9WJは、句読をエンコードするためのシステムのブ
ロック図である。 第10図は、圧縮W除の閤にメモリからグローバルトー
クンを集めるためのシステムのブロック図である。 第111%ilは、数字トークンを寒めるためのシステ
ムのブロック図である。 第12図は、圧縮解除の閤にフルフッベットトークン内
に接頭辞を集めるためのシステムのブロック図である。 第13図は、圧縮解除の閤にフルフッベットトークン内
に接尾辞を集めるためのシステムのブロック図である。 第14図は、圧縮S*の閤にフルファベットトークン内
&:N幹を集めるためのシステムのブロック図である。 第15図は、グローバルトークンをデコードするための
システムのブロック図である。 第16図は、数字トークンをデコードするためのシステ
ムのブロック図である。 1l1117!l11第18図および第19図は、接l
lI辞、語幹および接尾辞としてコード化されたワード
をデコードするためのシステムのブロック図である。 図において、10はASCIIコードにおけるテキスト
の供給源、14はテキスト圧縮1ンコーダ、16はRA
M、18はディスクファイル、19はテキスト圧縮デコ
ーダ、21はASCIIコードにおけるテキスト受信機
をそれぞれ示す。 特許出願人 システム・ディベロップメント・コーポレ
ーション (ほか2名)−゛2

Claims (1)

  1. 【特許請求の範囲】 (1) それぞれのワードを構成するアルファベットキ
    ャラクタを4ビット単位のストリングとしてコード化し
    かつストアすることによって情報を圧縮する方法であっ
    て、 第1のテーブル内に1!微の共通に用いられるワードを
    ストアするステップと、 前記テーブル内にそれぞれのワードを配置するステップ
    と、 前記第1のテーブル内のワードとの一致に応答してメモ
    リ内に単位のグループをストアするステップと、 前記ワードが前記第1のテーブル内にあることおよび前
    記第1のテーブル内の前記ワードの位置を示すために前
    記ストアされた単位をコード化するステップとを備える
    方法。 (2) 第2のテーブル内に複数の共通の接頭辞をスト
    アするステラ/と、 ワード全体が前記第1のデープル内に存在しないときr
    、圧縮される前記それぞれのワードの始まりでのキャラ
    クタの連続したグループを前記第2のテーブル内の接頭
    辞と比較するステップと、圧縮されるワードにおけるキ
    ャラクタのグループと前12第2のチー1ル内の接頭辞
    との間の一致に応答1ノで、前記メモリ内に少なくと−
    62つの4ピット単位のストリングをストアするステッ
    プと、前記スト?された単位をコード化し′C前記接頭
    辞が前記第2のテーブル内にあることおよび前記第2の
    チー、fル内の前記接頭辞の位置を示すステップと、 キャラクタの故およ、び前記W42のテーブル内の接頭
    辞と一致するキャラクタのグループの一部ではない各キ
    ャラクタの値を示す付加的な単位を前記メモリ内にスト
    アするステップとをざらに含む、特許請求の範囲第1項
    記載の方法。 (3) 第3のテーブル内に複数の接尾辞をストアする
    ステップと、 ワード全体が前記第1のテーブル内に存在しないときに
    、圧縮されるワードの最後でのキャラクタの11Wkシ
    たグループを前記第3のテーブル内の接[1と比較する
    ステップと、 前記圧縮されるワード内のキャラクタのグループと前記
    第3のテーブル内の接尾辞との閣の一致に応答して、前
    記メモリ内に少なくとも2単位のストリングをストアす
    るステップと、 前記ストアされた単位をコード化して前記接尾辞が前に
    !13のテーブル内にあることをおよび前記第3のテー
    ブル内の前記接尾辞の位置を示すステップとをさらに含
    む、特許請求の範囲第2項記載の方法。 (4) 標準的な8ビツトバイトとしてコード化される
    キャラクタのストリングとしてテキストが受取られる、
    ランダムアクセスメモリ内に英数字テキストをストアす
    るための方法であって、キャラクタのストリングをグル
    ープに分離するステップと、 選択されたキャラクタのグループをストアされたキャラ
    クタのグループの′is1のテーブルと比較するステッ
    プと、 もし選択されたグループと前記テーブル内のグループと
    のWAに一致が見られるならキャラクタのグループが前
    記第1のテーブルにあることを示す数字をストアしかつ
    前記ランダムアクセスメモリ内に前記第1のテーブル内
    のキャラクタのグループのアドレスをストアするステッ
    プと、もし選択されたグループのすべてのキャラクタが
    前記第1のテーブル内のいかなるキャラクタのグループ
    とも一致しなければ、選択されたキャラクタのグループ
    の最初の部分をストアされたキャラクタのグループの第
    2のテーブルと比較するステップと、 もし前記グループが選択されたグループの前記第1の部
    分と同じであれば、選択されたグループの部分が前記第
    2のテーブル内にあることを示す数字とランダムアクセ
    スメモリ内の前記第2のテーブル内のキャラクタのグル
    ープのアドレスとをストアするステップと、 前記wJ1の部分に83&ブるすべてのキャラクタが前
    記第2のテーブル内のキャラクタのいかなるグループと
    も一致しなければ、前記選択されたグループの2番目の
    部分をストアされたグループの第3のテーブルと比較す
    るステップと、 前記グループが選択されたグループの前記第2の部分と
    同じであれば、前記選択されたグループの部分が前記第
    3のテーブル内にあることを示す数字をストアしかつ前
    記ランダムアクセスメモリ内に前記第3のテーブル内の
    前記グループのアドレスをストアブるステップと、 IIJ記テーブル内に見られない残りのキャラクタの数
    をストアするステップと、 前記ランダムアクセスメモリ内にコード化された形式に
    おいて残りの各キャラクタをストアするステップとを―
    える方vX。 (5) キャラクタのテーブル内のキャラクタの位Wl
    に依存して1つの4ピット単位としてまたは2つの4ピ
    ット雫位として前記各キャラクタをコード化するステッ
    プをさらに含む、特許請求の範囲第4項記載の方法。 (6) もしあればいずれの4ヤラクタがコード化され
    るキャラクタに先立つかを決定しかつ前記先のキャラク
    タの値に依存して興なったキャラクタのテーブルを選択
    するステップをさらに含む、特許請求の範囲第5項記載
    の方法。 (7) 情報を4ビツトニブルのストリングに変換する
    ことによって、ASCI Iコード化された8ピツトバ
    イトとして受取られる一連のキャラクタの形式に情報を
    圧縮しかつストアする方法であって、 連続して各バイトをデコードしてそりがアルファベット
    タイプのキャラクタであるか数字タイプのキャラクタで
    あるかまたは句読タイプのキャラクタであるかを決定す
    るステップと、 同じタイプの一連のキャラクタをグループとしてストア
    するステップと、 第1のニブルがグループ内の、数字キャラクタの数を示
    すためにコード化されかつ各連続したニブルがグループ
    内の各連続した数字キャラクタの値を示すためにコード
    化される4ピツトニブルのストリングとして、数字キャ
    ラクタのグループをエーンコードするステップと、 エンコードされた4ピツトニブルのストリングをストア
    するステップとを備える方法。 (8ン ストアされた句貌またはアルファベットキャラ
    クタのグループを辞書テーブル内にワードとしてストア
    されているキャラクタの複数の興なつ々グループと比較
    するステップと、もし前記テーブル内に存在すれば同一
    のキャラクタのグループの位置を識別する4ピツトニブ
    ルのス1−リングとして句読またにアルファベットキャ
    ラクタの前記グループをエンコードするステップと、 前記エンコードされた4ピツトニブルのストリングをス
    トアするステップとをさらに含む、特許請求の範囲第7
    項記載の方法。 (9) アルファベットキャラクタのグループが前記辞
    書テーブル内に発見されないときを決定するステップと
    、 グループの最初のキャラクタを接頭辞テーブル内にス1
    −7されている線数の最初のキャラクタの組合わせと比
    較するステップと、 もし前記接頭辞1・−プル内に存在すれば、前記接論辞
    テーブル内の対応プる接1g[の位置を示す複数の4ピ
    ツトニブルとして前記最初のキャラクタをエンコードす
    るステップと、 アルファベットキャラクタのグルー7の最後のキャラク
    タを接尾辞テーブル内にストアされている検数のI&後
    のキャラクタと比較するステップと、複数の4ピツトニ
    ブルとして前記l&後のキャラクタの位−をボダ複数の
    4ビン1−二プルどして前記蛾慢のキャラクタをエンコ
    ードするステップと、残っているキャラクタの各々をキ
    ャラクタテーブル内のキャラクタのセットと比較するス
    テップと、 キャラクタテーブル内のキャラクタの位置を示す1つ以
    上の4ピツトニブルとして前記キャラクタをエンコード
    するステップとをさらに含む、特許請求の範囲第7項記
    載の方法。 (10) 各アルファベットキャラクタのためのキャラ
    クタの別のキャラクタテーブルを設けるステップと、 エンコードされるグループ内の前のキャラクタに対応す
    る前記キャラクタテーブルのうちの1つを選択するステ
    ップとをさらに含む、特許請求のlllIn第9項記載
    の方法。 (11) ワードの各キャラクタが最初にASCIIコ
    ード化された8ピツトバイトにコード化されるアルファ
    ベットキャラクタのワードをエンコードする方法であっ
    て、 接Ili詐メモリ内にワードの最初のキャラクタの組合
    わせのセットをストアするステップと、ワードの最初の
    キャラクタが前記alllI辞テーブル内に存在するか
    どうかを決定するために、エンコードされるワードの最
    初のキャラクタを前記接頭辞メモリ内の最初のキャラク
    タの組合わせの各々と比較するステップと、 前記最初のキャラクタが前記接頭辞テーブル内に存在す
    れば、ワードの最初のキャラクタが前記接頭辞メモリ内
    にあることを示しかつ前記接l!i#メモリ内の位置を
    示す2進コード化された値を発生しかつストアするステ
    ップと、 前記最初のキャラクタが前記11i辞メモリ内に存在す
    れば、前記アルファベットワードから前記最初のキャラ
    クタを削除するステップと、接j[メモリ内にワードの
    終りのキャラクタの組合わせのセットをストアするステ
    ップと、エンコードされるワードの終りのキャラクタを
    接尾辞メモリ内の終りのキャラクタの組合わせの各々と
    比較するステップと、 前記ワードの終りのキャラクタの組合わせが前記接尾辞
    テーブル内に存在することを示しかつ前記接尾辞メモリ
    内のワードの位置を示す2進コード化された値を発生し
    かつストアするステップと、キャラクタメモリ内に予め
    定められる順序で少なくとも1つの全てのアルファベッ
    トキャラクタのセットをストアするステップと、 エンコードされるアルファベットのワードにおける残り
    のキャラクタの数を示す2進コード化された値を発生し
    かつストアするステップと、前記残りのキャラクタの各
    々のために前記キャラクタメモリ内のキャラクタの位置
    を示す2進コード化された鎧を発生しかつストアするス
    テップを備える方法。 (12>  4ピツトニブルのストリングとしてストア
    されるワードの形式に圧縮された情報をデコードする方
    法であって、 前記ニブルストリングによって示されるワードが辞−テ
    ーブル内にあるかどうかを決定するためにストリングの
    最初のニブルをデコードするステップと、 前記最初のニブルがそのワードがテーブル内にあること
    を示しているなら、前記ストリング内の最初のニブルお
    よび次のニブルをアドレスとして用いて前記ワードを7
    ドレスしテーブルから読出すステップとを備える方法。 (13) 前記ニブルストリングによって示される前記
    デコードされたワードが数字ワードであるかどうかを決
    定するために最初のニブルをデコードするステップと、 最初の数字が数字ストリングを示しているなら、デコー
    ドされるワード内の数字の数を決定するために2番目の
    ニブルをデコードするステップと、前記2番目のニブル
    によって示される数字の数に対応する追加の数のニブル
    を数字としてデコードするステップをさらに含む、特許
    請求の範囲第12項記載の方法。 (14) ストリング内の各ニブルの値および比較順序
    位置がバイトを選択するために用いられる、4ピツトニ
    ブルのストリングとしてストアされた情報の圧縮された
    ワードをASCI Iコード化された8ビツトバイトの
    セットにデコードする方法であって、 前記ストリング内の第1のニブルの値を決定するステッ
    プと、 前記第1のニブルが第1の予め定められる値であれば、
    ワードの初めを形成するASCIIコード化されたキャ
    ラクタの組合わせの第1のテーブルをアドレスするため
    に第2のニブルを用いるステップと、 前記アドレスされたキャラクタの組合わせを前記ワード
    の接頭辞として前記第1のテーブルからストアするステ
    ップと、 前記第1のニブルが第2の予め定められる値であれば、
    前記第2のニブルを用いてワードの終りを形成するAS
    CIIコード化されたキャラクタの組合わせの第2のテ
    ーブルをアドレスするステップと、 前記ワードの接尾辞として前記第2のテーブルから前記
    アドレスされたキャラクタの組合わせをストアするステ
    ップと、 前記最初のニブルが前記第1または前記第2の予め定め
    られる値のいずれかでありかつ第3のニブルが第3の予
    め定められる値であれば、第4のニブルを用いて一連の
    ニブルの対応する数をカウントするステップと、 前記一連のニブルの各々を用いて各ASCIIコード化
    されたキャラクタのテーブルをアドレスするステップと
    、 前記キャラクタの語幹として前記テーブルから前記アド
    レスされたキャラクタをストアするステップとを備える
    方法。 (15)  ASCIIコード化された8ビツトバイト
    の連続体としてコード化された英語のテキストを4ピツ
    トニブルのストリングとして圧縮するためのVilであ
    って、 テキストの1つのワードに対応するバイトのグループを
    ストアする手段と、 前記バイトのグループをワードのリストを示す辞書テー
    ブル内のバイトのグループと比較する手段と、 前記バイトのグループが前記辞書テーブル内にあるかど
    うかを信号で合図するための前記比較手段に応答する手
    段と、 前記辞書内のグループバイトの位置を蹴別する少な(と
    も2つのニブルを発生するための前記信号手段に応答す
    る手段と、 前記発生されたニブルを順にストアする手段とを備える
    h置。 (16) 前記ストア8れたバイトのグループが前記辞
    −テーブル内に存在しないときに前記信号手段に応答し
    て、前記ストアされたワードの最初のバイトを接頭辞テ
    ーブル内にストアされたバイトのグループと比較するた
    めの手段と、前記比較手段に応答して前記バイトのグル
    ープが前記接頭辞テーブル内に存在するかどうかを信号
    で合図するための手段と、 前記信号手段に応答して前記接頭辞テーブル内のバイト
    の最初のグループの位置を識別する少なくとも2つのニ
    ブルを発生するための手段と、テキストの前記ストアさ
    れたワードからバイトの最初のグループを除去する手段
    と、 前記最初のバイトが前記接頭辞テーブル内にないときに
    、前記信号手段に応答して前記ストアされたワードの終
    りのバイトを接尾辞テーブル内にストアされたバイトの
    グループと比較するための手段と、 前記バイトの終りのグループが前記接尾辞テーブル内に
    あるかどうかを信号で合図するための手段と、 前記信号手段に応答して前記接尾辞テーブル内のバイト
    の最後のグループの位置を識別する少なくとも2つのニ
    ブルを発生するための手段と、前記ストアされたワード
    から前記バイトの最後のグループを除去する手段と、 前記終りのバイトが前記接尾辞テーブル内にないときに
    、前記信号手段に応答して前記ストアされたワードの残
    りのバイトの数をカウントするための手段と、 前記カウントされた残りのバイトの数を示すニブルを発
    生する手段と、 前記残りのバイトの各々に順に応答して各バイトをキャ
    ラクタテーブル内にストアされた全キャラクタと比較す
    るための手段と、 前記比較手段に応答してキャラクタのテーブル内の同じ
    バイトの位置を識別する各バイトのために少なくとも1
    つのニブルを発生するための手段と、 予め定められた順に前記発生されたニブルの各々をスト
    アする手段とをさらに含む、特許請求の範囲第15項記
    載の装置。 (17) バイトとしてコード化されたキャラクタの複
    数のテーブルをストアするための手段をさらに含み、 各テーブルは1つのニブルによってアドレス可能なキャ
    ラクタの部分と2つのニブルによってアドレス可能なキ
    ャラクタ部分とを備え、前記キャラクタは各テーブルと
    は興なっている2つの部分にそれぞれストアされ。 前記テーブルのうちの1つを選択して各バイトをキャラ
    クタテーブル内にストアされているキャラクタと比較す
    るための前記手段とともにオペレートするための手段を
    さらに含む、特許請求の範囲第16項記載の装置。 (18) 比較されるバイト(先立つ前記ストアされた
    グループにおけるバイトの値に応答して前記複数のキャ
    ラクタテーブルのうちの1つを選択するための手段をさ
    らに含み、 各キャラクタは、テーブル内の各キャラクタが標準的な
    英語ワードにおける関連づけられるその前のキャラクタ
    に続く、傾度に従って2つの部分のテーブルに配列され
    るキャラクタの関連するテーブルを備えている、特許請
    求の範[1171ii記載の@胃。 (19) ストアされたバイトのグループが数字キャラ
    クタであるときを検出する手段と、前記検出手段に応答
    して前記ストアされたバイトのグル−プにおけるバイト
    の数をカウントするための手段と、 コード化された第1のニブルを発生してそのワードが数
    字であることを示す手段と、 コード化された第2のニブルを発生して前記カウントさ
    れたバイトの数を示す手段と、コード化された各数字の
    バイトのための付加的なニブルを発生して対応する数字
    の値を示す手段とをさらに備え、 前記発生されたニブルは順にストアされる、特許請求の
    範囲第15項記載の装置。 (20) 前記ストアされたバイトのグループが句読キ
    ャラクタであるときを検出する手段と、前記ストアされ
    たバイトのグループが前記辞書テーブル内になくかつ前
    記ストアされたバイトのグループが句読キャラクタであ
    るときに前記信号手段および前記検出手段に応答して、
    前記ストアされたバイトのグループにおけるバイトの数
    をカウントするための手段と、 コード化された少なくとも2つのニブルを発生して前記
    バイトが句読でありかつ前記辞書テーブル内にはないこ
    とを示す手段と、 前記カウントされたバイトの数を示すニブルを発生する
    手段と、 すべてのバイトが続く前記発生されたニブルをそれらの
    ASCIIコード化された形式において順にストアする
    手段とをさらに含む、特許請求の範囲第15項記載の@
    ぽ。
JP57185904A 1981-12-31 1982-10-21 情報圧縮方法 Pending JPS58119230A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/336,413 US4597057A (en) 1981-12-31 1981-12-31 System for compressed storage of 8-bit ASCII bytes using coded strings of 4 bit nibbles
US336413 1981-12-31

Publications (1)

Publication Number Publication Date
JPS58119230A true JPS58119230A (ja) 1983-07-15

Family

ID=23315986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57185904A Pending JPS58119230A (ja) 1981-12-31 1982-10-21 情報圧縮方法

Country Status (4)

Country Link
US (1) US4597057A (ja)
EP (1) EP0083393B1 (ja)
JP (1) JPS58119230A (ja)
DE (1) DE3277556D1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016509416A (ja) * 2013-01-18 2016-03-24 アルカテル−ルーセント データ圧縮

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4672679A (en) * 1983-08-16 1987-06-09 Wang Laboratories, Inc. Context redundancy text compression
JPS6091478A (ja) * 1983-10-25 1985-05-22 Sharp Corp 単語の綴り検査方式
US4882703A (en) * 1984-09-17 1989-11-21 Nicolai Robert L Procedure for fining all words contained within any given word including creation of a dictionary
US4701851A (en) * 1984-10-24 1987-10-20 International Business Machines Corporation Compound word spelling verification
US4672571A (en) * 1984-10-24 1987-06-09 International Business Machines Corporation Compound word suitability for spelling verification
FR2572834B1 (fr) * 1984-11-05 1987-03-27 Inchauspe Louis Procede multipliant par environ deux la capacite de memorisation des ordinateurs et divisant d'autant le temps de transmission d'informations entre ordinateurs
US4771385A (en) * 1984-11-21 1988-09-13 Nec Corporation Word recognition processing time reduction system using word length and hash technique involving head letters
US4956808A (en) * 1985-01-07 1990-09-11 International Business Machines Corporation Real time data transformation and transmission overlapping device
JPS61214051A (ja) * 1985-03-20 1986-09-22 Brother Ind Ltd 電子辞書
JPS61217863A (ja) * 1985-03-23 1986-09-27 Brother Ind Ltd 電子辞書
US4764863A (en) * 1985-05-09 1988-08-16 The United States Of America As Represented By The Secretary Of Commerce Hardware interpreter for finite state automata
US4758955A (en) * 1985-07-19 1988-07-19 Carson Chen Hand-held spelling checker and method for reducing redundant information in the storage of textural material
EP0352377A1 (en) * 1988-07-26 1990-01-31 Leonid D. Levin Word processing apparatus and method
JPS62251876A (ja) * 1986-04-18 1987-11-02 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 言語処理システム
US4949302A (en) * 1986-11-17 1990-08-14 International Business Machines Corporation Message file formation for computer programs
US4843389A (en) * 1986-12-04 1989-06-27 International Business Machines Corp. Text compression and expansion method and apparatus
JPS63170063A (ja) * 1987-01-07 1988-07-13 Brother Ind Ltd 印字装置
US4777617A (en) * 1987-03-12 1988-10-11 International Business Machines Corporation Method for verifying spelling of compound words
US4873634A (en) * 1987-03-27 1989-10-10 International Business Machines Corporation Spelling assistance method for compound words
US5374928A (en) * 1987-05-25 1994-12-20 Megaword International Pty. Ltd. Method of processing a text in order to store the text in memory
US4774500A (en) * 1987-10-21 1988-09-27 Wright Technologies Data compaction method for microprocessor cards
US5560037A (en) * 1987-12-28 1996-09-24 Xerox Corporation Compact hyphenation point data
JPH0233221A (ja) * 1988-07-22 1990-02-02 Matsushita Electric Ind Co Ltd コード変換装置と復号装置
US5117351A (en) * 1988-10-21 1992-05-26 Digital Equipment Corporation Object identifier generator for distributed computer system
US5111398A (en) * 1988-11-21 1992-05-05 Xerox Corporation Processing natural language text using autonomous punctuational structure
US5146221A (en) * 1989-01-13 1992-09-08 Stac, Inc. Data compression apparatus and method
US5532694A (en) * 1989-01-13 1996-07-02 Stac Electronics, Inc. Data compression apparatus and method using matching string searching and Huffman encoding
DE69029217T2 (de) * 1989-04-05 1997-04-03 Xerox Corp Verfahren zur Kodierung von Texten
US5625773A (en) * 1989-04-05 1997-04-29 Xerox Corporation Method of encoding and line breaking text
US5225833A (en) * 1989-10-20 1993-07-06 Digital Equipment Corporation Character encoding
US5034741A (en) * 1990-03-22 1991-07-23 United Technologies Corporation Variable length bit patterns for data representation
US5153831A (en) * 1990-05-29 1992-10-06 Franklin Electronic Publishers, Incorporated Electronic text
DE69123660T2 (de) * 1990-08-13 1997-04-17 Fujitsu Ltd Datenkompressionsmethode und Gerät
US5140321A (en) * 1991-09-04 1992-08-18 Prime Computer, Inc. Data compression/decompression method and apparatus
US5396228A (en) * 1992-01-16 1995-03-07 Mobile Telecommunications Technologies Methods and apparatus for compressing and decompressing paging data
US5423010A (en) * 1992-01-24 1995-06-06 C-Cube Microsystems Structure and method for packing and unpacking a stream of N-bit data to and from a stream of N-bit data words
US5325091A (en) * 1992-08-13 1994-06-28 Xerox Corporation Text-compression technique using frequency-ordered array of word-number mappers
US5533051A (en) * 1993-03-12 1996-07-02 The James Group Method for data compression
EP0696107B1 (en) * 1994-08-01 2002-01-16 OpenTV, Inc. Method for compressing and decompressing data files
US7008890B1 (en) * 1995-04-19 2006-03-07 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Vapor barrier for use in the thermal insulation of buildings
US5704060A (en) * 1995-05-22 1997-12-30 Del Monte; Michael G. Text storage and retrieval system and method
JP3566441B2 (ja) * 1996-01-30 2004-09-15 シャープ株式会社 テキスト圧縮用辞書作成装置
GB2314433A (en) * 1996-06-22 1997-12-24 Xerox Corp Finding and modifying strings of a regular language in a text
FR2751492B1 (fr) * 1996-07-16 1998-11-13 Alcatel Mobile Comm France Procede et dispositif de compression et de decompression de messages
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
CA2205641A1 (en) * 1997-05-16 1998-11-16 Ibm Canada Limited-Ibm Canada Limitee System and method of transforming information between ucs and ebcdic representations employing ebcdic-friendly transformation formats
US6075470A (en) * 1998-02-26 2000-06-13 Research In Motion Limited Block-wise adaptive statistical data compressor
CA2303357A1 (en) * 1998-07-14 2000-01-27 Ying-Yueh Chang Reduced overhead text messaging
US6388585B1 (en) * 1998-08-11 2002-05-14 Matsushita Electric Ind Co Ltd Method for data compression and decompression using decompression instructions
US6327634B1 (en) * 1998-08-25 2001-12-04 Xilinx, Inc. System and method for compressing and decompressing configuration data for an FPGA
US7500017B2 (en) * 2001-04-19 2009-03-03 Microsoft Corporation Method and system for providing an XML binary format
US6611214B1 (en) 2002-02-15 2003-08-26 Lsi Logic Corporation ROM code compression
DE10227422B4 (de) * 2002-06-20 2018-11-22 Werner Turck Gmbh & Co. Kg Datenumwandler
US6714145B1 (en) 2002-09-26 2004-03-30 Richard Marques Method and apparatus for integer-based encoding and decoding of bits
US6670897B1 (en) 2002-10-03 2003-12-30 Motorola, Inc. Compression/decompression techniques based on tokens and Huffman coding
US7293284B1 (en) * 2002-12-31 2007-11-06 Colligo Networks, Inc. Codeword-enhanced peer-to-peer authentication
US7930434B2 (en) * 2003-03-05 2011-04-19 Microsoft Corporation System and method for managing communication and/or storage of image data
US7254271B2 (en) * 2003-03-05 2007-08-07 Seadragon Software, Inc. Method for encoding and serving geospatial or other vector data as images
US7133054B2 (en) * 2004-03-17 2006-11-07 Seadragon Software, Inc. Methods and apparatus for navigating an image
US7912299B2 (en) * 2004-10-08 2011-03-22 Microsoft Corporation System and method for efficiently encoding data
US7433880B2 (en) * 2004-09-13 2008-10-07 Atwell Computer Medical Innovations, Inc. Method and system for high speed encoding, processing and decoding of data
US20060235941A1 (en) * 2005-03-29 2006-10-19 Microsoft Corporation System and method for transferring web page data
IL205528A (en) * 2009-05-04 2014-02-27 Storwize Ltd A method and system for compressing logical information objects for storage
US8779950B2 (en) 2012-03-05 2014-07-15 Dcba, Llc Command encoded data compression
US9543980B2 (en) 2014-10-10 2017-01-10 Massachusettes Institute Of Technology Systems and methods for model-free compression and model-based decompression
CN107919943B (zh) 2016-10-11 2020-08-04 阿里巴巴集团控股有限公司 二进制数据的编码、解码方法和装置
EP3567495A1 (en) 2018-05-11 2019-11-13 AbbType Ltd. Method of abbreviated typing and compression of texts written in languages using alphabetic scripts
US11455326B2 (en) * 2019-07-21 2022-09-27 Microsoft Technology Licensing, Llc Efficient storage and retrieval of textual data

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3931612A (en) * 1974-05-10 1976-01-06 Triad Systems Corporation Sort apparatus and data processing system
US4270182A (en) * 1974-12-30 1981-05-26 Asija Satya P Automated information input, storage, and retrieval system
US3995254A (en) * 1975-07-16 1976-11-30 International Business Machines Corporation Digital reference matrix for word verification
US4409621A (en) * 1978-05-23 1983-10-11 Information International, Inc. Method and apparatus for compacting and decompacting character in accordance with a variety of methods
US4241402A (en) * 1978-10-12 1980-12-23 Operating Systems, Inc. Finite state automaton with multiple state types
US4342085A (en) * 1979-01-05 1982-07-27 International Business Machines Corporation Stem processing for data reduction in a dictionary storage file
US4295124A (en) * 1979-08-13 1981-10-13 National Semiconductor Corporation Communication method and system
US4327379A (en) * 1980-04-11 1982-04-27 Xerox Corporation Hardware implementation of 4-pixel code encoder
JPS6042517B2 (ja) * 1980-04-15 1985-09-24 シャープ株式会社 電子式翻訳機
US4374625A (en) * 1980-05-01 1983-02-22 Ibm Corporation Text recorder with automatic word ending
US4386416A (en) * 1980-06-02 1983-05-31 Mostek Corporation Data compression, encryption, and in-line transmission system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016509416A (ja) * 2013-01-18 2016-03-24 アルカテル−ルーセント データ圧縮

Also Published As

Publication number Publication date
EP0083393A3 (en) 1984-09-05
EP0083393A2 (en) 1983-07-13
DE3277556D1 (en) 1987-12-03
US4597057A (en) 1986-06-24
EP0083393B1 (en) 1987-10-28

Similar Documents

Publication Publication Date Title
JPS58119230A (ja) 情報圧縮方法
US5999949A (en) Text file compression system utilizing word terminators
EP0584992B1 (en) Text compression technique using frequency ordered array of word number mappers
US4626829A (en) Data compression using run length encoding and statistical encoding
US5109433A (en) Compressing and decompressing text files
US4955066A (en) Compressing and decompressing text files
EP0293161B1 (en) Character processing system with spelling check function
US5254990A (en) Method and apparatus for compression and decompression of data
JP3217781B2 (ja) 多重レベルを利用するデータ圧縮
US5333313A (en) Method and apparatus for compressing a dictionary database by partitioning a master dictionary database into a plurality of functional parts and applying an optimum compression technique to each part
US4295124A (en) Communication method and system
JPH026252B2 (ja)
CN100417028C (zh) 执行霍夫曼解码的方法
KR100490240B1 (ko) 데이타압축장치,데이타복원장치,데이타압축방법,데이타복원방법및프로그램기록매체
US6222942B1 (en) Method and apparatus for compressing and decompressing messages
WO1993017503A1 (en) Data compression using hashing
JPS61500345A (ja) デ−タ圧縮方法および装置
US5444445A (en) Master + exception list method and apparatus for efficient compression of data having redundant characteristics
JP2003510881A (ja) データを展開するのに要する時間を短縮するための方法と装置
Cooper et al. Text compression using variable‐to fixed‐length encodings
US4890326A (en) Method for compressing data
EP0472730B1 (en) Data compression and restoration method and device therefor
JPH0546358A (ja) テキストデータの圧縮方法
JP3350118B2 (ja) データ符号化方式及びデータ復元方式
JP2785168B2 (ja) 単語検索のための電子辞書圧縮方法及び装置