JP2568344B2 - テキスト情報再生システム - Google Patents
テキスト情報再生システムInfo
- Publication number
- JP2568344B2 JP2568344B2 JP4041592A JP4159292A JP2568344B2 JP 2568344 B2 JP2568344 B2 JP 2568344B2 JP 4041592 A JP4041592 A JP 4041592A JP 4159292 A JP4159292 A JP 4159292A JP 2568344 B2 JP2568344 B2 JP 2568344B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- context
- character
- characters
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Memory System (AREA)
Description
【0001】
【産業上の利用分野】本発明は、データプロセッシング
システム、ワードプロセッシングシステム、及び通信シ
ステムに関し、より詳細にはテキスト情報の再生(deco
mpression)のための方法に関する。このような関係に
おいては、テキスト情報は、記号又は文字の定められた
組、又はアルフアベットから選択された記号又は文字の
構造化された順序で表わされる任意の情報として定義さ
れる。テキスト情報の一般的な例は、例えば、英語、ド
イツ語又はフランス語で書かれた手紙、レポート、及び
原稿、業務記録及び会計記録、科学的データ、並びに図
形記号の配列から成る図形表示などの書類を含む。
システム、ワードプロセッシングシステム、及び通信シ
ステムに関し、より詳細にはテキスト情報の再生(deco
mpression)のための方法に関する。このような関係に
おいては、テキスト情報は、記号又は文字の定められた
組、又はアルフアベットから選択された記号又は文字の
構造化された順序で表わされる任意の情報として定義さ
れる。テキスト情報の一般的な例は、例えば、英語、ド
イツ語又はフランス語で書かれた手紙、レポート、及び
原稿、業務記録及び会計記録、科学的データ、並びに図
形記号の配列から成る図形表示などの書類を含む。
【0002】
【従来の技術】データ処理システム及び通信システムに
おいては、限りなく増える情報の量を記録し、処理し、
通信するという問題が繰返し生じてくる。斯かるシステ
ムの情報取扱い要求は、ひかえ目に見ても急激に増加
し、且つ使用できるメモリとデータリンクの容量が増え
るよりも更に急激に増えていく。更に、特定システムに
配設できる或いは付加できる記憶又は通信の能力には物
理的又は経済的な制限が課せられることが多い。その結
果、よく多くの量の情報をシステムに取扱わせるため
に、記憶又はデータリンク容量を増やすという方法では
ない他の方法が開発されてきた。斯かる方法の1つは、
データ圧縮と呼ばれる。これは、システムのユーザによ
ってシステムに通信される情報が、このシステムによっ
てよりコンパクトな或いは縮小した形に変換され記憶又
は伝送に供されるという方法である。この情報は、その
小さくなった形から変換、即ち再生(decompression)
されて元の形に戻り、 ユーザに通信される。
おいては、限りなく増える情報の量を記録し、処理し、
通信するという問題が繰返し生じてくる。斯かるシステ
ムの情報取扱い要求は、ひかえ目に見ても急激に増加
し、且つ使用できるメモリとデータリンクの容量が増え
るよりも更に急激に増えていく。更に、特定システムに
配設できる或いは付加できる記憶又は通信の能力には物
理的又は経済的な制限が課せられることが多い。その結
果、よく多くの量の情報をシステムに取扱わせるため
に、記憶又はデータリンク容量を増やすという方法では
ない他の方法が開発されてきた。斯かる方法の1つは、
データ圧縮と呼ばれる。これは、システムのユーザによ
ってシステムに通信される情報が、このシステムによっ
てよりコンパクトな或いは縮小した形に変換され記憶又
は伝送に供されるという方法である。この情報は、その
小さくなった形から変換、即ち再生(decompression)
されて元の形に戻り、 ユーザに通信される。
【0003】システムとこのシステムのユーザ間で通信
される情報の形としての言語は、かなりの度合の冗長度
を含んでいるのが一般的である。即ち、情報が表現され
る形としての言語は、実際の情報を完全に且つ正確に表
現するのに要するよりも多くの情報を含んでいる。ワー
ドプロセッシングにおける一般的な例としては、情報、
即ちテキストが、ユーザとシステムの間で、ピリオド、
コンマ、スペース、タブ及行帰線等の句読点及び書式文
字を含む英文言語の形として通信されるものが挙げられ
る。テキスト圧縮は斯かる冗長のために可能であり、基
本的には、テキストのユーザ言語の形から冗長な情報を
削除することにより、ユーザ言語テキストをよりコンパ
クトな形に変換する。
される情報の形としての言語は、かなりの度合の冗長度
を含んでいるのが一般的である。即ち、情報が表現され
る形としての言語は、実際の情報を完全に且つ正確に表
現するのに要するよりも多くの情報を含んでいる。ワー
ドプロセッシングにおける一般的な例としては、情報、
即ちテキストが、ユーザとシステムの間で、ピリオド、
コンマ、スペース、タブ及行帰線等の句読点及び書式文
字を含む英文言語の形として通信されるものが挙げられ
る。テキスト圧縮は斯かる冗長のために可能であり、基
本的には、テキストのユーザ言語の形から冗長な情報を
削除することにより、ユーザ言語テキストをよりコンパ
クトな形に変換する。
【0004】従来のテキスト圧縮方法は、分配的冗長
度、即ち、特定の文字、文字の組合わせ、及び特定のユ
ーザ言語におけるワードの使用もしくは発生頻度におけ
る非直線性に基づいていた。例えば、英語の言語の場
合、文字「e」及び「スペース」は、「y」又は「z」
よりも頻繁に発生し、特定の文字の対、又は合字、例え
ば、「th」及び「es」、並びに特定のワード、例え
ば、「the」、「of」、及び「and」は頻繁に発
生する。
度、即ち、特定の文字、文字の組合わせ、及び特定のユ
ーザ言語におけるワードの使用もしくは発生頻度におけ
る非直線性に基づいていた。例えば、英語の言語の場
合、文字「e」及び「スペース」は、「y」又は「z」
よりも頻繁に発生し、特定の文字の対、又は合字、例え
ば、「th」及び「es」、並びに特定のワード、例え
ば、「the」、「of」、及び「and」は頻繁に発
生する。
【0005】従来の技術は、可変長のコードワード、又
は文字を指定し、特定の言語において頻繁に現れれる文
字、文字の組合せ及びワードを表すことにより圧縮を達
成するのにこの分配的冗長度を用いていた。即ち、最も
頻繁に現れる文字、文字の組合せ及びワードは、割当て
られた短いコード文字である。共通性の少ない文字の組
合せ及びワードは、発生頻度に応じて、割当てられた長
いコード文字となり、或いはより頻繁に発生する文字、
文字の組合せ及びワードのシーケンスとして「完全綴
り」にされる。
は文字を指定し、特定の言語において頻繁に現れれる文
字、文字の組合せ及びワードを表すことにより圧縮を達
成するのにこの分配的冗長度を用いていた。即ち、最も
頻繁に現れる文字、文字の組合せ及びワードは、割当て
られた短いコード文字である。共通性の少ない文字の組
合せ及びワードは、発生頻度に応じて、割当てられた長
いコード文字となり、或いはより頻繁に発生する文字、
文字の組合せ及びワードのシーケンスとして「完全綴
り」にされる。
【0006】データ処理システム、ワードプロセッシン
グシステム及び通信システムにおけるテキストの実際の
圧縮及び再生は、頻繁に発生する文字、文字の組合せ及
びワードを対応する割当てられたコード文字に関係づけ
る「ルックアップテーブル」を用いて実施されるのが一
般的である。圧縮テーブル及び再生テーブルは、実際の
圧縮動作再生動作から別々に発生され、これらのテーブ
ルは、一般的に、ユーザ言語における非常に大量のテキ
ストの十分に詳細な言語学的分析を必要とする。ここで
銘記すべきことは、ある特定の言語におけるあり得るワ
ード及び文字の各々に対してコード文字を割当てること
は可能ではあるが、その結果生じるコード文字及びテー
ブルは、テキスト圧縮によって節約されるであろうメモ
リスペースよりも多くのメモリスペースを必要とする大
きなものになることである。
グシステム及び通信システムにおけるテキストの実際の
圧縮及び再生は、頻繁に発生する文字、文字の組合せ及
びワードを対応する割当てられたコード文字に関係づけ
る「ルックアップテーブル」を用いて実施されるのが一
般的である。圧縮テーブル及び再生テーブルは、実際の
圧縮動作再生動作から別々に発生され、これらのテーブ
ルは、一般的に、ユーザ言語における非常に大量のテキ
ストの十分に詳細な言語学的分析を必要とする。ここで
銘記すべきことは、ある特定の言語におけるあり得るワ
ード及び文字の各々に対してコード文字を割当てること
は可能ではあるが、その結果生じるコード文字及びテー
ブルは、テキスト圧縮によって節約されるであろうメモ
リスペースよりも多くのメモリスペースを必要とする大
きなものになることである。
【0007】テキスト圧縮の分配的冗長度方法は、オリ
ジナルテキストが形成されている形としての個々の言語
の言語学的特徴に依存するところが大である。特に、よ
り大きな言語ユニット、例えば、文字の組合せ及びワー
ドに関して依存するところが大である。例えば、英語、
ドイツ語、フランス語、ロシア語、イタリア語及びスカ
ンジナビア語は全て、はっきりと異なった言語学的特徴
を有しており、異なった分析方法を必要としており、従
って、非常に異なった圧縮テーブル及び再生テーブルが
できる。従って、従来の圧縮技術は、圧縮テーブル再生
テーブルを発生するために、独立のユーザ言語の各々に
おける非常に大量のテキストの詳細な言語学的分析を必
要としたのである。
ジナルテキストが形成されている形としての個々の言語
の言語学的特徴に依存するところが大である。特に、よ
り大きな言語ユニット、例えば、文字の組合せ及びワー
ドに関して依存するところが大である。例えば、英語、
ドイツ語、フランス語、ロシア語、イタリア語及びスカ
ンジナビア語は全て、はっきりと異なった言語学的特徴
を有しており、異なった分析方法を必要としており、従
って、非常に異なった圧縮テーブル及び再生テーブルが
できる。従って、従来の圧縮技術は、圧縮テーブル再生
テーブルを発生するために、独立のユーザ言語の各々に
おける非常に大量のテキストの詳細な言語学的分析を必
要としたのである。
【0008】
【発明が解決しようとする課題】分配的冗長度方法の言
語学的依存性、特に大きな言語学的ユニットに関しての
依存性の故に、広い範囲の言語にわたって分配的冗長度
を分析するための完全に一般的な目的方法を開発するこ
とは困難である。更に、且つ同じ理由でもって、ある特
定の言語に対する圧縮テーブル再生テーブルは、動作の
対象となるテキストの特定の「通用語」に依存すること
がある。例えば、業務テキスト、科学テキスト及び文献
テキストに対する言語学的特徴は十分に異なるため、そ
れぞれの用途に対する独立したテーブルを必要とする。
語学的依存性、特に大きな言語学的ユニットに関しての
依存性の故に、広い範囲の言語にわたって分配的冗長度
を分析するための完全に一般的な目的方法を開発するこ
とは困難である。更に、且つ同じ理由でもって、ある特
定の言語に対する圧縮テーブル再生テーブルは、動作の
対象となるテキストの特定の「通用語」に依存すること
がある。例えば、業務テキスト、科学テキスト及び文献
テキストに対する言語学的特徴は十分に異なるため、そ
れぞれの用途に対する独立したテーブルを必要とする。
【0009】更に、斯かる方法は、異なった寸法の言語
的ユニット及びコードワードを使用しているため、圧縮
/再生は比較的精巧なプログラムを必要とし、複雑な分
解能力と処理能力及び時間並びにプログラムメモリスペ
ースが相応して増加する。同じ理由により、圧縮動作及
び再生動作は対称的とはなり得ない。即ち、別々のテー
ブルを必要とし、且つ異なるルーチンの実施を必要とす
るため、これも処理及びメモリの要求が増加する。最後
に、同じ理由で、斯かる方法は、テキストが一連の小さ
な「バッチ」動作として処理されなければならない時
の、即ちこれらのバッチ処理される大きさが言語的ユニ
ット及びコードワードの大きさによって決定される時
の、連続的なインラインテキスト処理又は通信には好ま
しくない。
的ユニット及びコードワードを使用しているため、圧縮
/再生は比較的精巧なプログラムを必要とし、複雑な分
解能力と処理能力及び時間並びにプログラムメモリスペ
ースが相応して増加する。同じ理由により、圧縮動作及
び再生動作は対称的とはなり得ない。即ち、別々のテー
ブルを必要とし、且つ異なるルーチンの実施を必要とす
るため、これも処理及びメモリの要求が増加する。最後
に、同じ理由で、斯かる方法は、テキストが一連の小さ
な「バッチ」動作として処理されなければならない時
の、即ちこれらのバッチ処理される大きさが言語的ユニ
ット及びコードワードの大きさによって決定される時
の、連続的なインラインテキスト処理又は通信には好ま
しくない。
【0010】本発明の目的はテキスト情報を再生する方
法を提供することである。
法を提供することである。
【0011】更なる目的は、広範囲な言語にわたる使用
に適するテキスト情報に再生することである。
に適するテキスト情報に再生することである。
【0012】更なる目的は、言語の言語学的特徴に比較
的依存しないテキスト情報に再生することである。
的依存しないテキスト情報に再生することである。
【0013】更に他の目的は、改良された速度でテキス
ト情報を再生することである。
ト情報を再生することである。
【0014】
【課題を解決するための手段】前記の目的を達成するた
めに、情報処理システムにおいて、文脈圧縮化されたテ
キスト情報を再生するための方法は、圧縮されたテキス
トの各コード文字を連続して読み取るステップ、各前記
コード文字に対して、前記テキストの既知の再生部分か
ら関連する文脈を読み取るステップ、各前記コード文字
及び関連する文脈に対して対応するテキスト文字を選択
するステップ、及び再生された形の前記テキストを構成
するように前記テキスト文字を提供するステップを備え
る。
めに、情報処理システムにおいて、文脈圧縮化されたテ
キスト情報を再生するための方法は、圧縮されたテキス
トの各コード文字を連続して読み取るステップ、各前記
コード文字に対して、前記テキストの既知の再生部分か
ら関連する文脈を読み取るステップ、各前記コード文字
及び関連する文脈に対して対応するテキスト文字を選択
するステップ、及び再生された形の前記テキストを構成
するように前記テキスト文字を提供するステップを備え
る。
【0015】本発明に係るテキスト圧縮/再生方法は、
文脈(context)冗長度、即ち、個々の文字(characte
r)がテキストの中に存在している文脈の非均一的分
布、或いは、同義的には、与えられたセットの文脈にお
ける文字の発生の非均一的分布に基づいて動作する。本
明細書に定義される文脈は、1つのテキストを構成する
個々の文字に先行又は後続する均一に寸法化された群の
文字を含んでいる。
文脈(context)冗長度、即ち、個々の文字(characte
r)がテキストの中に存在している文脈の非均一的分
布、或いは、同義的には、与えられたセットの文脈にお
ける文字の発生の非均一的分布に基づいて動作する。本
明細書に定義される文脈は、1つのテキストを構成する
個々の文字に先行又は後続する均一に寸法化された群の
文字を含んでいる。
【0016】
【作用】本明細書に記載される方法は、抽象的なグルー
プ分け及びテキスト文字間の相関関係でもって動作する
のであり、言語学的分析のいかなる形にも或いは言語学
的特徴のいかなる形にも、更にいかなる言語の要素にも
基づくものではない。従って、本方法は、一般的であ
り、いかなる言語にも、或いはある言語のいかなる「通
用語」にも等しく適用できる。
プ分け及びテキスト文字間の相関関係でもって動作する
のであり、言語学的分析のいかなる形にも或いは言語学
的特徴のいかなる形にも、更にいかなる言語の要素にも
基づくものではない。従って、本方法は、一般的であ
り、いかなる言語にも、或いはある言語のいかなる「通
用語」にも等しく適用できる。
【0017】本方法及び装置は、均一に寸法化されたテ
キストの群及びコード文字の群でもって動作し、従って
複雑性が小さくなり且つ他の方法よりも必要とする処理
時間及び能力が小さくなり、従って高速で実施される。
本方法は、実施において対称的(symmetric)であり、
唯一つの組み合わされた圧縮/再生テーブルを必要と
し、オンライン連続プロセスに好適である。
キストの群及びコード文字の群でもって動作し、従って
複雑性が小さくなり且つ他の方法よりも必要とする処理
時間及び能力が小さくなり、従って高速で実施される。
本方法は、実施において対称的(symmetric)であり、
唯一つの組み合わされた圧縮/再生テーブルを必要と
し、オンライン連続プロセスに好適である。
【0018】コードとテキスト文字間の相関関係を定め
る情報の一部は文脈、即ち、テキスト自体に、その圧縮
された形と及び圧縮されていない形の両方でもって存在
している。これにより、圧縮されたテキストを一義的に
表わすため、必要とする独特なコード文字は少なくて済
み、従ってコード文字は短くて済む。結果として生じる
圧縮されたテキストは、これにより、より少ないビット
の情報で表わすことができる。
る情報の一部は文脈、即ち、テキスト自体に、その圧縮
された形と及び圧縮されていない形の両方でもって存在
している。これにより、圧縮されたテキストを一義的に
表わすため、必要とする独特なコード文字は少なくて済
み、従ってコード文字は短くて済む。結果として生じる
圧縮されたテキストは、これにより、より少ないビット
の情報で表わすことができる。
【0019】
【実施例】次の記述により、データ処理ワードプロセッ
シング及び通信オペレーションを実施し且つ本発明を組
込む能力を有するコンピュータシステムのハードウエア
及びソフトウエアの一般的な構造及びオペレーション
を、先ず簡単に説明する。斯かるシステムの構造及びオ
ペレーションは、当業者にとっては、本明細書に説明さ
れているように、良く理解されるであろう。更に、斯か
るシステムの構造及びオペレーションの詳細について
は、本明細書にも引例として挙げられている米国特許出
願第440,668号に与えられている。一応の脈絡、
即ち、本発明に係る方法を実行するための装置を説明し
たので、本発明に係る文脈冗長度テキスト圧縮方法を次
に詳細に説明することにする。
シング及び通信オペレーションを実施し且つ本発明を組
込む能力を有するコンピュータシステムのハードウエア
及びソフトウエアの一般的な構造及びオペレーション
を、先ず簡単に説明する。斯かるシステムの構造及びオ
ペレーションは、当業者にとっては、本明細書に説明さ
れているように、良く理解されるであろう。更に、斯か
るシステムの構造及びオペレーションの詳細について
は、本明細書にも引例として挙げられている米国特許出
願第440,668号に与えられている。一応の脈絡、
即ち、本発明に係る方法を実行するための装置を説明し
たので、本発明に係る文脈冗長度テキスト圧縮方法を次
に詳細に説明することにする。
【0020】説明は以下の順におこなう。
【0021】1.コンピュータシステムの構造及びオペ
レーション A.ハードウエアー構造及びオペレーション a.ALU及びバス b.内部制御論理 c.メモリ d.I/Oデバイス B.ソフトウエア構造及びオペレーション 2.文脈冗長度テキスト圧縮及び再生1.コンピュータシステムの構造及びオペレーション 図1について説明する。この図には、本発明に従うコン
ピュータシステムの斜視図が示されている。システム1
0は、表示装置12、キーボード14及び中央処理装置
(CPU)16を含んでいる。表示装置12及びキーボ
ード14は、情報、例えば、テキストが本システムとユ
ーザとの間で通信される時に用いられる主な手段であ
る。図示されないケーブルで表示装置12及びキーボー
ド14に接続されているCPU16は、プログラム及び
データを記憶するためのメモリ及び多目的演算装置(A
LU)を含んでいる。CPU16は、更に、プログラム
及びデータを記憶するためのディスクドライブ並びに周
辺デバイス、例えばプリンタ、ディスクドライブ及び通
信デバイスに至るインターフェースを含んでいる。シス
テム10は、例えば、マサチューセッツ州ローウェルの
ウォング・ラボラトリーズ・インコーポレーテッド(Wa
ng Laboratories, Inc.)製市販の「プロフェッショナ
ルコンピュータ」から成り得る。
レーション A.ハードウエアー構造及びオペレーション a.ALU及びバス b.内部制御論理 c.メモリ d.I/Oデバイス B.ソフトウエア構造及びオペレーション 2.文脈冗長度テキスト圧縮及び再生1.コンピュータシステムの構造及びオペレーション 図1について説明する。この図には、本発明に従うコン
ピュータシステムの斜視図が示されている。システム1
0は、表示装置12、キーボード14及び中央処理装置
(CPU)16を含んでいる。表示装置12及びキーボ
ード14は、情報、例えば、テキストが本システムとユ
ーザとの間で通信される時に用いられる主な手段であ
る。図示されないケーブルで表示装置12及びキーボー
ド14に接続されているCPU16は、プログラム及び
データを記憶するためのメモリ及び多目的演算装置(A
LU)を含んでいる。CPU16は、更に、プログラム
及びデータを記憶するためのディスクドライブ並びに周
辺デバイス、例えばプリンタ、ディスクドライブ及び通
信デバイスに至るインターフェースを含んでいる。シス
テム10は、例えば、マサチューセッツ州ローウェルの
ウォング・ラボラトリーズ・インコーポレーテッド(Wa
ng Laboratories, Inc.)製市販の「プロフェッショナ
ルコンピュータ」から成り得る。
【0022】A.ハードウエア構造及びオペレーション a.ALU及びバス 図2及び図3について説明する。この図には、システム
10のブロック図が示されている。システム10のCP
U16中のALUは、メインプロセッサ(以下メインP
と称す)18及びコプロセッサ(以下CO−Pと称す)
20から成る。メインP18及びCO−P20は、例え
ば、それぞれ、16ビットIntel8086 ALU
及びIntel 8087数値プロセッサ拡張部であり
得る。メインP18及びCO−P20は、CPU16に
対するアドレス指定、メモリ参照、及び入力/出力(I
/O)オペレーションを含む全ての演算及び論理オペレ
ーションを行う。
10のブロック図が示されている。システム10のCP
U16中のALUは、メインプロセッサ(以下メインP
と称す)18及びコプロセッサ(以下CO−Pと称す)
20から成る。メインP18及びCO−P20は、例え
ば、それぞれ、16ビットIntel8086 ALU
及びIntel 8087数値プロセッサ拡張部であり
得る。メインP18及びCO−P20は、CPU16に
対するアドレス指定、メモリ参照、及び入力/出力(I
/O)オペレーションを含む全ての演算及び論理オペレ
ーションを行う。
【0023】メインP18及びCO−P20は、局所的
(Local)バス22と連通し且つアドレスバス24、デ
ータバス26及び制御バス28を通してCPU16の残
りの部分、表示装置12、キーボード14及び全ての周
辺デバイスと連通している。メインP18とCOーP2
0並びにバス24、26及び28間のインターフェイス
は、アドレスラッチ30、データトランシーバ32及び
バス制御34を通して行なわれる。
(Local)バス22と連通し且つアドレスバス24、デ
ータバス26及び制御バス28を通してCPU16の残
りの部分、表示装置12、キーボード14及び全ての周
辺デバイスと連通している。メインP18とCOーP2
0並びにバス24、26及び28間のインターフェイス
は、アドレスラッチ30、データトランシーバ32及び
バス制御34を通して行なわれる。
【0024】b.内部制御論理 次に、CPU16の内部制御論理について説明する。メ
インP18及びCOーP20に関連しているのは、シス
テムクロック36と待ち状態ロジック(Wait State Log
ic)38である。システムクロック36は、CPU16
に対する全てのクロックタイミング信号のソースであ
る。待ち状態ロジック38は、基本的に、CPU16の
動作を監視し、且つCPU16の動作におけるコンフリ
クトを防止するために、制御バス28を通してシステム
クロック36と及びCPU16の他のエレメントに制御
信号を発生する。
インP18及びCOーP20に関連しているのは、シス
テムクロック36と待ち状態ロジック(Wait State Log
ic)38である。システムクロック36は、CPU16
に対する全てのクロックタイミング信号のソースであ
る。待ち状態ロジック38は、基本的に、CPU16の
動作を監視し、且つCPU16の動作におけるコンフリ
クトを防止するために、制御バス28を通してシステム
クロック36と及びCPU16の他のエレメントに制御
信号を発生する。
【0025】CPU16の他の制御エレメントは、カウ
ンタ及びタイマチップ(CTC)40及びプログラマブ
ル割込みチップ(PIC)42を含む。CTC40は、
例えば、Intel 8253であり、且つPICはI
ntel 8255Aであり得る。直ぐに処理されなけ
ればならない、即ち、後の動作のためにマスクすること
ができない割込み状態を処理するために、マスク不能割
込みロジック44がPIC42と関連して動作する。斯
かる割込み状態は、パリテイ及びI/Oエラーを含んで
いる。
ンタ及びタイマチップ(CTC)40及びプログラマブ
ル割込みチップ(PIC)42を含む。CTC40は、
例えば、Intel 8253であり、且つPICはI
ntel 8255Aであり得る。直ぐに処理されなけ
ればならない、即ち、後の動作のためにマスクすること
ができない割込み状態を処理するために、マスク不能割
込みロジック44がPIC42と関連して動作する。斯
かる割込み状態は、パリテイ及びI/Oエラーを含んで
いる。
【0026】CPU16は、システム10の周辺デバイ
スと、以下に示す例えばCPU16のメモリとの間でマ
ップされたメモリリファレンス及び直接メモリアクセス
(DMA)オペレーションの両方を実施する能力を有す
る。DMAオペレーションは、DMAバス獲得ロジック
(論理)46及びDMA制御(DMA)48によって制
御される。DMA獲得論理46は、特にメモリ及びバス
オペレーションにおいて、システム10のオペレーショ
ンを監視し、DMAオペレーションが実施される時にD
MA許可信号を制御バス28に発生する。DMA48
は、例えば、周辺デバイスからのDMAオペレーション
要求を検出し、斯かる要求の存在をDMAバス獲得46
に通知し、DMAバス獲得論理46がCPU16のバス
に対するアクセスを許可した時にDMAオペレーション
を制御する。
スと、以下に示す例えばCPU16のメモリとの間でマ
ップされたメモリリファレンス及び直接メモリアクセス
(DMA)オペレーションの両方を実施する能力を有す
る。DMAオペレーションは、DMAバス獲得ロジック
(論理)46及びDMA制御(DMA)48によって制
御される。DMA獲得論理46は、特にメモリ及びバス
オペレーションにおいて、システム10のオペレーショ
ンを監視し、DMAオペレーションが実施される時にD
MA許可信号を制御バス28に発生する。DMA48
は、例えば、周辺デバイスからのDMAオペレーション
要求を検出し、斯かる要求の存在をDMAバス獲得46
に通知し、DMAバス獲得論理46がCPU16のバス
に対するアクセスを許可した時にDMAオペレーション
を制御する。
【0027】c.メモリ CPU16の主内部メモリは、128KBランダムアク
セスメモリ(RAM)50であり、これは、オペレーテ
ィングシステムと動作の対象となる応用プログラム及び
データ、例えばテキストを記憶するのに用いられる。オ
ペレーティングシステムプログラムは、例えば、マイク
ロソフト社(Micro Soft Corporation)市販のマイクロ
ソフトディスクオペレーティングシステム(登録商標M
SDOS)から成り、且つベーシック入力及び出力シス
テム(BIOS)を含む得る。
セスメモリ(RAM)50であり、これは、オペレーテ
ィングシステムと動作の対象となる応用プログラム及び
データ、例えばテキストを記憶するのに用いられる。オ
ペレーティングシステムプログラムは、例えば、マイク
ロソフト社(Micro Soft Corporation)市販のマイクロ
ソフトディスクオペレーティングシステム(登録商標M
SDOS)から成り、且つベーシック入力及び出力シス
テム(BIOS)を含む得る。
【0028】MSDOSは基本的には、システム10の
エグゼクチブ(管理的)内部オペレーションを制御する
のに対し、BIOSは、システム10、表示装置12と
キーボード14並びに広範囲の周辺デバイス間のインタ
ーフェースを制御するプログラムを含む。
エグゼクチブ(管理的)内部オペレーションを制御する
のに対し、BIOSは、システム10、表示装置12と
キーボード14並びに広範囲の周辺デバイス間のインタ
ーフェースを制御するプログラムを含む。
【0029】必要に応じて、128KBRAM50の容
量は、512KBRAM52を付加することにより増加
することができる。512KBRAM52は、アドレス
バス24、データバス26及び制御バス28から128
KBRAM50に並列に接続されており、128KBR
AM50と平行に且つその一部として効果的に動作す
る。
量は、512KBRAM52を付加することにより増加
することができる。512KBRAM52は、アドレス
バス24、データバス26及び制御バス28から128
KBRAM50に並列に接続されており、128KBR
AM50と平行に且つその一部として効果的に動作す
る。
【0030】消去可能プログラマブル読出し専用メモリ
(EPROM)54は、上に述べられたオペレーティン
グシステム及び応用プログラムをディスクドライブ56
のディスケットから128KBRAM50及び512K
BRAM52にロードするのに用いられるプログラムを
記憶し且つ供給する。
(EPROM)54は、上に述べられたオペレーティン
グシステム及び応用プログラムをディスクドライブ56
のディスケットから128KBRAM50及び512K
BRAM52にロードするのに用いられるプログラムを
記憶し且つ供給する。
【0031】図2に示すように、ディスクドライブ56
は、アドレスバス24、データバス26及び制御バス2
8から接続され、フロッピー制御器58によって制御さ
れる。オペレーティングシステム及び応用プログラムを
記憶し且つ供給することに加えて、ディスクドライブ5
6は、128KBRAM50及び512KBRAM52
を増加する付加的なメモリ容量として用いられ且つデー
タ、例えば、動作の対象となっているテキストを記憶し
且つロードするのに用いられる。この点に関して述べる
と、ディスクドライブ56は、例えば、テキスト又はデ
ータディスケット上で1つのシステムから別のシステム
に転送するI/Oデバイスとして用いられる。
は、アドレスバス24、データバス26及び制御バス2
8から接続され、フロッピー制御器58によって制御さ
れる。オペレーティングシステム及び応用プログラムを
記憶し且つ供給することに加えて、ディスクドライブ5
6は、128KBRAM50及び512KBRAM52
を増加する付加的なメモリ容量として用いられ且つデー
タ、例えば、動作の対象となっているテキストを記憶し
且つロードするのに用いられる。この点に関して述べる
と、ディスクドライブ56は、例えば、テキスト又はデ
ータディスケット上で1つのシステムから別のシステム
に転送するI/Oデバイスとして用いられる。
【0032】ディスクドライブ56の容量は、ディスク
ドライブ56及びRAM50及び52と平行にアドレス
バス28、アドレスバス30及び制御バス32から接続
されるウインチェスタハードディスクドライブ60及び
ディスク制御器62を付加することにより増加される。
ハードディスクドライブ56は、動作の対象となるプロ
グラム及びデータを記憶するためのRAM50及び52
に至る延長として用いられる。
ドライブ56及びRAM50及び52と平行にアドレス
バス28、アドレスバス30及び制御バス32から接続
されるウインチェスタハードディスクドライブ60及び
ディスク制御器62を付加することにより増加される。
ハードディスクドライブ56は、動作の対象となるプロ
グラム及びデータを記憶するためのRAM50及び52
に至る延長として用いられる。
【0033】d.I/Oデバイス 前に述べたように、表示装置12及びキーボード14
は、システム10とユーザ間の通信のための主なI/O
手段である。表示装置12は、モニタ制御器13を通し
てアドレスバス28、データバス30及び制御バス32
に接続される従来のCRT表示装置である。モニタ制御
器13は、例えば、日本電気のUPD7220型グラフ
ィックデータ制御装置であり得る。キーボード14は、
ユニバーサル非同期レシーバ/トランスミッタ(UAR
T)15を通じてキーボード14とシステムバス28、
30及び32との間のキーボード動作及びデータ/制御
通信を制御するための内部マイクロプロセッサ、例え
ば、ザイログ社Z80を有する従来のキーボードであ
る。
は、システム10とユーザ間の通信のための主なI/O
手段である。表示装置12は、モニタ制御器13を通し
てアドレスバス28、データバス30及び制御バス32
に接続される従来のCRT表示装置である。モニタ制御
器13は、例えば、日本電気のUPD7220型グラフ
ィックデータ制御装置であり得る。キーボード14は、
ユニバーサル非同期レシーバ/トランスミッタ(UAR
T)15を通じてキーボード14とシステムバス28、
30及び32との間のキーボード動作及びデータ/制御
通信を制御するための内部マイクロプロセッサ、例え
ば、ザイログ社Z80を有する従来のキーボードであ
る。
【0034】他のI/Oデバイスはプリンタ64及び6
6を含む。プリンタ64は、例えば、従来のデージホイ
ール型プリンタ或いはドットマトリックス型プリンタで
よい。プリンタ66は、例えば、ロードアイランド州の
イーストグリーニッチのガルトン工業社(Gulton Indus
tries, Inc.)市販のマイクロプロット(Microplot)8
0のようなグラフィック印刷用サーモグラフィックプリ
ンタでよい。
6を含む。プリンタ64は、例えば、従来のデージホイ
ール型プリンタ或いはドットマトリックス型プリンタで
よい。プリンタ66は、例えば、ロードアイランド州の
イーストグリーニッチのガルトン工業社(Gulton Indus
tries, Inc.)市販のマイクロプロット(Microplot)8
0のようなグラフィック印刷用サーモグラフィックプリ
ンタでよい。
【0035】更に、システム10と他のシステム又はデ
バイス間の通信は、通信制御装置(TC)68を通して
行われる。TC68は、システムバス28、30及び3
2と通信変復調装置又は外部デバイス、例えば、メモリ
や表示装置との間の通信用の、例えばザイログ社のZ8
0型マイクロプロセッサ及びシリアルI/Oチップを組
込んでいるマイクロプロセッサ制御されたインターフェ
ースデバイスである。
バイス間の通信は、通信制御装置(TC)68を通して
行われる。TC68は、システムバス28、30及び3
2と通信変復調装置又は外部デバイス、例えば、メモリ
や表示装置との間の通信用の、例えばザイログ社のZ8
0型マイクロプロセッサ及びシリアルI/Oチップを組
込んでいるマイクロプロセッサ制御されたインターフェ
ースデバイスである。
【0036】ここで銘記すべきことは、上記のシステム
10は、例示的であり、以下に更に述べるテキスト圧縮
方法は、例えば、広範囲にわたるシステムアーキテクチ
ヤについて実施されることである。この方法は、例え
ば、ザイログ社のZ80、モトローラ社のMC6800
0、インテルの8080、8086又は80186、又
はナショナルセミコンダクタ社のNS16000マイク
ロプロセッサに基づくプロセッサ、又はミニコンピユー
タ又はメインフレームコンピユータ、又はワードプロセ
ッサ又は通信プロセッサについても実施される。
10は、例示的であり、以下に更に述べるテキスト圧縮
方法は、例えば、広範囲にわたるシステムアーキテクチ
ヤについて実施されることである。この方法は、例え
ば、ザイログ社のZ80、モトローラ社のMC6800
0、インテルの8080、8086又は80186、又
はナショナルセミコンダクタ社のNS16000マイク
ロプロセッサに基づくプロセッサ、又はミニコンピユー
タ又はメインフレームコンピユータ、又はワードプロセ
ッサ又は通信プロセッサについても実施される。
【0037】上記のようにシステム10のハードウエア
の構造及びオペレーションについて説明したため、シス
テム10のソフトウエア構造及びオペレーションについ
て述べることにする。
の構造及びオペレーションについて説明したため、シス
テム10のソフトウエア構造及びオペレーションについ
て述べることにする。
【0038】B.ソフトウエア構造及びオペレーション 図4について説明する。この図には、システム10のソ
フトウエア構造の図が示されている。ここに示すよう
に、システムのソフトウエア構造は、システムハードウ
エアによってユーザの動作を特定の詳細なオペレーショ
ンに変換するための多層構造である。このソフトウエア
構造は、上層のユーザとインターフェースし且つ下層の
システムハードウエアエレメントとインターフェースす
るためのエレメントを含む。中間層は基本的には、ユー
ザ命令及び要求をハードウエアのオペレーションを指示
する命令に変換する。
フトウエア構造の図が示されている。ここに示すよう
に、システムのソフトウエア構造は、システムハードウ
エアによってユーザの動作を特定の詳細なオペレーショ
ンに変換するための多層構造である。このソフトウエア
構造は、上層のユーザとインターフェースし且つ下層の
システムハードウエアエレメントとインターフェースす
るためのエレメントを含む。中間層は基本的には、ユー
ザ命令及び要求をハードウエアのオペレーションを指示
する命令に変換する。
【0039】ユーザインターフェースレベルから始まっ
て、ルーチン70、72、74及び76はシステムの応
用プログラムを含み、システムによって実行される特定
の応用オペレーション、例えば、テキスト又はグラフィ
ック編集或いはデータ処理を決定し、命令する。
て、ルーチン70、72、74及び76はシステムの応
用プログラムを含み、システムによって実行される特定
の応用オペレーション、例えば、テキスト又はグラフィ
ック編集或いはデータ処理を決定し、命令する。
【0040】ユーザインターフェースルーチン70は、
例えば、表示装置12、キーボード14及びシステムデ
ィスク及びプリンタによってユーザと対話するための全
てのルーチンを含む。ユーザインターフェースルーチン
70はユーザに向けられたものであるが、応用機能イン
ターフェース72は、ユーザインターフェースルーチン
70によって行われるユーザ動作オペレーションと、例
えばテキスト編集のような実際の応用オペレーションを
行うソフトウエアとの間をインターフェースする。基本
的には、応用機能インターフェースルーチン72は、ユ
ーザインターフェースオペレーションの結果を、ユーザ
によって規定される応用オペレーションを指図するため
の命令及びコマンドに変換する。
例えば、表示装置12、キーボード14及びシステムデ
ィスク及びプリンタによってユーザと対話するための全
てのルーチンを含む。ユーザインターフェースルーチン
70はユーザに向けられたものであるが、応用機能イン
ターフェース72は、ユーザインターフェースルーチン
70によって行われるユーザ動作オペレーションと、例
えばテキスト編集のような実際の応用オペレーションを
行うソフトウエアとの間をインターフェースする。基本
的には、応用機能インターフェースルーチン72は、ユ
ーザインターフェースオペレーションの結果を、ユーザ
によって規定される応用オペレーションを指図するため
の命令及びコマンドに変換する。
【0041】応用ルーチン74及び76は、実際の応用
プログラム、即ち、システムが例えば、テキスト又はグ
ラフィック編集オペレーション又はデータ処理オペレー
ションを実行するように指示するプログラムである。応
用ルーチン74及び76は、応用機能インターフェース
ルーチン72から、ユーザによって要求されているオペ
レーションに関する指示を受け、オペレーティングシス
テム78に、要求されているオペレーションを実施する
ために行われなければならないシステムオペレーション
についての指示を与える。
プログラム、即ち、システムが例えば、テキスト又はグ
ラフィック編集オペレーション又はデータ処理オペレー
ションを実行するように指示するプログラムである。応
用ルーチン74及び76は、応用機能インターフェース
ルーチン72から、ユーザによって要求されているオペ
レーションに関する指示を受け、オペレーティングシス
テム78に、要求されているオペレーションを実施する
ために行われなければならないシステムオペレーション
についての指示を与える。
【0042】前に述べたように、オペレーティングシス
テム78は、MSDOSから成り、システムのエグゼク
チブ(管理)制御に必要な全てのルーチンを含んでい
る。オペレーティングシステム78は、前に説明したよ
うに、BIOSから成るハードウエアインターフェース
システム80とインターフェースする。基本的には、オ
ペレーティングシステム78は、ユーザによって要求さ
れているオペレーションを実施するために、どの詳細な
オペレーションがシステムによって実行されなければな
らないかを決定し、対応する命令をハードウエアインタ
ーフェースシステム80に供給する。ハードウエアイン
ターフェースシステム80は、システム10のハードウ
エア構造を含む前に説明した種々のエレメントに詳細な
コマンドを供給することによって応答を行なう。
テム78は、MSDOSから成り、システムのエグゼク
チブ(管理)制御に必要な全てのルーチンを含んでい
る。オペレーティングシステム78は、前に説明したよ
うに、BIOSから成るハードウエアインターフェース
システム80とインターフェースする。基本的には、オ
ペレーティングシステム78は、ユーザによって要求さ
れているオペレーションを実施するために、どの詳細な
オペレーションがシステムによって実行されなければな
らないかを決定し、対応する命令をハードウエアインタ
ーフェースシステム80に供給する。ハードウエアイン
ターフェースシステム80は、システム10のハードウ
エア構造を含む前に説明した種々のエレメントに詳細な
コマンドを供給することによって応答を行なう。
【0043】前に説明したように、テキスト圧縮によっ
て、テキスト情報をシステム、例えば、メモリ又はディ
スク上に記憶せしめ、或いはよりコンパクトな形でもっ
てシステム或いはデバイス間に通信せしめる。例えば、
上記のシステムの場合、ユーザによってキーボードを通
して入力される、或いはディスクから又は通信リンクを
通してロードされるテキストは、圧縮されてRAMに或
いはディスク上に記憶することができ、或いは通信リン
クを通して送信できる。テキストは、次に、再生(deco
mpress)されて、例えば、表示装置を通して、或いはプ
リンタ上にユーザに対して表示することができる。基本
的には、テキスト圧縮及び再生は、テキスト情報が、シ
ステムエレメントと、かなりの度合の冗長度を含む言
語、例えば、英語を用いているソース又は受け取り側と
の間で通信される時はいつでも実行される。
て、テキスト情報をシステム、例えば、メモリ又はディ
スク上に記憶せしめ、或いはよりコンパクトな形でもっ
てシステム或いはデバイス間に通信せしめる。例えば、
上記のシステムの場合、ユーザによってキーボードを通
して入力される、或いはディスクから又は通信リンクを
通してロードされるテキストは、圧縮されてRAMに或
いはディスク上に記憶することができ、或いは通信リン
クを通して送信できる。テキストは、次に、再生(deco
mpress)されて、例えば、表示装置を通して、或いはプ
リンタ上にユーザに対して表示することができる。基本
的には、テキスト圧縮及び再生は、テキスト情報が、シ
ステムエレメントと、かなりの度合の冗長度を含む言
語、例えば、英語を用いているソース又は受け取り側と
の間で通信される時はいつでも実行される。
【0044】従って、以下に説明するテキスト圧縮方法
は、図4の応用ルーチン74、76レベルに相当する応
用プログラムレベルにおいて上記で述べられた斯かるシ
ステムにおいて最も実施されるであろう。しかしなが
ら、この方法は、例えば表示装置及びキーボードに存在
する処理能力の程度に応じて、応用機能インターフェー
ス72レベルにおいても実行され得る。また、この方法
は、実施がシステムオペレーションの基本的特徴であっ
た場合は、オペレーティングシステム78又はハードウ
エアインターフェースシステム80レベルにおいて実行
される。その実施に応じて、以下に述べる圧縮/再生テ
ーブルはRAM又はROMの中に置かれる。
は、図4の応用ルーチン74、76レベルに相当する応
用プログラムレベルにおいて上記で述べられた斯かるシ
ステムにおいて最も実施されるであろう。しかしなが
ら、この方法は、例えば表示装置及びキーボードに存在
する処理能力の程度に応じて、応用機能インターフェー
ス72レベルにおいても実行され得る。また、この方法
は、実施がシステムオペレーションの基本的特徴であっ
た場合は、オペレーティングシステム78又はハードウ
エアインターフェースシステム80レベルにおいて実行
される。その実施に応じて、以下に述べる圧縮/再生テ
ーブルはRAM又はROMの中に置かれる。
【0045】以上のように、本発明に係る方法が実行さ
れる装置について述べてきたので、本発明に係る文脈冗
長度テキスト圧縮(context redundancy text compress
ion)方法について以下に述べることにする。
れる装置について述べてきたので、本発明に係る文脈冗
長度テキスト圧縮(context redundancy text compress
ion)方法について以下に述べることにする。
【0046】2.文脈冗長度テキスト圧縮及び再生 前に述べたように、テキスト圧縮は、圧縮されるべきテ
キストの言語の中の情報冗長度の発生に依存する。上記
の従来の技術は、分配的冗長度、即ち、オリジナルテキ
ストの言語の中の特定の文字、文字の組合せ及びワード
の発生頻度における非均一性に依っている。
キストの言語の中の情報冗長度の発生に依存する。上記
の従来の技術は、分配的冗長度、即ち、オリジナルテキ
ストの言語の中の特定の文字、文字の組合せ及びワード
の発生頻度における非均一性に依っている。
【0047】本発明に係るテキスト圧縮方法は、文脈冗
長度、即ち、他の文字と順次結合している特定の文字、
即ち文脈の統計的に不均一の発生に基づいている。例え
ば、文字「u」は、文字「q」に続くことが最も多く、
「s」は、「es」に続くことが最も多く、且つ「ブラ
ンク」即ち「スペース」は文字「est」に続くことが
最も多い。
長度、即ち、他の文字と順次結合している特定の文字、
即ち文脈の統計的に不均一の発生に基づいている。例え
ば、文字「u」は、文字「q」に続くことが最も多く、
「s」は、「es」に続くことが最も多く、且つ「ブラ
ンク」即ち「スペース」は文字「est」に続くことが
最も多い。
【0048】この方法の場合、「文脈」は、順番に特定
の文字に先行、或いは続く、文字のシーケンスとして定
義され、それぞれ、先行文脈又は後続文脈と呼ばれる。
文脈は、関連する文字の直ぐ隣に位置する必要はない
が、次の例では、隣接した文脈が用いられている。先行
及び後続文脈は、特定の言語の文字が通常書かれている
シーケンスを基準にして定義される。例えば、英語の場
合、先行文脈は特定の文字の左に現われる文字であり、
後続文脈はその文字の右に現れる文字である。他の言語
の場合、例えば、ヘブライ語或いは中国後の場合、先行
文脈は特定の文字の右に或いは上に現われ、後続文脈は
左又は下に現われる。これらの例では「q」は「u」の
左文脈であり、「es」は「s」の左文脈であり、「e
st」は「ブランク」の左文脈である。
の文字に先行、或いは続く、文字のシーケンスとして定
義され、それぞれ、先行文脈又は後続文脈と呼ばれる。
文脈は、関連する文字の直ぐ隣に位置する必要はない
が、次の例では、隣接した文脈が用いられている。先行
及び後続文脈は、特定の言語の文字が通常書かれている
シーケンスを基準にして定義される。例えば、英語の場
合、先行文脈は特定の文字の左に現われる文字であり、
後続文脈はその文字の右に現れる文字である。他の言語
の場合、例えば、ヘブライ語或いは中国後の場合、先行
文脈は特定の文字の右に或いは上に現われ、後続文脈は
左又は下に現われる。これらの例では「q」は「u」の
左文脈であり、「es」は「s」の左文脈であり、「e
st」は「ブランク」の左文脈である。
【0049】本明細書に説明するテキスト圧縮方法は、
先行文脈及び後続文脈の両方に対して等しい容易さでも
って実施されるが、先行文脈は「オンライン」圧縮及び
再生に最も好適である。後続文脈圧縮及び再生は、「バ
ッチ」処理、即ち、順次的でオーバーラップする文字の
組に対しての記憶及び動作を必要とする。しかしなが
ら、後続文脈圧縮は、特定の状況又は特定の言語にとっ
ては好都合である。
先行文脈及び後続文脈の両方に対して等しい容易さでも
って実施されるが、先行文脈は「オンライン」圧縮及び
再生に最も好適である。後続文脈圧縮及び再生は、「バ
ッチ」処理、即ち、順次的でオーバーラップする文字の
組に対しての記憶及び動作を必要とする。しかしなが
ら、後続文脈圧縮は、特定の状況又は特定の言語にとっ
ては好都合である。
【0050】テキストを圧縮し再生するのに用いられる
文脈の「次数」は、ここでは、文脈中の文字の数として
定義され、この方法の特定の実施では一定であることが
好ましいであろう。上記の例の場合、「q」は、「u」
の一次文脈であり、「es」は「s」の二次文脈であ
り、「est」は「ブランク」の三次文脈である。上記
の項目を更に定義するために、ある特定の言語を、i=
1〜uである文字Xi、即ち、X1,X2・・・Xu-1,
Xuから成るアルファベットAで表わすことにする。こ
の言語が、通常、左から右に書かれていると仮定する
と、文字のシーケンスXnXn-1・・・X3X2X1Xiがテ
キストに現われるとすると、文字のシーケンスXnXn-1
・・・X3X2X1はXiのn次の先行、即ち左文脈とな
る。ここで銘記すべきことは、いかなる文字Xiの文脈
も、文字Xi自体を含まないことである。
文脈の「次数」は、ここでは、文脈中の文字の数として
定義され、この方法の特定の実施では一定であることが
好ましいであろう。上記の例の場合、「q」は、「u」
の一次文脈であり、「es」は「s」の二次文脈であ
り、「est」は「ブランク」の三次文脈である。上記
の項目を更に定義するために、ある特定の言語を、i=
1〜uである文字Xi、即ち、X1,X2・・・Xu-1,
Xuから成るアルファベットAで表わすことにする。こ
の言語が、通常、左から右に書かれていると仮定する
と、文字のシーケンスXnXn-1・・・X3X2X1Xiがテ
キストに現われるとすると、文字のシーケンスXnXn-1
・・・X3X2X1はXiのn次の先行、即ち左文脈とな
る。ここで銘記すべきことは、いかなる文字Xiの文脈
も、文字Xi自体を含まないことである。
【0051】本発明に係る方法は、いかなる次数の値n
に対しても実行されるが、ここではn=1及びn=2の
次数に対する例を下に示す。しかしながら、次数の値は
高い方が好ましいであろう。
に対しても実行されるが、ここではn=1及びn=2の
次数に対する例を下に示す。しかしながら、次数の値は
高い方が好ましいであろう。
【0052】与えられたXi及び与えられた次数nに対
して、全ての可能な独特なn次の先行文脈の組は、PC
n(Xi)として指定され、unのメンバまで含むことが
できる。何となれば、独特な文字の各々に対してu個の
可能な独特な文字Xiとn個の可能な位置とが存在する
からである。与えられた言語に対する全ての可能な独特
なn次の先行文脈の組はPCnと指定され、un+1のメン
バまでを含むことができる。何故ならば、Xiはu個の
独特な文字の任意のものでありうるからである。
して、全ての可能な独特なn次の先行文脈の組は、PC
n(Xi)として指定され、unのメンバまで含むことが
できる。何となれば、独特な文字の各々に対してu個の
可能な独特な文字Xiとn個の可能な位置とが存在する
からである。与えられた言語に対する全ての可能な独特
なn次の先行文脈の組はPCnと指定され、un+1のメン
バまでを含むことができる。何故ならば、Xiはu個の
独特な文字の任意のものでありうるからである。
【0053】本発明に係るテキスト圧縮方法は、圧縮及
び再生のための「ルックアップ」テーブルの使用を必要
とする。上記から、斯かるテーブルは非常に大きいであ
ろうと見られるが、実際は、これらのテーブルは許容で
きる大きさとなっている。以下に更に述べられるよう
に、本発明の方法及びこの方法を実施するテーブルの構
造は、そのテキスト言語の言語学的特徴には依存しな
い。しかしながら、言語学的特徴は、これらのテーブル
の大きさに影響する。何となれば、特定の文脈はまれで
あり特定の言語には現われず、従って実際にはこれらの
テーブルの大きさを制限しているからである。例えば、
「wc」は英文においては「s」の先行文脈として現わ
れるのはまれであり、従って英文言語圧縮テーブルには
現われないが、例えば、ポーランド語テーブルには、現
われる。しかしながら、この圧縮方法と、これらのテー
ブルを生成する時に用いる手段は英語の場合もポーラン
ド語の場合も同一である。
び再生のための「ルックアップ」テーブルの使用を必要
とする。上記から、斯かるテーブルは非常に大きいであ
ろうと見られるが、実際は、これらのテーブルは許容で
きる大きさとなっている。以下に更に述べられるよう
に、本発明の方法及びこの方法を実施するテーブルの構
造は、そのテキスト言語の言語学的特徴には依存しな
い。しかしながら、言語学的特徴は、これらのテーブル
の大きさに影響する。何となれば、特定の文脈はまれで
あり特定の言語には現われず、従って実際にはこれらの
テーブルの大きさを制限しているからである。例えば、
「wc」は英文においては「s」の先行文脈として現わ
れるのはまれであり、従って英文言語圧縮テーブルには
現われないが、例えば、ポーランド語テーブルには、現
われる。しかしながら、この圧縮方法と、これらのテー
ブルを生成する時に用いる手段は英語の場合もポーラン
ド語の場合も同一である。
【0054】本発明に係る圧縮/再生テーブルは、発見
的に又は言語学的分析法によって生成される。しかしな
がら、より好ましい方法の場合、これらのテーブルは、
テキストの好ましい本体、例えば、辞書、シソーラス、
原稿或いは文書の文脈分析を通じて生成される。
的に又は言語学的分析法によって生成される。しかしな
がら、より好ましい方法の場合、これらのテーブルは、
テキストの好ましい本体、例えば、辞書、シソーラス、
原稿或いは文書の文脈分析を通じて生成される。
【0055】テーブル生成の好ましい方法は、言語学的
分析ではなく機械的である。先ず、文脈nの与えられた
次数に対して、テキストのサンプル体が、通常書込まれ
ている方向に従ってシーケンスに文字毎にスキャンさ
れ、各文字Xiに対して発生している各先行文脈PCn
(Xi)の各発生が表にされる。この分析は、各Xiに
対する各PCn(Xi)の発生の頻度のテーブルを与え、
基本的には、文脈冗長度をアルファベット中の各文字に
対する文脈の対応する分配的冗長度にマップする。この
プロセスは、それらのセルに対するインデックスとして
Xi及びPCn(Xi)を用いる表配列を生成し、このサ
ンプルテキストの文字Xiがスキャンされるとセルの内
容を適当に増分することによって、簡単に達成される。
分析ではなく機械的である。先ず、文脈nの与えられた
次数に対して、テキストのサンプル体が、通常書込まれ
ている方向に従ってシーケンスに文字毎にスキャンさ
れ、各文字Xiに対して発生している各先行文脈PCn
(Xi)の各発生が表にされる。この分析は、各Xiに
対する各PCn(Xi)の発生の頻度のテーブルを与え、
基本的には、文脈冗長度をアルファベット中の各文字に
対する文脈の対応する分配的冗長度にマップする。この
プロセスは、それらのセルに対するインデックスとして
Xi及びPCn(Xi)を用いる表配列を生成し、このサ
ンプルテキストの文字Xiがスキャンされるとセルの内
容を適当に増分することによって、簡単に達成される。
【0056】上記のテーブルを生成すると、最終テーブ
ルが、特定の文脈に現われる各Xiを、各PCn(Xi)
に対してソートすることによって生成される。即ち、こ
の最終テーブルは、各特定の文脈に対して、その文脈に
現われる全ての文字を含んでいる。これらの文字は、各
文脈に対して、発生の頻度の順に従ってソートされるの
が一般的である。ここで銘記すべきことは、この最終テ
ーブルが、連続する文脈を走査し、一度に1つづつ文字
をシフトし、発生する文脈及び各斯かる文脈に現われる
文字を表にすることにより、第1テーブルからの派生と
してではなく、直接発生されることである。
ルが、特定の文脈に現われる各Xiを、各PCn(Xi)
に対してソートすることによって生成される。即ち、こ
の最終テーブルは、各特定の文脈に対して、その文脈に
現われる全ての文字を含んでいる。これらの文字は、各
文脈に対して、発生の頻度の順に従ってソートされるの
が一般的である。ここで銘記すべきことは、この最終テ
ーブルが、連続する文脈を走査し、一度に1つづつ文字
をシフトし、発生する文脈及び各斯かる文脈に現われる
文字を表にすることにより、第1テーブルからの派生と
してではなく、直接発生されることである。
【0057】従って、この最終テーブルは、各文脈に対
して1つの「相対的アルファベット」を定義することが
でき、ある特定の文脈に対する相対的なアルファベット
は、発生の頻度の順に従ってその文脈に現れる全ての文
字から成る。以下に更に述べるように、この最終テーブ
ルは、全ての可能な非圧縮テキスト文字と圧縮テキスト
コード文字との間の関係を定めており、そして該テーブ
ルはテキストの圧縮と再生の両方に用いられる。
して1つの「相対的アルファベット」を定義することが
でき、ある特定の文脈に対する相対的なアルファベット
は、発生の頻度の順に従ってその文脈に現れる全ての文
字から成る。以下に更に述べるように、この最終テーブ
ルは、全ての可能な非圧縮テキスト文字と圧縮テキスト
コード文字との間の関係を定めており、そして該テーブ
ルはテキストの圧縮と再生の両方に用いられる。
【0058】表1について説明する。この表には、次数
n=2の先行文脈に対する最終圧縮/再生テーブルの説
明的な例が示されている。表1を生成するのに用いられ
ているテキストのサンプル体は、一般的な事務所の通信
文から成る。表1は単に説明的な目的に意図されている
ため、発生する文脈の数個だけが示されており、従って
各文脈に対しては、8個の最も頻繁に発生するテキスト
の文字だけが示されている。
n=2の先行文脈に対する最終圧縮/再生テーブルの説
明的な例が示されている。表1を生成するのに用いられ
ているテキストのサンプル体は、一般的な事務所の通信
文から成る。表1は単に説明的な目的に意図されている
ため、発生する文脈の数個だけが示されており、従って
各文脈に対しては、8個の最も頻繁に発生するテキスト
の文字だけが示されている。
【0059】 多種の2文字文脈が表1の左の垂直のインデックスとし
てリストされており、各文脈に現われるテキスト文字が
対応する文脈の右の列にリストされている。例えば、テ
キスト文字、即ち文脈「co」に対して発生する相対的
アルファベットは、発生の頻度の順で表わすと、
「n」、「m」、「p」、「u」、「v」、「r」、
「s」及び「d」である。ここで銘記すべきことは、テ
キスト文字「−」は、1つのスペース、即ちブランクを
表わすのに用いられ、「*M」は行の終り文字を表わ
し、「nul」はゼロ頻度数のエントリを表わすことで
ある。
てリストされており、各文脈に現われるテキスト文字が
対応する文脈の右の列にリストされている。例えば、テ
キスト文字、即ち文脈「co」に対して発生する相対的
アルファベットは、発生の頻度の順で表わすと、
「n」、「m」、「p」、「u」、「v」、「r」、
「s」及び「d」である。ここで銘記すべきことは、テ
キスト文字「−」は、1つのスペース、即ちブランクを
表わすのに用いられ、「*M」は行の終り文字を表わ
し、「nul」はゼロ頻度数のエントリを表わすことで
ある。
【0060】表1の上部に水平インデックスとして現わ
れているランク数字は、各文脈に対して、各相対的アル
ファベットの種々のテキスト文字を表わすのに用いられ
るシンボル、或いはコード文字を含んでいる。従って、
文脈「co」のテキスト文字「m」に対するコード文字
は「2」である。
れているランク数字は、各文脈に対して、各相対的アル
ファベットの種々のテキスト文字を表わすのに用いられ
るシンボル、或いはコード文字を含んでいる。従って、
文脈「co」のテキスト文字「m」に対するコード文字
は「2」である。
【0061】圧縮/再生テーブル1を検査すると、例え
ば、コード文字「2」はまた、文脈「ee」、「t
e」、「se」及び「or」においてテキスト文字
「d」を表わし、文脈「to」及び「io」においてテ
キスト文字「r」を表わすことが分る。同様にして、コ
ード文字「5」は、文脈「a 」、「io」及び「l
o」においてテキスト文字「g」を表わし、文脈「r
e」、「ne」及び「to」においてテキスト文字
「d」を表わしている。別の例の場合、コード「11」
は、先行の文脈が「ie」である場合、「ss」を表わ
し、先行の文脈「o 」である場合は、「th」を表わ
す。
ば、コード文字「2」はまた、文脈「ee」、「t
e」、「se」及び「or」においてテキスト文字
「d」を表わし、文脈「to」及び「io」においてテ
キスト文字「r」を表わすことが分る。同様にして、コ
ード文字「5」は、文脈「a 」、「io」及び「l
o」においてテキスト文字「g」を表わし、文脈「r
e」、「ne」及び「to」においてテキスト文字
「d」を表わしている。別の例の場合、コード「11」
は、先行の文脈が「ie」である場合、「ss」を表わ
し、先行の文脈「o 」である場合は、「th」を表わ
す。
【0062】上記のことから以下のことが明らかであ
る。即ち、同一のコード文字が異なるテキスト文字を表
わすことであり、且つ与えられたテキスト文字が異なっ
たコード文字によって表わされることである。即ち、コ
ード文字とテキスト文字との間にはそれら自体独特の1
対1の関係が存在しないことである。あるコード文字と
あるテキスト文字との間の関係は、そのコード及びテキ
スト文字が現われる特定の文脈に依存する。
る。即ち、同一のコード文字が異なるテキスト文字を表
わすことであり、且つ与えられたテキスト文字が異なっ
たコード文字によって表わされることである。即ち、コ
ード文字とテキスト文字との間にはそれら自体独特の1
対1の関係が存在しないことである。あるコード文字と
あるテキスト文字との間の関係は、そのコード及びテキ
スト文字が現われる特定の文脈に依存する。
【0063】このことは、以下の例で更に説明される文
脈冗長度圧縮の特徴を示している。即ち、一つのコード
文字は、ある特定のテキスト文字を独自に定義するのに
必要な情報の全ての量をそれ自身に含む必要がないこと
である。コードとテキスト文字との間の関係を定義する
情報の部分は、そのテキスト自身、即ち、その文脈の中
にある。このため、圧縮されたテキストを不明瞭性なし
に表わすのに必要な独特なコード文字は少なく済み、従
って、コード文字は短くて済む。従って、その結果生ず
る圧縮されたテキストは、より少ないビットの情報で表
わされる。従って、テキスト自体は、テキスト情報に加
えて、圧縮された形と圧縮されない形との間にわたる変
換に必要な情報の一部を、圧縮された形及び圧縮されな
い形の両方において含んでいる。
脈冗長度圧縮の特徴を示している。即ち、一つのコード
文字は、ある特定のテキスト文字を独自に定義するのに
必要な情報の全ての量をそれ自身に含む必要がないこと
である。コードとテキスト文字との間の関係を定義する
情報の部分は、そのテキスト自身、即ち、その文脈の中
にある。このため、圧縮されたテキストを不明瞭性なし
に表わすのに必要な独特なコード文字は少なく済み、従
って、コード文字は短くて済む。従って、その結果生ず
る圧縮されたテキストは、より少ないビットの情報で表
わされる。従って、テキスト自体は、テキスト情報に加
えて、圧縮された形と圧縮されない形との間にわたる変
換に必要な情報の一部を、圧縮された形及び圧縮されな
い形の両方において含んでいる。
【0064】テキスト文字とコード文字との間の文脈依
存関係の故に、先行文脈、例えば、「nuls」或いは
「ブランク」がテキストの最初のn文字に対して仮定さ
れるか、或いは課せられる。この「ヘッダ文脈」は、テ
キストの最初の文字或いは諸文字を圧縮又は再生するた
めの既知の文脈を与えており、後続する文字はテキスト
自体の文脈において圧縮或いは再生される。
存関係の故に、先行文脈、例えば、「nuls」或いは
「ブランク」がテキストの最初のn文字に対して仮定さ
れるか、或いは課せられる。この「ヘッダ文脈」は、テ
キストの最初の文字或いは諸文字を圧縮又は再生するた
めの既知の文脈を与えており、後続する文字はテキスト
自体の文脈において圧縮或いは再生される。
【0065】テキストの圧縮及び再生のための本発明に
係る方法及びテーブルの使用を説明するために、句「t
otal salt」がテキストの中に現われており、
「total」の最初の「t」の先行文脈が、例えば、
(th)e の「e 」であると仮定する。この句の圧
縮及びその後に続く再生は、以下に示す表2及び表3で
説明されている。表2は、圧縮プロセスを示しており表
3は再生プロセスを表している。
係る方法及びテーブルの使用を説明するために、句「t
otal salt」がテキストの中に現われており、
「total」の最初の「t」の先行文脈が、例えば、
(th)e の「e 」であると仮定する。この句の圧
縮及びその後に続く再生は、以下に示す表2及び表3で
説明されている。表2は、圧縮プロセスを示しており表
3は再生プロセスを表している。
【0066】 このサンプルテキストを圧縮するために、 各テキスト文
字及びその関連する文脈が順に読出され、 好ましい実施
例においては、 このテキストが通常書き込まれた順に従
って読み取られる。 この例の場合、 読み取りは左から右
に行なわれる。この例は2次文脈、即ちn=2の文脈を
用いているため、各文字に対する文脈は、その文字の直
前に先行する2つの文字から成る。このように、ある特
定の文字の2文字先行文脈を決定すると、次にその文脈
は、その文脈に対する相対的アルファベットを位置づけ
るための、この圧縮/再生テーブルへのインデックスと
して用いられる。この文脈と関連して読み取られる文字
は、次に相対的アルファベットの中に置かれ、相当する
コード文字が、この表の上部におけるランクインデック
スに置かれる。このプロセスは、この圧縮オペレーショ
ンが完了するまで、一度に一文字づつ、継続される。
字及びその関連する文脈が順に読出され、 好ましい実施
例においては、 このテキストが通常書き込まれた順に従
って読み取られる。 この例の場合、 読み取りは左から右
に行なわれる。この例は2次文脈、即ちn=2の文脈を
用いているため、各文字に対する文脈は、その文字の直
前に先行する2つの文字から成る。このように、ある特
定の文字の2文字先行文脈を決定すると、次にその文脈
は、その文脈に対する相対的アルファベットを位置づけ
るための、この圧縮/再生テーブルへのインデックスと
して用いられる。この文脈と関連して読み取られる文字
は、次に相対的アルファベットの中に置かれ、相当する
コード文字が、この表の上部におけるランクインデック
スに置かれる。このプロセスは、この圧縮オペレーショ
ンが完了するまで、一度に一文字づつ、継続される。
【0067】例えば、「total」中の最初の「t」
の先行文脈は、「e 」である。「e 」は、対応する
相対的アルファベットをつきとめるためにこのテーブル
へのインデックスとして用いられる。その対応する相対
的アルファベットは上から第2番目の相対的アルファベ
ットとして現われている。次のこの相対的アルファベッ
トは、スキャンされて、これによりテキスト文字
「t」、即ち左から2番目のエントリを突きとめ、対応
するコード文字がこのテーブルの上部から「2」として
読み取られる。次のテキスト文字は、「total」の
「o」であり、「o」の文脈は「 t」であり、従っ
て、「o」に対するコード文字もまた「2」となる。3
番目のテキスト文字は、「total」の2番目の
「t」であり、この「t」の先行文脈は、「to」であ
り、そのコード文字は「7」であると決定される。
の先行文脈は、「e 」である。「e 」は、対応する
相対的アルファベットをつきとめるためにこのテーブル
へのインデックスとして用いられる。その対応する相対
的アルファベットは上から第2番目の相対的アルファベ
ットとして現われている。次のこの相対的アルファベッ
トは、スキャンされて、これによりテキスト文字
「t」、即ち左から2番目のエントリを突きとめ、対応
するコード文字がこのテーブルの上部から「2」として
読み取られる。次のテキスト文字は、「total」の
「o」であり、「o」の文脈は「 t」であり、従っ
て、「o」に対するコード文字もまた「2」となる。3
番目のテキスト文字は、「total」の2番目の
「t」であり、この「t」の先行文脈は、「to」であ
り、そのコード文字は「7」であると決定される。
【0068】このプロセスはテキストの終わりまで継続
し、この「total salt」の圧縮された形は
「2273513827」となる。
し、この「total salt」の圧縮された形は
「2273513827」となる。
【0069】同一の圧縮/再生テーブルを用いて、逆の
オペレーションが実行され、これにより圧縮されたテキ
ストを再生する。この場合、読み取られる「テキスト」
は圧縮されたテキストであり、一度に1つづつ且つ書き
込まれた順次に従って読み取られる「文字」は、その圧
縮されたテキストのコード文字である。各コード文字の
先行文脈は、復元されたテキストの先行復号化文字から
成り、このテキストが再生された時に決定される。この
ように決定された文脈は、再びこのテーブルへのインデ
ックスとして用いられ、これにより適当な相対的アルフ
ァベットを選択し、このコード文字は、選択された相対
的アルファベット内の適当なテキスト文字を決定するた
めにインデックスとして用いられる。圧縮オペレーショ
ンに用いられる既知の「ヘッダ文脈」が再び、圧縮され
たテキストの最初の文字或いは諸文字を再生するのに開
始文脈として用いられる。
オペレーションが実行され、これにより圧縮されたテキ
ストを再生する。この場合、読み取られる「テキスト」
は圧縮されたテキストであり、一度に1つづつ且つ書き
込まれた順次に従って読み取られる「文字」は、その圧
縮されたテキストのコード文字である。各コード文字の
先行文脈は、復元されたテキストの先行復号化文字から
成り、このテキストが再生された時に決定される。この
ように決定された文脈は、再びこのテーブルへのインデ
ックスとして用いられ、これにより適当な相対的アルフ
ァベットを選択し、このコード文字は、選択された相対
的アルファベット内の適当なテキスト文字を決定するた
めにインデックスとして用いられる。圧縮オペレーショ
ンに用いられる既知の「ヘッダ文脈」が再び、圧縮され
たテキストの最初の文字或いは諸文字を再生するのに開
始文脈として用いられる。
【0070】上記と同一の例を用いて、この再生オペレ
ーションを説明するために、再生されるテキストが、コ
ード文字シーケンス「2273513827」から成
り、且つ先行する再生テキストが再び「e 」であると
決定されていると仮定する。次に、この再生オペレーシ
ョンが下の表3に説明されている。
ーションを説明するために、再生されるテキストが、コ
ード文字シーケンス「2273513827」から成
り、且つ先行する再生テキストが再び「e 」であると
決定されていると仮定する。次に、この再生オペレーシ
ョンが下の表3に説明されている。
【0071】 先行する圧縮テキストが、シーケンス「2273513
827」の開始に再生されていると仮定すると、このシ
ーケンス中の最初の「2」の先行文脈は、このテキスト
の前に再生された部分から「e 」であると分る。「e
」は、次にこのテーブルへのインデックスとして用い
られ、これにより、このシーケンスの最初の「2」の相
対的アルファベットを求め、この文字に対しては、この
「e 」は、このテーブルの上から2番目の相対的アル
ファベットとなる。このシーケンスのこの最初の「2」
は次に、このテーブルへのインデックスとして用いら
れ、これにより、その相対的アルファベットの対応する
テキスト文字が「t」であることを決定する。次に、こ
のシーケンス中の第2の「2」の先行文脈は、「 t」
であることが知られ、このテーブルへのインデックスと
して「 t」及び「2」を用いると、この第2の「2」
に対応するテキスト文字は、「o」と求められる。第3
のコード文字は、現在知られている先行文脈「to」を
伴う「7」であり、そのテキスト文字は、「t」である
と求めることができ、以下同様となる。
827」の開始に再生されていると仮定すると、このシ
ーケンス中の最初の「2」の先行文脈は、このテキスト
の前に再生された部分から「e 」であると分る。「e
」は、次にこのテーブルへのインデックスとして用い
られ、これにより、このシーケンスの最初の「2」の相
対的アルファベットを求め、この文字に対しては、この
「e 」は、このテーブルの上から2番目の相対的アル
ファベットとなる。このシーケンスのこの最初の「2」
は次に、このテーブルへのインデックスとして用いら
れ、これにより、その相対的アルファベットの対応する
テキスト文字が「t」であることを決定する。次に、こ
のシーケンス中の第2の「2」の先行文脈は、「 t」
であることが知られ、このテーブルへのインデックスと
して「 t」及び「2」を用いると、この第2の「2」
に対応するテキスト文字は、「o」と求められる。第3
のコード文字は、現在知られている先行文脈「to」を
伴う「7」であり、そのテキスト文字は、「t」である
と求めることができ、以下同様となる。
【0072】更に別の実施においては、上記の圧縮/再
生は、反復的に用いることができ、即ち、圧縮されたテ
キストは、上記と同一の方法を用いて、それ自身が圧縮
されることができる。反復的圧縮は、前記と同じ方法に
よる圧縮/再生テーブルの生成を必要とするが、圧縮さ
れたテキスト資料の文脈冗長度を求め、且つ表を作成す
るために、それらのテキストの圧縮された形を用いる。
従って、テキストの圧縮は、2つのステップのプロセス
になる。即ち、再生プロセスもそうであるが、オリジナ
ルテキストを圧縮する第1ステップと圧縮されたテキス
トを圧縮する第2ステップである。この2つのステッ
プ、即ち、反復的な圧縮/再生は、単一のステップのプ
ロセスのように、「オンライン」で、即ち、連続的プロ
セスとして実施され得る。
生は、反復的に用いることができ、即ち、圧縮されたテ
キストは、上記と同一の方法を用いて、それ自身が圧縮
されることができる。反復的圧縮は、前記と同じ方法に
よる圧縮/再生テーブルの生成を必要とするが、圧縮さ
れたテキスト資料の文脈冗長度を求め、且つ表を作成す
るために、それらのテキストの圧縮された形を用いる。
従って、テキストの圧縮は、2つのステップのプロセス
になる。即ち、再生プロセスもそうであるが、オリジナ
ルテキストを圧縮する第1ステップと圧縮されたテキス
トを圧縮する第2ステップである。この2つのステッ
プ、即ち、反復的な圧縮/再生は、単一のステップのプ
ロセスのように、「オンライン」で、即ち、連続的プロ
セスとして実施され得る。
【0073】
【発明の効果】テキスト圧縮/再生の前記の方法の特定
の特徴を繰り返すと、本発明に係る方法は、文脈冗長
度、即ち、個々の文字が発生する文脈の非均一分布に基
づいて動作する。ここに定義されているような文脈は、
テキストを構成する個々の文字に先行又は後続する文字
の均一寸法のグループを含んでいる。
の特徴を繰り返すと、本発明に係る方法は、文脈冗長
度、即ち、個々の文字が発生する文脈の非均一分布に基
づいて動作する。ここに定義されているような文脈は、
テキストを構成する個々の文字に先行又は後続する文字
の均一寸法のグループを含んでいる。
【0074】この方法に用いられる圧縮/再生テーブル
は、特定の言語の言語学的特徴に影響されるが、この方
法は、いかなる形の言語学的分析或いは、いかなる形の
言語学的特徴或いは、いかなる言語のエレメントにも基
づかない。従って、この方法は、完全に一般的であり、
いかなる言語にも或いは、ある言語の「通用語」に対し
ても等しく適用可能である。
は、特定の言語の言語学的特徴に影響されるが、この方
法は、いかなる形の言語学的分析或いは、いかなる形の
言語学的特徴或いは、いかなる言語のエレメントにも基
づかない。従って、この方法は、完全に一般的であり、
いかなる言語にも或いは、ある言語の「通用語」に対し
ても等しく適用可能である。
【0075】この方法は、テキスト及びコード文字の均
一寸法のグループについて動作するため、この方法は複
雑性が少なく、他の方法が必要とするよりも、少ない処
理時間及び能力を必要とし、従って実施速度がより速く
なる。同じ理由でもって、この方法は実施において対称
的であり、唯一の圧縮/再生テーブルを必要とするだけ
であり、オンライン連続プロセスに対して好適である。
一寸法のグループについて動作するため、この方法は複
雑性が少なく、他の方法が必要とするよりも、少ない処
理時間及び能力を必要とし、従って実施速度がより速く
なる。同じ理由でもって、この方法は実施において対称
的であり、唯一の圧縮/再生テーブルを必要とするだけ
であり、オンライン連続プロセスに対して好適である。
【0076】コード文字とテキスト文字との間の関係を
定める情報の部分は、文脈、即ちテキスト自体に、その
圧縮形及び非圧縮形の両方でもって存在する。このため
に、圧縮されたテキストを不明瞭性なく表わすのに必要
な独特のコード文字は少なくて済み、従ってコード文字
は短かくて済む。従って、その結果生ずる圧縮されたテ
キストは、より少ないビットの情報でもって表わすこと
ができる。
定める情報の部分は、文脈、即ちテキスト自体に、その
圧縮形及び非圧縮形の両方でもって存在する。このため
に、圧縮されたテキストを不明瞭性なく表わすのに必要
な独特のコード文字は少なくて済み、従ってコード文字
は短かくて済む。従って、その結果生ずる圧縮されたテ
キストは、より少ないビットの情報でもって表わすこと
ができる。
【0077】従って、本発明によると、テキスト情報
を、広範囲な言語にわたっての使用に適し、言語の言語
学的特徴に比較的依存しないテキスト情報に再生する方
法が提供され、かつ改良された速度で再生する方法が提
供される。
を、広範囲な言語にわたっての使用に適し、言語の言語
学的特徴に比較的依存しないテキスト情報に再生する方
法が提供され、かつ改良された速度で再生する方法が提
供される。
【図1】本発明を組込んでいるコンピュータシステムの
斜視図。
斜視図。
【図2】図1のコンピュータシステムの一部のブロック
図。
図。
【図3】図1のコンピュータシステムの他の部分のブロ
ック図。
ック図。
【図4】図1、図2、及び図3のコンピュータシステム
のソフトウエア構造の図。
のソフトウエア構造の図。
12 表示装置、 14 キーボード、 16 CP
U、 18 メインプロセッサ、 20 コプロセッ
サ、 36 システムクロック、 38 待ち状態ロジ
ック、 40 カウンタ及びタイマチップ、 42 プ
ログラマブル割り込みチップ、 44 非マスク可能割
込みロジック、48 DMA制御器、 50128KB
ランダムアクセスメモリ、 54 消去可能プログラマ
ブル読出し専用メモリ、 56 ディスクドライブ、
58 フロッピー制御器、 60 ディスクドライブ、
62 ディスク制御器、 66 ラスタプリンタ、
67プリンタ制御器、 68 通信制御器、 70 ユ
ーザインターフェースルーチン、 72 応用機能イン
ターフェースルーチン、 74、76 応用ルーチン、
78 オペレーティングシステム、 80 ハードウ
エアインターフェースシステム
U、 18 メインプロセッサ、 20 コプロセッ
サ、 36 システムクロック、 38 待ち状態ロジ
ック、 40 カウンタ及びタイマチップ、 42 プ
ログラマブル割り込みチップ、 44 非マスク可能割
込みロジック、48 DMA制御器、 50128KB
ランダムアクセスメモリ、 54 消去可能プログラマ
ブル読出し専用メモリ、 56 ディスクドライブ、
58 フロッピー制御器、 60 ディスクドライブ、
62 ディスク制御器、 66 ラスタプリンタ、
67プリンタ制御器、 68 通信制御器、 70 ユ
ーザインターフェースルーチン、 72 応用機能イン
ターフェースルーチン、 74、76 応用ルーチン、
78 オペレーティングシステム、 80 ハードウ
エアインターフェースシステム
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭58−85629(JP,A) 情報処理Vol.24No.4(1983 年)P.511
Claims (4)
- 【請求項1】 情報処理システムにおける、テキスト文
字を表すコード文字によって表された圧縮されたテキス
トを復元する方法において、 (A)或る言語の前記圧縮された前記テキストの各コー
ド文字を読み取るステップと、 (B)各前記コード文字に対して、前記テキストの復元
された部分から関連する文脈を読み取るステップであっ
て、各前記文脈は前記コード文字によって表された各前
記テキスト文字に関連するテキスト文字の組からなる、
読み取るステップと、 (C)前記コード文字と前記文脈との組み合わせをイン
デックスとして用いて、テーブルから、前記コード文字
を表すテキスト文字を選択する選択ステップであって、 前記テーブルは、すべての発生し得るテキスト文字と、
各前記テキスト文字に対して、そのテキスト文字に関連
する各文脈と、を含み、 各前記コード文字は、前記言語におけるテキスト文字と
関連する文脈との各組み合わせの発生の頻度に従って、
前記テキスト文字に関連付けされる、 ように構成されたテーブルである、 選択ステップと、 (D)復元された形で前記テキストを成すように前記テ
キスト文字を提供するステップと、 を備える方法。 - 【請求項2】 請求項1に記載の方法において、 前記文脈は各前記テキスト文字の直前の予め定めた固定
の数のテキスト文字からなる、前記方法。 - 【請求項3】 請求項1に記載の方法において、 前記テーブルにおいて、各前記コード文字は、テキスト
文字と関連する文脈との複数の異なる組み合わせを表
し、従って、1つの所与の前記コード文字は、複数の異
なるテキスト文字を表し、且つ、コード文字の発生によ
って表された前記テキスト文字は前記コード文字の前記
発生において前記コード文字に関連する前記文脈とテキ
スト文字とによって識別される、前記方法。 - 【請求項4】 請求項1に記載の方法において、 前記テーブルは、 (a)前記言語の代表的なテキストのサンプルのテキス
ト文字及び関連する文脈を読み取るステップであって、
文脈は、前記言語のテキストにおける1つのテキスト文
字と関連するテキスト文字の組である、ステップと、 (b)前記テキストのサンプルにおいて発生するテキス
ト文字と関連する前記文脈との各組み合わせを決定する
ステップと、 (c)前記言語におけるテキスト文字と関連する文脈と
の各組み合わせの発生の頻度に従って、テキスト文字と
関連する文脈との各前記組み合わせと、コード文字とを
関連付けるステップと、 を行うことによって生成される、 前記方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/523,739 US4672679A (en) | 1983-08-16 | 1983-08-16 | Context redundancy text compression |
US523739 | 1990-05-15 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59170985A Division JP2581661B2 (ja) | 1983-08-16 | 1984-08-16 | テキスト情報通信システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05197721A JPH05197721A (ja) | 1993-08-06 |
JP2568344B2 true JP2568344B2 (ja) | 1997-01-08 |
Family
ID=24086269
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59170985A Expired - Lifetime JP2581661B2 (ja) | 1983-08-16 | 1984-08-16 | テキスト情報通信システム |
JP4041592A Expired - Lifetime JP2568344B2 (ja) | 1983-08-16 | 1992-02-27 | テキスト情報再生システム |
JP4041600A Expired - Lifetime JP2575259B2 (ja) | 1983-08-16 | 1992-02-27 | テキスト情報の圧縮及び復元に用いるテーブル |
JP4041591A Expired - Lifetime JP2568343B2 (ja) | 1983-08-16 | 1992-02-27 | テキスト情報圧縮システム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59170985A Expired - Lifetime JP2581661B2 (ja) | 1983-08-16 | 1984-08-16 | テキスト情報通信システム |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4041600A Expired - Lifetime JP2575259B2 (ja) | 1983-08-16 | 1992-02-27 | テキスト情報の圧縮及び復元に用いるテーブル |
JP4041591A Expired - Lifetime JP2568343B2 (ja) | 1983-08-16 | 1992-02-27 | テキスト情報圧縮システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US4672679A (ja) |
EP (1) | EP0134543B1 (ja) |
JP (4) | JP2581661B2 (ja) |
AU (1) | AU574702B2 (ja) |
CA (1) | CA1209274A (ja) |
DE (1) | DE3482065D1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59205874A (ja) * | 1983-05-10 | 1984-11-21 | Canon Inc | 画像デ−タ圧縮装置 |
FR2551236B1 (fr) * | 1983-08-30 | 1990-07-06 | Canon Kk | Systeme de traitement d'image |
JPS60254871A (ja) * | 1984-05-31 | 1985-12-16 | Kokusai Denshin Denwa Co Ltd <Kdd> | フアクシミリ画像の符号化方法 |
GB8618093D0 (en) * | 1986-07-24 | 1986-09-03 | Serif Software Ltd | Data compression |
US5590317A (en) * | 1992-05-27 | 1996-12-31 | Hitachi, Ltd. | Document information compression and retrieval system and document information registration and retrieval method |
JPH0764214A (ja) * | 1993-08-31 | 1995-03-10 | Fuji Photo Film Co Ltd | 写真焼付情報印字装置及び写真プリンタ |
US6460036B1 (en) | 1994-11-29 | 2002-10-01 | Pinpoint Incorporated | System and method for providing customized electronic newspapers and target advertisements |
US5758257A (en) | 1994-11-29 | 1998-05-26 | Herz; Frederick | System and method for scheduling broadcast of and access to video programs and other data using customer profiles |
JP3238854B2 (ja) * | 1995-02-21 | 2001-12-17 | 富士通株式会社 | データ圧縮方法及びデータ圧縮装置、並びにデータ復元方法及びデータ復元装置 |
US5951623A (en) * | 1996-08-06 | 1999-09-14 | Reynar; Jeffrey C. | Lempel- Ziv data compression technique utilizing a dictionary pre-filled with frequent letter combinations, words and/or phrases |
US5999949A (en) * | 1997-03-14 | 1999-12-07 | Crandall; Gary E. | Text file compression system utilizing word terminators |
US7630986B1 (en) | 1999-10-27 | 2009-12-08 | Pinpoint, Incorporated | Secure data interchange |
US8705810B2 (en) * | 2007-12-28 | 2014-04-22 | Intel Corporation | Detecting and indexing characters of videos by NCuts and page ranking |
US8484170B2 (en) * | 2011-09-19 | 2013-07-09 | International Business Machines Corporation | Scalable deduplication system with small blocks |
JP6645013B2 (ja) * | 2015-01-30 | 2020-02-12 | 富士通株式会社 | 符号化プログラム、符号化方法、符号化装置および伸長方法 |
US10838922B2 (en) | 2017-03-31 | 2020-11-17 | International Business Machines Corporation | Data compression by using cognitive created dictionaries |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR1543777A (fr) * | 1966-12-23 | 1900-01-01 | Ibm | Identification des caractères par utilisation du contexte |
US3717851A (en) * | 1971-03-03 | 1973-02-20 | Ibm | Processing of compacted data |
US4058795A (en) * | 1972-10-03 | 1977-11-15 | International Business Machines Corporation | Method and apparatus for context-aided recognition |
DE2748859C3 (de) * | 1977-10-31 | 1980-09-04 | Siemens Ag, 1000 Berlin Und 8000 Muenchen | Schaltungsanordnung zum Speichern eines Textes |
AU6700181A (en) * | 1979-12-12 | 1981-07-06 | Key Tronic Corp. | Document reader |
US4383307A (en) * | 1981-05-04 | 1983-05-10 | Software Concepts, Inc. | Spelling error detector apparatus and methods |
DE3278850D1 (en) * | 1981-11-09 | 1988-09-01 | Ibm | Data translation apparatus translating between raw and compression encoded data forms |
US4597057A (en) * | 1981-12-31 | 1986-06-24 | System Development Corporation | System for compressed storage of 8-bit ASCII bytes using coded strings of 4 bit nibbles |
-
1983
- 1983-08-16 US US06/523,739 patent/US4672679A/en not_active Expired - Lifetime
-
1984
- 1984-08-03 EP EP84109259A patent/EP0134543B1/en not_active Expired - Lifetime
- 1984-08-03 DE DE8484109259T patent/DE3482065D1/de not_active Expired - Fee Related
- 1984-08-09 AU AU31743/84A patent/AU574702B2/en not_active Ceased
- 1984-08-15 CA CA000461046A patent/CA1209274A/en not_active Expired
- 1984-08-16 JP JP59170985A patent/JP2581661B2/ja not_active Expired - Lifetime
-
1992
- 1992-02-27 JP JP4041592A patent/JP2568344B2/ja not_active Expired - Lifetime
- 1992-02-27 JP JP4041600A patent/JP2575259B2/ja not_active Expired - Lifetime
- 1992-02-27 JP JP4041591A patent/JP2568343B2/ja not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
情報処理Vol.24No.4(1983年)P.511 |
Also Published As
Publication number | Publication date |
---|---|
EP0134543A2 (en) | 1985-03-20 |
AU574702B2 (en) | 1988-07-14 |
AU3174384A (en) | 1985-02-21 |
JPS60101669A (ja) | 1985-06-05 |
EP0134543B1 (en) | 1990-04-25 |
JPH05197720A (ja) | 1993-08-06 |
DE3482065D1 (de) | 1990-05-31 |
US4672679A (en) | 1987-06-09 |
JP2581661B2 (ja) | 1997-02-12 |
CA1209274A (en) | 1986-08-05 |
EP0134543A3 (en) | 1985-10-30 |
JPH05197721A (ja) | 1993-08-06 |
JPH05197760A (ja) | 1993-08-06 |
JP2575259B2 (ja) | 1997-01-22 |
JP2568343B2 (ja) | 1997-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2568344B2 (ja) | テキスト情報再生システム | |
US4290105A (en) | Method and apparatus for testing membership in a set through hash coding with allowable errors | |
US4650349A (en) | Speed typing apparatus and method | |
JPH024916B2 (ja) | ||
US4176974A (en) | Interactive video display and editing of text in the Arabic script | |
EP0052725A1 (en) | Method of reducing the print element changes in a text processing system | |
US3925761A (en) | Binary reference matrix for a character recognition machine | |
US5940845A (en) | System for accessing databases with different character sets | |
US4988997A (en) | Method for character code generation | |
Bryant et al. | Microcomputer assisted identification of Bacillus species | |
JP2524468B2 (ja) | テ―ブルデ―タを処理するシステムと方法 | |
US6829386B2 (en) | Methods and apparatus for associating character codes with optimized character codes | |
Leece et al. | Use and Misuse of SPSS | |
JPS63202476A (ja) | 文書出力装置 | |
JPH0223871B2 (ja) | ||
JP2744250B2 (ja) | 文字処理装置及び方法 | |
Robinson et al. | A cathode-ray-tube plotting system for the Control Data 3600 Computer | |
Schervish | SYSTAT | |
CN115797028A (zh) | 银行与企业的交互方法、装置、设备及存储介质 | |
Keith | Circle digits a self-referential story | |
JP2622121B2 (ja) | 文字処理装置および方法 | |
JPH02287739A (ja) | メモリアクセス方法 | |
Skolnik et al. | Input/Output Considerations for Large Data Bases | |
Ciftcioglu | A basic overlay for CAMAC data and command handling | |
Moik | Small Interactive Image Processing System (SMIPS) users manual |