JPS60101669A - 文脈冗長度テキスト圧縮 - Google Patents

文脈冗長度テキスト圧縮

Info

Publication number
JPS60101669A
JPS60101669A JP59170985A JP17098584A JPS60101669A JP S60101669 A JPS60101669 A JP S60101669A JP 59170985 A JP59170985 A JP 59170985A JP 17098584 A JP17098584 A JP 17098584A JP S60101669 A JPS60101669 A JP S60101669A
Authority
JP
Japan
Prior art keywords
text
context
characters
character
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59170985A
Other languages
English (en)
Other versions
JP2581661B2 (ja
Inventor
アーネスト・アルバート・フリーマン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wang Laboratories Inc
Original Assignee
Wang Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wang Laboratories Inc filed Critical Wang Laboratories Inc
Publication of JPS60101669A publication Critical patent/JPS60101669A/ja
Application granted granted Critical
Publication of JP2581661B2 publication Critical patent/JP2581661B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Memory System (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 発明の背景 発明の分野 本発明は、データ処理システム、ワードプロセッシング
システム及び通信システムに関し、より詳細には、テキ
スト情報を記憶又は伝送するために圧縮するだめの方法
及び装置に関する。このような関係においては、テキス
ト情報は、記号又は文字の定められた組、あるいはアル
ファベットから選択された記号又は文字の構造化された
順序で表わされる任意の文字として定義される。テキス
ト情報の一般的な例は、例えば、英語、ドイツ語又はフ
ランス語で書かれた手紙、レポート、及び原稿、業務記
録及び会計記録、科学的データ、並びに図形記号の配列
から成る図形表示などの薔類を含む。
先行技術 データ処理システム及び通信システムにおいては、限り
なく増える情報の量を記憶し、処理し、通信するという
問題が繰返し生じてくる。斯かるシステムの情報取扱い
要求は、ひかえ目に見ても急激に増加し、且つ使用でき
るメモリとデータリンクの容量が増えるよりも更に急激
に増えていく。
更に、特定システムに配設できるあるいは付加できる記
憶又は通信の能力には物理的又は経済的な制限が課され
ることが多い。その結果、よく多くの量の情報をシステ
ムに取扱わせるために、記憶又はデータリンク容量を増
やすという方法ではない他の方法が開発されてきた。斯
かる方法の1つは、データ圧縮と呼ばれる。これは、シ
ステムのユーザによってシステムに通信される情報が、
このシステムによってよりコンパクトなあるいは縮小し
た形に変換され記憶又は伝送に供されるという方法であ
る。この情報は、その小さくなった形から変換、すなわ
ち再生されて元の形に戻り、ユーザに通信される。
システムとこのシステムのユーザ間で通(iされる情報
の形としての言語は、かなりの度合の冗長度を含んでい
るのが一般的である。すなわち、情報が表限される形と
しての言語は、実際の情報全完全に且つ正確に表現する
のに要するよりも多く)情報を含んでいる。ワード8プ
ロセツシングにおける一般的な例としては、情報、すな
わちテキストが、ユーザとシステム間で、ピリオド、コ
ンマ、スイース、タノ及行帰線等の句読点及び書式文字
を含む英文言語の形として通信されるものが挙げられる
。テキスト圧縮は斯かる冗長のために可能であり、基本
的には、テキストのユーザ言語の形から冗長な情報を削
除することにより、ユーザ言語テキス)tよりコンパク
トな形に変換する。
従来のテキスト圧縮方法は、分配的冗長度、すなわち、
特定の文字、文字の組合せ、及び科定のユーザ言語にお
けるワー1’の使用もしくは発生頻度における非直線性
に基づいていた。例えば、英語の言語の場合、文字「e
」及び[ス破−スJは、「y」又は「z」よシも頻繁に
発生し、特定の文字の対、又は合手、例えば、「thJ
及び「e8」、並びに特定のワード、例えば、[the
J、 rQf J、及び「and」 は頻繁に発生する
従来の技術は、可変長のコート゛ワード、又は文字を指
定し、特定の言語において頻繁に現われる文字、文字の
組合せ及びワードヲ表わすことにより圧縮を達成するの
にこの分配的冗長度を用いていた。すなわち、最も頻繁
に現われる文字、文字の組合せ及びワードは、割当7ら
れた短かいコード文字である。共通性の少ない文字の組
合せ及びワードは、゛発生頻度に応じて、割当てられた
長いコード文字となり、あるいはより頻繁に発生する文
字、文字の組合せ及びワードのシーケンスとして「完全
線シ」にされる。
データ処理システム、ワードゝプロセッシングシステム
及び通信システムにおけるテキストの実際の圧縮及び再
生は、頻繁に発生する文字、文字の組合せ及びワードを
対応する割当てられたコード文字に関係づける「ルック
アップテーブル」を用いて実施されるのが一般的である
。圧縮テーブル及び再生テーブルは、実際の圧縮動作再
生動作から別々に発生され、これらのテーブルは、一般
的に、ユーザ言語における非常に大量のテキストの十分
に詳細な言語学的分析を必要とする。ここで銘記すべき
ことは、ある特定の言語におけるあシ得るワード及び文
字の各々に対してコード文字を割当てることは可能では
あるが、その結果化じるコートゝ文字及びテーブルは、
テキスト圧縮によって節約されるであろうメモリスペー
スよりも多くのメモリスば一スを必要とする大きなもの
になることである。
テキスト圧縮の分配的冗長度方法は、オリジナルテキス
トが形成されている形としての個々の言語の言語学的特
徴に依存するところが犬である。
特に、より大きな言語ユニット、例えば、文字の組合せ
及びワードに関して依存するところが大である。例えば
、英語、トゝイツ語、フランス語、ロシア語、イタリア
語及スカンジナビア語は全て、はつきシと異なった言語
学的特徴を有しており、異なった分析方法を必要として
おり、従って、非常に異なった圧縮テーブル及び再生テ
ーブルができる。従って、従来の圧縮技術は、圧縮テー
ブル再生テーブルを発生するために、独立のユーザ言語
の各々における非常に大量のテキストの詳細な言語学的
分析を必要としたのである。
分配的冗長度方法の言語学的依存性、特に大きな言語学
的ユニットに関しての依存性の故に、広い範囲の言語に
わたって分配的冗長度を分析するための完全に一般的な
目的方法を開発することは困難である。更に、且つ同じ
理由でもって、ある特定の言語に対する圧縮テーブル再
生テーブルは、動作の対象となるテキストの特定の「通
用語」に依存することがある。例えば、業務テキスト、
科学テキスト及び文献テキストに対する言語学的特徴は
十分に異なるため、それぞれの用途に対する独立したテ
ーブルを必要とする。
更に、斯かる方法は、異なった寸法の言語的ユニット及
びコードワードゝを使用しているため、圧縮/再生は比
較的精巧なプログラムを必要とし、複数な分解能力と処
理能力及び時間並びにプログラムメモリスイースが相応
して増加する。同じ理由により、圧縮動作及び再生動作
は対称的とはなシ得ない。すなわち、別々のテーブルを
必要とし、且つ異なるルーチンの実施を必要とするため
、これも処理及びメモリの要求が増加する。最後に、同
じ理由で、斯かる方法は、テキストが一連の小さな「バ
ッチ」動作として処理されなければならない時の、すな
わちこれらのバッチ処理される大きさが言語的ユニット
及びコードワードによって決定される時の、連続的なイ
ンラインテキスト処理又は通信には好ましくない。
発明の目的 本発明の目的は、テキスト圧縮の改良された方法及び装
置を提供することにある。
本発明の別の目的は、広い範囲の言語の使用に好適な一
般的テキスト圧縮方法及び装置を提供することにある。
本発明の別の目的は、言語の言語学的特徴に比較的依存
しないテキスト圧縮方法及び装置を提供することにある
本発明の別の目的は、特定の言語内の広い範囲の種類の
テキストの使用に好適なテキスト圧縮方法及び装置を提
供することにある。
本発明の別の目的は、圧縮及び再生において対称的なテ
キスト圧縮方法及び装置を提供することにある。
本発明の別の目的は、圧縮及び再生の速度が改良された
テキスト圧縮方法及び装置を提供することにある。
発明の要約 本発明に係るテキスト圧縮方法及び装置は、文脈冗長度
、すなわち、個々の文字がテキストの中に存在している
文脈の非均−的分布、あるいは、同義的には、与えられ
たセットの文脈における文字の発生の非均−的分布に基
づいて動作する。本明細書に定義される文脈は、1つの
テキスト自体成する個々の文字に先行又は後続する均一
に寸法化された群の文字を含んでいる。
本明細書に記載される方法及び装置は、抽象的なグルー
プ分は及びテキスト文字間の相関関係でもって動作する
のであり、言語学的分析のいかなる形にもあるいは言語
学的特徴のいかなる形にも、更にいかなる言語の要素に
も基づくものではない。
従って、本方法及び装置は、一般的であり、いかなる言
語にも、あるいはある言語のいかなる「通用語」にも等
しく適用できる。
本方法及び装置は、均一に寸法化されたテキストの群及
びコード文字の群でもって動作し、従って複雑性が小さ
くなり且つ他の方法よりも必要とする処理時間及び能力
が小さくなり、従って高速で実施される。本方法は、実
施が対称的であり、唯一つの合成された圧縮再生テーブ
ルを必要とし、オンライン連続プロセスに好適である。
コードとテキスト文字間の相関関係を定める情報の一部
は文脈、すなわち、テキスト自体に、その圧縮された形
と及び圧縮されていない形の両方でもって存在している
。これにより、圧縮されたテキストを一義的に表わすだ
め、必要とする独特なコード文字は少なくて済み、従っ
てコード文字は短かくて済む。結果として生じる圧縮さ
れたテキストは、これにより、より少ないビットの情報
で表わすことができる。
好ましい実施例の説明 次の記述により、データ処理ワードプロセッシング及び
通信動作を実施し且つ本発明を組込む能力を有するコン
ピュータシステムのバー トゝウェア及びソフトウェア
の一般的な構造及び動作原理を先ず簡単に説明する。斯
かるシステムの構造及び動作原理は、当業者にとっては
、本明細書に説明されているように、良く理解されるで
あろう。更に、斯かるシステムの構造及び動作原理の詳
細については、本明細書にも引例として挙げられている
米国特許出願第440,668号に与えられている。一
応の脈絡、すなわち、本発明に係る方法を実行するだめ
の装置を説明したので、本発明に係る文脈冗長度テキス
ト圧縮方法を次に詳細に説明することにする。
コンピュータシステムの構造及び動作原理第1図につい
て説明する。この図には、本発明ニ従つコンピュータシ
ステムの斜視図が示されている。システム10は、表示
装置12、キーボードI4及び中央処理装置(CPU)
 l 6 ’t”含んでいる。空示装置12及びキーボ
ード14は、情報、例えば、テキストが本システムとユ
ーザとの間テ通信される時に用いられる主な手段である
。図示されないケーブルで表示装置12及びキーボード
814に接続されているCPU L 6は、プログラム
及びデータを記憶するだめのメモリ及び多目的演算装置
(ALU)を含んでいる。CPU l 6は、更に、プ
ログラム及びデータを記憶するだめのディスクドライノ
並びに周辺デバイス、例えばプリンタ、ディスクドライ
ノ及び通信デバイスに至るイLaboratories
、 ■nc5R14市販の[プロフェッショナルコンピ
ュータ」から成り得る。
第2A図及び第2B図について説明する。この図には、
システムlOのブロック図が示されている。システムl
OのCPU l 6中のALUは、メインプロセッサ(
以下メインPと称す)■8及びコプロセッサ(以下co
−pと称す)20から成る。メインP i 8及びGo
−P2Oは、例えは、それぞれ、16ビツトエn、te
l 8086 ALU及びIntel B □ B 7
 数値プロセッサ杭長部であり得る。メインP18及び
Co−P2Oは、CPUl6に対する全ての演算操作、
すなわちアドレス指定、メモリ参照、及び入力/出力(
Ilo)動作の制御を含む動作を実施する。
メインpis及びCo−P20Fi、局所的バス22と
連通し且つアドレスバス24、データバス26及び制御
バス28を通してCPU16の残り、表示装置■2、キ
ーボードS14及び全ての周辺デバイスと連通している
。メインP■8とC0−P2O並びにバス24.26及
び28間のインターフェースは、アドレスランチ30、
データトラン/−バ’32及びバス制御34全通して行
なわれる。
内部制御論理 次に、CPUt6の内部制御論理について説明する。メ
インPI8及びCo−P2Oに関連しているのは、シス
テムブロック36と待ち状態ロジック38である。シス
テムクロック36は、 CPU16に対する全てのクロ
ックタイミング信号のソースである。待ち状態ロジック
38は、基本的に、CPU l 5の動作を監視し、且
つCPU16の動作におけるコンフリクトヲ防止するた
めに、制御バス28を通してシステムクロック36と及
びCPU16の他のエレメントに制御信号を発生する。
CPUr6の他の制御エレメントは、カウンタ及びタイ
マチップ(CTC)4 Q及びプログラマノル割込みチ
ップ(PIC)42を含む。CTC4。
は、例えば、Intel 8253であり、且つPIC
はIntel 8255Aであり得る。直ぐに処理され
なければならない、すなわち、後の処置に対してはマス
クすることができない割込み状態を処理するだめに、マ
スク不能割込みロジック44がPIC42と関連して動
作する。斯かる割込み状態は、パリティ及びIlo エ
ラーを含んでいる。
cpu l 6は、マツプされたメモリ参照と及び以下
に示す、且つ例えば、7ステムlOの周辺デバイスであ
るCPU16のメモリ間の直接メモリアクセス(DMA
)動作の両方を実施する能力を有する。DMA動作は、
DMAバス獲得ロジック46及びDMA制御(DMA)
48によって制御される。DMA獲得論理46は、特に
メモリ及びバス動作において、システムIOの動作を監
視し、DMA動作が実施される時にDMA許可信号を制
御バス28に発生する。DMA48は、例えば、周辺デ
バイスからのDMA動作要求を検出し、斯かる要求の存
在をDMAバス獲得46に通知し、DMAバス獲得論理
46がCPU l 6の、シスに対するアクセスを許可
した時にDMA動作を制御する。
メモリ CPU 16の主内部メモリは、128KBランダムア
クセスメモリ(RAM)50であり、これは、動作シス
テムと及び動作の対象となる応用プログラム及びデータ
、例えばテキストを記憶するのに用いられる。動作シス
テムプログラムは、例えば、マイクロソフト社(Mic
ro 5oft Corporation)市販のマイ
クロソフトディスク動作システム(登録商標MSDO8
) から成り、且つ(−シック入力及び出力システム(
BIO8)i含み得る。
MSDO8は基本的には、システム10のエクセキュチ
ブ内部動作を制御するのに対し、BIO8は、システム
IO1表示装置12とキーボードゝ14並びに広範囲の
周辺デバイス間のインターフェースを制御するプログラ
ムを含む。
必要に応じて、128KBRAM50 の容量は、51
2KBRAM52 を付加することにより増大すること
ができる。5 t 2KBRAM52 は、アビレスバ
ス24、データバス26及び制御ハス28から128K
BRAM50 に並列に接続されており、128KBR
AM50 と平行に且つその一部として効果的に動作す
る。
消去可能プログラマブル読義し専用メモリ(EPROM
)54は、上に述べられた動作システム及び応用プログ
ラムをディスクドライブ56のディスケットからRAM
50及びs t 2 KBRAM52にロードするのに
用いられるプログラムを記憶し且つ供給する。
第2図に示すように、ディスクドライノ56は、アドレ
スバス24、データバス26及び制御ハス28から接続
され、フロッピ制御器58によって制御される。動1作
システム及び応用プログラムを記憶し且つ供給すること
に加えて、ディスクドライブ56は、128KBRAM
50 及び512KBRAM52 を増大する付加的な
メ% I7容量として用いられ且つデータ、例えば、動
作の対象となっているテキストを記憶し且つロードする
のに用いられる。この点に関して述べると、ディスクビ
ライブ56は、例えば、テキスト又はデータを1つのシ
ステムからディスケットの別のシステムに転送するIl
o デバイスとして用いられる。
ディスクドライブ56の容量は、ディスクドライブ56
及びRAM5Q及び52と平行にアドレスバス28、ア
ト8レスバス30及び制御バス32から接続されるウィ
ンチェスタハードディスクドライブ6 とによシ増大される。ハートゝディスクドライブ56は
、動作の対象となるプログラム及びデータを記憶するだ
めのRAM50及び52に至る延長として用いられる。
I10デバイス 前に述べたように、表示装置12及びキーボード[4は
、システム10とユーザ間の通信のだめの主110手段
である。表示装置12は、モニタ制御器13を通してア
ト8レスバス28、データバス30及び制御バス32に
接続される従来のCRT表示装置である。モニタ制御器
13は、例えば、日本電気のUPD7220型グラフィ
ッタグラフイックデータ制御装置キーボード’14は、
キーボードゝ動作と及びキーボード’14とシステムバ
ス28、30及び32間のユニ・ミーサル非同期レシー
バ/トランスミッタ(UART)1.5 を通してのデ
ータ/制御通信を制御するための内部マイクロプロセッ
サ、例えば、ザイログ社(ZLtO.!7)Z80を有
する従来のキーボードである。
他のI10デバイスはプリンタ64及び66を含む。プ
リンタ64は、例えば、従来のデージホイール型プリン
タあるいはドツトマトリックス型プリンタでよい。プリ
ンタ66は、例えは、ロービアイランビ州のイーストグ
リ−ニッチのガルトン工業社(Gu.lton Ind
astr’ies, Inc,)市販のマイクロプロッ
ト(Mi croρlot)f3Qのようなグラフィッ
ク印刷用サーモグラフィックプリンタでよい。
更に、システム10と他のシステム、又はデバイス間の
通信は、通信制御装置(TC)68を通して行なわれる
。TC68は、システムバス28、30及び32と通信
変復調装置又は外部デバイス、例えば、メモリや表示装
置間の通信用の、例えばザイログ社(Zilog Co
rporation) のZ80型マイクロプロセッサ
及びシリアルI10チップを組込んでいるマイクロプロ
セッサ制御インターフェースデバイスである。
ここで銘記すべきことは、上記のシステム10は、例示
的であり、且つ以下に更に述べるテキスト圧縮方法は、
例えば、広範囲にわたるシステムアーキテクチャについ
て実施されることである。
この方法は、例えば、ザイログ社(Zilog) のZ
80、モトローラ社(lJotoγolα)のM068
000、インテル(Intel) の8080、808
6又は80186、又はす7ヨナルセミコンダクタ社(
NOLt乙OrLαl SemicoBd.actoγ
) のNS16000マイクロプロセツサに基づくプロ
セッサ、又はミニコyeユータ又はメインフレームコン
ピュータに基づくプロセッサ、又は′ワードプロセッサ
又は通信プロセッサに基づくゾロセッサについて実施さ
れる。
上記のようにシステム10のハードウェアの構造及び動
作原理について説明しただめ、システム■0のソフトウ
ェア構造及び動作原理について述べ不ことにする。
ソフトウェア構造及び動作原理 第3図について説明する。この図には、システム100
ンフトウエア構造の線図が示されている。
ここに示すように、システムのソフトウェア構造は、シ
ステムハートゝウェアによってユーザの処置を特定の詳
細な動作に変換するだめの多層構造である。このソフト
ウェア構造は、上層におけるユーザにインターフェース
し且つ下層におけるシステムハートゝウェアエレメント
にインターフェースするだめのエレメントを含む。中間
層は基本的には、ユーザ命令及び要求をノ・−ドウエア
の動作を指示すΣだめの命令に変換する。
ユーザインターフェースレベルから始まって、ルーチン
70.72.74及び76はシステムの応用プログラム
を含み且つシステムによって実行される特定の応用動作
、例えば、テキスト又はグラフィック編集あるいはデー
タ処理を決定し且つ命令する。
ユーザインターフェースルーチン70 U、fLtば、
表示装置12、キーボード■4及びシステムディスク及
びプリンタによってユーザにインターフェースするため
の全てのルーチンを含む。ユーザインターフェースルー
チン70はユーザに向けて配向されているが、応用機能
インターフェース72ニハ、ニーサインターフエースル
ーチン70と及び実際の応用動作、例えばテキスト編集
を実行するソフトウェアによって実行されるユーザ処理
動作間をインターフェースする。基本的には、応用機能
インターフェースルーチン72id、ユーザインターフ
ェース動作の結果を、ユーザによって規定される応用動
作を指図するだめの命令及び指図に変換する。
応用ルーチン74及び76は、実際の応用プログラム、
すなわち、システムに例えは、テキスト又はグラフィッ
ク編集動作又はデータ処理動作を実行するように命令す
るプログラムである。応用ルーチン74及び76は、応
用機能インターフェースルーチン72から、ユーザによ
って要求されている動作に関する命令を受け、動作シス
テム78に要求されている動作を実施するために実行さ
れなければならないシステム動作についての指示を与え
る。
前に述べたように、動作システム78は、MSDO8か
ら成シ、システムのエグゼクチズ制御に必要な全てのル
ーチンを含んでいる。動作システム78は、前に説明し
たように、BIO8かう成ルハート8ウェアインフェー
スシステム8oとインターフェースする。基本的には、
動作システム78は、ユーザによって要求されている動
作を実施するシステムによって実行されなければならな
い詳細な動作を決定し、相当する命令をハードウェアイ
ンターフェースシステム80に供給スる。
バーウェアインターフェースシステム8’Oハ、システ
ム10のハードウェア構造を含む前に説明した種々のエ
レメントに詳細な命令を供給することによって応答を行
なう。
前に説明したように、テキスト圧縮によって、テキスト
情報をシステム、例えば、メモリ又はディスク上に記憶
せしめ、あるいはよりコンノクトな形でもってシステム
あるいはデバイス間に通信せしめる。例えば、上記のシ
ステムの場合、ユーザによってキーボード全通して入力
されるあるいはディスクからあるいは通信リンクを通し
てロート9されるテキストは、圧縮されてRAMにある
いはディスク上にすることができ、あるいは通信リンク
を通して送信できる。テキストは、次に、再生されて、
例えば、表示装置を通して、あるいはプリンタ」二にユ
ーザに対して表示することができる。基本的には、テキ
スト圧縮及び再生は、テキスHt%が、システムエレメ
ントとかなシの度合の冗長度を含む言語、例えば、英語
を用いているソース又は受容体との間で通信される時は
いつでも実行される。
従って、以下に説明するテキスト圧縮方法は、第3図の
応用ルーチン74.76レベルに相当する応用プロゲラ
ムレにルにおいて上記で述べられた斯かるシステムにお
いて実施される確率が最も強い。しかしながら、この方
法は、例えば表示装置及びキーボードに存在する処理能
力の程度に応じて、応用機能インターフェース72レベ
ルにおいても実行され得る。また、この方法は、実行が
システム動作の基本的特徴となる場合は、動作システム
78又はハートゝウェアインターフェースシステム80
レベルにおいて実行される。その実行に応じて、以下に
述べる圧縮再生テーブルはRAM又はROMの中に置か
れる。
以上のように、本発明に係る方法が実行される装置につ
いて述べてきたので、本発明に係る文脈冗長度テキスト
圧縮方法について以下に述べることにする。
前に述べたように、テキスト圧縮は、圧縮されるべきテ
キストの言語の中の情報冗長度の発生に依存する。上記
の従来の技術は、分配的冗長度、すなわち、オリジナル
テキストの言語の中の特定の文字、文字の組合せ及びワ
ードの発生頻度における非均一性に依っている。
本発明に係るテキスト圧縮方法は、文脈冗長度、すなわ
ち、他の文字と順次結合している特定の文字、すなわち
文脈の統計的に不均一の発生に基づいている。例えば、
文字r−Jは、文字「q」に続くことが最も多く、「S
」は、「e3」 に続くことが最も多く、且つ「ブラン
ク」すなわち「スは−ス」は文字「est」に続くこと
が最も多い。
この方法の場合、「文脈」は、特定の文字に先行し、あ
るいは特定の文字に続く、順次に行なわれる文字のシー
ケンスとして定義され、それぞれ、先行文脈又は後続文
脈と呼ばれる。文脈は、結合された文字の直ぐ隣りに位
置する必要はないが、次の例では、隣接した文脈が用い
られている。先行文脈及び後続文脈は、特定の言語の文
字が通常書かれているシーケンスに言及して定義される
例えば、英語の場合、先行文脈は特定の文字の左に現わ
れる文字であり、後続文脈はその文字の右に現われる文
字である。他の言語の場合、例えば、ヘブライ語あるい
は中国語の場合、先行文脈は特定の文字の左にあるいは
上に現われ、後続文脈は左又は下に現われる。これらの
例では、「q」はr5の左文脈であり、[e、Jは口1
の左文脈であり、「est Jは「ブランク」の左文脈
である。
本明細書に説明するテキスト圧縮方法は、先行文脈及び
後続文脈の両方に対して等しい容易さでもって実施され
るが、先行文脈は1オンライン」圧縮及び再生に最も好
適である。後続文脈圧縮及び再生は、「バッチ」処理、
すなわち、文字の順次的な並行群の記憶及び動作を必要
とする。しかしながら、後続文脈圧縮は、特定の状況す
なわち特定の言語にとっては好都合である。
テキストを圧縮し再生するのに用いられる文脈の「次数
」は、本明細書では、文脈中の文字の数として定義され
、この方法の特定の実施では一定であることが好ましく
なろう。上記の例の場合、UqJは、「v」の−次文脈
であシ、VesJはrsy」の二次文脈であり1.Ve
stJは「ブランク」の三次文脈である。上記の項目を
更に定義するために、ある特定の言語を、i=1〜払で
ある文字Xi、すなわち、Xl、X2・・・Xu 1 
+ XLL から成るアルファベットAで表わすことに
する。この言語が、通常、左から右に書かれていると仮
定すると、文字のシーケンスXnXn−1・” ” X
3X2XIX、がテキストに現われるとすると、文字の
シーケンスXrLXrL−1・・・X3X2X1 はX
、のル次の先行、すなわち左文脈となる。ここで銘記す
べきことは、いかなる文字Xt の文脈も1文字X、自
体を含まないことである。
本発明に係る方法は、いかなる次数の値ルに対しても実
行され、従ってル=1及びn=2の次数に対する例を下
に示す。しかしながら、次数の値は高い方が好ましい。
与えられたへ及び与えられた次数ルに対して、全ての可
能な独特なル次先行文脈の組は、PCrL(Xi)とし
て指定され、U 部員までを含むことができ在するから
である。与えられた言語に対する全ての可能な独特なn
次先行文脈の組はPCn と指定され、−+1部員まで
を含むことができる。何故ならば、X9 はV個の独4
(字の任意でありうるからである。
本発明に係るテキスト圧縮方法は、圧縮及び再生に対す
る「ルックアップ」テーブルの使用を必要とする。上記
から、斯かるテーブルは非常に大きいであろうと見られ
るが、実際は、これらのテーブルは許容できる大きさと
なっている。以下に更に述べられるように、本発明の方
法及びこの方法を実施するテーブルの構造は、そのテキ
スト言語の言語学的特徴には依存しない。しかしながら
、言語学的特徴は、これらのテーブルの大きさに影響す
る。何となれば、特定の文脈が奇であり特定の言語には
現われず従って実際はこれらのテーブルの大きさを制限
しているからである。例えは、VwcJ は英文におい
てはUs」の先行する文脈として現われるのはまれであ
シ、従って英文言語圧縮テーブルには現われず、しかし
、例えば、ボーラント9語テーブルには、現われる。し
かしながら、この圧縮方法と、これらのテーブルを発生
する時に用いる手段は英語の場合もボーランド語の場合
も同一である。
本発明に係る圧縮再生テーブルは、発見的にすなわち言
語学的分析法によって発生される。しかしながら、より
好ましい方法の場合、これらのテーブルは、テキストの
好ましい本体、例えば、辞書、シソーラス、原稿あるい
は文書の文脈分析によって発生される。
チーノル発生の好ましい方法は、言語学的分析ではなく
機械的である。先ず、文脈ルの与えられた次数に対して
、テキストのサンプル本体が、通常書込まれている方向
に従ってシーケンスに文字毎に走査され、発生している
各先行文脈pcn、(x、’)の各発生が表作成される
。この分析は、各X、に対する各PCn (xi ) 
の発生の頻度のテーブルを与え、基本的には、文脈冗長
度をアルファベント中の各文字に対するテキストの対応
する分配的冗長度にマツプする。このプロセスは、それ
らのセルに対するインデックスとしてX、及びpcn(
Xi )を用いている表記列を発生し、このサンプルテ
キストの文字X、が走査されるように、これらのセル内
容を適当に増分することによって簡単に達成される。
上記のテーブルを発生すると、最終テーブルが、特定の
文脈に現われる各Xi f、各PCn(X、 ) に対
して分類することによって発生される。すなわち、この
最終テーブルは、各特定の文脈に対して、その文脈に現
われる全ての文字を含んでいる。これらの文字は、各文
脈に対して、発生の頻度の順に従って分類されるのが一
般的である。ここで銘記すべきことは、この最終テーブ
ルが、連続文脈を走査し、一度に1つづつ文字をシフト
し、発生している文脈と及び各斯かる文脈に現われる文
字を表作成することにより、第1テーブルからの派生と
してではなく、直接、発生されることである。
従って、この最終テーブルは、各文脈に対して1つの「
相対的アルファベット」を定義することができ、ある特
定の文脈に対する相対的なアルファベットは、発生の頻
度の順に従ってその文脈に発生する全ての文字から成る
。以下に更に述べるように、この最終テーブルは、全て
の可能な非圧縮テキスト文字と圧縮テキストコーピ文字
間の相関関係を定めており、従ってテキストの圧縮と再
生の両方に対して用いられる。
第1表について説明する。この表には、次数n−2の先
行文脈に対する最終圧縮/再生テーブルの説明的な例が
示されている。第1表を発生するのに用いられるテキス
トのサンプル本体は、一般的な事務所の通信文から成る
。第1表は単に説明的な目的に意図されているため、発
生する文脈の数個だけが示されており、従って各文脈に
対しては、8個の最も頻繁に発生するテキストの文字だ
けが示されている。
ne −y r l/J d x t eor d e
 k t m 、5’ wthoeiawγ乙L sy tag、 、L 異なった2つの文字文脈が第1表の左の垂直インデック
スとしてリストされており、各文脈に現われるテキスト
文字が対応する文脈の右の列にリストされている。例え
ば、テキスト文字、すなわち文脈r Ieo Jに対し
て発生する相対的アルファベットは、発生の頻度の順で
表わすと、「ル」、「rn」、「ρ」、rJ、「υ」、
「r」、r、rJ及びrdJである。ここで銘記すべき
ことは、テキスト文字「−」は、1つのスは−ス、すな
ワチブランクを表わすのに用いられ、r%MJは「行の
終り」文字を表わし、「n、ut」はゼロ頻度計数ヲ有
するエントリを表わすことである。
第1表の上部に水平インデックスとして現われているラ
ンク数字は、各文脈に対して、相対的アルファベットの
それぞれのアルファベットの種々のテキスト文字を表わ
すのに用いられる図形、あるいはコート8文字を含んで
いる。従って、文脈−rcoJ のテキスト文字「m」
に対するコード文字は「2」である。
圧縮/再生チーノルlを検査すると、例えば、コード文
字「2」も、文脈rgC」、「te」、「S仙及び「O
γ」 においてテキス;・文字rdJを表わし、文脈U
 to l及びrioJ においてテキスト文テキスト
文字ryJを表わし、文脈「re」、「ne」及び「t
o」においてテキスト文字「dJを表わしている。別の
例の場合、コード「11」は、先行の文脈がVieJ 
である場合、rssJを表わし、先行の文脈「0−」で
ある場合は、「lAJ を表わす。
」二記のことから以下のことが明らかである。すなわち
、同一のコード文字が異なるテキスト文字を表わすこと
であり、且つ与えられたテキスト文字が異なったコード
文字によって表わされることである。すなわち、コード
文字と、それ自体のテキスト文字との間には、独特の1
対lの相関関係が存在しないことである。あるコード文
字とあるテキスト文字間の相関関係は、そのコードとテ
キスト文字が現われる特定の文脈に依存する。
このことは、以下の例で更に説明される文脈冗長度圧縮
の特徴を示している。すなわち、一つのコード文字は、
ある特定のテキスト文字を独自に定義するのに必要な情
報の全ての量をそれ自身に含む必要がないことである。
コード文字とテキスト文字間の相関関係を定義する情報
の一部分は、そのテキスト自身、すなわち、その文脈の
中に置かれている。このため、圧縮されたテキストを一
義的に表わすのに必要な独特なコード文字は少なくて済
み、従って、コード文字は短かくて済む。
従って、その結果生ずる圧縮されたテキストは、より少
ないビットの情報で表わすことができる。
従って、テキスト自体は、テキスト情報に加えて。
圧縮された形と圧縮されない形との間にゎたっで変換す
るのに必要な情報の一部を、圧縮された形と且つ圧縮さ
れない形の両方でもって含む。
テキスト文字とコード文字間の文脈依存相関関係の故に
、先行文脈、例えば、r nvlsJ あるいは「ブラ
ンク」がテキストの最初のル個の文字に対して仮定され
るか、あるいは課せられる。この「ヘーツダ文脈」は、
テキストの最初の文字あるいは諸文字を圧縮又は再生す
るだめの既知の文脈を与えており、後続する文字はテキ
スト自体の文脈に圧縮されるかあるいは再生される。
テキストの圧縮及び再生用の本発明に係る方法及びテー
ブルの使用を説明するために、句[totalsalt
Jがテキストの中に現われており且つ「totat」の
最初の「t」の先行文脈が、例えば、(tA) e−の
中の[e−Jであると仮定する。この句の圧縮及びそお
後に続く再生は、以下に示す表2及び表3で説明されて
いる。表2は、圧縮プロセスを示しており表3は再生プ
ロセスを表わしている。
t 2 t to 7 a ot3 1 ta 5 − al 1 1 3 a s 8 1 sa 2 t al 7 このサンプルテキストを圧縮するために、各テキスト文
字及びその結合文脈が順繰りに読出され、好ましい実施
例においては、このテキストが通常書込まれた順次に従
って読出される。この例の場合、読出しは左から右に行
なわれる。この例は1つの2次文脈を用いているため、
すなわち、ル=2の文脈を用いているため、各文字に対
する文脈は、この文字の直前に先行する2つの文字から
成る。このように、ある特定の文字の2文字先行文脈を
決定すると、次にこの文脈は、この圧縮/再生テーブル
へのインデックスとして用いられ、これによりこの文脈
に対する相対的アルファはットをつきとめる。この文脈
と結合して読出される文字は、次に相対的アルファにッ
トの中に置かれ、相当するコード文字が、この表の上部
におけるランクインデックスに置かれる。このプロセス
は、この圧縮動作が完了するまで一度に一文字づつ継続
する。
例えば、rtotalJ 中の最初の「t」の先行文脈
は、「e−」である。「e−」は、このテーブルに対す
るインデックスとして用いられ、これにょシテーブルの
上部から第2の相対的アルファイツトとして現われる対
応する相対的アルファベットをつきとめる。次のこの相
対的アルファベットは。
走査されて、これによりテキスト文字「t」、−すなわ
ち左から2番目のエントリを突きとめ、相当するコード
文字がこのテーブルの上部から「2」として読出される
。次のテキスト文字は、rtotalJの「0」であり
、roJの文脈は「−t」であり、これは、「0」に対
するコード文字も「2」となるようにするためである。
3番目のテキスト文字は、rtotal」 の2番目の
「t」であり、この「t」の先行文脈は rtoJであ
り、そのコード文字は「7」であると決定される。
このプロセスはテキストの終りまで継続し、rtota
l 5alt」 の圧縮された形は[22735138
27」であることが分る。
同一の圧縮/再生テーブルを用いて、逆の動作が実行さ
れ、これにより圧縮されたテキストを再生する。この場
合、読出されるべき「テキス)Jは圧縮されたテキスト
であり、一度に1つづつ且つ書込まれた順次に従って読
出される「文字」は、その圧縮されたテキストのコード
文字となる。各コード文字の先行文脈は、復帰されたテ
キストの先行復号化文字から成シ、このテキストが再生
された時に決定される。このように決定された文脈は、
再びこのテーブルに対するインデックスとして用いられ
、これにより適当な相対的アルファベットを選択し、こ
のコード文字は、選択された相対的アルファベット内の
適当なテキスト文字を決定するためにインデックスとし
て用いられる。圧縮動作に用いられる既知の「ヘッダ文
脈」が再び、圧縮されたテキストの最初の文字あるいは
諸文字を再生するのに開始文脈として用いられる。
上記と同一の例を用いて、この再生動作を説明するため
に、再生されるべきテキストが、コート9文字シーケン
ス「2273513827」から成り。
且つ先行する再生テキストが再びre Jであると決定
されていることを仮定する。次に、この再生動作が下の
第3表に説明されている。
第3表 −2t t 2 to、 7 t ot 3 a ta 5 l αt 1 − t 3 s 8a sa 2t al 7 を 先行する圧縮テキストが、シーケンス r2273513827J の開始に再生されていると
仮定すると、このシーケンス中の最初の「2」の先行文
脈は、このテキストの前に再生された部分から「e−」
であると分る。re Jは、次にこのテーブルに対する
インデックスとして用いられ、これによシ、このシーケ
ンスの最初の「2」の相対的アルファベットをめ、この
文字に対しては。
この「e−」は、このテーブルの上部から2番目の相対
的アルファはットとなる。このシーケンスのこの最初の
「2」は次に、このテーブルに対するインデックスとし
て用いられ、これにより、この相対的アルファはットの
対応するテキスト文字が「t」であることを決定する。
従って、このシーケンス中の第2の「2」の先行技術は
、rjJ であることが知られ、このテーブルに対する
インデックスとして「−6」及び「2」を用いると、こ
の第2の「2」に対応するテキスト文字は、「0」とめ
られる。第3のコード文字は、「to」の現在知られて
いる先行文脈を有する「7」であり、そのテキスト文字
は、「t」であるとめることができ、以下同様となる。
更に別の実施においては、上記の圧縮/再生は、再帰的
に用いることができ、すなわち、圧縮されたテキストは
、上記と同一の方法を用いて、それ自身が圧縮されるこ
とができる。再帰的圧縮は、上記と同じ方法による圧縮
/再生テーブルの発生を必要とするが、圧縮されたテキ
スト資料の文脈冗長度をめ、且つ表作成するために、そ
れらのテキストの圧縮された形を用いる必要がある。従
って、テキストの圧縮は、2つのステッププロセスにな
る。すなわち、再生プロセスがそうであるように、オリ
ジナルテキストヲ圧縮する第1ステツプと圧縮されたテ
キストを圧縮する第2ステツプである。この2つのステ
ップ、すなわち、再帰的な圧縮/再生は、単一のステッ
ププロセスと同じようにして、1オンライン」に、すな
わち、連続的プロセスとして実施され得る。
テキスト圧縮の上記の方法の判定の特徴を反復するため
に、本発明に係る方法は、文脈冗長度、すなわち、個々
の文字が発生する文脈の非均−分布に基づいて動作する
。本明細書に定義されているような文脈は、テキスト圧
縮成する個々の文字に先行あるいは後続する均一寸法群
の文字を含んでいる。この方法に用いられる圧縮/再生
チーノルは、特定の言語の言語学的特徴に影響されるが
、この方法は、いかなる形の言語学的分析あるいは、い
かなる形の言語学的特徴あるいは、いかなる言語のエレ
メントにも基づかない。従って、この方法は、完全に一
般的であり、いかなる言語にもあるいは、ある言語の「
通用語」に対しても等しく適用可能である。
この方法は、均一寸法群のテキスト及びコード文字につ
いて動作するため、この方法は複雑性が少なく、他の方
法が必要とするよりも、必要とする処理時間及び能力が
少なくて済み、従って実施速度がより速くなる。同じ理
由でもって、この方法は実施において対称的であり、唯
一つの圧縮/再生テーブルを必要とするだけであり、オ
ンライン連続プロセスに対して好適である。
コード文字とテキスト文字間の相関関係を定めている情
報の一部は、文脈、すなわち、テキスト自体に、その圧
縮形及び非圧縮形でもって存在する。このために、圧縮
されたテキストヲー義的に表わすのに必要な独特のコー
ド文字は少なくて済み、従ってコード文字は短かくて済
む。従って、その結果生ずる圧縮されたテキストは、よ
り少ないビットの情報でもって表わすことができる。
【図面の簡単な説明】
第1図は、本発明を組込んでいるコンピュータシステム
の斜視図、第2A図第1図のコンピュータシステムの1
部のブロック図、第2B図は第1図のコンピュータ/ス
テムの他の部分のノロツク図、第3図は、第1図、第2
A図及び第2B図のコンピュータシステムのソフトウェ
ア構造の線図。 なお図面において、12・・・表示装置、14・・・キ
ーボニト’、+6・・・CPU% 18・・・メインプ
ロセッザ、20・・・コプロセッサ、36・・・システ
ムクロック、38・・・待ち状態ロジック、40・・カ
ウンタ及びタイマチップ、42・・・プログラマブル割
り込みチップ、44・・・非マスク可能割込みロジック
、48・・・DMA制御i5.50・・・128KBラ
ンダムアクセスメモ1ハ 54・・・1.28KB消去
可能プログラマブル読出し専用メモ1ハ 56・・・デ
ィスクドライブ、58・・・フロッピー制御器、60・
・・ディスクドライブ、62・・・ディスク制御器、6
6・・・ラスクプリンタ、67・・・プリンタ制御器、
68・・・TC制御詣、70・・・ユーザインターフェ
ース、72・・・応用機能インターフェース、74.7
6・・・応用ルーチン、78・・・動作システム、80
・・・ハードウェアインターフェースシステム。 (外5名) 芥2B図

Claims (1)

  1. 【特許請求の範囲】 (1)情報処理システムにおける、テキスト情報を圧縮
    するための方法において、 各文字およびテキストの結合された文脈を連続して読出
    す工程、 各前記テキスト文字及び結合された文脈に対して、対応
    するコード文字を選択する工程、及び 前記テキストを圧縮された形に構成するために前記コー
    ド文字を供給する工程 を含むことを特徴とする方法。 (2)情報処理システムにおける、文脈圧縮テキスト情
    報を再生するだめの方法において、圧縮テキストの各コ
    ード文字を連続して読出す工程、 各前記コード文字に対して、前記テキストの既知の再生
    部から結合された文脈を読出す工程各前記コード文字及
    び結合された文脈に対して、対応するテキスト文字を選
    択する工程、及び 前記テキストを再生された形に構成するために前記テキ
    スト文字を供給する工程、 を含むことを%徴とする方法。 (3)各前記文脈が、前記テキスト文字に結合する一群
    のテキスト文字を含むことを特徴とする特許請求の範囲
    第1項に記載の方法。 (4)各前記文脈が、固定された数の前記テキスト文字
    を含むことを特徴とする特許請求の範囲第3項に記載の
    方法。 (5)前記テキスト文字及びコード文字と前記文脈を関
    係づけるテーブルを発生する最初の工程を更に含み、 各前記テキスト文字及びテキストの代表的サンプルの結
    合された文脈を読出す工程、前記サンプル中に発生する
    各前記文脈に対して、上記各文脈と結合して発生する前
    記テキスト文字を含む相対的アルファベラトラ発生する
    工程、及び 対応するコード文字を各前記相対的アルファベットの各
    励記テキスト文字に結合する工程を含むことを特徴とす
    る特許請求の範囲第1項に記載の方法。 (6)前記コード文字の各々が、前記相対的アルファ〈
    ットに共有される1組のコード文字から選択されること
    を特徴とする特許請求の範囲第5項に記載の方法。 (7)情報処理システムにおける。テキスト情報を圧縮
    するだめの方法において、 各テキスト文字及びテキストの代表的サンプルの結合さ
    れた文脈を読出す工程、 上記サンプルテキスト中に発生する各前記文脈に対して
    、前記各文脈に結合して発生する前記テキスト文字を含
    む相対的アルファベラトラ発生する工程、及び 各上記相対的アルファベットの各局8ピテキスト文字に
    対応コード文字を結合する工程、各文字及びテキストの
    結合された文脈を連続して読出す工程、 各前記テキスト文字及び結合された文脈に対して、対応
    するコード文字を選択する工程、及び 前記テキストを圧縮された形で構成するために、上記コ
    ード文字を供給する工程、 を含むことを特徴とする方法。 (8)各前記文脈が、前記テキス]・文字と結合した一
    群のテキスト文字を含むことを特徴とする特許請求の範
    囲第2項に記載の方法。 (9)各前記文脈が、固定された数の前記テキスト文字
    を含むことを特徴とする特許請求の範囲第8項に記載の
    方法。 00)前記テキスト文字及びコード文字と前記文脈を関
    係づけるテーブルを発生する最初の工程を更に含み、 各前記テキスト文字及びテキスト−の代表的サンプルの
    結合された文脈全読出す工程、前記サンプル中に発生す
    る各前記文脈に対して、前記各文脈と結合して発生する
    前記テキスト文字を含む相対的アルファベットを発生す
    る工程、及び 対応するコード文字を各前記相対的アルファベットの各
    前記テキスト文字に結合する工程を含むことを特徴とす
    る特許請求の範囲第2項に記載の方法。 ■)前記コード文字の各々が、前記相対的アルファベッ
    トに共有される1組のコード文字から選択されることを
    特徴とする特許請求の範囲第10項に記載の方法。 (1望 情報処理システムにおける、文脈圧縮テキスト
    情報を再生するだめの方法において、各前記テキスト文
    字及びテキストの代表的サンプルの結合された文脈を読
    出す工程、前記サンプルテキスト中に発生する各前記文
    脈に対して、前記各文脈と結合して発生する前記テキス
    ト文字を含む相対的アルファベラトラ発生する工程、及
    び 対応するコート8文字を各前記相対的アルファ(ットの
    各前記テキスト文字と結合する工程、圧縮されたテキス
    トの各コード文字を連続して読出す工程、 各前記コード文字に対して、前記テキストの既知の減圧
    部から結合された文脈を読出す工程、各前記コード文字
    及び結合された文脈に対して対応するテキスト文字を選
    択する工程、及び前記テキストを減圧された形で構成す
    るために前記テキスト文字を供給する工程、 を合むこと全特徴とする方法。 03)情報処理システムにおける、テキスト情報を記憶
    し且つ検索する方法において、 各文字及びテキストの結合された文脈を連続して読出す
    工程、 各前記テキスト文字及び結合された文脈に対して、対応
    するコード文字を選択する工程、及び 前記テキストを圧縮された形で構成するだめに前記コー
    ド文字を記憶する工程、 前記記憶された圧縮テキストの各コード文字を連続して
    読出す工程。 各前記コード文字に対して、前記テキストの既知の再生
    された再生部かS結合された文脈を読出す工程、 各前記コード文字及び結合された文脈に対して、対応す
    るテキスト文字を選択する工程、及び 前記テキストを再生された形で構成するだめに、前記テ
    キスト文字を供給する工程、を含むことを特徴とする方
    法。 αa 情報処理システムにおける、テキスト情報を通信
    するだめの方法において、 各文字及びテキストの結合された文脈を連続して読出す
    工程、 各前記テキスト文字及び結合された文脈に対して、9記
    テキストを再生された形で構成している、対応するコー
    ド文字を選択する工程、前記コード文字を通信する工程
    、 各前記の通信されたコート5文字を連続して読出す工程
    、 各前記コード文字に対して、前記テキストの既知の再生
    部から結合された文脈を読出す工程、各前記コード文字
    及び結合された文脈に対して対応するテキスト文字を選
    択する工程、及び前記テキストを再生された形で構成す
    るために前記テキスト文字を供給する工程 を含むことを特徴とする方法。 a9 情報処理システムにおける、テキスト情報を圧縮
    するだめの手段において、 各文字及びテキストの結合された文脈を連続して読出す
    ための手段、 前記読出し手段に応答する、各前記テキスト文字及び結
    合された文脈に対して、対応するコード文字を選択し且
    つ前記テキスIf圧縮された形で構成するために前記コ
    ード文字を供給する手段、 を含むことを特徴とする手段。 α6)情報処理システムにおける、文脈圧縮テキスト情
    報を再生するだめの手段において、圧縮されたテキスト
    の各コード文字を連続して読出すための手段、 前記コード文字読出し手段に応答する、各前記コード文
    字に対して、前記テキストの既知の再生部から結合され
    た文脈を読出すための手段、前記コード文字及び文脈読
    出し手段は対応する、各前記コード文字及び結合された
    文脈に対して、対応するテキスト文字を選択し、且つ前
    記テキストを再生された形で構成するために前記テキス
    ト文字を供給するだめの手段、を含むことを特徴とする
    手段。 αη 各前記文脈が、前記テキスト文字と結合した一群
    のテキスト文字を含むことを特徴とする特許請求の範囲
    第15項に記載の圧縮手段。 (181各前記文脈が、固定された数の前記テキスト文
    字を含むことを特徴とする特許請求の範囲第17項に記
    載の圧縮手段。 (19前記テキスト文字及びコード文字と前記文脈とを
    関係づけるテーブルを記憶するだめの手段であり、前記
    対応コード文字を供給するだめの。 前記選択手段に応答する手段であって、前記テーブルは
    、前記テキストの言語の各文脈に対して、前記言語の文
    脈と結合して発生する前記テキスト文字を含む結合され
    た相対的アルファベットを含み、前記相対的アルファイ
    ツトの各々の前記テキスト文字の各々が前記対応のコー
    ド文字の1つに結合している手段、 を更に含むことを特徴とする特許請求の範囲第15項に
    記載の圧縮手段。 (2(If 前記コード文字の各々が、前記相対的アル
    ファベットに共有される1組のコード文字から選択され
    ることを特徴とする特許請求の範囲第19項に記載の圧
    縮手段。 (2I)各前記文脈が、前記テキスト文字と結合した一
    群のテキスト文字を含むことを特徴とする特許請求の範
    囲第16項に記載の再生手段。 (221各前記文脈が、固定された数の前記テキスト文
    字を含むことを特徴とする特許請求の範囲第21項に記
    載の再生手段。 (23@記テキスト文字及びコード文字と前記文脈とを
    関係づけるテーブルを記憶するだめの手段であり、前記
    対応コード文字を供給するだめの、前記選択手段に応答
    する手段であって、前記テーブルは、前記テキストの言
    語の各文脈に対して、前記言語の文脈と結合して発生す
    る前記テキスト文字を含む結合された相対的アルファベ
    ラトラ含み、前記相対的アルファベットの各々の前記テ
    キスト文字の各々が前記対応のコード文字の1つに結合
    している手段、 を更に含むことを特徴とする特許請求の範囲第16項に
    記載の再生手段。 (24J 前記コード文字の各々が、前記相対的アルフ
    ァベットに共有される1組のコード文字から選択される
    ことを特徴とする特許請求の範囲第23項に記載の再生
    手段。 (25)情報処理システムにおける、テキスト情報を記
    憶し且つ検索するための手段において、各文字及びテキ
    ストの結合された文脈を連続して読出すだめの手段、及
    び前記読出し手段に応答する、各前記テキスト文字及び
    結合された文脈に対して、対応するコード文字を選択す
    るための手段を含む圧縮手段、 前記テキストを圧縮された形で構成するために、前記コ
    ード文字を記憶するだめの手段、及び 前記記憶手段から前記圧縮されたテキストの各コード文
    字を連続して読出すだめの手段、前記コード文字読出し
    手段に応答する、各わ記コード文字に対して、わ記テキ
    ストの既知の再生部から結合された文脈を読出すための
    手段、及び前記コード文字及び文脈読出し手段に応答す
    る、各前記コード文字及び結合された文脈に対して、対
    応するテキスト文字を選択するだめの且つ前記テキスH
    −再生された形で構成するために前記テキスト文字を供
    給するだめの手段を含む手段、 を含むことを特徴とする手段。 06)前記テキスト文字及びコード文字と前記文脈とを
    関係づけるテーブルを記憶するための手段であり、前記
    対応コード文字及びテキスト文字を供給するだめの、前
    記コード文字及びテキスト文字選択手段に対応する手段
    であって、前記テーブルは、前記テキストの言語の各文
    脈に対して、前記言語の前記文脈と結合して発生する前
    記テキスト文字を含む結合された相対的アルファはット
    を含み、前記相対的アルファRソトの各々の前記テキス
    ト文字の各々が前記対応コード文字と結合する手段を含
    むことを特徴とする特許請求の範囲第25項に記載の記
    憶検索手段。 (27)情報処理システムにおける、テキスト情報を通
    信するだめの手段において、 各文字及びテキストの結合された文脈を連続して読出す
    だめの手段、及び前記読出し手段に応答する、各前記テ
    キスト文字及び結合された文脈に対して、前記テキスト
    を圧縮された形で構成している対応するコード文字を選
    択するだめの手段を含む、テキスト情報縮するだめの手
    段、 前記コート8文字を通信するだめの手段、各前記の通信
    されたコード文字を連続して読出すだめの手段、及び前
    記コード文字読出し手段に応答する、各前記コード文字
    に対して、前記テキストの既知の再生部から結合された
    文脈を読出すだめの手段、を含む前記圧縮されたテキス
    トを減圧するための手段、及び 前記コード文字及び文脈読出し手段に応答する、各前記
    コード文字に対して、前記テキストの既知の再生された
    部分から、結合された文脈を読出すだめの手段、及び 前記コード文字及び文脈読出し手段に応答する、各前記
    コード文字及び結合された文脈に対して、対応するテキ
    スト文字を選択するための且つ前記テキストを再生され
    た形で構成するために前記テキスト文字を供給するため
    の手段を含むことを特徴とする手段。 (28)前記圧縮手段は、前記テキスト文字とコード文
    字と前記文脈とを関係づけるテーブルを記憶するだめの
    手段であり、前記対応コード文字を供給するための、前
    記コード文字選択手段にlrT。 答する手段であって、前記テーブルが、前記テキストの
    言語の各文脈に対して、前記言語の前記文脈に結合して
    発生する前記テキスト文字を含む結合された相対的アル
    ファイツトを含み、前記相対的アルファはソトの各々の
    前記テキスト文字の各々が前記の対応するコード文字と
    結合している手段を更に含み、且つ 前記再生手段は、前記テキスト及びコード文字と前記文
    脈とを関係づけるテーブルを記憶するだめの手段であり
    、前記対応テキスト文字を供給するための、前記テキス
    ト文字選択手段に応答する手段であって、前記テーブル
    が、前記テキストの言語の各文脈に対して、前記言語の
    前記文脈に結合して発生する前記テキスト文字を含む結
    合された相対的アルファベッIf含み、前記相対的アル
    ファベットの各々の前記テキスト文字の各々が前記の対
    応するコート8文字に結合する手段を更に含むことを特
    徴とする特許請求の範囲第27項に記載の通信手段。
JP59170985A 1983-08-16 1984-08-16 テキスト情報通信システム Expired - Lifetime JP2581661B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/523,739 US4672679A (en) 1983-08-16 1983-08-16 Context redundancy text compression
US523739 1983-08-16

Related Child Applications (3)

Application Number Title Priority Date Filing Date
JP4041591A Division JP2568343B2 (ja) 1983-08-16 1992-02-27 テキスト情報圧縮システム
JP4041600A Division JP2575259B2 (ja) 1983-08-16 1992-02-27 テキスト情報の圧縮及び復元に用いるテーブル
JP4041592A Division JP2568344B2 (ja) 1983-08-16 1992-02-27 テキスト情報再生システム

Publications (2)

Publication Number Publication Date
JPS60101669A true JPS60101669A (ja) 1985-06-05
JP2581661B2 JP2581661B2 (ja) 1997-02-12

Family

ID=24086269

Family Applications (4)

Application Number Title Priority Date Filing Date
JP59170985A Expired - Lifetime JP2581661B2 (ja) 1983-08-16 1984-08-16 テキスト情報通信システム
JP4041591A Expired - Lifetime JP2568343B2 (ja) 1983-08-16 1992-02-27 テキスト情報圧縮システム
JP4041600A Expired - Lifetime JP2575259B2 (ja) 1983-08-16 1992-02-27 テキスト情報の圧縮及び復元に用いるテーブル
JP4041592A Expired - Lifetime JP2568344B2 (ja) 1983-08-16 1992-02-27 テキスト情報再生システム

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP4041591A Expired - Lifetime JP2568343B2 (ja) 1983-08-16 1992-02-27 テキスト情報圧縮システム
JP4041600A Expired - Lifetime JP2575259B2 (ja) 1983-08-16 1992-02-27 テキスト情報の圧縮及び復元に用いるテーブル
JP4041592A Expired - Lifetime JP2568344B2 (ja) 1983-08-16 1992-02-27 テキスト情報再生システム

Country Status (6)

Country Link
US (1) US4672679A (ja)
EP (1) EP0134543B1 (ja)
JP (4) JP2581661B2 (ja)
AU (1) AU574702B2 (ja)
CA (1) CA1209274A (ja)
DE (1) DE3482065D1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59205874A (ja) * 1983-05-10 1984-11-21 Canon Inc 画像デ−タ圧縮装置
FR2551236B1 (fr) * 1983-08-30 1990-07-06 Canon Kk Systeme de traitement d'image
JPS60254871A (ja) * 1984-05-31 1985-12-16 Kokusai Denshin Denwa Co Ltd <Kdd> フアクシミリ画像の符号化方法
GB8618093D0 (en) * 1986-07-24 1986-09-03 Serif Software Ltd Data compression
US5590317A (en) * 1992-05-27 1996-12-31 Hitachi, Ltd. Document information compression and retrieval system and document information registration and retrieval method
JPH0764214A (ja) * 1993-08-31 1995-03-10 Fuji Photo Film Co Ltd 写真焼付情報印字装置及び写真プリンタ
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US6460036B1 (en) 1994-11-29 2002-10-01 Pinpoint Incorporated System and method for providing customized electronic newspapers and target advertisements
JP3238854B2 (ja) * 1995-02-21 2001-12-17 富士通株式会社 データ圧縮方法及びデータ圧縮装置、並びにデータ復元方法及びデータ復元装置
US5951623A (en) 1996-08-06 1999-09-14 Reynar; Jeffrey C. Lempel- Ziv data compression technique utilizing a dictionary pre-filled with frequent letter combinations, words and/or phrases
US5999949A (en) * 1997-03-14 1999-12-07 Crandall; Gary E. Text file compression system utilizing word terminators
US7630986B1 (en) 1999-10-27 2009-12-08 Pinpoint, Incorporated Secure data interchange
US8705810B2 (en) * 2007-12-28 2014-04-22 Intel Corporation Detecting and indexing characters of videos by NCuts and page ranking
US8484170B2 (en) * 2011-09-19 2013-07-09 International Business Machines Corporation Scalable deduplication system with small blocks
JP6645013B2 (ja) * 2015-01-30 2020-02-12 富士通株式会社 符号化プログラム、符号化方法、符号化装置および伸長方法
US10838922B2 (en) 2017-03-31 2020-11-17 International Business Machines Corporation Data compression by using cognitive created dictionaries

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR1543777A (fr) * 1966-12-23 1900-01-01 Ibm Identification des caractères par utilisation du contexte
US3717851A (en) * 1971-03-03 1973-02-20 Ibm Processing of compacted data
US4058795A (en) * 1972-10-03 1977-11-15 International Business Machines Corporation Method and apparatus for context-aided recognition
DE2748859C3 (de) * 1977-10-31 1980-09-04 Siemens Ag, 1000 Berlin Und 8000 Muenchen Schaltungsanordnung zum Speichern eines Textes
AU6700181A (en) * 1979-12-12 1981-07-06 Key Tronic Corp. Document reader
US4383307A (en) * 1981-05-04 1983-05-10 Software Concepts, Inc. Spelling error detector apparatus and methods
EP0079442B1 (en) * 1981-11-09 1988-07-27 International Business Machines Corporation Data translation apparatus translating between raw and compression encoded data forms
US4597057A (en) * 1981-12-31 1986-06-24 System Development Corporation System for compressed storage of 8-bit ASCII bytes using coded strings of 4 bit nibbles

Also Published As

Publication number Publication date
JPH05197721A (ja) 1993-08-06
JP2568343B2 (ja) 1997-01-08
EP0134543A3 (en) 1985-10-30
JP2568344B2 (ja) 1997-01-08
AU574702B2 (en) 1988-07-14
JPH05197760A (ja) 1993-08-06
US4672679A (en) 1987-06-09
DE3482065D1 (de) 1990-05-31
AU3174384A (en) 1985-02-21
CA1209274A (en) 1986-08-05
EP0134543A2 (en) 1985-03-20
EP0134543B1 (en) 1990-04-25
JP2581661B2 (ja) 1997-02-12
JPH05197720A (ja) 1993-08-06
JP2575259B2 (ja) 1997-01-22

Similar Documents

Publication Publication Date Title
JPS60101669A (ja) 文脈冗長度テキスト圧縮
EP0233996B1 (en) Process in an information processing system for compaction and replacement of phrases
US4456973A (en) Automatic text grade level analyzer for a text processing system
US4566065A (en) Computer aided stenographic system
JPH024916B2 (ja)
EP0052725B1 (en) Method of reducing the print element changes in a text processing system
US3465299A (en) Information translating data comparing systems
JP2866437B2 (ja) 用例辞書登録方法及び装置
JP2603269B2 (ja) 文字処理装置
JP3073226B2 (ja) 文書処理装置
Smith et al. Shelf-List Conversion.
JPS60178575A (ja) 日本語処理装置
JPH03100759A (ja) 文書作成装置
JPH0352102B2 (ja)
Skolnik et al. Input/Output Considerations for Large Data Bases
Gonda Computerized patient information system
Liu Chinese character processing systems in China
JPH0113579B2 (ja)
JPS5896376A (ja) 日本語入力装置
JPH03110663A (ja) 文書処理装置
JPH05101062A (ja) 文書処理装置
JPH04133165A (ja) かな漢字変換装置
JPH0512266A (ja) 文書処理装置
JPS61275969A (ja) ロ−マ字中国語変換方式
JPS61228563A (ja) 電子式辞書