JP2581661B2 - テキスト情報通信システム - Google Patents

テキスト情報通信システム

Info

Publication number
JP2581661B2
JP2581661B2 JP59170985A JP17098584A JP2581661B2 JP 2581661 B2 JP2581661 B2 JP 2581661B2 JP 59170985 A JP59170985 A JP 59170985A JP 17098584 A JP17098584 A JP 17098584A JP 2581661 B2 JP2581661 B2 JP 2581661B2
Authority
JP
Japan
Prior art keywords
text
context
character
characters
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59170985A
Other languages
English (en)
Other versions
JPS60101669A (ja
Inventor
アーネスト・アルバート・フリーマン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wang Laboratories Inc
Original Assignee
Wang Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wang Laboratories Inc filed Critical Wang Laboratories Inc
Publication of JPS60101669A publication Critical patent/JPS60101669A/ja
Application granted granted Critical
Publication of JP2581661B2 publication Critical patent/JP2581661B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Memory System (AREA)

Description

【発明の詳細な説明】 発明の背景 発明の分野 本発明は、データプロセッシングシステム、ワードプ
ロセッシングシステム、及び通信システムに関し、より
詳細にはテキスト情報を通信するための方法及び装置に
関する。このような関係においては、テキスト情報は、
記号又は文字の定められた組、又はアルフアベットから
選択された記号又は文字の構造化された順序で表わされ
る任意の情報として定義される。テキスト情報の一般的
な例は、例えば、英語、ドイツ語又はフランス語で書か
れた手紙、レポート、及び原稿、業務記録及び会計記
録、科学的データ、並びに図形記号の配列から成る図形
表示などの書類を含む。
先行技術 データ処理システム及び通信システムにおいては、限
りなく増える情報の量を記録し、処理し、通信するとい
う問題が繰返し生じてくる。斯かるシステムの情報取扱
い要求は、ひかえ目に見ても急激に増加し、且つ使用で
きるメモリとデータリンクの容量が増えるよりも更に急
激に増えていく。更に、特定システムに配設できるある
いは付加できる記憶又は通信の能力には物理的又は経済
的な制限が課せられることが多い。その結果、よく多く
の量の情報をシステムに取扱わせるために、記憶又はデ
ータリンク容量を増やすという方法ではない他の方法が
開発されてきた。斯かる方法の1つは、データ圧縮と呼
ばれる。これは、システムのユーザによってシステムに
通信される情報が、このシステムによってよりコンパク
トなあるいは縮小した形に変換され記憶又は伝送に供さ
れるという方法である。この情報は、その小さくなった
形から変換、すなわち再生(decompression)されて元
の形に戻り、ユーザに通信される。
システムとこのシステムのユーザ間で通信される情報
の形としての言語は、かなりの度合の冗長度を含んでい
るのが一般的である。即ち、情報が表現される形として
の言語は、実際の情報を完全に且つ正確に表現するのに
要するよりも多くの情報を含んでいる。ワードプロセッ
シングにおける一般的な例としては、情報、即ちテキス
トが、ユーザとシステムの間で、ピリオド、コンマ、ス
ペース、タブ及行帰線等の句読点及び書式文字を含む英
文言語の形として通信されるものが挙げられる。テキス
ト圧縮は斯かる冗長のために可能であり、基本的には、
テキストのユーザ言語の形から冗長な情報を削除するこ
とにより、ユーザ言語テキストをよりコンパクトな形に
変換する。
従来のテキスト圧縮方法は、分配的冗長度、即ち、特
定の文字、文字の組合わせ、及び特定のユーザ言語にお
けるワードの使用もしくは発生頻度における非直線性に
基づいていた。例えば、英語の言語の場合、文字「e」
及び「スペース」は、「y」又は「z」よりも頻繁に発
生し、特定の文字に対、又は合字、例えば、「th」及び
「es」、並びに特定のワード、例えば「the」、「o
f」、及び「and」は頻繁に発生する。
従来の技術は、可変長のコードワード、又は文字を指
定し、特定の言語において頻繁に現れれる文字、文字の
組合せ及びワードを表すことにより圧縮を達成するのに
この分配的冗長度を用いていた。即ち、最も頻繁に現れ
る文字、文字の組合せ及びワードは、割当てられた短い
コード文字である。共通性の少ない文字の組合せ及びワ
ードは、発生頻度に応じて、割当てられた長いコード文
字となり、或いはより頻繁に発生する文字、文字の組合
せ及びワードのシーケンスとして「完全綴り」にされ
る。
データ処理システム、ワードプロセッシングシステム
及び通信システムにおけるテキストの実際の圧縮及び再
生は、頻繁に発生する文字、文字の組合せ及びワードを
対応する割当てられたコード文字に関係づける「ルック
アップテーブル」を用いて実施されるのが一般的であ
る。圧縮テーブル及び再生テーブルは、実際の圧縮動作
再生動作から別々に発生され、これらのテーブルは、一
般的に、ユーザ言語における非常に大量のテキストの十
分に詳細な言語学的分析を必要とする。ここで銘記すべ
きことは、ある特定の言語におけるあり得るワード及び
文字の各々に対してコード文字を割当てることは可能で
はあるが、その結果生じるコード文字及びテーブルは、
テキスト圧縮によって節約されるであろうメモリスペー
スよりも多くのメモリスペースを必要とする大きなもの
になることである。
テキスト圧縮の分配的冗長度方法は、オリジナルテキ
ストが形成されている形としての個々の言語の言語学的
特徴に依存するところが大である。特に、より大きな言
語ユニット、例えば、文字の組合せ及びワードに関して
依存するところが大である。例えば、英語、ドイツ語、
フランス語、ロシア語、イタリア語及びスカンジナビア
語は全て、はっきりと異なった言語学的特徴を有してお
り、異なった分析方法を必要としており、従って、非常
に異なった圧縮テーブル及び再生テーブルができる。従
って、従来の圧縮技術は、圧縮テーブル再生テーブルを
発生するために、独立のユーザ言語の各々における非常
に大量のテキストの詳細な言語学的分析を必要としたの
である。
分配的冗長度方法の言語学的依存性、特に大きな言語
学的ユニットに関しての依存性の故に、広い範囲の言語
にわたって分配的冗長度を分析するための完全に一般的
な目的方法を開発することは困難である。更に、且つ同
じ理由でもって、ある特定の言語に対する圧縮テーブル
再生テーブルは、動作の対象となるテキストの特定の
「通用語」に依存することがある。例えば、業務テキス
ト、科学テキスト及び文献テキストに対する言語学的特
徴は十分に異なるため、それぞれの用途に対する独立し
たテーブルを必要とする。
更に、斯かる方法は、異なった寸法の言語的ユニット
及びコードワードを使用しているため、圧縮/再生は比
較的精巧なプログラムを必要とし、複雑な分解能力と処
理能力及び時間並びにプログラムメモリスペースが相応
して増加する。同じ理由により、圧縮動作及び再生動作
は対称的とはなり得ない。即ち、別々のテーブルを必要
とし、且つ異なるルーチンの実施を必要とするため、こ
れも処理及びメモリの要求が増加する。最後に、同じ理
由で、斯かる方法は、テキストが一連の小さな「バッ
チ」動作として処理されなければならない時の、即ちこ
れらのバッチ処理される大きさが言語的ユニット及びコ
ードワードの大きさによって決定される時の、連続的な
インラインテキスト処理又は通信には好ましくない。
発明の目的 本発明の目的はテキスト情報を通信する方法を提供す
ることである。
他の目的はテキスト情報を通信する装置を提供するこ
とである。
更なる目的は、広範囲な言語に用いるのに適するテキ
スト情報を通信することである。
更なる目的は、言語の言語学的特徴に比較的依存しな
いテキスト情報を通信することである。
更に他の目的は、圧縮と再生において対称(symmetri
c)であるテキスト情報を通信することである。
更に他の目的は、圧縮と再生の速度の改良を伴ってテ
キスト情報を通信することである。
発明の要約 本発明に係るテキスト圧縮/再生方法及び装置は、文
脈(context)冗長度、即ち、個々の文字(character)
がテキストの中に存在している文脈の非均一的分布、あ
るいは、同義的には、与えられたセットの文脈における
文字の発生の非均一的分布に基づいて動作する。本明細
書に定義される文脈は、1つのテキストを構成する個々
の文字に先行又は後続する均一に寸法化された群の文字
を含んでいる。
本明細書に記載される方法及び装置は、抽象的なグル
ープ分け及びテキスト文字間の相関関係でもって動作す
るのであり、言語学的分析のいかなる形にもあるいは言
語学的特徴のいかなる形にも、更にいかなる言語の要素
にも基づくものではない。従って、本方法及び装置は、
一般的であり、いかなる言語にも、あるいはある言語の
いかなる「通用語」にも等しく適用できる。
本方法及び装置は、均一に寸法化されたテキストの群
及びコード文字の群でもって動作し、従って複雑性が小
さくなり且つ他の方法よりも必要とする処理時間及び能
力が小さくなり、従って高速で実施される。本方法は、
実施において対称的(symmetric)であり、唯一の組み
合わされた圧縮/再生テーブルを必要とし、オンライン
連続プロセスに好適である。
コードとテキスト文字間の相関関係を定める情報の部
分は文脈、即ち、テキスト自体に、その圧縮された形と
及び圧縮されていない形の両方でもって存在している。
これにより、圧縮されたテキストを一義的に表わすた
め、必要とする独特なコード文字は少なくて済み、従っ
てコード文字は短くて済む。結果として生じる圧縮され
たテキストは、これにより、より少ないビットの情報で
表わすことができる。
好ましい実施例の説明 次の記述により、データ処理ワードプロセッシング及
び通信オペレーションを実施し且つ本発明を組込む能力
を有するコンピュータシステムのハードウエア及びソフ
トウエアの一般的な構造及びオペレーションを、先ず簡
単に説明する。斯かるシステムの構造及びオペレーショ
ンは、当業者にとっては、本明細書に説明されているよ
うに、良く理解されるであろう。更に、斯かるシステム
の構造及びオペレーションの詳細については、本明細書
にも引例として挙げられている米国特許出願第440,668
号に与えられている。一応の脈絡、すなわち、本発明に
係る方法を実行するための装置を説明したので、本発明
に係る文脈冗長度テキスト圧縮方法を次に詳細に説明す
ることにする。
説明は以下の順におこなう。
1.コンピュータシステムの構造及びオペレーション A.ハードウエア構造及びオペレーション a.ALU及びバス b.内部制御理論 c.メモリ d.I/Oデバイス B.ソフトウエア構造及びオペレーション 2.文脈冗長度テキスト圧縮及び再生 1.コンピュータシステムの構造及びオペレーション 第1図について説明する。この図には、本発明に従う
コンピュータシステムの斜視図が示されている。システ
ム10は、表示装置12、キーボード14及び中央処理装置
(CPU)16を含んでいる。表示装置12及びキーボード14
は、情報、例えば、テキストが本システムとユーザとの
間で通信される時に用いられる主な手段である。図示さ
れないケーブルで表示装置12及びキーボード14に接続さ
れているCPU16は、プログラム及びデータを記憶するた
めのメモリ及び多目的演算装置(ALU)を含んでいる。C
PU16は、更に、プログラム及びデータを記憶するための
ディスクドライブ並びに周辺デバイス、例えばプリン
タ、ディスクドライブ及び通信デバイスに至るインター
フェースを含んでいる。システム10は、例えば、マサチ
ューセッツ州ローウェルのウォング・ラボラトリーズ・
インコーポレーテッド(Wang Laboratories,Inc.)製市
販の「プロフエッショナルコンピュータ」から成り得
る。
A.ハードウエア構造及びオペレーション a.ALU及びバス 第2A図及び第2B図について説明する。この図には、シ
ステム10のブロック図が示されている。システム10のCP
U16中のALUは、メインプロセッサ(以下メインPと称
す)18及びコプロセッサ(以下CO−Pと称す)20から成
る。メインP18及びCO-P20は、例えば、それぞれ、16ビ
ットIntel 8086 ALU及びIntel 8087数値プロセッサ拡張
部であり得る。メインP18及びCO-P20は、CPU16に対する
アドレス指定、メモリ参照、及び入力/出力(I/O)オ
ペレーションを含む全ての演算及び論理オペレーション
を行う。メインP18及びCO-P20は、局所的(Local)バス
22と連通し且つアドレスバス24、データバス26及び制御
バス28を通してCPU16の残りの部分、表示装置12、キー
ボード14及び全ての周辺デバイスと連通している。メイ
ンP18とCO-P20並びにバス24、26及び28間のインターフ
ェースは、アドレスラッチ30、データトランシーバ32及
びバス制御34を通して行なわれる。
b.内部制御論理 次に、CPU16の内部制御論理について説明する。メイ
ンP18及びCO-P20に関連しているのは、システムクロッ
ク36と待ち状態ロジック(Wait State Logic)38であ
る。システムクロック36は、CPU16に対する全てのクロ
ックタイミング信号のソースである。待ち状態ロジック
38は、基本的に、CPU16の動作を監視し、且つCPU16の動
作におけるコンフリクトを防止するために、制御バス28
を通してシステムクロック36と及びCPU16の他のエレメ
ントに制御信号を発生する。
CPU16の他の制御エレメントは、カウンタ及びタイマ
チップ(CTC)40及びプログラマブル割込みチップ(PI
C)42を含む。CTC40は、例えば、Intel 8253であり、且
つPICはIntel 8255Aであり得る。直ぐに処理されなけれ
ばならない、即ち、後の動作のためにマスクすることが
できない割込み状態を処理するために、マスク不能割込
みロジック44がPIC42と関連して動作する。斯かる割込
み状態は、パリティ及びI/Oエラーを含んでいる。
CPU16は、システム10の周辺デバイスと、以下に示す
例えばCPU16のメモリとの間でマップされたメモリリフ
ァレンス及び直接メモリアクセス(DMA)オペレーショ
ンの両方を実施する能力を有する。DMAオペレーション
は、DMAバス獲得ロジック(論理)46及びDMA制御(DM
A)48によって制御される。DMA獲得論理46は、特にメモ
リ及びバスオペレーションにおいて、システム10のオペ
レーションを監視し、DMAオペレーションが実施される
時にDMA許可信号を制御バス28に発生する。DMA48は、例
えば、周辺デバイスからのDMAオペレーション要求を検
出し、斯かる要求の存在をDMAバス獲得46に通知し、DMA
バス獲得論理46がCPU16のバスに対するアクセスを許可
した時にDMAオペレーションを制御する。
c.メモリ CPU16の主内部メモリは、128KBランダムアクセスメモ
リ(RAM)50であり、これは、オペレーティングシステ
ムと動作の対象となる応用プログラム及びデータ、例え
ばテキストを記憶するのに用いられる。オペレーティン
グシステムプログラムは、例えば、マイクロソフト社
(Micro Soft Corpotation)市販のマイクロソフトディ
スクオペレーティングシステム(登録商標MSDOS)から
成り、且つベーシック入力及び出力システム(BIOS)を
含み得る。
MSDOSは基本的には、システム10のエグゼクチブ(管
理的)内部オペレーションを制御するのに大使、BIOS
は、システム10、表示装置12とキーボード14並びに広範
囲の周辺デバイス間のインターフェースを制御するプロ
グラムを含む。
必要に応じて、128KBRAM50の容量は、512KBRAM52を付
加することにより増加することができる。512KBRAM52
は、アドレスバス24、データバス26及び制御バス28から
128KBRAM50に並列に接続されており、128KBRAM50と平行
にかつその一部として効果的に動作する。
消去可能プログラマブル読出し専用メモリ(EPROM)5
4は、上に述べられたオペレーティングシステム及び応
用プログラムをディスクドライブ56のディスケットから
128KBRAM50及び512KBRAM52にロードするのに用いられる
プログラムを記憶し且つ供給する。
第2図に示すように、ディスクドライブ56は、アドレ
スバス24、データバス26及び制御バス28から接続され、
フロッピー制御器58によって制御される。オペレーティ
ングシステム及び応用プログラムを記憶し且つ供給する
ことに加えて、ディスクドライブ56は、128KBRAM50及び
512KBRAM52を増加する付加的なメモリ容量として用いら
れ且つデータ、例えば、動作の対象となっているテキス
トを記憶し且つロードするのに用いられる。この点に関
して述べると、ディスクドライブ56は、例えば、テキス
ト又はデータディスケット上で1つのシステムから別の
システムに転送するI/Oデバイスとして用いられる。
ディスクドライブ56の容量は、ディスクドライブ56及
びRAM50及び52と平行にアドレスバス28、アドレスバス3
0及び制御バス32から接続されるウインチェスタハード
ディスクドライブ60及びディスク制御器62を付加するこ
とにより増加される。ハードディクスドライブ56は、動
作の対象となるプログラム及びデータを記憶するための
RAM50及び52に至る延長として用いられる。
d.I/Oデバイス 前に述べたように、表示装置12及びキーボード14は、
システム10とユーザ間の通信のための主なI/O手段であ
る。表示装置12は、モニタ制御器13を通してアドレスバ
ス28、データバス30及び制御バス32に接続される従来の
CRT表示装置である。モニタ制御器13は、例えば、日本
電気のUPD7220型グラフイックデータ制御装置であり得
る。キーボード14は、ユニバーサル非同期レシーバ/ト
ランスミッタ(UART)15を通じてキーボード14とシステ
ムバス28、30及び32との間のキーボード動作及びデータ
/制御通信を制御するための内部マイクロプロセッサ、
例えば、ザイログ社(Zilog)Z80を有する従来のキーボ
ードである。
他のI/Oデバイスはプリンタ64及び66を含む。プリン
タ64は、例えば、従来のデージホイール型プリンタ或い
はドットマトリックス型プリンタでよい。プリンタ66
は、例えば、ロードアイランド州のイーストグリーニッ
チのガルトン工業社(Gulton Industries,Inc.)市販の
マイクロプロット(Microplot)80のようなグラフィッ
ク印刷用サーモグラフイックプリンタでよい。
更に、システム10と他のシステム又はデバイス間の通
信は、通信制御装置(TC)68を通して行われる。TC68
は、システムバス28、30及び32と通信変復調装置又は外
部デバイス、例えば、メモリや表示装置との間の通信用
の、例えばザイログ社のZ80型マイクロプロセッサ及び
シリアルI/Oチップを組込んでいるマイクロプロセッサ
制御されたインターフェースデバイスである。
ここで銘記すべきことは、上記のシステム10は、例示
的であり、以下に更に述べるテキスト圧縮方法は、例え
ば、広範囲にわたるシステムアーキテクチヤについて実
施されることである。この方法は、例えば、ザイログ社
のZ80、モトローラ社のMC68000、インテルの8080、8086
又は80186、又はナショナルセミコンダクタ社のNS16000
マイクロプロセッサに基づくプロセッサ、又はミニコン
ピュータ又はメインフレームコンピュータ、又はワード
プロセッサ又は通信プロセッサについても実施される。
上記のようなシステム10のハードウエアの構造及びオ
ペレーションについて説明したため、システム10のソフ
トウエア構造及びオペレーションについて述べることに
する。
B.ソフトウエア構造及びオペレーション 第3図について説明する。この図には、システム10の
ソフトウエア構造の図が示されている。ここに示すよう
に、システムのソフトウエア構造は、システムハードウ
エアによってユーザの動作を特定の詳細なオペレーショ
ンに変換するための多層構造である。このソフトウエア
構造は、上層のユーザとインターフェースし且つ下層の
システムハードウエアエレメントとインターフェースす
るためのエレメントを含む。中間層は基本的には、ユー
ザ命令及び要求をハードウエアのオペレーションを指示
する命令に変換する。
ユーザインターフェースレベルから始まって、ルーチ
ン70、72、74及び76はシステムの応用プログラムを含
み、システムによって実行される特定の応用オペレーシ
ョン、例えば、テキスト又はグラフイック編集あるいは
データ処理を決定し、命令する。
ユーザインターフェースルーチン70は、例えば、表示
装置12、キーボード14及びシステムディスク及びプリン
タによってユーザと対話するための全てのルーチンを含
む。ユーザインターフェースルーチン70はユーザに向け
られたものであるが、応用機能インターフェース72は、
ユーザインターフェースルーチン70によって行われるユ
ーザ動作オペレーションと、例えばテキスト編集のよう
な実際の応用オペレーションを行うソフトウエアとの間
をインターフェースする。基本的には、応用機能インタ
ーフェースルーチン72は、ユーザインターフェースオペ
レーションの結果を、ユーザによって規定される応用オ
ペレーションを指図するための命令及びコマンドに変換
する。
応用ルーチン74及び76は、実際の応用プログラム、即
ち、システムが例えば、テキスト又はグラフイック編集
オペレーション又はデータ処理オペレーションを実行す
るように指示するプログラムである。応用ルーチン74及
び76は、応用機能インターフェースルーチン72から、ユ
ーザによって要求されているオペレーションに関する指
示を受け、オペレーティングシステム78に、要求されて
いるオペレーションを実施するために行われなければな
らないシステムオペレーションについての指示を与え
る。
前に述べたように、オペレーティングシステム78は、
MSDOSから成り、システムのエグゼクチブ(管理)制御
に必要な全てのルーチンを含んでいる。オペレーティン
グシステム78は、前に説明したように、BIOSから成るハ
ードウエアインターフェースシステム80とインターフェ
ースする。基本的には、オペレーティングシステム78
は、ユーザによって要求されているオペレーションを実
施するために、どの詳細なオペレーションがシステムに
よって実行されなければならないかを決定し、対応する
命令をハードウエアインターフェースシステム80に供給
する。ハードウエアインターフェースシステム80は、シ
ステム10のハードウエア構造を含む前に説明した種々の
エレメントに詳細なコマンドを供給することによって応
答を行なう。
前に説明したように、テキスト圧縮によって、テキス
ト情報をシステム、例えば、メモリ又はディスク上に記
憶せしめ、或いはよりコンパクトな形でもってシステム
或いはデバイス間に通信せしめる。例えば、上記のシス
テムの場合、ユーザによってキーボードを通して入力さ
れる、或いはディスクから又は通信リンクを通してロー
ドされるテキストは、圧縮されてRAMに或いはディスク
上に記憶することができ、或いは通信リンクを通して送
信できる。テキストは、次に、再生(decompress)され
て、例えば、表示装置を通して、或いはプリンタ上にユ
ーザに対して表示することができる。基本的には、テキ
スト圧縮及び再生は、テキスト情報が、システムエレメ
ントと、かなりの度合の冗長度を含む言語、例えば、英
語を用いているソース又は受け取り側との間で通信され
る時はいつでも実行される。
従って、以下に説明するテキスト圧縮方法は、第3図
の応用ルーチン74、76レベルに相当する応用プログラム
レベルにおいて上記で述べられた斯かるシステムにおい
て最も実施されるであろう。しかしながら、この方法
は、例えば表示装置及びキーボードに存在する処理能力
の程度に応じて、応用機能インターフェース72レベルに
おいても実行され得る。また、この方法は、実施がシス
テムオペレーションの基本的特徴であった場合は、オペ
レーティングシステム78又はハードウエアインターフェ
ースシステム80レベルにおいて実行される。その実施に
応じて、以下に述べる圧縮/再生テーブルはRAM又はROM
の中に置かれる。
以上のように、本発明に係る方法が実行される装置に
ついて述べてきたので、本発明に係る文脈冗長度テキス
ト圧縮(context redundancy text compression)方法
について以下に述べることにする。
2.文脈冗長度テキスト圧縮及び再生 前に述べたように、テキスト圧縮は、圧縮されるべき
テキストの言語の中の情報冗長度の発生に依存する。上
記の従来の技術は、分配的冗長度、即ち、オリジナルテ
キストの言語の中の特定の文字、文字の組合せ及びワー
ドの発生頻度における非均一性に依っている。
本発明に係るテキスト圧縮方法は、文脈冗長度、即
ち、他の文字と順次結合している特定の文字、すなわち
文脈の統計的に不均一の発生に基づいている。例えば、
文字「u」は、文字「q」に続くことが最も多く、
「s」は、「es」に続くことが最も多く、且つ「ブラン
ク」即ち「スペース」は文字「est」に続くことが最も
多い。
この方法の場合、「文脈」は、順番に特定の文字に先
行、或いは続く、文字のシーケンスとして定義され、そ
れぞれ、先行文脈又は後続文脈と呼ばれる。文脈は、関
連する文字の直ぐ隣に位置する必要はないが、次の例で
は、隣接した文脈が用いられている。先行及び後続文脈
は、特定の言語の文字が通常書かれているシーケンスを
基準にして定義される。例えば、英語の場合、先行文脈
は特定の文字の左に現われる文字であり、後続文脈はそ
の文字の右に現れる文字である。他の言語の場合、例え
ば、ヘブライ語あるいは中国後の場合、先行文脈は特定
の文字の右にあるいは上に現われ、後続文脈は左又は下
に現われる。これらの例では「q」は「u」の左文脈で
あり、「es」は「s」の左文脈であり、「est」は「ブ
ランク」の左文脈である。
本明細書に説明するテキスト圧縮方法は、先行文脈及
び後続文脈の両方に対して等しい容易さでもって実施さ
れるが、先行文脈は「オンライン」圧縮及び再生に最も
好適である。後続文脈圧縮及び再生は、「バッチ」処
理、即ち、順次的でオーバーラップする文字の組に対し
ての記憶及び動作を必要とする。しかしながら、後続文
脈圧縮は、特定の状況又は特定の言語にとっては好都合
である。
テキストを圧縮し再生するのに用いられる文脈の「次
数」は、ここでは、文脈中の文字の数として定義され、
この方法の特定の実施では一定であることが好ましいで
あろう。上記の例の場合、「q」は「u」の一次文脈で
あり、「es」は「s」の二次文脈であり、「est」は
「ブランク」の三次文脈である。上記の項目を更に定義
するために、ある特定の言語を、i=1〜uである文字
Xi、すなわち、X1,X2・・・Xu-1,Xuから成るアルファ
ベットAで表わすことにする。この言語が、通常、左か
ら右に書かれていると仮定すると、文字のシーケンスXn
Xn-1・・・X3X2X1Xiがテキストに現われるとすると、文
字のシーケンスXnXn-1・・・X3X2X1はXiのn次の先行、
即ち左文脈となる。ここで銘記すべきことは、いかなる
文字Xiの文脈も、文字Xi自体を含まないことである。
本発明に係る方法は、いかなる次数の値nに対しても
実行されるが、ここではn=1及びn=2の次数に対す
る例を下に示す。しかしながら、次数の値は高い方が好
ましいであろう。
与えられたXi及び与えられた次数nに対して、全ての
可能な独特なn次の先行文脈の組は、PCn(Xi)として指
定され、unのメンバまで含むことができる。何となれ
ば、独特な文字の各々に対してu個の可能な独特な文字
Xiとn個の可能な位置とが存在するからである。与えら
れた言語に対する全ての可能な独特なn次の先行文脈の
組はPCnと指定され、un+1のメンバまでを含むことがで
きる。何故ならば、Xiはu個の独特な文字の任意のもの
でありうるからである。
本発明に係るテキスト圧縮方法は、圧縮及び再生のた
めの「ルックアップ」テーブルの使用を必要とする。上
記から、斯かるテーブルは非常に大きいであろうと見ら
れるが、実際は、これらのテーブルは許容できる大きさ
となっている。以下に更に述べられるように、本発明の
方法及びこの方法を実施するテーブルの構造は、そのテ
キスト言語の言語学的特徴には依存しない。しかしなが
ら、言語学的特徴は、これらのテーブルの大きさに影響
する。何となれば、特定の文脈はまれであり特定の言語
には現われず、従って実際にはこれらのテーブルの大き
さを制限しているからである。例えば、「wc」は英文に
おいては「s」の先行文脈として現われるのはまれであ
り、従って英文言語圧縮テーブルには現われないが、例
えば、ポーランド語テーブルには、現われる。しかしな
がら、この圧縮方法と、これらのテーブルを生成する時
に用いる手段は英語の場合もポーランド語の場合も同一
である。
本発明に係る圧縮/再生テーブルは、発見的に又は言
語学的分析法によって生成される。しかしながら、より
好ましい方法の場合、これらのテーブルは、テキストの
好ましい本体、例えば、辞書、シソーラス、原稿あるい
は文書の文脈分析を通じて生成される。
テーブル生成の好ましい方法は、言語学的分析ではな
く機械的である。先ず、文脈nの与えられた次数に対し
て、テキストのサンプル体が、通常書込まれている方向
に従ってシーケンスに文字毎にスキャンされ、各文字Xi
に対して発生している各先行文脈PCn(Xi)の各発生が表
にされる。この分析は、各Xiに対する各PCn(Xi)の発生
の頻度のテーブルを与え、基本的には、文脈冗長度をア
ルファベット中の各文字に対する文脈の対応する分配的
冗長度にマップする。このプロセスは、それらのセルに
対するインデックスとしてXi及びPCn(Xi)を用いる表配
列を生成し、このサンプルテキストの文字Xiがスキャン
されるとセルの内容を適当に増分することによって、簡
単に達成される。
上記のテーブルを生成すると、最終テーブルが、特定
の文脈に現われる各Xiを、PCn(Xi)に対してソートする
ことによって生成される。すなわち、この最終テーブル
は、各特定の文脈に対して、その文脈に現われる全ての
文字を含んでいる。これらの文字は、各文脈に対して、
発生の頻度の順に従ってソートされるのが一般的であ
る。ここで銘記すべきことは、この最終テーブルが、連
続する文脈を走査し、一度に1つづつ文字をシフトし、
発生する文脈及び各斯かる文脈に現われる文字を表にす
ることにより、第1テーブルからの派生としてではな
く、直接発生されることである。
従って、この最終テーブルは、各文脈に対して1つの
「相対的アルファベット」を定義することができ、ある
特定の文脈に対する相対的なアフファベットは、発生の
頻度の順位に従ってその文脈に現れる全ての文字から成
る。以下に更に述べるように、この最終テーブルは、全
ての可能な非圧縮テキスト文字と圧縮テキストコード文
字との間の関係を定めており、そして該テーブルはテキ
ストの圧縮と再生の両方に用いられる。
表1について説明する。この表には、次数n=2の先
行文脈に対する最終圧縮/再生テーブルの説明的な例が
示されている。表1を生成するのに用いられるテキスト
のサンプル体は、一般的な事務所の通信文から成る。表
1は単に説明的な目的に意図されているため、発生する
文脈の数個だけが示されており、従って各文脈に対して
は、8個の最も頻繁に発生するテキストの文字だけが示
されている。
多種の2文字文脈が表1の左の垂直のインデックスと
してリストされており、各文脈に現われるテキスト文字
が対応する文脈の右の列にリストされている。例えば、
テキスト文字、すなわち文脈「co」に対して発生する相
対的アルファベットは、発生の頻度の順で表わすと、
「n」、「m」、「p」、「u」、「v」、「r」、
「s」及び「d」である。ここで銘記すべきことは、テ
キスト文字「−」は、1つのスペース、即ちブランクを
表わすのに用いられ、「*M」は行の終り文字を表わ
し、「nu1」はゼロ頻度数のエントリを表わすことであ
る。
表1の上部に水平インデックスとして現われているラ
ンク数字は、各文脈に対して、各相対的アルファベット
の種々のテキスト文字を表わすのに用いられるシンボ
ル、あるいはコード文字を含んでいる。従って、文脈
「co」のテキスト文字「m」に対するコード文字は
「2」である。
圧縮/再生テーブル1を検査すると、例えば、コード
文字「2」はまた、文脈「ee」、「te」、「se」及び
「or」においてテキスト文字「d」を表わし、文脈「t
o」及び「io」においてテキスト文字「r」を表わすこ
とがわかる。同様にして、コード文字「5」は、文脈
「a_」、「io」及び「lo」においてテキスト文字「g」
を表わし、文脈「re」、「ne」及び「to」においてテキ
スト文字「d」を表わしている。別の例の場合、コード
「11」は、先行の文脈が「ie」である場合、「ss」を表
わし、先行の文脈「o_」である場合は、「th」を表わ
す。
上記のことから以下のことが明らかである。すなわ
ち、同一のコード文字が異なるテキスト文字を表わすこ
とであり、かつ与えられたテキスト文字が異なったコー
ド文字によって表わされることである。即ち、コード文
字とテキスト文字との間にはそれら自体独特の1対1の
関係が存在しないことである。あるコード文字とあるテ
キスト文字との間の関係は、そのコード及びテキスト文
字が現われる特定の文脈に依存する。
このことは、以下の例で更に説明される文脈冗長度圧
縮の特徴を示している。即ち、一つのコード文字は、あ
る特定のテキスト文字を独自に定義するのに必要な情報
の全ての量をそれ自身に含む必要がないことである。コ
ードとテキスト文字との間の関係を定義する情報の部分
は、そのテキスト自身、すなわち、その文脈の中にあ
る。このため、圧縮されたテキストを不明瞭性なしに表
わすのに必要な独特なコード文字は少なく済み、従っ
て、コード文字は短くて済む。従って、その結果生ずる
圧縮されたテキストは、より少ないビットの情報で表わ
される。従って、テキスト自体は、テキスト情報に加え
て、圧縮された形と圧縮されない形との間にわたる変換
に必要な情報の一部を、圧縮された形及び圧縮されない
形の両方において含んでいる。
テキスト文字とコード文字との間の文脈依存関係の故
に、先行文脈、例えば、「nuls」あるいは「ブランク」
がテキストの最初のn文字に対して仮定されるか、ある
いは課せられる。この「ヘッダ文脈」は、テキストの最
初の文字あるいは諸文字を圧縮又は再生するための既知
の文脈を与えており、後続する文字はテキスト自体の文
脈において圧縮あるいは再生される。
テキストの圧縮及び再生のための本発明に係る方法及
びテーブルの使用を説明するために、句「total salt」
がテキストの中に現われており、「total」の最初の
「t」の先行文脈が、例えば、(th)e_の「e_」である
と仮定する。この句の圧縮及びその後に続く再生は、以
下に示す表2及び表3で説明されている。表2は、圧縮
プロセスを示しており表3は再生プロセスを表してい
る。
このサンプルテキストを圧縮するために、各テキスト
文字及びその関連する文脈が順に読出され、好ましい実
施例においては、このテキストが通常書き込まれた順に
従って読み取られる。この例の場合、読み取りは左から
右に行なわれる。この例は2次文脈、即ちn=2の文脈
を用いているため、各文字に対する文脈は、その文字の
直前に先行する2つの文字から成る。このように、ある
特定の文字の2文字先行文脈を決定すると、次にその文
脈は、その文脈に対する相対的アルファベットを位置づ
けるための、この圧縮/再生テーブルへのインデックス
として用いられる。この文脈と関連して読み取られる文
字は、次に相対的アルファベットの中に置かれ、相当す
るコード文字が、この表の上部におけるランクインデッ
クスに置かれる。このプロセスは、この圧縮オペレーシ
ョンが完了するまで、一度に一文字づつ、継続される。
例えば、「total」中の最初の「t」の先行文脈は、
「e_」である。「e_」は、対応する相対的アルファベッ
トをつきとめるためにこのテーブルへのインデックスと
して用いられる。その対応する相対的アルファベットは
上から第2番目の相対的アルファベットとして現われて
いる。次にこの相対的アルファベットは、スキャンされ
て、これによりテキスト文字「t」、即ち左から2番目
のエントリを突きとめ、対応するコード文字がこのテー
ブルの上部から「2」として読み取られる。次のテキス
ト文字は、「total」の「o」であり、「o」の文脈は
「_t」であり、従って、「o」に対するコード文字もま
た「2」となる。3番目のテキスト文字は、「toral」
の2番目の「t」であり、この「t」の先行文脈は、
「to」であり、そのコード文字は「7」であると決定さ
れる。
このプロセスはテキストの終わりまで継続し、この
「total salt」の圧縮された形は「2273513827」とな
る。
同一の圧縮/再生テーブルを用いて、逆のオペレーシ
ョンが実行され、これにより圧縮されたテキストを再生
する。この場合、読み取られる「テキスト」は圧縮され
たテキストであり、一度に1つづつ且つ書き込まれた順
次に従って読み取られる「文字」は、その圧縮されたテ
キストのコード文字である。各コード文字の先行文脈
は、復元されたテキストの先行復号化文字から成り、こ
のテキストが再生された時に決定される。このように決
定された文脈は、再びこのテーブルへのインデックスと
して用いられ、これにより適当な相対的アルファベット
を選択し、このコード文字は、選択された相対的アルフ
ァベット内の適当なテキスト文字を決定するためにイン
デックスとして用いられる。圧縮オペレーションに用い
られる既知の「ヘッダ文脈」が再び、圧縮されたテキス
トの最初の文字あるいは諸文字を再生するのに開始文脈
として用いられる。
上記と同一の例を用いて、この再生オペレーションを
説明するために、再生されるテキストが、コード文字シ
ーケンス「2273513827」から成り、且つ先行する再生テ
キストが再び「e_」であると決定されていると仮定す
る。次に、この再生オペレーションが下の表3に説明さ
れている。
先行する圧縮テキストが、シーケンス「2273513827」
の開始に再生されていると仮定すると、このシーケンス
中の最初の「2」の先行文脈は、このテキストの前に再
生された部分から「e_」であると分る。「e_」は、次に
このテーブルへのインデックスとして用いられ、これに
より、このシーケンスの最初の「2」の相対的アルファ
ベットを求め、この文字に対しては、この「e_」は、こ
のテーブルの上から2番目の相対的アルファベットとな
る。このシーケンスのこの最初の「2」は次に、このテ
ーブルへのインデックスとして用いられ、これにより、
その相対的アルファベットの対応するテキスト文字が
「t」であることを決定する。次に、このシーケンス中
の第2の「2」の先行文脈は、「_t」であることが知ら
れ、このテーブルへのインデックスとして「_t」及び
「2」を用いると、この第2の「2」に対応するテキス
ト文字は、「o」と求められる。第3のコード文字は、
現在知られている先行文脈「to」を伴う「7」であり、
そのテキスト文字は、「t」であると求めることがで
き、以下同様となる。
更に別の実施においては、上記の圧縮/再生は、反復
的に用いることができ、即ち、圧縮されたテキストは、
上記と同一の方法を用いて、それ自身が圧縮されること
ができる。反復的圧縮は、前記と同じ方法による圧縮/
再生テーブルの生成を必要とするが、圧縮されたテキス
ト資料の文脈冗長度を求め、且つ表を作成するために、
それらのテキストの圧縮された形を用いる。従って、テ
キストの圧縮は、2つのステップのプロセスになる。す
なわち、再生プロセスもそうであるが、オリジナルテキ
ストを圧縮する第1ステップと圧縮されたテキストを圧
縮する第2ステップである。この2つのステップ、すな
わち、反復的な圧縮/再生は、単一のステップのプロセ
スのように、「オンライン」で、すなわち、連続的プロ
セスとして実施され得る。
発明の効果 テキスト圧縮/再生の前記の方法の特定の特徴を繰り
返すと、本発明に係る方法は、文脈冗長度、即ち、個々
の文字が発生する文脈の非均一分布に基づいて動作す
る。ここに定義されているような文脈は、テキストを構
成する個々の文字に先行又は後続する文字の均一寸法の
グループを含んでいる。
この方法に用いられる圧縮/再生テーブルは、特定の
言語の言語学的特徴に影響されるが、この方法は、いか
なる形の言語学的分析あるいは、いかなる形の言語学的
特徴あるいは、いかなる言語のエレメントにも基づかな
い。従って、この方法は、完全に一般的であり、いかな
る言語にもあるいは、ある言語の「通用語」に対しても
等しく適用可能である。
この方法は、テキスト及びコード文字の均一寸法のグ
ループについて動作するため、この方法は複雑性が少な
く、他の方法が必要とするよりも、少ない処理時間及び
能力を必要とし、従って実施速度がより速くなる。同じ
理由でもって、この方法は実施において対称的であり、
唯一つの圧縮/再生テーブルを必要とするだけであり、
オンライン連続プロセスに対して好適である。
コード文字とテキスト文字との間の関係を定める情報
の部分は、文脈、即ちテキスト自体に、その圧縮形及び
非圧縮形の両方でもって存在する。このために、圧縮さ
れたテキストを不明瞭性なく表わすのに必要な独特のコ
ード文字は少なくて済み、従ってコード文字は短かくて
済む。従って、その結果生ずる圧縮されたテキストは、
より少ないビットの情報でもって表わすことができる。
従って、本発明によると、言語の言語学的特徴に比較
的依存せず、広範囲な言語に用いるのに適し、圧縮と再
生において対称であるテキスト情報が、圧縮と再生の速
度の改良を伴って、通信される方法及び装置が提供され
る。
【図面の簡単な説明】
第1図は、本発明を組込んでいるコンピュータシステム
の斜視図、第2A図は第1図のコンピュータシステムの一
部のブロック図、第2Bは第1図のコンピュータシステム
の他の部分のブロック図、第3図は、第1図、第2A図及
び第2B図のコンピュータシステムのソフトウエア構造の
図である。なお図面において、12……表示装置、14……
キーボード、16……CPU、18……メインプロセッサ、20
……コプロセッサ、36……システムクロック、38……待
ち状態ロジック、40……カウンタ及びタイマチップ、42
……プログラマブル割り込みチップ、44……非マスク可
能割込みロジック、48……DMA制御器、50……128KBラン
ダムアクセスメモリ、54……消去可能プログラマブル読
出し専用メモリ、56……ディスクドライブ、58……フロ
ッピー制御器、60……ディスクドライブ、62……ディス
ク制御器、66……ラスタプリンタ、67……プリンタ制御
器、68……通信制御器、70……ユーザインターフェース
ルーチン、72……応用機能インターフェースルーチン、
74、76……応用ルーチン、78……オペレーティングシス
テム、80……ハードウェアインターフェースシステム。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭58−85629(JP,A) 特開 昭59−33960(JP,A)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】情報処理システムにおいて、テキスト情報
    を通信するための方法が、 (A) 選択された言語に対して、言語をコード化する
    コード化テーブルを作成するステップであって、 (i) 前記言語のテキストは複数のテキスト文字のシ
    ーケンスからなり、該テキスト文字のシーケンス中の連
    続する所定の数のテキスト文字の組を前記言語のテキス
    トの文脈として規定し、各文脈に続いて現れ得るテキス
    ト文字の各々の発生の確率を決定するステップであっ
    て、 前記言語のテキストの代表的サンプルから、テキスト文
    字及び関連する文脈の各発生を読み取るステップと、 前記言語のテキストの前記代表的サンプルにおける文脈
    の発生頻度を決定するステップと、 前記言語のテキストの前記代表的サンプルにおいて発生
    する各文脈に対しての、関連する各テキスト文字の発生
    頻度を決定するステップと、 を含み、 続いて現れ得る各テキスト文字の発生の確率は、第1
    に、前記言語において現れる各文脈の発生頻度によっ
    て、そして第2に、各文脈についての、その文脈を伴う
    テキスト文字の発生頻度によって、決定される、 ステップと、 (ii) 前記言語に現れるテキスト文字と文脈との各組
    み合わせにコード文字を割り当てるステップであって、 各コード文字は、続いて現れ得る各テキスト文字の前記
    発生の確率に従って決定される順位に基づいて、前記言
    語に現れるテキスト文字と文脈との組み合わせに対して
    割り当てられる、 ステップと、 を備え、 前記コード化テーブルにおける各エントリは、前記言語
    に現れるテキスト文字と関連する文脈との組み合わせを
    表し、かつ、文脈とテキスト文字との組み合わせに割り
    当てられたコード文字を含み、かつ、前記言語のテキス
    トから読み取られたテキスト文字及び関連する文脈によ
    り前記コード化テーブルをアドレシングすることにより
    インデキシングされ且つ読み取られる、 コード化テーブルを作成するステップと、 (B) 選択された前記言語の選択されたテキストに対
    して、符号化を行うステップであって、 (i) 前記テキストの各テキスト文字及び関連する文
    脈を連続して読み取るステップと、 (ii) 各前記テキスト文字及び関連する文脈に対し
    て、前記コード化テーブルから対応するコード文字を選
    択するステップと、 を含む符号化を行うステップと、 (C) 前記コード文字を、前記テキストにおいて対応
    する前記テキスト文字が現れる順に、通信するステップ
    と、 (D) 選択された前記テキストを復号化するステップ
    であって、 (i) 通信された各前記コード文字を連続して読み取
    るステップと、 (ii) 各前記コード文字に対して、前記テキストの既
    知の再生部分から関連する文脈を読み取るステップと、 (iii) 関連する前記文脈に対応する前記コード化テ
    ーブルのエントリを識別するように関連する前記文脈
    で、前記コード化テーブルをインデキシングし、かつ対
    応する前記テキスト文字を識別するように前記コード文
    字で、識別された前記エントリをインデキシングするこ
    とによって、各前記コード文字及び関連する文脈に対し
    て前記コード化テーブルから対応するテキスト文字を選
    択するステップと、 を含む、復号化するステップと、 (E) 復元された形の前記テキストを構成するように
    前記テキスト文字を提供するステップと、 を備える情報処理システムにおけるテキスト情報を通信
    するための方法。
  2. 【請求項2】前記コード文字で表された形の前記テキス
    トを記憶するステップ、を更に備えることを特徴とする
    特許請求の範囲第1項に記載の方法。
  3. 【請求項3】情報処理装置において、選択された言語の
    テキスト情報を通信するための制御装置が、 (A) 各文脈に対しての続いて現れ得るテキスト文字
    の各々の発生の確率に基づいて、テキスト文字と文脈と
    の組み合わせにコード文字を割り当てるためのコード化
    テーブルであって、 前記言語のテキストは複数のテキスト文字のシーケンス
    からなり、該テキスト文字のシーケンス中の連続する所
    定の数のテキスト文字の組を前記言語のテキストの文脈
    として規定し、 このコード化テーブルにおける各エントリは、前記言語
    に現れるテキスト文字と関連する文脈との組み合わせを
    表し、かつ、文脈とテキスト文字との組み合わせに対し
    て割り当てられたコード文字を含み、 このコード化テーブルは前記言語のテキストの代表的サ
    ンプルから読み取られた各文脈の発生頻度と、各文脈に
    関連する各テキスト文字の発生頻度とを基にしており、 各文脈に続いて現れ得る各テキスト文字の発生の確率
    が、各前記文脈の前記発生頻度及びその文脈に対する前
    記テキスト文字の前記発生頻度によって、決定されてお
    り、 各コード文字が、続いて現れ得る各前記テキスト文字の
    発生の確率に従って決定される順位に基づいて、前記テ
    キスト文字と文脈との組み合わせに対して割り当てられ
    ており、 前記テキストから読み取られたテキスト文字及び関連す
    る文脈によりアドレシングされることによってインデキ
    シングされ且つ読み取られるように構成されたコード化
    テーブルと、 (B) テキストを圧縮する圧縮手段であって、 テキストの各テキスト文字及び関連する文脈を連続して
    読み取る手段と、 前記読み取る手段に応答し、各前記テキスト文字及び関
    連する文脈に対して、対応するコード文字を選択するた
    めのコード文字選択手段であって、前記コード文字は圧
    縮された形の前記テキストを含む、コード文字選択手段
    と、 を備える圧縮手段と、 (C) 前記コード文字を通信する手段と、 (D) 圧縮された前記テキストを復元する再生手段で
    あって、 通信された各前記コード文字を連続して読み取るための
    コード文字読み取り手段と、 前記コード文字読み取り手段に応答し、各前記コード文
    字に対して、前記テキストの既知の復元された部分から
    関連する文脈を読み取るための文脈読み取り手段と、 前記コード文字読み取り手段及び文脈読み取り手段に応
    答し、関連する前記文脈に対応する前記コード化テーブ
    ルのエントリを識別するように関連する前記文脈で、前
    記コード化テーブルをインデキシングし、かつ対応する
    前記テキスト文字を識別するように前記コード文字で、
    識別された前記エントリをインデキシングすることによ
    って、各前記コード文字及び関連する文脈に対して、対
    応するテキスト文字を選択するための、かつ復元された
    形の前記テキストを構成するように前記テキスト文字を
    提供するためのテキスト文字選択手段と、 を備える再生手段、 を備える情報処理装置。
JP59170985A 1983-08-16 1984-08-16 テキスト情報通信システム Expired - Lifetime JP2581661B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/523,739 US4672679A (en) 1983-08-16 1983-08-16 Context redundancy text compression
US523739 1990-05-15

Related Child Applications (3)

Application Number Title Priority Date Filing Date
JP4041591A Division JP2568343B2 (ja) 1983-08-16 1992-02-27 テキスト情報圧縮システム
JP4041600A Division JP2575259B2 (ja) 1983-08-16 1992-02-27 テキスト情報の圧縮及び復元に用いるテーブル
JP4041592A Division JP2568344B2 (ja) 1983-08-16 1992-02-27 テキスト情報再生システム

Publications (2)

Publication Number Publication Date
JPS60101669A JPS60101669A (ja) 1985-06-05
JP2581661B2 true JP2581661B2 (ja) 1997-02-12

Family

ID=24086269

Family Applications (4)

Application Number Title Priority Date Filing Date
JP59170985A Expired - Lifetime JP2581661B2 (ja) 1983-08-16 1984-08-16 テキスト情報通信システム
JP4041592A Expired - Lifetime JP2568344B2 (ja) 1983-08-16 1992-02-27 テキスト情報再生システム
JP4041600A Expired - Lifetime JP2575259B2 (ja) 1983-08-16 1992-02-27 テキスト情報の圧縮及び復元に用いるテーブル
JP4041591A Expired - Lifetime JP2568343B2 (ja) 1983-08-16 1992-02-27 テキスト情報圧縮システム

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP4041592A Expired - Lifetime JP2568344B2 (ja) 1983-08-16 1992-02-27 テキスト情報再生システム
JP4041600A Expired - Lifetime JP2575259B2 (ja) 1983-08-16 1992-02-27 テキスト情報の圧縮及び復元に用いるテーブル
JP4041591A Expired - Lifetime JP2568343B2 (ja) 1983-08-16 1992-02-27 テキスト情報圧縮システム

Country Status (6)

Country Link
US (1) US4672679A (ja)
EP (1) EP0134543B1 (ja)
JP (4) JP2581661B2 (ja)
AU (1) AU574702B2 (ja)
CA (1) CA1209274A (ja)
DE (1) DE3482065D1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59205874A (ja) * 1983-05-10 1984-11-21 Canon Inc 画像デ−タ圧縮装置
FR2551236B1 (fr) * 1983-08-30 1990-07-06 Canon Kk Systeme de traitement d'image
JPS60254871A (ja) * 1984-05-31 1985-12-16 Kokusai Denshin Denwa Co Ltd <Kdd> フアクシミリ画像の符号化方法
GB8618093D0 (en) * 1986-07-24 1986-09-03 Serif Software Ltd Data compression
US5590317A (en) * 1992-05-27 1996-12-31 Hitachi, Ltd. Document information compression and retrieval system and document information registration and retrieval method
JPH0764214A (ja) * 1993-08-31 1995-03-10 Fuji Photo Film Co Ltd 写真焼付情報印字装置及び写真プリンタ
US6460036B1 (en) 1994-11-29 2002-10-01 Pinpoint Incorporated System and method for providing customized electronic newspapers and target advertisements
US5758257A (en) 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
JP3238854B2 (ja) * 1995-02-21 2001-12-17 富士通株式会社 データ圧縮方法及びデータ圧縮装置、並びにデータ復元方法及びデータ復元装置
US5951623A (en) * 1996-08-06 1999-09-14 Reynar; Jeffrey C. Lempel- Ziv data compression technique utilizing a dictionary pre-filled with frequent letter combinations, words and/or phrases
US5999949A (en) * 1997-03-14 1999-12-07 Crandall; Gary E. Text file compression system utilizing word terminators
US7630986B1 (en) 1999-10-27 2009-12-08 Pinpoint, Incorporated Secure data interchange
US8705810B2 (en) * 2007-12-28 2014-04-22 Intel Corporation Detecting and indexing characters of videos by NCuts and page ranking
US8484170B2 (en) * 2011-09-19 2013-07-09 International Business Machines Corporation Scalable deduplication system with small blocks
JP6645013B2 (ja) * 2015-01-30 2020-02-12 富士通株式会社 符号化プログラム、符号化方法、符号化装置および伸長方法
US10838922B2 (en) 2017-03-31 2020-11-17 International Business Machines Corporation Data compression by using cognitive created dictionaries

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR1543777A (fr) * 1966-12-23 1900-01-01 Ibm Identification des caractères par utilisation du contexte
US3717851A (en) * 1971-03-03 1973-02-20 Ibm Processing of compacted data
US4058795A (en) * 1972-10-03 1977-11-15 International Business Machines Corporation Method and apparatus for context-aided recognition
DE2748859C3 (de) * 1977-10-31 1980-09-04 Siemens Ag, 1000 Berlin Und 8000 Muenchen Schaltungsanordnung zum Speichern eines Textes
AU6700181A (en) * 1979-12-12 1981-07-06 Key Tronic Corp. Document reader
US4383307A (en) * 1981-05-04 1983-05-10 Software Concepts, Inc. Spelling error detector apparatus and methods
DE3278850D1 (en) * 1981-11-09 1988-09-01 Ibm Data translation apparatus translating between raw and compression encoded data forms
US4597057A (en) * 1981-12-31 1986-06-24 System Development Corporation System for compressed storage of 8-bit ASCII bytes using coded strings of 4 bit nibbles

Also Published As

Publication number Publication date
EP0134543A2 (en) 1985-03-20
AU574702B2 (en) 1988-07-14
AU3174384A (en) 1985-02-21
JPS60101669A (ja) 1985-06-05
EP0134543B1 (en) 1990-04-25
JPH05197720A (ja) 1993-08-06
DE3482065D1 (de) 1990-05-31
US4672679A (en) 1987-06-09
JP2568344B2 (ja) 1997-01-08
CA1209274A (en) 1986-08-05
EP0134543A3 (en) 1985-10-30
JPH05197721A (ja) 1993-08-06
JPH05197760A (ja) 1993-08-06
JP2575259B2 (ja) 1997-01-22
JP2568343B2 (ja) 1997-01-08

Similar Documents

Publication Publication Date Title
JP2581661B2 (ja) テキスト情報通信システム
EP0233996B1 (en) Process in an information processing system for compaction and replacement of phrases
EP0633537B1 (en) Method and system for searching compressed data
US6020972A (en) System for performing collective symbol-based compression of a corpus of document images
US4650349A (en) Speed typing apparatus and method
EP0052725B1 (en) Method of reducing the print element changes in a text processing system
JPH026252B2 (ja)
JPH0351021B2 (ja)
JPH0683571A (ja) 多バイトデータ変換方法及びシステム
US5815096A (en) Method for compressing sequential data into compression symbols using double-indirect indexing into a dictionary data structure
US5940845A (en) System for accessing databases with different character sets
KR20030072574A (ko) 큰 문자 세트 브라우저
JPH04267630A (ja) データ圧縮装置及びデータ復元装置
JPH0546358A (ja) テキストデータの圧縮方法
US6032165A (en) Method and system for converting multi-byte character strings between interchange codes within a computer system
JPH0546357A (ja) テキストデータの圧縮方法および復元方法
WO1994027374A1 (en) Method and apparatus for efficient compression of data having redundant characteristics
US6829386B2 (en) Methods and apparatus for associating character codes with optimized character codes
Felician et al. A nearly optimal Huffman technique in the microcomputer environment
JPH06104769A (ja) ハフマン符号復号装置
Leece et al. Use and Misuse of SPSS
Matter Data Handling: Import, Cleaning and Visualisation
Keith Circle digits a self-referential story
JPH0352102B2 (ja)
SU690471A1 (ru) Устройство дл сопр жени периферийных устройств с эвм