JPH06131152A - セパレータが無いか少ない言語を表わすコンピュータファイルのためのデータ圧縮方法 - Google Patents

セパレータが無いか少ない言語を表わすコンピュータファイルのためのデータ圧縮方法

Info

Publication number
JPH06131152A
JPH06131152A JP5110048A JP11004893A JPH06131152A JP H06131152 A JPH06131152 A JP H06131152A JP 5110048 A JP5110048 A JP 5110048A JP 11004893 A JP11004893 A JP 11004893A JP H06131152 A JPH06131152 A JP H06131152A
Authority
JP
Japan
Prior art keywords
character
segment
dictionary
file
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5110048A
Other languages
English (en)
Inventor
David Wilmoth Scott
スコット・デビッド・ウィルモット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Compaq Computer Corp
Original Assignee
Compaq Computer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Compaq Computer Corp filed Critical Compaq Computer Corp
Publication of JPH06131152A publication Critical patent/JPH06131152A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Memory System (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【構成】 日本語の文書用言語のように複数のアルファ
ベットを含みかつセパレータが無い文書用言語を表わす
文字セットからの文字を備えたコンピュータファイルの
ためのデータ圧縮技術に関する。日本語またはその類似
の言語のアルファベットは、分離ブロックに写像される
ので、1つのセグメントからつぎのセグメントへの変化
は、識別(すなわち、同定)が可能である。それぞれの
特有なセグメントは、特有な数を割り当てられてセグメ
ントの辞書に加えられる。辞書は、対応する特有な数に
対して相互参照される特有なセグメントのリストを備
え、そして、元のファイルのそれぞれのセグメントは、
それを表わす特有な数に置換される。 【効果】 日本語のようなセパレータが無いか少ない言
語でも簡単に圧縮することができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、セパレータ記号が無い
か少なくかつ複数の字母系、すなわちアルファベット
(以下、「アルファベット」という)を含んだ言語を表
わすコンピュータファイルを圧縮する方法に関する。
【0002】
【従来の技術】多くのデータ圧縮技術が知られており、
これらのデータ圧縮技術は、コンピュータのデータおよ
び文書ファイルを圧縮してコンピュータの貴重なメモリ
空間を節約するのに一般的に用いられている。圧縮は、
典型的には膨大な量の繰り返しを含む文書およびデータ
ファイルにとって望ましく、また、ヘルプファイルのよ
うな大きな文書ファイルのサイズを減少させるのに特に
有利である。このように圧縮されたファイルは、より小
さいメモリ空間を使うだけであり、また、使用する必要
があるときには元の形態に拡張させるだけでよい。
【0003】例えば英語のような文書形態の多くの言語
は、単語とセパレータ(すなわち、スペース、カンマ、
ピリオドまたは他の句読点)との交互のストリーム(す
なわち、流れ)として捉えることができるかもしれな
い。それぞれの文は、異なる考えまたはメッセージを伝
える単語の特有な組合せから成っているが、これらの文
は、ファイルを通して繰り返される共通の単語を用いて
いる。全ての単語は、単語の間にあるセパレータによっ
て素早く区別することができる。
【0004】文書用言語を表わすコンピュータファイル
においては、単語のそれぞれの種類または字体は、AS
CII文字セットとして一般に知られている情報交換に
関するアメリカ標準協会制定の文字コード(ASCI
I)のような、コンピュータ処理が可能な幾つかの文字
コードのうちの一つを用いた8ビット16進の文字によ
って、典型的に表わされる。また、セパレータ記号もA
SCII文字を割り当てられているので、コンピュータ
は、ASCIIファイルにおける互いに異なる単語を簡
単に区別することができる。
【0005】セパレータまたは句読点を用いる文書用言
語を表わすコンピュータファイルを圧縮するのに役立つ
一つの工夫は、セパレータ記号が読み取られるまで、単
語を表わす文字のグループを読み取ることである。この
とき、圧縮されるべきファイルからの特有な単語のリス
トを備えた辞書は、現在圧縮の対象となっている単語
(すわなち、現在の単語)がこの辞書中にあるかどうか
を決定するために探索される。単語が辞書の中に無けれ
ば、この単語はその単語を表わす特有な数を割り当てら
れ、そのとき、この単語およびその特有な数は辞書に加
えられる。この特有な数は、典型的には、65,000
よりも多い特有な単語を置換し得る2バイト16進のコ
ードである。したがって、辞書は、その対応する特有な
数に対して相互参照される元のファイル中の全ての特有
な単語のリストを備えている。単語が見つけ出された後
または単語が見つけ出されずに辞書に加えられた後に、
この単語は、元のファイルまたは新しく圧縮されたファ
イル中において、その対応する特有な数に置換される。
この処理は、単語およびセパレータを表わす文字のスト
リームを備えた元のファイルが完全な相互参照辞書と元
の文書を表わす特有な数のリストとによって置換される
まで、継続される。単一のスペースは、無視されること
ができるか、あるいは、句読点が無ければそれぞれの単
語間に有るものと仮定されることができ、また、句読点
の特有な組合せは、特有な数に変換されることができ
る。
【0006】それぞれの単語は、辞書中において、対応
する特有な数を伴って繰り返されなければならず、ま
た、特有な数のリストは、圧縮されたファイル中の元の
単語およびセパレータに置換されなければならないが、
元のファイル中の繰り返しは排除されるので、ファイル
のサイズの実質的な減少は、上述の方法を用いることに
よって達成される。
【0007】
【発明が解決しようとする課題】これに較べて、日本語
の文書用言語のような文書形態の幾つかの言語は、スペ
ースや記号間の句読点のような他のセパレータが無いか
少ない連続した記号の列から成っている。したがって、
これらの言語は、セパレータが無いか少ないために、上
述したような方法では簡単に圧縮することができない。
例えば日本語では、上記記号は、幾つかの日本語の記述
方式またはアルファベット(平仮名、片仮名、ローマ字
および漢字を含む)のいずれか一つであるか、あるい
は、数学の方程式またはグラフ的な記号を表わす数学的
なギリシャ語またはロシア語の記号などである。本文に
おいては、数学的なギリシャ語およびロシア語記号は、
一緒に分類されていて、もう1つの日本語の記述方式ま
たはアルファベットであると考えられている。また、本
文においては、「アルファベット」という単語は互換的
に用いられているが、漢字または平仮名のような日本語
の文字セットに関しては、上記「記述方式」という語句
は、この「アルファベット」という単語よりも技術的に
もっと正確であるということが理解できる。ローマ字ア
ルファベットは、英文字から成り、漢字アルファベット
のそれぞれの記号は、言語学上は元来中国語から派生し
てその後に独自に実を結んだ単語を表わしている。片仮
名および平仮名アルファベットは、音声学上のアルファ
ベット記号であって、平仮名は日本語を表し、片仮名は
日本語以外の外国語を表わしている。
【0008】セパレータが無いか少ない複数の分離記述
方式またはアルファベットから成る文書用言語の一つを
表わすコンピュータファイルは、典型的には、文書記号
を表わすための16進の文字コードを用いている。日本
語を表わすコンピュータファイルは、それぞれの日本語
アルファベットからのそれぞれの記号がその記号を表わ
す特有な16進の文字コードを割り当てられるJISお
よびシフトJISの文字セットを備えている。最初の2
56文字は、上記JISの文字セットから成り、その中
で下部のJISの128文字はASCIIと同一の文字
から成っている。また、JISの上部の128文字は、
拡張されたASCII(すなわち、上部の128ASC
II文字)とは異なっていて、以下において説明する片
仮名の1バイトアルファベットから成っている。一般
に、JISの文字セットの割り当てられた文字は1バイ
トまたは8ビットの文字であるのに対し、シフトJIS
の文字は一般に2バイトの文字である。上記JISおよ
びシフトJISの文字セットは、上述のように定義され
たそれぞれのアルファベットが分離論理ブロックまたは
上記16進文字コードにより定義される位置に写像され
るように、充分に定義されている。
【0009】日本語の文書用言語と同様な文書用言語を
表しているコンピュータファイルの圧縮は、セパレータ
が無いか少ないために行うことができなかった。例え
ば、日本語の文書用言語を表しているJISおよびシフ
トJISの文字セットから成るコンピュータファイルの
圧縮は、セパレータが無いか少ないことと、文字の反復
性のあるグループ分け(すなわち、分類)の定義が困難
なこととのために、本発明による技術よりも以前には行
われてはいなかった。独断的に決められた数の記号を分
類することもまた、圧縮が全くまたはほとんど行われな
いために、実行できなかった。このために、日本語また
は日本語と同様な文書用言語から成るコンピュータファ
イルは、以前には圧縮されることはなかった。
【0010】
【課題を解決するための手段】本発明による技術は、 日本語のような言語を表わすコンピュータファイル
は、それぞれのセグメントが複数のアルファベットのう
ちの一つの文字コード列である一連の連続したセグメン
トから成り、 これらのセグメントの繰り返しは、膨大な量で発生す
る、という事実を利用している。本発明による技術は、
幾つかのアルファベットを含みかつセパレータが無いか
少ないという日本語と同様な特徴を有する他の言語にも
適用し得るものであることが理解されるべきであるが、
本文においては、日本語が一つの例として用いられてい
る。この言語にはセパレータが無いか少ないので、本発
明による技術は、分離論理ブロックへのアルファベット
の論理写像を用いることによって、一つのアルファベッ
トから別のアルファベットへの変化を表わす一つのセグ
メントから別のセグメントへの変化を認識している。こ
のために、それぞれのセグメントは、一つのアルファベ
ットから別のアルファベットに変化することによって、
別個に定義される。
【0011】したがって、本発明による圧縮技術は、セ
グメントを識別、すなわち同定するために、文字が別の
アルファベットから読み取られるまで1つのアルファベ
ットからの連続した文字の列を読み取るステップと、現
在のセグメントが辞書内にあるかどうかを決定するため
に、対応する特有な数に対して相互参照される複数の特
有なセグメントを備えた上記辞書を探索するステップ
と、まだ上記辞書中に無ければ、上記セグメントを特有
な数に割り当てると共に上記セグメントおよびその対応
する特有な数を上記辞書に付加し、または、現在のセグ
メントがすでに上記辞書中に有れば、上記辞書からその
対応する特有な数を検索するステップと、元のセグメン
トをその特有な数と置換するステップと、ファイル中の
全てのセグメントが読み取られかつ置換されるまで、上
述した一連のステップを繰り返すステップとを備えてい
る。この方法においては、セグメントの膨大な数の繰り
返しが起きるために、圧縮を行うことができる。
【0012】より一層の圧縮は、それぞれの漢字記号が
言語学上の単語を表わしているために、日本語のそれぞ
れの漢字セグメント内で達成され得る。この場合、膨大
な数の繰り返しがそれぞれの漢字セグメント内で起き
る。それぞれの漢字セグメント中の最後のサブセグメン
トは少ない文字しか備えていないかもしれないが、漢字
セグメントに遭遇するとき、それは、それぞれが予め定
められた数の漢字を備えた複数のサブセグメントにさら
に分割される。したがって、上記漢字セグメント内のそ
れぞれのサブセグメントは、特有な数を割り当てられ、
そして、上述した正規のセグメントとして取り扱われ
る。上記の予め定められた数はプログラム可能であるか
ら、最大レベルの圧縮が試行錯誤を通して達成可能であ
る。
【0013】
【実施例】本発明をより良く理解し得るように、添附の
図面に基づいて本発明の好ましい実施例を以下において
説明する。
【0014】日本語の文書用言語のような文書形態のい
くかつの言語は、セパレータが無いかほとんど含んでい
ない幾つかの記述方式またはアルファベットから成って
いる。本発明による技術は、日本語に限定されるもので
はないが、この実施例は、日本語を用いて説明されてい
る。上記日本語の文書用言語は、数学の方程式およびグ
ラフ上の記号を表わす数字的なギリシャ語およびロシア
語の記号や、平仮名、片仮名、ローマ字および漢字を含
む幾つかのアルファベットから成っている。日本語はス
ペースまたは句読点のようなセパレータ記号をほとんど
含んでいないということが認識されている。また、英語
と日本語との間には都合の良い対応が無いので、英語で
簡単に達成されたのと同じ単語に日本語を分類するのは
困難であると認識されている。
【0015】今、図1を参照すると、JISおよびシフ
トJISの文字セットは、アルファベットからのそれぞ
れの記号がこれと対応する文字に割り当てられている日
本語アルファベットの論理写像を説明するために示され
ている。上記JISおよびシフトJISの文字セットか
ら直ちに分かるように、それぞれの日本語アルファベッ
トは、16進文字コードの論理位置の分離ブロック中に
写像されている。例えば、16進値の0から7Fは、ロ
ーマ字1バイト記号を表わし、また、16進値のA1か
らDFは、JISの文字セットの片仮名1バイト記号を
表わしている。シフトJISセットにおいては、16進
値の8140から81FCは種々雑多なグラフ上の2バ
イト記号を表わし、16進値の824Fから829Aは
ローマ字2バイト記号を表わし、16進値の829Fか
ら82F1は平仮名2バイト記号を表わし、16進値の
8340から8396は片仮名2バイト記号を表わし、
16進値の839Fから84BEはギリシャ語、ロシア
語および他のグラフ的な記号を表わし、16進値の88
9FからA000とDFFFからFFFFとは、漢字2
バイト記号を表わしている。16進値のA000とDF
FFとの間のギャップは、上記片仮名1バイト文字と上
記漢字2バイト文字との混同を防止するために、まった
く文字を含んでいない。
【0016】この技術は、上述した特定の写像に限定さ
れるものではないことが理解されるべきである。個々の
アルファベットが特有なブロック中に分離され、そし
て、それぞれの記号がどのアルファベットに属するかに
ついての曖昧さが無い限り、他の写像方法でも十分であ
る。したがって、JISおよびシフトJISの文字セッ
トを備えたコンピュータファイルを処理するコンピュー
タが個々のそれぞれの文字とこれらが属する日本語アル
ファベットとを簡単に識別、すなわち同定することがで
きるように、上記JISおよびシフトJISの文字セッ
トが充分に定義されるのは明らかである。
【0017】JISおよびシフトJISの文字を備えた
ファイルを処理するコンピュータは、英語について処理
することができる逆の順序では処理することができず、
上記ファイルにおいてその順序でのみ処理しなければな
らない。コンピュータは、記号を写像する論理的アドレ
スによって、それぞれの文字が属するアルファベットを
簡単に同定することができる。本発明にしたがって文字
をセグメントに分離するために、コンピュータは、ファ
イル中のそれぞれの文字を最初から最後まで読み取っ
て、それぞれの文字が属するアルファベットを同定す
る。文字が異なるアルファベットから見い出されたとき
には、或る種の変更によって、連続したセグメント間の
分離が同定されて定義される。それぞれの特有なセグメ
ントは、特有な数を割り当てられ、そして、セグメント
とその対応する特有な数との辞書に加えられる。つい
で、列をなすセグメントは、その対応する特有な数に置
換される。ついで、元の文字列は、上記辞書とその対応
する特有な数の列とに置換される。
【0018】漢字セグメント内のサブセグメントを開発
することも、また望ましい。それぞれの漢字サブセグメ
ント内では膨大な繰り返しが起きるが、漢字セグメント
は一般にそれほど多くは繰り返されないので、上記開発
を達成することができる。漢字記号は様々な組合せで繰
り返されるので、選択(すなわち、セレクション)は2
つまたは3つの漢字記号からなるサブセグメントを開発
することができる。2つ、3つまたはその他の数の選択
は、それぞれのファイルについての試行錯誤によって達
成することができる。サブセグメントを用いることによ
って、漢字サブセグメントおよびセグメントにおける繰
り返しの可能性は増加する。
【0019】今、図2には、本発明による方法を説明す
るためのフローチャートが示されている。この方法は、
日本語JISおよびシフトJISの文字を含んでいる元
のファイルを入力として受けかつ圧縮されたファイルを
出力として供給するコンピュータを演算させるソフトウ
エアプログラムによって、好適に達成される。コンピュ
ータの演算は、スタートステップ100において開始さ
れ、そして、入力ファイルから最初のまたは次の文字を
読み取るステップ102へと進む。新しいまたは現在の
文字のタイプは、日本語アルファベットの一つに属する
ものとして同定される。CNTとして参照されている変
数は、漢字サブセグメントにおいて読み取られる文字の
数をカウントするために増加する。上記セグメントが漢
字セグメントでなければ、上記CNT変数は無視され
る。
【0020】ステップ102からステップ104へと演
算が進むと、ステップ104では、現在の文字のタイプ
が、もしあれば前に読み取られた文字と比較され、その
文字のタイプが変化したか否かが決定される。現在の文
字がファイルから読み取られた最初の文字であるか、あ
るいは、前に読み取られた文字と同一のタイプであれ
ば、そのときには、上記文字は現在のセグメントに加え
られて、演算はステップ106へと進む。この場合、セ
グメント間の変化は起きず、現在のセグメントは依然と
して決定されたまゝである。ステップ106において、
上記セグメントのタイプは漢字と比較され、そして、C
NT変数は漢字サブセグメントの最大サイズを表わす予
め決められた数と比較される。ステップ106におい
て、セグメントが漢字でないか、あるいは、CNT変数
が予め決められた数と同じもしくはそれ未満であれば、
そのときには、演算はステップ108へ進み、ここで
は、現在の文字が入力ファイルの終端を表わすファイル
終端(EOF)の文字と比較される。この現在の文字が
上記EOFの文字でなければ、演算は次の文字を読み取
るためにステップ102へと戻る。
【0021】ステップ104を再び参照すると、ステッ
プ104で読み取られた現在の文字のタイプが前の文字
のタイプと相違すれば、そのときには、一つのセグメン
ト全体が読み取られ、そして、演算は、新しいセグメン
トを圧縮するために実行されるルーチンまたは手続きを
表わす圧縮ステップ110へと進む。圧縮ステップ11
0に遭遇すると、演算はステップ112へと進み、ここ
では、現在の文字から新しいセグメントが開始されるの
で、CNT変数は1に設定される。ついで、演算はステ
ップ114へと進み、ここでは、辞書は、現在のセグメ
ントが辞書中に存在するか否かを決定するために探索さ
れる。この辞書は、入力ファイルの特有なセグメントの
リストと、その対応する特有なセグメントを表わすそれ
ぞれの対応する特有な数のリストとを備えている。現在
のセグメントが入力ファイルの最初のセグメントであれ
ば、辞書はステップ114において初期設定される。
【0022】ついで、演算は、現在のセグメントが辞書
中に見い出されたかどうかを決定するために、ステップ
116へと進む。この現在のセグメントが上記辞書中に
無ければ、このときには、演算はステップ118へと進
み、ここでは、新しい固有な数が現在のセグメントを表
わすために決定されて割り当てられ、そして、現在のセ
グメントとその対応する固有な数とが辞書に付加され
る。他方、ステップ116において、現在のセグメント
が繰り返しセグメントを表わすものとして見い出されれ
ば、そのときには、演算はステップ120へと進み、こ
こでは、現在のセグメントの対応する特有な数が読み取
られる。演算がステップ118または120からステッ
プ122へと進むと、ここでは、現在のセグメントがそ
の対応する特有な数に置換される。分離出力ファイルが
発生されていれば、ステップ122における置換は、開
発されている出力ファイルの終端に上記特有な数を付加
することを意味していることが理解されるべきである。
ついで、演算はリターンステップ124へと進み、ここ
では、演算を出発点のメインループへと戻す。例えば、
ステップ104からステップ110へと進めば、つぎに
は、演算はステップ108へと進み、ここでは、上記現
在の文字が上記EOFの文字と比較される。
【0023】ステップ106を再び参照すると、現在の
セグメントが漢字セグメントであり、そして、上記CN
T変数が上記予め定められた数よりも大きければ、その
ときには、新しい漢字サブセグメントが読み取られるの
で、演算は圧縮ステップ110へと進む。ステップ11
0〜124は、正規のセグメントについて上述したよう
に、新しい漢字サブセグメントについて上述の場合と同
様な方法で実行される。例えば、上記予め定められた数
が3であれば、そのときには、それぞれの漢字セグメン
トは、3つよりも少ない漢字から成る漢字セグメントの
最後のサブセグメントをできるだけ除いて、それぞれが
3つの文字から成る複数のサブセグメント中に分割され
る。それぞれの特有な漢字サブセグメントは、対応する
特有な数に割り当てられると共に辞書に付加され、そし
て、この特有な数は、圧縮された出力ファイルにおいて
漢字サブセグメントに置換される。ステップ106から
ステップ110に進めば、演算はステップ112〜12
4を経てステップ108へと進む。
【0024】最後に、現在の文字がステップ108で決
定されたように上記EOFの文字であれば、演算は、入
力ファイルからの最後のセグメントを圧縮するために、
再びステップ110へと進む。ついで、演算はステップ
124から完了ステップ126へと進んで、圧縮が完了
する。
【0025】圧縮されたファイルから元のファイルを検
索するには、英語について当業者に知られているのと同
様のコンピュータプログラムを用いて、特有な数の列を
読み取り、そして、それぞれの特有な数を辞書のその対
応するセグメントと置換する。
【0026】本発明の上述の開示および記載は、その例
示および説明であり、上記演算方法の実施にあたって
は、本発明の思想を逸脱することなく様々な変更が可能
である。
【0027】
【発明の効果】以上において説明した本発明によれば、
セパレータ記号が無いか少なくかつ複数のアルファベッ
トを含んだ日本語またはこれと同様な特徴を有する他の
言語を表わすコンピュータファイルのデータ圧縮を簡単
に達成することができる。
【図面の簡単な説明】
【図1】幾つかの日本語アルファベットの論理写像を説
明する日本語JISおよびシフトJISの文字セットを
示している。
【図2】本発明による方法を説明するフローチャートで
ある。
【符号の説明】
100 スタートステップ 110 圧縮ステップ 114 辞書の探索ステップ 118 特有な数の割り当ておよび辞書への付加
ステップ 120 特有な数の読取りステップ 122 置換ステップ 124 リターンステップ 126 完了ステップ

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】セパレータ記号が無いか少ない複数のアル
    ファベットを含む言語を表わす文字セットからの文字の
    列を備えたコンピュータファイルを圧縮する方法であっ
    て、 (a) 前の文字と同一のアルファベットには関連して
    いない最初の文字が読み取られるまで(この場合、同一
    のアルファベットの連続した文字の読み取りがセグメン
    トを定義している。)、文字の列からそれぞれの文字を
    読み取るステップと、 (b) 複数の対応する特有な数に対して相互参照され
    る文字の特有なセグメントの複数を備えた辞書を上記セ
    グメントのために探索するステップと、 (c) 上記セグメントが上記辞書中に見つかれば、対
    応する特有な数を上記辞書から検索し、そして、上記セ
    グメントが見つからなければ、対応する特有な数を上記
    セグメントに割り当てると共に、上記セグメントおよび
    上記対応する特有な数を上記辞書に付加するステップ
    と、 (d) 上記セグメントをその対応することを表わす特
    有な数と置換するステップと、 (e) 前のセグメントの最後の文字の後で読み取られ
    る最初の文字が新しいセグメントを始めるときに、上記
    コンピュータファイルの終端まで上記ステップ(a)〜
    (d)を繰り返すステップとを備えることを特徴とする
    データ圧縮方法。
  2. 【請求項2】文字セットが日本語の文書用言語を表わす
    JISおよびシフトJISの文字セットであれば、そし
    て、上記セグメントが上記ステップ(a)において漢字
    を含んでいれば、 上記ステップ(a)は、読み取られる文字の数が予め定
    められた数と等しい数になるまで、または、漢字でない
    文字が読み取られるまで、上記セグメント内の漢字サブ
    セグメントを読み取るステップを備え、 このとき、上記ステップ(b)、(c)、(d)および
    (e)が上記漢字サブセグメントについても上記セグメ
    ントの場合と同様に演算されることを特徴とする請求項
    1記載のデータ圧縮方法。
  3. 【請求項3】セパレータ記号を全くまたは少ししか用い
    ていない複数のアルファベットを含む言語方式を表わす
    文字の列を備えたコンピュータファイルを圧縮する方法
    であって、 上記ファイルからつぎの文字を読み取るステップと、 上記アルファベットの一つに属しているか、または、フ
    ァイル終端の文字であるかを上記文字のタイプについて
    決定するステップと、 上記文字の上記タイプをもしあれば前に読み取られた文
    字のタイプと比較し、そして、そのタイプが互いに同じ
    であれば、上記同じタイプを有しかつ前に読み取られた
    連続した文字を含むセグメントに上記文字を付加するス
    テップと、 上記比較ステップにおいて上記文字のタイプが相違して
    いれば、または、上記決定ステップにおいて上記文字が
    ファイル終端の文字であれば、上記同じタイプを有しか
    つ前に読み取られた連続した文字として新しいセグメン
    トを同定すると共に、対応する複数の特有な数に対して
    相互参照される文字の特有なセグメントの複数を備えた
    辞書を上記新しいセグメントのために探索するステップ
    と、 上記セグメントが上記辞書中に見つかれば、上記辞書か
    ら対応する特有な数を検索し、そして、上記セグメント
    が上記辞書中に見つからなければ、対応する特有な数を
    上記セグメントに割り当てると共に、上記セグメントお
    よび上記対応する特有な数を上記辞書に付加するステッ
    プと、 上記セグメントをその対応する特有な数と置換するステ
    ップと、 つぎのセグメントを始めるために、異なるタイプであっ
    た最後の文字の読み取りを利用するステップと、 上記ファイル中の全てのセグメントがその対応する特有
    な数に置換されるまで、上記読み取り、決定、比較、付
    加、同定、割り当て、検索、置換および利用のステップ
    を繰り返すステップとを備えることを特徴とするデータ
    圧縮方法。
  4. 【請求項4】幾つかの日本語アルファベットを表わすJ
    ISおよびシフトJISの文字の列を備えたコンピュー
    タファイルを圧縮する方法であって、 上記ファイルからつぎの文字を読み取ると共に、最後の
    セグメントからの文字の読み取りの数をカウントするス
    テップと、 上記日本語アルファベットの一つに属するか、または、
    ファイル終端の文字であるかを上記文字のタイプについ
    て決定するステップと、 上記文字の上記タイプをもしあれば前に読み取られた文
    字のタイプと比較し、そして、そのタイプが互いに同じ
    であれば、上記同じタイプを有しかつ前に読み取られた
    連続した文字を含むセグメントに上記文字を付加するス
    テップと、 上記文字のタイプが相違していれば、または、上記文字
    のタイプが漢字であると共に上記文字の読み取りの数が
    予め定められた数よりも大きければ、または、上記文字
    がファイル終端の文字であれば、上記同じタイプを有し
    かつ前に読み取られた連続した文字として新しいセグメ
    ントを同定すると共に、対応する複数の特有な数に対し
    て相互参照される文字の特有なセグメントの複数を備え
    た辞書を上記新しいセグメントのために探索するステッ
    プと、 上記セグメントが上記辞書中に見つかれば、対応する特
    有な数を上記辞書から検索し、そして、上記セグメント
    が上記辞書中に見つからなければ、対応する特有な数を
    上記セグメントに割り当てると共に、上記セグメントお
    よび上記対応する特有な数を上記辞書に付加するステッ
    プと、 上記セグメントをその対応する特有な数と置換するステ
    ップと、 つぎのセグメントを始めるために、異なるタイプであっ
    た最後の文字の読み取りを利用するステップと、 上記ファイル中の全てのセグメントがその対応する特有
    な数に置換されるまで、上記の読み取り、カウント、決
    定、比較、付加、同定、割り当て、検索、置換および利
    用のステップを繰り返すステップとを備えることを特徴
    とするデータ圧縮方法。
JP5110048A 1992-04-13 1993-04-13 セパレータが無いか少ない言語を表わすコンピュータファイルのためのデータ圧縮方法 Pending JPH06131152A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US86797592A 1992-04-13 1992-04-13
US867,975 1992-04-13

Publications (1)

Publication Number Publication Date
JPH06131152A true JPH06131152A (ja) 1994-05-13

Family

ID=25350835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5110048A Pending JPH06131152A (ja) 1992-04-13 1993-04-13 セパレータが無いか少ない言語を表わすコンピュータファイルのためのデータ圧縮方法

Country Status (1)

Country Link
JP (1) JPH06131152A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09212395A (ja) * 1996-01-30 1997-08-15 Sharp Corp テキスト圧縮用辞書作成装置およびテキスト圧縮装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5822434A (ja) * 1981-07-31 1983-02-09 Fujitsu Ltd 日本語文章処理システム
JPS61242122A (ja) * 1985-04-17 1986-10-28 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 文字データ・ストリームの適応的圧縮方法
JPH02255977A (ja) * 1989-01-30 1990-10-16 Nec Corp 日本語文字列情報圧縮方式

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5822434A (ja) * 1981-07-31 1983-02-09 Fujitsu Ltd 日本語文章処理システム
JPS61242122A (ja) * 1985-04-17 1986-10-28 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 文字データ・ストリームの適応的圧縮方法
JPH02255977A (ja) * 1989-01-30 1990-10-16 Nec Corp 日本語文字列情報圧縮方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09212395A (ja) * 1996-01-30 1997-08-15 Sharp Corp テキスト圧縮用辞書作成装置およびテキスト圧縮装置

Similar Documents

Publication Publication Date Title
CN107463666B (zh) 一种基于文本内容的敏感词过滤方法
US5655129A (en) Character-string retrieval system and method
US6470347B1 (en) Method, system, program, and data structure for a dense array storing character strings
EP0293161B1 (en) Character processing system with spelling check function
JP2726568B2 (ja) 文字認識方法及び装置
US7260574B2 (en) Method and system for mapping strings for comparison
US5649023A (en) Method and apparatus for indexing a plurality of handwritten objects
US6507678B2 (en) Apparatus and method for retrieving character string based on classification of character
EP0394633A2 (en) Method for language-independent text tokenization using a character categorization
JPH026252B2 (ja)
US9720976B2 (en) Extracting method, computer product, extracting system, information generating method, and information contents
EP1011057B1 (en) Identifying a group of words using modified query words obtained from successive suffix relationships
CN100361128C (zh) 一种用于文本或网络内容分析的多关键词匹配方法
US6304878B1 (en) Method and system for improved enumeration of tries
JPH0869476A (ja) 検索システム
US6470362B1 (en) Extracting ordered list of words from documents comprising text and code fragments, without interpreting the code fragments
JPH06131152A (ja) セパレータが無いか少ない言語を表わすコンピュータファイルのためのデータ圧縮方法
CN101576877A (zh) 一种快速分词的实现方法
JP3253657B2 (ja) 文書検索方法
JPH056398A (ja) 文書登録装置及び文書検索装置
JPH0227423A (ja) 日本語文字データの並び換え方法
JP4183767B2 (ja) 文字列検索装置およびその検索方法
JPH06251070A (ja) 単語検索のための電子辞書圧縮方法及び装置
CN117688908A (zh) 一种将天城文基本字符序列转换为可打印字符序列的方法
JPH07319895A (ja) 文書検索装置及び文書検索方法