JPH06131152A

JPH06131152A - セパレータが無いか少ない言語を表わすコンピュータファイルのためのデータ圧縮方法

Info

Publication number: JPH06131152A
Application number: JP5110048A
Authority: JP
Inventors: David Wilmoth Scott; スコット・デビッド・ウィルモット
Original assignee: Compaq Computer Corp
Current assignee: Compaq Computer Corp
Priority date: 1992-04-13
Filing date: 1993-04-13
Publication date: 1994-05-13

Abstract

(57)【要約】【構成】日本語の文書用言語のように複数のアルファ
ベットを含みかつセパレータが無い文書用言語を表わす
文字セットからの文字を備えたコンピュータファイルの
ためのデータ圧縮技術に関する。日本語またはその類似
の言語のアルファベットは、分離ブロックに写像される
ので、１つのセグメントからつぎのセグメントへの変化
は、識別（すなわち、同定）が可能である。それぞれの
特有なセグメントは、特有な数を割り当てられてセグメ
ントの辞書に加えられる。辞書は、対応する特有な数に
対して相互参照される特有なセグメントのリストを備
え、そして、元のファイルのそれぞれのセグメントは、
それを表わす特有な数に置換される。【効果】日本語のようなセパレータが無いか少ない言
語でも簡単に圧縮することができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、セパレータ記号が無い
か少なくかつ複数の字母系、すなわちアルファベット
（以下、「アルファベット」という）を含んだ言語を表
わすコンピュータファイルを圧縮する方法に関する。

【０００２】

【従来の技術】多くのデータ圧縮技術が知られており、
これらのデータ圧縮技術は、コンピュータのデータおよ
び文書ファイルを圧縮してコンピュータの貴重なメモリ
空間を節約するのに一般的に用いられている。圧縮は、
典型的には膨大な量の繰り返しを含む文書およびデータ
ファイルにとって望ましく、また、ヘルプファイルのよ
うな大きな文書ファイルのサイズを減少させるのに特に
有利である。このように圧縮されたファイルは、より小
さいメモリ空間を使うだけであり、また、使用する必要
があるときには元の形態に拡張させるだけでよい。

【０００３】例えば英語のような文書形態の多くの言語
は、単語とセパレータ（すなわち、スペース、カンマ、
ピリオドまたは他の句読点）との交互のストリーム（す
なわち、流れ）として捉えることができるかもしれな
い。それぞれの文は、異なる考えまたはメッセージを伝
える単語の特有な組合せから成っているが、これらの文
は、ファイルを通して繰り返される共通の単語を用いて
いる。全ての単語は、単語の間にあるセパレータによっ
て素早く区別することができる。

【０００４】文書用言語を表わすコンピュータファイル
においては、単語のそれぞれの種類または字体は、ＡＳ
ＣＩＩ文字セットとして一般に知られている情報交換に
関するアメリカ標準協会制定の文字コード（ＡＳＣＩ
Ｉ）のような、コンピュータ処理が可能な幾つかの文字
コードのうちの一つを用いた８ビット１６進の文字によ
って、典型的に表わされる。また、セパレータ記号もＡ
ＳＣＩＩ文字を割り当てられているので、コンピュータ
は、ＡＳＣＩＩファイルにおける互いに異なる単語を簡
単に区別することができる。

【０００５】セパレータまたは句読点を用いる文書用言
語を表わすコンピュータファイルを圧縮するのに役立つ
一つの工夫は、セパレータ記号が読み取られるまで、単
語を表わす文字のグループを読み取ることである。この
とき、圧縮されるべきファイルからの特有な単語のリス
トを備えた辞書は、現在圧縮の対象となっている単語
（すわなち、現在の単語）がこの辞書中にあるかどうか
を決定するために探索される。単語が辞書の中に無けれ
ば、この単語はその単語を表わす特有な数を割り当てら
れ、そのとき、この単語およびその特有な数は辞書に加
えられる。この特有な数は、典型的には、６５，０００
よりも多い特有な単語を置換し得る２バイト１６進のコ
ードである。したがって、辞書は、その対応する特有な
数に対して相互参照される元のファイル中の全ての特有
な単語のリストを備えている。単語が見つけ出された後
または単語が見つけ出されずに辞書に加えられた後に、
この単語は、元のファイルまたは新しく圧縮されたファ
イル中において、その対応する特有な数に置換される。
この処理は、単語およびセパレータを表わす文字のスト
リームを備えた元のファイルが完全な相互参照辞書と元
の文書を表わす特有な数のリストとによって置換される
まで、継続される。単一のスペースは、無視されること
ができるか、あるいは、句読点が無ければそれぞれの単
語間に有るものと仮定されることができ、また、句読点
の特有な組合せは、特有な数に変換されることができ
る。

【０００６】それぞれの単語は、辞書中において、対応
する特有な数を伴って繰り返されなければならず、ま
た、特有な数のリストは、圧縮されたファイル中の元の
単語およびセパレータに置換されなければならないが、
元のファイル中の繰り返しは排除されるので、ファイル
のサイズの実質的な減少は、上述の方法を用いることに
よって達成される。

【０００７】

【発明が解決しようとする課題】これに較べて、日本語
の文書用言語のような文書形態の幾つかの言語は、スペ
ースや記号間の句読点のような他のセパレータが無いか
少ない連続した記号の列から成っている。したがって、
これらの言語は、セパレータが無いか少ないために、上
述したような方法では簡単に圧縮することができない。
例えば日本語では、上記記号は、幾つかの日本語の記述
方式またはアルファベット（平仮名、片仮名、ローマ字
および漢字を含む）のいずれか一つであるか、あるい
は、数学の方程式またはグラフ的な記号を表わす数学的
なギリシャ語またはロシア語の記号などである。本文に
おいては、数学的なギリシャ語およびロシア語記号は、
一緒に分類されていて、もう１つの日本語の記述方式ま
たはアルファベットであると考えられている。また、本
文においては、「アルファベット」という単語は互換的
に用いられているが、漢字または平仮名のような日本語
の文字セットに関しては、上記「記述方式」という語句
は、この「アルファベット」という単語よりも技術的に
もっと正確であるということが理解できる。ローマ字ア
ルファベットは、英文字から成り、漢字アルファベット
のそれぞれの記号は、言語学上は元来中国語から派生し
てその後に独自に実を結んだ単語を表わしている。片仮
名および平仮名アルファベットは、音声学上のアルファ
ベット記号であって、平仮名は日本語を表し、片仮名は
日本語以外の外国語を表わしている。

【０００８】セパレータが無いか少ない複数の分離記述
方式またはアルファベットから成る文書用言語の一つを
表わすコンピュータファイルは、典型的には、文書記号
を表わすための１６進の文字コードを用いている。日本
語を表わすコンピュータファイルは、それぞれの日本語
アルファベットからのそれぞれの記号がその記号を表わ
す特有な１６進の文字コードを割り当てられるＪＩＳお
よびシフトＪＩＳの文字セットを備えている。最初の２
５６文字は、上記ＪＩＳの文字セットから成り、その中
で下部のＪＩＳの１２８文字はＡＳＣＩＩと同一の文字
から成っている。また、ＪＩＳの上部の１２８文字は、
拡張されたＡＳＣＩＩ（すなわち、上部の１２８ＡＳＣ
ＩＩ文字）とは異なっていて、以下において説明する片
仮名の１バイトアルファベットから成っている。一般
に、ＪＩＳの文字セットの割り当てられた文字は１バイ
トまたは８ビットの文字であるのに対し、シフトＪＩＳ
の文字は一般に２バイトの文字である。上記ＪＩＳおよ
びシフトＪＩＳの文字セットは、上述のように定義され
たそれぞれのアルファベットが分離論理ブロックまたは
上記１６進文字コードにより定義される位置に写像され
るように、充分に定義されている。

【０００９】日本語の文書用言語と同様な文書用言語を
表しているコンピュータファイルの圧縮は、セパレータ
が無いか少ないために行うことができなかった。例え
ば、日本語の文書用言語を表しているＪＩＳおよびシフ
トＪＩＳの文字セットから成るコンピュータファイルの
圧縮は、セパレータが無いか少ないことと、文字の反復
性のあるグループ分け（すなわち、分類）の定義が困難
なこととのために、本発明による技術よりも以前には行
われてはいなかった。独断的に決められた数の記号を分
類することもまた、圧縮が全くまたはほとんど行われな
いために、実行できなかった。このために、日本語また
は日本語と同様な文書用言語から成るコンピュータファ
イルは、以前には圧縮されることはなかった。

【００１０】

【課題を解決するための手段】本発明による技術は、日本語のような言語を表わすコンピュータファイル
は、それぞれのセグメントが複数のアルファベットのう
ちの一つの文字コード列である一連の連続したセグメン
トから成り、これらのセグメントの繰り返しは、膨大な量で発生す
る、という事実を利用している。本発明による技術は、
幾つかのアルファベットを含みかつセパレータが無いか
少ないという日本語と同様な特徴を有する他の言語にも
適用し得るものであることが理解されるべきであるが、
本文においては、日本語が一つの例として用いられてい
る。この言語にはセパレータが無いか少ないので、本発
明による技術は、分離論理ブロックへのアルファベット
の論理写像を用いることによって、一つのアルファベッ
トから別のアルファベットへの変化を表わす一つのセグ
メントから別のセグメントへの変化を認識している。こ
のために、それぞれのセグメントは、一つのアルファベ
ットから別のアルファベットに変化することによって、
別個に定義される。

【００１１】したがって、本発明による圧縮技術は、セ
グメントを識別、すなわち同定するために、文字が別の
アルファベットから読み取られるまで１つのアルファベ
ットからの連続した文字の列を読み取るステップと、現
在のセグメントが辞書内にあるかどうかを決定するため
に、対応する特有な数に対して相互参照される複数の特
有なセグメントを備えた上記辞書を探索するステップ
と、まだ上記辞書中に無ければ、上記セグメントを特有
な数に割り当てると共に上記セグメントおよびその対応
する特有な数を上記辞書に付加し、または、現在のセグ
メントがすでに上記辞書中に有れば、上記辞書からその
対応する特有な数を検索するステップと、元のセグメン
トをその特有な数と置換するステップと、ファイル中の
全てのセグメントが読み取られかつ置換されるまで、上
述した一連のステップを繰り返すステップとを備えてい
る。この方法においては、セグメントの膨大な数の繰り
返しが起きるために、圧縮を行うことができる。

【００１２】より一層の圧縮は、それぞれの漢字記号が
言語学上の単語を表わしているために、日本語のそれぞ
れの漢字セグメント内で達成され得る。この場合、膨大
な数の繰り返しがそれぞれの漢字セグメント内で起き
る。それぞれの漢字セグメント中の最後のサブセグメン
トは少ない文字しか備えていないかもしれないが、漢字
セグメントに遭遇するとき、それは、それぞれが予め定
められた数の漢字を備えた複数のサブセグメントにさら
に分割される。したがって、上記漢字セグメント内のそ
れぞれのサブセグメントは、特有な数を割り当てられ、
そして、上述した正規のセグメントとして取り扱われ
る。上記の予め定められた数はプログラム可能であるか
ら、最大レベルの圧縮が試行錯誤を通して達成可能であ
る。

【００１３】

【実施例】本発明をより良く理解し得るように、添附の
図面に基づいて本発明の好ましい実施例を以下において
説明する。

【００１４】日本語の文書用言語のような文書形態のい
くかつの言語は、セパレータが無いかほとんど含んでい
ない幾つかの記述方式またはアルファベットから成って
いる。本発明による技術は、日本語に限定されるもので
はないが、この実施例は、日本語を用いて説明されてい
る。上記日本語の文書用言語は、数学の方程式およびグ
ラフ上の記号を表わす数字的なギリシャ語およびロシア
語の記号や、平仮名、片仮名、ローマ字および漢字を含
む幾つかのアルファベットから成っている。日本語はス
ペースまたは句読点のようなセパレータ記号をほとんど
含んでいないということが認識されている。また、英語
と日本語との間には都合の良い対応が無いので、英語で
簡単に達成されたのと同じ単語に日本語を分類するのは
困難であると認識されている。

【００１５】今、図１を参照すると、ＪＩＳおよびシフ
トＪＩＳの文字セットは、アルファベットからのそれぞ
れの記号がこれと対応する文字に割り当てられている日
本語アルファベットの論理写像を説明するために示され
ている。上記ＪＩＳおよびシフトＪＩＳの文字セットか
ら直ちに分かるように、それぞれの日本語アルファベッ
トは、１６進文字コードの論理位置の分離ブロック中に
写像されている。例えば、１６進値の０から７Ｆは、ロ
ーマ字１バイト記号を表わし、また、１６進値のＡ１か
らＤＦは、ＪＩＳの文字セットの片仮名１バイト記号を
表わしている。シフトＪＩＳセットにおいては、１６進
値の８１４０から８１ＦＣは種々雑多なグラフ上の２バ
イト記号を表わし、１６進値の８２４Ｆから８２９Ａは
ローマ字２バイト記号を表わし、１６進値の８２９Ｆか
ら８２Ｆ１は平仮名２バイト記号を表わし、１６進値の
８３４０から８３９６は片仮名２バイト記号を表わし、
１６進値の８３９Ｆから８４ＢＥはギリシャ語、ロシア
語および他のグラフ的な記号を表わし、１６進値の８８
９ＦからＡ０００とＤＦＦＦからＦＦＦＦとは、漢字２
バイト記号を表わしている。１６進値のＡ０００とＤＦ
ＦＦとの間のギャップは、上記片仮名１バイト文字と上
記漢字２バイト文字との混同を防止するために、まった
く文字を含んでいない。

【００１６】この技術は、上述した特定の写像に限定さ
れるものではないことが理解されるべきである。個々の
アルファベットが特有なブロック中に分離され、そし
て、それぞれの記号がどのアルファベットに属するかに
ついての曖昧さが無い限り、他の写像方法でも十分であ
る。したがって、ＪＩＳおよびシフトＪＩＳの文字セッ
トを備えたコンピュータファイルを処理するコンピュー
タが個々のそれぞれの文字とこれらが属する日本語アル
ファベットとを簡単に識別、すなわち同定することがで
きるように、上記ＪＩＳおよびシフトＪＩＳの文字セッ
トが充分に定義されるのは明らかである。

【００１７】ＪＩＳおよびシフトＪＩＳの文字を備えた
ファイルを処理するコンピュータは、英語について処理
することができる逆の順序では処理することができず、
上記ファイルにおいてその順序でのみ処理しなければな
らない。コンピュータは、記号を写像する論理的アドレ
スによって、それぞれの文字が属するアルファベットを
簡単に同定することができる。本発明にしたがって文字
をセグメントに分離するために、コンピュータは、ファ
イル中のそれぞれの文字を最初から最後まで読み取っ
て、それぞれの文字が属するアルファベットを同定す
る。文字が異なるアルファベットから見い出されたとき
には、或る種の変更によって、連続したセグメント間の
分離が同定されて定義される。それぞれの特有なセグメ
ントは、特有な数を割り当てられ、そして、セグメント
とその対応する特有な数との辞書に加えられる。つい
で、列をなすセグメントは、その対応する特有な数に置
換される。ついで、元の文字列は、上記辞書とその対応
する特有な数の列とに置換される。

【００１８】漢字セグメント内のサブセグメントを開発
することも、また望ましい。それぞれの漢字サブセグメ
ント内では膨大な繰り返しが起きるが、漢字セグメント
は一般にそれほど多くは繰り返されないので、上記開発
を達成することができる。漢字記号は様々な組合せで繰
り返されるので、選択（すなわち、セレクション）は２
つまたは３つの漢字記号からなるサブセグメントを開発
することができる。２つ、３つまたはその他の数の選択
は、それぞれのファイルについての試行錯誤によって達
成することができる。サブセグメントを用いることによ
って、漢字サブセグメントおよびセグメントにおける繰
り返しの可能性は増加する。

【００１９】今、図２には、本発明による方法を説明す
るためのフローチャートが示されている。この方法は、
日本語ＪＩＳおよびシフトＪＩＳの文字を含んでいる元
のファイルを入力として受けかつ圧縮されたファイルを
出力として供給するコンピュータを演算させるソフトウ
エアプログラムによって、好適に達成される。コンピュ
ータの演算は、スタートステップ１００において開始さ
れ、そして、入力ファイルから最初のまたは次の文字を
読み取るステップ１０２へと進む。新しいまたは現在の
文字のタイプは、日本語アルファベットの一つに属する
ものとして同定される。ＣＮＴとして参照されている変
数は、漢字サブセグメントにおいて読み取られる文字の
数をカウントするために増加する。上記セグメントが漢
字セグメントでなければ、上記ＣＮＴ変数は無視され
る。

【００２０】ステップ１０２からステップ１０４へと演
算が進むと、ステップ１０４では、現在の文字のタイプ
が、もしあれば前に読み取られた文字と比較され、その
文字のタイプが変化したか否かが決定される。現在の文
字がファイルから読み取られた最初の文字であるか、あ
るいは、前に読み取られた文字と同一のタイプであれ
ば、そのときには、上記文字は現在のセグメントに加え
られて、演算はステップ１０６へと進む。この場合、セ
グメント間の変化は起きず、現在のセグメントは依然と
して決定されたまゝである。ステップ１０６において、
上記セグメントのタイプは漢字と比較され、そして、Ｃ
ＮＴ変数は漢字サブセグメントの最大サイズを表わす予
め決められた数と比較される。ステップ１０６におい
て、セグメントが漢字でないか、あるいは、ＣＮＴ変数
が予め決められた数と同じもしくはそれ未満であれば、
そのときには、演算はステップ１０８へ進み、ここで
は、現在の文字が入力ファイルの終端を表わすファイル
終端（ＥＯＦ）の文字と比較される。この現在の文字が
上記ＥＯＦの文字でなければ、演算は次の文字を読み取
るためにステップ１０２へと戻る。

【００２１】ステップ１０４を再び参照すると、ステッ
プ１０４で読み取られた現在の文字のタイプが前の文字
のタイプと相違すれば、そのときには、一つのセグメン
ト全体が読み取られ、そして、演算は、新しいセグメン
トを圧縮するために実行されるルーチンまたは手続きを
表わす圧縮ステップ１１０へと進む。圧縮ステップ１１
０に遭遇すると、演算はステップ１１２へと進み、ここ
では、現在の文字から新しいセグメントが開始されるの
で、ＣＮＴ変数は１に設定される。ついで、演算はステ
ップ１１４へと進み、ここでは、辞書は、現在のセグメ
ントが辞書中に存在するか否かを決定するために探索さ
れる。この辞書は、入力ファイルの特有なセグメントの
リストと、その対応する特有なセグメントを表わすそれ
ぞれの対応する特有な数のリストとを備えている。現在
のセグメントが入力ファイルの最初のセグメントであれ
ば、辞書はステップ１１４において初期設定される。

【００２２】ついで、演算は、現在のセグメントが辞書
中に見い出されたかどうかを決定するために、ステップ
１１６へと進む。この現在のセグメントが上記辞書中に
無ければ、このときには、演算はステップ１１８へと進
み、ここでは、新しい固有な数が現在のセグメントを表
わすために決定されて割り当てられ、そして、現在のセ
グメントとその対応する固有な数とが辞書に付加され
る。他方、ステップ１１６において、現在のセグメント
が繰り返しセグメントを表わすものとして見い出されれ
ば、そのときには、演算はステップ１２０へと進み、こ
こでは、現在のセグメントの対応する特有な数が読み取
られる。演算がステップ１１８または１２０からステッ
プ１２２へと進むと、ここでは、現在のセグメントがそ
の対応する特有な数に置換される。分離出力ファイルが
発生されていれば、ステップ１２２における置換は、開
発されている出力ファイルの終端に上記特有な数を付加
することを意味していることが理解されるべきである。
ついで、演算はリターンステップ１２４へと進み、ここ
では、演算を出発点のメインループへと戻す。例えば、
ステップ１０４からステップ１１０へと進めば、つぎに
は、演算はステップ１０８へと進み、ここでは、上記現
在の文字が上記ＥＯＦの文字と比較される。

【００２３】ステップ１０６を再び参照すると、現在の
セグメントが漢字セグメントであり、そして、上記ＣＮ
Ｔ変数が上記予め定められた数よりも大きければ、その
ときには、新しい漢字サブセグメントが読み取られるの
で、演算は圧縮ステップ１１０へと進む。ステップ１１
０〜１２４は、正規のセグメントについて上述したよう
に、新しい漢字サブセグメントについて上述の場合と同
様な方法で実行される。例えば、上記予め定められた数
が３であれば、そのときには、それぞれの漢字セグメン
トは、３つよりも少ない漢字から成る漢字セグメントの
最後のサブセグメントをできるだけ除いて、それぞれが
３つの文字から成る複数のサブセグメント中に分割され
る。それぞれの特有な漢字サブセグメントは、対応する
特有な数に割り当てられると共に辞書に付加され、そし
て、この特有な数は、圧縮された出力ファイルにおいて
漢字サブセグメントに置換される。ステップ１０６から
ステップ１１０に進めば、演算はステップ１１２〜１２
４を経てステップ１０８へと進む。

【００２４】最後に、現在の文字がステップ１０８で決
定されたように上記ＥＯＦの文字であれば、演算は、入
力ファイルからの最後のセグメントを圧縮するために、
再びステップ１１０へと進む。ついで、演算はステップ
１２４から完了ステップ１２６へと進んで、圧縮が完了
する。

【００２５】圧縮されたファイルから元のファイルを検
索するには、英語について当業者に知られているのと同
様のコンピュータプログラムを用いて、特有な数の列を
読み取り、そして、それぞれの特有な数を辞書のその対
応するセグメントと置換する。

【００２６】本発明の上述の開示および記載は、その例
示および説明であり、上記演算方法の実施にあたって
は、本発明の思想を逸脱することなく様々な変更が可能
である。

【００２７】

【発明の効果】以上において説明した本発明によれば、
セパレータ記号が無いか少なくかつ複数のアルファベッ
トを含んだ日本語またはこれと同様な特徴を有する他の
言語を表わすコンピュータファイルのデータ圧縮を簡単
に達成することができる。

【図面の簡単な説明】

【図１】幾つかの日本語アルファベットの論理写像を説
明する日本語ＪＩＳおよびシフトＪＩＳの文字セットを
示している。

【図２】本発明による方法を説明するフローチャートで
ある。

【符号の説明】

１００スタートステップ１１０圧縮ステップ１１４辞書の探索ステップ１１８特有な数の割り当ておよび辞書への付加
ステップ１２０特有な数の読取りステップ１２２置換ステップ１２４リターンステップ１２６完了ステップ

Claims

【特許請求の範囲】

【請求項１】セパレータ記号が無いか少ない複数のアル
ファベットを含む言語を表わす文字セットからの文字の
列を備えたコンピュータファイルを圧縮する方法であっ
て、（ａ）前の文字と同一のアルファベットには関連して
いない最初の文字が読み取られるまで（この場合、同一
のアルファベットの連続した文字の読み取りがセグメン
トを定義している。）、文字の列からそれぞれの文字を
読み取るステップと、（ｂ）複数の対応する特有な数に対して相互参照され
る文字の特有なセグメントの複数を備えた辞書を上記セ
グメントのために探索するステップと、（ｃ）上記セグメントが上記辞書中に見つかれば、対
応する特有な数を上記辞書から検索し、そして、上記セ
グメントが見つからなければ、対応する特有な数を上記
セグメントに割り当てると共に、上記セグメントおよび
上記対応する特有な数を上記辞書に付加するステップ
と、（ｄ）上記セグメントをその対応することを表わす特
有な数と置換するステップと、（ｅ）前のセグメントの最後の文字の後で読み取られ
る最初の文字が新しいセグメントを始めるときに、上記
コンピュータファイルの終端まで上記ステップ（ａ）〜
（ｄ）を繰り返すステップとを備えることを特徴とする
データ圧縮方法。
【請求項２】文字セットが日本語の文書用言語を表わす
ＪＩＳおよびシフトＪＩＳの文字セットであれば、そし
て、上記セグメントが上記ステップ（ａ）において漢字
を含んでいれば、上記ステップ（ａ）は、読み取られる文字の数が予め定
められた数と等しい数になるまで、または、漢字でない
文字が読み取られるまで、上記セグメント内の漢字サブ
セグメントを読み取るステップを備え、このとき、上記ステップ（ｂ）、（ｃ）、（ｄ）および
（ｅ）が上記漢字サブセグメントについても上記セグメ
ントの場合と同様に演算されることを特徴とする請求項
１記載のデータ圧縮方法。
【請求項３】セパレータ記号を全くまたは少ししか用い
ていない複数のアルファベットを含む言語方式を表わす
文字の列を備えたコンピュータファイルを圧縮する方法
であって、上記ファイルからつぎの文字を読み取るステップと、上記アルファベットの一つに属しているか、または、フ
ァイル終端の文字であるかを上記文字のタイプについて
決定するステップと、上記文字の上記タイプをもしあれば前に読み取られた文
字のタイプと比較し、そして、そのタイプが互いに同じ
であれば、上記同じタイプを有しかつ前に読み取られた
連続した文字を含むセグメントに上記文字を付加するス
テップと、上記比較ステップにおいて上記文字のタイプが相違して
いれば、または、上記決定ステップにおいて上記文字が
ファイル終端の文字であれば、上記同じタイプを有しか
つ前に読み取られた連続した文字として新しいセグメン
トを同定すると共に、対応する複数の特有な数に対して
相互参照される文字の特有なセグメントの複数を備えた
辞書を上記新しいセグメントのために探索するステップ
と、上記セグメントが上記辞書中に見つかれば、上記辞書か
ら対応する特有な数を検索し、そして、上記セグメント
が上記辞書中に見つからなければ、対応する特有な数を
上記セグメントに割り当てると共に、上記セグメントお
よび上記対応する特有な数を上記辞書に付加するステッ
プと、上記セグメントをその対応する特有な数と置換するステ
ップと、つぎのセグメントを始めるために、異なるタイプであっ
た最後の文字の読み取りを利用するステップと、上記ファイル中の全てのセグメントがその対応する特有
な数に置換されるまで、上記読み取り、決定、比較、付
加、同定、割り当て、検索、置換および利用のステップ
を繰り返すステップとを備えることを特徴とするデータ
圧縮方法。
【請求項４】幾つかの日本語アルファベットを表わすＪ
ＩＳおよびシフトＪＩＳの文字の列を備えたコンピュー
タファイルを圧縮する方法であって、上記ファイルからつぎの文字を読み取ると共に、最後の
セグメントからの文字の読み取りの数をカウントするス
テップと、上記日本語アルファベットの一つに属するか、または、
ファイル終端の文字であるかを上記文字のタイプについ
て決定するステップと、上記文字の上記タイプをもしあれば前に読み取られた文
字のタイプと比較し、そして、そのタイプが互いに同じ
であれば、上記同じタイプを有しかつ前に読み取られた
連続した文字を含むセグメントに上記文字を付加するス
テップと、上記文字のタイプが相違していれば、または、上記文字
のタイプが漢字であると共に上記文字の読み取りの数が
予め定められた数よりも大きければ、または、上記文字
がファイル終端の文字であれば、上記同じタイプを有し
かつ前に読み取られた連続した文字として新しいセグメ
ントを同定すると共に、対応する複数の特有な数に対し
て相互参照される文字の特有なセグメントの複数を備え
た辞書を上記新しいセグメントのために探索するステッ
プと、上記セグメントが上記辞書中に見つかれば、対応する特
有な数を上記辞書から検索し、そして、上記セグメント
が上記辞書中に見つからなければ、対応する特有な数を
上記セグメントに割り当てると共に、上記セグメントお
よび上記対応する特有な数を上記辞書に付加するステッ
プと、上記セグメントをその対応する特有な数と置換するステ
ップと、つぎのセグメントを始めるために、異なるタイプであっ
た最後の文字の読み取りを利用するステップと、上記ファイル中の全てのセグメントがその対応する特有
な数に置換されるまで、上記の読み取り、カウント、決
定、比較、付加、同定、割り当て、検索、置換および利
用のステップを繰り返すステップとを備えることを特徴
とするデータ圧縮方法。