JP3499671B2

JP3499671B2 - データ圧縮装置及びデータ復元装置

Info

Publication number: JP3499671B2
Application number: JP02352396A
Authority: JP
Inventors: 佳之岡田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1996-02-09
Filing date: 1996-02-09
Publication date: 2004-02-23
Anticipated expiration: 2016-02-09
Also published as: JPH09218867A; US5889481A; DE69612832D1; DE69612832T2; EP0789460B1; EP0789460A1

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字コード空間に
混在する複数種類の文字コードのデータを対象に圧縮と
復元を行うためのデータ圧縮及び復元装置に関し、特
に、複数の言語コードが混在するユニコードや、日本語
コード空間のＪＩＳコード、シフトＪＩＳコード等につ
き、文字コードの種別に応じて効率的な圧縮と復元を行
うためのデータ圧縮装置及び復元装置に関する。

【０００２】

【従来の技術】近年、文字コード、ベクトル情報、画像
など様々な種類のデータがコンピュータで扱われるよう
になっており、扱われるデータ量も急速に増加してきて
いる。大量のデータを扱うときは、データの中の冗長な
部分を省いてデータ量を圧縮することで、記憶容量を減
らしたり、速く伝送したりできるようになる。様々なデ
ータを圧縮できる方法としてユニバーサル符号化が提案
されている。

【０００３】ここで、本発明は、文字コードの圧縮に限
らず、様々な分野のデータに適用できるが、以下では、
情報理論で用いられている呼称を踏襲し、データの１ワ
ード単位を文字と呼び、データが任意のワードにつなが
ったものを文字列と呼ぶことにする。ユニバーサル符号
の代表的な方法として、ジブーレンペル（Ziv-Lempel）
符号がある（詳しくは、例えば、宗像「Ziv-Lempelのデ
ータ圧縮法」、情報処理、Vol.26,No.1,1985年を参照の
こと）。

【０００４】ジブーレンペル符号ではスライド辞書法
と、動的辞書法の２つのアルゴリズムが提案されてい
る。さらに、スライド辞書法の改良として、ＬＺＳＳ符
号、（T.C. Bell,"Better OPM/L Text Compression",IE
EE Trans. on Commun., Vol.COM-34,No.12, Dec. 1986
参照）。動的辞書法の改良としては、ＬＺＷ（Lempel-Z
iv-Welch）符号がある（T.A. Welch,"A Technique for
High-Performance Data Compression",Computer, June
1984参照）。

【０００５】これらの符号のうち、高速処理ができるこ
とと、アルゴリズムの簡単さからＬＺＷ符号が記憶装置
のファイル圧縮などで使われるようになっている。図３
８にＬＺＷ符号における辞書の木構成を示し、図３９に
ＬＺＷ符号における文字列の符号化を示す。ＬＺＷ符号
化は、書き替え可能な辞書を持ち、入力文字コードのデ
ータを相異なる文字列に分け、文字列の出現した順に番
号をつけて辞書に登録すると共に、現在入力している文
字列を辞書に登録してある最長一致文字列の番号で表し
て、符号化するものである。尚、不一致となった１文字
を現在の文字列に付加して登録する。

【０００６】図４０及び図４１を参照して符号化を具体
的に説明すると次のようになる。ここでは、説明を簡単
にするためａｂｃの３文字の組み合わせからなるデータ
の符号化を例にとる。まず、図４０の入力データは左か
ら右へ読み込む。最初の文字ａを入力したとき、図４１
の辞書にはａの他に一致する文字列がないので、出力符
号（参照番号ω）を符号語として出力する。そして、次
の文字ｂを付加して拡張した文字列ａｂに参照番号４を
つけて辞書に登録する。実際の登録は文字列（１ｂ）の
形となる。

【０００７】続いて２番目のｂが文字列の先頭になる。
辞書にはｂの他に一致する文字列がないので、参照番号
２を符号語として出力し、拡張した文字列ｂａを実際に
は２ａの形で参照番号５をつけて辞書に登録する。３番
目のａが次の文字列の先頭になる。以下、同様にこの処
理を続ける。図４２のフローチャートはＬＺＷ符号化の
アルゴリズムである。まずステップＳ１で予め全文字に
つき一文字からなる文字列を初期値として登録してから
符号化を始める。ステップＳ２では入力した最初の文字
Ｋを辞書検索する参照番号ωとし、これを語頭文字列
（prefix string ）とする。

【０００８】次にステップＳ３で入力データの次の文字
Ｋを読み込み、ステップＳ４ではステップＳ２で求めた
語頭文字列ωにステップＳ３で読み込んだ文字Ｋを加え
た（ωＫ）が現在の辞書にあるか否か検索する。ステッ
プＳ４で文字列（ωＫ）が辞書にあれば、ステップＳ５
で文字列（ωＫ）を参照番号ωに置き換え、ステップＳ
５で入力データが終了かどうかを判断した後、再びステ
ップＳ３に戻って文字列（ωＫ）が辞書から探せなくな
るまで最大一致長の検索を続ける。

【０００９】次にステップＳ４で文字列（ωＫ）が辞書
になければ、ステップＳ７に進んでステップＳ２で求め
た文字Ｋの参照番号ωを符号語code（ω）として出力す
る。また文字列（ωＫ）に新たな参照番号を付加して辞
書に登録する。さらにステップＳ２の入力文字Ｋを参照
番号ωに置き換えると共に、辞書アドレスＮをインクリ
メントして、ステップＳ５のチェックを受けた後、ステ
ップＳ２に戻って次の文字Ｋを読み込む。

【００１０】次に、図４３を参照してＬＺＷ符号の復号
化処理を具体的に説明する。このＬＺＷ符号の復号化処
理は符号化の逆の操作を行う。また説明を簡単にするた
め、図４０の符号化処理と同様にａｂｃの３文字の組み
合わせからなるデータの復元を例にとる。まず図４３で
最初の入力文字は１であり、１文字ａ，ｂ，ｃについて
は既に参照番号１，２，３として図４１のように辞書に
登録されているため、辞書の参照により符号１に一致す
る参照番号の文字列ａに置き換えて出力する。次の符号
２についても同様にして文字ｂに置き換えて出力する。
この時、前回処理した符号と今回復号した最初の１文字
ｂとを組み合わせた１ｂに新たな参照番号を付加して辞
書に登録する。

【００１１】３番目の符号４は辞書の探索により１ｂか
らａｂと置き換えて文字列ａｂを出力する。同時に前回
処理した符号２と今回復号した文字列の１番目の文字ａ
との組み合わせ文字列２ａ（＝ｂａ）に新たな参照番号
５を付加して辞書に登録する。以下同様に、この処理を
繰り返す。ただし、図４３の復号化では次の例外処理が
ある。この例外処理は、第６番目の入力符号８の復号で
生ずる。符号８は復号時に辞書に定義されておらず、復
号できない。この場合には、前回処理した符号５に前回
復号した文字列ｂａの最初の１文字ｂを加えた文字列５
ｂを求め、さらに２ａｂ，ｂａｂと置き換えられて出力
される。そして、文字列の出力後に前回の符号５に今回
復号した文字列の文字ｂを加えた文字列５ｂに参照番号
８を付加して辞書に登録する。

【００１２】この例外処理は次に説明する図４４の復号
化処理のステップＳ４，ステップＳ９の処理を通じて行
われ、最終的にステップＳ７で文字列の出力と新たな文
字列に参照番号を付加した辞書への登録が行われる。図
４４のフローチャートは、ＬＺＷ符号の復号化アルゴリ
ズムである。まずステップＳ１において、符号化と同様
に、予め辞書に全文字につき１文字からなる文字列を初
期値として登録してから復号を始める。

【００１３】ステップＳ２で最初の符号（参照番号）を
読み込み、現在の入力符号CODEをOLDcode とし、最初の
符号は既に辞書に登録された１文字の参照番号いずれか
に該当することから、入力符号CODEに一致する文字code
（Ｋ）を探し出し、文字Ｋを出力する。尚、出力した文
字Ｋは後の例外処理のためcharにセットしておく。次に
ステップＳ３に進んで次の符号CODEを読み込んでNEWcod
e としてセットする。次にステップＳ４に進み、ステッ
プＳ３で入力された符号CODEが辞書に定義（登録）され
ているか否かチェックする。

【００１４】通常、入力した符号語は前回までの処理で
辞書に登録されているため、ステップＳ５に進んで符号
CODEに対応する文字列code（ωＫ）を辞書から読み出
し、ステップＳ６で文字列Ｋを一時的にスタックし、参
照番号code（ω）を新たなCODEとして再度ステップＳ５
に戻し、このステップＳ５，ステップＳ６の手順を再帰
的に参照番号ωが一文字に至るまで繰り返し、最後にス
テップＳ７に進んでステップＳ６でスタックした文字を
ＬＩＦＯ（Last In Fast Out）形式でポップアップして
出力する。

【００１５】同時にステップＳ７において、前回使った
符号ωと今回復元した文字列の最初の１文字Ｋを組
（ω，Ｋ）と表した文字列に新たな参照番号を付加して
辞書に登録する。ここで、ステップＳ４において登録さ
れていない符号（符号化において直前の参照番号を参照
する場合におきる）の場合、ステップＳ９にて、OLDcod
eを符号CODEに戻し、またcode(OLDcode,char)をNEWcode
に戻した後に、ステップＳ５へ進むようにする。

【００１６】

【発明が解決しようとする課題】しかしながら、このよ
うな従来のデータ圧縮及び復元処理にあっては、実際の
文字コードに１バイト構成と２バイト構成が混在してい
るにもかかわらず、同じバイト構成の文字と見做して処
理しており、効果的な圧縮が期待できない問題があっ
た。

【００１７】図４５（Ａ）は従来のデータ圧縮処理であ
り、単一バイト圧縮部４００でバイト単位に圧縮してい
る。また図４５（Ｂ）は、従来の圧縮データの復元処理
であり、同じく単一バイト復元部４０２によりバイト単
位で復元している。ここで、代表的な言語として日本語
を例にとると、日本語を表す各種の符号、即ちＪＩＳコ
ード、シフトＪＩＳコード等の文字コードでは、複数バ
イト或いは単一バイトと複数バイトと混在の形で文字及
び文字列を表現している。これに対し圧縮処理は、図４
５のように、全て単一バイト圧縮部４００で、全て単一
バイトの文字及び文字列として処理しているため、単一
バイトで表現されている文字と、複数バイトで表現され
た文字の下位バイトが同じ文字と見做される。このため
複数バイト文字の各バイト単位の圧縮で、結果として意
味のないデータ列が辞書に登録されて符号化され、効果
的な圧縮が期待できない問題があった。

【００１８】図４７は、ＪＩＳ漢字コードにおけるＬＺ
Ｗ符号化であり、上位バイトと下位バイトの区別なく辞
書に取り込むため、意味のない文字列まで登録されて圧
縮効果が期待できないことがわかる。即ち、隣接する２
文字の下位バイトと上位バイトの組合せ等の意味のない
文字列が登録されてしまう。図４８は、シフトＪＩＳ漢
字コードにおけるＬＺＷ符号化であり、同様に、上位バ
イトと下位バイトの区別なく辞書に取り込むため、意味
のない文字列まで登録されて圧縮効果が期待できないこ
とがわかる。

【００１９】日本語以外の文字コードでも同様な問題が
ある。例えば国際標準化により各種の言語を統一的に扱
う文字コードとして提案されているユニコード（Unicod
e ）でも、１文字が２バイト（或いは４バイト）の構成
となっているため、バイト単位で圧縮している従来の圧
縮処理では、同様の問題が起きる。特に、同じ文字種類
を用いても、言語が異なると文字のつながり方が異な
る。しかし、従来は、言語による相違を考慮せずに文字
列を登録していたため、圧縮効果が期待できない。

【００２０】本発明の目的は、異なる言語を混在する例
えばユニコード等に対して、各言語或いは各言語内の統
計的性質の異なる各種文字を区別して圧縮することによ
り、圧縮性能を高めるようにしたデータ圧縮装置および
復元装置を提供することにある。また本発明の他の目的
は、日本語文字コードに対して、各文字コードのバイト
構成或いは文字コード内の統計的性質の異なる文字種を
区別して圧縮することにより、圧縮性能を高めるように
したデータ圧縮装置および復元装置を提供することにあ
る。

【００２１】

【課題を解決するための手段】（ユニコード）図１（Ａ）は、ユニコードを対象とした本発明のデータ
圧縮装置及びデータ復元装置の原理説明図である。デー
タ圧縮装置は複数種類の言語の文字コードが混在するユ
ニコードのデータ列を入力して圧縮するもので、入力さ
れる言語コードの種類を判別する言語判別手段１０、デ
ータ列を言語判別手段１０で判別した各言語毎の言語列
に分離する言語列分離手段１２、及び言語列分離手段１
２で分離した各言語列を個別に圧縮する言語列圧縮手段
１４で構成される。

【００２２】ここで、ユニコードの文字コード体系は、
セルオクテット（列番号）と行オクテット（行番号）の
２次元コード空間（コードプレーン）を有し、１文字を
下位１バイトのセルオクテットと上位１バイトの行オク
テットの少なくとも２バイトの文字コードで表現し、更
に行オクテットによって複数種類の言語毎に異なる文字
コード空間を割り当てている。

【００２３】このため、言語判別手段１０は、各文字コ
ードの行オクテットから言語の種類を判別する。また言
語列分離手段１２は、判別した言語の種類で決まる１バ
イトまたは２バイトの文字コードを分離して各言語毎の
言語列を構成する。ユニコードの圧縮データを対象とし
た本発明のデータ復元装置は、圧縮データから各言語単
位に言語列を復元する言語列復元手段２０、及び言語列
復元手段２０で復元された各言語列から、複数種類の言
語コードが混在するデータ列を復元する言語列再構成手
段２２で構成される。（日本語の異なるバイト構成）図１（Ｂ）は、日本語ソ
ースデータを対象にした本発明のデータ圧縮装置とデー
タ復元装置であり、各種の日本語文字コード内において
異なるバイト構成毎に圧縮して復元することを特徴とす
る。勿論、日本語コードに限定されず、他の言語コード
にも拡張できる。

【００２４】データ圧縮装置は、コード種別判別手段１
１、バイト構成分離手段１３、及び文字列圧縮手段１５
で構成される。コード種別判別手段１１は、日本語ソー
スからの入力データ列の属する文字コードの種別を判別
してコード種別識別情報を出力する。バイト構成分離手
段１３は、コード種別識別情報に基づいて、入力データ
列の各文字コードのバイト構成を検出しバイト構成の異
なる複数種類の文字列に分離する。文字列圧縮手段１５
は、バイト構成分離手段１３で分離したバイト構成の異
なる複数種類の文字列を個別に圧縮する。

【００２５】より具体的には、データ列は、上位バイト
と下位バイトで定義される２次元の文字コード空間に割
り当てられた複数種類の文字コードのいずれかのデータ
列である。文字コード空間には、複数種類の文字コード
として、例えばＪＩＳコード、シフトＪＩＳコード、Ｅ
ＵＣコード、ユニコード、及びＪＥＦコードが割り当て
られており、これらの文字コードを処理する。

【００２６】コード種別判別手段１１は、一時記憶手
段、第１〜３頻度検出手段及びコード識別手段で構成さ
れる。即ち、データ列の一定区間のデータを一時記憶手
段に蓄積し、この蓄積データについて、第１頻度検出手
段により文字コード空間における１バイト文字の頻度分
布を検出し、また第２頻度検出手段により文字コード空
間における複数バイト文字の頻度分布を検出し、更に、
第３頻度検出手段により複数種類の各文字コードで使用
される識別文字コードの頻度分布を検出する。

【００２７】そして、コード識別手段により、３つの頻
度検出手段による文字コード空間における頻度分布の偏
りに基づいて、データ列の文字コード種別、例えばＪＩ
Ｓコード、シフトＪＩＳコード、ＥＵＣコード、ユニコ
ード、またはＪＥＦコードを識別する。バイト構成分離
手段１３は、バイト構成検出手段と文字列分離手段で構
成される。バイト構成検出手段は、データ列を１バイト
単位に分離して１バイト構成か複数バイト構成かを検出
してバイト構成検出情報を出力する。文字列分離手段
は、バイト構成検出情報に基づいて、データ列を１バイ
ト構成と複数バイト構成の文字列に分離する。

【００２８】文字列圧縮手段１５は、単一バイト圧縮手
段、複数バイト圧縮手段、文字コード識別情報出力手
段、バイト構成変更出力手段、及び符号選択手段で構成
される。単一バイト圧縮手段は、１バイト構成の文字列
を圧縮し、また複数バイト圧縮手段は、複数バイト構成
の文字列を圧縮する。文字コード識別情報出力手段は、
コード種別識別情報に従って文字コードの種別を示すコ
ード識別情報を出力する。バイト構成変更出力手段は、
バイト構成検出情報に基づいてバイト構成の変更を示す
バイト構成変更情報を出力する。符号選択手段は、最終
的に、文字コード識別情報、バイト構成変更情報、単一
バイト圧縮データおよび複数バイト圧縮データを選択合
成して出力する。

【００２９】図１（Ｂ）におけるデータ復元装置は、文
字列復元手段１７と文字列再構成手段１９で構成され
る。文字列復元手段１７は、圧縮データをバイト構成毎
に分離して文字列を個別に復元する。文字列再構成手段
１９は、文字列復元手段１７で復元されたバイト構成の
異なる各文字列を１つに結合して元の文字列を再構成す
る。

【００３０】より具体的には、文字列復元手段１７は、
符号分離手段、単一バイト復元手段、及び複数バイト復
元手段を備える。符号分離手段は、圧縮データから単一
バイト圧縮データ、複数バイト圧縮データ、コード識別
情報、及びバイト構成変更情報を分離する。単一バイト
復元手段は、分離された単一バイト圧縮データから単一
バイト構成の文字列を復元する。また複数バイト復元手
段は、分離された複数バイト圧縮データから複数バイト
構成の文字列を復元する。

【００３１】文字列再構成手段１９は、文字列復元手段
１７の符号分離手段で分離されたコード識別情報とバイ
ト構成変更情報に基づいて、復元された単一バイト構成
の文字列と複数バイト構成の文字列を結合して元の文字
コード列を復元する。（日本語の異なる文字種）図１（Ｃ）は、日本語ソース
データを対象にした本発明によるデータ圧縮装置とデー
タ復元装置の原理説明図であり、各種文字コード内の異
なる文字種毎に分離して圧縮と復元を行うことを特徴と
する。勿論、日本語コードに限定されず、他の言語コー
ドにも拡張できる。

【００３２】データ圧縮装置は、コード種別判別手段２
１、文字種分離手段２３、文字列圧縮手段２５で構成さ
れる。コード種別判別手段２１は、入力データ列の属す
るＪＩＳコード、シフトＪＩＳコード等の文字コードの
種別を判別してコード種別識別情報を出力する。文字種
分離手段２３は、コード種別識別情報に基づいて、デー
タ列の各文字コードの文字種を検出し、異なる文字種毎
の文字列に分離する。文字列圧縮手段２５は、文字種分
離手段２３で分離した異なる文字種毎の各文字列を個別
に圧縮する。

【００３３】より具体的には、コード種別判別手段２１
は図１（Ａ）と同じものであり、一時記憶手段、第１〜
３頻度検出手段及びコード識別手段で構成され、３つの
頻度検出手段による文字コード空間における頻度分布の
偏りに基づいて、データ列の文字コード種別、例えばＪ
ＩＳコード、シフトＪＩＳコード、ＥＵＣコード、ユニ
コード、またはＪＥＦコードを識別する。

【００３４】文字種分離手段２３は、文字種検出手段と
文字列分離手段を備える。文字種検出手段は、データ列
を１バイト単位に分離し、半角か全角か、及び英数字、
カタカナ、ひらがな、漢字、その他かの文字種を検出し
て文字種検出情報を出力する。文字列分離手段は、文字
種検出情報に基づいて、文字列を半角英数字、半角カタ
カナ、半角その他、全角英数字、全角カタカナ、全角ひ
らがな、全角漢字、及び全角その他の文字種毎に分離す
る。

【００３５】文字列圧縮手段２５は、文字種別圧縮手段
として、例えば半角英数字圧縮手段、半角カタカナ圧縮
手段と、半角その他圧縮手段、全角英数字圧縮手段、全
角カタカナ圧縮手段、全角ひらがな圧縮手段、全角漢字
圧縮手段、及び全角その他圧縮手段を備える。また文字
コード識別情報出力手段と符号選択手段を備える。文字
種変更情報出力手段は、文字種識別情報に従って、識別
された文字コードの文字種を示す文字コード識別情報を
出力する。文字種変更情報出力手段は、文字種の変更を
示す文字種変更情報を出力する。更に、符号選択手段
は、文字コード識別情報、文字種変更情報、各文字種毎
の圧縮データを選択合成して出力する。

【００３６】図１（Ｃ）におけるデータ復元装置は、文
字列構成別復元手段２７と文字列再構成手段２９で構成
される。文字列復元手段２７は、圧縮データを文字種毎
に分離し文字種毎の文字列を個別に復元する。文字列再
構成手段２９は、文字列復元手段２７で復元された文字
種の異なる各文字列を１つに結合して元の文字列を再構
成する。

【００３７】より具体的には、文字列復元手段２７は、
符号分離手段と文字種別復元手段を備える。符号分離手
段は、文字種毎の圧縮データ、コード識別情報、及び文
字種変更情報を分離する。文字種別復元手段は、符号分
離手段で分離された文字種毎の圧縮データから文字列を
文字種毎に復元する。文字列再構成手段２９は、文字列
復元手段２７の符号分離手段で分離されたコード識別情
報と文字種変更情報に基づいて、文字種毎に復元された
文字列を結合して元の文字列を再生する。

【００３８】

【００３９】

【００４０】

【００４１】

【００４２】

【００４３】このように、国際標準化されている異なる
言語を混在するユニコード等に対して、各言語或いは各
言語内の統計的性質の異なる各種文字を区別して圧縮す
ることにより、圧縮性能を高めることができる。また、
異なるバイト構成或いは異なる文字種に対する各種の日
本語文字コード等の各種の言語コードに対しても、効果
的な圧縮が期待できる。

【００４４】

【発明の実施の形態】

＜目次＞１．ユニコードの圧縮復元（１）多数国言語（２）東洋系言語（３）韓国語（４）日本語２．日本語コードの圧縮復元（１）異なるバイト構成毎の圧縮復元（２）異なる文字種毎の圧縮復元（３）バイト統一による圧縮復元１．ユニコードの圧縮復元（１）多数国言語図２は、国際標準化機構（ＩＳＯ）／国際電機技術委員
会（ＩＥＣ）による文字コード１０６４６の国際規格と
して知られたユニコードのソースデータを対象とした本
発明のデータ圧縮装置のブロック図である。図２におい
て本発明のデータ圧縮装置は、言語判別部１０、言語列
分離部１２及び言語列圧縮部１４で構成される。言語判
別部１０はユニコードのソースデータを入力し、ユニコ
ードで使用している複数種類の言語コードの種類を判別
する。言語列分離部１２は、言語判別部１０で判別した
言語に基づき、言語ごとの言語列に分離する。言語列圧
縮部１４は、言語列分離部１２で分離した各言語列を個
別に圧縮した後に統合して、圧縮データとして出力す
る。

【００４５】図３は、図２のユニコードを対象としたデ
ータ圧縮装置で得られた圧縮データからユニコードのソ
ースデータを復元するデータ復元装置である。このデー
タ復元装置は言語列復元部２０と言語列再構成部２２で
構成される。言語列復元部２０は圧縮データを入力し、
各言語単位に言語列を復元する。言語列再構成部２２
は、復元された各言語列から複数種類の言語コードが混
在するユニコードのデータ列を復元する。

【００４６】ここで、図２のデータ圧縮装置及び図３の
データ復元装置で対象とするユニコードを説明する。図
４はユニコードのコード空間であり、１６進表示でグル
ープ００ｈ〜７Ｆｈの１２８グループで構成される。こ
の内、グループ００ｈのプレーン００ｈを基本多国語プ
レーン（ＢＭＰ Basic Multilingual Plane）と呼ぶ。

【００４７】このユニコードは図５のように、２バイト
あるいは４バイトで構成される。２バイト構成の場合、
上位バイトの行オクテット（＝行バイト）と下位バイト
のセル・オクテット（＝セルバイト）の２次元的表現で
各言語の文字が表現される。図６は、図４の基本多国語
プレーン２４の詳細であり、基本多国語プレーン２４に
続いて、補助プレーン２６及びプライベートユーズプレ
ーン２８を設けている。基本多国語プレーン２４は、Ａ
ゾーン，Ｉゾーン，Ｏゾーン及びＲゾーンに分けられて
いる。

【００４８】各言語の別は行オクテットで区別すること
ができ、行オクテットの００ｈ〜４ＤｈはＡゾーンに属
し、ＡゾーンにＡＳＣＩＩや平仮名、片仮名、ハングル
文字、アラビア文字、数学用の文字等が含まれている。
また行オクテッドの４Ｅｈ〜９ＦｈはＩゾーンに属し、
Ｉゾーンに東洋系の漢字が混在して含まれている。図７
はユニコードにおける全体構成、一般文字、記号及び東
洋関連のそれぞれを詳細に示している。図７（Ａ）は図
６の基本多国語プレーン２４の全体構成であり、空間の
先頭側から一般スプリクト、記号、東洋関連が斜線部に
示すように割り当てられており、行オクテットの中の４
０ｈ付近に漢字が割り当てられる。

【００４９】図７（Ｂ）は図７（Ａ）における一般文字
の部分であり、ラテン語を先頭に各言語が割り当てられ
る。図７（Ｄ）は図７（Ａ）の記号の部であり、句読
点、上付き、下付き、通貨、アクサン等、各種の記号及
び制御機能が割り当てられている。図７（Ｅ）が東洋関
連の部であり、ひらがな、カタカナ、ハングル文字、漢
字などが割り当てられている。

【００５０】図８は、図２のデータ圧縮装置の具体的な
実施形態のブロック図である。図８において、言語判別
部１０には行オクテットデコード部３０が設けられる。
例えばユニコードソースデータとして図５の２バイト文
字が入力されることから、行オクテットデコード部３０
はその上位バイト（上位８ビット）を取り込んで行オク
テットをデコードすることで言語の種別を判別する。

【００５１】言語列分離部１２には言語別分離部３２が
設けられる。言語別分離部３２は行オクテットデコード
部３０による言語の判別結果に基づき、入力したユニコ
ードデータを例えばラテン語（英語）、ギリシャ語等の
各言語列に分離する。言語列圧縮部１４には、ユニコー
ドに割り当てられている各言語に対応した圧縮部が個別
に設けられる。この実施形態にあっては、ラテン語圧縮
部３４、ギリシャ語圧縮部３６、ハングル語圧縮部３
８、漢字圧縮部４０などを設けている。言語列圧縮部１
４に設ける言語別の圧縮部としては、圧縮対象とするユ
ニコードソースデータで扱っている言語に応じて適宜に
定めればよい。

【００５２】ラテン語圧縮部３４、ギリシャ語圧縮部３
６、ハングル語圧縮部３８及び漢字圧縮部４０の各々で
圧縮された言語別の圧縮データは、符号統合部４２で統
合され、圧縮データとして出力される。言語列圧縮部１
４に設けた各言語別圧縮部の圧縮方法としては、各言語
に対応した複数の辞書メモリを設け、言語列のデータ別
に入力される文字列と各言語ごとの辞書に既に登録した
文字列との最長一致検索により符号化するジブ−レンペ
ル符号化を行う。

【００５３】このジブ−レンペル符号化にあっては、動
的辞書法あるいはスライド辞書法のいずれであってもよ
い。また他の圧縮方法として、言語ごとに分離した文字
列に対し、現在までに求めた各言語列ごとの確率テーブ
ルに基づき、各データ別に入力される文字列を多値算術
符号化してもよい。このように異なる言語が混在するユ
ニコードのソースデータに対し、各言語別に分離して個
別に圧縮することにより、統計的性質が似通った文字列
個々の圧縮となり、ジブ−レンペル符号化や算術符号化
などにおける圧縮機能が有効に生かされて高い圧縮率を
実現することができる。

【００５４】図９は、図８のデータ圧縮装置で得られた
圧縮データから元のユニコードソースデータを復元する
ためのデータ復元装置の実施形態である。図９におい
て、データ復元装置の言語列復元部２０には言語別分離
部４４が設けられており、入力した圧縮データを言語別
の圧縮データに分離する。言語別分離部４４に続いて
は、図８の言語列圧縮部１４に対応してラテン語復元部
４６、ギリシャ語復元部４８、ハングル語復元部５０及
び漢字復元部５２が設けられている。

【００５５】このように言語別に復元部を設けたこと
で、言語別分離部４４から言語別に分けて得られた言語
列のそれぞれを各言語単位に復元して元の言語列を得
る。言語列再構成部２２にはユニコード再生部５４が設
けられており、各言語の復元部より個別に得られた言語
別の言語列を統合して元のユニコードのソースデータを
復元する。

【００５６】ここで図８の圧縮の際には、符号統合部４
２において、行オクテットデコード部３０における言語
の判別結果に応じた言語変更情報が圧縮データの中に組
み込まれており、したがって図９の復元側においては、
この言語変更情報を言語別分離部４４で分離すること
で、その分離情報に基づいてユニコード再生部５４で並
列的に得られる各言語列を組み合わせて統合したユニコ
ードのソースデータとすることができる。

【００５７】（２）東洋系言語図１０はユニコードにおける東洋言語に限定した場合の
データ圧縮装置の実施形態であり、日本語、韓国語及び
中国語を例にとっている。図１０において、言語判別部
１０には一時記憶部５６、行オクテットデコード部５
８、頻度測定言語判別部６０、ひらがな・カタカナ頻度
記憶部６２、ハングル語頻度記憶部６４及び漢字頻度記
憶部６６が設けられている。この言語判別部１０におけ
る東洋系の言語の判別は、まず一時記憶部５６に、ある
一定期間に亘りユニコードソースデータを入力して記憶
しながら、この一時記憶するデータについて行オクテッ
トデコード部５８で行オクテットをデコードして言語の
種別を判別した結果の履歴を、ひらがな・カタカナ頻度
記憶部６２、ハングル語頻度記憶部６４及び漢字頻度記
憶部６６の各々に格納する。

【００５８】行オクテットデコード部５８による一定期
間に亘る一時記憶データの行オクテットの解読結果が得
られたならば、頻度測定言語判別部６０により各頻度記
憶部６２，６４，６６に記憶されたひらがな・カタカ
ナ、ハングル語及び漢字の出現頻度により、現在処理し
ようとしているユニコードソースデータが日本語か韓国
語かあるいは中国語かを判別する。

【００５９】例えば、ひらがな，カタカナの出現頻度が
高ければ日本語と判別できる。ハングル語の出現頻度が
高ければ韓国語と判別できる。更に、ひらがな，カタカ
ナやハングル語の出現頻度はほとんどなく漢字頻度が高
い場合には中国語と判別することができる。このような
頻度測定言語判別部６０の言語種別の判別結果に基づ
き、言語分離部１２に設けた言語別分離部６８は、一時
記憶部５６に蓄積されているユニコードソースデータを
入力して、判別した日本語、韓国語または中国語の各言
語列に分離する。

【００６０】言語列圧縮部１４には日本語圧縮部７０、
韓国語圧縮部７２及び中国語圧縮部７４が設けられてい
る。これらの各圧縮部に対しては、言語別分離部６８で
分離された日本語、韓国語あるいは中国語の各言語列が
個別に入力され、ジブ−レンペル符号化あるいは算術符
号化などにより各言語ごとの辞書あるいは履歴を使用し
て圧縮される。

【００６１】符号統合部７６は、各圧縮部７０，７２，
７４により出力される圧縮データを１つのビットストリ
ームに統合して圧縮データとして出力する。このとき頻
度測定言語判別部６０における言語判別結果が切り替わ
った場合には、言語変更情報が異なる言語の圧縮データ
の間に挿入されることになる。図１１は、図１０のデー
タ圧縮装置で圧縮された圧縮データから元のソースデー
タを復元するためのデータ復元装置の実施形態である。
このデータ復元装置は言語列復元部２０に言語別分離部
７８を設けており、圧縮データを入力して日本語、韓国
語及び中国語の圧縮データ列に分離する。この場合の分
離は、圧縮データに含まれている言語変更情報を使用し
て分離することができる。

【００６２】言語別分離部７８に続いては、日本語復元
部８０、韓国語復元部８２及び中国語復元部８４が設け
られ、各言語の圧縮データ列を入力して言語単位にユニ
コードを復元する。言語列再構成部２２にはユニコード
再生部８６が設けられており、言語別分離部７８で分離
された言語変更情報に基づき、各復元部８０，８２，８
４より得られる各言語列ごとの文字を結合してユニコー
ドを再生する。

【００６３】（３）韓国語図１２は、ユニコードソースデータとして韓国語を対象
としたデータ圧縮装置の実施形態である。この韓国語に
限定したデータ圧縮装置にあっては、言語判別部１０に
設けている行オクテットデコード部８８により、韓国語
の中に混じっている漢数字、ハングル語、漢字を認識
し、このデコード結果により言語分離部１２の言語別分
離部９０で英数字、ハングル語、漢字に分離する。

【００６４】英数字、ハングル語、漢字に分離された文
字列は、言語圧縮部１４に設けている英数字圧縮部９
２、ハングル語圧縮部９４及び漢字圧縮部９６で個別に
圧縮され、最終的に符号統合部９８で行オクテットデコ
ード部８８の判別結果に応じた文字種切替情報を含めて
１つのビットストリームの圧縮データとして出力する。
図１３は、図１２の韓国語に限定したデータ圧縮装置で
得られた圧縮データから元のユニコードソースデータを
復元するためのデータ復元装置の実施形態である。図１
３において、データ復元装置の言語列復元部２０には言
語列分離部１００が設けられ、圧縮データに含まれてい
る文字種変更情報により英数字、ハングル語、漢字に分
離して圧縮データ列を出力する。

【００６５】言語列分離部１００に続いては、英数字復
元部１０２、ハングル語復元部１０４及び漢字復元部１
０６が設けられており、各言語別に分離された圧縮デー
タ列を個別に復元する。各復元部の復元文字列は、言語
列再構成部２２に設けているユニコード再生部１０８に
与えられ、言語列分離部１００で圧縮データから得られ
た文字種変更情報に従った選択結合により、英数字、ハ
ングル語及び漢字が混在した元のユニコードデータを再
生する。

【００６６】（４）日本語図１４は、ユニコードソースデータの日本語を対象とし
たデータ圧縮装置の実施形態である。図１４において、
言語判別部１０に設けた行オクテットデコード部１１０
は、日本語を対象としたユニコードソースデータの２バ
イトコードについて、上位バイトを取り込んで行オクテ
ットを解読し、日本語に混在している英数字、ひらが
な、カタカナ、漢字を判別し、言語列分離部１２に設け
ている言語別分離部１１２に判別結果を与えて、英数
字、ひらがな、カタカナ、漢字の各文字列に分離する。

【００６７】言語列圧縮部１４には英数字圧縮部１１
４、ひらがな圧縮部１１６、カタカナ圧縮部１１８及び
漢字圧縮部１２０が設けられ、言語列分離部１１２で分
離された英数字、ひらがな、カタカナ及び漢字の各文字
列を個別に圧縮する。各圧縮部１１４，１１６，１１
８，１２０からの圧縮データは符号統合部１２２で組み
合わされ、１つのビットストリームとなった圧縮データ
として出力される。この圧縮データを統合する際に、英
数字、ひらがな、カタカナ、漢字の相互間における文字
種切替えを指定するため、行オクテットデコード部１１
０の判別結果に基づいた文字種変更情報が異なった文字
種の圧縮データの間に挿入される。

【００６８】図１５は、図１４の日本語に限定したユニ
コードのデータ圧縮装置で得られた圧縮データから元の
日本語ユニコードデータを復元するデータ復元装置の実
施形態である。このデータ復元装置にあっては、言語列
復元部２０に設けた言語別分離部１２４で圧縮データに
含まれている文字種変更情報から英数字、ひらがな、カ
タカナまたは漢字の圧縮データ列に分離する。

【００６９】言語別分離部１２４に続いては英数字復元
部１２６、ひらがな復元部１２８、カタカナ復元部１３
０及び漢字復元部１３２が設けられ、各文字種単位の復
元が行われる。各復元部１２６，１２８，１３０，１３
２で得られた復元データは言語列再構成部２２に設けて
いるユニコード再生部１３４に与えられ、言語別分離部
１２４で分離された圧縮データに含まれる文字種変更情
報に従った復元文字列の選択と結合により言語ソースデ
ータを再生する。２．日本語コードの圧縮復元（１）異なるバイト構成毎の圧縮復元図４，図５，図６に示した国際標準のユニコードとは別
に、日本語固有の文字コードも幾つか存在する。日本語
固有の文字コードとしては、例えばＪＩＳ漢字コード、
シフトＪＩＳコード、ＥＵＣコードなどがあり、全て２
バイト構成や、１バイトと２バイトが混在するバイト構
成となっている。

【００７０】このような日本語固有の文字コードを使用
したソースデータに対するデータ圧縮を図６のデータ圧
縮装置は行うもので、異なるバイト構成の日本語ソース
データに対し、異なるバイト単位ごとに圧縮と復元を行
うようにしたことを特徴とする。図１６のデータ圧縮装
置は、コード種別判別部１１、バイト構成分離部１３及
び文字列圧縮部１５で構成される。コード種別判別部１
１は日本語固有の文字コードである例えば、ＪＩＳコー
ド、ＥＵＣコード、ＪＥＦコードなどを判別する。もち
ろん、この日本語固有コードの中に既に説明したユニコ
ードもその一種として含めてもよい。

【００７１】バイト構成分離部１３は、コード種別判別
部１１で判別されたコード種別識別情報に基づき、文字
コードのバイト構成を検出し、バイト構成の異なる複数
種類の文字列に分離する。文字列圧縮部１５は、バイト
構成分離手段１３で分離したバイト構成の異なる複数種
類の文字列ごとに個別に圧縮を行う。図１７は、図１６
のバイト構成単位に圧縮を行って得られた圧縮データか
ら元の日本語ソースデータを復元するためのデータ復元
装置の実施形態であり、文字列復元部１７と文字列再構
成部１９で構成される。文字列復元部１７は、圧縮デー
タを入力してバイト構成ごとに分離した圧縮データ列を
出力する。

【００７２】ここで圧縮データには、図１６の圧縮の際
にコード種別判別部１１で判別されたコード種別識別情
報に基づいたバイト構成変更情報が挿入されており、こ
のバイト構成変更情報に従って文字列復元部１７は、複
数種類の異なったバイト構成ごとの圧縮データ列への分
離を行って個別に復元する。文字列再構成部１９は、文
字列復元部１７で復元されたバイト構成の異なる各文字
列を１つに結合して元の日本語ソースデータの文字列を
再構成する。

【００７３】図１８は、図１６のデータ圧縮装置及び図
１７のデータ復元装置で扱っている日本語固有の文字コ
ードであるＪＩＳ漢字コード、シフトＪＩＳコード、Ｅ
ＵＣコードの文字数及びバイト構成を示す。また図１９
は、日本語固有の文字コードの２バイト構成について、
第１バイト（上位バイト）と第２バイト（下位バイト）
の２次元文字コード空間におけるＪＩＳ漢字コード、シ
フトＪＩＳコード及びＥＵＣコードの割り当てを表わし
ている。

【００７４】この図１８，図１９に示す日本語固有のＪ
ＩＳ漢字コード、シフトＪＩＳコード、ＥＵＣコードに
ついては、例えばバイト単位に文字を切り出して図１９
の日本語文字コード空間における出現頻度の偏りを判断
することでコード種別を識別することができる。図２０
は、図１６のデータ圧縮装置の具体的な実施形態であ
る。図２０において、まずコード種別判別部１１は一時
記憶部１３６、単一バイト頻度偏り検出部１３８、複数
バイト頻度偏り検出部１４０、識別符号頻度検出部１４
２、コード識別部１４４が設けられる。

【００７５】即ち、日本語ソースデータの一定区間のデ
ータを一時記憶部１３６に入力して記憶し、この記憶の
際に一定区間について単一バイトの頻度の偏り、複数バ
イト頻度の偏り、及び識別符号の頻度の各々を、単一バ
イト頻度偏り検出部１３８、複数バイト頻度偏り検出部
１４０及び識別符号頻度検出部１４２で検出する。この
ような頻度検出により、図１９の日本語固有の文字コー
ド空間における出現頻度の偏りが分かり、出現頻度の偏
りが判明し、この頻度の偏りから文字コード空間内に割
り当てられたＪＩＳ漢字、シフトＪＩＳあるいはＥＵＣ
のいずれのコード種別であるかを識別することができ、
識別結果を示すコード識別情報１４６を出力する。

【００７６】この頻度の偏り検出によるコード種別の判
別を更に詳しく説明すると、一時記憶部１３６に蓄積す
るある一定区間の日本語ソースデータ内の全角、ひらが
な、カタカナ、英文字、記号（特にスペース、コンマ、
句読点など）に対応する各符号の出現頻度を単一バイト
あるいは複数バイトごとに検出し、検出した頻度の図１
９の日本語文字コード空間における偏りから日本語ソー
スデータのコード種別を判別する。

【００７７】別のコード種別の判別の仕方としては、同
じく一時記憶部１３６に蓄積している一定区間の日本語
ソースデータ内の半角、カタカナ、英数字、記号（特に
スペース、コンマ、句読点など）に対応する各符号の頻
度を単一バイトごとに検出し、同様にして図１９の横軸
の下位バイトの一次元における頻度の偏りにより日本語
ソースデータのコード種別を判別するようにしてもよ
い。

【００７８】コード種別判別部１１に続いて設けられた
バイト構成分離部１３には、単一バイト構成検出部１４
８と文字列分離部１５２が設けられる。単一バイト構成
検出部１４８は、コード識別部１４４より出力されたコ
ード種別情報１４６に基づいて、処理対象としている文
字コード種別を認識し、１文字が単一バイトか２バイト
かを検出する。

【００７９】文字列分離部１５２は、単一バイト構成検
出部１４８による検出結果即ちバイト構成検出情報１５
０に基づいて単一バイトと複数バイト（２バイト）の文
字に分離し、単一バイト文字列１５４と複数バイト文字
列１５６を出力する。この単一バイト構成検出部１４８
と文字列分離部１５２によるバイト構成別の文字列の分
離は、コード識別情報１４６でＪＩＳ漢字コード、シフ
トＪＩＳ漢字コードあるいはＥＵＣ（拡張ＵＮＩＸ）コ
ードが分かると、それぞれ固有のバイト構成の認識によ
る分離処理ができる。

【００８０】例えば、コード識別情報１４６で識別され
た日本語ソースコードがＪＩＳ漢字コードの場合、特殊
切替え符号によってＪＩＳの１バイト符号（半角−英数字、カタカナ他）ＪＩＳの２バイト符号（全角−英数字、カタカナ、ひ
らがな、漢字他）であることが認識できる。そこで、この特殊切替え符号
により、ＪＩＳ漢字コードの文字列をバイト構成別に分
離すればよい。

【００８１】また、日本語ソースデータがシフトＪＩＳ
漢字コードの場合、１バイト目をデコードすることで１
バイト符号か２バイト符号か分かる。即ち、１バイト目が１６進で２１Ｈ〜７ＥＨ、Ａ１Ｈ〜ＤＦ
Ｈの場合、シフトＪＩＳの１バイト符号１バイト目が１６進で８１Ｈ〜９ＦＨ、Ｅ０Ｈ〜ＦＣ
Ｈの場合、シフトＪＩＳの２バイト符号となる。したがって、１６進の１バイト目をデコードす
ることで、１バイト符号と２バイト符号への分離が簡単
にできる。

【００８２】更に、日本語ソースデータがＥＵＣ（拡張
ＵＮＩＸ）コードの場合、各バイトの先頭ビット（上位ビット）が０の場合、Ａ
ＳＣＩＩの１バイト符号各バイトの先頭ビット（上位ビット）が１の場合、Ｊ
ＩＳの２バイト符号となる。この場合にも同様にして、各バイトの先頭ビッ
ト（上位ビット）をデコードすることで、１バイト符号
列と２バイト符号列に分離することができる。

【００８３】バイト構成分離部１３に続いては文字列圧
縮部１５が設けられ、文字列圧縮部１５には単一バイト
圧縮部１５８、複数バイト圧縮部１６０、バイト構成変
更符号出力部１６２、日本語識別符号出力部１６４及び
符号選択部１６６が設けられている。即ち、文字列分離
部１５２で分離された単一バイト文字列１５４は単一バ
イト圧縮部１５８で圧縮され、また複数バイト文字列１
５６は複数バイト圧縮部１６０で圧縮される。バイト構
成変更符号出力部１６２は、コード識別情報１４６によ
る単一バイト構成の検出から複数バイト構成の検出、ま
たはその逆の変化を監視しており、バイト構成が変化す
るとバイト構成変更符号を出力する。

【００８４】日本語識別符号出力部１６４は、コード識
別情報１４６に基づき、識別されたＪＩＳ、シフトＪＩ
Ｓ、ＥＵＣなどのコード種別情報を出力する。更に本発
明にあっては、ユニコードも処理対象に含まれているこ
とから、ユニコードが国際化標準であるので、それ以外
のコードについては日本語固有コードであることを示す
符号も併せて出力する。

【００８５】符号選択部１６６は、圧縮データの先頭位
置に日本語識別符号出力部１６４から出力された日本語
識別符号を付加し、その後ろに単一バイト圧縮データま
たは複数バイト圧縮データを配置する。単一バイト圧縮
データから複数バイト圧縮データへの切替え時、逆に複
数バイト圧縮データから単一バイト圧縮データへの切替
え時には、バイト構成変更符号出力部１６２より出力さ
れたバイト構成変更符号が挿入され、これらを選択結合
した１つのビットストリームデータとして圧縮データを
出力する。

【００８６】このような日本語ソースデータを対象とし
たデータ圧縮装置にあっては、単一バイトと複数バイト
との異なるバイト構成の文字が混在している場合に、異
なるバイト構成ごとに分離した同一バイト構成の文字列
に変換して圧縮と復元を行うことにより、統計的性質の
似通った文字を集めて圧縮することができ、これによっ
てジブ−レンペルや算術符号化における圧縮性能を十分
に引き出すことができ、結果として圧縮性能を高めるこ
とができる。

【００８７】図２１は、図２０のバイト構成ごとに分離
して圧縮を行った圧縮データから元の日本語ソースデー
タを復元するためのデータ復元装置、即ち図１７に示し
たデータ復元装置の詳細な実施形態である。図２１にお
いて、データ復元装置は文字列復元部１７と文字列再構
成部１９で構成される。文字列復元部１７には符号分離
部１６８が設けられ、圧縮データの先頭位置に含まれて
いる日本語識別符号に基づいて、ＪＩＳコード、シフト
ＪＩＳコード、ＥＵＣコードなどを示すコード識別情報
１７４を分離する。また圧縮データにおけるバイト構成
の変更を示すバイト構成変更情報１７６を分離する。

【００８８】更にバイト構成変更情報１７６に従って、
圧縮データに含まれている単一バイト圧縮データと複数
バイト圧縮データを各々分離し、対応する単一バイト復
元部１７０と複数バイト復元部１７２に出力する。単一
バイト復元部１７０及び複数バイト復元部１７２は、ジ
ブ−レンペル復号化あるいは算術復号化に従って、同じ
バイト構成の圧縮データ列についての復元処理を行う。

【００８９】文字列再構成部１９には単一／複数バイト
混在再生部１７８が設けられる。単一／複数バイト混在
再生部１７８は、符号分離部１６８から出力されたコー
ド種別情報１７４とバイト構成変更情報１７６に従っ
て、単一バイト復元部１７０及び複数バイト復元部１７
２より出力される復元文字の選択結合を行って、単一バ
イト文字と複数バイト文字が混在した元の日本語ソース
データを再生する。（２）異なる文字種ごとの圧縮復元図２２は、日本語固有の文字コードを対象に、コード内
の英数字、ひらがな、カタカナなどの文字種別に文字列
を分離して個別に圧縮するデータ圧縮装置の実施形態で
ある。このデータ圧縮装置は、コード種別判別部２１、
文字種分離部２３及び文字列圧縮部２５で構成される。

【００９０】コード種別判別部２１は、図１６のバイト
構成ごとに分けて圧縮する場合のコード種別判別部１１
と同じものであり、日本語ソースデータからＪＩＳコー
ド、シフトＪＩＳコード、ＥＵＣコードなどのコード種
別を判別する。文字種分離部２３は、各文字コードによ
り半角の英数字、カタカナ、ひらがな、その他、及び全
角の英数字、カタカナ、ひらがな、漢字、その他となる
文字種を認識して、各文字種ごとに分離した文字列を生
成する。

【００９１】文字列圧縮部２５は、文字種分離部２３で
分離された各文字種別の圧縮部を有し、同一文字種の文
字列について個別に圧縮したデータを統合して圧縮デー
タとして出力する。図２３は図２２の文字種ごとに分離
した文字列を個別に圧縮して得た圧縮データから元の日
本語ソースデータを復元するデータ復元装置の実施形態
であり、文字列復元部２７及び文字列再構成部２９で構
成される。文字列復元部２７は、圧縮側で圧縮データに
挿入された文字種変更情報から文字種の切替えを認識し
て文字種ごとに圧縮データを分離した圧縮データ列を生
成し、文字種ごとに設けている復元部において文字種ご
との圧縮データの復元を行う。

【００９２】文字種ごとに復元された文字列は文字列再
構成部２９に与えられ、圧縮データから分離された文字
種変更情報に従った選択結合により、元の複数の文字種
が混在した日本語ソースデータを復元する。図２４は、
図２２の文字種ごとに分離して圧縮するデータ圧縮装置
の具体的な実施形態である。まずコード種別判別部２１
は、図２０のバイト構成ごとに分けて圧縮する場合の実
施形態と同様、一時記憶部１３６、単一バイト頻度偏り
検出部１３８、複数バイト頻度偏り検出部１４０、識別
符号頻度検出部１４２及びコード識別部１４４で構成さ
れ、入力した日本語ソースデータがＪＩＳ、シフトＪＩ
ＳあるいはＥＵＣなどのいずれであるかを示すコード識
別情報１４６を出力する。

【００９３】コード種別判別部２１に続いて設けられた
文字種分離部２３には、文字種検出部１８０及び文字種
分離部１８４が設けられる。文字種検出部１８０は、一
時記憶部１３６を経由して入力した日本語ソースデータ
を１バイト単位に取り出して、そのコードから半角英数
字、半角カタカナ、半角その他、全角英数字、全角カタ
カナ、全角ひらがな、全角漢字、全角その他のいずれの
文字種であるかを検出し、検出結果を示す文字種検出情
報１８２を出力する。

【００９４】文字種分離部１８４は、文字種分離部１８
０からの文字種検出情報１８２に基づき、検出された文
字種のみの文字列に分離して、文字列圧縮部２５に出力
する。文字列圧縮部２５には、各文字種に対応した圧縮
部として半角英数字圧縮部１８６、半角カタカナ圧縮部
１８８、半角その他圧縮部１９０、全角英数字圧縮部１
９２、全角カタカナ圧縮部１９４、全角ひらがな圧縮部
１９６、全角漢字圧縮部１９８、及び全角その他圧縮部
２００が設けられ，各種文字列を個別に圧縮する。

【００９５】また文字種変更符号出力部２０２が設けら
れ、文字種分離部２３からの文字種検出情報１８２の変
化を認識した際に文字種変更符号を出力する。更に日本
語識別符号出力部２０４が設けられ、コード種別判別部
２１からのコード識別情報１４６に基づき、ソースデー
タが日本語であり且つＪＩＳ、シフトＪＩＳまたはＥＵ
Ｃなどのコード種別を示す日本語識別符号を出力する。

【００９６】符号選択部２０６は、各文字種ごとの圧縮
部１８６，１８８，・・・２００より出力される各文字
種ごとの圧縮データと文字種変更符号、更には圧縮デー
タ先頭位置に日本語識別符号を設ける符号選択を行い、
１つのビットストリームとなる圧縮データとして出力す
る。図２５は、図２３の文字種ごとに分離して圧縮した
圧縮データから元の日本語ソースデータを復元するデー
タ復元装置の具体的実施形態である。図２４の文字列復
元部２７には、符号分離部２０８と各文字種ごとの復元
部として半角英数字復元部２１４、半角カタカナ復元部
２１６、半角その他復元部２１８、全角英数字復元部２
２０、全角カタカナ復元部２２２、全角ひらがな復元部
２２４、全角漢字復元部２２６及び全角その他復元部２
２８が設けられる。

【００９７】符号分離部２０８は、圧縮データの先頭に
配置している日本語識別符号からコード識別情報２１２
を分離する。また圧縮データの中で各文字種の圧縮デー
タの切替え部分に挿入されている文字種変更符号から文
字種変更情報２１０を出力する。ここで符号分離部２０
８は、圧縮データに含まれている文字種変更符号に従っ
て圧縮データにおける文字種ごとの内容を認識し、これ
に従って各文字種ごとに分離してそれぞれの復元部に出
力する。

【００９８】文字列復元部２７で復元された英数字、カ
タカナなどの各文字種ごとの文字列は、文字列再構成部
２９に設けている文字種混在再生部２３０に与えられ
る。文字種混在再生部２３０は、圧縮データの先頭から
分離されたコード識別情報２１２に基づいて、復元すべ
き日本語ソースデータのコード種別を認識し、更に符号
分離部２０８で分離された文字種変更情報２１０により
復元された文字種ごとの文字列を選択して結合すること
で、１つのビットストリームとなる複数の文字種が混在
した日本語ソースデータを再生する。

【００９９】このように日本語ソースデータにおけるコ
ード内の異なる文字種ごとに分離した文字列を個別に圧
縮することで、統計的性質の似通った同じ文字種ごとに
圧縮を行って、ジブ−レンペル符号化や算術符号化にお
ける符号化能力を十分に引き出すことができ、結果とし
て高い圧縮性能を実現することができる。（３）バイト統一による圧縮復元図２６は、日本語ソースデータを対象としたデータ圧縮
装置の実施形態であり、この実施形態にあっては複数種
類のバイト構成について１つのバイト構成に統一した後
に圧縮することを特徴とする。

【０１００】図２６において、バイト統一を行うデータ
圧縮装置は、符号判別部３１、バイト構成統一部３３及
び文字列圧縮部３５で構成される。符号判別部３１は、
日本語ソースデータがＪＩＳコード、シフトＪＩＳコー
ド、ＥＵＣコード、ＪＥＦコードあるいはユニコード等
であることを判別し、コード識別情報を出力する。バイ
ト構成統一部３３は、コード種別判別部３１で判別され
たコード種別から、判別したコードで使用しているバイ
ト構成の内容を認識し、異なったバイト構成の文字を使
用しているバイト構成の中で最も大きいバイト数のバイ
ト構成に統一する処理を行う。文字列圧縮部３５は、バ
イト構成統一部３３で１つのバイト構成に統一された文
字列の圧縮を行う。

【０１０１】図２７は、図２６のバイト構成の統一によ
る圧縮で得られた圧縮データから元の日本語ソースデー
タを復元するデータ復元装置の実施形態であり、文字列
復元部３７と文字列再構成部３９で構成される。文字列
復元部３７は、圧縮データから統一バイト構成の文字列
を復元する。文字列再構成部３９は、復元された統一バ
イト構成の文字列から複数種類のバイト構成の混在した
元の日本語ソースデータを再構成する。

【０１０２】図２８は、図２６のデータ圧縮装置の具体
的な実施形態である。図２８において、コード種別判別
部３１は図２０のバイト構成に分けて圧縮する場合のコ
ード種別判別部と同じであり、同じ符号で表わしてい
る。コード種別判別部３１に続いてはバイト構成統一部
３３が設けられ、バイト構成検出部２３２とバイト構成
統一変換部２３４で構成される。

【０１０３】バイト構成検出部２３２は、一時記憶部１
３６を経由して入力した日本語ソースデータの各文字が
単一バイト文字か多数バイト文字かを判別する。ＪＩ
Ｓ、シフトＪＩＳ、ＥＵＣ、更にＪＥＦの各コードにあ
っては、１バイト構成と２バイト構成であることから、
バイト構成検出部２３２は１バイト構成または２バイト
構成の検出結果を次段のバイト構成統一変換部２３４に
出力する。

【０１０４】バイト構成統一変換部２３４は、単一バイ
トと複数バイトで構成されている場合、最も多いバイト
数の文字に統合する。例えば１バイト構成と２バイト構
成の場合には、１バイト構成が検出された場合、この１
バイト構成の文字にダミー１バイトを加えることで２バ
イト構成の文字に変換する。バイト構成統一のために付
加したダミーバイトは、文字コードから明確に区別する
ことのできる特定のビットコードをもつようにする。し
たがって、２バイト構成か１バイト構成かはダミーバイ
トが存在するか否かで認識することができる。

【０１０５】バイト構成統一部３３に続いて設けられた
文字列圧縮部３５には、複数バイト圧縮部２３６、日本
語識別符号出力部２３８及び符号選択部２４０が設けら
れる。複数バイト圧縮部２３６は、バイト構成統一変換
部２３４より出力された同じ複数倍と構成の文字列の圧
縮を行う。日本語識別符合出力部２３８は、コード種別
判別部３１より出力されたコード識別情報１４６に基づ
き、日本語コードであり且つどのコード種別であるかを
示す日本語種別符合を出力する。

【０１０６】符号選択部２４０は、先頭位置に日本語識
別符合を挿入した後、複数バイト圧縮部２３６より得ら
れる圧縮データを１つのビットストリームの圧縮データ
として出力する。複数バイト圧縮部２３６の具体例とし
ては、図２９、図３０及び図３１に示す３種類のものが
ある。図２９（Ａ）の複数バイト圧縮部２３６−１は、
図２９（Ｂ）のバイト分割された文字列について、２バ
イトを１ワードとした場合に１文字を１ワードとして図
２９（Ｃ）のように圧縮を行う。

【０１０７】図３０（Ａ）の複数バイト圧縮部２３６−
２は、図３０（Ｂ）のバイト単位の文字列について１ワ
ードが１バイトの場合であり、これについて図３０
（Ｃ）のように２ワード単位に圧縮している。更に図３
１（Ａ）の複数バイト圧縮部２３６−３にあっては、
（Ｂ）のバイト単位の文字列について１ワードが１バイ
トの場合、図３１（Ｃ）のように１ワード単位に圧縮し
ている。

【０１０８】図３２は、バイト構成の統一により圧縮し
た圧縮データから日本語ソースデータを復元するデータ
復元装置の具体的な実施形態である。図３２において、
文字列復元部３７は符号分離部２４２と複数バイト復元
部２４６で構成される。符号分離部２４２は、圧縮デー
タの先頭に挿入している日本語識別符合から日本語コー
ドであり、且つＪＩＳ、シフトＪＩＳあるいはＥＵＣな
どのコード種別を示すコード識別情報２４４を分離す
る。

【０１０９】複数バイト復元部２４６は、圧縮データか
ら統一バイト構成の文字列を復元する。このバイト構成
復元部２４６としては、図３３，図３４，図３５のいず
れかを用いる。図３３（Ａ）の複数バイト復元部２４６
−１は図２９（Ａ）の複数バイト圧縮部２３６−１に対
応しており、復元するソースデータは１ワードが２バイ
トであり、１ワード単位に圧縮していることから、図３
３（Ｂ）のように２バイトで１ワードとなるワード単位
に復元した後、図３３（Ｃ）のようにワード単位に繋げ
て出力する。

【０１１０】図３４（Ａ）の複数バイト復元部２４６−
２は図３０（Ａ）の複数バイト圧縮部２３６−２に対応
しており、この場合には１ワードを１バイトとして２ワ
ード単位に圧縮していることから、図３４（Ｂ）のよう
に同じく２ワード単位に復元した後、図３４（Ｃ）のよ
うに１ワードずつ繋げて出力する。図３５（Ａ）は図３
１（Ａ）の複数バイト圧縮部２３６−３に対応してお
り、この場合には１バイトを１ワードとして１ワード単
位に圧縮していることから、図３５（Ｂ）のように１バ
イト１ワード単位に復元した後に１ワードずつ図３５
（Ｃ）のように繋げて出力する。

【０１１１】再び図３２を参照するに、文字列再構成部
３９には単一／複数バイト混在再生部２４８が設けら
れ、符号分離部２４２より分離されたコード識別情報２
４４から日本語のコード種別が認識される。続いて複数
バイト復元部２４６より復元された図３３（Ｃ），図３
４（Ｃ），図３５（Ｃ）のいずれかの復元文字列につい
て、バイト単位にダミーバイトの有無をチェックし、も
しダミーバイトがあればダミーバイトを除去することで
１バイト構成の文字に変換し、結果として単一バイトと
複数バイトが混在した日本語ソースデータの文字列を復
元する。

【０１１２】図３６は、図２９（Ａ）の複数バイト圧縮
部２３６−１によるＪＩＳ漢字を例にとって２バイトで
構成された１ワードの文字をワード単位に辞書登録して
ジブ−レンペル符号化した場合の処理である。また図３
７は、図３１（Ａ）の複数バイト圧縮部２３６−３によ
って同じくＪＩＳ漢字コードについて１バイトを１ワー
ドとしてワード単位即ちバイト単位に登録したジブ−レ
ンペル符号化の処理を示している。

【０１１３】いずれの場合にも、圧縮しようとする文字
列は２バイトコードに統一されているため、本来２バイ
ト構成の文字が１バイト構成の文字との混在により無意
味にバイト単位に分割されて辞書登録されることで符号
効率が低下するようなことを確実に回避できる。

【０１１４】

【発明の効果】以上説明してきたように本発明によれ
ば、国際標準化されている異なる言語が混在するユニコ
ード等に対し、各言語あるいは各言語内の統計的性質の
異なる各種文字を区別して圧縮することにより圧縮性能
を更に高めることができる。また異なるバイト構成ある
いは異なる文字種をもつ日本語データについて、同様に
バイト構成ごとに分けた圧縮あるいは文字種ごとに分け
た圧縮を行うことで、更に圧縮性能を高めることができ
る。またバイト構成の相違に対し１つのバイト構成に統
一して圧縮してすることで、同様に圧縮性能を高めるこ
とができる。

【図面の簡単な説明】

【図１】本発明の原理説明図

【図２】ユニコードを対象とした本発明のデータ圧縮装
置のブロック図

【図３】ユニコードを対象とした本発明のデータ復元装
置のブロック図

【図４】ユニコード空間の説明図

【図５】ユニコードのバイト構成の説明図

【図６】ユニコード空間の基本多国語プレーンの説明図

【図７】ユニコードにおける全体構成、一般文字、記号
及び東洋関連の割当て説明図

【図８】ユニコード多国語ソースを対象としたデータ圧
縮装置のブロック図

【図９】ユニコード多国語ソースを対象としたデータ復
元装置のブロック図

【図１０】ユニコード東洋言語ソースを対象としたデー
タ圧縮装置のブロック図

【図１１】ユニコード東洋言語ソースを対象としたデー
タ復元装置のブロック図

【図１２】ユニコード韓国語ソースを対象としたデータ
圧縮装置のブロック図

【図１３】ユニコード韓国語ソースを対象としたデータ
復元装置のブロック図

【図１４】ユニコード日本語ソースを対象としたデータ
圧縮装置のブロック図

【図１５】ユニコード日本語ソースを対象としたデータ
復元装置のブロック図

【図１６】日本語コードを対象に異なるバイト構成の文
字列毎に圧縮する本発明のデータ圧縮装置のブロック図

【図１７】日本語コードを対象に異なるバイト構成の文
字列毎に圧縮したデータを復元する本発明のデータ復元
装置のブロック図

【図１８】各種の日本語コードのバイト構成の説明図

【図１９】日本語コード空間の説明図

【図２０】図１６のデータ圧縮装置の詳細ブロック図

【図２１】図１７のデータ復元装置の詳細ブロック図

【図２２】日本語コードを対象に異なる文字種の文字列
毎に圧縮する本発明のデータ圧縮装置のブロック図

【図２３】日本語コードを対象に異なる文字種の文字列
毎に圧縮したデータを復元する本発明のデータ復元装置
のブロック図

【図２４】図２２のデータ圧縮装置の詳細ブロック図

【図２５】図２３のデータ復元装置の詳細ブロック図

【図２６】日本語コードを対象にバイト構成を統一して
圧縮する本発明のデータ圧縮装置のブロック図

【図２７】日本語コードを対象にバイト構成を統一して
圧縮したデータを復元する本発明のデータ復元装置のブ
ロック図

【図２８】図２６のデータ圧縮装置の詳細ブロック図

【図２９】２バイトで１ワードの文字列をワード単位に
圧縮する図２８の複数バイト圧縮部の説明図

【図３０】１バイトで１ワードの文字列を２ワード単位
に圧縮する図２８の複数バイト圧縮部の説明図

【図３１】１バイトで１ワードの文字列を１ワード単位
に圧縮する図２８の複数バイト圧縮部の説明図

【図３２】図２７のデータ圧縮装置の詳細ブロック図

【図３３】２バイトで１ワードの文字列をワード単位に
圧縮したデータを復元する図３２の複数バイト復元部の
説明図

【図３４】１バイトで１ワードの文字列を２ワード単位
に圧縮したデータを復元する図３２の複数バイト復元部
の説明図

【図３５】１バイトで１ワードの文字列を１ワード単位
に圧縮したデータを復元する図３２の複数バイト復元部
の説明図

【図３６】２バイトを１ワードとしてＪＩＳ漢字コード
をワード単位にジプーレンペル符号化した場合の説明図

【図３７】１バイトを１ワードとしてＪＩＳ漢字コード
をワード単位にジプーレンペル符号化した場合の説明図

【図３８】従来のＬＺＷ符号における辞書の木構成の説
明図

【図３９】ＬＺＷによる文字列の符号化の概略の説明図

【図４０】文字ａｂｃの文字列を例とったＬＺＷ符号化
の具体例な説明図

【図４１】図４０のＬＺＷ符号化で参照する辞書の説明
図

【図４２】ＬＺＷ符号化アルゴリズムのフローチャート

【図４３】文字ａｂｃの文字列を例にとったＬＺＷ復号
化の具体例な説明図

【図４４】ＬＺＷ復号化アルゴリズムのフローチャート

【図４５】単一バイトの圧縮と復元を行っている従来装
置のブロック図

【図４６】ＪＩＳ漢字コードにつきバイト単位にＬＺＷ
符号化した場合の説明図

【図４７】シフトＪＩＳ漢字コードにつきバイト単位に
ＬＺＷ符号化した場合の説明図

【符号の説明】

１０：言語判別部１１，２１，３１：コード種別判別部１２：言語列分離部１３：バイト構成分離部１４：言語列圧縮部１５，２５，３５：文字列圧縮部１６：ユニコードソースデータ１７，２７，３７：文字列復元部１８：圧縮データ１９，２９，３９：文字列再構成手段２０：言語列復元部２２：言語列再構成部２３：文字種分離手段２４：基本多数国語平面（基本ユニコード空間）２６：補助プレーン２８：プライベート・ユーズ・プレーン３０，５８，８８，１１０：行オクテットデコード部３２，６８，９０，１１２：言語別分離部（ソースデー
タ用）３３：バイト構成統一部３４：ラテン語圧縮部３６：ギリシャ語圧縮部３８：ハングル語圧縮部４０：漢字圧縮部４２，７６，９８：符号統合部４４，７８，１００，１２４：言語分離部（圧縮データ
用）４６：ラテン語復元部４８：ギリシャ語復元部５０：ハングル語復元部５２：漢字復元部５４，８６，１０８，１３４：ユニコード再生部５６：一時記憶部６０：頻度測定言語判別部６２：ひらがな・カタカナ頻度記憶部６４：ハングル語頻度記憶部６６：漢字頻度記憶部７０：日本語圧縮部７２：韓国語圧縮部７４：中国語圧縮部８０：日本語復元部８２：韓国語復元部８４：中国語復元部９２，１１４：英数字圧縮部９４：ハングル語圧縮部９６：漢字圧縮部１０２，１２６：英数字復元部１０４：ハングル復元部１０６：漢字復元部１１６：ひらがな圧縮部１１８：カタカナ圧縮部１２０：漢字圧縮部１２８：ひらがな復元部１３０：カタカナ復元部１３２：漢字復元部１３６：一時記憶部１３８：単一バイト頻度偏り検出部（第１頻度検出手
段）１４０：複数バイト頻度偏り検出部（第２頻度検出手
段）１４２：識別符号頻度検出部（第３頻度検出手段）１４４：符号識別部（コード識別部）１４６：符号識別情報（コード識別情報）１４８：単一バイト構成検出部１５０：バイト構成検出情報１５２：文字列分離部１５４：単一バイト文字列１５６：複数バイト文字列１５８：単一バイト圧縮部１６０：複数バイト圧縮部１６２：バイト構成変更符号出力部１６４：日本語識別符号出力部１６６：符号選択部１６８：符号分離部１７０：単一バイト復元部１７２：複数バイト復元部１７６：バイト構成変更情報１７８：単一／複数バイト混在再生部１８０：文字種検出部１８２：文字種検出情報１８４：文字種分離部１８６：半角英数字圧縮部１８８：半角カタカナ圧縮部１９０：半角その他圧縮部１９２：全角英数字圧縮部１９４：全角カタカナ圧縮部１９６：全角ひらがな圧縮部１９８：全角漢字圧縮部２００：全角その他圧縮部２０２：文字種変更符号出力部２０４：日本語識別符号出力部２０８：符号分離部２１０：文字種変更情報２１２：符号識別情報２１４：半角英数字復元部２１６：半角カタカナ復元部２１８：半角その他復元部２２０：全角英数字復元部２２２：全角カタカナ復元部２２４：全角ひらがな復元部２２６：全角漢字復元部２２８：全角その他復元部２３０：文字種混在再生部２３２：バイト構成検出部２３４：バイト構成統一変換部２３６：複数バイト圧縮部２３８：日本語識別符号出力部２４０：符号選択部２４２：符号分離部２４６：複数バイト復元部２４８：単一／複数バイト混在再生部

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 5/00 G06F 17/21

Claims

(57)【特許請求の範囲】

【請求項１】１文字コードが異なるバイト数で構成さ
れ、且つ種類の異なった文字コードのデータ列を入力し
て圧縮するデータ圧縮装置に於いて、前記入力データ列の属する文字コードの種別を判別して
コード種別識別情報を出力するコード種別判別手段と、前記コード種別識別情報に基づいて、前記入力データ列
の各文字コードのバイト構成を検出し、バイト構成の異
なる複数種類の文字列に分離する分離手段と、前記文字列分離手段で分離したバイト構成の異なる複数
種類の文字列を個別に圧縮する文字列圧縮手段と、を備
え、前記データ列は、上位バイトと下位バイトで定義される
２次元の文字コード空間に割り当てられた複数種類の文
字コードのいずれかのデータ列であり、前記コード種別判別手段は、前記データ列の一定区間のデータを蓄積する一時記憶手
段と、前記一時記憶手段の蓄積データについて、前記文字コー
ド空間における１バイト文字の頻度分布を検出する第１
頻度検出手段と、前記一時記憶手段の蓄積データについて、前記文字コー
ド空間における複数バイト文字の頻度分布を検出する第
２頻度検出手段と、前記複数種類の各文字コードで使用される識別文字コー
ドの頻度分布を検出する第３頻度検出手段と、前記３つの頻度検出手段による前記文字コード空間にお
ける頻度分布の偏りに基づいて前記データ列の文字コー
ド種別を識別する識別手段と、を備え、前記バイト構成分離手段は、前記データ列を１バイト単位に分離して１バイト構成か
複数バイト構成かを検出してバイト構成検出情報を出力
するバイト構成検出手段と、前記バイト構成検出情報に基づいて前記データ列を１バ
イト構成と複数バイト構成の文字列に分離する文字列分
離手段と、を備え、前記文字列圧縮手段は、１バイト構成の文字列を圧縮する単一バイト圧縮手段
と、複数バイト構成の文字列を圧縮する複数バイト圧縮手段
と、前記コード種別識別情報に従って文字コードの種別を示
すコード識別情報を出力する文字コード識別情報出力手
段と、前記バイト構成検出情報に基づいて、バイト構成の変更
を示すバイト構成変更情報を出力するバイト構成変更出
力手段と、前記文字コード識別情報、バイト構成変更情報、単一バ
イト圧縮データおよび複数バイト圧縮データを選択合成
して出力する符号選択手段と、を備えたことを特徴とす
るデータ圧縮装置。
【請求項２】１文字コードが異なるバイト数で構成さ
れ、且つ種類の異なった文字コードのデータ列の文字コ
ードの種別を示すコード種別識別情報に基づいてバイト
構成の異なる複数種類の文字列に分離した後に個別に圧
縮された圧縮データを復元するデータ復元装置に於い
て、圧縮データをバイト構成毎に分離して文字列を個別に復
元する文字列復元手段と、前記文字列復元手段で復元されたバイト構成の異なる各
文字列を１つに結合して元の文字列を再構成する文字列
再構成手段と、を設け、前記圧縮データは、１バイト構成の文字列を圧縮した単
一バイト圧縮データ、複数バイト構成の文字コード列を
圧縮した複数バイト圧縮データ、文字コードの種別を示
すコード識別情報、バイト構成の変更を示すバイト構成
変更情報で構成されており、前記文字列復元手段は、前記単一バイト圧縮データ、複数バイト圧縮データ、コ
ード識別情報、及びバイト構成変更情報を分離する符号
分離手段と、前記符号分離手段で分離された単一バイト圧縮データか
ら単一バイト構成の文字列を復元する単一バイト復元手
段と、前記符号分離手段で分離された複数バイト圧縮データか
ら複数バイト構成の文字列を復元する複数バイト復元手
段と、を備え、前記文字列再構成手段は、前記符号分離手段で分離され
たコード識別情報とバイト構成変更情報に基づいて、復
元された単一バイト構成の文字列と複数バイト構成の文
字列を結合して元の文字コード列を復元することを特徴
とするデータ復元装置。
【請求項３】１文字の文字コードが異なるバイト数で構
成され、且つ種類の異なった文字コードのデータ列を入
力して圧縮するデータ圧縮装置に於いて、前記入力データ列の属する文字コードの種別を判別して
コード種別識別情報を出力するコード種別判別手段と、前記コード種別識別情報に基づいて、前記データ列の各
文字コードの文字種を検出し、異なる文字種毎の文字列
に分離する文字種分離手段と、前記文字種分離手段で分離した異なる文字種毎の各文字
列を個別に圧縮する文字列圧縮手段と、を備え、前記データ列は、上位バイトと下位バイトで定義される
２次元の文字コード空間に割り当てられた複数種類の文
字コードのいずれかのデータ列であり、前記コード種別判別手段は、前記データ列の一定区間のデータを蓄積する一時記憶手
段と、前記一時記憶手段の蓄積データについて、前記コード空
間における１バイト文字の頻度分布を検出する第１頻度
検出手段と、前記一時記憶手段の蓄積データについて、前記文字コー
ド空間における複数バイト文字の頻度分布を検出する第
２頻度検出手段と、前記複数種類の各文字コードで使用される識別文字コー
ドの頻度分布を検出する第３頻度検出手段と、前記３つの頻度検出手段による前記文字コード空間にお
ける頻度分布の偏りに基づいて前記データ列の文字コー
ド種別を識別する識別手段と、を備え、前記文字種分離手段は、前記データ列を１バイト単位に分離し、文字種を検出し
て文字種検出情報を出力する文字種検出手段と、前記文字種検出情報に基づいて文字列を各文字種毎に分
離する文字列分離手段と、を備え、前記文字列圧縮手段は、前記文字種毎に設けられた複数の文字種別圧縮手段と、前記文字種識別情報に従って文字コードの文字種を示す
文字コード識別情報を出力する文字コード識別情報出力
手段と、文字種の変更を示す文字種変更情報を出力する文字種変
更情報出力手段と、前記文字コード識別情報、文字種変更情報、各文字種毎
の圧縮データを選択合成して出力する符号選択手段と、
を備えたことを特徴とするデータ圧縮装置。
【請求項４】１文字の文字コードが異なるバイト数で構
成され、且つ種類の異なった文字コードのデータ列を、
文字コード種別を示すコード種別識別情報に基づいて、
異なる文字種の文字コード列に分離した後に個別に圧縮
された圧縮データを復元するデータ復元装置に於いて、前記圧縮データを文字種毎に分離し文字種毎の文字列を
個別に復元する文字列復元手段と、前記文字列復元手段で復元された文字種の異なる各文字
列を１つに結合して元の文字列を再構成する文字列再構
成手段と、を設け、前記圧縮データは、１バイト構成の文字列を文字種毎に
分離して個別に圧縮した文字種別圧縮データ、文字コー
ドの種別を示すコード識別情報、文字種の変更を示す文
字種変更情報で構成されており、前記文字列復元手段は、前記文字種毎の圧縮データ、コード識別情報、及び文字
種変更情報を分離する符号分離手段と、前記符号分離手段で分離された文字種毎の圧縮データか
ら文字列を文字種毎に復元する文字種別復元手段と、を
備え、前記文字列再構成手段は、前記符号分離手段で分離され
たコード識別情報と文字種変更情報に基づいて、文字種
毎に復元された文字列を結合して元の文字列を再生する
ことを特徴とするデータ復元装置。
【請求項５】請求項１乃至３項のいずれかに記載のデー
タ圧縮装置並びにデータ復元装置に於いて、前記文字コ
ード空間には、複数の文字コードとして、ＪＩＳコー
ド、シフトＪＩＳコード、ＥＵＣコード、ユニコード、
及びＪＥＦコードが割り当てられたことを特徴とするデ
ータ圧縮装置。