JP3388767B2

JP3388767B2 - データ圧縮方式

Info

Publication number: JP3388767B2
Application number: JP28744991A
Authority: JP
Inventors: 茂吉田; 佳之岡田; 泰彦中野; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-11-01
Filing date: 1991-11-01
Publication date: 2003-03-24
Anticipated expiration: 2018-03-24
Also published as: JPH05128100A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、１語が符号化するデー
タ単位より長い入力データをＬＺＷ符号に符号化して圧
縮するデータ圧縮方式に関する。近年、文字コード、ベ
クトル情報、画像など様々な種類のデータがコンピュー
タで扱われるようになっており、扱われるデータ量も急
速に増加してきている。大量のデータを扱うときは、デ
ータの中の冗長な部分を省いてデータ量を圧縮すること
で、記憶容量を減らしたり、速く伝送したりできるよう
になる。

【０００２】様々なデータを１つの方式でデータ圧縮で
きる方法としてユニバーサル符号化が提案されている。
ここで、本発明の分野は、文字コードの圧縮に限らず、
様々なデータに適用できるが、以下では、情報理論で用
いられている呼称を踏襲し、データの１ワード単位を文
字と呼び、データが任意ワードつながったものを文字列
と呼ぶことにする。

【０００３】ユニバーサル符号の代表的な方法として、
ジブ−レンペル（Ziv-Lempel）符号がある（詳しくは、
例えば、宗像『Ziv-Lempelのデータ圧縮法』，情報処
理，Vol.26,No.1,1985年を参照のこと）。Ziv-Lempel符
号ではユニバーサル型と、増分分解型（Incremental parsing ）の２つのアルゴリズムが提案されている。さらに、ユニ
バーサル型アルゴリズムの改良として、ＬＺＳＳ符号が
ある（T.C.Bell，“BetterOPM/L Text Compression ”,
IEEE Trans. on Commun., Vol.COM-34, No.12, Dec. 19
86 参照）。

【０００４】また、増分分解型アルゴリズムの改良とし
ては、ＬＺＷ（Lempel-Ziv-Welch）符号がある（T.A.We
lch,“A Technique for High-Performance Data Compre
ssion ”,Computer, June 1984参照）。これらの符号の
内、高速処理ができることと、アルゴリズムの簡単さか
らＬＺＷ符号が記憶装置のファイル圧縮などで使われる
ようになっている。

【０００５】

【従来の技術】従来のＬＺＷ符号の符号化アルゴリズム
を図１２に示す。ＬＺＷ符号化は、書き替え可能な辞書
をもち、入力文字コードでなるデータ中を相異なる文字
列に分け、この文字列を出現した順に番号を付けて辞書
に登録すると共に、現在入力している文字列を辞書に登
録してある最長一致する文字列の辞書番号（インデック
ス）だけで表して符号化するものである。

【０００６】尚、、増分分解型符号およびＬＺＷ符号の
技術は、特開昭59-231683 号、米国特許第 4,558,302号
で開示されている。図１２のＬＺＷ符号化処理は次のよ
うになる。［ステップＳ１］予め全文字につき一文字からなる文字
列を初期値として登録してから符号化を始める。辞書の
登録数ｎを文字種数Ａと置く。カーソルをデータの先頭
の位置に置く。

【０００７】［ステップＳ２］カーソルの位置からの文
字列に一致する辞書登録の最長文字列Ｓを見つける。［ステップＳ３］文字列Ｓの辞書番号を「ｌｏｇ₂ ｎ」
ビットで表して出力する。ただし、「ｌｏｇ₂ ｎ」はｌ
ｏｇ₂ ｎ以上の最小の整数を意味する。例えば辞書登録
数ｎ＝１２では、「ｌｏｇ₂ １２」はｌｏｇ₂ １２以上
の最小の整数４を意味する。更に辞書登録数ｎを１つイ
ンクリメントする。

【０００８】［ステップＳ４］符号化済み文字列Ｓにカ
ーソルの最初の文字Ｃを付加した文字列ＳＣを辞書に登
録する。カーソルは不幸化済み文字列Ｓの後の文字に移
動させる。［ステップＳ５］文字入力が終了していなければ再びス
テップＳ２に戻って処理を継続し、終了すれば一連の処
理を終える。

【０００９】

【発明が解決しようとする課題】このような従来のＬＺ
Ｗ符号を用いたデータ圧縮方式にあっては、計算機処理
がしやすいように、処理対象とする全文字種を示すアル
ファベット・サイズＡをＡ＝２５６とし、８ビットのバ
イト単位にデータを扱って符号化している。しかしなが
ら、漢字コードや、ＲＧＢ各５ビットのカラーコードな
ど２バイト単位のデータを、従来のバイト単位のＬＺＷ
符号化で圧縮する場合には、文字列の切れ目が１バイト
目と２バイト目でランダムに生じ、規則性をうまく取り
込めないため、圧縮率が低下するという問題点があっ
た。

【００１０】この問題点を解決する方法として、２バイ
ト単位のデータ幅で扱うＬＺＷ符号化で圧縮すると、規
則性は取り込めるものの、辞書の初期値として６４Ｋ通
りの文字種を登録することになるが、実際には出現し難
い文字種も初期値として保持しなければならないため、
辞書番号が増加して辞書検索が繁雑で圧縮率も悪くなる
問題があった。

【００１１】また、他の方法として、２バイト単位のデ
ータ幅で扱い、辞書に予め初期値を登録しておかず、各
文字が最初に出現したときに登録する方法がある。この
方法では、初期値の符号語を「初期登録識別符号」と
「登録文字」の組で表すことになり、従来のＬＺＷ符号
の符号語が辞書番号だけで表せるのに対して、アルゴリ
ズムの簡潔さを損ない、処理が複雑になるという問題が
あった。

【００１２】本発明は、このような従来の問題点に鑑み
てなされたもので、入力データのデータ長が符号化処理
におけるデータ長よりも長くとも簡潔な符号化アゴリズ
ムをそのまま適用して効率よく符号化できるデータ圧縮
方式を提供することを目的とする。

【００１３】

【課題を解決するための手段】図１は本発明の原理説明
図である。まず本発明は、入力データの１語を所定ビッ
ト数毎、例えばバイト単位に区切った１又は複数の文字
で表現し、この文字単位にＬＺＷ符号に符号化して圧縮
するデータ圧縮方式を対象とする。

【００１４】このようなデータ圧縮方式として本発明に
あっては、図１（ａ）に示すように、入力データの１語
を構成する複数の文字毎に設けた分割辞書１０−１〜１
０−ｎと、入力文字Ｃの符号化時に、入力文字Ｃが前記
入力データの１言語を構成する複数文字の何番目かによ
って分割辞書１０−ｉを指定する分割辞書指定手段１２
と、分割辞書指定手段１２で指定された分割辞書１０−
ｉに登録された既に符号化済みの部分列の内、入力文字
Ｃを含む入力文字列に最大長一致する部分列Ｓを検索す
る辞書検索手段１４と、辞書検索手段１４で検索された
入力文字列に最大長一致する部分列Ｓの辞書番号を符号
語として出力する符号化手段１６と、辞書検索手段１４
で文字列の検索できなくなった時に、直前に符号化した
文字列Ｓの辞書番号に入力文字Ｃを加えた文字列ＳＣを
新な辞書番号を付して検索に使用した分割辞書１０−ｉ
に登録する辞書登録手段１８とを設けたことを特徴とす
る。

【００１５】ここで入力データの１語をバイト数単位に
区切った１又は複数の文字で表現し、且つ入力データの
１語を構成するバイト数が固定の場合、分割辞書指定手
段１２は、少なくとも１語中のバイト数が計数できるカ
ウンタ２０を備え、符号化手段１６で入力文字列を符号
化した後にカウンタ２０で符号化済み文字列Ｓのバイト
数を計数し、カウンタ２０の計数値に基づいて分割辞書
を指定することを特徴とする。

【００１６】例えば図１（ｂ）のｕバイト文字（ｕ＝２
バイト）の場合、分割辞書指定手段１２は、カウンタ２
０の計数値を入力データの１語を構成するバスト数ｕで
割った余りｋに基づいて分割辞書１０−ｉを指定するまた図１（ｃ）に示すように、入力データの１語をバイ
ト数単位に区切った１又は複数の文字で表現し、且つ入
力データの１語が２通りのバイト数ｕ，ｖからなるｕバ
イト文字とｖバイト文字で表現され、更にｕ及びｖバイ
ト文字は先頭バイトを示す識別コードを備えた場合、分
割辞書指定手段１２は、ｕバイト文字又はｖバイト文字
のバイト数を計数するカウンタ２０を備え、符号化手段
１６で入力文字列を符号化した後に符号化済み文字列Ｓ
のバイト数を計数し、計数中にｕバイトまたはｖバイト
文字の先頭バイトを検出した場合には、カウンタ２０の
計数値ｋをそれぞれ０又はｕに設定する共に、先頭バイ
ト以外のバイトを検出した場合には１つカウンタアップ
し、符号化済み文字列Ｓに続く次の入力文字Ｃの直前ま
で計数した時のカウンタ２０の計数値ｋに基づいて次の
符号化に使用する分割辞書１０−ｉを指定することを特
徴とする。

【００１７】例えば入力データの１語がｕ＝１バイトと
ｖ＝２バイトの２通りのバイト文字で表現され、更に各
バイト文字は先頭バイトを示す識別コードを備えた場
合、分割辞書指定手段１２は、１バイト文字又は２バイ
ト文字のバイト数を計数するカウンタ２０を備え、符号
化手段１６で入力文字列を符号化した後に符号化済み文
字列Ｓのバイト数を計数し、この計数中に１バイトまた
は２バイト文字の先頭バイトを検出した場合には、カウ
ンタ２０の計数値ｋをそれぞれ０又は１に設定する共
に、先頭バイト以外のバイトを検出した場合には１つカ
ウンタアップし、符号化済み文字列Ｓに続く次の入力文
字Ｃの直前まで計数した時のカウンタ２０の計数値ｋが
ｋ＝０の時は１バイト文字又は２バイト文字の先頭バイ
トと判定して第１の分割辞書１０−０を指定し、カウン
タ計数値ｋがｋ＝１の時は２バイト文字の２バイト目と
判定して第２の分割辞書１０−１を指定する。

【００１８】

【作用】このような構成を備えた本発明のデータ圧縮方
式によれば、入力データの１語が何バイト単位からなる
か予想できる場合に、１語を構成するバイト毎に対応し
て設けた複数の分割辞書の中から入力データの各語の何
番目のバイトかを計数するカウンタの値によって特定の
分割辞書を選択して、辞書検索により入力文字を含む入
力文字列に最大長一致する文字列の辞書番号を求めて符
号語として表すことになる。このため１語のバイト長に
関わらずバイト単位に従来と同じＬＺＷ符号化ができ、
複数バイト長のデータであっても効率のよい簡潔な符号
化を可能にして圧縮率の向上を図る。

【００１９】

【実施例】図２は本発明の一実施例を示した実施例構成
図である。図２において、２２は制御手段としてのＣＰ
Ｕであり、ＣＰＵ２２に対してはプログラムメモリ２４
とデータメモリ２８が接続される。プログラムメモリ２
４にはコントロールソフト２６，分割辞書指定ソフト１
２，辞書検索ソフト１４，符号化ソフト１６及び辞書登
録ソフト１８が設けられる。

【００２０】一方、データメモリ２８にはこれから符号
化しようとする入力データを格納するデータバッファ３
０と辞書１０を構成する複数の分割辞書１０−０，１０
−２，・・・１０−ｎが設けられる。分割辞書１０−０
〜１０−ｎの数は入力データの１語を構成する複数の文
字毎に設けられる。即ち本発明にあっては、ＬＺＷ符号
化における処理単位を８ビットでなる１バイト単位の文
字とすると、入力データの１語は複数バイトで表現され
ている場合のＬＺＷ符号化を対象とする。例えば、入力
データの１語がｕバイト文字で構成される場合にはｕ個
の分割辞書が設けられる。

【００２１】プログラムメモリ２４に設けた分割辞書指
定ソフト１２は、入力文字の符号化時に入力文字が入力
データの１語を構成する複数文字の何番目かによって分
割辞書を指定する。この分割辞書指定ソフト１２による
指定はコントロールソフト２６に対して接続したカウン
タ２０の計数値を用いて行う。カウンタ２０の動作は後
の説明で明らかにする。

【００２２】辞書検索ソフト１４は分割辞書指定ソフト
１２で指定された分割辞書に登録された既に符号化済み
の部分列の内、入力文字を含む入力文字列に最大長一致
する部分列を検索する。符号化ソフト１６は辞書検索ソ
フト１４で検索された入力文字列に最大長一致する部分
列の辞書番号（辞書インデックス）を符号語として出力
する。

【００２３】更に、辞書登録ソフト１８は辞書検索ソフ
ト１４で文字列の検索ができなくなったときに、直前に
符号化した文字列の辞書番号にそのときの入力文字を加
えた文字列を新たな辞書番号を付して、検索に使用した
分割辞書に登録する。図３は入力データの１語がｕバイ
ト文字から構成されるときの本発明によるＬＺＷ符号化
のアルゴリズムを示したフローチャートであり、以下の
手順に従って動作する。

【００２４】［ステップＳ１］初期設定処理であり、入
力データの１語がｕバイトで表現されることから、ｕ個
の分割辞書Ｄ_j に初期値として１バイトの全パターンを
登録してから符号化を始める。ここで、１バイトを８ビ
ットとすると、各分割辞書Ｄ_j の登録数ｎ_j はｎ_j ＝２
５６となる。続いてカーソルを入力データの先頭の位置
にセットし、入力データ数を示す図２の実施例に示した
カウンタ２０でなるバイト数カウンタbcountを０とお
く。

【００２５】［ステップＳ２］次にバイト数カウンタbc
ountのモジュロｕをとった値をｋとする。即ち、このと
きのバイト数カウンタbcountを１語のバイト数ｕで割っ
たときの余りｋを求める。尚、最初はバイト数カウンタ
bucount ＝０であることからｋ＝０となる。このｋの値
が分割辞書Ｄ_k を指定する。

【００２６】［ステップＳ３］カーソルの位置からの入
力文字列に一致するｋにより指定された分割辞書Ｄ_kの
中の最大長一致する登録済み文字列Ｓを検索する。［ステップＳ４］ステップＳ３で求めた登録済み文字列
Ｓの辞書番号ｎ_k を「ｌｏｇ₂ ｎ_k 」ビットで表わして
出力する。即ち、ｌｏｇ₂ ｎ_k 以上の最初の整数ビット
で表わして出力する。更に、分割辞書Ｄ_k の辞書番号ｎ
_k を１つインクリメントする。

【００２７】［ステップＳ５］既に符号化済みの文字列
Ｓに現在カーソルをセットしているＣを付加した文字列
ＳＣを辞書番号ｎ_k を付して検索に使用した分割辞書Ｄ
_k に登録する。また、バイト数カウンタbcountの計数値
を符号化済み文字列Ｓの文字数分（バイト数分）だけカ
ウントアップさせる。更に、カーソルを符号化済み文字
列Ｓの後ろの文字に移動させる。

【００２８】［ステップＳ６］文字入力終了の有無をチ
ェックし、文字入力が終了しなければ再びステップＳ２
に戻って、ステップＳ５でカウントアップしたバイト数
カウンタbcountの計数値を用いて分割辞書Ｄ_kを指定す
る値ｋを求める。図４は入力データの１語がｕバイトと
ｖバイトの２通りで表わされる場合の本発明によるＬＺ
Ｗ符号化を示したフローチャートである。

【００２９】例えば、パソコンのＭＳ−ＤＯＳ等で用い
られているシフトＪＩＳデータの１語は、１バイトデー
タ（非漢字）と２バイトデータ（漢字）を用いて表わさ
れる。このシフトＪＩＳコードにあっては、漢字は１バ
イト目が必ず８ＩＨ〜９ＦＨ，ＥＯＨ〜ＦＣＨで始まる
識別コードとなっており、シフトＪＩＳコードが１バイ
トデータであるか２バイトデータであるかが判るように
している。

【００３０】このシフトＪＩＳコードのように１語が１
バイト＝ｕバイト、またはｖバイト＝２バイトでなる場
合には、符号化しようとする入力文字がどちらのバイト
構成における何バイト目かによって分割辞書を選択して
符号化すればよい。図４のフローチャートにあっては、
入力データの１語がｕバイト文字とｖバイト文字の２通
りからなる一般化した状態でのＬＺＷ符号化を示してい
る。尚、バイト数ｕとｖとの間にはｕ＜ｖの関係があ
る。

【００３１】図４における符号化の処理手順を示すと次
の動作となる。［ステップＳ１］初期設定であり、（ｕ＋ｖ）個の辞書
をもち、ｊ＝０〜（ｕ＋ｖ−１）の分割辞書Ｄ_j に１バ
イトの全パターンを登録してから符号化を始める。例え
ば、ｕバイト＝１バイト、ｖバイト＝２バイトとした場
合には、ｊ＝２個の分割辞書Ｄ₀，Ｄ₁ に２５６の全パ
ターンを初期登録する。また、カーソルをデータの先頭
位置におき、カウンタの計数値ｋをｋ＝０にセットす
る。

【００３２】［ステップＳ２］カウンタ計数値ｋで指定
される分割辞書Ｄ_k を検索し、カーソルの位置からの入
力文字列に一致する既に登録済みの最大長一致する文字
列Ｓを検索する。［ステップＳ３］検索した文字列Ｓの辞書番号ｎ_kを
「ｌｏｇ₂ ｎ_k 」ビットで表わして出力し、また辞書番
号ｎ_k を１つインクリメントする。これを可変固定長符
号化と呼ぶことにする。

【００３３】［ステップＳ４］符号化済み文字列Ｓにカ
ーソルをセットした最初の文字列Ｃを付加した文字列Ｓ
Ｃを検索を行った分割辞書Ｄ_k に辞書番号ｎ_k を付して
辞書登録する。［ステップＳ５］カーソルを符号化済み文字列Ｓに沿っ
て移動させながらカウンタの計数値ｋのカウントアップ
を行う。このカーソルＳの移動によるカウントアップ中
におけるカウント動作はｕバイト文字またはｖバイト文
字の先頭文字を検出したときにカウンタ計数値ｋをｋ＝
０またはｋ＝ｕとおき、先頭バイト以外の検出時には１
つずつカウントアップする。こうすることにより、符号
化済み文字列Ｓが前回までの文字のバイト位置によって
重み付けされ、次の符号化する入力文字の各バイトの直
前の位置に対応する分割辞書が選択されて符号化が行わ
れることになる。

【００３４】［ステップＳ６］文字入力の終了の有無を
チェックし、文字入力が有れば再びステップＳ２に戻っ
て、ステップＳ５でカウントアップしたカウンタ計数値
ｋによる分割辞書Ｄ_kの指定で辞書検索を繰り返す。図
５は図４のステップＳ５におけるカウンタ動作を示した
説明図である。

【００３５】図５においては、ｕバイト＝１バイト、ｖ
バイト＝２バイトの各文字の符号化を対象としている。
図５（ａ）は符号化済み文字列Ｓに続く次の入力文字Ｃ
がｕ＝１バイト文字であった場合を示しており、この場
合には、例えばカウンタ計数値ｋ＝０の初期設定が行わ
れる。入力文字Ｃがｕ＝１バイト文字であることは、こ
の入力文字Ｃを検査することで検出できる。

【００３６】図５（ｂ）は符号化済み文字列Ｓに続いて
ｖ＝２バイト文字の１バイト目が入力文字Ｃとして存在
した場合を示す。この場合にも入力文字Ｃの第１バイ
ト、即ち先頭バイトであることが検出され、図６（ａ）
と同様にカウンタ計数値ｋはｋ＝１に初期設定される。
図５（ｃ）は符号化済み文字列Ｓに続く次の入力文字Ｃ
がｖ＝２バイト文字の２バイト目であった場合を示す。
この場合には入力文字Ｃの第１バイトを見て２バイト文
字の２バイト目であることが検出され、この場合にはカ
ウンタ計数値ｋは１つカウントアップされたｋ＝２とな
る。

【００３７】図６は図５のカウンタ計数値ｋに対応した
分割辞書の指定を示した説明図である。図６において、
カウンタ２０は図５に示したように次の入力文字Ｃの符
号化に先立ってカウンタ計数値ｋを計数して分割辞書指
定ソフト１２に与える。分割辞書指定ソフト１２に対し
ては、ｕ＝１バイト文字とｖ＝２バイト文字の１バイト
目に共通に使用される分割辞書１０−０と、ｖ＝２バイ
ト文字の２バイト目のみに使用される分割辞書１０−
１，１０−２の２つが設けられている。

【００３８】そして、カウンタ計数値ｋがｋ＝０のとき
分割辞書指定ソフト１２は分割辞書指定ソフト１０−０
を指定して辞書検索を行わせ、一方、カウンタ計数値ｋ
＝１の場合には分割辞書１０−１を指定して辞書検索を
行わせるようになる。図７は図４で処理されるｕバイト
文字とｖバイト文字の他の具体例を示したもので、図７
（ａ）に示すようにｕバイト文字として３バイト文字、
また図７（ｂ）に示すようにｖバイト文字として４バイ
ト文字を用いる入力データを例にとっている。

【００３９】この３バイト文字及び４バイト文字の２種
類を対象としたＬＺＷ符号化におけるカウンタ動作とし
ては、３バイト文字及び４バイト文字の先頭バイト（１
バイト目）でカウンタ計数値はそれぞれｋ＝０とｋ＝３
にセットされ、それ以外のバイトについては各バイトの
順番毎に１つずつカウントアップされる。その結果、図
７（ｃ）に示すように、カウンタ２０の計数値ｋはｋ＝
０〜６のいずれかの値をとり、分割辞書指定ソフト１２
はカウンタ計数値ｋの値に基づき３バイト文字の１，
２，３バイト目に対応する分割辞書１０−０，１０−
１，１０−２または４バイト文字の１，２，３，４バイ
ト目に対応する分割辞書１０−３，１０−４，１０−
５，１０−６のいずれかを指定して入力文字列に最大長
一致する登録済み文字列Ｓの辞書検索を行うようにな
る。

【００４０】次に図３及び図４のステップＳ３にあって
は、検索できた辞書Ｄ_k の辞書番号ｎ_k を「ｌｏｇ₂ ｎ
_k 」ビットで表わす可変固定長符号化により辞書番号を
符号語として出力したが、他の実施例として辞書番号ｎ
_k をビット端数補償、ＰＢＣ符号化（Phasing in Binar
y Codes ）または多値算術符号で表わしてもよい。（１）ビット端数補償による可変固定長符号化図３及び図４のステップＳ３において、辞書番号ｎ_k を
「ｌｏｇ₂ ｎ_k 」ビットで表わすと、「ｌｏｇ₂ ｎ_k 」−ｌｏｇ₂ ｎ_k 分のビットロスが生ずる。このビットの端数のロスを減
らして辞書番号ｎ_k を表現することにより符号化効率を
向上させる方法としてビット端数補償がある。（例えば
「Ziv-Lempel符号の改良とシミュレーションによる評価
性能−（II）」電子通信学会技術研究報告C84-135, pp.
1-8, 1984 参照）。

【００４１】ここで符号化する辞書番号ｎ_k をｉとして
表わすと、ビット端数補償にあっては、最大辞書登録数
ｎに対応した最大辞書番号ｎ_k をｉ＝ｎとしたときのビ
ット数ｐをｐ＝「ｌｏｇ₂ ｎ」とし、また辞書番号ｉの最上位ビットを除く（ｐ−１）
ビットで表わしたものをｉ^* とする。同様に最大辞書番
号ｎの最上位ビットを除く（ｐ−１）ビットで表わした
ものをｎ^* とする。

【００４２】このような条件のもとでビット端数補償に
よる辞書番号ｉ（＝ｎ_k ）の可変長符号語はｉ^* ≦ｎ^* のとき、ｉ^* で表わし、ｉ^* ＞ｎ^* のとき、ｉ^* の後に最上位ビットを付けて
表わす。ここで、最大辞書登録数ｎ＝１２の辞書番号ｉ＝０〜１
１をビット端数補償で表わす例を図８に示す。

【００４３】図８においては、ｐ＝「ｌｏｇ₂ ｎ」＝「ｌｏｇ₂ １２」＝４ビットｐ−１＝３ビットであり、ｉ^* ≦３ビットのとき、ｉ^* で表わし、ｉ^* ＞３ビットのとき、ｉ^* の後に最上位ビットを付
けて表わす。

【００４４】即ち、辞書番号ｉ＝０〜１１の４ビットの
２進表示は、前記の条件を満たす辞書番号ｉ＝４〜７
の４つについては、上位１ビットを除いた下位３ビット
ｉ^*で表わす。一方、前記の条件を満たすｉ＝０〜３
及びｉ＝８〜１１については、上位１ビットを除いた下
位３ビットｉ^* の後に２進表示の上位１ビットを付けて
区別する。（２）ＰＢＣ可変長符号化このＰＢＣ可変長符号化は、例えば「Text Compressio
n」，Prentice-Hall Inc. 1990 年, pp. 293-294 に記
載される。

【００４５】ＰＢＣ可変長符号化ではｉ＜２^p −ｎ−１のとき、ｉ^* で表わし、ｉ≧２^p −ｎ−１のとき、辞書番号ｉ（＝ｎ_k ）に
（２^p −ｎ−１）を加えた値（ｉ＋２^p −ｎ−１）をｐ
ビットで表わす。最大辞書登録数ｎ＝１２のときの辞書
番号ｉ＝０〜１１についてのＰＢＣ符号化の具体例を図
９に示す。

【００４６】図９において、前記の条件を満足するの
は辞書番号ｉ＝０〜３の場合であり、この場合にはｐ＝
４ビットで表現されたｉ＝０〜３の２進表示コードは最
上位ビットを除く３ビットでＰＢＣ表現される。また、
前記の条件を満足するには辞書番号ｉ＝４〜１１の場
合であり、この場合にはｐ＝４ビットで表現されたｉ＝
４〜１１の２進表示に４の２進表示「１００」を加算し
た４ビットでＰＢＣ表現される。（３）多値算術符号化前記（１）（２）の可変長符号化は辞書番号ｉによって
ｐビットとｐ−１ビットで表わしており、辞書番号ｉの
１個ずつで見ると、ビットの端数のロスを減らすことが
できるものの辞書番号列全体として見ると冗長性がまだ
残る。

【００４７】そこでビットのロスを更に削減するため、
辞書登録個数ｎ個の文字列が等確率で出現するものと仮
定して辞書番号ｉを多値算術符号化する（多値算術符号
化については、例えば、文献“Arithmetic Coding for
Data Compression”, Communication of the ACM, June
1987, Vol. 30, No.6, pp.520-540参照）。図１０
（ａ）（ｂ）に複数個のシンボルの符号化に用いる多値
算術符号化の符号化及び復号化の概略フローを示す。

【００４８】図１０（ａ）の多値算術符号化は、データ
列を［０，１］の数直線上の一点に対応付けるものであ
り、シンボル毎に出現したシンボルの出現確率から求め
た累積出現確率によって［０，１］区間を逐次再分割す
るものである。図１１は多値算術符号化の処理内容を示
したもので、１回目の辞書登録個数ｎをｎ＝４とし、最
長文字列の出現番号ｉがｉ＝２番目であったとすると、
上限＝１と下限＝０の間の４分割された区間の中のｉ＝
２に対応するの区間が選択される。

【００４９】次に２回目の辞書登録個数も同じｎ＝４で
あり、この場合の最長文字列の辞書番号ｉがｉ＝１であ
ったとすると、更に４分割された中のの区間が選択さ
れる。以下同様に選択された区間の再分割が進み、Ｎ回
目に最終文字列に基づく区間が選択されると、この区間
の中の任意の一点の値と区間の上限または下限を示す値
との組を符号語として出力する。

【００５０】また、図１０（ａ）の符号化アルゴリズム
ではシンボル列全体の符号化終了まで符号語が得られ
ず、また符号語全体が得られないと復号ができないよう
になっているが、実際の多値算術符号化では、有限桁の
固定長のレジスタで演算して、ビット単位に符号語を得
ることができる。即ち、図１１の第１回目の符号化で
は、例えば上限が「００１」であり、下限が「０１０」
であり、両者の最上位ビットは共に「０」であることか
ら、この最上位ビット「０」は出力してしまうようにす
る。２回目以降についても同様である。

【００５１】尚、上記の実施例はＬＺＷ符号化のみにつ
いて示したが、辞書番号で文字列は一義的に指定されて
いるため、ＬＺＷ復号化は符号化の逆の操作を行えば元
の文字列を復元することができる。また上記の実施例は
８ビットでなる１バイトの文字単位に符号化する場合を
例にとるものであったが、１文字を構成するデータ長は
１バイトに限定されず、例えば４ビット単位、７ビット
単位等の任意のビット数単位としてよい。

【００５２】

【発明の効果】以上説明してきたように本発明によれ
ば、入力データの１語が符号化処理における複数の処理
単位、例えば複数バイトで表わされていても、入力デー
タの１語を構成する文字毎に割辞書を割り当てて文字単
位、例えばバイト単位で行う従来のＬＺＷ符号化と同じ
処理ができるため、アルゴリズムがシンプルで且つ入力
データの１語を構成するバイト数構成の規則性を取り込
むことができるために、高い圧縮率が得られる。

【図面の簡単な説明】

【図１】本発明の原理説明図

【図２】本発明の原理説明図

【図３】１語がｕバイトからなる場合のＬＺＷ符号化を
示したフローチャート

【図４】１語がｕバイトとｖバイトの２種からなる場合
のＬＺＷ符号化を示したフローチャート

【図５】図４で１バイト文字と２バイト文字のＬＺＷ符
号化するときのカウンタ動作を示した説明図

【図６】図２のカウンタによる分割辞書の指定を示した
説明図

【図７】図４において３バイト文字と４バイト文字のＬ
ＺＷ符号化するときの分割辞書の指定を示した説明図

【図８】本発明の符号化で行うビット端数補償による可
変長符号化の説明図

【図９】本発明の符号化で行うＰＢＣ可変長符号化の説
明図

【図１０】本発明で用いる多値算術符号化及び復号化ア
ルゴリズムを示した説明図

【図１１】本発明で用いる多値算術符号化の処理内容を
示した説明図

【図１２】従来のＬＺＷ符号化を示したフローチャート

【符号の説明】

１０：辞書１０−０〜１０−ｎ：分割辞書１２：分割辞書指定手段（分割辞書指定ソフト）１４：辞書検索手段（辞書検索ソフト）１６：符号化手段（符号化ソフト）１８：辞書登録手段（辞書登録ソフト）２０：カウンタ２２：ＣＰＵ２４：プログラムメモリ２６：コントロールソフト２８：データメモリ３０：データバッファ

───────────────────────────────────────────────────── フロントページの続き (72)発明者千葉広隆神奈川県川崎市中原区上小田中1015番地富士通株式会社内 (56)参考文献特開昭59−231683（ＪＰ，Ａ) 特開平３−262331（ＪＰ，Ａ) 特開平４−149766（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 5/00 G06F 17/22 520 H03M 7/30

Claims

(57)【特許請求の範囲】

【請求項１】入力データの１語を所定ビット数毎に区切
った１又は複数の文字で表現し、該文字単位にＬＺＷ符
号に符号化して圧縮するデータ圧縮方式に於いて、前記入力データの１語を構成する複数の文字毎に設けた
分割辞書（１０−１〜１０−ｎ）と、入力文字（Ｃ）の符号化時に、該入力文字（Ｃ）が前記
入力データの１言語を構成する複数文字の何番目かによ
って前記分割辞書（１０−ｉ）を指定する分割辞書指定
手段（１２）と、該分割辞書指定手段（１２）で指定された分割辞書（１
０−ｉ）に登録された既に符号化済みの部分列の内、前
記入力文字（Ｃ）を含む入力文字列に最大長一致する部
分列（Ｓ）を検索する辞書検索手段（１４）と、該辞書検索手段（１４）で検索された入力文字列に最大
長一致する部分列（Ｓ）の辞書番号を符号語として出力
する符号化手段（１６）と、前記辞書検索手段（１４）で文字列の検索できなくなっ
た時に、直前に符号化した文字列（Ｓ）の辞書番号に入
力文字（Ｃ）を加えた文字列（ＳＣ）を新たな辞書番号
を付して検索に使用した分割辞書（１０−ｉ）に登録す
る辞書登録手段（１８）と、を設けたことを特徴とする
データ圧縮方式。
【請求項２】請求項１記載のデータ圧縮方式に於いて、入力データの１語をバイト単位に区切った複数の文字で
表現し、且つ入力データの１語を構成するバイト数が固
定の場合、前記分割辞書指定手段（１２）は、少なくと
も１語中のバイト数が計数できるカウンタ（２０）を備
え、前記符号化手段（１６）で入力文字列を符号化した
後に前記カウンタ（２０）で符号化済み文字列（Ｓ）の
バイト数を計数し、該カウンタ（２０）の計数値に基づ
いて分割辞書を指定することを特徴とするデータ圧縮方
式。
【請求項３】請求項２記載のデータ圧縮方式に於い
て、、前記分割辞書指定手段（１２）は、前記カウンタ（２
０）の計数値を入力データの１語を構成するバスト数
（ｕ）で割った余り（ｋ）に基づいて分割辞書（１０−
ｉ）を指定することを特徴とするデータ圧縮方式。
【請求項４】請求項１記載のデータ圧縮方式に於い
て、、入力データの１語をバイト数単位に区切った１又は複数
の文字で表現し、且つ入力データの１語が２通りのバイ
ト数（ｕ，ｖ）からなるｕバイト文字とｖバイト文字で
表現され、更にｕ及びｖバイト文字は先頭バイトを示す
識別コードを備えた場合、前記分割辞書指定手段（１
２）は、ｕバイト文字又はｖバイト文字のバイト数を計
数するカウンタ（２０）を備え、前記符号化手段（１
６）で入力文字列を符号化した後に符号化済み文字列
（Ｓ）のバイト数を計数し、該計数中にｕバイト文字ま
たはｖバイト文字の先頭バイトを検出した場合には、前
記カウンタ（２０）の計数値（ｋ）をそれぞれ０又はｕ
に設定する共に、先頭バイト以外のバイトを検出した場
合には１つカウンタアップし、符号化済み文字列（Ｓ）
に続く次の入力文字（Ｃ）の直前まで計数した時の前記
カウンタ（２０）の計数値（ｋ）に基づいて次の符号化
に使用する分割辞書（１０−ｉ）を指定することを特徴
とするデータ圧縮方式。
【請求項５】請求項４記載のデータ圧縮方式に於い
て、、入力データの１語がｕ＝１バイトとｖ＝２バイトの２通
りのバイト文字で表現され、更に各バイト文字は先頭バ
イトを示す識別コードを備えた場合、前記分割辞書指定
手段（１２）は、１バイト文字又は２バイト文字のバイ
ト数を計数するカウンタ（２０）を備え、前記符号化手
段１（１６）で入力文字列を符号化した後に符号化済み
文字列（Ｓ）のバイト数を計数し、該計数中に前記１バ
イト文字または２バイト文字の先頭バイトを検出した場
合には、前記カウンタ（２０）の計数値（ｋ）をそれぞ
れ０又は１に設定すると共に、先頭バイト以外のバイト
を検出した場合には１つカウンタアップし、符号化済み
文字列（Ｓ）に続く次の入力文字（Ｃ）の直前まで計数
した時の前記カウンタ（２０）の計数値（ｋ）が０の時
は１バイト文字又は２バイト文字の先頭バイトと判定し
て第１の分割辞書（１０−０）を指定し、カウンタ計数
値（ｋ）が１の時は２バイト文字の２バイト目と判定し
て第２の分割辞書（１０−１）を指定することを特徴と
するデータ圧縮方式。