JP3105598B2

JP3105598B2 - ユニバーサル符号を用いたデータ圧縮方式

Info

Publication number: JP3105598B2
Application number: JP28956891A
Authority: JP
Inventors: 茂吉田; 佳之岡田; 泰彦中野; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-11-06
Filing date: 1991-11-06
Publication date: 2000-11-06
Anticipated expiration: 2015-11-06
Also published as: JPH05224878A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ユニバーサル型アルゴ
リズムを用いて文字情報等の入力文字列を圧縮符号化す
るユニバーサル符号を用いたデータ圧縮方式に関する。
近年、文字コード、ベクトル情報、画像など様々な種類
のデータがコンピュータで扱われるようになっており、
扱われるデータ量も急速に増加してきている。大量のデ
ータを扱うときは、データの中の冗長な部分を省いてデ
ータ量を圧縮することで、記憶容量を減らしたり、速く
伝送したりできるようになる。

【０００２】このような様々なデータを１つの方式でデ
ータ圧縮できる方法としてユニバーサル符号化が提案さ
れている。ここで、本発明の分野は、文字コードの圧縮
に限らず、様々なデータに適用できるが、以下では、情
報理論で用いられている呼称を踏襲し、データの１ワー
ド単位を文字と呼び、データが任意ワードつながったも
のを文字列と呼ぶことにする。ユニバーサル符号の代表
的な方法として、ジブ−レンペル（Ziv-Lempel）符号が
ある（詳しくは、例えば、宗像『Ziv-Lempelのデータ圧
縮法』、情報処理、Vol.26,No.1,1985年を参照のこ
と）。

【０００３】ジブーレンペル符号では (1)ユニバーサル型と、 (2)増分分解型（Incremental parsing ）の２つのアルゴリズムが提案されている。更に、ユニバ
ーサル型アルゴリズムの改良として、ＬＺＳＳ符号があ
る（T.C.Bell,“Better OPM/L Text Compression ”,IE
EE Trans. on Commun., Vol.COM-34, No.12, Dec. 1986
参照）や、１／４インチ・カートリッジ磁気テープの
標準圧縮方式であるＱＩＣ−１２２符号がある。

【０００４】また、増分分解型アルゴリズムの改良とし
ては、ＬＺＷ（Lempel-Ziv-Welch）符号がある（T.A. W
elch, “A Technique for High-Performance Data Comp
ression ”,Computer, June 1984参照）。これらの改良
符号は補助記憶装置のファイル圧縮や、パソコン通信で
のデータ伝送に利用されるようになっている。

【０００５】

【従来の技術】まず従来のユニバーサル型アルゴリズム
とその改良の１つであるＱＩＣ−１２２符号について説
明する。１．ユニバーサル型アルゴリズムユニバーサル型アルゴリズムは、演算量は多いが、高圧
縮率が得られるデータ圧縮方式である。

【０００６】即ち、ユニバーサル型アルゴリズムにあっ
ては、符号化しようとする文字列をを、符号化済みの文
字列の任意の位置から最大長一致する系列、所謂部分列
に区切り、入力文字列を過去の最大長一致する部分列の
複製として符号化する。図１４にユニバーサル型ジブー
レンペル符号の符号化方式を示す。図１４において、辞
書としての機能をもつＰバッファ１２には入力済みの文
字列が格納されており、文字入力部としてのＱバッファ
１０にはこれから符号化しようとする文字列が入力され
ている。パターンマッチング部２６はＱバッファ１０の
文字列をＰバッファ１２の系列と照合し、Ｐバッファ１
２の中で一致する最大長の文字部分列を検索する。

【０００７】そして、Ｐバッファ１２中で検索した最大
長一致する部分列を指定するため図１５に示す情報の組Ｐバッファ中の最大長一致系列の開始位置（開始アドレ
ス）一致長（レングス）として符号化する。なお、一致系列がなければ不一致の
シンボルと共に生データを出力する。

【０００８】次にＱバッファ１０内の符号化した文字列
をＰバッファ１２に移して新たな符号化済み文字列を登
録する。以下、同様の操作を繰り返し、入力文字列を部
分列に分解して符号化する。このようにジブーレンペル
符号では現在の文字列を、符号化済みの過去の文字列か
らの複製として符号化するものである。ジブーレンペル
符号を用いた場合、文字コードの文書情報は１／２程度
に圧縮できる。２．ＱＩＣ−１２２符号３Ｍを中心とするメーカの団体であるＱＩＣ（Quauter
Inch Cartrrige Standard Inc.）が１／４インチ・カー
トリッジ磁気テープの標準圧縮方式として採用した符号
である。

【０００９】ＱＩＣ−１２２符号のアルゴリズムでは、
Ｐバッファとして２０４８バイトの履歴をもち、Ｑバッ
ファの符号化する文字列をＰバッファ中の文字列の複製
として表すモードと、生データを１バイトづつ符号化す
るモードの２つのモードをもつ。そして、Ｐバッファ中
の最大長一致文字列が２文字以上の場合、複製モードで
符号化し、それ以外のときは生データ・モードで符号化
する。

【００１０】図１６はＢＮＦメタ言語で表わされたＱＩ
Ｃ−１２２符号の符号語フォーマットを示す。またＢＮ
Ｆメタ言語に用いるメタ記号は図１７に示す意味をも
つ。図１６のＱＩＣ−１２２符号の符号語フォーマット
を詳細に説明すると次のようになる。（１）圧縮系列（Compressed Stream ）は、圧縮ストリ
ング（Compressed String)とエンドマーカで構成され
る。

【００１１】（２）圧縮ストリングは、生データについ
ては識別ビット０に続くＡＳＣＩＩ生バイトで表現さ
れ、また圧縮データについては識別ビット１に続いて圧
縮バイトで表現される。（３）ＡＳＣＩＩ生バイトは、８ビットを１バイトして
表現される。（４）圧縮バイトは、オフセット（開始位置）とレング
ス（一致長）の組でなる。

【００１２】（５）オフセット（開始位置）は、識別ビ
ット１の場合は７ビットで表現される。また識別ビット
０のは場合は１１ビットで表現される。（６）エンドマーカは、１１０００００００であり、オ
フセットは０となる。（７）ビットｂは０又は１である。（８）レングス（一致長）は、図１６のように可変長符
号で表現される。

【００１３】図１８は従来のＱＩＣ１２２符号の符号化
処理を示したフローチャートであり、次のように処理さ
れる。図１８において、まずステップＳ１でＰバッファ
の内容を空にし、またＱバッファに符号化しようとする
入力データを詰める。次にステップＳ２でＱバッファの
直前文字の位置からの文字列に一致するＰバッファの最
長文字列Ｓを検索する。続いてステップＳ３で検索でき
た最長文字列Ｓが２文字以上か否か判別する。

【００１４】最小文字列Ｓが１文字の場合はステップＳ
４に進んで生データ・モードとなり、生データ・モード
であることを示すフラクビット０とＡＳＣＩＩコードで
なる生データ１バイトを出力する。一方、最長文字列Ｓ
が２文字以上であった場合には、ステップＳ５に進んで
複製モードとし、圧縮データであることを示すフラグビ
ット１に続いて最長文字列Ｓの出現位置と一致長の組を
符号化する。

【００１５】ステップＳ６では符号化済みのＱバッファ
の文字列又は文字をＰバッファに移すと共に、同じ数の
新たな文字をＱバッファに入力する。更にＱＩＣ−１２
２符号のアルゴリズムではＰバッファは２０４８バイト
と固定であるため、Ｐバッファに移した文字数分の最も
古い文字をＰバッファから捨てる。以下、ステップＳ７
で全て文字の処理済みが判別されるまで同様な処理を繰
り返す。

【００１６】図１９にＱＩＣ−１２２符号の符号化の具
体例を示す。図１９は文字列「ＡＢＡＡＡＡＡＡＣＡＢ
Ａ」が入力した場合を例にとっている。まず最初の３文
字「ＡＢＡ」に関してはＰバッファ中の一致する文字数
が１文字以下であることからＡＳＣＩＩ生バイトのビッ
ト系列を出力する。４文字目から８文字目までの５つの
「Ａ」については、Ｐバッファの直前文字「Ａ」と一致
することから、圧縮バイト識別ビット７ビットオフセット識別ビットオフセット＝１レングス＝５バイトでなるビット系列「１１００００００１１１０
０」として出力する。

【００１７】ここで最大長一致の部分列の開始位置を示
すオフセットの値は、Ｐバッファの最新登録位置（アド
レス）から前に遡って何番目かを示している。９番目の
文字「Ｃ」はＰバッファにないことからＡＳＣＩＩ生バ
イトを出力する。１０〜１２番目の文字「ＡＢＡ」はＰ
バッファの先頭からの３文字として既に登録済みである
ので、圧縮バイト識別ビット７ビットオフセット識別ビットオフセット＝９レングス＝３バイトでなるビット系列「１１０００１００１０１」を
出力する。

【００１８】

【発明が解決しようとする課題】このような従来のユニ
バーサル型ジブ−レンペル符号を用いたデータ圧縮方式
にあっては、計算機処理しやすいように、入力データの
１語を例えば８ビットデータとするバイト単位で扱って
符号化している。しかしながら、このような従来のユニ
バーサル符号を用いたデータ圧縮方式にあっては、漢字
コードやＲＧＢ各５ビットのカラーコードとなどの１語
が複数バイトで構成されるデータを、バイト単位のユニ
バーサル型ジブ−レンペル符号で圧縮すると、データの
バイト構成についての規則性が取り込めないため、効率
の良い圧縮ができないという問題点があった。

【００１９】本発明は、このような従来の問題点に鑑み
てなされたもので、入力データの１語が複数バイトで構
成されていてもデータのバイト構成に関する規則性を取
り込んで効率良く圧縮できるようにしたユニバーサル符
号を用いたデータ圧縮方式を提供することを目的とす
る。

【００２０】

【課題を解決するための手段】図１は本発明の原理説明
図である。まず本発明は、入力データの１語を所定ビッ
ト数毎に区切った複数の文字で表現し、該文字を処理単
位として符号化を行って圧縮するユニバーサル符号を用
いたデータ圧縮方式を対象とする。

【００２１】このようなデータ圧縮方式を対象に本願第
１発明にあっては、図１（ａ）に示すように、入力デー
タを格納した文字列入力部（Ｑバッファ）１０と、符号
化済みの文字列を保持する辞書（Ｐバッファ）１２と、
文字列入力部１０の入力データから前記所定ビット単位
に区切って得られた先頭の入力文字が、前記入力データ
の１語中の何番目の文字位置かを検出する文字位置検出
手段１４と、文字位置検出手段１４による文字位置と同
一の文字位置から始まる前記辞書１２に保持された符号
化済み文字列と前記入力文字を含む入力文字列とを比較
し、入力文字列に最長一致する符号化済み文字列の部分
列を検索する辞書検索手段１６と、辞書検索手段１６で
検索された最長一致する部分列の開始位置と一致文字長
との組を符号化する符号化手段１８と、を設けたことを
特徴とする。

【００２２】具体的なバイト構成で説明すると、入力デ
ータの１語をバイト単位に区切った複数の文字で表現
し、該文字を処理単位として符号化を行って圧縮するユ
ニバーサル符号を用いたデータ圧縮方式に於いて、入力
データを格納した文字列入力部１０と、符号化済みの文
字列を保持する辞書１２と、文字列入力部１０の入力デ
ータからバイト単位に区切って得られた先頭の入力文字
が、入力データの１語中の何バイト目かを検出するバイ
ト位置検出手段１４と、バイト位置検出手段１４による
バイト位置と同一のバイト位置から始まる辞書１２に保
持された符号化済み文字列と前記入力文字を含む入力文
字列とを比較し、入力文字列に最長一致する符号化済み
文字列の部分列を検索する辞書検索手段１６と、辞書検
索手段１６で検索された最長一致する部分列の開始位置
と一致バイト長との組を符号化する符号化手段１８と、
を設けたことを特徴とする。

【００２３】また本願の第２発明は、図１（ｂ）に示す
ように、入力データの１語を所定ビット数に区切った１
又は複数の文字で表現し、且つ入力データの１語をｕ個
の文字で構成される第１複合文字と、異なるｖ個の文字
で構成される第２複合文字の２通りで表現し、更に第１
複合文字及び第２複合文字の識別コードを先頭文字に備
えた入力文字列を対象に符号化を行って圧縮するユニバ
ーサル符号を用いたデータ圧縮方式を対象とし、入力デ
ータを格納した文字列入力部１０と、符号化済みの文字
列を保持する辞書１２と、辞書１２に保持された符号化
済みの最終文字が前記第１複合文字か第２複合文字かを
検出する文字種検出手段２０と、辞書１２に保持された
符号化済みの最終文字が文字種検出手段２０で検出され
た第１複合文字又は第２複合文字の何番目の文字かを検
出する文字位置検出手段２２と、文字種検出手段２０で
検出された最終文字と同一の文字種で且つ前記文字位置
検出手段２２で検出された同一の文字位置の直後から始
まる辞書１２の符号化済み文字列と前記最終文字の直後
から始まる入力文字列とを比較し、入力文字列に最長一
致する符号化済み文字列の部分列を検索する辞書検索手
段１６と、辞書検索手段１６で検索された最長一致する
部分列の開始位置と一致文字長との組を符号化する符号
化手段１８とを設けたことを特徴とする。

【００２４】具体的にバイト構成を例にとると、次のよ
うになる。即ち、入力データの１語をバイト単位に区切
った１又は複数の文字で表現し、且つ入力データの１語
をバイト数ｕのｕバイト文字と異なるバイト数ｖのｖバ
イト文字の２通りで表現し、更にｕバイト文字及びｖバ
イト文字の識別コードを先頭バイトに備えた入力文字列
を対象に符号化を行って圧縮するユニバーサル符号を用
いたデータ圧縮方式を対象とし、入力データを格納した
文字列入力部１０と、符号化済みの文字列を保持する辞
書１２と、辞書１２に保持された符号化済みの最終文字
が前記ｕバイト文字かｖバイト文字かを検出する文字種
検出手段２０と、辞書１２に保持された符号化済みの最
終文字が文字種検出手段２０で検出されたｕバイト文字
又はｖバイト文字の何バイト目かを検出するバイト位置
検出手段２２と、文字種検出手段２０で検出された最終
文字と同一の文字種で且つバイト位置検出手段２２で検
出された同一バイト位置の直後から始まる辞書１２の符
号化済み文字列と最終文字の直後から始まる入力文字列
とを比較し、入力文字列に最長一致する符号化済み文字
列の部分列を検索する辞書検索手段１６と、辞書検索手
段１６で検索された最長一致する部分列の最終文字を除
く開始位置と一致バイト長との組を符号化する符号化手
段１８と、を設けたことを特徴とする。

【００２５】例えば入力データの１語を、バイト数１の
１バイト文字と異なるバイト数２の２バイト文字の２通
りで表現し、更に１バイト文字及び２バイト文字の識別
コードを先頭バイトに備えた入力文字列を対象に符号化
を行う。

【００２６】

【作用】このような構成を備えた本発明のデータ圧縮方
式によれば、１語が複数バイトで構成されるデータにつ
き、Ｑバッファの入力文字列の先頭が１語の何バイト目
から始まっているかに応じて、Ｐバッファ中に保持して
いる符号化済み各文字の同一バイト位置から始まる文字
列の内から最長一致する文字列を検索して、最大一致長
文字列のＰバッファ内の開始位置と一致バイト長との組
を符号化するようになり、データのバイト構成の規則性
のもつ冗長性を削減して効率の良い符号化を可能とす
る。

【００２７】また１語が例えば１バイトと２バイトの２
通りで表わされる入力データについては、Ｐバッファの
最終文字をＱバッファの入力文字列の先頭に加えた文字
列の符号化を行うようにし、先頭文字となるＰバッファ
の最終文字はその識別コードによって１バイト文字か２
バイト文字かが判り、また２バイト文字については１バ
イト目か２バイト目かが判る。

【００２８】このため、最終文字の文字種と最終文字が
１語の何バイト目かを示すバイト位置の情報を利用し
て、Ｐバッファ中に保持している最終文字と同じ文字種
で同一バイト位置から始まる文字列の内から最長一致文
字列を検索して、最大一致長文字列のＰバッファ内の開
始位置と一致バイト長との組を符号化する。この場合、
先頭のＰバッファ最終文字は符号語に含めないことか
ら、検索文字列の先頭の最終文字を除いたＰバッファ内
の開始位置と一致バイト長との組を符号化する。

【００２９】この場合にもデータのバイト構成の規則性
のもつ冗長性を削減して効率の良い符号化を可能とす
る。

【００３０】

【実施例】図２は本発明の第１実施例を示した実施例構
成図である。図２において、２４はバッファメモリであ
り、符号化を行おうとする入力データを格納する文字列
入力部としてのＱバッファ１０と、符号化済み文字列を
保持する辞書としての機能を有するＰバッファ１２が割
り当てられている。

【００３１】ここで、Ｑバッファ１０に格納される入力
データとしては、漢字コードやＲＧＢ各５ビットのカラ
ーコード等の１語が複数バイトで構成されるデータであ
り、以下の説明にあっては、１語が２バイト（１バイト
は８ビット）で構成される入力データの符号化を例にと
っている。また、以下の説明では符号化は１バイト単位
に行われることから１バイトのデータを文字と呼び、従
って２バイトで構成される入力データの１語は２文字で
構成されることになる。

【００３２】２６はＣＰＵを用いた符号化処理手段とし
て機能するパターンマッチング部であり、ユニバーサル
符号化アルゴリズムに従ってＱバッファ１０の入力文字
列に最長一致する登録済み文字列の部分列をＰバッファ
１２から検索し、最長一致する部分列の複製としてその
開始位置と一致長の組でなる符号語を出力する。このよ
うなユニバーサル符号化アルゴリズムを実行するため、
パターンマッチング部２６には文字位置検出部１４，辞
書検索部１６及び符号化部１８の機能ブロックが設けら
れることになる。

【００３３】パターンマッチング部２６に設けた文字位
置検出部１４は、Ｑバッファ１０に格納されている入力
データの先頭文字が処理対象とする入力データの１語の
中の何バイト目かを検出する。この実施例にあっては、
１語が２バイトからなる入力データを例にとっているこ
とから、文字位置検出部１４はＱバッファ１０の先頭入
力文字が１バイト目か或いは２バイト目を検出すること
になる。

【００３４】辞書検索部１６は文字位置検出部１４で検
出されたＱバッファ１０の先頭文字の１語内のバイト位
置と同一のバイト位置から始まるＰバッファに保持され
た符号化済み文字列とＱバッファ１０の先頭文字を含む
入力文字列とを比較し、入力文字列に最長一致する符号
化済み文字列の部分列を検索する。更に、符号化部１８
は辞書検索部１６で検索されたＰバッファ１２内の符号
化済み文字列の中の最長一致する部分列の開始位置と一
致バイト数との組を符号化し、符号語として出力する。

【００３５】図３は図２に示した本発明の第１実施例に
おけるユニバーサル符号化のアルゴリズムを示したフロ
ーチャートである。図３において、まずステップＳ１で
Ｐバッファ１２の内容を空にし、またＱバッファ１０に
符号化しようとする入力データを詰める。次にＱバッフ
ァ１０の先頭バイト１０の１語内のバイト位置ｂｐを求
める。この実施例においては、１語が２バイトの場合を
例にとることからステップＳ２において先頭バイトが１
バイト目かあるいは２バイト目かのいずれかのバイト位
置ｂｐが求められる。

【００３６】続いてステップＳ３に進み、Ｐバッファ１
２内の符号化済みの各文字の中でステップＳ２で検出し
たＱバッファの先頭バイトのバイト位置ｂｐから始まる
文字列の内、Ｑバッファ１０の入力文字列、即ち入力バ
イトデータ列に一致する最長の文字列、即ちバイトデー
タ列Ｓを検索する。続いてステップＳ４に進んでＰバッ
ファ１２から最長バイトデータ列Ｓが２バイト以上か否
か判定し、最長バイトデータ列Ｓが１バイトの場合はス
テップＳ５に進んで生データモードとなり、生データモ
ードであることを示すフラグビット０とＡＳＣＩＩコー
ドでなる生データ１バイトを出力する。

【００３７】一方、最長バイトデータ列Ｓが２バイト以
上であった場合にはステップＳ６に進んで複製モードと
し、圧縮データであることを示すフラグビット１に続い
て最長バイトデータ列ＳのＰバッファ１２内における出
現位置を示す一致開始文字位置と一致バイト長の組を符
号化する。ステップＳ５またはＳ６における符号化が済
むとステップＳ７に進み、符号化済みのＱバッファ１０
の文字列または文字をＰバッファ１２に移すと共に同じ
数の新たな文字をＱバッファ１０に入力する。

【００３８】更に、ＱＩＣ−１２２符号のアルゴリズム
ではＰバッファ１２は２０４８バイトと固定であるた
め、Ｐバッファ１２に新たに移した文字数分だけ最も古
い文字をＰバッファ１２から捨てる。以下、ステップＳ
８で全ての文字の処理済みが判別されるまで同様な処理
を繰り返す。図４は図２の第１実施例における１語が２
バイトで構成される入力データのユニバーサル符号化の
具体例を示した説明図である。

【００３９】まず図４（ａ）はＱバッファ１０とＰバッ
ファ１２の内容を示している。この例ではＱバッファ１
０の先頭語は「ｂｉ」であり、「ｂ」はバイト位置０で
あり、また「ｉ」はバイト位置１となる。ここで、バイ
ト位置０は第１バイト目を示し、バイト位置１は第２バ
イト目を示している。従って、Ｑバッファ１０の先頭文
字即ち先頭バイト「ｂ」はバイト位置が０で始まる１語
の１バイト目である。

【００４０】このようにＱバッファ１０の先頭文字
「ｂ」のバイト位置０（１バイト目）が検出できたなら
ば、Ｐバッファ１２内に保持されているバイト位置０の
各文字から始まる文字列を入力文字列と比較する。この
場合、Ｐバッファ１２における文字位置２から文字位置
４のバイト位置０で示す１バイト目までの文字列「bibj
c 」がＱバッファ１０の入力文字列「bibjc 」に一致す
ることが検索される。即ち、Ｑバッファ１０の入力文字
列は、Ｐバッファ１２中の文字位置２から５バイト分一
致することになる。

【００４１】この場合の符号化は図４（ｂ）に示すよう
に、一致開始文字位置「２」と一致バイト長「５」の組
で符号化することになる。図５は図２の第１実施例によ
るユニバーサル符号化の他の具体例を示した説明図であ
る。まず図５（ａ）に示すように、Ｑバッファ１０の先
頭文字ｋはバイト位置が１であるから、１語の２バイト
目から始まっていることが検出される。このため、Ｐバ
ッファ１２の中の同じバイト位置１から始まる文字列を
検索すると、Ｐバッファ１２中の文字位置４から３バイ
ト分の文字列「kcl 」がＱバッファ１０の入力文字列
「kcl 」に一致する。この場合には、図５（ｂ）に示す
ように、一致開始位置「４」と一致バイト長「３」の組
で符号化する。

【００４２】この図４及び図５の具体例から明らかなよ
うに、符号語における一致開始文字位置は最大Ｐバッフ
ァ１２に登録可能な全語数をアドレスできるビット数が
あればよいことになる。また、一致バイト長について
は、ビット当りの符号化効率が最大になるビット長を最
大一致バイト長に固定的に定めればよい。更に、符号語
として出力する一致開始文字位置と一致バイト長の組に
ついては、各ビット数を最大ビット数に固定した固定長
符号とせずに一致開始文字位置及び一致バイト長の値に
応じた可変長符号とすることで、効率のよい符号化を実
現することができる。この一致開始文字位置と一致バイ
ト長の組の可変長符号化については、後の説明で更に明
らかにする。

【００４３】図６は本発明の第２実施例を示した実施例
構成図であり、この実施例にあっては、入力データの１
語が１バイト構成と２バイト構成の２通りからなるデー
タの符号化を対象とする。このようなデータとしては、
例えばシフトＪＩＳコードデータがあり、図７に示すよ
うに１バイトデータと２バイトデータの２通りがあり、
且つ１バイトデータ及び２バイトデータの先頭バイトを
使用して１バイト識別コード及び２バイト識別コードを
行っている。

【００４４】従って、図７に示すような１バイトデータ
と２バイトデータの２通りをもつシフトＪＩＳコード等
の入力データの符号化については、Ｑバッファの先頭バ
イトが１バイトデータか２バイトデータかを識別すると
共に、２バイトデータであった場合は２バイトデータの
１バイト目なのか２バイト目なのかを識別することによ
って辞書としてのＰバッファ中の文字列の先頭位置を選
択して符号化すればよい。

【００４５】再び図６を参照するに、バッファメモリ２
４に確保されたＱバッファ１０及びＰバッファ１２は図
２の第１実施例と同じである。一方、パターンマッチン
グ部２６には文字種検出部２０，文字位置検出部２２，
辞書検索部１６及び符号化部１８が設けられる。パター
ンマッチング部２６における符号化はＱバッファ１０に
保持された符号化済み文字列の最終文字にＱバッファ１
０の先頭文字に続く文字列を加えた入力文字列を対象に
符号化を行う。

【００４６】ここで、Ｑバッファ１０の最終文字を符号
化の先頭文字とする理由は文字種検出部２０において符
号化する文字列の先頭文字の文字種を検出するためであ
る。即ち、Ｐバッファ１２に保持された文字列について
は、既に符号化が済んでいることから各文字の文字種及
びバイト位置が得られているからである。従って、文字
種検出部２０はＱバッファ１０の最終文字の文字種即ち
１バイト複合文字か２バイト複合文字かを検出する。ま
た、文字位置検出部２２は文字種検出部２０で検出した
文字種の１語におけるＰバッファ１２の最終文字が何番
目の文字か、即ち何バイト目かを検出する。

【００４７】辞書検索部１６は文字種検出部２０からの
検出文字種及び文字位置検出部２２からの検出文字位置
の２つの情報を受けて、Ｐバッファ１２に保持されてい
る最終文字と同一の文字種で且つ同一文字位置の直後か
ら始まる符号化済み文字列とＱバッファ１０の入力文字
列とを比較し、同一文字種の最終文字の直後から始まる
文字列に最長一致するＰバッファ１２内の文字列を検索
する。

【００４８】符号化部１８は辞書検索部１６でＰバッフ
ァ１２から検索された最長文字列の一致開始文字位置と
一致バイト長の組を符号化する。図８は図６の実施例に
ついて入力データの１語が第１複合文字としてのｕバイ
ト文字と第２複合文字としてのｖバイト文字の２通りか
らなる入力データをユニバーサル符号化するアルゴリズ
ムのフローチャートを示す。但し、ｕ，ｖは１語のバイ
ト数を示し、ｕ＜ｖとなる関係にある。具体的には、ｕ
＝１とする１バイト文字とｖ＝２とする２バイト文字と
なる。勿論、ｕ，ｖの値は処理対象とする入力データに
応じて適宜に定められる。

【００４９】図８において、まずステップＳ１でＰバッ
ファ１２の内容を空にし、またＱバッファに符号化しよ
うとする入力データ、即ちｕバイト文字とｖバイト文字
の２通りで表現される入力データを詰める。次にステッ
プＳ２でＰバッファ１２の最終文字がｕバイト文字かｖ
バイト文字かを検出する。同時に、Ｐバッファ１２の最
終文字が検出できたｕバイト文字またはｖバイト文字の
何バイト目かのバイト位置を検出する。

【００５０】続いてステップＳ３に進み、検出したｕバ
イト文字またはｖバイト文字の検出バイト位置の直後か
ら始まり、入力バイトデータ列と一致するＰバッファ１
２内の最長バイトデータ列（最長文字列）Ｓを検索す
る。続いてステップＳ４でＰバッファ１２から検索した
最長バイトデータ列Ｓが３バイト以上か否か判別し、２
バイト未満の場合にはステップＳ５に進んで生データモ
ードとなり、生データモードであることを示すフラグビ
ット０とＡＳＣＩＩコードでなる生データ１バイトまた
は２バイトを出力する。

【００５１】一方、最長バイトデータ列Ｓが３バイト以
上であった場合にはステップＳ６に進んで複製モードと
し、圧縮データであることを示すフラグビット１に続い
て、最長バイトデータ列ＳのＰバッファ最終文字を除く
先頭のｕバイト文字またはｖバイト文字の文字位置と、
一致バイト長より最終文字を除くために１バイト引いた
一致バイト長の組を符号化する。

【００５２】ステップＳ５またはＳ６の符号化が済むと
ステップＳ７に進み、符号化済みのＱバッファ１０の文
字列または文字をＰバッファ１２に移すと共に同じ数の
新たな文字をＱバッファ１０に入力する。更に、ＱＩＣ
−１２２符号のアルゴリズムではＰバッファ１２は２０
４８バイトと固定であるため、Ｐバッファ１２に新たに
移した文字数分だけ最も古い文字をＰバッファ１２から
捨てる。以下、ステップＳ８で全ての文字の処理済みが
判別されるまで同様な処理を繰り返す。

【００５３】図９は図６の第２実施例におけるユニバー
サル符号化の具体例を示した説明図である。図９（ａ）
はＱバッファ１０とＰバッファ１２の内容を示したもの
で、Ｐバッファ１２の最終文字「ａ」を加えた入力文字
列の符号化を行う。まず、Ｐバッファ１２の最終文字
「ａ」の文字種を検出する。この場合、最終文字はｕバ
イト文字である。また、最終文字「ａ」のバイト位置を
検出する。この場合、バイト位置は０であり、ｕバイト
文字の１ビット目を示している。

【００５４】Ｐバッファ１２の最終文字「ａ」の文字種
及びバイト位置が検出できたならば、Ｐバッファ１２に
保持している最終文字「ａ」と同一文字種となるｕバイ
ト文字のバイト位置０と同一位置の直後から始まる各文
字列について、Ｐバッファ１２の最終文字を含むＱバッ
ファ１０の入力文字列「cdbac 」との比較を行う。この
場合、Ｐバッファ１２の文字位置２から３バイト分の文
字列が最長文字列として検索できる。

【００５５】従って、符号化は図９（ｂ）に示すように
Ｐバッファ１２の最長文字列について一致開始文字位置
「２」と一致バイト長「３」の組で符号化する。この符
号化についても、一致開始文字位置は最大でＰバッファ
１２の全文字数をアドレスできるビット数があればよ
く、この最大ビット数による固定長符号とすればよい。
また、一致バイト長については、経験的に得られる最大
一致バイト長の固定長符号とすればよい。更に、一致開
始文字位置及び一致バイト長については、固定長符号と
せずに各値に応じた可変長符号とすることで効率のよい
符号化ができる。

【００５６】更にまた、図４，図５及び図９の例では、
Ｐバッファ１２内における文字位置の出現番号を右から
左に数えているが、逆に左から右に数えることにしても
よい。次に本発明の符号化処理で行われる出現番号とし
ての文字位置の可変長符号化の具体的な実施例を説明す
る。（１）可変固定長符号化Ｐバッファ１２内の一致開始文字位置ｉの出現個数をｎ
とすると、一致開始文字位置ｉを「ｌｏｇ₂ ｎ」ビット
で表わして符号化する。ここで「ｌｏｇ₂ ｎ」はｌｏｇ
₂ ｎ以上の最小の整数を表わす。

【００５７】例えばある入力文字列を符号化する際にＰ
バッファ１２内の一致開始位置のアドレス数が例えばｎ
＝１２個であったとすると、この時の最大位置ｎ＝１２
を開始とした最長文字列Ｓの一致開始文字位置ｉは、「ｌｏｇ₂ ｎ」＝「ｌｏｇ₂ １２」＝４ビットで表現される可変長符号となる。これを可変固定長符号
化という。（２）ビット端数補償による可変固定長符号化前記（１）の可変固定長符号化では、出現個数ｎに対応
した最大値ｉ＝ｎまでの一致開始文字位置ｉを「ｌｏｇ
₂ ｎ」ビットで表すと「ｌｏｇ₂ ｎ」−ｌｏｇ₂ ｎビットのビットロスが生じる。このビットの端数のロスを減し
て一致開始文字位置ｉを表現することにより符号化効率
を向上させるものとしてビット端数補償がある（例えば
「Ziv-Lempel符号の改良とシミュレーションによる性能
評価−（II）」、電子通信学会技術研究報告C84-135, p
p.1-8,1984参照）。

【００５８】このビット端数補償にあっては、出現個数
ｎに対応した最大一致開始文字位置をｉ＝ｎとした時の
ビット数ｐをｐ＝「ｌｏｇ₂ ｎ」とし、また一致開始文字位置ｉの最上位ビットを除く
（ｐ−１）ビットで表したものをｉ^* とする。同様に最
大出現番号ｎの最上位ビットを除く（ｐ−１）ビットで
表したものをｎ^* とする。

【００５９】このような条件のもとで、ビット端数補償
による一致開始文字位置ｉの可変長符号語は、ｉ^* ≦ｎ^* のとき、ｉ^* で表し、ｉ^* ＞ｎ^* のとき、ｉ^* の後に最上位ビットを付けて
表す。ここで一致開始文字位置の出現個数ｎ＝１２をとし、一
致開始文字位置ｉをｉ＝０〜１１としてビット端数補償
で表す例を図１０に示す。

【００６０】図１０においては、ｐ＝「ｌｏｇ₂ ｎ」＝「ｌｏｇ₂ １２」＝４ビットｐ−１＝３ビットであり、ｉ^* ≦３ビットのとき、ｉ^* で表し、ｉ^* ＞３ビット^* のとき、ｉ^* の後に最上位ビットを
付けて表す。

【００６１】即ち、一致開始文字位置としての参照番号
ｉ＝０〜１１の４ビットの２進表示は、前記の条件を
満たす。また一致開始文字位置としての参照番号ｉ＝４
〜７の４つについては、上位１ビットを除いた下位３ビ
ットｉ^* で表わす。一方、前記の条件を満たす一致開
始文字位置としての参照番号ｉ＝０〜３及びｉ＝８〜１
１については、上位１ビットを除いた下位３ビットｉ^*
の後に２進表示の上位１ビットを付けて区別する。（３）ＰＢＣ可変長符号化（Phasing in Binary Codes
）このＰＢＣ可変長符号化は、例えば「 Compression」,
Prentice-Hall Inc. 1990, pp.293-294 に記載される。

【００６２】ＰＢＣ可変長符号化ではｉ＜２^P −ｎ−１のとき、ｉ^* で表し、ｉ≧２^P −ｎ−１のとき、一致開始文字位置ｉに（２
^P −ｎ−１）を加えた値（ｉ＋２^P −ｎ−１）をｐビッ
トで表す。出現個数ｎ＝１２の時の一致開始文字位置（参照番号）
ｉ＝０〜１１についてのＰＢＣ符号化の具体例を図１１
に示す。

【００６３】図１１において、前記の条件を満足する
のは参照番号ｉ＝０〜３の場合であり、この場合には、
ｐ＝４ビットで表現されたｉ＝０〜３の２進表示コード
は最上位ビットを除く３ビットでＰＢＣ表現される。ま
た前記の条件を満足するのは参照番号ｉ＝４〜１１の
場合であり、この場合には、ｐ＝４ビットで表現された
ｉ＝４〜１１の２進表示にに４の２進表示「１００」を
加算した４ビットでＰＢＣ表現される。（４）多値算術符号化前記（２）（３）の可変長符号化は、一致開始文字位置
ｉによってｐビットとｐ−１ビットで表しており、一致
開始文字位置ｉの１個ずつでみるとビットの端数のロス
を減じることができるものの、一致開始文字位置ｉの列
全体としてみると冗長性がまだ残る。

【００６４】そこで、ビットのロスを更に削除するた
め、出現個数ｎ個の一致開始文字位置が等確率で出現す
るものと仮定して一致開始文字位置（シンボル）ｉを多
値算術符号化する（多値算術符号化については、例え
ば、文献“Arithmetic Coding for Data Compressio
n”， Communication of the ACM, June 1987, Vol.30,
No.6, pp.520-540参照）。

【００６５】図１２（ａ）（ｂ）に複数個のシンボルの
符号化に用いる多値算術符号化の符号化、復号化の概略
フローを示す。図１２（ａ）多値算術符号化は、データ
列を［０，１］の数直線上の一点に対応付けるものであ
り、シンボルごとに出現したシンボルの出現確率から求
めた累積出現確率によって［０，１］区間を逐次、細分
割するものである。

【００６６】図１３は多値算術符号化の処理内容を示し
たもので、１回目の文字位置の登録個数ｎをｎ＝４であ
り、最長文字列の一致開始文字位置ｉがｉ＝２番目であ
ったとすると、上限＝１と下限＝０の間の４分割された
区間の中のｉ＝２に対応するの区間が選択される。次
に２回数目の文字位置の登録個数も同じｎ＝４であり、
この場合の最長文字列の一致開始文字位置ｉがｉ＝１番
目であったとすると、更に４分割された中のの区間が
選択される。

【００６７】以下同様に選択された区間の再分割が進
み、Ｎ回目に最終文字列に基づく区間が選択されると、
この選択区間の中の任意の一点の値と区間の上限又は下
限を示す値との組を符号語として出力する。また図１２
（ａ）のアルゴリズムでは、シンボル列全体の符号化が
終了するまで符号語が得られず、また、符号語全体が得
られないと復号ができないようになっているが、実際の
多値算術符号化では、有限桁の固定長のレジスタで演算
して、ビット単位に符号語を得ることができる。

【００６８】即ち、図１３の第１回目の符号化では、例
えば上限が「００１」下限が「０１０」であり、両者の
最上位ビットは共に「０」であることから、この最上位
のビット「０」は出力してしまうようにする。２回目移
行についても同様である。更に多値算術符号化を用いる
場合、文字列の「一致長」についても、各一致長ごとに
出現数を計数しておき、計数値から推定した一致長の出
現確率を出現番号とともに多値算術符号化するようにし
てもよい。

【００６９】尚、上記の実施例はＱＩＣ−１２２符号を
例にとるものであったが、これに限定されずジブーレン
ペル符号等の適宜のユニバーサル符号につきそのまま適
用できる。また上記の実施例は、符号化の処理単位を８
ビットでなる１バイトを１文字とした場合を例にとるも
のであったが、符号化の処理単位を決める１文字のビッ
ト数は、４ビット、７ビット等と任意のビット数とし、
このビット数単位に入力データの１語を区切って複数文
字で表現するようにしてもよい。

【００７０】

【発明の効果】以上説明してきたように本発明によれ
ば、データの１語が符号化処理単位の複数単位、例えば
複数バイトで構成されている場合にも、入力データのバ
イト構成がもつ冗長性を削減したユニバーサル符号化を
行って圧縮率を向上させることができる。

【図面の簡単な説明】

【図１】本発明の原理説明図

【図２】本発明の第１実施例構成図

【図３】図２の符号化アルゴリズムを示したフローチャ
ート

【図４】図２の実施例におけＰバッファの検索と符号語
を示したフローチャート

【図５】図２の実施例におけＰバッファの他の検索と符
号語を示したフローチャート

【図６】本発明の第２実施例構成図

【図７】本発明により符号化されるシフトＪＩＳコード
の説明図

【図８】図６の符号化アルゴリズムを示したフローチャ
ート

【図９】図６の実施例におけるＰバッファの検索と符号
語を示したフローチャート

【図１０】本発明で用いるビット端数補償による可変長
符号化の具体例説明図

【図１１】本発明で用いるＰＢＣ符号化による具体例説
明図

【図１２】本発明で用いる多値算術符号化による符号化
及び復号化アルゴリズムを示した説明図

【図１３】本発明の多値算出符号化の処理内容を示した
説明図

【図１４】ユニバーサル型ジブーレンペル符号の符号化
方式説明図

【図１５】ユニバーサル符号語のデータ形式説明図

【図１６】ＱＩＣ１２２符号のフォーマット説明図

【図１７】図１６に使用したＢＮＦメタ言語の説明図

【図１８】ＯＩＣ１２２符号の符号化アルゴリズムを示
したフローチャート

【図１９】ＱＩＣ−１２２符号による符号化の具体例を
示した説明図

【符号の説明】

１０：文字列入力部（Ｑバッファ）１２：辞書（Ｐバッファ）１４，２２：文字位置検出手段（文字位置検出部）１６：辞書検索手段（辞書検索部）１８：符号化手段（無効果部）２０：文字種検出手段（文字種検出部）２４：バッファメモリ２６：パターンマッチング部

───────────────────────────────────────────────────── フロントページの続き (72)発明者千葉広隆神奈川県川崎市中原区上小田中1015番地富士通株式会社内 (56)参考文献特開平３−209922（ＪＰ，Ａ) 特開平３−78322（ＪＰ，Ａ) 特開平３−70214（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 5/00 H03M 7/46

Claims

(57)【特許請求の範囲】

【請求項１】入力データの１語を所定ビット数毎に区切
った複数の文字で表現し、該文字を処理単位として符号
化を行って圧縮するユニバーサル符号を用いたデータ圧
縮方式に於いて、入力データを格納した文字列入力部（１０）と、符号化済みの文字列を保持する辞書（１２）と、前記文字列入力部（１０）の入力データから前記所定ビ
ット単位に区切って得られた先頭の入力文字が、前記入
力データの１語中の何番目の文字位置かを検出する文字
位置検出手段（１４）と、該文字位置検出手段（１４）による文字位置と同一の文
字位置から始まる前記辞書（１２）に保持された符号化
済み文字列と前記入力文字を含む入力文字列とを比較
し、入力文字列に最長一致する符号化済み文字列の部分
列を検索する辞書検索手段（１６）と、該辞書検索手段（１６）で検索された最長一致する部分
列の開始位置と一致文字長との組を符号化する符号化手
段（１８）と、を設けたことを特徴とするユニバーサル
符号を用いたデータ圧縮方式。
【請求項２】入力データの１語をバイト単位に区切った
複数の文字で表現し、該文字を処理単位として符号化を
行って圧縮するユニバーサル符号を用いたデータ圧縮方
式に於いて、入力データを格納した文字列入力部（１０）と、符号化済みの文字列を保持する辞書（１２）と、前記文字列入力部（１０）の入力データからバイト単位
に区切って得られた先頭の入力文字が、前記入力データ
の１語中の何バイト目かを検出するバイト位置検出手段
（１４）と、該バイト位置検出手段（１４）によるバイト位置と同一
のバイト位置から始まる前記辞書（１２）に保持された
符号化済み文字列と前記入力文字を含む入力文字列とを
比較し、入力文字列に最長一致する符号化済み文字列の部分列を
検索する辞書検索手段（１６）と、該辞書検索手段（１６）で検索された最長一致する部分
列の開始位置と一致バイト長との組を符号化する符号化
手段（１８）と、を設けたことを特徴とするユニバーサ
ル符号を用いたデータ圧縮方式。
【請求項３】入力データの１語を所定ビット数に区切っ
た１又は複数の文字で表現し、且つ入力データの１語を
ｕ個の文字で構成される第１複合文字と、異なるｖ個の
文字で構成される第２複合文字の２通りで表現し、更に
第１複合文字及び第２複合文字の識別コードを先頭文字
に備えた入力文字列を対象に符号化を行って圧縮するユ
ニバーサル符号を用いたデータ圧縮方式に於いて、入力データを格納した文字列入力部（１０）と、符号化済みの文字列を保持する辞書（１２）と、前記辞書（１２）に保持された符号化済みの最終文字が
前記第１複合文字か第２複合文字かを検出する文字種検
出手段（２０）と、前記辞書（１２）に保持された符号化済みの最終文字が
前記文字種検出手段で検出された第１複合文字又は第２
複合文字の何番目の文字かを検出する文字位置検出手段
（２２）と、前記文字種検出手段（２０）で検出された最終文字と同
一の文字種で且つ前記文字位置検出手段（２２）で検出
された同一の文字位置の直後から始まる前記辞書（１
２）の符号化済み文字列と前記最終文字の直後から始ま
る入力文字列とを比較し、該入力文字列に最長一致する
符号化済み文字列の部分列を検索する辞書検索手段（１
６）と、該辞書検索手段（１６）で検索された最長一致する部分
列の開始位置と一致文字長との組を符号化する符号化手
段（１８）と、を設けたことを特徴とするユニバーサル
符号を用いたデータ圧縮方式。
【請求項４】入力データの１語をバイト単位に区切った
１又は複数の文字で表現し、且つ入力データの１語をバ
イト数ｕのｕバイト文字と異なるバイト数ｖのｖバイト
文字の２通りで表現し、更にｕバイト文字及びｖバイト
文字の識別コードを先頭バイトに備えた入力文字列を対
象に符号化を行って圧縮するユニバーサル符号を用いた
データ圧縮方式に於いて、入力データを格納した文字列入力部（１０）と、符号化済みの文字列を保持する辞書（１２）と、前記辞書（１２）に保持された符号化済みの最終文字が
前記ｕバイト文字かｖバイト文字かを検出する文字種検
出手段（２０）と、前記辞書（１２）に保持された符号化済みの最終文字が
前記文字種検出手段（２０）で検出されたｕバイト文字
又はｖバイト文字の何バイト目かを検出するバイト位置
検出手段（２２）と、前記文字種検出手段（２０）で検出された最終文字と同
一の文字種で且つ前記バイト位置検出手段（２２）で検
出された同一バイト位置の直後から始まる前記辞書（１
２）の符号化済み文字列と前記最終文字の直後から始ま
る入力文字列とを比較し、該入力文字列に最長一致する
符号化済み文字列の部分列を検索する辞書検索手段（１
６）と、該辞書検索手段（１６）で検索された最長一致する部分
列の開始位置と一致バイト長との組を符号化する符号化
手段（１８）と、を設けたことを特徴とするユニバーサ
ル符号を用いたデータ圧縮方式。
【請求項５】請求項４記載のユニバーサル符号を用いた
データ圧縮方式に於いて、入力データの１語を、バイト数１の１バイト文字と異な
るバイト数２の２バイト文字の２通りで表現し、更に１
バイト文字及び２バイト文字の識別コードを先頭バイト
に備えた入力文字列を対象に符号化を行うことを特徴と
するユニバーサル符号を用いたデータ圧縮方式。