JPH05341953A

JPH05341953A - データ圧縮方法及び装置

Info

Publication number: JPH05341953A
Application number: JP4152563A
Authority: JP
Inventors: Yoshiyuki Okada; 佳之岡田; Shigeru Yoshida; 茂吉田; Yasuhiko Nakano; 泰彦中野; Hirotaka Chiba; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1992-06-12
Filing date: 1992-06-12
Publication date: 1993-12-24

Abstract

(57)【要約】【目的】辞書に登録した符号化済みの部分列により符号
化を行うデータ圧縮方法及び装置に関し、辞書検索、辞
書登録およびインデックス符号化を並列処理により高速
化する。【構成】符号化済み文字列を例えば文字列の先頭文字別
に登録する複数の辞書１６−１〜１６−ｎを設け、辞書
並列検索手段１０により複数の辞書１６−１〜１６−ｎ
から入力文字列と最長一致する登録文字列を検索すると
共に検索を終了する以前に、次の文字から始まる入力文
字列と最長一致する登録文字列の検索を開始し、辞書並
列登録手段１２で検索済みの最長一致する文字列に不一
致の最終文字を加えた文字列を、文字列の先頭文字別に
分けられた辞書に登録し、更にインデックス符号化手段
１４で検索により最長一致した文字列のインデックス符
号化する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、辞書に登録した符号化
済みの部分列により符号化を行うデータ圧縮方法及び装
置に関する。近年、文字コード，ベクトル情報，画像な
ど様々な種類のデータがコンピュータで扱われるように
なっており、扱われるデータ量も急速に増加してきてい
る。大量のデータを扱うときは、データの中の冗長な部
分を省いてデータ量を圧縮することで、記憶容量を減ら
したり、速く伝送したりできるようになる。

【０００２】様々なデータを１つの方式でデータ圧縮で
きる方法としてユニバーサル符号化が提案されている。
ここで、本発明の分野は、文字コードの圧縮に限らず、
様々なデータに適用できるが、以下では、情報理論で用
いられている呼称を踏襲し、データの１ワード単位を文
字と呼び、データが任意の複数ワードつながったものを
文字列と呼ぶことにする。

【０００３】ユニバーサル符号の代表的な方法として、
ジブ−レンペル（Ziv-Lempel）符号がある（詳しくは、
例えば、宗像「Ziv-Lempelのデータ圧縮法」、情報処
理、Vo1.26,No.1,1985年を参照のこと）。ジブ−レンペル符号ではユニバーサル型と、増分分解型（Incremental parsing) の２つのアルゴリズムが提案されている。

【０００４】さらに、ユニバーサル型アルゴリズムの改
良として、ＬＺＳＳ符号、（T.C.Bell,"Better OPM/L T
ext Compression",IEEE Trans. on Commun.,Vo1.COM-3
4,No.12 Dec.1986 参照）。また、増分分解型アルゴリ
ズムの改良としては、ＬＺＷ（Lempel-Ziv-Welch) 符号
がある（T.A.Welch,"A Technique for High-Performanc
e Data Compression",Computer,June 1984参照）。

【０００５】これらの符号の内、高速処理ができること
と、アルゴリズムの簡単さからＬＺＷ符号が記憶装置の
ファイル圧縮などで使われるようになっている。

【０００６】

【従来の技術】図１５にＬＺＷ符号の符号化アルゴリズ
ムの詳細を示し、また図１６にＬＺＷ符号の復号化アル
ゴリズムの詳細を示す。ＬＺＷ符号化は、書き替え可能
な辞書をもち、入力文字コードのデータ中を相異なる文
字列に分け、文字列の出現した順に番号を付けて辞書に
登録すると共に、現在入力している文字列を辞書に登録
してある最長一致する文字列の番号で表して、符号化す
るものである。

【０００７】図１５のＬＺＷ符号化処理では、ステップ
Ｓ１で予め全文字につき一文字からなる文字列を初期値
として登録してから符号化を始める。ステップＳ２では
入力した最初の文字Ｋを辞書検索する参照番号ωとし、
これを語頭文字列（prefix string)とする。次にステッ
プＳ３で入力データの次の文字Ｋを読み込み、ステップ
Ｓ４ではステップＳ２で求めた語頭文字列ωにステップ
Ｓ３で読み込んだ文字Ｋを加えた文字列ωＫが現在の辞
書にあるか否か検索する。

【０００８】ステップＳ４で文字列ωＫが辞書にあれ
ば、ステップＳ５で文字列ωＫを参照番号ωに置き換
え、ステップＳ５で入力データが終了かどうかを判断し
た後、再びステップＳ３に戻って文字列ωＫが辞書から
探せなくなるまで最長一致する文字列の検索を続ける。
次にステップＳ４で文字列ωＫが辞書になければ、ステ
ップＳ７に進んでステップＳ２で求めた文字Ｋの参照番
号ωを符号語code（ω）として出力し、また文字列ωＫ
に新たな参照番号を付加して辞書に登録し、さらにステ
ップＳ２の入力文字Ｋを参照番号ωに置き換えるととも
に、辞書アドレスＮをインクリメントして、ステップＳ
５のチェックを受けた後、ステップＳ２に戻って次の文
字Ｋを読み込む。

【０００９】図１７および図１８を参照してＬＺＷ符号
化を具体的に説明すると次にようになる。尚、図１７，
図１８では説明を簡単にするためａｂｃの３文字の組合
せからなるデータを符号化する場合を取上げている。ま
ず図１７の入力データは左から右へ読み込む。最初の文
字ａを入力したとき、辞書にはａの他に一致する文字列
がないので、出力符号（参照番号ω）を符号語として出
力する。そして、拡張した文字列ａｂに参照番号４をつ
けて辞書に登録する。実際の登録は文字列（１ｂ）の形
となる。

【００１０】続いて２番目のｂが文字列の先頭になる。
辞書にはｂの他に一致する文字列がないので、参照番号
２を符号語として出力し、拡張した文字列ｂａを、実際
には２ａの形で参照番号５をつけて辞書に登録する。３
番目のａが次の文字列の先頭になる。以下、同様にこの
処理を続ける。図１６の復号化処理は図１５の符号化処
理の逆の操作を行う。

【００１１】図１６の復号化では、ステップＳ１におい
て符号化と同様に予め辞書に全文字につき一文字からな
る文字列を初期値として登録してから復号を始める。ま
ずステップＳ２で最初の符号（参照番号）を読み込み、
現在の符号ＣＯＤＥをＯＬＤｃｏｄｅとし、最初の符号
は既に辞書に登録された一文字の参照番号いずれかに該
当することから、入力符号ＣＯＤＥに一致する文字ｃｏ
ｄｅ（Ｋ）を探し出し、文字Ｋを出力する。なお、出力
した文字（Ｋ）は後の例外処理のためcharにセットして
おく。

【００１２】次にステップＳ３に進んで次の符号を読み
込んでＣＯＤＥにＮＥＷｃｏｄｅとしてセットする。次
にステップＳ４に進み、ステップＳ３で入力された符号
ＣＯＤＥが辞書に定義（登録）されているか否かチェッ
クする。通常、入力した符号語は前回までの処理で辞書
に登録されているため、ステップＳ５に進んで符号ＣＯ
ＤＥに対応する文字列ｃｏｄｅ（ωＫ）を辞書から読み
出し、ステップＳ６で文字列Ｋを一時的にスタックし、
参照番号ｃｏｄｅ（ω）を新たなＣＯＤＥとして再度ス
テップＳ５に戻し、このステップＳ５，ステップＳ６の
手順を再帰的に参照番号ωが一文字に至るまで繰り返
し、最後にステップＳ７に進んでステップＳ６でスタッ
クした文字をＬＩＦＯ（Last In Fast Out)形式でポッ
プアップして出力する。

【００１３】同時にステップＳ７において、前回使った
符号ωと今回復元した文字列の最初の一文字Ｋを組
（ω，Ｋ）と表した文字列に、新たな参照番号を付加し
て辞書に登録する。なお、ステップＳ４において登録さ
れていない符号（符号化において直前の参照番号を参照
する場合に起きる）場合、ステップＳ９にて、ＯＬＤｃ
ｏｄｅをＣＯＤＥに、ｃｏｄｅ（ＯＬＤｃｏｄｅ，ｃｈ
ａｒ）をＮＥＷｃｏｄｅに戻した後にステップＳ５に進
むようにする。

【００１４】図１９を参照して復号化処理を具体的に説
明すると次のようになる。尚、図１９も説明を簡単にす
るためａｂｃの３文字の組合せからなるデータを復号化
する場合を取上げている。まず、図１９で最初の入力符
号は１であり、一文字ａ，ｂ，ｃについては既に参照番
号１，２，３として図１８に示すように辞書に登録され
ているため、辞書の参照により符号１に一致する参照番
号の文字列ａに置き換えて出力する。次の符号２につい
ても同様にして文字ｂに置き換えて出力する。このとき
前回処理した符号と今回復号した最初の一文字ｂとを組
み合わせた（１ｂ）に新たな参照番号４を付加して辞書
に登録する。

【００１５】３番目の符号４は辞書の探索により１ｂか
らａｂと置き換えて文字列ａｂを出力する。同時に前回
処理した符号２と今回復号した文字列の１番目の文字ａ
との組合せた文字列２ａ（＝ｂａ）を新たな参照番号５
を付加して辞書に登録する。以下同様に、この処理を繰
り返す。ただし、図１９の復号化では次の例外処理があ
る。この例外処理は、第６番目の入力符号８の復号で生
ずる。符号８は復号時に辞書に定義されておらず、復号
できない。

【００１６】この場合には、前回処理した符号５に前回
復号した文字列ｂａの最初の一文字ｂを加えた文字列５
ｂを求め、さらに２ａｂ，ｂａｂと置き換えられて出力
される。そして、文字列の出力語に前回の符号語５に今
回復号した文字列の文字ｂを加えた文字列５ｂに参照番
号８を付加して辞書に登録する。この例外処理は図１６
の復号化処理フローのステップＳ４，ステップＳ９の処
理を通じて行われ、最終的にステップＳ７で文字列の出
力と新たな文字列に参照番号を付加した辞書への登録が
行われる。

【００１７】尚、図１５，図１６の符号化および復号化
処理は、同じ辞書を作り出しながら行う。［分割辞書方式によるＬＺＷ符号化］さらに、本発明者
は、ＬＺＷ符号化より高圧縮率が得られる分割辞書方式
を既に提案している（特願平２−２７５８３６号）。以
下、この分割辞書方式について、次に説明する。

【００１８】従来のＬＺＷ符号では、入力文字コードの
データ中を相異なる文字列に分けて符号化するとき、現
在符号化中の各文字列は以前の文字列とは独立に出現す
るものとして符号化する形式を取っている。ＬＺＷ符号
では、無記憶情報源の符号化には問題ない。しかし、実
際の文章等、多くのデータは記憶情報源と見なされ、Ｌ
ＺＷ符号化では文字列が出現する履歴を十分利用できて
おらず、データ圧縮後も文字列の出現の従属関係につい
ては冗長性が残るという欠点があった。

【００１９】ここで図１５のアルゴリズムに従ってＬＺ
Ｗ符号化した場合には図２０に示す木構造の辞書が作成
される。この場合、辞書の探索木の根（root) は空であ
り、ＬＺＷ符号では符号化中の文字列に対して以前に出
現した文字列の履歴は考えられていない。従って図２１
のように辞書から検索された最長一致する文字列を示す
符号としてのインデックスｉ₁ ，ｉ₂ ，ｉ₃ は独立して
おり、相関関係はない。

【００２０】分割辞書方式は、このような事情に鑑みて
なされたもので、符号化文字列に対して直前の文字列の
最終文字群（最終文字の１つ前、２つ前・・・の文字を
含めてもよい）との従属関係を辞書に取り込むことによ
って、文字列間の冗長性を削減し、圧縮率を高めようと
したものである。具体的には、図２２に示すように辞書
を文字数２５６個に分けて索引（０）〜（２５５）をつ
け、直前の文字列の最終文字を索引にして個別の辞書を
選択することが考えられる。各辞書には、索引の最終文
字につながる文字列のみを格納しておく。

【００２１】辞書の選択は図２３に示すように、符号化
が済んだ文字列の最終文字Ｐ０，Ｐ１，Ｐ２により次の
文字列の検索に使用する辞書の木、即ち分割辞書を選択
して最長一致する文字列を検索し、検索に使用した分割
辞書のインデックスｉ₁ （Ｐ０），ｉ₂ （Ｐ１），ｉ₃
（Ｐ２）、即ち分割辞書の参照番号で符号を表わす。こ
の結果、従来は辞書中の文字列を全体からみた参照番号
で指定していたのに対し、この方辞書分割方式を採れば
索引に繋がる系列の参照番号で指定できるので短く表現
でき、符号化率を向上させることができる。

【００２２】図２４は分割辞書方式によるＬＺＷ符号の
符号化アルゴリズムを詳細に示す。図２４の分割辞書方
式の符号化処理では、ステップＳ１で初期設定として、
出現する文字の総数Ｍ、分割辞書の個数Ａに対して、Ａ
個の分割辞書ＤｉにＭ個の文字を初期登録する。次に、
直前の文字列の最終文字で選択するＡ個の分割辞書の各
木ｉについて節点（インデックス）の個数をｉｎｄｃ
（ｉ）で管理する。また、初期化としてＡ個のｉｎｄｃ
（ｉ）をＭ＋１にセットする。

【００２３】更に、最初の文字Ｋを入力し、それをイン
デックス（語頭文字列）ωとすると共に直前文字列の最
終文字Ｋ１にも代入する。直前文字列の最終文字からの
履歴ＰＫを定義し、直前文字列の最終文字Ｋ１から使用
する辞書番号に対応づけるＬＵＴ（ルックアップテーブ
ル）を設置する。ステップＳ２で次の文字Ｋを入力す
る。ステップＳ３において、文字列ωＫが分割辞書Ｄpk
に存在するかどうかをチェックする。分割辞書Ｄpkに存
在する場合、ステップＳ４に進み、文字列ωＫを新たな
ω、文字ＫをＫ１に置き換え、ステップＳ５を経てステ
ップＳ２に戻り、最長一致する文字列を検索する。

【００２４】ステップＳ３において、文字列ωＫが分割
辞書Ｄｐｋに存在せず、最長一致する文字列の検索を終
了した場合、ステップＳ５に進む。ステップＳ５では、
分割辞書Ｄｐｋのｃｏｄｅ（ω）を出力すると共に、ア
ドレスｉｎｄｃ（ＰＫ）の分割辞書Ｄｐｋに文字列ωＫ
を登録した後、文字Ｋをωに代入し、ｉｎｄｃ（ＰＫ）
をインクリメント、履歴ＰＫをＬＵＴ（Ｋ１）としてス
テップＳ６に進む。

【００２５】図２６，図２７を参照して分割辞書方式の
符号化を具体的に説明する。まず、分割辞書として、辞
書ａ，辞書ｂ，辞書ｃを用意する。図２６の入力データ
は左から右へ読み込む。最初の文字ａを入力したとき、
前回符号化の最終文字ａを仮定してそれに続く文字列と
して辞書ａを検索し、ａの他に一致する文字列がないの
で、出力符号（参照番号１）符号語として出力すると共
に、拡張した文字列ａｂを参照番号４として辞書ａに登
録する。

【００２６】但し、実際の登録は文字列（１ｂ）の形と
なる。続いて２番目のｂが文字列の先頭になる。前回符
号化の最終文字がａであるので、辞書ａから検索し、辞
書ａにはｂの他に一致する文字列がないので、参照番号
２を符号語として出力し、拡張した文字列ｂａを実際に
は２ａの形で参照番号５をつけて辞書ａに登録する。

【００２７】次に３番目のａが次の文字列の先頭にな
る。この場合、前回符号化の最終文字がｂであるので、
辞書ｂから検索し、辞書ｂにはａの他に一致する文字列
がないので、参照番号１を符号語として出力し、拡張し
た文字列ａｂを実際には１ｂの形で参照番号４をつけて
辞書ｂに登録する。以下、同様にこの処理を続ける。次
に、分割辞書方式の復号化アルゴリズムを図２５に示
す。

【００２８】図２５において、まずステップＳ１の初期
設定は、図２４のステップＳ１と同じである。続いてス
テップＳ２において、最初の符号ＣＯＤＥを読み、ＯＬ
Ｄｃｏｄｅとする。符号ＣＯＤＥに対応する分割辞書Ｄ
ｐｋから文字Ｋを復元して出力すると共に、文字Ｋをｃ
ｈａｒ、履歴ＰＫをＰＫ１に、ＬＵＴ（Ｋ）をＰＫに代
入する。次にステップＳ３では次の符号ＣＯＤＥを読
み、ＮＥＷｃｏｄｅとする。ステップＳ４では、分割辞
書Ｄｐｋに符号ＣＯＤＥが定義されていない場合はステ
ップＳ５に進み、定義されている場合はステップＳ６に
進む。

【００２９】ステップＳ５では直前文字列の第１文字ｃ
ｈａｒを出力すると共に、符号ＣＯＤＥをＯＬＤｃｏｄ
ｅに戻し、またＮＥＷｃｏｄｅを分割辞書Ｄｐｋ内のＯ
ＬＤｃｏｄｅとｃｈａｒの組み合わせから得られるｃｏ
ｄｅに戻した後ステップＳ６に進む。ステップＳ６で
は、分割辞書ＤｐｋのインデックスＣＯＤＥに対応する
文字列ｃｏｄｅ（ωｋ）を辞書から読み出し、ステップ
Ｓ７で文字Ｋを一時的にスタックし、参照番号ｃｏｄｅ
（ω）を新たな符号ＣＯＤＥとして再度ステップＳ６に
戻する。

【００３０】このステップＳ６，ステップＳ７の手順を
再帰的に参照番号ωが一文字にいたるまで繰り返し、最
後にステップＳ８に進んでステップＳ７でスタックした
文字をＬＩＦＯ（Last In Fast Out) 形式でホップアッ
プして出力する。ステップＳ９では、直前の符号ＯＬＤ
ｃｏｄｅと直前文字列の最終文字Ｋとの組合せをアドレ
スｉｎｄｃ（ＰＫ１）の分割辞書Ｄｐｋ１に登録する。
次にインデックスｉｎｄｃ（ＰＫ１）の値をインクリメ
ントし、ステップＳ１０に進む。ステップＳ１０では、
復元文字列の第１文字をｃｈａｒ、復元文字列の最終文
字をＫ１に、履歴ｐｋをｐｋ１に、ＬＵＴ（Ｋ１）をＰ
Ｋに、ＮＥＷｃｏｄｅをＯＬＤｃｏｄｅに各々代入し、
ステップＳ１１を経てステップＳ３に戻る。

【００３１】図２８を参照して分割辞書方式の復号化処
理を具体的に説明すると次のようになる。まず図２８で
最初の入力符号は１であり、一文字ａ，ｂ，ｃについて
は既に参照番号１，２，３として図２７に示すように辞
書ａ，辞書ｂ，辞書ｃの各辞書に登録されているため、
前回の復号化された最後の文字をａと仮定して、辞書ａ
の参照により符号１に一致する参照番号の文字列ａに置
き換えて出力する。

【００３２】次の符号２についても同様にして文字ｂに
置き換えて出力する。このとき前回処理した符号と今回
復号した最初の一文字ｂとを組み合わせた（１ｂ）に新
たな参照番号４を付加して辞書ａに登録する。以下同様
に、この処理を繰り返す。図２９に従来のデータ圧縮方
式の回路ブロック図を示し、図３０に辞書検索に外部ハ
ッシュ法を採用した場合の処理手順を示す。

【００３３】図２９のデータ圧縮回路は、入力される文
字列と最長一致する登録文字列を検索する辞書検索手段
１００、検索後、最後の不一致データを加えた文字列を
登録する辞書登録手段１０２、最長一致の文字列を符号
化するインデックス符号化手段１０４および前記辞書検
索手段１００と辞書登録手段１０２の要求に従い検索お
よび登録が行われる辞書メモリ１０６から構成される。

【００３４】辞書検索に外部ハッシュ法のリスト構造を
利用したＬＺＷ符号化の処理フロー図を図３１に示す。
また図３２は外部ハッシュ法に従った辞書メモリの構成
を示したもので、図３３に示す符号化済み文字列のツリ
ー構造を例にとってＬＺＷ符号化の検索手順と登録手順
を具体的に示している。まず図３２において、辞書メモ
リは、ファーストメモリ(First Memory)１１００、ネク
ストメモリ（Next Memory)１２０及びネクストメモリ１
２０の拡張領域となる拡張メモリ(Extention Memory)１
３０で構成される。ここでファーストメモリ１１０が外
部ハッシュ法の索引（ディレクトリ）に対応し、ネクス
トメモリ１２０が連結リストの「next」に対応し、更に
拡張メモリ１３０が「name」に対応する。

【００３５】また図３３のツリー構造は、文字Ｋ₁₀，Ｋ
₂₁，Ｋ₂₂，・・・，Ｋ₄₁が既に登録され、破線で示すＫ
₄₂は新たに登録される場合を示している。このツリー構
造における階層は、図３１の処理において、ｉカウンタ
で示され、同じ階層における文字の数はｊカウンタで表
される。従って、各文字の登録アドレスはω_ijとして表
わされる。

【００３６】いま図３３の登録済みのツリー構造に含ま
れる文字列「Ｋ₁₀，Ｋ₂₂，Ｋ₃₂，Ｋ₄₂」が入力した時の図３１の処理フローに従った辞書検索に
よるＬＺＷ符号化及び登録を説明すると次のようにな
る。図３１において、まずステップＳ１で次の初期化処
理を行う。

【００３７】第１番目の文字を含むように辞書を初期
化する。例えばアルファベット２６文字であれば、文字
コードをそのままハッシュアドレスとして図３１のファ
ーストメモリに登録する。図３３の場合、ツリートップ
にある文字Ｋ₁₀がアドレスω ₁₀に登録された状態を意味
する。辞書への現在文字登録数ｎを前記で登録した文字数
にセットする。アルファベット２６文字の場合には、ｎ
＝２６となる。

【００３８】入力した最初の文字Ｋを語頭文字列ｉと
する。図３１の場合、最初の入力文字はＫ₁₀であること
から語頭文字列ｉ＝１とする。尚、以下の処理フロー中
では語頭文字列ｉをｉカウンタとして説明する。辞書検索用配列を０に初期化する。即ち、ファース
ト、ネクスト及び拡張のメモリの検索用配列はfirst[1,
Nmax],next［1,Nmax］、EXT ［1,Nmax］で表わされるの
で、これを０に初期化する。

【００３９】ステップＳ１の初期化処理が済んだなら
ば、ステップＳ２に進んで次の文字「Ｋ₂₂」を読込む。
次にステップＳ３で未処理の文字があるか否かチェック
する。全ての処理が終ればステップＳ１６に進んで符号
語ｃｏｄｅ（ω）を出力して処理を終了する。このとき
未処理文字があるのでステップＳ５〜ステップＳ９に示
す辞書検索ステップに進む。

【００４０】辞書検索ステップは、まずステップＳ５で
アドレスω_ijにそのときの語頭文字列ｉ＝１の値をセッ
トし、且つｊカウンタをｊ＝０にセットする。これによ
りファーストメモリのアドレスω_ij＝ω₁₀が生成され
る。次にステップＳ６でファーストメモリ１００のアド
レスω₁₀の内容を読むとアドレスω_ij＝ω₂₁が得られる
ので、ｉカウンタをｉ＝２にセットする。

【００４１】続いてステップＳ７に進み、ｉ＝０か否か
チェックし、このときｉ＝２であることからステップＳ
８に進み、ステップＳ６のファーストメモリ１００から
得られたアドレスω₂₁の拡張メモリ３００を参照して文
字「Ｋ₂₁」を読出し、ステップＳ２で得ている入力文字
「Ｋ₂₂」との一致を判別する。この場合、両者は不一致
であることからステップＳ９に進み、このときのｉカウ
ンタの値ｉ＝２をｊカウンタにセットしてｊ＝２とし、
またネクストメモリ２００のアドレスω₂₁に格納されて
いるアドレスω_ij＝ω₂₂のｉをｉカウンタにｉ＝２とし
てセットする。このため新たなアドレスω_ij＝ω₂₂が作
り出される。

【００４２】続いてステップＳ７に戻り、ｉ＝０をチェ
ックし、このときｉ＝２であることから再びステップＳ
８に進んでアドレスω₂₂の拡張メモリ３００の登録文字
「Ｋ ₂₂」を読出して入力文字「Ｋ₂₂」との一致を判別す
る。このとき両者は一致することからステップＳ２に戻
り、次の文字「Ｋ₃₂」を読込む。以下同様にしてステッ
プＳ５〜ステップＳ９の処理の繰り返しにより順番に辞
書検索が行なわれ、既に登録済みの文字「Ｋ₄₁」までの
検索処理が行われる。

【００４３】登録文字「Ｋ₄₁」の検索が終了してステッ
プＳ８で最後の入力文字「Ｋ₄₂」で不一致が判別された
場合には、ステップＳ９でｉ＝２にセットすると共に、
アドレスω₄₁のネクストメモリ２００の内容が０である
ことから、ｉ＝０にセットする。このためステップＳ７
に戻った時にｉ＝０が判別され、辞書検索ステップを抜
け出してステップＳ１０に進み、それまでの文字列「Ｋ
₁₀，Ｋ₂₂，Ｋ₃₂」を示すアドレスω₃₂を符号語code
(ω）として出力し、ステップＳ１１〜１４の辞書登録
ステップに進む。

【００４４】辞書登録ステップにあっては、まずステッ
プＳ１１で現在登録文字列ｎをｎ＝ｉ、即ちｎ＝４にセ
ットし、更にｎを１つインクリメントする。そして文字
「Ｋ ₄₂」を拡張メモリ３００のアドレスω_ij＝ω₄₂に登
録する。次にステップＳ１２でｊ＝０か否かをチェック
し、このときｊ＝２であることからステップＳ１４に進
み、ネクストメモリ２００のアドレスω₄₁に文字
「Ｋ₄₂」を登録したアドレスω₄₂を書込む。一方、ステ
ップＳ１２でｊ＝０であれば、即ち、ファーストメモリ
１１０への登録に移行した状態であれば、図３２のファ
ーストメモリ１１０のアドレスω₁₁，ω₂₂，ω₃₂に示す
ように、拡張メモリ１３０の文字登録アドレスを格納す
る。

【００４５】この文字登録ステップにおける文字
「Ｋ₄₂」の登録により、図３２のネクストメモリ１２０
及び拡張メモリ１３０は、下部に破線で仕切って示すア
ドレスω₄₁，ω₄₂の登録状態となり、図３３に示すツリ
ー構造に新たな文字「Ｋ₄₂」のアドレスω₄₂が追加され
たことになる。尚、図３２では、アドレスω₄₁について
は説明の都合上、検索と登録で重複して示している。

【００４６】ステップＳ１１〜ステップＳ１４の辞書登
録ステップが終了すると、ステップＳ１５で登録した文
字「Ｋ₄₂」を新たな語頭文字列ｉ、即ち、ｉカウンタの
値にセットし、再びステップＳ２に戻って文字「Ｋ₄₂」
をツリートップとして、その後に続く文字列の辞書検索
に移行する。

【００４７】

【発明が解決しようとする課題】しかしながら、このよ
うな従来のデータ圧縮回路にあっては、図３０の処理手
順に示すように、次の問題がある。一組の文字列に対する辞書検索，辞書登録，インデッ
クス符号化の過程を一通り経過した後に、次の組の文字
列の処理を行うという、いわばバッチ・シリアル処理を
行っている（プロセッサによる通常のプログラム動作に
相当する）。

【００４８】辞書検索として外部ハッシュによる検索
を採用した場合、１文字に対する検索に幾つかのサイク
ルを必要とする。辞書メモリが１つのため、並列的に辞書検索を行った
り、辞書検索と登録を同時にアクセスすることが困難で
ある。このため、結果として従来のデータ圧縮回路では検索、
登録、符号化を１つずつ順番に行うバッチ・シリアル処
理を余儀無くされており、高速処理に適さない問題があ
った。

【００４９】本発明は、このような従来の問題点に鑑み
てなされたもので、辞書検索、辞書登録およびインデッ
クス符号化を並列処理により高速化できるようにしたデ
ータ圧縮方式を提供することを目的とする。

【００５０】

【従来技術の問題点を解決するための手段】図１は本発
明の原理説明図である。まず本発明は、入力文字列に最
長一致する辞書に登録した符号化済みの部分列を検索し
て辞書の参照番号により符号化するデータ圧縮方法に於
いて、入力文字列と最長一致する辞書の登録文字列を検
索を終了する以前に、次に検索する入力文字列と最長一
致する登録文字列の検索を開始することを特徴とする。

【００５１】ここで、次に検索する入力文字列として
は、現在検索している文字列の先頭文字の次の文字から
始まる入力文字列とする。また本発明は、符号化済み文
字列を異なる部分列に分けて、この部分列を辞書に登録
しておき、入力文字列に最長一致する辞書中の部分列を
検索して辞書の参照番号により符号化するデータ圧縮装
置を対象とする。

【００５２】このようなデータ圧縮装置につき本発明
は、符号化済み文字列をその文字列の先頭文字別に登録
する複数の辞書１６−１〜１６−ｎと、複数の辞書１６
−１〜１６−ｎから入力文字列と最長一致する登録文字
列を検索すると共にその検索を終了する以前に、次の文
字から始まる入力文字列と最長一致する登録文字列の検
索を開始する辞書並列検索手段１０と、辞書並列検索手
段１０で検索された最長一致する文字列に次の入力一文
字を加えた文字列を、その文字列の先頭文字別に分けら
れた辞書に登録する辞書並列登録手段１２と、辞書並列
検索手段１０の検索により最長一致した文字列のインデ
ックスを符号化データとして出力するインデックス符号
化手段１４とを備えたことを特徴とする。

【００５３】また本発明のデータ圧縮装置は、符号化済
み文字列を直前文字列の最終文字の履歴に従って登録し
た複数の辞書１６−１〜１６−ｎの並列検索により符号
化することを特徴とする。このような本発明のデータ圧
縮装置に設けた、辞書並列検索手段１０、辞書並列登録
手段１２およびインデックス符号化手段１４の間ではパ
イプライン処理を行う。

【００５４】

【作用】このような構成を備えた本発明のデータ圧縮方
法及び装置では、同時にアクセスできる複数の辞書に対
して並列検索を行い、検索後に次の入力一文字を加えた
文字列を検索と並列して辞書に登録し、更に検索で得ら
れた最長一致する文字列をインデックス符号化すること
ができる。

【００５５】このため本発明によれば、辞書検索，辞書
登録，インデックス符号化の各過程をパイプラインで並
列処理できる。特に辞書検索を並列に行うため、同時に
アクセスできる辞書メモリを複数個持つような木の構成
を採用する。具体的には、ＬＺＷ符号化の場合は、文字
列の先頭文字別に複数辞書を構成することで、異なる辞
書に対して並列検索を行うことができる。また分割辞書
方式の場合には、直前文字列の最終文字別に複数辞書を
構成することで、異なる辞書に対して並列検索を行うこ
とができる。

【００５６】

【実施例】図２は本発明のデータ圧縮方法が適用される
装置構成の一実施例を示した実施例構成図である。図２
において、１６−１，１６−２，・・・１６−ｎは辞書
メモリであり、平行してメモリアクセスを行うことがで
きる。１０は辞書並列検索回路であり、同時にアクセス
可能な辞書メモリ１６−１〜１６−ｎから入力文字列と
最長一致する登録文字列を検索すると共に、この検索を
終了する以前に、次の文字から始まる入力文字列と最長
一致する登録文字列の検索を開始することができる。１
２は辞書並列登録回路であり、辞書並列検索回路１０で
検索された最長一致する文字列に次の入力一文字を加え
た文字列を辞書検索と並行して辞書メモリ１６−１〜１
６−ｎのいずれかに登録することができる。

【００５７】更に１４はインデックス符号化回路であ
り、辞書並列検索回路１０の検索により得られた最長一
致した文字列の辞書登録番号によりインデックス符号化
を行って符号データを出力する。具体的には、辞書並列
検索回路１０、辞書並列登録回路１２及びインデックス
符号化回路１４はそれぞれの処理過程をパイプラインで
並列処理するようになる。

【００５８】ここで、図２の実施例においてＬＺＷ符号
化を行う場合には図３に示すように文字列の先頭文字別
に辞書１〜２５６で示す複数の辞書メモリ１６−１〜１
６−２５６を構成する。一方、分割辞書方式について本
発明を適用した場合には、図１０に示すように直前文字
列の最終文字別に辞書１〜辞書２５６で示す複数の辞書
メモリ１６−１〜１６−２５６を構成し、異なる辞書に
対し並列検索をできるようにする。

【００５９】次に図３の文字列の先頭文字別に複数の辞
書メモリ１６−１〜１６−２５６を構成することで、異
なる辞書に対し並列検索を可能とする場合の本発明によ
るＡＺＷ符号化における辞書検索及び登録のアルゴリズ
ムを図４のフローチャートに示す。図４のＬＺＷ符号化
処理にあっては、まずステップＳ１で予め全文字に付き
１文字からなる文字列を全ての辞書に初期値として登録
してから符号化を始める。ここで文字数をＮとすると、
各辞書の先頭アドレスＮはＮ＝Ｍとなっている。

【００６０】続いてステップ２に進み、入力した最初の
文字Ｋを第１番目の辞書検索を行う参照番号ω₁ とする
と共に、同じく１番目の検索文字列の先頭文字をＨ₁ と
する。また、次の文字Ｋを入力し、２番目の辞書検索を
行う参照番号をω₁ とすると共に、２番目の検索文字列
の先頭文字をＨ₂ とし、更に１番目の検索で一致、不一
致の対象となる文字をＫ₁ とする。

【００６１】次にステップＳ３で入力データの次の文字
（３番目の文字）を読み込み、この文字Ｋを第２番目の
辞書検索で一致または不一致の対象となる文字Ｋ₂ とす
る。次のステップＳ４では、第１番目の検索文字列の先
頭文字Ｈと第２番目の検索文字列の先頭文字Ｈ₂ を比較
し、Ｈ₁ ＝Ｈ₂ と同じであれば同じ辞書メモリをアクセ
スすることはできないので、並列検索なしとしてステッ
プＳ５のみに進む。

【００６２】また、１番目と２番目の検索文字列の先頭
文字Ｈ₁ とＨ₂ が同じでない場合には、異なる辞書メモ
リをアクセスすることができるので、並列検索ありとし
てステップＳ５とＳ６の両方に進む。ステップＳ５にあ
っては、第１番目の辞書検索を行い、語頭文字列ω₁ に
読み込んだ文字Ｋ₁ を加えた文字列ω₁ Ｋ₁ が辞書Ｈ₁
にあるか否か検索する。ステップＳ６では第２番目の辞
書検索を行い、語頭文字列ω₂ に読み込んだ文字Ｋ₂を
加えた文字列ω₂ Ｋ₂ が辞書Ｈ₂ にあるか否か検索す
る。

【００６３】続いてステップＳ７に進み、ステップＳ５
及びＳ６の並列検索の結果に従って、図５に示すような
４つの条件〜に対し３つの処理（ａ）（ｂ）（ｃ）
のいずれかを選択する。（１）文字列ω₁ Ｋ₁ が辞書Ｈ₁ にあるとして条件が
成立する場合、ステップＳ８に進む。この場合、他の条
件〜の成立の有無は問わない。

【００６４】（２）文字列ω₁ Ｋ₁ が辞書Ｈ₁ に存在せ
ずに条件が成立し、且つ文字列ω ₂ Ｋ₂ が辞書Ｈ₂ に
存在するとして条件が成立する場合、処理（ｂ）が選
択されてステップＳ９に進む。（３）文字列ω₁ Ｋ₁ が辞書Ｈ₁ に存在せずに条件が
成立し、且つ文字列ω ₂ Ｋ₂ の辞書Ｈ₂ に存在しないと
して条件が成立する場合、処理（ｃ）が選択されてス
テップＳ１０に進む。

【００６５】このような並列検索における処理（ａ）〜
（ｃ）のいずれかに対応したステップＳ８，Ｓ９，Ｓ１
０の各処理は次のようになる。まず、並列検索で文字列
ω₁ Ｋ₁ が辞書Ｈ₁ に存在した場合のステップＳ８の処
理にあっては、文字列ω₂ Ｋ₂ の検索がまだ続いている
場合にはこの検索を中止する。

【００６６】そして文字列ω₁ Ｋ₁ を参照番号ω₁ に置
き換え、次の文字Ｋ₂ を２番目の辞書検索を行う参照番
号ω₂ に置き換え、更に第２番目の検索文字列の先頭文
字Ｈ ₂ に置き換え、最終的に第１番目の検索で一致また
は不一致の対象となる文字Ｋ ₁ としてステップＳ１１に
進む。ステップＳ１１にあっては、入力データが終了し
たかどうかを判断した後、再びステップＳ３に戻って文
字列ω₁ Ｋ₁ が辞書から探せなくなるまで最長一致とな
る文字列の検索を続ける。

【００６７】次に文字列ω₁ Ｋ₁ が辞書Ｈ₁ に存在せ
ず、文字列ω₂ Ｋ₂ が辞書Ｈ₂ に存在することで選択さ
れた処理（ｂ）によるステップＳ９にあっては、文字列
ω₁ Ｋ ₁ が辞書Ｈ₁ にないので、参照番号ω₁ を符号語
ｃｏｄｅ（ω₁ ）として出力し、また文字列ω₁ Ｋ₁ に
新たな参照番号を付けてＤ（Ｎ）に登録する。続いて辞
書のアドレスＮを１つインクリメントし、先頭文字Ｈ₂
をＨ₁ に置き換える。更に文字列ω₂ Ｋ₂ が辞書Ｈ₂ に
存在するので文字列ω₂ Ｋ₂ を新たな参照番号ω₁ とし
て置き換えると共に、次の文字Ｋを入力して、この入力
文字Ｋを２番目の辞書検索を行う参照番号ω₂ に置き換
え、次いで第２番目の検索文字列の先頭文字Ｈ₂ に置き
換え、更に第１番目の検索で一致または不一致の対象と
なる文字Ｋ₁ としてステップＳ１１に進む。

【００６８】更に、文字列ω₁ Ｋ₁ が辞書Ｈ₁ に存在し
且つ文字列ω₂ Ｋ₂ も辞書Ｈ₂ に存在しないとして選択
された処理（ｂ）によるステップＳ１０にあっては、文
字列ω₁ Ｋ₁ が辞書Ｈ₁ にないので、参照番号ω₁ を符
号語ｃｏｄｅ（ω₁ ）として出力し、また文字列ω₁ Ｋ
₁ に新たな参照番号を付けて辞書Ｄ（Ｎ）に登録し、辞
書アドレスＮを１つインクリメントする。

【００６９】同時に文字列ω₂ Ｋ₂ も辞書Ｈ₂ にないの
で、参照番号ω₂ を符号語ｃｏｄｅ（ω₂ ）として出力
し、また文字列ω₂ Ｋ₂ に新たな参照番号を付けて辞書
Ｄ（Ｎ）に登録し、辞書アドレスＮを１つインクリメン
トする。次に文字Ｋを参照番号ω₁ 及び第１番目の検索
文字列の先頭文字Ｈ₁ とし、次の文字Ｋを入力し、この
入力文字Ｋを第２番目の辞書検索を行う参照番号ω₂ に
置き換え、次いで第２番目の検索文字列の先頭文字Ｈ₂
に置き換え、更に第１番目の検索で一致または不一致の
対象となる文字Ｋ₁ としてステップＳ１１に進む。

【００７０】以上の検索処理の途中で、ステップＳ１１
でデータ終了を判別するとステップＳ１２に進み、符号
語ｃｏｄｅ（ω₁ ）を出力して一連のアルゴリズムを終
了する。一方、先頭文字Ｈ₁ とＨ₂ が等しい並列検索な
しにあっては、ステップＳ５，ステップＳ７を介して処
理（ａ）のみが選択され、ステップＳ８に進むことにな
る。

【００７１】次に図６を参照して図４に示した本発明に
よるＬＺＷ符号化の辞書検索及び登録アルゴリズムを具
体的に説明する。尚、説明を簡単にするため、入力文字
ａ，ｂ，ｃの３つの場合を例にとっている。ここで、図
７は図６のＬＺＷ符号化に使用される３つの辞書を示し
ており、文字ａ，ｂ，ｃ毎に辞書が設けられ、各辞書に
は文字ａ，ｂ，ｃが初期登録されている。

【００７２】この状態で、図８に示すように左側を先頭
とした文字列「ａｂａｂｃｂａ，・・・」が入力したと
する。まず先頭の１文字ａと２番目の文字ｂとを比較す
ると、両者は不一致であることから並列検索が可能であ
り、図７の辞書ａ及び辞書ｂの並列検索を行う。１番目
の文字ａについては辞書ａに既に登録されていることか
ら登録番号１を出力符号として出力する。また辞書ｂに
も２番目の文字ｂが既に登録されていることから登録番
号２を出力符号として出力する。

【００７３】続いて１番目の文字ａに次の文字ｂを加え
た文字列ａｂが図７の辞書ａに存在するか否か検索し、
この場合、文字列ｂは存在しないことから辞書検索を中
止し、文字列ａｂに登録番号４を付けて辞書ａに登録す
る。実際には１ｂの形で登録する。同時に２番目の文字
ｂに次の文字ａを加えた文字列ｂａが辞書ｂに存在する
か否か検索し、この時点では辞書ｂに文字列ｂａは存在
しないことから登録番号５を付して辞書ｂに登録する。
実際には２ａの形で登録する。

【００７４】以上の処理で先頭から２番目までの文字ａ
ｂの符号化が終了する。次に３番目の文字ａと４番目の
文字ｂを入力して一致、不一致を比較すると、不一致で
あることから並列検索が可能である。このため、入力デ
ータ１側にあっては、先頭文字ａにより図７の辞書ａを
参照し、文字ａが存在することから次の文字ｂを加えた
文字列ａｂが辞書ａに存在するか検索し、文字列ａｂも
存在することから次の文字ｃを加えた文字列ａｂｃが辞
書ａに存在するか否か検索する。

【００７５】しかし、文字列ａｂｃは辞書ａには存在し
ないため、文字列ａｂを最長文字列として登録番号４を
符号として出力する。そして、文字列ａｂに次の１文字
ｃを加えた文字列ａｂｃを辞書ａに登録番号６として登
録する。実際には４ｃの形で登録する。同時に、入力デ
ータ２側にあっては４番目の文字ｂにより辞書ｂを選択
して文字ｂが存在することを検索し、文字ｂに次の文字
ｃを加えた文字列ｂｃの検索に入る。このとき入力デー
タ１側で文字列ｂｃが最長文字列として検索され、且つ
文字列ａｂｃの登録が完了することから、入力データ２
側にあっては、この時点で辞書ｂの検索を中止し、次の
文字ｃを先頭文字として図７の辞書ｃを検索する。辞書
ｃには文字ｃが既に登録されていることから登録番号３
を符号として出力する。

【００７６】以下同様に入力データ１側の文字に対し次
の文字を入力データ２側の文字として両者が一致するか
否か比較し、一致すれば並列検索を繰り返す。図８の１
１番目からは文字ａが連続しており、この場合、入力デ
ータ１側と入力データ２側の文字は同一文字であり、並
列検索はできず、全て図７の辞書ａを選択して検索する
ようになり、登録番号１０，１１，１２に示すように文
字ａを２つ，３つ，４つと順番に延ばした同一文字が連
続する文字列の辞書登録が行われる。

【００７７】図９は辞書検索に外部ハッシュ法を用いた
場合の本発明のＬＺＷの並列検索及び登録処理の手順を
示した説明図である。ここで・・・を（１）
（２）（３）・・・として説明すると次のようになる。（１）１バイト目と２バイト目のファーストｆが共に不
一致なので並列検索を開始する。

【００７８】（２）１バイト目のネクストｎは不一致、
２バイト目のネクストｎは一致。（３）１バイト目のネクストｎが一致、２バイト目は既
に一致したので待機する。（４）１バイト目の検索に成功したので２バイト目を現
在辞書メモリ側として検索開始する。同時に２バイト目
の次辞書メモリによる検索を中止し、次の３バイト目の
検索開始する。ここで２バイト目と３バイト目のファー
ストは不一致なので並列検索を開始する。

【００７９】（５）２バイト目のネクストｎ不一致、３
バイト目のネクストｎも不一致。（６）２バイト目のネクストｎが一致、３バイト目のネ
クストｎは不一致。（７）２バイト目の検索に成功したので３バイト目を現
在辞書メモリ側として検索開始する。同時に３バイト目
の次辞書メモリ側の検索を中止し、次の４バイト目の検
索を開始する。ここで３バイト目と４バイト目のファー
ストｆは不一致なでの並列検索を開始する。

【００８０】（８）３バイト目のネクストｎは不一致、
４バイト目のネクストｎは一致。（９）３バイト目はネクストｎが無しとなり検索終了、
４バイト目は検索成功につき待機する。（１０）１〜３バイト目の検索成功による辞書インデッ
クスに次の４バイト目を加えた文字列を現在辞書に登
録。同時に５バイト目と６バイト目のファーストｆが不
一致なので並列検索開始する。

【００８１】（１１）１〜３バイト目の検索成功による
辞書インデックを符号として出力。同時に５バイト目は
ネクストｎ無しで検索終了。６バイト目はネクストｎが
不一致。（１２）４〜５バイト目の検索成功による辞書インデッ
クスに次の６バイトを加えた文字列を現在辞書に登録。
同時に６バイト目の検索でネクストｎは不一致。

【００８２】（１３）４〜５バイト目の検索成功による
辞書インデックスを符号として出力。同時に６バイト目
の検索でネクストｎは一致となる。図１０は本発明の第２実施例における並列検索される複
数辞書の構成を示したもので、分割辞書方式の場合を例
にとっている。即ち、分割辞書方式を採用した場合に
は、図１０に示すように直前文字列の最終文字別に辞書
１〜辞書２５６で示す複数辞書メモリ１６−１〜１６−
２５６で構成することで、異なる辞書に対し並列検索を
できるようにする。

【００８３】図１１は図１０の分割辞書方式で直前文字
列の最終文字別に複数の辞書メモリ１６−１〜１６−２
５６を構成した場合の本発明によるＬＺＷの辞書検索及
び登録アルゴリズムを示す。図１１の分割辞書方式の符
号化処理では、ステップＳ１で初期設定として出現する
文字Ｍで決まる分割辞書の個数ａに対しａ個の分割辞書
ＤｉにＭ個の文字を初期登録する。

【００８４】次に直前の文字列の最終文字で選択するａ
個の分割辞書の各木ｉ、即ち図１０の破線で示す直前文
字列の最終文字で決まる接点（インデックス）の個数を
ｉｎｄｃ（ｉ）で管理する。この場合、まず初期化とし
てａ個のｉｎｄｃ（ｉ）をＮ＋１にセットする。次にス
テップＳ２において最初の文字Ｋを入力し、この文字を
第１番目のインデックス（語頭文字列）ω₁ とすると共
に、第１番目の直前文字列の最終文字Ｋ ₁ に０を代入す
る。また、直前文字列の最終文字Ｋ₁ からの履歴ＰＫ₁
を定義し、直前文字列の最終文字Ｋ₁ から使用する辞書
番号に対応付けるＬＵＰ（ルックアップテーブル）を設
置する。

【００８５】更に、次の文字Ｋを入力し、この入力文字
Ｋを２番目のインデックス（語頭文字列）ω₂ とすると
共に、１番目の検索の対象となる文字Ｋ₁ とする。更に
２番目の直前文字列の最終文字Ｋ₂ をＫ₁ に代入する。
第２番目の直前文字列の最終文字からの履歴ＰＫ₂ を定
義し、直前文字列の最終文字Ｋ₂ から使用する辞書番号
に対応付けるＬＵＴを設置する。

【００８６】続いてステップＳ３で次の文字Ｋを入力
し、２番目の検索対象となる文字Ｋ₂とする。次のステ
ップＳ４においては、１番目と２番目の直前文字列の最
終文字から履歴ＰＫ₁ とＰＫ₂ が同じであれば並列検索
なしとしてステップＳ５のみに進み、第１番目と第２番
目の直前文字列の最終文字からの履歴ＰＫ₁ とＰＫ₂ が
同じでない場合には並列検索ができることからステップ
Ｓ５とＳ６の両方に進む。

【００８７】ステップＳ５では第１番目の検索として文
字列ω₁ Ｋ₁ が分割辞書Ｄ_PK1 に存在するかどうかをチ
ェックする。またステップＳ６では第２番目の検索とし
て文字列ω₂ Ｋ₂ が分割辞書Ｄ_PK2 に存在するかどうか
をチェックする。このステップＳ５及びＳ６の条件に基
づき、ステップＳ７において図１２に従って次の（１）
〜（３）のいずれかの処理を選択する。（１）文字列ω₁ Ｋ₁ が分割辞書Ｄ_PK1 に存在する条件
の場合、処理（ａ）となるステップＳ８に進む。（２）文字列ω₁ Ｋ₁ が分割辞書に存在せずに条件が
成立し且つ文字列ω₂ Ｋ ₂ が分割辞書Ｄ_PK2 に存在して
条件が成立する場合、処理（ｂ）を選択してステップ
Ｓ９に進む。（３）文字列ω₁ Ｋ₁ が分割辞書Ｄ_PK1 に存在せずに条
件が成立し且つ文字列ω₂ Ｋ₂ が分割辞書Ｄ_PK2 に存
在しないことで条件が成立する場合、処理（ｃ）を選
択してステップＳ１０に進む。

【００８８】ステップＳ８に進んだ場合には、文字列ω
₂ Ｋ₂ の検索がまだ続いている場合にはこの検索を中止
する。そして文字列ω₁ Ｋ₁ を参照番号ω₁ に置き換
え、文字Ｋ₁ をＫ₂ とし、ＬＵＴ（Ｋ₂ ）を履歴ＰＫ₂
に代入する。更に文字Ｋ₂ を２番目の辞書検索を行う参
照番号ω₂ 、このω₂ を第１番目の直前文字列の最終文
字Ｋ₁ 、更に最終文字Ｋ₁ を第１番目の検索で一致また
は不一致の対象となる文字Ｋ₁ としてステップＳ１１に
進む。

【００８９】ステップＳ１１では入力データが終了かど
うかを判断した後、再びステップＳ３に戻って文字列ω
₁ Ｋ₁ が辞書Ｄ_PK1 から探せなくなるまで最長一致の検
索を続ける。またステップＳ９では文字列ω₁ Ｋ₁ が辞
書Ｄ_PK1 にないので、参照番号ω₁を符号語ｃｏｄｅ
（ω₁ ）として出力し、また文字列ω₁ Ｋ₁ に新たな参
照番号を付けて辞書Ｄ_PK1 に登録する。次に辞書Ｄ_PK1
のアドレスｉｎｄｃ（ＰＫ₁ ）をインクリメントする。

【００９０】また文字列ω₂ Ｋ₂ が辞書Ｄ_PK2 に存在す
るので文字列ω₂ Ｋ₂ を新たな参照番号ω₁ として置き
換えると共に、ＬＵＴ（Ｋ₁ ）を履歴ＰＫ₁ とし、次の
文字Ｋを入力してこの入力文字を２番目の辞書検索を行
う参照番号ω₂ 、第１番目の直前文字列の最終文字Ｋ₁
及び第１番目の検索で一致または不一致の対象となる文
字Ｋ₁ と置き換えてステップＳ１１に進む。

【００９１】更に、ステップＳ１０にあっては文字列ω
₁ Ｋ₁ が辞書Ｄ_PK1 にないので参照番号ω₁ を符号語ｃ
ｏｄｅ（ω₁ ）として出力し、また文字列ω₁ Ｋ₁ に新
たな参照番号を付けて辞書Ｄ_PK1 に登録する。次に辞書
Ｄ_PK1 のアドレスｉｎｄｃ（ＰＫ₁ ）を１つインクリメ
ントする。また、文字列ω₂ Ｋ₂ も辞書Ｄ_PK2 に存在し
ないので、参照番号ω₂ を符号語ｃｏｄｅ（ω₂ ）とし
て出力する。更に文字列ω₂ Ｋ₂ に新たな参照番号を付
けて辞書に登録し、辞書Ｄ_PK2 のアドレスｉｎｄｃ（Ｐ
Ｋ₂ ）を１つインクリメントする。

【００９２】次に文字Ｋを参照番号ω₁ とし、ＬＵＴ
（Ｋ₂ ）を履歴ＰＫ₁ に、また文字Ｋ ₁ をＫ₂ に、更に
ＬＵＴ（Ｋ₂ ）を履歴ＰＫ₂ に代入した後、次の文字Ｋ
を入力し、この入力文字Ｋを２番目の辞書検索を行う参
照番号ω₂ 、第１番目の直前文字列の最終文字Ｋ₁ 、及
び第１番目の検索で一致または不一致の対象となる文字
Ｋ₁ と置き換えてステップＳ１１に進む。

【００９３】ステップＳ１１でデータ終了を判別した場
合にはステップＳ１２に進み、符号語ｃｏｄｅ（ω₁ ）
を出力して一連の処理を終了する。図１３は図１１の分
割辞書方式における本発明によるＬＺＷ符号化の辞書検
索及び登録アルゴリズムを具体的に示したもので、図８
の入力文字列の処理を例にとっている。

【００９４】また、図１４は図１３の分割辞書方式のＬ
ＺＷ符号化で作成された辞書構成を示し、符号化済みの
直前文字列の最終文字の履歴別、この実施例にあっては
最終文字そのものに対応して辞書ａ，辞書ｂ，辞書ｃの
３つを設けている。図１３の処理は次のようになる。最初の履歴ＰＫは、ＰＫ＝ａ文字として検索を開始す
る。

【００９５】入力データに１番目の文字ａをセット
し、入力データｂに２番目の文字ｂをセットして並列検
索を開始する。入力データ１側にある１番目の入力文字
ａは初期値ＰＫ＝ａであることから図１４の辞書ａを選
択して検索する。文字ａの登録番号１として存在するの
で、次の２番目の文字ｂを加えた文字列ａｂを検索する
が存在しないため、文字列ａｂを登録番号４として辞書
ａに登録し、辞書ａの登録番号１を符号（ａ）１として
出力する。

【００９６】１番目の文字ａの検索に成功したので、
入力データ１側に次の２番目の文字ｂをセットし、この
とき１つ前の文字はａであることからＰＫ＝ａとして図
１４の辞書ａを選択して検索する。文字ｂは登録番号２
として存在するので、３文字目ａを加えた文字列ｂａを
検索する。しかし文字列ｂａは存在しないため、文字列
ｂａを登録番号５として辞書ａに登録し、辞書ａの登録
番号２を符号（ａ）２として出力する。

【００９７】このとき入力データ２側については、入
力データ１側で１番目の文字ａと２番目の文字ｂの検索
に成功しているので、３番目の文字ａをセットしてお
り、１つ前の最終文字がｂであることからＰＫ＝ｂとし
て図１４の辞書ｂを選択して検索する。辞書ｂには３番
目の文字ａが登録番号１として存在するので、次の４番
目の文字ｂを加えた文字列ａｂを検索するが存在しない
ため、辞書ｂに登録番号４として文字列ａｂを登録し、
辞書ｂの登録番号１を符号（ｂ）１として出力する。

【００９８】次に入力データ１側に４番目の文字ｂを
セットし、１つ前の文字がａであることからＰＫ＝ａと
して辞書ａを選択して検索する。辞書ａには文字ａが登
録番号１として存在することから、次の５番目の文字ｃ
を加えた文字列ｂｃを検索する。しかし文字列ｂｃは存
在しないため、文字列ｂｃを登録番号６として辞書ａに
登録し、次に辞書ａの登録番号２を符号（ａ）２として
出力する。

【００９９】同時に入力データ２側には５番目の文字ｃ
がセットされており、１つ前の文字はｂであることから
ＰＫ＝ｂとして辞書ｂを選択して並列検索する。辞書ｂ
には文字ｃが登録番号３として存在する。そこで次の６
番目の文字ｂを加えた文字列ｂｃを検索するが存在しな
い。このため文字列ｃｂを辞書ｂに登録番号５によって
登録した後、文字ｃを示す辞書ｂの登録番号３を符号
（ｂ）３として出力する。以下同様な処理を繰り返して
いく。

【０１００】

【発明の効果】以上説明してきたように本発明によれ
ば、同時にアクセス可能な複数の辞書を備え、入力文字
と最長一致する登録文字列の検索を終了する以前に、次
に検索されると予想される入力文字列と最長一致する文
字列の検索を開始することで高速処理を達成することが
できる。

【図面の簡単な説明】

【図１】本発明の原理説明図

【図２】本発明の実施例構成図

【図３】並列処理を可能とする本発明の辞書構成を示し
た説明図

【図４】図３の辞書構成を用いた本発明によるＬＺＷ符
号化アルゴリズムを示したフローチャート

【図５】図４の並列処理の選択条件を示した説明図

【図６】図３のＬＺＷ符号化における辞書検索と登録の
具体例を示した説明図

【図７】図６のＬＺＷ符号化で作成される辞書の説明図

【図８】図６のＬＺＷ符号化する入力文字列の説明図

【図９】図３のＬＺＷ符号化を外部ハッシュ法による辞
書検索を例にとって検索及び登録の手順を示した説明図

【図１０】並列処理を可能とする分割辞書方式による本
発明の辞書構成を示した説明図

【図１１】図１０の分割辞書方式を対象とした本発明に
よるＬＺＷ符号化アルゴリズムを示したフローチャート

【図１２】図１１の並列処理の選択条件を示した説明図

【図１３】図１１のＬＺＷ符号化における辞書検索と登
録の具体例を示した説明図

【図１４】図１３のＬＺＷ符号化で作成される辞書の説
明図

【図１５】従来のＬＺＷ符号化アルゴリズムを示したフ
ローチャート

【図１６】従来のＬＺＷ復号化アルゴリズムを示したフ
ローチャート

【図１７】図１５のＬＺＷ符号化による辞書検索と登録
の具体例を示した説明図

【図１８】図１７のＬＺＷ符号化で作成する辞書の説明
図

【図１９】図１６のＬＺＷ復号化による辞書検索と登録
の具体例を示した説明図

【図２０】従来のＬＺＷ符号化における辞書の木構成図

【図２１】従来のＬＺＷ符号による文字列の符号化説明
図

【図２２】辞書分割方式のＬＺＷ符号化における辞書の
木構成図

【図２３】辞書分割方式のＬＺＷ符号による文字列の符
号化説明図

【図２４】分割辞書方式によるＬＺＷ符号化アルゴリズ
ムを示したフローチャート

【図２５】分割辞書方式によるＬＺＷ復号化アルゴリズ
ムを示したフローチャート

【図２６】図２０の辞書分割方式によるＬＺＷ符号化の
具体例を示した説明図

【図２７】図２６のＬＺＷ符号化で作成される辞書の説
明図

【図２８】図２１の辞書分割方式によるＬＺＷ復号化の
具体例を示した説明図

【図２９】従来のデータ圧縮回路の構成図

【図３０】従来のデータ圧縮回路による処理手順を示し
た説明図

【図３１】外部ハッシュ法によるＬＺＷ符号化の辞書検
索と登録のアルゴリズムを示したフローチャート

【図３２】外部ハッシュ法による辞書検索句と登録の手
順を示した説明図

【図３３】図３２の辞書登録と検索における辞書の木構
造を示した説明図

【符号の説明】

１０：辞書弊決検索手段（辞書並列検索回路）１２：辞書並列登録手段（辞書並列登録回路）１４：分割辞書符号化手段（分割辞書符号化回路）１６−１〜１６−ｎ：辞書（辞書メモリ）

───────────────────────────────────────────────────── フロントページの続き (72)発明者千葉広隆神奈川県川崎市中原区上小田中1015番地富士通株式会社内

Claims

【特許請求の範囲】

【請求項１】入力文字列に最長一致する辞書に登録した
符号化済みの部分列を検索して辞書の参照番号により符
号化するデータ圧縮方法に於いて、入力文字列と最長一致する辞書の登録文字列を検索を終
了する以前に、次に検索する入力文字列と最長一致する
登録文字列の検索を開始することを特徴とするデータ圧
縮方法。
【請求項２】請求項１記載のデータ圧縮方法に於いて、
次に検索する入力文字列を、現在検索している文字列の
先頭文字の次の文字から始まる入力文字列とすることを
特徴とするデータ圧縮方法。
【請求項３】符号化済み文字列を異なる部分列に分け
て、該部分列を辞書に登録しておき、入力文字列に最長
一致する前記辞書中の部分列を検索して辞書の参照番号
により符号化するデータ圧縮装置に於いて、符号化済み文字列を、該文字列の先頭文字別に登録する
複数の辞書（１６−１〜１６−ｎ）と、前記複数の辞書（１６−１〜１６−ｎ）から入力文字列
と最長一致する登録文字列を検索すると共に該検索を終
了する以前に、次の文字から始まる入力文字列と最長一
致する登録文字列の検索を開始する辞書並列検索手段
（１０）と、前記辞書並列検索手段（１０）で検索された最長一致す
る文字列に次の入力一文字を加えた文字列を、該文字列
の先頭文字別に分けられた辞書に登録する辞書並列登録
手段（１２）と、前記辞書並列検索手段（１０）の検索により最長一致し
た文字列のインデックスを符号化データとして出力する
インデックス符号化手段（１４）と、を備えたことを特
徴とするデータ圧縮装置。
【請求項４】符号化済み文字列を異なる部分列に分け
て、該部分列を辞書に登録しておき、入力文字列に最長
一致する前記辞書中の部分列を検索して辞書の参照番号
により符号化するデータ圧縮装置に於いて、符号化済み文字列を直前文字列の最終文字の履歴に従っ
て登録した複数の辞書（１６−１〜１６−ｎ）と、前記複数の辞書（１６−１〜１６−ｎ）から入力文字列
と最長一致する登録文字列を検索すると共に該検索を終
了する以前に、次の文字から始まる入力文字列と最長一
致する登録文字列の検索を開始する辞書並列検索手段
（１０）と、前記辞書並列検索手段（１０）により検索した最長一致
する文字列に次の入力一文字を加えた文字列を該文字列
の直前文字列の最終文字の履歴に従って分けられた辞書
に登録する辞書並列登録手段（１２）と、前記辞書並列検索手段（１０）の検索により最長一致し
た文字列のインデックスを符号化データとしてするイン
デックス符号化手段（１４）と、を備えたことを特徴と
するデータ圧縮装置。
【請求項５】請求項３，４記載のデータ圧縮装置に於い
て、前記辞書並列検索手段（１０）、前記辞書並列登録
手段（１２）および前記インデックス符号化手段（１
４）の間でパイプライン処理を行うことを特徴とするデ
ータ圧縮装置。