JP3103172B2

JP3103172B2 - 辞書検索方法

Info

Publication number: JP3103172B2
Application number: JP32470591A
Authority: JP
Inventors: 佳之岡田; 茂吉田; 泰彦中野; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-12-09
Filing date: 1991-12-09
Publication date: 2000-10-23
Anticipated expiration: 2015-10-23
Also published as: JPH05158652A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はデータ圧縮における辞書
検索方法に係わり、特に既に符号化済みの文字列を相異
なる部分文字列に分け、該部分文字列を辞書に登録して
おき、入力文字列と最長に一致する部分文字列を辞書か
ら検索し、該最長一致文字列の番号を指定して符号化す
るデータ圧縮における辞書検索方法に関する。

【０００２】近年、文字コード、ベクトル情報、画像な
どの様々な種類のデータがコンピュータで扱われるよう
になっており、扱われるデータ量も急速に増加してきて
いる。大量のデータを扱う時は、データの中の冗長な部
分を省いてデータ量を圧縮することで、記憶容量を減ら
したり、速く伝送したりできるようになる。様々なデー
タを１つの方式でデータ圧縮できる方法としてユニバー
サル符号化が提案されている。

【０００３】

【従来の技術】このユニバーサル符号は、情報保存型の
データ圧縮方法であり、データ圧縮時に情報源の統計的
な性質を予め仮定しないため、種々のタイプ（文字コー
ド、オブジェクトコードなど）のデータに適用すること
ができる。文書画像では、文字の輪郭等や文字間隔に類
似性があり、又、網点画像は網点周期性、網点形状の同
一性等が類似している。この類似性の持つ冗長性をユニ
バーサル符号により削減し、有効な圧縮を行うことがで
きる。尚、以下では、情報理論で用いられている呼称を
踏襲し、データの１ワード単位を文字と呼び、データが
任意ワードつながったものを文字列と呼ぶことにする。

【０００４】ユニバーサル符号の代表的な方法として、
ジブ−レンペル(Ziv-Lempel)符号がある。例えば、宗像
「Ziv-Lempelのデータ圧縮法」、情報処理、Vol.26,No.
1,1985年参照。このZiv-Lempel符号では、ユニバーサ
ル型と、増分分解型(Incremental parsing) の2つの
アルゴリズムが提案されており、ユニバーサル型アルゴ
リズムを用いた実用的な方法として、ＬＺＳＳ符号(T.
C. Bell,"Better OMP/LText Compression", IEEE Tran
s. on Commun., Vol. COM-34, No.12, Dec.1986)があ
り、又、増分分解型アルゴリズムを用いた実用的な方法
として、ＬＺＷ（Lempel- Ziv- Welch)符号がある(T.A.
Welch, " A Technique for High-Performance Data Co
mpression" , Computer, June 1984)。これらの符号の
内、高速処理できることと、アルゴリズムの簡単さから
ＬＺＷ符号が記憶装置のファイル圧縮などで使われるよ
うになっている。

【０００５】ＬＺＷ符号化ＬＺＷ符号化においては、書き換え可能な辞書を設け、
入力文字列を相異なる文字列に分け、この文字列を出現
した順に番号を付けて辞書に登録すると共に、現在入力
している文字列を辞書に登録してある最長一致文字列の
辞書番号だけで表して符号化する。

【０００６】図１６はＬＺＷ符号化説明図、図１７は辞
書構成の説明図、図１８はＬＺＷ符号化処理の流れ図で
ある。尚、説明を簡単にするために、ａ，ｂ，ｃ３文字
からなる文字列をＬＺＷ符号化してデータ圧縮するもの
とする。予め、全文字につき一文字からなる文字列
（ａ，ｂ，ｃ）に登録番号を付して辞書に初期登録する
と共に、辞書の登録数Ｎを文字種数Ｍとする（Ｍ→
Ｎ）。・・ステップ１０１

【０００７】かかる状態で、最初の文字Ｋを入力し、該
文字の登録番号を参照番号ωとし、これを語頭文字列(p
refix string)とする（ステップ１０２）。ついで、入
力データの次の文字Ｋを読み込み（ステップ１０３）、
ステップ１０２で求めた語等文字列ωにステップ１０３
で読み込んだ文字Ｋを加えた文字列（ωＫ）が現在の辞
書にあるか否かを検索する（ステップ１０４）。

【０００８】文字列（ωＫ）が辞書に存在すれば、文字
列（ωＫ）をωに置き換え（ステップ１０５）、しかる
後、入力データが終了したか判断し（ステップ１０
６）、データが終了してなければステップ１０３に戻り
以降の処理を繰返し、文字列（ωＫ）が辞書から捜せな
くなるまで最大一致長文字列の検索を続ける。一方、ス
テップ１０６において、入力データが終了していれば、
参照番号ωを符号語 code（ω）として出力して（ステ
ップ１０７）、符号化処理を終了する。

【０００９】最長一致文字列の検索が続行して、ステッ
プ１０４において、文字列（ωＫ）が辞書に存在しなく
なれば、参照番号ωを符号語 code（ω）として出力
し、又、文字列（ωＫ）に新たな登録番号Ｎを付加して
辞書に登録し、更にステップ１０３で読み込んだ文字Ｋ
の登録番号を参照番号ωに置き換えると共に、辞書アド
レスＮを１インクリメントする（ステップ１０８）。次
いで、ステップ１０６により入力データが終了したか判
断し、判断結果に応じて以降の処理を繰り返す。

【００１０】図１６及び図１７を参照してＬＺＷ符号化
を具体的に説明すると、以下のようになる。すなわち、
図１６の入力データを左から右に向けて１文字づつ読み
込む。最初の文字ａを読み込んだ時、辞書にはａの他に
一致する文字列はないから、ａの登録番号「１」（参照
番号ω＝１）を符号語（code（ω））として出力する。
そして、拡張した文字列ａｂに登録番号４を付けて辞書
に登録する。実際の登録は文字列「１ｂ」の形となる。
続いて、２番目の文字ｂが入力文字列の先頭になる。辞
書にはｂの他に一致する文字列がないので、ｂの登録番
号（参照番号）２を符号語として出力し、拡張した文字
列ｂａを実際には２ａの形で登録番号５を付けて辞書に
登録する。

【００１１】以上により、３番目の文字ａが入力文字列
の先頭になる。辞書には先頭文字ａが存在するから、該
文字の登録番号１に次の文字ｂを付した文字列「１ｂ」
が存在するか調べる。文字列「１ｂ」が存在するから、
該文字列の登録番号４に次の文字ｃを付した文字列「４
ｃ」が存在するか調べる。文字列「４ｃ」は存在しない
から、最長一致文字列「１ｂ」の登録番号「４」を符号
語として出力し、拡張した文字列「４ｃ」に登録番号６
を付して辞書部登録し、以後同様に符号化と辞書登録を
繰り返して全入力文字のＬＺＷ符号化処理を実行する。

【００１２】図１９はＬＺＷ復号化処理の流れ図であ
り、復号化処理では、符号化の逆の操作が行われる。す
なわち、復号化に際しては、符号化と同様に、全文字に
つき一文字からなる文字列（ａ，ｂ，ｃ）に登録番号を
付して辞書に初期登録すると共に、辞書の登録数Ｎを文
字種数Ｍとする（Ｍ→Ｎ）。・・ステップ２０１ついで、最初の符号CODEを読み込み、該符号CODEをOLDc
odeとする。又、最初の符号は既に辞書に登録された一
文字の登録番号のいずれかに該当することから、入力符
号CODE(＝登録番号)が示す文字Ｋを出力する。又、出力
した文字Ｋは後の例外処理のためにcharとして設定す
る。・・以上ステップ２０２

【００１３】しかる後、次の符号CODEを読み込んでNEWc
odeとしてセットすると共に(ステップ２０３）、符号CO
DE(＝登録番号)が辞書に定義(登録)されているか否かを
チェックする(ステップ２０４）。通常、入力した符号C
ODE(＝登録番号)は前回までの処理で辞書に登録されて
いるから、ステップ２０４において「ＮＯ」となるか
ら、次に、符号CODE(＝登録番号)が指示する辞書の登録
文字列が（ωＫ）か判断する。すなわち、符号CODEが指
示する辞書の登録文字列が（ωＫ）のように、参照番号
ωと文字Ｋの結合文字列であるか判断する（ステップ２
０５）。

【００１４】参照番号ωと文字Ｋの結合文字列であれ
ば、文字Ｋを一時的にスタックし、参照番号ωの符号語
code（ω）（実際にはcode（ω）＝ω）を新たなCODEと
し、かつ文字数Ｃを１カウントアップし（ステップ２０
６）、ステップ２０５に戻る。以後、ステップ２０５、
２０６の処理をCODEが示す登録文字列が一文字に至るま
で再帰的に繰り返す。

【００１５】ステップ２０５において、CODEが示す文字
列が一文字の場合には、すなわち、符号CODEが指示する
辞書の登録文字列が（Ｋ）の場合には、Ｋを出力し、し
かる後、スタックしたＣ個の文字列をＬＩＦＯ（Last i
n Fast Out)形式でポップアップして出力する。又、前
回の復号化において使用した符号OLDcodeに、今回復号
した文字列の先頭文字Ｋを付加した文字列（OLDcode，
Ｋ）を登録番号Ｎを付して辞書に登録し、Ｎを１インク
リメントする（Ｎ＋１→Ｎ）。更に、復号文字列の先頭
文字Ｋをcharとし、かつNEWcodeをOLDcodeとする。・・
以上ステップ２０７

【００１６】以後、符号入力が終了したか判断し（ステ
ップ２０８）、終了してなければステップ２０３に戻り
次の符号を読み込んで復号処理を繰り返す。ところで、
符号化処理においては、ある文字列の符号化と、該文字
列に次の先頭文字を付加した文字列の辞書登録とを同時
に行うため、次の符号化処理において直前に符号化した
文字列の符号語を使用できる。しかし、復号化処理にお
いては、直前に復号した文字列に、今回復号した文字列
の先頭文字列を付加した文字列を辞書登録するため、辞
書登録が符号化処理に比べて１回遅れる。このため、符
号化処理において、直前に符号化した文字列の符号語を
使用すると、復号化処理において、該符号語が登録（定
義）されていない場合を生じる。この場合がステップ２
０４においてCODEが定義されていない状態になり、「Ｙ
ＥＳ」となる。

【００１７】例えば、図２０に示すように符号化に際し
て、文字列「ａ・・・ｚ」に対してOLDcodeを出力する
と共に、文字列「ａ・・・ｚａ」をNEWcodeとして辞書
登録し、次の文字列「ａ・・・ｚａ」をNEWcodeで出力
し、文字列「ａ・・・ｚａｂ」を辞書登録する。さて、
復号側で符号語NEWcodeを読み込んだ時、該符号語は復
号側で辞書登録されていないので、復号ができない。し
かし、NEWcodeとOLDcodeを比較すると、以下の関係 NEWcodeの文字列＝OLDcodeの文字列＋OLDcodeの文字列
の先頭文字（char) がある。このため、ステップ２０４で「ＮＯ」となれ
ば、セットされているcharをスタックすると共に、OLDc
odeをCODEとみなし、かつ、OLDcodeにcharを付加した文
字列をNEWcodeとし(ステップ２０９）、以後CODEを用い
てステップ２０５以降の処理を行う。

【００１８】図２１を参照して復号化処理を具体的に説
明すると以下のようになる。最初の入力符号は「１」で
あり、一文字ａ，ｂ，ｃについては既に登録番号１、
２、３として辞書登録されているから（図１７と同
様）、辞書の参照により符号「１」に一致する登録番号
の文字列ａに置き換えて出力する。次に、符号「２」に
ついても同様にして文字ｂに置き換えて出力する。この
時、前回処理した符号「１」と今回復号した最初の一文
字ｂとを組み合わせた「１ｂ」に新たな登録番号４を付
加して辞書に登録する。

【００１９】３番目の符号「４」は辞書の検索により、
「１ｂ」から「ａｂ」と置き換えて文字列「ａｂ」を出
力する。同時に、前回処理した符号「２」と今回復号し
た１番目の文字ａとを組み合わせた文字列「２ａ（＝ａ
ｂ）」に新たな登録番号５を付加して辞書に登録する。
以下、同様に、復号処理を繰り返す。尚、図１９のステ
ップ２０９の例外処理は、第６番目の入力符号「８」の
復号で生じる。符号「８」は復号時に辞書に定義されて
おらず、復号できない。この場合には、前回処理した符
号「５」に前回復号した文字列「ｂａ」の最初の一文字
ｂを加えた文字列「５ｂ」を求め、更に「２ａｂ」、
「ｂａｂ」と置き換えられて出力される。そして、前回
の符号語「５」に今回復号した文字列の文字ｂを加えた
文字列「５ｂ」に登録番号「８」を付加して辞書登録す
る。

【００２０】以上のように、ユニバーサル符号は、符号
化対象の性質が未知でも、それを学習しながら符号化し
てゆく圧縮法であり、既出のデータ列を辞書に登録して
行き、同じデータ列が表れた時には、その登録番号を符
号化データ（符号語）として送出するというシンプルな
ものである。しかし、図１８の流れ図に従って符号化す
ると、１つの文字列を辞書検索する際、最悪、辞書全体
をサーチしなければならず、このため、符号化処理に時
間がかかる問題があった。そこで、従来は、辞書検索に
外部ハッシュ法（open hashingまたはchaining)を用い
て処理速度を上げている(例えば、オーム社刊、情報処
理学会編、情報処理ハンドブック参照)。

【００２１】外部ハッシュ法文字列からなる集合Ｓを考えた時、集合Ｓにおける文字
列ｘの格納位置のアドレスを文字列ｘより直接計算でき
る仕組になっていると高速の検索ができる。これを実現
するのがハッシュ法である。記憶場所（ハッシュ表）に
０〜（m-1)までのアドレスが付加されているとすると、
ハッシュ法では、関数ｈ：Ｓ→［０，１，２，・・・(m-1)］を１つ定めて、Ｓの文字列ｘのアドレスをh(x)で求め
る。関数ｈをハッシュ関数、値ｈ(x)をｘのハッシュ・
アドレスといっている。ハッシュ法は、通常、文字列の
集合Ｓの大きさがアドレス数ｍに比べて遥かに大きい場
合に用いられる。そこで、ハッシュ関数ｈをどのように
選んだとしても、集合Ｓにおける相異なる文字列ｘ₁，
ｘ₂に対してｈ(x₁)＝ｈ(x₂)となる場合が起こり得る。
これを衝突と呼び、衝突に対する対策の一つとして外部
ハッシュ法が用いられる。外部ハッシュ法は、図２２に
示すように、ハッシュアドレスｉ毎に連結リスト(name
next)ＬＳＴを用意し、ｈ(x)＝ｉとなるｘはその連結リ
ストの先頭から順に格納する。尚、同じハッシュアドレ
スを有するそれぞれのリストはバケット(bucket)と呼ば
れる。

【００２２】図２３はＬＺＷ符号の辞書作成及び辞書検
索に外部ハッシュ法を採用した時のハッシュ表（辞書）
のデータ構造であり、ある文字列ｘにより指定されるハ
ッシュアドレスｉに、文字列ｘに続く文字Ｋ（イクステ
ンションextension)と、文字列ｘに続く文字Ｋ以外の文
字を格納するアドレス（nextアドレス)と、文字Ｋに更
に続く文字の格納アドレス（firstアドレス）が記憶さ
れるようになっている。尚、firstアドレスは図２２の
索引dictionaryに対応し、nextアドレスは連結リスト(n
ame next) に対応する。

【００２３】図２４は外部ハッシュ法による辞書構造説
明図で、(a)は従来のＬＺＷ符号化による辞書、(b)は外
部ハッシュ法による辞書、(c)は外部ハッシュ法を用い
た辞書の木構造図であり、それぞれ図１６に示す順序
で、ａ，ｂ，ｃの３文字よりなる入力文字列が発生した
場合である。図２４(b)のアドレスｉにはfirst欄、next
欄、extension欄が対応付けされており、図２３で示し
た構造でデータを記憶するようになっている。すなわ
ち、アドレスｉのextension欄にはアドレスｉを指示す
る文字列ｘに連結する文字Ｋが書き込まれ、next欄には
文字列ｘに連結する文字Ｋ以外の文字を格納するアドレ
スが書き込まれ、first欄には文字Ｋに更に連結する文
字の格納アドレス（firstアドレス）が記憶されるよう
になっている。例えば、アドレス４の文字ｂに着目する
と、該アドレス４はアドレス１の文字（１文字からなる
文字列）ａのfirstアドレスにより指示され、アドレス
４のextension欄には文字列ａに連結する文字ｂが書き
込まれ、next欄には文字列ａに連結する別の文字ａを格
納するアドレス１０が書き込まれ、first欄には文字ｂ
に更に続く文字ｃのアドレス６が書き込まれている。

【００２４】初期時、アドレス１、２、３のextension
欄には全１文字列ａ，ｂ，ｃが初期登録され、その他の
欄は「空（＝０）」になっており、以後、後述する外部ハ
ッシュ法による符号処理が行われ、図２４(c)に示す木
構造状に辞書(図２４(b))が作成される。尚、(c)におい
て、□で囲んだ番号はアドレスである。以上により、例
えば、アドレス１の文字ａを参照すると、該文字ａに
は、アドレス４の文字ｂがfirst方向に連結し、該文字
ｂにはfirst方向に更にアドレス６の文字ｃが連結し、
更に、前記文字ａにはアドレス１０の文字ａが連結し、
アドレス１０の文字ａには順次アドレス１１、１２の文
字ａが順次連結していることが示される。また、アドレ
ス２の文字ｂに着目すると、該文字ｂにはアドレス５の
文字ａがfirst方向に連結し、以後、アドレス８、９の
文字ｂ，ａが順次連結していることが示される。更に、
アドレス３の文字ｃに着目すると、該文字ｃにはアドレ
ス７の文字ｂがfirst方向に連結していることが示され
る。

【００２５】外部ハッシュ法による符号化処理図２５は外部ハッシュ法によるＬＺＷ符号化処理の流れ
図である。この符号化処理においては、外部ハッシュ法
により参照番号ｉの文字列に一文字を付加した文字列の
アドレスをハッシュアドレス（索引）として引く。連結
リストには、参照番号ｉの文字列に付加される文字を格
納するfirst,nextアドレスが格納してあり、該文字と入
力文字Ｋの一致を検査し、不一致ならば逐次連結リスト
を手繰ることによって、これまで出現した全ての一文字
付加文字列を検索することができる。もし、バケット中
に付加した文字列が存在しない場合には、最終的にリス
トの連結アドレスから０が得られ、該当する文字列が登
録されていないことを知ることができる。

【００２６】予め、全文字につき一文字からなる文字列
(a,b,c,・・・)を、辞書アドレス１〜Ｍのextension欄に初
期登録すると共に（Ｍは文字種数）、辞書の先頭アドレ
スｎを文字種数Ｍ＋１とする（Ｍ＋１→ｎ）。また、最
初の文字Ｋを入力して該文字を記憶するアドレス（参照
番号）をｉとし、これを語頭文字列(prefix string)と
する。更に、辞書における全アドレスのfirst欄の内容f
irst[1,NMAX]、next欄の内容next[1,NMAX]及びアドレス
Ｍ＋１〜ＮＭＡＸのextension欄の内容を全て０に初期
化する。・・ステップ３０１

【００２７】かかる状態で、次の文字Ｋを入力し（ステ
ップ３０２）、ωにｉを代入すると共に（ｉ→ω、Ｋの
直前までの文字列の参照番号をωとする）、ｊ＝０とす
る（ステップ３０３）。また、現アドレスｉの候補文字
ext(i)にfirst方向に連結する候補文字を格納するアド
レスを示すデータfirst(i)をｉとする（ステップ３０
４）。尚、現アドレスｉの候補文字ext(i)にfirst方向
に連結する文字がなければfirst(i)＝０であり、ｉ＝０
となる。

【００２８】ついで、ｉ＝０であるか判断し、換言すれ
ば、first方向に連結する候補文字が存在するかチェッ
クし(ステップ３０５）、存在しなければステップ３０
３で保存した参照番号（アドレス）ωを符号語 code
（ω）として出力する（ステップ３０６）。

【００２９】しかる後、ｉ＝ｎとすると共に、ｎを1イ
ンクリメントし（ｎ＋１→ｎ）、更にステップ３０２で
入力した文字Ｋをアドレスｉのexstension欄に書き込む
(Ｋ→ext(i))。すなわち、続き文字Ｋを辞書登録する
（ステップ３０７）。次いで、ｊ＝０であるかチェック
し（ステップ３０８）、ｊ＝０であれば、ｉ→first
(ω)とする（ステップ３０９）。これにより、Ｋの直前
に入力した文字を記憶するアドレス(＝Ｋの直前に入力
した文字迄の参照番号ωが指示するアドレス)のfirst欄
にｉ（今回の文字Ｋを格納するアドレス）が書き込まれ
ることになる。

【００３０】以後、ステップ３０２で入力した文字Ｋの
アドレスをｉとし（ステップ３１０）、データが終了し
たかチェックし（ステップ３１１）、終了していればｉ
→ωとした後、ωを符号語 code（ω）として出力して
（ステップ３１２）、符号化処理を終了し、データが終
了してなければステップ３０２に戻り以降の処理を繰り
返す。

【００３１】一方、ステップ３０５においてｉ≠０であ
れば、換言すればfirst方向に連結する候補文字が存在
すれば、該文字（アドレスｉのextension欄に書き込ま
れている文字ext(i)）がステップ３０２で入力した文字
Ｋと一致するか調べる（ステップ３１３）。一致してい
ればステップ３１１に飛び、データ終了していれば、ｉ
→ωとした後、ωを符号語 code（ω）として出力して
（ステップ３１２）、符号化処理を終了し、データが終
了してなければステップ３０２に戻り、更に次の文字を
入力して以降の最長一致文字列の検索処理を繰り返す。

【００３２】ステップ３１３において、first方向に連
結する候補文字がステップ３０２で入力した文字Ｋと一
致してなければ、ｊにｉを代入すると共に、アドレスｉ
のnext欄に書き込まれているアドレスデータnext(i)を
新たなｉとし（ステップ３１４）、ステップ３０５に戻
る。尚、next方向に連結する文字がなければアドレスｉ
のnext欄には０が書き込まれており、ｉ＝０となる。

【００３３】以後、ｉ≠０であればステップ３１３に移
行し同様の最長一致文字列の検索処理が繰り返えされ、
最早一致文字が存在しなくなるとステップ３０５におい
てｉ＝０となり、ステップ３０３で保存した参照番号
（アドレス）ωを符号語 code（ω）として出力し、前
述の処理を繰り返す。尚、ステップ３１４の処理の直後
のステップ３０５でｉ＝０が判断されると、ステップ３
０８においてｊ≠０となり、ｉ→next(ω)とされる（ス
テップ３１５）。これにより、Ｋの直前に入力した文字
迄の参照番号ωが指示するアドレスのnext欄にｉ（今回
の文字Ｋを格納するアドレス）が書き込まれることにな
る。

【００３４】以上要約すれば、新たな文字Ｋを入力した
時、それ迄の文字列に連結する候補文字をfirst方向に
求め、見つかればfirst方向に同様に求めて行き、見つ
からなくなればnext方向に調べ、見つかれば、再びfirs
t方向に調べて行き、以後同様な処理を繰り返して見つ
からなくなった時の参照番号ｉをωとして最長一致文字
列の符号語code(ω)を出力すると共に、アドレスｉに最
新の入力文字についてのfirst, next, extension等を登
録するものである。以上の流れ図に従って、図１６の最
上段に示す文字列を符号化出力してゆくと、最下段の如
く文字列が辞書登録されて行き、図２６、図２７、図２
８の斜線で示すように辞書登録量が増加して行く。尚、
図２６(a)は初期化された後の状態である。

【００３５】図２９は従来の外部ハッシュ法による辞書
検索回路の構成図である。ＭＰＵ（マイクロ・プロセッ
サ・ユニット）１は入力文字Ｋを読み込んで一致検査部
２のレジスタ２ａに格納すると共に、辞書メモリ３より
候補文字Ｋ′とそれに繋がるfirstアドレスｆωとnext
アドレスｎωを読み出し、それぞれ読み込み部４のレ
ジスタ４ａ，４ｂ，４ｃにラッチする。一致検査部２の
比較回路２ｂは入力文字Ｋとレジスタ４ａにラッチされ
た候補文字Ｋ′が一致するか比較検査を行う。一致しな
い場合には、コントローラ５をしてマルチプレクサ（Ｍ
ＰＸ）４ｄにより、レジスタ４ｃにラッチされているne
xtアドレスｎωを選択させる。これにより、ＭＰＵ１は
nextアドレスｎωで辞書検索を行い、新たな候補文字
Ｋ′とそれに繋がるfirstアドレスｆωとnextアドレス
ｎωを読み出し、それぞれ読み込み部４のレジスタ４
ａ，４ｂ，４ｃにラッチして比較検査を行う。

【００３６】一方、比較回路２ｂにおいて、入力文字Ｋ
と候補Ｋ′が一致した場合には、コントローラ５をして
マルチプレクサ４ｄにより、レジスタ４ｂにラッチされ
ているfirstアドレスｆω選択させる。これにより、Ｍ
ＰＵ１はfirstアドレスｆωで辞書検索を行い、新たな
候補文字Ｋ′とそれに繋がるfirstアドレスｆωとnext
アドレスｎωを読み出し、それぞれ読み込み部４のレジ
スタ４ａ，４ｂ，４ｃにラッチすると共に、次の入力文
字Ｋを読み取ってレジスタ２ａに格納し、以後上記の比
較検査を行う。

【００３７】以後、上記処理が行われ、比較回路２ｂで
一致が取れず、しかも、マルチプレクサ４ｄの出力が０
となれば、換言すれば連結検出部６において検索すべき
firstアドレスｆωとnextアドレスｎωがもうないと確
認されると、最長一致文字列の検索が終了し、この時点
で辞書検索をストップし、以後次の入力文字に対して最
長一致文字列の検索を行う。

【００３８】

【発明が解決しようとする課題】以上のように、外部ハ
ッシュ法によるＬＺＷ符号化処理においては、ある文字
列の末尾に連結する候補文字Ｋ′のアドレスが指定さ
れ、該アドレスに候補文字Ｋ′とfirstアドレスとnext
アドレスが格納されているため、従来の外部ハッシュ法
によらないＬＺＷ符号化に比べて辞書検索を高速に行え
る利点がある。しかし、上記外部ハッシュ法による辞書
検索では、１度の辞書アクセスに対して１つの候補文字
Ｋ′と１組のfirstアドレスとnextアドレスしか読み出
すことができないため、候補文字が多い場合検索一致に
時間が掛かる問題がある。

【００３９】以上から本発明の目的は、外部ハッシュ法
による辞書検索を高速に行える辞書検索方法を提供する
ことである。本発明の別の目的は、外部ハッシュ法によ
るＬＺＷ符号化の辞書検索において、一度の辞書検索に
より複数の候補文字を読み出し、複数の候補文字と複数
の入力文字とを一度に照合して辞書検索を高速に行える
辞書検索方法を提供することである。

【００４０】本発明の更に別の目的は、一度の辞書検索
により複数の候補文字と共に、複数のアドレスを読み出
し、複数の候補文字と複数の入力文字との比較照合結果
（全部一致、先頭不一致、一部一致等）に基づいて次に
参照すべき候補文字を直ちに前記所定アドレスから読み
出して比較照合して辞書検索を高速に行える辞書検索方
法を提供することである。

【００４１】

【課題を解決するための手段】図１は本発明の原理説明
図である。１１は検索済文字列に連結する複数の候補文
字が検索可能となるように複数のデータ要素を前記所定
文字が指定するアドレスに格納して符号化済みの部分文
字列を記憶する辞書メモリ、１２は入力文字列を読み込
んだり、辞書メモリより候補文字等を読み出したり、新
規文字列を辞書メモリに登録するＭＰＵ（プロセッ
サ）、１３は辞書メモリより同時に読み出した複数のデ
ータを記憶するレジスタ部、１４は複数の入力文字と複
数の候補文字との一致照合を行う比較照合部、１５は比
較結果に基づいて次の候補文字のアドレスを選択するア
ドレス選択部（マルチプレクサＭＰＸ）である。前記複
数のデータ要素は、例えば、 (1) 検索済文字列に連結する第１文字と、(2) 第１文字
迄の文字列の番号（ω₁）と、(3) 前記検索済文字列に
連結する文字であって第１文字とは別の文字の格納アド
レス（next₁)と、(4) 第１文字に連結する第２文字と、
(5) 第２文字までの文字列の番号（ω₂）と、(6) 前記
第１文字と連結する文字であって第２文字とは別の文字
の格納アドレス（next₂)と、(7) 前記第２文字に連結す
る第３文字の格納アドレス(first₂)と、(8) 第１、第２
文字のうち幾つ記憶されているかを示すフラグ(flag)を
有している。

【００４２】

【作用】検索済文字列に連結する複数の候補文字が検索
可能となるように複数のデータ要素を前記検索済文字列
が指定する辞書メモリ１１のアドレスに記憶して辞書を
作成し、最長一致文字列の検索に際してＭＰＵ１２は検
索済文字列以降の複数の入力文字を読み込むと共に、検
索済文字列に連結する複数の候補文字を含むデータ要素
を辞書メモリ１１より一括して読み出してレジスタ部１
３に格納する。比較照合部１４は、複数個の候補文字と
複数の入力文字とを比較して一致照合を行い、一致する
場合には、次の複数の入力文字を読み込むと共に、次の
複数の候補文字を含むデータ要素を辞書メモリから読み
出してレジスタ部１３に格納し、以後同様の最長一致検
索処理を続行する。このように、一度の辞書検索により
複数の候補文字を読み出し、複数の候補文字と複数の入
力文字とを一度に照合して辞書検索を行うようにしたか
ら、辞書検索を高速に行うことができる。

【００４３】また、比較照合により、全て一致した場合
には、候補文字を含む所定文字列における以降の複数の
候補文字を前記データ要素に含まれるfirstアドレスが
示す辞書メモリから読み出して、次の複数の入力文字と
の一致照合を行い、複数の候補文字のうち第１番目の入
力文字が一致する場合には、該第１番目の入力文字から
分岐する別の文字列の複数の候補文字を、前記データ要
素に含まれるnextアドレスが示す辞書メモリから読み出
して、複数の入力文字との一致照合を行う。このよう
に、一度の辞書検索により複数の候補文字と共に、複数
のアドレスを読み出し、複数の候補文字と複数の入力文
字との比較照合結果（全部一致、先頭不一致、一部一致
等）に基づいて次に参照すべき候補文字を直ちに所定の
アドレスから読み出して比較照合するから、辞書検索を
高速に行うことができる。

【００４４】更に、前記データ要素は、検索済文字列に
連結する第１文字と、第１文字迄の文字列の番号
（ω₁）と、前記検索済文字列に連結する文字であって
第１文字とは別の文字の格納アドレス（next₁)と、第１
文字に連結する第２文字と、第２文字までの文字列の番
号（ω₂）と、前記第１文字と連結する文字であって第
２文字とは別の文字の格納アドレス（next₂)と、前記第
２文字に連結する第３文字の格納アドレス(first₂)と、
第１、第２文字のうち幾つ記憶されているかを示すフラ
グ(flag)を有するようにすれば、２つの入力文字と２つ
の候補文字である前記第１、第２文字の一致照合に際し
て、第１入力文字と第１候補文字が異なる場合にはアド
レス（next₁)に基づい次のデータ要素を読み出して一致
照合を行い、第１入力文字と第１文字が一致して第２入
力文字と第２候補文字が異なる場合には、アドレス（ne
xt₂)に基づいて次のデータ要素を読み出し、該第２入力
文字以降の２つの入力文字と２つの候補文字との一致照
合を行い、２つの入力文字と前記第１、第２候補文字が
共に一致する場合には、アドレス(first₂)に基づいて次
の２つの入力文字に対するデータ要素を読み出して最長
一致検索処理を続行でき、辞書検索を高速に行うことが
できる。

【００４５】また、前記データ要素は、該検索済文字列
に連結する第１文字と、第１文字迄の文字列の番号（ω
₁）と、前記検索済文字列に連結する文字であって第１
文字とは別の文字と該文字迄の番号（ω₁）を格納する
アドレスを指定するデータ（listn₁)と、第１文字に連
結する第２文字と、第２文字までの文字列の番号
（ω₂）と、前記第１文字と連結する文字であって第２
文字とは別の文字と該文字迄の番号（ω₁）を格納する
アドレスを指定するデータ（listn₂)と、前記第２文字
に連結する第３文字と該第３文字迄の番号（ω₁)を格納
するアドレスを指定するデータ(listf₂)と、第１、第２
文字のうち幾つ記憶されているかを示すフラグ(flag)を
有するようにすれば、２つの入力文字と２つの候補文字
である前記第１、第２文字の一致照合に際して、第１入
力文字と第１候補文字が異なる場合にはアドレス(listn
₁)に基づい次のデータ要素を読み出して一致照合を行
い、第１入力文字と第１候補文字が一致して第２入力文
字と第２候補文字が異なる場合には、アドレス（list
n₂)に基づいて次のデータ要素を読み出し、該第２入力
文字以降の２つの入力文字と２つの候補文字との一致照
合を行い、２つの入力文字と前記第１、第２候補文字が
共に一致する場合には、アドレス(listf₂)に基づいて次
の２つの入力文字に対するデータ要素を読み出して最長
一致検索処理を続行でき、辞書検索を高速に行うことが
できる。

【００４６】

【実施例】

(a) 本発明の第１の実施例図２は本発明に係わる辞書メモリの１つのアドレスに格
納されるデータの構造説明図である。ある文字列ｘによ
り指定されるアドレスｉ（＝ω₁）には、 (1) 文字列ｘの最終文字に連結する第１文字(ext₁)と、
(2) 第１文字迄の文字列の参照番号（ω₁）と、(3) 前
記最終文字に連結する文字であって第１文字とは別の文
字の格納アドレス（next₁)と、(4) 第１文字に連結する
第２文字(ext₂)と、(5) 第２文字までの文字列の参照番
号（ω₂）と、(6) 前記第１文字と連結する文字であっ
て第２文字とは別の文字の格納アドレス（next₂)と、
(7) 前記第２文字に連結する第３文字の格納アドレス(f
irst₂)と、(8) 第１、第２文字のうち幾つ記憶されてい
るかを示すフラグ(flag)が記憶されて、辞書が作成され
る。

【００４７】図３は本発明による辞書メモリの内容説明
図であり、(a)は符号化説明図、(b)は本発明の辞書であ
り、辞書メモリの各アドレスにはにはflag欄、first
₂欄、next₁欄、next₂欄、ext₁欄、ext₂欄、ω₁欄、ω₂
欄が設けられている。図３(a)の上段に示す順序でａ，
ｂ，ｃの３文字よりなる入力文字列が発生すると、後述
する符号化処理により符号語が中段に示すように出力さ
れ、又、下段に示すように文字列が辞書登録される。こ
の辞書登録において、文字列は図２のデータ構造で辞書
メモリの各アドレスに登録され、その内容は図３(b)に
示すようになり、図２の表記法により表現すると図３
(c)に示す木構造状になる。

【００４８】例えば、アドレス１の文字ａ（ext₁)を参
照すると、該文字ａにはfirst方向に文字ｂ(ext₂)が連
結し、該文字ｂには更にfirst方向にアドレス６（first
₂アドレス）に格納された文字が連結し、又、前記文字
ａにはアドレス１０（next₂アドレス)に格納された文字
が連結することが示され、文字ａまでの文字列（１文字
列ａ）の参照番号（＝１）がω₁欄に格納され、文字ｂ
迄の文字列（２文字列ａｂ）の参照番号（＝４）がω₂
欄に格納されていることが示される。

【００４９】又、アドレス１のfirst₂欄で指示された第
６アドレスのext₁欄には、アドレス１のext₂欄の文字ｂ
（２文字列ａｂの最終文字）に連結する文字ｃが書き込
まれ、該文字ｃにはfirst方向に文字が連結していない
ことが示され、又、文字ｃまでの文字列（３文字列ａｂ
ｃ）の参照番号（＝６）がω₁欄に格納されていること
が示される。

【００５０】更に、アドレス１のnext₂欄で指示された
第１０アドレスのext₁欄には、アドレス１のext₁欄の文
字ａ（１文字列ａの最終文字）に連結する文字ａ（２番
目のａ）が書き込まれ、該文字ａにはfirst方向に文字
ａ（３番目のａ）が連結し、又、該文字ａには更にfirs
t方向にアドレス１２（first₂アドレス）に格納された
文字が連結していることが示され、２番目のａまでの文
字列（２文字列ａａ）の参照番号（＝１０）がω₁欄に
格納され、３番目のａ迄の文字列（３文字列ａａａ）の
参照番号（＝１１）がω₂欄に格納されていることが示
される。以下同様に、アドレス２の文字ｂ，アドレス３
の文字ｃに連結する文字列が辞書登録される。

【００５１】図４及び図５は本発明による符号化処理の
流れ図である。予め、辞書メモリのアドレス１〜Ｍのex
t₁欄（ext₁[1,M]）に文字コード(a,b,c,・・・)を初期登録
すると共に（Ｍは文字種数）、ω₁欄（ω₁[1,M]）に文
字コードに対応するアドレス（参照番号）を初期登録
し、更に、flag欄（flag[1,M]）に1-0(ext₁欄のみに文
字が登録されいることを示す)を初期登録する。

【００５２】又、辞書の先頭アドレスｎをＭ＋１とする
（Ｍ＋１→ｎ）。更に、辞書における全アドレスの (1)next₁欄の内容next₁[1,NMAX]、(2)next₂欄の内容nex
t₂[1,NMAX]、(3)first₂欄の内容first₂[1,NMAX]、(4)ex
t₂欄の内容ext₂[1,NMAX]、(5)ω₂欄の内容ω₂[1,NMAX]
を全て０に初期化すると共に、アドレスＭ+1〜ＮＭＡＸ
の (6)ext₁欄の内容ext₁[M+1,NMAX]、(7)ω₁欄の内容ω₁[N
+1,NMAX]を全て０に初期化し、又、(8)flag欄flag[N+1,
NMAX]を全て0-0(ext₁欄、ext₂欄に文字が登録されいな
いことを示す)に初期化する。

【００５３】更に、検索切り替えパラメータＴ、登録切
り替えパラメータＵ及び入力文字数選択パラメータＳを
それぞれ０にする。尚、Ｔ＝０の場合には次の１つの入
力文字を読むことを、Ｔ＝１の場合には次の２つの入力
文字を読むことを意味し、Ｓ＝１の場合には既に２つの
入力文字を読み込んであることを意味し、Ｕ＝０の場合
には辞書登録時に文字をext₁欄に登録することを、Ｕ＝
１の場合にはext₂欄に登録することを意味する。

【００５４】又、最初の入力文字を第１文字Ｋ₁を入力
して該文字を記憶するアドレス（参照番号）をｉとし、
これを語頭文字列(prefix string)とする。・・以上ス
テップ４０１かかる状態で、ωにｉを代入すると共に（ｉ→ω、第１
文字Ｋ₁までの文字列の参照番号をωとする）、ｊ＝０
とする（ステップ４０２）。ついで、Ｓ＝０かチェック
し（ステップ４０３）、Ｓ＝０であればＴ＝０であるか
チェックし（ステップ４０４）、Ｔ＝０であれば、次の
入力文字を第２文字Ｋ₂として入力する（ステップ４０
５）。

【００５５】しかる後、ｉ＝０であるかチェックする
（ステップ４０６）。ｉ≠０であれば、第ｉアドレスの
ext₁欄の第１候補文字ext₁(i)が第１文字Ｋ₁と一致する
かチェックし（ステップ４０７）、一致すればＴ＝０と
すると共に（０→Ｔ）、第２文字Ｋ₂を次の第１文字Ｋ₁
とし（Ｋ₂→Ｋ₁）、更にｉをωに代入すると共に（ｉ→
ω）、ｊ＝０とする（ステップ４０８）。尚、一致しな
い場合には後述するステップ４３５に飛ぶ。

【００５６】ついで、第ｉアドレスのflag(i)が1-0か、
すなわち、first方向に連結する文字が存在するかチェ
ックする(ステップ４０９）。first方向に連結する文字
が存在しなければ、最長一致文字列の検索を終了して以
後ステップ４１０以降の処理により符号語出力と辞書登
録処理を行う。一方、first方向に連結する文字が存在
すれば、以後ステップ４３１以降の処理により最長一致
文字列の検索を続行する。

【００５７】ステップ４０７において、flag(i)が1-0で
あれば、第２文字Ｋ₂をext₂欄に格納するためにＵ＝１
とし（ステップ４１０）、ついで、Ｔ＝０かチェック
し、Ｔ＝０であればステップ４０８で保存した第１文字
Ｋ₁迄の文字列の参照番号ωを符号語 code（ω）として
出力する（ステップ４１２）。・・・第１入力文字Ｋ₁
のみが辞書の第１候補文字と一致する場合

【００５８】符号語を出力後、ｉをｐに代入し、又、ｎ
をｉに代入し、更にｎを1インクリメントし（ステップ
４１３）、Ｕ＝０であるかチェックする（ステップ４１
４）。尚、第１入力文字Ｋ₁のみが辞書の第１候補文字
と一致し、かつ、flagが1-0の場合、ステップ４１０で
Ｕ＝１とされるから「ＮＯ」となり、その他の場合には
Ｕ＝０であり「ＹＥＳ」となる。

【００５９】ステップ４１４でＵ＝１であれば、第２文
字Ｋ₂を第ｐアドレス(今回の第１文字Ｋ₁が記憶されて
いたアドレス）のext₂欄に書き込み(Ｋ₂→ext₂(p))、そ
のflag欄に1-1を書き込む(1-1→flag(ｐ))。これによ
り、今回の第１文字Ｋ₁に第２文字Ｋ₂が連結しているこ
とが登録される。・・・ステップ４１５ついで、ｉを第ｐアドレス(今回の第１文字Ｋ₁が記憶さ
れていたアドレス）のω₂欄に書き込み(ｉ→ω₂(ｐ))、
かつ、入力文字数選択パラメータＳを０にする（ステッ
プ４１６）。これにより、第２文字Ｋ₂迄の文字列の参
照番号がω₂欄に登録されたことになる。

【００６０】以後、次の第１文字Ｋ₁（今回の第２文字
である）の参照番号をｉにし、又、ｉをωに代入し、更
に、Ｔ，Ｕを０にし（ステップ４１７）、しかる後、デ
ータが終了したチェックする（ステップ４１８）。デー
タが終了してなければステップ４０２に戻り以降の処理
を繰り返す。一方、データが終了していれば、Ｔ＝０か
チェックし（ステップ４１９）、Ｔ＝０であればステッ
プ４１７で保持した最終文字のωを符号語 code（ω）
として出力して（ステップ４２０）、符号化処理を終了
する。

【００６１】データが終了しておらなければ、ステップ
４０２以降の処理が行われる。この場合、ステップ４０
９においてflag(i)≠1-0でなければ、first方向に連結
する第２候補文字がext₂欄に存在するから、該文字ext₂
(i)が第２文字Ｋ₂に一致するかチェックする（ステップ
４３１）。一致しなければ、すなわち、第２候補文字が
一致しなければ、ｉをｊに代入すると共に、Ｔ＝１と
し、かつ、第１候補文字に連結する別の候補文字の格納
アドレスをアドレスｉのnext₂欄から読み出してｉとす
る（next₂(i)→ｉ）。尚、別の候補文字（next₂方向に
連結する候補文字）が存在しない場合にはnext₂(i)＝０
となり、ｉ＝０となる。・・ステップ４３２

【００６２】以後、ステップ４０５に戻って次の入力文
字を第２文字Ｋ₂として読み込み、次いでステップ４０
６においてｉ≠０であれば、next₂方向に連結する候補
文字が存在するから、ステップ４０７において第ｉアド
レスのext₁欄の第１候補文字ext₁(i)が第１文字Ｋ₁(ス
テップ４０８でＫ₂→Ｋ₁とされている点に注目）と比較
され、比較結果に基づいて以降の処理が行われる。すな
わち、一致すれば、前述のステップ４０８以降の処理が
行われ、一致しなければ、後述するステップ４３５以降
の処理が行われて最長一致文字列の検索を続行する。

【００６３】一方、ステップ４３１において、first方
向に連結する第２候補文字ext₂(i)が第２文字Ｋ₂に一致
すれば、すなわち、第１、第２入力文字Ｋ₁、Ｋ₂が辞書
の第１、第２候補文字と一致すれば、Ｔ＝１，Ｓ＝０と
して（ステップ４３３）、ステップ４１８に飛び、デー
タが終了したかチェックする（ステップ４１８）。デー
タが終了してなければステップ４０２に戻り以降の処理
を繰り返す。一方、データが終了していれば、Ｔ＝０か
チェックし（ステップ４１９）、Ｔ＝１であれば第２候
補文字までの文字列の参照番号ω₂（ω）を符号語 code
（ω₂(ω)）として出力して（ステップ４２０′）、符
号化処理を終了する。

【００６４】データが終了してなければ、ステップ４０
２以降の処理が繰り返されるが、Ｔ＝１であるから、ス
テップ４０４で「ＮＯ」となり、次の２つの入力文字を
第１、第２文字Ｋ₁，Ｋ₂として読み取ると共に、前回の
第２候補文字にfirst方向に連結する候補文字の格納ア
ドレスをアドレスｉのfirst₂欄から読み出してｉとする
（first₂(i)→ｉ）。尚、first方向に連結する候補文字
が存在しない場合にはfirst₂(i)＝０となり、ｉ＝０と
なる。・・・ステップ４３４

【００６５】以後、ステップ４０６に飛び、以降の処理
が繰り返されて最長一致文字列の検索が行われる。ステ
ップ４０７において、第ｉアドレスのext₁欄の第１候補
文字ext₁(i)が第１文字Ｋ₁と一致しなければ、ｉをｊに
代入すると共に、Ｔ＝０とし、かつ、前回の第２文字に
next₁方向に連結する候補文字の格納アドレスを、アド
レスｉのnext₁欄から読み出してｉとする（next₁(i)→
ｉ）。尚、next₁方向に連結する文字が存在しない場合
にはnext₁(i)＝０となり、ｉ＝０となる。・・・ステッ
プ４３５

【００６６】以後、ステップ４０６に飛び、ｉ≠０であ
れば、next方向に連結する候補文字が存在するから、ス
テップ４０７以降の処理を繰り返して、最長一致文字列
の検索を行う。ステップ４３２又はステップ４３４又は
ステップ４３５の処理後、ｉ＝０となれば、すなわち、
next₂方向に連結する候補文字、又はfirst₂方向に連結
する候補文字、又はnext₁方向に連結する候補文字が存
在しない場合には、ステップ４１１に飛びＴの値に応じ
た符号語が出力される。すなわち、Ｔ＝０の場合には、
第１入力文字Ｋ₁が辞書よりの第１候補文字と一致して
おり(第２入力文字Ｋ₂は一致していない)、該第１候補
文字までの文字列の参照番号ωを符号語code(ω)として
出力する（ステップ４１２)。しかし、Ｔ＝１の場合に
は、前回の第１、第２入力文字が第１、第２候補文字と
一致しているため、前回の第２候補文字までの文字列の
参照番号ω₂(ω)を符号語code(ω₂(ω))としてが出力す
る（ステップ４１２′)。尚、このステップ４１１、４
１２、４１２′の状況は、ステップ４１９でＴの値に応
じて符号語code(ω)を出力する場合（ステップ４２０）
と、符号語code(ω₂(ω))を出力する場合（ステップ４
２０′）と同様である。

【００６７】符号語を出力後、ｉをｐに代入し、又、ｎ
をｉに代入し、更にｎを1インクリメントし（ステップ
４１３）、Ｕ＝０であるかチェックする（ステップ４１
４）。尚、ステップ４０６においてｉ＝０の場合には、
ステップ４１０の処理が行われないから、Ｕ＝０となっ
ている。ステップ４１４でＵ＝０であれば、第１文字Ｋ
₁を第ｉアドレス(何も記憶されていない新たなアドレ
ス）のext₁欄に書き込み(Ｋ₁→ext₁(i))、そのflag欄に
1-０を書き込む(1-0→flag(i))。これにより、それ迄の
文字列の最終文字（前回の第２文字）に今回の第１文字
Ｋ₁を連結した文字列が登録される。・・・ステップ４
５１

【００６８】ついで、ｊ＝０かチェックする（ステップ
４５２）。ステップ４３４の処理後にｉ＝０となれば、
すなわち、first₂方向に連結する文字が存在しない場合
にはｊ＝０である。又、ステップ４３２又はステップ４
３５の処理後にｉ＝０となれば、すなわち、next₂方向
に連結する文字、又はnext₁方向に連結する文字が存在
しない場合には、ｊ≠０である。従って、ｊ＝０の場合
には、ｉ（今回の第１文字Ｋ₁の格納アドレス）を、前
回の第１候補文字の格納アドレスωのfirst₂欄に書き込
むと共に(ｉ→fitst₂(ω))、既に第１、第２入力文字を
読み込んであるから、Ｓ＝１とし（ステップ４５３）、
以後ステップ４１７以降の処理を繰り返す。尚、Ｓ＝１
の場合には、ステップ４０３で「ＮＯ」となり、次の入
力文字を読み込むことなく直ちにステップ４０６以降の
処理が行われる。

【００６９】一方、ステップ４５２においてｊ≠０であ
れば、Ｔ＝０かチェックし（ステップ４５３）、Ｔ＝０
であれば、ステップ４３５の処理後にｉ＝０となったも
のであるから、ｉ（今回の第１文字Ｋ₁の格納アドレ
ス）を、前回の第１候補文字の格納アドレスｊのnext₁
欄に書き込むと共に(ｉ→next₁(j))、Ｓ＝０とし（ステ
ップ４５４）、以後ステップ４１７以降の処理を繰り返
す。又、ステップ４５３において、Ｔ＝１であれば、ス
テップ４３２の処理後にｉ＝０となったものであるか
ら、ｉ（今回の第１文字Ｋ₁の格納アドレス）を、前回
の第１候補文字の格納アドレスｊのnext₂欄に書き込む
と共に(ｉ→next₂(j))、Ｓ＝０とし（ステップ４５
５）、以後ステップ４１７以降の処理を繰り返す。

【００７０】以上要約すれば、一度の辞書検索により複
数（２つの）の候補文字ext₁、ext₂と共に、複数の次に
参照すべき候補文字が格納されているアドレスnext₁,ne
xt₂,first₂を読み出しておき、全部一致した場合にはfi
rst₂アドレスより次に参照すべき候補文字を直ちに読み
出して比較照合して辞書検索を行い、第１文字のみが一
致した場合には、next₂アドレスより次に参照すべき候
補文字を直ちに読み出して比較照合して辞書検索を行
い、第１文字が一致しない場合には、next₁アドレスよ
り次に参照すべき候補文字を直ちに読み出して比較照合
して辞書検索を行い、first,next方向に一致文字が見つ
からなくなると、辞書検索を終了して最長一致文字列の
符号語を出力し、ついで辞書登録し、しかる後、次の入
力文字から再び辞書検索を開始する。

【００７１】以上の流れ図に従って、図３(a)の最上段
に示す文字列を符号化出力してゆくと（中段参照）、最
下段の如く文字列が辞書登録されて行き、図６〜図１２
に示すように辞書が作成されて行く。尚、図６はステッ
プ４０１における初期登録状態（空欄は０）であり、図
７〜図１２において、斜線で示すように辞書登録量が増
加し、又斜線で示す参照番号が順に符号語として辞書登
録されて行くことが理解される。

【００７２】図１３は本発明に係わる辞書検索回路の構
成図である。ＭＰＵ（マイクロ・プロセッサ・ユニッ
ト）１２は図示しないＤＭＡ回路を介して第１、第２入
力文字Ｋ₁，Ｋ₂を読み込んで比較照合部１４の第１、第
２レジスタ１４ａ，１４ｂに格納すると共に、第１文字
Ｋ₁の参照番号をアドレスとして辞書メモリ１１をアク
セスし、以下のデータ (1)所定文字に連結する第１候補文字ext₁、(2)第１候補
文字迄の文字列の参照番号（ω₁）、(3)前記所定文字に
連結する候補文字であって第１候補文字とは別の文字Ｋ
の格納アドレス（next₁)、(4)第１候補文字に連結する
第２候補文字、(5)第２候補文字までの文字列の番号
（ω₂）、(6)第１候補文字と連結する文字であって第２
候補文字とは別の候補文字の格納アドレス（next₂)、
(7)第２候補文字に連結する第３候補文字の格納アドレ
ス(first₂)、(8)第１、第２候補文字のうち幾つ記憶さ
れているかを示すフラグ(flag)を取り込むと共にコント
ローラ１６に辞書検索の命令を出す。これにより、コン
トローラ１６は、上記データのうち、flagデータをレジ
スタ１３ａに、next₁アドレスをレジスタ１３ｂに、nex
t₂アドレスをレジスタ１３ｃに、first₂アドレスをレジ
スタ１３ｄに、第１候補文字ext₁（＝Ｋ₁′）をレジス
タ１３ｅに、第２候補文字ext₂（＝Ｋ₂′）をレジスタ
１３ｆに一度にラッチする。

【００７３】ついで、コントローラ１６の制御で、比較
照合部１４の第１、第２比較回路１４ｃ，１４ｄは、第
１、第２の候補文字Ｋ₁′，Ｋ₂′とレジスタ１４ａ，１
４ｂにラッチしてある第１、第２入力文字Ｋ₁，Ｋ₂を同
時に比較照合する。尚、比較回路１４ｃ，１４ｄは、fl
agデータが入力されており、(1)第１、第２候補文字の
両方が共に存在するか、(2)第１候補文字のみが存在す
るか、(3)第１、第２候補文字の両方共存在しないかを
認識している。

【００７４】比較照合の結果、第１、第２の入力文字と
第１、第２の候補文字が共に一致する場合には、コント
ローラ１６はアドレス選択部（マルチプレクサ）１５に
より、レジスタ１３ｄに記憶されているfirst₂アドレス
を選択・出力させる。尚、比較回路１４ｃ，１４ｄはカ
スケードの構成になっており、第１入力文字と第１候補
文字が一致した時のみ、第２入力文字と第２候補文字と
の一致が有効になるようになっている。

【００７５】連結検出部１７はfirst₂アドレスが０であ
るかどうかを判断し、０であれば最早first方向に候補
文字は存在しないから、候補文字無しをＭＰＵ１２に通
知し、first₂アドレスが０でなければ、該アドレスをＭ
ＰＵ１２に通知する。ＭＰＵ１２はfirst₂アドレスが通
知されれば、次の２つの入力文字を第１、第２文字
Ｋ₁，Ｋ₂として読み取って第１、第２レジスタ１４ａ，
１４ｂに格納すると共に、前記first₂アドレスを用いて
辞書メモリ１１をアクセスし、読み取ったデータをコン
トローラ１６の制御でレジスタ部１３に格納し、以後前
述の比較照合動作を繰り返す。

【００７６】一方、ＭＰＵ１２は連結検出部１７より、
候補文字無しを受信すれば、コントローラ１６に最長一
致文字列の検索が終了した旨を通知すると共に、符号語
を作成して図示しないＩ／Ｏポートより出力し、又、辞
書メモリ１１に辞書登録を行う。しかる後、入力データ
が終了してなければ、コントローラ１６に辞書検索を指
令して次の入力文字列に対して同様の動作を繰り返す。

【００７７】以上は、比較照合部１４による比較動作に
おいて、第１、第２入力文字と第１、第２候補文字が一
致した場合であるが、第１入力文字と第１候補文字のみ
が一致して第２入力文字と第２候補文字が異なる場合に
は、コントローラ１６はアドレス選択部１５をしてレジ
スタ１３ｃに記憶されているnext₂アドレスを選択・出
力させる。又、第２入力文字Ｋ₂を第１レジスタ１４ａ
に移しＫ₁とし、第１レジスタ１４ｂに次の入力文字を
第２文字Ｋ₂として格納する。

【００７８】連結検出部１７はnext₂アドレスが０であ
るかどうかを判断し、０であれば最早next₂方向に候補
文字は存在しないから、候補文字無しをＭＰＵ１２に通
知し、next₂アドレスが０でなければ、該next₂アドレス
をＭＰＵ１２に通知する。ＭＰＵ１２はnext₂アドレス
が通知されれば、該アドレスを用いて辞書メモリ１１を
アクセスし、読み取ったデータをコントローラ１６の制
御でレジスタ部１３に格納し、以後前述の動作を繰り返
す。一方、ＭＰＵ１２は連結検出部１７より、候補文字
無しを受信すれば、コントローラ１６に最長一致文字列
の検索が終了した旨を通知すると共に、符号語を作成・
出力し、又、辞書メモリ１１に辞書登録を行う。しかる
後、入力データが終了してなければ、コントローラ１６
に辞書検索を指令して以上の動作を繰り返す。

【００７９】又、比較照合の結果、第１入力文字と第１
候補文字が一致しない場合には、コントローラ１６はア
ドレス選択部１５をしてレジスタ１３ｂに記憶されてい
るnext₁アドレスを選択・出力させる。連結検出部１７
はnext₁アドレスが０であるかどうかを判断し、０であ
れば最早next₁方向に候補文字は存在しないから、候補
文字無しをＭＰＵ１２に通知し、next₁アドレスが０で
なければ、該next₁アドレスをＭＰＵ１２に通知する。
ＭＰＵ１２はnext₁アドレスが通知されれば、該アドレ
スを用いて辞書メモリ１１をアクセスし、読み取ったデ
ータをコントローラ１６の制御でレジスタ部１３に格納
し、以後前述の照合動作を繰り返す。一方、ＭＰＵ１２
は連結検出部１７より、候補文字無しを受信すれば、コ
ントローラ１６に最長一致文字列の検索が終了した旨を
通知すると共に、符号語を作成・出力し、又、辞書メモ
リ１１に辞書登録を行う。しかる後、入力データが終了
してなければ、コントローラ１６に辞書検索を指令して
以上の動作を繰り返す。

【００８０】(b) 本発明の別の実施例図２のデータ構造にすると、図３(b)に示すように、使
用されないアドレスが発生し辞書メモリの使用効率が低
下する。図１４は辞書メモリの使用効率を向上できる本
発明の別のデータ構造説明図である。ある文字列ｘによ
り指定されるアドレスｉ（＝ω₁）には、図１４(a)に示
すように、 (1) 文字列ｘの最終文字に連結する第１文字(ext₁)と、
(2) 第１文字迄の文字列の参照番号（ω₁）と、(3) 前
記最終文字に連結する文字であって第１文字とは別の文
字の格納アドレスを指定するデータ（listn₁)と、(4)
第１文字に連結する第２文字(ext₂)と、(5) 第２文字ま
での文字列の参照番号（ω₂）と、(6) 前記第１文字と
連結する文字であって第２文字とは別の文字の格納アド
レスを指定するデータ（listn₂)と、(7) 前記第２文字
に連結する第３文字の格納アドレスを指定するデータ(l
istf₂)と、(8) 第１、第２文字のうち幾つ記憶されてい
るかを示すフラグ(flag)が記憶されて、辞書が作成され
る。

【００８１】尚、図２に示すデータと図３のデータには
以下の関係がある。すなわち、(1)listn₁欄に書き込ま
れているデータ(listn₁アドレス)が示すアドレスのω₁
欄の参照番号(アドレス)が図２のデータ構造におけるne
xt₁アドレスと一致し、(2)listn₂欄に書き込まれている
データ(listn₂アドレス)が示すアドレスのω₁欄の参照
番号(アドレス)が図２のデータ構造におけるnext₂アド
レスと一致し、(3)listf₂欄に書き込まれているデータ
(listf₂アドレス)が示すアドレスのω₁欄の参照番号(ア
ドレス)が図２のデータ構造におけるfirst₂アドレスと
一致するようになっている。・・・対応関係Ａ

【００８２】図１４(b)は図３(a)の上段に示す順序で
ａ，ｂ，ｃの３文字列が入力された時の辞書メモリのデ
ータ構造を示す木構造図であり、図１４(c)は本発明の
データ構造により作成した辞書内容説明図であり、辞書
メモリの各アドレスにはflag欄、listn₁欄、listn₂欄、
listf₂欄、ext₁欄、ext₂欄、ω₁欄、ω₂欄が設けられて
いる。図１４(a)に示す構造にすると、辞書メモリの各
アドレスに順にデータが格納されて行くため、図１４
(c)に示すように、使用されないアドレスがなくなり、
メモリの使用効率が向上する。

【００８３】符号化処理は、データを辞書メモリの空ア
ドレスから順に格納し、しかる後、上記対応関係が満た
されるようにlistn₁、listn₂、first₂を決定して辞書メ
モリに登録する点が異なるだけで、他は図４及び図５の
処理と略同様である。

【００８４】図１５は本発明の辞書検索回路の別の実施
例構成図であり、図１３の構成図と殆ど同様の構成にな
っている。図１３と異なる点は、レジスタ１３ｂにlist
n₁アドレスをラッチし、レジスタ１３ｃにlistn₂アドレ
スをラッチし、レジスタ１３ｄにlistf₂アドレスをラッ
チする点、及びＭＰＵ１２の辞書登録処理の相違であ
る。

【００８５】以上、本発明を実施例により説明したが、
本発明は請求の範囲に記載した本発明の主旨に従い種々
の変形が可能であり、本発明はこれらを排除するもので
はない。

【００８６】

【発明の効果】以上本発明によれば、一度の辞書検索に
より複数の候補文字を読み出し、複数の候補文字と複数
の入力文字とを一度に照合して辞書検索を行うように構
成したから、辞書検索を高速に行うことができる。ま
た、本発明によれば、一度の辞書検索により複数の候補
文字と共に、複数のアドレスを読み出し、複数の候補文
字と複数の入力文字との比較照合結果（全部一致、先頭
不一致、一部一致等）に基づいて次に参照すべき候補文
字を直ちに所定のアドレスから読み出して比較照合する
ように構成したから、辞書検索を高速に行うことができ
る。

【００８７】更に、本発明によれば、検索済文字列に連
結する第１文字と、第１文字迄の文字列の番号（ω₁）
と、前記検索済文字列に連結する文字であって第１文字
とは別の文字の格納アドレス（next₁)と、第１文字に連
結する第２文字と、第２文字までの文字列の番号
（ω₂）と、前記第１文字と連結する文字であって第２
文字とは別の文字の格納アドレス（next₂)と、前記第２
文字に連結する第３文字の格納アドレス(first₂)と、第
１、第２文字のうち幾つ記憶されているかを示すフラグ
(flag)を辞書メモリ記憶するように構成したから、２つ
の入力文字と２つの候補文字である第１、第２文字の一
致照合に際して、第１入力文字と第１候補文字が異なる
場合にはアドレス（next₁)に基づい次のデータ要素を読
み出して一致照合を行い、第１入力文字と第１候補文字
が一致して第２入力文字と第２候補文字が異なる場合に
は、アドレス（next₂)に基づいて次のデータ要素を読み
出し、該第２入力文字以降の２つの入力文字と２つの候
補文字との一致照合を行い、２つの入力文字と前記第
１、第２候補文字が共に一致する場合には、アドレス(f
irst ₂)に基づいて次の２つの入力文字に対するデータ要
素を読み出して最長一致検索処理を続行でき、辞書検索
を高速に行うことができる。

【００８８】また、本発明によれば、検索済文字列に連
結する第１文字と、第１文字迄の文字列の番号（ω₁）
と、前記検索済文字列に連結する文字であって第１文字
とは別の文字と該文字迄の番号（ω₁）を格納するアド
レスを指定するlistn₁アドレスと、第１文字に連結する
第２文字と、第２文字までの文字列の番号（ω₂）と、
前記第１文字と連結する文字であって第２文字とは別の
文字と該文字迄の番号（ω₁）を格納するアドレスを指
定するlistn₂アドレスと、前記第２文字に連結する第３
文字と該第３文字迄の番号（ω₁)を格納するアドレスを
指定するlistf₂アドレスと、第１、第２文字のうち幾つ
記憶されているかを示すフラグ(flag)を辞書メモリに記
憶するように構成したから、２つの入力文字と２つの候
補文字である前記第１、第２文字の一致照合に際して、
第１入力文字と第１候補文字が異なる場合にはアドレス
(listn₁)に基づい次のデータ要素を読み出して一致照合
を行い、第１入力文字と第１候補文字が一致して第２入
力文字と第２候補文字が異なる場合には、アドレス（li
stn₂)に基づいて次のデータ要素を読み出し、該第２入
力文字以降の２つの入力文字と２つの候補文字との一致
照合を行い、２つの入力文字と前記第１、第２候補文字
が共に一致する場合には、アドレス(listf₂)に基づいて
次の２つの入力文字に対するデータ要素を読み出して最
長一致検索処理を続行でき、辞書検索を高速に行うこと
ができる。

【図面の簡単な説明】

【図１】本発明の原理説明図である。

【図２】本発明による辞書メモリの構造説明図である。

【図３】本発明による辞書内容説明図である。

【図４】本発明の符号化処理の第１の流れ図である。

【図５】本発明の符号化処理の第２の流れ図である。

【図６】辞書作成の過程を示す第１の図表である。

【図７】辞書作成の過程を示す第２の図表である。

【図８】辞書作成の過程を示す第３の図表である。

【図９】辞書作成の過程を示す第４の図表である。

【図１０】辞書作成の過程を示す第５の図表である。

【図１１】辞書作成の過程を示す第６の図表である。

【図１２】辞書作成の過程を示す第７の図表である。

【図１３】本発明による辞書検索回路の構成図である。

【図１４】本発明の別のデータ構造説明図である。

【図１５】本発明による辞書検索回路の別の構成図であ
る。

【図１６】ＬＺＷ符号化説明図である。

【図１７】辞書構成の説明図である。

【図１８】ＬＺＷ符号化のフローチャートである。

【図１９】ＬＺＷ復号化のフローチャートである。

【図２０】ＬＺＷ復号化の例外時における説明図であ
る。

【図２１】ＬＺＷ復号化説明図である。

【図２２】外部ハッシュ法の説明図

【図２３】外部ハッシュ法によるデータ構造説明図であ
る。

【図２４】外部ハッシュ法による辞書構造説明図であ
る。

【図２５】外部ハッシュ法によるＬＺＷ復号化の辞書検
索、辞書登録のフローチャートである。

【図２６】辞書登録の様子を示す第１の説明図表であ
る。

【図２７】辞書登録の様子を示す第２の説明図表であ
る。

【図２８】辞書登録の様子を示す第３の説明図表であ
る。

【図２９】従来の外部ハッシュ法による辞書検索回路の
構成図である。

【符号の説明】

１１辞書メモリ１２ＭＰＵ１３レジスタ部１４比較照合部１５アドレス選択部

───────────────────────────────────────────────────── フロントページの続き (72)発明者千葉広隆神奈川県川崎市中原区上小田中1015番地富士通株式会社内 (56)参考文献特開平４−123619（ＪＰ，Ａ) 特開平４−96868（ＪＰ，Ａ) 特開平４−96174（ＪＰ，Ａ) 特開平４−95161（ＪＰ，Ａ) 特開平３−179562（ＪＰ，Ａ) 特開昭61−13340（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 5/00 H03M 7/30 - 7/46

Claims

(57)【特許請求の範囲】

【請求項１】既に符号化済みの文字列を相異なる部分
文字列に分け、該部分文字列を辞書に登録しておき、入
力文字列と最長に一致する部分文字列を辞書から検索
し、該最長一致文字列の番号を指定して符号化するデー
タ圧縮における辞書検索方法において、検索済文字列に連結する複数の文字列における先頭から
の複数の候補文字が検索可能となるように複数のデータ
要素を前記検索済文字列が指定する記憶域に記憶して部
分文字列を辞書に登録し、最長一致文字列の検索に際して、検索済文字列に応じた
前記データ要素を辞書より一括して読み出し、前記データ要素に含まれる検索済文字列に連結する複数
個の候補文字と複数の入力文字とを比較して一致照合を
行い、一致している場合には、最後の一致文字の検索文字列に
応じたデータ要素を読み出して最長一致検索処理を続行
することを特徴とする辞書検索方法。
【請求項２】前記検索済文字列に連結する複数の候補
文字と複数の入力文字とを先頭より同時に比較し、全て
一致した場合には、以降の複数の候補文字と次の複数の
入力文字との一致照合を行い、先の入力文字が一致し、後の入力文字が一致しない場合
には、該先の入力文字から分岐する別の文字列の複数の
候補文字と、後の複数の入力文字との一致照合を行うこ
とを特徴とする請求項１記載の辞書検索方法。
【請求項３】前記データ要素は、検索済文字より連結
する第１文字と、第１文字迄の文字列の番号（ω₁）
と、前記検索済文字列に連結する文字であって第１文字
とは別の文字の格納アドレス（next₁)と、第１文字に連
結する第２文字と、第２文字までの文字列の番号
（ω₂）と、前記第１文字と連結する文字であって第２
文字とは別の文字の格納アドレス（next₂)と、前記第２
文字に連結する第３文字の格納アドレス(first₂)と、第
１、第２文字のうち幾つ記憶されているかを示すフラグ
(flag)を有し、第１、第２の２つの入力文字と２つの候補文字である前
記第１、第２文字の一致照合に際して、第１入力文字と
第１候補文字が異なる場合にはアドレス（next ₁)に基づ
き次のデータ要素を読み出して一致照合を行い、第１入
力文字と第１候補文字が一致して第２入力文字と第２候
補文字が異なる場合には、アドレス（next₂)に基づいて
次のデータ要素を読み出し、該第２入力文字以降の２つ
の入力文字と２つの候補文字との一致照合を行い、２つ
の入力文字と前記第１、第２候補文字が共に一致する場
合には、アドレス(first₂)に基づいて次の２つの入力文
字に対するデータ要素を読み出して最長一致検索処理を
続行することを特徴とする請求項１記載の辞書検索方
法。
【請求項４】前記データ要素は、検索済文字列に連結
する第１文字と、第１文字迄の文字列の番号（ω₁）
と、前記検索済文字列に連結する文字であって第１文字
とは別の文字と該文字迄の番号（ω₁）を格納するアド
レスを指定するデータ（listn₁)と、第１文字に連結す
る第２文字と、第２文字までの文字列の番号（ω₂）
と、前記第１文字と連結する文字であって第２文字とは
別の文字と該文字迄の番号（ω₁）を格納するアドレス
を指定するデータ（listn₂)と、前記第２文字に連結す
る第３文字と該第３文字迄の番号（ω₁)を格納するアド
レスを指定するデータ(listf₂)と、第１、第２文字のう
ち幾つ記憶されているかを示すフラグ(flag)を有し、第１、第２の２つの入力文字と２つの候補文字である前
記第１、第２文字の一致照合に際して、第１入力文字と
第１候補文字が異なる場合にはアドレスデータ(listn₁)
に基づき次のデータ要素を読み出して一致照合を行い、
第１入力文字と第１候補文字が一致して第２入力文字と
第２候補文字が異なる場合には、アドレスデータ（list
n₂)に基づいて次のデータ要素を読み出し、該第２入力
文字以降の２つの入力文字と２つの候補文字との一致照
合を行い、２つの入力文字と前記第１、第２候補文字が
共に一致する場合には、アドレスデータ(listf₂)に基づ
いて次の２つの入力文字に対するデータ要素を読み出し
て最長一致検索処理を続行することを特徴とする請求項
１記載の辞書検索方法。