JPH0496174A

JPH0496174A - 辞書検索方式

Info

Publication number: JPH0496174A
Application number: JP2211295A
Authority: JP
Inventors: Shigeru Yoshida; 茂吉田; Yasuhiko Nakano; 泰彦中野; Yoshiyuki Okada; 佳之岡田; Hirotaka Chiba; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1990-08-08
Filing date: 1990-08-08
Publication date: 1992-03-27
Anticipated expiration: 2013-07-02
Also published as: JP2772125B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔目　次〕概要産業上の利用分野従来の技術発明が解決しようとする課題課題を解決するための手段作用実施例発明の効果〔概　要〕例えば増分分解型のＺｉｖ−Ｌｅｍｐｅｌ符号化の際な
どに用いられる辞書検索方式に関し、高速に辞書を検索することを目的とし、入力された参照
番号と文字とで表される文字列を検索する辞書検索方式
において、辞書は、参照番号に対応し、この参照番号の
文字列に１文字を付加した候補文字列の少なくとも１つ
に対応する識別情報と他の候補文字列の格納場所を示す
ポインタとを格納する索引と、最後の１文字が異なる少
なくとも１つの候補文字列に対応する識別情報と他の候
補文字列の格納場所を示すポインタとを格納する複数の
リストとを有し、辞書に対して、最初は、入力された参
照番号に基づいて索引を指定し、以後は、辞書によって
出力されたポインタで示されるリストを指定して、格納
内容の出力を指示する読出手段と、辞書から読み出され
る識別情報のそれぞれと入力文字とを比較する複数の比
較手段を有し、辞書から読み出される候補文字列の中か
ら該当する文字列を検出する検出手段と、辞書から読み
出されたポインタに基づいて、読出済でない候補文字列
があるか否かを判定する判定手段とを備え、読出手段と
検出手段と判定手段とがそれぞれ独立に動作するように
構成する。

〔産業上の利用分野〕

本発明は、ユニバーサル符号の一種である増分分解型の
Ｚｉｖ−Ｌｅｍｐｅｌ符号化の際などに用いられる辞書
検索方式に関する。

近年、文字コード、ベクトル情報９画像情報など様々な
種類のデータがコンピュータによって扱われるようにな
っており、また、扱われるデータ量も栄、速に増大して
いる。

このような膨大なデータを蓄積したり伝送したりする際
には、データの中に含まれている冗長な部分を省いてデ
ータ量を圧縮することが望ましい。

このため、データの種類にかかわらず、効率よくデータ
を圧縮する方法が望まれている。

ユニバーサル符号化方式は、予め符号表を定めておく必
要がないため、上述した様々なデータの圧縮に適用する
ことができるという特徴を有している。

ここで、本明細書においては、データの１語単位をｒ文
字Ｊと称し、連続した複数語のデータをｒ文字列」と称
する。

ジブーレンペル（Ｚｉｖ−Ｌｅ信ｐｅｌ）符号は、上述
したユニバーサル符号の代表的な方法であり（宗像著’
Ｚｉｖ−Ｌｅｍｐｅｌのデータ圧縮法」、情報処理、　
Ｖｏｌ。

２６、ＮＯ，１，１９８５参照）、ユニバーサル型のア
ルゴリズムと増分分解型のアルゴリズムとが提案されて
いる。更に、ユニバーサル型アルゴリズムの改良として
、ＬＺＳＳ符号（Ｔ、Ｃ，Ｂｅ１ｌ、”Ｂｅｔｔｅｒ　
ＯＰＭ／ＬＴｅｘｔ　Ｃｏｍｐｒｅｓｓｉｏｎ’、ＩＨ
ＥＥ　Ｔｒａｎｓ、ｏｎ　Ｃｏｍｍｕｎ、、Ｖｏｌ。

Ｃ０Ｍ−３４，Ｎｏ、１２．Ｄｅｃ、１９８６参照）が
あり、増分分解型アルゴリズムの改良として、ＬＺＷ符
号（Ｔ、Ａ。

Ｗｅｌｃｈ、”Ａ　　Ｔｅｃｈｎｉｑｕｅ　　ｆｏｒ　
　Ｈｉｇｈ−Ｐｅｒｆｏｒ＋ｗａｎｃｅ　　ＤａｔａＣ
ｏｍｐｒｅｓｓｉｏｎ’、Ｃｏｍｐｕｔｅｒ、Ｊｕ、ｎ
ｅ　１９８４）がある。

これらの符号化方式のうち、高速処理が可能であること
とアルゴリズムが簡単であることから、ＬＺＷ符号が記
憶装置のファイル圧縮などで使われるようになっている
。

〔従来の技術〕

増分分解型アルゴリズムは、入力された文字列を、既に
辞書に登録された部分列に１文字を増分として付加して
形成される成分の系列に分解し、この成分の系列を登録
された部分列に対応する参照番号と増分とで表すことに
より、入力文字列を符号化するものである。また、上述
した成分は、新しい部分列として辞書に登録され、以降
の符号化処理に用いられるようになっている。

更に、ＬＺＷ符号においては、上述した増分を次の部分
列に組み込むようになっている。

以下、簡単のために、入力文字列として、　ａ“ｂ”、
”ｃ”の３文字からなる文字列”ａｂａｂｃｂａｂａｂ
ａａａａａ・−−”　（第４図（ａ）参照）が入力され
た場合について、このＬＺＷ符号化方式について説明す
る。

この場合は、上述した３文字“ａ　、“′ｂ゛。

Ｃ”に参照番号ｒｌ」、’２Ｊ、ｆ３Ｊを与えて辞書に
登録して、符号化処理を開始する。

まず、入力文字列の先頭の文字（例えば文字“ａパ）を
読み込み、辞書からこの文字を検索し、この文字に対応
する参照番号（例えば「ＩＪ）を着目している文字列に
対応する符号ωとする。

その後、入力文字列の２番目以降の各文字を順次に読み
込んで、この文字を上述した増分に相当する拡張文字に
とし、上述した符号ωとこの拡張文字にとの組合せ（ω
Ｋ）で表される部分列（ωＫ）（以下、組合せ（ωＫ）
を部分列の表現と称する）を辞書から検索する。該当す
る部分列（ωＫ）が検索された場合は、上述した部分列
（ωＫ）に対応する参照番号を新しい符号ωとして、更
に、入力文字列の次の文字を読み込んで、上述した処理
を繰り返す。

このようにして、符号化しようとする文字列を順次に１
文字ずつ延ばしていき、辞書からこの文字列を順次に検
索することにより、辞書に登録された部分列の中から、
入力文字列の注目している部分と最も長く一致する部分
列が検索され、この部分列に対応する参照番号が、該当
する符号ωとして出力される。また、このとき、参照番
号ωに対応する部分列（ω）に拡張文字Ｋを継ぎ足した
部分列が、参照番号ωと拡張文字にとの組合せ（ωＫ）
で表され、参照番号が与えられ、新しい部分列として辞
書に登録される。

このようにして、第４図（ａ）に示した文字列は、図に
おいて下線を付して示した部分列に分解され、第４図０
））に示すように、各部分列に対応する符号ｒ１１．ｒ
２」、ｒ４」、・・・が出力される。また、第４図（Ｃ
）に入力文字列と辞書に登録された部分列との対応関係
を、第１表に作成された辞書の例を示す。

（重置以下余白）第１表また、上述したＬＺＷ符号化処理の際に作成された辞書
は、第５図に示すように、樹状の構成を持っており、辞
書の要素のそれぞれは、辞書の樹の各節点に対応してい
る。第５図において、各節点に括弧を付して示した数字
は、対応する辞書の要素の参照番号を示している。

ここで、上述した符号化処理における部分列の検索の際
に、辞書に登録された要素を順次に検索するのでは、処
理に要する時間が長くなるので、辞書の検索処理にハツ
シュ法を適用して高速化を図っている。

ハツシュ法は、文字列からなる集合Ｓの要素Ｘからこの
要素Ｘの格納場所のアドレスを求める関数（ハツシュ関
数）を定義し、このハツシュ関数によって求められたア
ドレスに要素Ｘを格納するようにしたものである。また
、上述したハツシュ関数によって求められるアドレスを
ハツシュアドレスと称する。

例えば、上述した参照番号ωと拡張文字にとを２進数で
表し、これを組合せ（ωＫ）のハツシュアドレスとすれ
ばよい。しかしながら、この場合は、辞書に膨大な容量
を割り当てる必要がある。

このため、ハツシュアドレスごとに、同じハツシュアド
レスを有する要素を格納するリストを設けるようにした
外部ハツシュ法が用いられている。

この外部ハツシュ法においては、第６図に示すように、
索引部をハツシュアドレスで検索することにより、該当
するリストが示されるようになっている。また、各リス
トには、各要素に対応する識別情報と次の要素の格納場
所を示すポインタとが格納されており、順次に探索でき
るようになっている。

例えば、上述した参照番号ωをハツシュアドレスとし、
このハツシュアドレスに、参照番号ωに対応する部分列
に１文字を付加した部分列を格納するリストの先頭アド
レスを格納し、該当するリストに、上述した参照番号ω
に対応する節点のｒ子ｊに相当する節点に対応する部分
列を順次に格納すればよい。この場合は、各要素の拡張
文字Ｋを対応する識別情報としてリストに格納すればよ
い。

第７図に、辞書の検索に外部ハツシュ法を用いた場合の
符号化動作を表す流れ図を示す。

上述したように、入力文字列の少なくとも最初の文字を
含むように辞書を初期化し、変数ｎに次に登録される部
分列に与えられる参照番号をセットする。例えば、文字
“ａ″、“ｂ”、“Ｃ”に与えた参照番号ｒｌｊ、ｒ２
１．ｒ３ｊをハツシュアドレスとして辞書に格納し、変
数ｎに数値ｒ４Ｊをセットすればよい。ここで、辞書に
登録できる部分列の最大数をＮ□８とし、それぞれＮ。

Ｘ個の成分からなる配列Ｆｉｒｓｔ、配列Ｎｅｘｔ、配
列Ｅｘｔを定義し、これらの配列の全ての成分に初期値
ｒＯＪを設定する。この配列Ｆｉｒｓｔは、第６図に示
した索引部に相当し、配列Ｎｅｘ　ｔおよび配列Ｅｘｔ
はリストに相当している。従って、配列Ｆｉｒｓｔのｉ
番目の成分Ｆｉｒｓｔ［ｉｌには、参照番号ｉの節点に
対応するリストの先頭となる配列Ｎｅｘｔの成分を示す
番号が設定される。また、配列ＥｘｔＯ１番目の成分Ｅ
ｘｔ［ｉｌには、参照番号ｉで示される辞書の要素の拡
張文字Ｋが設定される。また、配列ＮｅｘｔＯ１番目の
成分Ｎｅｘｔ［ｉｌ　には、参照番号ｉの要素のｒ兄弟
」に相当する要素を示すポインタが設定される。

次に、最初の文字Ｋを読み込んで、この文字Ｋに対応す
る参照番号を変数ｉに設定して、符号化処理を開始する
。

まず、拡張文字にとして、入力文字列の次の文字を読み
込んで（ステップ７０１）、その次に読み込むべき文字
があれば、ステップ７０２における肯定判定となり、辞
書の検索処理を開始する。

この場合は、変数ｉを別の変数ωに退避し、変数ｊに初
期値「０」を設定してから（ステップ７０３）、変数ｉ
に対応する成分Ｆｉｒｓｔ［ｉｌの値で示される配列Ｎ
ｅｘｔの成分の番号を、変数ｉに設定する（ステップ７
０４）。

ステップ７０５において、変数ｉが数値「０」でないと
判定された場合（否定判定）は、該当するリストに格納
された要素を候補要素として、このリストにおける探索
処理を開始する。

この場合は、該当する要素の拡張文字を示す成分Ｅｘｔ
　［ｉｌと拡張文字にとを比較しくステップ７０６）、
このステップ７０６における否定判定の場合は、ステッ
プ７０７において、成分Ｎｅｘｔ［ｉｌ　に設定された
次の要素のポインタを新しい変数ｉとして、ステップ７
０５に戻る。このようにして、ステップ７０５〜ステツ
プ７０７を繰り返して、該当するリストを探索する。

ステップ７０６において、成分Ｅｘｔ［ｉｌ　＝　Ｋと
なった場合（肯定判定）は、入力された文字列と一致す
る部分列が辞書に登録されていると判断し、ステップ７
０１に戻って次の文字を読み込み、この文字を付加した
文字列の符号化を行う。

一方、変数ｉに対応する成分Ｆｉｒｓｔ［ｉｌあるいは
成分Ｎｅｘｔ　［ｉｌ　の値がｒＱＪであった場合は、
ステップ７０５における肯定判定となる。

ここで、成分Ｆｉｒｓｔ［ｉｌの値がｒＯＪである場合
は、変数ｉの節点のｒ子ｊに相当する要素がまだ登録さ
れていないため、該当するリストが定義されていないこ
とを示している。一方、成分Ｎｅｘｔ［ｉｌの値がｒＱ
Ｊである場合は、該当するリストの中に求める部分列が
格納されていないことを示している。

いずれの場合においても、ステップ７０３において変数
ωに退避された参照番号が、入力された文字列に最も長
く一致する登録された部分列を示しており、この参照番
号ωに対応する符号を出力して（ステップ７０８）、新
しい部分列の登録処理を行う。

まず、変数ｎの値を変数ｉに設定するとともＧこ、変数
ｎをインクリメントし、また、変数ｉに対応する成分Ｅ
ｘｔ［ｉｌに拡張文字Ｋを設定する（ステップ７０９）
。

次に、変数ｊの値がｒＯｊであるか否かを判定しくステ
ップ７１０）、肯定判定の場合獣成分Ｆｉｒｓｔ［ω］
に変数ｉを設定して（ステ・ンブ７１１）、参照番号ω
に対応するリストを定義する。一方、ステップ７１０に
おける否定判定の場合（ま、成分Ｎｅｘｔ［ｊ］　に変
数ｉを設定して（ステップ７１２）、該当するリストに
新しいｒ兄弟」を付は加える。

このようにして、登録処理が終了した後に、拡張文字Ｋ
に対応する参照番号を変数ｉとして（ステップ７１３）
、ステ・ンブ’７０１に戻って上述した処理を繰り返し
、読み込むべき文字がなくなったときに、ステップ７０
２における否定判定となり、そのときの変数ωに対応す
る符号を出力して（ステップ７１４）処理を終了する。

（発明が解決しようとする課題〕ところで、上述した従来方式にあっては、リストの検索
処理において、該当するリストがあるか否かおよび次の
要素がリストにあるか否かを判定する連結判定処理、入
力された拡張文字と一致する候補文字を検出する一致検
出処理、次のポインタを設定して辞書から読み出す読出
処理、の３つの処理が順次に行われている。このように
、ソフトウェアで順次にリストを手繰る処理を行うと、
部分列の検索処理に時間がかかるため、符号化処理速度
は数１０ＫＢ／ｓ程度となる。このため、磁気テープ装
置や磁気ディスク装置などへの転送速度（数１００ＫＢ
／Ｓ〜数ＭＢ／ｓ）に合わせて実時間で符号化処理を行
うことができないという問題点があった。

一方、上述した符号化処理の各ステップをそれぞれ独立
な素子を用いてデータ圧縮装置を構成すれば、符号化処
理の高速化を図ることが可能であるが、回路規模が大き
くなり、コストが高くなるという欠点がある。

ここで、上述した従来例においては、簡単のために３文
字からなる文字列を符号化する場合について説明したが
、実際の文字列は多くの文字から構成されている。従っ
て、通常、辞書の検索処理においては、ある参照番号に
対応するリストを手繰って、「兄弟ｊに相当する候補要
素を順次に読み出して、一致する要素を検出する処理お
よび連結する要素の有無を検出する処理に最も長い時間
を要している。

本発明は、このような点にかんがみて創作されたもので
あり、高速に辞書の検索を行うようにした辞書検索方式
を提供することを目的とする。

〔課題を解決するための手段〕

第１図は、本発明の原理ブロック図である。

ｆｉの　■ 図において、それぞれに与えられた参照番号に対応して
辞書１１０に登録された相異なる文字列の中から、入力
された参照番号と文字とで表される文字列を検索する辞
書検索方式における辞書１１０は、参照番号に対応し、
当該参照番号が与えられた文字列に１文字を付加して得
られる候補文字列の少なくとも１つに対応する識別情報
と他の候補文字列の格納場所を示すポインタとを格納す
る索引１１１と、最後の１文字が異なる少なくとも１つ
の候補文字列に対応する識別情報と他の候補文字列の格
納場所を示すポインタとを格納する複数のりスト１１２
とを有している。

読出手段１２１は、辞書１１０に対して、最初は、入力
された参照番号に基づいて索引１１１に格納されたポイ
ンタと識別情報との出力を指示し、以後は、辞書１１０
によって出力されたポインタで示されるリスト１１２を
指定して格納されたポインタと識別情報との出力を指示
する。

検出手段１２３は、辞書１１０から読み出される少なく
とも１つの識別情報のそれぞれと入力文字とを比較する
複数の比較手段１２２を有し、辞書１１０から読み出さ
れる候補文字列の中から該当する文字列を検出し、この
検出結果を検索結果として出力する。

判定手段１２４は、辞書１１０から読み出されたポイン
タに基づいて、読出済でない候補文字列があるか否かを
判定し、この判定結果を検索結果として出力する。

全体として、読出手段１２１と検出手段１２３と判定手
段１２４とがそれぞれ独立に動作するように構成されて
いる。

ｉｉ”；２の　日“ 請求項２の発明における読出手段１２１は、定の時間間
隔で辞書１１０に対する読出動作を起動し、請求項１の
発明による辞書検索方式において、検出手段１２３によ
る検出動作と判定手段１２４による判定動作とを読出手
段１２１による読出動作と並行して行うように構成され
ている。

〔作　用〕

ｉ　−）　１の辞書１１０の索引１１１には、参照番号に対応して、こ
の参照番号に対応する文字列に１文字を付加して得られ
る候補文字列の少なくとも１つに対応する識別情報と他
の候補文字列の格納場所を示すポインタとが格納されて
いる。また、複数のリスト１１２のそれぞれには、最後
の１文字が相異なる少なくとも１つの候補文字列のそれ
ぞれに対応する識別情報と他の候補文字列の格納場所を
示すポインタとが格納されている。

上述した索引ｉｌｌは、外部ハツシュ法の索引部に相当
しており、複数のりスト１１２のそれぞれは、外部ハツ
シュ法のリストに相当している。

また、上述したように、索引１１１および複数のリスト
のそれぞれに格納されているポインタにより、これらの
連結関係が示されている。また、識別情報としては、候
補文字列に与えられた参照番号と最後の１文字とを格納
すればよい。

最初は、読出手段１２１により、辞書１１０に対して、
入力された参照番号に基づいて索引１１１に格納されて
いる少なくとも１つの候補文字列に対応する識別情報と
ポインタとの出力が指示され、以後は、この読出手段１
２１により、辞書１１０によって出力されたポインタに
よって示されるリスト１１２に格納されたポインタと識
別情報との出力が指示される。このようにして、索引１
１１に続いて、上述したポインタによって連結されたり
スト１１２から、少な（とも１つずつの候補文字列が次
々に読み出される。

上述したようにして、辞書１１０から読み出される少な
くとも１つの識別情報のそれぞれと入力文字とが、複数
の比較手段１２２によって比較され、この比較結果に基
づいて、検出手段１２３により、該当する文字列の検出
が行われる。例えば、識別情報として候補文字列の参照
番号と最後の１文字とを格納するようにした場合は、上
述した比較手段１２２により、入力文字と各識別情報に
含まれる最後の１文字とを比較し、これらの文字が一致
したときに、検出手段１２３により、該当する文字列を
検出した旨を検索結果として出力すればよい。

また、辞書１１０から読み出されたポインタに基づいて
、判定手段１２４により、読出済でない候補文字列があ
るか否かが判定される。例えば、ポインタによって、次
に連結されるリストの格納場所が示されていない場合に
、読出済でない候補文字列がないと判定し、この判定結
果を検索結果として出力すればよい。

請求項１の発明においては、辞書１１０の索引１１１お
よび複数のりスト１１２のそれぞれに、少なくとも１つ
の候補文字列が格納されており、検出手段１２３には、
複数の比較手段１２２が備えられている。これにより、
少なくとも１つの候補文字列を同時に読み出し、これら
の候補文字列についての一致検出処理を同時に行うこと
ができる。また、読出手段１２１と検出手段１２３と判
定手段１２４とが、それぞれ独立に動作するので、従来
方式のように、前の処理の終了を待つ必要がなく、辞書
の検索処理を高速化することが可能となる。

ｉｉ　″）　２の請求項２の発明において、読出手段１２１は、所定の時
間間隔で辞書１１０に対する読出動作を行い、また、検
出手段１２３による検出動作と判定手段１２４による判
定動作とが、読出手段１２１による読出動作と並行して
行われる。

例えば、上述した読出手段１２１は、辞書１１０からの
読出動作に要する時間ごとに読出動作を行うようにすれ
ばよい。通常は、読出動作に要する時間に比べて、検出
手段１２３による検出動作および判定手段１２４による
判定動作は短い時間で終了すると考えられ、読出動作と
検出動作および判定動作とを並行して行うことにより、
検索処理をパイプライン化して処理することができる。

従って、請求項２の発明にあっては、少なくとも１つの
候補文字列を同時に読み出し、これらの候補文字列につ
いての一致検出動作を同時に行うとともに、読出動作と
一致検出動作および判定動作とをパイプライン化して処
理することにより、辞書１１０からの文字列の検索処理
を高速化することが可能となる。

Ｃ実施例〕以下、図面に基づいて本発明の実施例について詳細に説
明する。

第２図は、本発明の一実施例による辞書検索方式を適用
したデータ圧縮装置の構成を示す。

ここで、第１図と実施例との対応関係について説明して
おく。

辞書１１０は、辞書２３０に相当する。

索引１１１は、索引部２３１に相当する。

リスト１１２は、リスト部２３２に相当する。

読出手段１２１は、候補要素保持部２４１とタイミング
制御回路２４４とに相当する。

比較手段１２２は、比較回路２６２ａ、２６２ｂに相当
する。

検出手段１２３は、拡張文字レジスタ２６１と比較回路
２６２ａ、２６２ｂとに相当する。

判定手段１２４は、否定論理和（ＮＯＲ）回路２４３に
相当する。

以上のような対応関係があるものとして、以下実施例の
構成および動作を説明する。

第２図において、２０１はマイクロプロセッサ（ＭＰＵ
）を、２０２は入力ポートを、２３０は辞書を、２４０
は辞書検索回路を、２０５は出力ポートをそれぞれ示し
ている。また、上述したＭＰＵ２０１と、入力ポート２
０２と辞書２３０と辞書検索回路２４０と出力ポート２
０５とは、バス２０６を介して相互に接続されている。

また、入力ポート２０２を介して入力された文字列は、
ＭＰＵ２０１によりＬＺＷ符号化され、出力ポート２０
５を介して、磁気ディスク装置（図示せず）などに転送
されて蓄積されるようになっている。

辞書２３０には、それまでに入力された文字列に含まれ
る相異なる部分列のそれぞれが、出現順に与えられた参
照番号に対応して登録されており、入力された文字列の
着目している部分に最も長く一致する部分列を辞書２３
０から検索し、この部分列に対応する参照番号によって
符号化するようになっている。

ＭＰＵ２０１は、ＬＺＷ符号化処理の際に、辞書検索回
路２４０に、入力文字列の着目している部分に関する識
別情報を導入し、この識別情報に基づいて、辞書検索回
路２４０は、該当する部分列を辞書２３０から検索する
ようになっている。

ここで、ＬＺＷ符号化方式においては、部分列は参照番
号ωと拡張文字にとで表される、。従って、着目してい
る部分をそれまでに検索された部分列に対応する参照番
号ωと、この部分列に拡張文字として付加される最後の
１文字にとで表し、この参照番号ωと拡張文字にとを識
別情報として導入すればよい。

また、辞書検索回路２４０は、辞書２３０に登録されて
いる部分列のうち、上述した参照番号ωに対応する部分
列にそれぞれ異なる文字を付加して登録された部分列を
候補要素として順次に読み出し、これらの候補要素の中
から該当する部分列を検索するようになっている。

ここで、上述した辞書２３０は、外部ハツシュ法の索引
に相当する索引部２３１と、外部ハツシュ法のリストの
集まりに相当するリスト部２３２とから構成されている
。

第３図に、辞書２３０から上述した候補要素を２つずつ
読み出すようにした場合の索引部２３１とリスト部２３
２との構成を示す。

索引部２３１は、第３図に示すように、参照番号のそれ
ぞれに対応する格納領域から形成されている。また、こ
れらの格納領域のそれぞれは、連結しているリストの辞
書２３０におけるアドレスを示すポインタを格納するポ
インタ部と、２つの候補要素に対応する識別情報を格納
する識別情報部と、この識別情報部に格納されている識
別情報の数を示すフラグを格納するフラグ部とを備えて
構成されている。また、この索引部２３１は、参照番号
を指定した読出指示に応じて、該当する格納領域の各部
のデータを同時にバス２０６に出力するようになってい
る。

ここで、参照番号ωに対応する格納領域の識別情報部に
は、候補要素の識別情報として、該当する参照番号ω１
．ω２と、各候補要素の最後の１文字に、、に、とを格
納すればよい。例えば、第３図に示したように、識別情
報格納部を２つの参照番号部（図において、■、■で示
す）と２つの文字部（図において、■、■で示す）とで
構成し、２つの参照番号部に上述した参照番号ω１．ω
２を、２つの文字部に上述した文字に＋　、に２をそれ
ぞれ格納すればよい。以下、上述した２つの候補要素の
一方を第１候補要素と称し、他方を第２候補要素と称す
る。

また、上述した識別情報部に第１候補要素に対応する識
別情報のみが格納されている場合に、フラグを論理“１
”とし、その他の場合はフラグを論理“Ｏパとすればよ
い。

また、リスト部２３２は、複数のリストから構成されて
おり、各リストは、上述した索引部２３Ｉの各格納領域
と同様に、ポインタ部と識別情報部とフラグ部とから構
成されている。また、リスト部２３２は、読出指示に応
じて、指定されたリストの各部のデータを同時に、バス
２０６に出力するようになっている。

このリスト部２３２の各リストのポインタ部には、該当
するリストに連結されている他のリストの辞書２３０に
おけるアドレスを示すポインタが格納されている。また
、識別情報部は２つの参照番号部と２つの文字部とから
構成されており、これらの各部には、上述した索引部２
３１の識別情報部と同様に、２つの候補要素に対応する
参照番号と最後の１文字とが格納されるようになってい
る。例えば、上述した索引部２３１の参照番号ωに対応
する格納領域に連結されたリストには、第３図に示すよ
うに、第１候補要素の識別情報として参照番号ω３と文
字に、とが、第２候補要素の識別情報として参照番号ω
４と文字に４とが格納されている。

また、上述した索引部２３１およびリスト部２３２の各
領域の内容には、符号化処理を開始する際に、初期値ｒ
□、が設定されるようになっている。

辞書検索回路２４０は、辞書２３０から読み出された候
補要素に関する情報を保持する候補要素保持部２４１と
、導入される候補要素の中から最後の文字が拡張文字に
と一致する要素を検出する一致検出部２４２と、否定論
理和（ＮＯＲ）回路２４３と、これらの各部の動作のタ
イミングを制御するタイミング制御回路２４４とを備え
て構成されている。

上述した候補要素保持部２４１には、バス２０６を介し
て、辞書２３０の索引部２３１およびリスト部２３２に
よって出力されたデータが導入されている。また、この
候補要素保持部２４１は、２つのアドレスレジスタ２５
１ａ　　２５１ｂと、２つの候補文字レジスタ２５２ａ
、２５２ｂと、２つの参照番号レジスタ２５３ａ、２５
３ｂと、フラグレジスタ２５４とから構成されている。

バス２０６を介して導入されるデータのうち、ポインタ
部はアドレスレジスタ２５１ａに、フラグ部はフラグレ
ジスタ２５４に導入されている。

また、識別情報部の第１候補要素の参照番号と文字とは
、参照番号レジスタ２５３ａと候補文字レジスタ２５２
ａとのそれぞれに導入され、第２候補要素の参照番号と
文字とは、参照番号レジスタ２５３ｂと候補文字レジス
タ２５２ｂとのそれぞれに導入されるようになっている
。

上述した各レジスタは、タイミング制御回路２４４から
導入されるロード信号に応じて、導入されたデータを格
納するように構成されている。

また、アドレスレジスタ２５１ａの出力は、アドレスレ
ジスタ２５１ｂとＮＯＲ回路２４３とに導入されるとと
もに、読出アドレスとして、辞書２３０に入力されるよ
うになっている。

一致検出部２４２は、上述した拡張文字Ｋを格納する拡
張文字レジスタ２６１と、２つの比較回路２６２ａ、２
６２ｂとから構成されている。

比較回路２６２ａ、２６２ｂは、上述した候補要素保持
部２４１の２つの候補文字レジスタ２５２ａ、２５２ｂ
に格納された候補文字のそれぞれと拡張文字レジスタ２
６１に格納された拡張文字にとを比較し、一致したとき
に論理“１′′を出力するように構成されている。

また、一致検出部２４２には、上述した候補要素保持部
２４１のフラグレジスタ２５４に保持されたフラグが導
入されており、一致検出部２４２は、上述した２つの比
較回路２６２ａ、２６２ｂによる比較結果とこのフラグ
とに基づいて、該当する部分列を検出したか否かを判定
し、ＭＰＵ２０１に通知するように構成されている。

例えば、フラグレジスタ２５４に論理“０″が設定され
ている場合は、一致検出部２４２は、比較回路２６２ａ
、２６２ｂによる比較結果をそのまま出力し、一方、論
理“ｌ”の場合は、比較回路２６２ｂによる比較結果を
無効として論理°“０゛にリセットして出力すればよい
。

また、ＮＯＲ回路２４３には、上述したアドレスレジス
タ２５１ａの出力が導入されており、このＮＯＲ回路２
４３の出力は、ＭＰＵ２０１に導入されている。

タイミング制御回路２４４は、辞書２３０に対して読出
アドレスで指定された格納領域のデータの出力を指示す
る読出信号を出力するとともに、ロード信号を出力して
、上述した候補要素保持部２４１の各レジスタにデータ
を格納するタイミングの制御を行うようになっている。

以下、辞書検索回路２４０による辞書２３０の検索動作
について説明する。

まず、ＭＰＵ２０１は、入力ボート２０２を介して新た
に入力された１文字を辞書検索回路２４０の拡張文字レ
ジスタ２６１に入力するとともに、着目している文字列
に対応する参照番号ωをアドレスレジスタ２５１ａに入
力して、参照番号ωと拡張文字にとで表される部分列の
検索動作の開始を指示する。

例えば、第４図（ａ）に示した文字列の最初の文字ａ”
に対応するハツシュアドレスとして、この文字“ａ”に
与えられた参照番号（例えば「１」）を求め、このハツ
シュアドレスをアドレスレジスタ２５１ａに入力する。

また、次の文字“ｂ”を読み込んで、この文字“ｂ”を
拡張文字にとして拡張文字レジスタ２６１に入力し、辞
書検索回路２４０のタイミング制御回路２４４に検索動
作の開始を指示すればよい。

上述した検索開始指示に応じて、タイミング制御回路２
４４は、辞書２３０に読出信号を導入する。これにより
、上述したアドレスレジスタ２５ｌａに格納された参照
番号を読出アドレスとして、辞書２３０からの読出動作
が起動され、索引部２３１の該当する格納領域のデータ
が、バス２０６を介して辞書検索回路２４０に導入され
る。

タイミング制御回路２４４は、上述した読出信号を出力
してから辞書２３０からのデータの読出動作に要する時
間（読出サイクル時間）τだけ経過した後に、候補要素
保持部２４１の各レジスタにロード信号を導入する。

これにより、アドレスレジスタ２５１ａには、索引部２
３１の該当する格納領域のポインタ部から読み出された
ポインタが格納され、このポインタが、次の読出アドレ
スとなる。また、このとき、直前の読出動作に用いられ
たポインタが、アドレスレジスタ２５１ｂに保持される
。

以後、タイミング制御回路２４４は、ＭＰＵ２０１から
の指示がない限り、読出信号を出力し、その後上述した
読出サイクル時間τの経過後にロード信号を出力する動
作を繰り返す。

このようにして、上述した読出サイクル時間τごとに、
辞書２３０からの候補要素の読出動作が行われ、最初は
索引部２３１から、次はリスト部２３２から、順次に候
補要素が読み出される。

ここで、上述した一致検出部２４２は、候補要素保持部
２４１とは独立に動作する。従って、上述した読出動作
と並行して、一致検出部２４２の比較回路２６２ａ、２
６２ｂにより、その前に読み出されて候補文字レジスタ
２５２ａ、２５２ｂに格納された２つの文字のそれぞれ
と、拡張文字にとの比較が行われている。

上述したように、一致検出部２４２は、フラグレジスタ
２５４に格納されたフラグに応して、比較回路２６２ａ
、２６２ｂのそれぞれの出力を一致検出結果として出力
する。従って、ＭＰＵ２０１は、上述した比較回路２６
２ａ、２６２ｂのいずれかによる一致検出結果として、
論理“１パが導入されたときに、以下に述べる割り込み
処理を行えばよい。

例えば、比較回路２６２ｂによる一致検出結果として論
理“１”が入力された場合は、ＭＰＵ２０１は、符号化
しようとしている文字列と参照番号レジスタ２５３ｂに
格納された参照番号で示される第２候補要素とが一致し
たと判断する。この場合は、ＭＰＵ２０１は、参照番号
レジスタ２５３ｂから該当する参照番号を読み出してア
ドレスレジスタ２５１ａに入力するとともに、入力文字
列の次の１文字を読み込んで、新しい拡張文字にとして
拡張文字レジスタ２６１に入力する。

その後、ＭＰＵ２０１は、辞書検索回路２４０に検索動
作の開始を指示すればよい。

ここで、例えば、拡張文字Ｋが初期値ｒＱＪと同じビッ
トパターンで表される場合は、該当する要素が辞書２３
０に登録されていない場合であっても、比較回路２６２
ａ、２６２ｂの少なくとも一方により、一致したことを
示す論理“ｌ”が出力される可能性がある。しかし、上
述したように、フラグにより、第１候補要素のみが格納
されていることが示されている場合は、第２候補要素に
ついての一致検出結果は無効とされ、比較回路２６２ｂ
の出力は論理“０”にリセットされてから出力されるの
で、この場合に、誤って定義されていない要素を検索す
ることはない。また、第１候補要素も定義されていない
場合は、２つの比較回路２６２ａ、２６２ｂの出力がと
もに論理ＩＩ　Ｉ　Ｉ＋となる。この場合は、ＭＰＵ２
０１側で、例えば、上述した割り込み処理の最初で、一
致検出結果が両方とも論理“ｌ”であるか否かを判定し
、肯定判定の場合は該当する部分列が検出されたのでは
ないと判断して排除すればよい。

また、一致検出部２４２と同様に、ＮＯＲ回路２４３も
独立して動作している。従って、上述した読出動作と並
行して、このＮＯＲ回路２４３により、アドレスレジス
タ２５１ａに初期値ｒＯＪ以外の有効なポインタが格納
されているか否かにより、連結しているリストがあるか
否かが判定される。

従って、このＮＯＲ回路２４３によって論理“１”が出
力され、連結しているリストがないとされたときに、Ｍ
ＰＵ２０１は、辞書検索回路２４０に対して検索動作の
中止を指示し、以下に述べる割り込み処理を行えばよい
。

まず、ＭＰＵ２０１は、最後に検索された部分列に対応
する参照番号ωを符号として出力する。

次に、ＭＰＵ２０１は、アドレスレジスタ２５１ｂとフ
ラグレジスタ２５４とに格納されたデータを読み出し、
フラグレジスタ２５４に格納されたフラグに応じて、新
しい部分列の登録処理を行えばよい。

例えば、ＭＰＵ２０１は、上述したフラグが論理゛０”
である場合は、アドレスレジスタ２５１ｂに格納されて
いるアドレスで示される辞書２３０の格納領域には、候
補要素が１つも格納されていないと判断する。この場合
に、ＭＰＵ２０１は、上述した参照番号ωに拡張文字Ｋ
を付加して得られる部分列に新しい参照番号ω７を与え
、上述したアドレスで示される辞書２３０の格納領域の
識別情報部に、この参照番号ω７と拡張文字にとを第１
候補要素の識別情報として格納すればよい。

一方、フラグが論理“１”である場合は、ＭＰＵ２０１
は、上述したアドレスで示される辞書２３０の格納領域
には、第１候補要素のみが格納されていると判断する。

この場合は、該当する格納領域の識別情報部に、上述し
た参照番号ω７と拡張文字にとを第２候補要素として格
納すればよい。

また、該当する格納領域のポインタ部に、リスト部２３
２の未使用領域のアドレスをポインタとして格納する。

その後、上述した拡張文字Ｋを着目している文字列の先
頭部分とし、入力文字列の次の１文字を新しい拡張文字
にとして、符号化動作を続行すればよい。

上述したように、辞書２３０の索引部２３１とリスト部
２３２との各格納領域に、連結しているリストを示すポ
インタと２つの候補要素の識別情報とを格納する。また
、辞書検索回路２４０の一致検出部２４２において、２
つの比較回路２６２ａ、２６２ｂにより、辞書２３０か
ら読み出された２つの候補要素について、着目している
文字列との一致検出を行う。

これにより、１回の読出動作により、辞書２３０から２
つの候補要素を同時に読み出して、これらの候補要素と
着目している文字列との一致検出処理を行うことが可能
となる。

更に、タイミング制御回路２４４により、読出サイクル
時間τごとに読出信号を辞書２３０に供給し、また、読
み出したポインタを次の読み出しアドレスとして辞書２
３０に供給して、連結されたリストを順次に手繰るよう
にする。また、一致検出部２４２とＮＯＲ回路２４３と
をそれぞれに独立に動作させ、辞書２３０からの読出動
作に並行して、一致検出動作と連結判定動作とを行うよ
うにする。

これにより、ＭＰＵ２０１を介することなく連結された
リストの探索を行うことができ、また、読出処理と一致
検出処理および連結判定処理とをパイプライン化して処
理することが可能となる。

この場合は、２つの候補要素の読出動作および一致検出
動作を上述した読出サイクル時間τで行うことができ、
従来のように、全ての処理をＭＰＵを介して行う場合に
比べて、リストの探索処理に要する時間を大幅に短縮す
ることができる。

このようにして、第２図に示したような簡単な回路を用
いて、辞書２３０からの文字列の検索処理を高速化する
ことが可能となる。これにより、辞書の検索処理に要す
る時間を短縮して、符号化処理の高速化を図り、符号化
速度を磁気ディスク装置への転送速度と同程度とするこ
とができ、符号化したデータを磁気ディスク装置などに
実時間で転送することができる。

また、第２図に示したように、辞書検索回路２４０は、
簡単な回路で構成されており、データ圧縮装置のハード
ウェア量を増大させることはない。

また、ＭＰＵ２０１は、一致検出部２４２およびＮＯＲ
回路２４３の出力に応じて、上述した割り込み処理を行
えばよく、特に高速に動作する必要はない。

なお、上述した実施例においては、データ圧縮装置に適
用した場合について説明したが、これに限らず、樹状の
構成を有する辞書を外部ハツシュ法を用いて検索する場
合であれば適用できる。

また、辞書２３０の索引部２３１およびリスト部２３２
の各格納領域に格納する候補要素の数に限定はなく、３
つ以上の候補要素を格納してもよい。この場合は、参照
番号部と文字部とをそれぞれ候補要素の数分設けて識別
情報部を構成し、候補要素の数を２進数で表したものを
フラグとすればよい。

〔発明の効果〕

上述したように、請求項１の発明によれば、少なくとも
１つの候補文字列を同時に読み出し、これらの候補文字
列についての一致検出動作を同時に行うとともに、読出
手段と検出手段と判定手段とをそれぞれ独立に動作させ
ることにより、辞書の検索処理を高速化することが可能
となり、符号化処理の高速化を図ることができる。

請求項２の発明によれば、少なくとも１つの候補文字列
を同時に読み出し、これらの候補文字列についての一致
検出動作を同時に行うとともに、読出動作と検出動作お
よび判定動作とをパイプライン化して処理するので、辞
書からの文字列の検索処理を更に高速化することができ
る。

【図面の簡単な説明】

第１図は本発明の原理ブロック図、第２図は本発明の一実施例によるデータ圧縮装置の構成
図、第３図は実施例による辞書に格納されたデータの構成を
示す図、第４図はＬＺＷ符号化方式の説明図、第５図は辞書の構成を示す図、第６図は外部ハツシュ法の説明図、第７図は従来の符号化動作を表す流れ図である。図において、１０は辞書、１１は索引、１２はリスト、２１は読出手段、２２は比較手段、１２３は検出手段、１２４は判定手段、２０１はマイクロプロセッサ、２０２は入力ボート、２０５は出力ボート、２０６はバス、２３０は辞書、２３１は索引部、２３２はリスト部、２４０は辞書検索回路、２４１は候補要素保持部、２４２は一致検出部、２４３は否定論理＃　（ＮＯＲ）回路、２４４はタイミ
ング制御回路、２５１はアドレスレジスタ、２５２は候補文字レジスタ、２５３は参照番号レジスタ、２５４はフラグレジスタ、２６１は拡張文字レジスタ、２６２は比較回路である。、１２１本発明の原理ブロック図第１図実施例による辞書の構成を示す図第図（ａ）しζニノノコに７字くシリｂａｂｃｂａｂａｂａａａ（ｂ聴力符号（Ｃ澄録符号ａｂａｂｃｂａｂ４６　　　　　Ｂ　　　　　　　１丁ｂａ　　　　ｃｂ　　　　ｂａｂａ ■　　−丁−−一璽「−一Ｗ符号化方式の説明図第図外＠Ｂ〕飄シュ法の説明図第図辞書の構成を示す図第図従来の符号化動作を表す流れ図第図

Claims

【特許請求の範囲】

（１）それぞれに与えられた参照番号に対応して辞書（
１１０）に登録された相異なる文字列の中から、入力さ
れた参照番号と文字とで表される文字列を検索する辞書
検索方式において、前記辞書（１１０）は、前記参照番号に対応し、当該参照番号が与えられた文字
列に１文字を付加して得られる候補文字列の少なくとも
１つに対応する識別情報と他の候補文字列の格納場所を
示すポインタとを格納する索引（１１１）と、最後の１文字が異なる少なくとも１つの候補文字列に対
応する識別情報と他の候補文字列の格納場所を示すポイ
ンタとを格納する複数のリスト（１１２）とを有し、前記辞書（１１０）に対して、最初は、入力された参照
番号に基づいて前記索引（１１１）に格納されたポイン
タと識別情報との出力を指示し、以後は、前記辞書（１
１０）によって出力されたポインタで示されるリスト（
１１２）を指定して格納されたポインタと識別情報との
出力を指示する読出手段（１２１）と、前記辞書（１１０）から読み出される少なくとも１つの
識別情報のそれぞれと入力文字とを比較する複数の比較
手段（１２２）を有し、前記辞書（１１０）から読み出
される候補文字列の中から該当する文字列を検出し、こ
の検出結果を検索結果として出力する検出手段（１２３
）と、前記辞書（１１０）から読み出されたポインタに基づい
て、読出済でない候補文字列があるか否かを判定し、こ
の判定結果を検索結果として出力する判定手段（１２４
）と、を備え、前記読出手段（１２１）と前記検出手段（１２
３）と前記判定手段（１２４）とがそれぞれ独立に動作
するように構成することを特徴とする辞書検索方式。
（２）前記読出手段（１２１）が、所定の時間間隔で辞
書（１１０）に対する読出動作を起動し、前記検出手段
（１２３）による検出動作と前記判定手段（１２４）に
よる判定動作とを前記読出手段（１２１）による読出動
作と並行して行うように構成したことを特徴とする請求
項１記載の辞書検索方式。