JPH0554077A

JPH0554077A - 単語辞書検索装置

Info

Publication number: JPH0554077A
Application number: JP3218769A
Authority: JP
Inventors: Shunichi Fukushima; 俊一福島
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1991-08-29
Filing date: 1991-08-29
Publication date: 1993-03-05

Abstract

(57)【要約】【目的】より辞書容量を削減した単語辞書検索装置を
提供する。【構成】単語辞書２０は非圧縮領域２００と圧縮領域
２０１とから成る。圧縮領域２０１は、見出し文字列の
先頭からＮ文字が同一の単語群ごとに、各単語の見出し
文字列の先頭Ｎ文字を除去した残見出し文字列と属性情
報とを、データ圧縮したブロックの集まりである。非圧
縮領域２００は、ブロックを指すポインタを長さＮの文
字列と対応させて格納する。第１の検索回路２は、入力
文字列の先頭Ｎ文字に一致する文字列を、単語辞書非圧
縮領域２００から検索し、対応するブロックへのポイン
タを得る。復元回路４は、単語辞書圧縮領域２０１から
ポインタの指すブロックの内容を読み出してデータ復元
する。第２の検索回路６は、入力文字列から先頭Ｎ文字
を除去した文字列に一致する残見出し文字列を、復元結
果バッファ５内から検索して、対応する属性情報を読み
出す。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力文字列に一致する
見出しをもつ単語を単語辞書から検索し、その単語に関
する属性情報を取り出す単語辞書検索装置に関するもの
である。

【０００２】従来、単語辞書検索装置は、かな漢字変換
装置、機械翻訳装置、文音声変換装置、電子辞書検索装
置、文字認識装置、音声認識装置、などの一部として組
み込まれている。

【０００３】

【従来の技術】図２に従来の単語辞書検索装置の構成を
示した。従来の単語辞書検索装置は、単語辞書２１、入
力文字列バッファ１、検索回路８、出力バッファ７から
構成される。単語辞書２１は、単語辞書見出し部２１０
と単語辞書属性情報部２１１に分かれる。例えば、かな
漢字変換装置に用いられる単語辞書検索装置の場合は、
単語辞書見出し部２１０には各単語の読みがなが対応
し、単語辞書属性情報部２１１には各単語の表記・品詞
などが対応する。機械翻訳装置に組み込まれる単語辞書
検索装置の場合は、単語辞書見出し部２１０には各単語
の表記が対応し、単語辞書属性情報部２１１には各単語
の品詞・意味素性・訳語などが対応する。検索回路８
は、入力文字列バッファ１に格納された文字列に一致す
る見出しをもつ単語を、単語辞書２１から検索し、検索
された単語の属性情報を読み出して出力内容バッファ７
へ格納する。検索回路８の一般的な実現方法は、「Ｓｏ
ｒｔｉｎｇａｎｄＳｅａｒｃｈｉｎｇ（ＴｈｅＡ
ｒｔｏｆＣｏｍｐｕｔｅｒＰｒｏｇｒａｍｍｉｎ
ｇ：Ｖｏｌｕｍｅ３）」（Ｄ．Ｅ．Ｋｎｕｔｈ、Ａｄ
ｄｉｓｏｎ−Ｗｅｓｌｅｙ、１９７３）、「アルゴリズ
ムとデータ構造（岩波ソフトウェア科学：第３巻）」
（石畑、岩波書店、１９８９）などに記載されている。

【０００４】単語辞書の語数は数万〜数十万語になるた
め、従来、単語辞書の容量を小さくする工夫が加えられ
てきた。

【０００５】その工夫の１つは、まず単語を見出しが同
一なグループに分け、さらにそのグループ内で品詞が同
一なものをまとめて、というように階層化するというも
のである。この手法は、特開昭６１−８０４４９号公報
「カナ漢字変換装置」などに記載されている。

【０００６】別の工夫としては、直前の見出しと共通部
分を省略し、差分のみを格納するというものがある。こ
れは見出し部分に限らず、属性情報の部分でも表記など
を収めていれば、同様な手法が適用できる。この手法
は、特開昭５７−１５００７０号公報「カナ漢字変換用
辞書」、特開昭６１−８０４５０号公報「カナ漢字変換
装置」、特開昭６１−２８５５７３号公報「仮名漢字変
換装置」、特開平１−２３３６５９号公報「仮名漢字変
換用辞書」などに記載されている。

【０００７】さらに、かな漢字変換用辞書の場合、属性
情報のなかの表記がひらがなやカタカナであるときに
は、見出し（読み）から機械的に表記が生成できるの
で、ひらがな／カタカナの識別さえ与えれば省略でき
る。このような工夫は、特開平２−６８６５６号公報
「仮名漢字変換用単語辞書における見出し語圧縮方法お
よび圧縮見出し語伸張方法」などに記載されている。

【０００８】また、特開昭６２−９４６４号公報「日本
語処理装置」では、省略可能な送りがなに識別コードを
付加することで、送りがなのゆれにより単語が複数登録
されることを抑制している。

【０００９】特開昭６２−９３７４６号公報「カナ漢字
変換用辞書」には、単語辞書において名詞が最も多い品
詞であることから、名詞の場合は品詞項目を省略すると
いう工夫が記載されている。

【００１０】

【発明が解決しようとする課題】近年、情報処理機器は
パーソナル市場の発展などにより、ますます小型化して
きており、従来手法を組み合わせによる単語辞書容量の
削減だけでなく、より一層の容量削減手法が必要になっ
てきた。

【００１１】本発明の目的は、より辞書容量を削減した
単語辞書検索装置を提供することである。

【００１２】

【課題を解決するための手段】第一の発明は、入力文字
列を格納する入力文字列バッファと、見出し文字列の先
頭Ｎ文字が同一の単語群ごとに各単語の前記見出し文字
列の先頭Ｎ文字を除去した残見出し文字列と該単語の属
性情報とをデータ圧縮したブロックの集まりである単語
辞書圧縮領域と、前記ブロックを指すポインタを前記見
出し文字列の先頭Ｎ文字と対応させて格納した単語辞書
非圧縮領域と、前記入力文字列の先頭Ｎ文字に一致する
文字列を前記単語辞書非圧縮領域から検索し対応する前
記ポインタを得る第１の検索回路と、前記第１の検索回
路によって得られた前記ポインタを格納するポインタレ
ジスタと、前記単語辞書圧縮領域から前記ポインタレジ
スタに格納された前記ポインタの指す前記ブロックの内
容を読み出してデータ復元する復元回路と、前記復元回
路によってデータ復元された結果を格納する復元結果バ
ッファと、前記入力文字列から先頭Ｎ文字を除去した文
字列に一致する前記残見出し文字列を前記復元結果バッ
ファ内から検索して対応する前記属性情報を読み出す第
２の検索回路と、前記第２の検索回路の読み出した属性
情報を格納する出力内容バッファとを備えることを特徴
とする。

【００１３】第二の発明は、入力文字列を格納する入力
文字列バッファと、各単語の見出し文字列の先頭Ｎ文字
を除去した残見出し文字列と該単語の属性情報とを全単
語に関する統計的性質にもとづいて定めた可変長コード
で表現した単語辞書圧縮領域と、前記可変長コードと元
来の固定長コードとの対応を示すコードテーブルと、前
記見出し文字列の先頭Ｎ文字と前記単語辞書圧縮領域に
おける該Ｎ文字を除去された前記残見出し文字列をもつ
単語群を指すポインタとを対応させて格納した単語辞書
非圧縮領域と、前記入力文字列の先頭Ｎ文字に一致する
文字列を前記単語辞書非圧縮領域から検索し対応する前
記ポインタを得る第１の検索回路と、前記第１の検索回
路によって得られた前記ポインタを格納するポインタレ
ジスタと、前記単語辞書圧縮領域から前記ポインタレジ
スタに格納された前記ポインタの指す単語群を読み出し
て前記コードテーブルにもとづいて固定長コードに変換
する復元回路と、前記復元回路によって変換された結果
を格納する復元結果バッファと、前記入力文字列から先
頭Ｎ文字を除去した文字列に一致する前記残見出し文字
列を前記復元結果バッファ内から検索して対応する前記
属性情報を読み出す第２の検索回路と、前記第２の検索
回路の読み出した属性情報を格納する出力内容バッファ
とを備えることを特徴とする。

【００１４】

【実施例】図面を用いて、第一の発明の構成・作用・動
作を説明する。

【００１５】図１は第一の発明の単語辞書検索装置の一
実施例の構成を示すブロック図である。

【００１６】まず、単語辞書２０について説明する。

【００１７】単語辞書２０は、単語辞書非圧縮領域２０
０と単語辞書圧縮領域２０１とに分かれる。単語辞書２
０は、ＩＣメモリ、磁気ディスク装置、光ディスク装置
などで実現できる。単語辞書圧縮領域２００は、見出し
文字列の先頭Ｎ文字が同一の単語群ごとに、各単語の見
出し文字列の先頭Ｎ文字を除去した残見出し文字列と該
単語の属性情報とを、データ圧縮したブロックの集まり
である。単語辞書非圧縮領域２０１には、単語辞書圧縮
領域２００のブロックを指すポインタを、見出し文字列
の先頭Ｎ文字と対応させて格納する。

【００１８】図３は従来の単語辞書２１の内容の例を示
す図である。この内容の例をもとにして、本発明で用い
る単語辞書２０の構成を説明する。

【００１９】図３において、各行が１つの単語に対応す
る。図３では９個の単語しか格納されていないが、一般
に、単語辞書には、数万〜数十万語の単語が格納され
る。図３の例では、以下の説明を簡単にするため、単語
数を少なくした。単語辞書２１は、図３に示すように、
単語辞書見出し部２１０と単語辞書属性情報部２１１に
分かれる。この例は、かな漢字変換用の単語辞書を想定
したもので、単語辞書見出し部２１０には単語の読みが
なを格納し、単語辞書属性情報部２１１には単語の品詞
２１１０と表記２１１１とを格納している。この単語辞
書２１内の単語は、単語辞書見出し部２１０の文字コー
ドの順に並べられている。

【００２０】さて、図３に示した従来の単語辞書２１と
本発明で用いる単語辞書２０との関係を説明する。図３
において、単語辞書見出し部２１０を、先頭Ｎ文字２１
００と残見出し文字列２１０１とに分ける。図３ではＮ
＝１とした。ここで、残見出し文字列２１０１と単語辞
書属性情報部２１１とを合わせた部分を、対応する先頭
Ｎ文字２１００が同一なものごとに分けたものが図４で
ある。図４では、データの内容を４ビットずつ１６進値
で表現している。また、残見出し文字列２１０１と表記
２１１１に対応する文字列には、ＪＩＳで定められた１
６ビットの文字コードを用い、その末尾には１６ビット
のＮＵＬＬコードを１個だけ付与した。図４では、対応
する先頭Ｎ文字２１００が同一なものごとに、第１のデ
ータ圧縮単位２１２、第２のデータ圧縮単位２１３、第
３のデータ圧縮単位２１４の３つに分かれている。そし
て、各々のデータ圧縮単位に対して、レンペル・ジブ・
コーディングというデータ圧縮手法を適用した結果が図
５である。レンペル・ジブ・コーディングは、文献“Ｄ
ａｔａＣｏｍｐｒｅｓｓｉｏｎ”（Ｄ．Ａ．Ｌｅｌｅ
ｗｅｒ＆Ｄ．Ｓ．Ｈｉｒｓｃｈｂｅｒｇ著、ＡＣＭ
ＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ、第１９巻第３
号）などに説明されており、よく知られたデータ圧縮手
法である。図５では、１２ビットのデータごとに、１ビ
ット・４ビット・３ビット・４ビットという単位で１６
進値表現している。この例では、第１のデータ圧縮単位
２１２の２２４ビットが第１のブロック２０１０の２０
４ビットになり、第２のデータ圧縮単位２１２の２５６
ビットが第２のブロック２０１１の２５２ビットにな
り、第３のデータ圧縮単位２１２の４３２ビットが第３
のブロック２０１２の３４８ビットになり、全体で９１
２ビットが８０４ビットにデータ圧縮されている（レン
ペル・ジブ・コーディングでは一般に、圧縮対象のデー
タ量がある程度大きくならないと良い圧縮率が得られな
いので、この単純化した例での圧縮率は実際の単語辞書
に適用した場合よりも悪いものになっている）。図５の
第１のブロック２０１０、第２のブロック２０１１、第
３のブロック２０１２を合わせたものが、本発明におけ
る単語辞書圧縮領域２０１の例である。

【００２１】図６には、図５にその具体的な内容を示し
た単語辞書圧縮領域２０１に対応する単語辞書非圧縮領
域２００の内容を示した。単語辞書非圧縮領域２００
は、先頭Ｎ文字２０００とブロックを指すポインタ２０
０１とに分かれる。この例では、ブロックを指すポイン
タ２００１は、ブロック先頭位置２００２とブロック長
２００３との組で表現している。図６において、先頭Ｎ
文字２０００のコードは１６進値で表現され、ブロック
先頭位置２００２とブロック長２００３とは、図５の１
２ビットデータを１単位として数えた値が１０進表現さ
れている。ブロックを指すポインタ２００１の形式は、
図６における形式に限定されるものではない。例えば、
ブロック先頭位置２００２やブロック長２００３は、ビ
ット単位に数えた値をセットしてもよい。また、ブロッ
クのサイズをある一定サイズに固定して、その単位で数
えるならば、ブロック長２００３は不要になる。また、
ブロック長２００３はブロック先頭位置２００２の差分
として得ることもできるので、そのように計算するなら
ば、ブロック長２００３が不要になる代わりに、先頭Ｎ
文字２０００の種類の最後に１つダミーを設ければよ
い。

【００２２】以上では単語辞書２０の説明を行なったの
で、以下では、図１の他の構成要素の説明を行なう。

【００２３】図１において、入力文字列バッファ１は、
入力文字列を格納するバッファであり、ＩＣメモリなど
を用いて実現できる。

【００２４】第１の検索回路２は、入力文字列バッファ
１内の先頭Ｎ文字に一致する文字列を、単語辞書非圧縮
領域２００から検索し、対応するポインタ（ブロックを
指すポインタ２００１）を得る回路である。前述の文献
「ＳｏｒｔｉｎｇａｎｄＳｅａｒｃｈｉｎｇ（Ｔｈｅ
ＡｒｔｏｆＣｏｍｐｕｔｅｒＰｒｏｇｒａｍｍｉ
ｎｇ：Ｖｏｌｕｍｅ３）」（Ｄ．Ｅ．Ｋｎｕｔｈ、Ａ
ｄｄｉｓｏｎ−Ｗｅｓｌｅｙ、１９７３）、「アルゴリ
ズムとデータ構造（岩波ソフトウェア科学：第３巻）」
（石畑、岩波書店、１９８９）などに記載されている方
法で実現できる。例えば、図６のような単語辞書非圧縮
領域２００（Ｎ＝１）に対して、「どうもう」という入
力文字列が与えられたとすると、「ど」（コードは２４
４９）と一致する値を、二分探索法などで単語辞書非圧
縮領域２００のなかの先頭Ｎ文字２０００から捜して、
それに対応するポインタの値として（１７、２１）をポ
インタレジスタ３へ出力する。

【００２５】ポインタレジスタ３は、第１の検索回路２
によって得られたポインタを格納するレジスタであり、
ＩＣメモリなどを用いて実現できる。

【００２６】復元回路４は、単語辞書圧縮領域２０１か
ら、ポインタレジスタ３に格納されたポインタの指すブ
ロックの内容を読み出してデータ復元する回路である。
復元回路４の実現方法は、単語辞書圧縮領域２０１に用
いたデータ圧縮手法によって異なる。復元回路４では、
単語辞書圧縮領域２０１に用いたデータ圧縮手法に対応
するデータ復元処理を実行する。図５の例で用いたレン
ペル・ジブ・コーディングに関するデータ復元処理は、
前述の文献“ＤａｔａＣｏｍｐｒｅｓｓｉｏｎ”
（Ｄ．Ａ．Ｌｅｌｅｗｅｒ＆Ｄ．Ｓ．Ｈｉｒｓｃｈ
ｂｅｒｇ著、ＡＣＭＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙ
ｓ、第１９巻第３号）などに記載されている。例えば、
ポインタレジスタ３にポインタの値として（１７、２
１）が格納されていたとすると、図５の第２のブロック
２０１１が読み出され、データ復元されることになる。
ブロック２０１１をデータ復元した結果は、図４のデー
タ圧縮単位２１３のようになる。

【００２７】復元結果バッファ５は、復元回路４によっ
てデータ復元された結果を格納するバッファであり、Ｉ
Ｃメモリなどを用いて実現できる。

【００２８】第２の検索回路６は、入力文字列バッファ
１から先頭Ｎ文字を除去した文字列に一致する残見出し
文字列を、復元結果バッファ５内から検索して、対応す
る属性情報を読み出す回路である。例えば、復元結果バ
ッファ５にデータ復元された内容が、図４のような形式
であるならば、２ｊ番目のＮＵＬＬと（２ｊ＋１）番目
のＮＵＬＬとに挟まれた文字列が残見出し文字列であ
り、それに対応する属性情報は、（２ｊ＋１）番目のＮ
ＵＬＬと（２ｊ＋２）番目のＮＵＬＬに挟まれた部分で
ある（ｊは０以上の整数）。したがって、その場合、第
２の復元回路６は、ｊの値を０から１ずつ増やすように
して、復元結果バッファ５内の２ｊ番目のＮＵＬＬと
（２ｊ＋１）番目のＮＵＬＬとに挟まれた文字列を捜し
てゆき、一致するものがあったら、（２ｊ＋１）番目の
ＮＵＬＬと（２ｊ＋２）番目のＮＵＬＬとに挟まれた部
分の内容を、出力内容バッファ７へ書き出すようにすれ
ばよい。例えば、Ｎ＝１で、入力文字列バッファ１に
「どうもう」という文字列が与えられたとすると、「う
もう」（コードは１６進値で２４２６２４６２２
４２６）に一致する残見出し文字列を、復元結果バッフ
ァ５から捜すことになる。復元結果バッファ５の内容
が、図４における第２のデータ圧縮単位２１３の通りだ
とすると、出力内容バッファ７へは「ｋ獰猛」（コード
は１６進値で２３６Ｂ６０５８４Ｃ５４）が書き
込まれる。

【００２９】出力内容バッファ７は、第２の検索回路６
の読み出した属性情報を格納するバッファであり、ＩＣ
メモリなどを用いて実現できる。

【００３０】以上、図面を用いて、第一の発明の構成・
作用・動作を説明した。

【００３１】続いて、図面を用いて、第二の発明の構成
・作用・動作を説明する。

【００３２】図７は第二の発明の単語辞書検索装置の一
実施例の構成を示すブロック図である。

【００３３】まず、単語辞書２２について説明する。

【００３４】単語辞書２２は、単語辞書非圧縮領域２２
０と単語辞書圧縮領域２２１とに分かれる。単語辞書２
２は、ＩＣメモリ、磁気ディスク装置、光ディスク装置
などで実現できる。単語辞書圧縮領域２２０は、各単語
の見出し文字列の先頭Ｎ文字を除去した残見出し文字列
と該単語の属性情報とを、全単語に関する統計的性質に
もとづいて定めた可変長コードで表現したものである。
単語辞書非圧縮領域２２１には、見出し文字列の先頭Ｎ
文字と、単語辞書圧縮領域２２０におけるその見出し文
字列の先頭Ｎ文字を除去された残見出し文字列をもつ単
語群を指すポインタとを対応させて格納する。

【００３５】第一の発明の実施例の場合と同様に、図３
に示した従来の単語辞書２１と本発明で用いる単語辞書
２２との関係を説明する。図３において、単語辞書見出
し部２１０を、先頭Ｎ文字２１００と残見出し文字列２
１０１とに分ける。図３ではＮ＝１とした。ここで、残
見出し文字列２１０１と単語辞書属性情報部２１１とを
合わせた部分を図８に示す。これが圧縮対象部分にな
る。図８では、データの内容を４ビットずつ１６進値で
表現している。また、残見出し文字列２１０１と表記２
１１１に対応する文字列には、ＪＩＳで定められた１６
ビットの文字コードを用い、その末尾には１６ビットの
ＮＵＬＬコードを１個だけ付与した。

【００３６】図９は、図８に示した圧縮対象部分につい
て、１バイト単位の固定長コードの出現確率を求めて、
ハフマンコード木を作成したものである。図９におい
て、点線の左側の２桁の数字が１バイトコードであり、
点線の右側の分数値がその出現確率を表わす。ハフマン
コード木は、出現確率の最も小さいものから順に２つず
つ統合してゆくことで作成されるフル二分木で、２つに
分かれる枝には０／１の１ビットが割り当てられる。そ
の０／１をハフマンコード木の根から順にたどって得ら
れるハフマンコードは、図１０に示すとおりである。図
１０は、点線の左側が元来の１バイトコードを示し、点
線の右側がそれに対応するハフマンコードを示してい
る。圧縮対象についての出現確率をあらかじめ求めてお
いて、それにもとづいたハフマンコード木によるコード
変換を行なう手法は、静的ハフマンコーディングと呼ば
れ、よく知られたデータ圧縮アルゴリズムである。その
アルゴリズムの詳細は、文献“ＤａｔａＣｏｍｐｒｅ
ｓｓｉｏｎ”（Ｄ．Ａ．Ｌｅｌｅｗｅｒ＆Ｄ．Ｓ．
Ｈｉｒｓｃｈｂｅｒｇ著、ＡＣＭＣｏｍｐｕｔｉｎｇ
Ｓｕｒｖｅｙｓ、第１９巻第３号）などに記載されてい
る。

【００３７】本実施例では、全単語に関する統計的性質
にもとづいて定めた固定長コードとして、上記のハフマ
ンコードを用いて、単語辞書圧縮領域２２１を表現す
る。図８に示した単語辞書の圧縮対象部分を、図１０に
示した１バイトコードとハフマンコードとの対応関係に
したがって変換した結果が図１１である。図１１では、
１ビットずつ値が０か１かを表現している。図８のよう
なもともとの表現では９１２ビット（＝１１４バイト）
が、図１１では４９０ビットにデータ圧縮されている。

【００３８】図１１では、見出し文字列の削った先頭Ｎ
文字が同じ単語群ごとに、第１の単語群２２１０、第２
の単語群２２１１、第３の単語群２２１２と分けること
ができる。第１の単語群２２１０は先頭Ｎ文字が
「い」、第２の単語群２２１１先頭Ｎ文字が「ど」、第
３の単語群２２１２は先頭Ｎ文字が「ね」に対応してい
る。それらは、図８に示した第１の単語群２１５、第２
の単語群２１６、第３の単語群２１７をハフマンコード
化したものである。

【００３９】図１２には、図１１にその具体的な内容を
示した単語辞書圧縮領域２２１に対応する単語辞書非圧
縮領域２２０の内容を示した。単語辞書非圧縮領域２２
０は、先頭Ｎ文字２２００と単語群を指すポインタ２２
０１とに分かれる。この例では、単語群を指すポインタ
２２０１は、単語群の先頭位置２２０２と単語群の長さ
２２０３との組で表現している。図１２において、先頭
Ｎ文字２２００のコードは１６進値で表現され、単語群
の先頭位置２２０２と単語群の長さ２２０３とは、ビッ
ト数で数えた値が１０進表現されている。単語群を指す
ポインタ２２０１の形式は、図１２における形式に限定
されるものではない。例えば、単語群の長さ２２０３は
単語群の先頭位置２２０２の差分として得ることもでき
るので、そのように計算するならば、単語群の長さ２２
０３が不要になる代わりに、先頭Ｎ文字２２００の種類
の最後に１つダミーを設けることになる。

【００４０】以上では単語辞書２２の説明を行なったの
で、以下では、図７の他の構成要素の説明を行なう。

【００４１】入力文字列バッファ１、第１の検索回路
２、ポインタレジスタ３、復元結果バッファ５、第２の
検索回路６、出力内容バッファ７は、第一の発明の構成
要素と同じである。

【００４２】コードテーブル３０は、可変長コードと元
来の固定長コードとの対応を示すテーブルであり、ＩＣ
メモリなどを用いて実現できる。前述の単語辞書圧縮領
域２２１の例では、図１０がコードテーブル３０に該当
する。コードテーブル３０の形式としては、図１０のよ
うに２つのコードを１対１に対応付けたものに限らず、
図９のような木構造（あるいはｔｒｉｅと呼ばれるデー
タ構造）で実現してもよい。

【００４３】復元回路４０は、単語辞書圧縮領域２２１
から、ポインタレジスタ３に格納されたポインタの指す
単語群を読み出して、コードテーブル３０にもとづいて
固定長コードに変換する回路である。復元対象のデータ
の先頭から順に、コードテーブル３０内の可変長コード
に一致するものを捜し、一致したものに対する固定長コ
ードへの置き換えを繰り返してゆけばよい。

【００４４】例えば、図１２のような単語辞書非圧縮領
域２２０（Ｎ＝１）に対して、「どうもう」という入力
文字列が与えられたとすると、第１の検索回路２は、
「ど」（コードは２４４９）と一致する値を、二分探索
法などで単語辞書非圧縮領域２２０のなかの先頭Ｎ文字
２２００から捜して、それに対応するポインタの値とし
て（９７、１８９）をポインタレジスタ３へ出力する。
すると、復元回路４０は、図１１の第２の単語群２２１
１のビット列を読み出し、図１０のコードテーブル３０
にしたがって１バイトコード列に変換する。復元回路４
０による単語群２２１１の変換結果は、図８の第２の単
語群２１６のようになる。ここで、第２の検索回路６
は、入力文字列から先頭Ｎ文字（ここではＮ＝１）を除
去した「うもう」（コードは１６進値で２４２６２
４６２２４２６）に一致する残見出し文字列を、復元
結果バッファ５から捜すことになる。復元結果バッファ
５の内容が、図８における第２の単語群２１６の通りだ
とすると、出力内容バッファ７へは「ｋ獰猛」（コード
は１６進値で２３６Ｂ６０５８４Ｃ５４）が書き
込まれる。

【００４５】以上の第一の発明および第二の発明の説明
では、入力文字列の文字コード／圧縮していない段階で
の文字コード／データ復元結果の文字コードとして、Ｊ
ＩＳで定められた１６ビットコードを用いたが、本発明
では（第一の発明、第二の発明ともに）それに限定しな
い。シフトＪＩＳコード、ＥＵＣコード、ＡＳＣＩＩコ
ードなど一般的なコード系、さらには特殊なコード系で
も各文字が固定ビット長で表現されていればよい。ま
た、そのようなコード系のいくつかが混在したものでも
よい。

【００４６】また、第一の発明の実施例では、データ圧
縮／復元手法として、レンペル・ジブ・コーディングを
用いて説明したが、第一の発明はデータ圧縮／復元手法
を限定していない。文献“ＤａｔａＣｏｍｐｒｅｓｓ
ｉｏｎ”（Ｄ．Ａ．Ｌｅｌｅｗｅｒ＆Ｄ．Ｓ．Ｈｉ
ｒｓｃｈｂｅｒｇ著、ＡＣＭＣｏｍｐｕｔｉｎｇＳｕ
ｒｖｅｙｓ、第１９巻第３号）などに示されているシャ
ノン・ファノ・コーディング、静的ハフマン・コーディ
ング、算術コーディング、適応型ハフマン・コーディン
グ、ＢＳＴＷコーディングなど、他のデータ圧縮／復元
手法を用いてもよい。

【００４７】一方、第二の発明の実施例では、可変長コ
ード化の手法として、静的ハフマンコーディングを用い
て説明したが、本発明は可変長コード系を限定していな
い。文献“ＤａｔａＣｏｍｐｒｅｓｓｉｏｎ”（Ｄ．
Ａ．Ｌｅｌｅｗｅｒ＆Ｄ．Ｓ．Ｈｉｒｓｃｈｂｅｒ
ｇ著、ＡＣＭＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ、
第１９巻第３号）などに示されているシャノン・ファノ
・コーディングをはじめとする他の可変長コード化手法
を用いてもよい。

【００４８】なお、第一の発明では、単語辞書を先頭Ｎ
文字ごとの細かい単位に分けて、データ圧縮を行なって
いるのに対して、第二の発明では、細かい単位に分けず
に全体でデータ圧縮を行なっている。その際に適用でき
るデータ圧縮／復元手法は、第一の発明に比べて第二の
発明の場合の方が限定される。静的ハフマンコーディン
グやシャノン・ファノ・コーディングなどは、第一の発
明・第二の発明ともに適用できるが、レンペル・ジブ・
コーディング、算術コーディング、適応型ハフマン・コ
ーディングなどは、第一の発明には適用できるが、第二
の発明には適用できない。

【００４９】

【発明の効果】以上説明したように、本発明によれば、
大語彙の単語辞書でも辞書容量を抑えた単語辞書検索装
置が得られる。また、従来の単語辞書の容量削減手法と
組み合わせることも可能で、それによって、従来に比べ
てさらに辞書容量の小さい単語辞書検索装置の実現が可
能となる。

【００５０】また、従来のデータ圧縮手法を、単語辞書
全体に適用したのでは、単語辞書全体をデータ復元しな
いと検索できないため、実用的な検索速度は得られな
い。それに対して、本発明では、単語辞書に設けた非圧
縮領域によって、データ復元をするブロックを小さく限
定しているため、検索速度の面でも十分実用的である。

【図面の簡単な説明】

【図１】第一の発明の実施例の構成を示す図である。

【図２】従来の単語辞書検索装置の構成を示す図であ
る。

【図３】従来の単語辞書の内容の例を示す図である。

【図４】第一の発明の実施例におけるデータ圧縮単位の
内容の例を示す図である。

【図５】第一の発明の実施例における単語辞書圧縮領域
のブロックの内容の例を示す図である。

【図６】第一の発明の実施例における単語辞書の構成を
示す図である。

【図７】第二の発明の実施例の構成を示す図である。

【図８】第二の発明の実施例における圧縮対象部分の内
容の例を示す図である。

【図９】ハフマンコード木の例を示す図である。

【図１０】固定長コードとハフマンコード（可変長コー
ドの１種）との対応を示す図である。

【図１１】第二の発明の実施例における単語辞書圧縮領
域の内容の例を示す図である。

【図１２】第二の発明における単語辞書の構成を示す図
である。

【符号の説明】

１入力文字列バッファ２第１の検索回路３ポインタレジスタ４復元回路５復元結果バッファ６第２の検索回路７出力内容バッファ８検索回路２０単語辞書２１単語辞書２２単語辞書３０コードテーブル４０復元回路２００単語辞書非圧縮領域２０１単語辞書圧縮領域２１０単語辞書見出し部２１１単語辞書属性情報部２１２第１のデータ圧縮単位２１３第２のデータ圧縮単位２１４第３のデータ圧縮単位２１５第１の単語群２１６第２の単語群２１７第３の単語群２２０単語辞書非圧縮領域２２１単語辞書圧縮領域２０００先頭Ｎ文字２００１ブロックを指すポインタ２００２ブロック先頭位置２００３ブロック長２０１０第１のブロック２０１１第２のブロック２０１２第３のブロック２１００先頭Ｎ文字２１０１残見出し文字列２１１０品詞２１１１表記２２００先頭Ｎ文字２２０１単語群を指すポインタ２２０２単語群の先頭位置２２０３単語群の長さ２２１０第１の単語群２２１１第２の単語群２２１２第３の単語群

Claims

【特許請求の範囲】

【請求項１】入力文字列を格納する入力文字列バッフ
ァと、見出し文字列の先頭Ｎ文字が同一の単語群ごとに
各単語の前記見出し文字列の先頭Ｎ文字を除去した残見
出し文字列と該単語の属性情報とをデータ圧縮したブロ
ックの集まりである単語辞書圧縮領域と、前記ブロック
を指すポインタを前記見出し文字列の先頭Ｎ文字と対応
させて格納した単語辞書非圧縮領域と、前記入力文字列
の先頭Ｎ文字に一致する文字列を前記単語辞書非圧縮領
域から検索し対応する前記ポインタを得る第１の検索回
路と、前記第１の検索回路によって得られた前記ポイン
タを格納するポインタレジスタと、前記単語辞書圧縮領
域から前記ポインタレジスタに格納された前記ポインタ
の指す前記ブロックの内容を読み出してデータ復元する
復元回路と、前記復元回路によってデータ復元された結
果を格納する復元結果バッファと、前記入力文字列から
先頭Ｎ文字を除去した文字列に一致する前記残見出し文
字列を前記復元結果バッファ内から検索して対応する前
記属性情報を読み出す第２の検索回路と、前記第２の検
索回路の読み出した属性情報を格納する出力内容バッフ
ァとを備えることを特徴とする単語辞書検索装置。
【請求項２】入力文字列を格納する入力文字列バッフ
ァと、各単語の見出し文字列の先頭Ｎ文字を除去した残
見出し文字列と該単語の属性情報とを全単語に関する統
計的性質にもとづいて定めた可変長コードで表現した単
語辞書圧縮領域と、前記可変長コードと元来の固定長コ
ードとの対応を示すコードテーブルと、前記見出し文字
列の先頭Ｎ文字と前記単語辞書圧縮領域における該Ｎ文
字を除去された前記残見出し文字列をもつ単語群を指す
ポインタとを対応させて格納した単語辞書非圧縮領域
と、前記入力文字列の先頭Ｎ文字に一致する文字列を前
記単語辞書非圧縮領域から検索し対応する前記ポインタ
を得る第１の検索回路と、前記第１の検索回路によって
得られた前記ポインタを格納するポインタレジスタと、
前記単語辞書圧縮領域から前記ポインタレジスタに格納
された前記ポインタの指す単語群を読み出して前記コー
ドテーブルにもとづいて固定長コードに変換する復元回
路と、前記復元回路によって変換された結果を格納する
復元結果バッファと、前記入力文字列から先頭Ｎ文字を
除去した文字列に一致する前記残見出し文字列を前記復
元結果バッファ内から検索して対応する前記属性情報を
読み出す第２の検索回路と、前記第２の検索回路の読み
出した属性情報を格納する出力内容バッファとを備える
ことを特徴とする単語辞書検索装置。