JPH07168848A

JPH07168848A - 単語辞書検索装置

Info

Publication number: JPH07168848A
Application number: JP5316137A
Authority: JP
Inventors: Shunichi Kobayashi; 俊一小林
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1993-12-16
Filing date: 1993-12-16
Publication date: 1995-07-04

Abstract

(57)【要約】【目的】機械翻訳、音声合成、音声認識、校正支援等
の機械による自然言語処理における単語辞書を高速にサ
ーチできるようにすること。【構成】ハッシュ関数計算部と、ハッシュ・インデッ
クス検索手段と、ディスク辞書と、主記憶上のハッシュ
・インデックスを有し、ハッシュ検索によりディスク辞
書から単語を検索する単語辞書検索装置において、ディ
スク辞書の単語が記入されるメモリ辞書２３と、メモリ
辞書へのポインタと、ディスク辞書へのポインタと、チ
ェーン結合されている次のハッシュへのポインタが設け
られたハッシュと、単語検索手段１４と、メモリ辞書作
成手段１５を具備し、ある単語をディスク上の単語辞書
から最初に読み込んだ場合にその単語の内容をメモリ辞
書作成手段１５によりメモリ辞書２３に記入し、またそ
の単語のハッシュに対してメモリ辞書へのポインタを設
定する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は単語辞書検索装置に係
り、特に機械翻訳、音声合成、音声認識、校正支援等の
ような、機械による自然言語処理における単語辞書を高
速にサーチできるようにしたものに関する。

【０００２】

【従来の技術】近年、機械翻訳、音声合成、音声認識、
校正支援（例えば送りがなの統一）などのような、機械
による自然言語処理の発展に伴い、処理の高速化が強く
求められている。

【０００３】例えば図１０（Ａ）に示す如く、「花が咲
く」という文を音声合成する場合、この入力文を形態素
解析して、これを単語Ｃ₀〜Ｃ₃に分析する。そして各
単語Ｃ₀〜Ｃ₃を図１０（Ｂ）に示すディスク辞書１０
０にアクセスしてその読み、アクセント等を入手する。
ディスク辞書１００には、各単語の表記として文字コー
ドが、フィールドとして文法、読み、アクセント等が記
入されている。

【０００４】そしてこの電子化辞書であるディスク辞書
から単語検索を高速化するためにハッシュ法を用いた単
語辞書検索方式が提供されている。ハッシュ法は、単語
の文字コードを特定の関数処理して、得られた数値毎に
チェーンを張り、ディスク辞書を部分的にアクセス可能
にして高速検索をはかるものである。例えば関数処理と
して文字コードを２４で割るという処理を行うとき、余
りが０〜２３までの２４のグループに分けることができ
るので、後述するように各グループ毎にチェーンをはる
ことによりディスク辞書を部分的にアクセス可能とな
る。

【０００５】例えば「日」という文字コードを２４で割
ったときの余りがＣとすると、メモリ上のハッシュ・イ
ンデックス領域１０１のアドレスＣの領域にポインタＣ
Ｐ₀、ＣＰ₁が記入されたハッシュを書き込む。ポイン
タＣＰ₀は「日」のディスクの辞書１００へのアドレス
を示し、ポインタＣＰ₁はチェーンの次アドレスを示
す。この例では「日本」、「日本人」がチェーンされて
いるので、ポインタＣＰ ₁は「日本」に対するハッシュ
の位置を示す。なお、「日本人」のハッシュの次アドレ
ス部分のポインタはＮＵＬＬ（空）であり、ポインタは
これどまりであることを示している。

【０００６】従って、図１０の例では、形態素解析によ
り分析された単語「花」について、まず関数処理して得
た余りがＡにより、ハッシュ・インデックス１０１のア
ドレスＡの領域をアクセスしてディスク辞書１００より
「花」のフィールドを読み出して、音声合成用の場合に
はその読みとアクセントを得る。そして次に「が」につ
いては関数処理して得た余りがＢにより、ハッシュ・イ
ンデックス１０１のアドレスＢの領域をアクセスしてデ
ィスク辞書１００より「が」のフィールドを読み出す。
このようなことを他の単語「咲」、「く」についても行
う。

【０００７】

【発明が解決しようとする課題】ところで、日本語言語
処理で使用する電子化日本語辞書は単語数が膨大であ
り、その情報量も膨大であって例えば数十メガ〜数百メ
ガバイトという大きさのため通常磁気ディスク、光ディ
スク、光磁気ディスクの如きディスクに置かれ、従って
単語辞書検索を行う場合には、ディスクから毎回アクセ
スする方法が一般的である。

【０００８】もし、主記憶上に全ての単語を記憶できれ
ば、辞書検索は非常に高速化することが可能であるが、
現在のコンピュータではまだまだ無理である。電子化辞
書の容量が膨大であるため、電子化辞書はディスク上に
置かれることが多く、従来の如き単純なハッシュ辞書検
索法を用いてもディスクアクセスの処理に時間が多くか
かるため、あまり高速化されない。

【０００９】従来のハッシュ法を用いた日本語辞書検索
では、ディスクから毎回検索するために、ハッシュ法と
いう検索方法を使用しているにもかかわらず検索時間が
長いという欠点があった。

【００１０】また、ディスクと主記憶との間に、専用の
ディスク・キャッシュを用いた場合でも、ハッシュ辞書
検索との連携は考えられておらず、折角ハッシュ法を用
いているにもかかわらずキャッシュの領域を探すのに時
間がかかったり、必ずしもキャッシングされている単語
にヒットするとは限らないために辞書検索は依然として
高速化していない。

【００１１】即ち、従来のディスク・キャッシュでは、
辞書検索の検索方法とは全く独立しているので、ハッシ
ュ検索を用いてもキャッシュはキャッシュとして独立に
そのキャッシュ内で検索を行っており、ハッシュによる
検索とキャッシュ内での検索が２重に行われていたため
に、検索時間が非常にかかってしまうという問題点があ
った。

【００１２】日本語処理の特質を考えると言語処理する
文章毎に出現する単語は毎回異なっており、従来のよう
なディスク・キャッシュではキャッシュされている単語
にヒットする確率が非常に低く、折角キャッシュを用意
しているにもかかわらず検索効率の向上にはあまり有効
でなかった。

【００１３】本発明の目的は、これらの問題点を改善す
るため、高速にサーチできる単語辞書検索装置を提供す
ることである。

【００１４】

【課題を解決するための手段】前記目的を達成するた
め、本発明では、図１（Ａ）に示す如く、ディスク辞書
３、ハッシュ・インデックス２１の外にメモリ辞書２３
を設ける。メモリ辞書２３にはディスク辞書３上の単語
を、実際の運用においてアクセスしたときに記入する。
また、図１（Ｃ）に示す如く、ハッシュに３つのポイン
タＰ₀、Ｐ₁、Ｐ ₂を設け、ポインタＰ₀をメモリ辞書
２３へのポインタとし、ポインタＰ₁をディスク上に存
在するディスク辞書３へのポインタとし、ポインタＰ₂
をあふれ領域２２に存在する次のハッシュへのポインタ
とする。

【００１５】このメモリ辞書２３、ハッシュ・インデッ
クス２１及びハッシュ・インデックス２１のハッシュと
チェーンされているハッシュの存在するあふれ領域２２
等は主記憶２上に存在する。

【００１６】またＣＰＵ１には、検索文字列入力部１
１、ハッシュ関数計算部１２、ハッシュ・インデックス
検索部１３、検索単語出力部１４、メモリ辞書作成部１
５等が設けられている。

【００１７】いま、図１（Ｂ）に示す如く、文字コード
をハッシュ関数で処理したときの余りがいずれもＸの単
語Ｗ₀、Ｗ₁、Ｗ₂、Ｗ₃がディスク辞書３に登録され
ているとき、ハッシュ・インデックス２１のアドレスＸ
の領域には、Ｗ₀に対するハッシュが記入され、あふれ
領域２２にはＷ₁に対するハッシュＨ₁、Ｗ₂に対する
ハッシュＨ₂、Ｗ₃に対するるハッシュＨ₃が記入され
ている。そしてこれらのハッシュはポインタＰ₂により
チェーンされている。

【００１８】

【作用】この状態で文章が検索文字列入力部１１に入力
され、形態素解析されて最初の単語がＷ₂のとき、ハッ
シュ関数計算部１２が単語Ｗ₂の文字コードをハッシュ
関数処理して得られた余りＸをハッシュ・インデックス
検索部１３に出力する。ハッシュ・インデックス検索部
１３はこのＸによりハッシュ・インデックス２１をアク
セスし、ディスク辞書３に対するアドレスを読み出し、
検索単語出力部１４に送出する。

【００１９】検索単語出力部１４は、このアドレスによ
りディスク辞書３をアクセスし、単語Ｗ₀の表記部分を
みて入力された単語Ｗ₂の文字コードを一致するか否か
を判断し、不一致であることをハッシュ・インデックス
検索部１３に通知する。

【００２０】ハッシュ・インデックス検索部１３は、こ
れにより次のハッシュＨ₁のポインタＰ₁を読み出し検
索単語出力部１４はこれにより単語Ｗ₁の表記部分をみ
て、これまた単語Ｗ₂と不一致であることをハッシュ・
インデックス検索部１３に通知する。ハッシュ・インデ
ックス検索部１３は、今度はハッシュＨ₂のポインタＰ
₁を読み出し、検索単語出力部１４はこれによりディス
ク辞書３をアクセスして入力された単語Ｗ₂と文字コー
ドが一致したことを判断する。

【００２１】これにより検索単語出力部１４はディスク
辞書３から読み出した単語Ｗ₂のエントリーつまり表記
部分とフィールド部分をメモリ辞書作成部１５に渡し、
これがメモリ辞書２３に登録される。そしてこの登録先
のアドレスがハッシュＨ₂のポインタＰ₀に記入され
る。図１（Ｂ）に示す点線はこのポインタＰ₀の状態を
示す。そして検索単語出力部１４から、このＷ₂に対す
る表記、フィールドの情報が出力される。

【００２２】次に再び同じ単語Ｗ₂が検索文字列入力部
１１に入力されたとき、ハッシュ関数計算部１２が単語
Ｗ₂の文字コードをハッシュ関数処理し、得られた余り
Ｘをハッシュ・インデックス検索部１３に出力する。こ
れにもとづき前記と同様の処理が行われる。そして図１
（Ｂ）に示すハッシュＨ₂がアクセスされたとき、今度
はポインタＰ₀にメモリ辞書２３へのポインタが記入さ
れているので、これを検索単語出力部１４に送る。検索
単語出力部１４は、これによりメモリ辞書２３をアクセ
スしてＷ₂に対する表記、フィールドの情報を入手し、
出力する。

【００２３】このようにして、ハッシュを読み出すのみ
で所望の単語情報がメモリ辞書２３に記入されているか
否かを判断でき、メモリ辞書２３に記入されているとき
には、高速アクセス可能な主記憶２上のメモリ辞書２３
より、その表記、フィールドの情報を得ることができ
る。

【００２４】なお、前記の説明では、ディスク辞書３に
対してハッシュ検索された単語を、その品詞等にかかわ
らずメモリ辞書２３にコピーする場合について説明し
た。しかし主記憶２の節約のために、日本語言語処理で
必ず使用されるような、使用頻度の高い、予め定めた特
定の品詞のみをディスク辞書から読んだ場合にのみ、メ
モリ辞書にコピーして、ハッシュからポインタを張るよ
うにすることが主記憶２を能率的に使用できる。

【００２５】このため、日本語言語処理で使用される頻
度の高い品詞として、助詞、助動詞、用言即ち動詞、形
容詞、形容動詞の活用語尾を対象とし、これらをハッシ
ュ検索を行ってディスク辞書から読み込んだ場合に限り
その単語をメモリ辞書上にコピーし、これに対してポイ
ンタを張るように構成することもできる。

【００２６】これにより、全ての単語をメモリ辞書にコ
ピーしていく場合に比較して使用するメモリ量を格段に
減少させることができる。また、すべての単語を毎回デ
ィスクから検索する場合に比べて、使用頻度の高い単語
を主記憶上からハッシュ検索することが可能となり、全
体としての検索時間を大幅に削減することができる。

【００２７】

【実施例】ハッシュ法を用いて高速検索を行うために
は、予めハッシュ・インデックスを作成しておくことが
必要であるので、まずハッシュ・インデックスの作成法
について、図２、図３にもとづき簡単に説明する。

【００２８】まず「小林」という単語を空のハッシュ・
インデックスに登録する場合について説明する。「小
林」の１文字目の「小」の文字コードを、図２（Ａ）に
示す如く、例えば上位バイトを０、下位バイトを２とす
る。つまり「小」のコード領域を図２（Ａ）の如きもの
とする。またハッシュ関数を、例えば図２（Ｂ）に示す
如く、「｛（上位バイト）×１０＋（下位バイト）｝÷
２４」とする。このように上位バイトに定数を乗ずるこ
とによりハッシュが特定の部分に集中することなく、適
当なバラツキを持つようにすることができる。また２４
で割り算することにより、図２（Ｃ）に示す如く、ハッ
シュ・インデックス２１を０〜２３までの２４区分に区
分けし、ディスク辞書へのアクセス量を全部アクセスす
る場合に比較して１／２４の量に減少できる。

【００２９】いま、「小林」の「小」の前記文字コード
を前記ハッシュ関数にかけると、余りが「２」となり、
ハッシュ・インデックス２１のアドレスの２番からディ
スク辞書へのポインタを張る。このようにして図２
（Ｃ）に示すハッシュがハッシュ・インデックス２１に
登録される。

【００３０】続いて「小林社長」を登録する場合、その
１文字目の「小」の文字コードをハッシュ関数にかける
と、ハッシュ値「２」が得られるが、すでに「小林」を
登録しているので、ハッシュ・インデックス２１上のア
ドレスの２番は記入ずみであり、このため、図３（Ａ）
に示す如く、ハッシュ・インデックス２１上のハッシュ
Ｈ₁からポインタによりハッシュＨ₂をリンクし、ハッ
シュＨ₂により「小林社長」に対するディスク辞書への
ポインタを記入する。

【００３１】さらに「小林教授」をハッシュ・インデッ
クス２１に登録する場合も、同様にして「小」の文字コ
ードをハッシュ関数にかけ、ハッシュ値「２」を得て、
前記と同様にハッシュＨ₂からポインタによりハッシュ
Ｈ₃をリンクする。そしてハッシュＨ₃により「小林教
授」に対するディスク辞書へのポインタを記入する。

【００３２】実際にハッシュ・インデックスを作成する
とき、日本語辞書単語例えば図３（Ｂ）に示す如き単語
リストを用意する。この単語リストにはディスク辞書に
登録すべきすべての単語が記入されている。オペレータ
はこの単語リストに従って、まず「小林」を、例えばキ
ーボードの如き入力手段により入力する。このとき「小
林」のフィールド情報、例えば文法（この場合は姓とか
固有名詞等）、読み、アクセント等も入力する。これに
より１文字目の「小」の文字コードが前記の如く、ハッ
シュ関数で演算されて得られた余り、例えば「２」が得
られる。

【００３３】ところで、前記「小林」とそのフィールド
は、このとき、図１に示す、ディスク辞書３に登録され
るので、その登録先のアドレスを保持し、これをハッシ
ュ・インデックス２１のアドレス２番の、ディスク辞書
へのポインタに「小林」の登録先アドレスを記入する。

【００３４】次にオペレータが日本語辞書単語、例えば
単語リストに従って「佐藤」の項をディスク辞書に登録
するとき、その１文字目の「佐」の文字コードに対する
ハッシュ関数の演算が行われ、余りが例えば数値１のと
き、ハッシュ・インデックス２１のアドレス１番におけ
るディスク辞書へのポインタに、この「佐藤」の項の登
録先のアドレスが記入される。

【００３５】そして「小林社長」の項がディスク辞書に
登録するとき、１文字目の「小」の文字コードに対する
ハッシュ関数の演算が行われ、余りが２となる。このと
きすでにハッシュ・インデックス２１には「小林」が登
録されているので、このため図３（Ａ）に示す如く、ハ
ッシュ・インデックス２１上のハッシュＨ₁からポイン
タによりハッシュＨ₂をリンクし、ハッシュＨ₂に「小
林社長」のディスク辞書登録先アドレスを記入する。

【００３６】続いて「はれ」、「伊藤」、「です」、
「は」、「はら」、「小林教授」・・・の項が順次ディ
スク辞書に登録されるとき、同様の処理が行われる。こ
のような操作をすべての単語について行い、ハッシュ・
インデックスを作成する。これによりディスク辞書を作
成するときに、同時にハッシュ・インデックス２１も作
成される。しかしこのとき各ハッシュにおけるメモリ辞
書へのポインタはＮＵＬＬつまり空であり、初期設定状
態である。

【００３７】次に検索について、メモリ辞書に助詞、助
動詞、用言の活用語尾をコピーする例について説明す
る。最初、つまり一度も単語検索をしない初期状態では
ハッシュの箱の３つのポインタのうち、ディスク辞書へ
のポインタと次のハッシュへのポインタのみが設定され
ており、メモリ辞書へのポインタは初期状態（ＮＵＬ
Ｌ）のままである。

【００３８】いま、助詞「は」を検索することを例にと
り説明する。検索単語として「は」が入力されると、そ
の１文字目の文字コード（この場合は「は」そのものの
文字コード）に対し、前記と同様にハッシュ関数の演算
が行われる。図４（Ａ）に示す如く、「は」の文字コー
ドが、例えば上位バイトが「０」、下位バイトが「３」
としたとき、同（Ｂ）に示す如き演算が行われ、同
（Ｃ）に示す如く、余りつまりハッシュ値が「３」とな
る。

【００３９】これにより図４（Ｃ）に示す如く、ハッシ
ュ・インデックス２１のアドレス３番のハッシュのチェ
ーンを検索する。なお、この図４（Ｃ）の場合は、同一
のハッシュ値「３」を持つ単語が３つあることを示す。
具体的には、ディスク辞書のアドレスＡに登録された名
詞「はれ」、アドレスＢに登録された助詞「は」、アド
レスＣに登録された名詞「はら」の３つが同一ハッシュ
値「３」を持つ単語であることを示している。このと
き、これらの各単語は一度も検索されていない状態であ
り、各ハッシュのメモリ辞書２３へのポインタは初期化
された状態（ＮＵＬＬ）である。

【００４０】はじめにハッシュ・インデックス２１上の
１つ目のハッシュの部分が検索され、まずメモリ辞書へ
のポインタがチェックされるがＮＵＬＬであり、メモリ
辞書には存在しないことがわかるので、ディスク辞書へ
のポインタＡからディスク辞書を検索する。しかし１つ
目のハッシュのポインタ先はその表記が「はれ」であ
り、検索対象の「は」ではないことがわかり、注目中の
ハッシュの指している単語は検索したい単語ではないこ
とがわかる。

【００４１】次にこの１つ目のハッシュが次のハッシュ
へのポインタを持っているかどうかを調べ、２番目のハ
ッシュに対するポインタがあることを知る。もし次のハ
ッシュへのポインタがない場合には、求める単語がディ
スク辞書には存在しないことがわかるが、この場合は次
の単語のハッシュへのポインタが存在しているので、次
のハッシュをチェックする。

【００４２】この場合も、同様に、まずメモリ辞書への
ポインタを調べるが、ＮＵＬＬであることがわかり、メ
モリ辞書に存在しないことを認識し、ディスク辞書への
ポインタＢによりディスク辞書を検索し、表記を比較し
てこの単語が検索したい「は」であることを認識する。

【００４３】このとき、この単語「は」が助詞であるの
で、主記憶上にディスク辞書の内容をコピーするための
メモリ領域をとり、そのアドレスｂに「は」のディスク
辞書の内容つまり表記とフィールドをコピーする。そし
て、このハッシュのメモリ辞書へのポインタとしてｂを
設定する。このようにしてコピーした検索したい単語
「は」をメモリ辞書から読み出してその内容を出力す
る。

【００４４】もし、検索したい単語が名詞の「はら」で
あれば、次の単語へのハッシュのポインタをみて、ディ
スク辞書へのポインタＣからディスク辞書を検索し、表
記の比較を行い、「はら」を認識する。このとき「は
ら」が名詞であるので、メモリ辞書の作成は行わず、デ
ィスク辞書のアドレスＣにより「はら」の項を読み出し
これを出力する。

【００４５】ところで、前記の如く、助詞「は」がメモ
リ辞書２３にコピーされている状態で、「は」を検索す
る場合、ハッシュ関数で「は」の文字コードを演算する
とハッシュ値「３」が得られる。これによりハッシュ・
インデックス２１上のアドレス３番のハッシュを検索し
て、そのディスク辞書へのポインタによりディスク辞書
をアクセスしてこれが「は」でないことを知り、次の単
語のハッシュへのポインタにより２つ目のハッシュを検
索して、今度はメモリ辞書へのポインタにアドレスｂが
記入されていることにより、メモリ辞書のアドレスｂを
アクセスし、所望の「は」の項をアクセス速度の早い主
記憶より得ることができる。

【００４６】前記の如き検索を可能とする本発明の一実
施例を図５〜図７に基づき説明する。図５は、メモリ辞
書に助詞、助動詞、用言の活用語尾のみをコピーするよ
うにした本発明の一実施例構成図を示し、図６はその動
作説明図である。そして図７はメモリ辞書２３にコピー
された単語と、ハッシュ・インデックス、ディスク辞書
との関連説明図である。

【００４７】図５において、他図と同記号部は同一部を
示し、２は主記憶、３はディスク辞書、１０は検索単語
指定部、１１は検索文字列入力部、１２はハッシュ関数
計算部、１３はハッシュ・インデックス検索部、１４は
検索単語出力部、１５はメモリ辞書作成部、１６は日本
語辞書単語入力部、１７はインデックス・辞書登録部、
２１はハッシュ・インデックス、２３はメモリ辞書、３
０はハッシュ・インデックス読出部、３１はメモリ辞書
用ポインタ識別部、３２はディスク辞書検索部、３３は
単語識別部、３４はメモリ辞書検索部、３５は文法識別
部である。

【００４８】検索単語指定部１０は文章のうちから検索
対策対象となる単語を指定するものであり、例えばディ
スプレイに表示された文章の中から、カーソル等により
単語を指定するものである。これにより例えば「小林社
長は外出しています。」等の文章が指定され、出力され
る。

【００４９】検索文字列入力部１１は、この出力された
文章を形態素解析して、単語単位に分解して、これを出
力するものである。ハッシュ関数計算部１２は、入力さ
れた単語の１文字目の文字コードを前記の如きハッシュ
関数にかけて得られたハッシュ値を、そのときのモー
ド、検索モードかインデックス辞書登録モードかに応じ
て、ハッシュ・インデックス検索部１３側あるいはイン
デックス・辞書登録部１７側に出力する。

【００５０】ハッシュ・インデックス検索部１３は、ハ
ッシュ関数計算部１２から伝達されたハッシュ値に基づ
き、ハッシュ・インデックス２１を検索したり、メモリ
辞書２３を検索するものであり、ハッシュ・インデック
ス読出部３０、メモリ辞書用ポインタ識別部３１、ディ
スク辞書検索部３２、単語識別部３３、メモリ辞書検索
部３４等を有する。

【００５１】検索単語出力部１４はディスク辞書３又は
メモリ辞書２３から所望の単語を読み出すものである。
メモリ辞書作成部１５はメモリ辞書２３を作成するもの
である。

【００５２】日本語辞書単語入力部１６は、初めにディ
スク辞書３を作成したりハッシュ・インデックス２１を
作成するときに必要な、例えば図３（Ｂ）に示す如き単
語リストを順次入力するものである。

【００５３】インデックス・辞書登録部１７は、最初に
前記単語リストを順次入力するとき、これをディスク辞
書３に登録するとともに、ハッシュのチェーンも含めて
ハッシュ・インデックス２１を作成する処理を行うもの
である。

【００５４】ハッシュ・インデックス読出部３０は、ハ
ッシュ関数計算部１２から受け取ったハッシュ値に応じ
てハッシュ・インデックス２１をそのハッシュのチェー
ンも含めて読み出すものである。

【００５５】メモリ辞書用ポインタ識別部３１は、ハッ
シュのメモリ辞書用のポインタをチェックして、メモリ
辞書用のポインタが記入されていればこれをメモリ辞書
検索部３４に渡し、なければディスク辞書用のポインタ
をディスク辞書検索部３２に渡すものである。

【００５６】ディスク辞書検索部３２は、このディスク
辞書用のポインタに基づき、ディスク辞書３をアクセス
し、アクセス先の単語の表記部分とフィールド部分を読
み出し、これらを一時保持するものである。

【００５７】単語識別部３３は、メモリ辞書２３又はデ
ィスク辞書３から読み出す単語が所望のものかどうかを
その表記部分を入力の文字コードと比較してチェック
し、不一致のときこれをハッシュ・インデックス読出部
３０に通知して次のハッシュを読み出すように制御した
り、一致したときメモリ辞書２３に登録されていなけれ
ばこれを文法識別部３５に通知し、助詞、助動詞、用言
の活用語尾の場合には、メモリ辞書作成部１５に通知し
てメモリ辞書２３への記入作成処理を行わせる。そして
メモリ辞書２３に記入後、又はメモリ辞書２３にすでに
記入ずみの場合は、メモリ辞書２３におけるその単語の
アドレスを検索単語出力部１４に通知し、ディスク辞書
３にのみ格納されている場合及び、助詞、助動詞、用言
の活用語尾のいずれでもない場合には、ディスク辞書３
のアドレスを検索単語出力部１４に通知する。

【００５８】メモリ辞書検索部３４はメモリ辞書２３を
アクセスするものである。文法識別部３５は、アクセス
先の単語の文法をチェックして、その単語が助詞、助動
詞、用言の活用語尾か否かを識別するもので、特定品詞
識別手段として動作するものである。

【００５９】図５の本発明の一実施例構成を、Ａ、イン
デックス作成の処理、及びＢ、辞書検索の処理について
説明する。Ａ、インデックス作成の処理まずハッシュ関数計算部１２をインデックス作成モード
に設定し、オペレータが、図３（Ｂ）に示す如き、単語
リストから、「小林」の項（表記部分とフィールド）を
例えばキーボードの如き、日本語辞書単語入力部１６か
ら入力する。これによりハッシュ関数計算部１２は「小
林」の一文字目の文字「小」の文字コードを前記の如く
ハッシュ関数で処理し、得られたハッシュ値「２」と
「小林」の項をインデックス・辞書登録部１７に渡す。

【００６０】これによりインデックス・辞書登録部１７
は、ディスク辞書３にこの「小林」の項を格納処理する
とともに、得られた格納先アドレスを一時保持する。そ
れからインデックス・辞書登録部１７は、ハッシュ・イ
ンデックス２１のアドレス２番のディスク辞書用のポイ
ンタに前記ディスク辞書３への格納先アドレスを記入す
る。

【００６１】このような処理を単語「佐藤」、「小林社
長」、「はれ」・・・の全単語に対して前記の如く行わ
れ、場合に応じてハッシュのチェーンが形成される。こ
のようにして全単語がディスク辞書３に登録され、同時
にハッシュ・インデックス２１が作成される。

【００６２】Ｂ、辞書検索の処理 (1) 例えば図示省略したディスプレイに表示された複数
の文章、単語の中から、オペレータが検索単語指定部１
０により検索すべきものとして「小林社長は外出してい
る。」を指定する。検索文字列入力部１１は、この指定
された文章を形態素解析して、単語単位に「小林社
長」、「は」、「外出」、「して」、「いる」、「。」
に分解し、「小林社長」の文字コードをハッシュ関数計
算部１２に送出する。このとき、ハッシュ関数計算部１
２は検索モードに設定されている。

【００６３】(2) ハッシュ関数計算部１２は、この「小
林社長」の１文字目の文字コードを、前記の如く、ハッ
シュ関数で処理し、得られたハッシュ値「２」と「小林
社長」をハッシュ・インデックス読出部３０に渡す。

【００６４】(3) ハッシュ・インデックス読出部３０
は、これによりハッシュ・インデックス２１をアクセス
してそのアドレス２番のハッシュのメモリ辞書へのポイ
ンタをチェックする。このとき該ポインタはＮＵＬＬで
初期状態を示している。

【００６５】(4) このため、このハッシュのディスク辞
書３へのポインタを読み出し、これをディスク辞書検索
部３２に送出する。ディスク辞書検索部３２はこれによ
りディスク辞書３をアクセスしてその表記部分とフィー
ルド部分を読み出して一時保持し、その表記部分（図３
（Ａ）に示す如く、「小林」）と文法部分を単語識別部
３３に送出する。

【００６６】(5) このとき単語識別部３３には、ハッシ
ュ・インデックス読出部３０より、「小林社長」が送出
されているので、これと前記表記部分とを比較し、検索
したい単語でないことがわかる。これがハッシュ・イン
デックス読出部３０に通知される。ハッシュ・インデッ
クス読出部３０は、これにより同じハッシュ値を持つハ
ッシュの箱がリンク上に存在するか否かを、その次のハ
ッシュへのポインタをみて認識し、存在することを知
る。

【００６７】(6) これによりリンクをたどり、同一ハッ
シュ値を持つハッシュに移動する。そしてこのハッシュ
が、前記（３）の如く、メモリ辞書へのポインタを持つ
か否かをチェックし、このポインタが初期状態であるの
で、前記（４）の如く、ディスク辞書３を検索する。

【００６８】(7) これにより今度は、ディスク辞書３か
ら読み出した表記部分「小林社長」が検索したい単語で
あることが、単語識別部３３で認識される。しかしその
文法部分が文法識別部３５により解読されて、この「小
林社長」は名詞であり、助詞、助動詞、用言の活用語尾
でないことが認識され、この認識結果により単語識別部
３３は、ディスク辞書３へのアドレスを検索単語出力部
１４に送出する。

【００６９】(8) 検索単語出力部１４は、これによりデ
ィスク辞書３をアクセスし、所望の「小林社長」に対す
るデータを得る。例えば、この検索装置が音声合成用に
使用される場合は、その「小林社長」に対する読みとか
アクセント等のデータを得る。

【００７０】(9) 次に「は」が検索文字列入力部１１か
らハッシュ関数計算部１２に入力されると、前記（２）
〜（７）と同様の処理が行われる。即ち、ハッシュ関数
計算部１２は、前記の如く、ハッシュ値「３」を出力
し、ハッシュ・インデックス読出部３０がこれによりハ
ッシュ・インデックス２１をアクセスし、そのアドレス
３番より、メモリ辞書へのポインタが初期状態であるこ
とを認識して、ディスク辞書３へのポインタを読み出
し、ディスク辞書検索部３２がディスク辞書３をアクセ
スしてこれを読み出し、初めは「はれ」であり、次のチ
ェーンにより読み出したものが単語識別部３３が得たい
単語「は」であることを認識する。そして文法識別部３
５がその文法部分をチェックして、この「は」が助詞で
あること即ち、助詞、助動詞、用言の活用語尾のもので
あることを認識する。これによりメモリ辞書作成部１５
は、ディスク辞書検索部３２で一時保持している「は」
の表記部分とフィールド部分をメモリ辞書２３に記入
し、メモリ辞書を作成する。

【００７１】(10)メモリ辞書作成部１５は、この作成し
たメモリ辞書２３への書込み先を、「は」のハッシュの
メモリ辞書へのポインタに設定する。そしてこのメモリ
辞書２３への書込み先アドレスを検索単語出力部１４に
送る。これにより検索単語出力部１４はこの送出された
アドレスによりメモリ辞書２３をアクセスし、必要とす
るデータを得る。

【００７２】(11)次に、メモリ辞書２３に登録ずみの単
語、例えば「は」をアクセスする場合について説明す
る。この場合、前記（２）と同様にハッシュ関数計算部
１２において、「は」の文字コードがハッシュ関数で演
算され、ハッシュ値「３」が出力される。そしてこれが
ハッシュ・インデックス読出部３０に送出され、ハッシ
ュ・インデックス２１をアクセスし、前記（９）の如
く、次のチェーンにより読み出したハッシュにメモリ辞
書２３へのポインタが記入されている初期状態でないこ
とをメモリ辞書用ポインタ識別部３１が認識する。これ
により、メモリ辞書検索部３４がメモリ辞書２３の前記
ポインタ先を検索し、その表記部分を読み出し、これを
単語識別部３３によりチェックして検索したい単語であ
ることが識別される。これにより単語識別部３３は、メ
モリ辞書検索部３４より受取っていたこのメモリ辞書２
３へのアドレスを検索単語出力部１４に送出し、これに
より検索単語出力部１４はメモリ辞書２３をアクセスし
て必要なデータを読み出し、これを出力する。

【００７３】(12)なお、前記各検索において、検索した
い単語がディスク辞書を検出しても存在せず同じハッシ
ュ値のハッシュの箱がリンク上に存在しないとき、検索
単語出力部１４に検索単語がないことが通知され、検索
終了となる。

【００７４】図５に示す実施例では、文法識別部３５
が、単語が助詞、助動詞、用言の活用語尾か否かを識別
して一度ディスク辞書３上においてアクセスされた単語
がこれらの場合にのみメモリ辞書２３にコピーされる場
合について説明した。図７は、このような場合にメモリ
辞書２３にコピーされた単語を例示したものである。

【００７５】ところで前記図５〜図７に示す実施例で
は、使用する主記憶を節約し、かつディスクからのデー
タアクセスをできるだけ減少し、高速に検索できる場合
を説明した。即ち、日本語言語処理の特質を考慮したと
き、できるだけどんな文章を言語処理する場合にも、必
ず使用する使用頻度の高い単語だけを主記憶上に展開す
るようにした。

【００７６】日本語の文章中では、助詞、助動詞、用言
の活用語尾が最も出現する頻度が高いと考えられるの
で、これらの品詞を主記憶上においてディスクにアクセ
スする回数を大幅に減少するだけで、辞書検索の処理量
のかなりのものを高速化することが可能であり、全ての
単語をディスクからアクセスするのに比べ大幅に辞書検
索時間が短縮できる。

【００７７】なお前記（８）の説明では、検索単語出力
部１４の出力をディスク辞書３をアクセスして所望のデ
ータを得るようにしたこと、前記（１０）の説明では検
索単語出力部１４の出力をメモリ辞書２３をアクセスし
て必要とするデータを得るようにした場合について説明
したが、本発明は勿論これらに限定されるものではな
く、前記（４）においてディスク辞書３をアクセスして
得ている表記部分とフィールド部分を出力するように構
成することもできる。

【００７８】図５〜図７で説明した本発明の実施例で
は、メモリ辞書にコピーされる単語が特定の場合に限定
されることを示したが、メモリ辞書２３が大きなサイズ
の場合には、図８に示す如く、名詞をコピーすることも
できる。

【００７９】この場合には、ディスク辞書３で１回検索
された単語はメモリ辞書２３にコピーされるので、同じ
単語を検索するとき、主記憶上のメモリ辞書２３から高
速に検索することができ、全体の検索速度を向上するこ
とができる。

【００８０】また前記各実施例では、ハッシュからディ
スク辞書とメモリ辞書に対して別々のポインタを用意す
る例について説明したが、本発明では図９（Ａ）に示す
如く、ディスク辞書とメモリ辞書を同じポインタ２で指
示し、フラグ１が「０」、「１」にもとづきポインタ２
で指示しているものがディスク辞書へのポインタかメモ
リ辞書へのポインタかを識別するものである。

【００８１】この場合、図９（Ｂ）に示す如く、例えば
フラグ１が「０」のときポインタ２はディスク辞書３を
示し、フラグ１が「１」のときポインタ２はメモリ辞書
２３を示している。そしてポインタ３は、前記と同様に
ハッシュのあふれ領域へのポインタ、つまりチェーン先
を示すものである。なお、この図９に示す装置は、ハッ
シュの内容を除き、図１、図５に示すものと同一構成で
あるので、その具体的構成についての図示説明を省略す
る。

【００８２】本発明は、前記の如く、ハッシュ検索法の
うちチェーン法について説明したものであるが、本発明
は勿論これにのみ限定されるものではなく、ハッシュ検
索法のうちのオープンアドレス法においても同様に適用
できる。

【００８３】なおここでは本発明の実施例として、日本
語言語処理について説明したが、本発明は勿論これにの
み限定されるものではなく、日本語以外の他の言語処理
においても同様に適用できる。

【００８４】

【発明の効果】言語処理で使用する電子化辞書は、辞書
容量が膨大であるために、従来ではディスクに置かれ、
ディスクから毎回検索するのが一般的であった。この場
合に従来は単純なハッシュ検索と、そのハッシュ検索と
は全く独立した形でディスクからの検索の効率化を図る
ためにディスク・キャッシュを使用していた。

【００８５】しかし従来では、ハッシュ検索法とディス
ク・キャッシュが全く独立していたために、せっかくハ
ッシュ法を用いているにもかかわらずハッシュ検索とキ
ャッシュ内での検索を２重に行っていて検索時間が非常
にかかってしまっていた。

【００８６】特に、日本語言語処理の特質から、処理す
る文章毎に出現する単語が異なるために、単純な従来の
ディスク・キャッシュを用いても殆どディスクからの辞
書検索は効率化していないのが現状であった。

【００８７】これに対して本発明では、ハッシュ検索で
用いるハッシュがディスク辞書とメモリ辞書に対してポ
インタを持った新たなフォーマットであり、ハッシュ自
体にメモリ辞書へのポインタが存在するため、一度ディ
スク辞書から読込んだ単語については、２回目以降はメ
モリ辞書からハッシュ検索することが可能となり、辞書
検索の高速化が実現できる。

【００８８】また、主記憶の節約をはかるために、ディ
スク辞書にアクセスした全ての単語をメモリ辞書に展開
せずに、言語処理で最も使用頻度の高い助詞、助動詞、
動詞等の用言の活用語尾のみをメモリ辞書に展開してハ
ッシュ検索を行うことにより、使用する主記憶容量は少
くて、かつ、頻繁に使用する単語はメモリ辞書より高速
アクセスできるので、ハッシュの効率を落とすことなく
辞書検索全体として高速化することが可能となり、言語
処理における電子化辞書検索を高速化できる。

【図面の簡単な説明】

【図１】本発明の概略図を示す。

【図２】本発明におけるハッシュ・インデックスの作成
方法説明図（その１）を示す。

【図３】本発明におけるハッシュ・インデックスの作成
方法説明図（その２）を示す。

【図４】本発明におけるハッシュ・インデックスの検索
方法説明図を示す。

【図５】本発明の一実施例構成図を示す。

【図６】本発明の動作説明図を示す。

【図７】メモリ辞書、ハッシュ・インデックス、ディス
ク辞書関連状態説明図である。

【図８】本発明の第２実施例説明図である。

【図９】本発明の第３実施例説明図である。

【図１０】従来例説明図である。

【符号の説明】

１ＣＰＵ２主記憶３ディスク辞書１０検索単語指定部１１検索文字列入力部１２ハッシュ関数計算部１３ハッシュ・インデックス検索部１４検索単語出力部１５メモリ辞書作成部１６日本語辞書単語入力部１７インデックス辞書登録部２１ハッシュ・インデックス２２あふれ領域２３メモリ辞書３０ハッシュ・インデックス読出部３１メモリ辞書ポインタ識別部３２ディスク辞書検索部３３単語識別部３４メモリ辞書検索部３５文法識別部

Claims

【特許請求の範囲】

【請求項１】ハッシュ関数計算部と、ハッシュ・イン
デックス検索手段と、ディスク上に格納された単語辞書
と、主記憶上に設けられたハッシュ・インデックスを有
し、ハッシュ検索により単語辞書から単語を検索する単
語辞書検索装置において、主記憶上に設けられ、前記単語辞書の単語が記入される
メモリ辞書（２３）と、主記憶上に設けられ、前記メモリ辞書へのポインタと、
前記単語辞書へのポインタと、チェーン結合されている
次のハッシュへのポインタが設けられたハッシュと、単語検索手段（１４）と、メモリ辞書作成手段（１５）を具備し、初期状態ではハッシュ上にはメモリ辞書へのポインタは
設定されず、ある単語をディスク上の単語辞書から読み
込んだ場合にその単語の内容を前記メモリ辞書作成手段
（１５）によりメモリ辞書（２３）に記入し、またその
単語のハッシュに対してメモリ辞書へのポインタを設定
することを特徴とする単語辞書検索装置。
【請求項２】前記単語辞書から読み出された単語が予
め定められた特定の品詞の単語であることを識別する特
定品詞識別手段（３５）を具備したことを特徴とする請
求項１記載の単語辞書検索装置。
【請求項３】ハッシュ関数計算部と、ハッシュ・イン
デックス検索手段と、ディスク上に格納された単語辞書
と、主記憶上に設けられたハッシュ・インデックスを有
し、ハッシュ検索により単語辞書から単語を検索する単
語辞書検索装置において、主記憶上に設けられ、前記単語辞書の単語が記入される
メモリ辞書（２３）と、主記憶上に設けられ、前記メモリ辞書又は前記単語辞書
のいずれかを示すポインタと、該ポインタが前記２つの
辞書のいずれに対するものかを示すフラグと、チェーン
結合されている次のハッシュへのポインタが設けられた
ハッシュと、単語検索手段（１４）と、メモリ辞書作成手段（１５）を具備し、初期状態ではハッシュ上にはメモリ辞書へのポインタは
設定されず、ある単語をディスク上の単語辞書から読み
込んだ場合にその単語の内容を前記メモリ辞書作成手段
（１５）によりメモリ辞書（２３）に記入し、またその
単語のハッシュに対してメモリ辞書へのポインタを設定
することを特徴とする単語辞書検索装置。
【請求項４】前記単語辞書から読み出された単語が予
め定められた特定の品詞の単語であることを識別する特
定品詞識別手段（３５）を具備したことを特徴とする請
求項３記載の単語辞書検索装置。