JPH0589174A

JPH0589174A - 辞書検索方法

Info

Publication number: JPH0589174A
Application number: JP3251726A
Authority: JP
Inventors: Tsuyoshi Kitani; 強木谷; Kensho Okada; 憲昭岡田
Original assignee: N T T DATA TSUSHIN KK; N T T SOFTWARE KK; NTT Data Communications Systems Corp; NTT Software Corp
Current assignee: N T T DATA TSUSHIN KK; N T T SOFTWARE KK; NTT Data Corp; NTT Software Corp
Priority date: 1991-09-30
Filing date: 1991-09-30
Publication date: 1993-04-09

Abstract

(57)【要約】【目的】辞書に登録されていない単語の外部記憶装置
への検索処理を省略することにより、検索処理速度を向
上させる。そして、少ないメモリ使用量により、辞書検
索処理を実現できるようにする。【構成】計算機による言語処理において、辞書検索を
行う際に、文字位置毎に作成した文字情報の存在をチェ
ックできるビットマトリックステ−ブルを作成して、こ
れを物理メモリに常駐しておき、単語辞書を検索する前
に、このビットマトリックステ−ブルにより外部記憶上
の辞書に検索対象の単語が存在するか否かをチェック
し、辞書に未登録と判断された場合には、辞書検索を行
わずに処理を終了する。これにより、検索効率を向上さ
せる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、計算機による言語処理
で辞書検索を行う場合に、辞書未登録が直ちに判断でき
るようにして、外部記憶装置に格納された辞書への無駄
なアクセスをなくし、処理効率を向上させることが可能
な辞書検索方法に関する。

【０００２】

【従来の技術】辞書デ−タベ−スは、自然言語システム
を開発したり、研究したりする場合に必要となる資源で
あるため、管理のし易さ、作業能率等が極めて重要とな
る。従って、辞書デ−タベ−スでは、辞書デ−タの編集
・更新等が効率的に行えるデ−タ構造にすること、検索
効率のよいデ−タ構造や記憶方法にすることが、望まれ
ている。計算機による言語解析のように、大規模な辞書
を用いる処理では、必要なメモリ容量が膨大であり、辞
書を内部メモリに常駐することができないため、磁気デ
ィスクや光ディスク等の外部記憶装置に格納されること
が多く、その結果、辞書の検索に時間がかかっていた。
また、一般的に用いられるブロックインデックス方式に
よる辞書構成では、該当する単語がブロック内に存在し
ない場合でも、辞書登録の有無にかかわらず、該当する
ブロックエリア内を全てサ−チするので、無駄な検索を
行っていた。これに対して、ハッシュ関数を用いた検索
では、単語の有無および単語の存在アドレスを特定する
ことができるが、ハッシュ用のテ−ブルサイズが大きく
なるという問題があった。

【０００３】

【発明が解決しようとする課題】このように、従来の辞
書検索においては、（ａ）外部記憶装置に辞書を登録し
ていたので、辞書検索に時間を要していた。また、
（ｂ）辞書に登録していない単語に対しても、エリア内
の全てをサ−チしていたので、無駄な検索が多かった。
さらに、（ｃ）ハッシュ関数を用いたものでは、テ−ブ
ルサイズが大きくなり、メモリ容量が膨大となってい
た。本発明の目的は、これら従来の課題を解決し、辞書
に登録されていない単語の検索処理を不要として、処理
速度の向上を図り、短時間で検索することが可能な辞書
検索方法を提供することにある。

【０００４】

【課題を解決するための手段】上記目的を達成するた
め、本発明の辞書検索方法は、外部記憶装置に登録され
た単語辞書から単語を検索する辞書検索方法において、
単語辞書に登録された単語の表記を文字位置毎に分割し
て、ソ−トし、かつ単語辞書の登録状況をビット情報に
より圧縮したビットマトリックステ−ブルを作成して、
ビットマトリックステ−ブルを予め内部メモリに常駐し
ておき、検索対象単語について辞書検索を行う前に、ビ
ットマトリックステ−ブルにより、外部記憶装置に検索
対象単語が存在するか否かを判断し、判断の結果、未登
録の場合には外部記憶装置の単語辞書を検索することな
く、登録されていると判断された場合のみ検索すること
に特徴がある。

【０００５】

【作用】本発明においては、計算機による言語処理にお
いて、辞書を検索する場合に、文字位置毎に作成した文
字情報の存在をチェックすることが可能なビットマトリ
ックステ−ブルを物理メモリに常駐して、外部記憶上の
辞書に単語が存在するか否かのチェックを行い、辞書に
未登録な場合には辞書検索を行わないことにより、検索
効率の向上を図る。なお、日本語の検索においては、最
小２バイト単位で検索を行っているが、ビットマトリッ
クステ−ブルを用いた場合には、１バイトずつ効率よく
検索することができる。この場合、ビットマトリックス
テ−ブルはビット情報により圧縮されているので、それ
ほどメモリを使用することはなく、これを用いて未登録
のデ−タをチェックすることにより、無駄な外部記憶の
検索処理を行わずに済ますことができる。

【０００６】

【実施例】以下、本発明の実施例を、図面により詳細に
説明する。図１は、本発明の一実施例を示す日本語辞書
検索処理用のビットマトリックステ−ブルの作成方法の
説明図である。ここで、ビットマトリックステ−ブルと
は、図１ので作成された縦と横の各インデックステ−
ブルと、でビット圧縮された２次元マトリックスの３
つのテ−ブルの総称である。図１では、これらのビット
マトリックステ−ブルの作成手順を示している。〜
は、その作成手順の順番である。日本語辞書のデ−タ部分を縦方向に１バイトずつ分割
する。例えば、『日本語』の『日』をＣ６とＦＣの１バ
イトずつに、『本』をＣＢとＤＣの１バイトずつに、
『語』をＢ８とＥＣの１バイトずつに、それぞれ分割す
る。分割したフィ−ルドの先頭から２フィ−ルド（２バイ
ト）を選択する。例えば、『日本語』の『日』に対応す
る２バイトのＣ６ＦＣ、『日本人』の『日』に対応する
２バイトのＣ６ＦＣ、等を選択する。選択した２つのフィ−ルドをそれぞれ重複デ−タを削
除しながら、ソ−トを行う。この場合、Ａ〜Ｚの順序
で、数字は小さい順に並べる。例えば、Ｃ６ＦＣは２組
存在するので１組を削除した後、先頭の１バイト目をア
ルファベット順にＡ４，Ａ５，Ｂ４，Ｃ６，・・・に配
列し、２バイト目をアルファベット順にＡ２，Ｃ１，Ｃ
７，ＦＣ，・・・・・に配列する。ソ−トした２つのフィ−ルドの一方を縦、他方を横に
して、２次元のマトリックステ−ブルに対応するインデ
ックステ−ブルを作成する。縦と横のインデックステ−ブルに対応させて、情報の
有無を１バイトずつ記録して、２次元のマトリックステ
−ブルを作成する。例えば、縦のインデックステ−ブル
のＡ４と横のＡ２の交点には、『ああ』に対応するＡ４
Ａ２が格納されているので〇を、縦のインデックステ−
ブルのＡ４と横のＣ１の交点には、Ａ４Ｃ１のコ−ドは
格納されていないので×を、それぞれ記録する。最後に、で作成したデ−タの有無を示す２次元のマ
トリックステ−ブルをビット情報（１，０）に変換し、
圧縮を行う。ここでは、〇を１に変換し、×を０に変換
している。

【０００７】図１のに示されたビットマトリックステ
−ブルをサ−チすることにより、日本語辞書に登録され
ているか否かを知ることができる。しかし、この方法に
よっても、日本語辞書に登録されているか否かが１００
％の確度で判断できるわけではない。その理由は、ビッ
トマトリックステ−ブルの構造上の不備があるために、
登録していないにもかかわらず登録していると判断して
しまうことがあるからである。例えば、日本語辞書に登
録されていない単語をビットマトリックステ−ブルでチ
ェックするする際に、ビットマトリックステ−ブルで照
合する文字の部分が偶然にもビットマトリックステ−ブ
ルに存在するコ−ドと一致しているため、ビットマトリ
ックステ−ブルによって存在しないのに存在すると判断
してしまう場合である。そこで、次のようにビットマト
リックステ−ブルの作成方法を工夫することにより、登
録チェックの確度を向上させることができる。（イ）文字位置別の文字の分散具合を考慮して、図１の
での選択方法を変更して、検索効率のよいパタ−ン
（例えば、末尾やその隣のフィ−ルドを選択する）のビ
ットマトリックステ−ブルを作成する。（ロ）図１のでの選択方法が異なるパタ−ンのビット
マトリックステ−ブルを複数準備する。例えば、単語の
先頭文字の２バイト、次の文字の２バイト、さらにその
次の文字の２バイト、をそれぞれ用いてインデックステ
−ブルを作成し、それらに対応した２次元マトリックテ
−ブルをそれぞれ作成する方法がある。（ハ）日本語辞書検索の際には、文字数の多い単語の頻
度が少ないことを考慮して、照合文字列の後方から検索
する。

【０００８】なお、上述の説明から明らかなように、本
発明の方法のテ−ブルチェックにより日本語辞書に存在
しないと判断された単語は、必ず存在しないことがわか
る。また、ビットマトリックステ−ブルのサイズについ
ては、日本語全文字数を７１４４文字、１バイト目と２
バイト目のコ−ドの種類がそれぞれ７６および９４種類
であるとすると、下記の計算により、約１キロバイトで
ある。ただし、下記の試算では、図１のでの重複デ−
タの削除処理についての考慮がないので、実際にはさら
に小さい容量で済むことが期待できる。１バイト目の対応インデックス：７６〔バイト〕２バイト目の対応インデックス：９４〔バイト〕２次元マトリックス：７６×９４＝７１４４〔ビット〕＝８９３〔バイト〕合計：１０６３〔バイト〕≒１〔キロバイト〕・・・・・・・・・・・・・・・（１）

【０００９】また、図１から明らかなように、本実施例
では、２バイトの日本語コ−ドを分割、圧縮したテ−ブ
ルを１バイトずつ調べるため、照合の際の比較回数が減
少する。例えば、日本語文字数を７１４４、ビットマト
リックステ−ブルのインデックス数を７６と９４にした
場合、ビットマトリックステ−ブルを使用せずに、バイ
ナリサ−チで未登録チェックを行った場合の平均比較回
数は、次式により２４回となる。〔ｌｏｇ₂７１４４〕×２（バイト）＝〔１２．８０〕×２＝２４〔回〕・・・・・・・・・・・・・・・（２）これに対して、ビットマトリックステ−ブルを使用した
場合には、次式により１２回となる。〔ｌｏｇ₂７６〕＋〔ｌｏｇ₂９４〕＝〔６．２５〕＋〔６．５５〕＝１２〔回〕・・・・・・・・・・・・・・・（３）上式（２）と（３）を比較すれば明らかなように、本実
施例では、比較回数が従来の半分で済むことになる。

【００１０】図２は、本発明の一実施例を示す日本語辞
書検索処理の動作フロ−チャ−トである。本実施例にお
いて、ある文字列に対して日本語辞書の検索を行う場合
には、次の２つの検索処理を実行する。（イ）ビットマ
トリックステ−ブルの検索処理、（ロ）外部記憶装置上
の日本語辞書検索処理先ず、予めビットマトリックステ−ブルを作成して、メ
モリに常駐させる（ステップ１０１）。そして、検索対
象単語からビットマトリックステ−ブルに対応するチェ
ックコ−ドを２バイト（１バイトコ−ドを２つ：日本語
１文字に相当）抽出し（ステップ１０２）、それぞれビ
ットマトリックステ−ブルの縦と横のインデックスに登
録されているか否かを調べる（ステップ１０３）。縦横
ともに登録があった場合には、辞書登録ありとして、２
次元のビットマトリックスの照合を行う（ステップ１０
４）。登録がなかった場合には、辞書登録がないので、
検索を終了する（ステップ１０７）。縦と横のインデッ
クステ−ブルで示される２次元のビットマトリックステ
−ブルのビット情報を調べて（ステップ１０４）、ビッ
トがオンであれば登録ありとして、次に外部記憶装置上
の日本語辞書の検索を行う（ステップ１０６）。また、
ビットがオフであれば、辞書未登録として検索処理を終
了する（ステップ１０７）。検索対象単語で日本語辞書
を検索した結果、辞書に登録がない場合には、先頭１文
字目のビットマトリックステ−ブルによりチェックを行
ったために、２文字目以降の登録チェックができないた
めである。従って、このような場合には、図１の説明で
述べたように、複数のビットマトリックステ−ブルを多
段に準備して精度を上げるようにすることが望ましい。

【００１１】図３は、本発明の応用例を示す日本語辞書
検索処理システムの動作説明図である。先ず、『辞書検
索処理ンステムにおいて、・・・・』と文章を入力す
る。ここでは、検索対象単語として、『処理』と
『ンステム』の２つを抽出し、これらの１文字目の
『処』と『ン』をチェックコ−ドとして、それぞれビッ
トマトリックステ−ブルの縦と横のインデックスに登録
されているか否かを調べる（単語照合処理）。いま、
『処理』の単語の『処』は２バイトコ−ドＢＤＥ８、
『理』は２バイトコ−ドＣＤＦＤにそれぞれ対応し、
『ンステム』の単語の『ン』はＡ５Ｆ３，『ス』はＡ５
Ｆ３，『テ』はＡ５Ｃ６，『ム』はＡ５Ｅ０の各２バイ
トコ−ドに対応する。縦のインデックスには、１バイト
コ−ドのＡ４，Ａ５，ＢＤ，ＣＤ，・・が、横のインデ
ックスには、１バイトコ−ドのＢ７，Ｂ９，Ｃ６，Ｅ
０，Ｅ８，ＦＤ，・・・が、それぞれ登録されている。
従って、検索対象単語の『処理』については、縦のイン
デックスにＢＤが、また横のインデックスにＥ８が登録
されているので、それらの交点にＢＤＥ８とＣＤＦＤが
登録されていることになる。一方、『ンステム』につい
ては、先頭の文字『ン』のＡ５は縦のインデックスに登
録されているが、Ｆ３は縦横いずれにも登録されていな
い。従って、『ンステム』はこのビットマトリックステ
−ブルには登録されていないことがわかる。この単語照
合処理の結果、『処理』については、照合ＯＫとなり、
次の日本語辞書の検索処理に移る。また、『ンステム』
については、照合ＮＧとなり、単語辞書登録はないので
検索は行わない。日本語辞書の検索では、照合文字列
『処理』を入力することにより、照合ＯＫとなるので、
辞書デ−タを参照することができる。

【００１２】このように本実施例においては、（イ）辞
書未登録が直ちにわかるので、無駄な外部記憶部へのア
クセスが無くなり、その結果、処理効率が向上し、検索
全体では処理時間が短縮できる。（ロ）従来よりも少な
いメモリ使用で、大幅な検索処理効率の改善が図れる。
例えば、日本語であれば、照合文字列の任意の１文字
（２バイト）から辞書登録状況をチェックするために、
約１キロバイトのテ−ブルサイズで実現できる。また、
英数字では、１文字１バイトとして２文字のデ−タ登録
状況のチェックが同じサイズで行うことができる。
（ハ）テ−ブルサイズが小さいので、テ−ブルの検索時
間が短くてすむ。（ニ）未登録チェックのアルゴリズム
が簡単であるため、実現が容易である。このため、ハ−
ドウェア化が容易である。（ホ）未登録チェックに関連
して、チェック処理に要する時間が短くて済む。（ヘ）
日本語辞書の照合では、通常２バイトずつチェックする
が、１バイトずつチェックを行えるため、照合の際の対
象数が少なくなり、その結果、辞書未登録の際のチェッ
ク効率がよい。仮に、日本語辞書の先頭文字の数を３０
００とした場合に、実施例の図１に関する説明中で計算
したように、ビットマトリックステ−ブルを使用した場
合には、照合対象文字の数が縦７６、横９４で合計１７
０となるので、母集団の数が１桁少なくなる。

【００１３】

【発明の効果】以上説明したように、本発明によれば、
辞書に登録されていない単語の外部記憶への検索処理を
省略できるので、処理速度の向上が図れるとともに、少
ないメモリの使用で大幅な検索処理を行うことができ
る。

【００１４】

【図面の簡単な説明】

【図１】本発明の一実施例を示す日本語辞書検索前処理
用ビットマトリックステ−ブルの作成手順説明図であ
る。

【図２】本発明の一実施例を示す辞書検索方法の処理フ
ロ−チャ−トである。

【図３】本発明における日本語辞書検索処理システムの
応用例を示す説明図である。

【符号の説明】

ＢＤ，Ｅ８，Ａ２１バイト文字コ−ド

Claims

【特許請求の範囲】

【請求項１】外部記憶装置に登録された単語辞書から
単語を検索する辞書検索方法において、上記単語辞書に
登録された単語の表記を文字位置毎に分割して、ソ−ト
し、かつ該単語辞書の登録状況をビット情報により圧縮
したビットマトリックステ−ブルを作成して、該ビット
マトリックステ−ブルを予め内部メモリに常駐してお
き、検索対象単語について上記辞書検索を行う前に、該
ビットマトリックステ−ブルにより、上記外部記憶装置
に該検索対象単語が存在するか否かを判断し、判断の結
果、未登録の場合には該外部記憶装置の単語辞書を検索
することなく、登録されていると判断された場合のみ検
索することを特徴とする辞書検索方法。