JPH0589174A - 辞書検索方法 - Google Patents
辞書検索方法Info
- Publication number
- JPH0589174A JPH0589174A JP3251726A JP25172691A JPH0589174A JP H0589174 A JPH0589174 A JP H0589174A JP 3251726 A JP3251726 A JP 3251726A JP 25172691 A JP25172691 A JP 25172691A JP H0589174 A JPH0589174 A JP H0589174A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- word
- registered
- bit matrix
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 辞書に登録されていない単語の外部記憶装置
への検索処理を省略することにより、検索処理速度を向
上させる。そして、少ないメモリ使用量により、辞書検
索処理を実現できるようにする。 【構成】 計算機による言語処理において、辞書検索を
行う際に、文字位置毎に作成した文字情報の存在をチェ
ックできるビットマトリックステ−ブルを作成して、こ
れを物理メモリに常駐しておき、単語辞書を検索する前
に、このビットマトリックステ−ブルにより外部記憶上
の辞書に検索対象の単語が存在するか否かをチェック
し、辞書に未登録と判断された場合には、辞書検索を行
わずに処理を終了する。これにより、検索効率を向上さ
せる。
への検索処理を省略することにより、検索処理速度を向
上させる。そして、少ないメモリ使用量により、辞書検
索処理を実現できるようにする。 【構成】 計算機による言語処理において、辞書検索を
行う際に、文字位置毎に作成した文字情報の存在をチェ
ックできるビットマトリックステ−ブルを作成して、こ
れを物理メモリに常駐しておき、単語辞書を検索する前
に、このビットマトリックステ−ブルにより外部記憶上
の辞書に検索対象の単語が存在するか否かをチェック
し、辞書に未登録と判断された場合には、辞書検索を行
わずに処理を終了する。これにより、検索効率を向上さ
せる。
Description
【0001】
【産業上の利用分野】本発明は、計算機による言語処理
で辞書検索を行う場合に、辞書未登録が直ちに判断でき
るようにして、外部記憶装置に格納された辞書への無駄
なアクセスをなくし、処理効率を向上させることが可能
な辞書検索方法に関する。
で辞書検索を行う場合に、辞書未登録が直ちに判断でき
るようにして、外部記憶装置に格納された辞書への無駄
なアクセスをなくし、処理効率を向上させることが可能
な辞書検索方法に関する。
【0002】
【従来の技術】辞書デ−タベ−スは、自然言語システム
を開発したり、研究したりする場合に必要となる資源で
あるため、管理のし易さ、作業能率等が極めて重要とな
る。従って、辞書デ−タベ−スでは、辞書デ−タの編集
・更新等が効率的に行えるデ−タ構造にすること、検索
効率のよいデ−タ構造や記憶方法にすることが、望まれ
ている。計算機による言語解析のように、大規模な辞書
を用いる処理では、必要なメモリ容量が膨大であり、辞
書を内部メモリに常駐することができないため、磁気デ
ィスクや光ディスク等の外部記憶装置に格納されること
が多く、その結果、辞書の検索に時間がかかっていた。
また、一般的に用いられるブロックインデックス方式に
よる辞書構成では、該当する単語がブロック内に存在し
ない場合でも、辞書登録の有無にかかわらず、該当する
ブロックエリア内を全てサ−チするので、無駄な検索を
行っていた。これに対して、ハッシュ関数を用いた検索
では、単語の有無および単語の存在アドレスを特定する
ことができるが、ハッシュ用のテ−ブルサイズが大きく
なるという問題があった。
を開発したり、研究したりする場合に必要となる資源で
あるため、管理のし易さ、作業能率等が極めて重要とな
る。従って、辞書デ−タベ−スでは、辞書デ−タの編集
・更新等が効率的に行えるデ−タ構造にすること、検索
効率のよいデ−タ構造や記憶方法にすることが、望まれ
ている。計算機による言語解析のように、大規模な辞書
を用いる処理では、必要なメモリ容量が膨大であり、辞
書を内部メモリに常駐することができないため、磁気デ
ィスクや光ディスク等の外部記憶装置に格納されること
が多く、その結果、辞書の検索に時間がかかっていた。
また、一般的に用いられるブロックインデックス方式に
よる辞書構成では、該当する単語がブロック内に存在し
ない場合でも、辞書登録の有無にかかわらず、該当する
ブロックエリア内を全てサ−チするので、無駄な検索を
行っていた。これに対して、ハッシュ関数を用いた検索
では、単語の有無および単語の存在アドレスを特定する
ことができるが、ハッシュ用のテ−ブルサイズが大きく
なるという問題があった。
【0003】
【発明が解決しようとする課題】このように、従来の辞
書検索においては、(a)外部記憶装置に辞書を登録し
ていたので、辞書検索に時間を要していた。また、
(b)辞書に登録していない単語に対しても、エリア内
の全てをサ−チしていたので、無駄な検索が多かった。
さらに、(c)ハッシュ関数を用いたものでは、テ−ブ
ルサイズが大きくなり、メモリ容量が膨大となってい
た。本発明の目的は、これら従来の課題を解決し、辞書
に登録されていない単語の検索処理を不要として、処理
速度の向上を図り、短時間で検索することが可能な辞書
検索方法を提供することにある。
書検索においては、(a)外部記憶装置に辞書を登録し
ていたので、辞書検索に時間を要していた。また、
(b)辞書に登録していない単語に対しても、エリア内
の全てをサ−チしていたので、無駄な検索が多かった。
さらに、(c)ハッシュ関数を用いたものでは、テ−ブ
ルサイズが大きくなり、メモリ容量が膨大となってい
た。本発明の目的は、これら従来の課題を解決し、辞書
に登録されていない単語の検索処理を不要として、処理
速度の向上を図り、短時間で検索することが可能な辞書
検索方法を提供することにある。
【0004】
【課題を解決するための手段】上記目的を達成するた
め、本発明の辞書検索方法は、外部記憶装置に登録され
た単語辞書から単語を検索する辞書検索方法において、
単語辞書に登録された単語の表記を文字位置毎に分割し
て、ソ−トし、かつ単語辞書の登録状況をビット情報に
より圧縮したビットマトリックステ−ブルを作成して、
ビットマトリックステ−ブルを予め内部メモリに常駐し
ておき、検索対象単語について辞書検索を行う前に、ビ
ットマトリックステ−ブルにより、外部記憶装置に検索
対象単語が存在するか否かを判断し、判断の結果、未登
録の場合には外部記憶装置の単語辞書を検索することな
く、登録されていると判断された場合のみ検索すること
に特徴がある。
め、本発明の辞書検索方法は、外部記憶装置に登録され
た単語辞書から単語を検索する辞書検索方法において、
単語辞書に登録された単語の表記を文字位置毎に分割し
て、ソ−トし、かつ単語辞書の登録状況をビット情報に
より圧縮したビットマトリックステ−ブルを作成して、
ビットマトリックステ−ブルを予め内部メモリに常駐し
ておき、検索対象単語について辞書検索を行う前に、ビ
ットマトリックステ−ブルにより、外部記憶装置に検索
対象単語が存在するか否かを判断し、判断の結果、未登
録の場合には外部記憶装置の単語辞書を検索することな
く、登録されていると判断された場合のみ検索すること
に特徴がある。
【0005】
【作用】本発明においては、計算機による言語処理にお
いて、辞書を検索する場合に、文字位置毎に作成した文
字情報の存在をチェックすることが可能なビットマトリ
ックステ−ブルを物理メモリに常駐して、外部記憶上の
辞書に単語が存在するか否かのチェックを行い、辞書に
未登録な場合には辞書検索を行わないことにより、検索
効率の向上を図る。なお、日本語の検索においては、最
小2バイト単位で検索を行っているが、ビットマトリッ
クステ−ブルを用いた場合には、1バイトずつ効率よく
検索することができる。この場合、ビットマトリックス
テ−ブルはビット情報により圧縮されているので、それ
ほどメモリを使用することはなく、これを用いて未登録
のデ−タをチェックすることにより、無駄な外部記憶の
検索処理を行わずに済ますことができる。
いて、辞書を検索する場合に、文字位置毎に作成した文
字情報の存在をチェックすることが可能なビットマトリ
ックステ−ブルを物理メモリに常駐して、外部記憶上の
辞書に単語が存在するか否かのチェックを行い、辞書に
未登録な場合には辞書検索を行わないことにより、検索
効率の向上を図る。なお、日本語の検索においては、最
小2バイト単位で検索を行っているが、ビットマトリッ
クステ−ブルを用いた場合には、1バイトずつ効率よく
検索することができる。この場合、ビットマトリックス
テ−ブルはビット情報により圧縮されているので、それ
ほどメモリを使用することはなく、これを用いて未登録
のデ−タをチェックすることにより、無駄な外部記憶の
検索処理を行わずに済ますことができる。
【0006】
【実施例】以下、本発明の実施例を、図面により詳細に
説明する。図1は、本発明の一実施例を示す日本語辞書
検索処理用のビットマトリックステ−ブルの作成方法の
説明図である。ここで、ビットマトリックステ−ブルと
は、図1ので作成された縦と横の各インデックステ−
ブルと、でビット圧縮された2次元マトリックスの3
つのテ−ブルの総称である。図1では、これらのビット
マトリックステ−ブルの作成手順を示している。〜
は、その作成手順の順番である。 日本語辞書のデ−タ部分を縦方向に1バイトずつ分割
する。例えば、『日本語』の『日』をC6とFCの1バ
イトずつに、『本』をCBとDCの1バイトずつに、
『語』をB8とECの1バイトずつに、それぞれ分割す
る。 分割したフィ−ルドの先頭から2フィ−ルド(2バイ
ト)を選択する。例えば、『日本語』の『日』に対応す
る2バイトのC6FC、『日本人』の『日』に対応する
2バイトのC6FC、等を選択する。 選択した2つのフィ−ルドをそれぞれ重複デ−タを削
除しながら、ソ−トを行う。この場合、A〜Zの順序
で、数字は小さい順に並べる。例えば、C6FCは2組
存在するので1組を削除した後、先頭の1バイト目をア
ルファベット順にA4,A5,B4,C6,・・・に配
列し、2バイト目をアルファベット順にA2,C1,C
7,FC,・・・・・に配列する。 ソ−トした2つのフィ−ルドの一方を縦、他方を横に
して、2次元のマトリックステ−ブルに対応するインデ
ックステ−ブルを作成する。 縦と横のインデックステ−ブルに対応させて、情報の
有無を1バイトずつ記録して、2次元のマトリックステ
−ブルを作成する。例えば、縦のインデックステ−ブル
のA4と横のA2の交点には、『ああ』に対応するA4
A2が格納されているので〇を、縦のインデックステ−
ブルのA4と横のC1の交点には、A4C1のコ−ドは
格納されていないので×を、それぞれ記録する。 最後に、で作成したデ−タの有無を示す2次元のマ
トリックステ−ブルをビット情報(1,0)に変換し、
圧縮を行う。ここでは、〇を1に変換し、×を0に変換
している。
説明する。図1は、本発明の一実施例を示す日本語辞書
検索処理用のビットマトリックステ−ブルの作成方法の
説明図である。ここで、ビットマトリックステ−ブルと
は、図1ので作成された縦と横の各インデックステ−
ブルと、でビット圧縮された2次元マトリックスの3
つのテ−ブルの総称である。図1では、これらのビット
マトリックステ−ブルの作成手順を示している。〜
は、その作成手順の順番である。 日本語辞書のデ−タ部分を縦方向に1バイトずつ分割
する。例えば、『日本語』の『日』をC6とFCの1バ
イトずつに、『本』をCBとDCの1バイトずつに、
『語』をB8とECの1バイトずつに、それぞれ分割す
る。 分割したフィ−ルドの先頭から2フィ−ルド(2バイ
ト)を選択する。例えば、『日本語』の『日』に対応す
る2バイトのC6FC、『日本人』の『日』に対応する
2バイトのC6FC、等を選択する。 選択した2つのフィ−ルドをそれぞれ重複デ−タを削
除しながら、ソ−トを行う。この場合、A〜Zの順序
で、数字は小さい順に並べる。例えば、C6FCは2組
存在するので1組を削除した後、先頭の1バイト目をア
ルファベット順にA4,A5,B4,C6,・・・に配
列し、2バイト目をアルファベット順にA2,C1,C
7,FC,・・・・・に配列する。 ソ−トした2つのフィ−ルドの一方を縦、他方を横に
して、2次元のマトリックステ−ブルに対応するインデ
ックステ−ブルを作成する。 縦と横のインデックステ−ブルに対応させて、情報の
有無を1バイトずつ記録して、2次元のマトリックステ
−ブルを作成する。例えば、縦のインデックステ−ブル
のA4と横のA2の交点には、『ああ』に対応するA4
A2が格納されているので〇を、縦のインデックステ−
ブルのA4と横のC1の交点には、A4C1のコ−ドは
格納されていないので×を、それぞれ記録する。 最後に、で作成したデ−タの有無を示す2次元のマ
トリックステ−ブルをビット情報(1,0)に変換し、
圧縮を行う。ここでは、〇を1に変換し、×を0に変換
している。
【0007】図1のに示されたビットマトリックステ
−ブルをサ−チすることにより、日本語辞書に登録され
ているか否かを知ることができる。しかし、この方法に
よっても、日本語辞書に登録されているか否かが100
%の確度で判断できるわけではない。その理由は、ビッ
トマトリックステ−ブルの構造上の不備があるために、
登録していないにもかかわらず登録していると判断して
しまうことがあるからである。例えば、日本語辞書に登
録されていない単語をビットマトリックステ−ブルでチ
ェックするする際に、ビットマトリックステ−ブルで照
合する文字の部分が偶然にもビットマトリックステ−ブ
ルに存在するコ−ドと一致しているため、ビットマトリ
ックステ−ブルによって存在しないのに存在すると判断
してしまう場合である。そこで、次のようにビットマト
リックステ−ブルの作成方法を工夫することにより、登
録チェックの確度を向上させることができる。 (イ)文字位置別の文字の分散具合を考慮して、図1の
での選択方法を変更して、検索効率のよいパタ−ン
(例えば、末尾やその隣のフィ−ルドを選択する)のビ
ットマトリックステ−ブルを作成する。 (ロ)図1のでの選択方法が異なるパタ−ンのビット
マトリックステ−ブルを複数準備する。例えば、単語の
先頭文字の2バイト、次の文字の2バイト、さらにその
次の文字の2バイト、をそれぞれ用いてインデックステ
−ブルを作成し、それらに対応した2次元マトリックテ
−ブルをそれぞれ作成する方法がある。 (ハ)日本語辞書検索の際には、文字数の多い単語の頻
度が少ないことを考慮して、照合文字列の後方から検索
する。
−ブルをサ−チすることにより、日本語辞書に登録され
ているか否かを知ることができる。しかし、この方法に
よっても、日本語辞書に登録されているか否かが100
%の確度で判断できるわけではない。その理由は、ビッ
トマトリックステ−ブルの構造上の不備があるために、
登録していないにもかかわらず登録していると判断して
しまうことがあるからである。例えば、日本語辞書に登
録されていない単語をビットマトリックステ−ブルでチ
ェックするする際に、ビットマトリックステ−ブルで照
合する文字の部分が偶然にもビットマトリックステ−ブ
ルに存在するコ−ドと一致しているため、ビットマトリ
ックステ−ブルによって存在しないのに存在すると判断
してしまう場合である。そこで、次のようにビットマト
リックステ−ブルの作成方法を工夫することにより、登
録チェックの確度を向上させることができる。 (イ)文字位置別の文字の分散具合を考慮して、図1の
での選択方法を変更して、検索効率のよいパタ−ン
(例えば、末尾やその隣のフィ−ルドを選択する)のビ
ットマトリックステ−ブルを作成する。 (ロ)図1のでの選択方法が異なるパタ−ンのビット
マトリックステ−ブルを複数準備する。例えば、単語の
先頭文字の2バイト、次の文字の2バイト、さらにその
次の文字の2バイト、をそれぞれ用いてインデックステ
−ブルを作成し、それらに対応した2次元マトリックテ
−ブルをそれぞれ作成する方法がある。 (ハ)日本語辞書検索の際には、文字数の多い単語の頻
度が少ないことを考慮して、照合文字列の後方から検索
する。
【0008】なお、上述の説明から明らかなように、本
発明の方法のテ−ブルチェックにより日本語辞書に存在
しないと判断された単語は、必ず存在しないことがわか
る。また、ビットマトリックステ−ブルのサイズについ
ては、日本語全文字数を7144文字、1バイト目と2
バイト目のコ−ドの種類がそれぞれ76および94種類
であるとすると、下記の計算により、約1キロバイトで
ある。ただし、下記の試算では、図1のでの重複デ−
タの削除処理についての考慮がないので、実際にはさら
に小さい容量で済むことが期待できる。 1バイト目の対応インデックス:76〔バイト〕 2バイト目の対応インデックス:94〔バイト〕 2次元マトリックス:76×94=7144〔ビット〕=893〔バイト〕 合 計 :1063〔バイト〕≒1〔キロバイト〕 ・・・・・・・・・・・・・・・(1)
発明の方法のテ−ブルチェックにより日本語辞書に存在
しないと判断された単語は、必ず存在しないことがわか
る。また、ビットマトリックステ−ブルのサイズについ
ては、日本語全文字数を7144文字、1バイト目と2
バイト目のコ−ドの種類がそれぞれ76および94種類
であるとすると、下記の計算により、約1キロバイトで
ある。ただし、下記の試算では、図1のでの重複デ−
タの削除処理についての考慮がないので、実際にはさら
に小さい容量で済むことが期待できる。 1バイト目の対応インデックス:76〔バイト〕 2バイト目の対応インデックス:94〔バイト〕 2次元マトリックス:76×94=7144〔ビット〕=893〔バイト〕 合 計 :1063〔バイト〕≒1〔キロバイト〕 ・・・・・・・・・・・・・・・(1)
【0009】また、図1から明らかなように、本実施例
では、2バイトの日本語コ−ドを分割、圧縮したテ−ブ
ルを1バイトずつ調べるため、照合の際の比較回数が減
少する。例えば、日本語文字数を7144、ビットマト
リックステ−ブルのインデックス数を76と94にした
場合、ビットマトリックステ−ブルを使用せずに、バイ
ナリサ−チで未登録チェックを行った場合の平均比較回
数は、次式により24回となる。 〔log27144〕×2(バイト)=〔12.80〕×2=24〔回〕 ・・・・・・・・・・・・・・・(2) これに対して、ビットマトリックステ−ブルを使用した
場合には、次式により12回となる。 〔log276〕+〔log294〕=〔6.25〕+〔6.55〕=12〔回〕 ・・・・・・・・・・・・・・・(3) 上式(2)と(3)を比較すれば明らかなように、本実
施例では、比較回数が従来の半分で済むことになる。
では、2バイトの日本語コ−ドを分割、圧縮したテ−ブ
ルを1バイトずつ調べるため、照合の際の比較回数が減
少する。例えば、日本語文字数を7144、ビットマト
リックステ−ブルのインデックス数を76と94にした
場合、ビットマトリックステ−ブルを使用せずに、バイ
ナリサ−チで未登録チェックを行った場合の平均比較回
数は、次式により24回となる。 〔log27144〕×2(バイト)=〔12.80〕×2=24〔回〕 ・・・・・・・・・・・・・・・(2) これに対して、ビットマトリックステ−ブルを使用した
場合には、次式により12回となる。 〔log276〕+〔log294〕=〔6.25〕+〔6.55〕=12〔回〕 ・・・・・・・・・・・・・・・(3) 上式(2)と(3)を比較すれば明らかなように、本実
施例では、比較回数が従来の半分で済むことになる。
【0010】図2は、本発明の一実施例を示す日本語辞
書検索処理の動作フロ−チャ−トである。本実施例にお
いて、ある文字列に対して日本語辞書の検索を行う場合
には、次の2つの検索処理を実行する。(イ)ビットマ
トリックステ−ブルの検索処理、(ロ)外部記憶装置上
の日本語辞書検索処理 先ず、予めビットマトリックステ−ブルを作成して、メ
モリに常駐させる(ステップ101)。そして、検索対
象単語からビットマトリックステ−ブルに対応するチェ
ックコ−ドを2バイト(1バイトコ−ドを2つ:日本語
1文字に相当)抽出し(ステップ102)、それぞれビ
ットマトリックステ−ブルの縦と横のインデックスに登
録されているか否かを調べる(ステップ103)。縦横
ともに登録があった場合には、辞書登録ありとして、2
次元のビットマトリックスの照合を行う(ステップ10
4)。登録がなかった場合には、辞書登録がないので、
検索を終了する(ステップ107)。縦と横のインデッ
クステ−ブルで示される2次元のビットマトリックステ
−ブルのビット情報を調べて(ステップ104)、ビッ
トがオンであれば登録ありとして、次に外部記憶装置上
の日本語辞書の検索を行う(ステップ106)。また、
ビットがオフであれば、辞書未登録として検索処理を終
了する(ステップ107)。検索対象単語で日本語辞書
を検索した結果、辞書に登録がない場合には、先頭1文
字目のビットマトリックステ−ブルによりチェックを行
ったために、2文字目以降の登録チェックができないた
めである。従って、このような場合には、図1の説明で
述べたように、複数のビットマトリックステ−ブルを多
段に準備して精度を上げるようにすることが望ましい。
書検索処理の動作フロ−チャ−トである。本実施例にお
いて、ある文字列に対して日本語辞書の検索を行う場合
には、次の2つの検索処理を実行する。(イ)ビットマ
トリックステ−ブルの検索処理、(ロ)外部記憶装置上
の日本語辞書検索処理 先ず、予めビットマトリックステ−ブルを作成して、メ
モリに常駐させる(ステップ101)。そして、検索対
象単語からビットマトリックステ−ブルに対応するチェ
ックコ−ドを2バイト(1バイトコ−ドを2つ:日本語
1文字に相当)抽出し(ステップ102)、それぞれビ
ットマトリックステ−ブルの縦と横のインデックスに登
録されているか否かを調べる(ステップ103)。縦横
ともに登録があった場合には、辞書登録ありとして、2
次元のビットマトリックスの照合を行う(ステップ10
4)。登録がなかった場合には、辞書登録がないので、
検索を終了する(ステップ107)。縦と横のインデッ
クステ−ブルで示される2次元のビットマトリックステ
−ブルのビット情報を調べて(ステップ104)、ビッ
トがオンであれば登録ありとして、次に外部記憶装置上
の日本語辞書の検索を行う(ステップ106)。また、
ビットがオフであれば、辞書未登録として検索処理を終
了する(ステップ107)。検索対象単語で日本語辞書
を検索した結果、辞書に登録がない場合には、先頭1文
字目のビットマトリックステ−ブルによりチェックを行
ったために、2文字目以降の登録チェックができないた
めである。従って、このような場合には、図1の説明で
述べたように、複数のビットマトリックステ−ブルを多
段に準備して精度を上げるようにすることが望ましい。
【0011】図3は、本発明の応用例を示す日本語辞書
検索処理システムの動作説明図である。先ず、『辞書検
索処理ンステムにおいて、・・・・』と文章を入力す
る。ここでは、検索対象単語として、『処理』と
『ンステム』の2つを抽出し、これらの1文字目の
『処』と『ン』をチェックコ−ドとして、それぞれビッ
トマトリックステ−ブルの縦と横のインデックスに登録
されているか否かを調べる(単語照合処理)。いま、
『処理』の単語の『処』は2バイトコ−ドBDE8、
『理』は2バイトコ−ドCDFDにそれぞれ対応し、
『ンステム』の単語の『ン』はA5F3,『ス』はA5
F3,『テ』はA5C6,『ム』はA5E0の各2バイ
トコ−ドに対応する。縦のインデックスには、1バイト
コ−ドのA4,A5,BD,CD,・・が、横のインデ
ックスには、1バイトコ−ドのB7,B9,C6,E
0,E8,FD,・・・が、それぞれ登録されている。
従って、検索対象単語の『処理』については、縦のイン
デックスにBDが、また横のインデックスにE8が登録
されているので、それらの交点にBDE8とCDFDが
登録されていることになる。一方、『ンステム』につい
ては、先頭の文字『ン』のA5は縦のインデックスに登
録されているが、F3は縦横いずれにも登録されていな
い。従って、『ンステム』はこのビットマトリックステ
−ブルには登録されていないことがわかる。この単語照
合処理の結果、『処理』については、照合OKとなり、
次の日本語辞書の検索処理に移る。また、『ンステム』
については、照合NGとなり、単語辞書登録はないので
検索は行わない。日本語辞書の検索では、照合文字列
『処理』を入力することにより、照合OKとなるので、
辞書デ−タを参照することができる。
検索処理システムの動作説明図である。先ず、『辞書検
索処理ンステムにおいて、・・・・』と文章を入力す
る。ここでは、検索対象単語として、『処理』と
『ンステム』の2つを抽出し、これらの1文字目の
『処』と『ン』をチェックコ−ドとして、それぞれビッ
トマトリックステ−ブルの縦と横のインデックスに登録
されているか否かを調べる(単語照合処理)。いま、
『処理』の単語の『処』は2バイトコ−ドBDE8、
『理』は2バイトコ−ドCDFDにそれぞれ対応し、
『ンステム』の単語の『ン』はA5F3,『ス』はA5
F3,『テ』はA5C6,『ム』はA5E0の各2バイ
トコ−ドに対応する。縦のインデックスには、1バイト
コ−ドのA4,A5,BD,CD,・・が、横のインデ
ックスには、1バイトコ−ドのB7,B9,C6,E
0,E8,FD,・・・が、それぞれ登録されている。
従って、検索対象単語の『処理』については、縦のイン
デックスにBDが、また横のインデックスにE8が登録
されているので、それらの交点にBDE8とCDFDが
登録されていることになる。一方、『ンステム』につい
ては、先頭の文字『ン』のA5は縦のインデックスに登
録されているが、F3は縦横いずれにも登録されていな
い。従って、『ンステム』はこのビットマトリックステ
−ブルには登録されていないことがわかる。この単語照
合処理の結果、『処理』については、照合OKとなり、
次の日本語辞書の検索処理に移る。また、『ンステム』
については、照合NGとなり、単語辞書登録はないので
検索は行わない。日本語辞書の検索では、照合文字列
『処理』を入力することにより、照合OKとなるので、
辞書デ−タを参照することができる。
【0012】このように本実施例においては、(イ)辞
書未登録が直ちにわかるので、無駄な外部記憶部へのア
クセスが無くなり、その結果、処理効率が向上し、検索
全体では処理時間が短縮できる。(ロ)従来よりも少な
いメモリ使用で、大幅な検索処理効率の改善が図れる。
例えば、日本語であれば、照合文字列の任意の1文字
(2バイト)から辞書登録状況をチェックするために、
約1キロバイトのテ−ブルサイズで実現できる。また、
英数字では、1文字1バイトとして2文字のデ−タ登録
状況のチェックが同じサイズで行うことができる。
(ハ)テ−ブルサイズが小さいので、テ−ブルの検索時
間が短くてすむ。(ニ)未登録チェックのアルゴリズム
が簡単であるため、実現が容易である。このため、ハ−
ドウェア化が容易である。(ホ)未登録チェックに関連
して、チェック処理に要する時間が短くて済む。(ヘ)
日本語辞書の照合では、通常2バイトずつチェックする
が、1バイトずつチェックを行えるため、照合の際の対
象数が少なくなり、その結果、辞書未登録の際のチェッ
ク効率がよい。仮に、日本語辞書の先頭文字の数を30
00とした場合に、実施例の図1に関する説明中で計算
したように、ビットマトリックステ−ブルを使用した場
合には、照合対象文字の数が縦76、横94で合計17
0となるので、母集団の数が1桁少なくなる。
書未登録が直ちにわかるので、無駄な外部記憶部へのア
クセスが無くなり、その結果、処理効率が向上し、検索
全体では処理時間が短縮できる。(ロ)従来よりも少な
いメモリ使用で、大幅な検索処理効率の改善が図れる。
例えば、日本語であれば、照合文字列の任意の1文字
(2バイト)から辞書登録状況をチェックするために、
約1キロバイトのテ−ブルサイズで実現できる。また、
英数字では、1文字1バイトとして2文字のデ−タ登録
状況のチェックが同じサイズで行うことができる。
(ハ)テ−ブルサイズが小さいので、テ−ブルの検索時
間が短くてすむ。(ニ)未登録チェックのアルゴリズム
が簡単であるため、実現が容易である。このため、ハ−
ドウェア化が容易である。(ホ)未登録チェックに関連
して、チェック処理に要する時間が短くて済む。(ヘ)
日本語辞書の照合では、通常2バイトずつチェックする
が、1バイトずつチェックを行えるため、照合の際の対
象数が少なくなり、その結果、辞書未登録の際のチェッ
ク効率がよい。仮に、日本語辞書の先頭文字の数を30
00とした場合に、実施例の図1に関する説明中で計算
したように、ビットマトリックステ−ブルを使用した場
合には、照合対象文字の数が縦76、横94で合計17
0となるので、母集団の数が1桁少なくなる。
【0013】
【発明の効果】以上説明したように、本発明によれば、
辞書に登録されていない単語の外部記憶への検索処理を
省略できるので、処理速度の向上が図れるとともに、少
ないメモリの使用で大幅な検索処理を行うことができ
る。
辞書に登録されていない単語の外部記憶への検索処理を
省略できるので、処理速度の向上が図れるとともに、少
ないメモリの使用で大幅な検索処理を行うことができ
る。
【0014】
【図1】本発明の一実施例を示す日本語辞書検索前処理
用ビットマトリックステ−ブルの作成手順説明図であ
る。
用ビットマトリックステ−ブルの作成手順説明図であ
る。
【図2】本発明の一実施例を示す辞書検索方法の処理フ
ロ−チャ−トである。
ロ−チャ−トである。
【図3】本発明における日本語辞書検索処理システムの
応用例を示す説明図である。
応用例を示す説明図である。
BD,E8,A2 1バイト文字コ−ド
Claims (1)
- 【請求項1】 外部記憶装置に登録された単語辞書から
単語を検索する辞書検索方法において、上記単語辞書に
登録された単語の表記を文字位置毎に分割して、ソ−ト
し、かつ該単語辞書の登録状況をビット情報により圧縮
したビットマトリックステ−ブルを作成して、該ビット
マトリックステ−ブルを予め内部メモリに常駐してお
き、検索対象単語について上記辞書検索を行う前に、該
ビットマトリックステ−ブルにより、上記外部記憶装置
に該検索対象単語が存在するか否かを判断し、判断の結
果、未登録の場合には該外部記憶装置の単語辞書を検索
することなく、登録されていると判断された場合のみ検
索することを特徴とする辞書検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3251726A JPH0589174A (ja) | 1991-09-30 | 1991-09-30 | 辞書検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3251726A JPH0589174A (ja) | 1991-09-30 | 1991-09-30 | 辞書検索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0589174A true JPH0589174A (ja) | 1993-04-09 |
Family
ID=17227061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3251726A Pending JPH0589174A (ja) | 1991-09-30 | 1991-09-30 | 辞書検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0589174A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018101735A1 (ko) * | 2016-11-29 | 2018-06-07 | 주식회사 닷 | 제한된 영역을 활용한 데이터 변환 장치, 방법 및 컴퓨터 프로그램 |
KR20180099265A (ko) * | 2017-02-28 | 2018-09-05 | 주식회사 닷 | 비트 테이블을 활용하여 입력 단어의 타당성 판단 장치, 방법 및 컴퓨터 프로그램 |
KR101897983B1 (ko) * | 2017-05-11 | 2018-09-13 | (주)언맨드솔루션 | 재난 대응용 특수목적기계 주행장치의 고장발생 대처 장치 |
-
1991
- 1991-09-30 JP JP3251726A patent/JPH0589174A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018101735A1 (ko) * | 2016-11-29 | 2018-06-07 | 주식회사 닷 | 제한된 영역을 활용한 데이터 변환 장치, 방법 및 컴퓨터 프로그램 |
KR20180099265A (ko) * | 2017-02-28 | 2018-09-05 | 주식회사 닷 | 비트 테이블을 활용하여 입력 단어의 타당성 판단 장치, 방법 및 컴퓨터 프로그램 |
KR101897983B1 (ko) * | 2017-05-11 | 2018-09-13 | (주)언맨드솔루션 | 재난 대응용 특수목적기계 주행장치의 고장발생 대처 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5546578A (en) | Data base retrieval system utilizing stored vicinity feature values | |
JP3152868B2 (ja) | 検索装置および辞書/テキスト検索方法 | |
US6778985B1 (en) | Implementing descending indexes with a descend function | |
CN111324750B (zh) | 一种大规模文本相似度计算及文本查重方法 | |
JP2001345710A (ja) | データ圧縮装置および方法 | |
JP2000163442A (ja) | 記号辞書作成方法及び記号辞書検索方法 | |
CN102867049A (zh) | 一种基于单词查找树实现的汉语拼音快速分词方法 | |
JP3258063B2 (ja) | データベース検索システム及び方法 | |
JP3151730B2 (ja) | データベース検索システム | |
JPH0589174A (ja) | 辞書検索方法 | |
CN114995880A (zh) | 一种基于SimHash的二进制代码相似性比对方法 | |
JP3859044B2 (ja) | インデクス作成方法および検索方法 | |
JP3253657B2 (ja) | 文書検索方法 | |
JP3288063B2 (ja) | 可変長データの格納および参照システム | |
JP3259781B2 (ja) | データベース検索システムおよびデータベース検索方法 | |
JPH04340164A (ja) | マルチキーワード情報検索処理方式および検索ファイル作成装置 | |
JPH10177582A (ja) | 最長一致検索方法及び装置 | |
JP3099683B2 (ja) | 情報検索装置 | |
JP2772124B2 (ja) | 辞書検索方式 | |
JP3780772B2 (ja) | データベースの索引創成装置 | |
JPH07319888A (ja) | 索引検索方式 | |
CN117076192A (zh) | 一种SQLite数据恢复方法 | |
JP3456127B2 (ja) | インデクスキーの高速拡張機能を備えた文書検索方法および装置 | |
JPS62131348A (ja) | マルチインデツクスフアイルアクセス方式 | |
JP2718107B2 (ja) | 比較処理方式 |