JPH0589174A - 辞書検索方法 - Google Patents

辞書検索方法

Info

Publication number
JPH0589174A
JPH0589174A JP3251726A JP25172691A JPH0589174A JP H0589174 A JPH0589174 A JP H0589174A JP 3251726 A JP3251726 A JP 3251726A JP 25172691 A JP25172691 A JP 25172691A JP H0589174 A JPH0589174 A JP H0589174A
Authority
JP
Japan
Prior art keywords
dictionary
word
registered
bit matrix
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3251726A
Other languages
English (en)
Inventor
Tsuyoshi Kitani
強 木谷
Kensho Okada
憲昭 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
N T T SOFTWARE KK
NTT Data Corp
NTT Software Corp
Original Assignee
N T T DATA TSUSHIN KK
N T T SOFTWARE KK
NTT Data Communications Systems Corp
NTT Software Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, N T T SOFTWARE KK, NTT Data Communications Systems Corp, NTT Software Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP3251726A priority Critical patent/JPH0589174A/ja
Publication of JPH0589174A publication Critical patent/JPH0589174A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 辞書に登録されていない単語の外部記憶装置
への検索処理を省略することにより、検索処理速度を向
上させる。そして、少ないメモリ使用量により、辞書検
索処理を実現できるようにする。 【構成】 計算機による言語処理において、辞書検索を
行う際に、文字位置毎に作成した文字情報の存在をチェ
ックできるビットマトリックステ−ブルを作成して、こ
れを物理メモリに常駐しておき、単語辞書を検索する前
に、このビットマトリックステ−ブルにより外部記憶上
の辞書に検索対象の単語が存在するか否かをチェック
し、辞書に未登録と判断された場合には、辞書検索を行
わずに処理を終了する。これにより、検索効率を向上さ
せる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、計算機による言語処理
で辞書検索を行う場合に、辞書未登録が直ちに判断でき
るようにして、外部記憶装置に格納された辞書への無駄
なアクセスをなくし、処理効率を向上させることが可能
な辞書検索方法に関する。
【0002】
【従来の技術】辞書デ−タベ−スは、自然言語システム
を開発したり、研究したりする場合に必要となる資源で
あるため、管理のし易さ、作業能率等が極めて重要とな
る。従って、辞書デ−タベ−スでは、辞書デ−タの編集
・更新等が効率的に行えるデ−タ構造にすること、検索
効率のよいデ−タ構造や記憶方法にすることが、望まれ
ている。計算機による言語解析のように、大規模な辞書
を用いる処理では、必要なメモリ容量が膨大であり、辞
書を内部メモリに常駐することができないため、磁気デ
ィスクや光ディスク等の外部記憶装置に格納されること
が多く、その結果、辞書の検索に時間がかかっていた。
また、一般的に用いられるブロックインデックス方式に
よる辞書構成では、該当する単語がブロック内に存在し
ない場合でも、辞書登録の有無にかかわらず、該当する
ブロックエリア内を全てサ−チするので、無駄な検索を
行っていた。これに対して、ハッシュ関数を用いた検索
では、単語の有無および単語の存在アドレスを特定する
ことができるが、ハッシュ用のテ−ブルサイズが大きく
なるという問題があった。
【0003】
【発明が解決しようとする課題】このように、従来の辞
書検索においては、(a)外部記憶装置に辞書を登録し
ていたので、辞書検索に時間を要していた。また、
(b)辞書に登録していない単語に対しても、エリア内
の全てをサ−チしていたので、無駄な検索が多かった。
さらに、(c)ハッシュ関数を用いたものでは、テ−ブ
ルサイズが大きくなり、メモリ容量が膨大となってい
た。本発明の目的は、これら従来の課題を解決し、辞書
に登録されていない単語の検索処理を不要として、処理
速度の向上を図り、短時間で検索することが可能な辞書
検索方法を提供することにある。
【0004】
【課題を解決するための手段】上記目的を達成するた
め、本発明の辞書検索方法は、外部記憶装置に登録され
た単語辞書から単語を検索する辞書検索方法において、
単語辞書に登録された単語の表記を文字位置毎に分割し
て、ソ−トし、かつ単語辞書の登録状況をビット情報に
より圧縮したビットマトリックステ−ブルを作成して、
ビットマトリックステ−ブルを予め内部メモリに常駐し
ておき、検索対象単語について辞書検索を行う前に、ビ
ットマトリックステ−ブルにより、外部記憶装置に検索
対象単語が存在するか否かを判断し、判断の結果、未登
録の場合には外部記憶装置の単語辞書を検索することな
く、登録されていると判断された場合のみ検索すること
に特徴がある。
【0005】
【作用】本発明においては、計算機による言語処理にお
いて、辞書を検索する場合に、文字位置毎に作成した文
字情報の存在をチェックすることが可能なビットマトリ
ックステ−ブルを物理メモリに常駐して、外部記憶上の
辞書に単語が存在するか否かのチェックを行い、辞書に
未登録な場合には辞書検索を行わないことにより、検索
効率の向上を図る。なお、日本語の検索においては、最
小2バイト単位で検索を行っているが、ビットマトリッ
クステ−ブルを用いた場合には、1バイトずつ効率よく
検索することができる。この場合、ビットマトリックス
テ−ブルはビット情報により圧縮されているので、それ
ほどメモリを使用することはなく、これを用いて未登録
のデ−タをチェックすることにより、無駄な外部記憶の
検索処理を行わずに済ますことができる。
【0006】
【実施例】以下、本発明の実施例を、図面により詳細に
説明する。図1は、本発明の一実施例を示す日本語辞書
検索処理用のビットマトリックステ−ブルの作成方法の
説明図である。ここで、ビットマトリックステ−ブルと
は、図1ので作成された縦と横の各インデックステ−
ブルと、でビット圧縮された2次元マトリックスの3
つのテ−ブルの総称である。図1では、これらのビット
マトリックステ−ブルの作成手順を示している。〜
は、その作成手順の順番である。 日本語辞書のデ−タ部分を縦方向に1バイトずつ分割
する。例えば、『日本語』の『日』をC6とFCの1バ
イトずつに、『本』をCBとDCの1バイトずつに、
『語』をB8とECの1バイトずつに、それぞれ分割す
る。 分割したフィ−ルドの先頭から2フィ−ルド(2バイ
ト)を選択する。例えば、『日本語』の『日』に対応す
る2バイトのC6FC、『日本人』の『日』に対応する
2バイトのC6FC、等を選択する。 選択した2つのフィ−ルドをそれぞれ重複デ−タを削
除しながら、ソ−トを行う。この場合、A〜Zの順序
で、数字は小さい順に並べる。例えば、C6FCは2組
存在するので1組を削除した後、先頭の1バイト目をア
ルファベット順にA4,A5,B4,C6,・・・に配
列し、2バイト目をアルファベット順にA2,C1,C
7,FC,・・・・・に配列する。 ソ−トした2つのフィ−ルドの一方を縦、他方を横に
して、2次元のマトリックステ−ブルに対応するインデ
ックステ−ブルを作成する。 縦と横のインデックステ−ブルに対応させて、情報の
有無を1バイトずつ記録して、2次元のマトリックステ
−ブルを作成する。例えば、縦のインデックステ−ブル
のA4と横のA2の交点には、『ああ』に対応するA4
A2が格納されているので〇を、縦のインデックステ−
ブルのA4と横のC1の交点には、A4C1のコ−ドは
格納されていないので×を、それぞれ記録する。 最後に、で作成したデ−タの有無を示す2次元のマ
トリックステ−ブルをビット情報(1,0)に変換し、
圧縮を行う。ここでは、〇を1に変換し、×を0に変換
している。
【0007】図1のに示されたビットマトリックステ
−ブルをサ−チすることにより、日本語辞書に登録され
ているか否かを知ることができる。しかし、この方法に
よっても、日本語辞書に登録されているか否かが100
%の確度で判断できるわけではない。その理由は、ビッ
トマトリックステ−ブルの構造上の不備があるために、
登録していないにもかかわらず登録していると判断して
しまうことがあるからである。例えば、日本語辞書に登
録されていない単語をビットマトリックステ−ブルでチ
ェックするする際に、ビットマトリックステ−ブルで照
合する文字の部分が偶然にもビットマトリックステ−ブ
ルに存在するコ−ドと一致しているため、ビットマトリ
ックステ−ブルによって存在しないのに存在すると判断
してしまう場合である。そこで、次のようにビットマト
リックステ−ブルの作成方法を工夫することにより、登
録チェックの確度を向上させることができる。 (イ)文字位置別の文字の分散具合を考慮して、図1の
での選択方法を変更して、検索効率のよいパタ−ン
(例えば、末尾やその隣のフィ−ルドを選択する)のビ
ットマトリックステ−ブルを作成する。 (ロ)図1のでの選択方法が異なるパタ−ンのビット
マトリックステ−ブルを複数準備する。例えば、単語の
先頭文字の2バイト、次の文字の2バイト、さらにその
次の文字の2バイト、をそれぞれ用いてインデックステ
−ブルを作成し、それらに対応した2次元マトリックテ
−ブルをそれぞれ作成する方法がある。 (ハ)日本語辞書検索の際には、文字数の多い単語の頻
度が少ないことを考慮して、照合文字列の後方から検索
する。
【0008】なお、上述の説明から明らかなように、本
発明の方法のテ−ブルチェックにより日本語辞書に存在
しないと判断された単語は、必ず存在しないことがわか
る。また、ビットマトリックステ−ブルのサイズについ
ては、日本語全文字数を7144文字、1バイト目と2
バイト目のコ−ドの種類がそれぞれ76および94種類
であるとすると、下記の計算により、約1キロバイトで
ある。ただし、下記の試算では、図1のでの重複デ−
タの削除処理についての考慮がないので、実際にはさら
に小さい容量で済むことが期待できる。 1バイト目の対応インデックス:76〔バイト〕 2バイト目の対応インデックス:94〔バイト〕 2次元マトリックス:76×94=7144〔ビット〕=893〔バイト〕 合 計 :1063〔バイト〕≒1〔キロバイト〕 ・・・・・・・・・・・・・・・(1)
【0009】また、図1から明らかなように、本実施例
では、2バイトの日本語コ−ドを分割、圧縮したテ−ブ
ルを1バイトずつ調べるため、照合の際の比較回数が減
少する。例えば、日本語文字数を7144、ビットマト
リックステ−ブルのインデックス数を76と94にした
場合、ビットマトリックステ−ブルを使用せずに、バイ
ナリサ−チで未登録チェックを行った場合の平均比較回
数は、次式により24回となる。 〔log27144〕×2(バイト)=〔12.80〕×2=24〔回〕 ・・・・・・・・・・・・・・・(2) これに対して、ビットマトリックステ−ブルを使用した
場合には、次式により12回となる。 〔log276〕+〔log294〕=〔6.25〕+〔6.55〕=12〔回〕 ・・・・・・・・・・・・・・・(3) 上式(2)と(3)を比較すれば明らかなように、本実
施例では、比較回数が従来の半分で済むことになる。
【0010】図2は、本発明の一実施例を示す日本語辞
書検索処理の動作フロ−チャ−トである。本実施例にお
いて、ある文字列に対して日本語辞書の検索を行う場合
には、次の2つの検索処理を実行する。(イ)ビットマ
トリックステ−ブルの検索処理、(ロ)外部記憶装置上
の日本語辞書検索処理 先ず、予めビットマトリックステ−ブルを作成して、メ
モリに常駐させる(ステップ101)。そして、検索対
象単語からビットマトリックステ−ブルに対応するチェ
ックコ−ドを2バイト(1バイトコ−ドを2つ:日本語
1文字に相当)抽出し(ステップ102)、それぞれビ
ットマトリックステ−ブルの縦と横のインデックスに登
録されているか否かを調べる(ステップ103)。縦横
ともに登録があった場合には、辞書登録ありとして、2
次元のビットマトリックスの照合を行う(ステップ10
4)。登録がなかった場合には、辞書登録がないので、
検索を終了する(ステップ107)。縦と横のインデッ
クステ−ブルで示される2次元のビットマトリックステ
−ブルのビット情報を調べて(ステップ104)、ビッ
トがオンであれば登録ありとして、次に外部記憶装置上
の日本語辞書の検索を行う(ステップ106)。また、
ビットがオフであれば、辞書未登録として検索処理を終
了する(ステップ107)。検索対象単語で日本語辞書
を検索した結果、辞書に登録がない場合には、先頭1文
字目のビットマトリックステ−ブルによりチェックを行
ったために、2文字目以降の登録チェックができないた
めである。従って、このような場合には、図1の説明で
述べたように、複数のビットマトリックステ−ブルを多
段に準備して精度を上げるようにすることが望ましい。
【0011】図3は、本発明の応用例を示す日本語辞書
検索処理システムの動作説明図である。先ず、『辞書検
索処理ンステムにおいて、・・・・』と文章を入力す
る。ここでは、検索対象単語として、『処理』と
『ンステム』の2つを抽出し、これらの1文字目の
『処』と『ン』をチェックコ−ドとして、それぞれビッ
トマトリックステ−ブルの縦と横のインデックスに登録
されているか否かを調べる(単語照合処理)。いま、
『処理』の単語の『処』は2バイトコ−ドBDE8、
『理』は2バイトコ−ドCDFDにそれぞれ対応し、
『ンステム』の単語の『ン』はA5F3,『ス』はA5
F3,『テ』はA5C6,『ム』はA5E0の各2バイ
トコ−ドに対応する。縦のインデックスには、1バイト
コ−ドのA4,A5,BD,CD,・・が、横のインデ
ックスには、1バイトコ−ドのB7,B9,C6,E
0,E8,FD,・・・が、それぞれ登録されている。
従って、検索対象単語の『処理』については、縦のイン
デックスにBDが、また横のインデックスにE8が登録
されているので、それらの交点にBDE8とCDFDが
登録されていることになる。一方、『ンステム』につい
ては、先頭の文字『ン』のA5は縦のインデックスに登
録されているが、F3は縦横いずれにも登録されていな
い。従って、『ンステム』はこのビットマトリックステ
−ブルには登録されていないことがわかる。この単語照
合処理の結果、『処理』については、照合OKとなり、
次の日本語辞書の検索処理に移る。また、『ンステム』
については、照合NGとなり、単語辞書登録はないので
検索は行わない。日本語辞書の検索では、照合文字列
『処理』を入力することにより、照合OKとなるので、
辞書デ−タを参照することができる。
【0012】このように本実施例においては、(イ)辞
書未登録が直ちにわかるので、無駄な外部記憶部へのア
クセスが無くなり、その結果、処理効率が向上し、検索
全体では処理時間が短縮できる。(ロ)従来よりも少な
いメモリ使用で、大幅な検索処理効率の改善が図れる。
例えば、日本語であれば、照合文字列の任意の1文字
(2バイト)から辞書登録状況をチェックするために、
約1キロバイトのテ−ブルサイズで実現できる。また、
英数字では、1文字1バイトとして2文字のデ−タ登録
状況のチェックが同じサイズで行うことができる。
(ハ)テ−ブルサイズが小さいので、テ−ブルの検索時
間が短くてすむ。(ニ)未登録チェックのアルゴリズム
が簡単であるため、実現が容易である。このため、ハ−
ドウェア化が容易である。(ホ)未登録チェックに関連
して、チェック処理に要する時間が短くて済む。(ヘ)
日本語辞書の照合では、通常2バイトずつチェックする
が、1バイトずつチェックを行えるため、照合の際の対
象数が少なくなり、その結果、辞書未登録の際のチェッ
ク効率がよい。仮に、日本語辞書の先頭文字の数を30
00とした場合に、実施例の図1に関する説明中で計算
したように、ビットマトリックステ−ブルを使用した場
合には、照合対象文字の数が縦76、横94で合計17
0となるので、母集団の数が1桁少なくなる。
【0013】
【発明の効果】以上説明したように、本発明によれば、
辞書に登録されていない単語の外部記憶への検索処理を
省略できるので、処理速度の向上が図れるとともに、少
ないメモリの使用で大幅な検索処理を行うことができ
る。
【0014】
【図面の簡単な説明】
【図1】本発明の一実施例を示す日本語辞書検索前処理
用ビットマトリックステ−ブルの作成手順説明図であ
る。
【図2】本発明の一実施例を示す辞書検索方法の処理フ
ロ−チャ−トである。
【図3】本発明における日本語辞書検索処理システムの
応用例を示す説明図である。
【符号の説明】
BD,E8,A2 1バイト文字コ−ド

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 外部記憶装置に登録された単語辞書から
    単語を検索する辞書検索方法において、上記単語辞書に
    登録された単語の表記を文字位置毎に分割して、ソ−ト
    し、かつ該単語辞書の登録状況をビット情報により圧縮
    したビットマトリックステ−ブルを作成して、該ビット
    マトリックステ−ブルを予め内部メモリに常駐してお
    き、検索対象単語について上記辞書検索を行う前に、該
    ビットマトリックステ−ブルにより、上記外部記憶装置
    に該検索対象単語が存在するか否かを判断し、判断の結
    果、未登録の場合には該外部記憶装置の単語辞書を検索
    することなく、登録されていると判断された場合のみ検
    索することを特徴とする辞書検索方法。
JP3251726A 1991-09-30 1991-09-30 辞書検索方法 Pending JPH0589174A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3251726A JPH0589174A (ja) 1991-09-30 1991-09-30 辞書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3251726A JPH0589174A (ja) 1991-09-30 1991-09-30 辞書検索方法

Publications (1)

Publication Number Publication Date
JPH0589174A true JPH0589174A (ja) 1993-04-09

Family

ID=17227061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3251726A Pending JPH0589174A (ja) 1991-09-30 1991-09-30 辞書検索方法

Country Status (1)

Country Link
JP (1) JPH0589174A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018101735A1 (ko) * 2016-11-29 2018-06-07 주식회사 닷 제한된 영역을 활용한 데이터 변환 장치, 방법 및 컴퓨터 프로그램
KR20180099265A (ko) * 2017-02-28 2018-09-05 주식회사 닷 비트 테이블을 활용하여 입력 단어의 타당성 판단 장치, 방법 및 컴퓨터 프로그램
KR101897983B1 (ko) * 2017-05-11 2018-09-13 (주)언맨드솔루션 재난 대응용 특수목적기계 주행장치의 고장발생 대처 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018101735A1 (ko) * 2016-11-29 2018-06-07 주식회사 닷 제한된 영역을 활용한 데이터 변환 장치, 방법 및 컴퓨터 프로그램
KR20180099265A (ko) * 2017-02-28 2018-09-05 주식회사 닷 비트 테이블을 활용하여 입력 단어의 타당성 판단 장치, 방법 및 컴퓨터 프로그램
KR101897983B1 (ko) * 2017-05-11 2018-09-13 (주)언맨드솔루션 재난 대응용 특수목적기계 주행장치의 고장발생 대처 장치

Similar Documents

Publication Publication Date Title
US5546578A (en) Data base retrieval system utilizing stored vicinity feature values
JP3152868B2 (ja) 検索装置および辞書/テキスト検索方法
US6778985B1 (en) Implementing descending indexes with a descend function
CN111324750B (zh) 一种大规模文本相似度计算及文本查重方法
JP2001345710A (ja) データ圧縮装置および方法
JP2000163442A (ja) 記号辞書作成方法及び記号辞書検索方法
CN102867049A (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
JP3258063B2 (ja) データベース検索システム及び方法
JP3151730B2 (ja) データベース検索システム
JPH0589174A (ja) 辞書検索方法
CN114995880A (zh) 一种基于SimHash的二进制代码相似性比对方法
JP3288063B2 (ja) 可変長データの格納および参照システム
JP3259781B2 (ja) データベース検索システムおよびデータベース検索方法
JPH04340164A (ja) マルチキーワード情報検索処理方式および検索ファイル作成装置
JP2002140218A (ja) データ処理方法、コンピュータ読み取り可能な記録媒体及びデータ処理装置
JP2682448B2 (ja) 索引検索方式
JPH05135102A (ja) 文書検索方式
JPH10177582A (ja) 最長一致検索方法及び装置
JPH06162096A (ja) レコード検索方法
JP2772124B2 (ja) 辞書検索方式
JP3780772B2 (ja) データベースの索引創成装置
CN117076192A (zh) 一种SQLite数据恢复方法
JP3456127B2 (ja) インデクスキーの高速拡張機能を備えた文書検索方法および装置
JPS62131348A (ja) マルチインデツクスフアイルアクセス方式
JP2718107B2 (ja) 比較処理方式