JPH0830631A - 辞書検索方式 - Google Patents

辞書検索方式

Info

Publication number
JPH0830631A
JPH0830631A JP6165577A JP16557794A JPH0830631A JP H0830631 A JPH0830631 A JP H0830631A JP 6165577 A JP6165577 A JP 6165577A JP 16557794 A JP16557794 A JP 16557794A JP H0830631 A JPH0830631 A JP H0830631A
Authority
JP
Japan
Prior art keywords
dictionary
mode
search
word
pointer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6165577A
Other languages
English (en)
Inventor
Masayuki Kameda
雅之 亀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP6165577A priority Critical patent/JPH0830631A/ja
Publication of JPH0830631A publication Critical patent/JPH0830631A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 あらかじめ優先度の高い単語だけの辞書とそ
れ以外の辞書を分割することで、辞書検索の負荷を小さ
くし、高速化する。 【構成】 まず、対象文字列に対するポインタpがp≦
0の場合(S1)、pが対象文字列長より大きいかどうか
を判断し(S2)、大きければ検索モード(p)が(p)
≦1となり(S3)、辞書検索呼び出しを行う(S4)。次
に、単語候補があるかどうかを調べ(S5)、単語候補が
あれば接続検査を行う(S6)。次に、接続可能な単語候
補の数を調べ(S7)、1つであれば、ポインタpの更新
を行い(S9)、単語候補の数が複数であれば評価し(S
8)、ポインタpの更新を行い(S9)、前記ステップS
2へ戻る。単語候補がなければ、検索モード(p)かど
うかを判断し(S10)、検索モード(p)でなければ失
敗し、検索モード(p)であれば、p≦2として(S1
2)、前記ステップS4へ戻る。以下の処理を繰り返
す。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、辞書検索方式に関し、
より詳細には、自然言語の形態素解析や構文解析で行う
辞書検索方式に関する。例えば、辞書の検索処理を含む
各種の自然言語処理装置に応用できるものである。
【0002】
【従来の技術】通常、自然言語の解析では、形態素解析
や構文解析といった解析処理を行うために単語辞書を備
え、その辞書の検索を行う。一般に、単語辞書は多数の
単語を格納しており大規模なため、その検索時間を短縮
するために、ハッシュ法などの高速な探索法が用いられ
ている。形態素解析では、部分文字列が一致する単語候
補間の接続検査を行いながら、候補を減らしていくが、
複数の候補がある場合には、文字列長の最も長い単語を
選択したり(最長一致法)、さらにその単語の尤度を評
価する(最尤評価法)などがある。
【0003】一般には、図6に示されるように、辞書の
エントリはさまざまな単語の表記をキーに格納されてい
る。格納される単語の中には、日本語では「は」,
「が」といったほとんどの文中で用いられる単語から、
「語彙」といった特殊な分野でしか用いられない単語、
あるいは、通常用いられるが、漢字をひらがな表記した
ものなど、あまり出現しない単語も含まれ、最尤評価法
などでは、その単語ごとに与えられた尤度により単語候
補を絞っている。
【0004】従来技術では、図7に示すように、こうし
た使われ方が大きく異なる単語を一つの辞書11に格納
し、辞書検索部12で検索している。なお、機械翻訳シ
ステム等では、基本辞書と分野別辞書を分割し、適当な
分野別辞書を指定すると、その辞書を含めた検索を行う
ものもあるが、基本的には双方を検索することから、概
念的には同一辞書に併合されていると考えられる。
【0005】図8は、従来の辞書検索を含む形態素解析
の処理のフローチャートである。なお、説明の簡便さの
ため、形態素解析は、文頭から順次、接続検査,候補選
択を行う決定的な処理を示す。以下、各ステップに従っ
て順に説明する。まず、対象文字列に対するポインタp
がp≦0の場合(S21)、pが対象文字列長より大きい
かどうかを判断し(S22)、pが対象文字列長より大き
くなければ終了し、大きければ辞書検索呼び出しを行う
(S23)。次に、単語候補があるかどうかを判断し(S2
4)、単語候補があれば接続検査を行う(S25)。次に、
接続可能な単語候補の数を調べ(S26)、1つであれ
ば、後述するステップS28へ行き、ポインタpの更新
を行う。接続可能な単語候補が複数あれば、その単語候
補を評価し(S27)、ポインタpの更新を行い(S28)、
前記ステップS22へ戻り、以下の処理を繰り返す。
【0006】例えば、「計算機を買う」という文の形態
素解析では、対象文字列中でのポインタpが0の場合、
「計算」と「計算機」が検索され、最長一致評価あるい
は最長一致評価あるいは最尤評価等の評価により、一般
には「計算機」が選択され、ポインタが4に更新され、
「を」さらに「買う」が選択される。あるいは「けいさ
んきを買う」では、pが0の時に「けいさん」と「けい
さんき」が検索され、前と同様に「けいさんき」が選択
され、以下、同様の動作となる。
【0007】従来の辞書検索方式について記載した公知
文献としては、例えば、特開昭60−142464号公
報がある。この公報のものは、音声認識情報を形態素解
析する際に使用する形態素解析用辞書を、優先度の高い
第1の辞書と、この第1の辞書の内容に基づいた形態素
解析が不能の場合に使用可能となる第2の辞書とに分割
するようにし、前記第1の辞書の内容を特定個人の通常
の文章作成目的に対応したものとし、また、前記第2の
辞書の内容をあらゆる場合を想定した汎用のものとする
ことによって、如何なる場合であっても入力情報から文
字への変換時間をより短縮することを可能としたもので
ある。
【0008】
【発明が解決しようとする課題】前述のように、従来の
辞書検索方式においては、使われ方が大きく異なる単語
を一つの辞書に格納して検索している。機械翻訳システ
ムなどでは、基本辞書と分野別辞書とに分割しているも
のの、基本的には双方を検索するため、同一辞書に併合
されているものであった。そのため、辞書検索の負担が
大きく、高速化を実現するには問題があった。
【0009】本発明は、このような実情に鑑みてなされ
たもので、辞書検索をより効率化するために、(1)あ
らかじめ優先度の高い単語だけの辞書とそれ以外の辞書
を分割することで、辞書検索の負荷を小さくし、高速化
すること、また、(2)優先度の高い単語の辞書を高速
な媒体に置くことで、高速な媒体の効果的な利用を促進
し、さらに辞書検索を高速化するようにした辞書検索方
式を提供することを目的としている。
【0010】
【課題を解決するための手段】本発明は、上記課題を解
決するために、(1)自然言語処理装置等での単語辞書
の検索方式において、単語の優先度により辞書を第1の
辞書(群)と第2の辞書(群)とに分割し、優先度の高
い辞書のみを検索する第1のモードと、それ以外の辞書
あるいは全ての辞書を検索する第2のモードとを備え、
通常は第1のモードで検索し、該第1のモードの検索結
果に基づいた処理で失敗した場合には、前記第2のモー
ドで検索すること、更には、(2)前記優先度の高い辞
書を高速な媒体上に保持すること、あるいは実行時にメ
モリ上に展開することを特徴としたものである。
【0011】
【作用】前記構成を有する本発明の辞書検索方式は、
(1)単語の優先度により、辞書を第1の辞書(群)と
第2の字所(群)に分割し、優先度の高い辞書のみを検
索する第1のモードと、それ以外の辞書あるいは全ての
辞書を検索する第2のモードを備え、通常は、第1のモ
ードで検索し、その検索結果に基づいた処理で失敗した
場合には、第2のモードで検索する。このように、あら
かじめ優先度の高い単語だけの辞書とそれ以外の辞書を
分割することで、通常の場合の辞書検索の負荷の縮小
と、高速化の効果が得られる。(2)優先度の高い辞書
を高速な媒体上に保持すること、あるいは実行時にメモ
リ上に展開する優先度の高い単語の辞書を高速な媒体に
置くことで、高速な媒体の効果的な利用を促進し、さら
に辞書検索を高速化する効果が得られる。
【0012】
【実施例】実施例について、図面を参照して以下に説明
する。まず、請求項1に記載の発明について説明する。
本請求項では、図3(a),(b)に示すように、あら
かじめ優先度の高い単語を含む第1の辞書(図3
(a))と、それ以外の第2辞書(図3(b))に分割
する。すなわち、図4に示すように、第1の単語辞書1
と第2の単語辞書2とに分割し、辞書検索部3で検索す
る。図3の例では、通常、漢字で書かれる単語だが、そ
の一部がひらがな表記された単語は、優先度が高くない
として、第2の辞書に分割してある。その他、使用頻度
が低い単語なども優先度が高くないものとすることがで
きる。こうして分割した辞書に対し、通常は、第1の辞
書を検索するだけに止め、その結果が失敗した場合に第
2の辞書を検索する。辞書のサイズは小さくなるため、
検索の負荷が小さくなる。
【0013】図1は、本発明の辞書検索を含む形態素解
析の処理のフローチャートで、図2は、図1のフローチ
ャートから呼び出される辞書検索部の処理のフローチャ
ートである。検索モード(p)とは、対象文字列のポイ
ンタ(位置)pに与えられ、モードが「1」なら第1の
辞書、モードが「2」なら第2の辞書を検索する。通常
は、モード値は「1」が与えられる。以下、各ステップ
(S)に従って順に説明する。
【0014】まず、対象文字列に対するポインタpがp
≦0の場合(S1)、pが対象文字列長より大きいかどう
かを判断し(S2)、大きくなければ終了し、大きければ
検索モード(p)が(p)≦1となり(S3)、辞書検索
呼び出しを行う(S4)。次に、単語候補があるかどうか
を調べ(S5)、単語候補がなければ、後述するステップ
S10へ行く。単語候補があれば接続検査を行う(S
6)。次に、接続可能な単語候補の数を調べ(S7)、1
つであれば、後述するステップS9へ行き、ポインタp
の更新を行い(S9)、単語候補の数が複数であれば評価
し(S8)、ポインタpの更新を行い(S9)、前記ステッ
プS2へ戻る。
【0015】前記ステップS7において、単語候補がな
ければ、ポインタpの戻し処理を行い(S11)、検索モ
ード(p)かどうかを判断し(S10)、検索モード
(p)でなければ失敗し、検索モード(p)であれば、
検索モード(p)をp≦2として(S12)、前記ステッ
プS4へ戻り、以下の処理を繰り返す。辞書検索部にお
いては、検索モードかどうかを判断し(S13)、モード
「1」であれば、第1の辞書の検索を行い(S14)、モ
ード「2」であれば、第2の辞書の検索を行う(S1
5)。
【0016】例えば、「計算機を買う」という文の形態
素解析では、ポインタ0,4,5の検索モードはいずれも
「1」のままで、従来技術と同様に検索が進む。この場
合、検索の進みかたは同様だが、対象となっている辞書
は、図6に示す従来方式の辞書より、図3(a)に示す
ように、小さな第1辞書となっているので、処理の負担
が小さい。
【0017】一方、「けいさんきを買う」では、ポイン
タ0の段階で、辞書検索での候補が得られないと、モー
ドが「1」となり、第2の辞書により「けいさん」と
「けいさんき」が得られ、従来と同様の評価により「け
いさんき」が選択される。以降、ポインタ4,5では、
モードは「1」で検索される。この場合、ポインタ0で
は一種のバックトラック処理であり、処理効率が落ちる
ことになるが、本請求項の辞書の分割では、本実施例の
ような極めてまれな表記を第2の辞書に置くことをして
いることから、元来モードが「2」となるのは、きわめ
てまれであり、通常はほとんどがモードが「1」で処理
されるため、全体としては従来より効率がよくなる。
【0018】次に、請求項2に記載の発明について説明
する。一般に、辞書ファイルなどは、二次媒体上に置か
れ、その媒体状の内容をアクセスするのが普通である。
二次媒体としては、フロッピディスクやハードディスク
あるいは最近ではRAM(Random Access Memory)ディ
スク等があり、アクセスが遅いものから速いものまであ
るが、速いものほど高価で、その容量は小さい。
【0019】請求項1の辞書は、分割前の辞書より各々
小さな辞書にすることができる。そこで、従来より高速
な媒体に置くことができる可能性が高くなる。特に、第
1の辞書を高速な媒体、第2の辞書を低速な媒体に置く
ことによって、媒体の効率的な利用、また頻繁にアクセ
スされる辞書が高速にアクセスできることから、速度効
率も向上することができる。また、第1の辞書が十分小
さければ、図5に示すようにメモリ装置4を設け、計算
機が実行時にデータを置くメモリ上にその内容を複写す
ることで、実行時により高速な検索が可能となる。
【0020】
【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。 (1)請求項1に対応する効果:単語の優先度により、
辞書を第1の辞書(群)と第2の字所(群)に分割し、
優先度の高い辞書のみを検索する第1のモードと、それ
以外の辞書あるいは全ての辞書を検索する第2のモード
を備え、通常は、第1のモードで検索し、その検索結果
に基づいた処理で失敗した場合には、第2のモードで検
索する。このように、あらかじめ優先度の高い単語だけ
の辞書とそれ以外の辞書を分割することで、通常の場合
の辞書検索の負荷の縮小と、高速化の効果が得られる。 (2)請求項2に対応する効果:優先度の高い辞書を高
速な媒体上に保持すること、あるいは実行時にメモリ上
に展開する優先度の高い単語の辞書を高速な媒体に置く
ことで、高速な媒体の効果的な利用を促進し、さらに辞
書検索を高速化する効果が得られる。
【図面の簡単な説明】
【図1】 本発明による辞書検索方式の一実施例を説明
するためのフローチャートである。
【図2】 図1のフローチャートから呼び出される辞書
検索部の処理のフローチャートである。
【図3】 本発明における辞書のエントリ例を示す図で
ある。
【図4】 あらかじめ優先度の高い単語を含む第1の辞
書とそれ以外の第2の辞書に分割する説明図である。
【図5】 図4にメモリ装置を付加し、より高速な検索
を可能とする説明図である。
【図6】 従来の辞書エントリ例を示す図である。
【図7】 従来の辞書検索の説明図である。
【図8】 従来の辞書検索を含む形態素解析の処理のフ
ローチャートである。
【符号の説明】
1…第1の単語辞書、2…第2の単語辞書、3…辞書検
索部、4…メモリ装置。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 自然言語処理装置等での単語辞書の検索
    方式において、単語の優先度により辞書を第1の辞書と
    第2の辞書とに分割し、優先度の高い辞書のみを検索す
    る第1のモードと、それ以外の辞書あるいは全ての辞書
    を検索する第2のモードとを備え、通常は第1のモード
    で検索し、該第1のモードの検索結果に基づいた処理で
    失敗した場合には、前記第2のモードで検索することを
    特徴とする辞書検索方式。
  2. 【請求項2】 前記優先度の高い辞書を高速な媒体上に
    保持すること、あるいは実行時にメモリ上に展開するこ
    とを特徴とする請求項1記載の辞書検索方式。
JP6165577A 1994-07-18 1994-07-18 辞書検索方式 Pending JPH0830631A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6165577A JPH0830631A (ja) 1994-07-18 1994-07-18 辞書検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6165577A JPH0830631A (ja) 1994-07-18 1994-07-18 辞書検索方式

Publications (1)

Publication Number Publication Date
JPH0830631A true JPH0830631A (ja) 1996-02-02

Family

ID=15815004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6165577A Pending JPH0830631A (ja) 1994-07-18 1994-07-18 辞書検索方式

Country Status (1)

Country Link
JP (1) JPH0830631A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008103878A (ja) * 2006-10-18 2008-05-01 Alpine Electronics Inc 放送受信機

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008103878A (ja) * 2006-10-18 2008-05-01 Alpine Electronics Inc 放送受信機
JP4739162B2 (ja) * 2006-10-18 2011-08-03 アルパイン株式会社 放送受信機

Similar Documents

Publication Publication Date Title
US5748953A (en) Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US7516125B2 (en) Processor for fast contextual searching
US5560037A (en) Compact hyphenation point data
JPH103480A (ja) 文書検索方法および装置
JPH0830631A (ja) 辞書検索方式
JP2001005830A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
US6526401B1 (en) Device for processing strings
JP2002245062A (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
JPH07225761A (ja) 文書データの一致検証方式
JPH09212523A (ja) 全文検索方法
JP3628565B2 (ja) 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体
JP3187671B2 (ja) 電子辞書表示装置
JPH0766380B2 (ja) かな漢字変換装置
JP2739823B2 (ja) 形態素解析装置
JPS6118071A (ja) 辞書検索方式
JPH05165889A (ja) 文書検索装置
JPH03118661A (ja) 単語検索装置
Skillicorn A generalisation of indexing for parallel document search
JPH0991304A (ja) 情報検索方法、情報検索システム及び情報検索用記憶媒体
JP4061283B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JPH07129568A (ja) 文字処理方法及び装置
JP2000222432A (ja) 文書検索装置、文書検索方法及び文書検索プログラムを記録した記録媒体
JP3720060B2 (ja) 関連ワードを得る方法及びシステム
JPH07168848A (ja) 単語辞書検索装置