JP2900628B2 - 辞書検索装置 - Google Patents

辞書検索装置

Info

Publication number
JP2900628B2
JP2900628B2 JP3067155A JP6715591A JP2900628B2 JP 2900628 B2 JP2900628 B2 JP 2900628B2 JP 3067155 A JP3067155 A JP 3067155A JP 6715591 A JP6715591 A JP 6715591A JP 2900628 B2 JP2900628 B2 JP 2900628B2
Authority
JP
Japan
Prior art keywords
dictionary
search
character string
matching
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3067155A
Other languages
English (en)
Other versions
JPH04302365A (ja
Inventor
明男 山下
寿平 中垣
浩 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP3067155A priority Critical patent/JP2900628B2/ja
Publication of JPH04302365A publication Critical patent/JPH04302365A/ja
Application granted granted Critical
Publication of JP2900628B2 publication Critical patent/JP2900628B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、平仮名・非平仮名混
じり文を解析する日本語処理装置で用いられる辞書検索
装置に関し、特に、余分な検索結果を除去することがで
きる辞書検索装置に関する。
【0002】
【従来の技術】従来、この種の辞書検索装置における文
字列の検索方式としては、検索対象文字列に一番長く一
致した見出しに対応する辞書内容を結果として返す最長
一致方式と、検索対象文字列の先頭から一致する見出し
(最左部分語)に対応する辞書内容を結果として返す最
左部分語方式が知られている。
【0003】例えば、辞書に「高」、「高所」という見
出しが登録されている場合、「高所得」という検索対象
文字列に対する検索結果は、最長一致方式の場合は「高
所」となり、最左部分語方式の場合は「高」、「高所」
となる。検索対象文字列である「高所得」は、「高(接
頭語)」と「所得(名詞)」に解析されるので、「高」
も検索結果に含まれている必要がある。また、辞書に
「今」、「今日」という見出しが登録されている場合、
「今日本は」という検索対象文字列に対する検索結果
は、最長一致方式の場合には、「今日」となり、最左部
分語方式の場合は、「今」、「日本」となる。検索対象
文字列である「今日本は」は、「今(副詞)」と「日本
(名詞)」あるいは「今日(名詞)」と「本(名詞)」
と解析されるので、「今」も検索結果に含まれている必
要がある。このように、実際の辞書検索では、最長一致
したものが必ずしも正しい解析結果になるとは限らない
ので、検索洩れがないという点からは、全ての候補を検
索して返す最左部分語方式の方が優れていた。この最左
部分語方式に関しては、「拡張B−Treeと日本語単
語辞書への応用」(日高、稲永、吉田、電子通信学会論
文誌´84/4Vol.J67−DNo.4)で詳しく
紹介されているほか、特開昭60−136862号公報
には、辞書メモリを探索する範囲のアドレスを上限メモ
リと下限メモリとに収納し、参照文字数の増加とともに
その範囲を徐々に絞ることによって、入力文字列を単語
単位に分割する形態素解析の効率化を図るようにした形
態素解析装置が提案されている。
【0004】
【発明が解決しようとする課題】ところで、平仮名・非
平仮名混じり文を解析する日本語処理装置で用いられる
辞書には、熟語の一部が見出しとして数多く登録されて
いる。図5は、一般的な日本語処理装置で用いる辞書の
内容の一部を示す説明図である。各々の辞書レコード
は、見出し、(見出しの)読み、品詞、その他(解析装
置で利用する情報など)を含んでおり、これらの情報は
見出しの文字コードでソートされている。
【0005】例えば、「課する」という活用語の場合、
その不変化部分である「課」といった名詞も登録されて
いる。あるいは、人名の「明」といった一文字の見出し
も含まれている。このような辞書を用いて、従来の最左
部分語方式により「課題」、「明確」という検索対象文
字の検索を行うと、「課(サ変動詞語幹)」、「課(名
詞)」、「明(人名)」というような検索結果も含まれ
てくる。
【0006】具体例として、「高い所得と高所得の場合
は明白だ」という解析文字列の自立語で始まる部分文字
列を順次検索対象文字列とし、前記図5に示す辞書で検
索した結果について説明する。図6は、最長一致方式に
よる検索結果を示す説明図である。この方式では、「高
所得」について(高所こうしょ名詞…)(所得しょとく
名詞…)は検索されるが、(高こう接頭語…)が洩れて
しまう。また、図7に示すような最左部分語方式による
検索結果では、検索洩れはないが、図6の例に比べて多
くの辞書内容が検索される。
【0007】このように、熟語が数多く含まれる平仮名
・非平仮名混じり文に対して、従来の最左部分語方式で
は、検索結果が最長一致方式に比べて多くなる分、解析
する装置側での接続検定などのチェックが増えたり、中
間結果を保持するためのメモリを多く必要とするなどの
問題点があった。これは、前記特開昭60−13686
2号公報に提案された形態素解析装置についても同様で
ある。
【0008】この発明は、最左部分語方式の検索洩れが
ないという特徴を維持しながら、無駄な接続検定などの
チェックをなくし、中間結果を保持するためのメモリを
必要最低限とした辞書検索装置を提供することを目的と
する。
【0009】
【課題を解決するための手段】上記課題を解決するた
め、第1の発明は、検索対象文字列が入力された際に、
この検索対象文字列に含まれる辞書登録された単語の辞
書内容を検索して出力する辞書検索装置において、各単
語の品詞情報を少なくとも含む辞書内容を該単語の見出
しに対応づけて記憶した辞書と、検索対象文字列が入力
された際に、該検索対象文字列の先頭より一致する見出
しの辞書内容を検索する辞書検索手段と、前記辞書検索
手段による検索結果が複数存在する場合に、最長一致し
た見出し語の非平仮名文字の数と、最短一致した辞書内
容が持つ品詞情報により、検索結果を取捨する検索結果
取捨手段とを具備したことを特徴とする。また、第2の
発明は、前記検索結果取捨手段が、前記辞書検索手段に
よる検索結果が複数存在する場合に、該検索結果に含ま
れる異なる見出し数を計数する計数手段と、前記計数手
段により計数された異なる見出し数が2以上である場合
に、最長一致した見出し語の非平仮名文字の文字数を計
数し、該非平仮名文字の文字数が2以上であるか否かを
判定する判定手段と、前記判定手段により非平仮名文字
の文字数が2以上であると判定された場合に、最短一致
した単語の中から接頭語又は副詞を品詞情報として持つ
単語を抽出する抽出手段と、前記辞書検索手段による検
索結果から、最短一致した見出し語の辞書内容を除外し
たものに、前記抽出手段が抽出した単語を結合して出力
する出力手段とを具備したことを特徴とする。
【0010】
【作用】第1の発明は、各単語の品詞情報を少なくとも
含む辞書内容を該単語の見出しに対応づけて辞書に記憶
しておき、検索対象文字列が入力された際に、該検索対
象文字列の先頭より一致する見出しの辞書内容を検索
し、この検索結果が複数存在する場合には、最長一致し
た見出し語の非平仮名文字の数と、最短一致した辞書内
容が持つ品詞情報により、検索結果を取捨する。また、
第2の発明は、辞書検索手段による検索結果が複数存在
する場合に、該検索結果に含まれる異なる見出し数を計
数し、計数した異なる見出し数が2以上である場合に、
最長一致した見出し語の非平仮名文字の文字数をさらに
計数し、該非平仮名文字の文字数が2以上である場合に
は、辞書検索手段による検索結果から最短一致した見出
し語の辞書内容を除外したものに、接頭語又は副詞を品
詞情報として持つ最短一致した単語の単語を結合して出
力する。
【0011】例えば、「高所得」という検索対象文字列
の場合、先頭より一致する見出しの辞書内容は(高こう
接頭語…)(高たか形容詞…)(高所こうしょ名詞…)
となる。ここでは、検索結果の異なる見出し数は2であ
り、最長一致した見出し「高所」の非平仮名文字数は2
となる。次に、最短一致した辞書内容である(高こう接
頭語…)(高たか形容詞…)の中で品詞が接頭語又は副
詞のものを探すと、(高こう接頭語…)の品詞が接頭語
であるので、(高こう接頭語…)を記憶する。続いて、
最初の辞書内容である(高こう接頭語…)(高たか形容
詞…)(高所こうしょ名詞…)から、最短一致した辞書
内容(高こう接頭語…)(高たか形容詞…)を除去した
ものに、前記記憶していた(高こう接頭語…)を結合す
ると、(高こう接頭語…)(高所こうしょ名詞…)とな
り、これが検索結果として出力されることになる。
【0012】したがって、最長一致方式で生じていた
(高こう接頭語…)の検索洩れを起こすことがなく、ま
た、最左部分語方式のように(高たか形容詞…)という
余分な検索結果を出力することがない。
【0013】
【実施例】以下、この発明に関わる辞書検索装置の一実
施例を説明する。
【0014】図1は、この発明に関わる辞書検索装置の
一実施例の構成を示すブロック図である。図1におい
て、1は辞書、2は検索対象文字列記憶手段、3は辞書
検索手段、4は検索結果記憶手段、5は検索結果取捨手
段、6は制御手段である。
【0015】辞書1は、見出しインデックス11と辞書
内容12により構成されている。見出しインデックス1
1は、辞書内容12内の平仮名・非平仮名混じりの見出
しと、その定義(読み、品詞、その他)を格納した位置
を参照するためのポインタ13を対応付けて格納してい
る。例えば、「明確」という見出しの定義は、「明確」
という見出しにポインタ13を介して対応付けられた辞
書内容12に格納されている。「明確」の辞書内容12
は、見出しが「明確」、読みが「めいかく」、その品詞
は「形容動詞」となっている。見出しインデックス11
は、ハッシュ法、trieなどの従来公知の技術により
実現することができる。
【0016】検索対象文字列記憶手段2は、入力された
平仮名・非平仮名混じりの検索対象文字列を記憶する。
【0017】辞書検索手段3は、検索対象文字列記憶手
段2に記憶されている平仮名・非平仮名混じり文字列の
先頭より一致する見出しの辞書内容を辞書1より検索
し、その結果を検索結果記憶手段4に格納する。
【0018】検索結果記憶手段4は、辞書検索手段3が
出力した検索結果や、検索結果取捨手段5が出力した取
捨された検索結果を記憶する。
【0019】検索結果取捨手段5は、検索結果計数部5
1、最長一致見出し判定部52、最短一致辞書内容抽出
部53、最短一致辞書内容記憶部54、取捨部55を具
えている。
【0020】検索結果計数部51では、前記検索結果記
憶手段4に格納されている検索結果の異なる見出しの数
を計数し、その結果が2以上の場合には、最長一致見出
し判定部52を起動する。最長一致見出し判定部52で
は、最長一致した見出しの非平仮名文字を計数し、その
結果が2以上であれば、最短一致辞書内容抽出部53を
起動する。最短一致辞書内容抽出部53は、最短一致す
る見出しの辞書内容から、品詞が接頭語又は副詞のもの
を最短一致辞書内容記憶部54に記憶する。取捨部55
では、前記検索結果記憶手段4中の辞書内容から、最短
一致した見出し語の辞書内容を取り除いたものに、最短
一致辞書内容記憶部54の内容を結合したものを、検索
結果記憶手段4に格納する。制御手段6は、上記各手段
の処理を制御する回路であり、検索対象文字列記憶手段
2の検索対象文字列を辞書検索手段3に渡す処理や、検
索結果記憶手段4の内容を出力する処理を実行する。
【0021】次に、上述した辞書検索装置による辞書検
索の処理手順を図2のフローチャートにより説明する。
【0022】まず、制御手段6は検索対象文字列を検索
対象文字列記憶手段2に記憶し(ステップ101)、辞
書検索手段3を起動する。辞書検索手段3は、検索対象
文字列記憶手段2から検索対象文字列を取り出し、検索
対象文字列の先頭より一致する見出しの辞書内容を辞書
より検索して、その結果を検索結果記憶手段4に格納す
る(ステップ102)。次に、制御手段6は検索結果取
捨手段5を起動する。検索結果計数部51は、検索結果
の異なる見出し数を計数し、計数した結果が2以上であ
るかどうかを判断する(ステップ103)。ここで、結
果が2以上であるときは最長一致見出し判定部52を起
動する。最長一致見出し判定部52は、最長一致した見
出しの非平仮名文字を計数し、計数した結果が2以上で
あるかどうかを判断する(ステップ104)。ここで、
結果が2以上であるときは最短一致辞書内容抽出部53
を起動する。最短一致辞書内容抽出部53は、最短一致
する辞書内容から、品詞が接頭語又は副詞であるものを
抽出し、最短一致辞書内容記憶部54に記憶する(ステ
ップ105)。取捨部55は、検索結果記憶手段4の検
索結果から、最短一致した見出し語の辞書内容を取り除
いたものに、最短一致辞書内容記憶部54の内容を結合
したものを検索結果記憶手段4に格納する(ステップ1
06)。制御手段6は、前記検索結果記憶手段4に格納
された内容を出力する(ステップ107)。
【0023】次に上述した検索処理の具体例を説明す
る。
【0024】図3は、検索対象文字列として「明確」
「明くん」「高所得」「高い」を入力したときの検索処
理の過程を示す説明図であり、前記検索対象文字列を図
5に示した辞書を用いて検索したときの過程を表してい
る。以下、各検索対象文字列ごとに検索過程を説明す
る。
【0025】「明確」という文字列に対するステップ1
02(以下、図2参照)の処理結果は、(明あ五段動詞
語幹…)(明あきら人名…)(明確めいかく形動…)と
なり、これが検索結果記憶手段4に格納される。ここで
は、検索結果の異なる見出し数が2となるので、ステッ
プ104の処理が行われる。最長一致した見出しは「明
確」であり、その非平仮名文字数は2となるため、ステ
ップ105、ステップ106の処理が行われる。まず、
ステップ105において、最短一致した語である(明あ
五段動詞語幹…)(明あきら人名…)の中には、品詞が
接頭語又は副詞であるものはないので、最短一致辞書内
容記憶部54の内容は「空」となる。続いてステップ1
06において、検索結果記憶手段4に記憶されている検
索結果から、最短一致した辞書内容を除去したものに、
最短一致辞書内容記憶部54の内容(ここでは空)を結
合すると、(明確めいかく形動…)となり、これが検索
結果記憶手段4に記憶され、ステップ107で検索結果
として出力される。
【0026】「明くん」という文字列に対するステップ
102の処理結果は、(明あ五段動詞語幹…)(明あき
ら人名…)となり、これが検索結果記憶手段4に格納さ
れる。ここでは、検索結果の異なる見出し数は1である
ので、ステップ104〜ステップ106の処理は行われ
ない。したがって、ステップ107では(明あ五段動詞
語幹…)(明あきら人名…)が検索結果として出力され
る。
【0027】「高所得」という文字列に対するステップ
102の処理結果は、(高こう接頭語…)(高たか形容
詞…)(高所こうしょ名詞…)となり、これが検索結果
記憶手段4に格納される。ここでは、検索結果の異なる
見出し数が2となるので、ステップ104の処理が行わ
れる。ここで、最長一致した見出しは「高所」であり、
その非平仮名文字数は2となるため、ステップ105、
ステップ106の処理が行われる。ステップ105にお
いて、最短一致した語である(高こう接頭語…)(高た
か形容詞…)の中で、(高こう接頭語…)の品詞が接頭
語であるので、最短一致辞書内容記憶部54の内容は
(高こう接頭語…)となる。続くステップ106におい
て、検索結果記憶手段4に記憶されている検索結果か
ら、最短一致した辞書内容を除去したものに、最短一致
辞書内容記憶部54の内容(高こう接頭語…)を結合す
ると、(高こう接頭語…)(高所こうしょ名詞…)とな
り、これが検索結果記憶手段4に記憶される。したがっ
て、ステップ107で出力される結果も(高こう接頭語
…)(高所こうしょ名詞…)となる。
【0028】「高い」という文字列に対するステップ1
02の処理結果は、(高こう接頭語…)(高たか形容詞
…)となり、これが検索結果記憶手段4に格納される。
ここでは、検索結果の異なる見出し数は1であるので、
ステップ104〜ステップ106の処理は行われない。
したがって、ステップ107では(高こう接頭語…)
(高たか形容詞…)が検索結果として出力される。
【0029】上記辞書検索装置において「高い所得と高
所得の場合は明白だ」という解析文字列の自立語で始ま
る部分文字列を順次検索対象文字列とし、前記図5に示
す辞書で検索した結果を図4に示す。上記実施例の検索
処理による検索結果では、図5に示した最長一致方式の
ように、「高所得」について(高こう接頭語…)の検索
洩れを生じることがない。また、図6に示した最左部分
語方式のように、余分な検索結果を出力することがな
く、検索結果を効率よく取捨することができた。
【0030】
【発明の効果】以上説明したように、この発明に係わる
辞書検索装置によれば、検索対象文字列の先頭より一致
する見出しの辞書内容を検索したときの検索結果が複数
存在する場合には、最長一致した見出し語の非平仮名文
字の数と、最短一致した辞書内容が持つ品詞情報によ
り、検索結果を取捨するよう構成したため、最長一致方
式で生じていた検索漏れを起こすことがなく、また、最
左部分語方式のように余分な検索結果を出力することが
ない。したがって、余分な接続検定などのチェックや、
中間結果を保持するためのメモリを必要最小限とするこ
とができる。
【図面の簡単な説明】
【図1】この発明に係わる辞書検索装置の一実施例の構
成を示すブロック図。
【図2】辞書検索装置による辞書検索の処理手順を示す
フローチャート。
【図3】この発明に係わる辞書検索装置の検索処理の過
程を示す説明図。
【図4】この発明に係わる辞書検索装置の検索結果を示
す説明図。
【図5】一般的な日本語処理装置で用いる辞書の内容の
一部を示す説明図。
【図6】最長一致方式による検索結果を示す説明図。
【図7】最左部分語方式による検索結果を示す説明図。
【符号の説明】
1…辞書、2…検索対象文字列記憶手段、3…辞書検索
手段、4…検索結果記憶手段、5…検索結果取捨手段、
6…制御手段、51…検索結果計数部、52…最長一致
見出し判定部、53…最短一致辞書内容抽出部、54…
最短一致辞書内容記憶部、55…取捨部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 山口 浩 東京都渋谷区代々木三丁目57番6号 グ ランフォーレ 富士ゼロックス株式会社 内 (56)参考文献 特開 平3−57065(JP,A) 特開 昭63−95574(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06F 17/30

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 検索対象文字列が入力された際に、この
    検索対象文字列に含まれる辞書登録された単語の辞書内
    容を検索して出力する辞書検索装置において、 各単語の品詞情報を少なくとも含む辞書内容を該単語の
    見出しに対応づけて記憶した辞書と、 検索対象文字列が入力された際に、該検索対象文字列の
    先頭より一致する見出しの辞書内容を検索する辞書検索
    手段と、 前記辞書検索手段による検索結果が複数存在する場合
    に、最長一致した見出し語の非平仮名文字の数と、最短
    一致した辞書内容が持つ品詞情報により、検索結果を取
    捨する検索結果取捨手段とを具備したことを特徴とする
    辞書検索装置。
  2. 【請求項2】 前記検索結果取捨手段は、 前記辞書検索手段による検索結果が複数存在する場合
    に、該検索結果に含まれる異なる見出し数を計数する計
    数手段と、 前記計数手段により計数された異なる見出し数が2以上
    である場合に、最長一致した見出し語の非平仮名文字の
    文字数を計数し、該非平仮名文字の文字数が2以上であ
    るか否かを判定する判定手段と、 前記判定手段により非平仮名文字の文字数が2以上であ
    ると判定された場合に、最短一致した単語の中から接頭
    語又は副詞を品詞情報として持つ単語を抽出する抽出手
    段と、 前記辞書検索手段による検索結果から、最短一致した見
    出し語の辞書内容を除外したものに、前記抽出手段が抽
    出した単語を結合して出力する出力手段とを具備したこ
    とを特徴とする請求項1記載の辞書検索装置。
JP3067155A 1991-03-29 1991-03-29 辞書検索装置 Expired - Fee Related JP2900628B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3067155A JP2900628B2 (ja) 1991-03-29 1991-03-29 辞書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3067155A JP2900628B2 (ja) 1991-03-29 1991-03-29 辞書検索装置

Publications (2)

Publication Number Publication Date
JPH04302365A JPH04302365A (ja) 1992-10-26
JP2900628B2 true JP2900628B2 (ja) 1999-06-02

Family

ID=13336729

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3067155A Expired - Fee Related JP2900628B2 (ja) 1991-03-29 1991-03-29 辞書検索装置

Country Status (1)

Country Link
JP (1) JP2900628B2 (ja)

Also Published As

Publication number Publication date
JPH04302365A (ja) 1992-10-26

Similar Documents

Publication Publication Date Title
US6654717B2 (en) Multi-language document search and retrieval system
US5940624A (en) Text management system
US5590317A (en) Document information compression and retrieval system and document information registration and retrieval method
JPH0944523A (ja) 関連語提示装置
JP2900628B2 (ja) 辞書検索装置
JP2536633B2 (ja) 複合語抽出装置
Kanada A method of geographical name extraction from Japanese text for thematic geographical search
EP1076305A1 (en) A phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element
EP0592402B1 (en) A text management system
JPH07230468A (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JPH0991297A (ja) 文字列検索方法及び装置
JP3720882B2 (ja) 情報検索方法、情報検索システム及び情報検索装置
JP3187671B2 (ja) 電子辞書表示装置
EP0314503A2 (en) Dictionary structure for document processing apparatus
JPS63278174A (ja) 翻訳装置
JP2006294069A (ja) 文書校正装置およびプログラム記憶媒体
CA2100956C (en) Text searching and indexing system
JPH0262659A (ja) 日本文訂正候補文字抽出装置
JPS6389976A (ja) 言語解析装置
JP3408007B2 (ja) 形態素解析処理装置
JPS6111846A (ja) 書誌デ−タの索引抽出システム
JPH0721212A (ja) 文書処理装置
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
KR20010055114A (ko) 완전 해싱 기법을 이용한 한국어 형태소 분석기 성능 향상기법
JPH0371370A (ja) 英単語検索装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080319

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090319

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees