JP2900628B2

JP2900628B2 - 辞書検索装置

Info

Publication number: JP2900628B2
Application number: JP3067155A
Authority: JP
Inventors: 明男山下; 寿平中垣; 浩山口
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1991-03-29
Filing date: 1991-03-29
Publication date: 1999-06-02
Anticipated expiration: 2014-06-02
Also published as: JPH04302365A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、平仮名・非平仮名混
じり文を解析する日本語処理装置で用いられる辞書検索
装置に関し、特に、余分な検索結果を除去することがで
きる辞書検索装置に関する。

【０００２】

【従来の技術】従来、この種の辞書検索装置における文
字列の検索方式としては、検索対象文字列に一番長く一
致した見出しに対応する辞書内容を結果として返す最長
一致方式と、検索対象文字列の先頭から一致する見出し
（最左部分語）に対応する辞書内容を結果として返す最
左部分語方式が知られている。

【０００３】例えば、辞書に「高」、「高所」という見
出しが登録されている場合、「高所得」という検索対象
文字列に対する検索結果は、最長一致方式の場合は「高
所」となり、最左部分語方式の場合は「高」、「高所」
となる。検索対象文字列である「高所得」は、「高（接
頭語）」と「所得（名詞）」に解析されるので、「高」
も検索結果に含まれている必要がある。また、辞書に
「今」、「今日」という見出しが登録されている場合、
「今日本は」という検索対象文字列に対する検索結果
は、最長一致方式の場合には、「今日」となり、最左部
分語方式の場合は、「今」、「日本」となる。検索対象
文字列である「今日本は」は、「今（副詞）」と「日本
（名詞）」あるいは「今日（名詞）」と「本（名詞）」
と解析されるので、「今」も検索結果に含まれている必
要がある。このように、実際の辞書検索では、最長一致
したものが必ずしも正しい解析結果になるとは限らない
ので、検索洩れがないという点からは、全ての候補を検
索して返す最左部分語方式の方が優れていた。この最左
部分語方式に関しては、「拡張Ｂ−Ｔｒｅｅと日本語単
語辞書への応用」（日高、稲永、吉田、電子通信学会論
文誌´８４／４Ｖｏｌ．Ｊ６７−ＤＮｏ．４）で詳しく
紹介されているほか、特開昭６０−１３６８６２号公報
には、辞書メモリを探索する範囲のアドレスを上限メモ
リと下限メモリとに収納し、参照文字数の増加とともに
その範囲を徐々に絞ることによって、入力文字列を単語
単位に分割する形態素解析の効率化を図るようにした形
態素解析装置が提案されている。

【０００４】

【発明が解決しようとする課題】ところで、平仮名・非
平仮名混じり文を解析する日本語処理装置で用いられる
辞書には、熟語の一部が見出しとして数多く登録されて
いる。図５は、一般的な日本語処理装置で用いる辞書の
内容の一部を示す説明図である。各々の辞書レコード
は、見出し、（見出しの）読み、品詞、その他（解析装
置で利用する情報など）を含んでおり、これらの情報は
見出しの文字コードでソートされている。

【０００５】例えば、「課する」という活用語の場合、
その不変化部分である「課」といった名詞も登録されて
いる。あるいは、人名の「明」といった一文字の見出し
も含まれている。このような辞書を用いて、従来の最左
部分語方式により「課題」、「明確」という検索対象文
字の検索を行うと、「課（サ変動詞語幹）」、「課（名
詞）」、「明（人名）」というような検索結果も含まれ
てくる。

【０００６】具体例として、「高い所得と高所得の場合
は明白だ」という解析文字列の自立語で始まる部分文字
列を順次検索対象文字列とし、前記図５に示す辞書で検
索した結果について説明する。図６は、最長一致方式に
よる検索結果を示す説明図である。この方式では、「高
所得」について（高所こうしょ名詞…）（所得しょとく
名詞…）は検索されるが、（高こう接頭語…）が洩れて
しまう。また、図７に示すような最左部分語方式による
検索結果では、検索洩れはないが、図６の例に比べて多
くの辞書内容が検索される。

【０００７】このように、熟語が数多く含まれる平仮名
・非平仮名混じり文に対して、従来の最左部分語方式で
は、検索結果が最長一致方式に比べて多くなる分、解析
する装置側での接続検定などのチェックが増えたり、中
間結果を保持するためのメモリを多く必要とするなどの
問題点があった。これは、前記特開昭６０−１３６８６
２号公報に提案された形態素解析装置についても同様で
ある。

【０００８】この発明は、最左部分語方式の検索洩れが
ないという特徴を維持しながら、無駄な接続検定などの
チェックをなくし、中間結果を保持するためのメモリを
必要最低限とした辞書検索装置を提供することを目的と
する。

【０００９】

【課題を解決するための手段】上記課題を解決するた
め、第１の発明は、検索対象文字列が入力された際に、
この検索対象文字列に含まれる辞書登録された単語の辞
書内容を検索して出力する辞書検索装置において、各単
語の品詞情報を少なくとも含む辞書内容を該単語の見出
しに対応づけて記憶した辞書と、検索対象文字列が入力
された際に、該検索対象文字列の先頭より一致する見出
しの辞書内容を検索する辞書検索手段と、前記辞書検索
手段による検索結果が複数存在する場合に、最長一致し
た見出し語の非平仮名文字の数と、最短一致した辞書内
容が持つ品詞情報により、検索結果を取捨する検索結果
取捨手段とを具備したことを特徴とする。また、第２の
発明は、前記検索結果取捨手段が、前記辞書検索手段に
よる検索結果が複数存在する場合に、該検索結果に含ま
れる異なる見出し数を計数する計数手段と、前記計数手
段により計数された異なる見出し数が２以上である場合
に、最長一致した見出し語の非平仮名文字の文字数を計
数し、該非平仮名文字の文字数が２以上であるか否かを
判定する判定手段と、前記判定手段により非平仮名文字
の文字数が２以上であると判定された場合に、最短一致
した単語の中から接頭語又は副詞を品詞情報として持つ
単語を抽出する抽出手段と、前記辞書検索手段による検
索結果から、最短一致した見出し語の辞書内容を除外し
たものに、前記抽出手段が抽出した単語を結合して出力
する出力手段とを具備したことを特徴とする。

【００１０】

【作用】第１の発明は、各単語の品詞情報を少なくとも
含む辞書内容を該単語の見出しに対応づけて辞書に記憶
しておき、検索対象文字列が入力された際に、該検索対
象文字列の先頭より一致する見出しの辞書内容を検索
し、この検索結果が複数存在する場合には、最長一致し
た見出し語の非平仮名文字の数と、最短一致した辞書内
容が持つ品詞情報により、検索結果を取捨する。また、
第２の発明は、辞書検索手段による検索結果が複数存在
する場合に、該検索結果に含まれる異なる見出し数を計
数し、計数した異なる見出し数が２以上である場合に、
最長一致した見出し語の非平仮名文字の文字数をさらに
計数し、該非平仮名文字の文字数が２以上である場合に
は、辞書検索手段による検索結果から最短一致した見出
し語の辞書内容を除外したものに、接頭語又は副詞を品
詞情報として持つ最短一致した単語の単語を結合して出
力する。

【００１１】例えば、「高所得」という検索対象文字列
の場合、先頭より一致する見出しの辞書内容は（高こう
接頭語…）（高たか形容詞…）（高所こうしょ名詞…）
となる。ここでは、検索結果の異なる見出し数は２であ
り、最長一致した見出し「高所」の非平仮名文字数は２
となる。次に、最短一致した辞書内容である（高こう接
頭語…）（高たか形容詞…）の中で品詞が接頭語又は副
詞のものを探すと、（高こう接頭語…）の品詞が接頭語
であるので、（高こう接頭語…）を記憶する。続いて、
最初の辞書内容である（高こう接頭語…）（高たか形容
詞…）（高所こうしょ名詞…）から、最短一致した辞書
内容（高こう接頭語…）（高たか形容詞…）を除去した
ものに、前記記憶していた（高こう接頭語…）を結合す
ると、（高こう接頭語…）（高所こうしょ名詞…）とな
り、これが検索結果として出力されることになる。

【００１２】したがって、最長一致方式で生じていた
（高こう接頭語…）の検索洩れを起こすことがなく、ま
た、最左部分語方式のように（高たか形容詞…）という
余分な検索結果を出力することがない。

【００１３】

【実施例】以下、この発明に関わる辞書検索装置の一実
施例を説明する。

【００１４】図１は、この発明に関わる辞書検索装置の
一実施例の構成を示すブロック図である。図１におい
て、１は辞書、２は検索対象文字列記憶手段、３は辞書
検索手段、４は検索結果記憶手段、５は検索結果取捨手
段、６は制御手段である。

【００１５】辞書１は、見出しインデックス１１と辞書
内容１２により構成されている。見出しインデックス１
１は、辞書内容１２内の平仮名・非平仮名混じりの見出
しと、その定義（読み、品詞、その他）を格納した位置
を参照するためのポインタ１３を対応付けて格納してい
る。例えば、「明確」という見出しの定義は、「明確」
という見出しにポインタ１３を介して対応付けられた辞
書内容１２に格納されている。「明確」の辞書内容１２
は、見出しが「明確」、読みが「めいかく」、その品詞
は「形容動詞」となっている。見出しインデックス１１
は、ハッシュ法、ｔｒｉｅなどの従来公知の技術により
実現することができる。

【００１６】検索対象文字列記憶手段２は、入力された
平仮名・非平仮名混じりの検索対象文字列を記憶する。

【００１７】辞書検索手段３は、検索対象文字列記憶手
段２に記憶されている平仮名・非平仮名混じり文字列の
先頭より一致する見出しの辞書内容を辞書１より検索
し、その結果を検索結果記憶手段４に格納する。

【００１８】検索結果記憶手段４は、辞書検索手段３が
出力した検索結果や、検索結果取捨手段５が出力した取
捨された検索結果を記憶する。

【００１９】検索結果取捨手段５は、検索結果計数部５
１、最長一致見出し判定部５２、最短一致辞書内容抽出
部５３、最短一致辞書内容記憶部５４、取捨部５５を具
えている。

【００２０】検索結果計数部５１では、前記検索結果記
憶手段４に格納されている検索結果の異なる見出しの数
を計数し、その結果が２以上の場合には、最長一致見出
し判定部５２を起動する。最長一致見出し判定部５２で
は、最長一致した見出しの非平仮名文字を計数し、その
結果が２以上であれば、最短一致辞書内容抽出部５３を
起動する。最短一致辞書内容抽出部５３は、最短一致す
る見出しの辞書内容から、品詞が接頭語又は副詞のもの
を最短一致辞書内容記憶部５４に記憶する。取捨部５５
では、前記検索結果記憶手段４中の辞書内容から、最短
一致した見出し語の辞書内容を取り除いたものに、最短
一致辞書内容記憶部５４の内容を結合したものを、検索
結果記憶手段４に格納する。制御手段６は、上記各手段
の処理を制御する回路であり、検索対象文字列記憶手段
２の検索対象文字列を辞書検索手段３に渡す処理や、検
索結果記憶手段４の内容を出力する処理を実行する。

【００２１】次に、上述した辞書検索装置による辞書検
索の処理手順を図２のフローチャートにより説明する。

【００２２】まず、制御手段６は検索対象文字列を検索
対象文字列記憶手段２に記憶し（ステップ１０１）、辞
書検索手段３を起動する。辞書検索手段３は、検索対象
文字列記憶手段２から検索対象文字列を取り出し、検索
対象文字列の先頭より一致する見出しの辞書内容を辞書
より検索して、その結果を検索結果記憶手段４に格納す
る（ステップ１０２）。次に、制御手段６は検索結果取
捨手段５を起動する。検索結果計数部５１は、検索結果
の異なる見出し数を計数し、計数した結果が２以上であ
るかどうかを判断する（ステップ１０３）。ここで、結
果が２以上であるときは最長一致見出し判定部５２を起
動する。最長一致見出し判定部５２は、最長一致した見
出しの非平仮名文字を計数し、計数した結果が２以上で
あるかどうかを判断する（ステップ１０４）。ここで、
結果が２以上であるときは最短一致辞書内容抽出部５３
を起動する。最短一致辞書内容抽出部５３は、最短一致
する辞書内容から、品詞が接頭語又は副詞であるものを
抽出し、最短一致辞書内容記憶部５４に記憶する（ステ
ップ１０５）。取捨部５５は、検索結果記憶手段４の検
索結果から、最短一致した見出し語の辞書内容を取り除
いたものに、最短一致辞書内容記憶部５４の内容を結合
したものを検索結果記憶手段４に格納する（ステップ１
０６）。制御手段６は、前記検索結果記憶手段４に格納
された内容を出力する（ステップ１０７）。

【００２３】次に上述した検索処理の具体例を説明す
る。

【００２４】図３は、検索対象文字列として「明確」
「明くん」「高所得」「高い」を入力したときの検索処
理の過程を示す説明図であり、前記検索対象文字列を図
５に示した辞書を用いて検索したときの過程を表してい
る。以下、各検索対象文字列ごとに検索過程を説明す
る。

【００２５】「明確」という文字列に対するステップ１
０２（以下、図２参照）の処理結果は、（明あ五段動詞
語幹…）（明あきら人名…）（明確めいかく形動…）と
なり、これが検索結果記憶手段４に格納される。ここで
は、検索結果の異なる見出し数が２となるので、ステッ
プ１０４の処理が行われる。最長一致した見出しは「明
確」であり、その非平仮名文字数は２となるため、ステ
ップ１０５、ステップ１０６の処理が行われる。まず、
ステップ１０５において、最短一致した語である（明あ
五段動詞語幹…）（明あきら人名…）の中には、品詞が
接頭語又は副詞であるものはないので、最短一致辞書内
容記憶部５４の内容は「空」となる。続いてステップ１
０６において、検索結果記憶手段４に記憶されている検
索結果から、最短一致した辞書内容を除去したものに、
最短一致辞書内容記憶部５４の内容（ここでは空）を結
合すると、（明確めいかく形動…）となり、これが検索
結果記憶手段４に記憶され、ステップ１０７で検索結果
として出力される。

【００２６】「明くん」という文字列に対するステップ
１０２の処理結果は、（明あ五段動詞語幹…）（明あき
ら人名…）となり、これが検索結果記憶手段４に格納さ
れる。ここでは、検索結果の異なる見出し数は１である
ので、ステップ１０４〜ステップ１０６の処理は行われ
ない。したがって、ステップ１０７では（明あ五段動詞
語幹…）（明あきら人名…）が検索結果として出力され
る。

【００２７】「高所得」という文字列に対するステップ
１０２の処理結果は、（高こう接頭語…）（高たか形容
詞…）（高所こうしょ名詞…）となり、これが検索結果
記憶手段４に格納される。ここでは、検索結果の異なる
見出し数が２となるので、ステップ１０４の処理が行わ
れる。ここで、最長一致した見出しは「高所」であり、
その非平仮名文字数は２となるため、ステップ１０５、
ステップ１０６の処理が行われる。ステップ１０５にお
いて、最短一致した語である（高こう接頭語…）（高た
か形容詞…）の中で、（高こう接頭語…）の品詞が接頭
語であるので、最短一致辞書内容記憶部５４の内容は
（高こう接頭語…）となる。続くステップ１０６におい
て、検索結果記憶手段４に記憶されている検索結果か
ら、最短一致した辞書内容を除去したものに、最短一致
辞書内容記憶部５４の内容（高こう接頭語…）を結合す
ると、（高こう接頭語…）（高所こうしょ名詞…）とな
り、これが検索結果記憶手段４に記憶される。したがっ
て、ステップ１０７で出力される結果も（高こう接頭語
…）（高所こうしょ名詞…）となる。

【００２８】「高い」という文字列に対するステップ１
０２の処理結果は、（高こう接頭語…）（高たか形容詞
…）となり、これが検索結果記憶手段４に格納される。
ここでは、検索結果の異なる見出し数は１であるので、
ステップ１０４〜ステップ１０６の処理は行われない。
したがって、ステップ１０７では（高こう接頭語…）
（高たか形容詞…）が検索結果として出力される。

【００２９】上記辞書検索装置において「高い所得と高
所得の場合は明白だ」という解析文字列の自立語で始ま
る部分文字列を順次検索対象文字列とし、前記図５に示
す辞書で検索した結果を図４に示す。上記実施例の検索
処理による検索結果では、図５に示した最長一致方式の
ように、「高所得」について（高こう接頭語…）の検索
洩れを生じることがない。また、図６に示した最左部分
語方式のように、余分な検索結果を出力することがな
く、検索結果を効率よく取捨することができた。

【００３０】

【発明の効果】以上説明したように、この発明に係わる
辞書検索装置によれば、検索対象文字列の先頭より一致
する見出しの辞書内容を検索したときの検索結果が複数
存在する場合には、最長一致した見出し語の非平仮名文
字の数と、最短一致した辞書内容が持つ品詞情報によ
り、検索結果を取捨するよう構成したため、最長一致方
式で生じていた検索漏れを起こすことがなく、また、最
左部分語方式のように余分な検索結果を出力することが
ない。したがって、余分な接続検定などのチェックや、
中間結果を保持するためのメモリを必要最小限とするこ
とができる。

【図面の簡単な説明】

【図１】この発明に係わる辞書検索装置の一実施例の構
成を示すブロック図。

【図２】辞書検索装置による辞書検索の処理手順を示す
フローチャート。

【図３】この発明に係わる辞書検索装置の検索処理の過
程を示す説明図。

【図４】この発明に係わる辞書検索装置の検索結果を示
す説明図。

【図５】一般的な日本語処理装置で用いる辞書の内容の
一部を示す説明図。

【図６】最長一致方式による検索結果を示す説明図。

【図７】最左部分語方式による検索結果を示す説明図。

【符号の説明】

１…辞書、２…検索対象文字列記憶手段、３…辞書検索
手段、４…検索結果記憶手段、５…検索結果取捨手段、
６…制御手段、５１…検索結果計数部、５２…最長一致
見出し判定部、５３…最短一致辞書内容抽出部、５４…
最短一致辞書内容記憶部、５５…取捨部

───────────────────────────────────────────────────── フロントページの続き (72)発明者山口浩東京都渋谷区代々木三丁目57番６号グランフォーレ富士ゼロックス株式会社内 (56)参考文献特開平３−57065（ＪＰ，Ａ) 特開昭63−95574（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 17/30

Claims

(57)【特許請求の範囲】

【請求項１】検索対象文字列が入力された際に、この
検索対象文字列に含まれる辞書登録された単語の辞書内
容を検索して出力する辞書検索装置において、各単語の品詞情報を少なくとも含む辞書内容を該単語の
見出しに対応づけて記憶した辞書と、検索対象文字列が入力された際に、該検索対象文字列の
先頭より一致する見出しの辞書内容を検索する辞書検索
手段と、前記辞書検索手段による検索結果が複数存在する場合
に、最長一致した見出し語の非平仮名文字の数と、最短
一致した辞書内容が持つ品詞情報により、検索結果を取
捨する検索結果取捨手段とを具備したことを特徴とする
辞書検索装置。
【請求項２】前記検索結果取捨手段は、前記辞書検索手段による検索結果が複数存在する場合
に、該検索結果に含まれる異なる見出し数を計数する計
数手段と、前記計数手段により計数された異なる見出し数が２以上
である場合に、最長一致した見出し語の非平仮名文字の
文字数を計数し、該非平仮名文字の文字数が２以上であ
るか否かを判定する判定手段と、前記判定手段により非平仮名文字の文字数が２以上であ
ると判定された場合に、最短一致した単語の中から接頭
語又は副詞を品詞情報として持つ単語を抽出する抽出手
段と、前記辞書検索手段による検索結果から、最短一致した見
出し語の辞書内容を除外したものに、前記抽出手段が抽
出した単語を結合して出力する出力手段とを具備したこ
とを特徴とする請求項１記載の辞書検索装置。