JPH11224250A

JPH11224250A - 辞書装置

Info

Publication number: JPH11224250A
Application number: JP10024202A
Authority: JP
Inventors: Eiji Komatsu; 英二小松
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1998-02-05
Filing date: 1998-02-05
Publication date: 1999-08-17

Abstract

(57)【要約】【課題】処理を繁雑にすることなく未知語情報の精度
を向上できる辞書装置を提供する。【解決手段】本発明の辞書装置は、与えられたテキス
ト中の文字列の先頭から所定規則に基づいて未知語であ
る可能性が高い文字列を抽出し、抽出した文字列に基づ
き単文字情報を組み合わせて未知語情報の候補を生成
し、生成した未知語情報の候補それぞれについて文字位
置別の出現頻度情報に基づき尤度を計算し、計算した尤
度に基づいて未知語情報の候補の一部を単語情報と合わ
せて出力することを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は辞書装置に関し、例
えば、形態素解析装置に接続して名前の解析精度を向上
させる装置に適用し得るものである。

【０００２】

【従来の技術】従来、形態素解析処理を行う装置では、
単語を辞書装置に登録しておくが、例えば、人の名前
（姓名のうちの名の部分。以下、同様に「名前」と呼
ぶ）は非常に数が多く、次々に新しいものが作られるた
め、すべてを辞書装置に登録できない。このように、辞
書装置に登録されていない単語を「未知語」と呼ぶ。

【０００３】この未知語を解析する方法としては、漢字
１文字を見出しとした「単漢字」と呼ばれる単語を作成
し、この単漢字を単語用辞書装置に登録するか、或い
は、単漢字専用辞書装置に登録し、登録した単漢字を組
み合わせて、未知語の単語区切りや読みの付与などを行
う方法がある。

【０００４】図２は、この解析方法を実現する第１の従
来構成を示したブロック図である。図２に示すように、
この第１の従来構成は、形態素解析装置１０１と単語用
辞書装置１０２とを組み合わせた構成を有する。この構
成では、単語と単漢字は、共に、単語用辞書装置２０２
に格納されている。図３は、単語用辞書装置１０２の格
納例を示したものである。

【０００５】また、図４は、この解析方法を実現する第
２の従来構成を示したブロック図である。図４に示すよ
うに、この第２の従来構成は、形態素解析装置２０１と
単語用辞書装置２０２と単漢字用辞書装置２０３とを組
み合わせた構成を有する。この構成では、単語は単語用
辞書装置２０２に、単漢字は単漢字用辞書装置２０３に
格納されている。図５及び図６は、それぞれ、単語用辞
書装置２０２及び単漢字用辞書装置２０３の格納例を示
したものである。

【０００６】この第１及び第２のいずれの従来構成にお
いても、形態素解析装置は、辞書装置に格納されている
単語及び単漢字を用いて、入力文を分割する。また、分
割する際には、通常、単漢字よりも単語を優先し、単語
では解析できない場合に単漢字を用いる。

【０００７】例えば、形態素解析装置への入力文として
「田中弘一さん。」が入力されると、形態素解析装置で
は、辞書装置に格納されている単語及び単漢字を用いて
入力文が解析され、その結果、「田中（固有名詞、タナ
カ）／弘一（未知語、コウイチ）／さん（接尾語、サ
ン）／。（句点、（読みなし））」という出力が得られ
ることになる（図３、図５及び図６を参考）。

【０００８】また、この第１及び第２のいずれの従来構
成においても、入力文の文字列から単語と単漢字の見出
しを定め、テキストを単語列に分割する形態素解析装置
としては、入力文の単語分割の全ての組み合わせからコ
ストが最小になるものを選定するコスト最小法を用いた
装置が最も一般性のあるものである。ただし、未知語に
ついては、コスト最小法を用いた場合でも、別処理とし
て行われることが多く、「弘（単漢字、コウ）／一（単
漢字、イチ）」のように、単漢字として解析したあと
に、「弘一」を１つの未知語としてまとめる方法、「弘
一（未知語）」として未知語を切り出した後に、単漢字
を用いて読み等の詳細な情報を追加する方法、又は、未
知語の切り出しと詳細な情報を同時に決定する方法など
がある。

【０００９】

【発明が解決しようとする課題】ところで、未知語は、
すべての品詞について存在する可能性がある。また、未
知語で使われる単漢字には未知語の種類により偏りがあ
り、未知語を正しく切り出して正しい読みを付与するた
めには、未知語の種類毎に異なった情報を用いて処理す
る必要がある。

【００１０】特に、人の名前に用いられる漢字について
は、他の名詞を構成している漢字とは異なる特有の読み
方をする場合が多く、一般的な漢字の音訓、頻度だけで
は、正しい読みを付与することが難しい。

【００１１】図７は、単漢字を用いて名前未知語を解析
した結果の失敗例を示したものである。例１１〜例１３
は、誤った読みの単漢字を選んだ失敗例であり、名前に
おける単漢字の頻度が考慮されていないために起きたも
のである。また、例１４は、「晃」を固有名詞、「二」
を数詞とした失敗例であり、例１５は、「裕」と「晃」
とを共に固有名詞にした失敗例である。これら例１４及
び例１５は、単漢字より単語を優先するという規則を無
条件に適用したために起きたものであり、「菊雄」や
「裕晃」などの未知語が名前であることを判定する機構
が必要であることを示している。

【００１２】このように、従来の解析方法には、名前未
知語を正しく切り出して正しい読みを付与することが難
しいという課題があった。

【００１３】さらに、従来の構成上、この課題を解決す
るための処理を形態素解析処理に追加すると、処理負荷
の重い形態素解析処理を繁雑にしてしまうという課題が
あった。

【００１４】また、以上の課題の説明では、名前未知語
を解析して読みを与える場合の課題について説明した
が、他の品詞又は他の種類の未知語を解析して読み以外
の情報を与える場合であっても同様の課題がある。

【００１５】そのため、処理を繁雑にすることなく、未
知語情報の精度を向上できる辞書装置が求められてい
た。

【００１６】

【課題を解決するための手段】かかる課題を解決するた
め、本発明は、単語情報を格納する単語情報格納手段を
備え、与えられたテキスト中の文字列の先頭の単語情報
の候補を出力する辞書装置において、以下の手段を設け
たことを特徴とする。

【００１７】すなわち、（１）一文字を見出しとする単
文字情報を、未知語に用いられた場合の文字位置別の出
現頻度情報と共に格納する単文字情報格納手段と、
（２）与えられたテキスト中の文字列の先頭から、所定
規則に基づいて未知語である可能性が高い文字列を抽出
する文字列抽出手段と、（３）この文字列抽出手段が抽
出した文字列に基づき、単文字情報格納手段に格納され
ている単文字情報を組み合わせて、未知語情報の候補を
生成する候補生成手段と、（４）この候補生成手段が生
成した未知語情報の候補それぞれについて、単文字情報
格納手段に格納された文字位置別の出現頻度情報に少な
くとも基づき、尤度を計算する尤度計算手段と、（５）
この尤度計算手段が計算した尤度に基づいて、候補生成
手段が生成した未知語情報の候補の一部を、単語情報格
納手段の単語情報と合わせて出力する合成出力手段とを
有することを特徴とする。

【００１８】本発明においては、与えられたテキスト中
の文字列の先頭から所定規則に基づいて未知語である可
能性が高い文字列を抽出し、抽出した文字列に基づき単
文字情報を組み合わせて未知語情報の候補を生成し、生
成した未知語情報の候補それぞれについて文字位置別の
出現頻度情報に基づき尤度を計算し、計算した尤度に基
づいて未知語情報の候補の一部を単語情報と合わせて出
力することにより、未知語情報を単語情報格納手段に追
加格納した場合と同じ効果を得ることができ、処理を繁
雑にすることなく未知語情報の精度を向上することがで
きる。

【００１９】

【発明の実施の形態】（Ａ）第１の実施形態以下、本発明による辞書装置を、形態素解析処理に適用
した第１の実施形態について、図面を参照しながら詳述
する。

【００２０】図１は、この第１の実施形態の形態素解析
処理システムの構成を示す機能ブロック図である。すな
わち、第１の実施形態の形態素解析処理システムは、実
際上、入出力装置や処理装置や記憶装置等を有するワー
クステーションやパソコン等の情報処理装置上に実現さ
れるものであるが、機能的には、図１に示す構成を有す
るものである。

【００２１】図１において、この第１の実施形態の形態
素解析処理システムは、形態素解析を行う形態素解析装
置３０１と、通常の単語辞書としての機能の他に名前未
知語の解析機能を備えた単語用辞書装置３０２とからな
る構成を有する。

【００２２】ここで、この第１の実施形態において、こ
の単語用辞書装置３０２が、本発明による辞書装置の適
用構成部分である。したがって、以下、単語用辞書装置
３０２の詳細構成について説明する。

【００２３】図１において、単語用辞書装置３０２は、
単語格納部３０５の検索結果と名前候補作成部３０４が
作成した名前未知語の候補とをまとめる検索結果合成部
３０３と、名前未知語の候補を作成する名前候補作成部
３０４と、単語及び単漢字が格納され、名前として用い
られた場合の頻度が追加されている単語格納部３０５
と、名前の読みが格納されている読み格納部３０６と、
名前未知語を切り出すための規則が格納され、その規則
に基づいて文字列を作成する文字列作成規則格納部３０
７とからなる構成を有する。

【００２４】図８は、単語格納部３０５の格納例を示し
たものである。図８に示すように、単語格納部３０５に
格納されている単語及び単漢字には、通常の頻度の他
に、名前として用いられた場合の頻度が付されている。
この頻度は、名前として用いられた場合の文字位置別に
分かれて格納されている。

【００２５】図９は、読み格納部３０６の格納例を示し
たものである。図９に示すように、読み格納部３０６に
格納されている名前の読みには、単漢字の組み合わせと
は関係なく、名前としての読みの頻度が付されている。

【００２６】図１０は、文字列作成規則格納部３０７の
格納例を示したものである。図１０に示すように、文字
列作成規則格納部３０７には、名前未知語を切り出して
文字列を作成するための規則が格納されている。

【００２７】次に、この第１の実施形態の形態素解析処
理システムの動作について、図面を参照しながら詳述す
る。

【００２８】まず、形態素解析装置３０１に日本語文が
入力される。ここでは、入力文として「私の名前は、鈴
木裕晃です。」が入力された場合を例に、以下説明す
る。

【００２９】形態素解析装置３０１では、入力文が与え
られると、入力文の各文字位置で、その文字から始まる
文字列の最左部分語が検索される。今、文字列「裕晃で
す。」の最左部分語が検索されるものとする。形態素解
析装置３０１では、この文字列「裕晃です。」が辞書装
置３０２の検索結果合成部３０３に与えられる。

【００３０】検索結果合成部３０３では、与えられた文
字列に基づいて単語格納部３０５が検索され、その結
果、「裕（固有名詞、ヒロシ）」、「裕（単漢字、ユ
ウ）」、「裕（単漢字、ヒロ）」が得られる。また、検
索結果合成部３０３では、名前候補作成部３０４に候補
作成指令が出される。

【００３１】名前候補作成部３０４では、検索結果合成
部３０３からの候補作成指令を受けると、文字列作成規
則格納部３０７に文字列作成指令が出され、文字列作成
規則格納部３０７では、格納されている所定規則に基づ
いて、検索結果合成部３０３に与えられた文字列から名
前未知語の候補となる文字列が作成される。ここでは、
図１０に示した規則２を用いて、「裕晃」という文字列
が作成され、この文字列が名前候補作成部３０４に与え
られる。

【００３２】また、名前候補作成部３０４では、文字列
作成規則格納部３０７から文字列が与えられると、単語
格納部３０５に格納された単漢字が検索され、与えられ
た文字列の読み候補が作成される。ここでは、文字列
「裕晃」の読み候補として、検索した単漢字を用いて
「ヒロ＋アキ」、「ヒロ＋コウ」、「ユウ＋アキ」、
「ユウ＋コウ」という４つの読み候補が作成される。

【００３３】さらに、名前候補作成部３０４では、読み
候補が作成されると、名前読み格納部３０６が検索され
て、各読み候補の読み頻度が得られる。

【００３４】さらにまた、名前候補作成部３０４では、
この得られた読み頻度と作成した読み候補の文字位置別
の頻度とから、各読み候補の尤度が計算されて、その結
果、上位の読み候補が検索結果合成部３０３に与えられ
る。

【００３５】式１：尤度＝αΣlog(各単漢字の当該文字
位置別の頻度)＋β（文字数の頻度）＋γlog(読みの頻
度)＋δ(音訓の連鎖度) 上記式１は、この尤度の計算式の例を示したものであ
る。式１の右辺において、第１項は、読み候補を構成す
る各単漢字の文字位置別の頻度に基づく尤度を求めるも
のであり、第２項は、読み候補の文字数の頻度に基づく
尤度を求めるものであり、第３項は、単漢字の組み合わ
せとは別に名前としての読みの頻度に基づく尤度を求め
るものであり、第４項は、読み候補を構成する各単漢字
の音訓の連鎖度に基づく尤度を求めるものである。ここ
で、第４項については、この第１の実施形態の場合、読
み候補を構成する各単漢字の音訓が同一であるときは連
鎖度が”１”であり、同一でないときは連鎖度が”０”
であるものとする。なお、α，β，γ，δは、各項に適
当に重みを与える定数である。

【００３６】この式１に基づいて、上述した各読み候補
の尤度を計算すると、以下のようになる。

【００３７】「ユウ＋コウ」：α（log４＋log０）＋２β＋δ 「ユウ＋アキ」：α（log４＋log１）＋２β 「ヒロ＋コウ」：α（log２＋log０）＋２β 「ヒロ＋アキ」：α（log２＋log１）＋２β＋γ（log
２）＋δ ここで、この第１の実施形態では、単漢字の組み合わせ
とは別に名前としての読みがあるということは、読みと
しての可能性が高いため、γの値は他の定数αやβやδ
に比べて大きく設定されているものとする。

【００３８】すなわち、上記の計算結果としては、「ヒ
ロ＋アキ」の尤度が相対的に大きくなり、「裕晃（ヒロ
アキ）」だけが検索結果合成部３０３に与えられること
になる。

【００３９】検索結果合成部３０３では、単語格納部３
０５から検索した「裕（固有名詞、ヒロシ）」等と共に
名前候補作成部３０４から与えられた「裕晃（固有名
詞、ヒロアキ）」とがまとめられて、形態素解析装置３
０１に与えられる。

【００４０】形態素解析装置３０１では、検索結果合成
部３０３から与えられた各単語が、最左部分語の候補と
して区別なく扱われ、「裕晃」が単語格納部３０５に登
録されているのと同じ解析結果が得られることになる。

【００４１】また、入力文字列として「由紀夫」のよう
な３文字の名前が与えられた場合についても同様に、単
語格納部３０５に登録されているの同じ結果が得られ
る。

【００４２】なお、名前以外の未知語については、検索
された単漢字を用いて、形態素解析装置３０１に備わっ
ている未知語処理により行われるものとする。

【００４３】以上のように、この第１の実施形態の辞書
装置によれば、与えられた文字列から所定規則に基づい
て名前未知語となる文字列を切り出してその読み候補を
作成し、各読み候補の尤度を計算して上位読み候補を出
力するので、名前未知語を追加登録した場合と同じ効果
を得ることができ、名前未知語の切り出し及び読みの精
度が向上する。

【００４４】また、この第１の実施形態の形態素解析処
理システムによれば、形態素解析装置を修正することな
く辞書装置を修正することで、名前未知語を追加登録し
た場合と同じ効果を得ることができるので、形態素解析
処理が繁雑なることを防止できる。

【００４５】さらに、この第１の実施形態の形態素解析
処理システムによれば、別途単漢字記憶部等を設ける必
要がないので、簡単な構成で名前未知語の処理を行うこ
とができ、かつ、速い処理速度を維持することができ
る。

【００４６】（Ｂ）第２の実施形態以下、本発明による辞書装置を、形態素解析処理に適用
した第２の実施形態について、図面を参照しながら詳述
する。

【００４７】図１１は、この第２の実施形態の形態素解
析処理システムの構成を示す機能ブロック図である。す
なわち、第２の実施形態の形態素解析処理システムも、
実際上、入出力装置や処理装置や記憶装置等を有するワ
ークステーションやパソコン等の情報処理装置上に実現
されるものであるが、機能的には、図１１に示す構成を
有するものである。

【００４８】図１１において、この形態素解析処理シス
テムは、形態素解析を行う形態素解析装置４０１と、通
常の単語辞書としての機能を備えた単語用辞書装置４０
２と、通常の単漢字辞書としての機能の他に名前未知語
の解析機能を備えた単漢字用辞書装置４０５とからなる
構成を有する。

【００４９】ここで、この第２の実施形態において、単
語用辞書装置４０２及び単漢字用辞書装置４０５が、本
発明による辞書装置の適用構成部分である。したがっ
て、以下、単語用辞書装置４０２及び単漢字用辞書装置
４０５の詳細構成について説明する。

【００５０】図１１において、単語用辞書装置４０２
は、単語格納部４０４の検索結果と名前候補作成部４０
６が作成した名前未知語の候補とをまとめる検索結果合
成部４０３と、単語が格納されている単語格納部４０４
とからなる構成を有する。

【００５１】また、図１１において、単漢字用辞書装置
４０３は、名前未知語の候補を作成する名前候補作成部
４０６と、単漢字が格納され、名前として用いられた場
合の頻度が追加されている単漢字格納部４０７と、名前
の読みが格納されている読み格納部４０８と、名前未知
語を切り出すための規則が格納され、その規則に基づい
て文字列を作成する文字列作成規則格納部４０９とから
なる構成を有する。

【００５２】図１２は、単語格納部４０４の格納例を示
したものである。図１２に示すように、単語格納部４０
４に格納された単語には、上記第１の実施形態の単語格
納部３０５に格納された単語と同様に、通常の頻度が付
されている。

【００５３】図１３は、単漢字格納部４０７の格納例を
示したものである。図１３に示すように、単漢字格納部
４０７に格納された単漢字にも、上記第１の実施形態の
単語格納部３０５に格納された単漢字と同様に、通常の
頻度の他に、名前として用いられた場合の頻度が付され
ている。この頻度は、名前として用いられた場合の文字
位置別に分かれて格納されている。

【００５４】さらに、読み格納部４０８及び文字列作成
規則格納部４０９も、上記第１の実施形態の読み格納部
３０６及び文字列作成規則格納部３０７と同様に格納さ
れている。

【００５５】次に、この第２の実施形態の形態素解析処
理システムの動作について、図面を参照しながら詳述す
る。

【００５６】まず、形態素解析装置４０１に日本語文が
入力される。ここでは、入力文として「私の名前は、鈴
木裕晃です。」が入力された場合を例に、以下説明す
る。

【００５７】形態素解析装置４０１では、入力文が与え
られると、入力文の各文字位置で、その文字から始まる
文字列の最左部分語が検索される。今、文字列「裕晃で
す。」の最左部分語が検索されるものとする。形態素解
析装置４０１では、この文字列「裕晃です。」が、辞書
装置４０２の検索結果合成部４０３に与えられる。

【００５８】検索結果合成部４０３では、与えられた文
字列に基づいて単語格納部４０４が検索され、その結
果、「裕（固有名詞、ヒロシ）」、「裕（単漢字、ユ
ウ）」、「裕（単漢字、ヒロ）」が得られる。また、検
索結果合成部４０３では、名前未知語辞書装置４０５の
名前候補作成部４０６に候補作成指令が出される。

【００５９】名前候補作成部４０６では、検索結果合成
部４０３からの候補作成指令を受けると、文字列作成規
則格納部４０９に文字列作成指令が出され、文字列作成
規則格納部４０９では、格納されている所定規則に基づ
いて、検索結果合成部４０３に与えられた文字列から名
前未知語の候補となる文字列が作成される。ここでは、
図１０に示した規則２を用いて、「裕晃」という文字列
が作成され、この文字列が名前候補作成部４０６に与え
られる。

【００６０】また、名前候補作成部４０６では、文字列
作成規則格納部４０９から文字列が与えられると、単漢
字格納部４０７に格納された単漢字が検索され、与えら
れた文字列の読み候補が作成される。ここでは、文字列
「裕晃」の読み候補として、「ヒロ＋アキ」、「ヒロ＋
コウ」、「ユウ＋アキ」、「ユウ＋コウ」という４つの
読み候補が作成される。

【００６１】さらに、名前候補作成部４０６では、読み
候補が作成されると、名前読み格納部４０８が検索され
て、各読み候補の読み頻度が得られる。

【００６２】さらにまた、名前候補作成部４０６では、
この得られた読み頻度と作成した読み候補の文字位置別
の頻度とから、各読み候補の尤度が計算されて、その結
果、上位の読み候補が検索結果合成部４０３に与えられ
る。ここで、この第２の実施形態の尤度の計算方法も、
上記第１の実施形態と同様とする。

【００６３】すなわち、尤度計算の結果から、「ヒロ＋
アキ」の尤度が相対的に大きくなり、「裕晃（ヒロア
キ）」だけが検索結果合成部４０３に与えられることに
なる。

【００６４】検索結果合成部４０３では、単語格納部４
０４から検索した「裕（固有名詞、ヒロシ）」等と共に
名前候補作成部４０６から与えられた「裕晃（固有名
詞、ヒロアキ）」とがまとめられて、形態素解析装置４
０１に与えられる。

【００６５】形態素解析装置４０１では、検索結果合成
部４０３から与えられた各単語が、最左部分語の候補と
して区別なく扱われ、「裕晃」が単語格納部４０４に登
録されているのと同じ解析結果が得られることになる。

【００６６】また、入力テキスト中に「由紀夫」のよう
な３文字の名前が与えられた場合についても同様に、単
語格納部３０５に登録されているの同じ結果が得られ
る。

【００６７】なお、名前以外の未知語については、検索
された単漢字を用いて、形態素解析装置３０１に備わっ
ている未知語処理により行われるものとする。

【００６８】以上のように、この第２の実施形態の辞書
装置によれば、与えられた文字列から所定規則に基づい
て名前未知語となる文字列を切り出してその読み候補を
作成し、各読み候補の尤度を計算して上位読み候補を出
力するので、名前未知語を追加登録した場合と同じ効果
を得ることができ、名前未知語の切り出し及び読みの精
度が向上する。

【００６９】また、この第２の実施形態の形態素解析処
理システムによれば、形態素解析装置を修正することな
く辞書装置を修正することで、名前未知語を追加登録し
た場合と同じ効果を得ることができるので、形態素解析
処理が繁雑なることを防止できる。

【００７０】さらに、この第２の実施形態の形態素解析
処理システムによれば、単漢字格納部のみに名前未知語
の解析用の情報を付加し、単語格納部の内容については
変更が不必要であるので、変更が容易であり、かつ、記
憶容量の増加も最小限に抑えることができる。

【００７１】（Ｃ）他の実施形態上記各実施形態では、名前候補作成部において作成した
読み候補のうち上位候補のみを検索結果合成部に与える
ものを示したが、上位候補に限定することなく、尤度に
基づいて名前候補の一部を検索結果合成部に与えるもの
であっても良い。

【００７２】また、上記各実施形態では、単漢字を組み
合わせて名前読み候補を作成するものを示したが、単語
格納部において単語にも名前として用いられた場合の文
字位置別の頻度を付して格納し、単漢字と単語とを組み
合わせて名前読み候補を作成するものであっても同様に
本発明に適用できる。この場合、尤度は、単語の文字位
置別の頻度も含めて計算されるものとする。

【００７３】さらに、上記各実施形態では、名前未知語
を解析して読みを与えるものを示したが、他の品詞又は
他の種類の未知語（例えば、社会科学用語や自然科学用
語など）を解析して読み以外の未知語情報を与えるもの
であっても同様に本発明に適用できる。

【００７４】さらにまた、上記各実施形態では、入力文
が日本語であるものを示したが、他の言語の入力文に対
しても同様に本発明に適用できる。

【００７５】また、上記各実施形態では、漢字一文字を
見出しとした単漢字を格納したものを示したが、単漢字
を含む、アルファベット等の一文字を見出しとした単文
字について、必要な単文字情報を格納するものを適用す
れば、さらに詳細な情報を出力できるものになる。

【００７６】

【発明の効果】以上のように、本発明によれば、与えら
れたテキスト中の文字列の先頭から所定規則に基づいて
未知語である可能性が高い文字列を抽出し、抽出した文
字列に基づき単文字情報を組み合わせて未知語情報の候
補を生成し、生成した未知語情報の候補それぞれについ
て文字位置別の出現頻度情報に基づき尤度を計算し、計
算した尤度に基づいて未知語情報の候補の一部を単語情
報と合わせて出力するので、未知語情報を単語情報格納
手段に追加格納した場合と同じ効果を得ることができ、
処理を繁雑にすることなく未知語情報の精度を向上する
ことができる。

【図面の簡単な説明】

【図１】第１の実施形態における形態素解析処理システ
ムの機能構成を示すブロック図である。

【図２】未知語検索方法を実現する第１の従来構成を示
すブロック図である。

【図３】単語用辞書装置１０２の格納例を示すイメージ
図である。

【図４】未知語検索方法を実現する第２の従来構成を示
すブロック図である。

【図５】単語用辞書装置２０２の格納例を示すイメージ
図である。

【図６】単漢字用辞書装置２０３の格納例を示すイメー
ジ図である。

【図７】名前未知語の解析結果の失敗例を示した図であ
る。

【図８】単語格納部３０５の格納例を示すイメージ図で
ある。

【図９】読み格納部３０６の格納例を示すイメージ図で
ある。

【図１０】文字列作成規則格納部３０７の格納例を示す
イメージ図である。

【図１１】第２の実施形態における形態素解析処理シス
テムの機能構成を示すブロック図である。

【図１２】単語格納部４０４の格納例を示すイメージ図
である。

【図１３】単漢字格納部４０７の格納例を示すイメージ
図である。

【符号の説明】

３０１…形態素解析装置、３０２…単語用辞書装置、３
０３…検索結果合成部、３０４…名前候補作成部、３０
５…単語格納部、３０６…読み格納部、３０７…文字列
作成規則格納部。

Claims

【特許請求の範囲】

【請求項１】単語情報を格納する単語情報格納手段を
備え、与えられたテキスト中の文字列の先頭の単語情報
の候補を出力する辞書装置において、一文字を見出しとする単文字情報を、未知語に用いられ
た場合の文字位置別の出現頻度情報と共に格納する単文
字情報格納手段と、与えられたテキスト中の文字列の先頭から、所定規則に
基づいて未知語である可能性が高い文字列を抽出する文
字列抽出手段と、この文字列抽出手段が抽出した文字列に基づき、上記単
文字情報格納手段に格納されている単文字情報を組み合
わせて、未知語情報の候補を生成する候補生成手段と、この候補生成手段が生成した未知語情報の候補それぞれ
について、上記単文字情報格納手段に格納された文字位
置別の出現頻度情報に少なくとも基づき、尤度を計算す
る尤度計算手段と、この尤度計算手段が計算した尤度に基づいて、上記候補
生成手段が生成した未知語情報の候補の一部を、上記単
語情報格納手段の単語情報と合わせて出力する合成出力
手段とを有することを特徴とする辞書装置。
【請求項２】未知語情報を、その出現頻度情報と共に
格納する未知語情報格納手段を有し、上記尤度計算手段は、上記未知語情報格納手段に格納さ
れた出現頻度情報にも基づいて尤度を計算することを特
徴とする請求項１に記載の辞書装置。
【請求項３】上記単語情報格納手段は、単語が未知語
に用いられた場合の文字位置別の出現頻度情報を格納
し、上記候補生成手段は、上記文字列抽出手段が抽出した文
字列に基づき、上記単語情報格納手段に格納された単語
情報と上記単文字情報格納手段に格納された単文字情報
とを組み合わせて、未知語情報の候補を生成し、上記尤度計算手段は、上記単語情報格納手段に格納され
た文字位置別の出現頻度情報にも基づいて尤度を計算す
ることを特徴とする請求項１又は２に記載の辞書装置。
【請求項４】上記単語情報格納手段と上記単文字情報
格納手段とが融合して構成されていることを特徴とする
請求項１〜３のいずれかに記載の辞書装置。
【請求項５】上記未知語が、人の名前であることを特
徴とする請求項１〜４のいずれかに記載の辞書装置。