JPH11224250A - 辞書装置 - Google Patents

辞書装置

Info

Publication number
JPH11224250A
JPH11224250A JP10024202A JP2420298A JPH11224250A JP H11224250 A JPH11224250 A JP H11224250A JP 10024202 A JP10024202 A JP 10024202A JP 2420298 A JP2420298 A JP 2420298A JP H11224250 A JPH11224250 A JP H11224250A
Authority
JP
Japan
Prior art keywords
word
name
candidate
information
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10024202A
Other languages
English (en)
Inventor
Eiji Komatsu
英二 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP10024202A priority Critical patent/JPH11224250A/ja
Publication of JPH11224250A publication Critical patent/JPH11224250A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 処理を繁雑にすることなく未知語情報の精度
を向上できる辞書装置を提供する。 【解決手段】 本発明の辞書装置は、与えられたテキス
ト中の文字列の先頭から所定規則に基づいて未知語であ
る可能性が高い文字列を抽出し、抽出した文字列に基づ
き単文字情報を組み合わせて未知語情報の候補を生成
し、生成した未知語情報の候補それぞれについて文字位
置別の出現頻度情報に基づき尤度を計算し、計算した尤
度に基づいて未知語情報の候補の一部を単語情報と合わ
せて出力することを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は辞書装置に関し、例
えば、形態素解析装置に接続して名前の解析精度を向上
させる装置に適用し得るものである。
【0002】
【従来の技術】従来、形態素解析処理を行う装置では、
単語を辞書装置に登録しておくが、例えば、人の名前
(姓名のうちの名の部分。以下、同様に「名前」と呼
ぶ)は非常に数が多く、次々に新しいものが作られるた
め、すべてを辞書装置に登録できない。このように、辞
書装置に登録されていない単語を「未知語」と呼ぶ。
【0003】この未知語を解析する方法としては、漢字
1文字を見出しとした「単漢字」と呼ばれる単語を作成
し、この単漢字を単語用辞書装置に登録するか、或い
は、単漢字専用辞書装置に登録し、登録した単漢字を組
み合わせて、未知語の単語区切りや読みの付与などを行
う方法がある。
【0004】図2は、この解析方法を実現する第1の従
来構成を示したブロック図である。図2に示すように、
この第1の従来構成は、形態素解析装置101と単語用
辞書装置102とを組み合わせた構成を有する。この構
成では、単語と単漢字は、共に、単語用辞書装置202
に格納されている。図3は、単語用辞書装置102の格
納例を示したものである。
【0005】また、図4は、この解析方法を実現する第
2の従来構成を示したブロック図である。図4に示すよ
うに、この第2の従来構成は、形態素解析装置201と
単語用辞書装置202と単漢字用辞書装置203とを組
み合わせた構成を有する。この構成では、単語は単語用
辞書装置202に、単漢字は単漢字用辞書装置203に
格納されている。図5及び図6は、それぞれ、単語用辞
書装置202及び単漢字用辞書装置203の格納例を示
したものである。
【0006】この第1及び第2のいずれの従来構成にお
いても、形態素解析装置は、辞書装置に格納されている
単語及び単漢字を用いて、入力文を分割する。また、分
割する際には、通常、単漢字よりも単語を優先し、単語
では解析できない場合に単漢字を用いる。
【0007】例えば、形態素解析装置への入力文として
「田中弘一さん。」が入力されると、形態素解析装置で
は、辞書装置に格納されている単語及び単漢字を用いて
入力文が解析され、その結果、「田中(固有名詞、タナ
カ)/弘一(未知語、コウイチ)/さん(接尾語、サ
ン)/。(句点、(読みなし))」という出力が得られ
ることになる(図3、図5及び図6を参考)。
【0008】また、この第1及び第2のいずれの従来構
成においても、入力文の文字列から単語と単漢字の見出
しを定め、テキストを単語列に分割する形態素解析装置
としては、入力文の単語分割の全ての組み合わせからコ
ストが最小になるものを選定するコスト最小法を用いた
装置が最も一般性のあるものである。ただし、未知語に
ついては、コスト最小法を用いた場合でも、別処理とし
て行われることが多く、「弘(単漢字、コウ)/一(単
漢字、イチ)」のように、単漢字として解析したあと
に、「弘一」を1つの未知語としてまとめる方法、「弘
一(未知語)」として未知語を切り出した後に、単漢字
を用いて読み等の詳細な情報を追加する方法、又は、未
知語の切り出しと詳細な情報を同時に決定する方法など
がある。
【0009】
【発明が解決しようとする課題】ところで、未知語は、
すべての品詞について存在する可能性がある。また、未
知語で使われる単漢字には未知語の種類により偏りがあ
り、未知語を正しく切り出して正しい読みを付与するた
めには、未知語の種類毎に異なった情報を用いて処理す
る必要がある。
【0010】特に、人の名前に用いられる漢字について
は、他の名詞を構成している漢字とは異なる特有の読み
方をする場合が多く、一般的な漢字の音訓、頻度だけで
は、正しい読みを付与することが難しい。
【0011】図7は、単漢字を用いて名前未知語を解析
した結果の失敗例を示したものである。例11〜例13
は、誤った読みの単漢字を選んだ失敗例であり、名前に
おける単漢字の頻度が考慮されていないために起きたも
のである。また、例14は、「晃」を固有名詞、「二」
を数詞とした失敗例であり、例15は、「裕」と「晃」
とを共に固有名詞にした失敗例である。これら例14及
び例15は、単漢字より単語を優先するという規則を無
条件に適用したために起きたものであり、「菊雄」や
「裕晃」などの未知語が名前であることを判定する機構
が必要であることを示している。
【0012】このように、従来の解析方法には、名前未
知語を正しく切り出して正しい読みを付与することが難
しいという課題があった。
【0013】さらに、従来の構成上、この課題を解決す
るための処理を形態素解析処理に追加すると、処理負荷
の重い形態素解析処理を繁雑にしてしまうという課題が
あった。
【0014】また、以上の課題の説明では、名前未知語
を解析して読みを与える場合の課題について説明した
が、他の品詞又は他の種類の未知語を解析して読み以外
の情報を与える場合であっても同様の課題がある。
【0015】そのため、処理を繁雑にすることなく、未
知語情報の精度を向上できる辞書装置が求められてい
た。
【0016】
【課題を解決するための手段】かかる課題を解決するた
め、本発明は、単語情報を格納する単語情報格納手段を
備え、与えられたテキスト中の文字列の先頭の単語情報
の候補を出力する辞書装置において、以下の手段を設け
たことを特徴とする。
【0017】すなわち、(1)一文字を見出しとする単
文字情報を、未知語に用いられた場合の文字位置別の出
現頻度情報と共に格納する単文字情報格納手段と、
(2)与えられたテキスト中の文字列の先頭から、所定
規則に基づいて未知語である可能性が高い文字列を抽出
する文字列抽出手段と、(3)この文字列抽出手段が抽
出した文字列に基づき、単文字情報格納手段に格納され
ている単文字情報を組み合わせて、未知語情報の候補を
生成する候補生成手段と、(4)この候補生成手段が生
成した未知語情報の候補それぞれについて、単文字情報
格納手段に格納された文字位置別の出現頻度情報に少な
くとも基づき、尤度を計算する尤度計算手段と、(5)
この尤度計算手段が計算した尤度に基づいて、候補生成
手段が生成した未知語情報の候補の一部を、単語情報格
納手段の単語情報と合わせて出力する合成出力手段とを
有することを特徴とする。
【0018】本発明においては、与えられたテキスト中
の文字列の先頭から所定規則に基づいて未知語である可
能性が高い文字列を抽出し、抽出した文字列に基づき単
文字情報を組み合わせて未知語情報の候補を生成し、生
成した未知語情報の候補それぞれについて文字位置別の
出現頻度情報に基づき尤度を計算し、計算した尤度に基
づいて未知語情報の候補の一部を単語情報と合わせて出
力することにより、未知語情報を単語情報格納手段に追
加格納した場合と同じ効果を得ることができ、処理を繁
雑にすることなく未知語情報の精度を向上することがで
きる。
【0019】
【発明の実施の形態】(A)第1の実施形態 以下、本発明による辞書装置を、形態素解析処理に適用
した第1の実施形態について、図面を参照しながら詳述
する。
【0020】図1は、この第1の実施形態の形態素解析
処理システムの構成を示す機能ブロック図である。すな
わち、第1の実施形態の形態素解析処理システムは、実
際上、入出力装置や処理装置や記憶装置等を有するワー
クステーションやパソコン等の情報処理装置上に実現さ
れるものであるが、機能的には、図1に示す構成を有す
るものである。
【0021】図1において、この第1の実施形態の形態
素解析処理システムは、形態素解析を行う形態素解析装
置301と、通常の単語辞書としての機能の他に名前未
知語の解析機能を備えた単語用辞書装置302とからな
る構成を有する。
【0022】ここで、この第1の実施形態において、こ
の単語用辞書装置302が、本発明による辞書装置の適
用構成部分である。したがって、以下、単語用辞書装置
302の詳細構成について説明する。
【0023】図1において、単語用辞書装置302は、
単語格納部305の検索結果と名前候補作成部304が
作成した名前未知語の候補とをまとめる検索結果合成部
303と、名前未知語の候補を作成する名前候補作成部
304と、単語及び単漢字が格納され、名前として用い
られた場合の頻度が追加されている単語格納部305
と、名前の読みが格納されている読み格納部306と、
名前未知語を切り出すための規則が格納され、その規則
に基づいて文字列を作成する文字列作成規則格納部30
7とからなる構成を有する。
【0024】図8は、単語格納部305の格納例を示し
たものである。図8に示すように、単語格納部305に
格納されている単語及び単漢字には、通常の頻度の他
に、名前として用いられた場合の頻度が付されている。
この頻度は、名前として用いられた場合の文字位置別に
分かれて格納されている。
【0025】図9は、読み格納部306の格納例を示し
たものである。図9に示すように、読み格納部306に
格納されている名前の読みには、単漢字の組み合わせと
は関係なく、名前としての読みの頻度が付されている。
【0026】図10は、文字列作成規則格納部307の
格納例を示したものである。図10に示すように、文字
列作成規則格納部307には、名前未知語を切り出して
文字列を作成するための規則が格納されている。
【0027】次に、この第1の実施形態の形態素解析処
理システムの動作について、図面を参照しながら詳述す
る。
【0028】まず、形態素解析装置301に日本語文が
入力される。ここでは、入力文として「私の名前は、鈴
木裕晃です。」が入力された場合を例に、以下説明す
る。
【0029】形態素解析装置301では、入力文が与え
られると、入力文の各文字位置で、その文字から始まる
文字列の最左部分語が検索される。今、文字列「裕晃で
す。」の最左部分語が検索されるものとする。形態素解
析装置301では、この文字列「裕晃です。」が辞書装
置302の検索結果合成部303に与えられる。
【0030】検索結果合成部303では、与えられた文
字列に基づいて単語格納部305が検索され、その結
果、「裕(固有名詞、ヒロシ)」、「裕(単漢字、ユ
ウ)」、「裕(単漢字、ヒロ)」が得られる。また、検
索結果合成部303では、名前候補作成部304に候補
作成指令が出される。
【0031】名前候補作成部304では、検索結果合成
部303からの候補作成指令を受けると、文字列作成規
則格納部307に文字列作成指令が出され、文字列作成
規則格納部307では、格納されている所定規則に基づ
いて、検索結果合成部303に与えられた文字列から名
前未知語の候補となる文字列が作成される。ここでは、
図10に示した規則2を用いて、「裕晃」という文字列
が作成され、この文字列が名前候補作成部304に与え
られる。
【0032】また、名前候補作成部304では、文字列
作成規則格納部307から文字列が与えられると、単語
格納部305に格納された単漢字が検索され、与えられ
た文字列の読み候補が作成される。ここでは、文字列
「裕晃」の読み候補として、検索した単漢字を用いて
「ヒロ+アキ」、「ヒロ+コウ」、「ユウ+アキ」、
「ユウ+コウ」という4つの読み候補が作成される。
【0033】さらに、名前候補作成部304では、読み
候補が作成されると、名前読み格納部306が検索され
て、各読み候補の読み頻度が得られる。
【0034】さらにまた、名前候補作成部304では、
この得られた読み頻度と作成した読み候補の文字位置別
の頻度とから、各読み候補の尤度が計算されて、その結
果、上位の読み候補が検索結果合成部303に与えられ
る。
【0035】式1:尤度=αΣlog(各単漢字の当該文字
位置別の頻度)+β(文字数の頻度)+γlog(読みの頻
度)+δ(音訓の連鎖度) 上記式1は、この尤度の計算式の例を示したものであ
る。式1の右辺において、第1項は、読み候補を構成す
る各単漢字の文字位置別の頻度に基づく尤度を求めるも
のであり、第2項は、読み候補の文字数の頻度に基づく
尤度を求めるものであり、第3項は、単漢字の組み合わ
せとは別に名前としての読みの頻度に基づく尤度を求め
るものであり、第4項は、読み候補を構成する各単漢字
の音訓の連鎖度に基づく尤度を求めるものである。ここ
で、第4項については、この第1の実施形態の場合、読
み候補を構成する各単漢字の音訓が同一であるときは連
鎖度が”1”であり、同一でないときは連鎖度が”0”
であるものとする。なお、α,β,γ,δは、各項に適
当に重みを与える定数である。
【0036】この式1に基づいて、上述した各読み候補
の尤度を計算すると、以下のようになる。
【0037】 「ユウ+コウ」:α(log4+log0)+2β+δ 「ユウ+アキ」:α(log4+log1)+2β 「ヒロ+コウ」:α(log2+log0)+2β 「ヒロ+アキ」:α(log2+log1)+2β+γ(log
2)+δ ここで、この第1の実施形態では、単漢字の組み合わせ
とは別に名前としての読みがあるということは、読みと
しての可能性が高いため、γの値は他の定数αやβやδ
に比べて大きく設定されているものとする。
【0038】すなわち、上記の計算結果としては、「ヒ
ロ+アキ」の尤度が相対的に大きくなり、「裕晃(ヒロ
アキ)」だけが検索結果合成部303に与えられること
になる。
【0039】検索結果合成部303では、単語格納部3
05から検索した「裕(固有名詞、ヒロシ)」等と共に
名前候補作成部304から与えられた「裕晃(固有名
詞、ヒロアキ)」とがまとめられて、形態素解析装置3
01に与えられる。
【0040】形態素解析装置301では、検索結果合成
部303から与えられた各単語が、最左部分語の候補と
して区別なく扱われ、「裕晃」が単語格納部305に登
録されているのと同じ解析結果が得られることになる。
【0041】また、入力文字列として「由紀夫」のよう
な3文字の名前が与えられた場合についても同様に、単
語格納部305に登録されているの同じ結果が得られ
る。
【0042】なお、名前以外の未知語については、検索
された単漢字を用いて、形態素解析装置301に備わっ
ている未知語処理により行われるものとする。
【0043】以上のように、この第1の実施形態の辞書
装置によれば、与えられた文字列から所定規則に基づい
て名前未知語となる文字列を切り出してその読み候補を
作成し、各読み候補の尤度を計算して上位読み候補を出
力するので、名前未知語を追加登録した場合と同じ効果
を得ることができ、名前未知語の切り出し及び読みの精
度が向上する。
【0044】また、この第1の実施形態の形態素解析処
理システムによれば、形態素解析装置を修正することな
く辞書装置を修正することで、名前未知語を追加登録し
た場合と同じ効果を得ることができるので、形態素解析
処理が繁雑なることを防止できる。
【0045】さらに、この第1の実施形態の形態素解析
処理システムによれば、別途単漢字記憶部等を設ける必
要がないので、簡単な構成で名前未知語の処理を行うこ
とができ、かつ、速い処理速度を維持することができ
る。
【0046】(B)第2の実施形態 以下、本発明による辞書装置を、形態素解析処理に適用
した第2の実施形態について、図面を参照しながら詳述
する。
【0047】図11は、この第2の実施形態の形態素解
析処理システムの構成を示す機能ブロック図である。す
なわち、第2の実施形態の形態素解析処理システムも、
実際上、入出力装置や処理装置や記憶装置等を有するワ
ークステーションやパソコン等の情報処理装置上に実現
されるものであるが、機能的には、図11に示す構成を
有するものである。
【0048】図11において、この形態素解析処理シス
テムは、形態素解析を行う形態素解析装置401と、通
常の単語辞書としての機能を備えた単語用辞書装置40
2と、通常の単漢字辞書としての機能の他に名前未知語
の解析機能を備えた単漢字用辞書装置405とからなる
構成を有する。
【0049】ここで、この第2の実施形態において、単
語用辞書装置402及び単漢字用辞書装置405が、本
発明による辞書装置の適用構成部分である。したがっ
て、以下、単語用辞書装置402及び単漢字用辞書装置
405の詳細構成について説明する。
【0050】図11において、単語用辞書装置402
は、単語格納部404の検索結果と名前候補作成部40
6が作成した名前未知語の候補とをまとめる検索結果合
成部403と、単語が格納されている単語格納部404
とからなる構成を有する。
【0051】また、図11において、単漢字用辞書装置
403は、名前未知語の候補を作成する名前候補作成部
406と、単漢字が格納され、名前として用いられた場
合の頻度が追加されている単漢字格納部407と、名前
の読みが格納されている読み格納部408と、名前未知
語を切り出すための規則が格納され、その規則に基づい
て文字列を作成する文字列作成規則格納部409とから
なる構成を有する。
【0052】図12は、単語格納部404の格納例を示
したものである。図12に示すように、単語格納部40
4に格納された単語には、上記第1の実施形態の単語格
納部305に格納された単語と同様に、通常の頻度が付
されている。
【0053】図13は、単漢字格納部407の格納例を
示したものである。図13に示すように、単漢字格納部
407に格納された単漢字にも、上記第1の実施形態の
単語格納部305に格納された単漢字と同様に、通常の
頻度の他に、名前として用いられた場合の頻度が付され
ている。この頻度は、名前として用いられた場合の文字
位置別に分かれて格納されている。
【0054】さらに、読み格納部408及び文字列作成
規則格納部409も、上記第1の実施形態の読み格納部
306及び文字列作成規則格納部307と同様に格納さ
れている。
【0055】次に、この第2の実施形態の形態素解析処
理システムの動作について、図面を参照しながら詳述す
る。
【0056】まず、形態素解析装置401に日本語文が
入力される。ここでは、入力文として「私の名前は、鈴
木裕晃です。」が入力された場合を例に、以下説明す
る。
【0057】形態素解析装置401では、入力文が与え
られると、入力文の各文字位置で、その文字から始まる
文字列の最左部分語が検索される。今、文字列「裕晃で
す。」の最左部分語が検索されるものとする。形態素解
析装置401では、この文字列「裕晃です。」が、辞書
装置402の検索結果合成部403に与えられる。
【0058】検索結果合成部403では、与えられた文
字列に基づいて単語格納部404が検索され、その結
果、「裕(固有名詞、ヒロシ)」、「裕(単漢字、ユ
ウ)」、「裕(単漢字、ヒロ)」が得られる。また、検
索結果合成部403では、名前未知語辞書装置405の
名前候補作成部406に候補作成指令が出される。
【0059】名前候補作成部406では、検索結果合成
部403からの候補作成指令を受けると、文字列作成規
則格納部409に文字列作成指令が出され、文字列作成
規則格納部409では、格納されている所定規則に基づ
いて、検索結果合成部403に与えられた文字列から名
前未知語の候補となる文字列が作成される。ここでは、
図10に示した規則2を用いて、「裕晃」という文字列
が作成され、この文字列が名前候補作成部406に与え
られる。
【0060】また、名前候補作成部406では、文字列
作成規則格納部409から文字列が与えられると、単漢
字格納部407に格納された単漢字が検索され、与えら
れた文字列の読み候補が作成される。ここでは、文字列
「裕晃」の読み候補として、「ヒロ+アキ」、「ヒロ+
コウ」、「ユウ+アキ」、「ユウ+コウ」という4つの
読み候補が作成される。
【0061】さらに、名前候補作成部406では、読み
候補が作成されると、名前読み格納部408が検索され
て、各読み候補の読み頻度が得られる。
【0062】さらにまた、名前候補作成部406では、
この得られた読み頻度と作成した読み候補の文字位置別
の頻度とから、各読み候補の尤度が計算されて、その結
果、上位の読み候補が検索結果合成部403に与えられ
る。ここで、この第2の実施形態の尤度の計算方法も、
上記第1の実施形態と同様とする。
【0063】すなわち、尤度計算の結果から、「ヒロ+
アキ」の尤度が相対的に大きくなり、「裕晃(ヒロア
キ)」だけが検索結果合成部403に与えられることに
なる。
【0064】検索結果合成部403では、単語格納部4
04から検索した「裕(固有名詞、ヒロシ)」等と共に
名前候補作成部406から与えられた「裕晃(固有名
詞、ヒロアキ)」とがまとめられて、形態素解析装置4
01に与えられる。
【0065】形態素解析装置401では、検索結果合成
部403から与えられた各単語が、最左部分語の候補と
して区別なく扱われ、「裕晃」が単語格納部404に登
録されているのと同じ解析結果が得られることになる。
【0066】また、入力テキスト中に「由紀夫」のよう
な3文字の名前が与えられた場合についても同様に、単
語格納部305に登録されているの同じ結果が得られ
る。
【0067】なお、名前以外の未知語については、検索
された単漢字を用いて、形態素解析装置301に備わっ
ている未知語処理により行われるものとする。
【0068】以上のように、この第2の実施形態の辞書
装置によれば、与えられた文字列から所定規則に基づい
て名前未知語となる文字列を切り出してその読み候補を
作成し、各読み候補の尤度を計算して上位読み候補を出
力するので、名前未知語を追加登録した場合と同じ効果
を得ることができ、名前未知語の切り出し及び読みの精
度が向上する。
【0069】また、この第2の実施形態の形態素解析処
理システムによれば、形態素解析装置を修正することな
く辞書装置を修正することで、名前未知語を追加登録し
た場合と同じ効果を得ることができるので、形態素解析
処理が繁雑なることを防止できる。
【0070】さらに、この第2の実施形態の形態素解析
処理システムによれば、単漢字格納部のみに名前未知語
の解析用の情報を付加し、単語格納部の内容については
変更が不必要であるので、変更が容易であり、かつ、記
憶容量の増加も最小限に抑えることができる。
【0071】(C)他の実施形態 上記各実施形態では、名前候補作成部において作成した
読み候補のうち上位候補のみを検索結果合成部に与える
ものを示したが、上位候補に限定することなく、尤度に
基づいて名前候補の一部を検索結果合成部に与えるもの
であっても良い。
【0072】また、上記各実施形態では、単漢字を組み
合わせて名前読み候補を作成するものを示したが、単語
格納部において単語にも名前として用いられた場合の文
字位置別の頻度を付して格納し、単漢字と単語とを組み
合わせて名前読み候補を作成するものであっても同様に
本発明に適用できる。この場合、尤度は、単語の文字位
置別の頻度も含めて計算されるものとする。
【0073】さらに、上記各実施形態では、名前未知語
を解析して読みを与えるものを示したが、他の品詞又は
他の種類の未知語(例えば、社会科学用語や自然科学用
語など)を解析して読み以外の未知語情報を与えるもの
であっても同様に本発明に適用できる。
【0074】さらにまた、上記各実施形態では、入力文
が日本語であるものを示したが、他の言語の入力文に対
しても同様に本発明に適用できる。
【0075】また、上記各実施形態では、漢字一文字を
見出しとした単漢字を格納したものを示したが、単漢字
を含む、アルファベット等の一文字を見出しとした単文
字について、必要な単文字情報を格納するものを適用す
れば、さらに詳細な情報を出力できるものになる。
【0076】
【発明の効果】以上のように、本発明によれば、与えら
れたテキスト中の文字列の先頭から所定規則に基づいて
未知語である可能性が高い文字列を抽出し、抽出した文
字列に基づき単文字情報を組み合わせて未知語情報の候
補を生成し、生成した未知語情報の候補それぞれについ
て文字位置別の出現頻度情報に基づき尤度を計算し、計
算した尤度に基づいて未知語情報の候補の一部を単語情
報と合わせて出力するので、未知語情報を単語情報格納
手段に追加格納した場合と同じ効果を得ることができ、
処理を繁雑にすることなく未知語情報の精度を向上する
ことができる。
【図面の簡単な説明】
【図1】第1の実施形態における形態素解析処理システ
ムの機能構成を示すブロック図である。
【図2】未知語検索方法を実現する第1の従来構成を示
すブロック図である。
【図3】単語用辞書装置102の格納例を示すイメージ
図である。
【図4】未知語検索方法を実現する第2の従来構成を示
すブロック図である。
【図5】単語用辞書装置202の格納例を示すイメージ
図である。
【図6】単漢字用辞書装置203の格納例を示すイメー
ジ図である。
【図7】名前未知語の解析結果の失敗例を示した図であ
る。
【図8】単語格納部305の格納例を示すイメージ図で
ある。
【図9】読み格納部306の格納例を示すイメージ図で
ある。
【図10】文字列作成規則格納部307の格納例を示す
イメージ図である。
【図11】第2の実施形態における形態素解析処理シス
テムの機能構成を示すブロック図である。
【図12】単語格納部404の格納例を示すイメージ図
である。
【図13】単漢字格納部407の格納例を示すイメージ
図である。
【符号の説明】
301…形態素解析装置、302…単語用辞書装置、3
03…検索結果合成部、304…名前候補作成部、30
5…単語格納部、306…読み格納部、307…文字列
作成規則格納部。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 単語情報を格納する単語情報格納手段を
    備え、与えられたテキスト中の文字列の先頭の単語情報
    の候補を出力する辞書装置において、 一文字を見出しとする単文字情報を、未知語に用いられ
    た場合の文字位置別の出現頻度情報と共に格納する単文
    字情報格納手段と、 与えられたテキスト中の文字列の先頭から、所定規則に
    基づいて未知語である可能性が高い文字列を抽出する文
    字列抽出手段と、 この文字列抽出手段が抽出した文字列に基づき、上記単
    文字情報格納手段に格納されている単文字情報を組み合
    わせて、未知語情報の候補を生成する候補生成手段と、 この候補生成手段が生成した未知語情報の候補それぞれ
    について、上記単文字情報格納手段に格納された文字位
    置別の出現頻度情報に少なくとも基づき、尤度を計算す
    る尤度計算手段と、 この尤度計算手段が計算した尤度に基づいて、上記候補
    生成手段が生成した未知語情報の候補の一部を、上記単
    語情報格納手段の単語情報と合わせて出力する合成出力
    手段とを有することを特徴とする辞書装置。
  2. 【請求項2】 未知語情報を、その出現頻度情報と共に
    格納する未知語情報格納手段を有し、 上記尤度計算手段は、上記未知語情報格納手段に格納さ
    れた出現頻度情報にも基づいて尤度を計算することを特
    徴とする請求項1に記載の辞書装置。
  3. 【請求項3】 上記単語情報格納手段は、単語が未知語
    に用いられた場合の文字位置別の出現頻度情報を格納
    し、 上記候補生成手段は、上記文字列抽出手段が抽出した文
    字列に基づき、上記単語情報格納手段に格納された単語
    情報と上記単文字情報格納手段に格納された単文字情報
    とを組み合わせて、未知語情報の候補を生成し、 上記尤度計算手段は、上記単語情報格納手段に格納され
    た文字位置別の出現頻度情報にも基づいて尤度を計算す
    ることを特徴とする請求項1又は2に記載の辞書装置。
  4. 【請求項4】 上記単語情報格納手段と上記単文字情報
    格納手段とが融合して構成されていることを特徴とする
    請求項1〜3のいずれかに記載の辞書装置。
  5. 【請求項5】 上記未知語が、人の名前であることを特
    徴とする請求項1〜4のいずれかに記載の辞書装置。
JP10024202A 1998-02-05 1998-02-05 辞書装置 Pending JPH11224250A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10024202A JPH11224250A (ja) 1998-02-05 1998-02-05 辞書装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10024202A JPH11224250A (ja) 1998-02-05 1998-02-05 辞書装置

Publications (1)

Publication Number Publication Date
JPH11224250A true JPH11224250A (ja) 1999-08-17

Family

ID=12131740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10024202A Pending JPH11224250A (ja) 1998-02-05 1998-02-05 辞書装置

Country Status (1)

Country Link
JP (1) JPH11224250A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007171275A (ja) * 2005-12-19 2007-07-05 Canon Inc 言語処理装置及び現後処理方法
JP2014164403A (ja) * 2013-02-22 2014-09-08 Nippon Hoso Kyokai <Nhk> 読みがな割当装置およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007171275A (ja) * 2005-12-19 2007-07-05 Canon Inc 言語処理装置及び現後処理方法
JP2014164403A (ja) * 2013-02-22 2014-09-08 Nippon Hoso Kyokai <Nhk> 読みがな割当装置およびプログラム

Similar Documents

Publication Publication Date Title
US20070179779A1 (en) Language information translating device and method
JP2004355204A (ja) 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム
JP2004246440A (ja) 形態素解析装置、自然言語処理装置、形態素解析方法及びプログラム
JP4018668B2 (ja) 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JPH06282290A (ja) 自然言語処理装置およびその方法
JPH11224250A (ja) 辞書装置
JP3371761B2 (ja) 氏名読み音声合成装置
JPH07262191A (ja) 単語分割方法、および音声合成装置
JPH11338863A (ja) 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体
JPH08185197A (ja) 日本語解析装置、及び日本語テキスト音声合成装置
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
KR0180650B1 (ko) 음성합성기의 한국어 문장분석방법
JPH06290209A (ja) 文切り装置
JP2003005776A (ja) 音声合成装置
JP2801601B2 (ja) テキスト音声合成装置
JPH07306696A (ja) 音声合成用韻律情報決定方法
JPH09152883A (ja) アクセント句分割位置検出方法及びテキスト音声変換装置
JPH0668070A (ja) 複合語辞書登録装置
JPH11282839A (ja) 機械翻訳システム及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3244286B2 (ja) 翻訳処理装置
JPH11327871A (ja) 音声合成装置
JPH11249866A (ja) 音声合成装置及び記録媒体
JP3143906B2 (ja) 未知語の存在の判定装置
JPH09281993A (ja) 発音記号生成装置
JP3907106B2 (ja) 翻訳ルール作成装置およびプログラム