JP2001184345A - 言語処理装置 - Google Patents

言語処理装置

Info

Publication number
JP2001184345A
JP2001184345A JP36662699A JP36662699A JP2001184345A JP 2001184345 A JP2001184345 A JP 2001184345A JP 36662699 A JP36662699 A JP 36662699A JP 36662699 A JP36662699 A JP 36662699A JP 2001184345 A JP2001184345 A JP 2001184345A
Authority
JP
Japan
Prior art keywords
word
reading
kanji
evidence
target word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP36662699A
Other languages
English (en)
Inventor
Yoshiyuki Umemura
祥之 梅村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Central R&D Labs Inc
Original Assignee
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Central R&D Labs Inc filed Critical Toyota Central R&D Labs Inc
Priority to JP36662699A priority Critical patent/JP2001184345A/ja
Publication of JP2001184345A publication Critical patent/JP2001184345A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 漢字かな混じり文中に現れる、複数の読みを
有する漢字の読みを適切に読み分ける。 【解決手段】 漢字かな混じり文について、読み分けの
対象語を抽出して(ステップ100)、対象語の読みが
複数ある場合(ステップ102乃至106)、読み分け
辞書に記憶されている複合化が可能であることを表す複
合化情報に対する読みの対応を証拠として含んだ読みの
優先順位のリストである決定リストを参照して(ステッ
プ108)、読みを順に特定し(ステップ110乃至1
16)、全て適切に読み分け(ステップ118、12
0)、出力する(ステップ122)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、言語処理装置に係
り、特に、漢字かな混じり文中に現れる漢字の読みを読
み分ける言語処理装置に関する。
【0002】
【従来の技術】通常の文章は、漢字かな混じり文であ
り、漢字かな混じり文の漢字には複数の読みを有するも
のが多数存在する。従って、漢字かな混じり文を解析す
る場合、漢字の読みを適切に選択しなければならない。
【0003】ところが、品詞や文法情報から、適切な読
みを選択することはできるものもあるが、中には品詞や
文法情報のみでは選択できない場合も多くある。
【0004】このため、隣接する単語をまとめた複合語
を辞書に登録したり、文中に共起した1または複数の共
起語(その文中に共に存在する語)による読みを共起辞
書として登録したりしていた。例えば、自立語の共起関
係による制約だけでなく、附属語を含めた制約を記述し
た慣用表現辞書を用いて、漢字かな混じり文中の漢字を
読み分ける技術が提案されている(特開平6−2898
90号公報参照)。
【0005】この技術では、共起語及び慣用表現を扱っ
ているが、読み分けのために有効な文脈中の情報は、そ
の他にもいろいろとあり、それらを組み合わせることに
よって性能の向上が可能である。一例として、文献「李
航、竹内純一:Using Evidence that is both Strong a
nd Reliable in Japanese Homograph Disambiguation、
情報処理学会自然言語処理研究会資料、97−NL119
(1997)」の技術が知られている。この技術では、
文脈中に現れる読み分けのための証拠として、 読み分け対象の形態素の品詞、 読み分け対象の形態素の直前の1文字、 読み分け対象の形態素の直後の1文字、 読み分け対象の形態素の直前の品詞、 読み分け対象の形態素の直後の品詞、 読み分け対象の形態素の直前の形態素、 読み分け対象の形態素の直後の形態素、 読み分け対象の形態素の近傍の自立語、 の8種を用いている。
【0006】また、日本語の文章では、漢字の読みとし
て、音読みと訓読みを判定するという戦略がかなり有効
であることが予想される。これを利用した技術として、
文献「梅村祥之、清水司:決定リストによる同形異音語
の読み分け、言語処理学会第4回年次大会発表論文集、
pp158−161(1998)」が知られている。こ
の技術では、文中に、漢字が単独で現れれば訓読みと
し、接尾語か複合語の要素なら音読みとするという判定
ルールに従って読み分けている。
【0007】
【発明が解決しようとする課題】しかしながら、従来の
技術による読みの選択でも、適切な読みを特定できない
漢字が多数存在する。
【0008】例えば、次の3例は、音訓判定では読み分
けできない例である。「畑」には、「はた」と「はた
け」の読みが存在するが、ともに訓読みである。
「家」における、「か」と「け」の読みは、ともに音読
みである。「仏」を「フランス」と「ほとけ」に読み
分ける場合も、音訓という枠組みを越えている。
【0009】本発明は、上記事実を考慮し、漢字かな混
じり文中に現れる漢字の読みを適切に読み分けることが
できる言語処理装置を得ることが目的である。
【0010】
【課題を解決するための手段】本発明は、漢字かな混じ
り文を、少なくとも品詞を含む属性情報が付与された単
語に分類し、該単語を対象語として順次、前記漢字かな
混じり文に含まれる対象語の読みを読み分ける言語処理
装置において、少なくとも漢字と前記漢字の読みとの対
応を含み、複数の読みを有する漢字の読みを特定するた
めの証拠として、前記属性情報及び他の単語との関連を
表す関連情報の少なくとも一方に基づき表される複合化
情報と、漢字の読みとの対応を、予め求め記憶した記憶
手段と、前記対象語が前記複合化情報に該当することを
判定すると共に、判定結果及び前記記憶手段に記憶され
た対応に基づいて、前記対象語の読みを特定する解析手
段と、を備えている。
【0011】本発明の言語処理装置では、漢字かな混じ
り文を、少なくとも品詞を含む属性情報が付与された単
語に分類し、単語を対象語として、順次、対象語の読み
を選択すなわち読み分ける。この読みは、記憶手段に記
憶されている。すなわち、記憶手段は、漢字とその読み
と対応されて記憶される。また記憶手段は、複合化情報
と読みとの対応も記憶されている。複合化情報は、属性
情報、及び他の単語との関連を表す関連情報の少なくと
も一方に基づき表される。関連情報は、対象語の直前直
後の単語の品詞を含む属性情報を表しており、複合化情
報は、対象語の属性情報、他の単語の属性情報、及びそ
れらの組合せにより表され、複合語化の可能性を表すも
のである。この複合化情報と読みとの対応は、複数読み
を有する漢字の読みを特定するための証拠として解析手
段で用いられる。解析手段は、対象語から複合化情報に
該当することを判定する。すなわち、対象語が複合化の
可能性があるか否かを判定する。可能性があると判定さ
れたとき、記憶手段に記憶された対応すなわち証拠によ
り対象語の読みを特定する。従って、複数読みがある漢
字について、その複合化の可能性から読み分けることが
できる。
【0012】前記記憶手段は、予め定めた複数の漢字か
な混じり文を用いて前記漢字を含む単語について、前記
複合化情報と読みとの対応を求めることができる。
【0013】記憶手段に予め記憶される対応は、より確
度よく読み分けることを可能とするため、より多くの読
みについて対応を求めておく必要がある。そこで、予め
定めた複数の文、すなわち、漢字を含む単語について、
複合化情報と読みとの対応を求めておけば、漢字に対す
る適切な読みをより多く選択することができる。
【0014】また、前記解析手段は、前記対象語の品詞
に基づいて複合化情報に該当することを判定することが
できる。
【0015】文中の対象語は、その位置関係から形態
(品詞)が異なることがある。そこで、対象語の品詞に
よって、その品詞から複合化可能であることを判定する
ことができる。例えば、接頭語や接尾語は隣接した単語
との複合化が可能である。従って、対象語の品詞から複
合化情報に該当することを容易に判定できる。
【0016】対象語は、その前後関係からより明確にな
る場合がある。このため、前記解析手段は、前記対象語
の直前の単語、前記対象語の直後の単語、及び前記対象
語の直前直後の少なくとも1つの単語の品詞に基づいて
複合化情報に該当することをさらに判定することが好ま
しい。
【0017】すなわち、対象語は、対象語の直前の単語
や前記対象語の直後の単語または双方の単語の品詞によ
り、それらが複合化が可能かを判定できる。例えば、対
象語が名詞である場合に、対象語と対象語の直前の単語
や前記対象語の直後の単語または双方の単語の品詞が名
詞であるときは複合化が可能である場合が多い。従っ
て、対象語が複合化情報に該当することを容易に判定で
きる。
【0018】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。本実施の形態は、音声合成
処理装置に本発明を適用したものである。
【0019】図2に示すように、本実施の形態に係る音
声合成処理装置10は、装置本体20を備えている。装
置本体20は、CPU21、ROM22、RAM23、
入出力ポート(I/O)25からなるマイクロコンピュ
ータで構成され、各々はコマンドやデータの授受が可能
なようにバス26によって接続されている。また、入出
力ポート25にはバス27により辞書24が接続されて
おり、CPU21、ROM22、RAM23によるアク
セスが可能な構成とされている。なお、ROM22に
は、装置本体20において実行される後述する処理ルー
チンが記憶されている。
【0020】装置本体20の入出力ポート25には、コ
マンドやデータを入力するためのキーボード等の入力装
置30が接続されると共に、入力したコマンドやデータ
等の入力情報や処理状況の表示をするための表示装置3
2が接続されている。また、入出力ポート25には、音
声を出力するための音声出力装置34が接続されてい
る。
【0021】なお、入出力ポート25には、大容量記憶
装置であるハードディスクユニットを接続してもよい。
この場合、後述する処理ルーチン等の処理プログラム
を、ハードディスクユニットへ格納(インストール)し
て実行するようにしてもよい。
【0022】図3は、上記構成をハードウェア資源とす
ると共に後述する処理ルーチン等をソフトウェア資源と
し、入力された文を読み分ける処理について、機能的に
ブロックとして示したものである。
【0023】図3に示すように、本発明の実施の形態に
係る音声合成処理装置10は、入力部40、形態素解析
部50、解析処理部60、音声合成処理部70、音声出
力部80、決定リスト(詳細は後述)を記憶した読み分
け辞書64、及び単語辞書62に、機能的に分類でき
る。単語辞書62、読み分け辞書64は、本発明の記憶
手段に対応し、解析処理部60は本発明の解析手段に対
応する。
【0024】入力部40は、漢字かな混じり文を入力す
るためのものであり、ここでは、漢字かな混じり文のデ
ータが記憶されるメモリや、その文のデータを出力する
他のコンピュータ、入力装置30がある。形態素解析部
50は、入力された文を形態素に分解して出力するため
のものである。形態素解析部50は、漢字かな混じり文
に対応した形態素列と、各形態素の品詞を付加して出力
する。形態素とは、その文を構成している語であり、意
味をもつ最小言語単位である。
【0025】上記辞書24は単語辞書62及び読み分け
辞書64が含まれており、単語辞書62には単語の読み
やアクセント等の情報が記憶され、読み分け辞書64に
は同形異音語の読み分けに用いる決定リストが記憶され
ている。この決定リストについての詳細は後述するが簡
単に説明すると、適切な読みを選択するための複数の証
拠と読みとの対応が所定の順序で並べられたものであ
る。解析処理部60は、読み分け辞書64及び単語辞書
62に記憶されているデータを参照し、入力された文を
解析して、適切な読みを含んだ解析データとして出力す
るためのものである。音声合成処理部70は、入力され
た解析データを音声データに変換するためのものであ
り、この音声データは音声出力部80により音声として
出力される。
【0026】次に、本実施の形態の読み分け辞書64に
記憶される決定リストについて説明する。ここでは、同
形異音語の一例として“今日”を用いて説明する。ま
ず、“今日”の語を含んだ多数の文例を用意して、形態
素解析を行い、各形態素と品詞名との関係を得る。次
に、各文の同形異音語の正しい読みを調査し、文例とそ
の文中に現れる同形異音語の正しい読みとの対応を設定
する。この結果を学習データとして図5に示した。
【0027】同形異音語の読みを決定するには根拠があ
る。この根拠は複数に分類でき、各々を証拠として捉え
ることができる。本実施の形態では、複合化可能性、共
起語、直前の1文字、直後の1文字、直前の語、直後の
語、直前の語の品詞、直後の語の品詞、の8種類を証拠
としている。
【0028】「共起語」は、対象語を含む文中に現れ、
その対象語の前後数語(例えば、5語乃至10語)の範
囲に含まれる自立語をいい、この自立語が現れたときに
対象語の読みが定まることを根拠とした証拠である。
【0029】「直前の1文字」は、対象語の直前にある
1文字をいい、その1文字に連携して、対象語の読みが
定まることを根拠とした証拠である。また、「直後の1
文字」は、対象語の直後にある1文字をいい、その1文
字に連携して、対象語の読みが定まることを根拠とした
証拠である。
【0030】「直前の語」は、対象語の直前に現れる語
すなわち形態素の単語をいい、その単語に連携して、対
象語の読みが定まることを根拠とした証拠である。ま
た、「直後の語」は、対象語の直後に現れる語すなわち
形態素の単語をいい、その単語に連携して、対象語の読
みが定まることを根拠とした証拠である。
【0031】「直前の語の品詞」は、対象語の直前に現
れる語すなわち形態素の単語の品詞をいい、その品詞に
連携して、対象語の読みが定まることを根拠とした証拠
である。また、「直後の語の品詞」は、対象語の直後に
現れる語すなわち形態素の単語の品詞をいい、その品詞
に連携して、対象語の読みが定まることを根拠とした証
拠である。
【0032】「複合化可能性」は、対象語が複合可能で
あるか否かを表すものであり、複合可能であることに連
携して読みが定まることを根拠とした証拠である。この
証拠としての複合化可能性についてさらに説明する。複
合化可能性は、図6に示す処理ルーチンによって判定さ
れる。
【0033】まず、ステップ200では、文中に現れた
同形異音語である対象語の品詞を調べる。次のステップ
202では、対象語の品詞が接辞であるか否かを判定す
る。この接辞は、接頭語及び接尾語を指すものである。
対象語の品詞が接辞の場合、ステップ202で肯定さ
れ、ステップ214へ進み、複合可能と判定され処理ル
ーチンを終了する。一方、ステップ202で否定された
場合には、ステップ203に進み、読み分け対象語が名
詞かどうかを調べ、名詞でない場合、ステップ212へ
進む。一方、名詞の場合、ステップ204へ進む。ステ
ップ204では、対象語の直前にある形態素の品詞を調
べる。次のステップ206では、対象語の直前にある形
態素の品詞が名詞か否かを判断し、肯定判断の場合に
は、ステップ214へ進む。一方、対象語の直前にある
形態素の品詞が名詞でないならば、ステップ206で否
定され、次のステップ208において対象語の直後にあ
る形態素の品詞を調べる。次のステップ210では、対
象語の直後にある形態素の品詞が名詞か否かを判断し、
肯定判断の場合には、ステップ214へ進む。一方、対
象語の直後にある形態素の品詞が名詞でない場合、ステ
ップ210で否定され、ステップ212において、この
対象語は複合不能と判定され、処理ルーチンを終了す
る。
【0034】このように本実施の形態では、対象語が接
辞、あるいは対象語及び直前又は直後の語が名詞である
ときに複合化可能と判定している。
【0035】次に、決定リスト作成のために、学習デー
タ中の各文に対して、上記の各証拠が該当するかを調査
する。証拠が該当する場合は、その証拠の内容とそのと
きの読みとの対応を求める。そして、学習データ中の全
文について、その対応が該当する回数(以下、頻度数と
いう。)を求める。8種類全ての証拠についてその証拠
の内容ごとに、この処理を行う。これにより、例えば
「共起語」の場合、図7に示すように、その証拠の内容
(ここでは、“変化”、“明日”、“日程”である。)
に対応する読みの頻度数を求めることができる。結果と
して各証拠について、証拠の内容と読みと頻度数との対
応を得ることができる。
【0036】次に、これらの対応を、優先度の高い順に
並べる。すなわち、各証拠について、内容と読みとの対
応を、優先度順に並べる。この優先度は、尤度比あるい
は対数尤度比を求めて、優先順位を決定してもよい。こ
の対数尤度比による方法では、各対応について条件付確
率を求め、その条件付確率を用いて、条件付確率間の比
である対数尤度比を求め、求めた対数尤度比の大きい順
に対応を並べる。この方法の詳細は、西岡山氏らによる
「コーパスからの日本語従属節係り受け選好情報の抽
出、電気情報通信学会、信学技報NLC98−11(19
98)」の文献にも述べられている。
【0037】このようにして、8種類の全ての証拠につ
いて、対数尤度比の大きい対応から順に並べたリストを
図8に示した。最終行には、読みの初期値(デフォル
ト)を付与する。この初期値は、一般に定まっている対
応を、設定してもよく、また、確率が最も高い対応を設
定してもよい。このようにして得た、決定リストを、図
に示した。図9の例では、「金」についての読み「か
ね」「きん」の対応についての決定リストを示した。こ
の決定リストは、読み分け辞書64に記憶される。
【0038】次に、本実施の形態の作用について説明す
る。
【0039】まず、入力部40において、音声合成処理
の対象となる漢字かな混じり文(図4(A)参照)が入
力され、次の形態素解析部50において、入力文が、品
詞名が付与された形態素に分割される(図4(B)参
照)。
【0040】次に、解析処理部60では、上述の決定リ
ストを参照して入力文中の対象語の読み分けをするため
に、図1に示す処理ルーチンが実行される。まず、ステ
ップ100では、入力文を取り込み、文中の各形態素を
対象語として抽出する。本実施の形態では、全対象語の
個数をm個とする。次のステップ102では、変数jを
用いて、抽出した全対象語でj個目の対象語を対象語j
として表し、処理対象の対象語jを設定する。なお、初
期値として変数jには1を設定する。
【0041】次のステップ104では、単語辞書62を
参照し、対象語jの読みを調べる。次のステップ106
では、対象語jの読みが一つのみであるか否かを判断
し、肯定判断の場合には後述するステップ118へ進
む。対象語jの読みが複数ある場合には、ステップ10
6で否定され、ステップ108へ進む。ステップ108
では、決定リストの参照すべき順位を表わす変数iに1
を設定する。次のステップ110では、現在順位の証拠
が入力文に一致するかを判定する決定リスト判定処理
(詳細は後述)を実行する。次のステップ112では、
ステップ110の判定結果が証拠一致であるか否かを判
断する。証拠が入力文に一致した場合、ステップ112
で肯定され、後述するステップ118へ進む。
【0042】一方、証拠が不一致であった場合、上記ス
テップ112で否定され、ステップ114へ進む。ステ
ップ114では、参照している証拠の順位が最下位であ
るか否かを判定(i=n)することにより全証拠の参照
が終了したか否かを判断する。ステップ114で否定さ
れた場合、残存する証拠があるので、ステップ124に
おいて、変数iをインクリメントして、上記ステップ1
10へ戻る。
【0043】一方、ステップ114で肯定された場合、
入力文には決定リストに該当する証拠がないので、ステ
ップ116へ進み、デフォルト処理を実行する。このデ
フォルト処理では、変数iをインクリメントすることに
より、決定リストの最後に付加したデフォルトに対応す
る読みを選択する。これにより、該当する証拠が存在し
ないときには初期値の読みを得ることができる。
【0044】次のステップ118では、得られた対象語
jの読みを記憶保持して、ステップ120へ進み、全て
の対象語の読みを求めた(j=m)か否かを判断する。
ステップ120で否定された場合、残存する対象語があ
るので、ステップ126において、変数jをインクリメ
ントして、上記ステップ102へ戻る。
【0045】一方、ステップ120で肯定された場合、
全ての対象語の読みを求めて記憶したことになるので、
ステップ122へ進み、全ての対象語の読みと単語辞書
62に記憶されているアクセント等の情報とを含んだ解
析データを作成して、音声合成処理部70へ出力し、処
理ルーチンを終了する。
【0046】音声合成処理部70では、入力された解析
データに基づいて、音声を合成し、音声出力部80にお
いて合成音声を出力する。
【0047】ここで、図1のステップ110の決定リス
ト判定処理を詳細に説明する。ステップ110では、図
10に示す処理ルーチンを実行する。
【0048】まず、ステップ300では、変数iの順位
の証拠が、決定リスト上から抽出される。次のステップ
302では、抽出された証拠の種類が「共起語」である
か否かを判断し、否定判断の場合にはステップ304へ
進む。一方、ステップ302で肯定判断の場合には、ス
テップ320に進み、現在順位の証拠の内容である共起
語が入力文に含まれているか否かを判定することで証拠
の内容が一致するか否かを判断する。証拠の内容が一致
する場合には、ステップ320で肯定され、ステップ3
38へ進み、証拠一致と判定して本ルーチンを終了す
る。一方、証拠の内容が一致しない場合には、ステップ
320で否定され、ステップ318へ進み、証拠不一致
と判定して本ルーチンを終了する。
【0049】ステップ304では、証拠の種類が「複合
化可能性」であるか否かを判断し、否定判断の場合には
ステップ306へ進む。一方、ステップ304で肯定判
断の場合には、ステップ322へ進む。ステップ322
では、現在の処理対象の対象語に対して、上述した複合
化可能性判定処理(図6に示す処理ルーチンである。)
を実行して、対象語の複合化可能性を判定し、ステップ
324へ進む。ステップ324では、判定結果が複合可
能である場合、現在順位の証拠の内容と一致することに
なり、肯定判断され、ステップ338へ進み、証拠一致
と判定して本ルーチンを終了する。一方、判定結果が複
合可能でない場合には、ステップ324で否定され、ス
テップ318へ進み、証拠不一致と判定して本ルーチン
を終了する。
【0050】ステップ306では、証拠の種類が「直前
の1文字」であるか否かを判断し、否定判断の場合には
ステップ308へ進む。一方、ステップ306で肯定判
断の場合には、ステップ326へ進み、現在順位の証拠
の内容である1文字が入力文に含まれている対象語の直
前にある1文字であるか否かを判定することで証拠の内
容が一致するか否かを判断する。証拠の内容が一致する
場合には、ステップ326で肯定され、ステップ338
へ進み、証拠一致と判定して本ルーチンを終了する。一
方、証拠の内容が一致しない場合には、ステップ326
で否定され、ステップ318へ進み、証拠不一致と判定
して本ルーチンを終了する。
【0051】ステップ308では、証拠の種類が「直後
の1文字」であるか否かを判断し、否定判断の場合には
ステップ310へ進む。一方、ステップ308で肯定判
断の場合には、ステップ328へ進み、現在順位の証拠
の内容である1文字が入力文に含まれている対象語の直
後にある1文字であるか否かを判定することで証拠の内
容が一致するか否かを判断する。証拠の内容が一致する
場合には、ステップ328で肯定され、ステップ338
へ進み、証拠一致と判定して本ルーチンを終了する。一
方、証拠の内容が一致しない場合、ステップ328で否
定され、ステップ318へ進み、証拠不一致と判定して
本ルーチンを終了する。
【0052】ステップ310では、証拠の種類が「直前
の語」であるか否かを判断し、否定判断の場合にはステ
ップ312へ進む。一方、ステップ310で肯定判断の
場合には、ステップ330へ進み、現在順位の証拠の内
容である語が入力文に含まれている対象語の直前にある
語であるか否かを判定することで証拠の内容が一致する
か否かを判断する。証拠の内容が一致する場合には、ス
テップ330で肯定され、ステップ338へ進み、証拠
一致と判定して本ルーチンを終了する。一方、証拠の内
容が一致しない場合、ステップ330で否定され、ステ
ップ318へ進み、証拠不一致と判定して本ルーチンを
終了する。
【0053】ステップ312では、証拠の種類が「直後
の語」であるか否かを判断し、否定判断の場合にはステ
ップ314へ進む。一方、ステップ312で肯定判断の
場合には、ステップ332へ進み、現在順位の証拠の内
容である語が入力文に含まれている対象語の直後にある
語であるか否かを判定することで証拠の内容が一致する
か否かを判断する。証拠の内容が一致する場合には、ス
テップ332で肯定され、ステップ338へ進み、証拠
一致と判定して本ルーチンを終了する。一方、証拠の内
容が一致しない場合、ステップ332で否定され、ステ
ップ318へ進み、証拠不一致と判定して本ルーチンを
終了する。
【0054】ステップ314では、証拠の種類が「直前
の語の品詞」であるか否かを判断し、否定判断の場合に
はステップ316へ進む。一方、ステップ314で肯定
判断の場合には、ステップ334へ進み、現在順位の証
拠の内容である品詞が入力文に含まれている対象語の直
前にある語の品詞であるか否かを判定することで証拠の
内容が一致するか否かを判断する。証拠の内容が一致す
る場合、ステップ334で肯定され、ステップ338へ
進み、証拠一致と判定して本ルーチンを終了する。一
方、証拠の内容が一致しない場合、ステップ334で否
定され、ステップ318へ進み、証拠不一致と判定して
本ルーチンを終了する。
【0055】ステップ316では、証拠の種類が「直後
の語の品詞」であるか否かを判断し、否定判断の場合に
はステップ318へ進み、証拠不一致と判定して本ルー
チンを終了する。一方、ステップ316で肯定判断の場
合には、ステップ336へ進み、現在順位の証拠の内容
である品詞が入力文に含まれている対象語の直後にある
語の品詞であるか否かを判定することで証拠の内容が一
致するか否かを判断する。証拠の内容が一致する場合に
は、ステップ336で肯定され、ステップ338へ進
み、証拠一致と判定して本ルーチンを終了する。
【0056】以上説明したように、本実施の形態に係る
音声合成処理装置10では、複合化可能性等の複数の証
拠に基づく決定リストを用いているので、入力文中に現
れる同形異音語の読みを適切に読み分け、音声出力でき
る。
【0057】なお、決定リストを構築する際、可能な限
り多数の文例を用いて作成した学習データを用いること
で、決定リストの読み分け精度は格段に向上する。
【0058】なお、本実施の形態では、読みを2種類の
み持つ同形異音語についての例を取り上げたが、本発明
は、3種以上の読みを持つ同形異音語についても、容易
に適用可能である。
【0059】なお、本実施の形態では、本発明を音声合
成処理に適用したものであるが、本発明は、これに限定
されるものではなく、漢字の読みを読み分けて、その読
みを使用する他の装置に適用可能である。
【0060】
【発明の効果】以上説明したように本発明によれば、複
数の漢字かな混じり文について、漢字についての複合化
情報を用いて複数の読みを有する漢字の読みを特定する
ようにしたので、漢字かな混じり文中に現れる漢字の読
みを適切に読み分けることができる、という優れた効果
を有する。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声合成処理装置に
含まれる解析処理部の処理の流れを示すフローチャート
である。
【図2】本発明の実施の形態に係る音声合成処理装置の
概略構成図である。
【図3】音声合成処理装置を機能的なブロックに分類し
た構成を示す概略図である。
【図4】(A)は入力文を説明するための説明図であ
り、(B)は形態素解析処理結果を説明するための説明
図である。
【図5】学習データの一例を示すための概念図である。
【図6】複合化可能性判定処理の流れを示すフローチャ
ートである。
【図7】学習データ中の共起語に関する読み分けを説明
するための説明図である。
【図8】漢字と読みとの対応を優先度順で並べた結果を
示す概念図である。
【図9】決定リストの一例を示す概念図である。
【図10】決定リスト判定処理の流れを示すフローチャ
ートである。
【符号の説明】
50 形態素解析部 60 解析処理部 62 単語辞書 64 読み分け辞書 70 音声合成処理部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 漢字かな混じり文を、少なくとも品詞を
    含む属性情報が付与された単語に分類し、該単語を対象
    語として順次、前記漢字かな混じり文に含まれる対象語
    の読みを読み分ける言語処理装置において、 少なくとも漢字と前記漢字の読みとの対応を含み、複数
    の読みを有する漢字の読みを特定するための証拠とし
    て、前記属性情報及び他の単語との関連を表す関連情報
    の少なくとも一方に基づき表される複合化情報と、漢字
    の読みとの対応を、予め求め記憶した記憶手段と、 前記対象語が前記複合化情報に該当することを判定する
    と共に、判定結果及び前記記憶手段に記憶された対応に
    基づいて、前記対象語の読みを特定する解析手段と、を
    備えた言語処理装置。
  2. 【請求項2】 前記記憶手段は、予め定めた複数の漢字
    かな混じり文を用いて前記漢字を含む単語について、前
    記複合化情報と読みとの対応を求めることを特徴とする
    請求項1に記載の言語処理装置。
  3. 【請求項3】 前記解析手段は、前記対象語の品詞に基
    づいて複合化情報に該当することを判定することを特徴
    とする請求項1又は2に記載の言語処理装置。
  4. 【請求項4】 前記解析手段は、前記対象語の直前の単
    語、前記対象語の直後の単語、及び前記対象語の直前直
    後の少なくとも1つの単語の品詞に基づいて複合化情報
    に該当することをさらに判定することを特徴とする請求
    項3に記載の言語処理装置。
JP36662699A 1999-12-24 1999-12-24 言語処理装置 Pending JP2001184345A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP36662699A JP2001184345A (ja) 1999-12-24 1999-12-24 言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP36662699A JP2001184345A (ja) 1999-12-24 1999-12-24 言語処理装置

Publications (1)

Publication Number Publication Date
JP2001184345A true JP2001184345A (ja) 2001-07-06

Family

ID=18487249

Family Applications (1)

Application Number Title Priority Date Filing Date
JP36662699A Pending JP2001184345A (ja) 1999-12-24 1999-12-24 言語処理装置

Country Status (1)

Country Link
JP (1) JP2001184345A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242183A (ja) * 2004-02-27 2005-09-08 Toshiba Corp 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム
JP2014197117A (ja) * 2013-03-29 2014-10-16 富士通株式会社 音声合成装置及び言語辞書登録方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242183A (ja) * 2004-02-27 2005-09-08 Toshiba Corp 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム
JP2014197117A (ja) * 2013-03-29 2014-10-16 富士通株式会社 音声合成装置及び言語辞書登録方法

Similar Documents

Publication Publication Date Title
US7873508B2 (en) Apparatus, method, and computer program product for supporting communication through translation between languages
EP0180888A2 (en) Method and apparatus for natural language processing
EP0262938A1 (en) Language translation system
JPH096787A (ja) 訳振り機械翻訳装置
US20010029443A1 (en) Machine translation system, machine translation method, and storage medium storing program for executing machine translation method
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
JP2002149643A (ja) 日本語の表意文字の読み方を予測する方法
JP3441400B2 (ja) 言語変換規則作成装置、及びプログラム記録媒体
JP2001184345A (ja) 言語処理装置
JP3326646B2 (ja) 機械翻訳システム用辞書・ルール学習装置
JPS6180362A (ja) 翻訳装置
Souter et al. Using Parsed Corpora: A review of current practice
CN117094329B (zh) 一种用于解决语音歧义的语音翻译方法及装置
JPH11338498A (ja) 音声合成装置
JPH08185197A (ja) 日本語解析装置、及び日本語テキスト音声合成装置
JP3197110B2 (ja) 自然言語解析装置および機械翻訳装置
KR0180650B1 (ko) 음성합성기의 한국어 문장분석방법
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JPH09288494A (ja) 音声認識装置および音声認識方法
JPH09281993A (ja) 発音記号生成装置
JPH0350668A (ja) 文字処理装置
JPH0612449A (ja) 機械翻訳装置及びその方法
JP2004326584A (ja) 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム
JP2000214881A (ja) 音声認識言語モデル生成装置及び音声認識言語モデル生成方法
JPH07121537A (ja) 文書処理装置及びその方法