JPH10240726A - 自然言語処理装置 - Google Patents

自然言語処理装置

Info

Publication number
JPH10240726A
JPH10240726A JP9061896A JP6189697A JPH10240726A JP H10240726 A JPH10240726 A JP H10240726A JP 9061896 A JP9061896 A JP 9061896A JP 6189697 A JP6189697 A JP 6189697A JP H10240726 A JPH10240726 A JP H10240726A
Authority
JP
Japan
Prior art keywords
reading
kanji
dictionary
morphological analysis
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9061896A
Other languages
English (en)
Inventor
Keiko Inagaki
敬子 稲垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9061896A priority Critical patent/JPH10240726A/ja
Publication of JPH10240726A publication Critical patent/JPH10240726A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】形態素解析部で未登録語と判定される語を全て
辞書に追加したり、辞書に登録されている単漢字の読み
を変更したりすることなく、隣接する漢字の読みから単
漢字の読みを推定し、未登録語に正しい読みがつけられ
るようにした自然言語処理装置の提供。 【解決手段】入力部1より入力した漢字仮名交じりのテ
キストは、形態素解析部2において辞書3を用いて形態
素に分割され、形態素解析部2で未登録語と処理された
単漢字は、未登録語読み決定部4において隣接する漢字
の読みを用いて、読みをつけ、発音記号生成部5で読み
とアクセント、及びポーズ位置等を表す発音記号を生成
して、出力部6より出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力した文字列に
基づいて音声を合成する音声合成装置に関し、特に自然
言語処理を行う処理装置(「自然言語処理装置」とい
う)に関する。
【0002】
【従来の技術】この種のテキスト音声合成装置における
自然言語処理装置は、入力されたテキストに対して、読
み、アクセント、及びポーズ位置等を付加した発音記号
を出力する。図4は、この従来の自然言語処理装置
(「第1の従来技術」という)の構成をブロック図にて
示したものである。
【0003】図4において、1は漢字仮名交じりのテキ
ストを入力するための入力部(入力端子)、2は形態素
解析部、3は形態素解析用の辞書(単語辞書)、5はテ
キストの読みとアクセント、及びポーズ等を表す発音記
号を生成する発音記号生成部、6は発音記号を出力する
出力部(出力端子)である。
【0004】図4を参照して、入力部1より漢字仮名交
じりのテキストが形態素解析部2に入力されると、形態
素解析部2では、辞書3′を用いて形態素解析が行なわ
れる。その結果、テキストは形態素に分割され、それぞ
れ辞書3′を用いて、読みとアクセント、品詞等の情報
が付加される。発音記号生成部5は、入力されたテキス
トに対して、形態素解析部2で付けられた情報を用い
て、アクセント結合処理やポーズ挿入処理を行なって発
音記号を生成し、出力部6より出力する。
【0005】形態素解析部2では、辞書にない語は未登
録語として扱われる。そして、これらの語は、辞書3の
未登録語用のエントリから、読みだけが付けられる。
【0006】このため、辞書3′には、図2に示すよう
に、見出し、読み、アクセント型、及び、品詞等の情報
が登録されているものと、図5に示すように、未登録語
用に、単漢字やアルファベット、平仮名等が1文字と、
その読みとが対で登録されているものと、がある。
【0007】上記したような、漢字かな混じりのテキス
トに読みを与える自然言語処理装置の第1の従来技術と
して、例えば特開平3−204698号公報には、テキ
ストが入力されると、形態素解析部において、辞書中の
漢字表記の検索見出し情報、及び該漢字1文字毎のかな
表記の検索見出し情報を用いて入力されたテキストの各
語の同定を行う、ようにしたテキスト音声合成装置が提
案されている。この装置においては、入力されたテキス
ト中の語が、漢字表記、かな表記、又は漢字かな混じり
表記のいずれが用いられていたとしても、単語の検索が
可能とされている。
【0008】また、第2の従来技術として、例えば特開
平4−147298号公報には、入力されたテキストに
対し、形態素解析部において未登録語として扱われる語
が2文字以上続いた時に、これらをまとめて一語である
かのようなアクセントを与えるようにした自然言語処理
装置を含む音声合成装置が提案されている。
【0009】
【発明が解決しようとする課題】しかしながら、上記し
た従来技術は下記記載の問題点を有している。
【0010】まず上記第1の従来技術において、その辞
書には、未登録語用のエントリは、図5に示すように、
単漢字の読みを1通りしか登録することができない。こ
のため、形態素解析部で未登録語と判定された単漢字
は、常に、同じ読みとなってしまう。
【0011】また、上記第2の従来技術においては、未
登録語として処理される単漢字は、アクセントのみ環境
によって変更する手段を備えているが、読みを区別する
ための手段は具備されていない。このため、上記第2の
従来技術においても、未登録語として扱われる語は、常
に、同じ読みとなってしまう。
【0012】より具体的には、上記した従来技術に、例
えば「高成長」というテキストが入力された場合の動作
について考えてみる。ここでは、辞書中に、例えば図2
に示すような形態素解析用エントリと、図5に示すよう
な未登録語用の辞書エントリがあるものとする。図2を
参照して、形態素解析用エントリは、一エントリ当た
り、見出し(単語)、その読み、アクセント型、品詞の
各フィールド(欄)からなる。
【0013】辞書には、「高成長」という語が登録され
ておらず、図2に示すように、「成長」のみが登録され
ていたとする。また、図5に示すように、未登録語用の
辞書エントリとして、「高」、「成」、「長」の一文字
ずつの読みが登録されているとする。
【0014】形態素解析部ではまず、図2に内容の一例
を示した形式の形態素解析用エントリから、「高成長」
を検索するが、該当するものがないため、辞書中にある
語を探すと、「成長」(読みは「せいちょう」、品詞は
名詞)が存在するため、「高」(未登録語)と、「成
長」(名詞)に分割する。
【0015】辞書を用いてその読みを付けると、図5を
参照して、「高」の読みが「たか」、図2を参照して、
「成長」の読みが「せいちょう」となり、「高成長」の
読みは「たかせいちょう」となる。
【0016】これを正しく読ませるためには、上記従来
技術では、「高成長」という語を辞書に追加するか、も
しくは未登録語用の単漢字「高」の読みを「こう」に変
更する必要がある。
【0017】しかし、形態素解析部で未登録語と扱われ
る文字列を全て辞書に追加することは、辞書の容量(記
憶容量)が激増するため、その実現は現実的に困難であ
る。
【0018】また、「高」の読みを「こう」に変更する
という方法では、「でき高」等、「こう」以外の読みを
付けたい場合に、上記と同じ問題が生じることになる。
【0019】したがって、本発明は、上記問題点に鑑み
てなされたものであって、その目的は、形態素解析部で
未登録語と判定される語を全て辞書に追加することな
く、且つ、辞書に登録されている単漢字の読みを変更し
たりすることなく、隣接する漢字の読みから単漢字の読
みを推定することを可能とした自然言語処理装置を提供
することにある。
【0020】
【課題を解決するための手段】前記目的を達成する本発
明は、漢字仮名交じりのテキストを形態素解析部に入力
し、前記形態素解析部が、辞書を参照しながら、読みを
決定し、発音情報を出力する自然言語処理装置におい
て、前記入力テキストの中に、前記形態素解析部におい
て未登録語として扱われる単漢字が存在した場合、前記
単漢字の読みを、隣接する語の読みを用いて決定する未
登録語読み決定部を備えたことを特徴とする。
【0021】
【発明の実施の形態】本発明の実施の形態について以下
に説明する。本発明は、その好ましい実施の形態におい
て、漢字仮名交じりの入力テキストを辞書(図1の3)
を参照して形態素に解析し読み、アクセント、及び品詞
などの情報を付加する形態素解析手段(図1の2)と、
形態素解析で付加された情報を用いてアクセント結合や
ポーズ挿入の処理を行い発音情報を生成出力する発音記
号生成手段(図1の5)と、を備えたテキスト音声合成
装置の処理装置において、入力テキストの中に、形態素
解析手段で未登録語として扱われる単漢字がある場合
に、該単漢字に隣接する漢字の読みが、音読みである
か、訓読みであるかを、辞書(図1の3)を用いて調
べ、当該単漢字の読みを決定する未登録語読み決定手段
(図1の4)を備えて構成されている。なお、これらの
各手段は、例えば処理装置にてプログラムを実行させる
ことによっても実現される。
【0022】本発明は、その好ましい実施の形態におい
て、辞書は、形態素解析用のエントリ(図2参照)と、
形態素解析の結果、未登録語と判定された単漢字に読み
をつけるための、未登録語用エントリ(図3参照)と、
を備え、この未登録語用エントリには、見出しとなる単
漢字の音読み及び訓読みの情報を備える。
【0023】
【実施例】上記した本発明の実施の形態について更に詳
細に説明すべく、本発明の実施例について図面を参照し
て以下に説明する。
【0024】図1は、本発明の自然言語処理装置の一実
施例の構成をブロック図にて示したものである。図1に
おいて、1は漢字仮名交じりのテキストを入力するため
の入力部、2は形態素解析部、3は辞書、4は未登録語
読み決定部、5は読みとアクセント、及びポーズ位置等
を発音記号で表す発音記号生成部、6は発音記号を出力
するための出力部をそれぞれ示している。
【0025】図1を参照して、本実施例は、図4に示し
た上記従来技術と較べて、形態素解析部2の結果を入力
とする未登録語読み決定部4を新たに設けたことが相違
している。この未登録読み決定部4では、形態素解析部
2で未登録語として扱われる単漢字がある場合に、この
単漢字に隣接する漢字の読みが、音読みであるか、訓読
みであるかを辞書3を用いて調べ、当該単漢字の読みを
決定する。
【0026】図2及び図3は、本実施例における辞書3
の構成の一例を示している。辞書3には、形態素解析用
のエントリと、形態素解析で未登録語と判定されたもの
に読みをつけるための未登録語用エントリの2種類があ
る。
【0027】図2を参照すると、形態素解析用の辞書エ
ントリには、見出し、読み、アクセント型、及び品詞情
報が格納されている。
【0028】また、未登録語用の辞書エントリには、図
3に示すように、見出しと、音読み、訓読みが1つずつ
格納されている。
【0029】本実施例の動作をさらに具体例を以って説
明すべく、図1ないし図3を参照して、本実施例の装置
に、「高成長」というテキストが入力された場合の動作
について説明する。
【0030】入力部1より入力されたテキストは、形態
素解析部2において辞書3を用いて形態素に分類され
る。辞書3には、図2及び図3に示した内容のエントリ
しかないため、「高成長」は、「高」と「成長」に分割
され、それぞれ品詞情報と読みが付けられる。
【0031】図2より、「成長」の読みは「せいちょ
う」となるが、未登録語「高」の読みは、図3を参照す
ると、「こう」(音読み)もしくは「たか」(訓読み)
となる。
【0032】未登録語読み決定部4では、形態素解析部
2で未登録語と判定された「高」の読みを決定するた
め、まず辞書3の未登録語用単漢字エントリを使って隣
接する漢字の読みが、音読みであるか、又は訓読みであ
るかを調べる。
【0033】「高」に隣接する「成」と「長」の読み
は、形態素解析部2の解析結果から、それぞれ「せい」
と「ちょう」であることがわかっているので、図3の辞
書を参照して、これらが音読みであるか訓読みであるか
を調べると、これら2文字とも「音読み」であることが
わかる。そこで、未登録語と判定された「高」の読みも
「こう」と、音読みにすることを決定する。
【0034】このように、未登録語の単漢字の読みを決
定する際に、隣接する漢字の音訓読みに合わせること
で、上記した従来技術よりも、正しい読みをつけること
ができる。
【0035】
【発明の効果】以上説明したように、本発明によれば、
未登録語を全て辞書に追加したり、辞書に登録されてい
る読みを変更したりすることなく、隣接する漢字の読み
から単漢字の読みを推定するようにしたことにより、辞
書容量の増大を回避し、正しい読みをつけることができ
る、という効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示すブロック図であ
る。
【図2】本発明の一実施例における辞書の形態素解析用
エントリの内容の一例を示す図である。
【図3】本発明の一実施例における辞書の未登録語用エ
ントリの内容の一例を示す図である。
【図4】従来の自然言語処理装置の構成例を示すブロッ
ク図である。
【図5】従来の辞書の構成例を示す図である。
【符号の説明】
1 入力端子 2 形態素解析部 3 辞書 4 未登録語読み決定部 5 発音記号生成部 6 出力端子

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】漢字仮名交じりのテキストを形態素解析部
    に入力し、前記形態素解析部が、辞書を参照しながら、
    読みを決定し、発音情報を出力する自然言語処理装置に
    おいて、 前記入力テキストの中に、前記形態素解析部において未
    登録語として扱われる単漢字が存在した場合、前記単漢
    字の読みを、隣接する語の読みを用いて決定する未登録
    語読み決定部を備えたことを特徴とする自然言語処理装
    置。
  2. 【請求項2】漢字仮名交じりの入力テキストを、辞書を
    参照して、形態素に解析し、読み、アクセント、及び品
    詞などの情報を付加する形態素解析手段と、 形態素解析で付加された情報を用いてアクセント結合や
    ポーズ挿入の処理を行い発音情報を生成出力する手段
    と、 を備えたテキスト音声合成装置の処理装置において、 前記入力テキストの中に、前記形態素解析手段で未登録
    語として扱われる単漢字がある場合に、該単漢字に隣接
    する漢字の読みが、音読みであるか、訓読みであるか
    を、前記辞書を用いて調べ、前記単漢字の読みを推定す
    る手段を備えたことを特徴とする自然言語処理装置。
  3. 【請求項3】前記辞書が、形態素解析用のエントリと、 形態素解析の結果、未登録語と判定された単漢字に読み
    をつけるために参照される、未登録語用エントリと、を
    備え、 前記未登録語用エントリが、見出しとなる単漢字に対す
    る音読み及び訓読みの情報を保持する、 ことを特徴とする請求項1又は2記載の自然言語処理装
    置。
  4. 【請求項4】漢字仮名交じりの入力テキストを、辞書を
    参照して、形態素に解析し、読み、アクセント、及び品
    詞などの情報を付加する形態素解析の結果、前記入力テ
    キストの中に、未登録語と判定された単漢字がある場合
    に、該単漢字に隣接する漢字の読みが、音読みである
    か、訓読みであるかを、前記辞書を用いて調べ、前記単
    漢字の読みを推定して出力する処理を、音声合成装置の
    処理装置上で実行させるためのプログラムを記録した記
    録媒体。
JP9061896A 1997-02-28 1997-02-28 自然言語処理装置 Pending JPH10240726A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9061896A JPH10240726A (ja) 1997-02-28 1997-02-28 自然言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9061896A JPH10240726A (ja) 1997-02-28 1997-02-28 自然言語処理装置

Publications (1)

Publication Number Publication Date
JPH10240726A true JPH10240726A (ja) 1998-09-11

Family

ID=13184374

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9061896A Pending JPH10240726A (ja) 1997-02-28 1997-02-28 自然言語処理装置

Country Status (1)

Country Link
JP (1) JPH10240726A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011191332A (ja) * 2010-03-11 2011-09-29 Fujitsu Ltd 音声合成装置、音声合成方法、及び音声合成プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011191332A (ja) * 2010-03-11 2011-09-29 Fujitsu Ltd 音声合成装置、音声合成方法、及び音声合成プログラム

Similar Documents

Publication Publication Date Title
US6076060A (en) Computer method and apparatus for translating text to sound
US8392191B2 (en) Chinese prosodic words forming method and apparatus
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JPH06282290A (ja) 自然言語処理装置およびその方法
JPH10240726A (ja) 自然言語処理装置
JP3589972B2 (ja) 音声合成装置
JPH1115497A (ja) 氏名読み音声合成装置
JPH07262191A (ja) 単語分割方法、および音声合成装置
JP3953772B2 (ja) 読みがな付与装置およびプログラム
JP2580568B2 (ja) 発音辞書更新装置
JP3573889B2 (ja) 音声出力装置
JP3029403B2 (ja) 文章データ音声変換システム
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP2003005776A (ja) 音声合成装置
JPH11344998A (ja) 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体
JPH08185197A (ja) 日本語解析装置、及び日本語テキスト音声合成装置
JPH03196198A (ja) 音声規則合成装置
JPH11212586A (ja) 音声合成装置
JP2801601B2 (ja) テキスト音声合成装置
JPH08194494A (ja) 文解析方法および装置
JP2001166790A (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JPH06289889A (ja) 音声合成装置
JP4319851B2 (ja) 読み上げ装置、読み上げ方法及び読み上げ処理用プログラム
JPH07160685A (ja) 文章読み上げ装置
JPH0728825A (ja) 音声合成装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19991026