JPH08185197A - 日本語解析装置、及び日本語テキスト音声合成装置 - Google Patents
日本語解析装置、及び日本語テキスト音声合成装置Info
- Publication number
- JPH08185197A JPH08185197A JP6326593A JP32659394A JPH08185197A JP H08185197 A JPH08185197 A JP H08185197A JP 6326593 A JP6326593 A JP 6326593A JP 32659394 A JP32659394 A JP 32659394A JP H08185197 A JPH08185197 A JP H08185197A
- Authority
- JP
- Japan
- Prior art keywords
- word
- reading
- dictionary
- unregistered
- japanese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Abstract
(57)【要約】
【目的】 本発明は、日本語文章中の未登録語と判定さ
れる単語を減らす日本語解析装置、及び日本語テキスト
音声合成装置を提供することを目的とする。 【構成】 前処理部201は、入力された日本語文章を
大まかに分割する。単語同定部202は、該大まかに分
割された文章の中から単語辞書203を検索しても同定
できない単語を未登録語として検出する。辞書再引き部
205は、該単語同定部202で検出された未登録語の
読みを用いて上記単語辞書203を検索して該未登録語
の「読み情報」(読み、アクセント型、接続情報、品詞
等から成る情報)を求めて上記単語同定部202へ出力
する。単語同定部202は、該未登録語の「読み情報」
が入力されると、これを基に入力日本語文章の読み、ア
クセント及びポーズ等の情報を最終的に決定しする。音
声合成部206は、上記単語同定部202から入力され
る上記入力日本語文章の読み、アクセント、及びポーズ
等の情報を基に、該日本語文章を音声合成する。
れる単語を減らす日本語解析装置、及び日本語テキスト
音声合成装置を提供することを目的とする。 【構成】 前処理部201は、入力された日本語文章を
大まかに分割する。単語同定部202は、該大まかに分
割された文章の中から単語辞書203を検索しても同定
できない単語を未登録語として検出する。辞書再引き部
205は、該単語同定部202で検出された未登録語の
読みを用いて上記単語辞書203を検索して該未登録語
の「読み情報」(読み、アクセント型、接続情報、品詞
等から成る情報)を求めて上記単語同定部202へ出力
する。単語同定部202は、該未登録語の「読み情報」
が入力されると、これを基に入力日本語文章の読み、ア
クセント及びポーズ等の情報を最終的に決定しする。音
声合成部206は、上記単語同定部202から入力され
る上記入力日本語文章の読み、アクセント、及びポーズ
等の情報を基に、該日本語文章を音声合成する。
Description
【0001】
【産業上の利用分野】本発明は日本語解析装置、及び日
本語テキスト音声合成装置に関わり、特に、音声合成の
際に入力される日本語文章の多様な表記に対応した日本
語解析装置、及び日本語テキスト音声合成装置に関す
る。
本語テキスト音声合成装置に関わり、特に、音声合成の
際に入力される日本語文章の多様な表記に対応した日本
語解析装置、及び日本語テキスト音声合成装置に関す
る。
【0002】
【従来の技術】近年、ワードプロセッサやパーソナル・
コンピュータ等の情報処理装置で作成された日本語の文
章データや音声認識機能を備えた音声入力装置を用いて
入力された日本語の文章データを、音声合成装置を用い
て音声により読み上げる日本語テキスト音声装置が、上
記作成された文章や上記音声認識された文章が正しいか
否かを耳で聞きながら簡単に認識できる便利な装置とし
て重要性が高まっている。また、音声合成装置によって
合成された日本語の音声が、駅などの案内放送や電話情
報案内、更には音声応答システム等に、情報伝達媒体と
して使用されるようになっている。音声合成装置によっ
て合成された音声がより自然に聞こえるようにするため
には、自然なアクセントで発音されるように音声を合成
する必要があり、そのためには入力された日本語文章の
読みとアクセントを正しく解析する日本語解析装置が必
要になる。
コンピュータ等の情報処理装置で作成された日本語の文
章データや音声認識機能を備えた音声入力装置を用いて
入力された日本語の文章データを、音声合成装置を用い
て音声により読み上げる日本語テキスト音声装置が、上
記作成された文章や上記音声認識された文章が正しいか
否かを耳で聞きながら簡単に認識できる便利な装置とし
て重要性が高まっている。また、音声合成装置によって
合成された日本語の音声が、駅などの案内放送や電話情
報案内、更には音声応答システム等に、情報伝達媒体と
して使用されるようになっている。音声合成装置によっ
て合成された音声がより自然に聞こえるようにするため
には、自然なアクセントで発音されるように音声を合成
する必要があり、そのためには入力された日本語文章の
読みとアクセントを正しく解析する日本語解析装置が必
要になる。
【0003】図18は、従来の音声合成における日本語
解析装置の全体構成を示す図である。入力される日本語
文章としては、漢字、かな、カタカナが混在した多様な
表記の日本語文章が使用される。前処理部601は、入
力された日本語文章を解析する前の予備的な処理を行
う。即ち、日本語文章を大まかに区切る句点、読点、或
いは( )、「 」等の記号を抽出して、入力される日
本語文章を大まかに分割する。 単語同定部602は、
前処理部601で大まかに分割された日本語文章を更に
単語単位に分割する処理を行う。即ち、単語辞書603
に登録されている各単語の表記、及び文法に関する情報
等を参照することによって、単語の同定を行う。ここで
表記とは、例えば、「梨」、「なし」等を指し、「梨」
と「なし」とは同じ読みではあるが、表記はそれぞれ別
のものであるので、それらは、単語辞書603内では別
個の単語として登録されている。単語同定部602は、
単語辞書603に登録された各単語の表記を参照して、
前記大まかに分割された日本語文章の想定できる単語単
位の区切りのパターンを導き出し、該日本語文章中から
該単語辞書603に登録されている単語を抽出する。更
に、この抽出した単語について単語辞書603に登録さ
れた文法情報を参照して前後の単語との接続関係を調
べ、該接続関係が文法的に正しいと判断すると、その単
語を正しいものと同定して出力する。
解析装置の全体構成を示す図である。入力される日本語
文章としては、漢字、かな、カタカナが混在した多様な
表記の日本語文章が使用される。前処理部601は、入
力された日本語文章を解析する前の予備的な処理を行
う。即ち、日本語文章を大まかに区切る句点、読点、或
いは( )、「 」等の記号を抽出して、入力される日
本語文章を大まかに分割する。 単語同定部602は、
前処理部601で大まかに分割された日本語文章を更に
単語単位に分割する処理を行う。即ち、単語辞書603
に登録されている各単語の表記、及び文法に関する情報
等を参照することによって、単語の同定を行う。ここで
表記とは、例えば、「梨」、「なし」等を指し、「梨」
と「なし」とは同じ読みではあるが、表記はそれぞれ別
のものであるので、それらは、単語辞書603内では別
個の単語として登録されている。単語同定部602は、
単語辞書603に登録された各単語の表記を参照して、
前記大まかに分割された日本語文章の想定できる単語単
位の区切りのパターンを導き出し、該日本語文章中から
該単語辞書603に登録されている単語を抽出する。更
に、この抽出した単語について単語辞書603に登録さ
れた文法情報を参照して前後の単語との接続関係を調
べ、該接続関係が文法的に正しいと判断すると、その単
語を正しいものと同定して出力する。
【0004】ここで、実際の日本語文章を例にとって上
記単語同定部602の処理を説明する。例えば、「梨を
食べた。」という日本語文章が単語同定部602に入力
された場合、この文章の単語単位での切り分け方として
は様々な区切りを想定できるが、単語同定部602は上
記日本語文章について単語辞書603を参照して
「梨」、「を」、「食」、「べ」、「た」、「。」と区
切ったとする。この場合、最初の「梨」は単語辞書60
3の表記情報を検索することによって、読みが「なし」
であり、品詞は普通名詞であると判定する。以下、同様
に各区切り(単語)毎に単語辞書603を検索し、表記
が同じであるが文法情報が異なるものを全て抽出して並
べ、前後の単語を格子状に接続することにより図19に
示す単語ラティスを作成する。
記単語同定部602の処理を説明する。例えば、「梨を
食べた。」という日本語文章が単語同定部602に入力
された場合、この文章の単語単位での切り分け方として
は様々な区切りを想定できるが、単語同定部602は上
記日本語文章について単語辞書603を参照して
「梨」、「を」、「食」、「べ」、「た」、「。」と区
切ったとする。この場合、最初の「梨」は単語辞書60
3の表記情報を検索することによって、読みが「なし」
であり、品詞は普通名詞であると判定する。以下、同様
に各区切り(単語)毎に単語辞書603を検索し、表記
が同じであるが文法情報が異なるものを全て抽出して並
べ、前後の単語を格子状に接続することにより図19に
示す単語ラティスを作成する。
【0005】次に、この単語ラティスの全てのパスに対
して文法情報を基に解析を行い、適切なパスを一本選択
し、該パスを構成している各単語について読みや品詞等
の情報を求める。
して文法情報を基に解析を行い、適切なパスを一本選択
し、該パスを構成している各単語について読みや品詞等
の情報を求める。
【0006】まず、最初の「梨」は普通名詞であるの
で、次の「を」は単語辞書603に登録されている格助
詞の「を」と判定するのが文法上最適である。次の
「食」は動詞語幹(バ行下一段)、動詞語幹(ワ行五
段)、普通名詞、或いは接尾語等として単語辞書603
に登録されている。しかし、次に続く「べ」は動詞活用
語尾(バ行下一段)、或いは動詞活用語尾(バ行五段)
として登録されているので、文法上「食」は動詞語幹
(バ行下一段)、「べ」は動詞活用語尾(バ行下一段)
としてそれぞれ判定するのが最適である。また、この時
「食」の読みは単語辞書603を参照することによって
「た」と判定する。次の「た」は助動詞(終止形)、助
動詞(連体形)、動詞活用語尾(タ行五段)等として単
語辞書603に登録されているが、前の「べ」を動詞語
幹(バ行下一段)と判定し、かつ次の「。」は句点で日
本語文章の終わりを示しているので、「た」は助動詞
(終止形)として判定するのが最適である。
で、次の「を」は単語辞書603に登録されている格助
詞の「を」と判定するのが文法上最適である。次の
「食」は動詞語幹(バ行下一段)、動詞語幹(ワ行五
段)、普通名詞、或いは接尾語等として単語辞書603
に登録されている。しかし、次に続く「べ」は動詞活用
語尾(バ行下一段)、或いは動詞活用語尾(バ行五段)
として登録されているので、文法上「食」は動詞語幹
(バ行下一段)、「べ」は動詞活用語尾(バ行下一段)
としてそれぞれ判定するのが最適である。また、この時
「食」の読みは単語辞書603を参照することによって
「た」と判定する。次の「た」は助動詞(終止形)、助
動詞(連体形)、動詞活用語尾(タ行五段)等として単
語辞書603に登録されているが、前の「べ」を動詞語
幹(バ行下一段)と判定し、かつ次の「。」は句点で日
本語文章の終わりを示しているので、「た」は助動詞
(終止形)として判定するのが最適である。
【0007】従って、最終的には「梨(普通名詞)」、
「を(格助詞)」、「食(動詞語幹バ行下一段)」、
「べ(動詞活用語尾バ行下一段)」、「た(助動詞終止
形)」、「。(句点)」と判定する。
「を(格助詞)」、「食(動詞語幹バ行下一段)」、
「べ(動詞活用語尾バ行下一段)」、「た(助動詞終止
形)」、「。(句点)」と判定する。
【0008】以上の説明のように、先ず日本語文章を単
語辞書603を参照して適当に区切り、次に、この日本
語文章の各区切りを1つの単語と想定し、単語辞書60
3を参照することによってそれぞれの単語について全て
の文法情報を抽出し、単語ラティスを作成する。そし
て、該単語ラティス上の各単語について、その前後に接
続している単語との文法的な接続関係を調べ、該単語ラ
ティスから各単語がその前後の単語と文法的に最適な接
続関係を有している1つのパスを求める。そして、この
パスを構成している単語を、正しい単語と同定し、その
読みを求める。
語辞書603を参照して適当に区切り、次に、この日本
語文章の各区切りを1つの単語と想定し、単語辞書60
3を参照することによってそれぞれの単語について全て
の文法情報を抽出し、単語ラティスを作成する。そし
て、該単語ラティス上の各単語について、その前後に接
続している単語との文法的な接続関係を調べ、該単語ラ
ティスから各単語がその前後の単語と文法的に最適な接
続関係を有している1つのパスを求める。そして、この
パスを構成している単語を、正しい単語と同定し、その
読みを求める。
【0009】更に、単語同定部602は上記単語が同定
された日本語文章について、単語辞書603を参照して
その“読み”と“アクセント”を求める。例えば、「梨
を食べた。」の場合には、最初の「梨」のアクセント型
は2型であるので、「梨を」のアクセントは、「梨」の
読みである「なし」と次の格助詞「を」は最初の「な」
を低く発音し、「し」を高く発音し、「を」を低く発音
するように決定される。以下、同様にそれぞれの単語の
読みとアクセントから、上記「梨を食べた。」という日
本語文章について図20に示す読みとアクセントを求め
る。
された日本語文章について、単語辞書603を参照して
その“読み”と“アクセント”を求める。例えば、「梨
を食べた。」の場合には、最初の「梨」のアクセント型
は2型であるので、「梨を」のアクセントは、「梨」の
読みである「なし」と次の格助詞「を」は最初の「な」
を低く発音し、「し」を高く発音し、「を」を低く発音
するように決定される。以下、同様にそれぞれの単語の
読みとアクセントから、上記「梨を食べた。」という日
本語文章について図20に示す読みとアクセントを求め
る。
【0010】尚、アクセントのパターンは、一般にアク
セントの下がる手前の拍数を用いてn型アクセントと表
現する。アクセントが高いままで終わるパターンはO型
と呼ぶ。したがって、nの値は“0”,“1”,
“2”,・・・の整数となる。
セントの下がる手前の拍数を用いてn型アクセントと表
現する。アクセントが高いままで終わるパターンはO型
と呼ぶ。したがって、nの値は“0”,“1”,
“2”,・・・の整数となる。
【0011】音声合成部605は、単語同定部602か
ら上記入力された日本語文章の読みとアクセントの情報
を入力し、この入力情報を基に上記日本語文章を音声合
成する。
ら上記入力された日本語文章の読みとアクセントの情報
を入力し、この入力情報を基に上記日本語文章を音声合
成する。
【0012】
【発明が解決しようとする課題】一方、入力された日本
語文章が、「梨を食べた。」ではなく「ナシを食べ
た。」であったとする。単語同定部602は、前述した
処理を行うが、「ナシ」の表記は単語辞書603に登録
されていないので、これを未登録語と判定する。
語文章が、「梨を食べた。」ではなく「ナシを食べ
た。」であったとする。単語同定部602は、前述した
処理を行うが、「ナシ」の表記は単語辞書603に登録
されていないので、これを未登録語と判定する。
【0013】単語同定部602は、未登録語と判定した
単語については読み飛ばすか、その単語の各文字を単漢
字辞書604に登録されたその文字の読みで1文字ずつ
置き換え、それらの文字の読みとアクセントを音声合成
部605へ出力する。しかしながら、この場合、以下の
ような問題が発生する。 前者のように未登録語を読み飛ばした場合、日本語
文章のつながりが不自然になり、正確な内容を聞き手に
伝えられない。 後者のように未登録語の文字を単漢字辞書604に
登録されたその文字の読みで1文字ずつ置き換えた場
合、正しい読みに置き換えられない場合がある。
単語については読み飛ばすか、その単語の各文字を単漢
字辞書604に登録されたその文字の読みで1文字ずつ
置き換え、それらの文字の読みとアクセントを音声合成
部605へ出力する。しかしながら、この場合、以下の
ような問題が発生する。 前者のように未登録語を読み飛ばした場合、日本語
文章のつながりが不自然になり、正確な内容を聞き手に
伝えられない。 後者のように未登録語の文字を単漢字辞書604に
登録されたその文字の読みで1文字ずつ置き換えた場
合、正しい読みに置き換えられない場合がある。
【0014】また、仮に、読みが正しくても前後の単語
との結合や活用形が正しく認識されていないので、アク
セントが正確でなかったり、不自然な発生になるなどの
問題があった。
との結合や活用形が正しく認識されていないので、アク
セントが正確でなかったり、不自然な発生になるなどの
問題があった。
【0015】本発明は、未登録語と判定される単語を減
らすことにより、日本語文章をより正しく音声出力でき
るようにすることを可能とする日本語解析装置、及び日
本語テキスト音声合成装置を提供することにある。
らすことにより、日本語文章をより正しく音声出力でき
るようにすることを可能とする日本語解析装置、及び日
本語テキスト音声合成装置を提供することにある。
【0016】
【課題を解決するための手段】図1、及び図2は、本発
明の原理を説明する図である。第1の単語同定手段10
1は、入力された日本語文章の中から、単語辞書103
を検索しても同定できない単語を未登録語として検出す
る。
明の原理を説明する図である。第1の単語同定手段10
1は、入力された日本語文章の中から、単語辞書103
を検索しても同定できない単語を未登録語として検出す
る。
【0017】第2の単語同定手段102は、上記第1の
単語同定手段101で検出された未登録語の読みを用い
て上記単語辞書103を検索して、該未登録語を音声合
成するために必要な情報を求める。
単語同定手段101で検出された未登録語の読みを用い
て上記単語辞書103を検索して、該未登録語を音声合
成するために必要な情報を求める。
【0018】上記第1の単語同定手段101で検出され
る未登録語は、例えば請求項3記載のようにひらがな単
語、また、請求項4記載のようにカタカナ単語である。
上記第2の単語同定手段102は、例えば請求項2記載
のように、上記第1の単語同定手段で検出された未登録
語の読みを用いて上記単語辞書103を検索して、該未
登録語に関する上記日本語文章を解析するために必要と
なる情報を求める辞書再引き手段と、該辞書再引き手段
から入力される情報を基に、前記日本語文章を解析して
前記未登録語を音声合成するために必要となる情報を求
める解析手段とにより構成される。
る未登録語は、例えば請求項3記載のようにひらがな単
語、また、請求項4記載のようにカタカナ単語である。
上記第2の単語同定手段102は、例えば請求項2記載
のように、上記第1の単語同定手段で検出された未登録
語の読みを用いて上記単語辞書103を検索して、該未
登録語に関する上記日本語文章を解析するために必要と
なる情報を求める辞書再引き手段と、該辞書再引き手段
から入力される情報を基に、前記日本語文章を解析して
前記未登録語を音声合成するために必要となる情報を求
める解析手段とにより構成される。
【0019】また、上記第2の単語同定手段102は、
例えば、請求項5記載のように、上記第1の単語同定手
段101で検出された未登録語の読みを長音化して上記
単語辞書103を引くように構成される。
例えば、請求項5記載のように、上記第1の単語同定手
段101で検出された未登録語の読みを長音化して上記
単語辞書103を引くように構成される。
【0020】更には、上記第2の単語同定手段102
は、例えば、請求項6記載のように、上記第1の単語同
定手段101で検出された未登録語の読みを無声化して
前記単語辞書103を引くように構成される。
は、例えば、請求項6記載のように、上記第1の単語同
定手段101で検出された未登録語の読みを無声化して
前記単語辞書103を引くように構成される。
【0021】請求項7記載の発明は、上記第1の単語同
定手段101以外に該第1の単語同定手段101で検出
された未登録語の読みを推定する読み推定手段105を
更に有し、第2の単語同定手段102は、上記読み推定
手段105で推定された未登録語の読みを用いて上記単
語辞書103を検索して、該未登録語を音声合成するた
めに必要な情報を求める。
定手段101以外に該第1の単語同定手段101で検出
された未登録語の読みを推定する読み推定手段105を
更に有し、第2の単語同定手段102は、上記読み推定
手段105で推定された未登録語の読みを用いて上記単
語辞書103を検索して、該未登録語を音声合成するた
めに必要な情報を求める。
【0022】上記第2の単語同定手段102は、例え
ば、請求項8記載のように、上記読み推定手段105で
推定された未登録語の読みを用いて上記単語辞書103
を検索して、該未登録語に関する前記日本語文章を解析
するために必要な情報を求める辞書再引き手段と、該辞
書再引き手段から入力される情報を基に、上記日本語文
章を解析して上記未登録語を音声合成するために必要と
なる情報を求める解析手段とにより構成される。
ば、請求項8記載のように、上記読み推定手段105で
推定された未登録語の読みを用いて上記単語辞書103
を検索して、該未登録語に関する前記日本語文章を解析
するために必要な情報を求める辞書再引き手段と、該辞
書再引き手段から入力される情報を基に、上記日本語文
章を解析して上記未登録語を音声合成するために必要と
なる情報を求める解析手段とにより構成される。
【0023】上記第1の単語同定手段101で検出され
た未登録語は、例えば、請求項9記載のように漢字混じ
り単語であり、上記読み推定手段105は単漢字辞書1
06を用いて上記漢字混じり単語の読みを推定する。
た未登録語は、例えば、請求項9記載のように漢字混じ
り単語であり、上記読み推定手段105は単漢字辞書1
06を用いて上記漢字混じり単語の読みを推定する。
【0024】このとき、上記読み推定手段は、例えば、
請求項10記載のように上記単漢字辞書106を用いて
上記漢字混じり単語の中の単漢字毎に音読み、または訓
読みを抽出し、該抽出された単漢字毎の音読み、または
訓読みを組み合わせて複数の読み候補を作成し、上記単
漢字辞書に格納された上記単漢字のルールを用いて上記
複数の読み候補の中から1つの読みを決定するように構
成される。
請求項10記載のように上記単漢字辞書106を用いて
上記漢字混じり単語の中の単漢字毎に音読み、または訓
読みを抽出し、該抽出された単漢字毎の音読み、または
訓読みを組み合わせて複数の読み候補を作成し、上記単
漢字辞書に格納された上記単漢字のルールを用いて上記
複数の読み候補の中から1つの読みを決定するように構
成される。
【0025】また、上記読み推定手段105は、上記第
1の単語同定手段101で検出された未登録語が漢字混
じり単語である場合、例えば、請求項11記載のように
上記単漢字辞書106を用いて上記漢字混じり単語の中
の単漢字毎に音読み、または訓読みを抽出し、該抽出さ
れた単漢字毎の音読み、または訓読みを組み合わせて複
数の読み候補を作成し、表示画面に該複数の読み候補を
表示して操作者にそれらの読み候補の中から1つの読み
を選択させる。
1の単語同定手段101で検出された未登録語が漢字混
じり単語である場合、例えば、請求項11記載のように
上記単漢字辞書106を用いて上記漢字混じり単語の中
の単漢字毎に音読み、または訓読みを抽出し、該抽出さ
れた単漢字毎の音読み、または訓読みを組み合わせて複
数の読み候補を作成し、表示画面に該複数の読み候補を
表示して操作者にそれらの読み候補の中から1つの読み
を選択させる。
【0026】請求項12記載の発明は、入力された日本
語文章を複数の単語で区切り、単語辞書を参照して該日
本語文章を構成する単語を同定する際、前記複数の単語
の中から、前記単語辞書を検索しても同定できない単語
を未登録語として検出する第1の単語同定手段と、前記
第1の単語同定手段で検出された未登録語の読みと同じ
読みを有する単語を前記単語辞書から検索して、該未登
録語を音声合成するために必要な情報を求める第2の単
語同定手段と、前記第2の単語同定手段で得られた情報
に基づいて、前記未登録語の音声を合成する音声合成手
段と、を有する。
語文章を複数の単語で区切り、単語辞書を参照して該日
本語文章を構成する単語を同定する際、前記複数の単語
の中から、前記単語辞書を検索しても同定できない単語
を未登録語として検出する第1の単語同定手段と、前記
第1の単語同定手段で検出された未登録語の読みと同じ
読みを有する単語を前記単語辞書から検索して、該未登
録語を音声合成するために必要な情報を求める第2の単
語同定手段と、前記第2の単語同定手段で得られた情報
に基づいて、前記未登録語の音声を合成する音声合成手
段と、を有する。
【0027】請求項13記載の発明は、入力された日本
語文章を複数の単語で区切り、単語辞書を参照して単語
を同定する際、前記複数の単語の中から、前記単語辞書
を検索しても同定できない単語を未登録語として検出す
る第1の単語同定手段と、前記第1の単語同定手段で検
出された未登録語の読みを推定する読み推定手段と、前
記読み推定手段で推定された未登録語の読みと同じ読み
を有する単語を前記単語辞書から検索して、該未登録語
を音声合成するために必要な情報を求める第2の単語同
定手段と、前記第2の単語同定手段で得られた情報に基
づいて、前記未登録語の音声を合成する音声合成手段
と、を有する。
語文章を複数の単語で区切り、単語辞書を参照して単語
を同定する際、前記複数の単語の中から、前記単語辞書
を検索しても同定できない単語を未登録語として検出す
る第1の単語同定手段と、前記第1の単語同定手段で検
出された未登録語の読みを推定する読み推定手段と、前
記読み推定手段で推定された未登録語の読みと同じ読み
を有する単語を前記単語辞書から検索して、該未登録語
を音声合成するために必要な情報を求める第2の単語同
定手段と、前記第2の単語同定手段で得られた情報に基
づいて、前記未登録語の音声を合成する音声合成手段
と、を有する。
【0028】尚、上記単語辞書103と上記単漢字辞書
106とを、例えば単語辞書として、1つの辞書に統合
するようにしてもよい。
106とを、例えば単語辞書として、1つの辞書に統合
するようにしてもよい。
【0029】
【作用】第1の単語同定手段101は入力された日本語
文章を複数の単語に区切り、単語辞書103を参照して
該日本語文章を構成する各単語を同定する。この単語の
同定の際、上記第1の単語同定手段101は単語辞書1
03を検索しても同定できない単語を未登録単語として
検出する。上記第1の単語同定手段101は、上記未登
録語がひらがな単語、或いはカタカナ単語の場合には、
その読みは判明しているので第2の単語同定手段102
へ出力し、上記未登録語が漢字混じり単語の場合には、
上記未登録語を読み推定手段105へ出力する。
文章を複数の単語に区切り、単語辞書103を参照して
該日本語文章を構成する各単語を同定する。この単語の
同定の際、上記第1の単語同定手段101は単語辞書1
03を検索しても同定できない単語を未登録単語として
検出する。上記第1の単語同定手段101は、上記未登
録語がひらがな単語、或いはカタカナ単語の場合には、
その読みは判明しているので第2の単語同定手段102
へ出力し、上記未登録語が漢字混じり単語の場合には、
上記未登録語を読み推定手段105へ出力する。
【0030】読み推定手段105は、入力された上記未
登録語の中の各漢字を単漢字辞書106を検索して読み
を推定する。この推定は、例えば、単漢字毎に単漢字辞
書106から音読み、または訓読みを抽出し、上記単漢
字辞書106に格納された単漢字のルールを参照するこ
とによって行われる。
登録語の中の各漢字を単漢字辞書106を検索して読み
を推定する。この推定は、例えば、単漢字毎に単漢字辞
書106から音読み、または訓読みを抽出し、上記単漢
字辞書106に格納された単漢字のルールを参照するこ
とによって行われる。
【0031】また、あるいは、単漢字辞書106を用い
て前記漢字混じり単語の中の単漢字毎に音読み、または
訓読みを抽出し、該抽出された単漢字毎の音読み、また
は訓読みを組み合わせて複数の読み候補を作成し、表示
画面に該複数の読み候補を表示して操作者にそれらの読
み候補の中から1つの読みを選択させることによって行
われる。
て前記漢字混じり単語の中の単漢字毎に音読み、または
訓読みを抽出し、該抽出された単漢字毎の音読み、また
は訓読みを組み合わせて複数の読み候補を作成し、表示
画面に該複数の読み候補を表示して操作者にそれらの読
み候補の中から1つの読みを選択させることによって行
われる。
【0032】上記読み推定手段105は、上記漢字混じ
り単語の読みの推定が終了すれば、該推定した単語の読
みを上記第2の単語同定手段102へ出力する。該第2
の単語同定手段102は、上記第1の単語同定手段10
1、或いは読み推定手段105から入力された読みを用
いて、その読みが単語辞書103に登録されている単語
を音声合成するために必要な情報を求める。この際、上
記第2の単語同定手段102は、例えば、読み推定手段
105から上記未登録語の読みが入力されると、単語辞
書103からその読みを有する全ての単語を抽出する。
そして、上記抽出された単語が1つの場合には、該抽出
された単語を未登録語の同定結果とする。また、上記第
2の単語同定手段102は、上記抽出された単語が複数
ある場合には、単語辞書103に格納された文法情報を
参照することによって、上記抽出された複数の単語のう
ちその前後の単語と文法的に正しい接続関係を有する単
語を同定結果とする。
り単語の読みの推定が終了すれば、該推定した単語の読
みを上記第2の単語同定手段102へ出力する。該第2
の単語同定手段102は、上記第1の単語同定手段10
1、或いは読み推定手段105から入力された読みを用
いて、その読みが単語辞書103に登録されている単語
を音声合成するために必要な情報を求める。この際、上
記第2の単語同定手段102は、例えば、読み推定手段
105から上記未登録語の読みが入力されると、単語辞
書103からその読みを有する全ての単語を抽出する。
そして、上記抽出された単語が1つの場合には、該抽出
された単語を未登録語の同定結果とする。また、上記第
2の単語同定手段102は、上記抽出された単語が複数
ある場合には、単語辞書103に格納された文法情報を
参照することによって、上記抽出された複数の単語のう
ちその前後の単語と文法的に正しい接続関係を有する単
語を同定結果とする。
【0033】上記第2の単語同定手段102は、単語の
同定が終了した時点で、上記入力された日本語文章の読
みとアクセントなどから成る情報を音声合成手段104
へ出力する。音声合成手段104は、上記情報から上記
日本語文章の音声を合成して出力する。
同定が終了した時点で、上記入力された日本語文章の読
みとアクセントなどから成る情報を音声合成手段104
へ出力する。音声合成手段104は、上記情報から上記
日本語文章の音声を合成して出力する。
【0034】したがって、日本語文章を単語辞書103
を用いて解析中に未登録語が検出された場合でも、該未
登録語の読みを用いて単語辞書103、または単漢字辞
書106を検索することによって、その未登録語を正し
い単語に同定することが可能になる。また、これによ
り、上記日本語文章の読みとアクセントを正しく付与す
ることができ、上記日本語文章が自然な発生で音声出力
されるような音声合成が可能になる。
を用いて解析中に未登録語が検出された場合でも、該未
登録語の読みを用いて単語辞書103、または単漢字辞
書106を検索することによって、その未登録語を正し
い単語に同定することが可能になる。また、これによ
り、上記日本語文章の読みとアクセントを正しく付与す
ることができ、上記日本語文章が自然な発生で音声出力
されるような音声合成が可能になる。
【0035】
【実施例】図3は、本発明の第1の実施例の構成を示す
ブロック図である。図4のフローチャートを参照しなが
ら、第1の実施例の構成並びに動作を以下に説明する。
ブロック図である。図4のフローチャートを参照しなが
ら、第1の実施例の構成並びに動作を以下に説明する。
【0036】先ず、前処理部201に漢字、ひらがな、
カタカナが混在した多様な表記の日本語文章が入力され
る(S101)。次に、前処理部201は、入力された
日本語文章を解析する前の予備的な処理を行う。即ち、
日本語文章の中の大まかな区切りである句点、読点、或
いは( )、「 」等のカッコ記号を抽出して、日本語
文章を大まかに分割する(S102)。
カタカナが混在した多様な表記の日本語文章が入力され
る(S101)。次に、前処理部201は、入力された
日本語文章を解析する前の予備的な処理を行う。即ち、
日本語文章の中の大まかな区切りである句点、読点、或
いは( )、「 」等のカッコ記号を抽出して、日本語
文章を大まかに分割する(S102)。
【0037】前ステップS102で大まかに分割された
日本語文章が、単語同定部202に入力される。単語同
定部202は、単語辞書203を参照しながら、前記大
まかに分割された日本語文章を更に細かく区切り、該細
かく区切られた日本語文章の各々を単語と想定し、単語
ラティスを作成する(S103)。単語ラティスとは、
日本語文章を形態素解析するための予備的な処理によっ
て作成されるもので、単語毎に単語辞書203に登録さ
れた表記が同じであるが、品詞などの文法情報が異なる
ものを全て抽出して並べていくことによって作成される
格子状のパスである。図5は、該単語ラティスの一例を
示す図である。但し、図5には「ナシを食べた。」とい
う文章を、「ナシ」、「を」、「食」、「べ」、
「た」、「。」と区切ったもののみを記載しているが、
実際の処理においては、上記単語ラティスには、上記文
章についてこれ以外にも想定できる別の区切りを有する
別の単語列の格子状のパスが作成される。
日本語文章が、単語同定部202に入力される。単語同
定部202は、単語辞書203を参照しながら、前記大
まかに分割された日本語文章を更に細かく区切り、該細
かく区切られた日本語文章の各々を単語と想定し、単語
ラティスを作成する(S103)。単語ラティスとは、
日本語文章を形態素解析するための予備的な処理によっ
て作成されるもので、単語毎に単語辞書203に登録さ
れた表記が同じであるが、品詞などの文法情報が異なる
ものを全て抽出して並べていくことによって作成される
格子状のパスである。図5は、該単語ラティスの一例を
示す図である。但し、図5には「ナシを食べた。」とい
う文章を、「ナシ」、「を」、「食」、「べ」、
「た」、「。」と区切ったもののみを記載しているが、
実際の処理においては、上記単語ラティスには、上記文
章についてこれ以外にも想定できる別の区切りを有する
別の単語列の格子状のパスが作成される。
【0038】単語同定部202は、作成された単語ラテ
ィスの各パスの中から、単語辞書203に登録されてい
る文法情報などを基に文法上最適なパスを決定する(S
104)。例えば、図5に示すような単語ラティスが作
成された場合、最初の「ナシ」は単語辞書203には登
録されていないので、未登録語と判定する。次の「を」
は単語辞書203には格助詞として登録されているの
で、格助詞「を」として判定する。「食」は動詞語幹
(バ行下一段)、動詞語幹(ワ行五段)、普通名詞、或
いは接尾語が単語辞書203に登録されている。しか
し、次に続く「べ」は動詞活用語尾(バ行下一段)、或
いは動詞活用語尾(バ行五段)が単語辞書203に登録
されているので、文法上「食」は動詞語幹(バ行下一
段)、「べ」は動詞活用語尾(バ行下一段)としてそれ
ぞれ判定するのが最適である。また、この時「食」の読
みは単語辞書203を参照することによって「た」と判
定する。次の「た」は助動詞(終止形)、助動詞(連体
形)、或いは動詞活用語尾(タ行五段)として登録され
ているが、前の「べ」を動詞活用語尾(バ行下一段)と
判定し、最後の「。」は句点で文章の終わりを示してい
るので、「た」は助動詞(終止形)と判定するのが最適
である。
ィスの各パスの中から、単語辞書203に登録されてい
る文法情報などを基に文法上最適なパスを決定する(S
104)。例えば、図5に示すような単語ラティスが作
成された場合、最初の「ナシ」は単語辞書203には登
録されていないので、未登録語と判定する。次の「を」
は単語辞書203には格助詞として登録されているの
で、格助詞「を」として判定する。「食」は動詞語幹
(バ行下一段)、動詞語幹(ワ行五段)、普通名詞、或
いは接尾語が単語辞書203に登録されている。しか
し、次に続く「べ」は動詞活用語尾(バ行下一段)、或
いは動詞活用語尾(バ行五段)が単語辞書203に登録
されているので、文法上「食」は動詞語幹(バ行下一
段)、「べ」は動詞活用語尾(バ行下一段)としてそれ
ぞれ判定するのが最適である。また、この時「食」の読
みは単語辞書203を参照することによって「た」と判
定する。次の「た」は助動詞(終止形)、助動詞(連体
形)、或いは動詞活用語尾(タ行五段)として登録され
ているが、前の「べ」を動詞活用語尾(バ行下一段)と
判定し、最後の「。」は句点で文章の終わりを示してい
るので、「た」は助動詞(終止形)と判定するのが最適
である。
【0039】従って、最終的には「ナシ(未登録
語)」、「を(格助詞)」、「食(動詞語幹バ行下一
段)」、「べ(動詞活用語尾バ行下一段)」、「た(助
動詞終止形)」、「。(句点)」というパスが最適なパ
スであるとする。
語)」、「を(格助詞)」、「食(動詞語幹バ行下一
段)」、「べ(動詞活用語尾バ行下一段)」、「た(助
動詞終止形)」、「。(句点)」というパスが最適なパ
スであるとする。
【0040】続いて、単語同定部202は、前ステップ
S104で決定されたパスの中に、未登録語があるか否
かを判定する。未登録語が無ければ(S105,N
o)、ステップS111へ進み音声合成部206へ上記
日本語文章を音声合成するために必要となる情報を出力
する処理を行う。一方、未登録語があれば(S105,
Yes)、該未登録語が「ひらがな」単語、或いは「カ
タカナ」単語であるか否かを判定する。未登録語がひら
がな単語、或いはカタカナ単語でない場合(S106,
No)にはステップS111へ進み上記音声合成するた
めに必要となる情報を音声合成部206へ出力する。ま
た、未登録語がひらがな単語、或いはカタカナ単語の場
合(S106,Yes)には、ステップS107へ進
む。
S104で決定されたパスの中に、未登録語があるか否
かを判定する。未登録語が無ければ(S105,N
o)、ステップS111へ進み音声合成部206へ上記
日本語文章を音声合成するために必要となる情報を出力
する処理を行う。一方、未登録語があれば(S105,
Yes)、該未登録語が「ひらがな」単語、或いは「カ
タカナ」単語であるか否かを判定する。未登録語がひら
がな単語、或いはカタカナ単語でない場合(S106,
No)にはステップS111へ進み上記音声合成するた
めに必要となる情報を音声合成部206へ出力する。ま
た、未登録語がひらがな単語、或いはカタカナ単語の場
合(S106,Yes)には、ステップS107へ進
む。
【0041】該ステップ107において、単語同定部2
02は辞書再引き部205へ未登録語を出力する。辞書
再引き部205は未登録語がひらがな、或いはカタカナ
であることから該未登録語の読みは判明しているので、
単語辞書203を検索しその読みを持つ単語が単語辞書
203中にあるか否かを判定する。もし、その読みが単
語辞書203中になければ(S107,No)、辞書再
引き部205はその読みが単語辞書203中にない旨を
単語同定部202に通知する。これにより、処理はステ
ップS111へ移り、単語同定部202は上記日本語文
章を音声合成するために必要となる情報を求め、これを
音声合成部206へ出力する(S111)。該音声合成
のための情報は、例えば、“読み”、“アクセント”、
及びポーズ等の情報から成る発音記号列である。一方、
その読みが単語辞書203中にあれば(S107,Ye
s)、辞書再引き部205はその読みを持つ単語の「読
み情報」を単語辞書203から読み出し、これを単語同
定部202に通知する。本実施例において該「読み情
報」は、読み、アクセント型、接続情報、品詞等の各情
報から成り、その読みを持つ単語を単語ラティスに追加
して単語の同定を行う際、或いは上記入力日本語文章の
アクセントを求める際等に使用される情報を意味する。
単語同定部202は、その読みを持つ単語を前記単語ラ
ティスに追加する。この場合、未登録語と同一の読みを
持つ単語が複数個ある場合には、それら全てについてそ
れぞれの読みを持つ単語を前記単語ラティスに追加する
(S108)。
02は辞書再引き部205へ未登録語を出力する。辞書
再引き部205は未登録語がひらがな、或いはカタカナ
であることから該未登録語の読みは判明しているので、
単語辞書203を検索しその読みを持つ単語が単語辞書
203中にあるか否かを判定する。もし、その読みが単
語辞書203中になければ(S107,No)、辞書再
引き部205はその読みが単語辞書203中にない旨を
単語同定部202に通知する。これにより、処理はステ
ップS111へ移り、単語同定部202は上記日本語文
章を音声合成するために必要となる情報を求め、これを
音声合成部206へ出力する(S111)。該音声合成
のための情報は、例えば、“読み”、“アクセント”、
及びポーズ等の情報から成る発音記号列である。一方、
その読みが単語辞書203中にあれば(S107,Ye
s)、辞書再引き部205はその読みを持つ単語の「読
み情報」を単語辞書203から読み出し、これを単語同
定部202に通知する。本実施例において該「読み情
報」は、読み、アクセント型、接続情報、品詞等の各情
報から成り、その読みを持つ単語を単語ラティスに追加
して単語の同定を行う際、或いは上記入力日本語文章の
アクセントを求める際等に使用される情報を意味する。
単語同定部202は、その読みを持つ単語を前記単語ラ
ティスに追加する。この場合、未登録語と同一の読みを
持つ単語が複数個ある場合には、それら全てについてそ
れぞれの読みを持つ単語を前記単語ラティスに追加する
(S108)。
【0042】続いて、単語同定部202は、前記ステッ
プS108で単語ラティスに追加した単語が複数あるか
否かを判別し、1個である場合(S109,No)に
は、ステップS111へ進み上記追加された単語を未登
録語の同定結果と決定し、単語辞書203を参照して上
記入力日本語文章を音声合成するために必要となる情報
を求め、これを音声合成部206へ出力する。また、単
語ラティスに追加した単語が複数個ある場合(S10
9,Yes)には、ステップS104と同様の処理を未
登録語についてのみ行う。例えば、単語辞書203の内
容が、図6に示すようになっている場合、読みが「な
し」である単語が「梨」と「なし」の2つあるので、図
5に示す単語ラティスに図7に示すように「梨(普通名
詞)」、「なし(接尾語)」の2つの単語を「を(格助
詞)」に接続されるパスとして追加する。これにより、
「梨」或いは「なし」の後に格助詞である「を」が続く
ので、「梨(普通名詞)」が文法上正しく、「なし(接
尾語)」は文法上正しくないと判定する。従って、最終
的には「梨(普通名詞)」、「を(格助詞)」、「食
(動詞語幹バ行下一段)」、「べ(動詞活用語尾バ行下
一段)」、「た(助動詞終止形)」、「。(句点)」と
いうパスを最適なパスと決定する。これにより読みは、
「なしをたべた。」となる(S110)。
プS108で単語ラティスに追加した単語が複数あるか
否かを判別し、1個である場合(S109,No)に
は、ステップS111へ進み上記追加された単語を未登
録語の同定結果と決定し、単語辞書203を参照して上
記入力日本語文章を音声合成するために必要となる情報
を求め、これを音声合成部206へ出力する。また、単
語ラティスに追加した単語が複数個ある場合(S10
9,Yes)には、ステップS104と同様の処理を未
登録語についてのみ行う。例えば、単語辞書203の内
容が、図6に示すようになっている場合、読みが「な
し」である単語が「梨」と「なし」の2つあるので、図
5に示す単語ラティスに図7に示すように「梨(普通名
詞)」、「なし(接尾語)」の2つの単語を「を(格助
詞)」に接続されるパスとして追加する。これにより、
「梨」或いは「なし」の後に格助詞である「を」が続く
ので、「梨(普通名詞)」が文法上正しく、「なし(接
尾語)」は文法上正しくないと判定する。従って、最終
的には「梨(普通名詞)」、「を(格助詞)」、「食
(動詞語幹バ行下一段)」、「べ(動詞活用語尾バ行下
一段)」、「た(助動詞終止形)」、「。(句点)」と
いうパスを最適なパスと決定する。これにより読みは、
「なしをたべた。」となる(S110)。
【0043】文章の解析が終了した時点で、単語同定部
202は求められた単語の同定結果から、複数の単語を
“アクセント句”と呼ぶ単位にまとめ再構成する。そし
て、各アクセント句についてそれを構成する各単語のア
クセント型を参照してアクセント結合処理を行い各単語
の最終的なアクセントを求める。例えば、「梨を食べ
た。」の場合には、最初の「梨」のアクセント型は2型
であるので、その読みである「なし」と次の格助詞
「を」は最初の「な」を低く発音し、「し」を高く発音
し、「を」を低く発音するようなアクセントを求める。
以下、同様にそれぞれの単語のアクセント型からアクセ
ントを求め、それらを連続することにより、図20に示
すアクセント情報を求める。そして、以上のようにして
求めた入力日本語文章の読み、アクセント、及びポーズ
などの情報を音声合成部206に出力する(S11
1)。
202は求められた単語の同定結果から、複数の単語を
“アクセント句”と呼ぶ単位にまとめ再構成する。そし
て、各アクセント句についてそれを構成する各単語のア
クセント型を参照してアクセント結合処理を行い各単語
の最終的なアクセントを求める。例えば、「梨を食べ
た。」の場合には、最初の「梨」のアクセント型は2型
であるので、その読みである「なし」と次の格助詞
「を」は最初の「な」を低く発音し、「し」を高く発音
し、「を」を低く発音するようなアクセントを求める。
以下、同様にそれぞれの単語のアクセント型からアクセ
ントを求め、それらを連続することにより、図20に示
すアクセント情報を求める。そして、以上のようにして
求めた入力日本語文章の読み、アクセント、及びポーズ
などの情報を音声合成部206に出力する(S11
1)。
【0044】最後に、音声合成部206は、単語同定部
202から入力される読み、アクセント、及びポーズ等
の情報を用いて音声合成を行い、前処理部201に入力
された日本語文章を音声出力する(S112)。
202から入力される読み、アクセント、及びポーズ等
の情報を用いて音声合成を行い、前処理部201に入力
された日本語文章を音声出力する(S112)。
【0045】上記の方法では、未登録語であるひらがな
単語、或いはカタカナ単語と同じ読みを持つ単語が単語
辞書203にない場合には、それらのひらがな単語、或
いはカタカナ単語を未登録語とみなしてその表記をその
まま読みに置き換えて音声合成を行う。
単語、或いはカタカナ単語と同じ読みを持つ単語が単語
辞書203にない場合には、それらのひらがな単語、或
いはカタカナ単語を未登録語とみなしてその表記をその
まま読みに置き換えて音声合成を行う。
【0046】次に、未登録語であるひらがな単語、或い
はカタカナ単語と同じ読みを持つ単語が単語辞書203
にない場合でも、更に詳細に該未登録語を解析して、そ
れに正しい読みやアクセントを付与する方法の一例を図
8のフローチャートを参照しながら以下に説明する。
はカタカナ単語と同じ読みを持つ単語が単語辞書203
にない場合でも、更に詳細に該未登録語を解析して、そ
れに正しい読みやアクセントを付与する方法の一例を図
8のフローチャートを参照しながら以下に説明する。
【0047】図8のステップS201〜S206は、図
4のステップS101〜S106と同様の処理を行うの
で、詳細な説明は省略する。図8のフローチャートは図
4のフローチャートのステップS106〜S107の間
にステップS207〜S209を追加したものとなって
いる。このステップS207〜S209では未登録語が
ひらがな単語、或いはカタカナ単語であった場合、該単
語と同じ読みを持つ単語が単語辞書203にないときに
は、辞書再引き部205が該未登録語に対して長音化、
または無声化処理を行う。そして今度は、辞書再引き部
205は該処理によって得られた読みを用いて、その読
みを持つ単語が単語辞書203中にあるか否かを再度判
定する。
4のステップS101〜S106と同様の処理を行うの
で、詳細な説明は省略する。図8のフローチャートは図
4のフローチャートのステップS106〜S107の間
にステップS207〜S209を追加したものとなって
いる。このステップS207〜S209では未登録語が
ひらがな単語、或いはカタカナ単語であった場合、該単
語と同じ読みを持つ単語が単語辞書203にないときに
は、辞書再引き部205が該未登録語に対して長音化、
または無声化処理を行う。そして今度は、辞書再引き部
205は該処理によって得られた読みを用いて、その読
みを持つ単語が単語辞書203中にあるか否かを再度判
定する。
【0048】即ち、ステップS206で、未登録語が
「ひらがな」単語、或いは「カタカナ」単語であると判
定されれば、その読みを持った単語が単語辞書203中
にあるか否かを判定し、単語辞書203中にあれば(S
207,Yes)、ステップS210へ進む。一方、単
語辞書203中になければ(S207,No)、ステッ
プS208へ進む。
「ひらがな」単語、或いは「カタカナ」単語であると判
定されれば、その読みを持った単語が単語辞書203中
にあるか否かを判定し、単語辞書203中にあれば(S
207,Yes)、ステップS210へ進む。一方、単
語辞書203中になければ(S207,No)、ステッ
プS208へ進む。
【0049】該ステップS208では、その読みを持っ
た単語が単語辞書203中にないと判定された未登録語
に対して、長音化処理、或いは無声化処理、またはそれ
らの両方の処理を施す。
た単語が単語辞書203中にないと判定された未登録語
に対して、長音化処理、或いは無声化処理、またはそれ
らの両方の処理を施す。
【0050】長音化処理とは、“ei”、“ou”のよ
うな二重母音の場合に、それぞれ“e−”、“o−”に
置き換える処理をいう。この処理を施すことにより、例
えば、未登録語が「エイガ」の場合、その読みを持つ単
語が単語辞書203にはないと判定されても、「エー
ガ」と置き換えることによって単語辞書203から「映
画」等の単語が抽出できるようになる。
うな二重母音の場合に、それぞれ“e−”、“o−”に
置き換える処理をいう。この処理を施すことにより、例
えば、未登録語が「エイガ」の場合、その読みを持つ単
語が単語辞書203にはないと判定されても、「エー
ガ」と置き換えることによって単語辞書203から「映
画」等の単語が抽出できるようになる。
【0051】また、上述した長音化が不可能な場合に
は、未登録語に対して無声化処理を行う。無声化とは、
本来有声音である母音が前後の音素環境などによって無
声音となることをいう。例えば、未登録語が「アキタ」
の場合にその読みを持つ単語が単語辞書203にはない
と判定されても、「アキタ」の「キ」を表す「ki」の
母音「i」に対して無声化処理を行い、「アキ@タ」と
置き換えることによって「秋田」等の単語が抽出できる
ようになる。尚、「キ@」は「キ」の無声化音を表現す
る記号である。
は、未登録語に対して無声化処理を行う。無声化とは、
本来有声音である母音が前後の音素環境などによって無
声音となることをいう。例えば、未登録語が「アキタ」
の場合にその読みを持つ単語が単語辞書203にはない
と判定されても、「アキタ」の「キ」を表す「ki」の
母音「i」に対して無声化処理を行い、「アキ@タ」と
置き換えることによって「秋田」等の単語が抽出できる
ようになる。尚、「キ@」は「キ」の無声化音を表現す
る記号である。
【0052】上述したような長音化や無声化の処理を行
うのは、一般に、実際に人間が発音する際には長音化や
無声化が施される単語については、予めその読みを長音
化または無声化して単語辞書203に登録しておく場合
が多いからである。
うのは、一般に、実際に人間が発音する際には長音化や
無声化が施される単語については、予めその読みを長音
化または無声化して単語辞書203に登録しておく場合
が多いからである。
【0053】更には、上述した長音化と無声化の両方の
処理が可能な未登録語に対しては、その未登録語に対し
て、該両方の処理を施し、該処理により得られる該未登
録語の新たな読みに対応する単語が単語辞書203中に
あるか否かを判定する。例えば、未登録語が「キキョ
ウ」の場合にその読みを持つ単語が単語辞書203には
ないと判定された場合、該「キキョウ」に対して長音
化、無声化の両方の処理を施して「キ@キョー」と置き
換えることによって「帰郷」、「帰京」、「桔梗」など
の名詞を単語辞書203から抽出できるようになる。図
9は、単語辞書203の一部を示しており、「帰郷」、
「帰京」、「桔梗」の読みとしてそれぞれ「キ@キョ
ー」が登録されている。
処理が可能な未登録語に対しては、その未登録語に対し
て、該両方の処理を施し、該処理により得られる該未登
録語の新たな読みに対応する単語が単語辞書203中に
あるか否かを判定する。例えば、未登録語が「キキョ
ウ」の場合にその読みを持つ単語が単語辞書203には
ないと判定された場合、該「キキョウ」に対して長音
化、無声化の両方の処理を施して「キ@キョー」と置き
換えることによって「帰郷」、「帰京」、「桔梗」など
の名詞を単語辞書203から抽出できるようになる。図
9は、単語辞書203の一部を示しており、「帰郷」、
「帰京」、「桔梗」の読みとしてそれぞれ「キ@キョ
ー」が登録されている。
【0054】前記ステップS208で、辞書再引き部2
05は長音化処理、或いは無声化処理、またはそれら両
方の処理を施した後、該処理により得られた未登録語の
読みを持つ単語が単語辞書203中にあるか否か判定す
る(S209)。そして、該単語が単語辞書203中に
あれば(S209,Yes)、辞書再引き部205は単
語同定部202へ該単語の読み情報を出力し、ステップ
S210へ進む。一方、該単語が単語辞書203中にな
ければ(S207,No)、ステップS213へ進み、
単語同定部202がそれまでに得られた上記入力日本語
文章の読みと、アクセント、及びポーズなどの情報を基
に、上記ステップS201で入力された日本語文章を音
声合成するために必要となる情報を音声合成部206へ
出力する。
05は長音化処理、或いは無声化処理、またはそれら両
方の処理を施した後、該処理により得られた未登録語の
読みを持つ単語が単語辞書203中にあるか否か判定す
る(S209)。そして、該単語が単語辞書203中に
あれば(S209,Yes)、辞書再引き部205は単
語同定部202へ該単語の読み情報を出力し、ステップ
S210へ進む。一方、該単語が単語辞書203中にな
ければ(S207,No)、ステップS213へ進み、
単語同定部202がそれまでに得られた上記入力日本語
文章の読みと、アクセント、及びポーズなどの情報を基
に、上記ステップS201で入力された日本語文章を音
声合成するために必要となる情報を音声合成部206へ
出力する。
【0055】以降のステップS210〜S214の処理
は、図4のS108〜S112の処理と同じであるので
詳細な説明は省略する。図10は、本発明の第2の実施
例の構成を示すブロック図である。図11のフローチャ
ートを参照しながら、第2の実施例の構成、及び動作を
以下に説明する。この第2の実施例では、未登録語が漢
字混じり単語の場合にも、その未登録語の読みとアクセ
ントの情報を求めて、該未登録語を音声出力することが
可能なものである。
は、図4のS108〜S112の処理と同じであるので
詳細な説明は省略する。図10は、本発明の第2の実施
例の構成を示すブロック図である。図11のフローチャ
ートを参照しながら、第2の実施例の構成、及び動作を
以下に説明する。この第2の実施例では、未登録語が漢
字混じり単語の場合にも、その未登録語の読みとアクセ
ントの情報を求めて、該未登録語を音声出力することが
可能なものである。
【0056】図11のフローチャートのステップS30
1〜S305の処理は、図4のステップS101〜S1
05と同じであるので詳細な説明は省略する。ステップ
S306で、単語同定部302は未登録語がひらがな単
語、或いはカタカナ単語であると判定すれば(S30
6,Yes)、ステップS308へ進む。一方、該未登
録語がひらがな単語、或いはカタカナ単語のいずれでも
なければ(S306,No)、該未登録語に漢字が含ま
れているものと判断して読み推定部307にその未登録
語を出力し、次のステップS307へ進む。
1〜S305の処理は、図4のステップS101〜S1
05と同じであるので詳細な説明は省略する。ステップ
S306で、単語同定部302は未登録語がひらがな単
語、或いはカタカナ単語であると判定すれば(S30
6,Yes)、ステップS308へ進む。一方、該未登
録語がひらがな単語、或いはカタカナ単語のいずれでも
なければ(S306,No)、該未登録語に漢字が含ま
れているものと判断して読み推定部307にその未登録
語を出力し、次のステップS307へ進む。
【0057】読み推定部307により行われる該ステッ
プS307の読みの推定処理を、図12に示すフローチ
ャートを参照しながら以下に説明する。先ず、読み推定
部307は漢字が含まれている未登録語の中の漢字1文
字毎の読みを単漢字辞書304から引く(S401)。
例えば、未登録語が「打合せ」である場合に、それぞれ
の単漢字「打」、「合」の読みを単漢字辞書304から
引く。「打」の読みとして、音読み「ダ」と訓読み「ウ
ツ」が得られる。また、「合」の読みとして、音読み
「ゴウ」と訓読み「アウ」、「アワセル」、「アワス」
が得られる。図13に単漢字辞書204に登録されてい
る上記単漢字「打」及び「合」に関する辞書情報の一部
を示す。
プS307の読みの推定処理を、図12に示すフローチ
ャートを参照しながら以下に説明する。先ず、読み推定
部307は漢字が含まれている未登録語の中の漢字1文
字毎の読みを単漢字辞書304から引く(S401)。
例えば、未登録語が「打合せ」である場合に、それぞれ
の単漢字「打」、「合」の読みを単漢字辞書304から
引く。「打」の読みとして、音読み「ダ」と訓読み「ウ
ツ」が得られる。また、「合」の読みとして、音読み
「ゴウ」と訓読み「アウ」、「アワセル」、「アワス」
が得られる。図13に単漢字辞書204に登録されてい
る上記単漢字「打」及び「合」に関する辞書情報の一部
を示す。
【0058】同図に示す単漢字辞書204を検索するこ
とにより、最初の読み候補として、「打」の音読み
「ダ」、「合」の音読み「ゴウ」、及び最後の文字
「せ」との組み合わせである「ダゴウセ」が得られる。
更に、これに前記長音化処理を施すことによって「ダゴ
ーセ」が得られる。
とにより、最初の読み候補として、「打」の音読み
「ダ」、「合」の音読み「ゴウ」、及び最後の文字
「せ」との組み合わせである「ダゴウセ」が得られる。
更に、これに前記長音化処理を施すことによって「ダゴ
ーセ」が得られる。
【0059】また、第2の読み候補として、「打」の音
読み「ダ」と「合」の訓読み「アウ」、「アワセル」、
「アワス」との組み合わせがあるが、「打合せ」の最後
の文字が「せ」であるので、単語辞書303の文法情報
を参照することによって、語幹が変化して「ダアワセ」
が得られる。
読み「ダ」と「合」の訓読み「アウ」、「アワセル」、
「アワス」との組み合わせがあるが、「打合せ」の最後
の文字が「せ」であるので、単語辞書303の文法情報
を参照することによって、語幹が変化して「ダアワセ」
が得られる。
【0060】更に、第3の読み候補として、「打」の訓
読み「ウツ」と「合」の音読み「ゴウ」との組み合わせ
があるが、「ウツ」の後ろの「ゴウ」との接続関係によ
って「ウツ」が「ウチ」に変化する。その結果、「ウチ
ゴウセ」となるが、更に長音化処理を施すことによって
「ウチゴーセ」となる。
読み「ウツ」と「合」の音読み「ゴウ」との組み合わせ
があるが、「ウツ」の後ろの「ゴウ」との接続関係によ
って「ウツ」が「ウチ」に変化する。その結果、「ウチ
ゴウセ」となるが、更に長音化処理を施すことによって
「ウチゴーセ」となる。
【0061】更に、また、第4の読み候補として、
「打」の訓読み「ウツ」と「合」の訓読み「アウ」、
「アワセル」、「アワス」との組み合わせがあるが、
「ウツ」が上記第3の読み候補の場合と同様にして「ウ
チ」に変化する。更に、「打合せ」の最後の文字が
「せ」であるので、単語辞書303の文法情報を参照す
ることによって語幹が変化して「アワセ」が得られる。
この結果、最終的に「ウチアワセ」が得られる。
「打」の訓読み「ウツ」と「合」の訓読み「アウ」、
「アワセル」、「アワス」との組み合わせがあるが、
「ウツ」が上記第3の読み候補の場合と同様にして「ウ
チ」に変化する。更に、「打合せ」の最後の文字が
「せ」であるので、単語辞書303の文法情報を参照す
ることによって語幹が変化して「アワセ」が得られる。
この結果、最終的に「ウチアワセ」が得られる。
【0062】次に、読み推定部307は上記ステップS
401の処理で得られた単漢字の読みの組み合わせが複
数あるか否かを判定する。組み合わせが1つの場合(S
402,No)には、その組み合わせにより読みを決定
して読みの推定を終了する。また、組み合わせが複数あ
る場合(S402,Yes)には、次のステップS40
3へ進む。
401の処理で得られた単漢字の読みの組み合わせが複
数あるか否かを判定する。組み合わせが1つの場合(S
402,No)には、その組み合わせにより読みを決定
して読みの推定を終了する。また、組み合わせが複数あ
る場合(S402,Yes)には、次のステップS40
3へ進む。
【0063】次に、読み推定部307は単漢字辞書30
4に格納されたルールを参照することによって読みを1
つに決定する(S403)。ルールとは、例えば、ある
文字は音読みされるより訓読みされることが多く、訓読
みされたときは後ろの文字も訓読みされることが多い
等、各文字毎に単漢字辞書304に格納されている不図
示の文法情報をいう。読み推定部307は、このルール
を参照することによって、前述した読み候補の場合には
第4の読み候補が最も可能性が高いと判断し、「打合
せ」の読みを最終的に「ウチアワセ」と決定する。そし
て、このように決定した未登録語の読みを辞書再引き部
305に出力する。
4に格納されたルールを参照することによって読みを1
つに決定する(S403)。ルールとは、例えば、ある
文字は音読みされるより訓読みされることが多く、訓読
みされたときは後ろの文字も訓読みされることが多い
等、各文字毎に単漢字辞書304に格納されている不図
示の文法情報をいう。読み推定部307は、このルール
を参照することによって、前述した読み候補の場合には
第4の読み候補が最も可能性が高いと判断し、「打合
せ」の読みを最終的に「ウチアワセ」と決定する。そし
て、このように決定した未登録語の読みを辞書再引き部
305に出力する。
【0064】辞書再引き部305は読み推定部307か
ら上記読みを入力すると、単語辞書303を検索し、そ
の読みを持つ単語が単語辞書303中にあるか否かを判
定する(S308)。前述した「打合せ」の場合、「ウ
チアワセ」の読みを持つ単語が単語辞書303中にあれ
ば、辞書再引き部305はその表記である「打ち合わ
せ」を未登録語「打合せ」の表記として決定し、その読
み情報を単語辞書303から読み出して単語同定部30
2へ通知する。図13は、読み情報として「ウチアワ
セ」が登録されている単語辞書303の例を示す図であ
る。この単語辞書303においては、上記「ウチアワ
セ」の読みに対応する表記として「打ち合わせ」が登録
されている。
ら上記読みを入力すると、単語辞書303を検索し、そ
の読みを持つ単語が単語辞書303中にあるか否かを判
定する(S308)。前述した「打合せ」の場合、「ウ
チアワセ」の読みを持つ単語が単語辞書303中にあれ
ば、辞書再引き部305はその表記である「打ち合わ
せ」を未登録語「打合せ」の表記として決定し、その読
み情報を単語辞書303から読み出して単語同定部30
2へ通知する。図13は、読み情報として「ウチアワ
セ」が登録されている単語辞書303の例を示す図であ
る。この単語辞書303においては、上記「ウチアワ
セ」の読みに対応する表記として「打ち合わせ」が登録
されている。
【0065】ステップS309〜S313の処理は、図
4のS108〜S112と同じであるので詳細な説明は
省略する。図12のフローチャートに示されたステップ
S307の読みの推定処理の他の例を、図15に示すフ
ローチャートを用いて以下に説明する。
4のS108〜S112と同じであるので詳細な説明は
省略する。図12のフローチャートに示されたステップ
S307の読みの推定処理の他の例を、図15に示すフ
ローチャートを用いて以下に説明する。
【0066】先ず、読み推定部307は、漢字が含まれ
ている未登録語に対して、漢字1文字毎の読みを単漢字
辞書304から引く(S501)。この処理は、図11
のS401と同じであるので詳細な説明は省略する。
ている未登録語に対して、漢字1文字毎の読みを単漢字
辞書304から引く(S501)。この処理は、図11
のS401と同じであるので詳細な説明は省略する。
【0067】次に、読みの組み合わせが複数あるか否か
を判定する。読みの組み合わせが複数ある場合(S50
2,Yes)には次のステップS503へ進み、1つの
場合(S502,No)には処理を終了する。
を判定する。読みの組み合わせが複数ある場合(S50
2,Yes)には次のステップS503へ進み、1つの
場合(S502,No)には処理を終了する。
【0068】図12のフローチャートを用いて説明した
「打合せ」の場合には、「ダゴーセ」、「ダアワセ」、
「ウチゴーセ」、「ウチアワセ」の4つの読み候補が得
られ、ステップS403ではそれらの中から単漢字辞書
304に格納されたルールを用いることによって、1つ
の候補を選択していた。
「打合せ」の場合には、「ダゴーセ」、「ダアワセ」、
「ウチゴーセ」、「ウチアワセ」の4つの読み候補が得
られ、ステップS403ではそれらの中から単漢字辞書
304に格納されたルールを用いることによって、1つ
の候補を選択していた。
【0069】図15のステップS503においては、読
み候補の選択をユーザに委ねる点が図11のフローチャ
ートに示す方法と異なっている。例えば、前述した「打
合せ」の4つの読み候補である「ダゴーセ」、「ダアワ
セ」、「ウチゴーセ」、「ウチアワセ」を不図示の表示
装置の画面に「読み候補」として表示する。ユーザは、
該「読み候補」の一覧表示中から正しい読み候補を選
び、その読み候補をキーボードやマウス等の外部入力装
置を介して選択入力する。
み候補の選択をユーザに委ねる点が図11のフローチャ
ートに示す方法と異なっている。例えば、前述した「打
合せ」の4つの読み候補である「ダゴーセ」、「ダアワ
セ」、「ウチゴーセ」、「ウチアワセ」を不図示の表示
装置の画面に「読み候補」として表示する。ユーザは、
該「読み候補」の一覧表示中から正しい読み候補を選
び、その読み候補をキーボードやマウス等の外部入力装
置を介して選択入力する。
【0070】該ユーザによる読み候補の選択入力が終了
すれば、読み推定部307はそのユーザにより入力され
た上記未登録語の読みを辞書再引き部305へ出力す
る。辞書再引き部305は上記読みを入力すると単語辞
書303を検索し、その読みを持つ単語が単語辞書30
3中にあるか否かを判定する(S308)。例えば、ユ
ーザが「ウチアワセ」を選択したとすると、該「ウチア
ワセ」の読みを持つ単語が単語辞書303中にあれば、
辞書再引き部305は単語辞書303に登録されている
該単語の表記「打ち合わせ」を未登録語「打合せ」の表
記として決定し、その未登録語の前記「読み情報」を単
語辞書303から読み出して単語同定部302へ通知す
る。
すれば、読み推定部307はそのユーザにより入力され
た上記未登録語の読みを辞書再引き部305へ出力す
る。辞書再引き部305は上記読みを入力すると単語辞
書303を検索し、その読みを持つ単語が単語辞書30
3中にあるか否かを判定する(S308)。例えば、ユ
ーザが「ウチアワセ」を選択したとすると、該「ウチア
ワセ」の読みを持つ単語が単語辞書303中にあれば、
辞書再引き部305は単語辞書303に登録されている
該単語の表記「打ち合わせ」を未登録語「打合せ」の表
記として決定し、その未登録語の前記「読み情報」を単
語辞書303から読み出して単語同定部302へ通知す
る。
【0071】ステップS309〜S313の処理は、図
4のS108〜S112と同じであるので詳細な説明は
省略する。次に、上述のようにして求められた入力日本
語文章の読み、アクセント、及びポーズなどの情報から
該日本語文章の音声を合成する音声合成部206、30
6の構成及び動作を説明する。
4のS108〜S112と同じであるので詳細な説明は
省略する。次に、上述のようにして求められた入力日本
語文章の読み、アクセント、及びポーズなどの情報から
該日本語文章の音声を合成する音声合成部206、30
6の構成及び動作を説明する。
【0072】図3の音声合成部206、及び図10の音
声合成部306は、単語同定部202、或いは単語同定
部302からの読み情報とアクセント情報から音声を合
成するものであり、規則合成合成方式などにより音声合
成を行う。
声合成部306は、単語同定部202、或いは単語同定
部302からの読み情報とアクセント情報から音声を合
成するものであり、規則合成合成方式などにより音声合
成を行う。
【0073】図16は、PARCOR形合成方式により
音声合成を行うPARCOR形合成装置から成る音声合
成部206、306の主要部を示す。同図に示すPAR
COR形合成装置は、音声合成するための情報として音
源振幅A、音源周期T及びPARCOR係数を用いる。
音源振幅Aによって音声の強さ(音量)が決まるが、本
発明の場合には特に関係しないので、詳細な説明は省略
する。また、音源周期Tによって音声の高さが決まり、
本実施例の場合には、アクセント情報によってその音源
周期Tが変更される。
音声合成を行うPARCOR形合成装置から成る音声合
成部206、306の主要部を示す。同図に示すPAR
COR形合成装置は、音声合成するための情報として音
源振幅A、音源周期T及びPARCOR係数を用いる。
音源振幅Aによって音声の強さ(音量)が決まるが、本
発明の場合には特に関係しないので、詳細な説明は省略
する。また、音源周期Tによって音声の高さが決まり、
本実施例の場合には、アクセント情報によってその音源
周期Tが変更される。
【0074】PARCOR係数は、偏自己相関関数法を
用いて求めることが可能であり、仮に1フレームを20
ms(1秒に50フレーム)とし、PARCOR係数の
数が10、各係数が10ビットで表すことができるとす
ると、10×10×50=5000bpsの情報量で1
秒間の音声を再生することができる。“あ”、“い”、
“う”、“え”、“お”といった母音の音声を再生する
場合、PARCOR係数はそれぞれ異なるものが必要と
なるため、各々の係数を予め不図示のメモリに格納して
おき必要に応じて読み出す。
用いて求めることが可能であり、仮に1フレームを20
ms(1秒に50フレーム)とし、PARCOR係数の
数が10、各係数が10ビットで表すことができるとす
ると、10×10×50=5000bpsの情報量で1
秒間の音声を再生することができる。“あ”、“い”、
“う”、“え”、“お”といった母音の音声を再生する
場合、PARCOR係数はそれぞれ異なるものが必要と
なるため、各々の係数を予め不図示のメモリに格納して
おき必要に応じて読み出す。
【0075】図16のインパルス発生器501は、音源
周期Tのパルスを発生させ、増幅器5039に入力す
る。増幅器5039は、入力されたパルスを音源振幅A
に増幅して、減算器5037に出力する。インパルス発
生器501は、主として母音を再生する際に選択され
る。インパルス発生器501は、例えば、音源周期Tが
250Hz、サンプル周期を8kHzの場合、図17に
示すようにパルス幅が125μs、周期が4msのパル
スが発生する。パルスの振幅は音源振幅Aによって定ま
る。音声のアクセントの制御は、音源周期Tを変更する
ことによって行われる。例えば、アクセントを高くする
のであれば音源周期Tを高い値にし、アクセントを低く
するのであれば音源周期Tを低い値に設定する。このよ
うにして、音声にアクセントの高低を付けることが可能
になる。
周期Tのパルスを発生させ、増幅器5039に入力す
る。増幅器5039は、入力されたパルスを音源振幅A
に増幅して、減算器5037に出力する。インパルス発
生器501は、主として母音を再生する際に選択され
る。インパルス発生器501は、例えば、音源周期Tが
250Hz、サンプル周期を8kHzの場合、図17に
示すようにパルス幅が125μs、周期が4msのパル
スが発生する。パルスの振幅は音源振幅Aによって定ま
る。音声のアクセントの制御は、音源周期Tを変更する
ことによって行われる。例えば、アクセントを高くする
のであれば音源周期Tを高い値にし、アクセントを低く
するのであれば音源周期Tを低い値に設定する。このよ
うにして、音声にアクセントの高低を付けることが可能
になる。
【0076】図16の白色雑音発生器502で生成され
るパルスは、ランダムに発生する雑音であり、主として
子音を再生する際に選択される。白色雑音発生器502
が選択されると、白色雑音発生器502で生成されたパ
ルスは増幅器5039で上記音源振幅Aに対応する値に
増幅されて減算器5037に入力される。
るパルスは、ランダムに発生する雑音であり、主として
子音を再生する際に選択される。白色雑音発生器502
が選択されると、白色雑音発生器502で生成されたパ
ルスは増幅器5039で上記音源振幅Aに対応する値に
増幅されて減算器5037に入力される。
【0077】また、フィルタ部503は、一般に声道フ
ィルタと呼ばれるものであり、音声スペクトルを持った
信号を生成する。フィルタ部503は、複数の乗算器5
031、加算器5033、及びデータを1サンプル周期
の時間遅らすカスケード接続された複数の遅延回路50
35から構成される。遅延回路5035の出力は次段の
遅延回路5035に入力され、次段の遅延回路5035
は前段の遅延回路5035よりも1サンプル周期ずつ遅
れたデータを保持する。また、各遅延回路5035の出
力はそれぞれ対応する乗算器5031に入力され、各乗
算器5031は、該入力値と当該PARCOR係数(偏
自己相関係数)α1,α2,α3,---,αp とを乗算し、その
乗算結果を対応する加算器5033に出力する。例え
ば、“あ”の音声を生成するのであれば母音のPARC
OR係数α1,α2,α3,---,αp (−1<αi<1:i=
1,2,3,--- ,p)の中から“あ”に相当するもの
が1フレーム(20ms)おきに前記メモリから読み出
されて乗算器5031に順次入力され、“あ”に相当す
る音声スペクトルを有する信号が減算器5037によっ
て生成され、これがローパスフィルタLPF504を通
して音声となって外部に出力される。子音の場合も同様
な処理が行われる。従って、単語の読み情報から選択さ
れたPARCOR係数が、所定の時間の間20ms毎に
更新されて音声スペクトルが出力され、この処理を文章
の単語の読み情報を順次読み込んで繰り返すことによっ
て、音声が再生される。
ィルタと呼ばれるものであり、音声スペクトルを持った
信号を生成する。フィルタ部503は、複数の乗算器5
031、加算器5033、及びデータを1サンプル周期
の時間遅らすカスケード接続された複数の遅延回路50
35から構成される。遅延回路5035の出力は次段の
遅延回路5035に入力され、次段の遅延回路5035
は前段の遅延回路5035よりも1サンプル周期ずつ遅
れたデータを保持する。また、各遅延回路5035の出
力はそれぞれ対応する乗算器5031に入力され、各乗
算器5031は、該入力値と当該PARCOR係数(偏
自己相関係数)α1,α2,α3,---,αp とを乗算し、その
乗算結果を対応する加算器5033に出力する。例え
ば、“あ”の音声を生成するのであれば母音のPARC
OR係数α1,α2,α3,---,αp (−1<αi<1:i=
1,2,3,--- ,p)の中から“あ”に相当するもの
が1フレーム(20ms)おきに前記メモリから読み出
されて乗算器5031に順次入力され、“あ”に相当す
る音声スペクトルを有する信号が減算器5037によっ
て生成され、これがローパスフィルタLPF504を通
して音声となって外部に出力される。子音の場合も同様
な処理が行われる。従って、単語の読み情報から選択さ
れたPARCOR係数が、所定の時間の間20ms毎に
更新されて音声スペクトルが出力され、この処理を文章
の単語の読み情報を順次読み込んで繰り返すことによっ
て、音声が再生される。
【0078】本実施例では、単語同定部202、302
から出力された読み、アクセント、及びポーズなどの情
報が音声合成部206、306に入力されると、該音声
合成部206、306は、該読みを基にメモリからその
読みに対応したPARCOR係数を順次読み出し、フィ
ルタ部503のα1,α2,α3,--- ,αpを順次更
新する。同時に、音声合成部206、306は、上記読
みに対応するアクセントによって音源周期Tを決め順次
変更することによって、当該アクセントを持った音声信
号を生成する。
から出力された読み、アクセント、及びポーズなどの情
報が音声合成部206、306に入力されると、該音声
合成部206、306は、該読みを基にメモリからその
読みに対応したPARCOR係数を順次読み出し、フィ
ルタ部503のα1,α2,α3,--- ,αpを順次更
新する。同時に、音声合成部206、306は、上記読
みに対応するアクセントによって音源周期Tを決め順次
変更することによって、当該アクセントを持った音声信
号を生成する。
【0079】音声合成部206、306は、上記PAR
COR合成装置方式にも、LSP(線スペクトル対)方
式、波形編集(波形合成)方式、またはホルマント合成
方式等を用いた音声合成装置により構成するようにして
も良い。
COR合成装置方式にも、LSP(線スペクトル対)方
式、波形編集(波形合成)方式、またはホルマント合成
方式等を用いた音声合成装置により構成するようにして
も良い。
【0080】このように、本実施例では、多様な表記で
表現された日本語文章中において未登録単語として検出
される単語の発生頻度を減らすことができるので、該日
本語文章を聞き手が正確にその内容を理解できるように
音声合成することが可能になる。
表現された日本語文章中において未登録単語として検出
される単語の発生頻度を減らすことができるので、該日
本語文章を聞き手が正確にその内容を理解できるように
音声合成することが可能になる。
【0081】また、上記第1及び第2実施例は、例え
ば、日本語文書の読み上げ装置などのような日本語テキ
ストの音声合成装置に適用されるものであるが、本発明
は、これに限定されることなく、例えば、日本語処理、
機械翻訳、またはかな漢字変換等のように日本語文章を
正しく解析する必要がある全てのシステムに適用可能な
ものである。
ば、日本語文書の読み上げ装置などのような日本語テキ
ストの音声合成装置に適用されるものであるが、本発明
は、これに限定されることなく、例えば、日本語処理、
機械翻訳、またはかな漢字変換等のように日本語文章を
正しく解析する必要がある全てのシステムに適用可能な
ものである。
【0082】
【発明の効果】以上説明したように、本発明によれば日
本語文章を単語辞書を用いて解析中に未登録語が検出さ
れた場合でも、該未登録語の読みを用いて単語辞書、ま
たは単漢字辞書を検索することによって、多様な表記で
表現された日本語文章を解析する際、未登録語として処
理される単語の数を減らすことが可能になる。また、こ
れにより多様な表記で表現された日本語文章の読みを正
しく解析して該日本語文章を正しい読み、及び自然なア
クセントで音声合成することが可能になる。
本語文章を単語辞書を用いて解析中に未登録語が検出さ
れた場合でも、該未登録語の読みを用いて単語辞書、ま
たは単漢字辞書を検索することによって、多様な表記で
表現された日本語文章を解析する際、未登録語として処
理される単語の数を減らすことが可能になる。また、こ
れにより多様な表記で表現された日本語文章の読みを正
しく解析して該日本語文章を正しい読み、及び自然なア
クセントで音声合成することが可能になる。
【図1】本発明の原理を説明する図(その1)である。
【図2】本発明の原理を説明する図(その2)である。
【図3】第1実施例の全体構成を示すブロック図であ
る。
る。
【図4】第1実施例の動作を説明するフローチャートで
ある。
ある。
【図5】未登録語がある場合の単語ラティスの一例を示
す図である。
す図である。
【図6】単語辞書の一部を示す図(その1)である。
【図7】単語が追加された場合の単語ラティスを示す図
である。
である。
【図8】第1実施例の他の動作例を説明するフローチャ
ートである。
ートである。
【図9】単語辞書の一部を示す図(その2)である。
【図10】第2実施例の全体構成を示すブロック図であ
る。
る。
【図11】第2実施例の動作を説明するフローチャート
である。
である。
【図12】読み推定部の動作を説明するフローチャート
である。
である。
【図13】単漢字辞書の一部を示す図である。
【図14】単語辞書の一部を示す図(その3)である。
【図15】読み推定部の動作の他の例を説明するフロー
チャートである。
チャートである。
【図16】音声合成部の一構成例を示す図である。
【図17】インパルス発生器で生成されるパルスの一例
を示す図である。
を示す図である。
【図18】従来の音声合成における日本語解析方式の全
体構成を示す図である。
体構成を示す図である。
【図19】従来の単語の同定方法を説明する図である。
【図20】文章のアクセントの一例を示す図である。
101 第1の単語同定手段 102 第2の単語同定手段 103 単語辞書 104 音声合成手段 105 読み推定手段 106 単漢字辞書 201、301 前処理部 202、202 単語同定部 203、303 単語辞書 204、304 単漢字辞書 205、305 辞書再引き部 206、306 音声合成部 307 読み推定部
Claims (13)
- 【請求項1】 入力された日本語文章の中から、単語辞
書を検索しても同定できない単語を未登録語として検出
する第1の単語同定手段と、 前記第1の単語同定手段で検出された未登録語の読みを
用いて前記単語辞書を検索して、該未登録語を音声合成
するために必要な情報を求める第2の単語同定手段と、 を有することを特徴とする日本語解析装置。 - 【請求項2】 前記第2の単語同定手段は、前記第1の
単語同定手段で検出された未登録語の読みを用いて前記
単語辞書を検索して、該未登録語に関する前記日本語文
章を解析するために必要となる情報を求める辞書再引き
手段と、 該辞書再引き手段から入力される情報を基に、前記日本
語文章を解析して前記未登録語を音声合成するために必
要となる情報を求める解析手段と、 を有することを特徴とする請求項1記載の日本語解析装
置。 - 【請求項3】 前記第1の単語同定手段で検出された未
登録語はひらがな単語であること、 を特徴とする請求項1、または2記載の日本語解析装
置。 - 【請求項4】 前記単語同定手段で検出された未登録語
はカタカナ単語であること、 を特徴とする請求項1、または2記載の日本語解析装
置。 - 【請求項5】 前記第2の単語同定手段は、前記第1の
単語同定手段で検出された未登録語の読みを長音化して
前記単語辞書を引くこと、 を特徴とする請求項3、または4記載の日本語解析装
置。 - 【請求項6】 前記第2の単語同定手段は、前記第1の
単語同定手段で検出された未登録語の読みを無声化して
前記単語辞書を引くこと、 を特徴とする請求項3、または4記載の日本語解析装
置。 - 【請求項7】 入力された日本語文章の中から、単語辞
書を検索しても同定できない単語を未登録語として検出
する第1の単語同定手段と、 該第1の単語同定手段で検出された未登録語の読みを推
定する読み推定手段と、 前記読み推定手段で推定された未登録語の読みを用いて
前記単語辞書を検索して、該未登録語を音声合成するた
めに必要な情報を求める第2の単語同定手段と、 を有することを特徴とする日本語解析装置。 - 【請求項8】 前記第2の単語同定手段は、前記読み推
定手段で推定された未登録語の読みを用いて前記単語辞
書を検索して、該未登録語に関する前記日本語文章を解
析するために必要な情報を求める辞書再引き手段と、 該辞書再引き手段から入力される情報を基に、前記日本
語文章を解析して前記未登録語を音声合成するために必
要となる情報を求める解析手段と、 を有することを特徴とする請求項7記載の日本語文章解
析装置。 - 【請求項9】 前記第1の単語同定手段で検出された未
登録語は漢字混じり単語であり、 前記読み推定手段は単漢字辞書を用いて前記漢字混じり
単語の読みを推定すること、 を特徴とする請求項7、または8記載の日本語解析装
置。 - 【請求項10】 前記読み推定手段は、単漢字辞書を用
いて前記漢字混じり単語の中の単漢字毎に音読み、また
は訓読みを抽出し、該抽出された単漢字毎の音読み、ま
たは訓読みを組み合わせて複数の読み候補を作成し、前
記単漢字辞書に格納された前記単漢字のルールを用いて
前記複数の読み候補の中から1つの読みを決定するこ
と、 を特徴とする請求項9記載の日本語解析装置。 - 【請求項11】 前記第1の単語同定手段で検出された
未登録語は漢字混じり単語であり、 前記読み推定手段は、単漢字辞書を用いて前記漢字混じ
り単語の中の単漢字毎に音読み、または訓読みを抽出
し、該抽出された単漢字毎の音読み、または訓読みを組
み合わせて複数の読み候補を作成し、表示画面に該複数
の読み候補を表示して操作者にそれらの読み候補の中か
ら1つの読みを選択させること、 を特徴とする請求項7、または8記載の日本語解析装
置。 - 【請求項12】 入力された日本語文章を複数の単語で
区切り、単語辞書を参照して該日本語文章を構成する単
語を同定する際、前記複数の単語の中から、前記単語辞
書を検索しても同定できない単語を未登録語として検出
する第1の単語同定手段と、 前記第1の単語同定手段で検出された未登録語の読みと
同じ読みを有する単語を前記単語辞書から検索して、該
未登録語を音声合成するために必要な情報を求める第2
の単語同定手段と、 前記第2の単語同定手段で得られた情報に基づいて、前
記未登録語の音声を合成する音声合成手段と、 を有することを特徴とする日本語テキスト音声合成装
置。 - 【請求項13】 入力された日本語文章を複数の単語で
区切り、単語辞書を参照して該日本語文章を構成する単
語を同定する際、前記複数の単語の中から、前記単語辞
書を検索しても同定できない単語を未登録語として検出
する第1の単語同定手段と、 前記第1の単語同定手段で検出された未登録語の読みを
推定する読み推定手段と、 前記読み推定手段で推定された未登録語の読みと同じ読
みを有する単語を前記単語辞書から検索して、該未登録
語を音声合成するために必要な情報を求める第2の単語
同定手段と、 前記第2の単語同定手段で得られた情報に基づいて、前
記未登録語の音声を合成する音声合成手段と、 を有することを特徴とする日本語テキスト音声合成装
置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6326593A JPH08185197A (ja) | 1994-12-28 | 1994-12-28 | 日本語解析装置、及び日本語テキスト音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6326593A JPH08185197A (ja) | 1994-12-28 | 1994-12-28 | 日本語解析装置、及び日本語テキスト音声合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH08185197A true JPH08185197A (ja) | 1996-07-16 |
Family
ID=18189559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6326593A Withdrawn JPH08185197A (ja) | 1994-12-28 | 1994-12-28 | 日本語解析装置、及び日本語テキスト音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH08185197A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999036905A1 (fr) * | 1998-01-19 | 1999-07-22 | Sony Corporation | Appareils de distribution, emission et reception d'informations, et procede de distribution d'informations |
JP2007058509A (ja) * | 2005-08-24 | 2007-03-08 | Toshiba Corp | 言語処理システム |
JP2008146019A (ja) * | 2006-11-16 | 2008-06-26 | Seiko Epson Corp | 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法 |
KR100959494B1 (ko) * | 2003-03-06 | 2010-05-26 | 주식회사 케이티 | 미등록어 합성 기능을 이용한 음성합성기 및 그 방법 |
-
1994
- 1994-12-28 JP JP6326593A patent/JPH08185197A/ja not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999036905A1 (fr) * | 1998-01-19 | 1999-07-22 | Sony Corporation | Appareils de distribution, emission et reception d'informations, et procede de distribution d'informations |
KR100959494B1 (ko) * | 2003-03-06 | 2010-05-26 | 주식회사 케이티 | 미등록어 합성 기능을 이용한 음성합성기 및 그 방법 |
JP2007058509A (ja) * | 2005-08-24 | 2007-03-08 | Toshiba Corp | 言語処理システム |
JP2008146019A (ja) * | 2006-11-16 | 2008-06-26 | Seiko Epson Corp | 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
JP4038211B2 (ja) | 音声合成装置,音声合成方法および音声合成システム | |
JP4811557B2 (ja) | 音声再生装置及び発話支援装置 | |
JP2009139677A (ja) | 音声処理装置及びそのプログラム | |
KR100669241B1 (ko) | 화행 정보를 이용한 대화체 음성합성 시스템 및 방법 | |
JPH08185197A (ja) | 日本語解析装置、及び日本語テキスト音声合成装置 | |
JPH06282290A (ja) | 自然言語処理装置およびその方法 | |
JP3366253B2 (ja) | 音声合成装置 | |
JP6197523B2 (ja) | 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム | |
JP3589972B2 (ja) | 音声合成装置 | |
KR19980047177A (ko) | 한국어 문서 음성 변환 시스템을 위한 문서 분석기 | |
JPH07262191A (ja) | 単語分割方法、および音声合成装置 | |
JP3414326B2 (ja) | 音声合成用辞書登録装置及び方法 | |
KR0180650B1 (ko) | 음성합성기의 한국어 문장분석방법 | |
JP2003005776A (ja) | 音声合成装置 | |
JPH11259094A (ja) | 規則音声合成装置 | |
JP3573889B2 (ja) | 音声出力装置 | |
JP2728440B2 (ja) | 音声出力装置 | |
JP4319851B2 (ja) | 読み上げ装置、読み上げ方法及び読み上げ処理用プログラム | |
JPH07306696A (ja) | 音声合成用韻律情報決定方法 | |
JPH11327871A (ja) | 音声合成装置 | |
FalDessai | Development of a Text to Speech System for Devanagari Konkani | |
JPH07152392A (ja) | 音声合成装置 | |
JPH07129596A (ja) | 自然言語処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20020305 |