JP3094622B2

JP3094622B2 - テキスト音声合成装置

Info

Publication number: JP3094622B2
Application number: JP04027006A
Authority: JP
Inventors: 和彦岩田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1992-02-14
Filing date: 1992-02-14
Publication date: 2000-10-03
Anticipated expiration: 2015-10-03
Also published as: JPH05224688A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文字で書かれた文から
イントネーションやリズムなどの韻律パタンを生成し、
音声で読み上げられるテキスト音声合成装置に関する。

【０００２】

【従来の技術】ピッチ周波数パタンや継続時間長を、入
力された文に基づいて生成するテキスト音声合成装置で
は、従来、複数の文からなるテキストを読み上げる場
合、テキスト内のどの文でも、一定のイントネーショ
ン、一定のリズムやテンポで読み上げられていた。この
ような従来技術を用いたテキスト音声合成装置について
は、電子情報通信学会技術研究報告ＳＰ９０−５６（１
９９０−１１）「残差制御型音声合成方式を用いた日本
語テキスト音声変換システム」などに詳述されている。

【０００３】

【発明が解決しようとする課題】従来のテキスト音声合
成装置では、文を読み上げる際の韻律的特徴は常に一定
となっている。ここで言う韻律的特徴とは、読み上げる
速さ、声の高さ、声の大きさなどの値や、それらの変化
のパタンを指す。１つ１つの文は自然に発声することが
できるような装置であっても、どのような文でも常に一
定のイントネーションやリズム、テンポで発声したので
は、利用者は単調さを感じてしまう。これに対して人間
が読み上げを行う場合は、テキストの流れに沿って韻律
的特徴を変化させる。例えば、聞き手の注意や興味を引
くために、テキストの始めではゆっくりとした速度で読
み始め、徐々に速度を速め、最後には再びゆっくりと読
むといったような読み方をする。また、重要な語句が含
まれている文や段落では、声の調子を高めたり、ゆっく
り読んだりするなどして、他の文は段落から際立たせる
などの工夫をする。

【０００４】先に述べた従来のテキスト音声合成装置で
は、文や段落の流れは考慮されず、常に一定の韻律的特
徴を持った音声を合成していた。異なる韻律的特徴を持
った音声で読み上げさせたい場合には、テキスト音声合
成装置に対して利用者が、なんらかの指示を出さなけれ
ばならなかった。

【０００５】本発明の目的は、入力されたテキストの流
れに沿って自動的に各文の韻律的特徴を変化させること
で、人間が行うのにより近い読み上げを可能にするテキ
スト音声合成装置を提供することにある。

【０００６】

【課題を解決するための手段】第１の発明のテキスト音
声合成装置は、複数の文からなるテキストを入力する手
段と、前記テキストを文に分割する手段と、予め定めら
れた基準に基づいて前記分割された文ごとの韻律パタン
を生成する手段と、前記韻律パタンにしたがって音声を
合成する手段とを有し、前記韻律パタンを生成する手段
は、分割された文ごとの韻律パタンを生成する際に、当
該文のテキスト内での位置に基づいて当該文の韻律パタ
ンを生成することを特徴とする。

【０００７】第２の発明のテキスト音声合成装置は、複
数の文からなるテキストを入力する手段と、前記テキス
トを段落に分割する手段と、予め定められた基準に基づ
いて前記分割された段落ごとの標準韻律パタンを生成す
る手段と、前記段落を文に分割する手段と、前記分割さ
れた文ごとに当該文が含まれる段落の前記標準韻律パタ
ンを予め定められた基準に基づいて変形して、当該文の
韻律パタンを生成する手段と、前記韻律パタンにしたが
って音声を合成する手段とを有し、前記韻律パタンを生
成する手段は、分割された段落ごとの韻律パタンを生成
する際に、当該段落のテキスト内での位置に基づいて当
該段落の韻律パタンを生成することを特徴とする。

【０００８】

【０００９】

【００１０】

【００１１】

【００１２】

【００１３】

【作用】音声の韻律的な特徴に対応する物理的なパラメ
ータとしては、ピッチ周波数パタン、継続時間長、振幅
パタンなどが挙げられる。人間は、テキストの流れに沿
ってこれらの韻律的特徴を様々に変化させて読み上げを
行う。本発明では、以下のようにして複数の文からなる
テキストにおいて、文または段落ごとの韻律的特徴を変
更することにより、人間が行うのに近い読み上げを実現
する。

【００１４】従来のテキスト音声合成装置では、テキス
トを構成する各文は、一定のイントネーション、一定の
リズムやテンポで読み上げられていた。これは、文単位
での韻律的特徴を決定づけるパラメータ（以後、韻律特
徴量と呼ぶことにする）の値として、常に一定の値が用
いられていたからである。

【００１５】第１の発明では、まず、入力された複数の
文からなるテキストを、１つ１つの文に分割する。次
に、各文の持つ特徴にしたがって、韻律特徴量を決定
し、決定された韻律特徴量に基づいて当該文の韻律パタ
ンを生成する。この文の持つ特徴として、各文のテキス
ト全体における位置の情報を用いるものである。位置の
情報とは、例えば、当該文がテキスト全体の何％の位置
にあるかで表すことができる。例えば、８文からなるテ
キストの２番目の文は、このテキストの始めから２５％
の位置にあることになる。この値に応じて各文の韻律特
徴量を決定する。

【００１６】第２の発明では、入力されるテキストがい
くつかの段落からなるとき、まず、テキストを段落に分
割する。各段落の持つ特徴にしたがって、段落全体を通
しての標準の韻律特徴量を決定する。次に、段落を、そ
れを構成する文に分割する。各文の持つ特徴にしたがっ
て段落全体を通しての標準の韻律特徴量を変更し、変更
された韻律特徴量に基づいて当該文の韻律パタンを生成
する。このような方法により、段落ごとにまとまりを持
った韻律パタンを生成することができる。この段落の持
つ特徴として、各段落のテキスト全体における位置の情
報を用いるものである。位置の情報とは、例えば、当該
段落がテキスト全体の何％の位置にあるかで表すことが
できる。例えば、８段落からなるテキストの２番目の段
落は、このテキストの始めから２５％の位置にあること
になる。この値に応じて各段落の韻律特徴量を決定す
る。

【００１７】

【００１８】

【００１９】

【００２０】

【００２１】

【００２２】以上のような方法を用いて、入力されたテ
キストの流れに沿って、自動的に種々の韻律特徴量を変
化させる。これにより、従来の装置のように単調な読み
上げになることなく、自然な朗読に近い音声を出力する
ことが可能となる。

【００２３】

【実施例】図１は、第１の発明によるテキスト音声合成
装置の一実施例を示すブロック図である。まず、複数の
文からなるテキストがテキスト入力端子１０１から入力
される。入力されたテキストは文切出部１０２、及びテ
キスト内位置判定部１０３に送られる。文切出部１０２
は、テキストをそれを構成する各文に分解し、テキスト
内位置判定部１０３、キーワード検出部１０４、韻律生
成部１０６、及び音声合成部１０７に送る。テキスト内
位置判定部１０３は、テキスト入力端子１０１を通して
入力された全テキストにおける、文切出部１０２から送
られてくる各文の位置を判定し、韻律特徴量決定部１０
５に送る。一方、キーワード検出部１０４は、文切出部
１０２から送られてくる各文中に予め定められた語句が
存在するかどうかを判定し、結果を韻律特徴量決定部１
０５に送る。韻律特徴量決定部１０５は、テキスト内位
置判定部１０３で判定された当該文の入力テキストにお
ける位置の情報、及びキーワード検出部１０４で判定さ
れた特定の語句の有無の情報を用いて、作用の項で説明
したような方法によって当該文の韻律特徴量を決定し、
韻律生成部１０６に送る。韻律生成部１０６は、韻律特
徴量決定部１０５で決定された韻律特徴量に基づいて韻
律パタンを生成し、音声合成部１０７に送る。音声合成
部１０７は、文切出部１０２から送られてきた文、及び
韻律生成部１０６で生成された韻律パタンにしたがって
音声波形を合成し、合成音声出力端子１０８に出力す
る。

【００２４】なお、ここでは、テキスト内位置判定部１
０３、及びキーワード検出部１０４による判定結果に基
づいて韻律を生成する場合の構成を例に説明したが、こ
のうちのどちらか一方だけを用いる装置を構成すること
も可能である。図１のブロック図からキーワード検出部
１０４を取り除いたものが第３の発明の構成であり、テ
キスト内位置判定部１０３を取り除いたものが第４の発
明の構成である。

【００２５】図２は、第２の発明によるテキスト音声合
成装置の一実施例を示すブロック図である。まず、複数
の文からなるテキストがテキスト入力端子２０１から入
力される。入力されたテキストは段落切出部２０２、及
びテキスト内位置判定部２０３に送られる。段落切出部
２０２は、テキストをそれを構成する段落に分解し、テ
キスト内位置判定部２０３、文切出部２０５及び段落内
位置判定部２０６に送る。テキスト内位置判定部２０３
は、テキスト入力端子２０１を通して入力された全テキ
ストにおける、段落切出部２０２から送られてくる各段
落の位置を判定し、段落内韻律特徴量決定部２０４に送
る。段落内韻律特徴量決定部２０４は、テキスト内位置
判定部２０３で判定された全テキストにおける当該段落
の位置から、当該段落の標準の韻律特徴量を決定し、韻
律特徴量決定部２０８に送る。また、段落切出部２０２
と段落内韻律特徴量決定部２０４の間にキーワード検出
部２０７を設け、段落内に予め定められた語句が存在す
るかどうかを、当該段落の標準の韻律特徴量を決定する
際に用いることも有効である。文切出部２０５は、段落
切出部２０２から送られてくる段落をそれを構成する文
に分解し、段落内位置判定部２０６、キーワード検出部
２０７、韻律生成部２０９、及び音声合成部２１０に送
る。段落内位置判定部２０６は、段落切出部２０２で切
り出された段落における、文切出部２０５から送られて
くるその段落を構成する各文の位置を判定し、韻律特徴
量決定部２０８に送る。一方、キーワード検出部２０７
は、文切出部２０５から送られてくる各文中に予め定め
られた語句が存在するかどうかを判定し、結果を韻律特
徴量決定部２０８に送る。韻律特徴量決定部２０８は、
段落内韻律特徴量決定部２０４で決定された当該段落の
標準の韻律特徴量、段落内位置判定部２０６で判定され
た当該段落内における位置の情報、及びキーワード検出
部２０７で判定された特定の語句の有無の情報を用い
て、作用の項で説明したような方法によって、その文の
韻律特徴量を決定し、韻律生成部２０９に送る。韻律生
成部２０９は、韻律特徴量決定部２０８で決定された韻
律特徴量に基づいて韻律パタンを生成し、音声合成部２
１０に送る。音声合成部２１０は、文切出部２０５から
送られてきた文、及び韻律生成部２０９で生成された韻
律パタンにしたがって音声波形を合成し、合成音声出力
端子２１１に出力する。

【００２６】図３は、第５の発明によるテキスト音声合
成装置の一実施例を示すブロック図である。図１の韻律
特徴量決定部１０５を、特にピッチ周波数パタン特徴量
決定部３０５とした構成である。テキスト入力端子３０
１、文切出部３０２、テキスト内位置判定部３０３、キ
ーワード検出部３０４、韻律生成部３０６、音声合成部
３０７、合成音声出力端子３０８は、図１のものと同じ
である。

【００２７】ピッチ周波数パタン特徴量決定部３０５
は、作用の項で説明したような、平均ピッチ周波数、文
の始端（話し始め）のピッチ周波数、文の終端（話し終
り）のピッチ周波数、ピッチ周波数変化幅などの特徴量
を決定し、韻律生成部３０６に送る。韻律生成部３０６
では、ピッチ周波数パタンや継続時間長、振幅パタンな
どが生成されるが、このうちピッチ周波数パタンは、ピ
ッチ周波数パタン特徴量決定部３０５で決定されたピッ
チ周波数パタンの特徴量に基づいて生成される。また、
第５の発明によるテキスト音声合成装置の他の実施例と
しては、図２の韻律特徴量決定部２０８を、ピッチ周波
数パタン特徴量決定部に置き換えたものが考えられる。

【００２８】図４は、第６の発明によるテキスト音声合
成装置の一実施例を示すブロック図である。図１の韻律
特徴量決定部１０５を、特に継続時間長特徴量決定部４
０５とした構成である。テキスト入力端子４０１、文切
出部４０２、テキスト内位置判定部４０３、キーワード
検出部４０４、韻律生成部４０６、音声合成部４０７、
合成音声出力端子４０８は、図１のものと同じである。

【００２９】継続時間長特徴量決定部４０５は、作用の
項で説明したような、発声速度などの特徴量を決定し、
韻律生成部４０６に送る。韻律生成部４０６では、ピッ
チ周波数パタンや継続時間長、振幅パタンなどが生成さ
れるが、このうち継続時間長は、継続時間長特徴量決定
部４０５で決定された継続時間長の特徴量に基づいて生
成される。また、第６の発明によるテキスト音声合成装
置の他の実施例としては、図２の韻律特徴量決定部２０
８を、継続時間長特徴量決定部に置き換えたものが考え
られる。

【００３０】図５は、第７の発明によるテキスト音声合
成装置の一実施例を示すブロック図である。図１の韻律
特徴量決定部１０５を、特に振幅パタン特徴量決定部５
０５とした構成である。テキスト入力端子５０１、文切
出部５０２、テキスト内位置判定部５０３、キーワード
検出部５０４、韻律生成部５０６、音声合成部５０７、
合成音声出力端子５０８は、図１のものと同じである。

【００３１】振幅パタン特徴量決定部５０５は、作用の
項で説明したような、平均振幅、振幅変化幅などの特徴
量を決定し、韻律生成部５０６に送る。韻律生成部５０
６では、ピッチ周波数パタンや継続時間長、振幅パタン
などが生成されるが、このうち振幅パタンは、振幅パタ
ン特徴量決定部５０５で決定された振幅パタンの特徴量
に基づいて生成される。また、第７の発明によるテキス
ト音声合成装置の他の実施例としては、図２の韻律特徴
量決定部２０８を、振幅パタン特徴量決定部に置き換え
たものが考えられる。

【００３２】

【発明の効果】以上述べてきたように、本発明によれ
ば、複数の文からなるテキストが入力された場合でも、
そのテキストの流れに沿ってイントネーションやリズ
ム、テンポなどの韻律的な特徴を自動的に変化させて読
み上げることが可能である。したがって、例えば、読書
器などのように大量のテキストを読み上げる必要がある
テキスト音声合成装置などを実現するのに非常に有効で
ある。

【図面の簡単な説明】

【図１】第１の発明によるテキスト音声合成装置の一実
施例を示すブロック図である。

【図２】第２の発明によるテキスト音声合成装置の一実
施例を示すブロック図である。

【図３】第５の発明によるテキスト音声合成装置の一実
施例を示すブロック図である。

【図４】第６の発明によるテキスト音声合成装置の一実
施例を示すブロック図である。

【図５】第７の発明によるテキスト音声合成装置の一実
施例を示すブロック図である。

【符号の説明】

１０１テキスト入力端子１０２文切出部１０３テキスト内位置判定部１０４キーワード検出部１０５韻律特徴量決定部１０６韻律生成部１０７音声合成部１０８合成音声出力端子２０１テキスト入力端子２０２段落切出部２０３テキスト内位置判定部２０４段落内韻律特徴量決定部２０５文切出部２０６段落内位置判定部２０７キーワード検出部２０８韻律特徴量決定部２０９韻律生成部２１０音声合成部２１１合成音声出力端子３０５ピッチ周波数パタン特徴量決定部４０５継続時間長特徴量決定部５０５振幅パタン特徴量決定部

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 11/00 - 21/06 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】複数の文からなるテキストを入力する手段
と、前記テキストを文に分割する手段と、予め定められた基準に基づいて前記分割された文ごとの
韻律パタンを生成する手段と、前記韻律パタンにしたがって音声を合成する手段とを有
し、前記韻律パタンを生成する手段は、分割された文ごとの
韻律パタンを生成する際に、当該文のテキスト内での位
置に基づいて当該文の韻律パタンを生成することを特徴
とするテキスト音声合成装置。
【請求項２】複数の文からなるテキストを入力する手段
と、前記テキストを段落に分割する手段と、予め定められた基準に基づいて前記分割された段落ごと
の標準韻律パタンを生成する手段と、前記段落を文に分割する手段と、前記分割された文ごとに当該文が含まれる段落の前記標
準韻律パタンを予め定められた基準に基づいて変形し
て、当該文の韻律パタンを生成する手段と、前記韻律パタンにしたがって音声を合成する手段とを有
し、前記韻律パタンを生成する手段は、分割された段落ごと
の韻律パタンを生成する際に、当該段落のテキスト内で
の位置に基づいて当該段落の韻律パタンを生成すること
を特徴とするテキスト音声合成装置。