JP4684770B2

JP4684770B2 - 韻律生成装置及び音声合成装置

Info

Publication number: JP4684770B2
Application number: JP2005192473A
Authority: JP
Inventors: 貴弘大塚; 洋一藤井; 正山浦; 訓古田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-06-30
Filing date: 2005-06-30
Publication date: 2011-05-18
Anticipated expiration: 2025-06-30
Also published as: JP2007011042A

Description

この発明は、テキストの言語情報から韻律情報を生成する韻律生成装置と、テキストを言語解析して、その解析結果である言語情報から音声信号を生成する音声合成装置とに関するものである。

任意の文章から機械的に音声信号を生成する音声合成装置が開発されている。一般に、音声合成装置は、言語解析部、韻律生成部及び音声信号生成部の３つのモジュールから構成されている。
音声合成装置の言語解析部は、テキストを入力すると、形態素解析や構文解析などの言語解析を実施することにより、音韻記号列、アクセント型、品詞などの言語情報を出力する。
音声合成装置の韻律生成部は、言語解析部から言語情報を受けると、その言語情報から基本周波数や音韻継続時間長やパワーなどの韻律情報を生成する。

即ち、韻律生成部は、音韻継続時間長生成部と基本周波数生成部とパワー生成部から構成されており、音韻継続時間長生成部は、言語解析部から出力された言語情報から各音韻の音韻継続時間長を生成する。
韻律生成部の基本周波数生成部は、言語解析部から出力された言語情報と音韻継続時間長生成部により生成された音韻継続時間長から、声の高さを表す基本周波数を生成する。
韻律生成部のパワー生成部は、言語解析部から出力された言語情報と音韻継続時間長生成部により生成された音韻継続時間長から、音声の大きさを表すパワーを生成する。
音声合成装置の音声信号生成部は、韻律生成部から韻律情報を受けると、その韻律情報などから音声信号を生成する。

なお、韻律生成部における性能は、音声合成装置により合成された音声の自然性や了解性に大きく影響する。
テキストの音声合成における言語情報と韻律情報（抑揚、音韻継続時間長、パワー）の対応関係を韻律モデルで表す場合、その韻律モデルのパラメータ（以下、モデルパラメータと称する）の設定が、音声の韻律の自然性に大きく影響する。
このモデルパラメータの設定方法として、音声データベースに登録されている言語情報と韻律情報の対応関係を参照しながら、数量化Ｉ類を用いて、自動的にモデルパラメータを推定する方法が以下の特許文献１に開示されている。即ち、子音長に対する誤差基準と、母音長に対する誤差基準とを計算し、これらの個別の誤差基準から韻律モデルのモデルパラメータを推定する方法が以下の特許文献１に開示されている。

しかしながら、音声データベースに登録されているデータの中には、不安定な発声や、音声データの韻律分析の失敗や、言語情報と関係のない要因（例えば、強調、感情）によって、乱れているデータが含まれていることがある。
このような場合、モデルパラメータの推定精度が劣化するため、適正な韻律情報が生成されず、合成音声の韻律が不自然になる場合がある。

そこで、特許文献１に開示されている音声合成装置では、一旦、音声データベースを参照してモデルパラメータを推定し、そのモデルパラメータを用いて韻律情報を予測する。
そして、音声合成装置は、その予測した韻律情報と音声データベースに登録されている韻律情報をカテゴリ毎に比較し、その絶対誤差が閾値以上である韻律情報を音声データベースから除外する。
その後、音声合成装置は、不適正な韻律情報を除外した音声データベースを参照して、再度、モデルパラメータを推定することにより、韻律情報の予測精度を高めるようにしている。

特開平９−６８９９３号公報（段落番号［００２２］から［００４２］、図１）

従来の音声合成装置は以上のように構成されているので、個別の誤差基準から韻律モデルのモデルパラメータを推定するが、個別の誤差基準から韻律モデルのモデルパラメータを推定しても、関連のある韻律情報の和や差などを精度よく推定することができず（例えば、子音長と母音長の和に対する予測精度が悪い）、合成音声の韻律が不自然になる場合がある課題があった。

この発明は上記のような課題を解決するためになされたもので、韻律情報の予測精度を高めることができる韻律生成装置を得ることを目的とする。
また、この発明は、韻律情報の予測精度を高めて、韻律が不自然な音声信号の生成を回避することができる音声合成装置を得ることを目的とする。

この発明に係る韻律生成装置は、音声データベースに登録されている対応関係を参照して、言語情報及び韻律情報を対にした第１のデータ群に基づいて第１のデータ群の韻律情報に対する第１の誤差基準を計算し、言語情報及び韻律情報を対にした第２のデータ群に基づいて第２のデータ群の韻律情報に対する第２の誤差基準を計算するとともに、第１及び第２のデータ群に基づいて第１及び第２のデータ群の韻律情報の和または差に対する第３の誤差基準を計算し、第１から第３の誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段を設け、そのモデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの言語情報から韻律情報を生成するようにしたものである。

この発明によれば、音声データベースに登録されている対応関係を参照して、言語情報及び韻律情報を対にした第１のデータ群に基づいて第１のデータ群の韻律情報に対する第１の誤差基準を計算し、言語情報及び韻律情報を対にした第２のデータ群に基づいて第２のデータ群の韻律情報に対する第２の誤差基準を計算するとともに、第１及び第２のデータ群に基づいて第１及び第２のデータ群の韻律情報の和または差に対する第３の誤差基準を計算し、第１から第３の誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段を設け、そのモデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの言語情報から韻律情報を生成するように構成したので、韻律情報の予測精度を高めることができる効果がある。

実施の形態１．
図１はこの発明の実施の形態１による音声合成装置を示す構成図であり、図において、言語解析部１はテキストを入力すると、そのテキストに対して形態素解析や構文解析などの言語解析を実施することにより、その解析結果として、例えば、音韻記号列の言語情報を出力する。なお、言語解析部１は言語解析手段を構成している。
韻律生成装置２は言語解析部１より出力されたテキストの言語情報から韻律情報を生成する処理を実施する。
音声信号生成部３は韻律生成装置２により生成された韻律情報から音声信号を生成する処理を実施する。なお、音声信号生成部３は音声信号生成手段を構成している。

図２はこの発明の実施の形態１による韻律生成装置２を示す構成図であり、図において、音韻継続時間長生成部１１は言語解析部１より出力されたテキストの言語情報から母音長と子音長を表す音韻継続時間長を韻律情報として生成する処理を実施する。
基本周波数生成部１２は言語解析部１より出力されたテキストの言語情報から音の高さを表す基本周波数を韻律情報として生成する処理を実施する。
パワー生成部１３は言語解析部１より出力されたテキストの言語情報から音の大きさを表すパワーを韻律情報として生成する処理を実施する。
図２では、韻律生成装置２が音韻継続時間長生成部１１、基本周波数生成部１２及びパワー生成部１３から構成されている例を示しているが、この実施の形態１では、説明の便宜上、韻律生成装置２が音韻継続時間長生成部１１だけで構成されているものとして説明する。基本周波数生成部１２やパワー生成部１３を実装している韻律生成装置２については、別の実施の形態で説明する。

図３はこの発明の実施の形態１による韻律生成装置２における音韻継続時間長生成部１１を示す構成図であり、図において、音声データベース２１には予め言語情報と音韻継続時間長（韻律情報）の対応関係が登録されている。
モデルパラメータ推定部２２は音声データベース２１に登録されている対応関係を参照して、個別の韻律情報に対する誤差基準を計算するとともに、複数の韻律情報に対する誤差基準を計算し、個別の韻律情報に対する誤差基準と複数の韻律情報に対する誤差基準から韻律モデルのモデルパラメータを推定する処理を実施する。即ち、子音長に対する個別の誤差基準Ｊ_Cと母音長に対する個別の誤差基準Ｊ_Vを計算するとともに、子音長と母音長の和に対する関連の誤差基準Ｊ_CVを計算し、それらの誤差基準Ｊ_C，Ｊ_V，Ｊ_CVから韻律モデルのモデルパラメータを推定する処理を実施する。モデルパラメータ推定部２２により推定されるモデルパラメータは、数量化Ｉ類で表されるカテゴリ係数（あるいは、カテゴリ数量）に相当する。なお、モデルパラメータ推定部２２はモデルパラメータ推定手段を構成している。
韻律情報生成部２３はモデルパラメータ推定部２２により推定された韻律モデルのモデルパラメータと言語解析部１より出力されたテキストの言語情報から韻律情報である音韻継続時間長（子音長、母音長）を生成する処理を実施する。なお、韻律情報生成部２３は韻律情報生成手段を構成している。

図４は音韻継続時間長を示す説明図であり、図において、Ｃは子音、Ｖは母音、Ｃ＋Ｖは母音と子音の和を表している。
Ｄ_Vは母音Ｖの予測モデル、Ｄ_Cは子音Ｃの予測モデル、ｘは数量化された言語情報を表している。
図５はこの発明の実施の形態１による韻律生成装置２の処理内容を示すフローチャートである。

次に動作について説明する。
言語解析部１は、テキストを入力すると、そのテキストに対して形態素解析や構文解析などの言語解析を実施することにより、その解析結果として、例えば、音韻記号列の言語情報を出力する。
言語情報の生成については、公知の技術を利用すればよいので、ここでは詳細な説明を省略する。

韻律生成装置２の音韻継続時間長生成部１１は、言語解析部１からテキストの言語情報を受けると、その言語情報から母音長と子音長を表す音韻継続時間長を韻律情報として生成する処理を実施する。
具体的には、以下の通りである。
音韻継続時間長生成部１１の音声データベース２１には、図６に示すように、言語情報として、当該音素と後続音素（当該音素の１つ後の音素）が登録され、当該音素に対応する音韻継続時間長として、当該音素の長さ（音素長）が登録されている。

音韻継続時間長生成部１１のモデルパラメータ推定部２２は、音声データベース２１から音素の読み込みを実施する（ステップＳＴ１）。
モデルパラメータ推定部２２は、音声データベース２１から読み込んだ当該音素が子音であれば、入力ｘ_Cjに当該音素と後続音素の種類を表す値を設定し、音声データベース２１から読み込んだ当該音素が母音であれば、入力ｘ_Vjに当該音素と後続音素の種類を表す値を設定する（ステップＳＴ２）。

即ち、モデルパラメータ推定部２２は、ベクトルｘのｎ個の要素に対して、下記に示すような意味付けを実施する。ただし、意味付けの順番は任意でよい。
なお、ｘは長さｎの横ベクトルであり、ｎは当該音素と後続音素の種類の数である。
音素の種類は３０種類であり、当該音素と後続音素の種類の数を合わせると、ｎ＝６０になる。
１番目の要素は当該音素が母音ａ
２番目の要素は当該音素が母音ｉ
・・・
３０番目の要素は当該音素が子音ｚ
３１番目の要素は後続音素が母音ａ
３２番目の要素は後続音素が母音ｉ
・・・
６０番目の要素は後続音素が子音のｚ

モデルパラメータ推定部２２は、上記のような意味付けを行うと、ベクトルｘの要素に“０”または“１”を割り当てることにより、当該音素と後続音素が何であるのかがわかるようにする。例えば、当該音素が“ａ”で、後続音素が“ｉ”であれば、ベクトルｘの要素は次の値を有することになる。
ｘの１番目の要素の値 → １
ｘの２番目の要素の値 → ０
・・・
ｘの３０番目の要素の値 → ０
ｘの３１番目の要素の値 → ０
ｘの３２番目の要素の値 → １
・・・
ｘの６０番目の要素の値 → ０

また、モデルパラメータ推定部２２は、音声データベース２１から読み込んだ当該音素が子音であれば、子音長Ｃ_jに当該音素の長さを設定し、音声データベース２１から読み込んだ当該音素が母音であれば、母音長Ｖ_jに当該音素の長さを設定する（ステップＳＴ２）。

モデルパラメータ推定部２２は、上記の設定処理が完了すると、以下に示すように、子音長に対する個別の誤差基準Ｊ_Cと母音長に対する個別の誤差基準Ｊ_Vを計算するとともに、子音長と母音長の和に対する関連の誤差基準Ｊ_CVを計算し、それらの誤差基準Ｊ_C，Ｊ_V，Ｊ_CVから誤差基準Ｊ_Dを計算する。
Ｊ_D＝ｗ_VＪ_V＋ｗ_CＪ_C＋ｗ_CVＪ_CV （１）
Ｊ_C＝Σ（Ｃ_j−Ｄ_C（ｘ_Cj，Ａ））²
Ｊ_V＝Σ（Ｖ_j−Ｄ_V（ｘ_Vj，Ｂ））²
Ｊ_CV＝Σ（（Ｃ_j＋Ｖ_j）−（Ｄ_C（ｘ_Cj，Ａ）＋Ｄ_V（ｘ_Vj，Ｂ）））²
Ｃ_j ：第ｊサンプルの子音長
Ｖ_j ：第ｊサンプルの母音長
ｘ_Cj ：第ｊサンプルの子音長に対する要因
ｘ_Vj ：第ｊサンプルの母音長に対する要因
Ａ：子音長予測モデルのモデルパラメータ
Ｂ：母音長予測モデルのモデルパラメータ
Ｄ_C（ｘ_Cj，Ａ）：第ｊサンプルの子音長予測値
Ｄ_V（ｘ_Vj，Ｂ）：第ｊサンプルの母音長予測値
ｗ_V，ｗ_C，ｗ_CV ：重み係数
Σ ：音声データベース中に含まれるサンプルの和

ここで、Ｄ（ｘ，Ａ）は、数量化Ｉ類の式であって、入力ｘと出力を対応付ける式であり、モデルパラメータＡを用いて記述している。
Ｄ（ｘ，Ａ）＝ｘＡ
Ａは長さｎの縦ベクトルであり、ｎはｘの場合と同様に、当該音素と後続音素の種類の数であり、ｎ＝６０になる。

モデルパラメータ推定部２２は、上記のようにして誤差基準Ｊ_Dを計算すると、その誤差基準Ｊ_Dを最小化するモデルパラメータを推定する。
即ち、モデルパラメータ推定部２２は、Ｄ_C（ｘ_Cj，Ａ）及びＤ_V（ｘ_Vj，Ｂ）を数量化Ｉ類の式で表す場合、その誤差基準Ｊ_Dがモデルパラメータの２次式で表されるので、その誤差基準Ｊ_DをモデルパラメータＡ，Ｂで微分して連立方程式を立て、その連立方程式をモデルパラメータＡ，Ｂについて解くことにより、その誤差基準Ｊ_Dを最小化するモデルパラメータＡ，Ｂを推定する（ステップＳＴ３）。

音韻継続時間長生成部１１の韻律情報生成部２３は、モデルパラメータ推定部２２が誤差基準Ｊ_Dを最小化するモデルパラメータＡ，Ｂを推定すると、そのモデルパラメータＡ，Ｂと、言語解析部１から出力される言語情報（当該音素と後続音素で表される言語情報ｘ_Cj，ｘ_Vj）とを用いて、子音長Ｄ_C（ｘ_Cj，Ａ）と母音長Ｄ_V（ｘ_Vj，Ｂ）を音韻継続時間長（韻律情報）として計算する（ステップＳＴ５）。

音声信号生成部３は、韻律生成装置２の音韻継続時間長生成部１１から音韻継続時間長である子音長Ｄ_C（ｘ_Cj，Ａ）と母音長Ｄ_V（ｘ_Vj，Ｂ）を受けると、その子音長Ｄ_C（ｘ_Cj，Ａ）と母音長Ｄ_V（ｘ_Vj，Ｂ）から音声信号を生成する処理を実施する。
音声信号の生成については、公知の技術を利用すればよいので、ここでは詳細な説明を省略する。
なお、従来の音声合成装置は、子音長に対する個別の誤差基準Ｊ_Cと、母音長に対する個別の誤差基準Ｊ_Vから、個別にモデルパラメータＡ，Ｂを計算するようにしていたので、子音長と母音長の和に対する誤差が大きくなることがあったが、この実施の形態１では、子音長と母音長の和に対する誤差基準Ｊ_CVを含む誤差基準Ｊ_DからモデルパラメータＡ，Ｂを計算するようにしているので、子音長と母音長の和に対する誤差が小さくなる。したがって、韻律生成装置２による韻律情報の予測精度が高くなり、音声信号生成部３により生成される音声信号の品質が向上する。

以上で明らかなように、この実施の形態１によれば、音声データベース２１に登録されている対応関係を参照して、個別の韻律情報に対する誤差基準Ｊ_C，Ｊ_Vを計算するとともに、複数の韻律情報に対する誤差基準Ｊ_CVを計算し、それらの誤差基準Ｊ_C，Ｊ_V，Ｊ_CVから韻律モデルのモデルパラメータＡ，Ｂを推定するモデルパラメータ推定部２２を設け、そのモデルパラメータ推定部２２により推定された韻律モデルのモデルパラメータＡ，Ｂとテキストの言語情報から韻律情報を生成するように構成したので、韻律情報の予測精度を高めることができる効果を奏する。

以下、この実施の形態１の効果を明確にするため、実験データを用いて説明する。
子音長Ｄ_C（ｘ_Cj，Ａ）と母音長Ｄ_V（ｘ_Vj，Ｂ）に対して、個別の誤差基準Ｊ_C，Ｊ_Vを用いてモデルパラメータＡ，Ｂを推定する場合と、式（１）の誤差基準Ｊ_Dを用いてモデルパラメータＡ，Ｂを推定する場合とを比較する。即ち、各場合の予測誤差（平均誤差Ｅ）と誤差削減率Ｒを比較する。ただし、重み係数は、説明の便宜上、ｗ_V，ｗ_C，ｗ_CV＝１とする。

平均誤差Ｅは、誤差基準Ｊを用いて、次式で表されるものとする。
Ｅ＝（Ｊ／Ｎ）^1/2
Ｎ：音声データベース２１に含まれるサンプルの数
誤差削減率Ｒは、次式で表されるものとする。
Ｒ＝−（Ｅ_n−Ｅ₀）×１００／Ｅ₀
Ｅ_n ：本法（実施の形態１）による平均誤差
Ｅ₀ ：従来法による平均誤差

平均誤差Ｅと誤差削減率Ｒを、モデルパラメータＡ，Ｂを推定するために用いたデータ（学習データ）と、モデルパラメータＡ，Ｂの推定に用いていないデータ（未学習データ）に分けて示すと、図７のようになる。図７において、Ｃは子音を表し、Ｖは母音を表している。
図７に示すように、未学習データにおいては、従来法と比べて本法では、子音Ｃの誤差が０．４２％だけ増加し、母音Ｖの誤差が０．９７％だけ増加しているが、Ｃ＋Ｖが２．７６％だけ誤差が削減している。このように、誤差の増加の割合に比べて、誤差の削減の割合が大きいことがわかる。
また、学習データにおいては、従来法と比べて本法では、子音Ｃの誤差が１．５４％だけ増加し、母音Ｖの誤差が１．４６％だけ増加しているが、Ｃ＋Ｖが４．６８％だけ誤差が削減している。このように、誤差の増加の割合に比べて、誤差の削減の割合が大きいことがわかる。

実施の形態２．
上記実施の形態１では、言語解析部１がテキストの言語解析を実施して、音韻記号列の言語情報を出力するものについて示したが、これに限るものではなく、例えば、アクセント型、品詞、係り先、ポーズ、音韻数などの言語情報を出力するようにしてもよい。
また、上記実施の形態１では、言語解析部１が出力する音韻記号列が当該音素と後続音素であるものについて示したが、後続音素の代わりに、先行音素（当該音素の１つの前の音素）、先々行音素（当該音素の２つの前の音素）、あるいは、後々続音素（当該音素の２つの後の音素）などを出力するようにしてもよい。また、当該音素と後続音素に加えて、先行音素等を出力するようにしてもよい。

上記実施の形態１では、音韻継続時間長生成部１１が音韻継続時間長として、２つの音素の長さ（母音長、子音長）を計算するものについて示したが、音素を複数に分割して（例えば、音素を前半と後半に分割する）、分割した音素の長さを計算するようにしてもよい。
この場合、母音の前半の長さを表すモデルと、母音の後半の長さ表すモデルとを設定し、これらのパラメータを推定する際の誤差基準は、母音の前半の長さに対する誤差と、母音の後半の長さ対する誤差と、母音の前半と後半の長さの和に対する誤差の３つから構成される。

上記実施の形態１では、音声データベース２１に言語情報として当該音素と後続音素が登録されるとともに、当該音素の長さが登録されるものについて示したが、予測する韻律情報に合わせて、母音が分割（例えば、母音が前半と後半に分割）された長さが登録されるようにしてもよい。

上記実施の形態１では、モデルパラメータ推定部２２が音声データベース２１に登録されている音韻継続時間長を使用して、韻律モデルのモデルパラメータＡ，Ｂを推定するものについて示したが、下記に示すように、音声データベース２１に登録されている音韻継続時間長を適宜変換し、変換後の音韻継続時間長を使用して、韻律モデルのモデルパラメータＡ，Ｂを推定するようにしてもよい。
変換例（１）ｐ’ ← γ（ｐ＋β）^α
変換例（２）ｐ’ ← γｌｏｇ（ｐ＋β）^α
ただし、ｐは変換前の音韻継続時間長、ｐ’は変換後の音韻継続時間長、α，β，γは任意の変換パラメータである。

上記実施の形態１では、モデルパラメータ推定部２２が子音及び母音の入力ｘ_Cj，ｘ_Vj，に同一の値を設定するものについて示したが、言語情報を選択して、母音と子音で異なる値を設定するようにしてもよい。
また、上記実施の形態１では、モデルパラメータ推定部２２がベクトルｘの要素に“０”または“１”を割り当てるものについて示したが、言語情報を表すことができればよく、ベクトルｘの要素に他の２つの値（例えば、“０．１”と“−１”）を割り当てるようにしてもよい。
ベクトルｘの要素に２値ではなく、多値を割り当てるようにしてもよい。例えば、ポーズ長に応じて、次のような値を割り当てるようにしてもよい。
ポーズ長が０から２５ｍｓｅｃの場合 → ０
ポーズ長が２６から５０ｍｓｅｃの場合 → １
ポーズ長が５１から７５ｍｓｅｃの場合 → ２
ポーズ長が７６以上の場合 → ３

上記実施の形態１では、音素の種類が３０種類であるものについて示したが、音素をグループ化（例えば、摩擦音ｓと破擦音ｔｓをグループ化して、摩擦・破擦音ｓｔｓとする）することにより、音素の種類数を少なくしてもよい。
また、音素を分割化（例えば、破擦音ｔｓを後続の母音で分割し、後続の母音がａのときはｔｓａ、後続の母音がｕのときはｔｓｕ、これら以外の後続の母音のときは、ｔｓｘ）することにより、音素の種類数を増やすようにしてもよい。

上記実施の形態１では、モデルパラメータ推定部２２が重み係数ｗ_V，ｗ_C，ｗ_CVで重み付けられた誤差基準Ｊ_C，Ｊ_V，Ｊ_CVを加算して、誤差基準Ｊ_Dを求めるものについて示したが、これに限るものではなく、例えば、３つの誤差基準Ｊ_C，Ｊ_V，Ｊ_CVを乗算して誤差基準Ｊ_Dを求めるようにしてもよいし、乗算と加算を組み合わせて誤差基準Ｊ_Dを求めるようにしてもよい。
Ｊ_D＝Ｊ_C・Ｊ_V・Ｊ_CV
Ｊ_D＝Ｊ_C・Ｊ_V＋Ｊ_CV

上記実施の形態１では、予測値を計算するＤ（ｘ，Ａ）を数量化Ｉ類の式で表されているものについて示したが、他の入出力関数で表されているものであってもよい。
例えば、人工ニューラルネットワークで表されるような関数や、モデルパラメータＡに対して非線形な関数や、入力ｘに対して非線形な式であってもよい。

上記実施の形態１では、モデルパラメータＡを、入力ｘと同じ長さｎのベクトルで表すものについて示したが、Ａの長さはｘの長さと一致している必要はなく、入出力関数の形にしたがって任意の長さでもよい。

上記実施の形態１では、モデルパラメータ推定部２２が誤差基準Ｊ_DをモデルパラメータＡ，Ｂで微分して連立方程式を立て、その連立方程式をモデルパラメータＡ，Ｂについて解くことにより、その誤差基準Ｊ_Dを最小化するモデルパラメータＡ，Ｂを推定するものについて示したが、これに限るものではなく、例えば、公知の数値解析を実施して、誤差基準Ｊ_Dを最小化するモデルパラメータＡ，Ｂを推定するようにしてもよい。

上記実施の形態１では、音声データベース２１における韻律情報と予測値の誤差の２乗の和で誤差基準を表すものについて示したが、これに限るものではなく、例えば、韻律情報と予測値をベクトルで表し、このベクトルの距離で誤差基準を表すようにしてもよい。

実施の形態３．
上記実施の形態１では、子音長に対する個別の誤差基準Ｊ_Cと母音長に対する個別の誤差基準Ｊ_Vを計算するとともに、子音長と母音長の和に対する関連の誤差基準Ｊ_CVを計算し、それらの誤差基準Ｊ_C，Ｊ_V，Ｊ_CVから誤差基準Ｊ_Dを計算するものについて示したが、下記の３つ誤差基準から誤差基準Ｊ_Dを計算するようにしてもよい。

即ち、この実施の形態３では、モデルパラメータ推定部２２が子音長と母音長の和のモデルと、子音長のモデルを設定することにより、子音長と母音長の和に対する関連の誤差基準Ｊ_CVと、子音長に対する個別の誤差基準Ｊ_Cと、関連の誤差基準Ｊ_CVと個別の誤差基準Ｊ_Cの差（子音長と母音長−子音長）の誤差基準Ｊ_CV-Cを計算し、それらの誤差基準Ｊ_CV，Ｊ_C，Ｊ_CV-Cから誤差基準Ｊ_Dを計算するようにする。
Ｊ_D＝ｗ_CVＪ_CV＋ｗ_CＪ_C＋ｗ_CV-CＪ_CV-C
ただし、ｗ_CV，ｗ_C，ｗ_CV-Cは重み係数である。

このように、モデルパラメータ推定部２２が、関連の誤差基準Ｊ_CVと個別の誤差基準Ｊ_Cの差（子音長と母音長−子音長）の誤差基準Ｊ_CV-Cを誤差基準Ｊ_Dに含めて、その誤差基準Ｊ_Dが最小になるように、モデルパラメータＡ，Ｂを推定することにより、従来よりも、予測値の差（子音長と母音長−子音長）を小さくすることができるため、合成音声の韻律の品質を改善することができる。
図８は平均誤差Ｅと誤差削減率Ｒを示す説明図であり、図において、Ｃは子音長のモデルを示し、ＣＶは子音長と母音長の和のモデルを示し、ＣＶ−Ｃはこれらの差（子音長と母音長−子音長）のモデルを示している。

図８に示すように、未学習データにおいては、従来法と比べて本法では、子音Ｃの誤差が０．９９％だけ増加しているが、ＣＶ−Ｃが８．６５％だけ誤差が削減している。このように、誤差の増加の割合に比べて、誤差の削減の割合が大きいことがわかる。
また、学習データにおいては、従来法と比べて本法では、子音Ｃの誤差が３．６５％だけ増加し、Ｃ＋Ｖの誤差が０．８４％だけ増加しているが、ＣＶ−Ｃが１０．７２％だけ誤差が削減している。このように、誤差の増加の割合に比べて、誤差の削減の割合が大きいことがわかる。

実施の形態４．
上記実施の形態１〜３では、音韻継続時間長が韻律情報であるものについて示したが、この実施の形態４では、音の高さを表す基本周波数が韻律情報であるものについて説明する。
即ち、図２の基本周波数生成部１２が韻律生成装置２に実装されている形態について説明する。基本周波数生成部１２は、音韻継続時間長生成部１１と同様に、音声データベース２１、モデルパラメータ推定部２２及び韻律情報生成部２３から構成されている（音韻継続時間長生成部１１の音声データベース２１、モデルパラメータ推定部２２及び韻律情報生成部２３とは若干処理内容が相違している）。
ただし、この実施の形態４では、音声データベース２１が、図９に示すように、言語情報として、音韻数とアクセント型を登録し、韻律情報として、当該フレーズの代表となる４つの基本周波数（第１基本周波数、第２基本周波数、第３基本周波数、第４基本周波数）を登録している。

ここで、フレーズは、韻律の基本単位であって、１音節以上の長さであり、１つ以下のアクセントを含む単位である。
代表となる４つの基本数周波数における第１基本周波数はフレーズの開始時刻における基本周波数であり、第２基本周波数はフレーズ中の第２音節の母音の中央の時刻における基本周波数である。
また、第３基本周波数はアクセントのある音節の母音の中央の時刻における基本周波数であり、第４基本周波数はアクセントのある音節の次の音節の中央の時刻における基本周波数である。
図９の例では、２つのフレーズからなる文の基本周波数の時間変化を示しており、第１基本周波数はｆ_1j、第２基本周波数はｆ_2j、第３基本周波数はｆ_3j、第４基本周波数はｆ_4jで示されるものとする。
また、音韻数は、フレーズに含まれる音節の数である。

基本周波数生成部１２のモデルパラメータ推定部２２は、音声データベース２１から言語情報（音韻数、アクセント型）の読み込みを実施して、その音韻数をｘ_2jに設定するとともに、そのアクセント型をｘ_3jに設定する。また、その言語情報の第２基本周波数をｆ_2jに設定して、その言語情報の第３基本周波数をｆ_3jに設定する。

モデルパラメータ推定部２２は、上記の設定処理が完了すると、以下に示すように、第２基本周波数に対する個別の誤差基準Ｊ₂と第３基本周波数に対する個別の誤差基準Ｊ₃を計算するとともに、第２基本周波数と第３基本周波数の差に対する関連の誤差基準Ｊ₅を計算し、それらの誤差基準Ｊ₂，Ｊ₃，Ｊ₅から誤差基準Ｊ_Fを計算する。
Ｊ_F＝ｗ₂Ｊ₂＋ｗ₃Ｊ₃＋ｗ₅Ｊ₅ （２）
Ｊ₂＝Σ（ｆ_2j−Ｆ₂（ｘ_2j，Ｃ））²
Ｊ₃＝Σ（ｆ_3j−Ｆ₃（ｘ_3j，Ｄ））²
Ｊ₅＝Σ（（ｆ_2j−ｆ_3j）−（Ｆ₂（ｘ_2j，Ｃ）−Ｆ₃（ｘ_3j，Ｄ）））²
ｆ_ij ：第ｊサンプルの第ｉ基本周波数
ｘ_ij ：第ｊサンプルの第ｉ基本周波数に対する要因
Ｆ_i（ｘ_ij）：第ｊサンプルの第ｉ基本周波数の予測モデル
ｗ₂，ｗ₃，ｗ₅ ：誤差関数に対する重み係数（正の値）
Σ ：第ｊサンプルに対する和

モデルパラメータ推定部２２は、上記のようにして誤差基準Ｊ_Fを計算すると、その誤差基準Ｊ_Fを最小化するモデルパラメータを推定する。
即ち、モデルパラメータ推定部２２は、Ｆ₂（ｘ_2j，Ｃ）及びＦ₃（ｘ_3j，Ｄ）を数量化Ｉ類の式で表す場合、その誤差基準Ｊ_Fがモデルパラメータの２次式で表されるので、その誤差基準Ｊ_FをモデルパラメータＣ，Ｄで微分して連立方程式を立て、その連立方程式をモデルパラメータＣ，Ｄについて解くことにより、その誤差基準Ｊ_Fを最小化するモデルパラメータＣ，Ｄを推定する。

基本周波数生成部１２の韻律情報生成部２３は、モデルパラメータ推定部２２が誤差基準Ｊ_Fを最小化するモデルパラメータＣ，Ｄを推定すると、そのモデルパラメータＣ，Ｄと、言語解析部１から出力される言語情報ｘ_2j，ｘ_3jとを用いて、第２基本周波数Ｆ₂（ｘ_2j，Ｃ）と第３基本周波数Ｆ₃（ｘ_3j，Ｄ）を韻律情報として計算する。

音声信号生成部３は、韻律生成装置２の基本周波数生成部１２から第２基本周波数Ｆ₂（ｘ_2j，Ｃ）と第３基本周波数Ｆ₃（ｘ_3j，Ｄ）を受けると、その第２基本周波数Ｆ₂（ｘ_2j，Ｃ）と第３基本周波数Ｆ₃（ｘ_3j，Ｄ）から音声信号を生成する処理を実施する。
なお、従来の音声合成装置は、第２基本周波数Ｆ₂（ｘ_2j，Ｃ）に対する個別の誤差基準Ｊ₂と、第３基本周波数Ｆ₂（ｘ_3j，Ｃ）に対する個別の誤差基準Ｊ₃から、個別にモデルパラメータＣ，Ｄを計算するようにしていたので、第２基本周波数と第３基本周波数の差に対する誤差が大きくなることがあったが、この実施の形態４では、第２基本周波数と第３基本周波数の差に対する関連の誤差基準Ｊ₅を含む誤差基準Ｊ_FからモデルパラメータＣ，Ｄを計算するようにしているので、第２基本周波数と第３基本周波数の差に対する誤差が小さくなる。したがって、韻律生成装置２による韻律情報の予測精度が高くなり、音声信号生成部３により生成される音声信号の品質が向上する。

以上で明らかなように、この実施の形態４によれば、音声データベース２１に登録されている対応関係を参照して、個別の韻律情報に対する誤差基準Ｊ₂，Ｊ₃を計算するとともに、複数の韻律情報に対する誤差基準Ｊ₅を計算し、それらの誤差基準Ｊ₂，Ｊ₃，Ｊ₅から韻律モデルのモデルパラメータＣ，Ｄを推定するモデルパラメータ推定部２２を設け、そのモデルパラメータ推定部２２により推定された韻律モデルのモデルパラメータＣ，Ｄとテキストの言語情報から韻律情報を生成するように構成したので、韻律情報の予測精度を高めることができる効果を奏する。

以下、この実施の形態４の効果を明確にするため、実験データを用いて説明する。
第２基本周波数Ｆ₂（ｘ_2j，Ｃ）と第３基本周波数Ｆ₃（ｘ_3j，Ｄ）に対して、個別の誤差基準Ｊ₂，Ｊ₃を用いてモデルパラメータＣ，Ｄを推定する場合と、式（２）の誤差基準Ｊ_Fを用いてモデルパラメータＣ，Ｄを推定する場合とを比較する。即ち、各場合の予測誤差（平均誤差Ｅ）と誤差削減率Ｒを比較する。ただし、重み係数は、説明の便宜上、ｗ₂，ｗ₃，ｗ₅＝１とする。

平均誤差Ｅと誤差削減率Ｒを、モデルパラメータＣ，Ｄを推定するために用いたデータ（学習データ）と、モデルパラメータＣ，Ｄの推定に用いていないデータ（未学習データ）に分けて示すと、図１０のようになる。
なお、基本周波数は、次式のようにｌｏｇ変換を実施し、ｆ₀は変換前の基本周波数、ｆ₀ ^'は変換後の基本周波数である。
ｆ₀ ^'＝１２ｌｏｇ（ｆ₀）

図１０に示すように、未学習データにおいては、従来法と比べて本法では、第２基本周波数の誤差が０．０６％だけ増加し、第３基本周波数の誤差が０．１０％だけ増加しているが、ｆ₂−ｆ₃が５．４５％だけ誤差が削減している。このように、誤差の増加の割合に比べて、誤差の削減の割合が大きいことがわかる。
また、学習データにおいては、従来法と比べて本法では、第２基本周波数の誤差が０．３６％だけ増加し、第３基本周波数の誤差が０．４４％だけ増加しているが、ｆ₂−ｆ₃が６．００％だけ誤差が削減している。このように、誤差の増加の割合に比べて、誤差の削減の割合が大きいことがわかる。

実施の形態５．
上記実施の形態４では、音声データベース２１が言語情報として、音韻数とアクセント型を登録するものについて示したが、これに限るものではなく、例えば、音韻系列、品詞、係り先、ポーズなどの言語情報を登録するようにしてもよい。

また、上記実施の形態４では、第２基本周波数と第３基本周波数に対する誤差基準Ｊ₂，Ｊ₃を計算するものについて示したが、これに限るものではなく、他の代表となる基本周波数に対する誤差基準Ｊを計算するようにしてもよい。
例えば、第１基本周波数と第２基本周波数に対する誤差基準Ｊ₁，Ｊ₂、第１基本周波数と第３基本周波数に対する誤差基準Ｊ₁，Ｊ₃、第１基本周波数と第４基本周波数に対する誤差基準Ｊ₁，Ｊ₄、第２基本周波数と第４基本周波数に対する誤差基準Ｊ₂，Ｊ₄などを計算するようにしてもよい。

上記実施の形態４では、代表となる基本周波数をフレーズ中の第１，２，３，４基本周波数で表しているものを示したが、フレーズ中の音節毎の基本周波数を、代表となる基本周波数としてもよい。
また、上記実施の形態４では、同一フレーズ内の第２基本周波数と第３基本周波数のモデルの誤差基準Ｊ₅について述べたが、前後のフレーズに跨った基本周波数をモデルとしてもよい。例えば、当該フレーズの第２基本周波数のモデルと、次のフレーズの第２基本周波数を２つのモデルとしてもよい。

実施の形態６．
上記実施の形態１〜５では、音韻継続時間長又は基本周波数に対する誤差基準を最小にするモデルパラメータを推定するものについて示したが、音韻継続時間長に対する誤差基準と基本周波数に対する誤差基準の双方を含む誤差基準を最小にするモデルパラメータを推定するようにしてもよい。
具体的には、以下の通りである。

この実施の形態６では、音声データベース２１が、図１１に示すように、言語情報として、音韻記号列と音韻数とアクセント型を登録し、韻律情報として、音節の長さと、当該フレーズの代表となる２つの基本周波数（第１基本周波数、第２基本周波数）とを登録している。
なお、第１基本周波数はフレーズの開始時刻における基本周波数であり、第２基本周波数はフレーズ中の第２音節の母音の中央の時刻における基本周波数ある。
図１２は２つのフレーズからなる文の基本周波数の時間変化を示しており、第１基本周波数はｆ_1j、第２基本周波数はｆ_2jで表されている。また、Ｃは子音、Ｖは母音を表している。また、Ｐ₁は母音終了位置から第１基本周波数を設定する時刻、Ｐ₂は母音終了位置から第２基本周波数を設定する時刻である。

モデルパラメータ推定部２２は、音声データベース２１から言語情報（音韻記号列、音韻数、アクセント型）の読み込みを実施して、その音韻数をｘ_2jに設定するとともに、そのアクセント型をｘ_3jに設定する。また、当該音素と後続音素を入力ｘ_Miに設定する。さらに、その言語情報の第１基本周波数をｆ_1jに設定して、その言語情報の第２基本周波数をｆ_2jに設定する。

モデルパラメータ推定部２２は、上記の設定処理が完了すると、以下の式（５）に示すように、複数の音韻に亘る基本周波数の傾きに対する誤差基準Ｊ_Pを計算する。
ここで、複数の音韻に亘る基本周波数の傾きは、下記示すように、比の式で表すことができる。
（ｆ_2j−ｆ_1j）：（Ｍ_j2＋Ｐ₁−Ｐ₂）
＝（Ｆ₂（ｘ_2j，Ａ）−Ｆ₁（ｘ_1j，Ｅ）：（Ｄ_M（ｘ_Mj2，Ｆ）＋Ｐ₁−Ｐ₂）
（３）
Ｐ₁ ：母音終了位置から第１基本周波数を設定する時刻
Ｐ₂ ：母音終了位置から第２基本周波数を設定する時刻
Ｍ_j2 ：第ｊサンプルの第２音節の子音長と母音長の和
ｘ_Mj2 ：第ｊサンプルの第２音節の子音長と母音長の和に対する要因

したがって、傾きに関する誤差Ｊ_gは、次式で定義することができる。
Ｊ_g＝Σ（（Ｍ_j12＋Ｐ₁−Ｐ₂）（Ｆ₂(ｘ_2j，Ａ)−Ｆ₁（ｘ_1j，Ｅ））
−（Ｄ_M（ｘ_Mj2，Ｆ）＋Ｐ₁−Ｐ₂）（ｆ_2j−ｆ_1j））²
（４）
Σ ：第ｊサンプルに対する和

モデルパラメータ推定部２２は、従来、独立に表現される誤差関数Ｊ_M，Ｊ₁，Ｊ₂を使用して、誤差基準Ｊ_Pを式（５）のように定義する。
Ｊ_P＝ｗ_MＪ_M＋ｗ₁Ｊ₁＋ｗ₂Ｊ₂＋ｗ_gＪ_g （５）
Ｊ_M＝Σ（Ｍ_j−Ｄ_M（ｘ_Mj，Ｆ））²
Ｊ₁＝Σ（ｆ_1j−Ｆ₁（ｘ_1j，Ｅ））²
Ｊ₂＝Σ（ｆ_2j−Ｆ₂（ｘ_2j，Ｃ））²
Ｍ_j ：第ｊサンプルの子音長と母音長の和
ｘ_Mj ：第ｊサンプルの子音長と母音長の和に対する要因
Ｄ_M（ｘ_Mj，Ｆ）：第ｊサンプルの子音長と母音長の和の予測モデル
ｆ_ij ：第ｊサンプルの第ｉ基本周波数
ｘ_ij ：第ｊサンプルの第ｉ基本周波数に対する要因
Ｆ_i（ｘ_ij）：第ｊサンプルの第ｉ基本周波数の予測モデル
ｗ_M，ｗ₁，ｗ₂，ｗ₃ ：誤差関数に対する重み係数（正の値）
Σ ：第ｊサンプルに対する和

モデルパラメータ推定部２２は、上記のようにして誤差基準Ｊ_Pを計算すると、その誤差基準Ｊ_Pを最小化するモデルパラメータを推定する。
即ち、モデルパラメータ推定部２２は、Ｄ_M（ｘ_Mj，Ｆ）、Ｆ₁（ｘ_1j，Ｅ）及びＦ₂（ｘ_2j，Ｃ）を数量化Ｉ類の式で表す場合、その誤差基準Ｊ_Pがモデルパラメータの２次式で表されるので、その誤差基準Ｊ_PをモデルパラメータＦ，Ｅ，Ｃで微分して連立方程式を立て、その連立方程式をモデルパラメータＦ，Ｅ，Ｃについて解くことにより、その誤差基準Ｊ_Pを最小化するモデルパラメータＦ，Ｅ，Ｃを推定する。

韻律情報生成部２３は、モデルパラメータ推定部２２が誤差基準Ｊ_Pを最小化するモデルパラメータＦ，Ｅ，Ｃを推定すると、そのモデルパラメータＦ，Ｅ，Ｃと、言語解析部１から出力される言語情報ｘ_1j，ｘ_2j，ｘ_Mjとを用いて、音節長Ｄ_M（ｘ_Mj，Ｆ）と第１基本周波数Ｆ₁（ｘ_1j，Ｃ）と第２基本周波数Ｆ₂（ｘ_2j，Ｄ）を韻律情報として計算する。

音声信号生成部３は、韻律生成装置２の基本周波数生成部１２から音節長Ｄ_M（ｘ_Mj，Ｆ）と第１基本周波数Ｆ₁（ｘ_1j，Ｃ）と第２基本周波数Ｆ₂（ｘ_2j，Ｄ）を受けると、その音節長Ｄ_M（ｘ_Mj，Ｆ）と第１基本周波数Ｆ₁（ｘ_1j，Ｃ）と第２基本周波数Ｆ₂（ｘ_2j，Ｄ）から音声信号を生成する処理を実施する。
なお、従来の音声合成装置は、音節長Ｄ_M（ｘ_Mj，Ｆ）に対する個別の誤差基準Ｊ_Mと、第１基本周波数Ｆ₁（ｘ_1j，Ｃ）に対する個別の誤差基準Ｊ₁と、第２基本周波数Ｆ₂（ｘ_2j，Ｃ）に対する個別の誤差基準Ｊ₂から、個別にモデルパラメータＦ，Ｅ，Ｃを計算するようにしていたので、基本周波数の傾きに対する誤差が大きくなることがあったが、この実施の形態６では、複数の音韻に亘る基本周波数の傾きの誤差基準Ｊ_Mを含む誤差基準Ｊ_PからモデルパラメータＦ，Ｅ，Ｃを計算するようにしているので、基本周波数の傾きに対する誤差が小さくなる。したがって、韻律生成装置２による韻律情報の予測精度が高くなり、音声信号生成部３により生成される音声信号の品質が向上する。

実施の形態７．
上記実施の形態１〜６では、韻律情報として、音韻継続時間長又は基本周波数を使用するものについて示したが、韻律情報として、音の大きさを表すパワーを使用するようにしてもよく、上記実施の形態１〜６と同様の効果を奏することができる。
なお、上記実施の形態６では、基本周波数の代わりに、音の大きさを表すパワーを使用するようにすればよい。

この発明の実施の形態１による音声合成装置を示す構成図である。この発明の実施の形態１による韻律生成装置を示す構成図である。この発明の実施の形態１による韻律生成装置における音韻継続時間長生成部を示す構成図である。音韻継続時間長を示す説明図である。この発明の実施の形態１による韻律生成装置の処理内容を示すフローチャートである。音声データベースの登録内容を示す説明図である。平均誤差Ｅと誤差削減率Ｒを示す説明図である。平均誤差Ｅと誤差削減率Ｒを示す説明図である。音声データベースの登録内容を示す説明図である。平均誤差Ｅと誤差削減率Ｒを示す説明図である。音声データベースの登録内容を示す説明図である。２つのフレーズからなる文の基本周波数の時間変化を示す説明図である。

符号の説明

１言語解析部（言語解析手段）、２韻律生成装置、３音声信号生成部（音声信号生成手段）、１１音韻継続時間長生成部、１２基本周波数生成部、１３パワー生成部、２１音声データベース、２２モデルパラメータ推定部（モデルパラメータ推定手段）、２３韻律情報生成部（韻律情報生成手段）。

Claims

予め言語情報と韻律情報の対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
言語情報及び韻律情報を対にした第１のデータ群に基づいて第１のデータ群の韻律情報に対する第１の誤差基準を計算し、
言語情報及び韻律情報を対にした第２のデータ群に基づいて第２のデータ群の韻律情報に対する第２の誤差基準を計算するとともに、
第１及び第２のデータ群に基づいて第１及び第２のデータ群の韻律情報の和または差に対する第３の誤差基準を計算し、
第１から第３の誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの言語情報から韻律情報を生成する韻律情報生成手段とを備えた韻律生成装置。
予め言語情報と韻律情報の対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
言語情報及び韻律情報を対にした第１のデータ群に基づいて第１のデータ群の韻律情報に対する第１の誤差基準を計算するとともに、
言語情報及び韻律情報を対にした第１のデータ群、及び言語情報及び韻律情報を対にした第２のデータ群に基づいて第１及び第２のデータ群の韻律情報の和に対する第３の誤差基準を計算し、
第３の誤差基準と第１の誤差基準との差から第４の誤差基準を計算し、
第１、第３及び第４の誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの言語情報から韻律情報を生成する韻律情報生成手段とを備えた韻律生成装置。
予め子音の音素に対する子音長及び母音の音素に対する母音長の対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
子音及び子音長を対にしたデータ群に基づいて子音長に対する誤差基準を計算し、
母音及び母音長を対にしたデータ群に基づいて母音長に対する誤差基準を計算するとともに、
子音及び子音長を対にしたデータ群、及び母音及び母音長を対にしたデータ群に基づいて子音長及び母音長の和に対する誤差基準を計算し、
子音長に対する誤差基準、母音長に対する誤差基準、及び子音長及び母音長の和に対する誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの子音及び母音から子音長及び母音長を生成する韻律情報生成手段とを備えた韻律生成装置。
予め子音の音素に対する子音長及び母音の音素に対する母音長の対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
子音及び子音長を対にしたデータ群に基づいて子音長に対する誤差基準を計算するとともに、
子音及び子音長を対にしたデータ群、及び母音及び母音長を対にしたデータ群に基づいて子音長及び母音長の和に対する誤差基準を計算し、
子音長及び母音長の和に対する誤差基準と子音長に対する誤差基準との差に応じた誤差基準を計算し、
子音長に対する誤差基準、子音長及び母音長の和に対する誤差基準、及び差に応じた誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの子音及び母音から子音長及び母音長を生成する韻律情報生成手段とを備えた韻律生成装置。
予め音韻数に対する第１の基本周波数、及びアクセント型に対する第２の基本周波数の対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
音韻数及び第１の基本周波数を対にしたデータ群に基づいて第１の基本周波数に対する誤差基準を計算し、
アクセント型及び第２の基本周波数を対にしたデータ群に基づいて第２の基本周波数に対する誤差基準を計算するとともに、
音韻数及び第１の基本周波数を対にしたデータ群、及びアクセント型及び第２の基本周波数を対にしたデータ群に基づいて第１の基本周波数及び第２の基本周波数の差に対する誤差基準を計算し、
第１の基本周波数に対する誤差基準、第２の基本周波数に対する誤差基準、及び第１の基本周波数及び第２の基本周波数の差に対する誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの音韻数及びアクセント型から第１及び第２の基本周波数を生成する韻律情報生成手段とを備えた韻律生成装置。
予め音韻記号列に対する音節長、音韻数に対する第１の基本周波数、及びアクセント型に対する第２の基本周波数の対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
音韻記号列及び音節長を対にしたデータ群に基づいて音節長に対する誤差基準を計算し、
音韻数及び第１の基本周波数を対にしたデータ群に基づいて第１の基本周波数に対する誤差基準を計算し、
アクセント型及び第２の基本周波数を対にしたデータ群に基づいて第２の基本周波数に対する誤差基準を計算するとともに、
音韻記号列及び音節長を対にしたデータ群、音韻数及び第１の基本周波数を対にしたデータ群、及びアクセント型及び第２の基本周波数を対にしたデータ群に基づいて複数の音韻に亘る基本周波数の傾きに関する誤差基準を計算し、
音節長に対する誤差基準、第１の基本周波数に対する誤差基準、第２の基本周波数に対する誤差基準、及び複数の音韻に亘る基本周波数の傾きに関する誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの音韻記号列、音韻数及びアクセント型から音節長、第１及び第２の基本周波数を生成する韻律情報生成手段とを備えた韻律生成装置。
予め音韻数に対する第１のパワー、及びアクセント型に対する第２のパワーの対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
音韻数及び第１のパワーを対にしたデータ群に基づいて第１のパワーに対する誤差基準を計算し、
アクセント型及び第２のパワーを対にしたデータ群に基づいて第２のパワーに対する誤差基準を計算するとともに、
音韻数及び第１のパワーを対にしたデータ群、及びアクセント型及び第２のパワーを対にしたデータ群に基づいて第１のパワー及び第２のパワーの差に対する誤差基準を計算し、
第１のパワーに対する誤差基準、第２のパワーに対する誤差基準、及び第１のパワー及び第２のパワーの差に対する誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの音韻数及びアクセント型から第１及び第２のパワーを生成する韻律情報生成手段とを備えた韻律生成装置。
テキストを言語解析して、その解析結果である言語情報を出力する言語解析手段と、
予め言語情報と韻律情報の対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
言語情報及び韻律情報を対にした第１のデータ群に基づいて第１のデータ群の韻律情報に対する第１の誤差基準を計算し、
言語情報及び韻律情報を対にした第２のデータ群に基づいて第２のデータ群の韻律情報に対する第２の誤差基準を計算するとともに、
第１及び第２のデータ群に基づいて第１及び第２のデータ群の韻律情報の和または差に対する第３の誤差基準を計算し、
第１から第３の誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータと上記言語解析手段より出力された言語情報から韻律情報を生成する韻律情報生成手段と、
上記韻律情報生成手段により生成された韻律情報から音声信号を生成する音声信号生成手段とを備えた音声合成装置。
テキストを言語解析して、その解析結果である言語情報を出力する言語解析手段と、
予め言語情報と韻律情報の対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
言語情報及び韻律情報を対にした第１のデータ群に基づいて第１のデータ群の韻律情報に対する第１の誤差基準を計算するとともに、
言語情報及び韻律情報を対にした第１のデータ群、及び言語情報及び韻律情報を対にした第２のデータ群に基づいて第１及び第２のデータ群の韻律情報の和に対する第３の誤差基準を計算し、
第３の誤差基準と第１の誤差基準との差から第４の誤差基準を計算し、
第１、第３及び第４の誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータと上記言語解析手段より出力された言語情報から韻律情報を生成する韻律情報生成手段と、
上記韻律情報生成手段により生成された韻律情報から音声信号を生成する音声信号生成手段とを備えた音声合成装置。