JP2007279744A

JP2007279744A - Ｆ０および休止予測モデルを訓練する方法および装置、ｆ０および休止予測方法および装置、音声合成方法および装置

Info

Publication number: JP2007279744A
Application number: JP2007099948A
Authority: JP
Inventors: Lifu Yi; イー・リフ; Jie Hao; ジー・ハオ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-04-06
Filing date: 2007-04-06
Publication date: 2007-10-25
Also published as: US20070239439A1; CN101051459A

Abstract

【課題】Ｆ０予測モデル訓練方法を提供する。
【解決手段】Ｆ０予測モデル訓練方法は、直交多項式を用いてＦ０を表し、直交多項式のパラメータ毎にＦ０予測に関連する属性と、属性の可能な属性組合せの少なくとも一部を用いて、属性と属性組合せの各々が項目として含まれる初期パラメータ予測モデルを生成し、パラメータ予測モデル中の各項目の重要度を計算し、最低算出重要度を有する項目を削除し、残りの項目を用いてパラメータ予測モデルを再生成し、再生成パラメータ予測モデルが最適モデルか否かを判定し、パラメータ予測モデルが最適モデルではないと判定された場合、新規再生成パラメータ予測モデルを用いて重要度を計算し、重要度を計算するステップに続く各ステップを繰り返すことを含み、直交多項式及び直交多項式の全てのパラメータ予測モデルがＦ０予測モデルを形成する。
【選択図】図１

Description

本発明は、情報処理技術に関し、詳細には、コンピュータを用いてＦ０および休止予測モデルを訓練する技術、Ｆ０および休止予測技術、ならびに音声合成の技術に関する。

Ｆ０予測は、一般に、２つのステップに分けられる。第１のステップは、指定された音調モデルのパラメータによってＦ０曲線を表すことである。第２のステップは、データ駆動型の方法を使って、言語属性からこれらのパラメータを予測することである。既存の表現の大部分は、あまりに複雑かつ不安定で、推定し、予測するのが困難である。

いくつかのＦ０予測のモデルが提案されており、例えば、フジサキとＰＥＮＴＡが、Ｆ０表現の、２つの異なる、典型的なモデルである。フジサキモデルは、Ｆ０曲線を、長期成分と短期成分、すなわち、句成分とアクセント（音調）成分の線形結合として表す。ＰＥＮＴＡモデルは、典型的な線形順序付けモデルであり、フジサキモデルよりも、大きな韻律単位に対する局所的イベントの影響により大きく注目する。いずれのパラメトリック形式も指数を含み、複雑な挙動を呈するものであり、パラメータを解くのが非常に難しい。

フジサキモデルは、例えば、論文 “Joint Extraction and Prediction of Fujisaki’s Intonation Model Parameters”, Pablo Daniel Aguero, Klaus Wimmer and Antonio Bonafonte, In ICSLP 2004, Jeju Island, Korea, 2004に詳細に記載されている。

ＰＥＮＴＡモデルは、例えば、論文“The PENTA model of speech melody: Transmitting multiple communicative functions in parallel”, Xu, Y., in Proceedings of From Sound to Sense: 50+ years of discoveries in speech communication, Cambridge, MA, C-91-96, 2004,及びと、論文“F0 generation for speech synthesis using a multi-tier approach”, Sun X., in Proc. ICSLP’02, pp.2077-2080に詳細に記載されている。

休止予測について、現在の技術では、休止のガウス分布だけを想定するものであり、他の分布はまだ研究されていない。休止予測には、ＣＡＲＴ（分類木と回帰木法）、ＭＢＬ（メモリベース学習）、およびＭＥ（最大エントロピーモデル）等、多くの統計モデルが提案されており、ＣＡＲＴ、ＭＢＬ、ＭＥは、中国語ＴＴＳ（テキスト読み上げシステム）の流行の方法である。これらは、休止のガウス分布または帰無特殊分布を想定している。モデル化分布仮説に関して、休止のどのような特定の特性も考慮されない。

分類木と回帰木法（ＣＡＲＴ）については、例えば、論文“Intonational Phrase Break Prediction Using Decision Tree and N-Gram Model”, Sun, X. and Applebaum, T.H., in Proceedings Euro speech 2001, Denmark, Vol. 1, pp. 537-540に詳細に記載されている。

メモリベース学習（ＭＢＬ）については、例えば、論文“Predicting. phrase breaks with Memory-Based Learning”, Bertjan Busser, W. Daelemans, Van den Bosch, in Proceedings 4th. ISCA Tutorial and research Workshop on Speech Synthesis, Perthshire Scotland, 2001に詳細に記載されている。

最大エントロピーモデル（ＭＥ）については、例えば、論文“Chinese Prosody Phrase Break Prediction Based on Maximum Entropy Model”, Jian-feng Li, Guo-ping Hu, Wan-ping Zhang, and Ren-hua Wang, In Proceedings ICSLP 2004, Oct 4-8, Korea, pp. 729-732,及び論文“Sliding Window Smoothing For Maximum Entropy Based Intonational Phrase Prediction In Chinese”, Jian-Feng Li, Guo-Ping Hu, Ren-Hua Wang, and Li-Rong Dai, in Proceeding of ICASSP2005, Philadelphia, PA, USA, pp. 285-288に詳細に記載されている。これら全てを参照により本明細書に組み込むものである。

他の場合としては、Ｆ０法も休止予測法も、既存の言語学的知識によって導かれる言語属性と属性の組み合わせを使用するが、完全にデータ駆動型の方法ではない。しかも、これらは、これらの予測に対する発話速度の寄与に関して全く注意を払わない。

しかしながら、従来の方法には、以下の短所がある。

１）既存のモデルの係数は、データ駆動型の方法によって算出できる。しかし、属性と属性組み合わせは、データ駆動型の方法によって選択されるのではなく、手作業で選択される。このため、これらの「部分的に」データ駆動型のモデル化方法は、主観的経験的手法に依存するものである。

２）発話速度が、Ｆ０および休止モデル化の属性として導入されない。しかし、分節のＦ０および休止は、既存の韻律学研究によれば、明らかに、発話速度の影響を受ける。このため、音声合成装置は、ユーザが発話速度を調整する必要があるときに、分節のＦ０および休止を、直線的に短縮し、または延長せざるを得ない。しかし、実際には、分節のＦ０および休止に対する異なる属性の影響は大きく異なり、このため、直線的な短縮および延長を行うことは合理的ではない。

前述の従来技術の問題を解決するために、本発明は、Ｆ０予測モデル訓練方法および装置、Ｆ０予測方法および装置、音声合成方法および装置、休止予測モデル訓練方法および装置、休止予測方法および装置、並びに音声合成方法および装置を提供する。

本発明の一態様によれば、Ｆ０予測モデルを訓練する方法であって、直交多項式を用いてＦ０を表すことと、直交多項式の各パラメータごとに、Ｆ０予測に関連する複数の属性と上記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、上記複数の属性と上記属性組み合わせの各々が項目として含まれる初期パラメータ予測モデルを生成することと、上記パラメータ予測モデル中の上記各項目の重要度を計算することと、最低の算出重要度を有する項目を削除することと、残りの項目を用いてパラメータ予測モデルを再生成することと、上記再生成されたパラメータ予測モデルが最適モデルであるか否かを判定することと、上記パラメータ予測モデルが最適モデルではないと判定された場合、新規に再生成されたパラメータ予測モデルを用いて、重要度を計算する上記ステップと、重要度を計算する上記ステップに続く各ステップを繰り返すこととを含み、直交多項式と、直交多項式のすべてのパラメータ予測モデルがＦ０予測モデルを形成する、Ｆ０予測モデル訓練方法が提供される。

本発明の別の態様によれば、Ｆ０予測方法であって、前述のＦ０予測モデルを訓練する方法を使ってＦ０予測モデルを訓練することと、Ｆ０予測に関連する上記複数の属性の対応する値を取得することと、上記Ｆ０予測モデルとＦ０予測に関連する上記複数の属性の上記対応する値に基づいてＦ０を計算することとを含むＦ０予測方法が提供される。

本発明の別の態様によれば、音声合成方法であって、前述のＦ０予測方法を使ってＦ０を予測することと、予測されたＦ０に基づいて音声合成を行うこととを含む音声合成方法が提供される。

本発明の別の態様によれば、Ｆ０予測モデルを訓練する装置であって、直交多項式を用いてＦ０を表し、直交多項式の各パラメータごとに、Ｆ０予測に関連する複数の属性と、上記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、上記複数の属性と上記属性組み合わせの各々が項目として含まれる初期パラメータ予測モデルを生成するように構成された初期モデル生成器と、上記パラメータ予測モデル中の上記各項目の重要度を計算するように構成された重要度計算器と、最低の算出重要度を有する項目を削除するように構成された項目削除ユニットと、上記項目削除ユニットの削除後に、残りの項目を用いてパラメータ予測モデルを再生成するように構成されたモデル再生成器と、上記モデル再生成器によって再生成された上記パラメータ予測モデルが最適モデルであるか否かを判定するように構成された最適化判定ユニットとを備え、直交多項式と、直交多項式のすべてのパラメータ予測モデルがＦ０予測モデルを構成するＦ０予測モデル訓練装置が提供される。

本発明の別の態様によれば、Ｆ０予測装置であって、前述のＦ０予測モデル訓練方法を使って訓練されるＦ０予測モデルと、Ｆ０予測に関連する上記複数の属性の対応する値を取得するように構成された属性取得ユニットと、上記Ｆ０予測モデルと、Ｆ０予測に関連する上記複数の属性の上記対応する値に基づいてＦ０を計算するように構成されたＦ０計算器とを備えるＦ０予測装置が提供される。

本発明の別の態様によれば、音声合成装置であって、前述のＦ０予測装置を備え、上記Ｆ０予測の装置によって予測されるＦ０に基づいて音声合成を行うように構成されている上記Ｆ０予測装置が提供される。

本発明の別の態様によれば、休止確率予測モデルを訓練する方法であって、休止予測に関連する複数の属性と、上記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、上記複数の属性と上記属性組み合わせの各々が項目として含まれる初期休止確率予測モデルを生成することと、上記休止確率予測モデル中の上記各項目の重要度を計算することと、最低算出重要度を有する項目を削除することと、残りの項目を用いて休止確率予測モデルを再生成することと、上記再生成休止確率予測モデルが最適モデルであるか否かを判定することと、上記休止確率予測モデルが最適モデルではないと判定された場合に、新規再生成休止確率予測モデルを用いて、重要度を計算する上記ステップと、重要度を計算する上記ステップに続く各ステップを繰り返すこととを含む休止確率予測モデル訓練方法が提供される。

本発明の別の態様によれば、休止予測方法であって、前述の休止確率予測モデル訓練方法を使って休止確率予測モデルを訓練することと、休止予測に関連する上記複数の属性の対応する値を取得することと、上記休止確率予測モデルと、休止予測に関連する上記複数の属性の上記対応する値に基づいて休止確率を計算することと、上記算出休止確率を閾値と比較して休止を取得することとを含む休止予測方法が提供される。

本発明の別の態様によれば、音声合成方法であって、前述の休止予測方法を使って休止を予測することと、予測休止に基づいて音声合成を行うこととを含む、音声合成方法が提供される。

本発明の別の態様によれば、休止予測に関連する複数の属性と、上記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、上記複数の属性と上記属性組み合わせの各々が項目として含まれる初期休止確率予測モデルを生成するように構成された初期モデル生成器と、上記休止確率予測モデル中の上記各項目の重要度を計算するように構成された重要度計算器と、最低算出重要度を有する項目を削除するように構成された項目削除ユニットと、上記項目削除ユニットの削除後に、残りの項目を用いて休止確率予測モデルを再生成するように構成されたモデル再生成器と、上記モデル再生成器によって再生成された上記休止確率予測モデルが最適モデルであるか否かを判定するように構成された最適化判定ユニットとを備える、休止確立予測モデル訓練装置が提供される。

本発明の別の態様によれば、休止予測装置であって、前述の休止確率予測モデル訓練方法を使って訓練される休止確率予測モデルと、休止予測に関連する上記複数の属性の対応する値を取得するように構成された属性取得ユニットと、上記休止確率予測モデルと、休止予測に関連する上記複数の属性の上記対応する値に基づいて休止確率を計算するように構成された休止確率計算器と、上記算出休止確率を閾値と比較して休止を取得する比較器とを備える休止予測装置が提供される。

本発明の別の態様によれば、音声合成の装置であって、前述の休止予測の装置を備え、予測される休止に基づいて音声合成を行うように構成されている休止予測装置が提供される。

以下の実施形態の理解を容易にするために、まず、ＧＬＭ（一般化線形モデル）モデルとＢＩＣ（ベイズ情報量基準）を簡単に紹介する。

ＧＬＭモデルは、多変量回帰モデルを一般化したものであり、ＳＯＰ（積和）はＧＬＭの特殊事例である。ＧＬＭパラメータ予測モデルは、

但し、ｈはリンク関数である。一般に、ｄの分散は、指数分布族のものであると仮定される。様々なリンク関数を使用すれば、ｄの様々な指数分布を獲得することができる。ＧＬＭは、線形モデルとしても、非線形モデルとしても使用できる。

異なるモデルの性能を比較するためには基準が必要である。モデルが単純であるほど、異常値データの予測結果の信頼性がより高くなり、モデルが複雑であるほど、訓練データの予測がより正確になる。ＢＩＣ基準は、広く用いられる評価基準であり、精度と信頼性の両方が組み合わさった大きさをもたらすものであり、
BIC= Nlog(SSE/N) + plogN (2)
によって定義される。

但し、ＳＳＥは、予測誤りの二乗和である。式２の右辺の第１の部分はモデルの精度を示し、第２の部分は、モデル複雑度の不利益を示す。訓練サンプルの数Ｎが決まっているときには、モデルが複雑であるほど、次元ｐはより大きくなり、モデルは、訓練データをより正確に予測することができ、ＳＳＥがより小さくなる。このため、第１の部分はより小さく、第２の部分はより大きくなり、逆もまた同様である。一方の部分の増大は、他方の部分の減少につながる。２つの部分の総和が最小であるとき、モデルは最適なものである。ＢＩＣは、モデル複雑度とデータベースサイズとの間で適切なバランスを取りうるものであり、これは、データの希薄さと属性との相互作用の問題を克服するのに役立つ。

次に、添付の図面と併せて、本発明の好ましい実施形態の詳細な説明を行う。

図１は、本発明の一実施形態によるＦ０予測モデルを訓練する方法のフローチャートである。この実施形態の方法によって訓練されるＦ０予測モデルは、別の実施形態と併せて後述する、Ｆ０予測の方法および装置、ならびに音声合成の方法および装置で使用される。

図１に示すように、まず、ステップ１０１で、Ｆ０が直交多項式を用いて表される。具体的には、この実施形態では、２次（または高次）ルジャンドル直交多項式が、Ｆ０表現のために選択される。また、この多項式は、高次多項式のテイラー展開の近似とみなすこともでき、これについては、論文“F0 generation for speech synthesis using a multi-tier approach”, Sun X., in Proc. ICSLP’02, pp.207T208Oに記載されている。さらに、直交多項式は、数学と物理の問題解決に非常に役立つ特性を有する。本明細書で提案するＦ０表現と、前述の論文で提案されている表現の間には２つの主要な違いがある。第１の違いは、直交２次近似を用いて指数近似が置き換えられることである。第２の違いは、分節期間が、［−１，１］の範囲内で正規化されることである。これらの変更は、パラメータ化における適合度を向上させるのに役立つ。

ルジャンドル多項式は次のように説明される。これらの多項式のクラスが、式３の直交関係に従う範囲t∈［−１，１］にわたって定義される。

但し、δ_ｍｎは、クロネッカーのデルタであり、Ｃ_ｎ＝２／（２ｎ＋１）である。最初の３つのルジャンドル多項式を式（５）乃至（７）に示す。

p₀(t) = 1 （５）
p₁(t) = t （６）
P₂(t) =1/2 (3t² - 1) （７）
次に、定義するあらゆる音節について、以下のように定義する。

T(t) = a₀p₀(t) + a₁p₁(t) （８）
F(t) = a₀p₀(t) + a₁p₁(t) + a₂p₂(t) （９）
但し、Ｔ（ｔ）は基礎をなすＦ０目標を表し、Ｆ（ｔ）は表面Ｆ０曲線を表す。係数ａ_０、ａ_１およびａ_２はルジャンドル係数であり、ａ_０およびａ_１は、基礎をなすＦ０目標の切片および傾きを表し、ａ_２は、２次近似部分の係数である。

次に、ステップ１０５で、直交多項式中の各パラメータａ_０、ａ_１、ａ_２に、各々、初期パラメータ予測モデルが生成される。この実施形態では、パラメータ予測モデルの各々が、ＧＬＭを使って表される。パラメータａ_０、ａ_１、ａ_２に対応するＧＬＭモデルは、各々、以下の通りである。

まず、パラメータａ_０のＧＬＭモデル（１０）を説明する。

具体的には、パラメータの初期パラメータ予測モデルは、Ｆ０予測に関連する複数の属性と、これらの属性の組み合わせを用いて生成される。前述のように、Ｆ０予測に関連する多くの属性があり、これらは、大まかに、言語型の属性と音声型の属性とに分けられる。表１に、Ｆ０予測に関連する属性として使用されてもよいいくつかの属性を例として挙げる。

この実施形態では、ＧＬＭモデルを使って、これらの属性および属性組み合わせが表される。説明を容易にするために、言語音と音調だけが、Ｆ０予測に関連する属性であるものと仮定する。パラメータａ_０の初期パラメータ予測モデルの形態は次の通りである。即ち、パラメータ〜言語音＋音調＋音調＊言語音であり、音調＊言語音は、２次項目である、音調と言語音の組み合わせを意味する。

属性の数が増大するに従い、属性組み合わせの結果として複数の２次項目、３次項目、以下同様に出現する場合があることが理解される。

更に、この実施形態では、初期パラメータ予測モデルが生成されるとき、例えば、最高２次までの組み合わせだけが保持されるなど、属性組み合わせの一部だけが保持されてもよい。当然ながら、最高３次までの組み合わせを保持することも、すべての属性組み合わせを初期パラメータ予測モデルに加えることも可能である。

一言で言えば、初期パラメータ予測モデルは、全ての独立の属性（１次項目）と、属性組み合わせ（２次項目または多次項目）の少なくとも一部を含み、前述の属性または属性組み合わせの各々を項目として含むものである。このため、初期パラメータ予測モデルは、従来技術で行うように経験的手法に基づいて手作業で設定するのではなく、単純な規則を使って自動的に生成できる。

次に、ステップ１１０で、Ｆ検定を用いて各項目の重要度が計算される。周知の標準の統計的方法として、Ｆ検定は、PROBABILITY AND STATISTICS by Sheng Zhou, Xie Shiqian and Pan Shengyi (2000, Second Edition, Higher Education Press)に詳細に記載されており、本明細書では繰り返さない。

この実施形態ではＦ検定を使用するが、Ｃｈｉｓｑ．ｔｅｓｔなど他の統計的方法を使用してもよい。

次に、ステップ１１５で、Ｆ検定の最低点数を有する項目が、初期パラメータ予測モデルから削除される。

次いで、ステップ１２０で、残りの項目を用いてパラメータ予測モデルが再生成される。

次に、ステップ１２５で、再生成されたパラメータ予測モデルのＢＩＣ値が計算され、前述の方法を使って、モデルが最適モデルであるか否かが判定される。具体的には、Ｆ０の訓練サンプルが、各パラメータの訓練サンプルが抽出されるように、直交多項式（９）に従って拡張される。このステップでは、パラメータａ_０のパラメータ予測モデルのＢＩＣ値が、パラメータａ_０の訓練サンプルに従って計算される。

ステップ１２５の判定が「ＹＥＳ」である場合、新規に生成されたパラメータ予測モデルが最適モデルとみなされ、プロセスはステップ１３０で終了する。

ステップ１２５の判定が「ＮＯ」である場合、プロセスはステップ１１０に戻り、再生成されたモデルの各項目の重要度が再計算され、重要でない項目が削除され（ステップ１１５）、モデルは、パラメータａ_０の最適なパラメータ予測モデルが取得されるまで再生成される（ステップ１２０）。

パラメータａ_１とａ_２のパラメータ予測モデルは、パラメータａ_０に使用されるのと同じステップに従って訓練される。

最後に、パラメータａ_０、ａ_１、ａ_２の３つのパラメータ予測モデルが取得され、直交多項式と共に使用されてＦ０予測モデルが形成される。

上記の説明から、本発明が、小規模なコーパスに基づいて単純ではあるが信頼性の高いＦ０予測モデル化フレームワークを構築することが分かる。Ｆ０曲線を表すために、目標近似仮説から新規のＦ０パラメータ予測モデルが提示される。

本実施形態では、一般化線形モデル（ＧＬＭ）に基づくＦ０モデル化方法と、Ｆ検定およびベイズ情報量基準（ＢＩＣ）に基づく段階的回帰法を用いて属性を選択する。本実施形態のＧＬＭモデルの構造は、柔軟であるため、訓練データベースのサイズに容易に適合し、これにより、データの希薄さの問題が解決される。さらに、重要な属性相互作用項目が、段階的回帰法を用いて自動的に選択できる。

更に、本発明の好ましい一実施形態によるＦ０予測モデルを訓練する方法では、Ｆ０予測に関連する複数の属性の１つとして、発話速度も用いられる。発話速度がＦ０予測モデル化に導入されるため、音声合成のために発話速度を調整する新規の手法が提供される。音声合成システムによって音声が出力される前に、発話速度は、ユーザまたはアプリケーションによって指定されてもよい。また、データベース内の発話速度も固定される。これにより、発話速度は、Ｆ０予測モデルの訓練でも試験でも知られている。Ｆ０予測モデルの属性コレクションは、発話速度自体を導入することができるだけではなく、発話速度と相互作用し合ってＦ０予測の精度を向上させる項目も導入することができる。音声合成のプロセスの間に、発話速度に基づくＦ０予測は、単純な線形の延長または短縮された発話速度調整方法も改善することができる。一部には、Ｆ０に対する発話速度の影響が音素ごとに異なることを示す研究者もあり、これも、発話速度が他の属性と相互作用し合うことを示すものでもある。

同じ発明概念の下で、図２は、本発明の一実施形態によるＦ０予測の方法を示すフローチャートである。次に、本実施形態を、図２との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。

図２に示すように、まず、ステップ２０１で、上記の実施形態で説明しているＦ０予測モデルを訓練する方法を使って、Ｆ０予測モデルが訓練される。

次に、ステップ２０５で、Ｆ０予測に関連する複数の属性が対応する値が取得される。具体的には、例えば、これらは、入力テキストから直接取得することもでき、文法的統語的解析を介して取得することもできる。本実施形態は、任意の知られている、または将来の方法を用いてこれらの対応する属性を取得することができ、特定の方法に限定されるものではなく、また、取得の方法は、属性の選択にも対応することに留意すべきである。

最後に、ステップ２１０で、訓練されたＦ０予測モデルと上記の取得された属性に基づいて、Ｆ０が計算される。

上記の説明から、本実施形態のＦ０予測の方法は、上記の実施形態のＦ０予測モデルを訓練する方法によって訓練されたモデルを用いてＦ０を予測するため、訓練データベースのサイズに容易に適合し、これにより、データの希薄さの問題が解決され、重要な属性相互作用項目が自動的に選択できることが分かる。したがって、本実施形態のＦ０予測の方法は、Ｆ０を、より正確に、自動的に予測することができる。

更に、本発明の好ましい一実施形態によるＦ０予測の方法では、Ｆ０予測に関連する複数の属性の１つとして、発話速度も用いられる。このため、発話速度をＦ０予測モデル化に導入することによって、Ｆ０予測モデルの属性コレクションは、発話速度自体を導入することができるだけではなく、発話速度と相互作用し合う項目も導入することができ、これによってＦ０予測の精度をさらに向上させることができる。

同じ発明概念の下で、図３は、本発明の一実施形態による音声合成方法を示すフローチャートである。次に、本実施形態を、図３との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。

図３に示すように、まず、ステップ３０１で、上記の実施形態で説明されている、前述のＦ０予測の方法を使ってＦ０が予測される。

次いで、ステップ３０５で、予測されたＦ０に基づいて音声合成が行われる。

上記の説明から、本実施形態の音声合成方法は、上記の実施形態のＦ０予測方法を用いてＦ０を予測し、予測された結果に基づいて音声合成を行うため、訓練データベースのサイズに容易に適合し、これにより、データの希薄さの問題が解決され、重要な属性相互作用項目が自動的に選択され得ることが分かる。したがって、本実施形態の音声合成方法は、音声合成をより正確に、自動的に行うことができ、生成される音声は、より合理的で、分かりやすいものになる。

更に、本発明の好ましい一実施形態による音声合成方法では、Ｆ０予測に関連する複数の属性の１つとして、発話速度も用いられる。Ｆ０予測モデル化に発話速度が導入されるため、音声合成のために発話速度を調整する新規の手法が提供される。音声合成システムによって音声が出力される前に、発話速度は、ユーザまたはアプリケーションによって指定されてもよい。また、データベース内の発話速度は固定される。これにより、Ｆ０予測モデルの訓練でも、試験でも、発話速度は知られている。Ｆ０予測モデルの属性コレクションは、発話速度自体を導入することができるだけではなく、発話速度と相互作用し合って、Ｆ０予測の精度を向上させる項目も導入することができる。音声合成のプロセスの間に、発話速度に基づくＦ０予測は、単純な線形の延長または短縮された発話速度調整方法も改善することができる。一部には、Ｆ０に対する発話速度の影響が音素ごとに異なることを示す研究者もあり、これも、発話速度が他の属性と相互作用し合うことを示すものでもある。

同じ発明概念の下で、図４は、本発明の一実施形態によるＦ０予測モデルを訓練する装置を示すブロック図である。次に、本実施形態を、図４との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。

図４に示すように、本実施形態のＦ０予測モデルを訓練する装置４００は、直交多項式を用いてＦ０を表し、直交多項式の各パラメータごとに、Ｆ０予測に関連する複数の属性と、複数の属性の可能な属性組み合わせの少なくとも一部を用いて、複数の属性および属性組み合わせの各々が項目として含まれる初期パラメータ予測モデルを生成するように構成された初期モデル生成器４０１と、パラメータ予測モデル中の各項目の重要度を計算するように構成された重要度計算器４０２と、最低算出重要度を有する項目を削除するように構成された項目削除ユニット４０３と、項目削除ユニットの削除後に、残りの項目を用いてパラメータ予測モデルを再生成するように構成されたモデル再生成器４０４と、モデル再生成器によって再生成されたパラメータ予測モデルが最適モデルであるか否かを判定するように構成された最適化判定ユニット４０５とを備え、直交多項式および直交多項式のすべてのパラメータ予測モデルが、Ｆ０予測モデルを構成する。

前述の実施形態と同様に、この実施形態では、Ｆ０が、直交多項式（９）を用いて表され、各パラメータａ_０、ａ_１、ａ_２に、各々、ＧＬＭパラメータ予測モデルが構築される。各パラメータ予測モデルは、各パラメータａ_０、ａ_１、ａ_２に、各々、最適なパラメータ予測モデルを取得するように訓練される。Ｆ０予測モデルは、全てのパラメータ予測モデルと直交多項式を共に用いて構成される。

Ｆ０予測に関連する複数の属性は、
言語型の属性と音声型の属性とを有し、例えば、
上記表１から選択される任意の数の属性を含む。

更に、重要度計算器４０２は、Ｆ検定を用いて各項目の重要度を計算する。

更に、最適化判定ユニット４０５は、ベイズ情報量基準（ＢＩＣ）に基づいて、上記再生成パラメータ予測モデルが最適モデルであるか否かを判定する。ここで、Ｆ０の訓練サンプルが、各パラメータの訓練サンプルが抽出されるように、直交多項式（９）に従って拡張される。例えば、パラメータａ_０については、パラメータａ_０のパラメータ予測モデルのＢＩＣ値が、パラメータａ_０の訓練サンプルに従って計算される。

更に、本発明の好ましい一実施形態によれば、属性組み合わせの上記少なくとも一部は、Ｆ０予測に関連する上記複数の属性の全ての２次属性組み合わせを備える。

更に、本発明の別の好ましい実施形態によれば、Ｆ０予測に関連する上記複数の属性は、発話速度を含む。

ここで、本実施形態のＦ０予測モデル訓練装置４００およびこれの個々の構成要素は、仕様に合わせて設計された回路またはチップを用いて実施することもでき、汎用コンピュータ（プロセッサ）上で対応するプログラムを実行することによって実施することもできることに留意すべきである。また、本実施形態のＦ０予測モデル訓練装置４００は、上記実施形態のＦ０予測モデル訓練方法を実効的方法で実施してもよい。

同じ発明概念の下で、図５は、本発明の一実施形態によるＦ０予測の装置を示すブロック図である。次に、本実施形態を、図５との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。

図５に示すように、本実施形態のＦ０予測の装置５００は、上記実施形態で説明されている前述のＦ０予測モデル訓練方法を使って訓練されたＦ０予測モデルであるＦ０予測モデル５０１と、Ｆ０予測に関連する複数の属性の対応する値を取得するように構成された属性取得ユニット５０２と、Ｆ０予測モデル５０１と、属性取得ユニット５０２によって取得されたＦ０予測に関連する複数の属性の対応する値に基づいてＦ０を計算するように構成されたＦ０計算器５０３とを備える。

ここで、属性を取得の方法については、上記実施形態で説明しているように、任意の既知の、または将来の方法を使ってこれらの対応する属性を取得することができ、特定の方法に限定されるものではなく、また、この取得の方法は、属性の選択にも関連する。例えば、言語音と音調の属性の取得は、テキスト解析（単語分節化）後の綴りに基づいて行うことができ、文法型の属性の取得は、文法解析器または構文解析器によって行うことができる。

同じ発明概念の下で、図６は、本発明の一実施形態による音声合成装置を示すブロック図である。次に、本実施形態を、図６との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。

図６に示すように、本実施形態の音声合成装置６００は、上記実施形態で説明しているＦ０予測装置とすることのできるＦ０予測装置５００と、従来技術の音声合成装置とすることのできる、上記Ｆ０予測装置によって予測されるＦ０に基づいて音声合成を行うように構成された音声合成装置６０１とを備える。

ここで、本実施形態の音声合成装置６００およびこれの個々の構成要素は、仕様に合わせて設計された回路またはチップを用いて実施されてもよく、汎用コンピュータ（プロセッサ）上で対応するプログラムを実行することによって実施することもできることに留意すべきである。また、本実施形態の音声合成装置６００は、上記実施形態の音声合成の方法を実効的な方法で実施してもよい。

同じ発明概念の下で、図７は、本発明の一実施形態による休止確率予測モデルを訓練する方法を示すフローチャートである。この実施形態の方法によって訓練される休止確率予測モデルは、別の実施形態との関連で後述する、休止予測方法および装置、ならびに音声合成方法および装置で使用される。

図７に示すように、まず、ステップ７０１で、初期休止確率予測モデルが生成される。厳密に言うと、この実施形態では、休止は２値変数であるが、休止は、話し手が口調を変える従って変動するため、確率として扱った方がより合理的である。休止は、ある一定の確率で、毎回独立して発生し、この確率はベルヌーイ分布に従う。

ＧＬＭモデルは、以下の式によって属性から休止確率を予測する。

式中、Ｐｒは休止確率であり、ｈはリンク関数であり、Ｎは訓練サンプル数であり、ｉはサンプル指数であり、（β_０，β_１，．．．，β_ｐ）は回帰係数のベクトルであり、ｅは予測される誤りであり、ｐは回帰係数ベクトルの次元である。

様々なリンク関数を使って、Ｐ１の様々な指数分布族の分布を獲得することができる。ｈが項等関数と等しいとき、ＧＬＭは線形モデルである。ｈがロジット関数と等しいとき、ＧＬＭはロジスティックＧＬＭモデルである。これらを式（１４）と（１５）に示す。

単純な線形モデルもロジスティックモデルも、事後確率Pr( P│C )を推定しようとし、線形分類境界を有する。ロジスティックＧＬＭでは、コンテキストＣのPr( P│C )は非線形関数である。ロジスティックモデルは、Pr( P│C )が、０から１までの範囲で推移し、合計で１になることを保証するが、線形モデルはこれを保証することができない。

ロジスティックモデルは、ベルヌーイ分布の休止仮説を満たしている。

ロジスティックモデルは、多くの分類および回帰の統計分野で広範に使用されている。ロジスティックＧＬＭパラメータは、反復最尤推定法によって推定され得る。詳細は、参照文献“Generalized Linear Models”, McCullagh P. and Nelder JA, Chapman & Hal, London, 1989に記載されている。

具体的には、初期休止確率予測モデルは、休止予測に関連する複数の属性と、これらの属性の組み合わせを用いて生成される。前述のように、休止予測に関連する多くの属性があり、これらは、大まかに、言語型の属性と音声型の属性とに分けられる。表２に、休止予測に関連する属性として使用されてもよいいくつかの属性を例として挙げる。

この実施形態では、ＧＬＭモデルを使ってこれらの属性および属性組み合わせを表す。説明を容易にするために、言語音と音調だけが休止予測に関連する属性であるものと仮定する。初期休止確率予測モデルの形態は次のようになる。即ち、休止確率言語音＋音調＋音調＊言語音であり、音調＊言語音は、２次項目である、音調と言語音の組み合わせを意味する。

属性の数が増大するに従い、属性組み合わせの結果として、複数の２次項目、３次項目、以下同様に出現する場合があることが理解される。

更に、この実施形態では、初期休止確率予測モデルが生成されるとき、例えば、最高２次までの組み合わせだけが保持されるなど、属性組み合わせの一部だけが保持されてもよい。当然ながら、最高３次までの組み合わせを保持することも、全ての属性組み合わせを初期休止確率予測モデルに加えることも可能である。

一言で言うと、初期休止確率予測モデルは、全ての独立の属性（１次項目）と、属性組み合わせ（２次項目または多次項目）の少なくとも一部を含み、前述の属性または属性組み合わせの各々を項目として含むものである。このため、初期休止確率予測モデルは、従来技術で行うように経験的手法に基づいて手作業で設定するのではなく、単純な規則を使って自動的に生成できる。

次に、ステップ７０５で、Ｆ検定を用いて各項目の重要度が計算される。周知の標準の統計的方法として、Ｆ検定は、PROBABILITY AND STATISTICS by Sheng Zhou, Xie Shiqian and Pan Shengyi (2000, Second Edition, Higher Education Press)に詳細に記載されており、本明細書では繰り返さない。

この実施形態ではＦ検定を使用するが、Chisq-testなど他の統計的方法を使用してもよいことに留意すべきである。

次に、ステップ７１０で、最低のＦ検定スコアを有する項目が初期休止確率予測モデルから削除される。

次いで、ステップ７１５で、残りの項目を用いて休止確率予測モデルが再生成される。

次に、ステップ７２０で、再生成された休止確率予測モデルのＢＩＣ値が計算され、前述の方法を使って、モデルが最適モデルであるか否かが判定される。

ステップ７２０の判定が「ＹＥＳ」である場合、新規に生成された休止確率予測モデルが最適モデルとみなされ、プロセスはステップ７２５で終了する。

ステップ７２０の判定が「ＮＯ」である場合、プロセスはステップ７０５に戻り、再生成されたモデルの各項目の重要度が再計算され、重要でない項目が削除され（ステップ７１０）、最適休止確率予測モデルが取得されるまでモデルが再生成される（ステップ７１５）。

上記の説明から、本発明が、小規模なコーパスに基づいて、単純ではあるが信頼性の高い休止予測モデル化フレームワークを構築することが分かる。休止ベルヌーイ仮説から、新規のロジスティック休止モデルが提示される。

本実施形態は、一般化線形モデル（ＧＬＭ）に基づく休止モデル化法と、Ｆ検定およびベイズ情報量基準（ＢＩＣ）に基づく段階的回帰法を用いて属性を選択する。本実施形態のＧＬＭモデルの構造は、柔軟であるため、訓練データベースのサイズに容易に適合し、これにより、データの希薄さの問題が解決される。さらに、重要な属性相互作用項目が、段階的回帰法を用いて自動的に選択できる。

更に、本発明の好ましい一実施形態による休止確率予測モデルを訓練する方法では、休止予測に関連する複数の属性の１つとして、発話速度も用いられる。発話速度が休止予測モデル化に導入されるため、音声合成のために発話速度を調整する新規の手法が提供される。音声が音声合成システムによって出力される前に、発話速度は、ユーザまたはアプリケーションによって指定されてもよい。また、データベース内の発話速度は固定される。これにより、発話速度は、休止確率予測モデルの訓練でも試験でも知られている。休止確率予測モデルの属性コレクションは、発話速度自体を導入することができるだけではなく、発話速度と相互作用し合って休止予測の精度を向上させる項目も導入することができる。音声合成のプロセスの間、発話速度に基づく休止予測は、単純な線形の延長または短縮された発話速度調整法も改善することができる。一部には、Ｆ０に対する発話速度の影響が音素ごとに異なることを示す研究者もあり、これも、発話速度が他の属性と相互作用し合うことを示すものでもある。

同じ発明概念の下で、図８は、本発明の一実施形態による休止予測方法を示すフローチャートである。次に、本実施形態を、図８との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。

図８に示すように、まず、ステップ８０１で、休止確率予測モデルが、上記の実施形態で説明している、前述の休止確率予測モデルを訓練する方法を使って訓練される。

次に、ステップ８０５で、休止予測に関連する複数の属性の対応する値が取得される。具体的には、例えば、これらは、入力テキストから直接取得することもでき、文法的統語的解析を介して取得することもできる。本実施形態は、任意の既知の、または将来の方法を使って、これらの対応する属性を取得することができ、特定の方法に限定されものではなく、また、取得の方法は、属性の選択にも対応することに留意すべきである。

次に、ステップ８１０で、休止確率が、訓練された休止確率予測モデルと、上記の取得された属性に基づいて計算される。

最後に、ステップ８１５で、算出休止確率を休止閾値と比較して、休止が取得される。ここで、閾値は、０．５など、０から１までの間の数であり、算出休止確率が閾値より大きい場合、休止は１であり、そうでない場合、休止は０である。

上記の説明から、本実施形態の休止予測の方法は、上記実施形態の休止確率予測モデル訓練方法によって訓練されたモデルを用いて休止を予測するため、訓練データベースのサイズの容易に適合し、これにより、データの希薄さの問題が解決され、重要な属性相互作用項目が自動的に選択され得ることが分かる。したがって、本実施形態の休止予測方法は、休止を、より正確に、自動的に予測することができる。

更に、本発明の好ましい一実施形態による休止予測の方法では、休止予測に関連する複数の属性の１つとして、発話速度も用いられる。このため、休止予測モデル化に発話速度を導入することにより、休止確率予測モデルの属性コレクションは、発話速度自体を導入することができるだけではなく、発話速度と相互作用し合う項目も導入することができ、これによって、休止予測の精度をさらに向上させることができる。

同じ発明概念の下で、図９は、本発明の一実施形態による音声合成の方法を示すフローチャートである。次に、本実施形態を、図９との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。

図９に示すように、まず、ステップ９０１で、上記実施形態で説明している前述の休止予測方法を使って、休止が予測される。

次いで、ステップ９０５で、予測された休止に基づいて音声合成が行われる。

上記の説明から、本実施形態の音声合成方法は、上記実施形態の休止予測方法を用いて休止を予測し、予測された結果に基づいて音声合成を行うため、訓練データベースのサイズに容易に適合し、これにより、データの希薄さの問題が解決され、重要な属性相互作用項目が自動的に選択できることが分かる。したがって、本実施形態の音声合成方法は、音声合成をより正確に、自動的に行うことができ、生成される音声は、より合理的で、理解し易いものになる。

更に、本発明の好ましい一実施形態による音声合成方法では、休止予測に関連する複数の属性の１つとして発話速度も用いられる。休止予測モデル化に発話速度が導入されるため、音声合成のために発話速度を調整する新規の手法が提供される。音声が音声合成システムによって出力される前に、発話速度は、ユーザまたはアプリケーションによって指定されてもよい。また、データベース内の発話速度は固定される。これにより、発話速度は、休止確率予測モデルの訓練でも試験でも、知られている。休止確率予測モデルの属性コレクションは、発話速度自体を導入することができるだけではなく、発話速度と相互作用し合って休止予測の精度を向上させる項目を導入することもできる。音声合成のプロセスの間に、発話速度に基づく休止予測は、単純な線形の延長または短縮された発話速度調整方法も改善することができる。一部には、休止に対する発話速度の影響が音素ごとに異なることを示す研究者もあり、これも、発話速度が他の属性と相互作用し合うことを示すものでもある。

同じ発明概念の下で、図１０は、本発明の一実施形態による休止確率予測モデルを訓練する装置を示すブロック図である。次に、本実施形態を、図１０との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。

図１０に示すように、本実施形態の休止確率予測モデルを訓練する装置１０００は、休止予測に関連する複数の属性と、複数の属性の可能な属性組み合わせの少なくとも一部を用いて、複数の属性と属性組み合わせの各々が項目として含まれる初期休止確率予測モデル生成するように構成された初期モデル生成器１００１と、休止確率予測モデル中の各項目の重要度を計算するように構成された重要度計算器１００２と、最低算出重要度を有する項目を削除するように構成された項目削除ユニット１００３と、項目削除ユニットの削除後に、残りの項目を用いて休止確率予測モデルを再生成するように構成されたモデル再生成器１００４と、モデル再生成器によって再生成された休止確率予測モデルが最適モデルであるか否かを判定するように構成された最適化判定ユニット１００５とを備える。

前述の実施形態と同様に、休止予測に関連する複数の属性は、例えば、上記表２から選択される任意の数の属性等の、言語型の属性と音声型の属性を備える。

更に、重要度計算器１００２は、Ｆ検定を用いて各項目の重要度を計算する。

更に、最適化判定ユニット１００５は、ベイズ情報量基準（ＢＩＣ）に基づいて、上記再生成された休止確率予測モデルが最適モデルであるか否かを判定する。

更に、本発明の好ましい一実施形態によれば、属性組み合わせの上記少なくとも一部は、休止予測に関連する上記複数の属性の全ての２次属性組み合わせを含む。

更に、本発明の別の好ましい実施形態によれば、休止予測に関連する上記複数の属性は、発話速度を含む。

ここで、本実施形態の休止確率予測モデルを訓練する装置１０００およびこれの個々の構成要素は、仕様に合わせて設計された回路またはチップを用いて実施することもでき、汎用コンピュータ（プロセッサ）上で対応するプログラムを実行することによっても実施することができることに留意すべきである。また、本実施形態の休止確率予測モデルを訓練する装置１０００は、上記実施形態の休止確率予測モデルを訓練する方法を、実効的な方法で実施してもよい。

同じ発明概念の下で、図１１は、本発明の一実施形態による休止予測の装置を示すブロック図である。次に、本実施形態を、図１１との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。

図１１に示すように、本実施形態の休止予測の装置１１００は、上記実施形態で説明している、前述の休止確率予測モデル訓練方法を使って訓練された休止確率予測モデルである休止確率予測モデル１１０１と、休止予測に関連する複数の属性の対応する値を取得するように構成された属性取得ユニット１１０２と、休止確率予測モデル１１０１と、属性取得ユニット１１０２によって取得された休止予測に関連する複数の属性の対応する値に基づいて、休止確率を計算するように構成された休止確率計算器１１０３と、算出休止確率を閾値と比較して休止を取得するように構成された比較器１１０４とを備える。

ここで、属性を取得の方法については、上記実施形態で説明しているように、任意の既知の、または将来の方法を使って、これらの属性を取得することができ、特定の方法に限定されるものではなく、また、取得の方法は、属性の選択にも関連する。例えば、言語音と音調の属性の取得は、テキスト解析（単語分節化）後の綴りに基づいて行うことができ、文法型の属性の取得は、文法解析器または構文解析器によって行うことができる。

同じ発明概念の下で、図１２は、本発明の一実施形態による音声合成の装置を示すブロック図である。次に、本実施形態を、図１２との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。

図１２に示すように、本実施形態の音声合成の装置１２００は、上記実施形態で説明している休止予測装置とすることのできる休止予測の装置１１００と、従来技術の音声合成装置とすることのできる、上記の休止予測装置によって予測される休止に基づいて音声合成を行うように構成された音声合成装置１２０１とを備える。

ここで、本実施形態の音声合成の装置１２００とこれの個々の構成要素は、仕様に合わせて設計された回路またはチップを用いて実施することもでき、汎用コンピュータ（プロセッサ）上で対応するプログラムを実行することによって実施することもできることに留意すべきである。また、本実施形態の音声合成の装置１２００は、上記の実施形態の音声合成の方法を実効的な方法で実施してもよい。

以上では、Ｆ０予測モデル訓練方法および装置、Ｆ０予測方法および装置、ならびに音声合成方法および装置と、休止予測モデル訓練方法および装置、休止予測方法および装置、ならびに音声合成方法および装置とを、いくつかの例示的実施形態を用いて詳細に説明しているが、これらの実施形態は網羅的なものではない。当分野の技術者は、本発明の精神および範囲内において様々な変形および改変を行ってもよいものである。したがって、本発明は、これらの実施形態だけに限定されるものではなく、本発明の範囲は、添付の特許請求の範囲によってのみ定義されるものである。

本発明の一実施形態によるＦ０予測モデル訓練方法を示すフローチャートである。本発明の一実施形態によるＦ０予測方法を示すフローチャートである。本発明の一実施形態による音声合成方法を示すフローチャートである。本発明の一実施形態によるＦ０予測モデル訓練装置を示すブロック図である。本発明の一実施形態によるＦ０予測装置を示すブロック図である。本発明の一実施形態による音声合成装置を示すブロック図である。本発明の一実施形態による休止確率予測モデル訓練方法を示すフローチャートである。本発明の一実施形態による休止予測方法を示すフローチャートである。本発明の一実施形態による音声合成方法を示すフローチャートである。本発明の一実施形態による休止確率予測モデル訓練装置を示すブロック図である。本発明の一実施形態による休止予測装置を示すブロック図である。本発明の一実施形態による音声合成装置を示すブロック図である。

Claims

Ｆ０予測モデルを訓練する方法であって、
直交多項式を用いてＦ０を表すことと、
前記直交多項式の各パラメータごとに、Ｆ０予測に関連する複数の属性と、前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、前記複数の属性と前記属性組み合わせの各々が項目として含まれる初期パラメータ予測モデルを生成することと、
前記パラメータ予測モデル中の前記各項目の重要度を計算することと、
最低算出重要度を有する前記項目を削除することと、
残りの前記項目を用いてパラメータ予測モデルを再生成することと、
前記再生成パラメータ予測モデルが最適モデルであるか否かを判定することと、
前記パラメータ予測モデルが最適モデルではないと判定された場合、前記新規再生成パラメータ予測モデルを用いて、重要度を計算する前記ステップおよび重要度を計算する前記ステップに続く前記各ステップを繰り返すことと
を含み、
前記直交多項式および前記直交多項式の全てのパラメータ予測モデルがＦ０予測モデルを形成する、Ｆ０予測モデル訓練方法。
Ｆ０予測に関連する前記複数の属性は、言語型と音声型の属性を含む、請求項１に記載のＦ０予測モデル訓練方法。
Ｆ０予測に関連する前記複数の属性は、現在の音素、同じ音節中の別の音素、前の音節中の隣接する音素、次の音節中の隣接する音素、現在の音節の音調、前の音節の音調、次の音節の音調、音声の部分、次の休止までの距離、前の休止までの距離、内容語中の音素位置、現在、前および次の内容語の長さ、内容語中の音節の数、文章中の音節位置、および文章中の内容語の数の中から選択されるいずれかを含む、請求項１に記載のＦ０予測モデル訓練方法。
前記パラメータ予測モデルは一般化線形モデル（ＧＬＭ）である、請求項１乃至３のいずれか１項に記載のＦ０予測モデル訓練方法。
前記複数の属性の可能な属性組み合わせの前記少なくとも一部は、Ｆ０予測に関連する前記複数の属性のすべての２次属性組み合わせを含む、請求項１に記載のＦ０予測モデル訓練方法。
前記パラメータ予測モデル中の前記各項目の重要度を計算する前記ステップは、Ｆ検定を用いて前記各項目の前記重要度を計算することを含む、請求項１乃至５のいずれか１項に記載のＦ０予測モデル訓練方法。
前記再生成されたパラメータ予測モデルが最適モデルであるか否かを判定する前記ステップは、ベイズ情報量基準（ＢＩＣ）に基づいて前記再生成されたパラメータ予測モデルが最適モデルであるか否かを判定することを含む、請求項１乃至６のいずれか１項に記載のＦ０予測モデル訓練方法。
前記再生成されたパラメータ予測モデルが最適モデルであるか否かを判定する前記ステップは、
ＳＳＥが予測誤りの二乗和を表し、Ｎが訓練サンプルの数を表す、式、
ＢＩＣ＝Ｎｌｏｇ（ＳＳＥ／Ｎ）＋ｐｌｏｇＮ
に基づいて計算を行うことと、
前記ＢＩＣが最小であるときに、前記再生成パラメータ予測モデルを最適モデルと判定することと、
を含む、請求項７に記載のＦ０予測モデル訓練方法。
前記直交多項式は、２次または高次ルジャンドル直交多項式である、請求項１乃至８のいずれか１項に記載のＦ０予測モデル訓練方法。
前記ルジャンドル直交多項式は、式、
Ｆ（ｔ）＝ａ_０ｐ_０（ｔ）＋ａ_１ｐ_１（ｔ）＋ａ_２ｐ_２（ｔ）
によって定義され、式中、Ｆ（ｔ）はＦ０曲線を表し、係数ａ_０、ａ_１およびａ_２は前記パラメータを表し、ｔは［−１，１］に属する、請求項９に記載のＦ０予測モデル訓練方法。
Ｆ０予測に関連する前記複数の属性は、発話速度をさらに含む、請求項１乃至１０のいずれか１項に記載のＦ０予測モデル訓練方法。
Ｆ０予測方法であって、
請求項１乃至１１のいずれか１項に記載のＦ０予測モデル訓練方法を使ってＦ０予測モデルを訓練することと、
Ｆ０予測に関連する前記複数の属性の対応する値を取得することと、
前記Ｆ０予測モデルと、Ｆ０予測に関連する前記複数の属性の前記対応する値に基づいてＦ０を計算することと
を含むＦ０予測方法。
Ｆ０予測に関連する前記複数の属性は発話速度を含む、請求項１２に記載のＦ０予測方法。
請求項１２または１３に記載のＦ０予測方法を使ってＦ０を予測することと、
前記予測されたＦ０に基づいて音声合成を行うことと
を含む音声合成方法。
Ｆ０予測モデルを訓練する装置であって、
直交多項式を用いてＦ０を表し、前記直交多項式の各パラメータごとに、Ｆ０予測に関連する複数の属性と、前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、前記複数の属性と前記属性組み合わせの各々が項目として含まれる初期パラメータ予測モデルを生成するように構成された初期モデル生成器と、
前記パラメータ予測モデル中の前記各項目の重要度を計算するように構成された重要度計算器と、
最低算出重要度を有する前記項目を削除するように構成された項目削除ユニットと、
前記項目削除ユニットの削除後に、残りの前記項目を用いてパラメータ予測モデルを再生成するように構成されたモデル再生成器と、
前記モデル再生成器によって再生成された前記パラメータ予測モデルが最適モデルであるか否かを判定するように構成された最適化判定ユニットと、
を備え、
前記直交多項式および前記直交多項式のすべてのパラメータ予測モデルがＦ０予測モデルを構成する、Ｆ０予測モデル訓練装置。
Ｆ０予測に関連する前記複数の属性は、言語型と音声型の属性を含む、請求項１５に記載のＦ０予測モデル訓練装置。
Ｆ０予測に関連する前記複数の属性は、現在の音素、同じ音節中の別の音素、前の音節中の隣接する音素、次の音節中の隣接する音素、現在の音節の音調、前の音節の音調、次の音節の音調、音声の部分、次の休止までの距離、前の休止までの距離、内容語中の音素位置、現在、前および次の内容語の長さ、内容語中の音節の数、文章中の音節位置、および文章中の内容語の数の中から選択されるいずれかを含む、請求項１５に記載のＦ０予測モデル訓練装置。
前記パラメータ予測モデルは、一般化線形モデル（ＧＬＭ）である、請求項１５乃至１７のいずれか１項に記載のＦ０予測モデル訓練装置。
前記複数の属性の可能な属性組み合わせの前記少なくとも一部は、Ｆ０予測に関連する前記複数の属性の２次属性組み合わせ全てを含む、請求項１５に記載のＦ０予測モデル訓練装置。
前記重要度計算器は、Ｆ検定を用いて前記各項目の前記重要度を計算するように構成されている、請求項１５乃至１９のいずれか１項に記載のＦ０予測モデル訓練装置。
前記最適化判定ユニットは、ベイズ情報量基準（ＢＩＣ）に基づいて前記再生成パラメータ予測モデルが最適モデルであるか否かを判定するように構成されている、請求項１５乃至２０のいずれか１項に記載のＦ０予測モデル訓練装置。
前記直交多項式は、２次または高次ルジャンドル直交多項式である、請求項１５乃至２１のいずれか１項に記載のＦ０予測モデル訓練装置。
前記ルジャンドル直交多項式は、式、
Ｆ（ｔ）＝ａ_０ｐ_０（ｔ）＋ａ_１ｐ_１（ｔ）＋ａ_２ｐ_２（ｔ）
によって定義され、式中、Ｆ（ｔ）はＦ０曲線を表し、係数ａ_０、ａ_１およびａ_２は前記パラメータを表し、ｔは［−１，１］に属する、請求項２２に記載のＦ０予測モデル訓練装置。
Ｆ０予測に関連する前記複数の属性は発話速度をさらに含む、請求項１５乃至２３のいずれか１項に記載のＦ０予測モデル訓練装置。
Ｆ０予測装置であって、
請求項１乃至１１のいずれか１項に記載のＦ０予測モデル訓練方法を使って訓練されるＦ０予測モデルと、
Ｆ０予測に関連する前記複数の属性の対応する値を取得するように構成された属性取得ユニットと、
前記Ｆ０予測モデルと、Ｆ０予測に関連する前記複数の属性の前記対応する値に基づいてＦ０を計算するように構成されたＦ０計算器と、
を備えるＦ０予測装置。
Ｆ０予測に関連する前記複数の属性は発話速度を含む、請求項２５に記載のＦ０予測装置。
音声合成装置であって、
請求項２５または２６に記載のＦ０予測の装置を備え、前記Ｆ０予測の装置によって予測されるＦ０に基づく音声合成装置。
休止確率予測モデルを訓練する方法であって、
休止予測に関連する複数の属性と、前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、前記複数の属性と前記属性組み合わせの各々が項目として含まれる初期休止確率予測モデルを生成することと、
前記休止確率予測モデル中の前記各項目の重要度を計算することと、
最低算出重要度を有する前記項目を削除することと、
残りの前記項目を用いて休止確率予測モデルを再生成することと、
前記再生成休止確率予測モデルが最適モデルであるか否かを判定することと、
前記休止確率予測モデルが最適モデルではないと判定された場合、前記新規再生成休止確率予測モデルを用いて、重要度を計算する前記ステップと重要度を計算する前記ステップに続く各ステップを繰り返すことと
を含む、休止確率予測モデル訓練方法。
休止予測に関連する前記複数の属性は、言語型と音声型の属性を含む、請求項２８に記載の休止確率予測モデル訓練方法。
休止予測に関連する前記複数の属性は、現在の音素、同じ音節中の別の音素、前の音節中の隣接する音素、次の音節中の隣接する音素、現在の音節の音調、前の音節の音調、次の音節の音調、音声の部分、次の休止までの距離、前の休止までの距離、内容語中の音素位置、現在、前および次の内容語の長さ、内容語中の音節の数、文章中の音節位置、および文章中の内容語の数の中から選択されるいずれかを含む、請求項２８に記載の休止確率予測モデル訓練方法。
前記休止確率予測モデルは一般化線形モデル（ＧＬＭ）である、請求項２８乃至３０のいずれか１項に記載の休止確率予測モデル訓練方法。
前記複数の属性の可能な属性組み合わせの前記少なくとも一部は、休止予測に関連する前記複数の属性の２次属性組み合わせ全てを含む、請求項２８に記載の休止確率予測モデル訓練方法。
前記休止確率予測モデル中の前記各項目の重要度を計算する前記ステップは、Ｆ検定を用いて前記各項目の前記重要度を計算することを含む、請求項２８乃至３２のいずれか１項に記載の休止確率予測モデル訓練方法。
前記再生成休止確率予測モデルが最適モデルであるか否かを判定する前記ステップは、
ベイズ情報量基準（ＢＩＣ）に基づいて前記再生成休止確率予測モデルが最適モデルであるか否かを判定すること
を含む、請求項２８乃至３３のいずれか１項に記載の休止確率予測モデル訓練方法。
前記再生成休止確率予測モデルが最適モデルであるか否かを判定する前記ステップは、
ＳＳＥが予測誤りの二乗和を表し、Ｎが訓練サンプルの数を表す、式、
ＢＩＣ＝Ｎｌｏｇ（ＳＳＥ／Ｎ）＋ｐｌｏｇＮ
に基づいて計算を行うことと、
前記ＢＩＣが最小であるときに、前記再生成されたパラメータ予測モデルを最適モデルと判定することと
を含む、請求項３４に記載の休止確率予測モデル訓練方法。
前記休止確率はベルヌーイ分布に従う、請求項２８乃至３５のいずれか１項に記載の休止確率予測モデル訓練方法。
休止予測に関連する前記複数の属性は発話速度をさらに含む、請求項１乃至３６のいずれか１項に記載の休止確率予測モデル訓練方法。
休止予測方法であって、
請求項２８乃至３７のいずれか１項に記載の休止確率予測モデル訓練方法を使って休止確率予測モデルを訓練することと、
休止予測に関連する前記複数の属性の対応する値を取得することと、
前記休止確率予測モデルと、休止予測に関連する前記複数の属性の前記対応する値に基づいて休止確率を計算することと、
前記算出休止確率を閾値と比較して、休止を取得することと
を含む、休止予測方法。
前記閾値は０から１までの間の数である、請求項３８に記載の休止予測方法。
前記算出休止確率が前記閾値より大きい場合、前記休止は１であり、そうでない場合、前記休止は０である、請求項３９に記載の休止予測方法。
休止予測に関連する前記複数の属性は発話速度を含む、請求項３８乃至４０のいずれか１項に記載の休止予測方法。
請求項３８乃至４１のいずれか１項に記載の休止予測の方法を使って休止を予測することと、
予測された前記休止に基づいて音声合成を行うことと
を含む音声合成方法。
休止確率予測モデル訓練装置であって、
休止予測に関連する複数の属性と、前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、前記複数の属性と前記属性組み合わせの各々が項目として含まれる初期休止確率予測モデルを生成するように構成された初期モデル生成器と、
前記休止確率予測モデル中の前記各項目の重要度を計算するように構成された重要度計算器と、
最低算出重要度を有する前記項目を削除するように構成された項目削除ユニットと、
前記項目削除ユニットの削除後に、残りの前記項目を用いて休止確率予測モデルを再生成するように構成されたモデル再生成器と、
前記モデル再生成器によって再生成された前記休止確率予測モデルが最適モデルであるか否かを判定するように構成された最適化判定ユニットと、
を備える、休止確率予測モデル訓練装置。
休止予測に関連する前記複数の属性は、言語型と音声型の属性を含む、請求項４３に記載の休止確率予測モデル訓練装置。
休止予測に関連する前記複数の属性は、現在の音素、同じ音節中の別の音素、前の音節中の隣接する音素、次の音節中の隣接する音素、現在の音節の音調、前の音節の音調、次の音節の音調、音声の部分、次の休止までの距離、前の休止までの距離、内容語中の音素位置、現在、前および次の内容語の長さ、内容語中の音節の数、文章中の音節位置、および文章中の内容語の数の中から選択されるいずれかを含む、請求項４３に記載の休止確率予測モデル訓練装置。
前記休止確率予測モデルは、一般化線形モデル（ＧＬＭ）である、請求項４３乃至４５のいずれか１項に記載の休止確率予測モデル訓練装置。
前記複数の属性の可能な属性組み合わせの前記少なくとも一部は、休止予測に関連する前記複数の属性のすべての２次属性組み合わせを含む、請求項４３に記載の休止確率予測モデル訓練装置。
前記重要度計算器は、Ｆ検定を用いて前記各項目の前記重要度を計算するように構成されている、請求項４３乃至４７のいずれか１項に記載の休止確率予測モデル訓練装置。
前記最適化判定ユニットは、ベイズ情報量基準（ＢＩＣ）に基づいて前記再生成休止確率予測モデルが最適モデルであるか否かを判定するように構成されている、請求項４３乃至４８のいずれか１項に記載の休止確率予測モデル訓練装置。
前記休止確率はベルヌーイ分布に従う、請求項４３乃至４９のいずれか１項に記載の休止確率予測モデル訓練装置。
休止予測に関連する前記複数の属性は発話速度をさらに含む、請求項４３乃至５０のいずれか１項に記載の休止確率予測モデル訓練装置。
休止予測装置であって、
請求項２８乃至３７のいずれか１項に記載の休止確率予測モデル訓練方法を使って訓練される休止確率予測モデルと、
休止予測に関連する前記複数の属性の対応する値を取得するように構成された属性取得ユニットと、
前記休止確率予測モデルと、休止予測に関連する前記複数の属性の前記対応する値に基づいて休止確率を計算するように構成された休止確率計算器と、
前記算出休止確率を閾値と比較して休止を取得するように構成された比較器と
を備える休止予測装置。
前記閾値は０から１までの間の数である、請求項５２に記載の休止予測装置。
前記算出休止確率が前記閾値より大きい場合、前記休止は１であり、そうでない場合、前記休止は０である、請求項５３に記載の休止予測装置。
休止予測に関連する前記複数の属性は発話速度を含む、請求項５２乃至５４のいずれか１項に記載の休止予測装置。
請求項５２乃至５５のいずれか１項に記載の休止予測装置を備える音声合成装置であって、予測される休止に基づいて音声合成を行うように構成されている音声合成装置。