JP2007279744A - F0および休止予測モデルを訓練する方法および装置、f0および休止予測方法および装置、音声合成方法および装置 - Google Patents

F0および休止予測モデルを訓練する方法および装置、f0および休止予測方法および装置、音声合成方法および装置 Download PDF

Info

Publication number
JP2007279744A
JP2007279744A JP2007099948A JP2007099948A JP2007279744A JP 2007279744 A JP2007279744 A JP 2007279744A JP 2007099948 A JP2007099948 A JP 2007099948A JP 2007099948 A JP2007099948 A JP 2007099948A JP 2007279744 A JP2007279744 A JP 2007279744A
Authority
JP
Japan
Prior art keywords
pause
prediction
prediction model
model
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2007099948A
Other languages
English (en)
Other versions
JP2007279744A5 (ja
Inventor
Lifu Yi
イー・リフ
Jie Hao
ジー・ハオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2007279744A publication Critical patent/JP2007279744A/ja
Publication of JP2007279744A5 publication Critical patent/JP2007279744A5/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

【課題】F0予測モデル訓練方法を提供する。
【解決手段】F0予測モデル訓練方法は、直交多項式を用いてF0を表し、直交多項式のパラメータ毎にF0予測に関連する属性と、属性の可能な属性組合せの少なくとも一部を用いて、属性と属性組合せの各々が項目として含まれる初期パラメータ予測モデルを生成し、パラメータ予測モデル中の各項目の重要度を計算し、最低算出重要度を有する項目を削除し、残りの項目を用いてパラメータ予測モデルを再生成し、再生成パラメータ予測モデルが最適モデルか否かを判定し、パラメータ予測モデルが最適モデルではないと判定された場合、新規再生成パラメータ予測モデルを用いて重要度を計算し、重要度を計算するステップに続く各ステップを繰り返すことを含み、直交多項式及び直交多項式の全てのパラメータ予測モデルがF0予測モデルを形成する。
【選択図】図1

Description

本発明は、情報処理技術に関し、詳細には、コンピュータを用いてF0および休止予測モデルを訓練する技術、F0および休止予測技術、ならびに音声合成の技術に関する。
F0予測は、一般に、2つのステップに分けられる。第1のステップは、指定された音調モデルのパラメータによってF0曲線を表すことである。第2のステップは、データ駆動型の方法を使って、言語属性からこれらのパラメータを予測することである。既存の表現の大部分は、あまりに複雑かつ不安定で、推定し、予測するのが困難である。
いくつかのF0予測のモデルが提案されており、例えば、フジサキとPENTAが、F0表現の、2つの異なる、典型的なモデルである。フジサキモデルは、F0曲線を、長期成分と短期成分、すなわち、句成分とアクセント(音調)成分の線形結合として表す。PENTAモデルは、典型的な線形順序付けモデルであり、フジサキモデルよりも、大きな韻律単位に対する局所的イベントの影響により大きく注目する。いずれのパラメトリック形式も指数を含み、複雑な挙動を呈するものであり、パラメータを解くのが非常に難しい。
フジサキモデルは、例えば、論文 “Joint Extraction and Prediction of Fujisaki’s Intonation Model Parameters”, Pablo Daniel Aguero, Klaus Wimmer and Antonio Bonafonte, In ICSLP 2004, Jeju Island, Korea, 2004に詳細に記載されている。
PENTAモデルは、例えば、論文“The PENTA model of speech melody: Transmitting multiple communicative functions in parallel”, Xu, Y., in Proceedings of From Sound to Sense: 50+ years of discoveries in speech communication, Cambridge, MA, C-91-96, 2004,及びと、論文“F0 generation for speech synthesis using a multi-tier approach”, Sun X., in Proc. ICSLP’02, pp.2077-2080に詳細に記載されている。
休止予測について、現在の技術では、休止のガウス分布だけを想定するものであり、他の分布はまだ研究されていない。休止予測には、CART(分類木と回帰木法)、MBL(メモリベース学習)、およびME(最大エントロピーモデル)等、多くの統計モデルが提案されており、CART、MBL、MEは、中国語TTS(テキスト読み上げシステム)の流行の方法である。これらは、休止のガウス分布または帰無特殊分布を想定している。モデル化分布仮説に関して、休止のどのような特定の特性も考慮されない。
分類木と回帰木法(CART)については、例えば、論文“Intonational Phrase Break Prediction Using Decision Tree and N-Gram Model”, Sun, X. and Applebaum, T.H., in Proceedings Euro speech 2001, Denmark, Vol. 1, pp. 537-540に詳細に記載されている。
メモリベース学習(MBL)については、例えば、論文“Predicting. phrase breaks with Memory-Based Learning”, Bertjan Busser, W. Daelemans, Van den Bosch, in Proceedings 4th. ISCA Tutorial and research Workshop on Speech Synthesis, Perthshire Scotland, 2001に詳細に記載されている。
最大エントロピーモデル(ME)については、例えば、論文“Chinese Prosody Phrase Break Prediction Based on Maximum Entropy Model”, Jian-feng Li, Guo-ping Hu, Wan-ping Zhang, and Ren-hua Wang, In Proceedings ICSLP 2004, Oct 4-8, Korea, pp. 729-732,及び論文“Sliding Window Smoothing For Maximum Entropy Based Intonational Phrase Prediction In Chinese”, Jian-Feng Li, Guo-Ping Hu, Ren-Hua Wang, and Li-Rong Dai, in Proceeding of ICASSP2005, Philadelphia, PA, USA, pp. 285-288に詳細に記載されている。これら全てを参照により本明細書に組み込むものである。
他の場合としては、F0法も休止予測法も、既存の言語学的知識によって導かれる言語属性と属性の組み合わせを使用するが、完全にデータ駆動型の方法ではない。しかも、これらは、これらの予測に対する発話速度の寄与に関して全く注意を払わない。
しかしながら、従来の方法には、以下の短所がある。
1)既存のモデルの係数は、データ駆動型の方法によって算出できる。しかし、属性と属性組み合わせは、データ駆動型の方法によって選択されるのではなく、手作業で選択される。このため、これらの「部分的に」データ駆動型のモデル化方法は、主観的経験的手法に依存するものである。
2)発話速度が、F0および休止モデル化の属性として導入されない。しかし、分節のF0および休止は、既存の韻律学研究によれば、明らかに、発話速度の影響を受ける。このため、音声合成装置は、ユーザが発話速度を調整する必要があるときに、分節のF0および休止を、直線的に短縮し、または延長せざるを得ない。しかし、実際には、分節のF0および休止に対する異なる属性の影響は大きく異なり、このため、直線的な短縮および延長を行うことは合理的ではない。
前述の従来技術の問題を解決するために、本発明は、F0予測モデル訓練方法および装置、F0予測方法および装置、音声合成方法および装置、休止予測モデル訓練方法および装置、休止予測方法および装置、並びに音声合成方法および装置を提供する。
本発明の一態様によれば、F0予測モデルを訓練する方法であって、直交多項式を用いてF0を表すことと、直交多項式の各パラメータごとに、F0予測に関連する複数の属性と上記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、上記複数の属性と上記属性組み合わせの各々が項目として含まれる初期パラメータ予測モデルを生成することと、上記パラメータ予測モデル中の上記各項目の重要度を計算することと、最低の算出重要度を有する項目を削除することと、残りの項目を用いてパラメータ予測モデルを再生成することと、上記再生成されたパラメータ予測モデルが最適モデルであるか否かを判定することと、上記パラメータ予測モデルが最適モデルではないと判定された場合、新規に再生成されたパラメータ予測モデルを用いて、重要度を計算する上記ステップと、重要度を計算する上記ステップに続く各ステップを繰り返すこととを含み、直交多項式と、直交多項式のすべてのパラメータ予測モデルがF0予測モデルを形成する、F0予測モデル訓練方法が提供される。
本発明の別の態様によれば、F0予測方法であって、前述のF0予測モデルを訓練する方法を使ってF0予測モデルを訓練することと、F0予測に関連する上記複数の属性の対応する値を取得することと、上記F0予測モデルとF0予測に関連する上記複数の属性の上記対応する値に基づいてF0を計算することとを含むF0予測方法が提供される。
本発明の別の態様によれば、音声合成方法であって、前述のF0予測方法を使ってF0を予測することと、予測されたF0に基づいて音声合成を行うこととを含む音声合成方法が提供される。
本発明の別の態様によれば、F0予測モデルを訓練する装置であって、直交多項式を用いてF0を表し、直交多項式の各パラメータごとに、F0予測に関連する複数の属性と、上記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、上記複数の属性と上記属性組み合わせの各々が項目として含まれる初期パラメータ予測モデルを生成するように構成された初期モデル生成器と、上記パラメータ予測モデル中の上記各項目の重要度を計算するように構成された重要度計算器と、最低の算出重要度を有する項目を削除するように構成された項目削除ユニットと、上記項目削除ユニットの削除後に、残りの項目を用いてパラメータ予測モデルを再生成するように構成されたモデル再生成器と、上記モデル再生成器によって再生成された上記パラメータ予測モデルが最適モデルであるか否かを判定するように構成された最適化判定ユニットとを備え、直交多項式と、直交多項式のすべてのパラメータ予測モデルがF0予測モデルを構成するF0予測モデル訓練装置が提供される。
本発明の別の態様によれば、F0予測装置であって、前述のF0予測モデル訓練方法を使って訓練されるF0予測モデルと、F0予測に関連する上記複数の属性の対応する値を取得するように構成された属性取得ユニットと、上記F0予測モデルと、F0予測に関連する上記複数の属性の上記対応する値に基づいてF0を計算するように構成されたF0計算器とを備えるF0予測装置が提供される。
本発明の別の態様によれば、音声合成装置であって、前述のF0予測装置を備え、上記F0予測の装置によって予測されるF0に基づいて音声合成を行うように構成されている上記F0予測装置が提供される。
本発明の別の態様によれば、休止確率予測モデルを訓練する方法であって、休止予測に関連する複数の属性と、上記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、上記複数の属性と上記属性組み合わせの各々が項目として含まれる初期休止確率予測モデルを生成することと、上記休止確率予測モデル中の上記各項目の重要度を計算することと、最低算出重要度を有する項目を削除することと、残りの項目を用いて休止確率予測モデルを再生成することと、上記再生成休止確率予測モデルが最適モデルであるか否かを判定することと、上記休止確率予測モデルが最適モデルではないと判定された場合に、新規再生成休止確率予測モデルを用いて、重要度を計算する上記ステップと、重要度を計算する上記ステップに続く各ステップを繰り返すこととを含む休止確率予測モデル訓練方法が提供される。
本発明の別の態様によれば、休止予測方法であって、前述の休止確率予測モデル訓練方法を使って休止確率予測モデルを訓練することと、休止予測に関連する上記複数の属性の対応する値を取得することと、上記休止確率予測モデルと、休止予測に関連する上記複数の属性の上記対応する値に基づいて休止確率を計算することと、上記算出休止確率を閾値と比較して休止を取得することとを含む休止予測方法が提供される。
本発明の別の態様によれば、音声合成方法であって、前述の休止予測方法を使って休止を予測することと、予測休止に基づいて音声合成を行うこととを含む、音声合成方法が提供される。
本発明の別の態様によれば、休止予測に関連する複数の属性と、上記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、上記複数の属性と上記属性組み合わせの各々が項目として含まれる初期休止確率予測モデルを生成するように構成された初期モデル生成器と、上記休止確率予測モデル中の上記各項目の重要度を計算するように構成された重要度計算器と、最低算出重要度を有する項目を削除するように構成された項目削除ユニットと、上記項目削除ユニットの削除後に、残りの項目を用いて休止確率予測モデルを再生成するように構成されたモデル再生成器と、上記モデル再生成器によって再生成された上記休止確率予測モデルが最適モデルであるか否かを判定するように構成された最適化判定ユニットとを備える、休止確立予測モデル訓練装置が提供される。
本発明の別の態様によれば、休止予測装置であって、前述の休止確率予測モデル訓練方法を使って訓練される休止確率予測モデルと、休止予測に関連する上記複数の属性の対応する値を取得するように構成された属性取得ユニットと、上記休止確率予測モデルと、休止予測に関連する上記複数の属性の上記対応する値に基づいて休止確率を計算するように構成された休止確率計算器と、上記算出休止確率を閾値と比較して休止を取得する比較器とを備える休止予測装置が提供される。
本発明の別の態様によれば、音声合成の装置であって、前述の休止予測の装置を備え、予測される休止に基づいて音声合成を行うように構成されている休止予測装置が提供される。
以下の実施形態の理解を容易にするために、まず、GLM(一般化線形モデル)モデルとBIC(ベイズ情報量基準)を簡単に紹介する。
GLMモデルは、多変量回帰モデルを一般化したものであり、SOP(積和)はGLMの特殊事例である。GLMパラメータ予測モデルは、
Figure 2007279744
但し、hはリンク関数である。一般に、dの分散は、指数分布族のものであると仮定される。様々なリンク関数を使用すれば、dの様々な指数分布を獲得することができる。GLMは、線形モデルとしても、非線形モデルとしても使用できる。
異なるモデルの性能を比較するためには基準が必要である。モデルが単純であるほど、異常値データの予測結果の信頼性がより高くなり、モデルが複雑であるほど、訓練データの予測がより正確になる。BIC基準は、広く用いられる評価基準であり、精度と信頼性の両方が組み合わさった大きさをもたらすものであり、
BIC= Nlog(SSE/N) + plogN (2)
によって定義される。
但し、SSEは、予測誤りの二乗和である。式2の右辺の第1の部分はモデルの精度を示し、第2の部分は、モデル複雑度の不利益を示す。訓練サンプルの数Nが決まっているときには、モデルが複雑であるほど、次元pはより大きくなり、モデルは、訓練データをより正確に予測することができ、SSEがより小さくなる。このため、第1の部分はより小さく、第2の部分はより大きくなり、逆もまた同様である。一方の部分の増大は、他方の部分の減少につながる。2つの部分の総和が最小であるとき、モデルは最適なものである。BICは、モデル複雑度とデータベースサイズとの間で適切なバランスを取りうるものであり、これは、データの希薄さと属性との相互作用の問題を克服するのに役立つ。
次に、添付の図面と併せて、本発明の好ましい実施形態の詳細な説明を行う。
図1は、本発明の一実施形態によるF0予測モデルを訓練する方法のフローチャートである。この実施形態の方法によって訓練されるF0予測モデルは、別の実施形態と併せて後述する、F0予測の方法および装置、ならびに音声合成の方法および装置で使用される。
図1に示すように、まず、ステップ101で、F0が直交多項式を用いて表される。具体的には、この実施形態では、2次(または高次)ルジャンドル直交多項式が、F0表現のために選択される。また、この多項式は、高次多項式のテイラー展開の近似とみなすこともでき、これについては、論文“F0 generation for speech synthesis using a multi-tier approach”, Sun X., in Proc. ICSLP’02, pp.207T208Oに記載されている。さらに、直交多項式は、数学と物理の問題解決に非常に役立つ特性を有する。本明細書で提案するF0表現と、前述の論文で提案されている表現の間には2つの主要な違いがある。第1の違いは、直交2次近似を用いて指数近似が置き換えられることである。第2の違いは、分節期間が、[−1,1]の範囲内で正規化されることである。これらの変更は、パラメータ化における適合度を向上させるのに役立つ。
ルジャンドル多項式は次のように説明される。これらの多項式のクラスが、式3の直交関係に従う範囲t∈[−1,1]にわたって定義される。
Figure 2007279744
Figure 2007279744
但し、δmnは、クロネッカーのデルタであり、C=2/(2n+1)である。最初の3つのルジャンドル多項式を式(5)乃至(7)に示す。
p0(t) = 1 (5)
p1(t) = t (6)
P2(t) =1/2 (3t2 - 1) (7)
次に、定義するあらゆる音節について、以下のように定義する。
T(t) = a0p0(t) + a1p1(t) (8)
F(t) = a0p0(t) + a1p1(t) + a2p2(t) (9)
但し、T(t)は基礎をなすF0目標を表し、F(t)は表面F0曲線を表す。係数a、aおよびaはルジャンドル係数であり、aおよびaは、基礎をなすF0目標の切片および傾きを表し、aは、2次近似部分の係数である。
次に、ステップ105で、直交多項式中の各パラメータa、a、aに、各々、初期パラメータ予測モデルが生成される。この実施形態では、パラメータ予測モデルの各々が、GLMを使って表される。パラメータa、a、aに対応するGLMモデルは、各々、以下の通りである。
Figure 2007279744
Figure 2007279744
Figure 2007279744
まず、パラメータaのGLMモデル(10)を説明する。
具体的には、パラメータの初期パラメータ予測モデルは、F0予測に関連する複数の属性と、これらの属性の組み合わせを用いて生成される。前述のように、F0予測に関連する多くの属性があり、これらは、大まかに、言語型の属性と音声型の属性とに分けられる。表1に、F0予測に関連する属性として使用されてもよいいくつかの属性を例として挙げる。
Figure 2007279744
この実施形態では、GLMモデルを使って、これらの属性および属性組み合わせが表される。説明を容易にするために、言語音と音調だけが、F0予測に関連する属性であるものと仮定する。パラメータaの初期パラメータ予測モデルの形態は次の通りである。即ち、パラメータ〜言語音+音調+音調*言語音であり、音調*言語音は、2次項目である、音調と言語音の組み合わせを意味する。
属性の数が増大するに従い、属性組み合わせの結果として複数の2次項目、3次項目、以下同様に出現する場合があることが理解される。
更に、この実施形態では、初期パラメータ予測モデルが生成されるとき、例えば、最高2次までの組み合わせだけが保持されるなど、属性組み合わせの一部だけが保持されてもよい。当然ながら、最高3次までの組み合わせを保持することも、すべての属性組み合わせを初期パラメータ予測モデルに加えることも可能である。
一言で言えば、初期パラメータ予測モデルは、全ての独立の属性(1次項目)と、属性組み合わせ(2次項目または多次項目)の少なくとも一部を含み、前述の属性または属性組み合わせの各々を項目として含むものである。このため、初期パラメータ予測モデルは、従来技術で行うように経験的手法に基づいて手作業で設定するのではなく、単純な規則を使って自動的に生成できる。
次に、ステップ110で、F検定を用いて各項目の重要度が計算される。周知の標準の統計的方法として、F検定は、PROBABILITY AND STATISTICS by Sheng Zhou, Xie Shiqian and Pan Shengyi (2000, Second Edition, Higher Education Press)に詳細に記載されており、本明細書では繰り返さない。
この実施形態ではF検定を使用するが、Chisq.testなど他の統計的方法を使用してもよい。
次に、ステップ115で、F検定の最低点数を有する項目が、初期パラメータ予測モデルから削除される。
次いで、ステップ120で、残りの項目を用いてパラメータ予測モデルが再生成される。
次に、ステップ125で、再生成されたパラメータ予測モデルのBIC値が計算され、前述の方法を使って、モデルが最適モデルであるか否かが判定される。具体的には、F0の訓練サンプルが、各パラメータの訓練サンプルが抽出されるように、直交多項式(9)に従って拡張される。このステップでは、パラメータaのパラメータ予測モデルのBIC値が、パラメータaの訓練サンプルに従って計算される。
ステップ125の判定が「YES」である場合、新規に生成されたパラメータ予測モデルが最適モデルとみなされ、プロセスはステップ130で終了する。
ステップ125の判定が「NO」である場合、プロセスはステップ110に戻り、再生成されたモデルの各項目の重要度が再計算され、重要でない項目が削除され(ステップ115)、モデルは、パラメータaの最適なパラメータ予測モデルが取得されるまで再生成される(ステップ120)。
パラメータaとaのパラメータ予測モデルは、パラメータaに使用されるのと同じステップに従って訓練される。
最後に、パラメータa、a、aの3つのパラメータ予測モデルが取得され、直交多項式と共に使用されてF0予測モデルが形成される。
上記の説明から、本発明が、小規模なコーパスに基づいて単純ではあるが信頼性の高いF0予測モデル化フレームワークを構築することが分かる。F0曲線を表すために、目標近似仮説から新規のF0パラメータ予測モデルが提示される。
本実施形態では、一般化線形モデル(GLM)に基づくF0モデル化方法と、F検定およびベイズ情報量基準(BIC)に基づく段階的回帰法を用いて属性を選択する。本実施形態のGLMモデルの構造は、柔軟であるため、訓練データベースのサイズに容易に適合し、これにより、データの希薄さの問題が解決される。さらに、重要な属性相互作用項目が、段階的回帰法を用いて自動的に選択できる。
更に、本発明の好ましい一実施形態によるF0予測モデルを訓練する方法では、F0予測に関連する複数の属性の1つとして、発話速度も用いられる。発話速度がF0予測モデル化に導入されるため、音声合成のために発話速度を調整する新規の手法が提供される。音声合成システムによって音声が出力される前に、発話速度は、ユーザまたはアプリケーションによって指定されてもよい。また、データベース内の発話速度も固定される。これにより、発話速度は、F0予測モデルの訓練でも試験でも知られている。F0予測モデルの属性コレクションは、発話速度自体を導入することができるだけではなく、発話速度と相互作用し合ってF0予測の精度を向上させる項目も導入することができる。音声合成のプロセスの間に、発話速度に基づくF0予測は、単純な線形の延長または短縮された発話速度調整方法も改善することができる。一部には、F0に対する発話速度の影響が音素ごとに異なることを示す研究者もあり、これも、発話速度が他の属性と相互作用し合うことを示すものでもある。
同じ発明概念の下で、図2は、本発明の一実施形態によるF0予測の方法を示すフローチャートである。次に、本実施形態を、図2との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。
図2に示すように、まず、ステップ201で、上記の実施形態で説明しているF0予測モデルを訓練する方法を使って、F0予測モデルが訓練される。
次に、ステップ205で、F0予測に関連する複数の属性が対応する値が取得される。具体的には、例えば、これらは、入力テキストから直接取得することもでき、文法的統語的解析を介して取得することもできる。本実施形態は、任意の知られている、または将来の方法を用いてこれらの対応する属性を取得することができ、特定の方法に限定されるものではなく、また、取得の方法は、属性の選択にも対応することに留意すべきである。
最後に、ステップ210で、訓練されたF0予測モデルと上記の取得された属性に基づいて、F0が計算される。
上記の説明から、本実施形態のF0予測の方法は、上記の実施形態のF0予測モデルを訓練する方法によって訓練されたモデルを用いてF0を予測するため、訓練データベースのサイズに容易に適合し、これにより、データの希薄さの問題が解決され、重要な属性相互作用項目が自動的に選択できることが分かる。したがって、本実施形態のF0予測の方法は、F0を、より正確に、自動的に予測することができる。
更に、本発明の好ましい一実施形態によるF0予測の方法では、F0予測に関連する複数の属性の1つとして、発話速度も用いられる。このため、発話速度をF0予測モデル化に導入することによって、F0予測モデルの属性コレクションは、発話速度自体を導入することができるだけではなく、発話速度と相互作用し合う項目も導入することができ、これによってF0予測の精度をさらに向上させることができる。
同じ発明概念の下で、図3は、本発明の一実施形態による音声合成方法を示すフローチャートである。次に、本実施形態を、図3との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。
図3に示すように、まず、ステップ301で、上記の実施形態で説明されている、前述のF0予測の方法を使ってF0が予測される。
次いで、ステップ305で、予測されたF0に基づいて音声合成が行われる。
上記の説明から、本実施形態の音声合成方法は、上記の実施形態のF0予測方法を用いてF0を予測し、予測された結果に基づいて音声合成を行うため、訓練データベースのサイズに容易に適合し、これにより、データの希薄さの問題が解決され、重要な属性相互作用項目が自動的に選択され得ることが分かる。したがって、本実施形態の音声合成方法は、音声合成をより正確に、自動的に行うことができ、生成される音声は、より合理的で、分かりやすいものになる。
更に、本発明の好ましい一実施形態による音声合成方法では、F0予測に関連する複数の属性の1つとして、発話速度も用いられる。F0予測モデル化に発話速度が導入されるため、音声合成のために発話速度を調整する新規の手法が提供される。音声合成システムによって音声が出力される前に、発話速度は、ユーザまたはアプリケーションによって指定されてもよい。また、データベース内の発話速度は固定される。これにより、F0予測モデルの訓練でも、試験でも、発話速度は知られている。F0予測モデルの属性コレクションは、発話速度自体を導入することができるだけではなく、発話速度と相互作用し合って、F0予測の精度を向上させる項目も導入することができる。音声合成のプロセスの間に、発話速度に基づくF0予測は、単純な線形の延長または短縮された発話速度調整方法も改善することができる。一部には、F0に対する発話速度の影響が音素ごとに異なることを示す研究者もあり、これも、発話速度が他の属性と相互作用し合うことを示すものでもある。
同じ発明概念の下で、図4は、本発明の一実施形態によるF0予測モデルを訓練する装置を示すブロック図である。次に、本実施形態を、図4との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。
図4に示すように、本実施形態のF0予測モデルを訓練する装置400は、直交多項式を用いてF0を表し、直交多項式の各パラメータごとに、F0予測に関連する複数の属性と、複数の属性の可能な属性組み合わせの少なくとも一部を用いて、複数の属性および属性組み合わせの各々が項目として含まれる初期パラメータ予測モデルを生成するように構成された初期モデル生成器401と、パラメータ予測モデル中の各項目の重要度を計算するように構成された重要度計算器402と、最低算出重要度を有する項目を削除するように構成された項目削除ユニット403と、項目削除ユニットの削除後に、残りの項目を用いてパラメータ予測モデルを再生成するように構成されたモデル再生成器404と、モデル再生成器によって再生成されたパラメータ予測モデルが最適モデルであるか否かを判定するように構成された最適化判定ユニット405とを備え、直交多項式および直交多項式のすべてのパラメータ予測モデルが、F0予測モデルを構成する。
前述の実施形態と同様に、この実施形態では、F0が、直交多項式(9)を用いて表され、各パラメータa、a、aに、各々、GLMパラメータ予測モデルが構築される。各パラメータ予測モデルは、各パラメータa、a、aに、各々、最適なパラメータ予測モデルを取得するように訓練される。F0予測モデルは、全てのパラメータ予測モデルと直交多項式を共に用いて構成される。
F0予測に関連する複数の属性は、
言語型の属性と音声型の属性とを有し、例えば、
上記表1から選択される任意の数の属性を含む。
更に、重要度計算器402は、F検定を用いて各項目の重要度を計算する。
更に、最適化判定ユニット405は、ベイズ情報量基準(BIC)に基づいて、上記再生成パラメータ予測モデルが最適モデルであるか否かを判定する。ここで、F0の訓練サンプルが、各パラメータの訓練サンプルが抽出されるように、直交多項式(9)に従って拡張される。例えば、パラメータaについては、パラメータaのパラメータ予測モデルのBIC値が、パラメータaの訓練サンプルに従って計算される。
更に、本発明の好ましい一実施形態によれば、属性組み合わせの上記少なくとも一部は、F0予測に関連する上記複数の属性の全ての2次属性組み合わせを備える。
更に、本発明の別の好ましい実施形態によれば、F0予測に関連する上記複数の属性は、発話速度を含む。
ここで、本実施形態のF0予測モデル訓練装置400およびこれの個々の構成要素は、仕様に合わせて設計された回路またはチップを用いて実施することもでき、汎用コンピュータ(プロセッサ)上で対応するプログラムを実行することによって実施することもできることに留意すべきである。また、本実施形態のF0予測モデル訓練装置400は、上記実施形態のF0予測モデル訓練方法を実効的方法で実施してもよい。
同じ発明概念の下で、図5は、本発明の一実施形態によるF0予測の装置を示すブロック図である。次に、本実施形態を、図5との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。
図5に示すように、本実施形態のF0予測の装置500は、上記実施形態で説明されている前述のF0予測モデル訓練方法を使って訓練されたF0予測モデルであるF0予測モデル501と、F0予測に関連する複数の属性の対応する値を取得するように構成された属性取得ユニット502と、F0予測モデル501と、属性取得ユニット502によって取得されたF0予測に関連する複数の属性の対応する値に基づいてF0を計算するように構成されたF0計算器503とを備える。
ここで、属性を取得の方法については、上記実施形態で説明しているように、任意の既知の、または将来の方法を使ってこれらの対応する属性を取得することができ、特定の方法に限定されるものではなく、また、この取得の方法は、属性の選択にも関連する。例えば、言語音と音調の属性の取得は、テキスト解析(単語分節化)後の綴りに基づいて行うことができ、文法型の属性の取得は、文法解析器または構文解析器によって行うことができる。
同じ発明概念の下で、図6は、本発明の一実施形態による音声合成装置を示すブロック図である。次に、本実施形態を、図6との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。
図6に示すように、本実施形態の音声合成装置600は、上記実施形態で説明しているF0予測装置とすることのできるF0予測装置500と、従来技術の音声合成装置とすることのできる、上記F0予測装置によって予測されるF0に基づいて音声合成を行うように構成された音声合成装置601とを備える。
ここで、本実施形態の音声合成装置600およびこれの個々の構成要素は、仕様に合わせて設計された回路またはチップを用いて実施されてもよく、汎用コンピュータ(プロセッサ)上で対応するプログラムを実行することによって実施することもできることに留意すべきである。また、本実施形態の音声合成装置600は、上記実施形態の音声合成の方法を実効的な方法で実施してもよい。
同じ発明概念の下で、図7は、本発明の一実施形態による休止確率予測モデルを訓練する方法を示すフローチャートである。この実施形態の方法によって訓練される休止確率予測モデルは、別の実施形態との関連で後述する、休止予測方法および装置、ならびに音声合成方法および装置で使用される。
図7に示すように、まず、ステップ701で、初期休止確率予測モデルが生成される。厳密に言うと、この実施形態では、休止は2値変数であるが、休止は、話し手が口調を変える従って変動するため、確率として扱った方がより合理的である。休止は、ある一定の確率で、毎回独立して発生し、この確率はベルヌーイ分布に従う。
GLMモデルは、以下の式によって属性から休止確率を予測する。
Figure 2007279744
式中、Prは休止確率であり、hはリンク関数であり、Nは訓練サンプル数であり、iはサンプル指数であり、(β,β,...,β)は回帰係数のベクトルであり、eは予測される誤りであり、pは回帰係数ベクトルの次元である。
様々なリンク関数を使って、P1の様々な指数分布族の分布を獲得することができる。hが項等関数と等しいとき、GLMは線形モデルである。hがロジット関数と等しいとき、GLMはロジスティックGLMモデルである。これらを式(14)と(15)に示す。
Figure 2007279744
単純な線形モデルもロジスティックモデルも、事後確率Pr( P│C )を推定しようとし、線形分類境界を有する。ロジスティックGLMでは、コンテキストCのPr( P│C )は非線形関数である。ロジスティックモデルは、Pr( P│C )が、0から1までの範囲で推移し、合計で1になることを保証するが、線形モデルはこれを保証することができない。
Figure 2007279744
ロジスティックモデルは、ベルヌーイ分布の休止仮説を満たしている。
ロジスティックモデルは、多くの分類および回帰の統計分野で広範に使用されている。ロジスティックGLMパラメータは、反復最尤推定法によって推定され得る。詳細は、参照文献“Generalized Linear Models”, McCullagh P. and Nelder JA, Chapman & Hal, London, 1989に記載されている。
具体的には、初期休止確率予測モデルは、休止予測に関連する複数の属性と、これらの属性の組み合わせを用いて生成される。前述のように、休止予測に関連する多くの属性があり、これらは、大まかに、言語型の属性と音声型の属性とに分けられる。表2に、休止予測に関連する属性として使用されてもよいいくつかの属性を例として挙げる。
Figure 2007279744
この実施形態では、GLMモデルを使ってこれらの属性および属性組み合わせを表す。説明を容易にするために、言語音と音調だけが休止予測に関連する属性であるものと仮定する。初期休止確率予測モデルの形態は次のようになる。即ち、休止確率言語音+音調+音調*言語音であり、音調*言語音は、2次項目である、音調と言語音の組み合わせを意味する。
属性の数が増大するに従い、属性組み合わせの結果として、複数の2次項目、3次項目、以下同様に出現する場合があることが理解される。
更に、この実施形態では、初期休止確率予測モデルが生成されるとき、例えば、最高2次までの組み合わせだけが保持されるなど、属性組み合わせの一部だけが保持されてもよい。当然ながら、最高3次までの組み合わせを保持することも、全ての属性組み合わせを初期休止確率予測モデルに加えることも可能である。
一言で言うと、初期休止確率予測モデルは、全ての独立の属性(1次項目)と、属性組み合わせ(2次項目または多次項目)の少なくとも一部を含み、前述の属性または属性組み合わせの各々を項目として含むものである。このため、初期休止確率予測モデルは、従来技術で行うように経験的手法に基づいて手作業で設定するのではなく、単純な規則を使って自動的に生成できる。
次に、ステップ705で、F検定を用いて各項目の重要度が計算される。周知の標準の統計的方法として、F検定は、PROBABILITY AND STATISTICS by Sheng Zhou, Xie Shiqian and Pan Shengyi (2000, Second Edition, Higher Education Press)に詳細に記載されており、本明細書では繰り返さない。
この実施形態ではF検定を使用するが、Chisq-testなど他の統計的方法を使用してもよいことに留意すべきである。
次に、ステップ710で、最低のF検定スコアを有する項目が初期休止確率予測モデルから削除される。
次いで、ステップ715で、残りの項目を用いて休止確率予測モデルが再生成される。
次に、ステップ720で、再生成された休止確率予測モデルのBIC値が計算され、前述の方法を使って、モデルが最適モデルであるか否かが判定される。
ステップ720の判定が「YES」である場合、新規に生成された休止確率予測モデルが最適モデルとみなされ、プロセスはステップ725で終了する。
ステップ720の判定が「NO」である場合、プロセスはステップ705に戻り、再生成されたモデルの各項目の重要度が再計算され、重要でない項目が削除され(ステップ710)、最適休止確率予測モデルが取得されるまでモデルが再生成される(ステップ715)。
上記の説明から、本発明が、小規模なコーパスに基づいて、単純ではあるが信頼性の高い休止予測モデル化フレームワークを構築することが分かる。休止ベルヌーイ仮説から、新規のロジスティック休止モデルが提示される。
本実施形態は、一般化線形モデル(GLM)に基づく休止モデル化法と、F検定およびベイズ情報量基準(BIC)に基づく段階的回帰法を用いて属性を選択する。本実施形態のGLMモデルの構造は、柔軟であるため、訓練データベースのサイズに容易に適合し、これにより、データの希薄さの問題が解決される。さらに、重要な属性相互作用項目が、段階的回帰法を用いて自動的に選択できる。
更に、本発明の好ましい一実施形態による休止確率予測モデルを訓練する方法では、休止予測に関連する複数の属性の1つとして、発話速度も用いられる。発話速度が休止予測モデル化に導入されるため、音声合成のために発話速度を調整する新規の手法が提供される。音声が音声合成システムによって出力される前に、発話速度は、ユーザまたはアプリケーションによって指定されてもよい。また、データベース内の発話速度は固定される。これにより、発話速度は、休止確率予測モデルの訓練でも試験でも知られている。休止確率予測モデルの属性コレクションは、発話速度自体を導入することができるだけではなく、発話速度と相互作用し合って休止予測の精度を向上させる項目も導入することができる。音声合成のプロセスの間、発話速度に基づく休止予測は、単純な線形の延長または短縮された発話速度調整法も改善することができる。一部には、F0に対する発話速度の影響が音素ごとに異なることを示す研究者もあり、これも、発話速度が他の属性と相互作用し合うことを示すものでもある。
同じ発明概念の下で、図8は、本発明の一実施形態による休止予測方法を示すフローチャートである。次に、本実施形態を、図8との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。
図8に示すように、まず、ステップ801で、休止確率予測モデルが、上記の実施形態で説明している、前述の休止確率予測モデルを訓練する方法を使って訓練される。
次に、ステップ805で、休止予測に関連する複数の属性の対応する値が取得される。具体的には、例えば、これらは、入力テキストから直接取得することもでき、文法的統語的解析を介して取得することもできる。本実施形態は、任意の既知の、または将来の方法を使って、これらの対応する属性を取得することができ、特定の方法に限定されものではなく、また、取得の方法は、属性の選択にも対応することに留意すべきである。
次に、ステップ810で、休止確率が、訓練された休止確率予測モデルと、上記の取得された属性に基づいて計算される。
最後に、ステップ815で、算出休止確率を休止閾値と比較して、休止が取得される。ここで、閾値は、0.5など、0から1までの間の数であり、算出休止確率が閾値より大きい場合、休止は1であり、そうでない場合、休止は0である。
上記の説明から、本実施形態の休止予測の方法は、上記実施形態の休止確率予測モデル訓練方法によって訓練されたモデルを用いて休止を予測するため、訓練データベースのサイズの容易に適合し、これにより、データの希薄さの問題が解決され、重要な属性相互作用項目が自動的に選択され得ることが分かる。したがって、本実施形態の休止予測方法は、休止を、より正確に、自動的に予測することができる。
更に、本発明の好ましい一実施形態による休止予測の方法では、休止予測に関連する複数の属性の1つとして、発話速度も用いられる。このため、休止予測モデル化に発話速度を導入することにより、休止確率予測モデルの属性コレクションは、発話速度自体を導入することができるだけではなく、発話速度と相互作用し合う項目も導入することができ、これによって、休止予測の精度をさらに向上させることができる。
同じ発明概念の下で、図9は、本発明の一実施形態による音声合成の方法を示すフローチャートである。次に、本実施形態を、図9との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。
図9に示すように、まず、ステップ901で、上記実施形態で説明している前述の休止予測方法を使って、休止が予測される。
次いで、ステップ905で、予測された休止に基づいて音声合成が行われる。
上記の説明から、本実施形態の音声合成方法は、上記実施形態の休止予測方法を用いて休止を予測し、予測された結果に基づいて音声合成を行うため、訓練データベースのサイズに容易に適合し、これにより、データの希薄さの問題が解決され、重要な属性相互作用項目が自動的に選択できることが分かる。したがって、本実施形態の音声合成方法は、音声合成をより正確に、自動的に行うことができ、生成される音声は、より合理的で、理解し易いものになる。
更に、本発明の好ましい一実施形態による音声合成方法では、休止予測に関連する複数の属性の1つとして発話速度も用いられる。休止予測モデル化に発話速度が導入されるため、音声合成のために発話速度を調整する新規の手法が提供される。音声が音声合成システムによって出力される前に、発話速度は、ユーザまたはアプリケーションによって指定されてもよい。また、データベース内の発話速度は固定される。これにより、発話速度は、休止確率予測モデルの訓練でも試験でも、知られている。休止確率予測モデルの属性コレクションは、発話速度自体を導入することができるだけではなく、発話速度と相互作用し合って休止予測の精度を向上させる項目を導入することもできる。音声合成のプロセスの間に、発話速度に基づく休止予測は、単純な線形の延長または短縮された発話速度調整方法も改善することができる。一部には、休止に対する発話速度の影響が音素ごとに異なることを示す研究者もあり、これも、発話速度が他の属性と相互作用し合うことを示すものでもある。
同じ発明概念の下で、図10は、本発明の一実施形態による休止確率予測モデルを訓練する装置を示すブロック図である。次に、本実施形態を、図10との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。
図10に示すように、本実施形態の休止確率予測モデルを訓練する装置1000は、休止予測に関連する複数の属性と、複数の属性の可能な属性組み合わせの少なくとも一部を用いて、複数の属性と属性組み合わせの各々が項目として含まれる初期休止確率予測モデル生成するように構成された初期モデル生成器1001と、休止確率予測モデル中の各項目の重要度を計算するように構成された重要度計算器1002と、最低算出重要度を有する項目を削除するように構成された項目削除ユニット1003と、項目削除ユニットの削除後に、残りの項目を用いて休止確率予測モデルを再生成するように構成されたモデル再生成器1004と、モデル再生成器によって再生成された休止確率予測モデルが最適モデルであるか否かを判定するように構成された最適化判定ユニット1005とを備える。
前述の実施形態と同様に、休止予測に関連する複数の属性は、例えば、上記表2から選択される任意の数の属性等の、言語型の属性と音声型の属性を備える。
更に、重要度計算器1002は、F検定を用いて各項目の重要度を計算する。
更に、最適化判定ユニット1005は、ベイズ情報量基準(BIC)に基づいて、上記再生成された休止確率予測モデルが最適モデルであるか否かを判定する。
更に、本発明の好ましい一実施形態によれば、属性組み合わせの上記少なくとも一部は、休止予測に関連する上記複数の属性の全ての2次属性組み合わせを含む。
更に、本発明の別の好ましい実施形態によれば、休止予測に関連する上記複数の属性は、発話速度を含む。
ここで、本実施形態の休止確率予測モデルを訓練する装置1000およびこれの個々の構成要素は、仕様に合わせて設計された回路またはチップを用いて実施することもでき、汎用コンピュータ(プロセッサ)上で対応するプログラムを実行することによっても実施することができることに留意すべきである。また、本実施形態の休止確率予測モデルを訓練する装置1000は、上記実施形態の休止確率予測モデルを訓練する方法を、実効的な方法で実施してもよい。
同じ発明概念の下で、図11は、本発明の一実施形態による休止予測の装置を示すブロック図である。次に、本実施形態を、図11との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。
図11に示すように、本実施形態の休止予測の装置1100は、上記実施形態で説明している、前述の休止確率予測モデル訓練方法を使って訓練された休止確率予測モデルである休止確率予測モデル1101と、休止予測に関連する複数の属性の対応する値を取得するように構成された属性取得ユニット1102と、休止確率予測モデル1101と、属性取得ユニット1102によって取得された休止予測に関連する複数の属性の対応する値に基づいて、休止確率を計算するように構成された休止確率計算器1103と、算出休止確率を閾値と比較して休止を取得するように構成された比較器1104とを備える。
ここで、属性を取得の方法については、上記実施形態で説明しているように、任意の既知の、または将来の方法を使って、これらの属性を取得することができ、特定の方法に限定されるものではなく、また、取得の方法は、属性の選択にも関連する。例えば、言語音と音調の属性の取得は、テキスト解析(単語分節化)後の綴りに基づいて行うことができ、文法型の属性の取得は、文法解析器または構文解析器によって行うことができる。
同じ発明概念の下で、図12は、本発明の一実施形態による音声合成の装置を示すブロック図である。次に、本実施形態を、図12との関連で説明する。上記の実施形態と同じ内容についての説明は、適宜省略する。
図12に示すように、本実施形態の音声合成の装置1200は、上記実施形態で説明している休止予測装置とすることのできる休止予測の装置1100と、従来技術の音声合成装置とすることのできる、上記の休止予測装置によって予測される休止に基づいて音声合成を行うように構成された音声合成装置1201とを備える。
ここで、本実施形態の音声合成の装置1200とこれの個々の構成要素は、仕様に合わせて設計された回路またはチップを用いて実施することもでき、汎用コンピュータ(プロセッサ)上で対応するプログラムを実行することによって実施することもできることに留意すべきである。また、本実施形態の音声合成の装置1200は、上記の実施形態の音声合成の方法を実効的な方法で実施してもよい。
以上では、F0予測モデル訓練方法および装置、F0予測方法および装置、ならびに音声合成方法および装置と、休止予測モデル訓練方法および装置、休止予測方法および装置、ならびに音声合成方法および装置とを、いくつかの例示的実施形態を用いて詳細に説明しているが、これらの実施形態は網羅的なものではない。当分野の技術者は、本発明の精神および範囲内において様々な変形および改変を行ってもよいものである。したがって、本発明は、これらの実施形態だけに限定されるものではなく、本発明の範囲は、添付の特許請求の範囲によってのみ定義されるものである。
本発明の一実施形態によるF0予測モデル訓練方法を示すフローチャートである。 本発明の一実施形態によるF0予測方法を示すフローチャートである。 本発明の一実施形態による音声合成方法を示すフローチャートである。 本発明の一実施形態によるF0予測モデル訓練装置を示すブロック図である。 本発明の一実施形態によるF0予測装置を示すブロック図である。 本発明の一実施形態による音声合成装置を示すブロック図である。 本発明の一実施形態による休止確率予測モデル訓練方法を示すフローチャートである。 本発明の一実施形態による休止予測方法を示すフローチャートである。 本発明の一実施形態による音声合成方法を示すフローチャートである。 本発明の一実施形態による休止確率予測モデル訓練装置を示すブロック図である。 本発明の一実施形態による休止予測装置を示すブロック図である。 本発明の一実施形態による音声合成装置を示すブロック図である。

Claims (56)

  1. F0予測モデルを訓練する方法であって、
    直交多項式を用いてF0を表すことと、
    前記直交多項式の各パラメータごとに、F0予測に関連する複数の属性と、前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、前記複数の属性と前記属性組み合わせの各々が項目として含まれる初期パラメータ予測モデルを生成することと、
    前記パラメータ予測モデル中の前記各項目の重要度を計算することと、
    最低算出重要度を有する前記項目を削除することと、
    残りの前記項目を用いてパラメータ予測モデルを再生成することと、
    前記再生成パラメータ予測モデルが最適モデルであるか否かを判定することと、
    前記パラメータ予測モデルが最適モデルではないと判定された場合、前記新規再生成パラメータ予測モデルを用いて、重要度を計算する前記ステップおよび重要度を計算する前記ステップに続く前記各ステップを繰り返すことと
    を含み、
    前記直交多項式および前記直交多項式の全てのパラメータ予測モデルがF0予測モデルを形成する、F0予測モデル訓練方法。
  2. F0予測に関連する前記複数の属性は、言語型と音声型の属性を含む、請求項1に記載のF0予測モデル訓練方法。
  3. F0予測に関連する前記複数の属性は、現在の音素、同じ音節中の別の音素、前の音節中の隣接する音素、次の音節中の隣接する音素、現在の音節の音調、前の音節の音調、次の音節の音調、音声の部分、次の休止までの距離、前の休止までの距離、内容語中の音素位置、現在、前および次の内容語の長さ、内容語中の音節の数、文章中の音節位置、および文章中の内容語の数の中から選択されるいずれかを含む、請求項1に記載のF0予測モデル訓練方法。
  4. 前記パラメータ予測モデルは一般化線形モデル(GLM)である、請求項1乃至3のいずれか1項に記載のF0予測モデル訓練方法。
  5. 前記複数の属性の可能な属性組み合わせの前記少なくとも一部は、F0予測に関連する前記複数の属性のすべての2次属性組み合わせを含む、請求項1に記載のF0予測モデル訓練方法。
  6. 前記パラメータ予測モデル中の前記各項目の重要度を計算する前記ステップは、F検定を用いて前記各項目の前記重要度を計算することを含む、請求項1乃至5のいずれか1項に記載のF0予測モデル訓練方法。
  7. 前記再生成されたパラメータ予測モデルが最適モデルであるか否かを判定する前記ステップは、ベイズ情報量基準(BIC)に基づいて前記再生成されたパラメータ予測モデルが最適モデルであるか否かを判定することを含む、請求項1乃至6のいずれか1項に記載のF0予測モデル訓練方法。
  8. 前記再生成されたパラメータ予測モデルが最適モデルであるか否かを判定する前記ステップは、
    SSEが予測誤りの二乗和を表し、Nが訓練サンプルの数を表す、式、
    BIC=Nlog(SSE/N)+plogN
    に基づいて計算を行うことと、
    前記BICが最小であるときに、前記再生成パラメータ予測モデルを最適モデルと判定することと、
    を含む、請求項7に記載のF0予測モデル訓練方法。
  9. 前記直交多項式は、2次または高次ルジャンドル直交多項式である、請求項1乃至8のいずれか1項に記載のF0予測モデル訓練方法。
  10. 前記ルジャンドル直交多項式は、式、
    F(t)=a(t)+a(t)+a(t)
    によって定義され、式中、F(t)はF0曲線を表し、係数a、aおよびaは前記パラメータを表し、tは[−1,1]に属する、請求項9に記載のF0予測モデル訓練方法。
  11. F0予測に関連する前記複数の属性は、発話速度をさらに含む、請求項1乃至10のいずれか1項に記載のF0予測モデル訓練方法。
  12. F0予測方法であって、
    請求項1乃至11のいずれか1項に記載のF0予測モデル訓練方法を使ってF0予測モデルを訓練することと、
    F0予測に関連する前記複数の属性の対応する値を取得することと、
    前記F0予測モデルと、F0予測に関連する前記複数の属性の前記対応する値に基づいてF0を計算することと
    を含むF0予測方法。
  13. F0予測に関連する前記複数の属性は発話速度を含む、請求項12に記載のF0予測方法。
  14. 請求項12または13に記載のF0予測方法を使ってF0を予測することと、
    前記予測されたF0に基づいて音声合成を行うことと
    を含む音声合成方法。
  15. F0予測モデルを訓練する装置であって、
    直交多項式を用いてF0を表し、前記直交多項式の各パラメータごとに、F0予測に関連する複数の属性と、前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、前記複数の属性と前記属性組み合わせの各々が項目として含まれる初期パラメータ予測モデルを生成するように構成された初期モデル生成器と、
    前記パラメータ予測モデル中の前記各項目の重要度を計算するように構成された重要度計算器と、
    最低算出重要度を有する前記項目を削除するように構成された項目削除ユニットと、
    前記項目削除ユニットの削除後に、残りの前記項目を用いてパラメータ予測モデルを再生成するように構成されたモデル再生成器と、
    前記モデル再生成器によって再生成された前記パラメータ予測モデルが最適モデルであるか否かを判定するように構成された最適化判定ユニットと、
    を備え、
    前記直交多項式および前記直交多項式のすべてのパラメータ予測モデルがF0予測モデルを構成する、F0予測モデル訓練装置。
  16. F0予測に関連する前記複数の属性は、言語型と音声型の属性を含む、請求項15に記載のF0予測モデル訓練装置。
  17. F0予測に関連する前記複数の属性は、現在の音素、同じ音節中の別の音素、前の音節中の隣接する音素、次の音節中の隣接する音素、現在の音節の音調、前の音節の音調、次の音節の音調、音声の部分、次の休止までの距離、前の休止までの距離、内容語中の音素位置、現在、前および次の内容語の長さ、内容語中の音節の数、文章中の音節位置、および文章中の内容語の数の中から選択されるいずれかを含む、請求項15に記載のF0予測モデル訓練装置。
  18. 前記パラメータ予測モデルは、一般化線形モデル(GLM)である、請求項15乃至17のいずれか1項に記載のF0予測モデル訓練装置。
  19. 前記複数の属性の可能な属性組み合わせの前記少なくとも一部は、F0予測に関連する前記複数の属性の2次属性組み合わせ全てを含む、請求項15に記載のF0予測モデル訓練装置。
  20. 前記重要度計算器は、F検定を用いて前記各項目の前記重要度を計算するように構成されている、請求項15乃至19のいずれか1項に記載のF0予測モデル訓練装置。
  21. 前記最適化判定ユニットは、ベイズ情報量基準(BIC)に基づいて前記再生成パラメータ予測モデルが最適モデルであるか否かを判定するように構成されている、請求項15乃至20のいずれか1項に記載のF0予測モデル訓練装置。
  22. 前記直交多項式は、2次または高次ルジャンドル直交多項式である、請求項15乃至21のいずれか1項に記載のF0予測モデル訓練装置。
  23. 前記ルジャンドル直交多項式は、式、
    F(t)=a(t)+a(t)+a(t)
    によって定義され、式中、F(t)はF0曲線を表し、係数a、aおよびaは前記パラメータを表し、tは[−1,1]に属する、請求項22に記載のF0予測モデル訓練装置。
  24. F0予測に関連する前記複数の属性は発話速度をさらに含む、請求項15乃至23のいずれか1項に記載のF0予測モデル訓練装置。
  25. F0予測装置であって、
    請求項1乃至11のいずれか1項に記載のF0予測モデル訓練方法を使って訓練されるF0予測モデルと、
    F0予測に関連する前記複数の属性の対応する値を取得するように構成された属性取得ユニットと、
    前記F0予測モデルと、F0予測に関連する前記複数の属性の前記対応する値に基づいてF0を計算するように構成されたF0計算器と、
    を備えるF0予測装置。
  26. F0予測に関連する前記複数の属性は発話速度を含む、請求項25に記載のF0予測装置。
  27. 音声合成装置であって、
    請求項25または26に記載のF0予測の装置を備え、前記F0予測の装置によって予測されるF0に基づく音声合成装置。
  28. 休止確率予測モデルを訓練する方法であって、
    休止予測に関連する複数の属性と、前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、前記複数の属性と前記属性組み合わせの各々が項目として含まれる初期休止確率予測モデルを生成することと、
    前記休止確率予測モデル中の前記各項目の重要度を計算することと、
    最低算出重要度を有する前記項目を削除することと、
    残りの前記項目を用いて休止確率予測モデルを再生成することと、
    前記再生成休止確率予測モデルが最適モデルであるか否かを判定することと、
    前記休止確率予測モデルが最適モデルではないと判定された場合、前記新規再生成休止確率予測モデルを用いて、重要度を計算する前記ステップと重要度を計算する前記ステップに続く各ステップを繰り返すことと
    を含む、休止確率予測モデル訓練方法。
  29. 休止予測に関連する前記複数の属性は、言語型と音声型の属性を含む、請求項28に記載の休止確率予測モデル訓練方法。
  30. 休止予測に関連する前記複数の属性は、現在の音素、同じ音節中の別の音素、前の音節中の隣接する音素、次の音節中の隣接する音素、現在の音節の音調、前の音節の音調、次の音節の音調、音声の部分、次の休止までの距離、前の休止までの距離、内容語中の音素位置、現在、前および次の内容語の長さ、内容語中の音節の数、文章中の音節位置、および文章中の内容語の数の中から選択されるいずれかを含む、請求項28に記載の休止確率予測モデル訓練方法。
  31. 前記休止確率予測モデルは一般化線形モデル(GLM)である、請求項28乃至30のいずれか1項に記載の休止確率予測モデル訓練方法。
  32. 前記複数の属性の可能な属性組み合わせの前記少なくとも一部は、休止予測に関連する前記複数の属性の2次属性組み合わせ全てを含む、請求項28に記載の休止確率予測モデル訓練方法。
  33. 前記休止確率予測モデル中の前記各項目の重要度を計算する前記ステップは、F検定を用いて前記各項目の前記重要度を計算することを含む、請求項28乃至32のいずれか1項に記載の休止確率予測モデル訓練方法。
  34. 前記再生成休止確率予測モデルが最適モデルであるか否かを判定する前記ステップは、
    ベイズ情報量基準(BIC)に基づいて前記再生成休止確率予測モデルが最適モデルであるか否かを判定すること
    を含む、請求項28乃至33のいずれか1項に記載の休止確率予測モデル訓練方法。
  35. 前記再生成休止確率予測モデルが最適モデルであるか否かを判定する前記ステップは、
    SSEが予測誤りの二乗和を表し、Nが訓練サンプルの数を表す、式、
    BIC=Nlog(SSE/N)+plogN
    に基づいて計算を行うことと、
    前記BICが最小であるときに、前記再生成されたパラメータ予測モデルを最適モデルと判定することと
    を含む、請求項34に記載の休止確率予測モデル訓練方法。
  36. 前記休止確率はベルヌーイ分布に従う、請求項28乃至35のいずれか1項に記載の休止確率予測モデル訓練方法。
  37. 休止予測に関連する前記複数の属性は発話速度をさらに含む、請求項1乃至36のいずれか1項に記載の休止確率予測モデル訓練方法。
  38. 休止予測方法であって、
    請求項28乃至37のいずれか1項に記載の休止確率予測モデル訓練方法を使って休止確率予測モデルを訓練することと、
    休止予測に関連する前記複数の属性の対応する値を取得することと、
    前記休止確率予測モデルと、休止予測に関連する前記複数の属性の前記対応する値に基づいて休止確率を計算することと、
    前記算出休止確率を閾値と比較して、休止を取得することと
    を含む、休止予測方法。
  39. 前記閾値は0から1までの間の数である、請求項38に記載の休止予測方法。
  40. 前記算出休止確率が前記閾値より大きい場合、前記休止は1であり、そうでない場合、前記休止は0である、請求項39に記載の休止予測方法。
  41. 休止予測に関連する前記複数の属性は発話速度を含む、請求項38乃至40のいずれか1項に記載の休止予測方法。
  42. 請求項38乃至41のいずれか1項に記載の休止予測の方法を使って休止を予測することと、
    予測された前記休止に基づいて音声合成を行うことと
    を含む音声合成方法。
  43. 休止確率予測モデル訓練装置であって、
    休止予測に関連する複数の属性と、前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、前記複数の属性と前記属性組み合わせの各々が項目として含まれる初期休止確率予測モデルを生成するように構成された初期モデル生成器と、
    前記休止確率予測モデル中の前記各項目の重要度を計算するように構成された重要度計算器と、
    最低算出重要度を有する前記項目を削除するように構成された項目削除ユニットと、
    前記項目削除ユニットの削除後に、残りの前記項目を用いて休止確率予測モデルを再生成するように構成されたモデル再生成器と、
    前記モデル再生成器によって再生成された前記休止確率予測モデルが最適モデルであるか否かを判定するように構成された最適化判定ユニットと、
    を備える、休止確率予測モデル訓練装置。
  44. 休止予測に関連する前記複数の属性は、言語型と音声型の属性を含む、請求項43に記載の休止確率予測モデル訓練装置。
  45. 休止予測に関連する前記複数の属性は、現在の音素、同じ音節中の別の音素、前の音節中の隣接する音素、次の音節中の隣接する音素、現在の音節の音調、前の音節の音調、次の音節の音調、音声の部分、次の休止までの距離、前の休止までの距離、内容語中の音素位置、現在、前および次の内容語の長さ、内容語中の音節の数、文章中の音節位置、および文章中の内容語の数の中から選択されるいずれかを含む、請求項43に記載の休止確率予測モデル訓練装置。
  46. 前記休止確率予測モデルは、一般化線形モデル(GLM)である、請求項43乃至45のいずれか1項に記載の休止確率予測モデル訓練装置。
  47. 前記複数の属性の可能な属性組み合わせの前記少なくとも一部は、休止予測に関連する前記複数の属性のすべての2次属性組み合わせを含む、請求項43に記載の休止確率予測モデル訓練装置。
  48. 前記重要度計算器は、F検定を用いて前記各項目の前記重要度を計算するように構成されている、請求項43乃至47のいずれか1項に記載の休止確率予測モデル訓練装置。
  49. 前記最適化判定ユニットは、ベイズ情報量基準(BIC)に基づいて前記再生成休止確率予測モデルが最適モデルであるか否かを判定するように構成されている、請求項43乃至48のいずれか1項に記載の休止確率予測モデル訓練装置。
  50. 前記休止確率はベルヌーイ分布に従う、請求項43乃至49のいずれか1項に記載の休止確率予測モデル訓練装置。
  51. 休止予測に関連する前記複数の属性は発話速度をさらに含む、請求項43乃至50のいずれか1項に記載の休止確率予測モデル訓練装置。
  52. 休止予測装置であって、
    請求項28乃至37のいずれか1項に記載の休止確率予測モデル訓練方法を使って訓練される休止確率予測モデルと、
    休止予測に関連する前記複数の属性の対応する値を取得するように構成された属性取得ユニットと、
    前記休止確率予測モデルと、休止予測に関連する前記複数の属性の前記対応する値に基づいて休止確率を計算するように構成された休止確率計算器と、
    前記算出休止確率を閾値と比較して休止を取得するように構成された比較器と
    を備える休止予測装置。
  53. 前記閾値は0から1までの間の数である、請求項52に記載の休止予測装置。
  54. 前記算出休止確率が前記閾値より大きい場合、前記休止は1であり、そうでない場合、前記休止は0である、請求項53に記載の休止予測装置。
  55. 休止予測に関連する前記複数の属性は発話速度を含む、請求項52乃至54のいずれか1項に記載の休止予測装置。
  56. 請求項52乃至55のいずれか1項に記載の休止予測装置を備える音声合成装置であって、予測される休止に基づいて音声合成を行うように構成されている音声合成装置。
JP2007099948A 2006-04-06 2007-04-06 F0および休止予測モデルを訓練する方法および装置、f0および休止予測方法および装置、音声合成方法および装置 Ceased JP2007279744A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA200610073145XA CN101051459A (zh) 2006-04-06 2006-04-06 基频和停顿预测及语音合成的方法和装置

Publications (2)

Publication Number Publication Date
JP2007279744A true JP2007279744A (ja) 2007-10-25
JP2007279744A5 JP2007279744A5 (ja) 2009-07-02

Family

ID=38576533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007099948A Ceased JP2007279744A (ja) 2006-04-06 2007-04-06 F0および休止予測モデルを訓練する方法および装置、f0および休止予測方法および装置、音声合成方法および装置

Country Status (3)

Country Link
US (1) US20070239439A1 (ja)
JP (1) JP2007279744A (ja)
CN (1) CN101051459A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009139949A (ja) * 2007-12-04 2009-06-25 Toshiba Corp 差分韻律適応モデルのトレーニング方法及び装置、差分韻律適応モデルの生成方法及び装置、韻律推定方法及び装置、音声合成方法及び装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1953052B (zh) * 2005-10-20 2010-09-08 株式会社东芝 训练时长预测模型、时长预测和语音合成的方法及装置
CN102231276B (zh) * 2011-06-21 2013-03-20 北京捷通华声语音技术有限公司 一种语音合成单元时长的预测方法及装置
TWI503813B (zh) * 2012-09-10 2015-10-11 Univ Nat Chiao Tung 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組
CN104021784B (zh) 2014-06-19 2017-06-06 百度在线网络技术(北京)有限公司 基于大语料库的语音合成方法和装置
CN104538026B (zh) * 2015-01-12 2018-10-23 北京理工大学 一种用于参数化语音合成的基频建模方法
CN107039034B (zh) * 2016-02-04 2020-05-01 科大讯飞股份有限公司 一种韵律预测方法及系统
CN105679306B (zh) * 2016-02-19 2019-07-09 云知声(上海)智能科技有限公司 语音合成中预测基频帧的方法及系统
TWI595478B (zh) * 2016-04-21 2017-08-11 國立臺北大學 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法
CN109036376A (zh) * 2018-10-17 2018-12-18 南京理工大学 一种闽南语语音合成方法
WO2020180424A1 (en) 2019-03-04 2020-09-10 Iocurrents, Inc. Data compression and communication using machine learning
CN111667816B (zh) 2020-06-15 2024-01-23 北京百度网讯科技有限公司 模型训练方法、语音合成方法、装置、设备和存储介质
CN113453072A (zh) * 2021-06-29 2021-09-28 王瑶 按级别拼合和播放多语言影音文件的方法、系统和介质
CN117454186B (zh) * 2023-12-22 2024-05-14 宁德时代新能源科技股份有限公司 模型训练、电池性能预测方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0237402A (ja) * 1988-07-27 1990-02-07 Yamatake Honeywell Co Ltd パラメータ推定方式
JP2007114794A (ja) * 2005-10-20 2007-05-10 Toshiba Corp 時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
US7412377B2 (en) * 2003-12-19 2008-08-12 International Business Machines Corporation Voice model for speech processing based on ordered average ranks of spectral features
CN101051464A (zh) * 2006-04-06 2007-10-10 株式会社东芝 说话人认证的注册和验证方法及装置
CN101154380B (zh) * 2006-09-29 2011-01-26 株式会社东芝 说话人认证的注册及验证的方法和装置
CN101465123B (zh) * 2007-12-20 2011-07-06 株式会社东芝 说话人认证的验证方法和装置以及说话人认证系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0237402A (ja) * 1988-07-27 1990-02-07 Yamatake Honeywell Co Ltd パラメータ推定方式
JP2007114794A (ja) * 2005-10-20 2007-05-10 Toshiba Corp 時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009139949A (ja) * 2007-12-04 2009-06-25 Toshiba Corp 差分韻律適応モデルのトレーニング方法及び装置、差分韻律適応モデルの生成方法及び装置、韻律推定方法及び装置、音声合成方法及び装置

Also Published As

Publication number Publication date
CN101051459A (zh) 2007-10-10
US20070239439A1 (en) 2007-10-11

Similar Documents

Publication Publication Date Title
JP2007279744A (ja) F0および休止予測モデルを訓練する方法および装置、f0および休止予測方法および装置、音声合成方法および装置
Juvela et al. Speech waveform synthesis from MFCC sequences with generative adversarial networks
JP4602307B2 (ja) 時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置
Airaksinen et al. Quasi closed phase glottal inverse filtering analysis with weighted linear prediction
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP5223673B2 (ja) 音声処理装置およびプログラム、並びに、音声処理方法
JP2009139949A (ja) 差分韻律適応モデルのトレーニング方法及び装置、差分韻律適応モデルの生成方法及び装置、韻律推定方法及び装置、音声合成方法及び装置
US20080082333A1 (en) Prosody Conversion
US8494847B2 (en) Weighting factor learning system and audio recognition system
JP6051004B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
Chen et al. Modeling of speaking rate influences on Mandarin speech prosody and its application to speaking rate-controlled TTS
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
Yu et al. Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis
Bous et al. Analysing deep learning-spectral envelope prediction methods for singing synthesis
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
JP4829912B2 (ja) 基本周波数推定装置、基本周波数推定方法、基本周波数推定プログラム、記憶媒体
JP6840124B2 (ja) 言語処理装置、言語処理プログラムおよび言語処理方法
JP4417892B2 (ja) 音声情報処理装置、音声情報処理方法および音声情報処理プログラム
Liou et al. Estimation of hidden speaking rate
JP6665079B2 (ja) 基本周波数モデルパラメータ推定装置、方法、及びプログラム
Hashimoto et al. Overview of NIT HMMbased speech synthesis system for Blizzard Challenge 2011
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP5860439B2 (ja) 言語モデル作成装置とその方法、そのプログラムと記録媒体
JP2007011042A (ja) 韻律生成装置及び音声合成装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090519

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090519

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110307

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20110411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

AA92 Notification of invalidation

Free format text: JAPANESE INTERMEDIATE CODE: A971092

Effective date: 20110426