JP4602307B2

JP4602307B2 - 時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置

Info

Publication number: JP4602307B2
Application number: JP2006286910A
Authority: JP
Inventors: イー・リフ; ジー・ハオ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-10-20
Filing date: 2006-10-20
Publication date: 2010-12-22
Anticipated expiration: 2026-10-20
Also published as: JP2007114794A; CN1953052B; US7840408B2; CN1953052A; US20070129948A1

Description

本発明は、情報処理技術、特に時間長予測モデルをコンピュータでトレーニングする技術、時間長予測技術及び音声合成技術に関する。

時間長モデルはその言語及び語彙属性に従って音声単位の適正な時間長を予測する。従来の方法はSOP(積和)、CART(Classify and Regression Tree「分類回帰木」)及びANN(Artificial Neural Networks「人工神経ネットワーク」)を含む。積和(SOP)は例えば、非特許文献1及び非特許文献2に詳しく説明されている。
分類回帰木(CART)は例えば、非特許文献３に詳しく説明されている。
人工神経ネットワーク（ANN）は、例えば、非特許文献４に詳しく説明されている。
"An ANN-based prosodic information synthesizer for Mandarin text-to-speech", S.H. Chen, S.H. Hwang et al, IEEE trans. Speech Audio Processing, Vol.6, No.3, pp226-239, 1998 "Polynomial regression model for duration prediction in Mandarin", Sun Lu, Yu Hu, Ren-Hua Wang, INTERSPEECH-2004, pp 769-77 "Linguistic factors affecting timing in Korean with application to speech synthesis", Chung, H. and Huckvale, M. A., Proceedings of Eurospeech 2001, Aalborg, vol.2, pp.815-819 "Modeling final duration for Japanese text-to-speech synthesis", Venditti, Jennifer J., Santen, Jan P. H. van, ICSLP-1998, pp.786-789。

しかしながら、従来の方法は次のような欠点を有する。即ち、
１）一般の方法は2つの主要な問題、データまばら（data sparsity）及び属性相互作用によって強く影響される。これらは主にモデルの複雑さとデータベースサイズとの間のアンバランスによって生じる。既存のモデル係数はデータ駆動方法によって計算できる。しかし、属性及び属性の組み合わせはデータ駆動方法によって選択される代わりに手動的に選択される。故に、これらの「部分的」データ駆動モデリング方法は主体的経験に依存する。

２）話速度は時間法モデリングの属性として導入されない。しかし、分節時間長は既存の韻律調査から話速度によって明らかに影響される。故に、音声合成器はユーザが話速度を調整する必要があるとき選択の自由を持たないが分節時間長を線形に短縮又は伸長しなければならない。しかし、実際には、分節時間長に関する異なる属性の効果が非常に異なっており、故に線形短縮及び伸長を行うには適切でない。

従来における上記問題を解決するために、本発明は時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置、並びに音声合成方法及び装置を提供する。

本発明の一態様によると、時間長予測に関する複数の属性及び前記複数の属性の可能な属性組み合わせの一部を用いて前記複数の属性及び前記属性組み合わせの各々が項目として含まれている初期時間長予測モデルを発生するステップと、前記時間長予測モデルの各項目の重要性を計算するステップと、計算された最低重要度を有する項目を削除するステップと、残りの項目で時間長予測モデルを再生成するステップと、前記再生成時間長予測モデルが適正予測モデルであるかを決定するステップと、重要度を計算するステップ及び前記時間長予測モデルが最適モデルでないと決定されれば、前記重要度計算ステップ及びこの重要度計算ステップに続くステップを新たな再生成時間長予測モデルで繰り返すステップと、を含む時間長予測モデルトレーニング方法が提供される。

この発明の他の態様によると、時間長予測モデルトレーニング方法を用いて時間長予測モデルをトレーニングするステップと、時間長予測に関する前記複数の属性の対応値を求めるステップと、前記時間長予測モデル及び時間長予測モデルに関する前記複数の属性の前記対応する値に基づいて時間長を計算するステップと、で成る時間長予測方法が提供される。

この発明の他の態様によると、時間長予測に関する複数の属性及び前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて前記複数の属性及び前記属性の組み合わせの各々が項目として含む初期時間長予測モデルを生成するように構成される初期モデル生成器と、前記時間長予測モデル内の各項目の重要度を計算するように構成される重要度計算機と、計算された最低重要度の項目を削除するよう構成される項目削除ユニットと、前記項目削除ユニットの削除後に残りの項目を用いて時間長予測モデルを再生成するように構成されるモデル再生成器と、前記モデル再生成器によって再生成された時間長予測モデルが最適モデルであるかを決定するように構成される最適決定ユニットと、を具備する時間長予測モデルトレーニング装置が提供される。

この発明の他の態様によると、時間長予測モデルトレーニング方法を用いてトレーニングされる時間長予測モデルと、時間長予測に関する前記複数の属性の対応値を求めるよう構成される属性取得ユニットと、前記時間長予測モデル及び時間長予測モデルに関する前記複数の属性の前記対応する値に基づいて時間長を計算する時間長計算機と、を具備する時間長予測装置が提供される。

この発明の他の態様によると、時間長予測装置を具備し、予測時間長に基づいて音声合成を行う、音声合成装置が提供される。

次の実施形態の理解を容易にするために、最初にＧＬＭ（一般化線形モデル）及びＢＩＣ（ベイズ情報基準）を簡単に紹介する。ＧＬＭモデルは多変量回帰モデル（multivariate regression model）の一般化であり、これに対してＳＯＰはＧＬＭの特別事例である。ＧＬＭモデルは次式によって音声単位ｓの属性から時間長ｄ＾を予測する。

但し、ｈはリンク関数である。一般的に、dの分布は指数族であると仮定する。異なるリンク関数を用いてｄの異なる指数分布を得ることができる。この実施形態のGLMモデルは時間長分布がガウス分布である。GLMは線形モデル又は非線形モデルのいずれかとして使用できるとものと仮定する。

判定基準は異なるモデルの性能と比較するために必要である。モデルが簡単なほど異常値データの予測結果がより信頼でき、これに対してモデルが複雑になるほどトレーニングデータの予測がより正確になる。BIC判定基準は幅広く使用されている評価基準であり、これは精度と信頼度の両方を積分して与え、次式によって定義される。

BIC= Nlog(SSE/N) + plogN (2)
但し、SSEは予測エラーの二乗和である。式２の右辺の第１因数はモデルの精度を示し、第２因数はモデル複雑度のペナルティを示す。トレーニングサンプル数Nが固定されているとき、モデルが複雑であるほど、大きさｐが大きくなり、モデルがトレーニングデータをより正確に予測でき、SSEがより小さくなる。故に、第１因数は小さくし、第２因数は大きくする、又はその逆にする。即ち、一方が増加すると他方が減少することになる。２つの因数の合計が最小になると、モデルは最適となる。BICはモデル複雑度とデータベースサイズとの間に良好なバランスが得ることができ、これがデータまばら及び属性相互作用問題の解決に役立つ。

次に、添付図面を参照してこの発明の実施形態を詳細に説明する。

図１はこの発明の一実施形態に従った時間長予測モデルをトレーニングする方法のフローチャートである。この実施形態の方法によってトレーニングされる時間長予測モデルが時間長予測方法及び他の実施形態と関連して後に説明される音声合成方法及び装置に使用される。

図１に示されるように、最初ステップ１０で、初期時間長予測モデルが生成される。特に、初期時間長予測モデルは時間長予測に関連する複数の属性及びこれら属性の組み合わせによって生成される。上述したように、時間長予測に関連する多くの属性があり、それらは言語タイプの属性及び音声タイプの属性に大まかに分けることができる。表１は時間長予測に関連する属性として使用できる幾つかの属性を一例として表にしている。

この実施形態において、GLMモデルはこれらの属性及び属性の組み合わせを表すために使用される。説明を容易にするために、音（phone）及び音色(tone)だけが時間長予測に関連する属性であると仮定する。初期時間長予測モデルの形態は次のようである。即ち、時間長_phone+tone+tone*phoneである。tone*phoneは二次項目である音と音色の組み合わせを意味する。

属性の数が増加するに従って複数の二次項目、三次項目などが属性組み合わせの結果として現れるかもしれないことは言うまでもない。

更に、この実施形態では、初期時間長予測モデルが生成されるとき、属性組み合わせの一部だけが維持でき、例えば二次までの組み合わせだけが維持され、もちろん、三次までの組み合わせを維持すること又は全ての組み合わせを追加することができる。

要するに、初期時間長予測モデルは全ての独立属性（一次項目）及び属性組み合わせの少なくとも一部(二次項目又は多次項目)を含む。故に、初期時間長予測モデルは従来行われるように経験に基づいて手動的に設定する代わりに簡単な規則を用いて自動的に生成できる。

次に、ステップ１０５で、各項目の重要度がFテストで計算される。周知の標準統計的方法のように、FテストはPROBABILITY AND STATISTICS by Sheng Zhou, Xie Shiqian and Pan Shengyi (2000, Second Edition, Higher Education Press)に詳しく説明されているのでここでは繰り返さない。

Fテストがこの実施形態に使用されているが、Chisqテストのような他の統計的方法も使用できることは留意すべきである。

次に、ステップ１１０で、Fテストの最も低いスコアを持つ項目が初期時間長予測モデルから削除される。そのとき、ステップ１１５で、時間長予測モデルが残りの項目を用いて再生成される。

次に、ステップ１２０で、再生成時間長予測モデルのBIC値が算出され、上述の方法はモデルが最適モデルであるかを決定するために使用される。ステップ１２０での決定がYesであると、新たに生成される時間長予測モデルが最適モデルとして扱われ、処理はステップ１２５で終了する。

ステップ１２０での決定がNoであれば、処理はステップ１０５に戻り、再生成モデルの各項目の重要度が再計算され、非重要項目が削除され（ステップ１１０）、最適モデルが得られるまでモデルが再生成される（ステップ１１５）。

上記説明から、この実施形態は一般線形モデル（GLM）に基づく時間長モデリング方法及びFテスト及びベイズ情報判定基準（BIC）に基づく段階的回帰によって属性を選択する。本実施形態のGLMモデルの構成は柔軟性を持っているので、トレーニングデータベースのサイズに容易に適用する。故に、データまばらの問題が解決される。更に、重要属性相互作用項目が段階的回帰方法によって自動的に選択できる。

更に、この発明の１つの実施形態に従って時間長予測モデルをトレーニングする方法では、話速度が時間長予測に関連する複数の属性の１つとして適用されるので、新たな方法が音声合成のための話速度を調整するために設けられる。音声が音声合成システムによって出力される前に話速度はユーザ又はアプリケーションによって特定でき、データベース内の話速度も固定される。故に、話速度が時間長予測モデルのトレーニング及びテストの両方について知られている。時間長予測モデルの属性収集はそれ自体で話速度を導入できるだけでなく、時間長予測精度を改善するために話速度と相互作用する項目を導入できる。音声合成処理中に、話速度に基づく時間長予測は簡単な線形伸長又は短縮話速度調整方法をも向上する。ある調査は時間長に関する話速度の効果が音韻から音韻まで異なっていることを示し、これが話速度が他の属性と相互作用することを示している。

同じ発明概念で、図２はこの発明の一実施形態に従った時間長予測方法のフローチャートである。次に、この実施形態を図２と関連して説明する。上記実施形態と同じ部分についてはその説明は省略する。

図２に示すように、最初ステップ２０１で、時間長予測モデルが上記実施形態で説明した時間長予測モデルをトレーニングする方法を用いてトレーニングされる。

次に、ステップ２０５で、時間長予測に関連する複数の属性の対応する値が取得される。特に、例えば、それらは入力テキストから直接に得ることができ、又は文法的又は統語解析を介して得られる。この実施形態はこれら対応する属性を取得するために既知の又は将来の方法を採用でき、特定の方法に限定されない。取得方法は属性の選択に対応する。

最後に、ステップ２１０で、時間長はトレーニングされた時間長予測モデル及び上記で得られた属性に基づいて算出される。

上記説明から、この実施形態の時間長予測方法は時間長を予測するため上記実施形態の時間長予測モデルをトレーニングする方法によってトレーニングされたモデルを採用しているので、トレーニングデータベースのサイズに適応し、故にデータまばらの問題は解決され、重要属性相互作用項目は自動的に選択できる。従って、この実施形態の時間長予測方法は時間長をより正確に、自動的に予測できる。

更に、この発明の一実施形態に従った時間長予測方法においては、話速度が時間長予測に関連する複数の属性の１つとして採用される。故に、話速度を時間長予測モデリングに導入することによって、時間長予測モデルの属性収集は話速度自体を導入できるだけでなく話速度と相互作用する項目を導入でき、それによって時間長予測の精度が更に向上される。

同じ発明概念で、図３はこの発明の一実施形態に従った音声合成方法のフローチャートである。次に、この実施形態を図３と関連して説明する。上記実施形態と同じ部分に対して適宜説明は省略する。

図３に示されるように、先ずステップ３０１で、時間長が上記実施形態で説明された時間長予測方法を用いて予測される。それから、ステップ３０５で、音声合成が予測された時間長に基づいて行われる。

上記の説明から、この実施形態の音声合成方法は時間長を予測するために上記実施形態の時間長予測方法を採用し、予測結果に基づいて音声合成を行うので、トレーニングデータベースのサイズに容易に適用し、故にデータまばらの問題が解決され、重要属性相互作用項目が自動的に選択できることが理解できる。従って、この実施形態の音声合成方法は音声合成をより正確に、かつ自動的に行うことができ、生成された音声はより適正となり、理解できる。

更に、この発明の一実施形態に従った音声合成方法において、話速度が時間長予測に関連する複数の属性の１つとして採用される。話速度が時間長予測モデリングに導入されるので、新たは提案が音声合成のため話速度を調整するために提供される。音声が音声合成システムによって出力される前に、話速度はユーザ又はアプリケーションによって特定でき、データベースの話速度が固定される。故に、話速度は時間長予測モデルのトレーニング及びテストの両方で知られている。時間長予測モデルの属性収集は話速度自体を導入できるだけではなく時間長予測の精度を改善するために話速度と相互作用する項目を導入できる。音声合成処理中に、話速度に基づく時間長予測が簡単な線形伸長又は短話輪速度調整方法を改良できる。幾つかの調査によって、時間長に関する話速度の効果は音韻から音韻までで異なり、これは話速度が他の属性と相互作用することを示している。

同じ発明概念で、図４はこの発明の一実施形態に従った時間長予測モデルをトレーニングする装置のブロック図である。次に、この実施形態を図４と関連して説明する。上記実施形態と同じ部分については、その説明は適当に省略する。

図４に示されるように、この実施形態の時間長予測モデルをトレーニングする装置４００は時間長予測に関連する複数の属性及び複数の属性の可能な属性組み合わせの少なくとも一部を用いて、複数の属性及び属性の組み合わせの各々が項目として導入される初期時間長予測モデルを生成するように構成される初期モデル生成器４０１と、時間予測モデル内の各項目の重要度を算出するよう構成される重要度計算機４０２と、算出された最低重要度を持つ項目を削除するように構成される項目削除ユニット４０３と、項目削除ユニット４０３の削除後に残りの項目を用いて時間長予測モデルを再生成するように構成されるモデル再生成器４０４と、モデル再生成器４０４によって再生成された時間長予測モデルが最適モデルであるかを決定するように構成される最適化決定ユニット４０５によって構成される。

上記実施形態と同様に、この実施形態の時間長予測に関連する複数の属性は言語タイプの属性及び音声タイプの属性により構成され、例えば、表１から選択される任意の数の属性により構成される。

重要度計算機４０２はFテストによって各項目の重要度を算出する。最適化決定ユニット４０５は再生成時間長予測モデルがベイズ情報判定基準に基づく最適モデルであるかを決定する。

更に、この発明の一実施形態によると、属性組み合わせの少なくとも一部は時間長予測に関連する複数の属性の二次属性組み合わせの全てにより構成される。

更に、この発明の他の実施形態によると、時間長予測に関する複数の属性は話速度で成る。

この実施形態における時間長予測モデル及びその各コンポーネントをトレーニングする装置４００は特別な回路又はチップによって構成でき、対応するプログラムを実行するコンピュータ（プロセッサ）によって実施できる。また、この実施形態の時間長予測モデルをトレーニングする装置４００は上記実施形態の時間長予測モデルをトレーニングする方法を実施できる。

同じ発明概念で、図５はこの発明の一実施形態に従った時間長予測装置のブロック図である。次に、この実施形態を図５と関連して説明する。上記実施形態と同じ部分についてはその説明は適当に省略する。

図５に示されるように、この実施形態の時間長予測装置５００は、上記実施形態において説明した時間長予測モデルをトレーニングする方法を用いてトレーニングされた時間長予測モデルである時間長予測モデル５０１と、時間長予測に関する複数の属性の対応する値を取得するように構成される属性取得ユニット５０２と、時間長予測モデルと属性取得ユニット５０２によって取得される時間長予測に関する複数の属性の対応する値に基づいて時間長を算出するように構成される時間長計算機５０３により構成される。

属性を取得する方法に関して、上記実施形態で説明されているように、既知又は将来の方法が対応する属性を取得するために使用でき、特定の方法に限定されない。また、取得方法は属性の選択に関連する。例えば、音及び音色の属性の取得はテキスト解析（ワード細分化）後のスペルに基づいて行われ、文法タイプの属性の取得は文法解析器又は構文解析器によって行うことができる。

同じ発明概念で、図６はこの発明の一実施形態に従った音声合成装置のブロック図である。次に、この実施形態が図６と関連して説明する。上記実施形態と同じ部分については、その説明は適当に省略する。

図６に示すように、この実施形態の音声合成装置６００は上記実施形態で説明した時間長予測装置である時間長予測装置５００と、従来の音声合成器で構成されてもよく、上記時間長予測装置によって予測によって予測される時間長に基づいて音声合成を行うよう構成される音声合成器６０１とによって構成される。

この実施形態の音声合成装置６００及びその各構成要素は専用回路又はチップによって構成でき、又は対応するプログラムを実行するコンピュータ（プロセッサ）によって実施できることを留意する。また、この実施形態の音声合成装置６００は上記実施形態の音声合成方法を実施できる。

時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置、並びに音声合成方法及び装置は幾つかの実施形態で詳細に説明したけれども、これら実施形態は全てではない。当業者はこの発明の精神及び範囲以内で種々変更及び変形できる。故に、この発明はこれらの実施形態に限定されなく、むしろ、この発明の範囲は請求項によって規定されるだけである。

本発明の一実施形態に従った時間長予測モデルをトレーニングする方法のフローチャートである。この発明の一実施形態に従った時間長予測方法のフローチャートである。この発明の一実施形態に従った音声合成方法のフローチャートである。この発明の一実施形態に従った時間予測モデルをトレーニングする装置のブロック図である。この発明の一実施形態に従った時間長予測装置のブロック図である。この発明の一実施形態に従った音声合成装置のブロック図である。

符号の説明

４００…時間長予測モデルトレーニング装置、４０１…初期モデル生成器、４０２…重要度計算機、４０３…項目削除ユニット、４０４…モデル再生成器、４０５…最適化決定ユニット、５００…時間長予測装置、５０１…時間長予測モデル、５０２…属性取得ユニット、５０３…時間長計算機、６００…音声合成装置、６０１…音声合成器

Claims

時間長予測に関する複数の属性及び前記複数の属性の可能な属性組み合わせの一部を用いて前記複数の属性及び前記属性組み合わせの各々が項目として含まれている初期時間長予測モデルを生成するステップと、
前記時間長予測モデルの各項目の重要度を計算するステップと、
計算された最低重要度を有する項目を削除するステップと、
残りの項目で時間長予測モデルを再生成するステップと、
前記再生成時間長予測モデルが最適予測モデルであるかを決定するステップと、
重要度を計算するステップ及び前記時間長予測モデルが最適モデルでないと決定されれば、前記重要度計算ステップ及びこの重要度計算ステップに続くステップを新たな再生成時間長予測モデルで繰り返すステップと、
を含む時間長予測モデルトレーニング方法。
時間長予測に関する前記複数の属性が言語タイプ及び音声タイプの属性を含む、請求項１に記載の時間長予測モデルトレーニング方法。
時間長予測に関する前記複数の属性は、現音韻から選択された音韻、同じ音節内の他の音韻、前の音節内の隣接音韻、次の音節内の隣接音韻、前記現音節の音色、前記前の音節の音色、前記次の音節の音色、音声の一部、次の休止までの距離、前の休止までの距離、語彙単語内の音韻の位置、現、前及び次の語彙単語の長さ、語彙単語の音節の数、文内の音節の位置及び文内の語彙単語の数を含む、請求項１に記載の時間長予測モデルトレーニング方法。
前記時間長予測モデルが一般線形モデル（GLM）である、請求項１に記載の時間長予測モデルトレーニング方法。
前記複数の属性モデルの可能な属性組み合わせの前記少なくとも一部は時間長予測に関する前記複数の属性の二次属性組み合わせの全てを含む、請求項１に記載の時間長予測モデルトレーニング方法。
前記重要度計算ステップはＦテストで各項目の重要度を計算することを含む、請求項1に記載の時間長予測モデルトレーニング方法。
前記再生成時間長予測モデルが最適モデルであるかを決定するステップは前記再生成時間長予測モデルが（ＢＩＣ）に基づく最適モデルであるかを決定することを含む、請求項１に記載の時間長予測モデルトレーニング方法。
前記再生成時間長予測モデルが最適モデルであるかを決定するステップは式BIC= Nlog(SSE/N)+plogN（SSEは予測エラーの二乗和を表し、Nはトレーニングサンプルの数を表す）に基づいて計算するステップと、BICが最小のとき前記再生成時間長予測モデルを最適モデルとして決定するステップを含む、請求項７に記載の時間長予測モデルトレーニング方法。
時間長予測に関する前記複数の属性は話す速度を更に含む、請求項1乃至８のいずれか一に記載の時間長予測モデルトレーニング方法。
前記請求項１乃至９のいずれか１に記載の時間長予測モデルトレーニング方法を用いて時間長予測モデルをトレーニングするステップと、
時間長予測に関する前記複数の属性の対応する値を求めるステップと、
前記時間長予測モデル及び時間長予測モデルに関する前記複数の属性の前記対応する値に基づいて時間長を計算するステップと、で成る時間長予測方法。
前記時間長予測に関する前記複数の属性は話す速度を含む、請求項１０に記載の時間長予測方法。
請求項１０又は１１に記載の時間長予測方法を用いて時間長を予測するステップと、予測時間長に基づいて音声合成を行うステップとを含む、音声合成方法。
時間長予測に関する複数の属性及び前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて前記複数の属性及び前記属性の組み合わせの各々が項目として含む初期時間長予測モデルを生成するように構成される初期モデル生成器と、
前記時間長予測モデル内の各項目の重要度を計算するように構成される重要度計算機と、
計算された最低重要度の項目を削除するよう構成される項目削除ユニットと、
前記項目削除ユニットの削除後に残りの項目を用いて時間長予測モデルを再生成するように構成されるモデル再生成器と、
前記モデル再生成器によって再生成された時間長予測モデルが最適モデルであるかを決定するように構成される最適決定ユニットと、を具備する時間長予測モデルトレーニング装置。
時間長予測に関する前記複数の属性は言語タイプ及び音声タイプの属性を含む、請求項１３に記載の時間長予測モデルトレーニング装置。
時間長予測に関する前記複数の属性は現音韻から選択された音韻、同じ音節内の他の音韻、前の音節内の隣接音韻、次の音節内の隣接音韻、前記源音節の音色、前記前の音節の音色、前記次の音節の音色、音声の一部、次の休止までの距離、前の休止までの距離、語彙単語内の音韻の位置、現、前及び次の語彙単語の長さ、語彙単語の音節の数、文内の音節の位置及び文内の語彙単語の数を含む、請求項１３に記載の時間長予測モデルトレーニング装置。
前記複数の属性モデルの可能な属性組み合わせの前記少なくとも一部は時間長予測に関する前記複数の属性の二次属性組み合わせの全てを含む、請求項１３に記載の時間長予測モデルトレーニング装置。
前記重要度計算機はＦテストで各項目の重要度を計算するよう構成される、請求項1３に記載の時間長予測モデルトレーニング装置。
前記最適化決定ユニットは前記再生成時間予測モデルがベイズ情報基準（ＢＩＣ）に基づく最適モデルであるかを決定するように構成される、請求項１３に記載の時間長予測モデルトレーニング装置。
時間長予測に関する前記複数の属性は話す速度を更に含む、請求項1３乃至１８のいずれか１に記載の時間長予測モデルトレーニング装置。
前記請求項１乃至９のいずれか１に記載の時間長予測モデルトレーニング方法を用いてトレーニングされる時間長予測モデルと、
時間長予測に関する前記複数の属性の対応する値を求めるよう構成される属性取得ユニットと、
前記時間長予測モデル及び時間長予測モデルに関する前記複数の属性の前記対応する値に基づいて時間長を計算する時間長計算機と、を具備する時間長予測装置。
前記時間長予測に関する前記複数の属性は話す速度を含む、請求項２０に記載の時間長予測装置。
請求項２０又は２１に記載の前記時間長予測装置を具備し、予測時間長に基づいて音声合成を行う、音声合成装置。