JP4602307B2 - 時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置 - Google Patents

時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置 Download PDF

Info

Publication number
JP4602307B2
JP4602307B2 JP2006286910A JP2006286910A JP4602307B2 JP 4602307 B2 JP4602307 B2 JP 4602307B2 JP 2006286910 A JP2006286910 A JP 2006286910A JP 2006286910 A JP2006286910 A JP 2006286910A JP 4602307 B2 JP4602307 B2 JP 4602307B2
Authority
JP
Japan
Prior art keywords
time length
length prediction
prediction model
attributes
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006286910A
Other languages
English (en)
Other versions
JP2007114794A (ja
Inventor
イー・リフ
ジー・ハオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2007114794A publication Critical patent/JP2007114794A/ja
Application granted granted Critical
Publication of JP4602307B2 publication Critical patent/JP4602307B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities

Description

本発明は、情報処理技術、特に時間長予測モデルをコンピュータでトレーニングする技術、時間長予測技術及び音声合成技術に関する。
時間長モデルはその言語及び語彙属性に従って音声単位の適正な時間長を予測する。従来の方法はSOP(積和)、CART(Classify and Regression Tree「分類回帰木」)及びANN(Artificial Neural Networks「人工神経ネットワーク」)を含む。積和(SOP)は例えば、非特許文献1及び 非特許文献2に詳しく説明されている。
分類回帰木(CART)は例えば、非特許文献3に詳しく説明されている。
人工神経ネットワーク(ANN)は、例えば、非特許文献4に詳しく説明されている。
"An ANN-based prosodic information synthesizer for Mandarin text-to-speech", S.H. Chen, S.H. Hwang et al, IEEE trans. Speech Audio Processing, Vol.6, No.3, pp226-239, 1998 "Polynomial regression model for duration prediction in Mandarin", Sun Lu, Yu Hu, Ren-Hua Wang, INTERSPEECH-2004, pp 769-77 "Linguistic factors affecting timing in Korean with application to speech synthesis", Chung, H. and Huckvale, M. A., Proceedings of Eurospeech 2001, Aalborg, vol.2, pp.815-819 "Modeling final duration for Japanese text-to-speech synthesis", Venditti, Jennifer J., Santen, Jan P. H. van, ICSLP-1998, pp.786-789。
しかしながら、従来の方法は次のような欠点を有する。即ち、
1)一般の方法は2つの主要な問題、データまばら(data sparsity)及び属性相互作用によって強く影響される。これらは主にモデルの複雑さとデータベースサイズとの間のアンバランスによって生じる。既存のモデル係数はデータ駆動方法によって計算できる。しかし、属性及び属性の組み合わせはデータ駆動方法によって選択される代わりに手動的に選択される。故に、これらの「部分的」データ駆動モデリング方法は主体的経験に依存する。
2)話速度は時間法モデリングの属性として導入されない。しかし、分節時間長は既存の韻律調査から話速度によって明らかに影響される。故に、音声合成器はユーザが話速度を調整する必要があるとき選択の自由を持たないが分節時間長を線形に短縮又は伸長しなければならない。しかし、実際には、分節時間長に関する異なる属性の効果が非常に異なっており、故に線形短縮及び伸長を行うには適切でない。
従来における上記問題を解決するために、本発明は時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置、並びに音声合成方法及び装置を提供する。
本発明の一態様によると、時間長予測に関する複数の属性及び前記複数の属性の可能な属性組み合わせの一部を用いて前記複数の属性及び前記属性組み合わせの各々が項目として含まれている初期時間長予測モデルを発生するステップと、前記時間長予測モデルの各項目の重要性を計算するステップと、計算された最低重要度を有する項目を削除するステップと、残りの項目で時間長予測モデルを再生成するステップと、前記再生成時間長予測モデルが適正予測モデルであるかを決定するステップと、重要度を計算するステップ及び前記時間長予測モデルが最適モデルでないと決定されれば、前記重要度計算ステップ及びこの重要度計算ステップに続くステップを新たな再生成時間長予測モデルで繰り返すステップと、を含む時間長予測モデルトレーニング方法が提供される。
この発明の他の態様によると、時間長予測モデルトレーニング方法を用いて時間長予測モデルをトレーニングするステップと、時間長予測に関する前記複数の属性の対応値を求めるステップと、前記時間長予測モデル及び時間長予測モデルに関する前記複数の属性の前記対応する値に基づいて時間長を計算するステップと、で成る時間長予測方法が提供される。
この発明の他の態様によると、時間長予測に関する複数の属性及び前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて前記複数の属性及び前記属性の組み合わせの各々が項目として含む初期時間長予測モデルを生成するように構成される初期モデル生成器と、前記時間長予測モデル内の各項目の重要度を計算するように構成される重要度計算機と、計算された最低重要度の項目を削除するよう構成される項目削除ユニットと、前記項目削除ユニットの削除後に残りの項目を用いて時間長予測モデルを再生成するように構成されるモデル再生成器と、前記モデル再生成器によって再生成された時間長予測モデルが最適モデルであるかを決定するように構成される最適決定ユニットと、を具備する時間長予測モデルトレーニング装置が提供される。
この発明の他の態様によると、時間長予測モデルトレーニング方法を用いてトレーニングされる時間長予測モデルと、時間長予測に関する前記複数の属性の対応値を求めるよう構成される属性取得ユニットと、前記時間長予測モデル及び時間長予測モデルに関する前記複数の属性の前記対応する値に基づいて時間長を計算する時間長計算機と、を具備する時間長予測装置が提供される。
この発明の他の態様によると、時間長予測装置を具備し、予測時間長に基づいて音声合成を行う、音声合成装置が提供される。
次の実施形態の理解を容易にするために、最初にGLM(一般化線形モデル)及びBIC(ベイズ情報基準)を簡単に紹介する。GLMモデルは多変量回帰モデル(multivariate regression model)の一般化であり、これに対してSOPはGLMの特別事例である。GLMモデルは次式によって音声単位sの属性から時間長d^を予測する。
Figure 0004602307
但し、hはリンク関数である。一般的に、dの分布は指数族であると仮定する。異なるリンク関数を用いてdの異なる指数分布を得ることができる。この実施形態のGLMモデルは時間長分布がガウス分布である。GLMは線形モデル又は非線形モデルのいずれかとして使用できるとものと仮定する。
判定基準は異なるモデルの性能と比較するために必要である。モデルが簡単なほど異常値データの予測結果がより信頼でき、これに対してモデルが複雑になるほどトレーニングデータの予測がより正確になる。BIC判定基準は幅広く使用されている評価基準であり、これは精度と信頼度の両方を積分して与え、次式によって定義される。
BIC= Nlog(SSE/N) + plogN (2)
但し、SSEは予測エラーの二乗和である。式2の右辺の第1因数はモデルの精度を示し、第2因数はモデル複雑度のペナルティを示す。トレーニングサンプル数Nが固定されているとき、モデルが複雑であるほど、大きさpが大きくなり、モデルがトレーニングデータをより正確に予測でき、SSEがより小さくなる。故に、第1因数は小さくし、第2因数は大きくする、又はその逆にする。即ち、一方が増加すると他方が減少することになる。2つの因数の合計が最小になると、モデルは最適となる。BICはモデル複雑度とデータベースサイズとの間に良好なバランスが得ることができ、これがデータまばら及び属性相互作用問題の解決に役立つ。
次に、添付図面を参照してこの発明の実施形態を詳細に説明する。
図1はこの発明の一実施形態に従った時間長予測モデルをトレーニングする方法のフローチャートである。この実施形態の方法によってトレーニングされる時間長予測モデルが時間長予測方法及び他の実施形態と関連して後に説明される音声合成方法及び装置に使用される。
図1に示されるように、最初ステップ10で、初期時間長予測モデルが生成される。特に、初期時間長予測モデルは時間長予測に関連する複数の属性及びこれら属性の組み合わせによって生成される。上述したように、時間長予測に関連する多くの属性があり、それらは言語タイプの属性及び音声タイプの属性に大まかに分けることができる。表1は時間長予測に関連する属性として使用できる幾つかの属性を一例として表にしている。
Figure 0004602307
この実施形態において、GLMモデルはこれらの属性及び属性の組み合わせを表すために使用される。説明を容易にするために、音(phone)及び音色(tone)だけが時間長予測に関連する属性であると仮定する。初期時間長予測モデルの形態は次のようである。即ち、時間長_phone+tone+tone*phoneである。tone*phoneは二次項目である音と音色の組み合わせを意味する。
属性の数が増加するに従って複数の二次項目、三次項目などが属性組み合わせの結果として現れるかもしれないことは言うまでもない。
更に、この実施形態では、初期時間長予測モデルが生成されるとき、属性組み合わせの一部だけが維持でき、例えば二次までの組み合わせだけが維持され、もちろん、三次までの組み合わせを維持すること又は全ての組み合わせを追加することができる。
要するに、初期時間長予測モデルは全ての独立属性(一次項目)及び属性組み合わせの少なくとも一部(二次項目又は多次項目)を含む。故に、初期時間長予測モデルは従来行われるように経験に基づいて手動的に設定する代わりに簡単な規則を用いて自動的に生成できる。
次に、ステップ105で、各項目の重要度がFテストで計算される。周知の標準統計的方法のように、FテストはPROBABILITY AND STATISTICS by Sheng Zhou, Xie Shiqian and Pan Shengyi (2000, Second Edition, Higher Education Press)に詳しく説明されているのでここでは繰り返さない。
Fテストがこの実施形態に使用されているが、Chisqテストのような他の統計的方法も使用できることは留意すべきである。
次に、ステップ110で、Fテストの最も低いスコアを持つ項目が初期時間長予測モデルから削除される。そのとき、ステップ115で、時間長予測モデルが残りの項目を用いて再生成される。
次に、ステップ120で、再生成時間長予測モデルのBIC値が算出され、上述の方法はモデルが最適モデルであるかを決定するために使用される。ステップ120での決定がYesであると、新たに生成される時間長予測モデルが最適モデルとして扱われ、処理はステップ125で終了する。
ステップ120での決定がNoであれば、処理はステップ105に戻り、再生成モデルの各項目の重要度が再計算され、非重要項目が削除され(ステップ110)、最適モデルが得られるまでモデルが再生成される(ステップ115)。
上記説明から、この実施形態は一般線形モデル(GLM)に基づく時間長モデリング方法及びFテスト及びベイズ情報判定基準(BIC)に基づく段階的回帰によって属性を選択する。本実施形態のGLMモデルの構成は柔軟性を持っているので、トレーニングデータベースのサイズに容易に適用する。故に、データまばらの問題が解決される。更に、重要属性相互作用項目が段階的回帰方法によって自動的に選択できる。
更に、この発明の1つの実施形態に従って時間長予測モデルをトレーニングする方法では、話速度が時間長予測に関連する複数の属性の1つとして適用されるので、新たな方法が音声合成のための話速度を調整するために設けられる。音声が音声合成システムによって出力される前に話速度はユーザ又はアプリケーションによって特定でき、データベース内の話速度も固定される。故に、話速度が時間長予測モデルのトレーニング及びテストの両方について知られている。時間長予測モデルの属性収集はそれ自体で話速度を導入できるだけでなく、時間長予測精度を改善するために話速度と相互作用する項目を導入できる。音声合成処理中に、話速度に基づく時間長予測は簡単な線形伸長又は短縮話速度調整方法をも向上する。ある調査は時間長に関する話速度の効果が音韻から音韻まで異なっていることを示し、これが話速度が他の属性と相互作用することを示している。
同じ発明概念で、図2はこの発明の一実施形態に従った時間長予測方法のフローチャートである。次に、この実施形態を図2と関連して説明する。上記実施形態と同じ部分についてはその説明は省略する。
図2に示すように、最初ステップ201で、時間長予測モデルが上記実施形態で説明した時間長予測モデルをトレーニングする方法を用いてトレーニングされる。
次に、ステップ205で、時間長予測に関連する複数の属性の対応する値が取得される。特に、例えば、それらは入力テキストから直接に得ることができ、又は文法的又は統語解析を介して得られる。この実施形態はこれら対応する属性を取得するために既知の又は将来の方法を採用でき、特定の方法に限定されない。取得方法は属性の選択に対応する。
最後に、ステップ210で、時間長はトレーニングされた時間長予測モデル及び上記で得られた属性に基づいて算出される。
上記説明から、この実施形態の時間長予測方法は時間長を予測するため上記実施形態の時間長予測モデルをトレーニングする方法によってトレーニングされたモデルを採用しているので、トレーニングデータベースのサイズに適応し、故にデータまばらの問題は解決され、重要属性相互作用項目は自動的に選択できる。従って、この実施形態の時間長予測方法は時間長をより正確に、自動的に予測できる。
更に、この発明の一実施形態に従った時間長予測方法においては、話速度が時間長予測に関連する複数の属性の1つとして採用される。故に、話速度を時間長予測モデリングに導入することによって、時間長予測モデルの属性収集は話速度自体を導入できるだけでなく話速度と相互作用する項目を導入でき、それによって時間長予測の精度が更に向上される。
同じ発明概念で、図3はこの発明の一実施形態に従った音声合成方法のフローチャートである。次に、この実施形態を図3と関連して説明する。上記実施形態と同じ部分に対して適宜説明は省略する。
図3に示されるように、先ずステップ301で、時間長が上記実施形態で説明された時間長予測方法を用いて予測される。それから、ステップ305で、音声合成が予測された時間長に基づいて行われる。
上記の説明から、この実施形態の音声合成方法は時間長を予測するために上記実施形態の時間長予測方法を採用し、予測結果に基づいて音声合成を行うので、トレーニングデータベースのサイズに容易に適用し、故にデータまばらの問題が解決され、重要属性相互作用項目が自動的に選択できることが理解できる。従って、この実施形態の音声合成方法は音声合成をより正確に、かつ自動的に行うことができ、生成された音声はより適正となり、理解できる。
更に、この発明の一実施形態に従った音声合成方法において、話速度が時間長予測に関連する複数の属性の1つとして採用される。話速度が時間長予測モデリングに導入されるので、新たは提案が音声合成のため話速度を調整するために提供される。音声が音声合成システムによって出力される前に、話速度はユーザ又はアプリケーションによって特定でき、データベースの話速度が固定される。故に、話速度は時間長予測モデルのトレーニング及びテストの両方で知られている。時間長予測モデルの属性収集は話速度自体を導入できるだけではなく時間長予測の精度を改善するために話速度と相互作用する項目を導入できる。音声合成処理中に、話速度に基づく時間長予測が簡単な線形伸長又は短話輪速度調整方法を改良できる。幾つかの調査によって、時間長に関する話速度の効果は音韻から音韻までで異なり、これは話速度が他の属性と相互作用することを示している。
同じ発明概念で、図4はこの発明の一実施形態に従った時間長予測モデルをトレーニングする装置のブロック図である。次に、この実施形態を図4と関連して説明する。上記実施形態と同じ部分については、その説明は適当に省略する。
図4に示されるように、この実施形態の時間長予測モデルをトレーニングする装置400は時間長予測に関連する複数の属性及び複数の属性の可能な属性組み合わせの少なくとも一部を用いて、複数の属性及び属性の組み合わせの各々が項目として導入される初期時間長予測モデルを生成するように構成される初期モデル生成器401と、時間予測モデル内の各項目の重要度を算出するよう構成される重要度計算機402と、算出された最低重要度を持つ項目を削除するように構成される項目削除ユニット403と、項目削除ユニット403の削除後に残りの項目を用いて時間長予測モデルを再生成するように構成されるモデル再生成器404と、モデル再生成器404によって再生成された時間長予測モデルが最適モデルであるかを決定するように構成される最適化決定ユニット405によって構成される。
上記実施形態と同様に、この実施形態の時間長予測に関連する複数の属性は言語タイプの属性及び音声タイプの属性により構成され、例えば、表1から選択される任意の数の属性により構成される。
重要度計算機402はFテストによって各項目の重要度を算出する。最適化決定ユニット405は再生成時間長予測モデルがベイズ情報判定基準に基づく最適モデルであるかを決定する。
更に、この発明の一実施形態によると、属性組み合わせの少なくとも一部は時間長予測に関連する複数の属性の二次属性組み合わせの全てにより構成される。
更に、この発明の他の実施形態によると、時間長予測に関する複数の属性は話速度で成る。
この実施形態における時間長予測モデル及びその各コンポーネントをトレーニングする装置400は特別な回路又はチップによって構成でき、対応するプログラムを実行するコンピュータ(プロセッサ)によって実施できる。また、この実施形態の時間長予測モデルをトレーニングする装置400は上記実施形態の時間長予測モデルをトレーニングする方法を実施できる。
同じ発明概念で、図5はこの発明の一実施形態に従った時間長予測装置のブロック図である。次に、この実施形態を図5と関連して説明する。上記実施形態と同じ部分についてはその説明は適当に省略する。
図5に示されるように、この実施形態の時間長予測装置500は、上記実施形態において説明した時間長予測モデルをトレーニングする方法を用いてトレーニングされた時間長予測モデルである時間長予測モデル501と、時間長予測に関する複数の属性の対応する値を取得するように構成される属性取得ユニット502と、時間長予測モデルと属性取得ユニット502によって取得される時間長予測に関する複数の属性の対応する値に基づいて時間長を算出するように構成される時間長計算機503により構成される。
属性を取得する方法に関して、上記実施形態で説明されているように、既知又は将来の方法が対応する属性を取得するために使用でき、特定の方法に限定されない。また、取得方法は属性の選択に関連する。例えば、音及び音色の属性の取得はテキスト解析(ワード細分化)後のスペルに基づいて行われ、文法タイプの属性の取得は文法解析器又は構文解析器によって行うことができる。
同じ発明概念で、図6はこの発明の一実施形態に従った音声合成装置のブロック図である。次に、この実施形態が図6と関連して説明する。上記実施形態と同じ部分については、その説明は適当に省略する。
図6に示すように、この実施形態の音声合成装置600は上記実施形態で説明した時間長予測装置である時間長予測装置500と、従来の音声合成器で構成されてもよく、上記時間長予測装置によって予測によって予測される時間長に基づいて音声合成を行うよう構成される音声合成器601とによって構成される。
この実施形態の音声合成装置600及びその各構成要素は専用回路又はチップによって構成でき、又は対応するプログラムを実行するコンピュータ(プロセッサ)によって実施できることを留意する。また、この実施形態の音声合成装置600は上記実施形態の音声合成方法を実施できる。
時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置、並びに音声合成方法及び装置は幾つかの実施形態で詳細に説明したけれども、これら実施形態は全てではない。当業者はこの発明の精神及び範囲以内で種々変更及び変形できる。故に、この発明はこれらの実施形態に限定されなく、むしろ、この発明の範囲は請求項によって規定されるだけである。
本発明の一実施形態に従った時間長予測モデルをトレーニングする方法のフローチャートである。 この発明の一実施形態に従った時間長予測方法のフローチャートである。 この発明の一実施形態に従った音声合成方法のフローチャートである。 この発明の一実施形態に従った時間予測モデルをトレーニングする装置のブロック図である。 この発明の一実施形態に従った時間長予測装置のブロック図である。 この発明の一実施形態に従った音声合成装置のブロック図である。
符号の説明
400…時間長予測モデルトレーニング装置、401…初期モデル生成器、402…重要度計算機、403…項目削除ユニット、404…モデル再生成器、405…最適化決定ユニット、500…時間長予測装置、501…時間長予測モデル、502…属性取得ユニット、503…時間長計算機、600…音声合成装置、601…音声合成器

Claims (22)

  1. 時間長予測に関する複数の属性及び前記複数の属性の可能な属性組み合わせの一部を用いて前記複数の属性及び前記属性組み合わせの各々が項目として含まれている初期時間長予測モデルを生成するステップと、
    前記時間長予測モデルの各項目の重要度を計算するステップと、
    計算された最低重要度を有する項目を削除するステップと、
    残りの項目で時間長予測モデルを再生成するステップと、
    前記再生成時間長予測モデルが最適予測モデルであるかを決定するステップと、
    重要度を計算するステップ及び前記時間長予測モデルが最適モデルでないと決定されれば、前記重要度計算ステップ及びこの重要度計算ステップに続くステップを新たな再生成時間長予測モデルで繰り返すステップと、
    を含む時間長予測モデルトレーニング方法。
  2. 時間長予測に関する前記複数の属性が言語タイプ及び音声タイプの属性を含む、請求項1に記載の時間長予測モデルトレーニング方法。
  3. 時間長予測に関する前記複数の属性は、現音韻から選択された音韻、同じ音節内の他の音韻、前の音節内の隣接音韻、次の音節内の隣接音韻、前記現音節の音色、前記前の音節の音色、前記次の音節の音色、音声の一部、次の休止までの距離、前の休止までの距離、語彙単語内の音韻の位置、現、前及び次の語彙単語の長さ、語彙単語の音節の数、文内の音節の位置及び文内の語彙単語の数を含む、請求項1に記載の時間長予測モデルトレーニング方法。
  4. 前記時間長予測モデルが一般線形モデル(GLM)である、請求項1に記載の時間長予測モデルトレーニング方法。
  5. 前記複数の属性モデルの可能な属性組み合わせの前記少なくとも一部は時間長予測に関する前記複数の属性の二次属性組み合わせの全てを含む、請求項1に記載の時間長予測モデルトレーニング方法。
  6. 前記重要度計算ステップはFテストで各項目の重要度を計算することを含む、請求項1に記載の時間長予測モデルトレーニング方法。
  7. 前記再生成時間長予測モデルが最適モデルであるかを決定するステップは前記再生成時間長予測モデルが(BIC)に基づく最適モデルであるかを決定することを含む、請求項1に記載の時間長予測モデルトレーニング方法。
  8. 前記再生成時間長予測モデルが最適モデルであるかを決定するステップは式BIC= Nlog(SSE/N)+plogN(SSEは予測エラーの二乗和を表し、Nはトレーニングサンプルの数を表す)に基づいて計算するステップと、BICが最小のとき前記再生成時間長予測モデルを最適モデルとして決定するステップを含む、請求項7に記載の時間長予測モデルトレーニング方法。
  9. 時間長予測に関する前記複数の属性は話す速度を更に含む、請求項1乃至8のいずれか一に記載の時間長予測モデルトレーニング方法。
  10. 前記請求項1乃至9のいずれか1に記載の時間長予測モデルトレーニング方法を用いて時間長予測モデルをトレーニングするステップと、
    時間長予測に関する前記複数の属性の対応する値を求めるステップと、
    前記時間長予測モデル及び時間長予測モデルに関する前記複数の属性の前記対応する値に基づいて時間長を計算するステップと、で成る時間長予測方法。
  11. 前記時間長予測に関する前記複数の属性は話す速度を含む、請求項10に記載の時間長予測方法。
  12. 請求項10又は11に記載の時間長予測方法を用いて時間長を予測するステップと、予測時間長に基づいて音声合成を行うステップとを含む、音声合成方法。
  13. 時間長予測に関する複数の属性及び前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて前記複数の属性及び前記属性の組み合わせの各々が項目として含む初期時間長予測モデルを生成するように構成される初期モデル生成器と、
    前記時間長予測モデル内の各項目の重要度を計算するように構成される重要度計算機と、
    計算された最低重要度の項目を削除するよう構成される項目削除ユニットと、
    前記項目削除ユニットの削除後に残りの項目を用いて時間長予測モデルを再生成するように構成されるモデル再生成器と、
    前記モデル再生成器によって再生成された時間長予測モデルが最適モデルであるかを決定するように構成される最適決定ユニットと、を具備する時間長予測モデルトレーニング装置。
  14. 時間長予測に関する前記複数の属性は言語タイプ及び音声タイプの属性を含む、請求項13に記載の時間長予測モデルトレーニング装置。
  15. 時間長予測に関する前記複数の属性は現音韻から選択された音韻、同じ音節内の他の音韻、前の音節内の隣接音韻、次の音節内の隣接音韻、前記源音節の音色、前記前の音節の音色、前記次の音節の音色、音声の一部、次の休止までの距離、前の休止までの距離、語彙単語内の音韻の位置、現、前及び次の語彙単語の長さ、語彙単語の音節の数、文内の音節の位置及び文内の語彙単語の数を含む、請求項13に記載の時間長予測モデルトレーニング装置。
  16. 前記複数の属性モデルの可能な属性組み合わせの前記少なくとも一部は時間長予測に関する前記複数の属性の二次属性組み合わせの全てを含む、請求項13に記載の時間長予測モデルトレーニング装置。
  17. 前記重要度計算機はFテストで各項目の重要度を計算するよう構成される、請求項13に記載の時間長予測モデルトレーニング装置。
  18. 前記最適化決定ユニットは前記再生成時間予測モデルがベイズ情報基準(BIC)に基づく最適モデルであるかを決定するように構成される、請求項13に記載の時間長予測モデルトレーニング装置。
  19. 時間長予測に関する前記複数の属性は話す速度を更に含む、請求項13乃至18のいずれか1に記載の時間長予測モデルトレーニング装置。
  20. 前記請求項1乃至9のいずれか1に記載の時間長予測モデルトレーニング方法を用いてトレーニングされる時間長予測モデルと、
    時間長予測に関する前記複数の属性の対応する値を求めるよう構成される属性取得ユニットと、
    前記時間長予測モデル及び時間長予測モデルに関する前記複数の属性の前記対応する値に基づいて時間長を計算する時間長計算機と、を具備する時間長予測装置。
  21. 前記時間長予測に関する前記複数の属性は話す速度を含む、請求項20に記載の時間長予測装置。
  22. 請求項20又は21に記載の前記時間長予測装置を具備し、予測時間長に基づいて音声合成を行う、音声合成装置。
JP2006286910A 2005-10-20 2006-10-20 時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置 Expired - Fee Related JP4602307B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2005101143200A CN1953052B (zh) 2005-10-20 2005-10-20 训练时长预测模型、时长预测和语音合成的方法及装置

Publications (2)

Publication Number Publication Date
JP2007114794A JP2007114794A (ja) 2007-05-10
JP4602307B2 true JP4602307B2 (ja) 2010-12-22

Family

ID=38059351

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006286910A Expired - Fee Related JP4602307B2 (ja) 2005-10-20 2006-10-20 時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置

Country Status (3)

Country Link
US (1) US7840408B2 (ja)
JP (1) JP4602307B2 (ja)
CN (1) CN1953052B (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051459A (zh) * 2006-04-06 2007-10-10 株式会社东芝 基频和停顿预测及语音合成的方法和装置
US8145490B2 (en) * 2007-10-24 2012-03-27 Nuance Communications, Inc. Predicting a resultant attribute of a text file before it has been converted into an audio file
CN101452699A (zh) * 2007-12-04 2009-06-10 株式会社东芝 韵律自适应及语音合成的方法和装置
CN101465123B (zh) * 2007-12-20 2011-07-06 株式会社东芝 说话人认证的验证方法和装置以及说话人认证系统
US8156119B2 (en) * 2009-01-19 2012-04-10 Microsoft Corporation Smart attribute classification (SAC) for online reviews
CN102549653B (zh) * 2009-10-02 2014-04-30 独立行政法人情报通信研究机构 语音翻译系统、第一终端装置、语音识别服务器装置、翻译服务器装置以及语音合成服务器装置
WO2011080597A1 (en) * 2010-01-04 2011-07-07 Kabushiki Kaisha Toshiba Method and apparatus for synthesizing a speech with information
CN102231276B (zh) * 2011-06-21 2013-03-20 北京捷通华声语音技术有限公司 一种语音合成单元时长的预测方法及装置
CN103400580A (zh) * 2013-07-23 2013-11-20 华南理工大学 一种多人会话语音中的说话人重要程度估计方法
CN106601226B (zh) * 2016-11-18 2020-02-28 中国科学院自动化研究所 音素时长预测建模方法及音素时长预测方法
EP3935581A4 (en) 2019-03-04 2022-11-30 Iocurrents, Inc. DATA COMPRESSION AND COMMUNICATION USING MACHINE LEARNING
CN110264993B (zh) * 2019-06-27 2020-10-09 百度在线网络技术(北京)有限公司 语音合成方法、装置、设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6346498A (ja) * 1986-04-18 1988-02-27 株式会社リコー 韻律生成方式及びタイミング点パターン生成方式
JPH04149500A (ja) * 1990-10-11 1992-05-22 Sharp Corp テキスト音声合成装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
US5561421A (en) * 1994-07-28 1996-10-01 International Business Machines Corporation Access method data compression with system-built generic dictionaries
US6038533A (en) * 1995-07-07 2000-03-14 Lucent Technologies Inc. System and method for selecting training text
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6813604B1 (en) * 1999-11-18 2004-11-02 Lucent Technologies Inc. Methods and apparatus for speaker specific durational adaptation
JP2001282279A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法及び装置及び記憶媒体
JP3670217B2 (ja) * 2000-09-06 2005-07-13 国立大学法人名古屋大学 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
FR2846458B1 (fr) * 2002-10-25 2005-02-25 France Telecom Procede de traitement automatique d'un signal de parole.
US20040088723A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a video summary
US7643990B1 (en) * 2003-10-23 2010-01-05 Apple Inc. Global boundary-centric feature extraction and associated discontinuity metrics
US7412377B2 (en) * 2003-12-19 2008-08-12 International Business Machines Corporation Voice model for speech processing based on ordered average ranks of spectral features
US7596499B2 (en) * 2004-02-02 2009-09-29 Panasonic Corporation Multilingual text-to-speech system with limited resources
ATE456125T1 (de) * 2004-09-16 2010-02-15 France Telecom Verfahren und vorrichtung für die auswahl akustischer einheiten und sprachsynthesevorrichtung
US20060229877A1 (en) * 2005-04-06 2006-10-12 Jilei Tian Memory usage in a text-to-speech system
CN101051464A (zh) * 2006-04-06 2007-10-10 株式会社东芝 说话人认证的注册和验证方法及装置
CN101051459A (zh) * 2006-04-06 2007-10-10 株式会社东芝 基频和停顿预测及语音合成的方法和装置
CN101089952B (zh) * 2006-06-15 2010-10-06 株式会社东芝 噪声抑制、提取特征、训练模型及语音识别的方法和装置
CN101154380B (zh) * 2006-09-29 2011-01-26 株式会社东芝 说话人认证的注册及验证的方法和装置
CN101465123B (zh) * 2007-12-20 2011-07-06 株式会社东芝 说话人认证的验证方法和装置以及说话人认证系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6346498A (ja) * 1986-04-18 1988-02-27 株式会社リコー 韻律生成方式及びタイミング点パターン生成方式
JPH04149500A (ja) * 1990-10-11 1992-05-22 Sharp Corp テキスト音声合成装置

Also Published As

Publication number Publication date
JP2007114794A (ja) 2007-05-10
CN1953052B (zh) 2010-09-08
US7840408B2 (en) 2010-11-23
CN1953052A (zh) 2007-04-25
US20070129948A1 (en) 2007-06-07

Similar Documents

Publication Publication Date Title
JP4602307B2 (ja) 時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置
US11205444B2 (en) Utilizing bi-directional recurrent encoders with multi-hop attention for speech emotion recognition
US8977551B2 (en) Parametric speech synthesis method and system
JP2007279744A (ja) F0および休止予測モデルを訓練する方法および装置、f0および休止予測方法および装置、音声合成方法および装置
CN104538024A (zh) 语音合成方法、装置及设备
US20140350934A1 (en) Systems and Methods for Voice Identification
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
CN101452699A (zh) 韵律自适应及语音合成的方法和装置
JP2015094848A (ja) 情報処理装置、情報処理方法、およびプログラム
US20230036020A1 (en) Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
CN108597538B (zh) 语音合成系统的评测方法和系统
Buß et al. Evaluation and optimisation of incremental processors
Narendra et al. Optimal weight tuning method for unit selection cost functions in syllable based text-to-speech synthesis
US20110161084A1 (en) Apparatus, method and system for generating threshold for utterance verification
Lu et al. A compact framework for voice conversion using wavenet conditioned on phonetic posteriorgrams
Rehman et al. Speech emotion recognition based on syllable-level feature extraction
US20230069908A1 (en) Recognition apparatus, learning apparatus, methods and programs for the same
US20230252971A1 (en) System and method for speech processing
KR102626618B1 (ko) 감정 추정 기반의 감정 음성 합성 방법 및 시스템
Bous et al. Analysing deep learning-spectral envelope prediction methods for singing synthesis
JP6674876B2 (ja) 補正装置、補正方法及び補正プログラム
JP5294700B2 (ja) 音声認識及び合成システム、プログラム及び方法
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
Liou et al. Estimation of hidden speaking rate
JP5860439B2 (ja) 言語モデル作成装置とその方法、そのプログラムと記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100907

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100929

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees