JP2007279744A - F0および休止予測モデルを訓練する方法および装置、f0および休止予測方法および装置、音声合成方法および装置 - Google Patents
F0および休止予測モデルを訓練する方法および装置、f0および休止予測方法および装置、音声合成方法および装置 Download PDFInfo
- Publication number
- JP2007279744A JP2007279744A JP2007099948A JP2007099948A JP2007279744A JP 2007279744 A JP2007279744 A JP 2007279744A JP 2007099948 A JP2007099948 A JP 2007099948A JP 2007099948 A JP2007099948 A JP 2007099948A JP 2007279744 A JP2007279744 A JP 2007279744A
- Authority
- JP
- Japan
- Prior art keywords
- pause
- prediction
- prediction model
- model
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims abstract description 148
- 238000012549 training Methods 0.000 title claims abstract description 116
- 230000015572 biosynthetic process Effects 0.000 title claims description 41
- 238000003786 synthesis reaction Methods 0.000 title claims description 41
- 230000001172 regenerating effect Effects 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims description 20
- 238000012217 deletion Methods 0.000 claims description 18
- 230000037430 deletion Effects 0.000 claims description 18
- 230000008929 regeneration Effects 0.000 claims description 12
- 238000011069 regeneration method Methods 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 11
- 238000001134 F-test Methods 0.000 claims description 2
- 238000001308 synthesis method Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004836 empirical method Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 2
- 241000665848 Isca Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】F0予測モデル訓練方法は、直交多項式を用いてF0を表し、直交多項式のパラメータ毎にF0予測に関連する属性と、属性の可能な属性組合せの少なくとも一部を用いて、属性と属性組合せの各々が項目として含まれる初期パラメータ予測モデルを生成し、パラメータ予測モデル中の各項目の重要度を計算し、最低算出重要度を有する項目を削除し、残りの項目を用いてパラメータ予測モデルを再生成し、再生成パラメータ予測モデルが最適モデルか否かを判定し、パラメータ予測モデルが最適モデルではないと判定された場合、新規再生成パラメータ予測モデルを用いて重要度を計算し、重要度を計算するステップに続く各ステップを繰り返すことを含み、直交多項式及び直交多項式の全てのパラメータ予測モデルがF0予測モデルを形成する。
【選択図】図1
Description
BIC= Nlog(SSE/N) + plogN (2)
によって定義される。
p1(t) = t (6)
P2(t) =1/2 (3t2 - 1) (7)
次に、定義するあらゆる音節について、以下のように定義する。
F(t) = a0p0(t) + a1p1(t) + a2p2(t) (9)
但し、T(t)は基礎をなすF0目標を表し、F(t)は表面F0曲線を表す。係数a0、a1およびa2はルジャンドル係数であり、a0およびa1は、基礎をなすF0目標の切片および傾きを表し、a2は、2次近似部分の係数である。
言語型の属性と音声型の属性とを有し、例えば、
上記表1から選択される任意の数の属性を含む。
Claims (56)
- F0予測モデルを訓練する方法であって、
直交多項式を用いてF0を表すことと、
前記直交多項式の各パラメータごとに、F0予測に関連する複数の属性と、前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、前記複数の属性と前記属性組み合わせの各々が項目として含まれる初期パラメータ予測モデルを生成することと、
前記パラメータ予測モデル中の前記各項目の重要度を計算することと、
最低算出重要度を有する前記項目を削除することと、
残りの前記項目を用いてパラメータ予測モデルを再生成することと、
前記再生成パラメータ予測モデルが最適モデルであるか否かを判定することと、
前記パラメータ予測モデルが最適モデルではないと判定された場合、前記新規再生成パラメータ予測モデルを用いて、重要度を計算する前記ステップおよび重要度を計算する前記ステップに続く前記各ステップを繰り返すことと
を含み、
前記直交多項式および前記直交多項式の全てのパラメータ予測モデルがF0予測モデルを形成する、F0予測モデル訓練方法。 - F0予測に関連する前記複数の属性は、言語型と音声型の属性を含む、請求項1に記載のF0予測モデル訓練方法。
- F0予測に関連する前記複数の属性は、現在の音素、同じ音節中の別の音素、前の音節中の隣接する音素、次の音節中の隣接する音素、現在の音節の音調、前の音節の音調、次の音節の音調、音声の部分、次の休止までの距離、前の休止までの距離、内容語中の音素位置、現在、前および次の内容語の長さ、内容語中の音節の数、文章中の音節位置、および文章中の内容語の数の中から選択されるいずれかを含む、請求項1に記載のF0予測モデル訓練方法。
- 前記パラメータ予測モデルは一般化線形モデル(GLM)である、請求項1乃至3のいずれか1項に記載のF0予測モデル訓練方法。
- 前記複数の属性の可能な属性組み合わせの前記少なくとも一部は、F0予測に関連する前記複数の属性のすべての2次属性組み合わせを含む、請求項1に記載のF0予測モデル訓練方法。
- 前記パラメータ予測モデル中の前記各項目の重要度を計算する前記ステップは、F検定を用いて前記各項目の前記重要度を計算することを含む、請求項1乃至5のいずれか1項に記載のF0予測モデル訓練方法。
- 前記再生成されたパラメータ予測モデルが最適モデルであるか否かを判定する前記ステップは、ベイズ情報量基準(BIC)に基づいて前記再生成されたパラメータ予測モデルが最適モデルであるか否かを判定することを含む、請求項1乃至6のいずれか1項に記載のF0予測モデル訓練方法。
- 前記再生成されたパラメータ予測モデルが最適モデルであるか否かを判定する前記ステップは、
SSEが予測誤りの二乗和を表し、Nが訓練サンプルの数を表す、式、
BIC=Nlog(SSE/N)+plogN
に基づいて計算を行うことと、
前記BICが最小であるときに、前記再生成パラメータ予測モデルを最適モデルと判定することと、
を含む、請求項7に記載のF0予測モデル訓練方法。 - 前記直交多項式は、2次または高次ルジャンドル直交多項式である、請求項1乃至8のいずれか1項に記載のF0予測モデル訓練方法。
- 前記ルジャンドル直交多項式は、式、
F(t)=a0p0(t)+a1p1(t)+a2p2(t)
によって定義され、式中、F(t)はF0曲線を表し、係数a0、a1およびa2は前記パラメータを表し、tは[−1,1]に属する、請求項9に記載のF0予測モデル訓練方法。 - F0予測に関連する前記複数の属性は、発話速度をさらに含む、請求項1乃至10のいずれか1項に記載のF0予測モデル訓練方法。
- F0予測方法であって、
請求項1乃至11のいずれか1項に記載のF0予測モデル訓練方法を使ってF0予測モデルを訓練することと、
F0予測に関連する前記複数の属性の対応する値を取得することと、
前記F0予測モデルと、F0予測に関連する前記複数の属性の前記対応する値に基づいてF0を計算することと
を含むF0予測方法。 - F0予測に関連する前記複数の属性は発話速度を含む、請求項12に記載のF0予測方法。
- 請求項12または13に記載のF0予測方法を使ってF0を予測することと、
前記予測されたF0に基づいて音声合成を行うことと
を含む音声合成方法。 - F0予測モデルを訓練する装置であって、
直交多項式を用いてF0を表し、前記直交多項式の各パラメータごとに、F0予測に関連する複数の属性と、前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、前記複数の属性と前記属性組み合わせの各々が項目として含まれる初期パラメータ予測モデルを生成するように構成された初期モデル生成器と、
前記パラメータ予測モデル中の前記各項目の重要度を計算するように構成された重要度計算器と、
最低算出重要度を有する前記項目を削除するように構成された項目削除ユニットと、
前記項目削除ユニットの削除後に、残りの前記項目を用いてパラメータ予測モデルを再生成するように構成されたモデル再生成器と、
前記モデル再生成器によって再生成された前記パラメータ予測モデルが最適モデルであるか否かを判定するように構成された最適化判定ユニットと、
を備え、
前記直交多項式および前記直交多項式のすべてのパラメータ予測モデルがF0予測モデルを構成する、F0予測モデル訓練装置。 - F0予測に関連する前記複数の属性は、言語型と音声型の属性を含む、請求項15に記載のF0予測モデル訓練装置。
- F0予測に関連する前記複数の属性は、現在の音素、同じ音節中の別の音素、前の音節中の隣接する音素、次の音節中の隣接する音素、現在の音節の音調、前の音節の音調、次の音節の音調、音声の部分、次の休止までの距離、前の休止までの距離、内容語中の音素位置、現在、前および次の内容語の長さ、内容語中の音節の数、文章中の音節位置、および文章中の内容語の数の中から選択されるいずれかを含む、請求項15に記載のF0予測モデル訓練装置。
- 前記パラメータ予測モデルは、一般化線形モデル(GLM)である、請求項15乃至17のいずれか1項に記載のF0予測モデル訓練装置。
- 前記複数の属性の可能な属性組み合わせの前記少なくとも一部は、F0予測に関連する前記複数の属性の2次属性組み合わせ全てを含む、請求項15に記載のF0予測モデル訓練装置。
- 前記重要度計算器は、F検定を用いて前記各項目の前記重要度を計算するように構成されている、請求項15乃至19のいずれか1項に記載のF0予測モデル訓練装置。
- 前記最適化判定ユニットは、ベイズ情報量基準(BIC)に基づいて前記再生成パラメータ予測モデルが最適モデルであるか否かを判定するように構成されている、請求項15乃至20のいずれか1項に記載のF0予測モデル訓練装置。
- 前記直交多項式は、2次または高次ルジャンドル直交多項式である、請求項15乃至21のいずれか1項に記載のF0予測モデル訓練装置。
- 前記ルジャンドル直交多項式は、式、
F(t)=a0p0(t)+a1p1(t)+a2p2(t)
によって定義され、式中、F(t)はF0曲線を表し、係数a0、a1およびa2は前記パラメータを表し、tは[−1,1]に属する、請求項22に記載のF0予測モデル訓練装置。 - F0予測に関連する前記複数の属性は発話速度をさらに含む、請求項15乃至23のいずれか1項に記載のF0予測モデル訓練装置。
- F0予測装置であって、
請求項1乃至11のいずれか1項に記載のF0予測モデル訓練方法を使って訓練されるF0予測モデルと、
F0予測に関連する前記複数の属性の対応する値を取得するように構成された属性取得ユニットと、
前記F0予測モデルと、F0予測に関連する前記複数の属性の前記対応する値に基づいてF0を計算するように構成されたF0計算器と、
を備えるF0予測装置。 - F0予測に関連する前記複数の属性は発話速度を含む、請求項25に記載のF0予測装置。
- 音声合成装置であって、
請求項25または26に記載のF0予測の装置を備え、前記F0予測の装置によって予測されるF0に基づく音声合成装置。 - 休止確率予測モデルを訓練する方法であって、
休止予測に関連する複数の属性と、前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、前記複数の属性と前記属性組み合わせの各々が項目として含まれる初期休止確率予測モデルを生成することと、
前記休止確率予測モデル中の前記各項目の重要度を計算することと、
最低算出重要度を有する前記項目を削除することと、
残りの前記項目を用いて休止確率予測モデルを再生成することと、
前記再生成休止確率予測モデルが最適モデルであるか否かを判定することと、
前記休止確率予測モデルが最適モデルではないと判定された場合、前記新規再生成休止確率予測モデルを用いて、重要度を計算する前記ステップと重要度を計算する前記ステップに続く各ステップを繰り返すことと
を含む、休止確率予測モデル訓練方法。 - 休止予測に関連する前記複数の属性は、言語型と音声型の属性を含む、請求項28に記載の休止確率予測モデル訓練方法。
- 休止予測に関連する前記複数の属性は、現在の音素、同じ音節中の別の音素、前の音節中の隣接する音素、次の音節中の隣接する音素、現在の音節の音調、前の音節の音調、次の音節の音調、音声の部分、次の休止までの距離、前の休止までの距離、内容語中の音素位置、現在、前および次の内容語の長さ、内容語中の音節の数、文章中の音節位置、および文章中の内容語の数の中から選択されるいずれかを含む、請求項28に記載の休止確率予測モデル訓練方法。
- 前記休止確率予測モデルは一般化線形モデル(GLM)である、請求項28乃至30のいずれか1項に記載の休止確率予測モデル訓練方法。
- 前記複数の属性の可能な属性組み合わせの前記少なくとも一部は、休止予測に関連する前記複数の属性の2次属性組み合わせ全てを含む、請求項28に記載の休止確率予測モデル訓練方法。
- 前記休止確率予測モデル中の前記各項目の重要度を計算する前記ステップは、F検定を用いて前記各項目の前記重要度を計算することを含む、請求項28乃至32のいずれか1項に記載の休止確率予測モデル訓練方法。
- 前記再生成休止確率予測モデルが最適モデルであるか否かを判定する前記ステップは、
ベイズ情報量基準(BIC)に基づいて前記再生成休止確率予測モデルが最適モデルであるか否かを判定すること
を含む、請求項28乃至33のいずれか1項に記載の休止確率予測モデル訓練方法。 - 前記再生成休止確率予測モデルが最適モデルであるか否かを判定する前記ステップは、
SSEが予測誤りの二乗和を表し、Nが訓練サンプルの数を表す、式、
BIC=Nlog(SSE/N)+plogN
に基づいて計算を行うことと、
前記BICが最小であるときに、前記再生成されたパラメータ予測モデルを最適モデルと判定することと
を含む、請求項34に記載の休止確率予測モデル訓練方法。 - 前記休止確率はベルヌーイ分布に従う、請求項28乃至35のいずれか1項に記載の休止確率予測モデル訓練方法。
- 休止予測に関連する前記複数の属性は発話速度をさらに含む、請求項1乃至36のいずれか1項に記載の休止確率予測モデル訓練方法。
- 休止予測方法であって、
請求項28乃至37のいずれか1項に記載の休止確率予測モデル訓練方法を使って休止確率予測モデルを訓練することと、
休止予測に関連する前記複数の属性の対応する値を取得することと、
前記休止確率予測モデルと、休止予測に関連する前記複数の属性の前記対応する値に基づいて休止確率を計算することと、
前記算出休止確率を閾値と比較して、休止を取得することと
を含む、休止予測方法。 - 前記閾値は0から1までの間の数である、請求項38に記載の休止予測方法。
- 前記算出休止確率が前記閾値より大きい場合、前記休止は1であり、そうでない場合、前記休止は0である、請求項39に記載の休止予測方法。
- 休止予測に関連する前記複数の属性は発話速度を含む、請求項38乃至40のいずれか1項に記載の休止予測方法。
- 請求項38乃至41のいずれか1項に記載の休止予測の方法を使って休止を予測することと、
予測された前記休止に基づいて音声合成を行うことと
を含む音声合成方法。 - 休止確率予測モデル訓練装置であって、
休止予測に関連する複数の属性と、前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて、前記複数の属性と前記属性組み合わせの各々が項目として含まれる初期休止確率予測モデルを生成するように構成された初期モデル生成器と、
前記休止確率予測モデル中の前記各項目の重要度を計算するように構成された重要度計算器と、
最低算出重要度を有する前記項目を削除するように構成された項目削除ユニットと、
前記項目削除ユニットの削除後に、残りの前記項目を用いて休止確率予測モデルを再生成するように構成されたモデル再生成器と、
前記モデル再生成器によって再生成された前記休止確率予測モデルが最適モデルであるか否かを判定するように構成された最適化判定ユニットと、
を備える、休止確率予測モデル訓練装置。 - 休止予測に関連する前記複数の属性は、言語型と音声型の属性を含む、請求項43に記載の休止確率予測モデル訓練装置。
- 休止予測に関連する前記複数の属性は、現在の音素、同じ音節中の別の音素、前の音節中の隣接する音素、次の音節中の隣接する音素、現在の音節の音調、前の音節の音調、次の音節の音調、音声の部分、次の休止までの距離、前の休止までの距離、内容語中の音素位置、現在、前および次の内容語の長さ、内容語中の音節の数、文章中の音節位置、および文章中の内容語の数の中から選択されるいずれかを含む、請求項43に記載の休止確率予測モデル訓練装置。
- 前記休止確率予測モデルは、一般化線形モデル(GLM)である、請求項43乃至45のいずれか1項に記載の休止確率予測モデル訓練装置。
- 前記複数の属性の可能な属性組み合わせの前記少なくとも一部は、休止予測に関連する前記複数の属性のすべての2次属性組み合わせを含む、請求項43に記載の休止確率予測モデル訓練装置。
- 前記重要度計算器は、F検定を用いて前記各項目の前記重要度を計算するように構成されている、請求項43乃至47のいずれか1項に記載の休止確率予測モデル訓練装置。
- 前記最適化判定ユニットは、ベイズ情報量基準(BIC)に基づいて前記再生成休止確率予測モデルが最適モデルであるか否かを判定するように構成されている、請求項43乃至48のいずれか1項に記載の休止確率予測モデル訓練装置。
- 前記休止確率はベルヌーイ分布に従う、請求項43乃至49のいずれか1項に記載の休止確率予測モデル訓練装置。
- 休止予測に関連する前記複数の属性は発話速度をさらに含む、請求項43乃至50のいずれか1項に記載の休止確率予測モデル訓練装置。
- 休止予測装置であって、
請求項28乃至37のいずれか1項に記載の休止確率予測モデル訓練方法を使って訓練される休止確率予測モデルと、
休止予測に関連する前記複数の属性の対応する値を取得するように構成された属性取得ユニットと、
前記休止確率予測モデルと、休止予測に関連する前記複数の属性の前記対応する値に基づいて休止確率を計算するように構成された休止確率計算器と、
前記算出休止確率を閾値と比較して休止を取得するように構成された比較器と
を備える休止予測装置。 - 前記閾値は0から1までの間の数である、請求項52に記載の休止予測装置。
- 前記算出休止確率が前記閾値より大きい場合、前記休止は1であり、そうでない場合、前記休止は0である、請求項53に記載の休止予測装置。
- 休止予測に関連する前記複数の属性は発話速度を含む、請求項52乃至54のいずれか1項に記載の休止予測装置。
- 請求項52乃至55のいずれか1項に記載の休止予測装置を備える音声合成装置であって、予測される休止に基づいて音声合成を行うように構成されている音声合成装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA200610073145XA CN101051459A (zh) | 2006-04-06 | 2006-04-06 | 基频和停顿预测及语音合成的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007279744A true JP2007279744A (ja) | 2007-10-25 |
JP2007279744A5 JP2007279744A5 (ja) | 2009-07-02 |
Family
ID=38576533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007099948A Ceased JP2007279744A (ja) | 2006-04-06 | 2007-04-06 | F0および休止予測モデルを訓練する方法および装置、f0および休止予測方法および装置、音声合成方法および装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20070239439A1 (ja) |
JP (1) | JP2007279744A (ja) |
CN (1) | CN101051459A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009139949A (ja) * | 2007-12-04 | 2009-06-25 | Toshiba Corp | 差分韻律適応モデルのトレーニング方法及び装置、差分韻律適応モデルの生成方法及び装置、韻律推定方法及び装置、音声合成方法及び装置 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1953052B (zh) * | 2005-10-20 | 2010-09-08 | 株式会社东芝 | 训练时长预测模型、时长预测和语音合成的方法及装置 |
CN102231276B (zh) * | 2011-06-21 | 2013-03-20 | 北京捷通华声语音技术有限公司 | 一种语音合成单元时长的预测方法及装置 |
TWI503813B (zh) * | 2012-09-10 | 2015-10-11 | Univ Nat Chiao Tung | 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組 |
CN104021784B (zh) | 2014-06-19 | 2017-06-06 | 百度在线网络技术(北京)有限公司 | 基于大语料库的语音合成方法和装置 |
CN104538026B (zh) * | 2015-01-12 | 2018-10-23 | 北京理工大学 | 一种用于参数化语音合成的基频建模方法 |
CN107039034B (zh) * | 2016-02-04 | 2020-05-01 | 科大讯飞股份有限公司 | 一种韵律预测方法及系统 |
CN105679306B (zh) * | 2016-02-19 | 2019-07-09 | 云知声(上海)智能科技有限公司 | 语音合成中预测基频帧的方法及系统 |
TWI595478B (zh) * | 2016-04-21 | 2017-08-11 | 國立臺北大學 | 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法 |
CN109036376A (zh) * | 2018-10-17 | 2018-12-18 | 南京理工大学 | 一种闽南语语音合成方法 |
WO2020180424A1 (en) | 2019-03-04 | 2020-09-10 | Iocurrents, Inc. | Data compression and communication using machine learning |
CN111667816B (zh) | 2020-06-15 | 2024-01-23 | 北京百度网讯科技有限公司 | 模型训练方法、语音合成方法、装置、设备和存储介质 |
CN113453072A (zh) * | 2021-06-29 | 2021-09-28 | 王瑶 | 按级别拼合和播放多语言影音文件的方法、系统和介质 |
CN117454186B (zh) * | 2023-12-22 | 2024-05-14 | 宁德时代新能源科技股份有限公司 | 模型训练、电池性能预测方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0237402A (ja) * | 1988-07-27 | 1990-02-07 | Yamatake Honeywell Co Ltd | パラメータ推定方式 |
JP2007114794A (ja) * | 2005-10-20 | 2007-05-10 | Toshiba Corp | 時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6064960A (en) * | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
US6810378B2 (en) * | 2001-08-22 | 2004-10-26 | Lucent Technologies Inc. | Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech |
US7412377B2 (en) * | 2003-12-19 | 2008-08-12 | International Business Machines Corporation | Voice model for speech processing based on ordered average ranks of spectral features |
CN101051464A (zh) * | 2006-04-06 | 2007-10-10 | 株式会社东芝 | 说话人认证的注册和验证方法及装置 |
CN101154380B (zh) * | 2006-09-29 | 2011-01-26 | 株式会社东芝 | 说话人认证的注册及验证的方法和装置 |
CN101465123B (zh) * | 2007-12-20 | 2011-07-06 | 株式会社东芝 | 说话人认证的验证方法和装置以及说话人认证系统 |
-
2006
- 2006-04-06 CN CNA200610073145XA patent/CN101051459A/zh active Pending
-
2007
- 2007-03-28 US US11/692,392 patent/US20070239439A1/en not_active Abandoned
- 2007-04-06 JP JP2007099948A patent/JP2007279744A/ja not_active Ceased
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0237402A (ja) * | 1988-07-27 | 1990-02-07 | Yamatake Honeywell Co Ltd | パラメータ推定方式 |
JP2007114794A (ja) * | 2005-10-20 | 2007-05-10 | Toshiba Corp | 時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009139949A (ja) * | 2007-12-04 | 2009-06-25 | Toshiba Corp | 差分韻律適応モデルのトレーニング方法及び装置、差分韻律適応モデルの生成方法及び装置、韻律推定方法及び装置、音声合成方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101051459A (zh) | 2007-10-10 |
US20070239439A1 (en) | 2007-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007279744A (ja) | F0および休止予測モデルを訓練する方法および装置、f0および休止予測方法および装置、音声合成方法および装置 | |
Juvela et al. | Speech waveform synthesis from MFCC sequences with generative adversarial networks | |
JP4602307B2 (ja) | 時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置 | |
Airaksinen et al. | Quasi closed phase glottal inverse filtering analysis with weighted linear prediction | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JP5223673B2 (ja) | 音声処理装置およびプログラム、並びに、音声処理方法 | |
JP2009139949A (ja) | 差分韻律適応モデルのトレーニング方法及び装置、差分韻律適応モデルの生成方法及び装置、韻律推定方法及び装置、音声合成方法及び装置 | |
US20080082333A1 (en) | Prosody Conversion | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
JP6051004B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
Chen et al. | Modeling of speaking rate influences on Mandarin speech prosody and its application to speaking rate-controlled TTS | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
Yu et al. | Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis | |
Bous et al. | Analysing deep learning-spectral envelope prediction methods for singing synthesis | |
JP5914119B2 (ja) | 音響モデル性能評価装置とその方法とプログラム | |
JP4829912B2 (ja) | 基本周波数推定装置、基本周波数推定方法、基本周波数推定プログラム、記憶媒体 | |
JP6840124B2 (ja) | 言語処理装置、言語処理プログラムおよび言語処理方法 | |
JP4417892B2 (ja) | 音声情報処理装置、音声情報処理方法および音声情報処理プログラム | |
Liou et al. | Estimation of hidden speaking rate | |
JP6665079B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
Hashimoto et al. | Overview of NIT HMMbased speech synthesis system for Blizzard Challenge 2011 | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP5860439B2 (ja) | 言語モデル作成装置とその方法、そのプログラムと記録媒体 | |
JP2007011042A (ja) | 韻律生成装置及び音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090519 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090519 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110307 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20110411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110412 |
|
AA92 | Notification of invalidation |
Free format text: JAPANESE INTERMEDIATE CODE: A971092 Effective date: 20110426 |