JP4602307B2 - 時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置 - Google Patents
時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置 Download PDFInfo
- Publication number
- JP4602307B2 JP4602307B2 JP2006286910A JP2006286910A JP4602307B2 JP 4602307 B2 JP4602307 B2 JP 4602307B2 JP 2006286910 A JP2006286910 A JP 2006286910A JP 2006286910 A JP2006286910 A JP 2006286910A JP 4602307 B2 JP4602307 B2 JP 4602307B2
- Authority
- JP
- Japan
- Prior art keywords
- time length
- length prediction
- prediction model
- attributes
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/148—Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
Description
分類回帰木(CART)は例えば、非特許文献3に詳しく説明されている。
人工神経ネットワーク(ANN)は、例えば、非特許文献4に詳しく説明されている。
"An ANN-based prosodic information synthesizer for Mandarin text-to-speech", S.H. Chen, S.H. Hwang et al, IEEE trans. Speech Audio Processing, Vol.6, No.3, pp226-239, 1998 "Polynomial regression model for duration prediction in Mandarin", Sun Lu, Yu Hu, Ren-Hua Wang, INTERSPEECH-2004, pp 769-77 "Linguistic factors affecting timing in Korean with application to speech synthesis", Chung, H. and Huckvale, M. A., Proceedings of Eurospeech 2001, Aalborg, vol.2, pp.815-819 "Modeling final duration for Japanese text-to-speech synthesis", Venditti, Jennifer J., Santen, Jan P. H. van, ICSLP-1998, pp.786-789。
1)一般の方法は2つの主要な問題、データまばら(data sparsity)及び属性相互作用によって強く影響される。これらは主にモデルの複雑さとデータベースサイズとの間のアンバランスによって生じる。既存のモデル係数はデータ駆動方法によって計算できる。しかし、属性及び属性の組み合わせはデータ駆動方法によって選択される代わりに手動的に選択される。故に、これらの「部分的」データ駆動モデリング方法は主体的経験に依存する。
但し、SSEは予測エラーの二乗和である。式2の右辺の第1因数はモデルの精度を示し、第2因数はモデル複雑度のペナルティを示す。トレーニングサンプル数Nが固定されているとき、モデルが複雑であるほど、大きさpが大きくなり、モデルがトレーニングデータをより正確に予測でき、SSEがより小さくなる。故に、第1因数は小さくし、第2因数は大きくする、又はその逆にする。即ち、一方が増加すると他方が減少することになる。2つの因数の合計が最小になると、モデルは最適となる。BICはモデル複雑度とデータベースサイズとの間に良好なバランスが得ることができ、これがデータまばら及び属性相互作用問題の解決に役立つ。
Claims (22)
- 時間長予測に関する複数の属性及び前記複数の属性の可能な属性組み合わせの一部を用いて前記複数の属性及び前記属性組み合わせの各々が項目として含まれている初期時間長予測モデルを生成するステップと、
前記時間長予測モデルの各項目の重要度を計算するステップと、
計算された最低重要度を有する項目を削除するステップと、
残りの項目で時間長予測モデルを再生成するステップと、
前記再生成時間長予測モデルが最適予測モデルであるかを決定するステップと、
重要度を計算するステップ及び前記時間長予測モデルが最適モデルでないと決定されれば、前記重要度計算ステップ及びこの重要度計算ステップに続くステップを新たな再生成時間長予測モデルで繰り返すステップと、
を含む時間長予測モデルトレーニング方法。 - 時間長予測に関する前記複数の属性が言語タイプ及び音声タイプの属性を含む、請求項1に記載の時間長予測モデルトレーニング方法。
- 時間長予測に関する前記複数の属性は、現音韻から選択された音韻、同じ音節内の他の音韻、前の音節内の隣接音韻、次の音節内の隣接音韻、前記現音節の音色、前記前の音節の音色、前記次の音節の音色、音声の一部、次の休止までの距離、前の休止までの距離、語彙単語内の音韻の位置、現、前及び次の語彙単語の長さ、語彙単語の音節の数、文内の音節の位置及び文内の語彙単語の数を含む、請求項1に記載の時間長予測モデルトレーニング方法。
- 前記時間長予測モデルが一般線形モデル(GLM)である、請求項1に記載の時間長予測モデルトレーニング方法。
- 前記複数の属性モデルの可能な属性組み合わせの前記少なくとも一部は時間長予測に関する前記複数の属性の二次属性組み合わせの全てを含む、請求項1に記載の時間長予測モデルトレーニング方法。
- 前記重要度計算ステップはFテストで各項目の重要度を計算することを含む、請求項1に記載の時間長予測モデルトレーニング方法。
- 前記再生成時間長予測モデルが最適モデルであるかを決定するステップは前記再生成時間長予測モデルが(BIC)に基づく最適モデルであるかを決定することを含む、請求項1に記載の時間長予測モデルトレーニング方法。
- 前記再生成時間長予測モデルが最適モデルであるかを決定するステップは式BIC= Nlog(SSE/N)+plogN(SSEは予測エラーの二乗和を表し、Nはトレーニングサンプルの数を表す)に基づいて計算するステップと、BICが最小のとき前記再生成時間長予測モデルを最適モデルとして決定するステップを含む、請求項7に記載の時間長予測モデルトレーニング方法。
- 時間長予測に関する前記複数の属性は話す速度を更に含む、請求項1乃至8のいずれか一に記載の時間長予測モデルトレーニング方法。
- 前記請求項1乃至9のいずれか1に記載の時間長予測モデルトレーニング方法を用いて時間長予測モデルをトレーニングするステップと、
時間長予測に関する前記複数の属性の対応する値を求めるステップと、
前記時間長予測モデル及び時間長予測モデルに関する前記複数の属性の前記対応する値に基づいて時間長を計算するステップと、で成る時間長予測方法。 - 前記時間長予測に関する前記複数の属性は話す速度を含む、請求項10に記載の時間長予測方法。
- 請求項10又は11に記載の時間長予測方法を用いて時間長を予測するステップと、予測時間長に基づいて音声合成を行うステップとを含む、音声合成方法。
- 時間長予測に関する複数の属性及び前記複数の属性の可能な属性組み合わせの少なくとも一部を用いて前記複数の属性及び前記属性の組み合わせの各々が項目として含む初期時間長予測モデルを生成するように構成される初期モデル生成器と、
前記時間長予測モデル内の各項目の重要度を計算するように構成される重要度計算機と、
計算された最低重要度の項目を削除するよう構成される項目削除ユニットと、
前記項目削除ユニットの削除後に残りの項目を用いて時間長予測モデルを再生成するように構成されるモデル再生成器と、
前記モデル再生成器によって再生成された時間長予測モデルが最適モデルであるかを決定するように構成される最適決定ユニットと、を具備する時間長予測モデルトレーニング装置。 - 時間長予測に関する前記複数の属性は言語タイプ及び音声タイプの属性を含む、請求項13に記載の時間長予測モデルトレーニング装置。
- 時間長予測に関する前記複数の属性は現音韻から選択された音韻、同じ音節内の他の音韻、前の音節内の隣接音韻、次の音節内の隣接音韻、前記源音節の音色、前記前の音節の音色、前記次の音節の音色、音声の一部、次の休止までの距離、前の休止までの距離、語彙単語内の音韻の位置、現、前及び次の語彙単語の長さ、語彙単語の音節の数、文内の音節の位置及び文内の語彙単語の数を含む、請求項13に記載の時間長予測モデルトレーニング装置。
- 前記複数の属性モデルの可能な属性組み合わせの前記少なくとも一部は時間長予測に関する前記複数の属性の二次属性組み合わせの全てを含む、請求項13に記載の時間長予測モデルトレーニング装置。
- 前記重要度計算機はFテストで各項目の重要度を計算するよう構成される、請求項13に記載の時間長予測モデルトレーニング装置。
- 前記最適化決定ユニットは前記再生成時間予測モデルがベイズ情報基準(BIC)に基づく最適モデルであるかを決定するように構成される、請求項13に記載の時間長予測モデルトレーニング装置。
- 時間長予測に関する前記複数の属性は話す速度を更に含む、請求項13乃至18のいずれか1に記載の時間長予測モデルトレーニング装置。
- 前記請求項1乃至9のいずれか1に記載の時間長予測モデルトレーニング方法を用いてトレーニングされる時間長予測モデルと、
時間長予測に関する前記複数の属性の対応する値を求めるよう構成される属性取得ユニットと、
前記時間長予測モデル及び時間長予測モデルに関する前記複数の属性の前記対応する値に基づいて時間長を計算する時間長計算機と、を具備する時間長予測装置。 - 前記時間長予測に関する前記複数の属性は話す速度を含む、請求項20に記載の時間長予測装置。
- 請求項20又は21に記載の前記時間長予測装置を具備し、予測時間長に基づいて音声合成を行う、音声合成装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2005101143200A CN1953052B (zh) | 2005-10-20 | 2005-10-20 | 训练时长预测模型、时长预测和语音合成的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007114794A JP2007114794A (ja) | 2007-05-10 |
JP4602307B2 true JP4602307B2 (ja) | 2010-12-22 |
Family
ID=38059351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006286910A Expired - Fee Related JP4602307B2 (ja) | 2005-10-20 | 2006-10-20 | 時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7840408B2 (ja) |
JP (1) | JP4602307B2 (ja) |
CN (1) | CN1953052B (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101051459A (zh) * | 2006-04-06 | 2007-10-10 | 株式会社东芝 | 基频和停顿预测及语音合成的方法和装置 |
US8145490B2 (en) * | 2007-10-24 | 2012-03-27 | Nuance Communications, Inc. | Predicting a resultant attribute of a text file before it has been converted into an audio file |
CN101452699A (zh) * | 2007-12-04 | 2009-06-10 | 株式会社东芝 | 韵律自适应及语音合成的方法和装置 |
CN101465123B (zh) * | 2007-12-20 | 2011-07-06 | 株式会社东芝 | 说话人认证的验证方法和装置以及说话人认证系统 |
US8156119B2 (en) * | 2009-01-19 | 2012-04-10 | Microsoft Corporation | Smart attribute classification (SAC) for online reviews |
CN102549653B (zh) * | 2009-10-02 | 2014-04-30 | 独立行政法人情报通信研究机构 | 语音翻译系统、第一终端装置、语音识别服务器装置、翻译服务器装置以及语音合成服务器装置 |
WO2011080597A1 (en) * | 2010-01-04 | 2011-07-07 | Kabushiki Kaisha Toshiba | Method and apparatus for synthesizing a speech with information |
CN102231276B (zh) * | 2011-06-21 | 2013-03-20 | 北京捷通华声语音技术有限公司 | 一种语音合成单元时长的预测方法及装置 |
CN103400580A (zh) * | 2013-07-23 | 2013-11-20 | 华南理工大学 | 一种多人会话语音中的说话人重要程度估计方法 |
CN106601226B (zh) * | 2016-11-18 | 2020-02-28 | 中国科学院自动化研究所 | 音素时长预测建模方法及音素时长预测方法 |
EP3935581A4 (en) | 2019-03-04 | 2022-11-30 | Iocurrents, Inc. | DATA COMPRESSION AND COMMUNICATION USING MACHINE LEARNING |
CN110264993B (zh) * | 2019-06-27 | 2020-10-09 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6346498A (ja) * | 1986-04-18 | 1988-02-27 | 株式会社リコー | 韻律生成方式及びタイミング点パターン生成方式 |
JPH04149500A (ja) * | 1990-10-11 | 1992-05-22 | Sharp Corp | テキスト音声合成装置 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2290684A (en) * | 1994-06-22 | 1996-01-03 | Ibm | Speech synthesis using hidden Markov model to determine speech unit durations |
US5561421A (en) * | 1994-07-28 | 1996-10-01 | International Business Machines Corporation | Access method data compression with system-built generic dictionaries |
US6038533A (en) * | 1995-07-07 | 2000-03-14 | Lucent Technologies Inc. | System and method for selecting training text |
US6064960A (en) * | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
US6813604B1 (en) * | 1999-11-18 | 2004-11-02 | Lucent Technologies Inc. | Methods and apparatus for speaker specific durational adaptation |
JP2001282279A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理方法及び装置及び記憶媒体 |
JP3670217B2 (ja) * | 2000-09-06 | 2005-07-13 | 国立大学法人名古屋大学 | 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法 |
US6810378B2 (en) * | 2001-08-22 | 2004-10-26 | Lucent Technologies Inc. | Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech |
FR2846458B1 (fr) * | 2002-10-25 | 2005-02-25 | France Telecom | Procede de traitement automatique d'un signal de parole. |
US20040088723A1 (en) * | 2002-11-01 | 2004-05-06 | Yu-Fei Ma | Systems and methods for generating a video summary |
US7643990B1 (en) * | 2003-10-23 | 2010-01-05 | Apple Inc. | Global boundary-centric feature extraction and associated discontinuity metrics |
US7412377B2 (en) * | 2003-12-19 | 2008-08-12 | International Business Machines Corporation | Voice model for speech processing based on ordered average ranks of spectral features |
US7596499B2 (en) * | 2004-02-02 | 2009-09-29 | Panasonic Corporation | Multilingual text-to-speech system with limited resources |
ATE456125T1 (de) * | 2004-09-16 | 2010-02-15 | France Telecom | Verfahren und vorrichtung für die auswahl akustischer einheiten und sprachsynthesevorrichtung |
US20060229877A1 (en) * | 2005-04-06 | 2006-10-12 | Jilei Tian | Memory usage in a text-to-speech system |
CN101051464A (zh) * | 2006-04-06 | 2007-10-10 | 株式会社东芝 | 说话人认证的注册和验证方法及装置 |
CN101051459A (zh) * | 2006-04-06 | 2007-10-10 | 株式会社东芝 | 基频和停顿预测及语音合成的方法和装置 |
CN101089952B (zh) * | 2006-06-15 | 2010-10-06 | 株式会社东芝 | 噪声抑制、提取特征、训练模型及语音识别的方法和装置 |
CN101154380B (zh) * | 2006-09-29 | 2011-01-26 | 株式会社东芝 | 说话人认证的注册及验证的方法和装置 |
CN101465123B (zh) * | 2007-12-20 | 2011-07-06 | 株式会社东芝 | 说话人认证的验证方法和装置以及说话人认证系统 |
-
2005
- 2005-10-20 CN CN2005101143200A patent/CN1953052B/zh active Active
-
2006
- 2006-10-19 US US11/551,025 patent/US7840408B2/en active Active
- 2006-10-20 JP JP2006286910A patent/JP4602307B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6346498A (ja) * | 1986-04-18 | 1988-02-27 | 株式会社リコー | 韻律生成方式及びタイミング点パターン生成方式 |
JPH04149500A (ja) * | 1990-10-11 | 1992-05-22 | Sharp Corp | テキスト音声合成装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2007114794A (ja) | 2007-05-10 |
CN1953052B (zh) | 2010-09-08 |
US7840408B2 (en) | 2010-11-23 |
CN1953052A (zh) | 2007-04-25 |
US20070129948A1 (en) | 2007-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4602307B2 (ja) | 時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置 | |
US11205444B2 (en) | Utilizing bi-directional recurrent encoders with multi-hop attention for speech emotion recognition | |
US8977551B2 (en) | Parametric speech synthesis method and system | |
JP2007279744A (ja) | F0および休止予測モデルを訓練する方法および装置、f0および休止予測方法および装置、音声合成方法および装置 | |
CN104538024A (zh) | 语音合成方法、装置及设备 | |
US20140350934A1 (en) | Systems and Methods for Voice Identification | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
CN101452699A (zh) | 韵律自适应及语音合成的方法和装置 | |
JP2015094848A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20230036020A1 (en) | Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score | |
CN108597538B (zh) | 语音合成系统的评测方法和系统 | |
Buß et al. | Evaluation and optimisation of incremental processors | |
Narendra et al. | Optimal weight tuning method for unit selection cost functions in syllable based text-to-speech synthesis | |
US20110161084A1 (en) | Apparatus, method and system for generating threshold for utterance verification | |
Lu et al. | A compact framework for voice conversion using wavenet conditioned on phonetic posteriorgrams | |
Rehman et al. | Speech emotion recognition based on syllable-level feature extraction | |
US20230069908A1 (en) | Recognition apparatus, learning apparatus, methods and programs for the same | |
US20230252971A1 (en) | System and method for speech processing | |
KR102626618B1 (ko) | 감정 추정 기반의 감정 음성 합성 방법 및 시스템 | |
Bous et al. | Analysing deep learning-spectral envelope prediction methods for singing synthesis | |
JP6674876B2 (ja) | 補正装置、補正方法及び補正プログラム | |
JP5294700B2 (ja) | 音声認識及び合成システム、プログラム及び方法 | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
Liou et al. | Estimation of hidden speaking rate | |
JP5860439B2 (ja) | 言語モデル作成装置とその方法、そのプログラムと記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100907 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100929 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131008 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131008 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |