JP6614745B2 - 提供されたテキストの音声合成のためのシステム及び方法 - Google Patents
提供されたテキストの音声合成のためのシステム及び方法 Download PDFInfo
- Publication number
- JP6614745B2 JP6614745B2 JP2016542126A JP2016542126A JP6614745B2 JP 6614745 B2 JP6614745 B2 JP 6614745B2 JP 2016542126 A JP2016542126 A JP 2016542126A JP 2016542126 A JP2016542126 A JP 2016542126A JP 6614745 B2 JP6614745 B2 JP 6614745B2
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- parameters
- frame
- speech
- voiced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 68
- 230000015572 biosynthetic process Effects 0.000 title claims description 31
- 238000003786 synthesis reaction Methods 0.000 title claims description 31
- 230000008569 process Effects 0.000 claims description 40
- 230000003595 spectral effect Effects 0.000 claims description 22
- 230000008859 change Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 230000003068 static effect Effects 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 241000269627 Amphiuma means Species 0.000 claims 1
- 230000005236 sound signal Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Document Processing Apparatus (AREA)
Description
Claims (24)
- a.提供されたテキストのためのコンテキストラベルを生成する手段と、
b.音声モデルを使用して、前記提供されたテキストのために生成された前記コンテキストラベルのためのパラメータのセットであって、ダイナミックレンジを有するf0(基本周波数)軌跡を含むパラメータのセットを生成する手段と、
c.クランプされたデルタ係数値を含む処理されたパラメータのセットを生成するために、その生成されたパラメータのセットを処理する手段であって、前記f0軌跡のダイナミックレンジを拡大する分散スケーリングが可能である手段と、
d.音声合成のために処理されたパラメータのセットを適用することが可能である、前記提供されたテキストの音声合成手段と
を含む、提供されたテキストの音声合成システム。 - 前記音声モデルは、少なくとも1つのスペクトルパラメータの統計分布と前記スペクトルパラメータの変化率とを含む、請求項1に記載のシステム。
- 前記音声モデルは、予測統計的パラメータモデルを含む、請求項1に記載のシステム。
- 前記提供されたテキストのためのコンテキストラベルの前記生成手段は、言語モデルを含む、請求項1に記載のシステム。
- 前記音声合成手段は、スペクトル情報を時間領域信号へと変換可能な、請求項1に記載のシステム。
- 音声合成に使用するために提供されたテキストのパラメータを生成する方法であって、
a.前記提供されたテキストをフレーズのシーケンスに分割するステップと、
b.音声モデルを使用して前記フレーズのシーケンスのパラメータを生成するステップと、
c.その生成されたパラメータを処理して、クランプされたデルタ係数値を含む別のパラメータのセットであって、提供されたテキストの音声合成に使用できる連続的な特徴ストリームを含む前記別のパラメータのセットを取得するステップと
を含む、方法。 - 前記分割は、言語知識に基づいて行われる、請求項6に記載の方法。
- 前記音声モデルは、予測統計的パラメータモデルを含む、請求項6に記載の方法。
- 前記フレーズのための前記生成されたパラメータは、スペクトルパラメータを含む、請求項6に記載の方法。
- 前記スペクトルパラメータは、フレーズに基づくスペクトルパラメータ値、スペクトルパラメータの変化率、スペクトル包絡線の値、スペクトル包絡線の変化率のうち1つまたは複数を含む、請求項9に記載の方法。
- 前記フレーズは、言語的休止と音響的休止のうち少なくとも1つによって区切ることのできる単語群を含む、請求項6に記載の方法。
- 前記音声合成は、複数のフレームを生成し、
前記音声モデルを使用して前記フレーズのシーケンスのパラメータを生成するステップは、
a.前記テキストを表すパラメータとして判定される予測パラメータに基づくベクトルであって、前記複数のフレームについての静的係数、デルタ係数およびデルタデルタ係数を含むベクトルを生成するステップと、
b.処理対象のフレームを特定する数をインクリメントするステップと、
c.休止区間で区切られる言語セグメントの存在を判定するステップであって、
i.前記言語セグメントが開始されている場合、有声化が開始されているか否かを判定し、
1.有声化が開始されている場合、有声音素のパラメータに基づいて前記ベクトルを調整し、ステップ(c)を再開し、さもなければ
2.有声化が終了されている場合、無声音素のパラメータに基づいて前記ベクトルを調整し、ステップ(c)から再開し、
ii.前記言語セグメントが終了されている場合、前記ベクトルを平滑化し、全体的な分散調整を行うステップと
をさらに含む、請求項6に記載の方法。 - 前記音声合成は、複数のフレームを生成し、
前記パラメータの生成は、パラメータの軌跡の生成を含み、
a.生成されたパラメータベクトルの第一要素を初期化するステップであって、前記パラメータベクトルが前記複数のフレームの静的係数、デルタ係数およびデルタデルタ係数を含み、前記第一要素が複数のフレームの第一フレームに対応するステップと、
b.処理対象のフレームを特定する数をインクリメントするステップと、
c.休止区間で区切られる言語セグメントが存在するか否かを判定するステップであって、
i.前記言語セグメントが終了していない場合、有声化が開始されているか否かを判定し、
1.有声化が開始されていない場合、有声音素のパラメータに基づいて前記パラメータベクトルを調整し、ステップ(a)から処理を再開し、
2.有声化が開始されている場合、第一フレームにおいて有声化されているか否かを判定し、有声音が第一フレームにある場合、係数平均は基本周波数に等しく、有声音が第一フレームにない場合、係数のクランプが実行される、
ii.言語セグメントが終了している場合、パラメータの軌跡の突然の変化を除去し、全体的な分散の調整を行うステップと
をさらに含む、請求項6に記載の方法。 - ステップc.i.は、有声化が終了されたか否かを判定するステップであって、音声化が終了されていなければ、請求項14をステップ(a)から繰り返し、音声化が終了されていれば、係数の平均を望ましい値に調整して前記セグメントの長尺のウィンドウの平滑化を行うステップをさらに含む、請求項13に記載の方法。
- 前記初期化は、時間ゼロで行われる、請求項13に記載の方法。
- 前記フレームのインクリメント値は、望ましい整数を含む、請求項13に記載の方法。
- 前記望ましい整数は、1である、請求項16に記載の方法。
- フレームが有声化されているか否かの前記判定は、前記スペクトルパラメータのための予測値の検査を含み、音声化されたセグメントは、有効値を含む、請求項13に記載の方法。
- 言語セグメントが存在するか否かの前記判定は、セグメント分割のための状態シーケンスの検査を含む、請求項13に記載の方法。
- 前記音声合成は、複数のフレームを生成し、
前記パラメータの生成は、メルケプストラムパラメータの生成を含み、
a.生成されたパラメータベクトルを初期化するステップであって、前記複数のフレームの第一フレームに対応する前記複数のフレームの静的係数、デルタ係数、およびデルタデルタ係数を含むパラメータベクトルを生成するステップと、
b.処理対象のフレームを特定する数をインクリメントするステップと、
c.休止区間で区切られる言語セグメントが有声化されているか否か判定するステップであって
i.前記言語セグメントが有声化されていない場合、数式mcep(i)=(mcep(i−1)+mcep_mean(i))/2を適用し、
ii.前記言語セグメントが有声化され且つ前記第一フレーム内にある場合、数式mcep(i)=(mcep(i−1)+mcep_mean(i))/2を適用し、
iii.前記言語セグメントが有声化され且つ前記第一フレーム内にない場合、数式mcep(i)=(mcep(i−1)+mcep_delta(i)+mcep_mean(i))/2を適用するステップと
d.前記言語セグメントが終了したか否かを判定し、
i.前記言語セグメントが終了されている場合、パラメータの軌跡の突然の変化を除去し、全体的な分散の調整を行い、
ii.前記言語セグメントが終了されていない場合、ステップ(a)から始まる処理を繰り返すステップと
を含む、請求項6に記載の方法。 - 前記初期化は、時間ゼロで行われる、請求項20に記載の方法。
- 前記フレームのインクリメント値は、望ましい整数を含む、請求項20に記載の方法。
- 前記望ましい整数は、1である、請求項22に記載の方法。
- フレームが音声化しているか否かの前記判定は、前記スペクトルパラメータの予測値の検査を含み、音声化されたセグメントが有効値を含む、請求項20に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461927152P | 2014-01-14 | 2014-01-14 | |
US61/927,152 | 2014-01-14 | ||
PCT/US2015/011348 WO2015108935A1 (en) | 2014-01-14 | 2015-01-14 | System and method for synthesis of speech from provided text |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017502349A JP2017502349A (ja) | 2017-01-19 |
JP6614745B2 true JP6614745B2 (ja) | 2019-12-04 |
Family
ID=53521887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016542126A Active JP6614745B2 (ja) | 2014-01-14 | 2015-01-14 | 提供されたテキストの音声合成のためのシステム及び方法 |
Country Status (9)
Country | Link |
---|---|
US (2) | US9911407B2 (ja) |
EP (1) | EP3095112B1 (ja) |
JP (1) | JP6614745B2 (ja) |
AU (2) | AU2015206631A1 (ja) |
BR (1) | BR112016016310B1 (ja) |
CA (1) | CA2934298C (ja) |
CL (1) | CL2016001802A1 (ja) |
WO (1) | WO2015108935A1 (ja) |
ZA (1) | ZA201604177B (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107924678B (zh) | 2015-09-16 | 2021-12-17 | 株式会社东芝 | 语音合成装置、语音合成方法及存储介质 |
US10249314B1 (en) * | 2016-07-21 | 2019-04-02 | Oben, Inc. | Voice conversion system and method with variance and spectrum compensation |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10896669B2 (en) | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
US10872596B2 (en) | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
CN108962217B (zh) * | 2018-07-28 | 2021-07-16 | 华为技术有限公司 | 语音合成方法及相关设备 |
CN109285535A (zh) * | 2018-10-11 | 2019-01-29 | 四川长虹电器股份有限公司 | 基于前端设计的语音合成方法 |
CN109785823B (zh) * | 2019-01-22 | 2021-04-02 | 中财颐和科技发展(北京)有限公司 | 语音合成方法及系统 |
US11587548B2 (en) * | 2020-06-12 | 2023-02-21 | Baidu Usa Llc | Text-driven video synthesis with phonetic dictionary |
WO2021248473A1 (en) | 2020-06-12 | 2021-12-16 | Baidu.Com Times Technology (Beijing) Co., Ltd. | Personalized speech-to-video with three-dimensional (3d) skeleton regularization and expressive body poses |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0764939B1 (en) * | 1995-09-19 | 2002-05-02 | AT&T Corp. | Synthesis of speech signals in the absence of coded parameters |
US6567777B1 (en) * | 2000-08-02 | 2003-05-20 | Motorola, Inc. | Efficient magnitude spectrum approximation |
US6970820B2 (en) * | 2001-02-26 | 2005-11-29 | Matsushita Electric Industrial Co., Ltd. | Voice personalization of speech synthesizer |
US6792407B2 (en) * | 2001-03-30 | 2004-09-14 | Matsushita Electric Industrial Co., Ltd. | Text selection and recording by feedback and adaptation for development of personalized text-to-speech systems |
GB0113570D0 (en) * | 2001-06-04 | 2001-07-25 | Hewlett Packard Co | Audio-form presentation of text messages |
US20030028377A1 (en) * | 2001-07-31 | 2003-02-06 | Noyes Albert W. | Method and device for synthesizing and distributing voice types for voice-enabled devices |
CA2365203A1 (en) * | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
US7096183B2 (en) | 2002-02-27 | 2006-08-22 | Matsushita Electric Industrial Co., Ltd. | Customizing the speaking style of a speech synthesizer based on semantic analysis |
US7136816B1 (en) * | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
CN1692403A (zh) * | 2002-10-04 | 2005-11-02 | 皇家飞利浦电子股份有限公司 | 具有个人化语音段的语音合成设备 |
US6961704B1 (en) | 2003-01-31 | 2005-11-01 | Speechworks International, Inc. | Linguistic prosodic model-based text to speech |
US8886538B2 (en) | 2003-09-26 | 2014-11-11 | Nuance Communications, Inc. | Systems and methods for text-to-speech synthesis using spoken example |
AU2005207606B2 (en) * | 2004-01-16 | 2010-11-11 | Nuance Communications, Inc. | Corpus-based speech synthesis based on segment recombination |
US7693719B2 (en) * | 2004-10-29 | 2010-04-06 | Microsoft Corporation | Providing personalized voice font for text-to-speech applications |
US20100030557A1 (en) * | 2006-07-31 | 2010-02-04 | Stephen Molloy | Voice and text communication system, method and apparatus |
JP4455610B2 (ja) | 2007-03-28 | 2010-04-21 | 株式会社東芝 | 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法 |
JP5457706B2 (ja) * | 2009-03-30 | 2014-04-02 | 株式会社東芝 | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
EP2507794B1 (en) * | 2009-12-02 | 2018-10-17 | Agnitio S.L. | Obfuscated speech synthesis |
US20120143611A1 (en) * | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Trajectory Tiling Approach for Text-to-Speech |
CN102651217A (zh) * | 2011-02-25 | 2012-08-29 | 株式会社东芝 | 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 |
CN102270449A (zh) | 2011-08-10 | 2011-12-07 | 歌尔声学股份有限公司 | 参数语音合成方法和系统 |
JP5631915B2 (ja) * | 2012-03-29 | 2014-11-26 | 株式会社東芝 | 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置 |
EP3114584B1 (en) | 2014-03-04 | 2021-06-23 | Interactive Intelligence Group, Inc. | Optimization of audio fingerprint search |
-
2015
- 2015-01-14 JP JP2016542126A patent/JP6614745B2/ja active Active
- 2015-01-14 US US14/596,628 patent/US9911407B2/en active Active
- 2015-01-14 EP EP15737007.3A patent/EP3095112B1/en active Active
- 2015-01-14 AU AU2015206631A patent/AU2015206631A1/en not_active Abandoned
- 2015-01-14 CA CA2934298A patent/CA2934298C/en active Active
- 2015-01-14 BR BR112016016310-9A patent/BR112016016310B1/pt active IP Right Grant
- 2015-01-14 WO PCT/US2015/011348 patent/WO2015108935A1/en active Application Filing
-
2016
- 2016-06-21 ZA ZA2016/04177A patent/ZA201604177B/en unknown
- 2016-07-14 CL CL2016001802A patent/CL2016001802A1/es unknown
-
2018
- 2018-01-18 US US15/874,612 patent/US10733974B2/en active Active
-
2020
- 2020-05-29 AU AU2020203559A patent/AU2020203559B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20180144739A1 (en) | 2018-05-24 |
EP3095112B1 (en) | 2019-10-30 |
AU2015206631A1 (en) | 2016-06-30 |
BR112016016310B1 (pt) | 2022-06-07 |
US9911407B2 (en) | 2018-03-06 |
AU2020203559A1 (en) | 2020-06-18 |
EP3095112A4 (en) | 2017-09-13 |
NZ721092A (en) | 2021-03-26 |
BR112016016310A2 (ja) | 2017-08-08 |
EP3095112A1 (en) | 2016-11-23 |
CA2934298C (en) | 2023-03-07 |
WO2015108935A1 (en) | 2015-07-23 |
US10733974B2 (en) | 2020-08-04 |
AU2020203559B2 (en) | 2021-10-28 |
CA2934298A1 (en) | 2015-07-23 |
US20150199956A1 (en) | 2015-07-16 |
ZA201604177B (en) | 2018-11-28 |
JP2017502349A (ja) | 2017-01-19 |
CL2016001802A1 (es) | 2016-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6614745B2 (ja) | 提供されたテキストの音声合成のためのシステム及び方法 | |
US8594993B2 (en) | Frame mapping approach for cross-lingual voice transformation | |
JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
Ma et al. | Incremental text-to-speech synthesis with prefix-to-prefix framework | |
EP2109096B1 (en) | Speech synthesis with dynamic constraints | |
CN112102811B (zh) | 一种合成语音的优化方法、装置及电子设备 | |
US20170249953A1 (en) | Method and apparatus for exemplary morphing computer system background | |
JP2008249808A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JPH0632020B2 (ja) | 音声合成方法および装置 | |
US10446133B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP2583074B2 (ja) | 音声合成方法 | |
KR102051235B1 (ko) | 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법 | |
JP4684770B2 (ja) | 韻律生成装置及び音声合成装置 | |
Lin et al. | New refinement schemes for voice conversion | |
Astrinaki et al. | sHTS: A streaming architecture for statistical parametric speech synthesis | |
JP2001282273A (ja) | 音声情報処理装置とその方法と記憶媒体 | |
JP2004341259A (ja) | 音声素片伸縮装置およびその方法 | |
NZ721092B2 (en) | System and method for synthesis of speech from provided text | |
Sudhakar et al. | Performance Analysis of Text To Speech Synthesis System Using Hmm and Prosody Features With Parsing for Tamil Language | |
Sulír et al. | The influence of adaptation database size on the quality of HMM-based synthetic voice based on the large average voice model | |
Chomwihoke et al. | Comparative study of text-to-speech synthesis techniques for mobile linguistic translation process | |
Kayte et al. | Post-Processing Using Speech Enhancement Techniques for Unit Selection andHidden Markov Model-based Low Resource Language Marathi Text-to-Speech System | |
Krithiga et al. | Introducing pitch modification in residual excited LPC based Tamil text-to-speech synthesis | |
JPH03276198A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170515 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180522 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180820 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20181020 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191015 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6614745 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |