JP5659258B2 - テキスト音声合成方法及びシステム - Google Patents
テキスト音声合成方法及びシステム Download PDFInfo
- Publication number
- JP5659258B2 JP5659258B2 JP2013051519A JP2013051519A JP5659258B2 JP 5659258 B2 JP5659258 B2 JP 5659258B2 JP 2013051519 A JP2013051519 A JP 2013051519A JP 2013051519 A JP2013051519 A JP 2013051519A JP 5659258 B2 JP5659258 B2 JP 5659258B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- text
- cluster
- sequence
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims description 11
- 239000013598 vector Substances 0.000 claims description 61
- 238000009826 distribution Methods 0.000 claims description 53
- 238000000034 method Methods 0.000 claims description 53
- 230000001419 dependent effect Effects 0.000 claims description 46
- 238000003066 decision tree Methods 0.000 claims description 41
- 230000015572 biosynthetic process Effects 0.000 claims description 31
- 238000003786 synthesis reaction Methods 0.000 claims description 31
- 230000009466 transformation Effects 0.000 claims description 23
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 230000008451 emotion Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000007476 Maximum Likelihood Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 238000012549 training Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000000638 solvent extraction Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 3
- 238000013216 cat model Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
この出願は、2012年3月14日付け提出の英国特許出願第1204502.7号に基づくものであり、また、その優先権の利益を主張する。そして、その内容の全体が参照によって本明細書に組み込まれる。
本明細書で一般に説明される実施形態は、テキスト音声合成システム及び方法に関係する。
Spectrum:1つのストリーム、5つの状態、状態ごとに1つの木×3クラス
LogF0:3つのストリーム、ストリームごとに5つの状態、状態及びストリームごとに、1つの木×3クラス
BAP:1つのストリーム、5つの状態、状態ごとに1つの木×3クラス
継続期間:1つのストリーム、5つの状態、1つの木×3クラス(各木は、すべての状態にわたって共有される)
合計:3×26=78の決定木
上記に関して、次の加重値が、音声特性(例えば話者)ごとに、各々のストリームに適用される。
Spectrum:1つのストリーム、5つの状態、ストリームごとに1つの加重値×3クラス
LogF0:3つのストリーム、ストリームごとに5つの状態、ストリームごとに1つの加重値×3クラス
BAP:1つのストリーム、5つの状態、ストリームごとに1つの加重値×3クラス
継続時間:1つのストリーム、5つの状態、状態及びストリームごとに1つの加重値×3クラス
合計:3×10=30の加重値
この例で示されるように、異なる決定木(spectrum)に同一の加重値を割り当てること、あるいは、同一の決定木(継続時間)に2以上の加重値を割り当てること、又は、任意の他の組み合せが、可能である。本明細書で使用されるように、同一の加重値が適用されるべき決定木は、サブクラスターを形成するために考慮される。
1.4つの音声のうちの任意のものが、その音声に対応する加重値ベクトルの最終的なセットを使用して合成されることができる。
2.ランダムな音声は、加重値ベクトルを任意の位置にセットすることによって、CATモデルが及ぶ音響空間から合成することができる。
Claims (20)
- 複数の異なる音声特性をシミュレートするために使用するテキスト音声合成方法において、前記方法は、
テキストを入力することと、
入力された前記テキストを音響単位のシーケンスに分割することと、
入力された前記テキストのために音声特性を選択することと、
音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、
前記音声ベクトルのシーケンスを、選択された前記音声特性をもつ音声として出力することを含み、
選択された前記音声特性における各々の確率分布の所定のタイプのパラメータは、同一のタイプのパラメータの加重和として表現され、使用される加重和は、音声特性依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することは、選択された前記音声特性のための前記音声特性依存加重値を検索することを含み、前記パラメータは、各クラスターにおいて提供され、各々のクラスターは、少なくとも一つのサブクラスターを含み、前記音声特性依存加重値は、各クラスターごとに検索され、サブクラスターあたりに一つの加重値が存在する、方法。 - 各々のサブクラスターは、少なくとも一つの決定木を含み、
前記決定木は、言語上の相違、音声上の相違又は韻律上の相違のうちの少なくとも一つに関連する質問に基づいている、請求項1に従うテキスト音声合成方法。 - 前記クラスターの前記決定木の間に、構造における相違が存在する、請求項2に従うテキスト音声合成方法。
- 前記複数の音声特性は、異なる話者音声、異なる話者スタイル、異なる話者感情又は異なるアクセントのうちの少なくとも一つから選択される、請求項1に従うテキスト音声合成方法。
- 前記確率分布は、ガウス分布、ポアソン分布、ガンマ分布、スチューデントt分布又はラプラス分布から選択される、請求項1に従うテキスト音声合成方法。
- 音声特性を選択することは、入力を提供することを含み、該入力は、前記加重値が該入力を介して選択されることを可能にする、請求項1に従うテキスト音声合成方法。
- 音声特性を選択することは、出力される前記テキストから、使用されるべき前記加重値を予測することを含む、請求項1に従うテキスト音声合成方法。
- 音声特性を選択することは、話者のタイプに関する外部情報から、使用されるべき前記加重値を予測することを含む、請求項1に従うテキスト音声合成方法。
- 音声特性を選択することは、音声を含んでいる音声入力を受信することと、前記音声入力の前記音声の前記音声特性をシミュレートするために前記加重値を変更することを含む、請求項1に従うテキスト音声合成方法。
- 音声特性を選択することは、複数の予め記憶された複数の加重値セットから、ランダムに一つの加重値セットを選択することを含み、
それぞれの加重値セットは、すべてのサブクラスターのための複数の前記加重値を含む、請求項1に従うテキスト音声合成方法。 - 音声特性を選択することは、
入力を受信することと、ここで、前記入力は、複数の値を含む、
前記複数の値を、複数の前記加重値にマッピングすることを含む、請求項1に従うテキスト音声合成方法。 - 前記値はn次元の値空間を占有し、前記加重値はw次元加重値空間を占有し、ここで、nとwは整数であり、wはnより大きく、前記変換は前記入力値をより高い次元の空間に変換する、請求項11に従うテキスト音声合成方法。
- 前記複数の値は、認識できる話者特徴を直接表現する、請求項12に従うテキスト音声合成方法。
- テキスト音声合成システムをオーディオ・ファイルにおいて提供される音声特性に適応する方法において、前記テキスト音声合成システムは、
テキストを入力し、
入力された前記テキストを音響単位のシーケンスに分割し、
入力された前記テキストのために音声特性を選択し、
音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換し、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、
前記音声ベクトルのシーケンスを、選択された前記音声特性をもつ音声として出力するように構成されたプロセッサを含み、
選択された前記音声特性における各々の確率分布の所定のタイプのパラメータは、同一のタイプのパラメータの加重和として表現され、使用される加重和は、音声特性依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することは、選択された前記音声特性のための前記音声特性依存加重値を検索することを含み、前記パラメータは、各クラスターにおいて提供され、各々のクラスターは、少なくとも一つのサブクラスターを含み、前記音声特性依存加重値は、各クラスターごとに検索され、サブクラスターあたりに一つの加重値が存在し、
前記方法は、
新たな入力オーディオ・ファイルを受信することと、
生成された前記音声と前記新たなオーディオ・ファイルとの間の類似を最大にするために、前記クラスターに適用される前記加重値を計算することを含む、方法。 - 前記新たなオーディオ・ファイルからのデータを使用して新たなクラスターを生成することと、
生成された前記音声と前記新たなオーディオ・ファイルとの間の前記類似を最大にするために、前記新たなクラスターを含む前記クラスターに適用される前記加重値を計算することを更に含む、請求項14に従う方法。 - 生成された前記音声と前記新たなオーディオ・ファイルとの間の前記類似を最大にするために適用される線形変換を判定することを更に含む、請求項14による方法。
- 複数の異なる音声特性をシミュレートするために使用されるテキスト音声合成システムにおいて、前記システムは、
入力されたテキストを受信するためのテキスト入力と、
プロセッサとを含み、
前記プロセッサは、
入力された前記テキストを音響単位のシーケンスに分割し、
入力された前記テキストのための音声特性の選択を可能にし、
音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換し、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、
前記音声ベクトルのシーケンスを、選択された前記音声特性をもつ音声として出力するように構成され、
選択された前記音声特性における各々の確率分布の所定のタイプのパラメータは、同一のタイプのパラメータの加重和として表現され、使用される加重和は、音声特性依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することは、選択された前記音声特性のための前記音声特性依存加重値を検索することを含み、前記パラメータは、各クラスターにおいて提供され、各々のクラスターは、少なくとも一つのサブクラスターを含み、前記音声特性依存加重値は、各クラスターごとに検索され、サブクラスターあたりに一つの加重値が存在する、システム。 - オーディオ・ファイルにおいて提供される音声特性をもつ音声を出力するように構成された、適応性のあるテキスト音声合成システムにおいて、前記テキスト音声合成システムは、
入力されたテキストを受信し、
入力された前記テキストを音響単位のシーケンスに分割し、
入力された前記テキストのために音声特性を選択し、
音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換し、ここで、前記モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデル・パラメータを有する、
前記音声ベクトルのシーケンスを、選択された前記音声特性をもつ音声として出力するように構成されたプロセッサを含み、
選択された前記音声特性における各々の確率分布の所定のタイプのパラメータは、同一のタイプのパラメータの加重和として表現され、使用される加重和は、音声特性依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することは、選択された前記音声特性のための前記音声特性依存加重値を検索することを含み、前記パラメータは、各クラスターにおいて提供され、各々のクラスターは、少なくとも一つのサブクラスターを含み、前記音声特性依存加重値は、各クラスターごとに検索され、サブクラスターあたりに一つの加重値が存在し、
前記システムは、クラスター及びサブクラスターにおいて提供される前記パラメータと、前記サブクラスターのための前記加重値とを記憶するように構成されたメモリを更に含み、
前記システムは、新たな入力オーディオ・ファイルを受信するように更に構成され、
前記プロセッサは、生成された前記音声と前記新たなオーディオ・ファイルとの間の類似を最大にするために、前記サブクラスターに適用される前記加重値を再計算するように構成される、システム。 - 請求項1の方法を実行するようにコンピュータを制御するためのコンピュータプログラム。
- 請求項14の方法を実行するようにコンピュータを制御するためのコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1204502.7 | 2012-03-14 | ||
GB1204502.7A GB2501062B (en) | 2012-03-14 | 2012-03-14 | A text to speech method and system |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014241271A Division JP5847917B2 (ja) | 2012-03-14 | 2014-11-28 | テキスト音声合成方法及びシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013190792A JP2013190792A (ja) | 2013-09-26 |
JP5659258B2 true JP5659258B2 (ja) | 2015-01-28 |
Family
ID=46026532
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013051519A Active JP5659258B2 (ja) | 2012-03-14 | 2013-03-14 | テキスト音声合成方法及びシステム |
JP2014241271A Active JP5847917B2 (ja) | 2012-03-14 | 2014-11-28 | テキスト音声合成方法及びシステム |
JP2015228796A Active JP6246777B2 (ja) | 2012-03-14 | 2015-11-24 | 音声合成方法、装置及びプログラム |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014241271A Active JP5847917B2 (ja) | 2012-03-14 | 2014-11-28 | テキスト音声合成方法及びシステム |
JP2015228796A Active JP6246777B2 (ja) | 2012-03-14 | 2015-11-24 | 音声合成方法、装置及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US9454963B2 (ja) |
EP (1) | EP2639791B1 (ja) |
JP (3) | JP5659258B2 (ja) |
CN (1) | CN103310784B (ja) |
GB (1) | GB2501062B (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10224025B2 (en) * | 2012-12-14 | 2019-03-05 | Robert Bosch Gmbh | System and method for event summarization using observer social media messages |
GB2510200B (en) | 2013-01-29 | 2017-05-10 | Toshiba Res Europe Ltd | A computer generated head |
US9569424B2 (en) * | 2013-02-21 | 2017-02-14 | Nuance Communications, Inc. | Emotion detection in voicemail |
GB2516965B (en) | 2013-08-08 | 2018-01-31 | Toshiba Res Europe Limited | Synthetic audiovisual storyteller |
GB2517212B (en) | 2013-08-16 | 2018-04-25 | Toshiba Res Europe Limited | A Computer Generated Emulation of a subject |
GB2517503B (en) | 2013-08-23 | 2016-12-28 | Toshiba Res Europe Ltd | A speech processing system and method |
WO2015092936A1 (ja) * | 2013-12-20 | 2015-06-25 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
JP6266372B2 (ja) * | 2014-02-10 | 2018-01-24 | 株式会社東芝 | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム |
US9472182B2 (en) * | 2014-02-26 | 2016-10-18 | Microsoft Technology Licensing, Llc | Voice font speaker and prosody interpolation |
US9824681B2 (en) * | 2014-09-11 | 2017-11-21 | Microsoft Technology Licensing, Llc | Text-to-speech with emotional content |
US9607609B2 (en) * | 2014-09-25 | 2017-03-28 | Intel Corporation | Method and apparatus to synthesize voice based on facial structures |
CN104464716B (zh) * | 2014-11-20 | 2018-01-12 | 北京云知声信息技术有限公司 | 一种语音播报系统和方法 |
JP6523893B2 (ja) * | 2015-09-16 | 2019-06-05 | 株式会社東芝 | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム |
US20180064403A1 (en) * | 2016-09-06 | 2018-03-08 | Toshiba Medical Systems Corporation | Medical image diagnostic apparatus |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
EP3415943A1 (en) | 2017-06-13 | 2018-12-19 | Veoneer Sweden AB | Error estimation for a vehicle environment detection system |
JP6523423B2 (ja) * | 2017-12-18 | 2019-05-29 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
CN108053696A (zh) * | 2018-01-04 | 2018-05-18 | 广州阿里巴巴文学信息技术有限公司 | 一种根据阅读内容进行声音播放的方法、装置和终端设备 |
WO2020158756A1 (ja) * | 2019-01-29 | 2020-08-06 | 株式会社日本触媒 | 養生剤、被膜付きセメント系構造体の製造方法、並びにセメント系成形体の収縮低減方法及び乾燥抑制方法、並びにセメント系構造体への劣化因子の侵入抑制方法 |
US10957304B1 (en) * | 2019-03-26 | 2021-03-23 | Audible, Inc. | Extracting content from audio files using text files |
KR102287325B1 (ko) * | 2019-04-22 | 2021-08-06 | 서울시립대학교 산학협력단 | 외형 이미지를 고려한 음성 합성 장치 및 음성 합성 방법 |
US11222621B2 (en) * | 2019-05-23 | 2022-01-11 | Google Llc | Variational embedding capacity in expressive end-to-end speech synthesis |
JP7200405B2 (ja) * | 2019-06-19 | 2023-01-06 | グーグル エルエルシー | 音声認識のためのコンテキストバイアス |
CN113421591B (zh) * | 2021-06-30 | 2024-06-25 | 平安科技(深圳)有限公司 | 语音标注方法、装置、设备以及存储介质 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0515709A1 (en) * | 1991-05-27 | 1992-12-02 | International Business Machines Corporation | Method and apparatus for segmental unit representation in text-to-speech synthesis |
EP0762384A2 (en) * | 1995-09-01 | 1997-03-12 | AT&T IPM Corp. | Method and apparatus for modifying voice characteristics of synthesized speech |
JPH09138767A (ja) * | 1995-11-14 | 1997-05-27 | Fujitsu Ten Ltd | 感情表現の通信装置 |
JP2003177772A (ja) * | 2001-07-13 | 2003-06-27 | Sony France Sa | 感情合成装置の処理を制御する方法及び装置 |
DE60115653T2 (de) * | 2001-10-05 | 2006-08-10 | Sony Deutschland Gmbh | Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten |
JP2003233388A (ja) * | 2002-02-07 | 2003-08-22 | Sharp Corp | 音声合成装置および音声合成方法、並びに、プログラム記録媒体 |
JP2003337592A (ja) * | 2002-05-21 | 2003-11-28 | Toshiba Corp | 音声合成方法及び音声合成装置及び音声合成プログラム |
CN1259631C (zh) * | 2002-07-25 | 2006-06-14 | 摩托罗拉公司 | 使用韵律控制的中文文本至语音拼接合成系统及方法 |
US8005677B2 (en) * | 2003-05-09 | 2011-08-23 | Cisco Technology, Inc. | Source-dependent text-to-speech system |
US7454348B1 (en) | 2004-01-08 | 2008-11-18 | At&T Intellectual Property Ii, L.P. | System and method for blending synthetic voices |
JP3895758B2 (ja) | 2004-01-27 | 2007-03-22 | 松下電器産業株式会社 | 音声合成装置 |
JP2007183421A (ja) * | 2006-01-06 | 2007-07-19 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JP4241736B2 (ja) * | 2006-01-19 | 2009-03-18 | 株式会社東芝 | 音声処理装置及びその方法 |
CN101271687B (zh) | 2007-03-20 | 2012-07-18 | 株式会社东芝 | 字音转换预测以及语音合成的方法和装置 |
CN101471071A (zh) | 2007-12-26 | 2009-07-01 | 中国科学院自动化研究所 | 一种基于混合隐马尔可夫模型的语音合成系统 |
US8548807B2 (en) * | 2009-06-09 | 2013-10-01 | At&T Intellectual Property I, L.P. | System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring |
WO2010142928A1 (en) * | 2009-06-10 | 2010-12-16 | Toshiba Research Europe Limited | A text to speech method and system |
JP2011028131A (ja) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | 音声合成装置 |
JP2011028130A (ja) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | 音声合成装置 |
EP2595143B1 (en) * | 2011-11-17 | 2019-04-24 | Svox AG | Text to speech synthesis for texts with foreign language inclusions |
GB2501067B (en) * | 2012-03-30 | 2014-12-03 | Toshiba Kk | A text to speech system |
US8571871B1 (en) * | 2012-10-02 | 2013-10-29 | Google Inc. | Methods and systems for adaptation of synthetic speech in an environment |
-
2012
- 2012-03-14 GB GB1204502.7A patent/GB2501062B/en active Active
-
2013
- 2013-03-13 US US13/799,962 patent/US9454963B2/en active Active
- 2013-03-14 EP EP13159291.7A patent/EP2639791B1/en not_active Not-in-force
- 2013-03-14 CN CN201310081220.7A patent/CN103310784B/zh not_active Expired - Fee Related
- 2013-03-14 JP JP2013051519A patent/JP5659258B2/ja active Active
-
2014
- 2014-11-28 JP JP2014241271A patent/JP5847917B2/ja active Active
-
2015
- 2015-11-24 JP JP2015228796A patent/JP6246777B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US20130262109A1 (en) | 2013-10-03 |
GB201204502D0 (en) | 2012-04-25 |
EP2639791B1 (en) | 2014-12-17 |
GB2501062B (en) | 2014-08-13 |
JP2016066088A (ja) | 2016-04-28 |
JP6246777B2 (ja) | 2017-12-13 |
JP5847917B2 (ja) | 2016-01-27 |
CN103310784A (zh) | 2013-09-18 |
US9454963B2 (en) | 2016-09-27 |
CN103310784B (zh) | 2015-11-04 |
JP2015072490A (ja) | 2015-04-16 |
EP2639791A1 (en) | 2013-09-18 |
GB2501062A (en) | 2013-10-16 |
JP2013190792A (ja) | 2013-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6246777B2 (ja) | 音声合成方法、装置及びプログラム | |
JP6092293B2 (ja) | テキスト読み上げシステム | |
JP5768093B2 (ja) | 音声処理システム | |
JP5398909B2 (ja) | テキスト音声合成方法及びシステム | |
US11514887B2 (en) | Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium | |
EP2846327B1 (en) | Acoustic model training method and system | |
KR20230003056A (ko) | 비음성 텍스트 및 스피치 합성을 사용한 스피치 인식 | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JP2016042362A (ja) | コンピュータ生成ヘッド | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
JP2017167526A (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Coto-Jiménez et al. | Speech Synthesis Based on Hidden Markov Models and Deep Learning. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131219 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131226 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141201 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5659258 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |