JP6092293B2 - テキスト読み上げシステム - Google Patents
テキスト読み上げシステム Download PDFInfo
- Publication number
- JP6092293B2 JP6092293B2 JP2015096807A JP2015096807A JP6092293B2 JP 6092293 B2 JP6092293 B2 JP 6092293B2 JP 2015096807 A JP2015096807 A JP 2015096807A JP 2015096807 A JP2015096807 A JP 2015096807A JP 6092293 B2 JP6092293 B2 JP 6092293B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- parameter set
- voice
- parameter
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 67
- 230000008451 emotion Effects 0.000 claims description 64
- 239000013598 vector Substances 0.000 claims description 58
- 238000003066 decision tree Methods 0.000 claims description 41
- 238000009826 distribution Methods 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 31
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000005315 distribution function Methods 0.000 claims description 4
- 238000012886 linear function Methods 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 description 34
- 230000001419 dependent effect Effects 0.000 description 26
- 230000006870 function Effects 0.000 description 24
- 230000007935 neutral effect Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 13
- 238000007476 Maximum Likelihood Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000009466 transformation Effects 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 11
- 101150087667 spk1 gene Proteins 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000000638 solvent extraction Methods 0.000 description 6
- 238000000844 transformation Methods 0.000 description 5
- 238000013216 cat model Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 239000004243 E-number Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000002054 transplantation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 101150085333 xpr1 gene Proteins 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この出願は、2012年3月30日に提出された英国特許出願第1205791.5(これの全内容は参照によってここに組み込まれる)に基づいており、これによる優先権の利益を主張する。
スペクトル:1ストリーム、5状態、状態毎に1本の木×3クラス
対数F0:3ストリーム、ストリーム毎に5状態、状態及びストリーム毎に1本の木×3クラス
BAP:1ストリーム、5状態、状態毎に1本の木×3クラス
持続期間:1ストリーム、5状態、1本の木×3クラス(各木は全ての状態を横断して共有される)
合計:3×26=78本の決定木
上記のものに関して、声特性(例えば、話者)毎に各ストリームに以下の重みが適用される。
スペクトル:1ストリーム、5状態、ストリーム毎に1個の重み×3クラス
対数F0:3ストリーム、ストリーム毎に5状態、ストリーム毎に1個の重み×3クラス
BAP:1ストリーム、5状態、ストリーム毎に1個の重み×3クラス
持続期間:1ストリーム、5状態、状態及びストリーム毎に1個の重み×3クラス
合計:3×10=30個の重み
この例において示されるように、異なる決定木(スペクトル)に同一の重みを割り当てることも、同一の決定木(持続期間)に1個よりも多くの重みを割り当てることも、他の任意の組み合わせも可能である。ここで用いられるように、同じ重み付けが適用される決定木はサブクラスタを形成すると考えられる。
話者−表現依存の重みのセットλq(m) (s,e)
話者−表現依存のクラスタμc(m,x) (s,e)
線形変換のセット[Ar(m) (s,e),br(m) (s,e)](これらの変換は、話者にだけ依存するかもしれないし、表現のみに依存するかもしれないし、両方に依存するかもしれない。)
ステップS211において、全ての実行可能な話者依存の変換を適用した後に、話者s及び表現eについての確率分布mの平均ベクトルμ^ m (s,e)及び共分散行列Σ^ m (s,e)は、次のようになる。
3人の女性話者fs1、fs2及びfs3
3人の男性話者ms1、ms2及びms3
ここで、fs1及びfs2は、アメリカ訛りを持ち、ニュートラルな感情を伴う発話を記録され、fs3は、中国訛りを持ち、3ロットのデータ(ここで、あるデータセットはニュートラルな感情を示し、あるデータセットは幸福な感情を示し、あるデータセットは怒っている感情を示す)についての発話を記録されている。男性話者ms1は、アメリカ訛りを持ち、ニュートラルな感情を伴う発話を記録され、男性話者ms2は、スコットランド訛りを持ち、怒っている感情、幸福な感情及び悲しい感情を伴って話している3つのデータセットについて記録されている。第3の男性話者ms3は、中国訛りを持ち、ニュートラルな感情を伴う発話を記録されている。上記システムは、6人の話者のいずれかの声が記録された訛り及び感情の任意の組み合わせを伴って、声データが出力されることを可能にする。
Claims (17)
- 選択された話者の声及び選択された話者属性を持つ音声を出力するように構成されたテキスト読み上げ方法であって、前記方法は、
入力されたテキストを音響単位の系列へと分割することと、
音響モデルを用いて前記音響単位の系列を音声ベクトルの系列へと変換することと
を具備し、
前記音響モデルは、話者の声に関連する第1のパラメータ・セットと話者属性に関連する第2のパラメータ・セットとを備え、
前記第1のパラメータ・セット及び第2のパラメータ・セットは重複せず、
前記第1のパラメータ・セットから前記選択された話者の声を与えるパラメータを選択し、
前記第2のパラメータ・セットから前記選択された話者属性を与えるパラメータを選択し、
前記第1のパラメータ・セットおよび前記第2のパラメータ・セットは、独立して変更可能であって、
前記第1のパラメータ・セットおよび前記第2のパラメータ・セットは、話者の声および話者属性の少なくとも一方に関する少なくとも一つの決定木を含むクラスタのパラメータに基づき定められる、
方法。 - 前記第1のパラメータ・セットおよび前記第2のパラメータ・セットは、クラスタ適応トレーニング(CAT)方法を用いてトレーニングされている、請求項1の方法。
- 前記話者属性は、少なくとも、感情、話し方および訛りのいずれか1つである、請求項1の方法。
- 異なる複数の話者属性に関連する複数のパラメータ・セットがあり、当該複数のパラメータ・セットは重複しない、請求項1の方法。
- 前記音響モデルは、前記音響単位を前記音声ベクトルの系列に関連付ける確率分布関数を備え、
前記第1のパラメータ・セット及び前記第2のパラメータ・セットの選択が確率分布を変形する、
請求項1の方法。 - 前記第2のパラメータ・セットは、前記第1のパラメータ・セットの少なくとも一部のパラメータに加えられるオフセットに関連する、請求項5の方法。
- 前記話者の声及び前記話者属性の制御は、前記確率分布の平均の重み付き和を介して達成され、
前記第1のパラメータ・セット及び第2のパラメータ・セットの選択は、使用される前記重みを制御する、
請求項5の方法。 - 前記話者の声が連続的な範囲に亘って可変であり、かつ、前記話者属性が連続的な範囲に亘って可変であるように、前記第1および第2のパラメータ・セットが連続的である、請求項1の方法。
- 前記第1のパラメータ・セット及び第2のパラメータ・セットの値は、オーディオ、テキストまたはこれらの任意の組み合わせを用いて定義される、請求項1の方法。
- 前記方法は、第1の話者から受け取られる音声データから得られる第2のパラメータを第2の話者の話者モデルのモデルパラメータに加えることによって、第1の話者から第2の話者へ音声属性を移植するように構成される、請求項6の方法。
- 前記第2のパラメータは、
移植される属性を伴って話している前記第1の話者から音声データを受け取ることと、
前記第2の話者の音声データに最も近い前記第1の話者の音声データを識別することと、
前記移植される属性を伴って話している前記第1の話者から得られる前記音声データと前記第2の話者の音声データに最も近い前記第1の話者の音声データとの間の差分を判定することと、
前記差分から前記第2のパラメータを判定することと
によって得られる、請求項10の方法。 - 前記差分は、前記音響単位を前記音声ベクトルの系列に関連付ける前記確率分布の平均同士で判定される、請求項11の方法。
- 前記第2のパラメータは、前記差分の関数として判定され、
前記関数は、線形関数である、
請求項11の方法。 - 前記第2の話者の前記音声データに最も近い前記第1の話者の音声データを識別することは、前記第1の話者の前記音声データ及び前記第2の話者の前記音声データの前記確率分布に依存する距離関数を最小化することを備える、請求項12の方法。
- 前記距離関数は、ユークリッド距離、バタチャリヤ距離、または、カルバックライブラ距離である、請求項14の方法。
- 選択された話者の声及び選択された話者属性、複数の異なる声特徴を持つ音声のシミュレート用のテキスト読み上げ装置であって、前記装置は、
入力テキストを音響単位の系列へと分割し、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ音響モデルを用いて前記音響単位の系列を音声ベクトルの系列へと変換するように構成されたプロセッサと、
前記音響モデルは、話者の声に関連する第1のパラメータ・セットと話者属性に関連する第2のパラメータ・セットとを備え、
前記第1のパラメータ・セット及び第2のパラメータ・セットは重複せず、
前記プロセッサは、前記第1のパラメータ・セットから前記選択された話者の声を与えるパラメータを選択し、前記第2のパラメータ・セットから前記選択された話者属性を与えるパラメータを選択するようにさらに構成され、
前記第1のパラメータ・セットおよび前記第2のパラメータ・セットは、独立して変更可能であって、
前記第1のパラメータ・セットおよび前記第2のパラメータ・セットは、話者の声および話者属性の少なくとも一方に関する少なくとも一つの決定木を含むクラスタのパラメータに基づき定められる、
装置。 - コンピュータを
入力されたテキストを音響単位の系列へと分割する手段、
音響モデルを用いて前記音響単位の系列を音声ベクトルの系列へと変換する手段
として機能させ、
前記音響モデルは、話者の声に関連する第1のパラメータ・セットと話者属性に関連する第2のパラメータ・セットを備え、
前記第1のパラメータ・セット及び第2のパラメータ・セットは重複せず、
前記コンピュータを、
前記第1のパラメータ・セットから選択された話者の声を与えるパラメータを選択する手段、
前記第2のパラメータ・セットから選択された話者属性を与えるパラメータを選択する手段
としてさらに機能させ、
前記第1のパラメータ・セットおよび前記第2のパラメータ・セットは、独立して変更可能であって、
前記第1のパラメータ・セットおよび前記第2のパラメータ・セットは、話者の声および話者属性の少なくとも一方に関する少なくとも一つの決定木を含むクラスタのパラメータに基づき定められる、
プログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1205791.5 | 2012-03-30 | ||
GB1205791.5A GB2501067B (en) | 2012-03-30 | 2012-03-30 | A text to speech system |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013056399A Division JP2013214063A (ja) | 2012-03-30 | 2013-03-19 | テキスト読み上げシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015172769A JP2015172769A (ja) | 2015-10-01 |
JP6092293B2 true JP6092293B2 (ja) | 2017-03-08 |
Family
ID=46160121
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013056399A Pending JP2013214063A (ja) | 2012-03-30 | 2013-03-19 | テキスト読み上げシステム |
JP2015096807A Active JP6092293B2 (ja) | 2012-03-30 | 2015-05-11 | テキスト読み上げシステム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013056399A Pending JP2013214063A (ja) | 2012-03-30 | 2013-03-19 | テキスト読み上げシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US9269347B2 (ja) |
EP (1) | EP2650874A1 (ja) |
JP (2) | JP2013214063A (ja) |
CN (1) | CN103366733A (ja) |
GB (1) | GB2501067B (ja) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10088976B2 (en) * | 2009-01-15 | 2018-10-02 | Em Acquisition Corp., Inc. | Systems and methods for multiple voice document narration |
GB2501062B (en) * | 2012-03-14 | 2014-08-13 | Toshiba Res Europ Ltd | A text to speech method and system |
GB2516965B (en) | 2013-08-08 | 2018-01-31 | Toshiba Res Europe Limited | Synthetic audiovisual storyteller |
GB2517212B (en) | 2013-08-16 | 2018-04-25 | Toshiba Res Europe Limited | A Computer Generated Emulation of a subject |
US9311430B2 (en) * | 2013-12-16 | 2016-04-12 | Mitsubishi Electric Research Laboratories, Inc. | Log-linear dialog manager that determines expected rewards and uses hidden states and actions |
CN104765591A (zh) * | 2014-01-02 | 2015-07-08 | 腾讯科技(深圳)有限公司 | 一种软件配置参数更新的方法、终端服务器及系统 |
GB2524503B (en) * | 2014-03-24 | 2017-11-08 | Toshiba Res Europe Ltd | Speech synthesis |
GB2524505B (en) * | 2014-03-24 | 2017-11-08 | Toshiba Res Europe Ltd | Voice conversion |
US9824681B2 (en) * | 2014-09-11 | 2017-11-21 | Microsoft Technology Licensing, Llc | Text-to-speech with emotional content |
US9892726B1 (en) * | 2014-12-17 | 2018-02-13 | Amazon Technologies, Inc. | Class-based discriminative training of speech models |
CN104485100B (zh) * | 2014-12-18 | 2018-06-15 | 天津讯飞信息科技有限公司 | 语音合成发音人自适应方法及系统 |
US9685169B2 (en) * | 2015-04-15 | 2017-06-20 | International Business Machines Corporation | Coherent pitch and intensity modification of speech signals |
RU2632424C2 (ru) * | 2015-09-29 | 2017-10-04 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для синтеза речи по тексту |
EP3151239A1 (en) | 2015-09-29 | 2017-04-05 | Yandex Europe AG | Method and system for text-to-speech synthesis |
US10148808B2 (en) | 2015-10-09 | 2018-12-04 | Microsoft Technology Licensing, Llc | Directed personal communication for speech generating devices |
US9679497B2 (en) | 2015-10-09 | 2017-06-13 | Microsoft Technology Licensing, Llc | Proxies for speech generating devices |
US10262555B2 (en) | 2015-10-09 | 2019-04-16 | Microsoft Technology Licensing, Llc | Facilitating awareness and conversation throughput in an augmentative and alternative communication system |
CN105635158A (zh) * | 2016-01-07 | 2016-06-01 | 福建星网智慧科技股份有限公司 | 一种基于sip的语音电话自动告警方法 |
GB2546981B (en) * | 2016-02-02 | 2019-06-19 | Toshiba Res Europe Limited | Noise compensation in speaker-adaptive systems |
US10235994B2 (en) * | 2016-03-04 | 2019-03-19 | Microsoft Technology Licensing, Llc | Modular deep learning model |
CN107704482A (zh) * | 2016-08-09 | 2018-02-16 | 松下知识产权经营株式会社 | 方法、装置以及程序 |
US10163451B2 (en) * | 2016-12-21 | 2018-12-25 | Amazon Technologies, Inc. | Accent translation |
JP2018155774A (ja) * | 2017-03-15 | 2018-10-04 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
JP6805037B2 (ja) * | 2017-03-22 | 2020-12-23 | 株式会社東芝 | 話者検索装置、話者検索方法、および話者検索プログラム |
CN107316635B (zh) * | 2017-05-19 | 2020-09-11 | 科大讯飞股份有限公司 | 语音识别方法及装置、存储介质、电子设备 |
US10943601B2 (en) * | 2017-05-31 | 2021-03-09 | Lenovo (Singapore) Pte. Ltd. | Provide output associated with a dialect |
EP3739572A4 (en) * | 2018-01-11 | 2021-09-08 | Neosapience, Inc. | METHOD AND DEVICE FOR TEXT-TO-LANGUAGE SYNTHESIS USING MACHINE LEARNING AND COMPUTER-READABLE STORAGE MEDIUM |
US11238843B2 (en) * | 2018-02-09 | 2022-02-01 | Baidu Usa Llc | Systems and methods for neural voice cloning with a few samples |
CN108615533B (zh) * | 2018-03-28 | 2021-08-03 | 天津大学 | 一种基于深度学习的高性能语音增强方法 |
US10810993B2 (en) * | 2018-10-26 | 2020-10-20 | Deepmind Technologies Limited | Sample-efficient adaptive text-to-speech |
JP6747489B2 (ja) | 2018-11-06 | 2020-08-26 | ヤマハ株式会社 | 情報処理方法、情報処理システムおよびプログラム |
JP6737320B2 (ja) | 2018-11-06 | 2020-08-05 | ヤマハ株式会社 | 音響処理方法、音響処理システムおよびプログラム |
CN109523986B (zh) * | 2018-12-20 | 2022-03-08 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置、设备以及存储介质 |
US10957304B1 (en) * | 2019-03-26 | 2021-03-23 | Audible, Inc. | Extracting content from audio files using text files |
CN110097890B (zh) * | 2019-04-16 | 2021-11-02 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
US11062691B2 (en) | 2019-05-13 | 2021-07-13 | International Business Machines Corporation | Voice transformation allowance determination and representation |
JP7143955B2 (ja) * | 2019-08-19 | 2022-09-29 | 日本電信電話株式会社 | 推定装置、推定方法、および、推定プログラム |
CN110718208A (zh) * | 2019-10-15 | 2020-01-21 | 四川长虹电器股份有限公司 | 基于多任务声学模型的语音合成方法及系统 |
CN111583900B (zh) * | 2020-04-27 | 2022-01-07 | 北京字节跳动网络技术有限公司 | 歌曲合成方法、装置、可读介质及电子设备 |
CN113808576A (zh) * | 2020-06-16 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 语音转换方法、装置及计算机系统 |
US11605370B2 (en) | 2021-08-12 | 2023-03-14 | Honeywell International Inc. | Systems and methods for providing audible flight information |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
US20030028380A1 (en) * | 2000-02-02 | 2003-02-06 | Freeland Warwick Peter | Speech system |
US6810378B2 (en) * | 2001-08-22 | 2004-10-26 | Lucent Technologies Inc. | Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech |
US20060069567A1 (en) * | 2001-12-10 | 2006-03-30 | Tischer Steven N | Methods, systems, and products for translating text to speech |
DE60215296T2 (de) * | 2002-03-15 | 2007-04-05 | Sony France S.A. | Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung |
US7454348B1 (en) * | 2004-01-08 | 2008-11-18 | At&T Intellectual Property Ii, L.P. | System and method for blending synthetic voices |
US7596499B2 (en) * | 2004-02-02 | 2009-09-29 | Panasonic Corporation | Multilingual text-to-speech system with limited resources |
JP4736511B2 (ja) | 2005-04-05 | 2011-07-27 | 株式会社日立製作所 | 情報提供方法および情報提供装置 |
JP5321058B2 (ja) * | 2006-05-26 | 2013-10-23 | 日本電気株式会社 | 情報付与システム、情報付与方法、情報付与プログラム及び情報付与プログラム記録媒体 |
CN101295504B (zh) * | 2007-04-28 | 2013-03-27 | 诺基亚公司 | 用于仅文本的应用的娱乐音频 |
US8175879B2 (en) * | 2007-08-08 | 2012-05-08 | Lessac Technologies, Inc. | System-effected text annotation for expressive prosody in speech synthesis and recognition |
US20090326948A1 (en) * | 2008-06-26 | 2009-12-31 | Piyush Agarwal | Automated Generation of Audiobook with Multiple Voices and Sounds from Text |
GB2484615B (en) * | 2009-06-10 | 2013-05-08 | Toshiba Res Europ Ltd | A text to speech method and system |
JP2011028130A (ja) | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | 音声合成装置 |
US8660835B2 (en) * | 2009-10-30 | 2014-02-25 | International Business Machines Corporation | System and a method for automatically detecting text type and text orientation of a bidirectional (BIDI) text |
TWI413105B (zh) * | 2010-12-30 | 2013-10-21 | Ind Tech Res Inst | 多語言之文字轉語音合成系統與方法 |
-
2012
- 2012-03-30 GB GB1205791.5A patent/GB2501067B/en active Active
-
2013
- 2013-03-15 US US13/836,146 patent/US9269347B2/en active Active
- 2013-03-15 EP EP13159582.9A patent/EP2650874A1/en not_active Withdrawn
- 2013-03-19 JP JP2013056399A patent/JP2013214063A/ja active Pending
- 2013-04-01 CN CN2013101101486A patent/CN103366733A/zh active Pending
-
2015
- 2015-05-11 JP JP2015096807A patent/JP6092293B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015172769A (ja) | 2015-10-01 |
CN103366733A (zh) | 2013-10-23 |
JP2013214063A (ja) | 2013-10-17 |
US20130262119A1 (en) | 2013-10-03 |
GB2501067B (en) | 2014-12-03 |
EP2650874A1 (en) | 2013-10-16 |
US9269347B2 (en) | 2016-02-23 |
GB2501067A (en) | 2013-10-16 |
GB201205791D0 (en) | 2012-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6092293B2 (ja) | テキスト読み上げシステム | |
JP6246777B2 (ja) | 音声合成方法、装置及びプログラム | |
EP2846327B1 (en) | Acoustic model training method and system | |
JP5768093B2 (ja) | 音声処理システム | |
JP6109901B2 (ja) | コンピュータ生成ヘッド | |
JP5398909B2 (ja) | テキスト音声合成方法及びシステム | |
EP3304544A1 (en) | Speech recognition system and method using an adaptive incremental learning approach | |
JP2016029576A (ja) | コンピュータ生成ヘッド | |
GB2524505A (en) | Voice conversion | |
Yamagishi et al. | Model adaptation approach to speech synthesis with diverse voices and styles | |
GB2537907A (en) | Speech synthesis using dynamical modelling with global variance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160524 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160704 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161129 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170208 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6092293 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |