JP7280386B2 - 多言語音声合成およびクロスランゲージボイスクローニング - Google Patents
多言語音声合成およびクロスランゲージボイスクローニング Download PDFInfo
- Publication number
- JP7280386B2 JP7280386B2 JP2021570996A JP2021570996A JP7280386B2 JP 7280386 B2 JP7280386 B2 JP 7280386B2 JP 2021570996 A JP2021570996 A JP 2021570996A JP 2021570996 A JP2021570996 A JP 2021570996A JP 7280386 B2 JP7280386 B2 JP 7280386B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- speaker
- embeddings
- input text
- text sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
Description
101 推論ネットワーク
102 残留エンコーダ、変分オートエンコーダ
104 入力オーディオ特徴、可変長メルスペクトログラム
105 残留符号化成分、自動符号化入力、構成要素
107 敵対的損失モジュール
108 敵対的損失用語、話者敵対的損失
109 勾配反転構成要素
110 話者分類器構成要素、話者分類器
111 合成器
112 テキストエンコーダ
114 入力テキストシーケンス、入力テキスト、テキスト表現、テキスト入力シーケンス
115 出力、シーケンス、固定長コンテキストベクトル、テキスト符号化
116 話者埋込みモジュール、話者埋込み構成要素、話者埋込み、64次元話者埋込み
117 言語埋込みモジュール、言語埋込み構成要素、言語埋込み、3次元話者埋込み
118 デコーダニューラルネットワーク、出力オーディオ特徴表現
119 出力メルスペクトログラム、メル周波数スペクトログラム、128次元ログメルスペクトログラムフレーム
120 コンピューティングデバイス、ユーザデバイス
121 データ処理ハードウェア
123 メモリハードウェア
125 波形合成器、WaveRNNボコーダ
126 時間領域波形
140 音声入力
150 音声、合成音声
200 デコーダアーキテクチャ
202 固定長コンテキストベクトル
210 プリネット
220 長短期記憶(LSTM)サブネットワーク
230 線形射影
240 畳み込みポストネット
244 加算器
400 コンピューティングデバイス
410 プロセッサ、構成要素
420 メモリ、構成要素
430 記憶デバイス、構成要素
440 高速インターフェース/コントローラ、構成要素
450 高速拡張ポート、構成要素
460 低速インターフェース/コントローラ、構成要素
470 低速バス
480 ディスプレイ
490 低速拡張ポート
Claims (28)
- データ処理ハードウェア(121)において、第1の言語の音声(150)に合成されるべき入力テキストシーケンス(114)を受け取るステップと、
前記データ処理ハードウェア(121)によって、話者埋込み(116a)を取得するステップであって、前記話者埋込み(116a)が、ターゲット話者(10)のボイスをクローニングする音声(150)に前記入力テキストシーケンス(114)を合成するための、前記ターゲット話者(10)の特定のボイス特徴を指定し、前記ターゲット話者(10)が、前記第1の言語とは異なる第2の言語の母語話者を含む、ステップと、
前記データ処理ハードウェア(121)によって、音声読み上げ(150)(TTS)モデル(100)を使用して、前記入力テキストシーケンス(114)および前記話者埋込み(116a)を処理することによって前記入力テキストシーケンス(114)の出力オーディオ特徴表現(119)を生成するステップであって、前記出力オーディオ特徴表現(119)が、前記話者埋込み(116a)によって指定される前記ターゲット話者(10)の前記ボイス特徴を有する、ステップと
を含み、
前記話者埋込みは、前記TTSモデルのトレーニング中に、前記第2の言語で前記ターゲット話者が話したトレーニング発話に基づいて学習される、方法(300)。 - 前記データ処理ハードウェア(121)によって、言語埋込み(117a)を取得するステップであって、前記言語埋込み(117a)が言語依存情報を指定する、ステップ
をさらに含み、
前記入力テキストシーケンス(114)および前記話者埋込み(116a)を処理するステップが、前記入力テキストシーケンス(114)、前記話者埋込み(116a)、および前記言語埋込み(117a)を処理して、前記入力テキストシーケンス(114)の前記出力オーディオ特徴表現(119)を生成するステップをさらに含み、前記出力オーディオ特徴表現(119)が、前記言語埋込み(117a)によって指定される前記言語依存情報をさらに有する、請求項1に記載の方法(300)。 - 前記言語依存情報が、前記ターゲット話者(10)の前記第2の言語に関連付けられ、
前記言語依存情報を指定する前記言語埋込み(117a)が、1人または複数の異なる話者によって前記第2の言語で話されたトレーニング発話から取得される、請求項2に記載の方法(300)。 - 前記言語依存情報が前記第1の言語に関連付けられ、
前記言語依存情報を指定する前記言語埋込み(117a)が、1人または複数の異なる話者によって前記第1の言語で話されたトレーニング発話から取得される、請求項2に記載の方法(300)。 - 前記入力テキストシーケンス(114)の前記出力オーディオ特徴表現(119)を生成するステップが、複数の時間ステップのそれぞれについて、
エンコーダニューラルネットワーク(112)を使用して、前記時間ステップについての前記入力テキストシーケンス(114)のそれぞれの部分を処理し、前記時間ステップについての対応するテキスト符号化(115)を生成するステップと、
デコーダニューラルネットワーク(118)を使用して、前記時間ステップについての前記テキスト符号化(115)を処理し、前記時間ステップについての対応する出力オーディオ特徴表現(119)を生成するステップと
を含む、請求項1から4のいずれか一項に記載の方法(300)。 - 前記エンコーダニューラルネットワーク(112)が畳み込みサブネットワークおよび双方向長短期記憶(LSTM)層を含む、請求項5に記載の方法(300)。
- 前記デコーダニューラルネットワーク(118)が、長短期記憶(LSTM)サブネットワーク(220)、一次変換(230)、および畳み込みサブネットワーク(240)を含む自己回帰ニューラルネットワークを含む、請求項5または6に記載の方法(300)。
- 前記出力オーディオ特徴表現(119)がメル周波数スペクトログラムを含む、請求項1から7のいずれか一項に記載の方法(300)。
- 前記データ処理ハードウェア(121)によって、波形合成器(125)を使用して、前記出力オーディオ特徴表現(119)を時間領域波形(126)に反転するステップと、
前記データ処理ハードウェア(121)によって、前記時間領域波形(126)を使用して、前記第1の言語の前記ターゲット話者(10)の前記ボイスをクローニングする前記入力テキストシーケンス(114)の合成音声(150)表現を生成するステップと
をさらに含む、請求項1から8のいずれか一項に記載の方法(300)。 - 前記TTSモデル(100)が、
前記第1の言語で話された複数の発話と、対応する基準テキストとを含む第1の言語トレーニングセットと、
前記第2の言語で話された複数の発話と、対応する基準テキストとを含む第2の言語トレーニングセットと
に関してトレーニングされる、請求項1から9のいずれか一項に記載の方法(300)。 - 前記TTSモデル(100)が、1つまたは複数の追加の言語トレーニングセットに関してさらにトレーニングされ、前記1つまたは複数の追加の言語トレーニングセットのそれぞれの追加の言語トレーニングセットが、それぞれの言語で話された複数の発話と、対応する基準テキストとを含み、それぞれの追加の言語トレーニングセットの前記それぞれの言語が、それぞれの他の追加の言語トレーニングセットの前記それぞれの言語とは異なり、前記第1および第2の言語とは異なる、請求項10に記載の方法(300)。
- 前記入力テキストシーケンス(114)が文字入力表現に対応する、請求項1から11のいずれか一項に記載の方法(300)。
- 前記入力テキストシーケンス(114)が音素入力表現に対応する、請求項1から11のいずれか一項に記載の方法(300)。
- 前記入力テキストシーケンス(114)が8ビットUnicode Transformation Format(UTF-8)符号化シーケンスに対応する、請求項1から11のいずれか一項に記載の方法(300)。
- データ処理ハードウェア(121)と、
前記データ処理ハードウェア(121)と通信しているメモリハードウェア(123)であって、前記データ処理ハードウェア(121)上で実行されるとき、前記データ処理ハードウェア(121)に、
第1の言語の音声(150)に合成されるべき入力テキストシーケンス(114)を受け取ること、
話者埋込み(116a)を取得することであって、前記話者埋込み(116a)が、ターゲット話者(10)のボイスをクローニングする音声(150)に前記入力テキストシーケンス(114)を合成するための、前記ターゲット話者(10)の特定のボイス特徴を指定し、前記ターゲット話者(10)が、前記第1の言語とは異なる第2の言語の母語話者を含むこと、および
音声読み上げ(150)(TTS)モデル(100)を使用して、前記入力テキストシーケンス(114)および前記話者埋込み(116a)を処理することによって前記入力テキストシーケンス(114)の出力オーディオ特徴表現(119)を生成することであって、前記出力オーディオ特徴表現(119)が、前記話者埋込み(116a)によって指定される前記ターゲット話者(10)の前記ボイス特徴を有すること
を含む動作を実施させる命令を記憶する、メモリハードウェア(123)と
を備え、
前記話者埋込みは、前記TTSモデルのトレーニング中に、前記第2の言語で前記ターゲット話者が話したトレーニング発話に基づいて学習される、システム。 - 前記動作が、
言語埋込み(117a)を取得することであって、前記言語埋込み(117a)が言語依存情報を指定すること
をさらに含み、
前記入力テキストシーケンス(114)および前記話者埋込み(116a)を処理することが、前記入力テキストシーケンス(114)、前記話者埋込み(116a)、および前記言語埋込み(117a)を処理して、前記入力テキストシーケンス(114)の前記出力オーディオ特徴表現(119)を生成することをさらに含み、前記出力オーディオ特徴表現(119)が、前記言語埋込み(117a)によって指定される前記言語依存情報をさらに有する、請求項15に記載のシステム。 - 前記言語依存情報が、前記ターゲット話者(10)の前記第2の言語に関連付けられ、
前記言語依存情報を指定する前記言語埋込み(117a)が、1人または複数の異なる話者によって前記第2の言語で話されたトレーニング発話から取得される、請求項16に記載のシステム。 - 前記言語依存情報が前記第1の言語に関連付けられ、
前記言語依存情報を指定する前記言語埋込み(117a)が、1人または複数の異なる話者によって前記第1の言語で話されたトレーニング発話から取得される、請求項16に記載のシステム。 - 前記入力テキストシーケンス(114)の前記出力オーディオ特徴表現(119)を生成することが、複数の時間ステップのそれぞれについて、
エンコーダニューラルネットワーク(112)を使用して、前記時間ステップについての前記入力テキストシーケンス(114)のそれぞれの部分を処理し、前記時間ステップについての対応するテキスト符号化(115)を生成すること、および
デコーダニューラルネットワーク(118)を使用して、前記時間ステップについての前記テキスト符号化(115)を処理し、前記時間ステップについての対応する出力オーディオ特徴表現(119)を生成すること
を含む、請求項15から18のいずれか一項に記載のシステム。 - 前記エンコーダニューラルネットワーク(112)が畳み込みサブネットワークおよび双方向長短期記憶(LSTM)層を含む、請求項19に記載のシステム。
- 前記デコーダニューラルネットワーク(118)が、長短期記憶(LSTM)サブネットワーク(220)、一次変換(230)、および畳み込みサブネットワーク(240)を含む自己回帰ニューラルネットワークを含む、請求項19または20に記載のシステム。
- 前記出力オーディオ特徴表現(119)がメル周波数スペクトログラムを含む、請求項15から21のいずれか一項に記載のシステム。
- 前記動作が、
波形合成器(125)を使用して、前記出力オーディオ特徴表現(119)を時間領域波形に反転すること、および
前記時間領域波形を使用して、前記第1の言語の前記ターゲット話者(10)の前記ボイスをクローニングする前記入力テキストシーケンス(114)の合成音声(150)表現を生成すること
をさらに含む、請求項15から22のいずれか一項に記載のシステム。 - 前記TTSモデル(100)が、
前記第1の言語で話された複数の発話と、対応する基準テキストとを含む第1の言語トレーニングセットと、
前記第2の言語で話された複数の発話と、対応する基準テキストとを含む第2の言語トレーニングセットと
に関してトレーニングされる、請求項15から23のいずれか一項に記載のシステム。 - 前記TTSモデル(100)が、1つまたは複数の追加の言語トレーニングセットに関してさらにトレーニングされ、前記1つまたは複数の追加の言語トレーニングセットのそれぞれの追加の言語トレーニングセットが、それぞれの言語で話された複数の発話と、対応する基準テキストとを含み、それぞれの追加の言語トレーニングセットの前記それぞれの言語が、それぞれの他の追加の言語トレーニングセットの前記それぞれの言語とは異なり、前記第1および第2の言語とは異なる、請求項24に記載のシステム。
- 前記入力テキストシーケンス(114)が文字入力表現に対応する、請求項15から25のいずれか一項に記載のシステム。
- 前記入力テキストシーケンス(114)が音素入力表現に対応する、請求項15から25のいずれか一項に記載のシステム。
- 前記入力テキストシーケンス(114)が8ビットUnicode Transformation Format(UTF-8)符号化シーケンスに対応する、請求項15から25のいずれか一項に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962855067P | 2019-05-31 | 2019-05-31 | |
US62/855,067 | 2019-05-31 | ||
PCT/US2020/029239 WO2020242662A1 (en) | 2019-05-31 | 2020-04-22 | Multilingual speech synthesis and cross-language voice cloning |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022534764A JP2022534764A (ja) | 2022-08-03 |
JP7280386B2 true JP7280386B2 (ja) | 2023-05-23 |
Family
ID=70857228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021570996A Active JP7280386B2 (ja) | 2019-05-31 | 2020-04-22 | 多言語音声合成およびクロスランゲージボイスクローニング |
Country Status (6)
Country | Link |
---|---|
US (2) | US11580952B2 (ja) |
EP (1) | EP3966804A1 (ja) |
JP (1) | JP7280386B2 (ja) |
KR (1) | KR102581346B1 (ja) |
CN (1) | CN113892135A (ja) |
WO (1) | WO2020242662A1 (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112334974A (zh) * | 2018-10-11 | 2021-02-05 | 谷歌有限责任公司 | 使用跨语言音素映射的语音生成 |
US11386276B2 (en) * | 2019-05-24 | 2022-07-12 | International Business Machines Corporation | Method and system for language and domain acceleration with embedding alignment |
US11222176B2 (en) * | 2019-05-24 | 2022-01-11 | International Business Machines Corporation | Method and system for language and domain acceleration with embedding evaluation |
ES2964322T3 (es) * | 2019-12-30 | 2024-04-05 | Tmrw Found Ip Sarl | Sistema y método de conversión de voz multilingüe |
CN111667816B (zh) * | 2020-06-15 | 2024-01-23 | 北京百度网讯科技有限公司 | 模型训练方法、语音合成方法、装置、设备和存储介质 |
US11735156B1 (en) * | 2020-08-31 | 2023-08-22 | Amazon Technologies, Inc. | Synthetic speech processing |
EP4007998A1 (en) * | 2020-10-13 | 2022-06-08 | Google LLC | Distributed sound recognition using a wearable device |
US20220122581A1 (en) * | 2020-10-21 | 2022-04-21 | Google Llc | Using Speech Recognition to Improve Cross-Language Speech Synthesis |
CN112634856B (zh) * | 2020-12-10 | 2022-09-02 | 思必驰科技股份有限公司 | 语音合成模型训练方法和语音合成方法 |
CN112767912A (zh) * | 2020-12-28 | 2021-05-07 | 深圳市优必选科技股份有限公司 | 跨语言语音转换方法、装置、计算机设备和存储介质 |
CN112750419B (zh) * | 2020-12-31 | 2024-02-13 | 科大讯飞股份有限公司 | 一种语音合成方法、装置、电子设备和存储介质 |
CN112786012A (zh) * | 2020-12-31 | 2021-05-11 | 科大讯飞股份有限公司 | 一种语音合成方法、装置、电子设备和存储介质 |
CN112927674B (zh) * | 2021-01-20 | 2024-03-12 | 北京有竹居网络技术有限公司 | 语音风格的迁移方法、装置、可读介质和电子设备 |
CN112767958B (zh) * | 2021-02-26 | 2023-12-26 | 华南理工大学 | 一种基于零次学习的跨语种音色转换系统及方法 |
CN112668704B (zh) * | 2021-03-16 | 2021-06-29 | 北京世纪好未来教育科技有限公司 | 音频识别模型的训练方法、装置和音频识别方法、装置 |
CN113160794B (zh) * | 2021-04-30 | 2022-12-27 | 京东科技控股股份有限公司 | 基于音色克隆的语音合成方法、装置及相关设备 |
CN113345412A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备以及存储介质 |
CN113327580A (zh) * | 2021-06-01 | 2021-08-31 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN113643687B (zh) * | 2021-07-08 | 2023-07-18 | 南京邮电大学 | 融合DSNet与EDSR网络的非平行多对多语音转换方法 |
CN113539232A (zh) * | 2021-07-10 | 2021-10-22 | 东南大学 | 一种基于慕课语音数据集的语音合成方法 |
CN113611309A (zh) * | 2021-07-13 | 2021-11-05 | 北京捷通华声科技股份有限公司 | 一种音色转换方法、装置、电子设备及可读存储介质 |
WO2023288265A1 (en) * | 2021-07-15 | 2023-01-19 | Sri International | Voice modification |
CN113488057B (zh) * | 2021-08-18 | 2023-11-14 | 山东新一代信息产业技术研究院有限公司 | 面向康养的对话实现方法及系统 |
CN113707125B (zh) * | 2021-08-30 | 2024-02-27 | 中国科学院声学研究所 | 一种多语言语音合成模型的训练方法及装置 |
CN117597728A (zh) * | 2022-04-13 | 2024-02-23 | 微软技术许可有限责任公司 | 使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆 |
US20230335109A1 (en) * | 2022-04-19 | 2023-10-19 | Tencent America LLC | Techniques for disentangled variational speech representation learning for zero-shot voice conversion |
US20230386479A1 (en) * | 2022-05-27 | 2023-11-30 | Tencent America LLC | Techniques for improved zero-shot voice conversion with a conditional disentangled sequential variational auto-encoder |
US11880645B2 (en) | 2022-06-15 | 2024-01-23 | T-Mobile Usa, Inc. | Generating encoded text based on spoken utterances using machine learning systems and methods |
CN115273827A (zh) * | 2022-06-24 | 2022-11-01 | 天津大学 | 多口音语音识别的具有域对抗训练的自适应注意力方法 |
US11887579B1 (en) * | 2022-09-28 | 2024-01-30 | Intuit Inc. | Synthetic utterance generation |
CN115910033B (zh) * | 2023-01-09 | 2023-05-30 | 北京远鉴信息技术有限公司 | 一种语音的合成方法、装置、电子设备及可读存储介质 |
CN116741149A (zh) * | 2023-06-08 | 2023-09-12 | 北京家瑞科技有限公司 | 跨语言语音转换方法、训练方法及相关装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120253781A1 (en) | 2011-04-04 | 2012-10-04 | Microsoft Corporation | Frame mapping approach for cross-lingual voice transformation |
JP2021511534A (ja) | 2018-01-11 | 2021-05-06 | ネオサピエンス株式会社Neosapience, Inc. | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009013875A1 (ja) * | 2007-07-24 | 2009-01-29 | Panasonic Corporation | 文字情報提示装置 |
US9600474B2 (en) * | 2013-11-08 | 2017-03-21 | Google Inc. | User interface for realtime language translation |
US9491277B2 (en) * | 2014-04-03 | 2016-11-08 | Melissa Vincent | Computerized method and system for global health, personal safety and emergency response |
JP6392012B2 (ja) * | 2014-07-14 | 2018-09-19 | 株式会社東芝 | 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム |
US9697201B2 (en) * | 2014-11-24 | 2017-07-04 | Microsoft Technology Licensing, Llc | Adapting machine translation data using damaging channel model |
US10249289B2 (en) * | 2017-03-14 | 2019-04-02 | Google Llc | Text-to-speech synthesis using an autoencoder |
CN110476206B (zh) | 2017-03-29 | 2021-02-02 | 谷歌有限责任公司 | 将文本转换为语音的系统及其存储介质 |
US10796686B2 (en) * | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
GB201804073D0 (en) * | 2018-03-14 | 2018-04-25 | Papercup Tech Limited | A speech processing system and a method of processing a speech signal |
US10971170B2 (en) * | 2018-08-08 | 2021-04-06 | Google Llc | Synthesizing speech from text using neural networks |
US11195507B2 (en) * | 2018-10-04 | 2021-12-07 | Rovi Guides, Inc. | Translating between spoken languages with emotion in audio and video media streams |
-
2020
- 2020-04-22 CN CN202080039862.9A patent/CN113892135A/zh active Pending
- 2020-04-22 JP JP2021570996A patent/JP7280386B2/ja active Active
- 2020-04-22 WO PCT/US2020/029239 patent/WO2020242662A1/en unknown
- 2020-04-22 US US16/855,042 patent/US11580952B2/en active Active
- 2020-04-22 EP EP20728579.2A patent/EP3966804A1/en active Pending
- 2020-04-22 KR KR1020217039553A patent/KR102581346B1/ko active IP Right Grant
-
2023
- 2023-01-30 US US18/161,217 patent/US20230178068A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120253781A1 (en) | 2011-04-04 | 2012-10-04 | Microsoft Corporation | Frame mapping approach for cross-lingual voice transformation |
JP2021511534A (ja) | 2018-01-11 | 2021-05-06 | ネオサピエンス株式会社Neosapience, Inc. | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム |
Non-Patent Citations (2)
Title |
---|
YUCHEN FAN; ET AL,SPEAKER AND LANGUAGE FACTORIZATION IN DNN-BASED TTS SYNTHESIS,2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP),IEEE,2016年03月20日,PAGE(S):5540-5544,http://dx.doi.org/10.1109/ICASSP.2016.7472737 |
YUEWEN CAO; ET AL,END-TO-END CODE-SWITCHED TTS WITH MIX OF MONOLINGUAL RECORDINGS,ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP),IEEE,2019年05月12日,PAGE(S):6935 - 6939,http://dx.doi.org/10.1109/ICASSP.2019.8682927 |
Also Published As
Publication number | Publication date |
---|---|
EP3966804A1 (en) | 2022-03-16 |
US11580952B2 (en) | 2023-02-14 |
KR102581346B1 (ko) | 2023-09-22 |
JP2022534764A (ja) | 2022-08-03 |
US20230178068A1 (en) | 2023-06-08 |
US20200380952A1 (en) | 2020-12-03 |
WO2020242662A1 (en) | 2020-12-03 |
CN113892135A (zh) | 2022-01-04 |
KR20220004737A (ko) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7280386B2 (ja) | 多言語音声合成およびクロスランゲージボイスクローニング | |
JP7395792B2 (ja) | 2レベル音声韻律転写 | |
US11881210B2 (en) | Speech synthesis prosody using a BERT model | |
JP7362929B2 (ja) | アテンションベースのクロックワーク階層型変分エンコーダ | |
JP7379756B2 (ja) | 韻律的特徴からのパラメトリックボコーダパラメータの予測 | |
WO2021212954A1 (zh) | 极低资源下的特定发音人情感语音合成方法及装置 | |
US20220246132A1 (en) | Generating Diverse and Natural Text-To-Speech Samples | |
Li et al. | End-to-end mongolian text-to-speech system | |
Nuthakki et al. | Deep Learning based Multilingual Speech Synthesis using Multi Feature Fusion Methods | |
Xu et al. | End-to-end speech synthesis for tibetan multidialect | |
Nguyen et al. | Learning Vietnamese-English Code-Switching Speech Synthesis Model Under Limited Code-Switched Data Scenario | |
WO2023288169A1 (en) | Two-level text-to-speech systems using synthetic training data | |
Xu et al. | End-to-End Speech Synthesis Method for Lhasa-Tibetan Multi-speaker | |
Amadeus et al. | Phonetically rich corpus construction for a low-resourced language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230417 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230511 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7280386 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |