JP7108147B2 - 表現用エンドツーエンド音声合成における変分埋め込み容量 - Google Patents
表現用エンドツーエンド音声合成における変分埋め込み容量 Download PDFInfo
- Publication number
- JP7108147B2 JP7108147B2 JP2021569531A JP2021569531A JP7108147B2 JP 7108147 B2 JP7108147 B2 JP 7108147B2 JP 2021569531 A JP2021569531 A JP 2021569531A JP 2021569531 A JP2021569531 A JP 2021569531A JP 7108147 B2 JP7108147 B2 JP 7108147B2
- Authority
- JP
- Japan
- Prior art keywords
- embedding
- variational
- embeddings
- capacity
- adjustable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Description
L(x,yT,ys)≡-log p(x|yT,ys)=||f0(yT,ys)-x||1+K (1)
L'(x,yT,ys)≡-log p(x|yT,ys,ge(X))=||f0(yT,ys,ge(X))-x||1+K (2)
上式で、xはオーディオスペクトログラム412であり、yTは入力テキスト104であり、ySはターゲット話者であり(複数話者モデルをトレーニングする場合)、fθ(・)は、入力をスペクトログラム予測にマップする確定関数であり、Kは正規化定数である。教師強制は、スペクトログラムxtを予測するとき、fθ(・)がx<tに依存することを含意する。l1再構築損失が通常使われるので、尤度は、固定対角共分散およびfθ(・)によって与えられる平均をもつラプラスランダムベクトルと等価である(実際、fθ(・)の決定論的出力は、出力として働くが)。合成中に、基準エンコーダ500によって計算された埋め込みPE550を異なるテキストまたは話者とペアにすることによって、転移が遂行される。
LELBO(x,yT,ys)≡Ez~q(z|x)[-log p(x|z,yT,ys)]+DKL(q(z|x)||p(z)) (3)
-log p(x|yT,ys)≦LELBO(x,yT,ys) (4)
RAVG≡Ex~pD(x)[DKL(q(z|x)||p(z))],R≡DKL(q(z|x)||p(z)) (5)
Iq(X;Z)≡Ex~pD(x)[DKL(q(z|x)||q(z))],q(z)≡Ex~pD(x)q(z|x) (6)
RAVG=Iq(X;Z)+DKL(q(z)||p(z)) (7)
⇒Iq(X;Z)≦RAVG (8)
上式で、pD(x)はデータ分布であり、R(たとえば、「レート」)は式3のKL項であり、RAVGは、データ分布にわたって平均されたKL項であり、Iq(X;Z)は、zの容量に対応する表現相互情報であり、q(z)(たとえば、集約された事後分布)は、データ分布にわたって周縁化されたq(z|x)である。式8中の境界は、式7、およびKL拡散の非負性から得られ、ここで、式7は、境界におけるスラックが、集約された事後分布、すなわちq(z)と、事前分布、すなわちp(z)との間のKL拡散であることを示す。いくつかの例では、R(たとえば、KL項)を下げると、事前分布によりモデルから、変分埋め込み420、すなわちzのより良好なサンプリングが得られ、というのは、デコーダ456がトレーニング中に目にするzのサンプルは、事前分布からのサンプルと実質的に類似するからである。
Iq(X;[Zs,Zp])≦RAVG (10)
Iq(X;[Zs,Zp])=Iq(X;Zp)+Iq(X;Zs|Zp)=Iq(X;Zp) (11)
⇒Iq(X;Z)≦RAVG (12)
102 サブシステム
104 入力テキスト
105 ユーザインターフェース
106 シーケンスツーシーケンス回帰型ニューラルネットワーク、seq2seqネットワーク、seq2seq回帰型ニューラルネットワーク
108 後処理ニューラルネットワーク
110 波形合成器
112 エンコーダニューラルネットワーク、エンコーダ
114 エンコーダpre-netニューラルネットワーク
116 エンコーダCBHGニューラルネットワーク
118 注意ベースデコーダ回帰型ニューラルネットワーク、デコーダニューラルネットワーク
120 音声
150 エンドツーエンドテキスト-音声モデル
200 CBHGニューラルネットワーク
202 入力シーケンス
204 1-D畳み込みフィルタのバンク
206 時間沿い最大プーリング層
208 1-D畳み込みサブネットワーク
210 残差接続
212 ハイウェイネットワーク
214 双方向回帰型ニューラルネットワーク
300 方法、プロセス
400 韻律-スタイル転移モデル、転移システム
410 基準エンコーダ
412 基準オーディオ信号
414 多層知覚(MLP)、MLP
416 条件付き依存
420 変動性埋め込み(z)、変分埋め込み
450 エンドツーエンドTTSモデル
452 エンコーダ、テキストエンコーダ
454 注意モジュール
456 デコーダ
475 合成器
480 合成音声
500 決定論的基準エンコーダ
502 基準オーディオ信号
504 6層畳み込み層ネットワーク
506 出力
510 回帰型ニューラルネットワーク
512 128次元出力
520 完全接続層
530 アクティブ化関数
550 韻律埋め込みPE、基準埋め込み
600 ヒューリスティックベースモデル
610 スタイルトークン層
612 注意モジュール
615 トークン
650 スタイル埋め込みSE、スタイル埋め込み、基準埋め込み
700a プロット
700b プロット
1000 方法
1100 方法
1200 方法
1300 コンピュータシステム、コンピューティングデバイス
1300a 標準サーバ、サーバ
1300b ラップトップコンピュータ
1300c ラックサーバシステム
1310 プロセッサ、構成要素
1320 メモリ、構成要素、非一時的メモリ
1330 記憶デバイス、構成要素
1340 高速インターフェース/コントローラ、構成要素
1350 高速拡張ポート、構成要素
1360 低速インターフェース/コントローラ、構成要素
1370 低速バス
1380 ディスプレイ
1390 低速拡張ポート
Claims (20)
- 埋め込み容量を推定するための方法であって、
データ処理ハードウェア上で実行する決定論的基準エンコーダにおいて、基準オーディオ信号を受信するステップと、
前記データ処理ハードウェアによって、前記基準オーディオ信号に対応する基準埋め込みを決定するステップであって、前記基準埋め込みは、対応する埋め込み次元を有する、ステップと、
前記データ処理ハードウェアによって、前記基準埋め込みの前記対応する埋め込み次元に応じて第1の再構築損失を測定するステップと、
前記データ処理ハードウェアによって、変分事後分布から変分埋め込みを取得するステップであって、前記変分埋め込みは、対応する埋め込み次元および指定された容量を有する、ステップと、
前記データ処理ハードウェアによって、前記変分埋め込みの前記対応する埋め込み次元に応じて第2の再構築損失を測定するステップと、
前記データ処理ハードウェアによって、前記基準埋め込みについての測定された前記第1の再構築損失を、前記指定された容量を有する前記変分埋め込みについての測定された前記第2の再構築損失と比較することによって前記基準埋め込みの容量を推定するステップと、
前記データ処理ハードウェアによって、前記基準埋め込みの前記推定された容量に基づいて、前記変分埋め込みの前記指定された容量を更新するステップと、
前記データ処理ハードウェアによって、更新済みの前記指定された容量を有する前記変分埋め込みをテキスト-音声(TTS)モデルに提供するステップと、
前記基準オーディオ信号に関連付けられた音声に合成されるべき入力テキストシーケンスを前記TTSモデルにおいて受信するステップと、
前記TTSモデルを用いて、前記TTSモデルに提供される更新済みの前記指定された容量を有する前記変分埋め込みに基づいて、前記入力テキストシーケンスの合成音声表現を生成するステップと
を含む、方法。 - 前記基準埋め込みはtanh非線形性韻律埋め込みを含む、請求項1に記載の方法。
- 前記基準埋め込みはソフトマックス非線形性韻律埋め込みを含む、請求項1に記載の方法。
- 前記基準埋め込みはスタイル埋め込みを含む、請求項1に記載の方法。
- 前記変分埋め込みの前記指定された容量は前記変分事後分布の調節可能変分境界に基づく、請求項1に記載の方法。
- 前記調節可能変分境界は調節可能KL項を含み、前記調節可能KL項は前記変分埋め込みに対して上限を設ける、請求項5に記載の方法。
- 前記調節可能変分境界は調整可能KL重みを含み、前記調整可能KL重みは前記変分埋め込みに対して上限を設ける、請求項5に記載の方法。
- 前記調節可能変分境界を増大させると、前記変分埋め込みの前記指定された容量が増大する、請求項5に記載の方法。
- 前記調節可能変分境界を低下させると、前記変分埋め込みの前記指定された容量が減少する、請求項5に記載の方法。
- 測定された前記第1および第2の再構築損失が互いと一致するとき、前記基準埋め込みの前記推定された容量は、前記変分埋め込みの前記容量と実質的に等しい、請求項1に記載の方法。
- データ処理ハードウェアと、
前記データ処理ハードウェアと通信するメモリハードウェアとを備えるシステムであって、前記メモリハードウェアは、前記データ処理ハードウェア上で実行されると、前記データ処理ハードウェアに動作を実施させる命令を記憶し、前記動作は、
決定論的基準エンコーダにおいて、基準オーディオ信号を受信することと、
前記基準オーディオ信号に対応する基準埋め込みを決定することであって、前記基準埋め込みは、対応する埋め込み次元を有する、ことと、
前記基準埋め込みの前記対応する埋め込み次元に応じて第1の再構築損失を測定することと、
変分事後分布から変分埋め込みを取得することであって、前記変分埋め込みは、対応する埋め込み次元および指定された容量を有する、ことと、
前記変分埋め込みの前記対応する埋め込み次元に応じて第2の再構築損失を測定することと、
前記基準埋め込みについての測定された前記第1の再構築損失を、前記指定された容量を有する前記変分埋め込みについての測定された前記第2の再構築損失と比較することによって前記基準埋め込みの容量を推定することと、
前記基準埋め込みの前記推定された容量に基づいて、前記変分埋め込みの前記指定された容量を更新することと、
更新済みの前記指定された容量を有する前記変分埋め込みをテキスト-音声(TTS)モデルに提供することと、
前記基準オーディオ信号に関連付けられた音声に合成されるべき入力テキストシーケンスを前記TTSモデルにおいて受信することと、
前記TTSモデルを用いて、前記TTSモデルに提供される更新済みの前記指定された容量を有する前記変分埋め込みに基づいて、前記入力テキストシーケンスの合成音声表現を生成することと
を含む、システム。 - 前記基準埋め込みはtanh非線形性韻律埋め込みを含む、請求項11に記載のシステム。
- 前記基準埋め込みはソフトマックス非線形性韻律埋め込みを含む、請求項11に記載のシステム。
- 前記基準埋め込みはスタイル埋め込みを含む、請求項11に記載のシステム。
- 前記変分埋め込みの前記指定された容量は前記変分事後分布の調節可能変分境界に基づく、請求項11に記載のシステム。
- 前記調節可能変分境界は調節可能KL項を含み、前記調節可能KL項は前記変分埋め込みに対して上限を設ける、請求項15に記載のシステム。
- 前記調節可能変分境界は調整可能KL重みを含み、前記調整可能KL重みは前記変分埋め込みに対して上限を設ける、請求項15に記載のシステム。
- 前記調節可能変分境界を増大させると、前記変分埋め込みの前記指定された容量が増大する、請求項15に記載のシステム。
- 前記調節可能変分境界を低下させると、前記変分埋め込みの前記指定された容量が減少する、請求項15に記載のシステム。
- 測定された前記第1および第2の再構築損失が互いと一致するとき、前記基準埋め込みの前記推定された容量は、前記変分埋め込みの前記容量と実質的に等しい、請求項11に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962851879P | 2019-05-23 | 2019-05-23 | |
US62/851,879 | 2019-05-23 | ||
PCT/US2020/033881 WO2020236990A1 (en) | 2019-05-23 | 2020-05-20 | Variational embedding capacity in expressive end-to-end speech synthesis |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022528016A JP2022528016A (ja) | 2022-06-07 |
JP7108147B2 true JP7108147B2 (ja) | 2022-07-27 |
Family
ID=70978714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021569531A Active JP7108147B2 (ja) | 2019-05-23 | 2020-05-20 | 表現用エンドツーエンド音声合成における変分埋め込み容量 |
Country Status (6)
Country | Link |
---|---|
US (3) | US11222621B2 (ja) |
EP (1) | EP3966803A1 (ja) |
JP (1) | JP7108147B2 (ja) |
KR (1) | KR102579843B1 (ja) |
CN (1) | CN113874934A (ja) |
WO (1) | WO2020236990A1 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117524188A (zh) * | 2018-05-11 | 2024-02-06 | 谷歌有限责任公司 | 时钟式层次变分编码器 |
US11373633B2 (en) * | 2019-09-27 | 2022-06-28 | Amazon Technologies, Inc. | Text-to-speech processing using input voice characteristic data |
US11830473B2 (en) * | 2020-01-21 | 2023-11-28 | Samsung Electronics Co., Ltd. | Expressive text-to-speech system and method |
US11322133B2 (en) * | 2020-07-21 | 2022-05-03 | Adobe Inc. | Expressive text-to-speech utilizing contextual word-level style tokens |
US11798527B2 (en) * | 2020-08-19 | 2023-10-24 | Zhejiang Tonghu Ashun Intelligent Technology Co., Ltd. | Systems and methods for synthesizing speech |
CN112037760B (zh) * | 2020-08-24 | 2022-01-07 | 北京百度网讯科技有限公司 | 语音频谱生成模型的训练方法、装置及电子设备 |
US11790884B1 (en) * | 2020-10-28 | 2023-10-17 | Electronic Arts Inc. | Generating speech in the voice of a player of a video game |
EP4182920A4 (en) * | 2020-10-30 | 2023-12-27 | Samsung Electronics Co., Ltd. | METHOD AND SYSTEM FOR ASSIGNING A UNIQUE VOICE FOR AN ELECTRONIC DEVICE |
CN112712788A (zh) * | 2020-12-24 | 2021-04-27 | 北京达佳互联信息技术有限公司 | 语音合成方法、语音合成模型的训练方法及装置 |
CN112674734B (zh) * | 2020-12-29 | 2021-12-07 | 电子科技大学 | 一种基于监督Seq2Seq模型的脉搏信号噪声检测方法 |
CN112802450B (zh) * | 2021-01-05 | 2022-11-18 | 杭州一知智能科技有限公司 | 一种韵律可控的中英文混合的语音合成方法及其系统 |
CN112951213B (zh) * | 2021-02-09 | 2022-05-24 | 中国科学院自动化研究所 | 端到端的在线语音检测与识别方法、系统及设备 |
WO2022173986A1 (en) | 2021-02-11 | 2022-08-18 | Nuance Communications, Inc. | Multi-channel speech compression system and method |
CN113012702A (zh) * | 2021-02-22 | 2021-06-22 | 鹏城实验室 | 语音盲水印注入方法、装置、设备及存储介质 |
US11804214B2 (en) * | 2021-02-26 | 2023-10-31 | Walmart Apollo, Llc | Methods and apparatuses for discriminative pre-training for low resource title compression |
CN112687259B (zh) * | 2021-03-11 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 一种语音合成方法、装置以及可读存储介质 |
US20220392429A1 (en) * | 2021-06-03 | 2022-12-08 | International Business Machines Corporation | Global prosody style transfer without text transcriptions |
US11830476B1 (en) * | 2021-06-08 | 2023-11-28 | Amazon Technologies, Inc. | Learned condition text-to-speech synthesis |
US20230037892A1 (en) * | 2021-07-28 | 2023-02-09 | Xinapse Co., Ltd. | Method and apparatus for generating speech training data |
US20230099732A1 (en) * | 2021-09-30 | 2023-03-30 | Microsoft Technology Licensing, Llc | Computing system for domain expressive text to speech |
CN114333865A (zh) * | 2021-12-22 | 2022-04-12 | 广州市百果园网络科技有限公司 | 一种模型训练以及音色转换方法、装置、设备及介质 |
CN116884391B (zh) * | 2023-09-06 | 2023-12-01 | 中国科学院自动化研究所 | 基于扩散模型的多模态融合音频生成方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268806A1 (en) | 2017-03-14 | 2018-09-20 | Google Inc. | Text-to-speech synthesis using an autoencoder |
WO2018183650A2 (en) | 2017-03-29 | 2018-10-04 | Google Llc | End-to-end text-to-speech conversion |
JP2018205751A (ja) | 2014-04-30 | 2018-12-27 | クアルコム,インコーポレイテッド | 音声プロファイルの管理および発話信号の生成 |
JP2019532349A (ja) | 2016-09-06 | 2019-11-07 | ディープマインド テクノロジーズ リミテッド | ニューラルネットワークを使用したオーディオの生成 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007091926A1 (en) * | 2006-02-06 | 2007-08-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for speech coding in wireless communication systems |
WO2007109531A2 (en) * | 2006-03-17 | 2007-09-27 | University Of Rochester | Watermark synchronization system and method for embedding in features tolerant to errors in feature estimates at receiver |
US9431006B2 (en) * | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US11069335B2 (en) * | 2016-10-04 | 2021-07-20 | Cerence Operating Company | Speech synthesis using one or more recurrent neural networks |
US10068557B1 (en) * | 2017-08-23 | 2018-09-04 | Google Llc | Generating music with deep neural networks |
CN111566655B (zh) * | 2018-01-11 | 2024-02-06 | 新智株式会社 | 多种语言文本语音合成方法 |
US11238843B2 (en) * | 2018-02-09 | 2022-02-01 | Baidu Usa Llc | Systems and methods for neural voice cloning with a few samples |
WO2019169344A1 (en) * | 2018-03-01 | 2019-09-06 | Podop, Inc. | User interface elements for content selection in media narrative presentation |
US11803678B2 (en) * | 2018-04-12 | 2023-10-31 | Schlumberger Technology Corporation | Disentanglement for inference on seismic data and generation of seismic data |
WO2019222591A1 (en) * | 2018-05-17 | 2019-11-21 | Google Llc | Synthesis of speech from text in a voice of a target speaker using neural networks |
-
2020
- 2020-05-20 WO PCT/US2020/033881 patent/WO2020236990A1/en unknown
- 2020-05-20 CN CN202080037433.8A patent/CN113874934A/zh active Pending
- 2020-05-20 KR KR1020217039293A patent/KR102579843B1/ko active IP Right Grant
- 2020-05-20 JP JP2021569531A patent/JP7108147B2/ja active Active
- 2020-05-20 EP EP20730949.3A patent/EP3966803A1/en active Pending
- 2020-05-20 US US16/879,714 patent/US11222621B2/en active Active
-
2021
- 2021-12-09 US US17/643,455 patent/US11646010B2/en active Active
-
2023
- 2023-04-18 US US18/302,764 patent/US20230260504A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018205751A (ja) | 2014-04-30 | 2018-12-27 | クアルコム,インコーポレイテッド | 音声プロファイルの管理および発話信号の生成 |
JP2019532349A (ja) | 2016-09-06 | 2019-11-07 | ディープマインド テクノロジーズ リミテッド | ニューラルネットワークを使用したオーディオの生成 |
US20180268806A1 (en) | 2017-03-14 | 2018-09-20 | Google Inc. | Text-to-speech synthesis using an autoencoder |
WO2018183650A2 (en) | 2017-03-29 | 2018-10-04 | Google Llc | End-to-end text-to-speech conversion |
Non-Patent Citations (1)
Title |
---|
Ya-Jie ZHANG, et al.,LEARNING LATENT REPRESENTATIONS FOR STYLE CONTROL AND TRANSFER IN END-TO-END SPEECH SYNTHESIS,ICASSP 2019,IEEE,2019年04月,pp.6945-6949 |
Also Published As
Publication number | Publication date |
---|---|
US20200372897A1 (en) | 2020-11-26 |
US20230260504A1 (en) | 2023-08-17 |
CN113874934A (zh) | 2021-12-31 |
EP3966803A1 (en) | 2022-03-16 |
US11646010B2 (en) | 2023-05-09 |
JP2022528016A (ja) | 2022-06-07 |
KR102579843B1 (ko) | 2023-09-18 |
KR20220004721A (ko) | 2022-01-11 |
WO2020236990A1 (en) | 2020-11-26 |
US20220101826A1 (en) | 2022-03-31 |
US11222621B2 (en) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7108147B2 (ja) | 表現用エンドツーエンド音声合成における変分埋め込み容量 | |
JP7204989B2 (ja) | エンドツーエンド音声合成システムにおける表現度の制御 | |
Battenberg et al. | Effective use of variational embedding capacity in expressive end-to-end speech synthesis | |
CN112005298B (zh) | 时钟式层次变分编码器 | |
CN110782870A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
KR20230003056A (ko) | 비음성 텍스트 및 스피치 합성을 사용한 스피치 인식 | |
KR20230034423A (ko) | 2-레벨 스피치 운율 전송 | |
JP2024510679A (ja) | 教師なし並列タコトロン非自己回帰的で制御可能なテキスト読上げ | |
US11908448B2 (en) | Parallel tacotron non-autoregressive and controllable TTS | |
CN114787913A (zh) | 训练语音合成以生成不同的语音声音 | |
US20240087558A1 (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
JP2024505076A (ja) | 多様で自然なテキスト読み上げサンプルを生成する | |
Vioni et al. | Prosodic clustering for phoneme-level prosody control in end-to-end speech synthesis | |
CN114882868A (zh) | 语音合成、情绪迁移、交互方法、存储介质、程序产品 | |
CN117765898A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220121 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220121 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220620 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220714 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7108147 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |