JP2022536558A - エンドツーエンド音声合成システムにおける表現度の制御 - Google Patents
エンドツーエンド音声合成システムにおける表現度の制御 Download PDFInfo
- Publication number
- JP2022536558A JP2022536558A JP2022506820A JP2022506820A JP2022536558A JP 2022536558 A JP2022536558 A JP 2022536558A JP 2022506820 A JP2022506820 A JP 2022506820A JP 2022506820 A JP2022506820 A JP 2022506820A JP 2022536558 A JP2022536558 A JP 2022536558A
- Authority
- JP
- Japan
- Prior art keywords
- text
- current input
- style
- input text
- embeddings
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title description 9
- 238000003786 synthesis reaction Methods 0.000 title description 9
- 238000000034 method Methods 0.000 claims abstract description 107
- 230000005236 sound signal Effects 0.000 claims abstract description 70
- 230000008569 process Effects 0.000 claims abstract description 44
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims description 160
- 238000012549 training Methods 0.000 claims description 61
- 230000000306 recurrent effect Effects 0.000 claims description 57
- 238000012545 processing Methods 0.000 claims description 48
- 230000004044 response Effects 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 21
- 238000001994 activation Methods 0.000 claims description 21
- 230000002457 bidirectional effect Effects 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 6
- 230000015654 memory Effects 0.000 description 44
- 230000000875 corresponding effect Effects 0.000 description 25
- 239000004115 Sodium Silicate Substances 0.000 description 20
- 238000010586 diagram Methods 0.000 description 18
- 238000006243 chemical reaction Methods 0.000 description 11
- 239000001177 diphosphate Substances 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 238000012805 post-processing Methods 0.000 description 8
- 238000012546 transfer Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000010606 normalization Methods 0.000 description 7
- 238000011176 pooling Methods 0.000 description 5
- 230000001364 causal effect Effects 0.000 description 4
- 230000002996 emotional effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000037007 arousal Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000008272 agar Substances 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- CDBYLPFSWZWCQE-UHFFFAOYSA-L sodium carbonate Substances [Na+].[Na+].[O-]C([O-])=O CDBYLPFSWZWCQE-UHFFFAOYSA-L 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Stereophonic System (AREA)
- Massaging Devices (AREA)
- Vehicle Body Suspensions (AREA)
Abstract
Description
102 サブシステム
104 入力テキスト
106 シーケンス間リカレントニューラルネットワーク、seq2seqネットワーク
108 後処理ニューラルネットワーク
110 波形シンセサイザ
112 エンコーダニューラルネットワーク
114 エンコーダプレネットニューラルネットワーク
116 エンコーダCBHGニューラルネットワーク
118 注意ベースのデコーダリカレントニューラルネットワーク、デコーダニューラルネットワーク
120 スピーチ
150 エンドツーエンドテキスト読み上げモデル、TTSモデル
200 CBHGニューラルネットワーク
202 入力シーケンス
204 1次元畳み込みフィルタのバンク
206 ストライド1の時間層に沿った最大プーリング
208 1次元畳み込みサブネットワーク、サブネットワーク
210 残差接続
212 ハイウェイネットワーク
214 双方向リカレントニューラルネットワーク、双方向RNN
400 決定論的参照エンコーダ、参照エンコーダ
402 参照オーディオ信号
404 6層畳み込み層ネットワーク
405 韻律埋め込みPE
406 出力
410 リカレントニューラルネットワーク、128ユニットGRU-RNN
412 128次元出力
420 完全接続層
430 アクティベーション関数
450 固定長の韻律埋め込みPE、韻律埋め込みPE
500 テキスト予測システム
500a テキスト予測システム
500b テキスト予測システム
502 入力テキスト、テキストエンコーダ、入力テキストシーケンス
510 スタイルトークン層
512 注意モジュール、スタイル注意モジュール、注意スタイルモジュール
514 スタイルトークン
514a~n スタイルトークン
516 組合せ重み
516a~n 組合せ重み
516P 組合せ重み(CW)、予測された組合せ重み
516T 組合せ重み、ターゲット組合せ重み(CW)
520 テキスト予測モデル、テキスト予測ネットワーク、ネットワーク
520a テキスト予測モデル、テキスト予測ネットワーク、ネットワーク、テキスト予測組合せ重み(TPCW)モデル、モデル、TPCWモデル
520b テキスト予測モデル、テキスト予測ネットワーク、テキスト予測スタイル埋め込み(TPSE)モデル、TPSEモデル
522 64ユニット時間集約GRU-RNN522、双方向RNN522、時間集約GRU-RNN
524 固定長出力、固定長テキスト特徴
527 完全接続層
550 スタイル埋め込みSE、スタイル埋め込み
550P スタイル埋め込みSE、テキスト予測スタイル埋め込みSE
550T ターゲットスタイル埋め込みSE
553 符号化シーケンス
600 コンテキスト予測システム、システム
602 コンテキスト特徴
610 コンテキストモデル
612 コンテキスト埋め込み
650 エンドツーエンドTTSモデル、TTSモデル
652 テキストエンコーダ、エンコーダ
653 符号化シーケンス
654 連結器
655 連結
656 注意モジュール
657 固定長コンテキストベクトル
658 デコーダ
670 出力オーディオ信号
675 シンセサイザ
680 表現力豊かなスピーチ、合成スピーチ
700a~d コンテキストTTSネットワーク、TTSネットワーク
700a 完全コンテキストTTSネットワーク、ネットワーク
700b 1ステップコンテキストTTSネットワーク、ネットワーク
700c 分離完全コンテキストTTSネットワーク
700d 分離1ステップコンテキストTTSネットワーク
710 コンテキストモジュール、分離コンテキストモジュール
750 スタイルエンコーダ
800 テキストソース
802 コンテキスト特徴
900 コンピューティングデバイス
900a 標準的なサーバ
900b ラップトップコンピュータ
900c ラックサーバシステム
910 データ処理ハードウェア、構成要素
920 メモリハードウェア、メモリ、構成要素
930 記憶デバイス、構成要素
940 高速インターフェース/コントローラ、構成要素
950 高速拡張ポート、構成要素
960 低速インターフェース/コントローラ、構成要素
970 低速バス
980 ディスプレイ
Claims (24)
- 表現力豊かなスピーチ(680)に合成されるべき現在の入力テキスト(502)に関連する1つまたは複数のコンテキスト特徴(602)を受信する動作であって、各コンテキスト特徴(602)が前記現在の入力テキスト(502)のテキストソース(800)から導出される、動作と、
前記現在の入力テキスト(502)に関連するコンテキスト埋め込み(612)を生成するために前記1つまたは複数のコンテキスト特徴(602)を処理する動作と
を行うように構成されたコンテキストエンコーダ(610)と、
前記コンテキストエンコーダ(610)と通信し、
前記テキストソース(800)から前記現在の入力テキスト(502)を受信する動作であって、前記テキストソース(800)が表現力豊かなスピーチ(680)に合成されるべきテキストのシーケンスを含む、動作と、
前記コンテキストエンコーダ(610)から前記現在の入力テキスト(502)に関連する前記コンテキスト埋め込み(612)を受信する動作と、
前記現在の入力テキスト(502)に対してスタイル埋め込み(550)を出力として予測するために、前記現在の入力テキスト(502)と前記現在の入力テキストに関連する前記コンテキスト埋め込み(612)とを処理する動作であって、前記スタイル埋め込み(550)が、前記現在の入力テキスト(502)を表現力豊かなスピーチ(680)に合成するための特定の韻律および/またはスタイルを指定する、動作と
を行うように構成されたテキスト予測ネットワーク(520)と、
前記テキスト予測ネットワーク(520)と通信し、
前記テキストソース(800)から前記現在の入力テキスト(502)を受信する動作と、
前記テキスト予測ネットワークによって予測された前記スタイル埋め込み(550)を受信する動作と、
前記現在の入力テキスト(502)の表現力豊かなスピーチ(680)の出力オーディオ信号(670)を生成するために前記現在の入力テキスト(502)と前記スタイル埋め込み(550)とを処理する動作であって、前記出力オーディオ信号(670)が前記スタイル埋め込み(550)によって指定された特定の韻律および/またはスタイルを有する、動作と
を行うように構成されたテキスト読み上げモデル(650)と
を備えるシステム(900)。 - 前記現在の入力テキスト(502)に関連する前記1つまたは複数のコンテキスト特徴(602)が、
前記現在の入力テキスト(502)、
前記現在の入力テキスト(502)に先行する前記テキストソース(800)からの前のテキスト、
前記前のテキストから合成された前のスピーチ、
前記現在の入力テキスト(502)に続く前記テキストソース(800)からの次のテキスト、または
前記前のテキストと前記前のテキストに関連する前のコンテキスト埋め込み(612)とに基づいて前記テキスト予測ネットワーク(520)によって予測された前のスタイル埋め込み(550)
のうちの少なくとも1つを含む、請求項1に記載のシステム(900)。 - 前記テキストソース(800)が、テキスト文書を含み、
前記現在の入力テキスト(502)に関連する前記1つまたは複数のコンテキスト特徴(602)が、
前記テキスト文書のタイトル、
前記テキスト文書内の章のタイトル、
前記テキスト文書内の節のタイトル、
前記テキスト文書内の見出し、
前記テキスト文書内の1つもしくは複数の箇条書き、
前記テキスト文書から抽出された概念グラフからのエンティティ、または
前記テキスト文書から抽出された1つもしくは複数の構造化された回答表現
のうちの少なくとも1つを含む、
請求項1または2に記載のシステム(900)。 - 前記テキストソース(800)が、対話トランスクリプトを含み、
前記現在の入力テキスト(502)が、前記対話トランスクリプト内の現在のターンに対応し、
前記現在の入力テキスト(502)に関連する前記1つまたは複数のコンテキスト特徴(602)が、
前記対話トランスクリプト内の前のターンに対応する前記対話トランスクリプト内の前のテキスト、または
前記対話トランスクリプト内の次のターンに対応する前記対話トランスクリプト内の次のテキスト
のうちの少なくとも1つを含む、
請求項1から3のいずれか一項に記載のシステム(900)。 - 前記テキストソース(800)が、クエリ応答システムを備え、
前記現在の入力テキスト(502)が、前記クエリ応答システムにおいて受信された現在のクエリに対する応答に対応し、
前記現在の入力テキスト(502)に関連する前記1つまたは複数のコンテキスト特徴(602)が、
前記現在のクエリに関連するテキスト、もしくは前記クエリ応答システムにおいて受信されたクエリのシーケンスに関連するテキストであって、前記クエリのシーケンスが、前記現在のクエリと、前記現在のクエリに先行する1つもしくは複数のクエリを含む、テキスト、または
前記現在のクエリに関連するオーディオ特徴、もしくは前記クエリ応答システムにおいて受信された前記クエリのシーケンスに関連するオーディオ特徴
のうちの少なくとも1つを含む、
請求項1から4のいずれか一項に記載のシステム(900)。 - 前記テキスト読み上げモデル(650)が、
前記テキストソース(800)から前記現在の入力テキスト(502)を受信し、
前記現在の入力テキスト(502)のそれぞれの符号化シーケンス(653)を生成するために、前記現在の入力テキスト(502)を処理する
ように構成されたエンコーダニューラルネットワーク(112)と、
前記エンコーダニューラルネットワーク(112)から前記現在の入力テキスト(502)の前記それぞれの符号化シーケンス(653)を受信し、
前記テキスト予測ネットワークによって予測された前記スタイル埋め込み(550)を受信し、
前記現在の入力テキスト(502)の前記それぞれの符号化シーケンス(653)と前記スタイル埋め込み(550)との間の連結(655)を生成する
ように構成された連結器(654)と、
デコーダ入力のシーケンスを受信し、
前記シーケンス内のデコーダ入力ごとに、前記出力オーディオ信号(670)のrフレームを生成するために、対応するデコーダ入力と、前記現在の入力テキスト(502)の前記それぞれの符号化シーケンス(653)と前記スタイル埋め込み(550)との間の前記連結(655)とを処理する
ように構成された注意ベースのデコーダリカレントニューラルネットワーク(118)であって、rが1よりも大きい整数を含む、注意ベースのデコーダリカレントニューラルネットワーク(118)と
を備える、請求項1から5のいずれか一項に記載のシステム(900)。 - 前記エンコーダニューラルネットワーク(112)が、
前記現在の入力テキスト(502)の文字のシーケンス内の各文字のそれぞれの埋め込みを受信し、
文字ごとに、前記文字のそれぞれの変換された埋め込みを生成するために、前記それぞれの埋め込みを処理する
ように構成されたエンコーダプレネットニューラルネットワーク(114)と、
前記エンコーダプレネットニューラルネットワークによって生成された前記変換された埋め込みを受信し、
前記現在の入力テキスト(502)の前記それぞれの符号化シーケンス(653)を生成するために、前記変換された埋め込みを処理する
ように構成されたエンコーダCBHGニューラルネットワーク(116)と
を備える、請求項6に記載のシステム(900)。 - 前記エンコーダCBHGニューラルネットワーク(116)が、1次元畳み込みフィルタのバンクを備え、その後にハイウェイネットワークが続き、その後に双方向リカレントニューラルネットワークが続く、請求項7に記載のシステム(900)。
- 前記テキスト予測ネットワーク(520)が、
前記現在の入力テキスト(502)に関連する前記コンテキスト埋め込み(612)と、前記現在の入力テキスト(502)の符号化シーケンス(653)とを受信し、
前記コンテキスト埋め込み(612)と前記符号化シーケンス(653)とを処理することによって、固定長の特徴ベクトルを生成する
ように構成された時間集約ゲート付き回帰型ユニット(GRU)リカレントニューラルネットワーク(RNN)と、
前記固定長の特徴ベクトルを処理することによって、前記スタイル埋め込み(550)を予測するように構成された1つまたは複数の完全接続層と
を備える、
請求項1から8のいずれか一項に記載のシステム(900)。 - 前記1つまたは複数の完全接続層が、ReLUアクティベーションを使用する1つまたは複数の隠れ完全接続層と、前記予測されたスタイル埋め込み(550)を発するためにtanhアクティベーションを使用する出力層とを備える、請求項9に記載のシステム(900)。
- 前記コンテキストモデル(610)、前記テキスト予測ネットワーク(520)、および前記テキスト読み上げモデル(650)が、共同でトレーニングされる、請求項1から10のいずれか一項に記載のシステム(900)。
- 2ステップトレーニング手順が、前記トレーニング手順の第1のステップ中にテキスト読み上げモデル(650)をトレーニングし、前記トレーニング手順の第2のステップ中に前記コンテキストモデル(610)と前記テキスト予測ネットワーク(520)とを共同で別々にトレーニングする、請求項1から11のいずれか一項に記載のシステム(900)。
- 表現力豊かな合成スピーチ(680)の出力オーディオ信号(670)を生成するための方法(1000)であって、前記方法(1000)が、
データ処理ハードウェア(910)において、テキストソース(800)から現在の入力テキスト(502)を受信するステップであって、前記現在の入力テキスト(502)が、テキスト読み上げ(TTS)モデル(650)によって表現力豊かなスピーチ(680)に合成されることになっている、ステップと、
前記データ処理ハードウェア(910)によって、コンテキストモデル(610)を使用して、前記テキストソース(800)から導出された1つまたは複数のコンテキスト特徴(602)を処理することによって、現在の入力テキスト(502)に関連するコンテキスト埋め込み(612)を生成するステップと、
前記データ処理ハードウェア(910)によって、テキスト予測ネットワーク(520)を使用して、前記現在の入力テキスト(502)と前記現在の入力テキスト(502)に関連する前記コンテキスト埋め込み(612)とを処理することによって、前記現在の入力テキスト(502)のためのスタイル埋め込み(550)を予測するステップであって、前記スタイル埋め込み(550)が、前記現在の入力テキスト(502)を表現力豊かなスピーチ(680)に合成するための特定の韻律および/またはスタイルを指定する、ステップと、
前記データ処理ハードウェア(910)によって、前記TTSモデル(650)を使用して、前記スタイル埋め込み(550)と前記現在の入力テキスト(502)とを処理することよって、前記現在の入力テキスト(502)の表現力豊かなスピーチ(680)の前記出力オーディオ信号(670)を生成するステップであって、前記出力オーディオ信号(670)が、前記スタイル埋め込み(550)によって指定された前記特定の韻律および/またはスタイルを有する、ステップと
を含む、方法(1000)。 - 前記現在の入力テキスト(502)に関連する前記1つまたは複数のコンテキスト特徴(602)が、
前記現在の入力テキスト(502)、
前記現在の入力テキスト(502)に先行する前記テキストソース(800)からの前のテキスト、
前記前のテキストから合成された前のスピーチ、
前記現在の入力テキスト(502)に続く前記テキストソース(800)からの次のテキスト、または
前記前のテキストと前記前のテキストに関連する前のコンテキスト埋め込み(612)とに基づいて前記テキスト予測ネットワーク(520)によって予測された前のスタイル埋め込み(550)
のうちの少なくとも1つを含む、
請求項13に記載の方法(1000)。 - 前記テキストソース(800)が、テキスト文書を含み、
前記現在の入力テキスト(502)に関連する前記1つまたは複数のコンテキスト特徴(602)が、
前記テキスト文書のタイトル、
前記テキスト文書内の章のタイトル、
前記テキスト文書内の節のタイトル、
前記テキスト文書内の見出し、
前記テキスト文書内の1つもしくは複数の箇条書き、
前記テキスト文書から抽出された概念グラフからのエンティティ、または
前記テキスト文書から抽出された1つもしくは複数の構造化された回答表現
のうちの少なくとも1つを含む、
請求項13または14に記載の方法(1000)。 - 前記テキストソース(800)が、対話トランスクリプトを含み、
前記現在の入力テキスト(502)が、前記対話トランスクリプト内の現在のターンに対応し、
前記現在の入力テキスト(502)に関連する前記1つまたは複数のコンテキスト特徴(602)が、
前記対話トランスクリプト内の前のターンに対応する前記対話トランスクリプト内の前のテキスト、または
前記対話トランスクリプト内の次のターンに対応する前記対話トランスクリプト内の次のテキスト
のうちの少なくとも1つを含む、
請求項13から15のいずれか一項に記載の方法(1000)。 - 前記テキストソース(800)が、クエリ応答システムを備え、
前記現在の入力テキスト(502)が、前記クエリ応答システムにおいて受信された現在のクエリに対する応答に対応し、
前記現在の入力テキスト(502)に関連する前記1つまたは複数のコンテキスト特徴(602)が、
前記現在のクエリに関連するテキスト、もしくは前記クエリ応答システムにおいて受信されたクエリのシーケンスに関連するテキストであって、前記クエリのシーケンスが、前記現在のクエリと、前記現在のクエリに先行する1つもしくは複数のクエリを含む、テキスト、または
前記現在のクエリに関連するオーディオ特徴、もしくは前記クエリ応答システムにおいて受信された前記クエリのシーケンスに関連するオーディオ特徴
のうちの少なくとも1つを含む、
請求項13から16のいずれか一項に記載の方法(1000)。 - 前記出力オーディオ信号(670)を生成するステップが、
前記テキスト読み上げモデル(650)のエンコーダニューラルネットワーク(112)において、前記テキストソース(800)から前記現在の入力テキスト(502)を受信するステップと、
前記エンコーダニューラルネットワーク(112)を使用して、前記現在の入力テキスト(502)のそれぞれの符号化シーケンス(653)を生成するステップと、
前記テキスト読み上げモデル(650)の連結器(654)を使用して、前記現在の入力テキスト(502)の前記それぞれの符号化シーケンス(653)と前記スタイル埋め込み(550)との間の連結(655)を生成するステップと、
前記テキスト読み上げモデル(650)の注意ベースのデコーダリカレントニューラルネットワーク(118)において、デコーダ入力のシーケンスを受信するステップと、
前記デコーダ入力のシーケンス内のデコーダ入力ごとに、前記注意ベースのデコーダリカレントニューラルネットワーク(118)を使用して、前記出力オーディオ信号(670)のrフレームを生成するために、対応するデコーダ入力と、前記現在の入力テキスト(502)の前記それぞれの符号化シーケンス(653)と前記スタイル埋め込み(550)との間の前記連結(655)とを処理するステップであって、rが、1よりも大きい整数を含む、ステップと
を含む、
請求項13から17のいずれか一項に記載の方法(1000)。 - 前記現在の入力テキスト(502)の前記それぞれの符号化シーケンス(653)を生成するステップが、
前記エンコーダニューラルネットワーク(112)のエンコーダプレネットニューラルネットワーク(114)において、前記現在の入力テキスト(502)の文字のシーケンス内の各文字のそれぞれの埋め込みを受信するステップと、
前記文字のシーケンス内の文字ごとに、前記エンコーダプレネットニューラルネットワーク(114)を使用して、前記文字のそれぞれの変換された埋め込みを生成するために、前記それぞれの埋め込みを処理するステップと、
前記エンコーダニューラルネットワーク(112)のエンコーダCBHGニューラルネットワーク(116)を使用して、前記変換された埋め込みを処理することによって、前記現在の入力テキスト(502)のそれぞれの符号化シーケンス(653)を生成するステップと
を含む、
請求項18に記載の方法(1000)。 - 前記エンコーダCBHGニューラルネットワーク(116)が、1次元畳み込みフィルタのバンクを備え、その後にハイウェイネットワークが続き、その後に双方向リカレントニューラルネットワークが続く、請求項19に記載の方法(1000)。
- 前記現在の入力テキスト(502)のための前記スタイル埋め込み(550)を予測するステップが、
前記テキスト予測ネットワーク(520)の時間集約ゲート付き回帰型ユニット(GRU)リカレントニューラルネットワーク(RNN)を使用して、前記現在の入力テキスト(502)に関連する前記コンテキスト埋め込み(612)と前記現在の入力テキスト(502)の符号化シーケンス(653)とを処理することによって、固定長の特徴ベクトルを生成するステップと、
前記GRU-RNNに続く前記テキスト予測ネットワーク(520)の1つまたは複数の完全接続層を使用して、前記固定長の特徴ベクトルを処理することによって、前記スタイル埋め込み(550)を予測するステップと
を含む、
請求項13から20のいずれか一項に記載の方法(1000)。 - 前記1つまたは複数の完全接続層が、ReLUアクティベーションを使用する1つまたは複数の隠れ完全接続層と、前記予測されたスタイル埋め込み(550)を発するためにtanhアクティベーションを使用する出力層とを備える、請求項21に記載の方法(1000)。
- 前記コンテキストモデル(610)、前記テキスト予測ネットワーク(520)、および前記TTSモデル(650)が、共同でトレーニングされる、請求項13から22のいずれか一項に記載の方法(1000)。
- 2ステップトレーニング手順が、前記トレーニング手順の第1のステップ中にTTSモデル(650)をトレーニングし、前記トレーニング手順の第2のステップ中に前記コンテキストモデル(610)と前記テキスト予測ネットワーク(520)とを共同で別々にトレーニングする、請求項13から23のいずれか一項に記載の方法(1000)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022210470A JP2023036888A (ja) | 2019-08-03 | 2022-12-27 | エンドツーエンド音声合成システムにおける表現度の制御 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962882511P | 2019-08-03 | 2019-08-03 | |
US62/882,511 | 2019-08-03 | ||
PCT/US2020/042416 WO2021025844A1 (en) | 2019-08-03 | 2020-07-16 | Controlling expressivity in end-to-end speech synthesis systems |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022210470A Division JP2023036888A (ja) | 2019-08-03 | 2022-12-27 | エンドツーエンド音声合成システムにおける表現度の制御 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022536558A true JP2022536558A (ja) | 2022-08-17 |
JP7204989B2 JP7204989B2 (ja) | 2023-01-16 |
Family
ID=72050918
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022506820A Active JP7204989B2 (ja) | 2019-08-03 | 2020-07-16 | エンドツーエンド音声合成システムにおける表現度の制御 |
JP2022210470A Pending JP2023036888A (ja) | 2019-08-03 | 2022-12-27 | エンドツーエンド音声合成システムにおける表現度の制御 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022210470A Pending JP2023036888A (ja) | 2019-08-03 | 2022-12-27 | エンドツーエンド音声合成システムにおける表現度の制御 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11676573B2 (ja) |
EP (2) | EP4345815A2 (ja) |
JP (2) | JP7204989B2 (ja) |
KR (2) | KR102616214B1 (ja) |
CN (1) | CN114175143A (ja) |
WO (1) | WO2021025844A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11954577B2 (en) * | 2019-09-13 | 2024-04-09 | Intuit Inc. | Deep neural network based user segmentation |
US11282495B2 (en) * | 2019-12-12 | 2022-03-22 | Amazon Technologies, Inc. | Speech processing using embedding data |
US11562744B1 (en) * | 2020-02-13 | 2023-01-24 | Meta Platforms Technologies, Llc | Stylizing text-to-speech (TTS) voice response for assistant systems |
US11322133B2 (en) * | 2020-07-21 | 2022-05-03 | Adobe Inc. | Expressive text-to-speech utilizing contextual word-level style tokens |
KR102392904B1 (ko) * | 2020-09-25 | 2022-05-02 | 주식회사 딥브레인에이아이 | 텍스트 기반의 음성 합성 방법 및 장치 |
CN112017644B (zh) * | 2020-10-21 | 2021-02-12 | 南京硅基智能科技有限公司 | 一种声音变换系统、方法及应用 |
CN113096641B (zh) * | 2021-03-29 | 2023-06-13 | 北京大米科技有限公司 | 信息处理方法及装置 |
CN113327575B (zh) * | 2021-05-31 | 2024-03-01 | 广州虎牙科技有限公司 | 一种语音合成方法、装置、计算机设备和存储介质 |
CN113096638B (zh) * | 2021-06-09 | 2021-09-07 | 北京世纪好未来教育科技有限公司 | 语音合成模型训练方法、语音合成方法及装置 |
GB2607903A (en) * | 2021-06-14 | 2022-12-21 | Deep Zen Ltd | Text-to-speech system |
CN113838448B (zh) * | 2021-06-16 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 一种语音合成方法、装置、设备及计算机可读存储介质 |
CN113628610B (zh) * | 2021-08-12 | 2024-02-13 | 科大讯飞股份有限公司 | 一种语音合成方法和装置、电子设备 |
WO2023112095A1 (ja) * | 2021-12-13 | 2023-06-22 | 日本電信電話株式会社 | 音声合成装置、音声合成方法、及びプログラム |
CN115578995B (zh) * | 2022-12-07 | 2023-03-24 | 北京邮电大学 | 面向语音对话场景的语音合成方法、系统及存储介质 |
CN117153144B (zh) * | 2023-10-31 | 2024-02-06 | 杭州宇谷科技股份有限公司 | 基于端计算的电池信息语音播报方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150364128A1 (en) * | 2014-06-13 | 2015-12-17 | Microsoft Corporation | Hyper-structure recurrent neural networks for text-to-speech |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9195656B2 (en) * | 2013-12-30 | 2015-11-24 | Google Inc. | Multilingual prosody generation |
US9697820B2 (en) * | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11069335B2 (en) * | 2016-10-04 | 2021-07-20 | Cerence Operating Company | Speech synthesis using one or more recurrent neural networks |
US10475438B1 (en) * | 2017-03-02 | 2019-11-12 | Amazon Technologies, Inc. | Contextual text-to-speech processing |
US10796686B2 (en) * | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
EP3739572A4 (en) * | 2018-01-11 | 2021-09-08 | Neosapience, Inc. | METHOD AND DEVICE FOR TEXT-TO-LANGUAGE SYNTHESIS USING MACHINE LEARNING AND COMPUTER-READABLE STORAGE MEDIUM |
US10799795B1 (en) * | 2019-03-26 | 2020-10-13 | Electronic Arts Inc. | Real-time audio generation for electronic games based on personalized music preferences |
-
2020
- 2020-07-16 KR KR1020227004782A patent/KR102616214B1/ko active IP Right Grant
- 2020-07-16 WO PCT/US2020/042416 patent/WO2021025844A1/en active Application Filing
- 2020-07-16 CN CN202080055081.9A patent/CN114175143A/zh active Pending
- 2020-07-16 EP EP24156282.6A patent/EP4345815A2/en active Pending
- 2020-07-16 KR KR1020237043408A patent/KR20240001262A/ko active Application Filing
- 2020-07-16 US US16/931,336 patent/US11676573B2/en active Active
- 2020-07-16 EP EP20754849.6A patent/EP4007997B1/en active Active
- 2020-07-16 JP JP2022506820A patent/JP7204989B2/ja active Active
-
2022
- 2022-12-27 JP JP2022210470A patent/JP2023036888A/ja active Pending
-
2023
- 2023-05-09 US US18/314,556 patent/US20230274728A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150364128A1 (en) * | 2014-06-13 | 2015-12-17 | Microsoft Corporation | Hyper-structure recurrent neural networks for text-to-speech |
Non-Patent Citations (1)
Title |
---|
STANTON DAISY, ET AL.: ""PREDICTING EXPRESSIVE SPEAKING STYLE FROM TEXT IN END-TO-END SPEECH SYNTHESIS"", ARXIV.ORG[ONLINE], JPN6022039328, 4 August 2018 (2018-08-04), pages 1 - 8, ISSN: 0004877962 * |
Also Published As
Publication number | Publication date |
---|---|
KR20240001262A (ko) | 2024-01-03 |
US20230274728A1 (en) | 2023-08-31 |
EP4007997A1 (en) | 2022-06-08 |
JP2023036888A (ja) | 2023-03-14 |
JP7204989B2 (ja) | 2023-01-16 |
KR102616214B1 (ko) | 2023-12-21 |
EP4007997B1 (en) | 2024-03-27 |
US20210035551A1 (en) | 2021-02-04 |
EP4345815A2 (en) | 2024-04-03 |
KR20220035180A (ko) | 2022-03-21 |
US11676573B2 (en) | 2023-06-13 |
WO2021025844A1 (en) | 2021-02-11 |
CN114175143A (zh) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7204989B2 (ja) | エンドツーエンド音声合成システムにおける表現度の制御 | |
KR102579843B1 (ko) | 표현 E2E(end-to-end) 음성 합성에서의 변동 임베딩 용량 | |
CN110782870B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
US11929059B2 (en) | Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature | |
US20210295858A1 (en) | Synthesizing speech from text using neural networks | |
US10872598B2 (en) | Systems and methods for real-time neural text-to-speech | |
KR20230003056A (ko) | 비음성 텍스트 및 스피치 합성을 사용한 스피치 인식 | |
KR20230034423A (ko) | 2-레벨 스피치 운율 전송 | |
CN111771213A (zh) | 语音风格迁移 | |
KR20230156121A (ko) | 비지도 병렬 타코트론 비-자기회귀 및 제어 가능한 TTS(text-to-speech) | |
KR20230084229A (ko) | 병렬 타코트론: 비-자동회귀 및 제어 가능한 tts | |
US11475874B2 (en) | Generating diverse and natural text-to-speech samples | |
KR20200111609A (ko) | 음성 합성 장치 및 그 방법 | |
Shiga et al. | Text-to-speech synthesis | |
Liu et al. | Integrating Discrete Word-Level Style Variations into Non-Autoregressive Acoustic Models for Speech Synthesis. | |
Evrard | Transformers in automatic speech recognition | |
Barakat et al. | Deep learning-based expressive speech synthesis: a systematic review of approaches, challenges, and resources | |
Eirini | End-to-End Neural based Greek Text-to-Speech Synthesis | |
Oralbekova et al. | Current advances and algorithmic solutions in speech generation | |
Dou | Waveform level synthesis | |
CN117316140A (zh) | 语音合成方法、装置、设备、存储介质及程序产品 | |
Cornille | Controllable Expressive Speech Synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220301 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220301 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220301 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7204989 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |