JP7035225B2 - クロックワーク階層化変分エンコーダ - Google Patents
クロックワーク階層化変分エンコーダ Download PDFInfo
- Publication number
- JP7035225B2 JP7035225B2 JP2020563611A JP2020563611A JP7035225B2 JP 7035225 B2 JP7035225 B2 JP 7035225B2 JP 2020563611 A JP2020563611 A JP 2020563611A JP 2020563611 A JP2020563611 A JP 2020563611A JP 7035225 B2 JP7035225 B2 JP 7035225B2
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- level
- phoneme
- utterance
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims description 120
- 230000015654 memory Effects 0.000 claims description 55
- 230000005236 sound signal Effects 0.000 claims description 48
- 238000000034 method Methods 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 12
- 230000006403 short-term memory Effects 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 description 19
- 230000014509 gene expression Effects 0.000 description 14
- 238000004590 computer program Methods 0.000 description 8
- 238000013500 data storage Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
- G10L2013/105—Duration
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Description
120 コンピューティングシステム
122 データ処理ハードウェア
124 メモリハードウェア
150 テキスト音声(TTS)システム
152 合成音声
180 発話埋め込みストレージ、発話埋め込みデータストレージ、データストレージ、ストレージ
200 ディープニューラルネットワーク
300 制御可能韻律モデル、韻律モデル、モデル、クロックワーク階層化変分オートエンコーダ(CHiVE)、オートエンコーダ、変分オートエンコーダ
302 エンコーダ部分
310 デコーダ部分
500 コンピューティングデバイス
500a 標準サーバ、サーバ
500b ラップトップコンピュータ
500c ラックサーバシステム
510 プロセッサ、構成要素
520 メモリ、構成要素、非一時的メモリ
530 記憶デバイス、構成要素
540 高速インターフェース/コントローラ、構成要素
550 高速拡張ポート、構成要素
560 低速インターフェース/コントローラ、構成要素
570 低速バス
580 ディスプレイ
590 低速拡張ポート
Claims (26)
- データ処理ハードウェア(122)において、少なくとも1つの単語(250)を有するテキスト発話(320)を受信するステップであって、各単語(250)は少なくとも1つの音節(240)を有し、各音節(240)は少なくとも1つの音素(230)を有する、ステップと、
前記データ処理ハードウェア(122)によって、前記テキスト発話(320)用の発話埋め込み(260)を選択するステップであって、前記発話埋め込み(260)は、意図された韻律を表す、ステップと、
各音節(240)に対して、前記選択された発話埋め込み(260)を使って、
前記データ処理ハードウェア(122)によって、前記音節(240)の各音素(230)の言語特徴(232)を、前記音節(240)用の対応する韻律音節埋め込み(245)で符号化することによって、前記音節(240)の継続時間を予測するステップと、
前記データ処理ハードウェア(122)によって、前記音節(240)についての前記予測された継続時間に基づいて、前記音節(240)のピッチ輪郭(F0)を予測するステップと、
前記データ処理ハードウェア(122)によって、前記音節(240)についての前記予測された継続時間に基づいて、複数の固定長予測ピッチフレーム(280)を生成するステップであって、各固定長予測ピッチフレーム(280)は、前記音節(240)の前記予測されたピッチ輪郭(F0)の一部を表す、ステップと
を含む方法(400)。 - 前記テキスト発話(320)の階層状言語構造(200)を表すネットワークは、
前記テキスト発話(320)の各音節(240)を含む第1のレベルと、
前記テキスト発話(320)の各音素(230)を含む第2のレベルと、
前記テキスト発話(320)の各音節(240)についての各固定長予測ピッチフレームを含む第3のレベルと
を備える、請求項1に記載の方法(400)。 - 前記階層状言語構造(200)を表す前記ネットワークの前記第1のレベルは、前記テキスト発話(320)の各音節(240)を表す長短期メモリ(LSTM)処理セルを備え、
前記階層状言語構造(200)を表す前記ネットワークの前記第2のレベルは、前記テキスト発話(320)の各音素(230)を表すLSTM処理セルを備え、前記第2のレベルの前記LSTM処理セルは、前記第1のレベルの前記LSTM処理セルに相対して、かつそれらよりも速くクロックし、
前記階層状言語構造(200)を表す前記ネットワークの前記第3のレベルは、各固定長予測ピッチフレームを表すLSTM処理セルを備え、前記第3のレベルの前記LSTM処理セルは、前記第2のレベルの前記LSTM処理セルに相対して、かつそれらよりも速くクロックする、請求項2に記載の方法(400)。 - 前記音節(240)の前記継続時間を予測するステップは、
前記音節(240)に関連付けられた各音素(230)について、前記対応する音素(230)の前記言語特徴(232)を、前記音節(240)用の前記対応する韻律音節埋め込み(245)で符号化することによって、前記対応する音素(230)の継続時間(234)を予測するステップと、
前記音節(240)に関連付けられた各音素(230)についての前記予測された継続時間(234)を合計することによって、前記音節(240)の前記継続時間を判断するステップと
を含む、請求項1から3のいずれか一項に記載の方法(400)。 - 前記音節(240)についての前記予測された継続時間に基づいて、前記音節(240)の前記ピッチ輪郭(F0)を予測するステップは、前記音節(240)用の前記対応する韻律音節埋め込み(245)を、前記音節(240)に関連付けられた各対応する音素(230)の、前記対応する韻律音節埋め込み(245)および単音レベルの前記言語特徴(232)の各符号化と組み合わせるステップを含む、請求項4に記載の方法(400)。
- 各音節(240)に対して、前記選択された発話埋め込み(260)を使って、
前記データ処理ハードウェア(122)によって、前記音素(230)についての予測継続時間(234)に基づいて、前記音節(240)中の各音素(230)のエネルギー輪郭(C0)を予測するステップと、
前記音節(240)に関連付けられた各音素(230)について、前記データ処理ハードウェア(122)によって、前記対応する音素(230)についての前記予測継続時間(234)に基づいて、複数の固定長予測エネルギーフレーム(280)を生成するステップであって、各固定長エネルギーフレームは、前記対応する音素(230)の前記予測されたエネルギー輪郭(C0)を表す、ステップと
をさらに含む、請求項1から5のいずれか一項に記載の方法(400)。 - 階層状言語構造(200)は前記テキスト発話(320)を表し、前記階層状言語構造(200)は、
前記テキスト発話(320)の各音節(240)を含む第1のレベルと、
前記テキスト発話(320)の各音素(230)を含む第2のレベルと、
前記テキスト発話(320)の各音節(240)についての各固定長予測ピッチフレーム(280)を含む第3のレベルと、
前記第3のレベルと平行であり、かつ前記テキスト発話(320)の各音素(230)についての各固定長予測エネルギーフレーム(280)を含む第4のレベルと
を備える、請求項6に記載の方法(400)。 - 前記階層状言語構造(200)の前記第1のレベルは、前記テキスト発話(320)の各音節(240)を表す長短期メモリ(LSTM)処理セルを備え、
前記階層状言語構造(200)の前記第2のレベルは、前記テキスト発話(320)の各音素(230)を表すLSTM処理セルを備え、前記第2のレベルの前記LSTM処理セルは、前記第1のレベルの前記LSTM処理セルに相対して、かつそれらよりも速くクロックし、
前記階層状言語構造(200)の前記第3のレベルは、各固定長予測ピッチフレーム(280)を表すLSTM処理セルを備え、前記第3のレベルの前記LSTM処理セルは、前記第2のレベルの前記LSTM処理セルに相対して、かつそれらよりも速くクロックし、
前記階層状言語構造(200)の前記第4のレベルは、各固定長予測エネルギーフレーム(280)を表すLSTM処理セルを備え、前記第4のレベルの前記LSTM処理セルは、前記第3のレベルの前記LSTM処理セルと同じ速さでクロックし、前記第2のレベルの前記LSTM処理セルに相対して、かつそれらよりも速くクロックする、請求項7に記載の方法(400)。 - 前記階層状言語構造(200)の前記第3のレベルは、単一のパスで、各音節(240)についての前記固定長予測ピッチフレーム(280)を予測するフィードフォワードレイヤを備え、かつ/または
前記階層状言語構造(200)の前記第4のレベルは、単一のパスで、各音素(230)についての前記固定長予測エネルギーフレーム(280)を予測するフィードフォワードレイヤを備える、請求項7または8に記載の方法(400)。 - 前記固定長予測エネルギーフレーム(280)および前記固定長予測ピッチフレーム(280)の長さは同じである、請求項6から9のいずれか一項に記載の方法(400)。
- 前記受信されたテキスト発話(320)の各音素(230)用に生成された固定長予測エネルギーフレーム(280)の総数は、前記受信されたテキスト発話(320)の各音節(240)用に生成された前記固定長予測ピッチフレーム(280)の総数に等しい、請求項6から10のいずれか一項に記載の方法(400)。
- 前記発話埋め込み(260)は固定長数値ベクトルを含む、請求項1から11のいずれか一項に記載の方法(400)。
- 前記データ処理ハードウェア(122)によって、複数の基準オーディオ信号(222)を含むトレーニングデータを受信するステップであって、各基準オーディオ信号(222)は、人間音声の口頭発話を含み、かつ対応する韻律を有する、ステップと、
前記データ処理ハードウェア(122)によって、各基準オーディオ信号(222)を、前記基準オーディオ信号(222)の前記対応する韻律を表す対応する固定長発話埋め込み(260)に符号化することによって、韻律モデル(300)用のディープニューラルネットワーク(200)をトレーニングするステップと
をさらに含む、請求項1から12のいずれか一項に記載の方法(400)。 - データ処理ハードウェア(122)と、
前記データ処理ハードウェア(122)と通信するメモリハードウェア(124)と
を備えるシステム(100)であって、前記メモリハードウェア(124)は、前記データ処理ハードウェア(122)上で実行されると、前記データ処理ハードウェア(122)に動作を実施させる命令を記憶し、前記動作は、
少なくとも1つの単語(250)を有するテキスト発話(320)を受信することであって、各単語(250)は少なくとも1つの音節(240)を有し、各音節(240)は少なくとも1つの音素(230)を有する、受信することと、
前記テキスト発話(320)用の発話埋め込み(260)を選択することであって、前記発話埋め込み(260)は、意図された韻律を表す、選択することと、
各音節(240)に対して、前記選択された発話埋め込み(260)を使って、
前記音節(240)の各音素(230)の言語特徴(232)を、前記音節(240)用の対応する韻律音節埋め込み(245)で符号化することによって、前記音節(240)の継続時間を予測することと、
前記音節(240)についての前記予測された継続時間に基づいて、前記音節(240)のピッチ輪郭(F0)を予測することと、
前記音節(240)についての前記予測された継続時間に基づいて、複数の固定長予測ピッチフレーム(280)を生成することであって、各固定長予測ピッチフレーム(280)は、前記音節(240)の前記予測されたピッチ輪郭(F0)の一部を表す、生成することと
を含む、システム(100)。 - 前記テキスト発話(320)の階層状言語構造(200)を表すネットワークは、
前記テキスト発話(320)の各音節(240)を含む第1のレベルと、
前記テキスト発話(320)の各音素(230)を含む第2のレベルと、
前記テキスト発話(320)の各音節(240)についての各固定長予測ピッチフレームを含む第3のレベルと
を備える、請求項14に記載のシステム(100)。 - 前記階層状言語構造(200)を表す前記ネットワークの前記第1のレベルは、前記テキスト発話(320)の各音節(240)を表す長短期メモリ(LSTM)処理セルを備え、
前記階層状言語構造(200)を表す前記ネットワークの前記第2のレベルは、前記テキスト発話(320)の各音素(230)を表すLSTM処理セルを備え、前記第2のレベルの前記LSTM処理セルは、前記第1のレベルの前記LSTM処理セルに相対して、かつそれらよりも速くクロックし、
前記階層状言語構造(200)を表す前記ネットワークの前記第3のレベルは、各固定長予測ピッチフレームを表すLSTM処理セルを備え、前記第3のレベルの前記LSTM処理セルは、前記第2のレベルの前記LSTM処理セルに相対して、かつそれらよりも速くクロックする、請求項15に記載のシステム(100)。 - 前記音節(240)の前記継続時間を予測することは、
前記音節(240)に関連付けられた各音素(230)について、前記対応する音素(230)の前記言語特徴(232)を、前記音節(240)用の前記対応する韻律音節埋め込み(245)で符号化することによって、前記対応する音素(230)の継続時間(234)を予測することと、
前記音節(240)に関連付けられた各音素(230)についての前記予測された継続時間(234)を合計することによって、前記音節(240)の前記継続時間を判断することと
を含む、請求項14から16のいずれか一項に記載のシステム(100)。 - 前記音節(240)についての前記予測された継続時間に基づいて、前記音節(240)の前記ピッチ輪郭(F0)を予測することは、前記音節(240)用の前記対応する韻律音節埋め込み(245)を、前記音節(240)に関連付けられた各対応する音素(230)の、前記対応する韻律音節埋め込み(245)および単音レベルの前記言語特徴(232)の各符号化と組み合わせることを含む、請求項17に記載のシステム(100)。
- 前記動作は、各音節(240)に対して、前記選択された発話埋め込み(260)を使って、
前記対応する音素(230)についての予測継続時間に基づいて、前記音節(240)中の各音素(230)のエネルギー輪郭(C0)を予測することと、
前記音節(240)に関連付けられた各音素(230)について、前記対応する音素(230)についての前記予測継続時間(234)に基づいて、複数の固定長予測エネルギーフレーム(280)を生成することであって、各固定長エネルギーフレーム(280)は、前記対応する音素(230)の前記予測されたエネルギー輪郭(C0)を表す、生成することと
をさらに含む、請求項14から18のいずれか一項に記載のシステム(100)。 - 階層状言語構造(200)は前記テキスト発話(320)を表し、前記階層状言語構造(200)は、
前記テキスト発話(320)の各音節(240)を含む第1のレベルと、
前記テキスト発話(320)の各音素(230)を含む第2のレベルと、
前記テキスト発話(320)の各音節(240)についての各固定長予測ピッチフレーム(280)を含む第3のレベルと、
前記第3のレベルと平行であり、かつ前記テキスト発話(320)の各音素(230)についての各固定長予測エネルギーフレーム(280)を含む第4のレベルと
を備える、請求項19に記載のシステム(100)。 - 前記階層状言語構造(200)の前記第1のレベルは、前記テキスト発話(320)の各音節(240)を表す長短期メモリ(LSTM)処理セルを備え、
前記階層状言語構造(200)の前記第2のレベルは、前記テキスト発話(320)の各音素(230)を表すLSTM処理セルを備え、前記第2のレベルの前記LSTM処理セルは、前記第1のレベルの前記LSTM処理セルに相対して、かつそれらよりも速くクロックし、
前記階層状言語構造(200)の前記第3のレベルは、各固定長予測ピッチフレーム(280)を表すLSTM処理セルを備え、前記第3のレベルの前記LSTM処理セルは、前記第2のレベルの前記LSTM処理セルに相対して、かつそれらよりも速くクロックし、
前記階層状言語構造(200)の前記第4のレベルは、各固定長予測エネルギーフレーム(280)を表すLSTM処理セルを備え、前記第4のレベルの前記LSTM処理セルは、前記第3のレベルの前記LSTM処理セルと同じ速さでクロックし、前記第2のレベルの前記LSTM処理セルに相対して、かつそれらよりも速くクロックする、請求項20に記載のシステム(100)。 - 前記階層状言語構造(200)の前記第3のレベルは、単一のパスで、各音節(240)についての前記固定長予測ピッチフレーム(280)を予測するフィードフォワードレイヤを備え、かつ/または
前記階層状言語構造(200)の前記第4のレベルは、単一のパスで、各音素(230)についての前記固定長予測エネルギーフレーム(280)を予測するフィードフォワードレイヤを備える、請求項20または21に記載のシステム(100)。 - 前記固定長予測エネルギーフレーム(280)および前記固定長予測ピッチフレーム(280)の長さは同じである、請求項19から22のいずれか一項に記載のシステム(100)。
- 前記受信されたテキスト発話(320)の各音素(230)用に生成された固定長予測エネルギーフレーム(280)の総数は、前記受信されたテキスト発話(320)の各音節(240)用に生成された前記固定長予測ピッチフレーム(280)の総数に等しい、請求項19から23のいずれか一項に記載のシステム(100)。
- 前記発話埋め込み(260)は固定長数値ベクトルを含む、請求項14から24のいずれか一項に記載のシステム(100)。
- 前記動作は、
複数の基準オーディオ信号(222)を含むトレーニングデータを受信することであって、各基準オーディオ信号(222)は、人間音声の口頭発話を含み、かつ対応する韻律を有する、受信することと、
各基準オーディオ信号(222)を、前記基準オーディオ信号(222)の前記対応する韻律を表す対応する固定長発話埋め込み(260)に符号化することによって、韻律モデル(300)用のディープニューラルネットワーク(200)をトレーニングすることと
をさらに含む、請求項14から25のいずれか一項に記載のシステム(100)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022030966A JP7376629B2 (ja) | 2018-05-11 | 2022-03-01 | クロックワーク階層化変分エンコーダ |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862670384P | 2018-05-11 | 2018-05-11 | |
US62/670,384 | 2018-05-11 | ||
PCT/US2019/027279 WO2019217035A1 (en) | 2018-05-11 | 2019-04-12 | Clockwork hierarchical variational encoder |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022030966A Division JP7376629B2 (ja) | 2018-05-11 | 2022-03-01 | クロックワーク階層化変分エンコーダ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021521492A JP2021521492A (ja) | 2021-08-26 |
JP7035225B2 true JP7035225B2 (ja) | 2022-03-14 |
Family
ID=66323968
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020563611A Active JP7035225B2 (ja) | 2018-05-11 | 2019-04-12 | クロックワーク階層化変分エンコーダ |
JP2022030966A Active JP7376629B2 (ja) | 2018-05-11 | 2022-03-01 | クロックワーク階層化変分エンコーダ |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022030966A Active JP7376629B2 (ja) | 2018-05-11 | 2022-03-01 | クロックワーク階層化変分エンコーダ |
Country Status (6)
Country | Link |
---|---|
US (2) | US10923107B2 (ja) |
EP (1) | EP3776531A1 (ja) |
JP (2) | JP7035225B2 (ja) |
KR (2) | KR102464338B1 (ja) |
CN (2) | CN112005298B (ja) |
WO (1) | WO2019217035A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102401512B1 (ko) * | 2018-01-11 | 2022-05-25 | 네오사피엔스 주식회사 | 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
US11264010B2 (en) * | 2018-05-11 | 2022-03-01 | Google Llc | Clockwork hierarchical variational encoder |
KR102464338B1 (ko) * | 2018-05-11 | 2022-11-07 | 구글 엘엘씨 | 클록워크 계층적 변이 인코더 |
EP3576019A1 (en) * | 2018-05-29 | 2019-12-04 | Nokia Technologies Oy | Artificial neural networks |
KR20200015418A (ko) * | 2018-08-02 | 2020-02-12 | 네오사피엔스 주식회사 | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
US11404045B2 (en) * | 2019-08-30 | 2022-08-02 | Samsung Electronics Co., Ltd. | Speech synthesis method and apparatus |
US11373633B2 (en) * | 2019-09-27 | 2022-06-28 | Amazon Technologies, Inc. | Text-to-speech processing using input voice characteristic data |
CN114746935A (zh) * | 2019-12-10 | 2022-07-12 | 谷歌有限责任公司 | 基于注意力的时钟层次变分编码器 |
US11562744B1 (en) * | 2020-02-13 | 2023-01-24 | Meta Platforms Technologies, Llc | Stylizing text-to-speech (TTS) voice response for assistant systems |
US11881210B2 (en) * | 2020-05-05 | 2024-01-23 | Google Llc | Speech synthesis prosody using a BERT model |
CN111724809A (zh) * | 2020-06-15 | 2020-09-29 | 苏州意能通信息技术有限公司 | 一种基于变分自编码器的声码器实现方法及装置 |
US11514888B2 (en) * | 2020-08-13 | 2022-11-29 | Google Llc | Two-level speech prosody transfer |
US11232780B1 (en) * | 2020-08-24 | 2022-01-25 | Google Llc | Predicting parametric vocoder parameters from prosodic features |
CN112542153B (zh) * | 2020-12-02 | 2024-07-16 | 北京沃东天骏信息技术有限公司 | 时长预测模型训练方法和装置、语音合成方法和装置 |
KR20240022598A (ko) * | 2021-06-30 | 2024-02-20 | 구글 엘엘씨 | 셀프 지도 스피치 사전 트레이닝에서 텍스트 삽입하기 |
KR20240030714A (ko) * | 2022-08-31 | 2024-03-07 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017168870A1 (ja) | 2016-03-28 | 2017-10-05 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995030193A1 (en) * | 1994-04-28 | 1995-11-09 | Motorola Inc. | A method and apparatus for converting text into audible signals using a neural network |
WO2003019528A1 (fr) * | 2001-08-22 | 2003-03-06 | International Business Machines Corporation | Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal |
CN101064103B (zh) * | 2006-04-24 | 2011-05-04 | 中国科学院自动化研究所 | 基于音节韵律约束关系的汉语语音合成方法及系统 |
CN102254554B (zh) * | 2011-07-18 | 2012-08-08 | 中国科学院自动化研究所 | 一种对普通话重音进行层次化建模和预测的方法 |
CN102270449A (zh) | 2011-08-10 | 2011-12-07 | 歌尔声学股份有限公司 | 参数语音合成方法和系统 |
CN105185373B (zh) * | 2015-08-06 | 2017-04-05 | 百度在线网络技术(北京)有限公司 | 韵律层级预测模型的生成及韵律层级预测方法和装置 |
CN105244020B (zh) * | 2015-09-24 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 韵律层级模型训练方法、语音合成方法及装置 |
US10366165B2 (en) * | 2016-04-15 | 2019-07-30 | Tata Consultancy Services Limited | Apparatus and method for printing steganography to assist visually impaired |
TWI595478B (zh) * | 2016-04-21 | 2017-08-11 | 國立臺北大學 | 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法 |
JP2018004977A (ja) * | 2016-07-04 | 2018-01-11 | 日本電信電話株式会社 | 音声合成方法、システム及びプログラム |
US11069335B2 (en) | 2016-10-04 | 2021-07-20 | Cerence Operating Company | Speech synthesis using one or more recurrent neural networks |
CN107464559B (zh) * | 2017-07-11 | 2020-12-15 | 中国科学院自动化研究所 | 基于汉语韵律结构和重音的联合预测模型构建方法及系统 |
US11264010B2 (en) * | 2018-05-11 | 2022-03-01 | Google Llc | Clockwork hierarchical variational encoder |
KR102464338B1 (ko) * | 2018-05-11 | 2022-11-07 | 구글 엘엘씨 | 클록워크 계층적 변이 인코더 |
US11222621B2 (en) * | 2019-05-23 | 2022-01-11 | Google Llc | Variational embedding capacity in expressive end-to-end speech synthesis |
US11222620B2 (en) * | 2020-05-07 | 2022-01-11 | Google Llc | Speech recognition using unspoken text and speech synthesis |
US11232780B1 (en) * | 2020-08-24 | 2022-01-25 | Google Llc | Predicting parametric vocoder parameters from prosodic features |
-
2019
- 2019-04-12 KR KR1020217036742A patent/KR102464338B1/ko active IP Right Grant
- 2019-04-12 CN CN201980027064.1A patent/CN112005298B/zh active Active
- 2019-04-12 US US16/382,722 patent/US10923107B2/en active Active
- 2019-04-12 WO PCT/US2019/027279 patent/WO2019217035A1/en unknown
- 2019-04-12 CN CN202311432566.7A patent/CN117524188A/zh active Pending
- 2019-04-12 JP JP2020563611A patent/JP7035225B2/ja active Active
- 2019-04-12 EP EP19720289.8A patent/EP3776531A1/en active Pending
- 2019-04-12 KR KR1020207032596A patent/KR102327614B1/ko active IP Right Grant
-
2021
- 2021-01-13 US US17/147,548 patent/US11393453B2/en active Active
-
2022
- 2022-03-01 JP JP2022030966A patent/JP7376629B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017168870A1 (ja) | 2016-03-28 | 2017-10-05 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
Non-Patent Citations (1)
Title |
---|
田中宏他,VAE-SPACE:音声F0パターンの深層生成モデル,日本音響学会2018年春季研究発表会講演論文集[CD-ROM],2018年03月,pp.229-230 |
Also Published As
Publication number | Publication date |
---|---|
CN117524188A (zh) | 2024-02-06 |
KR20210138155A (ko) | 2021-11-18 |
WO2019217035A1 (en) | 2019-11-14 |
US10923107B2 (en) | 2021-02-16 |
US11393453B2 (en) | 2022-07-19 |
US20190348020A1 (en) | 2019-11-14 |
JP7376629B2 (ja) | 2023-11-08 |
KR102464338B1 (ko) | 2022-11-07 |
JP2022071074A (ja) | 2022-05-13 |
US20210134266A1 (en) | 2021-05-06 |
EP3776531A1 (en) | 2021-02-17 |
KR102327614B1 (ko) | 2021-11-17 |
KR20200141497A (ko) | 2020-12-18 |
CN112005298B (zh) | 2023-11-07 |
JP2021521492A (ja) | 2021-08-26 |
CN112005298A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7035225B2 (ja) | クロックワーク階層化変分エンコーダ | |
US11664011B2 (en) | Clockwork hierarchal variational encoder | |
JP2024023421A (ja) | 2レベル音声韻律転写 | |
WO2021225830A1 (en) | Speech synthesis prosody using a bert model | |
KR102594081B1 (ko) | 운율적 특징들로부터 파라메트릭 보코더 파라미터들을 예측하기 | |
JP7362929B2 (ja) | アテンションベースのクロックワーク階層型変分エンコーダ | |
EP4352724A1 (en) | Two-level text-to-speech systems using synthetic training data | |
US12080272B2 (en) | Attention-based clockwork hierarchical variational encoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220131 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220302 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7035225 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |