JP2023535230A - 2レベル音声韻律転写 - Google Patents
2レベル音声韻律転写 Download PDFInfo
- Publication number
- JP2023535230A JP2023535230A JP2023509803A JP2023509803A JP2023535230A JP 2023535230 A JP2023535230 A JP 2023535230A JP 2023509803 A JP2023509803 A JP 2023509803A JP 2023509803 A JP2023509803 A JP 2023509803A JP 2023535230 A JP2023535230 A JP 2023535230A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- embeddings
- representation
- prosody
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013518 transcription Methods 0.000 title description 33
- 230000035897 transcription Effects 0.000 title description 33
- 230000005236 sound signal Effects 0.000 claims abstract description 92
- 238000000034 method Methods 0.000 claims abstract description 58
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 94
- 230000015654 memory Effects 0.000 claims description 54
- 238000012545 processing Methods 0.000 claims description 47
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 11
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 230000001537 neural effect Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003750 conditioning effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000012447 hatching Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
Description
20 韻律バーティカル
20A~N 韻律バーティカル
20A 韻律バーティカル、ニュース読み上げ韻律バーティカル
20B 韻律バーティカル、スポーツコメンテータ、スポーツコメンテータ韻律バーティカル
20N 韻律バーティカル、教育講師韻律バーティカル
100 システム
104 トレーニングオーディオ信号、発話、グラウンドトゥルース発話
106 トランスクリプト
116 話者埋め込み
118 メル周波数スペクトログラム
118P メル周波数スペクトログラム
120 コンピューティングシステム
122 データ処理ハードウェア
124 メモリハードウェア
150 音声合成器、合成器、波形合成器、畳み込み波形合成器
152 表現的音声、合成音声、音声
155 ボコーダ、ボコーダネットワーク、WaveRNNボコーダ、WaveNetニューラルボコーダ
180 データ記憶装置
200 2段階韻律転写システム、2レベル韻律転写システム、韻律転写システム、システム
200A~N 韻律転写システム
200a 韻律転写システム
200b 韻律転写システム
201 中間出力信号、中間出力オーディオ信号、メル周波数スペクトログラム
202 中間合成音声表現
202T 基準オーディオ信号、トレーニング合成音声表現、合成音声表現、トレーニング中間合成音声表現、基準オーディオ信号
204 固定長発話埋め込み、発話埋め込み
206 トランスクリプト
210 第1のTTSシステム
211 固定長の基準フレーム、基準フレーム、固定長の基準メル周波数スペクトログラムフレーム、基準メル周波数スペクトログラムフレーム、
212 第1のテキスト音声(TTS)モデル
214 抽出器
220 第2のTTSシステム
222 第2のTTSモデル
222a 第2のTTSモデル、VAEベースの第2のTTSモデル、CHiVEベースの第2のTTSモデル、モデル、クロックワーク階層変分オートエンコーダ、オートエンコーダ、VAEベースのTTSモデル
222b シーケンス間特徴予測ネットワークベースの第2のTTSモデル、S2Sベースの第2のTTSモデル、モデル、TTSモデル
242 残差
244 加算器
270 BERTモデル
272 語単位
280 出力オーディオ信号、予測出力オーディオ信号、オーディオ信号、予測出力フレーム、固定長の予測フレーム、フレーム、固定長フレーム、予測固定長フレーム、予測フレーム、予測メル周波数スペクトログラムフレーム
280M0 固定長の予測メル周波数スペクトログラムフレーム
300 エンコーダ部分
300a エンコーダ部分、エンコーダ
302 韻律表現
320 テキスト発話、入力テキスト発話、入力テキスト
321 音素
321Aa1~Aa2 音素
321Aa1~321Cb2 音素
321Ba1~Ba3 音素
321a 音素
321b 音素
322 音素レベルの言語特徴、言語特徴、符号化ブロック、ブロック
322Aa1~Cb2 音素レベルの言語特徴、符号化ブロック
322Aa 符号化ブロック、第1のブロック
322Ab 符号化ブロック、第2のブロック
322Ba 符号化ブロック、第3のブロック
322Ca 符号化ブロック、第4のブロック
322Cb 符号化ブロック、第5のブロック
324 語埋め込み
325 入力
330 音節、音節レベル、第1の音節、第2の音節
330A 音節
330Aa 音節、第1の音節
330Ab 音節、第2の音節
330a 音節
330B 音節
330Ba 音節、第1の音節
330b 音節
330Ca 音節、第1の音節
330Cb 音節、第2の音節
332 フレームベースの音節埋め込み、音節埋め込み
332Aa~Cb フレームベースの音節埋め込み
334 音素特徴ベースの音節埋め込み、音節埋め込み
334Aa~Cb 音素特徴ベースの音節埋め込み
335 固定長の音節埋め込み
336 音節レベルの言語特徴、言語特徴
336Ac~Cb 音節レベルの言語特徴
340 語、第1の語、第2の語、第3の語、語レベル
340A 語
340a 語、第1の語、
340B 第2の語、語
340b 語
340C 第3の語、語
342 語埋め込み、WP埋め込み、言語特徴、語レベルの言語特徴
342A~C WP埋め込み
350 文
350a 文
350A 文
352 言語特徴、文レベルの言語特徴
352A 文レベルの言語特徴
400 デコーダ部分
400a デコーダ部分
400b デコーダ、デコーダ部分
410 プレネット
420 超短期間メモリ(LSTM)サブネットワーク
430 線形投影
440 畳み込みポストネット
500 方法
502 メル周波数スペクトログラム
600 コンピューティングデバイス
600a 標準サーバ、サーバ
600b ラップトップコンピュータ
600c ラックサーバシステム
610 プロセッサ、構成要素
620 メモリ、構成要素、非一時的メモリ
630 記憶デバイス、構成要素
640 高速インターフェース/コントローラ、構成要素
650 高速拡張ポート、構成要素
660 低速インターフェース/コントローラ、構成要素
670 低速バス
680 ディスプレイ
690 低速拡張ポート
Claims (30)
- 方法(500)であって、
データ処理ハードウェア(122)において、意図される韻律およびターゲット音声を有する表現的音声(152)に合成されることになる入力テキスト発話(320)を受信するステップと、
前記データ処理ハードウェア(122)によって、第1のテキスト音声(TTS)モデル(212)を使用して、前記入力テキスト発話(320)に対する中間合成音声表現(202)を生成するステップであって、前記中間合成音声表現(202)が前記意図される韻律を有する、生成するステップと、
前記データ処理ハードウェア(122)によって、前記中間合成音声表現(202)を第2のTTSモデル(222)に提供するステップであって、前記第2のTTSモデル(222)が、
前記中間合成音声表現(202)を前記意図される韻律を指定する発話埋め込み(204)に符号化するように構成されたエンコーダ部分(300)と、
前記入力テキスト発話(320)および前記発話埋め込み(204)を処理して、表現的音声(152)の出力オーディオ信号(280)を生成するように構成されたデコーダ部分(400)と
を含み、前記出力オーディオ信号(280)が、前記発話埋め込み(204)によって指定された前記意図される韻律および前記ターゲット音声の話者特性を有する、提供するステップと
を含む、方法(500)。 - 前記データ処理ハードウェア(122)によって、前記中間合成音声表現(202)が有する前記意図される韻律を表す韻律特徴を提供する固定長の基準フレーム(211)のシーケンスを前記中間合成音声表現(202)からサンプリングするステップ
をさらに含み、
前記中間合成音声表現(202)を前記第2のTTSモデル(222)に前記提供するステップが、前記中間合成音声表現(202)からサンプリングされた固定長の基準フレーム(211)の前記シーケンスを前記エンコーダ部分(300)に提供するステップであって、前記エンコーダ部分(300)が、固定長の基準フレーム(211)の前記シーケンスを前記発話埋め込み(204)に符号化するように構成される、提供するステップを含む、
請求項1に記載の方法(500)。 - 前記中間合成音声表現(202)が有する前記意図される韻律を表す前記韻律特徴が、持続時間、ピッチ輪郭、エネルギー輪郭、および/またはメル周波数スペクトログラム輪郭を含む、請求項2に記載の方法(500)。
- 前記エンコーダ部分(300)が、前記中間合成音声表現(202)内の各音節(330)に対して、
前記音節(330)内の各音素(321)に関連する音素レベルの言語特徴(322)を音素特徴ベースの音節埋め込み(334)に符号化することと、
前記音節(330)に関連する前記固定長の基準フレーム(211)をフレームベースの音節埋め込み(334)に符号化することであって、前記フレームベースの音節埋め込み(334)が、前記対応する音節(330)に関連する持続時間、ピッチ、および/またはエネルギーを示す、符号化することと、
前記音節(330)に関連する音節レベルの言語特徴(336)と、前記中間合成音声表現(202)に関連する文レベルの言語特徴(352)と、前記対応する音節(330)を含む語(340)に関連する語レベルの言語特徴(342)とを備えた前記音素特徴ベースおよびフレームベースの音節埋め込み(332、334)を前記音節(330)に対する対応する韻律音節埋め込み(335)に符号化することと
によって、固定長の基準フレーム(211)の前記シーケンスを前記発話埋め込み(204)に符号化するように構成される
請求項2または3に記載の方法(500)。 - 前記語レベルの言語特徴(342)が、前記入力テキスト発話(320)からトランスフォーマーからの双方向エンコーダ表現(BERT)モデルによって生成されたワードピース埋め込みのシーケンスから取得されるワードピース埋め込みを含む、請求項4に記載の方法(500)。
- 前記デコーダ部分(400)が、前記入力テキスト発話(320)を使用して、前記対応する発話埋め込み(204)を前記入力テキスト発話(320)の韻律表現(302)を提供する固定長の予測フレーム(280)のシーケンスに復号することによって、前記入力テキスト発話(320)および前記発話埋め込み(204)を処理して、前記出力オーディオ信号(280)を生成するように構成され、前記韻律表現(302)が、前記発話埋め込み(204)によって指定された前記意図される韻律を表す、請求項2から5のいずれか一項に記載の方法(500)。
- 前記第2のTTSモデル(222)が、前記デコーダ部分(400)によって復号される前記固定長の予測フレーム(280)の数が前記中間合成音声表現(202)からサンプリングされる前記固定長の基準フレームの数と等しくなるようにトレーニングされる、請求項6に記載の方法(500)。
- 前記発話埋め込み(204)が固定長の数値ベクトルを含む、請求項1から7のいずれか一項に記載の方法(500)。
- 前記中間合成音声表現(202)が、前記意図される韻律をキャプチャするオーディオ波形またはメル周波数スペクトログラム(502)のシーケンスを含み、
前記中間合成音声表現(202)を前記第2のTTSモデル(222)に前記提供するステップが、前記オーディオ波形またはメル周波数スペクトログラム(502)の前記シーケンスを前記エンコーダ部分(300)に提供するステップを含み、前記エンコーダ部分(300)が、前記オーディオ波形またはメル周波数スペクトログラム(502)の前記シーケンスを前記発話埋め込み(204)に符号化するように構成される
請求項1から8のいずれか一項に記載の方法(500)。 - 前記データ処理ハードウェア(122)によって、前記ターゲット音声の前記話者特性を表す話者埋め込み(116)を取得するステップと、
前記データ処理ハードウェア(122)によって、前記話者埋め込み(116)を前記第2のTTSモデル(222)の前記デコーダ部分(400)に提供するステップであって、前記デコーダ部分(400)が、前記入力テキスト発話(320)、前記発話埋め込み(204)、および前記話者埋め込み(116)を処理して、表現的音声(152)の前記出力オーディオ信号(280)を生成するように構成される、提供するステップと
をさらに含む、請求項1から9のいずれか一項に記載の方法(500)。 - 前記第1のTTSモデル(212)を使用して生成された前記中間合成音声表現(202)が、前記ターゲット音声の前記話者特性に欠け、望ましくない音響アーティファクトを含む中間音声を含む、請求項1から10のいずれか一項に記載の方法(500)。
- 前記データ処理ハードウェア(122)において、複数のトレーニングオーディオ信号(104)および対応するトランスクリプト(106)を含むトレーニングデータ(10)を受信するステップであって、各トレーニングオーディオ信号(104)が、前記意図される韻律に関連する韻律領域/バーティカルにおいて対応する話者が話した前記意図される韻律を有する人間音声の発話を含み、各トランスクリプト(106)が、前記対応するトレーニングオーディオ信号(104)のテキスト表現を含む、受信するステップと、
前記トレーニングデータ(10)の各対応するトランスクリプト(106)に対して、
前記データ処理ハードウェア(122)によって、人間音声の前記対応する発話の前記意図される韻律をキャプチャするトレーニング合成音声表現を含む、対応する基準オーディオ信号を生成するように前記第1のTTSモデル(212)をトレーニングするステップと、
前記データ処理ハードウェア(122)によって、前記対応するトレーニング合成音声表現を前記トレーニング合成音声表現によってキャプチャされた前記意図される韻律を表す、対応する発話埋め込み(204)に符号化することによって、前記第2のTTSモデル(222)の前記エンコーダ部分(300)をトレーニングするステップと、
前記データ処理ハードウェア(122)によって、前記トレーニングデータ(10)の前記対応するトランスクリプト(106)を使用して、前記エンコーダ部分(300)によって符号化された前記対応する発話埋め込み(204)を前記意図される韻律を有する表現的音声(152)の予測出力オーディオ信号(280)に復号することによって、前記第2のTTSモデル(222)の前記デコーダ部分(400)をトレーニングするステップと、
前記予測出力オーディオ信号(280)と前記対応する基準オーディオ信号との間の勾配/損失を生成するステップと、
前記第2のTTSモデル(222)を通して前記勾配/損失を逆伝搬するステップと
をさらに含む、請求項1から11のいずれか一項に記載の方法(500)。 - 前記第1のTTSモデル(212)および前記第2のTTSモデル(222)が別個にトレーニングされる、請求項1から12のいずれか一項に記載の方法(500)。
- 前記第1のTTSモデル(212)が、第1のニューラルネットワークアーキテクチャを含み、前記第2のTTSモデル(222)が、前記第1のニューラルネットワークアーキテクチャとは異なる第2のニューラルネットワークアーキテクチャを含む、請求項1から13のいずれか一項に記載の方法(500)。
- 前記第1のTTSモデル(212)および前記第2のTTSモデル(222)が同じニューラルネットワークアーキテクチャを含む、請求項1から14のいずれか一項に記載の方法(500)。
- システム(100)であって、
データ処理ハードウェア(122)と、
前記データ処理ハードウェア(122)と通信するメモリハードウェア(124)と
を含み、前記メモリハードウェア(124)が、前記データ処理ハードウェア(122)上で実行されると、前記データ処理ハードウェア(122)に動作を実行させる命令を記憶し、前記動作が、
意図される韻律およびターゲット音声を有する表現的音声(152)に合成されることになる入力テキスト発話(320)を受信することと、
第1のテキスト音声(TTS)モデルを使用して、前記入力テキスト発話(320)に対する中間合成音声表現(202)を生成することであって、前記中間合成音声表現(202)が前記意図される韻律を有する、生成することと、
前記中間合成音声表現(202)を第2のTTSモデル(222)に提供することと
を含み、前記第2のTTSモデル(222)が、
前記中間合成音声表現(202)を前記意図される韻律を指定する発話埋め込み(204)に符号化するように構成されたエンコーダ部分(300)と、
前記入力テキスト発話(320)および前記発話埋め込み(204)を処理して、表現的音声(152)の出力オーディオ信号(280)を生成することであって、前記出力オーディオ信号(280)が、前記発話埋め込み(204)によって指定された前記意図される韻律および前記ターゲット音声の話者特性を有する、生成することを行うように構成されたデコーダ部分(400)と
を含む、システム(100)。 - 前記動作が、
前記中間合成音声表現(202)が有する前記意図される韻律を表す韻律特徴を提供する固定長の基準フレーム(211)のシーケンスを前記中間合成音声表現(202)からサンプリングすること
をさらに含み、
前記中間合成音声表現(202)を前記第2のTTSモデル(222)に前記提供することが、前記中間合成音声表現(202)からサンプリングされた固定長の基準フレーム(211)の前記シーケンスを前記エンコーダ部分(300)に提供することであって、前記エンコーダ部分(300)が、固定長の基準フレーム(211)の前記シーケンスを前記発話埋め込み(204)に符号化するように構成される、提供することを含む、
請求項16に記載のシステム(100)。 - 前記中間合成音声表現(202)が有する前記意図される韻律を表す前記韻律特徴が、持続時間、ピッチ輪郭、エネルギー輪郭、および/またはメル周波数スペクトログラム輪郭を含む、請求項17に記載のシステム(100)。
- 前記エンコーダ部分(300)が、前記中間合成音声表現(202)内の各音節(330)に対して、
前記音節(330)内の各音素(321)に関連する音素レベルの言語特徴(322)を音素特徴ベースの音節埋め込み(334)に符号化することと、
前記音節(330)に関連する前記固定長の基準フレーム(211)をフレームベースの音節埋め込み(334)に符号化することであって、前記フレームベースの音節埋め込み(334)が、前記対応する音節(330)に関連する持続時間、ピッチ、および/またはエネルギーを示す、符号化することと、
前記音節(330)に関連する音節レベルの言語特徴(336)、前記中間合成音声表現(202)に関連する文レベルの言語特徴(352)、および前記対応する音節(330)を含む語に関連する語レベルの言語特徴(342)を備えた前記音素特徴ベースおよびフレームベースの音節埋め込み(332、334)を前記音節(330)に対する対応する韻律音節埋め込み(335)に符号化することと
によって、固定長の基準フレーム(211)の前記シーケンスを前記発話埋め込み(204)に符号化するように構成される
請求項17または18に記載のシステム(100)。 - 前記語レベルの言語特徴(342)が、前記入力テキスト発話(320)からトランスフォーマーからの双方向エンコーダ表現(BERT)モデルによって生成されたワードピース埋め込みのシーケンスから取得されるワードピース埋め込みを含む、請求項19に記載のシステム(100)。
- 前記デコーダ部分(400)が、前記入力テキスト発話(320)を使用して、前記対応する発話埋め込み(204)を前記入力テキスト発話(320)の韻律表現(302)を提供する固定長の予測フレーム(280)のシーケンスに復号することによって、前記入力テキスト発話(320)および前記発話埋め込み(204)を処理して、前記出力オーディオ信号(280)を生成するように構成され、前記韻律表現(302)が、前記発話埋め込み(204)によって指定された前記意図される韻律を表す、請求項16から20のいずれか一項に記載のシステム(100)。
- 前記第2のTTSモデル(222)が、前記デコーダ部分(400)によって復号される前記固定長の予測フレーム(280)の数が前記中間合成音声表現(202)からサンプリングされる前記固定長の基準フレーム(211)の数と等しくなるようにトレーニングされる、請求項21に記載のシステム(100)。
- 前記発話埋め込み(204)が固定長の数値ベクトルを含む、請求項16から22のいずれか一項に記載のシステム(100)。
- 前記中間合成音声表現(202)が、前記意図される韻律をキャプチャするオーディオ波形またはメル周波数スペクトログラム(502)のシーケンスを含み、
前記中間合成音声表現(202)を前記第2のTTSモデル(222)に前記提供することが、前記オーディオ波形またはメル周波数スペクトログラム(502)の前記シーケンスを前記エンコーダ部分(300)に提供することを含み、前記エンコーダ部分(300)が、前記オーディオ波形またはメル周波数スペクトログラム(502)の前記シーケンスを前記発話埋め込み(204)に符号化するように構成される
請求項16から23のいずれか一項に記載のシステム(100)。 - 前記動作が、
前記ターゲット音声の前記話者特性を表す話者埋め込み(116)を取得することと、
前記話者埋め込み(116)を前記第2のTTSモデル(222)の前記デコーダ部分(400)に提供することであって、前記デコーダ部分(400)が、前記入力テキスト発話(320)、前記発話埋め込み(204)、および前記話者埋め込み(116)を処理して、表現的音声(152)の前記出力オーディオ信号(280)を生成するように構成される、提供することと
をさらに含む、請求項16から24のいずれか一項に記載のシステム(100)。 - 前記第1のTTSモデル(212)を使用して生成された前記中間合成音声表現(202)が、前記ターゲット音声の前記話者特性に欠け、望ましくない音響アーティファクトを含む中間音声を含む、請求項16から25のいずれか一項に記載のシステム(100)。
- 前記動作が、
複数のトレーニングオーディオ信号(104)および対応するトランスクリプト(106)を含むトレーニングデータ(10)を受信することであって、各トレーニングオーディオ信号(104)が、前記意図される韻律に関連する韻律領域/バーティカルにおいて対応する話者が話した前記意図される韻律を有する人間音声の発話を含み、各トランスクリプト(106)が、前記対応するトレーニングオーディオ信号(104)のテキスト表現を含む、受信することと、
前記トレーニングデータ(10)の各対応するトランスクリプト(106)に対して、
人間音声の前記対応する発話の前記意図される韻律をキャプチャするトレーニング合成音声表現を含む、対応する基準オーディオ信号を生成するように前記第1のTTSモデル(212)をトレーニングすることと、
前記対応するトレーニング合成音声表現を前記トレーニング合成音声表現によってキャプチャされる前記意図される韻律を表す、対応する発話埋め込み(204)に符号化することによって、前記第2のTTSモデル(222)の前記エンコーダ部分(300)をトレーニングすることと、
前記トレーニングデータ(10)の前記対応するトランスクリプト(106)を使用して、前記エンコーダ部分(300)によって符号化された前記対応する発話埋め込み(204)を前記意図される韻律を有する表現的音声(152)の予測出力オーディオ信号(280)に復号することによって、前記第2のTTSモデル(222)の前記デコーダ部分(400)をトレーニングすることと、
前記予測出力オーディオ信号(280)と前記対応する基準オーディオ信号との間の勾配/損失を生成することと、
前記第2のTTSモデル(222)を通して前記勾配/損失を逆伝搬することと
をさらに含む、請求項16から26のいずれか一項に記載のシステム(100)。 - 前記第1のTTSモデル(212)および前記第2のTTSモデル(222)が別個にトレーニングされる、請求項16から27のいずれか一項に記載のシステム(100)。
- 前記第1のTTSモデル(212)が、第1のニューラルネットワークアーキテクチャを含み、前記第2のTTSモデル(222)が、前記第1のニューラルネットワークアーキテクチャとは異なる第2のニューラルネットワークアーキテクチャを含む、請求項16から28のいずれか一項に記載のシステム(100)。
- 前記第1のTTSモデル(212)および前記第2のTTSモデル(222)が同じニューラルネットワークアーキテクチャを含む、請求項16から29のいずれか一項に記載のシステム(100)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023200955A JP2024023421A (ja) | 2020-08-13 | 2023-11-28 | 2レベル音声韻律転写 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/992,410 US11514888B2 (en) | 2020-08-13 | 2020-08-13 | Two-level speech prosody transfer |
US16/992,410 | 2020-08-13 | ||
PCT/US2021/043334 WO2022035586A1 (en) | 2020-08-13 | 2021-07-27 | Two-level speech prosody transfer |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023200955A Division JP2024023421A (ja) | 2020-08-13 | 2023-11-28 | 2レベル音声韻律転写 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023535230A true JP2023535230A (ja) | 2023-08-16 |
JP7395792B2 JP7395792B2 (ja) | 2023-12-11 |
Family
ID=77398670
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023509803A Active JP7395792B2 (ja) | 2020-08-13 | 2021-07-27 | 2レベル音声韻律転写 |
JP2023200955A Pending JP2024023421A (ja) | 2020-08-13 | 2023-11-28 | 2レベル音声韻律転写 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023200955A Pending JP2024023421A (ja) | 2020-08-13 | 2023-11-28 | 2レベル音声韻律転写 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11514888B2 (ja) |
EP (1) | EP4172984A1 (ja) |
JP (2) | JP7395792B2 (ja) |
CN (1) | CN116034424A (ja) |
WO (1) | WO2022035586A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112259072A (zh) * | 2020-09-25 | 2021-01-22 | 北京百度网讯科技有限公司 | 语音转换方法、装置和电子设备 |
US11790884B1 (en) * | 2020-10-28 | 2023-10-17 | Electronic Arts Inc. | Generating speech in the voice of a player of a video game |
BR112023021621A2 (pt) * | 2021-05-21 | 2023-12-19 | Google Llc | Modelos de linguagem aprendidos por máquina que geram análise textual intermediária a serviço de geração de texto contextual |
US11694674B1 (en) * | 2021-05-26 | 2023-07-04 | Amazon Technologies, Inc. | Multi-scale spectrogram text-to-speech |
US11996083B2 (en) * | 2021-06-03 | 2024-05-28 | International Business Machines Corporation | Global prosody style transfer without text transcriptions |
US11830476B1 (en) * | 2021-06-08 | 2023-11-28 | Amazon Technologies, Inc. | Learned condition text-to-speech synthesis |
US20230099732A1 (en) * | 2021-09-30 | 2023-03-30 | Microsoft Technology Licensing, Llc | Computing system for domain expressive text to speech |
CN114333762B (zh) * | 2022-03-08 | 2022-11-18 | 天津大学 | 基于表现力的语音合成方法、系统、电子设备及存储介质 |
CN114708849A (zh) * | 2022-04-27 | 2022-07-05 | 网易(杭州)网络有限公司 | 语音处理方法、装置、计算机设备及计算机可读存储介质 |
US11880645B2 (en) | 2022-06-15 | 2024-01-23 | T-Mobile Usa, Inc. | Generating encoded text based on spoken utterances using machine learning systems and methods |
CN114781377B (zh) * | 2022-06-20 | 2022-09-09 | 联通(广东)产业互联网有限公司 | 非对齐文本的纠错模型、训练及纠错方法 |
CN116092479B (zh) * | 2023-04-07 | 2023-07-07 | 杭州东上智能科技有限公司 | 一种基于对比文本-音频对的文本韵律生成方法和系统 |
CN117636842B (zh) * | 2024-01-23 | 2024-04-02 | 北京天翔睿翼科技有限公司 | 基于韵律情感迁移的语音合成系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005539257A (ja) * | 2002-09-13 | 2005-12-22 | 松下電器産業株式会社 | 音声カスタマイズ方法 |
US20190348020A1 (en) * | 2018-05-11 | 2019-11-14 | Google Llc | Clockwork Hierarchical Variational Encoder |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI573129B (zh) * | 2013-02-05 | 2017-03-01 | 國立交通大學 | 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法 |
JP7142333B2 (ja) * | 2018-01-11 | 2022-09-27 | ネオサピエンス株式会社 | 多言語テキスト音声合成方法 |
US10699695B1 (en) | 2018-06-29 | 2020-06-30 | Amazon Washington, Inc. | Text-to-speech (TTS) processing |
CN109036375B (zh) * | 2018-07-25 | 2023-03-24 | 腾讯科技(深圳)有限公司 | 语音合成方法、模型训练方法、装置和计算机设备 |
KR20200080681A (ko) * | 2018-12-27 | 2020-07-07 | 삼성전자주식회사 | 음성 합성 방법 및 장치 |
US11289073B2 (en) * | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11380300B2 (en) * | 2019-10-11 | 2022-07-05 | Samsung Electronics Company, Ltd. | Automatically generating speech markup language tags for text |
KR20210089347A (ko) * | 2020-01-08 | 2021-07-16 | 엘지전자 주식회사 | 음성 인식 장치 및 음성데이터를 학습하는 방법 |
US11830473B2 (en) * | 2020-01-21 | 2023-11-28 | Samsung Electronics Co., Ltd. | Expressive text-to-speech system and method |
US11322133B2 (en) * | 2020-07-21 | 2022-05-03 | Adobe Inc. | Expressive text-to-speech utilizing contextual word-level style tokens |
-
2020
- 2020-08-13 US US16/992,410 patent/US11514888B2/en active Active
-
2021
- 2021-07-27 WO PCT/US2021/043334 patent/WO2022035586A1/en active Application Filing
- 2021-07-27 JP JP2023509803A patent/JP7395792B2/ja active Active
- 2021-07-27 EP EP21756135.6A patent/EP4172984A1/en active Pending
- 2021-07-27 CN CN202180056199.8A patent/CN116034424A/zh active Pending
-
2022
- 2022-11-11 US US18/054,604 patent/US20230064749A1/en active Pending
-
2023
- 2023-11-28 JP JP2023200955A patent/JP2024023421A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005539257A (ja) * | 2002-09-13 | 2005-12-22 | 松下電器産業株式会社 | 音声カスタマイズ方法 |
US20190348020A1 (en) * | 2018-05-11 | 2019-11-14 | Google Llc | Clockwork Hierarchical Variational Encoder |
Also Published As
Publication number | Publication date |
---|---|
US20230064749A1 (en) | 2023-03-02 |
US20220051654A1 (en) | 2022-02-17 |
KR20230034423A (ko) | 2023-03-09 |
WO2022035586A1 (en) | 2022-02-17 |
JP7395792B2 (ja) | 2023-12-11 |
EP4172984A1 (en) | 2023-05-03 |
JP2024023421A (ja) | 2024-02-21 |
US11514888B2 (en) | 2022-11-29 |
CN116034424A (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7395792B2 (ja) | 2レベル音声韻律転写 | |
US11664011B2 (en) | Clockwork hierarchal variational encoder | |
JP7436709B2 (ja) | 非発話テキストおよび音声合成を使う音声認識 | |
US11881210B2 (en) | Speech synthesis prosody using a BERT model | |
US11393453B2 (en) | Clockwork hierarchical variational encoder | |
JP2022534764A (ja) | 多言語音声合成およびクロスランゲージボイスクローニング | |
KR102646229B1 (ko) | 주의 기반 클록워크 계층적 변이형 인코더 | |
JP7379756B2 (ja) | 韻律的特徴からのパラメトリックボコーダパラメータの予測 | |
KR102677459B1 (ko) | 2-레벨 스피치 운율 전송 | |
US20230018384A1 (en) | Two-Level Text-To-Speech Systems Using Synthetic Training Data | |
KR20240096867A (ko) | 2-레벨 스피치 운율 전송 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230410 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230410 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230703 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7395792 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |