JP7436709B2 - 非発話テキストおよび音声合成を使う音声認識 - Google Patents
非発話テキストおよび音声合成を使う音声認識 Download PDFInfo
- Publication number
- JP7436709B2 JP7436709B2 JP2022567381A JP2022567381A JP7436709B2 JP 7436709 B2 JP7436709 B2 JP 7436709B2 JP 2022567381 A JP2022567381 A JP 2022567381A JP 2022567381 A JP2022567381 A JP 2022567381A JP 7436709 B2 JP7436709 B2 JP 7436709B2
- Authority
- JP
- Japan
- Prior art keywords
- training
- utterance
- text
- utterances
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title description 6
- 238000003786 synthesis reaction Methods 0.000 title description 6
- 238000012549 training Methods 0.000 claims description 535
- 238000000034 method Methods 0.000 claims description 136
- 230000008569 process Effects 0.000 claims description 86
- 238000013518 transcription Methods 0.000 claims description 65
- 230000035897 transcription Effects 0.000 claims description 65
- 230000015654 memory Effects 0.000 claims description 45
- 238000009826 distribution Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 37
- 201000007201 aphasia Diseases 0.000 claims description 32
- 238000013434 data augmentation Methods 0.000 claims description 19
- 230000014509 gene expression Effects 0.000 claims description 11
- 230000005534 acoustic noise Effects 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 5
- 230000001143 conditioned effect Effects 0.000 claims description 5
- 239000013598 vector Substances 0.000 description 21
- 238000013528 artificial neural network Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- CVOFKRWYWCSDMA-UHFFFAOYSA-N 2-chloro-n-(2,6-diethylphenyl)-n-(methoxymethyl)acetamide;2,6-dinitro-n,n-dipropyl-4-(trifluoromethyl)aniline Chemical compound CCC1=CC=CC(CC)=C1N(COC)C(=O)CCl.CCCN(CCC)C1=C([N+]([O-])=O)C=C(C(F)(F)F)C=C1[N+]([O-])=O CVOFKRWYWCSDMA-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 208000003028 Stuttering Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Description
102 ユーザデバイス
107 ユーザインターフェースジェネレータ
200 ASRモデル、音声認識モデル、モデル
201 リモートコンピューティングデバイス
202 データストア
210 エンコーダネットワーク、エンコーダ
211 リスナー符号化モジュール、リスナーエンコーダモジュール、エンコーダ
220 予測ネットワーク
221 アテンダーモデル、アテンダー
230 共同ネットワーク
231 デコーダ
240 最終ソフトマックスレイヤ、ソフトマックスレイヤ、デコーダ/ソフトマックス
310 敵対的生成ネットワーク(GAN)ベースのテキスト音声(TTS)モデル、モデル、TTSモデル
312 エンコーダ、エンコーダニューラルネットワーク
314 デコーダ、デコーダニューラルネットワーク
316 ポストネット
318 敵対的弁別器
322 基準TTSモデル
326 一貫性モジュール
340 教師あり損失項モジュール
350 一貫性損失項モジュール
358 敵対的弁別器
402 コーパス、非発話テキストコーパス、テキストコーパス
410 言語モデル、領域固有言語モデル(LM)、エンコーダ
420 言語モデル、バックグラウンドLM、デコーダ
430 スコアラー
600 コンピューティングデバイス
600a 標準サーバ、サーバ
600b ラップトップコンピュータ
600c ラックサーバシステム
610 プロセッサ、構成要素
620 メモリ、構成要素
630 記憶デバイス、構成要素
640 高速インターフェース/コントローラ、構成要素
650 高速拡張ポート、構成要素
660 低速インターフェース/コントローラ、構成要素
670 低速バス
680 ディスプレイ
690 低速拡張ポート
Claims (30)
- 敵対的生成ネットワーク(GAN)ベースのテキスト音声(TTS)モデル(310)および音声認識モデル(200)を一斉にトレーニングするための方法(500)であって、
データ処理ハードウェア(610)によって、複数のトレーニング用テキスト発声(302)を取得するステップであって、
複数のトレーニング用テキスト発声(302)の第1の部分は、非発話テキスト発声(302a)を含み、各非発話テキスト発声(302a)は、どの対応する発話された発声とも対にされず、
前記複数のトレーニング用テキスト発声(302)の残りの第2の部分は、発話されたトレーニング用発声のセット(305)の転写(302b)を含み、各発話されたトレーニング用発声(305)は、前記対応する発話されたトレーニング用発声(305)の対応する非合成音声表現(304)と対にされた対応する転写(302b)を含む、ステップと、
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための複数の出力ステップの各々において、
前記データ処理ハードウェア(610)によって、前記GANベースのTTSモデル(310)による出力用に、前記対応するトレーニング用テキスト発声(302)の合成音声表現(306)を生成することと、
前記データ処理ハードウェア(610)によって、前記GANの敵対的弁別器(318)を使って、前記対応するトレーニング用テキスト発声(302)の前記対応する合成音声表現(306)に相対した、前記発話されたトレーニング用発声セット(305)から選択された、前記非合成音声表現(304)のうちの1つの中の音響ノイズ不均衡の量を示す敵対的損失項(320)を判断することとを含むステップと、
前記データ処理ハードウェア(610)によって、前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において判断された前記敵対的損失項(320)に基づいて前記GANベースのTTSモデル(310)のパラメータを更新するステップと、
前記データ処理ハードウェア(610)によって、前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において生成された前記合成音声表現(306)で前記音声認識モデル(200)をトレーニングするステップとを含む方法(500)。 - 前記音声認識モデル(200)をトレーニングするステップは、トレーニング用発声バッチで前記音声認識モデル(200)をトレーニングするステップをさらに含み、各トレーニング用発声バッチは、
前記対応するトレーニング用テキスト発声(302)の前記生成された合成音声表現(306)の部分と、
前記発話されたトレーニング用発声セット(305)の中の前記非合成音声表現(304)の部分を含む、請求項1に記載の方法(500)。 - 各トレーニング用発声バッチの中の、前記生成された合成音声表現(306)の前記部分と、前記非合成音声表現(304)の前記部分の比は、前記音声認識モデル(200)をトレーニングする間に時間とともに増大する、請求項2に記載の方法(500)。
- 各トレーニング用発声バッチで前記音声認識モデル(200)をトレーニングする間に、
前記データ処理ハードウェア(610)によって、前記対応するトレーニング用発声バッチ用の前記非合成音声表現(304)の前記部分の中の各非合成音声表現(304)についてのそれぞれの非合成音声損失項(344)を生成するステップと、
前記データ処理ハードウェア(610)によって、前記音声認識モデル(200)によって生成された各それぞれの非合成音声損失項(344)に調節可能損失重みを適用するステップであって、前記調節可能損失重みは、前記対応するトレーニング用発声バッチの中の、前記生成された音声表現の前記部分と、前記非合成音声表現(304)の前記部分の前記比に比例する規模を有する、ステップとをさらに含む、請求項3に記載の方法(500)。 - 各トレーニング用発声バッチで前記音声認識モデル(200)をトレーニングする間に、
前記対応するトレーニング用発声バッチに関連付けられた、前記生成された合成音声表現(306)の前記部分の中の各生成された合成音声表現(306)のための複数の出力ステップの各々において、
前記データ処理ハードウェア(610)によって、前記音声認識モデル(200)による出力のために、前記対応する合成音声表現(306)のための可能な合成音声認識仮定にわたって第1の確率分布(311)を判断することと、
前記データ処理ハードウェア(610)によって、前記対応する合成音声表現(306)および前記対応する合成音声表現(306)がそこから生成される、前記対応するトレーニング用テキスト発声(302)向けの可能な合成音声認識仮定にわたる前記第1の確率分布(311)に基づいて、合成音声損失項(344)を生成することと、
前記対応するトレーニング用発声バッチに関連付けられた前記非合成音声表現(304)の前記部分の中の各非合成音声表現(304)のための複数の出力ステップの各々において、
前記データ処理ハードウェア(610)によって、前記音声認識モデル(200)による出力のために、前記対応する非合成音声表現(304)のための可能な非合成音声認識仮定にわたって第2の確率分布(312)を判断することと、
前記データ処理ハードウェア(610)によって、前記対応する非合成音声表現(304)に対する可能な非合成音声認識仮定にわたる前記第2の確率分布(312)および前記対応する非合成音声表現(304)と対にされる、前記発話されたトレーニング用発声セット(305)の中の前記転写(302b)に基づいて、非合成音声損失項(344)を生成することとを含むステップとをさらに含む、請求項2から4のいずれか一項に記載の方法(500)。 - 前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において、前記発話されたトレーニング用発声セット(305)から選択された前記非合成音声表現(304)のうちの前記1つは、
前記対応するトレーニング用テキスト発声(302)が、前記複数のトレーニング用テキスト発声(302)の前記第1の部分の中の前記非発話テキスト発声(302a)のうちの1つを含むときは、前記発話されたトレーニング用発声セット(305)からランダムに選択された非合成音声表現(304)を、または
前記対応するトレーニング用テキスト発声(302)が、前記複数のトレーニング用テキスト発声(302)の前記第2の部分の中の前記転写(302b)のうちの1つを含むときは、前記転写(302b)のうちの前記対応する1つと対にされる、前記発話されたトレーニング用発声セット(305)からの非合成音声表現(304)を含む、請求項1から5のいずれか一項に記載の方法(500)。 - 各トレーニング用テキスト発声(302)は、
発声埋め込みのセットから選択された発声埋め込みであって、前記発声埋め込みセットの中の各発声埋め込みは、意図された韻律を表す、発声埋め込みと、
話者埋め込みのセットから選択された話者埋め込みであって、前記話者埋め込みセットの中の各話者埋め込みは話者特性を表す、話者埋め込みとを条件とする、請求項1から6のいずれか一項に記載の方法(500)。 - 各トレーニング用テキスト発声(302)は、対応する音素シーケンスによって表され、
前記発声埋め込みセットの中の各発声埋め込みは、変分オートエンコーダ(VAE)によって、前記発話されたトレーニング用発声セット(305)の中の前記転写(302b)のうちの対応する1つから抽出され、
前記話者埋め込みセットの中の各話者埋め込みは、前記発話されたトレーニング用発声セット(305)の中の前記非合成音声表現(304)のうちの対応する1つから抽出される、請求項7に記載の方法(500)。 - 前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において前記敵対的損失項(320)を判断するのに先立って、前記データ処理ハードウェア(610)によって、前記対応するトレーニング用テキスト発声(302)の前記対応する生成された合成音声表現(306)にデータ拡大を適用するステップをさらに含む、請求項1から8のいずれか一項に記載の方法(500)。
- 前記適用されるデータ拡大は、ノイズを追加すること、残響を追加すること、またはタイミングを操作することのうちの少なくとも1つを含む、請求項9に記載の方法(500)。
- 前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において、
前記データ処理ハードウェア(610)によって、基準TTSモデル(322)による出力用に、前記対応するトレーニング用テキスト発声(302)の基準合成音声表現(306)を生成するステップと、
前記データ処理ハードウェア(610)によって、前記GANベースのTTSモデル(310)によって出力された前記対応するトレーニング用テキスト発声(302)の前記合成音声表現(306)、および前記基準TTSモデル(322)によって出力された前記対応するトレーニング用テキスト発声(302)の前記基準合成音声表現(306)に基づいて、一貫性損失項(324)を判断するステップとをさらに含み、
前記GANベースのTTSモデル(310)の前記パラメータを更新することは、複数の非発話トレーニング用発声(305)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において判断された、前記敵対的損失項(320)および前記一貫性損失項(324)に基づく、請求項1から10のいずれか一項に記載の方法(500)。 - 前記基準TTSモデル(322)のパラメータは、前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において固定されたままである、請求項11に記載の方法(500)。
- 前記データ処理ハードウェア(610)によって、前記複数のトレーニング用テキスト発声(302)の前記第1の部分の中の前記非発話テキスト発声(302a)を取得するための非発話テキスト選択プロセス(400)を実行するステップをさらに含み、前記非発話テキスト選択プロセス(400)は、
非発話テキスト発声(302a)のコーパス(402)を取得することと、
非発話テキスト発声(302a)の前記コーパス(402)の中の各非発話テキスト発声(302a)に対して、
領域固有言語モデル(410)の中に現れる前記非発話テキスト発声(302a)に関連付けられた第1の確率を判断することであって、前記領域固有言語モデル(410)は、前記発話されたトレーニング用発声セット(305)の中の各転写(302b)でトレーニングされる、ことと、
バックグラウンド言語モデル(420)の中に現れる前記非発話テキスト発声(302a)に関連付けられた第2の確率を判断することであって、前記バックグラウンド言語モデル(420)は、非発話テキスト発声(302a)の前記コーパス(402)の中のあらゆる非発話テキスト発声(302a)でトレーニングされる、ことと、
前記第1の確率、前記第2の確率、および前記対応する非発話テキスト発声(302a)の中に現れる単語の数に基づいて、スコアを判断することとを含む、ことと、
前記複数のトレーニング用テキスト発声(302)の前記第1の部分の中の前記非発話テキスト発声(302a)として、N最良発声スコアを有する、非発話テキスト発声(302a)の前記コーパス(402)の中の前記非発話テキスト発声(302a)を選択することとを行うように構成される、請求項1から12のいずれか一項に記載の方法(500)。 - 前記音声認識モデル(200)をトレーニングするステップは、前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において、
前記音声認識モデル(200)によって、前記GANベースのTTSモデル(310)によって出力された前記対応するトレーニング用テキスト発声(302)の前記合成音声表現(306)を符号化するステップと、
前記音声認識モデル(200)によって、前記発話されたトレーニング用発声セット(305)から選択された、前記非合成音声表現(304)のうちの1つを符号化するステップと、
別の敵対的弁別器(358)を使って、前記符号化された合成音声表現(306)と前記非合成音声表現(304)のうちの前記符号化された1つとの間の別の敵対的損失項(360)を判断するステップと、
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において判断された前記別の敵対的損失項(320)に基づいて、前記音声認識モデル(200)のパラメータを更新するステップとを含む、請求項1から13のいずれか一項に記載の方法(500)。 - 前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において、
前記対応するテキスト発声および前記別の敵対的弁別器(358)は各々、話者埋め込みのセットから選択された同じ話者埋め込みを条件とし、前記話者埋め込みセットの中の各話者埋め込みは話者特性を表し、
前記発話されたトレーニング用発声セット(305)から選択された、前記非合成音声表現(304)のうちの前記1つは、
前記対応するトレーニング用テキスト発声(302)が、前記複数のトレーニング用テキスト発声(302)の前記第1の部分の中の前記非発話テキスト発声(302a)のうちの1つを含むときは、前記発話されたトレーニング用発声セット(305)からランダムに選択された非合成音声表現(304)を、または
前記対応するトレーニング用テキスト発声(302)が、前記複数のトレーニング用テキスト発声(302)の前記第2の部分の中の前記転写(302b)のうちの1つを含むときは、前記転写(302b)のうちの前記対応する1つと対にされる、前記発話されたトレーニング用発声セット(305)からの非合成音声表現(304)を含む、請求項14に記載の方法(500)。 - 敵対的生成ネットワーク(GAN)ベースのテキスト音声(TTS)モデルおよび音声認識モデル(200)を一斉にトレーニングするためのシステム(600)であって、
データ処理ハードウェア(610)と、
前記データ処理ハードウェア(610)と通信するメモリハードウェア(620)とを備えるシステム(600)であって、前記メモリハードウェア(620)は、前記データ処理ハードウェア(610)上で実行されると、前記データ処理ハードウェア(610)に動作を実施させる命令を記憶し、前記動作は、
複数のトレーニング用テキスト発声(302)を取得することであって、
複数のトレーニング用テキスト発声(302)の第1の部分は、非発話テキスト発声(302a)を含み、各非発話テキスト発声(302a)は、どの対応する発話された発声とも対にされず、
前記複数のトレーニング用テキスト発声(302)の残りの第2の部分は、発話されたトレーニング用発声のセット(305)の転写(302b)を含み、各発話されたトレーニング用発声(305)は、前記対応する発話されたトレーニング用発声(305)の対応する非合成音声表現(304)と対にされた対応する転写(302b)を含む、取得することと、
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための複数の出力ステップの各々において、
前記GANベースのTTSモデル(310)による出力用に、前記対応するトレーニング用テキスト発声(302)の合成音声表現(306)を生成することと、
前記GANの敵対的弁別器(318)を使って、前記対応するトレーニング用テキスト発声(302)の前記対応する合成音声表現(306)に相対した、前記発話されたトレーニング用発声セット(305)から選択された、前記非合成音声表現(304)のうちの1つの中の音響ノイズ不均衡の量を示す敵対的損失項(320)を判断することとを含むことと、
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において判断された前記敵対的損失項(320)に基づいて前記GANベースのTTSモデル(310)のパラメータを更新することと、
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において生成された前記合成音声表現(306)で前記音声認識モデル(200)をトレーニングすることとを含む、システム(600)。 - 前記音声認識モデル(200)をトレーニングすることは、トレーニング用発声バッチで前記音声認識モデル(200)をトレーニングすることをさらに含み、各トレーニング用発声バッチは、
前記対応するトレーニング用テキスト発声(302)の前記生成された合成音声表現(306)の部分と、
前記発話されたトレーニング用発声セット(305)の中の前記非合成音声表現(304)の部分を含む、請求項16に記載のシステム(600)。 - 各トレーニング用発声バッチの中の、前記生成された合成音声表現(306)の前記部分と、前記非合成音声表現(304)の前記部分の比は、前記音声認識モデル(200)をトレーニングする間に時間とともに増大する、請求項17に記載のシステム(600)。
- 前記動作は、各トレーニング用発声バッチで前記音声認識モデル(200)をトレーニングする間に、
前記対応するトレーニング用発声バッチ用の前記非合成音声表現(304)の前記部分の中の各非合成音声表現(304)についてのそれぞれの非合成音声損失項(344)を生成することと、
前記音声認識モデル(200)によって生成された各それぞれの非合成音声損失項(344)に調節可能損失重みを適用することであって、前記調節可能損失重みは、前記対応するトレーニング用発声バッチの中の、前記生成された音声表現の前記部分と、前記非合成音声表現(304)の前記部分の前記比に比例する規模を有する、こととをさらに含む、請求項18に記載のシステム(600)。 - 前記動作は、各トレーニング用発声バッチで前記音声認識モデル(200)をトレーニングする間に、
前記対応するトレーニング用発声バッチに関連付けられた、前記生成された合成音声表現(306)の前記部分の中の各生成された合成音声表現(306)のための複数の出力ステップの各々において、
前記音声認識モデル(200)による出力のために、前記対応する合成音声表現(306)のための可能な合成音声認識仮定にわたって第1の確率分布(311)を判断することと、
前記対応する合成音声表現(306)および前記対応する合成音声表現(306)がそこから生成される、前記対応するトレーニング用テキスト発声(302)向けの可能な合成音声認識仮定にわたる前記第1の確率分布(311)に基づいて、合成音声損失項(344)を生成することとを含むことと、
前記対応するトレーニング用発声バッチに関連付けられた前記非合成音声表現(304)の前記部分の中の各非合成音声表現(304)のための複数の出力ステップの各々において、
前記音声認識モデル(200)による出力のために、前記対応する非合成音声表現(304)のための可能な非合成音声認識仮定にわたって第2の確率分布(312)を判断することと、
前記対応する非合成音声表現(304)に対する可能な非合成音声認識仮定にわたる前記第2の確率分布(312)および前記対応する非合成音声表現(304)と対にされる、前記発話されたトレーニング用発声セット(305)の中の前記転写(302b)に基づいて、非合成音声損失項(344)を生成することとを含むこととをさらに含む、請求項17から19のいずれか一項に記載のシステム(600)。 - 前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において、前記発話されたトレーニング用発声セット(305)から選択された前記非合成音声表現(304)のうちの前記1つは、
前記対応するトレーニング用テキスト発声(302)が、前記複数のトレーニング用テキスト発声(302)の前記第1の部分の中の前記非発話テキスト発声(302a)のうちの1つを含むときは、前記発話されたトレーニング用発声セット(305)からランダムに選択された非合成音声表現(304)を、または
前記対応するトレーニング用テキスト発声(302)が、前記複数のトレーニング用テキスト発声(302)の前記第2の部分の中の前記転写(302b)のうちの1つを含むときは、前記転写(302b)のうちの前記対応する1つと対にされる、前記発話されたトレーニング用発声セット(305)からの非合成音声表現(304)を含む、請求項16から20のいずれか一項に記載のシステム(600)。 - 各トレーニング用テキスト発声(302)は、
発声埋め込みのセットから選択された発声埋め込みであって、前記発声埋め込みセットの中の各発声埋め込みは、意図された韻律を表す、発声埋め込みと、
話者埋め込みのセットから選択された話者埋め込みであって、前記話者埋め込みセットの中の各話者埋め込みは話者特性を表す、話者埋め込みとを条件とする、請求項16から21のいずれか一項に記載のシステム(600)。 - 各トレーニング用テキスト発声(302)は、対応する音素シーケンスによって表され、
前記発声埋め込みセットの中の各発声埋め込みは、変分オートエンコーダ(VAE)によって、前記発話されたトレーニング用発声セット(305)の中の前記転写(302b)のうちの対応する1つから抽出され、
前記話者埋め込みセットの中の各話者埋め込みは、前記発話されたトレーニング用発声セット(305)の中の前記非合成音声表現(304)のうちの対応する1つから抽出される、請求項22に記載のシステム(600)。 - 前記動作は、前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において前記敵対的損失項(320)を判断するのに先立って、前記対応するトレーニング用テキスト発声(302)の前記対応する生成された合成音声表現(306)にデータ拡大を適用することをさらに含む、請求項16から23のいずれか一項に記載のシステム(600)。
- 前記適用されるデータ拡大は、ノイズを追加すること、残響を追加すること、またはタイミングを操作することのうちの少なくとも1つを含む、請求項24に記載のシステム(600)。
- 前記動作は、前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において、
基準TTSモデル(322)による出力用に、前記対応するトレーニング用テキスト発声(302)の基準合成音声表現(306)を生成することと、
前記GANベースのTTSモデル(310)によって出力された前記対応するトレーニング用テキスト発声(302)の前記合成音声表現(306)、および前記基準TTSモデル(322)によって出力された前記対応するトレーニング用テキスト発声(302)の前記基準合成音声表現(306)に基づいて、一貫性損失項(324)を判断することとをさらに含み、
前記GANベースのTTSモデル(310)の前記パラメータを更新することは、複数の非発話トレーニング用発声(305)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において判断された、前記敵対的損失項(320)および前記一貫性損失項(324)に基づく、請求項16から25のいずれか一項に記載のシステム(600)。 - 前記基準TTSモデル(322)のパラメータは、前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において固定されたままである、請求項26に記載のシステム(600)。
- 前記動作は、前記複数のトレーニング用テキスト発声(302)の前記第1の部分の中の前記非発話テキスト発声(302a)を取得するための非発話テキスト選択プロセス(400)を実行することをさらに含み、前記非発話テキスト選択プロセス(400)は、
非発話テキスト発声(302a)のコーパス(402)を取得することと、
非発話テキスト発声(302a)の前記コーパス(402)の中の各非発話テキスト発声(302a)に対して、
領域固有言語モデル(410)の中に現れる前記非発話テキスト発声(302a)に関連付けられた第1の確率を判断することであって、前記領域固有言語モデル(410)は、前記発話されたトレーニング用発声セット(305)の中の各転写(302b)でトレーニングされる、ことと、
バックグラウンド言語モデル(420)の中に現れる前記非発話テキスト発声(302a)に関連付けられた第2の確率を判断することであって、前記バックグラウンド言語モデル(420)は、非発話テキスト発声(302a)の前記コーパス(402)の中のあらゆる非発話テキスト発声(302a)でトレーニングされる、ことと、
前記第1の確率、前記第2の確率、および前記対応する非発話テキスト発声(302a)の中に現れる単語の数に基づいて、スコアを判断することとを含む、ことと、
前記複数のトレーニング用テキスト発声(302)の前記第1の部分の中の前記非発話テキスト発声(302a)として、N最良発声スコアを有する、非発話テキスト発声(302a)の前記コーパス(402)の中の前記非発話テキスト発声(302a)を選択することとを行うように構成される、請求項16から27のいずれか一項に記載のシステム(600)。 - 前記音声認識モデル(200)をトレーニングすることは、前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において、
前記音声認識モデル(200)によって、前記GANベースのTTSモデル(310)によって出力された前記対応するトレーニング用テキスト発声(302)の前記合成音声表現(306)を符号化することと、
前記音声認識モデル(200)によって、前記発話されたトレーニング用発声セット(305)から選択された、前記非合成音声表現(304)のうちの1つを符号化することと、
別の敵対的弁別器(358)を使って、前記符号化された合成音声表現(306)と前記非合成音声表現(304)のうちの前記符号化された1つとの間の別の敵対的損失項(360)を判断することと、
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において判断された前記別の敵対的損失項(320)に基づいて、前記音声認識モデル(200)のパラメータを更新することとを含む、請求項16から28のいずれか一項に記載のシステム(600)。 - 前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において、
前記対応するテキスト発声および前記別の敵対的弁別器(358)は各々、話者埋め込みのセットから選択された同じ話者埋め込みを条件とし、前記話者埋め込みセットの中の各話者埋め込みは話者特性を表し、
前記発話されたトレーニング用発声セット(305)から選択された、前記非合成音声表現(304)のうちの前記1つは、
前記対応するトレーニング用テキスト発声(302)が、前記複数のトレーニング用テキスト発声(302)の前記第1の部分の中の前記非発話テキスト発声(302a)のうちの1つを含むときは、前記発話されたトレーニング用発声セット(305)からランダムに選択された非合成音声表現(304)を、または
前記対応するトレーニング用テキスト発声(302)が、前記複数のトレーニング用テキスト発声(302)の前記第2の部分の中の前記転写(302b)のうちの1つを含むときは、前記転写(302b)のうちの前記対応する1つと対にされる、前記発話されたトレーニング用発声セット(305)からの非合成音声表現(304)を含む、請求項29に記載のシステム(600)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024017453A JP2024050850A (ja) | 2020-05-07 | 2024-02-07 | 非発話テキストおよび音声合成を使う音声認識 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/869,552 | 2020-05-07 | ||
US16/869,552 US11222620B2 (en) | 2020-05-07 | 2020-05-07 | Speech recognition using unspoken text and speech synthesis |
PCT/US2021/029501 WO2021225829A1 (en) | 2020-05-07 | 2021-04-27 | Speech recognition using unspoken text and speech synthesis |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024017453A Division JP2024050850A (ja) | 2020-05-07 | 2024-02-07 | 非発話テキストおよび音声合成を使う音声認識 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023525002A JP2023525002A (ja) | 2023-06-14 |
JP7436709B2 true JP7436709B2 (ja) | 2024-02-22 |
Family
ID=76076432
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022567381A Active JP7436709B2 (ja) | 2020-05-07 | 2021-04-27 | 非発話テキストおよび音声合成を使う音声認識 |
JP2024017453A Pending JP2024050850A (ja) | 2020-05-07 | 2024-02-07 | 非発話テキストおよび音声合成を使う音声認識 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024017453A Pending JP2024050850A (ja) | 2020-05-07 | 2024-02-07 | 非発話テキストおよび音声合成を使う音声認識 |
Country Status (6)
Country | Link |
---|---|
US (3) | US11222620B2 (ja) |
EP (1) | EP4118641A1 (ja) |
JP (2) | JP7436709B2 (ja) |
KR (1) | KR20230003056A (ja) |
CN (1) | CN115516552A (ja) |
WO (1) | WO2021225829A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019217035A1 (en) * | 2018-05-11 | 2019-11-14 | Google Llc | Clockwork hierarchical variational encoder |
US11545156B2 (en) | 2020-05-27 | 2023-01-03 | Microsoft Technology Licensing, Llc | Automated meeting minutes generation service |
US11615799B2 (en) * | 2020-05-29 | 2023-03-28 | Microsoft Technology Licensing, Llc | Automated meeting minutes generator |
US11574622B2 (en) * | 2020-07-02 | 2023-02-07 | Ford Global Technologies, Llc | Joint automatic speech recognition and text to speech conversion using adversarial neural networks |
US11741946B2 (en) * | 2020-08-21 | 2023-08-29 | International Business Machines Corporation | Multiplicative integration in neural network transducer models for end-to-end speech recognition |
CN112037760B (zh) * | 2020-08-24 | 2022-01-07 | 北京百度网讯科技有限公司 | 语音频谱生成模型的训练方法、装置及电子设备 |
US11783811B2 (en) * | 2020-09-24 | 2023-10-10 | International Business Machines Corporation | Accuracy of streaming RNN transducer |
US11978435B2 (en) * | 2020-10-13 | 2024-05-07 | Mitsubishi Electric Research Laboratories, Inc. | Long-context end-to-end speech recognition system |
KR20230088434A (ko) | 2020-10-21 | 2023-06-19 | 구글 엘엘씨 | 스피치 인식을 사용한 교차 언어 스피치 합성 개선 |
US20220319501A1 (en) * | 2021-04-02 | 2022-10-06 | Asapp, Inc. | Stochastic future context for speech processing |
US20220383850A1 (en) * | 2021-05-31 | 2022-12-01 | Brock Daily | System and method for posthumous dynamic speech synthesis using neural networks and deep learning |
CN116783649A (zh) * | 2021-11-15 | 2023-09-19 | 微软技术许可有限责任公司 | 语音识别中的诊断服务 |
US11908454B2 (en) * | 2021-12-01 | 2024-02-20 | International Business Machines Corporation | Integrating text inputs for training and adapting neural network transducer ASR models |
WO2023177145A1 (ko) * | 2022-03-16 | 2023-09-21 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
US11880645B2 (en) | 2022-06-15 | 2024-01-23 | T-Mobile Usa, Inc. | Generating encoded text based on spoken utterances using machine learning systems and methods |
WO2023248398A1 (ja) * | 2022-06-22 | 2023-12-28 | 日本電信電話株式会社 | 学習装置、学習方法、学習プログラム及び音声合成装置 |
WO2024019878A1 (en) * | 2022-07-21 | 2024-01-25 | Google Llc | Joint speech and text streaming model for asr |
WO2024020154A1 (en) * | 2022-07-22 | 2024-01-25 | Google Llc | Using aligned text and speech representations to train automatic speech recognition models without transcribed speech data |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015087796A (ja) | 2013-10-28 | 2015-05-07 | 株式会社Nttドコモ | 質問分野判定装置及び質問分野判定方法 |
US20190130903A1 (en) | 2017-10-27 | 2019-05-02 | Baidu Usa Llc | Systems and methods for robust speech recognition using generative adversarial networks |
US20200082806A1 (en) | 2018-01-11 | 2020-03-12 | Neosapience, Inc. | Multilingual text-to-speech synthesis |
JP2020056918A (ja) | 2018-10-02 | 2020-04-09 | パナソニックIpマネジメント株式会社 | 音データ学習システム、音データ学習方法および音データ学習装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8046226B2 (en) * | 2008-01-18 | 2011-10-25 | Cyberpulse, L.L.C. | System and methods for reporting |
US20140025366A1 (en) * | 2012-07-20 | 2014-01-23 | Hristo Tzanev Georgiev | Txtvoicetrans |
US11017761B2 (en) * | 2017-10-19 | 2021-05-25 | Baidu Usa Llc | Parallel neural text-to-speech |
US10872596B2 (en) * | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
US11238843B2 (en) * | 2018-02-09 | 2022-02-01 | Baidu Usa Llc | Systems and methods for neural voice cloning with a few samples |
US10783875B2 (en) * | 2018-03-16 | 2020-09-22 | Salesforce.Com, Inc. | Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network |
US11017778B1 (en) * | 2018-12-04 | 2021-05-25 | Sorenson Ip Holdings, Llc | Switching between speech recognition systems |
US11170789B2 (en) * | 2019-04-16 | 2021-11-09 | Microsoft Technology Licensing, Llc | Attentive adversarial domain-invariant training |
US20200335086A1 (en) * | 2019-04-19 | 2020-10-22 | Behavioral Signal Technologies, Inc. | Speech data augmentation |
US10671838B1 (en) * | 2019-08-19 | 2020-06-02 | Neon Evolution Inc. | Methods and systems for image and voice processing |
US11270684B2 (en) * | 2019-09-11 | 2022-03-08 | Artificial Intelligence Foundation, Inc. | Generation of speech with a prosodic characteristic |
US11457033B2 (en) * | 2019-09-11 | 2022-09-27 | Artificial Intelligence Foundation, Inc. | Rapid model retraining for a new attack vector |
US11158329B2 (en) * | 2019-09-11 | 2021-10-26 | Artificial Intelligence Foundation, Inc. | Identification of fake audio content |
-
2020
- 2020-05-07 US US16/869,552 patent/US11222620B2/en active Active
-
2021
- 2021-04-27 KR KR1020227041313A patent/KR20230003056A/ko not_active Application Discontinuation
- 2021-04-27 WO PCT/US2021/029501 patent/WO2021225829A1/en unknown
- 2021-04-27 JP JP2022567381A patent/JP7436709B2/ja active Active
- 2021-04-27 EP EP21727634.4A patent/EP4118641A1/en active Pending
- 2021-04-27 CN CN202180033255.6A patent/CN115516552A/zh active Pending
- 2021-11-11 US US17/454,536 patent/US11605368B2/en active Active
-
2023
- 2023-02-14 US US18/168,969 patent/US11837216B2/en active Active
-
2024
- 2024-02-07 JP JP2024017453A patent/JP2024050850A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015087796A (ja) | 2013-10-28 | 2015-05-07 | 株式会社Nttドコモ | 質問分野判定装置及び質問分野判定方法 |
US20190130903A1 (en) | 2017-10-27 | 2019-05-02 | Baidu Usa Llc | Systems and methods for robust speech recognition using generative adversarial networks |
US20200082806A1 (en) | 2018-01-11 | 2020-03-12 | Neosapience, Inc. | Multilingual text-to-speech synthesis |
JP2020056918A (ja) | 2018-10-02 | 2020-04-09 | パナソニックIpマネジメント株式会社 | 音データ学習システム、音データ学習方法および音データ学習装置 |
Also Published As
Publication number | Publication date |
---|---|
US20220068255A1 (en) | 2022-03-03 |
US20210350786A1 (en) | 2021-11-11 |
US11605368B2 (en) | 2023-03-14 |
KR20230003056A (ko) | 2023-01-05 |
JP2023525002A (ja) | 2023-06-14 |
CN115516552A (zh) | 2022-12-23 |
US20230197057A1 (en) | 2023-06-22 |
US11222620B2 (en) | 2022-01-11 |
US11837216B2 (en) | 2023-12-05 |
JP2024050850A (ja) | 2024-04-10 |
EP4118641A1 (en) | 2023-01-18 |
WO2021225829A1 (en) | 2021-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7436709B2 (ja) | 非発話テキストおよび音声合成を使う音声認識 | |
JP6802005B2 (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
JP2023535230A (ja) | 2レベル音声韻律転写 | |
US11475874B2 (en) | Generating diverse and natural text-to-speech samples | |
JP7393585B2 (ja) | テキスト読み上げのためのWaveNetの自己トレーニング | |
KR20240051176A (ko) | 스피치 합성 기반 모델 적응을 통한 스피치 인식 개선하기 | |
US20230017892A1 (en) | Injecting Text in Self-Supervised Speech Pre-training | |
JP7502561B2 (ja) | 言語間音声合成を改良するための音声認識の使用 | |
US20230018384A1 (en) | Two-Level Text-To-Speech Systems Using Synthetic Training Data | |
JP2023546930A (ja) | 言語間音声合成を改良するための音声認識の使用 | |
KR20240068699A (ko) | 마스크킹된 음성 모델링을 위한 안내 데이터 선택 | |
EP4338156A1 (en) | Advancing the use of text and speech in asr pretraining with consistency and contrastive losses | |
WO2023183010A1 (en) | Using non-parallel voice conversion for training a speech recognition model | |
KR20240096867A (ko) | 2-레벨 스피치 운율 전송 | |
CN117597729A (zh) | 推进文本和语音在具有一致性和对比损失的asr预训练中的使用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221202 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7436709 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |