JP2022531524A - オンデバイスの音声認識モデルの訓練のためのテキストセグメントのオンデバイスの音声合成 - Google Patents
オンデバイスの音声認識モデルの訓練のためのテキストセグメントのオンデバイスの音声合成 Download PDFInfo
- Publication number
- JP2022531524A JP2022531524A JP2021541637A JP2021541637A JP2022531524A JP 2022531524 A JP2022531524 A JP 2022531524A JP 2021541637 A JP2021541637 A JP 2021541637A JP 2021541637 A JP2021541637 A JP 2021541637A JP 2022531524 A JP2022531524 A JP 2022531524A
- Authority
- JP
- Japan
- Prior art keywords
- text segment
- client device
- speech
- speech recognition
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 59
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 title description 25
- 238000000034 method Methods 0.000 claims abstract description 128
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000013518 transcription Methods 0.000 claims description 62
- 230000035897 transcription Effects 0.000 claims description 62
- 238000012545 processing Methods 0.000 claims description 36
- 230000009471 action Effects 0.000 claims description 31
- 230000004044 response Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims 1
- 230000000007 visual effect Effects 0.000 description 13
- 230000003993 interaction Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000007792 addition Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 235000013550 pizza Nutrition 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000002853 ongoing effect Effects 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 235000013580 sausages Nutrition 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
102 合成音声オーディオデータ
103A 予測されたテキストセグメント
103B 音素の予測されたシーケンス
104 音素のグラウンドトゥルースシーケンス
105 勾配
106 追加の勾配
110 クライアントデバイス
111 オンデバイスストレージ、マイクロフォン
112 スピーカ
113 カメラおよび/もしくはその他の視覚構成要素
114 ディスプレイ
120 セグメント特定器
122 オンデバイスの音声合成器
124 オンデバイスの音声認識器
126 勾配エンジン
127 音素エンジン
128 オンデバイスの訓練エンジン
130 オンデバイスの音声合成器訓練エンジン
140 自動化されたアシスタントクライアント
141 音声キャプチャエンジン
142 視覚キャプチャエンジン
144 オンデバイスの自然言語理解(NLU)エンジン
145 オンデバイスのフルフィルメントエンジン
152 オンデバイスの音声合成モデル
154 オンデバイスの音声認識モデル
154A 大域的な音声認識モデル
157 トークン-音素マッピング
160 遠隔のシステム
162 遠隔の訓練エンジン
164 更新配信エンジン
170 追加のクライアントデバイス
180 クラウドに基づく自動化されたアシスタント構成要素
182 遠隔のASRエンジン
183 遠隔のNLUエンジン
184 遠隔のフルフィルメントエンジン
195 自動化されたアシスタント
200 方法
300 方法
400 方法
510 コンピューティングデバイス
512 バスサブシステム
514 プロセッサ
516 ネットワークインターフェースサブシステム
520 ユーザインターフェース出力デバイス
522 ユーザインターフェース入力デバイス
524 ストレージサブシステム
525 メモリサブシステム
526 ファイルストレージサブシステム
530 主ランダムアクセスメモリ(RAM)
532 読み出し専用メモリ(ROM)
Claims (32)
- クライアントデバイスの1つまたは複数のプロセッサによって実行される方法であって、
前記クライアントデバイスにローカルに記憶されたテキストセグメントを特定するステップと、
前記特定されたテキストセグメントの合成音声を含む合成音声オーディオデータを生成するステップであって、前記クライアントデバイスにローカルに記憶された音声合成モデルを使用して前記テキストセグメントを処理することを含む、ステップと、
前記合成オーディオデータを、前記クライアントデバイスにローカルに記憶されたエンドツーエンドの音声認識モデルを使用して処理して、予測されたテキストセグメントを生成するステップと、
前記予測されたテキストセグメントを前記テキストセグメントと比較することに基づいて勾配を生成するステップと、
前記生成された勾配に基づいて前記エンドツーエンドの音声認識モデルの1つまたは複数の重みを更新するステップとを含む、方法。 - 前記テキストセグメント、前記合成音声オーディオデータ、および前記予測されたテキストセグメントのいずれも送信せずに、前記生成された勾配をネットワークを介して遠隔のシステムに送信するステップをさらに含み、
前記遠隔のシステムが、大域的なエンドツーエンドの音声認識モデルの大域的な重みを更新するために、前記生成された勾配および追加のクライアントデバイスからの追加の勾配を利用する請求項1に記載の方法。 - 前記大域的なエンドツーエンドの音声認識モデルの更新された大域的な重みが、前記遠隔のシステムのメモリに記憶される請求項2に記載の方法。
- 前記大域的なエンドツーエンドの音声認識モデルを前記遠隔のシステムから前記クライアントデバイスにおいて受信するステップであって、前記大域的なエンドツーエンドの音声認識モデルを受信することが、前記遠隔のシステムが前記勾配および前記追加の勾配に基づいて前記大域的なエンドツーエンドの音声認識モデルの前記大域的な重みを更新することよりも後である、ステップと、
前記大域的な音声認識モデルを受信することに応じて、前記クライアントデバイスのローカルストレージ内で前記エンドツーエンドの音声認識モデルを前記大域的な音声認識モデルによって置き換えるステップとをさらに含む請求項2または3に記載の方法。 - 更新された大域的な重みを前記遠隔のシステムから前記クライアントデバイスにおいて受信するステップであって、前記更新された大域的な重みを受信することが、前記遠隔のシステムが前記勾配および前記追加の勾配に基づいて前記大域的なエンドツーエンドの音声認識モデルの前記大域的な重みを更新することよりも後である、ステップと、
前記更新された大域的な重みを受信することに応じて、前記クライアントデバイスのローカルストレージ内で前記エンドツーエンドの音声認識モデルの重みを前記更新された大域的な重みによって置き換えるステップとをさらに含む請求項2または3に記載の方法。 - 前記テキストセグメントが、連絡先リスト、メディアプレイリスト、リンクされたスマートデバイスのエイリアスのリスト、または前記クライアントデバイスにおいて受け取られたタイピングされた入力から特定される請求項1から5のいずれか一項に記載の方法。
- 前記テキストセグメントが、前記テキストセグメントが連絡先のエイリアスとしてまたはリンクされたスマートデバイスのエイリアスとして新しく追加されることに基づいて特定される請求項1から6のいずれか一項に記載の方法。
- 前記クライアントデバイスの1つまたは複数のセンサーからのセンサーデータに基づいて、前記クライアントデバイスの現在の状態が1つまたは複数の条件を満たすと判定するステップをさらに含み、
前記合成音声オーディオデータを生成するステップ、および/または前記合成音声オーディオデータを処理して前記予測されたテキストセグメントを生成するステップ、および/または前記勾配を生成するステップ、および/または前記1つもしくは複数の重みを更新するステップが、前記クライアントデバイスの前記現在の状態が前記1つまたは複数の条件を満たすと判定することに応じて実行される請求項1から7のいずれか一項に記載の方法。 - 前記1つまたは複数の条件が、前記クライアントデバイスが充電中であること、前記クライアントデバイスが少なくとも閾値の充電状態であること、または前記クライアントデバイスがユーザによって持ち運ばれていないことのうちの少なくとも1つを含む請求項8に記載の方法。
- 前記1つまたは複数の条件が、前記クライアントデバイスが充電中であること、前記クライアントデバイスが少なくとも閾値の充電状態であること、または前記クライアントデバイスがユーザによって持ち運ばれていないことのうちの2つ以上を含む請求項9に記載の方法。
- 前記テキストセグメントを特定するステップが、
1つまたは複数のマイクロフォンによって検出された以前の人の発話が前記テキストセグメントを含んでいたと判定することと、
前記エンドツーエンドの音声認識モデルを使用して実行された前記以前の人の発話の以前の音声認識が前記テキストセグメントを正しく認識することができなかったと判定することと
に基づいて前記テキストセグメントを特定するステップを含む請求項1に記載の方法。 - 前記以前の音声認識が前記テキストセグメントを正しく認識することができなかったと判定することが、前記以前の音声認識に基づいて予測されたアクションを取り消す受け取られたユーザ入力に基づき、前記以前の人の発話が前記テキストセグメントを含んでいたと判定することが、前記以前の音声認識に基づいて予測された前記アクションを取り消す前記ユーザ入力の後に受け取られた追加の受け取られたユーザ入力に基づく請求項11に記載の方法。
- 前記追加の受け取られたユーザ入力が、前記テキストセグメントの入力を含む請求項12に記載の方法。
- 前記特定されたテキストセグメントの合成音声を含む前記合成音声オーディオデータを生成するステップが、
追加のテキストセグメントを決定することをさらに含み、
前記合成音声オーディオデータを生成するステップが、前記音声合成モデルを使用して前記追加のテキストセグメントと一緒に前記テキストセグメントを処理することを含む請求項1から13のいずれか一項に記載の方法。 - 前記追加のテキストセグメントを決定することが、前記テキストセグメントが特定される特定のコーパスとの前記追加のテキストセグメントの定義された関係に基づく請求項14に記載の方法。
- 前記音声合成モデルを使用して前記テキストセグメントを処理することが、前記テキストセグメントに対応すると判定された音素のシーケンスを処理することを含む請求項1から15のいずれか一項に記載の方法。
- 前記音声合成モデルが、所与の言語のための複数の候補音声合成モデルのうちの1つであり、前記クライアントデバイスの地理的領域に少なくとも部分的に基づいて前記クライアントデバイスにローカルに記憶される請求項1から16のいずれか一項に記載の方法。
- 前記合成音声オーディオデータを生成する前に、
前記クライアントデバイスの1つまたは複数のマイクロフォンによって検出され、以前の人の発話をキャプチャした以前のオーディオデータを特定するステップと、
前記以前の人の発話のグラウンドトゥルースの文字起こしを特定するステップと、
前記音声合成モデルを使用して前記グラウンドトゥルースの文字起こしを処理して、以前の合成音声オーディオデータを生成するステップと、
前記以前の合成音声オーディオデータを前記以前のオーディオデータと比較することに基づいて勾配を生成するステップと、
前記勾配に基づいて前記音声合成モデルの1つまたは複数の重みを更新するステップとをさらに含む請求項1から17のいずれか一項に記載の方法。 - 前記グラウンドトゥルースの文字起こしを特定するステップが、
前記音声認識モデルを使用して文字起こしを生成すること、
前記文字起こしの生成の信頼性の尺度に基づいて、および/または前記文字起こしに応じて実行されたユーザのアクションに基づいて、前記文字起こしを前記グラウンドトゥルースの文字起こしとして特定することを含む請求項18に記載の方法。 - クライアントデバイスの1つまたは複数のプロセッサによって実行される方法であって、
前記クライアントデバイスにローカルに記憶されたテキストセグメントを特定するステップと、
前記特定されたテキストセグメントの合成音声を含む合成音声オーディオデータを生成するステップであって、前記クライアントデバイスにローカルに記憶された音声合成モデルを使用して前記テキストセグメントを処理することを含む、ステップと、
前記合成オーディオデータを、前記クライアントデバイスにローカルに記憶されたエンドツーエンドの音声認識モデルを使用して処理して、予測されたテキストセグメントを生成するステップと、
前記予測されたテキストセグメントを前記テキストセグメントと比較することに基づいて勾配を生成するステップと、
前記テキストセグメント、前記合成音声オーディオデータ、および前記予測されたテキストセグメントのいずれも送信せずに、前記生成された勾配をネットワークを介して遠隔のシステムに送信するステップとを含み、
前記遠隔のシステムが、大域的なエンドツーエンドの音声認識モデルの大域的な重みを更新するために、前記生成された勾配および追加のクライアントデバイスからの追加の勾配を利用する、方法。 - 前記大域的なエンドツーエンドの音声認識モデルの更新された大域的な重みが、前記遠隔のシステムのメモリに記憶される請求項20に記載の方法。
- 前記大域的なエンドツーエンドの音声認識モデルを前記遠隔のシステムから前記クライアントデバイスにおいて受信するステップであって、前記大域的なエンドツーエンドの音声認識モデルを受信することが、前記遠隔のシステムが前記勾配および前記追加の勾配に基づいて前記大域的なエンドツーエンドの音声認識モデルの前記大域的な重みを更新することよりも後である、ステップと、
前記大域的なエンドツーエンドの音声認識モデルを受信することに応じて、前記クライアントデバイスのローカルストレージ内で前記音声認識モデルを前記大域的なエンドツーエンドの音声認識モデルによって置き換えるステップとをさらに含む請求項20または21に記載の方法。 - 前記更新された大域的な重みを前記遠隔のシステムから前記クライアントデバイスにおいて受信するステップであって、前記更新された大域的な重みを受信することが、前記遠隔のシステムが前記勾配および前記追加の勾配に基づいて前記大域的なエンドツーエンドの音声認識モデルの前記大域的な重みを更新することよりも後である、ステップと、
前記更新された大域的な重みを受信することに応じて、前記クライアントデバイスのローカルストレージ内で前記音声認識モデルの重みを前記更新された大域的な重みによって置き換えるステップとをさらに含む請求項20または21に記載の方法。 - 前記クライアントデバイスの1つまたは複数のセンサーからのセンサーデータに基づいて、前記クライアントデバイスの現在の状態が1つまたは複数の条件を満たすと判定するステップをさらに含み、
前記合成音声オーディオデータを生成するステップ、および/または前記合成音声オーディオデータを処理して前記予測されたテキストセグメントを生成するステップ、および/または前記勾配を生成するステップ、および/または前記生成された勾配を送信するステップが、前記クライアントデバイスの前記現在の状態が前記1つまたは複数の条件を満たすと判定することに応じて実行される請求項20から23のいずれか一項に記載の方法。 - 前記特定されたテキストセグメントの合成音声を含む前記合成音声オーディオデータを生成するステップが、
追加のテキストセグメントを決定することをさらに含み、
前記合成音声オーディオデータを生成するステップが、前記音声合成モデルを使用して前記追加のテキストセグメントと一緒に前記テキストセグメントを処理することを含む請求項20から24のいずれか一項に記載の方法。 - 前記音声合成モデルが、所与の言語のための複数の候補音声合成モデルのうちの1つであり、前記クライアントデバイスの地理的領域に少なくとも部分的に基づいて前記クライアントデバイスにローカルに記憶される請求項20から25のいずれか一項に記載の方法。
- 前記合成音声オーディオデータを生成する前に、
前記クライアントデバイスの1つまたは複数のマイクロフォンによって検出され、以前の人の発話をキャプチャした以前のオーディオデータを特定するステップと、
前記以前の人の発話のグラウンドトゥルースの文字起こしを特定するステップと、
前記音声合成モデルを使用して前記グラウンドトゥルースの文字起こしを処理して、以前の合成音声オーディオデータを生成するステップと、
前記以前の合成音声オーディオデータを前記以前のオーディオデータと比較することに基づいて勾配を生成するステップと、
前記勾配に基づいて前記音声合成モデルの1つまたは複数の重みを更新するステップとをさらに含む請求項20から26のいずれか一項に記載の方法。 - クライアントデバイスの1つまたは複数のプロセッサによって実行される方法であって、
前記クライアントデバイスにローカルに記憶されたテキストセグメントを特定するステップと、
前記特定されたテキストセグメントの合成音声を含む合成音声オーディオデータを生成するステップであって、前記クライアントデバイスにローカルに記憶された音声合成モデルを使用して前記テキストセグメントを処理することを含む、ステップと、
予測された出力を生成するために、前記合成音声オーディオデータを、前記クライアントデバイスにローカルに記憶された認識モデルを使用して処理するステップと、
前記予測された出力を前記テキストセグメントに対応するグラウンドトゥルース出力と比較することに基づいて勾配を生成するステップと、
生成された勾配に基づいて前記音声認識モデルの1つまたは複数の重みを更新するステップとを含む、方法。 - 前記予測された出力が、予測された音素のシーケンスを含み、前記グラウンドトゥルース出力が、前記テキストセグメントに対応する音素のグラウンドトゥルースシーケンスを含む請求項28に記載の方法。
- 前記予測された出力が、予測されたテキストセグメントを含み、前記グラウンドトゥルース出力が、前記テキストセグメントを含む請求項29に記載の方法。
- 少なくとも1つのマイクロフォン、
少なくとも1つのディスプレイ、
プロセッサに請求項1から29のいずれか一項に記載の方法を実行させるローカルに記憶された命令を実行する1つまたは複数のプロセッサを含むクライアントデバイス。 - 1つまたは複数のプロセッサによって実行されるとき、前記1つまたは複数のプロセッサに請求項1から29のいずれか一項に記載の方法を実行させる命令を含むコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962872140P | 2019-07-09 | 2019-07-09 | |
US62/872,140 | 2019-07-09 | ||
PCT/US2019/054314 WO2021006920A1 (en) | 2019-07-09 | 2019-10-02 | On-device speech synthesis of textual segments for training of on-device speech recognition model |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022531524A true JP2022531524A (ja) | 2022-07-07 |
JP7104247B2 JP7104247B2 (ja) | 2022-07-20 |
Family
ID=68296774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021541637A Active JP7104247B2 (ja) | 2019-07-09 | 2019-10-02 | オンデバイスの音声認識モデルの訓練のためのテキストセグメントのオンデバイスの音声合成 |
Country Status (6)
Country | Link |
---|---|
US (4) | US11127392B2 (ja) |
EP (1) | EP3791383B1 (ja) |
JP (1) | JP7104247B2 (ja) |
KR (1) | KR102413616B1 (ja) |
CN (2) | CN118865957A (ja) |
WO (1) | WO2021006920A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10605172B2 (en) | 2013-03-14 | 2020-03-31 | United Technologies Corporation | Low noise turbine for geared gas turbine engine |
KR102413616B1 (ko) | 2019-07-09 | 2022-06-27 | 구글 엘엘씨 | 온-디바이스 음성 인식 모델 트레이닝을 위한 텍스트 세그먼트의 온-디바이스 음성 합성 |
US11545133B2 (en) * | 2020-10-12 | 2023-01-03 | Google Llc | On-device personalization of speech synthesis for training of speech model(s) |
US11676572B2 (en) | 2021-03-03 | 2023-06-13 | Google Llc | Instantaneous learning in text-to-speech during dialog |
CN113129870B (zh) * | 2021-03-23 | 2022-03-25 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置、设备和存储介质 |
US11823697B2 (en) | 2021-08-20 | 2023-11-21 | Google Llc | Improving speech recognition with speech synthesis-based model adapation |
WO2023059959A1 (en) * | 2021-10-06 | 2023-04-13 | Google Llc | Fusion of acoustic and text representations in an automatic speech recognition system implemented as a rnn-t |
US20230177382A1 (en) * | 2021-12-02 | 2023-06-08 | Google Llc | Method(s) and system(s) for improved efficiency in federated learning of machine learning model(s) |
US20230317082A1 (en) * | 2022-03-31 | 2023-10-05 | Google Llc | Generating and/or utilizing unintentional memorization measure(s) for automatic speech recognition model(s) |
CN114898733A (zh) * | 2022-05-06 | 2022-08-12 | 深圳妙月科技有限公司 | Ai语音数据的分析处理方法及系统 |
KR102715213B1 (ko) * | 2024-02-27 | 2024-10-11 | 주식회사 리턴제로 | 음성데이터 내 단어 분석을 통한 화자 분리 장치 및 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0389294A (ja) * | 1989-08-31 | 1991-04-15 | Fujitsu Ltd | 語学訓練装置 |
JP2001013983A (ja) * | 1999-06-25 | 2001-01-19 | Nec Corp | 音声合成を用いた音声認識装置および音声認識方法 |
JP2013218095A (ja) * | 2012-04-09 | 2013-10-24 | Clarion Co Ltd | 音声認識サーバ統合装置および音声認識サーバ統合方法 |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11338489A (ja) * | 1998-05-25 | 1999-12-10 | Ricoh Co Ltd | 音声認識装置および音声認識方法および記録媒体 |
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
US7013276B2 (en) * | 2001-10-05 | 2006-03-14 | Comverse, Inc. | Method of assessing degree of acoustic confusability, and system therefor |
US8818793B1 (en) * | 2002-12-24 | 2014-08-26 | At&T Intellectual Property Ii, L.P. | System and method of extracting clauses for spoken language understanding |
JP2005043461A (ja) * | 2003-07-23 | 2005-02-17 | Canon Inc | 音声認識方法及び音声認識装置 |
WO2005071663A2 (en) * | 2004-01-16 | 2005-08-04 | Scansoft, Inc. | Corpus-based speech synthesis based on segment recombination |
JP4291728B2 (ja) * | 2004-04-15 | 2009-07-08 | 日本電信電話株式会社 | 音声認識方法およびこの方法を実施する装置 |
US7509259B2 (en) * | 2004-12-21 | 2009-03-24 | Motorola, Inc. | Method of refining statistical pattern recognition models and statistical pattern recognizers |
US20070055526A1 (en) * | 2005-08-25 | 2007-03-08 | International Business Machines Corporation | Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis |
US7698140B2 (en) * | 2006-03-06 | 2010-04-13 | Foneweb, Inc. | Message transcription, voice query and query delivery system |
US7472061B1 (en) * | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations |
US9236047B2 (en) * | 2010-05-21 | 2016-01-12 | Microsoft Technology Licensing, Llc | Voice stream augmented note taking |
US10672399B2 (en) * | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10453479B2 (en) * | 2011-09-23 | 2019-10-22 | Lessac Technologies, Inc. | Methods for aligning expressive speech utterances with text and systems therefor |
US9495966B2 (en) * | 2012-05-31 | 2016-11-15 | Elwha Llc | Speech recognition adaptation systems based on adaptation data |
WO2014144579A1 (en) * | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10885918B2 (en) * | 2013-09-19 | 2021-01-05 | Microsoft Technology Licensing, Llc | Speech recognition using phoneme matching |
US9613619B2 (en) * | 2013-10-30 | 2017-04-04 | Genesys Telecommunications Laboratories, Inc. | Predicting recognition quality of a phrase in automatic speech recognition systems |
US9508338B1 (en) * | 2013-11-15 | 2016-11-29 | Amazon Technologies, Inc. | Inserting breath sounds into text-to-speech output |
US10068565B2 (en) * | 2013-12-06 | 2018-09-04 | Fathy Yassa | Method and apparatus for an exemplary automatic speech recognition system |
US10325590B2 (en) * | 2015-06-26 | 2019-06-18 | Intel Corporation | Language model modification for local speech recognition systems using remote sources |
US9997155B2 (en) * | 2015-09-09 | 2018-06-12 | GM Global Technology Operations LLC | Adapting a speech system to user pronunciation |
US9792897B1 (en) * | 2016-04-13 | 2017-10-17 | Malaspina Labs (Barbados), Inc. | Phoneme-expert assisted speech recognition and re-synthesis |
US10909978B2 (en) * | 2017-06-28 | 2021-02-02 | Amazon Technologies, Inc. | Secure utterance storage |
KR102339716B1 (ko) * | 2017-06-30 | 2021-12-14 | 삼성에스디에스 주식회사 | 음성 인식 방법 및 그 장치 |
JP6654611B2 (ja) * | 2017-12-05 | 2020-02-26 | 株式会社日立製作所 | 成長型対話装置 |
CN108133705A (zh) * | 2017-12-21 | 2018-06-08 | 儒安科技有限公司 | 基于对偶学习的语音识别与语音合成模型训练方法 |
CN108182936B (zh) | 2018-03-14 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 语音信号生成方法和装置 |
WO2020096073A1 (ko) * | 2018-11-05 | 2020-05-14 | 주식회사 시스트란인터내셔널 | 빅 데이터를 이용한 최적의 언어 모델 생성 방법 및 이를 위한 장치 |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
CN109887484B (zh) | 2019-02-22 | 2023-08-04 | 平安科技(深圳)有限公司 | 一种基于对偶学习的语音识别与语音合成方法及装置 |
KR102413616B1 (ko) | 2019-07-09 | 2022-06-27 | 구글 엘엘씨 | 온-디바이스 음성 인식 모델 트레이닝을 위한 텍스트 세그먼트의 온-디바이스 음성 합성 |
US10789956B1 (en) * | 2019-08-20 | 2020-09-29 | Capital One Services, Llc | Text-to-speech modeling |
-
2019
- 2019-10-02 KR KR1020217024199A patent/KR102413616B1/ko active IP Right Grant
- 2019-10-02 JP JP2021541637A patent/JP7104247B2/ja active Active
- 2019-10-02 US US16/959,546 patent/US11127392B2/en active Active
- 2019-10-02 CN CN202411118841.2A patent/CN118865957A/zh active Pending
- 2019-10-02 WO PCT/US2019/054314 patent/WO2021006920A1/en unknown
- 2019-10-02 EP EP19791047.4A patent/EP3791383B1/en active Active
- 2019-10-02 CN CN201980091350.4A patent/CN113412514B/zh active Active
-
2021
- 2021-09-20 US US17/479,285 patent/US11705106B2/en active Active
-
2023
- 2023-05-31 US US18/204,324 patent/US11978432B2/en active Active
-
2024
- 2024-05-06 US US18/656,197 patent/US20240290317A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0389294A (ja) * | 1989-08-31 | 1991-04-15 | Fujitsu Ltd | 語学訓練装置 |
JP2001013983A (ja) * | 1999-06-25 | 2001-01-19 | Nec Corp | 音声合成を用いた音声認識装置および音声認識方法 |
JP2013218095A (ja) * | 2012-04-09 | 2013-10-24 | Clarion Co Ltd | 音声認識サーバ統合装置および音声認識サーバ統合方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113412514B (zh) | 2024-08-27 |
US11705106B2 (en) | 2023-07-18 |
EP3791383A1 (en) | 2021-03-17 |
WO2021006920A1 (en) | 2021-01-14 |
CN118865957A (zh) | 2024-10-29 |
US11978432B2 (en) | 2024-05-07 |
JP7104247B2 (ja) | 2022-07-20 |
KR102413616B1 (ko) | 2022-06-27 |
US20230306955A1 (en) | 2023-09-28 |
US20220005458A1 (en) | 2022-01-06 |
KR20210102456A (ko) | 2021-08-19 |
US20210104223A1 (en) | 2021-04-08 |
US20240290317A1 (en) | 2024-08-29 |
CN113412514A (zh) | 2021-09-17 |
EP3791383B1 (en) | 2021-12-08 |
US11127392B2 (en) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7104247B2 (ja) | オンデバイスの音声認識モデルの訓練のためのテキストセグメントのオンデバイスの音声合成 | |
US11817080B2 (en) | Using corrections, of predicted textual segments of spoken utterances, for training of on-device speech recognition model | |
US11545133B2 (en) | On-device personalization of speech synthesis for training of speech model(s) | |
US11797772B2 (en) | Word lattice augmentation for automatic speech recognition | |
JP7400112B2 (ja) | 自動音声認識のための英数字列のバイアス付加 | |
KR20230005966A (ko) | 거의 일치하는 핫워드 또는 구문 검출 | |
US20240112673A1 (en) | Identifying and correcting automatic speech recognition (asr) misrecognitions in a decentralized manner | |
KR20240154576A (ko) | 자동 스피치 인식 모델(들)에 대한 비의도적 기억화 측정치(들)를 생성 및/또는 활용 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210818 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210818 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210818 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220707 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7104247 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |