JP7485858B2 - 実世界ノイズを使用した音声個性化および連合訓練 - Google Patents
実世界ノイズを使用した音声個性化および連合訓練 Download PDFInfo
- Publication number
- JP7485858B2 JP7485858B2 JP2023531073A JP2023531073A JP7485858B2 JP 7485858 B2 JP7485858 B2 JP 7485858B2 JP 2023531073 A JP2023531073 A JP 2023531073A JP 2023531073 A JP2023531073 A JP 2023531073A JP 7485858 B2 JP7485858 B2 JP 7485858B2
- Authority
- JP
- Japan
- Prior art keywords
- training
- speech
- voice
- utterances
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 347
- 238000000034 method Methods 0.000 claims description 102
- 238000012545 processing Methods 0.000 claims description 66
- 238000013518 transcription Methods 0.000 claims description 56
- 230000035897 transcription Effects 0.000 claims description 56
- 230000015654 memory Effects 0.000 claims description 42
- 238000005070 sampling Methods 0.000 claims description 26
- 230000014509 gene expression Effects 0.000 claims description 19
- 230000001755 vocal effect Effects 0.000 claims description 19
- 230000013016 learning Effects 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 14
- 230000003993 interaction Effects 0.000 claims description 13
- 230000003190 augmentative effect Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 9
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 65
- 238000003860 storage Methods 0.000 description 17
- 238000013459 approach Methods 0.000 description 11
- 230000003416 augmentation Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 230000007613 environmental effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000035045 associative learning Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 231100000344 non-irritating Toxicity 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
12 発話
14 環境ノイズ
14a、14b 背景ノイズ
100 音声システム
110、110a、110b、110c 音声対応デバイス
112、134 データ処理ハードウェア
114、136 メモリハードウェア
116 オーディオキャプチャデバイス
120 ネットワーク
130 遠隔システム
132 遠隔リソース
140 音声システム
144、144a~n 訓練発話
144r 音声表現
144t トランスクリプション
146、146s、146P モデル
200 訓練プロセス
202、202a、202b オーディオデータ
204、204a~n オーディオサンプル
212、212a、212b 重み
208、208a、208b、208c 更新
210 収集段
220 増強段
230 訓練段
240 発生段
300 方法
400 コンピューティングデバイス
400a 標準のサーバ
400b ラップトップコンピュータ
400c ラックサーバシステム
410 プロセッサ
420 メモリ
430 ストレージデバイス
440、460 コントローラ
450 拡張ポート
470 バス
480 ディスプレイ
Claims (30)
- 音声対応デバイス(110)のデータ処理ハードウェア(112)において、固定セットの訓練発話(144)を受け取るステップであって、前記固定セットの訓練発話(144)の中の各訓練発話(144)は、対応する前記訓練発話(144)の対応する音声表現(144r)とペアリングされた対応するトランスクリプション(144t)を含む、ステップと、
前記データ処理ハードウェア(112)により、前記音声対応デバイス(110)の環境からノイズのあるオーディオデータ(202)をサンプリングするステップであって、
前記音声対応デバイス(110)のユーザ(10)が前記音声対応デバイス(110)と頻繁に対話するときのコンテクストおよび/または時間枠を獲得するステップと、
前記音声対応デバイス(110)の前記ユーザ(10)が前記音声対応デバイス(110)と頻繁に対話するときの前記獲得されたコンテクストおよび/または時間枠の最中に前記音声対応デバイス(110)の前記環境から前記ノイズのあるオーディオデータ(202)をサンプリングするステップと
を含む、ステップと、
前記固定セットの訓練発話(144)の中の各訓練発話(144)に関して、
前記データ処理ハードウェア(112)により、前記音声対応デバイス(110)の前記環境からサンプリングされた前記ノイズのあるオーディオデータ(202)を使用して、1つまたは複数の対応するノイズのあるオーディオサンプル(204)を生成すべく前記対応する訓練発話(144)の前記対応する音声表現(144r)を増強するステップと、
前記データ処理ハードウェア(112)により、前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)のそれぞれを前記対応する訓練発話(144)の前記対応するトランスクリプション(144t)とペアリングするステップと
を含む、ステップと、
前記データ処理ハードウェア(112)により、前記固定セットの訓練発話(144)における各音声表現(144r)に関して生成された前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)で音声モデル(146)を訓練するステップと
を含む、方法(300)。 - 音声対応デバイス(110)のデータ処理ハードウェア(112)において、固定セットの訓練発話(144)を受け取るステップであって、前記固定セットの訓練発話(144)の中の各訓練発話(144)は、対応する前記訓練発話(144)の対応する音声表現(144r)とペアリングされた対応するトランスクリプション(144t)を含む、ステップと、
前記データ処理ハードウェア(112)により、前記音声対応デバイス(110)の環境からノイズのあるオーディオデータ(202)をサンプリングするステップであって、
前記音声対応デバイス(110)の前記環境から一日中ずっとノイズのあるオーディオデータ(202)をランダムにサンプリングするステップと、
前記音声対応デバイス(110)のユーザ(10)が前記音声対応デバイス(110)と頻繁に対話するときのコンテクストおよび/または時間枠の最中に前記環境からサンプリングされた前記ノイズのあるオーディオデータ(202)のいずれかに重み(212)を付加するステップと
を含む、ステップと、
前記固定セットの訓練発話(144)の中の各訓練発話(144)に関して、
前記データ処理ハードウェア(112)により、前記音声対応デバイス(110)の前記環境からサンプリングされた前記ノイズのあるオーディオデータ(202)を使用して、1つまたは複数の対応するノイズのあるオーディオサンプル(204)を生成すべく前記対応する訓練発話(144)の前記対応する音声表現(144r)を増強するステップと、
前記データ処理ハードウェア(112)により、前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)のそれぞれを前記対応する訓練発話(144)の前記対応するトランスクリプション(144t)とペアリングするステップと
を含む、ステップと、
前記データ処理ハードウェア(112)により、前記固定セットの訓練発話(144)における各音声表現(144r)に関して生成された前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)で音声モデル(146)を訓練するステップと
を含む、方法(300)。 - 前記音声対応デバイス(110)の前記環境から前記ノイズのあるオーディオデータ(202)をサンプリングするステップは、前記音声対応デバイス(110)と前記音声対応デバイス(110)に関連付けられたユーザ(10)との間の音声対話の直前、最中、または直後のうちの少なくとも1つにおいて、前記音声対応デバイス(110)の前記環境からノイズ(14)をランダムにサンプリングするステップを含む、請求項1または2に記載の方法(300)。
- 前記データ処理ハードウェア(112)のデジタルシグナルプロセッサ(DSP)は、前記音声対応デバイス(110)の前記環境から前記ノイズのあるオーディオデータ(202)をサンプリングする、請求項1から3のいずれか一項に記載の方法(300)。
- 前記対応する訓練発話(144)の前記対応する音声表現(144r)を増強するのに先立って、前記データ処理ハードウェア(112)により、既存のノイズを除去すべく前記対応する音声表現(144r)をノイズ除去するステップをさらに含む、請求項1から4のいずれか一項に記載の方法(300)。
- 前記音声モデル(146)が音声認識モデルを含む場合、前記固定セットの訓練発話(144)における各音声表現(144r)と、前記対応する音声表現(144r)に関して生成された前記1つまたは複数のノイズのあるオーディオサンプル(204)の各ノイズのあるオーディオサンプル(204)とに関して、
前記データ処理ハードウェア(112)により、前記音声モデル(146)による出力のために、前記対応する音声表現(144r)または前記対応するノイズのあるオーディオサンプル(204)に関する可能な音声認識仮説にわたる対応する確率分布を決定するステップと、
前記データ処理ハードウェア(112)により、前記対応する音声表現(144r)または前記対応するノイズのあるオーディオサンプル(204)に関する可能な音声認識仮説にわたる前記対応する確率分布に基づいて損失項を生成するステップと
をさらに含む、請求項1から5のいずれか一項に記載の方法(300)。 - 前記音声モデル(146)を訓練するステップは、
(i)前記固定セットの訓練発話(144)における各音声表現(144r)、および
(ii)前記固定セットの訓練発話(144)における対応する各音声表現(144r)に関して生成された前記1つまたは複数のノイズのあるオーディオサンプル(204)のそれぞれのノイズのあるオーディオサンプル(204)
に関して生成された前記損失項を使用して、前記音声認識モデルのパラメータを更新するステップを含む、請求項6に記載の方法(300)。 - 前記音声モデル(146)を訓練するステップは、
中央サーバ(130)に、
(i)前記固定セットの訓練発話(144)における各音声表現(144r)、および
(ii)前記固定セットの訓練発話(144)における対応する各音声表現(144r)に関して生成された前記1つまたは複数のノイズのあるオーディオサンプル(204)のそれぞれのノイズのあるオーディオサンプル(204)
に関して生成された前記損失項を送信するステップを含み、
前記中央サーバ(130)は、
前記音声対応デバイス(110)の前記データ処理ハードウェア(112)から受信された前記損失項と、
他の対応する音声対応デバイス(110)によってサンプリングされた様々なノイズのあるオーディオデータ(202)に基づく、それぞれの他の音声対応デバイス(110)から受信される他の損失項と
に基づいて、連合学習を使用してサーバ側の音声認識モデルのパラメータを更新するように構成される、請求項6または7に記載の方法(300)。 - 少なくとも1つの訓練発話(144)に関する前記対応する音声表現(144r)は、前記対応する訓練発話(144)の生のオーディオ波形を含む、請求項1から8のいずれか一項に記載の方法(300)。
- 少なくとも1つの訓練発話(144)に関する前記対応する音声表現(144r)は、前記対応する訓練発話(144)のオーディオ特徴表現を含む、請求項1から9のいずれか一項に記載の方法(300)。
- 前記固定セットの訓練発話(144)の中の少なくとも1つの訓練発話(144)に関して、
前記データ処理ハードウェア(112)により、
前記対応する訓練発話(144)の前記対応する音声表現(144r)に音声学的に類似し、かつ
前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)とペアリングされた前記対応するトランスクリプション(144t)とは異なるそれぞれのトランスクリプションとペアリングされている、
前記音声対応デバイス(110)の前記環境からサンプリングされた対応する口頭の発話を獲得するステップをさらに含み、
前記固定セットの訓練発話(144)および前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)で前記音声モデル(146)を訓練するステップは、前記固定セットの訓練発話(144)の中の前記少なくとも1つの訓練発話(144)に関して獲得された前記対応する口頭の発話にさらに基づく、請求項1から10のいずれか一項に記載の方法(300)。 - 前記固定セットの訓練発話(144)の中の前記少なくとも1つの訓練発話(144)に関して前記対応する口頭の発話を獲得するステップは、
前記音声対応デバイス(110)の前記環境から前記対応する口頭の発話をサンプリングするステップと、
前記環境からサンプリングされた前記対応する口頭の発話が、前記少なくとも1つの対応する訓練発話(144)の前記対応する音声表現(144r)に音声学的に類似することを、前記対応する口頭の発話に関して生成されたそれぞれの埋め込みと前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)に関して生成されたそれぞれの埋め込みとの比較に基づいて判定するステップと、
前記音声対応デバイス(110)の前記環境からサンプリングされた前記対応する口頭の発話の前記それぞれのトランスクリプションを獲得するステップと、
前記対応する口頭の発話の前記それぞれのトランスクリプションが、前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)とペアリングされた前記対応するトランスクリプション(144t)とは異なることを判定するステップと
を含む、請求項11に記載の方法(300)。 - 埋め込みモデル、または前記音声モデル(146)の一部分が、前記対応する口頭の発話、および前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)のそれぞれに関してそれぞれの埋め込みを生成する、請求項12に記載の方法(300)。
- 前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)は、特定の固定項の口頭の表現を表し、
前記音声モデル(146)は、特定の固定項を検出すべく訓練されたホットワード検出モデルを含み、
前記特定の固定項を検出すべく前記ホットワード検出モデルを訓練することは、前記少なくとも1つの訓練発話(144)に関して獲得された前記対応する口頭の発話を否定的な訓練サンプルとして使用することを含む、請求項11から13のいずれか一項に記載の方法(300)。 - 前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)のそれぞれを前記対応する訓練発話(144)の前記対応するトランスクリプション(144t)とペアリングした後、前記データ処理ハードウェア(112)により、前記データ処理ハードウェア(112)と通信するメモリハードウェア(114)に、前記1つまたは複数の対応するノイズのあるサンプルのそれぞれと前記対応する訓練発話(144)の前記対応するトランスクリプション(144t)との前記ペアリングを記憶するステップをさらに含む、請求項1から14のいずれか一項に記載の方法(300)。
- システム(100)であって、
データ処理ハードウェア(112)と、
前記データ処理ハードウェア(112)と通信するメモリハードウェア(114)であって、前記データ処理ハードウェア(112)上で実行されると、前記データ処理ハードウェア(112)に、
音声対応デバイス(110)において、固定セットの訓練発話(144)を受け取ることであって、前記固定セットの訓練発話(144)の中の各訓練発話(144)は、対応する訓練発話(144)の対応する音声表現(144r)とペアリングされた対応するトランスクリプション(144t)を含む、ことと、
前記音声対応デバイス(110)の環境からノイズのあるオーディオデータ(202)をサンプリングすることであって、
前記音声対応デバイス(110)のユーザ(10)が前記音声対応デバイス(110)と頻繁に対話するときのコンテクストおよび/または時間枠を獲得することと、
前記音声対応デバイス(110)の前記ユーザ(10)が前記音声対応デバイス(110)と頻繁に対話するときの前記獲得されたコンテクストおよび/または時間枠の最中に前記音声対応デバイス(110)の前記環境から前記ノイズのあるオーディオデータ(202)をサンプリングすることと
を含む、ことと、
前記固定セットの訓練発話(144)の中の各訓練発話(144)に関して、
前記音声対応デバイス(110)の前記環境からサンプリングされた前記ノイズのあるオーディオデータ(202)を使用して、1つまたは複数の対応するノイズのあるオーディオサンプル(204)を生成すべく前記対応する訓練発話(144)の前記対応する音声表現(144r)を増強することと、
前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)のそれぞれを前記対応する訓練発話(144)の前記対応するトランスクリプション(144t)とペアリングすることと
を行う、ことと、
前記固定セットの訓練発話(144)における各音声表現(144r)に関して生成された前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)で音声モデル(146)を訓練することと
を含む動作を実行させる命令を記憶している、メモリハードウェアと
を備える、システム(100)。 - システム(100)であって、
データ処理ハードウェア(112)と、
前記データ処理ハードウェア(112)と通信するメモリハードウェア(114)であって、前記データ処理ハードウェア(112)上で実行されると、前記データ処理ハードウェア(112)に、
音声対応デバイス(110)において、固定セットの訓練発話(144)を受け取ることであって、前記固定セットの訓練発話(144)の中の各訓練発話(144)は、対応する訓練発話(144)の対応する音声表現(144r)とペアリングされた対応するトランスクリプション(144t)を含む、ことと、
前記音声対応デバイス(110)の環境からノイズのあるオーディオデータ(202)をサンプリングすることであって、
前記音声対応デバイス(110)の前記環境から一日中ずっとノイズのあるオーディオデータ(202)をランダムにサンプリングすることと、
前記音声対応デバイス(110)のユーザ(10)が前記音声対応デバイス(110)と頻繁に対話するときのコンテクストおよび/または時間枠の最中に前記環境からサンプリングされた前記ノイズのあるオーディオデータ(202)のいずれかに重み(212)を付加することと
を含む、ことと、
前記固定セットの訓練発話(144)の中の各訓練発話(144)に関して、
前記音声対応デバイス(110)の前記環境からサンプリングされた前記ノイズのあるオーディオデータ(202)を使用して、1つまたは複数の対応するノイズのあるオーディオサンプル(204)を生成すべく前記対応する訓練発話(144)の前記対応する音声表現(144r)を増強することと、
前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)のそれぞれを前記対応する訓練発話(144)の前記対応するトランスクリプション(144t)とペアリングすることと
を行う、ことと
前記固定セットの訓練発話(144)における各音声表現(144r)に関して生成された前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)で音声モデル(146)を訓練することと
を含む動作を実行させる命令を記憶している、メモリハードウェアと
を備える、システム(100)。 - 前記音声対応デバイス(110)の前記環境から前記ノイズのあるオーディオデータ(202)をサンプリングすることは、前記音声対応デバイス(110)と前記音声対応デバイス(110)に関連付けられたユーザ(10)との間の音声対話の直前、最中、または直後のうちの少なくとも1つにおいて、前記音声対応デバイス(110)の前記環境からノイズ(14)をランダムにサンプリングすることを含む、請求項16または17に記載のシステム(100)。
- 前記データ処理ハードウェア(112)のデジタルシグナルプロセッサ(DSP)は、前記音声対応デバイス(110)の前記環境から前記ノイズのあるオーディオデータ(202)をサンプリングする、請求項16から18のいずれか一項に記載のシステム(100)。
- 前記動作は、前記対応する訓練発話(144)の前記対応する音声表現(144r)を増強するのに先立って、既存のノイズを除去すべく前記対応する音声表現(144r)をノイズ除去することをさらに含む、請求項16から19のいずれか一項に記載のシステム(100)。
- 前記動作は、前記音声モデル(146)が音声認識モデルを含む場合、前記固定セットの訓練発話(144)における各音声表現(144r)と、前記対応する音声表現(144r)に関して生成された前記1つまたは複数のノイズのあるオーディオサンプル(204)の各ノイズのあるオーディオサンプル(204)とに関して、
前記音声モデル(146)による出力のために、前記対応する音声表現(144r)または前記対応するノイズのあるオーディオサンプル(204)に関する可能な音声認識仮説にわたる対応する確率分布を決定すること、および
前記対応する音声表現(144r)または前記対応するノイズのあるオーディオサンプル(204)に関する可能な音声認識仮説にわたる前記対応する確率分布に基づいて損失項を生成することをさらに含む、請求項16から20のいずれか一項に記載のシステム(100)。 - 前記音声モデル(146)を訓練することは、
(i)前記固定セットの訓練発話(144)における各音声表現(144r)、および
(ii)前記固定セットの訓練発話(144)における対応する各音声表現(144r)に関して生成された前記1つまたは複数のノイズのあるオーディオサンプル(204)のそれぞれのノイズのあるオーディオサンプル(204)
に関して生成された前記損失項を使用して、前記音声認識モデルのパラメータを更新することを含む、請求項21に記載のシステム(100)。 - 前記音声モデル(146)を訓練することは、中央サーバ(130)に、
(i)前記固定セットの訓練発話(144)における各音声表現(144r)、および
(ii)前記固定セットの訓練発話(144)における対応する各音声表現(144r)に関して生成された前記1つまたは複数のノイズのあるオーディオサンプル(204)のそれぞれのノイズのあるオーディオサンプル(204)
に関して生成された前記損失項を送信することを含み、
前記中央サーバ(130)は、
前記音声対応デバイス(110)の前記データ処理ハードウェア(112)から受信される前記損失項と、
他の対応する音声対応デバイス(110)によってサンプリングされた様々なノイズのあるオーディオデータ(202)に基づく、それぞれの他の音声対応デバイス(110)から受信される他の損失項と
に基づいて、連合学習を使用してサーバ側の音声認識モデルのパラメータを更新するように構成される、請求項21または22に記載のシステム(100)。 - 少なくとも1つの訓練発話(144)に関する前記対応する音声表現(144r)は、前記対応する訓練発話(144)の生のオーディオ波形を含む、請求項16から23のいずれか一項に記載のシステム(100)。
- 少なくとも1つの訓練発話(144)に関する前記対応する音声表現(144r)は、前記対応する訓練発話(144)のオーディオ特徴表現を含む、請求項16から24のいずれか一項に記載のシステム(100)。
- 前記動作は、前記固定セットの訓練発話(144)の中の少なくとも1つの訓練発話(144)に関して、
前記対応する訓練発話(144)の前記対応する音声表現(144r)に音声学的に類似し、かつ
前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)とペアリングされた前記対応するトランスクリプション(144t)とは異なるそれぞれのトランスクリプションとペアリングされている、
前記音声対応デバイス(110)の前記環境からサンプリングされた対応する口頭の発話を獲得することをさらに含み、
前記固定セットの訓練発話(144)および前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)で前記音声モデル(146)を訓練することは、前記固定セットの訓練発話(144)の中の前記少なくとも1つの訓練発話(144)に関して獲得された前記対応する口頭の発話にさらに基づく、請求項16から25のいずれか一項に記載のシステム(100)。 - 前記固定セットの訓練発話(144)の中の前記少なくとも1つの訓練発話(144)に関して前記対応する口頭の発話を獲得することは、
前記音声対応デバイス(110)の前記環境から前記対応する口頭の発話をサンプリングすること、
前記環境からサンプリングされた対応する口頭の発話が、前記少なくとも1つの対応する訓練発話(144)の対応する音声表現(144r)に音声学的に類似することを、対応する口頭の発話に関して生成されたそれぞれの埋め込みと前記少なくとも1つの訓練発話(144)の対応する音声表現(144r)に関して生成されたそれぞれの埋め込みとの比較に基づいて判定すること、
前記音声対応デバイス(110)の前記環境からサンプリングされた前記対応する口頭の発話の前記それぞれのトランスクリプションを獲得すること、および
前記対応する口頭の発話の前記それぞれのトランスクリプションが、前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)とペアリングされた前記対応するトランスクリプション(144t)とは異なることを判定すること
を含む、請求項26に記載のシステム(100)。 - 埋め込みモデル、または前記音声モデルの一部分が、前記対応する口頭の発話、および前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)のそれぞれに関してそれぞれの埋め込みを生成する、請求項27に記載のシステム(100)。
- 前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)は、特定の固定項の口頭の表現を表し、
前記音声モデルは、特定の固定項を検出すべく訓練されたホットワード検出モデルを含み、
前記特定の固定項を検出すべく前記ホットワード検出モデルを訓練することは、前記少なくとも1つの訓練発話(144)に関して獲得された前記対応する口頭の発話を否定的な訓練サンプルとして使用することを含む、請求項26から28のいずれか一項に記載のシステム(100)。 - 前記動作は、前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)のそれぞれを前記対応する訓練発話(144)の前記対応するトランスクリプション(144t)とペアリングした後、前記データ処理ハードウェア(112)により、前記データ処理ハードウェア(112)と通信するメモリハードウェア(114)に、前記1つまたは複数の対応するノイズのあるサンプルのそれぞれと前記対応する訓練発話(144)の前記対応するトランスクリプション(144t)との前記ペアリングを記憶することをさらに含む、請求項16から29のいずれか一項に記載のシステム(100)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/103,878 US11741944B2 (en) | 2020-11-24 | 2020-11-24 | Speech personalization and federated training using real world noise |
US17/103,878 | 2020-11-24 | ||
PCT/US2021/059415 WO2022115267A1 (en) | 2020-11-24 | 2021-11-15 | Speech personalization and federated training using real world noise |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023549975A JP2023549975A (ja) | 2023-11-29 |
JP7485858B2 true JP7485858B2 (ja) | 2024-05-16 |
Family
ID=78844696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023531073A Active JP7485858B2 (ja) | 2020-11-24 | 2021-11-15 | 実世界ノイズを使用した音声個性化および連合訓練 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11741944B2 (ja) |
EP (1) | EP4233046A1 (ja) |
JP (1) | JP7485858B2 (ja) |
KR (1) | KR20230107860A (ja) |
CN (1) | CN116472577A (ja) |
WO (1) | WO2022115267A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200168317A1 (en) * | 2018-08-22 | 2020-05-28 | Centre For Addiction And Mental Health | Tool for assisting individuals experiencing auditory hallucinations to differentiate between hallucinations and ambient sounds |
US11574148B2 (en) * | 2018-11-05 | 2023-02-07 | Royal Bank Of Canada | System and method for deep reinforcement learning |
US11741944B2 (en) * | 2020-11-24 | 2023-08-29 | Google Llc | Speech personalization and federated training using real world noise |
US20230017728A1 (en) * | 2021-07-14 | 2023-01-19 | Harman International Industries, Incorporated | Techniques for audio feature detection |
CN115472167A (zh) * | 2022-08-17 | 2022-12-13 | 南京龙垣信息科技有限公司 | 基于大数据自监督的声纹识别模型训练方法、系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140278420A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Training a Voice Recognition Model Database |
US20190228791A1 (en) | 2018-01-23 | 2019-07-25 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for generating far-field speech data, computer device and computer readable storage medium |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7072834B2 (en) * | 2002-04-05 | 2006-07-04 | Intel Corporation | Adapting to adverse acoustic environment in speech processing using playback training data |
GB2401469B (en) | 2003-05-09 | 2006-11-22 | Domain Dynamics Ltd | Pattern recognition |
US10311865B2 (en) * | 2013-10-14 | 2019-06-04 | The Penn State Research Foundation | System and method for automated speech recognition |
US9799329B1 (en) * | 2014-12-03 | 2017-10-24 | Amazon Technologies, Inc. | Removing recurring environmental sounds |
US10147442B1 (en) * | 2015-09-29 | 2018-12-04 | Amazon Technologies, Inc. | Robust neural network acoustic model with side task prediction of reference signals |
KR102494139B1 (ko) * | 2015-11-06 | 2023-01-31 | 삼성전자주식회사 | 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법 |
US9886954B1 (en) * | 2016-09-30 | 2018-02-06 | Doppler Labs, Inc. | Context aware hearing optimization engine |
US11227187B1 (en) * | 2019-05-23 | 2022-01-18 | Augustus Intelligence Inc. | Generating artificial intelligence solutions using raw data and simulated data |
CN111081222A (zh) | 2019-12-30 | 2020-04-28 | 北京明略软件系统有限公司 | 语音识别方法、装置、存储介质以及电子装置 |
US11741944B2 (en) * | 2020-11-24 | 2023-08-29 | Google Llc | Speech personalization and federated training using real world noise |
-
2020
- 2020-11-24 US US17/103,878 patent/US11741944B2/en active Active
-
2021
- 2021-11-15 WO PCT/US2021/059415 patent/WO2022115267A1/en active Application Filing
- 2021-11-15 KR KR1020237020349A patent/KR20230107860A/ko unknown
- 2021-11-15 JP JP2023531073A patent/JP7485858B2/ja active Active
- 2021-11-15 EP EP21824175.0A patent/EP4233046A1/en active Pending
- 2021-11-15 CN CN202180078935.XA patent/CN116472577A/zh active Pending
-
2023
- 2023-07-21 US US18/356,743 patent/US20230360639A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140278420A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Training a Voice Recognition Model Database |
US20190228791A1 (en) | 2018-01-23 | 2019-07-25 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for generating far-field speech data, computer device and computer readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
US20220165253A1 (en) | 2022-05-26 |
KR20230107860A (ko) | 2023-07-18 |
EP4233046A1 (en) | 2023-08-30 |
JP2023549975A (ja) | 2023-11-29 |
WO2022115267A1 (en) | 2022-06-02 |
CN116472577A (zh) | 2023-07-21 |
US20230360639A1 (en) | 2023-11-09 |
US11741944B2 (en) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7485858B2 (ja) | 実世界ノイズを使用した音声個性化および連合訓練 | |
CN111344780B (zh) | 基于上下文的设备仲裁 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
US11423885B2 (en) | Utilizing pre-event and post-event input streams to engage an automated assistant | |
WO2020043123A1 (zh) | 命名实体识别方法、命名实体识别装置、设备及介质 | |
US10811005B2 (en) | Adapting voice input processing based on voice input characteristics | |
CN114830228A (zh) | 与设备关联的账户 | |
US20200219487A1 (en) | Information processing apparatus and information processing method | |
US11676582B2 (en) | Detecting conversations with computing devices | |
EP4139816B1 (en) | Voice shortcut detection with speaker verification | |
JP2024508033A (ja) | 対話中のテキスト-音声の瞬時学習 | |
KR20230116886A (ko) | 페이크 오디오 검출을 위한 자기 지도형 음성 표현 | |
JP2023162265A (ja) | テキストエコー消去 | |
CN109074809B (zh) | 信息处理设备、信息处理方法和计算机可读存储介质 | |
US10522135B2 (en) | System and method for segmenting audio files for transcription | |
JP2021157145A (ja) | 推論器および推論器の学習方法 | |
CN114730563A (zh) | 使用视听匹配对自动语音识别假设进行重新评分 | |
JP2021033228A (ja) | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム | |
KR20220116660A (ko) | 인공지능 스피커 기능을 탑재한 텀블러 장치 | |
KR20160062254A (ko) | 음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치 | |
US11935539B1 (en) | Integrating voice controls into applications | |
US20240013782A1 (en) | History-Based ASR Mistake Corrections | |
KR20230141251A (ko) | 성도 및 여기 신호 정보를 이용한 자동 음성 인식 방법 및 장치 | |
WO2024151498A1 (en) | Speech recognition biasing | |
WO2023178006A1 (en) | Emotionally intelligent responses to information seeking questions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230721 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230721 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240502 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7485858 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |