JP2021089438A - 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 - Google Patents
呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 Download PDFInfo
- Publication number
- JP2021089438A JP2021089438A JP2021019793A JP2021019793A JP2021089438A JP 2021089438 A JP2021089438 A JP 2021089438A JP 2021019793 A JP2021019793 A JP 2021019793A JP 2021019793 A JP2021019793 A JP 2021019793A JP 2021089438 A JP2021089438 A JP 2021089438A
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- data frame
- buffer
- data frames
- noise reduction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 189
- 230000009467 reduction Effects 0.000 title claims abstract description 93
- 238000001514 detection method Methods 0.000 title abstract description 12
- 230000006978 adaptation Effects 0.000 title description 21
- 239000000872 buffer Substances 0.000 claims description 171
- 238000012545 processing Methods 0.000 claims description 90
- 238000010801 machine learning Methods 0.000 claims description 69
- 230000008569 process Effects 0.000 claims description 43
- 230000004044 response Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 17
- 230000003213 activating effect Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 16
- 230000009471 action Effects 0.000 description 12
- 230000003044 adaptive effect Effects 0.000 description 12
- 230000002452 interceptive effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000026676 system process Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
Description
110 1つまたは複数のローカルエリアおよび/または広域ネットワーク
1121〜N オーディオデータフレーム
1131〜N フィルタリングされたデータフレーム
1141〜N ラベル
120 自動化されたアシスタントクライアント
122 ローカルエンジン
124 呼び出しエンジン
125 分類モジュール
126 コントローラモジュール
127 雑音低減(NR)適応モジュール
128 呼び出しフレーズモジュール
129 NRモジュール
130 クラウドに基づく自動化されたアシスタント構成要素
131 クラウドに基づくTTSモジュール
132 クラウドに基づくSTTモジュール
133 自然言語プロセッサ
134 対話状態トラッカ
135 対話マネージャ
140 自動化されたアシスタント
160A 訓練された音響モデル
160B 訓練された音響モデル
162 バッファ
164 NRフィルタ
200 方法
402 ユーザ
403 口で言われた発話
404 テレビ
405 背景雑音
406 クライアントデバイス
500 方法
610 コンピューティングデバイス
612 バスサブシステム
614 プロセッサ
616 ネットワークインターフェースサブシステム
620 ユーザインターフェース出力デバイス
622 ユーザインターフェース入力デバイス
624 ストレージサブシステム
625 メモリサブシステム
626 ファイルストレージサブシステム
630 主ランダムアクセスメモリ(RAM)
632 読み出し専用メモリ(ROM)
Claims (29)
- 自動化されたアシスタントのための呼び出しフレーズを検出する方法であって、前記方法が、クライアントデバイスの1つまたは複数のプロセッサによって実行され、
前記クライアントデバイスの1つまたは複数のマイクロフォンからの出力に基づくオーディオデータフレームのストリームを受信するステップと、
1つまたは複数の対応する呼び出し音素の存在の1つまたは複数の対応する確率を示すそれぞれの出力を生成するために訓練された機械学習モデルを使用して前記ストリームの前記オーディオデータフレームの各々を処理するステップと、
前記ストリームの前記オーディオデータフレームを、前記オーディオデータフレームに関する出力インジケーションと一緒にバッファに記憶するステップであって、前記出力インジケーションの各々が、前記オーディオデータフレームのうちのそれぞれのオーディオデータフレームに関するものであり、前記訓練された機械学習モデルを使用する前記オーディオデータフレームのうちの前記それぞれのオーディオデータフレームの処理に基づいて生成された対応する出力に基づく、ステップと、
第1の場合に、前記第1の場合の前記バッファ内の前記出力インジケーションが、前記第1の場合の前記バッファ内の前記オーディオデータフレームがすべて前記1つまたは複数の対応する呼び出し音素のいずれも含み得ないことを示すと判定するステップと、
前記第1の場合の前記判定に応じて、
雑音低減フィルタを適応させるために前記第1の場合の前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つを使用するステップと、
前記第1の場合の後の第2の場合に、前記第2の場合の前記バッファ内の前記出力インジケーションが、前記第2の場合の前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つが前記1つまたは複数の対応する呼び出し音素のうちの少なくとも1つを潜在的に含むことを示すと判定するステップと、
前記第2の場合の前記判定に応じて、
少なくとも部分的に前記第1の場合の前記判定に応じて適応された前記雑音低減フィルタを使用する前記第2の場合の前記バッファ内の複数の前記オーディオデータフレームの処理に基づいてフィルタリングされたデータフレームを生成するステップと、
前記訓練された機械学習モデルまたはさらなる訓練された機械学習モデルを使用して前記フィルタリングされたデータフレームを処理することに基づいて、前記フィルタリングされたデータフレームが前記呼び出しフレーズの存在を示すかどうかを判定するステップと、
前記フィルタリングされたデータフレームが前記呼び出しフレーズの存在を示すとの判定に応じて、
前記自動化されたアシスタントの少なくとも1つの機能がアクティブ化されるようにするステップとを含む、
方法。 - 前記自動化されたアシスタントの前記少なくとも1つの機能がアクティブ化されるようにするステップが、前記ストリームのその後受け取られたオーディオデータフレームがさらなる処理のために1つまたは複数のリモートの自動化されたアシスタントサーバに送信されるようにするステップを含む、
請求項1に記載の方法。 - 前記さらなる処理が、スピーチトゥテキスト変換、意味処理、および対話状態追跡のうちの1つまたは複数を含む、
請求項2に記載の方法。 - 前記雑音低減フィルタを適応させるために前記第1の場合の前記バッファ内の前記オーディオデータフレームのうちの前記少なくとも1つを使用するステップが、
前記バッファから単一のデータフレームを取り出すステップと、
前記雑音低減フィルタを適応させるために前記単一のデータフレームを使用するステップとを含む、
請求項1から3のいずれか一項に記載の方法。 - 前記ストリームの前記オーディオデータフレームが、少なくとも、前記1つまたは複数のマイクロフォンのうちの第1のマイクロフォンに基づく第1のチャネルと、前記1つまたは複数のマイクロフォンのうちの第2のマイクロフォンに基づく第2のチャネルとを含む、
請求項1から4のいずれか一項に記載の方法。 - 前記それぞれの出力を生成するために前記訓練された機械学習モデルを使用して前記ストリームの前記オーディオデータフレームの各々を処理するステップが、
前記訓練された機械学習モデルを使用して前記オーディオデータフレームの各々の前記第1のチャネルのみを処理するステップを含む、
請求項5に記載の方法。 - 前記雑音低減フィルタが、マルチチャネル雑音低減フィルタであり、
前記雑音低減フィルタを適応させるために前記第1の場合の前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つを使用するステップが、
前記雑音低減フィルタを適応させるために前記第1の場合の前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つの前記第1のチャネルと前記第2のチャネルとの両方を使用するステップを含む、
請求項5に記載の方法。 - 前記雑音低減フィルタを適応させるために前記第1の場合の前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つの前記第1のチャネルと前記第2のチャネルとの両方を使用するステップが、
前記雑音低減フィルタを更新するために誤差を決定する際に前記第1のチャネルを信号源として使用し、前記第2のチャネルを雑音源として使用するステップを含む、
請求項7に記載の方法。 - 少なくとも部分的に前記第1の場合の前記判定に応じて適応された前記雑音低減フィルタを使用する前記第2の場合の前記バッファ内の複数の前記オーディオデータフレームの処理に基づいてフィルタリングされたデータフレームを生成するステップが、
前記フィルタリングされたデータフレームを生成する際に複数の前記オーディオデータフレームの前記第1のチャネルと前記第2のチャネルとの両方を使用するステップを含む、
請求項5に記載の方法。 - 前記第2の場合の前記バッファ内の前記出力インジケーションが、前記対応する出力が第1の閾値を満たすが、第2の閾値を満たし得ないことに基づいて、前記第2の場合の前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つが前記1つまたは複数の対応する呼び出し音素のうちの少なくとも1つを潜在的に含むことを示す、
請求項1から9のいずれか一項に記載の方法。 - クライアントデバイスの1つまたは複数のプロセッサによって実施される方法であって、
前記クライアントデバイスの自動化されたアシスタントクライアントの1つまたは複数の機能が非アクティブである間に、
複数の最も新しく処理されたオーディオデータフレーム、および前記オーディオデータフレームのうちのそれぞれのオーディオデータフレームにそれぞれが対応する複数の出力インジケーションを含むバッファにアクセスするステップであって、
前記オーディオデータフレームが、前記クライアントデバイスの1つまたは複数のマイクロフォンからの出力に基づき、
前記出力インジケーションが、機械学習モデルを使用する前記オーディオデータフレームのうちのそれぞれのオーディオデータフレームの処理に基づいてそれぞれ決定され、前記オーディオデータフレームのうちの前記それぞれのオーディオデータフレームが第1の閾値を満たし得ない雑音フレームであるのか、前記第1の閾値を満たすが第2の閾値を満たし得ない準トリガフレームであるのか、または前記第1の閾値と前記第2の閾値との両方を満たすトリガフレームであるのかをそれぞれ示す、ステップと、
前記バッファの前記出力インジケーションが前記バッファの前記データフレームのすべてが前記雑音フレームであることを示すとき、
雑音低減フィルタを適応させるために前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つを使用するステップと、
前記バッファの前記出力インジケーションが前記バッファの前記データフレームが少なくとも1つの準トリガフレームを含むが、トリガフレームを含まないことを示すとき、
前記雑音低減フィルタを使用する前記バッファ内の複数の前記オーディオデータフレームの処理に基づいてフィルタリングされたデータフレームを生成するステップと、
前記フィルタリングされたデータフレームが呼び出しフレーズの存在を示すかどうかを判定するために前記訓練された機械学習モデルまたはさらなる訓練された機械学習モデルを使用して前記フィルタリングされたデータフレームを処理するステップと、
前記フィルタリングされたデータフレームが前記呼び出しフレーズの存在を示すとき、前記自動化されたアシスタントの前記機能のうちの1つまたは複数をアクティブ化するステップとを含む、
方法。 - 前記バッファの前記出力インジケーションが前記バッファの前記データフレームが少なくとも1つのトリガフレームを含むことを示すとき、
前記オーディオデータフレームが呼び出しフレーズの存在を示すかどうかを判定するために前記訓練された機械学習モデルまたは前記さらなる訓練された機械学習モデルを使用して前記バッファ内の複数の前記オーディオデータフレームを処理するステップと、
前記オーディオデータフレームが前記呼び出しフレーズの存在を示すとき、前記自動化されたアシスタントの前記機能のうちの1つまたは複数をアクティブ化するステップとをさらに含む、
請求項11に記載の方法。 - 前記雑音低減フィルタを使用する前記バッファ内の複数の前記オーディオデータフレームの処理に基づいて前記フィルタリングされたデータフレームを生成するステップが、
前記バッファから前記オーディオデータフレームのすべてを取り出すステップと、
前記オーディオデータフレームのすべての処理に基づいて前記フィルタリングされたデータフレームを生成するステップとを含む、
請求項11または請求項12に記載の方法。 - 前記オーディオデータフレームが呼び出しフレーズの存在を示すかどうかを判定するために前記訓練された機械学習モデルまたは前記さらなる訓練された機械学習モデルを使用して前記バッファ内の複数の前記オーディオデータフレームを処理するステップが、
前記バッファから前記オーディオデータフレームのすべてを取り出すステップと、
前記オーディオデータフレームが前記呼び出しフレーズの存在を示すかどうかを判定するために前記訓練された機械学習モデルまたは前記さらなる訓練された機械学習モデルを使用して前記オーディオデータフレームのすべてを処理するステップとを含む、
請求項13に記載の方法。 - 自動化されたアシスタントのための呼び出しフレーズを検出する方法であって、前記方法が、クライアントデバイスの1つまたは複数のプロセッサによって実施され、
前記クライアントデバイスの1つまたは複数のマイクロフォンからの出力に基づくオーディオデータフレームのグループを受信するステップと、
1つまたは複数の対応する呼び出し音素の存在の1つまたは複数の対応する確率を示すそれぞれの出力を生成するために訓練された機械学習モデルを使用して前記グループの前記オーディオデータフレームの各々を処理するステップと、
前記対応する確率のうちの少なくとも1つが第1の閾値を満たすが、第2の閾値を満たし得ないことに応じて、
雑音低減フィルタを使用する前記グループの前記オーディオデータフレームの処理に基づいてフィルタリングされたデータフレームを生成するステップと、
前記訓練された機械学習モデルまたはさらなる訓練された機械学習モデルを使用して前記フィルタリングされたデータフレームを処理することに基づいて、前記フィルタリングされたデータフレームが前記呼び出しフレーズの存在を示すかどうかを判定するステップと、
前記フィルタリングされたデータフレームが前記呼び出しフレーズの存在を示すとの判定に応じて、
前記自動化されたアシスタントの少なくとも1つの機能がアクティブ化されるようにするステップとを含む、
方法。 - 前記雑音低減フィルタを使用して前記フィルタリングされたデータフレームを生成する前に、
オーディオデータフレームの前記グループに先立ったオーディオデータフレームの先行するグループの少なくとも1つのオーディオデータフレームに基づいて前記雑音低減フィルタを適応させるステップをさらに含む、
請求項15に記載の方法。 - 1つまたは複数の対応する呼び出し音素の存在の1つまたは複数の対応する先行する確率を示すそれぞれの出力を生成するために前記訓練された機械学習モデルを使用して前記先行するグループの前記オーディオデータフレームの各々を処理するステップをさらに含み、
オーディオデータフレームの前記先行するグループの前記少なくとも1つのオーディオデータフレームに基づいて前記雑音低減フィルタを適応させるステップが、前記対応する先行する確率のいずれも前記第1の閾値または前記第2の閾値を満たさないと判定することに応じる、
請求項16に記載の方法。 - 前記雑音低減フィルタを使用して前記フィルタリングされたデータフレームを生成する前に、
オーディオデータフレームの前記グループに先立った先行するオーディオデータフレームに基づいて前記雑音低減フィルタを適応させるステップをさらに含む、
請求項15に記載の方法。 - 前記先行するオーディオデータフレームに基づいて前記雑音低減フィルタを適応させるステップが、
1つまたは複数の呼び出し音素の存在の1つまたは複数の先行する確率を示す先行する出力を生成するために前記訓練された機械学習モデルを使用して前記先行するオーディオデータフレームを処理することと、
前記先行する確率のいずれも前記第1の閾値または前記第2の閾値を満たさないと判定することとに基づく、
請求項18に記載の方法。 - 自動化されたアシスタントに向けられた口で言われた発話内の特徴を検出する方法であって、前記方法が、1つまたは複数のプロセッサによって実施され、
クライアントデバイスの1つまたは複数のマイクロフォンからの出力に基づくオーディオデータフレームのストリームを受信するステップと、
1つまたは複数の対応する特徴の存在の1つまたは複数の対応する確率を示すそれぞれの出力を生成するために訓練された機械学習モデルを使用して前記ストリームの前記オーディオデータフレームの各々を処理するステップと、
前記ストリームの前記オーディオデータフレームを、前記オーディオデータフレームに関する出力インジケーションと一緒にバッファに記憶するステップであって、前記出力インジケーションの各々が、前記オーディオデータフレームのうちのそれぞれのオーディオデータフレームに関するものであり、前記訓練された機械学習モデルを使用する前記オーディオデータフレームのうちの前記それぞれのオーディオデータフレームの処理に基づいて生成された対応する出力に基づく、ステップと、
第1の場合に、前記第1の場合の前記バッファ内の前記出力インジケーションが、前記第1の場合の前記バッファ内の前記オーディオデータフレームがすべて前記1つまたは複数の対応する特徴のいずれも含み得ないことを示すと判定するステップと、
前記第1の場合の前記判定に応じて、
雑音低減フィルタを適応させるために前記第1の場合の前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つを使用するステップと、
前記第1の場合の後の第2の場合に、前記第2の場合の前記バッファ内の前記出力インジケーションが、前記第2の場合の前記バッファ内の前記オーディオデータフレームのうちの少なくとも1つが前記1つまたは複数の対応する特徴のうちの少なくとも1つを潜在的に含むことを示すと判定するステップと、
前記第2の場合の前記判定に応じて、
少なくとも部分的に前記第1の場合の前記判定に応じて適応された前記雑音低減フィルタを使用する前記第2の場合の前記バッファ内の複数の前記オーディオデータフレームの処理に基づいてフィルタリングされたデータフレームを生成するステップと、
前記訓練された機械学習モデルまたはさらなる訓練された機械学習モデルを使用して前記フィルタリングされたデータフレームを処理することに基づいて、前記フィルタリングされたデータフレームが前記特徴の存在を示すかどうかを判定するステップと、
前記フィルタリングされたデータフレームが前記特徴の存在を示すとの判定に応じて前記自動化されたアシスタントによって実行される処理を適応させるステップとを含む、
方法。 - 前記特徴が、プロファイルに関連して記憶された音声特性を含み、前記自動化されたアシスタントによって実行される処理を適応させるステップが、前記自動化されたアシスタントによってレンダリングされるべき内容を前記プロファイルに基づいて生成することを含み、前記内容が、前記フィルタリングされたデータフレームが前記特徴の存在を示すことおよび前記特徴が前記プロファイルに関連して記憶されることに応じて前記プロファイルに基づいて生成される、
請求項20に記載の方法。 - 前記自動化されたアシスタントによって実行される処理を適応させるステップが、前記自動化されたアシスタントの少なくとも1つの非アクティブな機能がアクティブ化されるようにすることを含む、
請求項20または請求項21に記載の方法。 - 前記1つの非アクティブな機能が、自然言語処理または対話状態追跡である、
請求項22に記載の方法。 - 自動化されたアシスタントに向けられた口で言われた発話内に存在する少なくとも1つの特徴を検出する方法であって、前記方法が、
クライアントデバイスの1つまたは複数のマイクロフォンからの出力に基づくオーディオデータフレームのグループを受信するステップと、
前記少なくとも1つの特徴の存在の1つまたは複数の対応する確率を示すそれぞれの出力を生成するために訓練された機械学習モデルを使用して前記グループの前記オーディオデータフレームの各々を処理するステップと、
前記対応する確率のうちの少なくとも1つが第1の閾値を満たすが、第2の閾値を満たし得ないことに応じて、
雑音低減フィルタを使用する前記グループの前記オーディオデータフレームの処理に基づいてフィルタリングされたデータフレームを生成するステップと、
前記訓練された機械学習モデルまたはさらなる訓練された機械学習モデルを使用して前記フィルタリングされたデータフレームを処理することに基づいて、前記フィルタリングされたデータフレームが前記少なくとも1つの特徴の存在を示すかどうかを判定するステップと、
前記フィルタリングされたデータフレームが前記少なくとも1つの特徴の存在を示すとの判定に応じて、
前記自動化されたアシスタントによって実行される処理を適応させるステップとを含む、
方法。 - 自動化されたアシスタントのための呼び出しフレーズを検出する方法であって、前記方法が、クライアントデバイスの1つまたは複数のプロセッサによって実施され、
前記クライアントデバイスの1つまたは複数のマイクロフォンからの出力に基づくオーディオデータフレームのストリームを受信するステップと、
1つまたは複数の対応する呼び出し音素の存在の1つまたは複数の対応する確率を示すそれぞれの出力を生成するために訓練された機械学習モデルを使用して前記ストリームの前記オーディオデータフレームの各々を処理するステップと、
第1の場合に、前記オーディオデータフレームのうちの所与のオーディオデータフレームに関して生成された前記それぞれの出力が前記所与のオーディオデータフレームが前記1つまたは複数の対応する呼び出し音素のいずれも含み得ないことを示すと判定するステップと、
前記第1の場合の前記判定に応じて、
雑音低減フィルタを適応させるために前記所与のオーディオデータフレームを使用するステップと、
前記第1の場合の後の第2の場合に、前記所与のオーディオデータフレームの後に受け取られた前記オーディオデータフレームのうちの1つまたは複数のうちの少なくとも1つが前記1つまたは複数の対応する呼び出し音素のうちの少なくとも1つを潜在的に含むと判定するステップと、
前記第2の場合の前記判定に応じて、
少なくとも部分的に前記第1の場合の前記判定に応じて適応された前記雑音低減フィルタを使用する前記オーディオデータフレームのうちの前記1つまたは複数の処理に基づいてフィルタリングされたデータフレームを生成するステップと、
前記訓練された機械学習モデルまたはさらなる訓練された機械学習モデルを使用して前記フィルタリングされたデータフレームを処理することに基づいて、前記フィルタリングされたデータフレームが前記呼び出しフレーズの存在を示すかどうかを判定するステップと、
前記フィルタリングされたデータフレームが前記呼び出しフレーズの存在を示すとの判定応じて、
前記自動化されたアシスタントの少なくとも1つの機能がアクティブ化されるようにするステップとを含む、
方法。 - 自動化されたアシスタントのための呼び出しフレーズを検出する方法であって、前記方法が、クライアントデバイスの1つまたは複数のプロセッサによって実施され、
前記クライアントデバイスの1つまたは複数のマイクロフォンからの出力に基づくオーディオデータフレームのストリームの連続的なオーディオデータフレームの第1の組の各オーディオデータフレームに関して、
前記オーディオデータフレームに基づいて対応する雑音低減フィルタを生成するステップと、
前記対応する雑音低減フィルタを先入れ先出しバッファに記憶するステップと、
連続的なオーディオデータフレームの前記第1の組の直後に続くオーディオデータフレームの前記ストリームの所与のオーディオデータフレームに関して、
前記先入れ先出しバッファのヘッドにある前記対応する雑音低減フィルタを使用して前記所与のオーディオフレームを処理することに基づいてフィルタリングされたデータフレームを生成するステップと、
訓練された機械学習モデルを使用して前記フィルタリングされたデータフレームを処理することに基づいて、前記フィルタリングされたデータフレームが前記呼び出しフレーズの1つまたは複数の音素の存在を示すかどうかを判定するステップと、
前記フィルタリングされたデータフレームが前記呼び出しフレーズの前記音素のうちの1つまたは複数の存在を示すかどうかに基づいて呼び出しフレーズがオーディオデータフレームの前記ストリーム内に存在するかどうかを判定するステップとを含む、
方法。 - 前記呼び出しフレーズが存在するとの判定に応じて、
前記自動化されたアシスタントの少なくとも1つの機能がアクティブ化されるようにするステップをさらに含む、
請求項26に記載の方法。 - 1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサに動作可能なように結合されたメモリとを含むクライアントデバイスであって、前記メモリが、前記1つまたは複数のプロセッサによって実行されるときに、前記1つまたは複数のプロセッサに請求項1から27のいずれか一項に記載の方法を実行させる命令を記憶する、
クライアントデバイス。 - 1つまたは複数のプロセッサによる命令の実行に応じて前記1つまたは複数のプロセッサに請求項1から27のいずれか一項に記載の方法を実行させる前記命令を含む、
少なくとも1つの非一時的コンピュータ可読媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862620885P | 2018-01-23 | 2018-01-23 | |
US62/620,885 | 2018-01-23 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020540546A Division JP6839333B2 (ja) | 2018-01-23 | 2019-01-14 | 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021089438A true JP2021089438A (ja) | 2021-06-10 |
JP7196214B2 JP7196214B2 (ja) | 2022-12-26 |
Family
ID=65444326
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020540546A Active JP6839333B2 (ja) | 2018-01-23 | 2019-01-14 | 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 |
JP2021019793A Active JP7196214B2 (ja) | 2018-01-23 | 2021-02-10 | 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020540546A Active JP6839333B2 (ja) | 2018-01-23 | 2019-01-14 | 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 |
Country Status (6)
Country | Link |
---|---|
US (3) | US10706842B2 (ja) |
EP (2) | EP3555881B1 (ja) |
JP (2) | JP6839333B2 (ja) |
KR (2) | KR102609430B1 (ja) |
CN (2) | CN118314883A (ja) |
WO (1) | WO2019147427A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110741347B (zh) * | 2017-10-03 | 2023-08-01 | 谷歌有限责任公司 | 车辆环境中的多个数字助理协调 |
EP3555881B1 (en) | 2018-01-23 | 2020-04-22 | Google LLC | Selective adaptation and utilization of noise reduction technique in invocation phrase detection |
CN112037773B (zh) * | 2020-11-05 | 2021-01-29 | 北京淇瑀信息科技有限公司 | 一种n最优口语语义识别方法、装置及电子设备 |
CN112331186B (zh) * | 2020-11-19 | 2022-03-25 | 思必驰科技股份有限公司 | 语音唤醒方法及装置 |
WO2022211504A1 (en) * | 2021-03-31 | 2022-10-06 | Samsung Electronics Co., Ltd. | Method and electronic device for suppressing noise portion from media event |
US11798533B2 (en) * | 2021-04-02 | 2023-10-24 | Google Llc | Context aware beamforming of audio data |
DE102021005206B3 (de) * | 2021-10-19 | 2022-11-03 | Mercedes-Benz Group AG | Verfahren und Vorrichtung zur Bestimmung eines mehrteiligen Schlüsselwortes |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003517158A (ja) * | 1999-11-12 | 2003-05-20 | フェニックス ソリューションズ インコーポレーテッド | 分散型リアルタイム音声認識システム |
JP2008512789A (ja) * | 2004-09-10 | 2008-04-24 | マイクロソフト コーポレーション | 機械学習 |
US20170278513A1 (en) * | 2016-03-23 | 2017-09-28 | Google Inc. | Adaptive audio enhancement for multichannel speech recognition |
US20170300831A1 (en) * | 2016-04-18 | 2017-10-19 | Google Inc. | Automated assistant invocation of appropriate agent |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7742914B2 (en) * | 2005-03-07 | 2010-06-22 | Daniel A. Kosek | Audio spectral noise reduction method and apparatus |
US7464029B2 (en) * | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
US8995625B2 (en) * | 2009-09-30 | 2015-03-31 | T-Mobile Usa, Inc. | Unified interface and routing module for handling audio input |
US9053697B2 (en) * | 2010-06-01 | 2015-06-09 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
US8234111B2 (en) * | 2010-06-14 | 2012-07-31 | Google Inc. | Speech and noise models for speech recognition |
CN103229517B (zh) * | 2010-11-24 | 2017-04-19 | 皇家飞利浦电子股份有限公司 | 包括多个音频传感器的设备及其操作方法 |
US20140278389A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics |
US10229697B2 (en) * | 2013-03-12 | 2019-03-12 | Google Technology Holdings LLC | Apparatus and method for beamforming to obtain voice and noise signals |
US9552825B2 (en) * | 2013-04-17 | 2017-01-24 | Honeywell International Inc. | Noise cancellation for voice activation |
US9697831B2 (en) * | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
US9548047B2 (en) * | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US9418651B2 (en) * | 2013-07-31 | 2016-08-16 | Google Technology Holdings LLC | Method and apparatus for mitigating false accepts of trigger phrases |
US9286897B2 (en) * | 2013-09-27 | 2016-03-15 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
US10405786B2 (en) * | 2013-10-09 | 2019-09-10 | Nedim T. SAHIN | Systems, environment and methods for evaluation and management of autism spectrum disorder using a wearable data collection device |
US9936916B2 (en) * | 2013-10-09 | 2018-04-10 | Nedim T. SAHIN | Systems, environment and methods for identification and analysis of recurring transitory physiological states and events using a portable data collection device |
GB2523984B (en) | 2013-12-18 | 2017-07-26 | Cirrus Logic Int Semiconductor Ltd | Processing received speech data |
GB2524222B (en) * | 2013-12-18 | 2018-07-18 | Cirrus Logic Int Semiconductor Ltd | Activating speech processing |
JP2017520336A (ja) * | 2014-03-17 | 2017-07-27 | コア スポーツ テクノロジー グループCore Sports Technology Group | 人体および物体運動への生体力学フィードバックを送達するための方法およびシステム |
US20160012827A1 (en) * | 2014-07-10 | 2016-01-14 | Cambridge Silicon Radio Limited | Smart speakerphone |
KR102246900B1 (ko) * | 2014-07-29 | 2021-04-30 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
US9830925B2 (en) | 2014-10-22 | 2017-11-28 | GM Global Technology Operations LLC | Selective noise suppression during automatic speech recognition |
JP6754184B2 (ja) * | 2014-12-26 | 2020-09-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識装置及び音声認識方法 |
KR102476600B1 (ko) | 2015-10-21 | 2022-12-12 | 삼성전자주식회사 | 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체 |
CN110268471B (zh) * | 2017-01-26 | 2023-05-02 | 赛伦斯运营公司 | 具有嵌入式降噪的asr的方法和设备 |
EP3555881B1 (en) | 2018-01-23 | 2020-04-22 | Google LLC | Selective adaptation and utilization of noise reduction technique in invocation phrase detection |
-
2019
- 2019-01-14 EP EP19705844.9A patent/EP3555881B1/en active Active
- 2019-01-14 KR KR1020207035933A patent/KR102609430B1/ko active IP Right Grant
- 2019-01-14 CN CN202410329455.1A patent/CN118314883A/zh active Pending
- 2019-01-14 EP EP20161038.3A patent/EP3680895B1/en active Active
- 2019-01-14 WO PCT/US2019/013479 patent/WO2019147427A1/en unknown
- 2019-01-14 KR KR1020207023713A patent/KR102193629B1/ko active IP Right Grant
- 2019-01-14 US US16/609,619 patent/US10706842B2/en active Active
- 2019-01-14 JP JP2020540546A patent/JP6839333B2/ja active Active
- 2019-01-14 CN CN201980014370.1A patent/CN111742362B/zh active Active
-
2020
- 2020-05-28 US US16/886,139 patent/US11417324B2/en active Active
-
2021
- 2021-02-10 JP JP2021019793A patent/JP7196214B2/ja active Active
-
2022
- 2022-08-12 US US17/886,726 patent/US11984117B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003517158A (ja) * | 1999-11-12 | 2003-05-20 | フェニックス ソリューションズ インコーポレーテッド | 分散型リアルタイム音声認識システム |
JP2008512789A (ja) * | 2004-09-10 | 2008-04-24 | マイクロソフト コーポレーション | 機械学習 |
US20170278513A1 (en) * | 2016-03-23 | 2017-09-28 | Google Inc. | Adaptive audio enhancement for multichannel speech recognition |
US20170300831A1 (en) * | 2016-04-18 | 2017-10-19 | Google Inc. | Automated assistant invocation of appropriate agent |
Also Published As
Publication number | Publication date |
---|---|
EP3680895A1 (en) | 2020-07-15 |
WO2019147427A1 (en) | 2019-08-01 |
US20220392441A1 (en) | 2022-12-08 |
KR102609430B1 (ko) | 2023-12-04 |
CN118314883A (zh) | 2024-07-09 |
KR20200142122A (ko) | 2020-12-21 |
US11984117B2 (en) | 2024-05-14 |
EP3555881A1 (en) | 2019-10-23 |
KR20200103846A (ko) | 2020-09-02 |
US11417324B2 (en) | 2022-08-16 |
US20200066263A1 (en) | 2020-02-27 |
JP2021507315A (ja) | 2021-02-22 |
US20200294496A1 (en) | 2020-09-17 |
JP7196214B2 (ja) | 2022-12-26 |
KR102193629B1 (ko) | 2020-12-21 |
CN111742362A (zh) | 2020-10-02 |
EP3555881B1 (en) | 2020-04-22 |
CN111742362B (zh) | 2024-04-09 |
EP3680895B1 (en) | 2021-08-11 |
JP6839333B2 (ja) | 2021-03-03 |
US10706842B2 (en) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6839333B2 (ja) | 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 | |
KR102535338B1 (ko) | 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리 | |
CN114041283B (zh) | 利用事件前和事件后输入流来接洽自动化助理 | |
EP3857544B1 (en) | Speaker awareness using speaker dependent speech model(s) | |
US20230395066A1 (en) | Hot-word free pre-emption of automated assistant response presentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210311 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220516 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220816 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7196214 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |