JP2023520937A - ノイズロバストなキーワードスポッティングのためのカスケードアーキテクチャ - Google Patents
ノイズロバストなキーワードスポッティングのためのカスケードアーキテクチャ Download PDFInfo
- Publication number
- JP2023520937A JP2023520937A JP2022561573A JP2022561573A JP2023520937A JP 2023520937 A JP2023520937 A JP 2023520937A JP 2022561573 A JP2022561573 A JP 2022561573A JP 2022561573 A JP2022561573 A JP 2022561573A JP 2023520937 A JP2023520937 A JP 2023520937A
- Authority
- JP
- Japan
- Prior art keywords
- channel
- audio
- hotword
- processor
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 112
- 238000012545 processing Methods 0.000 claims abstract description 80
- 230000008569 process Effects 0.000 claims abstract description 73
- 238000004140 cleaning Methods 0.000 claims abstract description 71
- 238000001514 detection method Methods 0.000 claims description 88
- 230000015654 memory Effects 0.000 claims description 49
- 239000011159 matrix material Substances 0.000 claims description 46
- 230000007958 sleep Effects 0.000 claims description 26
- 230000007704 transition Effects 0.000 claims description 13
- 230000000977 initiatory effect Effects 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims 2
- 239000000872 buffer Substances 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000013001 matrix buffer Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 101150049278 US20 gene Proteins 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006266 hibernation Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
第1段階のホットワード検出器がストリーミングマルチチャネルオーディオにおいてホットワードを検出する場合、動作は、ストリーミングマルチチャネルオーディオの各チャネルについて、第1のプロセッサによって、マルチチャネル相互相関行列を使用して、ストリーミングマルチチャネルオーディオのそれぞれのチャネルのそれぞれのオーディオ特徴からそれぞれの生オーディオデータをチョンプし、第1のプロセッサによって、マルチチャネル相互相関行列を第2のプロセッサに提供する動作をさらに含む。これらの実装形態において、クリーンなモノフォニックオーディオチョンプを生成するために、刻まれたマルチチャネル生オーディオデータの各チャネルを処理する動作は、第1のプロセッサから提供されたマルチチャネル相互相関行列を使用して、第1のノイズクリーニングアルゴリズムのためのクリーナフィルタ係数を計算する動作と、クリーンなモノフォニックオーディオチョンプを生成するために、計算されたクリーナフィルタ係数を有する第1のノイズクリーニングアルゴリズムによって、第1のプロセッサによって提供される、刻まれたマルチチャネル生オーディオデータの各チャネルを処理する動作とを含む。これらの実装形態において、ストリーミングマルチチャネルオーディオにおいて第1段階のホットワード検出器によってホットワードが検出されたかどうかを判断するために、ストリーミングマルチチャネルオーディオの少なくとも1つのチャネルのそれぞれのオーディオ特徴を処理する動作は、マルチチャネル相互相関行列を使用して、第1のプロセッサにおいて実行される第2のノイズクリーニングアルゴリズムのためのクリーナ係数を計算し、一方、モノフォニッククリーンオーディオストリームを生成するために、計算されたフィルタ係数を有する第2のノイズクリーニングアルゴリズムによって、ストリーミングマルチチャネルオーディオの各チャネルを処理する動作を含む。これらの実装形態において、動作は、ストリーミングマルチチャネルオーディオにおいて第1段階のホットワード検出器によってホットワードが検出されたかどうかを判断するために、第1段階のホットワード検出器を使用して、モノフォニッククリーンオーディオストリームを処理する動作をさらに含む。第1のノイズクリーニングアルゴリズムは、刻まれたモノフォニッククリーンオーディオデータを生成するために、刻まれたマルチチャネル生オーディオデータの各チャネルに対して、第1のフィルタ長を含む第1の有限インパルス応答(FIR)を適用し得、第2のノイズクリーニングアルゴリズムは、モノフォニッククリーンオーディオストリームを生成するために、ストリーミングマルチチャネルオーディオの各チャネルに対して、第2のフィルタ長を含む第2のFIRを適用し得る。ここで、第2のフィルタ長は、第1のフィルタ長よりも短い。
100 システム
102 ユーザデバイス
104 発話
105 メモリハードウェア
107、107a~n マイクロフォン
110 第1のプロセッサ、専用DSP、DSP
114 プレフィックスセグメント
118 ストリーミングマルチチャネルオーディオ、オーディオ、マルチチャネルストリーミングオーディオ、2チャネルストリーミングオーディオ
119、119a~n チャネル
120 第2のプロセッサ、メインAP、AP
200、200a~c カスケードホットワード検出アーキテクチャ、カスケードアーキテクチャ
200a カスケードホットワード検出アーキテクチャ、カスケードホットワードアーキテクチャ
200b カスケードホットワードアーキテクチャ、カスケードホットワード検出アーキテクチャ
200c カスケードホットワード検出アーキテクチャ
210 第1段階のホットワード検出器、検出器
212 ストリーミングマルチチャネル生オーディオデータ
212a、212b 生オーディオデータ
212、212a~n 刻まれたマルチチャネル生オーディオデータ
213 オーディオセグメント
214 プレフィックスセグメント
215 オーディオチョンパ
220 第2段階のホットワード検出器
220a ブランチ
220b ブランチ、第2段階のホットワード検出器
225 モノフォニッククリーンオーディオストリーム
250、250a クリーナ
250a クリーナエンジン
250b 軽量クリーナ、クリーナ-ライト
252 クリーナフロントエンド
254 マルチマイクロフォン相互相関行列、行列
255 モノフォニッククリーンオーディオストリーム
260 クリーンなモノフォニックオーディオチョンプ、クリーンなマルチチャネルオーディオチョンプ
270 論理和
300 概略図
305 行列バッファ
320 行列コンピュータ
330 クリーン化STFTスペクトルコンピュータ
332 STFT出力
334 STFT逆モジュール
340 クリーナフィルタ係数コンピュータ
342 クリーナフィルタ係数
500 コンピューティングデバイス
500a サーバ
500b ラップトップコンピュータ
500c ラックサーバシステム
510 プロセッサ
520 メモリ
530 記憶デバイス
540 高速インターフェース/コントローラ
550 高速拡張ポート
560 低速インターフェース/コントローラ
570 低速バス
Claims (26)
- ユーザデバイス(102)の第1のプロセッサ(110)において、前記第1のプロセッサ(110)と通信するマイクロフォン(107、107a~n)のアレイによってキャプチャされたストリーミングマルチチャネルオーディオ(118)を受信するステップであって、前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119、119a~n)が、前記マイクロフォン(107)のアレイ内の個別の専用マイクロフォン(107)によってキャプチャされたそれぞれのオーディオ特徴を含む、ステップと、
前記第1のプロセッサ(110)によって、第1段階のホットワード検出器(210)を使用して、前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によってホットワードが検出されたかどうかを判断するために、前記ストリーミングマルチチャネルオーディオ(118)の少なくとも1つのチャネル(119)の前記それぞれのオーディオ特徴を処理するステップと、
前記第1段階のホットワード検出器(210)が前記ストリーミングマルチチャネルオーディオ(118)内の前記ホットワードを検出する場合、
前記第1のプロセッサ(110)によって、刻まれたマルチチャネル生オーディオデータ(212、212a~n)を前記ユーザデバイス(102)の第2のプロセッサ(120)に提供するステップであって、前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルが、前記ストリーミングマルチチャネルオーディオ(118)のそれぞれのチャネル(119)に対応し、前記ストリーミングマルチチャネルオーディオ(118)の前記それぞれのチャネル(119)から刻まれたそれぞれの生オーディオデータを含む、ステップと、
クリーンなモノフォニックオーディオチョンプ(260)を生成するために、前記第2のプロセッサ(120)によって、第1のノイズクリーニングアルゴリズム(250a)を使用して、前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルを処理するステップと、
前記クリーンなモノフォニックオーディオチョンプ(260)において、第2段階のホットワード検出器(220)によって前記ホットワードが検出されたかどうかを判断するために、前記第2のプロセッサ(120)によって、前記第2段階のホットワード検出器(220)を使用して、前記クリーンなモノフォニックオーディオチョンプ(260)を処理するステップと、
前記クリーンなモノフォニックオーディオチョンプ(260)において、前記第2段階のホットワード検出器(220)によって前記ホットワードが検出される場合、前記第2のプロセッサ(120)によって、前記ストリーミングマルチチャネルオーディオ(118)内の前記ホットワードおよび/または前記ホットワードに続く1つもしくは複数の他の用語を処理するために前記ユーザデバイス(102)に対するウェイクアッププロセスを開始するステップと
を含む、方法(400)。 - 前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルの前記それぞれの生オーディオデータ(212)が、前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によって検出された前記ホットワードを特徴付けるオーディオセグメント(213)を含む、請求項1に記載の方法(400)。
- 前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルの前記それぞれの生オーディオデータ(212)が、前記第1段階のホットワード検出器(210)が前記ストリーミングマルチチャネルオーディオ(118)において前記ホットワードを検出した時点の直前のオーディオの持続時間を含むプレフィックスセグメント(214)をさらに含む、請求項2に記載の方法(400)。
- 前記ストリーミングマルチチャネルオーディオ(118)が前記第1のプロセッサ(110)において受信され、前記ストリーミングマルチチャネルオーディオ(118)の前記少なくとも1つのチャネル(119)の前記それぞれのオーディオ特徴が前記第1のプロセッサ(110)によって処理される場合、前記第2のプロセッサ(120)が、スリープモードにおいて動作し、
前記刻まれたマルチチャネルオーディオ生データ(212)を前記第2のプロセッサ(120)に提供するステップが、前記スリープモードからホットワード検出モードに移行するように前記第2のプロセッサを起動する、
請求項1から3のいずれか一項に記載の方法(400)。 - 前記ホットワード検出モードにある間、前記第2のプロセッサ(120)が、前記第1のノイズクリーニングアルゴリズム(250a)と前記第2段階のホットワード検出器(220)とを実行する、請求項4に記載の方法(400)。
- 前記第2のプロセッサ(120)によって、前記クリーンなモノフォニックオーディオチョンプ(260)を並行して処理しながら、前記第2段階のホットワード検出器(220)を使用して、前記それぞれの生オーディオデータ(212a)において前記第2段階のホットワード検出器(220)によって前記ホットワードが検出されたかどうかを判断するために、前記刻まれたマルチチャネル生オーディオデータ(212)の1つのチャネルの前記それぞれの生オーディオデータ(212a)を処理するステップと、
前記クリーンなモノフォニックオーディオチョンプ(260)または前記それぞれの生オーディオデータ(212a)のいずれか一方において、前記第2段階のホットワード検出器(220)によって前記ホットワードが検出される場合、前記第2のプロセッサ(120)によって、前記ストリーミングマルチチャネルオーディオ(118)内の前記ホットワードおよび/または前記ホットワードに続く1つもしくは複数の他の用語を処理するために前記ユーザデバイス(102)に対する前記ウェイクアッププロセスを開始するステップと
をさらに含む、請求項1から5のいずれか一項に記載の方法(400)。 - 前記クリーンなモノフォニックオーディオチョンプ(260)または前記それぞれの生オーディオデータ(212a)のいずれか一方において前記ホットワードが前記第2段階のホットワード検出器(220)によって検出されない場合、前記第2のプロセッサ(120)によって、前記ユーザデバイス(102)に対する前記ウェイクアッププロセスの開始を防止するステップをさらに含む、請求項6に記載の方法(400)。
- 前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によって前記ホットワードが検出されたかどうかを判断するために、前記ストリーミングマルチチャネルオーディオ(118)の前記少なくとも1つのチャネル(119)の前記それぞれのオーディオ特徴を処理するステップが、前記ストリーミングマルチチャネルオーディオ(118)の1つのチャネル(119)の前記それぞれのオーディオ特徴を、前記それぞれのオーディオ特徴からノイズをキャンセルすることなく処理するステップを含む、請求項1から7のいずれか一項に記載の方法(400)。
- マルチチャネル相互相関行列(254)を生成するために、前記第1のプロセッサ(110)によって、前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119)の前記それぞれのオーディオ特徴を処理するステップと、
前記第1段階のホットワード検出器(210)が前記ストリーミングマルチチャネルオーディオ(118)において前記ホットワードを検出する場合、
前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119)について、前記第1のプロセッサ(110)によって、前記マルチチャネル相互相関行列(254)を使用して、前記ストリーミングマルチチャネルオーディオ(118)の前記それぞれのチャネル(119)の前記それぞれのオーディオ特徴から前記それぞれの生オーディオデータ(212)を刻むステップと、
前記第1のプロセッサ(110)によって、前記マルチチャネル相互相関行列(254)を前記第2のプロセッサ(120)に提供するステップと
をさらに含み、
前記クリーンなモノフォニックオーディオチョンプ(260)を生成するために、前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルを処理するステップが、
前記第1のプロセッサ(110)から提供された前記マルチチャネル相互相関行列(254)を使用して、前記第1のノイズクリーニングアルゴリズム(250a)のためのクリーナフィルタ係数(342)を計算するステップと、
前記クリーンなモノフォニックオーディオチョンプ(260)を生成するために、前記計算されたクリーナフィルタ係数(342)を有する前記第1のノイズクリーニングアルゴリズム(250a)によって、前記第1のプロセッサ(110)によって提供される前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルを処理するステップと
を含む、請求項1から8のいずれか一項に記載の方法(400)。 - 前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によって前記ホットワードが検出されたかどうかを判断するために、前記ストリーミングマルチチャネルオーディオ(118)の前記少なくとも1つのチャネル(119)の前記それぞれのオーディオ特徴を処理するステップが、
前記マルチチャネル相互相関行列(254)を使用して、前記第1のプロセッサ(110)において実行される第2のノイズクリーニングアルゴリズム(250b)のためのクリーナ係数を計算するステップと、
モノフォニッククリーンオーディオストリーム(255)を生成するために、前記計算されたフィルタ係数を有する前記第2のノイズクリーニングアルゴリズム(250b)によって、前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119)を処理するステップと、
前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によって前記ホットワードが検出されたかどうかを判断するために、前記第1段階のホットワード検出器(210)を使用して、前記モノフォニッククリーンオーディオストリーム(255)を処理するステップと
を含む、請求項9に記載の方法(400)。 - 前記第1のノイズクリーニングアルゴリズム(250a)が、前記刻まれたモノフォニッククリーンオーディオデータ(260)を生成するために、前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルに対して、第1の有限インパルス応答(FIR)を適用し、前記第1のFIRが、第1のフィルタ長を含み、
前記第2のノイズクリーニングアルゴリズム(250b)が、前記モノフォニッククリーンオーディオストリーム(255)を生成するために、前記ストリーミングマルチチャネルオーディオ(118)の各チャネルに対して、第2のFIRを適用し、前記第2のFIRが、前記第1のフィルタ長よりも短い第2のフィルタ長を含む、
請求項10に記載の方法(400)。 - 前記第1のプロセッサ(110)が、デジタル信号プロセッサを備え、
前記第2のプロセッサ(120)が、システムオンチップ(SoC)プロセッサを備える、
請求項1から11のいずれか一項に記載の方法(400)。 - 前記ユーザデバイス(102)が、再充電可能な有限電源を備え、前記有限電源が、前記第1のプロセッサ(110)および前記第2のプロセッサ(120)に電力を供給する、請求項1から12のいずれか一項に記載の方法(400)。
- ユーザデバイス(102)のデータ処理ハードウェア(103)であって、前記データ処理ハードウェア(103)が、第1のプロセッサ(110)と第2のプロセッサ(120)とを備える、データ処理ハードウェア(103)と、
前記ユーザデバイス(102)のメモリ処理ハードウェア(105)であって、前記メモリハードウェア(105)が、前記データ処理ハードウェア(103)と通信し、命令を記憶し、前記命令は、前記データ処理ハードウェア(103)上で実行される場合、前記データ処理ハードウェア(103)に、
前記第1のプロセッサ(110)において、前記第1のプロセッサ(110)と通信するマイクロフォン(107、107a~n)のアレイによってキャプチャされたストリーミングマルチチャネルオーディオ(118)を受信する動作であって、前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119、119a~n)が、前記マイクロフォン(107)のアレイ内の個別の専用マイクロフォン(107)によってキャプチャされたそれぞれのオーディオ特徴を含む、動作と、
前記第1のプロセッサ(110)によって、第1段階のホットワード検出器(210)を使用して、前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によってホットワードが検出されたかどうかを判断するために、前記ストリーミングマルチチャネルオーディオ(118)の少なくとも1つのチャネル(119)の前記それぞれのオーディオ特徴を処理する動作と、
前記第1段階のホットワード検出器(210)が前記ストリーミングマルチチャネルオーディオ(118)内の前記ホットワードを検出する場合、
前記第1のプロセッサ(110)によって、刻まれたマルチチャネル生オーディオデータ(212、212a~n)を前記第2のプロセッサ(120)に提供する動作であって、前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルが、前記ストリーミングマルチチャネルオーディオ(118)のそれぞれのチャネル(119)に対応し、前記ストリーミングマルチチャネルオーディオ(118)の前記それぞれのチャネル(119)から刻まれたそれぞれの生オーディオデータを含む、動作と、
クリーンなモノフォニックオーディオチョンプ(260)を生成するために、前記第2のプロセッサ(120)によって、第1のノイズクリーニングアルゴリズム(250a)を使用して、前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルを処理する動作と、
前記クリーンなモノフォニックオーディオチョンプ(260)において第2段階のホットワード検出器(220)によって前記ホットワードが検出されたかどうかを判断するために、前記第2のプロセッサ(120)によって、前記第2段階のホットワード検出器(220)を使用して、前記クリーンなモノフォニックオーディオチョンプ(260)を処理する動作と、
前記クリーンなモノフォニックオーディオチョンプ(260)において、前記第2段階のホットワード検出器(220)によって前記ホットワードが検出される場合、前記第2のプロセッサ(120)によって、前記ストリーミングマルチチャネルオーディオ(118)内の前記ホットワードおよび/または前記ホットワードに続く1つもしくは複数の他の用語を処理するために前記ユーザデバイス(102)に対するウェイクアッププロセスを開始する動作と
を含む動作を実行させる、メモリ処理ハードウェア(105)と
を備える、システム(100)。 - 前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルの前記それぞれの生オーディオデータ(212)が、前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器によって検出された前記ホットワードを特徴付けるオーディオセグメント(213)を含む、請求項14に記載のシステム(100)。
- 前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルの前記それぞれの生オーディオデータ(212)が、前記第1段階のホットワード検出器(210)が前記ストリーミングマルチチャネルオーディオ(110)において前記ホットワードを検出した時点の直前のオーディオの持続時間を含むプレフィックスセグメント(214)をさらに含む、請求項15に記載のシステム(100)。
- 前記ストリーミングマルチチャネルオーディオ(118)が前記第1のプロセッサ(110)において受信され、前記ストリーミングマルチチャネルオーディオ(118)の前記少なくとも1つのチャネル(119)の前記それぞれのオーディオ特徴が前記第1のプロセッサ(110)によって処理される場合、前記第2のプロセッサ(120)が、スリープモードにおいて動作し、
前記刻まれたマルチチャネルオーディオ生データ(212)を前記第2のプロセッサ(120)に提供するステップが、前記スリープモードからホットワード検出モードに移行するように前記第2のプロセッサ(120)を起動する、
請求項14から16のいずれか一項に記載のシステム(100)。 - 前記第2のプロセッサ(120)が、前記ホットワード検出モードにある間、前記第1のノイズクリーニングアルゴリズム(250a)と前記第2段階のホットワード検出器(220)とを実行する、請求項17に記載のシステム(100)。
- 前記動作が、
前記第2のプロセッサ(120)によって、前記クリーンなモノフォニックオーディオチョンプ(260)を並行して処理しながら、前記第2段階のホットワード検出器(220)を使用して、前記それぞれの生オーディオデータ(212a)において前記第2段階のホットワード検出器(220)によって前記ホットワードが検出されたかどうかを判断するために、前記刻まれたマルチチャネル生オーディオデータ(212)の1つのチャネルの前記それぞれの生オーディオデータ(212a)を処理する動作と、
前記クリーンなモノフォニックオーディオチョンプ(260)または前記それぞれの生オーディオデータ(212a)のいずれか一方において、前記第2段階のホットワード検出器(220)によって前記ホットワードが検出される場合、前記第2のプロセッサ(120)によって、前記ストリーミングマルチチャネルオーディオ(118)内の前記ホットワードおよび/または前記ホットワードに続く1つもしくは複数の他の用語を処理するために前記ユーザデバイス(102)に対する前記ウェイクアッププロセスを開始する動作と
をさらに含む、請求項14から18のいずれか一項に記載のシステム(100)。 - 前記動作が、前記クリーンなモノフォニックオーディオチョンプ(260)または前記それぞれの生オーディオデータ(212a)のいずれか一方において、前記第2段階のホットワード検出器(220)によって前記ホットワードが検出されない場合、前記第2のプロセッサ(120)によって、前記ユーザデバイス(102)に対する前記ウェイクアッププロセスの開始を防止する動作をさらに含む、請求項19に記載のシステム(100)。
- 前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によって前記ホットワードが検出されたかどうかを判断するために、前記ストリーミングマルチチャネルオーディオ(118)の前記少なくとも1つのチャネル(119)の前記それぞれのオーディオ特徴を処理するステップが、前記ストリーミングマルチチャネルオーディオ(118)の1つのチャネル(119)の前記それぞれのオーディオ特徴を、前記それぞれのオーディオ特徴からノイズをキャンセルすることなく処理するステップを含む、請求項14に記載のシステム(100)。
- 前記動作が、
マルチチャネル相互相関行列(254)を生成するために、前記第1のプロセッサ(110)によって、前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119)の前記それぞれのオーディオ特徴を処理する動作と、
前記第1段階のホットワード検出器(210)が前記ストリーミングマルチチャネルオーディオ(118)において前記ホットワードを検出する場合、
前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119)について、前記第1のプロセッサ(110)によって、前記マルチチャネル相互相関行列(254)を使用して、前記ストリーミングマルチチャネルオーディオ(118)の前記それぞれのチャネル(119)の前記それぞれのオーディオ特徴から前記それぞれの生オーディオデータ(212)を刻む動作と、
前記第1のプロセッサ(110)によって、前記マルチチャネル相互相関行列(254)を前記第2のプロセッサ(120)に提供する動作と
をさらに含み、
前記クリーンなモノフォニックオーディオチョンプ(260)を生成するために、前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルを処理する動作が、
前記第1のプロセッサ(110)から提供された前記マルチチャネル相互相関行列(254)を使用して、前記第1のノイズクリーニングアルゴリズム(250a)のためのクリーナフィルタ係数(342)を計算する動作と、
前記クリーンなモノフォニックオーディオチョンプ(260)を生成するために、前記計算されたクリーナフィルタ係数(342)を有する前記第1のノイズクリーニングアルゴリズム(250a)によって、前記第1のプロセッサ(110)によって提供される前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルを処理する動作と
を含む、請求項14から21のいずれか一項に記載のシステム(100)。 - 前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によって前記ホットワードが検出されたかどうかを判断するために、前記ストリーミングマルチチャネルオーディオ(118)の前記少なくとも1つのチャネル(119)の前記それぞれのオーディオ特徴(119)を処理する動作が、
前記マルチチャネル相互相関行列(254)を使用して、前記第1のプロセッサ(110)において実行される第2のノイズクリーニングアルゴリズム(250b)のためのクリーナ係数を計算する動作と、
モノフォニッククリーンオーディオストリーム(255)を生成するために、前記計算されたフィルタ係数を有する前記第2のノイズクリーニングアルゴリズム(250b)によって、前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119)を処理する動作と、
前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によって前記ホットワードが検出されたかどうかを判断するために、前記第1段階のホットワード検出器(210)を使用して、前記モノフォニッククリーンオーディオストリーム(255)を処理する動作と
を含む、請求項22に記載のシステム(100)。 - 前記第1のノイズクリーニングアルゴリズム(250a)が、前記刻まれたモノフォニッククリーンオーディオデータ(260)を生成するために、前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルに対して、第1の有限インパルス応答(FIR)を適用し、前記第1のFIRが、第1のフィルタ長を含み、
前記第2のノイズクリーニングアルゴリズム(250b)が、前記モノフォニッククリーンオーディオストリーム(255)を生成するために、前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119)に対して、第2のFIRを適用し、前記第2のFIRが、前記第1のフィルタ長よりも短い第2のフィルタ長を含む、
請求項23に記載のシステム(100)。 - 前記第1のプロセッサ(110)が、デジタル信号プロセッサを備え、
前記第2のプロセッサ(120)が、システムオンチップ(SoC)プロセッサを備える、
請求項14から24のいずれか一項に記載のシステム(100)。 - 前記ユーザデバイス(102)が、再充電可能な有限電源を備え、前記有限電源が、前記第1のプロセッサ(110)および前記第2のプロセッサ(120)に電力を供給する、請求項14から25のいずれか一項に記載のシステム(100)。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2020/027337 WO2021206713A1 (en) | 2020-04-08 | 2020-04-08 | Cascade architecture for noise-robust keyword spotting |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023520937A true JP2023520937A (ja) | 2023-05-22 |
JP7460794B2 JP7460794B2 (ja) | 2024-04-02 |
Family
ID=70476489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022561573A Active JP7460794B2 (ja) | 2020-04-08 | 2020-04-08 | ノイズロバストなキーワードスポッティングのためのカスケードアーキテクチャ |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230097197A1 (ja) |
EP (1) | EP4104168A1 (ja) |
JP (1) | JP7460794B2 (ja) |
KR (1) | KR20220151660A (ja) |
CN (1) | CN115362498A (ja) |
WO (1) | WO2021206713A1 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9043211B2 (en) * | 2013-05-09 | 2015-05-26 | Dsp Group Ltd. | Low power activation of a voice activated device |
US10311870B2 (en) | 2017-05-10 | 2019-06-04 | Ecobee Inc. | Computerized device with voice command input capability |
US10304475B1 (en) * | 2017-08-14 | 2019-05-28 | Amazon Technologies, Inc. | Trigger word based beam selection |
US10601599B2 (en) | 2017-12-29 | 2020-03-24 | Synaptics Incorporated | Voice command processing in low power devices |
CN110718212A (zh) * | 2019-10-12 | 2020-01-21 | 出门问问信息科技有限公司 | 语音唤醒方法、装置及系统、终端和计算机可读存储介质 |
-
2020
- 2020-04-08 CN CN202080099308.XA patent/CN115362498A/zh active Pending
- 2020-04-08 WO PCT/US2020/027337 patent/WO2021206713A1/en unknown
- 2020-04-08 EP EP20722879.2A patent/EP4104168A1/en active Pending
- 2020-04-08 KR KR1020227034668A patent/KR20220151660A/ko active Search and Examination
- 2020-04-08 US US17/905,137 patent/US20230097197A1/en active Pending
- 2020-04-08 JP JP2022561573A patent/JP7460794B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
EP4104168A1 (en) | 2022-12-21 |
WO2021206713A1 (en) | 2021-10-14 |
CN115362498A (zh) | 2022-11-18 |
JP7460794B2 (ja) | 2024-04-02 |
US20230097197A1 (en) | 2023-03-30 |
KR20220151660A (ko) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11322152B2 (en) | Speech recognition power management | |
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
US10332524B2 (en) | Speech recognition wake-up of a handheld portable electronic device | |
Georgiev et al. | Dsp. ear: Leveraging co-processor support for continuous audio sensing on smartphones | |
TW202206975A (zh) | 具機器學習之低功率環境計算系統 | |
US11984117B2 (en) | Selective adaptation and utilization of noise reduction technique in invocation phrase detection | |
US11341954B2 (en) | Training keyword spotters | |
US20230298588A1 (en) | Hotphrase Triggering Based On A Sequence Of Detections | |
JP2022539674A (ja) | 特定話者スピーチモデルを使用した話者認識 | |
JP7460794B2 (ja) | ノイズロバストなキーワードスポッティングのためのカスケードアーキテクチャ | |
JP7345667B2 (ja) | 小さいフットプリントのマルチチャネルキーワードスポッティング | |
US20240062756A1 (en) | Systems, methods, and devices for staged wakeup word detection | |
US20230113883A1 (en) | Digital Signal Processor-Based Continued Conversation | |
Georgiev | Heterogeneous resource mobile sensing: computational offloading, scheduling and algorithm optimisation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221007 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240321 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7460794 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |