JP6984068B2 - エンドツーエンドストリーミングキーワードスポッティング - Google Patents
エンドツーエンドストリーミングキーワードスポッティング Download PDFInfo
- Publication number
- JP6984068B2 JP6984068B2 JP2021500875A JP2021500875A JP6984068B2 JP 6984068 B2 JP6984068 B2 JP 6984068B2 JP 2021500875 A JP2021500875 A JP 2021500875A JP 2021500875 A JP2021500875 A JP 2021500875A JP 6984068 B2 JP6984068 B2 JP 6984068B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- training
- memory
- hotword
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015654 memory Effects 0.000 claims description 177
- 238000013528 artificial neural network Methods 0.000 claims description 108
- 238000012549 training Methods 0.000 claims description 100
- 238000000034 method Methods 0.000 claims description 50
- 210000002569 neuron Anatomy 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 24
- 238000001914 filtration Methods 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 14
- 238000000354 decomposition reaction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000007958 sleep Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000004580 weight loss Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000009125 cardiac resynchronization therapy Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006266 hibernation Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Description
100 システム
102 ユーザデバイス
103 データ処理ハードウェア
104 ネットワーク
105 メモリハードウェア
106 ホットワード検出器
108 自動音声認識器(ASR)
110 リモートシステム
112 コンピューティングリソース
113 メモリリソース
114 記憶リソース、メモリハードウェア
118 ストリーミングオーディオ、オーディオストリーム
120 発話
130 注釈付き発話プール
200 ニューラルネットワーク音響エンコーダ、ネットワーク
210 フレーム
210a-d フレーム
212 ニューロン
300 ニューラルネットワーク
302 単一値分解フィルタ(SVDF)層
302n 最終層
310 エンコーダ部分
310a,b エンコーダ部分、エンコーダ
311 デコーダ部分
311a,b デコーダ部分、デコーダ
312 ニューロン/ノード
320 第1のステージ、ステージ1特徴フィルタ
330 メモリ構成要素、メモリ
332 メモリ位置
332a-d メモリ位置
340 第2のステージ、ステージ2時間フィルタ
350 確率スコア
400 トレーニング入力オーディオシーケンス
402 生オーディオ信号
404 事前処理ステージ
410 オーディオ特徴、入力特徴、入力特徴テンソル
420 ラベル
430 音声成分
700 コンピューティングデバイス
700a 標準サーバ
700b ラップトップコンピュータ
700c ラックサーバシステム
710 プロセッサ
720 メモリ
730 記憶デバイス
740 高速インターフェース/コントローラ
750 高速拡張ポート
760 低速インターフェース/コントローラ
770 低速バス
780 ディスプレイ
790 低速拡張ポート
Claims (22)
- ユーザデバイス(102)のデータ処理ハードウェア(103)において、前記ユーザデバイス(102)によって取り込まれたストリーミングオーディオ(118)を特徴付けるそれぞれのオーディオ特徴(410)をそれぞれが含む入力フレーム(210)のシーケンスを受け取るステップと、
前記データ処理ハードウェア(103)によって、記憶済みニューラルネットワーク(300)を使用して、前記ストリーミングオーディオ(118)内のホットワードの存在を示す確率スコア(350)を生成するステップであって、
前記記憶済みニューラルネットワーク(300)が、順次スタックされた単一値分解フィルタ(SVDF)層(302)を備え、各SVDF層(302)が少なくとも1つのニューロン(312)を備え、各ニューロン(312)が、
それぞれのメモリ構成要素(330)であって、対応する前記ニューロン(312)のそれぞれのメモリ容量に関連付けられる、それぞれのメモリ構成要素(330)と、
各入力フレーム(210)の前記それぞれのオーディオ特徴(410)に関するフィルタリングを個々に実施し、前記フィルタリングされたオーディオ特徴(410)を前記それぞれのメモリ構成要素(330)に出力するように構成された第1のステージ(320)と、
前記それぞれのメモリ構成要素(330)内にあるすべての前記フィルタリングされたオーディオ特徴(410)に関するフィルタリングを実施するように構成された第2のステージ(340)と
を備える、ステップと、
前記データ処理ハードウェア(103)によって、前記確率スコア(350)がホットワード検出しきい値を満たすかどうかを判定するステップと、
前記確率スコア(350)が前記ホットワード検出しきい値を満たすとき、前記データ処理ハードウェア(103)によって、前記ストリーミングオーディオ(118)内の前記ホットワードおよび/または前記ホットワードに続く1つもしくは複数の他の用語を処理するための前記ユーザデバイス(102)に関するウェイクアッププロセスを初期化するステップと
を含み、
前記SVDF層(302)のそれぞれからのニューロン(312)についての、前記それぞれのメモリ構成要素(330)に関連付けられるメモリ容量の合計が、前記記憶済みニューラルネットワーク(300)に、典型的な話者が前記ホットワードを話すのにかかる時間の長さに比例する固定メモリ容量を与える
方法(600)。 - 前記それぞれのメモリ構成要素(330)のうちの少なくとも1つに関連付けられる前記それぞれのメモリ容量が、残りのメモリ構成要素(330)に関連付けられる前記それぞれのメモリ容量とは異なる請求項1に記載の方法(600)。
- すべての前記SVDF層(302)の前記それぞれのメモリ構成要素(330)に関連付けられる前記それぞれのメモリ容量が同一である請求項1に記載の方法(600)。
- リモートシステム(110)が、複数のトレーニング入力オーディオシーケンス(400)に関して、前記記憶済みニューラルネットワーク(300)をトレーニングし、各トレーニング入力オーディオシーケンス(400)が、
前記ホットワードの音声成分(430)を特徴付ける1つまたは複数のそれぞれのオーディオ特徴(410)をそれぞれが含む入力フレーム(210)のシーケンスと、
前記入力フレーム(210)に割り当てられたラベル(420)であって、各ラベル(420)が、それぞれの入力フレーム(210)の前記オーディオ特徴(410)が前記ホットワードの音声成分(430)を含む確率を示す、ラベル(420)と
を含む請求項1から3のいずれか一項に記載の方法(600)。 - 前記記憶済みニューラルネットワーク(300)をトレーニングするステップが、各トレーニング入力オーディオシーケンス(400)について、
前記ホットワードの音声成分(430)を含む前記入力フレーム(210)の部分に第1のラベル(420)を割り当て、前記ホットワードの音声成分(430)を含む前記入力フレーム(210)の残りの部分に第2のラベル(420)を割り当てることによってエンコーダ部分(310)をトレーニングするステップと、
対応する前記トレーニング入力オーディオシーケンス(400)が前記ホットワードを含み、または前記ホットワードを含まないことのどちらかを示すラベル(420)を適用することによってデコーダ部分(311)をトレーニングするステップと
を含む請求項4に記載の方法(600)。 - 前記入力フレーム(210)の前記部分に前記第1のラベル(420)を割り当てるステップが、
前記ホットワードの最後の音声成分(430)を特徴付ける1つまたは複数のそれぞれのオーディオ特徴(410)を含む少なくとも1つの入力フレーム(210)に前記第1のラベル(420)を割り当てるステップと、
前記ホットワードの残りの音声成分(430)を特徴付ける1つまたは複数のそれぞれのオーディオ特徴(410)をそれぞれが含む残りの入力フレーム(210)に前記第2のラベル(420)を割り当てるステップと
を含む請求項5に記載の方法(600)。 - 前記ニューラルネットワーク(300)をトレーニングするステップが、各トレーニング入力オーディオシーケンス(400)について、
トレーニングの前記第1のステージ(320)の間、対応する前記トレーニング入力オーディオシーケンス(400)についての前記入力フレーム(210)に前記ラベル(420)を割り当てることによってエンコーダ部分(310)を事前トレーニングするステップと、
トレーニングの前記第2のステージ(340)の間、
トレーニングの前記第1のステージ(320)からの前記割り当てられたラベル(420)を用いて前記エンコーダ部分(310)を初期化するステップと、
前記ホットワードを検出し、または前記ホットワードを検出しないように、前記エンコーダ部分(310)からの出力を用いてデコーダ部分(311)をトレーニングするステップと
を含む請求項4から6のいずれか一項に記載の方法(600)。 - 前記記憶済みニューラルネットワーク(300)が、隣接するSVDF層(302)間に配設された少なくとも1つの追加の処理層を備える請求項1から7のいずれか一項に記載の方法(600)。
- 前記記憶済みニューラルネットワーク(300)が、隣接するSVDF層(302)間に配設された少なくとも1つのボトルネッキング層を備える請求項1から8のいずれか一項に記載の方法(600)。
- 各入力フレーム(210)の前記オーディオ特徴(410)がログフィルタバンクを備える請求項1から9のいずれか一項に記載の方法(600)。
- 各入力フレーム(210)が40個のログフィルタバンクを備える請求項10に記載の方法(600)。
- ユーザデバイス(102)のデータ処理ハードウェア(103)と、
前記データ処理ハードウェア(103)と通信しているメモリハードウェア(105)であって、前記データ処理ハードウェア(103)上で実行されるとき、前記データ処理ハードウェア(103)に、
前記ユーザデバイス(102)によって取り込まれたストリーミングオーディオ(118)を特徴付けるそれぞれのオーディオ特徴(410)をそれぞれが含む入力フレーム(210)のシーケンスを受け取ること、
記憶済みニューラルネットワーク(300)を使用して、前記ストリーミングオーディオ(118)内のホットワードの存在を示す確率スコア(350)を生成することであって、
前記記憶済みニューラルネットワーク(300)が、順次スタックされた単一値分解フィルタ(SVDF)層(302)を含み、
各SVDF層(302)が少なくとも1つのニューロン(312)を含み、各ニューロン(312)が、
それぞれのメモリ構成要素(330)であって、対応する前記ニューロン(312)のそれぞれのメモリ容量に関連付けられる、それぞれのメモリ構成要素(330)と、
各入力フレーム(210)の前記それぞれのオーディオ特徴(410)に関するフィルタリングを個々に実施し、前記フィルタリングされたオーディオ特徴(410)を前記それぞれのメモリ構成要素(330)に出力するように構成された第1のステージ(320)と、
前記それぞれのメモリ構成要素(330)内にあるすべての前記フィルタリングされたオーディオ特徴(410)に関するフィルタリングを実施するように構成された第2のステージ(340)と
を含む、生成すること、
前記確率スコア(350)がホットワード検出しきい値を満たすかどうかを判定すること、および
前記確率スコア(350)が前記ホットワード検出しきい値を満たすとき、前記ストリーミングオーディオ(118)内の前記ホットワードおよび/または前記ホットワードに続く1つまたは複数の他の用語を処理するための前記ユーザデバイス(102)に関するウェイクアッププロセスを初期化すること
を含む動作を実施させる命令を記憶する、メモリハードウェア(105)と
を備え、
前記SVDF層(302)のそれぞれからのニューロン(312)についての、前記それぞれのメモリ構成要素(330)に関連付けられるメモリ容量の合計が、前記記憶済みニューラルネットワーク(300)に、典型的な話者が前記ホットワードを話すのにかかる時間の長さに比例する固定メモリ容量を与える
システム(100)。 - 前記それぞれのメモリ構成要素(330)のうちの少なくとも1つに関連付けられる前記それぞれのメモリ容量が、残りのメモリ構成要素(330)に関連付けられる前記それぞれのメモリ容量とは異なる請求項12に記載のシステム(100)。
- すべての前記SVDF層(302)の前記それぞれのメモリ構成要素(330)に関連付けられる前記それぞれのメモリ容量が同一である請求項12のいずれか一項に記載のシステム(100)。
- リモートシステム(110)が、複数のトレーニング入力オーディオシーケンス(400)に関して、前記記憶済みニューラルネットワーク(300)をトレーニングするように構成され、各トレーニング入力オーディオシーケンス(400)が、
前記ホットワードの音声成分(430)を特徴付ける1つまたは複数のそれぞれのオーディオ特徴(410)をそれぞれが含む入力フレーム(210)のシーケンスと、
前記入力フレーム(210)に割り当てられたラベル(420)であって、各ラベル(420)が、それぞれの入力フレーム(210)の前記オーディオ特徴(410)が前記ホットワードの音声成分(430)を含む確率を示す、ラベル(420)と
を含む請求項12から14のいずれか一項に記載のシステム(100)。 - 前記記憶済みニューラルネットワーク(300)をトレーニングすることが、各トレーニング入力オーディオシーケンス(400)について、
前記ホットワードの音声成分(430)を含む前記入力フレーム(210)の部分に第1のラベル(420)を割り当て、前記ホットワードの音声成分(430)を含む前記入力フレーム(210)の残りの部分に第2のラベル(420)を割り当てることによってエンコーダ部分(310)をトレーニングすること、および
対応するトレーニング前記入力オーディオシーケンス(400)が前記ホットワードを含み、または前記ホットワードを含まないことのどちらかを示すラベル(420)を適用することによってデコーダ部分(311)をトレーニングすること
を含む請求項15に記載のシステム(100)。 - 前記入力フレーム(210)の前記部分に前記第1のラベル(420)を割り当てることが、
前記ホットワードの最後の音声成分(430)を特徴付ける1つまたは複数のそれぞれのオーディオ特徴(410)を含む少なくとも1つの入力フレーム(210)に前記第1のラベル(420)を割り当てること、および
前記ホットワードの残りの音声成分(430)を特徴付ける1つまたは複数のそれぞれのオーディオ特徴(410)をそれぞれが含む残りの入力フレーム(210)に前記第2のラベル(420)を割り当てること
を含む請求項16に記載のシステム(100)。 - 前記記憶済みニューラルネットワーク(300)をトレーニングすることが、各トレーニング入力オーディオシーケンス(400)について、
トレーニングの前記第1のステージ(320)の間、対応する前記トレーニング入力オーディオシーケンス(400)についての前記入力フレーム(210)に前記ラベル(420)を割り当てることによってエンコーダ部分(310)を事前トレーニングすること、ならびに
トレーニングの前記第2のステージ(340)の間、
トレーニングの前記第1のステージ(320)からの前記割り当てられたラベル(420)を用いて前記エンコーダ部分(310)を初期化すること、および
前記ホットワードを検出し、または前記ホットワードを検出しないように、前記エンコーダ部分(310)からの出力を用いてデコーダ部分(311)をトレーニングすること
を含む請求項15から17のいずれか一項に記載のシステム(100)。 - 前記記憶済みニューラルネットワーク(300)が、隣接するSVDF層(302)間に配設された少なくとも1つの追加の処理層を備える請求項12から18のいずれか一項に記載のシステム(100)。
- 前記記憶済みニューラルネットワーク(300)が、隣接するSVDF層(302)間に配設された少なくとも1つのボトルネッキング層を備える請求項12から19のいずれか一項に記載のシステム(100)。
- 各入力フレーム(210)の前記オーディオ特徴(410)がログフィルタバンクを備える請求項12から20のいずれか一項に記載のシステム(100)。
- 各入力フレーム(210)が40個のログフィルタバンクを備える請求項21に記載のシステム(100)。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021189437A JP7263492B2 (ja) | 2018-07-13 | 2021-11-22 | エンドツーエンドストリーミングキーワードスポッティング |
JP2023064374A JP7575517B2 (ja) | 2018-07-13 | 2023-04-11 | エンドツーエンドストリーミングキーワードスポッティング |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862697586P | 2018-07-13 | 2018-07-13 | |
US62/697,586 | 2018-07-13 | ||
PCT/US2019/036907 WO2020013946A1 (en) | 2018-07-13 | 2019-06-13 | End-to-end streaming keyword spotting |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021189437A Division JP7263492B2 (ja) | 2018-07-13 | 2021-11-22 | エンドツーエンドストリーミングキーワードスポッティング |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021524615A JP2021524615A (ja) | 2021-09-13 |
JP6984068B2 true JP6984068B2 (ja) | 2021-12-17 |
Family
ID=67108200
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021500875A Active JP6984068B2 (ja) | 2018-07-13 | 2019-06-13 | エンドツーエンドストリーミングキーワードスポッティング |
JP2021189437A Active JP7263492B2 (ja) | 2018-07-13 | 2021-11-22 | エンドツーエンドストリーミングキーワードスポッティング |
JP2023064374A Active JP7575517B2 (ja) | 2018-07-13 | 2023-04-11 | エンドツーエンドストリーミングキーワードスポッティング |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021189437A Active JP7263492B2 (ja) | 2018-07-13 | 2021-11-22 | エンドツーエンドストリーミングキーワードスポッティング |
JP2023064374A Active JP7575517B2 (ja) | 2018-07-13 | 2023-04-11 | エンドツーエンドストリーミングキーワードスポッティング |
Country Status (6)
Country | Link |
---|---|
US (8) | US10930269B2 (ja) |
EP (1) | EP3807874A1 (ja) |
JP (3) | JP6984068B2 (ja) |
KR (2) | KR102622357B1 (ja) |
CN (2) | CN118737132A (ja) |
WO (1) | WO2020013946A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228976B (zh) * | 2016-07-22 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
US11205121B2 (en) | 2018-06-20 | 2021-12-21 | Disney Enterprises, Inc. | Efficient encoding and decoding sequences using variational autoencoders |
US11244673B2 (en) * | 2019-07-19 | 2022-02-08 | Microsoft Technologly Licensing, LLC | Streaming contextual unidirectional models |
CN111343473B (zh) * | 2020-02-25 | 2022-07-01 | 北京达佳互联信息技术有限公司 | 直播应用的数据处理方法、装置、电子设备及存储介质 |
CN111429887B (zh) * | 2020-04-20 | 2023-05-30 | 合肥讯飞数码科技有限公司 | 基于端到端的语音关键词识别方法、装置以及设备 |
CN111667835A (zh) * | 2020-06-01 | 2020-09-15 | 马上消费金融股份有限公司 | 语音识别方法、活体检测方法、模型训练方法及装置 |
CN112669852B (zh) * | 2020-12-15 | 2023-01-31 | 北京百度网讯科技有限公司 | 内存分配方法、装置及电子设备 |
US12027162B2 (en) * | 2021-03-03 | 2024-07-02 | Google Llc | Noisy student teacher training for robust keyword spotting |
US12100416B2 (en) * | 2021-07-08 | 2024-09-24 | Sony Group Corporation | Recommendation of audio based on video analysis using machine learning |
US12125476B2 (en) * | 2022-02-28 | 2024-10-22 | Google Llc | Mixing heterogeneous loss types to improve accuracy of keyword spotting |
CN114863915A (zh) * | 2022-07-05 | 2022-08-05 | 中科南京智能技术研究院 | 一种基于语义保留的语音唤醒方法及系统 |
CN116453514B (zh) * | 2023-06-08 | 2023-08-25 | 四川大学 | 一种基于多视角的语音关键词检测与定位方法及装置 |
Family Cites Families (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06266386A (ja) * | 1993-03-16 | 1994-09-22 | Nippon Telegr & Teleph Corp <Ntt> | ワードスポッティング方法 |
JPH08314490A (ja) * | 1995-05-23 | 1996-11-29 | Nippon Hoso Kyokai <Nhk> | ワードスポッティング型音声認識方法と装置 |
JP3946912B2 (ja) | 1999-09-06 | 2007-07-18 | 三菱電機株式会社 | 教師なし話者適応化装置、音声認識装置、教師なし話者適応化方法、音声認識方法、教師なし話者適応化プログラムを記録した記録媒体及び音声認識プログラムを記録した記録媒体 |
US7359550B2 (en) * | 2002-04-18 | 2008-04-15 | Mitsubishi Electric Research Laboratories, Inc. | Incremental singular value decomposition of incomplete data |
US7725319B2 (en) * | 2003-07-07 | 2010-05-25 | Dialogic Corporation | Phoneme lattice construction and its application to speech recognition and keyword spotting |
ES2237345B1 (es) * | 2005-02-28 | 2006-06-16 | Prous Institute For Biomedical Research S.A. | Procedimiento de conversion de fonemas a texto escrito y sistema informatico y programa informatico correspondientes. |
EP2135231A4 (en) * | 2007-03-01 | 2014-10-15 | Adapx Inc | SYSTEM AND METHOD FOR DYNAMIC LEARNING |
JP4572218B2 (ja) * | 2007-06-27 | 2010-11-04 | 日本電信電話株式会社 | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 |
FR2923307B1 (fr) * | 2007-11-02 | 2012-11-16 | Eastman Kodak Co | Procede d'organisation de donnees multimedia |
US9361885B2 (en) * | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9704102B2 (en) * | 2013-03-15 | 2017-07-11 | William Marsh Rice University | Sparse factor analysis for analysis of user content preferences |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
US9620145B2 (en) * | 2013-11-01 | 2017-04-11 | Google Inc. | Context-dependent state tying using a neural network |
US9767410B1 (en) * | 2014-10-03 | 2017-09-19 | Google Inc. | Rank-constrained neural networks |
US9424841B2 (en) * | 2014-10-09 | 2016-08-23 | Google Inc. | Hotword detection on multiple devices |
US10198517B2 (en) * | 2014-12-08 | 2019-02-05 | Oath Inc. | Pairing systems and methods for electronic communications |
KR101686827B1 (ko) * | 2015-03-17 | 2016-12-16 | 인천대학교 산학협력단 | 인공 신경망의 뉴로모픽 하드웨어 구현 방법 |
US10013652B2 (en) | 2015-04-29 | 2018-07-03 | Nuance Communications, Inc. | Fast deep neural network feature transformation via optimized memory bandwidth utilization |
US10503706B2 (en) * | 2015-06-01 | 2019-12-10 | Sap Se | Deferred data definition statements |
US10438593B2 (en) * | 2015-07-22 | 2019-10-08 | Google Llc | Individualized hotword detection models |
US10319374B2 (en) | 2015-11-25 | 2019-06-11 | Baidu USA, LLC | Deployed end-to-end speech recognition |
US20170154620A1 (en) | 2015-12-01 | 2017-06-01 | Knowles Electronics, Llc | Microphone assembly comprising a phoneme recognizer |
US10043243B2 (en) * | 2016-01-22 | 2018-08-07 | Siemens Healthcare Gmbh | Deep unfolding algorithm for efficient image denoising under varying noise conditions |
US9639809B1 (en) * | 2016-02-10 | 2017-05-02 | Sas Institute Inc. | Monitoring system based on a support vector data description |
EP3414759B1 (en) * | 2016-02-10 | 2020-07-01 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
CA3017135A1 (en) | 2016-03-08 | 2017-09-14 | Your Trainer Inc. | Systems and methods of dynamically creating a personalized workout video |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
CN106251859B (zh) * | 2016-07-22 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
US9905104B1 (en) * | 2016-08-15 | 2018-02-27 | Nec Corporation | Baby detection for electronic-gate environments |
KR101943381B1 (ko) * | 2016-08-22 | 2019-01-29 | 에스케이텔레콤 주식회사 | 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치 |
DE102016216950A1 (de) * | 2016-09-07 | 2018-03-08 | Robert Bosch Gmbh | Modellberechnungseinheit und Steuergerät zur Berechnung eines mehrschichtigen Perzeptronenmodells mit Vorwärts- und Rückkopplung |
US10403268B2 (en) * | 2016-09-08 | 2019-09-03 | Intel IP Corporation | Method and system of automatic speech recognition using posterior confidence scores |
JP6712642B2 (ja) * | 2016-09-16 | 2020-06-24 | 日本電信電話株式会社 | モデル学習装置、その方法、及びプログラム |
US10950225B2 (en) * | 2016-09-30 | 2021-03-16 | Nippon Telegraph And Telephone Corporation | Acoustic model learning apparatus, method of the same and program |
US20180129937A1 (en) * | 2016-11-04 | 2018-05-10 | Salesforce.Com, Inc. | Quasi-recurrent neural network |
EP3637414B1 (en) | 2016-11-07 | 2024-01-03 | Google LLC | Recorded media hotword trigger suppression |
US10650311B2 (en) * | 2016-12-19 | 2020-05-12 | Asaap, Inc. | Suggesting resources using context hashing |
US10559309B2 (en) | 2016-12-22 | 2020-02-11 | Google Llc | Collaborative voice controlled devices |
CN106782504B (zh) * | 2016-12-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
JP6585112B2 (ja) * | 2017-03-17 | 2019-10-02 | 株式会社東芝 | 音声キーワード検出装置および音声キーワード検出方法 |
JP6805927B2 (ja) * | 2017-03-28 | 2020-12-23 | 富士通株式会社 | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 |
US10460729B1 (en) * | 2017-06-30 | 2019-10-29 | Amazon Technologies, Inc. | Binary target acoustic trigger detecton |
US10664716B2 (en) * | 2017-07-19 | 2020-05-26 | Vispek Inc. | Portable substance analysis based on computer vision, spectroscopy, and artificial intelligence |
US20190080009A1 (en) * | 2017-09-11 | 2019-03-14 | Linkedin Corporation | Calculation of tuning parameters for ranking items in a user feed |
CA3078472A1 (en) | 2017-10-06 | 2019-04-11 | Oslo Universitetssykehus Hf | Chimeric antigen receptors |
US10672380B2 (en) * | 2017-12-27 | 2020-06-02 | Intel IP Corporation | Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system |
US11106729B2 (en) * | 2018-01-08 | 2021-08-31 | Comcast Cable Communications, Llc | Media search filtering mechanism for search engine |
CN108198552B (zh) | 2018-01-18 | 2021-02-02 | 深圳市大疆创新科技有限公司 | 一种语音控制方法及视频眼镜 |
US11586924B2 (en) * | 2018-01-23 | 2023-02-21 | Qualcomm Incorporated | Determining layer ranks for compression of deep networks |
DE102018102758B4 (de) | 2018-02-07 | 2020-01-16 | Kendrion (Villingen) Gmbh | Feder für ein Rückschlagventil, Rückschlagventil mit einer derartigen Feder, regelbarer Schwingungsdämpfer mit einem solchen Rückschlagventil sowie Kraftfahrzeug mit einem derartigen regelbaren Schwingungsdämpfer |
US10585988B2 (en) * | 2018-06-08 | 2020-03-10 | Microsoft Technology Licensing, Llc | Graph representations for identifying a next word |
JP6892426B2 (ja) * | 2018-10-19 | 2021-06-23 | ヤフー株式会社 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
CN111933114B (zh) * | 2020-10-09 | 2021-02-02 | 深圳市友杰智新科技有限公司 | 语音唤醒混合模型的训练方法、使用方法和相关设备 |
-
2019
- 2019-06-13 WO PCT/US2019/036907 patent/WO2020013946A1/en unknown
- 2019-06-13 US US16/439,897 patent/US10930269B2/en active Active
- 2019-06-13 CN CN202410884125.9A patent/CN118737132A/zh active Pending
- 2019-06-13 KR KR1020227046093A patent/KR102622357B1/ko active IP Right Grant
- 2019-06-13 EP EP19734618.2A patent/EP3807874A1/en active Pending
- 2019-06-13 JP JP2021500875A patent/JP6984068B2/ja active Active
- 2019-06-13 KR KR1020207038047A patent/KR102483774B1/ko active IP Right Grant
- 2019-06-13 CN CN201980044566.5A patent/CN112368769B/zh active Active
- 2019-12-10 US US16/709,191 patent/US11056101B2/en active Active
-
2021
- 2021-01-21 US US17/155,068 patent/US11557282B2/en active Active
- 2021-06-15 US US17/348,422 patent/US11682385B2/en active Active
- 2021-11-22 JP JP2021189437A patent/JP7263492B2/ja active Active
-
2023
- 2023-01-09 US US18/151,540 patent/US11929064B2/en active Active
- 2023-04-11 JP JP2023064374A patent/JP7575517B2/ja active Active
- 2023-05-23 US US18/322,207 patent/US11967310B2/en active Active
-
2024
- 2024-02-05 US US18/432,282 patent/US20240177708A1/en active Pending
- 2024-03-27 US US18/619,156 patent/US20240242711A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
KR102483774B1 (ko) | 2023-01-02 |
US20210142790A1 (en) | 2021-05-13 |
JP7575517B2 (ja) | 2024-10-29 |
KR102622357B1 (ko) | 2024-01-08 |
CN118737132A (zh) | 2024-10-01 |
KR20210015967A (ko) | 2021-02-10 |
WO2020013946A1 (en) | 2020-01-16 |
US20210312913A1 (en) | 2021-10-07 |
US20230162729A1 (en) | 2023-05-25 |
CN112368769A (zh) | 2021-02-12 |
US11557282B2 (en) | 2023-01-17 |
US20200020322A1 (en) | 2020-01-16 |
KR20230006055A (ko) | 2023-01-10 |
JP2022028846A (ja) | 2022-02-16 |
US11929064B2 (en) | 2024-03-12 |
KR20240008406A (ko) | 2024-01-18 |
US20240177708A1 (en) | 2024-05-30 |
US11682385B2 (en) | 2023-06-20 |
JP7263492B2 (ja) | 2023-04-24 |
US10930269B2 (en) | 2021-02-23 |
US20200126537A1 (en) | 2020-04-23 |
CN112368769B (zh) | 2024-07-19 |
US20230298576A1 (en) | 2023-09-21 |
JP2023089116A (ja) | 2023-06-27 |
EP3807874A1 (en) | 2021-04-21 |
JP2021524615A (ja) | 2021-09-13 |
US11056101B2 (en) | 2021-07-06 |
US20240242711A1 (en) | 2024-07-18 |
US11967310B2 (en) | 2024-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6984068B2 (ja) | エンドツーエンドストリーミングキーワードスポッティング | |
US11798535B2 (en) | On-device custom wake word detection | |
EP3966813A1 (en) | Online verification of custom wake word | |
US20240347051A1 (en) | Small Footprint Multi-Channel Keyword Spotting | |
KR102720650B1 (ko) | 종단 간 스트리밍 키워드 탐지 | |
US12125476B2 (en) | Mixing heterogeneous loss types to improve accuracy of keyword spotting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210303 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210303 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210813 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211025 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211124 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6984068 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |