JP2023546703A - マルチチャネル音声アクティビティ検出 - Google Patents
マルチチャネル音声アクティビティ検出 Download PDFInfo
- Publication number
- JP2023546703A JP2023546703A JP2023524808A JP2023524808A JP2023546703A JP 2023546703 A JP2023546703 A JP 2023546703A JP 2023524808 A JP2023524808 A JP 2023524808A JP 2023524808 A JP2023524808 A JP 2023524808A JP 2023546703 A JP2023546703 A JP 2023546703A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- channel
- score
- location
- particular application
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000694 effects Effects 0.000 title claims abstract description 19
- 238000001514 detection method Methods 0.000 title abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 94
- 238000012545 processing Methods 0.000 claims abstract description 92
- 230000008569 process Effects 0.000 claims description 52
- 230000015654 memory Effects 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 26
- 238000004891 communication Methods 0.000 claims description 8
- 230000003068 static effect Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000005672 electromagnetic field Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
100 システム
101 別個のデバイス
102 ユーザデバイス
103 データ処理ハードウェア
104 ネットワーク
105 メモリハードウェア
106 マイクロホン
106a~n マイクロホン
110 リモートシステム
112 コンピューティングリソース
114 ストレージリソース
116 発話
118 ストリーミングマルチチャネルオーディオ、マルチチャネルストリーミングオーディオ、2チャネルストリーミングオーディオ、マルチストリーミングオーディオ、複数音源ストリーミングオーディオ
119 チャネル、ストリーミングオーディオのチャネル、ストリーミングオーディオの各チャネル、オーディオデータのそれぞれのチャネル、単一チャネル
119a~n チャネル
119B オーディオの抽出された単一チャネル、オーディオデータの単一チャネル、オーディオの抽出されたチャネル、オーディオの単一チャネル、オーディオの高品質単一チャネル
119S オーディオの単一チャネル、オーディオの高品質単一チャネル
120 位置指紋モデル
124 位置指紋
130 位置分類器モデル、アプリケーション固有の分類器モデル、アプリケーション固有の分類器
134 第1のスコア
136 第2のスコア
140 出力スコアラ
150 オーディオプロセッサ、特定のアプリケーション
162 オーディオ特徴
164 入力フレーム
164a~n 入力フレーム
222 ビームフォーマ
224 ダウンマクサ
230 音声アクティビティ検出器(VAD)モデル
234 第2のスコア
310 複数音源位置を有するオーディオ、複数音源、複数音源オーディオ、人間が発した複数音源発話
312 テレビ
314 スピーカ
316 オーディオ
320 単一音源位置を有するオーディオ、単一音源オーディオ信号、単一音源、単一音源オーディオ、人間が発した単一音源発話
410 静止音源位置を有するオーディオ
412 ラジオ
420 移動音源位置を有するオーディオ
510 ニアフィールド領域
520 ファーフィールド領域
610 音源ベクトル
710 位置分類器トレーナ
712 正トレーニング例、負トレーニング例
712a 負トレーニング例、正トレーニングサンプル
712b 正トレーニング例、負トレーニングサンプル
800 方法
900 コンピューティングデバイス
900a 標準的なサーバ
900b ラップトップコンピュータ
900c ラックサーバシステム
910 プロセッサ、コンポーネント
920 メモリ、非一時的メモリ、コンポーネント
930 ストレージデバイス、コンポーネント
940 高速インターフェース/コントローラ、高速インターフェース、高速コントローラ、コンポーネント
950 高速拡張ポート、コンポーネント
960 低速インターフェース/コントローラ、低速コントローラ、コンポーネント
970 低速バス
980 ディスプレイ
990 低速拡張ポート
Claims (26)
- ユーザデバイス(102)のデータ処理ハードウェア(103)において、前記データ処理ハードウェア(103)と通信するマイクロホン(106)のアレイによって取得されたストリーミングマルチチャネルオーディオ(118)を特徴付ける入力フレーム(164)のシーケンスを受け取るステップであって、
前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119)が、マイクロホン(106)の前記アレイ内の別々の専用マイクロホン(106)によって取得されたそれぞれのオーディオ特徴(162)を含む、ステップと、
前記データ処理ハードウェア(103)によって、位置指紋モデル(120)を使用して、前記マルチチャネルオーディオ(118)の各チャネル(119)の前記それぞれのオーディオ特徴(162)に基づいて、前記ユーザデバイス(102)に対する前記マルチチャネルオーディオ(118)の音源の位置を示す位置指紋(124)を決定するステップと、
前記データ処理ハードウェア(103)によって、前記位置指紋(124)を入力として受け取るように構成されたアプリケーション固有の分類器(130)からの出力として、特定のアプリケーション(150)が処理するように構成されている特定のオーディオタイプに前記マルチチャネルオーディオ(118)が対応する可能性を示す第1のスコア(134)を生成するステップと、
前記データ処理ハードウェア(103)によって、前記アプリケーション固有の分類器(130)からの出力として生成された前記第1のスコア(134)に基づいて、前記特定のアプリケーション(150)によって処理するための前記マルチチャネルオーディオ(118)を受け入れるべきか、拒否すべきかを判定するステップと
を含む、方法(800)。 - 前記データ処理ハードウェア(103)によって、音声アクティビティ検出器(VAD)モデル(230)を使用して、前記マルチチャネルオーディオ(118)が人間由来のスピーチに対応する可能性を示す第2のスコア(136)を生成するステップ
をさらに含み、
前記特定のアプリケーション(150)によって処理するための前記マルチチャネルオーディオ(118)を受け入れるべきか、拒否すべきかを判定するステップが、前記マルチチャネルオーディオ(118)が人間由来のスピーチに対応する前記可能性を示す前記第2のスコア(136)にさらに基づく、請求項1に記載の方法(800)。 - 前記特定のアプリケーション(150)によって処理するための前記マルチチャネルオーディオ(118)を受け入れるべきか、拒否すべきかを判定するステップが、
前記第1のスコア(134)と前記第2のスコア(136)を合算して、合算スコアにするステップと、
前記合算スコアが受入れしきい値を満足させるかどうかを判定するステップと、
前記合算スコアが前記受入れしきい値を満足させるとき、前記特定のアプリケーション(150)によって処理するための前記マルチチャネルオーディオ(118)を受け入れるステップ、または
前記合算スコアが前記受入れしきい値を満足させないとき、前記特定のアプリケーション(150)によって処理するための前記マルチチャネルオーディオ(118)を拒否するステップ
のうちの一方と
を含む、請求項2に記載の方法(800)。 - 前記データ処理ハードウェア(103)によって、前記位置指紋(124)および1つまたは複数の以前の位置指紋(124)に基づいて、集約された指紋を生成するステップと、
前記データ処理ハードウェア(103)によって、前記集約された指紋を入力として受け取るように構成されたビームフォーマ(222)を使用して、前記マルチチャネルオーディオ(118)からオーディオデータの単一チャネル(119)を抽出するステップであって、オーディオデータの前記抽出された単一チャネル(119)が、前記位置指紋(124)によって示された前記音源の前記位置に対応するそれぞれのオーディオ特徴(162)のみを含む、ステップと
をさらに含み、
前記マルチチャネルオーディオ(118)が人間由来のスピーチに対応する前記可能性を示す前記第2のスコア(136)を生成するステップが、前記VADモデル(230)への入力として受け取られたオーディオデータの前記抽出された単一チャネル(119)に基づいて、前記VADモデル(230)からの出力としての前記第2のスコア(136)を生成するステップを含む、請求項2または3に記載の方法(800)。 - 前記データ処理ハードウェア(103)によって、前記ビームフォーマ(222)の信頼度レベルに基づいて、前記第2のスコア(136)を調整するステップをさらに含む、請求項4に記載の方法(800)。
- 前記特定のアプリケーション(150)が処理するように構成されている前記特定のオーディオタイプが、単一音源位置を有するオーディオ(320)または複数音源位置を有するオーディオ(310)のうちの一方を含む、請求項1から5のいずれか一項に記載の方法(800)。
- 前記特定のアプリケーション(150)が処理するように構成されている前記特定のオーディオタイプが、移動音源位置を有するオーディオ(420)または静止音源位置を有するオーディオ(410)のうちの一方を含む、請求項1から6のいずれか一項に記載の方法(800)。
- 前記特定のアプリケーション(150)が処理するように構成されている前記特定のオーディオタイプが、近距離音源オーディオまたは遠距離音源オーディオのうちの一方を含む、請求項1から7のいずれか一項に記載の方法(800)。
- 前記特定のアプリケーション(150)が処理するように構成されている前記特定のオーディオタイプが、点音源オーディオまたはスピーカシステムオーディオのうちの一方を含む、請求項1から8のいずれか一項に記載の方法(800)。
- 前記ユーザデバイス(102)に対する前記マルチチャネルオーディオ(118)の前記音源の前記位置を示す前記位置指紋(124)を決定するステップが、前記マルチチャネルオーディオ(118)の各チャネル(119)を到達時間差および利得モデルを使用して処理するステップを含む、請求項1から9のいずれか一項に記載の方法(800)。
- 前記ユーザデバイス(102)に対する前記マルチチャネルオーディオ(118)の前記音源の前記位置を示す前記位置指紋(124)を決定するステップが、前記マルチチャネルオーディオ(118)の各チャネル(119)を空間的確率モデルを使用して処理するステップを含む、請求項1から10のいずれか一項に記載の方法(800)。
- 前記データ処理ハードウェア(103)によって、前記アプリケーション固有の分類器(130)からの出力として、前記位置指紋(124)に基づいて、前記特定のアプリケーション(150)が処理するように構成されている前記特定のオーディオタイプとは異なるオーディオタイプに前記マルチチャネルオーディオ(118)が対応する可能性を示す第2のスコア(136)を生成するステップと、
前記データ処理ハードウェア(103)によって、同じ位置指紋(124)を有する後続のストリーミングマルチチャネルオーディオ(118)を無視するステップと
をさらに含む、請求項1から11のいずれか一項に記載の方法(800)。 - 前記アプリケーション固有の分類器(130)が、
前記特定のアプリケーション(150)が処理するように構成されている前記特定のオーディオタイプに対応するマルチチャネルオーディオ(118)を含む、正トレーニングサンプル(712a)、および
前記特定のアプリケーション(150)が処理するように構成されていない1つまたは複数の他のオーディオタイプに対応するマルチチャネルオーディオ(118)を含む、負トレーニングサンプル(712b)
に対してトレーニングされる、請求項1から12のいずれか一項に記載の方法(800)。 - ユーザデバイス(102)のデータ処理ハードウェア(103)と、
前記データ処理ハードウェア(103)と通信するメモリハードウェア(105)であって、命令を記憶し、前記命令が、前記データ処理ハードウェア(103)上で実行されると、前記データ処理ハードウェア(103)に動作を実施させ、前記動作が、
前記データ処理ハードウェア(103)と通信するマイクロホン(106)のアレイによって取得されたストリーミングマルチチャネルオーディオ(118)を特徴付ける入力フレーム(164)のシーケンスを受け取ることであって、前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119)が、マイクロホン(106)の前記アレイ内の別々の専用マイクロホン(106)によって取得されたそれぞれのオーディオ特徴(162)を含む、受け取ること、
位置指紋モデル(120)を使用して、前記マルチチャネルオーディオ(118)の各チャネル(119)の前記それぞれのオーディオ特徴(162)に基づいて、前記ユーザデバイス(102)に対する前記マルチチャネルオーディオ(118)の音源の位置を示す位置指紋(124)を決定すること、
前記位置指紋(124)を入力として受け取るように構成されたアプリケーション固有の分類器(130)からの出力として、特定のアプリケーション(150)が処理するように構成されている特定のオーディオタイプに前記マルチチャネルオーディオ(118)が対応する可能性を示す第1のスコア(134)を生成すること、および
前記アプリケーション固有の分類器(130)からの出力として生成された前記第1のスコア(134)に基づいて、前記特定のアプリケーション(150)によって処理するための前記マルチチャネルオーディオ(118)を受け入れるべきか、拒否すべきかを判定すること
を含む、メモリハードウェア(105)と
を備える、システム(100)。 - 前記動作が、
音声アクティビティ検出器(VAD)モデル(230)を使用して、前記マルチチャネルオーディオ(118)が人間由来のスピーチに対応する可能性を示す第2のスコア(136)を生成すること
をさらに含み、
前記特定のアプリケーション(150)によって処理するための前記マルチチャネルオーディオ(118)を受け入れるべきか、拒否すべきかを判定することが、前記マルチチャネルオーディオ(118)が人間由来のスピーチに対応する前記可能性を示す前記第2のスコア(136)にさらに基づく、請求項14に記載のシステム(100)。 - 前記特定のアプリケーション(150)によって処理するための前記マルチチャネルオーディオ(118)を受け入れるべきか、拒否すべきかを判定することが、
前記第1のスコア(134)と前記第2のスコア(136)を合算して、合算スコアにすることと、
前記合算スコアが受入れしきい値を満足させるかどうかを判定することと、
前記合算スコアが前記受入れしきい値を満足させるとき、前記特定のアプリケーション(150)によって処理するための前記マルチチャネルオーディオ(118)を受け入れること、または
前記合算スコアが前記受入れしきい値を満足させないとき、前記特定のアプリケーション(150)によって処理するための前記マルチチャネルオーディオ(118)を拒否すること
のうちの一方と
を含む、請求項15に記載のシステム(100)。 - 前記動作が、
前記位置指紋(124)および1つまたは複数の以前の位置指紋(124)に基づいて、集約された指紋を生成することと、
前記集約された指紋を入力として受け取るように構成されたビームフォーマ(222)を使用して、前記マルチチャネルオーディオ(118)からオーディオデータの単一チャネル(119)を抽出することであって、オーディオデータの前記抽出された単一チャネル(119)が、前記位置指紋(124)によって示された前記音源の前記位置に対応するそれぞれのオーディオ特徴(162)のみを含む、抽出することと
をさらに含み、
前記マルチチャネルオーディオ(118)が人間由来のスピーチに対応する前記可能性を示す前記第2のスコア(136)を生成することが、前記VADモデル(230)への入力として受け取られたオーディオデータの前記抽出された単一チャネル(119)に基づいて、前記VADモデル(230)からの出力としての前記第2のスコア(136)を生成することを含む、請求項15または16に記載のシステム(100)。 - 前記動作が、前記ビームフォーマ(222)の信頼度レベルに基づいて、前記第2のスコア(136)を調整することをさらに含む、請求項17に記載のシステム(100)。
- 前記特定のアプリケーションが処理するように構成されている前記特定のオーディオタイプが、単一音源位置を有するオーディオ(320)または複数音源位置を有するオーディオ(310)のうちの一方を含む、請求項14から18のいずれか一項に記載のシステム(100)。
- 前記特定のアプリケーションが処理するように構成されている前記特定のオーディオタイプが、移動音源位置を有するオーディオ(420)または静止音源位置を有するオーディオ(410)のうちの一方を含む、請求項14から19のいずれか一項に記載のシステム(100)。
- 前記特定のアプリケーションが処理するように構成されている前記特定のオーディオタイプが、近距離音源オーディオまたは遠距離音源オーディオのうちの一方を含む、請求項14から20のいずれか一項に記載のシステム(100)。
- 前記特定のアプリケーションが処理するように構成されている前記特定のオーディオタイプが、点音源オーディオまたはスピーカシステムオーディオのうちの一方を含む、請求項14から21のいずれか一項に記載のシステム(100)。
- 前記ユーザデバイス(102)に対する前記マルチチャネルオーディオの前記音源の前記位置を示す前記位置指紋(124)を決定することが、前記マルチチャネルオーディオの各チャネルを到達時間差および利得モデルを使用して処理することを含む、請求項14から22のいずれか一項に記載のシステム(100)。
- 前記ユーザデバイス(102)に対する前記マルチチャネルオーディオの前記音源の前記位置を示す前記位置指紋(124)を決定することが、前記マルチチャネルオーディオの各チャネルを空間的確率モデルを使用して処理することを含む、請求項14から23のいずれか一項に記載のシステム(100)。
- 前記動作が、
前記アプリケーション固有の分類器からの出力として、前記位置指紋(124)に基づいて、前記特定のアプリケーションが処理するように構成されている前記特定のオーディオタイプとは異なるオーディオタイプに前記マルチチャネルオーディオが対応する可能性を示す第2のスコア(136)を生成することと、
同じ位置指紋(124)を有する後続のストリーミングマルチチャネルオーディオを無視することと
をさらに含む、請求項14から24のいずれか一項に記載のシステム(100)。 - 前記アプリケーション固有の分類器が、
前記特定のアプリケーションが処理するように構成されている前記特定のオーディオタイプに対応するマルチチャネルオーディオを含む、正トレーニングサンプル(712a)、および
前記特定のアプリケーションが処理するように構成されていない1つまたは複数の他のオーディオタイプに対応するマルチチャネルオーディオを含む、負トレーニングサンプル(712b)
に対してトレーニングされる、請求項14から25のいずれか一項に記載のシステム(100)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/077,679 | 2020-10-22 | ||
US17/077,679 US11380302B2 (en) | 2020-10-22 | 2020-10-22 | Multi channel voice activity detection |
PCT/US2021/056031 WO2022087251A1 (en) | 2020-10-22 | 2021-10-21 | Multi channel voice activity detection |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023546703A true JP2023546703A (ja) | 2023-11-07 |
JP7549742B2 JP7549742B2 (ja) | 2024-09-11 |
Family
ID=78650071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023524808A Active JP7549742B2 (ja) | 2020-10-22 | 2021-10-21 | マルチチャネル音声アクティビティ検出 |
Country Status (6)
Country | Link |
---|---|
US (3) | US11380302B2 (ja) |
EP (1) | EP4218014A1 (ja) |
JP (1) | JP7549742B2 (ja) |
KR (2) | KR20230134613A (ja) |
CN (1) | CN116635935A (ja) |
WO (1) | WO2022087251A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11948569B2 (en) * | 2021-07-05 | 2024-04-02 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
WO2024102518A1 (en) * | 2022-11-08 | 2024-05-16 | Qualcomm Incorporated | Filtering inputs to a user device |
CN116705069B (zh) * | 2023-07-31 | 2023-11-10 | 北京芯驰半导体科技有限公司 | 音频检测方法、芯片、交通设备上的部件及交通设备 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4675381B2 (ja) * | 2005-07-26 | 2011-04-20 | 本田技研工業株式会社 | 音源特性推定装置 |
JP5410351B2 (ja) | 2010-03-31 | 2014-02-05 | 綜合警備保障株式会社 | 警備装置および警備方法 |
US9100734B2 (en) | 2010-10-22 | 2015-08-04 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
US9270807B2 (en) * | 2011-02-23 | 2016-02-23 | Digimarc Corporation | Audio localization using audio signal encoding and recognition |
WO2014032738A1 (en) | 2012-09-03 | 2014-03-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for providing an informed multichannel speech presence probability estimation |
US9076459B2 (en) * | 2013-03-12 | 2015-07-07 | Intermec Ip, Corp. | Apparatus and method to classify sound to detect speech |
US9524735B2 (en) * | 2014-01-31 | 2016-12-20 | Apple Inc. | Threshold adaptation in two-channel noise estimation and voice activity detection |
EP2928211A1 (en) | 2014-04-04 | 2015-10-07 | Oticon A/s | Self-calibration of multi-microphone noise reduction system for hearing assistance devices using an auxiliary device |
JP6673276B2 (ja) | 2017-03-28 | 2020-03-25 | カシオ計算機株式会社 | 音声検出装置、音声検出方法、及びプログラム |
US10580414B2 (en) * | 2018-05-07 | 2020-03-03 | Microsoft Technology Licensing, Llc | Speaker recognition/location using neural network |
US10726830B1 (en) * | 2018-09-27 | 2020-07-28 | Amazon Technologies, Inc. | Deep multi-channel acoustic modeling |
WO2020180719A1 (en) | 2019-03-01 | 2020-09-10 | Magic Leap, Inc. | Determining input for speech processing engine |
KR20220129034A (ko) * | 2020-01-15 | 2022-09-22 | 구글 엘엘씨 | 작은 풋프린트 멀티-채널 키워드 스포팅 |
US11328733B2 (en) * | 2020-09-24 | 2022-05-10 | Synaptics Incorporated | Generalized negative log-likelihood loss for speaker verification |
-
2020
- 2020-10-22 US US17/077,679 patent/US11380302B2/en active Active
-
2021
- 2021-10-21 WO PCT/US2021/056031 patent/WO2022087251A1/en active Application Filing
- 2021-10-21 CN CN202180086803.1A patent/CN116635935A/zh active Pending
- 2021-10-21 KR KR1020237030445A patent/KR20230134613A/ko active Application Filing
- 2021-10-21 JP JP2023524808A patent/JP7549742B2/ja active Active
- 2021-10-21 EP EP21810193.9A patent/EP4218014A1/en active Pending
- 2021-10-21 KR KR1020237016229A patent/KR102580828B1/ko active IP Right Grant
-
2022
- 2022-06-09 US US17/806,198 patent/US11790888B2/en active Active
-
2023
- 2023-09-21 US US18/471,627 patent/US20240013772A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN116635935A (zh) | 2023-08-22 |
US20220310060A1 (en) | 2022-09-29 |
JP7549742B2 (ja) | 2024-09-11 |
US20220130375A1 (en) | 2022-04-28 |
EP4218014A1 (en) | 2023-08-02 |
KR102580828B1 (ko) | 2023-09-20 |
US11380302B2 (en) | 2022-07-05 |
KR20230134613A (ko) | 2023-09-21 |
KR20230074602A (ko) | 2023-05-30 |
US20240013772A1 (en) | 2024-01-11 |
WO2022087251A1 (en) | 2022-04-28 |
US11790888B2 (en) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12119005B2 (en) | Audio data processing method for wake-up speech detection, apparatus, and storage medium | |
CN108351872B (zh) | 用于响应用户语音的方法和系统 | |
JP7549742B2 (ja) | マルチチャネル音声アクティビティ検出 | |
JP6474762B2 (ja) | 発話者の検証のための動的な閾値 | |
US9293133B2 (en) | Improving voice communication over a network | |
CN112074901A (zh) | 语音识别登入 | |
CN112088315A (zh) | 多模式语音定位 | |
JP2022522748A (ja) | 発話処理エンジンのための入力の決定 | |
JP2016524193A (ja) | 自己生成ウェイク表現の検出 | |
US11756572B2 (en) | Self-supervised speech representations for fake audio detection | |
JP2023531398A (ja) | ホットワードしきい値自動チューニング | |
US12080276B2 (en) | Adapting automated speech recognition parameters based on hotword properties | |
EP4405945A1 (en) | Digital signal processor-based continued conversation | |
JP2024538771A (ja) | デジタル信号プロセッサベースの継続的な会話 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230609 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240805 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240807 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240830 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7549742 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |