JP2021110938A - 平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出 - Google Patents
平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出 Download PDFInfo
- Publication number
- JP2021110938A JP2021110938A JP2020212089A JP2020212089A JP2021110938A JP 2021110938 A JP2021110938 A JP 2021110938A JP 2020212089 A JP2020212089 A JP 2020212089A JP 2020212089 A JP2020212089 A JP 2020212089A JP 2021110938 A JP2021110938 A JP 2021110938A
- Authority
- JP
- Japan
- Prior art keywords
- tdoa
- microphone
- voice
- audio
- calculated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 58
- 230000005236 sound signal Effects 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 56
- 241000726448 Satellite tobacco mosaic virus Species 0.000 claims abstract 7
- 239000006185 dispersion Substances 0.000 claims abstract 3
- 238000012545 processing Methods 0.000 claims description 51
- 239000011159 matrix material Substances 0.000 claims description 39
- 238000013507 mapping Methods 0.000 claims description 7
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims 2
- 230000008569 process Effects 0.000 abstract description 16
- 238000004891 communication Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 8
- 238000003491 array Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 206010019133 Hangover Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/8006—Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
- H04R29/005—Microphone arrays
- H04R29/006—Microphone matching
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/808—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
- G01S3/8083—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2203/00—Details of circuits for transducers, loudspeakers or microphones covered by H04R3/00 but not provided for in any of its subgroups
- H04R2203/12—Beamforming aspects for stereophonic sound reproduction with loudspeaker arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/21—Direction finding using differential microphone array [DMA]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/23—Direction finding using a sum-delay beam-former
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Otolaryngology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
【課題】マルチストリーム音声環境内のターゲット音声信号を検出及び処理するために、マイクロフォンアレイによる計算量が低減されたマルチ音源トラッキング及びマルチストリーム発話区間検出のためのシステム及び方法を提供する。【解決手段】方法は、マルチ音源音声信号をマイクロフォンアレイからのマイクロフォン対によって定義された、多次元空間の内に構築されたTDOA軌跡情報に基づくステアード最小分散(STMV)ビームフォーマーにより、マルチ音源音声信号について算定されたTDOA検出データに基づいて音声トラックを更新し、TDOA検出データに基づいて複数の音声トラックのそれぞれについて発話区間検出(VAD)データを構築し、更新された複数の音声トラック及び構成されたVADデータを用いて1以上の強調されたマルチ音源音声信号を生成する。【選択図】図6
Description
本開示は、1以上の実施形態によれば、一般には、音声処理に関し、より詳細には、例えば、一般的な平面マイクロフォンアレイのための複数音源トラッキング及びマルチストリーム発話区間検出のためのシステム及び方法に関する。
スマートスピーカや、他の音声制御式のデバイス及び電子機器は、近年人気を得ている。スマートスピーカは、環境から音声入力(例えば、ユーザーの口頭のコマンド)を受信するために、マイクロフォンのアレイをしばしば備えている。ターゲット音声(例えば、口頭のコマンド)が音声入力において検出されたときに、スマートスピーカは検出されたターゲット音声を1以上のコマンドに変換し、当該コマンドに基づいて異なるタスクを実行し得る。
これらのスマートスピーカの問題の一つとして、効率的かつ効果的に、ターゲット音声(例えば、口頭のコマンド)を作動環境のノイズや他のアクティブな話者から分離することが挙げられる。例えば、1以上の話者が、1以上のノイズ源の存在下でアクティブになり得る。特定の話者を強調することが目的であるときには、話者はターゲット話者と呼ばれる一方、残りの話者は干渉源と看做すことが出来る。既存の話者強調アルゴリズムは、主として、独立成分分析(independent component analysis)(ICA)に関連するブラインド音源分離(blind source separation)(BSS)法や、空間フィルタリング又はビームフォーミング法のような、複数の入力チャンネル(マイクロフォン)を用いて音源の空間情報を活用する。
BSS法は、しかしながら、第1にはバッチ処理のためにデザインされたものであり、反応の遅延が大きいため、しばしば実際の応用には望ましくない、あるいは適用できない場合さえあり得る。空間フィルタリング又はビームフォーミング法は、一方で、最小化されるべきコスト関数としての発話区間検出(voice activity detection)(VAD)の下での監視をしばしば必要とするが、これは、ノイズ/干渉のみの区分に属する共分散行列の推定に過度に依存し得る。
そのため、マルチストリーム音声環境内のターゲット音声信号を検出及び処理するために、改善されたシステム及び方法が必要とされている。
以下の図面及び後述の詳細な説明を参照することで、本開示の態様とその利点がより良く理解され得る。同様の参照番号が、1以上の図面で示される同様の要素を識別するために用いられるが、その図示は本開示の実施形態を示すことを目的としているのであって、これを限定することを目的としていないことが理解されなくてはならない。図中の構成要素は必ずしも正寸ではなく、代わりに、本開示の原理を明確に示すことに重点が置かれている。
本開示は、マルチストリーム音声環境内のターゲット音声信号を検出及び処理するために、改善されたシステム及び方法を提供する。
発話区間検出(VAD)は、複数の入力チャンネルから得られた音源の空間情報を利用する処理でのターゲット音声の発話強調を監視するために用いられ得る。VADは、所望の話者がアクティブになったときに、ノイズ/干渉の影響が実質的にゼロにし得るように、所望の話者が沈黙している期間の間に干渉/ノイズ源の空間的な統計値をもたらす場合がある。例えば、各音源のVADは、いつ既存の追跡の近辺に検出があったかを決定することによってVADの検出の履歴を利用することで、音源の到達時差(TDOA)又は到達方向(Direction of Arrival)(DOA)の形での空間情報を追跡すると推測し得る。この処理は、一般に、測定値から追跡(Measurement−to−Track)(M2T)問題として知られている。このようにして、目的の音源すべてについて、複数のVADが推定され得る。
具体的には、既存のDOA法は、通常、方位角及び仰角の閉形式マッピングに基づいて、マイクロフォンのアレイ全体について単一のステアリングベクトルを構築する。この方法は、線形又は円形のアレイの特別な配置を利用するために用いることが出来る。このようなDOA法は、マイクロフォンアレイの一般又は任意の配置に拡張することが出来ない。さらに、これらの閉形式マッピングに基づくDOA法は、しばしば多次元空間での広範囲な検索を必要とする。任意の配置については、既存のTDOAベースの方法を用いることが出来る。この方法は、特定のアレイの配置に限定されない場合があり、多次元のTDOAベクトル(各ペアについて1次元)を形成する各マイクロフォン対についてのステアリングベクトルを複数構築する場合がある。しかしながら、これらの既存の方法は、各TDOA対のスペクトラムにおけるピークが交差する交点によって形成されるTDOAゴーストを誘発するリスクを含む。その結果、特定のアレイ配置を含むTDOAゴーストを除去するために更なる後処理が、しばしば必要となる。
特定のアレイの配置に制約されないマルチストリームVADの必要性に鑑みて、本明細書で説明される実施形態は、一般のアレイの配置(例えば、平面上に配置されたマイクロフォンアレイ)に適用可能なマルチ音源TDOAトラッキングとVADメカニズムとの組合せを提供する。マルチ音源TDOAトラッキングとVADメカニズムとの組合せは、TDOAの検索を各次元について別々に実行することで、従来のTDOAに通常含まれる計算の数を低減する場合がある。
いくつかの実施形態では、不要なゴーストTDOAを回避する、平面上に配置された一般のアレイの配置のための多次元TDOA法が採用される。一実施形態では、一般的に構成されたマイクロフォンのデカルト座標が取得される。マイクロフォンの一つは、基準マイクロフォンとして選択される場合がある。マイクロフォンの方位角及び仰角が、スキャンされる場合があり、これに基づいて、物理的に可能なTODAの平面軌跡が、複数のマイクロフォン対の多次元TDOA空間上に形成可能となる。このように、形成された平面軌道によりゴーストTDOAを回避され、そのため、ゴーストTDOAを取り除くための更なる後処理は不要となる。さらに、完全にDOAスキャンする方法と比べて、本明細書で開示される多次元TDOA法は、完全な多次元空間上で検索するのではなく、対のTDOA領域上で各次元に関して別々に検索を実行することで、計算の複雑さを低減する。
図1は、本開示の様々な実施形態に係る音声処理システムが作動し得る、例示的な作動環境100を示す。作動環境100は、音声処理デバイス105、ターゲット音源110、及び、1以上のノイズ源135−145を含む。図1で示された例では、作動環境100は部屋として示されている。しかし、作動環境は、車内、オフィスの会議室、家庭の部屋、屋外のスタジアム、又は、空港といった他の場所を含み得ると考えられる。本開示の様々な実施形態において、音声処理デバイス105は、2以上の音声感知コンポーネント(例えば、マイクロフォン)115a―115dと、オプションとして、1以上の音声出力コンポーネント(例えば、スピーカ)120a―120bと、備える場合がある。
音声処理デバイス105は、音声感知コンポーネント115a―115dにより音を感知し、2以上の音声入力信号を含むマルチチャンネル音声入力信号を生成するように構成されている場合がある。音声処理デバイス105は、本明細書で開示される音声処理技術を用いて音声入力信号を処理して、ターゲット音源110から受信した音声信号を強調する場合がある。例えば、処理された音声信号は、発話認識エンジン、又は、音声コマンドプロセッサといった音声処理デバイス105内の他の構成要素、あるいは、外部デバイスに伝達される場合がある。従って、音声処理デバイス105は、音声信号を処理するスタンドアローンのデバイス、又は、外部デバイスと情報交換あるいは制御するために、処理された音声信号を他の信号(例えば、コマンド、命令、等)に変換するデバイス、である場合がある。他の実施形態では、音声処理デバイス105は、携帯電話やボイスオーバーIP(voice−over−IP)(VoIP)が使用可能なデバイス、といった通信デバイスである場合がある。そして、処理された音声信号は、遠隔のユーザーに対して出力するために、ネットワークを介して他のデバイスに伝達される場合がある。通信デバイスは、処理された音声信号を遠隔のデバイスから更に受信し、処理された音声信号を音声出力コンポーネント120a―120bを用いて出力する場合がある。
ターゲット音源110は、音声処理デバイス105に検出可能な音を生成する如何なる音源であっても良い。システムに検出されるべきターゲット音声は、ユーザー又はシステムの要求によって指定される基準に基づいて定義され得る。例えば、ターゲット音声は、人間の発話、特定の動物又は機械によって作られた音、として定義され得る。図示の例では、ターゲット音声は人間の発話として定義され、ターゲット音源110は人間である。ターゲット音源110に加え、作動環境100は1以上のノイズ源135−145を含む場合がある。様々な実施形態では、ターゲット音声ではない音はノイズとして処理され得る。図示の例では、ノイズ源135−145は、音楽を流すラウドスピーカ135、テレビ番組・映画若しくはスポーツイベントを流すテレビ140、及び、ターゲットでない話者145間での背景の会話、を含み得る。様々な作動環境において、他のノイズ源が存在し得ることが理解されよう。
なお、ターゲット音声及びノイズが、音声処理デバイス105の音声感知コンポーネント115a―115dに異なる方向から、異なる時刻に到達し得る。例えば、ノイズ源135−145は、作動環境100内の異なる位置でノイズを生じる場合がある。そして、ターゲット音源(人間)110は、作動環境100内の複数の位置間で移動しながら発話する場合がある。さらに、ターゲット音声、及び/又は、ノイズは作動環境100内の設備(例えば、壁)で反射する場合がある。例えば、ターゲット音声がターゲット音源110から音声感知コンポーネント115a―115dのそれぞれに進み得る経路を考える。矢印125a―125dで示すように、ターゲット音声はターゲット音源110から各音声感知コンポーネント115a―115dのそれぞれにまで、直接進む場合がある。さらに、ターゲット音声は、矢印130a―130bで示すように、壁150a及び150bに反射して、ターゲット音源110から音声感知コンポーネント115a―115dに間接的に到達する場合がある。様々な実施形態では、音声処理デバイス105は、部屋のインパルス応答を推定及び適用し、さらに、ターゲット音声を強調してノイズを抑制するために、1以上の音声処理技術を用いる場合がある。
図2は、本開示の様々な実施形態に係る、例示的な音声処理デバイス200を示す。いくつかの実施形態では、音声処理デバイス200は、図1の音声処理デバイス105として実装される場合がある。音声処理デバイス200は、音声センサアレイ205と、音声信号プロセッサ220と、ホストシステムコンポーネント250と、を備える。
音声センサアレイ205は、それぞれが音波の形態の音声入力を音声信号に変換するトランスデューサとして実装され得る、2以上のセンサを備える。図示された環境では、音声センサアレイ205は、それぞれが音声信号プロセッサ220の音声入力回路部222に供給される音声入力信号を生成する、複数のマイクロフォン205a―205nを備える。一実施形態では、音声センサアレイ205は、各チャンネルがマイクロフォン205a―nのうちの一つからの音声入力信号に対応するマルチチャンネル音声信号を生成する。
音声信号プロセッサ220は、音声入力回路部222と、デジタルシグナルプロセッサ224と、オプションで音声出力回路部226と、を備える。様々な実施形態では、音声信号プロセッサ220は、アナログ回路部と、デジタル回路部と、ファームウェアに記憶されたプログラムの命令を実行するように作動可能であるデジタルシグナルプロセッサ224と、を備える集積回路として実装され得る。音声入力回路部222は、例えば、音声センサアレイ205へのインターフェースと、アンチエイリアシングフィルタと、アナログデジタルコンバータ回路部と、エコー消去回路部と、他の音声処理の回路部及びコンポーネントを備える場合がある。デジタルシグナルプロセッサ224はマルチチャンネルのデジタル音声信号を処理して、1以上のホストシステムコンポーネント250に出力される強調された音声信号を生成するように作動可能である。様々な実施形態では、デジタルシグナルプロセッサ224は、エコー消去、ノイズ消去、ターゲット信号強調、ポストフィルタリング、及び、他の音声信号処理機能、を実行するように作動可能である場合がある。
オプションの音声出力回路部226は、スピーカ210a及び210bのような少なくとも1個のスピーカに出力するために、デジタルシグナルプロセッサ224から受信した音声信号を処理する。様々な実施形態では、音声出力回路部226は、1以上のデジタル音声信号をアナログに変換するデジタルアナログコンバータと、スピーカ210a―210bを駆動する1以上のアンプと、を含む場合がある。
音声処理デバイス200は、例えば、携帯電話、スマートスピーカ、タブレット、ラップトップコンピュータ、デスクトップコンピュータ、音声制御式の機器、又は、自動車のような、ターゲット音声のデータを受信及び強調するように作動可能な如何なるデバイスとして実装され得る。ホストシステムコンポーネント250は、音声処理デバイス200を作動させるための、ハードウェア及びソフトウェアの様々なコンポーネントを備える場合がある。図示された実施形態では、ホストシステムコンポーネント250は、プロセッサ252と、ユーザインターフェースコンポーネント254と、外部デバイス及びネットワーク280(例えば、インターネット、クラウド、ローカルエリアネットワーク、又は、電話回線網)のようなネットワークと通信する通信インターフェース256と、モバイルデバイス284と、メモリ258と、を備える。
プロセッサ252及びデジタルシグナルプロセッサ224は、プロセッサ、マイクロプロセッサ、シングルコアのプロセッサ、マルチコアのプロセッサ、マイクロコントローラ、プログラマブル論理回路(programmable logic device)(PLD)(例えば、フィールドプログラマブルゲートアレイ(field programmable gate array)(FPGA))、デジタル信号処理(digital signal processing)(DSP)デバイス、又は、他の論理デバイスのうちの1以上を備える場合がある。ここで他の論理デバイスは、ハードウェアにより、ソフトウェアを実行することにより、又は、これら両方の組合せにより、本開示の実施形態において本明細書で議論される様々な処理を実行するように構成され得る。ホストシステムコンポーネント250は、例えばバス又は他の電子的な通信インターフェースを通して、音声信号プロセッサ220及び他のホストシステムコンポーネント250と接続及び通信するように構成される。
音声信号プロセッサ220及びホストシステムコンポーネント250は、ハードウェアコンポーネント、回路部、及び、ソフトウェアを組合せたものを組み込んでいるとして示されている。しかし、いくつかの実施形態では、実行するように作動可能なハードウェアコンポーネント及び回路部の機能のうち少なくともいくつか、あるいは全ては、プロセッサ252及び/又はデジタルシグナルプロセッサ224によって、メモリ258又はデジタルシグナルプロセッサ224のファームウェアに記憶されたソフトウェアの命令及び/又は設定データに応答して実行可能なソフトウェアのモジュールとして実装されうることが理解されよう。
メモリ258は、音声データとプログラムの命令を含むデータ及び情報を記憶するように作動可能な1以上のメモリデバイスとして実装され得る。メモリ258は、RAM(Random Access Memory)、ROM(Read−Only Memory)、EEPROM(Electrically−Erasable Read−Only Memory)、フラッシュメモリ、ハードディスクドライブ、及び/又は、他の種類のメモリ、といった揮発性及び不揮発性のメモリデバイスを含む、1以上の様々な種類のメモリデバイスを備える場合がある。
プロセッサ252は、メモリ258に記憶されたソフトウェアの命令を実行するように作動可能である場合がある。様々な実施形態では、発話認識エンジン260は、音声信号プロセッサ220から受信した強調された音声信号を処理するように作動可能である。この処理は、音声コマンドを識別及び実行することを含む。音声通信コンポーネント262は、モバイルデバイス284又はユーザーデバイス286のような1以上の外部デバイスとの、モバイルフォン又はセルラーフォンの通信網又はIPネットワーク間のVoIP通話を用いた通話のような音声通信を容易にするように作動可能な場合がある。様々な実施形態では、音声通信は、強調された音声信号を外部の通信デバイスに伝達することを含む。
ユーザインターフェースコンポーネント254は、ディスプレイ、タッチパッドディスプレイ、キーパッド、1以上のボタン、及び/又は、ユーザーに音声処理デバイス200と直接にやり取りすることを可能にするように作動可能な他の入力/出力コンポーネントを含む場合がある。
通信インターフェース256は、音声処理デバイス200と外部デバイスとの間の通信を容易にする。例えば、通信インターフェース256は、音声処理デバイス200と、1以上のローカルデバイスと、の間の(例えば、802.11の)Wi−Fi(登録商標)、又は、ブルートゥース(登録商標)による接続を可能にする場合がある。ここで1以上のローカルデバイスは、例えば、モバイルデバイス284、又は、リモートサーバ282に(ネットワーク280を介するような)ネットワークアクセスを提供するワイヤレスルータ、といったものである。様々な実施形態では、通信インターフェース256は、音声処理デバイス200と1以上の他のデバイスの間の直接又は間接の通信を容易にする、他の有線又は無線の通信コンポーネントを含み得る。
図3は、本開示の様々な実施形態に係る、例示的な音声信号プロセッサ300を示す。いくつかの実施形態では、音声信号プロセッサ300は、アナログ及びデジタル回路部と、図2の音声信号プロセッサ220のようなデジタルシグナルプロセッサによって実装されたファームウェアロジックと、を含む1以上の集積回路として具体化される。図示されているように、音声信号プロセッサ300は、音声入力回路部315と、サブバンド周波数解析器320と、マルチトラックVADエンジン325と、音声強調エンジン330と、シンセサイザ335と、を備える。
音声信号プロセッサ300は、少なくとも2個の音声センサ305a―nを備えるセンサアレイ305のような、複数の音声センサからマルチチャンネル音声入力を受信する。音声センサ305a―305nは、例えば、図2の音声処理デバイス200のような音声処理デバイス、又は、それに接続された外部コンポーネントと統合された複数のマイクロフォンを含み得る。音声センサ305a―305nの配列は、本開示の様々な実施形態により、音声信号プロセッサ300にとって既知であっても未知であっても良い。
音声信号は、アンチエイリアシングフィルタ、アナログデジタルコンバータ、及び/又は、他の音声入力回路を備える場合がある音声入力回路部315によって最初に処理される場合がある。様々な実施形態では、音声入力回路部315は、デジタルで、マルチチャンネルな、時間領域の音声信号を出力する。ここで、Mはセンサ(例えば、マイクロフォン)入力の数である。マルチチャンネル音声信号は、当該マルチチャンネル音声信号を連続する複数のフレームに分割し、各チャンネルの各フレームを複数の周波数サブバンドに分解するサブバンド周波数解析器320に入力される。様々な実施形態では、サブバンド周波数解析器320は、フーリエ変換処理を含み、複数の周波数ビンを出力する。分解された音声信号は、その後、マルチトラックVADエンジン325と、音声強調エンジン330と、に供給される。
マルチトラックVADエンジン325は、1以上の音声トラックのフレームを解析し、ターゲット音声アクティビティが現在のフレーム内に存在するかを示すVAD出力を生成するように作動可能である。上記で議論したように、ターゲット音声は、音声システムによって認識されるべき如何なる音声であっても良い。ターゲット音声が人間の発話であるときには、マルチトラックVADエンジン325は、特に発話アクティビティの検出のために実装され得る。様々な実施形態では、マルチトラックVADエンジン325は、音声データのフレームを受信し、音声データのフレームに対応するそれぞれの音声トラックにおけるターゲット音声の存在又は非存在に関するVAD指標出力を各音声トラックについて生成するように作動可能である。マルチトラックVADエンジン325の詳細な構成要素及び処理は、図4の400に関連して更に示される。
音声強調エンジン330は、サブバンドフレームをサブバンド周波数解析器320から、VAD指標をマルチトラックVADエンジン325から、受信する。本開示の様々な実施形態において、音声強調エンジン330は受信したマルチトラックVAD指標に基づいてサブバンドフレームを処理して、マルチトラック音声信号を強調するように構成されている。例えば、音声強調エンジン330は、音声信号のうちターゲット音源の方向からと決定された部分を強調し、音声信号のうちノイズであると決定された他の部分を抑制する場合がある。
ターゲット音声信号を強調した後、音声強調エンジン330は処理された音声信号をシンセサイザ335に渡す場合がある。様々な実施形態では、シンセサイザ335は、サブバンドを組み合わせることで、1以上のマルチチャンネル音声信号をフレーム毎に再構成して、時間領域の強調された音声信号を形成する。強調された音声信号はその後、再び時間領域に変換され、さらなる処理のためにシステムの構成要素又は外部デバイスに送られる。
図4は、本開示の様々な実施形態に係る、一般のマイクロフォンアレイから複数の音声信号を処理するための例示的なマルチトラックVADエンジン400を示す。マルチトラックVADエンジン400は、デジタル回路部とデジタルシグナルプロセッサによって実行されるロジックの組合せとして実現され得る。いくつかの実施形態では、マルチトラックVADエンジン400は、図3の300のような音声処理プロセッサにインストールされている場合がある。マルチトラックVADエンジン400は、図3のマルチトラックVADエンジン325に、構造的、及び、機能的な詳細を更に提供し得る。
本開示の様々な実施形態では、マルチトラックVADエンジン400は、サブバンド解析モジュール405、ブロックベースTDOA推定モジュール410、TDOA軌跡算定モジュール420、及び、マルチ音源トラッキング及びマルチストリームVAD推定モジュール430を備える。
サブバンド解析モジュール405は、複数の音声信号402を受信する。音声信号402は、xm(t)、m=1、…、M、で示され、時間領域でサンプルされた、全部でM個のマイクロフォン(例えば、図3の音声センサ305a−nと同様)のうちm番目のマイクロフォンで録音された音声信号である。音声信号xm(t)、m=1、…、Mは、図3の音声入力回路部315を介して受信される場合がある。
サブバンド解析モジュール405は、音声信号402を取得し、音声信号402を時間周波数領域表現404に変換するように構成されている。時間周波数領域表現404は、オリジナルの時間領域の音声信号xm(t)に対応して、Xm(l,k)で表される。ここで、lはサブバンド時間のインデックスを示し、kは周波数バンドのインデックスを示す。例えば、サブバンド解析モジュール405は、フーリエ変換を実行して入力された時間領域の音声信号を周波数領域表現に変換する図3のサブバンド周波数解析器320と同様である場合がある。サブバンド解析モジュール405は、その後、生成された時間周波数領域表現404をブロックベースTDOA推定モジュール410と、マルチ音源トラッキング及びマルチストリームVAD推定モジュール430と、に送ることがある。
TDOA軌跡算定モジュール420は、一般のマイクロフォンアレイ(例えば、一般のアレイ配置を形成する音声センサ305a−n)をスキャンするように構成されている。例えば、平面上のマイクロフォンアレイの所与の任意の配置について、許容可能なTDOAの位置の軌跡が、システム起動時に一度算定される。このポイントの軌跡により、ゴーストの形成を回避することが出来る。
M個のマイクロフォンの配列について、第1マイクロフォンが基準マイクロフォンとして選択される場合がある。これにより、すべてが第1マイクロフォンに関連する、M−1対のマイクロフォン対が順次に得られる。例えば、図5Aは、例示的なマイクロフォン対を示す。マイクロフォン対は、i−1番目の対としてインデックスが付されるが、遠方の音源(遠方場モデルを想定)から放出された方位角θ及び仰角ゼロの入射レイ505について、i番目のマイクロフォン502と1番目の基準マイクロフォン501が含まれる。501及び502のマイクロフォン対の間の距離は、2つのマイクロフォン間の角度と共に、di−1と、ψi−1と、でそれぞれに表される。これらは、i番目のマイクロフォン502のデカルト座標が与えられれば算定可能である。入射レイ505が方位角θと仰角φの角度を有する一般的なケースでは、(i−1)番目のマイクロフォン対のTDOAは、
として算定可能である。ここで、cは伝播速度である。
異なる方位角及び仰角をスキャンした後、TDOA軌跡算定モジュール420は、許容可能なTDOAのメッシュを構築する場合がある。M個のマイクロフォンの全てがある平面上に位置する場合、結果のTDOA軌跡(θ及びφの全てのスキャンについて、
となる)もまた(M−1)次元空間上のある平面上に位置する。M個のマイクロフォンの配置が異なると、(M−1)次元空間上の平面が異なることになる。
例えば、図5Bでは、異なる2つの例示的なマイクロフォンの配置が、それぞれのTDOAメッシュと共に示されている。M=4個のマイクロフォンのセットが、510で示されている。ここで、第1マイクロフォンと第3マイクロフォンの間の距離は8cmであり、許容可能なTDOAのメッシュの結果は、515で示されているM−1=3次元空間である。520で示されているように第1マイクロフォンと第3マイクロフォンの距離が16cmに増えた場合に許容可能なTDOAのメッシュの結果は、525で示される。
図4に戻って、TDOA軌跡算定モジュール420は、その後、(M−1)次元のTDOA403をブロックベースTDOA推定モジュール410に送る場合がある。ブロックベースTDOA推定モジュール410は、マルチ音源音声の時間周波数表現404と、TDOA403と、を受信する。TDOA推定モジュール410は、マルチ音源音声の時間周波数表現404と、TDOA403と、に基づいて、連続するフレームから取得したデータを用いてソースのマイクロフォン(例えば、図3の音声センサ305a−n)のTDOA情報を抽出する。
一実施形態では、ブロックベースTDOA推定モジュール410は、TDOA情報をマルチ音源音声の時間周波数領域表現404からTDOA情報を取得するために、ステアード最小分散(steered minimum variance)(STMV)ビームフォーマーを用いる。より詳しくは、ブロックベースTDOA推定モジュール410はあるマイクロフォンを基準マイクロフォンとして選択し、そして、残りのM−1個のマイクロフォンと基準マイクロフォンとをペアリングすることにより、総数M−1対のマイクロフォン対を指定する場合がある。マイクロフォン対は、p=1、…、M−1でインデックスが付される。
例えば、第1マイクロフォンが基準マイクロフォンとして選択され、これに応じて、X1(l,k)が基準マイクロフォンからの音声の時間周波数表現を示す場合がある。p番目のマイクロフォンの対について、ブロックベースTDOA推定モジュール410はp番目の対の周波数表現を、行列形式の
として算定する。ここで、( )Tは転置を示す。ブロックベースTDOA推定モジュール410は、そして、各周波数バンドkについてp番目の入力信号対を
で算定する。ここで、( )Hはエルミート転置を示す。
いくつかの実装では、Rp(k)の算定における加算は、特定の数の連続するフレームのブロックにわたって行われる。簡潔にするために、ここではブロックのインデックスは省略されている。
ブロックベースTDOA推定モジュール410は、続いて、各対と周波数バンドについてのステアリング行列を以下のように構築する場合がある。
ここで、τpは、θとφ(簡潔にするために省略)の異なるスキャンの後にTDOA軌跡算定モジュール420から取得したp番目の対についてのTDOAである。fkはkのバンドにおける周波数である。diag([a,b])は対角要素がa及びbである2×2の対角行列を示す。
方位共分散行列Cp(τp)の算定は、マイクロフォン対p全体、及び、τpについての方位角/仰角(θ,φ)のスキャン全てにわたって繰り返される。全てのスキャンにわたる計算量を低減するために、p番目のマイクロフォン対に対応するp次元それぞれのTDOA空間は、q個のセグメントに線形量子化される。処理の開始時(システムの起動時)において、方位角及び仰角(θ,φ)のそれぞれのスキャンニングから取得したTDOA軌跡ポイントである
は、各次元について量子化された最も近いポイントにマップされる。方位角/仰角(θ,φ)について、
のマッピングがメモリにセーブされる。ここで、
は、角度θ及びφのスキャンニングに係るp次元の量子化されたTDOAのインデックスである。
例えば、M=4個のマイクロフォンが存在し、方位角と仰角のスキャンがそれぞれ
であるとする。実行される必要があるCp(τp)の個別の計算の数は、
である。TDOA軌跡ポイントである
が量子化されたときには、TDOAの次元のうちいくつかがq個の量子化されたセグメントの中で同じセグメントに量子化され得るため、全ての計算を実行する必要があるわけでは無い。そのため、q=50の例では、Cp(τp)を算定するために必要となる個別の計算の最大数は、
に低減される。TDOA量子化を含むCp(τp)の算定を実行するための疑似コードは、次のアルゴリズム1としてあらわされる場合がある。
次に、対pのそれぞれについて、無歪の基準に従って、その同等の疑似尤度解でビームのパワーを最小化する方向は、次のように算定される。
ここで、
である。ブロックベースTDOA推定モジュール410は、その後、マイクロフォンのM−1個の全ての対について、STMV結合疑似尤度を次のように算定し得る。
M−1個の対の最大STMV結合疑似尤度をもたらす方位角及び仰角が、その後、次のように同定される。
方位角及び仰角である
が、その後、マルチ音源トラッキング及びマルチストリームVAD推定のために用いられる場合がある。可能な解法の一つは、各マイクロフォン対の2つのマイクロフォンの間の角度を直接にトラッキングすることを含む場合がある。しかしながら、360度の方位角のラップアラウンド効果によって、対にされたマイクロフォンの間の角度を直接にトラッキングしたときには、マイクロフォンの音源が0°を360°に向かって横切る場合、及び、逆の場合、トラックロスが生じる場合がある。そこで、そのような混乱を避けるために、対にされたマイクロフォンの間の角度に基づいて、次の極座標変換を用いて検出zが循環的に算定される。
ここで、
はスケーリング定数である。スケーリング定数は、測定空間を拡張して、トラッキングを角度のような有意な概念に係るパラメータで実行できるようにする場合がある。
ブロックベースTDOA推定モジュール410は、その後、算定された検出zをマルチ音源トラッキング及びマルチストリームVAD推定モジュール430に送る。トラックの最大数である
が存在する場合には、ブロックベースTDOA推定モジュール410から取得されたTDOAは、先行するステップから取得されたトラックを再帰的に更新することでトラックされる。詳細には、ブロック(時間ステップ)n−1において取得された検出がzn−1で表され、それまでにtn−1個のトラックが存在する場合、時間ステップnにおいて出現する新たな検出zn406について、マルチ音源トラッキング及びマルチストリームVAD推定モジュール430が新たな検出znを既存のトラックのゲートに基づいて以下のように処理する。
znが、先行のtn−1個のうち1個のトラックのゲートに含まれる場合には、その特定のトラックが、検出znを組込むために更新される。
znが、先行する(複数の)tn−1個のトラックの重複するゲートに含まれる場合には、検出znを組込むために、検出znに最も近いトラックが更新される。
znが、先行のtn−1個のトラックのゲートの何れにも含まれず、トラックの最大数である
が到達しない(例えば、
)場合には、そして、検出znを組込むために新たなトラックが開始され、既存のトラックの数が時間ステップn(例えば、tn=tn−1+1)で更新される。
znが、先行のtn−1個のトラックのゲートの何れにも含まれず、トラックの最大数である
が到達する(例えば、
)場合には、既存の
個のトラックのうちパワーが最小であるトラックがキルされ、検出znを組込むために、新たなトラックに置換えられる。
他の全てのトラックは(先行するステップと同様に)更新、開始、又は、置き換えられていないため、次に、これらのトラックは同じ平均値で更新される。しかし、不確実性を計算に入れるために、例えば、ランダムウォークモデルに基づいて、各トラックのそれぞれの分散は増加する。将来に出現する音源が開始される機会があるように、それぞれのトラックのパワーもまた減衰される。このように、時間ステップnにおいて最新の検出406を組込んだトラッキング結果408が、モジュール430に出力され得る。トラッキング結果408は、
によって示される。
全ての音声トラックが更新されたときには、モジュール430は、最近傍のM2T割当てを用いて、マルチストリームVAD412を生成する。詳細には、時間ステップnにおいて、M2T割当ては、検出znに最も近いトラックに1を割当て、他のトラックに0を割当てることで実行される場合がある。いくつかの実装では、前の時間ステップにおいて1になった後にゼロが完全に割り当てられるより前に中間値(例えば、−1)を取るように、VADにハングオーバーが適用される場合がある。このようにして、それぞれのトラック内で発話アクティビティが検出されたかをそれぞれに示す、
として表されるマルチストリームVAD412は、音声強調のためにモジュール430から、例えば、図3の音声強調エンジン330へと出力される。
図6は、本開示の様々な実施形態に係る、マルチ音源トラッキング及びVADによりマルチ音源音声信号を強調するための例示的な方法600を示す。いくつかの実施形態では、方法600は、音声信号プロセッサ300の1以上のコンポーネントによって、及び/又は、マルチトラックVADエンジン400の1以上のコンポーネントによって実行される場合がある。
方法600は、マイクロフォンアレイの空間情報に基づいてTDOA軌跡情報が算定され得るステップ602で開始される。例えば、TDOA軌跡情報は、マイクロフォンアレイを様々な方位角及び入射角を有する入射レイでスキャンすることにより、システムの起動時に一度算定される場合がある。算定は、図7を参照してさらに説明するように、マイクロフォンアレイからのマイクロフォンを対にすることで構築された多次元空間において、計算の複雑さが低減された状態で実行される得る。
ステップ602についてさらに詳細なステップを提供する図7を参照して、ステップ702において、マイクロフォンアレイから第1マイクロフォンが基準マイクロフォンとして選択される場合がある。ステップ704において、マイクロフォンアレイの残るマイクロフォンが、それぞれ基準マイクロフォンと対にされる場合がある。ステップ706において、各マイクロフォン対について、入射レイの特定の方位角及び特定の仰角に対応するTDOA位置が、(例えば、図4を参照して説明された式(1)により)それぞれの対の中の2個のマイクロフォン間の距離及び角度に基づいて算定される場合がある。入射レイの特定の方位角及び特定の仰角を有する例示的なマイクロフォン対が、図5Aにおいても示されている。
ステップ708において、処理されるべき更なるマイクロフォン対が存在する場合、本方法は、ステップ710において次のマイクロフォン対を抽出し、全てのマイクロフォン対についてのTDOA位置が算定されるまで、ステップ706を繰り返す。
ステップ712において、方位角及び仰角の更なるスキャンが存在する場合、本方法はステップS714において方位角及び仰角の次のスキャンを抽出し、方位角及び仰角の全てのスキャンについてTDOA位置が算定されるまでステップ706を繰り返す。
ステップ712において、(例えば、全てのマイクロフォン対について方位角及び仰角のスキャン全体にわたってTDOA位置が算定されたといったように)処理されるべき更なる方位角/仰角のスキャンが存在しない場合、ステップ716においてTDOA位置ポイントのメッシュが形成され得る。マイクロフォンアレイの異なる配置に対応するTDOA位置ポイントの例示的なメッシュが、図5Bで示されている。
図6に戻って、システム起動時にTDOA位置情報を算定すると、方法600はステップ604に移行する。ステップ604において、1以上のマルチ音源音声信号がマイクロフォンアレイから受信される場合がある。例えば、図4のマルチ音源音声402の時間領域上のサンプルが、図3の音声入力回路部315を介して受信される。
ステップ606において、1以上のマルチ音源音声信号が時間領域から時間周波数表現に変換される場合がある。例えば、図4に関連して説明したように、サブバンド解析モジュール405は時間領域信号を時間周波数表現に変換する場合がある。
ステップ608において、算定されたTDOA軌跡に基づいて、STMVビームフォーマーにより、1以上のマルチ音源音声信号についてTDOA検出データが算定される場合がある。例えば、各マイクロフォン対について、それぞれのマイクロフォン対からの1以上のマルチ音源音声信号の時間周波数表現を用いて、全ての周波数バンドの共分散行列が(例えば、図4に関連して説明された式(2)により)算定される場合がある。そして、それぞれのマイクロフォン対に対応する方位角及び仰角の異なるスキャンについてのTDOA位置に基づいて、ステアリング行列が全ての周波数バンドについて(例えば、図4に関連して説明された式(3)により)構築される場合がある。方位共分散行列が、構築されたステアリング行列及び算定された共分散行列に基づいて、全ての周波数バンドにわたって(例えば、図4に関連して説明された式(4)により)整列されて構築される場合がある。ビームのパワーを最小化する疑似尤度解が、構築された方位共分散行列に基づいて、(例えば、図4を参照して説明された式(5)により)決定される場合がある。そして、SMTV結合疑似尤度が、全てのマイクロフォン対にわたって決定された全ての疑似尤度解の積をとることで(例えば、図4を参照して説明された式(6)により)算定される場合がある。STMV結合疑似尤度を最大化する方位角及び仰角の対が、(例えば、図4を参照して説明された式(7)により)決定される場合がある。決定された方位角及び仰角の対は、(例えば、図4を参照して説明された式(8)により)TDOA検出データを示す極座標表現に変換される場合がある。
ステップ610において、複数の音声トラックが更新される場合があり、現在の時間ステップまでに算定されたTDOA検出データに基づいて、VADデータが構築される場合がある。例えば、現在の時間ステップに対応するTDOA検出と、現在の時間ステップまでに先行して確立された既存の音声トラックのセットと、が同定される場合がある。そして、方法600は、TDOA検出を既存の音声トラックの一つに組み込むか、新たな音声トラックを構築するかを、TDOA検出と既存の音声トラックのゲートの比較に基づいて(図4のモジュール430に関連して説明されたように)決定する場合がある。他の例として、方法600は、それぞれの音声トラックがTDOA検出に最も近いときに、それぞれの音声トラックのVADに第1の値を割当て、他の音声トラックのVADに第2の値を割当てる場合がある(図4のモジュール430に関連して説明されたように)。
ステップ612において、更新された複数の音声トラック及び構築されたVADデータを用いて、1以上の強調されたマルチ音源音声信号が生成される場合がある。例えば、強調されたマルチ音源信号は、次に、様々なデバイス又はコンポーネントに伝達される場合がある。例えば、強調されたマルチ音源信号はパケット化され、ネットワークを超えて他の音声出力デバイス(例えば、スマートフォン、コンピュータ等)に伝達される場合がある。強調されたマルチ音源信号は、更なる処理のために、自動化された発話認識コンポーネントのような声処理回路部にもまた伝達される場合がある。
前述の開示は、開示された正確な形態または特定の使用分野に本発明を限定することを意図したものでは無い。したがって、本開示に照らして、本明細書で明示的に説明された又は暗示されたかにかかわらず、本開示について様々な代替の実施形態、及び/又は、変形例が可能であると考えられる。例えば、本明細書で説明された実施形態は、ヒューマン・マシンインタラクションのタスクを管理する目的で、複数の音源の環境内での位置を提供されるために(例えば、ビデオストリーム、3Dカメラ、Lidar、等のような他の様式からの追加情報と組み合わせたアプリケーションで)用いられる場合がある。ここまで本開示の実施形態を説明したが、当業者は従来のアプローチに対する利点を認識し、本開示の範囲から逸脱することなく、形態および詳細が変更可能であることを認識するだろう。したがって、本開示は、特許請求の範囲によってのみ限定される。
Claims (20)
- マルチ音源トラッキング及び発話区間検出によりマルチ音源音声を強調するための方法であり、
音声入力回路部を介して、1以上のマルチ音源音声信号をマイクロフォンアレイから受信することと、
前記マイクロフォンアレイからのいくつかのマイクロフォン対によって定義された多次元空間の内に構築されたTDOA軌跡情報に基づくステアード最小分散(STMV)ビームフォーマーにより、前記1以上のマルチ音源音声信号についてTDOA検出データを算定することと、
現在の時間ステップまでに算定された前記TDOA検出データに基づいて、複数の音声トラックを更新することと、
算定された前記TDOA検出データに基づいて、前記複数の音声トラックのそれぞれについて発話区間検出(VAD)データを構築することと、
更新された前記複数の音声トラック及び構成された前記VADデータを用いて、1以上の強調されたマルチ音源音声信号を生成することと、
を含む方法。 - 前記マイクロフォンアレイからのいくつかのマイクロフォン対によって定義された前記多次元空間が、
前記マイクロフォンアレイから第1マイクロフォンを基準マイクロフォンとして選択することと、
前記マイクロフォンアレイの残るマイクロフォンのそれぞれを前記基準マイクロフォンと対にすることと、
によって形成される、
請求項1の方法。 - 前記TDOA軌跡情報が、
各マイクロフォン対について、それぞれの対に含まれる2個のマイクロフォンの間の距離と角度とに基づいて、入射レイの特定の方位角及び特定の仰角に対応するTDOA位置を算定することと、
マイクロフォン対の全てにわたって前記入射レイの前記特定の方位角及び前記特定の仰角を変更することによってTDOA位置ポイントのメッシュを形成することと、
によって、前記いくつかのマイクロフォン対の空間情報に基づいて、起動ステージにおいて1回算定される、
請求項2の方法。 - 前記マイクロフォンアレイが実際には第2平面上に物理的に位置するときには、TDOA位置ポイントの前記メッシュが、マイクロフォン対の総数と同数の次元を有する前記多次元空間内の第1平面上に位置する、
請求項3の方法。 - 前記1以上のマルチ音源音声信号について前記TDOA検出データを算定することが、各マイクロフォン対について、
それぞれのマイクロフォン対からの前記1以上のマルチ音源音声信号の時間周波数表現を用いて、全ての周波数バンドについての共分散行列を算定することと、
それぞれのマイクロフォン対に対応する方位角及び仰角の異なるスキャンについてのTDOA位置に基づいて、全ての周波数バンドについてステアリング行列を構築することと、
構築された前記ステアリング行列及び算定された前記共分散行列に基づいて、全ての周波数バンドにわたって整列された方位共分散行列を構築することと、
構築された前記方位共分散行列に基づいて、ビームのパワーを最小にする疑似尤度解を決定することと、
を更に含む、
請求項2の方法。 - 全てのマイクロフォン対にわたって決定された全ての疑似尤度解の積を取ることで、STMV結合疑似尤度を算定することと、
前記STMV結合疑似尤度を最大にする方位角及び仰角の対を決定することと、
決定された方位角及び仰角の前記対を、前記TDOA検出データを示す極座標表現に変換することと、
を更に含む、
請求項5の方法。 - 構築された前記ステアリング行列及び算定された前記共分散行列に基づいて、前記全ての周波数バンドにわたって整列された方位共分散行列を構築することが、マイクロフォン対の全て、及び、方位角及び仰角のスキャンの全てにわたって繰り返される、
請求項6の方法。 - 構築された前記ステアリング行列及び算定された前記共分散行列に基づいて、全ての周波数バンドにわたって整列された前記方位共分散行列を構築することが、
前記多次元空間を、セグメントの数が前記多次元空間の次元の総数よりも少ないところの、いくつかのセグメントに分割することと、
TDOA位置ポイントのメッシュからの各TDOA位置ポイントを、最も近いセグメントにマッピングすることと、
方位角及び仰角のスキャンの全てから構築されたTDOA位置ポイントの前記メッシュに代えて、前記いくつかのセグメントと、TDOA位置ポイントの前記メッシュと前記いくつかのセグメントとの間のマッピングの関係とを用いて前記方位共分散行列を算定することと、
によって、減少された反復で実行される、
請求項6の方法。 - 現在の時間ステップまでに算定された前記TDOA検出データに基づいて、前記複数の音声トラックを更新することが、
現在の時間ステップに対応するTDOA検出と、前記現在の時間ステップまでにあらかじめ確立された既存の音声トラックのセットと、を同定することと、
前記TDOA検出と、前記既存の音声トラックのゲートとの比較に基づいて、前記TDOA検出を前記既存の音声トラックのうち1つに組み込むか、新たな音声トラックを確立するか、を決定することと、
を更に含む、
請求項1の方法。 - 算定された前記TDOA検出データに基づいて、前記複数の音声トラックのそれぞれについてVADデータを構築することが、
それぞれの音声トラックが前記TDOA検出に最も近いときに、第1の値をそれぞれの音声トラックに割当てることと、
他の音声トラックに第2の値を割当てることと、
を更に含む、
請求項1の方法。 - マルチ音源トラッキング及び発話区間検出によりマルチ音源音声を強調するための音声処理デバイスであり、
1以上のマルチ音源音声信号をマイクロフォンアレイから受信するように構成された音声入力回路部と、
到達時差(TDOA)推定器であり、マイクロフォンアレイからのいくつかのマイクロフォン対によって定義された多次元空間の内に構築されたTDOA軌跡情報に基づくステアード最小分散(STMV)ビームフォーマーにより、前記1以上のマルチ音源音声信号についてTDOA検出データを算定するように構成されたTDOA推定器と、
現在の時間ステップまでに算定された前記TDOA検出データに基づいて、複数の音声トラックを更新し、算定された前記TDOA検出データに基づいて、前記複数の音声トラックのそれぞれについて発話区間検出(VAD)データを構築するように構成されたマルチ音源音声追跡器と、
更新された前記複数の音声トラック及び構築された前記VADデータを用いて、1以上の強調されたマルチ音源音声信号を生成するように構成された音声強調エンジンと、
を備える、音声処理デバイス。 - 前記マイクロフォンアレイからのいくつかのマイクロフォン対によって定義された前記多次元空間が、
前記マイクロフォンアレイから第1マイクロフォンを基準マイクロフォンとして選択することと、
前記マイクロフォンアレイの残るマイクロフォンのそれぞれを前記基準マイクロフォンと対にすることと、
によって形成される、
請求項11の音声処理デバイス。 - 前記TDOA軌跡情報が、
各マイクロフォン対について、それぞれの対に含まれる2個のマイクロフォンの間の距離と角度とに基づいて、入射レイの特定の方位角及び特定の仰角に対応するTDOA位置を算定することと、
マイクロフォン対の全てにわたって前記入射レイの前記特定の方位角及び前記特定の仰角を変更することによってTDOA位置ポイントのメッシュを形成することと、
によって、前記いくつかのマイクロフォン対の空間情報に基づいて、起動ステージにおいて1回算定される、
請求項12の音声処理デバイス。 - 前記マイクロフォンアレイが実際には第2平面上に物理的に位置するときには、TDOA位置ポイントの前記メッシュが、マイクロフォン対の総数と同数の次元を有する前記多次元空間内の第1平面上に位置する、
請求項13の音声処理デバイス。 - 前記TDOA推定器が、各マイクロフォン対について、
それぞれのマイクロフォン対からの前記1以上のマルチ音源音声信号の時間周波数表現を用いて、全ての周波数バンドについての共分散行列を算定することと、
それぞれのマイクロフォン対に対応する方位角及び仰角の異なるスキャンについてのTDOA位置に基づいて、全ての周波数バンドについて、ステアリング行列を構築することと、
構築された前記ステアリング行列及び算定された前記共分散行列に基づいて、全ての周波数バンドにわたって整列された方位共分散行列を構築することと、
構築された前記方位共分散行列に基づいて、ビームのパワーを最小にする疑似尤度解を決定することと、
によって前記TDOA検出データを算定するように構成されている、
請求項12の音声処理デバイス。 - 前記TDOA推定器が、
全てのマイクロフォン対にわたって決定された全ての疑似尤度解の積を取ることで、STMV結合疑似尤度を算定することと、
前記STMV結合疑似尤度を最大にする方位角及び仰角の対を決定することと、
決定された方位角及び仰角の前記対を、前記TDOA検出データを示す極座標表現に変換することと、
によって前記TDOA検出データを算定するように更に構成されている、
請求項15の音声処理デバイス。 - 前記TDOA推定器が、構築された前記ステアリング行列及び算定された前記共分散行列に基づいて前記全ての周波数バンドにわたって整列された方位共分散行列を構築するように更に構成されており、算定された前記共分散行列が前記マイクロフォン対の全て、及び、方位角及び仰角のスキャンの全てにわたって繰り返される、
請求項16の音声処理デバイス。 - 前記TDOA推定器が、
前記多次元空間を、セグメントの数が前記多次元空間の次元の総数よりも少ないところの、いくつかのセグメントに分割することと、
TDOA位置ポイントのメッシュからの各TDOA位置ポイントを、最も近いセグメントにマッピングすることと、
方位角及び仰角のスキャンの全てから構築されたTDOA位置ポイントの前記メッシュに代えて、前記いくつかのセグメントと、TDOA位置ポイントの前記メッシュと前記いくつかのセグメントの間のマッピング関係とを用いて前記方位共分散行列を算定することと、
によって、構築された前記ステアリング行列及び算定された前記共分散行列に基づいて前記全ての周波数バンドにわたって整列された前記方位共分散行列を、減少した反復で構築するように更に構成されている、
請求項16の音声処理デバイス。 - 前記マルチ音源音声追跡器が、
現在の時間ステップに対応するTDOA検出と、前記現在の時間ステップまでにあらかじめ確立された既存の音声トラックのセットと、を同定することと、
前記TDOA検出と、前記既存の音声トラックのゲートとの比較に基づいて、前記TDOA検出を前記既存の音声トラックの1つに組み込むか、新たな音声トラックを確立するか、を決定することと、
によって、現在の時間ステップまでに算定された前記TDOA検出データに基づいて、前記複数の音声トラックを更新するように構成されている、
請求項11の音声処理デバイス。 - 前記マルチ音源音声追跡器が、
それぞれの音声トラックが前記TDOA検出に最も近いときに、第1の値をそれぞれの音声トラックに割当てることと、
他の音声トラックに第2の値を割当てることと、
によって、算定された前記TDOA検出に基づいて、前記複数の音声トラックについてVADデータを構築するように構成されている、
請求項11の音声処理デバイス。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/740,297 US11064294B1 (en) | 2020-01-10 | 2020-01-10 | Multiple-source tracking and voice activity detections for planar microphone arrays |
US16/740,297 | 2020-01-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021110938A true JP2021110938A (ja) | 2021-08-02 |
JP2021110938A5 JP2021110938A5 (ja) | 2023-12-20 |
Family
ID=76709199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020212089A Pending JP2021110938A (ja) | 2020-01-10 | 2020-12-22 | 平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11064294B1 (ja) |
JP (1) | JP2021110938A (ja) |
KR (1) | KR20210091034A (ja) |
CN (1) | CN113113034A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE202022101069U1 (de) | 2022-02-24 | 2022-03-23 | Pankaj Agarwal | Intelligentes Geräuscherkennungssystem auf der Grundlage der Verarbeitung mehrerer Geräusche durch künstliche Intelligenz |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7407580B2 (ja) | 2018-12-06 | 2024-01-04 | シナプティクス インコーポレイテッド | システム、及び、方法 |
US11197232B2 (en) * | 2019-04-01 | 2021-12-07 | Ofinno, Llc | Location reporting handling |
US11064294B1 (en) | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
CN111586547B (zh) * | 2020-04-28 | 2022-05-06 | 北京小米松果电子有限公司 | 音频输入模组的检测方法及装置、存储介质 |
US11830471B1 (en) * | 2020-08-31 | 2023-11-28 | Amazon Technologies, Inc. | Surface augmented ray-based acoustic modeling |
CN113782047B (zh) * | 2021-09-06 | 2024-03-08 | 云知声智能科技股份有限公司 | 语音分离方法、装置、设备和存储介质 |
CN114171061A (zh) * | 2021-12-29 | 2022-03-11 | 苏州科达特种视讯有限公司 | 时延估计方法、设备及存储介质 |
US11823707B2 (en) | 2022-01-10 | 2023-11-21 | Synaptics Incorporated | Sensitivity mode for an audio spotting system |
US20220236360A1 (en) * | 2022-04-19 | 2022-07-28 | Intel Corporation | Method and system of detection of acoustic source aiming direction |
CN115113139B (zh) * | 2022-05-12 | 2024-02-02 | 苏州清听声学科技有限公司 | 基于传声器阵列的声源识别方法、装置及电子设备 |
WO2024065256A1 (en) * | 2022-09-28 | 2024-04-04 | Citrix Systems, Inc. | Positional and echo audio enhancement |
CN115295000B (zh) * | 2022-10-08 | 2023-01-03 | 深圳通联金融网络科技服务有限公司 | 提高多对象说话场景下语音识别准确性的方法、装置及设备 |
Family Cites Families (96)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3484112B2 (ja) | 1999-09-27 | 2004-01-06 | 株式会社東芝 | 雑音成分抑圧処理装置および雑音成分抑圧処理方法 |
US6370500B1 (en) | 1999-09-30 | 2002-04-09 | Motorola, Inc. | Method and apparatus for non-speech activity reduction of a low bit rate digital voice message |
GB2379148A (en) | 2001-08-21 | 2003-02-26 | Mitel Knowledge Corp | Voice activity detection |
US7088831B2 (en) | 2001-12-06 | 2006-08-08 | Siemens Corporate Research, Inc. | Real-time audio source separation by delay and attenuation compensation in the time domain |
AUPS270902A0 (en) | 2002-05-31 | 2002-06-20 | Canon Kabushiki Kaisha | Robust detection and classification of objects in audio using limited training data |
US7146315B2 (en) | 2002-08-30 | 2006-12-05 | Siemens Corporate Research, Inc. | Multichannel voice detection in adverse environments |
CN1303582C (zh) | 2003-09-09 | 2007-03-07 | 摩托罗拉公司 | 自动语音归类方法 |
KR100754385B1 (ko) | 2004-09-30 | 2007-08-31 | 삼성전자주식회사 | 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법 |
US7464029B2 (en) | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
JP2007047427A (ja) | 2005-08-10 | 2007-02-22 | Hitachi Ltd | 音声処理装置 |
KR100821177B1 (ko) | 2006-09-29 | 2008-04-14 | 한국전자통신연구원 | 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법 |
KR100964402B1 (ko) | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
US8098842B2 (en) | 2007-03-29 | 2012-01-17 | Microsoft Corp. | Enhanced beamforming for arrays of directional microphones |
US8005237B2 (en) | 2007-05-17 | 2011-08-23 | Microsoft Corp. | Sensor array beamformer post-processor |
EP2081189B1 (en) | 2008-01-17 | 2010-09-22 | Harman Becker Automotive Systems GmbH | Post-filter for beamforming means |
US9113240B2 (en) | 2008-03-18 | 2015-08-18 | Qualcomm Incorporated | Speech enhancement using multiple microphones on multiple devices |
KR20100006492A (ko) | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
EP2146519B1 (en) | 2008-07-16 | 2012-06-06 | Nuance Communications, Inc. | Beamforming pre-processing for speaker localization |
JP2010085733A (ja) | 2008-09-30 | 2010-04-15 | Equos Research Co Ltd | 音声強調システム |
US9202456B2 (en) | 2009-04-23 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation |
US20110010172A1 (en) | 2009-07-10 | 2011-01-13 | Alon Konchitsky | Noise reduction system using a sensor based speech detector |
JP5411807B2 (ja) | 2010-05-25 | 2014-02-12 | 日本電信電話株式会社 | チャネル統合方法、チャネル統合装置、プログラム |
US9037458B2 (en) | 2011-02-23 | 2015-05-19 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation |
CN102956230B (zh) | 2011-08-19 | 2017-03-01 | 杜比实验室特许公司 | 对音频信号进行歌曲检测的方法和设备 |
EP2791935B1 (en) | 2011-12-12 | 2016-03-09 | Dolby Laboratories Licensing Corporation | Low complexity repetition detection in media data |
CN103325386B (zh) | 2012-03-23 | 2016-12-21 | 杜比实验室特许公司 | 用于信号传输控制的方法和系统 |
KR101318328B1 (ko) | 2012-04-12 | 2013-10-15 | 경북대학교 산학협력단 | 성김 특성 최소화를 통한 암묵 신호 제거를 이용한 음성 향상 방법 및 장치 |
US9768829B2 (en) | 2012-05-11 | 2017-09-19 | Intel Deutschland Gmbh | Methods for processing audio signals and circuit arrangements therefor |
TWI474317B (zh) | 2012-07-06 | 2015-02-21 | Realtek Semiconductor Corp | 訊號處理裝置以及訊號處理方法 |
US10142007B2 (en) | 2012-07-19 | 2018-11-27 | Intel Deutschland Gmbh | Radio communication devices and methods for controlling a radio communication device |
EP3462452A1 (en) | 2012-08-24 | 2019-04-03 | Oticon A/s | Noise estimation for use with noise reduction and echo cancellation in personal communication |
US9183849B2 (en) | 2012-12-21 | 2015-11-10 | The Nielsen Company (Us), Llc | Audio matching with semantic audio recognition and report generation |
EP2747451A1 (en) | 2012-12-21 | 2014-06-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates |
US9158760B2 (en) | 2012-12-21 | 2015-10-13 | The Nielsen Company (Us), Llc | Audio decoding with supplemental semantic audio recognition and report generation |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
CN104078050A (zh) | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
EP2984855B1 (en) * | 2013-04-09 | 2020-09-30 | Sonova AG | Method and system for providing hearing assistance to a user |
EP2801974A3 (en) | 2013-05-09 | 2015-02-18 | DSP Group Ltd. | Low power activation of a voice activated device |
CN104217729A (zh) | 2013-05-31 | 2014-12-17 | 杜比实验室特许公司 | 音频处理方法和音频处理装置以及训练方法 |
US9747899B2 (en) | 2013-06-27 | 2017-08-29 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
US9601130B2 (en) | 2013-07-18 | 2017-03-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for processing speech signals using an ensemble of speech enhancement procedures |
US9240182B2 (en) | 2013-09-17 | 2016-01-19 | Qualcomm Incorporated | Method and apparatus for adjusting detection threshold for activating voice assistant function |
GB2518663A (en) | 2013-09-27 | 2015-04-01 | Nokia Corp | Audio analysis apparatus |
US9502028B2 (en) | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
US9654894B2 (en) | 2013-10-31 | 2017-05-16 | Conexant Systems, Inc. | Selective audio source enhancement |
EP2884489B1 (en) | 2013-12-16 | 2020-02-05 | Harman Becker Automotive Systems GmbH | Sound system including an engine sound synthesizer |
US9589560B1 (en) | 2013-12-19 | 2017-03-07 | Amazon Technologies, Inc. | Estimating false rejection rate in a detection system |
DK2916321T3 (en) | 2014-03-07 | 2018-01-15 | Oticon As | Processing a noisy audio signal to estimate target and noise spectral variations |
US9548065B2 (en) | 2014-05-05 | 2017-01-17 | Sensory, Incorporated | Energy post qualification for phrase spotting |
US9484022B2 (en) | 2014-05-23 | 2016-11-01 | Google Inc. | Training multiple neural networks with different accuracy |
US9369113B2 (en) | 2014-06-20 | 2016-06-14 | Steve Yang | Impedance adjusting device |
WO2016007528A1 (en) | 2014-07-10 | 2016-01-14 | Analog Devices Global | Low-complexity voice activity detection |
US9432769B1 (en) | 2014-07-30 | 2016-08-30 | Amazon Technologies, Inc. | Method and system for beam selection in microphone array beamformers |
US9953661B2 (en) | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
US9530400B2 (en) | 2014-09-29 | 2016-12-27 | Nuance Communications, Inc. | System and method for compressed domain language identification |
US10049678B2 (en) | 2014-10-06 | 2018-08-14 | Synaptics Incorporated | System and method for suppressing transient noise in a multichannel system |
JP6450139B2 (ja) | 2014-10-10 | 2019-01-09 | 株式会社Nttドコモ | 音声認識装置、音声認識方法、及び音声認識プログラム |
US20160275961A1 (en) | 2015-03-18 | 2016-09-22 | Qualcomm Technologies International, Ltd. | Structure for multi-microphone speech enhancement system |
US9734822B1 (en) | 2015-06-01 | 2017-08-15 | Amazon Technologies, Inc. | Feedback based beamformed signal selection |
US10229700B2 (en) | 2015-09-24 | 2019-03-12 | Google Llc | Voice activity detection |
US9668073B2 (en) | 2015-10-07 | 2017-05-30 | Robert Bosch Gmbh | System and method for audio scene understanding of physical object sound sources |
US11631421B2 (en) | 2015-10-18 | 2023-04-18 | Solos Technology Limited | Apparatuses and methods for enhanced speech recognition in variable environments |
US10347271B2 (en) | 2015-12-04 | 2019-07-09 | Synaptics Incorporated | Semi-supervised system for multichannel source enhancement through configurable unsupervised adaptive transformations and supervised deep neural network |
US9978397B2 (en) | 2015-12-22 | 2018-05-22 | Intel Corporation | Wearer voice activity detection |
US10090005B2 (en) | 2016-03-10 | 2018-10-02 | Aspinity, Inc. | Analog voice activity detection |
RU2698153C1 (ru) | 2016-03-23 | 2019-08-22 | ГУГЛ ЭлЭлСи | Адаптивное улучшение аудио для распознавания многоканальной речи |
US9947323B2 (en) | 2016-04-01 | 2018-04-17 | Intel Corporation | Synthetic oversampling to enhance speaker identification or verification |
KR102295161B1 (ko) | 2016-06-01 | 2021-08-27 | 메사추세츠 인스티튜트 오브 테크놀로지 | 저전력 자동 음성 인식 장치 |
US20180039478A1 (en) | 2016-08-02 | 2018-02-08 | Google Inc. | Voice interaction services |
JP6954296B2 (ja) | 2016-09-30 | 2021-10-27 | ソニーグループ株式会社 | 信号処理装置、信号処理方法、およびプログラム |
US9741360B1 (en) | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
US9881634B1 (en) | 2016-12-01 | 2018-01-30 | Arm Limited | Multi-microphone speech processing system |
US10755718B2 (en) | 2016-12-07 | 2020-08-25 | Interactive Intelligence Group, Inc. | System and method for neural network based speaker classification |
US10546575B2 (en) | 2016-12-14 | 2020-01-28 | International Business Machines Corporation | Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier |
US10083689B2 (en) | 2016-12-23 | 2018-09-25 | Intel Corporation | Linear scoring for low power wake on voice |
US10170134B2 (en) | 2017-02-21 | 2019-01-01 | Intel IP Corporation | Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment |
JP6652519B2 (ja) | 2017-02-28 | 2020-02-26 | 日本電信電話株式会社 | ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム |
US10224053B2 (en) | 2017-03-24 | 2019-03-05 | Hyundai Motor Company | Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering |
US10269369B2 (en) | 2017-05-31 | 2019-04-23 | Apple Inc. | System and method of noise reduction for a mobile device |
US10403299B2 (en) | 2017-06-02 | 2019-09-03 | Apple Inc. | Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition |
US10096328B1 (en) | 2017-10-06 | 2018-10-09 | Intel Corporation | Beamformer system for tracking of speech and noise in a dynamic environment |
US10090000B1 (en) | 2017-11-01 | 2018-10-02 | GM Global Technology Operations LLC | Efficient echo cancellation using transfer function estimation |
US10504539B2 (en) | 2017-12-05 | 2019-12-10 | Synaptics Incorporated | Voice activity detection systems and methods |
US10777189B1 (en) | 2017-12-05 | 2020-09-15 | Amazon Technologies, Inc. | Dynamic wakeword detection |
US10679617B2 (en) | 2017-12-06 | 2020-06-09 | Synaptics Incorporated | Voice enhancement in audio signals through modified generalized eigenvalue beamformer |
US11087780B2 (en) | 2017-12-21 | 2021-08-10 | Synaptics Incorporated | Analog voice activity detector systems and methods |
US10957338B2 (en) * | 2018-05-16 | 2021-03-23 | Synaptics Incorporated | 360-degree multi-source location detection, tracking and enhancement |
US11062727B2 (en) * | 2018-06-13 | 2021-07-13 | Ceva D.S.P Ltd. | System and method for voice activity detection |
JP7407580B2 (ja) | 2018-12-06 | 2024-01-04 | シナプティクス インコーポレイテッド | システム、及び、方法 |
US11232788B2 (en) | 2018-12-10 | 2022-01-25 | Amazon Technologies, Inc. | Wakeword detection |
KR102174598B1 (ko) * | 2019-01-14 | 2020-11-05 | 한국과학기술원 | 회절 인지를 통한 비가시선 음원 위치 추적 방법 및 시스템 |
US11069353B1 (en) | 2019-05-06 | 2021-07-20 | Amazon Technologies, Inc. | Multilingual wakeword detection |
WO2020237206A1 (en) * | 2019-05-23 | 2020-11-26 | Shure Acquisition Holdings, Inc. | Steerable speaker array, system, and method for the same |
US11064294B1 (en) | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
US11308959B2 (en) | 2020-02-11 | 2022-04-19 | Spotify Ab | Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices |
US11769520B2 (en) | 2020-08-17 | 2023-09-26 | EMC IP Holding Company LLC | Communication issue detection using evaluation of multiple machine learning models |
-
2020
- 2020-01-10 US US16/740,297 patent/US11064294B1/en active Active
- 2020-12-02 KR KR1020200166979A patent/KR20210091034A/ko unknown
- 2020-12-22 JP JP2020212089A patent/JP2021110938A/ja active Pending
-
2021
- 2021-01-08 CN CN202110023469.7A patent/CN113113034A/zh active Pending
- 2021-06-16 US US17/349,589 patent/US11937054B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE202022101069U1 (de) | 2022-02-24 | 2022-03-23 | Pankaj Agarwal | Intelligentes Geräuscherkennungssystem auf der Grundlage der Verarbeitung mehrerer Geräusche durch künstliche Intelligenz |
Also Published As
Publication number | Publication date |
---|---|
KR20210091034A (ko) | 2021-07-21 |
CN113113034A (zh) | 2021-07-13 |
US11064294B1 (en) | 2021-07-13 |
US20210219053A1 (en) | 2021-07-15 |
US11937054B2 (en) | 2024-03-19 |
US20210314701A1 (en) | 2021-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021110938A (ja) | 平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出 | |
CN111370014B (zh) | 多流目标-语音检测和信道融合的系统和方法 | |
US9721583B2 (en) | Integrated sensor-array processor | |
US10123113B2 (en) | Selective audio source enhancement | |
US10930298B2 (en) | Multiple input multiple output (MIMO) audio signal processing for speech de-reverberation | |
US10957338B2 (en) | 360-degree multi-source location detection, tracking and enhancement | |
JP7498560B2 (ja) | システム及び方法 | |
WO2016040885A1 (en) | Systems and methods for restoration of speech components | |
CN108109617A (zh) | 一种远距离拾音方法 | |
Potamitis et al. | An integrated system for smart-home control of appliances based on remote speech interaction. | |
US11264017B2 (en) | Robust speaker localization in presence of strong noise interference systems and methods | |
CN103181190A (zh) | 用于远场多源追踪和分离的系统、方法、设备和计算机可读媒体 | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
JP2021505933A (ja) | 修正された一般化固有値ビームフォーマーを用いた音声信号のボイス強調 | |
US11521635B1 (en) | Systems and methods for noise cancellation | |
US20170309292A1 (en) | Integrated sensor-array processor | |
US11727926B1 (en) | Systems and methods for noise reduction | |
KR20210137146A (ko) | 큐의 클러스터링을 사용한 음성 증강 | |
US10204638B2 (en) | Integrated sensor-array processor | |
US11483644B1 (en) | Filtering early reflections | |
Hu et al. | Processing of speech signals using a microphone array for intelligent robots | |
WO2023086273A1 (en) | Distributed audio device ducking | |
WO2023167828A1 (en) | Spatial representation learning | |
CN118266021A (zh) | 用于语音和音频分析应用的多设备多通道注意力 | |
CN118235435A (zh) | 分布式音频设备闪避 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231212 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231212 |