JP7114752B2 - 音源場所検出のための方法および装置 - Google Patents
音源場所検出のための方法および装置 Download PDFInfo
- Publication number
- JP7114752B2 JP7114752B2 JP2020573164A JP2020573164A JP7114752B2 JP 7114752 B2 JP7114752 B2 JP 7114752B2 JP 2020573164 A JP2020573164 A JP 2020573164A JP 2020573164 A JP2020573164 A JP 2020573164A JP 7114752 B2 JP7114752 B2 JP 7114752B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- microphones
- audio signal
- identifying
- sounds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 66
- 238000001514 detection method Methods 0.000 title description 5
- 230000005236 sound signal Effects 0.000 claims description 98
- 230000002452 interceptive effect Effects 0.000 claims description 21
- 238000003384 imaging method Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 14
- 230000009471 action Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000005259 measurement Methods 0.000 claims description 6
- 230000006978 adaptation Effects 0.000 claims description 4
- 238000010191 image analysis Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 2
- 230000004807 localization Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 241000282412 Homo Species 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007257 malfunction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003340 mental effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000981 bystander Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/403—Linear arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2410/00—Microphones
- H04R2410/01—Noise reduction using microphones having different directional characteristics
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Studio Devices (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Description
本出願は、2018年8月8日出願の「METHOD AND APPARATUS FOR SOUND SOURCE LOCATION DETECTION」と題する米国特許出願第16/056,386号の優先権を主張し、それは、その全体で参照によって本明細書に組み込まれる。
本開示は、電子的手段を介した、向上した音(例えば、音声など)のソース場所検出のための装置、システム、および方法を対象とする。人間の発話などの音を「聞いて」解釈し得る機械の概念は数十年間存在していたが、近年、いくつかの企業が、特に、発話を通じて直接人間と対話するように構成されたデバイスを開発した。状況に応じて明らかな制限があることを理解すると、人間は一般的に、干渉ノイズがある雰囲気で、人間の音声などの特定の音を識別することができる。さらに、人間は一般的に、特定の音のソースを見つけ出すために、自らの体を容易に再配向する能力を有する。対照的に、人間が音を聞いて処理する方法を、機械が音を受信する方法と比較した違いにより、同じ環境を考慮すると、どの音がどの方向から来たのか、さらに、機械がどの音(または音声)に焦点を合わせるべきかを特定することの課題により、機械は、同じ音を理解して解釈するのに苦労し得る。したがって、本開示は、ノイズの多い環境からオーディオ信号を取り入れ、音を解析するための機械の能力に関する。一実施形態では、機械は、人間の音声を含むオーディオ信号を受信し、信号内のどのノイズが人間の音声に対応しているかを特定して、人間の音声からのコマンドに注意を払い解釈し得る。
図1に示されるような実施形態では、オーディオ信号で音のそれぞれのソース場所を検出するための装置100は、装置100の構成要素を収容および/または支持するためのハウジング102を含み得る。装置100は、装置が配置された周囲環境からオーディオ信号を取り入れるために使用されるマイクロフォン104(本明細書では「マイク」または「マイク(複数)」とも称され、図7を参照、例えば、「マイク0」、マイク1、「マイクN」)のアレイを含む。マイクロフォン104のアレイは、水平配向に直線的に整列された第1のセットのマイクロフォン104aと、垂直配向に直線的に整列された第2のセットのマイクロフォン104bと、を含み得る。さらに、一実施形態では、水平配向に直線的に整列された第1のセットのマイクロフォン104aは、装置を扱うためにユーザーが位置付けられる可能性のある位置に整列され得るように、装置100の上側に中央に配置された位置に配置され得る。加えて、垂直配向に直線的に整列された第2のセットのマイクロフォン104bは、装置100の横方向エッジに沿った位置に配置され得、垂直の距離に関して、第2のセットのマイクロフォン104bは、装置の撮像デバイス(以下を参照)、すなわち、撮像デバイスを有する装置の実施形態に対して、地面よりも近い場合がある。
図2は、音源場所を検出するための方法200における動作のフローチャートを示す。一実施形態では、方法200は、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンからオーディオ信号を受信する動作202を含む。オーディオ信号(または各マイクロフォンからの信号)を使用して、動作204で、オーディオ信号での音のそれぞれの音源場所が特定される。図3で、音源場所を特定する動作204を実行するために実行される動作を示す方法300が示される。一実施形態では、方法300は、オーディオ信号(複数可)を分析する動作302と、音のソース場所、ならびに水平のセットのマイクロフォンおよび垂直のセットのマイクロフォン、または他の方法では、マイクロフォンのアレイが具現化される装置の間のそれぞれの距離を計算する動作304と、を含み得る。本開示による一実施形態では、音源場所と装置との間の1~6フィートの距離は、音声コマンドおよび問い合わせのより正確な理解に有利であり得る。一実施形態では、動作302および304は、一緒に実行され得ることに留意されたい。最終的に、水平のアレイのマイクロフォンおよび垂直のアレイのマイクロフォンの両方からのオーディオ信号が、非常にノイズの多い環境でのターゲットの発話ソースのパン、ティルト、および距離を計算するために分析される。
A:ノイズの多い環境でターゲット音のソース場所を検出するための装置であって、ハウジングと、ハウジングとともに配置されたマイクロフォンのアレイであって、直線的に整列された水平のセットのマイクロフォンと、直線的に整列された垂直のセットのマイクロフォンと、を含む、マイクロフォンのアレイと、マイクロフォンのアレイと通信可能に結合された1つ以上のプロセッサと、1つ以上のプロセッサと通信可能に結合されたメモリであって、実行されると1つ以上のプロセッサに、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンからターゲット音を含むオーディオ信号を受信することと、装置に関するオーディオ信号でのターゲット音のソース場所を特定することであって、オーディオ信号を分析することであって、水平のセットのマイクロフォンに関して、ターゲット音のソース場所に対する水平方向を特定することと、垂直のセットのマイクロフォンに関して、ターゲット音のソース場所に対する垂直方向を特定することと、を含む、分析することと、ターゲット音のソース場所と装置との間の距離を計算することと、を含む、特定することと、を含む、動作を実行させる、命令を含む、メモリと、を備える、装置。
B:オーディオ信号が、ターゲット音とは異なり、かつ別個のソース場所から受信される、少なくとも1つの別個の音をさらに含み、動作が、装置に関するオーディオ信号での別個の音の別個のソース場所を特定することと、別個の音をターゲット音から区別することと、をさらに含む、段落Aに記載の装置。
C:別個の音をターゲット音から区別することが、別個の音の別個のソース場所の画像を取得することと、画像が人間の顔の正面図に対応しているかどうかを特定することと、画像が人間の顔の正面図に対応していないという特定に応答して、別個の音を干渉音として無視することと、を含む、段落A~Bのいずれかに記載の装置。
D:ターゲット音のソース場所に対する水平方向を特定することが、オーディオ信号から計算される電力出力を最大化する水平候補場所を特定することを含み、水平候補場所が、装置の位置に関するターゲット音のソース場所の配向の角度測定の表現である、段落A~Cのいずれかに記載の装置。
E:ターゲット音のソース場所に対する垂直方向を特定することが、オーディオ信号から計算される電力出力を最大化する垂直候補場所を特定することを含み、垂直候補場所が、装置の位置に関するターゲット音のソース場所の配向の角度測定の表現である、段落A~Dのいずれかに記載の装置。
F:オーディオ信号を分析することが、オーディオ信号の最も高い信号対ノイズ比(SNR)特性について最も高い重みが与えられる重み係数を適用することをさらに含む、段落A~Eのいずれかに記載の装置。
G:オーディオ信号を分析することが、オーディオ信号の最も低い周波数特性について最も高い重みが与えられる重み係数を適用することをさらに含む、段落A~Fのいずれかに記載の装置。
H:オーディオ信号を分析することが、空間領域データを使用してバックグラウンドノイズを推定することをさらに含み、適応レートが、オーディオ信号のピークの高さに依存する、段落A~Gのいずれかに記載の装置。
I:オーディオ信号での音のそれぞれのソース場所を検出するためのシステムであって、直線的に整列された水平のセットのマイクロフォンおよび直線的に整列された垂直のセットのマイクロフォンからオーディオ信号を受信するように構成された、1つ以上のプロセッサと、1つ以上のプロセッサと通信可能に結合されたメモリであって、実行されると1つ以上のプロセッサに、水平のセットのマイクロフォンから、および垂直のセットのマイクロフォンから、オーディオ信号を受信することと、オーディオ信号での音のそれぞれのソース場所を特定することであって、オーディオ信号を分析することであって、水平のセットのマイクロフォンに関して、音のそれぞれのソース場所に対するそれぞれの水平方向を特定することと、垂直のセットのマイクロフォンに関して、音のそれぞれのソース場所に対するそれぞれの垂直方向を特定することと、を含む、分析することと、音のそれぞれのソース場所と、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンとの間の距離を計算することと、を含む、特定することと、を含む、動作を実行させる、命令を含む、メモリと、を備える、システム。
J:オーディオ信号での音が、干渉音と、ターゲット音と、を含み、動作が、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンに関して、干渉音およびターゲット音のそれぞれのソース場所を特定することと、画像分析を介して、干渉音をターゲット音から区別することと、をさらに含む、段落Jに記載のシステム。
K:動作が、ターゲット音の理解を最適化し、干渉音からの干渉を最小化するために、音のそれぞれのソース場所を使用してノイズ低減アルゴリズムを実行することをさらに含む、段落I~Jのいずれかに記載のシステム。
L:音のソース場所に対する水平方向をそれぞれ特定することが、オーディオ信号から計算される電力出力を最大化する水平候補場所をそれぞれ特定することを含み、水平候補場所が、水平のセットのマイクロフォンに関する音のソース場所の配向の角度測定として計算される、段落I~Kのいずれかに記載のシステム。
M:音のソース場所に対する垂直方向をそれぞれ特定することが、オーディオ信号から計算される電力出力を最大化する垂直候補場所をそれぞれ特定することを含み、垂直候補場所が、垂直のセットのマイクロフォンに関する音のソース場所の配向の角度測定として計算される、段落I~Lのいずれかに記載のシステム。
N:オーディオ信号を分析することが、オーディオ信号の最も高い信号対ノイズ比(SNR)特性について最も高い重みが与えられる重み係数を適用することをさらに含む、段落I~Mのいずれかに記載のシステム。
O:オーディオ信号を分析することが、オーディオ信号の最も低い周波数特性について最も高い重みが与えられる重み係数を適用することをさらに含む、段落I~Nのいずれかに記載のシステム。
P:オーディオ信号での音のそれぞれのソース場所を検出する方法であって、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンを介してオーディオ信号を受信することであって、水平のセットのマイクロフォンが、直線的に整列されており、垂直のセットのマイクロフォンが、直線的に整列されている、受信することと、オーディオ信号での音のそれぞれのソース場所を特定することであって、オーディオ信号を分析することであって、水平のセットのマイクロフォンに関して、音のそれぞれのソース場所に対するそれぞれの水平方向を特定することと、垂直のセットのマイクロフォンに関して、音のそれぞれのソース場所に対するそれぞれの垂直方向を特定することと、を含む、分析することと、音のそれぞれのソース場所と、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンとの間の距離を計算することと、を含む、特定することと、を含む、方法。
Q:オーディオ信号での音のソース場所をそれぞれ見るように撮像デバイスを向けることをさらに含む、段落Pに記載の方法。
R:オーディオ信号での音における音が、干渉音またはターゲット音であるかを特定することと、任意の干渉音を無視することと、をさらに含む、段落P~Qのいずれかに記載の方法。
S:音声認識を実行し、ターゲット音の意味を解読するために、ターゲット音をプロセッサに送信することをさらに含む、段落P~Rのいずれかに記載の方法。
T:音が干渉音またはターゲット音であるかを特定することが、わずか20ミリ秒で区別可能である、段落P~Sのいずれかに記載の方法。
いくつかの実施形態は、構造的特徴および/または方法論的動作に特有の文言で説明してきたが、特許請求の範囲は、必ずしも説明される特定の特徴または動作に限定されるものではないことを理解されたい。むしろ、特定の特徴および動作は、特許請求された主題を実装する例示的な形態として開示されている。
Claims (20)
- ノイズの多い環境でターゲット音のソース場所を検出するための装置であって、前記ターゲット音が音声認識するための音声コマンドを含み、
ハウジングと、
前記ハウジングとともに配置されたマイクロフォンのアレイであって、
直線的に整列された水平のセットのマイクロフォンと、
直線的に整列された垂直のセットのマイクロフォンと、を含む、マイクロフォンのアレイと、
マイクロフォンの前記アレイと通信可能に結合された1つ以上のプロセッサと、
前記1つ以上のプロセッサと通信可能に結合されたメモリであって、実行されると前記1つ以上のプロセッサに、
前記水平のセットのマイクロフォンおよび前記垂直のセットのマイクロフォンから前記ターゲット音を含むオーディオ信号を受信することと、
前記装置に関する前記オーディオ信号での前記ターゲット音のソース場所を特定することであって、
前記オーディオ信号を分析することであって、
前記水平のセットのマイクロフォンに関して、前記ターゲット音の前記ソース場所に対する水平方向を特定することと、
前記垂直のセットのマイクロフォンに関して、前記ターゲット音の前記ソース場所に対する垂直方向を特定することと、を含む、分析することと、
前記ターゲット音の前記ソース場所と前記装置との間の距離を計算することと、を含む、特定することと、を含む、動作を実行させる、命令を含む、メモリと、を備える、装置。 - 前記オーディオ信号が、前記ターゲット音とは異なり、かつ別個のソース場所から受信される、少なくとも1つの別個の音をさらに含み、
前記動作が、
前記装置に関する前記オーディオ信号での前記別個の音の前記別個のソース場所を特定することと、
前記別個の音を前記ターゲット音から区別することと、をさらに含む、請求項1に記載の装置。 - 前記別個の音を前記ターゲット音から区別することが、
前記別個の音の前記別個のソース場所の画像を取得することと、
前記画像が人間の顔の正面図に対応しているかどうかを特定することと、
前記画像が人間の顔の正面図に対応していないという特定に応答して、前記別個の音を干渉音として無視することと、を含む、請求項2に記載の装置。 - 前記ターゲット音の前記ソース場所に対する前記水平方向を特定することが、前記オーディオ信号から計算される電力出力を最大化する水平候補場所を特定することを含み、前記水平候補場所が、前記装置の位置に関する前記ターゲット音の前記ソース場所の配向の角度測定の表現である、請求項1に記載の装置。
- 前記ターゲット音の前記ソース場所に対する前記垂直方向を特定することが、前記オーディオ信号から計算される電力出力を最大化する垂直候補場所を特定することを含み、前記垂直候補場所が、前記装置の位置に関する前記ターゲット音の前記ソース場所の配向の角度測定の表現である、請求項1に記載の装置。
- 前記オーディオ信号を分析することが、前記オーディオ信号の最も高い信号対ノイズ比(SNR)特性について最も高い重みが与えられる重み係数を適用することをさらに含む、請求項1に記載の装置。
- 前記オーディオ信号を分析することが、前記オーディオ信号の最も低い周波数特性について最も高い重みが与えられる重み係数を適用することをさらに含む、請求項1に記載の装置。
- 前記オーディオ信号を分析することが、空間領域データを使用してバックグラウンドノイズを推定することをさらに含み、
適応レートが、前記オーディオ信号のピークの高さに依存する、請求項1に記載の装置。 - オーディオ信号での音のそれぞれのソース場所を検出するためのシステムであって、前記オーディオ信号での音が、音声認識するための音声コマンドを含むターゲット音を含み、
直線的に整列された水平のセットのマイクロフォンおよび直線的に整列された垂直のセットのマイクロフォンから前記オーディオ信号を受信するように構成された、1つ以上のプロセッサと、
前記1つ以上のプロセッサと通信可能に結合されたメモリであって、実行されると前記1つ以上のプロセッサに、
前記水平のセットのマイクロフォンから、および前記垂直のセットのマイクロフォンから、前記オーディオ信号を受信することと、
前記オーディオ信号での前記音の前記それぞれのソース場所を特定することであって、
前記オーディオ信号を分析することであって、
前記水平のセットのマイクロフォンに関して、前記音の前記それぞれのソース場所に対するそれぞれの水平方向を特定することと、
前記垂直のセットのマイクロフォンに関して、前記音の前記それぞれのソース場所に対するそれぞれの垂直方向を特定することと、を含む、分析することと、
前記音の前記それぞれのソース場所と、前記水平のセットのマイクロフォンおよび前記垂直のセットのマイクロフォンとの間の距離を計算することと、を含む、特定することと、を含む、動作を実行させる、命令を含む、メモリと、を備える、システム。 - 前記オーディオ信号での前記音が、干渉音と、ターゲット音と、を含み、
前記動作が、
前記水平のセットのマイクロフォンおよび前記垂直のセットのマイクロフォンに関して、前記干渉音および前記ターゲット音の前記それぞれのソース場所を特定することと、
画像分析を介して、前記干渉音を前記ターゲット音から区別することと、をさらに含む、請求項9に記載のシステム。 - 前記動作が、前記ターゲット音の理解を最適化し、前記干渉音からの干渉を最小化するために、前記音の前記それぞれのソース場所を使用してノイズ低減アルゴリズムを実行することをさらに含む、請求項10に記載のシステム。
- 前記音の前記それぞれのソース場所に対する前記それぞれの水平方向を特定することが、前記オーディオ信号から計算される電力出力を最大化する水平候補場所をそれぞれ特定することを含み、前記水平候補場所が、前記水平のセットのマイクロフォンに関する前記音の前記ソース場所の配向の角度測定として計算される、請求項9に記載のシステム。
- 前記音の前記それぞれのソース場所に対する前記それぞれの垂直方向を特定することが、前記オーディオ信号から計算される電力出力を最大化する垂直候補場所をそれぞれ特定することを含み、前記垂直候補場所が、前記垂直のセットのマイクロフォンに関する前記音の前記ソース場所の配向の角度測定として計算される、請求項9に記載のシステム。
- 前記オーディオ信号を分析することが、前記オーディオ信号の最も高い信号対ノイズ比(SNR)特性について最も高い重みが与えられる重み係数を適用することをさらに含む、請求項9に記載のシステム。
- 前記オーディオ信号を分析することが、前記オーディオ信号の最も低い周波数特性について最も高い重みが与えられる重み係数を適用することをさらに含む、請求項9に記載のシステム。
- オーディオ信号での音のそれぞれのソース場所を検出する方法であって、前記オーディオ信号での音が、音声認識するための音声コマンドを含むターゲット音を含み、
水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンを介して前記オーディオ信号を受信することであって、前記水平のセットのマイクロフォンが、直線的に整列されており、前記垂直のセットのマイクロフォンが、直線的に整列されている、受信することと、
前記オーディオ信号での前記音の前記それぞれのソース場所を特定することであって、
前記オーディオ信号を分析することであって、
前記水平のセットのマイクロフォンに関して、前記音の前記それぞれのソース場所に対するそれぞれの水平方向を特定することと、
前記垂直のセットのマイクロフォンに関して、前記音の前記それぞれのソース場所に対するそれぞれの垂直方向を特定することと、を含む、分析することと、
前記音の前記それぞれのソース場所と、前記水平のセットのマイクロフォンおよび前記垂直のセットのマイクロフォンとの間の距離を計算することと、を含む、特定することと、を含む、方法。 - 前記オーディオ信号での前記音の前記ソース場所をそれぞれ見るように撮像デバイスを向けることをさらに含む、請求項16に記載の方法。
- 前記オーディオ信号での前記音における音が、干渉音またはターゲット音であるかを特定することと、
任意の干渉音を無視することと、をさらに含む、請求項16に記載の方法。 - 音声認識を実行し、前記ターゲット音の意味を解読するために、前記ターゲット音をプロセッサに送信することをさらに含む、請求項18に記載の方法。
- 音が干渉音またはターゲット音であるかを特定することが、わずか20ミリ秒で区別可能である、請求項18に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/056,386 US10206036B1 (en) | 2018-08-06 | 2018-08-06 | Method and apparatus for sound source location detection |
US16/056,386 | 2018-08-06 | ||
PCT/US2018/065716 WO2020032992A1 (en) | 2018-08-06 | 2018-12-14 | Method and apparatus for sound source location detection |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021533595A JP2021533595A (ja) | 2021-12-02 |
JP7114752B2 true JP7114752B2 (ja) | 2022-08-08 |
Family
ID=65241766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020573164A Active JP7114752B2 (ja) | 2018-08-06 | 2018-12-14 | 音源場所検出のための方法および装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10206036B1 (ja) |
JP (1) | JP7114752B2 (ja) |
CN (1) | CN113056925B (ja) |
SG (1) | SG11202012422SA (ja) |
WO (1) | WO2020032992A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11467646B2 (en) * | 2019-03-28 | 2022-10-11 | Lenovo (Singapore) Pte. Ltd. | Context data sharing |
KR102663375B1 (ko) * | 2019-10-23 | 2024-05-08 | 엘지전자 주식회사 | 음성 및 영상 자동 포커싱 방법 및 장치 |
CN113138367B (zh) * | 2020-01-20 | 2024-07-26 | 中国科学院上海微系统与信息技术研究所 | 一种目标定位方法、装置、电子设备及存储介质 |
CN111679248B (zh) * | 2020-05-15 | 2023-04-21 | 黑龙江工程学院 | 一种基于海底水平l型阵列的目标方位和距离联合稀疏重构定位方法 |
CN111880146B (zh) * | 2020-06-30 | 2023-08-18 | 海尔优家智能科技(北京)有限公司 | 声源定向方法和装置及存储介质 |
CN112285648B (zh) * | 2020-10-13 | 2022-11-01 | 西北工业大学 | 一种基于声源定位的增强现实系统与方法 |
CN112261528B (zh) * | 2020-10-23 | 2022-08-26 | 汪洲华 | 一种多路定向拾音的音频输出方法及系统 |
US11990152B2 (en) * | 2020-11-13 | 2024-05-21 | Arris Enterprises Llc | Classification of audio as originating from a human source or a non-human to avoid false wake-word detection |
CN112562730A (zh) * | 2020-11-24 | 2021-03-26 | 北京华捷艾米科技有限公司 | 一种声源分析方法及系统 |
CN112437391B (zh) * | 2020-12-09 | 2022-02-18 | 思必驰科技股份有限公司 | 用于开放环境的麦克风测试方法及系统 |
CN112729742B (zh) * | 2020-12-25 | 2023-08-22 | 西安理工大学 | 一种基于概率成像的冲击定位方法 |
CN112684412B (zh) * | 2021-01-12 | 2022-09-13 | 中北大学 | 一种基于模式聚类的声源定位方法及系统 |
WO2022196921A1 (ko) * | 2021-03-17 | 2022-09-22 | 주식회사 디엠랩 | 인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치 |
CN113553931A (zh) * | 2021-07-14 | 2021-10-26 | 浙江讯飞智能科技有限公司 | 异常目标检测方法、装置、电子设备、存储介质和系统 |
WO2023284562A1 (zh) * | 2021-07-14 | 2023-01-19 | 海信视像科技股份有限公司 | 控制设备、家电设备以及控制方法 |
CN113707149A (zh) * | 2021-08-30 | 2021-11-26 | 维沃移动通信有限公司 | 音频处理方法和装置 |
CN114242072A (zh) * | 2021-12-21 | 2022-03-25 | 上海帝图信息科技有限公司 | 一种用于智能机器人的语音识别系统 |
CN114417665B (zh) * | 2022-01-11 | 2024-06-28 | 南京安广电力设备有限公司 | 一种风机机舱设备异常声音检测方法及装置 |
CN117665705A (zh) * | 2022-08-26 | 2024-03-08 | 华为技术有限公司 | 发出、接收声音信号以及检测设备间相对位置的方法 |
CN115295000B (zh) * | 2022-10-08 | 2023-01-03 | 深圳通联金融网络科技服务有限公司 | 提高多对象说话场景下语音识别准确性的方法、装置及设备 |
CN115331366A (zh) * | 2022-10-17 | 2022-11-11 | 南昌航天广信科技有限责任公司 | 一种基于智能音箱的防盗方法、系统及计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000134688A (ja) | 1998-10-28 | 2000-05-12 | Fujitsu Ltd | マイクロホンアレイ装置 |
JP2003304589A (ja) | 2002-03-27 | 2003-10-24 | Samsung Electronics Co Ltd | 直交円形マイクアレイシステム及びこれを用いた音源の3次元方向検出方法 |
JP2009199158A (ja) | 2008-02-19 | 2009-09-03 | Hitachi Ltd | 音響ポインティングデバイス、音源位置のポインティング方法及びコンピュータシステム |
JP2011124749A (ja) | 2009-12-10 | 2011-06-23 | Funai Electric Co Ltd | 音源探査装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5801026B2 (ja) * | 2009-05-28 | 2015-10-28 | 株式会社ザクティ | 画像音響処理装置及び撮像装置 |
WO2016183791A1 (zh) * | 2015-05-19 | 2016-11-24 | 华为技术有限公司 | 一种语音信号处理方法及装置 |
CN107993671A (zh) * | 2017-12-04 | 2018-05-04 | 南京地平线机器人技术有限公司 | 声音处理方法、装置和电子设备 |
-
2018
- 2018-08-06 US US16/056,386 patent/US10206036B1/en active Active
- 2018-12-14 WO PCT/US2018/065716 patent/WO2020032992A1/en active Application Filing
- 2018-12-14 JP JP2020573164A patent/JP7114752B2/ja active Active
- 2018-12-14 CN CN201880096422.XA patent/CN113056925B/zh active Active
- 2018-12-14 SG SG11202012422SA patent/SG11202012422SA/en unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000134688A (ja) | 1998-10-28 | 2000-05-12 | Fujitsu Ltd | マイクロホンアレイ装置 |
JP2003304589A (ja) | 2002-03-27 | 2003-10-24 | Samsung Electronics Co Ltd | 直交円形マイクアレイシステム及びこれを用いた音源の3次元方向検出方法 |
JP2009199158A (ja) | 2008-02-19 | 2009-09-03 | Hitachi Ltd | 音響ポインティングデバイス、音源位置のポインティング方法及びコンピュータシステム |
JP2011124749A (ja) | 2009-12-10 | 2011-06-23 | Funai Electric Co Ltd | 音源探査装置 |
Also Published As
Publication number | Publication date |
---|---|
US10206036B1 (en) | 2019-02-12 |
JP2021533595A (ja) | 2021-12-02 |
CN113056925A (zh) | 2021-06-29 |
WO2020032992A1 (en) | 2020-02-13 |
CN113056925B (zh) | 2022-08-02 |
SG11202012422SA (en) | 2021-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7114752B2 (ja) | 音源場所検出のための方法および装置 | |
US11398235B2 (en) | Methods, apparatuses, systems, devices, and computer-readable storage media for processing speech signals based on horizontal and pitch angles and distance of a sound source relative to a microphone array | |
US20210092515A1 (en) | Sound Processing Method and Interactive Device | |
EP2800402B1 (en) | Sound field analysis system | |
Brandstein et al. | A practical methodology for speech source localization with microphone arrays | |
Nakadai et al. | Real-time sound source localization and separation for robot audition. | |
Aarabi et al. | Robust sound localization using multi-source audiovisual information fusion | |
Nakadai et al. | Improvement of recognition of simultaneous speech signals using av integration and scattering theory for humanoid robots | |
JP6467736B2 (ja) | 音源位置推定装置、音源位置推定方法および音源位置推定プログラム | |
CN110858488A (zh) | 语音活动检测方法、装置、设备及存储介质 | |
Cech et al. | Active-speaker detection and localization with microphones and cameras embedded into a robotic head | |
WO2020024816A1 (zh) | 音频信号处理方法、装置、设备和存储介质 | |
JP2010121975A (ja) | 音源定位装置 | |
JP2014098568A (ja) | 音源位置推定装置、音源位置推定方法および音源位置推定プログラム | |
Brutti et al. | Localization of multiple speakers based on a two step acoustic map analysis | |
Zhang et al. | Ambiear: mmwave based voice recognition in nlos scenarios | |
Salvati et al. | Incident signal power comparison for localization of concurrent multiple acoustic sources | |
Nakadai et al. | Sound source tracking with directivity pattern estimation using a 64 ch microphone array | |
CN111863005A (zh) | 声音信号获取方法和装置、存储介质、电子设备 | |
Sanchez-Matilla et al. | Multi-modal localization and enhancement of multiple sound sources from a micro aerial vehicle | |
Plinge et al. | Geometry calibration of distributed microphone arrays exploiting audio-visual correspondences | |
Nakadai et al. | Footstep detection and classification using distributed microphones | |
Zhao et al. | Design and evaluation of a prototype system for real-time monitoring of vehicle honking | |
WO2022042864A1 (en) | Method and apparatus for measuring directions of arrival of multiple sound sources | |
Nguyen et al. | Selection of the closest sound source for robot auditory attention in multi-source scenarios |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211210 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211210 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20211210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220331 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220727 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7114752 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |