JP7114752B2 - 音源場所検出のための方法および装置 - Google Patents

音源場所検出のための方法および装置 Download PDF

Info

Publication number
JP7114752B2
JP7114752B2 JP2020573164A JP2020573164A JP7114752B2 JP 7114752 B2 JP7114752 B2 JP 7114752B2 JP 2020573164 A JP2020573164 A JP 2020573164A JP 2020573164 A JP2020573164 A JP 2020573164A JP 7114752 B2 JP7114752 B2 JP 7114752B2
Authority
JP
Japan
Prior art keywords
sound
microphones
audio signal
identifying
sounds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020573164A
Other languages
English (en)
Other versions
JP2021533595A (ja
Inventor
ジンウェイ・フェン
タオ・ユ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2021533595A publication Critical patent/JP2021533595A/ja
Application granted granted Critical
Publication of JP7114752B2 publication Critical patent/JP7114752B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/01Noise reduction using microphones having different directional characteristics

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Studio Devices (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

関連出願の相互参照
本出願は、2018年8月8日出願の「METHOD AND APPARATUS FOR SOUND SOURCE LOCATION DETECTION」と題する米国特許出願第16/056,386号の優先権を主張し、それは、その全体で参照によって本明細書に組み込まれる。
現代では、人件費を低減し、生産性を向上させ、身体的および/または精神的な障害および制限を有する人を含む様々な個人へのアクセシビリティを向上させる自動化技術の提供に大きく重点が置かれている。上記の利点を達成するのに役立ち得る技術分野の1つは、人間の音声コマンドを聞いて応答することができる機械である。現在、音声作動可能な機械は、多数のタスクを実行することができる。しかしながら、ノイズの多い環境などのいくつかの状況では、これらの機械は、与えられるコマンドを適切に処理するために、音声または音のソースの場所を検出するのが困難である。
音のソースの場所を特定することは、一般的に、周囲のノイズに満ちた環境の中でさえ、通常の聴覚および音響処理能力を有する人間にとってかなり単純なプロセスである。すなわち、類似の別個の音の混合物が複数のソースによって生成されている環境で、平均的な人間は、聴覚および視覚による手がかりを使用して、別個の重要でないノイズを精神的にフィルタリングし、次いで、音を発している方向に自らの体を向けることによって、ターゲット音のソースを見つけ出す能力を有する。
対照的に、ノイズに満ちた環境で、単一のマイクロフォンを有する機械は、多くの理由でターゲット音源(例えば、コマンドを与える人間の音声)の場所を検出するのが困難である。例えば、単一のマイクを使用する機械は、人間のバイノーラル聴覚機構とは異なり、音源の入射角および距離を知ることができない。加えて、例えば、固定された指向性マイクロフォンさえ有する固定の機械も、より良好に音を拾うためにそれ自体を再配向することができない。さらに、混雑した地下鉄の駅、電車の駅、空港、カジノ、イベントスタジアム、大都市のストリートなどの環境で、意図的に機械で直接音波を発する場合でさえ、機械が、意図せずに直接向けられる複数の音波を受信する可能性が強い。例えば、地下鉄の駅で、個人が、機械の近くに立ってコマンドを与えている場合がある一方で、同時に、通行人または傍観者もまた、機械に向かいながら居合わせて話している場合がある。加えて、到着する地下鉄の車の機械的な音、ライブまたは駅のスピーカー上で再生されている音楽、情報のアナウンス、フロア上を移動する人々の音などの、機械に反射または向けられている他の周囲のノイズが存在し得る。環境でのこれらの組み合わされた音のすべてが、機械に対して意図されるコマンドを与える個人の発話を妨害し、曖昧にし得る。そのように、機械は、どの音に焦点を合わせるかを決定するのが困難であり得、その後、リスニング手順を終了し得る。要約すると、固定されたマイクロフォンを有する機械は、人間のバイノーラル聴覚能力、精神的なフィルタリング機構、および発話源を見つけ出すための再配向モビリティを欠いている。
したがって、向上した機械の音源場所特定能力が望まれる。
発明を実施するための形態は、添付の図面を参照して述べられる。図面では、参照番号の左端の数字(複数可)は、参照番号が最初に現れる図面を示す。異なる図面における同じ参照番号の使用は、類似または同一の項目を示す。
本開示の一実施形態による、音源場所を検出するための装置を示す。 本開示の一実施形態による、音源場所を検出するための方法のフローチャートを示す。 本開示の一実施形態による、オーディオ信号中の音の音源場所を特定するための方法のフローチャートを示す。 本開示の一実施形態による、オーディオ信号を分析するための方法のフローチャートを示す。 本開示の一実施形態による、音源場所を検出するための方法における追加のステップまたは動作のフローチャートを示す。 本開示の一実施形態による、音源場所を検出するための方法における追加のステップまたは動作のフローチャートを示す。 本開示の一実施形態による、マイクロフォンのアレイへの音の到来方向(DOA)を特定する方法のフローチャートを示す。 図7の方法を使用して行われる特定による、音源場所特定技術の一例の極座標プロットを示す。 本開示の一実施形態による、マイクロフォンのアレイへの音の到来方向(DOA)を特定する代替的な方法のフローチャートを示す。 1つの周波数について図9の方法を使用して行われる特定による、音源場所特定技術の一例の500Hzでの極座標プロットを示す。 1つの周波数について図9の方法を使用して行われる特定による、音源場所特定技術の一例の8000Hzでの極座標プロットを示す。 図9の方法を使用して行われる特定による、音源場所特定技術の一例の投票アルゴリズムを使用する極座標プロットを示す。 図9の方法を使用して行われる特定による、音源場所特定技術の一例の距離グラフを示す。 本開示の一実施形態による、コンピューティングデバイスの概略図を示す。
概要
本開示は、電子的手段を介した、向上した音(例えば、音声など)のソース場所検出のための装置、システム、および方法を対象とする。人間の発話などの音を「聞いて」解釈し得る機械の概念は数十年間存在していたが、近年、いくつかの企業が、特に、発話を通じて直接人間と対話するように構成されたデバイスを開発した。状況に応じて明らかな制限があることを理解すると、人間は一般的に、干渉ノイズがある雰囲気で、人間の音声などの特定の音を識別することができる。さらに、人間は一般的に、特定の音のソースを見つけ出すために、自らの体を容易に再配向する能力を有する。対照的に、人間が音を聞いて処理する方法を、機械が音を受信する方法と比較した違いにより、同じ環境を考慮すると、どの音がどの方向から来たのか、さらに、機械がどの音(または音声)に焦点を合わせるべきかを特定することの課題により、機械は、同じ音を理解して解釈するのに苦労し得る。したがって、本開示は、ノイズの多い環境からオーディオ信号を取り入れ、音を解析するための機械の能力に関する。一実施形態では、機械は、人間の音声を含むオーディオ信号を受信し、信号内のどのノイズが人間の音声に対応しているかを特定して、人間の音声からのコマンドに注意を払い解釈し得る。
本明細書で以下に説明するように、本出願の一実施形態は、実行されると、機械に動作(例えば、操作、ステップなど)を実行させる1つ以上のプロセッサを有する機械で具現化され得る。本出願の目的で、機械の1つ以上のプロセッサによって実行されている動作の任意の考察または詳述は、動作が、機械の場所で、機械の1つ以上のプロセッサによって直接実行され得るという可能性、ならびに実行された動作のうちの1つ以上が、ネットワークを介して機械と通信する1つ以上のリモートプロセッサおよび/またはサーバによって実行され得るという可能性を含むことに留意されたい。言い換えれば、本開示に従って実行される動作のうちの1つ以上は、機械の1つ以上のプロセッサによって処理のために信号送信されるか、または処理のために初期化されて、リモートプロセッサ/サーバによって実際に実行され、次いで、その結果は、リモートプロセッサ/サーバから機械に中継されて戻され得る。例えば、本開示の機械の一実施形態は、機械でのロバストな処理能力の必要性が最小限にされるように、クラウドコンピューティングサービスまたは他のリモートベースの処理センターに接続され得る。
音源場所検出のための装置の例示的な実施形態
図1に示されるような実施形態では、オーディオ信号で音のそれぞれのソース場所を検出するための装置100は、装置100の構成要素を収容および/または支持するためのハウジング102を含み得る。装置100は、装置が配置された周囲環境からオーディオ信号を取り入れるために使用されるマイクロフォン104(本明細書では「マイク」または「マイク(複数)」とも称され、図7を参照、例えば、「マイク0」、マイク1、「マイクN」)のアレイを含む。マイクロフォン104のアレイは、水平配向に直線的に整列された第1のセットのマイクロフォン104aと、垂直配向に直線的に整列された第2のセットのマイクロフォン104bと、を含み得る。さらに、一実施形態では、水平配向に直線的に整列された第1のセットのマイクロフォン104aは、装置を扱うためにユーザーが位置付けられる可能性のある位置に整列され得るように、装置100の上側に中央に配置された位置に配置され得る。加えて、垂直配向に直線的に整列された第2のセットのマイクロフォン104bは、装置100の横方向エッジに沿った位置に配置され得、垂直の距離に関して、第2のセットのマイクロフォン104bは、装置の撮像デバイス(以下を参照)、すなわち、撮像デバイスを有する装置の実施形態に対して、地面よりも近い場合がある。
図1は、2つのセットのマイクロフォンのみを示しているが、追加のセットのマイクロフォンが組み込まれ得ることが企図されることに留意されたい。追加のセットのマイクロフォンが組み込まれる場合、1つ以上の追加のセットが、直線的に整列されるか、曲線に整列されるか、または他の方法で整列され得、水平方向に配向され、垂直方向に配向され、および/または対角方向に配向され得ることがさらに企図される。その上、本開示の目的で、「マイクロフォンのセット」に関して述べられるような「セット」という用語は、所定の位置で配向され、オーディオ信号分析の目的で一緒にグループ化される少なくとも2つ以上のマイクロフォンとして定義され得る。
マイクロフォン104のアレイによって受信されるオーディオ信号の分析に関して、一実施形態では、マイクロフォンのセット(例えば、水平のセット104a、垂直のセット104b)内の各マイクロフォンから受信されるオーディオ信号は、セット内の任意の他のマイクロフォンから独立して分析され得る。すなわち、マイクロフォン(例えば、マイク0、マイク1、マイク2、...マイクN)のセットからのオーディオ信号が依然として、垂直または水平のセットのマイクロフォンとして集合的に分析され得るが、セット内の個々のマイクロフォンによって受信されるオーディオ信号は、セット内の他の隣接するマイクロフォンから独立して考慮され得る。代替的な実施形態では、第1および/または第2のセットのマイクロフォン104a、104b内で、ユーザーは、必要があれば、マイクロフォンのサブセットを定義し得る。例えば、マイクロフォンのセットに合計8つのマイクロフォンが含まれることとし、セットは、サブセットごとに4つまたは2つのマイクロフォンのさらなる細区分を有し得る。これらのサブセットは、サブセット内のマイクロフォンが、マイクロフォンのセット内の異なるサブセットの他のマイクロフォンよりも各々比較的近くにグループ化され得るように配置され得る。加えて、および/または代替的に、セット内のマイクロフォンのサブセットは、サブセットの間の間隔がサブセット内の個々のマイクロフォンの間の間隔よりも大きい場合があるサブセットで物理的にグループ化されるのではなく、分析目的でのみ「グループ化」され得る。すなわち、セット内のすべてのマイクロフォンが直線的に整列され、実質的に等しく離間している場合でさえ、受信されたオーディオ信号の分析は、マイクロフォンの分析の「サブセット」(例えば、マイク0およびマイク1がサブセットであり、マイク2およびマイク3がサブセットであるなど)を使用して実行され得る。
マイクロフォン104のアレイに加えて、一実施形態では、装置100は、装置100の周囲の環境を見るために実装され、音源場所を特定するのを支援し得る撮像デバイス106(例えば、静止画カメラ、ビデオカメラ、熱撮像装置など)を含み得る。装置100上の特定の位置が有利であり得るが、撮像デバイス106の場所は変化し得る。加えて、撮像デバイス106は、1)音の到来方向(DOA)を特定するのを支援し、2)人または物体から音を発しているかどうかを特定するのを支援し、3)装置に送出されているコマンドに関して、オーディオ信号の意図を解釈および/または検証するのを支援するように、配向を変更し、および/またはビューに焦点を合わせるように制御可能であり得る。例えば、本開示による装置は、混雑した、ノイズの多い地下鉄または電車のターミナルでの情報またはチケット販売キオスクとして実装され得る。人がキオスクを使用するために歩いていくとき、キオスクを使用しようとする人の音声と混ざり合った、マイクロフォン104のアレイに到着する干渉音があり得る。(本明細書でさらに論じられるように)装置100がマイクロフォン104のアレイによって受信されているオーディオ信号を分析し始めると、装置100は、撮像デバイス106を作動させて、検出されている音源場所を見て、特定の音源場所での画像が装置100を使用する人の場所を示しているかどうかを特定し得る。特に、撮像デバイス106は、装置100で制御をプログラムすることによって自動的に制御され得、および/または撮像デバイス106は、撮像デバイス106が通信可能に結合され得るネットワーク上で送信されるコマンドを介して電子的または手動の手段によってリモートで制御され得る。
したがって、撮像デバイス106が音源場所の画像で人間の顔を検出する場合、その場所での画像およびその音源場所から到着するオーディオ信号は、人の質問またはコマンドへの応答を進めるために、装置100を使用しようとする人の確認のためにさらに評価され得る。代替的に、撮像デバイス106が音源場所の画像内で人間の顔を検出しない場合、そのソース場所から到着するオーディオ信号は、干渉音であり、人間ではないか、または装置100の注意をひくことを意図されていないとして、装置100によって無視され得る(すなわち、それは、マイクロフォン104のアレイに対向する表面から反射される人間の音声であり得、その場合、音声が装置100と通信することを意図している可能性は低い)。
加えて、および/または代替的に、一実施形態では、撮像デバイス106は、装置100のビューで停止した個人を装置100の潜在的なユーザーとして識別するように実装され得る。そのような状況では、撮像デバイス106は、マイクロフォン104のアレイを作動させるために信号を送信し、それによって、受信されているオーディオ信号を処理し始めるように装置100に通知し得る。
装置100は、図1に示されるように、ディスプレイ部材108をさらに含み得る。ディスプレイ部材108は、装置100のユーザーからの認識された口頭の質問またはコマンドに関連する情報を表示し得る。例えば、ディスプレイ部材108は、装置100がユーザーを正確に理解していることの視覚的な確認、装置100をさらに使用するためのユーザーが言い得る視覚的/テキスト的プロンプト、ユーザーが要求したか、またはユーザーが問い合わせた場合がある、地図、住所、輸送ルート、店舗リスト、製品、価格などの視覚的な表示を含むが、これらに限定されない情報を表示し得る。加えて、マイクロフォン104のアレイが誤動作するか、または装置100が他の方法で様々な可能性のある理由(例えば、過度の環境干渉音またはその音声、発話での、なじみのないアクセント、ユーザーまたは装置100のいずれかの不十分な言語能力、マイクロフォン104のアレイに関する機械的または電気的な問題など)でユーザーを正確に理解することができない場合、ディスプレイ部材108は、ユーザーとの通信の代替的な形態としてその中に組み込まれたタッチスクリーン技術をさらに含み得る。
装置100の意図された使用を補完するために、他の特徴および構成要素(図示せず)が装置100に組み込まれ得る。例えば、装置100は、チケット販売/生産デバイス、製品販売/生産デバイス、ユーザーからアイテムを受け取るための貯蔵デバイス、印刷デバイスなどと対にされ得る。すなわち、装置100は、輸送ハブでの輸送チケット/バウチャの販売/印刷、輸送のピックアップの手配(例えば、タクシーまたは他の乗車サービスの要求)、食品、衣類などについての寄付コレクション、食品、飲料、消費財などの販売/生産、ギャンブル、指示または文書の印刷、店舗またはショッピングセンターでの消費者支援、キーデリバリーを伴う車両レンタルなどを含むが、これらに限定されない、様々な使用のための様々な環境に適合され得る。
音源場所を検出する例示的な実施形態
図2は、音源場所を検出するための方法200における動作のフローチャートを示す。一実施形態では、方法200は、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンからオーディオ信号を受信する動作202を含む。オーディオ信号(または各マイクロフォンからの信号)を使用して、動作204で、オーディオ信号での音のそれぞれの音源場所が特定される。図3で、音源場所を特定する動作204を実行するために実行される動作を示す方法300が示される。一実施形態では、方法300は、オーディオ信号(複数可)を分析する動作302と、音のソース場所、ならびに水平のセットのマイクロフォンおよび垂直のセットのマイクロフォン、または他の方法では、マイクロフォンのアレイが具現化される装置の間のそれぞれの距離を計算する動作304と、を含み得る。本開示による一実施形態では、音源場所と装置との間の1~6フィートの距離は、音声コマンドおよび問い合わせのより正確な理解に有利であり得る。一実施形態では、動作302および304は、一緒に実行され得ることに留意されたい。最終的に、水平のアレイのマイクロフォンおよび垂直のアレイのマイクロフォンの両方からのオーディオ信号が、非常にノイズの多い環境でのターゲットの発話ソースのパン、ティルト、および距離を計算するために分析される。
受信される音声信号(複数可)を分析する動作302を実行するために使用され得る多数の方法があり得るため、図4は、本開示の一実施形態による、マイクロフォンアレイによって受信されるオーディオ信号を分析するための方法400を示す。一実施形態では、方法400は、水平のセットのマイクロフォンに関して、オーディオ信号での音のそれぞれの音源場所に対するそれぞれの水平方向を特定する動作402を含み得る。同様に、方法400は、垂直のセットのマイクロフォンに関して、オーディオ信号での音のそれぞれの音源場所に対するそれぞれの垂直方向を特定する動作404をさらに含み得る。動作302と同様に、音源場所に対する水平方向および垂直方向を特定する複数の方法があり得る。したがって、本開示による、それぞれの方向を計算するための方法の例示的な実施形態は、本明細書でさらに論じられる。
オーディオ信号での音についてのソース場所を特定する以外に、分析の焦点の有効性を向上させて、本明細書で「ターゲット音」と称される特定の音をよりよく理解するためにさらなるステップが取られ得る。すなわち、任意の所与の音のソースを単に見つけ出すことが可能であり得るが、機械に向けられる人間の声からの質問および発言に応答することが意図される機械は、機械を扱う人の音声などの孤立した音に焦点を合わせる改善から恩恵を受け得る。したがって、図5で、音のソース場所を特定した後に実行され得る方法500の追加の動作を示すフローチャートが示される。一実施形態では、動作502は、オーディオ信号での別個の音の別個のソース場所を選択することを含み得る。さらに、動作504で、別個の音は、オーディオ信号でのターゲット音から区別され得る。一実施形態では、本明細書に記載される装置は、わずか20ミリ秒以内に音のタイプを区別することができ得る。一実施形態では、音を区別し、どの音または音(複数)がターゲット音であり、どれが「干渉音」(すなわち、ターゲット音に干渉する音)であるかを特定するために、方法600が実行され得る。図6に示されるように、方法600は、別個の音の別個のソース場所の画像を取得する動作602を含み得る。次に、動作604で、画像が人間の顔の正面図に対応しているかどうかの画像分析プロセスを介して特定が行われる。別個のソース場所の画像が人間の顔の正面図に対応していないという特定に応答して、別個の音が干渉音として無視される動作606が実行される。他方、別個のソース場所の画像が人間の顔の正面図に対応しているという特定に応答して、音は、動作608で音声を解釈および理解するためのターゲット音としてさらに分析される。
上に示されるように、音源場所に対する方向を特定する複数の方法が可能である。本開示による一実施形態では、図7は、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンから音のそれぞれの到来方向を計算するための方法700のフローチャートを示す。図7で、システムの装置またはプロセッサは、マイクロフォンのセット(例えば、水平のセットまたは垂直のセット)のマイク0、マイク1、...~マイクNからオーディオ信号を受信する。オーディオ信号を受信すると、短時間フーリエ変換(「STFT」)が、動作702a(マイク0)、702b(マイク1)、...~702N(マイクN)で実行される。動作704で、動作702a、702b、...702NからのSTFT結果の各々に基づいて計算が行われる。より具体的には、動作704で、閾値量よりも大きい信号エネルギーを有する周波数ビンの数が計算される。動作706で、方法700は、周波数ビンの数が閾値量よりも大きいかどうかを特定する。周波数ビンの数が閾値量を超える場合、プロセスは、動作708で、大きさの正規化および1つ以上の重み係数を適用することによって続く。
動作708の重み係数は、オーディオ信号の最も高い信号対ノイズ比(SNR)特性について最も高い重みが与えられる係数と、オーディオ信号の最も低い周波数特性について最も高い重みが与えられる係数と、を含み得る。上記の重み係数の一方または両方を適用すると、ビームフォーマ出力電力および空間領域での出力電力のピークの信頼比を計算することによって、動作710が実行される。本開示で使用されるビームフォーマアルゴリズムは、音源位置測定のために頻繁に使用されるステアリング応答電力位相変換(SRP-PHAT)に基づくが、これに限定されない。しかしながら、本開示の一実施形態では、アルゴリズムは、上で論じられる重み係数で修正されることによって、改善された場所検出について向上される。したがって、結果は、SRP-PHATの従来の使用と比較したとき、ターゲット音を分離することができるように、向上した結果をノイズの多い環境に提供する。
方法700の動作712で、(動作710からの結果の)ピーク/平均が閾値よりも大きいかどうかが特定される。ピーク/平均が閾値よりも大きいことに応答して、ピークに対応する相対的な角度および距離が出力される動作714が生じる。さらに、周波数ビンの数が閾値以下であるか、またはピーク/平均が閾値以下であるという特定に応答して、方法700は、計算プロセスが終了する動作716に続く。
重み係数で修正されるようなSRP-PHATを使用する実施形態では、次のように、フィルタおよび合計のビームフォーマ出力の電力Pを最大化する候補場所qを特定するために式(1)が解かれる。
Figure 0007114752000001
これを達成するために、式(1)の構成要素が次のように説明される。まず、マイクロフォンアレイ信号のフィルタおよび合計のビームフォーマ出力T(ω)が、周波数領域信号を生成するために式(2)を使用して特定される。
Figure 0007114752000002
式(2)での様々な変数は次のとおりであり、ωがラジアンでの周波数であり、*が複素共役を示し、Nがアレイでのマイクロフォンの数であり、
Figure 0007114752000003
が周波数領域での重み関数であり、Xl(ω)がマイクロフォンl(例えば、周波数領域での第l番目のマイクロフォン信号)でのマイクロフォン信号のフーリエ変換であり、△が候補ソース場所に向かう第l番目のマイクロフォンのステアリングベクトルであることに留意されたい。さらに、
Figure 0007114752000004
その上、上で論じられるように、重み係数w1(ω)およびw2(ω)は、結果を向上させるために考慮される。例えば、より高い信号対ノイズ比(SNR)を有する信号は、より重く重み付けされ得、人間の発話のスペクトルが低周波数に偏っているため、最も低い周波数を有する信号は、より重く重み付けされ得る。したがって、w1(ω)およびw2(ω)は、次のように定義され得る。
Figure 0007114752000005
ここで、N(ω)は、第k番目のマイクロフォンのノイズスペクトルである。
Figure 0007114752000006
最後に、ソース推定場所は、次のように、式(6)を使用して見出される。
Figure 0007114752000007
要約すると、信号の1次導関数は、各マイクロフォンの間の音声到来の時間差を取得するために周波数領域で取得される。次いで、音声の入射の方向を取得するために、座標変換が使用される。次いで、周波数領域で信号の2次導関数を導出し、マイクロフォンアレイからのターゲット発話の距離を計算する。
上記のような修正されたSRP-PHATを使用して、本開示に従ってマイクロフォンアレイによって捕捉される例示的な音源の各方向(すなわち、水平および垂直)での電力出力は、極座標プロット800としてプロットされるとき、図8に示されるように現れ得る。図8の例では、極座標プロットでの有意な、目に見えるスパイク802に基づいて、約75度での音源であるように見える。その上、2つ以上の音源が同じ音場で検出される場合、極座標プロットで2つ以上の対応するスパイクが現れる。ピークの高さは、バックグラウンドノイズのタイプのインジケータとして使用され得る。例えば、ポイントソースノイズフィールドは通常、非常に高い/鋭いピークを生成するが、拡散ソースノイズフィールドは、低い明らかなピークを生成するか、または明らかなピークさえ生成しない場合がある。特に、ピークの高さの分析は、次の理由で有利であり得る。A)ピークの高さの分析は、バックグラウンドノイズ推定器(「BNE」)の性能を向上させ得る。従来のBNEは、時間の経過とともに最小値を見つけるために、時間情報およびスペクトル情報を使用するだけである。対照的に、本出願では、ピークの高さは、3番目のパラメータとして使用される。ピークの高さが大きい場合、これは、プロセスを遅くする。すなわち、BNE適応レート/速度は、ピークの高さに反比例する。したがって、このステップは、全体の角度検出アルゴリズムの感度を向上させるのに有利である。B)ピークの高さはまた、発話強調目的でビームフォーマによって使用され得る。最小分散無歪応答(「MVDR」)ビームフォーマなどのよく知られた発話強調ビームフォーミングアルゴリズムは、例えば、ノイズ共分散行列をより適切に推定するという観点でノイズフィールドの変化を追跡するときに、よりよい性能を達成するためにピークの高さの情報を使用し得る。例えば、地下鉄の駅でのノイズフィールドは、ポイントノイズフィールド(例えば、単一の干渉者が話している)から拡散ノイズフィールド(例えば、多くの人が話している)に急速に変化し得る。ノイズ共分散行列を推定する際の適応レートは、ビームフォーマアルゴリズムでのピークの高さによって現在反映されている、ノイズフィールド変化に追いつくのに十分な大きさに設定されるべきである。
本開示による、音源への方向の角度および音源からの距離を計算する代替的な実施形態では、図9は、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンから音のそれぞれの到来方向を計算するための方法900のフローチャートを示す。図9に関して以下に記載される方法900に関連付けられた投票アルゴリズムは、図7に関する上記の方法700に関連付けられたアルゴリズムよりもロバストであり、複雑さが低い場合があることが企図される。
図9で、図7の方法の始まりと同様に、マイクロフォンのセット(例えば、水平のセットまたは垂直のセット)のマイク0、マイク1、...~マイクNからオーディオ信号を受信する。オーディオ信号を受信すると、STFTが、動作902a(マイク0)、902b(マイク1)、...~902N(マイクN)で実行される。それぞれの周波数ビンで十分な信号エネルギーがある場合、各周波数ビンが角度について1つの票を有するため、動作904で、周波数ビンが信号を含むかどうかを特定するために、動作902a、902b、...~902NからのSTFT結果の各々に基づいて評価が行われる。
動作904で周波数ビンが信号を含むという特定に応答して、方法900は、距離を想定して、関心のあるすべての角度を通じてスキャンし、すべての可能性のある候補角度の間でステアリング電力を計算することによって動作906を進める。周波数ビンが投票する角度が、最大ステアリング電力を見つけることによって取得されるため、動作908で、最大電力が、すべての角度の間で特定され、対応する角度(「最大電力についての角度」)が、それに関連付けられる。ステアリング電力応答は、遅延および合計のビームフォーマ計算でのマイクロフォンアレイの電力出力であるように定義されることに留意されたい。
動作910で、最大電力の角度についての票は、重み係数で蓄積される。重み係数は、上で論じられる重み係数のように、周波数の信号ノイズ比(SNR)、および周波数自体の値であり得る。動作912で、プロセッサは、次の周波数ビンに移る(繰り返し)。動作914で、プロセッサは、すべての周波数ビンが動作906~910を通じてスキャンおよび処理されたかどうかを特定する。すべての周波数ビンが、動作906~910を通じてスキャンおよび処理されたわけではないという特定に応答して、プロセスは、動作904に戻って、次の周波数ビンを続ける。その上、周波数ビンが信号を含まないという動作904での特定に応答して、プロセスは、動作906~910をスキップし、動作912に進む。最後に、すべての周波数ビンがスキャンおよび処理されたという特定に応答して、方法900は、動作916に進み、ここで、装置に関して音源に対する推定角度を特定するために、最大電力の角度についての最大の票の特定が行われる。すなわち、音源場所からの信号の全体的なDOAは、最も多くの票を受け取る角度であるように特定される。次いで、動作918で、推定角度に沿ったすべての候補距離が、対応するステアリング電力を計算するためにスキャンされる。推定角度に沿った最大電力に対応する距離は、音信号のソースまでの推定距離であるように特定される。言い換えれば、各周波数ビンは、どの角度が最大電力を生成するかを見つけることによって角度について投票し、例えば、図10に示されるように、周波数500Hzは、約80度の角度について投票する。図11で、周波数8000Hzは、約95度の角度について投票する。アルゴリズムは、すべての周波数を介してループし、次いで、どの角度が最大票を有するかを見つける。
特に、異なる周波数ビンは、周波数ビンおよびそれぞれの周波数自体のSNRによって重み付けされた、異なる票を有し得る。さらに、重み付けルールは、音源信号のDOAを見つける際の精度および感度の観点で重要な役割を果たし得る。例えば、一実施形態では、音源場所の方向検出は、約0.5度の精度誤差許容度を有するほど十分に有効であり得る。
図10、図11、および図12に示される極座標プロット1000、1100、および1200はそれぞれ、例示的な構造配置として40mm離間した8つの全方向性マイクロフォンのアレイによって受信される音信号のソースに対する推定角度を示すプロットである。極座標プロット1000および1100はそれぞれ、500Hzおよび8000Hzでのステアリング電力に関してプロットされているが、極座標プロット1200は、票の数に関してプロットされていることに留意されたい。極座標プロット1200は、マイクロフォンアレイを有する装置からの音源に対する推定角度が、この例示的な配置では約95度であることを容易に示す。さらに、図13は、上記の方法900を使用して計算される電力に対する音源までの距離のグラフ1300を示す。一実施形態では、以前に特定された角度推定に少なくとも部分的に基づいて、音源までの距離は、すべての候補距離の中で角度に沿った最大ステアリング電力を見つけることによって推定され得る。したがって、グラフ1300は、マイクロフォンアレイを有する装置からの音源までの距離が、この例では約2.1メートルであることを示す。
図14は、音源場所を検出するための本開示に関して論じられる方法を実行するために使用され得るコンピューティングシステム1400の例示的な概略図を示す。具体的には、コンピューティングシステム1400は、1つ以上のプロセッサ1402と、1つ以上のプロセッサ1402に、音源場所を検出するための1つ以上の方法を実行させる命令を含むメモリ1404と、を含み得る。1つ以上の入力/出力インターフェース(「I/Oインターフェース」)1406は、マイクロフォン1408のアレイとインターフェース接続するために含まれ得る。マイクロフォン1408のアレイは、水平のセットのマイクロフォン1410と、垂直のセットのマイクロフォン1412と、を含み得る。一実施形態では、コンピューティングシステム1400は、1つ以上のI/Oインターフェース1406を介して1つ以上のプロセッサ1402と通信可能に結合された撮像デバイス1414および/またはディスプレイデバイス1416をさらに含み得る。メモリ1404は、装置の情報および/または製品に関する情報を含む装置データストア1418を含み得る。メモリ1404は、装置および/もしくはコンピューティングシステム1400の性能を向上させるのに使用するための、ならびに/または統計分析のためなどの以前の分析データなどの情報を含む、分析情報データストア1420をさらに含み得る。
分析情報データストア1420は、1つ以上のI/Oインターフェース1406から受信される入力に基づいて計算を実行する分析ユニット1422と通信する。
メモリ1404は、ランダムアクセスメモリ(RAM)などの揮発性メモリおよび/または読み取り専用メモリ(ROM)もしくはフラッシュRAMなどの不揮発性メモリの形態でのコンピュータ可読媒体を含み得る。メモリ1404は、コンピュータ可読媒体の例である。
コンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報の記憶のための任意の方法または技術で実装される、揮発性および不揮発性、取り外し可能媒体および非取り外し可能媒体を含む。コンピュータ記憶媒体の例には、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他のタイプのランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、フラッシュメモリもしくは他のメモリ技術、コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)もしくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、またはコンピューティングデバイスによるアクセスのための情報を記憶するために使用され得る任意の他の非伝送媒体が含まれるが、これらに限定されない。本明細書で定義されるように、コンピュータ可読媒体は、変調されたデータ信号および搬送波などの一時的な媒体を含まない。
例示の節
A:ノイズの多い環境でターゲット音のソース場所を検出するための装置であって、ハウジングと、ハウジングとともに配置されたマイクロフォンのアレイであって、直線的に整列された水平のセットのマイクロフォンと、直線的に整列された垂直のセットのマイクロフォンと、を含む、マイクロフォンのアレイと、マイクロフォンのアレイと通信可能に結合された1つ以上のプロセッサと、1つ以上のプロセッサと通信可能に結合されたメモリであって、実行されると1つ以上のプロセッサに、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンからターゲット音を含むオーディオ信号を受信することと、装置に関するオーディオ信号でのターゲット音のソース場所を特定することであって、オーディオ信号を分析することであって、水平のセットのマイクロフォンに関して、ターゲット音のソース場所に対する水平方向を特定することと、垂直のセットのマイクロフォンに関して、ターゲット音のソース場所に対する垂直方向を特定することと、を含む、分析することと、ターゲット音のソース場所と装置との間の距離を計算することと、を含む、特定することと、を含む、動作を実行させる、命令を含む、メモリと、を備える、装置。
B:オーディオ信号が、ターゲット音とは異なり、かつ別個のソース場所から受信される、少なくとも1つの別個の音をさらに含み、動作が、装置に関するオーディオ信号での別個の音の別個のソース場所を特定することと、別個の音をターゲット音から区別することと、をさらに含む、段落Aに記載の装置。
C:別個の音をターゲット音から区別することが、別個の音の別個のソース場所の画像を取得することと、画像が人間の顔の正面図に対応しているかどうかを特定することと、画像が人間の顔の正面図に対応していないという特定に応答して、別個の音を干渉音として無視することと、を含む、段落A~Bのいずれかに記載の装置。
D:ターゲット音のソース場所に対する水平方向を特定することが、オーディオ信号から計算される電力出力を最大化する水平候補場所を特定することを含み、水平候補場所が、装置の位置に関するターゲット音のソース場所の配向の角度測定の表現である、段落A~Cのいずれかに記載の装置。
E:ターゲット音のソース場所に対する垂直方向を特定することが、オーディオ信号から計算される電力出力を最大化する垂直候補場所を特定することを含み、垂直候補場所が、装置の位置に関するターゲット音のソース場所の配向の角度測定の表現である、段落A~Dのいずれかに記載の装置。
F:オーディオ信号を分析することが、オーディオ信号の最も高い信号対ノイズ比(SNR)特性について最も高い重みが与えられる重み係数を適用することをさらに含む、段落A~Eのいずれかに記載の装置。
G:オーディオ信号を分析することが、オーディオ信号の最も低い周波数特性について最も高い重みが与えられる重み係数を適用することをさらに含む、段落A~Fのいずれかに記載の装置。
H:オーディオ信号を分析することが、空間領域データを使用してバックグラウンドノイズを推定することをさらに含み、適応レートが、オーディオ信号のピークの高さに依存する、段落A~Gのいずれかに記載の装置。
I:オーディオ信号での音のそれぞれのソース場所を検出するためのシステムであって、直線的に整列された水平のセットのマイクロフォンおよび直線的に整列された垂直のセットのマイクロフォンからオーディオ信号を受信するように構成された、1つ以上のプロセッサと、1つ以上のプロセッサと通信可能に結合されたメモリであって、実行されると1つ以上のプロセッサに、水平のセットのマイクロフォンから、および垂直のセットのマイクロフォンから、オーディオ信号を受信することと、オーディオ信号での音のそれぞれのソース場所を特定することであって、オーディオ信号を分析することであって、水平のセットのマイクロフォンに関して、音のそれぞれのソース場所に対するそれぞれの水平方向を特定することと、垂直のセットのマイクロフォンに関して、音のそれぞれのソース場所に対するそれぞれの垂直方向を特定することと、を含む、分析することと、音のそれぞれのソース場所と、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンとの間の距離を計算することと、を含む、特定することと、を含む、動作を実行させる、命令を含む、メモリと、を備える、システム。
J:オーディオ信号での音が、干渉音と、ターゲット音と、を含み、動作が、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンに関して、干渉音およびターゲット音のそれぞれのソース場所を特定することと、画像分析を介して、干渉音をターゲット音から区別することと、をさらに含む、段落Jに記載のシステム。
K:動作が、ターゲット音の理解を最適化し、干渉音からの干渉を最小化するために、音のそれぞれのソース場所を使用してノイズ低減アルゴリズムを実行することをさらに含む、段落I~Jのいずれかに記載のシステム。
L:音のソース場所に対する水平方向をそれぞれ特定することが、オーディオ信号から計算される電力出力を最大化する水平候補場所をそれぞれ特定することを含み、水平候補場所が、水平のセットのマイクロフォンに関する音のソース場所の配向の角度測定として計算される、段落I~Kのいずれかに記載のシステム。
M:音のソース場所に対する垂直方向をそれぞれ特定することが、オーディオ信号から計算される電力出力を最大化する垂直候補場所をそれぞれ特定することを含み、垂直候補場所が、垂直のセットのマイクロフォンに関する音のソース場所の配向の角度測定として計算される、段落I~Lのいずれかに記載のシステム。
N:オーディオ信号を分析することが、オーディオ信号の最も高い信号対ノイズ比(SNR)特性について最も高い重みが与えられる重み係数を適用することをさらに含む、段落I~Mのいずれかに記載のシステム。
O:オーディオ信号を分析することが、オーディオ信号の最も低い周波数特性について最も高い重みが与えられる重み係数を適用することをさらに含む、段落I~Nのいずれかに記載のシステム。
P:オーディオ信号での音のそれぞれのソース場所を検出する方法であって、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンを介してオーディオ信号を受信することであって、水平のセットのマイクロフォンが、直線的に整列されており、垂直のセットのマイクロフォンが、直線的に整列されている、受信することと、オーディオ信号での音のそれぞれのソース場所を特定することであって、オーディオ信号を分析することであって、水平のセットのマイクロフォンに関して、音のそれぞれのソース場所に対するそれぞれの水平方向を特定することと、垂直のセットのマイクロフォンに関して、音のそれぞれのソース場所に対するそれぞれの垂直方向を特定することと、を含む、分析することと、音のそれぞれのソース場所と、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンとの間の距離を計算することと、を含む、特定することと、を含む、方法。
Q:オーディオ信号での音のソース場所をそれぞれ見るように撮像デバイスを向けることをさらに含む、段落Pに記載の方法。
R:オーディオ信号での音における音が、干渉音またはターゲット音であるかを特定することと、任意の干渉音を無視することと、をさらに含む、段落P~Qのいずれかに記載の方法。
S:音声認識を実行し、ターゲット音の意味を解読するために、ターゲット音をプロセッサに送信することをさらに含む、段落P~Rのいずれかに記載の方法。
T:音が干渉音またはターゲット音であるかを特定することが、わずか20ミリ秒で区別可能である、段落P~Sのいずれかに記載の方法。
結論
いくつかの実施形態は、構造的特徴および/または方法論的動作に特有の文言で説明してきたが、特許請求の範囲は、必ずしも説明される特定の特徴または動作に限定されるものではないことを理解されたい。むしろ、特定の特徴および動作は、特許請求された主題を実装する例示的な形態として開示されている。

Claims (20)

  1. ノイズの多い環境でターゲット音のソース場所を検出するための装置であって、前記ターゲット音が音声認識するための音声コマンドを含み、
    ハウジングと、
    前記ハウジングとともに配置されたマイクロフォンのアレイであって、
    直線的に整列された水平のセットのマイクロフォンと、
    直線的に整列された垂直のセットのマイクロフォンと、を含む、マイクロフォンのアレイと、
    マイクロフォンの前記アレイと通信可能に結合された1つ以上のプロセッサと、
    前記1つ以上のプロセッサと通信可能に結合されたメモリであって、実行されると前記1つ以上のプロセッサに、
    前記水平のセットのマイクロフォンおよび前記垂直のセットのマイクロフォンから前記ターゲット音を含むオーディオ信号を受信することと、
    前記装置に関する前記オーディオ信号での前記ターゲット音のソース場所を特定することであって、
    前記オーディオ信号を分析することであって、
    前記水平のセットのマイクロフォンに関して、前記ターゲット音の前記ソース場所に対する水平方向を特定することと、
    前記垂直のセットのマイクロフォンに関して、前記ターゲット音の前記ソース場所に対する垂直方向を特定することと、を含む、分析することと、
    前記ターゲット音の前記ソース場所と前記装置との間の距離を計算することと、を含む、特定することと、を含む、動作を実行させる、命令を含む、メモリと、を備える、装置。
  2. 前記オーディオ信号が、前記ターゲット音とは異なり、かつ別個のソース場所から受信される、少なくとも1つの別個の音をさらに含み、
    前記動作が、
    前記装置に関する前記オーディオ信号での前記別個の音の前記別個のソース場所を特定することと、
    前記別個の音を前記ターゲット音から区別することと、をさらに含む、請求項1に記載の装置。
  3. 前記別個の音を前記ターゲット音から区別することが、
    前記別個の音の前記別個のソース場所の画像を取得することと、
    前記画像が人間の顔の正面図に対応しているかどうかを特定することと、
    前記画像が人間の顔の正面図に対応していないという特定に応答して、前記別個の音を干渉音として無視することと、を含む、請求項2に記載の装置。
  4. 前記ターゲット音の前記ソース場所に対する前記水平方向を特定することが、前記オーディオ信号から計算される電力出力を最大化する水平候補場所を特定することを含み、前記水平候補場所が、前記装置の位置に関する前記ターゲット音の前記ソース場所の配向の角度測定の表現である、請求項1に記載の装置。
  5. 前記ターゲット音の前記ソース場所に対する前記垂直方向を特定することが、前記オーディオ信号から計算される電力出力を最大化する垂直候補場所を特定することを含み、前記垂直候補場所が、前記装置の位置に関する前記ターゲット音の前記ソース場所の配向の角度測定の表現である、請求項1に記載の装置。
  6. 前記オーディオ信号を分析することが、前記オーディオ信号の最も高い信号対ノイズ比(SNR)特性について最も高い重みが与えられる重み係数を適用することをさらに含む、請求項1に記載の装置。
  7. 前記オーディオ信号を分析することが、前記オーディオ信号の最も低い周波数特性について最も高い重みが与えられる重み係数を適用することをさらに含む、請求項1に記載の装置。
  8. 前記オーディオ信号を分析することが、空間領域データを使用してバックグラウンドノイズを推定することをさらに含み、
    適応レートが、前記オーディオ信号のピークの高さに依存する、請求項1に記載の装置。
  9. オーディオ信号での音のそれぞれのソース場所を検出するためのシステムであって、前記オーディオ信号での音が、音声認識するための音声コマンドを含むターゲット音を含み、
    直線的に整列された水平のセットのマイクロフォンおよび直線的に整列された垂直のセットのマイクロフォンから前記オーディオ信号を受信するように構成された、1つ以上のプロセッサと、
    前記1つ以上のプロセッサと通信可能に結合されたメモリであって、実行されると前記1つ以上のプロセッサに、
    前記水平のセットのマイクロフォンから、および前記垂直のセットのマイクロフォンから、前記オーディオ信号を受信することと、
    前記オーディオ信号での前記音の前記それぞれのソース場所を特定することであって、
    前記オーディオ信号を分析することであって、
    前記水平のセットのマイクロフォンに関して、前記音の前記それぞれのソース場所に対するそれぞれの水平方向を特定することと、
    前記垂直のセットのマイクロフォンに関して、前記音の前記それぞれのソース場所に対するそれぞれの垂直方向を特定することと、を含む、分析することと、
    前記音の前記それぞれのソース場所と、前記水平のセットのマイクロフォンおよび前記垂直のセットのマイクロフォンとの間の距離を計算することと、を含む、特定することと、を含む、動作を実行させる、命令を含む、メモリと、を備える、システム。
  10. 前記オーディオ信号での前記音が、干渉音と、ターゲット音と、を含み、
    前記動作が、
    前記水平のセットのマイクロフォンおよび前記垂直のセットのマイクロフォンに関して、前記干渉音および前記ターゲット音の前記それぞれのソース場所を特定することと、
    画像分析を介して、前記干渉音を前記ターゲット音から区別することと、をさらに含む、請求項9に記載のシステム。
  11. 前記動作が、前記ターゲット音の理解を最適化し、前記干渉音からの干渉を最小化するために、前記音の前記それぞれのソース場所を使用してノイズ低減アルゴリズムを実行することをさらに含む、請求項10に記載のシステム。
  12. 前記音の前記それぞれのソース場所に対する前記それぞれの水平方向を特定することが、前記オーディオ信号から計算される電力出力を最大化する水平候補場所をそれぞれ特定することを含み、前記水平候補場所が、前記水平のセットのマイクロフォンに関する前記音の前記ソース場所の配向の角度測定として計算される、請求項9に記載のシステム。
  13. 前記音の前記それぞれのソース場所に対する前記それぞれの垂直方向を特定することが、前記オーディオ信号から計算される電力出力を最大化する垂直候補場所をそれぞれ特定することを含み、前記垂直候補場所が、前記垂直のセットのマイクロフォンに関する前記音の前記ソース場所の配向の角度測定として計算される、請求項9に記載のシステム。
  14. 前記オーディオ信号を分析することが、前記オーディオ信号の最も高い信号対ノイズ比(SNR)特性について最も高い重みが与えられる重み係数を適用することをさらに含む、請求項9に記載のシステム。
  15. 前記オーディオ信号を分析することが、前記オーディオ信号の最も低い周波数特性について最も高い重みが与えられる重み係数を適用することをさらに含む、請求項9に記載のシステム。
  16. オーディオ信号での音のそれぞれのソース場所を検出する方法であって、前記オーディオ信号での音が、音声認識するための音声コマンドを含むターゲット音を含み、
    水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンを介して前記オーディオ信号を受信することであって、前記水平のセットのマイクロフォンが、直線的に整列されており、前記垂直のセットのマイクロフォンが、直線的に整列されている、受信することと、
    前記オーディオ信号での前記音の前記それぞれのソース場所を特定することであって、
    前記オーディオ信号を分析することであって、
    前記水平のセットのマイクロフォンに関して、前記音の前記それぞれのソース場所に対するそれぞれの水平方向を特定することと、
    前記垂直のセットのマイクロフォンに関して、前記音の前記それぞれのソース場所に対するそれぞれの垂直方向を特定することと、を含む、分析することと、
    前記音の前記それぞれのソース場所と、前記水平のセットのマイクロフォンおよび前記垂直のセットのマイクロフォンとの間の距離を計算することと、を含む、特定することと、を含む、方法。
  17. 前記オーディオ信号での前記音の前記ソース場所をそれぞれ見るように撮像デバイスを向けることをさらに含む、請求項16に記載の方法。
  18. 前記オーディオ信号での前記音における音が、干渉音またはターゲット音であるかを特定することと、
    任意の干渉音を無視することと、をさらに含む、請求項16に記載の方法。
  19. 音声認識を実行し、前記ターゲット音の意味を解読するために、前記ターゲット音をプロセッサに送信することをさらに含む、請求項18に記載の方法。
  20. 音が干渉音またはターゲット音であるかを特定することが、わずか20ミリ秒で区別可能である、請求項18に記載の方法。
JP2020573164A 2018-08-06 2018-12-14 音源場所検出のための方法および装置 Active JP7114752B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/056,386 US10206036B1 (en) 2018-08-06 2018-08-06 Method and apparatus for sound source location detection
US16/056,386 2018-08-06
PCT/US2018/065716 WO2020032992A1 (en) 2018-08-06 2018-12-14 Method and apparatus for sound source location detection

Publications (2)

Publication Number Publication Date
JP2021533595A JP2021533595A (ja) 2021-12-02
JP7114752B2 true JP7114752B2 (ja) 2022-08-08

Family

ID=65241766

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020573164A Active JP7114752B2 (ja) 2018-08-06 2018-12-14 音源場所検出のための方法および装置

Country Status (5)

Country Link
US (1) US10206036B1 (ja)
JP (1) JP7114752B2 (ja)
CN (1) CN113056925B (ja)
SG (1) SG11202012422SA (ja)
WO (1) WO2020032992A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11467646B2 (en) * 2019-03-28 2022-10-11 Lenovo (Singapore) Pte. Ltd. Context data sharing
KR102663375B1 (ko) * 2019-10-23 2024-05-08 엘지전자 주식회사 음성 및 영상 자동 포커싱 방법 및 장치
CN113138367B (zh) * 2020-01-20 2024-07-26 中国科学院上海微系统与信息技术研究所 一种目标定位方法、装置、电子设备及存储介质
CN111679248B (zh) * 2020-05-15 2023-04-21 黑龙江工程学院 一种基于海底水平l型阵列的目标方位和距离联合稀疏重构定位方法
CN111880146B (zh) * 2020-06-30 2023-08-18 海尔优家智能科技(北京)有限公司 声源定向方法和装置及存储介质
CN112285648B (zh) * 2020-10-13 2022-11-01 西北工业大学 一种基于声源定位的增强现实系统与方法
CN112261528B (zh) * 2020-10-23 2022-08-26 汪洲华 一种多路定向拾音的音频输出方法及系统
US11990152B2 (en) * 2020-11-13 2024-05-21 Arris Enterprises Llc Classification of audio as originating from a human source or a non-human to avoid false wake-word detection
CN112562730A (zh) * 2020-11-24 2021-03-26 北京华捷艾米科技有限公司 一种声源分析方法及系统
CN112437391B (zh) * 2020-12-09 2022-02-18 思必驰科技股份有限公司 用于开放环境的麦克风测试方法及系统
CN112729742B (zh) * 2020-12-25 2023-08-22 西安理工大学 一种基于概率成像的冲击定位方法
CN112684412B (zh) * 2021-01-12 2022-09-13 中北大学 一种基于模式聚类的声源定位方法及系统
WO2022196921A1 (ko) * 2021-03-17 2022-09-22 주식회사 디엠랩 인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치
CN113553931A (zh) * 2021-07-14 2021-10-26 浙江讯飞智能科技有限公司 异常目标检测方法、装置、电子设备、存储介质和系统
WO2023284562A1 (zh) * 2021-07-14 2023-01-19 海信视像科技股份有限公司 控制设备、家电设备以及控制方法
CN113707149A (zh) * 2021-08-30 2021-11-26 维沃移动通信有限公司 音频处理方法和装置
CN114242072A (zh) * 2021-12-21 2022-03-25 上海帝图信息科技有限公司 一种用于智能机器人的语音识别系统
CN114417665B (zh) * 2022-01-11 2024-06-28 南京安广电力设备有限公司 一种风机机舱设备异常声音检测方法及装置
CN117665705A (zh) * 2022-08-26 2024-03-08 华为技术有限公司 发出、接收声音信号以及检测设备间相对位置的方法
CN115295000B (zh) * 2022-10-08 2023-01-03 深圳通联金融网络科技服务有限公司 提高多对象说话场景下语音识别准确性的方法、装置及设备
CN115331366A (zh) * 2022-10-17 2022-11-11 南昌航天广信科技有限责任公司 一种基于智能音箱的防盗方法、系统及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000134688A (ja) 1998-10-28 2000-05-12 Fujitsu Ltd マイクロホンアレイ装置
JP2003304589A (ja) 2002-03-27 2003-10-24 Samsung Electronics Co Ltd 直交円形マイクアレイシステム及びこれを用いた音源の3次元方向検出方法
JP2009199158A (ja) 2008-02-19 2009-09-03 Hitachi Ltd 音響ポインティングデバイス、音源位置のポインティング方法及びコンピュータシステム
JP2011124749A (ja) 2009-12-10 2011-06-23 Funai Electric Co Ltd 音源探査装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5801026B2 (ja) * 2009-05-28 2015-10-28 株式会社ザクティ 画像音響処理装置及び撮像装置
WO2016183791A1 (zh) * 2015-05-19 2016-11-24 华为技术有限公司 一种语音信号处理方法及装置
CN107993671A (zh) * 2017-12-04 2018-05-04 南京地平线机器人技术有限公司 声音处理方法、装置和电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000134688A (ja) 1998-10-28 2000-05-12 Fujitsu Ltd マイクロホンアレイ装置
JP2003304589A (ja) 2002-03-27 2003-10-24 Samsung Electronics Co Ltd 直交円形マイクアレイシステム及びこれを用いた音源の3次元方向検出方法
JP2009199158A (ja) 2008-02-19 2009-09-03 Hitachi Ltd 音響ポインティングデバイス、音源位置のポインティング方法及びコンピュータシステム
JP2011124749A (ja) 2009-12-10 2011-06-23 Funai Electric Co Ltd 音源探査装置

Also Published As

Publication number Publication date
US10206036B1 (en) 2019-02-12
JP2021533595A (ja) 2021-12-02
CN113056925A (zh) 2021-06-29
WO2020032992A1 (en) 2020-02-13
CN113056925B (zh) 2022-08-02
SG11202012422SA (en) 2021-01-28

Similar Documents

Publication Publication Date Title
JP7114752B2 (ja) 音源場所検出のための方法および装置
US11398235B2 (en) Methods, apparatuses, systems, devices, and computer-readable storage media for processing speech signals based on horizontal and pitch angles and distance of a sound source relative to a microphone array
US20210092515A1 (en) Sound Processing Method and Interactive Device
EP2800402B1 (en) Sound field analysis system
Brandstein et al. A practical methodology for speech source localization with microphone arrays
Nakadai et al. Real-time sound source localization and separation for robot audition.
Aarabi et al. Robust sound localization using multi-source audiovisual information fusion
Nakadai et al. Improvement of recognition of simultaneous speech signals using av integration and scattering theory for humanoid robots
JP6467736B2 (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
CN110858488A (zh) 语音活动检测方法、装置、设备及存储介质
Cech et al. Active-speaker detection and localization with microphones and cameras embedded into a robotic head
WO2020024816A1 (zh) 音频信号处理方法、装置、设备和存储介质
JP2010121975A (ja) 音源定位装置
JP2014098568A (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
Brutti et al. Localization of multiple speakers based on a two step acoustic map analysis
Zhang et al. Ambiear: mmwave based voice recognition in nlos scenarios
Salvati et al. Incident signal power comparison for localization of concurrent multiple acoustic sources
Nakadai et al. Sound source tracking with directivity pattern estimation using a 64 ch microphone array
CN111863005A (zh) 声音信号获取方法和装置、存储介质、电子设备
Sanchez-Matilla et al. Multi-modal localization and enhancement of multiple sound sources from a micro aerial vehicle
Plinge et al. Geometry calibration of distributed microphone arrays exploiting audio-visual correspondences
Nakadai et al. Footstep detection and classification using distributed microphones
Zhao et al. Design and evaluation of a prototype system for real-time monitoring of vehicle honking
WO2022042864A1 (en) Method and apparatus for measuring directions of arrival of multiple sound sources
Nguyen et al. Selection of the closest sound source for robot auditory attention in multi-source scenarios

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211210

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211210

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220727

R150 Certificate of patent or registration of utility model

Ref document number: 7114752

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150