JP2005253071A - マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法 - Google Patents

マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法 Download PDF

Info

Publication number
JP2005253071A
JP2005253071A JP2005045471A JP2005045471A JP2005253071A JP 2005253071 A JP2005253071 A JP 2005253071A JP 2005045471 A JP2005045471 A JP 2005045471A JP 2005045471 A JP2005045471 A JP 2005045471A JP 2005253071 A JP2005253071 A JP 2005253071A
Authority
JP
Japan
Prior art keywords
noise
target
microphone
microphone array
array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005045471A
Other languages
English (en)
Other versions
JP4690072B2 (ja
Inventor
Henrique S Malvar
エス.マルバール エンリケ
Ivan Tashev
タシェフ イワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005253071A publication Critical patent/JP2005253071A/ja
Application granted granted Critical
Publication of JP4690072B2 publication Critical patent/JP4690072B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B29/00Maps; Plans; Charts; Diagrams, e.g. route diagram
    • G09B29/003Maps
    • G09B29/006Representation of non-cartographic information on maps, e.g. population distribution, wind direction, radiation levels, air and sea routes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B42BOOKBINDING; ALBUMS; FILES; SPECIAL PRINTED MATTER
    • B42DBOOKS; BOOK COVERS; LOOSE LEAVES; PRINTED MATTER CHARACTERISED BY IDENTIFICATION OR SECURITY FEATURES; PRINTED MATTER OF SPECIAL FORMAT OR STYLE NOT OTHERWISE PROVIDED FOR; DEVICES FOR USE THEREWITH AND NOT OTHERWISE PROVIDED FOR; MOVABLE-STRIP WRITING OR READING APPARATUS
    • B42D7/00Newspapers or the like

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Ecology (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】 マイクロフォン・アレイ(MAと略す)用の最適化されたビーム・フォーミング(BFと略す)解決策を提供すること。
【解決手段】 MAのマイクロフォンからの複数信号を組み合わせる能力が、BFに使用される。通常、BFには、MAに鋭い指向性のマイクロフォンとして働かせる形でMAの出力オーディオ信号を処理することが含まれる。換言すると、BFは、しばしば他の音を排除しながら特定の音源を強調する「リスニング・ビーム」を提供する。ここで説明する「包括的ビーム・フォーマ」は、指定された探索領域内の所望の角度空間範囲をカバーするビームのセット(即ち、BF)を自動的に設計する。ビーム設計は、マイクロフォンの幾何学的配置および動作特性の関数であり、MAの周囲の環境雑音モデルの関数でもある。包括的ビーム・フォーマの長所の1つは、すべてのMA幾何学的配置およびマイクロフォン・タイプに適用可能であることである。
【選択図】 図2




Description

本発明は、マイクロフォン・アレイを使用するビーム・ステアリング(beamsteering)手法を使用して、所定の探索領域内のサウンド・ソースの方向を見つけることに関し、具体的には、任意のマイクロフォン・アレイの幾何学的配置および任意のタイプのマイクロフォンに対しての自動ビームフォーミング(beamforming)を提供するシステムおよび方法に関する。
所定の領域内のサウンドのソースまたは方向のローカライゼーション(localization:位置測定)が、多くのシステムの重要な要素である。例えば、多数の普通のオーディオ会議アプリケーションは、特定のポイントまたは方向から発する音声またはサウンドを効果的に分離し、望み通りに処理することを可能にするために、従来のサウンド・ソース・ローカライゼーション(SSL)にマイクロフォン・アレイを使用する
例えば、普通のマイクロフォン・アレイは、通常、ある所定のレイアウトのマイクロフォンの配置が含まれる。これらのマイクロフォンは、一般に、様々な方向からの、空間内の異なるポイントから発する音波を同時にキャプチャするのに使用される。SSLなどの従来の技法を使用して、音波のソースをローカライズし、雑音を減らすためにこれらの信号を処理する。従来のSSL処理の1タイプでは、特定のサンド・ソースへの方向を見つけるのに、ビーム・ステアリング技法が使用される。言い換えると、ビーム・ステアリング技法は、マイクロフォン・アレイを非常に指向性のマイクロフォンとして働かせ、サウンド・ソースに「リスニング・ビーム」を向けるようにする形で、すべてのマイクロフォンからの信号を組み合わせるのに使用される。次に、サウンド・キャプチャは、そのビーム以外の方向から来るサウンドについて減衰される。そのような技法を用いると、マイクロフォン・アレイが、環境雑音および反響波(壁および室内の物体でのサウンドの反射によって生成される)の一部を抑制できるようになり、したがって、ターゲット・ビーム内から発するサウンド信号に対してより高い信号対雑音比(SNR)を提供する。
ビーム・ステアリングは、通常、ビームをステアリングまたはターゲティングして、所望の空間的領域または範囲内のサウンド・キャプチャを提供することを可能にし、これによって、その範囲から記録されるサウンドの信号対雑音比(SNR)を改善する。したがって、ビーム・ステアリングは、空間フィルタリングすなわち、「ビーム」をサウンド・ソースに向け、他の方向から来る雑音を抑制する際に重要な役割を演ずる。いくつかの場合に、サウンド・ソースへの方向が、話者トラッキング(speaker tracking)および記録されたオーディオ信号の後処理に使用される。ビデオ会議システムの文脈では、話者トラッキングは、しばしば、話している人にビデオ・カメラを動的に向けるのに使用される。
一般に、当業者に周知のように、ビーム・ステアリングは、指定された領域内の特定の角度範囲をカバーするように設計されたビームのセットを形成するビーム・フォーミング技法の使用を必要とする。ビーム・フォーマ(beamformer)は、基本的に、空間フィルタであり、それは、背景雑音および方向性干渉(directional interference)に比較してコヒーレント波面の振幅を増やすために、マイクロフォンなどのセンサのアレイの出力に作用する。信号処理演算器(通常は線形フィルタ)のセットが、各センサからの信号に適用され、これらのフィルタの出力が組み合わされてビームを形成し、特定の角度範囲からの入力を増強し、他の角度範囲からの入力を減衰させるように、このビームが向けられ、あるいはステアリングされる。
ステアリングされたビームの「指す方向(pointing direction)」を、しばしば、最大応答角度または主応答角度(maximum or main response angle:MRA)と称し、MRAは、ビームについて任意に選択することができる。言い換えると、ビーム・フォーミング技法は、複数のセンサからの入力を処理して、望みの方向の狭い角度応答領域(MRA)を有するステアリング可能なビームのセットを作成するのに使用される。その結果、所与のビーム内からサウンドが受け取られるときに、そのサウンドの向きがわかり(すなわちSSL)、他のビームから発するサウンドを、望みどおりにフィルタリングまたは他の形で処理することができる。
従来のビーム・フォーミング・アルゴリズムの1種では、既知のマイクロフォン・アレイ幾何学的配置に対するパラメトリック解を見つけることによって、最適の雑音抑制を提供することを試みる。残念ながら、そのような手法が、非常に複雑であり、したがって計算オーバーヘッドが大きいことの結果として、最適解ではなく、近最適解を見つけることが強調されてきた。この手法を、しばしば、「固定ビーム形成(fixed-beam formation)」と称する。
米国特許第6,487,574号明細書 米国特許第6,496,795号明細書 S. Nordholm, I. Claesson, M. Dahl. "Adaptive microphone array employing calibration signals; an analytical evaluation". IEEE Trans. on Speech and Audio Processing, vol. 6, pp. 241-252, May 1999. D. A. Florencio and H. S. Malvor, "Multichannel filtering for optimum noise reduction in microphone arrays, "Proc. International Conference on Acoustic, Speech, and Signal Processing, pp. 197-200, May 2001. M. Seltzer, B. Raj. "Calibration of Microphone arrays for improved speech recognition". Mitsubishi Research Laboratories Technical Report, TR-2001-43, Dec. 2001. H. Teutsch and G. Elko. "An adaptive close-talking microphone array," Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustic, pp. 163-166, Oct. 2001. H. Wang and P. Chu, "Voice source localization for automatic camera pointing system in videoconferencing," Proc. International Conference on Acoustic, Speech, and Signal Processing, pp. 187-190, April 1997. R. Duraiswami, D. Zotkin, and L. S. Davis, "Active speech source localization by a dual coarse-to-fine search," Proc. International Conference on Acoustic, Speech, and Signal Processing, pp. 3309-3312, May 2001.
一般に、固定ビーム形成の場合、そのビーム形状は、周囲の雑音およびサウンド・ソース位置の変化に適応しない。さらに、そのような手法によって提供される近最適解は、オフ・ビーム・サウンドまたは雑音に関する近最適雑音抑制だけを提供する傾向がある。その結果、通常、そのような従来のビーム・フォーミング技法によって提供される雑音抑制またはサウンド抑制において、改善の余地がある。最終的に、そのようなビーム・フォーミング・アルゴリズムは、特定のマイクロフォン・アレイに使用することに特に適合される傾向がある。その結果、特定のマイクロフォン・アレイ用に設計されたビーム・フォーミング技法は、異なる幾何学的配置の別のマイクロフォン・アレイに適用されるときに、許容可能な結果を提供しない可能性がある。
他の従来のビーム・フォーミング技法は、「適応ビーム・フォーミング」と称する技法を用いる。そのような技法は、マイクロフォン・アレイ幾何学的配置の先見的知識にほとんどまたはまったく基づかずに、雑音抑制を提供することができる。そのようなアルゴリズムは、時間の関数としての最適解に収束することを試みることによって環境雑音または背景雑音の変化およびサウンド・ソース位置に適合し、これによって、収束後の最適雑音抑制を提供する。残念ながら、そのような技法の短所の1つが、かなりの量の計算を必要とすること、および適応が遅いことであり、このことは、このような技法が、応用シナリオでの様々なバラエティに対する堅牢さを少なくする。
その結果、必要なものは、マイクロフォン・アレイ用のよりよく最適化されたビーム・フォーミング解決策を提供するシステムおよび方法である。さらに、そのようなシステムおよび方法は、計算オーバーヘッドを減らし、その結果、リアル・タイム・ビーム・フォーミングを実現しなければならない。最後に、そのようなシステムおよび方法は、任意の幾何学的配置の、すべてのタイプのマイクロフォンを含むマイクロフォン・アレイに適用可能でなければならない。
マイクロフォン・アレイ内のマイクロフォンからキャプチャされた複数のオーディオ信号を組み合わせる能力が、ビーム・フォーミング・システムで頻繁に使用される。一般に、ビーム・フォーミング動作は、マイクロフォン・アレイ、ソナー・アレイ、指向性ラジオ・アンテナ・アレイ、レーダー・アレイなどを含む複数の受信アレイの信号の処理に適用可能である。例えば、マイクロフォン・アレイの場合、ビーム・フォーミングは、マイクロフォン・アレイを非常に指向性のマイクロフォンとして働かせる形でマイクロフォン・アレイの出力オーディオ信号を処理することが含まれる。言い換えると、ビーム・フォーミングは、例えば反射、反響、干渉、および主ビームの以外の方向またはポイントから来るサウンドまたは雑音を含む他のサウンドおよび雑音を減衰させながら、特定のサウンド・ソースをポイントし、受け取る「リスニング・ビーム」を提供する。そのようなビームを向けること(pointing)を、通常は「ビーム・ステアリング」と称する。
ビーム・フォーミング・システムが、しばしば、複数のタイプの雑音除去または他のフィルタリングもしくは後処理をビーム・フォーマの信号出力に適用することに留意されたい。さらに、ビーム・フォーミング動作に先だって、センサ・アレイ出力の時間領域または周波数領域の前処理も、しばしば従来のビーム・フォーミング・システムで使用されている。しかし、説明のために、以下の議論では、任意の幾何学的配置およびマイクロフォン・タイプから構成されるマイクロフォン・アレイのビーム・フォーミング設計に焦点を合わせること、および、ビーム・フォーミング動作およびビーム・ステアリング動作から生じる空間フィルタリングの自然な結果である雑音除去だけを検討すること、とする。ビーム・フォーマ入力またはビーム・フォーマ出力についてのすべての所望の従来の事前のまたは事後の処理またはフィルタリングは、本明細書で提供される包括的ビーム・フォーマの説明の範囲に含まれると理解されたい。
本明細書で使用する「包括的ビーム・フォーマ」は、所望の角度空間範囲をカバーするビームのセットを自動的に設計する(すなわち、ビーム・フォーミング)。しかし、普通のビーム・フォーミング技法と異なって、本明細書に記載の包括的ビーム・フォーマは、すべてのマイクロフォン・アレイ幾何学的配置およびすべてのタイプのマイクロフォンに自動的に適合することができる。具体的に言うと、包括的ビーム・フォーマは、環境雑音ソースおよびオフ・ビーム雑音ソースの最適の減衰またはフィルタリングを提供しながら、インビーム・サウンド・ソースの最適信号対雑音比を提供するために周波数の関数として最適ビーム幅を決定することによって、任意の幾何学的配置およびマイクロフォン・タイプから成るマイクロフォン・アレイのステアリング可能ビームの最適化されたセットを自動的に設計する。包括的ビーム・フォーマは、ローカル雑音状態およびマイクロフォン・アレイ動作特性を与えられて最適の周波数依存ビーム幅を自動的に判定する新規の誤差最小化プロセスを介してこの自動ビーム・フォーミング設計を提供する。包括的ビーム・フォーマは、様々なタイプのセンサ・アレイに適用可能であるが、説明と明瞭さのために、以下の議論では、センサ・アレイが、既知の幾何学的配置およびマイクロフォン指向性を有する複数のマイクロフォンを含むマイクロフォン・アレイであると仮定することに留意されたい。
一般に、包括的ビーム・フォーマは、まず、周波数依存「重み行列」を計算することによって、マイクロフォン・アレイに関する最適固定ビームの設計を開始する。この「重み行列」の計算は、マイクロフォン・アレイの周囲の環境について自動的に生成されまたは計算される1つまたは複数の雑音モデルと組み合わせて、マイクロフォン・アレイの動作特性および幾何学的配置を記述するパラメトリック情報を使用してフォン行われる。この重み行列は、その後、マイクロフォン・アレイによって受け取られたオーディオ信号の周波数領域ビーム・フォーミング処理において、マイクロフォン・アレイの各マイクロフォンの出力の周波数領域重み付けに使用される。
重み行列に関して計算される各重みは、マイクロフォン・アレイの周囲のワーク・スペース全体に分布する所望の「フォーカス・ポイント(focus point)」について周波数領域重みを計算することによって決定される。この重み行列の各重みは、包括的ビーム・フォーマによって設計されるビームが、各周波数帯域のすべての特定のフォーカス・ポイントでの単位利得および0位相シフトという制約の下で、(計算された雑音モデルに基づく)最大の雑音抑制を提供するように最適化される。これらの制約は、「フォーカス幅(focus width)」と称する、フォーカス・ポイントの周囲の角度領域に適用される。この処理が、着目する周波数帯域ごとに繰り返され、これによって、すべての所与のフォーカス・ポイントの周波数の関数として変化する最適ビーム幅がもたらされる。
一実施形態で、ビーム・フォーミング処理が、MCLT(Modulated Complex Lapped Transform)と称する周波数領域技法を使用して達成される。しかし、本明細書に記載の概念で、例としてMCLT領域処理を使用するが、当業者であれば、例えば高速フーリエ変換(FFT)またはFFTベース・フィルタリング・バンクなどの他の周波数領域分解(frequency-domain decompositions)にこれらの概念を簡単に適用可能であることを認識されたい。この重みは、周波数領域重み付けのために計算されるので、ここでNが各オーディオ・フレーム内のMCLT周波数帯域(すなわちMCLTサブバンド)の個数、Mがアレイ内のマイクロフォンの個数である場合に、重み行列はN×M行列になることに留意されたい。したがって、例えば、MCLT計算用に320個の周波数ビンの使用を仮定すると、任意の特定のフォーカス・ポイントの最適ビーム幅は、320個のMCLT周波数係数ごとに入射角および周波数の関数として利得をプロットすることによって記述することができる。多数のMCLTサブバンド(例えば320個)を使用することによって、周波数領域技法の2つの重要な長所すなわち、i)各周波数サブバンドのビーム形状の微調整および、ii)計算的に効率的な実装を可能にする単一の複素数値利得係数への各サブバンドのフィルタ係数の単純化が可能になる、ことに留意されたい。
重み行列の計算に使用されるパラメトリック情報は、アレイ内のマイクロフォンの個数、アレイのマイクロフォンの幾何学的レイアウト、およびアレイの各マイクロフォンの指向性パターンが含まれる。重み行列の計算に使用するために生成される雑音モデルは、少なくとも3つのタイプの雑音を区別し、この3タイプには、等方性環境雑音(すなわち、「ホワイト・ノイズ」または他の比較的均一に分布する雑音などの背景雑音)、器械雑音(instrumental noise、マイクロフォン・アレイおよび外部コンピューティング・デバイスまたは他の外部電気デバイスへのアレイ接続の電気回路内の電気的アクティビティから生じる雑音)、およびポイント・ノイズ・ソース(point noise source、例えば、コンピュータ・ファン、開いた窓を介する交通雑音、抑制されなければならない話者など)が含まれる。
したがって、前述の雑音モデルを与えられれば、マイクロフォン・アレイの最適固定ビームの設計という問題に対する解は、数学的多次元最適化(シンプレックス、グラディエントなど)の方法を使用することによって解かれる通常の制約付き最小化問題に類似する。しかし、多モード超曲面(multimodal hypersurface)と見なすことができる比較的高次元の重み行列(周波数帯域ごとに2M個の実数、合計N×2M個の数)を与えられれば、この関数が非線形なので、多モード超曲面の点として最適重みを見つけることは、通常は極小値について複数の検査が必要なので、計算的に非常に負荷が重い。
その結果、一実施形態では、この多モード超曲面で最適点を直接に見つけるのではなく、包括的ビーム・フォーマは、まず、重み行列の計算の直接多次元最適化を、誤差最小化パターン合成と、その後の各周波数帯域に関する最適ビームフォーカスに向かう単一次元探索に置換する。ここで、例えば、最小二乗誤差(MMSE)計算、最小絶対誤差計算、min−max誤差計算、等リップル解(equiripple solutions)など、従来の誤差最小化技法を使用することができる。
一般に、重み行列の最適解を見つける際に、2つの矛盾する効果のバランスがとられる。具体的に言うと、ビーム形状の狭いフォーカス領域を与えられれば、環境雑音エネルギーは、指向性の向上に起因して自然に減少する。それとは別に、相関しない雑音(電気回路雑音を含む)は、自然に増加する。というのは、よりよい指向性の解決で、マイクロフォンからの出力信号間のますます小さくなる位相差が考慮され、これによって相関しない雑音が増やされるからである。逆に、ビーム形状のターゲット・フォーカス領域がより大きいときには、必然的により多くの環境雑音エネルギーが存在するが、より少ない無相関のエネルギーが存在する。
したがって、包括的ビーム・フォーマは、特定のフォーカス領域幅に関する最小誤差の計算で上記の要因のバランスを考慮して、アレイの各マイクロフォンの各MCLT周波数帯域の重み付けに関する最適解を特定する。この最適解は、特定のターゲット・ビーム形状に対する最小二乗(または他の誤差最小化技法)要件を満たす重みを特定するパターン合成を介して、決定される。幸い、この形でこの問題に対処することによって、線形連立方程式の数値解を使用してこの問題を解くことができ、これは、多次元最適化よりかなり速い。この最適化は、アレイの各個々のマイクロフォンの幾何学的配置および指向性に基づいて計算されるので、各特定の周波数帯域内であっても、マイクロフォン・アレイの周囲の所与のビームに対するターゲット・フォーカス・ポイントの関数として最適ビーム設計が変化することに留意されたい。
具体的に言うと、ビーム・フォーマ設計処理では、まず、「ターゲット・ビーム形状」のセットを、ある所望のターゲット・ビーム幅フォーカス領域(すなわち、2°、5°、10°など)の関数として定義する。一般に、1の最大値と0までの減衰を有するすべての普通の関数、例えば矩形関数、スプライン関数、コサイン関数などを、ターゲット・ビーム形状の定義に使用することができる。しかし、矩形関数などの突然変化する関数(abrupt functions)は、ビーム形状のリップルを引き起こす可能性がある。その結果、よりよい結果は、通常、例えばコサイン関数など、1から0まで滑らかに減衰する関数を使用することによって達成される。しかし、所望の関数が、1から0までの減衰関数(線形または非線形)または1から0までのレベルを強制するように重みを付けられた減衰関数の前述の制約に鑑みて、使用することができる。
ターゲット・ビーム形状を与えられると、各ターゲット・ポイントまたはフォーカス・ポイントが、特定のターゲット・ビーム形状の中、外、または遷移領域内のどれにあるかに対処するために、「ターゲット重み関数」が定義される。通常、ターゲット・ビーム幅の約1倍から3倍の推移領域が、よい結果をもたらすことが観察されているが、推移領域の最適サイズは、実際には、アレイ内のセンサのタイプおよびセンサ・アレイの周囲のワーク・スペースの環境に依存する。フォーカス・ポイントは、単に、(環状アレイに対しては等しい環状の広がり、または線形アレイに対しては等しい円弧の広がりを利用する)アレイの周囲のワーク・スペース全体に均等に分散する複数のポイント(マイクロフォンの数より多いことが好ましい)であることに留意されたい。ターゲット重み関数は、各ターゲット・ポイントが特定のターゲット・ビームに関してどこにあるかに依存して各ターゲット・ポイントに重みを付けるための利得を、提供する。
ターゲット重み関数を提供する目的は、ビーム・フォーマ計算で主ビームの外のポイントから発する信号の影響を最小にすることである。したがって、テストされた環境で、ターゲット・ビーム内のターゲット・ポイントは、1.0の利得(単位利得)を割り当てられ、推移領域内のターゲット・ポイントは、その影響を考慮しながらビーム・フォーミング計算に対するそのポイントの影響を最小にするために0.1の利得を割り当てられ、最後に、ターゲット・ビームの推移領域の外のポイントは、最終的に設計されるビームに対するサイドローブの振幅を、意識して大きく減らすために、2.0の利得を割り当てられる。推移領域の外のターゲット・ポイントの利得に大きすぎる値を使用することが、ターゲット・ビーム内のターゲット・ポイントの影響を圧倒し、これによって、より最適でないビーム・フォーミング計算がもたらされることに留意されたい。
次に、ターゲット・ビーム形状およびターゲット重み関数を与えられると、次のステップは、実際のビーム形状(実際のビーム形状としてアレイの各マイクロフォンの既知の指向性パターンを使用する)を各ターゲット・ポイントのターゲット・ビーム形状にあてはめる重みのセットを計算することである。この計算には、ターゲット・ビーム形状ごとに各MCLT周波数サブバンドの総雑音エネルギーを最小にするために誤差最小化技法が使用される。この計算に対する解は、実際のビーム形状をターゲット・ビーム形状に一致させる重みのセットである。しかし、この重みのセットは、各ワーク周波数バンドのフォーカス・ポイントでの単位利得および0位相シフトという前述の制約を必ずしも満たさない。言い換えると、重みの最初のセットは、ビーム内のサウンド・ソースの単一を超えるかこれ未満の利得をもたらす可能性がある。したがって、この計算された重みを正規化して、フォーカス・ポイントから発する信号に対して単位利得および0位相シフトが存在するようにする。
この時点で、包括的ビーム・フォーマは、ビーム幅の関数としての総雑音エネルギーの全体的な最小化をまだ考慮していない。したがって、1つの所望のターゲット・ビーム幅の重みを単純に計算するのではなく、上で説明したように、ターゲット・ビーム幅の範囲に対して、ある所定の最小の所望値からある所定の最大の所望の角度までの範囲の正規化された重みを計算する。ビーム幅ステップ・サイズは、望み通りに小さくまたは大きくすることができる(すなわち、0.5°、1°、2°、5°、10°のステップ・サイズまたは他のステップ・サイズを、望み通りに使用することができる)。その後、1次元最適化を使用して、各周波数帯域の最適ビーム幅を特定する。勾配降下(gradient descent)法、探索法など、複数の周知の非線形関数最適化技法のどれでも使用することができる。言い換えると、総雑音エネルギーは、所望の角度ステップ・サイズを使用して、ある範囲のターゲット・ビーム幅全体を通じてターゲット・ビーム幅ごとに計算される。これらの総雑音エネルギーを単純に比較して、各周波数で最小の総雑音エネルギーを示す各周波数でのビーム幅を特定する。最終結果は、センサ・アレイの周囲のターゲット・ポイントごとの周波数の関数として変化する最適化されたビーム幅である。
一実施形態で、この総最小雑音エネルギーは、雑音をすべての周波数範囲で同等に減衰させなければならないと仮定するのではなく、特定の周波数範囲に関する値として考慮されることに留意されたい。具体的に言うと、いくつかの場合に、ある周波数範囲でのみ総雑音エネルギーを最小化するか、特定の周波数範囲内の雑音だけを強く減衰させるかすることが望ましい。その場合に、この特定の周波数範囲は、最小の雑音エネルギーを有するターゲット・ビーム幅を特定する際にさらに考慮される。雑音が、特定の周波数範囲でより顕著であるかどうかを決定する形の1つが、単に普通の周波数分析を実行して、特定の周波数範囲の雑音エネルギー・レベルを判定することである。次に、特に強い雑音エネルギー・レベルを有する周波数範囲に、より大きい重みを与えて、ビーム・フォーミング計算全体に対するその影響を増大させ、これによって、その周波数範囲内の雑音をより大きく減衰させる。
各周波数レベルで最小の総雑音エネルギーを有するビーム幅用の正規化された重みが、前述の重み行列に供給される。その後、ワーク・スペースが、ビームが向けられるターゲット・ポイントに関して、所与の周波数に対する最適ビーム幅に対応する複数の角度領域に分割される。ビームが、例えばサウンド・ソース・ローカライゼーション(SSL)などの普通の技法を使用して、向けられることに留意されたい。そのようなビームをアレイの周囲の特定のポイントに向けることは、当業者に周知の概念であり、本明細書では詳細に説明しない。
さらに、改善された信号ソース・ローカライゼーションを提供する特定の応用例が、ある度合いのビーム・オーバーラップを必要とする場合があることに留意されたい。その場合に、ビームの間の所望のオーバーラップの量は、単に、所望のワーク・スペースの完全なカバレッジを提供するのに必要なビームの個数を決定するのに使用される。ビーム・オーバーラップが使用される応用の1例が、参照によってその主題を本明細書に組み込まれる、2004年3月1日出願の同時係属の米国特許仮出願第10/791252号、名称「A SYSTEM AND METHOD FOR IMPROVING THE PRECISION OF LOCALIZATION ESTIMATES」に記載されている。したがって、例えば、50%ビーム・オーバーラップが望まれる場合に、ビームの数が2倍にされ、環状ワーク・スペースの特定の周波数での20°ビーム幅の前述の例を使用すると、このワーク・スペースは、18本のビームだけを使用するのではなく、36本のオーバーラップする20°ビームに分割される。
もう1つの実施形態では、ビーム・フォーミング処理を、時間の関数として発展させることができる。具体的に言うと、上で述べたように、重み行列および最適ビーム幅を、マイクロフォン・アレイの周囲のワーク・スペースについて計算される雑音モデルに部分的に基づいて計算する。しかし、雑音レベルおよびソースが、しばしば、時間の関数として変化することは明らかである。したがって、一実施形態で、ワーク・スペース環境の雑音モデリングを、継続的にまたは規則的もしくはユーザ指定の間隔のいずれかで実行する。新しい雑音モデルを与えられて、上で説明したビーム・フォーミング設計プロセスが、ワーク・スペースの最適ビームのセットを自動的に更新するのに使用される。
上の要約に鑑みて、本明細書に記載の包括的ビーム・フォーマが、任意の幾何学的配置およびマイクロフォン・タイプから成るマイクロフォン・アレイの最適ビーム形状(set)を設計するシステムおよび方法を提供することは明らかである。上で説明した利点に加えて、このシステムおよび方法の他の長所は、添付図面と共に解釈されるときの下の詳細な説明から明白になる。
本発明に特有な特徴、態様、および長所は、以下の説明、請求の範囲、および添付図面によってよりよく理解されることになる。
本発明の好ましい実施形態の以下の説明では、添付図面を参照するが、添付図面は、本明細書の一部を形成し、実例として本発明を実践できる特定の実施形態の例を示している。本発明の範囲を逸脱せずに、他の実施形態を使用でき、構造的変更を行えることを理解されたい。
1.0 例示的オペレーティング環境
図1に、本発明を実施することができる適切なコンピューティング・システム環境100の例を示す。コンピューティング・システム環境100は、適切なコンピューティング環境の1例にすぎず、本発明の使用または機能性の範囲に関する制限を暗示することを意図されたものではない。コンピューティング環境100を、例示的オペレーティング環境100に示されたコンポーネントのいずれかまたはその組合せに関する依存性または要件を有するものと解釈してもならない。
本発明は、多数の他の汎用または特殊目的のコンピューティング・システム環境またはコンピューティング・システム構成で動作することができる。本発明に使用するのに適する可能性がある周知のコンピューティング・システム、コンピューティング環境、および/またはコンピューティング構成の例に、パーソナル・コンピュータ、サーバ・コンピュータ、ハンドヘルド・デバイス、ラップトップ・デバイス、セル電話機およびPDAなどのモバイル・コンピュータもしくはモバイル通信デバイス、マルチ・プロセッサ・システム、マイクロプロセッサ・ベースのシステム、セットトップボックス、プログラマブル民生用電子機器、ネットワークPC、ミニ・コンピュータ、メインフレーム・コンピュータ、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境、および類似物が含まれるが、これに制限はされない。
本発明を、マイクロフォン・アレイ198または例えば指向性ラジオ・アンテナ・アレイ、レーダ受信器アレイなどの他の受信器アレイ(図示せず)のコンポーネントを含むハードウェア・モジュールと組み合わされたコンピュータによって実行される、プログラム・モジュールなどのコンピュータ実行可能命令の全般的な文脈で説明することができる。一般に、プログラム・モジュールには、特定のタスクを実行するか特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散コンピューティング環境で実践することもできる。分散コンピューティング環境では、プログラム・モジュールを、メモリ・ストレージ・デバイスを含むローカルおよびリモートの両方のコンピュータ記憶媒体に配置することができる。図1を参照すると、本発明を実施する例示的なシステムに、コンピュータ110の形の汎用コンピューティング・デバイスが含まれる。
コンピュータ110のコンポーネントに、処理ユニット120、システム・メモリ130、およびシステム・メモリを含む様々なシステム・コンポーネントを処理ユニット120に結合するシステム・バス121が含まれる。システム・バス121は、メモリ・バス、メモリ・コントローラ、周辺バス、および様々なバス・アーキテクチャのいずれかを使用するローカル・バスを含む複数のタイプのバス構造のいずれかとすることができる。制限ではなく例として、そのようなアーキテクチャに、Industry Standard Architecture(ISA)バス、マイクロ・チャネル・アーキテクチャ(MCA)バス、Enhanced ISA(EISA)バス、Video Electronics Standards Association(VESA)ローカル・バス、およびメザニン・バスとも称するPeripheral Component Interconnect(PCI)バスが含まれる。
コンピュータ110に、通常は、様々なコンピュータ可読媒体が含まれる。コンピュータ可読媒体は、コンピュータ110によってアクセスでき、揮発性および不揮発性、取外し可能および取外し不能の両方を含む使用可能な媒体のいずれかとすることができる。制限ではなく例として、コンピュータ可読媒体に、コンピュータ記憶媒体および通信媒体を含めることができる。コンピュータ記憶媒体に、コンピュータ可読命令、データ構造、プログラム・モジュール、または他のデータなどの情報を保管する任意の方法またはテクノロジで実施された、揮発性および不揮発性、取外し可能および取外し不能の媒体が含まれる。
コンピュータ記憶媒体に、RAM、ROM、PROM、EPROM、EEPROM、フラッシュ・メモリ、および他のメモリ・テクノロジ、CD−ROM、デジタル多用途ディスク(DVD)、または他の光学ディスク・ストレージ、磁気カセット、磁気テープ、磁気ディスク・ストレージ、または他の磁気ストレージ・デバイス、あるいは所望の情報の保管に使用でき、コンピュータ110によってアクセスできる他のすべての媒体が含まれるが、これに制限はされない。通信媒体は、通常、搬送波または他のトランスポート機構などの変調されたデータ信号内に、コンピュータ可読命令、データ構造、プログラム・モジュール、または他のデータが具現化され、通信媒体には、すべての情報配信媒体が含まれる。用語「変調されたデータ信号」は、信号内で情報をエンコードする形でその特性の1つまたは複数を設定または変更された信号を意味する。制限ではなく例として、通信媒体に、有線ネットワークまたは直接配線接続などの有線媒体と、音響、RF、赤外線、および他の無線媒体などの無線媒体が含まれる。上記のいずれかの組合せも、コンピュータ可読媒体の範囲に含まれなければならない。
システム・メモリ130に、読取専用メモリ(ROM)131およびランダム・アクセス・メモリ(RAM)132などの揮発性メモリおよび/または不揮発性メモリの形のコンピュータ記憶媒体が含まれる。起動中などにコンピュータ110内の要素の間での情報の転送を助ける基本ルーチンを含む基本入出力システム133(BIOS)が、通常はROM 131に保管される。RAM 132には、通常は、処理ユニット120からダイレクトにアクセス可能、かつ/または処理ユニット120によって現在操作中のデータおよび/またはプログラム・モジュールが含まれる。制限ではなく例として、図1に、オペレーティング・システム134、アプリケーション・プログラム135、他のプログラム・モジュール136、およびプログラム・データ137を示す。
コンピュータ110に、他の取外し可能/取外し不能、揮発性/不揮発性のコンピュータ記憶媒体も含めることができる。例のみとして、図1に、取外し不能不揮発性磁気媒体から読み取るかこれに書き込むハードディスク・ドライブ141、取外し可能不揮発性磁気ディスク152から読み取るかこれに書き込む磁気ディスク・ドライブ151、CD−ROMまたは他の光媒体などの取外し可能不揮発性光ディスク156から読み取るかこれに書き込む光ディスク・ドライブ155を示す。例示的なオペレーティング環境で使用できる他の取外し可能/取外し不能、揮発性/不揮発性のコンピュータ記憶媒体に、磁気テープ・カセット、フラッシュメモリ・カード、デジタル多用途ディスク、デジタル・ビデオ・テープ、ソリッドステートRAM、ソリッドステートROM、および類似物が含まれるが、これに制限はされない。ハードディスク・ドライブ141は、通常は、インターフェース140などの取外し不能メモリ・インターフェースを介してシステム・バス121に接続され、磁気ディスク・ドライブ151および光ディスク・ドライブ155は、通常、インターフェース150などの取外し可能メモリ・インターフェースによってシステム・バス121に接続される。
上で延べ、図1に示されたドライブおよびそれに関連するコンピュータ記憶媒体は、コンピュータ110のコンピュータ可読命令、データ構造、プログラム・モジュール、および他のデータのストレージを提供する。図1では、例えば、ハード・ドライブ141が、オペレーティング・システム144、アプリケーション・プログラム145、他のプログラム・モジュール146、およびプログラム・データ147を保管するものとして図示されている。これらのコンポーネントを、オペレーティング・システム134、アプリケーション・プログラム135、他のプログラム・モジュール136、およびプログラム・データ137と同一のまたは異なるもののいずれかとすることができることに留意されたい。オペレーティング・システム144、アプリケーション・プログラム145、他のプログラム・モジュール146、およびプログラム・データ147は、最低限でも異なるコピーであることを示すために、異なる符号を与えられている。ユーザは、キーボード162および、一般にマウス、トラック・ボール、またはタッチ・パッドと称するポインティング・デバイス161などの入力デバイスを介してコンピュータ110にコマンドおよび情報を入力することができる。
他の入力デバイス(図示せず)に、ジョイスティック、ゲーム・パッド、衛星パラボラ・アンテナ、スキャナ、ラジオ受信器、テレビジョン受信器、放送ビデオ受信器、または類似物を含めることができる。さらなる入力デバイス(図示せず)に、例えば指向性ラジオ・アンテナ・アレイ、レーダ受信器アレイなどの受取アレイまたは信号入力デバイスを含めることができる。上記および他の入力デバイスは、しばしば、システム・バス121に結合された有線または無線のユーザ入力インターフェース160を介して処理ユニット120に接続されるが、例えば、パラレル・ポート、ゲーム・ポート、またはuniversal serial bus(USB)、IEEE 1394インターフェース、Bluetooth(商標)無線インターフェース、IEEE 802.11無線インターフェースなどの他のインターフェースおよびバス構造によって接続することができる。さらに、コンピュータ110に、やはり例えばパラレル、シリアル、USB、IEEE 1394、Bluetooth(商標)などの普通の有線または無線のインターフェースを含むオーディオ・インターフェース199を介して接続される、マイクロフォンまたはマイクロフォン・アレイ198などの音声入力デバイスまたはオーディオ入力デバイスならびにラウド・スピーカ197または他のサウンド出力デバイスも含めることができる。
モニタ191または他のタイプのディスプレイ・デバイスも、ビデオ・インターフェース190などのインターフェースを介してシステム・バス121に接続される。モニタの他に、コンピュータに、プリンタ196など、出力周辺インターフェース195を介して接続できる他の周辺出力デバイスも含めることができる。
コンピュータ110は、リモート・コンピュータ180などの1つまたは複数のリモート・コンピュータへの論理接続を使用して、ネットワーク化された環境で動作することができる。リモート・コンピュータ180は、パーソナル・コンピュータ、サーバ、ルータ、ネットワークPC、ピア・デバイス、または他の一般的なネットワーク・ノードとすることができ、通常は、上でコンピュータ110に関して説明した要素の多くまたはすべてが含まれるが、図1には、メモリ・ストレージ・デバイス181だけを示した。図1に図示の論理接続に、ローカル・エリア・ネットワーク(LAN)171および広域ネットワーク(WAN)173が含まれるが、他のネットワークも含めることができる。そのようなネットワーキング環境は、オフィス、会社全体のコンピュータ・ネットワーク、イントラネット、およびインターネットでありふれたものである。
LANネットワーキング環境で使用されるときに、コンピュータ110は、ネットワーク・インターフェースまたはネットワーク・アダプタ170を介してLAN 171に接続される。WANネットワーキング環境で使用されるときに、コンピュータ110に、通常は、インターネットなどのWAN 173を介する通信を確立する、モデム172または他の手段が含まれる。モデム172は、内蔵または外付けとすることができるが、ユーザ入力インターフェース160または他の適当な手段を介してシステム・バス121に接続することができる。ネットワーク化された環境では、コンピュータ110に関して図示されたプログラム・モジュールまたはその一部を、リモート・メモリ・ストレージ・デバイスに保管することができる。制限ではなく例として、図1に、メモリ・デバイス181に常駐するものとしてリモート・アプリケーション・プログラム185を示す。図示のネットワーク接続が例示的であり、コンピュータの間の通信リンクを確立する他の手段を使用できることを諒解されたい。
例示的オペレーティング環境を説明し終えたが、本明細書の残りの部分は、任意の幾何学的配置およびマイクロフォン・タイプのマイクロフォンの最適ビームを自動的に設計するシステムおよび方法の説明にあてられる。
2.0 序論
本明細書で説明する「包括的ビーム・フォーマ」は、所望の角度空間範囲または「ワーク・スペース」をカバーするビームのセットを自動的に設計(すなわちビーム・フォーミング)する。そのようなビームは、センサ・アレイの周囲のワーク・スペース内の指定された探索領域内の特定の信号ソースをローカライズするのに使用することができる。例えば、通常の空間範囲に、会議室の環状マイクロフォン・アレイの360°範囲、または、デスクトップ・コンピュータまたはPCタイプ・コンピュータと共に個人的使用に時々使用される線形マイクロフォン・アレイの約120°から150°の角度範囲を含めることができる。
しかし、普通のビーム・フォーミング技法と異なって、本明細書で説明する包括的ビーム・フォーマは、幾何学的配置およびセンサ特性を与えられれば、すべてのセンサ・アレイに対して最適化されたビームのセットを設計することができる。例えば、マイクロフォン・アレイの場合に、幾何学的配置を、アレイのマイクロフォンの個数および位置とすることができ、特性には、アレイの各マイクロフォンのマイクロフォン指向性を含めることができる。
具体的に言うと、包括的ビーム・フォーマは、環境雑音ソースおよびオフ・ビーム雑音ソースの最適の減衰またはフィルタリングを提供しながら、インビーム・サウンド・ソースの最適の信号対雑音比を提供する、周波数の関数としての、最適ビーム幅を決定することによって、任意の幾何学的配置およびセンサ・タイプのセンサ・アレイに対するステアリング可能ビームの最適化されたセットを設計する。包括的ビーム・フォーマは、ローカル雑音状態およびマイクロフォン・アレイ動作特性を与えられ他場合の最適な周波数依存ビーム幅を決定する新規の誤差最小化プロセスを介して、このビーム・フォーミング設計を提供する。包括的ビーム・フォーマは、様々なタイプのセンサ・アレイに適用可能であるが、説明および明瞭さのために、以下の説明では、センサ・アレイが、ある既知の幾何学的配置およびマイクロフォン指向性を有する複数のマイクロフォンからなるマイクロフォン・アレイであると仮定することに留意されたい。
ビーム・フォーミング・システムが、頻繁に、ビーム・フォーマの信号出力に複数のタイプの雑音除去または他のフィルタリングもしくは後処理も適用することに留意されたい。さらに、ビーム・フォーミング動作に先だってセンサ・アレイ入力の時間領域または周波数領域の前処理も、従来のビーム・フォーミング・システムで頻繁に使用される。しかし、例示のために、以下の議論では、任意の幾何学的配置およびマイクロフォン・タイプのマイクロフォン・アレイのビーム・フォーミング設計に焦点を合わせ、および、ビーム・フォーミング動作およびビーム・ステアリング動作から生じる空間フィルタリングの自然な結果である雑音除去だけを検討する。ビーム・フォーマ入力またはビーム・フォーマ出力のすべての所望の普通の事前のまたは事後の処理またはフィルタリングが、本明細書で提供される包括的ビーム・フォーマの説明の範囲に含まれると理解されたい。
さらに、通常は時間領域で動作する従来の固定ビーム形成技法および適応ビーム・フォーミング技法と異なって、包括的ビーム・フォーマは、周波数領域でのすべてのビーム・フォーミング動作を提供する。大抵の従来のオーディオ処理は、例えば、通常は高速フーリエ変換(FFT)または類似物を使用して周波数領域で動作する、フィルタリング、スペクトル分析、オーディオ圧縮、シグネチャ抽出などを含む。その結果、普通のビーム・フォーミング・システムは、しばしば、まず時間領域でのビーム・フォーミング動作を提供し、次にこれらの信号をさらなる処理のために周波数領域に変換し、最後にこれらの信号を再生のために時間領域信号に変換する。
したがって、本明細書に記載の包括的ビーム・フォーマの長所の1つは、大抵の従来のビーム・フォーミング技法と異なって、完全に周波数領域でのビーム・フォーミング処理を提供することである。さらに、一実施形態で、この周波数領域ビーム・フォーミング処理が、MCLT(Modulated Complex Lapped Transform)と称する周波数領域技法を使用して実行される。というのは、MCLT領域処理が、圧縮および伸長モジュール(コーデック)など、他のオーディオ処理モジュールとの統合に関する長所を有するからである。
しかし、本明細書に記載の概念では、例としてMCLT領域処理を使用するが、これらの概念を、例えばFFTまたはFFTベース・フィルタ・バンクなどの他の周波数領域分解に簡単に適用可能であることを諒解されたい。その結果、追加のフィルタリング、デジタル・オーディオ・シグネチャの生成、オーディオ圧縮などの信号処理が、まず時間領域でビーム・フォーミング処理を実行してから次に周波数領域に変換するとういことをせずに、ビーム・フォーマ出力からダイレクトの周波数領域で、ダイレクトに実行することができる。さらに、包括的ビーム・フォーマの設計は、線形処理と、出力信号に非線形ひずみがないこととを保証し、これによって、計算オーバーヘッドおよび信号ひずみがさらに減る。
2.1 システムの概要
一般に、この包括的ビーム・フォーマは、まず、周波数依存「重み行列」を計算することによって、マイクロフォン・アレイに関する最適固定ビームの設計を開始する。この「重み行列」の計算は、マイクロフォン・アレイの周囲の環境について自動的に生成されまたは計算される1つまたは複数の雑音モデルと組み合わせて、マイクロフォン・アレイの動作特性および幾何学的配置を記述するパラメトリック情報を使用してフォン行われる。この重み行列は、その後、マイクロフォン・アレイによって受け取られたオーディオ信号の周波数領域ビーム・フォーミング処理において、マイクロフォン・アレイの各マイクロフォンの出力の周波数領域重み付けに使用される。
重み行列に関して計算される重みは、マイクロフォン・アレイの周囲のワーク・スペース全体に分布する所望の「フォーカス・ポイント」について周波数領域重みを計算することによって決定される。この重み行列の各重みは、包括的ビーム・フォーマによって設計されるビームが、各周波数帯域のすべての特定のフォーカス・ポイントでの単位利得および0位相シフトという制約の下で、(計算された雑音モデルに基づく)最大の雑音抑制を提供するように、最適化される。これらの制約は、「フォーカス幅」と称する、フォーカス・ポイントの周囲の角度領域に適用される。この処理が、着目する周波数帯域ごとに繰り返され、これによって、すべての所与のフォーカス・ポイントの周波数の関数として変化する最適ビーム幅がもたらされる。
一実施形態で、ビーム・フォーミング処理が、MCLT(Modulated Complex Lapped Transform)と称する周波数領域技法を使用して達成される。しかし、本明細書に記載の概念で、例としてMCLT領域処理を使用するが、当業者であれば、例えばFFTまたはFFTベースのフィルタ・バンクなどの他の周波数領域分解にこれらの概念を簡単に適用可能であることを認識されたい。この重みは、周波数領域重み付けのために計算されるので、ここで、Nが各オーディオ・フレーム内のMCLT周波数帯域(すなわちMCLTサブバンド)の個数、Mがアレイのマイクロフォンの個数である場合に、重み行列はN×M行列になるフォンことに留意されたい。したがって、例えば、MCLT計算用に320個の周波数ビンの使用を仮定すると、任意の特定のフォーカス・ポイントに関する最適ビーム幅は、320個のMCLT周波数係数ごとに入射角および周波数の関数として利得をプロットすることによって記述することができる。
さらに、ビーム・フォーミング動作にMCLT処理を使用するときに、多数のMCLTサブバンド(例えば、前の例のように320個のサブバンド)を使用することは、この周波数領域技法の2つの重要な長所すなわち、i)各周波数サブバンドのビーム形状の微調整およびii)計算的に効率的な実装を可能にする単一の複素数値利得係数への各サブバンドのフィルタ係数の単純化が可能になる、ことに留意されたい。
重み行列の計算に使用されるパラメトリック情報は、アレイ内のマイクロフォンの個数、アレイのマイクロフォンの幾何学的レイアウト、およびアレイの各マイクロフォンの指向性パターンが含まれる。重み行列の計算に使用するために生成される雑音モデルは、少なくとも3つのタイプの雑音を区別し、この3タイプには、等方性環境雑音(すなわち、「ホワイト・ノイズ」または他の比較的均一に分布する雑音などの背景雑音)、器械雑音(instrumental noise、マイクロフォン・アレイおよび外部コンピューティング・デバイスまたは他の外部電気デバイスへのアレイ接続の電気回路内の電気的アクティビティから生じる雑音)、およびポイント・ノイズ・ソース(point noise source、例えば、コンピュータ・ファン、開いた窓を介する交通雑音、抑制されなければならない話者など)が含まれる。
したがって、前述の雑音モデルを与えられれば、マイクロフォン・アレイの最適固定ビームの設計という問題に対する解は、数学的多次元最適化(シンプレックス、グラディエントなど)の方法を使用することによって解かれる通常の制約付き最小化問題に類似する。しかし、多モード超曲面と見なすことができる比較的高次元の重み行列(周波数帯域ごとに2M個の実数、合計N×2M個の数)を与えられれば、関数が非線形なので、多モード超曲面の点として最適重みを見つけることは、通常は極小値について複数の検査が必要なので、計算的に非常に負荷が重い。
その結果、一実施形態では、この多モード超曲面で最適点を直接に見つけるのではなく、包括的ビーム・フォーマは、まず、重み行列の計算の直接多次元最適化を、誤差最小化パターン合成と、その後の最適ビームフォーカスに向かう単一次元探索に置換する。ここで、例えば最小二乗誤差(MMSE)計算、最小絶対誤差計算、min−max誤差計算、等リップル解など、従来の誤差最小化技法を使用することができる。
一般に、重み行列の最適解を見つける際に、2つの矛盾する効果のバランスがとられる。具体的に言うと、ビーム形状の狭いフォーカス領域を与えられれば、環境雑音エネルギーは、指向性の向上に起因して自然に減少する。それとは別に、相関しない雑音(電気回路雑音を含む)は、自然に増加する。というのは、よりよい指向性の解決で、マイクロフォンからの出力信号間のますます小さくなる位相差が考慮され、これによって相関しない雑音が増やされるからである。逆に、ビーム形状のターゲット・フォーカス領域がより大きいときには、必然的により多くの環境雑音エネルギーが存在するが、より少ない無相関のエネルギーが存在する。
したがって、包括的ビーム・フォーマは、特定のフォーカス領域幅に関する最小誤差の計算で上記の要因のバランスを考慮して、アレイの各マイクロフォンの各MCLT周波数帯域の重み付けに関する最適解を特定する。この最適解は、特定のターゲット・ビーム形状に対する最小二乗(または他の誤差最小化技法)要件を満たす重みを特定するパターン合成を介して決定される。幸い、この形で問題に対処することによって、線形連立方程式の数値解を使用してこの問題を解くことができ、これは、多次元最適化よりかなり速い。この最適化は、アレイの各個々のマイクロフォンの幾何学的配置および指向性に基づいて計算されるので、各特定の周波数帯域内であっても、マイクロフォン・アレイの周囲の所与のビームに対するターゲット・フォーカス・ポイントの関数として最適ビーム設計が変化することに留意されたい。
具体的に言うと、ビーム・フォーマ設計処理では、まず、「ターゲット・ビーム形状」のセットを、ある所望のターゲット・ビーム幅フォーカス領域(すなわち、2°、5°、10°など)の関数として定義する。一般に、1の最大値と0までの減衰を有するすべての普通の関数、例えば矩形関数、スプライン関数、コサイン関数などを、ターゲット・ビーム形状の定義に使用することができる。しかし、矩形関数などの突然変化する関数は、ビーム形状のリップルを引き起こす可能性がある。その結果、よりよい結果は、通常、例えばコサイン関数など、1から0まで滑らかに減衰する関数を使用することによって、達成される。しかし、所望の関数が、1から0までの減衰関数(線形または非線形)または1から0までのレベルを強制するように重みを付けられた減衰関数の前述の制約に鑑みて、使用することができる。
ターゲット・ビーム形状を与えられると、各ターゲット・ポイントまたはフォーカス・ポイントが、特定のターゲット・ビーム形状の中、外、または遷移領域内のどれにあるかに対処するために、「ターゲット重み関数」が定義される。通常、ターゲット・ビーム幅の約1倍から3倍の推移領域が、よい結果をもたらすことが観察されているが、推移領域の最適サイズは、実際には、アレイ内のセンサのタイプおよびセンサ・アレイの周囲のワーク・スペースの環境に依存する。フォーカス・ポイントは、単に、(環状アレイに対しては等しい環状の広がり、または線形アレイに対しては等しい円弧の広がりを利用する)アレイの周囲のワーク・スペース全体に均等に分散する複数のポイント(マイクロフォンの数より多いことが好ましい)であることに留意されたい。ターゲット重み関数は、各ターゲット・ポイントが特定のターゲット・ビームに関してどこにあるかに依存して各ターゲット・ポイントに重みを付けるための利得を提供する。
ターゲット重み関数を提供する目的は、ビーム・フォーマ計算で主ビームの外のポイントから発する信号の影響を最小にすることである。したがって、テストされた環境で、ターゲット・ビーム内のターゲット・ポイントは、1.0の利得(単位利得)を割り当てられ、推移領域内のターゲット・ポイントは、その影響を考慮しながらビーム・フォーミング計算に対するそのポイントの影響を最小にするために0.1の利得を割り当てられ、最後に、ターゲット・ビームの推移領域の外のポイントは、最終的に設計されるビームに対するサイドローブの振幅を、意識して大きく減らすために、2.0の利得を割り当てられる。推移領域の外のターゲット・ポイントの利得に大きすぎる値を使用することが、ターゲット・ビーム内のターゲット・ポイントの影響を圧倒し、これによって、より最適でないビーム・フォーミング計算がもたらされることに留意されたい。
次に、ターゲット・ビーム形状およびターゲット重み関数を与えられと、次のステップは、実際のビーム形状(実際のビーム形状としてアレイの各マイクロフォンの既知の指向性パターンを使用する)を各ターゲット・ポイントのターゲット・ビーム形状にあてはめる重みのセットを計算することである。この計算には、ターゲット・ビーム形状ごとに各MCLT周波数サブバンドの総雑音エネルギーを最小にするために誤差最小化技法が使用される。この計算に対する解は、実際のビーム形状をターゲット・ビーム形状に一致させる重みのセットである。しかし、この重みのセットは、各ワーク周波数バンドのフォーカス・ポイントでの単位利得および0位相シフトという前述の制約を必ずしも満たさない。言い換えると、重みの最初のセットは、ビーム内のサウンド・ソースの単一を超えるかこれ未満の利得をもたらす可能性がある。したがって、この計算された重みを正規化して、フォーカス・ポイントから発する信号に対して単位利得および0位相シフトが存在するようにする。
この時点で、包括的ビーム・フォーマは、ビーム幅の関数としての総雑音エネルギーの全体的な最小化をまだ考慮していない。したがって、1つの所望のターゲット・ビーム幅の重みを単純に計算するのではなく、上で説明したように、ターゲット・ビーム幅の範囲に対して、ある所定の最小の所望値からある所定の最大の所望の角度までの範囲の正規化された重みを計算する。ビーム幅ステップ・サイズは、望み通りに小さくまたは大きくすることができる(すなわち、0.5°、1°、2°、5°、10°のステップ・サイズまたは他のステップ・サイズを、望み通りに使用することができる)。
1次元最適化を使用して、各周波数帯域の最適ビーム幅を特定する。gradient descent法、探索法など、複数の周知の非線形関数最適化技法のどれでも使用することができる。言い換えると、総雑音エネルギーは、所望の角度ステップ・サイズを使用して、ある範囲のターゲット・ビーム幅全体を通じてターゲット・ビーム幅ごとに計算される。これらの総雑音エネルギーを単純に比較して、各周波数で最小の総雑音エネルギーを示す各周波数のビーム幅を特定する。最終結果は、センサ・アレイの周囲のターゲット・ポイントごとの周波数の関数として変化する最適化されたビーム幅である。
一実施形態で、この総最小雑音エネルギーは、雑音をすべての周波数範囲で同等に減衰させなければならないと仮定するのではなく、特定の周波数範囲に関する値として考慮されることに留意されたい。具体的に言うと、いくつかの場合に、ある周波数範囲でのみ総雑音エネルギーを最小化するか、特定の周波数範囲内の雑音だけを強く減衰させるかすることが望ましい。その場合に、この特定の周波数範囲は、最小の雑音エネルギーを有するターゲット・ビーム幅を特定する際にさらに考慮される。雑音が、特定の周波数範囲でより顕著であるかどうかを判定する形の1つが、単に普通の周波数分析を実行して、特定の周波数範囲の雑音エネルギー・レベルを判定することである。次に、特に強い雑音エネルギー。レベルを有する周波数範囲に、より大きい重みを与えて、ビーム・フォーミング計算全体に対するその影響を増大させ、これによって、その周波数範囲内の雑音を大きく減衰させる。
各周波数レベルで最小の総雑音エネルギーを有するビーム幅用の正規化された重みが、前述の重み行列に供給される。その後、ワーク・スペースが、ビームが向けられるターゲット・ポイントに関して、所与の周波数に対する最適ビーム幅に対応する複数の角度領域に分割される。ビームが、例えばサウンドソースローカライゼーション(SSL)などの普通の技法を使用して向けられることに留意されたい。そのようなビームをアレイの周囲の特定のポイントに向けることは、当業者に周知の概念であり、本明細書では詳細に説明しない。
さらに、改善された信号ソース・ローカライゼーションを提供する特定の応用例が、ある度合いのビーム・オーバーラップを必要とする場合があることに留意されたい。その場合に、ビームの間の所望のオーバーラップの量は、単に、所望のワーク・スペースの完全なカバレッジを提供するのに必要なビームの個数を決定するのに使用される。ビーム・オーバーラップが使用される応用の1例が、参照によってその主題を本明細書に組み込まれる、2004年3月1日出願の同時係属の米国特許仮出願第10/791252号、名称「A SYSTEM AND METHOD FOR IMPROVING THE PRECISION OF LOCALIZATION ESTIMATES」に記載されている。したがって、例えば、50%ビーム・オーバーラップが望まれる場合に、ビームの数が2倍にされ、環状ワーク・スペースについて上で説明した20°ビーム幅の例を使用すると、このワーク・スペースは、18本のビームだけを使用するのではなく、36本のオーバーラップする20°ビームに分割される。
包括的ビーム・フォーマのもう1つの実施形態では、ビーム・フォーミング処理を、時間の関数として発展させることができる。具体的に言うと、上で述べたように、重み行列および最適ビーム幅を、マイクロフォン・アレイの周囲のワーク・スペースについて計算される雑音モデルに部分的に基づいて計算する。しかし、雑音レベルおよびソースが、しばしば、時間の関数として変化することは明らかである。したがって、一実施形態で、ワーク・スペース環境の雑音モデリングを、継続的にまたは規則的もしくはユーザ指定の間隔のいずれかで実行する。新しい雑音モデルを与えられて、上で説明したビーム・フォーミング設計プロセスが、ワーク・スペースの最適ビームの新しいセットを自動的に定義するのに使用される。
一実施形態で、包括的ビーム・フォーマは、マイクロフォン・アレイそれ自体がその様々なマイクロフォンから生のオーディオ入力を受け取って処理されたオーディオ出力を供給する状態で、完全にマイクロフォン・アレイの範囲内のコンピュータ・プロセスとして動作することに留意されたいフォンフォン。この実施形態では、このマイクロフォン・アレイは、本明細書に記載のビーム・フォーミング処理技法を提供する一体のコンピュータ・プロセッサを含む。しかし、一体のコンピュータ処理機能を備えたマイクロフォン・アレイは、コンピュータ処理機能がマイクロフォン・アレイの外部にある場合よりかなり高価になる傾向があり、その結果、マイクロフォン・アレイは、マイクロフォン、プリ・アンプ、A/Dコンバータ、および例えばPCタイプ・コンピュータなどの外部コンピューティング・デバイスへの接続に関するいくつかの手段だけが含まれる。
したがって、この問題に対処するために、一実施形態で、マイクロフォン・アレイは、単に、各マイクロフォン・アレイからオーディオ信号を受け取り、この信号を外部コンピューティング・デバイス(本明細書に記載のビーム・フォーミング処理を実行する)に供給するのに十分なコンポーネントを含む。この実施形態では、利得、感度、アレイ幾何学的配置などのマイクロフォン・アレイの動作特性を定義するデータを含むデバイスドライバまたはデバイス記述ファイルが、マイクロフォン・アレイについて別々に提供され、その結果、外部コンピューティング・デバイス内に常駐する包括的ビーム・フォーマが、本明細書に記載のシステムおよび方法に従って特定のマイクロフォン・アレイに対して自動的に最適化されたビームのセットを自動的に設計できるようになる。
密接に関連する実施形態で、このマイクロフォン・アレイは、その構成および動作パラメータを外部コンピューティング・デバイスに自動的に報告する機構を含む。具体的に言うと、この実施形態では、マイクロフォン・アレイに、例えばROM、PROM、EPROM、EEPROM、または他の従来のメモリなど、マイクロフォン・アレイ・デバイス記述を収容する、マイクロフォン・アレイ・メモリ内に常駐するコンピュータ可読ファイルまたはテーブルが含まれる。このデバイス記述には、マイクロフォン・アレイの動作特性および構成を定義するパラメトリック情報が含まれる。
この実施形態で、外部コンピューティング・デバイスに接続されたならば、マイクロフォン・アレイは、そのデバイス記述を外部コンピューティング・デバイスに供給し、外部コンピューティング・デバイスは、包括的ビーム・フォーマを使用して、接続されたマイクロフォン・アレイに対して自動的に最適化されたビームのセットを自動的に生成する。さらに、外部コンピューティング・デバイス内で動作する包括的ビーム・フォーマは、マイクロフォン・アレイの外部のすべてのビーム・フォーミング動作を実行する。マイクロフォン・アレイの構成および動作パラメータを外部コンピューティング・デバイスに自動的に報告するこの機構は、参照によってその主題を本明細書に組み込まれる、2004年2月9日出願の同時係属の米国特許仮出願第10/775371号、名称「SELF-DESCRIPTIVE MICROPHONE ARRAY」に記載されている。
もう1つの関連する実施形態では、マイクロフォン・アレイは、マイクロフォン・アレイ内の各プリ・アンプの周波数領域応答を自動的に決定し、周波数領域補償利得を計算する一体の自己較正システムを提供フォンする。したがって、包括的ビーム・フォーマは、この補償利得を使用して、各プリ・アンプの出力のマッチングをすることができるようになる。その結果、マイクロフォン・アレイの各チャネルの正確な動作特定を事前に決定すること、または高価なマッチングされた電子コンポーネントを使用することが必要でなくなる。
具体的に言うと、この実施形態で、一体の自己較正システムは、マイクロフォン・アレイ内のすべてのプリ・アンプ入力に、既知の大きさおよび位相の励起パルスを注入する。その結果として出力される各プリ・アンプ出力のアナログ波形を測定する。結果として出力される波形のそれぞれの、例えば高速フーリエ変換(FFT)または他の普通の周波数分析などの周波数分析が実行される。この周波数分析の結果を使用して、すべてのプリ・アンプの応答を互いに一致させるかバランスをとるために、各プリ・アンプの周波数領域補償利得を計算する。この一体の自己較正システムは、参照によってその主題を本明細書に組み込まれる、2004年2月4日出願の同時係属の米国特許仮出願第10/772528号、名称「ANALOG PREAMPLIFIER MEASUREMENT FOR A MICROPHONE ARRAY」に記載されている。
2.2 システム・アーキテクチャ
上で要約したプロセスを、図2の全般的なシステム図に示す。具体的に言うと、図2のシステム図には、任意の幾何学的配置のマイクロフォン・アレイに対して最適化されたビームのセットを自動的に設計する包括的ビーム・フォーマを実施するプログラム・モジュールの間の相互関係が示されている。図2で破線によって表される箱および箱の間の相互接続が、本明細書に記載の包括的ビーム・フォーマの代替実施形態を表すことと、下で説明するように、これらの代替実施形態のいずれかまたはすべてを、本明細書に記載の他の代替実施形態と組み合わせて使用できることに留意されたい。
一般に、包括的ビーム・フォーマは、既知の幾何学的配置および動作特性のマイクロフォン・アレイまたは他のセンサ・アレイに対して最適化されたビームを設計するように動作する。さらに、これらのビームは、ローカル環境に最適化される。言い換えると、ビーム最適化は、アレイ幾何学的配置、アレイ動作特性、および信号周波数の関数としてのワーク・スペース環境(マイクロフォン・アレイを囲む領域内の環境雑音または等方性雑音ならびにマイクロフォン・アレイの器械雑音の影響を含む)に自動的に適合される。
包括的ビーム・フォーマの動作は、センサ・アレイの回りのローカル環境内の雑音レベル(環境または等方性、ポイント・ソース、および器械)を監視するために、マイクロフォン・アレイなどのセンサ・アレイ200を形成する複数のセンサのそれぞれを使用することによって開始される。センサ・アレイ200の各センサMからの監視される雑音が、時間の関数として信号入力モジュール205に入力x(n)として供給される。
次のステップは、センサ・アレイ200の周囲のローカル環境で測定された雑音レベルに基づいて1つまたは複数の雑音モデルを計算することを含む。しかし、一実施形態では、周波数領域分解モジュール210が、まず、入力信号フレームを時間領域から周波数領域に変換するのに使用される。本明細書に記載のビーム・フォーミング動作を、時間領域または周波数領域のいずれかで動作するフィルタを使用して実行できることに留意されたい。しかしながら、計算の複雑さを減らし、他のオーディオ処理要素との統合を簡単にし、柔軟性を追加するために、通常は、周波数領域で信号処理を実行することがベターである。
使用可能な多数の可能な周波数領域信号処理ツールがあり、これらには、例えば、高速フーリエ変換(FFT)を介して、通常、実施される離散フーリエ変換を含まれる。さらに、包括的ビーム・フォーマの一実施形態は、MCLT(Modulated Complex Lapped Transform)を使用する周波数領域処理を提供する。以下の議論では、時間領域処理の使用またはFFTなどの他の周波数領域技法の使用を説明するのではなく、MCLTの使用に焦点を合わせることに留意されたい。しかし、MCLTの使用に関して説明される技法が、他の周波数領域処理技法または時間領域処理技法に簡単に適合可能であること、および本明細書に記載の包括的ビーム・フォーマが、MCLT処理の使用に制限されることを意図されていないことを、当業者であれば認識されたい。
したがって、MCLT信号変換の使用を仮定すると、周波数領域分解モジュール210が、入力信号フレーム(アレイの各センサからの入力を表す)を時間領域から周波数領域に変換して、センサ入力x(n)のすべてについて、N個のMCLT係数X(N)を生成する。雑音モデル計算モジュール215が、複数の周知の雑音モデリング技法のいずれかを使用することによって、センサ・アレイ200の周囲のローカル環境の雑音を表す従来の雑音モデルを計算する。しかし、望まれる場合に、雑音モデルの計算を、あるフレームの信号についてスキップできることに留意されたい。
一般に、センサ・アレイ200の周囲の領域内の環境雑音または等方性雑音、センサ・アレイ回路の器械雑音、およびポイント・ノイズ・ソースを含む、複数のタイプの雑音モデルが、ここで考慮される。そのような雑音モデリング技法は、当業者に周知なので、本明細書では詳細に説明しない。雑音モデル計算モジュール215が、入力信号から雑音モデルを計算すると、この雑音モデルは、重み計算モジュール220に供給される。一実施形態で、雑音モデルをオフラインで事前計算し、これらの固定されたモジュール(例えば、等方性雑音(すべての方向からの等しいエネルギーおよび特定の周波数スペクトル形状)の単純な前提)を使用することによって、計算オーバーヘッドが減らされる。
雑音モデルの他に、重み計算モジュール220は、センサ・アレイ200の幾何学的配置および動作特性(指向性パターンを含む)を定義するセンサ・アレイ・パラメトリック情報230も受け取る。例えば、マイクロフォン・アレイを検討するときに、包括的ビーム・フォーマに供給されるパラメトリック情報は、各センサが既知の位置ベクトルおよび指向性成パターンを有するM個のセンサ(マイクロフォン)のアレイを定義する。当業者に既知のように、指向性パターンは、ある位置から来るサウンドに関してマイクロフォンによって導入される、感度および位相シフトを与える複素関数である。
各マイクロフォンの位置および指向性が既知である限り、マイクロフォン・アレイが、同一のタイプまたは指向性のマイクロフォンを使用するという要件がないことに留意されたい。さらに、上で注記したように、一実施形態で、このセンサ・アレイのパラメトリック情報230は、デバイス記述ファイルまたはデバイスドライバあるいは類似物で提供される。また、上で注記したように、関連する実施形態で、このパラメトリック情報が、マイクロフォン・アレイ自体の中で維持され、包括的ビーム・フォーマを本明細書に記載の形で動作させる外部コンピューティング・デバイスに自動的に報告されることに留意されたい。
さらに、雑音モデルおよびセンサ・アレイのパラメトリック情報230の他に、重み計算モジュール220は、ターゲット・ビーム形状定義モジュール225から「ターゲット・ビーム形状」および対応する「ターゲット重み関数」という入力も受け取る。ターゲット・ビーム形状およびターゲット重み関数は、ターゲット・ビーム形状定義モジュール225によって自動的に供給される。一般に、上で注記したように、ターゲット・ビーム形状定義モジュール225は、「ターゲット・ビーム形状」のセットを、複数のターゲット・フォーカス・ポイントのそれぞれの回りのある所望のターゲット・ビーム幅フォーカス領域の関数として定義する。上で注記したように、最適ターゲット・ビーム形状を決定することは、ターゲット・ビーム形状と、着目する各周波数または各周波数帯域のそれぞれのターゲット・ビーム幅(すなわち、2°、5°、10°など)についての所望の範囲にまたがる対応するターゲット重み関数を生成するプロセスを反復するに連れて、最もよく近づく。
ビーム・フォーミング計算に使用されるターゲット・フォーカス・ポイントの個数は、一般に、センサ・アレイ200のセンサの数より多くしなければならず、実際に、多数が、高められたビーム・フォーミング分解能を提供する傾向がある。具体的に言うと、ターゲット・フォーカス・ポイントの個数Lは、センサの個数Mより多くなるように選択される。これらのターゲット・フォーカス・ポイントは、ビーム・フォーミング計算のためにセンサ・アレイの周囲のワーク・スペース内で均等に分散される。例えば、テストされた環境500で、ターゲット・フォーカス・ポイント数Lは、8つのマイクロフォンMを有する環状マイクロフォン・アレイのために選択された。これらのターゲット・フォーカス・ポイントは、ターゲット・ビーム幅フォーカス領域内、ターゲット・ビーム幅フォーカス領域の周囲の「推移領域」内、またはターゲット・ビーム幅フォーカス領域および推移領域の外のどれにあるかを決定するために、個別に評価される。ターゲット幅関数によって提供される対応する利得が、現在分析中のビームに関するその位置に応じて、各フォーカス・ポイントに適用される。
具体的に言うと、前述のターゲット重み関数は、3つの重み付けパラメータVPass、VTrans、およびVStopのセットとして定義され、これらのパラメータは、ターゲット・フォーカス・ポイントが、ターゲット・ビーム形状内(VPass)、ターゲット・フォーカス・ポイントの周囲の「推移領域」内(VTrans)、または完全にターゲット・ビーム形状および推移領域の外(VStop)のどれにあるかに対応する。推移領域が、ターゲット・ビーム形状の周囲の回りのあるデルタによって定義されることに留意されたい。例えば、テストされた環境では、ターゲット・ビーム幅の3倍のデルタが、推移領域の定義に使用された。したがって、フォーカス・ポイントの回りの±10°のターゲット・ビーム幅を仮定し、ターゲット・ビーム幅の3倍のデルタを仮定すると、推移領域は、ターゲット・ポイントから±10°から始まり、ターゲット・ポイントから±40°まで延びる。この例では、ターゲット・ポイントの回りの±40°の外のすべてのものが、停止領域(VStop)内にある。ターゲット重み関数は、各ターゲット・ポイントが特定のターゲット・ビームに関してどこにあるかに応じて各ターゲット・ポイントに重みを付けるための利得を提供する。
この点で、重み計算モジュール220は、ターゲット・ビーム形状、ターゲット重み関数、ターゲット・ポイントのセット、計算された雑音モデル、およびマイクロフォン・アレイのマイクロフォンの指向性パターンを与えられている。この情報を与えられて、重み計算モジュール220は、各マイクロフォンの重みのセット、すなわち、各実際のビーム形状(アレイの各マイクロフォンの既知の指向性パターンを実際のビーム形状として使用する)を、現在のMCLT周波数サブバンドに対する各ターゲット・ポイントの現在のターゲット・ビーム形状にあてはめる、各マイクロフォンの重みのセットを計算する。以下のセクション3で説明するように、この重みのセットは、誤差最小化技法を使用することによって最適化され、現在のMCLT周波数サブバンドの総雑音エネルギーを最小にする重みを選択することに留意されたい。
重み正規化モジュール235が、各ターゲット・ビーム形状の重みの最適化されたセットを正規化して、各ターゲット・ビーム形状に対応するターゲット・ポイントから発するすべての信号に関する単位利得および0位相を保証する。
上で説明したステップが、ターゲット・ビーム形状の範囲のそれぞれについて繰り返される。言い換えると、特定のターゲット・ビーム形状の最適化されて正規化された重みのセットの生成に関して上で説明したステップが、所望のステップ・サイズを使用して、ビーム角度の所望の範囲全体に渡って繰り返される。例えば、5°のステップ・サイズ、10°の最小角度、および60°の最大角度を与えられれば、最適化された正規化された重みが、5°の増分で10°から60°までの範囲のターゲット形状のそれぞれについて計算される。その結果、保管されたターゲット・ビームおよび重み240に、現在のMCLT周波数サブバンドに対して各ターゲット・ポイントのターゲット・ビーム形状についての所望の範囲全体の最適化され正規化された重みおよびビーム形状が含まれる。
総雑音エネルギー比較モジュール245が、保管されたターゲット・ビームおよび重み240を介する単純な1次元探索を実行することによって、総雑音エネルギーを計算し、現在のMCLTサブバンドに対する各ターゲット・ポイントの周囲の最小の総雑音エネルギーを提供するビーム形状(すなわちビーム角度)、および対応する重みを特定する。このビーム形状および対応する重みが、最適化されたビームおよび重み行列モジュール250によって、現在のMCLTサブバンドに対応する最適ビームおよび重み行列255への入力として出力される。
最適ビームおよび重み行列255全体が、各MCLTサブバンドについて上で説明したステップを繰り返すことによって、取り込まれる。具体的に言うと、すべてのMCLTサブバンドについて、包括的ビーム・フォーマは、ビーム角度の所望の範囲全体に渡ってそれぞれのターゲット・ビーム形状ごとに最適化され正規化された重みのセットを別々に生成する。上で説明したように、包括的ビーム・フォーマは、これらの保管されたターゲット・ビーム形状および重みを検索して、MCLTサブバンドごとに各ターゲット・ポイントの周囲の最低の総雑音エネルギーを提供するビーム形状および対応する重みを特定し、このビーム形状および対応する重みは、上で説明したように、最適ビームおよび重み行列255に保管される。
全方向性マイクロフォンなどの理想的に均一なセンサの場合を除いて、センサ・アレイ200の各センサは、指向性の差を示す可能性があることに留意されたい。さらに、異なるタイプのセンサ、したがって異なる指向性のセンサが、同一のセンサ・アレイ200に含まれる場合がある。したがって、異なる指向性パターンのセンサに対処するために、最適ビームおよび重み行列255で定義される最適ビーム形状(すなわち、最低の総雑音エネルギーを示すビーム形状)を再計算しなければならない。
3.0 動作の概要(Operational Overview)
上で説明したプログラム・モジュールは、本明細書に記載の包括的ビーム・フォーマの実装に使用される。上で説明したように、包括的ビーム・フォーマのシステムおよび方法は、最適のビームのセットを、センサ・アレイの回りのワーク・スペース内における、およびセンサ・アレイの回りのローカル雑音状態に関して、ターゲット・ポイントおよび周波数の関数として、自動的に定義する。次のセクションで、前述のプログラム・モジュールを実装する例示的方法の詳細な動作の議論を提供する。用語「フォーカス・ポイント」、「ターゲット・ポイント」、および「ターゲット・フォーカス・ポイント」は、次の説明全体を通じて交換可能に使用されることに留意されたい。
3.1 最初の考慮事項
次の議論は、任意のマイクロフォン・アレイに対して、しかし既知の幾何学的配置および動作特性を有するマイクロフォン・アレイに対して最適化されたビームのセットを特定する包括的ビーム・フォーマの使用を対象とする。しかし、上で注記したように、本明細書に記載の包括的ビーム・フォーマは、他のタイプのセンサ・アレイに使用するために簡単に適合可能である。
さらに、本明細書に記載の包括的ビーム・フォーマは、時間領域または周波数領域のいずれかで動作するフィルタに使用するために適合させることができる。しかし、上で注記したように、周波数領域でのビーム・フォーミング処理の実行は、計算的複雑さの減少、他のオーディオ処理要素とのより簡単な統合、および追加の柔軟性を提供する。
一実施形態で、この包括的ビーム・フォーマは、オーディオ圧縮モジュールなどの他のオーディオ処理コンポーネントとの統合に関するMCLT(Modulated Complex Lapped Transform)の長所のゆえに、ビーム設計にMCLTを使用する。しかし、上で注記したように、本明細書に記載の技法は、例えばFFTまたはFFTベースのフィルタ・バンクなど、他の周波数領域分解に使用するように簡単に適合可能である。
3.1.1 センサ・アレイの幾何学的配置および特性
上で注記したように、包括的ビーム・フォーマは、既知の幾何学的配置および動作特性を有するマイクロフォン・アレイに対して最適化されたビーム設計を提供することができる。具体的に言うと、既知の位置ベクトル
Figure 2005253071
を有するM個のマイクロフォンのアレイを検討する。このアレイのマイクロフォンは、位置p=(x,y,z):m=0,1,...,M−1で、アレイの周囲のワーク・スペース内の信号フィールドをサンプリングする。このサンプリングによって、信号ベクトル
Figure 2005253071
によって表される信号のセットが作られる。
さらに、各マイクロフォンmは、fを周波数、c={φ,θ,ρ}を半径座標系(radial coordinate)でのサウンド・ソースの位置を表すとすると、既知の指向性パターンU(f,c)を有する。類似する表記を使用して、同一の座標を直交座標系で表すことができ、この場合にはc={x,y,z}になる。当業者に既知のように、マイクロフォンの指向性パターンは、ある位置または方向から来るサウンドに対してマイクロフォンによって取り込まれた感度およびフォン位相シフトを提供する複素関数である。理想的な全方向性マイクロフォンの場合に、U(f,c)=定数である。しかし、上で注記したように、包括的ビーム・フォーマの一般性を失わずに、マイクロフォン・アレイで異なるタイプおよび指向性パターンを有するマイクロフォンを使用することができる。
3.1.2 信号の定義
当業者に既知のように、マイクロフォン・アレイに対して特定の位置cから発するサウンド信号は、複数の要因によって影響される。例えば、ポイントcから発するサウンド信号S(f)について、各マイクロフォンによって実際にキャプチャされる信号を、以下の式(1)によって定義することができる。
(f,p)=D(f,c)A(f)(f,c)S(f) 式(1)
ここで、最初の要素D(f,c)は、式(2)
Figure 2005253071
によって定義されるように、ポイントcからマイクロフォンまでの距離に起因する位相シフトおよび信号減衰を表す。空気中でのエネルギー消失に起因する信号減衰は、マイクロフォン・アレイが通常必要とする動作距離に対しての空気中でのエネルギー消失に起因する信号減衰はかなり小さいので、この減衰は省略されることに留意されたい。しかし、そのような消失は、より大きい距離が用いられるときに、または他のセンサ・タイプ、搬送媒体(すなわち水、または他の流体)、もしくは信号タイプが用いられるときに、より大きくなる場合がある。
式(1)の第2の要素A(f)は、各マイクロフォンmのマイクロフォン・アレイ・プリ・アンプ/ADC回路の周波数応答である。式(1)の第3の要素U(f,c)は、ポイントcに関するマイクロフォン指向性を考慮に入れるものである。最後に、上で注記したように、式(1)の第4の要素S(f)は、実際の信号自体である。
3.1.3 雑音モデル
キャプチャされた信号X(f,p)を与えられると、最初のタスクは、マイクロフォン・アレイのローカル環境内の様々なタイプの雑音をモデル化する雑音モデルを計算することである。本明細書に記載の雑音モデルは、3タイプの雑音すなわち、等方性環境雑音、器械雑音、およびポイント・ノイズ・ソースを区別する。雑音ソースの時間領域モデリングおよび周波数領域モデリングの両方が、当業者に周知である。その結果、検討される雑音モデルのタイプだけを、下で全般的に説明する。
具体的に言うと、項N(f)によって表されるスペクトルを有する等方性環境雑音は、マイクロフォン・アレイ周囲のワーキング体積またはワーク・スペース全体に渡って均等に分布すると仮定する。この等方性環境雑音N(f)は、すべてのチャネルで相関され、式(1)に従ってマイクロフォン・アレイによってキャプチャされる。テストされた環境では、雑音モデルN(f)は、普通の条件での雑音すなわち、マイクロフォン・アレイが使用されたオフィスまたは会議室での環境雑音の直接サンプリングおよび平均化によって入手された。
さらに、項N(f)によって表されるスペクトルを有する器械雑音は、マイクロフォン、プリ・アンプ、およびADC(アナログ/デジタル変換)回路からの電気回路雑音を表す。器械雑音N(f)は、どのチャネルでも相関されず、通常は、ホワイトノイズスペクトルに近いスペクトルを有する。テストされた環境では、雑音モデルN(f)は、雑音および反響がない「理想的な部屋」(マイクロフォンおよびプリ・アンプの回路からの雑音だけが来るようにするために)でのアレイのマイクロフォンの直接サンプリングおよび平均化によって入手された。
雑音の第3のタイプは、雑音を表すと考えられる、はっきりと区別できる、ポイント・ソースから来る。例えば、ポイント・ノイズ・ソースに、例えばコンピュータ・ファン、抑止されなければならない第2の話者などのサウンドを含めることができる。
3.1.4 包括的ビーム・フォーマの正規形
前の議論から明らかであるように、本明細書に記載のビーム設計動作は、マイクロフォン・アレイによって直接に受け取られるアナログ信号に対して直接にではなく、デジタル領域で動作する。したがって、マイクロフォン・アレイによってキャプチャされたオーディオ信号を、まず、従来のA/D変換技法を使用してデジタル化する。不要なエイリアスの影響を防ぐために、オーディオ信号が、MCLT作業帯域の最低周波数の周期の2倍より長いフレームに処理されることが好ましい。
このデジタル信号を与えられると、本明細書に記載の包括的ビーム・フォーマによって作成されるビーム設計情報の実際の使用は、単純である。具体的に言うと、マイクロフォン・アレイの総入力に基づいて、特定のターゲット・ポイントに関するオーディオ出力を作る設計されたビームの使用は、一般に、マイクロフォン・アレイによってキャプチャされた入力オーディオ・フレームの重み付き合計の組合せとして記述することができる。具体的に言うと、ビーム・フォーマによって設計される特定のビームの出力は、式(3)によって表すことができる。
Figure 2005253071
ここで、W(f)は、着目するターゲット・ポイントに関するセンサごとの重み行列Wであり、Y(f)は、総マイクロフォン・アレイ入力を使用するターゲット・ポイントでのオーディオ信号の取り込みに対して最適解を表すビーム・フォーマ出力である。上で説明したように、ベクトルのセットW(f)はN×M行列であり、Nはオーディオ・フレーム内のMCLT周波数ビンの個数、Mはマイクロフォンの個数である。その結果、式(3)に示されているように、ビーム・フォーマのこの正規形は、線形処理と、出力信号Y(f)に非線形ひずみがないこととを保証する。この正規ビーム・フォーマのブロック図を、図3に示す。
重みのセット
Figure 2005253071
ごとに、ビーム・フォーマの指向性を提供する対応するビーム形状関数B(f,c)がある。具体的に言うと、ビーム形状関数B(f,c)は、サウンド・ソースの位置の関数としてのマイクロフォン・アレイの複素数値の利得を表し、式(4)によって与えられる。
Figure 2005253071
図3の全般的な図を、より複雑なシステムへの適合のために簡単に拡張できることを、当業者であれば認識されたい。例えば、包括的ビーム・フォーマによって指定されるビームは、例えばサウンド・ソース・ローカライゼーション(SSL)システム、アコースティック・エコー・キャンセレーション(AEC)システム、指向性フィルタリング・システム、選択的信号キャプチャ・システムなどを含む複数のシステムで使用することができる。さらに、そのようなシステムを望み通りに組み合わせることができることも明白である。
3.1.5 ビーム・フォーマのパラメータ
当業者に周知のように、マイクロフォン・アレイを使用する目的の1つが、そのようなアレイの方向能力(すなわち「指向性」)を利用することによって、空間内の特定のポイントまたは特定の方向から発する信号の信号対雑音比(SNR)を改善することである。様々なタイプの雑音の特性を検査し、そのような雑音について自動的に相殺させることによって、包括的ビーム・フォーマは、キャプチャされるオーディオ信号のSNRのさらなる改善をもたらす。上で注記したように、3タイプの雑音が、包括的ビーム・フォーマによって考慮される。具体的に言うと、等方性環境雑音、器械雑音、およびポイント・ソース・ノイズが考慮される。
3.1.5.1 ビーム・フォーマの雑音考慮事項
環境雑音利得GAN(f)は、特定のワーク・スペース内の総マイクロフォン・アレイ・ビームの体積の関数としてモデル化される。この雑音モデルは、環境雑音の利得GAN(f)を単に示す式(5)に示され、全体としてアレイによって表される組み合わされたビームの体積全体に渡って計算される。
Figure 2005253071
ここで、Vは、マイクロフォン・アレイ・ワーク体積すなわち、すべての座標cのセットである。
特定のターゲット・ポイントに関するマイクロフォン・アレイおよびプリ・アンプの器械雑音利得または相関されない雑音利得GIN(f)は、単に、そのターゲット・ポイントに関するアレイのマイクロフォンに割り当てられる重みから生じる利得の合計としてモデル化される。具体的に言うと、式(6)に示されているように、マイクロフォンおよびプリ・アンプからの相関されない雑音利得GIN(f)は、
Figure 2005253071
によって与えられる。
最後に、ポイント・ノイズ・ソースの利得は、単に、特定のビームに関するビーム形状に関連する利得によって与えられる。言い換えると、ポイントcのノイズソースに関する利得は、単に、ビーム形状B(f,c)に関する利得によって与えられる。
様々なタイプの雑音に関連付けられた利得に鑑みて、ビーム・フォーマ出力内の総雑音エネルギーは、式(7)によって与えられる。
Figure 2005253071
3.1.5.2 ビーム・フォーマの指向性考慮事項
雑音の影響の考慮の他に、包括的ビーム・フォーマは、包括的ビーム・フォーマのビーム設計から生じるマイクロフォン・アレイの指向性を特徴とする。具体的に言うと、マイクロフォン・アレイの指向性指数DIは、下に示す式(8)から(10)によって特徴を表すことができる。
P(f,φ,θ)=|B(f,c)|, ρ=ρ=定数 式(8)
Figure 2005253071
DI=10log10D 式(10)
ここで、P(f,φ,θ)を、「パワーパターン(power pattern)」と呼び、ρは、ワーク体積の平均距離(奥行き)であり、(φ,θ)は、ステアリング方向である。
3.2 問題の定義および制約
一般に、マイクロフォン・アレイの最適ビームを設計する際に包括的ビーム・フォーマが直面する2つの問題は、次の通りである。
1.式(3)によって示され、ビーム・フォーマで使用される、すべての所望のフォーカス・ポイントcに対する、前述の重み行列Wを計算すること、および
2.最大の雑音抑制を提供すること、すなわち、ワーク周波数帯域のフォーカス・ポイントでの単位利得および0位相シフトという制約の下で、出力信号中の総雑音エネルギーを最小化(例えば式(7)を参照されたい)すること。この制約は、次の式(11)によって示される。
Figure 2005253071
ここで、fBEGおよびfENDは、ワーク周波数帯域の境界を表す。
これらの制約、すなわちフォーカス・ポイントまたはターゲット・ポイントでの単位利得および0位相シフトは、フォーカス幅と称するフォーカス・ポイントの回りの領域、に適用される。前述の雑音モデルが与えられた場合、上で示した問題の包括的な解は、数学的多次元最適化(すなわち、シンプレックス、グラディエントなど)の方法を使用して解くことができる通常の制約付き最小化問題に類似する。残念ながら、重み行列Wの高い次元(周波数帯域ごとに2M個の実数、全体でN×2M個の数)、多モード超曲面に起因し、また、この関数が非線形なので、多モード超曲面(multimodal hypersurface)内のポイントとして最適重みを見つけることは、通常は極小値について複数の検査が必要なので、計算的に非常に負荷が重い処理である。
3.3 重み行列Wの低次元誤差最小化の解
上で概要を示した多モード超共面問題を解くことを試みる複数の従来の方法があるが、そのような方法は、通常は、ビーム・フォーミング動作に高速応答が望まれるビーム・フォーミング・システムで有用になるには余りにも遅すぎる。したがって、この問題を解くことを直接に試みるのではなく、式(11)の制約の下での式(7)によって定義される関数の直接多次元最適化に取り組んで、最小二乗または他の誤差最小化技法、誤差パターン合成、そしてその後にマイクロフォン・アレイの周囲のターゲット・ポイントまたはフォーカス・ポイントのそれぞれのフォーカス幅に向かう単一次元探索、を使用する。
式(11)の2つの制約を考慮すると、2つの矛盾するプロセスがあることは明白である。
具体的に言うと、狭いフォーカス領域を与えられると、式(11)の第1の制約、すなわちフォーカス・ポイントでの単位利得は、狭いフォーカス領域を使用することから生じる指向性の向上の結果として、式(7)に示された環境雑音エネルギーを強制的に減らす傾向がある。逆に、狭いフォーカス領域を与えられると、よりよい指向性の解がマイクロフォンからの信号の間のますます小さくなる位相差を活用することを試みるという事実に起因して、式(7)の相関しない雑音エネルギー成分が増える傾向があることになり、これによってマイクロフォン・アレイの回路内の相関されない雑音を増化させる。
その一方で、ターゲット・フォーカス領域が大きいときに、単により大きいビーム幅のおかげで、その領域内により多くの環境雑音エネルギーが存在する。しかし、マイクロフォンからの信号の間の位相差がより重要でなくなるので、相関されない雑音エネルギーは減少方向に向かい、この結果、マイクロフォン・アレイ回路の雑音の影響は、より小さい影響を有するようになる。
これらの矛盾するプロセスの最適化は、式(7)によって示される総雑音エネルギーが最小限である、所与のフォーカス・ポイントまたはターゲット・ポイントの周囲のフォーカス領域幅の重み行列の解をもたらす。この最適解を得るプロセスを、本明細書では「パターン合成(pattern synthesis)」と称する。一般に、このパターン合成の解は、所与のターゲット・ビーム形状に関する誤差を最小にする(前述の最小二乗技法または他の誤差最小化技法を使用して)最適ビーム形状の重み行列の重みを見つける。その結果、重み行列の解は、線形連立方程式を解く従来の数値解析法を使用して達成される。そのような数値解析法は、従来の多次元最適化方法より達成がかなり高速である。
3.3.1 ターゲット・ビーム形状のセットの定義
上で説明した誤差最小化技法を考慮すると、ターゲット・ビーム形状の定義は、より扱いやすい問題である。具体的に言うと、ターゲット・ビーム形状は、基本的に、1つのパラメータ、すなわちターゲット・フォーカス領域の幅の関数である。上で注記したように、1の最大値を有し、0に減衰するすべての関数を使用して、ターゲット・ビーム形状を定義することができる(この関数は、ターゲット・ビーム内の利得、すなわち、フォーカス・ポイントで1であり、ビーム境界での0まで減衰する利得、を提供する)。しかし、矩形領域を定義する矩形関数などの突然変化する関数は、ビーム形状のリップルを引き起こし、これによって、包括的ビーム・フォーマの総合性能が低下する傾向がある。したがって、1から0に滑らかに推移するターゲット形状関数を使用することによって、よりよい結果が達成される。
テストされた実施形態でよい結果を作ることが判明した滑らかに減衰する関数の1例が、式(12)に示された、普通のコサイン形状の関数である。
Figure 2005253071
ここで、(ρ,φ,θ)は、ターゲット・フォーカス・ポイントであり、δは、ターゲット領域サイズであり、kは、形状関数を変更するスケーリング係数である。
さらに、上で注記したように、前述のターゲット重み関数V(ρ,φ,θ)は、3つの重み付けパラメータVPass、VTrans、およびVStopのセットとして定義され、これらのパラメータは、ターゲット・フォーカス・ポイントが、ターゲット・ビーム形状内(VPass)、ターゲット・フォーカス・ポイントの周囲の「推移領域」内(VTrans)、または完全にターゲット・ビーム形状および推移領域の外(VStop)のいずれにあるかに対応する。セクション2.1で詳細に述べたように、ターゲット重み関数は、各ターゲット・ポイントが特定のターゲット・ビームに対してどこにあるかに依存して各ターゲット・ポイントに重みを付ける利得を提供し、その重み付けの目的は、ビーム・フォーマ計算において主ビームの外のポイントから発する信号の影響を最小にすることである。
3.3.2 パターン合成
ターゲット・ビーム形状およびターゲット重み関数を定義したならば、最小二乗要件(または他の誤差最小化技法)を満足することによって、実際のビーム形状(マイクロフォン指向性パターンに基づく)をターゲット関数にあてはめる重みのセットを特定することは、単純な問題である。
具体的に言うと、第1ステップは、ワーク・スペース内で均等に分散する、L個のポイント(L>M)を選択することである。次に、所与の周波数fについて、δ内の所与のフォーカス領域に関するビーム形状T(式(12)を参照されたい)を、ターゲット重み関数V、アレイ内のマイクロフォンの個数M、位相シフトおよび信号減衰D(式(2)を参照されたい)、マイクロフォン指向性応答U、および重み行列または「重みベクトル」Wの複素数積として定義することができる。この積を、式(13)によって示される複素数式によって表すことができる。
1xL=V1xLMxLMxL1xM 式(13)
この複素数式の解(すなわち、最適重みWに対する解)は、重みベクトルWに対する最小二乗誤差(MMSE)解(または他の従来の誤差最小化技法を使用した最小値)を見つけることによって特定される。この重みベクトルWが、
Figure 2005253071
によって表されることに留意されたい。
3.3.3 重みの正規化
セクション3.3.2で説明したパターン合成プロセスで特定された重みの解は、アレイ内の各マイクロフォンから成る実際の指向性パターンを所望のビーム形状Tにあてはめる。しかし、上で注記したように、この重みは、式(11)の制約をまだ満足していない。したがって、この問題に対処するために、重みを正規化して、フォーカス・ポイントcから発する信号に対して単位利得および0位相シフトを強制する。この正規化は、次の式(14)によって示される。
Figure 2005253071
ここで、
Figure 2005253071
は、式(11)の制約の下での最適化され正規化された重みを表す。
3.3.4 ビーム幅の最適化
上で述べたように、周波数ごとに、上のセクション3.3.1から3.3.3で説明した、出力信号内の最小雑音エネルギーを提供する重みの特定および正規化の処理が、所望のステップ・サイズを使用して、ターゲット・ビーム形状の範囲のそれぞれについて繰り返される。具体的に言うと、この処理は、δが各特定のターゲット・フォーカス・ポイントの周囲のターゲット領域幅を表すとすると、範囲[δMIN,δMAX]全体を通じて繰り返される。言い換えると、上で提供した議論を繰り返すと、特定のターゲット・ビーム形状に対して最適化され正規化された重みのセットすなわち、重みベクトル
Figure 2005253071
の生成について上で説明した処理が、現在のMCLT周波数サブバンドのターゲット・ポイントごとに所望のステップ・サイズを使用してビーム角度の所望の範囲全体を通じて繰り返される。その結果得られた重みベクトル
Figure 2005253071
は、所与の周波数fに関する「擬似最適」解である。
3.3.5 周波数帯域全体に関する計算
特定のターゲット・フォーカス・ポイントに関する完全な重み行列
Figure 2005253071
を得るために、セクション3.3.1から3.3.4で説明した処理を、単純に、マイクロフォン・アレイによって処理される周波数範囲内のMCLT周波数サブバンドごとに繰り返す。
3.3.6 ビームのセットの計算
セクション3.3.1から3.3.5で説明した処理を完了した後に、重み行列
Figure 2005253071
は、特定のフォーカス・ポイントcの単一のビームに関する重みのN×M行列を表す。その結果、上のセクション3.3.1から3.3.5で説明した処理が、K個のビームについて、これらのビームがワーク・スペース全体を通じて均等に配置されるように、K回繰り返される。その結果得られたN×M×Kの3次元重み行列は、そのローカル環境の現在の雑音条件が与えられた場合の現在のローカル環境内のマイクロフォン・アレイについて包括的ビーム・フォーマによって作られた完全なビーム設計を指定する。
4.0 実装
一実施形態で、ローカル雑音条件が与えられた場合の特定のセンサ・アレイに対して最適ビームを設計するための、上のセクション3で説明したビーム・フォーミング処理は、2つの別々の部分すなわち、前述の重み行列を計算するオフライン設計プログラムと、図3の図に従ってこれらの重みを使用するランタイム・マイクロフォン・アレイ信号処理エンジン、として実装される。重みをオフラインで計算する理由は、最適重みの計算が、図3によって示される信号処理動作より実質的に計算的に負荷が重いということである。
しかし、例えば従来のPCタイプ・コンピュータを含む従来のコンピュータの速度で、重み行列のリアル・タイムまたはリアル・タイムに近い計算が、可能である。その結果、もう1つの実施形態では、重み行列が、使用可能なコンピュータ処理能力が許す限りでリアル・タイムに近く、継続して計算される。その結果、包括的ビーム・フォーマによって設計されるビームは、ローカル環境の環境雑音レベルの変化に対して継続的かつ自動的に適合する。
上で図2および図3に関して説明した処理を、さらにセクション2および3で提供した詳細な説明を考慮して、図5の全般的な動作流れ図に示す。具体的に言うと、図5は、包括的ビーム・フォーマの動作を示す例示的な動作流れ図である。図5で破線によって表される箱および箱の間の相互接続が、本明細書に記載の包括的ビーム・フォーマの代替実施形態を表すことと、下で説明するように、これらの代替実施形態のいずれかまたはすべてを、本明細書全体で説明する他の代替実施形態に使用できることに留意されたい。
一般に、図5に示されているように、ビーム・フォーミング動作は、アレイ入力から雑音モデルを生成するのに十分な時間期間に渡ってマイクロフォン・アレイ500からの入力信号を監視すること(ボックス505)によって開始される。一般に、当業者に既知のように、雑音モデルは、入力信号の比較的短いサンプルに基づいて計算することができる。さらに、上で注記したように、一実施形態で、マイクロフォン・アレイ500が、連続的に、またはユーザ指定の時刻もしくは間隔で監視され、その結果、時間の関数としてローカル雑音環境に適合し、マイクロフォン・アレイの最適ビームを設計する際に使用される雑音モデルを、リアル・タイムまたはほぼリアル・タイムで計算し、更新することができる。
入力信号が受け取られると、従来のA/D変換技法510を使用して、入ってくるオーディオ信号からデジタル信号フレームを構成する。上で注記したように、そのようなフレームの長さは、通常は、エイリアス効果を減らすか最小にするために、MCLTワーク帯域内の最低周波数の少なくとも2倍以上の期間にしなければならない。次に、デジタル・オーディオ・フレームを、MCLT係数に分解する(515)。テストされた実施形態では、通常の会議室タイプの環境で通常の円形マイクロフォン・アレイのビームを設計する際に、320個のMCLT周波数帯域の使用が、よい結果をもたらすことが判明した。
この時点で、分解されたオーディオ信号が、MCLT係数によって周波数領域信号として表されるので、例えばある所望の周波数または周波数範囲でのフィルタリングなど、所望の周波数領域処理を適用することは、どちらかと言えば単純である。例えば、雑音モデルから周波数範囲のあるウィンドウ以外のすべてを除去することが望まれる場合に、帯域タイプ・フィルタをこのステップで適用することができる。同様に、例えば高域通過、低域通過、マルチ・バンド・フィルタ、ノッチ・フィルタなどを含む他のフィルタリング効果などを、個別にまたは組み合わせて適用することができる。したがって、一実施形態で、入力オーディオ・フレームの前処理520が、オーディオ・フレームから雑音モデルを生成する前に実行される。
次に、前処理が実行されたか否かにかかわらず、従来の雑音モデリング技法を使用して、雑音モデルを生成する(525)。例えば、等方性環境雑音がマイクロフォン・アレイの周囲のワーキング体積またはワーク・スペース全体に均等に分散すると仮定する。したがって、等方性環境雑音は、アレイが使用される位置での普通の状態での雑音の直接サンプリングおよび平均化によってモデル化される。同様に、器械雑音は、雑音および反響がない「理想的な部屋」(雑音がマイクロフォンおよびプリ・アンプの回路だけから来るように)でのアレイのマイクロフォンの直接サンプリングおよび平均化によってモデル化される。
雑音モデルが生成され(525)と、次のステップは、ビーム・フォーミング設計で使用される複数の変数の定義する(ボックス530)ことである。具体的に言うと、この変数には、1)上で説明したように、所望の減衰関数に基づくターゲット・ビーム形状、2)アレイの周囲に分散するターゲット・フォーカス・ポイント、3)ターゲット・フォーカス・ポイントが特定のターゲット・ビーム内、そのビームの周囲の推移領域内、またはビームおよび推移領域の外のどれにあるかに依存してターゲット・フォーカス・ポイントに重みを付けるターゲット重み関数、4)最小および最大の所望のビーム形状角度、および5)最適ビーム形状の探索中にターゲット・ビームを増分するビーム・ステップ・サイズが含まれる。これらの変数のすべてを、特定のアレイについて事前に定義し、ビーム設計に使用するために単純に読み戻すことができることに留意されたい。代替案では、これらの変数のうちの1つまたは複数が、ユーザ調節可能であって、ビーム設計処理に対するより多くのユーザ制御を提供する。
ボックス540からボックス585に示されたステップによって表されるビーム設計処理を開始する前に、現在のターゲット・ビーム形状角度(すなわち現在のターゲットビーム幅)、現在のMCLTサブバンド、およびポイントc(k)での現在のターゲット・ビームを追跡する各カウンタを初期化する(ボックス535)。
具体的に言うと、雑音モデルおよび前述の変数を与えられると、最適ビーム設計が開始され、まず、各マイクロフォンの指向性を与えられて、各マイクロフォンおよびターゲット・フォーカス・ポイントに関する現在のMCLTサブバンドでの現在のビーム幅の重みを計算する(540)。上で注記したように、マイクロフォン・パラメトリック情報230は、一実施形態で、ある種のテーブルまたはデータベースで維持されるか、あるいは、マイクロフォン・アレイ自体、例えば上で説明した「自己記述マイクロフォン・アレイ」に保管されており、それによって自動的に報告される、のいずれかである。この計算された重みを正規化(550)して、対応するターゲット・フォーカス・ポイントでの単位利得および0位相シフトを保証する。正規化された重みを、対応するビーム形状と共に保管する(240)。
次に、現在のビーム形状角度が、ステップ530からの指定された最大角度以上であるかどうかに関する判定555を行う。現在のビーム角度が、ステップ530で指定された最大ビーム角度未満である場合には、前述のビーム角度ステップ・サイズだけビーム角度を増分する(ボックス560)。新しいターゲット・ビーム幅に基づいて、重みの新しいセットを計算し(540)、正規化し(550)、保管する(240)。これらのステップ(540、550、240、および555)が、ターゲット・ビーム幅が最大角度以上になるボックス555まで繰り返される。
この時点で、保管されたターゲット・ビームおよび対応する重みを検索して、ポイントc(k)での現在のターゲット・ビームの現在のMCLT帯域の最適ビーム幅を選択する(ボックス565)。この最適ビーム幅および対応する重みベクトルを、現在のMCLTサブバンドについて最適ビームおよび重み行列(255)に保管する。現在のMCLTサブバンド、例えばMCLTサブバンド(i)が、最大MCLTサブバンドであるかどうかに関する判定(ボックス570)を行う。そうでない場合には、MCLTサブバンド識別子(i)を増分して、次のMCLTサブバンドをポイントし、現在のビーム幅を最小角度にリセットする(箱575)。
現在のMCLTサブチャネルに関する最適ビームおよび重み行列エントリを計算する、上で説明したステップ(540、550、240、555、560、565、255、570、および575)を、現在のMCLTサブバンドが最大MCLTサブバンドになるまで(ボックス570)、新しい現在のMCLTサブバンドに関して繰り返す。現在のMCLTサブバンドが、最大MCLTサブバンドと等しくなると(ボックス570)、最適ビームおよび重み行列が、ポイントc(k)での現在のターゲット・ビームの各MCLTサブバンドにまたがって完全な取り込みが完了する。
しかし、通常は、マイクロフォン・アレイに対して複数のビームを提供することが望まれる。したがって、ステップ580および585に示されているように、ポイントc(k)での現在のターゲット・ビームに対する各MCLTサブチャネルの最適ビームおよび重み行列を取り込む、上で説明したステップが、K個のビームについてK回繰り返され、これらのビームは、通常は、ワーク・スペース全体を通じて均等に配置される。結果として得られたN×M×Kの3次元重み行列255は、そのローカル環境の現在の雑音条件を与えられた場合の、その現在のローカル環境でのマイクロフォン・アレイに対して、包括的ビーム・フォーマによって作られた完全なビーム設計の仕様を定める。
任意の幾何学的配置およびマイクロフォン指向性のマイクロフォン・アレイに対して最適化されたビームのセットを設計する包括的ビーム・フォーマについての前述の説明は、例示と説明のために提示されたものである。それが網羅的であること、または開示された正確な形態に本発明を制限することは、意図されていない。上の教示に鑑みて、多数の変更および変形が可能である。さらに、前述の代替実施形態のいずれかまたはすべてを、望みの組合せで使用して、包括的ビーム・フォーマの追加のハイブリッド実施形態を形成できることに留意されたい。本発明の範囲が、この詳細な説明によって制限されるのではなく、請求の範囲によって制限されることが意図されている。
任意の幾何学的配置およびマイクロフォン・タイプのマイクロフォン・アレイの最適ビームのセットを設計する包括的ビーム・フォーマを実施する例示的システムを構成する汎用コンピューティング・デバイスを示す全般的なシステム図である。 任意の幾何学的配置およびマイクロフォン・タイプのマイクロフォン・アレイの最適ビームのセットを設計する包括的ビーム・フォーマを実施する例示的プログラム・モジュールを示す例示的なシステム図である。 特定のターゲット・ポイントの出力オーディオ信号を提供するために図2の包括的ビーム・フォーマによって計算されるビームの入力信号のMCLTベース処理を示す全般的な流れ図である。 周波数およびビーム角度の関数として図2の包括的ビーム・フォーマによって生成されるビームの空間的選択性(利得)の例を示す図である。 マイクロフォン・アレイの最適ビームを設計する包括的ビーム・フォーマの動作を示す例示的な動作流れ図である。
符号の説明
110 コンピュータ
120 処理ユニット
121 システム・バス
130 システム・メモリ
134 オペレーティング・システム
135 アプリケーション・プログラム
136 他のプログラム・モジュール
137 プログラム・データ
140 取外し不能不揮発性メモリ・インターフェース
141 ハードディスク・ドライブ
144 オペレーティング・システム
145 アプリケーション・プログラム
146 他のプログラム・モジュール
147 プログラム・データ
150 取外し可能不揮発性メモリ・インターフェース
151 磁気ディスク・ドライブ
152 磁気ディスク
155 光ディスク・ドライブ
156 不揮発性光ディスク
160 ユーザ入力インターフェース
161 マウス
162 キーボード
170 ネットワーク・インターフェース
171 ローカル・エリア・ネットワーク
172 モデム
173 広域ネットワーク
180 リモート・コンピュータ
181 メモリ・ストレージ・デバイス
185 リモート・アプリケーション・プログラム
190 ビデオ・インターフェース
191 モニタ
195 出力周辺インターフェース
196 プリンタ
197 スピーカ
198 マイクロフォン・アレイ
199 オーディオ・インターフェース
200 センサ・アレイ
205 信号入力モジュール(M個のセンサ信号x(n))
210 周波数領域分解モジュール(MCLT、FFTなど)
215 雑音モデル計算モジュール
220 重み計算モジュール
225 ターゲット・ビーム形状定義モジュール
230 センサ・アレイ・パラメトリック情報
235 重み正規化モジュール
240 ターゲット・ビームおよび重み
245 総雑音エネルギー比較モジュール
250 最適化されたビームおよび重み行列出力モジュール
255 最適ビームおよび重み行列
500 マイクロフォン・アレイ

Claims (35)

  1. 事前に計算された複数の雑音モデルから成るセットからのマイクロフォン・アレイ用の複数のビーム・セットをリアル・タイム設計する方法であって、
    ビーム幅の範囲内の複数のビーム幅のそれぞれに対してのマイクロフォン・アレイ信号入力の周波数領域分解の各サブバンドの複素数値の利得から成るセットを計算することであって、前記マイクロフォン・アレイを備えるマイクロフォンの既知の幾何学的配置および指向性と組み合わされた前記事前に計算された雑音モデルから、前記複素数値の利得から成る複数のセットを計算すること、および
    前記複素数値の利得のセットを検索して、周波数領域サブバンドごとの、および前記マイクロフォン・アレイの周囲の複数のターゲット・フォーカス・ポイントのそれぞれの、複素数値の利得の単一のセットを特定すること
    を実行するコンピューティング・デバイスを使用することを備え、
    複素数値の利得の前記セットのそれぞれは、前記マイクロフォン・アレイの周囲の各ターゲット・フォーカス・ポイントの、各周波数領域サブバンドの、複素数値の利得の対応するセットに関して最小の総雑音エネルギーを有する複素数値の利得の前記セットとして個別に選択され、複素数値の利得の各選択されたセットは、前記マイクロフォン・アレイの前記ビーム・セット内のエントリとして提供される
    ことを特徴とする方法。
  2. 前記周波数領域分解は、MCLT(Modulated Complex Lapped Transform)であることを特徴とする請求項1に記載の方法。
  3. 前記周波数領域分解は、高速フーリエ変換(FFT)であることを特徴とする請求項1に記載の方法。
  4. 前記事前に計算された雑音モデルは、環境雑音モデル、器械雑音モデル、およびポイント・ソース雑音モデルの少なくとも1つを含むことを特徴とする請求項1に記載の方法。
  5. 前記環境雑音モデルは、前記マイクロフォン・アレイの周囲のワーク・スペース内の等方性雑音の直接サンプリングおよび平均化によって計算されることを特徴とする請求項4に記載の方法。
  6. 前記器械雑音モデルは、前記マイクロフォン・アレイの回路から発する雑音だけがサンプリングされるように、雑音および反響のないワーク・スペースで前記マイクロフォン・アレイ内の前記マイクロフォンの出力の直接サンプリングおよび平均化によって計算されることを特徴とする請求項4に記載の方法。
  7. 前記総雑音エネルギーは、前記事前に計算された雑音モデル、および複素数値の利得の前記対応するセットと組み合わされた前記ビーム幅、の関数として計算されることを特徴とする請求項1に記載の方法。
  8. 事前に計算された雑音モデルの前記セットの少なくとも1つのメンバは、前記マイクロフォン・アレイの周囲の雑音レベルの変化に応答してリアル・タイムで再計算されることを特徴とする請求項1に記載の方法。
  9. 複素数値の利得の前記セットは、各ターゲット・フォーカス・ポイントから発する信号に関する単位利得および0位相シフトを保証するために正規化されることを特徴とする請求項1に記載の方法。
  10. ビーム幅の前記範囲は、事前に決定される最小ビーム幅、事前に決定される最大ビーム幅、および事前に決定されるビーム幅ステップ・サイズによって定義されることを特徴とする請求項1に記載の方法。
  11. ビーム幅の前記範囲は、ユーザ調整可能な最小ビーム幅、ユーザ調整可能な最大ビーム幅、およびユーザ調整可能なビーム幅ステップ・サイズによって定義されることを特徴とする請求項1に記載の方法。
  12. 前記マイクロフォン・アレイを備える前記マイクロフォンの前記既知の幾何学的配置および指向性は、前記マイクロフォン・アレイの動作特性を定義するデバイス記述ファイルから提供されることを特徴とする請求項1に記載の方法。
  13. 前記デバイス記述ファイルは、前記マイクロフォン・アレイの内部に存在し、前記マイクロフォン・アレイを構成する前記マイクロフォンの前記既知の幾何学的配置および指向性は、ビーム・セットの前記リアル・タイム設計で使用するために前記コンピューティング・デバイスに自動的に報告されることを特徴とする請求項12に記載の方法。
  14. 前記マイクロフォン・アレイから入ってくるマイクロフォン信号のリアル・タイム処理のために前記ビーム・セットを適用するビーム・フォーミング・プロセッサをさらに備えることを特徴とする請求項1に記載の方法。
  15. センサ・アレイのビーム・セットを自動的に設計するシステムであって、
    それぞれが既知の幾何学的配置および指向性パターンを有する複数のセンサ、を有するセンサ・アレイのすべてのセンサ信号出力を監視すること、
    前記センサ信号出力から少なくとも1つの雑音モデルを生成すること、
    前記センサ・アレイの周囲のワーク・スペース内で空間的に分布するターゲット・ビーム・フォーカス・ポイントのセットおよびターゲット・ビーム幅の範囲の関数として、ターゲット・ビーム形状のセットを定義すること、
    特定のターゲット・ビーム形状に対する各ターゲット・フォーカス・ポイントの位置に依存して、各ターゲット・フォーカス・ポイントに重みを付ける利得を提供するためにターゲット重み関数のセットを定義すること、
    各マイクロフォンの前記指向性パターンを各ターゲット・ビーム形状に、各重み付けされたターゲット・フォーカス・ポイントに対して着目する周波数範囲にまたがるターゲット・ビーム幅の範囲全体に渡って、あてはめるために正規化された重みのセット組を計算することによって、潜在的なビームのセットを計算すること、ならびに
    着目する周波数範囲にまたがる各潜在的なビームの総雑音エネルギーを計算すること、および着目する前記周波数範囲にまたがる周波数帯域のセットのそれぞれの最低の総雑音エネルギーを有する各潜在的なビームを選択すること、によってビームのセットを特定すること
    を備えることを特徴とするシステム。
  16. 前記正規化された重みは、センサ・アレイ信号入力の周波数領域分解のサブバンドごとの複素数値の利得のセットを表すことを特徴とする請求項15に記載のシステム。
  17. 前記周波数領域分解は、MCLT(Modulated Complex Lapped Transform)であることを特徴とする請求項16に記載のシステム。
  18. 前記周波数領域分解は、高速フーリエ変換(FFT)であることを特徴とする請求項16に記載のシステム。
  19. 前記センサ信号出力から前記少なくとも1つの雑音モデルを生成することは、前記センサ・アレイの周囲のワーク・スペース内の雑音の直接サンプリングおよび分析を介して、環境雑音モデル、器械雑音モデル、およびポイント・ソース雑音モデルの少なくとも1つを計算することを備えることを特徴とする請求項15に記載のシステム。
  20. 問題の周波数範囲にまたがる各潜在的なビームの前記総雑音エネルギーを計算することは、前記少なくとも1つの雑音モデルおよび各潜在的なビームに関連する前記正規化された重みの関数として雑音エネルギー・レベルを決定することを備えることを特徴とする請求項15に記載のシステム。
  21. 前記雑音モデルの少なくとも1つは、前記センサ・アレイの周囲の雑音レベルの変化に応答してリアル・タイムで自動的に再計算されることを特徴とする請求項15に記載のシステム。
  22. 各潜在的ビームの前記正規化された重みは、各対応するターゲット・フォーカス・ポイントから発する信号の単位利得および0位相シフトを保証することを特徴とする請求項15に記載のシステム。
  23. ターゲット・ビーム幅の前記範囲は、ターゲット・ビーム幅の前記範囲にまたがって特定のターゲット・ビーム幅を選択するためのビーム幅角度ステップ・サイズと組み合わされる最小ビーム幅および最大ビーム幅によって制限されることを特徴とする請求項15に記載のシステム。
  24. 各センサの前記既知の幾何学的配置および指向性は、前記センサ・アレイ内に常駐するデバイス記述ファイルから自動的に供給されることを特徴とする請求項15に記載のシステム。
  25. 特定のターゲット・フォーカス・ポイントに対して前記センサ・アレイにビームの前記セットを適用することによって、センサ・アレイ入力のリアル・タイムのステアリング可能ビーム・ベース処理をするビーム・フォーミング・プロセッサをさらに備えることを特徴とする請求項15に記載のシステム。
  26. マイクロフォン・アレイの出力信号を処理するステアリング可能ビームのセットを自動的に設計するコンピュータ実行可能命令を有するコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、
    前記マイクロフォン・アレイのマイクロフォンの範囲内の環境の雑音の1つまたは複数のモデルと、前記マイクロフォン・アレイの各マイクロフォンの既知の幾何学的配置および指向性パターンとを含むパラメータのセットから、前記マイクロフォン・アレイの周囲の複数のターゲット・フォーカス・ポイントのそれぞれのビーム幅の範囲に渡って複数のビームのそれぞれの複素数値の利得のセットを計算することであって、
    各ビームが、ビーム幅の前記範囲に渡って特定のビーム幅を選択するためのビーム幅角度ステップ・サイズを使用してビーム幅の前記範囲全体から自動的に選択される態様で、計算すること、
    各ビーム幅の各ターゲット・フォーカス・ポイントの複素数値の利得の各セットに対して最小の総雑音エネルギーを計算すること、および
    各ターゲット・フォーカス・ポイントの前記最小の総雑音エネルギーを有する複素数値の利得および対応するビーム幅の前記セットを特定し、マイクロフォン・アレイの前記出力信号を処理するためにステアリング可能ビームの前記セットのメンバとして各前記セットを選択すること
    を備えることを特徴とするコンピュータ可読媒体。
  27. 前記複素数値の利得は、対応するターゲット・フォーカス・ポイントから発する信号に関する単位利得および0位相シフトを保証するために正規化されることを特徴とする請求項26に記載のコンピュータ可読媒体。
  28. 前記複素数値の利得は、マイクロフォン・アレイ入力信号の周波数領域分解のサブバンドごとに別々に計算されることを特徴とする請求項26に記載のコンピュータ可読媒体。
  29. 前記周波数領域分解は、MCLT(Modulated Complex Lapped Transform)ベース分解および高速フーリエ変換(FFT)ベース分解のいずれかであることを特徴とする請求項28に記載のコンピュータ可読媒体。
  30. 前記マイクロフォン・アレイの出力信号を処理するためにステアリング可能ビームの前記セットを適用するビーム・フォーミング・プロセッサをさらに備えることを特徴とする請求項26に記載のコンピュータ可読媒体。
  31. 前記ビーム・フォーミング・プロセッサは、前記マイクロフォン・アレイの周囲の環境内のオーディオ信号ソースをローカライズするためにステアリング可能ビームの最適化されたセットを使用するサウンド・ソース・ローカライゼーション(SSL)システムを備えることを特徴とする請求項30に記載のコンピュータ可読媒体。
  32. 前記ビーム・フォーミング・プロセッサは、特定のステアリングされたビームの外側でのエコー・キャンセルのためにステアリング可能ビームの最適化されたセットを使用するアコースティック・エコー・キャンセレーション(AEC)システムを備えることを特徴とする請求項31に記載のコンピュータ可読媒体。
  33. 前記ビーム・フォーミング・プロセッサは、1つまたは複数のステアリング可能ビームの前記ターゲット・フォーカス・ポイントに関してオーディオ信号ソースを選択的にフィルタリングする指向性フィルタリング・システムを備えることを特徴とする請求項31に記載のコンピュータ可読媒体。
  34. 前記ビーム・フォーミング・プロセッサは、1つまたは複数のステアリング可能ビームの前記ターゲット・フォーカス・ポイントに関してオーディオ信号ソースを選択的にキャプチャする選択的信号キャプチャ・システムを備えることを特徴とする請求項31に記載のコンピュータ可読媒体。
  35. 前記ビーム・フォーミング・プロセッサは、
    前記マイクロフォン・アレイの周囲の環境内のオーディオ信号ソースをローカライズするためにステアリング可能ビームの最適化されたセットを使用するサウンド・ソース・ローカライゼーション(SSL)システム、
    特定のステアリングされたビームの外のエコーをキャンセルするためにステアリング可能ビームの最適化されたセットを使用するアコースティック・エコー・キャンセレーション(AEC)システム、
    1つまたは複数のステアリング可能ビームの前記ターゲット・フォーカス・ポイントに関してオーディオ信号ソースを選択的にフィルタリングする指向性フィルタリング・システム、および
    1つまたは複数のステアリング可能ビームの前記ターゲット・フォーカス・ポイントに関してオーディオ信号ソースを選択的にキャプチャする選択的信号キャプチャ・システム
    のうちの2つ以上の組合せを備えることを特徴とする請求項31に記載のコンピュータ可読媒体。
JP2005045471A 2004-03-02 2005-02-22 マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法 Expired - Fee Related JP4690072B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/792,313 US7415117B2 (en) 2004-03-02 2004-03-02 System and method for beamforming using a microphone array
US10/792,313 2004-03-02

Publications (2)

Publication Number Publication Date
JP2005253071A true JP2005253071A (ja) 2005-09-15
JP4690072B2 JP4690072B2 (ja) 2011-06-01

Family

ID=34750599

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005045471A Expired - Fee Related JP4690072B2 (ja) 2004-03-02 2005-02-22 マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法

Country Status (10)

Country Link
US (1) US7415117B2 (ja)
EP (1) EP1571875A3 (ja)
JP (1) JP4690072B2 (ja)
KR (1) KR101117936B1 (ja)
CN (1) CN1664610B (ja)
AU (1) AU2005200699B2 (ja)
BR (1) BRPI0500614A (ja)
CA (1) CA2499033C (ja)
MX (1) MXPA05002370A (ja)
RU (1) RU2369042C2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010520728A (ja) * 2007-03-05 2010-06-10 ジートロニクス・インコーポレーテッド 信号処理機能を有する小占有面積のマイクロホン・モジュール
JP2012526296A (ja) * 2009-05-08 2012-10-25 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 音声フォーマット・トランスコーダ
JP2017531971A (ja) * 2014-08-22 2017-10-26 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ビームフォーミングフィルタのためのfirフィルタ係数の算出
JP2017228978A (ja) * 2016-06-23 2017-12-28 キヤノン株式会社 信号処理装置、信号処理方法、及びプログラム
JP2019008134A (ja) * 2017-06-23 2019-01-17 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
KR20200066367A (ko) * 2017-10-23 2020-06-09 아이플라이텍 캄파니 리미티드 타겟 음성 검출 방법 및 장치
JP2021197566A (ja) * 2020-06-09 2021-12-27 本田技研工業株式会社 音源分離装置、音源分離方法、およびプログラム

Families Citing this family (236)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030147539A1 (en) 2002-01-11 2003-08-07 Mh Acoustics, Llc, A Delaware Corporation Audio system based on at least second-order eigenbeams
US6970796B2 (en) * 2004-03-01 2005-11-29 Microsoft Corporation System and method for improving the precision of localization estimates
GB0405790D0 (en) * 2004-03-15 2004-04-21 Mitel Networks Corp Universal microphone array stand
US7970151B2 (en) * 2004-10-15 2011-06-28 Lifesize Communications, Inc. Hybrid beamforming
EP1856948B1 (en) * 2005-03-09 2011-10-05 MH Acoustics, LLC Position-independent microphone system
US8086451B2 (en) * 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US20070053522A1 (en) * 2005-09-08 2007-03-08 Murray Daniel J Method and apparatus for directional enhancement of speech elements in noisy environments
US7813923B2 (en) * 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
US7565288B2 (en) * 2005-12-22 2009-07-21 Microsoft Corporation Spatial noise suppression for a microphone array
WO2007103037A2 (en) * 2006-03-01 2007-09-13 Softmax, Inc. System and method for generating a separated signal
JP4912036B2 (ja) * 2006-05-26 2012-04-04 富士通株式会社 指向性集音装置、指向性集音方法、及びコンピュータプログラム
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
US7848529B2 (en) * 2007-01-11 2010-12-07 Fortemedia, Inc. Broadside small array microphone beamforming unit
US7924655B2 (en) 2007-01-16 2011-04-12 Microsoft Corp. Energy-based sound source localization and gain normalization
KR100856246B1 (ko) * 2007-02-07 2008-09-03 삼성전자주식회사 실제 잡음 환경의 특성을 반영한 빔포밍 장치 및 방법
US8160273B2 (en) * 2007-02-26 2012-04-17 Erik Visser Systems, methods, and apparatus for signal separation using data driven techniques
TW200849219A (en) * 2007-02-26 2008-12-16 Qualcomm Inc Systems, methods, and apparatus for signal separation
NL2000510C1 (nl) * 2007-02-28 2008-09-01 Exsilent Res Bv Werkwijze en inrichting voor geluidsbewerking.
US8005238B2 (en) * 2007-03-22 2011-08-23 Microsoft Corporation Robust adaptive beamforming with enhanced noise suppression
KR100873000B1 (ko) * 2007-03-28 2008-12-09 경상대학교산학협력단 마이크 어레이를 이용한 방향성 음원 필터링 시스템 및 그방법
US8098842B2 (en) * 2007-03-29 2012-01-17 Microsoft Corp. Enhanced beamforming for arrays of directional microphones
US8934640B2 (en) * 2007-05-17 2015-01-13 Creative Technology Ltd Microphone array processor based on spatial analysis
US8005237B2 (en) * 2007-05-17 2011-08-23 Microsoft Corp. Sensor array beamformer post-processor
WO2008150918A1 (en) * 2007-05-29 2008-12-11 Livescribe, Inc. Binaural recording for smart pen computing systems
WO2008150916A1 (en) * 2007-05-29 2008-12-11 Livescribe, Inc. Enhanced audio recording for smart pen computing systems
WO2008149296A1 (en) * 2007-06-08 2008-12-11 Koninklijke Philips Electronics N.V. Beamforming system comprising a transducer assembly
US20090123523A1 (en) * 2007-11-13 2009-05-14 G. Coopersmith Llc Pharmaceutical delivery system
US8433061B2 (en) * 2007-12-10 2013-04-30 Microsoft Corporation Reducing echo
US9392360B2 (en) 2007-12-11 2016-07-12 Andrea Electronics Corporation Steerable sensor array system with video input
WO2009076523A1 (en) 2007-12-11 2009-06-18 Andrea Electronics Corporation Adaptive filtering in a sensor array system
US8150054B2 (en) * 2007-12-11 2012-04-03 Andrea Electronics Corporation Adaptive filter in a sensor array system
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8199922B2 (en) * 2007-12-19 2012-06-12 Avaya Inc. Ethernet isolator for microphonics security and method thereof
US8812309B2 (en) * 2008-03-18 2014-08-19 Qualcomm Incorporated Methods and apparatus for suppressing ambient noise using multiple audio signals
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
US7952513B2 (en) * 2008-06-16 2011-05-31 Lockheed Martin Corporation Counter target acquisition radar and acoustic adjunct for classification
EP2321978A4 (en) * 2008-08-29 2013-01-23 Dev Audio Pty Ltd MICROPHONE NETWORK SYSTEM AND METHOD FOR ACQUIRING SOUNDS
US8130978B2 (en) * 2008-10-15 2012-03-06 Microsoft Corporation Dynamic switching of microphone inputs for identification of a direction of a source of speech sounds
US8319858B2 (en) * 2008-10-31 2012-11-27 Fortemedia, Inc. Electronic apparatus and method for receiving sounds with auxiliary information from camera system
GB0820902D0 (en) * 2008-11-14 2008-12-24 Astrium Ltd Active interference suppression in a satellite communication system
US8401206B2 (en) * 2009-01-15 2013-03-19 Microsoft Corporation Adaptive beamformer using a log domain optimization criterion
CN101510426B (zh) * 2009-03-23 2013-03-27 北京中星微电子有限公司 一种噪声消除方法及系统
WO2010131144A1 (en) * 2009-05-14 2010-11-18 Koninklijke Philips Electronics N.V. A method and apparatus for providing information about the source of a sound via an audio device
KR20140010468A (ko) * 2009-10-05 2014-01-24 하만인터내셔날인더스트리스인코포레이티드 오디오 신호의 공간 추출 시스템
JP5452158B2 (ja) * 2009-10-07 2014-03-26 株式会社日立製作所 音響監視システム、及び音声集音システム
RU2542586C2 (ru) * 2009-11-24 2015-02-20 Нокиа Корпорейшн Устройство для обработки звуковых сигналов
KR101200825B1 (ko) * 2009-12-21 2012-11-22 서울대학교산학협력단 가청주파수 대역 음향통신에서의 데이터 수신에러 감소 시스템 및 방법, 그리고 이에 적용되는 장치
US8219394B2 (en) * 2010-01-20 2012-07-10 Microsoft Corporation Adaptive ambient sound suppression and speech tracking
CN101957443B (zh) * 2010-06-22 2012-07-11 嘉兴学院 声源定位方法
US8483400B2 (en) * 2010-06-25 2013-07-09 Plantronics, Inc. Small stereo headset having seperate control box and wireless connectability to audio source
US8483401B2 (en) * 2010-10-08 2013-07-09 Plantronics, Inc. Wired noise cancelling stereo headset with separate control box
US8503689B2 (en) * 2010-10-15 2013-08-06 Plantronics, Inc. Integrated monophonic headset having wireless connectability to audio source
DK177172B1 (en) 2010-11-05 2012-04-16 Nkt Cables Group As An integrity monitoring system and a method of monitoring integrity of a stationary structure
US9171551B2 (en) * 2011-01-14 2015-10-27 GM Global Technology Operations LLC Unified microphone pre-processing system and method
WO2012107561A1 (en) * 2011-02-10 2012-08-16 Dolby International Ab Spatial adaptation in multi-microphone sound capture
JP5691804B2 (ja) * 2011-04-28 2015-04-01 富士通株式会社 マイクロホンアレイ装置及び音信号処理プログラム
US9973848B2 (en) * 2011-06-21 2018-05-15 Amazon Technologies, Inc. Signal-enhancing beamforming in an augmented reality environment
US8660847B2 (en) 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
JP2015502524A (ja) * 2011-11-04 2015-01-22 ブリュエル アンド ケアー サウンド アンド ヴァイブレーション メジャーメント エー/エス 計算効率の良い広帯域フィルタアンドサムアレイ合焦
US20130121498A1 (en) * 2011-11-11 2013-05-16 Qsound Labs, Inc. Noise reduction using microphone array orientation information
US9055357B2 (en) * 2012-01-05 2015-06-09 Starkey Laboratories, Inc. Multi-directional and omnidirectional hybrid microphone for hearing assistance devices
CN104247461A (zh) 2012-02-21 2014-12-24 英特托拉斯技术公司 音频再现系统和方法
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
US9615173B2 (en) * 2012-07-27 2017-04-04 Sony Corporation Information processing system and storage medium
US9258644B2 (en) 2012-07-27 2016-02-09 Nokia Technologies Oy Method and apparatus for microphone beamforming
US9232310B2 (en) 2012-10-15 2016-01-05 Nokia Technologies Oy Methods, apparatuses and computer program products for facilitating directional audio capture with multiple microphones
US9078057B2 (en) * 2012-11-01 2015-07-07 Csr Technology Inc. Adaptive microphone beamforming
IL223086A (en) 2012-11-18 2017-09-28 Noveto Systems Ltd System and method for creating sonic fields
BR112015013907A2 (pt) * 2012-12-17 2017-07-11 Koninklijke Philips Nv aparelho eletrônico, método para gerar informações de classificação de áudio e informações de movimento da cabeça e mídia legível por computador não temporária
US9501472B2 (en) * 2012-12-29 2016-11-22 Intel Corporation System and method for dual screen language translation
US9525938B2 (en) 2013-02-06 2016-12-20 Apple Inc. User voice location estimation for adjusting portable device beamforming settings
EP3483874B1 (en) * 2013-03-05 2021-04-28 Apple Inc. Adjusting the beam pattern of a speaker array based on the location of one or more listeners
US10049685B2 (en) * 2013-03-12 2018-08-14 Aaware, Inc. Integrated sensor-array processor
WO2014165032A1 (en) 2013-03-12 2014-10-09 Aawtend, Inc. Integrated sensor-array processor
US10204638B2 (en) 2013-03-12 2019-02-12 Aaware, Inc. Integrated sensor-array processor
US8988485B2 (en) 2013-03-14 2015-03-24 Microsoft Technology Licensing, Llc Dynamic wireless configuration for video conference environments
US20140270219A1 (en) * 2013-03-15 2014-09-18 CSR Technology, Inc. Method, apparatus, and manufacture for beamforming with fixed weights and adaptive selection or resynthesis
US9197962B2 (en) 2013-03-15 2015-11-24 Mh Acoustics Llc Polyhedral audio system based on at least second-order eigenbeams
US9763004B2 (en) 2013-09-17 2017-09-12 Alcatel Lucent Systems and methods for audio conferencing
GB2520029A (en) 2013-11-06 2015-05-13 Nokia Technologies Oy Detection of a microphone
US9602923B2 (en) * 2013-12-05 2017-03-21 Microsoft Technology Licensing, Llc Estimating a room impulse response
US9241223B2 (en) * 2014-01-31 2016-01-19 Malaspina Labs (Barbados) Inc. Directional filtering of audible signals
US9945946B2 (en) * 2014-09-11 2018-04-17 Microsoft Technology Licensing, Llc Ultrasonic depth imaging
US10609475B2 (en) 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
US9654868B2 (en) 2014-12-05 2017-05-16 Stages Llc Multi-channel multi-domain source identification and tracking
US9508335B2 (en) 2014-12-05 2016-11-29 Stages Pcs, Llc Active noise control and customized audio system
US9747367B2 (en) 2014-12-05 2017-08-29 Stages Llc Communication system for establishing and providing preferred audio
US10255927B2 (en) 2015-03-19 2019-04-09 Microsoft Technology Licensing, Llc Use case dependent audio processing
US9716944B2 (en) 2015-03-30 2017-07-25 Microsoft Technology Licensing, Llc Adjustable audio beamforming
CN104766093B (zh) * 2015-04-01 2018-02-16 中国科学院上海微系统与信息技术研究所 一种基于麦克风阵列的声目标分类方法
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
WO2016179211A1 (en) * 2015-05-04 2016-11-10 Rensselaer Polytechnic Institute Coprime microphone array system
US9601131B2 (en) * 2015-06-25 2017-03-21 Htc Corporation Sound processing device and method
US9607603B1 (en) * 2015-09-30 2017-03-28 Cirrus Logic, Inc. Adaptive block matrix using pre-whitening for adaptive beam forming
US10368162B2 (en) 2015-10-30 2019-07-30 Google Llc Method and apparatus for recreating directional cues in beamformed audio
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10097939B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Compensation for speaker nonlinearities
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10587978B2 (en) 2016-06-03 2020-03-10 Nureva, Inc. Method, apparatus and computer-readable media for virtual positioning of a remote participant in a sound space
US10394358B2 (en) 2016-06-06 2019-08-27 Nureva, Inc. Method, apparatus and computer-readable media for touch and speech interface
EP3465414B1 (en) 2016-06-06 2023-08-16 Nureva Inc. Method, apparatus and computer-readable media for touch and speech interface with audio location
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10657983B2 (en) 2016-06-15 2020-05-19 Intel Corporation Automatic gain control for speech recognition
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
GB2556058A (en) 2016-11-16 2018-05-23 Nokia Technologies Oy Distributed audio capture and mixing controlling
US9980075B1 (en) 2016-11-18 2018-05-22 Stages Llc Audio source spatialization relative to orientation sensor and output
US9980042B1 (en) 2016-11-18 2018-05-22 Stages Llc Beamformer direction of arrival and orientation analysis system
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
US10015588B1 (en) * 2016-12-20 2018-07-03 Verizon Patent And Licensing Inc. Beamforming optimization for receiving audio signals
US10531187B2 (en) 2016-12-21 2020-01-07 Nortek Security & Control Llc Systems and methods for audio detection using audio beams
EP3545691B1 (en) * 2017-01-04 2021-11-17 Harman Becker Automotive Systems GmbH Far field sound capturing
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US10440469B2 (en) 2017-01-27 2019-10-08 Shure Acquisitions Holdings, Inc. Array microphone module and system
US10366700B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Device for acquiring and processing audible input
US10366702B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US10229667B2 (en) * 2017-02-08 2019-03-12 Logitech Europe S.A. Multi-directional beamforming device for acquiring and processing audible input
US10362393B2 (en) 2017-02-08 2019-07-23 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10334454B2 (en) * 2017-05-11 2019-06-25 Intel Corporation Multi-finger beamforming and array pattern synthesis
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10638109B2 (en) * 2017-09-15 2020-04-28 Elphel, Inc. Method for the FPGA-based long range multi-view stereo with differential image rectification
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN107742522B (zh) * 2017-10-23 2022-01-14 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
US11259115B2 (en) 2017-10-27 2022-02-22 VisiSonics Corporation Systems and methods for analyzing multichannel wave inputs
US10157611B1 (en) * 2017-11-29 2018-12-18 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10482878B2 (en) 2017-11-29 2019-11-19 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
CN108595758B (zh) * 2018-03-22 2021-11-09 西北工业大学 一种任意形式传感器阵列最优宽带波束图综合方法
DE102018110759A1 (de) * 2018-05-04 2019-11-07 Sennheiser Electronic Gmbh & Co. Kg Mikrofonarray
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) * 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11523212B2 (en) 2018-06-01 2022-12-06 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN110164446B (zh) * 2018-06-28 2023-06-30 腾讯科技(深圳)有限公司 语音信号识别方法和装置、计算机设备和电子设备
CN110660403B (zh) * 2018-06-28 2024-03-08 北京搜狗科技发展有限公司 一种音频数据处理方法、装置、设备及可读存储介质
CN108682161B (zh) * 2018-08-10 2023-09-15 东方智测(北京)科技有限公司 确认车辆鸣笛的方法和系统
CN109166590B (zh) * 2018-08-21 2020-06-30 江西理工大学 一种基于空域相关性的二维时频掩模估计建模方法
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
EP3854108A1 (en) 2018-09-20 2021-07-28 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11109133B2 (en) 2018-09-21 2021-08-31 Shure Acquisition Holdings, Inc. Array microphone module and system
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
CN109379500B (zh) * 2018-11-01 2021-08-10 厦门亿联网络技术股份有限公司 一种基于以太网的级联会议电话装置及方法
CN111147983A (zh) * 2018-11-06 2020-05-12 展讯通信(上海)有限公司 扬声器控制方法及装置、可读存储介质
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
CN109599104B (zh) * 2018-11-20 2022-04-01 北京小米智能科技有限公司 多波束选取方法及装置
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
EP3942845A1 (en) 2019-03-21 2022-01-26 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
CN113841419A (zh) 2019-03-21 2021-12-24 舒尔获得控股公司 天花板阵列麦克风的外壳及相关联设计特征
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11445294B2 (en) 2019-05-23 2022-09-13 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
JP2022535229A (ja) 2019-05-31 2022-08-05 シュアー アクイジッション ホールディングス インコーポレイテッド 音声およびノイズアクティビティ検出と統合された低レイテンシオートミキサー
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
KR102203748B1 (ko) * 2019-07-01 2021-01-15 국방과학연구소 지연 합 빔포밍의 후처리 필터링 방법 및 이를 위한 기록매체
EP3764359A1 (en) * 2019-07-10 2021-01-13 Analog Devices International Unlimited Company Signal processing methods and systems for multi-focus beam-forming
EP3764360B1 (en) * 2019-07-10 2024-05-01 Analog Devices International Unlimited Company Signal processing methods and systems for beam forming with improved signal to noise ratio
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
CN110632605B (zh) * 2019-08-01 2023-01-06 中国船舶重工集团公司第七一五研究所 一种宽容的大孔径拖线阵时域单波束处理方法
CN114467312A (zh) 2019-08-23 2022-05-10 舒尔获得控股公司 具有改进方向性的二维麦克风阵列
US11270712B2 (en) 2019-08-28 2022-03-08 Insoundz Ltd. System and method for separation of audio sources that interfere with each other using a microphone array
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
GB2589082A (en) * 2019-11-11 2021-05-26 Nokia Technologies Oy Audio processing
US10951981B1 (en) * 2019-12-17 2021-03-16 Northwestern Polyteclmical University Linear differential microphone arrays based on geometric optimization
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
CN112016040A (zh) * 2020-02-06 2020-12-01 李迅 一种权重矩阵的构建方法、装置、设备及存储介质
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
US11277689B2 (en) 2020-02-24 2022-03-15 Logitech Europe S.A. Apparatus and method for optimizing sound quality of a generated audible signal
CN112764020A (zh) * 2020-02-28 2021-05-07 加特兰微电子科技(上海)有限公司 解速度模糊、确定对象移动速度的方法、装置及相关设备
CN113393856B (zh) * 2020-03-11 2024-01-16 华为技术有限公司 拾音方法、装置和电子设备
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
CN113763981B (zh) * 2020-06-01 2024-05-24 南京工业大学 主瓣指向可调的差分麦克风阵列波束形成设计及系统
CN111880146B (zh) * 2020-06-30 2023-08-18 海尔优家智能科技(北京)有限公司 声源定向方法和装置及存储介质
US11245984B1 (en) * 2020-07-15 2022-02-08 Facebook Technologies, Llc Audio system using individualized sound profiles
CN111863012A (zh) * 2020-07-31 2020-10-30 北京小米松果电子有限公司 一种音频信号处理方法、装置、终端及存储介质
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11696083B2 (en) 2020-10-21 2023-07-04 Mh Acoustics, Llc In-situ calibration of microphone arrays
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN113540805A (zh) * 2020-11-20 2021-10-22 电子科技大学 具有聚束效果的全向天线系统
CN112581974B (zh) * 2020-11-30 2023-10-24 科大讯飞股份有限公司 波束设计方法、装置、设备及存储介质
CN112750463A (zh) * 2020-12-17 2021-05-04 云知声智能科技股份有限公司 一种误识别抑制方法
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
CN116918351A (zh) 2021-01-28 2023-10-20 舒尔获得控股公司 混合音频波束成形系统
CN113314138B (zh) * 2021-04-25 2024-03-29 普联国际有限公司 基于麦克风阵列的声源监听分离方法、装置及存储介质
CN113176536A (zh) * 2021-04-28 2021-07-27 江铃汽车股份有限公司 一种对噪声源进行快速精确定位的分步聚焦算法
US11849291B2 (en) 2021-05-17 2023-12-19 Apple Inc. Spatially informed acoustic echo cancelation
WO2022260646A1 (en) * 2021-06-07 2022-12-15 Hewlett-Packard Development Company, L.P. Microphone directional beamforming adjustments
CN114245266B (zh) * 2021-12-15 2022-12-23 苏州蛙声科技有限公司 小型麦克风阵列设备的区域拾音方法及系统
CN114509162B (zh) * 2022-04-18 2022-06-21 四川三元环境治理股份有限公司 一种声环境数据监测方法及系统
CN115032592B (zh) * 2022-04-26 2023-10-31 苏州清听声学科技有限公司 一种换能器阵列的阵形优化方法及换能器阵列
CN115061086A (zh) * 2022-05-12 2022-09-16 上海事凡物联网科技有限公司 一种基于微孔径麦克风阵列的运动目标检测方法
CN115038014A (zh) * 2022-06-02 2022-09-09 深圳市长丰影像器材有限公司 一种音频信号处理方法、装置、电子设备和存储介质
CN114915875B (zh) * 2022-07-18 2022-10-21 南京航空航天大学 一种可调波束形成方法、电子设备及存储介质
CN115424609A (zh) * 2022-08-16 2022-12-02 青岛大学 一种自动语音识别方法、系统、介质、设备及终端
CN117825898A (zh) * 2024-03-04 2024-04-05 国网浙江省电力有限公司电力科学研究院 一种gis分布式振声联合监测方法、装置及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728492A (ja) * 1993-07-09 1995-01-31 Sony Corp 音源信号推定装置
JPH09205697A (ja) * 1996-01-29 1997-08-05 Mitsubishi Heavy Ind Ltd 指向性集音装置および音源探査装置
JP2003510924A (ja) * 1999-09-29 2003-03-18 1...リミテッド 音響指向方法および装置
JP2004334218A (ja) * 2003-05-02 2004-11-25 Samsung Electronics Co Ltd マイクロホンアレイ方法及びシステム、並びにこれを用いた音声認識方法及び装置
JP2005504453A (ja) * 2001-03-16 2005-02-10 シュアー インコーポレイテッド ビームフォーミングアレイの立体角クロストークキャンセル

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4729077A (en) * 1986-03-10 1988-03-01 Mycro Group Co. Variable beam width lighting device
JPH01199211A (ja) * 1987-10-02 1989-08-10 Mitsubishi Electric Corp Cnc工作機械の形状データの生成方法
US5479614A (en) * 1989-09-14 1995-12-26 Fujitsu Limited Object sensor processing method and processor
US6154552A (en) * 1997-05-15 2000-11-28 Planning Systems Inc. Hybrid adaptive beamformer
US6496795B1 (en) * 1999-05-05 2002-12-17 Microsoft Corporation Modulated complex lapped transform for integrated signal enhancement and coding
US6487574B1 (en) 1999-02-26 2002-11-26 Microsoft Corp. System and method for producing modulated complex lapped transforms
AU3707300A (en) * 1999-02-26 2000-09-14 Microsoft Corporation A system and method for producing modulated complex lapped transforms
US6594367B1 (en) 1999-10-25 2003-07-15 Andrea Electronics Corporation Super directional beamforming design and implementation
US6449593B1 (en) * 2000-01-13 2002-09-10 Nokia Mobile Phones Ltd. Method and system for tracking human speakers
EP1415506A2 (en) * 2001-08-10 2004-05-06 Rasmussen Digital APS Sound processing system that exhibits arbitrary gradient response
US20030161485A1 (en) * 2002-02-27 2003-08-28 Shure Incorporated Multiple beam automatic mixing microphone array processing via speech detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728492A (ja) * 1993-07-09 1995-01-31 Sony Corp 音源信号推定装置
JPH09205697A (ja) * 1996-01-29 1997-08-05 Mitsubishi Heavy Ind Ltd 指向性集音装置および音源探査装置
JP2003510924A (ja) * 1999-09-29 2003-03-18 1...リミテッド 音響指向方法および装置
JP2005504453A (ja) * 2001-03-16 2005-02-10 シュアー インコーポレイテッド ビームフォーミングアレイの立体角クロストークキャンセル
JP2004334218A (ja) * 2003-05-02 2004-11-25 Samsung Electronics Co Ltd マイクロホンアレイ方法及びシステム、並びにこれを用いた音声認識方法及び装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010520728A (ja) * 2007-03-05 2010-06-10 ジートロニクス・インコーポレーテッド 信号処理機能を有する小占有面積のマイクロホン・モジュール
JP2012526296A (ja) * 2009-05-08 2012-10-25 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 音声フォーマット・トランスコーダ
JP2017531971A (ja) * 2014-08-22 2017-10-26 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ビームフォーミングフィルタのためのfirフィルタ係数の算出
US10419849B2 (en) 2014-08-22 2019-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. FIR filter coefficient calculation for beam-forming filters
JP2017228978A (ja) * 2016-06-23 2017-12-28 キヤノン株式会社 信号処理装置、信号処理方法、及びプログラム
JP2019008134A (ja) * 2017-06-23 2019-01-17 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
US10665249B2 (en) 2017-06-23 2020-05-26 Casio Computer Co., Ltd. Sound source separation for robot from target voice direction and noise voice direction
KR20200066367A (ko) * 2017-10-23 2020-06-09 아이플라이텍 캄파니 리미티드 타겟 음성 검출 방법 및 장치
KR102401217B1 (ko) 2017-10-23 2022-05-23 아이플라이텍 캄파니 리미티드 타겟 음성 검출 방법 및 장치
JP2021197566A (ja) * 2020-06-09 2021-12-27 本田技研工業株式会社 音源分離装置、音源分離方法、およびプログラム
JP7316614B2 (ja) 2020-06-09 2023-07-28 本田技研工業株式会社 音源分離装置、音源分離方法、およびプログラム

Also Published As

Publication number Publication date
CA2499033A1 (en) 2005-09-02
RU2005105753A (ru) 2006-08-10
BRPI0500614A (pt) 2005-11-16
KR20060043338A (ko) 2006-05-15
US7415117B2 (en) 2008-08-19
EP1571875A2 (en) 2005-09-07
KR101117936B1 (ko) 2012-02-29
AU2005200699A1 (en) 2005-09-22
US20050195988A1 (en) 2005-09-08
MXPA05002370A (es) 2005-09-30
EP1571875A3 (en) 2009-01-28
AU2005200699B2 (en) 2009-05-14
RU2369042C2 (ru) 2009-09-27
CN1664610B (zh) 2011-12-14
CN1664610A (zh) 2005-09-07
CA2499033C (en) 2014-01-28
JP4690072B2 (ja) 2011-06-01

Similar Documents

Publication Publication Date Title
JP4690072B2 (ja) マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法
CN106710601B (zh) 一种语音信号降噪拾音处理方法和装置及冰箱
US9591404B1 (en) Beamformer design using constrained convex optimization in three-dimensional space
US9093078B2 (en) Acoustic source separation
US6192134B1 (en) System and method for a monolithic directional microphone array
US9143856B2 (en) Apparatus and method for spatially selective sound acquisition by acoustic triangulation
KR100493172B1 (ko) 마이크로폰 어레이 구조, 이를 이용한 일정한 지향성을갖는 빔 형성방법 및 장치와 음원방향 추정방법 및 장치
EP1658751B1 (en) Audio input system
KR100878992B1 (ko) 지오메트릭 소스 분리 신호 처리 기술
Gunel et al. Acoustic source separation of convolutive mixtures based on intensity vector statistics
KR102357287B1 (ko) 음장 기술을 생성하기 위한 장치, 방법, 또는 컴퓨터 프로그램
US20080240463A1 (en) Enhanced Beamforming for Arrays of Directional Microphones
US20110274289A1 (en) Sensor array beamformer post-processor
KR100856246B1 (ko) 실제 잡음 환경의 특성을 반영한 빔포밍 장치 및 방법
KR20130084298A (ko) 원거리 다중 음원 추적 및 분리 시스템, 방법, 장치 및 컴퓨터-판독가능 매체
JP2012523731A (ja) センサーアレイに最適なモーダルビームフォーマ
CN111078185A (zh) 录制声音的方法及设备
Benesty et al. Array beamforming with linear difference equations
US11483646B1 (en) Beamforming using filter coefficients corresponding to virtual microphones
JP2001045592A (ja) 雑音キャンセル式マイクロホンアレイ
CN114023307B (zh) 声音信号处理方法、语音识别方法、电子设备和存储介质
Hu et al. Processing of speech signals using a microphone array for intelligent robots
CN117121104A (zh) 估计用于处理所获取的声音数据的优化掩模
Rosen Design and Analysis of a Constant Beamwidth Beamformer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100525

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101008

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110215

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110217

R150 Certificate of patent or registration of utility model

Ref document number: 4690072

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140225

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees