JP2014525037A - 位相スペクトルを使った音源定位 - Google Patents

位相スペクトルを使った音源定位 Download PDF

Info

Publication number
JP2014525037A
JP2014525037A JP2014520240A JP2014520240A JP2014525037A JP 2014525037 A JP2014525037 A JP 2014525037A JP 2014520240 A JP2014520240 A JP 2014520240A JP 2014520240 A JP2014520240 A JP 2014520240A JP 2014525037 A JP2014525037 A JP 2014525037A
Authority
JP
Japan
Prior art keywords
angle
signal
candidate
microphones
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014520240A
Other languages
English (en)
Other versions
JP6203714B2 (ja
JP2014525037A5 (ja
Inventor
レグナタン,シャンカール
コイシダ,カズヒト
キッケリ,ハルシャヴァルダナ,ナラヤナ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2014525037A publication Critical patent/JP2014525037A/ja
Publication of JP2014525037A5 publication Critical patent/JP2014525037A5/ja
Application granted granted Critical
Publication of JP6203714B2 publication Critical patent/JP6203714B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/82Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves with means for adjusting phase or compensating for time-lag errors

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

可動ロボット上に置かれたマイクロホンのアレイが複数チャネルのオーディオ信号を与える。オーディオ信号の受信された組はオーディオ・セグメントと呼ばれ、複数のフレームに分けられる。マイクロホンの各対からの信号のフレームに対して位相解析が実行される。両方のマイクロホンがそのフレームの間、アクティブ状態にあれば、マイクロホンのそのような各対について候補角度が生成される。結果は、そのフレームについての候補角度のリストである。このリストは、そのフレームについて最終的な候補角度を選択するために処理される。オーディオ・セグメントについての最終的な候補角度を選択するプロセスにおいて支援するために、候補角度のリストが時間を追って追跡される。

Description

本願は位相スペクトルを使った音源定位に関する。
いくつかの応用では、音源によって生成された音響エネルギーを捕捉するマイクロホンを使って音源の位置を決定することが有用である。
この位置を決定する一つの方法は、最大エネルギーの領域を求めて空間を探索することである。このアプローチは典型的には、ノイズおよび残響のような干渉に対して堅牢ではない。
この位置を決定するもう一つの方法は、異なるマイクロホンにおける到着時刻の差を決定することである。音源からの音響波は異なる位置にある異なるセンサーに異なる時刻に到着する。この差を測定するための一般的なアプローチは、相互相関関数のピークを見出すことによって一対のマイクロホンによって受信される信号の位相差を測定することに関わる。このアプローチは、ノイズおよび残響のような干渉に対して堅牢ではない。
この概要は、簡略化された形での概念のセレクションを紹介するために与えられる。かかる概念は、詳細な説明においてさらに後述される。この概要は、特許請求される主題の鍵となる特徴や本質的な特徴を同定することは意図されていないし、特許請求される主題の範囲を限定するために使われることも意図されていない。
可動ロボット上に置かれたマイクロホンのアレイが複数チャネルのオーディオ信号を与える。オーディオ信号の受信された組はオーディオ・セグメントと呼ばれ、複数のフレームに分けられる。マイクロホンの各対からの信号のフレームに対して位相解析が実行される。両方のマイクロホンがそのフレームの間、アクティブ状態にあれば、マイクロホンのそのような各対について候補角度が生成される。結果は、そのフレームについての候補角度のリストである。このリストは、そのフレームについて最終的な候補角度を選択するために処理される。そのオーディオ・セグメントについての最終的な候補角度を選択するプロセスにおいて支援するために、候補角度のリストは時間を追って追跡される。
追跡される角度に応答して、多様な動作が可動ロボットによって実行されることができる。たとえば、可動ロボットは音の感知された位置に基づいて動くことができる。ロボットは、人間の話者に応答することができる。たとえば、話者のほうを向いて話者のほうに動くことによって応答することができる。ロボットのそのような位置変更は、マイクロホン・アレイからよりよいオーディオ信号を得る助けとなることができ、ひいては他のオーディオ処理動作を改善することができる。この位置情報は、人間の顔の位置のよい手がかりを与えることができるので、顔検出プロセッサに入力されることもできる。
よって、ある側面では、複数対のマイクロホンからメモリに信号が受領される。マイクロホンからの信号は、いつ信号がアクティブであるかを識別し、信号についての周波数スペクトル・データを計算するために処理される。各対のアクティブな信号について、周波数スペクトル・データを使ってその対について候補角度が決定される。角度は、複数対のマイクロホンについての前記候補角度のうちから選択される。ある実施形態では、各信号は複数のフレームとして記憶され、フレーム毎に処理される。
候補角度の履歴が複数フレームにわたって記憶され、該履歴が現在フレームからの諸候補角度を用いて更新される。たとえば、履歴から選択される角度は、あらゆるエントリーのうち最小位相歪み以下の位相歪みをもつものであることができる。履歴から選択される角度は、当該フレームについて最高ランクの候補角度と同様の角度をもつものであることもできる。履歴から選択される角度は、履歴中の角度の最大存在スコア(presence score)以上の存在スコアをもつものであることもできる。
以下の記述では、本願の一部をなす付属の図面が参照される。図面においては、例として、本技法の個別的な例示的実装が示されている。本開示の範囲から外れることなく他の実施形態が利用され、構造上の変更がなされてもよいことが理解される。
可動ロボット上の音源定位の適用の概略図である。 二つのマイクロホンからいかにして音波の角度が計算されるかを示す概略図である。 音源定位の例示的な実装を示すデータ流れ図である。 図3の諸部分のより詳細なデータ流れ図である。 角度追跡リストのための例示的なデータ構造の図である。 音源定位の例示的な実装を記述するフローチャートである。 そのようなシステムが実装できる例示的なコンピューティング装置のブロック図である。
以下のセクションは、音源定位が実装できる例示的な動作環境を与える。
図1を参照するに、可動ロボット100はマイクロホン102のアレイを含む。
図1は可動ロボットとして示されているが、複数のマイクロホンの間の既知の空間的関係を維持するようマイクロホン102のアレイを支持できるいかなるオブジェクトも使用できる。可動ロボットでの音源定位の使用は、単に本技法が使用できる例示的な応用である。マイクロホン・アレイは、可動オブジェクトの代わりに一つまたは複数の静的なオブジェクトによって支持されることもできる。しかしながら、ロボットのような可動オブジェクトなら音源の判別された位置に応答して動かされることができる。
図1は六個のマイクロホンを示しているが、マイクロホンの数および配位は図1の構成に限定されない。アレイ内のマイクロホンの各対の間に既知の空間的関係があり、アレイが複数対のマイクロホンを含む限り、マイクロホンの任意の配位および数が使用されうる。本発明は使用されるマイクロホンの種類によって限定されない。複数のマイクロホンからの信号の規格化を避けるためには、各マイクロホン対の両方のマイクロホンは同じ型である。
ある応用では、音源は人間の話者104であることができる。人間の話者は話すときに音106を生じる。他の音源が検出されることもできるが、本願では、ロボットが人間の話者と対話するよう設計されることができ、人間の話者についての位置の決定が、この対話における補助として使用できる。
このコンテキストを与えられて、これから音源定位の例示的な実装について図2〜図5との関連でより詳細に述べる。
図2において、これから音源200の位置がどのようにして決定できるかを述べる。音源200は音波202を生成する。音波は既知のレート(たとえば典型的な環境では340メートル毎秒)で進む。202a、202bおよび202cで示されるように、音波はマイクロホン204aおよび204bに向けて進み、異なる時刻に到着する。マイクロホン204aおよび204bはチャネル対の例である(本稿では「<ca,cb>」とラベル付けされる)。チャネル対<ca,cb>を与えられると、原点を通る基準線210と二つのマイクロホンを通る直線212との間の角度を表すグローバル角度
Figure 2014525037
がある。基準線210および原点218は、マイクロホン・アレイのすべてのチャネル対について同じである。214で示されるようなチャネル対距離
Figure 2014525037
は二つのマイクロホン間の幾何学的な距離を表す。音源定位は、音波源および原点218を通る直線と基準線210に垂直な直線との間の角度216
Figure 2014525037
を計算することに関わる。この角度がどのように導出されるかについて、以下でより詳細に述べる。
ここで図3を参照するに、ここで音源定位の例示的な実装を記述するデータ流れ図について述べる。この実装は、マイクロホン・アレイ(図示せず)から入力オーディオ信号300を受領する。各マイクロホンは、Sサンプル毎秒のサンプリング・レートでサンプリングされたKビット・デジタル・オーディオ信号のようなオーディオ信号を提供する。Kについての好適な値は16であり、Sについての好適な値は16kHzである。こうして、八つのマイクロホンのマイクロホン・アレイは八チャネル入力オーディオ信号を与える。入力オーディオ信号はフレーム毎に処理される。ここで、フレームは128サンプルを含む。i番目のフレームにおけるc番目のチャネルの入力オーディオ信号は、xc,i(n)と表される。ここで、n=0,1,…,N−1(N=128)、c=0,1,…,C−1(C=8)である。入力信号xc,i(n)は処理されてi番目のフレームについての音到着の角度θiを生じる。
前処理器〔プリプロセッサ〕302が入力オーディオ信号300を受領し、該信号に対して多様な動作を実行して該信号を解析のために準備する。
そのような前処理は、DC除去フィルタを含むことができる。そのようなDC除去フィルタは、その後の処理のために非常に低い周波数での望ましくない成分を抑制するために使われる。そのようなフィルタの例示的な実装は一次有限インパルス応答(FIR)フィルタであり、入力信号はチャネルごとに処理される。フィルタの出力は
x'c,i(n)=xc,i(n)−0.97xc,i(n−1)
として計算される。ここで、n=0,1,…,N−1、c=0,1,…,C−1であり、xc,i(−1)は前のフレームにおける最後のサンプルである。すなわち、xc,i(−1)=xc,i-1(N−1)である。
前処理のもう一つの例は、ハミング窓を適用することである。ハミング窓h(n)は前のフレームと現在のフレームの二つのフレームにまたがって乗算され、Cチャネルの窓掛けされた信号が生成される。
Figure 2014525037
窓掛けされた信号x"c,i(n)は2N個のサンプルを含む。
ハミング窓を適用することにより、近傍スペクトル要素(neighborhood spectrum elements)の分離可能性が改善できる。それにより下記の位相解析のパフォーマンスがよくなる。
前処理段の出力304、この例ではハミング窓の出力は、次いで、高速フーリエ変換(FFT)プロセッサ306に入力される。FFTプロセッサの出力は周波数領域データ308である。この例示的実装では、たとえば、サイズ2NをもつFFTがx"c,i(n)に適用されて各チャネルについての周波数スペクトルXc,i(k)の複素数値を得ることができる。鏡映属性のため、Xc,i(k)は、0,8000/K,…,8000Hzに対応する周波数ビンk=0,1,…,K(=N/2)の範囲に一意的な値をもつ。よって、その範囲内のスペクトルがその後の動作において処理される。
周波数領域データ308は、後処理モジュール310によって示されるように、音声認識のような多様な応用のためにさらに後処理にかけられることができる。本発明はそのような後処理によって限定されないし、そのような後処理を必須とするものでもない。
最後に、この例示的実装において、周波数領域データ308および入力信号300は、下記でより詳細に述べるような音源定位器312に入力されて、各フレームiについて、i番目のフレームについての音到着の角度θiが生成される。
ここで図4を参照するに、図3の音源定位器312の例示的実装についてこれからより詳細に述べる。
入力オーディオ信号400は活動〔アクティビティ〕検出器402に入力される。活動検出器はオーディオ信号が所与のフレームにおいてアクティブであるかどうかを示すデータを出力する。活動検出器の例示的実装は次のとおりである。
i番目のフレームにおけるc番目のチャネルの対数エネルギーは
Figure 2014525037
によって計算される。ここで、xc,i(n)は対応するPCM入力である。最初の数フレームでは、Ec,iが累積され、その平均がノイズ・フロアEc,i Floorを設定するために使われる。各チャネルのノイズ・フロアは、定期的に、過去数秒からの良好な候補で置換されるよう強制される。この初期段ののち、チャネル活動を決定するために、チャネルごとに次の条件が試験される。
Figure 2014525037
換言すれば、活動度検出器402は、この実装では、i番目のフレームにおけるc番目のチャネルの対数エネルギーが当該チャネルのノイズ・フロアにオフセットを加えたものより大きいかどうかを判定する。この条件が真であれば、チャネル状態は「アクティブ」に設定され、そうでなければチャネル状態は「ポーズ」に設定される。次に、諸チャネル状態を組み合わせることによってフレーム状態が得られる。少なくとも三つなど数個のチャネルが「アクティブ」として検出されれば「アクティブ」に設定され、そうでなければフレーム状態は「ポーズ」に設定される。
活動検出器402が404で判定されるところにより「ポーズ」フレーム状態を設定する場合、音定位器は第二の角度追跡器更新器414(後述)を使用し、そのフレームについて角度が「未検出」であることを返す。
活動検出器402が404で判定されるところにより「アクティブ」フレーム状態を設定する場合は、位相解析器406がそれら複数のチャネルについての周波数領域データ(たとえば図3の308)を処理して候補角度のリストを生成する。位相解析は、両チャネルにおいて状態がアクティブな、あらかじめ定義されたチャネル対を用いて実行される。たとえば、チャネル対caおよびcbの相互パワースペクトルが
Figure 2014525037
によって計算され、*は複素共役である。その位相スペクトルは
Figure 2014525037
によって与えられる。
チャネルcaとcbの間の最良のサンプル遅延は、理論的な値に対する最小位相歪みを求めて遅延範囲を探索することによって推定される:
Figure 2014525037
上記において、二つのチャネルの遅延範囲L<ca,cb>
Figure 2014525037
によって導出される。ここで、
Figure 2014525037
は天井演算であり、
Figure 2014525037
は図2との関連で上記したような二つのマイクロホン・チャネルの間の幾何学的な距離であり、NSはサンプリング・レート、たとえば16kHzであり、SSは音速(たとえば340メートル毎秒)である。上記の式において位相歪みを計算するために位相復元(phase unwrapping)が適用される。
(図2に示されるような二つのマイクロホンの間の仮想線に関して)鏡映関係にある二つの角度がτ<ca,cb>から次のようにして導出される。
Figure 2014525037
これらの角度はチャネル対<ca,cb>の位置に対してのものなので、チャネル対
Figure 2014525037
のグローバル角度によって補償される:
Figure 2014525037
上記の位相解析手順はあらかじめ定義された諸チャネル対について繰り返され、推定された角度およびその位相歪みをもつ候補の初期リストが得られる。このように、位相解析モジュール406の出力は位相歪みおよび候補角度のリストである。
候補選択モジュール408は、選択された角度に向けて洗練するために候補角度のリストを処理する。このリストを洗練する多様な方法がある。たとえば、二つ以上の角度が同様であれば、すなわち互いから何らかの閾値範囲内であれば、それらの角度は、平均などにより、リスト中の一つの角度にマージされ、該一つの角度は割引された位相歪みεmin/Mをもつ。ここで、εminは諸角度のうち最小の位相歪みであり、Mは同様の角度の数である。この洗練では、孤立した角度は消去され、より普通に現れる角度がより小さな歪みを割り当てられる。結果として、歪みに基づいて角度を選択する後段の処理において、より普通に現れる角度が選択される可能性が高くなる。
候補角度およびその位相歪みの洗練されたリストは、第一の角度追跡器更新モジュール410に渡される。このモジュールでは、時間を追った候補角度および位相歪みのリストが角度追跡リストに保持される。このリスト内の各エントリーは、図5に示されるように、角度500、位相歪み502、存在スコア504、存在カウンタ506および更新状態508を含む。最初のアクティブなフレームについては、候補リストが角度追跡リストに挿入される。その後のアクティブなフレームについては、データは次のような仕方で処理される。
まず、角度追跡リスト中で、零でない存在スコアをもちまだ更新されていないすべてのエントリーのうちからの最低位相歪みをもつエントリーが同定される。次に、候補リストにおいて、あらゆる候補のうちからの最低位相歪みをもち、角度が角度追跡リストからの前記同定されたエントリーと同様であるターゲット候補が見出される。そのような候補が見出された場合には、ターゲット・エントリー(θiii)が、候補(θ,ε)により次のように更新される。
角度 :θi=μθθi-1+(1−μθ)θ μθ:定数
位相歪み :εi=μεεi-1+(1−με)ε με:定数
存在スコア:δi=max(δi-1+μδ,1.0) μδ:定数
見出されなかった場合には、前記候補から、
θi=θ、 εi=ε、 δi=δInit
として新たなエントリーが生成される。
このプロセスは、角度追跡リストおよび候補リスト中のすべてのエントリーが評価されるまで続けられる。次に、上記の手順で更新されなかったエントリーは、歪みが増し存在スコアが減少するような仕方で更新される。具体的には、
θi=θi-1、 εi=μ'εεi-1、 δi=δi-1−μδ με:定数。
存在スコアがある閾値を下回ったら、そのようなエントリーはリストから除去される。更新の最終ステップは、同様の角度をもつものをマージするためにすべてのエントリーを再びスキャンすることである。
角度追跡リストを与えられると、フレームについての角度の最終選択は最終選択モジュール412によってなされる。たとえば、角度追跡リストから、次の基準を満たすエントリーが選択される。まず、存在スコアが角度追跡リスト中のエントリーの最大存在スコア以上であること。第二に、位相歪みが角度追跡リスト中のエントリーの最小位相歪み以下であること。第三に、候補選択モジュールから得られる最高ランクの候補角度と同様の角度をもつこと。このエントリーの存在カウンタがインクリメントされ、一方、他のエントリーの存在カウンタはデクリメントされる。カウンタは当該エントリーが最近の諸フレームにおいてどのくらいしばしば選択されているかを示す。エントリーのカウンタがある閾値を超えるとき、その角度θiは検出された角度として報告される。上記の条件を満たすエントリーがなければ、「未検出」が返される。
最後に、追跡エントリー(tracking entries)をスキャンして先行する諸モジュールにおいて更新されなかったものを更新するために、第二の角度追跡器更新器414が角度追跡リストを処理する。更新公式は第一の角度追跡器更新において使われたものと同じであり、歪みは大きくなり、存在スコアは小さくなる。
まとめると、図6を参照するに、音源定位のプロセスは、マイクロホン・アレイ内のアクティブなチャネル対を同定すること(600)を含む。換言すれば、いくつかのマイクロホン、たとえば少なくとも三つのマイクロホンがアクティブである。マイクロホンからの信号は、フレームに分割することによって処理できる。各フレームはいくつかのサンプルを含む。このように、マイクロホン(またはチャネル)がアクティブであるかどうかは、フレームごとに判別できる。アクティブな各マイクロホンからの信号は変換されて、周波数領域データまたは周波数スペクトルが計算される(602)。アクティブな各チャネル対について、周波数領域データから候補角度が同定される(604)。アクティブなチャネル対について同定された候補角度のうちから角度が選択される(606)。
これまでで例示的実装を記述したところで、そのようなシステムが動作するよう設計されるコンピューティング環境についてこれから述べる。以下の記述はこのシステムが実装できる好適なコンピューティング環境の簡単な一般的な記述を与えることを意図したものである。本システムは、数多くの汎用または特殊目的のコンピューティング・ハードウェア構成で実装できる。好適となりうるよく知られたコンピューティング装置の例は、これに限られないが、パーソナル・コンピュータ、サーバー・コンピュータ、ハンドヘルドまたはラップトップ装置(たとえばメディア・プレーヤー、ノートブック・コンピュータ、携帯電話、携帯情報端末、ボイス・レコーダー)、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セットトップボックス、ゲーム・コンソール、プログラム可能な消費者電子機器、ネットワークPC、ミニコンピュータ、メインフレーム・コンピュータ、上記のシステムもしくは装置のいずれかを含む分散式コンピューティング環境などを含む。
図7は、好適なコンピューティング・システム環境の例を示す。コンピューティング・システム環境は、単に好適なコンピューティング環境の一例であり、そのようなコンピューティング環境のそのようなコンピューティング環境の使用もしくは機能についていかなる限定を示唆することも意図されていない。該コンピューティング環境はまた、例示的な動作環境において示されているコンポーネントの任意の一つまたは組み合わせに関するいかなる依存性も必要性ももつものと解釈されるべきではない。
図7を参照するに、例示的なコンピューティング環境は、コンピューティング機械700のようなコンピューティング機械を含む。その最も基本的な構成では、コンピューティング機械700は典型的には少なくとも一つの処理ユニット702およびメモリ704を含む。コンピューティング装置は、複数の処理ユニットおよび/またはグラフィクス処理ユニット720のような追加的なコプロセシング・ユニットを含んでいてもよい。コンピューティング装置の厳密な構成および型に依存して、メモリ704は揮発性(RAMなど)、不揮発性(ROM、フラッシュ・メモリなど)または両者の何らかの組み合わせでありうる。このもっとも基本的な構成は図7では波線706によって示されている。さらに、コンピューティング機械700は追加的な特徴/機能を有していてもよい。たとえば、コンピューティング機械700は、これに限られないが磁気的もしくは光学的ディスクもしくはテープを含む追加的な記憶部(リムーバブルおよび/または非リムーバブル)をも含んでいてもよい。そのような追加的な記憶部は図7ではリムーバブル記憶708および非リムーバブル記憶710によって示されている。コンピュータ記憶媒体は、コンピュータ・プログラム命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術で実装された、揮発性および不揮発性、リムーバブルおよび非リムーバブルな媒体を含む。メモリ704、リムーバブル記憶708および非リムーバブル記憶710はみなコンピュータ記憶媒体の例である。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)もしくは他の光学的記憶、磁気カセット、磁気テープ、磁気ディスク記憶もしくは他の磁気記憶装置または所望される情報を記憶するために使用されることができ、コンピューティング機械700によってアクセスされることができる他の任意の媒体を含む。そのような任意のコンピュータ記憶媒体はコンピューティング機械700の一部であってもよい。
コンピューティング機械700は、装置が他の装置と通信することを許容する通信接続(単数または複数)712をも含んでいてもよい。通信接続712は通信媒体の例である。通信媒体は典型的には、コンピュータ・プログラム命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において搬送するものであり、任意の情報送達媒体を含む。用語「変調されたデータ信号」は、当該信号中に情報をエンコードしそれにより当該信号の受信装置の構成または状態を変えるような仕方で特性の一つまたは複数が設定または変更されている信号を意味する。限定ではなく例として、通信媒体は、有線ネットワークまたは直接結線された接続のような有線媒体および音響、RF、赤外線および他の無線媒体のような無線媒体を含む。
コンピューティング機械700は、ディスプレイ、キーボード、マウス、ペン、カメラ、タッチ入力装置などのようなさまざまな入力装置(単数または複数)714を有していてもよい。スピーカー、プリンターなどのような出力装置(単数または複数)716も含まれていてもよい。これらの装置すべては当技術分野においてよく知られており、ここでくどくどと論じる必要はない。
本システムは、コンピューティング機械によって処理される、プログラム・モジュールのようなコンピュータによって実行可能な命令および/またはコンピュータによって解釈される命令を含むソフトウェアの一般的なコンテキストにおいて実装されてもよい。一般に、プログラム・モジュールは、処理ユニットによって処理されたときに処理ユニットに特定のタスクを実行するまたは特定の抽象的なデータ型を実装するよう命令するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。このシステムは、通信ネットワークを通じてリンクされている複数の遠隔の処理装置によってタスクが実行される分散式のコンピューティング環境において実施されてもよい。分散式のコンピューティング環境では、プログラム・モジュールは、メモリ記憶デバイスを含む、ローカルおよびリモートのコンピュータ記憶媒体に位置されていてもよい。
付属の請求項の前提部における用語「製造物」「プロセス」「機械」「物質の組成」は、米国特許法第101条におけるこれらの用語の使用によって定義される特許可能な主題の範囲内にはいると見なされる主題に請求項を限定することが意図されている。
本項に記載される上記の代替的な実施形態の任意のものまたは全部は、追加的なハイブリッド実施形態を形成するよう所望される任意の組み合わせにおいて使用されてもよい。付属の請求項において定義される主題は必ずしも上記の個別的な実装に限定されるものではないことは理解しておくべきである。上記の個別的な実装は単に例として開示されている。

Claims (10)

  1. コンピュータ実装される方法であって:
    複数対のマイクロホンからメモリに信号を受領する段階と;
    前記マイクロホンからの信号を、いつ信号がアクティブであるかを識別するために処理する段階と;
    前記信号についての周波数スペクトル・データを計算する段階と;
    アクティブな信号の各対について、前記周波数スペクトル・データを使ってその対について候補角度を決定する段階と;
    複数対のマイクロホンについての前記候補角度のうちから角度を選択する段階とを含む、
    方法。
  2. 信号を受領する段階が各信号を複数のフレームとして受領することを含み、処理する段階、計算する段階、決定する段階および選択する段階がフレーム毎に実行される、請求項1記載のコンピュータ実装される方法。
  3. 前記候補角度のうちから角度を選択する段階が、以前の候補角度についての情報を使って角度を選択することを含む、請求項1記載のコンピュータ実装される方法。
  4. 選択する段階がさらに:
    候補角度の履歴を複数フレームにわたって追跡する段階と;
    前記履歴を、現在フレームからの候補角度を用いて更新する段階とを含む、
    請求項3記載のコンピュータ実装される方法。
  5. メモリと;
    複数対のマイクロホンから前記メモリに信号を受領する入力部と;
    前記マイクロホンからの信号を、いつ信号がアクティブであるかを識別し、前記信号についての周波数スペクトル・データを計算するよう処理する処理ユニットとを有するコンピューティング機械であって:
    前記処理ユニットはさらに、アクティブな信号の各対について、前記周波数スペクトル・データを使ってその対について候補角度を決定し、複数対のマイクロホンについての前記候補角度のうちから角度を選択するよう構成されている、
    コンピューティング機械。
  6. 前記入力部が、各信号を複数のフレームとして受領して記憶し、前記処理ユニットが前記信号をフレーム毎に処理するよう構成される、請求項5記載のコンピューティング機械。
  7. 前記メモリがさらに複数フレームにわたる候補角度の履歴を記憶し、前記処理ユニットが、前記履歴を、現在フレームからの候補角度を用いて更新するよう構成されている、請求項5記載のコンピューティング機械。
  8. 前記履歴から選択される角度が、すべてのエントリーのうち最小の位相歪み以下の位相歪みをもつ、請求項7記載のコンピューティング機械。
  9. 前記履歴から選択される角度が、当該フレームについて最高ランクの候補と同様の角度をもつ、請求項8記載のコンピューティング機械。
  10. コンピュータ記憶媒体と;
    前記コンピュータ記憶媒体に記憶されたコンピュータ・プログラム命令を含む製造物であって、前記コンピュータ・プログラム命令は、処理装置によって処理されたときに、前記処理装置に:
    複数対のマイクロホンからメモリに信号を受領する段階と;
    前記マイクロホンからの信号を、いつ信号がアクティブであるかを識別するために処理する段階と;
    前記信号についての周波数スペクトル・データを計算する段階と;
    アクティブな信号の各対について、前記周波数スペクトル・データを使ってその対について候補角度を決定する段階と;
    複数対のマイクロホンについての前記候補角度のうちから角度を選択する段階とを含むプロセスを実行するよう命令するものである、
    製造物。
JP2014520240A 2011-07-14 2012-07-10 位相スペクトルを使った音源定位 Active JP6203714B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/182,449 US9435873B2 (en) 2011-07-14 2011-07-14 Sound source localization using phase spectrum
US13/182,449 2011-07-14
PCT/US2012/045996 WO2013009722A2 (en) 2011-07-14 2012-07-10 Sound source localization using phase spectrum

Publications (3)

Publication Number Publication Date
JP2014525037A true JP2014525037A (ja) 2014-09-25
JP2014525037A5 JP2014525037A5 (ja) 2015-07-30
JP6203714B2 JP6203714B2 (ja) 2017-09-27

Family

ID=47506847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014520240A Active JP6203714B2 (ja) 2011-07-14 2012-07-10 位相スペクトルを使った音源定位

Country Status (6)

Country Link
US (2) US9435873B2 (ja)
EP (1) EP2732301B1 (ja)
JP (1) JP6203714B2 (ja)
KR (1) KR102005590B1 (ja)
CN (1) CN103688187B (ja)
WO (1) WO2013009722A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018003158A1 (ja) * 2016-06-29 2018-01-04 日本電気株式会社 相関関数生成装置、相関関数生成方法、相関関数生成プログラムおよび波源方向推定装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10449273B2 (en) 2013-07-30 2019-10-22 Koninklijke Philips N.V. Apparatus and method for evacuating a system
CN103558851A (zh) * 2013-10-10 2014-02-05 杨松 精确感知室内活动的方法及装置
US10353060B2 (en) * 2016-12-07 2019-07-16 Raytheon Bbn Technologies Corp. Detection and signal isolation of individual vehicle signatures
KR102115222B1 (ko) 2018-01-24 2020-05-27 삼성전자주식회사 사운드를 제어하는 전자 장치 및 그 동작 방법
CN109754811B (zh) * 2018-12-10 2023-06-02 平安科技(深圳)有限公司 基于生物特征的声源追踪方法、装置、设备及存储介质
TWI736117B (zh) * 2020-01-22 2021-08-11 瑞昱半導體股份有限公司 聲音定位裝置與方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05273326A (ja) * 1992-03-25 1993-10-22 Nec Corp ソーナー受信装置
JP2005077205A (ja) * 2003-08-29 2005-03-24 Advanced Telecommunication Research Institute International 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム
JP2009236688A (ja) * 2008-03-27 2009-10-15 Nec Corp 音源方向検出方法、装置及びプログラム
JP2009293968A (ja) * 2008-06-03 2009-12-17 Fujitsu Ten Ltd 信号処理装置、及びレーダ装置
JP2010020294A (ja) * 2008-06-11 2010-01-28 Sony Corp 信号処理装置、および信号処理方法、並びにプログラム
US20100110834A1 (en) * 2008-10-30 2010-05-06 Kim Kyu-Hong Apparatus and method of detecting target sound

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3204874C2 (de) 1982-02-11 1994-07-14 Atlas Elektronik Gmbh Passives Verfahren zum Gewinnen von Zieldaten von einer Schallquelle
SG49334A1 (en) * 1993-12-06 1998-05-18 Koninkl Philips Electronics Nv A noise reduction system and device and a mobile radio station
JP3572594B2 (ja) 1995-07-05 2004-10-06 晴夫 浜田 信号源探査方法及び装置
US6041127A (en) * 1997-04-03 2000-03-21 Lucent Technologies Inc. Steerable and variable first-order differential microphone array
JP4722347B2 (ja) 2000-10-02 2011-07-13 中部電力株式会社 音源探査システム
US7039198B2 (en) 2000-11-10 2006-05-02 Quindi Acoustic source localization system and method
US6912178B2 (en) 2002-04-15 2005-06-28 Polycom, Inc. System and method for computing a location of an acoustic source
DE602004021716D1 (de) 2003-11-12 2009-08-06 Honda Motor Co Ltd Spracherkennungssystem
KR100800385B1 (ko) * 2004-01-30 2008-02-01 가부시키가이샤 아드반테스트 위상 측정 장치, 방법 및 기록 매체
EP1600791B1 (en) 2004-05-26 2009-04-01 Honda Research Institute Europe GmbH Sound source localization based on binaural signals
KR100586893B1 (ko) 2004-06-28 2006-06-08 삼성전자주식회사 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법
JP3906230B2 (ja) * 2005-03-11 2007-04-18 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体
US7583808B2 (en) 2005-03-28 2009-09-01 Mitsubishi Electric Research Laboratories, Inc. Locating and tracking acoustic sources with microphone arrays
JP4234746B2 (ja) * 2006-09-25 2009-03-04 株式会社東芝 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム
EP2090895B1 (en) 2006-11-09 2011-01-05 Panasonic Corporation Sound source position detector
US8363846B1 (en) * 2007-03-09 2013-01-29 National Semiconductor Corporation Frequency domain signal processor for close talking differential microphone array
US7626889B2 (en) 2007-04-06 2009-12-01 Microsoft Corporation Sensor array post-filter for tracking spatial distributions of signals and noise
JP4339929B2 (ja) 2007-10-01 2009-10-07 パナソニック株式会社 音源方向検知装置
KR20100086616A (ko) * 2009-01-23 2010-08-02 엘지전자 주식회사 음원 위치 추적 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05273326A (ja) * 1992-03-25 1993-10-22 Nec Corp ソーナー受信装置
JP2005077205A (ja) * 2003-08-29 2005-03-24 Advanced Telecommunication Research Institute International 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム
JP2009236688A (ja) * 2008-03-27 2009-10-15 Nec Corp 音源方向検出方法、装置及びプログラム
JP2009293968A (ja) * 2008-06-03 2009-12-17 Fujitsu Ten Ltd 信号処理装置、及びレーダ装置
JP2010020294A (ja) * 2008-06-11 2010-01-28 Sony Corp 信号処理装置、および信号処理方法、並びにプログラム
US20100110834A1 (en) * 2008-10-30 2010-05-06 Kim Kyu-Hong Apparatus and method of detecting target sound

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018003158A1 (ja) * 2016-06-29 2018-01-04 日本電気株式会社 相関関数生成装置、相関関数生成方法、相関関数生成プログラムおよび波源方向推定装置
JPWO2018003158A1 (ja) * 2016-06-29 2019-05-09 日本電気株式会社 相関関数生成装置、相関関数生成方法、相関関数生成プログラムおよび波源方向推定装置

Also Published As

Publication number Publication date
WO2013009722A2 (en) 2013-01-17
EP2732301A4 (en) 2015-03-04
WO2013009722A3 (en) 2013-04-04
US20130016852A1 (en) 2013-01-17
EP2732301B1 (en) 2017-05-10
KR20140040812A (ko) 2014-04-03
US9435873B2 (en) 2016-09-06
US9817100B2 (en) 2017-11-14
KR102005590B1 (ko) 2019-10-08
JP6203714B2 (ja) 2017-09-27
US20170052245A1 (en) 2017-02-23
CN103688187A (zh) 2014-03-26
EP2732301A2 (en) 2014-05-21
CN103688187B (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
JP6203714B2 (ja) 位相スペクトルを使った音源定位
Liu et al. Intensity particle flow smc-phd filter for audio speaker tracking
US9354310B2 (en) Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound
US7626889B2 (en) Sensor array post-filter for tracking spatial distributions of signals and noise
EP2847763B1 (en) Audio user interaction recognition and context refinement
CN110875060A (zh) 语音信号处理方法、装置、系统、设备和存储介质
JP3812887B2 (ja) 信号処理システムおよび方法
US9632586B2 (en) Audio driver user interface
JP4812302B2 (ja) 音源方向推定システム、音源方向推定方法及び音源方向推定プログラム
Li et al. Online localization and tracking of multiple moving speakers in reverberant environments
Taseska et al. Blind source separation of moving sources using sparsity-based source detection and tracking
Ban et al. Tracking multiple audio sources with the von mises distribution and variational em
Dang et al. A feature-based data association method for multiple acoustic source localization in a distributed microphone array
JP2010175431A (ja) 音源方向推定装置とその方法と、プログラム
Pertilä Online blind speech separation using multiple acoustic speaker tracking and time–frequency masking
Pertilä et al. A track before detect approach for sequential Bayesian tracking of multiple speech sources
CN113687305A (zh) 声源方位的定位方法、装置、设备及计算机可读存储介质
JP2006227328A (ja) 音声処理装置
WO2013132216A1 (en) Method and apparatus for determining the number of sound sources in a targeted space
Jing et al. Acoustic source tracking based on adaptive distributed particle filter in distributed microphone networks
CN111933182B (zh) 声源跟踪方法、装置、设备和存储介质
CN112558004B (zh) 一种波束信息波达方向的确定方法、装置、及存储介质
Evers et al. LOCATA challenge-evaluation tasks and measures
Pertilä et al. Time-of-arrival estimation for blind beamforming
Dang et al. An iteratively reweighted steered response power approach to multisource localization using a distributed microphone network

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150612

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170830

R150 Certificate of patent or registration of utility model

Ref document number: 6203714

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250