JP3862685B2 - 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム - Google Patents

音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム Download PDF

Info

Publication number
JP3862685B2
JP3862685B2 JP2003306779A JP2003306779A JP3862685B2 JP 3862685 B2 JP3862685 B2 JP 3862685B2 JP 2003306779 A JP2003306779 A JP 2003306779A JP 2003306779 A JP2003306779 A JP 2003306779A JP 3862685 B2 JP3862685 B2 JP 3862685B2
Authority
JP
Japan
Prior art keywords
correlation
signal
time delay
sampling
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003306779A
Other languages
English (en)
Other versions
JP2005077205A (ja
Inventor
フランク ガーピン スーン
セバスチャン ガスニエー
光徳 水町
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2003306779A priority Critical patent/JP3862685B2/ja
Publication of JP2005077205A publication Critical patent/JP2005077205A/ja
Application granted granted Critical
Publication of JP3862685B2 publication Critical patent/JP3862685B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

この発明は音源の方向(Direction Of Arrival:DOA)を特定するための技術に関し、特に、マイクロフォンアレイにより得られた信号を低周波数でサンプリングした場合でもDOAを高精度で推定可能にするための装置、及び複数箇所で測定された信号の間の遅延時間を測定するための装置に関する。
マイクロフォンアレイを用いた信号処理では、指向性の鋭いビームフォーミングを行なうために、高解像度でDOAを推定することが必要になることがある。例えば、いわゆるテレビ会議等で発話者を撮影するためにカメラの撮影方向を自動的に変更させたり、航空機の移動を追尾することにより航空機の制御を行なったりすることが可能である。
一般的にいって、ビームフォーマの時間的解像度は、サンプリング周期に依存する。サンプリング周波数が低い場合、サンプリング周期が粗くなり、サンプル時間に関するごく短い遅延を扱うことは困難である。
そうした問題を回避するために、従来のDOAの推定方法では、所定の解像度を得るために高いサンプリング周期を採用して時間遅延の推定を改善する様にしている(非特許文献1又は2)か、時間的解像度を高めるために、何らかの他の前提(例えば音源数)を必要としている(非特許文献3)。
K.J.パロメキ(K.J.Palomaeki)、G.J.ブラウン(G.J.Brown)、D.L.ワング(D.L.Wang)、「雑音及び残響環境下でのミッシングデータ音声認識のための両耳聴モデル(A binaural auditory model for missing data speech recognition in noisy and reverberant conditions)」、CRAC−Eurospeech’01予稿集、サテライトワークショップ、2001 L.R.バーンシュタイン(L.R.Bernstein),C.トラヒオティス(C.Trahiotis)、「正規化相関:中央周波数前後の両耳聴検出に対する説明(The normalized correlation: Accounting for binaural detection across center frequency)」、米国音響学会ジャーナル、p.100,1996 S.U.ピライ(S.U.Pillai),「アレイ信号処理(Array Signal Processing)」、pp.8−107、1989
非特許文献1又は2に記載の技術では、サンプリング周波数を低くすると十分な精度が得られない。また、非特許文献3の様に何らかの前提を必要とする技術では、一般的に低いサンプリング周波数を用いた場合にDOAを高精度で推定することが難しいという問題がある。一般に音源方向を推定するためには、複数箇所で測定された音声信号の間の時間遅延を精度よく推定する必要があるが、サンプリング周波数が低い場合には測定精度を高くすることが難しかった。このような信号の間の遅延時間を測定する必要性は、DOAを推定する場合に限らず、広い応用範囲を持つと考えられる。
それゆえにこの発明の目的は、サンプリング周波数がそれほど高くなくても、精度よくDOAを推定できる音源方向推定装置を提供することである。
この発明の他の目的は、サンプリング周波数がそれほど高くなくても、同一の信号源からの信号を複数箇所で観測した場合の時間遅延を精度よく推定できる信号の時間遅延推定装置を提供することである。
本発明の第1の局面にかかる音源方向推定装置は、音源の方向を推定するための音源方向推定装置であって、互いに既知の間隔だけ離れた第1及び第2の位置において、同一のサンプリング周期で所定数の音声信号サンプルをサンプリングするためのサンプリング手段と、サンプリング手段によりサンプリングされた、第1及び第2の位置における音声信号サンプルの間の相互相関、及び第1の位置における音声信号サンプルの自己相関を算出するための相関算出手段と、相関算出手段により算出された相互相関及び自己相関に基づいて、第2の位置においてサンプリングされた音声信号サンプルを、第1の位置においてサンプリングされた音声信号の線形和で表すための線形予測係数を推定するための線形予測係数推定手段と、線形予測係数推定手段により推定された線形予測係数を、サンプリング時間に対応付けてプロットし、当該プロットされた点列を、所定の位置にピークを有する所定の波形で近似し補間するための近似手段と、近似手段による近似で得られた所定の波形のピーク位置に対応するサンプリング時間軸上の位置に基づき、第1の位置での音声信号サンプルと第2の位置での音声信号サンプルとの間の時間遅延を推定するための時間遅延推定手段と、時間遅延推定手段により推定された時間遅延、既知の間隔、及び既知の音速に基づいて第1の位置から音源への方向角を算出するための方向角算出手段とを含む。
好ましくは、所定の波形はsinc関数の波形である。
さらに好ましくは、方向角算出手段は、第1の位置から音源への方向角θを以下の式
Figure 0003862685
により算出するための手段を含む。ただし、cは音速、δは時間遅延推定手段により推定された時間遅延、dは第1の位置と第2の位置との距離である。
時間遅延推定手段は、近似手段による近似で得られた所定の波形のピーク位置に対応するサンプリング時間軸上の位置を、サンプリング周期よりも小さな所定の単位で決定するためのピーク位置決定手段を含んでもよい。
さらに好ましくは、相関算出手段は、サンプリング手段によりサンプリングされた、第1及び第2の位置における音声信号サンプルに対し所定の直交変換を行なうための直交変換手段と、直交変換手段により変換された音声信号サンプルの間の相互相関、及び第1の位置における音声信号サンプルの自己相関を算出するための変換後サンプルの相関算出手段と、変換後サンプルの相関算出手段により算出された相互相関及び自己相関を、所定の直交変換の逆変換を行なうことにより時間領域に戻すための直交逆変換手段とを含む。
直交変換手段は、サンプリング手段によりサンプリングされた、第1及び第2の位置における音声信号サンプルに対しフーリエ変換を行なうためのフーリエ変換手段を含んでもよい。この場合、直交逆変換手段は、変換後サンプルの相関算出手段により算出された相互相関及び自己相関に逆フーリエ変換を行なうことにより、変換後サンプルの相関算出手段により算出された相互相関及び自己相関を時間領域に戻すための逆フーリエ変換手段を含む。
この発明の第2の局面にかかるコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの音源方向推定装置として動作させるものである。
この発明の第3の局面にかかる信号の時間遅延推定装置は、第1及び第2の位置で観測される、同一の信号源からの信号の間の遅延時間を推定するための信号の時間遅延推定装置である。この装置は、互いに既知の間隔だけ離れた第1及び第2の位置において、信号に対し同一のサンプリング周期で所定数の信号サンプルをサンプリングするためのサンプリング手段と、サンプリング手段によりサンプリングされた、第1及び第2の位置における信号サンプルの間の相互相関、及び第1の位置における信号サンプルの自己相関を算出するための相関算出手段と、相関算出手段により算出された相互相関及び自己相関に基づいて、第2の位置においてサンプリングされた信号サンプルを、第1の位置においてサンプリングされた信号の線形和で表すための線形予測係数を推定するための線形予測係数推定手段と、線形予測係数推定手段により推定された線形予測係数を、所定の位置にピークを有する所定の波形で近似し補間するための近似手段と、近似手段による近似で得られた所定の波形のピーク位置に対応するサンプリング時間軸上の位置に基づき、第1の位置での信号サンプルと第2の位置での信号サンプルとの間の時間遅延を推定するための時間遅延推定手段とを含む。
好ましくは、所定の波形はsinc関数の波形である。
時間遅延推定手段は、近似手段による近似で得られた所定の波形のピーク位置に対応するサンプリング時間軸上の位置を、サンプリング周期よりも小さな所定の単位で決定するためのピーク位置決定手段を含んでもよい。
さらに好ましくは、相関算出手段は、サンプリング手段によりサンプリングされた、第1及び第2の位置における信号サンプルに対し所定の直交変換を行なうための直交変換手段と、直交変換手段により変換された信号サンプルの間の相互相関、及び第1の位置における信号サンプルの自己相関を算出するための変換後サンプルの相関算出手段と、変換後サンプルの相関算出手段により算出された相互相関及び自己相関を、所定の直交変換の逆変換を行なうことにより時間領域に戻すための直交逆変換手段とを含む。
直交変換手段は、サンプリング手段によりサンプリングされた、第1及び第2の位置における信号サンプルに対しフーリエ変換を行なうためのフーリエ変換手段を含んでもよい。この場合、直交逆変換手段は、変換後サンプルの相関算出手段により算出された相互相関及び自己相関に逆フーリエ変換を行なうことにより、変換後サンプルの相関算出手段により算出された相互相関及び自己相関を時間領域に戻すための逆フーリエ変換手段を含む。
この発明の第4の局面にかかるコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの信号の時間遅延推定装置として動作させるものである。
[原理]
本発明の実施の形態にかかる時間遅延推定装置について説明するに先立ち、どのような原理で二つのマイクロフォンでサンプリングされた信号の間の遅延を推定するかについて説明する。この推定時間遅延を用いて、DOAを高精度で推定することが可能になる。
図1は音源20と二つのマイクロフォン22A及び22Bとの配置を模式的に示す図である。音源20はマイクロフォン22A及び22Bから十分遠くにあるものとする。音源20からの音声はそれぞれ経路L1及びL2を通ってマイクロフォン22A及び22Bに到達する。
図2は、マイクロフォン22A及び22Bの近傍の拡大図である。図2を参照して、マイクロフォン22A及び22Bを結ぶ線と、この線に直交し、マイクロフォン22Aを通る線とのなす角をθとする。θがDOAであり、マイクロフォン22Aから音源への方向角を表す。音源20が十分遠くにあると仮定しているので、音源20からマイクロフォン22A及び22Bに到達する音波は平面波であると考えることができる。
マイクロフォン22A及び22Bにおける信号(これらをそれぞれ第1及び第2のチャンネルの信号と呼ぶ。)のサンプルはそれぞれ次の様に表すことができる。
Figure 0003862685
ただしx1(t)及びx2(t)は、それぞれ時刻tにおいて、音源信号s(t)をマイクロフォン22A及び22Bでサンプリングした信号、δはマイクロフォン22A及び22Bに同じ信号s(t)が到達する際の時間差、n1(t)及びn2(6)はそれぞれ受信された音源信号に線形に加えられたノイズ信号とする。
ここでは、問題を簡単にするために、音源と二つのマイクロフォン22A及び22Bとの間での信号の減衰又は反射音はないものとする。しかし、後に説明する本実施の形態の装置で採用されたアルゴリズムをより残響の多い環境での推定に用いることもできる。
本実施の形態ではマイクロフォン22A及び22Bの間の信号の遅延を推定し、さらにこの遅延を使用して音源20のDOAを推定する。図2を参照して、今、マイクロフォン22A及び22Bを結ぶ線と経路L1及びL2とが交わる点をそれぞれP及びQ、点Qから経路L1に下ろした垂線の足をEとする。マイクロフォン22A及び22Bの間の距離(PQ)をdとする。すると、角EQP=θであるから、θは次の式で与えられる。
Figure 0003862685
ただしcは音速である。この式によれば、θの推定値は、アークサイン関数によって時間遅延の推定値に非線形に従属している。
‐線形予測‐
後に述べる実施の形態では、時間遅延を推定する際に線形予測(LP)を使用する。受信されたサンプルの一ブロック(通常は30ミリ秒程度のウィンドウで切出されたデータ)を用いてLPの予測式をたてる。
1ウィンドウでN個のサンプルを採取するものとすると、第1チャンネルの信号ベクトルx1を第2のチャンネルの信号ベクトルx2から予測したり、その逆の予測を行なったりするために、次の行列関係式が用いられる。
Figure 0003862685
このブロックデータ行列X2はテプリッツ行列であり、その左上から右下方向への対角線方向の線上の要素の値は等しい。積X2hはベクトルx1の予測値であり、ベクトルhは長さ(2Δ+1)の「補間」又は「平滑化」のためのフィルタである。
仮にベクトルx1及びベクトルx2の間の時間遅延δがサンプリング周期の整数倍であれば、信号状態が理想的なものであれば、フィルタベクトルhの要素のうちの一つの値が1、他の全ての値は0となるであろう。しかし、通常はその様にはならない。そのため、信号ベクトルx2の各要素の値を、信号ベクトルx1の各要素の線形和で表現することが考えられる。その線形和の各係数がここでいうLP係数であり、フィルタベクトルhの各要素である。
以下に述べる本発明の実施の形態では、この様に信号ベクトルx2が信号ベクトルx1とフィルタベクトルhとの積で表されることを前提とし、フィルタベクトルhの要素の値を補間及び平滑化することにより、フィルタベクトルの要素の値が「1」となるような仮想的な位置はどこかを、サンプル時間よりも小さい単位まで推定することにより、正確な時間遅延を推定する。
誤差ベクトルeを次の様に定義するものとする。
Figure 0003862685
このとき、誤差のパワーは以下の式により計算される。
Figure 0003862685
ただし(・)Tは行列の転置を表す。
ベクトルJのベクトルhに関する勾配をゼロとおくことにより最小二乗法によりベクトルhの解が得られ、正規方程式は次の様になる。
Figure 0003862685
この右側の式の右辺のX2 T2は第2のチャンネルの信号ベクトルx2の自己相関行列(以下「自己相関」と呼ぶ。)を表す。本実施の形態で求めるべきなのは相互相関ベクトル(以下「相互相関」と呼ぶ。)X2 T1のみである。そのため、相互相関に対する第2のチャンネルの信号の影響を、第2のチャンネルの信号の自己相関の逆行列を乗算することにより正規化している。
前述の行列式(2)に出現する長さのパラメータΔは、二つのチャンネル間の時間遅延の全範囲をカバーするのに十分な長さに選ばれる。すなわち、Δは次の式を満足する。
Figure 0003862685
ただしfsはサンプリング周波数である。
この後、ベクトルhの要素であるLPパラメータを補間関数により補間して二つのチャンネル間の信号の時間遅延を推定する。補間関数としては、例えば図4に波形を示すsinc関数(sinx/x)を用いることができる。この様にして得られる時間遅延は、前述の様にサンプリング周期の整数倍とは限らない。ベクトルhの要素の値をsinc関数で補間・平滑化し、その結果得られる連続関数の波形において最も大きな振幅(ピーク)に対応する場所が、我々の求める時間遅延の推定値を示す。
仮にDOAが大きくなると、エッジ効果が生じて最大振幅を推定する補間フィルタに関する誤差が大きくなる。そうした場合には、補間フィルタが基本的に対照形となる様にLP式を置き換えることにより、誤差を抑えることができる。
[第1の実施の形態]
‐構成‐
図3に、本実施の形態の時間遅延推定装置の構成を示す。図3を参照して、本実施の形態に係る時間遅延推定装置30は、マイクロフォン22A及び22Bからそれぞれ入力される第1及び第2のチャンネルの信号x1及びx2に対するフレームデータを所定の周波数でサンプリングするためのフレームサンプリング部40と、サンプリングされた各フレームのデータを記憶するフレームメモリ42と、フレームメモリ42に記憶されたフレームデータに基づいて、前述した自己相関及び相互相関を算出するための相関算出部44と、相関算出部44により算出された相関行列を記憶するための相関記憶部46とを含む。
時間遅延推定装置30はさらに、相関記憶部46に記憶された自己相関と相互相関とに基づいて、前述した式(5)を解くことによりフィルタ係数(フィルタベクトルhの要素)を計算するためのフィルタ係数計算部48を含む。フィルタ係数計算部48によるフィルタ係数の計算には、本実施の形態ではLevinsonのアルゴリズムを用いる。
時間遅延推定装置30はさらに、フィルタ係数計算部48により計算されたフィルタ係数を記憶するためのフィルタ係数記憶部50と、フィルタ係数記憶部50に記憶されたフィルタ係数に対し、図4に波形70を示すsinc関数によって補間及び平滑化を行なうための補間処理部52と、補間処理部52により補間及び平滑化処理がされた連続波形から、波形のピークを決定しそのピーク位置に基づいて第1チャンネルと第2チャンネルとの間の時間遅延を決定するためのピーク決定部54とを含む。この時間遅延δを式(1)に代入することにより、DOAである角θを求めることができる。
‐動作‐
第1の実施の形態に係る時間遅延推定装置30は以下の様に動作する。フレームサンプリング部40が、マイクロフォン22A及び22Bの出力の各々を所定のサンプリングレートでサンプリングし、それぞれのフレームデータを作成する。フレームメモリ42が、フレームサンプリング部40のサンプリングした第1及び第2のチャンネルのフレームデータを記憶する。
相関算出部44が、フレームメモリ42に記憶されたフレームデータに基づき、前述した第2のチャンネルの自己相関X2 T2及び第1及び第2のチャンネルの相互相関X2 T1を計算する。フィルタ係数計算部48は、この様にして計算された自己相関X2 T2の逆行列を求め、この逆行列及び相互相関X2 T1の積に対してLevinsonのアルゴリズムを適用することにより、フィルタのベクトルhを構成する各要素を求める(式(5)を解く)。
フィルタ係数計算部48により算出されたフィルタのベクトルhを構成する各要素(フィルタ係数)の値の例を図5に示す。図5に、算出された各要素の値の例80‐1〜80‐Nを示す。図3に示すフィルタ係数記憶部50がこれら各要素の値を記憶する。
図3に示す補間処理部52が、フィルタ係数記憶部50に記憶された値に基づき、それらの点を結ぶ曲線を図4に示すsinc波形で最小二乗法により近似することで、これらの点の間を補間する連続関数を計算する。その結果の例を図6に示す。図6に示す波形90は、図4に示す波形70と同様、sinc関数に基づくものである。このsinc関数に基づく波形90は、点80‐1〜点80‐Nとの誤差の二乗が最小となる様に決定される。図6に示す例では、波形90のピークは点80‐7と点80‐8との間に存在し、このピーク92と点80‐7及び80‐8とはそれぞれD2及びD3だけ隔たっている。このうちの距離D2と、点80‐1から点80‐7との間の距離D1とを加算することにより、点80‐1からピーク92までの距離が求まる。
この様にして求めた量D1+D2は、第1チャンネルの信号に対する第2チャンネルの信号の時間遅延分δに相当する。すなわち、第1チャンネルに対する第2チャンネルの信号の時間遅延の量δを、サンプリングレートの整数倍だけでなくさらに細かいところまで推定することができる。
以上の様に、本実施の形態の装置によれば、第1のチャンネルの音声信号と、第2のチャンネルの音声信号との間の時間遅延を、サンプリング間隔よりもさらに細かい時間まで求めることができる。その結果、サンプリング周波数を大きくしなくとも、時間遅延を精度よく求めることが可能になり、さらにその時間遅延から音源のDOAを精度よく求めることができる。
[第2の実施の形態]
第1の実施の形態の時間遅延推定装置30は、自己相関及び相互相関を時間領域で計算している。しかし、この相関は、周波数領域で算出してから時間領域に戻すことにより求めるのが一般的である。第2の実施の形態では、相関を周波数領域で算出する。
図7に、本発明の第2の実施の形態に係る時間遅延推定装置100のブロック図を示す。図7において、図3と同じ部品には同じ参照符号を付してある。それらの機能も同一である。従ってここではそれらについての詳細な説明は繰返さない。
図7に示す時間遅延推定装置100が図3に示す時間遅延推定装置30と異なるのは、図3に示す相関算出部44に替えて、フレームメモリ42に記憶されているフレームデータに対し高速フーリエ変換(FFT)を行なって、フレームデータを周波数領域に変換するためのFFT処理部110と、FFT処理部110により周波数領域に変換されたフレームデータを用いて、自己相関X2 T2及び相互相関X2 T1を算出するための時間領域相関算出部112と、時間領域相関算出部112による計算結果に対し逆FFT処理を行なうことにより相関行列を時間領域に変換し相関記憶部46に与え記憶させる逆FFT処理部114とを含む点である。すなわち、時間領域で直接相関を計算するのに替えて、一旦周波数領域に変換して相関を作成する点が異なる。最終的に得られる相関行列は、原理的には第1の実施の形態のものと同じとなる。
この第2の実施の形態の時間遅延推定装置100の動作は、相関の計算を周波数領域で行なう点を除いて第1の実施の形態の時間遅延推定装置30の動作と同じである。また、時間遅延推定装置100により、時間遅延推定装置30と同様の効果を得ることができることは明らかである。
[実験]
上記した第1の実施の形態に係る時間遅延推定装置30をコンピュータ及びその上で動作するソフトウェアにより実現して、以下の実験を行なった。まず、前述した通り音声信号は平面波として到来すると仮定して、二つのマイクロフォンで受信される第1及び第2の信号間の時間遅延のみを考慮して作成した。これら信号を用い、上記した第1の実施の形態の時間遅延推定装置30によって時間遅延を推定した。音声信号としては、公知の、容易に入手できる音声データベースに含まれる、連続する数字列に対する発声データを用いた。
3種類の実験を行なった。第1及び第2の実験では、二つのマイクロフォンの各々について、機械的に発生させたホワイトノイズをコンピュータ上で音声信号に対し加えた。また、実環境下で収集した街頭でのノイズ、列車のノイズ、空港のノイズ等の種々のノイズサンプルも用いた。
‐第1の実験‐
第1の実験では、10桁の数字の発声サンプルにつき、無音(雑音のみ)のフレーム部分を削除して二つのマイクロフォンに異なる無相関ノイズを加えて実験を行なった。このノイズは、機械により発生させた、互いに独立なランダムなガウス分布に従うサンプルである。SNR(Signal−to−Noise Ratio)は20dBに設定した。13個の係数のLPフィルタを使用した。
比較のためのベースラインとなるアルゴリズムは、相互相関技術(コレログラム)を用いたものである。
結果を図8に示す。比較例は、本実施の形態の線形予測を用いたものと比較してはるかに劣ることが分かる。比較例の精度がこの様に低いこと、特にDOAが大きな部分で劣るのは、使用したサンプリングレートが低い(8kHz)ことに起因すると思われる。
‐第2の実験‐
第2の実験では、各チャンネルに加えられる独立なホワイトノイズに対する、上記したアルゴリズム中で使用した長さのパラメータΔの影響を調査した。図9に示す様に、Δとして13から29までの種々の長さのものを使用して実験を行なった。
図9を参照して明らかな通り、Δが大きくなるほどLP誤差パワーとDOAの推定誤差とは小さくなる。
‐第3の実験‐
第3の実験では、種々のタイプのノイズを種々のSIR(Signal−to−Interference Ratio)で加えた場合の、上記したアルゴリズムの頑健性を調査した。ノイズのDOAは、中央から見て50度左側(反時計回り)に固定し、音源のDOAは中央から右側(時計回り)に0度から90度まで変化させた。
結果を図10に示す。図10に示される様に、SIRが20dBから10dBまでの範囲では、本実施の形態で採用したアルゴリズムの性能はよいことが分かった。しかし、さらにSIRが低く、5dB以下となるとDOAの誤差が大きくなるという結果が得られた。
なお、上記した実施の形態では、いずれの場合にもマイクは2本使用した。しかし、上記した実施の形態により明らかとなった思想に基づき、マイクを3本以上使用した場合も、同様の処理でDOAの推定を行なうことができる。また、上記した実施の形態では、同一音源からの音波についてDOAの推定を行なう場合を想定した。しかしその中で説明した時間遅延の推定方法は、音波に限らず光、電磁波など直進する性質を持つ信号を複数箇所で測定した場合の時間遅延の測定に適用することができることはいうまでもない。
また、上記した実施の形態では、フレーム単位でデータを処理することによりバッチ形式でDOAを決定している。従って音源はその位置を変えないことが前提となっている。しかし、いうまでもなくこの処理をフレームごとに繰返すことにより、音源がその位置を移動させる場合にもその位置を精度よく推定できる。
また、上記した実施の形態では、処理対象は音波という物理量を測定したものであるが、処理対象がデジタルデータに変換できれば、いわゆるコンピュータのハードウェア上で動作するソフトウェア(コンピュータプログラム)により実現可能なことはいうまでもない。そして、そのソフトウェアはそれ自体、何らかの記憶媒体に記憶されて流通したり、通信媒体を介してあるコンピュータから他のコンピュータに送信されたりすることもあり得る。また、コンピュータの中央演算処理装置を複数個用いたり、通信により複数個のコンピュータを結合したりすることにより上記した実施の形態と同様の装置を構築することもできる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
音源20と二つのマイクロフォン22A及び22Bとの配置を模式的に示す図である。 マイクロフォン22A及び22BとDOAθとの関係を示す図である。 本発明の第1の実施の形態に係る時間遅延推定装置30の構成を示す図である。 補間に用いられるsinc関数の波形を示す図である。 フィルタベクトルhの要素の値の例を示す図である。 図5に示すベクトルhの要素を図4に示す波形で補間した結果得られる波形を示す図である。 本発明の第2の実施の形態に係る時間遅延推定装置の構成を示す図である。 本発明の第1の実施の形態に係る時間遅延推定装置を用いて線形予測により得られたDOA予測誤差を、コレログラムに基づく比較例とともに示すグラフである。 本発明の第1の実施の形態に係る時間遅延推定装置を用いたDOAの推定誤差及び正規化誤差パワーと、LPフィルタ次数との関係を示すグラフである。 実際のノイズサンプル及び種々のSIRの値とを用いた実験でのDOAの測定誤差を示すグラフである。
符号の説明
20 音源、22A,22B マイクロフォン、30 時間遅延推定装置、40 フレームサンプリング部、42 フレームメモリ、44 相関算出部、46 相関記憶部、48 フィルタ係数計算部、50 フィルタ係数記憶部、52 補間処理部、54 ピーク決定部、70,90 波形、80−1〜80−N フィルタベクトルhの要素の値、92 ピーク、110 FFT処理部、112 時間領域相関算出部、114 逆FFT処理部

Claims (13)

  1. 互いに既知の間隔だけ離れた第1及び第2の位置において観測される、同一の音源からの音波からそれぞれ生成される第1及び第2の二つの音声信号を受け、当該二つの音声信号から音源の方向を推定するための音源方向推定装置であって、
    前記二つの音声信号から同一のサンプリング周期で所定数の音声信号サンプルをそれぞれサンプリングするためのサンプリング手段と、
    前記サンプリング手段により、前記第1及び第2の音声信号からサンプリングされた音声信号サンプルの間の相互相関、及び前記第1の音声信号からサンプリングされた音声信号サンプルの自己相関を算出するための相関算出手段と、
    前記相関算出手段により算出された前記相互相関及び前記自己相関に基づいて、前記第2の音声信号からサンプリングされた音声信号サンプルを、前記第1の音声信号からサンプリングされた音声信号サンプルの線形和で表すための線形予測係数を推定するための線形予測係数推定手段と、
    前記線形予測係数推定手段により推定された線形予測係数を、サンプリング時間に対応付けてプロットし、当該プロットされた点列を、所定の位置にピークを有する所定の波形で近似し補間するための近似手段と、
    前記近似手段による近似で得られた前記所定の波形のピーク位置に対応するサンプリング時間軸上の位置に基づき、前記第1の音声信号からサンプリングされた音声信号サンプルと前記第2の音声信号からサンプリングされた音声信号サンプルとの間の時間遅延を推定するための時間遅延推定手段と、
    前記時間遅延推定手段により推定された時間遅延、前記既知の間隔、及び既知の音速に基づいて前記第1の位置から前記音源への方向角を算出するための方向角算出手段とを含む、音源方向推定装置。
  2. 前記所定の波形はsinc関数の波形である、請求項1に記載の音源方向推定装置。
  3. 前記方向角算出手段は、前記第1の位置から前記音源への方向角θを以下の式
    Figure 0003862685
    により算出するための手段を含み、ただし、cは音速、δは前記時間遅延推定手段により推定された時間遅延、dは前記第1の位置と前記第2の位置との距離である、請求項1又は請求項2に記載の音源方向推定装置。
  4. 前記時間遅延推定手段は、前記近似手段による近似で得られた前記所定の波形のピーク位置に対応するサンプリング時間軸上の位置を、前記サンプリング周期よりも小さな所定の単位で決定するためのピーク位置決定手段を含む、請求項1〜請求項3のいずれかに記載の音源方向推定装置。
  5. 前記相関算出手段は、
    前記サンプリング手段により、前記第1及び第2の音声信号からサンプリングされた音声信号サンプルに対し所定の直交変換を行なうための直交変換手段と、
    前記直交変換手段により変換された前記音声信号サンプルの間の相互相関、及び前記第1の音声信号からサンプリングされた音声信号サンプルの自己相関を算出するための変換後サンプルの相関算出手段と、
    前記変換後サンプルの相関算出手段により算出された相互相関及び自己相関を、前記所定の直交変換の逆変換を行なうことにより時間領域に戻すための直交逆変換手段とを含む、請求項1〜請求項4のいずれかに記載の音源方向推定装置。
  6. 前記直交変換手段は、前記サンプリング手段により、前記第1及び第2の音声信号からサンプリングされた音声信号サンプルに対しフーリエ変換を行なうためのフーリエ変換手段を含み、
    前記直交逆変換手段は、前記変換後サンプルの相関算出手段により算出された相互相関及び自己相関に逆フーリエ変換を行なうことにより、前記変換後サンプルの相関算出手段により算出された相互相関及び自己相関を時間領域に戻すための逆フーリエ変換手段を含む、請求項5に記載の音源方向推定装置。
  7. 外部から音声信号を受けるための手段を備えたコンピュータにより実行されると、当該コンピュータを請求項1〜請求項6のいずれかに記載の音源方向推定装置として動作させる、コンピュータプログラム。
  8. 互いに既知の間隔だけ離れた第1及び第2の位置で観測される、同一の信号源からの観測対象信号の間の遅延時間を推定するための信号の時間遅延推定装置であって、
    前記第1及び第2の位置でそれぞれ観測された前記観測対象信号からそれぞれ生成される、第1及び第2の二つの信号を受け、同一のサンプリング周期で所定数の信号サンプルをそれぞれサンプリングするためのサンプリング手段と、
    前記サンプリング手段により、前記第1及び第2の信号からサンプリングされた信号サンプルの間の相互相関、及び前記第1の信号からサンプリングされた信号サンプルの自己相関を算出するための相関算出手段と、
    前記相関算出手段により算出された前記相互相関及び前記自己相関に基づいて、前記第2の信号からサンプリングされた信号サンプルを、前記第1の信号からサンプリングされた信号サンプルの線形和で表すための線形予測係数を推定するための線形予測係数推定手段と、
    前記線形予測係数推定手段により推定された線形予測係数を、サンプリング時間に対応付けてプロットし、当該プロットされた点列を、所定の位置にピークを有する所定の波形で近似し補間するための近似手段と、
    前記近似手段による近似で得られた前記所定の波形のピーク位置に対応するサンプリング時間軸上の位置に基づき、前記第1の信号をサンプリングして得られた信号サンプルと前記第2の信号をサンプリングして得られた信号サンプルとの間の時間遅延を推定するための時間遅延推定手段とを含む、信号の時間遅延推定装置。
  9. 前記所定の波形はsinc関数の波形である、請求項8に記載の信号の時間遅延推定装置。
  10. 前記時間遅延推定手段は、前記近似手段による近似で得られた前記所定の波形のピーク位置に対応するサンプリング時間軸上の位置を、前記サンプリング周期よりも小さな所定の単位で決定するためのピーク位置決定手段を含む、請求項8又は請求項9に記載の信号の時間遅延推定装置。
  11. 前記相関算出手段は、
    前記サンプリング手段によ前記第1及び第2の信号からサンプリングされた信号サンプルに対し所定の直交変換を行なうための直交変換手段と、
    前記直交変換手段により変換された前記信号サンプルの間の相互相関、及び前記第1の信号からサンプリングされた信号サンプルの自己相関を算出するための変換後サンプルの相関算出手段と、
    前記変換後サンプルの相関算出手段により算出された相互相関及び自己相関を、前記所定の直交変換の逆変換を行なうことにより時間領域に戻すための直交逆変換手段とを含む、請求項8〜請求項10のいずれかに記載の信号の時間遅延推定装置。
  12. 前記直交変換手段は、前記サンプリング手段によ前記第1及び第2の信号からサンプリングされた信号サンプルに対しフーリエ変換を行なうためのフーリエ変換手段を含み、
    前記直交逆変換手段は、前記変換後サンプルの相関算出手段により算出された相互相関及び自己相関に逆フーリエ変換を行なうことにより、前記変換後サンプルの相関算出手段により算出された相互相関及び自己相関を時間領域に戻すための逆フーリエ変換手段を含む、請求項11に記載の信号の時間遅延推定装置。
  13. 第1及び第2の位置でそれぞれ観測された観測対象信号からそれぞれ生成される第1及び第2の二つの信号を受けるための手段を備えたコンピュータにより実行されると、当該コンピュータを請求項8〜請求項12のいずれかに記載の信号の時間遅延推定装置として動作させる、コンピュータプログラム。
JP2003306779A 2003-08-29 2003-08-29 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム Expired - Fee Related JP3862685B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003306779A JP3862685B2 (ja) 2003-08-29 2003-08-29 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003306779A JP3862685B2 (ja) 2003-08-29 2003-08-29 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2005077205A JP2005077205A (ja) 2005-03-24
JP3862685B2 true JP3862685B2 (ja) 2006-12-27

Family

ID=34409769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003306779A Expired - Fee Related JP3862685B2 (ja) 2003-08-29 2003-08-29 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP3862685B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5070873B2 (ja) 2006-08-09 2012-11-14 富士通株式会社 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム
JP5195652B2 (ja) 2008-06-11 2013-05-08 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
JP5617133B2 (ja) * 2008-11-05 2014-11-05 ヒア アイピー ピーティーワイ リミテッド 指向性出力信号の生成システムおよび方法
JP5647814B2 (ja) * 2010-05-19 2015-01-07 日本電産エレシス株式会社 電子走査型レーダ装置、受信波方向推定方法及び受信波方向推定プログラム
US9435873B2 (en) * 2011-07-14 2016-09-06 Microsoft Technology Licensing, Llc Sound source localization using phase spectrum
KR101342540B1 (ko) 2012-04-09 2014-01-10 주식회사 센서웨이 교차 상관 연산에 기초한 시간 지연 추정 방법 및 그 장치
JP6165046B2 (ja) * 2013-12-18 2017-07-19 一般財団法人電力中央研究所 音源位置の推定方法、推定装置及び推定プログラム
CN111863017B (zh) * 2020-07-20 2024-06-18 上海汽车集团股份有限公司 一种基于双麦克风阵列的车内定向拾音方法及相关装置
CN117220802A (zh) * 2023-10-10 2023-12-12 白盒子(上海)微电子科技有限公司 一种用于5g低采样率场景的时延估计方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08313659A (ja) * 1995-05-16 1996-11-29 Atr Ningen Joho Tsushin Kenkyusho:Kk 信号時間差検出装置
JP3541339B2 (ja) * 1997-06-26 2004-07-07 富士通株式会社 マイクロホンアレイ装置
JP2982766B2 (ja) * 1997-11-05 1999-11-29 日本電気株式会社 音源方向推定方法及びその装置
JPH11304906A (ja) * 1998-04-20 1999-11-05 Nippon Telegr & Teleph Corp <Ntt> 音源位置推定方法およびそのプログラムを記録した記録媒体
JP3598932B2 (ja) * 2000-02-23 2004-12-08 日本電気株式会社 話者方向検出回路及びそれに用いる話者方向検出方法
JP3528808B2 (ja) * 2001-04-03 2004-05-24 日本電気株式会社 相互相関関数計算方法および装置
JP2002315089A (ja) * 2001-04-19 2002-10-25 Nec Eng Ltd 話者方向検出回路
JP3778865B2 (ja) * 2001-12-20 2006-05-24 富士通株式会社 波動信号処理システム
JP2003271189A (ja) * 2002-03-14 2003-09-25 Nef:Kk 話者方向検出回路及びその検出方法
JP2004109712A (ja) * 2002-09-20 2004-04-08 Nec Engineering Ltd 話者方向検出装置

Also Published As

Publication number Publication date
JP2005077205A (ja) 2005-03-24

Similar Documents

Publication Publication Date Title
US10334357B2 (en) Machine learning based sound field analysis
US9984702B2 (en) Extraction of reverberant sound using microphone arrays
RU2570359C2 (ru) Прием звука посредством выделения геометрической информации из оценок направления его поступления
RU2642353C2 (ru) Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи
JP5814476B2 (ja) 空間パワー密度に基づくマイクロフォン位置決め装置および方法
US9291697B2 (en) Systems, methods, and apparatus for spatially directive filtering
RU2596592C2 (ru) Пространственный аудио процессор и способ обеспечения пространственных параметров на основе акустического входного сигнала
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
Jensen et al. Nonlinear least squares methods for joint DOA and pitch estimation
CN103181190A (zh) 用于远场多源追踪和分离的系统、方法、设备和计算机可读媒体
JP2010517047A (ja) マルチセンサ音源定位
TW200904226A (en) Enhanced beamforming for arrays of directional microphones
CN103339961A (zh) 用于通过声波三角测量进行空间性选择声音获取的装置及方法
JP2006194700A (ja) 音源方向推定システム、音源方向推定方法及び音源方向推定プログラム
Gaubitch et al. Statistical analysis of the autoregressive modeling of reverberant speech
JP3862685B2 (ja) 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム
CN103890843A (zh) 信号噪声衰减
Bohlender et al. Least-squares DOA estimation with an informed phase unwrapping and full bandwidth robustness
CN118591737A (zh) 定位移动声源
JP2013175869A (ja) 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム
JP5698166B2 (ja) 音源距離推定装置、直間比推定装置、雑音除去装置、それらの方法、及びプログラム
Jarrett et al. Eigenbeam-based acoustic source tracking in noisy reverberant environments
JP5713933B2 (ja) 音源距離測定装置、音響直間比推定装置、雑音除去装置、それらの方法、及びプログラム
Lübeck et al. A Real-Time Application for Sound Source Localization Inside a Spherical Microphone Array
Dmochowski et al. The generalization of narrowband localization methods to broadband environments via parametrization of the spatial correlation matrix

Legal Events

Date Code Title Description
A977 Report on retrieval

Effective date: 20060327

Free format text: JAPANESE INTERMEDIATE CODE: A971007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060613

A521 Written amendment

Effective date: 20060714

Free format text: JAPANESE INTERMEDIATE CODE: A523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060926

R150 Certificate of patent (=grant) or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 3

Free format text: PAYMENT UNTIL: 20091006

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101006

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees