JP5692006B2 - 音源推定装置、方法、プログラム、及び移動体 - Google Patents

音源推定装置、方法、プログラム、及び移動体 Download PDF

Info

Publication number
JP5692006B2
JP5692006B2 JP2011241610A JP2011241610A JP5692006B2 JP 5692006 B2 JP5692006 B2 JP 5692006B2 JP 2011241610 A JP2011241610 A JP 2011241610A JP 2011241610 A JP2011241610 A JP 2011241610A JP 5692006 B2 JP5692006 B2 JP 5692006B2
Authority
JP
Japan
Prior art keywords
sound source
mask
csp coefficient
corrected
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011241610A
Other languages
English (en)
Other versions
JP2013097273A (ja
Inventor
智哉 高谷
智哉 高谷
佐藤 潤
潤 佐藤
船山 竜士
竜士 船山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2011241610A priority Critical patent/JP5692006B2/ja
Publication of JP2013097273A publication Critical patent/JP2013097273A/ja
Application granted granted Critical
Publication of JP5692006B2 publication Critical patent/JP5692006B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は、音源推定装置、音源推定方法、音源推定プログラム、及び移動体に関し、特に詳しくは音源を推定する音源推定装置、音源推定方法、及び音源推定プログラム、並びに、該音源推定装置を用いた移動体に関する。
非特許文献1には、CSP法(Cross−power Spectrum Phase analysis:白色化相互相関)を用いた技術が開示されている。CSP法は、GCC−PHAT(Generalized Cross−Correlation PHAse Transform)アルゴリズムとも呼ばれ、音源方向の推定に用いられている
Frithjof Hummes, Junge Qi, Tim Fingscheid著 ROBUST ACOUSTIC SPEAKER LOCALIZATION WITH DISTRIBUTED MICROPHONES 19th European Signal Processing Conference (EUSIPCO2011) pp.240−244
以下、CSP法の処理について説明する。図4はCSP法の処理フローを示すブロック図である。短時間DFT部121は、2つのマイクロフォン(以下、マイク)が観測した観測信号x(t)、x(t)に対して、短時間DFT(Discret Fourier Transform)処理を行う。これにより、時間領域の観測信号x(t)、x(t)がそれぞれ時間−周波数領域の観測信号X(ω,t)、X(ω,t)に変換される。
CPS係数算出部126は、観測信号X(ω,t)、X(ω,t)からCSP係数CSP(d,t)を算出する。なお、CSP係数とは、観測信号X(ω,t)、X(ω,t)をその振幅で正規化した相互相関関数である。そして、時間差推定部127は、CSP係数を最大にするインデックスdに基づいて、到来時間差τを推定する。この到来時間差τが第1のマイクと第2のマイクで観測した音の到来時間差に対応する。推定された時間差に基づいて、方位推定部128が方位θを推定している。
ところで、CSP法のアルゴリズムには、音源数は一つであるという仮定がある。そして、CSP法では、この仮定に基づいて離散フーリエ変換で得られた全帯域信号を用いて音源方位推定を行っている。まず、観測信号X(ω,t)、X(ω,t)は以下の式(1)、式(2)で表すことができる。
Figure 0005692006
Figure 0005692006
ωは周波数であり、tは時間である。X1sは目的音源からの音を第1のマイクで取得した時の観測信号、X2sは目的音源からの音を第2のマイクで取得した時の観測信号である。t1sは目的音源と第1のマイクとの距離に応じた時間であり、t2sは目的音源と第2のマイクの距離に対応する時間である。τ(t)は、第1のマイクと第2のマイクとの間の音の到来時間差である。音源数が1つであると仮定すると、CSP係数は式(3)で表せる。
Figure 0005692006
なお、式(3)において、*は共役を示している。しかしながら、実環境では、音源数は必ずしも一つではなく、環境雑音や干渉音の混入がある。このため、複数音源の混合信号が観測される。この混合信号は、式(4)、式(5)で表すことができる。
Figure 0005692006
Figure 0005692006
式(4)、式(5)において、nは雑音となる音源(雑音源)の数である。また、X1Nnは、n番目の雑音源からの音を第1のマイクで観測した時の観測信号であり、t1Nnはn番目の雑音源と第1のマイクとの距離に対応する時間である。同様に、X2Nnは、n番目の雑音源からの音を第2のマイクで観測した時の観測信号であり、t2Nnはn番目の雑音源と第2のマイクとの距離に応じた時間に対応している。τは目的音源からの音の到達時間差であり、τNnは、n番目の雑音源からの音の到来時間差である。
以下、説明を簡単にするため、目的音源数を1、雑音源数を1とする。この場合、観測信号は以下の式(6)、式(7)で表される。
Figure 0005692006
Figure 0005692006
CSP係数は、以下の式(8)で展開される。
Figure 0005692006
高SNR(Signal Noise Ratio)の場合、すなわち、低雑音環境下の場合、以下の式(9)の近似式が成立する。
Figure 0005692006
従って、CSP係数の算出式は、以下の式(10)のように展開されるため、目的音源の方位推定が可能となる。
Figure 0005692006
低SNRの場合、すなわち、高雑音環境下の場合、式(9)の近似式が成立しない。従って、式(11)に示されるように、雑音成分の到来位相差等(式(11)のリージョン項)がCSP係数列に影響を与える。
Figure 0005692006
式(12)、式(13)に示すように、CSP係数を最大にするインデックスdを探索し、そのインデックスdを変換することによって、音源の方位が算出される。
Figure 0005692006
Figure 0005692006
上記のように、CSP法では、振幅情報を正規化して、位相差情報だけで算出している。さらに、非特許文献1に記載の方法では、ウィーナーフィルタ(Wiener Fileter)を用いている。このような音源方向の推定では、より精度を高くすることが望まれている。例えば、マイクに対して、雑音源や目的音源が相対的に移動している場合に、より正確に方向を推定することが望まれている。
本発明は、上記の問題点に鑑みてなされたものであり、正確に音源を推定することができる音源推定装置、音源推定方法、及び音源推定プログラムを提供することを目的とする。
本発明の一態様にかかる音源推定装置は、少なくとも2つのマイクによって取得された観測信号を用いて、音源の方向を推定する音源推定装置であって、前記観測信号に含まれる雑音成分を推定する雑音推定部と、前記雑音推定部で推定された雑音成分に基づいて、マスクを生成するマスク生成部と、前記マスク生成部で生成されたマスクの信頼度を算出する信頼度算出部と、前記マスク、及び前記マスクの信頼度によって補正されたCSP係数を算出するCSP係数算出部と、補正された前記CSP係数に基づいて、音源の方向を推定する推定部と、を備えたものである。このようにマスクとマスクの信頼度を導入することで、正確に音源を推定することができる。
上記の音源推定装置において、補正された前記CSP係数を最大とするインデックスに基づいて、2つの前記マイクに音が到来する到来時間差を算出し、前記到来時間差に基づいて、前記推定部が音源の方向を推定し、前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定してもよい。このようにすることで、より正確に音源を推定することができる。
上記の音源推定装置において、前記マスクが、周波数に応じた離散的な値であり、2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されていてもよい。
上記の音源推定装置において、前記逆フーリエ変換した値に前記信頼度を乗じることによって、補正された前記CSP係数が算出されていてもよい。
本発明の一態様にかかる移動体は、上記の音源推定装置を搭載した移動体であって、前記移動体の動作状態に応じた車両信号に基づいて、前記雑音推定部が雑音推定を行うことを特徴とするものである。このようにすることで、適切なタイミングで推定された雑音成分を用いて、音源を推定することができる。
上記の移動体において、前記移動体がマスクを予め記憶したマスク記憶部と、前記移動体の動作状態に応じた車両信号に基づいて、前記マスク記憶部に記憶されたマスクと、前記マスク生成部で生成されたマスクのいずれかを選択するマスク選択部と、をさらに備えていてもよい。このようにすることで、適切なマスクを用いて音源を推定することができる。
本発明の一態様にかかる音源推定方法は、少なくとも2つのマイクによって取得された観測信号を用いて、音源の方向を推定する音源推定方法であって、前記観測信号に含まれる雑音成分を推定するステップと、前記雑音成分に基づいて、マスクを生成するステップと、前記マスクの信頼度を算出するステップと、前記マスク、及び前記マスクの前記信頼度によって補正されたCSP係数を算出するステップと、補正された前記CSP係数に基づいて、音源の方向を推定するステップと、を備えたものである。このようにマスクとマスクの信頼度を導入することで、正確に音源を推定することができる。
上記の音源推定方法において、補正された前記CSP係数を最大とするインデックスに基づいて、2つの前記マイクに音が到来する到来時間差を算出し、前記到来時間差に基づいて、前記推定部が音源の方向を推定し、前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定してもよい。このようにすることで、より正確に音源を推定することができる。
上記の音源推定方法において、前記マスクが、周波数に応じた離散的な値であり、2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されていてもよい。
上記の音源推定方法において、前記逆フーリエ変換した値に前記信頼度を乗じることによって、補正された前記CSP係数が算出されていてもよい。
上記の音源推定プログラムは、少なくとも2つのマイクによって取得された観測信号を用いて、音源の方向を推定する音源推定プログラムであって、コンピュータに対して、前記観測信号に含まれる雑音成分を推定するステップと、前記雑音成分に基づいて、マスクを生成するステップと、前記マスクの信頼度を算出するステップと、前記マスク、及び前記マスクの前記信頼度によって補正されたCSP係数を算出するステップと、補正された前記CSP係数に基づいて、音源の方向を推定するステップと、を実行させるものである。このようにマスクとマスクの信頼度を導入することで、正確に音源を推定することができる。
上記の音源推定プログラムは、コンピュータに対して、補正された前記CSP係数を最大とするインデックスに基づいて、2つの前記マイクに音が到来する到来時間差を算出させ、前記到来時間差に基づいて、前記推定部が音源の方向を推定させ、前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定させてもよい。このようにすることで、より正確に音源を推定することができる。
上記の音源推定プログラムは、前記マスクが、周波数に応じた離散的な値であり、
2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されていてもよい。
上記の音源推定プログラムは、前記逆フーリエ変換した値に前記信頼度を乗じることによって、補正された前記CSP係数が算出されていてもよい。
本発明によれば、正確に音源を推定することができる音源推定装置、音源推定方法、音源推定プログラム、及びそれを用いた移動体を提供することができる。
実施の形態にかかる音源推定装置の構成を示すブロック図である。 音源推定装置におけるフローを示すブロック図である。 実施の形態にかかる音源推定装置の応用例を示すブロック図である。 CSP法による音源推定を説明する図である。
以下、本発明に係る音源推定装置の実施形態を、図面に基づいて詳細に説明する。但し、本発明が以下の実施形態に限定される訳ではない。また、説明を明確にするため、以下の記載及び図面は、適宜、簡略化されている。
まず、本発明の実施の形態にかかる音源推定装置について、図1を用いて説明する。図1は、音源推定装置のシステム構成を示すブロック図である。本実施の形態に係る音源推定装置は、音源の方向を推定している。さらに、推定された音源の方向に目的とする音源が存在するか否かを判定している。例えば、本実施の形態にかかる音源推定装置を、車両に搭載する。そして、音源である他の車両の方向、並びに、他の車両が近くに存在しているか否かを検出している。このようにすることで、接近車両の有無、及びその方向を検出することができる。これにより、車両が接近していることを効果的に報知することができ、交通事故の防止に資することができる。
図1に示すように、音源推定装置は、マイク11、マイク12、マイクアンプ13、マイクアンプ14、AD変換器15、及びCPU16を備えている。図1においては、二つのマイク11、12しか示されていないが、マイクの数は特に限定されるものではない。マイクの数は複数であればよく、例えば、3以上であってもよい。例えば、複数のマイクがアレイ状に配列されたマイクロホンアレーを用いることができる。そして、多数のマイクのうちの2つのマイクに対して、以下の処理を行う。こうすることで、音源の方向の推定が可能とある。さらに、一対のマイクを複数用意して、それぞれに対して以下の処理を行うことで、音源の位置を特定することもできる。
マイク11とマイク12とは、距離Dだけ隔てて配置されている。マイク11、12がθ(t)の方向からの音を検出したとする。すなわち、図1では、目的音源がθ(t)の方向にあるとしている。マイク11、12は、検出した音に応じた観測信号を出力する。
マイクアンプ13、14は、マイク11、マイク12からの観測信号をそれぞれ増幅して、A/D変換器15に出力する。AD変換器15は、入力された観測信号をA/D変換する。A/D変換器15から出力されたデジタルの観測信号は、CPU(Central Processing Unit)に入力される。CPU16は、A/D変換器15からの観測信号に対して、音源方向を推定するための演算処理を行う。CPU16は、図示しないROM(Read Only Memory)、RAM(Random Access Memory)に記憶されているプログラムやパラメータ等を参照して、処理を行う。
次に、CPU16における処理ブロックの構成について図2を用いて説明する。図2は、CPU12の構成を示すブロック図である。CPU16は、A/D変換器15からの観測信号に対して、ブロックに従った処理を行う。CPU16は、短時間DFT部21と、短時間DFT部22と、雑音推定器23と、マスク生成部24と、Reliability生成部25と、時間周波数補正型のCSP係数算出部26と、時間差推定部27と、方位推定部28と、を備えている。
マイク11によって観測される観測信号を観測信号x(t)とし、マイク12によって観測される信号を観測信号x(t)としている。短時間DFT部21、22では、観測信号x、x(t)を短時間離散フーリエ変換する。例えば、所定時間の観測信号をバッファやメモリに記憶して、その観測信号を、複数のフレームに分割する。例えば、時間領域において、隣接フレームが半分重なるように、ハーフシフトによってフレーム分割している。また、窓関数を用いて、フレーム分割しても良い。さらに、フレーム分割された観測信号を離散フーリエ変換する。このようにすることで、時間領域の観測信号x(t)、x(t)がそれぞれ時間−周波数領域の観測信号X(ω,t)、X(ω,t)に変換される。短時間DFT部21、22は、観測信号X(ω,t)、X(ω,t)を雑音推定器23、マスク生成部24、CSP係数算出部26に出力する
雑音推定器23は、観測信号X(ω,t)、X(ω,t)を用いて、雑音を推定する。例えば、過去時間における時間平均やNullbeamformer等のマイクロホンアレイによる推定方法を用いることができる。具体的には、以下の式(14)を用いて雑音推定することができる。なお、式(14)において、Sはフレームの分割数である。
Figure 0005692006
雑音推定器23は、推定した雑音N(ω,t)をマスク生成部24に出力する。マスク生成部24は、周波数に応じてCSP係数をマスキングするマスクM(ω,t)を生成する。マスク生成部24は、雑音N(ω,t)、及び観測信号X(ω,t)、X(ω,t)を用いて、マスクM(ω,t)を算出する。例えば、式(9)で示した近似式の成立/不成立は、到来した音の各周波数におけるSN比(SNR)で決まる。このため、SN比を推定して、近似式が成立するか否かを判定する。近似式が成立しない周波数帯域、すなわち雑音が高い帯域に対しては、マスキング処理を行うための処理を導入する。こうすることで、雑音成分の影響が小さい帯域だけでCSP係数を算出することが可能となる。これにより、低SNR環境(高雑音環境下)においても、頑健に動作する音源方向推定が可能となる。
例えば、雑音N(ω,t)をしきい値と比較して、その比較結果に応じてM(ω,t)を設定すればよい。具体的には、雑音N(ω,t)の値がしきい値よりも大きい場合、M(ω,t)=0とし、しきい値よりも小さい場合、M(ω,t)=0とする。このように、マスクM(ω,t)は周波数に応じた離散的な値となっている。マスク生成部24で生成したマスクM(ω,t)は、Reliability生成部25と時間周波数補正型のCSP係数算出部26とに入力される。
Reliability生成部25はマスクM(ω,t)の信頼度を示すReliability(t)を算出する。上記のように、雑音N(ω,t)に応じて、M(ω,t)の値が変化している。従って、M(ω,t)=1となる周波数が多いほど、雑音が少なく、信頼度が高くなると考えられる。一方、M(ω,t)=0となる周波数が多いほど、雑音が多く、信頼度が低くなると考えられる。このような場合、観測信号中に含まれる目的音源からの信号成分が少ないため、推定された目的音源の方向の信頼性が低くなる。従って、マスクM(ω,t)の信頼度を示すReliability(t)を導入することで、より正確に音源の方向を推定することができる。すなわち、雑音成分と信号成分とに基づいて、マスクM(ω,t)とReliability(t)とを用いることで、時間―周波数補正を行ったCSP係数を算出することができる。
例えば、Reliability(t)が、以下の式(15)を用いて求めることができる。
Figure 0005692006
なお、Ωは、ωのカウント数である。すなわち、Ω個のωに対するM(ω,t)が算出されているものとしている。例えば、Ω=100の場合、すなわち、ある時間において100個のM(ω,t)が算出された場合、100個中10個のM(ω,t)が1であり、90個のM(ω,t)が0であったとする。このときのReliability(t)は0.1(=10/100)となる。この場合、信頼度が低いことになる。一方、Ω=100の場合で、100個中100個のM(ω,t)が100であり、0個のM(ω,t)が0であったとする。このときのReliability(t)は1(=100/100)となる。この場合、信頼度が高いことになる。
Reliability生成部25は、Reliability(t)を時間−周波数補正型のCSP係数算出部26に出力する。さらに、CSP係数算出部26には、短時間DFT部21、22からの観測信号X(ω,t)、観測信号X(ω,t)が入力されている。
CSP係数算出部26は、Reliability(t)、観測信号X(ω,t)、観測信号X(ω,t)に基づいて、CSP係数CSP(ω,t)を算出する。CSP(ω,t)は、例えば、式(16)を用いて求めることができる。
Figure 0005692006
式(16)に示されるように、CSP係数算出部26は、観測信号X(ω,t)、X(ω,t)をその振幅で正規化した相互相関関数とマスクM(ω,t)との積に対して逆離散フーリエ変換(IDFT)を実行している。そして、CSP係数算出部26は逆離散フーリエ変換した値に、Reliability(t)を乗じることで、CSP係数を求めている。換言すると、Reliability(t)がCSP係数の重み付けの値となっている。このようにすることで、時間及び周波数に対する補正が行われたCSP係数CSPを求めることができる。
CSP係数算出部26は、算出したCSP係数を時間差推定部27に出力する。時間差推定部27は、CSP係数から到来時間差τ(t)を推定する。これにより、2つのマイク11、12に到来する音の時間差を求めることができる。例えば、到来時間差τ(t)は、式(17)を用いて算出することができる。
Figure 0005692006
なお、sampling frequencyは、サンプリング周波数である。式(17)ではCSP係数CSP(d,t)を最大とするインデックスdを算出している。そして、このインデックスdをサンプリング周波数で除することによって、到来時間差τ(t)が算出される。このように、CSP係数、すなわち、振幅で正規化した観測信号X(ω,t)、X(ω,t)の相互相関関数に基づいて、到来時間差τ(t)を算出している。CSP法では、振幅情報を正規化して、位相差スペクトル情報を元にCSP係数を算出している。従って、CSP法は、他の音源方位推定技術よりも残響の影響に対して頑健な性質を持っている。
方位推定部28は到来時間差τ(t)に基づいて、マイク11、12に対して音が到来した方位θ(t)を推定する。これにより、音源の方向を推定することができる。例えば、式(18)を用いて方位θ(t)を推定することができる。なお、Cは音速である。
Figure 0005692006
判定部29は、CSP係数CSPの値に応じて方位θ(t)に、目的とする目的音源が存在しているかいかなを判定する。例えば、目的音源が他の車両であったとする。この場合、CSP係数が最大となるインデックスdの時のCSP係数CSPの値に応じて、方位θ(t)に他の車両が存在しているか否かを判定している。CSP係数の最大値がしきい値よりも大きい時は、雑音成分が低く、信頼度が高い。従って、θ(t)の方向に他の車両が存在していると判定する。一方、CSP係数の最大値がしきい値よりも小さい時は、雑音成分が高く、信頼度が低い。従って、θ(t)の方向に他の車両が存在していないと判定する。
このように、CSP係数CSPとしきい値とを比較することで、方位θ(t)に音源があるか否かを推定することができる。CSP係数CSPと比較するしきい値は、実験結果等に応じて、ユーザが予め設定してもよい。CSP係数CSPの最大値に応じて、方位θ(t)に目的音源があるか否かを検出している。よって、信頼性を向上することができる。
このようなCSP係数に基づく判定手法は、例えば、「複数車両に対応したマイクロホンアレーによる接近車両検出システムの構築」 坂野秀樹 他著 電子情報通信学会技術研究報告;巻号:2011−3−18, 110, 471 ; pp13−16に記載された手法を用いることができる。
上記の音源推定方法を用いることで、目的音源の方向をより正確に推定することが可能になる。マスクM(ω,t)を導入することで、雑音成分の高い周波数の影響を低減することができる。さらに、マスクM(ω,t)の信頼性を示すReliability(t)を導入することで、信頼性の低いタイミングにおいて方向が推定されるのを防ぐことができる。すなわち、信号成分の高いタイミングでの推定が可能となる。これにより、目的となる音源の方向をより正確に推定することができる。
上記の説明では、マスクM(ω,t)をバイナリ、すなわち、(0,1)の2値で設定したが、マスクM(ω,t)は(0,1)の2値に限られるものではない。すなわち、マスクM(ω,t)の値を、段階的、あるいは連続的に設定してよい。例えば、雑音N(ω,t)を複数のしきい値と比較して、マスクM(ω,t)を0から1の間で多段階に算出してもよい。さらには、マスクM(ω,t)を0から1の間の連続値として算出してもよい。具体的には、以下の式(19)または式(20)で示されたウィーナーフィルタを用いて、マスクM(ω,t)を算出することができる。
Figure 0005692006
Figure 0005692006
なお、γは、実験結果等に応じて予め設定しておくことができるパラメータであり、2あるいは2以外の実数とすることができる。こうすることで、擬似パラメトリックウィーナーフィルタを用いて、マスクを生成することができる。同様に、βも実験結果等に応じて予め設定しておくことができるパラメータであり、1あるいは1以外の実数とすることができる。このように、雑音成分の高い周波数の影響を排除又は抑制することができるマスクM(ω,t)を導入することができる。またマスクM(ω,t)の値を連続値として設定した場合でも、上記の式(15)を用いて、Reliability(t)を算出することができる。
上記の音源推定装置は、移動体への搭載に好適である。自動車、移動ロボット、オートバイなどの移動体では、自己が移動しながら、音源方向を推定することになる。さらには、他の移動体が移動している公道等の環境下では、音源である他の移動体も移動することになる。このような場合、目的音源に対して移動体が相対的に移動しながら、音源推定装置が音源方向の推定を行う。目的音源と音源推定装置が相対的に移動している環境下において、上記の音源推定処理を行う。上記の音源推定処理では、時間補正が行われたCSP係数を用いているため、より正確に方向を推定することができる。すなわち、Reliability(t)を導入して、信頼度の高いタイミングでの観測信号から音源方向を推定しているため、推定精度を向上することができる。
以下に、音源推定装置を移動体である車両に搭載した例について、図3を用いて説明する。図3は、音源推定装置を搭載した車両の要部を示すブロック図である。車両30は、車両信号取得部31と、雑音推定器起動部32を有している。さらに、マスク記憶部41と、マスク選択部42が、図2で示した音源推定装置に追加されている。なお、図2で示した、短時間DFT部21、短時間DFT部22、時間差推定部27、方位推定部28、及び判定部29については、同様の処理を行うため、図3では図示を省略している。図3に示す構成では、下記に示すように、マスクM(ω,t)を動的に生成している。
車両信号取得部31は、車両30に関する車両信号を取得する。車両信号取得部31は例えば、車両30の制御信号や操作信号を車両信号として取得する。具体的には、車両30が自動車であるとすると、車両30に設けられたワイパーやヘッドライトのオンオフを車両信号として取得する。さらには、車両30の走行速度や、ブレーキペダルやアクセルペダルの踏み込み量、地図情報やGPSからの位置情報を車両信号としてもよい。また、カメラやレーダからの他のセンサからの認識結果を車両信号としてもよい。車両信号は、車両30の動作状態に関する情報であればよい。車両信号取得部31は、取得した車両信号を、雑音推定器起動部32と、マスク選択部42に出力する。
雑音推定器起動部32は、車両30の動作状態に応じた車両信号に基づいて、雑音推定器23を起動させる。雑音推定器23は、雑音推定器起動部32からの指示によって、雑音推定を開始する。環境中の雑音が変化した場合、雑音推定器起動部32は雑音推定器23を起動させる。例えば、車速がある速度以下(例えば、20km/h以下)になったタイミングで、雑音推定器起動部32が雑音推定器23を起動してもよい。これにより、車速が一定速度以下になったタイミングで、雑音推定が行われる。あるいは、ブレーキペダルやアクセルペダルに踏み込み量に基づいて、雑音推定器起動部32が雑音推定器23を起動してもよい。さらには、地図情報とGPSからの位置情報に基づいて、雑音推定器起動部32が雑音推定器23を起動してもよい。具体的には、交通事故が多い交差点等の地点に車両30が近づいた場合、その直前での雑音推定によって、マスクを生成するようにしてもよい。さらには、カメラやレーザなどの他のセンサの認識結果から、雑音推定器起動部32が雑音推定器23を起動してもよい。このように、車両30の周囲の環境が変わったタイミングや、車両30の動作が変化したタイミングで、雑音推定が行われるよう、雑音推定器起動部32が雑音推定器23を起動させる。
マスク記憶部41は、予め設定された一つ以上のマスクM(ω,t)を記憶している。例えば、商品開発時に実験等によってマスクを求めておき、商品製造時にマスク記憶部41に予め記憶させておく。さらに、マスク記憶部41は、マスク生成部24が生成したマスクM(ω,t)を記憶する。具体的は、ワイパーが動作している状態の雑音成分を予め集音し、その集音結果に基づいてマスクを予め生成しておく。あるいは、ある速度で走行している車両のエンジン音を集音して、その集音結果に基づいてマスクを予め生成しておく。このようなマスクをマスク記憶部41に予め記憶させておく。
マスク選択部42は、状況に応じて、以下の(a)〜(c)を選択する。
(a)その場で生成したマスク
(b)マスク記憶部41に商品製造時に予め記憶されているマスク
(c)マスクを使用しない(すなわち、M(ω,t)の全要素が常時1となるマスク)
(a)のマスクは、上述したように、その場で取得した観測信号X(ω,t)、観測信号Xと、それらから推定された雑音N(ω、t)を用いて生成される。(a)のマスクは、現在の環境や車両30の動作状態に応じたマスクとなっている。一方、マスク記憶部41は、その場の観測信号によらないマスクを予め記憶している。
マスク選択部42は、車両信号に基づいて、上記の(a)〜(c)のマスクのいずれか1つを選択する。例えば、ワイパースイッチがオンの場合とオフの場合とで、雨天時のマスクと、晴天時のマスクを切り替える。具体的には、雨天時のマスクは(b)のマスクとし、晴天時のマスクは(a)のマスクとすることができる。さらに、ヘッドライトがオンの場合と、オフの場合とで、夜用のマスクと、日中用のマスクとを切り替える。地図情報とGPSからの位置情報から、市街地や郊外等の場所の特性に応じたマスクを切り替えるようにしてもよい。このように、マスク選択部42は、車両30の動作状況に応じて最適なマスクを選択する。
上述したように、車両30の状況を示す車両情報に基づいて、雑音推定器23を起動させている。従って、車両30の状況変化に応じて、雑音モデル、すなわち、マスクM(ω,t)を動的に生成することができる。車両30の周囲の雑音の態様が刻々と変化する場合でも適切なタイミングでマスクM(ω,t)を生成することができる。これにより、音源の方向を正確に推定することができる。さらに、マスク記憶部41に記憶されたマスクと、その場で生成したマスクを車両信号に応じて使い分けている。これにより、より正確に音源を推定することができるようになる。車両30に音源推定装置を搭載することで、交差点等において、死角となる横道からの接近車両の認知が可能となる。
なお、上記の説明では、音源推定装置が自動車である車両30に搭載されている例について説明したが、音源推定装置を搭載する移動体は特に限定されるものではない。例えば、オートバイ、移動ロボット等に音源推定装置を搭載してもよい。移動ロボットに音源推定装置を搭載することで、ユーザの声の方向に振り返ったり、異常音を検知することも可能になる。
上述した音源推定処理は、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、若しくはCPU(Central Processing Unit)又はこれらの組み合わせを含むコンピュータにプログラムを実行させることによって実現してもよい。
上述の例において、音源推定処理をコンピュータに行わせるための命令群を含むプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
11 マイク
12 マイク
13 マイクアンプ
14 マイクアンプ
15 A/D変換器
16 CPU
21 短時間DFT部
22 短時間DFT部
23 雑音推定器
24 マスク生成部
25 Reliability生成部
26 CSP係数算出部
27 時間差推定部
28 方位推定部
29 判定部
30 車両
31 車両信号取得部
32 雑音推定器起動部
41 マスク記憶部
42 マスク選択部

Claims (14)

  1. 少なくとも2つのマイクによって取得された観測信号を用いて、音源の方向を推定する音源推定装置であって、
    前記観測信号に含まれる雑音成分を推定する雑音推定部と、
    前記雑音推定部で推定された雑音成分に基づいて、周波数に応じてCSP係数をマスキングするマスクを生成するマスク生成部と、
    前記マスク生成部で生成されたマスクに対して、推定する音源の方向の信頼性を示すマスクの信頼度を算出する信頼度算出部と、
    前記マスク、及び前記マスクの信頼度によって前記CSP係数を補正して、補正されたCSP係数を算出するCSP係数算出部と、
    補正された前記CSP係数に基づいて、音源の方向を推定する推定部と、を備えた音源推定装置。
  2. 補正された前記CSP係数を最大とするインデックスに基づいて、2つの前記マイクに音が到来する到来時間差を算出し、
    前記到来時間差に基づいて、前記推定部が音源の方向を推定し、
    前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定する請求項1に記載の音源推定装置。
  3. 前記マスクが、周波数に応じた離散的な値であり、
    2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されることを特徴とする請求項1、又は2に記載の音源推定装置。
  4. 前記逆フーリエ変換した値に前記信頼度を乗じることによって、補正された前記CSP係数が算出される請求項3に記載の音源推定装置。
  5. 請求項1〜4のいずれか1項に音源推定装置を搭載した移動体であって、
    前記移動体の動作状態に応じた車両信号に基づいて、前記雑音推定部が雑音推定を行うことを特徴とする移動体。
  6. 前記移動体がマスクを予め記憶したマスク記憶部と、
    前記移動体の動作状態に応じた車両信号に基づいて、前記マスク記憶部に記憶されたマスクと、前記マスク生成部で生成されたマスクのいずれかを選択するマスク選択部と、をさらに備える請求項5に記載の移動体。
  7. 少なくとも2つのマイクによって取得された観測信号を用いて、音源の方向を推定する音源推定方法であって、
    前記観測信号に含まれる雑音成分を推定するステップと、
    前記雑音成分に基づいて、周波数に応じてCSP係数をマスキングするマスクを生成するステップと、
    生成された前記マスクに対して、推定する音源の方向の信頼性を示すマスクの信頼度を算出するステップと、
    前記マスク、及び前記マスクの前記信頼度によって前記CSP係数を補正して、補正されたCSP係数を算出するステップと、
    補正された前記CSP係数に基づいて、音源の方向を推定するステップと、を備えた音源推定方法。
  8. 補正された前記CSP係数を最大とするインデックスに基づいて、2つの前記マイクに音が到来する到来時間差を算出し、
    前記推定するステップでは、前記到来時間差に基づいて、音源の方向を推定し、
    前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定する請求項7に記載の音源推定方法。
  9. 前記マスクが、周波数に応じた離散的な値であり、
    2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されることを特徴とする請求項7、又は8に記載の音源推定方法。
  10. 前記逆フーリエ変換した値に前記信頼度を乗じることによって、補正された前記CSP係数が算出される請求項9に記載の音源推定方法。
  11. 少なくとも2つのマイクによって取得された観測信号を用いて、音源の方向を推定する音源推定プログラムであって、
    コンピュータに対して、
    前記観測信号に含まれる雑音成分を推定するステップと、
    前記雑音成分に基づいて、周波数に応じてCSP係数をマスキングするマスクを生成するステップと、
    生成された前記マスクに対して、推定する音源の方向の信頼性を示すマスクの信頼度を算出するステップと、
    前記マスク、及び前記マスクの前記信頼度によって前記CSP係数を補正して、補正されたCSP係数を算出するステップと、
    補正された前記CSP係数に基づいて、音源の方向を推定するステップと、
    を実行させる音源推定プログラム。
  12. コンピュータに対して、
    補正された前記CSP係数を最大とするインデックスに基づいて、2つの前記マイクに音が到来する到来時間差を算出させ、
    前記推定するステップでは、前記到来時間差に基づいて、音源の方向を推定させ、
    前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定させる請求項11に記載の音源推定プログラム。
  13. 前記マスクが、周波数に応じた離散的な値であり、
    2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されることを特徴とする請求項11、又は12に記載の音源推定プログラム。
  14. 前記逆フーリエ変換した値に前記信頼度を乗じることによって、補正された前記CSP係数が算出される請求項13に記載の音源推定プログラム。
JP2011241610A 2011-11-02 2011-11-02 音源推定装置、方法、プログラム、及び移動体 Active JP5692006B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011241610A JP5692006B2 (ja) 2011-11-02 2011-11-02 音源推定装置、方法、プログラム、及び移動体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011241610A JP5692006B2 (ja) 2011-11-02 2011-11-02 音源推定装置、方法、プログラム、及び移動体

Publications (2)

Publication Number Publication Date
JP2013097273A JP2013097273A (ja) 2013-05-20
JP5692006B2 true JP5692006B2 (ja) 2015-04-01

Family

ID=48619237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011241610A Active JP5692006B2 (ja) 2011-11-02 2011-11-02 音源推定装置、方法、プログラム、及び移動体

Country Status (1)

Country Link
JP (1) JP5692006B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015102486A (ja) * 2013-11-27 2015-06-04 積水化学工業株式会社 欠陥位置の特定方法
CN107424616B (zh) * 2017-08-21 2020-09-11 广东工业大学 一种相位谱去除掩模的方法与装置
KR102088222B1 (ko) * 2018-01-25 2020-03-16 서강대학교 산학협력단 분산도 마스크를 이용한 음원 국지화 방법 및 음원 국지화 장치
CN112262433B (zh) * 2018-04-05 2024-03-01 弗劳恩霍夫应用研究促进协会 用于估计通道间时间差的装置、方法或计算机程序
WO2020110228A1 (ja) * 2018-11-28 2020-06-04 三菱電機株式会社 情報処理装置、プログラム及び情報処理方法
CN114173273B (zh) * 2021-12-27 2024-02-13 科大讯飞股份有限公司 麦克风阵列检测方法、相关设备及可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2985982B2 (ja) * 1991-09-27 1999-12-06 日本電信電話株式会社 音源方向推定方法
US8073690B2 (en) * 2004-12-03 2011-12-06 Honda Motor Co., Ltd. Speech recognition apparatus and method recognizing a speech from sound signals collected from outside
WO2008146565A1 (ja) * 2007-05-30 2008-12-04 Nec Corporation 音源方向検出方法、装置及びプログラム
JP5107956B2 (ja) * 2009-03-31 2012-12-26 Kddi株式会社 雑音抑圧方法、装置およびプログラム
JP4906908B2 (ja) * 2009-11-30 2012-03-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 目的音声抽出方法、目的音声抽出装置、及び目的音声抽出プログラム
JP2011139409A (ja) * 2010-01-04 2011-07-14 Mitsunori Mizumachi 音響信号処理装置、音響信号処理方法、及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2013097273A (ja) 2013-05-20

Similar Documents

Publication Publication Date Title
JP5692006B2 (ja) 音源推定装置、方法、プログラム、及び移動体
JP6001248B2 (ja) 音源検出装置
US20150117652A1 (en) Sound source detection device, noise model generation device, noise reduction device, sound source direction estimation device, approaching vehicle detection device and noise reduction method
US10580428B2 (en) Audio noise estimation and filtering
EP2755204B1 (en) Noise suppression device and method
US8504117B2 (en) De-noising method for multi-microphone audio equipment, in particular for a “hands free” telephony system
EP3589968A1 (en) Systems and methods for detection of a target sound
CN109509465B (zh) 语音信号的处理方法、组件、设备及介质
US20120221341A1 (en) Motor-vehicle voice-control system and microphone-selecting method therefor
US9713981B2 (en) Object detection device and object detection method
KR100877914B1 (ko) 음원위치-지연시간차 상관관계 역 추정에 의한 음원 방향검지 시스템 및 방법
KR20110057661A (ko) 이동체 및 그 제어방법
JP2010232862A (ja) 音声処理装置、音声処理方法、及び、プログラム
JP6686895B2 (ja) 音声処理装置、音声処理方法、並びにプログラム
KR20110060183A (ko) 로봇 플랫폼에 의해 발생한 반사파 제거 신호처리 장치 및 방법
JP6048596B2 (ja) 集音装置、集音装置の入力信号補正方法および移動機器情報システム
US20190250240A1 (en) Correlation function generation device, correlation function generation method, correlation function generation program, and wave source direction estimation device
KR20140015893A (ko) 음원 위치 추정 장치 및 방법
US20190219679A1 (en) Device for estimating speed of moving sound source, speed monitoring system, method for estimating speed of moving sound source, and storage medium in which program for estimating speed of moving sound source is stored
JP5982900B2 (ja) 雑音抑制装置、マイクロホンアレイ装置、雑音抑制方法、及びプログラム
JP2012149906A (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
KR101269189B1 (ko) 음원 추정 장치 및 그 방법
JP4065770B2 (ja) 移動体検出装置
JP6433630B2 (ja) 雑音除去装置、エコーキャンセリング装置、異音検出装置および雑音除去方法
JP2003156387A (ja) 異常音検出装置および異常音検出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150119

R151 Written notification of patent or utility model registration

Ref document number: 5692006

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151