JP2013097273A - Sound source estimation device, method, and program and moving body - Google Patents
Sound source estimation device, method, and program and moving body Download PDFInfo
- Publication number
- JP2013097273A JP2013097273A JP2011241610A JP2011241610A JP2013097273A JP 2013097273 A JP2013097273 A JP 2013097273A JP 2011241610 A JP2011241610 A JP 2011241610A JP 2011241610 A JP2011241610 A JP 2011241610A JP 2013097273 A JP2013097273 A JP 2013097273A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- mask
- corrected
- csp coefficient
- reliability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、音源推定装置、音源推定方法、音源推定プログラム、及び移動体に関し、特に詳しくは音源を推定する音源推定装置、音源推定方法、及び音源推定プログラム、並びに、該音源推定装置を用いた移動体に関する。 The present invention relates to a sound source estimation device, a sound source estimation method, a sound source estimation program, and a moving object, and particularly uses a sound source estimation device, a sound source estimation method, a sound source estimation program, and a sound source estimation device for estimating a sound source. Related to moving objects.
非特許文献1には、CSP法(Cross−power Spectrum Phase analysis:白色化相互相関)を用いた技術が開示されている。CSP法は、GCC−PHAT(Generalized Cross−Correlation PHAse Transform)アルゴリズムとも呼ばれ、音源方向の推定に用いられている
Non-Patent
以下、CSP法の処理について説明する。図4はCSP法の処理フローを示すブロック図である。短時間DFT部121は、2つのマイクロフォン(以下、マイク)が観測した観測信号x1(t)、x2(t)に対して、短時間DFT(Discret Fourier Transform)処理を行う。これにより、時間領域の観測信号x1(t)、x2(t)がそれぞれ時間−周波数領域の観測信号X1(ω,t)、X2(ω,t)に変換される。
Hereinafter, processing of the CSP method will be described. FIG. 4 is a block diagram showing a processing flow of the CSP method. The short-
CPS係数算出部126は、観測信号X1(ω,t)、X2(ω,t)からCSP係数CSP(d,t)を算出する。なお、CSP係数とは、観測信号X1(ω,t)、X2(ω,t)をその振幅で正規化した相互相関関数である。そして、時間差推定部127は、CSP係数を最大にするインデックスdに基づいて、到来時間差τを推定する。この到来時間差τが第1のマイクと第2のマイクで観測した音の到来時間差に対応する。推定された時間差に基づいて、方位推定部128が方位θを推定している。
The CPS
ところで、CSP法のアルゴリズムには、音源数は一つであるという仮定がある。そして、CSP法では、この仮定に基づいて離散フーリエ変換で得られた全帯域信号を用いて音源方位推定を行っている。まず、観測信号X1(ω,t)、X2(ω,t)は以下の式(1)、式(2)で表すことができる。 Incidentally, the CSP algorithm has an assumption that the number of sound sources is one. In the CSP method, sound source azimuth estimation is performed using a full-band signal obtained by discrete Fourier transform based on this assumption. First, the observation signals X 1 (ω, t) and X 2 (ω, t) can be expressed by the following equations (1) and (2).
ωは周波数であり、tは時間である。X1sは目的音源からの音を第1のマイクで取得した時の観測信号、X2sは目的音源からの音を第2のマイクで取得した時の観測信号である。t1sは目的音源と第1のマイクとの距離に応じた時間であり、t2sは目的音源と第2のマイクの距離に対応する時間である。τ(t)は、第1のマイクと第2のマイクとの間の音の到来時間差である。音源数が1つであると仮定すると、CSP係数は式(3)で表せる。 ω is frequency and t is time. X 1s is an observation signal when the sound from the target sound source is acquired by the first microphone, and X 2s is an observation signal when the sound from the target sound source is acquired by the second microphone. t 1s is a time corresponding to the distance between the target sound source and the first microphone, and t 2s is a time corresponding to the distance between the target sound source and the second microphone. τ (t) is the difference in arrival time of sound between the first microphone and the second microphone. Assuming that the number of sound sources is one, the CSP coefficient can be expressed by equation (3).
なお、式(3)において、*は共役を示している。しかしながら、実環境では、音源数は必ずしも一つではなく、環境雑音や干渉音の混入がある。このため、複数音源の混合信号が観測される。この混合信号は、式(4)、式(5)で表すことができる。
式(4)、式(5)において、nは雑音となる音源(雑音源)の数である。また、X1Nnは、n番目の雑音源からの音を第1のマイクで観測した時の観測信号であり、t1Nnはn番目の雑音源と第1のマイクとの距離に対応する時間である。同様に、X2Nnは、n番目の雑音源からの音を第2のマイクで観測した時の観測信号であり、t2Nnはn番目の雑音源と第2のマイクとの距離に応じた時間に対応している。τsは目的音源からの音の到達時間差であり、τNnは、n番目の雑音源からの音の到来時間差である。 In Expressions (4) and (5), n is the number of sound sources (noise sources) that become noise. X 1Nn is an observation signal when sound from the nth noise source is observed by the first microphone, and t 1Nn is a time corresponding to the distance between the nth noise source and the first microphone. is there. Similarly, X 2Nn is an observation signal when sound from the nth noise source is observed by the second microphone, and t 2Nn is a time corresponding to the distance between the nth noise source and the second microphone. It corresponds to. τ s is the arrival time difference of the sound from the target sound source, and τ Nn is the arrival time difference of the sound from the nth noise source.
以下、説明を簡単にするため、目的音源数を1、雑音源数を1とする。この場合、観測信号は以下の式(6)、式(7)で表される。
CSP係数は、以下の式(8)で展開される。
高SNR(Signal Noise Ratio)の場合、すなわち、低雑音環境下の場合、以下の式(9)の近似式が成立する。
従って、CSP係数の算出式は、以下の式(10)のように展開されるため、目的音源の方位推定が可能となる。
低SNRの場合、すなわち、高雑音環境下の場合、式(9)の近似式が成立しない。従って、式(11)に示されるように、雑音成分の到来位相差等(式(11)のリージョン項)がCSP係数列に影響を与える。
式(12)、式(13)に示すように、CSP係数を最大にするインデックスdを探索し、そのインデックスdを変換することによって、音源の方位が算出される。
上記のように、CSP法では、振幅情報を正規化して、位相差情報だけで算出している。さらに、非特許文献1に記載の方法では、ウィーナーフィルタ(Wiener Fileter)を用いている。このような音源方向の推定では、より精度を高くすることが望まれている。例えば、マイクに対して、雑音源や目的音源が相対的に移動している場合に、より正確に方向を推定することが望まれている。
As described above, in the CSP method, amplitude information is normalized, and calculation is performed using only phase difference information. Furthermore, in the method described in Non-Patent
本発明は、上記の問題点に鑑みてなされたものであり、正確に音源を推定することができる音源推定装置、音源推定方法、及び音源推定プログラムを提供することを目的とする。 The present invention has been made in view of the above problems, and an object thereof is to provide a sound source estimation apparatus, a sound source estimation method, and a sound source estimation program that can accurately estimate a sound source.
本発明の一態様にかかる音源推定装置は、少なくとも2つのマイクによって取得された観測信号を用いて、音源の方向を推定する音源推定装置であって、前記観測信号に含まれる雑音成分を推定する雑音推定部と、前記雑音推定部で推定された雑音成分に基づいて、マスクを生成するマスク生成部と、前記マスク生成部で生成されたマスクの信頼度を算出する信頼度算出部と、前記マスク、及び前記マスクの信頼度によって補正されたCSP係数を算出するCSP係数算出部と、補正された前記CSP係数に基づいて、音源の方向を推定する推定部と、を備えたものである。このようにマスクとマスクの信頼度を導入することで、正確に音源を推定することができる。 A sound source estimation apparatus according to an aspect of the present invention is a sound source estimation apparatus that estimates a direction of a sound source using observation signals acquired by at least two microphones, and estimates a noise component included in the observation signal. A noise estimation unit; a mask generation unit that generates a mask based on a noise component estimated by the noise estimation unit; a reliability calculation unit that calculates a reliability of the mask generated by the mask generation unit; A mask, a CSP coefficient calculation unit that calculates a CSP coefficient corrected by the reliability of the mask, and an estimation unit that estimates a direction of a sound source based on the corrected CSP coefficient. Thus, by introducing the mask and the reliability of the mask, the sound source can be accurately estimated.
上記の音源推定装置において、補正された前記CSP係数を最大とするインデックスに基づいて、2つの前記マイクに音が到来する到来時間差を算出し、前記到来時間差に基づいて、前記推定部が音源の方向を推定し、前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定してもよい。このようにすることで、より正確に音源を推定することができる。 In the sound source estimation device, based on the index that maximizes the corrected CSP coefficient, an arrival time difference between the two microphones is calculated, and based on the arrival time difference, the estimation unit determines the sound source A direction may be estimated, and whether or not a target sound source exists in the estimated direction may be determined according to the corrected maximum value of the CSP coefficient. By doing so, the sound source can be estimated more accurately.
上記の音源推定装置において、前記マスクが、周波数に応じた離散的な値であり、2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されていてもよい。 In the sound source estimation apparatus, the mask is a discrete value corresponding to a frequency, and is corrected by performing an inverse Fourier transform on a product of the cross-correlation of observation signals from the two microphones and the mask. The CSP coefficient may be calculated.
上記の音源推定装置において、前記逆フーリエ変換した値に前記信頼度を乗じることによって、補正された前記CSP係数が算出されていてもよい。 In the sound source estimation apparatus, the corrected CSP coefficient may be calculated by multiplying the inverse Fourier transform value by the reliability.
本発明の一態様にかかる移動体は、上記の音源推定装置を搭載した移動体であって、前記移動体の動作状態に応じた車両信号に基づいて、前記雑音推定部が雑音推定を行うことを特徴とするものである。このようにすることで、適切なタイミングで推定された雑音成分を用いて、音源を推定することができる。 A moving object according to an aspect of the present invention is a moving object equipped with the above-described sound source estimation device, and the noise estimation unit performs noise estimation based on a vehicle signal according to an operation state of the moving object. It is characterized by. By doing in this way, a sound source can be estimated using a noise component estimated at an appropriate timing.
上記の移動体において、前記移動体がマスクを予め記憶したマスク記憶部と、前記移動体の動作状態に応じた車両信号に基づいて、前記マスク記憶部に記憶されたマスクと、前記マスク生成部で生成されたマスクのいずれかを選択するマスク選択部と、をさらに備えていてもよい。このようにすることで、適切なマスクを用いて音源を推定することができる。 In the above moving body, a mask storage unit in which the mobile body stores a mask in advance, a mask stored in the mask storage unit based on a vehicle signal corresponding to an operation state of the moving body, and the mask generation unit And a mask selection unit that selects any of the masks generated in (1). By doing in this way, a sound source can be estimated using an appropriate mask.
本発明の一態様にかかる音源推定方法は、少なくとも2つのマイクによって取得された観測信号を用いて、音源の方向を推定する音源推定方法であって、前記観測信号に含まれる雑音成分を推定するステップと、前記雑音成分に基づいて、マスクを生成するステップと、前記マスクの信頼度を算出するステップと、前記マスク、及び前記マスクの前記信頼度によって補正されたCSP係数を算出するステップと、補正された前記CSP係数に基づいて、音源の方向を推定するステップと、を備えたものである。このようにマスクとマスクの信頼度を導入することで、正確に音源を推定することができる。 A sound source estimation method according to an aspect of the present invention is a sound source estimation method that estimates a direction of a sound source using observation signals acquired by at least two microphones, and estimates a noise component included in the observation signal. Generating a mask based on the noise component; calculating a reliability of the mask; calculating a CSP coefficient corrected by the mask and the reliability of the mask; And estimating the direction of the sound source based on the corrected CSP coefficient. Thus, by introducing the mask and the reliability of the mask, the sound source can be accurately estimated.
上記の音源推定方法において、補正された前記CSP係数を最大とするインデックスに基づいて、2つの前記マイクに音が到来する到来時間差を算出し、前記到来時間差に基づいて、前記推定部が音源の方向を推定し、前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定してもよい。このようにすることで、より正確に音源を推定することができる。 In the sound source estimation method, based on the index that maximizes the corrected CSP coefficient, a difference in arrival time when sound arrives at the two microphones is calculated. Based on the difference in arrival time, the estimation unit determines the sound source A direction may be estimated, and whether or not a target sound source exists in the estimated direction may be determined according to the corrected maximum value of the CSP coefficient. By doing so, the sound source can be estimated more accurately.
上記の音源推定方法において、前記マスクが、周波数に応じた離散的な値であり、2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されていてもよい。 In the sound source estimation method, the mask is a discrete value corresponding to a frequency, and is corrected by performing an inverse Fourier transform on a product of a cross-correlation of observation signals from the two microphones and the mask. The CSP coefficient may be calculated.
上記の音源推定方法において、前記逆フーリエ変換した値に前記信頼度を乗じることによって、補正された前記CSP係数が算出されていてもよい。 In the above sound source estimation method, the corrected CSP coefficient may be calculated by multiplying the inverse Fourier transform value by the reliability.
上記の音源推定プログラムは、少なくとも2つのマイクによって取得された観測信号を用いて、音源の方向を推定する音源推定プログラムであって、コンピュータに対して、前記観測信号に含まれる雑音成分を推定するステップと、前記雑音成分に基づいて、マスクを生成するステップと、前記マスクの信頼度を算出するステップと、前記マスク、及び前記マスクの前記信頼度によって補正されたCSP係数を算出するステップと、補正された前記CSP係数に基づいて、音源の方向を推定するステップと、を実行させるものである。このようにマスクとマスクの信頼度を導入することで、正確に音源を推定することができる。 The sound source estimation program is a sound source estimation program that estimates the direction of a sound source using observation signals acquired by at least two microphones, and estimates a noise component included in the observation signal to a computer Generating a mask based on the noise component; calculating a reliability of the mask; calculating a CSP coefficient corrected by the mask and the reliability of the mask; And a step of estimating a direction of a sound source based on the corrected CSP coefficient. Thus, by introducing the mask and the reliability of the mask, the sound source can be accurately estimated.
上記の音源推定プログラムは、コンピュータに対して、補正された前記CSP係数を最大とするインデックスに基づいて、2つの前記マイクに音が到来する到来時間差を算出させ、前記到来時間差に基づいて、前記推定部が音源の方向を推定させ、前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定させてもよい。このようにすることで、より正確に音源を推定することができる。 The sound source estimation program causes a computer to calculate an arrival time difference between two microphones based on an index that maximizes the corrected CSP coefficient, and based on the arrival time difference, The estimation unit may cause the direction of the sound source to be estimated and determine whether or not the target sound source exists in the estimated direction according to the corrected maximum value of the CSP coefficient. By doing so, the sound source can be estimated more accurately.
上記の音源推定プログラムは、前記マスクが、周波数に応じた離散的な値であり、
2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されていてもよい。
In the sound source estimation program, the mask is a discrete value corresponding to a frequency,
The corrected CSP coefficient may be calculated by performing inverse Fourier transform on the product of the cross-correlation of the observation signals from the two microphones and the mask.
上記の音源推定プログラムは、前記逆フーリエ変換した値に前記信頼度を乗じることによって、補正された前記CSP係数が算出されていてもよい。 The sound source estimation program may calculate the corrected CSP coefficient by multiplying the inverse Fourier transform value by the reliability.
本発明によれば、正確に音源を推定することができる音源推定装置、音源推定方法、音源推定プログラム、及びそれを用いた移動体を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the sound source estimation apparatus which can estimate a sound source correctly, a sound source estimation method, a sound source estimation program, and a mobile body using the same can be provided.
以下、本発明に係る音源推定装置の実施形態を、図面に基づいて詳細に説明する。但し、本発明が以下の実施形態に限定される訳ではない。また、説明を明確にするため、以下の記載及び図面は、適宜、簡略化されている。 Hereinafter, embodiments of a sound source estimation apparatus according to the present invention will be described in detail with reference to the drawings. However, the present invention is not limited to the following embodiments. In addition, for clarity of explanation, the following description and drawings are simplified as appropriate.
まず、本発明の実施の形態にかかる音源推定装置について、図1を用いて説明する。図1は、音源推定装置のシステム構成を示すブロック図である。本実施の形態に係る音源推定装置は、音源の方向を推定している。さらに、推定された音源の方向に目的とする音源が存在するか否かを判定している。例えば、本実施の形態にかかる音源推定装置を、車両に搭載する。そして、音源である他の車両の方向、並びに、他の車両が近くに存在しているか否かを検出している。このようにすることで、接近車両の有無、及びその方向を検出することができる。これにより、車両が接近していることを効果的に報知することができ、交通事故の防止に資することができる。 First, a sound source estimation apparatus according to an embodiment of the present invention will be described with reference to FIG. FIG. 1 is a block diagram showing a system configuration of the sound source estimation apparatus. The sound source estimation apparatus according to the present embodiment estimates the direction of the sound source. Further, it is determined whether or not a target sound source exists in the estimated direction of the sound source. For example, the sound source estimation apparatus according to the present embodiment is mounted on a vehicle. And the direction of the other vehicle which is a sound source, and whether other vehicles exist near are detected. By doing in this way, the presence or absence of an approaching vehicle and its direction can be detected. Thereby, it can notify effectively that the vehicle is approaching, and it can contribute to prevention of a traffic accident.
図1に示すように、音源推定装置は、マイク11、マイク12、マイクアンプ13、マイクアンプ14、AD変換器15、及びCPU16を備えている。図1においては、二つのマイク11、12しか示されていないが、マイクの数は特に限定されるものではない。マイクの数は複数であればよく、例えば、3以上であってもよい。例えば、複数のマイクがアレイ状に配列されたマイクロホンアレーを用いることができる。そして、多数のマイクのうちの2つのマイクに対して、以下の処理を行う。こうすることで、音源の方向の推定が可能とある。さらに、一対のマイクを複数用意して、それぞれに対して以下の処理を行うことで、音源の位置を特定することもできる。
As shown in FIG. 1, the sound source estimation apparatus includes a
マイク11とマイク12とは、距離Dだけ隔てて配置されている。マイク11、12がθ(t)の方向からの音を検出したとする。すなわち、図1では、目的音源がθ(t)の方向にあるとしている。マイク11、12は、検出した音に応じた観測信号を出力する。
The
マイクアンプ13、14は、マイク11、マイク12からの観測信号をそれぞれ増幅して、A/D変換器15に出力する。AD変換器15は、入力された観測信号をA/D変換する。A/D変換器15から出力されたデジタルの観測信号は、CPU(Central Processing Unit)に入力される。CPU16は、A/D変換器15からの観測信号に対して、音源方向を推定するための演算処理を行う。CPU16は、図示しないROM(Read Only Memory)、RAM(Random Access Memory)に記憶されているプログラムやパラメータ等を参照して、処理を行う。
The
次に、CPU16における処理ブロックの構成について図2を用いて説明する。図2は、CPU12の構成を示すブロック図である。CPU16は、A/D変換器15からの観測信号に対して、ブロックに従った処理を行う。CPU16は、短時間DFT部21と、短時間DFT部22と、雑音推定器23と、マスク生成部24と、Reliability生成部25と、時間周波数補正型のCSP係数算出部26と、時間差推定部27と、方位推定部28と、を備えている。
Next, the configuration of processing blocks in the
マイク11によって観測される観測信号を観測信号x1(t)とし、マイク12によって観測される信号を観測信号x2(t)としている。短時間DFT部21、22では、観測信号x1、x2(t)を短時間離散フーリエ変換する。例えば、所定時間の観測信号をバッファやメモリに記憶して、その観測信号を、複数のフレームに分割する。例えば、時間領域において、隣接フレームが半分重なるように、ハーフシフトによってフレーム分割している。また、窓関数を用いて、フレーム分割しても良い。さらに、フレーム分割された観測信号を離散フーリエ変換する。このようにすることで、時間領域の観測信号x1(t)、x2(t)がそれぞれ時間−周波数領域の観測信号X1(ω,t)、X2(ω,t)に変換される。短時間DFT部21、22は、観測信号X1(ω,t)、X2(ω,t)を雑音推定器23、マスク生成部24、CSP係数算出部26に出力する
An observation signal observed by the
雑音推定器23は、観測信号X1(ω,t)、X2(ω,t)を用いて、雑音を推定する。例えば、過去時間における時間平均やNullbeamformer等のマイクロホンアレイによる推定方法を用いることができる。具体的には、以下の式(14)を用いて雑音推定することができる。なお、式(14)において、Sはフレームの分割数である。
雑音推定器23は、推定した雑音N(ω,t)をマスク生成部24に出力する。マスク生成部24は、周波数に応じてCSP係数をマスキングするマスクM(ω,t)を生成する。マスク生成部24は、雑音N(ω,t)、及び観測信号X1(ω,t)、X2(ω,t)を用いて、マスクM(ω,t)を算出する。例えば、式(9)で示した近似式の成立/不成立は、到来した音の各周波数におけるSN比(SNR)で決まる。このため、SN比を推定して、近似式が成立するか否かを判定する。近似式が成立しない周波数帯域、すなわち雑音が高い帯域に対しては、マスキング処理を行うための処理を導入する。こうすることで、雑音成分の影響が小さい帯域だけでCSP係数を算出することが可能となる。これにより、低SNR環境(高雑音環境下)においても、頑健に動作する音源方向推定が可能となる。
The
例えば、雑音N(ω,t)をしきい値と比較して、その比較結果に応じてM(ω,t)を設定すればよい。具体的には、雑音N(ω,t)の値がしきい値よりも大きい場合、M(ω,t)=0とし、しきい値よりも小さい場合、M(ω,t)=0とする。このように、マスクM(ω,t)は周波数に応じた離散的な値となっている。マスク生成部24で生成したマスクM(ω,t)は、Reliability生成部25と時間周波数補正型のCSP係数算出部26とに入力される。
For example, the noise N (ω, t) may be compared with a threshold value and M (ω, t) may be set according to the comparison result. Specifically, when the value of the noise N (ω, t) is larger than the threshold value, M (ω, t) = 0, and when smaller than the threshold value, M (ω, t) = 0. To do. Thus, the mask M (ω, t) has a discrete value corresponding to the frequency. The mask M (ω, t) generated by the
Reliability生成部25はマスクM(ω,t)の信頼度を示すReliability(t)を算出する。上記のように、雑音N(ω,t)に応じて、M(ω,t)の値が変化している。従って、M(ω,t)=1となる周波数が多いほど、雑音が少なく、信頼度が高くなると考えられる。一方、M(ω,t)=0となる周波数が多いほど、雑音が多く、信頼度が低くなると考えられる。このような場合、観測信号中に含まれる目的音源からの信号成分が少ないため、推定された目的音源の方向の信頼性が低くなる。従って、マスクM(ω,t)の信頼度を示すReliability(t)を導入することで、より正確に音源の方向を推定することができる。すなわち、雑音成分と信号成分とに基づいて、マスクM(ω,t)とReliability(t)とを用いることで、時間―周波数補正を行ったCSP係数を算出することができる。
The
例えば、Reliability(t)が、以下の式(15)を用いて求めることができる。
なお、Ωは、ωのカウント数である。すなわち、Ω個のωに対するM(ω,t)が算出されているものとしている。例えば、Ω=100の場合、すなわち、ある時間において100個のM(ω,t)が算出された場合、100個中10個のM(ω,t)が1であり、90個のM(ω,t)が0であったとする。このときのReliability(t)は0.1(=10/100)となる。この場合、信頼度が低いことになる。一方、Ω=100の場合で、100個中100個のM(ω,t)が100であり、0個のM(ω,t)が0であったとする。このときのReliability(t)は1(=100/100)となる。この場合、信頼度が高いことになる。 Note that Ω is the count number of ω. That is, it is assumed that M (ω, t) for Ω ω has been calculated. For example, when Ω = 100, that is, when 100 M (ω, t) are calculated at a certain time, 10 M (ω, t) out of 100 are 1, and 90 M ( Let ω, t) be zero. At this time, Reliability (t) is 0.1 (= 10/100). In this case, the reliability is low. On the other hand, in the case of Ω = 100, 100 out of 100 M (ω, t) are 100, and 0 M (ω, t) is 0. At this time, Reliability (t) is 1 (= 100/100). In this case, the reliability is high.
Reliability生成部25は、Reliability(t)を時間−周波数補正型のCSP係数算出部26に出力する。さらに、CSP係数算出部26には、短時間DFT部21、22からの観測信号X1(ω,t)、観測信号X2(ω,t)が入力されている。
The
CSP係数算出部26は、Reliability(t)、観測信号X1(ω,t)、観測信号X2(ω,t)に基づいて、CSP係数CSP(ω,t)を算出する。CSP(ω,t)は、例えば、式(16)を用いて求めることができる。
式(16)に示されるように、CSP係数算出部26は、観測信号X1(ω,t)、X2(ω,t)をその振幅で正規化した相互相関関数とマスクM(ω,t)との積に対して逆離散フーリエ変換(IDFT)を実行している。そして、CSP係数算出部26は逆離散フーリエ変換した値に、Reliability(t)を乗じることで、CSP係数を求めている。換言すると、Reliability(t)がCSP係数の重み付けの値となっている。このようにすることで、時間及び周波数に対する補正が行われたCSP係数CSPを求めることができる。
As shown in Expression (16), the CSP
CSP係数算出部26は、算出したCSP係数を時間差推定部27に出力する。時間差推定部27は、CSP係数から到来時間差τ(t)を推定する。これにより、2つのマイク11、12に到来する音の時間差を求めることができる。例えば、到来時間差τ(t)は、式(17)を用いて算出することができる。
なお、sampling frequencyは、サンプリング周波数である。式(17)ではCSP係数CSP(d,t)を最大とするインデックスdを算出している。そして、このインデックスdをサンプリング周波数で除することによって、到来時間差τ(t)が算出される。このように、CSP係数、すなわち、振幅で正規化した観測信号X1(ω,t)、X2(ω,t)の相互相関関数に基づいて、到来時間差τ(t)を算出している。CSP法では、振幅情報を正規化して、位相差スペクトル情報を元にCSP係数を算出している。従って、CSP法は、他の音源方位推定技術よりも残響の影響に対して頑健な性質を持っている。 The sampling frequency is a sampling frequency. In Expression (17), an index d that maximizes the CSP coefficient CSP (d, t) is calculated. Then, the arrival time difference τ (t) is calculated by dividing the index d by the sampling frequency. Thus, the arrival time difference τ (t) is calculated based on the cross correlation function of the observed signals X 1 (ω, t) and X 2 (ω, t) normalized by the CSP coefficient, that is, the amplitude. . In the CSP method, amplitude information is normalized and CSP coefficients are calculated based on phase difference spectrum information. Therefore, the CSP method is more robust against the influence of reverberation than other sound source direction estimation techniques.
方位推定部28は到来時間差τ(t)に基づいて、マイク11、12に対して音が到来した方位θ(t)を推定する。これにより、音源の方向を推定することができる。例えば、式(18)を用いて方位θ(t)を推定することができる。なお、Cは音速である。
判定部29は、CSP係数CSPの値に応じて方位θ(t)に、目的とする目的音源が存在しているかいかなを判定する。例えば、目的音源が他の車両であったとする。この場合、CSP係数が最大となるインデックスdの時のCSP係数CSPの値に応じて、方位θ(t)に他の車両が存在しているか否かを判定している。CSP係数の最大値がしきい値よりも大きい時は、雑音成分が低く、信頼度が高い。従って、θ(t)の方向に他の車両が存在していると判定する。一方、CSP係数の最大値がしきい値よりも小さい時は、雑音成分が高く、信頼度が低い。従って、θ(t)の方向に他の車両が存在していないと判定する。
The
このように、CSP係数CSPとしきい値とを比較することで、方位θ(t)に音源があるか否かを推定することができる。CSP係数CSPと比較するしきい値は、実験結果等に応じて、ユーザが予め設定してもよい。CSP係数CSPの最大値に応じて、方位θ(t)に目的音源があるか否かを検出している。よって、信頼性を向上することができる。 Thus, by comparing the CSP coefficient CSP with the threshold value, it can be estimated whether there is a sound source in the azimuth θ (t). The threshold value to be compared with the CSP coefficient CSP may be set in advance by the user according to the experimental result or the like. Whether or not there is a target sound source in the azimuth θ (t) is detected according to the maximum value of the CSP coefficient CSP. Therefore, reliability can be improved.
このようなCSP係数に基づく判定手法は、例えば、「複数車両に対応したマイクロホンアレーによる接近車両検出システムの構築」 坂野秀樹 他著 電子情報通信学会技術研究報告;巻号:2011−3−18, 110, 471 ; pp13−16に記載された手法を用いることができる。 Such a determination method based on the CSP coefficient is, for example, “Construction of an approaching vehicle detection system using a microphone array corresponding to a plurality of vehicles” Hideki Sakano et al., IEICE Technical Report; Volume: 2011-3-18, 110, 471; pp13-16 can be used.
上記の音源推定方法を用いることで、目的音源の方向をより正確に推定することが可能になる。マスクM(ω,t)を導入することで、雑音成分の高い周波数の影響を低減することができる。さらに、マスクM(ω,t)の信頼性を示すReliability(t)を導入することで、信頼性の低いタイミングにおいて方向が推定されるのを防ぐことができる。すなわち、信号成分の高いタイミングでの推定が可能となる。これにより、目的となる音源の方向をより正確に推定することができる。 By using the above sound source estimation method, the direction of the target sound source can be estimated more accurately. By introducing the mask M (ω, t), it is possible to reduce the influence of the frequency having a high noise component. Furthermore, by introducing Reliability (t) indicating the reliability of the mask M (ω, t), it is possible to prevent the direction from being estimated at a timing with low reliability. That is, it is possible to estimate the signal component at a high timing. Thereby, the direction of the target sound source can be estimated more accurately.
上記の説明では、マスクM(ω,t)をバイナリ、すなわち、(0,1)の2値で設定したが、マスクM(ω,t)は(0,1)の2値に限られるものではない。すなわち、マスクM(ω,t)の値を、段階的、あるいは連続的に設定してよい。例えば、雑音N(ω,t)を複数のしきい値と比較して、マスクM(ω,t)を0から1の間で多段階に算出してもよい。さらには、マスクM(ω,t)を0から1の間の連続値として算出してもよい。具体的には、以下の式(19)または式(20)で示されたウィーナーフィルタを用いて、マスクM(ω,t)を算出することができる。 In the above description, the mask M (ω, t) is set to binary, that is, binary of (0,1), but the mask M (ω, t) is limited to the binary of (0,1). is not. That is, the value of the mask M (ω, t) may be set stepwise or continuously. For example, the noise N (ω, t) may be compared with a plurality of threshold values, and the mask M (ω, t) may be calculated in multiple stages between 0 and 1. Further, the mask M (ω, t) may be calculated as a continuous value between 0 and 1. Specifically, the mask M (ω, t) can be calculated using the Wiener filter expressed by the following formula (19) or formula (20).
なお、γは、実験結果等に応じて予め設定しておくことができるパラメータであり、2あるいは2以外の実数とすることができる。こうすることで、擬似パラメトリックウィーナーフィルタを用いて、マスクを生成することができる。同様に、βも実験結果等に応じて予め設定しておくことができるパラメータであり、1あるいは1以外の実数とすることができる。このように、雑音成分の高い周波数の影響を排除又は抑制することができるマスクM(ω,t)を導入することができる。またマスクM(ω,t)の値を連続値として設定した場合でも、上記の式(15)を用いて、Reliability(t)を算出することができる。 Note that γ is a parameter that can be set in advance according to an experimental result or the like, and can be a real number other than 2 or 2. In this way, a mask can be generated using a pseudo parametric Wiener filter. Similarly, β is a parameter that can be set in advance according to the experimental result or the like, and can be a real number other than 1 or 1. In this way, a mask M (ω, t) that can eliminate or suppress the influence of a high frequency noise component can be introduced. Even when the value of the mask M (ω, t) is set as a continuous value, Reliability (t) can be calculated using the above equation (15).
上記の音源推定装置は、移動体への搭載に好適である。自動車、移動ロボット、オートバイなどの移動体では、自己が移動しながら、音源方向を推定することになる。さらには、他の移動体が移動している公道等の環境下では、音源である他の移動体も移動することになる。このような場合、目的音源に対して移動体が相対的に移動しながら、音源推定装置が音源方向の推定を行う。目的音源と音源推定装置が相対的に移動している環境下において、上記の音源推定処理を行う。上記の音源推定処理では、時間補正が行われたCSP係数を用いているため、より正確に方向を推定することができる。すなわち、Reliability(t)を導入して、信頼度の高いタイミングでの観測信号から音源方向を推定しているため、推定精度を向上することができる。 The above-described sound source estimation apparatus is suitable for mounting on a moving object. In a moving body such as an automobile, a mobile robot, and a motorcycle, the direction of the sound source is estimated while moving by itself. Furthermore, in an environment such as a public road where other moving bodies are moving, the other moving bodies that are sound sources also move. In such a case, the sound source estimation apparatus estimates the sound source direction while the moving body moves relative to the target sound source. The sound source estimation process described above is performed in an environment where the target sound source and the sound source estimation apparatus are relatively moving. In the sound source estimation process, since the CSP coefficient subjected to time correction is used, the direction can be estimated more accurately. That is, since the reliability (t) is introduced and the sound source direction is estimated from the observation signal at a highly reliable timing, the estimation accuracy can be improved.
以下に、音源推定装置を移動体である車両に搭載した例について、図3を用いて説明する。図3は、音源推定装置を搭載した車両の要部を示すブロック図である。車両30は、車両信号取得部31と、雑音推定器起動部32を有している。さらに、マスク記憶部41と、マスク選択部42が、図2で示した音源推定装置に追加されている。なお、図2で示した、短時間DFT部21、短時間DFT部22、時間差推定部27、方位推定部28、及び判定部29については、同様の処理を行うため、図3では図示を省略している。図3に示す構成では、下記に示すように、マスクM(ω,t)を動的に生成している。
Hereinafter, an example in which the sound source estimation apparatus is mounted on a vehicle that is a moving body will be described with reference to FIG. FIG. 3 is a block diagram showing a main part of a vehicle equipped with a sound source estimation device. The
車両信号取得部31は、車両30に関する車両信号を取得する。車両信号取得部31は例えば、車両30の制御信号や操作信号を車両信号として取得する。具体的には、車両30が自動車であるとすると、車両30に設けられたワイパーやヘッドライトのオンオフを車両信号として取得する。さらには、車両30の走行速度や、ブレーキペダルやアクセルペダルの踏み込み量、地図情報やGPSからの位置情報を車両信号としてもよい。また、カメラやレーダからの他のセンサからの認識結果を車両信号としてもよい。車両信号は、車両30の動作状態に関する情報であればよい。車両信号取得部31は、取得した車両信号を、雑音推定器起動部32と、マスク選択部42に出力する。
The vehicle
雑音推定器起動部32は、車両30の動作状態に応じた車両信号に基づいて、雑音推定器23を起動させる。雑音推定器23は、雑音推定器起動部32からの指示によって、雑音推定を開始する。環境中の雑音が変化した場合、雑音推定器起動部32は雑音推定器23を起動させる。例えば、車速がある速度以下(例えば、20km/h以下)になったタイミングで、雑音推定器起動部32が雑音推定器23を起動してもよい。これにより、車速が一定速度以下になったタイミングで、雑音推定が行われる。あるいは、ブレーキペダルやアクセルペダルに踏み込み量に基づいて、雑音推定器起動部32が雑音推定器23を起動してもよい。さらには、地図情報とGPSからの位置情報に基づいて、雑音推定器起動部32が雑音推定器23を起動してもよい。具体的には、交通事故が多い交差点等の地点に車両30が近づいた場合、その直前での雑音推定によって、マスクを生成するようにしてもよい。さらには、カメラやレーザなどの他のセンサの認識結果から、雑音推定器起動部32が雑音推定器23を起動してもよい。このように、車両30の周囲の環境が変わったタイミングや、車両30の動作が変化したタイミングで、雑音推定が行われるよう、雑音推定器起動部32が雑音推定器23を起動させる。
The noise
マスク記憶部41は、予め設定された一つ以上のマスクM(ω,t)を記憶している。例えば、商品開発時に実験等によってマスクを求めておき、商品製造時にマスク記憶部41に予め記憶させておく。さらに、マスク記憶部41は、マスク生成部24が生成したマスクM(ω,t)を記憶する。具体的は、ワイパーが動作している状態の雑音成分を予め集音し、その集音結果に基づいてマスクを予め生成しておく。あるいは、ある速度で走行している車両のエンジン音を集音して、その集音結果に基づいてマスクを予め生成しておく。このようなマスクをマスク記憶部41に予め記憶させておく。
The
マスク選択部42は、状況に応じて、以下の(a)〜(c)を選択する。
(a)その場で生成したマスク
(b)マスク記憶部41に商品製造時に予め記憶されているマスク
(c)マスクを使用しない(すなわち、M(ω,t)の全要素が常時1となるマスク)
The
(A) The mask generated on the spot (b) The mask (c) mask previously stored at the time of product manufacture is not used in the mask storage unit 41 (that is, all elements of M (ω, t) are always 1) mask)
(a)のマスクは、上述したように、その場で取得した観測信号X1(ω,t)、観測信号X2と、それらから推定された雑音N(ω、t)を用いて生成される。(a)のマスクは、現在の環境や車両30の動作状態に応じたマスクとなっている。一方、マスク記憶部41は、その場の観測信号によらないマスクを予め記憶している。
As described above, the mask of (a) is generated using the observation signal X 1 (ω, t), the observation signal X 2 acquired on the spot, and the noise N (ω, t) estimated from them. The The mask (a) is a mask according to the current environment and the operating state of the
マスク選択部42は、車両信号に基づいて、上記の(a)〜(c)のマスクのいずれか1つを選択する。例えば、ワイパースイッチがオンの場合とオフの場合とで、雨天時のマスクと、晴天時のマスクを切り替える。具体的には、雨天時のマスクは(b)のマスクとし、晴天時のマスクは(a)のマスクとすることができる。さらに、ヘッドライトがオンの場合と、オフの場合とで、夜用のマスクと、日中用のマスクとを切り替える。地図情報とGPSからの位置情報から、市街地や郊外等の場所の特性に応じたマスクを切り替えるようにしてもよい。このように、マスク選択部42は、車両30の動作状況に応じて最適なマスクを選択する。
The
上述したように、車両30の状況を示す車両情報に基づいて、雑音推定器23を起動させている。従って、車両30の状況変化に応じて、雑音モデル、すなわち、マスクM(ω,t)を動的に生成することができる。車両30の周囲の雑音の態様が刻々と変化する場合でも適切なタイミングでマスクM(ω,t)を生成することができる。これにより、音源の方向を正確に推定することができる。さらに、マスク記憶部41に記憶されたマスクと、その場で生成したマスクを車両信号に応じて使い分けている。これにより、より正確に音源を推定することができるようになる。車両30に音源推定装置を搭載することで、交差点等において、死角となる横道からの接近車両の認知が可能となる。
As described above, the
なお、上記の説明では、音源推定装置が自動車である車両30に搭載されている例について説明したが、音源推定装置を搭載する移動体は特に限定されるものではない。例えば、オートバイ、移動ロボット等に音源推定装置を搭載してもよい。移動ロボットに音源推定装置を搭載することで、ユーザの声の方向に振り返ったり、異常音を検知することも可能になる。
In the above description, the example in which the sound source estimation device is mounted on the
上述した音源推定処理は、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、若しくはCPU(Central Processing Unit)又はこれらの組み合わせを含むコンピュータにプログラムを実行させることによって実現してもよい。 The sound source estimation process described above may be realized by causing a computer including a DSP (Digital Signal Processor), an MPU (Micro Processing Unit), a CPU (Central Processing Unit), or a combination thereof to execute a program.
上述の例において、音源推定処理をコンピュータに行わせるための命令群を含むプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。 In the above example, a program including a group of instructions for causing a computer to perform sound source estimation processing is stored using various types of non-transitory computer readable media and supplied to the computer. can do. Non-transitory computer readable media include various types of tangible storage media. Examples of non-transitory computer-readable media include magnetic recording media (for example, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (for example, magneto-optical disks), CD-ROMs (Read Only Memory), CD-Rs, CD-R / W, semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)) are included. The program may also be supplied to the computer by various types of transitory computer readable media. Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves. The temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
11 マイク
12 マイク
13 マイクアンプ
14 マイクアンプ
15 A/D変換器
16 CPU
21 短時間DFT部
22 短時間DFT部
23 雑音推定器
24 マスク生成部
25 Reliability生成部
26 CSP係数算出部
27 時間差推定部
28 方位推定部
29 判定部
30 車両
31 車両信号取得部
32 雑音推定器起動部
41 マスク記憶部
42 マスク選択部
11
DESCRIPTION OF
Claims (14)
前記観測信号に含まれる雑音成分を推定する雑音推定部と、
前記雑音推定部で推定された雑音成分に基づいて、マスクを生成するマスク生成部と、
前記マスク生成部で生成されたマスクの信頼度を算出する信頼度算出部と、
前記マスク、及び前記マスクの信頼度によって補正されたCSP係数を算出するCSP係数算出部と、
補正された前記CSP係数に基づいて、音源の方向を推定する推定部と、を備えた音源推定装置。 A sound source estimation apparatus that estimates the direction of a sound source using observation signals acquired by at least two microphones,
A noise estimation unit for estimating a noise component included in the observation signal;
A mask generation unit that generates a mask based on the noise component estimated by the noise estimation unit;
A reliability calculation unit for calculating the reliability of the mask generated by the mask generation unit;
A CSP coefficient calculation unit that calculates a CSP coefficient corrected by the mask and the reliability of the mask;
A sound source estimation apparatus comprising: an estimation unit that estimates a direction of a sound source based on the corrected CSP coefficient.
前記到来時間差に基づいて、前記推定部が音源の方向を推定し、
前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定する請求項1に記載の音源推定装置。 Based on an index that maximizes the corrected CSP coefficient, a difference in arrival time at which sound arrives at the two microphones is calculated,
Based on the arrival time difference, the estimation unit estimates the direction of the sound source,
The sound source estimation apparatus according to claim 1, wherein it is determined whether or not a target sound source exists in the estimated direction according to the corrected maximum value of the CSP coefficient.
2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されることを特徴とする請求項1、又は2に記載の音源推定装置。 The mask is a discrete value according to frequency,
The sound source according to claim 1 or 2, wherein the corrected CSP coefficient is calculated by performing inverse Fourier transform on a product of a cross-correlation of observation signals from two microphones and the mask. Estimating device.
前記移動体の動作状態に応じた車両信号に基づいて、前記雑音推定部が雑音推定を行うことを特徴とする移動体。 It is a moving body carrying a sound source estimating device in any 1 paragraph of Claims 1-4,
The moving body, wherein the noise estimation unit performs noise estimation based on a vehicle signal corresponding to an operating state of the moving body.
前記移動体の動作状態に応じた車両信号に基づいて、前記マスク記憶部に記憶されたマスクと、前記マスク生成部で生成されたマスクのいずれかを選択するマスク選択部と、をさらに備える請求項5に記載の移動体 A mask storage unit in which the moving body stores a mask in advance;
The apparatus further comprises: a mask stored in the mask storage unit and a mask selection unit that selects one of the masks generated by the mask generation unit based on a vehicle signal corresponding to an operation state of the moving body. Item 6. A moving object according to item 5
前記観測信号に含まれる雑音成分を推定するステップと、
前記雑音成分に基づいて、マスクを生成するステップと、
前記マスクの信頼度を算出するステップと、
前記マスク、及び前記マスクの前記信頼度によって補正されたCSP係数を算出するステップと、
補正された前記CSP係数に基づいて、音源の方向を推定するステップと、を備えた音源推定方法。 A sound source estimation method for estimating the direction of a sound source using observation signals acquired by at least two microphones,
Estimating a noise component included in the observed signal;
Generating a mask based on the noise component;
Calculating a reliability of the mask;
Calculating a CSP coefficient corrected by the mask and the reliability of the mask;
A sound source estimation method comprising: estimating a sound source direction based on the corrected CSP coefficient.
前記到来時間差に基づいて、前記推定部が音源の方向を推定し、
前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定する請求項7に記載の音源推定方法。 Based on an index that maximizes the corrected CSP coefficient, a difference in arrival time at which sound arrives at the two microphones is calculated,
Based on the arrival time difference, the estimation unit estimates the direction of the sound source,
The sound source estimation method according to claim 7, wherein whether or not a target sound source exists in the estimated direction is determined according to the corrected maximum value of the CSP coefficient.
2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されることを特徴とする請求項7、又は8に記載の音源推定方法。 The mask is a discrete value according to frequency,
9. The sound source according to claim 7, wherein the corrected CSP coefficient is calculated by performing inverse Fourier transform on a product of a cross-correlation of observation signals from two microphones and the mask. Estimation method.
コンピュータに対して、
前記観測信号に含まれる雑音成分を推定するステップと、
前記雑音成分に基づいて、マスクを生成するステップと、
前記マスクの信頼度を算出するステップと、
前記マスク、及び前記マスクの前記信頼度によって補正されたCSP係数を算出するステップと、
補正された前記CSP係数に基づいて、音源の方向を推定するステップと、
を実行させる音源推定プログラム。 A sound source estimation program for estimating the direction of a sound source using observation signals acquired by at least two microphones,
Against the computer,
Estimating a noise component included in the observed signal;
Generating a mask based on the noise component;
Calculating a reliability of the mask;
Calculating a CSP coefficient corrected by the mask and the reliability of the mask;
Estimating the direction of the sound source based on the corrected CSP coefficient;
Sound source estimation program that executes
補正された前記CSP係数を最大とするインデックスに基づいて、2つの前記マイクに音が到来する到来時間差を算出させ、
前記到来時間差に基づいて、前記推定部が音源の方向を推定させ、
前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定させる請求項11に記載の音源推定プログラム。 Against the computer,
Based on the index that maximizes the corrected CSP coefficient, the arrival time difference at which sound arrives at the two microphones is calculated,
Based on the arrival time difference, the estimation unit estimates the direction of the sound source,
The sound source estimation program according to claim 11, wherein it is determined whether or not a target sound source exists in the estimated direction according to the corrected maximum value of the CSP coefficient.
2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されることを特徴とする請求項11、又は12に記載の音源推定プログラム。 The mask is a discrete value according to frequency,
The sound source according to claim 11 or 12, wherein the corrected CSP coefficient is calculated by performing inverse Fourier transform on a product of a cross-correlation of observation signals from two microphones and the mask. Estimation program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011241610A JP5692006B2 (en) | 2011-11-02 | 2011-11-02 | Sound source estimation apparatus, method, program, and moving object |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011241610A JP5692006B2 (en) | 2011-11-02 | 2011-11-02 | Sound source estimation apparatus, method, program, and moving object |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013097273A true JP2013097273A (en) | 2013-05-20 |
JP5692006B2 JP5692006B2 (en) | 2015-04-01 |
Family
ID=48619237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011241610A Active JP5692006B2 (en) | 2011-11-02 | 2011-11-02 | Sound source estimation apparatus, method, program, and moving object |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5692006B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015102486A (en) * | 2013-11-27 | 2015-06-04 | 積水化学工業株式会社 | Identification method of defect position |
CN107424616A (en) * | 2017-08-21 | 2017-12-01 | 广东工业大学 | A kind of phase spectrum removes the method and apparatus of mask |
KR20190090578A (en) * | 2018-01-25 | 2019-08-02 | 서강대학교산학협력단 | Sound source localization method based CDR mask and localization apparatus using the method |
WO2020110228A1 (en) * | 2018-11-28 | 2020-06-04 | 三菱電機株式会社 | Information processing device, program and information processing method |
CN112262433A (en) * | 2018-04-05 | 2021-01-22 | 弗劳恩霍夫应用研究促进协会 | Apparatus, method or computer program for estimating inter-channel time difference |
CN114173273A (en) * | 2021-12-27 | 2022-03-11 | 科大讯飞股份有限公司 | Microphone array detection method, related device and readable storage medium |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0587903A (en) * | 1991-09-27 | 1993-04-09 | Nippon Telegr & Teleph Corp <Ntt> | Predicting method of direction of sound source |
WO2006059806A1 (en) * | 2004-12-03 | 2006-06-08 | Honda Motor Co., Ltd. | Voice recognition system |
WO2008146565A1 (en) * | 2007-05-30 | 2008-12-04 | Nec Corporation | Sound source direction detecting method, device, and program |
JP2010239424A (en) * | 2009-03-31 | 2010-10-21 | Kddi Corp | Method, device and program for suppressing noise |
JP2011113044A (en) * | 2009-11-30 | 2011-06-09 | Internatl Business Mach Corp <Ibm> | Method, device and program for objective voice extraction |
JP2011139409A (en) * | 2010-01-04 | 2011-07-14 | Mitsunori Mizumachi | Audio signal processor, audio signal processing method, and computer program |
-
2011
- 2011-11-02 JP JP2011241610A patent/JP5692006B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0587903A (en) * | 1991-09-27 | 1993-04-09 | Nippon Telegr & Teleph Corp <Ntt> | Predicting method of direction of sound source |
WO2006059806A1 (en) * | 2004-12-03 | 2006-06-08 | Honda Motor Co., Ltd. | Voice recognition system |
WO2008146565A1 (en) * | 2007-05-30 | 2008-12-04 | Nec Corporation | Sound source direction detecting method, device, and program |
JP2010239424A (en) * | 2009-03-31 | 2010-10-21 | Kddi Corp | Method, device and program for suppressing noise |
JP2011113044A (en) * | 2009-11-30 | 2011-06-09 | Internatl Business Mach Corp <Ibm> | Method, device and program for objective voice extraction |
JP2011139409A (en) * | 2010-01-04 | 2011-07-14 | Mitsunori Mizumachi | Audio signal processor, audio signal processing method, and computer program |
Non-Patent Citations (4)
Title |
---|
CSNG200501100012; 傳田遊亀他: '"帯域分割型CSP法に基づく話者位置推定法の検討"' 情報処理学会研究報告 Vol.2004,No.131, 200412, pp.169-174 * |
CSNG200801121011; 傳田遊亀他: '"話者方位推定を利用した動的時間領域処理に基づく遠隔発話区間検出"' 電子情報通信学会論文誌 Vol.J92-D,No.1, 200901, pp.112-122 * |
JPN6011046251; 傳田遊亀他: '"話者方位推定を利用した動的時間領域処理に基づく遠隔発話区間検出"' 電子情報通信学会論文誌 Vol.J92-D,No.1, 200901, pp.112-122 * |
JPN6014047616; 傳田遊亀他: '"帯域分割型CSP法に基づく話者位置推定法の検討"' 情報処理学会研究報告 Vol.2004,No.131, 200412, pp.169-174 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015102486A (en) * | 2013-11-27 | 2015-06-04 | 積水化学工業株式会社 | Identification method of defect position |
CN107424616B (en) * | 2017-08-21 | 2020-09-11 | 广东工业大学 | Method and device for removing mask by phase spectrum |
CN107424616A (en) * | 2017-08-21 | 2017-12-01 | 广东工业大学 | A kind of phase spectrum removes the method and apparatus of mask |
KR20190090578A (en) * | 2018-01-25 | 2019-08-02 | 서강대학교산학협력단 | Sound source localization method based CDR mask and localization apparatus using the method |
KR102088222B1 (en) * | 2018-01-25 | 2020-03-16 | 서강대학교 산학협력단 | Sound source localization method based CDR mask and localization apparatus using the method |
CN112262433A (en) * | 2018-04-05 | 2021-01-22 | 弗劳恩霍夫应用研究促进协会 | Apparatus, method or computer program for estimating inter-channel time difference |
JP2021519949A (en) * | 2018-04-05 | 2021-08-12 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | A device, method or computer program for estimating the time difference between channels |
JP7204774B2 (en) | 2018-04-05 | 2023-01-16 | フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Apparatus, method or computer program for estimating inter-channel time difference |
US11594231B2 (en) | 2018-04-05 | 2023-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method or computer program for estimating an inter-channel time difference |
CN112262433B (en) * | 2018-04-05 | 2024-03-01 | 弗劳恩霍夫应用研究促进协会 | Apparatus, method or computer program for estimating time differences between channels |
WO2020110228A1 (en) * | 2018-11-28 | 2020-06-04 | 三菱電機株式会社 | Information processing device, program and information processing method |
JPWO2020110228A1 (en) * | 2018-11-28 | 2021-03-11 | 三菱電機株式会社 | Information processing equipment, programs and information processing methods |
CN114173273A (en) * | 2021-12-27 | 2022-03-11 | 科大讯飞股份有限公司 | Microphone array detection method, related device and readable storage medium |
CN114173273B (en) * | 2021-12-27 | 2024-02-13 | 科大讯飞股份有限公司 | Microphone array detection method, related device and readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP5692006B2 (en) | 2015-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5692006B2 (en) | Sound source estimation apparatus, method, program, and moving object | |
JP6001248B2 (en) | Sound source detection device | |
US20150117652A1 (en) | Sound source detection device, noise model generation device, noise reduction device, sound source direction estimation device, approaching vehicle detection device and noise reduction method | |
US20140064514A1 (en) | Target sound enhancement device and car navigation system | |
JP6107151B2 (en) | Noise suppression apparatus, method, and program | |
US10580428B2 (en) | Audio noise estimation and filtering | |
US20120322511A1 (en) | De-noising method for multi-microphone audio equipment, in particular for a "hands-free" telephony system | |
CN109509465B (en) | Voice signal processing method, assembly, equipment and medium | |
US9713981B2 (en) | Object detection device and object detection method | |
KR100877914B1 (en) | sound source direction detecting system by sound source position-time difference of arrival interrelation reverse estimation | |
JP6225245B2 (en) | Signal processing apparatus, method and program | |
KR20110057661A (en) | Mobile device and control method thereof | |
JP2010121975A (en) | Sound-source localizing device | |
CN105607042A (en) | Method for locating sound source through microphone array time delay estimation | |
JP6686895B2 (en) | Audio processing device, audio processing method, and program | |
KR20110060183A (en) | Signal processing apparatus and method for removing reflected wave generated by robot platform | |
US20190250240A1 (en) | Correlation function generation device, correlation function generation method, correlation function generation program, and wave source direction estimation device | |
KR20140015893A (en) | Apparatus and method for estimating location of sound source | |
JP6048596B2 (en) | Sound collector, input signal correction method for sound collector, and mobile device information system | |
JP2013192087A (en) | Noise suppression device, microphone array device, noise suppression method, and program | |
Giraldo-Guzmán et al. | Vehicle speed estimation using audio features and neural networks | |
KR101269189B1 (en) | Apparatus and method for estimating sound source | |
JP2012149906A (en) | Sound source position estimation device, sound source position estimation method and sound source position estimation program | |
JP6433630B2 (en) | Noise removing device, echo canceling device, abnormal sound detecting device, and noise removing method | |
US20190219679A1 (en) | Device for estimating speed of moving sound source, speed monitoring system, method for estimating speed of moving sound source, and storage medium in which program for estimating speed of moving sound source is stored |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141015 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141111 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150119 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5692006 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |