JP2013097273A - Sound source estimation device, method, and program and moving body - Google Patents

Sound source estimation device, method, and program and moving body Download PDF

Info

Publication number
JP2013097273A
JP2013097273A JP2011241610A JP2011241610A JP2013097273A JP 2013097273 A JP2013097273 A JP 2013097273A JP 2011241610 A JP2011241610 A JP 2011241610A JP 2011241610 A JP2011241610 A JP 2011241610A JP 2013097273 A JP2013097273 A JP 2013097273A
Authority
JP
Japan
Prior art keywords
sound source
mask
corrected
csp coefficient
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011241610A
Other languages
Japanese (ja)
Other versions
JP5692006B2 (en
Inventor
Tomoya Takatani
智哉 高谷
Jun Sato
潤 佐藤
Ryuji Funayama
竜士 船山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2011241610A priority Critical patent/JP5692006B2/en
Publication of JP2013097273A publication Critical patent/JP2013097273A/en
Application granted granted Critical
Publication of JP5692006B2 publication Critical patent/JP5692006B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a sound source estimation device, method, and program capable of estimating a sound source more accurately and to provide a moving body using the same.SOLUTION: The sound source estimation device uses observation signals acquired by microphones 11 and 12 to estimate a direction of a sound source and includes: a noise estimator 23 which estimates noise components included in the observation signals; a mask generation unit 24 which generates a mask M(ω,t) on the basis of the noise components estimated by the noise estimator 23; a reliability generation unit 25 which calculates reliability (t) of the mask generated by the mask generation unit 24; a CSP coefficient calculation unit 26 which calculates a CSP coefficient corrected by the mask and the reliability of the mask; and a direction estimation unit 28 which estimates the direction of the sound source on the basis of the CSP coefficient.

Description

本発明は、音源推定装置、音源推定方法、音源推定プログラム、及び移動体に関し、特に詳しくは音源を推定する音源推定装置、音源推定方法、及び音源推定プログラム、並びに、該音源推定装置を用いた移動体に関する。   The present invention relates to a sound source estimation device, a sound source estimation method, a sound source estimation program, and a moving object, and particularly uses a sound source estimation device, a sound source estimation method, a sound source estimation program, and a sound source estimation device for estimating a sound source. Related to moving objects.

非特許文献1には、CSP法(Cross−power Spectrum Phase analysis:白色化相互相関)を用いた技術が開示されている。CSP法は、GCC−PHAT(Generalized Cross−Correlation PHAse Transform)アルゴリズムとも呼ばれ、音源方向の推定に用いられている   Non-Patent Document 1 discloses a technique using a CSP method (Cross-power Spectrum Phase analysis). The CSP method is also called a GCC-PHAT (Generalized Cross-Correlation PHAse Transform) algorithm, and is used for estimating a sound source direction.

Frithjof Hummes, Junge Qi, Tim Fingscheid著 ROBUST ACOUSTIC SPEAKER LOCALIZATION WITH DISTRIBUTED MICROPHONES 19th European Signal Processing Conference (EUSIPCO2011) pp.240−244Frithof Hummes, Junge Qi, by Tim Fingcheid ROBUST ACOUSTIC SPEAKER LOCALIZATION WITCH DISTRIBUTED MICROPHONES 19th European Cep 20 US

以下、CSP法の処理について説明する。図4はCSP法の処理フローを示すブロック図である。短時間DFT部121は、2つのマイクロフォン(以下、マイク)が観測した観測信号x(t)、x(t)に対して、短時間DFT(Discret Fourier Transform)処理を行う。これにより、時間領域の観測信号x(t)、x(t)がそれぞれ時間−周波数領域の観測信号X(ω,t)、X(ω,t)に変換される。 Hereinafter, processing of the CSP method will be described. FIG. 4 is a block diagram showing a processing flow of the CSP method. The short-time DFT unit 121 performs short-time DFT (Discrete Fourier Transform) processing on the observation signals x 1 (t) and x 2 (t) observed by two microphones (hereinafter referred to as microphones). Thereby, the observation signals x 1 (t) and x 2 (t) in the time domain are converted into the observation signals X 1 (ω, t) and X 2 (ω, t) in the time-frequency domain, respectively.

CPS係数算出部126は、観測信号X(ω,t)、X(ω,t)からCSP係数CSP(d,t)を算出する。なお、CSP係数とは、観測信号X(ω,t)、X(ω,t)をその振幅で正規化した相互相関関数である。そして、時間差推定部127は、CSP係数を最大にするインデックスdに基づいて、到来時間差τを推定する。この到来時間差τが第1のマイクと第2のマイクで観測した音の到来時間差に対応する。推定された時間差に基づいて、方位推定部128が方位θを推定している。 The CPS coefficient calculation unit 126 calculates the CSP coefficient CSP (d, t) from the observation signals X 1 (ω, t) and X 2 (ω, t). The CSP coefficient is a cross-correlation function obtained by normalizing the observation signals X 1 (ω, t) and X 2 (ω, t) with their amplitudes. Then, the time difference estimation unit 127 estimates the arrival time difference τ based on the index d that maximizes the CSP coefficient. This arrival time difference τ corresponds to the arrival time difference of sound observed by the first microphone and the second microphone. Based on the estimated time difference, the direction estimation unit 128 estimates the direction θ.

ところで、CSP法のアルゴリズムには、音源数は一つであるという仮定がある。そして、CSP法では、この仮定に基づいて離散フーリエ変換で得られた全帯域信号を用いて音源方位推定を行っている。まず、観測信号X(ω,t)、X(ω,t)は以下の式(1)、式(2)で表すことができる。 Incidentally, the CSP algorithm has an assumption that the number of sound sources is one. In the CSP method, sound source azimuth estimation is performed using a full-band signal obtained by discrete Fourier transform based on this assumption. First, the observation signals X 1 (ω, t) and X 2 (ω, t) can be expressed by the following equations (1) and (2).

Figure 2013097273
Figure 2013097273
Figure 2013097273
Figure 2013097273

ωは周波数であり、tは時間である。X1sは目的音源からの音を第1のマイクで取得した時の観測信号、X2sは目的音源からの音を第2のマイクで取得した時の観測信号である。t1sは目的音源と第1のマイクとの距離に応じた時間であり、t2sは目的音源と第2のマイクの距離に対応する時間である。τ(t)は、第1のマイクと第2のマイクとの間の音の到来時間差である。音源数が1つであると仮定すると、CSP係数は式(3)で表せる。 ω is frequency and t is time. X 1s is an observation signal when the sound from the target sound source is acquired by the first microphone, and X 2s is an observation signal when the sound from the target sound source is acquired by the second microphone. t 1s is a time corresponding to the distance between the target sound source and the first microphone, and t 2s is a time corresponding to the distance between the target sound source and the second microphone. τ (t) is the difference in arrival time of sound between the first microphone and the second microphone. Assuming that the number of sound sources is one, the CSP coefficient can be expressed by equation (3).

Figure 2013097273
Figure 2013097273

なお、式(3)において、*は共役を示している。しかしながら、実環境では、音源数は必ずしも一つではなく、環境雑音や干渉音の混入がある。このため、複数音源の混合信号が観測される。この混合信号は、式(4)、式(5)で表すことができる。

Figure 2013097273
Figure 2013097273
In the formula (3), * indicates a conjugate. However, in an actual environment, the number of sound sources is not necessarily one, and there is a mixture of environmental noise and interference sound. For this reason, a mixed signal of a plurality of sound sources is observed. This mixed signal can be expressed by equations (4) and (5).
Figure 2013097273
Figure 2013097273

式(4)、式(5)において、nは雑音となる音源(雑音源)の数である。また、X1Nnは、n番目の雑音源からの音を第1のマイクで観測した時の観測信号であり、t1Nnはn番目の雑音源と第1のマイクとの距離に対応する時間である。同様に、X2Nnは、n番目の雑音源からの音を第2のマイクで観測した時の観測信号であり、t2Nnはn番目の雑音源と第2のマイクとの距離に応じた時間に対応している。τは目的音源からの音の到達時間差であり、τNnは、n番目の雑音源からの音の到来時間差である。 In Expressions (4) and (5), n is the number of sound sources (noise sources) that become noise. X 1Nn is an observation signal when sound from the nth noise source is observed by the first microphone, and t 1Nn is a time corresponding to the distance between the nth noise source and the first microphone. is there. Similarly, X 2Nn is an observation signal when sound from the nth noise source is observed by the second microphone, and t 2Nn is a time corresponding to the distance between the nth noise source and the second microphone. It corresponds to. τ s is the arrival time difference of the sound from the target sound source, and τ Nn is the arrival time difference of the sound from the nth noise source.

以下、説明を簡単にするため、目的音源数を1、雑音源数を1とする。この場合、観測信号は以下の式(6)、式(7)で表される。

Figure 2013097273
Figure 2013097273
Hereinafter, in order to simplify the description, the number of target sound sources is 1 and the number of noise sources is 1. In this case, the observation signal is expressed by the following equations (6) and (7).
Figure 2013097273
Figure 2013097273

CSP係数は、以下の式(8)で展開される。

Figure 2013097273
The CSP coefficient is developed by the following equation (8).
Figure 2013097273

高SNR(Signal Noise Ratio)の場合、すなわち、低雑音環境下の場合、以下の式(9)の近似式が成立する。

Figure 2013097273
In the case of a high SNR (Signal Noise Ratio), that is, in a low noise environment, the following approximate expression (9) is established.
Figure 2013097273

従って、CSP係数の算出式は、以下の式(10)のように展開されるため、目的音源の方位推定が可能となる。

Figure 2013097273
Accordingly, the calculation formula for the CSP coefficient is expanded as shown in the following formula (10), and thus it is possible to estimate the direction of the target sound source.
Figure 2013097273

低SNRの場合、すなわち、高雑音環境下の場合、式(9)の近似式が成立しない。従って、式(11)に示されるように、雑音成分の到来位相差等(式(11)のリージョン項)がCSP係数列に影響を与える。

Figure 2013097273
In the case of low SNR, that is, in a high noise environment, the approximate expression of Expression (9) is not established. Therefore, as shown in Expression (11), the arrival phase difference of the noise component or the like (region term in Expression (11)) affects the CSP coefficient sequence.
Figure 2013097273

式(12)、式(13)に示すように、CSP係数を最大にするインデックスdを探索し、そのインデックスdを変換することによって、音源の方位が算出される。

Figure 2013097273
Figure 2013097273
As shown in Expression (12) and Expression (13), the index d that maximizes the CSP coefficient is searched, and the direction of the sound source is calculated by converting the index d.
Figure 2013097273
Figure 2013097273

上記のように、CSP法では、振幅情報を正規化して、位相差情報だけで算出している。さらに、非特許文献1に記載の方法では、ウィーナーフィルタ(Wiener Fileter)を用いている。このような音源方向の推定では、より精度を高くすることが望まれている。例えば、マイクに対して、雑音源や目的音源が相対的に移動している場合に、より正確に方向を推定することが望まれている。   As described above, in the CSP method, amplitude information is normalized, and calculation is performed using only phase difference information. Furthermore, in the method described in Non-Patent Document 1, a Wiener filter is used. In such estimation of the sound source direction, higher accuracy is desired. For example, when a noise source and a target sound source are moving relative to a microphone, it is desired to estimate the direction more accurately.

本発明は、上記の問題点に鑑みてなされたものであり、正確に音源を推定することができる音源推定装置、音源推定方法、及び音源推定プログラムを提供することを目的とする。   The present invention has been made in view of the above problems, and an object thereof is to provide a sound source estimation apparatus, a sound source estimation method, and a sound source estimation program that can accurately estimate a sound source.

本発明の一態様にかかる音源推定装置は、少なくとも2つのマイクによって取得された観測信号を用いて、音源の方向を推定する音源推定装置であって、前記観測信号に含まれる雑音成分を推定する雑音推定部と、前記雑音推定部で推定された雑音成分に基づいて、マスクを生成するマスク生成部と、前記マスク生成部で生成されたマスクの信頼度を算出する信頼度算出部と、前記マスク、及び前記マスクの信頼度によって補正されたCSP係数を算出するCSP係数算出部と、補正された前記CSP係数に基づいて、音源の方向を推定する推定部と、を備えたものである。このようにマスクとマスクの信頼度を導入することで、正確に音源を推定することができる。   A sound source estimation apparatus according to an aspect of the present invention is a sound source estimation apparatus that estimates a direction of a sound source using observation signals acquired by at least two microphones, and estimates a noise component included in the observation signal. A noise estimation unit; a mask generation unit that generates a mask based on a noise component estimated by the noise estimation unit; a reliability calculation unit that calculates a reliability of the mask generated by the mask generation unit; A mask, a CSP coefficient calculation unit that calculates a CSP coefficient corrected by the reliability of the mask, and an estimation unit that estimates a direction of a sound source based on the corrected CSP coefficient. Thus, by introducing the mask and the reliability of the mask, the sound source can be accurately estimated.

上記の音源推定装置において、補正された前記CSP係数を最大とするインデックスに基づいて、2つの前記マイクに音が到来する到来時間差を算出し、前記到来時間差に基づいて、前記推定部が音源の方向を推定し、前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定してもよい。このようにすることで、より正確に音源を推定することができる。   In the sound source estimation device, based on the index that maximizes the corrected CSP coefficient, an arrival time difference between the two microphones is calculated, and based on the arrival time difference, the estimation unit determines the sound source A direction may be estimated, and whether or not a target sound source exists in the estimated direction may be determined according to the corrected maximum value of the CSP coefficient. By doing so, the sound source can be estimated more accurately.

上記の音源推定装置において、前記マスクが、周波数に応じた離散的な値であり、2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されていてもよい。   In the sound source estimation apparatus, the mask is a discrete value corresponding to a frequency, and is corrected by performing an inverse Fourier transform on a product of the cross-correlation of observation signals from the two microphones and the mask. The CSP coefficient may be calculated.

上記の音源推定装置において、前記逆フーリエ変換した値に前記信頼度を乗じることによって、補正された前記CSP係数が算出されていてもよい。   In the sound source estimation apparatus, the corrected CSP coefficient may be calculated by multiplying the inverse Fourier transform value by the reliability.

本発明の一態様にかかる移動体は、上記の音源推定装置を搭載した移動体であって、前記移動体の動作状態に応じた車両信号に基づいて、前記雑音推定部が雑音推定を行うことを特徴とするものである。このようにすることで、適切なタイミングで推定された雑音成分を用いて、音源を推定することができる。   A moving object according to an aspect of the present invention is a moving object equipped with the above-described sound source estimation device, and the noise estimation unit performs noise estimation based on a vehicle signal according to an operation state of the moving object. It is characterized by. By doing in this way, a sound source can be estimated using a noise component estimated at an appropriate timing.

上記の移動体において、前記移動体がマスクを予め記憶したマスク記憶部と、前記移動体の動作状態に応じた車両信号に基づいて、前記マスク記憶部に記憶されたマスクと、前記マスク生成部で生成されたマスクのいずれかを選択するマスク選択部と、をさらに備えていてもよい。このようにすることで、適切なマスクを用いて音源を推定することができる。   In the above moving body, a mask storage unit in which the mobile body stores a mask in advance, a mask stored in the mask storage unit based on a vehicle signal corresponding to an operation state of the moving body, and the mask generation unit And a mask selection unit that selects any of the masks generated in (1). By doing in this way, a sound source can be estimated using an appropriate mask.

本発明の一態様にかかる音源推定方法は、少なくとも2つのマイクによって取得された観測信号を用いて、音源の方向を推定する音源推定方法であって、前記観測信号に含まれる雑音成分を推定するステップと、前記雑音成分に基づいて、マスクを生成するステップと、前記マスクの信頼度を算出するステップと、前記マスク、及び前記マスクの前記信頼度によって補正されたCSP係数を算出するステップと、補正された前記CSP係数に基づいて、音源の方向を推定するステップと、を備えたものである。このようにマスクとマスクの信頼度を導入することで、正確に音源を推定することができる。   A sound source estimation method according to an aspect of the present invention is a sound source estimation method that estimates a direction of a sound source using observation signals acquired by at least two microphones, and estimates a noise component included in the observation signal. Generating a mask based on the noise component; calculating a reliability of the mask; calculating a CSP coefficient corrected by the mask and the reliability of the mask; And estimating the direction of the sound source based on the corrected CSP coefficient. Thus, by introducing the mask and the reliability of the mask, the sound source can be accurately estimated.

上記の音源推定方法において、補正された前記CSP係数を最大とするインデックスに基づいて、2つの前記マイクに音が到来する到来時間差を算出し、前記到来時間差に基づいて、前記推定部が音源の方向を推定し、前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定してもよい。このようにすることで、より正確に音源を推定することができる。   In the sound source estimation method, based on the index that maximizes the corrected CSP coefficient, a difference in arrival time when sound arrives at the two microphones is calculated. Based on the difference in arrival time, the estimation unit determines the sound source A direction may be estimated, and whether or not a target sound source exists in the estimated direction may be determined according to the corrected maximum value of the CSP coefficient. By doing so, the sound source can be estimated more accurately.

上記の音源推定方法において、前記マスクが、周波数に応じた離散的な値であり、2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されていてもよい。   In the sound source estimation method, the mask is a discrete value corresponding to a frequency, and is corrected by performing an inverse Fourier transform on a product of a cross-correlation of observation signals from the two microphones and the mask. The CSP coefficient may be calculated.

上記の音源推定方法において、前記逆フーリエ変換した値に前記信頼度を乗じることによって、補正された前記CSP係数が算出されていてもよい。   In the above sound source estimation method, the corrected CSP coefficient may be calculated by multiplying the inverse Fourier transform value by the reliability.

上記の音源推定プログラムは、少なくとも2つのマイクによって取得された観測信号を用いて、音源の方向を推定する音源推定プログラムであって、コンピュータに対して、前記観測信号に含まれる雑音成分を推定するステップと、前記雑音成分に基づいて、マスクを生成するステップと、前記マスクの信頼度を算出するステップと、前記マスク、及び前記マスクの前記信頼度によって補正されたCSP係数を算出するステップと、補正された前記CSP係数に基づいて、音源の方向を推定するステップと、を実行させるものである。このようにマスクとマスクの信頼度を導入することで、正確に音源を推定することができる。   The sound source estimation program is a sound source estimation program that estimates the direction of a sound source using observation signals acquired by at least two microphones, and estimates a noise component included in the observation signal to a computer Generating a mask based on the noise component; calculating a reliability of the mask; calculating a CSP coefficient corrected by the mask and the reliability of the mask; And a step of estimating a direction of a sound source based on the corrected CSP coefficient. Thus, by introducing the mask and the reliability of the mask, the sound source can be accurately estimated.

上記の音源推定プログラムは、コンピュータに対して、補正された前記CSP係数を最大とするインデックスに基づいて、2つの前記マイクに音が到来する到来時間差を算出させ、前記到来時間差に基づいて、前記推定部が音源の方向を推定させ、前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定させてもよい。このようにすることで、より正確に音源を推定することができる。   The sound source estimation program causes a computer to calculate an arrival time difference between two microphones based on an index that maximizes the corrected CSP coefficient, and based on the arrival time difference, The estimation unit may cause the direction of the sound source to be estimated and determine whether or not the target sound source exists in the estimated direction according to the corrected maximum value of the CSP coefficient. By doing so, the sound source can be estimated more accurately.

上記の音源推定プログラムは、前記マスクが、周波数に応じた離散的な値であり、
2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されていてもよい。
In the sound source estimation program, the mask is a discrete value corresponding to a frequency,
The corrected CSP coefficient may be calculated by performing inverse Fourier transform on the product of the cross-correlation of the observation signals from the two microphones and the mask.

上記の音源推定プログラムは、前記逆フーリエ変換した値に前記信頼度を乗じることによって、補正された前記CSP係数が算出されていてもよい。   The sound source estimation program may calculate the corrected CSP coefficient by multiplying the inverse Fourier transform value by the reliability.

本発明によれば、正確に音源を推定することができる音源推定装置、音源推定方法、音源推定プログラム、及びそれを用いた移動体を提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, the sound source estimation apparatus which can estimate a sound source correctly, a sound source estimation method, a sound source estimation program, and a mobile body using the same can be provided.

実施の形態にかかる音源推定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the sound source estimation apparatus concerning embodiment. 音源推定装置におけるフローを示すブロック図である。It is a block diagram which shows the flow in a sound source estimation apparatus. 実施の形態にかかる音源推定装置の応用例を示すブロック図である。It is a block diagram which shows the application example of the sound source estimation apparatus concerning embodiment. CSP法による音源推定を説明する図である。It is a figure explaining the sound source estimation by CSP method.

以下、本発明に係る音源推定装置の実施形態を、図面に基づいて詳細に説明する。但し、本発明が以下の実施形態に限定される訳ではない。また、説明を明確にするため、以下の記載及び図面は、適宜、簡略化されている。   Hereinafter, embodiments of a sound source estimation apparatus according to the present invention will be described in detail with reference to the drawings. However, the present invention is not limited to the following embodiments. In addition, for clarity of explanation, the following description and drawings are simplified as appropriate.

まず、本発明の実施の形態にかかる音源推定装置について、図1を用いて説明する。図1は、音源推定装置のシステム構成を示すブロック図である。本実施の形態に係る音源推定装置は、音源の方向を推定している。さらに、推定された音源の方向に目的とする音源が存在するか否かを判定している。例えば、本実施の形態にかかる音源推定装置を、車両に搭載する。そして、音源である他の車両の方向、並びに、他の車両が近くに存在しているか否かを検出している。このようにすることで、接近車両の有無、及びその方向を検出することができる。これにより、車両が接近していることを効果的に報知することができ、交通事故の防止に資することができる。   First, a sound source estimation apparatus according to an embodiment of the present invention will be described with reference to FIG. FIG. 1 is a block diagram showing a system configuration of the sound source estimation apparatus. The sound source estimation apparatus according to the present embodiment estimates the direction of the sound source. Further, it is determined whether or not a target sound source exists in the estimated direction of the sound source. For example, the sound source estimation apparatus according to the present embodiment is mounted on a vehicle. And the direction of the other vehicle which is a sound source, and whether other vehicles exist near are detected. By doing in this way, the presence or absence of an approaching vehicle and its direction can be detected. Thereby, it can notify effectively that the vehicle is approaching, and it can contribute to prevention of a traffic accident.

図1に示すように、音源推定装置は、マイク11、マイク12、マイクアンプ13、マイクアンプ14、AD変換器15、及びCPU16を備えている。図1においては、二つのマイク11、12しか示されていないが、マイクの数は特に限定されるものではない。マイクの数は複数であればよく、例えば、3以上であってもよい。例えば、複数のマイクがアレイ状に配列されたマイクロホンアレーを用いることができる。そして、多数のマイクのうちの2つのマイクに対して、以下の処理を行う。こうすることで、音源の方向の推定が可能とある。さらに、一対のマイクを複数用意して、それぞれに対して以下の処理を行うことで、音源の位置を特定することもできる。   As shown in FIG. 1, the sound source estimation apparatus includes a microphone 11, a microphone 12, a microphone amplifier 13, a microphone amplifier 14, an AD converter 15, and a CPU 16. In FIG. 1, only two microphones 11 and 12 are shown, but the number of microphones is not particularly limited. The number of microphones may be plural, for example, three or more. For example, a microphone array in which a plurality of microphones are arranged in an array can be used. Then, the following processing is performed on two of the many microphones. By doing so, the direction of the sound source can be estimated. Furthermore, the position of the sound source can be specified by preparing a plurality of pairs of microphones and performing the following processing on each of them.

マイク11とマイク12とは、距離Dだけ隔てて配置されている。マイク11、12がθ(t)の方向からの音を検出したとする。すなわち、図1では、目的音源がθ(t)の方向にあるとしている。マイク11、12は、検出した音に応じた観測信号を出力する。   The microphone 11 and the microphone 12 are spaced apart by a distance D. Assume that the microphones 11 and 12 detect sound from the direction of θ (t). That is, in FIG. 1, it is assumed that the target sound source is in the direction of θ (t). The microphones 11 and 12 output an observation signal corresponding to the detected sound.

マイクアンプ13、14は、マイク11、マイク12からの観測信号をそれぞれ増幅して、A/D変換器15に出力する。AD変換器15は、入力された観測信号をA/D変換する。A/D変換器15から出力されたデジタルの観測信号は、CPU(Central Processing Unit)に入力される。CPU16は、A/D変換器15からの観測信号に対して、音源方向を推定するための演算処理を行う。CPU16は、図示しないROM(Read Only Memory)、RAM(Random Access Memory)に記憶されているプログラムやパラメータ等を参照して、処理を行う。   The microphone amplifiers 13 and 14 amplify the observation signals from the microphones 11 and 12, respectively, and output the amplified signals to the A / D converter 15. The AD converter 15 performs A / D conversion on the input observation signal. The digital observation signal output from the A / D converter 15 is input to a CPU (Central Processing Unit). The CPU 16 performs arithmetic processing for estimating the sound source direction on the observation signal from the A / D converter 15. The CPU 16 performs processing with reference to programs and parameters stored in a ROM (Read Only Memory) and a RAM (Random Access Memory) (not shown).

次に、CPU16における処理ブロックの構成について図2を用いて説明する。図2は、CPU12の構成を示すブロック図である。CPU16は、A/D変換器15からの観測信号に対して、ブロックに従った処理を行う。CPU16は、短時間DFT部21と、短時間DFT部22と、雑音推定器23と、マスク生成部24と、Reliability生成部25と、時間周波数補正型のCSP係数算出部26と、時間差推定部27と、方位推定部28と、を備えている。   Next, the configuration of processing blocks in the CPU 16 will be described with reference to FIG. FIG. 2 is a block diagram showing the configuration of the CPU 12. The CPU 16 performs processing according to the block on the observation signal from the A / D converter 15. The CPU 16 includes a short-time DFT unit 21, a short-time DFT unit 22, a noise estimator 23, a mask generation unit 24, a reliability generation unit 25, a time-frequency correction type CSP coefficient calculation unit 26, and a time difference estimation unit. 27 and an azimuth estimation unit 28.

マイク11によって観測される観測信号を観測信号x(t)とし、マイク12によって観測される信号を観測信号x(t)としている。短時間DFT部21、22では、観測信号x、x(t)を短時間離散フーリエ変換する。例えば、所定時間の観測信号をバッファやメモリに記憶して、その観測信号を、複数のフレームに分割する。例えば、時間領域において、隣接フレームが半分重なるように、ハーフシフトによってフレーム分割している。また、窓関数を用いて、フレーム分割しても良い。さらに、フレーム分割された観測信号を離散フーリエ変換する。このようにすることで、時間領域の観測信号x(t)、x(t)がそれぞれ時間−周波数領域の観測信号X(ω,t)、X(ω,t)に変換される。短時間DFT部21、22は、観測信号X(ω,t)、X(ω,t)を雑音推定器23、マスク生成部24、CSP係数算出部26に出力する An observation signal observed by the microphone 11 is an observation signal x 1 (t), and a signal observed by the microphone 12 is an observation signal x 2 (t). The short-time DFT units 21 and 22 perform short-time discrete Fourier transform on the observation signals x 1 and x 2 (t). For example, an observation signal for a predetermined time is stored in a buffer or a memory, and the observation signal is divided into a plurality of frames. For example, in the time domain, the frame is divided by half shift so that adjacent frames are overlapped by half. Further, the frame may be divided using a window function. Further, the observation signal divided into frames is subjected to discrete Fourier transform. In this way, the time domain observation signals x 1 (t) and x 2 (t) are converted into time-frequency domain observation signals X 1 (ω, t) and X 2 (ω, t), respectively. The The short-time DFT units 21 and 22 output the observation signals X 1 (ω, t) and X 2 (ω, t) to the noise estimator 23, the mask generation unit 24, and the CSP coefficient calculation unit 26.

雑音推定器23は、観測信号X(ω,t)、X(ω,t)を用いて、雑音を推定する。例えば、過去時間における時間平均やNullbeamformer等のマイクロホンアレイによる推定方法を用いることができる。具体的には、以下の式(14)を用いて雑音推定することができる。なお、式(14)において、Sはフレームの分割数である。

Figure 2013097273
The noise estimator 23 estimates noise using the observation signals X 1 (ω, t) and X 2 (ω, t). For example, a time average in the past time or an estimation method using a microphone array such as Nullbeamformer can be used. Specifically, noise estimation can be performed using the following equation (14). In Equation (14), S is the number of frame divisions.
Figure 2013097273

雑音推定器23は、推定した雑音N(ω,t)をマスク生成部24に出力する。マスク生成部24は、周波数に応じてCSP係数をマスキングするマスクM(ω,t)を生成する。マスク生成部24は、雑音N(ω,t)、及び観測信号X(ω,t)、X(ω,t)を用いて、マスクM(ω,t)を算出する。例えば、式(9)で示した近似式の成立/不成立は、到来した音の各周波数におけるSN比(SNR)で決まる。このため、SN比を推定して、近似式が成立するか否かを判定する。近似式が成立しない周波数帯域、すなわち雑音が高い帯域に対しては、マスキング処理を行うための処理を導入する。こうすることで、雑音成分の影響が小さい帯域だけでCSP係数を算出することが可能となる。これにより、低SNR環境(高雑音環境下)においても、頑健に動作する音源方向推定が可能となる。 The noise estimator 23 outputs the estimated noise N (ω, t) to the mask generation unit 24. The mask generation unit 24 generates a mask M (ω, t) that masks the CSP coefficient according to the frequency. The mask generator 24 calculates the mask M (ω, t) using the noise N (ω, t) and the observation signals X 1 (ω, t) and X 2 (ω, t). For example, the establishment / non-establishment of the approximate expression shown in Expression (9) is determined by the SN ratio (SNR) at each frequency of the incoming sound. For this reason, the SN ratio is estimated and it is determined whether or not the approximate expression holds. For a frequency band in which the approximate expression is not satisfied, that is, a band with high noise, a process for performing a masking process is introduced. By doing so, it is possible to calculate the CSP coefficient only in the band where the influence of the noise component is small. This makes it possible to estimate the direction of a sound source that operates robustly even in a low SNR environment (under a high noise environment).

例えば、雑音N(ω,t)をしきい値と比較して、その比較結果に応じてM(ω,t)を設定すればよい。具体的には、雑音N(ω,t)の値がしきい値よりも大きい場合、M(ω,t)=0とし、しきい値よりも小さい場合、M(ω,t)=0とする。このように、マスクM(ω,t)は周波数に応じた離散的な値となっている。マスク生成部24で生成したマスクM(ω,t)は、Reliability生成部25と時間周波数補正型のCSP係数算出部26とに入力される。   For example, the noise N (ω, t) may be compared with a threshold value and M (ω, t) may be set according to the comparison result. Specifically, when the value of the noise N (ω, t) is larger than the threshold value, M (ω, t) = 0, and when smaller than the threshold value, M (ω, t) = 0. To do. Thus, the mask M (ω, t) has a discrete value corresponding to the frequency. The mask M (ω, t) generated by the mask generation unit 24 is input to the reliability generation unit 25 and the time-frequency correction type CSP coefficient calculation unit 26.

Reliability生成部25はマスクM(ω,t)の信頼度を示すReliability(t)を算出する。上記のように、雑音N(ω,t)に応じて、M(ω,t)の値が変化している。従って、M(ω,t)=1となる周波数が多いほど、雑音が少なく、信頼度が高くなると考えられる。一方、M(ω,t)=0となる周波数が多いほど、雑音が多く、信頼度が低くなると考えられる。このような場合、観測信号中に含まれる目的音源からの信号成分が少ないため、推定された目的音源の方向の信頼性が低くなる。従って、マスクM(ω,t)の信頼度を示すReliability(t)を導入することで、より正確に音源の方向を推定することができる。すなわち、雑音成分と信号成分とに基づいて、マスクM(ω,t)とReliability(t)とを用いることで、時間―周波数補正を行ったCSP係数を算出することができる。   The reliability generation unit 25 calculates Reliability (t) indicating the reliability of the mask M (ω, t). As described above, the value of M (ω, t) changes according to the noise N (ω, t). Therefore, it is considered that the more the frequency at which M (ω, t) = 1, the less the noise and the higher the reliability. On the other hand, it is considered that the greater the frequency at which M (ω, t) = 0, the greater the noise and the lower the reliability. In such a case, since there are few signal components from the target sound source included in the observation signal, the reliability of the estimated direction of the target sound source is lowered. Therefore, the direction of the sound source can be estimated more accurately by introducing Reliability (t) indicating the reliability of the mask M (ω, t). That is, based on the noise component and the signal component, the CSP coefficient subjected to time-frequency correction can be calculated by using the mask M (ω, t) and Reliability (t).

例えば、Reliability(t)が、以下の式(15)を用いて求めることができる。

Figure 2013097273
For example, Reliability (t) can be obtained using the following equation (15).
Figure 2013097273

なお、Ωは、ωのカウント数である。すなわち、Ω個のωに対するM(ω,t)が算出されているものとしている。例えば、Ω=100の場合、すなわち、ある時間において100個のM(ω,t)が算出された場合、100個中10個のM(ω,t)が1であり、90個のM(ω,t)が0であったとする。このときのReliability(t)は0.1(=10/100)となる。この場合、信頼度が低いことになる。一方、Ω=100の場合で、100個中100個のM(ω,t)が100であり、0個のM(ω,t)が0であったとする。このときのReliability(t)は1(=100/100)となる。この場合、信頼度が高いことになる。   Note that Ω is the count number of ω. That is, it is assumed that M (ω, t) for Ω ω has been calculated. For example, when Ω = 100, that is, when 100 M (ω, t) are calculated at a certain time, 10 M (ω, t) out of 100 are 1, and 90 M ( Let ω, t) be zero. At this time, Reliability (t) is 0.1 (= 10/100). In this case, the reliability is low. On the other hand, in the case of Ω = 100, 100 out of 100 M (ω, t) are 100, and 0 M (ω, t) is 0. At this time, Reliability (t) is 1 (= 100/100). In this case, the reliability is high.

Reliability生成部25は、Reliability(t)を時間−周波数補正型のCSP係数算出部26に出力する。さらに、CSP係数算出部26には、短時間DFT部21、22からの観測信号X(ω,t)、観測信号X(ω,t)が入力されている。 The reliability generation unit 25 outputs Reliability (t) to the time-frequency correction type CSP coefficient calculation unit 26. Further, the observation signal X 1 (ω, t) and the observation signal X 2 (ω, t) from the short-time DFT units 21 and 22 are input to the CSP coefficient calculation unit 26.

CSP係数算出部26は、Reliability(t)、観測信号X(ω,t)、観測信号X(ω,t)に基づいて、CSP係数CSP(ω,t)を算出する。CSP(ω,t)は、例えば、式(16)を用いて求めることができる。

Figure 2013097273
The CSP coefficient calculation unit 26 calculates the CSP coefficient CSP (ω, t) based on Reliability (t), the observation signal X 1 (ω, t), and the observation signal X 2 (ω, t). CSP (ω, t) can be obtained using, for example, Expression (16).
Figure 2013097273

式(16)に示されるように、CSP係数算出部26は、観測信号X(ω,t)、X(ω,t)をその振幅で正規化した相互相関関数とマスクM(ω,t)との積に対して逆離散フーリエ変換(IDFT)を実行している。そして、CSP係数算出部26は逆離散フーリエ変換した値に、Reliability(t)を乗じることで、CSP係数を求めている。換言すると、Reliability(t)がCSP係数の重み付けの値となっている。このようにすることで、時間及び周波数に対する補正が行われたCSP係数CSPを求めることができる。 As shown in Expression (16), the CSP coefficient calculation unit 26 normalizes the observed signals X 1 (ω, t) and X 2 (ω, t) with their amplitudes and a mask M (ω, An inverse discrete Fourier transform (IDFT) is performed on the product with t). Then, the CSP coefficient calculating unit 26 obtains the CSP coefficient by multiplying the value obtained by the inverse discrete Fourier transform by Reliability (t). In other words, Reliability (t) is the weighting value of the CSP coefficient. In this way, the CSP coefficient CSP that has been corrected for time and frequency can be obtained.

CSP係数算出部26は、算出したCSP係数を時間差推定部27に出力する。時間差推定部27は、CSP係数から到来時間差τ(t)を推定する。これにより、2つのマイク11、12に到来する音の時間差を求めることができる。例えば、到来時間差τ(t)は、式(17)を用いて算出することができる。

Figure 2013097273
The CSP coefficient calculation unit 26 outputs the calculated CSP coefficient to the time difference estimation unit 27. The time difference estimation unit 27 estimates the arrival time difference τ (t) from the CSP coefficient. Thereby, the time difference between the sounds arriving at the two microphones 11 and 12 can be obtained. For example, the arrival time difference τ (t) can be calculated using Expression (17).
Figure 2013097273

なお、sampling frequencyは、サンプリング周波数である。式(17)ではCSP係数CSP(d,t)を最大とするインデックスdを算出している。そして、このインデックスdをサンプリング周波数で除することによって、到来時間差τ(t)が算出される。このように、CSP係数、すなわち、振幅で正規化した観測信号X(ω,t)、X(ω,t)の相互相関関数に基づいて、到来時間差τ(t)を算出している。CSP法では、振幅情報を正規化して、位相差スペクトル情報を元にCSP係数を算出している。従って、CSP法は、他の音源方位推定技術よりも残響の影響に対して頑健な性質を持っている。 The sampling frequency is a sampling frequency. In Expression (17), an index d that maximizes the CSP coefficient CSP (d, t) is calculated. Then, the arrival time difference τ (t) is calculated by dividing the index d by the sampling frequency. Thus, the arrival time difference τ (t) is calculated based on the cross correlation function of the observed signals X 1 (ω, t) and X 2 (ω, t) normalized by the CSP coefficient, that is, the amplitude. . In the CSP method, amplitude information is normalized and CSP coefficients are calculated based on phase difference spectrum information. Therefore, the CSP method is more robust against the influence of reverberation than other sound source direction estimation techniques.

方位推定部28は到来時間差τ(t)に基づいて、マイク11、12に対して音が到来した方位θ(t)を推定する。これにより、音源の方向を推定することができる。例えば、式(18)を用いて方位θ(t)を推定することができる。なお、Cは音速である。

Figure 2013097273
The azimuth estimating unit 28 estimates the azimuth θ (t) at which sound has arrived with respect to the microphones 11 and 12 based on the arrival time difference τ (t). Thereby, the direction of the sound source can be estimated. For example, the azimuth θ (t) can be estimated using Equation (18). C is the speed of sound.
Figure 2013097273

判定部29は、CSP係数CSPの値に応じて方位θ(t)に、目的とする目的音源が存在しているかいかなを判定する。例えば、目的音源が他の車両であったとする。この場合、CSP係数が最大となるインデックスdの時のCSP係数CSPの値に応じて、方位θ(t)に他の車両が存在しているか否かを判定している。CSP係数の最大値がしきい値よりも大きい時は、雑音成分が低く、信頼度が高い。従って、θ(t)の方向に他の車両が存在していると判定する。一方、CSP係数の最大値がしきい値よりも小さい時は、雑音成分が高く、信頼度が低い。従って、θ(t)の方向に他の車両が存在していないと判定する。   The determination unit 29 determines whether a target sound source is present in the azimuth θ (t) according to the value of the CSP coefficient CSP. For example, assume that the target sound source is another vehicle. In this case, it is determined whether there is another vehicle in the direction θ (t) according to the value of the CSP coefficient CSP at the index d at which the CSP coefficient is maximum. When the maximum value of the CSP coefficient is larger than the threshold value, the noise component is low and the reliability is high. Therefore, it is determined that another vehicle exists in the direction of θ (t). On the other hand, when the maximum value of the CSP coefficient is smaller than the threshold value, the noise component is high and the reliability is low. Therefore, it is determined that there is no other vehicle in the direction of θ (t).

このように、CSP係数CSPとしきい値とを比較することで、方位θ(t)に音源があるか否かを推定することができる。CSP係数CSPと比較するしきい値は、実験結果等に応じて、ユーザが予め設定してもよい。CSP係数CSPの最大値に応じて、方位θ(t)に目的音源があるか否かを検出している。よって、信頼性を向上することができる。   Thus, by comparing the CSP coefficient CSP with the threshold value, it can be estimated whether there is a sound source in the azimuth θ (t). The threshold value to be compared with the CSP coefficient CSP may be set in advance by the user according to the experimental result or the like. Whether or not there is a target sound source in the azimuth θ (t) is detected according to the maximum value of the CSP coefficient CSP. Therefore, reliability can be improved.

このようなCSP係数に基づく判定手法は、例えば、「複数車両に対応したマイクロホンアレーによる接近車両検出システムの構築」 坂野秀樹 他著 電子情報通信学会技術研究報告;巻号:2011−3−18, 110, 471 ; pp13−16に記載された手法を用いることができる。   Such a determination method based on the CSP coefficient is, for example, “Construction of an approaching vehicle detection system using a microphone array corresponding to a plurality of vehicles” Hideki Sakano et al., IEICE Technical Report; Volume: 2011-3-18, 110, 471; pp13-16 can be used.

上記の音源推定方法を用いることで、目的音源の方向をより正確に推定することが可能になる。マスクM(ω,t)を導入することで、雑音成分の高い周波数の影響を低減することができる。さらに、マスクM(ω,t)の信頼性を示すReliability(t)を導入することで、信頼性の低いタイミングにおいて方向が推定されるのを防ぐことができる。すなわち、信号成分の高いタイミングでの推定が可能となる。これにより、目的となる音源の方向をより正確に推定することができる。   By using the above sound source estimation method, the direction of the target sound source can be estimated more accurately. By introducing the mask M (ω, t), it is possible to reduce the influence of the frequency having a high noise component. Furthermore, by introducing Reliability (t) indicating the reliability of the mask M (ω, t), it is possible to prevent the direction from being estimated at a timing with low reliability. That is, it is possible to estimate the signal component at a high timing. Thereby, the direction of the target sound source can be estimated more accurately.

上記の説明では、マスクM(ω,t)をバイナリ、すなわち、(0,1)の2値で設定したが、マスクM(ω,t)は(0,1)の2値に限られるものではない。すなわち、マスクM(ω,t)の値を、段階的、あるいは連続的に設定してよい。例えば、雑音N(ω,t)を複数のしきい値と比較して、マスクM(ω,t)を0から1の間で多段階に算出してもよい。さらには、マスクM(ω,t)を0から1の間の連続値として算出してもよい。具体的には、以下の式(19)または式(20)で示されたウィーナーフィルタを用いて、マスクM(ω,t)を算出することができる。   In the above description, the mask M (ω, t) is set to binary, that is, binary of (0,1), but the mask M (ω, t) is limited to the binary of (0,1). is not. That is, the value of the mask M (ω, t) may be set stepwise or continuously. For example, the noise N (ω, t) may be compared with a plurality of threshold values, and the mask M (ω, t) may be calculated in multiple stages between 0 and 1. Further, the mask M (ω, t) may be calculated as a continuous value between 0 and 1. Specifically, the mask M (ω, t) can be calculated using the Wiener filter expressed by the following formula (19) or formula (20).

Figure 2013097273
Figure 2013097273
Figure 2013097273
Figure 2013097273

なお、γは、実験結果等に応じて予め設定しておくことができるパラメータであり、2あるいは2以外の実数とすることができる。こうすることで、擬似パラメトリックウィーナーフィルタを用いて、マスクを生成することができる。同様に、βも実験結果等に応じて予め設定しておくことができるパラメータであり、1あるいは1以外の実数とすることができる。このように、雑音成分の高い周波数の影響を排除又は抑制することができるマスクM(ω,t)を導入することができる。またマスクM(ω,t)の値を連続値として設定した場合でも、上記の式(15)を用いて、Reliability(t)を算出することができる。   Note that γ is a parameter that can be set in advance according to an experimental result or the like, and can be a real number other than 2 or 2. In this way, a mask can be generated using a pseudo parametric Wiener filter. Similarly, β is a parameter that can be set in advance according to the experimental result or the like, and can be a real number other than 1 or 1. In this way, a mask M (ω, t) that can eliminate or suppress the influence of a high frequency noise component can be introduced. Even when the value of the mask M (ω, t) is set as a continuous value, Reliability (t) can be calculated using the above equation (15).

上記の音源推定装置は、移動体への搭載に好適である。自動車、移動ロボット、オートバイなどの移動体では、自己が移動しながら、音源方向を推定することになる。さらには、他の移動体が移動している公道等の環境下では、音源である他の移動体も移動することになる。このような場合、目的音源に対して移動体が相対的に移動しながら、音源推定装置が音源方向の推定を行う。目的音源と音源推定装置が相対的に移動している環境下において、上記の音源推定処理を行う。上記の音源推定処理では、時間補正が行われたCSP係数を用いているため、より正確に方向を推定することができる。すなわち、Reliability(t)を導入して、信頼度の高いタイミングでの観測信号から音源方向を推定しているため、推定精度を向上することができる。   The above-described sound source estimation apparatus is suitable for mounting on a moving object. In a moving body such as an automobile, a mobile robot, and a motorcycle, the direction of the sound source is estimated while moving by itself. Furthermore, in an environment such as a public road where other moving bodies are moving, the other moving bodies that are sound sources also move. In such a case, the sound source estimation apparatus estimates the sound source direction while the moving body moves relative to the target sound source. The sound source estimation process described above is performed in an environment where the target sound source and the sound source estimation apparatus are relatively moving. In the sound source estimation process, since the CSP coefficient subjected to time correction is used, the direction can be estimated more accurately. That is, since the reliability (t) is introduced and the sound source direction is estimated from the observation signal at a highly reliable timing, the estimation accuracy can be improved.

以下に、音源推定装置を移動体である車両に搭載した例について、図3を用いて説明する。図3は、音源推定装置を搭載した車両の要部を示すブロック図である。車両30は、車両信号取得部31と、雑音推定器起動部32を有している。さらに、マスク記憶部41と、マスク選択部42が、図2で示した音源推定装置に追加されている。なお、図2で示した、短時間DFT部21、短時間DFT部22、時間差推定部27、方位推定部28、及び判定部29については、同様の処理を行うため、図3では図示を省略している。図3に示す構成では、下記に示すように、マスクM(ω,t)を動的に生成している。   Hereinafter, an example in which the sound source estimation apparatus is mounted on a vehicle that is a moving body will be described with reference to FIG. FIG. 3 is a block diagram showing a main part of a vehicle equipped with a sound source estimation device. The vehicle 30 includes a vehicle signal acquisition unit 31 and a noise estimator activation unit 32. Further, a mask storage unit 41 and a mask selection unit 42 are added to the sound source estimation apparatus shown in FIG. The short-time DFT unit 21, the short-time DFT unit 22, the time difference estimation unit 27, the direction estimation unit 28, and the determination unit 29 shown in FIG. doing. In the configuration shown in FIG. 3, the mask M (ω, t) is dynamically generated as described below.

車両信号取得部31は、車両30に関する車両信号を取得する。車両信号取得部31は例えば、車両30の制御信号や操作信号を車両信号として取得する。具体的には、車両30が自動車であるとすると、車両30に設けられたワイパーやヘッドライトのオンオフを車両信号として取得する。さらには、車両30の走行速度や、ブレーキペダルやアクセルペダルの踏み込み量、地図情報やGPSからの位置情報を車両信号としてもよい。また、カメラやレーダからの他のセンサからの認識結果を車両信号としてもよい。車両信号は、車両30の動作状態に関する情報であればよい。車両信号取得部31は、取得した車両信号を、雑音推定器起動部32と、マスク選択部42に出力する。   The vehicle signal acquisition unit 31 acquires a vehicle signal related to the vehicle 30. For example, the vehicle signal acquisition unit 31 acquires a control signal or an operation signal of the vehicle 30 as a vehicle signal. Specifically, if the vehicle 30 is an automobile, the on / off state of a wiper or a headlight provided on the vehicle 30 is acquired as a vehicle signal. Furthermore, the traveling speed of the vehicle 30, the depression amount of the brake pedal or the accelerator pedal, map information, or position information from GPS may be used as the vehicle signal. In addition, a recognition result from another sensor from a camera or radar may be used as a vehicle signal. The vehicle signal may be information regarding the operating state of the vehicle 30. The vehicle signal acquisition unit 31 outputs the acquired vehicle signal to the noise estimator activation unit 32 and the mask selection unit 42.

雑音推定器起動部32は、車両30の動作状態に応じた車両信号に基づいて、雑音推定器23を起動させる。雑音推定器23は、雑音推定器起動部32からの指示によって、雑音推定を開始する。環境中の雑音が変化した場合、雑音推定器起動部32は雑音推定器23を起動させる。例えば、車速がある速度以下(例えば、20km/h以下)になったタイミングで、雑音推定器起動部32が雑音推定器23を起動してもよい。これにより、車速が一定速度以下になったタイミングで、雑音推定が行われる。あるいは、ブレーキペダルやアクセルペダルに踏み込み量に基づいて、雑音推定器起動部32が雑音推定器23を起動してもよい。さらには、地図情報とGPSからの位置情報に基づいて、雑音推定器起動部32が雑音推定器23を起動してもよい。具体的には、交通事故が多い交差点等の地点に車両30が近づいた場合、その直前での雑音推定によって、マスクを生成するようにしてもよい。さらには、カメラやレーザなどの他のセンサの認識結果から、雑音推定器起動部32が雑音推定器23を起動してもよい。このように、車両30の周囲の環境が変わったタイミングや、車両30の動作が変化したタイミングで、雑音推定が行われるよう、雑音推定器起動部32が雑音推定器23を起動させる。   The noise estimator activation unit 32 activates the noise estimator 23 based on the vehicle signal corresponding to the operation state of the vehicle 30. The noise estimator 23 starts noise estimation in response to an instruction from the noise estimator activation unit 32. When the noise in the environment changes, the noise estimator activation unit 32 activates the noise estimator 23. For example, the noise estimator activation unit 32 may activate the noise estimator 23 at a timing when the vehicle speed becomes a certain speed or less (for example, 20 km / h or less). Thereby, noise estimation is performed at the timing when the vehicle speed becomes a certain speed or less. Alternatively, the noise estimator activation unit 32 may activate the noise estimator 23 based on the depression amount of the brake pedal or the accelerator pedal. Furthermore, the noise estimator activation unit 32 may activate the noise estimator 23 based on the map information and the position information from the GPS. Specifically, when the vehicle 30 approaches a point such as an intersection where traffic accidents frequently occur, a mask may be generated by noise estimation immediately before that. Furthermore, the noise estimator activation unit 32 may activate the noise estimator 23 based on the recognition results of other sensors such as a camera and a laser. In this way, the noise estimator activation unit 32 activates the noise estimator 23 so that noise estimation is performed at the timing when the environment around the vehicle 30 changes or when the operation of the vehicle 30 changes.

マスク記憶部41は、予め設定された一つ以上のマスクM(ω,t)を記憶している。例えば、商品開発時に実験等によってマスクを求めておき、商品製造時にマスク記憶部41に予め記憶させておく。さらに、マスク記憶部41は、マスク生成部24が生成したマスクM(ω,t)を記憶する。具体的は、ワイパーが動作している状態の雑音成分を予め集音し、その集音結果に基づいてマスクを予め生成しておく。あるいは、ある速度で走行している車両のエンジン音を集音して、その集音結果に基づいてマスクを予め生成しておく。このようなマスクをマスク記憶部41に予め記憶させておく。   The mask storage unit 41 stores one or more preset masks M (ω, t). For example, a mask is obtained by an experiment or the like at the time of product development, and stored in advance in the mask storage unit 41 at the time of product manufacture. Further, the mask storage unit 41 stores the mask M (ω, t) generated by the mask generation unit 24. Specifically, a noise component in a state where the wiper is operating is collected in advance, and a mask is generated in advance based on the sound collection result. Alternatively, the engine sound of a vehicle traveling at a certain speed is collected, and a mask is generated in advance based on the sound collection result. Such a mask is stored in the mask storage unit 41 in advance.

マスク選択部42は、状況に応じて、以下の(a)〜(c)を選択する。
(a)その場で生成したマスク
(b)マスク記憶部41に商品製造時に予め記憶されているマスク
(c)マスクを使用しない(すなわち、M(ω,t)の全要素が常時1となるマスク)
The mask selection unit 42 selects the following (a) to (c) according to the situation.
(A) The mask generated on the spot (b) The mask (c) mask previously stored at the time of product manufacture is not used in the mask storage unit 41 (that is, all elements of M (ω, t) are always 1) mask)

(a)のマスクは、上述したように、その場で取得した観測信号X(ω,t)、観測信号Xと、それらから推定された雑音N(ω、t)を用いて生成される。(a)のマスクは、現在の環境や車両30の動作状態に応じたマスクとなっている。一方、マスク記憶部41は、その場の観測信号によらないマスクを予め記憶している。 As described above, the mask of (a) is generated using the observation signal X 1 (ω, t), the observation signal X 2 acquired on the spot, and the noise N (ω, t) estimated from them. The The mask (a) is a mask according to the current environment and the operating state of the vehicle 30. On the other hand, the mask storage unit 41 stores in advance a mask that does not depend on the in-situ observation signal.

マスク選択部42は、車両信号に基づいて、上記の(a)〜(c)のマスクのいずれか1つを選択する。例えば、ワイパースイッチがオンの場合とオフの場合とで、雨天時のマスクと、晴天時のマスクを切り替える。具体的には、雨天時のマスクは(b)のマスクとし、晴天時のマスクは(a)のマスクとすることができる。さらに、ヘッドライトがオンの場合と、オフの場合とで、夜用のマスクと、日中用のマスクとを切り替える。地図情報とGPSからの位置情報から、市街地や郊外等の場所の特性に応じたマスクを切り替えるようにしてもよい。このように、マスク選択部42は、車両30の動作状況に応じて最適なマスクを選択する。   The mask selection unit 42 selects any one of the masks (a) to (c) described above based on the vehicle signal. For example, the mask for rainy weather and the mask for sunny weather are switched depending on whether the wiper switch is on or off. Specifically, the mask in the rainy weather can be the mask (b), and the mask in the fine weather can be the mask (a). Furthermore, the mask for the night and the mask for the day are switched depending on whether the headlight is on or off. You may make it switch the mask according to the characteristic of places, such as a city area and a suburb, from map information and the positional information from GPS. As described above, the mask selection unit 42 selects an optimal mask according to the operation state of the vehicle 30.

上述したように、車両30の状況を示す車両情報に基づいて、雑音推定器23を起動させている。従って、車両30の状況変化に応じて、雑音モデル、すなわち、マスクM(ω,t)を動的に生成することができる。車両30の周囲の雑音の態様が刻々と変化する場合でも適切なタイミングでマスクM(ω,t)を生成することができる。これにより、音源の方向を正確に推定することができる。さらに、マスク記憶部41に記憶されたマスクと、その場で生成したマスクを車両信号に応じて使い分けている。これにより、より正確に音源を推定することができるようになる。車両30に音源推定装置を搭載することで、交差点等において、死角となる横道からの接近車両の認知が可能となる。   As described above, the noise estimator 23 is activated based on the vehicle information indicating the state of the vehicle 30. Accordingly, a noise model, that is, a mask M (ω, t) can be dynamically generated in accordance with a change in the situation of the vehicle 30. Even when the state of noise around the vehicle 30 changes every moment, the mask M (ω, t) can be generated at an appropriate timing. Thereby, the direction of the sound source can be accurately estimated. Furthermore, the mask memorize | stored in the mask memory | storage part 41 and the mask produced | generated on the spot are used properly according to a vehicle signal. As a result, the sound source can be estimated more accurately. By mounting the sound source estimation device on the vehicle 30, it is possible to recognize an approaching vehicle from a side road that becomes a blind spot at an intersection or the like.

なお、上記の説明では、音源推定装置が自動車である車両30に搭載されている例について説明したが、音源推定装置を搭載する移動体は特に限定されるものではない。例えば、オートバイ、移動ロボット等に音源推定装置を搭載してもよい。移動ロボットに音源推定装置を搭載することで、ユーザの声の方向に振り返ったり、異常音を検知することも可能になる。   In the above description, the example in which the sound source estimation device is mounted on the vehicle 30 that is an automobile has been described. However, the moving body on which the sound source estimation device is mounted is not particularly limited. For example, a sound source estimation device may be mounted on a motorcycle, a mobile robot, or the like. By mounting a sound source estimation device on a mobile robot, it becomes possible to look back in the direction of the user's voice or detect abnormal sounds.

上述した音源推定処理は、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、若しくはCPU(Central Processing Unit)又はこれらの組み合わせを含むコンピュータにプログラムを実行させることによって実現してもよい。   The sound source estimation process described above may be realized by causing a computer including a DSP (Digital Signal Processor), an MPU (Micro Processing Unit), a CPU (Central Processing Unit), or a combination thereof to execute a program.

上述の例において、音源推定処理をコンピュータに行わせるための命令群を含むプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。   In the above example, a program including a group of instructions for causing a computer to perform sound source estimation processing is stored using various types of non-transitory computer readable media and supplied to the computer. can do. Non-transitory computer readable media include various types of tangible storage media. Examples of non-transitory computer-readable media include magnetic recording media (for example, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (for example, magneto-optical disks), CD-ROMs (Read Only Memory), CD-Rs, CD-R / W, semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)) are included. The program may also be supplied to the computer by various types of transitory computer readable media. Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves. The temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.

11 マイク
12 マイク
13 マイクアンプ
14 マイクアンプ
15 A/D変換器
16 CPU
21 短時間DFT部
22 短時間DFT部
23 雑音推定器
24 マスク生成部
25 Reliability生成部
26 CSP係数算出部
27 時間差推定部
28 方位推定部
29 判定部
30 車両
31 車両信号取得部
32 雑音推定器起動部
41 マスク記憶部
42 マスク選択部
11 microphone 12 microphone 13 microphone amplifier 14 microphone amplifier 15 A / D converter 16 CPU
DESCRIPTION OF SYMBOLS 21 Short time DFT part 22 Short time DFT part 23 Noise estimator 24 Mask generation part 25 Reliability generation part 26 CSP coefficient calculation part 27 Time difference estimation part 28 Direction estimation part 29 Judgment part 30 Vehicle 31 Vehicle signal acquisition part 32 Noise estimator starting Unit 41 Mask storage unit 42 Mask selection unit

Claims (14)

少なくとも2つのマイクによって取得された観測信号を用いて、音源の方向を推定する音源推定装置であって、
前記観測信号に含まれる雑音成分を推定する雑音推定部と、
前記雑音推定部で推定された雑音成分に基づいて、マスクを生成するマスク生成部と、
前記マスク生成部で生成されたマスクの信頼度を算出する信頼度算出部と、
前記マスク、及び前記マスクの信頼度によって補正されたCSP係数を算出するCSP係数算出部と、
補正された前記CSP係数に基づいて、音源の方向を推定する推定部と、を備えた音源推定装置。
A sound source estimation apparatus that estimates the direction of a sound source using observation signals acquired by at least two microphones,
A noise estimation unit for estimating a noise component included in the observation signal;
A mask generation unit that generates a mask based on the noise component estimated by the noise estimation unit;
A reliability calculation unit for calculating the reliability of the mask generated by the mask generation unit;
A CSP coefficient calculation unit that calculates a CSP coefficient corrected by the mask and the reliability of the mask;
A sound source estimation apparatus comprising: an estimation unit that estimates a direction of a sound source based on the corrected CSP coefficient.
補正された前記CSP係数を最大とするインデックスに基づいて、2つの前記マイクに音が到来する到来時間差を算出し、
前記到来時間差に基づいて、前記推定部が音源の方向を推定し、
前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定する請求項1に記載の音源推定装置。
Based on an index that maximizes the corrected CSP coefficient, a difference in arrival time at which sound arrives at the two microphones is calculated,
Based on the arrival time difference, the estimation unit estimates the direction of the sound source,
The sound source estimation apparatus according to claim 1, wherein it is determined whether or not a target sound source exists in the estimated direction according to the corrected maximum value of the CSP coefficient.
前記マスクが、周波数に応じた離散的な値であり、
2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されることを特徴とする請求項1、又は2に記載の音源推定装置。
The mask is a discrete value according to frequency,
The sound source according to claim 1 or 2, wherein the corrected CSP coefficient is calculated by performing inverse Fourier transform on a product of a cross-correlation of observation signals from two microphones and the mask. Estimating device.
前記逆フーリエ変換した値に前記信頼度を乗じることによって、補正された前記CSP係数が算出される請求項3に記載の音源推定装置。   The sound source estimation apparatus according to claim 3, wherein the corrected CSP coefficient is calculated by multiplying the inverse Fourier transform value by the reliability. 請求項1〜4のいずれか1項に音源推定装置を搭載した移動体であって、
前記移動体の動作状態に応じた車両信号に基づいて、前記雑音推定部が雑音推定を行うことを特徴とする移動体。
It is a moving body carrying a sound source estimating device in any 1 paragraph of Claims 1-4,
The moving body, wherein the noise estimation unit performs noise estimation based on a vehicle signal corresponding to an operating state of the moving body.
前記移動体がマスクを予め記憶したマスク記憶部と、
前記移動体の動作状態に応じた車両信号に基づいて、前記マスク記憶部に記憶されたマスクと、前記マスク生成部で生成されたマスクのいずれかを選択するマスク選択部と、をさらに備える請求項5に記載の移動体
A mask storage unit in which the moving body stores a mask in advance;
The apparatus further comprises: a mask stored in the mask storage unit and a mask selection unit that selects one of the masks generated by the mask generation unit based on a vehicle signal corresponding to an operation state of the moving body. Item 6. A moving object according to item 5
少なくとも2つのマイクによって取得された観測信号を用いて、音源の方向を推定する音源推定方法であって、
前記観測信号に含まれる雑音成分を推定するステップと、
前記雑音成分に基づいて、マスクを生成するステップと、
前記マスクの信頼度を算出するステップと、
前記マスク、及び前記マスクの前記信頼度によって補正されたCSP係数を算出するステップと、
補正された前記CSP係数に基づいて、音源の方向を推定するステップと、を備えた音源推定方法。
A sound source estimation method for estimating the direction of a sound source using observation signals acquired by at least two microphones,
Estimating a noise component included in the observed signal;
Generating a mask based on the noise component;
Calculating a reliability of the mask;
Calculating a CSP coefficient corrected by the mask and the reliability of the mask;
A sound source estimation method comprising: estimating a sound source direction based on the corrected CSP coefficient.
補正された前記CSP係数を最大とするインデックスに基づいて、2つの前記マイクに音が到来する到来時間差を算出し、
前記到来時間差に基づいて、前記推定部が音源の方向を推定し、
前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定する請求項7に記載の音源推定方法。
Based on an index that maximizes the corrected CSP coefficient, a difference in arrival time at which sound arrives at the two microphones is calculated,
Based on the arrival time difference, the estimation unit estimates the direction of the sound source,
The sound source estimation method according to claim 7, wherein whether or not a target sound source exists in the estimated direction is determined according to the corrected maximum value of the CSP coefficient.
前記マスクが、周波数に応じた離散的な値であり、
2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されることを特徴とする請求項7、又は8に記載の音源推定方法。
The mask is a discrete value according to frequency,
9. The sound source according to claim 7, wherein the corrected CSP coefficient is calculated by performing inverse Fourier transform on a product of a cross-correlation of observation signals from two microphones and the mask. Estimation method.
前記逆フーリエ変換した値に前記信頼度を乗じることによって、補正された前記CSP係数が算出される請求項9に記載の音源推定方法。   The sound source estimation method according to claim 9, wherein the corrected CSP coefficient is calculated by multiplying the inverse Fourier transform value by the reliability. 少なくとも2つのマイクによって取得された観測信号を用いて、音源の方向を推定する音源推定プログラムであって、
コンピュータに対して、
前記観測信号に含まれる雑音成分を推定するステップと、
前記雑音成分に基づいて、マスクを生成するステップと、
前記マスクの信頼度を算出するステップと、
前記マスク、及び前記マスクの前記信頼度によって補正されたCSP係数を算出するステップと、
補正された前記CSP係数に基づいて、音源の方向を推定するステップと、
を実行させる音源推定プログラム。
A sound source estimation program for estimating the direction of a sound source using observation signals acquired by at least two microphones,
Against the computer,
Estimating a noise component included in the observed signal;
Generating a mask based on the noise component;
Calculating a reliability of the mask;
Calculating a CSP coefficient corrected by the mask and the reliability of the mask;
Estimating the direction of the sound source based on the corrected CSP coefficient;
Sound source estimation program that executes
コンピュータに対して、
補正された前記CSP係数を最大とするインデックスに基づいて、2つの前記マイクに音が到来する到来時間差を算出させ、
前記到来時間差に基づいて、前記推定部が音源の方向を推定させ、
前記補正されたCSP係数の最大値に応じて、推定された方向に目的とする音源が存在するか否かを判定させる請求項11に記載の音源推定プログラム。
Against the computer,
Based on the index that maximizes the corrected CSP coefficient, the arrival time difference at which sound arrives at the two microphones is calculated,
Based on the arrival time difference, the estimation unit estimates the direction of the sound source,
The sound source estimation program according to claim 11, wherein it is determined whether or not a target sound source exists in the estimated direction according to the corrected maximum value of the CSP coefficient.
前記マスクが、周波数に応じた離散的な値であり、
2つの前記マイクからの観測信号の相互相関と前記マスクとの積を逆フーリエ変換することによって、補正された前記CSP係数が算出されることを特徴とする請求項11、又は12に記載の音源推定プログラム。
The mask is a discrete value according to frequency,
The sound source according to claim 11 or 12, wherein the corrected CSP coefficient is calculated by performing inverse Fourier transform on a product of a cross-correlation of observation signals from two microphones and the mask. Estimation program.
前記逆フーリエ変換した値に前記信頼度を乗じることによって、補正された前記CSP係数が算出される請求項13に記載の音源推定プログラム。   The sound source estimation program according to claim 13, wherein the corrected CSP coefficient is calculated by multiplying the inverse Fourier transform value by the reliability.
JP2011241610A 2011-11-02 2011-11-02 Sound source estimation apparatus, method, program, and moving object Active JP5692006B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011241610A JP5692006B2 (en) 2011-11-02 2011-11-02 Sound source estimation apparatus, method, program, and moving object

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011241610A JP5692006B2 (en) 2011-11-02 2011-11-02 Sound source estimation apparatus, method, program, and moving object

Publications (2)

Publication Number Publication Date
JP2013097273A true JP2013097273A (en) 2013-05-20
JP5692006B2 JP5692006B2 (en) 2015-04-01

Family

ID=48619237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011241610A Active JP5692006B2 (en) 2011-11-02 2011-11-02 Sound source estimation apparatus, method, program, and moving object

Country Status (1)

Country Link
JP (1) JP5692006B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015102486A (en) * 2013-11-27 2015-06-04 積水化学工業株式会社 Identification method of defect position
CN107424616A (en) * 2017-08-21 2017-12-01 广东工业大学 A kind of phase spectrum removes the method and apparatus of mask
KR20190090578A (en) * 2018-01-25 2019-08-02 서강대학교산학협력단 Sound source localization method based CDR mask and localization apparatus using the method
WO2020110228A1 (en) * 2018-11-28 2020-06-04 三菱電機株式会社 Information processing device, program and information processing method
CN112262433A (en) * 2018-04-05 2021-01-22 弗劳恩霍夫应用研究促进协会 Apparatus, method or computer program for estimating inter-channel time difference
CN114173273A (en) * 2021-12-27 2022-03-11 科大讯飞股份有限公司 Microphone array detection method, related device and readable storage medium

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0587903A (en) * 1991-09-27 1993-04-09 Nippon Telegr & Teleph Corp <Ntt> Predicting method of direction of sound source
WO2006059806A1 (en) * 2004-12-03 2006-06-08 Honda Motor Co., Ltd. Voice recognition system
WO2008146565A1 (en) * 2007-05-30 2008-12-04 Nec Corporation Sound source direction detecting method, device, and program
JP2010239424A (en) * 2009-03-31 2010-10-21 Kddi Corp Method, device and program for suppressing noise
JP2011113044A (en) * 2009-11-30 2011-06-09 Internatl Business Mach Corp <Ibm> Method, device and program for objective voice extraction
JP2011139409A (en) * 2010-01-04 2011-07-14 Mitsunori Mizumachi Audio signal processor, audio signal processing method, and computer program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0587903A (en) * 1991-09-27 1993-04-09 Nippon Telegr & Teleph Corp <Ntt> Predicting method of direction of sound source
WO2006059806A1 (en) * 2004-12-03 2006-06-08 Honda Motor Co., Ltd. Voice recognition system
WO2008146565A1 (en) * 2007-05-30 2008-12-04 Nec Corporation Sound source direction detecting method, device, and program
JP2010239424A (en) * 2009-03-31 2010-10-21 Kddi Corp Method, device and program for suppressing noise
JP2011113044A (en) * 2009-11-30 2011-06-09 Internatl Business Mach Corp <Ibm> Method, device and program for objective voice extraction
JP2011139409A (en) * 2010-01-04 2011-07-14 Mitsunori Mizumachi Audio signal processor, audio signal processing method, and computer program

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200501100012; 傳田遊亀他: '"帯域分割型CSP法に基づく話者位置推定法の検討"' 情報処理学会研究報告 Vol.2004,No.131, 200412, pp.169-174 *
CSNG200801121011; 傳田遊亀他: '"話者方位推定を利用した動的時間領域処理に基づく遠隔発話区間検出"' 電子情報通信学会論文誌 Vol.J92-D,No.1, 200901, pp.112-122 *
JPN6011046251; 傳田遊亀他: '"話者方位推定を利用した動的時間領域処理に基づく遠隔発話区間検出"' 電子情報通信学会論文誌 Vol.J92-D,No.1, 200901, pp.112-122 *
JPN6014047616; 傳田遊亀他: '"帯域分割型CSP法に基づく話者位置推定法の検討"' 情報処理学会研究報告 Vol.2004,No.131, 200412, pp.169-174 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015102486A (en) * 2013-11-27 2015-06-04 積水化学工業株式会社 Identification method of defect position
CN107424616B (en) * 2017-08-21 2020-09-11 广东工业大学 Method and device for removing mask by phase spectrum
CN107424616A (en) * 2017-08-21 2017-12-01 广东工业大学 A kind of phase spectrum removes the method and apparatus of mask
KR20190090578A (en) * 2018-01-25 2019-08-02 서강대학교산학협력단 Sound source localization method based CDR mask and localization apparatus using the method
KR102088222B1 (en) * 2018-01-25 2020-03-16 서강대학교 산학협력단 Sound source localization method based CDR mask and localization apparatus using the method
CN112262433A (en) * 2018-04-05 2021-01-22 弗劳恩霍夫应用研究促进协会 Apparatus, method or computer program for estimating inter-channel time difference
JP2021519949A (en) * 2018-04-05 2021-08-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン A device, method or computer program for estimating the time difference between channels
JP7204774B2 (en) 2018-04-05 2023-01-16 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Apparatus, method or computer program for estimating inter-channel time difference
US11594231B2 (en) 2018-04-05 2023-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for estimating an inter-channel time difference
CN112262433B (en) * 2018-04-05 2024-03-01 弗劳恩霍夫应用研究促进协会 Apparatus, method or computer program for estimating time differences between channels
WO2020110228A1 (en) * 2018-11-28 2020-06-04 三菱電機株式会社 Information processing device, program and information processing method
JPWO2020110228A1 (en) * 2018-11-28 2021-03-11 三菱電機株式会社 Information processing equipment, programs and information processing methods
CN114173273A (en) * 2021-12-27 2022-03-11 科大讯飞股份有限公司 Microphone array detection method, related device and readable storage medium
CN114173273B (en) * 2021-12-27 2024-02-13 科大讯飞股份有限公司 Microphone array detection method, related device and readable storage medium

Also Published As

Publication number Publication date
JP5692006B2 (en) 2015-04-01

Similar Documents

Publication Publication Date Title
JP5692006B2 (en) Sound source estimation apparatus, method, program, and moving object
JP6001248B2 (en) Sound source detection device
US20150117652A1 (en) Sound source detection device, noise model generation device, noise reduction device, sound source direction estimation device, approaching vehicle detection device and noise reduction method
US20140064514A1 (en) Target sound enhancement device and car navigation system
JP6107151B2 (en) Noise suppression apparatus, method, and program
US10580428B2 (en) Audio noise estimation and filtering
US20120322511A1 (en) De-noising method for multi-microphone audio equipment, in particular for a &#34;hands-free&#34; telephony system
CN109509465B (en) Voice signal processing method, assembly, equipment and medium
US9713981B2 (en) Object detection device and object detection method
KR100877914B1 (en) sound source direction detecting system by sound source position-time difference of arrival interrelation reverse estimation
JP6225245B2 (en) Signal processing apparatus, method and program
KR20110057661A (en) Mobile device and control method thereof
JP2010121975A (en) Sound-source localizing device
CN105607042A (en) Method for locating sound source through microphone array time delay estimation
JP6686895B2 (en) Audio processing device, audio processing method, and program
KR20110060183A (en) Signal processing apparatus and method for removing reflected wave generated by robot platform
US20190250240A1 (en) Correlation function generation device, correlation function generation method, correlation function generation program, and wave source direction estimation device
KR20140015893A (en) Apparatus and method for estimating location of sound source
JP6048596B2 (en) Sound collector, input signal correction method for sound collector, and mobile device information system
JP2013192087A (en) Noise suppression device, microphone array device, noise suppression method, and program
Giraldo-Guzmán et al. Vehicle speed estimation using audio features and neural networks
KR101269189B1 (en) Apparatus and method for estimating sound source
JP2012149906A (en) Sound source position estimation device, sound source position estimation method and sound source position estimation program
JP6433630B2 (en) Noise removing device, echo canceling device, abnormal sound detecting device, and noise removing method
US20190219679A1 (en) Device for estimating speed of moving sound source, speed monitoring system, method for estimating speed of moving sound source, and storage medium in which program for estimating speed of moving sound source is stored

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150119

R151 Written notification of patent or utility model registration

Ref document number: 5692006

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151