JP2013088141A - Sound source direction estimation method, sound source direction estimation device and creation device for image for sound source estimation - Google Patents
Sound source direction estimation method, sound source direction estimation device and creation device for image for sound source estimation Download PDFInfo
- Publication number
- JP2013088141A JP2013088141A JP2011226020A JP2011226020A JP2013088141A JP 2013088141 A JP2013088141 A JP 2013088141A JP 2011226020 A JP2011226020 A JP 2011226020A JP 2011226020 A JP2011226020 A JP 2011226020A JP 2013088141 A JP2013088141 A JP 2013088141A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- microphone
- microphones
- sound source
- cross spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
Description
本発明は、複数のマイクロフォンで採取した音の情報から音源方向を推定する方法とその装置、及び、マイクロフォンで採取した音の情報と撮影手段で撮影した映像の情報とを用いて、音源を推定するための画像を作成する装置に関するものである。 The present invention relates to a method and apparatus for estimating a sound source direction from sound information collected by a plurality of microphones, and to estimate a sound source using sound information collected by a microphone and video information photographed by a photographing means. The present invention relates to an apparatus for creating an image to be used.
従来、音の到来方向である音源方向を推定する方法としては、多数のマイクロフォンを等間隔に配置したマイクロフォンアレーを構成し、基準となるマイクロフォンで採取された音圧信号と各マイクロフォンで採取された音圧信号との位相差から音源方向を推定する、いわゆる音響学的手法が考案されている(例えば、非特許文献1参照)。
一方、マイクロフォンアレーを構成する複数のマイクロフォンの出力信号の位相差からではなく、複数のマイクロフォンにより互いに交わる直線状に配置された複数のマイクロフォン対を構成し、対となる2つのマイクロフォン間の位相差に相当する到達時間差と、他の対となる2つのマイクロフォン間の到達時間差との比から音源の方向を推定する方法が提案されている(例えば、特許文献1〜3参照)。
Conventionally, as a method of estimating the sound source direction that is the direction of sound arrival, a microphone array in which a large number of microphones are arranged at equal intervals is configured, and a sound pressure signal collected by a reference microphone and each microphone are collected. A so-called acoustic technique has been devised that estimates the sound source direction from the phase difference with the sound pressure signal (see, for example, Non-Patent Document 1).
On the other hand, not a phase difference between output signals of a plurality of microphones constituting a microphone array, but a plurality of microphone pairs arranged in a straight line intersecting each other by a plurality of microphones, and a phase difference between two paired microphones There has been proposed a method for estimating the direction of a sound source from the ratio of the arrival time difference corresponding to the above and the arrival time difference between two other paired microphones (see, for example,
具体的には、図6に示すように、4個のマイクロフォンM1〜M4を、互いに直交する2直線上にそれぞれ所定の間隔で配置された2組のマイクロフォン対(M1,M3)及びマイクロフォン対(M2,M4)を構成するように配置し、前記マイクロフォン対(M1,M3)を構成するマイクロフォンM1,M3に入力する音の到達時間差D13と、前記マイクロフォン対(M2,M4)を構成するマイクロフォンM2,M4に入力する音の到達時間差D24との比から、計測点と音源の位置との水平角θを推定するとともに、前記マイクロフォンM1〜M4の作る平面上にない位置に第5のマイクロフォンM5を配置して4組のマイクロフォン対(M5, M1),(M5, M2),(M5, M3),(M5, M4)を構成し、前記各マイクロフォン対を構成するマイクロフォンで採取した音の到達時間差D13,D24及びD5j(j=1〜4)から、計測点と音源の位置との成す仰角φを推定する。
なお、前記到達時間差Dijは、2つのマイクロフォン対(Mi,Mj)に入力される信号をA/D変換した音圧波形データをそれぞれ高速フーリエ変換し、この高速フーリエ変換された音圧波形データのクロススペクトルを求め、更に、対象とする周波数fの位相角情報を用いて算出される。
また、計測点から測った音源方向は、前記水平角θと前記仰角φとにより表わせる。
Specifically, as shown in FIG. 6, two microphone pairs (M1, M3) and microphone pairs (four microphones M1 to M4) are arranged at predetermined intervals on two straight lines orthogonal to each other. M2, M4) arranged so as to constitute a microphone constituting the arrival time difference D 13 of the sound input to the microphone M1, M3 constituting the microphone pair (M1, M3), said microphone pairs (M2, M4) The horizontal angle θ between the measurement point and the position of the sound source is estimated from the ratio with the arrival time difference D 24 of the sound input to M2 and M4, and the fifth microphone is located at a position not on the plane formed by the microphones M1 to M4. M5 is arranged to constitute four pairs of microphones (M5, M1), (M5, M2), (M5, M3), (M5, M4). The elevation angle φ formed by the measurement point and the position of the sound source is estimated from the arrival time differences D 13 , D 24 and D 5j (j = 1 to 4) of the sounds collected by the microphones constituting the pair.
The arrival time difference D ij is obtained by subjecting sound pressure waveform data obtained by A / D conversion of signals input to the two microphone pairs (M i , M j ) to fast Fourier transform, respectively. The cross spectrum of the waveform data is obtained and further calculated using the phase angle information of the target frequency f.
The sound source direction measured from the measurement point can be expressed by the horizontal angle θ and the elevation angle φ.
これにより、マイクロフォンアレーを用いて音源方向を推定する場合に比較して、少ないマイクロフォン数で音源方向を正確に推定することができる。
また、このとき、CCDカメラ等の映像採取手段を設けて前記推定された音源方向の画像を撮影し、この画像データと音源方向のデータとを合成して、画像中に前記推定した音源方向(θ,φ)と音圧レベルとを図形で表示した音源推定用画像をディスプレイ等の表示画面に表示するようにすれば、音源を視覚的に把握することができる。
また、音の採取と同時に映像採取手段にて映像を連続的に撮影し、音の情報である音圧波形データと映像の情報である画像データとをコンピュータのハードディスクに保存しておき、音の情報と映像の情報との採取後に、ハードディスクから音圧波形データを取出して音源方向を推定するとともに、この音源方向の推定計算に使用した音圧波形データに対応する画像データをハードディスクから取出し、この画像データと音源方向のデータとを合成して音源推定用画像を表示する方法も行われている。
Thereby, compared with the case where the sound source direction is estimated using the microphone array, the sound source direction can be accurately estimated with a small number of microphones.
Further, at this time, a video sampling means such as a CCD camera is provided to take an image of the estimated sound source direction, and the image data and the sound source direction data are combined to generate the estimated sound source direction ( If the sound source estimation image in which θ, φ) and the sound pressure level are graphically displayed is displayed on a display screen such as a display, the sound source can be visually grasped.
Simultaneously with the sound collection, the image collection means continuously shoots the image, and the sound pressure waveform data that is the sound information and the image data that is the image information are stored in the hard disk of the computer. After collecting information and video information, the sound pressure waveform data is extracted from the hard disk to estimate the sound source direction, and the image data corresponding to the sound pressure waveform data used for the calculation of the sound source direction is extracted from the hard disk. A method of displaying a sound source estimation image by combining image data and sound source direction data is also performed.
前記従来の方法では、音源の方向と到来した音の大きさを周波数毎に計測できるので、音源の情報を確実に把握することができるものの、反射音の大きい場においては、直接音と反射音とを区別するための演算処理が必要であった。
また、音源方向の解析区間が0.1〜1.0sec.と長いため、周期の短い衝撃音を的確に捉えることが困難であった。
In the conventional method, the direction of the sound source and the magnitude of the incoming sound can be measured for each frequency, so that the information on the sound source can be reliably grasped. It is necessary to perform arithmetic processing to distinguish the
Also, the sound source direction analysis interval is 0.1 to 1.0 sec. For this reason, it was difficult to accurately capture impact sounds with a short period.
本発明は、従来の問題点に鑑みてなされたもので、反射音の大きい場であっても直接音の音源方向を容易にかつ精度よく推定することができるとともに、衝撃音についても的確に抽出することのできる方法とその装置を提供することを目的とする。 The present invention has been made in view of the conventional problems, and can easily and accurately estimate the direction of the sound source of a direct sound even when the reflected sound is large, and can accurately extract the impact sound. It is an object of the present invention to provide a method and an apparatus that can be used.
本願発明者らは、鋭意検討の結果、クロススペクトルを求める際に、解析区間の長さ(入力信号に掛けられる窓関数の窓の幅)を短くして周波数分解能を低くした極短時間高速フーリエ変換を多数回行ってそれぞれクロススペクトルを求め、これら求められた多数回のクロススペクトルを加重平均した加重平均クロススペクトルから重心的な位相差(到達時間差)を算出するようにすれば、直接音の音源方向を精度良く推定することができることを見出し、本発明に到ったものである。
すなわち、本願の請求項1に記載の発明は、複数のマイクロフォンで採取した音の音圧信号から音源の方向を推定する方法であって、互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対を用いて到来した音の音圧信号を採取するステップと、前記第1のマイクロフォン対を構成するマイクロフォンM1,M3で採取された音圧信号と第2のマイクロフォン対を構成するマイクロフォンM2,M4で採取された音圧信号とをそれぞれA/D変換して前記4つのマイクロフォンM1〜M4で採取された音の音圧波形データをそれぞれ求めるステップと、前記各音圧波形データを高速フーリエ変換するステップと、前記高速フーリエ変換された前記マイクロフォンM1,M3の音圧波形データのクロススペクトルと前記マイクロフォンM2,M4の音圧波形データのクロススペクトルとを求めてマイクロフォンM1,M3間の音の到達時間差D13と前記マイクロフォンM2,M4間の音の到達時間差D24をそれぞれ算出するステップと、前記算出された第1のマイクロフォン対における到達時間差D13と第2のマイクロフォン対における到達時間差D24とから前記到来した音の音源方向を推定するステップと、を備え、前記高速フーリエ変換するステップでは、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、前記到達時間差を算出するステップは、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるステップと、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求めるステップと、前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24を算出するステップと、を備えることを特徴とする。
このように、極短時間解析を多数回行い、これら多数回のクロススペクトルの平均を振幅値による加重平均により求めて到達時間差を算出することにより、反射音やノイズ成分を低減するようにしたので、反射が大きい場においても、衝撃音などの直接音を確実に捉えることができるとともに、連続音についても音源方向を精度よく推定することができる。
As a result of intensive studies, the inventors of the present application have obtained a very short time fast Fourier in which the frequency resolution is reduced by shortening the length of the analysis section (the width of the window of the window function applied to the input signal) when obtaining the cross spectrum. If the cross spectrum is obtained by performing the conversion many times, and the centroidal phase difference (arrival time difference) is calculated from the weighted average cross spectrum obtained by weighted averaging of the obtained multiple cross spectra, the direct sound The present inventors have found that the direction of a sound source can be estimated with high accuracy and have arrived at the present invention.
That is, the invention according to
As described above, the analysis of the short time analysis was performed many times, and the average of these multiple cross spectra was obtained by the weighted average based on the amplitude value, and the arrival time difference was calculated, so that the reflected sound and noise components were reduced. Even in a highly reflective field, a direct sound such as an impact sound can be reliably captured, and a sound source direction can be accurately estimated for a continuous sound.
請求項2に記載の発明は、請求項1に記載の音源方向推定方法であって、前記4つのマイクロフォンM1〜M4に加えて、前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンM5を設けて到来した音の音圧信号を採取するとともに、前記到達時間差を算出するステップは、前記2組のマイクロフォン対を構成するマイクロフォンM1,M3間及びマイクロフォンM2,M4間の到達時間差D13,D24と、前記第5のマイクロフォンM5と前記4つのマイクロフォンM1〜M4のそれぞれとで構成される4組のマイクロフォン対を構成するマイクロフォン間の到達時間差D51〜D54を算出し、前記音源方向を推定するステップでは、前記算出された到達時間差D13,D24,D51〜D54を用いて前記到来した音の音源方向を推定することを特徴とする。
これにより、計測点から見た音源方向の水平角θに加えて、仰角φについても推定できるので、音源方向の推定精度を向上させることができる。
The invention according to
Thus, since the elevation angle φ can be estimated in addition to the horizontal angle θ of the sound source direction viewed from the measurement point, the estimation accuracy of the sound source direction can be improved.
請求項3に記載の発明は、互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対と前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンとを有する音採取手段を備え、前記音採取手段で採取した音の音圧信号から、音源の方向を推定する音源方向推定装置であって、前記各マイクロフォンで採取した音圧信号をそれぞれデジタル信号に変換するA/D変換器と、前記デジタル信号に変換された音圧信号である音圧波形データを高速フーリエ変換する高速フーリエ変換器と、
前記高速フーリエ変換された音圧波形データのうちの前記第1のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第2のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第5のマイクロフォンと前記第1及び第2のマイクロフォン対を構成する4つのマイクロフォンのそれぞれで採取された音の音圧波形データとのクロススペクトルとを演算するクロススペクトル演算手段と、前記クロススペクトルから前記第1及び第2のマイクロフォン対をそれぞれ構成するマイクロフォン間の音の到達時間差D13,D24と前記第5のマイクロフォンと前記2組のマイクロフォン対を構成する4個のマイクロフォン間の音の到達時間差D51〜D54とを算出する到達時間差算出手段と、前記算出された到達時間差D13,D24,D51〜D54を用いて音源方向を推定する音源方向推定手段とを備え、前記高速フーリエ変換器は、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、前記クロススペクトル演算手段は、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるとともに、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求め、前記到達時間差算出手段は、前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24,D51〜D54を算出することを特徴とする。
このような構成を採ることにより、短時間高速フーリエ変換した音圧波形データの加重平均クロススペクトルを確実に求めることができるので、直接音の音源方向を精度良く推定することができる音源方向推定装置を得ることができる。
According to a third aspect of the present invention, there are provided a first microphone pair and a second microphone pair disposed at predetermined intervals on two straight lines that intersect with each other, and a fifth microphone that is not on a plane formed by the two microphone pairs. A sound source direction estimating device for estimating the direction of the sound source from the sound pressure signal of the sound collected by the sound collecting means, wherein each sound pressure signal collected by each microphone is converted into a digital signal. An A / D converter for converting, a fast Fourier transformer for fast Fourier transforming sound pressure waveform data, which is a sound pressure signal converted into the digital signal,
Among the sound pressure waveform data subjected to the fast Fourier transform, a cross spectrum of sound pressure waveform data of sound collected by two microphones constituting the first microphone pair and 2 constituting the second microphone pair Cross spectrum of sound pressure waveform data of sound collected by one microphone, and sound pressure waveform data of sound collected by each of the fifth microphone and the four microphones constituting the first and second microphone pairs cross spectrum and the cross-spectrum calculation means for calculating a time of arrival difference D 13, D 24 of the sound between the microphones respectively constituting the first and second microphone pair from the cross-spectral and the fifth microphone and The arrival of sound between the four microphones constituting the two microphone pairs And the arrival time difference calculating means for calculating a reach time difference D 51 to D 54, and a sound source direction estimating means for estimating the sound source direction using the arrival time the calculated difference D 13, D 24, D 51 ~D 54, The fast Fourier transformer has an analysis section length of 0.1 msec. -10 msec. The ultra-short-time fast Fourier transform is continuously performed many times, or a part of the analysis section is overlapped many times, and the cross spectrum calculation means is operated for each operation of the ultra-short-time fast Fourier transform. And calculating a weighted average cross spectrum obtained by weighted averaging the cross spectrum obtained for each operation of the extremely short time fast Fourier transform from the amplitude value. The calculating means calculates the arrival time differences D 13 , D 24 , D 51 to D 54 between the microphones from the weighted average cross spectrum.
By adopting such a configuration, a weighted average cross spectrum of sound pressure waveform data subjected to short-time fast Fourier transform can be obtained reliably, so that a sound source direction estimating device that can accurately estimate the sound source direction of a direct sound Can be obtained.
また、請求項4に記載の発明は、互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対と前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンとを備えた音採取手段と音源方向の映像を撮影する撮影手段とを備え、前記音採取手段で採取した音源から伝播される音の音圧信号と前記音圧信号と前記撮影手段で撮影された音源の方向の映像信号とから、音源の方向を示す図形が描画された画像である音源推定用画像を作成する音源推定用画像の作成装置であって、前記各マイクロフォンで採取した音圧信号と撮影手段で撮影した映像信号とをそれぞれデジタル信号に変換するA/D変換器と、前記デジタル信号に変換された音圧信号である音圧波形データをそれぞれ高速フーリエ変換する高速フーリエ変換器と、前記高速フーリエ変換された音圧波形データのうちの前記第1のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第2のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第5のマイクロフォンと前記第1及び第2のマイクロフォン対を構成する4つのマイクロフォンのそれぞれで採取された音の音圧波形データとのクロススペクトルとを演算するクロススペクトル演算手段と、前記クロススペクトルから前記第1及び第2のマイクロフォン対をそれぞれ構成するマイクロフォン間の音の到達時間差D13,D24と前記第5のマイクロフォンと前記2組のマイクロフォン対を構成する4個のマイクロフォン間の音の到達時間差D51〜D54とを算出する到達時間差算出手段と、前記算出された到達時間差D13,D24,D51〜D54を用いて音源方向を推定する音源方向推定手段と、前記推定された音源方向のデータと前記デジタル信号に変換された映像信号である画像データとを合成して、前記推定された音源方向を示す図形が描画された画像である音源推定用画像を作成する音源推定用画像作成手段とを備え、前記高速フーリエ変換器は、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、前記クロススペクトル演算手段は、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるとともに、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求め、前記到達時間差算出手段は、前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24,D51〜D54を算出することを特徴とする。
このような構成を採ることにより、直接音の音源方向を精度良く推定することができるとともに、音源を推定するための音源推定用画像を容易に作成することができる。
また、請求項5に記載の発明は、請求項4に記載の音源推定用画像の作成装置において、前記作成された音源推定用画像を表示する表示画面を有する表示手段を備えたことを特徴とする。
これにより、表示手段の表示画面状に音源推定用画像を表示できるので、作業者が音源を容易に視認することができる。
According to a fourth aspect of the present invention, there is provided a fifth embodiment in which the first and second microphone pairs disposed at predetermined intervals on two straight lines that intersect with each other and the plane formed by the two microphone pairs are not on the fifth plane. A sound collecting means including a microphone and a photographing means for photographing a sound source direction image, and a sound pressure signal of the sound propagated from the sound source collected by the sound collecting means, the sound pressure signal, and the photographing means. A sound source estimation image creating apparatus that creates a sound source estimation image that is an image in which a graphic showing a direction of a sound source is drawn from a video signal in a direction of the sound source, and the sound pressure collected by each microphone An A / D converter that converts a signal and a video signal captured by a photographing means into digital signals, and a fast Fourier transform of sound pressure waveform data that is a sound pressure signal converted into the digital signals, respectively A fast Fourier transformer, a cross spectrum of sound pressure waveform data of sound collected by two microphones constituting the first microphone pair of the sound pressure waveform data subjected to the fast Fourier transform, and the second Of the sound pressure waveform data of the sound collected by the two microphones constituting the microphone pair, and each of the four microphones constituting the fifth microphone and the first and second microphone pairs. The cross spectrum calculation means for calculating the cross spectrum of the sound pressure waveform data of the sound and the sound arrival time differences D 13 and D 24 between the microphones constituting the first and second microphone pairs from the cross spectrum, respectively. And the fifth microphone and the four microphones constituting the two pairs of microphones And the arrival time difference calculating means for calculating an arrival time difference D 51 to D 54 of the sound between the microphones, the sound source direction estimation for estimating the sound source direction using the arrival time the calculated difference D 13, D 24, D 51 ~D 54 Means for synthesizing the estimated sound source direction data and the image data which is the video signal converted into the digital signal, and is a sound source estimation image which is an image in which a figure showing the estimated sound source direction is drawn Sound source estimation image creating means for creating an image, wherein the fast Fourier transformer has an analysis section length of 0.1 msec. -10 msec. The ultra-short-time fast Fourier transform is continuously performed many times, or a part of the analysis section is overlapped many times, and the cross spectrum calculation means is operated for each operation of the ultra-short-time fast Fourier transform. And calculating a weighted average cross spectrum obtained by weighted averaging the cross spectrum obtained for each operation of the extremely short time fast Fourier transform from the amplitude value. The calculating means calculates the arrival time differences D 13 , D 24 , D 51 to D 54 between the microphones from the weighted average cross spectrum.
By adopting such a configuration, the sound source direction of the direct sound can be estimated with high accuracy, and a sound source estimation image for estimating the sound source can be easily created.
Further, the invention described in
Thereby, since the sound source estimation image can be displayed on the display screen of the display means, the operator can easily visually recognize the sound source.
なお、前記発明の概要は、本発明の必要な全ての特徴を列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となり得る。 The summary of the invention does not list all necessary features of the present invention, and sub-combinations of these feature groups can also be the invention.
以下、実施の形態を通じて本発明を詳説するが、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また、実施の形態の中で説明される特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。 Hereinafter, the present invention will be described in detail through embodiments, but the following embodiments do not limit the invention according to the claims, and all combinations of features described in the embodiments are included. It is not necessarily essential for the solution of the invention.
図1は音源推定用画像表示システムの構成を示す機能ブロック図である。
音源推定用画像表示システムは、音・映像採取ユニット10とデータ処理装置20と演算置30と表示装置40と記憶装置50とを備える。
データ処理装置20は、増幅器21と、A/D変換器22と、映像入出力手段23とを備える。
演算装置30は、バッファ31と、音圧波形データ抽出手段32と、クロススペクトル演算手段33と、到達時間差算出手段34と、音源方向推定手段35と、画像データ抽出手段36と、音源推定用画像作成手段37とを備える。この演算装置30は、例えば、パーソナルコンピュータのソフトウェアにより構成される。
表示装置40は、後述する音源位置を推定するための画像である音源位置推定画像を表示する表示画面40Mを備える。
記憶装置50は、例えば、パーソナルコンピュータのハードディスクなどから構成されるメモリーである。
FIG. 1 is a functional block diagram showing a configuration of a sound source estimation image display system.
The sound source estimation image display system includes a sound /
The
The
The
The
音・映像採取ユニット10は、音採取手段11と、映像採取手段としてのCCDカメラ(以下、カメラという)12と、マイクロフォン固定部13と、カメラ支持台14と、支柱15と、基台16とを備える。
音採取手段11は複数のマイクロフォンM1〜M5を備える。
マイクロフォンM1〜M5の配置は、図6に示したものと同様で、4個のマイクロフォンM1〜M4を、互いに直交する2直線上にそれぞれ所定の間隔で配置された2組のマイクロフォン対(M1,M3)及びマイクロフォン対(M2,M4)を構成するように配置するとともに、第5のマイクロフォンM5を前記マイクロフォンM1〜M4の作る平面上にない位置、詳細には、マイクロフォンM1〜M4の作る正方形を底面とする四角錐の頂点の位置に配置する。これにより、更に4組のマイクロフォン対(M5, M1)〜(M5, M4)が構成される。
本例では、カメラ12の撮影方向を、前記直交する2直線の交点を通り前記2直線とほぼ45°をなす方向に設定している。したがって、音・映像採取ユニット10の向きは、図1の白抜きの矢印Dの方向となる。カメラ12は、音・映像採取ユニット10の向きに応じた映像を採取する。
The sound /
The sound collection means 11 includes a plurality of microphones M1 to M5.
The arrangement of the microphones M1 to M5 is the same as that shown in FIG. 6, and two microphone pairs (M1, M1) are arranged with four microphones M1 to M4 arranged at predetermined intervals on two straight lines orthogonal to each other. M5) and the microphone pair (M2, M4) are arranged so that the fifth microphone M5 is not on the plane formed by the microphones M1 to M4. Specifically, a square formed by the microphones M1 to M4 is formed. It arranges at the position of the apex of the quadrangular pyramid as the bottom. Thereby, four pairs of microphones (M5, M1) to (M5, M4) are further configured.
In this example, the shooting direction of the camera 12 is set to a direction that passes through the intersection of the two orthogonal lines and forms approximately 45 ° with the two lines. Therefore, the direction of the sound /
マイクロフォン固定部13にはマイクロフォンM1〜M5が設置され、カメラ支持台14にはカメラ12が設置され、マイクロフォン固定部13とカメラ支持台14とは、3本の支柱15によって連結されている。つまり、音採取手段11とカメラ12とは一体化されている。なお、マイクロフォンM1〜M5は、カメラ12の上部に配置される。
基台16は、回転支柱16aとこの回転支柱16aを回転させる図示しない回転機構を備えた支持台16bとを備えており、カメラ支持台14は回転支柱16a上に搭載されている。したがって、回転支柱16aを回転させることにより、音採取手段11とカメラ12とを一体に回転させることができる。なお、回転機構を省略し、作業者が基台16を回転させることで、音・映像採取ユニット10の向きを変更するようにしてもよい。
マイクロフォンM1〜M5は、図示しない音源から到来する音の音圧信号の大きさである音圧レベルをそれぞれ測定する。
The microphones M1 to M5 are installed on the
The
The microphones M1 to M5 each measure a sound pressure level that is a magnitude of a sound pressure signal of sound coming from a sound source (not shown).
増幅器21はローパスフィルタを備え、マイクロフォンM1〜M5で採取した音の音圧信号から高周波ノイズ成分を除去するとともに、前記各音圧信号を増幅してA/D変換器22に出力する。
A/D変換器22は、前記音圧信号をA/D変換した音圧波形データを作成し、これを、バッファ31の音圧波形データ保存領域31aに送る。この音圧波形データ保存領域31aは小領域311〜315に区切られ、各小領域311〜315にそれぞれマイクロフォンM1〜M5の音圧波形データが保存される。
映像入出力手段23は、カメラ12で連続的に撮影された映像信号を入力し、予め設定された画面切換時間Tp(例えば、Tp=1/30秒)毎に撮影方向の画像データをバッファ31の画像データ保存領域31bに送る。
前記所定時間Tp毎に出力される画像データは、表示装置40の表示画面40Mに表示される一つの画面、いわゆる動画の「一コマ」分の画像を構成する画像データである。
The
The A /
The video input / output means 23 inputs video signals continuously shot by the camera 12 and outputs image data in the shooting direction every preset screen switching time T p (eg, T p = 1/30 seconds). The data is sent to the image
The image data output at each predetermined time T p is image data that constitutes one screen displayed on the display screen 40M of the
音圧波形データ抽出手段32は、バッファ31の音圧波形データ保存領域31aから、予め設定された高速フーリエ変換(以下、FFTという)の解析区間の長さTFの音圧波形データを順次取出して、クロススペクトル演算手段33の高速フーリエ変換器331〜335に順次出力する。詳細には、小領域311〜315から取出されたマイクロフォンM1〜M5の音圧波形データは、高速フーリエ変換器33kに出力される。
なお、音圧波形データをA/D変換器22から直接高速フーリエ変換器33kに出力してもよい。また、音圧波形データをA/D変換器22から記憶装置50に保存して、記憶装置50から高速フーリエ変換器33kに出力してもよいが、処理速度を考慮すると、音圧波形データは、A/D変換器22から直接、もしくは、バッファ31を介して高速フーリエ変換器33kに出力することが好ましい。
The sound pressure waveform data extraction means 32 sequentially extracts sound pressure waveform data of the length TF of the analysis section of a preset fast Fourier transform (hereinafter referred to as FFT) from the sound pressure waveform
The sound pressure waveform data may be output directly from the A /
クロススペクトル演算手段33は、高速フーリエ変換器33kと、クロススペクトル演算器33mと、加重平均クロススペクトル生成器33Mとを備える。
高速フーリエ変換器33kは、5台の高速フーリエ変換器331〜335を備え、それぞれ、マイクロフォンMk(k=1〜5)の音圧波形データに対して、解析区間の長さTFが、例えば、2msec.と極端に短い極短時間高速フーリエ変換を予め設定された計測時間Tc内にN回行ない、その結果を、順次、クロススペクトル演算器33mに出力する。
なお、極短時間高速フーリエ変換は、長さが解析区間の長さに等しい窓関数を用いて連続して行うが、本例では、解析区間の長さが短いことから、時間的に前後する解析区間の一部を重複させることが好ましい。
The cross spectrum calculation means 33 includes a
The
Note that the extremely short-time fast Fourier transform is continuously performed using a window function whose length is equal to the length of the analysis section. However, in this example, since the length of the analysis section is short, the time is around. It is preferable to overlap a part of the analysis interval.
クロススペクトル演算器33mは、6台のクロススペクトル演算器33x,33y,33a〜33dを備え、極短時間FFTの処理毎に、高速フーリエ変換器331〜335から出力される予め設定された6組のマイクロフォン対のクロススペクトルpn(f)とその振幅wn(f)とを順次求める(n=1〜N)。
具体的には、クロススペクトル演算器33xは、高速フーリエ変換器331,333から出力されるマイクロフォン対(M1,M3)を構成するマイクロフォンM1,M3の音圧波形データであるXn1(f)とXn3(f)とのクロススペクトルpn13(f)とその振幅wn13(f)とを、極短時間FFTの処理毎に順次求める。
クロススペクトル演算器33yは、高速フーリエ変換器332,334から出力されるマイクロフォン対(M2,M4)を構成するマイクロフォンM2,M4の音圧波形データであるXn2(f)とXn4(f)とのクロススペクトルpn24(f)とその振幅wn24(f)とを求める。
クロススペクトル演算器33a〜33dは、それぞれ、高速フーリエ変換器335から出力されるマイクロフォンM5の音圧波形データであるXn5(f)と高速フーリエ変換器331〜334から出力されるマイクロフォンM1〜M4の音圧波形データであるXni(f)とのクロススペクトルpn5j(f)とその振幅wn5j(f)(j=1〜4)とをそれぞれ求める。
なお、クロススペクトルpn(f)は周波数f毎に演算する。
The
Specifically, the
The cross spectrum calculators 33a to 33d are X n5 (f) which is the sound pressure waveform data of the microphone M5 output from the
The cross spectrum p n (f) is calculated for each frequency f.
加重平均クロススペクトル生成器33Mは、6台の加重平均クロススペクトル生成器33X,33Y,33A〜33Dを備え、各クロススペクトル演算器33x,33y,33a〜33dでそれぞれ求めたN個のクロススペクトルpn(f)の加重平均クロススペクトルを求める。
加重平均クロススペクトル生成器33Xは、クロススペクトル演算器33xから順次出力されるn=1〜N個のクロススペクトルpn13(f)とその振幅wn13(f)を図示しないメモリーに一時記憶するとともに、クロススペクトルpn13(f)をその振幅wn13(f)によって加重平均して、マイクロフォンM1で採取した音圧信号とマイクロフォンM3で採取した音圧信号との加重平均クロススペクトルP13(f)を求める。
加重平均クロススペクトル生成器33Yは、クロススペクトル演算器33yで求めたクロススペクトルpn24(f)をその振幅wn24(f)とを用いてマイクロフォンM2で採取した音圧信号とマイクロフォンM4で採取した音圧信号との加重平均クロススペクトルP24(f)を求める。
加重平均クロススペクトル生成器33A〜33Dは、クロススペクトル演算器33a〜33dでそれぞれ求めたクロススペクトルpn5j(f)をその振幅wn5j(f)によって加重平均して、マイクロフォンM5で採取した音圧信号とマイクロフォンMjで採取した音圧信号との加重平均クロススペクトルP5j(f)をそれぞれ求める(j=1〜4)。
The weighted average
The weighted average
The weighted average cross
The weighted average
到達時間差算出手段34は、加重平均クロススペクトル生成器33Mで求められた加重平均クロススペクトルPij(f)から、以下の式(1)を用いて各マイクロフォン対(Mi,Mj)を構成するマイクロフォンMi,Mj間の音の到達時間差Dijを算出する。
到達時間差Dijは周波数f毎に算出する。
音源方向推定手段35では、前記求められた到達時間差D13,D24及び到達時間差D5j(j=1〜4)から、下記の式(2),(3)を用いて、計測点から見た到来した音の方向である水平角θと仰角φとを算出することで、音源方向を推定する。
The arrival time difference D ij is calculated for each frequency f.
The sound source direction estimating means 35 uses the following expressions (2) and (3) from the obtained arrival time differences D 13 and D 24 and the arrival time difference D 5j (j = 1 to 4) to see from the measurement point. The sound source direction is estimated by calculating the horizontal angle θ and the elevation angle φ, which are directions of the incoming sound.
画像データ抽出手段36は、バッファ31の画像データ保存領域31bから、N/2回目極短時間FFTの処理を行った時間、すなわち、前述した計測時間Tcの中心に相当する時間に最も近い時間に撮影した画像データを抽出し、これを音源推定用画像作成手段37に出力する。
音源推定用画像作成手段37は、音源方向推定手段35で推定された水平角θと仰角φのデータと画像データ抽出手段36で抽出された画像データとを合成し、画像中に音源の方向と大きさとを示す図形が描画された音源方向推定画像を作成して表示装置40に出力する。
記憶装置50は、水平角θと仰角φのデータと音源方向推定画像に使用した画像データとを計測時刻とともに記憶する。なお、計測時刻は音源方向推定画像に使用した画像データの撮影時刻である。
The image
The sound source estimation image creating means 37 synthesizes the horizontal angle θ and elevation angle φ data estimated by the sound source direction estimating means 35 and the image data extracted by the image
The
次に、本例の音源推定用画像表示システムを用いた音源方向の推定方法と、音源推定用画像の表示方法について、図2のフローチャートを参照して説明する。
まず、音・映像採取ユニット10とデータ処理装置20と演算装置30と表示装置40とを接続した後、音・映像採取ユニット10を計測点にセットする(ステップS10)。
作業者は、カメラ12の撮影方向を測定予定場所に向け、表示画面40Mを見てカメラ12が計測予定場所を撮影していることを確認した後、マイクロフォンM1〜M5にて音を採取すると同時に、カメラ12にて計測予定場所の映像を採取する(ステップS11)。
次に、マイクロフォンM1〜M5で採取した音の音圧信号を増幅してA/D変換しこのA/D変換したデジタル信号(以下、音圧波形データという)をバッファ31の音ファイル保存領域31aに保存するととともに、カメラ12の映像信号をA/D変換、このA/D変換したデジタル信号(以下、画像データという)をバッファ31の動画ファイル保存領域31bに保存する(ステップS12)。
Next, a sound source direction estimation method and a sound source estimation image display method using the sound source estimation image display system of this example will be described with reference to the flowchart of FIG.
First, after connecting the sound /
The operator directs the shooting direction of the camera 12 to the planned measurement location, sees the display screen 40M and confirms that the camera 12 is shooting the planned measurement location, and then simultaneously collects sound with the microphones M1 to M5. Then, an image of the measurement planned place is collected by the camera 12 (step S11).
Next, the sound pressure signal of the sound collected by the microphones M1 to M5 is amplified and A / D converted, and this A / D converted digital signal (hereinafter referred to as sound pressure waveform data) is stored in the sound
次に、バッファ31の音圧波形データ保存領域31aから、予め設定された長さTFの音圧波形データを順次取出して極短時間高速フーリエ変換を行い(ステップS13)、しかる後に、これら極短時間高速フーリエ変換した音圧波形データから、予め設定しておいたマイクロフォン対(Mi,Mj)を構成するマイクロフォンMiの音圧波形データとマイクロフォンMjの音圧波形データとを取出してクロススペクトルpnij求めるとともにクロススペクトルの振幅の大きさ(振幅値)wnijを算出する(ステップS14)。なお、pnijは、n回目(n=1〜N)に極短時間高速フーリエ変換したマイクロフォンMiの音圧波形デーとマイクロフォンMjの音圧波形デーとのクロススペクトルである。
クロススペクトルpnijとその振幅値wnijの算出は、解析区間の長さTFとサンプリング周期と応じて決定される周波数帯域毎に行う。本例では、周波数帯域が10〜500Hz,500〜1000Hz,1000〜7500Hzの3つの周波数帯域に分けてそれぞれクロススペクトルpij(f)を求めた。
極短時間高速フーリエ変換は、前述したように、解析区間の長さTFが、例えば、2msec.と極端に短い高速フーリエ変換で、本例では、この極短時間高速フーリエ変換を予め設定された計測時間Tc内に多数回行なう。
具体的には、図3(a)に示すように、従来のFFTの解析区間T0の長さ(約1.0sec.)に対して、本例では、図3(b)に示すように、FFTの解析区間の長さTFを極端に短くするとともに、極短時間高速フーリエ変換を解析区間T0の長さに亘って連続してN回(N≧100)行っている。なお、解析区間の長さTFとしては、0.1msec.〜10msec.の範囲とすることが好ましく、1msec.〜2msec.とすると更に好ましい。
なお、極短時間高速フーリエ変換は、長さが解析区間の長さに等しい窓関数を用いて連続して行ってもよいが、解析区間の長さが短いことから、図3(b)に示すように、時間的に前後する解析区間の一部を重複させて行うことが好ましい。
Next, sound pressure waveform data having a preset length TF is sequentially extracted from the sound pressure waveform
The calculation of the cross spectrum p nij and the amplitude value w nij is performed for each frequency band determined according to the length T F of the analysis section and the sampling period. In this example, the cross spectrum p ij (f) is obtained by dividing the frequency band into three frequency bands of 10 to 500 Hz, 500 to 1000 Hz, and 1000 to 7500 Hz.
As described above, the extremely short time fast Fourier transform has an analysis interval length TF of 2 msec. In this example, this extremely short-time fast Fourier transform is performed many times within a preset measurement time Tc .
Specifically, as shown in FIG. 3A, in contrast to the length (about 1.0 sec.) Of the conventional FFT analysis section T 0 , in this example, as shown in FIG. The length TF of the FFT analysis interval is extremely shortened, and the extremely short time fast Fourier transform is performed N times (N ≧ 100) continuously over the length of the analysis interval T 0 . The analysis section length TF is 0.1 msec. -10 msec. Is preferably in the range of 1 msec. ~ 2 msec. More preferably.
Note that the extremely short-time fast Fourier transform may be continuously performed using a window function whose length is equal to the length of the analysis section. However, since the length of the analysis section is short, FIG. As shown, it is preferable to carry out by overlapping a part of analysis sections that are temporally mixed.
ステップS15では、クロススペクトルの演算が終了したか否かを判定する。
クロススペクトルの演算が終了していない場合には、前記ステップS13に戻って、音圧波形データ保存領域31aから、次に解析する音圧波形データを取出して極短時間高速フーリエ変換を行いクロススペクトルを演算するという操作を繰り返す。クロススペクトルの演算が終了した場合には、ステップS16に進んで、N回の操作で得られたN個のクロススペクトルpn(f)とその振幅wn(n=1〜N)から、加重平均クロススペクトルP(f)を求める。
加重平均クロススペクトルP13(f)は以下の式で表わせる。
P13(f)={Σwn13(f)・pn13(f)}/{Σwn13}……Σはn=1〜Nの和。
次に、加重平均クロススペクトルPij(f)から、マイクロフォンMi,Mj間の音の到達時間差Dijを算出し(ステップS17)、これら到達時間差Dijから前述した式(2),(3)を用いて水平角θと仰角φとを算出して、到来した音の音源方向を推定する(ステップS18)。
加重平均クロススペクトルPij(f)は、クロススペクトルpn(f)をその振幅wnで加重平均しているので、直接音よりも振幅が小さくかつ振幅のバラつきの大きな反射音の成分は従来のクロススペクトルPij(f)から求めた反射音の成分よりもかなり小さくなるので、前述の式(1)を用いてマイクロフォンMi,Mj間の音の到達時間差Dijを算出することで、直接音の到達時間差Dijのみを抽出することができる。
また、従来のFFTにおいては、衝撃音が発生した場合には、衝撃音が周期的な音でなくかつ持続時間が短いため、衝撃音の音源を精度よく把握することができなかったが、本例では、極短時間高速フーリエ変換した音圧波形データのクロススペクトルpn(f)をその振幅wnで加重平均しているので、衝撃音の継続時間が短い場合でも、衝撃音を的確に把握することができる。
In step S15, it is determined whether or not the calculation of the cross spectrum has been completed.
If the calculation of the cross spectrum has not been completed, the process returns to step S13, the sound pressure waveform data to be analyzed next is taken out from the sound pressure waveform
The weighted average cross spectrum P 13 (f) can be expressed by the following equation.
P 13 (f) = {Σw n13 (f) · p n13 (f)} / {Σw n13 } …… Σ is the sum of n = 1 to N.
Then, weighted average from the cross spectrum P ij (f), calculates the microphone M i, the arrival time difference D ij sound between M j (step S17), the formula (2) described above from these arrival time differences D ij, ( The horizontal angle θ and the elevation angle φ are calculated using 3), and the sound source direction of the incoming sound is estimated (step S18).
The weighted average cross spectrum P ij (f), since by using the weighted averages of the cross-spectrum p n (f) in its amplitude w n, components of large reflection sound amplitude is small and the amplitude of variation than direct sound conventional Therefore, the sound arrival time difference D ij between the microphones M i and M j is calculated by using the above-described equation (1) because it is much smaller than the reflected sound component obtained from the cross spectrum P ij (f). Only the arrival time difference D ij of the direct sound can be extracted.
In addition, in the conventional FFT, when an impact sound is generated, the impact sound is not a periodic sound and the duration is short, so the sound source of the impact sound cannot be accurately grasped. In the example, since the cross spectrum p n (f) of the sound pressure waveform data subjected to extremely short-time fast Fourier transform is weighted and averaged with the amplitude w n , the impact sound is accurately obtained even when the duration of the impact sound is short. I can grasp it.
音源方向の推定が終了した後には、音源方向を撮影した画像データと推定された水平角θと仰角φのデータとを合成し、画像中に、例えば、半径が到達音の大きさを示し模様が周波数を示す円などの、音源の方向と音の大きさを示す図形が描画された音源方向推定画像を作成し、これを表示手段40の表示画面40Mに表示する(ステップS18)。
図4は、音源方向推定画像の一例としての車室内における音源方向推定画像を示す図、図5は従来の音源推定方法を用いて作成した音源方向推定画像を示す図で、横軸は水平角θ、縦軸は仰角φである。
図4において、左下がりの斜線を施した円が周波数帯域が10〜500Hzの音源、右下がりの斜線を施した円が周波数帯域が500〜1000Hzの音源、網目を施した円が周波数帯域が1000〜1500Hzの音源である。
一方、図5においては、音源方向を、図3(a)に示す方法で高速フーリエ変換して求めたものである。比較のため、31.5〜500Hzのバンドを全て左下がりの斜線を施した円とし、500〜1000Hzのバンドを全て右下がりの斜線を施した円とし、1000〜7500Hzのバンドを全て網目を施した円とした。
図4と図5とを比較して明らかなように、従来の方法では、反射音が大きいだけなく、直接音も反射音も周波数でばらついているのに対し、本実施の形態の方法では、周波数帯域についての情報については精度が低いものの、反射音もなく、音源の位置のバラツキも少ない。したがって、本実施の形態の方法を用いることにより、反射音の大きい場であっても直接音の音源方向を容易にかつ精度よく推定することができることが確認された。
After the estimation of the sound source direction is completed, the image data obtained by photographing the sound source direction and the estimated horizontal angle θ and elevation angle φ data are combined, and for example, the radius indicates the size of the arrival sound. A sound source direction estimation image in which a graphic indicating the direction of the sound source and the size of the sound, such as a circle indicating the frequency, is created and displayed on the display screen 40M of the display means 40 (step S18).
4 is a diagram showing a sound source direction estimation image in a vehicle interior as an example of a sound source direction estimation image, FIG. 5 is a diagram showing a sound source direction estimation image created using a conventional sound source estimation method, and the horizontal axis is a horizontal angle. θ, the vertical axis is the elevation angle φ.
In FIG. 4, a circle with a left-slanted diagonal line indicates a sound source with a frequency band of 10 to 500 Hz, a circle with a diagonally downward-sloping line indicates a sound source with a frequency band of 500 to 1000 Hz, and a circle with a mesh has a frequency band of 1000 It is a sound source of ˜1500 Hz.
On the other hand, in FIG. 5, the sound source direction is obtained by fast Fourier transform by the method shown in FIG. For comparison, all the bands from 31.5 to 500 Hz are circles with a slanting left slope, all the bands from 500 to 1000 Hz are circles with a slanting right slope, and all the bands from 1000 to 7500 Hz are meshed. It was made a circle.
As is clear from comparison between FIG. 4 and FIG. 5, in the conventional method, not only the reflected sound is large, but also the direct sound and the reflected sound vary in frequency, whereas in the method of the present embodiment, Although the accuracy of the information about the frequency band is low, there is no reflected sound and there is little variation in the position of the sound source. Therefore, by using the method of the present embodiment, it was confirmed that the sound source direction of the direct sound can be estimated easily and accurately even in a field where the reflected sound is large.
なお、前記実施の形態では、互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対で採取した音圧信号から到来した音の音源方向を推定したが、本発明はこれに限るものではなく、従来、マイクロフォンアレーを用いた音源推定方向にも適用可能である。
また、前記例では、N個のクロススペクトルを振幅値により加重平均して加重平均クロススペクトルを求めたが、振幅値の二乗で加重平均してもよい。
また、前記例では、5本のマイクロフォンM1〜M5を用いて、計測点と音源位置とのなす水平角θと仰角φとを推定したが、音源位置が水平角θだけで十分な場合には、マイクロフォンM5を省略して、互いに交わる2つの直線上にそれぞれ所定の間隔で配置された2組のマイクロフォン対(M1,M3),(M2,M4)のみを用いればよい。
In the above-described embodiment, the sound source direction of the incoming sound is estimated from the sound pressure signals collected by the first and second microphone pairs arranged at predetermined intervals on two straight lines intersecting each other. The invention is not limited to this, and can be applied to a sound source estimation direction using a microphone array.
In the above example, the weighted average cross spectrum is obtained by weighting and averaging the N cross spectra with the amplitude value. However, the weighted average may be obtained by the square of the amplitude value.
In the above example, the horizontal angle θ and the elevation angle φ formed by the measurement point and the sound source position are estimated using the five microphones M1 to M5. However, when the sound source position is sufficient, the horizontal angle θ is sufficient. The microphone M5 may be omitted, and only two pairs of microphones (M1, M3) and (M2, M4) arranged at predetermined intervals on two straight lines that intersect with each other may be used.
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は前記実施の形態に記載の範囲には限定されない。前記実施の形態に、多様な変更または改良を加えることが可能であることが当業者にも明らかである。そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲から明らかである。 As mentioned above, although this invention was demonstrated using embodiment, the technical scope of this invention is not limited to the range as described in the said embodiment. It will be apparent to those skilled in the art that various modifications or improvements can be added to the embodiment. It is apparent from the claims that the embodiments added with such changes or improvements can be included in the technical scope of the present invention.
以上説明したように、本発明によれば、反射音がある場合にも直接音の音源方向のみを容易にかつ精度よく推定できるとともに、衝撃音についても的確に抽出できるので、簡単な構成で推定精度の高い音源方向推定装置を提供することができる。 As described above, according to the present invention, even when there is a reflected sound, only the sound source direction of the direct sound can be estimated easily and accurately, and the impact sound can also be accurately extracted. A highly accurate sound source direction estimating apparatus can be provided.
10 音・映像採取ユニット、11 音採取手段、12 CCDカメラ、
13 マイクロフォン固定部、14 カメラ支持台、15 支柱、16 基台、
20 データ処理装置、21 増幅器、22 A/D変換器、23 映像入出力手段、
30 演算装置、31、バッファ、31a 音データ保存領域、
31b 画像データ保存領域、32 音圧波形データ抽出手段、
33 クロススペクトル演算手段、33k 高速フーリエ変換器、
33m クロススペクトル演算器、33M 加重平均クロススペクトル生成器、
34 到達時間差算出手段、35 音源方向推定手段、36 画像データ抽出手段、
37 音源推定用画像作成手段、
40 表示装置、40M 表示画面、50 記憶装置、
M1〜M5 マイクロフォン。
10 sound / video sampling unit, 11 sound sampling means, 12 CCD camera,
13 microphone fixing part, 14 camera support base, 15 struts, 16 base,
20 data processing devices, 21 amplifiers, 22 A / D converters, 23 video input / output means,
30 arithmetic unit 31, buffer, 31a sound data storage area,
31b Image data storage area, 32 sound pressure waveform data extraction means,
33 cross spectrum calculation means, 33k fast Fourier transform,
33m cross spectrum calculator, 33M weighted average cross spectrum generator,
34 arrival time difference calculating means, 35 sound source direction estimating means, 36 image data extracting means,
37 sound source estimation image creation means,
40 display device, 40M display screen, 50 storage device,
M1-M5 microphones.
Claims (5)
互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対を用いて到来した音の音圧信号を採取するステップと、
前記第1のマイクロフォン対を構成するマイクロフォンM1,M3で採取された音圧信号と第2のマイクロフォン対を構成するマイクロフォンM2,M4で採取された音圧信号とをそれぞれA/D変換して前記4つのマイクロフォンM1〜M4で採取された音の音圧波形データをそれぞれ求めるステップと、
前記各音圧波形データを高速フーリエ変換するステップと、
前記高速フーリエ変換された前記マイクロフォンM1,M3の音圧波形データのクロススペクトルと前記マイクロフォンM2,M4の音圧波形データのクロススペクトルとを求めてマイクロフォンM1,M3間の音の到達時間差D13と前記マイクロフォンM2,M4間の音の到達時間差D24をそれぞれ算出するステップと、
前記算出された第1のマイクロフォン対における到達時間差D13と第2のマイクロフォン対における到達時間差D24とから前記到来した音の音源方向を推定するステップと、
を備え、
前記高速フーリエ変換するステップでは、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、
前記到達時間差を算出するステップは、
前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるステップと、
前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求めるステップと、
前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24を算出するステップと、
を備えることを特徴とする音源方向推定方法。 A method for estimating the direction of a sound source from sound pressure signals of sounds collected by a plurality of microphones,
Collecting a sound pressure signal of an incoming sound using first and second microphone pairs disposed at predetermined intervals on two straight lines intersecting each other;
The sound pressure signals collected by the microphones M1 and M3 constituting the first microphone pair and the sound pressure signals collected by the microphones M2 and M4 constituting the second microphone pair are A / D converted, respectively. Obtaining respective sound pressure waveform data of sounds collected by the four microphones M1 to M4;
Fast Fourier transform each sound pressure waveform data;
And the fast Fourier transformed the microphone M1, M3 arrival time difference D 13 of the sound between the microphones M1, M3 and a cross spectrum of the sound pressure waveform data determined and a cross spectrum of the sound pressure waveform data of the microphone M2, M4 of Calculating a sound arrival time difference D 24 between the microphones M2 and M4;
Estimating the sound source direction of the incoming sound from the calculated arrival time difference D 13 in the first microphone pair and the arrival time difference D 24 in the second microphone pair;
With
In the fast Fourier transform step, the length of the analysis section is 0.1 msec. -10 msec. Or performing a very short time fast Fourier transform a number of times continuously, or a number of times by overlapping a part of the analysis interval,
The step of calculating the arrival time difference includes:
Obtaining an amplitude value of a cross spectrum obtained for each operation of the ultrashort-time fast Fourier transform;
Obtaining a weighted average cross spectrum obtained by performing a weighted average of the cross spectrum obtained for each operation of the very short time fast Fourier transform from the amplitude value;
Calculating sound arrival time differences D 13 and D 24 between the microphones from the weighted average cross spectrum;
A sound source direction estimation method comprising:
前記2組のマイクロフォン対を構成するマイクロフォンM1,M3間及びマイクロフォンM2,M4間の到達時間差D13,D24と、前記第5のマイクロフォンM5と前記4つのマイクロフォンM1〜M4のそれぞれとで構成される4組のマイクロフォン対を構成するマイクロフォン間の到達時間差D51〜D54を算出し、
前記音源方向を推定するステップでは、
前記算出された到達時間差D13,D24,D51〜D54を用いて前記到来した音の音源方向を推定することを特徴とする請求項1に記載の音源方向推定方法。 In addition to the four microphones M1 to M4, a fifth microphone M5 that is not on the plane formed by the two pairs of microphones is provided to collect a sound pressure signal of the incoming sound and calculate the arrival time difference Then
It is composed of arrival time differences D 13 and D 24 between the microphones M1 and M3 and the microphones M2 and M4 constituting the two pairs of microphones, the fifth microphone M5, and the four microphones M1 to M4. Calculating arrival time differences D 51 to D 54 between the microphones constituting the four microphone pairs;
In the step of estimating the sound source direction,
DOA estimation method according to claim 1, characterized in that for estimating the sound source direction of the incoming sound with the calculated arrival time difference D 13, D 24, D 51 ~D 54.
前記各マイクロフォンで採取した音圧信号をそれぞれデジタル信号に変換するA/D変換器と、
前記デジタル信号に変換された音圧信号である音圧波形データを高速フーリエ変換する高速フーリエ変換器と、
前記高速フーリエ変換された音圧波形データのうちの前記第1のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第2のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第5のマイクロフォンと前記第1及び第2のマイクロフォン対を構成する4つのマイクロフォンのそれぞれで採取された音の音圧波形データとのクロススペクトルとを演算するクロススペクトル演算手段と、
前記クロススペクトルから前記第1及び第2のマイクロフォン対をそれぞれ構成するマイクロフォン間の音の到達時間差D13,D24と前記第5のマイクロフォンと前記2組のマイクロフォン対を構成する4個のマイクロフォン間の音の到達時間差D51〜D54とを算出する到達時間差算出手段と、
前記算出された到達時間差D13,D24,D51〜D54を用いて音源方向を推定する音源方向推定手段とを備え、
前記高速フーリエ変換器は、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、
前記クロススペクトル演算手段は、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるとともに、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求め、
前記到達時間差算出手段は、前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24,D51〜D54を算出することを特徴とする音源方向推定装置。 Sound collecting means comprising first and second microphone pairs disposed on two straight lines intersecting each other at a predetermined interval and a fifth microphone not on a plane formed by the two microphone pairs; A sound source direction estimating device for estimating the direction of a sound source from the sound pressure signal of the sound collected by the sound collecting means,
An A / D converter that converts a sound pressure signal collected by each microphone into a digital signal;
A fast Fourier transformer for fast Fourier transforming sound pressure waveform data that is a sound pressure signal converted into the digital signal;
Among the sound pressure waveform data subjected to the fast Fourier transform, a cross spectrum of sound pressure waveform data of sound collected by two microphones constituting the first microphone pair and 2 constituting the second microphone pair Cross spectrum of sound pressure waveform data of sound collected by one microphone, and sound pressure waveform data of sound collected by each of the fifth microphone and the four microphones constituting the first and second microphone pairs Cross spectrum calculation means for calculating the cross spectrum with
Differences in sound arrival times D 13 and D 24 between the microphones constituting the first and second microphone pairs from the cross spectrum, and between the fifth microphone and the four microphones constituting the two microphone pairs. Arrival time difference calculating means for calculating the arrival time differences D 51 to D 54 of the sound of
Sound source direction estimating means for estimating a sound source direction using the calculated arrival time differences D 13 , D 24 , D 51 to D 54 ,
The fast Fourier transformer has an analysis section length of 0.1 msec. -10 msec. Or performing a very short time fast Fourier transform a number of times continuously, or a number of times by overlapping a part of the analysis interval,
The cross spectrum calculation means obtains the amplitude value of the cross spectrum obtained for each operation of the extremely short time fast Fourier transform, and obtains the cross spectrum obtained for each operation of the extremely short time fast Fourier transform, Obtain a weighted average cross spectrum that is weighted average from the amplitude value,
The arrival time difference calculating means calculates a sound arrival time difference D 13 , D 24 , D 51 to D 54 between the microphones from the weighted average cross spectrum.
前記各マイクロフォンで採取した音圧信号と撮影手段で撮影した映像信号とをそれぞれデジタル信号に変換するA/D変換器と、
前記デジタル信号に変換された音圧信号である音圧波形データをそれぞれ高速フーリエ変換する高速フーリエ変換器と、
前記高速フーリエ変換された音圧波形データのうちの前記第1のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第2のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第5のマイクロフォンと前記第1及び第2のマイクロフォン対を構成する4つのマイクロフォンのそれぞれで採取された音の音圧波形データとのクロススペクトルとを演算するクロススペクトル演算手段と、
前記クロススペクトルから前記第1及び第2のマイクロフォン対をそれぞれ構成するマイクロフォン間の音の到達時間差D13,D24と前記第5のマイクロフォンと前記2組のマイクロフォン対を構成する4個のマイクロフォン間の音の到達時間差D51〜D54とを算出する到達時間差算出手段と、
前記算出された到達時間差D13,D24,D51〜D54を用いて音源方向を推定する音源方向推定手段と、
前記推定された音源方向のデータと前記デジタル信号に変換された映像信号である画像データとを合成して、前記推定された音源方向を示す図形が描画された画像である音源推定用画像を作成する音源推定用画像作成手段とを備え、
前記高速フーリエ変換器は、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、
前記クロススペクトル演算手段は、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるとともに、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求め、
前記到達時間差算出手段は、前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24,D51〜D54を算出することを特徴とする音源推定用画像の作成装置。 Sound collecting means comprising first and second microphone pairs arranged at predetermined intervals on two intersecting straight lines and a fifth microphone not on a plane formed by the two microphone pairs, and a sound source direction A photographing means for photographing the image of, and from the sound pressure signal of the sound propagated from the sound source collected by the sound collecting means, the sound pressure signal, and the video signal in the direction of the sound source photographed by the photographing means, A sound source estimation image creating apparatus that creates a sound source estimation image that is an image in which a graphic showing a direction of a sound source is drawn,
An A / D converter that converts the sound pressure signal collected by each microphone and the video signal photographed by the photographing means into digital signals,
A fast Fourier transformer that performs fast Fourier transform on the sound pressure waveform data that is the sound pressure signal converted into the digital signal;
Among the sound pressure waveform data subjected to the fast Fourier transform, a cross spectrum of sound pressure waveform data of sound collected by two microphones constituting the first microphone pair and 2 constituting the second microphone pair Cross spectrum of sound pressure waveform data of sound collected by one microphone, and sound pressure waveform data of sound collected by each of the fifth microphone and the four microphones constituting the first and second microphone pairs Cross spectrum calculation means for calculating the cross spectrum with
Differences in sound arrival times D 13 and D 24 between the microphones constituting the first and second microphone pairs from the cross spectrum, and between the fifth microphone and the four microphones constituting the two microphone pairs. Arrival time difference calculating means for calculating the arrival time differences D 51 to D 54 of the sound of
Sound source direction estimating means for estimating a sound source direction using the calculated arrival time differences D 13 , D 24 , D 51 to D 54 ;
The estimated sound source direction data and the image data that is the video signal converted into the digital signal are combined to create a sound source estimation image that is an image in which a figure showing the estimated sound source direction is drawn. Sound source estimation image creation means for
The fast Fourier transformer has an analysis section length of 0.1 msec. -10 msec. Or performing a very short time fast Fourier transform a number of times continuously, or a number of times by overlapping a part of the analysis interval,
The cross spectrum calculation means obtains the amplitude value of the cross spectrum obtained for each operation of the extremely short time fast Fourier transform, and obtains the cross spectrum obtained for each operation of the extremely short time fast Fourier transform, Obtain a weighted average cross spectrum that is weighted average from the amplitude value,
The arrival time difference calculating means calculates a sound arrival time difference D 13 , D 24 , D 51 to D 54 between the microphones from the weighted average cross spectrum.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011226020A JP5826582B2 (en) | 2011-10-13 | 2011-10-13 | Sound source direction estimation method, sound source direction estimation device, and sound source estimation image creation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011226020A JP5826582B2 (en) | 2011-10-13 | 2011-10-13 | Sound source direction estimation method, sound source direction estimation device, and sound source estimation image creation device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013088141A true JP2013088141A (en) | 2013-05-13 |
JP5826582B2 JP5826582B2 (en) | 2015-12-02 |
Family
ID=48532216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011226020A Active JP5826582B2 (en) | 2011-10-13 | 2011-10-13 | Sound source direction estimation method, sound source direction estimation device, and sound source estimation image creation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5826582B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016191640A (en) * | 2015-03-31 | 2016-11-10 | 国立大学法人名古屋大学 | Method for diagnosing deterioration of road bridge joint member |
CN109683128A (en) * | 2019-02-01 | 2019-04-26 | 哈尔滨工程大学 | Single snap direction-finding method under impulsive noise environment |
CN109975743A (en) * | 2019-04-12 | 2019-07-05 | 哈尔滨工程大学 | A kind of relatively prime battle array cross-spectrum direction-finding method of line spectrum target |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5166862A (en) * | 1974-12-06 | 1976-06-09 | Boeicho Gijutsu Kenkyu Honbuch | HOISOKUTEIHOSHIKI |
JP2003111183A (en) * | 2001-09-27 | 2003-04-11 | Chubu Electric Power Co Inc | Sound source search system |
JP2006267444A (en) * | 2005-03-23 | 2006-10-05 | Toshiba Corp | Acoustic signal processor, acoustic signal processing method, acoustic signal processing program, and recording medium on which the acoustic signal processing program is recored |
JP2006324895A (en) * | 2005-05-18 | 2006-11-30 | Chubu Electric Power Co Inc | Correcting method for microphone output for sound source survey, low-frequency generating device, sound source survey system, and microphone frame |
JP2007183202A (en) * | 2006-01-10 | 2007-07-19 | Casio Comput Co Ltd | Method and apparatus for determining sound source direction |
JP2008224259A (en) * | 2007-03-09 | 2008-09-25 | Chubu Electric Power Co Inc | System for estimating acoustic source location |
-
2011
- 2011-10-13 JP JP2011226020A patent/JP5826582B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5166862A (en) * | 1974-12-06 | 1976-06-09 | Boeicho Gijutsu Kenkyu Honbuch | HOISOKUTEIHOSHIKI |
JP2003111183A (en) * | 2001-09-27 | 2003-04-11 | Chubu Electric Power Co Inc | Sound source search system |
JP2006267444A (en) * | 2005-03-23 | 2006-10-05 | Toshiba Corp | Acoustic signal processor, acoustic signal processing method, acoustic signal processing program, and recording medium on which the acoustic signal processing program is recored |
JP2006324895A (en) * | 2005-05-18 | 2006-11-30 | Chubu Electric Power Co Inc | Correcting method for microphone output for sound source survey, low-frequency generating device, sound source survey system, and microphone frame |
JP2007183202A (en) * | 2006-01-10 | 2007-07-19 | Casio Comput Co Ltd | Method and apparatus for determining sound source direction |
JP2008224259A (en) * | 2007-03-09 | 2008-09-25 | Chubu Electric Power Co Inc | System for estimating acoustic source location |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016191640A (en) * | 2015-03-31 | 2016-11-10 | 国立大学法人名古屋大学 | Method for diagnosing deterioration of road bridge joint member |
CN109683128A (en) * | 2019-02-01 | 2019-04-26 | 哈尔滨工程大学 | Single snap direction-finding method under impulsive noise environment |
CN109683128B (en) * | 2019-02-01 | 2022-04-29 | 哈尔滨工程大学 | Single-snapshot direction finding method under impact noise environment |
CN109975743A (en) * | 2019-04-12 | 2019-07-05 | 哈尔滨工程大学 | A kind of relatively prime battle array cross-spectrum direction-finding method of line spectrum target |
CN109975743B (en) * | 2019-04-12 | 2020-11-03 | 哈尔滨工程大学 | Cross-spectrum direction finding method for line spectrum target through co-prime array |
Also Published As
Publication number | Publication date |
---|---|
JP5826582B2 (en) | 2015-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5089198B2 (en) | Sound source position estimation system | |
JP5693201B2 (en) | Method and apparatus for reproducing propagation sound from specified area | |
JP5702160B2 (en) | Sound source estimation method and sound source estimation apparatus | |
JP5294925B2 (en) | Sound source estimation method and apparatus | |
US8363512B2 (en) | Method and apparatus for estimating sound source | |
US9706298B2 (en) | Method and apparatus for localization of an acoustic source and acoustic beamforming | |
Thomas et al. | Real-time near-field acoustic holography for continuously visualizing nonstationary acoustic fields | |
EP3073766A1 (en) | Sound field re-creation device, method, and program | |
CN110068388A (en) | A kind of method for detecting vibration of view-based access control model and blind source separating | |
JP5456563B2 (en) | Method and apparatus for displaying sound source estimation image | |
JP5826582B2 (en) | Sound source direction estimation method, sound source direction estimation device, and sound source estimation image creation device | |
JP5565552B2 (en) | Audiovisual processing apparatus, audiovisual processing method, and program | |
CN109597021B (en) | Direction-of-arrival estimation method and device | |
JP2010212818A (en) | Method of processing multi-channel signals received by a plurality of microphones | |
JP2018170717A (en) | Sound pickup device, program, and method | |
JP5734329B2 (en) | Sound field recording / reproducing apparatus, method, and program | |
JP2010236939A (en) | Method and apparatus for estimating sound source | |
JP2007096418A (en) | Separation method of a plurality of sound sources | |
JP5242452B2 (en) | Sound source estimation method and apparatus | |
JP5462667B2 (en) | Surveillance camera device with sound source direction estimation function | |
Torres et al. | Room acoustics analysis using circular arrays: An experimental study based on sound field plane-wave decomposition | |
JP5534870B2 (en) | Sound source estimation image creation device | |
JP2020150490A (en) | Sound source localization apparatus, sound source localization method, and program | |
Grondin et al. | A study of the complexity and accuracy of direction of arrival estimation methods based on GCC-PHAT for a pair of close microphones | |
JP6323901B2 (en) | Sound collection device, sound collection method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140918 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150617 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150623 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151014 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5826582 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |